Δράση 9.14 / Υπηρεσία εντοπισμού λογοκλοπής Κυρίως Παραδοτέο / Εκπαίδευση προσωπικού βιβλιοθηκών μελών Σ.Ε.Α.Β στο πληροφοριακό σύστημα εντοπισμού λογοκλοπής. Επιμέρους Παραδοτέο 9.14.3.2 / Πρότυπα εκπαίδευσης για την εκπαίδευση της μηχανής αναγνώρισης Χρονικό διάστημα Οκτώβριος 2012 Δεκέμβριος 2012 Υπεύθυνο Ίδρυμα Πάντειο Πανεπιστήμιο Ημερομηνία Παράδοσης: 4/1/2013 Έκδοση (τελική) ΣΕΛΙΔΑ 1
Εμπλεκόμενοι στην υλοποίηση του Ενδιάμεσου Παραδοτέου 9.Χ.Χ.Χ: Συγγραφείς Δημήτρης Αντωνάκης Υπεύθυνος Δράσης Κωνσταντία Κακάλη Επιθεωρητές ΣΕΛΙΔΑ 2
Πίνακας Περιεχομένων 1 Συνοπτικά Στοιχεία κυρίως παραδοτέου 9.14.3.2... 4 1.1 Εισαγωγή... 4 2 Επιμέρους παραδοτεο 9.14.3.2... 5 2.1 Διαδικασία Συλλογής... 5 2.2 Απαλοιφή Μορφοποίησης... 6 2.3 Πρότυπα ταξινόμησης... 7 2.4 Περιβάλλον Διαχείρισης... 8 3 Συμπεράσματα... 9 ΣΕΛΙΔΑ 3
1 ΣΥΝΟΠΤΙΚΑ ΣΤΟΙΧΕΙΑ ΚΥΡΙΩΣ ΠΑΡΑΔΟΤΕΟΥ 9.14.3.2 1.1 Εισαγωγή Η ευκταία λειτουργία της Υπηρεσίας Εντοπισμού Λογοκλοπής, καθορίζεται ολικά από τη διαδικασία εκπαίδευσης και μάθησης του αλγορίθμου. Γι αυτό το λόγο, επιχειρήθηκε επαφή με τις Βιβλιοθήκες των Ακαδημαϊκών και Τεχνολογικών Ιδρυμάτων της Ελλάδος, όπως αυτή περιγράφηκε στο προηγούμενο παραδοτέο, με σκοπό την συλλογή περιπτώσεων λογοκλοπής, η οποία όμως δεν απέφερε τα επιθυμητά αποτελέσματα καθώς βρέθηκαν ελάχιστες σε αριθμό - αμελητέο δείγμα για την εκπαίδευση του αλγορίθμου και εξαγωγής συμπερασμάτων - τονίζοντας έτσι από την μια την ανυπαρξία ελεγκτικών μηχανισμών των κατατιθέμενων έργων της ακαδημαϊκής κοινότητας (κενό το οποίο θα καλύψει η υπό ανάπτυξη υπηρεσία εντοπισμού λογοκλοπής) και από την άλλη την έλλειψη θεσμικών κανόνων για τις περιπτώσεις που έχει διαπιστωθεί λογοκλοπή από τα ιδρύματα. Στην τελευταία περίπτωση η συνηθισμένη τακτική των ιδρυμάτων είναι να αφαιρούν την διαπιστωμένη περίπτωση λογοκλοπής από το ψηφιακό αποθετήριο της εκάστοτε βιβλιοθήκης, δίχως να μένει στο αρχείο (έστω για ερευνητικούς σκοπούς) ή έστω σε ένα αρχείο καταγραφών (για στατιστικούς σκοπούς). ΣΕΛΙΔΑ 4
2 ΕΠΙΜΕΡΟΥΣ ΠΑΡΑΔΟΤΕΟ 9.14.3.2 2.1 Διαδικασία Συλλογής Ως εναλλακτική λύση, επιχειρήθηκε η συλλογή περιπτώσεων λογοκλοπής από διαφορετικά κανάλια. Ο Βασίλης Μούγιος, Καθηγητής Βιοχημείας της Άσκησης του Τμήματος Επιστήμης Φυσικής Αγωγής και Αθλητισμού του Αριστοτέλειου Πανεπιστημίου Θεσσαλονίκης, ως εκπρόσωπος μιας ομάδας πρωτοβουλίας κατά της λογοκλοπής στην Ανώτατη Εκπαίδευση, συνέβαλε στην συλλογή 7 περιπτώσεων λογοκλοπής στην αγγλική γλώσσα από Έλληνες ερευνητές (αριθμός αρχείων 14) Επιπροσθέτως, έγινε έρευνα στη Βάση Δεδομένων Déjà vu, του Garner Lab (Virginia Bioinformatics Institute) η οποία χρησιμοποιεί την μηχανή σύγκρισης κειμένου etblast, για τις επιστημονικές δημοσιεύσεις της Βάσης Δεδομένων MEDLINE. Από τη συγκεκριμένη βάση έχουν συλλεχθεί περιπτώσεις λογοκλοπής στην αγγλική γλώσσα, για τις οποίες έχουν ήδη επιβληθεί κυρώσεις. Συλλέχθηκαν 15 περιπτώσεις, κάποιες εκ των οποίων αρκετά σύνθετες (λογοκλοπή που έχει γίνει από παραπάνω του ενός άρθρου) με σκοπό την εκπαίδευση του αλγορίθμου (αριθμός αρχείων 44). Εικόνα 1 Η Βάση Δεδομένων Déjà vu ΣΕΛΙΔΑ 5
2.2 Απαλοιφή Μορφοποίησης Τα παραδείγματα που συλλέχθηκαν ήταν όλα σε Portable Document Format. Για να υποβληθούν στην διαδικασία ανάλυσης και ελέγχου ήταν απαραίτητο να εξαχθούν σε αναγνώσιμο κωδικοποιημένο κείμενο.txt, ώστε να μην υπάρχει καμία μορφοποίηση. Έτσι καθίστανται αναγνώσιμα από οποιοδήποτε πρόγραμμα που μπορεί να διαβάσει κείμενο. Για αυτή την διαδικασία χρησιμοποιήθηκε λογισμικό Οπτικής Αναγνώρισης Χαρακτήρων (OCR). Κάθε ένα από τα παραδείγματα απαλλάχθηκε από τις μορφοποιήσεις που συνιστά ο εκάστοτε εκδότης (αριθμός σελίδας, κεφαλίδες και υποσέλιδα κ.λπ.). Από τα 22 παραδείγματα λογοκλοπής, έμειναν 17 για την εκπαίδευση της μηχανής αναγνώρισης (11 από τη Βάση Deja vu (αριθμός αρχείων 37) και 6 από Μούγιο (αριθμός αρχείων 12)). Αυτή η μείωση οφείλεται από τη μια στο ότι οι εκδότες στις περιπτώσεις που έχει αποδειχτεί λογοκλοπή προσθέτουν watermark στο pdf, καθιστώντας ανέφικτη την οπτική αναγνώριση χαρακτήρων και από την άλλη λόγω αδυναμίας εύρεσης του πλήρους κειμένου (προφανώς υπήρξε διαγραφή από την Βάση Δεδομένων που ήταν καταχωρημένο λόγω της λογοκλοπής). Από τα 49 αρχεία στα οποία έγινε οπτική αναγνώριση χαρακτήρων, προέκυψαν κάποιες συμβατικές δυσκολίες, όπως για παράδειγμα η διπλή στήλη σε συνδυασμό με τη λεζάντα της κάθε εικόνας παρεμβαλλόμενη στο κείμενο, δημιουργούσε ένα αποτέλεσμα το οποίο στο οποίο κάποιες φορές δεν υπήρχε συνέπεια και συνέχεια μιας παραγράφου ή πρότασης. Αυτή η δυσκολία προκλήθηκε από την μορφοποίηση που συνιστούν οι εκδότες, και την οποία δεν θα συναντήσουμε για παράδειγμα σε διδακτορικές διατριβές ή μεταπτυχιακές εργασίες. ΣΕΛΙΔΑ 6
2.3 Πρότυπα ταξινόμησης Η διαδικασία δημιουργίας προτύπων εκπαίδευσης περιλαμβάνει τα εξής στάδια: Thematic diversity Εξαιτίας της πολύ-ποικιλότητας των θεματικών κατηγοριών στις οποίες εντάσσονται τα ακαδημαϊκά συγγράμματα (βιολογία, ιατρική, φυσική, νομική, κ.λπ.) διαφοροποιείται ο τρόπος γραφής ενός επιστημονικού συγγράμματος. Multi-modallity Η λογοκλοπή δεν αφορά πάντα κείμενο, αλλά μπορεί να περιλαμβάνει την αντιγραφή μιας εικόνας ή ενός πειραματικού συνόλου δεδομένων. Η προσπάθεια δημιουργίας προτύπων εκπαίδευσης πρέπει να περιλαμβάνει τα παραπάνω. Στην παρούσα φάση έχουν συλλεχθεί πρότυπα από το χώρο της Ιατρικής και της Επιστήμης Φυσικής Αγωγής και Αθλητισμού. Να σημειωθεί ότι υπάρχουν ελάχιστες περιπτώσεις διαθέσιμες παγκοσμίως και πόσο μάλλον στην Ελληνική γλώσσα (όπως περιγράφηκε παραπάνω). Αυτό υποδεικνύει την αναγκαιότητα δημιουργίας και τεχνητών προτύπων εκπαίδευσης στο άμεσο μέλλον. Στα τεχνητά πρότυπα εκπαίδευσης θα υπάρχει δυνατότητα προσθήκης τεχνητής κάλυψης λογοκλοπής όπως για παράδειγμα εισαγωγή όμοιων χαρακτήρων από διαφορετικό αλφάβητο (Unicode 004F (Λατινικό O), 039F (Ελληνικό όμικρον) και 041E (Κυριλλικό O)) ή εισαγωγή κειμένου με λευκό χρώμα σε λευκό φόντο (στα κενά ανάμεσα στις λέξεις). ΣΕΛΙΔΑ 7
2.4 Περιβάλλον Διαχείρισης Κατόπιν, τα εναπομείναντα παραδείγματα λογοκλοπής μεταφορτώθηκαν στο περιβάλλον διαχείρισης http://www.library.panteion.gr/pl. Για να γίνει η εκπαίδευση του αλγορίθμου προστέθηκαν οι απαιτούμενες συσχετίσεις μεταξύ των πρωτότυπων άρθρων και αυτών που ήταν προϊόν λογοκλοπής. Εικόνα 2 Το περιβάλλον διαχείρισης της Υπηρεσίας Εντοπισμού Λογοκλοπής Η online δικτυακή εφαρμογή έχει τη δυνατότητα τροποποίησης των στοιχείων της κάθε εγγραφής και εμφανίζει τα αποτελέσματα της αναγνώρισης με annotated (highlighted) τις περιοχές οι οποίες εντοπίστηκαν και αποτελούν προϊόν λογοκλοπής. Εικόνα 3 Τα αποτελέσματα της μηχανής αναγνώρισης ΣΕΛΙΔΑ 8
3 ΣΥΜΠΕΡΑΣΜΑΤΑ Η μορφολογική ανάλυση φανέρωσε την αναγκαιότητα κατηγοριοποίησης των υπό διερεύνηση - ανάλυση κειμένων ανάλογα με την επιστήμη, καθώς το λεξιλόγιο των κειμένων των θεωρητικών επιστημών είναι διαφορετικό από αυτό των θετικών επιστήμων (όπου είναι κυρίαρχες οι μαθηματικές πράξεις και τα σύμβολα) και άρα χρειάζονται διαφορετική αντιμετώπιση, που σημαίνει διαφορετικό αλγόριθμο ταξινόμησης. ΣΕΛΙΔΑ 9