Δράση 9.14 / Υπηρεσία εντοπισμού λογοκλοπής Κυρίως Παραδοτέο / Εκπαίδευση προσωπικού βιβλιοθηκών μελών Σ.Ε.Α.Β στο πληροφοριακό σύστημα εντοπισμού λογοκλοπής. Επιμέρους Παραδοτέο 9.14.3.3 / Υλικό και πρόγραμμα εκπαίδευσης στο πληροφοριακό σύστημα εντοπισμού Χρονικό διάστημα Ιούλιος 2013 Οκτώβριος 2013 Υπεύθυνο Ίδρυμα Πάντειο Πανεπιστήμιο Ημερομηνία Παράδοσης: 4/10/2013 Έκδοση (τελική) ΣΕΛΙΔΑ 1
Εμπλεκόμενοι στην υλοποίηση του Ενδιάμεσου Παραδοτέου 9.14.3.3: Συγγραφείς Δημήτρης Αντωνάκης Υπεύθυνος Δράσης Κωνσταντία Κακάλη Επιθεωρητές ΣΕΛΙΔΑ 2
Πίνακας Περιεχομένων 1.1 Σύνολο Δεδομένων... 4 1.2 Πρότυπα Εκπαίδευσης... 4 1.3 Δομή XML... 5 1.4 Κείμενα... 6 ΣΕΛΙΔΑ 3
ΥΛΙΚΟ ΓΙΑ ΤΟ ΣΥΣΤΗΜΑ ΑΝΑΓΝΩΡΙΣΗΣ 1.1 Σύνολο Δεδομένων Όπως έχει ήδη αναλυθεί στα προηγούμενα παραδοτέα, μετά από επαφή με τις Βιβλιοθήκες των Ακαδημαϊκών και Τεχνολογικών Ιδρυμάτων της Ελλάδος με σκοπό την συλλογή περιπτώσεων λογοκλοπής, δεν κατέστη δυνατό να συγκεντρωθεί υλικό σε ελληνική γλώσσα, ικανό για να τροφοδοτήσει το σύστημα αναγνώρισης. Έτσι, για τη διενέργεια ελέγχου της λειτουργίας της Υπηρεσίας Εντοπισμού Λογοκλοπής, συλλέχθηκε μια βάση δεδομένων αποτελούμενη από 5057 αρχεία σε μορφή plain text. Αυτή η βάση δεδομένων χρησιμοποιήθηκε ως υλικό εκπαίδευσης από το διεθνές συνέδριο για τον εντοπισμό λογοκλοπής PAN 2013 1. Τα 3230 εξ αυτών, αποτελούν πρωτότυπα κείμενα και τα υπόλοιπα 1827 είναι κείμενα με υποψία λογοκλοπής. Τα κείμενα με υποψία λογοκλοπής εμπεριέχουν χωρία από τα πρωτότυπα κείμενα, παραφρασμένα με διάφορες τεχνικές λογοκλοπής, ώστε να αναδειχθούν οι αδυναμίες του εκάστοτε αλγορίθμου που δοκιμάζεται και στη συνέχεια, μετά την αξιολόγησή τους, να γίνει η καταλληλότερη επιλογή. Το σύνολο δεδομένων περιέχει κείμενα με υποψία λογοκλοπής, στα οποία το ποσοστό σε κάθε περίπτωση ποικίλει ώστε να διερευνηθούν όλες οι παράμετροι. 1.2 Πρότυπα Εκπαίδευσης Το σύνολο δεδομένων περιέχει 5000 αρχεία XML, τα οποία παρουσιάζουν για κάθε ζεύγος πρωτότυπου κειμένου, με κείμενο με υποψία λογοκλοπής, τα ακριβή σημεία στα οποία υπάρχουν χωρία λογοκλοπής. Αυτά τα XML αρχεία αποτελούνται από τις παρακάτω κατηγορίες: XML αρχεία για 1000 ζεύγη κειμένων χωρίς λογοκλοπή. (Τα κείμενα χωρίς λογοκλοπή, επιτρέπουν την αξιολόγηση σε σχέση με το κατά πόσο η υπηρεσία εντοπισμού λογοκλοπής μπορεί να διακρίνει περιπτώσεις λογοκλοπής, από τυχαίες επικαλύψεις μεταξύ τυχαίων ζευγών κειμένων) XML αρχεία για 1000 ζεύγη κειμένων, κατά τα οποία, τα κείμενα με υποψία λογοκλοπής περιέχουν αντιγραμμένα χωρία από τα πρωτότυπα κείμενα. 1 http://pan.webis.de/ ΣΕΛΙΔΑ 4
XML αρχεία για 1000 ζεύγη κειμένων, όπου στα χωρία που είναι αποτέλεσμα λογοκλοπής έχει γίνει με τυχαία αναδιάταξη λέξεων. XML αρχεία για 1000 ζεύγη κειμένων, όπου τα χωρία που είναι αποτέλεσμα λογοκλοπής, είναι μεταφρασμένα σε διαφορετική γλώσσα και έπειτα μεταφρασμένα εκ νέου στην αρχική γλώσσα. XML αρχεία για 1000 ζεύγη κειμένων, όπου στα χωρία που είναι αποτέλεσμα λογοκλοπής, έχει γίνει περίληψη του πρωτότυπου κειμένου. 1.3 Δομή XML Το xml αρχείο είναι της παρακάτω μορφής: <document reference="..."> <!-- όνομα του αρχείου με υποψία λογοκλοπής --> <feature name="detected-plagiarism" this_offset="5" <!-- char offset στο κείμενο με υποψία λογοκλοπής --> this_length="1000" <!-- αριθμός χαρακτήρων του offset --> source_reference="..." <!-- όνομα του προτότυπου κειμένου --> source_offset="100" <!-- char offset στο προτότυπο κείμενο --> source_length="1000" <!-- αριθμός χαρακτήρων του offset --> />... <!-- περισσότερες ανιχνεύσεις στο κείμενο με υποψία λογοκλοπής --> </document> Για παράδειγμα: <document reference="suspicious-document00646.txt"> <feature name="plagiarism" obfuscation="random" obfuscation_degree="0.48705053023797484" source_length="416" source_offset="254" source_reference="source-document01545.txt" this_length="214" this_offset="4698" type="artificial" /> <feature name="plagiarism" obfuscation="random" obfuscation_degree="0.4316032378274044" source_length="418" source_offset="824" ΣΕΛΙΔΑ 5
source_reference="source-document01545.txt" this_length="304" this_offset="17771" type="artificial" /> <feature name="plagiarism" obfuscation="random" obfuscation_degree="0.48398525652620533" source_length="344" source_offset="1419" source_reference="source-document01545.txt" this_length="355" this_offset="43544" type="artificial" /> </document> 1.4 Κείμενα Τα κείμενα που περιέχονται στο σύνολο δεδομένων, καλύπτουν αρκετούς συνδυασμούς παραμέτρων: από κείμενα που είναι σε ποσοστό 100% αποτέλεσμα λογοκλοπής μέχρι μικρά λογοκλοπημένα χωρία που είναι δυσκολότερο να εντοπιστούν. Τα κείμενα καλύπτουν ένα ευρύ φάσμα πληροφοριών και δεν υπάρχει συγκεκριμένη θεματική περιοχή που εντάσσονται. Ακολουθεί παρακάτω ένα τυχαίο παράδειγμα κειμένου. What is GIS? A geographic information system (GIS) integrates hardware, software, and data for capturing, managing, analyzing, and displaying all forms of geographically referenced information. Geography Matters Geography plays a role in nearly every decision we make. Choosing sites, targeting market segments, planning distribution networks, responding to emergencies, or redrawing country boundariesall of these problems involve questions of geography. White paper Geography Matters [PDF] GIS allows us to view, understand, question, interpret, and visualize data in many ways that reveal relationships, patterns, and trends in the form of maps, globes, reports, and charts. A GIS helps you answer questions and solve problems by looking at your data in a way that is quickly understood and easily shared. GIS technology can be integrated into any enterprise information system framework. Essays on Geography and GIS [PDF] Three Views of a GIS ΣΕΛΙΔΑ 6
A GIS is most often associated with a map. A map, however, is only one way you can work with geographic data in a GIS, and only one type of product generated by a GIS. A GIS can provide a great deal more problem-solving capabilities than using a simple mapping program or adding data to an online mapping tool (creating a "mash-up"). A GIS can be viewed in three ways: A GIS is a unique kind of database of the world a geographic database (geodatabase). It is an "Information System for Geography." Fundamentally, a GIS is based on a structured database that describes the world in geographic terms..the Database View: Learn more A GIS is a set of intelligent maps and other views that show features and feature relationships on the earth's surface. Maps of the underlying geographic information can be constructed and used as "windows into the database" to support queries, analysis, and editing of the information..the Map View: Learn more A GIS is a set of information transformation tools that derive new geographic datasets from existing datasets. These geoprocessing functions take information from existing datasets, apply analytic functions, and write results into new derived datasets..the Model View: Learn more By combining data and applying some analytic rules, you can create a model that helps answer the question you have posed. In the example below, GPS and GIS were used to accurately model the expected location and distribution of debris for the, which broke up upon re-entry over eastern Texas on February 1, 2003..Space Shuttle Columbia Learn more about this project Together, these three views are critical parts of an intelligent GIS and are used at varying levels in all GIS applications. Learn more about the technology ΣΕΛΙΔΑ 7