Επέκταση του Ελληνικού WordNet µε Όρους Πληροφορικής και Σηµασιολογικές Σχέσεις Βασισµένες σε Μοντέλο Κατανόησης Κειµένου Παναγιώτης Μπλίτσας 1 και Μαρία Γρηγοριάδου 2 1 ΠΜΣ «Βασική & Εφαρµοσµένη Γνωσιακή Επιστήµη» 2 Τµήµα Πληροφορικής & Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθήνας {pblitsas, gregor}@di.uoa.gr Περίληψη Το πρώτο Αγγλικό WorldNet δηµιουργήθηκε στο Princeton και αποτελεί µια µεγάλη λεξικολογική βάση δεδοµένων βασισµένη στις έννοιες των λέξεων και τις σηµασιολογικές σχέσεις που υπάρχουν µεταξύ τους. Βασικό στόχο όλων των λεξικών τύπου WordNet που αναπτύχθηκαν σε διάφορες γλώσσες αποτέλεσε η αξιοποίησή τους σε εφαρµογές επεξεργασίας φυσικής γλώσσας (NLP), όπως εκείνη της αυτόµατης µετάφρασης. Πέρα από την αξιοποίηση των λεξικών αυτών σε εφαρµογές, σηµαντική είναι και η συµβολή τους στην καλύτερη κατανόηση εννοιών και σηµασιολογικών σχέσεων µεταξύ τους (Κρεµιζής, 2007). Άλλες έρευνες έχουν δείξει ότι κατά την εκµάθηση νέων όρων Πληροφορικής φοιτητές και µαθητές αντιµετωπίζουν προβλήµατα στην κατανόηση αιτιακών σχέσεων µεταξύ εννοιών (Tsaganou & Grigoriadou, 2009; Μπλίτσας & Γρηγοριάδου, 2008). Μέχρι τώρα όµως, στο Αγγλικό και το Ελληνικό WordNet δεν υποστηρίζονται σηµασιολογικές σχέσεις που ορίζουν χαρακτηριστικά όπως ιδιότητες, λειτουργίες, σκοπούς, και γενικότερα σχέσεις αιτιακού χαρακτήρα. Στόχος, λοιπόν, της παρούσας εργασίας είναι η επέκταση του Ελληνικού WordNet µε όρους Πληροφορικής, καθώς και η ανάπτυξη σηµασιολογικών σχέσεων µεταξύ των όρων αυτών, ώστε να περιγράφονται τα πιο πάνω χαρακτηριστικά. Για την επέκταση του Ελληνικού WordNet χρησιµοποιήθηκε ως βάση το µοντέλο κατανόησης κειµένου των Baudet & Denhière (1992), το οποίο υποστηρίζει τέτοιου είδους σηµασιολογικές σχέσεις. Σύµφωνα µε το µοντέλο αυτό ο αναγνώστης ενός κειµένου οικοδοµεί τρεις δοµές γνώσης σε δύο επίπεδα. Σε µικροεπίπεδο συµµετέχουν άτοµα, καταστάσεις, ταξινοµικές και µερωνυµικές σχέσεις µεταξύ τους (σχεσιακή δοµή), καθώς και η ανάλυση των λειτουργιών ενός συστήµατος σε ένα σύνολο γεγονότων που περιγράφουν χρονικά και/ή αιτιακά τον τρόπο µετάβασης από µία κατάσταση σε µία άλλη (µετασχηµατιστική δοµή). Η κατάσταση αποτελεί ένα στατικό στιγµιότυπο των ιδιοτήτων των µονάδων. Σε µακροεπίπεδο, η οικοδόµηση περιλαµβάνει τους σκοπούς/υποσκοπούς των διαφόρων λειτουργιών και/ή µονάδων του συστήµατος (τελεολογική δοµή). Αναλυτικότερα, στo WordNet, ουσιαστικά, ρήµατα, επίθετα και επιρρήµατα οµαδοποιούνται σε σύνολα συνωνύµων (synsets), καθένα από τα οποία εκφράζει κάτι το µοναδικό σε ένα δεδοµένο επιστηµονικό τοµέα. Με τη βοήθεια των σηµασιολογικών σχέσεων, οι σηµασίες των λέξεων σε µια γλώσσα µπορεί να συνδέονται µεταξύ τους, σχηµατίζοντας το δίκτυο εννοιών του WordNet. Μια λέξη
µπορεί να ανήκει σε διάφορα synsets σε πολλούς τοµείς. Κάθε synset ενός τοµέα έχει τη δική του ερµηνεία και σηµασιολογικές σχέσεις υπερωνυµίας/υπωνυµίας (hypernym/hyponym) ή ολωνυµίας/µερωνυµίας (holonym/meronym) µε άλλες έννοιες. Αποτελέσματα αναζήτησης Πλήκτρα Επεξεργασίας Ορισμός Μέρος του Λόγου Συνώνυμα Σχέσεις με άλλους όρους Σχήµα 1 Προσθήκη νέου όρου και νέων σχέσεων στον VisDic Editor. Στην παρούσα εργασία χρησιµοποιήθηκε ο VisDic Editor (Horak & Smrž, 2004) (Σχήµα 1) για την αναζήτηση όρων, την τροποποίηση και την επέκταση του Ελληνικού WordNet σε XML (extensible Markup Language) µορφή. Η υλοποίηση επέκτασης του Ελληνικού WordNet πραγµατοποιήθηκε σε 4 στάδια: Στάδιο Επιλογής : Χρησιµοποιήθηκαν αποσπάσµατα από διδακτικό βιβλίο (Brookshear, 2006). Από τα αποσπάσµατα αυτά επιλέχθηκαν έννοιες/όροι και αντλήθηκαν οι σηµασιολογικές σχέσεις που συνδέουν τις έννοιες αυτές. Στάδιο Σύγκρισης : Χρησιµοποιήθηκε το Λεξικό της Κοινής Ελληνικής του Ινστιτούτου Νέων Ελληνικών του Αριστοτέλειου Πανεπιστηµίου Θεσσαλονίκης
ως επιπλέον πηγή, µε σκοπό την εύρεση όρων που έλειπαν από τα αποσπάσµατα ώστε να καλυφθούν σηµασιολογικά κενά. Στάδιο Μοντελοποίησης και Ανάπτυξης : Προστέθηκαν χειρωνακτικά µέσω του VisDic Editor (Σχήµα 1) οι νέοι τύποι σχέσεων (Πίνακας 1) σύµφωνα µε το µοντέλο κατανόησης κειµένου. Στάδιο Επέκτασης : Το Ελληνικό WordNet επεκτάθηκε µε νέους όρους του τοµέα της Πληροφορικής µέσω του VisDic Editor. Από τα 128 σύνολα συνωνύµων (synset) της παρούσας εργασίας, 75 είναι νέα ενώ τα υπόλοιπα 53 τροποποιήθηκαν. Επιπλέον, προστέθηκαν 745 νέες σχέσεις µεταξύ των synsets. Πίνακας 1. Νέοι τύποι σχέσεων. Τύπος Σχέσης Παράδειγµα Δοµή has_attribute (έχει χαρακτηριστικό) has_operation (έχει λειτουργία) Causes (προκαλεί) caused_by (προκαλείται) precedes (προηγείται) comes_after (έπεται) mero_event (µερωνυµία γεγον.) holo_event (ολωνυµία γεγον.) intends_to (σκοπεύει) κύρια µνήµη has_attribute ταχύτητα υπολογιστής has_operation αποθήκευση δεδοµένων αναµονή περιστροφής causes µεταφορά block µεταφορά µπλοκ caused_by αναµονή περιστροφής αναζήτηση precedes αναµονή περιστροφής αναµονή περιστροφής comes_after αναζήτηση µεταφορά µπλοκ mero_event πρόσβαση δεδοµένων πρόσβαση δεδοµένων holo_event µεταφορά µπλοκ σκληρός δίσκος intends_to µόνιµη αποθήκευση Σχεσιακή Τελεολογ. Το σχήµα 2 δείχνει τα αποτελέσµατα της αναζήτησης του νέου όρου σκληρός δίσκος IDE. Το παράδειγµα 1 περιγράφει τη σχέση τελεολογικής δοµής σκληρός δίσκος IDE intends_to µόνιµη αποθήκευση, το παράδειγµα 2 τη σχέση µετασχηµατιστικής δοµής σκληρός δίσκος IDE has_operation εγγραφή, ενώ το παράδειγµα 3 τη σχέση σχεσιακής δοµής σκληρός δίσκος IDE has_attribute χωρητικότητα. Ένας άλλος βασικός σκοπός της επέκτασης του Ελληνικού WordNet και της προσαρµογής του στο µοντέλο των Baudet & Denhière αποτέλεσε η ανάγκη χρήσης των εξαγόµενων XML αρχείων του VisDic Editor στον εµπλουτισµό της σηµασιολογικής βάσης δεδοµένων Semandix (Blitsas, Grigoriadou & Mitsis, 2010). Tο Semandix (Σχήµα 3) σχεδιάστηκε µε σκοπό τη διερεύνηση εναλλακτικών αντιλήψεων που εµφανίζονται σε απαντήσεις ελεύθερου κειµένου σε θέµατα Πληροφορικής και σε εννοιολογικούς χάρτες µε βάση το µοντέλο κατανόησης κειµένου των Baudet & Denhière (1992).
1 2 3 Σχήµα 2 Αναζήτηση του όρου σκληρός δίσκος IDE. Σχήµα 3 Διαχείριση Σηµασιολογικής Βάσης Semandix.
Ενδεικτική Βιβλιογραφία Baudet, S. & Denhière, G. (1992). Lecture, compréhension de texte et science cognitive. Presses Universitaires de France, Paris. Blitsas P., Grigoriadou Μ. & Mitsis C. (2010). Semandix: Constructing a Knowledge Base according to a Text Comprehension Model. Multiple Perspectives on Problem Solving and Learning in the Digital Age, Ifenthaler, Dirk; Isaias, Pedro (Eds.), 1st Edition, pp. 67--8, ISBN: 978-1-4419-7611-6. Brookshear, G. (2006). Computer Science: An Overview. Pearson Addison Wesley, 9 th Edition. Horak, A. & Smrž, P. (2004). VisDic-WordNet Browsing and Editing Tool. In Proceedings of the 2 nd International WordNet Conference (GWC 2004), Brno, Czech Republic: Masaryk University, pp. 136-141, ISBN 80-210-3302-9. Tsaganou G. & Grigoriadou M. (2009). Authoring with ReTuDiSAuth for Adaptive Learning from Text, The International Journal of Learning, Vol. 16, issue 10, pp. 1-10, ISSN 1447-9494. Κρεµιζής Α. (2007), Διπλωµατικής Εργασία στα πλαίσια του Διαπανεπιστηµιακού Διατµηµατικού ΠΜΣ Βασική και Εφαρµοσµένη Γνωσιακή Επιστήµη µε τίτλο Κατανόηση εννοιών που σχετίζονται µε τη µνήµη ως γνωστική λειτουργία - αξιοποίηση του υπολογιστικού σηµασιολογικού λεξικού Wordnet, Σεπτέµβριος 2007, Αθήνα. Μπλίτσας Π. & Γρηγοριάδου Μ. (2008), Επίδραση του επιπέδου σπουδών του µαθητή στην κατανόηση τεχνικού κειµένου Πληροφορικής κατά την ανάγνωση και την εκπόνηση δραστηριοτήτων. Πρακτικά 4ου Πανελλήνιου Συνεδρίου µε τίτλο Διδακτική της Πληροφορικής, Πάτρα 2008, σελ. 303-312.