Κατασκευή Ασαφών Σχέσεων από το WordNet για την Αποσαφήνιση. Λέξεων

Σχετικά έγγραφα
ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Ερευνητικό Πρόγραµµα BalkaNet

Επιµέλεια Θοδωρής Πιερράτος

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Μεταγλωττιστές. Δημήτρης Μιχαήλ. Ακ. Έτος Ανοδικές Μέθοδοι Συντακτικής Ανάλυσης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ασαφής Λογική (Fuzzy Logic)

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας)

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

ΠΑΙΓΝΙΑ Παιχνίδια Γενική Θεώρηση μεγιστοποιήσει την πιθανότητά

ΠΟΛΥΚΡΙΤΗΡΙΑ ΥΠΟΣΤΗΡΙΞΗ ΑΠΟΦΑΣΕΩΝ. Χάρης Δούκας, Πάνος Ξυδώνας, Ιωάννης Ψαρράς

Περί της Ταξινόμησης των Ειδών

Γενικές Παρατηρήσεις. Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα (1) Το Λήµµα της Αντλησης. Χρήση του Λήµµατος Αντλησης.

Περιεχόµενα. Ανασκόπηση - Ορισµοί. Ο κύκλος ανάπτυξης προγράµµατος. Γλώσσες Προγραµµατισµού Ασκήσεις

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Α. Ερωτήσεις Ανάπτυξης


Σύµφωνα µε την Υ.Α /Γ2/ Εξισώσεις 2 ου Βαθµού. 3.2 Η Εξίσωση x = α. Κεφ.4 ο : Ανισώσεις 4.2 Ανισώσεις 2 ου Βαθµού

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

1 Ανάλυση Προβλήματος

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

5 ΕΙΣΑΓΩΓΗ ΣΤΗ ΘΕΩΡΙΑ ΑΛΓΟΡΙΘΜΩΝ

ΚΕΦΑΛΑΙΟ 1. Ασαφή Συστήματα. 1.1 Ασαφή Σύνολα. x A. 1, x

Heapsort Using Multiple Heaps

ΠΟΛΥΚΡΙΤΗΡΙΑ ΥΠΟΣΤΗΡΙΞΗ ΑΠΟΦΑΣΕΩΝ. Χάρης Δούκας, Πάνος Ξυδώνας, Ιωάννης Ψαρράς

ΘΕΜΑ Α ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ

ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Κεφάλαιο 8 : H γλώσσα προγραµµατισµού Pascal 1 ο Μέρος σηµειώσεων (Ενότητες 8.1 & 8.2 σχολικού βιβλίου)

Αλγόριθµοι και Πολυπλοκότητα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ ΜΑΘΗΜΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Β ΛΥΚΕΙΟΥ

ΕΙ ΙΚΑ ΚΕΦΑΛΑΙΑ ΧΑΡΤΟΓΡΑΦΙΑΣ ΧΑΡΤΟΓΡΑΦΙΑ ΧΑΡΤΗΣ ΧΡΗΣΗ ΗΜΙΟΥΡΓΙΑ. β. φιλιππακοπουλου 1

Επαναληπτικό ιαγώνισµα Πληροφορικής Γ Γυµνασίου Γιώργος Λιακέας Σχολικός Σύµβουλος Πληροφορικής Ερωτήσεις

Αλγόριθµοι και Πολυπλοκότητα

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

ιδάσκων: ηµήτρης Ζεϊναλιπούρ

Ανάλυση κατά Συστάδες. Cluster analysis

2. Missing Data mechanisms

Οπτική αντίληψη. Μετά?..

Εισαγωγή στις Αρχές της επιστήμης των ΗΥ

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση

οµή δικτύου ΣΧΗΜΑ 8.1

Γεώργιος Φίλιππας 23/8/2015

Πληροφορική 2. Τεχνητή νοημοσύνη

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Πιθανότητες Γεώργιος Γαλάνης Κωνσταντίνα Παναγιωτίδου

Στοιχεία Θεωρίας Υπολογισµού (1): Τυπικές Γλώσσες, Γραµµατικές

Διδακτική οργάνωση και διαχείριση του μαθηματικού περιεχομένου και της διαπραγμάτευσης των δραστηριοτήτων στην τάξη

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

Ποιές οι θεµελιώδεις δυνατότητες και ποιοί οι εγγενείς περιορισµοί των υπολογιστών ; Τί µπορούµε και τί δε µπορούµε να υπολογίσουµε (και γιατί);

ΠΟΛΥΚΡΙΤΗΡΙΑ ΥΠΟΣΤΗΡΙΞΗ ΑΠΟΦΑΣΕΩΝ

Επιµέλεια Θοδωρής Πιερράτος

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

Κεφάλαιο 5ο: Εντολές Επανάληψης

Αλγόριθµοι και Πολυπλοκότητα

Ανοικτά Ακαδηµα κά Μαθήµατα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Είναι το ηλεκτρικό ρεύµα διανυσµατικό µέγεθος;

ΠΟΛΥΚΡΙΤΗΡΙΑ ΥΠΟΣΤΗΡΙΞΗ ΑΠΟΦΑΣΕΩΝ. Χάρης ούκας, Πάνος Ξυδώνας, Ιωάννης Ψαρράς

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1)

Σχεδίαση & Ανάλυση Αλγορίθμων

Ασαφής Λογική Παράδειγµα. Νίκος Καραδήµας

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. Πρόβλημα είναι μία κατάσταση η οποία χρήζει αντιμετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή, ούτε προφανής.

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Ανάκτηση Πληροφορίας

µια λειτουργική προσέγγιση στην απεικόνιση του χάρτη σηµασιολογία και και σύνταξη των των χαρτογραφικών σηµάτων

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας

Επίλυση Προβλημάτων 1

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Σχεσιακό Μοντέλο Δεδομένων

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Επαναληπτικό ιαγώνισµα Πληροφορικής Γ Γυµνασίου Γιώργος Λιακέας Σχολικός Σύµβουλος Πληροφορικής Ερωτήσεις

Κεφάλαιο 1 Ανάλυση προβλήματος

2.2 Οργάνωση και ιοίκηση (Μάνατζµεντ -Management) Βασικές έννοιες Ιστορική εξέλιξη τον µάνατζµεντ.

Transcript:

Α ρ ι ς τ ο τ ε λ ε ι ο Π α ν ε π ι ς τ η µ ι ο Θ ε ς ς α λ ο ν ι κ η ς Τµηµα Ηλεκτρολογων Μηχανικων & Μηχανικων Υπολογιστων Τοµεας Ηλεκτρονικης και Υπολογιστων Κατασκευή Ασαφών Σχέσεων από το WordNet για την Αποσαφήνιση Λέξεων ιπλωµατικη Εργασια του Γεώργιου Κατσικάτσου Επιβλέπων: Αναστάσιος Ντελόπουλος, Επίκουρος Καθηγητής Θεσσαλονίκη, Σεπτέµβριος 2006

Περιεχόµενα 1 Εισαγωγή 1 1.1 Το πρόβληµα και οι εφαρµογές............................ 1 1.2 Ορισµός του προβλήµατος............................... 2 1.2.1 Πρώτες σκέψεις................................. 2 1.2.2 οµή του συστήµατος αποσαφήνισης νοήµατος................ 3 1.3 State of the art..................................... 4 1.3.1 Θεωρητική ϑεµελίωση.............................. 4 1.3.2 Μέθοδοι αντιµετώπισης............................. 5 1.4 Η δοµή της εργασίας.................................. 7 2 Γνωσιακές ϐάσεις και το WordNet 9 2.1 Γνωσιακές ϐάσεις.................................... 9 2.2 Το WordNet....................................... 10 2.2.1 Γενικά χαρακτηριστικά............................. 10 2.2.2 Η δοµή της πληροφορίας............................ 10 2.2.3 Προβλήµατα του WordNet........................... 12 3 Ο αλγόριθµος Conceptual Density 14 3.1 Γενικά.......................................... 14 3.2 Ο αλγόριθµος...................................... 15 3.2.1 Είσοδος..................................... 15 3.2.2 Αποσαφήνιση κειµένου............................. 17 4 Κατασκευή Ασαφών Σχέσεων από το WordNet για την Αποσαφήνιση Λέξεων 21 4.1 Ασαφής λογική και ασαφή σύνολα........................... 21 4.1.1 Γιατί µας αρέσει τόσο πολύ η ασάφεια ;.................... 22 4.1.2 Πράξεις µεταξύ ασαφών συνόλων........................ 24

ΠΕΡΙΕΧΟΜΕΝΑ 2 4.2 Κατασκευή ασαφών σχέσεων για την αποσαφήνιση λέξεων.............. 25 4.2.1 Γενικά...................................... 25 4.2.2 Επιλογή κατάλληλων κειµένων......................... 25 4.2.3 Αλγόριθµος................................... 25 4.2.4 Πειράµατα.................................... 30 5 Πειραµατικά αποτελέσµατα 32 5.1 Απόδοση του αλγορίθµου Conceptual Density.................... 33 5.2 Απόδοση αλγορίθµου κατασκευής ασαφών σχέσεων................. 34 6 Συµπεράσµατα 36

Κατάλογος Πινάκων 2.1 Στατιστικά του WordNet................................ 11 4.1 Τελεστές ασαφών συνόλων............................... 24 4.2 Τιµές των παραµέτρων που χρησιµοποιούνται στα πειράµατα............. 31 5.1 Ποσοστά επιτυχίας του αλγορίθµου conceptual density............... 34 5.2 Αποτελέσµατα χωρίς τη χρήση συχνότητας για τα 103 κείµενα............ 35 5.3 Αποτελέσµατα µε τη χρήση συχνότητας για τα 103 κείµενα.............. 35

Πρόλογος Στην παρούσα διπλωµατική εργασία παρουσιάζεται µία µέθοδος αυτόµατης εύρεσης νοήµατος από αγγλικά κείµενα µε έναν ευριστικό αλγόριθµο και χρήση του WordNet, ενός λεξικού νοηµάτων. Η εργασία εκπονήθηκε στο Εργαστήριο Επεξεργασίας Πληροφορίας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Α.Π.Θ. Ευχαριστώ ιδιαίτερα τον Επίκουρο Καθηγητή Αναστάσιο Ντελόπουλο για την ευκαιρία που µου έδωσε να ασχοληθώ µε ένα αντικείµενο για το οποίο δεν γνώριζα τίποτα όταν το ανέλαβα, καθώς και τον µεταπτυχιακό ϕοιτητή Χρήστο ίου για την πολύτιµη ϐοήθειά του τόσο στον επιστηµονικό, όσο και τον ψυχολογικό τοµέα, ώστε η εργασία αυτή να είναι πλήρης. Θα ήθελα, επίσης, να ευχαριστήσω τους µεταπτυχιακούς ϕοιτητές του εργαστηρίου για τις ευχάριστες ώρες που πέρασα εκεί. Τέλος, ϑα ήθελα να εκφράσω την απεριόριστη εκτίµησή µου στην Κατερίνα ικαίου που µε ϐοήθησε µε επιµονή και υποµονή. Η εργασία αυτή αφιερώνεται στους γονείς µου που ποτέ δεν σταµάτησαν να µε στηρίζουν ηθικά και οικονοµικά και στους οποίους χρωστάω πολλά, τα οποία ελπίζω να ανταποδώσω µε τον καλύτερο δυνατό τρόπο. Γιώργος Κατσικάτσος Θεσσαλονίκη, 4 Νοεµβρίου 2006

Κεφάλαιο 1 Εισαγωγή 1.1 Το πρόβληµα και οι εφαρµογές Το ϑέµα της παρούσας διπλωµατικής εργασίας είναι η αυτόµατη αναγνώριση νοήµατος από κείµενο. Το πρόβληµα αυτό, όπως ϑα εξηγηθεί και στα επόµενα, είναι ιδιαίτερα δύσκολο και δεν µπορεί ακόµη να επιλυθεί πλήρως. Εντούτοις, παρουσιάζει µεγάλο ενδιαφέρον για την επιστηµονική κοινότητα λόγω του πλήθους των εφαρµογών του τόσο στην επικοινωνία ανθρώπου µηχανής, όσο και στην αυτοµατοποίηση εργασιών οι οποίες είναι αδύνατον να διεκπεραιωθούν από τον άνθρωπο, λόγω του πολύ µεγάλου αριθµού δεδοµένων που εµπλέκουν. Η επεξεργασία της ανθρώπινης γλώσσας είναι ένα δύσκολο εγχείρηµα για παράδειγµα η πρόταση : At last, a computer that understands you like your mother. 1985 McDonnell Douglas ad επιδέχεται τις εξής ερµηνείες : 1. The computer understands you as well as your mother understands you. 2. The computer understands that you like your mother. 3. The computer understands you as well as it understands your mother. Αυτή η πρόταση είναι, λοιπόν, πολύσηµη. Αν και είναι πολύ εύκολο, ακόµη και για ένα παιδί που µόλις έχει αρχίσει να µιλάει, να αντιληφθεί το νόηµά της, για µία µηχανή είναι εξαιρετικά δύσκολο να ξεχωρίσει ποιο είναι το σωστό νόηµα. Η λύση του προβλήµατος της αυτόµατης αναγνώρισης νοήµατος µπορεί να ϐελτιώσει την απόδοση εργασιών όπως είναι :

1.2 Ορισµός του προβλήµατος 2 αυτόµατη µετάφραση (machine translation): λύση σε περιπτώσεις ασυµφωνίας µεταξύ του αρχικού κειµένου και της µετάφρασής του. ανάσυρση πληροφορίας (information retrieval): αυτόµατος αποκλεισµός περιπτώσεων που είναι αδιάφορες κατά την αναζήτηση. ϑεµατική ανάλυση και ανάλυση περιεχοµένου (content and thematic analysis): εξαγωγή σωστών συµπερασµάτων για την εκ των προτέρων κατανοµή ορισµένων οµάδων λέξεων µέσα σε ένα κείµενο. γραµµατική ανάλυση (grammatical analysis): ϐελτίωση ποσοστού σωστής αναγνώρισης µέ- ϱους του λόγου και άλλων γραµµατικών χαρακτηριστικών των λέξεων του κειµένου (π.χ. part-of-speech tagging). επεξεργασία οµιλίας (speech processing): δυνατότητα διάκρισης µεταξύ οµόφωνων λέξεων και σωστού τονισµού. επεξεργασία κειµένου (text processing): ϐελτίωση απόδοσης αυτόµατου ορθογραφικού ελέγχου. αναγνώριση συγγραφέα, στυλιστική και ϕιλολογική ανάλυση (writer detection, stylistic and literary analysis): δυνατότητα εύρεσης πηγής/προέλευσης του κειµένου. 1.2 Ορισµός του προβλήµατος 1.2.1 Πρώτες σκέψεις Για να είναι κατανοητή και σωστή µία πρόταση, πρέπει να είναι : γραµµατικά σωστή, συντακτικά σωστή, νοηµατικά σωστή. Η γνώση για την γραµµατική και συντακτική δοµή µίας γλώσσας µπορεί να αποκτηθεί σχετικά εύκολα (µε µελέτη της ίδιας της γλώσσας) και να περιγραφεί µε µαθηµατικά µοντέλα. Ετσι, µπορεί να κατασκευαστεί ένα σύστηµα το οποίο παράγει γραµµατικά και συντακτικά σωστές προτάσεις (πρέπει να σηµειωθεί, πάντως, ότι η αναγνώριση από µηχανή της συντακτικής δοµής ήδη διατυπωµένων προτάσεων είναι ένα άλυτο πρόβληµα).

1.2 Ορισµός του προβλήµατος 3 Από την άλλη πλευρά, η γνώση για το τι είναι νόηµα δεν µπορεί να αποκτηθεί µόνο µε µελέτη της ίδιας της γλώσσας, αλλά απαιτεί την κατανόηση του οργάνου που είναι υπεύθυνο για τη σκέψη τον εγκέφαλο. Ετσι, είναι αδύνατη προς το παρόν η κατασκευή ενός συστήµατος που παράγει προτάσεις µε νόηµα. Αλλά τι είναι εντέλει γλώσσα και τι νόηµα ; Οι ερµηνείες των λέξεων γλώσσα και νόηµα 1 είναι οι εξής : Γλώσσα (η) oυσ. [<αρχ. γλ ωσσα]... το σύνολο των λέξεων και ϕράσεων που χρησι- µοποιεί ένας λαός ή µία οµάδα ανθρώπων για να συνεννοείται γραπτά ή προφο- ϱικά... Νόηµα (το) oυσ. [<αρχ. νόηµα < νο ω] το νοούµενο, ιδέα, στοχασµός έννοια, σηµασία... Παρατηρούµε ότι η ερµηνεία του νοήµατος περιέχει πιο αφηρηµένες έννοιες σε σχέση µε αυτές της ερµηνείας της γλώσσας. Τι είναι άραγε ιδέα και τι στοχασµός; Οι ερευνητές γλωσσολόγοι και λεξικογράφοι δεν έχουν απάντηση σε αυτό το ερώτηµα. Ο αναγνώστης τώρα ίσως µπορεί να καταλάβει ευκολότερα γιατί το πρόβληµα της αυτόµατης αναγνώρισης νοήµατος ονοµάζεται AI-complete πρόβληµα είναι πρόβληµα το οποίο µπορεί να λυ- ϑεί µόνον αφού επιλυθούν πρώτα όλα τα δύσκολα προβλήµατα της τεχνητής νοηµοσύνης (AI), όπως είναι για παράδειγµα η αναπαράσταση αυτού που ονοµάζουµε κοινός νους και εγκυκλοπαιδικές γνώσεις. Εντούτοις, λόγω της σηµασίας του προβλήµατος, και παρά το γεγονός ότι δεν µπορεί να ϐρεθεί ακόµη η πλήρης λύση του, έχουν γίνει προσπάθειες προσέγγισής του στο παρελθόν µε ικανοποιητικά αποτελέσµατα. Ολα τα συστήµατα που έχουν προταθεί έχουν µία κοινή δοµή, η οποία αναπτύσσεται στην επόµενη παράγραφο. 1.2.2 οµή του συστήµατος αποσαφήνισης νοήµατος Ενα Word Sense Disambiguation (WSD) σύστηµα µακροσκοπικά είναι ένα µαύρο κουτί που έχει σαν είσοδο κείµενο και σαν έξοδο το ίδιο κείµενο, όπου, αυτή τη ϕορά, στη ϑέση της κά- ϑε λέξης υπάρχει ένα σύνολο δύο στοιχείων, αποτελούµενο από τη λέξη και µία ερµηνεία της. Αναλυτικότερα : Είσοδος. Το κείµενο µπορεί να ϐρίσκεται σε µία µορφή που διευκολύνει την επεξεργασία (π.χ. µε προσηµειωµένη τη συντακτική λειτουργία της κάθε λέξης), ή και όχι. Η µορφή του αρχικού 1 Ελληνικό Λεξικό Τεγόπουλος Φυτράκης

1.3 State of the art 4 κειµένου σχετίζεται άµεσα µε την ποσότητα πληροφορίας που αυτό περιέχει και µπορεί να οδηγεί σε µεγαλύτερα ποσοστά επιτυχίας του συστήµατος. Αυτό συµβαίνει γιατί όσο περισσότερη πληροφορία υπάρχει διαθέσιµη a priori, τόσο ευκολότερη είναι η εργασία που απαιτείται από το σύστηµα. Πρέπει, όµως, να σηµειωθεί ότι µεγάλος όγκος πληροφορίας στην είσοδο µπορεί να κάνει το σύστηµα αναποτελεσµατικό, διότι αυξάνει την πολυπλοκότητά του. Εξοδος. Οι λέξεις της εξόδου µπορεί να είναι ένα σύνολο δύο στοιχείων το οποίο αποτελείται από τη λέξη και την αντίστοιχη ερµηνεία της. Ιδανικά, το σύνολο αυτό απεικονίζει τη σωστή ερµηνεία της αντίστοιχης λέξης. ιαφορετικά, στην περίπτωση που δεν υπάρχει ϐεβαιότητα ή είναι επιθυµητή η αποφυγή δυαδικής λογικής, το παραπάνω σύνολο αποκτά ακόµη ένα στοιχείο το ϐάρος, που αναπαριστά την ϐεβαιότητα της σχέσης µεταξύ ενός στοιχείου και της αντίστοιχης ερµηνείας. Σε αυτή την περίπτωση είναι προφανές ότι τα στοιχεία της ερµηνείας και του ϐάρους αποτελούν πλέον ένα διατεταγµένο σύνολο. Η µαθηµατική περιγραφή του συστήµατος αυτού έχει ως εξής : έστω w i η λέξη του κειµένου και s ij οι j ερµηνείες (senses) που έχει η λέξη w i. Τα ϐάρη που συσχετίζουν τη λέξη µε τις ενδεχόµενες ερµηνείες της συµβολίζονται µε d ij. Συνεπώς, το στοιχειώδες σύνολο εξόδου που αντιστοιχεί σε κάθε λέξη είναι : output i = {w i, s ij, d ij }. 1.3 State of the art Στην παράγραφο αυτή παρουσιάζονται οι προηγούµενες εργασίες στο πεδίο της επεξεργασίας της γλώσσας, µε κατεύθυνση την αποσαφήνιση των λέξεων. 1.3.1 Θεωρητική ϑεµελίωση Οι πρώτες προσεγγίσεις του Ϲητήµατος οφείλονται σε ϕιλολόγους και γλωσσολόγους [13]. Ηδη στην περίοδο 1920 1940 έκαναν την εµφάνισή τους οι πρώτες εργασίες, οι οποίες προσπάθησαν να ϑέσουν τις ϐάσεις και να συστηµατοποιήσουν ένα νεφελώδες, ακόµη τότε, επιστηµονικό αντικείµενο. Οι έρευνες ξεκίνησαν µε απώτερο σκοπό να µελετηθεί ο τρόπος µε τον οποίο ο άνθρωπος µαθαίνει, αναπαράγει και αντιλαµβάνεται τη γλώσσα. Σιγά σιγά, όµως, έγινε ϕανερό ότι το αντικείµενο είναι σύνθετο και αχανές. Ξεκίνησε, λοιπόν, µία συστηµατική µελέτη της γραµµατικής των γλωσσών για να καταγραφούν και να µελετηθούν οι κανόνες σύµφωνα µε τους οποίους οι άν- ϑρωποι σε διαφορετικά µέρη του κόσµου εκφέρουν λόγο. Είναι η πρώτη ϕορά που έγινε αντιληπτό ότι όλες οι γραµµατικές έχουν ψεγάδια σύµφωνα µε την περίφηµη ϕράση του Edward Sapir.

1.3 State of the art 5 Αυτό σηµαίνει ότι δεν µπορούµε να διακρίνουµε επαρκώς ποιες αλληλουχίες λέξεων είναι σωστές γραµµατικά και ποιες όχι. Αυτό συµβαίνει εξαιτίας της τάσης των ανθρώπων να προσαρµόζουν τους κανόνες της γλώσσας στις εκάστοτε επικοινωνιακές τους ανάγκες, κάτι που γίνεται ϕανερό από την εξέλιξη των ανθρώπινων γλωσσών και στον γραπτό και στον προφορικό λόγο από την αρχαιότητα ως σήµερα. Το πρόβληµα στην πορεία του διευρύνθηκε και απορρόφησε ιδέες και από άλλες επιστήµες, όπως η ψυχολογία (προσπάθεια ερµηνείας για το πώς λειτουργεί ο ανθρώπινος εγκέφαλος), η κοινωνιολογία (αναζήτηση του τρόπου αλληλεπίδρασης των ανθρώπων) και η ϐιολογία (µελέτη της ϕυσιολογίας του εγκεφάλου). Από το δεύτερο µισό του εικοστού αιώνα εντατικοποιήθηκε η έρευνα και άρχισαν να αναζητούνται απαντήσεις σε ερωτήσεις όπως : Ποια είναι τα συνήθη πρότυπα που προκύπτουν από τη χρήση της γλώσσας ;. ηµιουργήθηκαν τότε δύο µεγάλες σχολές επιστηµόνων η µία προσέγγισε το πρόβληµα µε την αρχική ϑεώρηση ότι ένα κοµµάτι της γνώσης στο ανθρώπινο µυαλό προϋπάρχει και είναι το ίδιο σε όλους τους ανθρώπους (προερχόµενο ίσως από γενετική κληρονοµιά). Η οµάδα αυτή των επιστηµόνων, των ορθολογιστών (rationalist) όπως λέγονται, επικράτησε τον πρώτο καιρό, έχοντας στα µέλη της σηµαντικούς επιστήµονες όπως ο Noam Chomsky που εµπλούτιζαν τη ϑεωρία της συνεχώς. Η δεύτερη προσέγγιση, αυτή των εµπειριστών (empiricist), ήταν λιγότερο δηµοφιλής αρχικά, αλλά είναι κυρίαρχη τις τελευταίες δεκαετίες λόγω των καλύτερων αποτελεσµάτων που δίνουν τα συστήµατα που ϐασίζονται σε αυτήν. Κατά την προσέγγιση αυτή ο ανθρώπινος εγκέφαλος ϑεωρείται ότι είναι αρχικά άδειος, κενός από γνώση (tabula rasa), αλλά διαθέτει τους µηχανισµούς της ανάλυσης και της αφαίρεσης για την επεξεργασία αυτών που ο άνθρωπος αντιλαµβάνεται µε τη ϐοήθεια των αισθητηρίων του. 1.3.2 Μέθοδοι αντιµετώπισης Οι µέθοδοι αντιµετώπισης του WSD προβλήµατος χωρίζονται σε δύο µεγάλες κατηγορίες : σε αυτές που ϐασίζονται σε γνώση και σε αυτές που χρησιµοποιούν στατιστικές µεθόδους. Στα επό- µενα αναπτύσσονται συνοπτικά οι δύο τρόποι εργασίας και παρουσιάζονται τα πλεονεκτήµατα και τα µειονεκτήµατά τους. Για µία πληρέστερη χαρτογράφηση του χώρου που ασχολείται µε την αποσαφήνιση λέξεων ο αναγνώστης µπορεί να ανατρέξει στο [8].

1.3 State of the art 6 Μέθοδοι ϐασισµένες σε γνωσιακές ϐάσεις Οι µέθοδοι αυτοί χρησιµοποιούν ως είσοδο, εκτός από το κείµενο, οργανωµένη γνώση που έχει προκύψει από corpora, λεξικά και σηµασιολογικούς γράφους. Τα corpora είναι συλλογή πρότυπων κειµένων µε γενική ή και πολύ ειδική ϑεµατολογία (π.χ. µαθηµατικά). Τα κείµενα αυτά υπάρχουν προς το παρόν µόνο για ευρέως οµιλούµενες γλώσσες (αγγλικά, ισπανικά, γερµανικά, γαλλικά). Τα λεξικά που χρησιµοποιούνται στο αντικείµενο της αυτόµατης αποσαφήνισης νοήµατος δεν είναι ερµηνευτικά, αλλά είναι ϑησαυροί. Τέλος, οι σηµασιολογικοί γράφοι έχουν προκύψει αυτόµατα ή µε ανθρώπινη εργασία από λεξικογραφικές κυρίως µελέτες. Τα ποσοστά επιτυχίας των συστηµάτων που ϐασίζονται σε γνωσιακές ϐάσεις είναι ενθαρρυντικά, ενδεχοµένως επειδή προσεγγίζουν καλύτερα την ανθρώπινη λογική. Τα πλεονεκτήµατα αυτών των συστηµάτων είναι ότι είναι πιο δοµηµένα και πιο ευέλικτα, καθώς γνώση που προέρχεται από διαφορετικές πηγές µπορεί να εφαρµοστεί για τη ϐελτίωση του συστήµατος. Από την άλλη πλευρά, τα συστήµατα αυτά έχουν αυξηµένη πολυπλοκότητα, ενώ η εφαρµογή τους εκ των πραγµάτων περιορίζεται στις πολύ διαδεδοµένες γλώσσες, για τις οποίες υπάρχουν δεδοµένα. Στατιστικές µέθοδοι Οι στατιστικές µέθοδοι εν γένει δεν χρησιµοποιούν γνώση. Το κείµενο συνήθως είναι σε µία µορφή η οποία διευκολύνει την επεξεργασία από τον υπολογιστή. Η λειτουργία του συστήµατος συνίσταται στη στατιστική επεξεργασία του κειµένου εισόδου και στην συνέχεια τη µη επιβλεπό- µενη ταξινόµηση. Για το σκοπό αυτό χρησιµοποιούνται εκπαιδευόµενα µοντέλα, όπως είναι τα νευρωνικά δίκτυα και τα Hidden Markov Models. Τα ποσοστά επιτυχίας των συστηµάτων αυτών είναι, όπως κανείς ϑα ανέµενε, εν γένει χαµηλότερα από αυτά στα οποία χρησιµοποιείται γνώση. Εντούτοις, έχουν πολύ καλύτερα αποτελέσµατα για κείµενα τα οποία ανήκουν σε περιορισµένη ϑεµατική περιοχή. Ακόµη, λειτουργούν εξίσου καλά για οποιαδήποτε γλώσσα και είναι λιγότερο πολύπλοκα. Υβριδικές µέθοδοι Τα συστήµατα των παραπάνω κατηγοριών δεν εµφανίζονται σχεδόν ποτέ αυτούσια στην πραγ- µατικότητα, τα περισσότερα σύγχρονα συστήµατα αποτελούνται από ένα συνδυασµό των δύο πα- ϱαπάνω µεθόδων, µε σκοπό να πετύχουν καλύτερα αποτελέσµατα συνδυάζοντας τα πλεονεκτήµατά τους.

1.4 Η δοµή της εργασίας 7 1.4 Η δοµή της εργασίας Η παρουσίαση των εφαρµογών και της έρευνας στην περιοχή που εξετάζουµε ϕανερώνει ότι η επίλυση έστω και µέρους ενός τόσο δύσκολου προβλήµατος, δίνει ώθηση στην επίλυση και άλλων συγγενών προβληµάτων. Είναι, επίσης, προφανές ότι η δραστηριότητα στην επιστηµονική αυτή περιοχή εντείνεται τα τελευταία χρόνια και έχει αρχίσει να αποδίδει καρπούς. Παρ όλα αυτά, τα αποτελέσµατα µέχρι στιγµής όπως έχει αναφερθεί δεν µπορούν να χρησιµοποιηθούν επαρκώς για πραγµατικές εφαρµογές. Οι ϐασικοί λόγοι είναι δύο αφ ενός κάποιες προσπάθειες επίλυσης είναι εξαιρετικά πολύπλοκες, έτσι ώστε καθίστανται εν γένει µη εφαρµόσιµες µε τη σηµερινή διαθέσιµη υπολογιστική ισχύ στο επίπεδο του προσωπικού υπολογιστή, αφ ετέρου οι µέθοδοι που δίνουν καλά αποτελέσµατα περιορίζονται σε κείµενα περιορισµένης ϑεµατικής περιοχής, κάτι που δεν είναι επιθυµητό. Η παρούσα εργασία χρησιµοποιεί την ιδέα της αξιοποίησης γνωσιακής ϐάσης, συνδυάζοντας παράλληλα την εκφραστικότητα της ασαφούς λογικής. Οι ιδιαιτερότητες της είναι δύο : είναι αποδεδειγµένο ότι η διαδικασία της αποσαφήνισης του νοήµατος ενός κειµένου από µία µηχανή είναι προς το παρόν µη επιλύσιµο πρόβληµα, αφού προϋποθέτει την επίλυση ϐασικότερων Ϲητηµάτων της τεχνητής νοηµοσύνης. ο ευριστικός αλγόριθµος που ϑα παρουσιαστεί είναι µία καινούρια προσέγγιση του προβλή- µατος, πολύ διαφορετική από αυτές που ήδη υπάρχουν στη ϐιβλιογραφία. Η συγγραφή του παρόντος έγινε µε γνώµονα την πορεία που ακολουθήθηκε τους προηγούµενους µήνες για την περάτωσή της. Στο κεφάλαιο 2 γίνεται εκτενής αναφορά στη γνωσιακή ϐάση που χρησιµοποιήθηκε στην εργασία αυτή το WordNet ([21]). Αναλύεται ο λόγος για τον οποίο επιλέχθηκε το συγκεκριµένο εργαλείο, καθώς και ο τρόπος µε τον οποίο λειτουργεί. Στο κεφάλαιο 3 αναλύεται λεπτοµερώς η µέθοδος των E. Agirre και G. Rigau ([1]) η οποία ϕαινόταν εξαρχής δελεαστική όσον αφορά την ιδέα στην οποία ϐασιζόταν, αλλά έδινε πολύ χαµηλά ποσοστά επιτυχίας. Ετσι, υλοποιήθηκε εκ νέου αφ ενός για να επιβεβαιωθούν τα αποτελέσµατά της, αφ ετέρου γιατί έγινε η αρχική υπόθεση ότι η µέθοδος έτσι όπως υλοποιήθηκε στο [1] επιδεχόταν πολλές ϐελτιώσεις. Στο κεφάλαιο 4 παρουσιάζεται ο αλγόριθµος που αναπτύχθηκε. Γίνεται αναλυτική περιγραφή της ιδέας και του τρόπου µε τον οποίο λειτουργεί ο αλγόριθµος ο οποίος σχεδόν διπλασιάζει τα ποσοστά επιτυχίας προηγούµενων µεθόδων, όπως π.χ. της [1].

1.4 Η δοµή της εργασίας 8 Στο κεφάλαιο 5 εκτίθενται τα αποτελέσµατα σε πίνακες. Τα αποτελέσµατα αναφέρονται σε ίδια κείµενα εισόδου και µε την ίδια αρχική πληροφορία, κάτι που δίνει τη δυνατότητα της απευθείας σύγκρισής τους. Στο κεφάλαιο 6 παρουσιάζονται τα συµπεράσµατα της εργασίας ενταγµένα πια ξεκάθαρα στο πλαίσιο της ερευνητικής περιοχής. Επίσης, παρουσιάζονται κάποιες σκέψεις που ϑα µπο- ϱούσαν να ϐελτιώσουν την απόδοση του συστήµατος, καθώς και οι ελλείψεις του.

Κεφάλαιο 2 Γνωσιακές ϐάσεις και το WordNet 2.1 Γνωσιακές ϐάσεις Οι γνωσιακές ϐάσεις (knowledge bases) είναι εργαλεία που περιέχουν δεδοµένα οργανωµένα µε κάποιον τρόπο ο οποίος επιτρέπει την αποδοτική διαχείριση της πληροφορίας που περιέχουν. Η πληροφορία αυτή δίνεται είτε σε µορφή απ ευθείας ορισµών είτε σε µορφή δοµών χαρακτηριστικών οι οποίες στη συνέχεια αξιολογούνται από το σύστηµα, για να παρθεί µία απόφαση. Εποµένως, οι γνωσιακές ϐάσεις είναι πολύ σηµαντικά εργαλεία για εφαρµογές που απαιτούν πρότερη γνώση, για να λειτουργήσουν ικανοποιητικά. Μπορεί να πει κανείς ότι είναι τα τµήµατα ενός συστήµατος που συνδέουν τη µηχανή µε την ανθρώπινη νόηση. Είναι ϕανερό ότι η καλή δοµή µίας γνωσιακής ϐάσης καθιστά δυνατή την συλλογή, οργάνωση και εξαγωγή πληροφορίας από αυτήν µε αποδοτικό τρόπο. Για αυτό το λόγο, η καλή δοµή της γνωσιακής ϐάσης αποτελεί απαίτηση κατά το σχεδιασµό της. Τα περιεχόµενα της ϐάσης αποτελούν µία οντολογία, καθώς διατηρούν κάποιες σχέσεις µεταξύ τους. Η οντολογία µπορεί να είναι ιεραρχική ή όχι, να είναι µία συλλογή αντικειµένων µε ένα ή περισσότερα του ενός χαρακτηριστικά, κτλ. Τα περιεχόµενα της οντολογίας µπορεί να είναι δύο ειδών αντικείµενα είτε µετρήσιµες ποσότητες (συντακτικά χαρακτηριστικά) είτε αφηρηµένες έννοιες (σηµασιολογικές οντότητες). Για παράδειγµα, η παρούσα εργασία ασχολείται µε το κείµενο και τις λέξεις που αυτό περιέχει. Συντακτικό χαρακτηριστικό στη γνωσιακή ϐάση µπορεί να είναι ο αριθµός των διαφορετικών λέξεων, η συχνότητα της κάθε λέξης µέσα στο κείµενο, ή ακόµη κάποιο πιθανοτικό µοντέλο ϐασισµένο σε στατιστικά χαρακτηριστικά του κειµένου. Απεναντίας, οι σηµασιολογικές οντότητες είναι πολύ δύσκολο να εξαχθούν από το κείµενο, και γι αυτό είναι επιθυµητό να χρησιµοποιήσουµε µία έτοιµη πηγή γνώσης, την οποία ϑα πρέπει στη συνέχεια να χειριστούµε κατάλληλα για να

2.2 Το WordNet 10 καταλήξουµε σε κάποια συµπεράσµατα. Η γνωσιακή ϐάση που χρησιµοποιήθηκε στην παρούσα διπλωµατική είναι το WordNet. 2.2 Το WordNet 2.2.1 Γενικά χαρακτηριστικά Το WordNet είναι ένα σηµασιολογικό λεξικό. Πρόκειται για µία εφαρµογή ανοιχτού κώδικα η οποία αναπτύσσεται από το Πανεπιστήµιο του Princeton. Ο λόγος της επιλογής του WordNet ήταν κυρίως ευρεία χρήση του από διάφορα συστήµατα σαν γνωσιακή ϐάση. Παράλληλα, η επικοινωνία µε το WordNet σε επίπεδο προγραµµατισµού είναι πολύ εύκολη γρήγορη. Αλλά τι είναι στην πραγµατικότητα το WordNet και τι µας προσφέρει ; Το WordNet είναι µία εφαρµογή αποτελούµενη από µία ιεραρχική δοµή εννοιών. ηµιουργήθηκε ϐασιζόµενο σε ψυχολογικές και γλωσσολογικές ϑεωρίες για τον τρόπο λειτουργίας του ανθρώπινου εγκεφάλου, και πιο συγκεκριµένα για τον τρόπο µε τον οποίο ο άνθρωπος µαθαίνει τα νοήµατα των λέξεων. Για κάθε λέξη στο λεξικό του WordNet υπάρχει ένα σύνολο από έννοιες/ερµηνείες. Οι ερµηνείες αυτές συνοδεύονται από : 1. έναν αριθµό που δηλώνει πόσες ϕορές έχει ϐρεθεί η συγκεκριµένη ερµηνεία στα πρότυπα κείµενα από τα οποία οι λεξικογράφοι έχουν κατασκευάσει το WordNet (συχνότητα). 2. ένα σύνολο λέξεων, που ονοµάζεται synset, και αποτελείται από τα συνώνυµα της κάθε ερµηνείας της λέξης, 3. αντιπροσωπευτικές ϕράσεις (gloss) στις οποίες περιέχεται η λέξη µε τη δεδοµένη ερµηνεία της. Στο Σχήµα 2.1 ϕαίνεται η πιο απλή αναζήτηση που µπορεί να κάνει το WordNet να τυπώσει όλες τις δυνατές ερµηνείες µίας λέξης. Η δύναµη του WordNet σε πρώτο επίπεδο, όπως ϕαίνεται, είναι η οµαδοποίηση των ερµηνειών των λέξεων. Μάλιστα, στο αποτέλεσµα γίνεται διάκριση µεταξύ ουσιαστικών, ϱηµάτων, επιθέτων και επιρρηµάτων. Η περισσότερη δουλειά όσον αφορά τον εµπλουτισµό του WordNet έχει γίνει µε τα ουσιαστικά, όπως ϕαίνεται στον Πίνακα 2.1. 2.2.2 Η δοµή της πληροφορίας Εχοντας περιγράψει τα γενικά χαρακτηριστικά του WordNet µπορούµε να εξετάσουµε πώς οργανώνεται όλη η πληροφορία που περιέχει. Εχουµε ήδη αναφέρει ότι είναι µία ιεραρχική δοµή εννοιών οι σχέσεις, δηλαδή, µεταξύ των στοιχείων του (λέξεις) έχουν τους εξής τύπους :

2.2 Το WordNet 11 Overview of noun spark The noun spark has 6 senses (first 3 from tagged texts) 1. (4) flicker, spark, glint -- (a momentary flash of light) 2. (4) sparkle, twinkle, spark, light -- (merriment expressed by a brightness or gleam or animation of countenance; "he had a sparkle in his eye"; "there s a perpetual twinkle in his eyes") 3. (2) discharge, spark, arc, electric arc, electric discharge -- (electrical conduction through a gas in an applied electric field) 4. spark -- (a small but noticeable trace of some quality that might become stronger; "a spark of interest"; "a spark of decency") 5. Spark, Muriel Spark, Dame Muriel Spark, Muriel Sarah Spark -- (Scottish writer of satirical novels (born in 1918)) 6. spark -- (a small fragment of a burning substance thrown out by burning material or by friction) Overview of verb spark The verb spark has 2 senses (first 2 from tagged texts) 1. (5) trip, actuate, trigger, activate, set off, spark off, spark, trigger off, touch off -- (put in motion or move to act; "trigger a reaction"; "actuate the circuits") 2. (1) spark, sparkle -- (emit or produce sparks; "A high tension wire, brought down by a storm, can continue to spark") Σχήµα 2.1: Παράδειγµα εξόδου του WordNet Part-of-Speech Unique Strings Synsets Total Word-Sense Pairs Noun 117.097 81.426 145.104 Verb 11.488 13.650 24.890 Adjective 22.141 18.877 31.302 Adverb 4.601 3.644 5.720 Totals 155.327 117.597 207.016 Πίνακας 2.1: Στατιστικά του WordNet υπερώνυµο (hypernym): η λέξη έχει γενικότερη/ευρύτερη έννοια από αυτήν της οποίας είναι υπερώνυµο, π.χ. play is a kind of..., υπώνυµο (hyponym): η λέξη έχει ειδικότερη/στενότερη έννοια από αυτήν της οποία είναι υπώνυµο, π.χ.... is a kind of play,

2.2 Το WordNet 12 ολώνυµο (holonym): η λέξη αποτελεί µία κατηγορία, στην οποία υπάγεται η λέξη της οποίας είναι ολώνυµο, π.χ. play is a part of..., µερώνυµο (meronym): η λέξη αποτελεί ένα είδος της κατηγορίας της λέξης της οποίας είναι µερώνυµο, π.χ. parts of play, πεδίο (domain): ϑεµατική ενότητα στην οποία υπάγεται η λέξη, π.χ. play#1 is in topic of drama 1 συντεταγµένοι όροι (coordinate terms): λέξεις οι οποίες έχουν κοινό υπερώνυµο, π.χ. play#1 has coordinate terms play, act, scene, script. Κάθε µία από αυτές τις σχέσεις που συνδέουν ερµηνείες µεταφράζεται σε ένα είδος αναζήτησης από το WordNet. Αυτό σηµαίνει ότι κάθε ϕορά που γίνεται µία αναζήτηση, επιστρέφεται από το πρόγραµµα µία δενδρική δοµή που σχετίζεται µόνο µε τη συγκεκριµένη σχέση που έχει επιλεγεί. Για παράδειγµα, στο Σχήµα 2.2 ϕαίνεται ένα κοµµάτι αυτής της δοµής, όταν αναζητούµε τα υπερώνυµα (hypernyms) της λέξης sense. Σηµειώνεται ότι αυτό το κοµµάτι αποτελεί ένα πολύ µικρό µέρος του συνόλου, καθώς η λέξη sense έχει πέντε ερµηνείες όταν πρόκειται για ουσιαστικό και άλλες τέσσερις όταν είναι ϱήµα. Γίνεται αντιληπτό ότι το µέγεθος της πληροφορίας που είναι διαθέσιµο είναι µεγάλο και ανάλογα µε τη λέξη και το πλήθος των δεσµών της µπορεί να γίνει τεράστιο, αφού η αύξηση των σχέσεων είναι εκθετική. Παρατηρείται ότι στην κορυφή αυτής της ιεραρχίας ϐρίσκεται η λέξη entity, για την οποία δεν υπάρχει ορισµός, παρά µόνο περιφραστική περιγραφή. Είναι µια έννοια η οποία ναι µεν γίνεται κατανοητή από την ανθρώπινη αντίληψη, αλλά όχι από κάποια µηχανή, διότι δεν υπάρχει κάποιο µέτρο της αντίληψης. Αυτό συµβαίνει µε πολλές λέξεις που το νόηµά τους είναι αφηρηµένο. 2.2.3 Προβλήµατα του WordNet Το WordNet αν και αποτελεί εξαιρετικό εργαλείο, έχει ένα σηµαντικό πρόβληµα. Η κατηγο- ϱιοποίηση των εννοιών µίας λέξης τις περισσότερες ϕορές είναι τόσο εκλεπτυσµένη που ακόµη και ο άνθρωπος δυσκολεύεται να καταλάβει τη διαφορά. Συνεπώς, κατά τη διαδικασία επιλογής του νοήµατος µίας λέξης υπάρχει αυξηµένη πιθανότητα να επιλεγεί κάποια πολύ κοντινή έννοια αντί για την σωστή. Αυτό ϑα έχει ως αποτέλεσµα την εµφάνιση µειωµένης απόδοσης της εκάστοτε µεθόδου, ενώ στην πραγµατικότητα δεν συµβαίνει κάτι τέτοιο. Ενα τέτοιο παράδειγµα δίνεται στο Σχήµα 2.3, όπου ϕαίνονται τα αποτελέσµατα που δίνει το WordNet για τα play#3 και play#7, όταν αυτό είναι ϱήµα : 1 Ο συµβολισµός #1 σηµαίνει ότι αναφερόµαστε στην πρώτη ερµηνεία που δίνει το WordNet για το play. Στην προκειµένη περίπτωση σηµαίνει θεατρικό έργο

2.2 Το WordNet 13 Sense 2 sense, signified -- (the meaning of a word or expression; the way in which a word or expression or situation can be interpreted; "the dictionary gave several senses for the word"; "in the best sense charity is really a duty"; "the signifier is linked to the signified") => meaning, significance, signification, import -- (the message that is intended or expressed or signified; "what is the meaning of this sentence"; "the significance of a red traffic light"; "the signification of Chinese characters"; "the import of his announcement was ambiguous") => message, content, subject matter, substance -- (what a communication that is about something is about) => communication -- (something that is communicated by or to or between people or groups) => abstraction -- (a general concept formed by extracting common features from specific examples) => abstract entity -- (an entity that exists only abstractly) => entity -- (that which is perceived or known or inferred to have its own distinct existence (living or nonliving)) Σχήµα 2.2: Παράδειγµα της ιεραρχικής δοµής του WordNet 3. (29) play -- (play on an instrument; The band played all night long ) 7. (8) play -- (perform music on (a musical instrument); He plays the flute ; Can you play on this old recorder? ) Σχήµα 2.3: Παρόµοιες ερµηνείες στο WordNet [21]. Για περισσότερες πληροφορίες σχετικά µε το WordNet ο αναγνώστης µπορεί να ανατρέξει στο

Κεφάλαιο 3 Ο αλγόριθµος Conceptual Density 3.1 Γενικά Στην πρώτη ϕάση της παρούσας εργασίας ήταν επιθυµητό να επιβεβαιωθούν τα αποτελέσµατα ενός γνωστού WSD 1 αλγορίθµου. Ο κύριος σκοπός ήταν η ύπαρξη ενός σηµείου αναφοράς για την εκτίµηση της απόδοσης του αλγορίθµου που υλοποιήθηκε στην δεύτερη ϕάση της εργασίας. Για την επιλογή του αλγορίθµου ήταν σηµαντικά τα εξής στοιχεία : η προσέγγιση όσο το δυνατόν του αλγορίθµου στον τρόπο µε τον οποίο ο άνθρωπος αντιλαµ- ϐάνεται το νόηµα των λέξεων µέσα σε κείµενο. Πιο συγκεκριµένα, το νόηµα που αποδίδεται σε µία λέξη ϑα έπρεπε να εξαρτάται από το νόηµα των γειτονικών λέξεων µέσα στο κείµενο τα συµφραζόµενα (context). Οι λέξεις αυτές αποτελούν ένα παράθυρο λέξεων του κειµένου. Οι έρευνες που έχουν γίνει στο συγκεκριµένο κοµµάτι ϕανερώνουν ότι τα συστήµατα που δεν εκµεταλλεύονται το πληροφοριακό αυτό περιεχόµενο είτε είναι σχεδιασµένα για διαφορετική χρήση ανίχνευση συγγραφέα, κατηγοριοποίηση κειµένων κτλ., είτε, εν τέλει, αποτυγχάνουν. Αυτό είναι λογικό αρκεί να αναλογιστεί κανείς τον ανθρώπινο τρόπο έκφρασης. Οταν κάποιος µιλάει ή γράφει για ένα ϑέµα έχει την τάση να χρησιµοποιεί την ίδια λέξη για να περιγράψει το περιεχόµενο ενός νοήµατος. Μόνο µετά από ώρα, και αφού έχει υπάρξει ένα µεταβατικό στάδιο στον ειρµό του, υπάρχει πιθανότητα να χρησιµοποιήσει την ίδια λέξη για να περιγράψει κάτι νοηµατικά διαφορετικό. Σε διαφορετική περίπτωση, αν σκεφτούµε τον εαυτό µας, είναι δύσκολο να κατανοήσουµε κατευθείαν το νόηµα µίας πρότασης που χρησιµοποιείται για παράδειγµα µόνο από µία µικρή κοινότητα. Η ερµηνεία µίας λέξης ή πρότασης στην περίπτωση αυτή απαιτεί είτε γνώση είτε εµπειρία. 1 Ο όρος WSD (Word Sense Disambiguation) ϑα χρησιµοποιείται από εδώ και πέρα σχεδόν αποκλειστικά όταν αναφερόµαστε στην αποσαφήνιση λέξης από κείµενο

3.2 Ο αλγόριθµος 15 η χρήση γνωσιακής ϐάσης. Οπως εξηγήθηκε στο Κεφάλαιο 2, η γνωσιακή ϐάση συνδέει τη µηχανή µε την ανθρώπινη νόηση. Με τη χρήση της, η επίλυση του προβλήµατος γίνεται πιο σαφής και δοµηµένη. η καταλληλότητα για αποσαφήνιση οποιουδήποτε κειµένου. Πολλοί αλγόριθµοι παρουσιά- Ϲουν πολύ καλή απόδοση για κείµενα σε περιορισµένες ϑεµατικές περιοχές µόνον, ή για πολύ µικρό λεξιλόγιο. Καθώς στην παρούσα εργασία ήταν Ϲητούµενο η µεγαλύτερη ευελιξία, τέτοιοι αλγόριθµοι απορρίφθηκαν. Αντιθέτως, ο αλγόριθµος ϑα πρέπει να µπορεί να αντιµετωπίσει οποιοδήποτε κείµενο. η µη αναγκαιότητα εκπαίδευσης. Οι αλγόριθµοι που απαιτούν ένα στάδιο εκπαίδευσης δεν είναι τόσο ευέλικτοι όσο οι άλλοι. Εκτός αυτού, η εκπαίδευση προϋποθέτει την ύπαρξη πρότυπων κειµένων που πληρούν συγκεκριµένες προϋποθέσεις (οµοιοµορφία, πληρότητα περιεχοµένου, επαρκές µέγεθος), τα οποία όµως δεν είναι πάντοτε διαθέσιµα (γιατί δεν είναι ελεύθερα, γιατί δεν υπάρχουν για όλες τις γλώσσες κτλ). δυνατότητα ϐελτίωσης. Ο αλγόριθµος ϑα έπρεπε να παρουσιάζει ελπιδοφόρα αποτελέσµατα, αλλά η δοµή του ϑα έπρεπε να είναι τέτοια που να επιτρέπει την επέκτασή του µε σκοπό τη ϐελτίωση της απόδοσής του. Ο αλγόριθµος ο οποίος επιλέχθηκε να υλοποιηθεί, καθώς πληροί όλα τα παραπάνω κριτήρια, είναι ο Conceptual Density, ο οποίος προτάθηκε από τους E. Agirre, G.Rigau το 1996 [1]. 3.2 Ο αλγόριθµος 3.2.1 Είσοδος Η είσοδος στον αλγόριθµο Conceptual Density είναι οποιοδήποτε κείµενο (unrestricted text). Θεωρητικά, η είσοδος µπορεί να είναι οποιοδήποτε κείµενο, το οποίο έχει προσηµειωµένο τι µέρος του λόγου είναι η κάθε λέξη (part-of-speech tagged). Τα διαθέσιµα corpora είναι πάρα πολλά, εντούτοις σχεδόν όλα δεν είναι ελεύθερα (public domain texts). Ετσι, για την αξιολόγηση της επίδοσης του αλγορίθµου χρησιµοποιείται το ελεύθερο corpus SemCor 2.0, το οποίο είναι υποσύνολο του Brown Corpus και περιλαµβάνει 250.000 λέξεις. Το SemCor περιλαµβάνει για κάθε λέξη το µέρος του λόγου που αυτή είναι και την ερµηνεία της, όπως αυτή εµφανίζεται στο Wordnet. Το 96% όλων των λέξεων που περιέχονται στο SemCor έχουν ερµηνεία στο WordNet. Ολες οι λέξεις έχουν προσηµειωθεί µε το χέρι από τους ειδικούς, και το ποσοστό σφάλµατος πλησιάζει, σύµφωνα µε τους συγγραφείς, το 10% για τις πολύσηµες λέξεις.

3.2 Ο αλγόριθµος 16 Ο αναγνώστης σίγουρα ϑα παρατήρησε ότι στο κείµενο εισόδου δεν χρησιµοποιούνται καθόλου δεδοµένα σχετικά µε το συντακτικό της πρότασης, όπως ίσως ϑα ανέµενε κανείς. Αυτό συµβαίνει γιατί σε όλες τις γλώσσες, το συντακτικό είναι, ακριβώς όπως και το νόηµα, κάτι που µένει να αποσαφηνιστεί. Το πρόβληµα αυτό δεν έχει επιλυθεί. Ετσι λοιπόν, ως ότου αυτό γίνει, είναι ασφαλέστερο να κατασκευάζουµε αλγορίθµους που χρησιµοποιούν ως είσοδο µόνο το τι µέρος του λόγου είναι η κάθε λέξη, καθώς η πληροφορία αυτή µπορεί να εξαχθεί εύκολα για οποιοδήποτε κείµενο και οποιαδήποτε γλώσσα. Η µορφή του κειµένου εισόδου είναι αυτή που ϕαίνεται στο Σχήµα 3.1. Κατά την είσοδο <wf cmd=done pos=vb lemma=say wnsn=1 lexsn=2:32:00::>said</wf> <wf cmd=done pos=nn lemma=friday wnsn=1 lexsn=1:28:00::>friday</wf> <wf cmd=ignore pos=dt>an</wf> <wf cmd=done pos=nn lemma=investigation wnsn=1 lexsn=1:09:00::>investigation</wf> <wf cmd=ignore pos=in>of</wf> <wf cmd=done pos=nn lemma=atlanta wnsn=1 lexsn=1:15:00::>atlanta</wf> <wf cmd=ignore pos=pos> s</wf> <wf cmd=done pos=jj lemma=recent wnsn=2 lexsn=5:00:00:past:00>recent</wf> <wf cmd=done pos=nn lemma=primary_election wnsn=1 lexsn=1:04:00::>primary_election</wf> <wf cmd=done pos=vb lemma=produce wnsn=4 lexsn=2:39:01::>produced</wf> <punc> </punc> Σχήµα 3.1: Μορφή του Semcor 2.0 δεδοµένων στο σύστηµα απορρίπτεται όλη η πληροφορία που περιέχει κάθε λέξη εκτός από το µέρος του λόγου στο οποίο ανήκει. Είναι το µοναδικό χαρακτηριστικό το οποίο είναι χρήσιµο, καθώς αποσαφήνιση λέξεων ϑα γίνει µόνο για τα ουσιαστικά του κειµένου. Αυτό συµβαίνει αφ ενός για λόγους απλότητας (καθώς στην περίπτωση που χρησιµοποιούνταν και άλλα µέρη του λόγου ϑα χρειαζόταν και συντακτική ανάλυση) και αφ ετέρου γιατί το ίδιο το WordNet περιέχει ούτως ή άλλως πολύ περισσότερη πληροφορία για τα ουσιαστικά. Στην περίπτωση που η πληροφορία για το ποιες λέξεις του κειµένου είναι ουσιαστικά απουσιάζει, π.χ. σε κείµενο το οποίο δεν έχει υποστεί κανενός είδους προεπεξεργασία, µπορεί να χρησιµοποιηθεί ένα σύστηµα που αναγνωρίζει το µέρος του λόγου της λέξης (p-o-s tagger), όπως αυτό που περιγράφεται στο [20]. Τα δεδοµένα εισόδου των πειραµάτων είναι χρήσιµα ξανά στο τέλος για τον υπολογισµό του ποσοστού επιτυχίας του αλγορίθµου.

3.2 Ο αλγόριθµος 17 3.2.2 Αποσαφήνιση κειµένου Ιδέα Οπως αναφέραµε, η χρήση των συµφραζόµενων µίας λέξης για την αποσαφήνισή της είναι απαραίτητη. Ο τρόπος µε τον οποίο ερµηνεύεται η σχέση των συµφραζόµενων µε τη λέξη οδηγεί σε διαφορετικούς αλγορίθµους. Ενας τρόπος συσχέτισης είναι ο υπολογισµός του µεγέθους conceptual distance, ο οποίος ορίζεται ως η ελάχιστη απόσταση µεταξύ δύο λέξεων (της υπό εξέταση λέξης συναρτήσει όλων των υπολοίπων) σε ένα ιεραρχικό σηµασιολογικό γράφο, όπως είναι το WordNet. Η επέκταση αυτής της ιδέας οδηγεί στο µέγεθος conceptual density, το οποίο είναι : 1. ευαίσθητο στο µήκος του µονοπατιού ανάµεσα σε έννοιες όσο µικρότερη είναι η διαδροµή µεταξύ εννοιών που συναντώνται µέσα στο σηµασιολογικό γράφο, τόσο µεγαλύτερη είναι η επίδραση για τη σωστή ερµηνεία της λέξης. Για παράδειγµα, όπως ϕαίνεται και από το Σχήµα 3.2, στην πρόταση He wrote several plays but only one was produced on renowned theatres η λέξη play σηµαίνει ϑεατρικό έργο και όχι παιχνίδι διότι η απόσταση που συνδέει τις έννοιες play theatre είναι η µικρότερη µε οποιαδήποτε άλλη από αυτές που συναντώνται στη συγκεκριµένη πρόταση. 2. ευαίσθητο στο ϐάθος που ϐρίσκεται η ερµηνεία στην ιεραρχία του WordNet όταν διατρέχουµε τον ιεραρχικό γράφο του WordNet σε µία µορφή αναζήτησης (όπως π.χ. υπωνυµία) είναι σαφές από το Κεφάλαιο 2 ότι οι λέξεις αλλάζουν νόηµα/ερµηνεία. Η ιεραρχηµένη δοµή είναι αυτή που δίνει τη δυνατότητα να µετρήσουµε το ϐάθος στο οποίο συναντάται µία ερµηνεία. Ετσι, αυτές που ϐρίσκονται ϐαθύτερα αποµακρύνονται νοηµατικά από αυτές που ϐρίσκονται ψηλότερα στην ιεραρχία. 3. ευαίσθητο στην πυκνότητα των εννοιών στην ιεραρχία όσο περισσότερες ϕορές συναντάται µία έννοια στα συµφραζόµενα είναι σαφές ότι τόσο περισσότερο ενισχύεται η υπόθεση ότι η λέξη εµφανίζεται µε την συγκεκριµένη ερµηνεία. 4. αναίσθητο στον αριθµό των εννοιών που µετρούνται ο αριθµός των εννοιών που έχει µία λέξη δεν πρέπει να επηρεάζει το µετρούµενο µέγεθος (conceptual density). Εστω ένα παράθυρο από λέξεις w 1,..., w i,..., w n, όπου w i είναι η λέξη που ϑέλουµε να αποσαφηνίσουµε. Αν υποθέσουµε ότι η λέξη w i έχει τέσσερις διαφορετικές ερµηνείες, τότε κάθε λέξη που συναντάται από το παράθυρο εµφανίζεται τουλάχιστον µία ϕορά σε κάποιο από τα τέσσερα υποδένδρα της λέξης που προκύπτουν από το WordNet. Η µέθοδος conceptual density ϑα δώσει τη µεγαλύτερη πυκνότητα (density) για το υποδένδρο που περιέχει περισσότερες έννοιες από όλα,

3.2 Ο αλγόριθµος 18 plan of action maneuver #1 is a kind of... drama, dramatic play #2 has part of... #3 is kind of #4 is kind of action #5 is kind of play #1 has part of theatre Σχήµα 3.2: Παράδειγµα µικρότερου µονοπατιού στο Wordnet για την αποσαφήνιση της λέξης play σε συνάρτηση µε το συνολικό αριθµό των εννοιών από όλα τα υποδένδρα. Η έννοια που ϑα επιλεγεί είναι αυτή που αντιστοιχεί στο υποδένδρο µε την µεγαλύτερη πυκνότητα. Αυτό ϕαίνεται στο Σχήµα 3.3. w i sense #1 sense #2 sense #3 sense #4 w i Σχήµα 3.3: Παράδειγµα µικρότερου µονοπατιού στο Wordnet για την αποσαφήνιση της λέξης play

3.2 Ο αλγόριθµος 19 Στο [1] προτείνεται για την εύρεση του µεγέθους conceptual density ο εξής τύπος : CD(c, m) = m 1 nhyp i i=0 (3.1) h 1 nhyp i όπου c η έννοια στην κορυφή της υποϊεραρχίας, m ο αριθµός των εννοιών της εξεταζόµενης λέξης, nhyp ο αριθµός των υπωνύµων ανά κόµβο και h το ύψος της υποϊεραρχίας. Ο αριθµητής εκφράζει ένα ϐάρος για τη συγκεκριµένη έννοια συναρτήσει του αριθµού των λέξεων που έχει συναντήσει στο δεδοµένο παράθυρο, ενώ ο παρονοµαστής το ϐάρος όλης της υποϊεραρχίας. Ο λόγος που συµβαίνει αυτό είναι για να κανονικοποιηθεί το ϐάρος που έχει κάθε έννοια. Το nhyp υπολογίζεται στο [1] σύµφωνα µε τον τύπο : i=0 h 1 descendants c = nhyp i (3.2) Επειδή, όµως το nhyp υπολογίζεται µόνο µε αριθµητικές µεθόδους οι οποίες επιβαρύνουν το συνολικό σύστηµα, δεδοµένου ότι η διαδικασία επαναλαµβάνεται για κάθε λέξη του κειµένου, επιλέχθηκε να χρησιµοποιηθεί, αντί αυτού, η πολύ καλή προσέγγιση που ϕαίνεται παρακάτω : i=0 CD(c, m) = h 1 i=0 µ i0.2 c descendants c (3.3) όπου h είναι το µέγιστο ϐάθος της υποϊεραρχίας όπου έχει απαντηθεί µία λέξη από τα συµφρα- Ϲόµενα, descendants c είναι ο αριθµός των κόµβων που έχουµε συναντήσει µέχρι εκείνο το ϐάθος και µ c είναι ο µέσος όρος των παιδιών που έχει ο κάθε κόµβος. Αλγόριθµος Ας δούµε τώρα τον αλγόριθµο συνολικά (αλγόριθµος 1). Σε κάθε επανάληψη υπάρχει ένα δεδοµένο παράθυρο λέξεων w 1,..., w i,..., w n το οποίο ο αλγόριθµος µετακινεί από την αρχή του κειµένου µέχρι το τέλος. Η λέξη που αποσαφηνίζεται κάθε ϕορά ϐρίσκεται στο κέντρο του παραθύρου, ενώ οι γύρω της ϑεωρούνται συµφραζόµενα. Για κάθε λέξη w i επιστρέφεται από το WordNet το πλήρες δέντρο της λέξης αυτής µε τα υπώνυµά της. Κάθε κόµβος αυτού του δέντρου αποτελεί το synset της συγκεκριµένης ερµηνείας. Οπως έχει αναφερθεί το synset δεν είναι τίποτα παραπάνω από τα συνώνυµα της λέξης λέξεις, δηλαδή, που αν αντικαταστήσουν την υπό εξέταση λέξη δε ϑα αλλάξει το νόηµα του κειµένου. Στη συνέχεια, διατρέχεται ο γράφος αυτός µε µία αναδροµική συνάρτηση και µετρούνται τα εξής : ο αριθµός των κόµβων που έχει η υποϊεραρχία,

3.2 Ο αλγόριθµος 20 Algorithm 1 Αλγόριθµος Conceptual Density. Input: Πληροφορία WordNet, λέξεις στο παράθυρο N. Output: Το πλήρες δέντρο µε τον αριθµό marks σε κάθε sense. 1: tree compute_tree (words_in_window) 2: for all elements w of context do 3: tree compute_coneptual_distance (tree) 4: concept select_concept_with_highest_weight (tree) 5: if concept = null then 6: exit for 7: else 8: tree mark_disambiguated_senses (tree, concept) 9: end if 10: end for 11: output_disambiguation_result (tree) ο αριθµός των παιδιών που έχει ο κάθε κόµβος, το µέγιστο ϐάθος που απαντάται κάποια λέξη από τα συµφραζόµενα σε κάποιο synset, το συνολικό ϐάθος της υποϊεραρχίας, ο αριθµός των ϕορών που έχει απαντηθεί µία λέξη από τα συµφραζόµενα σε κάθε µία από τις υποϊεραρχίες. Από αυτά τα δεδοµένα υπολογίζονται στη συνέχεια ο µέσος αριθµός παιδιών του κάθε κόµβου για κάθε µία από τις υποϊεραρχίες. Υπενθυµίζεται ότι κάθε υποϊεραρχία αποτελεί υποδηλώνει διαφο- ϱετική ερµηνεία της εξεταζόµενης λέξης. Επειτα, υπολογίζεται το άθροισµα της εξίσωσης 3.3 και το αποτέλεσµα διαιρείται µε τον αριθµό των κόµβων που αποτελούν τη συγκεκριµένη υποϊεραρχία. Ο αριθµός προκύπτει είναι το conceptual density της κάθε έννοιας (concept). Φυσικά, το τελικό ϐήµα είναι η επιλογή της έννοιας που έχει το µεγαλύτερο conceptual density.

Κεφάλαιο 4 Κατασκευή Ασαφών Σχέσεων από το WordNet για την Αποσαφήνιση Λέξεων Παρ ό,τι ο αλγόριθµος του Κεφαλαίου 3 έχει πολλά πλεονεκτήµατα τα οποία µας οδήγησαν στη χρήση του, παρουσιάζει ποσοστά επιτυχίας της τάξης του 50%, που κρίνονται πολύ χαµηλά για πραγµατικές εφαρµογές, και σίγουρα έχουν µεγάλα περιθώρια ϐελτίωσης. Η ιδέα που είχαµε εξαρχής ήταν ο εµπλουτισµός του αλγορίθµου µε χρήση ασαφούς λογικής. Η προσέγγιση αυτή δεν συναντάται συχνά στη ϐιβλιογραφία, εντούτοις παρουσιάζει ενδιαφέρον, καθώς κατά τη γνώµη µας προσεγγίζει καλύτερα τον ανθρώπινο τρόπο σκέψης και αντίληψης. 4.1 Ασαφής λογική και ασαφή σύνολα Οι αλγόριθµοι που είχαµε υπόψη µας κατά τη διαδικασία σχεδίασης του WSD συστήµατος χρησιµοποιούν κυρίως δυαδική λογική (binary logic). Στη δυαδική λογική µία πρόταση P µπο- ϱεί να είναι αληθής ή ψευδής, λαµβάνει, δηλαδή, τιµές από το διακριτό σύνολο {0, 1}. Ετσι, οι σχέσεις µεταξύ των λέξεων και των νοηµάτων είναι του τύπου είναι δεν είναι, έχει δεν έχει κτλ. Στην προκειµένη περίπτωση ϑελήσαµε να µοντελοποιήσουµε κάποια τµήµατα της διαδικασίας µε πολύτιµη λογική (multi-valued logic). Μία προέκταση της πολύτιµης λογικής είναι η ασαφής λογική (fuzzy logic). Στην ασαφή λογική κάθε πρόταση έχει ένα ϐαθµό αληθείας, ο οποίος ϐρίσκεται στο διάστηµα [0, 1]. Οσο πιο κοντά ϐρίσκεται αυτός ο ϐαθµός στο µηδέν, τόσο πιο αδύναµη είναι η πρόταση, ενώ αντίθετα. όσο πλησιάζει τη µονάδα τόσο ισχυροποιείται. Ενας εναλλακτικός τρόπος να ϕανταστεί κανείς την ασαφή λογική είναι να επεκτείνει την ιδέα των συνόλων σαν αυτά να µην έχουν σαφή (crisp) όρια, αλλά αδρά (unsharp). Ετσι, η ασαφής λογική ορίζεται ως πεδίο µε δύο διαφορετικούς τρόπους ο πρώτος και στενότερος αντιµετωπίζει την ασαφή λογική σαν ένα λογικό

4.1 Ασαφής λογική και ασαφή σύνολα 22 σύστηµα το οποίο είναι απλώς µία προέκταση της πολύτιµης λογικής. Ο δεύτερος και ευρύτερος, ο οποίος είναι και κυρίαρχος, ϑέλει την ασαφή λογική να είναι όρος σχεδόν ταυτόσηµος µε τη ϑεωρία των ασαφών συνόλων, η οποία σχετίζει τα εξεταζόµενα αντικείµενα µε τα νεφελώδη σύνολα που περιγράψαµε προηγουµένως. 4.1.1 Γιατί µας αρέσει τόσο πολύ η ασάφεια ; Η ανθρώπινη γλώσσα είναι κατ εξοχήν ένα από τα πιο ασαφή/νεφελώδη εργαλεία που επινόησε ποτέ ο άνθρωπος. Για το λόγο αυτό, σκεφτήκαµε ότι η ϑεωρία των ασαφών συνόλων πλησιάζει πολύ στο µοντέλο της ανθρώπινης γλώσσας, και εποµένως η χρήση της ϑα µπορούσε να οδηγήσει σε τουλάχιστον ενδιαφέροντα αποτελέσµατα. Η περίφηµη ϕράση του Lofti Zadeh ταιριάζει πολύ στην εφαρµογή που κληθήκαµε να υλοποιήσουµε. As complexity rises, precise statements lose meaning and meaningful statements lose precision. Lotfi Zadeh Ενα παράδειγµα που απεικονίζει µε σαφήνεια αυτό που ϑέλουµε να καταδείξουµε ϕαίνεται στο Σχήµα 4.1. Είναι εύκολο να καταλάβει κανείς ότι η ασάφεια στη γλώσσα είναι πολλές ϕορές επιθυµητή, καθώς την καθιστά περισσότερο χρήσιµη για τον άνθρωπο από την πλήρη σαφήνεια. Σχήµα 4.1: Η χρήση της γλώσσας ως ασαφές εργαλείο Για να περιγράψουµε όλα τα παραπάνω χρειάζεται ο ορισµός του ασαφούς συνόλου ασαφές σύνολο είναι ένα σύνολο χωρίς σαφή όρια. Η ϐεβαιότητα για τη συµµετοχή ενός στοιχείου σε ένα

4.1 Ασαφής λογική και ασαφή σύνολα 23 σύνολο στην κλασική ϑεωρία συνόλων αντικαθίσταται στην ασαφή λογική από το ϐαθµό ϐεβαιότητας συµµετοχής ή, αλλιώς, ϐαθµός συµµετοχής. Ακόµη, ένα πλεονέκτηµα της ασαφούς λογικής είναι ότι χρησιµοποιεί λεκτικές µεταβλητές για να περιγράψει τα µεγέθη. Για παράδειγµα, είναι δυνατό να αποδώσουµε σε συντακτικά χαρακτηριστικά µία συνάρτηση συµµετοχής (membership function) η οποία µπορεί να µοντελοποιεί µη µετρήσιµες έννοιες όπως ισχυρή ένδειξη, ασθενής ένδειξη κτλ. Ετσι, στην συχνότητα µίας λέξης σε ένα κείµενο µπορούν να αντιστοιχηθούν οι λεκτικές µεταβλητές πολύ συχνή, σπάνια κτλ. Ας υποθέσουµε, τώρα, ότι η πληροφορία που δίνει το WordNet για τη συχνότητα µίας έννοιας έχει για τον άνθρωπο διαφορετική ϐαρύτητα ανάλογα µε το αν η σχέση είναι σχέση υπωνυµίας, υπερωνυµίας ή µερωνυµίας. Εστω, για παράδειγµα, ένα τεχνικό κείµενο που αναφέρεται σε υπολογιστές (computers). Η λέξη computer είναι αυτή που ϑέλουµε να αποσαφηνίσουµε, καθώς έχει δύο έννοιες στο WordNet: - (6) computer, computing machine, computing device, data processor, electronic computer, information processing system (a machine for performing calculations automatically) - calculator, reckoner, figurer, estimator, computer (an expert at calculation (or at operating calculating machines)) Είναι πολύ πιθανό στα συµφραζόµενα να ϐρεθεί κάποια λέξη που έχει σχέση µε κάποιο τµήµα του υπολογιστή όπως π.χ. η δισκέτα (diskette) µία λέξη, δηλαδή, που έχει σχέση µερωνυµίας µε την εξεταζόµενη λέξη. Αντιθέτως, είναι λιγότερο πιθανό στο ίδιο κείµενο να εµφανιστεί η λέξη µηχανή (machine) η οποία έχει σχέση υπερωνυµίας µε την εξεταζόµενη λέξη. Ετσι, ο άνθρωπος ϕαίνεται πως µπορεί να αποφανθεί µε µεγαλύτερη ϐεβαιότητα για τη σηµασία της λέξης computer στο συγκεκριµένο κείµενο (πρώτη έννοια) αν συναντήσει στα συµφραζόµενα µερώνυµά της ( πολύ ισχυρή ένδειξη ) παρά αν συναντήσει υπερώνυµά της ( ισχυρή ένδειξη ). Αυτό συµβαίνει για οποιαδήποτε λέξη. Τα παραπάνω παρουσιάζονται στο Σχήµα 4.2, όπου η πολύ ισχυρή ένδειξη παρουσιάζεται µε κόκκινο και η ισχυρή µε µαύρο χρώµα. Πρέπει να σηµειωθεί ότι σχέσεις σαν την παραπάνω είναι διαισθητικές και προέκυψαν από απλή παρατήρηση. Η ϑεωρία για το τι ο άνθρωπος ϑεωρεί σηµαντικότερο στην πραγµατικότητα δεν έχει διατυπωθεί ακόµη. Ετσι, στον αλγόριθµο που αναπτύξαµε πήραµε το ϱόλο του ειδικού (expert), όπως αυτός περιγράφεται στο [9], και αποφασίσαµε µε αυθαίρετο τρόπο το ϐάρος που έχει η συχνότητα ανάλογα µε τον τύπο της σχέσης που έχει η λέξη µε τις ερµηνείες της.

4.1 Ασαφής λογική και ασαφή σύνολα 24 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 10 Σχήµα 4.2: Παράδειγµα συναρτήσεων συµµετοχής 4.1.2 Πράξεις µεταξύ ασαφών συνόλων Οι πράξεις µεταξύ ασαφών συνόλων γίνονται µε κατάλληλους τελεστές που ορίζονται στη ϑεω- ϱία της ασαφούς λογικής και των ασαφών συνόλων. Είναι υπεύθυνοι για τις πράξεις µεταξύ των συναρτήσεων συµµετοχής, ώστε να υπολογιστεί µία νέα συνάρτηση συµµετοχής για ένα νέο Ϲητούµενο σύνολο. Οι δύο τελεστές που χρησιµοποιούνται στην παρούσα εργασία είναι ο τελεστής της ασαφούς ένωσης (t-conorm), που συµβολίζεται ως U(a, b) και ο τελεστής της ασαφούς τοµής (t-norm) που συµβολίζεται ως I(a, b). Οι τελεστές αυτοί έχουν µία πληθώρα παραλλαγών οι οποίες ακολουθούν κάποιες ϑεµελιώδης αρχές και περιγράφονται στο [9]. Ετσι, αν υποθέσουµε ότι a και b είναι δύο ασαφείς µεταβλητές, τότε, στην εφαρµογή µας, οι τελεστές που χρησιµοποιήσαµε για την ασαφή ένωση και τοµή τους είναι οι εξής : U(a, b) I(a, b) Standard max(a, b) min(a, b) Algebraic a + b a b a b Yager min { 1, (a w + b w ) 1/w} 1 min { 1, [(1 a) w + (1 b) w ] 1/w} Sugeno min {1, a + b λab} max {0, (λ + 1)(a + b 1) λab} Bounded min {1, a + b} max {0, a + b 1} a if b = 0 a if b = 1 Drastic b if a = 0 b if a = 1 1 otherwise 0 otherwise Πίνακας 4.1: Τελεστές ασαφών συνόλων

4.2 Κατασκευή ασαφών σχέσεων για την αποσαφήνιση λέξεων 25 4.2 Κατασκευή ασαφών σχέσεων για την αποσαφήνιση λέξεων 4.2.1 Γενικά Ο πρακτικός σκοπός αυτής της εργασίας είναι η σχεδίαση ενός αλγορίθµου για την αποσαφήνιση των λέξεων ενός κειµένου. Για το σκοπό αυτό ακολουθήθηκαν τα εξής ϐήµατα : 1. Επιλογή κατάλληλων κειµένων 2. Σχεδίαση αλγορίθµου - Κατασκευή της ασαφούς γνωσιακής ϐάσης από το WordNet - Αναπαράσταση εννοιών µε ασαφείς τελεστές 3. Πειράµατα, έλεγχος των αποτελεσµάτων και αναζήτηση σφαλµάτων ή ελλείψεων κατά τη σχεδίαση 4.2.2 Επιλογή κατάλληλων κειµένων Η είσοδος του αλγορίθµου είναι η ίδια µε αυτή που έχει περιγραφεί στην παράγραφο 3.2.1. Τα κείµενα που χρησιµοποιήθηκαν είναι 103 κείµενα του Brown corpus (συλλογή κειµένων brown1 από το SemCor 2.0). Σε αυτά επιχειρήθηκε να γίνει αποσαφήνιση των λέξεων µόνο για ήδη προσηµειωµένα και πολύσηµα ουσιαστικά. 4.2.3 Αλγόριθµος Κάθε ερµηνεία S i της λέξης w 0 που προσπαθούµε να αποσαφηνίσουµε περιγράφεται µε ένα ασαφές σύνολο W Si. Το ασαφές αυτό σύνολο δηµιουργείται µε έναν αλγόριθµο που περιγράφεται στην παράγραφο 4.2.3. Ο αλγόριθµος που εφαρµόζεται στη συνέχεια σε αυτά τα ασαφή σύνολα και αποσκοπεί στην αποσαφήνιση της λέξης περιγράφεται αναλυτικά στην παράγραφο 4.2.3. Στην παράγραφο αυτή ϑα παρουσιαστεί µε µαθηµατικό ϕορµαλισµό ο αλγόριθµος που σχεδιάστηκε. Κατασκευή της ασαφούς γνωσιακής ϐάσης από το WordNet Οι σχέσεις που έχει το WordNet είναι δυαδικής λογικής (crisp). Αυτό είναι λογικό, αφού το WordNet είναι ένας ιεραρχικός γράφος. play#1 is a kind of athletic game#1. Παρ όλα αυτά, η σχέση R t (S j, S i ) που είναι τύπου t (στην περίπτωσή µας υπωνυµική) µεταξύ των εννοιών S j και S i δε συνάγει απαραίτητα ότι οι λέξεις που εµφανίζονται στο synset της έννοιας S j ϑα εµφανίζονται και στα συµφραζόµενα µίας λέξης από το synset της S i. Ετσι, κάνουµε την εξής υπόθεση :

4.2 Κατασκευή ασαφών σχέσεων για την αποσαφήνιση λέξεων 26 A B C d t d 1A d t d 2B d 1C d 2C B w 1 C w 2 w 1 w 2 Σχήµα 4.3: Γραφική αναπαράσταση της R t. Οι λέξεις συµβολίζονται µε κύκλους, ενώ οι λέξεις που ϐρίσκονται στα synsets µε τετράγωνα. Μία έννοια S j έχει ϐαθµό συµµετοχής στο ασαφές σύνολο των εννοιών που σχετίζονται µε την S i η οποία είναι στα συµφραζόµενά της, αν οι έννοιες σχετίζονται στο WordNet µε τη σχέση R t (S j, S i ). Για παράδειγµα η λέξη plant#1 έχει υπώνυµο τη λέξη, distillery, η οποία είναι µονόσηµη στο WordNet. Η λέξη manufacture#1 ανήκει στο σύνολο των εννοιών του plant#1 µε ένα ϐαθµό συµµετοχής, ενώ η λέξη flora#1 που είναι υπώνυµο της plant#2 δεν ανήκει. Στην περίπτωση που δεν έχουµε επιπλέον πληροφορία, ο ϐαθµός συµµετοχής d t εξαρτάται από τον τύπο t της σχέσης R t. Στα πειράµατα που ϑα ακολουθήσουν, έχουν επιλεγεί τα ϐάρη 0.9, 0.4, 0.4, 0.9 και 0.9 για τις σχέσεις της υπωνυµίας, υπερωνυµίας, ολωνυµίας, µερωνυµίας και πεδίου αντίστοιχα. Η σχέση αυτή µεταξύ των εννοιών S i και S i συµβολίζεται µε R t (S j, S i ), ενώ η αντίστοιχη ασαφής σχέση d t που κατασκευάζεται συµβολίζεται µε R t (S j, S i ) = d t. Οι σχέσεις R t (S j, S i ) και R t (S j, S i ) = d t δεν έχουν την µεταβατική ιδιότητα. Αυτό σηµαίνει ότι αν (A, B) R t και (B, C) R t τότε δεν ισχύει εν γένει ότι (A, C) / R t. Βέβαια, για το µεταβατικό υποσύνολο R t + της σχέσης R t ισχύει (A, C) R t +. Το ίδιο συµβαίνει και µε την ασαφή σχέση R t, στην οποία περίπτωση το µεταβατικό υποσύνολο λαµβάνεται µέσω της σύνθεσης (η οποία είναι του τύπου max-t στην περίπτωσή µας, αφού οι σχέσεις είναι διακριτές). Αναφερόµενοι στο Σχήµα 4.3 υποθέτουµε ότι γνωρίζουµε τους ϐαθµούς συµµετοχής d is µεταξύ µίας λέξης και µίας έννοιας. Για να υπολογίσουµε τη σχέση της σηµασιολογικής οντότητας A συναρτήσει της λέξης w 1, ϑα πρέπει να υπολογίσουµε µε µεταβατικό τρόπο ένα ϐαθµό συµµετοχής της λέξης w 1. Ο τύπος υπολογισµού δίνεται από τη σχέση : R + t (w 1, A) = max(d 1A, I(d 1C, d t, d t )) (4.1) και είναι προφανής ο υπολογισµός αν ακολουθήσουµε το µονοπάτι που οδηγεί στη λέξη w 1 και όπου συναντάµε σηµασιολογική οντότητα την αντικαταστήσουµε µε τον ορισµό της. Αυτό πρέπει να συµβαίνει µέχρι να καταλήξουµε σε µετρήσιµα (συντακτικά) χαρακτηριστικά. Ενα άλλο παράδειγµα, είναι το : R + t (w 2, A) = max(i(d 2B, d t ), I(d 2C, d t, d t )) (4.2)