ΑΥΤΟΜΑΤΗ ΕΞΑΓΩΓΗ ΛΕΞΙΚΗΣ - ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΓΝΩΣΗΣ ΑΠΟ ΗΛΕΚΤΡΟΝΙΚΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ ΜΕ ΧΡΗΣΗ ΕΛΑΧΙΣΤΩΝ ΠΟΡΩΝ

Σχετικά έγγραφα
ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εφαρµογές Τεχνολογιών Γλωσσικής Επεξεργασίας στα Συστήµατα Αναζήτησης των Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Σχεδιασµός Ανάπτυξη Οντολογίας

Ερευνητικό Πρόγραµµα BalkaNet

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

Η βιβλιοθήκη της Ι.Μ. Ευαγγελισμού της Θεοτόκου

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

ΕΙ ΙΚΑ ΚΕΦΑΛΑΙΑ ΧΑΡΤΟΓΡΑΦΙΑΣ ΧΑΡΤΟΓΡΑΦΙΑ ΧΑΡΤΗΣ ΧΡΗΣΗ ΗΜΙΟΥΡΓΙΑ. β. φιλιππακοπουλου 1

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας)

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Στόχοι και Προοπτικές

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Α. Ερωτήσεις Ανάπτυξης

Τρόποι αναπαράστασης των επιστημονικών ιδεών στο διαδίκτυο και η επίδρασή τους στην τυπική εκπαίδευση

ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ. Πολυδύναµο Καλλιθέας Φεβρουάριος 2008 Αναστασία Λαµπρινού

Οπτική αντίληψη. Μετά?..

Κασταλία Σύστηµα στοχαστικής προσοµοίωσης υδρολογικών µεταβλητών

Αναγνώριση Προτύπων Ι

Επιµέλεια Θοδωρής Πιερράτος

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

III_Β.1 : Διδασκαλία με ΤΠΕ, Γιατί ;

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

Η ΧΡΗΣΗ ΤΩΝ ΨΥΧΟΜΕΤΡΙΚΩΝ ΕΡΓΑΛΕΙΩΝ ΣΤΟΝ ΕΠΑΓΓΕΛΜΑΤΙΚΟ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Πρώτο Κεφάλαιο Φάσεις & Μοντέλα ένταξης των ΤΠΕ στην Εκπαίδευση Εκπαιδευτική Τεχνολογία: η προϊστορία της πληροφορικής στην εκπαίδευση 14

Τα κύρια σηµεία της παρούσας διδακτορικής διατριβής είναι: Η πειραµατική µελέτη της µεταβατικής συµπεριφοράς συστηµάτων γείωσης

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1)

ΑΝΑΛΥΣΗ ΠΡΟΤΙΜΗΣΕΩΝ ΓΙΑ ΤΗ ΧΡΗΣΗ ΣΥΣΤΗΜΑΤΟΣ ΕΝΟΙΚΙΑΖΟΜΕΝΩΝ ΠΟΔΗΛΑΤΩΝ ΣΤΟΝ ΔΗΜΟ ΑΘΗΝΑΙΩΝ

(2) (Quantifier Raising). (3)

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Επιµέλεια Θοδωρής Πιερράτος

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Σύµφωνα µε την Υ.Α /Γ2/ Εξισώσεις 2 ου Βαθµού. 3.2 Η Εξίσωση x = α. Κεφ.4 ο : Ανισώσεις 4.2 Ανισώσεις 2 ου Βαθµού

Ανοικτά Ακαδηµα κά Μαθήµατα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Επιµέλεια Θοδωρής Πιερράτος

ΟΡΓΑΝΩΣΗ ΚΑΙ ΥΛΟΠΟΙΗΣΗ ΜΙΑΣ ΕΡΕΥΝΑΣ. ΜΑΝΟΥΣΟΣ ΕΜΜ. ΚΑΜΠΟΥΡΗΣ, ΒΙΟΛΟΓΟΣ, PhD ΙΑΤΡΙΚHΣ

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ

Κεφάλαιο 6ο: Παρόν και μέλλον της Υπολογιστικής Γλωσσολογίας

Στοιχεία Θεωρίας Υπολογισµού (1): Τυπικές Γλώσσες, Γραµµατικές

Ποιές οι θεµελιώδεις δυνατότητες και ποιοί οι εγγενείς περιορισµοί των υπολογιστών ; Τί µπορούµε και τί δε µπορούµε να υπολογίσουµε (και γιατί);

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Ο Ρόλος της Αξιολόγησης στην

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

Αναλυτική Στατιστική

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το

2. ΣΥΝΟΠΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΡΟΓΡΑΜΜΑΤΩΝ ΣΠΟΥΔΩΝ ΕΝΓ

4.3. Γραµµικοί ταξινοµητές

Στόχος της ψυχολογικής έρευνας:

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή

ΚΕΦΑΛΑΙΟ 6 ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ. 03/01/09 Χαράλαμπος Τζόκας 1

Paper 3 Reading and Understanding 1GK0/3F or 3H

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

A systematic study of the universal properties and of the structure of cartographical language is still at an elementary stage. The fundamental basis

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Γνωστική Ψυχολογία 3

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Φυλλάδιο Εργασίας 1. Ενδεικτικές Απαντήσεις. Αξιολόγηση Διδακτικών Δραστηριοτήτων από τα διδακτικά εγχειρίδια

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΚΕΦΑΛΑΙΟ 6 - ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΕΚΠΑΙΔΕΥΤΗΡΙΑ «ΝΕΑ ΠΑΙΔΕΙΑ» Τοµέας Νέων Ελληνικών. ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ 2018 Εξεταστέα Ύλη Νεοελληνικής Γλώσσας

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

clarin:el δημιουργώ, επεξεργάζομαι, μοιράζομαι Στέλιος Πιπερίδης, Πένυ Λαμπροπούλου, Μαρία Γαβριηλίδου Ε.Κ. Αθηνά / ΙΕΛ

Περί της Ταξινόμησης των Ειδών

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

<5,0 5,0 6,9 7 7,9 8 8,9 9-10

ΕΚΠΑΙΔΕΥΤΗΡΙΑ «ΝΕΑ ΠΑΙΔΕΙΑ» Τομέας Νέων Ελληνικών

ΔΙΑΦΟΡΟΠΟΙΗΣΗ ΚΑΙ ΔΙΑΘΕΜΑΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ ΘΕΩΡΙΑ ΚΑΙ ΠΡΑΞΗ ΙΩΑΝΝΑ ΚΟΥΜΗ ΚΥΠΡΙΑΚΗ ΕΚΠΑΙΔΕΥΤΙΚΗ ΑΠΟΣΤΟΛΗ ΟΚΤΩΒΡΙΟΣ 2016

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ

Σηµειώσεις στις σειρές

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Transcript:

ΑΥΤΟΜΑΤΗ ΕΞΑΓΩΓΗ ΛΕΞΙΚΗΣ - ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΓΝΩΣΗΣ ΑΠΟ ΗΛΕΚΤΡΟΝΙΚΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ ΜΕ ΧΡΗΣΗ ΕΛΑΧΙΣΤΩΝ ΠΟΡΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ ΑΡΙΣΤΟΜΕΝΗ ΑΘ. ΘΑΝΟΠΟΥΛΟΥ ΙΠΛΩΜΑΤΟΥΧΟΥ ΗΛΕΚΤΡΟΛΟΓΟΥ ΜΗΧΑΝΙΚΟΥ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΑΡΙΘΜΟΣ ΙΑΤΡΙΒΗΣ: 157 ΦΕΒΡΟΥΑΡΙΟΣ 2005

Η διατριβή αυτή αφιερώνεται στους γονείς µου, Αθανάσιο και Αθανασία, που έθεσαν τα θεµέλια για την υλοποίηση της.

Πρόλογος Η παρούσα διατριβή ξεκίνησε µε αφετηρία τη διπλωµατική µου εργασία, που εκπονήθηκε στο χώρο της διαλογικής επικοινωνίας ανθρώπου υπολογιστή µε φυσική γλώσσα. Στην εργασία αυτή διαπίστωσα ότι η αχίλλειος πτέρνα στην υλοποίηση πρακτικών διαλογικών συστηµάτων είναι η ενσωµάτωση της λεξικής σηµασιολογικής γνώσης, που, ως λεξική, είναι ογκώδης, και εξαρτάται από την γλώσσα και τη θεµατική περιοχή. Η δυνατότητα να µπορεί να εξαχθεί η γνώση αυτή µε αυτόµατο τρόπο µέσα από πραγµατικά κείµενα χωρίς ανθρώπινη παρέµβαση και χωρίς ανάγκη άλλων πόρων, υπήρξε για µένα µια συναρπαστική αποκάλυψη, γιατί, πέρα από την προφανή πρακτική της χρησιµότητα και τις γλωσσολογικές και φιλοσοφικές της προεκτάσεις προσφέρει την ερεθιστική προοπτική της ανάλυσης γλωσσών επικοινωνίας άγνωστων, ακόµα και µη ανθρώπινων, γήινων ή όχι, µέσα από επαρκώς µεγάλα κείµενα στη γλώσσα επικοινωνίας τους. Ασφαλώς, το προσωπικό µου κίνητρο και ενδιαφέρον πιθανότατα δεν θα ήταν αρκετό για την ολοκλήρωση της διατριβής, αν δεν είχα επαρκείς βάσεις στις θετικές επιστήµες και την ανάγκη για διερεύνηση της πραγµατικότητας, χαρακτηριστικά που χρωστάω κύρια στη συνεχή και ουσιαστική προσπάθεια των γονιών µου για την εκπαίδευση και τη διαπαιδαγώγησή µου. Επιπλέον, η ηθική και υλική υποστήριξη που µου παρείχαν κατά το διάστηµα εκπόνησης της διατριβής ήταν αποφασιστικής σηµασίας για την ολοκλήρωσή της. Μια ακόµη αναγκαία συνθήκη υπήρξε η υλικοτεχνική και επιστηµονική υποδοµή του Εργαστηρίου Ενσύρµατης Τηλεπικοινωνίας και της εσωτερικής του Οµάδας Γλωσσικής Τεχνολογίας, κάτι που οφείλεται κύρια στους επικεφαλής Καθηγητές κ. Γεώργιο Κοκκινάκη και κ. Νίκο Φακωτάκη. Επιπλέον, τους ευχαριστώ για τη δυνατότητα που µου παρείχαν να συµµετάσχω σε ερευνητικά προγράµµατα του Εργαστηρίου, όπου απόκτησα πολύτιµη πρακτική εµπειρία στο χώρο της γλωσσικής τεχνολογίας, καθώς και, µαζί µε τον Καθ. κ. Νικόλαο Αβούρη, ως µέλη της τριµελούς συµβουλευτικής επιτροπής, για την καθοδήγησή τους, κατά τη διάρκεια εκπόνησης της διατριβής. Ειδικές ευχαριστίες οφείλω στον επιβλέποντα καθηγητή µου κ. Φακωτάκη για την εµπιστοσύνη που µου έδειξε και τη συνεχή υποστήριξη και καθοδήγηση που µου πρόσφερε στο µακρύ αυτό διάστηµα. Ακόµη, θα ήθελα να ευχαριστήσω και τα υπόλοιπα µέλη της επταµελούς εξεταστικής επιτροπής, τον Ευάγγελο ερµατά, το Θεόδωρο Καλαµπούκη, τον Κυριάκο Σγάρµπα, το ηµήτρη Χριστοδουλάκη και τον Ιωάννη Χατζηλυγερούδη για τις πολύτιµες παρατηρήσεις τους, που συνέβαλαν στην τελική διαµόρφωση της παρούσας διατριβής, αλλά και στην µελλοντική της προοπτική. i

Ένας ιδιαίτερα αποφασιστικής σηµασίας παράγοντας υπήρξε η στενή και εξαιρετικά εποικοδοµητική συνεργασία µε τους υπόλοιπους ερευνητές του εργαστηρίου στο χώρο της Επεξεργασίας Φυσικής Γλώσσας και πολύ καλούς φίλους, την Κάτια-Λήδα Κερµανίδου, τον Μανώλη Μαραγκουδάκη και το Στάθη Σταµατάτο. Τέλος, είµαι ευγνώµων σε πολλούς φίλους ή/και συναδέλφους για την υποστήριξη, τη συµβολή ή τη βοήθειά τους, όπως τον Κυριάκο Σγάρµπα, τον Γιώργο Παλιούρα, τον Ηλία Ποταµίτη, την Καλλιρρόη Γεωργιλά, την Ευγενία Χονδρού, το Στάθη Κουτσογεώργο, τον Αλέξανδρο Τασίκα, την Κατερίνα Παπαδοπούλου, τη Μάρθα Κουτρή, και τον διακεκριµένο επιστήµονα Gregory Grefenstette. Φεβρουάριος 2005 ii

Περίληψη Το αντικείµενο της διατριβής είναι η µελέτη µεθόδων για την αυτόµατη εξαγωγή ενός σηµαντικού τµήµατος της Λεξικής Σηµασιολογικής Γνώσης και συγκεκριµένα των Συµφράσεων και των Σηµασιολογικών Οµοιοτήτων των λέξεων από µεγάλες συλλογές ηλεκτρονικών κειµένων (Σώµατα Κειµένων). Η διατριβή υιοθετεί µια προσέγγιση χωρίς προαπαιτούµενους γλωσσικούς πόρους, ώστε να εξασφαλιστεί η απεριόριστη µεταφερσιµότητα σε φυσικές γλώσσες και θεµατικές περιοχές. Το πρώτο τµήµα της σηµασιολογικής γνώσης που προσεγγίζεται είναι οι συµφράσεις (collocations). Περιγράφεται η γενική µεθοδολογία στατιστικής εξαγωγής διγράµµων και n-γράµµων συµφράσεων από Σώµατα Κειµένων και τα συνηθέστερα στατιστικά µέτρα εξαγωγής διγράµµων, ενώ προτείνονται δύο νέα µέτρα (MD, LFMD) που εφαρµόζονται τόσο σε δίγραµµα όσο και σε n-γραµµα. Επίσης προτείνεται και εφαρµόζεται µια αυτόµατη µεθοδολογία αξιολόγησης των µέτρων εξαγωγής διγράµµων µε βάση το WordNet και λίστες επώνυµων οντοτήτων. Τα µέτρα που αξιολογούνται ως καλύτερα είναι τα LFMD και ο Λόγος Πιθανοφάνειας. Το δεύτερο και µεγαλύτερο τµήµα Λεξικο-σηµασιολογικής γνώσης για το οποίο µελετώνται προσεγγίσεις αυτόµατης εξαγωγής από Σώµατα Κειµένων είναι οι σηµασιολογικές οµοιότητες των λέξεων. Για να επιτευχθεί καταρχήν η αντικειµενική αξιολόγηση των µεθόδων που προσεγγίζουν το πρόβληµα, προτείνεται µια µεθοδολογία αυτόµατης αξιολόγησης των µεθόδων εξαγωγής σηµασιολογικής οµοιότητας, που εξάγει και χρησιµοποιεί τη µέση τιµή µιας συνάρτησης αξιολόγησης από τη λίστα των Ν-Καλύτερων εξαχθέντων σχέσεων, µεταβάλλοντας το µήκος της λίστας Ν. Ως Πρότυπη Βάση Γνώσης χρησιµοποιείται το WordNet, ενώ ως συνάρτηση οµοιότητας χρησιµοποιούνται τα κριτήρια των Lin των Resnik, για τα οποία προτείνεται ανεξαρτητοποίηση του τρόπου υπολογισµού της συχνότητας των εννοιών από το Σώµα Κειµένων. Για την συγκριτική αξιολόγηση των κριτηρίων αυτών και της προταθείσας τροποποίησης προτείνεται και εφαρµόζεται µια µεθοδολογία συγκριτικής αξιολόγησης, τα αποτελέσµατα της οποίας είναι εύλογα και αυτο-συνεπή. Συγκεκριµένα, δικαιώνουν την παραπάνω πρόταση ενώ δίνουν ένα ελαφρύ προβάδισµα στο µέτρο Resnik. Η πρώτη προσέγγιση εξαγωγής οµοιοτήτων που µελετάται είναι η εξαγωγή λέξεων παραµέτρων από ένα παράθυρο περικειµένων (συµφραζοµένων) εκατέρωθεν της λέξηςστόχου και συνακόλουθα η αναγωγή της σηµασιολογικής οµοιότητας στην οµοιότητα των συµφραζοµένων. Τα θέµατα που διερευνώνται αφορούν: α) στο εύρος του παραθύρου, όπου βρέθηκε ότι ένα παράθυρο 1-2 λέξεων εκατέρωθεν είναι ιδανικό β) iii

στα µέτρα οµοιότητας, από τα οποία το µέτρο Lin βρέθηκε να υπερέχει, και γ) στο φιλτράρισµα των συνεµφανίσεων των λέξεων, όπου βρέθηκε ότι ακόµα και συνεµφανίσεις µε µοναδιαία συχνότητα συνεισφέρουν θετικά, εφόσον τίθεται κατώφλι στη στατιστική σηµαντικότητά τους. Σχετικά µε αυτό, βρέθηκε ότι η χρήση της απόλυτης έκπτωσης δ για τον υπολογισµό των πιθανοτήτων των λέξεων επιδρά θετικά. Μια σηµαντική επισήµανση ότι ο αριθµός των κοινών παραµέτρων που απαιτούνται για να τεκµαρθεί µια σχέση οµοιότητας είναι µια παράµετρος που δεν αξιοποιείται κατάλληλα από τα υπάρχοντα µέτρα οµοιότητας. Έτσι προτείνεται είτε η χρήση κατωφλίου, η οποία δίνει θεαµατική αύξηση της ακρίβειας, είτε η κατάλληλη ενσωµάτωσή του στα µέτρα οµοιότητας, που παρέχει πολύ υψηλή απόδοση, τόσο από πλευρά ακρίβειας όσο και κάλυψης. Επίσης ειδικά για τις παραθυρικές µεθόδους, εισάγονται µε επιτυχηµένο αποτέλεσµα δύο καινοτοµίες: Αξιοποιείται η πολικότητα των συνταγµατικών συνεµφανίσεων και επισηµαίνεται και αντιµετωπίζεται µε επιτυχία η παρουσία ενός εγγενούς σφάλµατος που αφορά στην εξαγωγή ψευδών συµφραζοµένων. Τέλος, διερευνάται η αξιοποίηση ελαφριάς συντακτικής ανάλυσης σε επίπεδο φράσεων. Ακόµη διερευνάται η εφαρµογή διαδικασιών προ-επεξεργασίας του Σώµατος Κειµένων. Συγκεκριµένα, προτείνονται και αξιολογούνται η ληµµατοποίηση των λέξεωνπαραµέτρων, η αξιοποίηση της γραµµατικής πληροφορίας των λειτουργικών λέξεων και η αυτόµατη ανίχνευση των πολυ-λέξεων µε τη συνακόλουθη θεώρησή τους ως ενιαίες σηµασιολογικές µονάδες. Μια δεύτερη και εντελώς πρωτότυπη προσέγγιση στο πρόβληµα εξαγωγής οµοιοτήτων είναι η αξιοποίηση της οµοιότητας περικείµενων εκφράσεων, δηλαδή δοµών από λέξεις αντί για απλές λέξεις, καθώς η οµοιότητα δοµών είναι πολύ ισχυρότερο κριτήριο από την οµοιότητα στοιχείων. Για το σκοπό αυτό προτάθηκε ένας αλγόριθµος ετεροσυσχέτισης λεξικών ακολουθιών, ενώ η εξαγωγή της οµοιότητας βασίζεται σε µια κατάλληλα διαµορφωµένη συνάρτηση µε βάση το κλασσικό δυαδικό µέτρο οµοιότητας Dice, η οποία λαµβάνει υπόψη της τη συνοχή του προτύπου οµοιότητας και την εγγύτητά του στη λέξη-στόχο. Ένα επιπλέον πλεονέκτηµα του αλγορίθµου είναι ότι επιτρέπει την αναίρεση των συστηµατικών σφαλµάτων λόγω παρεµβολής µιας λέξης σε ένα περικείµενο. Μελετάται επίσης η εφαρµογή µιας διαφορετικής µεθόδου Εξαγωγής Σηµασιολογικής Οµοιότητας, η οποία αξιοποιεί την ύπαρξη οµών Παρατακτικής Σύνδεσης στο Σώµα Κειµένων. Προτείνεται µια γραµµατική εξαγωγής των δοµών αυτών και αξιολογούνται στατιστικά κριτήρια κατάταξης των εξαχθέντων οµοιοτήτων. Επιπλέον, προτείνεται ένας αλγόριθµος ενοποίησης της εξαχθείσας γνώσης σηµασιολογικής οµοιότητας από τις δύο διαφορετικές πηγές, δηλ. οµοιότητα συµφραζοµένων και παρατακτικές συνδέσεις, ο οποίος επιτυγχάνει σηµαντικά αυξηµένη απόδοση. iv

εδοµένης της εξαχθείσας γνώσης σε µορφή σχέσεων σηµασιολογικής οµοιότητας, µέσα από την πλειάδα των τεχνικών που αναφέρθηκαν, στη συνέχεια διερευνώνται κάποιες µεθοδολογίες Σηµασιολογικής Οµαδοποίησης που µπορούν να εφαρµοστούν. Συγκεκριµένα, µελετώνται ενοποιητικές ιεραρχικές µέθοδοι οµαδοποίησης µε δύο εναλλακτικές προσεγγίσεις: α) Βασισµένη στην απόσταση αντικειµένου οµάδας (χρησιµοποιώντας το κριτήριο average linkage) και β) Συµβολική (µε αλγόριθµο επικάλυψης συνεκτικών δοµών γράφων), από τις οποίες η δεύτερη δίνει υψηλότερη ακρίβεια. Τέλος, η γνώση σηµασιολογικής οµοιότητας που εξάγεται από ένα συνδυασµό των τεχνικών αυτών ενσωµατώνεται σε ένα διαλογικό σύστηµα µηχανικής µάθησης όπου ενισχύει την απόδοση της αναγνώρισης του σκοπού του χρήστη βοηθώντας τη µονάδα κατανόησης να επιτύχει την προσέγγιση του σηµασιολογικού ρόλου των λέξεων που δεν έχουν εµφανιστεί στους επισηµειωµένους διαλόγους στους οποίους έχει εκπαιδευτεί. v

vi

Πίνακας Περιεχοµένων Πρόλογος Περίληψη...i... iii Πίνακας Περιεχοµένων...vii Κατάλογος συντοµεύσεων... xiii Κεφάλαιο 1. Εισαγωγή...1 1.1. Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ)...1 1.1.1. Επίπεδα Μελέτης της Φυσικής Γλώσσας...1 1.1.2. Πρωτογενείς Τοµείς της ΕΦΓ...2 1.2. Λεξική Σηµασιολογία...3 1.2.1. Εννοιακές Σχέσεις...4 1.2.2. Λεξικές Σχέσεις...4 1.2.3. Εννοιακή Οµοιότητα και Σηµασιολογική Οµοιότητα...5 1.2.4. Το Νόηµα των Λέξεων...5 1.2.5. Συµφράσεις...6 1.3. Κίνητρο και Προοπτική της ιατριβής...8 1.3.1. Η Σπουδαιότητα της Σηµασιολογικής Γνώσης...8 1.3.2. Σπουδαιότητα της Αυτόµατης Εξαγωγής Σηµασιολογικής Γνώσης... (ΑΕΣΓ) από Σώµατα Κειµένων (ΣΚ)...10 1.3.3. Προσέγγιση Ελάχιστων Πόρων στην ΑΕΣΓ από ΣΚ...11 1.3.3.1. Συγκριτική Μελέτη Μεθόδων σε ιαφορετικές Φυσικές Γλώσσες...11 1.3.3.2. Μεταφερσιµότητα Εφαρµογών ΕΦΓ...12 1.3.3.3. Εξαγωγή της Σηµασιολογίας Άγνωστων Γλωσσών...12 1.3.3.4. Ανάπτυξη Αυτόνοµης Τεχνητής Νοηµοσύνης...13 1.4. Υπάρχοντες Λεξικοί Σηµασιολογικοί Πόροι...14 1.5. Μέθοδοι ΑΕΣΓ από ΣΚ Οι Βασικές Ιδέες...15 vii

1.5.1. Αυτόµατη Εξαγωγή Σηµασιολογικής Οµοιότητας (ΑΕΣΟ)... 15 1.5.2. Εξαγωγή Συµφράσεων... 18 1.5.3. Σηµασιολογική Οµαδοποίηση... 18 1.6. Μεθοδολογίες Αξιολόγησης... 19 1.7. ιάρθρωση της ιατριβής... 19 1.8. Συµβολισµοί... 23 Κεφάλαιο 2. Αυτόµατη Εξαγωγή Συµφράσεων από Σώµατα Κειµένων... 25 2.1. Εισαγωγή στις Συµφράσεις... 25 2.1.1. Εξάρτηση από τη Γλώσσα... 27 2.1.2. Εξάρτηση από τη Θεµατική Περιοχή... 27 2.1.3. Ποικιλία Μεγέθους και οµής... 28 2.2. Η Σηµασία των Συµφράσεων στην ΕΦΓ... 28 2.3. Αυτόµατη Εξαγωγή Συµφράσεων από ΣΚ: Η Βασική Ιδέα... 28 2.4. Εξαγωγή Πολυ-λέξεων από ΣΚ: Η Αυξητική Προσέγγιση... 29 2.5. Εξαγωγή ιγράµµων... 30 2.5.1. Κριτήρια Θεωρίας Πληροφοριών... 31 2.5.2. Έλεγχος Μηδενικής Υπόθεσης... 33 2.5.2.1. T-τεστ... 34 2.5.2.2. Έλεγχος χ 2... 35 2.5.2.3. Λόγος Πιθανοφάνειας... 36 2.6. Εξαγωγή n-γράµµων... 37 2.6.1. Μέτρα Στατιστικής Σηµαντικότητας N-γράµµων... 38 2.6.2. Χρήση Φραστικού Αναλυτή (Chunker)... 38 2.7. Πειραµατική Αξιολόγηση... 39 2.7.1. Ποιοτική αξιολόγηση... 40 2.7.2. Αυτόµατη Ποσοτική Αξιολόγηση... 41 2.7.3. Μέθοδος Αυτόµατης Αξιολόγησης... 44 2.8. Συµπεράσµατα... 47 viii

Κεφάλαιο 3. Αξιολόγηση Μεθόδων Εξαγωγής Σηµασιολογικής Οµοιότητας...51 3.1. Εισαγωγή...51 3.1.1. Άµεση Χειρωνακτική Αξιολόγηση (ΑΧΑ)...51 3.1.2. Άµεση Αυτόµατη Αξιολόγηση (ΑΑΑ)...52 3.1.3. Έµµεση Αυτόµατη Αξιολόγηση (ΕΑΑ)...52 3.2. Αξιολόγηση λίστας Ν-καλύτερων συσχετίσεων...53 3.3. Το WordNet ως Πρότυπη Βάση Γνώσης...54 3.4. Αξιολόγηση Ζεύγους Οµοιότητας...55 3.4.1. Οµοιότητα µέσα από Σύνολα Συνωνύµων...55 3.4.2. Οµοιότητα µε Βάση Ιεραρχία Εννοιών...55 3.4.3. Υπολογισµός των Πιθανοτήτων των Εννοιών...58 3.4.4. Κατηγορίες Επώνυµων Οντοτήτων...61 3.4.5. Συναρτήσεις Αξιολόγησης Ζεύγους Οµοιότητας...62 3.5. Αξιολόγηση των Μεθόδων Αξιολόγησης...63 3.5.1. Πείραµα Ι: Στοιχειώδης Συντακτική Ανάλυση...64 3.5.2. Πείραµα ΙΙ: Παράθυρο ±1 Λέξης...65 3.5.3. Πείραµα ΙΙΙ: Παράθυρο ±2 Λέξεων...66 3.6. Συµπεράσµατα...67 Κεφάλαιο 4. Εξαγωγή Σηµασιολογικής Οµοιότητας από Περικείµενες Λέξεις...69 4.1. Εισαγωγή...69 4.2. Προηγούµενες Προσεγγίσεις...70 4.3. Εξαγωγή των Παραµέτρων Συµφραζοµένων...71 4.3.1. Φιλτράρισµα των Συνεµφανίσεων...72 4.3.1.1. Κατώφλι Συχνότητας...72 4.3.1.2. Στατιστική Σηµαντικότητα Συνεµφανίσεων...72 4.3.1.3. Αριθµός Κοινών Χαρακτηριστικών-Παραµέτρων...73 4.3.1.4. Υπολογισµός των Πιθανοτήτων...74 4.3.2. To Εύρος Παραθύρου...75 4.3.3. Πολικότητα Συµφραζοµένων...75 4.4. Μέτρα Σηµασιολογικής Οµοιότητας...76 ix

x 4.4.1. Απόσταση Κατανοµών... 76 4.4.2. Απόσταση ιανυσµάτων... 77 4.4.3. Μέτρα Οµοιότητας Συνόλων Χαρακτηριστικών... 79 4.4.4. Μέτρο Οµοιότητας Θεωρίας Πληροφοριών (Lin)... 80 4.4.5. Πολλαπλασιαστική ιόρθωση του Μέτρου Lin µε Αύξουσες... Συναρτήσεις του Αριθµού Κοινών Παραµέτρων... 81 4.5. Εγγενές Σφάλµα Παραθυρικών Μεθόδων (ΕΣΠΜ)... 81 4.5.1. Αλγόριθµος Εξάλειψης του ΕΣΠΜ... 83 4.6. Χρήση Ελαφριάς Ανάλυσης των Ονοµατικών Φράσεων... 84 4.7. Πειραµατικά Αποτελέσµατα... 85 4.7.1. Μέτρα Οµοιότητας... 86 4.7.2. Επίπεδο Στατιστικής Σηµαντικότητας... 87 4.7.3. Τροποποίηση του Μέτρου Lin... 89 4.7.4. Έκπτωση... 91 4.7.5. Εξάλειψη ΕΣΠΜ... 92 4.7.6. Εύρος Παραθύρου Συµφραζοµένων... 94 4.8. Συµπεράσµατα... 96 Κεφάλαιο 5. Προ-επεξεργασία του Σώµατος Κειµένων... 99 5.1. Εισαγωγή... 99 5.2. Το Πρόβληµα των Σποραδικών εδοµένων... 100 5.3. Ληµµατοποίηση... 101 5.4. Αξιοποίηση της Πληροφορίας Ανοικτής Γραµµατικής Κατηγορίας... 102 5.5. Αξιοποίηση της Πληροφορίας Κλειστής Γραµµατικής Κατηγορίας... 102 5.5.1. Άρθρα... 102 5.5.2. Μόρια... 103 5.5.3. Προθέσεις... 103 5.5.4. Αντωνυµίες... 103 5.5.5. Σύνδεσµοι... 103 5.5.6. Εντασιακοί είκτες... 104 5.5.7. Συγκεντρωτικός Πίνακας... 104 5.6. Αξιοποίηση της Πληροφορίας Ανοιχτής Γραµµατικής Κατηγορίας... 105

5.7. Περιφραστικές Σηµασιολογικές Μονάδες (ΠΣΜ)...105 5.8. Ανίχνευση ΠΣΜ για την Εξαγωγή Σηµασιολογικών Σχέσεων...106 5.9. Ανίχνευση Περιφραστικών Σηµασιολογικών Μονάδων...108 5.10. Αναγνώριση Ποσοτικών Εκφράσεων...109 5.11. Πειραµατικά Αποτελέσµατα...110 5.11.1. Ληµµατοποίηση...110 5.11.2. ιαχείριση Λέξεων Κλειστής Γραµµατικής Κατηγορίας...110 5.11.3. Αυτόµατη Ενοποίηση των ΠΣΜ...112 5.12. Συµπεράσµατα...114 Κεφάλαιο 6. Εξαγωγή Σηµασιολογικής Οµοιότητας από Περικείµενες Εκφράσεις...115 6.1. Εισαγωγή...115 6.2. Υπολογισµός Οµοιότητας µε το µέτρο Dice...116 6.3. ιόρθωση Συχνότητας...118 6.4. Εκτίµηση Οµοιότητας των Συµφραζοµένων µε Σύγκριση Συµβολοσειρών118 6.5. Αντιµετώπιση Συστηµατικών Λαθών λόγω Παρεµβολής...121 6.6. Πειραµατική ιαδικασία...122 6.6.1. Γλωσσική προ-επεξεργασία...122 6.6.2. Σώµα Κειµένων, Θεµατική Περιοχή, Γλώσσα...122 6.6.3. Αξιολόγηση Ρύθµιση Παραµέτρων...124 6.7. Συµπεράσµατα...125 Κεφάλαιο 7. Εξαγωγή Σηµασιολογικής Οµοιότητας από οµές Παρατακτικής Σύνδεσης...127 7.1. Εισαγωγή...127 7.2. Αναγνώριση και Ανάλυση των Παρατακτικών οµών...127 7.3. Στατιστική Σηµαντικότητα...129 7.4. Ενοποίηση των δύο µεθόδων ΑΕΣΟ από ΣΚ...132 7.5. Αλγόριθµος Ενοποίησης...132 7.6. Αξιολόγηση...133 7.7. Συµπεράσµατα...135 xi

Κεφάλαιο 8. Αυτόµατη Σηµασιολογική Οµαδοποίηση... 137 8.1. Εισαγωγή... 137 8.2. Αυτόµατη Οµαδοποίηση... 138 8.3. Σηµασιολογική Οµαδοποίηση Λέξεων... 139 8.4. Συµβολική Οµαδοποίηση µε Επικάλυψη Κλικών... 140 8.5. Πειραµατική εφαρµογή στην Οµαδοποίηση... 142 8.5.1. Ενοποιητική Οµαδοποίηση µε το Κριτήριο Average Linkage... 143 8.5.2. Οµαδοποίηση µε Κλίκες... 143 8.6. Συµπεράσµατα... 146 Κεφάλαιο 9. Εφαρµογή σε ιαλογικά Συστήµατα: Αναγνώριση του Σκοπού του Χρήστη... 149 9.1. Εισαγωγή... 149 9.2. Εκµάθηση Αναγνώρισης Στόχου... 150 9.2.1. Εκµάθηση Γνώσης ιαλόγου από ιαλογικό ΣΚ... 151 9.2.2. Εκµάθηση σηµασιολογικών οµοιοτήτων λέξεων από µεγάλα ΣΚ... 152 9.3. Εφαρµογή: Σύστηµα Ε- ΕΙΚΤΗΣ... 153 9.4. Πειραµατικά Αποτελέσµατα... 155 9.5. Συµπεράσµατα... 156 Κεφάλαιο 10. Ανακεφαλαίωση, Συµπεράσµατα, Περιορισµοί και Προοπτικές... 159 10.1. Ανακεφαλαίωση και Συµπεράσµατα... 159 10.2. Περιορισµοί και Προοπτικές... 161 Βιβλιογραφία Αναφορές... 163 Κατάλογος Όρων... 179 Παράρτηµα Α. Απόδειξη µετατροπής της συνάρτησης του ελέγχου-χ 2... 185 Παράρτηµα Β. Μελέτη Συνεµφανίσεων σε Σώµατα Κειµένου... 187 xii

Κατάλογος συντοµεύσεων ASR CFT DCG GMD LR MD MLE NCP PoS WSD ΑΑΑ ΑΕΣΓ ΑΕΣΟ ΑΧΑ ΓΑΕ ΠΣ Σ ΣΚ ΣΦΓ ΕΑΑ ΕΕΣΚ εκ. Εξ. ΕΟ ΕΟΦ ΕΠΚ ΕΣΠΜ ΘΠ Automatic Speech Recognition Co-occurrence Frequency Threshold Definite Clause Grammar Generalized Mutual Dependency Likelihood Ratio Mutual Dependency Maximum Likelihood Estimation Number of Common Parameters Part-of-Speech Word Sense Disambiguation Άµεση Αυτόµατη Αξιολόγηση Αυτόµατη Εξαγωγή Σηµασιολογικής Γνώσης Αυτόµατη Εξαγωγή Σηµασιολογικής Οµοιότητας Άµεση Χειρωνακτική Αξιολόγηση Γενικευµένη Αµοιβαία Εξάρτηση οµή Παρατακτικής Σύνδεσης ιαλογικό Σύστηµα ιαλογικό Σώµα Κειµένων ιαλογικό Σύστηµα Φυσικής Γλώσσας Έµµεση Αυτόµατη Αξιολόγηση Εννοιολογικά Επισηµειωµένο Σώµα Κειµένων εκατοµµύρια Εξίσωση Επώνυµη Οντότητα Ελληνικός Οργανισµός Φαρµάκων Εξαγωγή Πληροφορίας από Κείµενα Εγγενές Σφάλµα Παραθυρικών Μεθόδων Θεµατική Περιοχή xiii

ΙΕ ΙΣΚ ΓΚ ΛΣΓ ΜτΛ ΟΕΚ ΟΠ ΟΦ ΠΒΓ ΠΛΑΚΠ ΠΟ ΠΠ ΠΣ ΠΦ ΡΦ ΣΑΖΟ Σ Ο ΣΚ ΤΝ ΦΠ χιλ. Ιεραρχία Εννοιών Ισορροπηµένο Σώµα Κειµένων Γραµµατική Κατηγορία Λεξικο-Σηµασιολογική Γνώση Γραµµατική Κατηγορία, Μέρος του Λόγου Οµαδοποίηση βασισµένη στην Επικάλυψη Κλικών Οµοιότητα Περικειµένων Ονοµατική Φράση Πρότυπη Βάση Γνώσης Πολλαπλασιασµός µε το Λογάριθµο του Αριθµού Κοινών Παραµέτρων Παρατεταγµένοι Όροι Πληροφοριακό Περιεχόµενο Πολικότητα Συµφραζοµένων Προθετική Φράση Ρηµατική Φράση Συνάρτηση Αξιολόγησης Ζεύγους Οµοιότητας Σύνθετη υαδική Οµοιότητα Σώµα Κειµένων Τεχνητή Νοηµοσύνη Φιλτράρισµα Πληροφορίας χιλιάδες xiv

ΕΙΣΑΓΩΓΗ Κεφάλαιο 1. Εισαγωγή 1.1. Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ) Επεξεργασία Φυσικής Γλώσσας είναι ο κλάδος της Τεχνητής Νοηµοσύνης που πραγµατεύεται την ανάλυση, κατανόηση και παραγωγή κειµένων οποιασδήποτε φυσικής γλώσσας. Το κεντρικό πρόβληµα της Επεξεργασίας Φυσικής Γλώσσας µπορεί να συνοψισθεί στην εξαγωγή του νοήµατος ενός οποιουδήποτε κειµένου ηλεκτρονικής µορφής και συνακόλουθα σε κάποια συγκεκριµένη ενέργεια από την πλευρά του συστήµατος, όπως εξαγωγή συγκεκριµένων στοιχείων πληροφορίας, γνώσης, (π.χ. περίληψη του κειµένου), είτε αναπαράσταση σε κάποια άλλη φυσική γλώσσα (εφαρµογές αυτόµατης µετάφρασης) ή σε κάποια τεχνητή γλώσσα (π.χ. νοηµατική αναπαράσταση σε κατηγορικό λογισµό, γλώσσα ερωτηµάτων για βάσεις δεδοµένων, κλπ.). 1.1.1. Επίπεδα Μελέτης της Φυσικής Γλώσσας Οι πληροφορίες οι σχετικές µε τη φυσική γλώσσα που απαιτούνται για την ανάλυσή της έχουν διαχωριστεί, από την επιστήµη της Γλωσσολογίας, σε τρία γενικά επίπεδα: 1. Το Λεξικό επίπεδο. Περιέχει πληροφορία για κάθε λέξη της γλώσσας, τη λεξική πληροφορία, η οποία περιέχει επίσης δύο διακριτά στοιχεία πληροφορίας: i. Τη Γραµµατική πληροφορία, που σχετίζεται µε τα γραµµατικά χαρακτηριστικά της λέξης, όπως µέρος του λόγου, πτώση, αριθµός, γένος, πρόσωπο, χρόνος κ.λ.π. Κάθε γραµµατικό χαρακτηριστικό ορίζεται σε ένα προκαθορισµένο και πολύ περιορισµένο σύνολο τιµών. 1

ΚΕΦΑΛΑΙΟ Ι ii. Τη Σηµασιολογική πληροφορία, η οποία αφορά στις σχέσεις που µπορεί να συνάψει η λέξη µε άλλες λεξικές οντότητες 1. Η σηµασιολογική πληροφορία προέρχεται αφενός από το επίπεδο των εννοιών (εννοιακές σχέσεις) και αφετέρου από τη συγκεκριµένη φυσική γλώσσα (λεξικές και συνταγµατικές σχέσεις) [Viegas et al. 1998]. Παραδείγµατα εννοιακών σχέσεων αποτελούν οι σχέσεις υπωνυµίας και µερωνυµίας, ενώ λεξική είναι η σχέση της συνωνυµίας. Όλες οι παραπάνω σχέσεις χαρακτηρίζονται ως παραδειγµατικές. Οι λεξικές σχέσεις που εκφράζουν την συνεµφάνιση λεξικών στοιχείων, όπως είναι οι επιλογικοί περιορισµοί και οι συµφράσεις, λέγονται συνταγµατικές. Η προέλευσή τους βρίσκεται τόσο στο εννοιακό όσο και στο λεξικό επίπεδο. 2. Το Συντακτικό επίπεδο. Αφορά τους τρόπους που µπορούν να συνδυαστούν µεταξύ τους λέξεις µε συγκεκριµένα γραµµατικά χαρακτηριστικά για να σχηµατίσουν φράσεις και προτάσεις. Το συντακτικό επίπεδο περιγράφεται από ένα σύνολο συντακτικών κανόνων. 3. Το Πραγµατολογικό επίπεδο. Περιέχει την πληροφορία που είναι αναγκαία για να εξαχθεί το νόηµα της πρότασης αλλά δεν περιέχεται σε αυτήν είτε βρίσκεται στο ίδιο κείµενο εκτός αυτής, είτε εντάσσεται στη Γνώση του Κόσµου. Κλασσικά παραδείγµατα εφαρµογής της είναι τα γλωσσικά φαινόµενα της Έλλειψης και της Αναφοράς. 1.1.2. Πρωτογενείς Τοµείς της ΕΦΓ Οι διάφοροι πρωτογενείς τοµείς της Επεξεργασίας Φυσικής Γλώσσας (π.χ. Μορφολογική Ανάλυση, Συντακτική Ανάλυση, Αποσαφήνιση Νοήµατος Λέξεων, Επίλυση Αναφορών) αποσκοπούν στην ανάκτηση της αντίστοιχης γνώσης και στην υλοποίηση µεθόδων και εργαλείων που την αξιοποιούν για την ανάλυση και επεξεργασία πραγµατικών κειµένων. Η Μορφολογική Πληροφορία είναι σε σηµαντικό βαθµό εξαρτηµένη από τη γλώσσα αλλά, καθώς υπεισέρχεται στο πιο βασικό επίπεδο επεξεργασίας, η εξαγωγή της αποτελεί πλέον ένα ερευνητικό πρόβληµα που είναι σε σηµαντικό βαθµό λυµένο για τις περισσότερες σύγχρονες γλώσσες. Η Συντακτική Ανάλυση αποτελεί ένα ιδιαίτερα σύνθετο πρόβληµα το οποίο µπορεί να αντιµετωπιστεί είτε συνολικά, ως εξαγωγή του πλήρους συντακτικού δέντρου της 1 Ο κλάδος της Γλωσσολογίας που πραγµατεύεται τη σηµασιολογική πληροφορία της φυσικής γλώσσας ονοµάζεται Λεξική Σηµασιολογία (Lexical Semantics) [Cruse 1986]. 2

ΕΙΣΑΓΩΓΗ πρότασης, είτε τµηµατικά, ως εξαγωγή συγκεκριµένων συντακτικών σχέσεων (ρήµατος υποκειµένου, ρήµατος αντικειµένου, ουσιαστικού επιθέτου τροποποιητή), οπότε και λέγεται Επιφανειακή Συντακτική Ανάλυση. Σε κάθε περίπτωση, η Συντακτική Γνώση της γλώσσας επιδέχεται αφαίρεση (abstraction) και έτσι µπορεί να εξαχθεί στη µορφή κανόνων. Ωστόσο παραµένουν πολλές αµφισηµίες, που χρειάζονται επίλυση µε λεξική σηµασιολογική γνώση ή ακόµα και µε πραγµατολογική. Η Λεξική-Σηµασιολογική Γνώση (ΛΣΓ) αφορά στον τρόπο µε τον οποίο µπορούν να συνδυαστούν οι συγκεκριµένες λέξεις µεταξύ τους, υπό την προϋπόθεση ότι τηρούνται οι συντακτικοί κανόνες, και στο συνιστάµενο νόηµα. Αυτός είναι ένας λόγος για τον οποίο αποτελεί το τµήµα εκείνο της Γλωσσικής Γνώσης που επιδέχεται τη µικρότερη αφαίρεση. Αν και η κατηγοριοποίηση των λέξεων είναι δυνατή µε βάση το εννοιολογικό τους περιεχόµενο, πραγµατοποιείται σε πολλά ιεραρχικά επίπεδα και µπορεί να βασίζεται σε ποικίλα κριτήρια. Επίσης, πολύ συχνά οι συνδυασµοί των λέξεων έχουν µη συνθετικό νόηµα (συµφράσεις) το πιο χαρακτηριστικό παράδειγµα είναι οι ιδιωµατικές εκφράσεις. Τέλος, αποτελεί το τµήµα εκείνο της γλώσσας που εξαρτάται από την εκάστοτε Θεµατική Περιοχή (ΘΠ) και αλλάζει, µεταβάλλεται ή επεκτείνεται αντίστοιχα µε αυτή. 1.2. Λεξική Σηµασιολογία Οι σηµασιολογικές σχέσεις και ιδιότητες µπορούν να κατηγοριοποιηθούν σε δύο γενικές κατηγορίες των οποίων ωστόσο τα όρια είναι δυσδιάκριτα, καθώς οι έννοιες ορίζονται συνηθέστερα µε βάση τη γλώσσα: Α. Τις εννοιακές σχέσεις ή ιδιότητες, που οφείλονται στις ιδιότητες των αντίστοιχων εννοιών και γι αυτό είναι σε µεγάλο βαθµό ανεξάρτητες της γλώσσας. Για παράδειγµα, η λέξη πουλί σχετίζεται µε τη λέξη ράµφος και µε τη λέξη αετός λόγω αντίστοιχων συσχετίσεων που υπάρχουν µεταξύ των αντίστοιχων πραγµατικών οντοτήτων. Έτσι η φράση το ράµφος του αετού έχει καταληπτό και ξεκάθαρο νόηµα. Β. Τις λεξικές σχέσεις ή ιδιότητες, που αφορούν µάλλον τις συγκεκριµένες λεξικές οντότητες παρά τις αντίστοιχες έννοιες, εξαρτώνται συχνά από τη συγκεκριµένη γλώσσα και οφείλονται στην ιστορική της εξέλιξη. Για παράδειγµα, αναφερόµαστε σε µια µεγάλη κατηγορία κρασιών µε τη φράση λευκό κρασί, παρόλο που το συνηθέστερο χρώµα τέτοιων κρασιών είναι το κίτρινο ή θα µπορούσε να κατηγοριοποιηθεί ορθότερα µε τη λέξη ανοιχτόχρωµο ή ξανθό από την άλλη πλευρά όµως, αναφερόµαστε σε ξανθή µπύρα. Αυτού του είδους η πληροφορία δεν µπορεί να κατηγοριοποιηθεί για την επεξεργασία ή την παραγωγή της απαιτείται η αποθήκευση της συγκεκριµένης πληροφορίας, δηλ. συγκεκριµένων συνδυασµών λεξικών στοιχείων, που ονοµάζονται συµφράσεις, και που στο συγκεκριµένο παράδειγµα είναι οι φράσεις λευκό κρασί και ξανθή µπύρα. 3

ΚΕΦΑΛΑΙΟ Ι 1.2.1. Εννοιακές Σχέσεις Οι έννοιες µπορούν να οργανωθούν σε ιεραρχίες. Μια Ιεραρχία Εννοιών (ΙΕ) βασίζεται στη µεταβατική σχέση της Υπωνυµίας-Υπερωνυµίας, η οποία είναι επίσης γνωστή και ως σχέση ΕΙΝΑΙ (ΙS_A). Μια έννοια Α αποτελεί Υπερώνυµο µιας έννοιας Β όταν κάθε οντότητα που υπάγεται στη Β υπάγεται και στην Α. Αντίστοιχα, η έννοια Β λέγεται Υπώνυµο της Α. Μια ακόµη εννοιακή σχέση η οποία είναι επίσης µεταβατική και εποµένως µπορεί να σχηµατίσει ιεραρχία, είναι η Μερωνυµία, που συνδέει κάποιο αντικείµενο το ολώνυµο µε κάποιο άλλο που αποτελεί τµήµα του το µερώνυµο. Είναι γνωστή επίσης ως σχέση µέρους-όλου ή PART-OF. Η Αντωνυµία είναι µια ανακλαστική εννοιακή σχέση που συνδέει έννοιες αντίθετες, π.χ. κρύο ζεστό, αργά γρήγορα, άνοδος κάθοδος. 1.2.2. Λεξικές Σχέσεις Μια συγκεκριµένη λέξη µπορεί να έχει διάφορες έννοιες, η διάκριση των οποίων συνήθως επιτυγχάνεται στο συγκεκριµένο περιβάλλον συµφραζοµένων. Η ιδιότητα αυτή των λέξεων λέγεται Λεξική Αµφισηµία. Όταν οι διαφορετικές έννοιες είναι ασυσχέτιστες και απλά τυχαίνει οι λέξεις να γράφονται µε τον ίδιο τρόπο, όπως η λέξη πλάνη, που σηµαίνει απάτη αλλά και ξυλουργικό εργαλείο, πρόκειται για Οµωνυµία 1. Όταν οι διαφορετικές έννοιες συσχετίζονται, δηλαδή προέρχονται από µια κοινή γενική έννοια αλλά έχουν διαφορετικό νόηµα σε διαφορετικό περιβάλλον, όπως η λέξη καπνός, που µπορεί να αναφέρεται είτε στο φυτό είτε στην αιθάλη, µιλάµε για Πολυσηµία. Συνωνυµία είναι η σχέση µεταξύ δύο λέξεων οι οποίες έχουν τουλάχιστον µια από τις (πιθανώς πολλές) έννοιές τους κοινή, π.χ. τρέλα παραφροσύνη. Γενικά για κάθε έννοια είναι πιθανό να υπάρχουν περισσότερες από µια λεξικές οντότητες που την εκφράζουν. Το σύνολό τους λέγεται Σύνολο Συνωνύµων (Synset). Η συνωνυµία εµφανίζεται σε διάφορες διαβαθµίσεις. Η απόλυτη συνωνυµία είναι σπάνια για να είναι δύο λέξεις απόλυτα συνώνυµες πρέπει να µπορούν να εναλλαγούν σε οποιοδήποτε περιβάλλον συµφραζοµένων και να µην αλλάξει το νόηµα της πρότασης. Συχνότερα δύο λέξεις είναι σχεδόν-συνώνυµες, δηλαδή η µια µπορεί να αντικαταστήσει την άλλη σε κάποια µόνο περιβάλλοντα. To πρόβληµα της σωστής 1 To φαινόµενο της Οµωνυµίας, ενώ είναι σύνηθες στην Αγγλική, είναι σπάνιο στην Ελληνική, πιθανότατα διότι η Ελληνική παρουσιάζει σηµαντικά µεγαλύτερη ποικιλία στη µορφολογία της. 4

ΕΙΣΑΓΩΓΗ επιλογής του συνωνύµου σε κάποιο συγκεκριµένο περιβάλλον σχετίζεται µε το θέµα των συµφράσεων, και έχει εφαρµογή στην Παραγωγή Φυσικής Γλώσσας, είτε από άνθρωπο, είτε από υπολογιστή, σε εφαρµογές Αυτόµατης Μετάφρασης, ιαλογικών Συστηµάτων, κλπ. Π.χ. αν και τα επίθετα ισχυρός και δυνατός είναι συνώνυµα, οι εκφράσεις δυνατός καφές και ισχυρός επεξεργαστής είναι δόκιµες, ενώ οι ισχυρός καφές και δυνατός επεξεργαστής δεν είναι. 1.2.3. Εννοιακή Οµοιότητα και Σηµασιολογική Οµοιότητα Η Εννοιακή Οµοιότητα είναι η σχέση που συνδέει λέξεις που ανήκουν στην ίδια Εννοιακή κατηγορία. Περιλαµβάνει, εκτός από τις σχέσεις της Συνωνυµίας και της Αντωνυµίας, την κοινή συσχέτιση προς κάποια υπερώνυµη έννοια. ηλαδή, δύο έννοιες που έχουν κάποιο κοινό υπερώνυµο, έχουν και κάποιο βαθµό σηµασιολογικής οµοιότητας, ο οποίος εξαρτάται από το πόσο συγκεκριµένο είναι το κοινό τους υπερώνυµο. Π.χ. οι λέξεις-έννοιες ΈΛΑΤΟ και ΠΕΥΚΟ έχουν µεγαλύτερο βαθµό σηµασιολογικής συγγένειας από ότι οι λέξεις ΈΛΑΤΟ και ΚΥΚΛΑΜΙΝΟ, αν και όλες είναι υπώνυµα της έννοιας ΦΥΤΟ, καθώς αυτή είναι µια έννοια πιο γενική (λιγότερο συγκεκριµένη) από την έννοια ΚΩΝΟΦΟΡΟ_ ΕΝΤΡΟ, στην οποία υπάγονται οι έννοιες ΈΛΑΤΟ και ΠΕΥΚΟ. Η Σηµασιολογική Οµοιότητα (ή Σηµασιολογική Συγγένεια) συνδέει λέξεις που έχουν παρόµοια συµπεριφορά σε κείµενα, δηλαδή τείνουν να εµφανίζονται σε παρόµοια συγκειµενικά περιβάλλοντα. Ο βαθµός Σηµασιολογικής οµοιότητας δύο λέξεων καθορίζεται από το πόσο συχνά µπορεί να αντικαταστήσει η µία την άλλη σε κάποιο κείµενο (έλεγχος αντικαταστησιµότητας). Ωστόσο εδώ δεν αποτελεί προϋπόθεση να µην αλλάζει το νόηµα του κειµένου, όπως στην περίπτωση της Συνωνυµίας. Οι λέξεις που έχουν µεγαλύτερη εννοιακή οµοιότητα εµφανίζουν γενικά και µεγαλύτερη σηµασιολογική οµοιότητα, διότι, αφού έχουν περισσότερα κοινά χαρακτηριστικά, µπορούν να αντικαταστήσουν η µια την άλλη σε περισσότερα συγκειµενικά περιβάλλοντα, τα οποία συσχετίζονται µε τα χαρακτηριστικά αυτά. Για παράδειγµα, στη φράση «ήπιε δύο ποτήρια Χ» το Χ ανήκει στην κατηγορία ΥΓΡΟ_ΠΟΣΙΜΟ = {νερό, πορτοκαλάδα, κρασί, µπύρα, βότκα,...} (Αν και σε κάποιες σπάνιες περιπτώσεις θα µπορούσε να είναι και στη γενικότερη κατηγορία ΥΓΡΟ.) Στη φράση όµως «µέθυσε µε Υ», αν υποθέσουµε ότι πρόκειται για κυριολεκτική έκφραση, το Υ ανήκει στην πιο συγκεκριµένη κατηγορία ΟΙΝΟΠΝΕΥΜΑΤΩ ΕΣ_ΠΟΤΟ. 1.2.4. Το Νόηµα των Λέξεων εδοµένου ότι το γενικότερο πλαίσιο της ΕΦΓ αποσκοπεί στη µελέτη και δηµιουργία συστηµάτων ικανών για αλληλεπίδραση µέσω της ανθρώπινης γλώσσας και όχι γενικά 5

ΚΕΦΑΛΑΙΟ Ι στη µελέτη της γλώσσας, π.χ. από ιστορική, ετυµολογική ή νευροφυσιολογική σκοπιά, θα πρέπει καταρχήν να δεχτούµε ότι οι ιδιότητες της γλώσσας ορίζονται µε βάση το εάν µπορούν να παρατηρηθούν σε πραγµατικά κείµενα (τα οποία ήδη υπάρχουν ή µπορεί να υπάρξουν). Κατ επέκταση, το ίδιο ισχύει και για τις νοηµατικές ιδιότητες οποιασδήποτε λέξης: Αντανακλώνται πλήρως στο σύνολο των δεσµών που αυτή σχηµατίζει σε πραγµατικά ή δυνητικά περικείµενα 1 [Cruse 1986]. Η θεώρηση αυτή είχε εκφραστεί παλιότερα από τον Harris [1968]: «H σηµασία των λέξεων ορίζεται µε βάση τις κατανοµές των συµφραζοµένων τους» (Harris Distributional Hypothesis). Πράγµατι, οι Miller & Charles [1991] συµπεραίνουν ότι και οι άνθρωποι αποτιµούν το νόηµα µιας λέξης σε σχέση µε το περικείµενο στο οποίο τη χρησιµοποιούν. Έτσι, κάθε λέξη µπορεί να αναπαρασταθεί ως το σύνολο των περικειµένων της. Ένας αφαιρετικός τρόπος να γίνει αυτό είναι κάθε δυνατό περικείµενο (παράµετρος συµφραζοµένων) να θεωρηθεί ως µια διάσταση στο νοηµατικό χώρο, οπότε κάθε λέξη µπορεί να αναπαρασταθεί ως ένα διάνυσµα στο χώρο αυτό. Οι τιµές των συνιστωσών του διανύσµατος µπορεί να είναι είτε ποιοτικές (δηλ. να παρέχεται η πληροφορία αν η συνεµφάνιση του συγκεκριµένου περικειµένου µε τη λέξη είναι δυνατή ή όχι, δόκιµη ή αδόκιµη, συνήθης, σπάνια ή αδύνατη, κλπ.) ή ποσοτική (δηλ. να παρέχονται στατιστικές ιδιότητες της συνεµφάνισης, όπως η συχνότητα ή η πιθανότητά της). Τελικά, η ανίχνευση σηµασιολογικών οµοιοτήτων και διαφορών των λέξεων ανάγεται σε αντίστοιχες οµοιότητες και διαφορές στις κατανοµές των περικειµένων τους. 1.2.5. Συµφράσεις Αν και το νόηµα κάθε λέξης είναι προσδιορίσιµο µέσω της κατανοµής των περικειµένων του, ωστόσο, σε οποιαδήποτε ανθρώπινη γλώσσα, για να µεταβεί ο επεξεργαστής (άνθρωπος ή υπολογιστής) από το κείµενο στο νόηµα και αντίστροφα, χρειάζεται επιπλέον γνώση συνδυασµού λέξεων από τη γνώση των γραµµατικών και εννοιακών κατηγοριών. Αυτοί οι συνδυασµοί λέξεων ονοµάζονται συµφράσεις. Στην έννοια της σύµφρασης (collocation), λόγω της γενικότητάς της, έχουν δοθεί διαφορετικοί ορισµοί. Συγκεκριµένα, σύµφωνα µε τον Choueka [1988]: Σύµφραση είναι η ακολουθία δύο ή περισσότερων συνεχόµενων λέξεων που έχει τα χαρακτηριστικά µιας συντακτικής και σηµασιολογικής µονάδας, της οποίας το ακριβές και αναµφίβολο νόηµα δεν µπορεί να εξαχθεί κατευθείαν από το νόηµα των συνιστωσών της. 1 Περικείµενο: Όρος που αναφέρεται σε συγκεκριµένα µέρη ενός κειµένου που είναι κοντά ή παρακείµενα σε µια λεξική µονάδα στην οποία εστιάζεται η προσοχή [Crystal 1997]. Αναφέρεται συχνά και µε τη λέξη "συµφραζόµενα". 6

ΕΙΣΑΓΩΓΗ Άλλοι ερευνητές προτείνουν µια πιο γενικευµένη έννοια των συµφράσεων, η οποία επιτρέπει την ασυνέχεια στο κείµενο αλλά και τη συνθετικότητα στο νόηµα [Smadja 1993]. Στη διατριβή αυτή συµπλέουµε µε την ανάλυση των Manning & Schütze [1999] και θεωρούµε τη µη συνθετικότητα αναγκαίο χαρακτηριστικό των συµφράσεων αλλά όχι και τη συνέχεια. Για τις συµφράσεις που συναντώνται απαραίτητα αδιάκοπτες στο κείµενο χρησιµοποιούµε τον όρο πολυ-λέξεις (multi-words) Μελετώντας το θέµα υπό τη σκοπιά της αναγκαιότητας της σχετικής πληροφορίας όσον αφορά στη χρήση της γλώσσας, είτε από άνθρωπο, είτε από υπολογιστή, µπορούµε να κατηγοριοποιήσουµε την λεξική αυτή πληροφορία συνδυασµού λέξεων ως εξής: A. Υπάρχουν συνδυασµοί λέξεων που φέρουν είτε διαφορετικό είτε επιπλέον νόηµα από ότι οι συνιστώσες λέξεις. Στην πρώτη περίπτωση υπάγονται οι ιδιωµατικές εκφράσεις, όπως «την έκανα ταράτσα», όπου το νόηµά τους είναι άσχετο µε το νόηµα των συνιστωσών. Στη δεύτερη περίπτωση ανήκουν εκφράσεις όπως «αµοιβαίο κεφάλαιο», όπου, αν και το νόηµά της σχετίζεται µε τα νοήµατα των δύο λέξεων, ωστόσο δεν µπορεί να εξαχθεί από αυτά, όπως µπορεί να γίνει π.χ. µε τις φράσεις «αµοιβαία υποχώρηση» ή «αµοιβαία εκτίµηση». Στην δεύτερη περίπτωση υπάγονται επίσης και τα περιφραστικά ονόµατα οντοτήτων. Π.χ. η φράση «Ελληνικά Σχολεία» είναι αναµφίβολα συνθετική ενώ η παρόµοια, από γραµµατική άποψη, «Ελληνικά Πετρέλαια» φέρει κάποιο επιπλέον νόηµα αναφέρεται σε ένα συγκεκριµένο οργανισµό. Και στις δύο περιπτώσεις αυτού του είδους η πληροφορία είναι αναγκαία στην ανάλυση ενός κειµένου για την εξαγωγή του νοήµατός του. B. Πολλοί συνδυασµοί λέξεων που είναι νοηµατικά επιτρεπτοί είναι αδόκιµοι, εµφανίζονται δηλαδή σπάνια ή καθόλου σε πραγµατικά κείµενα και κρίνονται λανθασµένοι από τον γηγενή γνώστη της γλώσσας, σε αντίθεση µε συνδυασµούς συνώνυµών τους λέξεων. Για παράδειγµα, λέµε πολύ συχνότερα «δυνατός καφές» ή «ισχυρό δηλητήριο» παρά «ισχυρός καφές» ή «δυνατό δηλητήριο». Αυτού του είδους η πληροφορία συµφράσεων είναι περισσότερο χρήσιµη στην παραγωγή φυσικής γλώσσας, ώστε, πέρα από την καταληπτότητα του νοήµατος, να επιτευχθεί και δόκιµος συνδυασµός των λέξεων. Και οι δύο παραπάνω γενικές περιπτώσεις υπάγονται στη γενική κατηγορία των συµφράσεων καθώς έχουν ένα κοινό χαρακτηριστικό: Οι συνδυασµοί αυτοί των λέξεων εµφανίζονται πιο συχνά σε σχέση µε αυτό που θα αναµέναµε αν λαβαίναµε υπόψη τα άλλα τους χαρακτηριστικά όπως συχνότητες εµφάνισης, γραµµατικές και εννοιακές κατηγορίες. 7

ΚΕΦΑΛΑΙΟ Ι 1.3. Κίνητρο και Προοπτική της ιατριβής Το αντικείµενο της διατριβής είναι η µελέτη και η ανάπτυξη µεθόδων για την αυτόµατη εξαγωγή ενός σηµαντικού τµήµατος της Λεξικής Σηµασιολογικής Γνώσης, συγκεκριµένα των Συµφράσεων και των Σηµασιολογικών Οµοιοτήτων των λέξεων, από Ηλεκτρονικά Σώµατα Κειµένων 1. Η µελέτη συγκεκριµένα εστιάζει σε µεθόδους που απαιτούν, εκτός από τα Σώµατα Κειµένων, ελάχιστη ή µηδενική χρήση γλωσσικών πόρων. Στη συνέχεια αναλύουµε γιατί είναι σηµαντική η σηµασιολογική γνώση, η αυτόµατη εξαγωγή της από πραγµατικά κείµενα, και η προσέγγιση µε χρήση ελάχιστων πόρων. 1.3.1. Η Σπουδαιότητα της Σηµασιολογικής Γνώσης Η σηµασιολογική πληροφορία της γλώσσας που αφορά στη συγγένεια κατηγοριοποίηση λέξεων είναι µεγάλης σηµασίας για µια πληθώρα εργαλείων και εφαρµογών ΕΦΓ. Συγκεκριµένα: Στη Μοντελοποίηση Γλώσσας χρησιµοποιούνται σηµασιολογικές κατηγορίες λέξεων για να προβλέψουν την πιθανότητα µιας λεξικής ακολουθίας όταν αυτή δεν έχει παρατηρηθεί στο σώµα εκπαίδευσης. Η πληροφορία σηµασιολογικής οµοιότητας των λέξεων είναι εδώ ιδιαίτερα σηµαντική [Brown et al. 1992] [Dagan et al. 1995] [Zavrel & Daelemans 1997] [Dagan 1999]. ηλαδή η πιθανότητα εµφάνισης µιας άγνωστης ακολουθίας λέξεων εκτιµάται µε βάση τις πιθανότητες της ακολουθίας των αντίστοιχων κατηγοριών. Οι σηµαντικότερες εφαρµογές στις οποίες χρησιµοποιείται η Μοντελοποίηση Γλώσσας είναι η Αυτόµατη Αναγνώριση Οµιλίας (Automatic Speech Recognition ASR) [Riccardi & Gorin 1998], η Αυτόµατη ιόρθωση Ορθογραφικών Λαθών (Spelling Correction) [Angell 1983] [Agirre et al. 1994], οι εφαρµογές Ασαφούς Πληκτρολογίου (Fuzzy Keyboard) [Goodman et al. 2002], η Αυτόµατη Αναγνώριση Χειρόγραφου Κειµένου (Optical Handwritten Character Recognition) [Mori et al. 1999] [Marti & Bunke 2001], κλπ. Στο Φιλτράρισµα Πληροφορίας (ΦΠ) (Information Filtering) και στην Εξαγωγή Πληροφορίας από Κείµενα (ΕΠΚ) (Information Extraction) [Riloff 1996] [Riloff 1998], όπου ο χρήστης εισάγει µια ερώτηση αναζήτησης πληροφορίας από Κειµενικές ή Σχεσιακές Βάσεις εδοµένων και αναµένει είτε ακριβή απάντηση (ΕΠΚ) είτε τα κείµενα τα οποία περιέχουν τη ζητούµενη πληροφορία (ΦΠ), χρησιµοποιείται 1 Ως Σώµα Κειµένων (ΣΚ) θεωρούµε µια µεγάλη συλλογή από ηλεκτρονικά κείµενα µε κάποια κοινά χαρακτηριστικά, όπως γλώσσα, προέλευση ή θεµατική περιοχή. 8

ΕΙΣΑΓΩΓΗ πληροφορία σηµασιολογικής συγγένειας, τόσο για να βρεθούν λέξεις συγγενικές µε τις τυχόν άγνωστες λέξεις που υπάρχουν στην ερώτηση του χρήστη, όσο και για να προσδιοριστεί το θέµα κάθε κειµένου ή τµήµατός του. Πασίγνωστο παράδειγµα εφαρµογής ΦΠ είναι οι µηχανές αναζήτησης του ιαδικτύου. Στη Θεµατική Κατηγοριοποίηση Κειµένων η πληροφορία σηµασιολογικής κατηγοριοποίησης είναι προφανώς αναγκαία, καθώς θα πρέπει πρώτα να γίνει η µετάβαση από το λεξικό στο εννοιολογικό επίπεδο, δηλαδή να προσδιοριστούν οι έννοιες που απαντώνται σε κάθε κείµενο και στη συνέχεια να γίνει κατηγοριοποίηση των κειµένων στο χώρο των εννοιών. Στην Παραγωγή Φυσικής Γλώσσας (ΠΦΓ Natural Language Generation) η χρήση συνωνύµων ή ακόµη και υπερωνύµων χρησιµεύει στην επίτευξη αφενός ποικιλίας στο λεξιλόγιο (αλλιώς έχουµε κείµενο µε κουραστικές επαναλήψεις λέξεων) και φυσικότητας, εφόσον κάθε φορά επιλέγεται το συνώνυµο εκείνο που ταιριάζει καλύτερα µε τα συµφραζόµενα (βλ. συµφράσεις). Το πρόβληµα αυτό της ΠΦΓ βρίσκει εφαρµογή στα ιαλογικά Συστήµατα [Wyard et al. 1998] και στην Αυτόµατη Μετάφραση (Machine Translation) [Smadja et al. 1996]. Η Αποσαφήνιση του Νοήµατος Λέξεων (Word Sense Disambiguation WSD), που είναι ο προσδιορισµός του νοήµατος µιας αµφίσηµης λέξης µέσα από µια πληθώρα νοηµάτων, µπορεί να πραγµατοποιηθεί µέσω της υπέρθεσης των πιθανών εννοιολογικών κατηγοριών των λέξεων που την περιβάλλουν. Σχετικά µε το πρόβληµα αυτό βρέθηκε στην [Dagan et al. 1997] ότι η χρήση µιας µεθόδου εξοµάλυνσης (smoothing) βασισµένη σε σηµασιολογικές οµοιότητες λέξεων έδωσε πολύ καλύτερα αποτελέσµατα απ' ότι η κλασσική µέθοδος οπισθοδρόµησης (back-off). Στην Αυτόµατη Μετάφραση κάθε λεκτική σηµασιολογική µονάδα της γλώσσας εισόδου αντιστοιχείται σε µία έννοια ή περισσότερες (εάν πρόκειται για οµωνυµία) και η έννοια αυτή αντιστοιχείται στις συνώνυµες λέξεις στη γλώσσα εξόδου, από τις οποίες τελικά επιλέγεται η «καλύτερη» λέξη σύµφωνα µε κάποιο κριτήριο [Probst & Brown 2002]. Τα εργαλεία Εξαγωγής του Νοήµατος προτάσεων (π.χ. σε διαλογικά συστήµατα) χρησιµοποιούν σηµασιολογικά δίκτυα ή σηµασιολογικές γραµµατικές που εµπεριέχουν σηµασιολογικές κλάσεις είτε για να αποσαφηνίζουν τις πολλαπλές ερµηνείες που εξάγουν τα εργαλεία συντακτικής ανάλυσης, είτε ακόµη και για να εξάγουν απευθείας το νόηµα της πρότασης παρακάµπτοντας τη συντακτική ανάλυση [Thanopoulos et al. 1997] [Wyard et al. 1998] [Hartrumpf 2004]. Γενικά, η συγκέντρωση της Σηµασιολογικής Γνώσης µιας φυσικής γλώσσας ή υπογλώσσας (sublanguage) µε σκοπό τη γενική χρήση της από ανθρώπους ή/και υπολογιστές, στη µορφή Σηµασιολογικών Λεξικών, Θησαυρών, ικτύων (π.χ. WordNet) ή Ορολογιών, αποτελεί από µόνη της µια σηµαντική εφαρµογή. Για 9

ΚΕΦΑΛΑΙΟ Ι παράδειγµα, ένα υποσύνολο της πληροφορίας κατηγοριοποίησης λέξεων, που περιλαµβάνει συγκεκριµένες λεξικές σχέσεις, όπως η συνωνυµία και η αντωνυµία, και αναπαριστάται µε συγκεκριµένη µορφή (δηλ. για κάθε λήµµα παρέχονται όλα τα σχετιζόµενα µε αυτό λήµµατα) αποτελεί τον τύπο λεξικού πόρου που είναι γνωστός ως «θησαυρός» και είναι απαραίτητος στον άνθρωπο για την ολοκληρωµένη εκµάθηση της γλώσσας, όχι µόνο µιας ξένης, αλλά και της µητρικής του. 1.3.2. Σπουδαιότητα της Αυτόµατης Εξαγωγής Σηµασιολογικής Γνώσης (ΑΕΣΓ) από Σώµατα Κειµένων (ΣΚ) Η Γλώσσα αποτελεί ένα δυναµικό σύνολο οντοτήτων και κανόνων και αξιωµατικά ορίζεται µέσα από τη χρήση της, σε κείµενα του προφορικού και του γραπτού Λόγου. Συνεπώς η µοντελοποίησή της και η κωδικοποίησή της θα πρέπει να γίνεται µε βάση σύγχρονά της πραγµατικά κείµενα. Άλλωστε και οι µελετητές της, δηλ. οι λεξικογράφοι και οι γλωσσολόγοι, ανατρέχουν σε πραγµατικά παραδείγµατα για να εξάγουν τους κανόνες και τις ιδιότητές της. Ακόµη κι έτσι όµως, κατά τη χειρωνακτική προσέγγιση είναι δυνατό να παραληφθούν κάποιες έννοιες που έχει µια λέξη, καθώς ένας άνθρωπος ή µια µικρή οµάδα ειδικών δεν µπορεί να γνωρίζει και να είναι σε θέση να ανακαλέσει όλες τις υπάρχουσες έννοιές της. Επίσης, κάθε θεµατική περιοχή έχει τη δικιά της υπο-γλώσσα στο λεξικό επίπεδο, η οποία είναι άγνωστη στον µέσο χρήστη της γλώσσας. Καθώς αφενός ο αριθµός των θεµατικών περιοχών και των αντίστοιχων υπο-γλωσσών είναι τεράστιος και αφετέρου κάθε υπο-γλώσσα είναι γνωστή µόνο σε ένα µικρό υποσύνολο του πληθυσµού, είναι φανερό ότι είναι πρακτικώς πολύ δύσκολο να συγκεντρωθεί όλη η σηµασιολογική γνώση µιας γλώσσας από µια οµάδα ειδικών γλωσσολόγων. Αντίθετα, µια αυτόµατη προσέγγιση µπορεί να εφαρµοστεί ξεχωριστά για κάθε θεµατική περιοχή, από αντίστοιχα κείµενα. Αυτά µπορεί να είναι είτε εξαρχής διαχωρισµένα από την πηγή τους (π.χ. αθλητικά, οικονοµικά, καλλιτεχνικά κείµενα από αντίστοιχες ειδησεογραφικές πηγές ή ακόµα επιστηµονικά άρθρα από εξειδικευµένα περιοδικά και συνέδρια, που εστιάζουν σε συγκεκριµένη επιστηµονική υπο-περιοχή), είτε, εάν πρόκειται για ετερογενές σώµα κειµένων χωρίς θεµατική κατηγοριοποίηση (π.χ. αποτελούµενο από κείµενα του ιαδικτύου) να κατηγοριοποιηθεί µε αυτόµατες µεθόδους [Appiani et al. 2001]. Η αυτόµατη εξαγωγή λεξικο-σηµασιολογικής γνώσης από πραγµατικά κείµενα έχει επιπλέον το πλεονέκτηµα ότι συλλαµβάνει και τις στατιστικές ιδιότητες της σύγχρονης γλώσσας. Αντίθετα, οι γλωσσολόγοι συχνά ακολουθούν µια ιστορική ή ετυµολογική προσέγγιση µε αποτέλεσµα οι χειρωνακτικά κατασκευασµένοι λεξικοί πόροι να περιέχουν παλαιότερα και σπανιότερα λήµµατα (λέξεων ή εννοιών) ενώ να απουσιάζουν τα πιο σύγχρονα και ευρύτερα χρησιµοποιούµενα που φυσικά είναι και πιο χρήσιµα από την άποψη της ΕΦΓ. 10

ΕΙΣΑΓΩΓΗ Ασφαλώς, στην περίπτωση που δεν υπάρχουν ηλεκτρονικά κείµενα διαθέσιµα για µεγάλο µέρος της κάθε γλώσσας και υπο-γλώσσας, δεν είναι δυνατόν µόνο µε αυτόµατες µεθόδους να γίνει εξαγωγή των σηµασιολογικών ιδιοτήτων. Χρειάζεται και επέµβαση του γλωσσολόγου και του ειδικού της θεµατικής περιοχής (domain expert) για να συµπληρώσει ή να διορθώσει την εξαγχθείσα γνώση. Από την άποψη της Τεχνητής Νοηµοσύνης, αναφερόµαστε σε Μηχανική Μάθηση όταν µια µηχανή έχει τη δυνατότητα να µαθαίνει, να αναγνωρίζει και να ταυτοποιεί διαφορετικές οντότητες έχοντας αποκτήσει γνώση µέσα από πραγµατικά παραδείγµατα. Στην περίπτωσή µας, όπου οι οντότητες αυτές συνιστούν το λεξιλόγιο της ανθρώπινης γλώσσας και τα παραδείγµατα είναι ηλεκτρονικά κείµενα τα οποία ρέουν πλέον µε αφθονία π.χ. µέσα από το ιαδίκτυο, µπορούµε να προβλέψουµε την ύπαρξη µιας αυτόνοµης Τεχνητής Νοηµοσύνης στο όχι µακρινό µέλλον που θα χρησιµοποιεί ένα σύνολο µεθόδων ΑΕΣΓ από ΣΚ για να µαθαίνει κάθε ανθρώπινη γλώσσα και υπο-γλώσσα για την οποία θα διαθέτει επαρκή κείµενα. 1.3.3. Προσέγγιση Ελάχιστων Πόρων στην ΑΕΣΓ από ΣΚ Τα κύρια πλεονεκτήµατα της προσέγγισης ελάχιστων πόρων στην ΑΕΣΓ από ΣΚ είναι η δυνατότητα εφαρµογής και σε γλώσσες που παρουσιάζουν έλλειψη γλωσσικών πόρων, η δυνατότητα συγκριτικής µελέτης µεταξύ των γλωσσών, η µεταφερσιµότητα των εφαρµογών ΕΦΓ και η δυνατότητα επεξεργασίας άγνωστων γλωσσών. Τέλος, πρόκειται για µια προσέγγιση που προσοµοιώνει πιστότερα τη διαδικασία εκµάθησης της γλώσσας στον άνθρωπο (ειδικά σε µικρή ηλικία), δηλαδή προσεγγίζει το µακρόπνοο στόχο της ανάπτυξης αυτόνοµης Τεχνητής Νοηµοσύνης. 1.3.3.1. Συγκριτική Μελέτη Μεθόδων σε ιαφορετικές Φυσικές Γλώσσες Η χρήση στην προ-επεξεργασία επιπλέον εργαλείων και µεθόδων (αναπόφευκτα) εισάγει κάποιο ποσοστό σφαλµάτων στα δεδοµένα προς επεξεργασία. Τα σφάλµατα αυτά εξαρτώνται από το συγκεκριµένο εργαλείο, οπότε δεν είναι σταθερά κατά περίπτωση και συνεπώς επηρεάζουν µε διαφορετικό τρόπο το τελικό αποτέλεσµα. Έτσι είναι δύσκολο να εξαχθούν γενικά συµπεράσµατα, π.χ. συγκριτική αξιολόγηση µιας µεθόδου σε διάφορες γλώσσες. Επιπλέον αρκετά σφάλµατα είναι συστηµατικού τύπου, δηλ. ο τύπος τους έχει σηµαντική στατιστική σηµαντικότητα (δηλ. δεν εµφανίζονται τυχαία). Έτσι δεν φιλτράρονται στο επόµενο επίπεδο (όπως συµβαίνει στα τυχαία λάθη) (βλ. Τµήµα 4.3.1) και µεταδίδονται στα τελικά αποτελέσµατα παραποιώντας τα τελικά συµπεράσµατα. 11

ΚΕΦΑΛΑΙΟ Ι 1.3.3.2. Μεταφερσιµότητα Εφαρµογών ΕΦΓ Μια σηµαντική απαίτηση στην υλοποίηση των σύγχρονων συστηµάτων επεξεργασίας και, ιδιαίτερα, κατανόησης φυσικής γλώσσας είναι η µεταφερσιµότητα από τη µια εφαρµογή στην άλλη, που συνίσταται κυρίως στη δυνατότητα αλλαγής θεµατικής περιοχής, ακόµα και γλώσσας, αλλάζοντας ή επεκτείνοντας µόνο ένα συγκεκριµένο και καλά ορισµένο υποσύνολο λεξικής σηµασιολογικής γνώσης και όχι τα τυχόν εργαλεία συντακτικής ανάλυσης της γλώσσας ή τους αλγόριθµους του συστήµατος. Οι πόροι αυτοί είναι κυρίως λεξικοί και σηµασιολογικοί, ενώ στην περίπτωση αλλαγής γλώσσας είναι και συντακτικοί. Είναι λοιπόν σηµαντικό να µπορούν εύκολα να εξαχθούν οι λεξικοί πόροι µε αυτόµατες µεθόδους, οι οποίες να µπορούν να εφαρµοστούν χωρίς πρακτικούς περιορισµούς, όπως είναι η απαίτηση για εργαλεία και πόρους που δεν είναι διαθέσιµοι καθολικά, δηλαδή για όλες της φυσικές γλώσσες. Ακόµη, υπάρχουν θεµατικές περιοχές είτε σχετιζόµενες µε την επιστήµη και την τέχνη είτε µε τρέχοντα ειδησεογραφικά θέµατα γενικού ενδιαφέροντος, στις οποίες νέοι όροι και νέες οντότητες αναδύονται συνεχώς. Ο πιο αποτελεσµατικός και οικονοµικός τρόπος για την γρήγορη ενηµέρωση των Βάσεων Γνώσης και Ορολογιών των αντίστοιχων ΘΠ είναι µέσω τεχνικών που θα βασίζονται στην αυτόµατη ανάκτηση λεξικής γνώσης από ΣΚ. Η δυνατότητα των προσεγγίσεων ελάχιστων πόρων να λειτουργούν ανεξάρτητα της γλώσσας, παίρνοντας ως είσοδο µόνο το ακατέργαστο κείµενο, χωρίς χρήση συντακτικής ανάλυσης, τις κάνει ιδιαίτερα πρακτικές, για παράδειγµα σε εφαρµογές Αποσαφήνισης του Νοήµατος Λέξεων. Ένα σύγχρονο σύστηµα που το επιτυγχάνει χωρίς άλλους πόρους, τεκµαίροντας αυτόµατα κατηγορίες λέξεων από ακατέργαστο κείµενο παρουσιάστηκε στην [Purandare & Pedersen 2004]. 1.3.3.3. Εξαγωγή της Σηµασιολογίας Άγνωστων Γλωσσών Μια πιθανή και ιδιαίτερα ενδιαφέρουσα εφαρµογή των αλγορίθµων και των µεθόδων που παρουσιάζονται στην παρούσα διατριβή, είναι η αποκρυπτογράφηση γλωσσών επικοινωνίας για τις οποίες έχουµε ελάχιστη ή καθόλου γνώση. Η δικαιολόγηση µιας τέτοιας προσδοκίας βασίζεται στο γεγονός ότι κάθε γλώσσα επικοινωνίας που χρησιµοποιείται για τη µεταφορά σηµαντικού ποσού πληροφορίας θα πρέπει να έχει διαµορφωθεί µε τρόπο που να επιτυγχάνει τους βασικούς αλλά αντικρουόµενους στόχους της επικοινωνίας, δηλαδή την οικονοµία (όσον αφορά στον όγκο της µεταδιδόµενης πληροφορίας) και την αξιοπιστία (αφού ο πλεονασµός στην πληροφορία επιτρέπει τη διόρθωση λαθών). Εποµένως όλες οι γλώσσες αναµένεται (και ως τώρα έχει παρατηρηθεί ότι) υπακούουν σε κάποιους γενικούς κανόνες, όπως είναι η διαµόρφωσή τους σε δύο (τουλάχιστον) ανώτερα επίπεδα, το συντακτικό και το 12

ΕΙΣΑΓΩΓΗ σηµασιολογικό, που προϋποθέτει την ύπαρξη αντίστοιχων κατηγοριοποιήσεων στο λεξικό επίπεδο. Οι µόνες απαιτήσεις που θέτουν οι αλγόριθµοι εξαγωγής σηµασιολογικής γνώσης χωρίς τη χρήση άλλων πόρων είναι δύο: 1. Η κωδικοποίηση της πληροφορίας στη µορφή µιας ακολουθίας διακριτών συµβόλων χαρακτήρων, δηλ. σε µορφή ψηφιοποιηµένου (ηλεκτρονικού) κειµένου. 2. Η διαθεσιµότητα κειµένων επαρκούς µεγέθους, ώστε να υπάρχει επαναληψιµότητα των λεξικών συσχετίσεων και άρα να µπορούν να εξαχθούν στατιστικές παρατηρήσεις για αυτές. Άγνωστες γλώσσες, των οποίων πιθανόν η ανάλυση να αξιοποιήσει κάποιες από τις περιγραφόµενες στην διατριβή τεχνικές, είναι: 1. Οι γλώσσες επικοινωνίας άλλων ευφυών γήινων οργανισµών. Το πιθανότερο παράδειγµα αφορά στα κητοειδή. Στην [Herman et al. 1984] βρέθηκε ότι σε πειράµατα που έγιναν σε δελφίνια αυτά µπόρεσαν να µάθουν µια γλώσσα που εµπεριείχε το συντακτικό και το σηµασιολογικό επίπεδο. Ωστόσο η ανάλυση της επικοινωνίας ελεύθερων δελφινιών βρίσκεται ακόµα σε πρώιµο στάδιο. 2. Οι γλώσσες αρχαίων πολιτισµών από τις οποίες έχουν διασωθεί αρκετά κείµενα αλλά το νόηµα των (περισσότερων) λέξεων µας είναι άγνωστο. Ένα τέτοιο παράδειγµα είναι τα Ετρουσκικά, για τα οποία ωστόσο υπάρχουν προς το παρόν χιλιάδες επιγραφές αλλά µόνο ένα κείµενο µεγάλου µήκους (τµήµα βιβλίου) [Pickover 1998]. 3. Η γλώσσα ενός εξωγήινου πολιτισµού µε τον οποίο πιθανόν να έρθει η ανθρωπότητα σε επαφή στο µέλλον, πιθανότατα µέσω ραδιοκυµάτων και χωρίς δυνατότητα αµφίπλευρης επικοινωνίας. Σε περίπτωση εκποµπής µε σκοπό την επαφή είναι αναµενόµενο κάποιες από τις έννοιες της ξένης γλώσσας να ορισθούν µέσα από τα µαθηµατικά ωστόσο στατιστική ανάλυση και ανάλυση των συνεµφανίσεων χωρίς άλλη γνώση θα είναι απαραίτητες για να προσδιοριστεί το νόηµα των περισσότερων λέξεων. 4. Η αποκωδικοποίηση κρυπτογραφηµένων κειµένων και µεθόδων κρυπτογραφίας µπορεί να επιτευχθεί µέσα από τη στατιστική ανάλυση των συνεµφανίσεων των συµβόλων σε µεγάλα κρυπτογραφηµένα κείµενα. 1.3.3.4. Ανάπτυξη Αυτόνοµης Τεχνητής Νοηµοσύνης. Η προσέγγιση χωρίς χρήση γλωσσικής γνώσης είναι πιο κοντά στην προσπάθεια ανάπτυξης ΤΝ, καθώς πρόκειται για µια διαδικασία εκµάθησης οποιασδήποτε γλώσσας 13

ΚΕΦΑΛΑΙΟ Ι χωρίς περιορισµούς ή προαπαιτούµενα. Η ύπαρξη τεράστιων ηλεκτρονικών κειµένων στις περισσότερες γλώσσες και η συνεχής αύξηση της διαθέσιµης υπολογιστικής ισχύος καθιστά δυνατή την εφαρµογή απλών µεθόδων που βασίζονται σε ανάλυση δεδοµένων εξαιρετικού όγκου. Συνεπώς, αυτή είναι η απλούστερη και συνεπώς η πιο φυσική µέθοδος εκµάθησης των νοηµάτων των λέξεων από ένα Υπολογιστικό Σύστηµα. Άλλωστε, από την πλευρά της Γνωστικής Ψυχολογίας, και το παιδί µαθαίνει τη γλώσσα και τις έννοιες άγνωστων λέξεων µέσα από την γειτνίασή τους στο κείµενο, αφού προφανώς δεν πραγµατοποιεί κάποιας µορφής συντακτική ανάλυση. Σχετικά πειράµατα έδειξαν ότι η εµφάνιση νέων λέξεων στο λεξιλόγιο των παιδιών σχετίζεται σηµαντικά µε την εµφάνισή τους στο περιβάλλον των παιδιών (χωρίς δηλαδή να υπάρχει διαδικασία επεξήγησής τους). 1.4. Υπάρχοντες Λεξικοί Σηµασιολογικοί Πόροι Οι υπάρχοντες σηµασιολογικοί πόροι σε κατάλληλη µορφή για επεξεργασία από Η/Υ, δηλ. σε ηλεκτρονική µορφή και µε δοµή δικτύων ή δένδρων, όπως το WordNet [Miller 1990], δεν παρέχουν την αναγκαία πληρότητα ώστε να µπορούν να χρησιµοποιηθούν σε οποιαδήποτε εφαρµογή. Αυτό διότι, αφενός υφίστανται σε περιορισµένες ανθρώπινες γλώσσες και αφετέρου, ακόµη και για την Αγγλική, καλύπτουν µόνο το γενικό λεξιλόγιο (και αυτό όχι πλήρως), και λίγες µόνο υπο-γλώσσες της. Στην [Ciaramita et al. 2003] αναφέρεται ότι για κάθε οκτώ προτάσεις συναντάται ένα κοινό ουσιαστικό που δεν περιλαµβάνεται στο WordNet 1.6. Η επέκταση ενός γενικού Σηµασιολογικού Λεξικού για χρήση σε µια θεµατική περιοχή περιλαµβάνει όχι µόνο την προσθήκη νέου λεξιλογίου µα και τυχόν διαφορετικών νοηµάτων στις υπάρχουσες λέξεις. Τέλος, είναι γνωστό ότι η ανθρώπινη γλώσσα βρίσκεται σε αέναη αλλαγή, η οποία απεικονίζει αντίστοιχες αλλαγές στην κοινωνία, στην επιστήµη και τον πολιτισµό της ανθρωπότητας. Όχι µόνο καινοφανείς λέξεις και εκφράσεις µα και ολόκληρες υπο-γλώσσες ανακύπτουν µε το πέρασµα του χρόνου. Οι Λεξικοί Σηµασιολογικοί Ηλεκτρονικοί Πόροι που έχουν αναπτυχθεί την τελευταία 15ετία προσφέρουν περιορισµένη κάλυψη, ειδικά στις λιγότερο διαδεδοµένες γλώσσες, που αποτελούν όµως την πλειοψηφία των γλωσσών. Μόνο σε γλώσσες για τις οποίες έχουν πραγµατοποιηθεί εκτεταµένες έρευνες και κατασκευή γλωσσολογικών πόρων (δηλ. κατά κύριο λόγο τα Αγγλικά και στη συνέχεια τα Γερµανικά, τα Γαλλικά τα Ιαπωνικά) είναι διαθέσιµοι και παρέχουν ικανοποιητική κάλυψη. Επιπλέον, ακόµα και σε αυτές τις γλώσσες, υπάρχουν πολλές θεµατικές περιοχές στις οποίες τα λεξικά αυτά δεν παρέχουν κάλυψη, είτε όσον αφορά σε λέξεις που δεν υπάγονται στο γενικής χρήσης λεξιλόγιο είτε υπάγονται σε αυτό αλλά έχουν κάποιο ειδικό νόηµα στη συγκεκριµένη θεµατική περιοχή [Roark & Charniak 1998]. Γι αυτό το λόγο σε πολλά 14