ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Σχετικά έγγραφα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ερευνητικό Πρόγραµµα BalkaNet

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Κεφάλαιο 3. Γραφήµατα v1.0 ( ) Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

Επέκταση του Ελληνικού WordNet µε Όρους Πληροφορικής και Σηµασιολογικές Σχέσεις Βασισµένες σε Μοντέλο Κατανόησης Κειµένου

Μοντέλο Κατανόησης Κειµένου


Αποσαφήνιση της σημασίας λέξεων μέσω συνδυασμού Δικτύων Διάδοσης Ενεργοποίησης και του αλγορίθμου PageRank

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

Κεφάλαιο 3. Γραφήματα. v1.3 ( ) Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

SocialDict. A reading support tool with prediction capability and its extension to readability measurement

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

Κεφάλαιο 3. Γραφήµατα v1.1 ( ) Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00)

Σχεδιασµός Ανάπτυξη Οντολογίας

Οντολογία για την περιγραφή των προσωπικοτήτων της Σάμου, την κατηγοριοποίηση και τις σχέσεις τους

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ

Ανάκτηση Πληροφορίας

Σημασιολογικά Λεξικά WordNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

ΑΝΤΙΣΤΟΙΧΙΣΗ ΜΟΝΤΕΛΩΝ ΕΠΙΧΕΙΡΗΣΙΑΚΩΝ ΔΙΑΔΙΚΑΣΙΩΝ

ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ.

Δομές Δεδομένων και Αλγόριθμοι

Κεφάλαιο 2ο. Κατανοώντας την αντικειμενοστρέφεια

Θεωρία Υπολογισμού και Πολυπλοκότητα Μαθηματικό Υπόβαθρο

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Red-black δέντρα (Κεφ. 5)

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Μέγιστη ροή. Κατευθυνόμενο γράφημα. Συνάρτηση χωρητικότητας. αφετηρίακός κόμβος. τερματικός κόμβος. Ροή δικτύου. με τις ακόλουθες ιδιότητες

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

Red- black δέντρα Εκτενείς Δομές Δεδομένων (Κεφ. 5)

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Γνωστική Ψυχολογία 3

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΠΟΛΥ ΜΕΓΑΛΗ : ΜΕΓΑΛΗ : ΜΕΣΑΙΑ: ΜΙΚΡΗ

Κεφάλαιο 3. Γραφήματα. ver. 21/12/2014. Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

ΠΕΡΙΕΧΟΜΕΝΟ ΕΝΟΤΗΤΩΝ (περιγραφή) Περιγραφή του περιεχομένου της ενότητας.

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

Πληροφοριακά Συστήματα Διοίκησης Ενότητα 5: Διαγράμματα Κλάσης (1ο Μέρος)

Multicut and Integer Multicomodity Flow in Trees (chap. 18) Αγγελής Γιώργος

ΤΕΙ ΛΑΜΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ενότητες Γ3.1 - Γ3.2 - Γ3.3

Αναγνώριση και αποσαφήνιση ονοματικών οντοτήτων

Βασικές Έννοιες Θεωρίας Γραφημάτων

Η Διδακτική της Χημείας και οι αλληλεπιδράσεις με την Ψυχολογία. Άννα Κουκά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

ιαµέριση - Partitioning

Περιεχόμενα Πρόλογος 1. Εισαγωγή 2. Τα Βασικά Μέρη ενός Προγράμματος Prolog

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

Έξι βαθμοί διαχωρισμού

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Θεωρία Υπολογισμού. Ενότητα 3 : Γραφήματα & Αποδείξεις. Αλέξανδρος Τζάλλας

Έλεγχος Συνένωσης και Διασφάλιση Ποιότητας

Σχέσεις. Διμελής Σχέση. ΣτοΊδιοΣύνολο. Αναπαράσταση

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Τμήμα Πληροφορικής και Τηλεματικής ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Οπτικά Δίκτυα. Εγκατάσταση Οπτικών Διαδρομών (Lightpath Setup) και δρομολόγηση

Βάσεις Δεδομένων Ι. 4 ο Φροντιστήριο. Πέρδικα Πολίνα [perdika]

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

Πληροφοριακά Συστήματα Διοίκησης (ΜΒΑ) Ενότητα 1: Δικτυωτή Ανάλυση (Θεωρία Γράφων)

u v 4 w G 2 G 1 u v w x y z 4

Αξιοποίηση Ευφυών Τεχνικών και Πηγών Γνώσης σε Ζητήματα Ανάλυσης Κειμένου

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (3)

Εισαγωγή στις ΤΠΕ ΙΙ Γιάννης Βρέλλης ΠΤΔΕ-Πανεπιστήμιο Ιωαννίνων. World Wide Web. Παγκόσμιος Ιστός

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Πτυχιακές Εργαστήριο Επικοινωνίας Ανθρώπου-Μηχανής και Εικονικής Πραγματικότητας

Αλγόριθµοι Γραφηµάτων

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ

Προσαρμογή της Βάσης Δεδομένων του WordNet στο σχεσιακό μοντέλο. WordNet. a lexical database for the English language

Cloud Computing with Google and Microsoft. Despoina Trikomitou Andreas Diavastos Class: EPL425

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Προγράμματα για τη δημιουργία και διαχείριση θησαυρού

Βασικές Έννοιες Θεωρίας Γραφημάτων

Επίλυση προβλημάτων με αναζήτηση

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Transcript:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet

Σημασιολογικά Δίκτυα Ένα δίκτυο που αναπαριστά συσχετίσεις μεταξύ εννοιών. Οι κορυφές παριστάνουν έννοιες και οι ακμές σημασιολογικές σχέσεις. Αποτελεί μορφή αναπαράστασης γνώσης. Χρησιμοποιούνται όταν η γνώση αναπαρίσταται αποτελεσματικότερα με συσχετίσεις μεταξύ εννοιών.

WordNet Παράδειγμα σημασιολογικού δικτύου Ηλεκτρονικό λεξικό της αγγλικής γλώσσας Καταγράφει επίσης σημασιολογική (θησαυρική) πληροφορία για τα λήμματα που περιέχει Δημιουργήθηκε το 1985 στο Princeton Συντηρείται από το Cognitive Science Laboratory υπό τη διεύθυνση του καθ. Γνωστικής Ψυχολογίας George A. Miller

Βασικές Έννοιες Λήμμα (Lemma) Οι λέξεις τις αγγλικής στον πρώτο κλιτικό τύπο. Διαχωρίζονται και ανά μέρος του λόγου. Έννοια (Sense) Μια έννοια του πραγματικού κόσμου που μπορεί να εκφραστεί με ένα ή περισσότερα λήμματα. Σύνολο Συνωνύμων (Synset) Το WordNet ομαδοποιεί τα λήμματα που περιέχει σε synsets. Κάθε synset αντιπροσωπεύει μια έννοια. Κάθε synset περιέχει τα λήμματα που είναι συνώνυμα.

Μοντελοποίηση με Γράφο Κόμβοι Κάθε κόμβος είναι ένα synset. Περιέχει ένα ή περισσότερα λήμματα και τον ορισμό τους (gloss). Ακμές Κάθε ακμή εκφράζει μια σημασιολογική σχέση μεταξύ δύο synsets.

Μοντελοποίηση με ER Κάθε λήμμα περιέχεται σε ένα ή περισσότερα synsets και κάθε synset περιέχει ένα ή περισσότερα λήμματα. Κάθε synset εκφράζει ακριβώς μια έννοια. Κάθε synset μπορεί να συνδέεται με σημασιολογική σχέση με άλλα synsets.

Ψυχολογική Αιτιολόγηση Το WordNet οργανώθηκε με βάση το πως επεξεργάζεται ο άνθρωπος τη γλώσσα. Ψυχολογικά πειράματα αποδεικνύουν ότι: Ο άνθρωπος ανακτά ιδιότητες ουσιαστικών πιο γρήγορα όταν το χαρακτηριστικό που δίνεται είναι και ιδιότητα που ορίζει την κλάση. Για παράδειγμα έστω η ιεραρχία: καναρίνι =>ωδικό πτηνό =>πτηνό =>ζώο Ο άνθρωπος επιβεβαιώνει γρηγορότερα τη φράση «Το καναρίνι τραγουδά» από τη φράση «Το καναρίνι πετάει» και ακόμα πιο αργά τη φράση «Το καναρίνι έχει δέρμα» λόγω της ιεραρχίας.

Στατιστικά PoS Μοναδικά Λήμματα Synsets Συνολικά ζεύγη λέξεων - εννοιών Ουσιαστικά 117798 82115 146312 Ρήματα 11529 13767 25047 Επίθετα 21479 18156 30002 Επιρήματα 4481 3621 5580 Σύνολο 155287 117659 206941 Το WordNet είναι καλύτερη πηγή για ουσιαστικά! Σε άλλα μέρη του λόγου μπορεί να υπάρχουν ελλείψεις...

Σχετικά Projects WordNets: Και σε άλλες γλώσσες (εκτός των αγγλικών) Web Interfaces: Πρόσβαση μέσω άλλων δικτύων APIs: σε όλες σχεδόν τις γνωστές γλώσσες (πχ: C#, Java, MySQL, Perl, PHP, PostgreSQL, Python, Ruby) Extentions: επέκταση των χαρακτηριστικών του ή ενσωμάτωση σε μεγαλύτερα συστήματα Mappings: μεταξύ διαφορετικών εκδόσεων

WordNet Εφαρμογές

WordNet Visualization

WordNet στο NLTK

Σημασιολογικές Σχέσεις Λημμάτων: Συνωνυμία Αντωνυμία Εννοιών: Υπερωνυμία/Υπωνυμία Ολωνυμία/Μερωνυμία Αμφίδρομες (bi-directional) και κληρονομικές.

Συνωνυμία/Αντωνυμία Σχέσεις που ορίζονται μεταξύ λημμάτων. Ένα σύνολο συνώνυμων λημμάτων αποτελούν το synset, τη δομική μονάδα του wordnet.

Ολωνυμία/Μερωνυμία Eκφράζουν ότι η μια έννοια είναι μέρος της άλλης. Σχέσεις μεταξύ synsets Κληρονομικές και αμφίδρομες Υπάρχουν 3 είδη: Member, Part, Substance

Υπερωνυμία/Υπωνυμία Εκφράζουν ότι μια έννοια είναι εξειδίκευση της άλλης Σχέσεις μεταξύ synsets Κληρονομικές και αμφίδρομες Θεωρητικά κάθε έννοια έχει το πολύ μια γενική της (ιεραρχία, δέντρο) Σημαντική σχέση για πολλές μεθόδους και εφαρμογές Καλύτερα ενημερωμένη στο WordNet σε σχέση με άλλες.

Δέντρο Υπερωνύμων/Υπωνύμων

Δέντρο Υπερωνύμων/Υπωνύμων Μονοπάτι του synset ως στη ρίζα Όσο προχωράμε προς τη ρίζα έχουμε γενικότερες έννοιες Τα φύλλα είναι η πιο εξειδικευμένες Τελικά είναι δέντρο? Όχι υπάρχουν εξαιρέσεις με 2 μονοπάτια προς τη ρίζα.

Σημασιολογική Απόσταση Από το δέντρο μπορούμε να ορίσουμε μονοπάτι μεταξύ δύο εννοιών. Ελάχιστος Κοινός Πρόγονος (Least Common Subsumer) Τι σημαίνει όταν δυο έννοιες είναι πιο κοντά στο δέντρο από άλλες δύο?

Μετρικές Σημασιολογικής Ομοιότητας Δίνουν την ομοιότητα μεταξύ δύο εννοιών: Path Similarity Shortest Path μεταξύ εννοιών Leacock-Chodorow Similarity Shortest Path μεταξύ εννοιών και μέγιστο βάθος τους Wu-Palmer Similarity Βάθος των εννοιών και βάθος του Least Common Subsumer Resnik Similarity Information Content (IC) του Least Common Subsumer Jiang-Conrath Similarity Information Content (IC) του Least Common Subsumer και των εννοιών Lin Similarity Information Content (IC) του Least Common Subsumer και των εννοιών

Wu-Palmer Similarity Συνδυάζει το βάθος ενός ζεύγους εννοιών στο WordNet και το βάθος του LCS (Least Common Subsumer) τους

Μετρικές Σημασιολογικής Ομοιότητας Μετρικές που βασίζονται μόνο στα δομικά στοιχεία του WordNet Path Similarity Leacock-Chodorow Wu-Palmer

Μετρικές Σημασιολογικής Ομοιότητας Μετρικές που χρειάζονται το Information Content το οποίο πρέπει να φορτωθεί από corpus Information Content: Το αντίστροφο της εντροπίας, χαρακτηρίζει την πληροφορία που «φέρει» κάθε έννοια. Φόρτωση του IC από το Brown Corpus Resnik Similarity Jiang-Conrath Similarity Lin Similarity

Word Sense Disambiguation Αποσαφήνιση Το πρόβλημα του να αναγνωριστεί η έννοια μιας λέξης σε μια πρόταση. Είναι ανοιχτό πρόβλημα (δεν έχει επιλυθεί) Έχουν προταθεί μέθοδοι με αρκετά καλή απόδοση. Βασικές κατευθύνσεις: Dictionary & knownledge based Supervised Methods: Machine Learning με annotated corpora

WSD-Παράδειγμα Έχουμε την πρόταση: I left the mouse behind the screen, next to the keyboard Έχουμε 3 ουσιαστικά με διαφορετικές έννοιες το καθένα. Πόσους διαφορετικούς συνδυασμούς μπορούμε να κάνουμε? Πως επιλέγουμε τον σωστό συνδυασμό?

WSD - Μια (απλοϊκή) πρόταση Έυρεση όλων των συνδυασμών εννοιών. Στο παράδειγμα: 4*9*2=72 Μέτρηση της μέσης σημασιολογικής ομοιότητας κάθε συνδυασμού ανά δυο έννοιες (με οποιαδήποτε μετρική) Επιλογή των εννοιών που μεγιστοποιούν τη μέση σημασιολογική ομοιότητα. Τι πρόβλημα παρουσιάζει η πρόταση αυτή?

WSD - Παράδειγμα Υπολογισμός όλων των δυνατών συνδυασμών (καρτεσιανό γινόμενο) Υπολογισμός όλων των δυνατών ζευγών (συνδυασμοί ανά 2) Υπολογισμός της μέσης ομοιότητας

WSD - Παράδειγμα Η μέθοδος είναι πρακτικά ανεφάρμοστη για πολλά δεδομένα, καθώς το μέγεθος του προβλήματος αυξάνεται δραματικά με κάθε λέξη! Ενδεικτικά όταν εφαρμόστηκε σε όλα τα ουσιαστικά ενός κειμένου, ο αριθμός των συνδυασμών δεν μπορούσε να αποθηκευτεί σε long: έκανε overflow! Στην πράξη χρησιμοποιούνται πολύ πιο πολύπλοκες μέθοδοι, που επιτυγχάνουν και μεγάλη απόδοση. Η FirstSense μέθοδος έχει απόδοση πάνω από 50%! FirstSense: απλά επιλέγω το sense το οποίο χρησιμοποιείται συχνότερα. Το πρόβλημα παραμένει ανοιχτό.

Πηγές για το WordNet WordNet official page: http://wordnet.princeton.edu/ WordNet Wikipedia page: http://en.wikipedia.org/wiki/wordnet WordNet visualization: http://www.visuwords.com/ WordNet vocabulary helper: http://poets.notredame.ac.jp/cgi-bin/wn

Recommended Reading Natural Language Processing with Python Chapter 2: 2.5 WordNet Wordnet with Python Tutorial http://nltk.googlecode.com/svn/trunk/doc/howto/wor dnet.html