ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:



Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Ανάκτηση Πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 5 ο : Σημασιολογική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΣΗΜΑΣΙΟΛΟΓΙΑ - SEMANTICS

Ασκήσεις μελέτης της 19 ης διάλεξης

Ερευνητικό Πρόγραµµα BalkaNet

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ανάκτηση Πληροφορίας

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Αποσαφήνιση της σημασίας λέξεων μέσω συνδυασμού Δικτύων Διάδοσης Ενεργοποίησης και του αλγορίθμου PageRank

Information Retrieval

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Τι (άλλο) θα δούμε σήμερα;

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Θεωρία Λήψης Αποφάσεων

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Τμήμα Πληροφορικής και Τηλεματικής ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΜΑΘΗΜΑ: Μεταγλωττιστές

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Τεχνητή Νοημοσύνη ( )

pdf: X U(a, b) 0, x < a 1 b a, a x b 0, x > b

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ανάκτηση Πληροφορίας

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Μηχανική Μάθηση: γιατί;

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 4 ο : Συντακτική ανάλυση. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος. Γιώργος Μικρός ΕΚΠΑ

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ασκήσεις μελέτης της 16 ης διάλεξης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Επεξεργασία Στοχαστικών Σημάτων

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

ΣΤΟΙΧΕΙΑ ΔΙΔΑΣΚΑΛΙΑΣ ΜΕ ΤΗ ΧΡΗΣΗ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ Ακαδημαϊκό έτος Καθηγητές: Σ. Πνευματικός Α. Μπούντης

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 6 ο : Ανάλυση πραγματείας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Πιθανοκρατικό μοντέλο

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Αξιοποίηση Ευφυών Τεχνικών και Πηγών Γνώσης σε Ζητήματα Ανάλυσης Κειμένου

Φυσική για Μηχανικούς

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΑΝΤΙΣΤΟΙΧΙΣΗ ΜΟΝΤΕΛΩΝ ΕΠΙΧΕΙΡΗΣΙΑΚΩΝ ΔΙΑΔΙΚΑΣΙΩΝ

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

«Δοκιμασία Εκφραστικού Λεξιλογίου σε τυπικά αναπτυσσόμενα παιδιά ηλικίας 6 8 ετών»


Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Θεωρία Πιθανοτήτων & Στατιστική

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

4. ΚΑΤΑΛΟΓΟΣ ΕΛΕΓΧΟΥ ΕΠΙΠΕΔΟΥ ΓΝΩΣΗΣ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΝΟΗΜΑΤΙΚΗΣ ΓΛΩΣΣΑΣ

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ

Θέση-Μετατόπιση -ταχύτητα

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ Διδακτική της Πληροφορικής

Προγραμματισμός ΙI (Θ)

2. ΣΥΝΟΠΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΡΟΓΡΑΜΜΑΤΩΝ ΣΠΟΥΔΩΝ ΕΝΓ

«Φυσική Α Γενικού Λυκείου: Ευθύγραμμη ομαλή κίνηση»

Το αερόπλοιο. Χρονική Διάρκεια Προτεινόμενη χρονική διάρκεια σχεδίου εργασίας: 5 διδακτικές ώρες

Ανάκτηση πολυμεσικού περιεχομένου

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

GCDT: Σώμα Κειμένων της Γλώσσας των Εναγόμενων στο Ελληνικό Δικαστήριο Αναστασία Κ. Κατρανίδου, Κατερίνα Θ. Φραντζή

ΑΝΑΛΥΣΗ 2. Μ. Παπαδημητράκης.

Ανάκτηση Πληροφορίας

Κβαντική Επεξεργασία Πληροφορίας

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ Ενότητα 5

Στατιστική. Ενότητα 3 η : Χαρακτηριστικά Τυχαίων Μεταβλητών Θεωρητικές Κατανομές Πιθανότητας για Διακριτή Τυχαία Μεταβλητή

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

ΣΧΕΔΙΟ ΜΑΘΗΜΑΤΟΣ ΤΕΧΝΟΛΟΓΙΑ ΑΝΑΣΥΝΔΥΑΣΜΕΝΟΥ DNA (ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ)

ΠΕΙΡΑΜΑ 5. Μελέτη ευθύγραμμης ομαλής και επιταχυνόμενης κίνησης.

Transcript:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013

Οι διαφάνειες αυτού του μαθήματος βασίζονται εν μέρει στο κεφάλαιο 6 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010. Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 1

Ασάφεια έννοιας λέξεων Οι περισσότερες λέξεις στις φυσικές γλώσσες είναι πολύσημες: Ποντίκι: τρωκτικό, εξάρτημα Η/Υ, μυς Βιβλιοθήκη: έπιπλο, κτήριο Η άρση της ασάφειας γίνεται στο πλαίσιο του περιβάλλοντος (context): Απόδοση της σωστής σημασίας σε μια λέξη (target word) μέσα στο πλαίσιο που αποτελείται από τις περιβάλλουσες λέξεις Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 2

Παραδοσιακή προσέγγιση (1) Εισαγωγή συντακτικών ή/και σημασιολογικών περιορισμών στο πώς συνδυάζονται οι λέξεις Τρώω: το υποκείμενο πρέπει να είναι ζωντανός οργανισμός και το αντικείμενο κάτι φαγώσιμο Κίτρινος: μπορεί να προσδιορίζει φυσικά αντικείμενα αλλά όχι αφηρημένες έννοιες Οι κανόνες αυτοί καλούνται περιορισμοί επιλογής (selectional restrictions) e, x, y Eating e Agent e, x Editable(e, y) Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 3

Παραδοσιακή προσέγγιση (2) Η απόδοση της παραδοσιακής προσέγγισης έχει δοκιμαστεί σε μικρά σώματα κειμένων Ταυτόχρονα, είναι περιοριστική, αφού μας επιτρέπει μόνο να ελέγξουμε αν κάτι είναι επιτρεπτό Και δεν μας βοηθά ιδιαίτερα να βρούμε το επιτρεπτό Η διαθεσιμότητα μεγάλων ηλεκτρονικών λεξικών, όπως το Wordnet έδωσε μεγάλη ώθηση στην ανάπτυξη συστημάτων αποσαφήνισης εννοιών λέξεων Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 4

Wordnet Το λεξικό περιλαμβάνει το πλήρες σύνολο εννοιών για μια λέξη Κάθε έννοια αποδίδεται σαν ένα σύνολο από συνώνυμες λέξεις (synsets) Οι λέξεις είναι ιεραρχημένες σε υπερώνυμα υπώνυμα Διακριτές ιεραρχίες για ουσιαστικά, επίθετα, ρήματα, επιρρήματα Υπάρχουν και άλλες σχέσεις Π.χ. μερώνυμα Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 5

ΑΕΛ μέσω μηχανικής μάθησης Η ΑΕΛ μπορεί να ειδωθεί σαν πρόβλημα ταξινόμησης Κατάταξη των εμφανίσεων κάθε λέξης σε κατηγορίες Έννοιες της λέξης, από τις διαθέσιμες έννοιες ενός λεξικού Ουσιαστικά, χρειαζόμαστε έναν ταξινομητή για κάθε λέξη Το οποίο είναι εφικτό μόνο για μικρά σύνολα λέξεων Χαρακτηριστικά που είναι χρήσιμα: Ποιες λέξεις ή/και ποια μέρη του λόγου εμφανίζονται στα συμφραζόμενα (βάσει παραθύρου), ή/και σε συγκεκριμένες θέσεις στο περιβάλλον Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 6

Η μέθοδος ΑΕΛ του Lesk Βασίζεται στην σύγκριση «υπογραφών» για κάθε έννοια, με την πρόταση που εμφανίζεται μια λέξη Σαν «υπογραφή» μιας έννοιας, θεωρείται το gloss της έννοιας (simplified Lesk) Επίσης, μπορεί να θεωρηθεί το gloss μαζί με άλλες προτάσεις που εμφανίζεται η λέξη με την συγκεκριμένη έννοια (corpus Lesk) Η σύγκριση γίνεται με μέτρα ομοιότητας Όπως το edit distance (μεταξύ πρότασης και υπογραφής), ή το cosine similarity (των διανυσμάτων πρότασης και υπογραφής) Λεπτομέρειες: Μάθημα 7 ο, Ανάκτηση πληροφορίας Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 7

Διανυσματική παράσταση κειμένων Παριστάνουμε τα δύο κείμενα (π.χ. υπογραφή και πρόταση στη μέθοδο Lesk) ως δύο διανύσματα Boolean διανύσματα Δείχνουν ποιες λέξεις ενός λεξιλογίου εμφανίζονται ή όχι σε κάθε κείμενο Διανύσματα συχνοτήτων (term frequency, TF) Δείχνουν πόσες φορές εμφανίζεται κάθε λέξη του λεξιλογίου Διανύσματα TF-IDF Για κάθε λέξη w i του λεξιλογίου, το διάνυσμα περιέχει την τιμή (βάρος) TF i IDF i Θέλουμε οι συχνές στο κείμενο και σπάνιες στη γλώσσα λέξεις να έχουν μεγάλα βάρη Το IDF i δείχνει πόσο σπάνια είναι η w i στη γλώσσα Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 8

Μέτρα σημασιολογικής ομοιότητας (1) Μέτρα σημασιολογικής ομοιότητας λέξεων ή εννοιών λέξεων τα οποία βασίζονται σε θησαυρούς λέξεων Π.χ. «αγοράζω» «αποκτώ», «πτήση» «αεροπλάνο» Π.χ. εξετάζουν το μήκος του συντομότερου μονοπατιού που ενώνει δύο έννοιες στο Wordnet Πολλές παραλλαγές Επεκτείνονται και σε μέτρα που εξετάζουν την ομοιότητα λέξεων (αντί συγκεκριμένων εννοιών λέξεων), προτάσεων, κειμένων Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 9

Μέτρα σημασιολογικής ομοιότητας (2) Μέτρα σημασιολογικής ομοιότητας λέξεων ή εννοιών λέξεων που χρησιμοποιούν συχνότητες συνεμφανίσεων Λέξεις με παρόμοια σημασία τείνουν να εμφανίζονται με παρόμοια συμφραζόμενα (distributional hypothesis) Μπορούμε να αναπαραστήσουμε κάθε λέξη με ένα διάνυσμα Που δείχνει πόσο συχνά συνεμφανίζεται η συγκεκριμένη λέξη με κάθε άλλη λέξη ενός λεξιλογίου Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 10

Μέτρα σημασιολογικής ομοιότητας (3) Πρέπει να αποφασίσουμε τι ακριβώς μετρήσεις θα περιλαμβάνει το διάνυσμα κάθε λέξης w Συχνά PMI (pointwise mutual information): P w, w i PMI w, w i = log P w P w i όπου P w, w i η πιθανότητα να εμφανιστούν «μαζί» οι δύο λέξεις «Μαζί»: στην ίδια πρόταση; Σε απόσταση ν λέξεων; Μέτρηση της ομοιότητας των διανυσμάτων Cosine similarity, ευκλείδεια απόσταση, κλπ. Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 11

Χ-τετράγωνο έλεγχος (1) Χ-τετράγωνο έλεγχος του Pearson (1900) Συγκρίνει τους παρατηρηθέντες και αναμενόμενους αριθμούς, όταν οι δυνατές εκβάσεις ενός πειράματος υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες: X 2 observed expected 2 = expected Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 12

Χ-τετράγωνο έλεγχος (2) Οι παρατηρηθείσες και αναμενόμενες τιμές μπορούν να εξηγηθούν στο πλαίσιο του hypothesis testing Έχοντας τα παρατηρηθέντα δεδομένα που υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες Μπορούμε να διατυπώσουμε μια μηδενική υπόθεση (null hypothesis) Η αναμενόμενη τιμή είναι η τιμή για την κάθε κατηγορία εάν η μηδενική υπόθεση είναι αληθινή Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 13

Χ-τετράγωνο έλεγχος (3) Μηδενική υπόθεση: η κανονική κατανομή Υποθέτουμε ότι η σωστή έννοια κατανέμεται κανονικά σε σχέση με τις υπόλοιπες λέξεις της πρότασης Expected i = 1 2 N[ 2 2 dx b π i X b i όπου N το μέγεθος του X, και X b τα διαστήματα ελέγχου 2 e X bi, 1.6, 1.2, 0.8, 0.4, 0.4, 0.8, 1.2, 1.6, Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 14

Χ-τετράγωνο έλεγχος (4) Π.χ. art 1. Art, fine art 2. Art, artistic creation, artistic production 3. Art, artistry, prowess 4. Artwork, art, graphics, nontextual matter Χρησιμοποιώντας τις σχέσεις του Wordnet, εμπλουτίζω κάθε synset και με άλλες λέξεις Μετρώ συχνότητες εμφάνισης στο περιβάλλον του art Υπολογίζω το X 2, και επιλέγω την έννοια με την μικρότερη τιμή Γλωσσική Τεχνολογία, Μάθημα 10 ο, Αποσαφήνιση εννοιών λέξεων 15