ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Ανάκτηση Πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Information Retrieval

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Τι (άλλο) θα δούμε σήμερα;

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

1. Financial New Times Year MAXk {FREQij} D D D D

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Ανάκτηση Πληροφορίας

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εισαγωγή στη Στατιστική

EBSCOhost Research Databases

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Δεδομένων (Information Retrieval)

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Microsoft ACCESS ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ECDL. Περιεχόμενα. Απόκτησε τώρα το δίπλωμα. για να θεωρείσαι Επαγγελματίας! 1 Κατανόηση Βάσεων. 2 Χρήση της Εφαρμογής

Πιθανοκρατικό μοντέλο

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Γ. Πειραματισμός - Βιομετρία

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

Social Web: lesson #4

Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων 1 / 20

Περιεχόμενα 5ης Διάλεξης 1 Ανισότητα Markov 2 Διασπορά 3 Συνδιασπορά 4 Ανισότητα Chebyshev 5 Παραδείγματα Σωτήρης Νικολετσέας, αναπληρωτής καθηγητής 5

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Πιθανότητες και Αρχές Στατιστικής (5η Διάλεξη) Σωτήρης Νικολετσέας, καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαϊκό Ετος

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Αναγνώριση Προτύπων Ι

Κεφ.11: Ευρετήρια και Κατακερματισμός

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Ανάκτηση Πληροφορίας

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

Μαθησιακές δραστηριότητες με υπολογιστή

Πληροφορική 2. Δομές δεδομένων και αρχείων

Η ΚΛΑΣΙΚΗ ΘΕΩΡΗΣΗ ΤΟΥ ΧΩΡΟΥ ΚΑΙ ΤΟΥ ΧΡΟΝΟΥ

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Προγραμματισμός Ηλεκτρονικών Υπολογιστών 1

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Φροντιστήρια Επίγνωση Προτεινόμενα Θέματα Πανελλαδικών ΑΕΠΠ 2015

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Γλώσσες & Τεχνικές 4 ο Εξάμηνο. - Ενότητα 1 - Δημοσθένης Σταμάτης

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Χρήση εναλλακτικών μετρικών για την αποτίμηση της διάδοσης της έρευνας σε επιστημονικά συνέδρια

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

Α1. Στον προγραµµατισµό χρησιµοποιούνται δοµές δεδοµένων. 1. Τι είναι δυναµική δοµή δεδοµένων; Μονάδες 3 2. Τι είναι στατική δοµή δεδοµένων;

Θέματα Συστημάτων Πολυμέσων

ΕΝΟΤΗΤΑ 5 ΜΟΤΙΒΑ ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΥ, ΚΛΑΣΜΑΤΑ ΕΜΒΑΔΟΝ ΚΑΙ ΠΕΡΙΜΕΤΡΟΣ ΟΡΘΟΓΩΝΙΟΥ ΔΕΙΚΤΕΣ ΕΠΙΤΥΧΙΑΣ

ΑΡΧΗ 2ΗΣ ΣΕΛΙΔΑΣ Γ Α... Β

5.9 ΘΕΤΙΚΑ ΟΡΙΣΜΕΝΟΙ ΠΙΝΑΚΕΣ ΚΑΙ ΕΣΩΤΕΡΙΚΟ ΓΙΝΟΜΕΝΟ

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing)

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Θέση και Προσανατολισμός

ΤΕΧΝΙΚΗ ΜΗΧΑΝΙΚΗ Ι ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ- ΥΝΑΜΕΙΣ ΣΤΟ ΕΠΙΠΕ Ο ΚΑΙ ΣΤΟ

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου.

Transcript:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013

Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 4 και 5 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010. Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 1

Ανάκτηση πληροφορίας (ΑΠ) Η ανάκτηση πληροφορίας (information retrieval) ασχολείται με την ανάπτυξη μοντέλων και αλγορίθμων για την ανάκτηση εγγράφων από συλλογές κειμένων Αφορά την δεικτοδότηση και ανάκτηση κειμένων Κύριο μέλημα η ανάκτηση σχετικών εγγράφων σε ένα ερώτημα Αλλά και η ανάκτηση από μεγάλες συλλογές με αποδοτικό τρόπο Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 2

Έχοντας σαν είσοδο: Τυπική εργασία ΑΠ Ένα σώμα κειμένων σε φυσική γλώσσα Ένα ερώτημα χρήστη διατυπωμένο σαν κείμενο Ζητείται να βρεθεί: Ένα ταξινομημένο σύνολο εγγράφων που είναι σχετικά με το ερώτημα Η αναζήτηση εγγράφων στον παγκόσμιο ιστό είναι η πιο διαδεδομένη εφαρμογή ΑΠ Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 3

Τι σημαίνει όμως «σχετικά»; Η σχετικότητα (relevance) είναι συχνά υποκειμενική, και μπορεί να περιλαμβάνει: Ίδιο θέμα Χρονική περίοδο (π.χ. πρόσφατη πληροφορία) Αυθεντικότητα (authoritative) (π.χ. να προέρχεται από έγκυρη/έμπιστη πηγή) Να καλύπτει τους σκοπούς του χρήστη Και την προβλεπόμενη χρήση της πληροφορίας Το κύριο κριτήριο συχνά είναι η κάλυψη της πληροφοριακής ανάγκης του χρήστη Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 4

Βασική προσέγγιση Αναζήτηση λέξεων-κλειδιών (keyword search) Η απλούστερη μορφή σχετικότητας είναι το ερώτημα να εμφανίζεται αυτούσιο στο έγγραφο Μια λιγότερη «αυστηρή» μορφή σχετικότητας είναι οι λέξεις του ερωτήματος να εμφανίζονται συχνά στο έγγραφο Χωρίς να μας ενδιαφέρει η σειρά εμφάνισης Χρησιμοποιώντας σύνολο λέξεων (bag of words) Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 5

Προβλήματα λέξεων-κλειδιών Δεν θα ανακτήσουν έγγραφα που περιέχουν συνώνυμα Εστιατόριο φαγάδικο, σουβλατζίδικο, βρώμικο Γράμμα επιστολή Θα ανακτήσουν άσχετα έγγραφα όταν υπάρχει αμφισημία Τα μήλα φρούτα ή παιδικό παιχνίδι; Ποντίκι τρωκτικό ή εξάρτημα Η/Υ; Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 6

Τεχνικές για «έξυπνη» ΑΠ Αξιοποίηση της σημασίας των χρησιμοποιούμενων λέξεων Αξιοποίηση της σειράς των λέξεων στο ερώτημα Προσαρμογή στις ανάγκες του χρήστη μέσω (ημι)αυτόματης ανάδρασης (feedback) Επέκταση αναζήτησης με σχετικούς όρους Εκτέλεση ορθογραφικού ελέγχου Αξιοποίηση της εγκυρότητας της πηγής Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 7

Τυπική αρχιτεκτονική (1) Διεπαφή χρήστη Ανάγκες χρήστη Λειτουργίες κειμένου Κείμενο Ανάδραση χρήστη Λειτουργίες ερωτήματος Ευρετηρίαση Διαχειριστής Βάσης Ανεστραμμένο ευρετήριο Ερώτημα Αναζήτηση Ευρετήριο Ταξινομημένα έγγραφα Ταξινόμηση Ανακτημένα έγγραφα Βάση κειμένων Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 8

Τυπική αρχιτεκτονική (2) Λειτουργίες κειμένου: κατασκευή λέξεων ευρετηρίου Αναγνώριση λέξεων Απομάκρυνση λέξεων (stop-word removal) Λέξεις που δεν βοηθούν στην διάκριση εγγράφων Εύρεση θεμάτων Ευρετηρίαση: κατασκευή ανεστραμμένου ευρετηρίου λέξεων προς έγγραφα Αντιστοιχεί λέξεις-κλειδιά με έγγραφα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 9

Τυπική αρχιτεκτονική (3) Αναζήτηση: ανακτά έγγραφα που περιέχουν έναν όρο αναζήτησης από το ανεστραμμένο ευρετήριο Ταξινόμηση: απόδοση τιμής σχετικότητας σε έγγραφα (αξιολόγηση), με βάση μια μετρική σχετικότητας Διεπαφή χρήστη: διαχειρίζεται την αλληλεπίδραση με τον χρήστη Δέχεται ερωτήματα και απεικονίζει έγγραφα Διαχειρίζεται την ανάδραση Απεικονίζει τα αποτελέσματα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 10

Τυπική αρχιτεκτονική (4) Λειτουργίες ερωτήματος: μετασχηματίζει το ερώτημα για να βελτιωθεί η ανάκτηση Επέκταση του ερωτήματος με χρήση θησαυρού Μετασχηματισμός του ερωτήματος βάσει ανάδρασης Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 11

Μοντελοποίηση ΑΠ (1) Κάθε έγγραφο αναπαριστάται από ένα σύνολο αντιπροσωπευτικών λέξεων-κλειδιών ή όρων ευρετηρίου Ένας όρος ευρετηρίου είναι μια λέξη του εγγράφου που σχετίζεται με το θέμα του κειμένου Μπορεί να είναι μόνο ουσιαστικά Αν υπάρχει αναγνώριση μερών του λόγου Μικρότερο μέγεθος ευρετηρίου Οι μηχανές αναζήτησης χρησιμοποιούν όλες τις λέξεις Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 12

Μοντελοποίηση ΑΠ (2) Όμως, δεν είναι όλες οι λέξεις το ίδιο χρήσιμες για να αναπαραστήσουν το περιεχόμενο ενός εγγράφου Όροι που εμφανίζονται σπάνια επιτρέπουν την ανάκτηση λιγότερων εγγράφων Η «σημαντικότητα» ενός όρου αναπαριστάται από ένα βάρος (weight) Υποθέτοντας έναν όρο k i, ένα έγγραφο d j, και ένα βάρος w ij σχετιζόμενο με το (k i, dj) Το βάρος w ij ποσοτικοποιεί την σημασία του όρου για την αναπαράσταση των περιεχομένων του εγγράφου Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 13

Μοντέλο Μπουλ (Boole) Απλό μοντέλο βασισμένο στην θεωρία συνόλων Τα ερωτήματα εκφράζονται σαν λογικές εκφράσεις (Boolean expressions) Ακριβής σημασιολογία Καλά ορισμένος φορμαλισμός q = k a (k b k c ) Οι όροι είτε υπάρχουν, ή δεν υπάρχουν Οπότε, w ij 0,1 Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 14

Μοντέλο Μπουλ (2) q = k a (k b k c ) 1,1,1 1,1,0 1,0,0 k a (1,0,0) (1,1,0) (1,1,1) k b k c Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 15

Μειονεκτήματα μοντέλου Μπουλ Ανάκτηση βασισμένη σε δυαδική απόφαση Δεν υπάρχει καν η έννοια του μερικού ταιριάσματος Δεν παρέχεται ταξινόμηση των εγγράφων Δεν υπάρχει καν κλίμακα αξιολόγησης Οι λογικές εκφράσεις είναι «άβολες» για τους χρήστες Συχνά οι λογικές εκφράσεις από τους χρήστες είναι απλοϊκές Με αποτέλεσμα την επιστροφή είτε πολύ λίγων, ή πάρα πολλών εγγράφων για ένα τέτοιο ερώτημα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 16

Διανυσματικό μοντέλο (1) Η χρήση δυαδικών βαρών είναι περιοριστική Μη-δυαδικά βάρη επιτρέπουν μερικό ταίριασμα Τα βάρη των όρων μπορούν να χρησιμοποιηθούν στον υπολογισμό βαθμού ομοιότητας (degree of similarity) μεταξύ ενός ερωτήματος και κάθε εγγράφου Επιτρέπουν ταξινόμηση των εγγράφων Με βάση την σχετικότητα, που προκύπτει από την ομοιότητα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 17

Διανυσματικό μοντέλο (2) Υποθέτοντας ένα ερώτημα q, έναν όρο k i, ένα έγγραφο d j, και ένα βάρος w ij w ij > 0 όταν k i d j w iq 0 συσχετισμένο με το ζεύγος k i, q vector d j = w 1j, w 2j,, w tj vector q = w 1q, w 2q,, w tq Κάθε όρος k i σχετίζεται με ένα μοναδιαίο διάνυσμα vec i Τα μοναδιαία διανύσματα vec i και vec j θεωρούνται ορθογώνια υποθέτουμε ότι οι όροι εμφανίζονται ανεξάρτητα Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 18

Διανυσματικό μοντέλο (3) Τα t μοναδιαία διανύσματα vec i σχηματίζουν μια ορθοκανονική βάση για τον χώρο των t διαστάσεων Σε αυτό τον χώρο, τα ερωτήματα και τα έγγραφα απεικονίζονται σαν διανύσματα βαρών Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 19

Διανυσματικό μοντέλο (4) j d j θ q similarity q, d i = cos θ = vec d j vec q d j q = w ij w iq d j q Έχοντας w ij > 0, w iq 0 0 similarity q, d j 1 Ένα έγγραφο μπορεί να ανακτηθεί ακόμα και αν ταιριάζει μερικώς με τους όρους του ερωτήματος i Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 20

Διανυσματικό μοντέλο (5) similarity q, d i = w ij w iq d j q Πως υπολογίζουμε τα βάρη w ij και w iq ; Ένα καλό βάρος, πρέπει να λαμβάνει υπ όψιν δύο φαινόμενα: Ποσοτικοποίηση των περιεχομένων των εγγράφων (ομοιότητα) Παράγοντας tf (term frequency), συχνότητα εμφάνισης όρου σε ένα έγγραφο Ποσοτικοποίηση του διαχωρισμού εγγράφων (ανομοιότητα) Παράγοντας idf (inverse document frequency), αντίστροφη συχνότητα κειμένου w ij = tf i, j idf i Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 21

Η μετρική TFIDF Το γινόμενο δύο όρων: Συχνότητας εμφάνισης του όρου (term frequency) Πόσες φορές εμφανίζεται ο όρος k i στο κείμενο d j Αντίστροφης συχνότητας κειμένου idf i = log N n i, όπου N ο συνολικός αριθμός κειμένων της συλλογής, και n i ο αριθμός των κειμένων της συλλογής στα οποία εμφανίζεται ο όρος k i Συχνά κανονικοποιούμε το γινόμενο, με το ευκλείδειο μήκος του διανύσματος: w ij = t k=1 tf i, j idf i tf k, j idf k 2 Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 22

Εύρεση συνεκφερόμενων λέξεων Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας

Συνεκφερόμενες λέξεις Συνεκφερόμενες λέξεις ή «χαλαρά συνώνυμα» (collocations): Λέξεις που συνεκφέρονται πολύ συχνά μαζί στον λόγο Παραδοσιακά, η εξαγωγή συνεκφερόμενων λέξεων γίνεται με την λεξικογραφική προσέγγιση Σύμφωνα με τους Benson και Morton δεν μπορούμε να χειριστούμε ξεχωριστά τα συμμετέχοντα μέρη Επομένως η εξαγωγή τους δεν είναι προβλέψιμη, πρέπει να εξάγονται χειρωνακτικά, και να παρατίθενται σε λεξικά Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 24

Ν-γράμματα Η διαθεσιμότητα ηλεκτρονικών σωμάτων κειμένων, εν μέρει οδήγησε σε προσπάθειες αυτόματης εξαγωγής Από τις πρώτες προσπάθειες ήταν η εξέταση της συχνότητας εμφάνισης σε ν-γράμματα Ακολουθίες από ν-λέξεις Υπόθεση: αν δύο ή περισσότερες λέξεις εμφανίζονται συχνά μαζί, αυτές μπορεί να είναι συνεκφερόμενες Δυστυχώς, η επιλογή των πιο συχνών ν-γραμμάτων δεν είναι πάντα σωστή επιλογή of the, in the, to the, κλπ. Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 25

Εφαρμογή κανόνων Μόνο η συχνότητα εμφάνισης ν-γραμμάτων, δεν οδηγεί πάντα σε συνεκφερόμενες λέξεις Φιλτράρισμα ν-γραμμάτων με βάση μέρη του λόγου Απόδοση μερών του λόγου στις λέξεις Επιλογή ν-γραμμάτων με βάσει κανόνες: ΕΟ, ΟΟ, ΕΕΟ, ΕΟΟ (Ε: επίθετο, Ο: ουσιαστικό) Βελτιωμένα αποτελέσματα σε σχέση με την συχνότητα ν-γραμμάτων Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 26

Μέσος και διασπορά Ο μέσος είναι η αριθμητική μέση τιμή των δεδομένων Αν έχουμε παρατηρήσεις x 1, x 2,, x n τότε ο μέσος είναι: mean = x 1 + x 2 + + x n n Η διακύμανση είναι: variance = x 1 x 2 + x 2 x 2 2 + x n x n 1 Η τυπική απόκλιση είναι: s = variance Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 27

Παράδειγμα (1) «κτύπησε», «πόρτα» Κτύπησε την πόρτα του Κτύπησε δυνατά την πόρτα του Κτύπησε την σιδερένια πόρτα του Κτύπησε την σιδερένια και βαριά πόρτα του Ο αριθμός μεταξύ των λέξεων δεν είναι σταθερός Η απόσταση μεταξύ «κτύπησε» και «πόρτα» μεταβάλλεται ανάλογα την πρόταση mean = 1 + 2 + 2 + 4 4 = 2.25 Αν η λέξη «πόρτα» εμφανιζόταν πριν το «κτύπησε», θα βάζαμε αρνητικό αριθμό Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 28

Παράδειγμα (2) Η διακύμανση εκτιμά πόσο πολύ η κάθε απόσταση αποκλίνει από την μέση τιμή Εκφράζει την απόκλιση της απόστασης μεταξύ των λέξεων variance = 1 2.25 2 + 2 2.25 2 + 2 2.25 2 + 4 2.25 2 3 s = 1.58 = 1.26 Αναζητούμε ζεύγη με χαμηλή διακύμανση = 1.58 Που σημαίνει ότι οι λέξεις εμφανίζονται περίπου στην ίδια μεταξύ τους απόσταση Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 29

Χ-τετράγωνο έλεγχος (1) Χ-τετράγωνο έλεγχος του Pearson (1900) Συγκρίνει τους παρατηρηθέντες και αναμενόμενους αριθμούς, όταν οι δυνατές εκβάσεις ενός πειράματος υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες: X 2 observed expected 2 = expected Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 30

Χ-τετράγωνο έλεγχος (2) Οι παρατηρηθείσες και αναμενόμενες τιμές μπορούν να εξηγηθούν στο πλαίσιο του hypothesis testing Έχοντας τα παρατηρηθέντα δεδομένα που υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες Μπορούμε να διατυπώσουμε μια μηδενική υπόθεση (null hypothesis) Η αναμενόμενη τιμή είναι η τιμή για την κάθε κατηγορία εάν η μηδενική υπόθεση είναι αληθινή Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 31

Παράδειγμα (1) Δίγραμμα: (ισχυρός, άνδρας) Ορίζουμε ένα παράθυρο λ λέξεων (π.χ. 2) Μετράμε την συχνότητα εμφάνισης του διγράμματος στα κείμενα Έστω: 10 εμφανίσεις του (ισχυρός, άνδρας) 1000 διγράμματα όπου η 2 η λέξη είναι άνδρας, αλλά η 1 η δεν είναι ισχυρός 500 διγράμματα όπου η 1 η λέξη είναι ισχυρός, αλλά η 2 η δεν είναι άνδρας 1500000 διγράμματα που δεν περιέχουν καμιά από τις 2 λέξεις στην κατάλληλη θέση δεδομένου του παραθύρου Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 32

Παράδειγμα (2) Με τις συχνότητες εμφάνισης, μπορούμε να φτιάξουμε τον πίνακα συνάφειας (contingency table) w 1 =ισχυρός w 1 ισχυρός w 2 =άνδρας 10 (ισχυρός άνδρας) 1000 (σεμνός άνδρας) w 2 άνδρας 500 (ισχυρός άνεμος) 1500000 (ασθενής ήχος) Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 33

Παράδειγμα (3) Η μηδενική υπόθεση είναι ότι οι εμφανίσεις του ισχυρός και άνδρας είναι τυχαίες: P ισχυρός = 510/1501510 P Φνδρας = 1010/1501510 P(ισχυρός, άνδρας)=p(ισχυρός)*p(άνδρας)= (510/1,501,510)*(1010/1,501,510)=1013 10 5 X 2 = observed expected 2 expected Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 34

Παράδειγμα (4) Αν ο πίνακας είναι 2 2, υπάρχει απλούστερος τρόπος υπολογισμού: w 1 = stem 1 w 1 stem 1 w 2 = stem 2 f 1 f 2 w 2 stem 2 f 3 f 4 X 2 = N f 1 f 4 f 2 f 3 2 f 1 + f 2 f 1 + f 3 f 2 + f 4 f 3 + f 4, N = f 1 + f 2 + f 3 + f 4 Γλωσσική Τεχνολογία, Μάθημα 7 ο, Ανάκτηση πληροφορίας 35