Ανάκτηση Πληροφορίας

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Ανάκτηση Πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

1. Financial New Times Year MAXk {FREQij} D D D D

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Part C. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete PART (C): CS-463,Spring 05 PART (A)

Τι (άλλο) θα δούμε σήμερα;

Information Retrieval

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Πιθανοκρατικό μοντέλο

Μοντέλα Ανάκτησης IΙ (Retrieval Models)

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Μοντέλα Ανάκτησης Ι (Retrieval Models)

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Τεχνολογία Παιγνίων. Τεχνολογία Παιγνίων. Εισαγωγή. Διάνυσμα και βαθμωτά μεγέθη

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Εξεταστέα ύλη Άλγεβρας Α Λυκείου Σχολικό έτος Εξεταστέα ύλη Γεωμετρίας Α Λυκείου Σχολικό έτος

Εφαρμοσμένα Μαθηματικά ΙΙ

Μηχανική Πετρωμάτων Τάσεις

ETY-202 ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ ETY-202 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ. Στέλιος Τζωρτζάκης 1/11/2013

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Ανάκτηση Πληροφορίας

Part B. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

a ) a ) = lim f( a + h u ) f( a ) = lim (2) h = 0 f( a + h u ) f( a ) hdf( a )( u ) lim = 0 lim u ) f( a + h lim = 0 u ) = 0 lim = Df( a )( u ) lim

1.1 ΟΡΙΣΜΟΙ, ΣΤΟΙΧΕΙΩΔΗΣ ΠΡΟΣΕΓΓΙΣΗ

Κεφάλαιο 2: Διανυσματικός λογισμός συστήματα αναφοράς

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Μαθηµατικά Β Λυκείου Θετικής - τεχνολογικής κατεύθυνσης. Διανύσματα ΚΑΤΗΓΟΡΙΑ 8. Εσωτερικό γινόµενο διανυσµάτων. Ασκήσεις προς λύση 1-50

ΣΤΟΙΧΕΙΑ ΔΙΑΝΥΣΜΑΤΙΚΟΥ ΛΟΓΙΣΜΟΥ

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Πολλαπλασιασμός αριθμού με διάνυσμα

d k 10 k + d k 1 10 k d d = k i=0 d i 10 i.

Ανάκτηση Πληροφορίας

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

ΔΙΔΑΚΤΕΑ ΕΞΕΤΑΣΤΕΑ ΥΛΗ: 1. ΑΛΓΕΒΡΑΣ ΚΑΙ ΓΕΩΜΕΤΡΙΑΣ Β ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ Γ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ 2

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 3: Παίγνια με περισσότερους παίκτες και μέθοδοι απλοποίησης παιγνίων. Ε. Μαρκάκης. Επικ.

Μηχανολογικό Σχέδιο με τη Βοήθεια Υπολογιστή. Αφφινικοί Μετασχηματισμοί Αναπαράσταση Γεωμετρικών Μορφών

Τράπεζα Θεμάτων Διαβαθμισμένης Δυσκολίας-Μαθηματικά Ομάδας Προσανατολισμού Θετικών Σπουδών ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Β Λ Υ Κ Ε Ι Ο Υ

Στοχαστικές Στρατηγικές. διαδρομής (1)

Μοντέλο φωτισμού Phong

Μαθηματική Εισαγωγή Συναρτήσεις

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αναγνώριση Προτύπων Ι

Μηχανική Μάθηση: γιατί;

Standard Template Library (STL) C++ library

Επανάληψη Μιγαδικών Αριθμών

ΜΕΘΟΔΙΚΗ ΕΠΑΝΑΛΗΨΗ ΜΑΘΗΜΑΤΙΚΑ Β ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

Μαθηματική Εισαγωγή Συναρτήσεις

ΠΑΡΑΡΤΗΜΑ Γ. Επικαμπύλια και Επιφανειακά Ολοκληρώματα. Γ.1 Επικαμπύλιο Ολοκλήρωμα

ΤΕΧΝΙΚΗ ΜΗΧΑΝΙΚΗ Ι ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ- ΥΝΑΜΕΙΣ ΣΤΟ ΕΠΙΠΕ Ο ΚΑΙ ΣΤΟ

ΕΜΒΟΛΙΜΗ ΠΑΡΑΔΟΣΗ ΜΑΘΗΜΑΤΙΚΩΝ. Μερικές βασικές έννοιες διανυσματικού λογισμού

Γραφικά Υπολογιστών: Βασικά Μαθηματικά

Διάνυσμα: έχει μέτρο, διεύθυνση και φορά

,..., v n. W πεπερασμένα παραγόμενοι και dimv. Τα ακόλουθα είναι ισοδύναμα f είναι ισομορφιμός. f είναι 1-1. f είναι επί.

Φυσική για Μηχανικούς

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Η μέθοδος του κινουμένου τριάκμου

ΣΥΝΤΕΤΑΓΜΕΝΕΣ ΙΑΝΥΣΜΑΤΟΣ

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

1.5 ΕΣΩΤΕΡΙΚΟ ΓΙΝΟΜΕΝΟ ΔΙΑΝΥΣΜΑΤΩΝ

Σφαίρα σε ράγες: Η συνάρτηση Lagrange. Ν. Παναγιωτίδης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

4 η ΕΝΟΤΗΤΑ ΜΕΤΑΕΥΡΕΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΕΠΙΛΥΣΗΣ ΠΡΟΒΛΗΜΑΤΩΝ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

1.2 Συντεταγμένες στο Επίπεδο

ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ

Θέση και Προσανατολισμός

Ανάκτηση Πληροφορίας Εισαγωγή

Μιγαδική ανάλυση Μέρος Α Πρόχειρες σημειώσεις 1. Μιγαδικοί αριθμοί. ΤΕΤΥ Εφαρμοσμένα Μαθηματικά Μιγαδική Ανάλυση Α 1

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (1) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΛΕΥΘΕΡΕΣ ΤΑΛΑΝΤΩΣΕΙΣ ΠΟΛΥΒΑΘΜΙΩΝ ΣΥΣΤΗΜΑΤΩΝ 73

Περιεχόμενα. Κεφάλαιο 1 ΣΥΣΤΗΜΑΤΑ ΣΥΝΤΕΤΑΓΜΕΝΩΝ ΣΕ ΜΙΑ ΕΥΘΕΙΑ Οι συντεταγμένες ενός σημείου Απόλυτη τιμή...14

Transcript:

Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing Flat Structure Guided Hypertext Συνολοθεωρητικά Fuzzy Extended Boolean Αλγεβρικά Generalized Vector Latent Semantic Neural Networks Πιθανοτικά Inference Network Belief Network Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 2 1

Χαρακτηριστικά Μοντέλων IR Ένα μοντέλο IR χαρακτηρίζεται από: D, σύνολο λογικών όψεων κειμένων Q, σύνολο λογικών όψεων ερωτημάτων F, πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους R(q,d), συνάρτηση βαθμολόγησης Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 3 Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 4 2

Παράδειγμα Κείμενο 1 Κείμενο 2 Κείμενο 3 η γεωργική επανάσταση η βιομηχανική επανάσταση η επανάσταση υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί; Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 5 Παρατήρηση Όλες οι λέξεις κλειδιά δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω ki μία λέξη κλειδί και dj ένα κείμενο. Το βάρος ορίζεται ως w(ki,dj) >= 0 (ή απλούστερα wij) και δηλώνει το πόσο σημαντική είναι η λέξη κλειδί ki σε σχέση με το κείμενο dj. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 6 3

Ορισμός Έστω t αριθμός των keywords και K={k1,,kt} το σύνολο των keywords. Εάν το keyword ki δεν εμφανίζεται στο κείμενο dj τότε w(ki,dj)=0. Διαφορετικά, w(ki,dj) > 0. Άρα σε κάθε κείμενο dj αντιστοιχεί ένα διάνυσμα βαρών (w1,j, w2,j,, wt,j). Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 7 Κλασικά Μοντέλα IR Κάθε κείμενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων (keywords). Ένα keyword είναι χρήσιμο για να θυμόμαστε το βασικό θέμα του κειμένου. Συνήθως τα keywords είναι ουσιαστικά, τα οποία από μόνα τους έχουν νόημα. Ωστόσο, οι μηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειμένου είναι keywords (full text representation) Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 8 4

Κλασικά Μοντέλα IR ki ένα keyword (index term) dj ένα κείμενο t συνολικός αριθμός keywords K = {k1, k2,, kt} σύνολο keywords wij >= 0 βάρος μεταξύ ki, dj wij = 0 το ki δε βρίσκεται στο κείμενο dj vec(dj) = (w1j, w2j,, wtj) διάνυσμα που σχετίζεται με το κείμενο dj gi(vec(dj)) = wij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με τα ki και dj Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 9 Boolean Μοντέλο Απλό, βασίζεται στη Θεωρία Συνόλων Διατύπωση ερωτημάτων ως λογικές εκφράσεις ακριβής σημαντική (exact semantics) απλός φορμαλισμός q = ka (kb kc) To keyword είναι είτε παρόν είτε απόν wij ε {0,1} Για παράδειγμα q = ka (kb kc) vec(qdnf) = (1,1,1) (1,1,0) (1,0,0) vec(qcc) = (1,1,0) ένα conjunctive component Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 10 5

Boolean Μοντέλο q = ka (kb kc) Ka (1,0,0) (1,1,0) (1,1,1) Kb sim(q,dj) = 1 if vec(qcc) (vec(qcc) ε vec(qdnf)) ( ki, gi(vec(dj)) = gi(vec(qcc))) Kc 0 otherwise Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 11 Μειονεκτήματα Boolean Μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching) Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 12 6

Μέθοδοι Υπολογισμού Ομοιότητας Μέθοδοι υπολογισμού ομοιότητας: μετρούν το βαθμό ομοιότητας μεταξύ ενός ερωτήματος και των εγγράφων. Ερώτημα Ομοιότητα Έγγραφα Σημειώστε τη διαφορά με τις μεθόδους που υποστηρίζουν μόνο επακριβή αναζήτηση (exact match). Για παράδειγμα, στο Boolean μοντέλο ένα κείμενο χαρακτηρίζεται είτε σχετικό είτε άσχετο ως προς το ερώτημα. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 13 Χρήση Καταλόγων Ερώτημα Κατάλογος Έγγραφα Μηχανισμός υπολογισμού ομοιότητας μεταξύ ερωτήματος και κειμένων της συλλογής. Σύνολο κειμένων με σειρά βαθμού ομοιότητας Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 14 7

Το Βασικό Πρόβλημα Πρόβλημα: Πόσο μοιάζουν δύο έγγραφα; Ιδέα: Όσο περισσότερες κοινές λέξεις έχουν δύο κείμενα, τόσο περισσότερο μοιάζουν. Παράδειγμα: Έστω τα ακόλουθα έγγραφα. Πόσο μοιάζουν μεταξύ τους; d 1 d 2 d 3 ant ant bee dog bee dog hog dog ant dog cat gnu dog eel fox Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 15 Διανυσματικό Μοντέλο: δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο dj αναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). w ij = 1 w ij = 0 αν ο i-οστός όρος εμφανίζεται στο dj διαφορετικά Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 16 8

Διανυσματικό Μοντέλο: δυαδικά βάρη t 3 διάνυσμα εγγράφου d 1 w 31 t 2 w 11 w 21 t 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 17 Διανυσματικό Μοντέλο: δυαδικά βάρη document text terms d 1 ant ant bee ant bee d 2 dog bee dog hog dog ant dog ant bee dog hog d 3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog d 1 1 1 d 2 1 1 1 1 d 3 1 1 1 1 1 3 διανύσματα 8 διαστάσεις w ij = 1 αν το dj περιέχει τον i-οστό όρο Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 18 9

Ομοιότητα Εγγράφων Η ομοιότητα μεταξύ δύο εγγράφων υπολογίζεται με βάση τη γωνία που σχηματίζεται μεταξύ των δύο αντίστοιχων διανυσμάτων. Πιο συγκεκριμένα, χρησιμοποιείται το συνημίτονο της γωνίας θ. t 3 θ d 1 d 2 t 2 t 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 19 Μαθηματικές Έννοιες x = (x 1, x 2, x 3,..., x n ) διάνυσμα στο χώρο των n διαστάσεων Μέτρο του x δίνεται με βάση το Πυθαγόρειο θεώρημα x 2 = x 12 + x 22 + x 32 +... + x n 2 Αν x 1 και x 2 είναι διανύσματα: Εσωτερικό Γινόμενο (dot product) δίνεται από: x 1.x 2 = x 11 x 21 + x 12 x 22 + x 13 x 23 +... + x 1n x 2n Συνημίτονο γωνίας μεταξύ των διανυσμάτων x 1 and x 2: x cos (θ) = 1.x 2 x 1 x 2 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 20 10

Παράδειγμα: δυαδικά βάρη ant bee cat dog eel fox gnu hog length d 1 1 1 2 d 2 1 1 1 1 4 d 3 1 1 1 1 1 5 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 21 Παράδειγμα: δυαδικά βάρη Πίνακας ομοιότητα εγγράφων d 1 d 2 d 3 d 1 1 0.71 0 d 2 0.71 1 0.22 d 3 0 0.22 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 22 11

Ομοιότητα Ερωτήματος-Εγγράφου t 3 q d cos(θ) is used as a measure of similarity θ t 2 t 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 23 Ομοιότητα Ερωτήματος-Εγγράφου query q ant dog document text terms d 1 ant ant bee ant bee d 2 dog bee dog hog dog ant dog ant bee dog hog d 3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog q 1 1 d 1 1 1 d 2 1 1 1 1 d 3 1 1 1 1 1 Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 24 12

Ομοιότητα Ερωτήματος-Εγγράφου d 1 d 2 d 3 q 1/2 1/ 2 1/ 10 0.5 0.71 0.32 Με βάση το ερώτημα και τα έγγραφα του παραδείγματος το έγγραφο που χαρακτηρίζεται περισσότερο σχετικό ως προς q είναι το d2, μετά το d1 και τέλος το d3. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 25 Χρήση του Διανυσματικού Μοντέλου Ερώτημα με κατώφλι (περιοχής) Για το ερώτημα q το σύστημα επιστρέφει όλα τα έγγραφα που έχουν βαθμό ομοιότητας μεγαλύτερο από κάποιο κατώφλι (π.χ., > 0.6). Ερώτημα top-k Για το ερώτημα q το σύστημα επιστρέφει τα k έγγραφα που έχουν το μεγαλύτερο βαθμό ομοιότητας ως προς το q. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 26 13

Γενίκευση: μη δυαδικά βάρη Το Διανυσματικό Μοντέλο βελτιώνεται με την εισαγωγή επιπλέον πληροφορίας για τον προσδιορισμό των βαρών wij. Μερικές από τις πληροφορίες αυτές είναι οι εξής: Το πλήθος των εγγράφων που περιέχουν τον όρο, Πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο, Το μήκος των εγγράφων. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 27 Διανυσματικό Μοντέλο: μη δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο dj αναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). w ij > 0 w ij = 0 αν ο i-οστός όρος εμφανίζεται στο dj διαφορετικά Η τιμή w ij ορίζεται ως το βάρος του i-οστού όρου στο j-οστό έγγραφο. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 28 14

Προσδιορισμός Βαρών Η γενική μορφή προσδιορισμού των βαρών wij είναι: wij = TFij x IDFi Όπου TFij είναι ένας παράγοντας που εξαρτάται από τη συχνότητα εμφάνισης του i-οστού όρου στο j-οστό έγγραφο. Ο παράγοντας IDFi εξαρτάται από το πλήθος των εγγράφων που περιέχουν τον όρο ti. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 29 Προσδιορισμός Βαρών Στη βιβλιογραφία έχουν προταθεί διάφοροι μαθηματικοί τύποι υπολογισμού των ποσοτήτων TF και IDF (και κατά συνέπεια των βαρών wij). Έστω, N συνολικός αριθμός κειμένων ni αριθμός εγγράφων που περιέχουν τον όρο ti freq(i,j) συχνότητα εμφάνισης του όρου ti στο κείμενο dj Ο κανονικοποιημένος παράγοντας μπορεί να υπολογιστεί ως: TFij = freq(i,j) / maxl(freq(l,j)) Το μέγιστο υπολογίζεται από όλους τους όρους που περιέχονται στο dj O παράγοντας IDFi μπορεί να υπολογιστεί ως: IDFi = log (N/ni) Ο λογάριθμος χρησιμοποιείται για να γίνουν οι τιμές συγκρίσιμες. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 30 15

Διανυσματικό Μοντέλο Πλεονεκτήματα: Η χρήση βαρών βελτιώνει την ποιότητα του αποτελέσματος Η μερική ταύτιση επιτρέπει την ανάκτηση κειμένων τα οποία προσεγγίζουν τη συνθήκη της ερώτησης. Η χρήση του συνημιτόνου (cosine ranking formula) ταξινομεί τα κείμενα με βάση την ομοιότητά τους ως προς το ερώτημα. Μειονεκτήματα: Το μοντέλο υποθέτει ότι οι όροι είναι ανεξάρτητοι μεταξύ τους, κάτι που απλοποιεί την κατάσταση, όμως δεν ισχύει γενικά. Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 31 16