Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1
Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Πως βλέπουμε ένα έγγραφο; Πως βλέπουμε ένα έγγραφο; Ως έχει (full text); Αγνοώντας λέξεις που δεν φέρουν νόημα (π.χ. τα άρθρα) ; Ως σάκο (bag) όρων ευρετηρίου (bag of index terms), δηλαδή αγνοώντας τη σειρά με την οποία εμφανίζονται οι λέξεις στο κείμενο; Ως σύνολο όρων ευρετηρίου (set of Index terms) Ως δομημένο έγγραφο (π.χ. hypertext, XML) Η απάντηση στο παραπάνω ερώτημα θα καθορίσει τη μορφή του ευρετηρίου που πρέπει να κατασκευάσουμε. Η απάντηση στο παραπάνω ερώτημα είναι συνυφασμένη και με το μοντέλο ανάκτησης που πρόκειται χρησιμοποιήσουμε. 4
Μοντέλα Ανάκτησης Ένα μοντέλο ανάκτησης καθορίζει τις λεπτομέρειες για: Την αναπαράσταση των αντικειμένων πληροφορίας (εγγράφων) Την αναπαράσταση των ερωτημάτων/επερωτήσεων (queries) Την λειτουργία της ανάκτησης Καθορίζει την έννοια και την σημασία της σχετικότητας/συνάφειας (relevance) Μπορεί να είναι δίτιμη (π.χ. {1,0}) ή συνεχής (π.χ. [0,1]) 5
Τυπικός Ορισμός Μοντέλου IR Ένα μοντέλο IR καθορίζεται από: D (documents) σύνολο λογικών όψεων (αναπαραστάσεων) κειμένων Q (queries) σύνολο λογικών όψεων ερωτημάτων F (framework) πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους R(q,d) (ranking function) Συνάρτηση βαθμολόγησης Αντιστοιχίζει ένα πραγματικό αριθμό με ένα ερώτημα και ένα κείμενο 6
Τυπικός Ορισμός Μοντέλου IR 7
Ταξινόμηση Μοντέλων IR 8
Συσχέτιση Μοντέλων, Όψεων, Διαδικασιών 9
Boolean Μοντέλο - Ορισμοί Στηρίζεται στη θεωρία συνόλων και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός σε σχέση με άλλα μοντέλα. Έγγραφο = σύνολο λέξεων κλειδιών (keywords) Επερώτηση = Boolean έκφραση λέξεων κλειδιών (AND,OR, NOT, παρενθέσεις) Παράδειγμα επερωτήσεων: (( Crete AND Greece) OR (Oia AND Santorini)) AND Hotel AND-NOT Hilton (( Crete & Greece) (Oia & Santorini)) & Hotel &! Hilton Απάντηση= σύνολο εγγράφων απουσία διάταξης! 10
Όροι Δεικτοδότησης (Index Terms) Χρησιμοποιούνται για την αναπαράσταση των κειμένων. Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Πρέπει να είναι αντιπροσωπευτικοί για τη σημασιολογία του κειμένου. Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Κυρίως, είναι ουσιαστικά. Επίθετα, επιρρήματα κ.τ.λ. είναι λιγότερο χρήσιμα. 11
Παράδειγμα Κείμενο 1 Κείμενο 2 Κείμενο 3 η γεωργική επανάσταση η βιομηχανική επανάσταση η επανάσταση της υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα 3 κείμενα δημιουργεί πρόβλημα. Γιατί; 12
Επιλογή Όρων Δεικτοδότησης Δεν είναι χρήσιμοι όλοι οι όροι που περιλαμβάνονται σε ένα κείμενο! Δεδομένης μιας συλλογής 100.000 κειμένων: ένας όρος που περιλαμβάνεται σε όλα τα κείμενα είναι άχρηστος! ένας όρος που περιλαμβάνεται μόνο σε 5 κείμενα είναι πολύ χρήσιμος! Σε κάθε όρο δεικτοδότησης ανατίθεται ένα βάρος που εκφράζει τη χρησιμότητά του. 13
Ορισμός Έστω k i μία λέξη κλειδί και d j ένα κείμενο. Το βάρος ορίζεται ως: w(k i,d j ) >= 0 και δηλώνει το πόσο σημαντικός είναι ο όρος σε σχέση με το κείμενο. Έστω K={k 1,,k t } το σύνολο των index terms. Εάν το keyword k i δεν εμφανίζεται στο κείμενο d j, τότε w(k i,d j )=0. Διαφορετικά, w(k i,d j ) > 0. Άρα σε κάθε κείμενο d j, αντιστοιχεί ένα διάνυσμα βαρών: (w 1,j, w 2,j,, w t,j ). 14
Παράσταση εγγράφων κατά Boolean Model 15
Boolean Μοντέλο (Formal ορισμός) K={k 1,,k t }: σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ), όπου: w i,j = 1, αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς w i,j =0) Μια επερώτηση q είναι μια λογική έκφραση στο Κ, π.χ.: q = k1 and ( k2 or not k3)) δηλαδή q = k1 ( k2 k3)) q DNF = (k1 k2 k3) (k1 k2 k3) (k1 k2 k3) q DNF = (1,1,1) (1,1,0) (1,0,0) R(d,q) = True, αν υπάρχει συζευκτική συνιστώσα του q με λέξεις των οποίων τα βάρη είναι τα ίδια με αυτά των αντίστοιχων λέξεων του εγγράφου d False, αλλιώς. 16
Ισοδύναμος ορισμός Αποτίμηση επερωτήσεων (με χρήση λογικής) ένα κείμενο d είναι μια σύζευξη όρων, όπου όρος είναι μια λέξη σε θετική ή αρνητική μορφή σε θετική αν εμφανίζεται στο κείμενο, αλλιώς σε αρνητική. μια επερώτηση q είναι μια οποιαδήποτε λογική έκφραση R(d,q)=True, if and only if d = q δηλαδή αν κάθε ερμηνεία που αληθεύει το d, αληθεύει και το q 17
Σύνοψη Boolean Μοντέλου k i ένα keyword (index term) d j ένα κείμενο t ο συνολικός αριθμός keywords K = {k 1, k 2,, k t } σύνολο keywords w ij >= 0 βάρος μεταξύ k i, d j w ij = 0 το k i δε βρίσκεται στο κείμενο d j vec(d j ) = (w 1j, w 2j,, w tj ) διάνυσμα που σχετίζεται με το κείμενο d j g i (vec(d j )) = w ij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με τα k i και d j 18
Σύνοψη Boolean Μοντέλου Απλό, βασίζεται στη Θεωρία Συνόλων. Διατύπωση ερωτημάτων ως λογικές εκφράσεις ακριβής σημασιολογία (exact semantics) απλός φορμαλισμός q = Ka ( Kb Kc) To keyword είναι είτε παρόν, είτε όχι: Για παράδειγμα: = q Ka Kb Σε κανονική διαζευκτική μορφή (DNF): vec ( Kc) ( ) = ( 1, 11, ) ( 11,, 0) ( 1, 0, 0) q dnf w ij { 0, 1} 19
Boolean Μοντέλο Για παράδειγμα q = (t1 t2) t3 q dnf = (1,1,1) (0,1,1) (1,0,1) (disjunctive normal form) conjunctive components (qcc) 20
Boolean Μοντέλο Πίνακας αληθείας του ερωτήματος (t1 t2) t3 21
Boolean Μοντέλο q = (t1 t2) t3 t1 t2 (1, 1, 0) (1, 0, 0) (0, 1, 0) (1, 1, 1) (1, 0, 1) (0, 1, 1) (0, 0, 1) (0, 0, 0) t3 22
Παράδειγμα Boolean Μοντέλου D1 = computer information retrieval D2 = computer retrieval D3 = information D4 = computer information Q1 = information retrieval Q2 = information computer 23
Παράδειγμα Boolean Μοντέλου 2 Ποια έργα του Shakespeare περιέχουν τις λέξεις Βρούτος και Καίσαρας, αλλά όχι Καλπουρνία ; Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 «mercy» 1 0 1 1 1 1 «worser» 1 0 1 1 1 0 24
Παράδειγμα Boolean Μοντέλου 2 Απάντηση ερωτήματος: 110100 AND 110111 AND 101111 = 100100 Διάνυσμα λέξης «Brutus» Διάνυσμα λέξης «Caesar» Ανεστραμμένο Διάνυσμα λέξης «Calpurnia» Άρα, το 1 ο και το 4 ο έργο ταιριάζουν με την ερώτηση. 25
Οι αδυναμίες του Boolean μοντέλου Παράδειγμα: Answer( Cheap Tickets Heraklion ) = 1 Answer( Cheap Tickets) = 1000 Answer( Cheap Heraklion) = 1000 Answer( Tickets Heraklion ) = 1000 Άρα είτε παίρνουμε μία απάντηση με 1 μόνο έγγραφο, είτε με ένα σύνολο 1000 εγγράφων. :-( 26
Οι αδυναμίες του Boolean μοντέλου Άκαμπτο: AND σημαίνει όλα, OR σημαίνει οποιοδήποτε! Δυσκολίες: Ο έλεγχος του μεγέθους της απάντησης All matched documents will be returned Ικανοποιητική ακρίβεια (precision) συχνά σημαίνει απαράδεκτη ανάκληση (recall). Η διατύπωση των επερωτήσεων είναι δύσκολη για πολλούς χρήστες. 27
Οι αδυναμίες του Boolean μοντέλου Δυσκολίες: Η έκφραση σύνθετων πληροφοριακών αναγκών είναι δύσκολη. Δεν μας λέει πώς να διατάξουμε την απάντηση. All matched documents logically satisfy the query Τα μοντέλα κατάταξης (ranking models) έχουν αποδειχτεί καλύτερα στην πράξη. Η υποστήριξη ανάδρασης συνάφειας δεν είναι εύκολη. If a document is identified by the user as relevant or irrelevant, how should the query by modified? 28
Οι αδυναμίες του Boolean μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching). Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα!! 29
Τα θετικά του Boolean μοντέλου Προβλέψιμο, εύκολα εξηγήσιμο. Αποτελεσματικό, όταν γνωρίζεις ακριβώς τι ψάχνεις και τι περιέχει η συλλογή. Αποδοτική υλοποίηση. 30
Ερωτήσεις - Απορίες 31