Ανάκτηση Πληροφορίας

Σχετικά έγγραφα
Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

Λογική. Δημήτρης Πλεξουσάκης. Ασκήσεις 2ου Φροντιστηρίου: Προτασιακός Λογισμός: Κανονικές Μορφές, Απλός Αλγόριθμος Μετατροπής σε CNF/DNF, Άρνηση

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Ηλεκτρονικοί Υπολογιστές II

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Ηλεκτρονικοί Υπολογιστές I

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Προγραμματισμός Ηλεκτρονικών Υπολογιστών 1

Λογική Δημήτρης Πλεξουσάκης Ασκήσεις στον Κατηγορηματικό Λογισμό Τμήμα Επιστήμης Υπολογιστών

Εφαρμογές Συστημάτων Γεωγραφικών Πληροφοριών

Ανάκτηση Πληροφορίας

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Ανάκτηση Πληροφορίας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Συστήματα Αυτομάτου Ελέγχου. Ενότητα Α: Γραμμικά Συστήματα

Πληροφορική ΙΙ Θεματική Ενότητα 5

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 9: Προτασιακή λογική. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Εισαγωγή στην πληροφορική

Ανάκτηση Πληροφορίας

Γραφικά με υπολογιστές. Διδάσκων: Φοίβος Μυλωνάς. Διαλέξεις #11-#12

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Ανάκτηση Πληροφορίας

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Ανάκτηση Πληροφορίας

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕ ΧΡΗΣΗ Η/Υ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Αυτοματοποιημένη χαρτογραφία

Λογική. Φροντιστήριο 3: Συνεπαγωγή/Ισοδυναμία, Ταυτολογίες/Αντινομίες, Πλήρης Αλγόριθμος Μετατροπής σε CNF

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 5: SQL (Απλή SELECT) Ευαγγελίδης Γεώργιος. Τμήμα Εφαρμοσμένης Πληροφορικής ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Μοντελοποίηση Λογικών Κυκλωμάτων

Τεχνητή Νοημοσύνη Ι. Ενότητα 7:Προτασιακή Λογική. Πέππας Παύλος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών

Ηλεκτρονικοί Υπολογιστές II

Θεωρία Πιθανοτήτων & Στατιστική

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 8: SQL (Πρακτική Εξάσκηση 2) Ευαγγελίδης Γεώργιος. Τμήμα Εφαρμοσμένης Πληροφορικής ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Ενότητα 1: Εισαγωγή. Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Βιομηχανικοί Ελεγκτές

Προγραμματισμός Ηλεκτρονικών Υπολογιστών 1

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανυσματικοί Χώροι (1) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 7α: SQL (NULL, Διαίρεση) Ευαγγελίδης Γεώργιος. Τμήμα Εφαρμοσμένης Πληροφορικής ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Λογισμός 3. Ενότητα 19: Θεώρημα Πεπλεγμένων (γενική μορφή) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Μαθηματικά. Ενότητα 6: Ασκήσεις Ορίων Συνάρτησης. Σαριαννίδης Νικόλαος Τμήμα Λογιστικής και Χρηματοοικονομικής

Information Retrieval

Λογική Δημήτρης Πλεξουσάκης Φροντιστήριο 6: Προτασιακός Λογισμός: Μέθοδος Επίλυσης Τμήμα Επιστήμης Υπολογιστών

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 7β: SQL (Πρακτική Εξάσκηση 1) Ευαγγελίδης Γεώργιος. Τμήμα Εφαρμοσμένης Πληροφορικής ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Άλγεβρα των Πινάκων (2) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ανάκτηση Πληροφορίας

Εισαγωγή στις Βάσεις Δεδομζνων II

ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΕΠΙΔΟΣΗΣ ΤΩΝ ΜΑΘΗΤΩΝ ΚΕΦΑΛΑΙΟ 4: Παιδαγωγική και κοινωνική υπόσταση της αξιολόγησης

τατιςτική ςτην Εκπαίδευςη II

Πληροφοριακά Συστήματα & Περιβάλλον Ασκήσεις

Θεωρία Πιθανοτήτων & Στατιστική

Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών

Σχεδίαση με Ηλεκτρονικούς Υπολογιστές

Διδακτική Μεθοδολογία του μαθήματος της Ιστορίας στη δευτεροβάθμια εκπαίδευση (με εφαρμογές)

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Λογική Δημήτρης Πλεξουσάκης Φροντιστήριο 5: Προτασιακός Λογισμός: Κατασκευή Μοντέλων Τμήμα Επιστήμης Υπολογιστών

Ανάκτηση Πληροφορίας

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Δομημένος Προγραμματισμός

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης

ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΟΙΚΟΝΟΜΟΛΟΓΟΥΣ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Μαθηματικά. Ενότητα 9: Όριο Συνάρτησης στο Διηνεκές. Σαριαννίδης Νικόλαος Τμήμα Λογιστικής και Χρηματοοικονομικής

Εισαγωγή στην Πληροφορική & τον Προγραμματισμό

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΠΛΗΡΟΦΟΡΙΚΗ Ι Ενότητα 2: Έλεγχος συνθηκών

Λογιστικές Εφαρμογές Εργαστήριο

Τι (άλλο) θα δούμε σήμερα;

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Υπολογιστικά & Διακριτά Μαθηματικά

Ηλεκτρονικοί Υπολογιστές II

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Εισαγωγή στην Επιστήμη και Τεχνολογία των Υπηρεσιών

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

ΜΑΘΗΜΑ: Ηλεκτρονικά Ισχύος

Μεταγλωττιστές. Ενότητα 4: Τυπικές γλώσσες (Μέρος 3 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Εισαγωγή στους Αλγορίθμους

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Προγραμματισμός και Εφαρμογές Υπολογιστών

Προγραμματισμός Η/Υ. Ενότητα 4: Εντολές Επιλογής

Διαδικαστικός Προγραμματισμός

Transcript:

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1

Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Πως βλέπουμε ένα έγγραφο; Πως βλέπουμε ένα έγγραφο; Ως έχει (full text); Αγνοώντας λέξεις που δεν φέρουν νόημα (π.χ. τα άρθρα) ; Ως σάκο (bag) όρων ευρετηρίου (bag of index terms), δηλαδή αγνοώντας τη σειρά με την οποία εμφανίζονται οι λέξεις στο κείμενο; Ως σύνολο όρων ευρετηρίου (set of Index terms) Ως δομημένο έγγραφο (π.χ. hypertext, XML) Η απάντηση στο παραπάνω ερώτημα θα καθορίσει τη μορφή του ευρετηρίου που πρέπει να κατασκευάσουμε. Η απάντηση στο παραπάνω ερώτημα είναι συνυφασμένη και με το μοντέλο ανάκτησης που πρόκειται χρησιμοποιήσουμε. 4

Μοντέλα Ανάκτησης Ένα μοντέλο ανάκτησης καθορίζει τις λεπτομέρειες για: Την αναπαράσταση των αντικειμένων πληροφορίας (εγγράφων) Την αναπαράσταση των ερωτημάτων/επερωτήσεων (queries) Την λειτουργία της ανάκτησης Καθορίζει την έννοια και την σημασία της σχετικότητας/συνάφειας (relevance) Μπορεί να είναι δίτιμη (π.χ. {1,0}) ή συνεχής (π.χ. [0,1]) 5

Τυπικός Ορισμός Μοντέλου IR Ένα μοντέλο IR καθορίζεται από: D (documents) σύνολο λογικών όψεων (αναπαραστάσεων) κειμένων Q (queries) σύνολο λογικών όψεων ερωτημάτων F (framework) πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους R(q,d) (ranking function) Συνάρτηση βαθμολόγησης Αντιστοιχίζει ένα πραγματικό αριθμό με ένα ερώτημα και ένα κείμενο 6

Τυπικός Ορισμός Μοντέλου IR 7

Ταξινόμηση Μοντέλων IR 8

Συσχέτιση Μοντέλων, Όψεων, Διαδικασιών 9

Boolean Μοντέλο - Ορισμοί Στηρίζεται στη θεωρία συνόλων και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός σε σχέση με άλλα μοντέλα. Έγγραφο = σύνολο λέξεων κλειδιών (keywords) Επερώτηση = Boolean έκφραση λέξεων κλειδιών (AND,OR, NOT, παρενθέσεις) Παράδειγμα επερωτήσεων: (( Crete AND Greece) OR (Oia AND Santorini)) AND Hotel AND-NOT Hilton (( Crete & Greece) (Oia & Santorini)) & Hotel &! Hilton Απάντηση= σύνολο εγγράφων απουσία διάταξης! 10

Όροι Δεικτοδότησης (Index Terms) Χρησιμοποιούνται για την αναπαράσταση των κειμένων. Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Πρέπει να είναι αντιπροσωπευτικοί για τη σημασιολογία του κειμένου. Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Κυρίως, είναι ουσιαστικά. Επίθετα, επιρρήματα κ.τ.λ. είναι λιγότερο χρήσιμα. 11

Παράδειγμα Κείμενο 1 Κείμενο 2 Κείμενο 3 η γεωργική επανάσταση η βιομηχανική επανάσταση η επανάσταση της υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα 3 κείμενα δημιουργεί πρόβλημα. Γιατί; 12

Επιλογή Όρων Δεικτοδότησης Δεν είναι χρήσιμοι όλοι οι όροι που περιλαμβάνονται σε ένα κείμενο! Δεδομένης μιας συλλογής 100.000 κειμένων: ένας όρος που περιλαμβάνεται σε όλα τα κείμενα είναι άχρηστος! ένας όρος που περιλαμβάνεται μόνο σε 5 κείμενα είναι πολύ χρήσιμος! Σε κάθε όρο δεικτοδότησης ανατίθεται ένα βάρος που εκφράζει τη χρησιμότητά του. 13

Ορισμός Έστω k i μία λέξη κλειδί και d j ένα κείμενο. Το βάρος ορίζεται ως: w(k i,d j ) >= 0 και δηλώνει το πόσο σημαντικός είναι ο όρος σε σχέση με το κείμενο. Έστω K={k 1,,k t } το σύνολο των index terms. Εάν το keyword k i δεν εμφανίζεται στο κείμενο d j, τότε w(k i,d j )=0. Διαφορετικά, w(k i,d j ) > 0. Άρα σε κάθε κείμενο d j, αντιστοιχεί ένα διάνυσμα βαρών: (w 1,j, w 2,j,, w t,j ). 14

Παράσταση εγγράφων κατά Boolean Model 15

Boolean Μοντέλο (Formal ορισμός) K={k 1,,k t }: σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ), όπου: w i,j = 1, αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς w i,j =0) Μια επερώτηση q είναι μια λογική έκφραση στο Κ, π.χ.: q = k1 and ( k2 or not k3)) δηλαδή q = k1 ( k2 k3)) q DNF = (k1 k2 k3) (k1 k2 k3) (k1 k2 k3) q DNF = (1,1,1) (1,1,0) (1,0,0) R(d,q) = True, αν υπάρχει συζευκτική συνιστώσα του q με λέξεις των οποίων τα βάρη είναι τα ίδια με αυτά των αντίστοιχων λέξεων του εγγράφου d False, αλλιώς. 16

Ισοδύναμος ορισμός Αποτίμηση επερωτήσεων (με χρήση λογικής) ένα κείμενο d είναι μια σύζευξη όρων, όπου όρος είναι μια λέξη σε θετική ή αρνητική μορφή σε θετική αν εμφανίζεται στο κείμενο, αλλιώς σε αρνητική. μια επερώτηση q είναι μια οποιαδήποτε λογική έκφραση R(d,q)=True, if and only if d = q δηλαδή αν κάθε ερμηνεία που αληθεύει το d, αληθεύει και το q 17

Σύνοψη Boolean Μοντέλου k i ένα keyword (index term) d j ένα κείμενο t ο συνολικός αριθμός keywords K = {k 1, k 2,, k t } σύνολο keywords w ij >= 0 βάρος μεταξύ k i, d j w ij = 0 το k i δε βρίσκεται στο κείμενο d j vec(d j ) = (w 1j, w 2j,, w tj ) διάνυσμα που σχετίζεται με το κείμενο d j g i (vec(d j )) = w ij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με τα k i και d j 18

Σύνοψη Boolean Μοντέλου Απλό, βασίζεται στη Θεωρία Συνόλων. Διατύπωση ερωτημάτων ως λογικές εκφράσεις ακριβής σημασιολογία (exact semantics) απλός φορμαλισμός q = Ka ( Kb Kc) To keyword είναι είτε παρόν, είτε όχι: Για παράδειγμα: = q Ka Kb Σε κανονική διαζευκτική μορφή (DNF): vec ( Kc) ( ) = ( 1, 11, ) ( 11,, 0) ( 1, 0, 0) q dnf w ij { 0, 1} 19

Boolean Μοντέλο Για παράδειγμα q = (t1 t2) t3 q dnf = (1,1,1) (0,1,1) (1,0,1) (disjunctive normal form) conjunctive components (qcc) 20

Boolean Μοντέλο Πίνακας αληθείας του ερωτήματος (t1 t2) t3 21

Boolean Μοντέλο q = (t1 t2) t3 t1 t2 (1, 1, 0) (1, 0, 0) (0, 1, 0) (1, 1, 1) (1, 0, 1) (0, 1, 1) (0, 0, 1) (0, 0, 0) t3 22

Παράδειγμα Boolean Μοντέλου D1 = computer information retrieval D2 = computer retrieval D3 = information D4 = computer information Q1 = information retrieval Q2 = information computer 23

Παράδειγμα Boolean Μοντέλου 2 Ποια έργα του Shakespeare περιέχουν τις λέξεις Βρούτος και Καίσαρας, αλλά όχι Καλπουρνία ; Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 «mercy» 1 0 1 1 1 1 «worser» 1 0 1 1 1 0 24

Παράδειγμα Boolean Μοντέλου 2 Απάντηση ερωτήματος: 110100 AND 110111 AND 101111 = 100100 Διάνυσμα λέξης «Brutus» Διάνυσμα λέξης «Caesar» Ανεστραμμένο Διάνυσμα λέξης «Calpurnia» Άρα, το 1 ο και το 4 ο έργο ταιριάζουν με την ερώτηση. 25

Οι αδυναμίες του Boolean μοντέλου Παράδειγμα: Answer( Cheap Tickets Heraklion ) = 1 Answer( Cheap Tickets) = 1000 Answer( Cheap Heraklion) = 1000 Answer( Tickets Heraklion ) = 1000 Άρα είτε παίρνουμε μία απάντηση με 1 μόνο έγγραφο, είτε με ένα σύνολο 1000 εγγράφων. :-( 26

Οι αδυναμίες του Boolean μοντέλου Άκαμπτο: AND σημαίνει όλα, OR σημαίνει οποιοδήποτε! Δυσκολίες: Ο έλεγχος του μεγέθους της απάντησης All matched documents will be returned Ικανοποιητική ακρίβεια (precision) συχνά σημαίνει απαράδεκτη ανάκληση (recall). Η διατύπωση των επερωτήσεων είναι δύσκολη για πολλούς χρήστες. 27

Οι αδυναμίες του Boolean μοντέλου Δυσκολίες: Η έκφραση σύνθετων πληροφοριακών αναγκών είναι δύσκολη. Δεν μας λέει πώς να διατάξουμε την απάντηση. All matched documents logically satisfy the query Τα μοντέλα κατάταξης (ranking models) έχουν αποδειχτεί καλύτερα στην πράξη. Η υποστήριξη ανάδρασης συνάφειας δεν είναι εύκολη. If a document is identified by the user as relevant or irrelevant, how should the query by modified? 28

Οι αδυναμίες του Boolean μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching). Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Επομένως, το boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά κείμενα και άλλοτε πάρα πολύ λίγα!! 29

Τα θετικά του Boolean μοντέλου Προβλέψιμο, εύκολα εξηγήσιμο. Αποτελεσματικό, όταν γνωρίζεις ακριβώς τι ψάχνεις και τι περιέχει η συλλογή. Αποδοτική υλοποίηση. 30

Ερωτήσεις - Απορίες 31