Το Λο ικό Μοντέ ο. Περιε όμενα Κεφα αίου

Σχετικά έγγραφα
Το Διανυσματικό Μοντέ ο

Ο Αντεστραμμένος Κατά ο ος

Ο Κατά ο ος Υπο ραφών

Ανάκτηση Π ηροφορίας. Συ ραφή Απόστο ος Ν. Παπαδόπου ος Ι άννης Μαν όπου ος Κ νσταντίνος Τσί ας. Κριτικός Ανα νώστης Δημήτριος Κατσαρός

Εισα ή στην Ανάκτηση Π ηροφορίας

Το Πι ανοκρατικό Μοντέ ο

Α όρι μοι και Πο υπ οκότητα 1η Σειρά Γραπτών Ασκήσε ν

Αποτίμηση Αποτε εσματικότητας

Ανάκτηση Π ηροφορίας στον Πα κόσμιο Ιστό

Παρά η η Δια είριση Δεδομέν ν

Κανονισμός Εποπτικού Συμ ου ίου

Κανονισμός Εκτε εστικής Επιτροπής

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Κανονισμός Διοικητικού Συμ ου ίου

Κανονισμός Οικονομικής Δια είρισης

Ανάπτυξη Βι ιο ήκης Γραφικών ια Ενσ ματ μένο Σύστημα

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Επέκταση του συστήματος ανοι τού κώδικα Pig

Ορ ανισμός Εσ τερικής Υπηρεσίας

Π Ε Δ (Π.Ε.Δ.) Ι Ν ΠΕΔ. Κανονισμοί. ΟΕΥ Προσωπικού Διοικητικού Συμβουλίου Εκτελεστικής Επιτροπής Οικονομικής Διαχείρισης Εποπτικού Συμβουλίου

Απ ή υ οποίηση α ορί μου Fast Multipole Method ανεξάρτητου συνάρτησης πυρήνα

Ανάκτηση Πληροφορίας

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΠΑΝΑΛΗΠΣΙΚΕ ΑΚΗΕΙ ΜΙΓΑΔΙΚΟΤ-ΟΡΙΑ-ΤΝΕΧΕΙΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Η εκτρικής Ισ ύος. Διπ ματική Ερ ασία

Εξόρυξη νώσης από μέσα κοιν νικής δικτύ σης: Με έτη περίπτ σης στο Twitter.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση Πληροφορίας

Ε νικό Μετσό ιο Πο υτε νείο. Πρακτικά Συστήματα Συ ο ιστικής ια Εκφραστικές Ασαφείς Περι ραφικές Λο ικές

Ανάπτυξη Συστήματος Συστάσε ν Συνερ ατικής Διή ησης με ρήση Ιεραρ ικών Α ορί μ ν Κατάταξης

Ε νικό Μετσό ιο Πο υτε νείο. Α όρι μοι Επανε ραφής Τροποποιημέν ν Ερ τημάτ ν ια Βατές Περι ραφικές Λο ικές

Ε νικό Μετσό ιο Πο υτε νείο

ἔστω Ο...πισινός μας! American Bar το καναμε για όλους μας. * * * κι από τη Σκιά τους. σε κάθε νησί;

JEAN-CHARLES BLATZ 02XD RE52755

Ανάκτηση Πληροφορίας

Σ εδιασμός Συστημάτ ν Ε έ ου

Ε νικό Μετσό ιο Πο υτε νείο

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Χημικών Μη ανικών. Με έτη και σ εδιασμός με όδ ν Εξόρυξης Δεδομέν ν και εφαρμο ές σε προ ήματα Μετα ο ομικής

Ανάπτυξη συντακτικού ανα υτή φυσικής ώσσας με ρήση του φορμα ισμού LFG. Πανα ιώτης Μίνος

Υ οποίηση αντα α ής κ ειδιού DH και ψηφιακών υπο ραφών ασισμένη σε ε ειπτικές καμπύ ες

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση Πληροφορίας

20/5/ /5/ /5/ /5/2005

Ε νικό Μετσό ιο Πο υτε νείο. Διπ ματική Ερ ασία

Ανάκτηση Πληροφορίας

Tη λ.: +30 (210) Fax: +30 (210)

ΚΑΝΟΝΙΣ ΜΟ Ι ΙΕΞΑΓΩΓΗΣ ΑΓΩΝΩΝ 1 / 8 SCALE IC TRA CK ΕΛ. Μ. Ε

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση πληροφορίας


Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος


Ε νικό και Καποδιστριακό Πανεπιστήμιο Α ηνών. Δι οτομίες Πο υπ οκότητας σε Προ ήματα Μέτρησης

Ανάκτηση Πληροφορίας Εισαγωγή

Ανάκτηση πληροφορίας

Η κ άσση L A TEX dithesis

Περιεχόµ εν α. Εισαγω γή. Επ ισκόπ ηση υπ ο βο λής φακέλω ν (IUCLID 5) Επ ισκόπ ηση υπ ο βο λής φακέλω ν (Reach-IT) Ερω τήσεις καιαπ αν τήσεις

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Πα κ έ τ ο Ε ρ γ α σ ί α ς 4 Α ν ά π τ υ ξ η κ α ι π ρ ο σ α ρ µ ο γ ή έ ν τ υ π ο υ κ α ι η λ ε κ τ ρ ο ν ι κ ο ύ ε κ π α ι δ ε υ τ ι κ ο ύ υ λ ι κ ο


Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Επικοιν νιών, Η εκτρονικής και Συστημάτ ν Π ηροφορικής

ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΠΛΑΤΦΟΡΜΑΣ ΠΑΡΟΧΗΣ ΥΠΗΡΕΣΙΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΕΦΑΡΜΟΓΕΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΓΕΩΡΓΙΟΣ ΓΟΥΛΑΣ

Ανάκτηση Πληροφορίας

ΘΕΜΑ: ΔΙΑΡΘΡΩΤΙΚΑ ΧΑ ΡΑ ΚΤ ΗΡ ΙΣ ΤΙ ΚΑ ΤΗΣ ΑΝΕΡΓΙΑΣ - ΠΤΥΧΙΑΚΗ ΕΡΓΑ ΣΙ Α - ΚΑΡΑ ΣΑ ΒΒ ΟΓ ΠΟ Υ ΑΝ ΑΣΤΑΣΙΟΣ

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ανάκτηση πληροφορίας

Η Αρ ιτεκτονική αναφοράς Μα ησιακών Χώρ ν CROP - Μια πρώτη προσέ ιση

ΑΡΧΗ 1 ΗΣ ΣΕΛΙΔΑΣ Δ ΤΑΞΗ ΘΕΜΑΤΑ

αναλυτικός απλός 1 Ο αναλυτικός βλέπει τον κόσμο σαν να αποτελείται από πολλά μικρά κομμάτια.


Γ. Β Α Λ Α Τ Σ Ο Σ. 4ο ΓΥΜΝΑΣΙΟ ΛΑΜΙΑΣ 1. Γιώργος Βαλατσός Φυσικός Msc

FAX : spudonpe@ypepth.gr) Φ. 12 / 600 / /Γ1

Α Α Α Α Α Α Α Α Α Α Α Ο

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Αρ έ ονα αρυτικά κύματα από τον κοσμο ο ικό π η ρισμό και CMB

Θέ α: ωσ ή ια ροφή και άσκηση ια ο ς εφήβο ς.

1.3 Εσωτερικό Γινόμενο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

α κα ρι ι ο ος α α νηρ ος ου ουκ ε πο ρε ε ευ θη εν βου λη η η α α σε ε ε βων και εν ο δω ω α α µαρ τω λω ων ουουκ ε ε ε


Ανάκτηση Πληροφορίας

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Πρι τ αρακτηρ οτικ λαπλ ουοτηματα μικρ ετ εξεργατ δ π υ τ

1. Financial New Times Year MAXk {FREQij} D D D D

14/5/ /12/ /5/ /5/2007

Σχεσιακή Άλγεβρα και Σχεσιακός Λογισμός. Σχεσιακή Άλγεβρα Σχεσιακός Λογισμός

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Η ERASMUS. gr.pdf

υφ υ., Β ί,. υ, Βί φ υ α π ί αμ υ Γ α - α ί υ. α. πί. V ( α μ μ μ α, α α π ία μ ί α πα μ υπ ) π αμ α 8 α, α φ μα α υ α ί υ α Βαφ π. α ί α, π ( α ί), φ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ε.Ε. Π α ρ.ι(i), Α ρ.3932, 10/12/2004 Ο ΠΕΡΙ ΚΟΙΜΗΤΗΡΙΩΝ (ΤΑΦΗ ΚΑΙ ΕΚΤΑΦΗ) ΝΟΜΟΣ. H Βουλή των Αντιπροσώπων ψηφίζει ως ακολούθως:

Ανάκτηση Πληροφορίας

Η ERASMUS gr.pdf

Η Α ο Η Α ο Η Α ο οση ία σ Ι ι ι ή Κ ι ι ή ός ι ύο, η σ β β η έ η ο Α- ΟΙΚ ο α α ισ έ η ή ί ο σα οση ία Η Α ο

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΕΙΔΙΚΟΣ ΛΟΓΑΡΙΑΣΜΟΣ ΚΟΝΔΥΛΙΩΝ ΕΡΕΥΝΑΣ

Τ τμημα Ηλεκτρ Λ γ α ργ ΨηφιακΦ Συα ημ τω Α αθμ Σκ π τη κη η Σκ π τηζ κη η ε αι α ρησ μ π ε π υδαα η Λ γ κθζ π Λε π ΛΛΦ ε δω α α δε ξε τ τρ π με π γ ε

ΤΜΗΜΑ ΦΩΚΑ/ΤΕΤΑΡΤΗ

Μέθοδος Ελαχίστων Τετραγώνων (για την προσαρμογή (ή λείανση) δεδομένων/μετρήσεων)

31/12/ /12/2005 (36) (109) (36) (126) (36) (126)

Transcript:

3 Το Λο ικό Μοντέ ο Περιε όμενα Κεφα αίου 3.1 Εισα ή............................ 52 3.2 Το Απ ό Λο ικό Μοντέ ο................... 52 3.2.1 Βασικές Έννοιες.................... 53 3.2.2 Τε εστές Γειτονικότητας Όρ ν............ 56 3.2.3 Επεξερ ασία Ερ τημάτ ν............... 57 3.2.4 Π εονεκτήματα και Μειονεκτήματα.......... 61 3.3 Το Εκτεταμένο Λο ικό Μοντέ ο............... 62 3.4 Σύνοψη και Περαιτέρ Με έτη................. 67 3.5 Ασκήσεις............................ 68 51

52 Κεφάλαιο 3. Το Λογικό Μοντέλο 3.1 Εισα ή Η Ανάκτηση Π ηροφορίας, όπ ς έ ουμε αναφέρει σε προη ούμενο κεφά- αιο, στο εύει στην εξυπηρέτηση τ ν π ηροφοριακών ανα κών τ ν ρηστών. Βασικό ρό ο ια την επίτευξη του στό ου αυτού παίζει ο μη ανισμός που ρησιμοποιείται από ένα ΣΑΠ ια τον προσδιορισμό τ ν σ ετικών ε ράφ ν ς προς κάποιο ερώτημα. Ο μη ανισμός αυτός κα είται ενα ακτικά και μοντέλο Ανάκτησης Πληροφορίας. Η περι ραφή του μοντέ ου ανάκτησης προϋπο έτει ότι έ ει κα οριστεί ο τρόπος αναπαράστασης τ ν ε ράφ ν και τ ν ερ τημάτ ν, κα ώς επίσης και ο τρόπος προσδιορισμού της σ ετικότητας ενός ε ράφου ς προς κάποιο ερώτημα. Στο κεφά αιο αυτό α με ετήσουμε ένα από τα πρώτα και απ ούστερα μοντέ α ανάκτησης που έ ουν προτα εί. Το μοντέ ο αυτό κα είται Λογικό ή Boolean μοντέλο, διότι όπ ς α δούμε στη συνέ εια στηρίζεται σε ο ικές εκφράσεις της ά ε ρας Boole ια τον προσδιορισμό τ ν ερ τημάτ ν. Το Λο ικό μοντέ ο μαζί με το Διανυσματικό μοντέ ο και το Πι ανοτικό μοντέ ο αποτε ούν την οικο ένεια τ ν κλασσικών μοντέλων ανάκτησης. Επίσης α περι ράψουμε τις επεκτάσεις που έ ει υποστεί το Boolean μοντέ ο έτσι ώστε να κα ύψει π ηρέστερα τις π ηροφοριακές ανά κες τ ν ρηστών και, τέ ος, α συζητήσουμε τα π εονεκτήματα και τα μειονεκτήματά του. 3.2 Το Απ ό Λο ικό Μοντέ ο Τόσο στο Λο ικό μοντέ ο όσο και στα ά α δύο μοντέ α που απαρτίζουν την οικο ένεια τ ν κ ασικών μοντέ ν ανάκτησης τα έ ραφα της συ ο ής αναπαρίστανται με όρους (terms) ή α ιώς λέξεις-κλειδιά (key-words). Στη ενικότερη περίπτ ση, ρησιμοποιούνται ό οι οι όροι τ ν ε ράφ ν. Ωστόσο, αμ- άνοντας υπόψη ότι πο οί από τους όρους ενός ε ράφου δεν προσφέρουν σημαντική π ηροφορία (όπ ς ια παράδει μα τα άρ ρα και τα επί ετα) σε πο - ές περιπτώσεις πρα ματοποιείται προ-επεξερ ασία τ ν ε ράφ ν με στό ο τη διατήρηση τ ν έξε ν που περιέ ουν σημαντική π ηροφορία. Οι όροι με το περισσότερο π ηροφοριακό περιε όμενο είναι τα ουσιαστικά, ενώ άρ ρα, ρήματα και επιρρήματα συνή ς δεν ρησιμοποιούνται ια την αναπαράσταση τ ν ε ράφ ν. Συνή ς, στις μη ανές αναζήτησης που ρησιμοποιούνται στον πα κόσμιο ιστό, όπ ς και σε πο ά ά α συστήματα, ρησιμοποιούνται ό οι οι όροι ια την αναπαράσταση τ ν ε ράφ ν, οπότε στην περίπτ ση αυτή έ ουμε αναπαράσταση πλήρους κειμένου (full text). Για τις ανά κες αυτού του κεφα αίου α ρησιμοποιήσουμε τη μικρή συ ο ή ε ράφ ν του Κεφα αίου 1, η οποία παρουσιάζεται

3.2. Το Απλό Λογικό Μοντέλο 53 εκ νέου στο Σ ήμα 3.1 ια τη διευκό υνση του ανα νώστη. d 1 : d 2 : d 3 : d 4 : d 5 : d 6 : d 7 : Ο κομήτης του Χά εϋ μας επισκέπτεται περίπου κά ε ε δομήντα έξι ρόνια. Ο κομήτης του Χά εϋ ανακα ύφ ηκε από τον αστρονόμο Έντμοντ Χά εϋ. Ένας κομήτης δια ράφει ε ειπτική τρο ιά. Ο π ανήτης Άρης έ ει δύο φυσικούς δορυφόρους, το Δείμο και το Φό ο. Ο π ανήτης Δίας έ ει εξήντα τρεις ν στούς φυσικούς δορυφόρους. Ο Ή ιος είναι ένας αστέρας. Ο Άρης είναι ένας π ανήτης του η ιακού μας συστήματος. Σχήμα 3.1: Συλλογή εγγράφων. 3.2.1 Βασικές Έννοιες Το απ ό Λο ικό μοντέ ο ανάκτησης είναι από τα πρώτα μοντέ α που ρησιμοποιή ηκαν στα συστήματα ανάκτησης π ηροφορίας κυρί ς ό του ότι στηρίζεται στη ε ρία συνό ν και επομέν ς αρακτηρίζεται από απ ότητα. Τα ερ τήματα αναπαρίστανται με ο ικές εκφράσεις της ά ε ρας Boole ρησιμοποιώντας τους τε εστές AND (σύζευξη), OR (διάζευξη) και NOT (άρνηση). Ενα ακτικά ρησιμοποιούμε τα σύμ ο α ια τον τε εστή AND, ια τον τε εστή OR και ια τον τε εστή NOT. Με α ύτερη προτεραιότητα έ ει ο τε εστής NOT, στη συνέ εια ο τε εστής AND και τέ ος ο τε εστής OR. Σε περιπτώσεις που έ ουμε να α άξουμε την προτεραιότητα τ ν τε εστών σε μία ο ική έκφραση ρησιμοποιούνται παρεν έσεις. Στο Σ ήμα 3.2 δίνονται μερικές ασικές ο ικές εκφράσεις με τη μορφή δια ραμμάτ ν Venn. Το ασικό αρακτηριστικό του Λο ικού μοντέ ου είναι ότι υποστηρίζει την επακριβή ταύτιση (exact match). Αυτό σημαίνει ότι τα έ ραφα του αποτε έσματος α πρέπει να ικανοποιούν π ήρ ς τη ο ική έκφραση του ερ τήματος, δη αδή η ο ική έκφραση α πρέπει να είναι α η ής ια κά ε έ ραφο. Στον Πίνακα 3.1 δίνονται μερικά ερ τήματα με τη μορφή ο ικών εκφράσε ν και οι αντίστοι ες επεξη ήσεις. Αν συμ ο ίσουμε με A k το σύνο ο τ ν ε ράφ ν που περιέ ονται στην απάντηση του ερ τήματος q k τότε έ ουμε: A 1 = {d 1, d 2, d 3, d 6 }, A 2 = {d 1, d 2 }, A 3 = {d 5, d 6 }, A 4 = {d 6 } και A 5 = {d 1, d 2, d 3, d 4, d 5, d 6, d 7 }. Στη ενική περίπτ ση, ένα ερώτημα προσδιορίζει έναν ή περισσότερους όρους που μαζί με τους ο ικούς τε εστές σ ηματίζουν τη ο ική έκφραση του ερ τήματος. Σύμφ να με το Λο ικό μοντέ ο, ένας όρος είτε α ρίσκεται σε ένα έ ραφο είτε ό ι. Αυτό σημαίνει ότι ια κά ε έ ραφο d j και κά ε όρο του ερ -

54 Κεφάλαιο 3. Το Λογικό Μοντέλο NOT(A ORB) A AND B A B A ORB Σχήμα 3.2: Αναπαράσταση λογικής έκφρασης με χρήση διαγραμμάτων Venn. ερώτημα ο ική αναζήτηση ε ράφ ν έκφραση που περιέ ουν τους όρους: q 1 κομήτης κομήτης q 2 κομήτης AND Χά εϋ κομήτης και Χά εϋ q 3 π ανήτης AND NOT Άρης π ανήτης α ά ό ι Άρης q 4 (κομήτης OR Χά εϋ) AND π ανήτης π ανήτης και κομήτης ή π ανήτης και Χά εϋ q 5 π ανήτης OR κομήτης π ανήτης ή κομήτης Πίνακας 3.1: Παραδείγματα λογικών ερωτημάτων. τήματος t i μπορούμε να αντιστοι ήσουμε μία τιμή w ij που μπορεί να ά ει μόνο τις τιμές 0 και 1. Αν w ij =0 τότε ο όρος t i δεν ρίσκεται στο έ ραφο d j, ενώ αν w ij =1 τότε ο όρος t i υπάρ ει στο έ ραφο d j. Εφόσον ένα ερώτημα ουσιαστικά αποτε εί μία ο ική έκφραση, σύμφ να με τη με οδο ο ία της ά ε ρας Boole μπορεί να κανονικοποιη εί στη διαζευκτική κανονική μορφή (disjunctive normal form). Ορισμός 3.1. Η διαζευκτική κανονική μορφή ενός λογικού ερωτήματος q συμβολίζεται με q dnf και έχει τη μορφή (x 1,1 x 1,2... x 1,m ) (x 2,1 x 2,2... x 2,m )... (x m,1 x m,2... x k,m ), όπου το κάθε x i,j ισούται είτε με t i είτε με t i, m είναι το πλήθος των όρων του ερωτήματος και k είναι το πλήθος των συζευκτικών συνιστωσών. Η i-οστή συζευκτική συνιστώσα του ερωτήματος συμβολίζεται με q cci. Συνή ς, η διαζευκτική κανονική μορφή q dnf ενός ερ τήματος q δίνεται με τη μορφή διανύσματος και συμ ο ίζεται με q dnf. Επίσης, μπορούμε να ε ρήσουμε

3.2. Το Απλό Λογικό Μοντέλο 55 ότι και κά ε συζευκτική συνιστώσα q cci αναπαριστάται με ένα διάνυσμα q cci που αποτε είται από 1 και 0 ανά ο α με την παρουσία ή απουσία του αντίστοι ου όρου. Για παράδει μα, ας ε ρήσουμε ένα ερώτημα που ρησιμοποιεί τρεις όρους (t 1, t 2, t 3 ) και εκφράζεται με την εξής ο ική έκφραση: q = (t 1 OR t 2 ) AND t 3 t 1 t 2 t 3 διάνυσμα έκφραση απάντηση 0 0 0 (0, 0, 0) t 1 t 2 t 3 0 0 0 1 (0, 0, 1) t 1 t 2 t 3 0 0 1 0 (0, 1, 0) t 1 t 2 t 3 0 0 1 1 (0, 1, 1) t 1 t 2 t 3 1 1 0 0 (1, 0, 0) t 1 t 2 t 3 0 1 0 1 (1, 0, 1) t 1 t 2 t 3 1 1 1 0 (1, 1, 0) t 1 t 2 t 3 0 1 1 1 (1, 1, 1) t 1 t 2 t 3 1 Πίνακας 3.2: Πίνακας αληθείας. Με άση το ερώτημα q τα έ ραφα που α επιστραφούν ς απάντηση πρέπει οπ σδήποτε να περιέ ουν τον όρο t 3 και του ά ιστον έναν από τους όρους t 1 και t 2. Στον Πίνακα 3.2 δίνεται ο πίνακας αληθείας (truth table) ια το ερώτημα q, από όπου φαίνεται ότι η ο ική έκφραση του ερ τήματος ίνεται α η ής ια τους συνδυασμούς: (0, 1, 1), (1, 0, 1) και (1, 1, 1), όπου στο κά ε διάνυσμα η πρώτη τιμή αφορά στον όρο t 1, η δεύτερη στον όρο t 2 και η τρίτη στον όρο t1 t2 (1, 1, 0) (1, 0, 0) (0, 1, 0) (1, 1, 1) (1, 0, 1) (0, 1, 1) (0, 0, 1) (0, 0, 0) t3 Σχήμα 3.3: Αναπαράσταση λογικής έκφρασης με χρήση διαγραμμάτων Venn.

56 Κεφάλαιο 3. Το Λογικό Μοντέλο t 3. Στο Σ ήμα 3.3 δίνεται ένα ενδεικτικό διά ραμμα Venn μαζί με τα αντίστοι α διανύσματα. Η περιο ή του δια ράμματος που αντιστοι εί στο ερώτημα δίνεται από τα διανύσματα που επα η εύουν τη ο ική έκφραση του ερ τήματος. Με άση τα προη ούμενα, η διαζευκτική κανονική μορφή του ερ τήματος έ ει τη μορφή: q dnf = ( t 1 t 2 t 3 ) (t 1 t 2 t 3 ) (t 1 t 2 t 3 ) Το ερώτημα αποτε είται από τρεις συζευκτικές συνιστώσες q cc1, q cc2 και q cc3, όπου q cc1 = t 1 t 2 t 3, q cc2 = t 1 t 2 t 3 και q cc3 = t 1 t 2 t 3. Τα αντίστοι α διανύσματα είναι: q cc1 = (0, 1, 1), q cc2 = (1, 0, 1) και q cc3 = (1, 1, 1). Επομέν ς, η διανυσματική αναπαράσταση της διαζευκτικής κανονικής μορφής είναι: q dnf = ((0, 1, 1), (1, 0, 1), (1, 1, 1)) Ένα έ ραφο α ρίσκεται στην απάντηση αν επα η εύει έναν από τους όρους της διαζευκτικής κανονικής μορφής. Για παράδει μα, με άση την διαζευκτική κανονική μορφή του ερ τήματος q, ένα έ ραφο με διάνυσμα (1,1,1) σί ουρα α ανήκει στην απάντηση. 3.2.2 Τε εστές Γειτονικότητας Όρ ν Με τη ρήση τ ν ασικών τε εστών AND, OR και NOT ο ρήστης μπορεί να προσδιορίσει την περιεκτικότητα ή ό ι τ ν όρ ν σε ο όκ ηρο το έ ραφο. Πο ές φορές όμ ς ενδιαφερόμαστε ια την εμφάνιση κάποι ν έξε ν που ρίσκονται συνε όμενες ή που ρίσκονται στην ίδια πρόταση ή παρά ραφο. Αν και το απ ό Boolean μοντέ ο δεν προσφέρει την περι ραφή τέτοι ν ερ τημάτ ν, τα περισσότερα συστήματα που στηρίζονται στο μοντέ ο αυτό υ οποιούν και μερικούς επιπ έον τε εστές ανα ν ρίζοντας τις σ ετικές ανά κες τ ν ρηστών. Οι τε εστές αυτοί αυξάνουν την εκφραστικότητα της ώσσας ερ τημάτ ν και δίνουν τη δυνατότητα στους ρήστες να περιορίσουν κατά πο ύ το σύνο ο τ ν ε ράφ ν της απάντησης. Από τους πιο σημαντικούς τε εστές που έ ουν ρησιμοποιη εί με το Λο ικό μοντέ ο είναι οι εξής: ADJ. Ο τε εστής αυτός ρησιμοποιείται ια να δη ώσει ότι δύο όροι πρέπει να εμφανίζονται συνε όμενοι μέσα στο έ ραφο της απάντησης (π.. π ανήτης ADJ Άρης). NEAR/x. Ο τε εστής ρησιμοποιείται ια να δη ώσει την επι υμία του ρήστη ότι δύο όροι α πρέπει να έ ουν απόσταση το πο ύ x μεταξύ τους,

3.2. Το Απλό Λογικό Μοντέλο 57 όπου x είναι ο αρι μός τ ν όρ ν (π.. π ανήτης NEAR/2 Άρης). WITH. Με αυτόν τον τε εστή ο ρήστης μπορεί να δη ώσει ότι οι δύο όροι πρέπει να ρίσκονται στην ίδια πρόταση (π.. π ανήτης WITH Άρης). SAME. Εδώ δη ώνουμε ότι οι όροι έ ουμε να ρίσκονται στην ίδια παρά- ραφο (π.. π ανήτης SAME Άρης). Οι συμ ο ισμοί τ ν τε εστών συνή ς διαφέρουν από σύστημα σε σύστημα. Για παράδει μα, στο σύστημα WestLaw [8], που αποτε εί μία από τις με α ύτερες υπηρεσίες ια την αναζήτηση νομικών π ηροφοριών με πο ύ με ά ο αρι μό συνδρομητών, ο τε εστής WITH συμ ο ίζεται με /s, ο τε εστής SAME συμ ο- ίζεται με /p ενώ ο τε εστής NEAR/x με /x. Στο σύστημα CiteSeer [3], που αποτε εί έναν από τους με α ύτερους ιστότοπους παρο ής ι ιο ραφικών π ηροφοριών ια την Π ηροφορική επιστήμη, ο τε εστής NEAR/x συμ ο ίζεται με w/x. Σημειώνεται ότι η προτεραιότητα τ ν τε εστών ADJ, NEAR/x, WITH και SAME είναι με α ύτερη από τους υπό οιπους ο ικούς τε εστές. Στον Πίνακα 3.3 δίνονται μερικά ερ τήματα ρησιμοποιώντας και τους επιπ έον τε εστές. Για κά ε ερώτημα δίνεται και το σύνο ο τ ν ε ράφ ν της απάντησης, με άση τη συ ο ή ε ράφ ν του Σ ήματος 3.1. ερώτημα σύνο ο απάντησης κομήτης ADJ Χά εϋ { } κομήτης NEAR/2 Χά εϋ {d 1, d 2 } π ανήτης ADJ Άρης {d 4 } Δίας AND φυσικούς ADJ δορυφόρους {d 5 } Πίνακας 3.3: Παραδείγματα λογικών ερωτημάτων. 3.2.3 Επεξερ ασία Ερ τημάτ ν Στις προη ούμενες παρα ράφους με ετήσαμε τον τρόπο έκφρασης ενός ερ τήματος στο απ ό Λο ικό μοντέ ο. Στη συνέ εια α εξετάσουμε τον τρόπο επεξερ ασίας ενός Λο ικού ερ τήματος από ένα ΣΑΠ και τον τρόπο επιστροφής τ ν σ ετικών ε ράφ ν στο ρήστη. Επειδή τα έματα επεξερ ασίας ερ τημάτ ν κα ύπτονται εκτενώς σε ά ο κεφά αιο, εδώ απ ώς α δείξουμε τη ασική με οδο ο ία που ακο ου είται ια τον προσδιορισμό της απάντησης ενός Λο ικού ερ τήματος.

58 Κεφάλαιο 3. Το Λογικό Μοντέλο λεξικό λίστες εµφάνισης κοµήτης πλανήτης Χάλλεϋ Άρης ίας τροχιά 3: (d 1, 3), (d 2, 3), (d 3, 6) 3: (d 4, 3), (d 5, 3), (d 6, 19) 3: (d 1, 15), (d 2, 15), (d 2, 65) 2: (d 4, 12), (d 6, 3) 1: (d 5, 12) 1: (d 3, 35) Σχήμα 3.4: Τμήμα αντεστραμμένου καταλόγου για τα έγγραφα του Σχήματος 3.1. Για τη ρή ορη επεξερ ασία τ ν ερ τημάτ ν α πρέπει να υπάρ ουν οι κατά η ες μέ οδοι προσπέ ασης, έτσι ώστε το σύστημα να μπορεί εύκο α να προσδιορίσει το σύνο ο τ ν ε ράφ ν που περιέ ουν έναν όρο. Σε διαφορετική περίπτ ση, α πρέπει το σύστημα να εκτε έσει σειριακή αναζήτηση σε κά ε έ - ραφο ριστά ώστε να εντοπίσει τα έ ραφα που περιέ ουν ένα συ κεκριμένο όρο. Η ρήση αυτής της με όδου δεν ενδείκνυται διότι οδη εί σε πο ύ με ά- ους ρόνους επεξερ ασίας. Για το ό ο αυτό α ε ρήσουμε ότι τα έ ραφα της συ ο ής είναι ορ αν μένα με τη οή εια ενός αντεστραμμένου κατα ό ου, όπ ς έ ουμε ήδη περι ράψει στο Κεφά αιο 1. Ένας αντεστραμμένος κατά ο ος μπορεί να έ ει διαφορετικές μορφές ανά- ο α με τις οη ητικές π ηροφορίες που απο ηκεύει. Εδώ α ε ρήσουμε ότι αποτε είται από το εξι ό ιο (το σύνο ο τ ν έξε ν) και τις ίστες εμφανίσε ν όπου ια κά ε όρο απο ηκεύεται το έ ραφο στην οποία ρίσκεται και η αντίστοι η έση μέσα στο έ ραφο. Η έση μπορεί να περι ραφεί είτε με τη έση του πρώτου αρακτήρα του όρου είτε με τον αύξοντα αρι μό του όρου μέσα στο έ ραφο. Για τις ανά κες μας α υπο έσουμε ότι κατα ρείται η έση του πρώτου αρακτήρα του όρου. Στο Σ ήμα 3.4 παρουσιάζεται ένα τμήμα του αντεστραμμένου κατα ό ου ια τη συ ο ή ε ράφ ν του Σ ήματος 3.1. Ο τρόπος ρήσης του αντεστραμμένου κατα ό ου εξαρτάται από το ερώτημα. Για παράδει μα, ια ερ τήματα που προσδιορίζουν μόνο έναν όρο, το μόνο που ρειάζεται είναι να εντοπιστεί ο όρος στο εξικό και στη συνέ εια να δια αστεί η αντίστοι η ίστα εμφανίσε ν ια το συ κεκριμένο όρο. Έστ το ερώτημα q 1 = κομήτης. Από τη ίστα εμφανίσε ν του όρου κομήτης είναι προφανές ότι τα σ ετικά έ ραφα ς προς το ερώτημα αυτό είναι τα d 1, d 2, d 3 και d 6, επομέν ς η απάντηση στο ερώτημα q 1 είναι: A 1 = {d 1, d 2, d 3, d 6 } Με α ύτερο ενδιαφέρον παρουσιάζει η επεξερ ασία ερ τημάτ ν που περιέ-

3.2. Το Απλό Λογικό Μοντέλο 59 ουν περισσότερους όρους και ρησιμοποιούν τε εστές. Έστ το ερώτημα q 2 = π ανήτης Άρης. Τα σ ετικά έ ραφα ς προς το ερώτημα q 2 είναι αυτά που περιέ ουν είτε τον όρο π ανήτης είτε τον όρο Άρης ή και τις δύο. Στην περίπτ ση αυτή, αφού πρώτα εντοπισ ούν οι ίστες εμφανίσε ν τ ν δύο έξε ν, στην συνέ- εια υπο ο ίζεται η έν ση τ ν συνό ν τ ν ε ράφ ν. Από τον αντεστραμμένο κατά ο ο έ ουμε ότι τα έ ραφα που περιέ ουν τον όρο π ανήτης είναι τα d 4, d 5, d 6, d 7, ενώ τα έ ραφα που περιέ ουν τον όρο Άρης είναι τα d 4, d 7. Τα σ ετικά έ ραφα ς προς το ερώτημα q 2 αντιστοι ούν στην έν ση τ ν επιμέρους αποτε εσμάτ ν. Άρα, η απάντηση στο ερώτημα q 2 είναι: A 2 = {d 4, d 5, d 6, d 7 } {d 4, d 7 } = {d 4, d 5, d 6, d 7 } Στη συνέ εια εξετάζουμε τον τρόπο επεξερ ασίας ενός ερ τήματος που ρησιμοποιεί τη σύζευξη. Έστ το ερώτημα q 3 = π ανήτης Άρης. Τα σ ετικά έ ραφα ς προς το ερώτημα αυτό είναι αυτά που περιέ ουν και τους δύο όρους. Με άση τις ίστες εμφανίσε ν ια την κά ε όρο ια να υπο ο ίσουμε την ο οκ ηρ μένη απάντηση α πρέπει να υπο ο ίσουμε την τομή τ ν επιμέρους αποτε εσμάτ ν. Επομέν ς: A 3 = {d 4, d 5, d 6, d 7 } {d 4, d 7 } = {d 4, d 7 } Στην περίπτ ση της σύζευξης α μπορούσαμε να εφαρμόσουμε και μία ά η τε νική αν το επιτρέπει ο τρόπος ορ άν σης του αντεστραμμένου κατα ό ου. Αν μπορούμε να εκτε έσουμε τυ αία προσπέ αση (random access) σε μία ίστα εμφανίσε ν, τότε ίσ ς μία κα ύτερη ύση είναι να ρησιμοποιήσουμε τους κ δικούς τ ν ε ράφ ν που εντοπίσαμε ια τον όρο Άρης και να εκτε έσουμε τυ αίες προσπε άσεις στη ίστα εμφανίσε ν του όρου π ανήτης. Όσα έ ραφα εντοπισ ούν στη δεύτερη ίστα ανήκουν στην απάντηση του ερ τήματος. Επίσης, σε περίπτ ση που το ερώτημα περιέ ει περισσότερους όρους οι οποίοι συνδέονται με σύζευξη ( ο ικό ΚΑΙ), η εκτέ εση της πράξης της τομής αρ ίζει από τις ίστες εμφανίσε ν που έ ουν το μικρότερο μήκος. Η εφαρμο ή του κανόνα αυτού έ ει ς αποτέ εσμα να απαιτούνται στη ενική πρίπτ ση ι ότερες πράξεις ια την εκτέ εση του ερ τήματος στο σύνο ο του. Αν και η ρήση με όδ ν ε τιστοποίησης είναι πο ύ σημαντική ια την τα ύτητα επεξερ ασίας τ ν ερ τημάτ ν, δεν α εμ α ύνουμε περισσότερο στο έμα αυτό. Ενώ ια τις πράξεις της διάζευξης και της σύζευξης απαιτούνται μόνο οι κ δικοί τ ν ε ράφ ν ια τον προσδιορισμό της απάντησης, ια την υποστήριξη τ ν τε εστών ADJ, NEAR/x, WITH και SAME απαιτείται ιδιαίτερη μετα είριση τ ν ιστών εμφάνισης. Στη συνέ εια ας εξετάσουμε ένα παράδει μα ερ τήματος που ρησιμοποιεί τον τε εστή ADJ. Έστ το ερώτημα q 4 = π ανήτης ADJ (Άρης

60 Κεφάλαιο 3. Το Λογικό Μοντέλο Δίας). Τα σ ετικά έ ραφα περιέ ουν τον όρο π ανήτης και συνε όμενα τον όρο Άρης ή τον όρο Δίας. Ενα ακτικά το ερώτημα ράφεται και ς: q 4 = π ανήτης ADJ Άρης π ανήτης ADJ Δίας. Για την επεξερ ασία αυτού του ερ τήματος ακο ου ούμε την εξής τακτική: Βήμα 1: Στο πρώτο ήμα ρίσκουμε τις ίστες εμφανίσε ν τ ν έξε ν π ανήτης, Άρης και Δίας, απευ είας από τον αντεστραμμένο κατά ο ο. Οι ίστες εμφανίσε ν τ ν έξε ν αυτών έ ουν ς εξής: Λίστα_Εμφανίσε ν(π ανήτης) = [d 4, 3], [d 5, 3], [d 6, 51], [d 7, 19] Λίστα_Εμφανίσε ν(άρης) = [d 4, 12], [d 7, 3] Λίστα_Εμφανίσε ν(δίας) = [d 5, 12] Βήμα 2: Προσδιορίζουμε σε ποια έ ραφα οι όροι π ανήτης και Άρης εμφανίζονται μαζί. Επανα αμ άνουμε τη διαδικασία ια τους όρους π ανήτης και Δίας. Είναι εύκο ο να διαπιστώσουμε ότι τα έ ραφα που περιέ ουν και τους δύο όρους π ανήτης και Άρης είναι τα d 4 και d 7. Ομοί ς διαπιστώνουμε ότι το d 5 είναι το μοναδικό έ ραφο που περιέ ει τους όρους π ανήτης και Δίας. Βήμα 3: Με άση την π ηροφορία ια τη έση εμφάνισης του κά ε όρου μέσα στο έ ραφο, προσδιορίζουμε αν οι όροι εμφανίζονται συνε όμενες μέσα στο έ ραφο. Εξετάζοντας τα έ ραφα που περιέ ουν τους όρους π ανήτης και Άρης διαπιστώνουμε ότι το έ ραφο d 7 δεν είναι δυνατόν να ικανοποιεί τη συν ήκη π ανήτης ADJ Άρης, διότι ο όρος π ανήτης εμφανίζεται στη έση 19. ενώ ο όρος Άρης στη έση 3, δη αδή πριν τον όρο π ανήτης. Επομέν ς, απορρίπτουμε το έ ραφο d 7. Εξετάζοντας το έ ραφο d 4 διαπιστώνουμε ότι ικανοποιεί τη συν ήκη π ανήτης ADJ Άρης. Πρά ματι, ο όρος π ανήτης εμφανίζεται στη έση 3 ενώ ο όρος Άρης στη έση 12. Εφόσον το π ή ος τ ν αρακτήρ ν του όρου π ανήτης είναι 8 και προσμετρώντας τον κενό αρακτήρα, τότε δεν υπάρ ει περίπτ ση μεταξύ τ ν έξε ν π ανήτης και Άρης να παρεμ ά εται κάποιος ά ος όρος. Επομέν ς, το έ ραφο d 4 συμπερι αμ άνεται στην απάντηση. Με το ίδιο σκεπτικό προσδιορίζουμε ότι το έ ραφο d 5 ανήκει στην απάντηση. Με άση τα προη ούμενα, η απάντηση στο ερώτημα αποτε είται από τα έ ραφα d 4 και d 5. Από το προη ούμενο παράδει μα διαπιστώνουμε ότι ανά ο α με τους τε εστές που υπάρ ουν στο ερώτημα μπορεί να απαιτη εί αρκετή προσπά εια ια τον προσδιορισμό της απάντησης. Αν το ερώτημα περιέ ει μόνο τους ασικούς ο ικούς τε εστές, τότε η απάντηση στο ερώτημα μπορεί να προσδιοριστεί ρίς να εξετάζουμε την π ηροφορία έσης του αντεστραμμένου κατα ό ου. Σε αντί ετη

3.2. Το Απλό Λογικό Μοντέλο 61 περίπτ ση όπου υπάρ ουν και τε εστές ειτνίασης, τότε οπ σδήποτε α πρέπει να ά ουμε υπόψη τη έση τ ν έξε ν μέσα στα έ ραφα. Η διαδικασία επεξερ ασίας μπορεί να ίνει ακόμη δυσκο ότερη σε περιπτώσεις όπου το ερώτημα περι αμ άνει περισσότερους όρους και πιο σύν ετες ο ικές συν ήκες. 3.2.4 Π εονεκτήματα και Μειονεκτήματα Το ασικό π εονέκτημα του απ ού Λο ικού μοντέ ου είναι το ότι στηρίζεται στη Θε ρία Συνό ν και επομέν ς μπορεί να ίνει εύκο α αντι ηπτό. Η απ ότητα του μοντέ ου ήταν και ο σημαντικότερος ό ος ια την ευρεία αποδο ή του από τους κατασκευαστές συστημάτ ν. Ωστόσο, υπάρ ουν αρκετά αδύνατα σημεία που μπορεί να δημιουρ ήσουν προ ήματα στη διαδικασία ανάκτησης. Μερικά από αυτά εξετάζουμε στη συνέ εια. Ένα από τα σημαντικότερα μειονεκτήματα του μοντέ ου είναι ότι δεν υποστηρίζει τη α μο ό ηση τ ν αποτε εσμάτ ν ς προς τη σ ετικότητα με το ερώτημα. Αυτό σημαίνει ότι ένα έ ραφο είτε α ανήκει στην απάντηση είτε ό ι. Αυτή η ιδιότητα του μοντέ ου είναι αρκετά περιοριστική κα ώς έ ραφα που σ ετίζονται μερικώς με το ερώτημα δεν ανακτώνται. Αν συμ ο ίσουμε με S boolean (q, d) την ομοιότητα ενός ερ τήματος q και ενός ε ράφου d τότε έ ουμε: { 0 εάν το d δεν ικανοποιεί τις συν ήκες του q S boolean (q, d) = 1 εάν το d ικανοποιεί τις συν ήκες του q Ένα δεύτερο πρό ημα με τη ρήση του μοντέ ου είναι ότι δεν είναι εύκο ο ια τους ρήστες να διατυπώνουν πο ύπ οκα ερ τήματα με σύν ετες ο ικές εκφράσεις. Η διατύπ ση μίας ο ικής έκφρασης με δύο όρους και έναν τε εστή είναι μία απ ή υπό εση. Η ρήση όμ ς περισσότερ ν όρ ν και τε εστών δυσκο εύει τη διαδικασία της διατύπ σης του ερ τήματος. Ένα ακόμη σημαντικό μειονέκτημα του μοντέ ου είναι ότι δεν μπορεί να ειριστεί σ στά όρους που ράφονται με τον ίδιο τρόπο α ά αναφέρονται σε διαφορετικές έννοιες. Για παράδει μα, αν με το ερώτημα q = Άρης εννοούμε την π ανήτη Άρη, το σύστημα α μας επιστρέψει και έ ραφα που ενδε ομέν ς υπάρ ουν απο ηκευμένα και αναφέρονται στο εό του πο έμου. Τέ ος, ίσ ς το σημαντικότερο μειονέκτημα του μοντέ ου είναι ότι το π ή ος τ ν απαντήσε ν είτε α είναι πο ύ μικρό είτε πο ύ με ά ο. Αυτό οφεί εται στη ρήση ο ικών εκφράσε ν ια τη διατύπ ση τ ν ερ τημάτ ν και στο ε ονός ότι δεν ρησιμοποιούνται άρη στους όρους τα οποία να δη ώνουν πόσο σημαντικός είναι ένας όρος ια ένα έ ραφο. Ένας όρος είτε α έ ει άρος 1 (υπάρ ει στο έ ραφο) είτε 0 (δεν υπάρ ει στο έ ραφο).

62 Κεφάλαιο 3. Το Λογικό Μοντέλο Στη συνέ εια α με ετήσουμε μία σημαντική επέκταση του ασικού Λο ικού μοντέ ου που έ ει ς στό ο την απα οιφή μερικών από τα μειονεκτήματα που εμφανίζει. Σε ά α κεφά αια α με ετήσουμε διαφορετικά μοντέ α που ξεφεύ ουν αρκετά από την προσέ ιση αυτή. 3.3 Το Εκτεταμένο Λο ικό Μοντέ ο Το εκτεταμένο Λογικό μοντέλο (extended Boolean model) προτά ηκε από τους Salton, Fox και Wu το 1983 [5] ια να αντιμετ πίσει μερικά ασικά προ- ήματα που εμφανίζει το απ ό Λο ικό μοντέ ο. Σύμφ να με την κατη οριοποίηση τ ν μοντέ ν Ανάκτησης Π ηροφορίας που περι ράφεται στο ι ίο [3], το εκτεταμένο Λο ικό μοντέ ο ανήκει στην κατη ορία τ ν εναλλακτικών συνολοθεωρητικών μοντέλων (alternative set-theoretic models). Το δεύτερο μοντέ ο που συμπ ηρώνει την κατη ορία αυτή είναι το μοντέλο Ασαφούς λογικής (fuzzy model). Έστ το ερώτημα q and = t a t b που ρησιμοποιεί τους όρους t a και t b και το ο ικό τε εστή σύζευξης. Με άση το απ ό Λο ικό μοντέ ο, ένα έ ραφο d j της συ ο ής αρακτηρίζεται ς σ ετικό αν και μόνο αν περιέ ει και τους δύο όρους t a και t b. Σε διαφορετική περίπτ ση το έ ραφο αρακτηρίζεται μη σ ετικό και επομέν ς ο α μός ομοιότητας του ε ράφου ς προς το ερώτημα α είναι S boolean (q and, d j ) = 0. Αυτό σημαίνει ότι δεν ίνεται καμία διάκριση σε περίπτ ση που το d j περιέ ει έναν από τους δύο όρους. Άρα είτε το d j περιέ ει μόνο έναν από τους όρους είτε δεν περιέ ει κάποιον όρο, ο α μός ομοιότητας παραμένει 0. Αυτό το φαινόμενο παρουσιάζεται στον Πίνακα 3.4 ο οποίος συνοψίζει ό ες τις δυνατές περιπτώσεις σ ετικά με την εμφάνιση ή ό ι τ ν όρ ν στο έ ραφο. Παρατηρούμε ότι ια τις τρεις τε ευταίες περιπτώσεις η ομοιότητα του d j ς προς το q and είναι 0. Ωστόσο, α περίμενε κάποιος η ομοιότητα να είναι με α ύτερη σε περίπτ ση που ένας εκ τ ν δύο όρ ν εμφανίζεται στο έ ραφο. Το φαινόμενο αυτό ίνεται εντονότερο στην περίπτ ση που έ ουμε περισσότερους όρους που συνδέονται με ο ική σύζευξη. Παρόμοια παρατήρηση μπορεί να ίνει και στην περίπτ ση που το ερώτημα περιέ ει διάζευξη. Έστ το ερώτημα q or = t a t b. Σύμφ να με το απ ό Boolean μοντέ ο, ένα έ ραφο d j είτε περιέ ει έναν από τους δύο όρους είτε και τους δύο έ ει α μό ομοιότητας S boolean (q or, d j ) = 1. Θα περίμενε κάποιος, το έ ραφο που περιέ ει και τους δύο όρους να έ ει με α ύτερο α μό ομοιότητας από ένα έ ραφο που περιέ ει τον έναν από τους δύο όρους του ερ τήματος. Σύμφ να με το εκτεταμένο Λο ικό μοντέ ο, το κά ε έ ραφο αναπαρίσταται με τη οή εια ενός διανύσματος αρών. Στο Σ ήμα 3.5 παρουσιάζεται η αναπα-

3.3. Το Εκτεταμένο Λογικό Μοντέλο 63 όρος t a όρος t b Sim(q and, d j ) ΝΑΙ ΝΑΙ 1 ΝΑΙ ΟΧΙ 0 ΟΧΙ ΝΑΙ 0 ΟΧΙ ΟΧΙ 0 όρος t a όρος t b Sim(q or, d j ) ΝΑΙ ΝΑΙ 1 ΝΑΙ ΟΧΙ 1 ΟΧΙ ΝΑΙ 1 ΟΧΙ ΟΧΙ 0 (α) σύζευξη ( ) διάζευξη Πίνακας 3.4: Ομοιότητα εγγράφου για τις περιπτώσεις εμφάνισης ή όχι των όρων t a, t b. (0, 1) (1, 1) (0, 1) (1, 1) tb taandtb tb taortb wbk dk wbk dk wbj dj wbj dj (0, 0) waj (α) σύζευξη wak ta (1, 0) (0, 0) waj ( ) διάζευξη wak ta (1, 0) Σχήμα 3.5: Απεικόνιση εγγράφων στο επίπεδο. ράσταση δύο ε ράφ ν d j και d k στην περίπτ ση που έ ουμε δύο όρους. Αν συμ ο ίσουμε με d j και d k τα αντίστοι α διανύσματα τ ν ε ράφ ν, τότε έ ουμε d j = (w a,j, w b,j ) και d k = (w a,k, w b,k ), όπου w a,j και w b,j είναι οι συντετα μένες ( άρη) του ε ράφου d j, και w a,k, w b,k οι συντετα μένες του ε ράφου d k. Οι τιμές τ ν αρών φροντίζουμε να είναι κανονικοποιημένες στο διάστημα τιμών [0,1]. Το άρος w x,j όπου ενός όρου t x σε ένα έ ραφο d j δη ώνει το πόσο σημαντικός είναι ο όρος ια το έ ραφο. Υπάρ ουν διάφοροι τρόποι προσδιορισμού της σημαντικότητας ενός όρου. Εδώ α ρησιμοποιήσουμε μία από τις τε νικές προσδιορισμού αρών που ρησιμοποιείται και από πο ά συστήματα που ασίζονται στο Διανυσματικό μοντέ ο ανάκτησης και ανα ύεται σε επόμενο κεφά αιο. Συμ ο ίζουμε με nf x,j την κανονικοποιημένη συχνότητα εμφάνισης (normalized frequency) του όρου t x στο έ ραφο d j, που δίνεται από τον εξής μα ηματικό

64 Κεφάλαιο 3. Το Λογικό Μοντέλο τύπο: nf x,j = f x,j max y {f y,j } (3.1) όπου f x,j είναι ο αρι μός τ ν εμφανίσε ν του όρου t x στο έ ραφο d j, ενώ max y {f y,j } είναι ο αρι μός εμφανίσε ν του όρου με τις περισσότερες εμφανίσεις μέσα στο έ ραφο d j. Επομέν ς, η τιμή nf x,j είναι κανονικοποιημένη στο διάστημα τιμών [0,1]. Έστ τώρα ότι συμ ο ίζουμε με idf x την ανάστροφη συχνότητα εγγράφων (inverse document frequency) που μας δίνει τον αρι μό τ ν ε ράφ ν που περιέ ουν τον όρο t x. Για τον προσδιορισμό της τιμής αυτής ρησιμοποιείται ο ακό ου ος τύπος: idf x = log N n x (3.2) όπου N είναι ο συνο ικός αρι μός ε ράφ ν της συ ο ής και n x είναι ο αρι μός ε ράφ ν που περιέ ουν τον όρο t x. Η κανονικοποιημένη μορφή nidf x δίνεται από τον τύπο: nidf x = idf x max y {idf y } (3.3) όπου max y {idf y } είναι η μέ ιστη τιμή idf που οφεί εται σε κάποιον όρο t y. Είναι προφανές ότι το nidf x παίρνει τιμές άπό το διάστημα [0,1]. Με άση τις εξισώσεις 3.1 και 3.3 η τιμή του άρους w x,j υπο ο ίζεται ς εξής [9, 6]: w x,j = nf x,j nidf x (3.4) Η Εξίσ ση 3.4 στην ουσία αναφέρει ότι όσο περισσότερες φορές εμφανίζεται ο όρος t x στο έ ραφο d j, τόσο πιο σημαντικός ίνεται ο όρος ια το έ ραφο. Ωστόσο, σε όσο περισσότερα έ ραφα εμφανίζεται ο όρος t x, τόσο μειώνεται η σημαντικότητά του. Για παράδει μα, έστ ότι ο όρος ένας αναφέρεται πο ές φορές μέσα σε ένα έ ραφο. Άρα α υπέ ετε κάποιος η σημαντικότητα του όρου να είναι με ά η. Όμ ς, ο όρος αυτός ρίσκεται σ εδόν σε ό α τα έ ραφα, με αποτέ εσμα η σημαντικότητά της να μειώνεται. Εφόσον έ ουμε κα ορίσει τον τρόπο αναπαράστασης του κά ε ε ράφου, στη συνέ εια περι ράφουμε τον τρόπο α μο ό ησης του κά ε ε ράφου με άση το ερώτημα. Αρ ικά δίνεται η μέ οδος α μο ό ησης στην περίπτ ση του ερ τήματος q and. Ο κα ύτερος α μός ια ένα έ ραφο d j σύμφ να με το ερώτημα σύζευξης αντιστοι εί στην περίπτ ση που και οι δύο όροι t a και t b περιέ ονται στο έ ραφο. Σύμφ να με το Σ ήμα 3.5(α) η περίπτ ση αυτή αντιστοι εί στην

3.3. Το Εκτεταμένο Λογικό Μοντέλο 65 επάν -δεξιά νία του επιπέδου. Άρα, όσο πιο κοντά στη νία αυτή ρίσκεται το σημείο που αντιστοι εί στο έ ραφο, τόσο με α ύτερος ο α μός του ε ράφου. Αν οι αποστάσεις μετρώνται ρησιμοποιώντας την Ευκ είδεια απόσταση, τότε η ομοιότητα του ε ράφου d j ς προς το ερώτημα q and δίνεται από τον ακό ου ο τύπο: S xboolean (q and, d j ) = 1 (1 wa,j ) 2 + (1 w b,j ) 2 2 (3.5) Για την περίπτ ση του ερ τήματος διάζευξης q or, το σημείο που πρέπει να αποφύ ουμε είναι η κάτ -αριστερή νία στο επίπεδο του Σ ήματος 3.5( ). Επομέν ς, η ομοιότητα του ε ράφου d j ς προς το ερώτημα q or δίνεται από τον τύπο: wa,j 2 S xboolean (q or, d j ) = + w2 b,j (3.6) 2 Παράδει μα 3.1 Στη συνέ εια παρα έτουμε ένα παράδει μα υπο ο ισμού τ ν αρών και της ομοιότητας στο εκτεταμένο Λο ικό μοντέ ο με άση τη μικρή συ ο ή του Σ ήματος 3.1. Θε ρούμε ότι t a = κομήτης και t b = Χά εϋ. Επομέν ς, τα ερ τήματα q and και q or διατυπώνονται ς εξής: q and = κομήτης Χά εϋ και q or = κομήτης Χά εϋ. Αρ ικά πρέπει να υπο ο ίσουμε τα άρη τ ν όρ ν του ερ τήματος σε σ έση με τα έ ραφα που μας ενδιαφέρουν. Έστ ότι έ ουμε να υπο ο ίσουμε το α μό ομοιότητας τ ν ε ράφ ν d 1, d 2, d 3 και d 4. Στο έ - ραφο d 1 ο όρος κομήτης εμφανίζεται μία φορά, επομέν ς f a,1 = 1. Η με α ύτερη συ νότητα εμφάνισης στο έ ραφο είναι 1, αφού κανένας όρος του ε ράφου δεν εμφανίζεται περισσότερες από μία φορά. Επομέν ς, με άση την Εξίσ ση 3.1 η κανονικοποιμένη συ νότητα εμφάνισης του όρου κομήτης στο έ ραφο d 1 είναι nf a,1 = 1. Με τη οή εια του τύπου 3.2 υπο ο ίζουμε την ανάστροφη συ- νότητα ε ράφ ν. Ο όρος κομήτης εμφανίζεται σε n a = 4 έ ραφα. Εφόσον ο συνο ικός αρι μός τ ν ε ράφ ν της συ ο ής είναι N = 7, τότε σύμφ να με την Εξίσ ση 3.2 έ ουμε idf a = 0.243. Η μέ ιστη ανάστροφη συ νότητα ε ράφ ν αντιστοι εί στον όρο που εμφανίζεται στα ι ότερα έ ραφα της συ ο ής. Υπάρ ουν όροι που εμφανίζονται σε ένα μόνο έ ραφο, όπ ς ια παράδει μα ο όρος τρο ιά. Επομέν ς, η μέ ιστη ανάστροφη συ νότητα ε ράφ ν είναι 0.845. Άρα, με άση την Εξίσ ση 3.3 έ ουμε nidf a = 0.243/0.845 = 0.288. Αντικα ιστώντας τις αντίστοι ες τιμές που υπο ο ίσαμε προη ουμέν ς στον τύπο 3.4, προσδιορίζουμε το άρος του όρου κομήτης στο έ ραφο d 1. Άρα w a,1 = 1 0.288 = 0.288. Η ίδια διαδικασία εφαρμόζεται και ια τα υπό οιπα έ ραφα.

66 Κεφάλαιο 3. Το Λογικό Μοντέλο Η προη ούμενη προσέ ιση ενικεύεται εύκο α και ια περιπτώσεις περισσότερ ν όρ ν στο ερώτημα. Ωστόσο, μία πιο ενική προσέ ιση που υποστηρίζει πο ές μετρικές απόστασης (και ό ι μόνο την Ευκ είδεια) με ετή ηκε στις ερ- ασίες [5, 1]. Η προσέ ιση αυτή στηρίζεται στη ρήση p-νορμών (p-norms) και προσφέρει με ά η ευε ιξία στον ορισμό της ομοιότητας. Έστ ότι ένα ερώτημα περιέ ει m όρους, t 1,..., t m. Σύμφ να με το μοντέ ο p-νόρμας, όπου 1 p, τα ερ τήματα σύζευξης και διάζευξης ορίζονται ς εξής: q and = t 1 p t 2 p... p t m q or = t 1 p t 2 p... p t m όπου p και p είναι οι ενικευμένοι τε εστές ια τη σύζευξη και τη διάζευξη αντίστοι α με άση το μοντέ ο p-νόρμας. Αν συμ ο ίσουμε με w i,j το άρος του όρου t i στο έ ραφο d j τότε η ομοιότητα του ε ράφου d j με άση τα ερ τήματα q and και q or προσδιορίζεται από τους εξής τύπους: S xboolean (q and, d j ) = 1 p m i=1 (1 w i,j) p m (3.7) m S xboolean (q or, d j ) = p i=1 wp i,j m (3.8) Με άση αυτούς τους τύπους υπο ο ισμού της ομοιότητας ε ράφ ν, ια διαφορετικές τιμές της μετα ητής p παίρνουμε διαφορετικές μορφές ομοιότητας. Για παράδει μα, έτοντας p = 1 στις Εξισώσεις 3.7 και 3.8, τότε δεν υπάρ ει δια ρισμός μεταξύ του ερ τήματος σύζευξης και του ερ τήματος διάζευξης, όπ ς φαίνεται κα αρά από την ακό ου η σ έση: S xboolean (q and, d j ) = S xboolean (q or, d j ) = m i=1 w i,j m Αν έσουμε p = τότε η ομοιότητα ενός ε ράφου ς προς τα ερ τήματα σύζευξης και διάζευξης ταυτίζεται με την ομοιότητα όπ ς προσδιορίζεται από το μοντέ ο Ασαφούς ο ικής, δη αδή: S xboolean (q and, d j ) = min{w i,j } και S xboolean (q or, d j ) = max{w i,j } i Ο μα ηματικός τύπος της ομοιότητας ια ένα τυ αίο ερώτημα που περιέ ει πο ούς τε εστές p και p προσδιορίζεται εύκο α. Για παράδει μα, έστ το i

3.4. Σύνοψη και Περαιτέρω Μελέτη 67 ερώτημα q = t 1 p (t 2 p t 3 ). Παρατηρούμε ότι η πράξη p προη είται της πράξης p. Η ομοιότητα ενός ε ράφου d j ς προς το q είναι: w p temp = p 2,j + wp 3,j 2 (1 S xboolean (q, d j ) = 1 p w1,j ) p + (1 temp) p 2 ) p (1 w 1,j) p + (1 p w p p 2,j +wp 3,j 2 = 1 2 (3.9) Παρατηρούμε ότι ο τύπος εφαρμόζεται αναδρομικά με άση τον αρι μό τ ν πράξε ν p και p που περιέ ονται στο ερώτημα. Η παράμετρος p κα ορίζεται από το ρήστη, ενώ η έ τιστη τιμή της παραμέτρου κα ορίζεται πειραματικά και εξαρτάται κατά κύριο ό ο από τη συ ο ή ε ράφ ν. Συνή ς ρησιμοποιείται μία τιμή του p από το διάστημα [2,5] [4]. Επίσης, είναι δυνατή η ρήση διαφορετικών τιμών της παραμέτρου p μέσα στο ίδιο ερώτημα, κάτι που προσφέρει ακόμη με α ύτερη ευε ιξία στον τρόπο διατύπ σης τ ν ερ τημάτ ν. Για παράδει μα, ο ρήστης μπορεί να διατυπώσει ερ τήματα όπ ς: t 1 (t 2 3 t 3 ). 3.4 Σύνοψη και Περαιτέρ Με έτη Το απ ό Λο ικό μοντέ ο είναι από τα πρώτα μοντέ α ανάκτησης που έ ουν ρησιμοποιη εί, ό της απ ότητάς του. Το μοντέ ο στηρίζεται στη Θε ρία Συνό ν και τα ερ τήματα διατυπώνονται με τη οή εια ο ικών εκφράσε ν που περιέ ουν όρους και τους ασικούς ο ικούς τε εστές (σύζευξη), (διάζευξη) και (άρνηση). Για την α α ή της προτεραιότητας τ ν τε εστών ρησιμοποιούνται παρεν έσεις. Δύο από τα ασικά μειονεκτήματα του απ ού Λο ικού μοντέ ου είναι η απουσία α μο ό ησης τ ν ε ράφ ν ς προς ερώτημα και το ε ονός ότι το π ή ος τ ν ε ράφ ν της απάντησης είναι είτε πο ύ μικρό είτε πο ύ με ά ο. Επομέν ς, οι ερευνητές στράφηκαν προς ενα ακτικά μοντέ α με στό ο την απα οιφή τ ν προ ημάτ ν του απ ού Λο ικού μοντέ ου. Μία από τις σημαντικότερες επεκτάσεις οδή ησε στο εκτεταμένο Λο ικό μοντέ ο με ρήση p-νορμών που περι ράφεται ανα υτικά στην ερ ασία [5] κα ώς επίσης και στη διδακτορική διατρι ή του Fox [1].

68 Κεφάλαιο 3. Το Λογικό Μοντέλο Ο ενδιαφερόμενος ανα νώστης μπορεί να ανατρέξει επίσης και σε ένα π ή ος ά ν ερευνητικών ερ ασιών στις οποίες με ετάται η συμπεριφορά του απ ού και του εκτεταμένου Λο ικού μοντέ ου και συ κρίνεται η απόδοσή του με ά α μοντέ α ανάκτησης. Χαρακτηριστικά αναφέρουμε την ερ ασία [7] όπου παρουσιάζονται οι μέ οδοι προσδιορισμού ομοιότητας ε ράφ ν σε συστήματα που ρησιμοποιούν Λο ικά μοντέ α και την ερ ασία [4] όπου ίνεται μία ανασκόπηση τ ν μοντέ ν ανάκτησης που ρησιμοποιούνται στον πα κόσμιο ιστό. 3.5 Ασκήσεις 3.1 Ποιά είναι κατά τη νώμη σας τα π εονεκτήματα και τα μειονεκτήματα του απ ού Λο ικού μοντέ ου; 3.2 Ποιές είναι οι επεκτάσεις που προσφέρει το εκτεταμένο Λο ικό μοντέ ο; 3.3 Να περι ράψετε τον τρόπο προσδιορισμού της ομοιότητας ενός ε ράφου με ένα ερώτημα με άση τον τε εστή OR (q or ) και τον τε εστή AND (q and ). 3.4 Να διατυπώσετε τον μα ηματικό τύπο που δίνει την ομοιότητα μεταξύ ενός ε ράφου της συ ο ής και του ερ τήματος q = t 1 p (t 2 p t 3 ). 3.5 Ποιά είναι η ρησιμότητα της ανάστροφης συ νότητας ε ράφ ν (idf); 3.6 Για ποιό ό ο πιστεύετε ότι ρησιμοποιείται ο ο άρι μος στον ορισμό της ποσότητας idf; Δεν α μπορούσε το μοντέ ο να ειτουρ ήσει ρίς ο αρί μηση; 3.7 Να αναφέρετε εφαρμο ές όπου το απ ό Λο ικό μοντέ ο είναι αρκετό και περιπτώσεις όπου το εκτεταμένο Λο ικό μοντέ ο είναι προτιμότερο. 3.8 Για τη συ ο ή ε ράφ ν του Σ ήματος 3.1 να κατασκευάσετε έναν αντεστραμμένο κατά ο ο και να τον ρησιμοποιήσετε ια την απάντηση τ ν ερ τημάτ ν: (i) Χά εϋ OR αστρονόμος, (ii) π ανήτης AND Δίας, (iii) Άρης OR δορυφόρους. Σ ο ιάστε ια την απόδοση στην εκτέ εση τ ν ερ τημάτ ν αυτών απουσία κατα ό ου. 3.9 Να κατασκευαστεί πρό ραμμα που να δια άζει τη συ ο ή ε ράφ ν CRAN και στη συνέ εια να δίνει στο ρήστη τη δυνατότητα να ρησιμοποιεί είτε το απ ό Λο ικό μοντέ ο είτε το εκτεταμένο Λο ικό μοντέ ο ια την επεξερ ασία τ ν ερ τημάτ ν. Θε ρήστε ότι δεν μας ενδιαφέρει ο κατά ο ος.

3.5. Ασκήσεις 69 3.10 Στο σύστημα που κατασκευάσατε στην προη ούμενη άσκηση να το ρησιμοποιήσετε ια τη με έτη της σ έσης του π ή ους τ ν απαντήσε ν ς προς τον αρι μό τ ν όρ ν που υπάρ ουν στο ερώτημα και συνδέονται με το ο ικό τε εστή AND. 3.11 Δίνεται το ερώτημα q = t 1 t 2 (t 3 t 4 ). Να διατυπώσετε το ερώτημα σε διαζευκτική κανονική μορφή και να ρείτε έναν α όρι μο υπο ο ισμού της διαζευκτικής κανονικής μορφής ια κά ε ο ική έκφραση. 3.12 Να σ εδιάσετε μία δική σας συνάρτηση ομοιότητας μεταξύ ενός ερ τήματος q και ενός ε ράφου d που να ασίζεται στο π ή ος τ ν κοινών όρ ν, και να εντοπίσετε τα π εονεκτήματα και μειονεκτήματα σε σ έση με το απ ό και το εκτεταμένο Λο ικό μοντέ ο.

Βι ιο ραφία [1] E.A. Fox. Extending the Boolean and Vector Space Models of Information Retrieval with P-Norm Queries and Multiple Concept Types. PhD thesis, Cornell University, 1983. [2] W.B. Frakes and Baeza-Yates (eds). Information Retrieval: Data Structures and Algorithms. Prentice Hall, Englewood Cliffs, NJ, 1992. [3] CiteSeer. http://citeseer.ist.psu.edu. [4] V.N. Gudivada, V.V. Raghavan, W.I. Grosky, and R. Kasanagottu. Information retrieval on the world wide web. IEEE Internet Computing, 1(5):58-68, 1997. [5] G. Salton, E.A. Fox, and H. Wu. Extended boolean information retrieval. Communications of the ACM, 26(11):1022-1036, 1983. [6] G. Salton. Automatic Text Processing. Addison-Wesley, Reading, Mass., 1989. [7] J. Savoy. Ranking schemes in hybrid boolean systems: A new approach. Journal of the American Society for Information Sciences, 48(3):235-253, 1997. [8] WestLaw. http://www.wetslaw.com. 71