Το Διανυσματικό Μοντέ ο

Σχετικά έγγραφα
Το Λο ικό Μοντέ ο. Περιε όμενα Κεφα αίου

Ο Αντεστραμμένος Κατά ο ος

Το Πι ανοκρατικό Μοντέ ο

Ο Κατά ο ος Υπο ραφών

Αποτίμηση Αποτε εσματικότητας

Εισα ή στην Ανάκτηση Π ηροφορίας

Ανάκτηση Π ηροφορίας. Συ ραφή Απόστο ος Ν. Παπαδόπου ος Ι άννης Μαν όπου ος Κ νσταντίνος Τσί ας. Κριτικός Ανα νώστης Δημήτριος Κατσαρός

Ανάκτηση Π ηροφορίας στον Πα κόσμιο Ιστό

Α όρι μοι και Πο υπ οκότητα 1η Σειρά Γραπτών Ασκήσε ν

Παρά η η Δια είριση Δεδομέν ν

Κανονισμός Εποπτικού Συμ ου ίου

Κανονισμός Διοικητικού Συμ ου ίου

Κανονισμός Εκτε εστικής Επιτροπής

Ανάκτηση Πληροφορίας

Απ ή υ οποίηση α ορί μου Fast Multipole Method ανεξάρτητου συνάρτησης πυρήνα

Κανονισμός Οικονομικής Δια είρισης

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Ανάπτυξη Βι ιο ήκης Γραφικών ια Ενσ ματ μένο Σύστημα

Επέκταση του συστήματος ανοι τού κώδικα Pig

Ανάκτηση Πληροφορίας

ΕΠΑΝΑΛΗΠΣΙΚΕ ΑΚΗΕΙ ΜΙΓΑΔΙΚΟΤ-ΟΡΙΑ-ΤΝΕΧΕΙΑ

Π Ε Δ (Π.Ε.Δ.) Ι Ν ΠΕΔ. Κανονισμοί. ΟΕΥ Προσωπικού Διοικητικού Συμβουλίου Εκτελεστικής Επιτροπής Οικονομικής Διαχείρισης Εποπτικού Συμβουλίου

Ορ ανισμός Εσ τερικής Υπηρεσίας

ΚΑΝΟΝΙΣ ΜΟ Ι ΙΕΞΑΓΩΓΗΣ ΑΓΩΝΩΝ 1 / 8 SCALE IC TRA CK ΕΛ. Μ. Ε

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Η εκτρικής Ισ ύος. Διπ ματική Ερ ασία

Ανάπτυξη Συστήματος Συστάσε ν Συνερ ατικής Διή ησης με ρήση Ιεραρ ικών Α ορί μ ν Κατάταξης

JEAN-CHARLES BLATZ 02XD RE52755

Ανάκτηση Πληροφορίας Εισαγωγή

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Εξόρυξη νώσης από μέσα κοιν νικής δικτύ σης: Με έτη περίπτ σης στο Twitter.

Ε νικό Μετσό ιο Πο υτε νείο

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Σ εδιασμός Συστημάτ ν Ε έ ου

ἔστω Ο...πισινός μας! American Bar το καναμε για όλους μας. * * * κι από τη Σκιά τους. σε κάθε νησί;

Ανάκτηση Πληροφορίας

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Χημικών Μη ανικών. Με έτη και σ εδιασμός με όδ ν Εξόρυξης Δεδομέν ν και εφαρμο ές σε προ ήματα Μετα ο ομικής

Ανάκτηση Πληροφορίας

Ε νικό Μετσό ιο Πο υτε νείο. Α όρι μοι Επανε ραφής Τροποποιημέν ν Ερ τημάτ ν ια Βατές Περι ραφικές Λο ικές

Ανάκτηση πληροφορίας

Ε νικό Μετσό ιο Πο υτε νείο. Πρακτικά Συστήματα Συ ο ιστικής ια Εκφραστικές Ασαφείς Περι ραφικές Λο ικές

20/5/ /5/ /5/ /5/2005

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ


Πα κ έ τ ο Ε ρ γ α σ ί α ς 4 Α ν ά π τ υ ξ η κ α ι π ρ ο σ α ρ µ ο γ ή έ ν τ υ π ο υ κ α ι η λ ε κ τ ρ ο ν ι κ ο ύ ε κ π α ι δ ε υ τ ι κ ο ύ υ λ ι κ ο

Ανάκτηση πληροφορίας

FAX : spudonpe@ypepth.gr) Φ. 12 / 600 / /Γ1

Ανάπτυξη συντακτικού ανα υτή φυσικής ώσσας με ρήση του φορμα ισμού LFG. Πανα ιώτης Μίνος

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας

Υ οποίηση αντα α ής κ ειδιού DH και ψηφιακών υπο ραφών ασισμένη σε ε ειπτικές καμπύ ες

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

ΘΕΜΑ: ΔΙΑΡΘΡΩΤΙΚΑ ΧΑ ΡΑ ΚΤ ΗΡ ΙΣ ΤΙ ΚΑ ΤΗΣ ΑΝΕΡΓΙΑΣ - ΠΤΥΧΙΑΚΗ ΕΡΓΑ ΣΙ Α - ΚΑΡΑ ΣΑ ΒΒ ΟΓ ΠΟ Υ ΑΝ ΑΣΤΑΣΙΟΣ

Ε νικό Μετσό ιο Πο υτε νείο

Ε νικό και Καποδιστριακό Πανεπιστήμιο Α ηνών. Δι οτομίες Πο υπ οκότητας σε Προ ήματα Μέτρησης

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Tη λ.: +30 (210) Fax: +30 (210)

1.3 Εσωτερικό Γινόμενο

ΤΜΗΜΑ ΦΩΚΑ/ΤΕΤΑΡΤΗ

Π α σα πνο η αι νε σα τω τον Κυ ρι. Π α σα πνο η αι νε σα α τω τον. Ἕτερον. Τάξις Ἑωθινοῦ Εὐαγγελίου, Ὀ Ν Ψαλµός. Μέλος Ἰωάννου Ἀ. Νέγρη.

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Ε νικό Μετσό ιο Πο υτε νείο. Διπ ματική Ερ ασία

α κα ρι ι ο ος α α νηρ ος ου ουκ ε πο ρε ε ευ θη εν βου λη η η α α σε ε ε βων και εν ο δω ω α α µαρ τω λω ων ουουκ ε ε ε


Information Retrieval

Πρι τ αρακτηρ οτικ λαπλ ουοτηματα μικρ ετ εξεργατ δ π υ τ

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Τι (άλλο) θα δούμε σήμερα;

Δημιουργία Ευρετηρίων Συλλογής Κειμένων


1.2.3 ιαρ θρω τι κές πο λι τι κές Σύ στη μα έ λεγ χου της κοι νής α λιευ τι κής πο λι τι κής...37

Θέ α: ωσ ή ια ροφή και άσκηση ια ο ς εφήβο ς.


ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Τ τμημα Ηλεκτρ Λ γ α ργ ΨηφιακΦ Συα ημ τω Α αθμ Σκ π τη κη η Σκ π τηζ κη η ε αι α ρησ μ π ε π υδαα η Λ γ κθζ π Λε π ΛΛΦ ε δω α α δε ξε τ τρ π με π γ ε

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό

ΣΤΟ ΧΟΣ- Ε ΠΙ ΔΙΩ ΞΗ ΠΛΑΙ ΣΙΟ ΧΡΗ ΜΑ ΤΟ ΔΟ ΤΗ ΣΗΣ

d u d dt u e u d dt e u d u 1 u dt e 0 2 e

0a1qqW+1a1`qÁlw n εν σοί Κύ ρι ε τρο πού μαι τού τον.

11:30-12:00 ιά ι α 12:00-14:00 ία: Α αιο ο ία αι α ς Α έ ος. ο ισ ς: ά ο ιο. οβο ή βί α ι έ ο ή ο Αθ αίω, Α φιθέα ο «Α ώ ς ί σ ς» Α α ίας


Ό λοι οι κα νό νες πε ρί με λέ της συ νο ψί ζο νται στον ε ξής έ να: Μά θε, μό νο προκει μέ νου. Friedrich Schelling. σελ. 13. σελ. 17. σελ.

20/5/ /5/ /5/ /5/2006

Βάσεις Δεδομένων ΙΙ Ενότητα 9

Αρ έ ονα αρυτικά κύματα από τον κοσμο ο ικό π η ρισμό και CMB

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΣΥΜΒΑΣΗ ΜΕΤΑΞΥ ΠΑΡΟΧΟΥ ΚΑΤΑΡΤΙΣΗΣ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΠΑΡΟΧΩΝ, ΩΦΕΛΟΥΜΕΝΟΥ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΩΦΕΛΟΥΜΕΝΩΝ ΚΑΙ ΕΠΙΧΕΙΡΗΣΗΣ ΠΡΑΚΤΙΚΗΣ ΑΣΚΗΣΗΣ

2006 (20/5/06 31/12/06)

αναλυτικός απλός 1 Ο αναλυτικός βλέπει τον κόσμο σαν να αποτελείται από πολλά μικρά κομμάτια.

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΕΙΔΙΚΟΣ ΛΟΓΑΡΙΑΣΜΟΣ ΚΟΝΔΥΛΙΩΝ ΕΡΕΥΝΑΣ

14/5/ /12/ /5/ /5/2007

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Επικοιν νιών, Η εκτρονικής και Συστημάτ ν Π ηροφορικής

(RTS) & RTS 16. COBB DOUGLAS ( σ = 1 ) 24 (CES) 27 M2SM COBB DOUGLAS 28 ; 31 COBB DOUGLAS 33

Ε.Ε. Π α ρ.ι(i), Α ρ.3932, 10/12/2004 Ο ΠΕΡΙ ΚΟΙΜΗΤΗΡΙΩΝ (ΤΑΦΗ ΚΑΙ ΕΚΤΑΦΗ) ΝΟΜΟΣ. H Βουλή των Αντιπροσώπων ψηφίζει ως ακολούθως:

Η κ άσση L A TEX dithesis

1.3 Εσωτερικό Γινόμενο

Transcript:

4 Το Διανυσματικό Μοντέ ο Περιε όμενα Κεφα αίου 4.1 Εισα ή............................ 74 4.2 Βασικές Έννοιες........................ 74 4.2.1 Υπο ο ισμός Σημαντικότητας Όρ ν......... 76 4.2.2 Υπο ο ισμός Ομοιότητας Ε ράφ ν......... 80 4.3 Ενα ακτικές Μέ οδοι..................... 83 4.4 Π εονεκτήματα και Μειονεκτήματα.............. 87 4.5 Σύνοψη και Περαιτέρ Με έτη................. 88 4.6 Ασκήσεις............................ 89 73

74 Κεφάλαιο 4. Το Διανυσματικό Μοντέλο 4.1 Εισα ή Στο κεφά αιο αυτό με ετούμε το Διανυσματικό μοντέλο ανάκτησης, που ρησιμοποιείται εκτενώς στα σύ ρονα συστήματα ανάκτησης. Το Διανυσματικό μοντέ ο στηρίζεται στη διανυσματική αναπαράσταση ε ράφ ν και ερ τημάτ ν ενώ η ομοιότητα ενός κειμένου και ενός ερ τήματος προσδιορίζεται με τη ρήση ειδικών μετρικών ομοιότητας. Στο Κεφά αιο 3 με ετήσαμε το εκτεταμένο Boolean μοντέ ο, που επίσης ρησιμοποιεί διανύσματα ια την αναπαράσταση τ ν ε ράφ ν. Ωστόσο, το Διανυσματικό μοντέ ο είναι ενικότερο, πιο απ ό στη ρήση του και αρακτηρίζεται από πο ύ κα ή αποτε εσματικότητα. Αρ ικά δίνουμε τις ασικές έννοιες που αρακτηρίζουν το Διανυσματικό μοντέ ο, με ετώντας τους τρόπους αναπαράστασης ε ράφ ν και ερ τημάτ ν. Στη συνέ εια εξετάζονται οι μετρικές ομοιότητας που ρησιμοποιούνται και ανα ύεται ο τρόπος επεξερ ασίας ερ τημάτ ν. Τέ ος αναφέρονται επεκτάσεις του απ ού διανυσματικού μοντέ ου που έ ουν προτα εί στη ι ιο ραφία με στό ο τη ε τί ση τ ν επιδόσε ν. Τονίζεται ότι το Διανυσματικό μοντέ ο προτά ηκε πριν το εκτεταμένο Boolean μοντέ ο. Αυτός είναι και ο ό ος του ότι μερικές από τις τε νικές που ρησιμοποιεί το εκτεταμένο Boolean μοντέ ο αρ ικά εί αν εφαρμοστεί στο Διανυσματικό μοντέ ο ανάκτησης. 4.2 Βασικές Έννοιες Το Διανυσματικό μοντέ ο ανάκτησης (vector space model) προτά ηκε από τον Salton (και τους συνερ άτες του) [4, 6], έναν από τους σημαντικότερους και πρ τοπόρους ερευνητές στην επιστημονική περιο ή της ανάκτησης π ηροφορίας. Κά ε έ ραφο d j της συ ο ής αναπαριστάται με ένα διάνυσμα d j = (w t1,d j, w t2,d j,..., w tm,d j ), όπου M είναι το π ή ος τ ν όρ ν της συ ο ής και w ti,d j είναι το άρος του όρου t i στο έ ραφο d j. Τονίζεται ότι η τιμή του M εξαρτάται από την προεπεξερ ασία που έ ουν υποστεί τα έ ραφα. Εάν έ ουμε αναπαράσταση π ήρους ε ράφου, η τιμή του M α είναι ο αρι μός ό ν τ ν μοναδικών έξε ν που εμφανίζονται σε ό α τα έ ραφα της συ ο ής, ενώ εάν έ ει προη η εί απα οιφή άρ ρ ν, ρημάτ ν και ά ν τύπ ν τότε η τιμή του M α είναι σαφώς μικρότερη. Στην πιο απ ή του μορφή, το Διανυσματικό μοντέ ο ε ρεί ότι τα άρη w ti,d j είναι είτε 0 είτε 1. Σε περίπτ ση που ο όρος t i περιέ εται στο έ ραφο d j έ ουμε w ti,d j = 1, ενώ σε διαφορετική περίπτ ση έ ουμε w ti,d j = 0. Η διανυσματική αναπαράσταση τ ν ε ράφ ν ίνεται περισσότερο κατανοητή εάν κατασκευάσουμε τον πίνακα όρ ν-ε ράφ ν, τον οποίο κα ούμε πίνακα D. Ο πίνακας αυτός έ ει

4.2. Βασικές Έννοιες 75 d 1 : d 2 : d 3 : d 4 : d 5 : d 6 : d 7 : Ο κομήτης του Χά εϋ μας επισκέπτεται περίπου κά ε ε δομήντα έξι ρόνια. Ο κομήτης του Χά εϋ ανακα ύφ ηκε από τον αστρονόμο Έντμοντ Χά εϋ. Ένας κομήτης δια ράφει ε ειπτική τρο ιά. Ο π ανήτης Άρης έ ει δύο φυσικούς δορυφόρους, το Δείμο και το Φό ο. Ο π ανήτης Δίας έ ει εξήντα τρεις ν στούς φυσικούς δορυφόρους. Ο Ή ιος είναι ένας αστέρας. Ο Άρης είναι ένας π ανήτης του η ιακού μας συστήματος. Σχήμα 4.1: Συλλογή εγγράφων. όρος d 1 d 2 d 3 d 4 d 5 d 6 d 7 κομήτης 1 1 1 0 0 0 0 π ανήτης 0 0 0 1 1 0 1 Χά εϋ 1 1 0 0 0 0 0 Άρης 0 0 0 1 0 0 1 Δίας 0 0 0 0 1 0 0 τρο ιά 0 0 1 0 0 0 0 Πίνακας 4.1: Πίνακας όρων-εγγράφων με δυαδικά βάρη. M ραμμές και N στή ες, όπου N το π ή ος τ ν ε ράφ ν της συ ο ής και M το π ή ος τ ν όρ ν της συ ο ής. Το κε ί του πίνακα στη ραμμή i και τη στή η j είναι το άρος w ti,d j του όρου t i στο έ ραφο d j 1. Ο πίνακας όρ ν-ε ράφ ν ια τη μικρή συ ο ή ε ράφ ν του Σ ήματος 4.1 δίνεται στον Πίνακα 4.1. Έ ουμε ε ρήσει, ια ό ους απ ότητας, ότι οι όροι που μας ενδιαφέρουν και που αρακτηρίζουν τη συ ο ή ε ράφ ν είναι οι: κομήτης, π ανήτης, Χά εϋ, Άρης, Δίας, τρο ιά. Ωστόσο, ρίς πρό ημα α μπορούσαμε να ρησιμοποιήσουμε ό ες τις έξεις που εμφανίζονται στα έ ραφα. Κά ε στή η του πίνακα αποτε εί το διάνυσμα ια το αντίστοι ο έ ραφο. Για παράδει μα, το διάνυσμα d 1 του κειμένου d 1 είναι: d 1 = (1, 0, 1, 0, 0, 0) 1 Στη ι ιο ραφία πο ές φορές ρησιμοποιείται ο πίνακας ε ράφ ν-όρ ν που είναι ο ανάστροφος του πίνακα όρ ν-ε ράφ ν.

76 Κεφάλαιο 4. Το Διανυσματικό Μοντέλο Στο παράδει μα που με ετούμε, τα διανύσματα τ ν ε ράφ ν ορίζονται στο ώρο τ ν έξι (6) διαστάσε ν. Ο αρι μός τ ν διαστάσε ν ισούται με τον αρι μό τ ν όρ ν που ρησιμοποιούνται ια την περι ραφή του περιε ομένου τ ν ε ράφ ν. Συνή ς, ο αρι μός τ ν όρ ν είναι πο ύ με ά ος, με αποτέ εσμα τα διανύσματα να ορίζονται σε ώρους πο ών διαστάσε ν. Επειδή ο με ά ος αρι μός διαστάσε ν δημιουρ εί προ ήματα στην αποδοτική επεξερ ασία τ ν ερ τημάτ ν, έ ουν προτα εί τε νικές μεί σης της διαστασιμότητας. Μία από τις τε νικές αυτές με ετάται σε ξε ριστό κεφά αιο. Η διανυσματική αναπαράσταση τ ν ε ράφ ν που εξατάσαμε προη ουμέν ς ρησιμοποιεί δυαδικά άρη (0 ή 1). Η ρήση δυαδικών αρών δεν αμ άνει υπόψη τη συ νότητα εμφάνισης του όρου στο έ ραφο, ούτε τον αρι μό τ ν ε ράφ ν στα οποία εμφανίζεται ο συ κεκριμένος όρος. Εάν ένας όρος εμφανίζεται πο ύ συ νά σε ένα έ ραφο τότε η σημαντικότητά του ια το έ ραφο αυτό α πρέπει να είναι με α ύτερη από αυτήν ενός όρου που εμφανίζεται μόνο μία φορά. Επίσης, αν ένας όρος εμφανίζεται σε πο ά έ ραφα, τότε δεν αποτε εί αρακτηριστικό ενός κειμένου. Οι δύο αυτές παρατηρήσεις οδή ησαν τους ερευνητές στη με έτη ενα ακτικών με όδ ν προσδιορισμού τ ν αρών w ti,d j όπου t i είναι κάποιος όρος και d j ένα έ ραφο της συ ο ής. Στο Κεφά αιο 3 με ετήσαμε έναν τρόπο προσδιορισμού αρών ια το εκτεταμένο Boolean μοντέ ο ο οποίος στηρίζεται στο σ ήμα tf-idf (term frequency - inverse document frequency). Η μέ οδος αυτή εφαρμόστηκε αρ ικά ια το Διανυσματικό μοντέ ο ανάκτησης και ια ό ους π ηρότητας εξετάζεται συνοπτικά στη συνέ εια. Ο Πίνακας 4.2 περιέ ει τα σύμ ο α που ρησιμοποιούνται στη συνέ εια. 4.2.1 Υπο ο ισμός Σημαντικότητας Όρ ν Έστ t ένας όρος και d ένα έ ραφο της συ ο ής. Η συχνότητα (frequency) εμφάνισης του όρου t στο d συμ ο ίζεται με f t,d και προσδιορίζει τον αρι μό τ ν εμφανίσε ν του όρου στο συ κεκριμένο έ ραφο. Για παράδει μα, με άση τη συ ο ή τ ν ε ράφ ν που ρησιμοποιούμε, η συ νότητα εμφάνισης του όρου Χά εϋ στο έ ραφο d 2 είναι 2, κα ώς έ ουμε δύο εμφανίσεις του όρου στο έ ραφο. Η συ νότητα εμφάνισης του όρου στο έ ραφο μπορεί να ρησιμοποιη εί ια να δη ώσει τη σημαντικότητα ( άρος) του όρου ια το έ ραφο. Επομέν ς, μία πρώτη προσέ ιση ια τον προσδιορισμό του άρους w t,d είναι να ρησιμοποιήσουμε τον τύπο: w t,d = f t,d (4.1)

4.2. Βασικές Έννοιες 77 σύμ ο ο περι ραφή D συ ο ή ε ράφ ν N π ή ος ε ράφ ν της συ ο ής (N = D ) T σύνο ο μοναδικών όρ ν της συ ο ής M π ή ος όρ ν (M = T ) t, t i ο όρος t, ο i-οστός όρος (t i ) d, d j το έ ραφο d, το j-οστό έ ραφο της συ ο ής (d j ) q έ ραφο ερ τήματος T d σύνο ο μοναδικών όρ ν στο έ ραφο d της συ ο ής T q σύνο ο μοναδικών όρ ν στο έ ραφο ερ τήματος q T q,d σύνο ο μοναδικών όρ ν στο q και d (T q,d = T q T d ) f t,d αρι μός εμφανίσε ν του όρου t στο έ ραφο d f t,q αρι μός εμφανίσε ν του όρου t στο ερώτημα q f d αρι μός εμφανίσε ν ό ν τ ν όρ ν στο έ ραφο d ( f t,d ) nf t,d κανονικοποιημένη συ νότητα εμφάνισης του όρου t στο έ ραφο d idf t αντίστροφη συ νότητα ε ράφ ν ια τον όρο t n t π ή ος ε ράφ ν που περιέ ουν τον όρο t nidf t κανονικοποιημένη αντίστροφη συ νότητα ε ράφ ν ια τον όρο t w t,d σημαντικότητα ( άρος) του όρου t στο έ ραφο d της συ ο ής w t,q σημαντικότητα ( άρος) του όρου t στο έ ραφο ερ τήματος q d j το διάνυσμα που αντιστοι εί στο έ ραφο d j L j, L q μήκος ε ράφου συ ο ής και ερ τήματος d j μέτρο του διανύσματος d j θ νία που σ ηματίζεται μεταξύ δύο διανυσμάτ ν cos(θ) το συνημίτονο της νίας θ d j d k εσ τερικό ινόμενο διανυσμάτ ν d j και dk Πίνακας 4.2: Σύμβολα και περιγραφές. Αν ρησιμοποιήσουμε τον παραπάν τύπο ια τον υπο ο ισμό του άρους w t,d, τότε όροι που εμφανίζονται σε με ά α έ ραφα ενδε ομέν ς να έ ουν και με α ύτερο άρος, διότι αυξάνεται η πι ανότητα ύπαρξής τους στο έ ραφο. Για το ό ο αυτό, και ια να μη ίνεται διάκριση μεταξύ μικρών και με ά ν ε ράφ ν, ρησιμοποιείται η κανονικοποιημένη συχνότητα εμφάνισης (normalized frequency) που συμ ο ίζεται με nf t,d η οποία ορίζεται ς εξής:

78 Κεφάλαιο 4. Το Διανυσματικό Μοντέλο nf t,d = f t,d max x {f x,d } Το π ή ος τ ν εμφανίσε ν ενός όρου σε ένα έ ραφο δη ώνει τη σημαντικότητα του όρου ια το έ ραφο αυτό. Ωστόσο, α πρέπει να παρατηρήσουμε ότι όροι που εμφανίζονται σε πο ά έ ραφα έ ουν μικρή διακριτική ικανότητα. Αυτό σημαίνει, ότι αν και οι όροι αυτοί μπορεί να εμφανίζονται πο ές φορές σε κάποια έ ραφα, το ε ονός ότι εμφανίζονται σε πο ά από αυτά μειώνει τη σημαντικότητά τους. Για παράδει μα, σε μία συ ο ή ε ράφ ν που περι αμ άνει άρ ρα από την επιστημονική περιο ή της ανάκτησης π ηροφορίας, είναι ο ικό κάποιο έ ραφο να περιέ ει πο ές φορές τον όρο ανάκτηση. Όμ ς, είναι επίσης ο ικό ο όρος ανάκτηση να εμφανίζεται στα περισσότερα έ ραφα της συ ο ής. Επομέν ς, τε ικά το άρος του όρου α πρέπει να είναι μικρό, κα ώς δεν αποτε εί αντιπροσ πευτική έξη ια κανένα έ ραφο της συ ο ής. Η παρατήρηση αυτή οδή ησε τους ερευνητές στη ρήση ενός νέου παρά οντα στον υπο ο ισμό τ ν αρών w t,d. Ο νέος παρά οντας κα είται αντίστροφη συχνότητα εγγράφων (inverse document frequency) και συμ ο ίζεται με idf t. Αν συμ ο ίσουμε με N το π ή ος τ ν ε ράφ ν της συ ο ής και με n t το π ή ος τ ν ε ράφ ν που περιέ ουν τον όρο t, τότε ο παρά οντας αυτός υπο ο ίζεται ια κά ε όρο ξε ριστά ς εξής: ( ) N idf t = ln n t (4.2) Χρησιμοποιώντας την κανονικοποιημένη συ νότητα εμφάνισης και την αντίστροφη συ νότητα ε ράφ ν, προκύπτει ένας νέος τρόπος υπο ο ισμού τ ν αρών w t,d που είναι: w t,d = nf t,d idf t = ( f t,d N max x {f x,d } ln n t ) (4.3) Παρατηρήστε ότι ο παρά οντας idf t δεν είναι κανονικοποιημένος. Η κανονικοποίηση του παρά οντα αυτού μπορεί να πρα ματοποιη εί διαιρώντας με το ο- άρι μο του π ή ους τ ν ε ράφ ν, σύμφ να με τον Turtle [13]. Με τον τρόπο αυτό προκύπτει η κανονικοποιημένη αντίστροφη συχνότητα εγγράφων (normalized inverse document frequency) η οποία υπο ο ίζεται ς εξής: nidf t = idf t ln(n) = ln(n/n t) ln(n) (4.4)

4.2. Βασικές Έννοιες 79 Χρησιμοποιώντας τους ορισμούς ια τους παρά οντες nf t,d και nidf t προκύπτει ο ακό ου ος τρόπος υπο ο ισμού τ ν αρών: w t,d = nf t,d nidf t = f t,d max x {f x,d } ln(n/n t) ln(n) (4.5) Στη ι ιο ραφία έ ουν προτα εί διάφορες παρα α ές του τρόπου προσδιορισμού τ ν αρών w t,d ρησιμοποιώντας ς άση το σ ήμα tf-idf. Για παράδει μα, οι Salton και Buckley [5] προτείνουν τον ακό ου ο τύπο ια τον υπο- ο ισμό τ ν αρών σε περιπτώσεις όπου η συ ο ή ε ράφ ν αποτε είται από συμ ατικά έ ραφα ή από περι ήψεις: w t,d = f t,d ln( N n t ) ( ) (4.6) 2 f x Td x,d ln( N n x ) Ένα έ ραφο ερ τήματος q μπορεί να ε ρη εί και αυτό ς ένα τυπικό έ - ραφο και επομέν ς ια τον προσδιορισμό τ ν αρών w t,q μπορεί να ρησιμοποιη εί ένας από τους τύπους που αναφέρ ηκαν προη ουμέν ς (π.. ο τύπος 4.6). Ωστόσο, η με έτη τ ν Salton και Buckley [5] έδειξε ότι είναι κα ύτερα να ρησιμοποιη εί ο ακό ου ος τύπος ο οποίος δίνει κα ύτερα αποτε έσματα ς προς την ακρί εια ια πο ές ν στές συ ο ές ε ράφ ν: w t,q = ( ) ( f t,q N 0.5 max x {f x,q } + 0.5 ln n t ) (4.7) Οι Zobel και Moffat [9] έ ουν με ετήσει την αποτε εσματικότητα πο ών διαφορετικών σ ημάτ ν tf-idf ρησιμοποιώντας συ ο ές ε ράφ ν από το TREC. Η διαφοροποίηση μεταξύ τ ν σ ημάτ ν αυτών οφεί εται στον τρόπο ορισμού της σ ετικής συ νότητας εμφάνισης και της αντίστροφης συ νότητας ε ράφ ν. Από τη με έτη αυτή προέκυψε το συμπέρασμα ότι δεν υπάρ ει κάποιος συνδυασμός που να έ ει τα κα ύτερα αποτε έσματα ια ό α τα ερ τήματα και ό ες τις συ ο ές ε ράφ ν. Μερικές από τις ενα ακτικές με όδους που παρουσιάζονται στην ερ ασία [9] α με ετη ούν παρακάτ, αφού πρώτα εξετάσουμε τον τρόπο υπο ο ισμού της ομοιότητας μεταξύ ε ράφ ν.

80 Κεφάλαιο 4. Το Διανυσματικό Μοντέλο 4.2.2 Υπο ο ισμός Ομοιότητας Ε ράφ ν Λαμ άνοντας υπόψη την προη ούμενη περι ραφή, το ερώτημα που προκύπτει είναι το εξής: με ποιον τρόπο α ποσοτικοποιήσουμε την ομοιότητα μεταξύ ενός ερ τήματος q και ενός κειμένου d; Θυμίζουμε ότι στην περίπτ ση του απ ού Boolean μοντέ ου η μετρική της ομοιότητας S vector (q, d) μπορεί να ά ει μόνο τις τιμές 0 και 1, ενώ στην περίπτ ση του εκτεταμένου Boolean μοντέ ου, η ομοιότητα εκφράζεται με μία τιμή στο διάστημα [0,1]. Στην περίπτ ση του διανυσματικού μοντέ ου, η ομοιότητα ερ τήματος-κειμένου είναι πά ι μία τιμή από το διάστημα [0,1], η οποία όμ ς υπο ο ίζεται με εντε ώς διαφορετικό τρόπο από αυτόν που ρησιμοποιείται στο εκτεταμένο Boolean μοντέ ο. Σημειώνεται ότι ο τρόπος υπο ο ισμού της ομοιότητας στο Διανυσματικό μοντέ ο είναι ανεξάρτητος του τρόπου προσδιορισμού τ ν αρών. Από την προη ούμενη συζήτηση προκύπτει ότι ένα έ ραφο μπορεί να ε- ρη εί ς ένα διάνυσμα σε έναν πο υδιάστατο ώρο. Για παράδει μα, η κά ε στή η του Πίνακα 4.1 αντιστοι εί σε ένα έ ραφο της συ ο ής. Επομέν ς, το κά ε έ ραφο μπορεί να ε ρη εί ς διάνυσμα στο ώρο τ ν 6 διαστάσε ν. Ο αρι μός τ ν διαστάσε ν κα ορίζεται από το π ή ος τ ν όρ ν που ρησιμοποιούνται ια την περι ραφή τ ν ε ράφ ν. Αν συμ ο ίσουμε με d j το διάνυσμα του ε ράφου d j, τότε: d j = (w t1,d j, w t2,d j,..., w tm,d j ) όπου M είναι ο συνο ικός αρι μός τ ν όρ ν που ρησιμοποιείται ια την αναπαράσταση τ ν ε ράφ ν. Ακο ου ώντας την ίδια τακτική, μπορούμε να εκφράσουμε το διάνυσμα ενός ε ράφου ερ τήματος q το οποίο εκφράζει την ανά κη π ηροφορίας κάποιου ρήστη. Το άρος του όρου t στο έ ραφο ερ τήματος q συμ ο ίζεται με w t,q. Η ασική διαφορά του ε ράφου ερ τήματος από ένα έ ραφο της συ ο ής είναι ότι το πρώτο είναι συνή ς πο ύ μικρότερο από το δεύτερο. Από τη στι μή που έ ουμε στη διά εσή μας τις διανυσματικές αναπαραστάσεις τ ν ε ράφ ν της συ ο ής και του ε ράφου του ερ τήματος το εύ ο ο ερώτημα που προκύπτει είναι π ς μπορεί να προσδιοριστεί ο α μός ομοιότητας μεταξύ ενός ερ τήματος και ενός ε ράφου της συ ο ής. Μία απ ή και προφανής μέ οδος υπο ο ισμου της ομοιότητας είναι με τη ρήση της Ευκ είδειας απόστασης μεταξύ τ ν αντίστοι ν διανυσματικών αναπαραστάσε ν. Αν συμ ο ίσουμε με q και d το διάνυσμα του ε ράφου του ερ τήματος q και του ε ράφου d της συ ο ής, τότε ορίζουμε ς D e (q, d) την Ευκ είδια απόστασή τους:

4.2. Βασικές Έννοιες 81 D e (q, d) = M w ti,q w ti,d 2 (4.8) i=1 Όσο αυξάνει ή τιμή D e (q, d) τόσο ε ρούμε ότι μειώνεται η ομοιότητα μεταξύ q και d. Με μια πρώτη ματιά, φαίνεται ότι αυτό το μέτρο ανομοιότητας κα ύπτει τις ανά κες μας. Ωστόσο, υπάρ ει ένα σο αρό πρό ημα που αξίζει να σ ο ιαστεί. Συνή ς, το έ ραφο του ερ τήματος είναι αρκετά μικρότερο σε σ έση με τα έ ραφα της συ ο ής. Αυτό σημαίνει ότι οι περισσότερες συνιστώσες του διανύσματος q α είναι μηδενικές. Επίσης, όσο με α ύτερο είναι ένα έ ραφο, τόσο αυξάνει ο αρι μός τ ν μη-μηδενικών συνιστ σών. Αυτό σημαίνει ότι στην ουσία τιμ ρούνται τα με α ύτερα έ ραφα της συ ο ής τα οποία ακόμη και αν σ ετίζονται με το ερώτημα, ό της Ευκ είδειας απόστασης, η απόσταση τους από το ερώτημα α είναι με ά η. Μία ά η προσέ ιση ια τον υπο ο ισμό της ομοιότητας μεταξύ q και d είναι να ρησιμοποιη εί το εσωτερικό γινόμενο (inner product) τ ν διανυσμάτ ν, το οποίο συμ ο ίζεται με q d. Αν συμ ο ίσουμε με S inner (q, d) τη συνάρτηση που επιστρέφει την ομοιότητα, τότε έ ουμε: S inner (q, d) = q d = M w ti,q w ti,d (4.9) i=1 Όσο πιο όμοια είναι τα διανύσματα q και d τόσο η συνάρτηση Sinner (q, d) αμ άνει με α ύτερες τιμές. Το αντίστροφο συμ αίνει όταν τα διανύσματα είναι ανόμοια. Η εφαρμο ή του εσ τερικού ινομένου ια τον υπο ο ισμό της ομοιότητας έ ει το μειονέκτημα ότι τιμ ρούνται τα μικρότερα έ ραφα, σε αντί εση με την Ευκ είδεια απόσταση η οποία τιμ ρεί τα με α ύτερα. Για να ξεπεραστεί αυτό το πρό ημα, προτά ηκε η ρήση μίας συνάρτησης ομοιότητας που ασίζεται στο συνημίτονο της νίας που σ ηματίσουν τα δύο διανύσματα στο ώρο. Ας εξετάσουμε τον τρόπο κατασκευής της συνάρτησης αυτής. Θα ρειαστούμε τον ορισμό του μέτρου ενός διανύσματος. Το μέτρο του διανύσματος d, συμ- ο ίζεται με d και δίνεται από τον ακό ου ο τύπο με άμεση εφαρμο ή του Πυ α όρειου ε ρήματος: d = M i=1 w 2 t i,d

82 Κεφάλαιο 4. Το Διανυσματικό Μοντέλο t2 t2 dj dk dj dk t3 θ θ (α) δύο διαστάσεις t1 t1 ( ) τρεις διαστάσεις Σχήμα 4.2: Γωνία μεταξύ διανυσμάτων σε δύο και τρεις διαστάσεις. Είναι ν στό ότι το εσ τερικό ινόμενο δύο διανυσμάτ ν ισούται με το ινόμενο τ ν μέτρ ν τους επί το συνημίτονο της μεταξύ τους νίας. Χρησιμοποιώντας την ιδιότητα αυτή ια τα διανύσματα q και d έ ουμε: q d = q d cos(θ) Η επί υση της παραπάν εξίσ σης ς προς cos(θ) δίνει έναν τρόπο υπο ο- ισμού του συνημιτόνου της νίας που σ ηματίζεται μεταξύ τ ν διανυσμάτ ν. Με τον τρόπο αυτό έ ουμε έναν ενα ακτικό τρόπο υπο ο ισμού της ομοιότητας. Όταν μικραίνει η νία θ, με α ώνει η ποσότητα cos(θ) και αντιστρόφ ς. Όταν τα δύο διανύσματα ταυτίζονται, τότε έ ουμε θ = 0 μοίρες επομέν ς cos(θ) = 1. Από την ά η π ευρά, όταν τα διανύσματα είναι κά ετα μεταξύ τους, τότε θ = 90 μοίρες, επομέν ς cos(θ) = 0. Σημειώνεται ότι η νία μεταξύ τ ν διανυσμάτ ν δεν μπορεί να ξεπερνά τις 90 μοίρες εφόσον οι συντετα μένες είναι ετικοί πρα ματικοί αρι μοί και επομέν ς εστιάζουμε στο άν δεξί τεταρτημόριο του συστήματος συντετα μέν ν. Αν συμ ο ίσουμε με S cosine τη συνάρτηση ομοιότητας συνημιτόνου, τότε έ ουμε: S cosine (q, d) = cos(θ) = q d q d = M i=1 w t i,q w ti,d M i=1 w2 t i,q M i=1 w2 t i,d (4.10)

4.3. Εναλλακτικές Μέθοδοι 83 Στο Σ ήμα 4.2 παρουσιάζεται ένα απ ό παράδει μα προσδιορισμού της νίας μεταξύ δύο διανυσμάτ ν ια το ώρο τ ν δύο και τ ν τριών διαστάσε ν. Στην πρα ματικότητα η διαστασιμότητα του ώρου είναι πο ύ με α ύτερη και κα ορίζεται από το π ή ος τ ν όρ ν που ρησιμοποιούνται ια την αναπαράσταση τ ν ε ράφ ν. Η εφαρμο ή του τύπου του συνημιτόνου είναι ανεξάρτητη από τον τρόπο υπο- ο ισμού τ ν αρών w t,d. Ο τύπος εφαρμόζεται τόσο στην περίπτ ση δυαδικών αρών όσο και στην περίπτ ση που τα άρη είναι πρα ματικοί αρι μοί. 4.3 Ενα ακτικές Μέ οδοι Στις προη ούμενες παρα ράφους με ετήσαμε τη ασική με οδο ο ία που ακο ου είται από το Διανυσματικό μοντέ ο ανάκτησης, που περι αμ άνει δύο άξονες: (α) τον προσδιορισμό της σημαντικότητας τ ν όρ ν στα έ ραφα και ( ) τον υπο ο ισμό του α μού ομοιότητας μεταξύ ε ράφ ν. Και ια τους δύο άξονες έ ουν προτα εί διάφορες ενα ακτικές ύσεις, μερικές από τις οποίες εξετάζονται στη συνέ εια. Υπεν υμίζεται ότι στη ενική περίπτ ση, οι ποσότητες w t,d (το άρος του όρου t στο έ ραφο d) και w t,q (το άρος του όρου t στο έ ραφο ερ τήματος q) υπο ο ίζονται με άση το σ ήμα tf-idf: w t,d = tf t,d idf t και w t,q = tf t,q idf t Χρησιμοποιώντας διαφορετικούς τρόπους υπο ο ισμού τ ν ποσοτήτ ν tf t,d και idf t προκύπτει ένα π ή ος διαφορετικών εκφράσε ν ια τις ποσότητες w t,d και w t,q. Στους Πίνακες 4.3 και 4.4 δίνονται μερικές από τις εκφράσεις υπο ο ισμού τ ν ποσοστήτ ν tf και idf αντίστοι α που έ ουν με ετη εί στη ι ιο ραφία. Επίσης, ο Πίνακας 4.5 παρουσιάζει διαφορετικούς τρόπους υπο ο ισμού του μήκους ενός ε ράφου, ενώ στον Πίνακα 4.6 δίδονται οι ασικότερες μετρικές υπο ο ισμού της ομοιότητας μεταξύ ενός ε ράφου της συ ο ής και ενός ε - ράφου ερ τήματος. Τέ ος, στον Πίνακα 4.7 δίνονται οι δύο ενα ακτικές ύσεις που έ ουν προτα εί ια τον υπο ο ισμό τ ν αρών w t,q και w t,d. Είναι προφανές, ότι υπάρ ουν πο οί διαφορετικοί συνδυασμοί που προκύπτουν επι έ οντας διαφορετικούς σ ηματισμούς ια την κά ε ποσότητα. Έτσι, ανά ο α με την έκφραση που έ ουμε να ρησιμοποιήσουμε, επι έ εται η αντίστοι η ραμμή από τους πίνακες. Η αποτε εσματικότητα μίας π η ώρας συνδυασμών έ ει με ετη εί πειραματικά στην ερ ασία [9]. Ένα από τα σημαντικά αποτε έσματα της πειραματικής αυτής με έτης είναι ότι καμία μέ οδος δεν παρουσιάζει την κα ύτερη

84 Κεφάλαιο 4. Το Διανυσματικό Μοντέλο περι ραφή tf t,d δυαδικός σ ηματισμός 1 ή 0 συνή ης σ ηματισμός f t,d ο αρι μικός σ ηματισμός 1 + ln(f t,d ) κανονικοποιημένος σ ηματισμός f t,d max x {f x,d } ενα ακτικός κανονικοποιημένος σ ηματισμός Το C είναι μία στα ερά η οποία αν ά ει τιμές C + (1 C) μεταξύ 0.3 και 0.5 έ ει τα κα ύτερα αποτε έσματα f t,d max x{f x,d } Πίνακας 4.3: Εναλλακτικές εκφράσεις υπολογισμού της ποσότητας tf t,d. περι ραφή idf t δυαδικός σ ηματισμός 1 ( ) 1ος ο αρι μικός σ ηματισμός ln N nt ) 2ος ο αρι μικός σ ηματισμός ln (1 + N nt 3ος ο αρι μικός σ ηματισμός 1 υπερ ο ικός σ ηματισμός ln(n/n t) ln(n) n t ( ) 1 + maxx{nx} n t 1ος κανονικοποιημένος σ ηματισμός ln ( ) 2ος κανονικοποιημένος σ ηματισμός ln N nt n t Πίνακας 4.4: Εναλλακτικές εκφράσεις υπολογισμού της ποσότητας idf t. αποτε εσματικότητα σε ό ες τις περιπτώσεις. Στη συνέ εια δίνεται ένα συ κεκριμένο παράδει μα προσδιορισμού τ ν ποσοτήτ ν. Έστ ότι έ ουμε να εκφράσουμε την ομοιότητα μεταξύ ενός ερ τήματος q και ενός ε ράφου της συ ο ής d ρησιμοποιώντας τη μέ οδο του συνημιτόνου. Αυτό σημαίνει ότι πρέπει να επι ε εί η δεύτερη ραμμή του Πίνακα 4.6. Για τη ρήση του 2ου ο αρι μικού σ ηματισμού ια τον υπο ο ισμό της ποσότητας idf t πρέπει να επι ε εί η τρίτη ραμμή του Πίνακα 4.4. Η ρήση του σ ηματισμού tf ια τον υπο ο ισμό της ποσότητας w t,d προϋπο έτει την επι ο ή της πρώτης ραμμής του Πίνακα 4.7, ενώ η ρήση του ο αρι μικού σ ηματισμού ια την ποσότητα tf t,d προϋπο έτει την επι ο ή της τρίτης ραμμής του Πίνακα 4.3. Για τη ρήση του διανυσματικού σ ηματισμού ια τον υπο ο ισμό της ποσότητας L d πρέπει να επι έξουμε τη δεύτερη ραμμή του Πίνακα 4.5. Παρατηρούμε ότι έ ς

4.3. Εναλλακτικές Μέθοδοι 85 περι ραφή L d μοναδιαίος σ ηματισμός 1 διανυσματικός σ ηματισμός x Td w2 x,d 1ος προσε ιστικός σ ηματισμός T d 2ος προσε ιστικός σ ηματισμός Td 3ος προσε ιστικός σ ηματισμός log 2 ( T d ) 4ος προσε ιστικός σ ηματισμός f d 5ος προσε ιστικός σ ηματισμός fd Πίνακας 4.5: Εναλλακτικές εκφράσεις υπολογισμού του μήκους L d (L q ) ενός εγγράφου d (ερωτήματος q). περι ραφή S vector (q, d) εσ τερικό ινόμενο t T q,d (w t,q w t,d ) 1 μέ οδος συνημιτόνου L q L d t T q,d (w t,q w t,d ) απ ή πι ανοτική μετρική t T q,d (C + idf t ) σύν ετη πι ανοτική μετρική t T q,d (C + idf t ) tf t,d w ενα ακτικό εσ τερικό ινόμενο t,d t T q,d L d 2 μέ οδος Dice t T q,d (w t,q w t,d ) μέ οδος Jaccard μέ οδος επικά υψης L 2 q+l 2 d t T (w q,d t,q w t,d ) L 2 q+l 2 d t T (w q,d t,q w t,d ) t T (w q,d t,q w t,d ) min(l 2 q,l 2 d ) Πίνακας 4.6: Εναλλακτικές εκφράσεις υπολογισμού ομοιότητας S vector (q, d). περι ραφή σ ηματισμός tf σ ηματισμός tf-idf w t,d tf t,d tf t,d idf t Πίνακας 4.7: Εναλλακτικές εκφράσεις υπολογισμού βαρών w t,d (και w t,q ). τώρα έ ουμε προσδιορίσει π ήρ ς τις ποσότητες που σ ετίζονται με το έ ραφο d της συ ο ής. Συνε ίζουμε με την επι ο ή του τρόπου προσδιορισμού τ ν ποσοτήτ ν που αφορούν στο ερώτημα q. Επι έ ουμε το σ ηματισμό tf-idf ια την ποσότητα w t,q (δεύτερη ραμμή του Πίνακα 4.7), επι έ ουμε το ο αρι μικό

86 Κεφάλαιο 4. Το Διανυσματικό Μοντέλο περι ραφή έκφραση συνάρτηση ομοιότητας S vector (q, d) = 1 L q L d t T q,d (w t,q w t,d ) ) υπο ο ισμός idf t idf t = ln (1 + N nt υπο ο ισμός w t,d w t,d = tf t,d υπο ο ισμός tf t,d tf t,d = 1 + ln(f t,d ) υπο ο ισμός L d L d = x T w2 d x,d υπο ο ισμός w t,q w t,q = tf t,q idf t υπο ο ισμός tf t,q tf t,q = 1 + ln(f t,q ) υπο ο ισμός L q L q = 1 Πίνακας 4.8: Παράδειγμα προσδιορισμού συγκεκριμένου μοντέλου. σ ηματισμό ια την ποσότητα tf t,q (τρίτη ραμμή του Πίνακα 4.3) και τέ ος επι έ ουμε το μοναδιαίο σ ηματισμό ια την ποσότητα L q (πρώτη ραμμή του Πίνακα 4.5). Με άση τις προη ούμενες επι ο ές, παρατηρούμε ότι έ ουν προσδιοριστεί ό ες οι ποσότητες. Το μοντέ ο που σ ηματίζεται συνοψίζεται στον Πίνακα 4.8. Παράδει μα 4.1 Ο τρόπος υπο ο ισμού τ ν παραμέτρ ν του μοντέ ου α ίνει περισσότερο κατανοητός με ένα παράδει μα. Έστ ότι ένας ρήστης ενδιαφέρεται ια την εύρεση π ηροφοριών σ ετικά με τον κομήτη του Χά εϋ. Αν συμ ο ίσουμε με q την αναπαράσταση της π ηροφοριακής ανά κης του ρήστη, τότε έ ουμε q = {κομήτης, Χά εϋ}. Είναι προφανές ότι το ερώτημα αποτε είται από δύο όρους, t 1 = κομήτης και t 2 = Χά εϋ. Στό ος μας είναι να υπο ο ίσουμε το α μό ομοιότητας μεταξύ του ερ τήματος q και τ ν ε ράφ ν της συ ο ής του Σ ήματος 4.1. Προφανώς, δε α ασ ο η ούμε κα ό ου με τα έ ραφα που δεν περιέ ουν κανέναν από τους δύο όρους του ερ τήματος. Αυτό σημαίνει ότι α πρέπει να υπο ο ίσουμε ό ες τις τιμές ια τις ποσότητες που εμφανίζονται στον Πίνακα 4.8 ια τα έ ραφα που περιέ ουν έναν ή και τους δύο όρους του ερ τήματος. Τα έ ραφα που τε ικά α α μο ο η ούν είναι τα d 1, d 2 και d 3. Αρ ικά α υπο ο ίσουμε τις τιμές idf t1 και idf t2. Εφόσον ο όρος κομήτης εμφανίζεται σε τρία έ ραφα και ο όρος Χά εϋ εμφανίζεται σε δύο έ ουμε n t1 = 3 και n t2 = 2. Επομέν ς, προκύπτουν οι ακό ου ες τιμές: idf t1 = 1.203 και idf t2 = 1.504. Στη συνέ εια, ια κά ε όρο και κά ε έ ραφο υπο ο ίζονται οι τιμές tf t,d. Με απ ές μα ηματικές πράξεις παίρνουμε: tf t1,d 1 = 1, tf t1,d 2 = 1, tf t1,d 3 = 1,

4.4. Πλεονεκτήματα και Μειονεκτήματα 87 tf t2,d 1 = 1, tf t2,d 2 = 1.693. Ομοί ς υπο ο ίζουμε και τους παρά οντες tf ια το ερώτημα q και έ ουμε: tf t1,q = 1 και tf t2,q = 1. Εφόσον έ ουν προσδιοριστεί οι τιμές tf και idf μπορούμε π έον να προσδιορίσουμε τις τιμές τ ν παραμέτρ ν w t,d και w t,q ια τους όρους t 1 και t 2 : w t1,d 1 = 1, w t1,d 2 = 1, w t1,d 3 = 1, w t2,d 1 = 1, w t2,d 2 = 1.693, w t1,q = 1.203 και w t2,q = 1.504. Πριν τον υπο ο ισμό της συνάρτησης ομοιότητας απομένει ο προσδιορισμός τ ν τιμών L d και L q. Με άση τον Πίνακα 4.8 και τις προη ούμενες τιμές έ ουμε: L d1 = 11 = 3.316, L d2 = 3.296, L d3 = 2.23 και L q = 1. Τέ ος, εφαρμόζουμε τη συνάρτηση ομοιότητας (πρώτη ραμμή του Πίνακα 4.8) και αμ άνουμε το α μό ομοιότητας τ ν ε ράφ ν d 1, d 2 και d 3 ς προς το ερώτημα q. Για παράδει μα, ο υπο ο ισμός της ποσότητας S vector (q, d 1 ) ίνεται ς εξής: S vector (q, d 1 ) = w t 1,d 1 w t1,q + w t2,d 1 w t2,q L d1 = 0.816 S vector (q, d 2 ) = w t 1,d 2 w t1,q + w t2,d 2 w t2,q L d2 = 1.131 S vector (q, d 3 ) = w t 1,d 3 w t1,q L d3 = 0.539 Από τις παραπάν α μο ο ίες είναι προφανές ότι το πιο σ ετικό έ ραφο της συ ο ής, ς προς το ερώτημα q = {κομήτης, Χά εϋ}, είναι το έ ραφο d 2 με α μο ο ία 1.131. Το δέυτερο σ ετικότερο έ ραφο είναι το d 1 με α μο ο ία 0.816 και ακο ου εί το d 3 με α μο ο ία 0.539. Παρατηρήστε ότι η α μο ο ία του d 2 είναι με α ύτερη της μονάδας! Αυτό οφεί εται στο ε ονός ότι δε διαιρέσαμε με το μέτρο του διανύσματος του ερ τήματος (ποσότητα L q ), αφού δε α α άξει η σ ετική σειρά τ ν ε ράφ ν στην τε ική κατάταξη. 4.4 Π εονεκτήματα και Μειονεκτήματα Το ασικό π εονέκτημα του Διανυσματικού μοντέ ου ανάκτησης είναι η δυνατότητά του να α μο ο εί τα έ ραφα με άση την ομοιότητά τους ς προς κάποιο ερώτημα. Όσο περισσότερο σ ετικά είναι δύο έ ραφα τόσο μικρότερη α είναι η νία τ ν αντίστοι ν διανυσμάτ ν τους και τόσο με α ύτερη α είναι η τιμή του συνημιτόνου της μεταξύ τους νίας. Χρησιμοποιώντας διαφορετικούς ορισμούς ια τις ποσότητες w t,d (το άρος του όρου t στο έ ραφο d) μπορούμε να έ ουμε ένα σύνο ο διαφορετικών μοντέ ν.

88 Κεφάλαιο 4. Το Διανυσματικό Μοντέλο Το δεύτερο σημαντικό π εονέκτημα του μοντέ ου είναι ο σ ετικά απ ός τρόπος υ οποίησής του, κά ώς στηρίζεται σε απ ές μα ηματικές πράξεις. Βέ αια, σε περίπτ ση που τα έ ραφα έ ουν με ά ο μήκος και ο αρι μός τ ν όρ ν είναι με ά ος (π.., μερικές ι ιάδες) τότε ενδε ομέν ς ο προσδιορισμός της ομοιότητας μεταξύ δύο ε ράφ ν να απαιτεί σημαντικό ρόνο. Ωστόσο, ια τις τυπικές περιπτώσεις όπου το έ ραφο του ερ τήματος αποτε είται από μερικούς όρους, οι υπο ο ισμοί της ομοιότητας με άση τον τύπο του συνημιτόνου πρα ματοποιούνται ρή ορα. Το τρίτο σημαντικό π εονέκτημα του Διανυσματικού μοντέ ου είναι η υποστήριξη μερικής ταύτισης. Ένα έ ραφο που περιέ ει ένα υποσύνο ο τ ν όρ ν του ερ τήματος δε α ά ει μηδενικό α μό. Αυτό είναι πο ύ σημαντικό αμ άνοντας υπόψη ότι μπορεί να μην υπάρ ει κανένα έ ραφο που να περιέ ει ό ους τους όρους του ερ τήματος. Ένα από τα μειονεκτήματα του Διανυσματικού μοντέ ου είναι η υπό εση ότι οι όροι τ ν ε ράφ ν είναι ανεξάρτητοι. Αυτό οδη εί στη εώρηση ότι έ ουμε ένα ορ οκανονικό σύστημα αξόν ν άσει του οποίου ορίζονται τα διανύσματα τ ν ε ράφ ν και τ ν ερ τημάτ ν. Αυτή η υπό εση δεν είναι απο ύτ ς σ στή κα ώς υπάρ ουν όροι που δεν είναι ανεξάρτητοι και επομέν ς η εμφάνιση του ενός εξαρτάται από την εμφάνιση τ ν ά ν. Δύο ασικές αιτίες που άπτουν την ανεξαρτησία τ ν όρ ν είναι η πολυσημία και η συνωνυμία. Στην περίπτ ση της πο υσημίας, ένας όρος μπορεί να έ ει διαφορετικό νόημα ανά ο α με το είδος και το περιε όμενο του ε ράφου ενώ στην περίπτ ση της συν νυμίας δύο όροι που ράφονται εντε ώς διαφορετικά, μπορεί να έ ουν το ίδιο ακρι ώς νόημα (συνώνυμοι όροι). Ωστόσο, υιο ετώντας την ανεξαρτησία τ ν όρ ν απ οποιείται η διαδικασία του προσδιορισμού της ομοιότητας. Τέ ος αξίζει να σημει εί ότι ο τρόπος ανά εσης τ ν αρών στους όρους αν και διαισ ητικά φαίνεται να έ ει νόημα, δε στηρίζεται σε κάποιο μα ηματικό φορμα ισμό και α μπορούσε να αρακτηριστεί ακόμη και αυ αίρετος. Η επι ο ή συ κεκριμέν ν τιμών ια τα άρη έ ει επι ε αι εί με πειραματικές με έτες ότι έ ει κα ά αποτε έσματα α ά δεν μπορεί να τεκμηρι εί με μα ηματική ανά υση. 4.5 Σύνοψη και Περαιτέρ Με έτη Το Διανυσματικό μοντέ ο ανάκτησης προτά ηκε επίσημα από τον Salton το 1975 [6] και αποτε εί το πιο διαδεδομένο μοντέ ο ανάκτησης. Ενώ το Boolean μοντέ ο στηρίζεται στη Θε ρία Συνό ν, το Διανυσματικό μοντέ ο ασίζεται κυρί ς στη Γραμμική Ά ε ρα. Ο υπο ο ισμός της ομοιότητας μεταξύ δύο ε - ράφ ν ή μεταξύ ενός ε ράφου και ενός ερ τήματος πρα ματοποιείται με τη

4.6. Ασκήσεις 89 ρήση του συνημιτόνου της νίας που σ ηματίζεται μεταξύ τ ν αντίστοι ν διανυσμάτ ν στο ώρο τ ν M διαστάσε ν, όπου M είναι το π ή ος τ ν μοναδικών όρ ν που περιέ ονται στα έ ραφα και ρησιμοποιούνται ια την αναπαράσταση τ ν ε ράφ ν. Το Διανυσματικό μοντέ ο κα ύπτεται επαρκώς σε ό α τα ι ία του ώρου. Ο ενδιαφερόμενος μπορεί να ανατρέξει στα αντίστοι α κεφά αια τ ν ι ί ν [3, 3, 17]. Επίσης, προτείνουμε τη με έτη της ερ ασίας [6] που αποτε εί την πρόταση του Διανυσματικού μοντέ ου, και τ ν ερ ασιών [5, 9] στις οποίες παρουσιάζονται διάφορες εκδο ές του μοντέ ου. Η ερ ασία [9] αποτε εί επέκταση της [5], όπου παρουσιάζονται διαφορετικές εκδο ές του Διανυσματικού μοντέ- ου, ανά ο α με τις επι ο ές. Με ά ο ενδιαφέρον παρουσιάζει επίσης η ερ ασία [11] στην οποία περι αμ άνεται μία με έτη σ ετικά με απ οποιήσεις που μπορούν να εφαρμοστούν στο Διανυσματικό μοντέ ο με στό ο την τα ύτερη επεξερ ασία τ ν ερ τημάτ ν, α ά ρίς να άπτεται σημαντικά η αποτε εσματικότητα. Επίσης, κρίνεται πο ύ σημαντική η ενασ ό ηση με το ρυ ικό σύστημα SMART, το οποίο μπορεί ο ανα νώστης να προμη ευτεί από τη διέυ υνση [7]. Στη διεύ υνση αυτή υπάρ ουν επίσης και διάφορες συ ο ές ε ράφ ν (μεταξύ τ ν οποί ν οι CACM, ISI, MED και CRAN) που μπορούν να ρησιμοποιη ούν σε συνδυασμό με το σύστημα SMART. 4.6 Ασκήσεις 4.1 Ποιές είναι οι σημαντικότερες διαφορές μεταξύ του Διανυσματικού και του Λο ικού μοντέ ου; 4.2 Να περι ράψετε τη διαδικασία υπο ο ισμού τ ν αρών στο Διανυσματικό μοντέ ο. 4.3 Ποιά συνάρτηση ρησιμοποιείται ια τον προσδιορισμό της ομοιότητας μεταξύ ενός ερ τήματος q και ενός ε ράφου d; 4.4 Για ποιό ό ο η ρήση της Ευκ είδειας απόστασης δεν είναι κα ή πρακτική ια τον προσδιορισμό της ομοιότητας; 4.5 Ποιά είναι τα ασικά μειονεκτήματα του Διανυσματικού μοντέ ου; 4.6 Ο αρι μός τ ν διαστάσε ν κα ορίζεται από το π ή ος τ ν μοναδικών όρ ν της συ ο ής που είναι συνή ς αρκετά με ά ος. Να συζητήσετε ια τα προ ήματα που ενδε ομέν ς δημιουρ ούνται από το με ά ο αρι μό διαστάσε ν.

90 Κεφάλαιο 4. Το Διανυσματικό Μοντέλο 4.7 Να κατασκευάσετε ένα πρό ραμμα που να δια άζει τη συ ο ή ε ράφ ν CRAN και ια κά ε ερώτημα q της συ ο ής να υπο ο ίζει το α μό ομοιότητας μεταξύ του q και κά ε ε ράφου d ρησιμοποιώντας μία από τις δυνατές εκφράσεις του Διανυσματικού μοντέ ου. 4.8 Να κατασκευάσετε πρό ραμμα που να δια άζει τη συ ο ή ε ράφ ν MED και στη συνέ εια να υπο ο ίζει ια κά ε ερώτημα q της συ ο ής το α μό ομοιότητας με κά ε έ ραφο d. Στη συνέ εια, να υπο ο ίσετε το π ή ος τ ν σ ετικών ε ράφ ν εάν ε ρήσουμε ότι ενδιαφερόμαστε ια τα top-20 έ ραφα της συ ο ής. Δοκιμάστε την αποτε εσματικότητα ια διαφορετικές εκφράσεις του Διανυσματικού μοντέ ου. 4.9 Με άση τη συ ο ή ε ράφ ν του Σ ήματος 4.1 και ε ρώντας ότι τα άρη w t,d και w t,q υπο ο ίζονται με τη οή εια τ ν σ έσε ν 4.6 και 4.7 ενώ η ομοιότητα δύο ε ράφ ν προσδιορίζεται από τη σ έση 4.10, να προσδιορίσετε τον πίνακα ομοιότητας της συ ο ής. Ο πίνακας αυτός είναι ένας συμμετρικός πίνακας N N όπου N ο αρι μός τ ν ε ράφ ν. Το κά ε κε ί του πίνακα στη ραμμή i και τη στή η j περιέ ει μία πρα ματική τιμή που δη ώνει το α μό ομοιότητας μεταξύ τ ν ε ράφ ν d i και d j. Σ ο ιάστε το αποτέ εσμα. 4.10 Να δώσετε ένα παράδει μα με το οποίο να φαίνεται ότι αν δε ηφ ούν μέτρα, κάποια με ά α έ ραφα μπορεί να ά ουν με α ύτερο α μό από μικρότερα ρίς να περιέ ουν κατ ανά κη και περισσότερους όρους του ερ τήματος.

Βι ιο ραφία [1] R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. Addison Wesley, 1999. [2] C.D. Manning, P. Raghavan, and H. Schutze. An Introduction to Information Retrieval (draft version). Cambridge University Press, 2007. [3] D.L. Lee, Chuang H., and Seamons K. Document ranking and the vectorspace model. IEEE Software, 14(2):67-75, 1997. [4] G. Salton. The SMART Retrieval System - Experiments on Automatic Document Processing. Prentice Hall, Englewood Cliffs, NJ, 1971. [5] G. Salton and C. Buckley. Term weighting approaches in automatic text retrieval. Information Processing and Management, 24(5):513-523, 1988. [6] G. Salton, C.S. Yang, and A. Wong. A vector-space model for automatic indexing. Communications of the ACM, 18(11):613-620, 1975. [7] SMART. ftp://ftp.cs.cornell.edu/pub/smart/. Cornell University. [8] I.H Witten, A. Moffat, and T.C. Bell. Managing Gigabytes: Compressing and Indexing Documents and Images. Morgan Kaufmann, 1999. [9] J. Zobel and A. Moffat. Exploring the similarity space. ACM SIGIR Forum, 32(1):18-34, 1998. 91