Ανάκτηση Π ηροφορίας. Συ ραφή Απόστο ος Ν. Παπαδόπου ος Ι άννης Μαν όπου ος Κ νσταντίνος Τσί ας. Κριτικός Ανα νώστης Δημήτριος Κατσαρός

Σχετικά έγγραφα
Εισα ή στην Ανάκτηση Π ηροφορίας

Το Διανυσματικό Μοντέ ο

Το Λο ικό Μοντέ ο. Περιε όμενα Κεφα αίου

Ο Αντεστραμμένος Κατά ο ος

Ο Κατά ο ος Υπο ραφών

Το Πι ανοκρατικό Μοντέ ο

Αποτίμηση Αποτε εσματικότητας

Ανάκτηση Π ηροφορίας στον Πα κόσμιο Ιστό

Παρά η η Δια είριση Δεδομέν ν

Κανονισμός Εκτε εστικής Επιτροπής

Κανονισμός Εποπτικού Συμ ου ίου

Κανονισμός Οικονομικής Δια είρισης

Κανονισμός Διοικητικού Συμ ου ίου

Α όρι μοι και Πο υπ οκότητα 1η Σειρά Γραπτών Ασκήσε ν

Ορ ανισμός Εσ τερικής Υπηρεσίας

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Π Ε Δ (Π.Ε.Δ.) Ι Ν ΠΕΔ. Κανονισμοί. ΟΕΥ Προσωπικού Διοικητικού Συμβουλίου Εκτελεστικής Επιτροπής Οικονομικής Διαχείρισης Εποπτικού Συμβουλίου

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Ανάπτυξη Συστήματος Συστάσε ν Συνερ ατικής Διή ησης με ρήση Ιεραρ ικών Α ορί μ ν Κατάταξης

Ανάπτυξη Βι ιο ήκης Γραφικών ια Ενσ ματ μένο Σύστημα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Επέκταση του συστήματος ανοι τού κώδικα Pig

Απ ή υ οποίηση α ορί μου Fast Multipole Method ανεξάρτητου συνάρτησης πυρήνα

Ανάκτηση Πληροφορίας Εισαγωγή

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Εξόρυξη νώσης από μέσα κοιν νικής δικτύ σης: Με έτη περίπτ σης στο Twitter.

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Η εκτρικής Ισ ύος. Διπ ματική Ερ ασία

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ε νικό Μετσό ιο Πο υτε νείο. Πρακτικά Συστήματα Συ ο ιστικής ια Εκφραστικές Ασαφείς Περι ραφικές Λο ικές

ἔστω Ο...πισινός μας! American Bar το καναμε για όλους μας. * * * κι από τη Σκιά τους. σε κάθε νησί;

Ανάκτηση πληροφορίας

Σ εδιασμός Συστημάτ ν Ε έ ου

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Χημικών Μη ανικών. Με έτη και σ εδιασμός με όδ ν Εξόρυξης Δεδομέν ν και εφαρμο ές σε προ ήματα Μετα ο ομικής

Ανάκτηση πληροφορίας

ΚΑΝΟΝΙΣ ΜΟ Ι ΙΕΞΑΓΩΓΗΣ ΑΓΩΝΩΝ 1 / 8 SCALE IC TRA CK ΕΛ. Μ. Ε

ΕΠΑΝΑΛΗΠΣΙΚΕ ΑΚΗΕΙ ΜΙΓΑΔΙΚΟΤ-ΟΡΙΑ-ΤΝΕΧΕΙΑ

Ε νικό Μετσό ιο Πο υτε νείο

Ε νικό Μετσό ιο Πο υτε νείο

20/5/ /5/ /5/ /5/2005

JEAN-CHARLES BLATZ 02XD RE52755

Ε νικό Μετσό ιο Πο υτε νείο. Α όρι μοι Επανε ραφής Τροποποιημέν ν Ερ τημάτ ν ια Βατές Περι ραφικές Λο ικές

Πα κ έ τ ο Ε ρ γ α σ ί α ς 4 Α ν ά π τ υ ξ η κ α ι π ρ ο σ α ρ µ ο γ ή έ ν τ υ π ο υ κ α ι η λ ε κ τ ρ ο ν ι κ ο ύ ε κ π α ι δ ε υ τ ι κ ο ύ υ λ ι κ ο

Ε νικό Μετσό ιο Πο υτε νείο. Διπ ματική Ερ ασία

α κα ρι ι ο ος α α νηρ ος ου ουκ ε πο ρε ε ευ θη εν βου λη η η α α σε ε ε βων και εν ο δω ω α α µαρ τω λω ων ουουκ ε ε ε

Ανάπτυξη συντακτικού ανα υτή φυσικής ώσσας με ρήση του φορμα ισμού LFG. Πανα ιώτης Μίνος

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση Πληροφορίας

Υ οποίηση αντα α ής κ ειδιού DH και ψηφιακών υπο ραφών ασισμένη σε ε ειπτικές καμπύ ες

Tη λ.: +30 (210) Fax: +30 (210)

Ανάκτηση Πληροφορίας


Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Επικοιν νιών, Η εκτρονικής και Συστημάτ ν Π ηροφορικής

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Η Αρ ιτεκτονική αναφοράς Μα ησιακών Χώρ ν CROP - Μια πρώτη προσέ ιση

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Π α σα πνο η αι νε σα τω τον Κυ ρι. Π α σα πνο η αι νε σα α τω τον. Ἕτερον. Τάξις Ἑωθινοῦ Εὐαγγελίου, Ὀ Ν Ψαλµός. Μέλος Ἰωάννου Ἀ. Νέγρη.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΘΕΜΑ: ΔΙΑΡΘΡΩΤΙΚΑ ΧΑ ΡΑ ΚΤ ΗΡ ΙΣ ΤΙ ΚΑ ΤΗΣ ΑΝΕΡΓΙΑΣ - ΠΤΥΧΙΑΚΗ ΕΡΓΑ ΣΙ Α - ΚΑΡΑ ΣΑ ΒΒ ΟΓ ΠΟ Υ ΑΝ ΑΣΤΑΣΙΟΣ

υφ υ., Β ί,. υ, Βί φ υ α π ί αμ υ Γ α - α ί υ. α. πί. V ( α μ μ μ α, α α π ία μ ί α πα μ υπ ) π αμ α 8 α, α φ μα α υ α ί υ α Βαφ π. α ί α, π ( α ί), φ

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

αναλυτικός απλός 1 Ο αναλυτικός βλέπει τον κόσμο σαν να αποτελείται από πολλά μικρά κομμάτια.

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό


FAX : spudonpe@ypepth.gr) Φ. 12 / 600 / /Γ1

Περιεχόµ εν α. Εισαγω γή. Επ ισκόπ ηση υπ ο βο λής φακέλω ν (IUCLID 5) Επ ισκόπ ηση υπ ο βο λής φακέλω ν (Reach-IT) Ερω τήσεις καιαπ αν τήσεις

Βάσεις Δεδομένων. Database Management Systems (DBMS) Συστήματα Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ)

Πρι τ αρακτηρ οτικ λαπλ ουοτηματα μικρ ετ εξεργατ δ π υ τ

ΣΤΟ ΧΟΣ- Ε ΠΙ ΔΙΩ ΞΗ ΠΛΑΙ ΣΙΟ ΧΡΗ ΜΑ ΤΟ ΔΟ ΤΗ ΣΗΣ

Οι τα α α α α α α α Κ. ε ε ε ε ε ε ε ε ε Χε ε ε. ε ε ε ε ε ε ρου ου βι ι ι ι ι ι ι. ιµ µυ στι κω ω ω ω ω ως ει κο ο

ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΠΛΑΤΦΟΡΜΑΣ ΠΑΡΟΧΗΣ ΥΠΗΡΕΣΙΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΕΦΑΡΜΟΓΕΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΓΕΩΡΓΙΟΣ ΓΟΥΛΑΣ

Θέ α: ωσ ή ια ροφή και άσκηση ια ο ς εφήβο ς.

Ό λοι οι κα νό νες πε ρί με λέ της συ νο ψί ζο νται στον ε ξής έ να: Μά θε, μό νο προκει μέ νου. Friedrich Schelling. σελ. 13. σελ. 17. σελ.

14/5/ /12/ /5/ /5/2007

Η κ άσση L A TEX dithesis

ΤΜΗΜΑ ΦΩΚΑ/ΤΕΤΑΡΤΗ

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό


Θεωρι α Γραφημα των 2η Δια λεξη

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό

Ανάκτηση Πληροφορίας

Τ τμημα Ηλεκτρ Λ γ α ργ ΨηφιακΦ Συα ημ τω Α αθμ Σκ π τη κη η Σκ π τηζ κη η ε αι α ρησ μ π ε π υδαα η Λ γ κθζ π Λε π ΛΛΦ ε δω α α δε ξε τ τρ π με π γ ε

Ε.Ε. Π α ρ.ι(i), Α ρ.3932, 10/12/2004 Ο ΠΕΡΙ ΚΟΙΜΗΤΗΡΙΩΝ (ΤΑΦΗ ΚΑΙ ΕΚΤΑΦΗ) ΝΟΜΟΣ. H Βουλή των Αντιπροσώπων ψηφίζει ως ακολούθως:

20/5/ /5/ /5/ /5/2006

ΗΛΙΑΣ Γ. ΚΑΡΚΑΝΙΑΣ - ΕΦΗ Ι. ΣΟΥΛΙΩΤΟΥ ΤΕΤΡΑΔΙΟ ΠΡΩΤΗΣ ΓΡΑΦΗΣ. τ... μαθητ... ΤΑΞΗ Α ΣΧΟΛΙΚΟ ΕΤΟΣ... Β Τεύχος

Ανάκτηση Πληροφορίας

ο Θε ος η η µων κα τα φυ γη η και δυ υ υ να α α α µις βο η θο ος ε εν θλι ψε ε ε σι ταις ευ ρου ου ου ου ου σαις η η µα α α ας σφο ο ο ο

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό

ΣΥΜΒΑΣΗ ΜΕΤΑΞΥ ΠΑΡΟΧΟΥ ΚΑΤΑΡΤΙΣΗΣ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΠΑΡΟΧΩΝ, ΩΦΕΛΟΥΜΕΝΟΥ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΩΦΕΛΟΥΜΕΝΩΝ ΚΑΙ ΕΠΙΧΕΙΡΗΣΗΣ ΠΡΑΚΤΙΚΗΣ ΑΣΚΗΣΗΣ


ΘΕΜΑ: Οδηγίες για την αποστολή στοιχείων απλήρωτων υποχρεώσεων & ληξιπρόθεσµων οφειλών του Προγράµµατος ηµοσίων Επενδύσεων

Tηλ.: +30 (210) Fax: +30 (210)

Συντάχθηκε απο τον/την Administrator Τετάρτη, 24 Φεβρουάριος :31 - Τελευταία Ενημέρωση Πέμπτη, 25 Φεβρουάριος :40

d u d dt u e u d dt e u d u 1 u dt e 0 2 e

Ε νικό και Καποδιστριακό Πανεπιστήμιο Α ηνών. Δι οτομίες Πο υπ οκότητας σε Προ ήματα Μέτρησης

Αρ έ ονα αρυτικά κύματα από τον κοσμο ο ικό π η ρισμό και CMB



Ανάκτηση Δεδομένων (Information Retrieval)

Transcript:

Ανάκτηση Π ηροφορίας Συ ραφή Απόστο ος Ν. Παπαδόπου ος Ι άννης Μαν όπου ος Κ νσταντίνος Τσί ας Κριτικός Ανα νώστης Δημήτριος Κατσαρός Συντε εστές Έκδοσης ΓΛΩΣΣΙΚΗ ΕΠΙΜΕΛΕΙΑ: Α. Ν. Παπαδόπου ος, Ι. Μαν όπου ος ΓΡΑΦΙΣΤΙΚΗ ΕΠΙΜΕΛΕΙΑ: Α. Ν. Παπαδόπου ος, Κ. Τσί ας ΤΕΧΝΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ: Α. Ν. Παπαδόπου ος, Κ. Τσί ας ΜΕΤΑΤΡΟΠΗ ΣΕ HTML: Ι. Καρύδης ISBN: 978-960-603-457-2 Copyright ΣΕΑΒ, 2015 Το παρόν έρ ο αδειοδοτείται υπό τους όρους της άδειας Creative Commons Αναφορά ημιουρ ού - Μη Εμπορική Χρήση - Ό ι Παρά α Έρ α 3.0. Για να δείτε ένα αντί ραφο της άδειας αυτής επισκεφτείτε τον ιστότοπο https://creativecommons.org/licenses/by-nc-nd/3.0/gr/ Σύνδεσμος Ε ηνικών Ακαδημαϊκών Βι ιο ηκών Ε νικό Μετσό ιο Πο υτε νείο Ηρώ ν Πο υτε νείου 9, 15780 Ζ ράφου http://www.kallipos.gr

Ανάκτηση Π ηροφορίας Απόστο ος Ν. Παπαδόπου ος Ι άννης Μαν όπου ος Κ νσταντίνος Τσί ας

Περιε όμενα Κατά ο ος Σ ημάτ ν Κατά ο ος Πινάκ ν v vii 1 Εισα ή στην Ανάκτηση Π ηροφορίας 1 1.1 Εισα ή.................................. 2 1.2 Η Διαδικασία της Ανάκτησης Π ηροφορίας................ 8 1.2.1 Βασικές Λειτουρ ίες........................ 9 1.2.2 Περιστασιακή Αναζήτηση και Φι τράρισμα Ε ράφ ν...... 14 1.2.3 Προ ρημένα Θέματα Ανάκτησης Π ηροφορίας.......... 16 1.3 Σύ ρονες Τάσεις.............................. 17 1.4 Σύνοψη και Περαιτέρ Με έτη....................... 19 1.5 Ασκήσεις.................................. 20 2 Αποτίμηση Αποτε εσματικότητας 25 2.1 Εισα ή.................................. 26 2.2 Βασικά Μέτρα Αποτε εσματικότητας................... 26 2.2.1 Ανάκ ηση, Ακρί εια και Αστο ία................. 27 2.2.2 Παρά οντες Μετα ο ής Ανάκ ησης και Ακρί ειας........ 34 2.3 Ενα ακτικά Μέτρα Αποτε εσματικότητας................ 35 2.3.1 Μονότιμες Συνόψεις........................ 35 2.3.2 Αρμονικός Μέσος και E-Μετρική................. 36 2.4 Συ ο ές Αναφοράς και Με έτες Αποτε εσματικότητας......... 38 2.4.1 Πειράματα Cranfield........................ 39 2.4.2 Το Σύστημα SMART....................... 40 2.4.3 Οι Συ ο ές CACM και ISI.................... 40 2.4.4 Οι Συ ο ές TREC........................ 41 2.5 Σύνοψη και Περαιτέρ Με έτη....................... 43 2.6 Ασκήσεις.................................. 45 3 Το Λο ικό Μοντέ ο 51 3.1 Εισα ή.................................. 52 3.2 Το Απ ό Λο ικό Μοντέ ο......................... 52 3.2.1 Βασικές Έννοιες.......................... 53 3.2.2 Τε εστές Γειτονικότητας Όρ ν.................. 56 3.2.3 Επεξερ ασία Ερ τημάτ ν..................... 57 3.2.4 Π εονεκτήματα και Μειονεκτήματα................ 61 3.3 Το Εκτεταμένο Λο ικό Μοντέ ο..................... 62 i

ii ΠΕΡΙΕΧΟΜΕΝΑ 3.4 Σύνοψη και Περαιτέρ Με έτη....................... 67 3.5 Ασκήσεις.................................. 68 4 Το Διανυσματικό Μοντέ ο 73 4.1 Εισα ή.................................. 74 4.2 Βασικές Έννοιες.............................. 4.2.1 Υπο ο ισμός Σημαντικότητας Όρ ν............... 74 76 4.2.2 Υπο ο ισμός Ομοιότητας Ε ράφ ν............... 80 4.3 4.4 Ενα ακτικές Μέ οδοι........................... Π εονεκτήματα και Μειονεκτήματα.................... 83 87 4.5 Σύνοψη και Περαιτέρ Με έτη....................... 88 4.6 Ασκήσεις.................................. 89 5 Το Πι ανοκρατικό Μοντέ ο 93 5.1 Εισα ή.................................. 94 5.2 Βασικές Έννοιες Θε ρίας Πι ανοτήτ ν.................. 95 5.3 Υπο ο ισμός Σ ετικότητας Ε ράφ ν.................. 96 5.3.1 Μέτρο Ομοιότητας......................... 98 5.3.2 Υπο ο ισμός της Ομοιότητας................... 101 5.3.3 Μέ οδος Okapi ΒΜ25....................... 103 5.4 Ανάκτηση με Χρήση Δικτύ ν Bayes.................... 105 5.4.1 Μοντέ ο Δικτύου Συμπερασμάτ ν................ 106 5.4.2 Μοντέ ο Δικτύου Πίστης..................... 111 5.5 Σύνοψη και Περαιτέρ Με έτη....................... 113 5.6 Ασκήσεις.................................. 114 6 Ο Αντεστραμμένος Κατά ο ος 117 6.1 Εισα ή.................................. 118 6.2 Η Δομή του Αντεστραμμένου Κατα ό ου................. 118 6.3 Χρήση του Κατα ό ου στην Επεξερ ασία Ερ τημάτ ν......... 122 6.4 Θέματα Υ οποίησης............................. 128 6.4.1 Δημιουρ ία Κατα ό ου....................... 128 6.4.2 Συντήρηση Κατα ό ου....................... 131 6.4.3 Τε νικές Συμπίεσης Κατα ό ου.................. 133 6.5 Σύνοψη και Περαιτέρ Με έτη....................... 136 6.6 Ασκήσεις.................................. 138 7 Ο Κατά ο ος Υπο ραφών 143 7.1 Εισα ή.................................. 144 7.2 Μέ οδοι Εξα ής Υπο ραφών...................... 144 7.2.1 Βασικές Μέ οδοι Εξα ής Υπο ραφών............. 145 7.2.2 Εξα ή Υπο ραφών με Συμπίεση................ 149 7.2.3 Ψευδείς Συνα ερμοί και Επεξερ ασία Ερ τήματος........ 152 7.3 Ορ άν ση Αρ είου Υπο ραφών...................... 158 7.3.1 Σειριακή Ορ άν ση......................... 158 7.3.2 Κά ετος Διαμερισμός........................ 160 7.3.3 Οριζόντιος Διαμερισμός...................... 166 7.4 Σύνοψη και Περαιτέρ Με έτη....................... 168 7.5 Ασκήσεις.................................. 169

ΠΕΡΙΕΧΟΜΕΝΑ iii 8 Λαν άνουσα Σημασιο ο ική Ανά υση 173 8.1 Εισα ή.................................. 174 8.2 Βασικές Έννοιες Γραμμικής Ά ε ρας.................. 175 8.2.1 Πίνακες και Διανύσματα...................... 175 8.2.2 Ιδιοτιμές και Ιδιοδιανύσματα.................... 177 8.2.3 Δια νιοποίηση........................... 181 8.2.4 Παρα οντοποίηση Ιδιαζουσών Τιμών (SVD)........... 184 8.2.5 Προσέ ιση Πίνακα......................... 187 8.3 Η Μέ οδος LSA.............................. 190 8.4 Σύνοψη και Περαιτέρ Με έτη....................... 198 8.5 Ασκήσεις.................................. 199 9 Ανάκτηση Π ηροφορίας στον Πα κόσμιο Ιστό 203 9.1 Εισα ή.................................. 204 9.2 Πα κόσμιος Ιστός και Μη ανές Αναζήτησης............... 204 9.2.1 Οι Προκ ήσεις του Πα κόσμιου Ιστού.............. 205 9.2.2 Δομή μίας Μη ανής Αναζήτησης................. 206 9.2.3 Πρώιμες Μη ανές Αναζήτησης................... 207 9.2.4 Σύ ρονες Μη ανές Αναζήτησης................. 208 9.3 Ο Α όρι μος HITS............................ 209 9.4 Ο Α όρι μος PageRank.......................... 213 9.4.1 Αδιέξοδα και Πα ίδες........................ 216 9.5 Σύνοψη και Περαιτέρ Με έτη....................... 219 9.6 Ασκήσεις.................................. 220 10 Μετατροπή Ερ τήματος και Ανατροφοδότηση Σ ετικότητας 223 10.1 Εισα ή.................................. 224 10.2 Επέκταση Ερ τήματος........................... 225 10.2.1 Επέκταση Ερ τήματος με Τοπική Ομαδοποίηση......... 225 10.2.2 Επέκταση Ερ τήματος με Τοπική Ανά υση Περιε ομένου.... 226 10.2.3 Επέκταση Ερ τήματος με Γενικευμένη Ανά υση......... 227 10.3 Ανατροφοδότηση Σ ετικότητας...................... 228 10.3.1 Άμεση Ανατροφοδότηση...................... 229 10.3.2 Ά ες Μορφές Ανατροφοδότησης................. 234 10.4 Σύνοψη και Περαιτέρ Με έτη....................... 235 10.5 Ασκήσεις.................................. 235

iv ΠΕΡΙΕΧΟΜΕΝΑ

Κατά ο ος Σ ημάτ ν 1.1 Συ ο ή ε ράφ ν......................... 3 1.2 Επικοιν νία μεταξύ ρήστη και ΣΑΠ................ 9 1.3 Η διαδικασία της Ανάκτησης Π ηροφορίας............. 10 1.4 Τμήμα αντεστραμμένου κατα ό ου ια τα έ ραφα του Σ ήματος 1.1................................ 12 1.5 Εξειδικευμένη Ανάκτηση Π ηροφορίας............... 14 1.6 Ανάκτηση με φι τράρισμα...................... 15 2.1 Αναπαράσταση συνό ν ε ράφ ν με ρήση δια ραμμάτ ν Venn. 27 2.2 Κατη οριοποίηση ε ράφ ν.................... 27 2.3 Συνδυασμοί ανάκ ησης-ακρί ειας.................. 30 2.4 Καμπύ η ανάκ ησης-ακρί ειας................... 31 2.5 Σ έση μεταξύ ανάκ ησης και ακρί ειας και σύ κριση συστημάτ ν. 33 2.6 Διεξα ή πειραμάτ ν με ρήση συ ο ών αναφοράς...... 39 2.7 Παραδεί ματα ερ τημάτ ν από το TREC 2005 Terabyte Track. 44 3.1 Συ ο ή ε ράφ ν......................... 53 3.2 Αναπαράσταση ο ικής έκφρασης με ρήση δια ραμμάτ ν Venn. 54 3.3 Αναπαράσταση ο ικής έκφρασης με ρήση δια ραμμάτ ν Venn. 55 3.4 Τμήμα αντεστραμμένου κατα ό ου ια τα έ ραφα του Σ ήματος 3.1................................ 58 3.5 Απεικόνιση ε ράφ ν στο επίπεδο................. 63 4.1 Συ ο ή ε ράφ ν......................... 75 4.2 Γ νία μεταξύ διανυσμάτ ν σε δύο και τρεις διαστάσεις...... 82 5.1 Γε ονότα που δεν είναι ανεξάρτητα................. 96 5.2 Παράδει μα δικτύου Bayes με έξι τυ αίες μετα ητές....... 106 5.3 Παράδει μα δικτύου συμπερασμάτ ν................ 107 5.4 Παράδει μα δικτύου πίστης..................... 112 6.1 Συ ο ή ε ράφ ν......................... 119 v

vi ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 6.2 Αντεστραμμένος κατά ο ος επιπέδου ε ράφ ν......... 120 6.3 Αντεστραμμένος κατά ο ος επιπέδου όρ ν............ 121 6.4 Εξαντ ητικός α όρι μος υπο ο ισμού τ ν k ομοιοτέρ ν ε - ράφ ν................................ 124 6.5 Αντεστραμμένος κατά ο ος επιπέδου ε ράφ ν με συ νότητες εμφάνισης.............................. 126 6.6 Οι τιμές L d............................. 126 6.7 Α όρι μος υπο ο ισμού τ ν k ομοιοτέρ ν ε ράφ ν με ρήση αντεστραμμένου κατα ό ου..................... 127 6.8 Η διαδικασία επεξερ ασίας ερ τήματος top-k........... 128 6.9 Α όρι μος αντιστροφής στην κύρια μνήμη............ 129 6.10 Α όρι μος αντιστροφής με ταξινόμηση.............. 130 6.11 Α όρι μος αντιστροφής με συ ώνευση............. 131 7.1 Κατασκευή υπο ραφής όρου.................... 145 7.2 Αναζήτηση ε ράφ ν με ρήση υπο ραφών............ 153 7.3 Κατη ορίες με όδ ν ορ άν σης υπο ραφών............ 159 7.4 Σειριακό αρ είο υπο ραφών (SSF)................. 159 7.5 Η δομή BSSF............................ 161 7.6 Η δομή CBS............................. 163 7.7 Η δομή DCBS............................ 164 7.8 Η δομή NFD............................. 165 8.1 Προσέ ιση πίνακα......................... 188 8.2 Συ ο ή ε ράφ ν......................... 190 8.3 Ο πίνακας M όρ ν-ε ράφ ν.................... 191 9.1 Αναπαράσταση τμήματος του πα κόσμιου ιστού με κατευ υνόμενο ράφημα............................ 205 9.2 Βασικότερα τμήματα μίας μη ανής αναζήτησης.......... 207 9.3 Τα σύνο α R και S......................... 210 9.4 Ενημέρ ση τ ν α μών αξιοπιστίας και κομ ικότητας...... 211 9.5 Τα ασικά ήματα του α ορί μου HITS............. 212 9.6 Γράφημα με πι ανότητες μετά ασης................ 213 9.7 Αδιέξοδο και πα ίδα......................... 217 9.8 Τα ασικά ήματα του α ορί μου PageRank........... 219 10.1 Διαδικασία επαναπροσδιορισμού ερ τήματος............ 224

Κατά ο ος Πινάκ ν 1.1 Πίνακας π ανητών........................... 2 1.2 Βασικές διαφορές μεταξύ ΣΔΒΔ και ΣΑΠ............. 4 2.1 Τιμές ανάκ ησης και ακρί ειας.................... 31 2.2 Τιμές ακρί ειας με παρεμ ο ή ια τα 11 επίπεδα ανάκ ησης.... 32 2.3 Τιμές ανάκ ησης, ακρί ειας, αρμονικού μέσου και E-μετρικής... 37 2.4 Μερικές συ ο ές ε ράφ ν που έ ουν ρησιμοποιη εί στο TREC. 41 3.1 Παραδεί ματα ο ικών ερ τημάτ ν................. 54 3.2 Πίνακας α η είας........................... 55 3.3 Παραδεί ματα ο ικών ερ τημάτ ν................. 57 3.4 Ομοιότητα ε ράφου ια τις περιπτώσεις εμφάνισης ή ό ι τ ν όρ ν t a, t b.................................. 63 4.1 Πίνακας όρ ν-ε ράφ ν με δυαδικά άρη.............. 75 4.2 Σύμ ο α και περι ραφές....................... 77 4.3 Ενα ακτικές εκφράσεις υπο ο ισμού της ποσότητας tf t,d..... 84 4.4 Ενα ακτικές εκφράσεις υπο ο ισμού της ποσότητας idf t..... 84 4.5 Ενα ακτικές εκφράσεις υπο ο ισμού του μήκους L d (L q ) ενός ε ράφου d (ερ τήματος q)...................... 85 4.6 Ενα ακτικές εκφράσεις υπο ο ισμού ομοιότητας S vector (q, d)... 85 4.7 Ενα ακτικές εκφράσεις υπο ο ισμού αρών w t,d (και w t,q ).... 85 4.8 Παράδει μα προσδιορισμού συ κεκριμένου μοντέ ου........ 86 5.1 Σύμ ο α και περι ραφές....................... 98 5.2 Πίνακας περιπτώσε ν σ ετικότητας ε ράφ ν............ 102 7.1 Σύμ ο α και περι ραφές....................... 146 8.1 Ο πίνακας M όρ ν-ε ράφ ν.................... 197 8.2 Αρ ικές αποστάσεις συνημιτόνου μεταξύ ε ράφ ν......... 197 vii

viii ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ 8.3 Αποστάσεις συνημιτόνου μεταξύ ε ράφ ν μετά την εφαρμο ή LSA στις δύο διαστάσεις....................... 197 8.4 Αποστάσεις συνημτόνου μεταξύ ερ τημάτ ν και ε ράφ ν πριν την εφαρμο ή LSA.......................... 198 8.5 Αποστάσεις συνημτόνου μεταξύ ερ τημάτ ν και ε ράφ ν μετά την εφαρμο ή LSA.......................... 199

1 Εισα ή στην Ανάκτηση Π ηροφορίας Περιε όμενα Κεφα αίου 1.1 Εισα ή............................ 2 1.2 Η Διαδικασία της Ανάκτησης Π ηροφορίας.......... 8 1.2.1 Βασικές Λειτουρ ίες.................. 9 1.2.2 Περιστασιακή Αναζήτηση και Φι τράρισμα Ε ράφ ν 14 1.2.3 Προ ρημένα Θέματα Ανάκτησης Π ηροφορίας.... 16 1.3 Σύ ρονες Τάσεις........................ 17 1.4 Σύνοψη και Περαιτέρ Με έτη................. 19 1.5 Ασκήσεις............................ 20 1

2 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας 1.1 Εισα ή Η Ανάκτηση Πληροφορίας (Information Retrieval) είναι η επιστημονική περιο ή που με ετά τα προ ήματα που σ ετίζονται με την αναπαράσταση, την ορ άν ση και την επεξερ ασία στοι εί ν π ηροφορίας, με στό ο την αποτε- εσματική και αποδοτική πρόσ αση τ ν ρηστών σε αυτά. Αν και η ν στική περιο ή της Ανάκτησης Π ηροφορίας ξεκίνησε με τη με έτη ε ράφ ν κειμένου (text), στη συνέ εια επεκτά ηκε και στη με έτη ά ν τύπ ν δεδομέν ν, κάτι που επι ή ηκε από τις ανά κες τ ν σύ ρον ν εφαρμο ών. Έτσι, σήμερα μπορούμε να ρησιμοποιούμε με όδους ανάκτησης ια την πρόσ αση σε πο υμεσικά δεδομένα (όπ ς: εικόνα, ή ο, ίντεο) κα ώς και σε δεδομένα δια έσιμα μέσ του πα κόσμιου ιστού (world wide web). Λό της ποικι ομορφίας τ ν τύπ ν δεδομέν ν στα οποία μπορεί να έ ει ταυτό ρονα πρόσ αση ο ρήστης, ε ρούμε στη συνέ εια ότι η κά ε είδους π ηροφορία είναι ενικώς απο ηκευμένη με τη μορφή εγγράφων (documents). Θα ε ρήσουμε ότι ο όρος έ ραφο είναι ισοδύναμος με τον όρο έ ραφο κειμένου (text document). Ο ενδιαφερόμενος ανα νώστης μπορεί να ανατρέξει στη διε νή ι ιο ραφία σ ετικά με την ανάκτηση ά ν τύπ ν δεδομέν ν, όπ ς εικόνα, ή ο και ίντεο. Στο κεφά αιο αυτό, α προσπα ήσουμε να δώσουμε μία ενική εικόνα της ν στικής περιο ής της Ανάκτησης Π ηροφορίας περι ράφοντας τις ασικές έννοιες και δίνοντας συνοπτικά τα έματα που διαπρα ματευόμαστε στη συνέ εια του ι ίου σε με α ύτερο ά ος. Έστ ότι έ ουμε στη διά εσή μας ένα Σύστημα Ανάκτησης Πληροφορίας (ΣΑΠ) που δια ειρίζεται αρ εία με έ ραφα κειμένου σ ετικά με το διάστημα κ δικός όνομα διάμετρος ( μ) δορυφόροι 1 Ερμής 4880 0 2 Αφροδίτη 12103.6 0 3 Γη 12756.3 1 4 Άρης 6794 2 5 Δίας 142984 63 6 Κρόνος 120536 34 7 Ουρανός 51118 21 8 Ποσειδώνας 49532 13 9 Π ούτ νας 2274 3 Πίνακας 1.1: Πίνακας πλανητών.

1.1. Εισαγωγή 3 d 1 : d 2 : d 3 : d 4 : d 5 : d 6 : d 7 : Ο κομήτης του Χά εϋ μας επισκέπτεται περίπου κά ε ε δομήντα έξι ρόνια. Ο κομήτης του Χά εϋ ανακα ύφ ηκε από τον αστρονόμο Έντμοντ Χά εϋ. Ένας κομήτης δια ράφει ε ειπτική τρο ιά. Ο π ανήτης Άρης έ ει δύο φυσικούς δορυφόρους, το Δείμο και το Φό ο. Ο π ανήτης Δίας έ ει εξήντα τρεις ν στούς φυσικούς δορυφόρους. Ο Ή ιος είναι ένας αστέρας. Ο Άρης είναι ένας π ανήτης του η ιακού μας συστήματος. Σχήμα 1.1: Συλλογή εγγράφων. και ένα Σύστημα Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ) που επίσης απο ηκεύει δεδομένα σ ετικά με το διάστημα. Οι δυνατότητες που έ ει το ΣΑΠ είναι εντε ώς διαφορετικές από αυτές του ΣΔΒΔ (αν και υπάρ ουν ήδη υ οποιήσεις που ρησιμοποιούν τε νικές και από τις δύο περιο ές με στό ο την κα ύτερη εξυπηρέτηση τ ν ρηστών). Ας ε ρήσουμε το ακό ου ο ερώτημα: Να βρεθούν οι πλανήτες του ηλιακού μας συστήματος που έχουν κανέναν, έναν ή δύο φυσικούς δορυφόρους. Το ασικό αρακτηριστικό του ερ τήματος αυτού είναι ότι είναι σαφές, και επομέν ς α έ αμε από το σύστημα μια σαφή απάντηση που να κα- ύπτει π ήρ ς το ερώτημα του ρήστη. Το ερώτημα αυτό μπορεί να απαντη εί πο ύ εύκο α από ένα ΣΔΒΔ, αρκεί να υπάρ ει η π ηροφορία σ ετικά με τον αρι μό τ ν δορυφόρ ν που έ ει ο κά ε π ανήτης. Για παράδει μα, αν υπάρ ουν στο σύστημα τα δεδομένα του Πίνακα 1.1, τότε μπορούμε να διατυπώσουμε το προη ούμενο ερώτημα με το εξής ερώτημα SQL: SELECT όνομα FROM π ανήτες WHERE δορυφόροι = 0 OR δορυφόροι = 1 OR δορυφόροι = 2 Ας εξετάσουμε τώρα ένα ά ο ερώτημα η απάντηση του οποίου δεν είναι και τόσο προφανής όσο του προη ούμενου: Να βρεθούν πληροφορίες σχετικές με τον κομήτη του Χάλλεϋ. Το ερώτημα αυτό δεν προσδιορίζει κάποια συ κεκριμένη π ηροφορία που πρέπει να επιστραφεί στο ρήστη. Σε αντί εση με το προη ούμενο ερώτημα, το ερώτημα αυτό είναι ι ότερο σαφές ς προς το αποτέ εσμα. Ένα τέτοιο ερώτημα δεν μπορεί να απαντη εί από ένα τυπικό ΣΔΒΔ και επομέν ς, απαιτούνται διαφορετικοί μη ανισμοί ορ άν σης και επεξερ ασίας τ ν δεδομέν ν με στό ο την αποτε εσματική και αποδοτική επεξερ ασία τ ν ερ τημάτ ν τ ν ρηστών. Έστ ότι υπάρ ουν επτά διαφορετικά έ ραφα, με κ δικούς d 1,

4 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας d 2, d 3, d 4, d 5, d 6 και d 7 τα περιε όμενα τ ν οποί ν δίνονται στο Σ ήμα 1.1. Με άση τα περιε όμενα τ ν ε ράφ ν, ανα ν ρίζουμε ότι τα έ ραφα d 1 και d 2 είναι αυτά που σ ετίζονται περισσότερο με το ερώτημα, ενώ το d 3 σ ετίζεται ι ότερο ιατί αναφέρεται μεν σε κομήτες α ά ό ι στον κομήτη του Χά εϋ. Τέ ος, το έ ραφο d 4 δεν σ ετίζεται κα ό ου με το ερώτημα, κα ώς αναφέρεται στον π ανήτη Άρη και στους δορυφόρους του. Ένα ΣΑΠ είναι κατα η ότερο ια την επεξερ ασία του δεύτερου ερ τήματος, ενώ ένα ΣΔΒΔ είναι πιο κατά η ο ια την επεξερ ασία του πρώτου. Αν και υπάρ ουν συστήματα που ειτουρ ούν ταυτό ρονα και ς ΣΔΒΔ και ς ΣΑΠ, α ε ρήσουμε ότι οι δύο κατη ορίες συστημάτ ν είναι διακριτές. Πρά ματι, τα ν στικά αντικείμενα τ ν Βάσε ν Δεδομέν ν και της Ανάκτησης Π ηροφορίας αναπτύ ηκαν παρά η α, κυρί ς ό τ ν διαφορών στα δεδομένα: ενώ τα ΣΔΒΔ δια ειρίζονται π ήρ ς δομημένα δεδομένα (structured data) με τη μορφή ε ραφών, τα ΣΑΠ δια ειρίζονται αδόμητα δεδομένα (unstructured data) ή ημι-δομημένα δεδομένα (semi-structured data). Η ασική αυτή διαφοροποίηση οδή ησε τους ερευνητές τ ν δύο κατευ ύνσε ν να με ετήσουν διαφορετικά προ ήματα που οφεί ονται στην αναπαράσταση, ορ άν ση και επεξερ ασία τ ν δεδομέν ν. Στον Πίνακα 1.2 παρουσιάζονται μερικές από τις ασικότερες διαφορές μεταξύ ενός ΣΔΒΔ και ενός ΣΑΠ. Ας εξετάσουμε τις διαφορές αυτές πιο προσεκτικά: Ένα ΣΔΒΔ δια ειρίζεται δεδομένα που είναι απο ηκευμένα σε εγγραφές (records). Για παράδει μα, ένας π ανήτης μπορεί να αναπαραστα εί με μία ε ραφή τη μορφής όνομα, διάμετρος, αρ_δορυφόρων. Τα στοι εία όνομα, διάμετρος και αρ_δορυφόρων κα ούνται πεδία της ε ραφής. Επομέν ς, ό α τα δεδομένα που είναι απο ηκευμένα στη άση α πρέπει να έ ουν την ίδια μορφή. Βέ αια, σε ένα ΣΔΒΔ σπάνια τα δεδομένα είναι απο ηκευμένα σε ένα μόνο πίνακα. Στην πρα ματικότητα υπάρ ει ένα σύ- αρακτηριστικό ΣΔΒΔ ΣΑΠ είδος δεδομέν ν απο ύτ ς δομημένα αδόμητα, ημι-δομημένα τύπος δεδομέν ν αρι μητικά, α φαρι μητικά έ ραφα ώσσα ερ τημάτ ν SQL,QBE έξεις-κ ειδιά ή φυσική ώσσα ερώτημα σαφές ασαφές ταύτιση απάντησης επακρι ής μερική αποτε έσματα ρίς α μο ό ηση α μο ο ημένα Πίνακας 1.2: Βασικές διαφορές μεταξύ ΣΔΒΔ και ΣΑΠ.

1.1. Εισαγωγή 5 νο ο πινάκ ν που ορίζει τα δεδομένα και τις σ έσεις μεταξύ τους. Είναι προφανές, ότι τα δεδομένα ενός ΣΔΒΔ έ ουν μία συ κεκριμένη μορφή (δομή). Αντι έτ ς, σε ένα ΣΑΠ δεν είναι απαραίτητη η ύπαρξη δομής στα δεδομένα. Τα δεδομένα είναι απο ηκευμένα με τη μορφή ε ράφ ν που περιέ ουν ε έυ ερο κείμενο και επομέν ς δεν αρακτηρίζονται από συ κεκριμένη δομή. Σε ένα ΣΔΒΔ, σε ένα πεδίο μίας ε ραφής απο ηκεύεται μία αρι μητική ή α φαρι μητική τιμή, που έ ει συνή ς περιορισμένο μήκος. Αντι έτ ς, το μέ ε ος του κά ε ε ράφου δεν περιορίζεται, ενώ το περιε όμενό του μπορεί να είναι διαφορετικό ανά ο α με την εφαρμο ή. Αξίζει να σημει - εί ότι τα περισσότερα ΣΔΒΔ υποστηρίζουν τη δυνατότητα απο ήκευσης με ά ν αντικειμέν ν, οπότε α μπορούσαν να ρησιμοποιη ούν ια τη δια είριση ε ράφ ν. Ωστόσο, η δυνατότητα απο ήκευσης ε ράφ ν είναι ένα μόνο από τα αρακτηριστικά ενός ΣΑΠ. Προη ουμέν ς, είδαμε ότι διαφορετικά διατυπώνεται ένα ερώτημα σε ένα ΣΔΒΔ και διαφορετικά σε ένα ΣΑΠ. Στην πρώτη περίπτ ση ο ρήστης επικοιν νεί με το ΣΔΒΔ είτε διατυπώνοντας ένα ερώτημα σε μία ώσσα ερ τημάτ ν όπ ς είναι η SQL, είτε συμπ ηρώνει κάποια φόρμα ενώ στη συνέ εια το ερώτημα μετατρέπεται σε SQL ρίς την παρέμ αση του ρήστη. Αντί ετα, ια τη διατύπ ση ενός ερ τήματος σε ένα ΣΑΠ ρησιμοποιείται φυσική ώσσα. Στην πιο απ ή μορφή του ένα ερώτημα απαρτίζεται από ένα μικρό σύνο ο όρ ν που εκφράζουν την π ηροφοριακή ανά κη του ρήστη (π.. ο π ανήτης Δίας). Η διατύπ ση ενός ερ τήματος με μία ώσσα ερ τημάτ ν όπ ς η SQL περιορίζεται από τους κανόνες της ώσσας, ενώ τα ερ τήματα που απευ- ύνονται σε ένα ΣΔΒΔ αρακτηρίζονται από σαφήνεια. Για παράδει μα, το ερώτημα SQL που είδαμε προη ουμέν ς αναφέρεται με σαφήνει ια το ποια αποτε έσματα επι υμεί ο ρήστης στην έξοδο (συν ήκη WHERE). Στην περίπτ ση ενός ΣΑΠ, η απ ή περά εση μερικών όρ ν ή μίας παρα ράφου δεν είναι ικανή να προσδιορίσει με ακρί εια την π ηροφοριακή ανά κη του ρήστη. Βέ αια, υπάρ ουν μοντέ α ανάκτησης στα οποία δη ώνεται με ακρί εια το είδος της απάντησης (π.. το ο ικό μοντέ ο) όμ ς τα περισσότερα μοντέ α προσπα ούν να προσδιορίσουν το α μό ομοιότητας τ ν ε ράφ ν με το ερώτημα. Αυτό σημαίνει ότι η ταύτιση του ε ράφου με το ερώτημα μπορεί να είναι μερική (partial match). Για παράδει μα, έστ ότι ένας ρήστης εκφράζει την π ηροφοριακή του ανά κη ρησιμοποιώντας τους όρους Δίας, Κρόνος. Αν το ΣΑΠ δια ειρίζεται τη συ ο ή ε ράφ ν του Σ ήματος 1.1 τότε προφανώς δεν υπάρ ει κάποιο έ ραφο

6 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας που να περιέ ει και τους δύο όρους του ερ τήματος. Στην περίπτ ση αυτή α μπορούσε να τερματιστεί η αναζήτηση ρίς κα ό ου αποτε έσματα. Όμ ς, αν και δεν υπάρ ουν αποτε έσματα ια τον π ανήτη Κρόνο, υπάρ- ουν έ ραφα σ ετικά με τον π ανήτη Δία. Παρατηρούμε ότι σε αντί εση με ένα ερώτημα σε ένα ΣΔΒΔ το ερώτημα προς ένα ΣΑΠ αρακτηρίζεται από ασάφεια σ ετικά με την εμφάνιση τ ν όρ ν στα έ ραφα. Τα αποτε έσματα που αφορούν ένα ερώτημα SQL αποτε ούν ένα σύνο ο ε ραφών ια τα οποία δεν ορίζεται κάποια α μο ό ηση. Εξαίρεση αποτε- ούν τα ερ τήματα που περιέ ουν την έκφραση ORDER BY και τα οποία εμφανίζουν τα αποτε έσματα ταξινομημένα κατά αύξουσα ή φ ίνουσα διάταξη με άση κάποιο πεδίο (ή πεδία). Ωστόσο, δεν μπορούμε να προσδιορίσουμε κάποια ε ραφή που να είναι περισσότερο σ ετική ς προς το ερώτημα σε σ έση με κάποια ά η. Για την ακρί εια, μία ε ραφή είτε α ικανοποιεί τις συν ήκες του ερ τήματος είτε ό ι. Σε ένα ΣΑΠ στόσο, μπορούμε να προσδιορίσουμε το α μό ομοιότητας ενός ε ράφου ς προς το ερώτημα. Άρα, τα αποτε έσματα ενός ερ τήματος μπορούν να εμφανιστούν στο ρήστη με φ ίνουσα διάταξη ς προς το α μό ομοιότητας. Η σ ετικότητα ενός ε ράφου ς προς τα ενδιαφέροντα ενός ρήστη μπορεί να διαπιστ εί σ ετικά εύκο α αν ο ρήστης δια άσει προσεκτικά το έ ραφο. Ο αν ρώπινος ε κέφα ος μπορεί ρή ορα να αποφαν εί αν ένα έ ραφο είναι σ ετικό ή ό ι. Για την περίπτ ση της μικρής συ ο ής ε ράφ ν του Σ ήματος 1.1, η με έτη ό ν τ ν ε ράφ ν είναι εύκο η υπό εση τόσο ιατί τα έ ραφα είναι ί α όσο και ιατί το κά ε έ ραφο αποτε είται από πο ύ ί ες έξεις. Με ποιόν τρόπο όμ ς α μπορέσουμε να διακρίνουμε τα σ ετικά έ ραφα ανάμεσα σε αρκετές ι ιάδες ε ράφ ν που μπορεί να αποτε ούνται από πο ές ι ιάδες έξεις το κα ένα; Δυστυ ώς η τεράστια ποσότητα π ηροφορίας είναι ο κανόνας και ό ι η εξαίρεση. Για παράδει μα, με τη οή εια του πα κόσμιου ιστού έ ουμε πρόσ αση σε με ά ες ποσότητες π ηροφορίας και ρίς τα κατά η α ερ α εία, η π ηροφορία αυτή παραμένει ανεκμετά ευτη. Επίσης, υπάρ ουν με ά ες ποσότητες π ηροφορίες απο ηκευμένες σε η εκτρονικές ι ιο ήκες. Χ ρίς τους κατά η ους μη ανισμούς ανάκτησης, το μόνο που α μπορούσαμε να εφαρμόσουμε είναι η σειριακή εξέταση τ ν ε ράφ ν με σκοπό τον προσδιορισμό τ ν σ ετικών ε ράφ ν ς προς τα ενδιαφέροντα του ρήστη. Όπ ς είναι προφανές, κάτι τέτοιο δεν είναι εφικτό. Στο σημείο αυτό έρ εται να οη ήσει η Ανάκτηση Π ηροφορίας που προσφέρει αποδοτικές και αποτε εσματικές με όδους ορ άν σης δεδομέν ν και επεξερ ασίας ερ τημάτ ν με στό ο τον αυτοματοποιημένο και συστηματικό προσδιορισμό της σ ετικής π ηροφορίας ς προς τις π ηροφοριακές ανά κες τ ν ρηστών.

1.1. Εισαγωγή 7 Πριν προ ρήσουμε σε περισσότερες επτομέρειες κρίνεται σκόπιμη μία συνοπτική παρουσίαση μερικών εκ τ ν σημαντικότερ ν ε ονότ ν στο ώρο της Ανάκτησης Π ηροφορίας: 1890 Χρήση καρτών Hollerith από το Γραφείο Π η υσμιακής Απο ραφής τ ν ΗΠΑ (US Census Bureau). 1950 Πρ τοεμφανίζεται ο όρος Ανάκτηση Πληροφορίας. 1960 Η δημοσίευση της ερ ασίας τ ν Maron και Kuhns [4] σ ετικά με τη ρήση πι ανοτήτ ν στην Ανάκτηση Π ηροφορίας. 1962 Δημοσιεύονται οι πρώτες με έτες του William Cleverdon σ ετικά με τα πειράματα Cranfield. 1968 Δημοσιεύεται το ι ίο του Gerand Salton με τίτ ο Automatic Information Organization and Retrieval. 1969 Δημοσιεύεται η ερ ασία του John W. Sammon Jr. [13] που αποτέ εσε την πρώτη πρόταση ια τη ρήση οπτικοποιημένης διεπαφής με συστήματα ανάκτησης. 1971 Εκδίδεται το ι ίο του Gerand Salton ια το σύστημα SMART [4]. 1975 Δημοσιεύεται η ερ ασία [6] από την ομάδα του Salton σ ετικά με το Διανυσματκό μοντέ ο ανάκτησης. 1978 Διορ ανώνεται το πρώτο συνέδριο SIGIR (Rochester, New York). 1979 Εκδίδεται το ι ίο του Van Rijsbergen με τίτ ο Information Retrieval [7]. 1983 Δημοσιεύεται η ερ ασία τ ν Salton, Fox και Wu [5] σ ετικά με την επέκταση του Λο ικού μοντέ ου. 1989 Δημιουρ ία του Παρκόσμιου Ιστού από τον Sir Tim Berners-Lee. 1992 Διορ ανώνεται το πρώτο συνέδριο TREC (Gaithersburg, Maryland). 1993 Κατασκευή του φυ ομετρητή Mosaic. 1994 Κατασκευάζονται οι μη ανές αναζήτησης Lycos, Infoseek και AltaVista και δημιουρ είται ο φυ ομετρητής Netscape Navigator.

8 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας 1995 Ιδρύεται η εταιρία Yahoo!. 1998 Ιδρύεται η εταιρία Google Inc. 1999 Ο Sir Tim Berners-Lee εισά ει την έννοια του σημασιολογικού ιστού (semantic web). 2008 Η Yahoo! ανακοινώνει ότι υιο ετεί μερικές από τις τε νο ο ικές εξε ίξεις του σημασιο ο ικού ιστού. Στη συνέ εια παρουσιάζονται τα ασικότερα έματα που αφορούν στη διαδικασία της Ανάκτησης Π ηροφορίας, περι ράφεται η ενική αρ ιτεκτονική ενός ΣΑΠ και συζητούνται έματα που αφορούν σε προ ρημένες τε νικές και σύ - ρονες ερευνητικές τάσεις. 1.2 Η Διαδικασία της Ανάκτησης Π ηροφορίας Ένα ΣΑΠ έ ει δύο ασικούς στό ους. Ο πρώτος έ ει να κάνει με την ποιότητα και επάρκεια τ ν αποτε εσμάτ ν, δη αδή την αποτελεσματικότητα (effectiveness), ενώ ο δεύτερος σ ετίζεται με την τα ύτητα ανάκτησης της ζητούμενης π ηροφορίας, δη αδή την απόδοση (efficiency). Αν και υπάρ ουν περιπτώσεις όπου η αποτε εσματικότητα ή η απόδοση παίζει με α ύτερο ρό ο, μας ενδιαφέρει η ανάπτυξη ενός ΣΑΠ που να είναι δυνατό και στα δύο αυτά αρακτηριστικά. Εδώ παρατηρούμε ια ά η μια φορά τη διαφορά μεταξύ ΣΑΠ και ΣΔΒΔ. Για ένα ΣΔΒΔ δεν τί εται έμα αποτε εσματικότητας διότι ε ρούμε εκ τ ν προτέρ ν ότι τα αποτε έσματα προσδιορίζονται με μοναδικό τρόπο. Με ά α ό ια, δύο ΣΔΒΔ που περιέ ουν ακρι ώς τα ίδια δεδομένα α δώσουν τα ίδια αποτε έσματα ια το ίδιο ερώτημα (στη ενική περίπτ ση σε διαφορετικό ρόνο). Κάτι τέτοιο όμ ς δεν ισ ύει στην περίπτ ση τ ν ΣΑΠ. Δύο διαφορετικά ΣΑΠ ενδέ εται να δώσουν διαφορετικά αποτε έσματα ια το ίδιο ερώτημα. Θε ρήστε ς παράδει μα δύο δημοφι είς μη ανές αναζήτησης στον πα κόσμιο ιστό, τη μη ανή Yahoo! και τη μη ανή Google. Αν δοκιμάσουμε να δώσουμε το ίδιο ερώτημα στις μη ανές αυτές α πάρουμε διαφορετικά αποτε έσματα. Η αποτίμηση τ ν αποτε εσμάτ ν της διαδικασίας ανάκτησης είναι ένα από τα ασικά προ ήματα της ν στικής περιο ής. Ωστόσο, α πρέπει να τονιστεί ότι ειδικά ια την περίπτ ση του Web, η διαφορετικότητα τ ν απαντήσε ν μπορεί επίσης να οφεί εται και στο ε ονός ότι οι δύο μη ανές μπορεί να μην έ ουν συ έξει το ίδιο σύνο ο ιστοσε ίδ ν. Ένα ΣΑΠ δέ εται ένα ερώτημα από κάποιον ρήστη, το οποίο εκφράζει την ανά κη ια π ηροφορία σ ετικά με κάποιο έμα (όπ ς ια παράδει μα το ερώτημα

1.2. Η Διαδικασία της Ανάκτησης Πληροφορίας 9!"! ## $ Σχήμα 1.2: Επικοινωνία μεταξύ χρήστη και ΣΑΠ. που έ ουμε αναφέρει προη ουμέν ς σ ετικά με τον κομήτη του Χά εϋ). Στη συνέ εια, το σύστημα προσδιορίζει τη ζητούμενη π ηροφορία και την επιστρέφει στο ρήστη. Η διαδικασία αυτή παρουσιάζεται στο Σ ήμα 1.2 όπου φαίνεται ο τρόπος επικοιν νίας ενός ρήστη με ένα σύστημα Ανάκτησης ΠΛηροφορίας. Τα έ ραφα που απαρτίζουν την απάντηση είναι συνή ς ταξινομημένα σε φ ίνουσα διάταξη ς προς το α μό ομοιότητας με το ερώτημα. Ο προσδιορισμός τ ν σ ετικών ς προς το ερώτημα ε ράφ ν είναι μία πο ύπ οκη διαδικασία η οποία κα είται αναζήτηση (searching) και α πρέπει να εκτε είται ρή ορα. Μία δεύτερη ασική ειτουρ ία που επιτρέπει την α η επίδραση μεταξύ ρήση και ΣΑΠ είναι η περιήγηση (browsing), κατά την οποία ο ρήστης μπορεί να εξερευνήσει τα έ ραφα της συ ο ής ένα προς ένα, ανά εματική ενότητα ή να ρησιμοποιήσει τους πι ανούς συνδέσμους μεταξύ τ ν ε ράφ ν, όπ ς ια παράδει μα στη δια είριση ε ράφ ν τύπου HTML, ώστε να μετα εί από το ένα έ ραφο στο ά ο. Η αναζήτηση και η περιή ηση πο ές φορές ειτουρ ούν συνερ ατικά, κα ώς μπορεί ο ρήστης να ρησιμοποιήσει την αναζήτηση ια να εντοπίσει ένα υποσύνο ο τ ν ε ράφ ν της συ ο ής και στη συνέ εια να συνε ίσει ρησιμοποιώντας την περιή ηση ια τη με έτη τ ν αποτε εσμάτ ν. 1.2.1 Βασικές Λειτουρ ίες Τα τμήματα της διαδικασίας της Ανάκτησης Π ηροφορίας παρουσιάζονται δια ραμματικά στο Σ ήμα 1.3 και α ανα υ ούν συνοπτικά στη συνέ εια, ενώ στα επόμενα κεφά αια α με ετήσουμε διεξοδικά τις ειτουρ ίες που αυτά εκτε- ούν. Ο κά ε ρήστης του ΣΑΠ επικοιν νεί με το σύστημα με τη οή εια κάποιας διεπαφής. Για παράδει μα, στην περίπτ ση μίας μη ανής αναζήτησης, η διεπαφή

10 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας Έγγραφο Ερωτήµατος Νέα Έγγραφα Ερώτηµα Χρήστης Ανάδραση Προεπεξεργασία Εγγράφου Ερωτήµατος Προεπεξεργασία Εγγράφου Επαναπροσδιορισµός Ερωτήµατος Αναζήτηση Σχετικών Εγγράφων Ενηµέρωση Καταλόγου Βαθµολόγηση Εγγράφων Παραγωγή και Μορφοποίηση Αποτελεσµάτων Κατάλογος Έγγραφα Σχήμα 1.3: Η διαδικασία της Ανάκτησης Πληροφορίας. είναι ο φυ ομετρητής (browser) του ρήστη, ο οποίος συνδέεται με το ΣΑΠ μέσ του πρ τοκό ου HTTP. Επίσης, η διεπαφή μπορεί να εξαρτάται από το σύστημα, όπ ς ια παράδει μα αν πρόκειται ια μία εφαρμο ή client-server, η οποία επι ά ει την ε κατάσταση ειδικού ο ισμικού στο τερματικό του ρήστη. Οποιαδήποτε και αν είναι η διεπαφή, μέσ αυτής ο ρήστης έ ει τη δυνατότητα να ρησιμοποιεί το ΣΑΠ σε συνάρτηση με τα δικαιώματα ρήσης που αυτός έ ει. Δύο είναι οι ασικές ειτουρ ίες στις οποίες ένας ρήστης μπορεί να έ ει πρόσ αση: (α) η υπο ο ή ενός ερ τήματος (ανά κη ια π ηροφορία), και ( ) η υπο ο ή ενός νέου ε ράφου προς απο ήκευση. Προφανώς, ια τη δεύτερη ειτουρ ία α πρέπει ο ρήστης να έ ει και ανά ο α δικαιώματα. Συνή ς, δικαί μα κατα ώρισης νέ ν ε ράφ ν έ ουν μόνο εξουσιοδοτημένοι ρήστες που

1.2. Η Διαδικασία της Ανάκτησης Πληροφορίας 11 είναι υπεύ υνοι ια τα περιε όμενα του ΣΑΠ. Σε περίπτ ση που ο ρήστης επι- υμεί να κατα ρίσει ένα νέο έ ραφο, τότε το έ ραφο αυτό υπο ά εται στη διαδικασία της προεπεξερ ασίας ώστε να μετατραπεί σε μία μορφή κατά η η ια την εσ τερική του αναπαράσταση στο ΣΑΠ. Όπ ς α με ετήσουμε στη συνέ εια, η προεπεξερ ασία αυτή μπορεί να αφορά στην απα οιφή κάποι ν έξε ν που δεν μεταφέρουν σημαντική ποσότητα π ηροφορίας (π.. άρ ρα). Αν κατα- ριστεί ένα νέο έ ραφο, τότε α πρέπει να ενημερ εί ένα ζ τικό μέρος του ΣΑΠ που κα είται κατάλογος (catalogue) ή ευρετήριο (index) και το οποίο είναι υπεύ υνο ια τη ρή ορη αναζήτηση έξε ν με στό ο τον προσδιορισμό τ ν σ ετικών ς προς το ερώτημα ε ράφ ν. Επειδή τα περιε όμενα του κατα ό ου είναι σε άμεση συνάρτηση με τα περιε όμενα τ ν ε ράφ ν, κά ε φορά που μετα ά ονται τα περιε όμενα τ ν ε ράφ ν (π.. εισα ή νέου ε ράφου) α πρέπει να υπάρ ει αντίστοι η ενημέρ ση του κατα ό ου. Έστ τώρα ότι ο ρήστης υπο ά ει κάποιο ερώτημα προς το ΣΑΠ. Το ερώτημα ενός ρήστη συνή ς εκφράζεται με τον προσδιορισμό μερικών έξε ν, και ίσ ς με κάποιους τε εστές. Στο προη ούμενο παράδει μα, η αναζήτηση ε ράφ ν σ ετικών με τον κομήτη του Χά εϋ α μπορούσε να εκφραστεί ς: Q = {κομήτης,χά εϋ} Αυτή είναι η πιο ενική μορφή ενός ερ τήματος και ς απάντηση δε όμαστε έ ραφα που περιέ ουν και τις δύο ή μία από τις δύο έξεις. Επομέν ς, στην περίπτ ση αυτή υπονοείται η ρήση του ο ικού τε εστή OR μεταξύ τ ν έξε ν του ερ τήματος. Σε μερικές περιπτώσεις μπορεί να έ ουμε να ρησιμοποιήσουμε τον τε εστή AND μεταξύ τ ν έξε ν. Για παράδει μα, αν στην απάντηση έ ουμε μόνο έ ραφα που περιέ ουν και τις δύο έξεις, τότε το ερώτημα α μπορούσε να εκφραστεί ς: Q = κομήτης AND Χά εϋ Σε περίπτ ση που στο ερώτημα υπάρ ουν πο ές έξεις, τότε μπορεί να ίνει η ρήση τ ν ο ικών τε εστών AND, OR και NOT (μαζί με παρεν έσεις) ια τη διατύπ ση πιο πο ύπ οκ ν ερ τημάτ ν. Στη συνέ εια του ι ίου α με ετήσουμε μη ανισμούς ανάκτησης που επιτρέπουν τη διατύπ ση τέτοι ν ερ τημάτ ν. Επίσης, ο μη ανισμός ανάκτησης είναι αυτός που κα ορίζει και τον τρόπο αναπαράστασης τ ν ε ράφ ν. Συνή ς ρησιμοποιούνται ειδικές αναπαραστάσεις τ ν ε ράφ ν με στό ο την αποτε εσματική και αποδοτική επεξερ ασία τ ν ερ τημάτ ν. Από τους μη ανισμούς ανάκτησης που έ ουν προτα εί στη ι-

12 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας ιο ραφία, στα επόμενα κεφά αια α εστιάσουμε στους εξής: Λο ικό Μοντέ ο, Διανυσματικό Μοντέ ο, Πι ανοτική Ανάκτηση Π ηροφορίας, και LSI (Latent Semantic Indexing). Το ερώτημα του ρήστη α υποστεί και αυτό κάποια προεπεξερ ασία που εξαρτάται και από την προεπεξερ ασία που εφαρμόζεται στα απο ηκευμένα έ - ραφα. Για παράδει μα, αν δεν αμ άνουμε υπόψη τα άρ ρα τότε α πρέπει αυτά να δια ραφούν από το ερώτημα του ρήστη. Το προεπεξερ ασμένο ερώτημα οδη- είται προς εκτέ εση με στό ο την εύρεση τ ν σ ετικών ε ράφ ν ς προς αυτό. Στη φάση αυτή ο κατά ο ος παίζει πο ύ σημαντικό ρό ο, κα ώς μας οη ά στον προσδιορισμό τ ν ε ράφ ν που περιέ ουν τους όρους του ερ τήματος. Χ ρίς τη ρήση του κατα ό ου, α έπρεπε να αναζητήσουμε τους όρους του ε ράφου σε ό α τα απο ηκευμένα έ ραφα με σειριακό τρόπο. Επομέν ς, η ρήση του κατα ό ου οδη εί σε πιο αποδοτική αναζήτηση. Ο κατά ο ος που ρησιμοποιείται συνή ς στα συστήματα Ανάκτησης Π ηροφορίας είναι ο αντεστραμμένος κατάλογος (inverted index), ο οποίος αντιστοι εί σε κά ε έξη τα έ ραφα που την περιέ ουν, και τις έσεις μέσα στο έ ραφο όπου αυτές εμφανίζονται. λεξικό ο κοµήτης του Χάλλεϋ µας επισκέπτεται κάθε λίστες εµφανίσεων (d 1, 1), (d 2, 1), (d 4, 1) (d 1, 3), (d 2, 29), (d 3, 3) (d 1, 11) (d 1, 15), (d 2, 3) (d 1, 17) (d 1, 21) (d 1, 34) Σχήμα 1.4: Τμήμα αντεστραμμένου καταλόγου για τα έγγραφα του Σχήματος 1.1. Στο Σ ήμα 1.4 δίνεται ένα μέρος του αντεστραμμένου κατα ό ου που αντιστοι εί στα έ ραφα που εμφανίζονται στο Σ ήμα 1.1. Ο αντεστραμμένος κατά ο ος αποτε είται από δύο τμήματα, το λεξικό (lexicon), το οποίο αποτε είται από ό ες τις έξεις που εμφανίζονται στα έ ραφα και τις λίστες εμφανίσεων (occurrence lists ή posting lists), οι οποίες περιέ ουν την π ηροφορία εμφάνισης τ ν έξε ν στα έ ραφα. Για παράδει μα, η έξη κομήτης εμφανίζεται στο έ ραφο d 1 στη έση 3, στο έ ραφο d 2 στη έση 29 και στο έ ραφο d 3 στη έση 3 ( ε ρώντας ότι η αρί μηση τ ν έσε ν στο έ ραφο αρ ίζει από το 1 και κά ε αρακτήρας κατα αμ άνει μία έση στο έ ραφο). Η κά ε ίστα εμφανίσε ν είναι ένα σύνο ο από εμφανίσεις έξε ν. Το σύμ ο ο [d x, θ] σημαίνει

1.2. Η Διαδικασία της Ανάκτησης Πληροφορίας 13 ότι η έξη ρίσκεται στη έση θ του ε ράφου d x. Μερικές υ οποιήσεις αντεστραμέν ν κατα ό ν μπορεί να περιέ ουν και ά ες σημαντικές π ηροφορίες, όπ ς ια παράδει μα τη συχνότητα εμφάνισης (frequency of occurrence) κά ε έξης στα έ ραφα της συ ο ής. Στην πιο απ ή του μορφή, ο αντεστραμμένος κατά ο ος περιέ ει ια κά ε όρο το π ή ος τ ν ε ράφ ν που αυτός περιέ εται και τους κ δικούς αρι μούς τ ν ε ράφ ν αυτών. Ο αντεστραμμένος κατά ο ος α πρέπει να υ οποιη εί με κατά η ο τρόπο ώστε η αναζήτηση τ ν έξε ν στα έ ραφα να ίνεται αποδοτικά. Για το ό ο αυτό ρησιμοποιούνται ειδικές τε νικές ια την ορ άν ση του εξικού και τη συμπίεση τ ν ιστών εμφανίσε ν. Για παράδει μα, το εξικό μπορεί να ορ αν - εί με τη ρήση ενός B-δένδρου ή με τη ρήση πίνακα κατακερματισμού, ώστε να έ ουμε ρή ορη πρόσ αση στη ίστα εμφανίσε ν κάποιας έξης. Μορφές ορ άν σης του εξι ο ίου κα ώς επίσης και με όδους ορ άν σης τ ν ιστών εμφανίσε ν α με ετήσουμε σε επόμενα κεφά αια. Επίσης, α με ετήσουμε και ά ες με όδους ορ άν σης και αναζήτησης, όπ ς ια παράδει μα κατα ό ους που ασίζονται στη ρήση υπο ραφών (signatures). Μετά τον προσδιορισμό τ ν σ ετικών ε ράφ ν με τη οή εια του κατα ό- ου, ακο ου εί η διαδικασία της α μο ό ησης και της ταξινόμησης τ ν ε ράφ ν. Η α μο ό ηση τ ν ε ράφ ν έ ει ς στό ο τον προσδιορισμό μίας τιμής ια κά ε έ ραφο, η οποία δη ώνει τη σ ετικότητα του ε ράφου ς προς το ερώτημα του ρήστη. Ο α μός σ ετικότητας συνή ς είναι μία τιμή μεταξύ του 0 και του 1, ή εκφράζεται με ποσοστό. Έτσι, ένα έ ραφο με α μό σ ετικότητας 100% ταιριάζει ακρι ώς με το ερώτημα του ρήστη. Η μέ οδος α μο ό ησης εξαρτάται από το μοντέ ο ανάκτησης που ρησιμοποιεί το σύστημα. Υπάρ ουν μοντέ α που επιτρέπουν τον προσδιορισμό του α μού σ ετικότητας, ενώ κάποια ά α δεν έ ουν αυτή τη δυνατότητα. Τα α μο ο ημένα έ ραφα επιστρέφονται στο ρήστη συνή ς με φ ίνουσα διάταξη. Άρα, το πρώτο έ ραφο είναι το περισσότερο σ ετικό, ενώ το τε ευταίο σ ετίζεται ι ότερο με την ανά κη π ηροφορίας του ρήστη. Πο ές φορές παρατηρείται το φαινόμενο, κάποια από τα έ ραφα που επέστρεψε το ΣΑΠ να μην είναι τόσο σ ετικά με το ερώτημα του ρήστη. Μία από τις με όδους που ρησιμοποιούνται ια την ενίσ υση της ποιότητας τ ν αποτε- εσμάτ ν είναι η ανάδραση σχετικότητας (relevance feedback). Με τη μέ οδο αυτή, ο ρήστης έ ει τη δυνατότητα να επι έξει κάποια από τα έ ραφα της απάντησης ς περισσότερο σ ετικά από τα υπό οιπα και το σύστημα να επαναπροσδιορίσει την απάντηση με άση την επι ο ή του ρήστη. Η μέ οδος της ανάδρασης σ ετικότητας α με ετη εί σε ά ος σε επόμενο κεφά αιο. Στις προη ούμενες παρα ράφους προσπα ήσαμε να δώσουμε τις ασικότε-

14 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας ρες έννοιες που αφορούν στη ν στική περιο ή της Ανάκτησης Π ηροφορίας, περι ράφοντας συνοπτικά τα ασικότερα τμήματα ενός ΣΑΠ. Τα κεφά αια που ακο ου ούν με ετούν σε ά ος τις έννοιες που παρουσιάσαμε εδώ. 1.2.2 Περιστασιακή Αναζήτηση και Φι τράρισμα Ε ράφ ν Ένα ερώτημα μπορεί να ανήκει σε μία από δύο κατη ορίες. Η πρώτη κατη- ορία αφορά σε ερ τήματα που εκτε ούνται μία φορά, ενώ η δεύτερη κατη ορία αφορά σε ερ τήματα που εκτε ούνται συνε ώς ια κάποιο ρονικό διάστημα που συνή ς προσδιορίζεται από το ρήστη. Η πρώτη κατη ορία αναζήτησης κα- είται περιστασιακή ή εξειδικευμένη (ad-hoc), ενώ η συνε ής επεξερ ασία ενός ερ τήματος κα είται και φιλτράρισμα (filtering) ή δρομολόγηση (routing) τ ν ε - ράφ ν. Έστ ότι ένας ρήστης επι υμεί να ά ει π ηροφορίες σ ετικά με τον π ανήτη Άρη, και υπο ά ει στο ΣΑΠ το ερώτημα Q = {π ανήτης,άρης} δη ώνοντας ότι επι υμεί και τους δύο όρους στα έ ραφα της απάντησης. Με άση τα έ ραφα του Σ ήματος 1.1 το ΣΑΠ α προσδιορίσει ότι το d 4 είναι το μοναδικό σ ετικό έ ραφο ς προς το ερώτημα και α το επιστρέψει στο ρήστη. Στο σημείο αυτό, ο οκ ηρώνεται η επεξερ ασία του ερ τήματος. Σε περίπτ ση που ο ρήστης μετά από κάποιο ρονικό διάστημα επι υμεί να εκτε έσει πά ι το ίδιο ερώτημα, α πρέπει εκ νέου να το υπο ά ει στο ΣΑΠ. Αυτός ο τρόπος επεξερ ασίας είναι και αυτός που υπονοείται συνή ς από τους ρήστες. Ας υπο έσουμε τώρα ότι η συ ο ή τ ν ε ράφ ν α άζει με σ ετικά ρή- ερώτηµα 1 συλλογή εγγράφων χρήστης 1 απάντηση 1 ερώτηµα 2 έγγραφο 2 έγγραφο 4 χρήστης 2 απάντηση 2 έγγραφο 1 έγγραφο 5 χρήστης 3 ερώτηµα 3 έγγραφο 3 έγγραφο 6 απάντηση 3 Σχήμα 1.5: Εξειδικευμένη Ανάκτηση Πληροφορίας.

1.2. Η Διαδικασία της Ανάκτησης Πληροφορίας 15 νεότερο έγγραφο ροή εγγράφων παλαιότερο έγγραφο έγγραφο 7 έγγραφο 6 έγγραφο 5 έγγραφο 4 έγγραφο 3 έγγραφο 2 έγγραφο 1 φιλτράρισµα (δροµολόγηση εγγράφων) προφίλ χρήστη 1 προφίλ χρήστη 2 προφίλ χρήστη 3 έγγραφο 1 έγγραφο 2 έγγραφο 1 έγγραφο 2 έγγραφο 4 έγγραφο 7 έγγραφο 1 έγγραφο 2 έγγραφο 5 έγγραφο 7 Σχήμα 1.6: Ανάκτηση με φιλτράρισμα. ορους ρυ μούς (όπ ς συμ αίνει ια παράδει μα στον πα κόσμιο ιστό). Ένας ρήστης που ενδιαφέρεται ια π ηροφορίες σ ετικά με ένα έμα α πρέπει σε τακτά ρονικά διαστήματα να υπο ά ει το ίδιο ερώτημα, έτσι ώστε να εντοπίσει νέα έ ραφα που είναι δια έσιμα. Θα ήταν πιο εύκο ο ια το ρήστη να υπο ά ει το ερώτημα μία μόνο φορά, δη ώνοντας ταυτό ρονα την επι υμία του ια ενημέρ ση όταν ίνει δια έσιμο ένα νέο έ ραφο που είναι σ ετικό ς προς ερώτημα. Στην περίπτ ση αυτή, το ΣΑΠ α πρέπει να κατα ρίσει το ερώτημα του ρήστη και να ε έ ει κά ε νέο έ ραφο αν είναι ή ό ι σ ετικό με το ερώτημα. Επίσης, ο ρήστης μπορεί να ορίσει και ένα κατώφ ι σ ετικότητας, το οποίο ορίζει ότι είναι ενδιαφέρον κά ε νέο έ ραφο που έ ει α μό σ ετικότητας με α ύτερο από το κατώφ ι. Το ρονικό διάστημα ια το οποίο το ερώτημα παραμένει ενερ ό προσδιορίζεται πά ι από το ρήστη. Με αυτόν τον τύπο επεξερ ασίας ερ τημάτ ν μπορούμε να υποστηρίξουμε τη συνε ή εκτέ εση ερ τημάτ ν πο ών ρηστών, αποδεσμεύοντας τους ρήστες από την επανα αμ ανόμενη υπο ο ή του ίδιου ερ τήματος σε τακτά ρονικά διαστήματα. Στο Σ ήμα 1.5 δίνεται ένα παράδει μα περιστασιακής αναζήτησης. Παρου-

16 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας σιάζονται τα ερ τήματα τριών ρηστών και οι απαντήσεις του συστήματος. Τονίζεται ότι το κά ε ερώτημα εκτε είται μία μόνο φορά. Στο Σ ήμα 1.6 δίνεται ένα παράδει μα φι τραρίσματος ε ράφ ν. Το σύνο ο τ ν ερ τημάτ ν που έ ει υπο ά ει ο κά ε ρήστης προσδιορίζει το προφίλ του. Σε αντί εση με την περιστασιακή εκτέ εση ερ τημάτ ν, τα ερ τήματα εκτε ούνται συνε ώς, και κά ε νέο έ ραφο ε έ εται ς προς τη σ ετικότητά του με τα ενερ ά προφί. Αν ρε εί κάποιο προφί ια το οποίο το νέο έ ραφο είναι σ ετικό, τότε η ταυτότητα του νέου ε ράφου προστί εται στα σ ετικά έ ραφα και ενημερώνεται ο αντίστοι ος ρήστης. Στο παράδει μα του σ ήματος, το νέο έ ραφο (Έ ραφο 7) είναι σ ετικό ς τα προφί τ ν ρηστών 2 και 3. Τονίζεται ότι το φι τράρισμα ε ράφ ν αποκτά ιδιαίτερο ενδιαφέρον στις μέρες μας και κυρί ς ό του πα κόσμιου ιστού, όπου η δια εσιμότητα νέ ν ιστοσε ίδ ν και περιε ομένου πρα ματοποιείται με ρή ορους ρυ μούς, και επομέν ς η ανά κη ια αυτόματη ή ημι-αυτόματη ενημέρ ση τ ν αποτε εσμάτ ν είναι με α ύτερη και ιδιαίτερα ρήσιμη ια τους ρήστες. Χαρακτηριστικό παράδει μα αποτε ούν να δεδομένα που ρίσκονται σε BLOGs ή RSS feeds τα οποία α άζουν με ρή ορους ρυ μούς. 1.2.3 Προ ρημένα Θέματα Ανάκτησης Π ηροφορίας Με άση τα όσα έ ουν αναφερ εί έ ς τώρα μπορεί κάποιος να υπο έσει ότι η Ανάκτηση Π ηροφορίας ασ ο είται μόνο με την αναζήτηση σ ετικών ε ράφ ν ς προς κάποιο ερώτημα. Αν και ένα με ά ο τμήμα της έρευνας στην περιο ή με ετά αυτό ακρι ώς το πρό ημα, υπάρ ουν και ά ες κατευ ύνσεις προς έρευνα και ανάπτυξη που έ ουν εξαιρετικό ενδιαφέρον και έτουν νέα προ ήματα προς επί υση. Μερικές από τις κατευ ύνσεις αυτές περι ράφονται στη συνέ εια: Δια- σσιακή Ανάκτηση Π ηροφορίας (Cross-Language IR). Η περιο ή αυτή αναφέρεται στη με έτη της αποτε εσματικής και αποδοτικής αναζήτησης ε ράφ ν στη περίπτ ση όπου η ώσσα διατύπ σης τ ν ερ τημάτ ν είναι διαφορετική από αυτήν τ ν ε ράφ ν. Το πρό ημα αυτό έ ει με ά η πρακτική σημασία αμ άνοντας υπόψη τον αρι μό τ ν διαφορετικών σσών και τη δυνατότητα που δίνει ο πα κόσμιος ιστός ια εύκο η πρόσ αση σε τεράστιες ποσότητες π ηροφορίας. Εξόρυξη Δεδομέν ν από Έ ραφα Κειμένου (Text Mining). Η εξόρυξη δεδομέν ν είναι ένα από τα στάδια της διαδικασίας που κα είται ανάκά- υψη νώσης (knowledge discovery). Στην περίπτ ση τ ν ε ράφ ν κειμένου εστιάζει σε έματα ομαδοποίησης ε ράφ ν (clustering), κατη οριοπίησης (categorization), εξα ής π ηροφορίας (information extraction),

1.3. Σύγχρονες Τάσεις 17 και κανόνες συσ έτισης (association rules). Οι μέ οδοι εξόρυξης εφαρμόζονται ό ι μόνο στο σύνο ο τ ν ε ράφ ν της συ ο ής, α ά και στα αποτε έσματα ενός ερ τήματος, ιδιαίτερα σε περιπτώσεις όπου το π ή ος τ ν ε ράφ ν που ικανοποιούν τις συν ήκες του ερ τήματος είναι με ά ο και επομέν ς δυσκο εύεται η σειριακή εξέτασή τους από το ρήστη. Συστήματα Απάντησης Ερώτησης (Question Answering Systems). Τα Συστήματα Απάντησης Ερ τήσε ν αρακτηρίζονται από δυνατότητες να απαντούν σε ερ τήσεις τ ν ρηστών. Σε αντί εση με ένα απ ό ΣΑΠ που υποστηρίζει ανάκτηση ε ράφ ν ένα Σύστημα Απάντησης Ερώτησης δέ- εται μία ερώτηση διατυπ μένη σε φυσική ώσσα και προσπα εί να προσδιορίσει την απάντηση στην ερώτηση αυτή. Τα πρώτα συστήματα αυτού του είδους εμφανίστηκαν τη δεκαετία του 1960 και αποτε ούσαν κυρί ς διεπαφές φυσικής ώσσας με έμπειρα συστήματα (expert systems). Συστήματα Συστάσε ν (Recommendation Systems). Τα συστήματα συστάσε ν προτείνουν στο ρήστη αντικείμενα (π.., έ ραφα, τίτ ους ταινιών, τίτ ους ι ί ν) με άση τις προτιμήσεις ά ν ρηστών και με άση κάποιες από τις προτιμήσεις του ίδιου του ρήστη. Οι μέ οδοι σύστασης στηρίζονται στην ομοιότητα μεταξύ ρηστών ς προς τις προτιμήσεις τους (user-based) ή στην ομοιότητα μεταξύ τ ν αντκειμέν ν με άση τις προτιμήσεις τ ν ρηστών (item-based). Επίσης, υπάρ ουν και υ ριδικές τε νικές. 1.3 Σύ ρονες Τάσεις Η ν στική περιο ή της Ανάκτησης Π ηροφορίας έ ει σημειώσει σημαντικά επιτεύ ματα στον τομέα της αναζήτησης σ ετικής π ηροφορίας σε έ ραφα. Ωστόσο, οι σύ ρονες εφαρμο ές σε συνδυασμό με τις με α ύτερες ανά κες τ ν ρηστών ια πιο αποτε εσματική και αποδοτική αναζήτηση, συντε έσαν στο σ εδιασμό και ανάπτυξη νέ ν με όδ ν. Στη συνέ εια περι ράφουμε συνοπτικά μερικές από τις σύ ρονες τάσεις που ώ ησαν σημαντικά την έρευνα στον τομέα της Ανάκτησης Π ηροφορίας. Πα κόσμιος Ιστός. Ο πα κόσμιος ιστός είναι η με α ύτερη και π ουσιότερη πη ή π ηροφοριών. Εκατομμύρια ιστότοποι (Web sites) σε ό ον τον π ανήτη προσφέρουν π ηροφορίες προσ άσιμες από την π ειοψηφία τ ν ρηστών του διαδικτύου. Βασικό αρακτηριστικό τ ν π ηροφοριών αυτών είναι ότι είναι δομημένες με τη οή εια τ ν ιστοσε ίδ ν, ενώ από μία ιστοσε ίδα ένας ρήστης μπορεί να μετα εί σε πο ές ά ες ακο ου ώντας

18 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας τους συνδέσμους (hyperlinks). Τόσο οι με ά ες ποσότητες π ηροφοριών, όσο και η μεταξύ τους σύνδεση οδή ησε στην ανάπτυξη εξειδικευμέν ν με- όδ ν Ανάκτησης Π ηροφορίας με στό ο τη οή εια τ ν ρηστών στην εύρεση σ ετικής π ηροφορίας στον πα κόσμιο ιστό. Με ά ες εταιρείες όπ ς η Yahoo και η Google ρίσκονται στην κορυφή κα ώς έ ουν αναπτύξει μη ανές αναζήτησης που είναι τόσο αποτε εσματικές όσο και αποδοτικές και οη ούν τους ρήστες στην αναζήτηση ρήσιμης π ηροφορίας στον πα κόσμιο ιστό. Γε ραφική Π ηροφορία. Η ε ραφική π ηροφορία αποτε εί σημαντικό τμήμα της π ηροφορίας που είναι δια έσιμη. Πο ές φορές, σε ένα ερώτημα δίνονται έξεις που αναφέρονται σε συ κεκριμένη τοπο εσία, και επομέν ς η ε ραφική διάσταση α πρέπει να ηφ εί υπόψη κατά την επεξερ ασία του ερ τήματος. Η ερευνητική περιο ή της ε ραφικής Ανάκτησης Π ηροφορίας εστιάζει στην αποτε εσματική αναζήτηση π ηροφορίας με ε - ραφικούς περιορισμούς. Νέες τε νικές είναι απαραίτητες ώστε η ε ραφική π ηροφορία να ρησιμοποιη εί κατά την διαδικασία της αναζήτησης με στό ο την επιστροφή σ ετικής π ηροφορίας στο ρήστη. Πο υμεσικά Δεδομένα. Οι σύ ρονες εφαρμο ές αρακτηρίζονται εκτός τ ν ά ν και από πο ύπ οκους τύπους δεδομέν ν, οι οποίοι απαιτούν διαφορετική ορ άν ση και δια είριση από τους παραδοσιακούς α φαρι μητικούς τύπους. Για παράδει μα, ένα σύστημα ταυτοποίησης με άση τα δακτυ ικά αποτυπώματα απαιτεί α ορί μους επεξερ ασίας και ανά υσης εικόν ν κα ώς επίσης και μέτρα ομοιότητας μεταξύ διαφορετικών αποτυπ μάτ ν. Επίσης, ένα σύστημα απο ήκευσης και ορ άν σης μουσικών αρ- εί ν επι ά ει τη ρήση εξε ι μέν ν τε νικών αναζήτησης με δυνατότητα αναζήτησης μουσικής με άση το περιε όμενο (content based information retrieval) και ό ι με άση τα μεταδεδομένα. Ένα τέτοιο σύστημα μπορεί να υποστηρίξει ερ τήματα της μορφής: Να βρεθούν τα 10 μουσικά αρχεία που μοιάζουν περισσότερο με το τραγούδι Bright Eyes των Blind Guardian. Οι παραδοσιακές μέ οδοι Ανάκτησης Π ηροφορίας που εστιάζουν στην ανάκτηση ε ράφ ν με α φαρι μητικά δεδομένα δεν επαρκούν ια την αναζήτηση σε πο υμεσικά δεδομένα όπ ς άσεις εικόν ν, συ ο ές μουσικών κομματιών και συ ο ές ίντεο. Απαιτούνται σημαντικές α α ές και προσ ήκες σε ό α τα τμήματα ενός ΣΑΠ έτσι ώστε να προσφέρουν ικανοποιητική τα ύτητα ανάκτησης και ταυτό ρονα τα αποτε έσματα να είναι όσο το δυνατό π ησιέστερα στις π ηροφοριακές ανά κες τ ν ρηστών. Ο οκ ήρ ση Τε νικών Ανάκτησης και Βάσε ν Δεδομέν ν. Οι ομοιότητες τ ν ερευνητικών περιο ών της Ανάκτησης Π ηροφορίας και

1.4. Σύνοψη και Περαιτέρω Μελέτη 19 τ ν Βάσε ν Δεδομέν ν οδή ησαν τους ερευνητές στην ανάπτυξη τε νικών με στό ο την ανάπτυξη πιο δυνατών συστημάτ ν που να κα ύπτουν τόσο της ανά κες ανάκτησης δεδομέν ν όσο και τις ανά κες Ανάκτησης Π ηροφορίας. Τα περισσότερα σύ ρονα ΣΔΒΔ έ ουν ενσ ματ μένες δυνατότητες υποστήριξης ανάκτησης. Για παράδει μα, με τη ρήση του τύπου δεδομέν ν TEXT ή CLOB μπορούμε να απο ηκεύουμε ο όκ ηρα κείμενα σε μία στή η ενός πίνακα άσης δεδομέν ν και στη συνέ εια να απαντούμε ερ τήματα που αφορούν την αναζήτηση έξε ν μέσα στα έ - ραφα. Ωστόσο, απαιτούνται περισσότερα ερ α εία έτσι ώστε η ανάκτηση σ ετικής π ηροφορίας να μπορεί να εκμετα ευ εί το σ ήμα της άσης δεδομέν ν με στό ο την εύρεση σ ετικής π ηροφορίας ρίς την απαίτηση προσδιορισμού μίας συ κεκριμένης στή ης κάποιου πίνακα. Συστήματα Ομοτίμ ν. Ένα σύστημα ομοτίμ ν (peer-to-peer, P2P) αρακτηρίζεται από την ύπαρξη αυτόνομ ν υπο ο ιστικών συστημάτ ν που διασυνδέονται μεταξύ τους και έ ουν τη δυνατότητα διαμοιρασμού π ηροφορίας. Στην πιο απ ή του μορφή, σε ένα σύστημα P2P δεν υπάρ ει κεντρική δια είριση, και επομέν ς κά ε κόμ ος του δικτύου δρα ανεξάρτητα από τους υπό οιπους. Επίσης, ένας κόμ ος έ ει τη δυνατότητα αποσύνδεσης ή επανασύνδεσης στο δίκτυο κατά ού ηση. Τέτοια συστήματα είναι πο ύ δημοφι ή κα ώς ρησιμοποιούνται ευρύτατα ια το διαμοιρασμό αρ εί ν (π.., Kazaa, Limewire, Emule). Τα συστήματα αυτά υποστηρίζουν αναζήτηση π ηροφορίας με άση τα μεταδεδομένα τ ν αρ εί ν. Οι ερευνητές έ ουν ήδη στραφεί στην ενίσ υση τ ν συστημάτ ν αυτών με δυνατότητα ανάκτησης με άση το περιε όμενο. Οι κ ασικές μέ οδοι ανάκτησης δεν επαρκούν και νέες τε νικές έ ουν προτα εί πρόσφατα. 1.4 Σύνοψη και Περαιτέρ Με έτη Η Ανάκτηση Π ηροφορίας είναι μία ενερ ός ν στική περιο ή με ασικό στό ο την αποτε εσματική και αποδοτική αναζήτηση π ηροφορίας σ ετικής προς τις ανά κες τ ν ρηστών. Η ανά κη π ηροφορίας συνή ς προσδιορίζεται με την παρά εση μερικών όρ ν, οπότε το σύστημα α πρέπει να επιστρέψει στο ρήστη τα έ ραφα που σ ετίζονται (μοιάζουν) περισσότερο με αυτούς. Το πρώτο ασικό ζήτημα που πρέπει να αντιμετ πιστεί είναι ο προσδιορισμός της ομοιότητας μεταξύ του ερ τήματος και τ ν ε ράφ ν, ενώ το δεύτερο είναι ο τρόπος επεξερ ασίας του ερ τήματος έτσι ώστε το σύστημα να απαντήσει ρή ορα και με ακρί εια. Στα επόμενα κεφά αια α εστιάσουμε στα τμήματα ενός ΣΑΠ όπ ς αυτά έ ουν περι ραφεί προη ουμέν ς με στό ο την π ηρέστερη περι ραφή τους,