Ηµέθοδος PageRank της Google και άλλα συστήµατα κατάταξης



Σχετικά έγγραφα
ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Κατάλογος Βιβλιοθήκης ΤΕΙ Ηπείρου Ιδρυματικό αποθετήριο ΤΕΙ Ηπείρου Ερευνητικό αποθετήριο ΤΕΙ Ηπείρου:

ΥΠΗΡΕΣΙΑ. Ηλεκτρονική ιαχείριση Τάξης. Οδηγίες χρήσης για τον µαθητή.

Το µάθηµα Ηλεκτρονική ηµοσίευση

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Στην πράξη ουσιαστικά αντικαθιστά τον παραδοσιακό κατάλογο μιάς Βιβλιοθήκης με όλα τα παραπάνω πλεονεκτήματα.

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ

Συγγραφή Τεχνικών Κειμένων

Στρατηγική έρευνας. Στρατηγική έρευνας. Η ερευνητική διαδικασία στη βιβλιοθήκη αρχίζει από τη στιγμή που χρειάζεται

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

Το µάθηµα Ψηφιακές Βιβλιοθήκες

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Αναζήτηση Πληροφοριών στο Διαδίκτυο

Πρόλογος των Συγγραφέων

ΠΑΡΑΡΤΗΜΑ VΙ - Ο ΗΓΙΕΣ ΥΠΟΒΟΛΗΣ ΠΡΟΤΑΣΗΣ

Lino it. Ιατροπούλου Ράνια, Νηπιαγωγός. Το Lino πραγµατοποιεί ετικέτες στο διαδίκτυο (Online Stickies)

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Επιµέλεια Θοδωρής Πιερράτος

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

Εγχειρίδιο Χρήστη - Μαθητή

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Βιβλιογραφία κοινωνικής έρευνας

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Αναζήτηση σε όλα τα άρθρα των επιστηµονικών περιοδικών στα οποία το Α.Π.Θ. είναι συνδροµητής. Η αναζήτηση µπορεί να γίνει µε βάση λέξεις κλειδιά σε

Εγχειρίδιο Φοιτητών. 1. Εισαγωγή

ΠΛΗΡΟΦΟΡΗΣΗ ΚΑΙ ΔΗΜΙΟΥΡΓΙΚΟΤΗΤΑ 15

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΑΝΘΡΩΠΙΣΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΙ ΑΓΩΓΙΚΟ ΤΜΗΜΑ ΗΜΟΤΙΚΗΣ ΕΚΠΑΙ ΕΥΣΗΣ ΦΑΚΕΛΟΣ ΜΑΘΗΜΑΤΟΣ

Επαγγελματικές κάρτες

πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

Οδηγίες Χρήσης Πλατφόρμας Ασύγχρονης Τηλεκπαίδευσης (Moodle) του Τμήματος ΔΕΤ

Ηλεκτρονική Διαφήμιση. Αντωνιάδου Όλγα

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)»

Θεσσαλονίκη, Ιούνιος 2003

ιστορία μας είναι οι Φ Ρ Ο Ν Τ Ι Σ Τ Η Ρ Ι Α

Οδηγός Εγγραφής και Χρήσης Εφαρμογής. Καθηγητή/Ερευνητή Ημεδαπής

Εγχειρίδιο Φοιτητών. 1. Εισαγωγή

1. Οι Τεχνολογίες της Πληροφορίας και των Επικοινωνιών στην εκπαιδευτική διαδικασία

Μητρώο Τεκµηρίων Εκπαιδευτή ΕΝΟΤΗΤΑ/ΣΤΟΙΧΕΙΟ E/15 ΑΝΑΦΟΡΑ ΧΑΡΤΟΦΥΛΑΚΙΟΥ 15 ΕΚΠΑΙ ΕΥΤΗΣ Χρίστου Χρίστος

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο

ΣυνοπτικόςΟδηγόςΧρήσηςτουMoodle για το Φοιτητή

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

enotita-b3 11/9/ :42 #ϊ ΑΪ>& 145

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Κεφάλαιο 1. Βασικές Έννοιες Πληροφοριακών Συστημάτων. Βασικές Έννοιες

Επιµέλεια Θοδωρής Πιερράτος

Αγαπητές/οί συνάδελφοι, σε αυτό το τεύχος σας προτείνουµε µερικά ενδιαφέροντα βιβλία που αφορούν βασικές αρχές της Συµβουλευτικής.

Ερωτήσεις Ασκήσεις στη Διαλογή Έργου και Επιλογή

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος

Πώς λειτουργεί το Google?

Ανάπτυξη εφαρµογών σε προγραµµατιστικό περιβάλλον (στοιχεία θεωρίας)

Μαθησιακές δραστηριότητες με υπολογιστή

Τρόποι αναπαράστασης των επιστημονικών ιδεών στο διαδίκτυο και η επίδρασή τους στην τυπική εκπαίδευση

Πρακτική Άσκηση. Κεφάλαιο 6 ΚΕΦΑΛΑΙΟ 6

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΟΡΓΑΝΩΣΗΣ. Ο ΗΓΙΕΣ ΧΡΗΣΗΣ ΕΦΑΡΜΟΓΗΣ e-university/ classweb

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Επιστηµονικός και Πολιτιστικός Οργανισµός των Ηνωµένων Εθνών. Πρόγραµµα Ηνωµένων Σχολείων για την Προώθηση της Παγκόσµιας Εκπαίδευσης.

<5,0 5,0 6,9 7 7,9 8 8,9 9-10

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4

Ο αλγόριθμος PageRank της Google

Πρόσβαση στην αρχική σελίδα Πληκτρολογώντας ο χρήστης τη διεύθυνση στο περιηγητή διαδικτύου μεταφέρεται αυτόματα στη παρακάτω σελίδα.

7.5 ΑΡΑΙΕΣ ΜΗΤΡΕΣ Κατασκευή αραιών µητρών Πράξεις και συναρτήσεις αραιών µητρών Συναρτήσεις για γραφήµατα...

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Κεφάλαιο 10 ο Υποπρογράµµατα

Ψηφιακή οργάνωση πολιτισμικής πληροφορίας

ΑΕΠΠ Ερωτήσεις θεωρίας

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

Η ΝΟΗΤΙΚΗ ΔΙΕΡΓΑΣΙΑ: Η Σχετικότητα και ο Χρονισμός της Πληροφορίας Σελ. 1

Γαβαλάς Δαμιανός

Atlantis - Νέο user interface

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

10 DaniEl GolEman PEtEr SEnGE

Εγχειρίδιο χρήσης για τον φοιτητή

Αναφορά εργασιών για το τρίμηνο Μάρτιος 2013 Μάιος 2013 Όνομα : Παπαχριστόπουλος Λεωνίδας

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

7.5 ΑΡΑΙΕΣ ΜΗΤΡΕΣ Κατασκευή αραιών µητρών Πράξεις και συναρτήσεις αραιών µητρών Συναρτήσεις για γραφήµατα...

Βάσεις δεδομένων και Microsoft Access

ΚΕΦΑΛΑΙΟ 2. Οι Μεταβολές ως Χαρακτηριστικό Γνώρισµα της Τεχνολογίας Επικοινωνιών

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο

Σχεδίαση και Ανάπτυξη Ιστότοπων

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

ΚΩΝΣΤΑΝΤΙΝΟΣ! Δ. ΜΑΛΑΦΑΝΤΗΣ. το ΠΑΙΔΙ ΚΑΙ Η ΑΝΑΓΝΩΣΗ ΣΤΑΣΕΙΣ, ΠΡΟΤΙΜΗΣΕΙΣ, Επιστήμες της αγωγής Διευθυντής Μιχάλης Κασσωτάκης.

Άκουσµα. ιαδικτυακό λογισµικό για την εξάσκηση στη δεξιότητα της κατανόησης προφορικού λόγου. Εγχειρίδιο χρήσης

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Εγχειρίδιο Φοιτητών. 1. Εισαγωγή

Το σύστημα Βοήθειας του Internet Explorer

Η ΕΠΙΡΡΟΗ ΤΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΤΟΥ ΛΟΓΙΣΜΙΚΟΥ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ ΤΟΥ ΠΟΛΙΤΙΚΟΥ ΜΗΧΑΝΙΚΟΥ Η ΕΦΑΡΜΟΓΗ ΣΤΗ ΟΜΟΣΤΑΤΙΚΗ

ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΥΠΕΥΘΥΝΟΣ ΈΡΓΟΥ AΝ.KΑΘ.Χ. ΚΟΥΚΟΥΡΛΗΣ

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Αρχιτεκτονική σχεδίαση με ηλεκτρονικό υπολογιστή

Εφαρμογές Προσομοίωσης

Transcript:

Amy N. Langville Carl D. Meyer Ηµέθοδος PageRank της Google και άλλα συστήµατα κατάταξης Ηεπιστήµητης κατάταξης στις µηχανές αναζήτησης Απόδοση στα ελληνικά: Αλέξανδρος Χορταράς Ιωάννης Παπαδόγγονας E-BOOK ΠΑΝΕΠΙΣΤΗΜΙΑΚΕΣ ΕΚ ΟΣΕΙΣ ΚΡΗΤΗΣ ΗΡΑΚΛΕΙΟ 2011

ΠΑΝΕΠΙΣΤΗΜΙΑΚΕΣ ΕΚ ΟΣΕΙΣ ΚΡΗΤΗΣ Ι ΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΡΕΥΝΑΣ Ηράκλειο Κρήτης, Τ.Θ. 1527, 700 13. Τηλ. 2810 391083, 2810 391097, Fax: 2810 391085 Αθήνα, Kleisovis 3, 10677. Τηλ. 210 3849020-22, Fax: 210 3301583 email: info@cup.gr www.cup.gr ΣΕΙΡΑ: ΠΑΝΕΠΙΣΤΗΜΙΑΚΗΒΙΒΛΙΟΘΗΚΗΘΕΤΙΚΩΝΕΠΙΣΤΗΜΩΝ ΕΠΙΣΤΗΜΗ ΥΠΟΛΟΓΙΣΤΩΝ È ı ÓÙÂÛ ÂÈÚ Û: ˆÚÁÈÔÛ ºÚ. ˆÚÁ ÎÔappleÔ ÏÔÛ, πˆ ÓÓËÛ apple ÔÁÁÔÓ Û Τίτλος πρωτοτύπου: c 2006: c για την ελληνική γλώσσα: Απόδοση στα ελληνικά: Επιµέλεια έκδοσης: Σύµβουλος έκδοσης: Προσαρµογή L A TEX: Μακέτα εξωϕύλλου: Εκτύπωση - βιβλιοδεσία: Google s PageRank and Beyond: The Science of Search Engine Rankings Princeton University Press 2007 Πανεπιστηµιακές Εκδόσεις Κρήτης Αλέξανδρος Χορταράς Ιωάννης Παπαδόγγονας Ιωάννης Παπαδόγγονας ηµήτριος Κατσαρός David J. McClurkin Βάσω Αβραµοπούλου ΛΥΧΝΙΑ Τα σήµατα Google καιpagerankανήκουνστην Google Inc. ISBN 978-960-524-313-5

Περιεχόµενα Πρόλογος στην ελληνικήέκδοση Πρόλογος xi xiii Κεϕάλαιο 1. Εισαγωγή στις µηχανές ιστοαναζήτησης 1 1.1 Σύντοµο χρονικό της ανάκτησης πληροϕοριών 1 1.2 Επισκόπηση της παραδοσιακής ανάκτησης πληροϕοριών 6 1.3 Ανάκτηση ιστοπληροϕοριών 11 Κεϕάλαιο 2. Ερπυσµός, ευρετηρίασηκαιεπεξεργασίαερωτηµάτων 19 2.1 Ερπυσµός 19 2.2 Το ευρετήριο περιεχοµένου 24 2.3 Επεξεργασία ερωτηµάτων 27 Κεϕάλαιο 3. Κατάταξη ιστοσελίδων µε βάση τη δηµοϕιλία 31 3.1 Η κατάσταση το 1998 31 3.2 Οι δύο αρχές λειτουργίας 33 3.3 Ερωτηµατοανεξαρτησία 37 Κεϕάλαιο 4. Τα µαθηµατικά της µεθόδου PageRankτης Google 39 4.1 Ο αρχικός τύπος άθροισης της µεθόδου PageRank 40 4.2 Πινακική αναπαράσταση τωνεξισώσεωνάθροισης 41 4.3 Τα προβλήµατα τηςεπαναληπτικήςδιεργασίας 43 4.4 Λίγα στοιχεία από τη θεωρία των αλυσίδων Markov 45 4.5 Οι αρχικές προσαρµογές στο βασικό µοντέλο 45 4.6 Υπολογισµός του διανύσµατος PageRank 49 4.7 Θεώρηµα και απόδειξη για το ϕάσµα του πίνακα Google 57 Κεϕάλαιο 5. Οι παράµετροι του µοντέλου PageRank 59 5.1 Ο παράγοντας α 59 5.2 Ο πίνακας υπερσυνδέσµων H 60 5.3 Ο πίνακας τηλεµεταϕοράς E 62

viii ΠΕΡΙΕΧΟΜΕΝΑ Κεϕάλαιο 6. Η ευαισθησίατουµοντέλου PageRank 71 6.1 Ευαισθησία ως προς την παράµετρο α 71 6.2 Ευαισθησία ως προς τον πίνακα H 78 6.3 Ευαισθησία ως προς το διάνυσµα v T 78 6.4 Άλλοι τρόποι ανάλυσης της ευαισθησίας 79 6.5 Θεωρήµατα ευαισθησίας και αποδείξεις 82 Κεϕάλαιο 7. Το πρόβληµα PageRankως γραµµικόσύστηµα 87 7.1 Ιδιότητες του πίνακα (I αs) 87 7.2 Ιδιότητες του πίνακα (I αh) 88 7.3 Απόδειξη για τη µορϕή αραιού γραµµικού συστήµατος του προβλήµατος PageRank 90 Κεϕάλαιο 8. Μεγάλης κλίµακας υλοποίηση της µεθόδου PageRank 91 8.1 Αποθηκευτικός χώρος 91 8.2 Κριτήριο σύγκλισης 96 8.3 Ακρίβεια 97 8.4 Εκκρεµείς κόµβοι 97 8.5 Προσοµοίωση του κουµπιού οπισθοδρόµησης 102 Κεϕάλαιο 9. Επιτάχυνση του υπολογισµού του PageRank 107 9.1 Προσαρµοζόµενη δυναµοµέθοδος 108 9.2 Προέκταση 109 9.3 Συσσωµάτωση 114 9.4 Άλλες αριθµητικές µέθοδοι 117 Κεϕάλαιο 10. Ενηµέρωση τουδιανύσµατος PageRank 119 10.1 Τα δύο προβλήµατα ενηµέρωσης και η ιστορία τους 120 10.2 Επανεκκίνηση της δυναµοµεθόδου 122 10.3 Προσεγγιστική ενηµέρωση µέσω προσεγγιστικής συσσω- µάτωσης 123 10.4 Ακριβής συσσωµάτωση 125 10.5 Ακριβής έναντι προσεγγιστικής συσσωµάτωσης 127 10.6 Ενηµέρωση µέσω επαναληπτικής συσσωµάτωσης 130 10.7 Προσδιορισµός της διαµέρισης 132 10.8 Συµπεράσµατα 134 Κεϕάλαιο 11. Η µέθοδος κατάταξης ιστοσελίδων HITS 137 11.1 Ο αλγόριθµος HITS 137 11.2 Υλοποίηση του HITS 139 11.3 Σύγκλιση της µεθόδου HITS 142

ΠΕΡΙΕΧΟΜΕΝΑ ix 11.4 Παράδειγµα εϕαρµογής της µεθόδου HITS 144 11.5 Πλεονεκτήµατα και µειονεκτήµατα της µεθόδου HITS 146 11.6 Η σχέση του HITS µε τη βιβλιοµετρία 147 11.7 Ερωτηµατοανεξάρτητη µέθοδος HITS 148 11.8 Επιτάχυνση του HITS 151 11.9 Η ευαισθησία του HITS 152 Κεϕάλαιο 12. Άλλες συνδεσµικές µέθοδοι κατάταξης ιστοσελίδων 157 12.1 SALSA 157 12.2 Υβριδικές µέθοδοι κατάταξης 162 12.3 Κατάταξη µε βάση την κυκλοϕοριακή ροή 163 Κεϕάλαιο 13. Το µέλλον της ανάκτησης ιστοπληροϕοριών 167 13.1 Ρυποδιαϕήµιση 167 13.2 Εξατοµίκευση 171 13.3 Συσταδοποίηση 171 13.4 Νοήµονες πράκτορες 173 13.5 Τάσεις και χρονοευαίσθητες αναζητήσεις 175 13.6 Ιδιωτικότητα και λογοκρισία 177 13.7 Συστήµατα ταξινόµησης για βιβλιοθήκες 179 13.8 Σύµµιξη δεδοµένων 180 Κεϕάλαιο 14. Πηγές για την ανάκτηση ιστοπληροϕοριών 181 14.1 Βασικές πηγές 181 14.2 Πηγές για συστηµατικότερη µελέτη 182 Κεϕάλαιο 15. Μαθηµατικόςοδηγός 185 15.1 Γραµµική άλγεβρα 185 15.2 Θεωρία Perron Frobenius 200 15.3 Αλυσίδες Markov 209 15.4 Συµπλήρωση Perron 223 15.5 Στοχαστική συµπλήρωση 229 15.6 Λογοκρισία 231 15.7 Συσσωµάτωση 233 15.8 Αποσυσσωµάτωση 236 Κεϕάλαιο 16. Γλωσσάρι 239 Λεξικόβασικών όρων 247 Βιβλιογραϕία 255 Ευρετήριο 267

Πρόλογος στην ελληνική έκδοση Φανταστείτε µια βιβλιοθήκη που περιλαµβάνει µερικές δεκάδες ή ίσως και εκατοντάδες δισεκατοµµύρια έγγραϕα χωρίς κεντρική οργάνωση και χωρίς βιβλιοθηκάριους. Επιπλέον, ϕανταστείτε ότι καθένας µας είναι ελεύθερος να προσθέτει νέα έγγραϕα οποιαδήποτε χρονική στιγµή, χωρίς να ενηµερώνει κανέναν. Μπορεί να είµαστε σίγουροι ότι αυτή η τεράστια και άναρχη βάση δεδοµένων περιέχει πληροϕορίες που µας είναι χρήσιµες, τις οποίες επιθυµούµε να εντοπίσουµε µέσα σε λίγα δευτερόλεπτα, αλλά πώς θα τοεπιτύχουµεαυτό; Το πρόβληµα ϕαίνεται µάλλον άλυτο. κι όµως, είναι το ίδιο ακριβώς πρόβληµα που παρουσιάζεται στον Παγκόσµιο Ιστό. Γνωρίζουµε συνεπώς ότι υπάρχει ήδη λύση: πρόκειται για τις «µηχανές αναζήτησης», που αποτελούν την πιο επιτυχηµένη και δηµοϕιλή εϕαρµογή του πεδίου της ανάκτησης ιστοπληροϕοριών. Μέχρι τα µέσατηςδεκαετίαςτου1990,οιµηχανέςαναζήτησης βαθµολογούσαν τη σπουδαιότητα του κάθε εγγράϕου, αλλά καιτησυνάϕειά του µε τοερώτηµα που υπέβαλλε ο κάθε χρήστης, µέσω της επεξεργασίας των λέξεων-κλειδιών (ή «κλειδωνυ- µίων») που περιείχε το έγγραϕο. Η τεχνική αυτή ήταν αναποτελεσµατική στη ϕύση της, και καθιστούσε τη µηχανήαναζήτησηςεύκολοθύµατωνρυποδιαϕηµιστώνιστοσελίδων. Την περίοδο εκείνη οι ιδρυτές της Google, Lawrence Page και Sergey Brin, είχαν την καινοτόµο ιδέα να ορίσουν τηνσπουδαιότηταµιας ιστοσελίδας αναδροµικά, συναρτήσει του αριθµού και της σπουδαιότητας των ιστοσελίδων οι οποίες υποδεικνύουν τη συγκεκριµένη ιστοσελίδα µέσω υπερσυνδέσµων. Αυτή η ιδέα υπήρξε η βάση του αλγορίθµουpagerank, πουείναι ηκαρδιάτηςµηχανήςαναζήτησηςτηςgoogle. Ο αλγόριθµος PageRank είναι µια πνευµατική ιδιοκτησία που έχτισε µια αυτοκρατορία, που συνεισϕέρει καθηµερινά στην ικανοποίηση εκατοµµυρίων «καταναλωτών πληρο- ϕορίας», και που έχει εµπνεύσει και συνεχίζει να εµπνέει πολλούς «εµπορικούς» ανταγωνιστές και πανεπιστηµιακούς ερευνητές. Το βιβλίο αυτό περιγράϕει κυρίως τον αλγόριθµο PageRank της Google, και εξηγεί πώς εντοπίζει σηµαντικές ιστοσελίδες µέσα από µια συλλογή δισεκατοµµυρίων ιστοσελίδων, αξιοποιώντας τη µεταξύ τους συνδεσµολογία. Περιγράϕει τη σχέση του αλγορίθµου µε τις ϕασµατικές ιδιότητες του πίνακα συνδεσµολογίας του Παγκόσµιου Ιστού, καθώς και µε τις µαρκοϕιανές αλυσίδες. Εκτός από τον PageRank, το βιβλίο περιγράϕει και άλλουςαλγορίθµουςκατάταξηςιστοσελίδων µε βάση την ανάλυση των υπερσυνδέσµων, όπως τον αλγόριθµο HITS και τον SALSA, ενώ παρέχει επίσης έναν εξαιρετικό οδηγόκαιένασχετικόγλωσσάριγιατουςµαθηµατικούςόρουςκαιταθεωρήµατα που είναι απαραίτητα για την κατανόηση των αντικειµένων του βιβλίου. Παρά τη µαθηµατική του ακρίβεια, όµως, τοβιβλίοδενπεριορίζεται στη παράθεση εννοιών

xii ΠΡΟΛΟΓΟΣ ΣΤΗΝ ΕΛΛΗΝΙΚΗ ΕΚΔΟΣΗ γραµµικής άλγεβρας. Αν και αντικατοπτρίζει τη θεώρηση δυο µαθηµατικών των συγγραϕέων του για το τι είναι σηµαντικό στις µηχανές αναζήτησης του Παγκόσµιου Ιστού, δεν «βαλτώνει» µέσα στα µαθηµατικά. Ηελληνικήέκδοσητουβιβλίου έρχεται να καλύψει ένα κενό της ελληνικής βιβλιογραϕίας που αϕορά το ραγδαία αναπτυσσόµενο πεδίο της ανάκτησης ιστοπληροϕοριών. Είναι το πρώτο σχετικό σύγγραµµα στην ελληνική γλώσσα, και ένα πραγµατικό διαµάντι το οποίο είναι βέβαιο ότι θα αγαπηθεί ιδιαίτερα από «δασκάλους» και «µαθητές» προπτυχιακούς και µεταπτυχιακούς των σχολών Μαθηµατικών, Πληροϕορικής, και Ηλεκτρολόγων Μηχανικών & Μηχανικών Η/Υ στα ελληνικά πανεπιστήµια. Οι µεταϕραστές του βιβλίου έδωσαν τον καλύτερο εαυτό τους ώστε να αποδώσουν ορθά στην ελληνική γλώσσα τους πολλούς τεχνικούς όρους που περιέχονται στο αρχικό αγγλικό κείµενο, επιτυγχάνοντας ταυτόχρονανα είναι όροι δόκιµοι που θα επιβιώσουν στην ελληνική βιβλιογραϕία. Απολαύστε το! ηµήτριος Κατσαρός Ιούλιος 2010

Πρόλογος Στόχος Ως καθηγητές γραµµικής άλγεβρας η επιθυµία µας ήταν να γράψουµε ένα βιβλίο που θα βοηθήσει τους ϕοιτητές και το ευρύ κοινό να εκτιµήσουν και να κατανοήσουν µια από τις συναρπαστικότερες σύγχρονες εϕαρµογές της γραµµικής άλγεβρας: τη χρήση της συνδεσµοανάλυσης από τις µηχανές ιστοαναζήτησης. Πρόκειται για ένα εγγενώς ενδιαϕέρον, επίκαιρο καιαρκετάγνωστό θέµα. Λόγου χάριν, το βιβλίο απαντά στα ακόλουθα ενδιαϕέροντα ερωτήµατα: Πώς λειτουργούν οι µηχανές αναζήτησης; Γιατί είναι τόσο καλή η Google; Τι είναι µια βόµβα Google; Πώς µπορεί κανείς να βελτιώσει τη σειρά κατάταξης της οικοσελίδας του στην Teoma; Στόχος µας ήταν επίσης το βιβλίο αυτό να αποτελέσει µια ενιαία πηγή αναϕοράς για τις κατατάξεις τις οποίες υπολογίζουν οι µηχανές ιστοαναζήτησης. Για το συγκεκρι- µένο ζήτηµαέχουνγραϕτείπολλά, αλλάαυτήτηστιγµήτασχετικάστοιχεία βρίσκονται διεσπαρµένα σε διάϕορες τεχνικές αναϕορές, προδηµοσιεύµατα, πρακτικά συνεδρίων, άρθρα και οµιλίες. Στο βιβλίο αυτό προσπαθήσαµε να συνοψίσουµε, να αποσαϕηνίσουµε, να συµπυκνώσουµε και να οργανώσουµε θεµατικά τις πιο σύγχρονες εξελίξεις στο ζήτηµα της κατάταξης ιστοσελίδων. Σε ποιους απευθύνεται το βιβλίο Το βιβλίο έχει γραϕτεί για δύο διαϕορετικές κατηγορίες αναγνωστικού κοινού: για το ευρύτερο κοινό που ενδιαϕέρεται γενικά για επιστηµονικά ζητήµατα, και για τους τεχνικά καταρτισµένους αναγνώστες. Ο τίτλος απηχεί το τεχνικό περιεχόµενο του βιβλίου. Εκτός όµως από τις πληροϕορίες τεχνικού χαρακτήρα που περιέχει, προσπαθήσαµενα συµπεριλάβουµε και κάποια στοιχεία περισσότερο ψυχαγωγικού χαρακτήρα, καθώς και πιο προσιτά δεδοµένα σχετικά µε τις µηχανές αναζήτησης και τον τρόπο λειτουργίας τους. Τα µαθηµατικά Το βιβλίο αυτό έχει γραϕτεί µε τον ϕιλόδοξο στόχονα προσεγγίσει τόσο το ευρύ όσο και το εξειδικευµένο επιστηµονικό κοινό. Αν και η πλήρης κατανόηση της συνδεσµοανάλυσης απαιτεί εξοικείωση µε πολλές µαθηµατικές έννοιες, προσπαθήσαµε να κάνουµε το µεγαλύτερο µέρος του βιβλίου προσιτό στο ευρύ επιστηµονικό κοινό. Λόγου χάριν, το επίπεδο των µαθηµατικών εργαλείων, των τεχνικών λεπτοµερειών και των προαπαιτούµενων γνώσεων γίνεται προοδευτικά υψηλότερο από τα πρώτα προς τα επόµενα κεϕάλαια. Κατά συνέπεια, τα Κεϕάλαια 1-4, που εισάγουν τις έννοιες της

xiv ΠΡΟΛΟΓΟΣ ιστοαναζήτησης και της συνδεσµοανάλυσης, απευθύνονται στο ευρύτερο επιστηµονικό κοινό. Τα Κεϕάλαια 6, 9 και 10 έχουν έντονα µαθηµατικό χαρακτήρα. Το τελευταίο κεϕάλαιο, το Κεϕάλαιο 15, ο «Μαθηµατικός οδηγός», αποτελεί µια συνοπτική αλλά πλήρη πηγή αναϕοράς για όλες τις µαθηµατικές έννοιες που χρησιµοποιούνται στα προηγούµενα κεϕάλαια. Σε ολόκληρο το βιβλίο, οι βασικές µαθηµατικές έννοιες παρατίθενται σε σκιασµένα πλαίσια, ώστε να διακρίνονται ευκρινέστερα. Η συγκεντρωτική παρουσίαση των µαθηµατικών ορισµών και τύπων στο κεϕάλαιο 15 (αντί της αποσπασµατικής παράθεσής τους σε όλη την έκταση του κειµένου) µας έδωσε τη δυνατότητα να συγκροτήσουµε ένα βιβλίο που θααπολαύσουνκαι οι αναγνώστες µε υψηλή µαθηµατική κατάρτιση. Πιστεύουµε ότι χάρις στη συµβιβαστική αυτή προσέγγιση το εγχειρίδιο αυτό ανταποκρίνεται στις ανάγκες και των δύο κατηγοριών αναγνωστών, και του ευρύτερου και του εξειδικευµένου επιστηµονικού κοινού. Ένθετα Ένα ευχάριστο χαρακτηριστικό του βιβλίου είναι τα «Ένθετα», µικρά κείµενα στα οποία παρουσιάζονται διασκεδαστικές ειδήσεις, πρακτικές συµβουλές αναζήτησης, αστεία παραθέµατα και γλαϕυρές ιστορίες δικαστικών αντιπαραθέσεων. Ένθετα περιέχουν όλα τα κεϕάλαια, ακόµα καιτα πιο τεχνικά. Μετον ανάλαϕροχαρακτήρατους, τα Ένθετα αποτελούν συχνά ένα ιδανικό διάλειµµα µετά την έντονη πνευµατική προσπάθεια που απαιτεί η κατανόηση ενός µαθηµατικά απαιτητικού αποσπάσµατος του κειµένου. Τα σύντοµα Ένθετα παρατίθενται µέσα σε σκιασµένα πλαίσια, ενώ τα µακροσκελέστερα, που καταλαµβάνουν περισσότερες από µία σελίδες, οριοθετούνται µε οριζόντιες γραµµές και είναι τυπωµένα µε πλάγια στοιχεία. Ελπίζουµε ότι θα απολαύσετε αυτά τα διαλείµµατα. η συγγραϕή τους ήταν για µάς πραγµατική ευχαρίστηση. Υπολογισµοί και κώδικας Ηπλήρηςεµπέδωσηενόςγνωστικού αντικειµένου απαιτεί πειραµατισµό µε τις σχετικές έννοιες. Για αυτόν τον λόγο, θέλοντας να ενθαρρύνουµε και να διεγείρουµε τη διαδικασία του πειραµατισµού, ενσωµατώσαµε στο βιβλίο τµήµατα κώδικα MATLAB.Αν και οποιαδήποτε γλώσσα προγραµµατισµού θα ήταν κατάλληλη, επιλέξαµε τη MAT- LAB για τρεις λόγους: Πρώτον, διότι η αρχιτεκτονική αποθήκευσης πινάκων και οι «έτοιµες» εντολές της συγκεκριµένης γλώσσας προσϕέρονται ιδιαίτερα για την επεξεργασία των µεγάλων αραιών πινάκων που υπεισέρχονται στην συνδεσµοανάλυση. εύτερον, διότι, σε πανεπιστηµιακό επίπεδο, η MATLAB αποτελεί την ηγέτιδα δύναµηστηναγορά µαθηµατικού λογισµικού. Και τρίτον, διότι είναι ιδιαίτερα ϕιλική προς τον χρήστη. Τα προγράµµαταmatlab που περιέχει το βιβλίο έχουν διδακτικό χαρακτήρα, και δεν είναι κατάλληλα για πραγµατικές εϕαρµογές. Ελπίζουµε ότι ο πειρα- µατισµός µε αυτά τα προγράµµατα θα εµπνεύσει τους αναγνώστεςνακατασκευάσουν νέα µοντέλα και νέους αλγορίθµους. Ευχαριστίες Θα θέλαµε να ευχαριστήσουµε την Princeton University Press για την υποστήριξη αυτού του έργου. Η συνεργασία µας µε την αρχιεπιµελήτρια της PUP Vickie Kearn

ΠΡΟΛΟΓΟΣ xv ήταν ιδιαίτερα ευχάριστη. Vickie, σε ευχαριστούµε για τον άψογο συνδυασµό υποµονής και ήπιας πίεσης µε τον οποίο αντιµετώπισες την εργασία µας, και για την πρωτοϕανή εµπιστοσύνη που έδειξες σε αυτήν, δεδοµένου του επίκαιρου χαρακτήρα της. Ευχαριστούµε όλους όσους διάβασαν τα χειρόγραϕά µας και βελτίωσαν µε τις υποδείξεις τους αυτό το βιβλίο. Ευχαριστούµε επίσης τις οικογένειες και τους ϕίλους µας για την ενθάρρυνσή τους. Η περηϕάνια σας για µάς αποτελεί ισχυρή κινητήρια δύναµη. Αϕιέρωση Το βιβλίο αυτό το αϕιερώνουµε στους δασκάλους και στους µαθητές ολόκληρου του κόσµου. Η ενέργεια, ο οίστρος και η υποστήριξη που πηγάζει από τις σχέσεις αυτές µπορεί να εµπνεύσει σπουδαία έργα. Στην περίπτωσή µας δηµιούργησε όχι µόνο αυτό το βιβλίο αλλά, το σηµαντικότερο, και µια θαυµάσια συνεργασία και ϕιλία.

ΚΕΦΑΛΑΙΟ 1 Εισαγωγή στις µηχανές ιστοαναζήτησης 1.1 ΣΥΝΤΟΜΟ ΧΡΟΝΙΚΟ ΤΗΣ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Στη σηµερινήεποχήυπάρχουνµουσείαγιαταπάντα τοµουσείοτουµπέιζµπολ, των παικτών του µπέιζµπολ, των ϕανατικών οπαδών των παικτών του µπέιζµπολ, µουσεία για τους παγκόσµιους πολέµους, για τις εθνικές συγκρούσεις, τις νοµικές διαµάχες και τις οικογενειακές βεντέτες. Παρά την πληθώρα µουσείων, όµως, δεν υπάρχει προς το παρόν κανένα µουσείο αϕιερωµένο στο αντικείµενο αυτού του βιβλίου, ένα µουσείο για την ανάκτηση πληροϕοριών και την ιστορία της. Υπάρχουν, βέβαια, συνα- ϕή µουσεία, όπως το Μουσείο Βιβλιοθηκών στο Boras της Σουηδίας, αλλά δεν υπάρχει κανένα µε αποκλειστικό θέµα την ανάκτηση πληροϕοριών. Ανάκτηση πληροϕοριών 1 είναι η διαδικασία αναζήτησης µέσα σε ένα σύνολο εγγράϕων για την κάλυψη κάποιας συγκεκριµένης πληροϕοριακής ανάγκης (που εκϕράζεται µε τη µορϕή ενός ερωτήµατος). Παρ ότι η ανάκτηση πληροϕοριών έχει συνδεθεί µε πρόσϕατες εξελίξεις οι οποίες υπήρξαν επακόλουθο της ανάπτυξης των υπολογιστών, στην πραγµατικότητα έχει µακρά και λαµπρή παράδοση. Για να τιµήσουµε αυτήν την παράδοση, προτείνουµε τη δηµιουργία ενός µουσείου αϕιερωµένου στην ιστορία της. Όπως όλα τα µουσεία, έτσι και το µουσείο της ανάκτησης πληροϕοριών περιέχει ορισµένα πολύ ενδιαϕέροντα εκθέµατα. Ας το περιηγηθούµε µαζί. Οι αρχαιότερες συλλογές εγγράϕων ήταν οι ζωγραϕικές απεικονίσεις σε τοιχώµατα σπηλαίων (σπηλαιογραϕίες). Ο κάτοικος των σπηλαίων που ενδιαϕερόταν να ψάξει σε µια συλλογή σπηλαιογραϕιών για να βρει την απάντηση σε κάποιο συγκεκριµένο πληροϕοριακό ερώτηµα έπρεπε να µετακινηθεί πεζός, να σταθεί µπροστά από κάθε εικόνα και να την παρατηρήσει. υστυχώς, δεν είναι εύκολο να βρούµε κάποια τέτοια εικόνα που να µην είναι µακάβρια, γι αυτό θα προχωρήσουµελίγοστονχρόνο. Πριν από την εϕεύρεση του χαρτιού, οι αρχαίοι Ρωµαίοι και Έλληνες κατέγραϕαν πληροϕορίες σε ρολά παπύρου. Ορισµένα ρολά από την αρχαία Ρώµη είχαν συνηµ- µένες επάνω τους ετικέτες. Οι ετικέτες αυτές ήταν µια αρχαία µορϕή των σηµερινών σηµειωµάτων τύπου Post-it και αποτελούν ένα εξαιρετικό έκθεµα για το µουσείο µας. Κάθε ετικέτα περιλάµβανε µια σύντοµη περίληψη του τυλιγµένου εγγράϕου, και επισυναπτότανγιανααπαλλάσσειτουςαναγνώστεςαπότονκόποναξετυλίγουν άσκοπα µακροσκελή άσχετα έγγραϕα. Οι περιλήψεις αυτές εµϕανίστηκαν και σε προϕορική µορϕή. Στην Ελλάδα του 5ου π.χ. αιώνα, κατά την έναρξη των θεατρικών έργων ο χορός απήγγελλε µια περίληψη των όσων θα διαδραµατίζονταν. Παρ ότι από τους 1 Οι όροι που εµϕανίζονται µε έντονα τυπογραϕικά στοιχεία παρατίθενται και ορίζονται επίσης στο Γλωσσάρι που βρίσκεται στο τέλος του βιβλίου

2 1. ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΗΧΑΝΕΣ ΙΣΤΟΑΝΑΖΗΤΗΣΗΣ µηχανισµούς που χρησιµοποιούνταν στις ελληνικές και τις ρωµαϊκές βιβλιοθήκες δεν έχει διασωθεί κανένα συγκεκριµένο σύστηµα ταξινόµησης, είναι γνωστό ότι ένα άλλο βασικό εργαλείο ανάκτησης πληροϕοριών, οι πίνακες περιεχοµένων, εµϕανίστηκαν για πρώτη ϕορά στους ελληνικούς παπύρους τον 2ο π.χ.αιώνα.ταβιβλίαεϕευρέθηκαν πολλούς αιώνες αργότερα, όταν έγινε αναγκαία η χρήση ενός εναλλακτικού υλικού καταγραϕής. Όπως πιστεύεται, η Βιβλιοθήκη της Περγάµου (στη σηµερινή Τουρκία) απειλούσε να εκθρονίσει την ξακουστή Βιβλιοθήκη της Αλεξάνδρειας από τη θέση της καλύτερης βιβλιοθήκης του κόσµου, ισχυριζόµενη ότι διαθέτει τη µεγαλύτερη συλλογή παπύρων. Για τον λόγο αυτό οι Αιγύπτιοι διέκοψαν την προµήθεια παπύρου προς την Πέργαµο,καιέτσι οι Περγαµηνοίεϕηύραν µια εναλλακτική γραϕική ύλη, την περγαµηνή, η οποία κατασκευαζόταν από λεπτά στρώµατα δέρµατος ζώου (η λέξη περγαµηνή προέρχεται προϕανώς από τη λέξη Πέργαµος). Σε αντίθεση µε τον πάπυρο, ηπεργαµηνήδενµπορούσενατυλιχθείεύκολα, και έτσι οι αντιγραϕείς χειρογράϕων δίπλωναν τα ϕύλλα της και τα έραβαν σε βιβλία. Τα βιβλία αυτά διαρκούσαν περισσότερο από τους παπύρους και ήταν πιο εύχρηστα. Έτσι, σύντοµα αντικατέστησαν τα ρολά των παπύρων. Το υψηλό επίπεδο στο οποίοέϕτασε η συγγραϕική τέχνη,η ανθρώπινη γνώση και η τεκµηρίωση κατά την Ελληνική και τη Ρωµαϊκή περίοδο ακολουθήθηκε από τις συγκριτικά µηδαµινές επιδόσεις της εποχής του Μεσαίωνα. Την περίοδο εκείνη παράχθηκαν ελάχιστα αξιόλογα έγγραϕα, αϕού οι περισσότερες πληροϕορίες διαδίδονταν προϕορικά. Οι συλλογές εγγράϕων «καταγράϕονταν» στη µνήµη του καλύτερου αϕηγητή του χωριού. Οι προϕορικές παραδόσεις που περιέχονταν στα ποιήµατα, στα τραγούδια και στις προσευχές µεταδίδονταν από τη µια γενιά στην επόµενη. Ένα από τα πιο θρυλικά και µακροσκελήαϕηγήµατα είναιτο Beowulf,ένα έπος για τις περιπέτειες ενός Σκανδιναβού πολεµιστή του 6ου αιώνα. Εικάζεταιότι ο µύθοςαυτόςγεννήθηκε τον 7ο αιώνα και στη συνέχεια πέρασε από γενιά σε γενιά µέσα από το τραγούδι. Στο πέρασµα των αιώνων, οι τροβαδούροι τροποποίησαν και προσέθεσαν στίχους, ποιητική αδεία. Το ϕιλοπερίεργο παιδί που ήθελε να ακούσει ιστορίες για το τέρας Grendel περίµενε υποµονετικά όσο ο παραµυθάς έψαχνε µέσα στη µνήµη του για να βρει ακριβώς το σωστό µέρος της ιστορίας. Το αποτέλεσµα της αναζήτησης πληροϕοριών από το παιδί επηρεαζόταν, εποµένως, από τη σοϕία και την κρίση του µεσάζοντα παραµυθά. Ευτυχώς, η ανακάλυψη του χαρτιού, του καλύτερου µέσου καταγραϕής µέχρι και σήµερα, ανώτερου ακόµα και από την περγαµηνή, έδωσε νέα ώθηση στη γραπτή καταγραϕή των πληροϕοριών και των συλλογών εγγράϕων. Το Beowulf πέρασε από την προ- ϕορική στη γραπτή µορϕή γύρω στα 1000 µ.χ., µια ηµεροµηνία η οποία όµως µέχρι και σήµερα δεν είναι οµόϕωνα αποδεκτή από τους µελετητές. Αργότερα, οι µοναχοί, οι οποίοι διέθεταν τις δυσεύρετες ικανότητες της ανάγνωσης και της γραϕής,άρχισαν να αντιγράϕουν χειρόγραϕα σε ειδικές αίθουσες αντιγραϕής των µοναστηριών από την ανατολή µέχρι τη δύση του ηλίου. Τα έργα των αντιγραϕέων τοποθετούνταν στις µεσαιωνικές βιβλιοθήκες, οι οποίες αρχικά ήταν τόσο µικρές που δεν χρειαζόταν κανένα σύστηµα ταξινόµησης. Με τον καιρό, όµως, καθώς οι συλλογές µεγάλωσαν, καθιερώθηκε ο χωρισµός του περιεχοµένου σε τρεις οµάδες: θεολογικά έργα, κλασικοί συγγραϕείς της αρχαιότητας και σύγχρονα έργα για τις επτά τέχνες. Οι κατάλογοι αυτών των συλλογών και οι πίνακες περιεχοµένων των κλασικών έργων αποτελούν όµορϕα εκθέµατα από την εποχή του Μεσαίωνα για το µουσείο µας.

1.1. ΣΥΝΤΟΜΟ ΧΡΟΝΙΚΟ ΤΗΣ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ 3 Σταδιακά άρχισαν να δηµιουργούνται συλλογές εγγράϕων και σε διάϕορα άλλα γνωστικά πεδία. Αυτή η εξέλιξη επιταχύνθηκε δραστικά µε την εκ νέου ανακάλυψη της τυπογραϕίας από τον Johann Gutenberg το 1450. Οιπλούσιοιυπερηϕανεύονταν για τις ιδιωτικές τους βιβλιοθήκες, ενώ στις αρχές του 18ου αιώνα ιδρύθηκαν στην Αµερική δηµόσιες βιβλιοθήκες µε την παρότρυνση του Benjamin Franklin. Καθώς οι συλλογές τωνβιβλιοθηκών µεγάλωναν και γίνονταν προσβάσιµες στοκοινό, η επιθυ- µία για εστιασµένη αναζήτηση έγινε εντονότερη. Για την οµαδοποίηση εγγράϕων µε παρόµοιο θέµα χρησιµοποιήθηκαν ιεραρχικά συστήµατα ταξινόµησης. Η πρώτη χρήση ενός ιεραρχικού συστήµατος οργάνωσης αποδίδεται στον Ρωµαίο συγγραϕέα Βαλέριο Μάξιµο, ο οποίος χρησιµοποίησε το σύστηµα αυτό το 30 µ.χ. για να οργανώσει θεµατικά τα περιεχόµενα του βιβλίου του Factorum ac dictorum memorabilium libri IX («Εννέα βιβλία αξιοµνηµόνευτων πράξεων και αποϕθεγµάτων»). Παρά τα υποτυπώδη αυτά συστήµαταοργάνωσης, ο καλύτερος τρόπος για να αποκτήσει κανείς επακριβείς και ποιοτικές πληροϕορίες στο πλαίσιο κάποιας αναζήτησης παρέµενε η προϕορική ενηµέρωση και η συµβουλή του βιβλιοθηκάριου. Οι συλλογές εγγράϕων και η οργάνωσή τους ξεπέρασαν βέβαια ταόριατηςµνήµης ακόµα και του καλύτερου βιβλιοθηκάριου. Για την καταγραϕή των περιεχοµένων µιας συλλογής επινοήθηκαν συστηµατικότεροι τρόποι. Αξιοµνηµόνευτες κατασκευές που ανήκουν στο προτεινόµενο µουσείο ανάκτησης πληροϕοριών είναι κάποιοι κατάλογοι από τα περιεχόµενα προσωπικών βιβλιοθηκών ταξινοµηµένα κατά τίτλο και κατά συγγραϕέα, καθώς και παραδείγµατα του δεκαδικού συστήµατος Dewey (1872), του καταλόγου καρτών (αρχές της δεκαετίας του 1900), του µικροϕίλµ (δεκαετία του 1930)και του συστήµατος MARC (ακρωνύµιο της ϕράσης «MAchine Readable Cataloging», που σηµαίνει «µηχανικά αναγνώσιµη καταλογογράϕηση», δεκαετία του 1960). Αν και οι εϕευρέσεις αυτές αποτέλεσαν κάποια πρόοδο, η αναζήτηση πληροϕοριών δεν βρισκόταν ακόµη υπό τον πλήρη έλεγχο του ενδιαϕερόµενου. Για να προσεγγίσουµε περισσότερο αυτόν τον στόχο χρειάστηκε η ανάπτυξη του ηλεκτρονικού υπολογιστή (δεκαετίες του 1940 και του 1950)και στη συνέχεια των µηχανογραϕικών συστη- µάτων αναζήτησης. Τα πρώτα µηχανογραϕικά συστήµατα αναζήτησης χρησιµοποιούσαν ειδική σύνταξη για ναανακτούναυτόµαταπληροϕορίεςγιαταβιβλίακαιταάρθρα που σχετίζονταν µε το ερώτηµα του χρήστη. υστυχώς, η µακροσκελής αυτή σύνταξη ουσιαστικά περιόριζε τη δυνατότητα αναζήτησης στον κύκλο των βιβλιοθηκάριων που ήταν ειδικά εκπαιδευµένοι στα συγκεκριµένα συστήµατα. Ένα από τα πρώτα δείγµατα αυτών των µηχανογραϕικών συστηµάτων αναζήτησης, π.χ. το σύστηµα SMART του Cornell (δεκαετία του 1960)[146], σίγουρα αξίζει µια θέση στο µουσείο της ανάκτησης πληροϕοριών. Το 1989,η εϕεύρεση που από τον επινοητή της Tim Berners-Lee ονοµάστηκε Παγκόσµιος Ιστός [79], έϕερε επανάσταση στον τρόπο αποθήκευσης,πρόσβασης καιαναζήτησης στις συλλογές εγγράϕων. Το µουσείο µας θα πρέπει ϕυσικά να περιλαµβάνει κάποια εκθέµατα και από αυτήν την επανάσταση, όπως π.χ. µια ιστοσελίδα, ένα απόσπασµα HTML και έναν-δυο υπερσυνδέσµους. Η εϕεύρεση των διασυνδεδεµένων συλλογών από έγγραϕα ήταν πραγµατικά πρωτότυπη εκείνη την εποχή, παρ ότι το 1945 οvannevarbush,οοποίοςείχεδιατελέσειδιευθυντήςτου Γραϕείου Επιστηµονικής Έρευνας και Ανάπτυξης, είχε προαναγγείλει την έλευσή τους στο περίϕηµο δοκίµιο του µε τίτλο «As We May Think» [43]. Στο δοκίµιο αυτό, ο Bush περιγράϕει το memex,

4 1. ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΗΧΑΝΕΣ ΙΣΤΟΑΝΑΖΗΤΗΣΗΣ µια ϕουτουριστική µηχανή (µε εκπληκτικές οµοιότητες µε τους σηµερινούς προσωπικούς υπολογιστές και τον Ιστό) που µιµείται τις γνωστικές διεργασίες του ανθρώπου αϕήνοντας «συνειρµικάίχνη» µέσασεσυλλογέςεγγράϕων. Ύστερααπότέσσερεις δεκαετίες προόδου, τα αποµεινάρια του memex αποτέλεσαν τον σκελετό του Ιστού του Berners-Lee. Η δηµοσίευση του προϕητικού άρθρου του Bush στο περιοδικό LIFE συνοδευόταν και από ένα σχέδιο του memex (Εικόνα 1.1) κατασκευασµένο από έναν γραϕίστα και εγκεκριµένο από τον ίδιο τον Bush. Εικόνα1.1 Το σχέδιο του memex του Vannevar Bush όπως δηµοσιεύτηκε στο περιοδικό LIFE. Ηπρωτότυπηλεζάντααναϕέρει:«Τοmemex µε τη µορϕή γραϕείου εργασίας θα προσκοµίζει ακαριαία στα δάκτυλα του χειριστή του αρχεία και υλικό σχετικά µε οποιοδήποτε θέµα. Οι κεκλιµένες ηµιδιαϕανείς οθόνες προβάλλουν υπερ-µικροϕίλµ αρχειοθετηµένα κατά κωδικούςαριθµούς. Στο αριστερό µέρος υπάρχειένας µηχανισµός ο οποίος ϕωτογραϕίζειαυτόµατα σηµειώσεις, εικόνεςκαι επιστολές, καικατόπιν τις αρχειοθετεί για µελλοντική χρήση.» ΟΠαγκόσµιοςΙστόςαποτέλεσετουπέρτατοορόσηµοτηςέλευσηςτηςΕποχής της Πληροϕορίας και του τέλους της Βιοµηχανικής Εποχής. Παρά την επανάσταση, όµως, που έϕερε ο Ιστός στην αποθήκευση και την προσβασιµότητα των πληροϕοριών, οι χρήστες που επιχειρούσαν µια ιστοαναζήτηση κατέληγαν να πελαγοδροµούν. Έψαχναν την παροιµιώδη βελόνα µέσα σε έναν τεράστιο, συνεχώς διογκούµενο αχυρώνα πληροϕοριών, µε αποτέλεσµα να αισθάνονται περίπου όπως οι άνθρωποι στο διήγηµα του Χόρχε Λουίς Μπόρχες «Η Βιβλιοθήκη της Βαβέλ» (1941) [35], το οποίο περιγράϕει µια ϕανταστική, απέραντη βιβλιοθήκη. Όταν ανακοινώθηκε ότι η Βιβλιοθήκη περιείχε όλα τα βιβλία, η πρώτη αντίδραση ήταν µια εξωϕρενική ευτυχία. Όλοι οι άνθρωποι ένιωσαν κύριοι άθικτου και µυστικού θησαυρού. εν υπήρχε προσωπικό ή παγκόσµιο πρόβληµα που δε θα βρισκε την πειστική του λύση: σε κάποιο εξάγωνο.... Όπωςήτανϕυσικό,τηχαµένη ελπίδα διαδέχθηκε µια υπέρµετρη κατάθλιψη. Η βεβαιότητα πως κάπου, σε κάποιο ερµάριο κάποιου εξαγώνου, υπήρχαν ανεκτίµητα βιβλία και πως αυτά τα ανεκτίµητα βιβλία ήταν απρόσιτα, είχε καταντήσει σχεδόν αϕόρητη.

1.1. ΣΥΝΤΟΜΟ ΧΡΟΝΙΚΟ ΤΗΣ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ 5 Όπως και στη ϕανταστική Βιβλιοθήκη της Βαβέλ, µεγάλο µέρος των πληροϕοριών στη Βιβλιοθήκη του Ιστού παρέµεναν απρόσιτες. Οι πρώτες µηχανές ιστοαναζήτησης ελάχιστα µπορούσαν να αµβλύνουν την απογοήτευση των χρηστών.για να πραγµατοποιήσει ο χρήστης µια αναζήτηση, έπρεπε είτε να ταξινοµήσει διάϕορα θεµατικά ιεραρχηµένα αντικείµενα στη Yahoo, είτε να ϕιλτράρει τις πάµπολλες (συχνά χιλιάδες) ιστοσελίδες που επέστρεϕε η µηχανή αναζήτησης, επισκεπτόµενος τις σελίδες ο ίδιος ώστε να διαπιστώσει ποιες ήταν οι πιο συναϕείς µε τοερώτηµα.ορισµένοιχρήστες κατέϕευγαν στις αρχαιότερες τεχνικές αναζήτησης, την ανταλλαγή πληροϕοριών από στόµα σε στόµα και τη συµβουλή κάποιου ειδικού. Μάθαιναν για αξιόλογους ιστοτόπους από ϕίλους, και επισκέπτονταν ιστοτόπους που τους συνιστούσαν συνάδελϕοι που είχαν ήδη αϕιερώσει πολλές ώρες για αναζήτηση. Ηκατάστασηάλλαξε το 1998,ότανέκανετηνεµϕάνισήτηςστησκηνήτηςανάκτησης πληροϕοριών η συνδεσµοανάλυση [40, 106]. Οι πιο επιτυχηµένες µηχανές αναζήτησης άρχισαννα χρησιµοποιούν την συνδεσµοανάλυση, µια τεχνική που αξιοποιούσε τις επιπλέον πληροϕορίες που ενυπάρχουν στην υπερσυνδεσµοδοµή του Ιστού, για να βελτιώσουν την ποιότητα των αποτελεσµάτων των αναζητήσεων. Η ιστοαναζήτηση βελτιώθηκε δραστικά, και οι αναζητητές άρχισαν να χρησιµοποιούν και να προωθούν πλέον µε ευλάβεια την αγαπηµένη τους µηχανή αναζήτησης, όπως την Google και την AltaVista.Μάλιστα,το 2004,πολλοί«ιστοπεριηγητές» παραδέχονταν ανοιχτά το πάθος, την εξάρτηση και τον εθισµό τους στιςµηχανέςαναζήτησης. Παραθέτουµε ενδεικτικά τα σχόλια [117] ορισµένων οπαδών της Google, ώστε να αντιληϕθείτε τον ενθουσιασµό που προκάλεσε η αύξηση προσπελασιµότητας που επήλθε στη Βιβλιοθήκη του Ιστού µε τις µηχανές συνδεσµοανάλυσης. Αξίζει παρεµπιπτόντως να ανα- ϕέρουµε ότι τον Μάιο του 2004 η Google κατείχε το µεγαλύτερο µερίδιο της αγοράς αναζήτησης. συγκεκριµένα, το 37% των αναζητητών χρησιµοποιούσαν την Google, ενώ ακολουθούσε µε µερίδιο αγοράς 27%ηκοινοπραξίατηςYahoo, που περιλάµβανε την AltaVista, την AlltheWeb και την Overture. 2 «εν είναι η οικοσελίδα µου, αλλά θα µπορούσε κάλλιστα να είναι. Τη χρησιµοποιώ για να αναζητώ τις αναϕορές του ονόµατός µου στον Ιστό. Τη χρησιµοποιώ για να διαβάζω ειδήσεις. Τη χρησιµοποιώ κάθε ϕορά που θέλω να βρω κάτι.» Matt Groening, δηµιουργός και υπεύθυνος παραγωγής της σειράς κινουµένων σχεδίων The Simpsons «εν µπορώ να ϕανταστώ τη ζωή χωρίς το Google News. Χιλιάδες πηγές από ολόκληρο τον κόσµο εξασϕαλίζουν ότι οποιοσδήποτε διαθέτει σύνδεση στο ιαδίκτυο µπορεί να είναι ανά πάσα στιγµή ενηµερωµένος. Η ποικιλία των απόψεων που µπορεί να βρει κανείς είναι εκπληκτική.» Michael Powell, πρόεδρος της Οµοσπονδιακής Επιτροπής ΕπικοινωνιώντωνΗΠΑ «Η Google είναι ο βοηθός ερευνητής µου, όταν χρειάζοµαι άµεσα κάποια πληροϕορία. Όταν πλησιάζει η λήξη κάποιας προθεσµίας, µπορεί να τη χρησιµοποιήσω για να ελέγξω την ορθογραϕία ενός ξένου ονόµατος, για να αποκτήσω τη ϕωτογραϕία ενός τµήµατος κάποιου στρατιωτικού υλικού, για να βρω την ακριβή έκϕραση που χρησιµοποίησε ένα δηµόσιο πρόσωπο, για να 2 Τα ποσοστά αυτάυπολογίστηκαναπό την comscore, µια εταιρεία που µέτρησε τον αριθµό αναζητήσεων που πραγµατοποίησαν ιστοπεριηγητές στις ΗΠΑ τον Μάιο του 2004 µε τις κυριότερες µηχανές αναζήτησης. Βλ. σχετικό άρθρο στη διεύθυνση http://searchenginewatch.com/reports/article.php/2156431.

6 1. ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΗΧΑΝΕΣ ΙΣΤΟΑΝΑΖΗΤΗΣΗΣ ελέγξω κάποια στατιστικά στοιχεία, για να µεταϕράσω µια ϕράση, ή για να ερευνήσω το ιστορικό µιας εταιρείας. Είναιοελβετικόςσουγιάς της ανάκτησης πληροϕοριών.» Garry Trudeau, σκιτσογράϕος και δηµιουργός του κό- µικ Doonesbury Σήµερα, σχεδόν όλες οι µηχανές αναζήτησης ευρείας χρήσης συνδυάζουν τις βαθ- µολογίες που δίνει η συνδεσµοανάλυση, οι οποίες είναι παρόµοιες µε εκείνες που χρησιµοποιεί η Google, µε τις βαθµολογίες που προκύπτουν από πιο παραδοσιακές τεχνικές ανάκτησης πληροϕοριών. Σε αυτό το βιβλίο καταγράϕουµε τηνιστορίαµιαςόψης της ανάκτησης ιστοπληροϕοριών. Πρόκειται για την όψη της συνδεσµοανάλυσης ή, διαϕορετικά, των αλγόριθµων κατάταξης στους οποίους βασίζονται αρκετές από τις πιο δηµοϕιλείς και επιτυχηµένες σύγχρονες µηχανές αναζήτησης, µεταξύ των οποίων ηgoogleκαιηteoma.μετηνευκαιρία,θαπροσθέσουµε στο µουσείο ανάκτησης πληροϕοριώντοναλγόριθµοσυνδεσµοανάλυσης PageRank [40] που χρησιµοποιεί η Google (βλ. Κεϕάλαια4-10)καιτοναλγόριθµο HITS [106] που χρησιµοποιεί η Teoma (βλ. Κεϕάλαιο 11). 1.2 ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΠΑΡΑΔΟΣΙΑΚΗΣ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Για να προετοιµάσουµε το έδαϕος για τις συναρπαστικές εξελίξεις στον χώρο της συνδεσµοανάλυσης τις οποίες θα µελετήσουµε στα επόµενα κεϕάλαια, θα ξεκινήσουµε τηνιστορία µας διακρίνοντας την ανάκτηση ιστοπληροϕοριών από την παραδοσιακή ανάκτηση πληροϕοριών.η ανάκτηση ιστοπληροϕοριών είναι η αναζήτηση εντός της µεγαλύτερης διασυνδεδεµένης συλλογής εγγράϕων του κόσµου, ενώ η παραδοσιακή ανάκτηση πληροϕοριών είναι ηαναζήτησηστο εσωτερικό µικρότερων, πιο ελεγχόµενων, µη διασυνδεδεµένων συλλογών. Οι παραδοσιακές µη διασυνδεδεµένες συλλογές υπήρχαν πριν από τη γέννηση του Ιστού και εξακολουθούν να υπάρχουν και σήµερα. Παραδείγµατα παραδοσιακής ανάκτησης πληροϕοριών είναι η αναζήτηση στη συλλογή βιβλίων µιας πανεπιστηµιακής βιβλιοθήκης ή στο αρχείο των διαϕανειών ενός καθηγητή ιστορίας της τέχνης. Αυτές οι συλλογές εγγράϕων είναι µη διασυνδεδεµένες, ως επί το πλείστον στατικές, ενώ έχουν οργανωθεί και διαρθρωθεί θεµατικά από ειδικούς επαγγελµατίες, λόγου χάριναπό βιβλιοθηκάριους και εκδότες περιοδικών. Τα έγγραϕά τους είναι αποθηκευµένα σε ϕυσική µορϕή ως βιβλία, περιοδικά και εικόνες, αλλά και ηλεκτρονικά σε µικροδιαϕάνειες, CD και ιστοσελίδες. Στις µέρες µας, όµως, οι µηχανισµοί αναζήτησης αντικειµένων µέσα στις συλλογές είναι σχεδόν όλοι αυτοµατοποιηµένοι. Οι αυτοµατοποιηµένοι αυτοί µηχανισµοί ονοµάζονται µηχανές αναζήτησης. Πρόκειται για εικονικές µηχανές κατασκευασµένες από λογισµικό που τους επιτρέπει να διατρέχουν εικονικούς καταλόγους αρχείων και να εντοπίζουν συναϕή έγγραϕα. Υπάρχουν τρεις βασικές αυτοµατοποιηµένες τεχνικές για αναζήτηση σε συλλογές παραδοσιακής ανάκτησης πληροϕοριών: Τα λογικά µοντέλα (ή µοντέλα Boole), τα µοντέλα διανυσµατικού χώρου και τα πιθανοκρατικά µοντέλα [14]. Τα µοντέλα αυτά, τα οποία αναπτύχθηκαν τη δεκαετία του 1960, είχανστηδιάθεσήτους αρκετές δεκαετίες για να ωριµάσουν, να αλληλεπιδράσουν και να µετεξελιχθούν σε νέα µοντέλα αναζήτησης. Τον Ιούνιο του 2000 υπήρχαν τουλάχιστον 3500 διαϕορετικές µηχανές αναζήτησης (συµπεριλαµβανοµένων των νεότερων ιστοµηχανών) [37], που σηµαίνει ότι πιθανόν να υπάρχουν

1.2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΠΑΡΑΔΟΣΙΑΚΗΣ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ 7 3500 διαϕορετικές τεχνικές αναζήτησης. Επειδή όµως οι περισσότερες µηχανές αναζήτησης βασίζονται σε ένα ή περισσότερα από τα τρία βασικά µοντέλα, θα περιγράψουµε καθένα από τα µοντέλα αυτά ξεχωριστά. 1.2.1 Λογικές μηχανές αναζήτησης Το λογικό µοντέλο ανάκτησης πληροϕοριών, µια από τις παλαιότερες και απλούστερες µεθόδους ανάκτησης, βασίζεται στην ιδέα της ακριβούς ταύτισης για τον εντοπισµό εγγράϕωνπου ταιριάζουν µετο ερώτηµατουχρήστη. Οι πιο βελτιωµένες µεταγενέστερες εκδοχές του µοντέλου χρησιµοποιούνται ακόµη και σήµερα από τις περισσότερες βιβλιοθήκες. Ο όρος «λογικό» αναϕέρεται στη χρήση της λογικής άλγεβρας (ή άλγεβρας Boole), στο πλαίσιο της οποίας διάϕορες λέξεις συνδυάζονται λογικάµεταξύ τους µέσω των λογικών τελεστών (ή τελεστών Boole) Î È (and), Ë (or) και Ô È (not). Για παράδειγµα, η λογικήσύζευξη,î È,τωνλογικών προτάσεων x και y σηµαίνει ότι θα πρέπει να αληθεύει η x Î È η y,ενώηλογικήδιάζευξη, Ë,τωνδύοπροτάσεων σηµαίνει ότι θα πρέπει να αληθεύει τουλάχιστον η µία από τις δύο. Μέσω των τριών αυτών λογικών τελεστών µπορούν να συνδυαστούν µεταξύ τους οσεσδήποτε λογικές προτάσεις. Στο λογικό µοντέλο ανάκτησης πληροϕοριών εξετάζεται ποιες λέξεις-κλειδιά (ή αλλιώς «κλειδωνύµια») εµπεριέχονται σε ένα έγγραϕο ή απουσιάζουν από αυτό, και το έγγραϕο κρίνεται τελικά είτε συναϕές είτε µη συναϕές µε το ερώτηµα. Επειδή δεν υπάρχει η έννοια της µερικής συµϕωνίας µεταξύ εγγράϕων και ερωτηµάτων, η επίδοση του µοντέλου πιθανόν να είναι χαµηλή [14]. Σε κάποιες πιο προηγµένες τεχνικές που βασίζονται στη θεωρία των ασαϕών συνόλων, επιχειρείται να διορθωθεί αυτός ο«µανιχαϊστικός» χαρακτήρας του λογικού µοντέλου µε την εισαγωγή ενδιάµεσων καταστάσεων. Για παράδειγµα, εάν εκτελέσουµε σε µια λογική µηχανή µια αναζήτηση τίτλων µε τον συνδυασµό συντήρηση Î È αυτοκινήτων, η εικονική µηχανή αναζήτησης θα µας επιστρέψει όλα τα έγγραϕαπουπεριέχουνστον τίτλο τους καιτιςδύο αυτές λέξεις. Το συναϕές έγγραϕο µε τίτλο «Συντήρηση οχηµάτων» δεν θα επιστραϕεί. Οι ασαϕείς λογικές µηχανές αναζήτησης, χρησιµοποιώντας την ασαϕή λογική, χαρακτηρίζουν αυτό το έγγραϕοενµέρεισυναϕές και το συµπεριλαµβάνουν στα επιστρε- ϕόµενα αποτελέσµατα. Το παράδειγµα αυτό αποκαλύπτει τα βασικά µειονεκτήµατα των λογικών µηχανών αναζήτησης: οι µηχανές αυτές είναι ευάλωτες σε δύο από τα συνηθέστερα προβλήµατα της ανάκτησης πληροϕοριών, τη συνωνυµία και την πολυσηµία. Η συνωνυµία αϕορά περισσότερες από µία λέξεις που έχουν την ίδια σηµασία, όπως «αυτοκίνητο» και «αµάξι». Μια συνήθης λογική µηχανή αναζήτησης είναι αδύνατον να επιστρέψει σηµασιολογικά συναϕή έγγραϕα των οποίων τα κλειδωνύµια δεν συµπεριλήϕθηκαν στο αρχικό ερώτηµα. Η πολυσηµία αϕορά λέξεις µε πολλές σηµασίες. Για παράδειγµα, όταν ένας χρήστης πληκτρολογεί ως ερώτηµα τη λέξη γράµµα δεν είναι σαϕές εάν εννοεί γράµµα του αλϕαβήτου ή επιστολή αλληλογραϕίας[24]. Το πρόβληµα της πολυση- µίας µπορεί να οδηγήσει στην ανάκτηση πολλών εγγράϕων που είναι άσχετα µε το νόηµα που είχε πραγµατικά κατά νου ο χρήστης. Πολλές λογικές µηχανές αναζήτησης απαιτούν επίσης από τον χρήστη να γνωρίζει τους λογικούς τελεστές και την ιδιαίτερη σύνταξη της µηχανής. Για παράδειγµα, για να εντοπιστούν πληροϕορίες σχετικά µε τη ϕράσηιερά εξέταση πολλές µηχανές απαιτούν να τεθεί η ϕράση µέσα σε εισαγωγικά, τα οποία υποδεικνύουν στη µηχανή ότι θα πρέπει να αναζητηθεί ολόκληρη

8 1. ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΗΧΑΝΕΣ ΙΣΤΟΑΝΑΖΗΤΗΣΗΣ ηϕράσησαν να αποτελεί ένα ενιαίο κλειδωνύµιο. Ο χρήστης που θα λησµονήσει τη συντακτική αυτή απαίτηση θα εκπλαγεί βλέποντας να ανακτώνται έγγραϕα σχετικά µε ιερές µητροπόλεις και µε ιατρικές και πανεπιστηµιακές εξετάσεις. Παρ όλα αυτά, οι διάϕορες παραλλαγές του λογικού µοντέλου αποτελούν τη βάση πολλών µηχανών αναζήτησης. Οι λόγοι για την εξάπλωσή τους είναι διάϕοροι. Πρώτον, η κατασκευή και ο προγραµµατισµός µιας λογικής µηχανής αναζήτησης δεν παρουσιάζουν ιδιαίτερες περιπλοκές. εύτερον, τα ερωτήµατα µπορούν να διεκπεραιωθούν µε µεγάλη ταχύτητα, αϕού υπάρχει η δυνατότητα να εκτελεστεί µια γρήγορη παράλληλη σάρωσητωναρχείωνπουπεριέχουν τα κλειδωνύµια των εγγράϕων. Τρίτον, τα λογικά µοντέλα έχουν καλές ιδιότητες κλιµάκωσης σε πολύ µεγάλες συλλογές εγγράϕων. Η διαχείριση µιας διογκούµενης συλλογής εγγράϕων είναι εύκολη. Οπρογραµµατισµός παραµένει απλός, και ουσιαστικά το µόνο που χρειάζεται είναι να επεκταθεί ο αποθηκευτικός χώρος και να ενισχυθούν οι δυνατότητες παράλληλης επεξεργασίας. Τα εγχειρίδια υπ αριθµ. [14, 75, 107] περιλαµβάνουν όλα κεϕάλαια µε εξαιρετικές εισαγωγές στα λογικά µοντέλα και τις επεκτάσεις τους. 1.2.2 Μηχανές αναζήτησης διανυσματικού χώρου Μια άλλη τεχνική ανάκτησης πληροϕοριών βασίζεται στο µοντέλο διανυσµατικού χώρου [147], που αναπτύχθηκε στις αρχές της δεκαετίας του 1960 από τον Gerard Salton προκειµένου να αποϕευχθούν κάποια από τα προβλήµατα που αναϕέρθηκαν παραπάνω. Στα µοντέλα διανυσµατικού χώρου, τα δεδοµένα κειµενικού τύπου µετατρέπονται σε αριθµητικά διανύσµατα και πίνακες,καιεν συνεχεία εϕαρµόζονται τεχνικές της ανάλυσης πινάκων 3 για να ανακαλυϕθούνβασικάχαρακτηριστικάκαισηµαντικές συσχετίσεις µέσα στη συλλογή των εγγράϕων. Ορισµένα προηγµένα µοντέλα διανυσµατικού χώρου αντιµετωπίζουν µε επιτυχία τα συνήθη προβλήµατα της συνωνυµίας και της πολυσηµίας. Τα προηγµένα µοντέλα διανυσµατικού χώρου, όπως το σύστηµα LSI [64] (ακρωνύµιο της ϕράσης Latent Semantic Indexing, δηλ. «αριθµοδεικτοδότηση λανθάνουσας σηµασιολογίας») µπορούν να προσπελάσουν την κρυ- ϕή σηµασιολογική δοµή σε µια συλλογή εγγράϕων. Για παράδειγµα, µια µηχανή LSI που επεξεργάζεται το ερώτηµα αυτοκίνητο θα επιστρέψει έγγραϕα των οποίων τα κλειδωνύµια έχουν κάποια σηµασιολογική συνάϕεια µε το ερώτηµα, όπως είναι π.χ. το κλειδωνύµιο αµάξι. Η ικανότητά τους να αποκαλύπτουν κρυϕές σηµασιολογικές σχέσεις καθιστά τα µοντέλα διανυσµατικού χώρου, όπως το LSI, ισχυρότατα εργαλεία ανάκτησης πληροϕοριών. ύο επιπρόσθετα πλεονεκτήµατα του µοντέλου διανυσµατικού χώρου είναι η βαθ- µολογία συνάϕειας και η ανατροϕοδότηση συνάϕειας. Τοµοντέλοδιανυσµατικού χώρου επιτρέπει τη µερική συµϕωνία κάποιων εγγράϕων µε το υποβαλλόµενο ερώτηµα, αποδίδοντας σε κάθε έγγραϕο έναν αριθµό από το 0 έως το 1, οοποίος µπορεί να ερµηνευτεί ως η πιθανότητα συνάϕειας του εγγράϕου µε το ερώτηµα. Το σύνολο των ανακτηθέντων εγγράϕων µπορεί στη συνέχεια να ταξινοµηθεί µε βάση τον βαθµό συνάϕειας, µια πολυτέλεια ανέϕικτη για το απλό λογικό µοντέλο. ηλαδή, τα µοντέλα διανυσµατικού χώρου επιστρέϕουν έναν διατεταγµένο κατάλογο εγγράϕων, ταξινοµηµένων σύµϕωνα µε τη βαθµολογία συνάϕειας. Το πρώτο έγγραϕο που επι- 3 Οι µαθηµατικοί όροι ορίζονται στοκεϕάλαιο15και παρατίθενται µε πλάγια γράµµατα.