Ανάκτηση Π ηροφορίας στον Πα κόσμιο Ιστό

Σχετικά έγγραφα
Το Πι ανοκρατικό Μοντέ ο

Το Λο ικό Μοντέ ο. Περιε όμενα Κεφα αίου

Ο Αντεστραμμένος Κατά ο ος

Το Διανυσματικό Μοντέ ο

Ανάκτηση Π ηροφορίας. Συ ραφή Απόστο ος Ν. Παπαδόπου ος Ι άννης Μαν όπου ος Κ νσταντίνος Τσί ας. Κριτικός Ανα νώστης Δημήτριος Κατσαρός

Ο Κατά ο ος Υπο ραφών

Α όρι μοι και Πο υπ οκότητα 1η Σειρά Γραπτών Ασκήσε ν

Κανονισμός Εποπτικού Συμ ου ίου

Κανονισμός Εκτε εστικής Επιτροπής

Εισα ή στην Ανάκτηση Π ηροφορίας

Κανονισμός Οικονομικής Δια είρισης

Παρά η η Δια είριση Δεδομέν ν

Κανονισμός Διοικητικού Συμ ου ίου

Αποτίμηση Αποτε εσματικότητας

Απ ή υ οποίηση α ορί μου Fast Multipole Method ανεξάρτητου συνάρτησης πυρήνα

Ανάπτυξη Βι ιο ήκης Γραφικών ια Ενσ ματ μένο Σύστημα

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Επέκταση του συστήματος ανοι τού κώδικα Pig

Ορ ανισμός Εσ τερικής Υπηρεσίας

Π Ε Δ (Π.Ε.Δ.) Ι Ν ΠΕΔ. Κανονισμοί. ΟΕΥ Προσωπικού Διοικητικού Συμβουλίου Εκτελεστικής Επιτροπής Οικονομικής Διαχείρισης Εποπτικού Συμβουλίου

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάπτυξη Συστήματος Συστάσε ν Συνερ ατικής Διή ησης με ρήση Ιεραρ ικών Α ορί μ ν Κατάταξης

Εξόρυξη νώσης από μέσα κοιν νικής δικτύ σης: Με έτη περίπτ σης στο Twitter.

ΕΠΑΝΑΛΗΠΣΙΚΕ ΑΚΗΕΙ ΜΙΓΑΔΙΚΟΤ-ΟΡΙΑ-ΤΝΕΧΕΙΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ἔστω Ο...πισινός μας! American Bar το καναμε για όλους μας. * * * κι από τη Σκιά τους. σε κάθε νησί;

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Η εκτρικής Ισ ύος. Διπ ματική Ερ ασία

Σ εδιασμός Συστημάτ ν Ε έ ου

Ε νικό Μετσό ιο Πο υτε νείο

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Χημικών Μη ανικών. Με έτη και σ εδιασμός με όδ ν Εξόρυξης Δεδομέν ν και εφαρμο ές σε προ ήματα Μετα ο ομικής

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Ε νικό Μετσό ιο Πο υτε νείο

ΚΑΝΟΝΙΣ ΜΟ Ι ΙΕΞΑΓΩΓΗΣ ΑΓΩΝΩΝ 1 / 8 SCALE IC TRA CK ΕΛ. Μ. Ε

Ε νικό Μετσό ιο Πο υτε νείο. Α όρι μοι Επανε ραφής Τροποποιημέν ν Ερ τημάτ ν ια Βατές Περι ραφικές Λο ικές

Ε νικό Μετσό ιο Πο υτε νείο. Πρακτικά Συστήματα Συ ο ιστικής ια Εκφραστικές Ασαφείς Περι ραφικές Λο ικές

Ανάπτυξη συντακτικού ανα υτή φυσικής ώσσας με ρήση του φορμα ισμού LFG. Πανα ιώτης Μίνος

Ε νικό Μετσό ιο Πο υτε νείο. Διπ ματική Ερ ασία

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

JEAN-CHARLES BLATZ 02XD RE52755

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Η Αρ ιτεκτονική αναφοράς Μα ησιακών Χώρ ν CROP - Μια πρώτη προσέ ιση

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Πα κ έ τ ο Ε ρ γ α σ ί α ς 4 Α ν ά π τ υ ξ η κ α ι π ρ ο σ α ρ µ ο γ ή έ ν τ υ π ο υ κ α ι η λ ε κ τ ρ ο ν ι κ ο ύ ε κ π α ι δ ε υ τ ι κ ο ύ υ λ ι κ ο

Υ οποίηση αντα α ής κ ειδιού DH και ψηφιακών υπο ραφών ασισμένη σε ε ειπτικές καμπύ ες

Ε νικό και Καποδιστριακό Πανεπιστήμιο Α ηνών. Δι οτομίες Πο υπ οκότητας σε Προ ήματα Μέτρησης

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Επικοιν νιών, Η εκτρονικής και Συστημάτ ν Π ηροφορικής

Η κ άσση L A TEX dithesis

ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΠΛΑΤΦΟΡΜΑΣ ΠΑΡΟΧΗΣ ΥΠΗΡΕΣΙΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΕΦΑΡΜΟΓΕΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΓΕΩΡΓΙΟΣ ΓΟΥΛΑΣ

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014


α κα ρι ι ο ος α α νηρ ος ου ουκ ε πο ρε ε ευ θη εν βου λη η η α α σε ε ε βων και εν ο δω ω α α µαρ τω λω ων ουουκ ε ε ε

20/5/ /5/ /5/ /5/2005

Web. Web p OutDegree(p) log 7 1/OutDegree(p) A New Difinition of Subjective Distance between Web Pages

Π α σα πνο η αι νε σα τω τον Κυ ρι. Π α σα πνο η αι νε σα α τω τον. Ἕτερον. Τάξις Ἑωθινοῦ Εὐαγγελίου, Ὀ Ν Ψαλµός. Μέλος Ἰωάννου Ἀ. Νέγρη.

Αναζήτηση στο ιαδίκτυο

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκτηση Πληροφορίας

(RTS) & RTS 16. COBB DOUGLAS ( σ = 1 ) 24 (CES) 27 M2SM COBB DOUGLAS 28 ; 31 COBB DOUGLAS 33

Α Α Α Α Α Α Α Α Α Α Α Ο

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα


Περιεχόµ εν α. Εισαγω γή. Επ ισκόπ ηση υπ ο βο λής φακέλω ν (IUCLID 5) Επ ισκόπ ηση υπ ο βο λής φακέλω ν (Reach-IT) Ερω τήσεις καιαπ αν τήσεις


Ανάκτηση Πληροφορίας

FAX : spudonpe@ypepth.gr) Φ. 12 / 600 / /Γ1

Τ τμημα Ηλεκτρ Λ γ α ργ ΨηφιακΦ Συα ημ τω Α αθμ Σκ π τη κη η Σκ π τηζ κη η ε αι α ρησ μ π ε π υδαα η Λ γ κθζ π Λε π ΛΛΦ ε δω α α δε ξε τ τρ π με π γ ε

14/5/ /12/ /5/ /5/2007

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

αναλυτικός απλός 1 Ο αναλυτικός βλέπει τον κόσμο σαν να αποτελείται από πολλά μικρά κομμάτια.

Ε.Ε. Π α ρ.ι(i), Α ρ.3932, 10/12/2004 Ο ΠΕΡΙ ΚΟΙΜΗΤΗΡΙΩΝ (ΤΑΦΗ ΚΑΙ ΕΚΤΑΦΗ) ΝΟΜΟΣ. H Βουλή των Αντιπροσώπων ψηφίζει ως ακολούθως:


ΘΕΜΑ: ΔΙΑΡΘΡΩΤΙΚΑ ΧΑ ΡΑ ΚΤ ΗΡ ΙΣ ΤΙ ΚΑ ΤΗΣ ΑΝΕΡΓΙΑΣ - ΠΤΥΧΙΑΚΗ ΕΡΓΑ ΣΙ Α - ΚΑΡΑ ΣΑ ΒΒ ΟΓ ΠΟ Υ ΑΝ ΑΣΤΑΣΙΟΣ

Tη λ.: +30 (210) Fax: +30 (210)

Ανάκτηση Πληροφορίας

Πρι τ αρακτηρ οτικ λαπλ ουοτηματα μικρ ετ εξεργατ δ π υ τ

Θεωρι α Γραφημα των 8η Δια λεξη

Ανάκτηση Πληροφορίας

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

Tηλ.: +30 (210) Fax: +30 (210)

E[ (x- ) ]= trace[(x-x)(x- ) ]

ΘΕΜΑ: Οδηγίες για την αποστολή στοιχείων απλήρωτων υποχρεώσεων & ληξιπρόθεσµων οφειλών του Προγράµµατος ηµοσίων Επενδύσεων

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

d u d dt u e u d dt e u d u 1 u dt e 0 2 e

Θέ α: ωσ ή ια ροφή και άσκηση ια ο ς εφήβο ς.

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

20/5/ /5/ /5/ /5/2006

ΑΡΧΗ 1 ΗΣ ΣΕΛΙΔΑΣ Δ ΤΑΞΗ ΘΕΜΑΤΑ

LAFARGE BETON A.B.E.E

Σπιν 1 2. Γενικά. Ŝ και S ˆz γράφονται. ιδιοκαταστάσεις αποτελούν ορθοκανονική βάση στον χώρο των καταστάσεων του σπιν 1 2.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ


ΣΤΟ ΧΟΣ- Ε ΠΙ ΔΙΩ ΞΗ ΠΛΑΙ ΣΙΟ ΧΡΗ ΜΑ ΤΟ ΔΟ ΤΗ ΣΗΣ

Αρ έ ονα αρυτικά κύματα από τον κοσμο ο ικό π η ρισμό και CMB

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό

ΣΥΜΒΑΣΗ ΜΕΤΑΞΥ ΠΑΡΟΧΟΥ ΚΑΤΑΡΤΙΣΗΣ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΠΑΡΟΧΩΝ, ΩΦΕΛΟΥΜΕΝΟΥ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΩΦΕΛΟΥΜΕΝΩΝ ΚΑΙ ΕΠΙΧΕΙΡΗΣΗΣ ΠΡΑΚΤΙΚΗΣ ΑΣΚΗΣΗΣ

Ό λοι οι κα νό νες πε ρί με λέ της συ νο ψί ζο νται στον ε ξής έ να: Μά θε, μό νο προκει μέ νου. Friedrich Schelling. σελ. 13. σελ. 17. σελ.

Transcript:

9 Ανάκτηση Π ηροφορίας στον Πα κόσμιο Ιστό Περιε όμενα Κεφα αίου 9.1 Εισα ή............................ 204 9.2 Πα κόσμιος Ιστός και Μη ανές Αναζήτησης......... 204 9.2.1 Οι Προκ ήσεις του Πα κόσμιου Ιστού........ 205 9.2.2 Δομή μίας Μη ανής Αναζήτησης........... 206 9.2.3 Πρώιμες Μη ανές Αναζήτησης............. 207 9.2.4 Σύ ρονες Μη ανές Αναζήτησης........... 208 9.3 Ο Α όρι μος HITS...................... 209 9.4 Ο Α όρι μος PageRank.................... 213 9.4.1 Αδιέξοδα και Πα ίδες.................. 216 9.5 Σύνοψη και Περαιτέρ Με έτη................. 219 9.6 Ασκήσεις............................ 220 203

204 Κεφάλαιο 9. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό 9.1 Εισα ή Ο πα κόσμιος ιστός (World Wide Web) αποτε εί πρα ματική πρόκ ηση ια πο ές εφαρμο ές, διότι δια έτει μία σειρά από αρακτηριστικά που φέρνουν στα όρια τη σύ ρονη τε νο ο ία ( ια παράδει μα το τεράστιο π ή ος τ ν ε ράφ ν που είναι δια έσιμα). Στην πράξη ο Πα κόσμιος Ιστός αποτε είται από ένα τεράστιο π ή ος σε ίδ ν που συνδέονται μεταξύ τους με συνδέσμους (links). Στο κεφά αιο αυτό α με ετήσουμε τε νικές Ανάκτησης Π ηροφορίας που στο- εύουν στην αποδοτικότερη και αποτε εσματικότερη δια είριση δεδομέν ν στον πα κόσμιο ιστό. Πιο συ κεκριμένα, α εστιάσουμε στη ειτουρ ία τ ν μη ανών αναζήτησης και τ ν με όδ ν α μο ό ησης τ ν ιστοσε ίδ ν. Θα εξη ήσουμε την ιστορία τ ν μη ανών αναζήτησης και τ ν τε νικών που έ ουν ρησιμοποιη εί ια τη ε τί ση της ποιότητας τ ν αποτε εσμάτ ν. 9.2 Πα κόσμιος Ιστός και Μη ανές Αναζήτησης Ο πα κόσμιος ιστός αποτε είται από ένα τεράστιο σύνο ο ιστοσε ίδ ν (web pages) οι οποίες διασυνδέονται μεταξύ τους. Η κά ε ιστοσε ίδα συνή ς είναι ραμμένη σε ώσσα HTML (hypertext markup language). Ωστόσο, υπάρ ουν και δυναμικές σε ίδες τ ν οποί ν το περιε όμενο διαμορφώνεται δυναμικά ( ια παράδει μα, σε ίδες που είναι ραμμένες σε php ή jsp). Μία ιστοσε ίδα αποτε είται κυρί ς από περιε όμενο κειμένου (text) α ά μπορεί να περιέ ει πιο πο ύπ οκα δεδομένα όπ ς εικόνες, ή ο και ίντεο. Στο κεφά αιο αυτό μας ενδιαφέρει η δομή του πα κόσμιου ιστού, και ια το ό ο αυτό α εστιάσουμε κυρί ς στους συνδέσμους μεταξύ τ ν σε ίδ ν υπο έτοντας ότι το περιε όμενο είναι απ ό κείμενο. Η κά ε ιστοσε ίδα προσδιορίζεται μοναδικά από το URL (uniform resource locator) που μπορούμε να πούμε ότι ρησιμοποιείται και ς κ ειδί ια την ιστοσε ίδα. Ο πα κόσμιος ιστός μπορεί να αναπαραστα εί απ οϊκά με ένα κατευ υνόμενο ράφημα (directed graph), όπ ς παρουσιάζεται στο Σ ήμα 9.1. Στο παράδει μα αυτό υπάρ ουν 4 ιστοσε ίδες Α, B, C και D. Παρατηρούμε ότι κάποιες σε ίδες μπορεί να έ ουν μόνο εισερ όμενους συνδέσμους (incoming links), κάποιες ά - ες μόνο εξερ όμενους συνδέσμους (outgoing links) και κάποιες ά ες να έ ουν και τους δύο τύπους συνδέσμ ν. Το π ή ος τ ν συνδέσμ ν μπορεί να είναι πο ύ διαφορετικό από ιστοσε ίδα σε ιστοσε ίδα και έ ει παρατηρη εί ότι ακο ου εί κατανομή power law. Μία μη ανή αναζήτησης πα κόσμιου ιστού (web search engine) αποτε είται

9.2. Παγκόσμιος Ιστός και Μηχανές Αναζήτησης 205 Σχήμα 9.1: Αναπαράσταση τμήματος του παγκόσμιου ιστού με κατευθυνόμενο γράφημα. από ένα σύνο ο τμημάτ ν ο ισμικού και υ ικού που έ ει ς στό ο την εξυπηρέτηση τ ν π ηροφοριακών ανα κών τ ν ρηστών στον πα κόσμιο ιστό. Οι μη ανές αναζήτησης ρησιμοποιούνται κυρί ς στον πα κόσμιο ιστό όπου υπάρ- ουν και εκτενείς ανά κες από την π ευρά τ ν ρηστών. Επιπ έον, ο ό κος της π ηροφορίας που ρίσκεται στον πα κόσμιο ιστό είναι τεράστιος που σε συνδυασμό με την ετερο ένεια της π ηροφορίας δημιουρ εί πο ύ σημαντικές προκ ήσεις. Ωστόσο, υπάρ ουν και μη ανές αναζήτησης ειδικού σκοπού, όπου το πεδίο εφαρμο ής είναι περιορισμένο (π.., μη ανές αναζήτησης σε προσ πικούς υπο ο ιστές, μη ανές αναζήτησης ια ιατρικά δεδομένα). Στην περίπτ ση αυτή οι απαιτήσεις είναι διαφορετικές από την περίπτ ση τ ν μη ανών αναζήτησης ενικού σκοπού. Οι σημαντικότερες σύ ρονες μη ανές αναζήτησης είναι αυτές της Google, της Yahoo! και της Microsoft. 9.2.1 Οι Προκ ήσεις του Πα κόσμιου Ιστού Οι προκ ήσεις που έ ει να αντιμετ πίσει μία μη ανή αναζήτησης στον πα- κόσμιο ιστό είναι οι εξής: Η ποσότητα της π ηροφορίας είναι από τα σημαντικότερα προ ήματα κα- ώς επηρεάζει άμεσα ό α τα τμήματα της μη ανής. Ο με ά ος αρι μός ιστοσε ίδ ν επηρεάζει το σαρ τή (έ ει περισσότερες σε ίδες να επισκεφ εί), το δεικτοδοτητή (όσο περισσότερες σε ίδες υπάρ ουν τόσο πιο αρ ή είναι η διαδικασία της δεικτοδότησης) και τον επεξερ αστή ερ τημάτ ν (ο ρόνος επεξερ ασίας εξαρτάται άμεσα από το μέ ε ος του κατα ό ου). Τα δεδομένα στον πα κόσμιο ιστό είναι διασκορπισμένα σε πο ούς υπο- ο ιστές που ρίσκονται και σε διαφορετικές ε ραφικές περιο ές. Το

206 Κεφάλαιο 9. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό αρακτηριστικό αυτό επιφέρει επιπ έον προ ήματα κα ώς α πρέπει η σάρ ση του πα κόσμιου ιστού να ίνεται ρή ορα ώστε ο κατά ο ος να είναι ενημερ μένος. Επίσης, η κατανομή τ ν δεδομέν ν ρίς κεντρικό έ ε ο μπορεί να επιφέρει επιπ έον δυσκο ίες ό της επανά ηψης τ ν δεδομέν ν σε διαφορετικούς ιστότοπους (διαφορετικές ιστοσε ίδες με ίδιο περιε όμενο). Ο πα κόσμιος ιστός αρακτηρίζεται από με ά η δυναμικότητα που έ ει ς αποτέ εσμα τη δημιουρ ία νέ ν ιστοσε ίδ ν και την α α ή του περιε ομένου τ ν υπαρ όντ ν. Το αρακτηριστικό αυτό επηρεάζει ό α τα τμήματα της μη ανής αναζήτησης. Τα δεδομένα που είναι απο ηκευμένα στον πα κόσμιο ιστό αρακτηρίζονται από με ά η ετερο ένεια και ς προς τη δομή α ά και το περιε όμενο. Για παράδει μα, υπάρ ουν δεδομένα που είναι σε πο ές διαφορετικές μορφές όπ ς κέιμενο, εικόνα, ή ος, ίντεο. Επίσης, υπάρ ουν δεδομένα π ήρ ς δομημένα που είναι απο ηκευμένα σε άσεις δεδομέν ν, ημι-δομημένα που είναι σε μορφή XML και εντε ώς αδόμητα (ε εύ ερο κείμενο). Επομέν ς, η μη ανή αναζήτησης α πρέπει να ά ει υπόψη τις ιδιαιτερότητες αυτές ώστε να περέ ει υπηρεσίες ανεξάρτητα από την ετερο ένεια τ ν δεδομέν ν. Ένα από τα με α ύτερα προ ήματα που έ ει να αντιμετ πίσει μία μη ανή αναζήτησης είναι ο εντοπισμός και η επιστροφή στο ρήστη τ ν ιστοσε ίδ ν με το ποιοτικότερο περιε όμενο. Εξαιτίας της ε ευ ερίας ό ου στον πα κόσμιο ιστό κυκ οφορούν ιστοσε ίδες που μπορεί περιέ ουν και ψευδείς π ηροφορίες ή σε ίδες που το περιε όμενό τους δεν αρακτηρίζεται ποιοτικό. Η μη ανή αναζήτησης α πρέπει να προστατεύει τους ρήστες από το περιε όμενο αυτό επιστρέφοντας ιστοσε ίδες με υψη ή ποιότητα. Επομέν ς, ια κά ε ιστοσε ίδα η μη ανή πρέπει να ν ρίζει το α μό ποιότητας. Ο υπο ο ισμός του α μού ποιότητας αποτε εί μία ακόμη πρόκ ηση αμ άνοντας υπόψη τη συ νή μετα ο ή του περιε ομένου τ ν ιστοσε ίδ ν. 9.2.2 Δομή μίας Μη ανής Αναζήτησης Μία μη ανή αναζήτησης αποτε είται από τρία ασικά τμήματα, που περι ράφονται συνοπτικά παρακάτ και παρουσιάζονται στο Σ ήμα 9.2: Ο σαρωτής (crawler) είναι το τμήμα ο ισμικού που είναι υπεύ υνο ια τη σάρ ση του πα κόσμιου ιστού και την εύρεση τ ν ιστοσε ίδ ν. Ο σαρ τής συ έ ει τους συνδέσμους που υπάρ ουν στην τρέ ουσα ιστοσε ίδα που

9.2. Παγκόσμιος Ιστός και Μηχανές Αναζήτησης 207 εξετάζει και στη συνέ εια τις επισκέπτεται με κάποια σειρά. Το π ή ος τ ν σαρ τών είναι πο ύ με ά ο έτσι ώστε ο ρόνος που απαιτείται ια τη σάρ ση του συνό ου του πα κόσμιου ιστού να είναι σ ετικά μικρό. Ο δεικτοδοτητής (indexer) είναι το ο ισμικό που αμ άνει τις ιστοσε ίδες από το σαρ τή και στη συνέ εια ορ ανώνει το περιε όμενο με τέτοιον τρόπο που να επιτρέπει τη ρή ορη αναζήτηση. Η μέ οδος ορ άν σης που ρησιμοποιείται συνή ς είναι η δομή του αντεστραμμένου κατα ό ου που έ ουμε με ετήσει σε προη ούμενο κεφά αιο. Ο δεικτοδοτητής είναι υπεύ υνος ια την ενημέρ ση του κατα ό ου με νέο περιε όμενο και τις α α ές που πρέπει να ίνουν σε περίπτ ση που υπάρ ει μετα ο ή του περιε ομένου μίας ιστοσε ίδας. Το κ ειδί που ρησιμοποιείται ια το δια- ρισμό τ ν ιστοσε ίδ ν είναι συνή ς το URL. Ο επεγεργαστής ερωτημάτων (query processor) αμ άνει μία π ηροφοριακή ανά κη (ένα ερώτημα που αποτε είται από έξεις-κ ειδιά), και σε συνερ- ασία με τον αντεστραμμένο κατά ο ο επιστρέφει τις ιστοσε ίδες που ε- ρούνται σ ετικά ς προς το ερώτημα του ρήστη. Σχήμα 9.2: Βασικότερα τμήματα μίας μηχανής αναζήτησης. 9.2.3 Πρώιμες Μη ανές Αναζήτησης Πριν από τη μη ανή αναζήτησης της Google, υπήρ αν αρκετές μη ανές αναζήτησης. Η ασική δου ειά τους ήταν να δια άζουν τις ιστοσε ίδες μέσ του σαρ τή, να προσδιορίζουν τους όρους ( έξεις) και να ενημερώνουν τον αντεστραμμένο κατά ο ο μέσ του δεικτοδοτητή.

208 Κεφάλαιο 9. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό Όταν η μη ανή δε όταν ένα ερώτημα αναζήτησης (μία ίστα με όρους), εξα- όταν από τον αντεστραμμένο κατά ο ο οι αντίστοι ες σε ίδες που περιεί αν τους όρους και στη συνέ εια ακο ου ούσε η α μο ό ηση που ασιζόταν στην εμφάνιση τ ν όρ ν μέσα στη σε ίδα. Επομέν ς, η εμφάνιση του όρου στην επικεφα ίδα της σε ίδας έκανε τη σε ίδα περισσότερο σ ετική σε σ έση με την εμφάνιση του όρου στο κυρί ς κείμενο της σε ίδας. Επιπ έον, το π ή ος τ ν εμφανίσε ν τ ν όρ ν στη σε ίδα εί ε ς αποτέ εσμα την αύξηση της σ ετικότητας της σε ίδας ια το συ κεκριμένο ερώτημα. Ωστόσο, η τε νική αυτή όπ ς α δούμε στη συνέ εια δε ειτουρ ούσε πάντοτε σ στά. Κα ώς η ρήση τ ν μη ανών αναζήτησης ινόταν ό ο και συ νότερη, κάποιοι ρήκαν τη δυνατότητα να ξε ε άσουν τις μη ανές έτσι ώστε να οδη ούν τους ρήστες στη δική τους σε ίδα. Για παράδει μα, εάν η δου ειά κάποιου είναι να που ά η εκτρονικούς υπο ο ιστές στον πα κόσμιο ιστό, τότε το μόνο ενδιαφέρον του είναι η σε ίδα του να έ ει με ά η επισκεψιμότητα, ανεξαρτήτ ς από τις π ηροφοριακές ανά κες του ρηστών. Για να ξε ε άσει κάποιος τη μη ανή, α μπορούσε να προσ έσει πο ές φορές τον όρο ι ίο στη σε ίδα του, έτσι ώστε η μη ανή να νομίζει ότι η σε ίδα είναι πο ύ σημαντική πη ή ια ι ία. Στην περίπτ ση αυτή, εάν ένας ρήστης συμπερι ά ει τον όρο ι ίο στο ερώτημα, η συ κεκριμένη σε ίδα α εμφανισ εί πρώτη στα αποτε έσματα της μη ανής αναζήτησης. Η ικανότητα τ ν κακό ου ν ρηστών να α οιώνουν τα αποτε έσματα της αναζήτησης τόσο εύκο α, ήταν η ασική αιτία ώστε οι πρώτες μη ανές αναζήτησης να καταστούν ρή ορα μη ρήσιμες, αφού δεν μπορούσαν στην πρα ματικότητα να κα ύψουν με ακρί εια τις π ηροφοριακές ανά κες τ ν ρηστών. Το ε ονός αυτό έδ σε την ώ ηση στους ερευνητές να αναζητήσουν κα ύτερες και πιο εύρ στες με όδους ποσοτικοποίησης της σημαντικότητας μίας ιστοσε ίδας, που δε ασίζεται μόνο στην ύπαρξη τ ν όρ ν (δη αδή στο περι όμενο) α ά και σε ά α αρακτηριστικά, όπ ς είναι ια παράδει μα ο τρόπος διασύνδεσης τ ν ιστοσε ίδ ν μεταξύ τους. 9.2.4 Σύ ρονες Μη ανές Αναζήτησης Όπ ς α παρατηρήσει η ανα νώστης, οι ασικές ειτουρ ίες μίας μη ανής αναζήτησης πα κόσμιου ιστού δεν έ ουν με ά ες διαφορές σε σ έση με τις ειτουρ ίες ενός ΣΑΠ. Βασικός στό ος της μη ανής αναζήτησης παραμένει η ανάκτηση ιστοσε ίδ ν με περιε όμενο που σ ετίζεται άμεσα με τις π ηροφοριακές ανά κες τ ν ρηστών. Ωστόσο, στον πα κόσμιο ιστό αντιμετ πίζουμε πο ές δυσκο ίες στον προσδιορισμό της ποιότητας τ ν ιστοσε ίδ ν. Οι σύ ρονες μη ανές αναζήτησης ά αξαν δραστικά τις με όδους προσδιορισμού της ποιό-

9.3. Ο Αλγόριθμος HITS 209 τητας εξαιτίας της ύπαρξης τ ν κακό ου ν ρηστών, όπ ς έ ουμε δει στην προη ούμενη ενότητα. Την πρ τοπορεία στο ώρο έφερε η μη ανή αναζήτησης της Google, η οποία ρησιμοποιεί τους συνδέσμους μεταξύ τ ν ιστοσε ίδ ν ια τον προσδιορισμό της ποιότητας αυτών. Ο πιο απ ός τρόπος να ίνει αυτό είναι απ ά να πούμε ότι ιστοσε ίδες που έ ουν με ά ο αρι μό εισερ όμεν ν συνδέσμ ν είναι και οι πιο ποιοτικές. Ωστόσο, αυτός ο τρόπος δε ειτουρ εί στην πράξη διότι είναι πο ύ εύκο ο ια έναν κακό ου ο ρήστη να κατασκευάσει πο ές ιστοσε ίδες που να έ ουν εξερ όμενους συνδέσμους προς τη σε ίδα της οποίας έ ουμε να αυξη εί ο α μός της ποιότητας. Στην επόμενη ενότητα α με ετήσουμε πιο αποτε εσματικές τε νικές ια τον προσδιορισμό του α μού ποιότητας που δε αμ άνει υπόψη μόνο το π ή ος τ ν εισερ όμεν ν σε ίδ ν. Στη συνέ εια α με ετήσουμε δύο από τις ασικότερες τε νικές προσδιορισμού του α μού ποιότητας μίας ιστοσε ίδας. Συ κεκριμένα, α εξετάσουμε τον τρόπο ειτουρ ίας του α ορί μου HITS (hyperlink-induced topic search) που έ ει ρησιμοποιη εί στη μη ανή αναζήτησης Ask (http://www.ask.com) και του α ορί μου PageRank στον οποίο ασίστηκε η μη ανή της Google (http://www.google.com). 9.3 Ο Α όρι μος HITS Το κεντρικό έμα στο οποίο στηρίζεται ο α όρι μος HITS είναι η διύ ιση ευρέ ν εμάτ ν αναζήτησης μέσ της εύρεσης τ ν αξιόπιστων πηγών πληροφορίας (authorities) ια αυτά τα έματα. Μία ιστοσε ίδα αρακτηρίζεται ς authority εάν έ ει πο ούς εισερ όμενους συνδέσμους από ά ες αξιόπιστες ιστοσε ίδες. Ο α όρι μος HITS εκτός από τις αξιόπιστες ιστοσε ίδες ρίσκει επίσης και ιστοσε ίδες που αρακτησίζονται ς κομβικές ιστοσελίδες (hubs). Συνοπτικά, ο α όρι μος HITS συσ ετίζει κά ε ιστοσε ίδα p με δύο τιμές as(p) και hs(p) που ποσοτικοποιούν την ποιότητα της ιστοσε ίδας p σ ετικά με το πόσο αξιόπιστη είναι (authority score) και πόσο κομ ική είναι (hab score). Το ασικό αρακτηριστικό του α ορί μου HITS είναι ότι οι α μοί as(p) και hs(p) που δίνει σε μία σε ίδα εξαρτώνται από το έμα ια το οποίο ενδιαφέρεται ο ρήστης. Είναι προφανές ότι μία ιστοσε ίδα που ε ρείται αξιόπιστη σ ετικά με το έμα "C++" μπορεί να μη ε ρείται αξιόπιστη ια το έμα "Java". Επομέν ς, ο α όρι μος αρακτηρίζεται ς ευαίσ ητος ς προς το έμα (topic sensitive) και α πρέπει να εκτε είται εξαρ ής εάν α άξει το έμα ια το οποίο ενδιαφέρεται ο ρήστης.

210 Κεφάλαιο 9. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό Έστ G(V, E) το ράφημα που αναπαριστά τον πα κόσμιο ιστό, όπου V είναι το σύνο ο τ ν κορυφών (ιστοσε ίδ ν) και E το σύνο ο τ ν ακμών (συνδέσμ ν). Η εκτέ εση του α ορί μου HITS αρ ίζει με τον προσδιορισμό ενός υποσυνό ου ιστοσε ίδ ν R V που ε ρούνται σ ετικές ς προς κάποιο συ- κεκριμένο έμα που περι ράφεται από τις π ηροφοριακές ανά κες του ρήστη (π.., "C++"). Το σύνο ο R αρακτηρίζεται και ς ασικό σύνο ο ιστοσε- ίδ ν. Το σύνο ο R επαυξάνεται ώστε να δημιουρ η εί το σύνο ο S V το οποίο περι αμ άνει ό ες τις ιστοσε ίδες που ανήκουν στο R (άρα R S) και επιπ έον περι αμ άνει ό ες τις ιστοσε ίδες που έ ουν εισερ όμενους συνδέσμους από ιστοσε ίδες του R και εξερ όμενους συνδέσμους προς ιστοσε ίδες του R. Η συσ έτιση μεταξύ τ ν συνό ν R και S απεικονίζεται στο Σ ήμα 9.3 στο οποίο οι σύνδεσμοι διαφορετικού τύπου απεικονίζονται με διαφορετικές μορφές (π.., τα διακεκομμένα έ η δη ώνουν συνδέσμους από ιστοσε ίδες εκτός του συνό ου R προς ιστοσε ίδες του συνό ου R). Σχήμα 9.3: Τα σύνολα R και S. Αξίζει να σημει εί ότι το ασικό σύνο ο ιστοσε ίδ ν R εξαρτάται από το έμα/ερώτημα Q του ρήστη. Επομέν ς, σε πρώτη φάση α πρέπει να υπάρ ει ένας εύ ρηστος τρόπος προσδιορισμού του R. Στην πράξη το σύνο ο R δημιουρ- είται ρησιμοποιώντας μία μη ανή αναζήτησης. Πιο συ κεκριμένα, η μη ανή αναζήτησης δέ εται ς είσοδο το ερώτημα Q και δίνει στην έξοδο ένα σύνο ο A από ιστοσε ίδες. Από το σύνο ο A επι έ ονται οι k ιστοσε ίδες (π.., k=200) που σύμφ να με τη μη ανή αναζήτησης είναι οι πιο σ ετικές με το ερώτημα. Με άση τον τρόπο κατασκευής τ ν συνό ν R και S, το σύνο ο S ικανοποιεί τις ακό ου ες απαιτήσεις: είναι σ ετικά μικρό σε σ έση με το σύνο ο τ ν ιστοσε ίδ ν του πα κόσμιου ιστού,

9.3. Ο Αλγόριθμος HITS 211 περιέ ει ιστοσε ίδες που είναι σ ετικές με το Q, και περιέ ει πο ές αξιόπιστες ιστοσε ίδες (authorities) ια το ερώτημα Q. Με την υπό εση ότι το σύνο ο S είναι δια έσιμο, ο α όρι μος HITS ειτουρ εί ς εξής. Αρ ικά, ια κά ε σε ίδα p αρ ικοποιεί τις τιμές as(p) (authority score) και hs(p) (hub score) στην μονάδα. Στη συνέ εια ακο ου εί κανονικοποίηση τ ν scores έτσι ώστε p S as(p)2 = 1 και p S hs(p)2 = 1. Ας υπο έσουμε ότι ο συμ ο ισμός p q δη ώνει ότι η ιστοσε ίδα p έ ει έναν σύνδεσμο προς την ιστοσε ίδα q. Στη συνέ εια, ο α όρι μος HITS εκτε εί μία σειρά από επανα ήψεις και σε κά ε επανά ηψη επαναπροσδιορίζονται οι τιμές as(p) και hs(p), p S. Ο επαναπροσδιορισμός αυτός πρα ματοποιείται σύμφ να με τους ακό ου ους τύπους: as(p) = h(q) και q:q p hs(p) = q:p q a(q) Η φυσική ερμηνεία τ ν παραπάν τύπ ν είναι ότι μία ιστοσε ίδα p αυξάνει την αξιοπιστία της όταν έ ει εισερ όμενους συνδέσμους από κομ ικές ιστοσε ίδες (hubs) που έ ουν υψη ό α μό κομ ικότητας. Ομοί ς, μία ιστοσε ίδα αυξάνει το α μό κομ ικότητας όταν έ ει εξερ όμενους συνδέσμους σε ιστοσε ίδες με υψη ό α μό αξιοπιστίας. Σχήμα 9.4: Ενημέρωση των βαθμών αξιοπιστίας και κομβικότητας. Στο Σ ήμα 9.4 δίνεται ένα παράδει μα επαναπροσδιορισμού τ ν α μών αξιοπιστίας και κομ ικότητας. Για τον επαναπροσδιορισμό του α μού αξιοπιστίας μίας ιστοσε ίδας u απαιτείται να ν ρίζουμε τους α μούς κομ ικότητας ια ό ες τις σε ίδες q : q u όπ ς παρουσιάζεται στο Σ ήμα 9.4(α). Στο παράδει μα του σ ήματος, η ιστοσε ίδα u έ ει εισερ όμενους συνδέσμους

212 Κεφάλαιο 9. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό Α όρι μος HITS (S) S: το σύνο ο τ ν ιστοσε ίδ ν 1. ια κά ε ιστοσε ίδα p S, έσε as(p) = 1, hs(p) = 1 2. ια i = 1 έ ς k 3. ια κά ε p S έσε as(p) = q:q p h(q) /* ενημέρ ση αξιοπιστίας */ 4. ια κά ε p S έσε hs(p) = q:p q a(q) /* ενημέρ ση κομ ικότητας */ 5. ια κά ε p S έσε as(p) = as(p)/c, όπου c = p S (as(p)/c)2 = 1 6. ια κά ε p S έσε hs(p) = hs(p)/c, όπου c = p S (hs(p)/c)2 = 1 7. επιστροφή τ ν as(p) και hs(p) ια κά ε p S Σχήμα 9.5: Τα βασικά βήματα του αλγορίθμου HITS. από τις ιστοσε ίδες x, y και z. Επομέν ς, ο α μός αξιοπιστίας της u α είναι: as(u) = hs(x) + hs(y) + hs(z). Αντίστοι α, στο Σ ήμα 9.4( ) δίνεται ο τρόπος υπο ο ισμού του τρέ οντος α μού κομ ικότητας της ιστοσε ίδας u: hs(u) = as(x) + as(y) + as(z). Στο Σ ήμα 9.5 δίνεται ο ψευδοκώδικας του α ορί μου HITS που συνοψίζει τη διαδικασία που περι ράφηκε προη ουμέν ς. Παρατηρήστε ότι α όρι μος είναι επανα ηπτικός και εκτε είται ια k επανα ήψεις. Σε κά ε επανά ηψη, ίνεται ένας ακρι έστερος προσδιορισμός τ ν αρών. Με άση αποτε έσματα από τη Γραμμική Ά ε ρα δεν είναι δύσκο ο να αποδει εί ότι μετά από έναν ικανοποιητικό αρι μό επανα ήψε ν το διάνυσμα που περιέ ει τους α μούς αξιοπιστίας συ κ ίνει στο σημαντικότερο ιδιοδιάνυσμα του πίνακα A T A ενώ το διάνυσμα που περιέ ει τους α μούς κομ ικότητας συ κ ίνει στο σημαντικότερο ιδιοδιάνυσμα του πίνακα AA T. Σημειώνεται ότι A είναι ο πίνακας ειτνίασης, ο οποίος έ ει διαστάσεις S S και αποτε είται από άσσους και μηδενικά. Αν το στοι είο που ρίσκεται στη ραμμή i και τη στή η j είναι 1, σημαίνει ότι υπάρ ει ένας σύνδεσμος από την i-οστή ιστοσε ίδα προς την j-οστή σε ίδα. Επίσης, A T είναι ο ανάστροφος πίνακας του A. Επομέν ς, οι α μοί αξιοπίστίας και κομ ικότητας α μπορούσαν να υπο ο ιστούν ρησιμοποιώντας αποτε έσματα της Γραμμικής Ά ε ρας (π.., ύνοντας συστήματα εξισώσε ν). Ωστόσο, στην πράξη προτιμάται ο επανα ηπτικός α όρι μος διότι τις περισσότερες φορές δεν απαιτείται π ήρης σύ κ ιση ώστε να προσδιοριστούν οι α μοί ακρι ώς. Επειδή μπορεί να υπάρ ει ανο ή σε μικρές διαφοροποιήσεις, συνή ς το π ή ος τ ν επανα ήψε ν που ρυ μίζεται από την παράμετρο k είναι σ ετικά μικρό (π.., στην πράξη 20-30 επανα ήψεις είναι αρκετές ια να έ ουμε μία πο ύ κα ή προσέ ιση).

9.4. Ο Αλγόριθμος PageRank 213 Το αποτέ εσμα του α ορί μου HITS είναι τα διανύσματα as και hs που περιέ ουν τους α μούς αξιοπιστίας και κομ ικότητας αντίστοι α. Στη συνέ- εια, α πρέπει να επι ε ούν οι ιστοσε ίδες που έ ουν το με α ύτερο α μό αξιοπιστίας ς απάντηση στο ερώτημα Q. Επομέν ς, από τις S ιστοσε ίδες, επι έ ονται οι πρώτες t ς προς το α μό αξιοπιστίας και επιστρέφονται στο ρήστη. 9.4 Ο Α όρι μος PageRank Το 1998 οι Brin και Page (ιδρυτές της Google) ρησιμοποίησαν μία διαφορετική τε νική ια τη α μο ο ία τ ν ιστοσε ίδ ν, η οποία είναι ν στή στη ι ιο ραφία ς PageRank. Σε αντί εση με τον α όρι μο HITS, ο α όρι μος PageRank δίνει σε κά ε ιστοσε ίδα p δίνεται έναν μόνο α μό rank(p) που ποσοτικοποιεί το α μό αξιοπιστίας της ιστοσε ίδας p. Επιπ έον, σε αντί εση με τον α όρι μο HITS, ο α όρι μος PageRank εφαρμόζεται στο σύνο ο του πα κόσμιου ιστού και ό ι μόνο σε ένα υποσύνο ο αυτού. Ωστόσο, ο α μός αξιοπιστίας μίας ιστοσε ίδας δεν εξαρτάται από κάποιο συ κεκριμένο ερώτημα κα ώς αμ άνονται υπόψη μόνο οι σύνδεσμοι μεταξύ τ ν ιστοσε ίδ ν. Σχήμα 9.6: Γράφημα με πιθανότητες μετάβασης. Ο α όρι μος PageRank αποτε εί προσομοί ση ενός τυχαίου περιπάτου (random walk) στο ράφημα που αναπαριστά τον πα κόσμιο ιστό. Στο Σ ήμα 9.6 παρουσιάζεται τμήμα του πα κόσμιου ιστού που αποτε είται από πέντε ιστοσε- ίδες. Η τιμή που υπάρ ει δίπ α σε κά ε σύνδεσμο αναπαριστά την πιθανότητα μετάβασης (transition probability). Έστ ότι ένας τυ αίος περιη ητής ρίσκεται στην ιστοσε ίδα Α. Η ιστοσε ίδα A έ ει τρεις εξερ όμενους συνδέσμους που οδη ούν στις σε ίδες B, D και E. Εφόσον ο περιη ητής ε ρείται τυ αίος, αυτό σημαίνει ότι δεν υπάρ ει κάποια ιδιαίτερη προτίμηση σ ετικά με την ιστοσε ίδα που α επισκεφ εί στη συνέ εια. Επομέν ς, η επι ο ή είναι εντε ώς τυ αία, και

214 Κεφάλαιο 9. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό η τυ αιότητα αυτή δη ώνεται με την πι ανότητα επίσκεψης της κά ε ιστοσε ίδας. Έτσι οιπόν, από την ιστοσε ίδα A ή ιστοσε ίδα B έ ει πι ανότητα επίσκεψης 1/3 και το ίδιο ισ ύει ια τις ιστοσε ίδες D και E. Έστ τώρα ότι ο περιοη ητής ρίσκεται στην ιστοσε ίδα C. Επειδή η C έ ει μόνο έναν εξερ όμενο σύνδεσμο προς την ιστοσε ίδα A, η πι ανότητα να επισκευ εί την A είναι 1, κα ώς δεν υπάρ ει ά η επι ο ή. Οι πι ανότητες μετά ασης μπορούν να αναπαραστα ούν ρησιμοποιώντας τον πίνακα μεταβάσεων (transition matrix). Για το ράφημα του Σ ήματος 9.6 ο πίνακας μετα άσε ν είναι ο ακό ου ος: 0 0 1 0 1/2 1/3 0 0 0 0 M = 0 1 0 1 0 1/3 0 0 0 1/2 1/3 0 0 0 0 Στον πίνακα αυτόν, η σειρά τ ν ιστοσε ίδ ν είναι A, B, C, D και E. Επομέν ς, η πρώτη στή η δεί νει ότι ένας περιη ητής που ρίσκεται στη ιστοσε ίδα A στο επόμενο ήμα α ρε εί σε μία από τις ιστοσε ίδες B, D ή E με την ίδια πι ανότητα 1/3. Η δεύτερη στή η δεί νει ότι ένας περιη ητής που ρίσκεται στην ιστοσε ίδα B μπορεί να μετα εί μόνο στην ιστοσε ίδα C με πι ανότητα 1. Η τρίτη στή η δεί νει ότι αν ο περιη ητής ρίσκεται στην ιστοσε ίδα C α ρε εί στη σε ίδα A με πι ανότητα 1. Η τέταρτη στή η αναφέρει ότι αν ο περιη- ητής ρίσκεται στην ιστοσε ίδα D α μετα εί είτε στη σε ίδα C πι ανότητα 1. Τέ ος, η πέμπτη στή η αναφέρει ότι αν ο περιη ητής ρίσκεται στην ιστοσε ίδα E τότε μπορεί να μετα εί είτε στην ιστοσε ίδα A ή D με την ίδια πι ανότητα 1/2. Παρατηρήστε ότι το ά ροισμα τ ν τιμών κά ε στή ης ισούται με 1. Η κατανομή της πι ανότητας ια τη ιστοσε ίδα όπου α ρε εί ένας τυ αίος περιη ητής περι ράφεται με ένα διάνυσμα-στή η, του οποίου το στοι είο στη έση j είναι η πι ανότητα ο περιη ητής να ρε εί στη j-οστή ιστοσε ίδα. Η πι ανότητα αυτή είναι η τιμή της συνάρτησης που υ οποιεί ο α όρι μος PageRank. Έστ ότι ο περιη ητής ξεκινά την περιή ηση από μία οποιαδήποτε από τις n ιστοσε ίδες με την ίδια πι ανότητα. Τότε, το αρ ικό διάνυσμα v 0 α έ ει την τιμή 1/n σε ό ες τις έσεις. Εάν M είναι ο πίνακας μετα άσε ν, τότε μετά από ένα ήμα η κατανομή της πι ανότητας ίνεται Mv 0, μετά από δύο ήματα η κατανομή α είναι M(Mv 0 ) = M 2 v 0 κ..π. Γενικά, πο απ ασιάζοντας το αρ ικό διάνυσμα v 0 με τον πίνακα M συνο ικά i φορές, παίρνουμε την κατανομή μετά από i ήματα. Ας δούμε στη συνέ εια ια ποιό ό ο πο απ ασιάζοντας το διάνυσμα v με τον πίνακα M παίρνουμε την κατανομή του επόμενου ήματος. Η πι ανότητα x i

9.4. Ο Αλγόριθμος PageRank 215 ένας περιη ητής να ρε εί στην ιστοσε ίδα i στο επόμενο ήμα είναι j m ijv j, όπου m ij είναι η πι ανότητα ο περιη ητής που ρίσκεται στην ιστοσε ίδα j να μετα εί στο επόμενο ήμα στην ιστοσε ίδα i και v j είναι η πι ανότητα ο περιη- ητής να ρίσκεται στην ιστοσε ίδα j στο προη ούμενο ήμα. Η συμπεριφορά αυτή αποτε εί ένα παράδει μα εφαρμο ής της ε ρίας τ ν διεργασιών Markov. Είναι ν στό ότι η κατανομή πι ανότητας ια έναν περιη ητής προσε ίζει την οριακή κατανομή v που ικανοποιεί τη σ έση v = Mv, με την προϋπό εση ότι ικανοποιούνται οι ακό ου ες απαιτήσεις: ο ράφος είναι ισχυρά συνεκτικός, που σημαίνει ότι ια κά ε ζεύ ος ιστοσε ίδ ν u, v μπορούμε να μετα ούμε από την u στην v. δεν υπάρ ουν ιστοσε ίδες ρίς εξερ όμενους συνδέσμους. Παρατηρήστε ότι το ράφημα του Σ ήματος 9.6 ικανοποιεί και τις δύο συν ήκες. Η οριακή κατάσταση επιτυ άνεται όταν δεν έ ουμε α α ή στην κατανομή μετά από πο απ ασιασμό με τον πίνακα M. Με ά α ό ια, το διάνυσμα v που περι ράφει την κατανομή στην οριακή κατάσταση είναι ένα ιδιοδιάνυσμα του πίνακα M (ένα ιδιοδιάνυσμα v του M ικανοποιεί τη σ έση v = λmv ια κάποια τιμή λ που ονομάζεται ιδιοτιμή). Επειδή ο πίνακας M είναι στοχαστικός, που σημαίνει ότι το ά ροισμα τ ν τιμών της κά ε στή ης είναι 1, το διάνυσμα v είναι το κύριο ιδιοδιάνυσμα (αντιστοι εί δη αδή στη με α ύτερη ιδιοτιμή του πίνακα). Επίσης, ό της στο αστικότητας του M, ν ρίζουμε ότι η ιδιοτιμή που αντιστοι εί στο κύριο ιδιοδιάνυσμα είναι 1. Το κύριο ιδιοδιάνυσμα του M κατα ράφει την πι ανότητα ο περιη ητής να ρε εί σε κά ε ιστοσε ίδα μετά από ένα αρκετά με ά ο ρονικό διάστημα. Σημειώνεται ότι διαίσ ηση πίσ από τη μέ οδο PageRank είναι ότι όσο πι ανότερο είναι ο περιη ητής να ρε εί σε μία ιστοσε ίδα, τόσο σημαντικότερη ε ρείται η ιστοσε ίδα αυτή. Ο υπο ο ισμός του κύριου ιδιοδιανύσματος μπορεί να ίνει με διαδο ικούς πο απ ασιασμούς του διανύσματος v 0 με τον πίνακα M. Η διαδικασία τερματίζεται όταν η διαφορά του επόμενου από το προη ούμενο διάνυσμα είναι πο ύ μικρή. Στην πράξη, ια την περίπτ ση του πα κόσμιου ιστού, 50-100 επανα ήψεις είναι αρκετές ια να συ κ ίνει ο α όρι μος. Θα εφαρμόσουμε την προη ούμενη διαδικασία ια το ράφημα του Σ ήματος 9.6. Το αρ ικό διάνυσμα α μών v 0 περιέ ει σε ό ες τις έσεις την τιμή 1/5. Το αποτέ εσμα τ ν διαδο ικών πο απ ασιασμών με τον πίνακα μετα άσε ν έ ει

216 Κεφάλαιο 9. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό ς εξής: 1/5 3/10 0.3333 0.2499 0.2201 0.2039 1/5 1/15 0.0999 0.1110 1/5 2/5 0.1999 0.1832 1/5 1/6 0.1332 0.1609... 0.0859 0.1609 0.1257... 0.0733 0.1687 0.1162... 1/5 1/15 0.0999 0.1110 0.0859 0.0733 Ο ανα νώστης μπορεί να παρατηρήσει τη μετα ο ή τ ν τιμών και την τάση ια σύ κ ιση. Φυσικά ο αρι μός τ ν επανα ήψε ν που απαιτούνται εξαρτάται άμεσα από την ακρί εια που ρησιμοποιούμε. Στην πράξη, η π ήρης σύ κ ιση επιτυ άνεται όταν δεν υπάρ ει μετα ο ή τ ν τιμών αμ άνοντας υπόψη την ακρί εια τ ν πρα ματικών αρι μών διπ ής ακρί ειας. Στο παράδει μα αυτό ρησιμοποιή ηκαν τέσσερα ψηφία μετά την υποδιαστο ή. 9.4.1 Αδιέξοδα και Πα ίδες Έσ ς τώρα έ ουμε υπο έσει ότι δεν υπάρ ουν ιστοσε ίδες ρίς εξερ όμενους συνδέσμους και επιπ έον, ια κά ε ζεύ ος ιστοσε ίδ ν u, v υπάρ ει του ά ιστον ένα μονοπάτι που να οδη εί από τη u στη v και από τη v στη u. Ωστόσο, στην πράξη οι συν ήκες αυτές μπορεί να μην ικανοποιούνται. Πρά ματι, η δομή του πα κόσμιου ιστού δεν ικανοποιεί τις συν ήκες αυτές. Δύο είναι τα ασικά προ ήματα που πρέπει να αποφευ ούν. Το πρώτο αφορά στην ύπαρξη τ ν αδιεξόδων, δη αδή τ ν ιστοσε ίδ ν που δεν έ ουν εξερ- όμενους συνδέσμους. Οι περιη ητές που επισκέπτονται μία τέτοια ιστοσε ίδα άνονται, και το αποτέ εσμα είναι ότι στο όριο, καμία σε ίδα που οδη εί σε αδιέξοδο δεν μπορεί να έ ει μη μηδενική τιμή PageRank. Το δεύτερο πρό ημα δημιουρ είται από ομάδες ιστοσε ίδ ν που ενώ έ ουν συνδέσμους προς ά ες ιστοσε ίδες, οι σύνδεσμοι οδη ούν σε ιστοσε ίδες εντός της ομάδας. Οι ομάδες αυτές κα ούνται παγίδες (spider traps). Τα δύο αυτά προ ήματα επι ύονται με τη μέ οδο της φορο ό ησης, σύμφ να με την οποία ένας τυ αίος περιη ητής έ ει μία πεπερασμένη πι ανότητα να ε κατα είψει την περιή ηση σε οποιοδήποτε ήμα, ενώ νέοι περιη ητές ξεκινούν την περιή ησή τους. Ο τρόπος εφαρμο ής της με όδου α εξεταστεί με επτομέρεια στη συνέ εια. Υπεν υμίζεται ότι μία ιστοσε ίδα που δε δια έτει εξερ όμενους συνδέσμους κα είται αδιέξοδο. Εάν υπάρ ουν αδιέξοδα στο ράφημα, τότε ο πίνακας μετα- άσε ν του πα κόσμιου ιστού δεν μπορεί να είναι στο αστικός, αφού κάποιες στή ες α έ ουν ά ροισμα 0 και ό ι 1. Ο πίνακας του οποίου οι στή ες έ ουν ά ροισμα το πο ύ 1 κα είται υποστοχαστικός. Εάν υπο ο ίσουμε την ποσότητα

9.4. Ο Αλγόριθμος PageRank 217 M i v α παρατηρήσουμε ότι μηδενίζονται κάποιες ή ό ες οι συνιστώσες του διανύσματος α μών. Αυτό έ ει ς αποτέ εσμα ο α μός αξιοπιστίας τ ν ιστοσε ίδ ν να μην είναι δια έσιμος. Η καταπο έμηση τ ν αδιεξόδ ν μπορεί να ίνει με δύο τρόπους: με δια ραφή τ ν ιστοσε ίδ ν που αποτε ούν αδιέξοδα, δια ράφοντας στη συνέ εια και τα νέα αδιέξοδα που μπορεί να παρα ούν, με μετα ο ή της διαδικασίας μοντε οποίησης της συμπεριφοράς τ ν τυ- αί ν περιη ητών στον πα κόσμιο ιστό, με την οποία μπορούμε να ύσουμε και το πρό ημα τ ν πα ίδ ν, όπ ς α δούμε στη συνέ εια. Ας δούμε τώρα π ς μπορούμε να ειριστούμε την υπαρξη πα ίδ ν. Μία πα- ίδα αποτε είται από ένα σύνο ο ιστοσε ίδ ν ρίς αδιέξοδα, α ά και ρίς εξερ όμενους συνδέσμους προς σε ίδες εκτός του συνό ου. Οι δομές αυτές μπορούν να εμφανίζονται από τύ η ή επίτηδες στον πα κόσμιο ιστό και προκα ούν διάφορα προ ήματα στον υπο ο ισμό της τιμής του PageRank. Στο Σ ήμα 9.7 παρουσιέζεται ένα παράδει μα αδιεξόδου και ένα παράδει μα πα ίδας. Στο Σ ήμα 9.7(α) η ιστοσε ίδα B αποτε εί αδιέξοδο, αφού δεν έ ει εξερ όμενους συνδέσμους. Αυτό έ ει ς αποτέ εσμα, ένας τυ αίος περιη ητής που α ρε εί στην ιστοσε ίδα B δε α μπορέσει να ξεφύ ει. Ομοί ς, στο Σ ήμα 9.7( ) οι ιστοσε ίδες B και C αποτε ούν πα ίδα. Αν ο τυ αίος περιη ητής ρε εί σε μία από τις δύο αυτές ιστοσε ίδες το μόνο που μπορεί να κάνει είναι να πη αίνει από τη B στη C και από τη C στη Β. Σχήμα 9.7: Αδιέξοδο και παγίδα. Για να αποφύ ουμε το πρό ημα τ ν αδιεξόδ ν και τ ν πα ίδ ν, τροποποιούμε τη μέ οδο υπο ο ισμού του α μού σημαντικότητας, επιτρέποντας σε κά ε τυ αίο περιη ητή να μετα εί σε κάποια τυ αία ιστοσε ίδα με μία μικρή πι ανότητα, αντί να ακο ου ήσει έναν εξερ όμενο σύνδεσμο από την τρέ ουσα ιστοσε ίδα. Ο υπο ο ισμός του νέου διανύσματος v με άση το τρέ ον διάνυσμα

218 Κεφάλαιο 9. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό v και τον πίνακα μετα άσε ν ίνεται ς εξής: v = αmv + (1 α)e/n (9.1) όπου β είναι μία στα ερά, συνή ς μεταξύ τ ν τιμών 0,8 και 0,9, e είναι ένα διάνυσμα που έ ει άσσους σε ό ες τις έσεις, και n είναι το π ή ος τ ν ιστοσε- ίδ ν. Ο όρος αmv αναπαριστά την περίπτ ση, όπου με πι ανότητα α ο τυ αίος περιη ητής αποφασίζει να ακο ου ήσει έναν εξερ όμενο σύνδεσμο από την ιστοσε ίδα όπου ρίσκεται. Ο όρος (1 α)e/n είναι ένα διάνυσμα με συνιστώσες (1 α)/n και αναπαριστά την εμφάνιση ενός νέου περιη ητή με πι ανότητα 1 α σε μία τυ αία ιστοσε ίδα. Σημειώστε ότι αν στο ράφημα δεν υπάρ ουν αδιέξοδα, τότε η πι ανότητα της εμφάνισης ενός νέου περιη ητή είναι ακρι ώς ίδια με την πι ανότητα ένας τυ αίος περιη ητής να αποφασίσει να μην ακο ου ήσει κάποιον εξερ όμενο σύνδεσμο από τη ιστοσε ίδα όπου ρίσκεται. Στην περίπτ ση αυτή, είναι ο ικό να υπο έσουμε ότι ο τυ αίος περιη ητής είτε α ακο ου ήσει κάποιον εξερ όμενο σύνδεσμο είτε α τη εμεταφερ εί σε μία τυ αία ιστοσε ίδα. Αν όμ ς υπάρ ουν αδιέξοδα, τότε υπάρ ει και τρίτη περίπτ ση κατά την οποία ο τυ αίος περιη ητής δεν μπορεί να μετα εί που ενά. Εφόσον ο όρος (1 α)e/n δεν εξαρτάται από το ά ροισμα τ ν συνιστ σών του διανύσματος v, πάντα α υπάρ ουν κάποιοι τυ αίοι περιη ητές στον πα κόσμιο ιστό. Με ά α ό ια, το ά ροισμα τ ν συνιστ σών του v μπορεί να είναι μικρότερο της μονάδας α ά ποτέ δεν α είναι μηδέν. Ας δούμε π ς μπορούμε να υπο ο ίσουμε τους α μούς PageRank ια το ράφημα του Σ ήματος 9.7( ). Για το παράδει μα έτουμε β=0,8. Άρα, η εξίσ ση που προκύπτει είναι: 0 2/5 0 0 1/20 4/15 0 0 2/5 1/20 v = 4/15 0 4/5 2/5 4/15 2/5 0 0 v + 1/20 1/20 Παρατηρήστε ότι έ ουμε ρησιμοποιήσει τον παρά οντα α πο απ ασιάζοντας κά ε στοι είο του πίνακα M με 4/5. Οι συνιστώσες του διανύσματος (1 α)e/n είναι 1/20, επειδή 1 α = 1/5 και n=5. Τα ασικά ήματα του α ορί μου PageRank παρουσιάζονται στο Σ ήμα 9.8. Σημειώνεται ότι G(V, E) είναι το ράφημα που αναπαριστά τον πα κόσμιο ιστό, όπου V είναι το σύνο ο τ ν ιστοσε ίδ ν και E το σύνο ο τ ν συνδέσμ ν. Επίσης, n = V και n q (p) είναι το π ή ος τ ν ιστοσε ίδ ν με εξερ όμενους συνδέσμους προς την ιστοσε ίδα p. Έ οντας με ετήσει τον τρόπο υπο ο ισμού του διανύσματος με τις τιμές PageRank ια το τμήμα του πα κόσμιου ιστού που έ ει δια ασ εί από το μη ανισμό σάρ σης, εξη ούμε στη συνέ εια π ς η π ηροφορία αυτή ρησιμοποιείται

9.5. Σύνοψη και Περαιτέρω Μελέτη 219 Α όρι μος PageRank (G(V, E)) G(V, E): το ράφημα του πα κόσμιου ιστού 1. ια κά ε ιστοσε ίδα p V, έσε rank(p) = 1/ V 2. ια i = 1 έ ς k 3. ια κά ε p V έσε rank(p) = α q:q p rank(q)/n q(p) + (1 α) 1/n 4. έσε c = 1/ p V rank(p) 5. ια κά ε p V έσε rank(p) = c rank(p) /* κανονικοποίηση */ 6. επιστροφή τ ν τιμών rank(p) ια κά ε p V Σχήμα 9.8: Τα βασικά βήματα του αλγορίθμου PageRank. στην πράξη. Η κά ε μη ανή αναζήτησης δια έτει ένα μυστικό μη ανισμό άσει του οποίου ίνεται η τε ική επι ο ή ια τη σειρά εμφάνισης τ ν αποτε εσμάτ ν ς αντίδραση σε κάποιο ερώτημα με έναν ή περισσότερους όρους ( έξεις). Εικάζεται, ότι η Google ρησιμοποιεί περί τις 250 διαφορετικές ιδιότητες τ ν σε ίδ ν από όπου προκύπτει μία διάταξη τ ν σε ίδ ν. Αρ ικά, α πρέπει η σε ίδα να περιέ ει του ά ιστον έναν από τους όρους του ερ τήματος ια να εισα εί στη διαδικασία της α μο ό ησης. Συνή ς, αν η σε ίδα δεν περιέ ει ό ους τους όρους του ερ τήματος έ ει ί ες πι ανότητες να είναι στις πρώτες έσεις τ ν αποτε εσμάτ ν. Για ό ες τις υποψήφιες σε ίδες υπο ο ίζεται ένας α μός, και ένα σημαντικό μέρος του α μού είναι και η τιμή PageRank της σε ίδας. Ά α αρακτηριστικά που αμ άνονται υπόψη είναι η παρουσία ή απουσία όρ ν σε σημαντικά τμήματα, όπ ς επικεφα ίδες ή σύνδεσμοι προς την ίδια σε ίδα. 9.5 Σύνοψη και Περαιτέρ Με έτη Στο κεφά αιο αυτό με ετήσαμε έματα που αφορούν στην αναζήτηση π ηροφορίας στον πα κόσμιο ιστό. Συ κεκριμένα, εξετάσαμε τις προκ ήσεις που επιφέρει ο πα κόσμιος ιστός στην Ανάκτηση Π ηροφορίας και με ετήσαμε ανα- υτικά τους α ορί μους προσδιορισμού του α μού αξιοπιστίας τ ν ιστοσε ίδ ν HITS και PageRank. Ο ενδιαφερόμενος ανα νώστης μπορεί να με ετήσει την ερ ασία του Kleinberg στην οποία με ετή ηκε ια πρώτη φορά ο α όρι μος HITS [4].Επίσης, αξίζει να με ετη ούν και οι ερ ασίες [1] και [5] όπου ανα ύεται ο α όρι μος PageRank και τα ασικά τμήματα της μη ανής αναζήτησης της Google. Επίσης, τα ι ία [2, 3] αποτε ούν πο ύ σημαντικά οη ήματα ια την

220 Κεφάλαιο 9. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό Ανάκτηση Π ηροφορίας στον πα κόσμιο ιστό και τις μη ανές αναζήτησης. 9.6 Ασκήσεις 9.1 Ποιές είναι οι ασικές προκ ήσεις που επιφέρει ο πα κόσμιος ιστός στη ειτουρ ία τ ν μη ανών αναζήτησης; 9.2 Ποιά είναι τα ασικά τμήματα από τα οποία αποτε είται μία μη ανή αναζήτησης; 9.3 Να εξη ήσετε τους ό ους ια τους οποίους οι πρώιμες μη ανές αναζήτησης δεν επαρκούσαν ια τις π ηροφοριακές ανά κες τ ν ρηστών. 9.4 Π ς ειτουρ εί ο α όρι μος HITS και ποιά η ρησιμότητά του; 9.6 Π ς ειτουρ ει ο α όρι μος PageRank; 9.7 Ποιές οι ασικές διαφορές τ ν α ορί μ ν HITS και PageRank; 9.8 Να κατασκευάσετε ένα ράφημα με τέσσερις κορυφές και με ένα αδιέξοδο και να υπο ο ίσετε το διάνυσμα τ ν α μών σύμφ να με τον α όρι μο PageRank. Ποιές είναι οι παρατηρήσεις σας; 9.9 Να υ οποιήσετε τον α όρι μο PageRank σε μία ώσσα προ ραμματισμού και να τον δοκιμάσετε ια διαφορετικές τιμές της παραμέτρου α σε ραφήματα που α ρείτε στον ιστότοπο http://snap.stanford.edu. 9.10 Να σ εδιάσετε μία μέ οδο η οποία α μπορεί να "ξε ε άσει" τον α όρι μο PageRank και α δίνει με τε νητό τρόπο με α ύτερο α μό σε συ κεκριμένες ιστοσε ίδες.

Βι ιο ραφία [1] Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual web search engine. In Proceedings of the Seventh International Conference on World Wide Web, pages 107--117. Elsevier Science Publishers B. V., 1998. [2] Stefan Büttcher, Charles Clarke, and Gordon V. Cormack. Information Retrieval: Implementing and Evaluating Search Engines. The MIT Press, 2010. [3] S. Ceri, A. Bozzon, M. Brambilla, E. Della Valle, P. Fraternali, and S. Quarteroni. Web Information Retrieval. Springer, 2013. [4] Jon M. Kleinberg. Authoritative sources in a hyperlinked environment. J. ACM, 46(5):604--632, September 1999. [5] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. The pagerank citation ranking: Bringing order to the web. Technical Report 1999-66, Stanford InfoLab, 1999. 221