Πώς «βρίσκουν» οι Μηχανές Αναζήτησης ;

Το πρόβλημα Δεδομένα: WEB και η πληροφορία που περιέχεται σε αυτό Ερώτηση για αναζήτηση συγκεκριμένης πληροφορίας στο WEB Ζητούμενο: Γρήγορη επιστροφή λίστας με απαντήσεις ταξινομημένες ως προς το πόσο σχετικές είναι με την ερώτηση 2

Μηχανές αναζήτησης Οι μηχανές αναζήτησης (search engines) έχουν μεγάλη επίδραση στην καθημερινή μας ζωή και δραστηριότητα Ο τεράστιος όγκος διαθέσιμης πληροφορίας και η εξαιρετική ταχύτητα και ποιότητα των αποτελεσμάτων της αναζήτησης δε μάς κάνει πλέον εντύπωση (πολλές φορές είναι «εκνευριστική» ακόμα και η ελάχιστη καθυστέρηση ) Αλλά ξεχνάμε ότι οι πληροφορίες που ζητάμε βρίσκονται τελικά σαν ψύλλοι σε έναν τεράστιο αχυρώνα: τον Παγκόσμιο Ιστό (World Wide Web) Υπάρχει τεράστιος όγκος πληροφορίας αποθηκευμένος σε ισχυρότατα μηχανήματα (υπολογιστές) παγκοσμίως που όμως δεν θα είχε πρακτικά καμία χρησιμότητα αν δεν υπήρχαν έξυπνοι αλγόριθμοι που οργανώνουν και βρίσκουν το ζητούμενο κάθε φορά 3

Μηχανές αναζήτησης Οι μηχανές αναζήτησης κάνουν 2 βασικές δουλειές: ταίριασμα/εντοπισμό (matching) και κατάταξη (ranking) Σκεφτείτε ότι δίνουμε στο google την εξής ερώτηση: «Δρομολόγια ΚΤΕΛ Αιτωλοακαρνανίας» Κατά τη φάση ταιριάσματος (matching) εντοπίζονται όλες οι σελίδες που αναφέρουν τη ζητούμενη φράση (που ανάλογα με την ερώτηση μπορεί να είναι χιλιάδες ) Συνήθως προτιμάμε να ασχολούμαστε με τις πρώτες 5-10 απαντήσεις Οπότε η μηχανή αναζήτησης θα πρέπει να μπορεί να επιλέξει λίγες και μάλιστα τις καλύτερες απαντήσεις από ένα μεγάλος πλήθος απαντήσεων Μια καλή μηχανή αναζήτησης, δεν θα επιλέξει μόνο τις καλύτερες απαντήσεις αλλά επιπλέον θα τις εμφανίσει και με την πιο κατάλληλη σειρά Η εργασία της επιλογής των καλύτερων απαντήσεων και της εμφάνισής τους με τη «σωστή» σειρά αποτελεί τη φάση της κατάταξης (ranking) 4

σελίδες που ταιριάζουν σελίδες σε κατάταξη 1 ερώτηση 2 Δρομολόγια ΚΤΕΛ Αιτωλοακαρνανίας ταίριασμα κατάταξη 3 4...... 5

Στην παγκόσμια βιομηχανία, οι μηχανές αναζήτησης ζουν ή πεθαίνουν ανάλογα με την ποιότητα των συστημάτων κατάταξης που χρησιμοποιούν 2002: στις ΗΠΑ, η αγορά είναι εξίσου μοιρασμένη σε Google, Yahoo και MSN (MSN μετονομάστηκε σε Live Search και μετά σε Bing) κάθε μία είχε περίπου το 30% των αναζητήσεων που γίνονταν στις ΗΠΑ Στα επόμενα χρόνια, η Google συνέτριψε τις δύο άλλες εταιρείες (σε ποσοστά κάτω από 20%) Αυτό συνέβη λόγω των αλγορίθμων κατάταξης της Google 7

Στην παγκόσμια βιομηχανία, οι μηχανές αναζήτησης ζουν ή πεθαίνουν ανάλογα με την ποιότητα των συστημάτων κατάταξης που χρησιμοποιούν 2002: στις ΗΠΑ, η αγορά είναι εξίσου μοιρασμένη σε Google, Yahoo και MSN (MSN μετονομάστηκε σε Live Search και μετά σε Bing) κάθε μία είχε περίπου το 30% των αναζητήσεων που γίνονταν στις ΗΠΑ Στα επόμενα χρόνια, η Google συνέτριψε τις δύο άλλες εταιρείες (σε ποσοστά κάτω από 20%) Αυτό συνέβη λόγω των αλγορίθμων κατάταξης της Google H Google (ένας από τους κολοσσούς του 21ου αιώνα) ξεκίνησε σαν εργασία που εκπόνησαν δύο μεταπτυχιακοί φοιτητές οι Larry Page και Sergey Brin 8 στο Πανεπιστήμιο Stanford (ΗΠΑ) το 1998

Σύνοψη Δημιουργία ευρετηρίου (AltaVista, 1995) Θέση της λέξης Λέξεις πληροφορίας Αλγόριθμος PageRank (Google, 1998): Υπερσύνδεσμοι Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα Τυχαίος περιηγητής (surfer) 10

ALTAVISTA: Ο πρώτος αλγόριθμος ταιριάσματος στο WEB Οι Infoseek και Lycos (καιοιδύοεμφανίστηκαν το 1994) είναι οι παλαιότερες μηχανές αναζήτησης μαζί με την AltaVista (που εμφανίστηκε το 1995) Στα μέσα της δεκαετίας του 1990, για κάποια χρόνια, η AltaVista κυριαρχούσε στις μηχανές αναζήτησης αφού είχε φτιάξει ευρετήριο (index) για κάθε κείμενο στο WEB και επέστρεφε αποτελέσματα σε κλάσματα δευτερολέπτου 12

Δημιουργία ευρετηρίου (INDEXING) Η δημιουργία ευρετηρίου αποτελεί την πιο θεμελιώδη έννοια πίσω από τις μηχανές αναζήτησης Η ιδέα είναι πολύ παλιά: αρχαιολόγοι ανακάλυψαν βιβλιοθήκη 5000 ετών σε Βαβυλώνιο ναό στην οποία υπήρχε ευρετήριο των περιεχομένων της με βάση το θέμα Η λέξη ευρετήριο συνήθως μας παραπέμπει στις τελευταίες σελίδες βιβλίων όπου όλοι οι όροι αναφέρονται σε λίστα πλήρως ταξινομημένοι (συνήθως αλφαβητικά) και κάτω από κάθε όρο υπάρχει μία λίστα από περιοχές (συνήθως αριθμοί σελίδων) στις οποίες αναφέρεται ο όρος Το ευρετήριο των μηχανών αναζήτησης λειτουργεί όπως αυτό των βιβλίων Σελίδες βιβλίου: Ιστοσελίδες/Web σελίδες σε κάθε μία από τις οποίες οι μηχανές αναζήτησης αναθέτουν ένα διαφορετικό αριθμό 13

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής; Γάτα Είναι Έκατσε Ένας Έφυγε Η Μια ο Όταν Πάνω Πεζούλι Σκύλος Στο 1,3 2 1,3 2 3 3 1 3 3 2 1,2 2,3 1,2 16

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής; Πώς το χρησιμοποιεί μια μηχανή αναζήτησης για να απαντήσει στην ερώτηση Γάτα; Γάτα Είναι Έκατσε Ένας Έφυγε Η Μια ο Όταν Πάνω Πεζούλι Σκύλος Στο 1,3 2 1,3 2 3 3 1 3 3 2 1,2 2,3 1,2 17

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος Γάτα 1,3 Είναι 2 Έκατσε 1,3 Ένας 2 Έφυγε 3 Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής; Πώς το χρησιμοποιεί μια μηχανή αναζήτησης για να απαντήσει στην ερώτηση Σκύλος; Η Μια ο Όταν 3 1 3 3 1. Γρήγορη αναζήτηση στην ταξινομημένη λίστα Πάνω Πεζούλι 2 1,2 2. Επιστροφή των σελίδων 2 και 3 που περιέχουν τη ζητούμενη λέξη Σκύλος Στο 2,3 1,2 18

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος Νέα ερώτηση με πολλές λέξεις: Γάτα Σκύλος Η μηχανή αναζήτησης: 1. Ψάχνει κάθε λέξη ανεξάρτητα 1. Γάτα: 1,3 2. Σκύλος: 2,3 2. Ελέγχει ποιοι αριθμοί υπάρχουν και στις 2 λίστες καιτουςεπιστρέφεισαναπάντηση(εδώ: 3) Γάτα Είναι Έκατσε Ένας Έφυγε Η Μια ο Όταν Πάνω Πεζούλι Σκύλος Στο 1,3 2 1,3 2 3 3 1 3 3 2 1,2 2,3 1,2 19

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος Νέα ερώτηση με πολλές λέξεις: Γάτα Σκύλος Έκατσε Η μηχανή αναζήτησης: 1. Ψάχνει κάθε λέξη ανεξάρτητα 1. Γάτα: 1,3 2. Σκύλος: 2,3 3. Έκατσε: 1,3 2. Ελέγχει ποιοι αριθμοί υπάρχουν και στις 3 λίστες καιτουςεπιστρέφεισαναπάντηση(εδώ: 3) Γάτα Είναι Έκατσε Ένας Έφυγε Η Μια ο Όταν Πάνω Πεζούλι Σκύλος Στο 1,3 2 1,3 2 3 3 1 3 3 2 1,2 2,3 1,2 20

Πρόβλημα Τι γίνεται όταν η ερώτηση είναι «φράση» κι επομένως έχει σημασία η σειρά με την οποία εμφανίζονται οι λέξεις (δεν αρκεί απλά να βρεθούν σκόρπιες οι λέξεις της ζητούμενης φράσης) Ηφράση«έφυγε όταν» έχει διαφορετικό νόημα από τη φράση «όταν έφυγε» Ηερώτησηέφυγε όταν ψάχνει σελίδες που περιέχουν και τις 2 λέξεις με οποιαδήποτε σειρά Ηερώτηση«έφυγε όταν» ψάχνει σελίδες που περιέχουν και τις 2 λέξεις με τη συγκεκριμένη σειρά (δηλ., ψάχνουν για σελίδες που περιέχουν τη λέξη έφυγε ακολουθούμενη από τη λέξη όταν) 21

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος Ερώτηση: «έφυγε όταν» Η μηχανή αναζήτησης πρέπει να απαντήσει: σελίδα 3 ΑΛΛΑΠΩΣθατοπετύχειαυτό; Γάτα Είναι Έκατσε Ένας 1,3 2 1,3 2 Αν ψάξει τις λέξεις της φράσης ανεξάρτητα θα βρει ότι η σελίδα 3 περιέχει και τις δύο λέξεις αλλά θα κολλήσει αφού δε θα μπορεί να αποφασίσει για τη σειρά εμφάνισης των λέξεων Έφυγε Η Μια ο Όταν 3 3 1 3 3??? Η λεπτομερής «ανάγνωση» της σελίδας 3 είναι αναποδοτική λύση Πάνω Πεζούλι Σκύλος 2 1,2 2,3??? Στο 1,2 22

Ιδέα: «θέση της λέξης» (word-location trick) Το ευρετήριο δεν πρέπει να περιέχει μόνο αριθμούς σελίδων αλλά και θέσεις μέσα στις σελίδες που να υποδεικνύουν τη σειρά των λέξεων στις σελίδες 24

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος Το Ευρετήριο με την ιδέα «θέση της λέξης» Γάτα Είναι Έκατσε Ένας Έφυγε Η Μια ο Όταν Πάνω Πεζούλι Σκύλος Στο 1-2,3-2 2-3 1-3,3-5 2-1 3-3 3-1 1-1 3-6 3-4 2-4 1-5,2-6 2-2,3-7 1-4,2-5 25

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος Το Ευρετήριο με την ιδέα «θέση της λέξης» Ερώτηση: «έφυγε όταν» Η μηχανή αναζήτησης: 1. Ψάχνει κάθε λέξη ανεξάρτητα 1. Έφυγε: 3-3 2. Όταν: 3-4 2. Για τις κοινές σελίδες στην παραπάνω λίστα, ελέγχει τις θέσεις των λέξεων Γάτα Είναι Έκατσε Ένας Έφυγε Η Μια ο Όταν Πάνω Πεζούλι Σκύλος Στο 1-2,3-2 2-3 1-3,3-5 2-1 3-3 3-1 1-1 3-6 3-4 2-4 1-5,2-6 2-2,3-7 1-4,2-5 26

Ιδέα: «θέση της λέξης» (word-location trick) Δεν είναι χρήσιμη μόνο για ερωτήσεις με τη μορφή φράσης αλλά και για την εύρεση «κοντινών» λέξεων Τη δυνατότητα αυτή την πρόσφερε η μηχανή αναζήτησης AltaVista ΠΩΣ; Από το Ευρετήριο υπολογίζουμε την απόσταση λέξεων στην ίδια σελίδα 27

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος Το Ευρετήριο με την ιδέα «θέση της λέξης» Ερώτηση: γάτα ΚΟΝΤΑ σκύλος Η μηχανή αναζήτησης: 1. Ψάχνει κάθε λέξη ανεξάρτητα 1. Γάτα: 1-2,3-2 2. Σκύλος: 2-2,3-7 2. Για τις κοινές σελίδες στην παραπάνω λίστα (δηλ., τη σελίδα 3) ελέγχει την απόσταση των λέξεων που είναι 7-2=5 Γάτα Είναι Έκατσε Ένας Έφυγε Η Μια ο Όταν Πάνω Πεζούλι Σκύλος Στο 1-2,3-2 2-3 1-3,3-5 2-1 3-3 3-1 1-1 3-6 3-4 2-4 1-5,2-6 2-2,3-7 1-4,2-5 28

Ερωτήσεις εγγύτητας Φαίνεται ότι οι ερωτήσεις εγγύτητας λέξεων τελικά δεν είναι σημαντικές για τους χρήστες των μηχανών αναζήτησης ΑΛΛΑ ο τρόπος που τις χειρίζονται οι μηχανές αναζήτησης είναι εξαιρετικά κρίσιμος για την ύπαρξη τους ΑΦΟΥ οι μηχανές αναζήτησης χρησιμοποιούν οι ίδιες πολύ συχνά ερωτήσεις εγγύτητας χωρίς καν να το αντιλαμβάνεται ο χρήστης ΓΙΑΤΙ Θα απαντήσουμε αφού μελετήσουμε ένα άλλο σημαντικό πρόβλημα για τις μηχανές αναζήτησης: το πρόβλημα της κατάταξης (ranking) 29

Κατάταξη και Εγγύτητα Κατάταξη: η μηχανή αναζήτησης επιλέγει λίγες κορυφαίες απαντήσεις και τις εμφανίζει στο χρήστη Από τι εξαρτάται η κατάταξη μιας ιστοσελίδας; Όχι από το αν η ιστοσελίδα περιέχει τη ζητούμενη ερώτηση, ΑΛΛΑ Από το αν η ιστοσελίδα είναι ΣΧΕΤΙΚΗ με τη ζητούμενη ερώτηση Σενάριο: ενδιαφερόμαστε για το ποια αιτία προκαλεί ελονοσία οπότε γράφουμε την ερώτηση αιτία ελονοσία π.χ., στο google Υποθέτοντας ότι επιστρέφονται μόνο δύο ιστοσελίδες, σε έναν άνθρωπο είναι σαφές ότι η σελίδα 1 είναι πράγματι σχετική με την ερώτηση ενώ η σελίδα 2 αναφέρεται σε κάτι άσχετο με την ερώτηση και απλά περιέχει τις λέξεις αιτία και ελονοσία Αυτό το συμπέρασμα δεν είναι προφανές για έναν υπολογιστή 30

1 Η πιο συχνά εμφανιζόμενη αιτία που προκαλεί την ελονοσία είναι τσίμπημα από μολυσμένο κουνούπι, αλλά υπάρχουν και άλλες γενεσιουργές αιτίες. 2 Η αιτία που μας έφερε στο μέρος καθόλου δεν υποστηρίχθηκε λόγω της φυσικής αδυναμίας των στρατιωτών που έπασχαν από ελονοσία και άλλες τροπικές ασθένειες. Αιτία Ελονοσία 1-5, 2-2 1-9, 2-20 31

Κατάταξη και Εγγύτητα Ιστοσελίδες στις οποίες οι αναζητούμενες λέξεις μιας φράσης εμφανίζονται κοντά η μία στην άλλη είναι πιθανότερο να είναι πιο σχετικές με την ερώτηση από άλλες στις οποίες οι λέξεις της ζητούμενης φράσης έχουν μεγαλύτερη απόσταση μεταξύ τους 32

1 Η πιο συχνά εμφανιζόμενη αιτία που προκαλεί την ελονοσία είναι τσίμπημα από μολυσμένο κουνούπι, αλλά υπάρχουν και άλλες γενεσιουργές αιτίες. 2 Η αιτία που μας έφερε στο μέρος καθόλου δεν υποστηρίχθηκε λόγω της φυσικής αδυναμίας των στρατιωτών που έπασχαν από ελονοσία και άλλες τροπικές ασθένειες. Μηχανή αναζήτησης: Απόσταση λέξεων στη σελίδα 1: 4 Απόσταση λέξεων στη σελίδα 2: 18 Συμπέρασμα: η σελίδα1 είναι πιο σχετική με την ερώτηση Αιτία Ελονοσία 1-5, 2-2 1-9, 2-20 33

Ιδέα: «λέξεις πληροφορίας» (The metaword trick) τίτλος Γάτα Σκύλος Κατοικίδια 1 2 3 Μιαγάταέκατσε στο πεζούλι Ένας σκύλος είναι πάνω στο πεζούλι Η γάτα έφυγε όταν έκατσε ο σκύλος σώμα Μια έξυπνη τεχνική ταιριάσματος που απογείωσε την AltaVista στα τέλη της δεκαετίας του 90 35

Ιδέα: «λέξεις πληροφορίας» (The metaword trick) Οι ιστοσελίδες έχουν πολλά δομικά στοιχεία όπως τίτλους, επικεφαλίδες, συνδέσμους, εικόνες και μέχρι τώρα τις αντιμετωπίζαμε μόνο σαν ακολουθίες λέξεων Πώς οι μηχανές αναζήτησης εκμεταλλεύονται τη δομή των ιστοσελίδων; Υποθέτουμε ότι οι ιστοσελίδες έχουν μόνο έναν τίτλο που ακολουθείται από ένα σώμα 36

Ιδέα: «λέξεις πληροφορίας» (The metaword trick) Οι ιστοσελίδες έχουν πολλά δομικά στοιχεία όπως τίτλους, επικεφαλίδες, συνδέσμους, εικόνες και μέχρι τώρα τις αντιμετωπίζαμε μόνο σαν ακολουθίες λέξεων Πώς οι μηχανές αναζήτησης εκμεταλλεύονται τη δομή των ιστοσελίδων; Υποθέτουμε ότι οι ιστοσελίδες έχουν μόνο έναν τίτλο που ακολουθείται από ένα σώμα Οι ιστοσελίδες γράφονται σε ειδική γλώσσα (η πιοσυνήθης είναι η HTML) που επιτρέπει στους web browsers να τις εμφανίζουν όμορφα. Οι οδηγίες σχετικά με την εμφάνιση επικεφαλίδων, τίτλων, συνδέσμων, εικόνων, κτλ γράφονται με χρήση ειδικών λέξεων που καλούνται λέξεις πληροφορίας (metawords). Π.χ., η λέξη πληροφορίας που δηλώνει ότι ξεκινάει τίτλος μπορεί να είναι <τίτλοςέναρξη>, η λέξη πληροφορίας που δηλώνει ότι τελειώνει τίτλος μπορεί να είναι <τίτλοςλήξη>. Όμοια, το σώμα μιας ιστοσελίδας μπορεί να ξεκινάει με <σώμαέναρξη> και να τελειώνει με <σώμαλήξη>. Τα σύμβολα < και > χρησιμοποιούνται για να δηλώσουμε ότι κάποια λέξη είναι λέξη πληροφορίας και όχι κανονική 37 λέξη μέσα στο κείμενο μιας ιστοσελίδας.

1 <τίτλοςέναρξη>γάτα <τίτλοςλήξη><σώμαέναρξη> Μια γάτα έκατσε στο πεζούλι<σώμαλήξη> 2 <τίτλοςέναρξη>σκύλος <τίτλοςλήξη><σώμαέναρξη> Ένας σκύλος είναι πάνω στο πεζούλι <σώμαλήξη> 3 <τίτλοςέναρξη>κατοικίδια <τίτλοςλήξη><σώμαέναρξη> Η γάτα έφυγε όταν έκατσε ο σκύλος <σώμαλήξη> 40

Ιδέα: «λέξεις πληροφορίας» (The metaword trick) Στην προηγούμενη διαφάνεια φαίνεται πώς είναι γραμμένες οι ιστοσελίδες, όχι πώς θα εμφανίζονται σε έναν web browser Οι περισσότεροι browsers μας επιτρέπουν να δούμε πώς είναι γραμμένες οι ιστοσελίδες μέσω της επιλογής view source : οι λέξεις πληροφορίας (metawords) <τίτλοςέναρξη> και <τίτλοςλήξη> δεν είναι αυτές που χρησιμοποιούνται στην πράξη. Στην HTML, οι λέξεις πληροφορίας λέγονται ετικέτες (tags) και αυτές που χρησιμοποιούνται για έναρξη και λήξη τίτλων είναι οι <title> και </title> Μπορεί εύκολα να κατασκευαστεί ευρετήριο με όλες τις λέξεις πληροφορίας απλά αποθηκεύοντας τη θέση τους όπως γίνεται και για τις κανονικές λέξεις (δείτε σχήμα στην επόμενη διαφάνεια): αυτό είναι η ιδέα «λέξεις πληροφορίας» Μπορεί να φαίνεται εξαιρετικά απλό αλλά παίζει πολύ σημαντικό ρόλο για να μπορούν οι μηχανές αναζήτησης να πραγματοποιούν ακριβείς αναζητήσεις και κατατάξεις υψηλής ποιότητας 41

1 <τίτλοςέναρξη>γάτα <τίτλοςλήξη><σώμαέναρξη> Μια γάτα έκατσε στο πεζούλι<σώμαλήξη> γάτα είναι έκατσε 1-2 1-6 3-6 2-7 2-5 ένας 3-7 2 <τίτλοςέναρξη>σκύλος <τίτλοςλήξη><σώμαέναρξη> Ένας σκύλος είναι πάνω στο πεζούλι <σώμαλήξη> έφυγε η μία ο όταν 3-5 1-5 3-10 3-8 2-8 πάνω 1-9 2-10 3 <τίτλοςέναρξη>κατοικίδια <τίτλοςλήξη><σώμαέναρξη> Η γάτα έφυγε όταν έκατσε ο σκύλος <σώμαλήξη> πεζούλι στο <σώμαέναρξη> <σώμαλήξη> <τίτλοςέναρξη> 1-8 2-9 1-4 2-4 3-4 1-10 2-11 3-12 1-1 2-1 3-1 <τίτλοςλήξη> 1-3 2-3 3-3 Ευρετήριο που περιέχει και λέξεις πληροφορίας (metawords) 42

Ιδέα: «λέξεις πληροφορίας» (The metaword trick) Υποθέστε ότι μια μηχανή αναζήτησης υποστηρίζει μια ειδική μορφή ερώτησης (query) με χρήση της λέξης-κλειδιού ΕΝΤΟΣ Η ερώτηση: γάτα ΕΝΤΟΣ ΤΙΤΛΟΥ επιστρέφει μόνο ιστοσελίδες που περιέχουν τη λέξη «γάτα» στο τίτλο τους Η ερώτηση: γάτα ΕΝΤΟΣ ΣΩΜΑΤΟΣ επιστρέφει μόνο ιστοσελίδες που περιέχουν τη λέξη «γάτα» στο κυρίως κείμενό τους Πολλές μηχανές αναζήτησης (όχι ακριβώς με τον παραπάνω απλοϊκό τρόπο) επιτρέπουν τέτοιου είδους αναζητήσεις μέσω της λειτουργίας «προχωρημένη αναζήτηση» ( advanced search ) όπου μπορούμε να ορίσουμε ότι η αναζητούμενη λέξη είναι σε τίτλο ή σε άλλο τμήμα του κειμένου π.χ., η μηχανή αναζήτησης Google επιτρέπει αναζήτηση σε τίτλους μέσω της λέξης κλειδί intitle: Αναζητώντας στην Google το intitle:πλοίο προσδιορίζονται ιστοσελίδες με τη λέξη «πλοίο» στον τίτλο τους 43

1 <τίτλοςέναρξη>γάτα <τίτλοςλήξη><σώμαέναρξη> Μια γάτα έκατσε στο πεζούλι<σώμαλήξη> γάτα είναι έκατσε 1-2 1-6 3-6 2-7 2-5 ένας 3-7 2 <τίτλοςέναρξη>σκύλος <τίτλοςλήξη><σώμαέναρξη> Ένας σκύλος είναι πάνω στο πεζούλι <σώμαλήξη> έφυγε η μία ο όταν 3-5 1-5 3-10 3-8 2-8 πάνω 1-9 2-10 3 <τίτλοςέναρξη>κατοικίδια <τίτλοςλήξη><σώμαέναρξη> Η γάτα έφυγε όταν έκατσε ο σκύλος <σώμαλήξη> πεζούλι στο <σώμαέναρξη> <σώμαλήξη> <τίτλοςέναρξη> 1-8 2-9 1-4 2-4 3-4 1-10 2-11 3-12 1-1 2-1 3-1 <τίτλοςλήξη> 1-3 2-3 3-3 Πώς απαντάει η μηχανή αναζήτησης την ερώτηση γάτα ΕΝΤΟΣ ΤΙΤΛΟΥ 44

Ιδέα: «λέξεις πληροφορίας» (The metaword trick) επιτρέπει στις μηχανές αναζήτησης να απαντούν με εξαιρετικά αποδοτικό τρόπο ερωτήσεις σχετικές με τη δομή ενός κειμένου με παρόμοιο τρόπο με αυτό που ήδη περιγράψαμε, μπορεί να πραγματοποιηθεί πολύ αποδοτικά αναζήτηση σε υπερσυνδέσμους (hyperlinks), περιγραφές εικόνων καθώς και σε άλλα τμήματα ιστοσελίδων χωρίς να χρειαστεί να κάνει αναζήτηση στις αρχικές σελίδες κοιτώντας μόνο μια φορά ένα ευρετήριο με πολύ μικρό πλήθος περιεχομένων Αναζητήσεις σε τίτλους καθώς και άλλες δομικές αναζητήσεις που βασίζονται στη δομή των ιστοσελίδων μοιάζουν με τις ερωτήσεις εγγύτητας που συζητήσαμε ήδη με την έννοια ότι ένας άνθρωπος σπάνια πραγματοποιεί δομικές αναζητήσεις αλλά οι μηχανές αναζήτησης τις χρησιμοποιούν συνεχώς εσωτερικά για τον ίδιο λόγο όπως και πριν: η επιβίωση των μηχανών αναζήτησης εξαρτάται από τις κατατάξεις που πετυχαίνουν και οι κατατάξεις βελτιώνονται σημαντικά αν αξιοποιηθεί η δομή των ιστοσελίδων Π.χ., ιστοσελίδες με τη λέξη «γάτα» στον τίτλο τους είναι πολύ πιθανότερο να περιέχουν πληροφορίες για γάτες από ό,τι ιστοσελίδες που περιέχουν τη λέξη «γάτα» μόνο στο κυρίως μέρος τους: όταν ένας χρήστης θέτει την ερώτηση «γάτα», η μηχανήαναζήτησηςμπορεί εσωτερικά να αναζητήσει τη λέξη «γάτα» ΕΝΤΟΣ ΤΙΤΛΟΥ ακόμα κι αν ο χρήστης δεν έκανε αυτή ακριβώς την ερώτηση για να βρει ιστοσελίδες που είναι πιθανότερο να αναφέρονται σε γάτες από το απλά να περιέχουν κάπου στο κυρίως μέρος τους τη λέξη «γάτα» 45

Έξυπνες ιδέες για δημιουργία ευρετηρίων (indexing) και ταίριασμα (matching) δεν είναι από μόνεςτουςαρκετές Οι ιδέες «θέσεις λέξεων» και «λέξεων πληροφορίας» είναι σίγουρα ενδεικτικές για το πώς οι μηχανές αναζήτησης κατασκευάζουν και χρησιμοποιούν ευρετήρια, αλλά δεν είναι αρκετές από μόνες τους Οι «λέξεις πληροφορίας» πράγματι βοήθησαν την AltaVista να επιτύχει πραγματοποιώντας αποδοτικά ταιριάσματα στον Παγκόσμιο Ιστό αλλά η ιδέα δεν ήταν αρκετή για να την κρατήσει στην κορυφή η ιδέα με τις λέξεις πληροφορίας περιγράφθηκε το 1999 σε πατέντα της AltaVista με τίτλο Αναζήτηση με περιορισμούς σε Ευρετήριο ( Constrained Searching of an Index ) Είναι πλέον γνωστό ότι το αποδοτικό ταίριασμα βοηθάει μόνο κατά το ήμισυ στη δημιουργία μιας αποδοτικής μηχανής αναζήτησης: το άλλο μισό είναι η πρόκληση της κατάταξης των ιστοσελίδων που ταίριαξαν στην ερώτηση Η σύλληψη ενός νέου αλγορίθμου κατάταξης ήταν αυτή που έβγαλε απότοπροσκήνιοτηνaltavista και απογείωσε τη Google 46

επιστρέφουμε στη λειτουργία κατάταξης και παρουσιάζουμε το φημισμένο αλγόριθμο PageRank της Google

PageRank: Η τεχνολογία που εκτόξευσε τη Google Στη Silicon Valley, οι κλειστοί ιδιωτικοί χώροι στάθμευσης αυτοκινήτων (garages) έχουν αποτελέσει την αφετηρία για μεγάλες εταιρείες όπως: το 1939, η Hewlett-Packard ξεκίνησε στο garage του Dave Hewlett στο Palo Alto της California το 1976, οι Steve Jobs και Steve Wozniak ξεκίνησαν την εταιρεία Apple στο πάρκινγκ του Jobs στο Los Altos της California (είχαν στην πραγματικότητα ξεκινήσει από το υπνοδωμάτιο και λόγω έλλειψης χώρου μετέβησαν στο πάρκινγκ) Με παρόμοιο τρόπο ξεκίνησε μια μηχανή αναζήτησης - η πασίγνωστη πλέον Google σε ένα χώρο στάθμευσης στο Menlo Park της California Έγινε εταιρεία το Σεπτέμβριο του 1998, ενώ για έναν περίπου χρόνο λειτουργούσε μέσω των εξυπηρετητών του Πανεπιστημίου Stanford όπου οι δύο συνιδρυτές της ήταν υποψήφιοι Διδάκτορες Η μηχανή αναζήτησης γινόταν ολοένα και πιο δημοφιλής, το διαθέσιμο εύρος ζώνης του πανεπιστημίου δεν ήταν αρκετό και οι δύο μεταπτυχιακοί φοιτητές Larry Page και Sergey Brin μετέφεραν το σύστημά τους στο πλέον φημισμένο χώρο στάθμευσης στο Menlo Park Μόνο 3 μήνες από τη σύστασή της σαν εταιρεία, το περιοδικό PC Magazine ανέφερε τη Google σαν ένα από τα 100 δημοφιλέστερα websites του 1998... 49

PageRank: Η τεχνολογία που εκτόξευσε τη Google Σύμφωνα με το PC Magazine, η τρομερή επιτυχία της Google οφειλόταν στο ότι επέστρεφε αποτελέσματα εξαιρετικά σχετικά με την εκάστοτε ερώτηση Πώς ξεπέρασε η Google την αναποτελεσματικότητα 4 ολόκληρων ετών και εκτόπισε ήδη δημοφιλείς (ως προς την ποιότητα των αποτελεσμάτων) μηχανές αναζήτησης όπως οι Lycos και AltaVista;;; Αν και η απάντηση δεν είναι απλή, σίγουρα ένας καθοριστικός παράγοντας ήταν ένας νέος αλγόριθμος, ο PageRank, που χρησιμοποίησε η Google για κατάταξη των αποτελεσμάτων αναζήτησης Το όνομα PageRank είναι ένα λογοπαίγνιο: είναι ένας αλγόριθμος κατάταξης ιστοσελίδων αλλά και αλγόριθμος κατάταξης του Larry Page που τον εμπνεύστηκε Οι Page και Brin δημοσίευσαν τον αλγόριθμο το 1998 σε εργασία με τίτλο «Η ανατομία μιας μεγάλης κλίμακας μηχανής αναζήτησης υπερκειμένου στον παγκόσμιο ιστό» ( The Anatomy of a Large-scale Hypertextual Web Search Engine ) που περιέχει μια πλήρη περιγραφή του συστήματος Google στη μορφή που είχε το 1998 και του αλγορίθμου PageRank 50

Η ιδέα των υπερσυνδέσμων (The hyperlink trick) Τι είναι υπερσύνδεσμος (hyperlink): είναι φράση σε μια ιστοσελίδα που όταν πατήσουμε πάνω της μάς μεταφέρει σε μια άλλη ιστοσελίδα (οι περισσότεροι web browsers εμφανίζουν τους υπερσυνδέσμους με μπλε χρώμα για να ξεχωρίζουν εύκολα) Οι υπερσύνδεσμοι είναι εκπληκτικά παλιά ιδέα Το 1945 όταν άρχισαν να αναπτύσσονται και οι ίδιοι οι Η/Υ ο αμερικανός μηχανικός Vannevar Bush δημοσίευσε μια διορατική μελέτη με τίτλο As We May Think στην οποία περιέλαβε διάφορες νέες τεχνολογίες μεταξύ των οποίων και μια μηχανή που αποκάλεσε memex, η οποία θα αποθήκευε έγγραφα και αυτόματα θα δημιουργούσε σχετικό ευρετήριο (μεταξύ άλλων λειτουργιών) θα επέτρεπε τη «δημιουργία σχεσιακών ευρετηρίων όπου κάθε αντικείμενο θα μπορεί να χρησιμοποιηθεί για την άμεση και αυτόματη επιλογή ενός άλλου» περιέγραψε με άλλα λόγια μια στοιχειώδη μορφή υπερσυνδέσμου (hyperlink)! 52

Η ουσία της ιδέας των υπερσυνδέσμων. Φαίνονται 6 ιστοσελίδες, μία σε κάθε παραλληλόγραμμο. 2 από τις ιστοσελίδες είναι συνταγές για στραπατσάδα, ενώ οι 4 άλλες περιέχουν υπερσυνδέσμους σε αυτές τις συνταγές. Με βάση την ιδέα των υπερσυνδέσμων, ησελίδατουbert κατατάσσεται πάνω από αυτή του Ernie, γιατί53 η σελίδα του Bert έχει 3 εισερχόμενα βέλη ενώ του Ernie μόνο 1...

Η ιδέα των υπερσυνδέσμων (The hyperlink trick) Ενδιαφερόμαστε να βρούμε συνταγές για στραπατσάδα και πραγματοποιούμε μια αναζήτηση στο web Υποθέτουμε ότι η αναζήτηση επιστρέφει μόνο τις εξής 2 ιστοσελίδες (στην πραγματικότητα θα επέστρεφε εκατομμύρια αποτελέσματα): Ernie's scrambled egg recipe Bert's scrambled egg recipe Υποθέτουμε ότι υπάρχουν μόνο 4 άλλες ιστοσελίδες που παραπέμπουν μέσω υπερσυνδέσμων σε αυτές Ερώτηση: ποια από τις 2 ιστοσελίδες πρέπει να καταταχθεί πρώτη, του Bert ήτουernie; Ένας άνθρωπος θα διάβαζε τις σελίδες που αναφέρονται στις δύο συνταγές και θα αποφάσιζε ποια από τις 2 είναι η δημοφιλέστερη φαίνεται ότι και οι 2 συνταγές είναι λογικές αλλά ο κόσμος προτιμάει αυτή του Bert κι επομένως, ελλείψει άλλης πληροφορίας, θα έπρεπε η ιστοσελίδα του Bert να καταταχθεί παραπάνω από του Ernie 54

Η ιδέα των υπερσυνδέσμων (The hyperlink trick) Μια τέτοια είδους«κατανόηση» δεν είναι εφικτή για έναν υπολογιστή Όμως οι υπολογιστές είναι πολύ καλοί στο να μετράνε αντικείμενα Οπότε, μια καλή προσέγγιση θα ήταν να μετρήσει ο υπολογιστής των πλήθος των ιστοσελίδων (υπερσυνδέσμων) που δείχνουν σε κάθε μία από τις συνταγές που είναι 1 για τη συνταγή του Ernie και 3 για τη συνταγή του Bert και να κατατάξει τις συνταγές με βάση τους εισερχόμενους υπερυνδέσμους τους Αποδεικνύεται ότι, ελλείψει άλλης πληροφορίας, το πλήθος των εισερχόμενων υπερσυνδέσμων σε μια ιστοσελίδα είναι άκρως ενδεικτικό για το πόσο χρήσιμη ή «έγκυρη» μπορεί να είναι η ιστοσελίδα Μια πιθανή αδυναμία της προσέγγισης αυτής θα μπορούσε να είναι το ότι μερικές φορές χρησιμοποιούνται σύνδεσμοι για να υποδείξουν κακές σελίδες κι όχι καλές: π.χ., κάποια από τις ιστοσελίδες που δείχνει στη συνταγή του Ernie μπορεί να λέει: Δοκίμασα τη συνταγή και είναι απαίσια και αυτό μπορεί να είναι παραπλανητικό όταν η κατάταξη βασίζεται σε απλή καταμέτρηση Φαίνεται όμως ότι στην πράξη οι υπερσύνδεσμοι λειτουργούν περισσότερο σα συστάσεις παρά σαν κατακρίσεις 55

Η ιδέα της εγκυρότητας (The authority trick) Παρατήρηση: όλοι οι εισερχόμενοι υπερσύνδεσμοι ίσως να μην πρέπει να έχουν την ίδια βαρύτητα μιας και η σύσταση από έναν «ειδικό» μετράει σίγουρα περισσότερο από την αντίστοιχη από έναν αρχάριο Υποθέτουμε ότι οι συνταγές των Bert και Ernie έχουν τον ίδιο αριθμό εισερχόμενων υπερσυνδέσμων (1 η κάθε μία) αλλά, η παραπομπή στη συνταγή του Ernie είναι από την προσωπική ιστοσελίδα ενός χρήστη ενώ η παραπομπή στη συνταγή του Bert είναι από την ιστοσελίδα της φημισμένης chef Alice Waters Αν δεν είχαμε άλλη πληροφορία, ποια συνταγή θα επιλέγαμε; Προφανώς, αυτή που προτείνει μία φημισμένη chef κι όχι αυτή που προτείνει ένας τυχαίος (άσχετος ενδεχομένως) χρήστης Αυτό αποτελεί τη βασική αρχή της ιδέας της εγκυρότητας: 57

Η ιδέα της εγκυρότητας (The authority trick) Σύνδεσμοι από σελίδες με υψηλή εγκυρότητα θα πρέπει να οδηγούν σε υψηλότερη κατάταξη σε σύγκριση με συνδέσμους από σελίδες με χαμηλή εγκυρότητα Φυσικά, η αρχή, στην τρέχουσα μορφή της, είναι άχρηστη σε έναν υπολογιστή Πώς μπορεί ένας υπολογιστής αυτόματα να καθορίσει ότι π.χ., η Alice Waters έχει εγκυρότερη άποψη για μία συνταγή από κάποιον τυχαίο χρήστη; ΙΔΕΑ: να συνδυάσουμε την ιδέα των υπερσυνδέσμων με αυτήν της εγκυρότητας Σε όλες τις σελίδες ανατίθεται αρχικά τιμή εγκυρότητας 1 Αν κάποια σελίδα διαθέτει εισερχόμενους συνδέσμους, η τιμή εγκυρότητά της υπολογίζεται με άθροιση των τιμών εγκυρότητας όλων των σελίδων που δείχνουν σε αυτή Δηλ., αν οι σελίδες X και Y δείχνουν στη σελίδα Z, τότε η τιμή εγκυρότητας της σελίδας Z είναι το άθροισμα των τιμών εγκυρότητας των σελίδων X και Y 58

Απλός υπολογισμός των τιμών εγκυρότητας (που φαίνονται σε κύκλους) για τις δύο συνταγές 60

Πρόβλημα: δημιουργία κύκλων Στον τρόπο που περιγράψαμε για τον αυτόματο υπολογισμό των τιμών εγκυρότητας, υπάρχει η εξής εγγενής αδυναμία: είναι πιθανόν οι υπερσύνδεσμοι να δημιουργήσουν κύκλο Σχηματίζεται κύκλος αν μπορούμε να επιστρέψουμε στη σελίδα από την οποία ξεκινήσαμε χρησιμοποιώντας υπερσυνδέσμους (σχήμα στην επόμενη διαφάνεια) Στον τρέχοντα ορισμό της τιμής εγκυρότητας (με βάση συνδυασμό των τεχνασμάτων των υπερσυνδέσμων και της εγκυρότητας) υπάρχει πρόβλημα όποτε δημιουργείται κύκλος Π.χ., Οι σελίδες C και D δεν έχουν εισερχόμενες ακμές, κατά συνέπεια λαμβάνουν τιμή εγκυρότητας 1. Οι C και D δείχνουν και οι δύο στην A, οπότε η σελίδα A λαμβάνει τιμή εγκυρότητας ίση με το άθροισμα των τιμών του C και D, δηλ., 1 + 1 = 2. Τότε η σελίδα B λαμβάνει τιμή εγκυρότητας 2 από την A, και η E λαμβάνει τιμή 2 από την B. Όμως τώρα η A είναι μη ενημερωμένη: λαμβάνει τιμή 1 από C και D, κι επίσης 2 από E, οπότε συνολικά έχει τιμή εγκυρότητας 4. Αλλά τώρα και η B είναι μη ενημερωμένη: λαμβάνει τιμή 4 από την A. Αλλά τότε και η E χρειάζεται ενημέρωση, αφού λαμβάνει 4 μονάδες από τη B Κτλ, οπότε: οι τιμές εγκυρότητας είναι για την A 6, για τη B 6, για την E 6, οπότε για την A είναι 8,. Βλέπετε; Θα συνεχίζουμε ες αεί με τιμές εγκυρότητας που πάντα θα αυξάνονται καθώς διατρέχουμε τον κύκλο 61

Παράδειγμα στο οποίο οι σύνδεσμοι σχηματίζουν κύκλο. Οι σελίδες Α, Β και Ε δημιουργούν κύκλο αφού μπορούμε να ξεκινήσουμε στη σελίδα Α, να μεταβούμε στη Β, μετά στην Ε και μετά να επιστρέψουμε στην αφετηρία, δηλ., στη σελίδα Α 62

Παράδειγμα στο οποίο οι σύνδεσμοι σχηματίζουν κύκλο. Οι σελίδες Α, Β και Ε δημιουργούν κύκλο αφού μπορούμε να ξεκινήσουμε στη σελίδα Α, να μεταβούμε στη Β, μετά στην Ε και μετά να επιστρέψουμε στην αφετηρία, δηλ., στη σελίδα Α 63

Υπολογισμός τιμών εγκυρότητας: Το πρόβλημα που προκαλούν οι κύκλοι είναι ότιοισελίδεςa, B, και E είναι πάντα μη ενημερωμένες και τα αποτελέσματά τους αυξάνονται συνεχώς 64

Η ιδέα του τυχαίου περιηγητή (The random surfer trick) Αυτός ο υπολογισμός τιμών εγκυρότητας δημιουργεί πρόβλημα της μορφής «η κόταέκανετοαυγόήτοαυγότηνκότα;»: Αν γνωρίζαμε την αληθινή τιμή εγκυρότητας για τη σελίδα A, θα μπορούσαμε να υπολογίσουμε τις τιμές εγκυρότητας για τις σελίδες B και E Αν γνωρίζαμε τις αληθινές τιμές εγκυρότητας για τις σελίδες B και E, θα μπορούσαμε να υπολογίσουμε την τιμή εγκυρότητας για τη σελίδα A Αλλά επειδή ο κάθε υπολογισμός εξαρτάται από τον άλλον, φαίνεται να μην είναι δυνατός ο υπολογισμός των συγκεκριμένων τιμών Το πρόβλημα λύνεται με μία τεχνική που καλείται «ιδέα του τυχαίου περιηγητή (surfer)» Προσοχή: η αρχική περιγραφή της ιδέας του τυχαίου περιηγητή δεν μοιάζει καθόλου με τις ιδέες των υπερσυνδέσμων και της εγκυρότητας Αφού περιγράψαμε το βασικό μηχανισμό της ιδέας του τυχαίου περιηγητή, θα προχωρήσουμε σε ανάλυση που θα αποκαλύψει σημαντικές ιδιότητές της Συνδυάζει τα επιθυμητά χαρακτηριστικά των ιδεών των υπερσυνδέσμων και της εγκυρότητας και, επιπλέον, δουλεύει ακόμα και όταν σχηματίζονται κύκλοι στην επιλογή των υπερσυνδέσμων 66

Η ιδέα του τυχαίου περιηγητή (The random surfer trick) Φανταζόμαστε ένα άτομο που τυχαία περιηγείται στο internet, ξεκινώντας από κάποια ιστοσελίδα τυχαία επιλεγμένη από τον παγκόσμιο ιστό Ο περιηγητής εξετάζει όλους τους συνδέσμους της ιστοσελίδας, επιλέγει ένας από αυτούς τυχαία και τον ακολουθεί (πατάει click). Η νέα ιστοσελίδα εξετάζεται και ένας από τους συνδέσμους της επιλέγεται τυχαία Η διαδικασία αυτή συνεχίζεται, κάθε νέα ιστοσελίδα επιλέγεται τυχαία με επιλογή ενός συνδέσμου από την προηγούμενη σελίδα Οι ιστοσελίδες που έχει επισκεφτεί ο περιηγητής είναι οι σκούρες, οι σύνδεσμοι που ακολούθησε ο περιηγητής είναι μαύροι και τα διακεκομμένα βέλη δηλώνουν τυχαίες επανεκκινήσεις 67

Η ιδέα του τυχαίου περιηγητή (The random surfer trick) Περιπλοκή: κάθε φορά που μια σελίδα δέχεται επίσκεψη, υπάρχει προκαθορισμένη πιθανότητα επανεκκίνησης (έστω, 15%) με την οποία ο περιηγητής δεν επιλέγει κάποιο διαθέσιμο σύνδεσμο αλλά ξαναξεκινάει τη διαδικασία διαλέγοντας τυχαία μια άλλη σελίδα από το web Φανταστείτε ότι ο περιηγητής έχει πιθανότητα 15% να βαρεθεί σε κάποια σελίδα και να ακολουθήσει μια νέα ακολουθία συνδέσμων Σχήμα: Ο περιηγητής ξεκίνησε στη σελίδα A και ακολούθησε 3 τυχαίους συνδέσμους πριν βαρεθεί από τη σελίδα B και ξαναξεκινήσει στη σελίδα C. Ακολούθησε τότε 2 ακόμα τυχαίους συνδέσμους πριν ξαναξεκινήσει σε άλλη σελίδα Η πιθανότητα επανεκκίνησης 15% που χρησιμοποιούμε εδώ για παράδειγμα είναι ακριβώς αυτή που χρησιμοποίησαν οι συνιδρυτές της Google, Page και Brin, στην αρχική τους εργασία που περιέγραφαν τη μηχανή αναζήτησης που είχαν αναπτύξει 68

Φανταζόμαστε ότι ο παγκόσμιος ιστός αποτελείται από 16 ιστοσελίδες. Οι ιστοσελίδες είναι τα κουτιά και τα βέλη σημαίνουν συνδέσμους μεταξύ ιστοσελίδων. Το μοντέλο του τυχαίου περιηγητή (surfer): οι σελίδες που επισκέπτεται ο περιηγητής είναι οι σκούρες και οι διακεκομμένες γραμμές δείχνουν τυχαίες επανεκκινήσεις. Το ίχνος ξεκινάει στην ιστοσελίδα Α και ακολουθεί τυχαία επιλεγμένους συνδέσμους ενώ διακόπτεται από δύο τυχαίες επανεκκινήσεις. 69

Η ιδέα του τυχαίου περιηγητή (The random surfer trick) Είναι εύκολο να εκτελέσουμε πείραμα στον υπολογιστή για επισκέψεις του περιηγητή σε 1000 ιστοσελίδες (μετράμε και πολλαπλές επισκέψεις στην ίδια ιστοσελίδα) Τα αποτελέσματα φαίνονται στην επόμενη διαφάνεια (πάνω μέρος): Η σελίδα D δέχτηκε συχνότερα επισκέψεις (συγκεκριμένα 144) Η βελτίωση της ακρίβειας των αποτελεσμάτων του πειράματος μπορεί να γίνει όπως και στις δημοσκοπήσεις με αύξηση του αριθμού των τυχαίων δειγμάτων (αύξηση του αριθμού των σελίδων που επισκέφθηκε ο περιηγητής) Εκτελούμε νέο πείραμα υποθέτοντας ότι ο περιηγητής επισκέφθηκε 1.000.000 σελίδες (η εκτέλεση απαιτεί λιγότερο από μισό δευτερόλεπτο σε κοινό υπολογιστή) και τώρα παρουσιάζουμε τα αποτελέσματα (στο κάτω μέρος της επόμενης διαφάνειας) με τη μορφή ποσοστού (λόγω του μεγάλου αριθμού επισκέψεων) Ξανά, η σελίδαd δέχθηκε συχνότερα επισκέψεις (συγκεκριμένα, προσέλκυσε το 15% των επισκέψεων του περιηγητή) 70

Πειράματα με χρήση του τυχαίου περιηγητή. Πάνω: Αριθμός επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1000 επισκέψεις Κάτω: Ποσοστό επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1.000.000 επισκέψεις 71

Τυχαίοςπεριηγητήςκαιεγκυρότητα Ποια είναι η σχέση μεταξύ της ιδέας του τυχαίου περιηγητή και της ιδέας της εγκυρότητας που χρησιμοποιούνται για την κατάταξη ιστοσελίδων-απαντήσεων σε κάποια αναζήτηση; Τα αποτελέσματα που υπολογίζονται από τα πειράματα με τον τυχαίο περιηγητή είναι ακριβώς αυτό που χρειαζόμαστε για να μετρήσουμε την εγκυρότητα των σελίδων Ορίζουμε επομένως την τιμή εγκυρότητας περιηγητή για μια σελίδα ως το ποσοστό του χρόνου που πέρασε ο περιηγητής επισκεπτόμενος τη συγκεκριμένη σελίδα Η τιμή εγκυρότητας περιηγητή ενσωματώνει και τις δύο ιδέες για κατάταξη των ιστοσελίδων με βάση το πόσο σημαντικές είναι Ιδέα με υπερσυνδέσμους: μια σελίδα με πολλούς εισερχόμενους συνδέσμους πρέπει να καταταχθεί ψηλότερα, κάτι που ισχύει για το μοντέλο του τυχαίου περιηγητή, αφού μια σελίδα με πολλούς εισερχόμενους συνδέσμους έχει μεγάλη πιθανότητα να δεχθεί επίσκεψη Σελίδα D στο κάτω μέρος της επόμενης διαφάνειας: έχει 5 εισερχόμενους συνδέσμους παραπάνω από κάθε άλλη σελίδα στο πείραμα και τελικά λαμβάνει την υψηλότερη τιμή εγκυρότητας περιηγητή (15%) Ιδέα με εγκυρότητα: εισερχόμενος σύνδεσμος από σελίδα με υψηλή εγκυρότητα βελτιώνει την κατάταξη της σελίδας περισσότερο από κάποιον σύνδεσμο από σελίδα με μικρότερη εγκυρότητα, κάτι που λαμβάνει υπόψιν και το μοντέλο του τυχαίου περιηγητή. ΓΙΑΤΙ; Εισερχόμενος σύνδεσμος από δημοφιλή σελίδα είναι πιθανότερο να ακολουθηθεί από ό,τι κάποιος από μη δημοφιλή σελίδα Στο παράδειγμα, συγκρίνετε τις σελίδες A και C στο κάτω μέρος: κάθε μία έχει έναν μόνο εισερχόμενο σύνδεσμο, αλλά η σελίδα A έχει πολύ υψηλότερη τιμή εγκυρότητας περιηγητή (13% έναντι 2%) λόγω της ποιότητας του εισερχόμενου συνδέσμου 72

Πειράματα με χρήση του τυχαίου περιηγητή. Πάνω: Αριθμός επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1000 επισκέψεις Κάτω: Ποσοστό επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1.000.000 επισκέψεις 73

Η ιδέα του τυχαίου περιηγητή (The random surfer trick) H ιδέα του τυχαίου περιηγητή ενσωματώνει ταυτόχρονα τις ιδέες των υπερσυνδέσμων και της εγκυρότητας, δηλ., λαμβάνει υπόψιν την ποιότητα και την ποσότητα των εισερχόμενων συνδέσμων σε κάθε σελίδα Δείτε τη σελίδα B: λαμβάνει το σχετικά υψηλό της αποτέλεσμα (10%) λόγω των 3 εισερχόμενων συνδέσμων από σελίδες με μέτρια αποτελέσματα που κυμαίνονται μεταξύ του 4% και 7% Η ομορφιά της ιδέας του τυχαίου περιηγητή είναι ότι, αντίθετα με την ιδέα της εγκυρότητας, δουλεύει άψογα ανεξάρτητα από την ύπαρξη κύκλων στους συνδέσμους Εκτελούμε ένα πείραμα για εκατομμύρια επισκέψεις του τυχαίου περιηγητή για την ερώτηση περί συνταγής για στραπατσάδα Τα αποτελέσματα φαίνονται στην επόμενη διαφάνεια. Όπως και με χρήση της ιδέας της εγκυρότητας, η σελίδατουbert λαμβάνει μεγαλύτερο αποτέλεσμα από αυτήν του Ernie (28% έναντι 1%, αντίστοιχα) παρά το ότι έχουν και οι δύο από έναν εισερχόμενο σύνδεσμο Επομένως, η σελίδατουbert θα καταταχθεί ψηλότερα σε μια αναζήτηση για στραπατσάδα Τι συμβαίνει όταν υπάρχουν κύκλοι στους συνδέσμους; Εκτελούμε ένα πείραμα με τυχαίους περιηγητές που δίνει τα αποτελέσματα της επόμενης διαφάνειας τα οποία δείχνουν την τελική σειρά κατάταξης που θα επέστρεφε μία μηχανή αναζήτησης: η σελίδαa είναι ψηλότερα, ακολουθεί η B, η E, η C και η D μένει τελευταία... 74

Αποτελέσματα εγκυρότητας περιηγητή για την ιστοσελίδα με τη στραπατσάδα. Και ο Bert και ο Ernie έχουν από ακριβώς έναν εισερχόμενο σύνδεσμο που δίνει εγκυρότητα στην ιστοσελίδα τους, αλλά η σελίδα του Bert θα καταταχθεί ψηλότερα σε μια αναζήτηση για στραπατσάδα 75

Αποτελέσματα εγκυρότητας περιηγητή για το προηγούμενο παράδειγμα με κύκλο στους συνδέσμους. Η ιδέα με τον τυχαίο περιηγητή μπορεί να υπολογίσει κατάλληλα αποτελέσματα παρά την ύπαρξη κύκλου (A B E A) 76

ΟαλγόριθμοςPAGERANK στην πράξη Η ιδέα του τυχαίου περιηγητή περιγράφθηκε από τους συνιδρυτές της Google στη πασίγνωστη πλέον εργασία που δημοσιεύθηκε το 1998 με τίτλο: The Anatomy of a Large-scale Hypertextual Web Search Engine Σε συνδυασμό με άλλες τεχνικές, παραλλαγές αυτής της ιδέας χρησιμοποιούνται ακόμα από τις σημαντικότερες μηχανές αναζήτησης 77

ΟαλγόριθμοςPAGERANK στην πράξη Όμως, υπάρχουν διάφοροι παράγοντες που προκαλούν επιπλοκές, οπότε οι τεχνικές που χρησιμοποιούν οι σύγχρονες μηχανές αναζήτησης διαφέρουν κάπως από την ιδέα του τυχαίου περιηγητή που περιγράψαμε Ένας τέτοιος παράγοντας αγγίζει την καρδιά του PageRank: η υπόθεσηότιοι υπερσύνδεσμοι έχουν εγκυρότητα είναι αμφισβητήσιμη, αλλά αυτό (έστω κι αν οι σύνδεσμοι μπορεί να αντιπροσωπεύουν κριτική κι όχι σύσταση) στην πράξη δεν είναι σημαντικό πρόβλημα Ένα σημαντικότερο πρόβλημα είναι ότι άτομα μπορούν να παραποιήσουν την ιδέα των υπερσυνδέσμων για να επηρεάσουν τεχνητά την κατάταξη των δικών τους σελίδων Υποθέστε ότι έχετε ένα website που λέγεται BooksBooksBooks.com για πώληση βιβλίων Αυτόματα, είναι σχετικά εύκολο να δημιουργήσει κανείς έναν μεγάλο αριθμό (π.χ., 10,000) διαφορετικών σελίδων με συνδέσμους προς το BooksBooksBooks.com. Επομένως αν οι μηχανές αναζήτησης υπολόγιζαν τις τιμές που χρησιμοποιεί ο αλγόριθμος PageRank όπως ακριβώς περιγράψαμε εδώ, το BooksBooksBooks.com θα μπορούσε χωρίς να το αξίζει να λάβει αποτελέσματα πολύ υψηλότερα από τα άλλα δύο ηλεκτρονικά βιβλιοπωλεία, και συνεπώς υψηλότερη κατάταξη και περισσότερες πωλήσεις... Οιμηχανέςαναζήτησηςκαλούναυτούτουείδουςτηνκακόβουλησυμπεριφοράweb spam (η ορολογία προέρχεται σε αναλογία με το e-mail spam: ανεπιθύμητα μηνύματα στα Εισερχόμενα e-mail μας είναι ίδια με ανεπιθύμητες ιστοσελίδες που ανακατεύουν τα αποτελέσματα μιας αναζήτησης στο web) Η ανίχνευση και εξουδετέρωση διάφορων τύπων web spam αποτελούν πολύ σημαντικές εργασίες για όλες τις μηχανές αναζήτησης 78

ΟαλγόριθμοςPAGERANK στην πράξη Για παράδειγμα, το 2004, ερευνητές στη Microsoft βρήκαν πάνω από 300,000 websites να έχουν ακριβώς 1001 σελίδες που να δείχνουν σε αυτά και λογικά το θεώρησαν πολύ περίεργο Έψαξαν αυτά τα websites λεπτομερώς και διαπίστωσαν ότι η πλειοψηφία των αυτών των εισερχόμενων συνδέσμων ήταν web spam.. Οι μηχανές αναζήτησης κάνουν μεγάλο αγώνα κατά των spammers και συνεχώς προσπαθούν να βελτιώσουν τους αλγορίθμους τους προκειμένου να επιστρέφουν ρεαλιστικές κατατάξεις Η συνεχής προσπάθεια βελτίωσης του αλγορίθμου PageRank έχει προκαλέσει εντατική ακαδημαϊκή και βιομηχανική έρευνα σχετικά με αλγόριθμους που χρησιμοποιούν τη δομή των υπερσυνδέσμων του web για να κατατάσσουν σελίδες (αλγόριθμοι κατάταξης που βασίζονται σε συνδέσμους - link-based ranking algs) Ένας άλλος ανασταλτικός παράγοντας σχετίζεται με την αποδοτικότητα των υπολογισμών του PageRank: Οι τιμές με βάση τον περιηγητή υπολογίζονται βάσει εξομοιώσεων, αλλά η εκτέλεση μιας εξομοίωσης για όλο το web θα διαρκούσε απαγορευτικά πολύ Επομένως, οι μηχανές αναζήτησης δεν υπολογίζουν τις τιμές του PageRank μέσω εξομοιώσεων τυχαίων περιηγητών: χρησιμοποιούν μαθηματικές τεχνικές που δίνουν τις ίδιες απαντήσεις με τις εξομοιώσεις, αλλά με σημαντικά μικρότερο υπολογιστικό κόστος Εμείς αναφερθήκαμε σε εξομοιώσεις για να περιγράψουμε έξυπνες ιδέες και τι ακριβώς υπολογίζουν οι μηχανές αναζήτησης, όχι πώς το υπολογίζουν 79

ΟαλγόριθμοςPAGERANK στην πράξη Οι εμπορικές μηχανές αναζήτησης καθορίζουν τις κατατάξεις τους χρησιμοποιώντας πολύ περισσότερα από έναν αλγόριθμο κατάταξης βασισμένο στους συνδέσμους (link-based ranking algorithm) όπως ο PageRank Ακόμα και στην πρωτότυπη δημοσίευση για την περιγραφή της Google το 1998, αναφέρονταν πολλά άλλα χαρακτηριστικά που συνέβαλαν στην κατάταξη των αποτελεσμάτων της αναζήτησης Και προφανώς η τεχνολογία έχει προχωρήσει: ήδη η ίδια η Google δηλώνει ότι πάνω από 200 σήματα χρησιμοποιούνται για την εκτίμηση του πόσο σημαντική είναι μία σελίδα Παρά τη μεγάλη πολυπλοκότητα των σύγχρονων μηχανών αναζήτησης, η όμορφη ιδέα στην καρδιά του αλγορίθμου PageRank ότι δηλ., δημοφιλείς σελίδες αυξάνουν την εγκυρότητα/δημοτικότητα άλλων σελίδων μέσω υπερσυνδέσμων συνεχίζει να ισχύει Αυτή ακριβώς η ιδέα βοήθησε τη Google να εκθρονίσει την AltaVista, μετατρέποντας τη Google από μια μικρή εταιρεία σε βασίλισσα της αναζήτησης μέσα σε λίγα χρόνια Χωρίς τη βασική ιδέα του PageRank, οι περισσότερες αναζητήσεις στο web θα χάνονταν σε πέλαγος χιλιάδων ταιριασμάτων σε άσχετες web σελίδες Ο PageRank είναι πράγματι ένας αλγόριθμος που επιτρέπει σε έναν «ψύλλο» να αναδυθεί χωρίς κόπο στην κορυφή από τα «άχυρα» 80

Σύνοψη Δεδομένα: WEB και η πληροφορία που περιέχεται σε αυτό Ερώτηση για αναζήτηση συγκεκριμένης πληροφορίας στο WEB Ζητούμενο: Γρήγορη επιστροφή λίστας με απαντήσεις ταξινομημένες από τη σχετικότερη στη λιγότερη σχετική 81

Σύνοψη Για να λάβουμε γρήγορα σωστές και σχετικές απαντήσεις σε ερωτήματα που θέτουμε, οι μηχανές αναζήτησης στο web προσπαθούν (α) να εντοπίσουν ιστοσελίδες που περιέχουν την ερώτησή μας (ταίριασμα-matching) μέσω δημιουργίας ευρετηρίου (indexing) με χρήση δύο επιπλέον τεχνικών: εντοπίζοντας τη θέση της λέξης-ερώτησης στην ιστοσελίδα εντοπίζοντας λέξεις πληροφορίας στην ιστοσελίδα και εξετάζοντας αν η λέξη-ερώτηση περιέχεται μεταξύ τους (β) να κατατάξουν τις ιστοσελίδες που περιέχουν τη λέξη-ερώτηση που θέσαμε με βάση τη σχετικότητά τους με την απάντηση στην ερώτησή μας (κατάταξη-ranking) η αποδοτικότερη τεχνική έχει αποδειχθεί ότι είναι ο αλγόριθμος PageRank της Google (1998) σύμφωνα με τον οποίο ψηλότερα στην κατάταξη πρέπει να βρίσκονται εκείνες οι ιστοσελίδες που περιέχουν τη λέξη-ερώτημα στις οποίες μπορούμε να οδηγηθούμε από πολλές δημοφιλείς ιστοσελίδες 82

Πρακτικές προεκτάσεις Για να κατατάξω «οντότητες» με βάση το πόσο σημαντικές είναι, έχει νόημα να λαμβάνω υπόψιν το πόσοι τις «ψηφίζουν» το πόσο «ειδικοί» είναι αυτοί που «ψηφίζουν» Οπότε, θα είχε νόημα: Σε μια συλλογή να τοποθετήσω στο προσκήνιο τα δημοφιλέστερα αντικείμενα Σε μια επίσκεψη να ξεκινήσω από τα δημοφιλέστερα μέρη Γιαναμελετήσωγλωσσικάφαινόμεναναξεκινήσωαπότις λέξεις που χρησιμοποιούνται περισσότερο Γιαναμελετήσωτηνεξέλιξηναεστιάσωσταείδηπου επιβίωσαν 83

Ενδιαφέρουσες αναφορές How Google Works http://www.googleguide.com/google_works.html The Google Pagerank Algorithm and How It Works http://www.sirgroane.net/google-page-rank/ PageRank Algorithm - The Mathematics of Google Search http://www.math.cornell.edu/~mec/winter2009/raluca Remus/Lecture3/lecture3.html 84