Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση Γαβαλάς Δαμιανός dgavalas@aegean.gr 1
Πως οι χρήστες εντοπίζουν ιστοσελίδες στο web; Tα ποσοστά συμμετοχής των μηχανών αναζήτησης στον εντοπισμό πληροφοριών ολοένα μεγαλώνει Είδη μηχανών αναζήτησης Με βάση το περιεχόμενο αναζήτησης : Γενικού ενδιαφέροντος Στοχευμένες Με βάση τα αποτελέσματα που δίνουν στο χρήστη : Πρώτης γενιάς Δύ Δεύτερης γενιάς Τρίτης γενιάς Τέλος, μια άλλη ξεχωριστή κατηγορία των μηχανών αναζήτησης, είναι οι Μεταμηχανές 2
Στοχευμένες και γενικού ενδιαφέροντος μηχανές αναζήτησης Οι στοχευμένες μηχανές αναζήτησης, επικεντρώνονται σε συγκεκριμένα θέματα. Προσπαθούν να βρουν και να καταγράψουν όσες περισσότερες ιστοσελίδες μπορούν για μια συγκεκριμένη θεματική, επισκεπτόμενες ένα περιορισμένο αριθμό δικτυακών τόπων που καλύπτουν το συγκεκριμένο θέμα. Οι γενικού ενδιαφέροντος σε αντίθεση με τις στοχευμένες, προσπαθούν να καταγράψουν όσο το δυνατόν μεγαλύτερο τμήμα των ιστοσελίδων του διαδικτύου, ανεξαρτήτως θεματικής. Πρώτης και δεύτερης γενιάς Πρώτης γενιάς: συσχετίζουν και παρουσιάζουν τα αποτελέσματα, με βάση το ποσοστό συνάφειας τους Εστιάζουν στο περιεχόμενο των σελίδων για να καθορίσουν τη σειρά παρουσίασης (ranking) Δεύτερης γενιάς: μηχανές αναζήτησης που μπορούν να παρουσιάσουν και να ιεραρχήσουν τα αποτελέσματα με ποικίλους τρόπους. Σύμφωνα με το τύπο ή το είδος των τεκμηρίων, η ακόμα και να δεχτούν ερωτήσεις σε φυσική γλώσσα, δίνοντας αποτελέσματα που έχουν καθοριστεί εκ των πρότερων Συνήθως εστιάζουν στην ανάλυση των links άλλων ιστοσελίδων Τρίτης γενιάς: μηχανές αναζήτησης που λαμβάνουν υπόψη τις προτιμήσεις των χρηστών (π.χ. Clicks χρηστών πάνω σε συγκεκριμένα αποτελέσματα μπορεί να ανεβάσει το ranking των τελευταίων) 3
Μεταμηχανές (metaengines) Οι μετά μηχανές δεν διαθέτουν δικό τους ευρετήριο, αλλά αντλούν τα αποτελέσματα τους από τα ευρετήρια άλλων μηχανών αναζήτησης. Έτσι σε κάθε αναζήτηση που γίνεται, στέλνουν τις λέξεις κλειδιά ταυτοχρόνως σε μια σειρά προκαθορισμένων υπηρεσιών αναζήτησης. Ο μηχανισμός αναζήτησης, παραμένει λίγο χρόνο στο ευρετήριο κάθε βάσης και επιστρέφει ένα συγκεκριμένο ποσοστό των αποτελεσμάτων (συχνά μόνο το 10%) από κάθε βάση. Σημασία των μηχανών αναζήτησης Μηχανές αναζήτησης: Εργαλεία που χρησιμοποιούνται για τον εντοπισμό πληροφορίας στον παγκόσμιο ιστό Χρησιμοποιούν λέξεις κλειδιά (Keywords) με boolean λογική για να επιστρέψουν λίστα web ιστοσελίδων που περιέχουν την πληροφορία που αναζητείται Οι περισσότερες επισκέψεις σε web site ηλεκτρονικών επιχειρήσεων προέρχονται από αναζητήσεις που κάνουν οι υποψήφιοι πελάτες στο διαδίκτυο Οι περισσότεροι χρήστες δεν βλέπουν καν τη 2η σελίδα των αποτελεσμάτων που επιστρέφει η μηχανή αναζήτησης Πολύ σημαντικός παράγοντας για μια επιχείρηση να ιεραρχηθεί / καταταχθεί ψηλότερα από τους ανταγωνιστές της (highest ranking) στα αποτελέσματα που επιστρέφουν οι μηχανές αναζήτησης 4
Μηχανές αναζήτησης: πως δουλεύουν Για τον εντοπισμό ιστοσελίδων χρησιμοποιούν δύο μηχανισμούς: Με άμεση προσθήκη μιας URL διεύθυνσης από το διαχειριστή της, π.χ. www.google.com/addurl.html Ειδικό λογισμικό ( αράχνες ) που ερευνούν συστηματικά και αυτοματοποιημένα το διαδίκτυο εντοπίζοντας νέες, διαγραμμένες ή ενημερωμένες σελίδες Οι ιστοσελίδες που ανακαλύπτονται από τις αράχνες αποθηκεύονται σε βάσεις δεδομένες της μηχανής αναζήτησης και καταλογοποιούνται Δημιουργείται δηλαδή ένα ευρετήριο (κατάλογος) των αποθηκευμένων σελίδων έτσι ώστε η μηχανή αναζήτησης να επιταχύνει τον εντοπισμό και ανάκτηση της σελίδας που περιέχει τα keywords που εισάγει ο χρήστης Μηχανές αναζήτησης: ευρετήρια λέξη-κλειδί έγγραφο:θέση; έγγραφο:θέση;... σκύλος 5:7; 8:1; 12:3 τσάντα 1:3; 7:9 βιβλίο 2:9; 12:15; 32:4 5
Tα μέρη μιας μηχανής αναζήτησης: οι αράχνες Οι αράχνες (crawlers ή spiders ή robots ή bots) δεν ταξιδεύουν στο web, αλλά «κατεβάζουν» τις σελίδες και τις διαβιβάζουν στο μηχανισμό ευρετηρίου Χρησιμοποιούν την ύπαρξη συνδέσμων (links) στις ιστοσελίδες: για κάθε σελίδα που κατεβάζουν, εντοπίζουν τους συνδέσμους της και τους ακολουθούν κατεβάζοντας και τις σελίδες στις οποίες «δείχνουν» οι σύνδεσμοι αυτοί Πρέπει να αποφεύγουν την επανα πρόσβαση στις σελίδες που έχουν ήδη κατεβάσει Κακά προγραμματισμένες αράχνες μπορεί να κατακλύσουν έναν web server με εκατομμύρια αιτήσεις ώστε να μην μπορούν να εξυπηρετήσουν τους επισκέπτες τους Θεωρητικά δεν μπορούν να ανακαλύψουν σελίδες που ανήκουν στο αόρατο web (invisible web) Αλγόριθμος μιας απλής αράχνης Initialize: UrlsDone =;UrlsTodo ={ firstsite firstsite_seed.htm seed htm, secondsite_seed.htm seed htm..} Repeat: url = UrlsTodo.getNext() ip = DNSlookup( url.gethostname() ) html = DownloadPage( ip, url.getpath() ) UrlsDone.insert( url ) newurls = parseforlinks( html ) For each newurl If not UrlsDone.contains( newurl ) then UrlsTodo.insert( newurl ) 6
Tα μέρη μιας μηχανής αναζήτησης: μηχανισμός ευρετηρίου (indexing mechanism) Όταν η αράχνη επισκέπτεται μια ιστοσελίδα, την παραδίδει στο μηχανισμό ευρετηρίου που αποθηκεύει το πλήρες κείμενο της σελίδας στη βάση δεδομένων της μηχανής αναζήτησης Καταλογοποιούνται οι λέξεις που περιέχονται στην αποθηκευμένη σελίδα και ενημερώνεται το ευρετήριο (περιέχει ρ χ τις λέξεις, λίστα με ιστοσελίδες που την περιέχουν, πιθανόν και την ακριβή θέση της λέξης μέσα στις ιστοσελίδες Απαλείφονται από το ευρετήριο συνηθισμένες λέξεις (άρθρα, σημεία στίξης,...) Tα μέρη μιας μηχανής αναζήτησης: μηχανισμός αναζήτησης Ο μηχανισμός αναζήτησης περιλαμβάνει τμήματα όπως: Διεπαφή χρήστη (φόρμα αναζήτησης) ) Μηχανισμό που αξιολογεί το ερώτημα και μέσω του ευρετηρίου εντοπίζει τις πιο σχετικές ιστοσελίδες στη βάση δεδομένων της μηχανής αναζήτησης Μορφοποιητή αποτελεσμάτων που μορφοποιεί τις πιο συναφείς ιστοσελίδες και τις επιστρέφει στον browser του χρήστη υπό μορφή συνδέσμων (links προς τις πραγματικές σελίδες) 7
Μηχανές αναζήτησης: λειτουργία αναζήτησης Χρήστης Ιστοσελίδα μηχανής Αποτελέσματα αναζήτησης Ιστοσελίδες Μηχανισμός αναζήτησης Μηχανή ευρετηρίου Ευρετήριο (index) Κριτήρια ιεράρχησης αποτελεσμάτων από μηχανές αναζήτησης Οι μηχανές αναζήτησης ιεραρχούν τα αποτελέσματα που επιστρέφουν υπολογίζοντας τη συνάφεια βάσει κάποιου αλγορίθμου Η λειτουργία αυτών των αλγορίθμων είναι εμπορικό μυστικό Κριτήρια ιεράρχησης Συχνότητα των keywords μέσα σε μια ιστοσελίδα Ο όρος που αναζητείται περιέχεται στον τίτλο, στην πρώτη επικεφαλίδα, στην πρώτη παράγραφο, κλπ HTML meta tags <META name="keywords" content="html, tutorial, learn, make, create, design, web page, εγχειρίδιο, ιστοσελίδες, writing, form, tables, frames"> Δεν εξασφαλίζουν υψηλή ιεράρχηση αφού έχουν χρησιμοποιηθεί με αθέμιτο τρόπο (spamdexing ή spoofing) 8
Κριτήρια ιεράρχησης αποτελεσμάτων από μηχανές αναζήτησης Κριτήρια ιεράρχησης Δημοτικότητα μιας ιστοσελίδας (πόσες επισκέψεις δέχεται για μια συγκεκριμένη αναζήτηση η Ανάλογα με το ποιες σελίδες «δείχνουν» σε μια σελίδα (αυτό δηλώνει και το θέμα της σελίδας στόχου ) Στατιστική σύγκριση μηχανών αναζήτησης: εκτίμηση συνολικού μεγέθους Πόσες σελίδες ιστοσελίδες έχουν καταλογοποιηθεί και περιλαμβάνονται στις βάσεις δεδομένων των μηχανών αναζήτησης Πηγή: http://www.searchengineshowdown.com 9
Στατιστική σύγκριση μηχανών αναζήτησης: σύγκριση σχετικού μεγέθους Πόσες σελίδες βρέθηκαν σε 25 αναζητήσεις keywords μίας μόνο λέξης Πηγή: http://www.searchengineshowdown.com Στατιστική σύγκριση μηχανών αναζήτησης: σύγκριση ρυθμών αύξησης μεγέθους Με ποιους ρυθμούς αυξάνεται ο αριθμός των σελίδων που περιλαμβάνονται στις βάσεις δεδομένων των μηχανών αναζήτησης Πηγή: http://www.searchengineshowdown.com 10
Στατιστική σύγκριση μηχανών αναζήτησης: πόσο φρέσκα είναι τα νέα (συχνότητα ανανέωσης) Όλες οι μηχανές αναζήτησης μας δίνουν εικόνες του παρελθόντος (ακόμα κι αν «κατεβάσουμε» σήμερα τις σελίδες μας, αυτές θα εξακολουθήσουν να βρίσκονται όταν αναζητούνται τις επόμενες εβδομάδες/μήνες) Πόσο συχνά ανανεώνουν το περιεχόμενό τους; Πηγή: http://www.searchengineshowdown.com Μηχανές αναζήτησης: Η περίπτωση του Google Πρώτο prototype στο Stanford University από τους Larry Page and Sergey Brin (1997) Η μεγαλύτερη σήμερα μηχανή αναζήτησης με πολύ υψηλά ποσοστά συνάφειας όρων αναζήτησης και αποτελεσμάτων Περισσότερες από 150 εκ αιτήσεις ημερήσια, περιλαμβάνει πάνω από 3 δις έγγραφα όλων των τύπων (.htm,.doc,.pdf,..) και 425 εκ αρχεία εικόνων Το περιβάλλον του (interface) προσφέρεται σε 35 διαφορετικές γλώσσες Χρησιμοποιεί ένα ειδικό μηχανισμό για βελτίωση των αποτελεσμάτων που επιστρέφει: Κατατάσσει ψηλά τις σελίδες στις οποίες «δείχνουν» πολλές σελίδες ή εκείνες στις οποίες «δείχνει» μια δημοφιλής σελίδα Οι λεπτομέρειες του μηχανισμού του αποτελούν εμπορικό μυστικό! 11
O αλγόριθμος PageRank της Google Το Google ερμηνεύει ένα link από μια σελίδα A προς μια σελίδα B ως μία ψήφο, της A στην B. Πέραν όμως του αριθμού ψήφων (links) προς μια σελίδα, αναλύει και τις σελίδες απ όπου προέρχονται τα links. Links από σελίδες με μεγαλύτερη «σημασία» αξιολογούνται ως πιο σημαντικά. Spamdexing Spamdexing (γνωστό και ως search spam ή search engine spam) καλείται μια διαδικασία που εμπλέκει ένα αριθμό μεθόδων με σκοπό την παραπλάνηση των μηχανών αναζήτησης και την υψηλότερη αξιολόγηση κάποιων σελίδων από αυτές Αυτή η πρακτική έλαβε μεγάλες διαστάσεις στα μέσα των 90s κάνοντας τις σημαντικότερες μηχανές αναζήτησης της εποχής λιγότερο χρήσιμες Το Google αντιμετώπισε πολλές από αυτές τις πρακτικές και έτσι έδωσε πολύ πιο αξιόπιστα αποτελέσματα στις αναζητήσεις 12
Μέθοδοι Spamdexing Πολλαπλή επανάληψη κάποιων σημαντικών λέξεων κλειδιών στο σώμα της σελίδας (keyword stuffing) ώστε να δοθεί ψευδής εικόνα συσχέτισής της με ένα συγκεκριμένο θέμα Κρυμμένο ή αόρατο κείμενο: λέξεις ή φράσεις μπορεί να κρυφθούν δίνοντάς τους ίδιο χρώμα με το χρώμα του background ή με χρήση μηδενικού πλάτους/ύψους DIVs Επανάληψη keywords στα Meta tags (Meta tag stuffing) και χρήση keywords άσχετων με το περιεχόμενο του site: αυτή η μέθοδος παραπλάνησης ηςείναι αναποτελεσματική από το 2005 Link farms: Δημιουργία «κοινοτήτων» από σελίδες με μεταξύ τους links Κρυμμένα links: τοποθέτηση αόρατων links για να αυξηθεί το link popularity (δημοφιλία) Βελτιστοποίηση για μηχανές αναζήτησης (Search Engine Optimization, SEO) Η διαδικασία βελτίωσης του όγκου και ποιότητας εισερχόμενης «κίνησης» που προέρχεται από μηχανές αναζήτησης. Ως μια Internet marketing στρατηγική, η SEO εκτιμά τον τρόπο λειτουργίας των μηχανών αναζήτησης και τι συνήθως αναζητούν οι χρήστες του web. Η βελτιστοποίηση αφορά: Επεξεργασία ξργ του HTML κώδικα (περιεχομένου) ρ χ μ ώστε να αυξηθεί η συσχέτιση της σελίδας με συγκεκριμένες αναζητήσεις (keywords) Χρήση spamdexing τεχνικών για προσέλκυση περισσότερων επισκέψεων. Φυσικά οι μηχανές αναζήτησης προσπαθούν να εντοπίσουν sites που χρησιμοποιούν τέτοιες τεχνικές ώστε να τα διαγράψουν από τα ευρετήριά τους. 13
Μηχανές αναζήτησης: Προσθήκη σελίδων και διαφημίσεων στο Google Αναζήτηση εικόνων στο web <html> <head> <title>ecommerce images</title> </head> <body> <img src="images/ecommerce.gif"> <p>bla bla bla bla</p> <p>this text is about <b>e commerce </b></p> <img src="images/ecompicn.jpg"> </body> ecompicn.jpg </html> ecommerce.gif 14
Google: αναζήτηση εικόνων Επιστρέφει thumbnails Βρίσκει όχι μόνο αρχεία εικόνων που περιέχουν το keyword που αναζητώ αλλά και εκείνες, κοντά στις οποίες υπάρχουν τα keywords (στο HTML κείμενο) Google: προβολή διαφημίσεων που ο χρήστης «θέλει να δει» Λίστα διαφημιζομένων σχετικών που προωθούν προϊόντα σχετικά με την αναζήτηση (και μάλιστα που δραστηριοποιούνται στη χώρα απ όπου προήλθε η αναζήτηση) 15
Google: εξειδικευμένη αναζήτηση Tέλος το Google, διαθέτει ένα περιβάλλον για σύνθετες αναζητήσεις, δίνοντας την δυνατότητα στον χρήστη πέρα από την εξειδικευμένη αναζήτηση συγκεκριμένων τύπων εγγράφων (format) και την δυνατότητα αναζήτησης σε μια συγκεκριμένη διαδικτυακή περιοχή (domain) ή σε μια μόνο γλώσσα. Μερίδια αγοράς των μηχανών αναζήτησης Τα ποσοστά της αγοράς που κατείχαν οι πιο δημοφιλές μηχανές αναζήτησης σύμφωνα με την comscore.com τον Ιανουάριο του 2008 φαίνονται παρακάτω: 4.9% 9.8% 22.2% 4.5% 58.8% Google Sites Yahoo! Sites Microsoft Sites AOL LLC Ask Network 16
Μερίδια αγοράς των μηχανών αναζήτησης Το Google κατέχει το μεγαλύτερο μερίδιο επισκεψιμότητας και θεωρείται η μεγαλύτερη μηχανή αναζήτησης στις μέρες μας. Σε καθημερινή βάση δέχεται περισσότερες από 180 εκατομμύρια αιτήσεις, ενώ στην βάση της έχει καταχωρημένα πάνω από 3 δισεκατομμύρια έγγραφα όλων των τύπων. Η μεγάλη επιτυχία του Google, οφείλεται στην εμφάνιση υψηλών ποσοστών συνάφειας των αποτελεσμάτων της, σε σχέση με τους όρους της αναζήτησης. Αυτό επιτυγχάνεται χρησιμοποιώντας σε μεγάλο βαθμό για την ιεράρχηση των αποτελεσμάτων, το κριτήριο της ανάλυσης υπέρ συνδέσεων (PageRank technology). Μηχανές αναζήτησης: βιβλιογραφία Βιβλιογραφία: «Έρευνα & Συλλογή Πληροφοριών στο Διαδίκτυο» (Βέγλης, Πομπόρτσης, Αβραάμ), 2004, Εκδ. Τζιόλα A. Arasu et. al. Searching the Web, ACM Trans. on Internet Technology, Vol. 1, No 1, pp. 2 43, August 2001 M.R. Henzinger, Hyperlink Analysis on the Web, IEEE Internet Computing, pp. 45 50, Jan/Feb 2001 Σύνδεσμοι www.searchenginewatch.com http://www.allsearchengines.com/ http://www.searchengineshowdown.com/ http://www.netmechanic.com/promote.htm 17