SYNTACTIC WEB ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ Internet Software Consortium 1
Μηχανές Αναζήτησης (ΜΑ) Οι μηχανές αναζήτησης (ΜΑ) είναι ειδικά εργαλεία λογισμικού με την βοήθεια των οποίων οι χρήστες μπορούν να προσπελάσουν απομακρυσμένες πηγές πληροφορίας και δικτυακούς τόπους ιστοχώρους. Διακρίνονται σε: Αυτόματες ΜΑ [Crawlers] Google, AltaVista, Excite, AllTheWeb, Lycos, MSN Θεματικούς Κατάλογους Yahoo!, Open Directory Project (DMOZ), Looksmart Άλλες AskJeeves (επεξεργασία φυσικής γλώσσας), Overture (Paid Listings Search Engines ) Συνεργασία μεταξύ τους... Μηχανισμοί μιας Αυτόματης Μ.Α.
Χαρακτηριστικά των Μ.Α.: Εξωτερικά χαρακτηριστικά Aφορούν τις λειτουργίες της Μ.Α. όσον αφορά τα βήματα της σύλληψης, της συλλογής και της σύνταξης των ιστοσελίδων. Παρότι ο χρήστης δεν κάνει χρήση αυτών των χαρακτηριστικών, επηρεάζουν την αναζήτησή του και τα επιστρεφόμενα αποτελέσματα που λαμβάνει. Από την άλλη πλευρά βέβαια η γνώση αυτών των χαρακτηριστικών είναι ιδιαίτερα χρήσιμη για τους υπεύθυνους και τους δημιουργούς των ιστοσελίδων. Αυτό γιατί γνωρίζοντας τον τρόπο με τον οποίο μια Μ.Α. επεξεργάζεται τις πληροφορίες, γίνεται γνωστός και ο τρόπος κατάταξης της ιστοσελίδας ανάλογα με τις ερωτήσεις που υποβάλλει ο χρήστης. Εσωτερικά χαρακτηριστικά Το σύνολο των διαφορετικών λειτουργιών κάθε Μ.Α. όσον αφορά την ανάκτηση πληροφοριών από την μεριά του χρήστη. Σε αντίθεση με τα εξωτερικά χαρακτηριστικά που ενδιαφέρουν τους δημιουργούς και κατόχους των ιστοσελίδων, τα εσωτερικά χαρακτηριστικά αφορούν αποκλειστικά τους τελικούς χρήστες των Μ.Α. Εξωτερικά χαρακτηριστικά - Χαρακτηριστικά αυτόματης αναζήτησης ιστοσελίδων Υποστήριξη πλαισίων Σύνταξη - Χαρτογράφηση εικόνων Αποτροπή αυτόματης ανίχνευσης ιστοχώρου http://www.robotstxt.org/wc/exclusion.html#robotstxt, Robots Exclusion Protocol Η αποτροπή αυτή γίνεται με την εφαρμογή μιας εντολής που προστίθεται σε ένα ειδικά καθορισμένο πεδίο των μετα-ετικετών στην αρχή του πηγαίου κώδικα της Γλώσσας Υπερκείμενης Σήμανσης της ιστοσελίδας. Αποτροπή αυτόματης ανίχνευσης ιστοσελίδας http://www.robotstxt.org/wc/exclusion.html#meta, Robots Exclusion META tag Αναφορά από άλλες υπερσυνδέσεις Το χαρακτηριστικό αυτό απαντάται στις πλέον σύγχρονες Μ.Α., όπου αποτελεί ταυτόχρονα και ένα μέτρο για τον αν κάποιες ιστοσελίδες θα περιληφθούν στους καταλόγους και τα ευρετήρια αναζήτησης. Ανίχνευση ανανέωσης περιεχομένου Ειδική προβολή με πληρωμή 3
Εξωτερικά χαρακτηριστικά χαρακτηριστικά σύνταξης ιστοσελίδων Σύνταξη ορατού κειμένου Αποβολή κοινών λέξεων Υποστήριξη πεδίων μετά-ετικετών Δημιουργία παραγώγων λέξεων Εξωτερικά χαρακτηριστικά χαρακτηριστικά κατάταξης αποτελεσμάτων Στάθμιση των πεδίων μετα-ετικετών Στάθμιση σε αναφορές από άλλες υπερσυνδέσεις Στάθμιση ανάλογα με την επιλογή των αποτελεσμάτων Μέθοδοι σχετικής ανατροφοδότησης Hotbot Εξωτερικά χαρακτηριστικά Aναγνώριση και αντιμετώπιση τεχνικών Spam Αντιμετώπιση αόρατου κειμένου Αντιμετώπιση κειμένου ελάχιστου μεγέθους Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Μαθηματικές Εντολές αναζήτησης εντολές Boolean τύπου Τελεστής "AND" ή "+" Τελεστής "NOT" ή "-" Τελεστής "OR" Ο τελεστής "ADJ" ή "" "όρος1" ADJ "όρος" ADJ "όρος3" Ο τελεστής "NEAR" Ο τελεστής "FAR" Φώλιασμα ή Σύνθεση τελεστών "Ακριβής Φράση" AND ("όρος1" OR "όρος") Ενισχυμένες εντολές αναζήτησης Χρήση χαρακτήρων wildcards (Μπαλαντέρ) ("?","*") ca?s cars ή cats ca*s cars ή cats ή cameras ή careers 4
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά αναζήτησης Σχετικές αναζητήσεις Το χαρακτηριστικό αυτό παρέχεται για να βοηθήσει τους χρήστες ώστε να πραγματοποιήσουν πιο συγκεκριμένες αναζητήσεις ή να τους προτείνει παρεμφερείς ερωτήσεις άλλων χρηστών. Έτσι, οι Μ.Α. που το υποστηρίζουν εμφανίζουν συνήθως μια λίστα με υπερσυνδέσεις με σχετικές αναζητήσεις χρησιμοποιώντας γνωστούς όρους, οδηγώντας τον χρήστη συχνά σε καλύτερα αποτελέσματα. Συγκέντρωση αποτελεσμάτων Το χαρακτηριστικό αυτό αποτρέπει την ταυτόχρονη εμφάνιση πολλών ιστοσελίδων που ανήκουν στον ίδιο ιστοχώρο στα τελικά αποτελέσματα. Έτσι παρουσιάζεται ένα πιο συνοπτικό και αντιπροσωπευτικό δείγμα απαντήσεων ενώ ο χρήστης έχει μεγαλύτερη πιθανότητα να ανακτήσει μια ενδιαφέρουσα πληροφορία γρήγορα. Δημιουργία παραγώγων λέξεων Εσωτερική Αναζήτηση Οι Μ.Α. που υποστηρίζουν αυτήν τη λειτουργία επιτρέπουν στους χρήστες τους να πραγματοποιήσουν επιπρόσθετες ερωτήσεις πάνω στο σύνολο των επιστρεφόμενων αποτελεσμάτων. Πρόκειται για μια πολύ χρήσιμη λειτουργία γιατί το σύνολο των αποτελεσμάτων παραμένει αναλλοίωτο, ενώ ταυτόχρονα στενεύουν οι αναζητήσεις του χρήστη. Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά αναζήτησης Αναζήτηση αποθηκευμένων ιστοσελίδων Το χαρακτηριστικό αυτό επιτρέπει την ανάκτηση ιστοσελίδων όπως έχουν συνταχθεί πριν ανανεωθούν εκ νέου από τους μηχανισμούς μιας υπηρεσίας αναζήτησης. Έτσι, είναι δυνατή η παρουσίαση ιστοσελίδων που δεν είναι πλέον ενεργές. Μετάφραση ιστοσελίδας Συνήθως χρονοβόρα διαδικασίας, λόγω του ότι το αίτημα στέλνεται από τον χρήστη στον διακομιστή της Μ.Α., όπου πραγματοποιείται σε πραγματικό χρόνο η μετάφραση Έλεγχος και φιλτράρισμα επικίνδυνου περιεχομένου 5
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά προσαρμογής απεικόνισης και προβολής Ταξινόμηση αποτελεσμάτων ανά ημερομηνία Ταξινόμηση αποτελεσμάτων σε καθορισμένο εύρος ημερομηνίας Προβολή ημερομηνίας δημιουργίας ή μορφοποίησης της ιστοσελίδας Παροχή περιβάλλοντος ενισχυμένης αναζήτησης Παροχή βοήθειας Επισκόπηση Αυτόματων Μηχανών Αναζήτησης AllTheWeb Μεγάλη κάλυψη, φιλικό interface, γρήγορη αναζήτηση: αρχεία ήχου, εικόνων, πολυμέσων AltaVista Advance Search mode: πολλοί λογικοί τελεστές, αναζήτηση βάσει γλώσσας, μετάφραση Direct Hit επιστρέφει λίγα αποτελέσματα / ομαδοποιημένα Excite Στην σημερινή της μορφή η Excite έχει μετατραπεί σε μια Πύλη, η οποία χρησιμοποιείται συνήθως για υπηρεσίες ηλεκτρονικού εμπορίου. Είναι γρήγορη, φιλική προς το χρήστη ενώ η αρχική της σελίδα παραπέμπει σε μια υπηρεσία αναζήτησης με σαφή καταναλωτικό προσανατολισμό Hotbot Φιλική προς το χρήστη, αστάθεια που οφείλεται στη διαθεσιμότητα και τη λειτουργία των εξυπηρετητών του συστήματός της Lycos Πύλη που συνεργάζεται με τη Hotbot, έμφαση στη ψυχαγωγία Northern Light εξειδικεύεται στην προσφορά αναζήτησης για περισσότερες από 5000 εφημερίδες, περιοδικά καθώς και διάφορα έγγραφα της Αμερικάνικης κυβέρνησης 6
Επισκόπηση Αυτόματων Μηχανών Αναζήτησης Google Αλγόριθμος PageRank [Brin, Page - 1998] πλήθος υπερσυνδέσμων που δείχνουν στο επιστρεφόμενο αποτέλεσμα (αναφορές) σημαντικότητα υπερσυνδέσμων βαρύτητα υπερσυνδέσμων Μεγαλύτερη κάλυψη, φιλικό περιβάλλον Ιστοσελίδα Άμεση Αναφορά 1 η έμμεση αναφορά A C A, B, D B A C C A, B, D D 1. C. A 3. B http://www.iprcom.com/papers/pagerank 4. D Δίνεται η ακόλουθη τοπολογία, η οποία παρουσιάζει την συσχέτιση πέντε ιστοσελίδων A, B, C, D και E. (α) Δεδομένου ότι και οι πέντε ιστοσελίδες ικανοποιούν ένα συγκεκριμένο ερώτημα, να δοθεί μια δικαιολογημένη εκτίμηση της κατάταξης των ιστοσελίδων που λαμβάνει ο χρήστης βάσει της μεθόδου στάθμισης PageRank της Google. (β) Ποια θα είναι η επίδραση που θα επιφέρει ένας ιός (trojan) που διπλασιάζει το μέγεθος ενός web site εάν εισβάλει στον web server που εξυπηρετεί την ιστοσελίδα D. Να δικαιολογηθεί η απάντησή σας. Ιστοσελίδα A B C D E Άμεση Αναφορά B, D A, D, E A, B A, C, E C 1 η έμμεση αναφορά D (A, C, E) D (A, C, E) A (B, D) C (A, B) B, D, A, C, E 7
We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn)) T 1 T n A T citations outgoing links Επισκόπηση Θεματικών Καταλόγων Yahoo! Ιδιαίτερα δημοφιλής υπηρεσία αναζήτησης και πύλη πληροφοριών Προσφέρει υπηρεσίες ηλεκτρονικού ταχυδρομείου και συνομιλιών Ως θεματικός κατάλογος δεν αξιολογεί το περιεχόμενο, αλλά οργανώνει θεματικά τους δικτυακούς τόπους που υποβάλλονται προς ένταξη στην υπηρεσία DMOZ [Open Directory Project] Χρησιμοποιεί ως αξιολογητές και κριτές των πληροφοριών που παρέχει, εθελοντές χρήστες από οποιαδήποτε πλευρά του πλανήτη. Παρέχει δηλαδή στον απλό χρήστη την δυνατότητα να συμμετέχει ενεργά στο πρόβλημα της ταξινόμησης της πληροφορίας που διαχέεται στον Παγκόσμιο Ιστό, σε μια καθορισμένη θεματική κατηγορία, η οποία συνήθως αφορά το γνωστικό αντικείμενο ή την γεωγραφική θέση του 8
Υπηρεσίες αναζήτησης και Θεματικοί Κατάλογοι στον Ελληνικό κυβερνοχώρο GoGreece Greek Indexer Phantis Pathfinder Robby Greek Web Index Anazitisis Eseek Thea in.gr URL References [searchengineshowdown] http://www.searchengineshowdown.com/ [searchenginewatch] http://searchenginewatch.com/ 9
Αυτόματες ΜΑ Θεματικοί Κατάλογοι Πλεονεκτήματα Βοήθεια στην εύρεση αποτελεσμάτων Σχετικά φιλικό περιβάλλον εύκολη χρήση Ιδανικές για εύρεση ανεξάρτητων (individual) ιστοσελίδων (ειδικευμένη αναζήτηση) Πλεονεκτήματα Τα ευρετήρια δημιουργούνται από αξιολογητές Η πληροφορία έχει δομή (κατηγορίες) Εύκολη πρόσβαση στην πληροφορία Φυλλομέτρηση (browsing) Ιδανικό για εύρεση δικτυακών τόπων (Γενικότερη εύρεση πληροφορίας) Μειονεκτήματα Διαφορετική γλώσσα αναζήτησης Διαφορετικές μέθοδοι ευρετηριοποίησης Χαμηλή κάλυψη της συνολικής πληροφορίας Μη-επικαλυπτόμενη πληροφορία Μειονεκτήματα Φυλλομέτρηση (browsing) μεγάλο ποσό πληροφορίας Αίτηση για συμμετοχή στα περιεχόμενα του θεματικού καταλόγου Διαφορετική ιεραρχία ενοτήτων ανά Θεματικό Κατάλογο Εντούτοις... Διαφορετικά χαρακτηριστικά λειτουργίες Αναζήτηση και εντοπισμό ιστοσελίδων Σύνταξη κωδικοποίηση ιστοσελίδων Αλγόριθμοι επεξεργασίας και κατάταξης αποτελεσμάτων Εντολές αναζήτησης Παρουσίαση αποτελεσμάτων Οδηγούν σε... έλλειψη συνοχής διαφορετικά επιστρεφόμενα αποτελέσματα στον τελικό χρήστη χαμένη πληροφορία 100 90 80 70 60 50 40 30 0 10 0 100 90 80 70 60 50 40 30 0 10 0 100 Lawrence 1999 33 16 15 8 Όλες ΜΑ Northern AltaVista Hotbot Google Lycos Light 11 0 Όλες ΜΑ Hotbot AltaVista Northern Light Lawrence 000 Όλες ΜΑ Hotbot AltaVista Northern Light Lycos Όλες ΜΑ Northern Light AltaVista Hotbot Google Lycos 8 10 Lycos 10
Λύση... Χρήση πολλών ΜΑ από το χρήστη Αύξηση της κίνησης στο Διαδίκτυο Γνώση της σύνταξης ερωτήσεων Διαγραφή διπλότυπων αποτελεσμάτων Επεξεργασία ξεχωριστών αποτελεσμάτων Χρονοβόρα και δύσκολη διαδικασία Μηχανές Μετα-Αναζήτησης (ΜΜΑ) Meta-Search Engines Οι Μηχανές Μετα-Αναζήτησης (ΜΜΑ) δεν διατηρούν τη δική τους βάση δεδομένων / ευρετήρια. Αποστέλλουν τους όρους αναζήτησης στις βάσεις δεδομένων των ΜΑ που χρησιμοποιούν, επεξεργάζονται τα ξεχωριστά αποτελέσματα και τα επιστρέφουν σε μια ενιαία μορφή (μετα-αποτελέσματα). Παραδείγματα: Copernic, Dogpile, Metacrawler, Ixquick, Profusion Χρήση ΜΜΑ Πλεονεκτήματα Αναζήτηση σε ενιαίο περιβάλλον Υποβολή ερώτησης μια φορά Γνώση μιας σύνταξης ερωτήσεων Μεγαλύτερη κάλυψη της πληροφορίας Μειονεκτήματα Συνήθως δεν καθορίζονται από το χρήστη οι χρησιμοποιούμενες υπηρεσίες αναζήτησης Χάνεται η προσωπικότητα των υπηρεσιών αναζήτησης που χρησιμοποιούνται Τα επιστρεφόμενα αποτελέσματα είναι μια συλλογή με τα πιο top ranked από κάθε Μ.Α. 11
Προβλήματα που πρέπει να λυθούν... Μετάφραση των ερωτήσεων (queries) Επεξεργασία των μετα-αποτελεσμάτων Υπό-συστήματα ΜΜΑ Διεπαφή χρήστη Διεκπεραιωτής ή Αποστολέας της ερώτησης Συλλέκτης Αποτελεσμάτων Τοπική Βάση Δεδομένων Εισαγωγή ερώτησης 1
Επεξεργασία και υποβολή ερώτησης Συλλογή και επεξεργασία αποτελεσμάτων 13
Παρουσίαση μετααποτελεσμάτων Απεικόνιση προβλήματος... R m = Dm, o m R = 1 D 1, o1 R = D, o R i = D i, oi o m D m o 1 1 p D 1 α 1 α α p o 1 k D β 1 β β k o m 1... i D m γ 1 γ... γ i 1......... j δ 1 δ......... δ j D = D UKU m 1 D N Λύση... Αλγόριθμοι κατάταξης αποτελεσμάτων από διαφορετικές πηγές Κάποια πρόταση? 14
Μέθοδοι κατάταξης αποτελεσμάτων από διαφορετικές πηγές Μέθοδοι ενσωμάτωσης (rank aggregation methods) Απαιτούν την συγκέντρωση στατιστικών χαρακτηριστικών και τις συχνότητες εμφάνισηςόρων και εγγράφων στην εξεταζόμενη συλλογή. Χρησιμοποιούν ειδικές μεθόδους για να αντιπαραβάλουν τις στατιστικές των συλλογών, επιτρέποντας την παραγωγή συγκρίσιμων βαθμών ομοιότητας στα επιστρεφόμενα αποτελέσματα. Fagin [001], Quick-combine [Guntzer,000], Proximity search [Goldman,1998], WSQ [Widom,000], COMBSUM, COMBMNZ [Fox & Shaw, 1998] Μέθοδοι απομόνωσης (isolated ranking methods) Βάσει ανατιθέμενου βαθμού στάθμισης [Selberg,1995] Βάσει δείκτη βαρύτητας εξυπηρετητή [Hawking,1998] Βάσει ακολουθίας κατάταξης [Yuwono,1997] Βάσει του περιεχομένου [Lawrence,1998] p 1 r 1 p r 1 δείκτης βαρύτητας εξυπηρετητή (χρήστης) p p r 1 Ακολουθία κατάταξης Τάξη αποτελέσματος (y) Τάξη προτεραιότητας μηχανής αναζήτησης (x) 1 p N 1 p1 r1 p r1 pp r1 pn r1 p1 r p r pp r pn r r p1 rr p rr pp rr pn rr K p1 rk p rk pp rk pn rk p N r 1 p 1 r p r p p r p N r p 1 r κ p r κ p p r κ p N r κ 15
Συλλογή Συνολικά ανακτόμενα έγγραφα (A) Σχετικά έγγραφα (R) Ανάκληση = Ακρίβεια = R R a R a Α Σχετικά ανακτόμενα έγγραφα (Ra) Διάγραμμα ανταλλαγής Ακρίβειας - Ανάκλησης Test reference collections: TREC Reuters CACM Ακρίβεια Ανάκληση Precision R q 100 80 60 40 0 0 d3,d5,d9,d 5,d39, = d 44,d56,d71,d89,d 13 10 0 30 40 50 Recall Rank Doc Rel R ecall P recision 0 0% 0% 1 d 13 10% 100% d 84 10% 50% 3 d 56 0% 67% 4 d 6 0% 50% 5 d 84 0% 40% 6 d 9 30% 50% 7 d 511 30% 43% 8 d 19 30% 38% 9 d 187 30% 33% 10 d 5 40% 40% 11 d 38 40% 36% 1 d 48 40% 33% 13 d 50 40% 31% 14 d 113 40% 9% 15 d 3 50% 33% Γραμμική παρεμβολή Μετρήσεις με μεθόδους παρεμβολής (interpolation) σε 11 επίπεδα recall: 0%, 10%, 0%,, 100% a + bx a = Y bx n, b = n xy ( x x )( y) ( x ) 16
Μέση τιμή ακρίβειας στο r επίπεδο ανάκλησης με N q ερωτήσεις P( r) = N q i= 1 Pi ( r) N q Αρμονικός μέσος όρος F( j ) = 1 1 + R( j ) P( j ) Μετρική Ε 1+ b E( j ) = 1 b 1 + R( j ) P( j ) Μέτρηση σημείου ισορροπίας (σ.ε.) breakeven-point Ακρίβεια 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0,1 0 0 0,1 0, 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Ανάκληση Slides - Projects http://www.medialab.ntua.gr COMMUNICATION TECHNOLOGY janag@telecom.ntua.gr 17