Ανάκτηση Πληροφορίας

Σχετικά έγγραφα
ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Εισαγωγή στους Αλγορίθμους

Δομές Δεδομένων Ενότητα 1

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διοικητική Λογιστική

Μηχανολογικό Σχέδιο Ι

Ψηφιακή Επεξεργασία Εικόνων

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Διδακτική της Πληροφορικής

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Ιστορία της μετάφρασης

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Μάρκετινγκ Αγροτικών Προϊόντων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Βέλτιστος Έλεγχος Συστημάτων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Κβαντική Επεξεργασία Πληροφορίας

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Ανάκτηση πληροφορίας

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Μάρκετινγκ Αγροτικών Προϊόντων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Ανάκτηση πληροφορίας

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Ψηφιακή Επεξεργασία Εικόνων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Τεχνολογία Λογισμικού

Η ΓΝΩΣΗ ΚΑΙ ΤΟ ΠΡΑΓΜΑΤΙΚΟ ΣΤΟΝ ΠΛΑΤΩΝΑ ΚΑΙ ΤΟΝ ΑΡΙΣΤΟΤΕΛΗ

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 4

Κβαντική Επεξεργασία Πληροφορίας

Διοίκηση Επιχειρήσεων

Ανάκτηση Πληροφορίας

Βάσεις Περιβαλλοντικών Δεδομένων

Ανάκτηση Πληροφορίας

Οικονομική Γεωργικών Εκμεταλλεύσεων

Ατμοσφαιρική Ρύπανση

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διοικητική Λογιστική

Εφαρμογές πληροφορικής σε θέματα πολιτικού μηχανικού

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 3

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εκκλησιαστικό Δίκαιο

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Η ΓΝΩΣΗ ΚΑΙ ΤΟ ΠΡΑΓΜΑΤΙΚΟ ΣΤΟΝ ΠΛΑΤΩΝΑ ΚΑΙ ΤΟΝ ΑΡΙΣΤΟΤΕΛΗ

Στατιστική. 6 ο Μάθημα: Διαστήματα Εμπιστοσύνης και Έλεγχοι Υποθέσεων. Γεώργιος Μενεξές Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Λογιστική Κόστους. Ενότητα 4: ΣΥΜΠΕΡΙΦΟΡΑ - ΦΥΣΗ ΚΟΣΤΟΥΣ. Μαυρίδης Δημήτριος Τμήμα Λογιστικής και Χρηματοοικονομικής

Υπολογιστική άλγεβρα Ενότητα 1: Πολυωνυμικές σχέσεις και ταυτότητες, μέρος Ι

Εκκλησιαστικό Δίκαιο

Λογιστική Κόστους Ενότητα 5: Προορισμός Κόστους

Βάσεις Δεδομένων Ενότητα 1

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Μηχανολογικό Σχέδιο Ι

Μάρκετινγκ Αγροτικών Προϊόντων

Μαθηματικά στην Πολιτική Επιστήμη:

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

Τεχνικό Σχέδιο - CAD

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Κβαντική Επεξεργασία Πληροφορίας

Θέματα Εφαρμοσμένης. Ενότητα 11 : Οργάνωση κόμματων. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Αγροτικός Τουρισμός. Ενότητα 9 η : Εκπαιδευτικές τεχνικές στον τουρισμό. Όλγα Ιακωβίδου Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Παράκτια Τεχνικά Έργα

Λογισμός 3. Ενότητα 19: Θεώρημα Πεπλεγμένων (γενική μορφή) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Τηλεματική και Νέες Υπηρεσίες

Μηχανολογικό Σχέδιο Ι

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Βάσεις Δεδομένων. Ενότητα 1: Εισαγωγή στις Βάσεις δεδομένων. Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών σπουδών

ΑΡΙΣΤΟΤΕΛΕΙΟ ΑΝΟΙΚΤΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΚΑΔΗΜΑΪΚΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΑΘΗΜΑΤΑ Γενικά Μαθηματικά Ι Ενότητα 11 : Ακολουθίες και Σειρές Λουκάς Βλάχος Τμήμα Φυσικής

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 11: στον Παγκόσμιο Ιστό (Web) Απόστολος Παπαδόπουλος

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Περιεχόμενα ενότητας 1. Παγκόσμιος Ιστός. 2. Προκλήσεις. 3. Μηχανές αναζήτησης. 4. Τεχνικές βαθμολόγησης σελίδων i. HITS και PageRank. 5. Τάσεις. 4

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Παγκόσμιος Ιστός

Παγκόσμιος Ιστός (The Web)-1 Ο Παγκόσμιος Ιστός αποτελεί εφαρμογή του Internet. Χρησιμοποιεί υπερσυνδέσμους (hyperlinks) για πλοήγηση από σελίδα σε σελίδα (όπως και στο hypertext). HTTP πρωτόκολλο. CERN, Tim Berners-Lee, 1990. Ανέπτυξε το Web για την ανταλλαγή αρχείων μέσω Internet. Πηγή: Wikipedia 6

Παγκόσμιος Ιστός (The Web)-2 Ted Nelson, 1965: δημιουργία του hypertext. Doug Engelbart, τέλη 60: ανακάλυψη του ποντικιού και η πρώτη υλοποίηση του hypertext. ARPANET, αρχές 70. Αν και η βασική υποδομή υπήρχε στα μέσα της δεκαετίας του 70, χρειάστηκε η είσοδος των PCs και μοντέρνων δικτυακών τεχνικών για να την έμπνευση του Web. 7

Παγκόσμιος Ιστός (The Web)-3 Mosaic Web Browser, 1993: δημιουργήθηκε από τους Marc Andreessen and Eric Bina at UIUC NCS. Το 1993 δημιουργούνται τα πρώτα web bots (spiders). Το 1994, οι David Filo και Jerry Yang φοιτητές του Stanford άρχισαν να συγκεντρώνουν χειροκίνητα τα πιο δημοφιλή web sites σε έναν θεματικό κατάλογο που ονομάστηκε Yahoo. 8

Παγκόσμιος Ιστός (The Web)-4 Το 1994, ο Brian Pinkerton ανέπτυξε τον WebCrawler στα πλαίσια μίας εργασίας στο της Washington. Στη συνέχεια ο WebCrawler έγινε μέρος του Excite και της AOL. To 1995, η DEC αναπτύσσει τη μηχανή Altavista. Το 1998, οι Larry Page και Sergey Brin, διδακτορικοί φοιτητές του Stanford, ξείνησαν την Google. 9

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Προκλήσεις

Προκλήσεις-1 Το Web χαρακτηρίζεται ως η εφαρμογή killer για την ανάκτηση πληροφορίας. μεγάλες ποσότητες δεδομένων κατανομή δεδομένων σε εκατ. sites συχνές αλλαγές επανάληψη δεδομένων πόσο ποιοτικά είναι τα δεδομένα? αδόμητα, ημιδομημένα και πλήρως δομημένα δεδομένα ετερογένεια (διαφορετικές μορφές, π.χ., html, mpg, pdf, διαφορετικές γλώσσες, κλπ). 11

Προκλήσεις-2 12

Προκλήσεις-3 13

Zipf και Web-1 Ο αριθμός των εισερχομένων και εξερχομένων συνδέσμων μία σελίδας ακολουθεί την κατανομή Zipf. Το μέγεθος των σελίδων ακολουθεί την κατανομή Zipf. Ο αριθμός των hits μίας σελίδας ακολουθεί την κατανομή Zipf. 14

Zipf και Web-2 Και ποια είναι η κατανομή Zipf? Πολλά δεδομένα του φυσικού κόσμου μπορούν να μοντελοποιηθούν σύμφωνα με την Zipf κατανομή, που είναι ειδική κατηγορία Power Law. Έστω F(x) ο αριθμός εμφανίσεων της x-οστής συχνότερης λέξης. O Zipf Law μας λέει ότι: F( x) 1 a x Το α είναι κοντά στη μονάδα. 15

Zipf και Web-3 16

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Μηχανές Αναζήτησης

Μηχανές Αναζήτησης-1 Βασικά στοιχεία. Μηχανής αναζήτησης. Επεξεργαστής ερωτημάτων. Κατάλογος. Διαχειριστής καταλόγου. Crawler. Επεξεργασία Ερωτήματος Διαχειριστής Καταλόγου Crawler Κατάλογος 18

Μηχανές Αναζήτησης-2 Κατανεμημένη αρχιτεκτονική Replication Manager Broker Broker Gatherer Cache Web Site 19

Μηχανές Αναζήτησης: crawling-1 Web Crawler: ένα πρόγραμμα που διαβάζει («κατεβάζει») σελίδες Web. Επίσης καλείται και Spider, Bot, WebBot. Προσοχή: ο crawler δεν είναι agent, τρέχει σε κάποιον server και απλά παράγει HTTP αιτήσεις για να «κατεβάσει» τις σελίδες. Το ίδιο ακριβώς κάνει και ένας χρήστης χρησιμοποιώντας έναν Web Browser. Η διαφορά είναι ότι ο crawler είναι πιο συστηματικός και φυσικά πιο γρήγορος στο browsing. 20

Μηχανές Αναζήτησης: crawling-2 Απλός αλγόριθμος για crawling Έστω W το σύνολο των σελίδων που πρέπει να κάνουμε crawling. 1. Αρχικά, επιλέγονται μερικές σελίδες ως αφετηρία και μπαίνουν στο σύνολο W. 2. Διαβάζουμε μία σελίδα p από το σύνολο W. Μετά το parsing της σελίδας p έστω ότι προσδιορίζονται N(p) σελίδες άμεσα επισκέψιμες από την p. 3. Θέτουμε W := W + N(p) - p 4. Η διαδικασία επαναλαμβάνεται από το βήμα 1. 21

Μηχανές Αναζήτησης: crawling-3 Ο αλγόριθμος είναι απλός αλλά Πως θα κάνουμε crawling τα εκατ. των Web σελίδων; Πως θα αποφύγουμε το overloading ενός Web server; Τι θα κάνουμε εάν ο ιδιοκτήτης ενός server δεν επιθυμεί crawlers; Πως θα χειριστούμε μη έγκυρους συνδέσμους (broken links); Με ποιά στρατηγική θα προχωρήσουμε στο crawling (DFS, BFS); Τι δομές απαιτούνται για τον έλεγχο των σελίδων που βρίσκουμε; 22

Μηχανές Αναζήτησης: crawling-4 Πως θα αποφύγουμε τους crawlers; Ο διαχειριστής του Web server μπορεί να ορίσει ποιες περιοχές του server δεν πρέπει να διαβαστούν από crawlers, δημιουργώντας ένα κατάλληλα διαμορφωμένο αρχείο με όνομα robots.txt Επίσης, ο συγγραφέας μίας Web σελίδας μπορεί να δηλώσει ότι δεν επιθυμεί η σελίδα να διαβαστεί και να γίνει indexed από crawlers χρησιμοποιώντας μία ειδική HTML META tag. 23

Μηχανές Αναζήτησης: crawling-5 http://gr.yahoo.com/robots.txt User-agent: * Disallow: /gnn Disallow: /msn Disallow: /pacbell Disallow: /pb Disallow: /bin/query_uk # Rover is a bad dog <http://www.roverbot.com> User-agent: Roverbot Disallow: / 24

Μηχανές Αναζήτησης: crawling-6 Χρησιμοποιώντας την META tag robots ο δημιουργός μίας σελίδας μπορεί να αποτρέψει την καταλογοποίηση και ανάλυση της σελίδας για links. Παράδειγμα: <meta name="robots" content="noindex, nofollow"> Ο crawler δεν θα πρέπει να κάνει indexing τη σελίδα ούτε και να την αναλύσει για να βρει νέα links. 25

Μηχανές Αναζήτησης: crawling-7 Για να μπορέσουμε να κάνουμε crawling 1 δις σελίδες το μήνα θα πρέπει να κατεβάζουμε περίπου 400 σελίδες το δευτερόλεπτο. Άρα, οι δομές δεδομένων θα πρέπει να είναι αποδοτικές. Επίσης, δεν πρέπει να φορτώνουμε πολύ το server. Η υλοποίηση του crawler τελικά δεν είναι καθόλου απλή. 26

Μηχανές Αναζήτησης: crawling-8 Mercator είναι ένας crawler υψηλών επιδόσεων που δημιουργήθηκε από τους Allan Heydon, Marc Njork, Raymie Stata και συνεργάτες στο Compaq Systems Research Center (αποτελεί συνέχιση της δουλειάς της AltaVista). Heritrix είναι ένας ανοικτού κώδικα crawler υψηλών επιδόσεων που υλοποιήθηκε από τον Raymie Stata και συνεργάτες στο Internet Archive. 27

Μηχανές Αναζήτησης: crawling: Mercator Τα βασικότερα τμήματα του Mercator (thanks to Young Geun Han) Mercator I N T E R N E T DNS Resolver 2 3 HTTP FTP Gopher RIS 4 Content Seen? 5 Link 6 URL 7 URL 8 Extractor Filter Seen? Tag Counter GIF Stats Doc FPs Log Log URL Set URL Frontier Queue Files 1 Protocol Modules Processin g Modules 28

The URL frontier URL frontier: αποτελεί τη βασική δομή που περιέχει τα URLs που πρέπει να επισκεφτούμε. a FIFO queue a collection of distinct FIFO subqueues Naver Daum SSU I N T E R N E T HTTP HTTP HTTP http://daum.net/b.html http://naver.com/c.html http://www.ssu.ac.kr http://daum.net/a.html http://naver.com/b.html http://naver.com/a.html Head Naver Daum SSU I N T E R N E T HTTP HTTP HTTP http://naver.com/c.html http://naver.com/b.html http://naver.com/a.html http://daum.net/b.html http://daum.net/a.html http://www.ssu.ac.kr Head Head Head Web Server Protocol Module URL frontier Web Server Protocol Module URL frontier 29

Billions of Pages Μηχανές Αναζήτησης: indexing-1 Πηγή: http://searchenginewatch.com/sew/study/2068075/search-engine-sizes 30

Μηχανές Αναζήτησης: indexing-2 Ο κατάλογος μίας μηχανής αναζήτησης είναι συνήθως παραλλαγές του αντεστραμμένου καταλόγου. Ωστόσο, η διαχείρισή του απαιτεί τεράστια υπολογιστική ισχύ αν σκεφτούμε ότι οι crawlers διαβάζουν σελίδες με γρήγορους ρυθμούς. 31

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Τεχνικές βαθμολόγησης σελίδων

Βαθμολόγηση-1 Στα κλασικά συστήματα ανάκτησης η βαθμολόγηση των εγγράφων πραγματοποιείται με βάση το περιεχόμενο των σελίδων. Για παράδειγμα, αν χρησιμοποιήσουμε τον τύπο του συνημιτόνου έχουμε έναν τρόπο βαθμολόγησης ενός εγγράφου σε σχέση με ένα ερώτημα. Γιατί να διαφέρουν τα πράγματα στο Web; 33

Βαθμολόγηση-2 Στο Web θα πρέπει να λάβουμε υπόψη μας ότι τα δεδομένα δε χαρακτηρίζονται πάντα από ποιότητα και εγκυρότητα. Η ιδέα είναι να χρησιμοποιήσουμε την πληροφορία των links για να βαθμολογήσουμε μία σελίδα. Η τελική βαθμολογία μίας σελίδας προκύπτει από συνδυασμό των επί μέρους βαθμών. 34

Βαθμολόγηση-3 Ποιά είναι η καλύτερη σελίδα που θα μπορούσε να επισκεφτεί κάποιος που ενδιαφέρεται για Java; Απάντηση: java.sun.com comp.lang.java FAQ Πως το βρήκαμε; 35

Αλγόριθμος HITS-1 Ο αλγόριθμος σχεδιάστηκε από τον Kleinberg το 1998. Προσπαθεί να εντοπίσει HUBS και AUTHORITIES για ένα δεδομένο θέμα (π.χ., Java). AUTHORITY: σελίδα που μας δίνει σημαντική, αξιόπιστη και χρήσιμη πληροφορία για ένα θέμα που μας ενδιαφέρει. HUB: σελίδα που περιέχει links σε σχετικά AUTHORITIES. 36

Αλγόριθμος HITS-2 HUBS και AUTHORITIES σχηματίζουν διμερή γράφο. Hubs Authorities 37

Αλγόριθμος HITS-3 Ο HITS ξεκινά από ένα σύνολο σχετικών σελίδων, σύνολο R, το οποίο επαυξάνεται για να δημιουργήσει το σύνολο S. Στη συνέχεια, ο υπογράφος που ορίζεται από το σύνολο S αναλύεται, ώστε να εντοπιστούν HUBS και AUTHORITIES μέσα στο S. Τέλος, τα καλύτερα AUTHORITIES επιστρέφονται στο χρήστη. 38

Αλγόριθμος HITS-4 Για ένα ερώτημα Q, έστω R το σύνολο των σελίδων που επιστρέφονται από μία μηχανή αναζήτησης. Αρχικοποιούμε S := R. Προσθέτουμε στο S όλες οι σελίδες που δείχνονται από σελίδες του R. Προσθέτουμε στο S όλες τις σελίδες που δείχνου σε σελίδες του R. S R 39

Αλγόριθμος HITS-5 Ακόμη και μέσα στο σύνολο S, οι κόμβοι (σελίδες) με μεγάλο βαθμό εισόδου δεν είναι κατ ανάγκη authorities. Μπορεί απλά να είναι δημοφιλείς σελίδες (π.χ., Amazon). Για να βρούμε τα πραγματικά authorities θα πρέπει να δούμε από πόσα hubs δείχνεται η κάθε σελίδα. Ο αλγόριθμος εντοπίζει για κάθε σελίδα το πόσο hub και πόσο authority είναι. 40

Αλγόριθμος HITS-6 Επαναληπτικός αλγόριθμος που εκτελείται μέχρι να συγκλίνει. Για κάθε σελίδα p S κρατάμε τα εξής: authority score: as(p) (vector a) hub score: hs(p) (vector h) Αρχικά για κάθε p S, as(p) = hs(p) = 1 Τα scores κανονικοποιούνται έτσι ώστε: as( p) 2 1 hs( p) 2 1 p S p S 41

Αλγόριθμος HITS-7 Τα authorities δείχνονται από πολλά καλά hubs: as( p) q: q hs( q) p Τα hubs δείχνουν σε πολλά καλά authorities: hs( p) q: p as( q) q 42

Αλγόριθμος HITS-8 1 2 4 as(4) = hs(1)+hs(2)+hs(3) 3 5 hs(4) = as(5)+as(6)+as(7) 4 6 7 43

Αλγόριθμος HITS-9 Αρχικοποίηση για κάθε p S: as(p) = hs(p) = 1 for i = 1 to k: for all p S: as( p) hs( q) (ενημέρωση authority scores) q: q p for all p S: hs( p) as( q) (ενημέρωση hub scores) q: p q for all p S: as(p)= as(p)/c c: p S as( p) / c 2 1 for all p S: hs(p)= hs(p)/c c: p S hs( p) / c 2 1 44

Αλγόριθμος HITS-10 Ο αλγόριθμος συγκλίνει σε σταθερό σημείο αν επαναληφθεί πάρα πολλές φορές. Έστω A ο πίνακας γειτνίασης του υπογράφου που ορίζεται από το σύνολο S. A ij = 1 για i S, j S iff i j (η i δείχνει στην j) Το διάνυσμα as συγκλίνει στο σημαντικότερο ιδιοδιάνυσμα του πίνακα A T A Το διάνυσμα hs συγκλίνει στο σημαντικότερο ιδιοδιάνυσμα του πίνακα AA T Στην πράξη, με 20 επαναλήψεις έχουμε ικανοποιητικά αποτελέσματα. 45

Αλγόριθμος HITS-11 Authorities for query: Java java.sun.com comp.lang.java FAQ Authorities for query search engine Yahoo.com Excite.com Lycos.com Altavista.com Authorities for query Gates Microsoft.com roadahead.com 46

Αλγόριθμος PageRank-1 Εναλλακτικός τρόπος ανάλυσης συνδέσμων, Brin και Page, 1998 (Google). Δεν κάνει διάκριση μεταξύ hubs και authorities. Η βαθμολογία των σελίδων στηρίζεται μόνο σε authorities. Εφαρμόζεται σε όλο το Web και όχι μόνο σε μία γειτονιά όπως ο HITS. Ο αλγόριθμος είναι query independent σε αντίθεση με τον HITS που είναι query dependent. 47

Αλγόριθμος PageRank-2 Χρησιμοποιώντας μόνο το πλήθος των εισερχομένων ακμών δεν μπορούμε να βγάλουμε ασφαλές συμπέρασμα. Εξίσωση για κάθε σελίδα p του Web: R( p) c q: q p R( q) Nq N q αριθμός εξερχομένων ακμών από τη σελίδα q. c χρησιμοποιείται για κανονικοποίηση ώστε το άθροισμα των βαθμών (ranks) των σελίδων να είναι 1. 48

Αλγόριθμος PageRank-3.1.09.05.05.03.03.03.08.08.03 49

Αλγόριθμος PageRank-4 Έστω S το σύνολο των σελίδων Αρχικοποίηση p S: R(p) = 1/ S repeat έως ότου οι βαθμοί δεν αλλάζουν πολύ p S: R ( p) q: q p R( q) Nq c 1/ R ( p) p S p S: R(p) = cr (p) 50

Αλγόριθμος PageRank-5 0.4 0.2 0.2 0.4 0.2 0.4 0.2 51

Αλγόριθμος PageRank: πρόβλημα Πρόβλημα με τον απλό αλγόριθμο Ο βαθμός καταναλώνεται 52

Αλγόριθμος PageRank: λύση Εισάγουμε μία πηγή βαθμού E που συνεχώς δίνει ένα σταθερό κομμάτι βαθμού E(p). R( p) c q: q p R( q) N q E( p) 53

Αλγόριθμος PageRank-6 Έστω S ο συνολικός αριθμός σελίδων. p S: E(p) = / S (για 0< <1, π.χ., 0.15) Αρχικοποίηση p S: R(p) = 1/ S Μέχρι σύγκλιση p S: R ( p) (1 c 1/ R ( p) p S: R(p) = cr (p) p S ) q: q p R( q) N q E( p) 54

Αλγόριθμος PageRank-7 Τα πρώτα πειράματα έγιναν με περίπου 322 εκατ links. Ο PageRank έδειξε ότι συγκλίνει σε περίπου 52 επαναλήψεις. Εμπειρικά, απαιτούνται O(log n) επαναλήψεις για σύγκλιση, όπου n το πλήθος των links. 55

Σύγκριση PageRank Ακριβός στους υπολογισμούς Εφαρμόζεται μία φορά για όλες τις σελίδες Ανεξάρτητος ερωτήματος Ο βαθμός μίας σελίδας υπολογίζεται ως προς το authority HITS Ακριβός στους υπολογισμούς Εφαρμόζεται για κάθε ερώτημα (άρα εξαρτάται από το ερώτημα) Δίνει hubs και authorities Η ποιότητα του αποτελέσματος εξαρτάται από την ποιότητα του αρχικού συνόλου σελίδων 56

Η Βαθμολόγηση της Google Με βάση παλαιότερες δημοσιεύσεις: Ομοιότητα βάσει διανυσματικού μοντέλου. Ομοιότητα βάσει γειτονικότητας των λέξεων. Ομοιότητα με βάρη στα HTML-tags. Βαθμός από PageRank. Δεν έχουμε διαθέσιμες λεπτομέρειες για το πώς ακριβώς γίνεται σήμερα η βαθμολόγηση από την Google (για προφανείς λόγους). 57

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Τάσεις

Τάσεις Κατανεμημένες μηχανές αναζήτησης. P2P μηχανές αναζήτησης. Multimedia μηχανές αναζήτησης (audio, images, video). Εξόρυξη δεδομένων από δεδομένα Web (web mining). Continuous ερωτήματα. 59

Χρήσιμοι Σύνδεσμοι Hobbe s Internet Timeline http://www.zakon.org/robert/internet/timeline 60

Χρήσιμα Άρθρα S. Brin, L. Page, The Anatomy of a Large Scale Hypertextual Web Search Engine, Computer Networks and ISDN Systems, 1998. M. Faloutsos, P. Faloutsos, and C. Faloutsos. On Power Law Relationships of the Internet Topology, ACM SIGCOMM, 1999. R. Kumar, P. Raghavan, S. Rajagopalan D. Sivakumar, et al, The Web as a Graph, ACM PODS, 2000. 61

Σημείωμα Αναφοράς Copyright, Απόστολος Παπαδόπουλος. «Ανάκτηση πληροφορίας. στον Παγκόσμιο Ιστό (Web Information Retrieval)». Έκδοση: 1.0. Θεσσαλονίκη 2014. Διαθέσιμο από τη δικτυακή διεύθυνση: http://eclass.auth.gr/courses/ocrs388/

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά - Μη Εμπορική Χρήση - Όχι Παράγωγα Έργα 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο [1] http://creativecommons.org/licenses/by-nc-nd/4.0/

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Τέλος ενότητας Επεξεργασία: <Μαυρίδης Απόστολος> Θεσσαλονίκη, <Εαρινό εξάμηνο 2013-2014>

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Σημειώματα

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.