Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Ανάκληση Πληπουοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Επιταχύνοντας την εκτέλεση του PageRank

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ευαισθησία του PageRank. Το πρόβληµα PageRank ως. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Επίλυση Γραµµικών Συστηµάτων

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

ΚΕΦΑΛΑΙΟ 4 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΠΡΑΓΜΑΤΙΚΩΝ Ι ΙΟΤΙΜΩΝ. 4.1 Γραµµικοί µετασχηµατισµοί-ιδιοτιµές-ιδιοδιανύσµατα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 3: Περιγραφή αριθμητικών μεθόδων (συνέχεια)

Γραµµική Αλγεβρα. Ενότητα 6 : Ιδιοτιµές & Ιδιοδιανύσµατα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΚΕΦΑΛΑΙΟ 3 ΑΡΙΘΜΗΤΙΚΗ ΕΠΙΛΥΣΗ ΓΡΑΜΜΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. nn n n

Εισαγωγή στην επιστήµη των υπολογιστών. Υπολογιστές και Δεδοµένα Κεφάλαιο 3ο Αναπαράσταση Αριθµών

Εισαγωγή στην επιστήµη των υπολογιστών. Αναπαράσταση Αριθµών

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

Μαρκοβιανές Αλυσίδες

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων.

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 9 Επαναληπτικες Ασκησεις

ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΞΙΣΩΣΕΩΝ

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Αριθμητική Ανάλυση & Εφαρμογές

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Ασκησεις - Φυλλαδιο 4

ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΑΠΟΙΚΙΑΣ ΜΥΡΜΗΓΚΙΩΝ ANT COLONY OPTIMIZATION METHODS

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 4

2η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 3 (Θεωρία-Αλγόριθµοι-Εφαρµογές)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

ΘΕΜΑΤΑ ΕΞΕΤΑΣΗΣ ΚΑΙ ΑΠΑΝΤΗΣΕΙΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ:

Εισαγωγή στην επιστήµη των υπολογιστών ΑΡΙΘΜΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ

5.1 Ιδιοτιµές και Ιδιοδιανύσµατα

Μελέτη Περίπτωσης: Random Surfer

Στοιχεία Θεωρίας Γραφηµάτων (3)

Απαρίθµηση Μονοπατιών. Στοιχεία Θεωρίας Γραφηµάτων (3) Μονοπάτια και Κυκλώµατα Euler. Ορέστης Τελέλης

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων

Σηµειώσεις στις σειρές

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

Επίκουρος Καθηγητής Παν/µίου Ιωαννίνων. Μαθηµατικά Ι Ακαδ. Έτος /58

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Γραµµική Αλγεβρα. Ενότητα 3 : ιανυσµατικοί Χώροι και Υπόχωροι. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Αριθµητική Ανάλυση. Τµήµα Α ( Αρτιοι) : Καθηγητής Ν.Μισυρλής,Τµήµα Β (Περιττοί) : Επίκ. Αριθµητική Καθηγητής Ανάλυση Φ.Τζαφέρης

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 4

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2. Α1. Ο αλγόριθμος είναι απαραίτητος μόνο για την επίλυση προβλημάτων πληροφορικής

QR είναι ˆx τότε x ˆx. 10 ρ. Ποιά είναι η τιµή του ρ και γιατί (σύντοµη εξήγηση). P = [X. 0, X,..., X. (n 1), X. n] a(n + 1 : 1 : 1)

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΜΑΣ 371: Αριθμητική Ανάλυση ΙI ΑΣΚΗΣΕΙΣ. 1. Να βρεθεί το πολυώνυμο Lagrange για τα σημεία (0, 1), (1, 2) και (4, 2).

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΜΑΘΗΜΑΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ιδάσκοντες :Τµήµα Α ( Αρτιοι) : Καθηγητής Ν. Μισυρλής,Τµήµα Β (Περιττοί) : Αριθµητική Επίκ.

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Γράφημα. Συνδυαστικό αντικείμενο που αποτελείται από 2 σύνολα: Σύνολο κορυφών (vertex set) Σύνολο ακμών (edge set) 4 5 πλήθος κορυφών πλήθος ακμών

Δομές Δεδομένων και Αλγόριθμοι

ΣΤΟΧΑΣΤΙΚΕΣ ΙΑ ΙΚΑΣΙΕΣ

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Αριθµητική Ανάλυση. 27 Οκτωβρίου Αριθµητική Ανάλυση 27 Οκτωβρίου / 72

Μη κατευθυνόµενα γραφήµατα. Στοιχεία Θεωρίας Γραφηµάτων (1) Υπογραφήµατα.

Αλγόριθµοι Οπισθοδρόµησης

Σποραδικές Μήτρες (Sparse Matrices) Αθανάσιος Μυγδαλ ας ΑΠΘ AΠΘ. 17 Μαρτίου 2010 c Α.Μ.

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Αδιάσπαστοι, p-κυκλικοί, συνεπώς διατεταγµένοι πίνακες και γραφήµατα

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Γραµµικη Αλγεβρα Ι Επιλυση Επιλεγµενων Ασκησεων Φυλλαδιου 4

Matrix Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι. Αλγόριθμοι» Γ. Καούρη Β. Μήτσου

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΠΛΗΡΟΦΟΡΙΚΗ ΘΕ: ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΤΗΝ ΠΛΗΡΟΦΟΡΙΚΉ Ι (ΠΛΗ 12) ΛΥΣΕΙΣ ΕΡΓΑΣΙΑΣ 3

Γ. Κορίλη Αλγόριθµοι ροµολόγησης

4.5.6 ΡΗΤΑ ΠΟΛΥΩΝΥΜΙΚΑ ΤΜΗΜΑΤΑ Η ΑΠΕΙΚΟΝΙΣΗ ΣΗΜΕΙΟΥ ΜΕ ΒΑΡΟΣ ΤΟ ΚΥΚΛΙΚΟ ΤΜΗΜΑ

(2) Θεωρούµε µοναδιαία διανύσµατα α, β, γ R 3, για τα οποία γνωρίζουµε ότι το διάνυσµα

ΑΛΓΕΒΡΙΚΕΣ ΟΜΕΣ Ι. Ασκησεις - Φυλλαδιο 2

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑΤΙΚΑ Ι ΕΡΓΑΣΙΑ 6 ΛΥΣΕΙΣ

Γραµµικη Αλγεβρα ΙΙ Ασκησεις - Φυλλαδιο 10

Θέµατα ( ικαιολογείστε πλήρως όλες τις απαντήσεις σας)

Βασική Εφικτή Λύση. Βασική Εφικτή Λύση

Συστήµατα Μη-Γραµµικών Εξισώσεων Μέθοδος Newton-Raphson

ΑΡΙΣΤΕΣ ΤΙΜΕΣ ΚΑΙ ΑΚΡΟΤΑΤΕΣ ΤΙΜΕΣ

Ανάλυση Σ.Α.Ε στο χώρο κατάστασης

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Transcript:

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 9η: 25/04/2007 1 Τα µαθηµατικά του PageRank Παράµετροι του µοντέλου PageRank 2 Τα µαθηµατικά του PageRank 3 1

Η αρχική εξίσωση αθροίσµατος Το PageRank µιας σελίδας είναι το άθροισµα του PageRank τωνσελίδωνπουδείχνουνσ αυτή: Το πρόβληµα µε τη εξίσωση αυτή είναι ότι δεν ξέρουµε το PageRank των σελίδων που δείχνουν στη P i Το πρόβληµα επιλύθηκεµε επαναληπτική διαδικασία Αρχικά κάθε σελίδα έχει το ίδιο PageRank, ίσο µε 1/n Ακολουθούµε την παραπάνω εξίσωση επαναληπτικά 4 Η επαναληπτική διαδικασία (1/2) Έστω ότι r k+1 (P i ) είναι το PageRank της σελίδας P i στην επανάληψη k+1: Η διαδικασία ξεκινά µε r 0 (P i )=1/n για κάθε σελίδα Συνεχίζεται µε την ελπίδα ότι τελικά θα συγκλίνει 5 Η επαναληπτική διαδικασία (2/2) Εφαρµόζοντας την επαναληπτική διαδικασία στο µικρό γράφηµα αριστερά, µετά από µερικές επαναλήψεις έχουµε τον πίνακα δεξιά: 6 2

Αναπαράσταση της επανάληψης µε πίνακα Η προηγούµενες εξισώσεις υπολογίζουν το PageRank των σελίδων µια σελίδα κάθε φορά Με χρήση πινάκων αντικαθιστούµε τοσύµβολο Σ Εισαγάγουµε τον πίνακα H, και το 1x n διάνυσµα π Τ Ο H είναι ένας row-normalized πίνακας υπερσυνδέσεων µε H ij =1/ P i, εάν υπάρχει σύνδεσµος από τον κόµβο i στον j, αλλιώς H ij =0 Παρόλο που ο H έχει την ίδια µη-µηδενική δοµή µε τον δυαδικό πίνακα γειτνιάσεων, τα µη µηδενικά στοιχεία του H είναι πιθανότητες 7 Παράδειγµα αναπαράστασης µε πίνακα Τα µη-µηδενικά στοιχεία της γραµµής i αναπαριστούν τους εξερχόµενους συνδέσµους της σελίδας i Τα µη-µηδενικά στοιχεία της στήλης i αναπαριστούν τους εισερχόµενους συνδέσµους στη σελίδα i Η προηγούµενη εξίσωση γίνεται τώρα: 8 Επίδοση της αναπαράστασης µε πίνακα 1. Κάθε επανάληψη της προηγούµενης εξίσωσης απαιτεί έναν πολλαπλασιασµό, άρα O(n 2 ) πολυπλοκότητα 2. Ο H είναι γενικά πολύ αραιός (sparse), άρα Απαιτεί µικρό αποθηκευτικό χώρο Ο πολλαπλασιασµός είναι πιο οικονοµικός σε σχέση µε τοo(n 2 ) Απαιτεί µόνο O(nnz(H)), όπου nnz(h) είναι ο αριθµός των µη- µηδενικών Μετρήσεις δείχνουν ότι το nnz(h) ~ 10n Άρα υπολογιστικό κόστος της τάξης O(n) 3. Η επαναληπτική διαδικασία είναι απλά µια linear stationary process: είναι η κλασική power method πάνω στον H 4. O H µοιάζει µε στοχαστικό πίνακα πιθανοτήτων µετάβασης, όµως είναι substochastic, γιατί υπάρχουν dangling nodes, δηλ., χωρίς εξερχόµενους συνδέσµους 9 3

Προβλήµατα της επαναληπτικής διαδικασίας Θα συγκλίνει; Κάτω από ποιες προϋποθέσεις ή ιδιότητες του H θα συγκλίνει; Θα συγκλίνει σε κάτι που έχει µαθηµατικό νόηµα; Θα συγκλίνει σε ένα ή περισσότερα διανύσµατα; Ησύγκλισηεξαρτάταιαπότοαρχικόδιάνυσµα π (0)Τ ; Πόσο γρήγορα θα συγκλίνει; 10 Προβλήµατα της επαναληπτικής διαδικασίας Αρχικά, η επαναληπτική διαδικασία ξεκίνησε µε π (0)Τ =1/ne Τ (όπου e Τ είναι διάνυσµα-γραµµή µε όλα1) Προέκυψε το πρόβληµα τηςκαταβόθρας (rank sinks) σελίδες που αυξάνουν συνεχώς το PageRank τους Στο παρακάτω παράδειγµα τοκόµβος 3, ενώ στο προηγούµενο παράδειγµα ηοµάδα των κόµβων 4, 5, και 6 Μετά από 13 επαναλήψεις, π (13)Τ =(0 0 0 2/3 1/3 1/5) 11 Προβλήµατα της επαναληπτικής διαδικασίας Επίσης, καθώς οι κόµβοι αυξάνουν συνεχώς το PageRank τους, µερικοί δεν έχουν καθόλου Τότε, ποιο είναι το νόηµα τηςταξινόµησης µε βάσητο PageRank, όταν η πλειονότητα έχει PageRank ίσο µε 0; Υπάρχει το πρόβληµα των κύκλων Εάν, ξεκινήσουµε µε π (0)Τ =(1 0), καταλήγουµε σε ατέρµονη διαδικασία Στο διάνυσµα π (k)τ =(1 0) για άρτιο k Στο διάνυσµα π (k)τ =(0 1) για περιττό k 12 4

Υπενθύµιση εννοιών Markov chains Με οποιοδήποτε διάνυσµα ξεκινήσουµε, όταν εφαρµοστεί η power method σε έναν Markov πίνακα P, συγκλίνει σε ένα µοναδικόθετικόδιάνυσµα, το οποίο αποκαλείται stationary vector Προϋποθέσεις σύγκλισης O P είναι stochastic: οι γραµµές αθροίζουν στο 1 O P είναι irreducible: το υποκείµενο γράφηµα είναι strongly-connected O P είναι aperiodic: για οποιεσδήποτε σελίδες P i και P j υπάρχουν µονοπάτια από την P i στην P j (µε οποιεσδήποτε επαναλήψεις) οποιουδήποτε µήκους, εκτός από ένα πεπερασµένο σύνολο µηκών Irreducible + aperiodic = primitive (πρωτογενής) Τα προβλήµατα σύγκλισης του PageRank θα ξεπεραστούν εάν ο H τροποποιηθεί, ώστε να ικανοποιεί τις παραπάνω προϋποθέσεις 13 Πρώιµες προσαρµογές στο βασικό µοντέλο Οι Sergey Brin και Lawrence Page δεν χρησιµοποίησαν την έννοια της Markov chain, αλλά την έννοια του random surfer Μετά από άπειρο χρόνο ταξιδιού, το ποσοστό του χρόνου που ο random surfer περνά σε µια σελίδα είναι ένα µέτρο της σηµαντικότητας της σελίδας υστυχώς, υπάρχουν παγίδες για τον random surfer pdf image data tables 14 Προσαρµογή στοχαστικότητας (1/2) Οι γραµµές 0 T του Η αντικαθίστανται µε 1/ne T Άρα ο random surfer, όταν συναντήσει έναν dangling node µπορεί από κει να µεταβεί σε οποιαδήποτε άλλη σελίδα Τον στοχαστικό πίνακα που προέκυψε από τον H τον συµβολίζουµε µε S Για το γράφηµα µε τους6 κόµβους είναι ο παρακάτω: 15 5

Προσαρµογή στοχαστικότητας (2/2) Ο S παράγεται από µια rank-one update του H S = Η + a(1/ne T ) a i = 1 εάν η σελίδα i είναι dangling node a i = 0 εάν η σελίδα i δεν είναι dangling node O S είναι συνδυασµός του αρχικού Η µε τονrank-one πίνακα a(1/ne T ) Η προσαρµογή αυτή εγγυάται ότι ο S είναι πίνακας µιας Markov chain εν εγγυάται όµως τη σύγκλιση 16 Προσαρµογή πρωτογένειας (1/2) Ο random surfer δεν ακολουθεί πάντα υπερσυνδέσµους Εγκαταλείπει την πλοήγηση και µεταβαίνει σε ένα τυχαίο URL Τηλεµεταφέρεται (teleportation step) και ξεκινά ξανά την πλοήγηση Προκύπτει ο πίνακας G, Google matrix G = αs + (1-α)1/nee T α (ελληνικό άλφα) έχει τιµή µεταξύ 0 και 1, και ελέγχει το ποσοστό του χρόνου που random surfer ακολουθεί υπερσυνδέσµους ή τηλεµεταφέρεται Ητελεµεταφορά είναι τυχαία, γιατί ο πίνακας τηλεµεταφοράς E=1/nee T είναι οµοιόµορφος 17 Συνέπειες της προσαρµογής πρωτογένειας Ο G είναι stochastic: κυρτός συνδυασµός δυο στοχαστικών πινάκων S και E Ο G είναι irreducible: κάθε σελίδα συνδέεται άµεσα µε κάθε άλλη Ο G είναι aperiodic: οι βρόχοι (G ii > 0 για κάθε i) δηµιουργούν aperiodicity Ο G είναι primitive: επειδή G k > 0 για κάποιο k (για k=1) Υπάρχει ένα µοναδικό π Τ και όταν εφαρµόσουµε τηνpower method στον G, θα συγκλίνει σ αυτό 18 6

Συνέπειες της προσαρµογής πρωτογένειας Ο G είναι πολύ πυκνός, ευτυχώς µπορεί να γραφεί ως rank-one update τουπολύαραιού πίνακα υπερσυνδέσµων H Ο G είναι τεχνητός Το stationary vector δεν υπάρχει για τον H Αλλά υπάρχει για τον G 19 Σύµβολα H: πολύ αραιός, substochastic πίνακας υπερσυνδέσµων S: αραιός, στοχαστικός, πιθανώς reducible πίνακας G: τελείως πυκνός, στοχαστικός, πρωτογενής πίνακας E: τελείως πυκνός, rank-one πίνακας τηλεµεταφοράς n: αριθµός σελίδων στη µηχανή της Google α: παράµετρος µεταξύ 0 και 1 π Τ : stationary row vector, PageRank διάνυσµα a Τ : δυαδικό διάνυσµα dangling nodes 20 Η µέθοδος του PageRank που είναι απλά η power method εφαρµοζόµενη στον G 21 7

Το παράδειγµα γραφήµατος µε 6 κόµβους 22 Υπολογισµός του διανύσµατος PageRank Το πρόβληµα µπορεί να περιγραφεί µε δυο τρόπους Επίλυση του παρακάτω προβλήµατος ιδιοδιανυσµάτων του π Τ Επίλυση του γραµµικού οµογενούς συστήµατος για το π Τ 23 Υπολογισµός του διανύσµατος PageRank Στο πρώτο σύστηµα, ο στόχος είναι να βρεθεί το κανονικοποιηµένοκυρίαρχοαριστερόιδοδιάνυσµα που αντιστοιχεί στην κυρίαρχη ιδιοτιµή λ 1 =1 Στο δεύτερο σύστηµα ο στόχος είναι να βρεθεί το κανονικοποιηµένο αριστερό null vector του (I-G) Η εξίσωση κανονικοποίσης υπάρχει για να εγγυηθεί ότι το π Τ είναι διάνυσµα πιθανοτήτων 24 8

Power method υπολογισµού του PageRank Είναι η παλιότερη και απλούστερη µέθοδος εύρεσης της κυρίαρχης (dominant) ιδιοτιµής και ιδιοδιανύσµατος ενός πίνακα Άρα µπορεί να χρησιµοποιηθεί για εύρεση του stationary vector µιας Markov chain To stationary vector είναι απλά το κυρίαρχο αριστερό ιδιοδιάνυσµα Είναι εξαιρετικά αργή µέθοδος, µεταξύ των Gauss- Seidel, Jacobi, restarted GMRES Γιατί χρησιµοποιήθηκε; 25 Power method υπολογισµού του PageRank Είναι προγραµµατιστικά απλή Εφαρµοζόµενη στον G µπορεί να γραφεί ως εφαρµογή στον πολύ αραιό H Εκτελείται πάνω στον Η και όχι πάνω στους S ή G Αποθηκεύονται µόνο οι a, e 26 Power method υπολογισµού του PageRank Οι άλλες µέθοδοι αναγκάζονται να προσπελάσουν τα στοιχεία του πίνακα, ενώ η power method µόνο διαµέσου του πολλαπλασιασµού διανύσµατος-πίνακα Εκτός από την αποθήκευση του H και a απαιτεί µόνο τηναποθήκευσητουπ Τ και όχι πολλαπλά διανύσµατα όπως οι άλλες µέθοδοι Απαιτεί πολύ λίγες επαναλήψεις για να επιτευχθεί η σύγκλιση 50-100 Το ερώτηµα που προκύπτει είναι από ποιο/ποιους παράγοντες εξαρτάται/καθορίζεται η σύγκλιση 27 9

Ρυθµός σύγκλισης (1/2) Οασυµπτωτικός ρυθµός σύγκλισης της power method όταν εφαρµόζεται σε κάποιο Markov πίνακα εξαρτάται από το κλάσµα των δυο ιδιοτιµών που έχουν το µεγαλύτερο µέγεθος, λ 1, λ 2 Για τους στοχαστικούς πίνακες, όπως ο G, ισχύει ότι λ 1 =1 Άρα η σύγκλιση εξαρτάται από την τιµή τουλ 2 Επειδή ο G είναι πρωτογενής, ισχύει ότι λ 2 <1 Η εύρεση του είναι χρονοβόρα, οπότε δεν είναι φρόνιµο να σπαταλήσουµε πόρους για να έχουµε µια εκτίµηση του ρυθµού σύγκλισης 28 Ρυθµός σύγκλισης (2/2) Στις επόµενες διαφάνειες θα δείξουµε ότι εάν οι ιδιοτιµές του S είναι σ(s)={1,µ 2,µ 3,µ n } και του G είναι σ(g)={1,λ 2,λ 3,λ n }, τότε λ k = αµ k k=2,3, n Ηδοµή τουπαγκοσµίου Ιστού είναι τέτοια που καθιστά πολύ πιθανό να ισχύει ότι µ 2 =1 (ή µ 2 1) Άρα λ 2 (G)=α (ή λ 2 (G) α) Με α=.85, σηµαίνει ότι µετά από 50 επαναλήψεις α 50 =.85 50.000296, δηλ., 2-3 θέσεις ακρίβειας που είναι αρκετά ικανοποιητικές όταν το ranking συνδυάζεται µε το περιεχόµενο 29 Παράµετροι του µοντέλου PageRank 30 10

Ηπαράµετρος α (1/2) Η παράµετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δοµή των υπερσυνδέσµων ή στην τηλεµεταφορά Είδαµε στηνπροηγούµενη διαφάνεια ότι οι Brin & Page πρότειναν τιµή.85 για την παράµετρο αυτή Γιατί αυτήν την τιµή; Ποια είναι η επίδραση του α στο πρόβληµα τουpagerank; Με α=.5, τότε η επαναληπτική µέθοδος χρειάζεται µόνο 34 επαναλήψεις για να συγκλίνει σε µια ακρίβεια 10-10!! Όµως αυτό σηµαίνει ότι η τεχνητά εισαχθείσα έννοια της τηλεµεταφοράς θα είναι ίσης σηµαντικότητας µε τη δοµή των υπερσυνδέσµων!? 31 Ηπαράµετρος α (2/2) Για α=1.0, οι αριθµός των επαναλήψεων για σύγκλιση γίνεται απαγορευτικός Ακόµα καιγιαα=.85 απαιτούνται µερικές ηµέρεςγιαναεπιτευχθείη σύγκλιση όταν οι πίνακες είναι του µεγέθους του Παγκοσµίου Ιστού Απλώς το α=.85 επιτυγχάνει ένα αποδεκτό tradeoff Πέρααπόαυτόόµως, η παράµετρος ελέγχει και την ευαισθησία του διανύσµατος PageRank Για τιµές του α κοντά σε 1, τότε ακόµα και µικρές αλλαγές στη δοµή τουweb Επηρεάζουν σηµαντικά τις τιµές PageRank των σελίδων 32 Ο πίνακας υπερσυνδέσµων H ιάφορες προσαρµογές µπορεί να γίνουν πάνω στον H Στην βασική υλοποίηση, κάθε εξερχόµενος σύνδεσµος έχει το ίδιο βάρος/σηµαντικότητα Παρόλο που η τακτική αυτή είναι δηµοκρατική, εύκολη στην υλοποίηση, εντούτοις δεν είναι η κατάλληλη για τα rankings Στην πραγµατικότητα, ο random surfer δεν διαλέγει τυχαία µε την ίδια πιθανότητα ποιον σύνδεσµο θα ακολουθήσει, αλλά λαµβάνει υπόψη του το πλούσιο περιεχόµενο των σελίδων όπου θα πάει, αλλά και το κείµενο πάνω στους υπερσυνδέσµους Έτσι, αντί για την υπόθεση του random surfer, έχουµε τον intelligent surfer 33 11

Παράδειγµα προσαρµοσµένου πίνακα H Πώς αποφασίζουµε µε ποιο τρόπο θα αναθέσουµε διαφορετικά βάρη στους εξερχόµενους υπερσυνδέσµους; Από τα access logs! Παράδειγµα: Από την P 1 είναι δυο φορές πιο πιθανό να πάµε στηνp 2 παρά στην P 3 Προφανώς όλες οι παρόµοιες µέθοδοι θα είναι ευρεστικές Για παράδειγµα, τα στοιχεία Η 45 και Η 46 µπορούν να προσδιοριστούν µε βάσητηνοµοιότητα (cosine similarity) µεταξύ των σελίδων P 4 µετηνp 5 και P 6 Για το γράφηµα µε τους6 κόµβους ο νέος πίνακας H θα µετατραπεί στον ακόλουθο: 34 Παράδειγµα προσαρµοσµένου πίνακα H 35 Οπίνακαςτηλεµεταφοράς Ε (1/3) Μια από τις πρώτες προσαρµογές ήταν ότι αντί για τη χρήση του 1/nee T προτιµήθηκε ο πίνακας ev T To v T µε v T > 0, είναι ένα διάνυσµα πιθανοτήτωνπου ονοµάζεται personalization ή teleportation διάνυσµα Αφού το v T είναι διάνυσµα πιθανοτήτωνµε θετικά στοιχεία, κάθε κόµβος είναι συνδεδεµένος µε κάθε άλλο κόµβο, άρα ο G είναι πρωτογενής Χρησιµοποιώντας το v T αντί για το 1/ne T σηµαίνει ότι οι πιθανότητες τηλεµεταφοράς δεν είναι πλέον οµοιόµορφες 36 12

Οπίνακαςτηλεµεταφοράς Ε (2/3) Άρα για κάθε τηλεµεταφορά, ο surfer δεν επιλέγει οµοιόµορφα σε ποια σελίδα θα πάει, αλλά καθοδηγείται από το διάνυσµα v T Αυτή η µετατροπή ευτυχώς δεν καταστρέφει τα πλεονεκτήµατα της power method Όταν G=αS+(1-α)ev T, τότε η power method γίνεται: 37 Οπίνακαςτηλεµεταφοράς Ε (3/3) Αυτή η αλλαγή δεν έχει καµία επίδραση πάνω στο ρυθµό σύγκλισης στον πολλαπλασιασµό διανύσµατος µε αραιόπίνακα στις µικρές αποθηκευτικές απαιτήσεις Όµως, αλλάζει το ίδιο το διάνυσµα PageRank!! Αυτό δεν είναι µειονέκτηµα!? εν είναι απαραίτητο ότι σε όλους µας ταιριάζει το ίδιο ranking Άλλωστε, παρέχει µια ευελιξία ώστε ανάλογα τις ανάγκες µας να προσαρµόζουµε απλάτοv T 38 Προσωποποίηση του PageRank Η προσωποποίηση αλλάζει το διάνυσµα PageRank, από query-independet και user-independent σε userdependent και πιο δύσκολο στον υπολογισµό Στην θεωρία είναι ωραία η προσωποποίηση, αλλά στην πράξη είναι δύσκολα εφαρµόσιµη Κάθε π Τ απαιτεί µερικές ηµέρες για τον υπολογισµό του Οπότε, αφού επικρατεί η άποψη ότι η προσωποποιηµένη αναζήτηση είναι η µελλοντική τάση στις µηχανές αναζήτησης, αρκετοί δηµιούργησαν ψευδοπροσωποποιηµένα διανύσµατα PageRank εν απευθύνονται σε κάθε χρήστη, αλλά σε οµάδες χρηστών 39 13

Topic-sensitive PageRank (1/3) ηµιουργία ενός πεπερασµένου αριθµού PageRank διανυσµάτων π Τ (v it ), κάθε ένα από αυτά πολωµένο ως προς κάποια συγκεκριµένο θέµα Ποια θέµατα επιλέχθηκαν; Ο Taher Haveliwala επέλεξε τα 16 πρώτα από το Open Directory Project (ODP) Τα 16 πολωµένα διανύσµατα προϋπολογίζονται Το ζήτηµα είναι να τα συνδυάσουµε αποτελεσµατικά κατά την ερώτηση του χρήστη 40 Topic-sensitive PageRank (2/3) Ο Taher Haveliwala έφτιαξε έναν κυρτό συνδυασµό αυτών ως εξής π Τ = β 1 π Τ (v 1T ) + π Τ (v 2T ) + + π Τ (v 16T ) όπου Σβ ι =1 Για παράδειγµα, η ερώτησηscience project ideas εµπίπτει µεταξύ των εξής κατηγοριών του ODP: Κατηγορία 7: Kids και Teens Κατηγορία 10: Reference Κατηγορία 12: Science Προφανώς τα αντίστοιχα διανύσµατα αυτών των κατηγοριών πρέπει να πάρουν µεγαλύτερο βάρος ή ίσως και όλο το βάρος 41 Topic-sensitive PageRank (3/3) Για τον υπολογισµό των βαρών χρησιµοποιήθηκε ένας classifier Bayes Όταν υπολογιστεί το topic-sensitive score, συνδυάζεται µε το αντίστοιχο content score O Jeh Glen, Taher Haveliwala & Serendap Kamvar δηµιούργησαν το καλοκαίρι του 2003 την εταιρεία Kaltix για να προωθήσουν την ιδέα του personalized PageRank, και τελικά η εταιρεία τους αγοράστηκε το Σεπτέµβριο του 2003 από την Google Τον Μάρτιο του 2004, η Google προώθησε την προσωποποίηση http://labs.google.com/personalized 42 14

Το φάσµα τουpersonalized πίνακα G (1/4) ΘΕΩΡΗΜΑ: Εάν το φάσµα (ιδιοτιµές) του στοχαστικού πίνακα S είναι {1,λ 2,λ 3,,λ n }, τότε το φάσµα τουpersonalized πίνακα Google G=αS + (1-α)ev T είναι {1,αλ 2,αλ 3,,αλ n }, όπου το v T είναι ένα διάνυσµα πιθανοτήτων 43 Το φάσµα τουpersonalized πίνακα G (2/4) Αφού ο S είναι στοχαστικός, τότε το (1,e) είναι ένα ζεύγος του S Έστω ότι Q = (e X) είναι µη ιδιόµορφος (nonsingular) πίνακας που έχει το ιδιοδιάνυσµα e ως πρώτη στήλη του Έστω ότι Τότε Απ εδώ παίρνουµε δυοχρήσιµες ταυτότητες y T e=1 Y T e=0 44 Το φάσµα τουpersonalized πίνακα G (3/4) Ως συνέπεια, ο µετασχηµατισµός οµοιότητας φανερώνει ότι ο Y T SX περιέχει τις υπόλοιπες ιδιοτιµές του S, λ 2,λ 3,,λ n 45 15

Το φάσµα τουpersonalized πίνακα G (4/4) Εφαρµόζοντας τον µετασχηµατισµό οµοιότητας στον G=αS + (1-α)ev T Εποµένως, οι ιδιοτιµές του G=αS + (1-α)ev T είναι οι {1,αλ 2,αλ 3,,αλ n } 46 16