Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Ανάκληση Πληπουοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Επιταχύνοντας την εκτέλεση του PageRank

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ευαισθησία του PageRank. Το πρόβληµα PageRank ως. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Επίλυση Γραµµικών Συστηµάτων

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

ΚΕΦΑΛΑΙΟ 4 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΠΡΑΓΜΑΤΙΚΩΝ Ι ΙΟΤΙΜΩΝ. 4.1 Γραµµικοί µετασχηµατισµοί-ιδιοτιµές-ιδιοδιανύσµατα

ΚΕΦΑΛΑΙΟ 3 ΑΡΙΘΜΗΤΙΚΗ ΕΠΙΛΥΣΗ ΓΡΑΜΜΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. nn n n

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 3: Περιγραφή αριθμητικών μεθόδων (συνέχεια)

Γραµµική Αλγεβρα. Ενότητα 6 : Ιδιοτιµές & Ιδιοδιανύσµατα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

Εισαγωγή στην επιστήµη των υπολογιστών. Υπολογιστές και Δεδοµένα Κεφάλαιο 3ο Αναπαράσταση Αριθµών

Εισαγωγή στην επιστήµη των υπολογιστών. Αναπαράσταση Αριθµών

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων.

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 9 Επαναληπτικες Ασκησεις

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΞΙΣΩΣΕΩΝ

Αριθμητική Ανάλυση & Εφαρμογές

Μαρκοβιανές Αλυσίδες

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Ασκησεις - Φυλλαδιο 4

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 4

ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΑΠΟΙΚΙΑΣ ΜΥΡΜΗΓΚΙΩΝ ANT COLONY OPTIMIZATION METHODS

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2. Α1. Ο αλγόριθμος είναι απαραίτητος μόνο για την επίλυση προβλημάτων πληροφορικής

Στοιχεία Θεωρίας Γραφηµάτων (3)

Απαρίθµηση Μονοπατιών. Στοιχεία Θεωρίας Γραφηµάτων (3) Μονοπάτια και Κυκλώµατα Euler. Ορέστης Τελέλης

2η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 3 (Θεωρία-Αλγόριθµοι-Εφαρµογές)

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Σηµειώσεις στις σειρές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΘΕΜΑΤΑ ΕΞΕΤΑΣΗΣ ΚΑΙ ΑΠΑΝΤΗΣΕΙΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ:

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου

Εισαγωγή στην επιστήµη των υπολογιστών ΑΡΙΘΜΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ

Γραµµική Αλγεβρα. Ενότητα 3 : ιανυσµατικοί Χώροι και Υπόχωροι. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

5.1 Ιδιοτιµές και Ιδιοδιανύσµατα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Μελέτη Περίπτωσης: Random Surfer

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων

Επίκουρος Καθηγητής Παν/µίου Ιωαννίνων. Μαθηµατικά Ι Ακαδ. Έτος /58

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

ιδάσκοντες :Τµήµα Α ( Αρτιοι) : Καθηγητής Ν. Μισυρλής,Τµήµα Β (Περιττοί) : Αριθµητική Επίκ.

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Αριθµητική Ανάλυση. Τµήµα Α ( Αρτιοι) : Καθηγητής Ν.Μισυρλής,Τµήµα Β (Περιττοί) : Επίκ. Αριθµητική Καθηγητής Ανάλυση Φ.Τζαφέρης

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 4

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

HY118- ιακριτά Μαθηµατικά. Θεωρία γράφων / γραφήµατα. Τι είναι οι γράφοι; Εφαρµογές των γράφων Γράφοι

QR είναι ˆx τότε x ˆx. 10 ρ. Ποιά είναι η τιµή του ρ και γιατί (σύντοµη εξήγηση). P = [X. 0, X,..., X. (n 1), X. n] a(n + 1 : 1 : 1)

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 21: Ανάλυση Συνδέσμων.

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Αδιάσπαστοι, p-κυκλικοί, συνεπώς διατεταγµένοι πίνακες και γραφήµατα

Μη κατευθυνόµενα γραφήµατα. Στοιχεία Θεωρίας Γραφηµάτων (1) Υπογραφήµατα.

HY118- ιακριτά Μαθηµατικά. Θεωρία γράφων / γραφήµατα. Τι είναι οι γράφοι; Εφαρµογές των γράφων Γράφοι

Αριθµητική Ανάλυση. 27 Οκτωβρίου Αριθµητική Ανάλυση 27 Οκτωβρίου / 72

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

ΜΑΣ 371: Αριθμητική Ανάλυση ΙI ΑΣΚΗΣΕΙΣ. 1. Να βρεθεί το πολυώνυμο Lagrange για τα σημεία (0, 1), (1, 2) και (4, 2).

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΜΑΘΗΜΑΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Γράφημα. Συνδυαστικό αντικείμενο που αποτελείται από 2 σύνολα: Σύνολο κορυφών (vertex set) Σύνολο ακμών (edge set) 4 5 πλήθος κορυφών πλήθος ακμών

ΣΤΟΧΑΣΤΙΚΕΣ ΙΑ ΙΚΑΣΙΕΣ

Αναγνώριση Προτύπων Ι

Σηµειώσεις. Eφαρµοσµένα Μαθηµατικά Ι. Nικόλαος Aτρέας

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Αλγόριθµοι Οπισθοδρόµησης

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Σποραδικές Μήτρες (Sparse Matrices) Αθανάσιος Μυγδαλ ας ΑΠΘ AΠΘ. 17 Μαρτίου 2010 c Α.Μ.

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Αριθμητική Ανάλυση και Εφαρμογές

Γραµµικη Αλγεβρα Ι Επιλυση Επιλεγµενων Ασκησεων Φυλλαδιου 4

Ενδεικτικές Ερωτήσεις Θεωρίας

Matrix Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι. Αλγόριθμοι» Γ. Καούρη Β. Μήτσου

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΠΛΗΡΟΦΟΡΙΚΗ ΘΕ: ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΤΗΝ ΠΛΗΡΟΦΟΡΙΚΉ Ι (ΠΛΗ 12) ΛΥΣΕΙΣ ΕΡΓΑΣΙΑΣ 3

Δομές Δεδομένων και Αλγόριθμοι

(2) Θεωρούµε µοναδιαία διανύσµατα α, β, γ R 3, για τα οποία γνωρίζουµε ότι το διάνυσµα

Γ. Κορίλη Αλγόριθµοι ροµολόγησης

4.5.6 ΡΗΤΑ ΠΟΛΥΩΝΥΜΙΚΑ ΤΜΗΜΑΤΑ Η ΑΠΕΙΚΟΝΙΣΗ ΣΗΜΕΙΟΥ ΜΕ ΒΑΡΟΣ ΤΟ ΚΥΚΛΙΚΟ ΤΜΗΜΑ

Μονοπάτια και Κυκλώµατα Euler. Στοιχεία Θεωρίας Γραφηµάτων (3,4) Παραδείγµατα. Κριτήρια Υπαρξης.

Transcript:

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 9η: 25/04/2007 1

Τα µαθηµατικά του PageRank Παράµετροι του µοντέλου PageRank 2

Τα µαθηµατικά του PageRank 3

Η αρχική εξίσωση αθροίσµατος Το PageRank µιας σελίδας είναι το άθροισµα του PageRank των σελίδων που δείχνουν σ αυτή: Το πρόβληµα µε τη εξίσωση αυτή είναι ότι δεν ξέρουµε το PageRank τωνσελίδωνπου δείχνουν στη P i Το πρόβληµα επιλύθηκε µε επαναληπτική διαδικασία Αρχικά κάθε σελίδα έχει το ίδιο PageRank, ίσο µε 1/n Ακολουθούµε την παραπάνω εξίσωση επαναληπτικά 4

Η επαναληπτική διαδικασία (1/2) Έστω ότι r k+1 (P i ) είναι το PageRank της σελίδας P i στην επανάληψη k+1: Η διαδικασία ξεκινά µε r 0 (P i )=1/n για κάθε σελίδα Συνεχίζεται µε την ελπίδα ότι τελικά θα συγκλίνει 5

Η επαναληπτική διαδικασία (2/2) Εφαρµόζοντας την επαναληπτική διαδικασία στο µικρό γράφηµα αριστερά, µετά από µερικές επαναλήψεις έχουµε τον πίνακα δεξιά: 6

Αναπαράσταση της επανάληψης µε πίνακα Ηπροηγούµενες εξισώσεις υπολογίζουν το PageRank των σελίδων µια σελίδα κάθε φορά Με χρήση πινάκων αντικαθιστούµε τοσύµβολο Σ Εισαγάγουµε τον πίνακα H, και το 1x n διάνυσµα π Τ Ο H είναι ένας row-normalized πίνακας υπερσυνδέσεων µε H ij =1/ P i, εάν υπάρχει σύνδεσµος από τον κόµβο i στον j, αλλιώς H ij =0 Παρόλο που ο H έχει την ίδια µη-µηδενική δοµή µε τον δυαδικό πίνακα γειτνιάσεων, τα µη µηδενικά στοιχεία του H είναι πιθανότητες 7

Παράδειγµα αναπαράστασηςµε πίνακα Τα µη-µηδενικά στοιχεία της γραµµής i αναπαριστούν τους εξερχόµενους συνδέσµους της σελίδας i Τα µη-µηδενικά στοιχεία της στήλης i αναπαριστούν τους εισερχόµενους συνδέσµους στη σελίδα i Ηπροηγούµενη εξίσωση γίνεται τώρα: 8

Επίδοση της αναπαράστασης µε πίνακα 1. Κάθε επανάληψη της προηγούµενης εξίσωσης απαιτεί έναν πολλαπλασιασµό, άρα O(n 2 ) πολυπλοκότητα 2. Ο H είναι γενικά πολύ αραιός (sparse), άρα Απαιτεί µικρό αποθηκευτικό χώρο Οπολλαπλασιασµός είναι πιο οικονοµικός σε σχέση µε τοo(n 2 ) Απαιτεί µόνο O(nnz(H)), όπου nnz(h) είναι ο αριθµός των µη- µηδενικών Μετρήσεις δείχνουν ότι το nnz(h) ~ 10n Άρα υπολογιστικό κόστος της τάξης O(n) 3. Η επαναληπτική διαδικασία είναι απλά µια linear stationary process: είναι η κλασική power method πάνω στον H 4. O H µοιάζει µε στοχαστικό πίνακα πιθανοτήτων µετάβασης, όµως είναι substochastic, γιατί υπάρχουν dangling nodes, δηλ., χωρίς εξερχόµενους συνδέσµους 9

Προβλήµατα της επαναληπτικής διαδικασίας Θα συγκλίνει; Κάτω από ποιες προϋποθέσεις ή ιδιότητες του H θα συγκλίνει; Θα συγκλίνει σε κάτι που έχει µαθηµατικό νόηµα; Θα συγκλίνει σε ένα ή περισσότερα διανύσµατα; Η σύγκλιση εξαρτάται από το αρχικό διάνυσµα π (0)Τ ; Πόσογρήγοραθασυγκλίνει; 10

Προβλήµατα της επαναληπτικής διαδικασίας Αρχικά, η επαναληπτική διαδικασία ξεκίνησε µε π (0)Τ =1/ne Τ (όπου e Τ είναι διάνυσµα-γραµµή µε όλα1) Προέκυψε το πρόβληµα τηςκαταβόθρας (rank sinks) σελίδες που αυξάνουν συνεχώς το PageRank τους Στο παρακάτω παράδειγµα τοκόµβος 3, ενώ στο προηγούµενο παράδειγµα ηοµάδα των κόµβων 4, 5, και 6 Μετά από 13 επαναλήψεις, π (13)Τ =(0 0 0 2/3 1/3 1/5) 11

Προβλήµατα της επαναληπτικής διαδικασίας Επίσης, καθώς οι κόµβοι αυξάνουν συνεχώς το PageRank τους, µερικοί δεν έχουν καθόλου Τότε, ποιο είναι το νόηµα της ταξινόµησης µε βάσητο PageRank, όταν η πλειονότητα έχει PageRank ίσο µε 0; Υπάρχει το πρόβληµα τωνκύκλων Εάν, ξεκινήσουµε µε π (0)Τ =(1 0), καταλήγουµε σε ατέρµονη διαδικασία Στο διάνυσµα π (k)τ =(1 0) για άρτιο k Στο διάνυσµα π (k)τ =(0 1) για περιττό k 12

Υπενθύµιση εννοιών Markov chains Με οποιοδήποτε διάνυσµα ξεκινήσουµε, όταν εφαρµοστεί η power method σε έναν Markov πίνακα P, συγκλίνει σε ένα µοναδικό θετικό διάνυσµα, το οποίο αποκαλείται stationary vector Προϋποθέσεις σύγκλισης O P είναι stochastic: οι γραµµές αθροίζουν στο 1 O P είναι irreducible: το υποκείµενο γράφηµα είναι strongly-connected O P είναι aperiodic: για οποιεσδήποτε σελίδες P i και P j υπάρχουν µονοπάτια από την P i στην P j (µε οποιεσδήποτε επαναλήψεις) οποιουδήποτε µήκους, εκτός από ένα πεπερασµένο σύνολο µηκών Irreducible + aperiodic = primitive (πρωτογενής) Τα προβλήµατα σύγκλισης του PageRank θα ξεπεραστούν εάν ο H τροποποιηθεί, ώστε να ικανοποιεί τις παραπάνω προϋποθέσεις 13

Πρώιµες προσαρµογές στο βασικό µοντέλο Οι Sergey Brin και Lawrence Page δεν χρησιµοποίησαν την έννοια της Markov chain, αλλά την έννοια του random surfer Μετά από άπειρο χρόνο ταξιδιού, το ποσοστό του χρόνου που ο random surfer περνά σε µια σελίδα είναι ένα µέτρο της σηµαντικότητας της σελίδας υστυχώς, υπάρχουν παγίδες για τον random surfer pdf image data tables 14

Προσαρµογή στοχαστικότητας (1/2) Οι γραµµές 0 T του Η αντικαθίστανται µε 1/ne T Άρα ο random surfer, όταν συναντήσει έναν dangling node µπορεί από κει να µεταβεί σε οποιαδήποτε άλλη σελίδα Τον στοχαστικό πίνακα που προέκυψε από τον H τον συµβολίζουµε µε S Για το γράφηµα µε τους 6 κόµβους είναι ο παρακάτω: 15

Προσαρµογή στοχαστικότητας (2/2) Ο S παράγεται από µια rank-one update του H S = Η + a(1/ne T ) a i = 1 εάν η σελίδα i είναι dangling node a i = 0 εάν η σελίδα i δεν είναι dangling node O S είναι συνδυασµός του αρχικού Η µε τονrank-one πίνακα a(1/ne T ) Ηπροσαρµογή αυτή εγγυάται ότι ο S είναι πίνακας µιας Markov chain εν εγγυάται όµως τη σύγκλιση 16

Προσαρµογή πρωτογένειας (1/2) Ο random surfer δεν ακολουθεί πάντα υπερσυνδέσµους Εγκαταλείπει την πλοήγηση και µεταβαίνει σε ένα τυχαίο URL Τηλεµεταφέρεται (teleportation step) και ξεκινά ξανά την πλοήγηση Προκύπτει ο πίνακας G, Google matrix G = αs + (1-α)1/nee T α (ελληνικό άλφα) έχει τιµή µεταξύ 0 και 1, και ελέγχει το ποσοστό του χρόνου που random surfer ακολουθεί υπερσυνδέσµους ή τηλεµεταφέρεται Η τελεµεταφορά είναι τυχαία, γιατί ο πίνακας τηλεµεταφοράς E=1/nee T είναι οµοιόµορφος 17

Συνέπειες της προσαρµογής πρωτογένειας Ο G είναι stochastic: κυρτός συνδυασµός δυο στοχαστικών πινάκων S και E Ο G είναι irreducible: κάθε σελίδα συνδέεται άµεσα µε κάθεάλλη Ο G είναι aperiodic: οι βρόχοι (G ii > 0 για κάθε i) δηµιουργούν aperiodicity Ο G είναι primitive: επειδή G k > 0 για κάποιο k (για k=1) Υπάρχει ένα µοναδικό π Τ και όταν εφαρµόσουµε τηνpower method στον G, θα συγκλίνει σ αυτό 18

Συνέπειες της προσαρµογής πρωτογένειας Ο G είναι πολύ πυκνός, ευτυχώς µπορεί να γραφεί ως rank-one update του πολύ αραιού πίνακα υπερσυνδέσµων H Ο G είναι τεχνητός Το stationary vector δεν υπάρχει για τον H Αλλά υπάρχει για τον G 19

Σύµβολα H: πολύ αραιός, substochastic πίνακας υπερσυνδέσµων S: αραιός, στοχαστικός, πιθανώς reducible πίνακας G: τελείως πυκνός, στοχαστικός, πρωτογενής πίνακας E: τελείως πυκνός, rank-one πίνακας τηλεµεταφοράς n: αριθµός σελίδων στη µηχανή της Google α: παράµετρος µεταξύ 0 και 1 π Τ : stationary row vector, PageRank διάνυσµα a Τ : δυαδικό διάνυσµα dangling nodes 20

Η µέθοδος του PageRank που είναι απλά η power method εφαρµοζόµενη στον G 21

Το παράδειγµα γραφήµατος µε 6 κόµβους 22

Υπολογισµός του διανύσµατος PageRank Το πρόβληµα µπορεί να περιγραφεί µε δυο τρόπους Επίλυση του παρακάτω προβλήµατος ιδιοδιανυσµάτων του π Τ Επίλυση του γραµµικού οµογενούς συστήµατος για το π Τ 23

Υπολογισµός του διανύσµατος PageRank Στο πρώτο σύστηµα, ο στόχος είναι να βρεθεί το κανονικοποιηµένο κυρίαρχο αριστερό ιδοδιάνυσµα που αντιστοιχεί στην κυρίαρχη ιδιοτιµή λ 1 =1 Στο δεύτερο σύστηµα ο στόχος είναι να βρεθεί το κανονικοποιηµένο αριστερό null vector του (I-G) Η εξίσωση κανονικοποίσης υπάρχει για να εγγυηθεί ότι το π Τ είναι διάνυσµα πιθανοτήτων 24

Power method υπολογισµού του PageRank Είναι η παλιότερη και απλούστερη µέθοδος εύρεσης της κυρίαρχης (dominant) ιδιοτιµής και ιδιοδιανύσµατος ενός πίνακα Άρα µπορεί να χρησιµοποιηθεί για εύρεση του stationary vector µιας Markov chain To stationary vector είναι απλά το κυρίαρχο αριστερό ιδιοδιάνυσµα Είναι εξαιρετικά αργή µέθοδος, µεταξύ των Gauss- Seidel, Jacobi, restarted GMRES Γιατί χρησιµοποιήθηκε; 25

Power method υπολογισµού του PageRank Είναι προγραµµατιστικά απλή Εφαρµοζόµενη στον G µπορεί να γραφεί ως εφαρµογή στον πολύ αραιό H Εκτελείται πάνω στον Η και όχι πάνω στους S ή G Αποθηκεύονται µόνο οι a, e 26

Power method υπολογισµού του PageRank Οι άλλες µέθοδοι αναγκάζονται να προσπελάσουν τα στοιχεία του πίνακα, ενώ η power method µόνο διαµέσου του πολλαπλασιασµού διανύσµατος-πίνακα Εκτός από την αποθήκευση του H και a απαιτεί µόνο την αποθήκευση του π Τ και όχι πολλαπλά διανύσµατα όπως οι άλλες µέθοδοι Απαιτεί πολύ λίγες επαναλήψεις για να επιτευχθεί η σύγκλιση 50-100 Το ερώτηµα που προκύπτει είναι από ποιο/ποιους παράγοντες εξαρτάται/καθορίζεται η σύγκλιση 27

Ρυθµός σύγκλισης (1/2) Οασυµπτωτικός ρυθµός σύγκλισης της power method όταν εφαρµόζεται σε κάποιο Markov πίνακα εξαρτάται από το κλάσµα των δυο ιδιοτιµών που έχουν το µεγαλύτερο µέγεθος, λ 1, λ 2 Για τους στοχαστικούς πίνακες, όπως ο G, ισχύει ότι λ 1 =1 Άρα η σύγκλιση εξαρτάται από την τιµή του λ 2 Επειδή ο G είναι πρωτογενής, ισχύει ότι λ 2 <1 Η εύρεση του είναι χρονοβόρα, οπότε δεν είναι φρόνιµο να σπαταλήσουµε πόρους για να έχουµε µια εκτίµηση του ρυθµού σύγκλισης 28

Ρυθµός σύγκλισης (2/2) Στις επόµενες διαφάνειες θα δείξουµε ότι εάν οι ιδιοτιµές του S είναι σ(s)={1,µ 2,µ 3,µ n } και του G είναι σ(g)={1,λ 2,λ 3,λ n }, τότε λ k = αµ k k=2,3, n Ηδοµή του Παγκοσµίου Ιστού είναι τέτοια που καθιστά πολύ πιθανό να ισχύει ότι µ 2 =1 (ή µ 2 1) Άρα λ 2 (G)=α (ή λ 2 (G) α) Με α=.85, σηµαίνει ότι µετά από 50 επαναλήψεις α 50 =.85 50.000296, δηλ., 2-3 θέσεις ακρίβειας που είναι αρκετά ικανοποιητικές όταν το ranking συνδυάζεται µε το περιεχόµενο 29

Παράµετροι του µοντέλου PageRank 30

Ηπαράµετρος α (1/2) Ηπαράµετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δοµή των υπερσυνδέσµων ή στην τηλεµεταφορά Είδαµε στηνπροηγούµενη διαφάνεια ότι οι Brin & Page πρότειναν τιµή.85 για την παράµετρο αυτή Γιατί αυτήν την τιµή; Ποια είναι η επίδραση του α στο πρόβληµα τουpagerank; Με α=.5, τότε η επαναληπτική µέθοδος χρειάζεται µόνο 34 επαναλήψεις για να συγκλίνει σε µια ακρίβεια 10-10!! Όµως αυτό σηµαίνει ότι η τεχνητά εισαχθείσα έννοια της τηλεµεταφοράς θα είναι ίσης σηµαντικότητας µε τηδοµή των υπερσυνδέσµων!? 31

Ηπαράµετρος α (2/2) Για α=1.0, οι αριθµός των επαναλήψεων για σύγκλιση γίνεται απαγορευτικός Ακόµα και για α=.85 απαιτούνται µερικές ηµέρες για να επιτευχθεί η σύγκλιση όταν οι πίνακες είναι του µεγέθους του Παγκοσµίου Ιστού Απλώς το α=.85 επιτυγχάνει ένα αποδεκτό tradeoff Πέρααπόαυτόόµως, η παράµετρος ελέγχει και την ευαισθησία του διανύσµατος PageRank Για τιµές του α κοντά σε 1, τότε ακόµα και µικρές αλλαγές στη δοµή τουweb Επηρεάζουν σηµαντικά τις τιµές PageRank των σελίδων 32

Ο πίνακας υπερσυνδέσµων H ιάφορες προσαρµογές µπορεί να γίνουν πάνω στον H Στην βασική υλοποίηση, κάθε εξερχόµενος σύνδεσµος έχει το ίδιο βάρος/σηµαντικότητα Παρόλο που η τακτική αυτή είναι δηµοκρατική, εύκολη στην υλοποίηση, εντούτοις δεν είναι η κατάλληλη για τα rankings Στην πραγµατικότητα, ο random surfer δεν διαλέγει τυχαία µε την ίδια πιθανότητα ποιον σύνδεσµο θα ακολουθήσει, αλλά λαµβάνει υπόψη του το πλούσιο περιεχόµενο των σελίδων όπου θα πάει, αλλά και το κείµενο πάνω στους υπερσυνδέσµους Έτσι, αντί για την υπόθεση του random surfer, έχουµε τον intelligent surfer 33

Παράδειγµα προσαρµοσµένου πίνακα H Πώς αποφασίζουµε µε ποιο τρόπο θα αναθέσουµε διαφορετικά βάρη στους εξερχόµενους υπερσυνδέσµους; Από τα access logs! Παράδειγµα: Από την P 1 είναι δυο φορές πιο πιθανό να πάµε στηνp 2 παρά στην P 3 Προφανώς όλες οι παρόµοιες µέθοδοι θα είναι ευρεστικές Για παράδειγµα, τα στοιχεία Η 45 και Η 46 µπορούν να προσδιοριστούν µε βάσητηνοµοιότητα (cosine similarity) µεταξύ των σελίδων P 4 µετηνp 5 και P 6 Για το γράφηµα µε τους 6 κόµβους ο νέος πίνακας H θα µετατραπεί στον ακόλουθο: 34

Παράδειγµα προσαρµοσµένου πίνακα H 35

Ο πίνακας τηλεµεταφοράς Ε (1/3) Μιααπότιςπρώτεςπροσαρµογές ήταν ότι αντί για τη χρήση του 1/nee T προτιµήθηκε ο πίνακας ev T To v T µε v T > 0, είναι ένα διάνυσµα πιθανοτήτων που ονοµάζεται personalization ή teleportation διάνυσµα Αφού το v T είναι διάνυσµα πιθανοτήτων µε θετικά στοιχεία, κάθε κόµβος είναι συνδεδεµένος µε κάθε άλλο κόµβο, άρα ο G είναι πρωτογενής Χρησιµοποιώντας το v T αντί για το 1/ne T σηµαίνει ότι οι πιθανότητες τηλεµεταφοράς δεν είναι πλέον οµοιόµορφες 36

Ο πίνακας τηλεµεταφοράς Ε (2/3) Άρα για κάθε τηλεµεταφορά, ο surfer δεν επιλέγει οµοιόµορφα σε ποια σελίδα θα πάει, αλλά καθοδηγείται από το διάνυσµα v T Αυτή η µετατροπή ευτυχώς δεν καταστρέφει τα πλεονεκτήµατα της power method Όταν G=αS+(1-α)ev T, τότε η power method γίνεται: 37

Ο πίνακας τηλεµεταφοράς Ε (3/3) Αυτή η αλλαγή δεν έχει καµία επίδραση πάνω στο ρυθµό σύγκλισης στον πολλαπλασιασµό διανύσµατος µε αραιό πίνακα στις µικρές αποθηκευτικές απαιτήσεις Όµως, αλλάζει το ίδιο το διάνυσµα PageRank!! Αυτό δεν είναι µειονέκτηµα!? εν είναι απαραίτητο ότι σε όλους µας ταιριάζει το ίδιο ranking Άλλωστε, παρέχει µια ευελιξία ώστε ανάλογα τις ανάγκες µας να προσαρµόζουµε απλάτοv T 38

Προσωποποίηση του PageRank Η προσωποποίηση αλλάζει το διάνυσµα PageRank, από query-independet και user-independent σε userdependent και πιο δύσκολο στον υπολογισµό Στην θεωρία είναι ωραία η προσωποποίηση, αλλά στην πράξη είναι δύσκολα εφαρµόσιµη Κάθε π Τ απαιτεί µερικές ηµέρες για τον υπολογισµό του Οπότε, αφού επικρατεί η άποψη ότι η προσωποποιηµένη αναζήτηση είναι η µελλοντική τάση στις µηχανές αναζήτησης, αρκετοί δηµιούργησαν ψευδοπροσωποποιηµένα διανύσµατα PageRank εν απευθύνονται σε κάθε χρήστη, αλλά σε οµάδες χρηστών 39

Topic-sensitive PageRank (1/3) ηµιουργία ενός πεπερασµένου αριθµού PageRank διανυσµάτων π Τ (v it ), κάθε ένα από αυτά πολωµένο ως προς κάποια συγκεκριµένο θέµα Ποια θέµατα επιλέχθηκαν; Ο Taher Haveliwala επέλεξε τα 16 πρώτα από το Open Directory Project (ODP) Τα 16 πολωµένα διανύσµατα προϋπολογίζονται Το ζήτηµα είναι να τα συνδυάσουµε αποτελεσµατικά κατά την ερώτηση του χρήστη 40

Topic-sensitive PageRank (2/3) Ο Taher Haveliwala έφτιαξε έναν κυρτό συνδυασµό αυτών ως εξής π Τ = β 1 π Τ (v 1T ) + π Τ (v 2T ) + + π Τ (v 16T ) όπου Σβ ι =1 Για παράδειγµα, η ερώτησηscience project ideas εµπίπτει µεταξύ των εξής κατηγοριών του ODP: Κατηγορία 7: Kids και Teens Κατηγορία 10: Reference Κατηγορία 12: Science Προφανώς τα αντίστοιχα διανύσµατα αυτών των κατηγοριών πρέπει να πάρουν µεγαλύτερο βάρος ή ίσως και όλο το βάρος 41

Topic-sensitive PageRank (3/3) Για τον υπολογισµό τωνβαρώνχρησιµοποιήθηκε ένας classifier Bayes Όταν υπολογιστεί το topic-sensitive score, συνδυάζεται µε το αντίστοιχο content score O Jeh Glen, Taher Haveliwala & Serendap Kamvar δηµιούργησαν το καλοκαίρι του 2003 την εταιρεία Kaltix γιαναπροωθήσουντηνιδέατου personalized PageRank, και τελικά η εταιρεία τους αγοράστηκε το Σεπτέµβριο του 2003 από την Google Τον Μάρτιο του 2004, η Google προώθησε την προσωποποίηση http://labs.google.com/personalized 42

Το φάσµα τουpersonalized πίνακα G (1/4) ΘΕΩΡΗΜΑ: Εάν το φάσµα (ιδιοτιµές) του στοχαστικού πίνακα S είναι {1,λ 2,λ 3,,λ n }, τότε το φάσµα τουpersonalized πίνακα Google G=αS + (1-α)ev T είναι {1,αλ 2,αλ 3,,αλ n }, όπου το v T είναι ένα διάνυσµα πιθανοτήτων 43

Το φάσµα τουpersonalized πίνακα G (2/4) Αφού ο S είναι στοχαστικός, τότε το (1,e) είναι ένα ζεύγος του S Έστω ότι Q = (e X) είναι µη ιδιόµορφος (nonsingular) πίνακας που έχει το ιδιοδιάνυσµα e ως πρώτη στήλη του Έστω ότι Τότε Απ εδώ παίρνουµε δυο χρήσιµες ταυτότητες y T e=1 Y T e=0 44

Το φάσµα τουpersonalized πίνακα G (3/4) Ως συνέπεια, ο µετασχηµατισµός οµοιότητας φανερώνει ότι ο Y T SX περιέχει τις υπόλοιπες ιδιοτιµές του S, λ 2,λ 3,,λ n 45

Το φάσµα τουpersonalized πίνακα G (4/4) Εφαρµόζοντας τον µετασχηµατισµό οµοιότητας στον G=αS + (1-α)ev T Εποµένως, οι ιδιοτιµές του G=αS + (1-α)ev T είναι οι {1,αλ 2,αλ 3,,αλ n } 46