Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ευαισθησία του PageRank. Το πρόβληµα PageRank ως. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

x 2 = b 1 2x 1 + 4x 2 + x 3 = b 2. x 1 + 2x 2 + x 3 = b 3

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΠΛΗΡΟΦΟΡΙΚΗ ΘΕ: ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΤΗΝ ΠΛΗΡΟΦΟΡΙΚΉ Ι (ΠΛΗ 12) ΛΥΣΕΙΣ ΕΡΓΑΣΙΑΣ 3

Επίλυση Γραµµικών Συστηµάτων

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Όρια συναρτήσεων. ε > υπάρχει ( ) { } = ± ορίζονται αναλόγως. Η διατύπωση αυτών των ορισµών αφήνεται ως άσκηση. x y = +. = και για κάθε (, ) ( 0,0)

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 9 Επαναληπτικες Ασκησεις

Κεφάλαιο 9 Ιδιοτιµές και Ιδιοδιανύσµατα

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός. Διάλεξη 14η

Κ. Ι. ΠΑΠΑΧΡΗΣΤΟΥ. Τοµέας Φυσικών Επιστηµών Σχολή Ναυτικών οκίµων ΟΡΙΖΟΥΣΕΣ. Ιδιότητες & Εφαρµογές

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων

Όρια συναρτήσεων. ε > υπάρχει ( ) { } = ± ορίζονται αναλόγως. Η διατύπωση αυτών των ορισµών αφήνεται ως άσκηση. x y = +. = και για κάθε (, ) ( 0,0)

Γραµµικη Αλγεβρα ΙΙ Ασκησεις - Φυλλαδιο 10

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΙΙ ιαφορικός Λογισµός πολλών µεταβλητών. ιαφόριση συναρτήσεων πολλών µεταβλητών

Στοχαστικά Σήµατα και Εφαρµογές

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΠΕΡΙΤΤΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 3

[A I 3 ] [I 3 A 1 ].

Κεφάλαιο 5 Οι χώροι. Περιεχόµενα 5.1 Ο Χώρος. 5.3 Ο Χώρος C Βάσεις Το Σύνηθες Εσωτερικό Γινόµενο Ασκήσεις

Ευκλείδειοι Χώροι. Ορίζουµε ως R n, όπου n N, το σύνολο όλων διατεταµένων n -άδων πραγµατικών αριθµών ( x

5.1 Ιδιοτιµές και Ιδιοδιανύσµατα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12)

Γραµµικη Αλγεβρα Ι Επιλυση Επιλεγµενων Ασκησεων Φυλλαδιου 4

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Επιταχύνοντας την εκτέλεση του PageRank

Μηχανική ΙI. Μετασχηµατισµοί Legendre. της : (η γραφική της παράσταση δίνεται στο ακόλουθο σχήµα). Εάν

ΚΕΦΑΛΑΙΟ 3 ΑΡΙΘΜΗΤΙΚΗ ΕΠΙΛΥΣΗ ΓΡΑΜΜΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. nn n n

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

1 Το ϑεώρηµα του Rademacher

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Σηµειώσεις στις σειρές

Διδάσκων: Καθηγητής Νικόλαος Μαρμαρίδης, Καθηγητής Ιωάννης Μπεληγιάννης

Θέµατα ( ικαιολογείστε πλήρως όλες τις απαντήσεις σας)

5 Παράγωγος συνάρτησης

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Κανόνες παραγώγισης ( )

Άσκηση 1 (α) ============================================================== Έχουµε L = π, εποµένως η σειρά Fourier είναι: 1 2 a. cos. a n. b n.

Αρµονική Ανάλυση. Ενότητα: Το ϑεώρηµα παρεµβολής του Riesz και η ανισότητα Hausdorff-Young. Απόστολος Γιαννόπουλος.

Κεφάλαιο 3β. Ελεύθερα Πρότυπα (µέρος β)

ΚΕΦΑΛΑΙΟ 4 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΠΡΑΓΜΑΤΙΚΩΝ Ι ΙΟΤΙΜΩΝ. 4.1 Γραµµικοί µετασχηµατισµοί-ιδιοτιµές-ιδιοδιανύσµατα

Τίτλος Μαθήματος: Γραμμική Άλγεβρα Ι. Ενότητα: Πινάκες και Γραµµικές Απεικονίσεις. Διδάσκων: Καθηγητής Νικόλαος Μαρμαρίδης. Τμήμα: Μαθηματικών

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Κεφάλαιο 6. Πεπερασµένα παραγόµενες αβελιανές οµάδες. Z 4 = 1 και Z 2 Z 2.

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ Λυσεις Ασκησεων - Φυλλαδιο 1

Κεφάλαιο 7 Βάσεις και ιάσταση

11 Το ολοκλήρωµα Riemann

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ( , c Ε. Γαλλόπουλος) ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. Ε. Γαλλόπουλος. ΤΜΗΥΠ Πανεπιστήµιο Πατρών. ιαφάνειες διαλέξεων 28/2/12

KΕΦΑΛΑΙΟ 1 ΧΡΗΣΙΜΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΝΝΟΙΕΣ. { 1,2,3,..., n,...

ΛΥΣΕΙΣ 6 ης ΕΡΓΑΣΙΑΣ - ΠΛΗ 12,

KΕΦΑΛΑΙΟ 6 ΥΝΑΜΟΣΕΙΡΕΣ-ΣΕΙΡΕΣ TAYLOR

2. Στοιχεία Πολυδιάστατων Κατανοµών

Λύσεις και Υποδείξεις Επιλεγµένων Ασκήσεων

Κανονικ ες ταλαντ ωσεις

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ. Συνοπτικές Ενδεικτικές Λύσεις

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Γραµµική Αλγεβρα. Ενότητα 6 : Ιδιοτιµές & Ιδιοδιανύσµατα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΥΤΙΚΗΣ ΕΛΛΑ ΑΣ

11. Η έννοια του διανύσµατος 22. Πρόσθεση & αφαίρεση διανυσµάτων 33. Βαθµωτός πολλαπλασιασµός 44. Συντεταγµένες 55. Εσωτερικό γινόµενο

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

!q j. = T ji Kάθε πίνακας µπορεί να γραφεί σαν άθροισµα ενός συµµετρικού και ενός αντι-συµµετρικού πίνακα

[ ], σχηµατίζουµε το άθροισµα. Το άθροισµα αυτό είναι µια δυαδική πράξη η οποία αντιστοιχεί στις ακολουθίες f [ 1

Μαθηµατικό Παράρτηµα 2 Εξισώσεις Διαφορών

ιακριτά Μαθηµατικά και Μαθηµατική Λογική ΠΛΗ20 Ε ρ γ α σ ί α 3η Θεωρία Γραφηµάτων

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 4

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

ΙΑΝΥΣΜΑΤΑ ΘΕΩΡΙΑ ΘΕΜΑΤΑ ΘΕΩΡΙΑΣ. Τι ονοµάζουµε διάνυσµα; αλφάβητου επιγραµµισµένα µε βέλος. για παράδειγµα, Τι ονοµάζουµε µέτρο διανύσµατος;

Κεφάλαιο 7 Βασικά Θεωρήµατα του ιαφορικού Λογισµού

Γραµµική Αλγεβρα. Ενότητα 7 : Γραµµικοί Μετασχηµατισµοί. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

============================================================== Σχηµατίζουµε τον πίνακα µε στήλες τα διανύσµατα v1,v2,v3,u1,u2:

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΠΕΡΙΤΤΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 2

ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ Ι ( )

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΠΕΡΙΤΤΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 4

x 2 = x x 2 2. x 2 = u 2 + x 2 3 Χρησιµοποιώντας το συµβολισµό του ανάστροφου, αυτό γράφεται x 2 = x T x. = x T x.

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Γραµµική Αλγεβρα. Ενότητα 3 : ιανυσµατικοί Χώροι και Υπόχωροι. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Μηχανική ΙI Ροή στο χώρο των φάσεων, θεώρηµα Liouville

ΜΙΓΑ ΙΚΟΣ ΛΟΓΙΣΜΟΣ ΚΑΙ ΟΛΟΚΛ. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ ΓΡΑΠΤΕΣ ΕΞΕΤΑΣΕΙΣ ΙΑΝΟΥΑΡΙΟΥ 2010 ΛΥΣΕΙΣ ΤΩΝ ΘΕΜΑΤΩΝ. =. Οι πρώτες µερικές u x y

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 2

ΣΥΝΤΕΤΑΓΜΕΝΕΣ ΙΑΝΥΣΜΑΤΟΣ

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

1.i) 1.ii) v 2. v 1 = (2) (1) + ( 2) ( 1) + (-2) (2) + (0) (-4) v 3. Βρίσκουµε πρώτα µία ορθογώνια βάση: u 1. . u 1 u. u 2

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων.

Παρουσίαση 1 ΙΑΝΥΣΜΑΤΑ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Ορια Συναρτησεων - Ορισµοι

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Transcript:

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 10η: 02/05/2007 1 Ευαισθησία του PageRank Το πρόβληµα PageRank ως γραµµικό σύστηµα 2 Ευαισθησία του PageRank 3 1

Ευαισθησία του PageRank: Εισαγωγικά ΗευαισθησίατουPageRank µπορεί να αναλυθεί εξετάζοντας ξεχωριστά κάθε παράµετρο του πίνακα Google Στην προηγούµενη διάλεξη δώσαµε έµφαση στις τρεις παραµέτρους που επηρεάζουν τον πίνακα G Την παράµετρο α Τον πίνακα υπερσυνδέσµων H Το διάνυσµα προσωποποίησης v T Στην παρούσα διάλεξη θα µελετήσουµε τηνεξάρτηση του PageRank σε σχέση µε κάθεµια από αυτές τις παραµέτρους 4 Ευαισθησία του PageRank σε σχέση µε τοα Θα χρησιµοποιήσουµε την έννοια της παραγώγου για να µελετήσουµε τοαποτέλεσµα τωναλλαγώντουαπάνω στο π Τ Ηπαράγωγοςτουπ Τ σε σχέση µε τοα, δηλ., dπ Τ (α)/dα, µας λέει πόσο µεταβάλλονται τα στοιχεία του διανύσµατος PageRank π T όταν το α µεταβάλλεται ελαφρά Εάν το στοιχείο j του dπ Τ (α)/dα, που το συµβολίζουµε µε dπ j (α)/dα, είναι µεγάλο σε τιµή, τότε µπορούµε να συµπεράνουµε ότι καθώς το α µεταβάλλεται ελαφρά, το π είναι πολύ ευαίσθητο σε µικρές αλλαγές του α 5 Ευαισθησία του PageRank σε σχέση µε τοα Το πρόσηµα των παραγώγων δίνουν επίσης σηµαντική πληροφορία: εάν dπ j (α)/dα > 0, τότε µικρές αλλαγές στην τιµή του α, θα σηµαίνουν ότι η PageRank τιµή της σελίδας P j αυξάνουν Είναι σηµαντικό να έχουµε υπόψηµας ότι το dπ Τ (α)/dα είναι µόνο µια προσέγγιση τού πώς µεταβάλλονται τα στοιχεία του π Τ όταν αλλάζει το α και ΕΝ περιγράφουν επακριβώς το πώς µεταβάλλονται Παρόλο που στο α δίνεται συνήθως η τιµή 0.85, θεωρητικά µπορεί να πάρει τιµή στο(0 < α < 1) Φυσικά, ο G εξαρτάται από το α, και συνεπώς G(α)=αS+(1-α)ev T 6 2

Ευαισθησία του PageRank σε σχέση µε τοα Συνεπώς, µε τηπαράγωγοµπορούµε ναµελετήσουµε το ρυθµό µεταβολής του π Τ σε σχέση µε µικρές µεταβολές του α Πρώτα όµως πρέπει να είµαστε βέβαιοι ότι η παράγωγος είναι καλά ορισµένη Είδαµε ότιηκατανοµή τουπ Τ (α) είναι το αριστερό ιδιοδιάνυσµα τουg(α), αλλά τα ιδιοδιανύσµατα δεν είναι κατ ανάγκη παραγωγίσιµα ούτεκατ ανάγκη συνεχείς συναρτήσεις των στοιχείων του G(α) Το επόµενο θεώρηµα µας εφοδιάζει µε το απαραίτητο υπόβαθρο σε σχέση µε την προϋπόθεση ύπαρξης της παραγώγου 7 Ύπαρξη παραγώγου διανύσµατος PageRank ΘΕΩΡΗΜΑ. Το διάνυσµα PageRank δίνεται από το όπου το D i (α) είναι η i-οστή κύρια µικρή ορίζουσα τάξης n-1 του I-G(α). Επειδή κάθε κύρια µικρή (principal minor) D i (α) > 0 είναι απλά ένα άθροισµα γινοµένων αριθµών του I-G(α), προκύπτει ότι κάθε συνιστώσα του π Τ (α) είναι παραγωγίσιµη συνάρτηση του α στο διάστηµα (0,1) 8 Ύπαρξη παραγώγου διανύσµατος PageRank Απόδειξη. Έστω ότι G=G(α), π Τ (α)=π Τ, D i =D i (α), και θέτουµε A=I-G Εάν µε adj(a) συµβολίσουµε τον ανάστροφο του πίνακα των συµπαραγόντων (cofactors), που συχνά αποκαλείται adjugate ή adjoint, τότε A[adj(A)] = 0 = [adj(a)]a Από το θεώρηµα των Perron-Frobenius προκύπτει ότι rank(a)=n-1, και ως αποτέλεσµα ότιrank(adj(a))=1 Επιπλέον, το ίδιο θεώρηµα εγγυάται ότι κάθε στήλη του [adj(a)] είναι πολλαπλάσιο του e, και συνεπώς [adj(a)] =ew T, για κάποιο διάνυσµα w 9 3

Ύπαρξη παραγώγου διανύσµατος PageRank Απόδειξη (συνέχεια) Αλλά, [adj(a)] ii = D i, και έτσι w T =(D 1, D 2,.., D n ) Όµοια, η σχέση[adj(a)]α = 0 εγγυάται ότι κάθε γραµµή του του [adj(a)] είναι πολλαπλάσιο του π Τ, και εποµένως w T =απ Τ για κάποιο α Το α αυτό δεν µπορεί να είναι µηδέν, γιατί διαφορετικά [adj(a)] = 0, το οποίο είναι αδύνατο Εποµένως, w T e= α 0, και w T /(w T e)= w T /α = π Τ 10 Άνω όριο των συνιστωσών του PageRank ΘΕΩΡΗΜΑ. Εάν π Τ (α) = (π 1 (α), π 2 (α),, π n (α)) είναι το διάνυσµα PageRank, τότε: και το άνω όριο του αθροίσµατος των συνιστωσών, δηλ., η 1-norm, είναι: 11 Σχόλια για το προηγούµενο θεώρηµα Ηχρησιµότητα του προηγούµενου θεωρήµατος περιορίζεται στις µικρές τιµές του α ηλαδή, για µικρές τιµές του α, η τιµές PageRank των αντίστοιχων ιστοσελίδων δεν είναι εξαιρετικά ευαίσθητες ως συνάρτηση του α Καθώς όµως το α πλησιάζει στο 1, το άνω όριο του 1/(1-α) τείνει στο άπειρο. Αυτό το όριο γίνεται σταδιακά άχρηστο, γιατί δεν υπάρχει καµία εγγύηση ότι είναι εφικτό Όµως οι µεγαλύτερες τιµές του α είναι αυτές που έχουν σηµασία, γιατί δίνουν προτεραιότητα στην πραγµατική δοµή των υπερσυνδέσµων του Web Συνεπώς απαιτείται µεγαλύτερη ανάλυση για να αντιληφθούµε τοβαθµό ευαισθησίαςτουpagerank στις µεγαλύτερες τιµές του α 12 4

Ευαισθησία του PageRank σε µεγάλα α ΘΕΩΡΗΜΑ. Εάν π Τ (α) είναι το PageRank διάνυσµα του πίνακα Google G=αS+(1-α)ev T, τότε: Ειδικότερα, οι τιµές των παραγώγων στα όρια 0 και 1 είναι: όπου µε (*) # συµβολίζουµε τονgroup inverse 13 Σχόλια για το προηγούµενο θεώρηµα (1/3) Ηκυρίαρχηιδιοτιµή (dominant eigenvalue) λ 1 =1 όλων των στοχαστικών πινάκων είναι semisimple, έτσι όταν ο S µετατρέπεται σε µορφή Jordan µε έναν µετασχηµατισµό οµοιότητας, το αποτέλεσµα είναι: και ΟπίνακαςC αποτελείται από Jordan µπλοκ J *, που συσχετίζονται µε τις ιδιοτιµές λ k 1, και τα αντίστοιχα µπλοκ στον (I-C) -1 είναι (I-J * ) -1 14 Σχόλια για το προηγούµενο θεώρηµα (2/3) Συνδυάζοντας αυτά µε το προηγούµενο θεώρηµα, συνάγουµε ότι η ευαισθησία του π Τ (α) καθώς το α τείνει στο 1 καθορίζεται από το µέγεθος των στοιχείων του (I-S) # (I-S) # κ(x) (I-C) -1, όπου κ(x) είναι ο condition number του X Εποµένως, η ευαισθησίατουπ Τ (α) καθώς το α τείνει στο 1 καθορίζεται κυρίως από το µέγεθος του (I-C) -1, το οποίο καθορίζεται από το µέγεθος του 1-λ 2-1, όπου λ 2 1 είναι η ιδιοτιµή τουs που είναι πλησιέστερα στη λ 1 Με άλλα λόγια, όσο πιο κοντά είναι η τιµή τουλ 2 στο λ 1 =1, τόσο πιο ευαίσθητο είναι το π Τ (α), όταντοαείναικοντάστο1 15 5

Σχόλια για το προηγούµενο θεώρηµα (3/3) Μιλώντας γενικά, οι στοχαστικοί πίνακες των οποίων η υποκυρίαρχη ιδιοτιµή (subdominant eigenvalue) είναι κοντά στο 1, αντιπροσωπεύουν nearly uncoupled chains (ή nearly completely decomposable chains) Αυτές είναι οι αλυσίδες των οποίων οι καταστάσεις σχηµατίζουν οµάδες (clusters), τέτοιες ώστε οι καταστάσεις µέσα στις οµάδες έχουν ισχυρή σύνδεση µεταξύ τους, ενώ οι οµάδες είναι χαλαρά συνδεδεµένες µεταξύ τους οι καταστάσεις µπορούν να διαταχτούν έτσι ώστε ο πίνακας πιθανοτήτων µεταβάσεων να αποκτήσει τη µορφή S=D+εE, όπου ο D είναι διαγώνιος µε µπλοκ (block diagonal), E 1, και 0 ε< 1 είναι µικρό σχετικά µε το1 Η αλυσίδα που ορίζεται από το Web είναι σχεδόν βέβαιο ότι είναι nearly uncoupled, οπότε το λ 2 είναι πολύ κοντά στο 1 16 Συµπεράσµατα για την ευαισθησία του π Τ Για µικρό α, το διάνυσµα PageRank δεν επηρεάζεται από µικρές αλλαγές στο α Καθώς το α µεγαλώνει, η ευαισθησίατουδιανύσµατος PageRank αυξάνει σε µικρέςαλλαγέςτουα Όταν το α είναι κοντά στο 1, το διάνυσµα PageRank είναι πάρα πολύ ευαίσθητο σε µικρές αλλαγές του α Οβαθµός ευαισθησίας ελέγχεται από το βαθµό στονοποίοo S είναι nearly uncoupled 17 Παράδειγµα 1 (democratic surfer) (1/4) 18 6

Παράδειγµα 1 (democratic surfer) (2/4) Οι σελίδες είναι διατεταγµένεςαπότηνπιοδηµοφιλή προς τη λιγότερο δηµοφιλή (4 5 6 3 2 1 7) λ 2 (G) = α Καθώς το α τείνει στο 1, το PageRank αλλάζει σηµαντικά Όµως, ηδιάταξη(ranking) δεν αλλάζει! Σε µεγαλύτερα γραφήµατα όµως, και η διάταξη είναι δυνατόν να αλλάξει Ηδεύτερηµεγαλύτερη σε τιµή ιδιοτιµή τουs είναι 0.7991 (Επισηµάναµε ήδηότιαυτήητιµή, που µετρά επίσης το βαθµό σύζευξης(coupling) µια Markov αλυσίδας, ελέγχει την ευαισθησία του διανύσµατος PageRank) Αφού to 0.7991 δεν είναι κοντά στο 1, αναµένουµε ότι αυτή η αλυσίδα δεν θα είναι πολύ ευαίσθητη σε µικρές αλλαγές του α Ας ελέγξουµεαυτή τηνυπόθεσηπροσθέτονταςέναν υπερσύνδεσµο απότησελίδα6 στην 5 (δες τον επόµενο πίνακα) 19 Παράδειγµα 1 (democratic surfer) (3/4) 20 Παράδειγµα 1 (democratic surfer) (4/4) Μετά την προσθήκη ενός µόνο υπερσυνδέσµου οι ιστοσελίδες τώρα διατάσσονται από την πιο σηµαντική προς τη λιγότερο σηµαντική ως εξής: (5 6 4 3 2 1 7) ηλ., η σελίδα4 έπεσε απότηνπρώτηθέσηστηντρίτη θέση! Παρατηρούµε ότι µόνο οι PageRank τιµές των ιστοσελίδων 4, 5 και 6 έχουν αλλάξει, ως συνέπεια της reducibility της αλυσίδας Στο επόµενο παράδειγµα εξετάζουµε µια αλυσίδα της οποία η δεύτερη σε µέγεθος ιδιοτιµή του S είναι πιο κοντά στο 1 21 7

Παράδειγµα 2 (intelligent surfer) (1/4) Ο S είναι πολύ πιο ασύζευκτος (uncoupled) λ 2 (S)=0.9193 22 Παράδειγµα 2 (intelligent surfer) (2/4) Η διάταξη πλέον των ιστοσελίδων από την πιο σηµαντική προς τη λιγότερο σηµαντική είναι η εξής (4 5 6 3 2 1 7) Ας κάνουµε καισ αυτό το παράδειγµα την ίδια αλλαγή στο γράφηµα πουκάναµε προηγουµένως, και ας προσθέσουµε έναν σύνδεσµο από την ιστοσελίδα 6 προς την 5 23 Παράδειγµα 2 (intelligent surfer) (3/4) 24 8

Παράδειγµα 2 (intelligent surfer) (4/4) Μετά την αλλαγή, η διάταξη πλέον γίνεται (5 6 3 2 4 1 7) Ηιστοσελίδα4 πέφτει ακόµα περισσότερο στο ranking Τόσο η διάταξη όσο και οι πραγµατικές τιµές του PageRank των ιστοσελίδων είναι πολύ πιο ευαίσθητες στο Παράδειγµα 2 απ ότι στο Παράδειγµα 1 Συνεπώς, βλέπουµε καθαρά την επίδραση του λ 2 (S) στην ευαισθησία του διανύσµατος PageRank Οι Boldi, Santini και Vigna έχουν µελετήσει παραγώγους ανώτερης τάξης και έφτασαν σε πιο πλούσια αποτελέσµατα για την ευαισθησία του PageRank 25 Ευαισθησία σε σχέση µε τονπίνακαη (1/2) Παλιότεραγνωστάαποτελέσµατα ευαισθησίας για Markov αλυσίδες δίνουν ότι: π Τ είναι ευαίσθητο σε µεταβολές στο P λ 2 (P) 1 Γνωρίζουµε ήδηότι λ 2 (G) α, και επιπλέον, όταν ο S είναι reducible ισχύει ότι λ 2 (G) = α Εποµένως, καθώς το α τείνει στο 1, γίνεται όλο και πιο ευαίσθητο σε µικρές µεταβολές στο G Όµως το G εξαρτάται από τα α, H και v T και επιθυµούµε να αποµονώσουµε την εξάρτησή του από το H Ας υπολογίσουµε µια άλλη παράγωγο: 26 Ευαισθησία σε σχέση µε τονπίνακαη (2/2) Η επίδραση του α είναι προφανής Καθώς το α τείνει στο 1, τα στοιχεία του (I-αS) -1 απειρίζονται και το PageRank διάνυσµα γίνεταιπολύ ευαίσθητο σε µικρές αλλαγές της συνδεσµολογίας Ηπροσθήκηενόςυπερσυνδέσµου ή η αύξηση του βάρους ενός υπερσυνδέσµου από µια σηµαντική ιστοσελίδα (το π i είναι υψηλό) έχει µεγαλύτερη επίδραση στην ευαισθησία του διανύσµατος PageRank, παρά η αλλαγή ενός υπερσυνδέσµου από µια µη σηµαντική σελίδα 27 9

Νόρµα Google G υπό αλλαγές ΘΕΩΡΗΜΑ. Έστω ότι G=αS+(1-α)ev T είναι ο Google πίνακας µε διάνυσµα PageRank π Τ και Ĝ=αŜ+(1-α)ev T είναι οενηµερωµένος πίνακας Google (ίδιου µεγέθους) µε αντίστοιχο διάνυσµα ñ Τ. Τότε: όπου U είναι το σύνολο όλων των ιστοσελίδων που έχουν ενηµερωθεί. 28 Άλλες προσεγγίσεις ευαισθησίας (1/3) Το προηγούµενο θεώρηµα υπονοεί ότι όσο το α δεν είναι κοντά στο 1, και οι ενηµερωµένες ιστοσελίδες δεν έχουν υψηλή τιµή PageRank, τότε οι νέες τιµές PageRank δεν αλλάζουν πολύ Ας εξετάσουµε τους δυο παράγοντες του ορίου 2α/(1-α) Σπ ι Έστω ότι α=0.8 και ότι το άθροισµα των παλιών τιµών του PageRank των ενηµερωµένων σελίδων είναι 10-6 Τότε η πολλαπλασιαστική σταθερά 2α/(1-α) = 8, το οποίο σηµαίνει ότι η 1-νόρµα της διαφοράς του παλιού µε τονέο διάνυσµα PageRank είναι το πολύ 8x10-6 Άρα οι τιµές PageRank δεν είναι επιρρεπείς στις αλλαγές 29 Άλλες προσεγγίσεις ευαισθησίας (2/3) Καθώς το α τείνει στο 1, το προηγούµενοόριογίνεταισταδιακά λιγότερο χρήσιµο Ηχρησιµότητα του ορίου ελέγχεται από το βαθµό στον οποίο το άθροισµα Σπ ι µπορεί να εξισορροπήσει την αύξηση του κλάσµατος 2α/(1-α) υο πράγµατα επηρεάζουν το µέγεθος του Σπ ι : Οαριθµός των ενηµερωµένων σελίδων Ητιµή τουpagerank των σελίδων αυτών Το προηγούµενοόριοέχειέναακόµα µειονέκτηµα: εν µας λέει κάτι για το τι συµβαίνει στο PageRank όταν ενηµερώνονται οι σελίδες που έχουν µεγάλη τιµή PageRank 30 10

Άλλες προσεγγίσεις ευαισθησίας (3/3) Όλες οι προηγούµενες προσπάθειες µελέτης της ευαισθησίας του PageRank αφορούσαν την σταθερότητα των τιµών του PageRank Οι Lempel & Moran µελέτησαν τη σταθερότητα της διάταξης (ranking) Έδειξαν ότι η σταθερότητα των τιµών (PageRank value stability) δεν υπονοεί σταθερότητα διάταξης (rank stability) 31 Σταθερότητα ranking του PageRank (1/6) ΟΡΙΣΜΟΣ. Έστω ότι τα v 1 v 2 είναι N-διάστατα διανύσµατα µε πραγµατικές συντεταγµένες. Η ranking distance d r µεταξύ των v 1 και v 2 ορίζεται ως εξής (µια τυπική εκδοχή): Η d r είναι µια κανονικοποιηµένηέκδοσητηςkendal Τ απόστασης Π.χ., εάν v 1 =(2,4,6,8) και v 2 =(2,9,5,3), τότε d r (v 1, v 2 )=3/16, εξαιτίας των ζευγών (i,j) {(2,3),(2,4),(3,4)} 32 Σταθερότητα ranking του PageRank (2/6) Έστω ότι G είναι ένα σύνολο κατευθυνόµενων γραφηµάτων, και G N είναιεκείνοτουποσύνολοτωνγραφηµάτων του G µε N κόµβους. Έστω ότι Α 1 και Α 2 είναι δυο αλγόριθµοι link ranking που αναθέτουν V -διάστατα διανύσµατα βάρους Α 1 (G) και Α 2 (G) στους κόµβους του γραφήµατος G G N. ΟΡΙΣΜΟΣ. υο αλγόριθµοι ranking Α 1 και Α 2 θα λέµε ότιείναι rank-similar στο G, εάν ισχύει ότι: ΟΡΙΣΜΟΣ. Ένας αλγόριθµος Α θα λέµε ότιείναιrank-stable στο G, εάν για κάθε σταθερό k, έχουµε ότι: όπου d e (G 1,G 2 ) (E 1 E 2 )\(E 1 E 2 ) 33 11

Σταθερότητα ranking του PageRank (3/6) Έστω ότι G=(V,E) είναι ένα κατευθυνόµενο γράφηµα (που αναπαριστά κάποιο υπογράφηµα τουweb) υο κόµβοι p,q V θα λέµε ότιείναιco-cited, εάν υπάρχει κάποιος κόµβος r που έχει υπερσύνδεσµο καιπροςτονκόµβο p και προς τον q Θα λέµε ότιοικόµβοι p και q συνδέονται µε έναco-citation path, εάνυπάρχουνκόµβοι p=v 0,v 1, v k-1,v k =q, τέτοιοι ώστε τα ζεύγη (v i-1,v i ) να είναι co-cited για κάθε i=1,2,,k Έστω ότι συµβολίζουµε µε V in όλους τους κόµβους του V µε τουλάχιστον έναν εισερχόµενο υπερσύνδεσµο ΟΡΙΣΜΟΣ. Ένα κατευθυνόµενο γράφηµα G=(V,E) θα αποκαλείται authority-connected, εάν για όλους τους p,q V in, υπάρχει ένα co-citation path που συνδέει τους p και q 34 Σταθερότητα ranking του PageRank (4/6) Θα εξετάσουµε τηνrank stability PageRank όταν εφαρµόζεται πάνω σε authority-connected γραφήµατα Γιατί µόνο σε τέτοιου είδους γραφήµατα; Γιατί όταν ζητούµε από έναν αλγόριθµο ranking να κατατάξει ιστοσελίδες γραφηµάτων που δεν είναι authority-connected, είναι σαν να ζητάµε απότον αλγόριθµο να κτατάξει σελίδες που δεν αναφέρονται στο ίδιο θέµα, π.χ., γεωγραφίας και αθλητικών ΘΕΩΡΗΜΑ. Ο PageRank δεν είναι rank-stable στην κλάση των authority-connected γραφηµάτων ΑΠΟ ΕΙΞΗ. Με αντιπαράδειγµα (δείτε επόµενες δυο διαφάνειες) 35 Σταθερότητα ranking του PageRank (5/6) x a y x b Ορίζουµε ταγραφήµατα: a 1 a 2 h a a n c b 1 b 2 h b b n Τα G a και G b είναι authority-connected, διαµέσου του κόµβου c Έστω ότι PR a (v), PR b (v) (v V) είναι η PageRank τιµή τουκόµβου v στα γραφήµατα G a και G b, αντίστοιχα 36 12

Σταθερότητα ranking του PageRank (6/6) Από τον ορισµό τουpagerank, εύκολα διαπιστώνουµε ότι: 0 < PR a (x a ) = PR a (y) = PR a (x b ) και συνεπώς: PR a (h a ) > PR a (h b ) Εποµένως, PR a (a ai ) > PR a (a bi ), για κάθε 1 i n Όµοια, PR b (a ai ) < PR b (a bi ), για κάθε 1 i n Εποµένως: που, για Ν τείνει στο ¼ και όχι στο 0 (τέλος απόδειξης) Παρατηρήστε ότι p {h a,h b,a 1,,a n,b 1,,b n }, PR(y) < PR(p), σε όποιο από τα δυο γραφήµατα Εποµένως, συντελέστηκε δραµατική αλλαγή στο ranking µε την αλλαγή ενός µόνο εξερχόµενου υπερσυνδέσµου του κόµβου y, ο οποίοςτυγχάνειναέχειπολύχαµηλό ranking!!! 37 Νόρµα Google G υπό αλλαγές (Απόδειξη) ΑΠΟ ΕΙΞΗ. Έστω ότι ο F είναι ο πίνακας που αναπαριστά τη διαταραχή (perturbation) µεταξύ δυο στοχαστικών πινάκων S και Ŝ. Έτσι F= S - Ŝ. Τότε: Επιλύοντας ως προς π Τ - ñ Τ έχουµε: 38 Νόρµα Google G υπό αλλαγές (Απόδειξη) Υπολογίζοντας νόρµες, έχουµε: Ισχύει ότι ο I-αŜ είναι µη-ιδιόµορφος (nonsingular) και έχει αθροίσµατα γραµµών ίσα προς 1/(1-α). Τώρα, αναδιατάσσουµε τονf (και π Τ ) έτσι ώστε οι γραµµές που αντιστοιχούν στις ανανεωµένες σελίδες (µη µηδενικές γραµµές) να έρθουν στην κορυφή του πίνακα. Τότε: 39 13

Νόρµα Google G υπό αλλαγές (Απόδειξη) Εποµένως: και όπου S 1 και Ŝ 1 επίσης αντιστοιχούν σε ενηµερωµένες σελίδες Εποµένως: Τελικά: 40 Ευαισθησία σε σχέση µε τοv T Ας υπολογίσουµε την παράγωγο του π Τ σε σχέση µε το διάνυσµα v T : όπου το D είναι το σύνολο των dangling κόµβων Υπάρχει εξάρτηση από το α Fundamental matrix Καθώς το α τείνει στο 1, τα στοιχεία του (I-αS) -1 απειρίζονται, δηλ., καθώς το α τείνει στο 1, το π Τ γίνεται όλο και πιο ευαίσθητο Εάν οι dangling κόµβοισυνδυάζονταιγιανααποκτήσουνένα µεγάλο ποσοστό του PageRank, τότε το διάνυσµα π Τ είναι πολύ ευαίσθητο σε αλλαγές στο διάνυσµα v T Αυτό συµφωνεί µε την κοινή λογική οτυχαίοςsurfer περνάει αρκετό χρόνο στους dangling κόµβους, και έτσι πιο συχνά ακολουθεί τις teleportation πιθανότητες, δηλ., το v T 41 Το πρόβληµα PageRank ως γραµµικό σύστηµα 42 14

PageRank ως γραµµικό σύστηµα Το πρόβληµα του PageRank µπορεί να γραφεί είτε ως Πρόβληµα ιδιοδιανύσµατος: π Τ (αs+(1-α)ev T ) = π Τ Πρόβληµα Γραµµικού συστήµατος: π Τ (I-αS)= (1-α)v T Ποια από τις δυο µορφές είναι προτιµότερες; Υπάρχει κάποια διαφορά; 43 Ιδιότητες του (I-αS) 1. (I-αS) είναι ένας M πίνακας 2. Ο (I-αS) δεν είναι ιδιόµορφος 3. Τα αθροίσµατα γραµµών του (I-αS) είναι ίσα προς 1-α 4. (I-αS) = 1 + α 5. Αφού ο (I-αS) είναι ένας M πίνακας, (I-αS) -1 0 6. Τα αθροίσµατα γραµµών του (I-αS) -1 είναι (1-α) -1. Εποµένως, (I-αS) -1 = (1 α) -1 7. Ο condition number είναι κ (I-αS) = (1+α)/(1-α) Επειδή ο (I-αS) είναι αρκετά πυκνός, θα θέλαµε να ελέγξουµε εάν παρόµοιες ιδιότητες ισχύουν για τον (I-αH) 44 Ιδιότητες του (I-αH) Χρησιµοποιώντας το διάνυσµα γιατουςdangling κόµβους av T Το γραµµικό σύστηµα: π Τ (I-αΗ-αav T ) = (1-α)v T Εάν δέσουµε π Τ a = γ, τότε το γραµµικό σύστηµα γίνεται: π Τ (I-αΗ) = (1-α+αγ)v T Η scalar µεταβλητή γ κρατά το συνολικό PageRank των dangling κόµβων Αφού στο τέλος θα εφαρµόσουµε τηνεξίσωση κανονικοποίησης π Τ e = 1, διαλέγουµε αυθαίρεταµια τιµή για το γ, π.χ., γ = 1 45 15

Το PageRank ως γραµµικό σύστηµα ΘΕΩΡΗΜΑ. Επιλύοντας το γραµµικό σύστηµα x T (I-αH) = v T και θέτοντας π Τ =x T /x T e έχουµε ως αποτέλεσµα τοδιάνυσµα PageRank Επιπλέον, ο (I-αH) έχει πολλές από τις ιδιότητες του (I-αS) 46 Ιδιότητες του (I-αH) Ο (I-αH) είναι ένας M πίνακας Ο (I-αH) δεν είναι ιδιόµορφος Τα αθροίσµατα γραµµών του (I-αH) είναι είτε ίσα προς 1-α για τους µη-dangling κόµβους ή 1 για τους dangling κόµβους (I-αH) = 1 + α Αφού ο (I-αH) είναι ένας M πίνακας, (I-αH) -1 0 Τα αθροίσµατα γραµµών του (I-αH) -1 είναι 1 για τους dangling κόµβους και µικρότερο ή ίσο µε (1-α) -1 για τους µη dangling κόµβους Ο condition number είναι κ (I-αH) (1+α)/(1-α) Ηγραµµή του(i-αh) -1 που αντιστοιχεί στον dangling κόµβο i είναι το e it, όπου e i είναι η i-οστή στήλη του µοναδιαίου πίνακα 47 Σχόλια Για µικρά προβλήµατα, η προσέγγιση αυτή είναι πολύ πιο γρήγορη, π.χ., company Intranet Επειδή καθώς το α τείνει στο 1 η power µέθοδος αργεί να συγκλίνει Νέοι ερευνητικοί ορίζοντες Φυσικά, καθώς το α τείνει στο 1 τα ζητήµατα ευαισθησίας παραµένουν και για το γραµµικό σύστηµα 48 16

Απόδειξη 1: PageRank ως Γραµµικό Σύστηµα Το π Τ είναι το PageRank διάνυσµα εάν ικανοποιεί π Τ G=π Τ και π Τ e=1 Προφανώς, π Τ e = 1 Το να δείξουµε ότιισχύειπ Τ G=π Τ είναι ισοδύναµο µε το να δείξουµε ότιπ Τ (I-G) = 0 T, το οποίο είναι ισοδύναµο µε τοναδείξουµε ότιx Τ (I-G) = 0 T 49 Απόδειξη 1: PageRank ως Γραµµικό Σύστηµα Ηπροηγούµενη γραµµή προκύπτειαπότογεγονόςότι x T (αa+(1-α)e)v T, επειδή: 50 Απόδειξη 2: PageRank ως Γραµµικό Σύστηµα Ας δούµε µια εναλλακτική θεώρηση του PageRank ως γραµµικό σύστηµα. Έχουµε δειότι: Ξεκινώντας από τον ορισµό του PageRank ως πρόβληµα ιδιοδιανύσµατος (eigenvector), έχουµε ότι: 51 17

Απόδειξη 2: PageRank ως Γραµµικό Σύστηµα Έστω ότι: Απότοθεώρηµα Sherman-Morrison, γνωρίζουµε ότιο αντίστροφος µιας rank-one update u w πάνω σε έναν πίνακα A µπορεί να γραφεί ως συνάρτηση του αντιστρόφου του Α ως εξής: Συνεπώς, στη δική µας περίπτωση για τον R έχουµε ότι: 52 Απόδειξη 2: PageRank ως Γραµµικό Σύστηµα Από την έκφραση του PageRank ως γραµµικού συστήµατος: µε έχουµε άρα Συνεπώς: 53 Έστω: τότε Απόδειξη 2: PageRank ως Γραµµικό Σύστηµα όπου Αυτό σηµαίνει ότι αφού υπολογίσω το y µε γνωστούς τρόπους, µπορώ να βρω το π εύκολα, αφού εφαρµόσω µια κατάλληλη κανονικοποίηση στο y, ώστε π 1 =1 54 18