Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ευαισθησία του PageRank. Το πρόβληµα PageRank ως. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Σπιν 1 2. Γενικά. Ŝ και S ˆz γράφονται. ιδιοκαταστάσεις αποτελούν ορθοκανονική βάση στον χώρο των καταστάσεων του σπιν 1 2.

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Παραδείγματα Ιδιοτιμές Ιδιοδιανύσματα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Τετραγωνικά μοντέλα. Τετραγωνικό μοντέλο συνάρτησης. Παράδειγμα τετραγωνικού μοντέλου #1. Παράδειγμα τετραγωνικού μοντέλου #1

= 7. Στο σημείο αυτό θα υπενθυμίσουμε κάποιες βασικές ιδιότητες του μετασχηματισμού Laplace, δηλαδή τις

ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1. Τελεστές και πίνακες. 1. Τελεστές και πίνακες Γενικά. Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο.

Θεωρία Γραφημάτων 6η Διάλεξη

Κεφάλαιο 4 Διανυσματικοί Χώροι

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση 8/6/2017 Διδάσκων: Ι. Λυχναρόπουλος

1 Επανάληψη εννοιών από τον Απειροστικό Λογισμό

8.1 Διαγωνοποίηση πίνακα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΣΗΜΕΙΩΣΕΙΣ ΓΡΑΜΜΙΚΗΣ ΑΛΓΕΒΡΑΣ. ρ Χρήστου Νικολαϊδη

7 ΑΛΓΕΒΡΑ ΜΗΤΡΩΝ. 7.2 ΜΗΤΡΕΣ ΕΙΔΙΚΗΣ ΜΟΡΦΗΣ (Ι)

1.6 ΜΗ ΠΕΠΕΡΑΣΜΕΝΟ ΟΡΙΟ ΣΤΟ x

1.6 ΜΗ ΠΕΠΕΡΑΣΜΕΝΟ ΟΡΙΟ ΣΤΟ x

Εισαγωγικές έννοιες. Κατηγορίες προβλημάτων (σε μια διάσταση) Προβλήματα εύρεσης μεγίστου. Συμβολισμοί

u v 4 w G 2 G 1 u v w x y z 4

ΚΕΦΑΛΑΙΟ 2: ΟΡΙΖΟΥΣΕΣ

e 2 S F = [V (H), V (H)]. 3-1 e 1 e 3

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Τετραγωνικά μοντέλα. Τετραγωνικό μοντέλο συνάρτησης. Παράδειγμα τετραγωνικού μοντέλου #1. Παράδειγμα τετραγωνικού μοντέλου #1

Η ΚΑΝΟΝΙΚΗ ΜΟΡΦΗ JORDAN

Αριθμητική Ανάλυση και Εφαρμογές

Επίπεδα Γραφήματα : Προβλήματα και Υπολογιστική Πολυπλοκότητα

Θεωρία Υπολογισμού και Πολυπλοκότητα Μαθηματικό Υπόβαθρο

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

Μερικές φορές δεν μπορούμε να αποφανθούμε για την τιμή του άπειρου αθροίσματος.

Κεφάλαιο 4 Διανυσματικοί Χώροι

Λυμένες ασκήσεις στροφορμής

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Εφαρμοσμένα Μαθηματικά ΙΙ

D = / Επιλέξτε, π.χ, το ακόλουθο απλό παράδειγμα: =[IA 1 ].

που σε κάθε χρονική στιγμή περιλαμβάνει τις τιμές των μεταβλητών κατάστασης

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

4.3 Δραστηριότητα: Θεώρημα Fermat

Στοχαστικά Σήματα και Τηλεπικοινωνιές

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ

1 ιαδικασία διαγωνιοποίησης

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

Διαγωνοποίηση μητρών. Στοιχεία Γραμμικής Άλγεβρας

Παράδειγμα 1. Δίνεται ο κάτωθι κλειστός βρόχος αρνητικής ανάδρασης με. Σχήμα 1. στο οποίο εφαρμόζουμε αρνητική ανάδραση κέρδους

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 1. Σταύρος Παπαϊωάννου

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

ΜΑΣ121: ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ I Εαρινό εξάμηνο , Διδάσκων: Γιώργος Γεωργίου ΕΝΔΙΑΜΕΣΗ ΕΞΕΤΑΣΗ, Διάρκεια: 2 ώρες 18 Νοεμβρίου, 2017

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΡΓΑΣΙΑ 1 η Ημερομηνία Αποστολής στον Φοιτητή: 20 Οκτωβρίου 2008

ΚΕΦ.6:ΤΕΤΡΑΓΩΝΙΚΕΣ ΜΟΡΦΕΣ. ΣΥΜΜΕΤΡΙΚΟΙ ΠΙΝΑΚΕΣ

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014

(a + b) + c = a + (b + c), (ab)c = a(bc) a + b = b + a, ab = ba. a(b + c) = ab + ac

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Εφαρμοσμένα Μαθηματικά ΙΙ 9ο Σετ Ασκήσεων (Λύσεις) Διανυσματικοί Χώροι

Θέμα 1. που. . Δηλαδή ο υπόχωρος V είναι το. Απάντηση 1α) ii)παρατηρούμε οτι

ΑΚΟΛΟΥΘΙΕΣ ΣΕΙΡΕΣ. Ορισμός 1. Μια 1 1 (ένα προς ένα) συνάρτηση με πεδίο ορισμού το και πεδίο τιμών ένα υποσύνολο X του, δηλαδή μία 1 1 συνάρτηση

2 3x 5x x

Σχόλιο. Κατασκευή των τροχιών της δισδιάστατης γραμμικής δυναμικής.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Όταν η s n δεν συγκλίνει λέμε ότι η σειρά αποκλίνει.

Επίλυση Γραµµικών Συστηµάτων

Κατευθυνόμενα γραφήματα. Μαθηματικά Πληροφορικής 6ο Μάθημα. Βρόγχοι. Μη κατευθυνόμενα γραφήματα. Ορισμός

Κεφάλαιο 9 1 Ιδιοτιμές και Ιδιοδιανύσματα

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

ΕΠΙΛΥΣΗ ΕΚΦΥΛΙΣΜΕΝΩΝ ΚΑΙ ΓΕΝΙΚΩΝ ΓΡΑΜΜΙΚΩΝ ΠΡΟΒΛΗΜΑΤΩΝ. 4.1 Επίλυση Εκφυλισμένων Γραμμικών Προβλημάτων

ΘΕΩΡΙΑ Β ΓΥΜΝΑΣΙΟΥ. Μια παράσταση που περιέχει πράξεις με μεταβλητές (γράμματα) και αριθμούς καλείται αλγεβρική, όπως για παράδειγμα η : 2x+3y-8

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Κατευθυνόμενα γραφήματα. Μαθηματικά Πληροφορικής 6ο Μάθημα. Βρόχοι. Μη κατευθυνόμενα γραφήματα. Ορισμός

Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων 1 / 20

[A I 3 ] [I 3 A 1 ].

Εφαρμοσμένα Μαθηματικά ΙΙ

ΠΛΗ ΛΥΣΕΙΣ ΕΡΓ_2 ΣΕΛ. 1/11

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

0 + a = a + 0 = a, a k, a + ( a) = ( a) + a = 0, 1 a = a 1 = a, a k, a a 1 = a 1 a = 1,

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Γ. Ν. Π Α Π Α Δ Α Κ Η Σ Μ Α Θ Η Μ Α Τ Ι Κ Ο Σ ( M S C ) ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ. ΠΡΟΓΡΑΜΜΑ: Σπουδές στις Φυσικές Επιστήμες

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

ΠΡΑΓΜΑΤΙΚΕΣ ΣΥΝΑΡΤΗΣΕΙΣ ΠΟΛΛΩΝ ΜΕΤΑΒΛΗΤΩΝ

Θεωρία Γραφημάτων 8η Διάλεξη

Κεφάλαιο 3 ΣΤΟΙΧΕΙΑ ΓΡΑΜΜΙΚΗΣ ΑΛΓΕΒΡΑΣ

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 2: Μαθηματικό Υπόβαθρο

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (ΗΥ-119)

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΡΓΑΣΙΑ 2 η Ημερομηνία Αποστολής στον Φοιτητή: 28 Νοεμβρίου 2011

Κεφάλαιο 2 Πίνακες - Ορίζουσες

w S n lim (n 1)! = x(x + q)(x + q + q 2 ) (x + q + q q n 1 ),

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Δίνεται το σύστημα μιας εισόδου και μιας εξόδου, το οποίο περιγράφεται από τις κάτωθι εξισώσεις:,, πίνακας,

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Transcript:

Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 14η: 07/05/2014 1

Ευαισθησία του PageRank 2

Ευαισθησία του PageRank: Εισαγωγικά Η ευαισθησία του PageRank μπορεί να αναλυθεί εξετάζοντας ξεχωριστά κάθε παράμετρο του πίνακα Google Στην προηγούμενη διάλεξη δώσαμε έμφαση στις τρεις παραμέτρους που επηρεάζουν τον πίνακα G Την παράμετρο α Τον πίνακα υπερσυνδέσμων H Το διάνυσμα προσωποποίησης v T Στην παρούσα διάλεξη θα μελετήσουμε την εξάρτηση του PageRank σε σχέση με κάθε μια από αυτές τις παραμέτρους 3

Ευαισθησία του PageRank σε σχέση με το α Θα χρησιμοποιήσουμε την έννοια της παραγώγου για να μελετήσουμε το αποτέλεσμα των αλλαγών του α πάνω στο π Τ Η παράγωγος του π Τ σε σχέση με το α, δηλ., dπ Τ (α)/dα, μας λέει πόσο μεταβάλλονται τα στοιχεία του διανύσματος PageRank π T όταν το α μεταβάλλεται ελαφρά Εάν το στοιχείο j του dπ Τ (α)/dα, που το συμβολίζουμε με dπ j (α)/dα, είναι μεγάλο σε τιμή, τότε μπορούμε να συμπεράνουμε ότι καθώς το α μεταβάλλεται ελαφρά, το π είναι πολύ ευαίσθητο σε μικρές αλλαγές του α 4

Ευαισθησία του PageRank σε σχέση με το α Το πρόσημα των παραγώγων δίνουν επίσης σημαντική πληροφορία: εάν dπ j (α)/dα > 0, τότε μικρές αλλαγές στην τιμή του α, θα σημαίνουν ότι η PageRank τιμή της σελίδας P j αυξάνουν Είναι σημαντικό να έχουμε υπόψη μας ότι το dπ Τ (α)/dα είναι μόνο μια προσέγγιση τού πώς μεταβάλλονται τα στοιχεία του π Τ όταν αλλάζει το α και ΔΕΝ περιγράφουν επακριβώς το πώς μεταβάλλονται Παρόλο που στο α δίνεται συνήθως η τιμή 0.85, θεωρητικά μπορεί να πάρει τιμή στο (0 < α < 1) Φυσικά, ο G εξαρτάται από το α, και συνεπώς G(α)=αS+(1-α)ev T 5

Ευαισθησία του PageRank σε σχέση με το α Συνεπώς, με τη παράγωγο μπορούμε να μελετήσουμε το ρυθμό μεταβολής του π Τ σε σχέση με μικρές μεταβολές του α Πρώτα όμως πρέπει να είμαστε βέβαιοι ότι η παράγωγος είναι καλά ορισμένη Είδαμε ότι η κατανομή του π Τ (α) είναι το αριστερό ιδιοδιάνυσμα του G(α), αλλά τα ιδιοδιανύσματα δεν είναι κατ ανάγκη παραγωγίσιμα ούτε κατ ανάγκη συνεχείς συναρτήσεις των στοιχείων του G(α) Το επόμενο θεώρημα μας εφοδιάζει με το απαραίτητο υπόβαθρο σε σχέση με την προϋπόθεση ύπαρξης της παραγώγου 6

Ύπαρξη παραγώγου διανύσματος PageRank ΘΕΩΡΗΜΑ. Το διάνυσμα PageRank δίνεται από το όπου το D i (α) είναι η i-οστή κύρια μικρή ορίζουσα τάξης n-1 του I-G(α). Επειδή κάθε κύρια μικρή (principal minor) D i (α) > 0 είναι απλά ένα άθροισμα γινομένων αριθμών του I-G(α), προκύπτει ότι κάθε συνιστώσα του π Τ (α) είναι παραγωγίσιμη συνάρτηση του α στο διάστημα (0,1) 7

Ύπαρξη παραγώγου διανύσματος PageRank Απόδειξη. Έστω ότι G=G(α), π Τ (α)=π Τ, D i =D i (α), και θέτουμε A=I-G Εάν με adj(a) συμβολίσουμε τον ανάστροφο του πίνακα των συμπαραγόντων (cofactors), που συχνά αποκαλείται adjugate ή adjoint, τότε A[adj(A)] = 0 = [adj(a)]a ΑπότοθεώρηματωνPerron-Frobenius προκύπτει ότι rank(a)=n-1, και ως αποτέλεσμα ότι rank(adj(a))=1 Επιπλέον, το ίδιο θεώρημα εγγυάται ότι κάθε στήλη του [adj(a)] είναι πολλαπλάσιο του e, και συνεπώς [adj(a)] =ew T, για κάποιο διάνυσμα w 8

Ύπαρξη παραγώγου διανύσματος PageRank Απόδειξη (συνέχεια) Αλλά, [adj(a)] ii = D i, και έτσι w T =(D 1, D 2,.., D n ) Όμοια, ησχέση[adj(a)]α = 0 εγγυάται ότι κάθε γραμμή του του [adj(a)] είναι πολλαπλάσιο του π Τ, και επομένως w T =απ Τ για κάποιο α Το α αυτό δεν μπορεί να είναι μηδέν, γιατί διαφορετικά [adj(a)] = 0, το οποίο είναι αδύνατο Επομένως, w T e= α 0, και w T /(w T e)= w T /α = π Τ 9

Άνω όριο των συνιστωσών του PageRank ΘΕΩΡΗΜΑ. Εάν π Τ (α) = (π 1 (α), π 2 (α),, π n (α)) είναι το διάνυσμα PageRank, τότε: και το άνω όριο του αθροίσματος των συνιστωσών, δηλ., η 1-norm, είναι: 10

Σχόλια για το προηγούμενο θεώρημα Η χρησιμότητα του προηγούμενου θεωρήματος περιορίζεται στις μικρές τιμές του α Δηλαδή, για μικρές τιμές του α, η τιμέςpagerank των αντίστοιχων ιστοσελίδων δεν είναι εξαιρετικά ευαίσθητες ως συνάρτηση του α Καθώςόμωςτοαπλησιάζειστο1, το άνω όριο του 1/(1-α) τείνει στο άπειρο. Αυτό το όριο γίνεται σταδιακά άχρηστο, γιατί δεν υπάρχει καμία εγγύηση ότι είναι εφικτό Όμως οι μεγαλύτερες τιμές του α είναι αυτές που έχουν σημασία, γιατί δίνουν προτεραιότητα στην πραγματική δομή των υπερσυνδέσμων του Web Συνεπώς απαιτείται μεγαλύτερη ανάλυση για να αντιληφθούμε το βαθμό ευαισθησίας του PageRank στις μεγαλύτερες τιμές του α 11

Ευαισθησία του PageRank σε μεγάλα α ΘΕΩΡΗΜΑ. Εάν π Τ (α) είναι το PageRank διάνυσμα του πίνακα Google G=αS+(1-α)ev T, τότε: Ειδικότερα, οι τιμές των παραγώγων στα όρια 0 και 1 είναι: όπου με (*) # συμβολίζουμε τον group inverse 12

Σχόλια για το προηγούμενο θεώρημα (1/3) Η κυρίαρχη ιδιοτιμή (dominant eigenvalue) λ 1 =1 όλων των στοχαστικών πινάκων είναι semisimple, έτσι όταν ο S μετατρέπεται σε μορφή Jordan με έναν μετασχηματισμό ομοιότητας, το αποτέλεσμα είναι: και Ο πίνακας C αποτελείται από Jordan μπλοκ J *, που συσχετίζονται με τις ιδιοτιμές λ k 1, και τα αντίστοιχα μπλοκ στον (I-C) -1 είναι (I-J * ) -1 13

Σχόλια για το προηγούμενο θεώρημα (2/3) Συνδυάζοντας αυτά με το προηγούμενο θεώρημα, συνάγουμε ότι η ευαισθησία του π Τ (α) καθώς το α τείνει στο 1 καθορίζεται από το μέγεθος των στοιχείων του (I-S) # (I-S) # κ(x) (I-C) -1, όπου κ(x) είναι ο condition number του X Επομένως, η ευαισθησία του π Τ (α) καθώς το α τείνει στο 1 καθορίζεται κυρίως από το μέγεθος του (I-C) -1, το οποίο καθορίζεται από το μέγεθος του 1-λ 2-1, όπου λ 2 1 είναι η ιδιοτιμή του S που είναι πλησιέστερα στη λ 1 Με άλλα λόγια, όσο πιο κοντά είναι η τιμή του λ 2 στο λ 1 =1, τόσο πιο ευαίσθητο είναι το π Τ (α), όταν το α είναι κοντά στο 1 14

Σχόλια για το προηγούμενο θεώρημα (3/3) Μιλώντας γενικά, οι στοχαστικοί πίνακες των οποίων η υποκυρίαρχη ιδιοτιμή (subdominant eigenvalue) είναι κοντά στο 1, αντιπροσωπεύουν nearly uncoupled chains (ή nearly completely decomposable chains) Αυτές είναι οι αλυσίδες των οποίων οι καταστάσεις σχηματίζουν ομάδες (clusters), τέτοιες ώστε οι καταστάσεις μέσα στις ομάδες έχουν ισχυρή σύνδεση μεταξύ τους, ενώ οι ομάδες είναι χαλαρά συνδεδεμένες μεταξύ τους οι καταστάσεις μπορούν να διαταχτούν έτσι ώστε ο πίνακας πιθανοτήτων μεταβάσεων να αποκτήσει τη μορφή S=D+εE, όπου ο D είναι διαγώνιος με μπλοκ (block diagonal), E 1, και 0 ε< 1 είναι μικρό σχετικά με το 1 Η αλυσίδα που ορίζεται από το Web είναι σχεδόν βέβαιο ότι είναι nearly uncoupled, οπότε το λ 2 είναι πολύ κοντά στο 1 15

Συμπεράσματα για την ευαισθησία του π Τ Για μικρό α, το διάνυσμα PageRank δεν επηρεάζεται από μικρές αλλαγές στο α Καθώς το α μεγαλώνει, η ευαισθησία του διανύσματος PageRank αυξάνει σε μικρές αλλαγές του α Όταν το α είναι κοντά στο 1, το διάνυσμα PageRank είναι πάρα πολύ ευαίσθητο σε μικρές αλλαγές του α Ο βαθμός ευαισθησίας ελέγχεται από το βαθμό στον οποίο o S είναι nearly uncoupled 16

Παράδειγμα 1 (democratic surfer) (1/4) 17

Παράδειγμα 1 (democratic surfer) (2/4) Οι σελίδες είναι διατεταγμένες από την πιο δημοφιλή προς τη λιγότερο δημοφιλή (4 5 6 3 2 1 7) λ 2 (G) = α Καθώς το α τείνει στο 1, το PageRank αλλάζει σημαντικά Όμως, ηδιάταξη(ranking) δεν αλλάζει! Σε μεγαλύτερα γραφήματα όμως, και η διάταξη είναι δυνατόν να αλλάξει Η δεύτερη μεγαλύτερη σε τιμή ιδιοτιμή του S είναι 0.7991 (Επισημάναμε ήδη ότι αυτή η τιμή, που μετρά επίσης το βαθμό σύζευξης (coupling) μια Markov αλυσίδας, ελέγχει την ευαισθησία του διανύσματος PageRank) Αφού to 0.7991 δεν είναι κοντά στο 1, αναμένουμε ότι αυτή η αλυσίδα δεν θα είναι πολύ ευαίσθητη σε μικρές αλλαγές του α Ας ελέγξουμε αυτή την υπόθεση προσθέτοντας έναν υπερσύνδεσμο από τη σελίδα 6 στην 5 (δες τον επόμενο πίνακα) 18

Παράδειγμα 1 (democratic surfer) (3/4) 19

Παράδειγμα 1 (democratic surfer) (4/4) Μετά την προσθήκη ενός μόνο υπερσυνδέσμου οι ιστοσελίδες τώρα διατάσσονται από την πιο σημαντική προς τη λιγότερο σημαντική ως εξής: (5 6 4 3 2 1 7) Δηλ., η σελίδα 4 έπεσε από την πρώτη θέση στην τρίτη θέση! Παρατηρούμε ότι μόνο οι PageRank τιμές των ιστοσελίδων 4, 5 και 6 έχουν αλλάξει, ως συνέπεια της reducibility της αλυσίδας Στο επόμενο παράδειγμα εξετάζουμε μια αλυσίδα της οποία η δεύτερη σε μέγεθος ιδιοτιμή του S είναι πιο κοντά στο 1 20

Παράδειγμα 2 (intelligent surfer) (1/4) Ο S είναι πολύ πιο ασύζευκτος (uncoupled) λ 2 (S)=0.9193 21

Παράδειγμα 2 (intelligent surfer) (2/4) Η διάταξη πλέον των ιστοσελίδων από την πιο σημαντική προς τη λιγότερο σημαντική είναι η εξής (4 5 6 3 2 1 7) Ας κάνουμε και σ αυτό το παράδειγμα την ίδια αλλαγή στο γράφημα που κάναμε προηγουμένως, και ας προσθέσουμε έναν σύνδεσμο από την ιστοσελίδα 6 προς την 5 22

Παράδειγμα 2 (intelligent surfer) (3/4) 23

Παράδειγμα 2 (intelligent surfer) (4/4) Μετά την αλλαγή, η διάταξη πλέον γίνεται (5 6 3 2 4 1 7) Η ιστοσελίδα 4 πέφτει ακόμα περισσότερο στο ranking Τόσο η διάταξη όσο και οι πραγματικές τιμές του PageRank των ιστοσελίδων είναι πολύ πιο ευαίσθητες στο Παράδειγμα 2 απ ότι στο Παράδειγμα 1 Συνεπώς, βλέπουμε καθαρά την επίδραση του λ 2 (S) στην ευαισθησία του διανύσματος PageRank Οι Boldi, Santini και Vigna έχουν μελετήσει παραγώγους ανώτερης τάξης και έφτασαν σε πιο πλούσια αποτελέσματα για την ευαισθησία του PageRank 24

Ευαισθησία σε σχέση με τον πίνακα Η (1/2) Παλιότερα γνωστά αποτελέσματα ευαισθησίας για Markov αλυσίδες δίνουν ότι: π Τ είναι ευαίσθητο σε μεταβολές στο P λ 2 (P) 1 Γνωρίζουμε ήδη ότι λ 2 (G) α, και επιπλέον, όταν ο S είναι reducible ισχύει ότι λ 2 (G) = α Επομένως, καθώς το α τείνει στο 1, γίνεται όλο και πιο ευαίσθητο σε μικρές μεταβολές στο G Όμως το G εξαρτάται από τα α, H και v T και επιθυμούμε να απομονώσουμε την εξάρτησή του από το H Ας υπολογίσουμε μια άλλη παράγωγο: 25

Ευαισθησία σε σχέση με τον πίνακα Η (2/2) Η επίδραση του α είναι προφανής Καθώς το α τείνει στο 1, τα στοιχεία του (I-αS) -1 απειρίζονται και το PageRank διάνυσμα γίνεται πολύ ευαίσθητο σε μικρές αλλαγές της συνδεσμολογίας Η προσθήκη ενός υπερσυνδέσμου ή η αύξηση του βάρους ενός υπερσυνδέσμου από μια σημαντική ιστοσελίδα (το π i είναι υψηλό) έχει μεγαλύτερη επίδραση στην ευαισθησία του διανύσματος PageRank, παρά η αλλαγή ενός υπερσυνδέσμου από μια μη σημαντική σελίδα 26

Νόρμα Google G υπό αλλαγές ΘΕΩΡΗΜΑ. Έστω ότι G=αS+(1-α)ev T είναι ο Google πίνακας με διάνυσμα PageRank π Τ και Ĝ=αŜ+(1-α)ev T είναι ο ενημερωμένος πίνακας Google (ίδιου μεγέθους) με αντίστοιχο διάνυσμα ñ Τ. Τότε: όπου U είναι το σύνολο όλων των ιστοσελίδων που έχουν ενημερωθεί. 27

Άλλες προσεγγίσεις ευαισθησίας (1/3) Το προηγούμενο θεώρημα υπονοεί ότι όσο το α δεν είναι κοντά στο 1, και οι ενημερωμένες ιστοσελίδες δεν έχουν υψηλή τιμή PageRank, τότε οι νέες τιμές PageRank δεν αλλάζουν πολύ Ας εξετάσουμε τους δυο παράγοντες του ορίου 2α/(1-α) Σπ ι Έστω ότι α=0.8 και ότι το άθροισμα των παλιών τιμών του PageRank των ενημερωμένων σελίδων είναι 10-6 Τότε η πολλαπλασιαστική σταθερά 2α/(1-α) = 8, το οποίο σημαίνει ότι η 1-νόρμα της διαφοράς του παλιού με το νέο διάνυσμα PageRank είναι το πολύ 8x10-6 Άρα οι τιμές PageRank δεν είναι επιρρεπείς στις αλλαγές 28

Άλλες προσεγγίσεις ευαισθησίας (2/3) Καθώς το α τείνει στο 1, το προηγούμενο όριο γίνεται σταδιακά λιγότερο χρήσιμο Η χρησιμότητα του ορίου ελέγχεται από το βαθμό στον οποίο το άθροισμα Σπ ι μπορεί να εξισορροπήσει την αύξηση του κλάσματος 2α/(1-α) Δυο πράγματα επηρεάζουν το μέγεθος του Σπ ι : Ο αριθμός των ενημερωμένων σελίδων ΗτιμήτουPageRank των σελίδων αυτών Το προηγούμενο όριο έχει ένα ακόμα μειονέκτημα: Δεν μας λέει κάτι για το τι συμβαίνει στο PageRank όταν ενημερώνονται οι σελίδες που έχουν μεγάλη τιμή PageRank 29

Άλλες προσεγγίσεις ευαισθησίας (3/3) Όλες οι προηγούμενες προσπάθειες μελέτης της ευαισθησίας του PageRank αφορούσαν την σταθερότητα των τιμών του PageRank Οι Lempel & Moran μελέτησαν τη σταθερότητα της διάταξης (ranking) Έδειξαν ότι η σταθερότητα των τιμών (PageRank value stability) δεν υπονοεί σταθερότητα διάταξης (rank stability) 30

Σταθερότητα ranking του PageRank (1/6) ΟΡΙΣΜΟΣ. Έστω ότι τα v 1 v 2 είναι N-διάστατα διανύσματα με πραγματικές συντεταγμένες. Η ranking distance d r μεταξύ των v 1 και v 2 ορίζεται ως εξής (μια τυπική εκδοχή): Η d r είναι μια κανονικοποιημένη έκδοση της Kendal Τ απόστασης Π.χ., εάν v 1 =(2,4,6,8) και v 2 =(2,9,5,3), τότε d r (v 1, v 2 )=3/16, εξαιτίας των ζευγών (i,j) {(2,3),(2,4),(3,4)} 31

Σταθερότητα ranking του PageRank (2/6) Έστω ότι G είναι ένα σύνολο κατευθυνόμενων γραφημάτων, και G N είναι εκείνο το υποσύνολο των γραφημάτων του G με N κόμβους. Έστω ότι Α 1 και Α 2 είναι δυο αλγόριθμοι link ranking που αναθέτουν V -διάστατα διανύσματα βάρους Α 1 (G) και Α 2 (G) στους κόμβους του γραφήματος G G N. ΟΡΙΣΜΟΣ. Δυο αλγόριθμοι ranking Α 1 και Α 2 θα λέμε ότι είναι rank-similar στο G, εάν ισχύει ότι: ΟΡΙΣΜΟΣ. Ένας αλγόριθμος Α θα λέμε ότι είναι rank-stable στο G, εάν για κάθε σταθερό k, έχουμε ότι: όπου d e (G 1,G 2 ) (E 1 E 2 )\(E 1 E 2 ) 32

Σταθερότητα ranking του PageRank (3/6) Έστω ότι G=(V,E) είναι ένα κατευθυνόμενο γράφημα (που αναπαριστά κάποιο υπογράφημα του Web) Δυο κόμβοι p,q V θα λέμε ότι είναι co-cited, εάν υπάρχει κάποιος κόμβος r που έχει υπερσύνδεσμο και προς τον κόμβο p και προς τον q Θα λέμε ότι οι κόμβοι p και q συνδέονται με ένα co-citation path, εάν υπάρχουν κόμβοι p=v 0,v 1, v k-1,v k =q, τέτοιοι ώστε τα ζεύγη (v i-1,v i ) να είναι co-cited για κάθε i=1,2,,k Έστω ότι συμβολίζουμε με V in όλους τους κόμβους του V με τουλάχιστον έναν εισερχόμενο υπερσύνδεσμο ΟΡΙΣΜΟΣ. Ένα κατευθυνόμενο γράφημα G=(V,E) θα αποκαλείται authority-connected, εάν για όλους τους p,q V in, υπάρχει ένα co-citation path που συνδέει τους p και q 33

Σταθερότητα ranking του PageRank (4/6) Θα εξετάσουμε την rank stability PageRank όταν εφαρμόζεται πάνω σε authority-connected γραφήματα Γιατί μόνο σε τέτοιου είδους γραφήματα; Γιατί όταν ζητούμε από έναν αλγόριθμο ranking να κατατάξει ιστοσελίδες γραφημάτων που δεν είναι authority-connected, είναι σαν να ζητάμε από τον αλγόριθμο να κτατάξει σελίδες που δεν αναφέρονται στο ίδιο θέμα, π.χ., γεωγραφίας και αθλητικών ΘΕΩΡΗΜΑ. Ο PageRank δεν είναι rank-stable στην κλάση των authority-connected γραφημάτων ΑΠΟΔΕΙΞΗ. Με αντιπαράδειγμα (δείτε επόμενες δυο διαφάνειες) 34

Σταθερότητα ranking του PageRank (5/6) x a y x b Ορίζουμε τα γραφήματα: a 1 a 2 h a a n c b 1 b 2 h b b n Τα G a και G b είναι authority-connected, διαμέσου του κόμβου c Έστω ότι PR a (v), PR b (v) (v V) είναι η PageRank τιμή του κόμβου v στα γραφήματα G a και G b, αντίστοιχα 35

Σταθερότητα ranking του PageRank (6/6) Από τον ορισμό του PageRank, εύκολα διαπιστώνουμε ότι: 0 < PR a (x a ) = PR a (y) = PR a (x b ) και συνεπώς: PR a (h a ) > PR a (h b ) Επομένως, PR a (a ai ) > PR a (a bi ), για κάθε 1 i n Όμοια, PR b (a ai ) < PR b (a bi ), για κάθε 1 i n Επομένως: που, για Ν τείνει στο ¼ και όχι στο 0 (τέλος απόδειξης) Παρατηρήστε ότι p {h a,h b,a 1,,a n,b 1,,b n }, PR(y) < PR(p), σε όποιο από τα δυο γραφήματα Επομένως, συντελέστηκε δραματική αλλαγή στο ranking με την αλλαγή ενός μόνο εξερχόμενου υπερσυνδέσμου του κόμβου y, ο οποίος τυγχάνει να έχει πολύ χαμηλό ranking!!! 36

Νόρμα Google G υπό αλλαγές (Απόδειξη) ΑΠΟΔΕΙΞΗ. Έστω ότι ο F είναι ο πίνακας που αναπαριστά τη διαταραχή (perturbation) μεταξύ δυο στοχαστικών πινάκων S και Ŝ. Έτσι F= S - Ŝ. Τότε: Επιλύοντας ως προς π Τ - ñ Τ έχουμε: 37

Νόρμα Google G υπό αλλαγές (Απόδειξη) Υπολογίζοντας νόρμες, έχουμε: Ισχύει ότι ο I-αŜ είναι μη-ιδιόμορφος (nonsingular) και έχει αθροίσματα γραμμών ίσα προς 1/(1-α). Τώρα, αναδιατάσσουμε τον F (και π Τ ) έτσι ώστε οι γραμμές που αντιστοιχούν στις ανανεωμένες σελίδες (μη μηδενικές γραμμές) να έρθουν στην κορυφή του πίνακα. Τότε: 38

Νόρμα Google G υπό αλλαγές (Απόδειξη) Επομένως: και όπου S 1 και Ŝ 1 επίσης αντιστοιχούν σε ενημερωμένες σελίδες Επομένως: Τελικά: 39

Ευαισθησία σε σχέση με το v T Ας υπολογίσουμε την παράγωγο του π Τ σε σχέση με το διάνυσμα v T : όπου το D είναι το σύνολο των dangling κόμβων Υπάρχει εξάρτηση από το α Fundamental matrix Καθώς το α τείνει στο 1, τα στοιχεία του (I-αS) -1 απειρίζονται, δηλ., καθώς το α τείνει στο 1, το π Τ γίνεται όλο και πιο ευαίσθητο Εάν οι dangling κόμβοι συνδυάζονται για να αποκτήσουν ένα μεγάλο ποσοστό του PageRank, τότε το διάνυσμα π Τ είναι πολύ ευαίσθητο σε αλλαγές στο διάνυσμα v T Αυτό συμφωνεί με την κοινή λογική οτυχαίοςsurfer περνάει αρκετό χρόνο στους dangling κόμβους, και έτσι πιο συχνά ακολουθεί τις teleportation πιθανότητες, δηλ., το v T 40