Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Σχετικά έγγραφα
Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ευαισθησία του PageRank. Το πρόβληµα PageRank ως. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός. Διάλεξη 14η

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Μηα ζπλάξηεζε κε πεδίν νξηζκνύ ην Α, ζα ιέκε όηη παξνπζηάδεη ηοπικό μέγιζηο ζην, αλ ππάξρεη δ>0, ηέηνην ώζηε:

ΔΝΓΔΙΚΤΙΚΔΣ ΛΥΣΔΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΔΥΘΥΝΣΗΣ Γ ΛΥΚΔΙΟΥ ΓΔΥΤΔΡΑ 27 ΜΑΪΟΥ 2013

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

Πολυεπίπεδα/Διασυμδεδεμέμα Δίκτυα

ΔΝΓΔΙΚΣΙΚΔ ΛΤΔΙ ΣΑ ΜΑΘΗΜΑΣΙΚΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ 2017

Να ζρεδηαζζεί ην θαηεπζπλόκελν γξάθεκα πνπ νξίδεηαη από ηνλ εμήο πίλαθα γεηηλίαζεο.

f '(x)g(x)h(x) g'(x)f (x)h(x) h'(x) f (x)g(x)

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Μερικές φορές δεν μπορούμε να αποφανθούμε για την τιμή του άπειρου αθροίσματος.

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γευηέρα 11 Ηουνίου 2018 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

Σύλζετα Δίθτπα. com+plex: with+ -fold (having parts) Διδάζκων Δημήηριος Καηζαρός

7 ΑΛΓΕΒΡΑ ΜΗΤΡΩΝ. 7.2 ΜΗΤΡΕΣ ΕΙΔΙΚΗΣ ΜΟΡΦΗΣ (Ι)

Ανάκληση Πληπουοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

Ο γεωκεηξηθόο ηόπνο ηωλ εηθόλωλ ηωλ κηγαδηθώλ αξηζκώλ z είλαη ν θύθινο κε θέληξν ηελ αξρή ηωλ αμόλωλ θαη αθηίλα ξ=2.

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο :

Information Retrieval

ΜΑΘΗΜΑΤΙΚΑ ΘΔΤΙΚΗΣ ΚΑΙ ΤΔΦΝΟΛΟΓΙΚΗΣ ΚΑΤΔΥΘΥΝΣΗΣ Β ΛΥΚΔΙΟΥ ΤΔΣΤ(1) ΣΤΑ ΓΙΑΝΥΣΜΑΤΑ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

ΜΑΘΗΜΑ / ΤΑΞΗ : ΗΛΕΚΤΡΟΛΟΓΙΑ/Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 08/09/2014

Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano) ΘΔΜΑ Α

Τετραγωνικά μοντέλα. Τετραγωνικό μοντέλο συνάρτησης. Παράδειγμα τετραγωνικού μοντέλου #1. Παράδειγμα τετραγωνικού μοντέλου #1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΣΗΜΕΙΩΣΕΙΣ ΓΡΑΜΜΙΚΗΣ ΑΛΓΕΒΡΑΣ. ρ Χρήστου Νικολαϊδη

ΘΔΜΑ 1 ο Μονάδες 5,10,10

ΚΕΦΑΛΑΙΟ 2: ΟΡΙΖΟΥΣΕΣ

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ Γ ΗΜΕΡΗΣΙΩΝ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

1 Επανάληψη εννοιών από τον Απειροστικό Λογισμό

Όταν η s n δεν συγκλίνει λέμε ότι η σειρά αποκλίνει.

Παραδείγματα Ιδιοτιμές Ιδιοδιανύσματα

ΣΥΣΤΗΜΑΤΑ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. 1. Να ιπζνύλ ηα ζπζηήκαηα. 1 0,3x 0,1y x 3 3x 4y 2 4x 2y ( x 1) 6( y 1) (i) (ii)

Αριθμητική Ανάλυση και Εφαρμογές

Σπιν 1 2. Γενικά. Ŝ και S ˆz γράφονται. ιδιοκαταστάσεις αποτελούν ορθοκανονική βάση στον χώρο των καταστάσεων του σπιν 1 2.

1.6 ΜΗ ΠΕΠΕΡΑΣΜΕΝΟ ΟΡΙΟ ΣΤΟ x

Ζαχαρίας Μ. Κοντοπόδης Εργαστήριο Λειτουργικών Συστημάτων ΙΙ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

= 7. Στο σημείο αυτό θα υπενθυμίσουμε κάποιες βασικές ιδιότητες του μετασχηματισμού Laplace, δηλαδή τις

ΓΙΑΙΡΔΣΟΣΗΣΑ. Οπιζμόρ 1: Έζηω d,n. Λέκε όηη ν d δηαηξεί ηνλ n (ζπκβνιηζκόο: dn) αλ. ππάξρεη c ηέηνην ώζηε n. Θεώπημα 2: Γηα d,n,m,α,b ηζρύνπλ:

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση 8/6/2017 Διδάσκων: Ι. Λυχναρόπουλος

1.6 ΜΗ ΠΕΠΕΡΑΣΜΕΝΟ ΟΡΙΟ ΣΤΟ x

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Τετραγωνικά μοντέλα. Τετραγωνικό μοντέλο συνάρτησης. Παράδειγμα τετραγωνικού μοντέλου #1. Παράδειγμα τετραγωνικού μοντέλου #1

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου

Παράδειγμα 14.2 Να βρεθεί ο μετασχηματισμός Laplace των συναρτήσεων

Ανάκτηση Πληροφορίας

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων 1ο Σετ Ασκήσεων - Λύσεις

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

ΜΑΣ 371: Αριθμητική Ανάλυση ΙI ΑΣΚΗΣΕΙΣ. 1. Να βρεθεί το πολυώνυμο Lagrange για τα σημεία (0, 1), (1, 2) και (4, 2).

ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1. Τελεστές και πίνακες. 1. Τελεστές και πίνακες Γενικά. Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο.

Η ΚΑΝΟΝΙΚΗ ΜΟΡΦΗ JORDAN

ΕΠΙΛΥΣΗ ΕΚΦΥΛΙΣΜΕΝΩΝ ΚΑΙ ΓΕΝΙΚΩΝ ΓΡΑΜΜΙΚΩΝ ΠΡΟΒΛΗΜΑΤΩΝ. 4.1 Επίλυση Εκφυλισμένων Γραμμικών Προβλημάτων

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

ΟΠΤΙΚΗ Α. ΑΝΑΚΛΑΣΖ - ΓΗΑΘΛΑΣΖ

8.1 Διαγωνοποίηση πίνακα

Σύνθετα Δίκτυα. com+plex: with+ -fold (having parts) Δηδάζθσλ Δεκήηξηνο Καηζαξόο

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ

ΕΞΙΣΩΣΕΙΣ. (iv) (ii) (ii) (ii) 5. Γηα ηηο δηάθνξεο ηηκέο ηνπ ι λα ιπζνύλ νη εμηζώζεηο : x 6 3 9x

x x 15 7 x 22. ΘΔΜΑ Α 3x 2 9x 4 3 3x 18x x 5 y 9x 4 Α1. i. . Η ιύζε είλαη y y x 3y y x 3 2x 6y y x x y 6 x 2y 1 y 6

Διαγωνοποίηση μητρών. Στοιχεία Γραμμικής Άλγεβρας

Επαναληπτικές μέθοδοι

Παράδειγμα 1. Δίνεται ο κάτωθι κλειστός βρόχος αρνητικής ανάδρασης με. Σχήμα 1. στο οποίο εφαρμόζουμε αρνητική ανάδραση κέρδους

Ισότητα, Αλγεβρικές και Αναλυτικές Ιδιότητες Πραγματικών Ακολουθιών

0 + a = a + 0 = a, a k, a + ( a) = ( a) + a = 0, 1 a = a 1 = a, a k, a a 1 = a 1 a = 1,

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Επιταχύνοντας την εκτέλεση του PageRank

x-1 x (x-1) x 5x 2. Να απινπνηεζνύλ ηα θιάζκαηα, έηζη ώζηε λα κελ ππάξρνπλ ξηδηθά ζηνπο 22, 55, 15, 42, 93, 10 5, 12

Επίλυση Γραµµικών Συστηµάτων

Γ. Ν. Π Α Π Α Δ Α Κ Η Σ Μ Α Θ Η Μ Α Τ Ι Κ Ο Σ ( M S C ) ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ. ΠΡΟΓΡΑΜΜΑ: Σπουδές στις Φυσικές Επιστήμες

που σε κάθε χρονική στιγμή περιλαμβάνει τις τιμές των μεταβλητών κατάστασης

ΠΛΗ 12 - Ιδιοτιμές και ιδιοδιανύσματα

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΕΚΦΩΝΗΣΕΙΣ. Διάρκεια: 3 ώρες Ημερομηνία: 12/5/2019 Έκδοση: 1 η. Τα sites blogs που συμμετέχουν (σε αλφαβητική σειρά):

Θέμα 1. που. . Δηλαδή ο υπόχωρος V είναι το. Απάντηση 1α) ii)παρατηρούμε οτι

Μαρκοβιανές Αλυσίδες

1 ιαδικασία διαγωνιοποίησης

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

ΜΑΘΗΜΑ: ΜΑΘΗΜΑΤΙΚΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Γ ΛΥΚΕΙΟΥ

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

Transcript:

Ανάκληση Πληποφοπίαρ Διδάζκων Δημήηριος Καηζαρός Διάλεξη 14η: 03/05/2017 1

Παράμεηροι ηοσ μονηέλοσ PageRank 2

Η παράμετρος α (1/2) Η παράμετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δομή των υπερσυνδέσμων ή στην τηλεμεταφορά Είδαμε στην προηγούμενη διαφάνεια ότι οι Brin & Page πρότειναν τιμή.85 για την παράμετρο αυτή Γιατί αυτήν την τιμή; Ποια είναι η επίδραση του α στο πρόβλημα του PageRank; Με α=.5, τότε η επαναληπτική μέθοδος χρειάζεται μόνο 34 επαναλήψεις για να συγκλίνει σε μια ακρίβεια 10-10!! Όμως αυτό σημαίνει ότι η τεχνητά εισαχθείσα έννοια της τηλεμεταφοράς θα είναι ίσης σημαντικότητας με τη δομή των υπερσυνδέσμων!? 3

Η παράμετρος α (2/2) Για α=1.0, οι αριθμός των επαναλήψεων για σύγκλιση γίνεται απαγορευτικός Ακόμα και για α=.85 απαιτούνται μερικές ημέρες για να επιτευχθεί η σύγκλιση όταν οι πίνακες είναι του μεγέθους του Παγκοσμίου Ιστού Απλώς το α=.85 επιτυγχάνει ένα αποδεκτό tradeoff Πέρα από αυτό όμως, η παράμετρος ελέγχει και την ευαισθησία του διανύσματος PageRank Για τιμές του α κοντά σε 1, τότε ακόμα και μικρές αλλαγές στη δομή του Web επηρεάζουν σημαντικά τις τιμές PageRank των σελίδων 4

Ο πίνακας υπερσυνδέσμων H Διάφορες προσαρμογές μπορεί να γίνουν πάνω στον H την βασική υλοποίηση, κάθε εξερχόμενος σύνδεσμος έχει το ίδιο βάρος/σημαντικότητα Παρόλο που η τακτική αυτή είναι δημοκρατική, εύκολη στην υλοποίηση, εντούτοις δεν είναι η κατάλληλη για τα rankings την πραγματικότητα, ο random surfer δεν διαλέγει τυχαία με την ίδια πιθανότητα ποιον σύνδεσμο θα ακολουθήσει, αλλά λαμβάνει υπόψη του το πλούσιο περιεχόμενο των σελίδων όπου θα πάει, αλλά και το κείμενο πάνω στους υπερσυνδέσμους Έτσι, αντί για την υπόθεση του random surfer, έχουμε τον intelligent surfer 5

Παράδειγμα προσαρμοσμένου πίνακα H Πώς αποφασίζουμε με ποιο τρόπο θα αναθέσουμε διαφορετικά βάρη στους εξερχόμενους υπερσυνδέσμους; Από τα access logs! Παράδειγμα: Από την P 1 είναι δυο φορές πιο πιθανό να πάμε στην P 2 παρά στην P 3 Προφανώς όλες οι παρόμοιες μέθοδοι θα είναι ευρεστικές Για παράδειγμα, τα στοιχεία Η 45 και Η 46 μπορούν να προσδιοριστούν με βάση την ομοιότητα (cosine similarity) μεταξύ των σελίδων P 4 με την P 5 και P 6 Για το γράφημα με τους 6 κόμβους ο νέος πίνακας H θα μετατραπεί στον ακόλουθο: 6

Παράδειγμα προσαρμοσμένου πίνακα H 7

Ο πίνακας τηλεμεταφοράς Ε (1/3) Μια από τις πρώτες προσαρμογές ήταν ότι αντί για τη χρήση του 1/nee T προτιμήθηκε ο πίνακας ev T To v T με v T > 0, είναι ένα διάνυσμα πιθανοτήτων που ονομάζεται personalization ή teleportation διάνυσμα Αφού το v T είναι διάνυσμα πιθανοτήτων με θετικά στοιχεία, κάθε κόμβος είναι συνδεδεμένος με κάθε άλλο κόμβο, άρα ο G είναι πρωτογενής Φρησιμοποιώντας το v T αντί για το 1/ne T σημαίνει ότι οι πιθανότητες τηλεμεταφοράς δεν είναι πλέον ομοιόμορφες 8

Ο πίνακας τηλεμεταφοράς Ε (2/3) Άρα για κάθε τηλεμεταφορά, ο surfer δεν επιλέγει ομοιόμορφα σε ποια σελίδα θα πάει, αλλά καθοδηγείται από το διάνυσμα v T Αυτή η μετατροπή ευτυχώς δεν καταστρέφει τα πλεονεκτήματα της power method Όταν G=αS+(1-α)ev T, τότε η power method γίνεται: 9

Ο πίνακας τηλεμεταφοράς Ε (3/3) Αυτή η αλλαγή δεν έχει καμία επίδραση πάνω στο ρυθμό σύγκλισης στον πολλαπλασιασμό διανύσματος με αραιό πίνακα στις μικρές αποθηκευτικές απαιτήσεις Όμως, αλλάζει το ίδιο το διάνυσμα PageRank!! Αυτό δεν είναι μειονέκτημα!? Δεν είναι απαραίτητο ότι σε όλους μας ταιριάζει το ίδιο ranking Άλλωστε, παρέχει μια ευελιξία ώστε ανάλογα τις ανάγκες μας να προσαρμόζουμε απλά το v T 10

Προσωποποίηση του PageRank Η προσωποποίηση αλλάζει το διάνυσμα PageRank, από query-independet και user-independent σε user-dependent και πιο δύσκολο στον υπολογισμό την θεωρία είναι ωραία η προσωποποίηση, αλλά στην πράξη είναι δύσκολα εφαρμόσιμη Κάθε π Τ απαιτεί μερικές ημέρες για τον υπολογισμό του Οπότε, αφού επικρατεί η άποψη ότι η προσωποποιημένη αναζήτηση είναι η μελλοντική τάση στις μηχανές αναζήτησης, αρκετοί δημιούργησαν ψευδο-προσωποποιημένα διανύσματα PageRank Δεν απευθύνονται σε κάθε χρήστη, αλλά σε ομάδες χρηστών 11

Topic-sensitive PageRank (1/3) Δημιουργία ενός πεπερασμένου αριθμού PageRank διανυσμάτων π Σ (v it ), κάθε ένα από αυτά πολωμένο ως προς κάποια συγκεκριμένο θέμα Ποια θέματα επιλέχθηκαν; Ο Taher Haveliwala επέλεξε τα 16 πρώτα από το Open Directory Project (ODP) Σα 16 πολωμένα διανύσματα προϋπολογίζονται Σο ζήτημα είναι να τα συνδυάσουμε αποτελεσματικά κατά την ερώτηση του χρήστη 12

Topic-sensitive PageRank (2/3) Ο Taher Haveliwala έφτιαξε έναν κυρτό συνδυασμό αυτών ως εξής π Σ = β 1 π Σ (v 1T ) +β 2 π Σ (v 2T ) + +β 16 π Σ (v 16T ) όπου β ι =1 Για παράδειγμα, η ερώτηση science project ideas εμπίπτει μεταξύ των εξής κατηγοριών του ODP: Κατηγορία 7: Kids και Teens Κατηγορία 10: Reference Κατηγορία 12: Science Προφανώς τα αντίστοιχα διανύσματα αυτών των κατηγοριών πρέπει να πάρουν μεγαλύτερο βάρος ή ίσως και όλο το βάρος 13

Topic-sensitive PageRank (3/3) Για τον υπολογισμό των βαρών χρησιμοποιήθηκε ένας classifier Bayes Όταν υπολογιστεί το topic-sensitive score, συνδυάζεται με το αντίστοιχο content score O Jeh Glen, Taher Haveliwala & Serendap Kamvar δημιούργησαν το καλοκαίρι του 2003 την εταιρεία Kaltix για να προωθήσουν την ιδέα του personalized PageRank, και τελικά η εταιρεία τους αγοράστηκε το επτέμβριο του 2003 από την Google Σον Μάρτιο του 2004, η Google προώθησε την προσωποποίηση http://labs.google.com/personalized 14

Σο φάσμα του personalized πίνακα G (1/4) ΘΕΩΡΗΜΑ: Εάν το φάσμα (ιδιοτιμές) του στοχαστικού πίνακα S είναι {1,λ 2,λ 3,,λ n }, τότε το φάσμα του personalized πίνακα Google G=αS + (1-α)ev T είναι {1,αλ 2,αλ 3,,αλ n }, όπου το v T είναι ένα διάνυσμα πιθανοτήτων 15

Σο φάσμα του personalized πίνακα G (2/4) Αφού ο S είναι στοχαστικός, τότε το (1,e) είναι ένα ζεύγος του S Έστω ότι Q = (e X) είναι μη ιδιόμορφος (nonsingular) πίνακας που έχει το ιδιοδιάνυσμα e ως πρώτη στήλη του Έστω ότι Σότε Απ εδώ παίρνουμε δυο χρήσιμες ταυτότητες y T e=1 Y T e=0 16

Σο φάσμα του personalized πίνακα G (3/4) Ως συνέπεια, ο μετασχηματισμός ομοιότητας φανερώνει ότι ο Y T SX περιέχει τις υπόλοιπες ιδιοτιμές του S, λ 2,λ 3,,λ n 17

Σο φάσμα του personalized πίνακα G (4/4) Εφαρμόζοντας τον μετασχηματισμό ομοιότητας στον G=αS + (1-α)ev T Επομένως, οι ιδιοτιμές του G=αS + (1-α)ev T είναι οι {1,αλ 2,αλ 3,,αλ n } 18

Εσαιζθηζία ηοσ PageRank 19

Ευαισθησία του PageRank: Εισαγωγικά Η ευαισθησία του PageRank μπορεί να αναλυθεί εξετάζοντας ξεχωριστά κάθε παράμετρο του πίνακα Google την προηγούμενη διάλεξη δώσαμε έμφαση στις τρεις παραμέτρους που επηρεάζουν τον πίνακα G Σην παράμετρο α Σον πίνακα υπερσυνδέσμων H Σο διάνυσμα προσωποποίησης v T την παρούσα διάλεξη θα μελετήσουμε την εξάρτηση του PageRank σε σχέση με κάθε μια από αυτές τις παραμέτρους 20

Ευαισθησία του PageRank σε σχέση με το α Θα χρησιμοποιήσουμε την έννοια της παραγώγου για να μελετήσουμε το αποτέλεσμα των αλλαγών του α πάνω στο π Σ Η παράγωγος του π Σ σε σχέση με το α, δηλ., dπ Σ (α)/dα, μας λέει πόσο μεταβάλλονται τα στοιχεία του διανύσματος PageRank π T όταν το α μεταβάλλεται ελαφρά Εάν το στοιχείο j του dπ Σ (α)/dα, που το συμβολίζουμε με dπ j (α)/dα, είναι μεγάλο σε τιμή, τότε μπορούμε να συμπεράνουμε ότι καθώς το α μεταβάλλεται ελαφρά, το π είναι πολύ ευαίσθητο σε μικρές αλλαγές του α 21

Ευαισθησία του PageRank σε σχέση με το α Σο πρόσημα των παραγώγων δίνουν επίσης σημαντική πληροφορία: εάν dπ j (α)/dα > 0, τότε μικρές αλλαγές στην τιμή του α, θα σημαίνουν ότι η PageRank τιμή της σελίδας P j αυξάνουν Είναι σημαντικό να έχουμε υπόψη μας ότι το dπ Σ (α)/dα είναι μόνο μια προσέγγιση τού πώς μεταβάλλονται τα στοιχεία του π Σ όταν αλλάζει το α και ΔΕΝ περιγράφουν επακριβώς το πώς μεταβάλλονται Παρόλο που στο α δίνεται συνήθως η τιμή 0.85, θεωρητικά μπορεί να πάρει τιμή στο (0 < α < 1) Υυσικά, ο G εξαρτάται από το α, και συνεπώς G(α)=αS+(1-α)ev T 22

Ευαισθησία του PageRank σε σχέση με το α υνεπώς, με τη παράγωγο μπορούμε να μελετήσουμε το ρυθμό μεταβολής του π Σ σε σχέση με μικρές μεταβολές του α Πρώτα όμως πρέπει να είμαστε βέβαιοι ότι η παράγωγος είναι καλά ορισμένη Είδαμε ότι η κατανομή του π Σ (α) είναι το αριστερό ιδιοδιάνυσμα του G(α), αλλά τα ιδιοδιανύσματα δεν είναι κατ ανάγκη παραγωγίσιμα ούτε κατ ανάγκη συνεχείς συναρτήσεις των στοιχείων του G(α) Σο επόμενο θεώρημα μας εφοδιάζει με το απαραίτητο υπόβαθρο σε σχέση με την προϋπόθεση ύπαρξης της παραγώγου 23

Ύπαρξη παραγώγου διανύσματος PageRank ΘΕΩΡΗΜΑ. Σο διάνυσμα PageRank δίνεται από το όπου το D i (α) είναι η i-οστή κύρια μικρή ορίζουσα τάξης n-1 του I-G(α). Επειδή κάθε κύρια μικρή (principal minor) D i (α) > 0 είναι απλά ένα άθροισμα γινομένων αριθμών του I-G(α), προκύπτει ότι κάθε συνιστώσα του π Σ (α) είναι παραγωγίσιμη συνάρτηση του α στο διάστημα (0,1) 24

Ύπαρξη παραγώγου διανύσματος PageRank Απόδειξη. Έστω ότι G=G(α), π Σ (α)=π Σ, D i =D i (α), και θέτουμε A=I-G Εάν με adj(a) συμβολίσουμε τον ανάστροφο του πίνακα των συμπαραγόντων (cofactors), που συχνά αποκαλείται adjugate ή adjoint, τότε A[adj(A)] = 0 = [adj(a)]a Από το θεώρημα των Perron-Frobenius προκύπτει ότι rank(a)=n-1, και ως αποτέλεσμα ότι rank(adj(a))=1 Επιπλέον, το ίδιο θεώρημα εγγυάται ότι κάθε στήλη του [adj(a)] είναι πολλαπλάσιο του e, και συνεπώς [adj(a)] =ew T, για κάποιο διάνυσμα w 25

Ύπαρξη παραγώγου διανύσματος PageRank Απόδειξη (συνέχεια) Αλλά, [adj(a)] ii = D i, και έτσι w T =(D 1, D 2,.., D n ) Όμοια, η σχέση [adj(a)]α = 0 εγγυάται ότι κάθε γραμμή του του [adj(a)] είναι πολλαπλάσιο του π Σ, και επομένως w T =απ Σ για κάποιο α Σο α αυτό δεν μπορεί να είναι μηδέν, γιατί διαφορετικά [adj(a)] = 0, το οποίο είναι αδύνατο Επομένως, w T e= α 0, και w T /(w T e) = w T /α = π Σ 26

Άνω όριο των συνιστωσών του PageRank ΘΕΩΡΗΜΑ. Εάν π Σ (α) = (π 1 (α), π 2 (α),, π n (α)) είναι το διάνυσμα PageRank, τότε: και το άνω όριο του αθροίσματος των συνιστωσών, δηλ., η 1-norm, είναι: 27

χόλια για το προηγούμενο θεώρημα Η χρησιμότητα του προηγούμενου θεωρήματος περιορίζεται στις μικρές τιμές του α Δηλαδή, για μικρές τιμές του α, η τιμές PageRank των αντίστοιχων ιστοσελίδων δεν είναι εξαιρετικά ευαίσθητες ως συνάρτηση του α Καθώς όμως το α πλησιάζει στο 1, το άνω όριο του 1/(1- α) τείνει στο άπειρο. Αυτό το όριο γίνεται σταδιακά άχρηστο, γιατί δεν υπάρχει καμία εγγύηση ότι είναι εφικτό Όμως οι μεγαλύτερες τιμές του α είναι αυτές που έχουν σημασία, γιατί δίνουν προτεραιότητα στην πραγματική δομή των υπερσυνδέσμων του Web υνεπώς απαιτείται μεγαλύτερη ανάλυση για να αντιληφθούμε το βαθμό ευαισθησίας του PageRank στις μεγαλύτερες τιμές του α 28

Ευαισθησία του PageRank σε μεγάλα α ΘΕΩΡΗΜΑ. Εάν π Σ (α) είναι το PageRank διάνυσμα του πίνακα Google G=αS+(1-α)ev T, τότε: Ειδικότερα, οι τιμές των παραγώγων στα όρια 0 και 1 είναι: όπου με (*) # συμβολίζουμε τον group inverse 29

χόλια για το προηγούμενο θεώρημα (1/3) Η κυρίαρχη ιδιοτιμή (dominant eigenvalue) λ 1 =1 όλων των στοχαστικών πινάκων είναι semisimple, έτσι όταν ο S μετατρέπεται σε μορφή Jordan με έναν μετασχηματισμό ομοιότητας, το αποτέλεσμα είναι: και Ο πίνακας C αποτελείται από Jordan μπλοκ J *, που συσχετίζονται με τις ιδιοτιμές λ k 1, και τα αντίστοιχα μπλοκ στον (I-C) -1 είναι (I-J * ) -1 30

χόλια για το προηγούμενο θεώρημα (2/3) υνδυάζοντας αυτά με το προηγούμενο θεώρημα, συνάγουμε ότι η ευαισθησία του π Σ (α) καθώς το α τείνει στο 1 καθορίζεται από το μέγεθος των στοιχείων του (I- S) # (I-S) # κ(x) (I-C) -1, όπου κ(x) είναι ο condition number του X Επομένως, η ευαισθησία του π Σ (α) καθώς το α τείνει στο 1 καθορίζεται κυρίως από το μέγεθος του (I-C) -1, το οποίο καθορίζεται από το μέγεθος του 1-λ 2-1, όπου λ 2 1 είναι η ιδιοτιμή του S που είναι πλησιέστερα στη λ 1 Με άλλα λόγια, όσο πιο κοντά είναι η τιμή του λ 2 στο λ 1 =1, τόσο πιο ευαίσθητο είναι το π Σ (α), όταν το α είναι κοντά στο 1 31

χόλια για το προηγούμενο θεώρημα (3/3) Μιλώντας γενικά, οι στοχαστικοί πίνακες των οποίων η υποκυρίαρχη ιδιοτιμή (subdominant eigenvalue) είναι κοντά στο 1, αντιπροσωπεύουν nearly uncoupled chains (ή nearly completely decomposable chains) Αυτές είναι οι αλυσίδες των οποίων οι καταστάσεις σχηματίζουν ομάδες (clusters), τέτοιες ώστε οι καταστάσεις μέσα στις ομάδες έχουν ισχυρή σύνδεση μεταξύ τους, ενώ οι ομάδες είναι χαλαρά συνδεδεμένες μεταξύ τους οι καταστάσεις μπορούν να διαταχτούν έτσι ώστε ο πίνακας πιθανοτήτων μεταβάσεων να αποκτήσει τη μορφή S=D+εE, όπου ο D είναι διαγώνιος με μπλοκ (block diagonal), E 1, και 0 ε < 1 είναι μικρό σχετικά με το 1 Η αλυσίδα που ορίζεται από το Web είναι σχεδόν βέβαιο ότι είναι nearly uncoupled, οπότε το λ 2 είναι πολύ κοντά στο 1 32

υμπεράσματα για την ευαισθησία του π Σ Για μικρό α, το διάνυσμα PageRank δεν επηρεάζεται από μικρές αλλαγές στο α Καθώς το α μεγαλώνει, η ευαισθησία του διανύσματος PageRank αυξάνει σε μικρές αλλαγές του α Όταν το α είναι κοντά στο 1, το διάνυσμα PageRank είναι πάρα πολύ ευαίσθητο σε μικρές αλλαγές του α Ο βαθμός ευαισθησίας ελέγχεται από το βαθμό στον οποίο o S είναι nearly uncoupled 33

Παράδειγμα 1 (democratic surfer) (1/4) 34

Παράδειγμα 1 (democratic surfer) (2/4) Οι σελίδες είναι διατεταγμένες από την πιο δημοφιλή προς τη λιγότερο δημοφιλή (4 5 6 3 2 1 7) λ 2 (G) = α Καθώς το α τείνει στο 1, το PageRank αλλάζει σημαντικά Όμως, η διάταξη (ranking) δεν αλλάζει! ε μεγαλύτερα γραφήματα όμως, και η διάταξη είναι δυνατόν να αλλάξει Η δεύτερη μεγαλύτερη σε τιμή ιδιοτιμή του S είναι 0.7991 (Επισημάναμε ήδη ότι αυτή η τιμή, που μετρά επίσης το βαθμό σύζευξης (coupling) μιας Markov αλυσίδας, ελέγχει την ευαισθησία του διανύσματος PageRank) Αφού to 0.7991 δεν είναι κοντά στο 1, αναμένουμε ότι αυτή η αλυσίδα δεν θα είναι πολύ ευαίσθητη σε μικρές αλλαγές του α Ας ελέγξουμε αυτή την υπόθεση προσθέτοντας έναν υπερσύνδεσμο από τη σελίδα 6 στην 5 (δες τον επόμενο πίνακα) 35

Παράδειγμα 1 (democratic surfer) (3/4) 36

Παράδειγμα 1 (democratic surfer) (4/4) Μετά την προσθήκη ενός μόνο υπερσυνδέσμου οι ιστοσελίδες τώρα διατάσσονται από την πιο σημαντική προς τη λιγότερο σημαντική ως εξής: (5 6 4 3 2 1 7) Δηλ., η σελίδα 4 έπεσε από την πρώτη θέση στην τρίτη θέση! Παρατηρούμε ότι μόνο οι PageRank τιμές των ιστοσελίδων 4, 5 και 6 έχουν αλλάξει, ως συνέπεια της reducibility της αλυσίδας το επόμενο παράδειγμα εξετάζουμε μια αλυσίδα της οποία η δεύτερη σε μέγεθος ιδιοτιμή του S είναι πιο κοντά στο 1 37

Παράδειγμα 2 (intelligent surfer) (1/4) Ο S είναι πολύ πιο ασύζευκτος (uncoupled) λ 2 (S)=0.9193 38

Παράδειγμα 2 (intelligent surfer) (2/4) Η διάταξη πλέον των ιστοσελίδων από την πιο σημαντική προς τη λιγότερο σημαντική είναι η εξής (4 5 6 3 2 1 7) Ας κάνουμε και σ αυτό το παράδειγμα την ίδια αλλαγή στο γράφημα που κάναμε προηγουμένως, και ας προσθέσουμε έναν σύνδεσμο από την ιστοσελίδα 6 προς την 5 39

Παράδειγμα 2 (intelligent surfer) (3/4) 40

Παράδειγμα 2 (intelligent surfer) (4/4) Μετά την αλλαγή, η διάταξη πλέον γίνεται (5 6 3 2 4 1 7) Η ιστοσελίδα 4 πέφτει ακόμα περισσότερο στο ranking Σόσο η διάταξη όσο και οι πραγματικές τιμές του PageRank των ιστοσελίδων είναι πολύ πιο ευαίσθητες στο Παράδειγμα 2 απ ότι στο Παράδειγμα 1 υνεπώς, βλέπουμε καθαρά την επίδραση του λ 2 (S) στην ευαισθησία του διανύσματος PageRank Οι Boldi, Santini και Vigna έχουν μελετήσει παραγώγους ανώτερης τάξης και έφτασαν σε πιο πλούσια αποτελέσματα για την ευαισθησία του PageRank 41

Ευαισθησία σε σχέση με τον πίνακα Η (1/2) Παλιότερα γνωστά αποτελέσματα ευαισθησίας για Markov αλυσίδες δίνουν ότι: π Σ είναι ευαίσθητο σε μεταβολές στο P λ 2 (P) 1 Γνωρίζουμε ήδη ότι λ 2 (G) α, και επιπλέον, όταν ο S είναι reducible ισχύει ότι λ 2 (G) = α Επομένως, καθώς το α τείνει στο 1, γίνεται όλο και πιο ευαίσθητο σε μικρές μεταβολές στο G Όμως το G εξαρτάται από τα α, H και v T και επιθυμούμε να απομονώσουμε την εξάρτησή του από το H Ας υπολογίσουμε μια άλλη παράγωγο: 42

Ευαισθησία σε σχέση με τον πίνακα Η (2/2) Η επίδραση του α είναι προφανής Καθώς το α τείνει στο 1, τα στοιχεία του (I-αS) -1 απειρίζονται και το PageRank διάνυσμα γίνεται πολύ ευαίσθητο σε μικρές αλλαγές της συνδεσμολογίας Η προσθήκη ενός υπερσυνδέσμου ή η αύξηση του βάρους ενός υπερσυνδέσμου από μια σημαντική ιστοσελίδα (το π i είναι υψηλό) έχει μεγαλύτερη επίδραση στην ευαισθησία του διανύσματος PageRank, παρά η αλλαγή ενός υπερσυνδέσμου από μια μη σημαντική σελίδα 43

Νόρμα Google G υπό αλλαγές ΘΕΩΡΗΜΑ. Έστω ότι G=αS+(1-α)ev T είναι ο Google πίνακας με διάνυσμα PageRank π Σ και Ĝ=αŜ+(1-α)ev T είναι ο ενημερωμένος πίνακας Google (ίδιου μεγέθους) με αντίστοιχο διάνυσμα ñ Σ. Σότε: όπου U είναι το σύνολο όλων των ιστοσελίδων που έχουν ενημερωθεί. 44

Άλλες προσεγγίσεις ευαισθησίας (1/3) Σο προηγούμενο θεώρημα υπονοεί ότι όσο το α δεν είναι κοντά στο 1, και οι ενημερωμένες ιστοσελίδες δεν έχουν υψηλή τιμή PageRank, τότε οι νέες τιμές PageRank δεν αλλάζουν πολύ Ας εξετάσουμε τους δυο παράγοντες του ορίου 2α/(1-α) π ι Έστω ότι α=0.8 και ότι το άθροισμα των παλιών τιμών του PageRank των ενημερωμένων σελίδων είναι 10-6 Σότε η πολλαπλασιαστική σταθερά 2α/(1-α) = 8, το οποίο σημαίνει ότι η 1-νόρμα της διαφοράς του παλιού με το νέο διάνυσμα PageRank είναι το πολύ 8x10-6 Άρα οι τιμές PageRank δεν είναι επιρρεπείς στις αλλαγές 45

Άλλες προσεγγίσεις ευαισθησίας (2/3) Καθώς το α τείνει στο 1, το προηγούμενο όριο γίνεται σταδιακά λιγότερο χρήσιμο Η χρησιμότητα του ορίου ελέγχεται από το βαθμό στον οποίο το άθροισμα π ι μπορεί να εξισορροπήσει την αύξηση του κλάσματος 2α/(1-α) Δυο πράγματα επηρεάζουν το μέγεθος του π ι : Ο αριθμός των ενημερωμένων σελίδων Η τιμή του PageRank των σελίδων αυτών Σο προηγούμενο όριο έχει ένα ακόμα μειονέκτημα: Δεν μας λέει κάτι για το τι συμβαίνει στο PageRank όταν ενημερώνονται οι σελίδες που έχουν μεγάλη τιμή PageRank 46

Άλλες προσεγγίσεις ευαισθησίας (3/3) Όλες οι προηγούμενες προσπάθειες μελέτης της ευαισθησίας του PageRank αφορούσαν την σταθερότητα των τιμών του PageRank Οι Lempel & Moran μελέτησαν τη σταθερότητα της διάταξης (ranking) Έδειξαν ότι η σταθερότητα των τιμών (PageRank value stability) δεν υπονοεί σταθερότητα διάταξης (rank stability) 47

Σηαζεξόηεηα ranking ηνπ PageRank (1/6) ΟΡΙΜΟ. Έζηω όηη ηα v 1 v 2 είλαη N-δηάζηαηα δηαλύζκαηα κε πξαγκαηηθέο ζπληεηαγκέλεο. Η ranking distance d r κεηαμύ ηωλ v 1 θαη v 2 νξίδεηαη ωο εμήο (κηα ηππηθή εθδνρή): Η d r είλαη κηα θαλνληθνπνηεκέλε έθδνζε ηεο Kendal Τ απόζηαζεο Π.ρ., εάλ v 1 =(2,4,6,8) θαη v 2 =(2,9,5,3), ηόηε d r (v 1, v 2 )=3/16, εμαηηίαο ηωλ δεπγώλ (i,j) {(2,3),(2,4),(3,4)} 48

Σηαζεξόηεηα ranking ηνπ PageRank (2/6) Έζηω όηη G είλαη έλα ζύλνιν θαηεπζπλόκελωλ γξαθεκάηωλ, θαη G N είλαη εθείλν ην ππνζύλνιν ηωλ γξαθεκάηωλ ηνπ G κε N θόκβνπο. Έζηω όηη Α 1 θαη Α 2 είλαη δπν αιγόξηζκνη link ranking πνπ αλαζέηνπλ V -δηάζηαηα δηαλύζκαηα βάξνπο Α 1 (G) θαη Α 2 (G) ζηνπο θόκβνπο ηνπ γξαθήκαηνο G G N. ΟΡΙΜΟ. Δπν αιγόξηζκνη ranking Α 1 θαη Α 2 ζα ιέκε όηη είλαη rank-similar ζην G, εάλ ηζρύεη όηη: ΟΡΙΜΟ. Έλαο αιγόξηζκνο Α ζα ιέκε όηη είλαη rank-stable ζην G, εάλ γηα θάζε ζηαζεξό k, έρνπκε όηη: όπνπ d e (G 1,G 2 ) (E 1 E 2 )\(E 1 E 2 ) 49

Σηαζεξόηεηα ranking ηνπ PageRank (3/6) Έζηω όηη G=(V,E) είλαη έλα θαηεπζπλόκελν γξάθεκα (πνπ αλαπαξηζηά θάπνην ππνγξάθεκα ηνπ Web) Δπν θόκβνη p,q V ζα ιέκε όηη είλαη co-cited, εάλ ππάξρεη θάπνηνο θόκβνο r πνπ έρεη ππεξζύλδεζκν θαη πξνο ηνλ θόκβν p θαη πξνο ηνλ q Θα ιέκε όηη νη θόκβνη p θαη q ζπλδένληαη κε έλα co-citation path, εάλ ππάξρνπλ θόκβνη p=v 0,v 1, v k-1,v k =q, ηέηνηνη ώζηε ηα δεύγε (v i-1,v i ) λα είλαη co-cited γηα θάζε i=1,2,,k Έζηω όηη ζπκβνιίδνπκε κε V in όινπο ηνπο θόκβνπο ηνπ V κε ηνπιάρηζηνλ έλαλ εηζεξρόκελν ππεξζύλδεζκν ΟΡΙΜΟ. Έλα θαηεπζπλόκελν γξάθεκα G=(V,E) ζα απνθαιείηαη authority-connected, εάλ γηα όινπο ηνπο p,q V in, ππάξρεη έλα co-citation path πνπ ζπλδέεη ηνπο p θαη q 50

Σηαζεξόηεηα ranking ηνπ PageRank (4/6) Θα εμεηάζνπκε ηελ rank stability PageRank όηαλ εθαξκόδεηαη πάλω ζε authority-connected γξαθήκαηα Γηαηί κόλν ζε ηέηνηνπ είδνπο γξαθήκαηα; Γηαηί όηαλ δεηνύκε από έλαλ αιγόξηζκν ranking λα θαηαηάμεη ηζηνζειίδεο γξαθεκάηωλ πνπ δελ είλαη authority-connected, είλαη ζαλ λα δεηάκε από ηνλ αιγόξηζκν λα θηαηάμεη ζειίδεο πνπ δελ αλαθέξνληαη ζην ίδην ζέκα, π.ρ., γεωγξαθίαο θαη αζιεηηθώλ ΘΕΩΡΗΜΑ. Ο PageRank δελ είλαη rank-stable ζηελ θιάζε ηωλ authority-connected γξαθεκάηωλ ΑΠΟΔΕΙΞΗ. Με αληηπαξάδεηγκα (δείηε επόκελεο δπν δηαθάλεηεο) 51

Σηαζεξόηεηα ranking ηνπ PageRank (5/6) x a y x b Ορίζουμε τα γραφήματα: a 1 a 2 h a a n c b 1 b 2 h b b n Σα G a και G b είναι authority-connected, διαμέσου του κόμβου c Έστω ότι PR a (v), PR b (v) (v V) είναι η PageRank τιμή του κόμβου v στα γραφήματα G a και G b, αντίστοιχα 52

Σηαζεξόηεηα ranking ηνπ PageRank (6/6) Από τον ορισμό του PageRank, εύκολα διαπιστώνουμε ότι: 0 < PR a (x a ) = PR a (y) = PR a (x b ) και συνεπώς: PR a (h a ) > PR a (h b ) Επομένως, PR a (a ai ) > PR a (a bi ), για κάθε 1 i n Όμοια, PR b (a ai ) < PR b (a bi ), για κάθε 1 i n Επομένως: που, για Ν τείνει στο ¼ και όχι στο 0 (τέλος απόδειξης) Παρατηρήστε ότι p {h a,h b,a 1,,a n,b 1,,b n }, PR(y) < PR(p), ζε όπνην από ηα δπν γξαθήκαηα Επνκέλωο, ζπληειέζηεθε δξακαηηθή αιιαγή ζην ranking κε ηελ αιιαγή ελόο κόλν εμεξρόκελνπ ππεξζπλδέζκνπ ηνπ θόκβνπ y, ν νπνίνο ηπγράλεη λα έρεη πνιύ ρακειό ranking!!! 53

Νόρμα Google G υπό αλλαγές (Απόδειξη) ΑΠΟΔΕΙΞΗ. Έστω ότι ο F είναι ο πίνακας που αναπαριστά τη διαταραχή (perturbation) μεταξύ δυο στοχαστικών πινάκων S και Ŝ. Έτσι F= S - Ŝ. Σότε: Επιλύοντας ως προς π Σ - ñ Σ έχουμε: 54

Νόρμα Google G υπό αλλαγές (Απόδειξη) Τπολογίζοντας νόρμες, έχουμε: Ισχύει ότι ο I-αŜ είναι μη-ιδιόμορφος (nonsingular) και έχει αθροίσματα γραμμών ίσα προς 1/(1-α). Σώρα, αναδιατάσσουμε τον F (και π Σ ) έτσι ώστε οι γραμμές που αντιστοιχούν στις ανανεωμένες σελίδες (μη μηδενικές γραμμές) να έρθουν στην κορυφή του πίνακα. Σότε: 55

Νόρμα Google G υπό αλλαγές (Απόδειξη) Επομένως: και όπου S 1 και Ŝ 1 επίσης αντιστοιχούν σε ενημερωμένες σελίδες Επομένως: Σελικά: 56

Ευαισθησία σε σχέση με το v T Ας υπολογίσουμε την παράγωγο του π Σ σε σχέση με το διάνυσμα v T : όπου το D είναι το σύνολο των dangling κόμβων Τπάρχει εξάρτηση από το α Fundamental matrix Καθώς το α τείνει στο 1, τα στοιχεία του (I-αS) -1 απειρίζονται, δηλ., καθώς το α τείνει στο 1, το π Σ γίνεται όλο και πιο ευαίσθητο Εάν οι dangling κόμβοι συνδυάζονται για να αποκτήσουν ένα μεγάλο ποσοστό του PageRank, τότε το διάνυσμα π Σ είναι πολύ ευαίσθητο σε αλλαγές στο διάνυσμα v T Αυτό συμφωνεί με την κοινή λογική ο τυχαίος surfer περνάει αρκετό χρόνο στους dangling κόμβους, και έτσι πιο συχνά ακολουθεί τις teleportation πιθανότητες, δηλ., το v T 57