Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Επιταχύνοντας την εκτέλεση του PageRank

Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Αριθµητική Ανάλυση. Ενότητα 4 Αριθµητικός Υπολογισµός Ιδιοτιµών και Ιδιοδιανυσµάτων. Ν. Μ. Μισυρλής. Τµήµα Πληροφορικής και Τηλεπικοινωνιών,

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

ΚΕΦΑΛΑΙΟ 3 ΑΡΙΘΜΗΤΙΚΗ ΕΠΙΛΥΣΗ ΓΡΑΜΜΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. nn n n

ΘΕΜΑΤΑ ΕΞΕΤΑΣΗΣ ΚΑΙ ΑΠΑΝΤΗΣΕΙΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ:

Επίλυση Γραµµικών Συστηµάτων

ΚΕΦΑΛΑΙΟ 4 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΠΡΑΓΜΑΤΙΚΩΝ Ι ΙΟΤΙΜΩΝ. 4.1 Γραµµικοί µετασχηµατισµοί-ιδιοτιµές-ιδιοδιανύσµατα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ευαισθησία του PageRank. Το πρόβληµα PageRank ως. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

!q j. = T ji Kάθε πίνακας µπορεί να γραφεί σαν άθροισµα ενός συµµετρικού και ενός αντι-συµµετρικού πίνακα

Γραµµική Άλγεβρα. Εισαγωγικά. Μέθοδος Απαλοιφής του Gauss

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Μηχανική ΙI. Μετασχηµατισµοί Legendre. της : (η γραφική της παράσταση δίνεται στο ακόλουθο σχήµα). Εάν

2η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 3 (Θεωρία-Αλγόριθµοι-Εφαρµογές)

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΣΤΗΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ : ΠΛΗ12 «ΜΑΘΗΜΑΤΙΚΑ Ι» Επαναληπτική Τελική Εξέταση 16 Ιουλίου 2003

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Περίληψη ιπλωµατικής Εργασίας

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

5.1 Ιδιοτιµές και Ιδιοδιανύσµατα

ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΞΙΣΩΣΕΩΝ

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Στοχαστικά Σήµατα και Εφαρµογές

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12)

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων

Άσκηση 1 (α) ============================================================== Έχουµε L = π, εποµένως η σειρά Fourier είναι: 1 2 a. cos. a n. b n.

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΠΛΗΡΟΦΟΡΙΚΗ ΘΕ: ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΤΗΝ ΠΛΗΡΟΦΟΡΙΚΉ Ι (ΠΛΗ 12) ΛΥΣΕΙΣ ΕΡΓΑΣΙΑΣ 3

QR είναι ˆx τότε x ˆx. 10 ρ. Ποιά είναι η τιµή του ρ και γιατί (σύντοµη εξήγηση). P = [X. 0, X,..., X. (n 1), X. n] a(n + 1 : 1 : 1)

Σηµειώσεις στις σειρές

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

Αριθµητική Ανάλυση. 27 Οκτωβρίου Αριθµητική Ανάλυση 27 Οκτωβρίου / 72

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Απαντήσεις στα Θέµατα Ιουνίου 2012 (3 και 4)

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων.

ΜΕΜ251 Αριθμητική Ανάλυση

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

/ / 38

Παλαιότερες ασκήσεις

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 2

Κεφάλαιο 1. Αριθµητική ολοκλήρωση συνήθων διαφορικών εξισώσεων και συστηµάτων

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Αριθμητική Ανάλυση και Εφαρμογές

4.3. Γραµµικοί ταξινοµητές

============================================================== Σχηµατίζουµε τον πίνακα µε στήλες τα διανύσµατα v1,v2,v3,u1,u2:

Ανάκληση Πληπουοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

ΘΕΑΝΩ ΕΡΙΦΥΛΗ ΜΟΣΧΟΝΑ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Γραµµικη Αλγεβρα Ι Επιλυση Επιλεγµενων Ασκησεων Φυλλαδιου 4

4 k 2 = 2 ( 1+ 2 k 2. k 2 2 k= k 2. 1.ii) Αν σχηµατίσουµε τον πίνακα µε γραµµές τα δύο διανύσµατα έχουµε: Γ1 Γ1 ---> { }

Είδαµε στο προηγούµενο κεφάλαιο ότι, όταν τα δεδοµένα που χρησιµοποιούνται σε ένα υπόδειγµα, δεν προέρχονται από στάσιµες χρονικές σειρές έχουµε το

Γραµµικη Αλγεβρα ΙΙ Ασκησεις - Φυλλαδιο 10

Όρια συναρτήσεων. ε > υπάρχει ( ) { } = ± ορίζονται αναλόγως. Η διατύπωση αυτών των ορισµών αφήνεται ως άσκηση. x y = +. = και για κάθε (, ) ( 0,0)

x 2 = x x 2 2. x 2 = u 2 + x 2 3 Χρησιµοποιώντας το συµβολισµό του ανάστροφου, αυτό γράφεται x 2 = x T x. = x T x.

Non Linear Equations (2)

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 9 Επαναληπτικες Ασκησεις

οµή δικτύου ΣΧΗΜΑ 8.1

Μετασχηµατισµοί Laplace, Αναλογικά Συστήµατα, ιαφορικές Εξισώσεις

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ιδάσκοντες :Τµήµα Α ( Αρτιοι) : Καθηγητής Ν. Μισυρλής,Τµήµα Β (Περιττοί) : Αριθµητική Επίκ.

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Κεφάλαιο 6 Ιδιοτιµές και Ιδιοδιανύσµατα

Προβλήµατα Μεταφορών (Transportation)

KΕΦΑΛΑΙΟ 8 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΠΙΛΥΣΗΣ ΣΥΝΗΘΩΝ. Το τυπικό πρόβληµα αρχικών τιµών που θα µας απασχολήσει, είναι το ακόλουθο:

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 5

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Γραµµική Αλγεβρα. Ενότητα 6 : Ιδιοτιµές & Ιδιοδιανύσµατα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Άσκηση 1. i) ============================================================== Α n ( 3 n 1 ) A ) 5 4. Α n 1 2 ( n n 2.

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

ΕΠΛ 232 Φροντιστήριο 2

3.1 εκαδικό και υαδικό

15 εκεµβρίου εκεµβρίου / 64

P = 0 1/2 1/ /2 1/

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

Γραµµικοί Ταξινοµητές

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Όρια συναρτήσεων. ε > υπάρχει ( ) { } = ± ορίζονται αναλόγως. Η διατύπωση αυτών των ορισµών αφήνεται ως άσκηση. x y = +. = και για κάθε (, ) ( 0,0)

ΛΥΣΕΙΣ 6 ης ΕΡΓΑΣΙΑΣ - ΠΛΗ 12,

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 3: Περιγραφή αριθμητικών μεθόδων (συνέχεια)

7. ΜΗ ΓΡΑΜΜΙΚΑ ΑΝΤΙΣΤΡΟΦΑ ΠΡΟΒΛΗΜΑΤΑ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Transcript:

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 12η: 16/05/2007 1 Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank Επιταχύνοντας την εκτέλεση του PageRank 2 Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank Σύγκλιση Ακρίβεια Dangling κόµβοι Μοντελοποίηση του back button 3 1

Αρχιτεκτονική Μηχανής Αναζήτησης 4 Σύγκλιση Είδαµε ότι ένας τρόπος εύρεσης του PageRank διανύσµατος είναι µε την power µέθοδο, η οποία εφαρµόζεται µέχρι να ικανοποιηθεί κάποιο κριτήριο σύγκλισης Συνήθως, π (k+1)τ π (k)τ 1 < τ Ο Taher Haveliwala ορθά παρατήρησε ότι δεν µας ενδιαφέρουν οι ακριβείς τιµές του διανύσµατος, αλλά η σωστή διάταξη των τιµών στο διάνυσµα αυτό Με ~10 επαναλήψεις µπορούµε ναβρούµε τη σωστή διάταξη!!! Ερωτήµατα: Πώς µετράµε τηδιαφοράµεταξύ δυο rankings; Kendall Tau, rank aggregation, set overlap, Πώς αποφασίζουµε ότιέναranking έχει συγκλίνει ικανοποιητικά; Μπορούµε ναγράψουµε µια power µέθοδο η οποία να επενεργεί στα rankings και όχι στις τιµές του PageRank σε κάθε επανάληψη; 5 Power-law στο Web (1/3) 6 2

Power-law στο Web (2/3) 7 Power-law στο Web (3/3) 8 Ακρίβεια (1/2) Αφού οι τιµές του διανύσµατος PageRank ακολουθούν powerlaw είναι πιθανό ένα µικρό τµήµα του διανύσµατος να έχει τη µορφή: π Τ =(0.000001532, 0.0000015316, 0.0000015312, 0.0000015210) Συνεπώς απαιτείται ακρίβεια της τάξης του 10-9 για να διακρίνουµε µεταξύ των στοιχείων του διανύσµατος Φυσικά, παρόλο που οι τιµές του διανύσµατος µπορεί να είναι σφιχτά πακεταρισµένες σε µερικά τµήµατά του, τα στοιχεία του διανύσµατος που αφορούν ένα ερώτηµα (δηλ., οι τιµές PageRank των ιστοσελίδων που είναι σχετικές µε τοερώτηµα) είναι πολύ λιγότερο πιθανό να είναι το ίδιο σφιχτά πακεταρισµένες, και συνεπώς δεν απαιτείται ακρίβεια της τάξης 10-12 9 3

Ακρίβεια (2/2) Αρχικά, οι Page & Brin πρότειναν περίπου 50 επαναλήψεις γιανασυγκλίνειηpower µέθοδος, άρα Οι εκτιµήσειςτουςγιατοπ T δεν είναι πολύ ακριβείς, ή Ηυπο-κυρίαρχη (subdominant) ιδιοτιµή του πίνακα επαναλήψεων απέχει αρκετά από την κυρίαρχη ιδιοτιµή λ 1 =1 Την πρώτη εικασία δεν µπορούµε νατηνελέγξουµε, γιατί ποτέ δεν δηµοσιοποιήθηκαν αποτελέσµατα σχετικά µε τη σύγκλιση του Google Η δεύτερη εικασία υπονοεί ότι ο πίνακας τηλεµεταφοράς E=ev T κατέχει σηµαντικό βάρος, και άρα ίσως έχει τεθεί α=0.8 Επιταχύνεται η σύγκλιση Αποµακρυνόµαστε όµως από την ουσία των υπερσυνδέσµων 10 Dangling κόµβοι (1/10) Υπάρχουν διάφορες µορφές dangling κόµβων Σελίδα µε δεδοµένα Αρχείο pdf, ps, jpeg, Ιστοσελίδα που την κατέβασε ο crawler, αλλά ακόµα δεν εξερευνήθηκαν οι εξερχόµενοι υπερσύνδεσµοί της, δηλ., το Web Frontier Οι Page & Brin πρότειναν να αντικατασταθούν οι γραµµές 0 T µετοδιάνυσµα e T /n (ή τοπιογενικόδιάνυσµα v T ) Αυτό αυξάνει κατά πολύ τις απαιτήσεις σε αποθηκευτικό χώρο, οπότε ήδη έχουµε δει ότι είναι προτιµότερη η λύση του δυαδικού διανύσµατος dangling κόµβων a Γιαναείµαστε όµως ακριβείς, οι Page & Brin πρότειναν να αποµακρύνουµε τουςdangling κόµβους κατά το υπολογισµό του PageRank και να τους προσθέσουµε ξανά, αφού το διάνυσµα PageRank έχει συγκλίνει 11 Dangling κόµβοι (2/10) Αυτό, σε µεγάλο βαθµό, είναι ένα φιλοσοφικό ερώτηµα: Εάν αφήσουµε εκτόςτουςdangling κόµβους, τότε δεν έχουν καµία πιθανότητανααποκτήσουµε µεγάλη PageRank, οπότε εκ προοιµίου δεν τους θεωρούµε σηµαντικούς 1. Όµως, µια ιστοσελίδα µε πολλούς εισερχόµενους συνδέσµους από σηµαντικές ιστοσελίδες, αλλά χωρίς εξερχόµενους υπερσυνδέσµους, είναι µια σηµαντική ιστοσελίδα Όντως, ο Kevin McCurley έδειξε ότι (ACM WWW conf. 2004, Ranking the Web frontier ) σε µικρά γραφήµατα, αλλά και σε τεράστια γραφήµατα µερικοί dangling κόµβοι µπορεί να έχουν µεγαλύτερη τιµή PageRank από πολλούς non-dangling κόµβους 2. Επιπλέον, η διαδικασία αφαίρεσης των dangling κόµβων µπορεί να δηµιουργήσει επαναληπτικά νέους και νέους dangling κόµβους και τελικά να µην µείνει κανένας κόµβος στο γράφηµα 1 2 4 1 2 4 1 2 1 3 5 3 12 4

Dangling κόµβοι (3/10) Μιακαλύτερηλύσηείναιναθεωρήσουµε όλους τους κόµβους ισότιµα απότηναρχή, αλλά να εκµεταλλευτούµε τιςµοναδικές τους ιδιότητες. Το έκαναν οι: Lee, Golub & Zenios (Technical Report SCCM-2003-15) Eiron, McCurley & Tomlin (ACM WWW 2004) Langville & Meyer (SIAM Journal on Scientific Computing, vol. 27, no. 6, 2006) Στη θεµελίωση του PageRank προβλήµατος που έχουµε δώσει έως τώρα, είτε ως πρόβληµα ιδιοδιανύσµατος είτε ως γραµµικό σύστηµα, θεωρήσαµε ισότιµους όλους τους κόµβους, αλλά δεν εκµεταλλευτήκαµε την ιδιοµορφία τους Στην ουσία όλοι οι dangling κόµβοι έχουν την ίδια φύση σχετικά µε τιςγραµµές τους στον πίνακα H (στον S και G) όταν ο random surfer φτάνει σε έναν dangling κόµβο συµπεριφέρεται το ίδιο: τηλεµεταφέρεται σε έναν άλλο κόµβο (είτε οµοιόµορφα e T /n, είτε µε βάσητοδιάνυσµα προσωποποίησης v T ) 13 Dangling κόµβοι (4/10) Συνεπώς, γιατί να µην συµπτύξουµε όλους τους danling κόµβους σε έναν; Αυτό έχει ως συνέπεια την ελάττωση του µεγέθους του προβλήµατος, ειδικά εάν το ποσοστό των danling κόµβων είναι µεγάλο Όµως, η επίλυσητουµικρότερου ( ND +1) x ( ND +1) προβλήµατος δηµιουργεί δυο νέα: Έχουµε στη διάθεσή µας µόνο τις τιµές PageRank των non-danling κόµβων καθώς και του κόµβους που προέκυψε από την σύµπτυξη των dangling κόµβων, αλλά όχι τις τιµές PageRank των επιµέρους dangling κόµβων Αυτό το µικρότερο σύνολο των rankings είναι πολωµένο Η απάντηση στα δυο ερωτήµατα αυτά δίνεται από τις τεχνικές της aggregation και της stochastic complementation 14 Dangling κόµβοι (5/10) Εδώ όµως θα δώσουµε µια απλούστερη εξήγηση χωρίς πολλούς µαθηµατικούς όρους Έστω ότι αναδιατάσσουµε τιςγραµµές του πίνακα H οι οποίες αντιστοιχούν στους dangling κόµβους, ώστε να εµφανίζονται στο κάτω µέρος του πίνακα ND D ND D όπου ND είναιτοσύνολοτωνnon-dangling κόµβων και D είναι το σύνολο των dangling κόµβων Ο πίνακας συντελεστών (π Τ (I-αH)=v T ), στη διατύπωση ως αραιό γραµµικό σύστηµα, γίνεται πλέον και ο αντίστροφος αυτού: 15 5

Dangling κόµβοι (6/10) Εποµένως, το µη-κανονικοποιηµένο διάνυσµα PageRank x Τ = v T (I-αH) -1 µπορεί να γραφεί ως x Τ = (v 1T (I-αH 11 ) -1 αv 1T (I-αH 11 ) -1 H 12 +v 2T ) όπου το διάνυσµα προσωποποίησης v T έχει διαµεριστεί στο τµήµα v 1T για τους non-dangling κόµβους και στο τµήµα v 2T για τους dangling κόµβους Ο αλγόριθµος που υπολογίζει το διάνυσµα PageRank κάνοντας χρήση µόνο το non-dangling τµήµα του Web δίνεται παρακάτω: Αλγόριθµος-1 PageRank µε dangling κόµβους Επίλυση ως προς x 1T του: Υπολογισµός του: Κανονικοποίηση: 16 Dangling κόµβοι (7/10) Οαλγόριθµος αυτός είναι ισοδύναµος µε τοναντίστοιχοπου πρότειναν οι Lee, Golub & Zenios, ο οποίοςµπορεί να ελαττώσει τον υπολογισµό κατά1/5 σε ένα γράφηµα µε 80% dangling κόµβους Μπορούµε ναεπιτύχουµε κάτι καλύτερο; ηλ., µπορούµε ναβρούµε µηδενικές γραµµές 0 T σε υποπίνακες του H; Όντως, µπορούµε να εφαρµόζουµε αναδροµικά τη διαδικασία αναδιάταξης γραµµών/στηλών του H, ώστε να οδηγηθούµε σε υποπίνακες που δεν περιέχουν καθόλου µηδενικές γραµµές 17 Dangling κόµβοι (8/10) Για παράδειγµα, ένας πίνακας H µε 9664 γραµµές, που περιέχει συνολικά 16773 µη µηδενικά στοιχεία, µπορεί να αναδιαταχτεί αναδροµικά µε την προηγούµενη διαδικασία 18 6

Dangling κόµβοι (9/10) Γενικά, µετά από αυτή τη συµµετρική αναδιάταξη, ο πίνακας συντελεστών του γραµµικού συστήµατος του PageRank έχει την εξής δοµή: όπου b είναι ο αριθµόςτωντετραγωνικώνδιαγωνίωνµπλοκ στον αναδιαταγµένο πίνακα Εποµένως το αναδιατεταγµένο σύστηµα µπορεί να λυθεί µε forward substitution Το µόνο σύστηµα που πρέπει να λυθεί άµεσα είναι το πρώτο υποσύστηµα όπου τα π Τ και v T έχουν διαµεριστεί κατάλληλα Τα υπόλοιπα υποδιανύσµατα του x T υπολογίζονται γρήγορα µε forward substitution 19 Dangling κόµβοι (10/10) Αλγόριθµος-2 PageRank µε dangling κόµβους ΑναδιατάσσουµετονH, ώστε να επιτύχουµε τηδοµή που δείξαµε Επίλυση ως προς x 1T του: Για i=2 µέχρι b, υπολογισµός του: Κανονικοποίηση: Στο παράδειγµα µε τον αραιό πίνακα που δείξαµε, λύνουµε τελικά ένα σύστηµα 2622 x 2622 αντί για το αρχικό 9664 x 9664 Το µικρό υποσύστηµα x 1T (I-αH 11 )=v 1T µπορεί να λυθεί µε µια ευθεία µέθοδο (εάν είναι αρκετά µικρό) ή µε µια επαναληπτική µέθοδο (π.χ., Jacobi) 20 Μοντελοποίηση του back button (1/6) Το αρχικό µοντέλο του PageRank δεν λάµβανε υπόψη το back button Η εισαγωγή του περιπλέκει την κατάσταση Άλλωστε, η θεµελιώδης ιδιότητα της συγκεκριµένη Markov αλυσίδας είναι ότι δεν έχει µνήµη (memoryless property) Αρκετοί προσπάθησαν να λάβουν υπόψη τους το back button Υπάρχουν διάφοροι τρόποι να µοντελοποιήσουµε το back button Μιαπάραπολύαπλήµεθοδολογία είναι η εξής: όταν φτάσουµε σεένανdangling κόµβο χρησιµοποιούµε τοbackbutton για να επιστρέψουµε στη σελίδα απ όπου ήρθαµε 21 7

Μοντελοποίηση του back button (2/6) Αυτήηπροσέγγισηόµως µοντελοποιεί το back-button µόνο για τους dangling κόµβους Επίσης, δυστυχώς µας οδηγεί στο να προσθέσουµε έναν νέο κόµβο για κάθε εισερχόµενο υπερσύνδεσµο ενόςdangling κόµβου Ευτυχώς, ο πίνακας που προκύπτει Ĥ έχει όµορφη δοµή 1 2 1 2 3 3 4 5 4 5 3 6 3 6 6 4 22 Μοντελοποίηση του back button (3/6) Ο Ĥ είναι row-stochastic Πρέπει όµως να εφαρµοστεί µια διόρθωση ώστε να γίνει irreducible Συγκεντρωτικά, τα βήµατα για την κατασκευή του Ĥ είναι τα παρακάτω: ΒΗΜΑ 1. Αναδιατάσσουµε τονh, ώστε να έχουµε: ΒΗΜΑ 2. Για κάθε εισερχόµενο σύνδεσµο ενόςdangling κόµβου, δηµιουργούµε έναν κόµβο παλινδρόµησης (bounce-back node). Συνολικά θα υπάρχουν nnz(h 12 ) τέτοιοι κόµβοι, αντί για τους αρχικούς D dangling κόµβους Εάν κάθε dangling κόµβος έχει περισσότερους από έναν εισερχόµενους κόµβους, τότε θα δηµιουργηθούν πολλοί περισσότεροι κόµβοι παλινδρόµησης σε σχέση µε το πόσοι είναι οι dangling κόµβοι Ο πίνακας υπερσυνδέσµων µε τουςκόµβους παλινδρόµησης έχει την εξής µορφή µπλοκ: ND ΒΒ ND ΒΒ ND D ND D 23 Μοντελοποίηση του back button (4/6) ΒΗΜΑ 3. Σχηµατίζουµε τατρίαµη-µηδενικά µπλοκ του Ĥ Πρώτα, Ĥ 11 =Η 11 Κατόπιν, υπάρχει συµµετρία στη δοµήτωνĥ 12 και Ĥ 21 που µπορούµε ναεκµεταλλευτούµε: ηλαδή, εάν το στοιχείο (i,j) του Ĥ 12 είναι µη µηδενικό, τότε το στοιχείο (j,i) του Ĥ 21 = 1 Επιπλέον, ενώ το µέγεθος του Ĥ µπορεί να είναι πολύ µεγαλύτερο από το µέγεθος του Η, ο Ĥ έχει nnz(η 12 ) περισσότερα µη µηδενικά στοιχεία από τον Η, και όλα αυτά είναι ο ακέραιος 1 Γιαναυπολογίσουµε το παλινδροµικό διάνυσµα PageRank, απλά εκτελούµε οποιονδήποτε αλγόριθµο PageRank Φυσικά, ο αλγόριθµος θα είναι ελαφρά τροποποιηµένοι, αφού ο Ĥ είναι επίσης στοχαστικός Συνεπώς, η παλινδροµική power µέθοδος θα είναι: 24 8

Μοντελοποίηση του back button (5/6) Tο παλινδροµικό διάνυσµα PageRank για τον Ĥ είναι φυσικά µεγαλύτερο από το τυπικό PageRank διάνυσµα τουh Γιανασυγκρίνουµε ταδυοδιανύσµατα, απλά συγχωνεύουµε τους πολλαπλούς παλινδροµικούς κόµβους που αντιστοιχούν σε έναν dangling κόµβο, σε έναν κόµβο Για το προηγούµενο παράδειγµα, µε α=0.85 και v T =e T /n 25 Μοντελοποίηση του back button (6/6) Tο συγχωνευµένο διάνυσµα PageRank για τον Ĥ είναι το: Το ranking των σελίδων µε βάσητοπ Τ είναι (3 1/2/4/6 5) Το ranking των σελίδων µε βάσητοñ Τ είναι (3 4 6 1/2 5) Φυσικά το παράδειγµα είναι µικρό και έτσι η διαφορά στο ranking κατέστη προφανής 26 Επιταχύνοντας την εκτέλεση του PageRank Προσαρµοζόµενη power method Extrapolation Aggregation Άλλες αριθµητικές µεθόδους 27 9

Επιτάχυνση του PageRank Επαναληπτικές µέθοδοι Σε κάθε επανάληψη, κάποια επεξεργασία Επιτάχυνση του υπολογισµού του PageRank Ελάττωση της εργασίας ανά επανάληψη Ελάττωση του αριθµού των επαναλήψεων Συχνά, αντικρουόµενοι αυτοί οι στόχοι 28 Προσαρµοζόµενη power µέθοδος (1/2) Είδαµε ότι στόχος της power µεθόδου είναι ο υπολογισµός του π Τ, ώστε να ικανοποιείται κάποιο κριτήριο σύγκλισης, π.χ., π (k)τ π (k-1)τ 1 < τ Υποθέτοντας ότι µε κάποιοµαγικό τρόπο γνωρίζαµε το τελικό π Τ, τότε µας ενδιαφέρει να µάθουµε πόσο επαναλήψεις θα κάνει η power µέθοδος µέχρι να συγκλίνει υο προσεγγίσεις Μακροσκοπική µέθοδος: π (k)τ π (k-1)τ 1 < τ Τα επιµέρους σφάλµατα στην τιµή PageRank της κάθε συνιστώσας συγχωνεύονται όλα σε µια ποσότητα Μικροσκοπική µέθοδος: π i (k)τ π i (k-1)τ 1 < τ 29 Προσαρµοζόµενη power µέθοδος (2/2) Παρατηρήθηκε ότι κάποιες ιστοσελίδες συγκλίνουν ταχύτερα στην τιµή τουpagerank από ότι κάποιες άλλες Στην πρώτη κατηγορία ανήκουν οι ιστοσελίδες µε σχετικά µικρή τιµή PageRank Ητυπικήpower µέθοδος δεν µπορεί να εκµεταλλευτεί το γεγονός αυτό, γιατί ενδιαφέρεται για το συγκεντρωτικό σφάλµα Ηπροσαρµοζόµενη power µέθοδος κλειδώνει κάποια από τα στοιχεία του PageRank διανύσµατος, όταν αυτά συγκλίνουν στην τελική τους τιµή, και δεν τα υπολογίζει σε επόµενες επαναλήψεις Εφαρµόζει κριτήριο της µορφής: π i (k)τ π i (k-1)τ 1 < ε=10-3 Επιτυγχάνει όφελος της τάξης του 17% σε υπολογισµούς Πρόβληµα: για nearly uncoupled Markov αλυσίδες, οι τιµές PageRank σταθεροποιούνται αρχικά µέσα στα clusters και κατόπιν ακολουθεί µια περίοδος µεταβολής των τιµών τους µέχρι να συγκλίνουν στην τελική τιµή PageRank 30 10

Extrapolation (1/5) Είδαµε ότι η σύγκλιση, άρα ο αναµενόµενος αριθµός επαναλήψεων, εξαρτάται από το µέγεθος της υπο-κυρίαρχης ιδιοτιµής λ 2 Ηβασικήιδέατηςextrapolation είναι ότι εάνηυποκυρίαρχη ιδιοτιµή προκαλεί έκρηξη στην power µέθοδο, τότε την περικόπτουµε Έστω ότι ο πίνακας Google G είναι διαγωνιοποιήσιµος και έστω ότι 1 > λ 2 > λ 3 >. λ n Τότε η επαναλήψεις της power µεθόδου θα είναι στη µορφή: όπου τα x i και y i είναιτοδεξιόκαιτοαριστερόιδιοδιάνυσµα του G που αντιστοιχούν στο λ i και το γ i =π (0)Τ x i, αντίστοιχα 31 Extrapolation (2/5) ηλαδή, σε κάθε επανάληψη έχουµε τοπ Τ, αλλά κρυµµένο απότολ 2k, µέχρι αυτό να γίνει λ 2k 0 Παρατηρούµε ότι: το οποίο είναι πιο κοντά στην πραγµατική τιµή του PageRank, όταν λ 2 > λ 3 Συνεπώς, εάν αφαιρέσουµε τηνποσότηταλ 2k γ 2 y 2T, µπορούµε να επιταχύνουµε τη σύγκλιση της power µεθόδου Πώς όµως θα υπολογίσουµε τολ 2k γ 2 y 2T ; Έχει δειχτεί ότι ισχύει η παρακάτω προσεγγιστική σχέση: 32 Extrapolation (3/5) Απαιτεί σηµαντικά επιπλέον υπολογισµό και αποθηκευτικό χώρο (διανύσµατα των επόµενων δυο επαναλήψεων) Συνεπώς, προτείνται να εφαρµόζεται περιοδικά, π.χ., ανά 10 επαναλήψεις Αναφέρεται και ως Aitken extrapolation Όµως, εάν τα λ 2 και λ 3 είναι µιγαδικά συζυγή, δηλ, λ 2 = λ 3, τότε η µέθοδος Aitken 2 δεν έχει καλή επίδοση Οι Kamvar, Haveliwala, Golub & Manning ανέπτυξαν την τετραγωνική (quadratic) extrapolation, βασισµένοι στην ίδια περίπου ιδέα Επιτυγχάνει υπολογιστικό όφελος της τάξης του 50% - 300% Καιαυτήείναιδαπανηρήκαιπρέπειναεφαρµόζεται περιοδικά 33 11

Extrapolation (4/5) Κάποια πειραµατικά αποτελέσµατα φαίνονται παρακάτω: 34 Extrapolation (5/5) 35 Aggregation BlockRank (1/3) Στόχος: Ελάττωση του υπολογιστικού κόστους ανά επανάληψη και ελάττωση του αριθµού των επαναλήψεων Απόπειρα: ο αλγόριθµος BlockRank Συγχωνεύει/συσσωρεύει τµήµατα του Web ανά host Ξεκινά από το γράφηµα του Web και φτιάχνει το γράφηµα που αντιστοιχεί σε hosts Οι hosts είναιυψηλούεπιπέδουιστοσελίδες, π.χ., www.uth.gr, κάτω από τις οποίες βρίσκονται πολλές άλλες ιστοσελίδες Είναι σύνηθες οι ιστοσελίδες ενός host να έχουν πυκνή συνδεσµολογία µεταξύ, αλλά αραιή προς ιστοσελίδες άλλων hosts 36 12

Aggregation BlockRank (2/3) Όταν εφαρµόσουµε τονpagerank σε κάθε γράφηµα- host, τότε παράγεται ένα διάνυσµα HostRank, το οποίο περιγράφει τη σχετική σηµαντικότητα κάθε ιστοσελίδας εντός του host στον οποίο ανήκει Παρόλο, που µε τηµορφή αυτή, το πρόβληµα ελαττώθηκε κατά πολύ σε µέγεθος δεν µας έχει δώσει ακόµα το επιθυµητό αποτέλεσµα, δηλ., το τελικό PageRank διάνυσµα των ιστοσελίδων όλου του Web Έτσι, Πρώτα υπολογίζουµε τοδιάνυσµα HostRank, µεγέθους 1 x H Κατόπιν, υπολογίζουµε πολλά µικρά τοπικά (local) PageRank διανύσµατα, µεγέθους 1 x H i Τέλος, γιαναυπολογίσουµε το καθολικό PageRank διάνυσµα, πολλαπλασιάζουµε το τοπικό PageRank διάνυσµα γιατονhost H i µε τηνπιθανότηταναβρισκόµαστε στον host H i, που δίνεται από την i-οστή συντεταγµένη του διανύσµατος HostRank 37 Aggregation BlockRank (3/3) Φυσικά, αυτό είναι µόνο µια προσέγγιση του πραγµατικού διανύσµατος PageRank, αφού σε κάθε βήµα αγνοούµε µερικούς υπερσυνδέσµους Είναι µια µέθοδος aggregation, αφού κάνουµε συµπίεση στους υπερσυνδέσµους Ο BlockRank µπορεί να ελαττώσει το συνολικό υπολογιστικό κόστος σε µερικά γραφήµατα κατά έναν παράγοντα 2 38 BlockRank Παράδειγµα (1/4) Προφανώς, οι κόµβοι 1,2,3 και 7 µπορεί να θεωρηθεί ότι αποτελούν το Host 1 Προφανώς, οι κόµβοι 4,5 και 6 µπορεί να θεωρηθεί ότι αποτελούν το Host 2 Οαλγόριθµος BlockRank συσσωρεύει τους 7 κόµβους σε ένα γράφηµα µε µόνο 2 κόµβους Οπίνακαςµεταβάσεων (transition matrix) για το γράφηµα αυτό είναι o: H 1 H 2 H 1 H 2 39 13

BlockRank Παράδειγµα (2/4) Το HostRank διάνυσµα που αντιστοιχεί στο host γράφηµα, δηλ., το stationary διάνυσµα τουgoogle πίνακα για το host γράφηµα είναι το hπ Τ =(0.3676 0.6324) µε α= 0.9 και v T = (0.5 0.5) Οπίνακαςυπσερσυνδέσµων (αγνοώντας όλους τους inter-host υπερσυνδέσµους, π.χ., 3 4) που αντιστοιχεί στον Host 1 είναι: Το τοπικό (local) PageRank διάνυσµα που αντιστοιχεί στον Host 1, µε α= 0.9 και v T = (0.25 0.25 0.25 0.25) είναι το: l 1 π Τ = (0.1671 0.3175 0.3483 0.1671) 40 BlockRank Παράδειγµα (3/4) Αντίστοιχα, ο πίνακας υπσερσυνδέσµων που αντιστοιχεί στον Host 2 είναι ο: Το τοπικό (local) PageRank διάνυσµα που αντιστοιχεί στον Host 2, µε α= 0.9 και v T = (0.25 0.25 0.25 0.25) είναι το: l 2 π Τ =(1/3 1/3 1/3) Το τελικό βήµα είναιτοβήµα της αποσυσσώρευσης (disaggregation), το οποίο χρησιµοποιεί τα τρία µικρά hπ Τ, l 1 π Τ και l 2 π Τ για να υπολογίσει µια προσεγγιστική τιµή για το τελικό 1x7 διάνυσµα PageRank π Τ 41 BlockRank Παράδειγµα (4/4) Θυµηθείτε το ακριβές διάνυσµα PageRank που υπολογίσαµε µε τηνpower µέθοδο: Οι κλασικές aggregation µέθοδοι αποδίδουν πολύ καλά και ελαττώνουν τον υπολογιστικό χρόνο για nearly uncoupled Markov αλυσίδες Το Web είναι αρκετά uncoupled, οπότε ο αλγόριθµος BlockRank αποδίδει ικανοποιητικά, εάν επιτύχουµε το host aggregation 42 14