Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Σχετικά έγγραφα
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Επιταχύνοντας την εκτέλεση του PageRank

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

Αριθµητική Ανάλυση. Ενότητα 4 Αριθµητικός Υπολογισµός Ιδιοτιµών και Ιδιοδιανυσµάτων. Ν. Μ. Μισυρλής. Τµήµα Πληροφορικής και Τηλεπικοινωνιών,

ΚΕΦΑΛΑΙΟ 3 ΑΡΙΘΜΗΤΙΚΗ ΕΠΙΛΥΣΗ ΓΡΑΜΜΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. nn n n

Επίλυση Γραµµικών Συστηµάτων

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

ΚΕΦΑΛΑΙΟ 4 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΠΡΑΓΜΑΤΙΚΩΝ Ι ΙΟΤΙΜΩΝ. 4.1 Γραµµικοί µετασχηµατισµοί-ιδιοτιµές-ιδιοδιανύσµατα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ευαισθησία του PageRank. Το πρόβληµα PageRank ως. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

ΘΕΜΑΤΑ ΕΞΕΤΑΣΗΣ ΚΑΙ ΑΠΑΝΤΗΣΕΙΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ:

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

!q j. = T ji Kάθε πίνακας µπορεί να γραφεί σαν άθροισµα ενός συµµετρικού και ενός αντι-συµµετρικού πίνακα

Μηχανική ΙI. Μετασχηµατισµοί Legendre. της : (η γραφική της παράσταση δίνεται στο ακόλουθο σχήµα). Εάν

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Η µέθοδος HITS. Η µέθοδος SALSA. Hypertext Induced Topic Search. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Γραµµική Άλγεβρα. Εισαγωγικά. Μέθοδος Απαλοιφής του Gauss

5.1 Ιδιοτιµές και Ιδιοδιανύσµατα

ΜΕΜ251 Αριθμητική Ανάλυση

ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΞΙΣΩΣΕΩΝ

Στοχαστικά Σήµατα και Εφαρµογές

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

2η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 3 (Θεωρία-Αλγόριθµοι-Εφαρµογές)

Αριθμητική Ανάλυση και Εφαρμογές

/ / 38

Άσκηση 1 (α) ============================================================== Έχουµε L = π, εποµένως η σειρά Fourier είναι: 1 2 a. cos. a n. b n.

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων.

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΣΤΗΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ : ΠΛΗ12 «ΜΑΘΗΜΑΤΙΚΑ Ι» Επαναληπτική Τελική Εξέταση 16 Ιουλίου 2003

4 k 2 = 2 ( 1+ 2 k 2. k 2 2 k= k 2. 1.ii) Αν σχηµατίσουµε τον πίνακα µε γραµµές τα δύο διανύσµατα έχουµε: Γ1 Γ1 ---> { }

Σηµειώσεις στις σειρές

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Αριθµητική Ανάλυση. 27 Οκτωβρίου Αριθµητική Ανάλυση 27 Οκτωβρίου / 72

Περίληψη ιπλωµατικής Εργασίας

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Γραµµικη Αλγεβρα ΙΙ Ασκησεις - Φυλλαδιο 10

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων

Απαντήσεις στα Θέµατα Ιουνίου 2012 (3 και 4)

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 9 Επαναληπτικες Ασκησεις

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 2

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12)

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

QR είναι ˆx τότε x ˆx. 10 ρ. Ποιά είναι η τιµή του ρ και γιατί (σύντοµη εξήγηση). P = [X. 0, X,..., X. (n 1), X. n] a(n + 1 : 1 : 1)

P = 0 1/2 1/ /2 1/

7. ΜΗ ΓΡΑΜΜΙΚΑ ΑΝΤΙΣΤΡΟΦΑ ΠΡΟΒΛΗΜΑΤΑ

Παλαιότερες ασκήσεις

3.1 εκαδικό και υαδικό

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Ανάκληση Πληπουοπίαρ. Διδάζκων Δημήηπιορ Καηζαπόρ

Κεφάλαιο 6 Ιδιοτιµές και Ιδιοδιανύσµατα

Γραµµική Αλγεβρα. Ενότητα 1 : Εισαγωγή στη Γραµµική Αλγεβρα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΠΛΗΡΟΦΟΡΙΚΗ ΘΕ: ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΤΗΝ ΠΛΗΡΟΦΟΡΙΚΉ Ι (ΠΛΗ 12) ΛΥΣΕΙΣ ΕΡΓΑΣΙΑΣ 3

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

οµή δικτύου ΣΧΗΜΑ 8.1

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΥΤΙΚΗΣ ΕΛΛΑ ΑΣ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΘΕΑΝΩ ΕΡΙΦΥΛΗ ΜΟΣΧΟΝΑ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

Γραµµική Αλγεβρα. Ενότητα 6 : Ιδιοτιµές & Ιδιοδιανύσµατα. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

4.3. Γραµµικοί ταξινοµητές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

============================================================== Σχηµατίζουµε τον πίνακα µε στήλες τα διανύσµατα v1,v2,v3,u1,u2:

ιδάσκοντες :Τµήµα Α ( Αρτιοι) : Καθηγητής Ν. Μισυρλής,Τµήµα Β (Περιττοί) : Αριθµητική Επίκ.

ροµολόγηση πακέτων σε δίκτυα υπολογιστών

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-317: Εφαρµοσµένες Στοχαστικές ιαδικασίες - Εαρινό Εξάµηνο ιδάσκων : Π.

Όρια συναρτήσεων. ε > υπάρχει ( ) { } = ± ορίζονται αναλόγως. Η διατύπωση αυτών των ορισµών αφήνεται ως άσκηση. x y = +. = και για κάθε (, ) ( 0,0)

Γραµµικη Αλγεβρα Ι Επιλυση Επιλεγµενων Ασκησεων Φυλλαδιου 4

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Ανάλυση Σ.Α.Ε στο χώρο κατάστασης

Μετασχηµατισµοί Laplace, Αναλογικά Συστήµατα, ιαφορικές Εξισώσεις

β) Με τη βοήθεια του αποτελέσµατος της απαλοιφής υπολογίστε την ορίζουσα του πίνακα του συστήµατος. x x = x

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΠΕΡΙΤΤΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 3

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 5

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-317: Εφαρµοσµένες Στοχαστικές ιαδικασίες -Εαρινό Εξάµηνο 2016 ιδάσκων : Π.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 3: Περιγραφή αριθμητικών μεθόδων (συνέχεια)

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

x 2 = x x 2 2. x 2 = u 2 + x 2 3 Χρησιµοποιώντας το συµβολισµό του ανάστροφου, αυτό γράφεται x 2 = x T x. = x T x.

Είδαµε στο προηγούµενο κεφάλαιο ότι, όταν τα δεδοµένα που χρησιµοποιούνται σε ένα υπόδειγµα, δεν προέρχονται από στάσιµες χρονικές σειρές έχουµε το

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Σποραδικές Μήτρες (Sparse Matrices) Αθανάσιος Μυγδαλ ας ΑΠΘ AΠΘ. 17 Μαρτίου 2010 c Α.Μ.

Κεφάλαιο 2. Μέθοδος πεπερασµένων διαφορών προβλήµατα οριακών τιµών µε Σ Ε

Προβλήµατα Μεταφορών (Transportation)

Μεθοδολογίες παρεµβολής σε DTM.

x 2 = b 1 2x 1 + 4x 2 + x 3 = b 2. x 1 + 2x 2 + x 3 = b 3

Transcript:

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 12η: 16/05/2007 1

Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank Επιταχύνοντας την εκτέλεση του PageRank 2

Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank Σύγκλιση Ακρίβεια Dangling κόµβοι Μοντελοποίηση του back button 3

Αρχιτεκτονική Μηχανής Αναζήτησης 4

Σύγκλιση Είδαµε ότι ένας τρόπος εύρεσης του PageRank διανύσµατος είναι µε τηνpower µέθοδο, ηοποίαεφαρµόζεται µέχρι να ικανοποιηθεί κάποιο κριτήριο σύγκλισης Συνήθως, π (k+1)τ π (k)τ 1 < τ Ο Taher Haveliwala ορθά παρατήρησε ότι δεν µας ενδιαφέρουν οι ακριβείς τιµές του διανύσµατος, αλλά η σωστή διάταξη των τιµών στο διάνυσµα αυτό Με ~10 επαναλήψεις µπορούµε ναβρούµετησωστή διάταξη!!! Ερωτήµατα: Πώς µετράµε τη διαφορά µεταξύ δυο rankings; Kendall Tau, rank aggregation, set overlap, Πώς αποφασίζουµε ότιέναranking έχει συγκλίνει ικανοποιητικά; Μπορούµε ναγράψουµε µια power µέθοδο η οποία να επενεργεί στα rankings και όχι στις τιµές του PageRank σε κάθε επανάληψη; 5

Power-law στο Web (1/3) 6

Power-law στο Web (2/3) 7

Power-law στο Web (3/3) 8

Ακρίβεια (1/2) Αφού οι τιµές του διανύσµατος PageRank ακολουθούν powerlaw είναι πιθανό ένα µικρό τµήµα του διανύσµατος να έχει τη µορφή: π Τ =(0.000001532, 0.0000015316, 0.0000015312, 0.0000015210) Συνεπώς απαιτείται ακρίβεια της τάξης του 10-9 για να διακρίνουµε µεταξύ των στοιχείων του διανύσµατος Φυσικά, παρόλο που οι τιµές του διανύσµατος µπορεί να είναι σφιχτά πακεταρισµένες σε µερικά τµήµατά του, τα στοιχεία του διανύσµατος που αφορούν ένα ερώτηµα (δηλ., οι τιµές PageRank των ιστοσελίδων που είναι σχετικές µε τοερώτηµα) είναι πολύ λιγότερο πιθανό να είναι το ίδιο σφιχτά πακεταρισµένες, και συνεπώς δεν απαιτείται ακρίβεια της τάξης 10-12 9

Ακρίβεια (2/2) Αρχικά, οι Page & Brin πρότειναν περίπου 50 επαναλήψεις για να συγκλίνει η power µέθοδος, άρα Οι εκτιµήσεις τους για το π T δεν είναι πολύ ακριβείς, ή Ηυπο-κυρίαρχη (subdominant) ιδιοτιµή του πίνακα επαναλήψεων απέχει αρκετά από την κυρίαρχη ιδιοτιµή λ 1 =1 Την πρώτη εικασία δεν µπορούµε να την ελέγξουµε, γιατί ποτέ δεν δηµοσιοποιήθηκαν αποτελέσµατα σχετικά µετησύγκλιση του Google Η δεύτερη εικασία υπονοεί ότι ο πίνακας τηλεµεταφοράς E=ev T κατέχει σηµαντικό βάρος, και άρα ίσως έχει τεθεί α=0.8 Επιταχύνεται η σύγκλιση Αποµακρυνόµαστε όµως από την ουσία των υπερσυνδέσµων 10

Dangling κόµβοι (1/10) Υπάρχουν διάφορες µορφές dangling κόµβων Σελίδα µε δεδοµένα Αρχείο pdf, ps, jpeg, Ιστοσελίδα που την κατέβασε ο crawler, αλλά ακόµα δεν εξερευνήθηκαν οι εξερχόµενοι υπερσύνδεσµοί της, δηλ., το Web Frontier Οι Page & Brin πρότειναν να αντικατασταθούν οι γραµµές 0 T µετοδιάνυσµα e T /n (ή το πιο γενικό διάνυσµα v T ) Αυτό αυξάνει κατά πολύ τις απαιτήσεις σε αποθηκευτικό χώρο, οπότε ήδη έχουµε δει ότι είναι προτιµότερη η λύση του δυαδικού διανύσµατος dangling κόµβων a Γιαναείµαστε όµως ακριβείς, οι Page & Brin πρότειναν να αποµακρύνουµε τους dangling κόµβους κατά το υπολογισµό του PageRank και να τους προσθέσουµε ξανά, αφού το διάνυσµα PageRank έχει συγκλίνει 11

Dangling κόµβοι (2/10) Αυτό, σε µεγάλο βαθµό, είναι ένα φιλοσοφικό ερώτηµα: Εάν αφήσουµε εκτός τους dangling κόµβους, τότε δεν έχουν καµία πιθανότητα να αποκτήσουµε µεγάλη PageRank, οπότε εκ προοιµίου δεν τους θεωρούµε σηµαντικούς 1. Όµως, µια ιστοσελίδα µε πολλούς εισερχόµενους συνδέσµους από σηµαντικές ιστοσελίδες, αλλά χωρίς εξερχόµενους υπερσυνδέσµους, είναι µια σηµαντική ιστοσελίδα Όντως, ο Kevin McCurley έδειξε ότι (ACM WWW conf. 2004, Ranking the Web frontier ) σε µικρά γραφήµατα, αλλά και σε τεράστια γραφήµατα µερικοί dangling κόµβοι µπορεί να έχουν µεγαλύτερη τιµή PageRank από πολλούς non-dangling κόµβους 2. Επιπλέον, η διαδικασία αφαίρεσης των dangling κόµβων µπορεί να δηµιουργήσει επαναληπτικά νέους και νέους dangling κόµβους και τελικά να µην µείνει κανένας κόµβος στο γράφηµα 1 2 4 1 2 4 1 2 1 3 5 3 12

Dangling κόµβοι (3/10) Μιακαλύτερηλύσηείναιναθεωρήσουµε όλους τους κόµβους ισότιµα απότηναρχή, αλλά να εκµεταλλευτούµε τιςµοναδικές τους ιδιότητες. Το έκαναν οι: Lee, Golub & Zenios (Technical Report SCCM-2003-15) Eiron, McCurley & Tomlin (ACM WWW 2004) Langville & Meyer (SIAM Journal on Scientific Computing, vol. 27, no. 6, 2006) Στη θεµελίωση του PageRank προβλήµατος που έχουµε δώσει έως τώρα, είτε ως πρόβληµα ιδιοδιανύσµατος είτε ως γραµµικό σύστηµα, θεωρήσαµε ισότιµους όλους τους κόµβους, αλλά δεν εκµεταλλευτήκαµε την ιδιοµορφία τους Στην ουσία όλοι οι dangling κόµβοι έχουν την ίδια φύση σχετικά µε τιςγραµµές τους στον πίνακα H (στον S και G) όταν ο random surfer φτάνει σε έναν dangling κόµβο συµπεριφέρεται το ίδιο: τηλεµεταφέρεται σε έναν άλλο κόµβο (είτε οµοιόµορφα e T /n, είτε µε βάσητοδιάνυσµα προσωποποίησης v T ) 13

Dangling κόµβοι (4/10) Συνεπώς, γιατί να µην συµπτύξουµε όλους τους danling κόµβους σε έναν; Αυτό έχει ως συνέπεια την ελάττωση του µεγέθους του προβλήµατος, ειδικά εάν το ποσοστό των danling κόµβων είναι µεγάλο Όµως, η επίλυση του µικρότερου ( ND +1) x ( ND +1) προβλήµατος δηµιουργεί δυο νέα: Έχουµε στη διάθεσή µας µόνο τις τιµές PageRank των non-danling κόµβων καθώς και του κόµβους που προέκυψε από την σύµπτυξη των dangling κόµβων, αλλά όχι τις τιµές PageRank των επιµέρους dangling κόµβων Αυτό το µικρότερο σύνολο των rankings είναι πολωµένο Ηαπάντησησταδυοερωτήµατα αυτά δίνεται από τις τεχνικές της aggregation και της stochastic complementation 14

Dangling κόµβοι (5/10) Εδώ όµως θα δώσουµε µια απλούστερη εξήγηση χωρίς πολλούς µαθηµατικούς όρους Έστω ότι αναδιατάσσουµε τις γραµµές του πίνακα H οι οποίες αντιστοιχούν στους dangling κόµβους, ώστε να εµφανίζονται στο κάτω µέρος του πίνακα ND D ND D όπου ND είναι το σύνολο των non-dangling κόµβων και D είναι το σύνολο των dangling κόµβων Ο πίνακας συντελεστών (π Τ (I-αH)=v T ), στη διατύπωση ως αραιό γραµµικό σύστηµα, γίνεται πλέον και ο αντίστροφος αυτού: 15

Dangling κόµβοι (6/10) Εποµένως, το µη-κανονικοποιηµένο διάνυσµα PageRank x Τ = v T (I-αH) -1 µπορεί να γραφεί ως x Τ = (v 1T (I-αH 11 ) -1 αv 1T (I-αH 11 ) -1 H 12 +v 2T ) όπου το διάνυσµα προσωποποίησης v T έχει διαµεριστεί στο τµήµα v 1T για τους non-dangling κόµβους και στο τµήµα v 2T για τους dangling κόµβους Ο αλγόριθµος που υπολογίζει το διάνυσµα PageRank κάνοντας χρήση µόνο το non-dangling τµήµα τουweb δίνεται παρακάτω: Αλγόριθµος-1 PageRank µε dangling κόµβους Επίλυση ως προς x 1T του: Υπολογισµός του: Κανονικοποίηση: 16

Dangling κόµβοι (7/10) Ο αλγόριθµος αυτός είναι ισοδύναµος µε τον αντίστοιχο που πρότειναν οι Lee, Golub & Zenios, οοποίοςµπορεί να ελαττώσει τον υπολογισµό κατά 1/5 σε ένα γράφηµα µε 80% dangling κόµβους Μπορούµε να επιτύχουµε κάτι καλύτερο; ηλ., µπορούµε ναβρούµε µηδενικές γραµµές 0 T σε υποπίνακες του H; Όντως, µπορούµε ναεφαρµόζουµε αναδροµικά τη διαδικασία αναδιάταξης γραµµών/στηλών του H, ώστε να οδηγηθούµε σε υποπίνακες που δεν περιέχουν καθόλου µηδενικές γραµµές 17

Dangling κόµβοι (8/10) Για παράδειγµα, ένας πίνακας H µε 9664 γραµµές, που περιέχει συνολικά 16773 µη µηδενικά στοιχεία, µπορεί να αναδιαταχτεί αναδροµικά µε την προηγούµενη διαδικασία 18

Dangling κόµβοι (9/10) Γενικά, µετά από αυτή τη συµµετρική αναδιάταξη, ο πίνακας συντελεστών του γραµµικού συστήµατος του PageRank έχει την εξής δοµή: όπου b είναι ο αριθµός των τετραγωνικών διαγωνίων µπλοκ στον αναδιαταγµένο πίνακα Εποµένως το αναδιατεταγµένο σύστηµα µπορεί να λυθεί µε forward substitution Το µόνο σύστηµα που πρέπει να λυθεί άµεσα είναι το πρώτο υποσύστηµα όπου τα π Τ και v T έχουν διαµεριστεί κατάλληλα Τα υπόλοιπα υποδιανύσµατα του x T υπολογίζονται γρήγορα µε forward substitution 19

Dangling κόµβοι (10/10) Αλγόριθµος-2 PageRank µε dangling κόµβους ΑναδιατάσσουµετονH, ώστε να επιτύχουµετηδοµή πουδείξαµε Επίλυση ως προς x 1T του: Για i=2 µέχρι b, υπολογισµός του: Κανονικοποίηση: Στο παράδειγµα µε τον αραιό πίνακα που δείξαµε, λύνουµε τελικά ένα σύστηµα 2622 x 2622 αντί για το αρχικό 9664 x 9664 Το µικρό υποσύστηµα x 1T (I-αH 11 )=v 1T µπορεί να λυθεί µε µια ευθεία µέθοδο (εάν είναι αρκετά µικρό) ή µε µια επαναληπτική µέθοδο (π.χ., Jacobi) 20

Μοντελοποίηση του back button (1/6) Το αρχικό µοντέλο του PageRank δεν λάµβανε υπόψη το back button Η εισαγωγή του περιπλέκει την κατάσταση Άλλωστε, ηθεµελιώδης ιδιότητα της συγκεκριµένη Markov αλυσίδας είναι ότι δεν έχει µνήµη (memoryless property) Αρκετοί προσπάθησαν να λάβουν υπόψη τους το back button Υπάρχουν διάφοροι τρόποι να µοντελοποιήσουµε το back button Μιαπάραπολύαπλήµεθοδολογία είναι η εξής: όταν φτάσουµε σεένανdangling κόµβο χρησιµοποιούµε τοbackbutton γιαναεπιστρέψουµε στησελίδααπ όπουήρθαµε 21

Μοντελοποίηση του back button (2/6) Αυτή η προσέγγιση όµως µοντελοποιεί το back-button µόνο για τους dangling κόµβους Επίσης, δυστυχώς µας οδηγεί στο να προσθέσουµε έναν νέο κόµβο για κάθε εισερχόµενο υπερσύνδεσµο ενόςdangling κόµβου Ευτυχώς, ο πίνακας που προκύπτει Ĥ έχει όµορφη δοµή 1 2 1 2 3 3 5 3 4 5 4 6 3 6 6 4 22

Μοντελοποίηση του back button (3/6) Ο Ĥ είναι row-stochastic Πρέπει όµως να εφαρµοστεί µια διόρθωση ώστε να γίνει irreducible Συγκεντρωτικά, τα βήµατα για την κατασκευή του Ĥ είναι τα παρακάτω: ΒΗΜΑ 1. Αναδιατάσσουµε τονh, ώστε να έχουµε: ΒΗΜΑ 2. Για κάθε εισερχόµενο σύνδεσµο ενόςdangling κόµβου, δηµιουργούµε έναν κόµβο παλινδρόµησης (bounce-back node). Συνολικά θα υπάρχουν nnz(h 12 ) τέτοιοι κόµβοι, αντί για τους αρχικούς D dangling κόµβους Εάν κάθε dangling κόµβος έχει περισσότερους από έναν εισερχόµενους κόµβους, τότε θα δηµιουργηθούν πολλοί περισσότεροι κόµβοι παλινδρόµησης σε σχέση µετοπόσοι είναι οι dangling κόµβοι Ο πίνακας υπερσυνδέσµων µε τουςκόµβους παλινδρόµησης έχει την εξής µορφή µπλοκ: ND ΒΒ ND ΒΒ ND D ND D 23

Μοντελοποίηση του back button (4/6) ΒΗΜΑ 3. Σχηµατίζουµε τα τρία µη-µηδενικά µπλοκ του Ĥ Πρώτα, Ĥ 11 =Η 11 Κατόπιν, υπάρχει συµµετρία στη δοµή τωνĥ 12 και Ĥ 21 που µπορούµε ναεκµεταλλευτούµε: ηλαδή, εάν το στοιχείο (i,j) του Ĥ 12 είναι µη µηδενικό, τότε το στοιχείο (j,i) του Ĥ 21 = 1 Επιπλέον, ενώ το µέγεθος του Ĥ µπορεί να είναι πολύ µεγαλύτερο από το µέγεθος του Η, ο Ĥ έχει nnz(η 12 ) περισσότερα µη µηδενικά στοιχεία από τον Η, και όλα αυτά είναι ο ακέραιος 1 Για να υπολογίσουµε το παλινδροµικό διάνυσµα PageRank, απλά εκτελούµε οποιονδήποτε αλγόριθµο PageRank Φυσικά, ο αλγόριθµος θα είναι ελαφρά τροποποιηµένοι, αφού ο Ĥ είναι επίσης στοχαστικός Συνεπώς, η παλινδροµική power µέθοδος θα είναι: 24

Μοντελοποίηση του back button (5/6) Tο παλινδροµικό διάνυσµα PageRank για τον Ĥ είναι φυσικά µεγαλύτερο από το τυπικό PageRank διάνυσµα τουh Γιανασυγκρίνουµε τα δυο διανύσµατα, απλά συγχωνεύουµε τους πολλαπλούς παλινδροµικούς κόµβους που αντιστοιχούν σε έναν dangling κόµβο, σε έναν κόµβο Για το προηγούµενο παράδειγµα, µε α=0.85 και v T =e T /n 25

Μοντελοποίηση του back button (6/6) Tο συγχωνευµένο διάνυσµα PageRank για τον Ĥ είναι το: Το ranking των σελίδων µε βάσητοπ Τ είναι (3 1/2/4/6 5) Το ranking των σελίδων µε βάσητοñ Τ είναι (3 4 6 1/2 5) Φυσικά το παράδειγµα είναιµικρό και έτσι η διαφορά στο ranking κατέστη προφανής 26

Επιταχύνοντας την εκτέλεση του PageRank Προσαρµοζόµενη power method Extrapolation Aggregation Άλλες αριθµητικές µεθόδους 27

Επιτάχυνση του PageRank Επαναληπτικές µέθοδοι Σε κάθε επανάληψη, κάποια επεξεργασία Επιτάχυνση του υπολογισµού του PageRank Ελάττωση της εργασίας ανά επανάληψη Ελάττωση του αριθµού των επαναλήψεων Συχνά, αντικρουόµενοιαυτοίοιστόχοι 28

Προσαρµοζόµενη power µέθοδος (1/2) Είδαµε ότι στόχος της power µεθόδου είναι ο υπολογισµός του π Τ, ώστε να ικανοποιείται κάποιο κριτήριο σύγκλισης, π.χ., π (k)τ π (k-1)τ 1 < τ Υποθέτοντας ότι µε κάποιο µαγικό τρόπο γνωρίζαµε το τελικό π Τ, τότε µας ενδιαφέρει να µάθουµε πόσο επαναλήψεις θα κάνει η power µέθοδος µέχρι να συγκλίνει υο προσεγγίσεις Μακροσκοπική µέθοδος: π (k)τ π (k-1)τ 1 < τ Τα επιµέρους σφάλµατα στην τιµή PageRank της κάθε συνιστώσας συγχωνεύονται όλα σε µια ποσότητα Μικροσκοπική µέθοδος: π i (k)τ π i (k-1)τ 1 < τ 29

Προσαρµοζόµενη power µέθοδος (2/2) Παρατηρήθηκε ότι κάποιες ιστοσελίδες συγκλίνουν ταχύτερα στην τιµή τουpagerank από ότι κάποιες άλλες Στην πρώτη κατηγορία ανήκουν οι ιστοσελίδες µε σχετικάµικρή τιµή PageRank Ητυπικήpower µέθοδος δεν µπορεί να εκµεταλλευτεί το γεγονός αυτό, γιατί ενδιαφέρεται για το συγκεντρωτικό σφάλµα Ηπροσαρµοζόµενη power µέθοδος κλειδώνει κάποια από τα στοιχεία του PageRank διανύσµατος, όταν αυτά συγκλίνουν στην τελική τους τιµή, και δεν τα υπολογίζει σε επόµενες επαναλήψεις Εφαρµόζει κριτήριο της µορφής: π i (k)τ π i (k-1)τ 1 < ε=10-3 Επιτυγχάνει όφελος της τάξης του 17% σε υπολογισµούς Πρόβληµα: για nearly uncoupled Markov αλυσίδες, οι τιµές PageRank σταθεροποιούνται αρχικά µέσα στα clusters και κατόπιν ακολουθεί µια περίοδος µεταβολής των τιµών τους µέχρι να συγκλίνουν στην τελική τιµή PageRank 30

Extrapolation (1/5) Είδαµε ότιησύγκλιση, άρα ο αναµενόµενος αριθµός επαναλήψεων, εξαρτάται από το µέγεθος της υπο-κυρίαρχης ιδιοτιµής λ 2 Ηβασικήιδέατηςextrapolation είναι ότι εάν η υποκυρίαρχη ιδιοτιµή προκαλεί έκρηξη στην power µέθοδο, τότε την περικόπτουµε Έστω ότι ο πίνακας Google G είναι διαγωνιοποιήσιµος και έστω ότι 1 > λ 2 > λ 3 >. λ n Τότε η επαναλήψεις της power µεθόδου θα είναι στη µορφή: όπου τα x i και y i είναι το δεξιό και το αριστερό ιδιοδιάνυσµα του G που αντιστοιχούν στο λ i και το γ i =π (0)Τ x i, αντίστοιχα 31

Extrapolation (2/5) ηλαδή, σε κάθε επανάληψη έχουµε τοπ Τ, αλλά κρυµµένο απότολ 2k, µέχρι αυτό να γίνει λ 2k 0 Παρατηρούµε ότι: το οποίο είναι πιο κοντά στην πραγµατική τιµή του PageRank, όταν λ 2 > λ 3 Συνεπώς, εάν αφαιρέσουµε τηνποσότηταλ 2k γ 2 y 2T, µπορούµε να επιταχύνουµε τησύγκλισητηςpower µεθόδου Πώς όµως θα υπολογίσουµε τολ 2k γ 2 y 2T ; Έχει δειχτεί ότι ισχύει η παρακάτω προσεγγιστική σχέση: 32

Extrapolation (3/5) Απαιτεί σηµαντικά επιπλέον υπολογισµό και αποθηκευτικό χώρο (διανύσµατα των επόµενων δυο επαναλήψεων) Συνεπώς, προτείνται να εφαρµόζεται περιοδικά, π.χ., ανά 10 επαναλήψεις Αναφέρεται και ως Aitken extrapolation Όµως, εάν τα λ 2 και λ 3 είναι µιγαδικά συζυγή, δηλ, λ 2 = λ 3, τότε η µέθοδος Aitken 2 δεν έχει καλή επίδοση Οι Kamvar, Haveliwala, Golub & Manning ανέπτυξαν την τετραγωνική (quadratic) extrapolation, βασισµένοι στην ίδια περίπου ιδέα Επιτυγχάνει υπολογιστικό όφελος της τάξης του 50% - 300% Και αυτή είναι δαπανηρή και πρέπει να εφαρµόζεται περιοδικά 33

Extrapolation (4/5) Κάποια πειραµατικά αποτελέσµατα φαίνονται παρακάτω: 34

Extrapolation (5/5) 35

Aggregation BlockRank (1/3) Στόχος: Ελάττωση του υπολογιστικού κόστους ανά επανάληψη και ελάττωση του αριθµού των επαναλήψεων Απόπειρα: ο αλγόριθµος BlockRank Συγχωνεύει/συσσωρεύει τµήµατα του Web ανά host Ξεκινά από το γράφηµα τουweb και φτιάχνει το γράφηµα που αντιστοιχεί σε hosts Οι hosts είναι υψηλού επιπέδου ιστοσελίδες, π.χ., www.uth.gr, κάτω από τις οποίες βρίσκονται πολλές άλλες ιστοσελίδες Είναι σύνηθες οι ιστοσελίδες ενός host να έχουν πυκνή συνδεσµολογία µεταξύ, αλλά αραιή προς ιστοσελίδες άλλων hosts 36

Aggregation BlockRank (2/3) Όταν εφαρµόσουµε τονpagerank σε κάθε γράφηµα- host, τότε παράγεται ένα διάνυσµα HostRank, το οποίο περιγράφει τη σχετική σηµαντικότητα κάθε ιστοσελίδας εντός του host στον οποίο ανήκει Παρόλο, που µε τηµορφή αυτή, το πρόβληµα ελαττώθηκε κατά πολύ σε µέγεθος δεν µας έχει δώσει ακόµα το επιθυµητό αποτέλεσµα, δηλ., το τελικό PageRank διάνυσµα των ιστοσελίδων όλου του Web Έτσι, Πρώτα υπολογίζουµε τοδιάνυσµα HostRank, µεγέθους 1 x H Κατόπιν, υπολογίζουµε πολλά µικρά τοπικά (local) PageRank διανύσµατα, µεγέθους 1 x H i Τέλος, γιαναυπολογίσουµε τοκαθολικόpagerank διάνυσµα, πολλαπλασιάζουµε τοτοπικόpagerank διάνυσµα γιατονhost H i µε την πιθανότητα να βρισκόµαστε στον host H i, που δίνεται από την i-οστή συντεταγµένη του διανύσµατος HostRank 37

Aggregation BlockRank (3/3) Φυσικά, αυτό είναι µόνο µια προσέγγιση του πραγµατικού διανύσµατος PageRank, αφού σε κάθε βήµα αγνοούµε µερικούς υπερσυνδέσµους Είναι µια µέθοδος aggregation, αφού κάνουµε συµπίεση στους υπερσυνδέσµους Ο BlockRank µπορεί να ελαττώσει το συνολικό υπολογιστικό κόστος σε µερικά γραφήµατα κατά έναν παράγοντα 2 38

BlockRank Παράδειγµα (1/4) Προφανώς, οι κόµβοι 1,2,3 και 7 µπορεί να θεωρηθεί ότι αποτελούν το Host 1 Προφανώς, οι κόµβοι 4,5 και 6 µπορεί να θεωρηθεί ότι αποτελούν το Host 2 Ο αλγόριθµος BlockRank συσσωρεύει τους 7 κόµβους σε ένα γράφηµα µε µόνο 2 κόµβους Ο πίνακας µεταβάσεων (transition matrix) για το γράφηµα αυτόείναιo: H 1 H 2 H 1 H 2 39

BlockRank Παράδειγµα (2/4) Το HostRank διάνυσµα που αντιστοιχεί στο host γράφηµα, δηλ., το stationary διάνυσµα τουgoogle πίνακα για το host γράφηµα είναι το hπ Τ =(0.3676 0.6324) µε α= 0.9 και v T = (0.5 0.5) Ο πίνακας υπσερσυνδέσµων (αγνοώντας όλους τους inter-host υπερσυνδέσµους, π.χ., 3 4) που αντιστοιχεί στον Host 1 είναι: Το τοπικό (local) PageRank διάνυσµα που αντιστοιχεί στον Host 1, µε α= 0.9 και v T = (0.25 0.25 0.25 0.25) είναι το: l 1 π Τ = (0.1671 0.3175 0.3483 0.1671) 40

BlockRank Παράδειγµα (3/4) Αντίστοιχα, ο πίνακας υπσερσυνδέσµων που αντιστοιχεί στον Host 2 είναι ο: Το τοπικό (local) PageRank διάνυσµα που αντιστοιχεί στον Host 2, µε α= 0.9 και v T = (0.25 0.25 0.25 0.25) είναι το: l 2 π Τ =(1/3 1/3 1/3) Το τελικό βήµα είναιτοβήµα της αποσυσσώρευσης (disaggregation), το οποίο χρησιµοποιεί τα τρία µικρά hπ Τ, l 1 π Τ και l 2 π Τ γιαναυπολογίσειµια προσεγγιστική τιµή για το τελικό 1x7 διάνυσµα PageRank π Τ 41

BlockRank Παράδειγµα (4/4) Θυµηθείτε το ακριβές διάνυσµα PageRank που υπολογίσαµε µε τηνpower µέθοδο: Οι κλασικές aggregation µέθοδοι αποδίδουν πολύ καλά και ελαττώνουν τον υπολογιστικό χρόνο για nearly uncoupled Markov αλυσίδες Το Web είναι αρκετά uncoupled, οπότε ο αλγόριθµος BlockRank αποδίδει ικανοποιητικά, εάν επιτύχουµε τοhost aggregation 42