Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 9η: 25/04/2007 1

Τα µαθηµατικά του PageRank Παράµετροι του µοντέλου PageRank 2

Τα µαθηµατικά του PageRank 3

Η αρχική εξίσωση αθροίσµατος Το PageRank µιας σελίδας είναι το άθροισµα του PageRank των σελίδων που δείχνουν σ αυτή: Το πρόβληµα µε τη εξίσωση αυτή είναι ότι δεν ξέρουµε το PageRank τωνσελίδωνπου δείχνουν στη P i Το πρόβληµα επιλύθηκε µε επαναληπτική διαδικασία Αρχικά κάθε σελίδα έχει το ίδιο PageRank, ίσο µε 1/n Ακολουθούµε την παραπάνω εξίσωση επαναληπτικά 4

Η επαναληπτική διαδικασία (1/2) Έστω ότι r k+1 (P i ) είναι το PageRank της σελίδας P i στην επανάληψη k+1: Η διαδικασία ξεκινά µε r 0 (P i )=1/n για κάθε σελίδα Συνεχίζεται µε την ελπίδα ότι τελικά θα συγκλίνει 5

Η επαναληπτική διαδικασία (2/2) Εφαρµόζοντας την επαναληπτική διαδικασία στο µικρό γράφηµα αριστερά, µετά από µερικές επαναλήψεις έχουµε τον πίνακα δεξιά: 6

Αναπαράσταση της επανάληψης µε πίνακα Ηπροηγούµενες εξισώσεις υπολογίζουν το PageRank των σελίδων µια σελίδα κάθε φορά Με χρήση πινάκων αντικαθιστούµε τοσύµβολο Σ Εισαγάγουµε τον πίνακα H, και το 1x n διάνυσµα π Τ Ο H είναι ένας row-normalized πίνακας υπερσυνδέσεων µε H ij =1/ P i, εάν υπάρχει σύνδεσµος από τον κόµβο i στον j, αλλιώς H ij =0 Παρόλο που ο H έχει την ίδια µη-µηδενική δοµή µε τον δυαδικό πίνακα γειτνιάσεων, τα µη µηδενικά στοιχεία του H είναι πιθανότητες 7

Παράδειγµα αναπαράστασηςµε πίνακα Τα µη-µηδενικά στοιχεία της γραµµής i αναπαριστούν τους εξερχόµενους συνδέσµους της σελίδας i Τα µη-µηδενικά στοιχεία της στήλης i αναπαριστούν τους εισερχόµενους συνδέσµους στη σελίδα i Ηπροηγούµενη εξίσωση γίνεται τώρα: 8

Επίδοση της αναπαράστασης µε πίνακα 1. Κάθε επανάληψη της προηγούµενης εξίσωσης απαιτεί έναν πολλαπλασιασµό, άρα O(n 2 ) πολυπλοκότητα 2. Ο H είναι γενικά πολύ αραιός (sparse), άρα Απαιτεί µικρό αποθηκευτικό χώρο Οπολλαπλασιασµός είναι πιο οικονοµικός σε σχέση µε τοo(n 2 ) Απαιτεί µόνο O(nnz(H)), όπου nnz(h) είναι ο αριθµός των µη- µηδενικών Μετρήσεις δείχνουν ότι το nnz(h) ~ 10n Άρα υπολογιστικό κόστος της τάξης O(n) 3. Η επαναληπτική διαδικασία είναι απλά µια linear stationary process: είναι η κλασική power method πάνω στον H 4. O H µοιάζει µε στοχαστικό πίνακα πιθανοτήτων µετάβασης, όµως είναι substochastic, γιατί υπάρχουν dangling nodes, δηλ., χωρίς εξερχόµενους συνδέσµους 9

Προβλήµατα της επαναληπτικής διαδικασίας Θα συγκλίνει; Κάτω από ποιες προϋποθέσεις ή ιδιότητες του H θα συγκλίνει; Θα συγκλίνει σε κάτι που έχει µαθηµατικό νόηµα; Θα συγκλίνει σε ένα ή περισσότερα διανύσµατα; Η σύγκλιση εξαρτάται από το αρχικό διάνυσµα π (0)Τ ; Πόσογρήγοραθασυγκλίνει; 10

Προβλήµατα της επαναληπτικής διαδικασίας Αρχικά, η επαναληπτική διαδικασία ξεκίνησε µε π (0)Τ =1/ne Τ (όπου e Τ είναι διάνυσµα-γραµµή µε όλα1) Προέκυψε το πρόβληµα τηςκαταβόθρας (rank sinks) σελίδες που αυξάνουν συνεχώς το PageRank τους Στο παρακάτω παράδειγµα τοκόµβος 3, ενώ στο προηγούµενο παράδειγµα ηοµάδα των κόµβων 4, 5, και 6 Μετά από 13 επαναλήψεις, π (13)Τ =(0 0 0 2/3 1/3 1/5) 11

Προβλήµατα της επαναληπτικής διαδικασίας Επίσης, καθώς οι κόµβοι αυξάνουν συνεχώς το PageRank τους, µερικοί δεν έχουν καθόλου Τότε, ποιο είναι το νόηµα της ταξινόµησης µε βάσητο PageRank, όταν η πλειονότητα έχει PageRank ίσο µε 0; Υπάρχει το πρόβληµα τωνκύκλων Εάν, ξεκινήσουµε µε π (0)Τ =(1 0), καταλήγουµε σε ατέρµονη διαδικασία Στο διάνυσµα π (k)τ =(1 0) για άρτιο k Στο διάνυσµα π (k)τ =(0 1) για περιττό k 12

Υπενθύµιση εννοιών Markov chains Με οποιοδήποτε διάνυσµα ξεκινήσουµε, όταν εφαρµοστεί η power method σε έναν Markov πίνακα P, συγκλίνει σε ένα µοναδικό θετικό διάνυσµα, το οποίο αποκαλείται stationary vector Προϋποθέσεις σύγκλισης O P είναι stochastic: οι γραµµές αθροίζουν στο 1 O P είναι irreducible: το υποκείµενο γράφηµα είναι strongly-connected O P είναι aperiodic: για οποιεσδήποτε σελίδες P i και P j υπάρχουν µονοπάτια από την P i στην P j (µε οποιεσδήποτε επαναλήψεις) οποιουδήποτε µήκους, εκτός από ένα πεπερασµένο σύνολο µηκών Irreducible + aperiodic = primitive (πρωτογενής) Τα προβλήµατα σύγκλισης του PageRank θα ξεπεραστούν εάν ο H τροποποιηθεί, ώστε να ικανοποιεί τις παραπάνω προϋποθέσεις 13

Πρώιµες προσαρµογές στο βασικό µοντέλο Οι Sergey Brin και Lawrence Page δεν χρησιµοποίησαν την έννοια της Markov chain, αλλά την έννοια του random surfer Μετά από άπειρο χρόνο ταξιδιού, το ποσοστό του χρόνου που ο random surfer περνά σε µια σελίδα είναι ένα µέτρο της σηµαντικότητας της σελίδας υστυχώς, υπάρχουν παγίδες για τον random surfer pdf image data tables 14

Προσαρµογή στοχαστικότητας (1/2) Οι γραµµές 0 T του Η αντικαθίστανται µε 1/ne T Άρα ο random surfer, όταν συναντήσει έναν dangling node µπορεί από κει να µεταβεί σε οποιαδήποτε άλλη σελίδα Τον στοχαστικό πίνακα που προέκυψε από τον H τον συµβολίζουµε µε S Για το γράφηµα µε τους 6 κόµβους είναι ο παρακάτω: 15

Προσαρµογή στοχαστικότητας (2/2) Ο S παράγεται από µια rank-one update του H S = Η + a(1/ne T ) a i = 1 εάν η σελίδα i είναι dangling node a i = 0 εάν η σελίδα i δεν είναι dangling node O S είναι συνδυασµός του αρχικού Η µε τονrank-one πίνακα a(1/ne T ) Ηπροσαρµογή αυτή εγγυάται ότι ο S είναι πίνακας µιας Markov chain εν εγγυάται όµως τη σύγκλιση 16

Προσαρµογή πρωτογένειας (1/2) Ο random surfer δεν ακολουθεί πάντα υπερσυνδέσµους Εγκαταλείπει την πλοήγηση και µεταβαίνει σε ένα τυχαίο URL Τηλεµεταφέρεται (teleportation step) και ξεκινά ξανά την πλοήγηση Προκύπτει ο πίνακας G, Google matrix G = αs + (1-α)1/nee T α (ελληνικό άλφα) έχει τιµή µεταξύ 0 και 1, και ελέγχει το ποσοστό του χρόνου που random surfer ακολουθεί υπερσυνδέσµους ή τηλεµεταφέρεται Η τελεµεταφορά είναι τυχαία, γιατί ο πίνακας τηλεµεταφοράς E=1/nee T είναι οµοιόµορφος 17

Συνέπειες της προσαρµογής πρωτογένειας Ο G είναι stochastic: κυρτός συνδυασµός δυο στοχαστικών πινάκων S και E Ο G είναι irreducible: κάθε σελίδα συνδέεται άµεσα µε κάθεάλλη Ο G είναι aperiodic: οι βρόχοι (G ii > 0 για κάθε i) δηµιουργούν aperiodicity Ο G είναι primitive: επειδή G k > 0 για κάποιο k (για k=1) Υπάρχει ένα µοναδικό π Τ και όταν εφαρµόσουµε τηνpower method στον G, θα συγκλίνει σ αυτό 18

Συνέπειες της προσαρµογής πρωτογένειας Ο G είναι πολύ πυκνός, ευτυχώς µπορεί να γραφεί ως rank-one update του πολύ αραιού πίνακα υπερσυνδέσµων H Ο G είναι τεχνητός Το stationary vector δεν υπάρχει για τον H Αλλά υπάρχει για τον G 19

Σύµβολα H: πολύ αραιός, substochastic πίνακας υπερσυνδέσµων S: αραιός, στοχαστικός, πιθανώς reducible πίνακας G: τελείως πυκνός, στοχαστικός, πρωτογενής πίνακας E: τελείως πυκνός, rank-one πίνακας τηλεµεταφοράς n: αριθµός σελίδων στη µηχανή της Google α: παράµετρος µεταξύ 0 και 1 π Τ : stationary row vector, PageRank διάνυσµα a Τ : δυαδικό διάνυσµα dangling nodes 20

Η µέθοδος του PageRank που είναι απλά η power method εφαρµοζόµενη στον G 21

Το παράδειγµα γραφήµατος µε 6 κόµβους 22

Υπολογισµός του διανύσµατος PageRank Το πρόβληµα µπορεί να περιγραφεί µε δυο τρόπους Επίλυση του παρακάτω προβλήµατος ιδιοδιανυσµάτων του π Τ Επίλυση του γραµµικού οµογενούς συστήµατος για το π Τ 23

Υπολογισµός του διανύσµατος PageRank Στο πρώτο σύστηµα, ο στόχος είναι να βρεθεί το κανονικοποιηµένο κυρίαρχο αριστερό ιδοδιάνυσµα που αντιστοιχεί στην κυρίαρχη ιδιοτιµή λ 1 =1 Στο δεύτερο σύστηµα ο στόχος είναι να βρεθεί το κανονικοποιηµένο αριστερό null vector του (I-G) Η εξίσωση κανονικοποίσης υπάρχει για να εγγυηθεί ότι το π Τ είναι διάνυσµα πιθανοτήτων 24

Power method υπολογισµού του PageRank Είναι η παλιότερη και απλούστερη µέθοδος εύρεσης της κυρίαρχης (dominant) ιδιοτιµής και ιδιοδιανύσµατος ενός πίνακα Άρα µπορεί να χρησιµοποιηθεί για εύρεση του stationary vector µιας Markov chain To stationary vector είναι απλά το κυρίαρχο αριστερό ιδιοδιάνυσµα Είναι εξαιρετικά αργή µέθοδος, µεταξύ των Gauss- Seidel, Jacobi, restarted GMRES Γιατί χρησιµοποιήθηκε; 25

Power method υπολογισµού του PageRank Είναι προγραµµατιστικά απλή Εφαρµοζόµενη στον G µπορεί να γραφεί ως εφαρµογή στον πολύ αραιό H Εκτελείται πάνω στον Η και όχι πάνω στους S ή G Αποθηκεύονται µόνο οι a, e 26

Power method υπολογισµού του PageRank Οι άλλες µέθοδοι αναγκάζονται να προσπελάσουν τα στοιχεία του πίνακα, ενώ η power method µόνο διαµέσου του πολλαπλασιασµού διανύσµατος-πίνακα Εκτός από την αποθήκευση του H και a απαιτεί µόνο την αποθήκευση του π Τ και όχι πολλαπλά διανύσµατα όπως οι άλλες µέθοδοι Απαιτεί πολύ λίγες επαναλήψεις για να επιτευχθεί η σύγκλιση 50-100 Το ερώτηµα που προκύπτει είναι από ποιο/ποιους παράγοντες εξαρτάται/καθορίζεται η σύγκλιση 27

Ρυθµός σύγκλισης (1/2) Οασυµπτωτικός ρυθµός σύγκλισης της power method όταν εφαρµόζεται σε κάποιο Markov πίνακα εξαρτάται από το κλάσµα των δυο ιδιοτιµών που έχουν το µεγαλύτερο µέγεθος, λ 1, λ 2 Για τους στοχαστικούς πίνακες, όπως ο G, ισχύει ότι λ 1 =1 Άρα η σύγκλιση εξαρτάται από την τιµή του λ 2 Επειδή ο G είναι πρωτογενής, ισχύει ότι λ 2 <1 Η εύρεση του είναι χρονοβόρα, οπότε δεν είναι φρόνιµο να σπαταλήσουµε πόρους για να έχουµε µια εκτίµηση του ρυθµού σύγκλισης 28

Ρυθµός σύγκλισης (2/2) Στις επόµενες διαφάνειες θα δείξουµε ότι εάν οι ιδιοτιµές του S είναι σ(s)={1,µ 2,µ 3,µ n } και του G είναι σ(g)={1,λ 2,λ 3,λ n }, τότε λ k = αµ k k=2,3, n Ηδοµή του Παγκοσµίου Ιστού είναι τέτοια που καθιστά πολύ πιθανό να ισχύει ότι µ 2 =1 (ή µ 2 1) Άρα λ 2 (G)=α (ή λ 2 (G) α) Με α=.85, σηµαίνει ότι µετά από 50 επαναλήψεις α 50 =.85 50.000296, δηλ., 2-3 θέσεις ακρίβειας που είναι αρκετά ικανοποιητικές όταν το ranking συνδυάζεται µε το περιεχόµενο 29

Παράµετροι του µοντέλου PageRank 30

Ηπαράµετρος α (1/2) Ηπαράµετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δοµή των υπερσυνδέσµων ή στην τηλεµεταφορά Είδαµε στηνπροηγούµενη διαφάνεια ότι οι Brin & Page πρότειναν τιµή.85 για την παράµετρο αυτή Γιατί αυτήν την τιµή; Ποια είναι η επίδραση του α στο πρόβληµα τουpagerank; Με α=.5, τότε η επαναληπτική µέθοδος χρειάζεται µόνο 34 επαναλήψεις για να συγκλίνει σε µια ακρίβεια 10-10!! Όµως αυτό σηµαίνει ότι η τεχνητά εισαχθείσα έννοια της τηλεµεταφοράς θα είναι ίσης σηµαντικότητας µε τηδοµή των υπερσυνδέσµων!? 31

Ηπαράµετρος α (2/2) Για α=1.0, οι αριθµός των επαναλήψεων για σύγκλιση γίνεται απαγορευτικός Ακόµα και για α=.85 απαιτούνται µερικές ηµέρες για να επιτευχθεί η σύγκλιση όταν οι πίνακες είναι του µεγέθους του Παγκοσµίου Ιστού Απλώς το α=.85 επιτυγχάνει ένα αποδεκτό tradeoff Πέρααπόαυτόόµως, η παράµετρος ελέγχει και την ευαισθησία του διανύσµατος PageRank Για τιµές του α κοντά σε 1, τότε ακόµα και µικρές αλλαγές στη δοµή τουweb Επηρεάζουν σηµαντικά τις τιµές PageRank των σελίδων 32

Ο πίνακας υπερσυνδέσµων H ιάφορες προσαρµογές µπορεί να γίνουν πάνω στον H Στην βασική υλοποίηση, κάθε εξερχόµενος σύνδεσµος έχει το ίδιο βάρος/σηµαντικότητα Παρόλο που η τακτική αυτή είναι δηµοκρατική, εύκολη στην υλοποίηση, εντούτοις δεν είναι η κατάλληλη για τα rankings Στην πραγµατικότητα, ο random surfer δεν διαλέγει τυχαία µε την ίδια πιθανότητα ποιον σύνδεσµο θα ακολουθήσει, αλλά λαµβάνει υπόψη του το πλούσιο περιεχόµενο των σελίδων όπου θα πάει, αλλά και το κείµενο πάνω στους υπερσυνδέσµους Έτσι, αντί για την υπόθεση του random surfer, έχουµε τον intelligent surfer 33

Παράδειγµα προσαρµοσµένου πίνακα H Πώς αποφασίζουµε µε ποιο τρόπο θα αναθέσουµε διαφορετικά βάρη στους εξερχόµενους υπερσυνδέσµους; Από τα access logs! Παράδειγµα: Από την P 1 είναι δυο φορές πιο πιθανό να πάµε στηνp 2 παρά στην P 3 Προφανώς όλες οι παρόµοιες µέθοδοι θα είναι ευρεστικές Για παράδειγµα, τα στοιχεία Η 45 και Η 46 µπορούν να προσδιοριστούν µε βάσητηνοµοιότητα (cosine similarity) µεταξύ των σελίδων P 4 µετηνp 5 και P 6 Για το γράφηµα µε τους 6 κόµβους ο νέος πίνακας H θα µετατραπεί στον ακόλουθο: 34

Παράδειγµα προσαρµοσµένου πίνακα H 35

Ο πίνακας τηλεµεταφοράς Ε (1/3) Μιααπότιςπρώτεςπροσαρµογές ήταν ότι αντί για τη χρήση του 1/nee T προτιµήθηκε ο πίνακας ev T To v T µε v T > 0, είναι ένα διάνυσµα πιθανοτήτων που ονοµάζεται personalization ή teleportation διάνυσµα Αφού το v T είναι διάνυσµα πιθανοτήτων µε θετικά στοιχεία, κάθε κόµβος είναι συνδεδεµένος µε κάθε άλλο κόµβο, άρα ο G είναι πρωτογενής Χρησιµοποιώντας το v T αντί για το 1/ne T σηµαίνει ότι οι πιθανότητες τηλεµεταφοράς δεν είναι πλέον οµοιόµορφες 36

Ο πίνακας τηλεµεταφοράς Ε (2/3) Άρα για κάθε τηλεµεταφορά, ο surfer δεν επιλέγει οµοιόµορφα σε ποια σελίδα θα πάει, αλλά καθοδηγείται από το διάνυσµα v T Αυτή η µετατροπή ευτυχώς δεν καταστρέφει τα πλεονεκτήµατα της power method Όταν G=αS+(1-α)ev T, τότε η power method γίνεται: 37

Ο πίνακας τηλεµεταφοράς Ε (3/3) Αυτή η αλλαγή δεν έχει καµία επίδραση πάνω στο ρυθµό σύγκλισης στον πολλαπλασιασµό διανύσµατος µε αραιό πίνακα στις µικρές αποθηκευτικές απαιτήσεις Όµως, αλλάζει το ίδιο το διάνυσµα PageRank!! Αυτό δεν είναι µειονέκτηµα!? εν είναι απαραίτητο ότι σε όλους µας ταιριάζει το ίδιο ranking Άλλωστε, παρέχει µια ευελιξία ώστε ανάλογα τις ανάγκες µας να προσαρµόζουµε απλάτοv T 38

Προσωποποίηση του PageRank Η προσωποποίηση αλλάζει το διάνυσµα PageRank, από query-independet και user-independent σε userdependent και πιο δύσκολο στον υπολογισµό Στην θεωρία είναι ωραία η προσωποποίηση, αλλά στην πράξη είναι δύσκολα εφαρµόσιµη Κάθε π Τ απαιτεί µερικές ηµέρες για τον υπολογισµό του Οπότε, αφού επικρατεί η άποψη ότι η προσωποποιηµένη αναζήτηση είναι η µελλοντική τάση στις µηχανές αναζήτησης, αρκετοί δηµιούργησαν ψευδοπροσωποποιηµένα διανύσµατα PageRank εν απευθύνονται σε κάθε χρήστη, αλλά σε οµάδες χρηστών 39

Topic-sensitive PageRank (1/3) ηµιουργία ενός πεπερασµένου αριθµού PageRank διανυσµάτων π Τ (v it ), κάθε ένα από αυτά πολωµένο ως προς κάποια συγκεκριµένο θέµα Ποια θέµατα επιλέχθηκαν; Ο Taher Haveliwala επέλεξε τα 16 πρώτα από το Open Directory Project (ODP) Τα 16 πολωµένα διανύσµατα προϋπολογίζονται Το ζήτηµα είναι να τα συνδυάσουµε αποτελεσµατικά κατά την ερώτηση του χρήστη 40

Topic-sensitive PageRank (2/3) Ο Taher Haveliwala έφτιαξε έναν κυρτό συνδυασµό αυτών ως εξής π Τ = β 1 π Τ (v 1T ) + π Τ (v 2T ) + + π Τ (v 16T ) όπου Σβ ι =1 Για παράδειγµα, η ερώτησηscience project ideas εµπίπτει µεταξύ των εξής κατηγοριών του ODP: Κατηγορία 7: Kids και Teens Κατηγορία 10: Reference Κατηγορία 12: Science Προφανώς τα αντίστοιχα διανύσµατα αυτών των κατηγοριών πρέπει να πάρουν µεγαλύτερο βάρος ή ίσως και όλο το βάρος 41

Topic-sensitive PageRank (3/3) Για τον υπολογισµό τωνβαρώνχρησιµοποιήθηκε ένας classifier Bayes Όταν υπολογιστεί το topic-sensitive score, συνδυάζεται µε το αντίστοιχο content score O Jeh Glen, Taher Haveliwala & Serendap Kamvar δηµιούργησαν το καλοκαίρι του 2003 την εταιρεία Kaltix γιαναπροωθήσουντηνιδέατου personalized PageRank, και τελικά η εταιρεία τους αγοράστηκε το Σεπτέµβριο του 2003 από την Google Τον Μάρτιο του 2004, η Google προώθησε την προσωποποίηση http://labs.google.com/personalized 42

Το φάσµα τουpersonalized πίνακα G (1/4) ΘΕΩΡΗΜΑ: Εάν το φάσµα (ιδιοτιµές) του στοχαστικού πίνακα S είναι {1,λ 2,λ 3,,λ n }, τότε το φάσµα τουpersonalized πίνακα Google G=αS + (1-α)ev T είναι {1,αλ 2,αλ 3,,αλ n }, όπου το v T είναι ένα διάνυσµα πιθανοτήτων 43

Το φάσµα τουpersonalized πίνακα G (2/4) Αφού ο S είναι στοχαστικός, τότε το (1,e) είναι ένα ζεύγος του S Έστω ότι Q = (e X) είναι µη ιδιόµορφος (nonsingular) πίνακας που έχει το ιδιοδιάνυσµα e ως πρώτη στήλη του Έστω ότι Τότε Απ εδώ παίρνουµε δυο χρήσιµες ταυτότητες y T e=1 Y T e=0 44

Το φάσµα τουpersonalized πίνακα G (3/4) Ως συνέπεια, ο µετασχηµατισµός οµοιότητας φανερώνει ότι ο Y T SX περιέχει τις υπόλοιπες ιδιοτιµές του S, λ 2,λ 3,,λ n 45

Το φάσµα τουpersonalized πίνακα G (4/4) Εφαρµόζοντας τον µετασχηµατισµό οµοιότητας στον G=αS + (1-α)ev T Εποµένως, οι ιδιοτιµές του G=αS + (1-α)ev T είναι οι {1,αλ 2,αλ 3,,αλ n } 46