Σύνθετα Δίκτυα com+plex: with+ -fold (having parts) Διδάζκων Δημήηριος Καηζαρός Διάλεξη 8η: 4//6
Μεηρικές κενηρικόηηηας Centrality measures
Περιεχόμενα Παρουσιάσαμε Degree centrality (DC) Shortest-Path Betweenness Centrality (SPBC) Power Community Index (PCI) Closeness centrality (CC) Bridging centrality (BC) επεκτάσεις σε κατευθυνόμενα δίκτυα Θα παρουσιάσουμε Φασματικές κεντρικότητες PageRank vector Katz status index
PageRank κεντρικότητα Φοιτητές του Stanford: Larry Page & Sergey Brin Google PageRank για διάταξη ιστοσελίδων Αλεμάξηεηε ηνπ ππνβαιιόκελνπ εξσηήκαηνο ζηε κεραλή αλαδήηεζεο 4
Αλάιπζε ζπλδέζκσλ: Κεληξηθή ηδέα Έλαο ζύλδεζκνο από ηελ ηζηνζειίδα p πξνο ηελ ηζηνζειίδα q ζεκαηνδνηεί επηδνθηκαζία/έγθξηζε (endorsement) Η ηζηνζειίδα p ζεσξεί ηελ ηζηνζειίδα q σο απζεληία (authority) ζε θάπνην δήηεκα Επεμεξγαζία ηνπ γξαθήκαηνο ηνπ Παγθνζκίνπ Ιζηνύ γηα ζπζηάζεηο (recommendations) Αλάζεζε κηαο ηηκήο απζεληίαο (authority value) ζε θάζε ηζηνζειίδα
Δηάηαμε κε βάζε ηελ αλάιπζε ζπλδέζκσλ (Link Analysis Ranking - LAR) Εθθίλεζε κε κηα ζπιινγή ηζηνζειίδσλ Εμαγσγή ηνπ ππνθείκελνπ γξαθήκαηνο ππεξζπλδέζκσλ Εθηέιεζε ηνπ αιγνξίζκνπ LAR πάλσ ζην γξάθεκα Απνηέιεζκα: Έλα βάξνο απζεληίαο (authority weight) γηα θάζε θόκβν w w w w w 6
Αιγόξηζκνο InDegree Δηάηαμε ηζηνζειίδσλ ζύκθσλα κε ηνλ in-degree w i = B(i) w= w= w=. Red Page. Yellow Page. Blue Page 4. Purple Page. Green Page w= w= 7
Αιγόξηζκνο PageRank Οη θαιέο απζεληίεο πξέπεη λα δείρλνληαη από θαιέο απζεληίεο Σπραίνο πεξίπαηνο (random walk) πάλσ ζην web graph Επίιεμε κηα ηζηνζειίδα ηπραία Με πιθανόηηηα - α κάνε άλμα ζε μια ησταία ιζηοζελίδα Με πηζαλόηεηα α αθνινύζεζε έλαλ ηπραίν εμεξρόκελν ζύλδεζκν Διάηαξη ζύμθωνα με ηην stationary distribution PR p PR( q) ( ) F ( q ) n q p. Red Page. Purple Page. Yellow Page 4. Blue Page. Green Page 8
Μαξθνθηαλέο αιπζίδεο Μηα Markov chain πεξηγξάθεη κηα δηαθξηηνύ ρξόλνπ ζηνραζηηθή δηαδηθαζία πάλσ από ζύλνιν θαηαζηάζεσλ S = {s, s, s n } ζύκθσλα κε θάπνηνλ πίλαθα πηζαλόηεηαο κεηάβαζεο P = {P ij } P ij = πηζαλόηεηα κεηάβαζεο ζηελ θαηάζηαζε j από ηελ θαηάζηαζε i j P ij = (stochastic matrix) Memorylessness property: Η επόκελε θαηάζηαζε ζηελ αιπζίδα εμαξηάηαη ΜΟΝΟ από ηελ ηξέρνπζα θαηάζηαζε θαη ΌΥΙ από ην παξειζόλ ηεο δηαδηθαζίαο (πξώηεο ηάμεο MC) [πςειόηεξεο ηάμεο MC είλαη επίζεο πηζαλέο] 9
Σπραίνη πεξίπαηνη (random walks) Οη ηπραίνη πεξίπαηνη πάλσ ζε γξαθήκαηα αληηζηνηρνύλ ζε Markov Chains Σν ζύλνιν ησλ θαηαζηάζεσλ S είλαη ην ζύλνιν ησλ θόκβσλ ηνπ γξαθήκαηνο G Ο transition probability matrix πεξηγξάθεη ηελ πηζαλόηεηα λα αθνινπζήζνπκε κηα αθκή από έλαλ θόκβν ζε θάπνηνλ άιιν
Παξάδεηγκα v v v v 4 v P A
State probability vector Σν δηάλπζκα q t = (q t,q t,,q t n) πνπ απνζεθεύεη ηελ πηζαλόηεηα λα βξίζθεηαη ε αιπζίδα ζηελ θαηάζηαζε i ηε ρξνληθή ζηηγκή t q i = ε πηζαλόηεηα εθθίλεζεο από ηελ θαηάζηαζε i q t = q t- P
Παξάδεηγκα P v v v q t+ = / q t 4 + / q t q t+ = / q t + q t + / q t 4 q t+ = / q t + / q t 4 q t+ 4 = / q t v v 4 q t+ = q t
Stationary distribution Η stationary distribution γηα κηα MC κε transition matrix P, είλαη ε probability distribution π, ηέηνηα ώζηε π = πp Μηα MC έρεη κηα κνλαδηθή stationary distribution εάν Είλαη irreducible Σν ππνθείκελν γξάθεκα είλαη strongly connected Είλαη aperiodic Γηα ηπραίνπο πεξηπάηνπο, ηνπ ππνθείκελν γξάθεκα δελ είλαη bipartite Η πηζαλόηεηα π i είλαη ην πνζνζηό ηνπ ρξόλνπ πνπ επηζθεθηήθακε ηελ θαηάζηαζε i θαζώο t Η stationary distribution είλαη έλα ηδηάλπζκα (eigenvector) ηνπ πίλαθα P Σν θπξίαξρν αξηζηεξό ηδηνδηάλπζκα ηνπ P νη ζηνραζηηθνί πίλαθεο έρνπλ κέγηζηε ηδηνηηκή ίζε κε 4
Τπνινγηζκόο ηεο stationary distribution Η Power κέζνδνο Αξρηθνπνηνύκε ζε θάπνηα θαηαλνκή q Επαλαιεπηηθά ππνινγίδνπκε q t = q t- P Μεηά από αξθεηέο επαλαιήςεηο q t π Η power κέζνδνο ππνινγίδεη q t = q P t Γηαηί ζπγθιίλεη; Πξνθύπηεη από ην γεγνλόο όηη θάζε δηάλπζκα κπνξεί λα γξαθεί σο γξακκηθόο ζπλδπαζκόο ησλ ηδηνδηαλπζκάησλ q = v + c v + c n v n Ρπζκόο ζύγθιηζεο Καζνξίδεηαη από ηε ι t
6 Ο ηπραίνο πεξίπαηνο θαηά PageRank Σπραίνο πεξίπαηνο Κάληε ηελ προσαρμογή στοχαστικότητας θαη εθηειέζηε ηνλ ηπραίν πεξίπαην P
7 Ο ηπραίνο πεξίπαηνο θαηά PageRank Ση γίλεηαη κε ηνπο θόκβνπο-θαηαβόζξεο (sink); Ση ζπκβαίλεη όηαλ ν ηπραίνο πεξηπαηεηήο κεηαβεί ζε θάπνηνλ θόκβν πνπ δελ έρεη εμεξρόκελνπο ζπλδέζκνπο; P
8 P' Ο ηπραίνο πεξίπαηνο θαηά PageRank Αληηθαηέζηεζε ηέηνηα κεδεληθά δηαλύζκαηαγξακκέο κε ην δηάλπζκα v πλήζσο, ην νκνηόκνξθν δηάλπζκα P = P + dv T otherwise sink is i if d
9 P'' ) ( Ο ηπραίνο πεξίπαηνο θαηά PageRank Πώο εγγπόκαζηε ηελ irreducibility; Πξνζζέηνπκε ηπραίν άικα ζην δηάλπζκα v κε πηζαλόηεηα α ζςνήθωρ, ππορ ένα ομοιόμοπθο διάνςζμα P = αp + (-α)uv T, όπνπ u είλαη ην δηάλπζκα κε όια
Σα απνηειέζκαηα ηνπ ηπραίν άικαηνο (βήκα ηειεκεηαθνξάο) Εγγπάηαη irreducibility Σν θίλεηξό ηνπ είλαη ε έλλνηα ηνπ random surfer Πξνζθέξεη επηπιένλ επειημία πξνζσπνπνίεζε anti-spam Ειέγρεη ην ξπζκό ζύγθιηζεο Η δεύηεξε ζε κέγεζνο ηδηνηηκή ηνπ πίλαθα P είλαη ίζε κε α!
Ο αιγόξηζκνο PageRank Η εθηέιεζε ηεο power κεζόδνπ δελ είλαη πνιύ αθξηβή ν πίλαθαο δελ είλαη αξαηόο q = v t = repeat t q δ t = t + until δ < ε T t P'' q q t q t
Σπραίνη πεξίπαηνη ζε κε θαηεπζπλόκελα γξαθήκαηα ηελ stationary distribution ελόο ηπραίνπ πεξηπάηνπ πάλσ ζε έλα κε θαηεπζπλόκελν γξάθεκα, ε πηζαλόηεηα λα βξεζείο ζηνλ θόκβν i είλαη αλάινγε ηνπ (weighted) βαζκνύ ηνπ θόκβνπ Οη ηπραίνη πεξίπαηνη ζε κε θαηεπζπλόκελα γξαθήκαηα δελ είλαη ελδηαθέξνληεο
Απξόζκελε εθαξκνγή ηνπ PageRank
Μέηξεζε κνλνπαηηώλ Katz status index Η ζεκαληηθόηεηα ελόο θόκβνπ κεηξηέηαη κε ην weighted άζξνηζκα ησλ κνλνπαηηώλ πνπ νδεγνύλ ζ απηόλ ηνλ θόκβνs A m [i,j] = αξηζκόο κνλνπαηηώλ κε κήθνο m από ηνλ θόκβν i ζηνλ j Τπνινγηζκόο P ba b A πγθιίλεη όηαλ b < ι (A) I ba I Δηαηάζζνπκε ηνπο θόκβνπο ζύκθσλα κε ηα αζξνίζκαηα ζηήιεο ηνπ πίλαθα P b m A m 4
Κεληξηθόηεηα Katz Γηα ηνλ θόκβν i: Ωο δηάλπζκα γηα όινπο ηνπο θόκβνπο:
Οικογένειες μετρικών κεντρικότητας (ενδεικτικά) Centrality metrics Geodesic-based Degree-based Influence-based Shortest-Path Betweenness Power Community Index Spectral Percolation Control Stress Degree Katz status index Closeness PageRank Bridging HITS Information Bonacich 6