Περιγραφική στατιστική ενός δικτύου Συνοπτική παρουσίαση και ερμηνεία των ευρημάτων Βασίλης Καραγιάννης Χρόνης Μωϋσιάδης
9. Εισαγωγή Πρώτος και κύριος σκοπός της περιγραφικής στατιστικής σε πραγματικό δίκτυο είναι να παρουσιάσουμε συνοπτικά μέσα από την εφαρμογή όσων μέχρι τώρα είδαμε καθώς και κάποιων νέων μέτρων, συμπεράσματα που θα μας δώσουν μια πρώτη εικόνα για : - τη λειτουργία - ή ακόμη και την εξέλιξη σε επίπεδο κόμβου αλλά και ολόκληρου του δικτύου. Ο διαχωρισμός σε τοπικό και συνολικό επίπεδο φαίνεται στο κείμενο. Επιπλέον δίνονται αναφορές από τη βιβλιογραφία για να συμβουλευτείτε. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 2
Το δίκτυο συνεργασίας μεταξύ Ελλήνων στατιστικών έπειτα από 20 χρόνια πραγματοποίηση του Συνεδρίου του Ελληνικού Στατιστικού Ινστιτούτου (παρουσίαση στο συνέδριο του 2010). 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 3
9.1 Απλό, πυκνό, συνδετικό, Συνιστώσες Περιέχει πολλαπλές ακμές ή λούπες; (συνήθως οι πολλαπλές ακμές γίνονται βάρη των ακμών και οι λούπες εκτός ειδικών περιπτώσεων αφαιρούνται) - multiple edges or loops -Είναι συνδετικό - connected? Αν ναι: Βρείτε node and the edge connectivity numbers (είναι το δίκτυο ευάλωτο; vulnerability του δικτύου. Αν όχι: Βρείτε και περιγράψτε τις συνιστώσες components Είναι κατευθυνόμενο - directed network? Βρείτε strongly connected components και weakly connected components. Υπολογίστε την πυκνότητα -network density Αν υπάρχει γιγάντια συνιστώσα - Giant component, τότε Πολλές φορές ασχολούμαστε κυρίως με αυτή (ποιο είναι το ποσοστό των κόμβων που περιέχει) και με τη δεύτερη μεγαλύτερη. Κάνουμε όμως και την κατανομή των συνιστωσών ως προς το πλήθος των κόμβων που περιέχουν με τα αντίστοιχα στατιστικά. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 4
9.1 Απλό, πυκνό, συνδετικό, Συνιστώσες Giant Component Η γιγάντια συνιστώσα περιέχει 70% των κόμβων ενώ η δεύτερη σε μέγεθος το 15% των κόμβων. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 5
9.1 Απλό, πυκνό, συνδετικό, Συνιστώσες Πυκνότητας: αραιό - Sparse: density= 0.003<<0.25 Ξεκάθαρα υπάρχει η γιγάντια συνιστώσα Giant component στο κέντρο και ένα πλήθος άλλων αρκετά μικρότερων. Η κατανομή της τυχαίας μεταβλητής που μετρά το πλήθος των συνιστωσών με κ κόμβους σε ιστόγραμμα με την 3 η γραμμή στον άξονα x-και την 1 η γραμμή στον άξονα y (ή το % της δεύτερης γραμμής) Component distribution Nodes in component 1 2 3 4 5 6 8 9 10 11 12 418 % (Sum of nodes/ n) 0,1 0,3 0,4 0,5 0,7 0,8 1,1 1,2 1,3 1,5 1,6 55,4 # of components 67 26 25 6 3 7 1 1 1 1 2 1 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 6
9.2 Κατανομή των βαθμών των κορυφών Βασική περιγραφική στατιστική 1, 1, 4, 2, 3, 2, 4, 3, 2, 2, 4, 2, 3, 1, 1, 1, 0, 2, 2, 2, (G) = 0.0 Median degree = 2.0 Average degree = 2.1 Δ(G) = 4.0 SD = 1.12 Coefficient of Variation = SD/Average Degree = 53% 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 7
9.2 Κατανομή των βαθμών των κορυφών Εκτίμηση της κατανομής P(d u = k) ή P(d k ), η πιθανότητα η κορυφή u να έχει k γείτονες - το ποσοστό των κορυφών βαθμού k. P(d u k), αθροιστική συνάρτηση κατανομής - CDF. 1 P(d u k), συμπληρωματική αθροιστική συνάρτηση κατανομής - CCDF. Συνήθως, με έλεγχο υπόθεσης προσπαθούμε να εκτιμήσουμε είτε την πρώτη είτε την τρίτη, και κάποιες φορές χρησιμοποιούμε λογαριθμικές κλάσεις. Πληροφορίες στο φάκελο «2.3.SpecialIssuesInNetworkStatistics» και στα άρθρα εκεί. Γενικοί κανόνες: s i Αν η εικόνα της CCDF με λογάριθμο του βαθμού (logx) μοιάζει με ευθεία γραμμή τότε η κατανομή είναι λογαριθμοκανονική (lognormal). Αν η εικόνα της CCDF με λογάριθμο της πιθανότητας (log(1 P(d u k))) μοιάζει με ευθεία γραμμή τότε η κατανομή είναι εκθετική (exponential). Αν η εικόνα της CCDF με λογάριθμο του βαθμού (logx) αλλά και της πιθανότητας (log(1 P(d u k)))μοιάζει με ευθεία γραμμή τότε η κατανομή είναι δυναμοκατανομή (αυτήν την περίπτωση θα συναντήσουμε με συνάρτηση της igraph). Βέβαια υπάρχει η περίπτωση προσαρμογής στην κανονική ή την Poisson. Αντίστοιχα για έσω έξω βαθμό σε κατευθυνόμενα 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 8
9.2 Κατανομή των βαθμών των κορυφών Εκτίμηση της κατανομής (μικρό δίκτυο) Degree sequence : 1, 1, 4, 2, 3, 2, 4, 3, 2, 2, 4, 2, 3, 1, 1, 1, 0, 2, 2, 2 Degree freq 0 0.05 1 0.25 2 0.40 3 0.15 4 0.15 Degree freq 0 0.05 1 0.30 2 0.70 3 0.85 4 1.00 Degree freq 0 1.00 1 0.95 2 0.70 3 0.30 4 0.15 Plots of the CCDF, CCDF with log(degree), CCDF with log(degree) and log (freq) 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 9
Newman 2003 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 10
9.2 Κατανομή των βαθμών των κορυφών Εκτίμηση της κατανομής Η σταθερά Α θα πρέπει να ικανοποιεί τη συνθήκη ώστε μια συνάρτηση να είναι συνάρτηση πιθανότητας : Ax γ = 1, ή αντίστοιχα συνάρτηση πυκνότητας. x min 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 11
9.3 Γενικεύοντας το βαθμό στην ισχύ Η κατανομή strength μιας κορυφής 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 12
9.4 Η κατανομή των βαρών των ακμών και η συσχέτιση με τη μορφή του δικτύου Αν τα βάρη των ακμών δε σχετίζονται με τον τρόπο τοποθέτησης των ακμών (τοπολογία του δικτύου) τότε τα w ij είναι ανεξάρτητα της ακμής {i,j}, επομένως η ισχύς των κορυφών προσεγγιστικά θα υπολογιζόταν ως s w i d i Αυτό μπορεί να ελεγχθεί με γραμμική παλινδρόμηση του λογαρίθμου της strength στο λογάριθμο του degree Η ύπαρξη συσχέτισης της κατανομής των βαρών με την τοπολογία (τοποθέτηση) των ακμών παρατηρείται αν: si C, with b 1 and C w, i ή b 1 2007, Caldarelii Vespignani book. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 13 d b
9.4 Παράδειγμα από το δίκτυο του ΕΣΙ estimated equation : s i C d b i C 1.161 1.414 w and b 1.08 1 ( p 0.001, for both coefficients) Ανομοιογένεια της κατανομής των βαρών και συσχέτιση με συγκεκριμένες ακμές συνεργασίες (επαλήθευση της πραγματικότητας) 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 14
Συσχέτιση μεταξύ των βαθμών degree - degree correlation «Ποιοι μας επιλέγουν ποιους επιλέγουμε»
9.5 Οι έννοιες Assortative και Disassortative Υπάρχουν δυο τρόποι να εκτιμηθεί ο τύπος του δικτύου, με τις συναρτήσεις: assortativity.degree και gknn (average nearest neighbor degree ή ANND δηλαδή ο «μέσος βαθμός των γειτόνων των κορυφών ίδιου βαθμού») 2007, Caldarelii Vespignani book. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 16
9.5 Υπολογισμός το ANND για τις κορυφές βαθμού 4 στο μικρό δίκτυο 4, 2, 3, 2, 4, 3, 2, 2, 4, 2, 3, 1, 2, 2, 0, 1, 1, 1, 1, 2 Η κορυφή 3 έχει Γ( 3 )={ 1, 2, 4, 5 }, δηλαδή 4 γείτονες με βαθμούς {1,1,2,3}, έτσι k nn ( 3 ) = (1+1+2+3)/4 = 1.75 Υπάρχουν 3 κορυφές βαθμού 4 για τις οποίες υπολογίσαμε: with k nn ( 3 ) = 1.75, k nn ( 7 ) =2.5 και k nn ( 10 ) = 2.25 επομένως : 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 17
9.5.1 Το δίκτυο του ΕΣΙ είναι Disassortative Ένα Disassortative δίκτυο συνεργασίας (Αναμενόμενο: οι καθηγητές κατεβαίνουν με τους νέους μαθητές τους πιο συχνά από ότι οι ίδιοι συνεργάζονται). Οι Hubs συνδέονται με κορυφές μικρότερου βαθμού (έχει παρατηρηθεί σε biological, social media, technological networks) 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 18
9.5.2 Ο σταθμισμένος ANND Αν ο σταθμισμένος ANND μιας κορυφής u είναι μικρότερος από το μη σταθμισμένο τότε οι ακμές μεγάλου βάρος δείχνουν κορυφές μεγάλου βαθμού, το αντίστροφο συμβαίνει αν ο σταθμισμένος ANND είναι μικρότερος από τον μη σταθμισμένο. Node i with small average nearest neighbors degree but large weighted average nearest neighbors degree is mostly connected to lowdegree nodes but the link with largest weight points towards a well-connected hub 2007, Caldarelii Vespignani book. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 19
9.5.2 Ο σταθμισμένος ANND Το διάγραμμα διασποράς μεταξύ βαθμού και σταθμισμένου ANND δείχνει καθαρά ότι το δίκτυο του ΕΣΙ είναι Dissasortative Hubs prefer non-hubs 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 20
Όμως ακόμη και σε Dissasorative δίκτυα οι hubs μπορούν να συνδέονται μεταξύ τους (φαινόμενο rich club effect )
9.6 Το φαινόμενο rich-club 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 22
9.6 Το φαινόμενο rich-club Colizza et. al, 2006 The rich club phenomenon. Hubs are interconnected in a disassortative network (a property of both computer and social networks) Opsahl, 2010 proposed the quotient w null (r) comes fromarandomized network 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 23
9.6 Το φαινόμενο rich-club ( η βιβλιοθήκη tnet) w W () r r E r rank w l 1 l A weighted network with 5 Hubs (Opsahl: http://toreopsahl.com/tnet/t wo-modenetworks/weighted-rich-clubeffect/ 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 24
9.6.1 Το φαινόμενο rich-club στο ΕΣΙ Weighted rich club effect: Επιστήμονες με 10 το πολύ συνεργάτες τείνουν να συνεργάζονται μεταξύ τους κάτι που δε συμβαίνει με όσους είναι μεγάλου βαθμού (hubs) σημεία κάτω από την οριζόντια ευθεία y=1) 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 25
Binary rich club effect: Δεν ισχύει για το ΕΣΙ 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 26
Weighted rich club effect: Επίσης δεν ισχύει για το δίκτυο των συνεδρίων του ΕΣΙ 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 27
9.7 Η έννοια της απόστασης σε δίκτυα When the distance is meaningful? Diameter (giant component) = 8 The distance matrix The distribution of distances is another useful exploration tool Mean distance (giant Component): Sum all the elements and divide by 14(14-1) = 3.32 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 28
9.7.1 Η έννοια της απόστασης σε σταθμισμένα δίκτυα 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 29
Η σημαντικότητα του κόμβου Centrality measures
9.8 Βαθμική κεντρικότητα (ή γενικεύοντας κεντρικότητα ισχύος strength) The degree centrality of a node is its degree. Nodes with more connections tend to have more power. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 31
9.9 Ιδιοκεντρικότητα 3 0,094966 1 0,033984 2 0,033984 4 0,082647 5 0,114758 7 0,135986 6 0,08973 8 0,092863 9 0,061756 10 0,061756 11 0,079709 12 0,047158 13 0,052068 14 0,018633 15 0 16 0 18 0 19 0 20 0 17 0 Values 0 for the nodes in the giant component Depends both on the number and the quality of the connections 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 32
9.10 Κεντρικότητα εγγύτητας 3 0,023256 1 0,018182 2 0,018182 4 0,026316 5 0,027027 7 0,03125 6 0,025 8 0,03125 9 0,027778 10 0,027778 11 0,025 12 0,02 13 0,020408 14 0,016393 15 1 16 1 18 0,5 19 0,5 20 0,5 17 0 In a disconnected network, each component has to be examined separately because in such case closeness is not well defined. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 33
9.10 Διάμεση Κεντρικότητα (διαμεσότητα) 3 23,5 1 0 2 0 4 12 5 15 7 43,5 6 0 8 42,5 9 16 10 16 11 30,5 12 0 13 12 14 0 15 0 16 0 18 0 19 0 20 0 17 0 In a disconnected network, each component has to be examined separately because in such case betweenness not well defined. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 34
Clustering, Cliquishness, Cohesiveness and Hierarchical Structure
8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 36
Cliquishness The clique number of the network and the maximal sets of cliques (biological net). Clear they constitute a cohesive group of proteins 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 37
Bi-components in a connected net bi-components (dense parts) in a biological network 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 38
9.11 Transitivity vs Clustering coefficient The Watts and Strogatz clustering coefficient tends to weight the contributions of lowdegree vertices more heavily than the transitivity coefficient, because such vertices have a small denominator. Bollobas verified that T = C if all nodes have the same degree or all clustering coefficients are equal 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 39
9.11 Transitivity vs Clustering coefficient 3 0 1 0 2 0 4 0 5 0,333333 7 0,166667 6 1 8 0 9 0 10 0 11 0,166667 12 1 13 0,333333 14 0 15 0 16 0 18 1 19 1 20 1 17 0 Average clustering coefficient = 0.3--------Transitivity = 0.257 Average clustering coefficient of the giant component = 0.214 ---------- Transitivity = 0.1875 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 40
9.12 Weighted Clustering coefficient If C w > C, we are in presence of a network in which the interconnected triples are more likely formed by the edges with larger weights. On the contrary, C w < C signals a network in which the topological clustering is generated by edges with low weight. (Caldarelli book p. 69) Transitivity = 0.316 Clustering coefficient = 0.46 Weighted Clustering coefficient = 0.292 C w < C Triples are formed by scientists that either are old but they did not collaborate frequently or they are new scientists with close collaboration and few articles. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 41
9.13 Ερευνώντας την ύπαρξη ιεραρχίας στο δίκτυο To investigate if any hierarchical organization is present in real networks we measured the C(k) function for several networks for which large topological maps are available. Actor Network: the high-k range of C(k) scales as k -1. The majority of actors with a few links (small k) appear only in one movie. Each such actor has a clustering coefficient equal to one, as all are part of the same cast, and are therefore connected to each other. The high k nodes include many actors that acted in several movies, and thus their neighbors are not necessarily linked to each other, resulting in a smaller C(k). Ravasz, 2004 The scaling of C(k) for (a) actor network, (b) The semantic web, connecting two words if they are listed as synonyms in the Merriam Webster Dictionary, (c) The WWW, (d) Internet at the Autonomous System level, each node representing a domain. The dashed line in each figure has slope -1 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 42
Το φαινόμενο του μικρού κόσμου small world
9.14. Τα δυο χαρακτηριστικά του φαινομένου smallworld έ ό έ ό Random C Random 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 44 and C
Σημαντικά υπογραφήματα που εν δυνάμει αναδεικνύουν τη λειτουργικότητα αλλά και την εξέλιξη του δικτύου MOTIFS - COMMUNITIES
9.15 Motifs (fanmod software) disadvantage: don t know if motif is part of a larger cohesive community 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 46
Παράδειγμα: στο δίκτυο του ΕΣΙ z score = (N real N rand )/SD Frequency Mean-Freq Standard-Dev Z-Score p-value [Original] [Random] [Random] 1 2 3 1 3 2 86.573% 99.999% 0.00011008-1219.6 1 13.427% 0.00101% 0.00011008 1219.6 0 Although it was observed (weighted clustering coefficient vs unweighted) that triplets are not due to scientists with frequent collaboration using Milo s study it is clear that the 13.427% triplets that contained in the network constitute a statistical significant characteristic of its evolution. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 47
9.16 Εύρεση κοινοτήτων Communities (πληθώρα αλγορίθμων) Social and other networks have a natural community structure We want to discover this structure rather than impose a certain size of community or fix the number of communities Without looking at a picture, can we discover community structure in an automated way? Girvan & Newman: betweenness 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 48
9.16.1 Finding community structure in very large networks (fast greedy algorithm) Consider edges that fall within a community or between a community and the rest of the network Define modularity Q : Q 0 Q 1 1 2m vw A vw adjacency matrix kvk 2m ( c 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 49 w v, c w if vertices are in the same community ) probability of an edge between two vertices is proportional to their degrees For a random network, Q = 0 the number of edges within a community is no different from what you would expect Clauset, M. E. J. Newman, Cristopher Moore, 2004 Slide from Lada Adamic
9.16.2. Communities edge betweenness algorithm modularity = 0.45 >0.3 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 50
9.16.3. Σε σταθμισμένο δίκτυο(with fast greedy algorithm) Betweenness clustering? Will not work strong ties will have a disproportionate number of short paths, and those are the ones we want to keep Modularity (Analysis of weighted networks, M. E. J. Newman) Q 1 2m vw A vw kvk 2m w ( c v, c w ) weighted edge Slide from Lada Adamic k i A ij j Reuters new articles keywords 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 51
Weighted Community structure of the giant component (ΕΣΙ) modularity = 0.86 16 communities 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 52