Περιγραφική στατιστική ενός δικτύου Συνοπτική παρουσίαση και ερμηνεία των ευρημάτων. Βασίλης Καραγιάννης Χρόνης Μωϋσιάδης

Σχετικά έγγραφα
EE512: Error Control Coding

ST5224: Advanced Statistical Theory II

2 Composition. Invertible Mappings

Statistical Inference I Locally most powerful tests

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Μηχανική Μάθηση Hypothesis Testing

the total number of electrons passing through the lamp.

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Network Science. Θεωρεία Γραφηµάτων (2)

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Fractional Colorings and Zykov Products of graphs

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Σχέσεις, Ιδιότητες, Κλειστότητες

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Homework 3 Solutions

CE 530 Molecular Simulation

Approximation of distance between locations on earth given by latitude and longitude

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

Partial Differential Equations in Biology The boundary element method. March 26, 2013

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Nowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

Other Test Constructions: Likelihood Ratio & Bayes Tests

Math 6 SL Probability Distributions Practice Test Mark Scheme

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Pg The perimeter is P = 3x The area of a triangle is. where b is the base, h is the height. In our case b = x, then the area is

Example Sheet 3 Solutions

On a four-dimensional hyperbolic manifold with finite volume

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

Matrices and Determinants

Second Order RLC Filters

Section 9.2 Polar Equations and Graphs

A Bonus-Malus System as a Markov Set-Chain. Małgorzata Niemiec Warsaw School of Economics Institute of Econometrics

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Numerical Analysis FMN011

Srednicki Chapter 55

Finite Field Problems: Solutions

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Inverse trigonometric functions & General Solution of Trigonometric Equations

[1] P Q. Fig. 3.1

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

Every set of first-order formulas is equivalent to an independent set

C.S. 430 Assignment 6, Sample Solutions

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

derivation of the Laplacian from rectangular to spherical coordinates

Reminders: linear functions

Εισαγωγή στην ανάλυση συνδέσμων

TMA4115 Matematikk 3

Section 8.3 Trigonometric Equations

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Repeated measures Επαναληπτικές μετρήσεις

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

Practice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1

The challenges of non-stable predicates

5.4 The Poisson Distribution.

Areas and Lengths in Polar Coordinates

1. Ηλεκτρικό μαύρο κουτί: Αισθητήρας μετατόπισης με βάση τη χωρητικότητα

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

ΠΑΡΑΜΕΤΡΟΙ ΕΠΗΡΕΑΣΜΟΥ ΤΗΣ ΑΝΑΓΝΩΣΗΣ- ΑΠΟΚΩΔΙΚΟΠΟΙΗΣΗΣ ΤΗΣ BRAILLE ΑΠΟ ΑΤΟΜΑ ΜΕ ΤΥΦΛΩΣΗ

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Capacitors - Capacitance, Charge and Potential Difference

ΕΘΝΙΚΗ ΥΟΛΗ ΔΗΜΟΙΑ ΔΙΟΙΚΗΗ ΙH ΕΚΠΑΙΔΕΤΣΙΚΗ ΕΙΡΑ ΤΜΗΜΑ ΚΟΙΝΩΝΙΚΗΣ ΔΙΟΙΚΗΣΗΣ ΔΙΟΙΚΗΣΗ ΜΟΝΑΔΩΝ ΥΓΕΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

ΒΕΛΤΙΣΤΕΣ ΙΑ ΡΟΜΕΣ ΣΕ ΙΚΤΥΑ ΜΕΤΑΒΛΗΤΟΥ ΚΟΣΤΟΥΣ

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Μεταπτυχιακή διατριβή

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Tridiagonal matrices. Gérard MEURANT. October, 2008

The Probabilistic Method - Probabilistic Techniques. Lecture 7: The Janson Inequality

Solution Series 9. i=1 x i and i=1 x i.

ES440/ES911: CFD. Chapter 5. Solution of Linear Equation Systems

PARTIAL NOTES for 6.1 Trigonometric Identities

ΕΦΑΡΜΟΓΗ ΕΥΤΕΡΟΒΑΘΜΙΑ ΕΠΕΞΕΡΓΑΣΜΕΝΩΝ ΥΓΡΩΝ ΑΠΟΒΛΗΤΩΝ ΣΕ ΦΥΣΙΚΑ ΣΥΣΤΗΜΑΤΑ ΚΛΙΝΗΣ ΚΑΛΑΜΙΩΝ

Concrete Mathematics Exercises from 30 September 2016

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

Assalamu `alaikum wr. wb.

2. THEORY OF EQUATIONS. PREVIOUS EAMCET Bits.

Congruence Classes of Invertible Matrices of Order 3 over F 2

2. Εισαγωγή στην βιβλιοθήκη igraph. δικτύων - γραφημάτων. δικτύων - γραφημάτων. δικτύων - γραφημάτων. δικτύων - γραφημάτων

2. Εισαγωγή στην βιβλιοθήκη igraph

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

IMES DISCUSSION PAPER SERIES

Τυχαία Γραφήματα. Τυχαία Δίκτυα. Τρία μοντέλα τυχαίων γραφημάτων Η συνάρτηση κατωφλίου και παραδείγματα με την R Μέσος βαθμός, μέσο μήκος μονοπατιών,

4.6 Autoregressive Moving Average Model ARMA(1,1)

Transcript:

Περιγραφική στατιστική ενός δικτύου Συνοπτική παρουσίαση και ερμηνεία των ευρημάτων Βασίλης Καραγιάννης Χρόνης Μωϋσιάδης

9. Εισαγωγή Πρώτος και κύριος σκοπός της περιγραφικής στατιστικής σε πραγματικό δίκτυο είναι να παρουσιάσουμε συνοπτικά μέσα από την εφαρμογή όσων μέχρι τώρα είδαμε καθώς και κάποιων νέων μέτρων, συμπεράσματα που θα μας δώσουν μια πρώτη εικόνα για : - τη λειτουργία - ή ακόμη και την εξέλιξη σε επίπεδο κόμβου αλλά και ολόκληρου του δικτύου. Ο διαχωρισμός σε τοπικό και συνολικό επίπεδο φαίνεται στο κείμενο. Επιπλέον δίνονται αναφορές από τη βιβλιογραφία για να συμβουλευτείτε. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 2

Το δίκτυο συνεργασίας μεταξύ Ελλήνων στατιστικών έπειτα από 20 χρόνια πραγματοποίηση του Συνεδρίου του Ελληνικού Στατιστικού Ινστιτούτου (παρουσίαση στο συνέδριο του 2010). 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 3

9.1 Απλό, πυκνό, συνδετικό, Συνιστώσες Περιέχει πολλαπλές ακμές ή λούπες; (συνήθως οι πολλαπλές ακμές γίνονται βάρη των ακμών και οι λούπες εκτός ειδικών περιπτώσεων αφαιρούνται) - multiple edges or loops -Είναι συνδετικό - connected? Αν ναι: Βρείτε node and the edge connectivity numbers (είναι το δίκτυο ευάλωτο; vulnerability του δικτύου. Αν όχι: Βρείτε και περιγράψτε τις συνιστώσες components Είναι κατευθυνόμενο - directed network? Βρείτε strongly connected components και weakly connected components. Υπολογίστε την πυκνότητα -network density Αν υπάρχει γιγάντια συνιστώσα - Giant component, τότε Πολλές φορές ασχολούμαστε κυρίως με αυτή (ποιο είναι το ποσοστό των κόμβων που περιέχει) και με τη δεύτερη μεγαλύτερη. Κάνουμε όμως και την κατανομή των συνιστωσών ως προς το πλήθος των κόμβων που περιέχουν με τα αντίστοιχα στατιστικά. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 4

9.1 Απλό, πυκνό, συνδετικό, Συνιστώσες Giant Component Η γιγάντια συνιστώσα περιέχει 70% των κόμβων ενώ η δεύτερη σε μέγεθος το 15% των κόμβων. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 5

9.1 Απλό, πυκνό, συνδετικό, Συνιστώσες Πυκνότητας: αραιό - Sparse: density= 0.003<<0.25 Ξεκάθαρα υπάρχει η γιγάντια συνιστώσα Giant component στο κέντρο και ένα πλήθος άλλων αρκετά μικρότερων. Η κατανομή της τυχαίας μεταβλητής που μετρά το πλήθος των συνιστωσών με κ κόμβους σε ιστόγραμμα με την 3 η γραμμή στον άξονα x-και την 1 η γραμμή στον άξονα y (ή το % της δεύτερης γραμμής) Component distribution Nodes in component 1 2 3 4 5 6 8 9 10 11 12 418 % (Sum of nodes/ n) 0,1 0,3 0,4 0,5 0,7 0,8 1,1 1,2 1,3 1,5 1,6 55,4 # of components 67 26 25 6 3 7 1 1 1 1 2 1 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 6

9.2 Κατανομή των βαθμών των κορυφών Βασική περιγραφική στατιστική 1, 1, 4, 2, 3, 2, 4, 3, 2, 2, 4, 2, 3, 1, 1, 1, 0, 2, 2, 2, (G) = 0.0 Median degree = 2.0 Average degree = 2.1 Δ(G) = 4.0 SD = 1.12 Coefficient of Variation = SD/Average Degree = 53% 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 7

9.2 Κατανομή των βαθμών των κορυφών Εκτίμηση της κατανομής P(d u = k) ή P(d k ), η πιθανότητα η κορυφή u να έχει k γείτονες - το ποσοστό των κορυφών βαθμού k. P(d u k), αθροιστική συνάρτηση κατανομής - CDF. 1 P(d u k), συμπληρωματική αθροιστική συνάρτηση κατανομής - CCDF. Συνήθως, με έλεγχο υπόθεσης προσπαθούμε να εκτιμήσουμε είτε την πρώτη είτε την τρίτη, και κάποιες φορές χρησιμοποιούμε λογαριθμικές κλάσεις. Πληροφορίες στο φάκελο «2.3.SpecialIssuesInNetworkStatistics» και στα άρθρα εκεί. Γενικοί κανόνες: s i Αν η εικόνα της CCDF με λογάριθμο του βαθμού (logx) μοιάζει με ευθεία γραμμή τότε η κατανομή είναι λογαριθμοκανονική (lognormal). Αν η εικόνα της CCDF με λογάριθμο της πιθανότητας (log(1 P(d u k))) μοιάζει με ευθεία γραμμή τότε η κατανομή είναι εκθετική (exponential). Αν η εικόνα της CCDF με λογάριθμο του βαθμού (logx) αλλά και της πιθανότητας (log(1 P(d u k)))μοιάζει με ευθεία γραμμή τότε η κατανομή είναι δυναμοκατανομή (αυτήν την περίπτωση θα συναντήσουμε με συνάρτηση της igraph). Βέβαια υπάρχει η περίπτωση προσαρμογής στην κανονική ή την Poisson. Αντίστοιχα για έσω έξω βαθμό σε κατευθυνόμενα 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 8

9.2 Κατανομή των βαθμών των κορυφών Εκτίμηση της κατανομής (μικρό δίκτυο) Degree sequence : 1, 1, 4, 2, 3, 2, 4, 3, 2, 2, 4, 2, 3, 1, 1, 1, 0, 2, 2, 2 Degree freq 0 0.05 1 0.25 2 0.40 3 0.15 4 0.15 Degree freq 0 0.05 1 0.30 2 0.70 3 0.85 4 1.00 Degree freq 0 1.00 1 0.95 2 0.70 3 0.30 4 0.15 Plots of the CCDF, CCDF with log(degree), CCDF with log(degree) and log (freq) 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 9

Newman 2003 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 10

9.2 Κατανομή των βαθμών των κορυφών Εκτίμηση της κατανομής Η σταθερά Α θα πρέπει να ικανοποιεί τη συνθήκη ώστε μια συνάρτηση να είναι συνάρτηση πιθανότητας : Ax γ = 1, ή αντίστοιχα συνάρτηση πυκνότητας. x min 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 11

9.3 Γενικεύοντας το βαθμό στην ισχύ Η κατανομή strength μιας κορυφής 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 12

9.4 Η κατανομή των βαρών των ακμών και η συσχέτιση με τη μορφή του δικτύου Αν τα βάρη των ακμών δε σχετίζονται με τον τρόπο τοποθέτησης των ακμών (τοπολογία του δικτύου) τότε τα w ij είναι ανεξάρτητα της ακμής {i,j}, επομένως η ισχύς των κορυφών προσεγγιστικά θα υπολογιζόταν ως s w i d i Αυτό μπορεί να ελεγχθεί με γραμμική παλινδρόμηση του λογαρίθμου της strength στο λογάριθμο του degree Η ύπαρξη συσχέτισης της κατανομής των βαρών με την τοπολογία (τοποθέτηση) των ακμών παρατηρείται αν: si C, with b 1 and C w, i ή b 1 2007, Caldarelii Vespignani book. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 13 d b

9.4 Παράδειγμα από το δίκτυο του ΕΣΙ estimated equation : s i C d b i C 1.161 1.414 w and b 1.08 1 ( p 0.001, for both coefficients) Ανομοιογένεια της κατανομής των βαρών και συσχέτιση με συγκεκριμένες ακμές συνεργασίες (επαλήθευση της πραγματικότητας) 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 14

Συσχέτιση μεταξύ των βαθμών degree - degree correlation «Ποιοι μας επιλέγουν ποιους επιλέγουμε»

9.5 Οι έννοιες Assortative και Disassortative Υπάρχουν δυο τρόποι να εκτιμηθεί ο τύπος του δικτύου, με τις συναρτήσεις: assortativity.degree και gknn (average nearest neighbor degree ή ANND δηλαδή ο «μέσος βαθμός των γειτόνων των κορυφών ίδιου βαθμού») 2007, Caldarelii Vespignani book. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 16

9.5 Υπολογισμός το ANND για τις κορυφές βαθμού 4 στο μικρό δίκτυο 4, 2, 3, 2, 4, 3, 2, 2, 4, 2, 3, 1, 2, 2, 0, 1, 1, 1, 1, 2 Η κορυφή 3 έχει Γ( 3 )={ 1, 2, 4, 5 }, δηλαδή 4 γείτονες με βαθμούς {1,1,2,3}, έτσι k nn ( 3 ) = (1+1+2+3)/4 = 1.75 Υπάρχουν 3 κορυφές βαθμού 4 για τις οποίες υπολογίσαμε: with k nn ( 3 ) = 1.75, k nn ( 7 ) =2.5 και k nn ( 10 ) = 2.25 επομένως : 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 17

9.5.1 Το δίκτυο του ΕΣΙ είναι Disassortative Ένα Disassortative δίκτυο συνεργασίας (Αναμενόμενο: οι καθηγητές κατεβαίνουν με τους νέους μαθητές τους πιο συχνά από ότι οι ίδιοι συνεργάζονται). Οι Hubs συνδέονται με κορυφές μικρότερου βαθμού (έχει παρατηρηθεί σε biological, social media, technological networks) 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 18

9.5.2 Ο σταθμισμένος ANND Αν ο σταθμισμένος ANND μιας κορυφής u είναι μικρότερος από το μη σταθμισμένο τότε οι ακμές μεγάλου βάρος δείχνουν κορυφές μεγάλου βαθμού, το αντίστροφο συμβαίνει αν ο σταθμισμένος ANND είναι μικρότερος από τον μη σταθμισμένο. Node i with small average nearest neighbors degree but large weighted average nearest neighbors degree is mostly connected to lowdegree nodes but the link with largest weight points towards a well-connected hub 2007, Caldarelii Vespignani book. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 19

9.5.2 Ο σταθμισμένος ANND Το διάγραμμα διασποράς μεταξύ βαθμού και σταθμισμένου ANND δείχνει καθαρά ότι το δίκτυο του ΕΣΙ είναι Dissasortative Hubs prefer non-hubs 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 20

Όμως ακόμη και σε Dissasorative δίκτυα οι hubs μπορούν να συνδέονται μεταξύ τους (φαινόμενο rich club effect )

9.6 Το φαινόμενο rich-club 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 22

9.6 Το φαινόμενο rich-club Colizza et. al, 2006 The rich club phenomenon. Hubs are interconnected in a disassortative network (a property of both computer and social networks) Opsahl, 2010 proposed the quotient w null (r) comes fromarandomized network 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 23

9.6 Το φαινόμενο rich-club ( η βιβλιοθήκη tnet) w W () r r E r rank w l 1 l A weighted network with 5 Hubs (Opsahl: http://toreopsahl.com/tnet/t wo-modenetworks/weighted-rich-clubeffect/ 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 24

9.6.1 Το φαινόμενο rich-club στο ΕΣΙ Weighted rich club effect: Επιστήμονες με 10 το πολύ συνεργάτες τείνουν να συνεργάζονται μεταξύ τους κάτι που δε συμβαίνει με όσους είναι μεγάλου βαθμού (hubs) σημεία κάτω από την οριζόντια ευθεία y=1) 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 25

Binary rich club effect: Δεν ισχύει για το ΕΣΙ 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 26

Weighted rich club effect: Επίσης δεν ισχύει για το δίκτυο των συνεδρίων του ΕΣΙ 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 27

9.7 Η έννοια της απόστασης σε δίκτυα When the distance is meaningful? Diameter (giant component) = 8 The distance matrix The distribution of distances is another useful exploration tool Mean distance (giant Component): Sum all the elements and divide by 14(14-1) = 3.32 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 28

9.7.1 Η έννοια της απόστασης σε σταθμισμένα δίκτυα 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 29

Η σημαντικότητα του κόμβου Centrality measures

9.8 Βαθμική κεντρικότητα (ή γενικεύοντας κεντρικότητα ισχύος strength) The degree centrality of a node is its degree. Nodes with more connections tend to have more power. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 31

9.9 Ιδιοκεντρικότητα 3 0,094966 1 0,033984 2 0,033984 4 0,082647 5 0,114758 7 0,135986 6 0,08973 8 0,092863 9 0,061756 10 0,061756 11 0,079709 12 0,047158 13 0,052068 14 0,018633 15 0 16 0 18 0 19 0 20 0 17 0 Values 0 for the nodes in the giant component Depends both on the number and the quality of the connections 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 32

9.10 Κεντρικότητα εγγύτητας 3 0,023256 1 0,018182 2 0,018182 4 0,026316 5 0,027027 7 0,03125 6 0,025 8 0,03125 9 0,027778 10 0,027778 11 0,025 12 0,02 13 0,020408 14 0,016393 15 1 16 1 18 0,5 19 0,5 20 0,5 17 0 In a disconnected network, each component has to be examined separately because in such case closeness is not well defined. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 33

9.10 Διάμεση Κεντρικότητα (διαμεσότητα) 3 23,5 1 0 2 0 4 12 5 15 7 43,5 6 0 8 42,5 9 16 10 16 11 30,5 12 0 13 12 14 0 15 0 16 0 18 0 19 0 20 0 17 0 In a disconnected network, each component has to be examined separately because in such case betweenness not well defined. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 34

Clustering, Cliquishness, Cohesiveness and Hierarchical Structure

8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 36

Cliquishness The clique number of the network and the maximal sets of cliques (biological net). Clear they constitute a cohesive group of proteins 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 37

Bi-components in a connected net bi-components (dense parts) in a biological network 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 38

9.11 Transitivity vs Clustering coefficient The Watts and Strogatz clustering coefficient tends to weight the contributions of lowdegree vertices more heavily than the transitivity coefficient, because such vertices have a small denominator. Bollobas verified that T = C if all nodes have the same degree or all clustering coefficients are equal 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 39

9.11 Transitivity vs Clustering coefficient 3 0 1 0 2 0 4 0 5 0,333333 7 0,166667 6 1 8 0 9 0 10 0 11 0,166667 12 1 13 0,333333 14 0 15 0 16 0 18 1 19 1 20 1 17 0 Average clustering coefficient = 0.3--------Transitivity = 0.257 Average clustering coefficient of the giant component = 0.214 ---------- Transitivity = 0.1875 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 40

9.12 Weighted Clustering coefficient If C w > C, we are in presence of a network in which the interconnected triples are more likely formed by the edges with larger weights. On the contrary, C w < C signals a network in which the topological clustering is generated by edges with low weight. (Caldarelli book p. 69) Transitivity = 0.316 Clustering coefficient = 0.46 Weighted Clustering coefficient = 0.292 C w < C Triples are formed by scientists that either are old but they did not collaborate frequently or they are new scientists with close collaboration and few articles. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 41

9.13 Ερευνώντας την ύπαρξη ιεραρχίας στο δίκτυο To investigate if any hierarchical organization is present in real networks we measured the C(k) function for several networks for which large topological maps are available. Actor Network: the high-k range of C(k) scales as k -1. The majority of actors with a few links (small k) appear only in one movie. Each such actor has a clustering coefficient equal to one, as all are part of the same cast, and are therefore connected to each other. The high k nodes include many actors that acted in several movies, and thus their neighbors are not necessarily linked to each other, resulting in a smaller C(k). Ravasz, 2004 The scaling of C(k) for (a) actor network, (b) The semantic web, connecting two words if they are listed as synonyms in the Merriam Webster Dictionary, (c) The WWW, (d) Internet at the Autonomous System level, each node representing a domain. The dashed line in each figure has slope -1 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 42

Το φαινόμενο του μικρού κόσμου small world

9.14. Τα δυο χαρακτηριστικά του φαινομένου smallworld έ ό έ ό Random C Random 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 44 and C

Σημαντικά υπογραφήματα που εν δυνάμει αναδεικνύουν τη λειτουργικότητα αλλά και την εξέλιξη του δικτύου MOTIFS - COMMUNITIES

9.15 Motifs (fanmod software) disadvantage: don t know if motif is part of a larger cohesive community 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 46

Παράδειγμα: στο δίκτυο του ΕΣΙ z score = (N real N rand )/SD Frequency Mean-Freq Standard-Dev Z-Score p-value [Original] [Random] [Random] 1 2 3 1 3 2 86.573% 99.999% 0.00011008-1219.6 1 13.427% 0.00101% 0.00011008 1219.6 0 Although it was observed (weighted clustering coefficient vs unweighted) that triplets are not due to scientists with frequent collaboration using Milo s study it is clear that the 13.427% triplets that contained in the network constitute a statistical significant characteristic of its evolution. 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 47

9.16 Εύρεση κοινοτήτων Communities (πληθώρα αλγορίθμων) Social and other networks have a natural community structure We want to discover this structure rather than impose a certain size of community or fix the number of communities Without looking at a picture, can we discover community structure in an automated way? Girvan & Newman: betweenness 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 48

9.16.1 Finding community structure in very large networks (fast greedy algorithm) Consider edges that fall within a community or between a community and the rest of the network Define modularity Q : Q 0 Q 1 1 2m vw A vw adjacency matrix kvk 2m ( c 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 49 w v, c w if vertices are in the same community ) probability of an edge between two vertices is proportional to their degrees For a random network, Q = 0 the number of edges within a community is no different from what you would expect Clauset, M. E. J. Newman, Cristopher Moore, 2004 Slide from Lada Adamic

9.16.2. Communities edge betweenness algorithm modularity = 0.45 >0.3 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 50

9.16.3. Σε σταθμισμένο δίκτυο(with fast greedy algorithm) Betweenness clustering? Will not work strong ties will have a disproportionate number of short paths, and those are the ones we want to keep Modularity (Analysis of weighted networks, M. E. J. Newman) Q 1 2m vw A vw kvk 2m w ( c v, c w ) weighted edge Slide from Lada Adamic k i A ij j Reuters new articles keywords 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 51

Weighted Community structure of the giant component (ΕΣΙ) modularity = 0.86 16 communities 8/12/2015 Ανασκόπηση- Καραγιάννης-Μωϋσιάδης 52