ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Επιστήμη του Διαδικτύου «Web Science» ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Γρηγοριάδης Α. Ιωάννης Επιβλέπων: Μωυσιάδης Πολυχρόνης Καθηγητής Α.Π.Θ. Συνεπιβλέπων: Καραγιάννης Βασίλειος Δρ. Α.Π.Θ. Βέροια, Δεκέμβριος 2013
2
3 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Επιστήμη του Διαδικτύου «Web Science» ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Γρηγοριάδης Α. Ιωάννης Επιβλέπων: Μωυσιάδης Πολυχρόνης Καθηγητής Α.Π.Θ. Συνεπιβλέπων: Καραγιάννης Βασίλειος Δρ. Α.Π.Θ. Εγκρίθηκε από την Τριμελή Εξεταστική Επιτροπή την Δεκεμβρίου 2013. Ι. Αντωνίου Β. Καραγιάννης Π. Μωυσιάδης Καθηγητής Α.Π.Θ. Δρ. Α.Π.Θ. Καθηγητής Α.Π.Θ. Βέροια, Δεκέμβριος 2013
4.. Γρηγοριάδης Α. Ιωάννης Πτυχιούχος Μαθηματικός Πανεπιστημίου Ιωαννίνων Copyright Γρηγοριάδης Α. Ιωάννης, 2013. Με επιφύλαξη παντός δικαιώματος. All rights reserved. Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής, για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το παρόν μήνυμα. Ερωτήματα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς τον συγγραφέα. Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευτεί ότι εκφράζουν τις επίσημες θέσεις του Α.Π.Θ.
5 ΠΕΡΙΛΗΨΗ Στην παρούσα διπλωματική εργασία γίνεται ανασκόπηση και εφαρμογή πέντε γνωστών αλγορίθμων που χρησιμοποιούνται στη βιβλιογραφία για τον εντοπισμό των κοινοτήτων που δημιουργούνται μέσα σε ένα δίκτυο. Αν και δεν υπάρχει σαφής ορισμός για την έννοια της κοινότητας έχει παρατηρηθεί ότι η εφαρμογή των προηγουμένων αλγορίθμων δίνει σημαντικές πληροφορίες για τη δομή και την εξέλιξη των δικτύων. Ίσως ο συνηθέστερος τρόπος αξιολόγησης της διαμέρισης ενός δικτύου σε κοινότητες προέρχεται από την εφαρμογή της έννοιας της δομικότητας, η οποία βασίζεται στην εύρεση του πλήθους των ακμών μεταξύ κόμβων που εν δυνάμει ανήκουν στην ίδια κοινότητα συγκριτικά με το πλήθος των ακμών που συνδέουν τους κόμβους αυτούς με τους υπόλοιπους εκτός κοινότητας. Παρουσιάστηκαν οι αλγόριθμοι Edge Betweenness, Fast Greedy, Louvain, Walktrap και Infomap, οι οποίοι αντιπροσωπεύουν και διαφορετικές προσεγγίσεις της έννοιας της κοινότητας, όπως είναι η διαμεσότητα των ακμών μεταξύ κοινοτήτων, η πυκνότητα των κοινοτήτων, η ομοιότητα των κόμβων σε κάθε κοινότητα και η ελαχιστοποίηση της απόστασης στο εσωτερικό των κοινοτήτων αντίστοιχα. Στο πρωτότυπο μέρος έγινε εφαρμογή των προηγουμένων αλγορίθμων σε τεχνητά δίκτυα παραγόμενα από τον αλγόριθμο LFR, καθώς και στο οικονομικό δίκτυο 212 εισηγμένων μετοχών του Χρηματιστηρίου Αξιών Αθηνών (Χ.Α.Α). Στις κατηγορίες των δικτύων που δημιουργήθηκαν με τον αλγόριθμο LFR παρατηρήθηκε ότι ο αλγόριθμος Infomap συμφωνεί με τον προηγούμενο αλγόριθμο, τόσο στην τιμή της δομικότητας, όσο και στο πλήθος των κοινοτήτων. Το οικονομικό δίκτυο χωρίστηκε σε δύο περιόδους με κριτήριο την εξαγγελία των εκλογών στις 2/9/2009. Η εφαρμογή των αλγορίθμων εύρεσης κοινοτήτων με βάση τη δομικότητα ανέδειξε την αδυναμία του συγκεκριμένου τρόπου στα δύο δίκτυα, τα οποία είναι πλήρη και σταθμισμένα. Σε αντίθεση, η συνηθέστερη μέθοδος μελέτης οικονομικών δικτύων με τη διαδικασία του Ελαχίστου Δένδρου Ζεύξης ανέδειξε μεταβολές μεταξύ των δύο περιόδων, τόσο σε επίπεδο συγκεκριμένων μετοχών, όσο και σε επίπεδο κλάδων του Χ.Α.Α.
6 ABSTRACT In this thesis, review and implementation of five known algorithms used in the literature to identify communities which are created within a network. Although there is no clear definition of the concept of community has been observed that the application of the above algorithm gives important information about the structure and evolution of the networks. Perhaps the most common way to assess the partitioning of a network into communities derived from the application of the concept of modularity, which is based on finding the number of edges between nodes that potentially belong to the same community compared to the number of edges connecting these nodes with others outside the community. Presented algorithms Edge Betweenness, Fast Greedy, Louvain, Walktrap and Infomap, who represent different approaches to the concept of community, such as link centrality of edges between communties, the density of the communities, the similarity of nodes in each community and the minimizing of distance within the respective communities. The original application was part of the previous algorithms in artificial networks generated by the algorithm LFR, and the financial network 212 listed shares of the Athens Stock Exchange (A.S.E.). In classes of networks created with the algorithm LFR observed that the algorithm Infomap agrees with the previous algorithm, so the price of modularity, and the multitude of communities. The financial network was divided into two periods in terms of the announcement of elections on 2/9/2009. The implementation of algorithms communities by building modularity highlighted the weakness of this mode in the two systems, which are complete and balanced. In contrast, the most common method of studying financial networks with the procedure Minimum Spanning Tree revealed changes between the two periods, both at the level of specific shares and at sectors of the A.S.E.
7 ΠΡΟΛΟΓΟΣ Θα ήθελα να ευχαριστήσω θερμά: τον επιβλέποντα καθηγητή μου, κ. Πολυχρόνη Μωυσιάδη και τον συνεπιβλέποντα καθηγητή μου, κ. Βασίλειο Καραγιάννη, για τη υποστήριξη, τη βοήθεια, τις συμβουλές και τον πολύτιμο χρόνο που αφιέρωσαν, παρόλο το βεβαρημένο πρόγραμμά τους, καθ όλη τη διάρκεια της διπλωματικής εργασίας αυτής, ώστε να ξεπεραστούν οι όποιες δυσκολίες παρουσιάστηκαν μέχρι την ολοκλήρωσή της, το διδάκτωρ Χρηματοοικονομικών, κ. Θεόδωρο Σπυρίδη, για την παραχώρηση των δεδομένων που χρησιμοποιήθηκαν στη μελέτη του δικτύου των μετοχών, τα οποία προήλθαν από εξαγορά τους από το Χρηματιστήριο Αξιών Αθηνών (Χ.Α.Α.), το φίλο και συμφοιτητή μου στο Πρόγραμμα Μεταπτυχιακών Σπουδών της «Επιστήμης του Διαδικτύου», Δημήτριο Μητράκο, για τη βοήθεια του σε τεχνικά θέματα της εργασίας αυτής, την οικογένια μου, αφενός τους γονείς μου που ήταν πάντα δίπλα μου, όχι μόνο σε αυτήν την εργασία, αλλά και σε οποιαδήποτε απόφαση πήρα στη ζωή μου και αφετέρου τον αδελφό μου που με βοήθησε επιπρόσθετα και στην επιμέλεια της εργασίας αυτής μέχρι και την τελική μορφή της. Η παρούσα διπλωματική εργασία, αφιερώνεται στη γιαγιά μου που αποτελούσε και αποτελεί πάντα ένα καταφύγιο στις δύσκολες στιγμές.
8 Περιεχόμενα ΠΕΡΙΛΗΨΗ... 5 ABSTRACT... 6 ΠΡΟΛΟΓΟΣ... 7 Περιεχόμενα... 8 Κεφάλαιο 1 ο... 10 ΕΙΣΑΓΩΓΗ... 10 1.1 Ορισμοί Εννοιών και Δικτύων... 10 1.2 Κατηγορίες Εύρεσης Κοινοτήτων... 14 1.2.1 Πυκνότητα (Density)... 16 1.2.2 Πρότυπο (Pattern)... 17 1.2.3 Ομοιότητα Κόμβων (Node Similarity)... 17 1.2.4 Κεντρικότητα Ακμών (Link Centrality)... 17 1.2.5 Άλλες Μέθοδοι... 18 1.3 Δομικότητα (Modularity)... 18 1.4 LFR... 20 Κεφάλαιο 2ο... 23 ΑΛΓΟΡΙΘΜΟΙ... 23 2.1 Αλγόριθμος Edge Betweenness... 23 2.1.1 Εισαγωγή... 23 2.1.2 Περιγραφή του Αλγορίθμου... 24 2.1.3 Παρατηρήσεις... 28 2.2 Αλγόριθμος Fast Greedy... 29 2.2.1 Εισαγωγή... 29 2.2.2 Περιγραφή του Αλγορίθμου... 30 2.2.3 Παρατηρήσεις... 33 2.3 Αλγόριθμος Walktrap... 34 2.3.1 Εισαγωγή... 34 2.3.2 Περιγραφή του Αλγορίθμου... 35
9 2.3.3 Παρατηρήσεις... 38 2.4 Αλγόριθμος Louvain... 39 2.4.1 Εισαγωγή... 39 2.4.2 Περιγραφή του Αλγορίθμου... 40 2.5 Αλγόριθμος Infomap... 44 2.5.1 Εισαγωγή... 44 2.5.2 Περιγραφή του Αλγορίθμου... 45 2.5.3 Παρατηρήσεις... 55 Κεφάλαιο 3 ο... 56 ΕΦΑΡΜΟΓΕΣ ΣΕ ΤΥΧΑΙΑ ΚΑΙ ΟΙΚΟΝΟΜΙΚΑ ΔΙΚΤΥΑ... 56 3.1 Ο Αλγόριθμος Παραγωγής Τυχαίων Δικτύων LFR... 56 3.1.1 Εισαγωγή... 56 3.1.2 Παραγωγή Δικτύων και Αποτελεσμάτων... 57 3.1.3 Παρατηρήσεις... 62 3.2 Δίκτυο Μετοχών Χρηματιστηρίου Αξιών Αθηνών (Χ.Α.Α.)... 62 3.2.1 Επεξεργασία των Δεδομένων... 62 3.2.2 Ελάχιστα Δένδρα Ζεύξης (Minimum Spanning Trees)... 64 3.2.3 Αποτελέσματα Μετοχών... 66 3.2.4 Παρατηρήσεις... 76 Βιβλιογραφία... 77
10 Κεφάλαιο 1 ο ΕΙΣΑΓΩΓΗ 1.1 Ορισμοί Εννοιών και Δικτύων Πολλά συστήματα στο τρόπο λειτουργίας τους μπορούν να αναπαρασταθούν με ένα δίκτυο, στο οποίο θα υπάρχει ένα σύνολο από κόμβους που συνδέονται σε ζευγάρια μεταξύ τους με ακμές, όπως είναι για παράδειγμα ένα τηλεπικοινωνιακό δίκτυο μιας χώρας, στο οποίο μπορούν να θεωρηθούν ως κόμβοι οι πελάτες του δικτύου και εφόσον υπάρχει κλήση ανάμεσα σε δύο από αυτούς, τότε υπάρχει μια σύνδεση-ακμή μεταξύ τους που τους ενώνει. Τα δίκτυα μπορούν να χωριστούν σε τρεις κατηγορίες: α) κοινωνικά δίκτυα, όπως είναι τα δίκτυα γνωριμιών, β) τεχνολογικά δίκτυα, όπως είναι το Διαδίκτυο, γ) βιολογικά δίκτυα, όπως είναι τα μεταβολικά δίκτυα. Τα δίκτυα, ανεξάρτητα από το σε ποια κατηγορία ανήκουν, έχουν τέσσερις χαρακτηριστικές ιδιότητες: α) όσο μεγάλο και να είναι ένα δίκτυο μπορεί ο οποιοσδήποτε κόμβος να είναι προσβάσιμος από έναν άλλο με μικρό αριθμό ακμών, β) η ύπαρξη στο δίκτυο πολλών κόμβων με μικρό βαθμό και λίγων κόμβων με μεγάλο βαθμό, γ) δύο κόμβοι που ενώνονται με έναν κοινό κόμβο είναι πολύ πιθανόν να συνδέονται και μεταξύ τους, δ) η ιδιότητα του δικτύου να δομείται σε κοινότητες (Girvan M. et al 2001), που είναι και το αντικείμενο της εργασίας αυτής. Δίκτυο ή γράφημα G είναι ένα ζευγάρι από δύο σύνολα, ( ), ( ),, G V E V G E G V E G n m, (1) G G όπου V είναι ένα σύνολο από n αντικείμενα που ονομάζονται κόμβοι και E μια συλλογή από ζευγάρια των αντικειμένων αυτών που ονομάζονται ακμές. Ένα δίκτυο μπορεί να είναι κατευθυνόμενο, εφόσον οι ακμές αυτές έχουν μια διεύθυνση από τον ένα κόμβο στον άλλο ή μη-κατευθυνόμενο ή απλό αν δεν υπάρχει η διεύθυνση αυτή.
11 Επίσης οι ακμές αυτές δύναται να έχουν και βάρη σημειωμένα επάνω τους, οπότε τότε πρόκειται για ένα γράφημα με βάρη (Caldarelli G. 2007). Επίσης σε ένα γράφημα μπορεί να υπάρχουν και ακμές που είναι από έναν κόμβο προς τον εαυτό του που ονομάζονται βρόγχοι. Αναλυτικά οι παρακάτω τύποι δικτύων φαίνονται στην Εικόνα 1 που ακολουθεί. Εικόνα 1: α) Απλό δίκτυο, β) δίκτυο με βρόγχους, γ) δίκτυο απλό με βάρη στις ακμές, δ) δίκτυο απλό κατευθυνόμενο (Karagiannis V. et al 2010) Πίνακας γειτνίασης A ενός δικτύου ή γραφήματος με στοιχεία Ai, j, όπου τα i και j είναι κόμβοι του δικτύου, είναι ο πίνακας που δείχνει το πλήθος των ακμών σε κάθε στοιχείο του μεταξύ δύο κόμβων (μπορεί να υπάρχουν και περισσότερες από μια ακμές ανάμεσα σε δύο κόμβους. Στην Εικόνα 2 ακολουθεί ένα παράδειγμα. Εικόνα 2: Στα αριστερά είναι ένα δίκτυο αναφοράς και στα δεξιά είναι ο αντίστοιχος πίνακας γειτνίασης (Karagiannis V. et al 2010)
12 Το πλήθος των ακμών ενός γραφήματος G, ονομάζεται τάξη του δικτύου και συμβολίζεται με το G. Το πλήθος αντίστοιχα των ακμών του γραφήματος G, ονομάζεται μέγεθος του δικτύου και συμβολίζεται με το G. Ο βαθμός ενός κόμβου u είναι το πλήθος των ακμών που έχει με τους άλλους κόμβους του δικτύου, συμπεριλαμβανόμενου και του εαυτού του και συμβολίζεται με το du ( ) ή d u. Όταν δύο κόμβοι συνδέονται με μια τουλάχιστον ακμή μεταξύ τους ονομάζονται γειτονικοί. Όταν ένας κόμβος δεν συνδέεται με κανέναν άλλο κόμβο του δικτύου, τότε ονομάζεται απομονωμένος. Εικόνα 3: Γράφημα για επεξήγηση ορισμών που τέθηκαν (Karagiannis V. et al 2010) Για το γράφημα G της Εικόνας 3 ισχύει: d(1) 2, d(2) 2, d(3) 1, d(4) 1, d(5) 3, d(6) 0, d(7) 2 G 6, G 6 (6 κόμβοι και 6 ακμές στο γράφημα) Οι κόμβοι 1 κα 2 για παράδειγμα είναι γειτονικοί, ενώ ο κόμβος 6 είναι απομονωμένος. Στα κατευθυνόμενα γραφήματα υπάρχουν έσω-βαθμοί και έξω-βαθμοί των κόμβων. Έσω-βαθμός ενός κόμβου u ονομάζεται το πλήθος των ακμών που εισέρχεται σε έναν κόμβο και συμβολίζεται με το d ( u ) ή in in d u και έξω-βαθμός ενός κόμβου u ονομάζεται το πλήθος των ακμών που εξέρχεται από αυτόν και συμβολίζεται με το dout ( u ) ή out d u. Στην Εικόνα 4 φαίνεται ένα παράδειγμα μαζί με τα αποτελέσματά του.
13 Εικόνα 4: Στα αριστερά είναι το γράφημα αναφοράς και στα δεξιά τα αποτελέσματα των έσω και έξω βαθμών των τριών κόμβων του (Karagiannis V. et al 2010) Περίπατος ονομάζεται μια ακολουθία από κόμβους και ακμές, όπου οι κόμβοι είναι γειτονικοί μεταξύ τους. Αν ο πρώτος και ο τελευταίος κόμβος του είναι ο ίδιος, τότε πρόκειται για έναν κλειστό περίπατο. Μονοπάτι ανάμεσα σε δύο κόμβους είναι ένας περίπατος στον οποίο δεν υπάρχουν κόμβοι που να επαναλαμβάνονται. Ένα μονοπάτι το οποίο ξεκινάει και τελειώνει στον ίδιο κόμβο ονομάζεται κύκλος. Στην Εικόνα 5 ακολουθεί ένα παράδειγμα με αυτές τις έννοιες. Μήκος περίπατου, κλειστού περίπατου, μονοπατιού και κύκλου ονομάζεται το πλήθος των ακμών που υπάρχει σε κάθε ένα από αυτά. Γεωδαισιακή γραμμή ανάμεσα σε δύο κόμβους ονομάζεται το συντομότερο μονοπάτι που τους συνδέει. Απόσταση δύο κόμβων ονομάζεται το μήκος της γεωδαισιακής γραμμής που τους συνδέει. Εικόνα 5: Παραδείγματα περίπατου, κλειστού περίπατου, μονοπατιού και κύκλου, τόσο γραφικά, όσο και συμβολικά (Karagiannis V. et al 2010) Υπολογιστική θεωρία πολυπλοκότητας είναι ένας κλάδος της θεωρίας υπολογισμού στην θεωρητική επιστήμη των υπολογιστών και των μαθηματικών που επικεντρώνεται στην ταξινόμηση των υπολογιστικών προβλημάτων με βάση τη εγγενή
14 δυσκολία τους. Ένα υπολογιστικό πρόβλημα είναι κατανοητό ότι είναι μια εργασία που κατ 'αρχήν δεκτικά λύνεται από έναν υπολογιστή, το οποίο είναι ισοδύναμο με το ότι το πρόβλημα μπορεί να λυθεί με μηχανική εφαρμογή μαθηματικών βημάτων, όπως ένας αλγόριθμος. Ένα πρόβλημα θεωρείται ότι είναι δύσκολο, αν η λύση του απαιτεί σημαντικούς πόρους, ανεξάρτητα από τον αλγόριθμο που χρησιμοποιείται. Η θεωρία επισημοποιεί αυτή τη διαίσθηση, με την εισαγωγή των μαθηματικών υπολογιστικών μοντέλων για τη μελέτη των προβλημάτων αυτών στον υπολογισμό του ποσού των πόρων που απαιτούνται για την επίλυσή τους, όπως είναι ο χρόνος και η αποθήκευση. Τα άλλα μέτρα πολυπλοκότητας που χρησιμοποιούνται επίσης, όπως το ύψος της επικοινωνίας (που χρησιμοποιείται στην πολυπλοκότητα της επικοινωνίας), ο αριθμός των πυλών σε ένα κύκλωμα (που χρησιμοποιείται στην πολυπλοκότητα του κυκλώματος) και τον αριθμό των επεξεργαστών (που χρησιμοποιείται σε παράλληλη πληροφορική). Ένας από τους ρόλους της υπολογιστικής θεωρίας πολυπλοκότητας είναι να καθορίσουν τα πρακτικά όρια σχετικά με το τι υπολογισμούς μπορεί και τι δεν μπορεί να κάνει. Στενά συνδεδεμένα πεδία θεωρητικής επιστήμης των υπολογιστών είναι η ανάλυση των αλγορίθμων και της θεωρίας υπολογισιμότητας. Μια βασική διάκριση ανάμεσα στην ανάλυση των αλγορίθμων και υπολογιστική θεωρία πολυπλοκότητας είναι ότι το πρώτο είναι αφιερωμένο στην ανάλυση του ποσού των πόρων που απαιτούνται από ένα συγκεκριμένο αλγόριθμο για να λύσει ένα πρόβλημα, ενώ η δεύτερη ζητά μια πιο γενική ερώτηση σχετικά με όλες τις πιθανούς αλγόριθμους που θα μπορούσαν να χρησιμοποιηθούν για να λύσει το ίδιο πρόβλημα. Πιο συγκεκριμένα, προσπαθεί να ταξινομήσει τα προβλήματα που μπορούν ή δεν μπορούν να λυθούν με κατάλληλα περιορισμένους πόρους. Με τη σειρά του, για την επιβολή περιορισμών των διαθέσιμων πόρων είναι αυτό που διακρίνει την υπολογιστική πολυπλοκότητα από τη θεωρία υπολογισιμότητας: η τελευταία θεωρία ρωτά τι είδους προβλήματα μπορούν, κατ 'αρχήν, να λυθούν αλγοριθμικά (Wikipedia/Computational Complexity Theory). 1.2 Κατηγορίες Εύρεσης Κοινοτήτων Δεν υπάρχει επίσημος ορισμός για το τι είναι κοινότητα. Η κοινότητα ορίζεται ως ένα σύνολο κόμβων που έχουν μεταξύ τους πιο στενούς δεσμούς σε σχέση με τους υπόλοιπους κόμβους του δικτύου. Ο οποιοσδήποτε θέλει να μελετήσει ένα δίκτυο και να βρει τις κοινότητες στις οποίες διαμερίζεται, ενδιαφέρεται για τρεις ιδιότητες:
15 1) το είδος της πληροφορίας που ένας αλγόριθμος μπορεί να επεξεργαστεί, δηλαδή αν πρόκειται για παράδειγμα για δίκτυο με βάρη ή κατευθυνόμενο και αν η πληροφορία έχει σχέση με το είδος των συνδέσεων του δικτύου 2) το είδος της δομής των κοινοτήτων που ο αλγόριθμος παράγει, δηλαδή αν πρόκειται για αλγόριθμο που εντοπίζει κοινότητες με διαμέριση (partitioning) ή με αλληλοεπικάλυψη (covering) 3) η φύση των κοινοτήτων που εντοπίζει ο αλγόριθμος και αυτό έχει σχέση με το πώς αντιλαμβάνεται ένας αλγόριθμος το τι είναι κοινότητα, και θα αναλυθεί παρακάτω (Balasque J.Μ. et al 2012). Όπως αναφέρθηκε προηγουμένως, υπάρχουν δύο ειδών κατηγορίες αλγορίθμων εύρεσης κοινοτήτων: αυτοί που κάνουν διαμέριση και αυτοί που βρίσκουν κοινότητες με αλληλοεπικάλυψη. Στην πρώτη περίπτωση είναι η ιεραρχική ανάλυση κατά συστάδες (hierarchical clustering). Ξεκινάει από μια διαμέριση στην οποία κάθε κόμβος του δικτύου αποτελεί μια κοινότητα και συνδέει έτσι κόμβους μεταξύ τους ή θεωρεί ότι όλοι οι κόμβοι βρίσκονται στην ίδια κοινότητα και τους διαχωρίζει μεταξύ τους χρησιμοποιώντας μιας τοπολογική μέτρηση ομοιότητας των κόμβων. Η πρώτη μέθοδος της ιεραρχικής ανάλυσης κατά συστάδες ονομάζεται προσθετική μέθοδος (agglomerative method) και η δεύτερη μέθοδος της διαιρετότητας (divisive method) (Girvan M. et al 2004). Με αυτόν τον τρόπο δημιουργείται ένα ιεραρχικό δένδρο που ονομάζεται δενδροδιάγραμμα (dendrogram). Στη δεύτερη περίπτωση έχουμε κοινότητες που αλληλοεπικαλύπτονται, δηλαδή κάποιον ή κάποιους κόμβους δεν τους έχουν σε αποκλειστικότητα, αλλά τους μοιράζονται μεταξύ τους. Για παράδειγμα οι άνθρωποι μπορούν να χωριστούν σε τέτοιες κοινότητες, ανάλογα με τις οικογένειες, τους φίλους, την επαγγελματική τους ιδιότητα, τα χόμπυ τους, κ.λ.π. (Fortunato S. et al 2008). Στην Εικόνα 6 φαίνεται παράδειγμα με τις δύο αυτές περιπτώσεις. Η παρούσα διπλωματική εργασία θα ασχοληθεί με αλγορίθμους που κάνουν ιεράρχηση κατά συστάδες. Όσον αφορά τους αλγορίθμους που βρίσκουν κοινότητες με αλληλοεπικάλυψη, ενδεικτικά αναφέρουμε τη μέθοδο clique percolation. Μια k κλίκα k clique ένα πλήρες υπογράφημα του δικτύου με k κόμβους θεωρείται ως κοινότητα του δικτύου και έτσι κάποιες k κλίκες του δικτύου θεωρούνται ότι είναι γειτονικές εφόσον έχουν k 1 κόμβους (Derenyi I. et al 2005). Ένα παράδειγμα φαίνεται στην Εικόνα 6.
16 Εικόνα 6: Στο επάνω αριστερά δίκτυο έχουμε κοινότητες με ιεράρχηση κατά συστάδες και στο κάτω αριστερά δίκτυο έχουμε κοινότητες με αλληλοεπικάλυψη (Fortunato S. et al 2008), ενώ στα δεξιά έχουμε παράδειγμα δικτύου με (Derenyi I.et al 2005) Όπως αναφέρθηκε κοινότητα είναι ένα σύνολο κόμβων που έχουν πιο στενούς δεσμούς μεταξύ τους από ότι με κόμβους του υπόλοιπου δικτύου, δηλαδή κόμβοι που έχουν μεταξύ τους μεγάλη συνοχή (cohesion) και είναι σε διαχωρισμό (separation) με το υπόλοιπο δίκτυο. Αυτές τις δύο έννοιες της συνοχής και του διαχωρισμού προσπαθούν να υλοποιήσουν υπολογιστικά οι αλγόριθμοι. Οι Labatut και Balasque (Balasque et al 2012) ομαδοποίησαν τους αλγόριθμους σε τέσσερις κατηγορίες: πυκνότητας (density), προτύπου (pattern), ομοιότητας κόμβων (node similarity) και κεντρικότητας ακμών (link similarity). Υπάρχει και μια τελευταία κατηγορία που περιλαμβάνει αλγόριθμους που δεν ταιριάζουν σε καμία από τις παραπάνω κατηγορίες. Παρακάτω θα αναλυθούν οι κατηγορίες αυτές. 1.2.1 Πυκνότητα (Density) Από τους συγγραφείς δόθηκαν δύο προτάσεις για την εξήγηση της συνοχής και του διαχωρισμού. Έτσι κατά την πρώτη πρόταση, υιοθετήθηκαν οι μετρήσεις της ενδοσυνδεσιμότητας (intra-connectivity) και της διασυνδεσιμότητας (inter-connectivity) για την συνοχή και το διαχωρισμό αντίστοιχα. Η πρώτη αναφέρεται στην πυκνότητα μεταξύ των κόμβων που απαρτίζουν μια κοινότητα και η δεύτερη στην πυκνότητα που δημιουργείται όταν συνδέονται ζευγάρια κόμβων που δε βρίσκονται στην ίδια κοινότητα. Κατά τη δεύτερη πρόταση, υιοθετήθηκαν οι όροι των εσωτερικών (internal) και εξωτερικών (external) βαθμών για την συνοχή και το διαχωρισμό αντίστοιχα. Η πρώτη αναφέρεται στον αριθμό των ακμών που έχει ένας κόμβος με άλλους κόμβους
17 που βρίσκονται στην ίδια κοινότητα και η δεύτερη στον αριθμό των ακμών που έχει ένας κόμβος με κόμβους που δε βρίσκονται στην ίδια κοινότητα. 1.2.2 Πρότυπο (Pattern) Ένας άλλος τρόπος για τον ορισμό της συνοχής και του διαχωρισμού αποτελεί η χρήση συγκεκριμένων προτύπων σύνδεσης, όπως για παράδειγμα της κλίκας (clique). Η ερμηνεία αυτή είναι καλύτερη από πλευράς ποιότητας σε σχέση με την πυκνότητα, γιατί δεν είναι απλώς μια μέτρηση, μια τιμή. Εδώ η κλίκα, ή το όποιο άλλο πρότυπο εκφράζει τη συνοχή και τα ευρύτερα υποσύνολα του δικτύου μέσα στα οποία υπάρχουν αυτά τα πρότυπα και εκφράζουν το διαχωρισμό. 1.2.3 Ομοιότητα Κόμβων (Node Similarity) Για τον ορισμό της συνοχής και του διαχωρισμού σε αυτήν την κατηγορία, χρησιμοποιούνται τοπολογικές έννοιες. Έτσι ορίζεται η ενδο-κοινοτική ομοιότητα (intra-community similarity) και η διακοινοτική ανομοιότητα (inter-community dissimilarity). Δηλαδή οι κόμβοι μιας κοινότητας είναι όμοιοι μεταξύ τους και ανόμοιοι με τους κόμβους του υπόλοιπου δικτύου. Αυτό επιτυγχάνεται με τον ορισμό μιας απόστασης ως μετρική, η οποία ελαχιστοποιείται όταν αφορά κόμβους της ίδιας κοινότητας και μεγιστοποιείται όταν αφορά κόμβους που δεν ανήκουν στην ίδια κοινότητα. 1.2.4 Κεντρικότητα Ακμών (Link Centrality) Σε αυτήν η συνοχή και ο διαχωρισμός έχουν σχέση με την κεντρικότητα των ακμών και με δύο ιδιότητες αυτής: ο αριθμός των ζευγαριών των κόμβων που συνδέονται με μια ακμή (κατευθυνόμενη ή όχι ακμή) και το πώς αυτές οι ακμές χρησιμοποιούνται. Έτσι υπάρχουν οι ακμές που συνδέουν κόμβους μέσα στην ίδια κοινότητα και συνήθως αυτές οι ενδο-κοινοτικές ακμές (intra-community links) είναι πολλές και πυκνές και άρα η καθεμία έχει μικρή κεντρικότητα και οι διακοινοτικές ακμές (inter-community links) είναι λίγες και αραιές και άρα η καθεμία έχει μεγάλη κεντρικότητα. Έτσι η μικρή κεντρικότητα των ενδο-κοινοτικών ακμών ορίζει την συνοχή και η μεγάλη κεντρικότητα των διακοινοτικών ακμών ορίζει το διαχωρισμό.
18 1.2.5 Άλλες Μέθοδοι Σε αυτήν κατηγορία υπάρχει η μέθοδος της συμπίεσης (compression), δηλαδή εντοπίζει κοινότητες μεγιστοποιώντας την συμπίεση του μήκους της διαδρομής του δικτύου και ελαχιστοποιώντας την πληροφορία που χάνεται από την συμπίεση αυτή. Η παρούσα διπλωματική εργασία θα μελετήσει από την κατηγορία της πυκνότητας τους αλγόριθμους Fast Greedy και Louvain, από την κατηγορία της ομοιότητας κόμβων τον αλγόριθμο Walktrap, από την κατηγορία της κεντρικότητας ακμών τον αλγόριθμο Edge Betweenness και από την κατηγορία των υπολοίπων τον αλγόριθμο Infomap. 1.3 Δομικότητα (Modularity) Σε δίκτυα που είναι εκ των προτέρων γνωστή η δομή των κοινοτήτων είναι εύκολο να βγουν συμπεράσματα για το πόσο καλά δουλεύει ένας αλγόριθμος εύρεσής τους. Σε ένα δίκτυο όμως που δεν είναι γνωστή αυτή η δομή των κοινοτήτων, τότε χρειάζεται να βρεθεί ένας τρόπος για να μπορεί να γίνει αξιολόγηση του σε πόσο καλές κοινότητες διαμερίζει το δίκτυο ο αλγόριθμος (Girvan M. et al 2004). Απάντηση σε αυτό έρχεται να δώσει ο Newman με τη δομικότητα (modularity). Η ιδέα της δομικότητας προήλθε από τον ίδιο με την μέτρηση της assortative mixing, η οποία χρησιμοποιήθηκε κυρίως στην οικολογία και την επιδημιολογία. Είναι η ιδιότητα που έχει σε ένα δίκτυο ένας κόμβος να ενώνεται με άλλους κόμβους, με τους οποίους έχει κάποιο κοινό χαρακτηριστικό. Για παράδειγμα στο δίκτυο των χωρών της Γης, αν ένα χαρακτηριστικό ήταν η γλώσσα που μιλάνε οι κάτοικοί της, τότε θα συνδέονταν μεταξύ τους χώρες που μιλάνε την ίδια γλώσσα (Newman M.E.J. 3 2004). Με βάση τα παραπάνω, ορίζεται η δομικότητα ως εξής: θεωρούμε μια διαμέριση ενός δικτύου σε k κοινότητες. Τότε ορίζεται ένας k k συμμετρικός πίνακας e του οποίου τα στοιχεία e ij είναι η αναλογία όλων των ακμών του δικτύου που συνδέουν κόμβους της κοινότητας i με την κοινότητα j (στην περίπτωση των ακμών μεταξύ δύο κοινοτήτων, η συγκεκριμένη ακμή λαμβάνεται από μισή, ώστε να μην υπάρχει στο τέλος ακμή η οποία να έχει υπολογιστεί δύο φορές). Το ίχνος του πίνακα e δίνει την αναλογία των ακμών του δικτύου που συνδέουν κόμβους της ίδιας κοινότητας, οπότε θεωρητικά μια καλή διαμέριση του δικτύου θα εμφανίζει μια μεγάλη τιμή. Όμως αυτό από μόνο του δεν αρκεί, γιατί πολύ απλά αν όλοι οι κόμβοι θα τοποθετηθούν στην ίδια κοινότητα, τότε το ίχνος του πίνακα e θα είναι 1. Γι αυτό ορίζεται και το άθροισμα α i
19 της γραμμής (ή στήλης) i που παριστάνει την αναλογία των ακμών που ο ένας κόμβος βρίσκεται στην κοινότητα i. Έτσι ορίζεται η δομικότητα Q από τη σχέση: 2 ii i e 2 e (2) i Q e α Tr όπου Tre είναι το ίχνος του πίνακα e και πίνακα E. Επίσης ισχύει και η σχέση: e α α ij i j e είναι το άθροισμα των στοιχείων του (3) Η δομικότητα μετράει την αναλογία των ακμών που ενώνουν κόμβους του ίδιου τύπου (π.χ. ακμές μεταξύ κόμβων της ίδιας κοινότητας) μείον την αναμενόμενη τιμή της ίδιας ποσότητας για την ίδια κοινότητα, αλλά για τυχαίες συνδέσεις μεταξύ των κορυφών. Έτσι αν οι ακμές μεταξύ των κόμβων της ίδιας κοινότητας είναι λιγότερες από τις τυχαίες, τότε Q 0. Αν αντίθετα Q 1, τότε υπάρχει μια πολλή καλή δομή κοινοτήτων στο δίκτυο. Συνήθως σε ένα δίκτυο 0.3 Q 0.7, ενώ μεγαλύτερες τιμές είναι σπάνιες (Girvan M. et al 2004). Όσα ειπώθηκαν παραπάνω αφορούσαν τον ορισμό της δομικότητας με βάση έναν πίνακα που είχε σχέση με τις αναλογίες των συνδέσεων μεταξύ των κόμβων ενός δικτύου. Σε ένα δίκτυο όμως ο βασικός πίνακας είναι ο πίνακας γειτνίασης (adjacency matrix) και με βάση αυτόν θα δοθεί άλλη μια μορφή του τύπου της δομικότητας. Έτσι ορίζεται ο πίνακας γειτνίασης του δικτύου που αποτελείται από τα στοιχεία A vw, για τα οποία ισχύει: A vw 1, 0, αν οι κόμβοι v και w συνδέονται αλλιώς (4) και έστω ότι οι κόμβοι διαμερίζονται σε κοινότητες με τον κόμβο v να ανήκει στην κοινότητα c v. Τότε για την αναλογία των ακμών για τους κόμβους που είναι στην ίδια κοινότητα θα ισχύει: vw Avwδ cv, cw 1 A 2m vw vw vw A δ c, c vw v w όπου η συνάρτηση δ είναι αυτή του Kronecker για την οποία ισχύει: δ ij 1, 0, i j αλλιώς (5) (6) και m είναι το πλήθος των ακμών του δικτύου, δηλαδή το μέγεθός του, οπότε ισχύει:
20 1 m Avw (7) 2 vw Αν k v ο αριθμός των βαθμών του κόμβου v, τότε: k v A (8) w vw Η πιθανότητα ύπαρξης ακμής μεταξύ δύο κόμβων v και w αν είναι τυχαίες οι συνδέσεις των κόμβων σε ένα δίκτυο, λαμβάνοντας υπόψη τους βαθμούς των κόμβων θα είναι: kk v p 2m w Με βάση τα παραπάνω, η δομικότητα Q θα δίνεται από τη σχέση: 1 kk v w Q A δ c, c 2m 2m vw vw v w που είναι μια άλλη μορφή της δομικότητας, που δόθηκε στη σχέση (1) παραπάνω (Clauset A. et al 2004). (9) (10) 1.4 LFR Τα πραγματικά δίκτυα (real-world networks) παρά το γεγονός ότι έχουν άμεση σχέση με την καθημερινή ζωή, υπόκεινται σε κάποιους περιορισμούς: είναι δύσκολο να κατασκευαστούν και κοστίζουν τόσο σε χρήμα, όσο και σε χρόνο. Επίσης κάθε ένα τέτοιο δίκτυο μπορεί να δίνει έμφαση σε κάποιες συγκεκριμένες ιδιότητες του δικτύου (μέγεθος, transitivity, κ.λ.π.) με αποτέλεσμα να μην είναι δυνατό να γενικευθούν τα αποτελέσματα της μελέτης ενός μεμονωμένου δικτύου (Labatut V. et al 2010). Αυτό λοιπόν οδηγεί στην μελέτη των τεχνητών (artificial) δικτύων, ώστε να αρθούν οι παραπάνω περιορισμοί. Τα πρώτα τεχνητά δίκτυα δημιουργήθηκαν από τους Girvan και Newman. Πρόκειται για δίκτυα που αποτελούνταν το καθένα από 128 κορυφές, οι οποίες κατανέμονται σε 4 κοινότητες. Κάθε κόμβος της κοινότητας συνδέεται με 16 άλλους κόμβους, οι οποίοι κάποιοι από αυτούς βρίσκονται στην ίδια κοινότητα και κάποιοι σε διαφορετικές (Girvan M. et al 2001). Στην Εικόνα 7 εμφανίζονται παραδείγματα γραφημάτων Girvan και Newman, όπου από τα αριστερά προς τα δεξιά αυξάνονται οι συνδέσεις των κόμβων με άλλους που δεν βρίσκονται στην ίδια κοινότητα.
21 Εικόνα 7: Παραδείγματα γραφημάτων Girvan Newman (Forunato S.) Τα τεχνητά δίκτυα όμως των Girvan-Newman είχαν κάποια προβλήματα: δεν ακολουθούσαν την power-law κατανομή, οι κόμβοι όλοι είχαν τον ίδιο βαθμό, οι κοινότητες είχαν επίσης το ίδιο μέγεθος και τα δίκτυα ήταν μικρά (Cherifi H et al 2011), (Fortunato S. et al 2008), πράγμα που σήμαινε ότι δεν είχαν καμία σχέση με τα πραγματικά δίκτυα. Έτσι δημιουργήθηκαν τα τεχνητά δίκτυα LFR (από τα ονόματα των δημιουργών τους Lancichinetti, Fortunato, Radicchi). Ο LFR αλγόριθμος σχεδιάστηκε για να δημιουργεί δίκτυα μη-κατευθυνόμενα και χωρίς βάρη. Αργότερα βέβαια έγιναν και υλοποιήσεις για δίκτυα με βάρη και για περιπτώσεις κοινοτήτων που έχουν αλληλοεπικάλυψη. Οι παράμετροι που ελέγχονται από το LFR είναι: ο αριθμός των κόμβων του δικτύου n, ο μέσος βαθμός k και ο μέγιστος βαθμός k max, ο εκθέτης γ της power-law κατανομής για την κατανομή των βαθμών, ο εκθέτης β της power-law κατανομής για την κατανομή των μεγεθών των κοινοτήτων και ο mixing coefficient μ. Ο mixing coefficient μ δείχνει το μέσο ποσοστό των ακμών ανάμεσα σε έναν κόμβο και σε κόμβους που δεν είναι στην ίδια κοινότητα με αυτόν (Cherifi H. et al 2011). Στα πειράματα που έκαναν οι δημιουργοί του LFR της power-law κατανομής θεώρησαν ότι για να είναι ένα δίκτυο πιο κοντά στην πραγματικότητα, θα πρέπει να είναι 2γ 3 και 1 β 2 (Fortunato s. et al 2008). Παρατίθεται ενδεικτικά ένα δίκτυο μικρό της τάξης των 500 κόμβων με αυτήν την μέθοδο στην Εικόνα 8. Όμως παρόλο τη βελτίωση που επιτεύχθηκε με τον αλγόριθμο LFR, υπήρχαν κάποια χαρακτηριστικά του ενός πραγματικού δικτύου που δεν μπορούσαν να είναι υπό έλεγχο. Έτσι ενώ μπορούσαν να καθοριστούν το μέγεθος του δικτύου, η κατανομή των βαθμών με την power-law κατανομή και το μέγεθος των κοινοτήτων, δεν μπορούσαν να καθοριστούν η transitivity και η συσχέτιση των βαθμών (degree
22 Εικόνα 8: Παράδειγμα δικτύου με 500 κόμβους με το μοντέλο LFR (Fortunato S. et al 2008) correlation), γιατί ήταν άμεσα εξαρτώμενα από το mixing coefficient μ (Cherifi H. et al 2011). Οι Orman και Labatut (Labatut V. et al 2010) έδωσαν λύση σε αυτό το θέμα με την αντικατάσταση στον αλγόριθμο LFR της διαδικασίας του Configuration Model που διατηρεί το μόνο το μέγεθος του δικτύου και την κατανομή των βαθμών (Labatut V. et al 2010), (Mollo M. et al 1995) με το Preferential Attachment Model που δημιουργεί δίκτυα που έχουν την ιδιότητα του μικρού κόσμου (small-world networks), ακολουθώντας την power-law κατανομή και έχουν σημαντικά μεγάλη transitivity (Labatut V. et al 2010), (Albert R. et al 1999) κάνοντας τα τεχνητά δίκτυα να μπορούν να προσομοιάσουν καλύτερα στα πραγματικά.
23 Κεφάλαιο 2ο ΑΛΓΟΡΙΘΜΟΙ 2.1 Αλγόριθμος Edge Betweenness 2.1.1 Εισαγωγή Μέχρι το 2001 η παραδοσιακή μέθοδος για την ταξινόμηση των κόμβων ενός δικτύου σε κοινότητες ήταν η ιεραρχική ανάλυση κατά συστάδες (hierarchical clustering) βασισμένη στον ορισμό μιας συνάρτησης απόστασης (στάθμισης) μεταξύ των κόμβων i, j. Μεγαλύτερο βάρος δινόταν σε ακμές που συνέδεαν κόμβους μέσα στις κοινότητες (intra-communities edges) και μικρότερο βάρος σε ακμές που συνέδεαν κόμβους που βρίσκονταν σε διαφορετικές κοινότητες (inter-communities edges). Έτσι ξεκινώντας από ένα δίκτυο χωρίς ακμές οι συνηθισμένοι αλγόριθμοι πρόσθεταν βήμα-βήμα τις ακμές που βρίσκονταν μέσα στις κοινότητες και στα τελικά βήματα τις ακμές μεταξύ των κοινοτήτων (προσθετική μέθοδος-agglomerative). Όπως παρατήρησαν οι Girvan και Newman το 2001 (Girvan M. et al 2001), η προηγούμενη μέθοδος δεν λειτουργούσε σωστά σε περιπτώσεις που οι κοινότητες ήταν εκ των προτέρων γνωστές ενώ ένα από τα κύρια προβλήματά της ήταν η καταχώρηση των κόμβων βαθμού 1 (φύλλων του δικτύου) σε αυτόνομες κοινότητες. Η πρότασή τους για να λυθεί το προηγούμενο πρόβλημα (όπως και άλλες παθογένειες της μεθόδου) βασίστηκε σε γενίκευση της ενδιάμεσης κεντρικότητας τον κόμβων (betweenness centrality) που είχε προταθεί από τον Freeman (Freeman L.C. 1977) ενώ είχε χρησιμοποιηθεί σε αδημοσίευτη εργασία από τον Anthonisse το 1971 (Anthonisse J.M 1971). Ο αλγόριθμος που χρησιμοποίησαν ανήκει στην κατηγορία των αλγορίθμων ιεραρχικής ανάλυσης κατά συστάδες (hierarchical clustering) με τη μέθοδο της διαιρετότητας (divisive method) ενώ όσον αφορά την εύρεση των κοινοτήτων με διαμέριση του δικτύου (partitioning) ανήκει στην κατηγορία της κεντρικότητας με βάση τις ακμές του δικτύου (link centrality) (Balasque J.M et al 2012). W ij
24 2.1.2 Περιγραφή του Αλγορίθμου Η ενδιάμεση κεντρικότητα c () v ενός κόμβου v κατά τον Freeman (Freeman b L.C. 1977), εκφράζει το πλήθος των γεωδαισιακών μεταξύ οποιονδήποτε κόμβων του δικτύου που διέρχονται από τον κόμβο και αναλυτικά μπορεί να οριστεί με τη σχέση: c v () v st b() svt st όπου st είναι το πλήθος των γεωδαισιακών που συνδέουν τους κόμβους s και t ενώ () v είναι το πλήθος των γεωδαισιακών που συνδέουν τους κόμβους s και t και st διέρχονται από τον κόμβο v. με τη σχέση: (11) Αντίστοιχα, η ενδιάμεση κεντρικότητα Cb () e μιας ακμής e μπορεί να οριστεί C () e st b() e svt st όπου st είναι το πλήθος των γεωδαισιακών που συνδέουν τους κόμβους s και t ενώ st () e είναι το πλήθος των γεωδαισιακών που συνδέουν τους κόμβους s και t και διέρχονται από την ακμή e. (12) Έτσι, ενώ η ενδιάμεση κεντρικότητα για ένα κόμβο εκφράζει το πλήθος των γεωδαισιακών του δικτύου που διέρχονται από αυτόν, η ενδιάμεση κεντρικότητα μιας ακμής εκφράζει, κατά αντιστοιχία, το πλήθος των γεωδαισιακών του δικτύου που διέρχονται από την ακμή αυτή. Επομένως, ακμές μεταξύ διαφορετικών κοινοτήτων αναμένεται να έχουν μεγάλη ενδιάμεση κεντρικότητα αφού θα περιέχονται αναγκαστικά σε κάθε γεωδαισιακή που συνδέει ζεύγη κόμβων που βρίσκονται σε διαφορετικές κοινότητες. Τα βήματα που αποτυπώνουν τη φιλοσοφία του αλγορίθμου των Newman και Girvan είναι τα ακόλουθα: 1) Υπολογισμός της ενδιάμεσης κεντρικότητας για όλες τις ακμές του δικτύου. 2) Αφαίρεση από το δίκτυο της ακμής με τη μεγαλύτερη ενδιάμεση κεντρικότητα (divisive method). 3) Επαναϋπολογισμός της ενδιάμεσης κεντρικότητας για τις ακμές του δικτύου μετά την αφαίρεση της ακμής με τη μεγαλύτερη ενδιάμεση κεντρικότητα. 4) Επανάληψη του βήματος 2 μέχρι να μην μείνει καμία ακμή στο δίκτυο.
25 Ο υπολογισμός της κεντρικής διαμεσότητας των ακμών είναι μια δύσκολη διαδικασία. Με βάση τον ορισμό του Freeman, αν για παράδειγμα υπάρχουν 3 γεωδαισιακές μεταξύ δυο κορυφών τότε κάθε μια από αυτές σταθμίζεται με βάρος 1 3, έτσι αρκεί να βρεθεί πόσες από αυτές διέρχονται από την ακμή για την οποία υπολογίζεται η διαμεσότητα. Οι Girvan και Newman για να υπολογίσουν το πλήθος των γεωδαισιακών που διέρχονται από κάθε ακμή του δικτύου βασίστηκαν στην εργασία του Brandes (Brandes U. 2001) και πρότειναν μια γενίκευση του αλγορίθμου breadth-first search. Ο αλγόριθμος των Girvan και Newman υπολογίζει, για κάθε κόμβο του δικτύου ένα βάρος για κάθε ακμή ενώ στο τέλος η διαμεσότητα των ακμών βρίσκεται με πρόσθεση των βαρών αυτών. Για κάθε κόμβο του δικτύου, η διαδικασία αυτή που αποτελείται από δυο ομάδες βημάτων α) και β), περιγράφεται για τον τυχαίο κόμβο s του μη κατευθυνόμενου δικτύου χωρίς βάρη της Εικόνας 9 (Girvan M. et al 2001) παρακάτω. Αξίζει να σημειωθεί ότι ο αλγόριθμος του Brandes (όπως και των Girvan και Newman), μπορεί να εφαρμοστεί σε κατευθυνόμενα δίκτυα με ή χωρίς βάρη και χρησιμοποιείται στη βιβλιοθήκη igraph της γλώσσας προγραμματισμού R. Βήματα α) Υπολογισμός βάρους w v του κόμβου v (πλήθος γεωδαισιακών μέχρι τον v ). α.1) Στο αρχικό κόμβο s η τιμή της απόστασης είναι ds 0 και το βάρος w 1 α.2) Για κάθε κόμβο i που είναι γείτονας του s η τιμή της απόστασης είναι d d 1 και το βάρος w w 1. i s i s α.3) Για κάθε κόμβο j γείτονα με κάποιον από τους κόμβους i, εφαρμόζεται ένα από τα επόμενα: α.3.1) Αν στον j δεν έχει εκχωρηθεί τιμή απόστασης, τότε δίνεται η τιμή s d j di 1 και βάρος wj wi. α.3.2) Αν στον j έχει εκχωρηθεί τιμή απόστασης ίση με d d 1, τότε το βάρος του κόμβου αυξάνεται και γίνεται wj wj wi. α.3.3) Αν στον j έχει ήδη εκχωρηθεί η απόσταση και είναι d d 1, τότε δεν δεν αλλάζει κάτι. j j i i
26 α.4) Ο αλγόριθμος επαναλαμβάνεται από το βήμα 3 μέχρι να μην μείνουν καθόλου κόμβοι τέτοιοι ώστε να τους έχουν εκχωρηθεί τιμές απόστασης, ενώ δεν έχουν εκχωρηθεί στους γείτονές τους. β) Υπολογισμός βαρών για τις ακμές (Brandes U. 2001) β.1) Εντοπίζεται κάθε φύλλο (leaf) t, δηλαδή κάθε κόμβος τέτοιος ώστε να μην υπάρχουν γεωδαισιακές από τον αρχικό κόμβο s προς άλλους κόμβους που να διέρχονται από τον κόμβο t. wi β.2) Για κάθε κόμβο i που γειτονεύει με τον κόμβο t δίνεται βάρος w it, w στην ακμή it,. β.3) Στη συνέχεια υπολογίζονται τα βάρη των ακμών με αρχή τον κόμβο (-ους) που είναι πιο μακριά από τον αρχικό κόμβο s (όπως καταγράφηκαν στο μέρος α)). Σε κάθε ακμή από τον κόμβο i στον κόμβο j, με τον j να βρίσκεται πιο μακριά από τον s σε σχέση με τον i, δίνεται βάρος που είναι κατά 1 μεγαλύτερο από το άθροισμα των βαρών των γειτονικών της ακμών που είναι κάτω από αυτή ενώ το άθροισμα αυτό πολλαπλασιάζεται με w i w. j β.4) Επαναλαμβάνεται το βήμα 3 μέχρι τον αρχικό κόμβο s. t Εικόνα 9: Περιγραφή λειτουργίας αλγορίθμου υπολογιστικά σε περίπτωση (a) μιας γεωδαισιακής από τον κόμβο προς τους υπόλοιπους κόμβους του δικτύου και (b) περισσότερων της μιας γεωδαισιακής από τον κόμβο προς τους υπόλοιπους κόμβους του δικτύου, από τους Newman και Girvan (Girvan M. et al 2004) Στην περίπτωση (a) της Εικόνας 9 οι γεωδαισιακές είναι μοναδικές, έτσι τα βάρη των ακμών υπολογίζονται εύκολα είτε με απαρίθμηση των γεωδαισιακών είτε με εφαρμογή του αλγορίθμου όπως παρουσιάζεται για την περίπτωση (b). Για την περίπτωση (b) της Εικόνας 9 αρχικά υπολογίζονται τα βάρη των κόμβων όπως περιγράφεται στον αλγόριθμο:
27 κόμβος s : ds 0 και w 1, κόμβος α : d d s 11 και w w 1, κόμβος β : d d s 11 και w w s 1 s a s, κόμβος β : d d 1 d 1 2 και w w w 2 αφού δυο ακμές καταλήγουν στον με την ίδια απόσταση, κόμβος δ : d d 1 2 και w w 1, δ β δ β κόμβος ε : d d 1 d 1 3 και w w w 3 (όπως για τον κόμβο β ), ε γ δ κόμβος ζ : d d 1 3 και w w 1. ζ δ ζ δ ε γ δ Έπειτα ξεκινώντας αντίστροφα από τους πιο απομακρυσμένους κόμβους υπολογίζονται τα βάρη των ακμών: wδ ακμή δζ, : ο κόμβος ζ είναι φύλλο, οπότε w δζ, 1, w ακμή δε, : δεν υπάρχουν γειτονικές ακμές σε χαμηλότερο επίπεδο, έτσι w δε, wδ 1 1, w 3 ε ακμή γε, : δεν υπάρχουν γειτονικές ακμές σε χαμηλότερο επίπεδο, έτσι w γε, wγ 2 1, w 3 ε ακμή βδ, : υπάρχουν δυο γείτονες ακμές σε χαμηλότερο επίπεδο έτσι, w wβ 7 (1 w δ, ε w δ, ζ) w 3, δ ακμή αγ, : υπάρχει μια γειτονική ακμή σε χαμηλότερο επίπεδο έτσι, w αγ, wα 5 1 w γε, w 6, γ 5 ακμή βγ, : όμοια με την προηγούμενη ακμή, w βγ, 6 ws 11 ακμή s, α : w s, α 1 w α, γ w 6 α ws 25 ακμή s, β : w s, β 1 w β, γ w β, δ w 6 β ζ βδ,
28 Μετά την εκτέλεση του αλγορίθμου πρέπει να βρεθεί ο βέλτιστος αριθμός κοινοτήτων και οι κόμβοι που ανήκουν σε κάθε μια από αυτές. Οι Girvan και Newman το 2001 χρησιμοποίησαν το δενδροδιάγραμμα στο οποίο αποτυπώνεται το αποτέλεσμα της ιεραρχικής ανάλυσης κατά συστάδες, ενώ το 2004 όρισαν και χρησιμοποίησαν την έννοια της δομικότητας (modularity). Το αποτέλεσμα και με τις δυο μεθόδους ελέγχθηκε σε πραγματικά αλλά και τυχαία κατασκευασμένα δίκτυα. Ένα από τα πραγματικά δίκτυα ήταν και το δίκτυο των μελών μιας σχολής καράτε που δημοσιεύτηκε σε εργασία του ανθρωπολόγου Zachary (Zachary W.W. 1977). Πρόκειται για μια σχολή καράτε που έπειτα από διαφωνία ως προς το ύψος των διδάκτρων μεταξύ του ιδιοκτήτη και του δασκάλου, ο δάσκαλος έφυγε και τον ακολούθησαν κάποιοι από τους μαθητές, έτσι δημιουργήθηκαν 2 κοινότητες. Στην Εικόνα 10, αριστερά διακρίνονται στο δίκτυο οι κοινότητες στις οποίες ανήκει ο κάθε κόμβος-μέλος της σχολής του καράτε μετά τη διαφωνία του ιδιοκτήτη με τον δάσκαλο, με εξαίρεση τον κόμβο 3 που έχει ταξινομηθεί σε λάθος κοινότητα, ενώ δεξιά, οι τιμές της δομικότητας αντιστοιχίζονται με τα σημεία στα οποία μπορούμε να διαιρέσουμε το δενδροδιάγραμμα ώστε να πάρουμε το βέλτιστο πλήθος κοινοτήτων (συστάδες - clusters). Εικόνα 10: Οι κοινότητες της σχολής καράτε του Zachary και η αντιστοίχηση δενδροδιαγράμματος και δομικότητας (Girvan M. et al 2004) 2.1.3 Παρατηρήσεις Ο αλγόριθμος αυτός έχει υλοποιήσεις για απλά μη-κατευθυνόμενα αλλά και για κατευθυνόμενα γραφήματα (Balasque J.M et al 2012). Όσον αφορά τη δομικότητα
29 προβληματίζει το γεγονός ότι ο βέλτιστος διαχωρισμός του δικτύου σε κοινότητες δεν επιτυγχάνεται στο μέγιστο της δομικότητας, αλλά σε κάποιο τοπικό μέγιστο, όπως είδαμε στο παράδειγμα της σχολής καράτε του Zachary, στο οποίο εφάρμοσε τον αλγόριθμο ο Newman (Girvan M. et al 2004). Το πλεονέκτημα του αλγορίθμου αυτού είναι ότι δουλεύει σε όλα τα δίκτυα με πολύ καλά αποτελέσματα, από ισχυρά συνδετικά μέχρι και αρκετά αραιά δίκτυα. Το μειονέκτημά του είναι το μεγάλο του υπολογιστικό κόστος, που μπορεί για ένα αραιό δίκτυο να φτάνει το 3 On ( ), όπου n οι κόμβοι του δικτύου, κάτι που τον καθιστά αναποτελεσματικό για μεγάλα δίκτυα, όπως είναι αυτά που ερευνούνται στις μέρες μας. Προκειμένου να μειωθεί αυτό το υπολογιστικό κόστος έγινε προσπάθεια για βελτίωση του αλγορίθμου. Μετά τον υπολογισμό της ενδιάμεσης κεντρικότητας για όλες τις συνδέσεις του δικτύου γινόταν αφαίρεση της ακμής με τη μεγαλύτερη τιμή, μετά αυτής που είχε την αμέσως μεγαλύτερη, κ.ο.κ. μέχρι να φτάσει στο σημείο να αφαιρεθούν όλες οι ακμές. Με αυτήν την μεθοδολογία είναι προφανές ότι το υπολογιστικό κόστος μειώνεται αισθητά, καθώς δεν είναι απαραίτητος ο επαναϋπολογισμός σε κάθε βήμα της ενδιάμεσης κεντρικότητας για τις υπόλοιπες συνδέσεις του δικτύου μετά την αφαίρεση μιας ακμής. Όμως ο τρόπος αυτός εγκαταλείφτηκε, γιατί σε δίκτυα που οι κοινότητες συνδέονται μεταξύ τους με περισσότερες από μία ακμές, δεν είναι σίγουρο ότι όλες οι ακμές αυτές θα έχουν μεγάλη ενδιάμεση κεντρικότητα, αλλά το ότι θα έχει μεγάλη ενδιάμεση κεντρικότητα τουλάχιστον μία από τις ακμές αυτές και αυτό επιβεβαιώνεται με τον επαναϋπολογισμό της ενδιάμεσης κεντρικότητας για τις ακμές αυτές μετά την αφαίρεση της ακμής με την μεγαλύτερη ενδιάμεση κεντρικότητα (Girvan M. et al 2001). 2.2 Αλγόριθμος Fast Greedy 2.2.1 Εισαγωγή Ο ορισμός της δομικότητας, ως κριτήριο για την εύρεση του βέλτιστου πλήθους κοινοτήτων μετά τη χρήση κάποιου αλγορίθμου το 2003, από τους Newman και Girvan (Girvan M. et al 2004) έδωσε στον Newman την ιδέα της κατασκευής ενός αλγορίθμου, του οποίου σκοπός θα ήταν η μεγιστοποίηση της δομικότητας, αφού με αυτόν τον τρόπο θα μπορούσε να διαμερίσει ένα δίκτυο σε κοινότητες με τον καλύτερο δυνατό
30 τρόπο. Έτσι έφτιαξε έναν αλγόριθμο που χρησιμοποιεί την ιεραρχική ανάλυση κατά συστάδες με την προσθετική διαδικασία (agglomerative method), ο οποίος όσον αφορά την εύρεση κοινοτήτων με διαμέριση του δικτύου ανήκει στην κατηγορία των αλγορίθμων που βασίζονται στην πυκνότητα (density) (Balasque J.M. et al 2012). 2.2.2 Περιγραφή του Αλγορίθμου Η φιλοσοφία του αλγορίθμου του Newman είναι: θεωρούμε τον κάθε κόμβο του δικτύου από μόνο του ως μια κοινότητα και με σημείο αναφοράς το αρχικό δίκτυο συνδέουμε τους μεμονωμένους κόμβους-κοινότητες μεταξύ τους με τέτοιο τρόπο ώστε να πετυχαίνουμε τη μεγαλύτερη δυνατή αύξηση (ή την μικρότερη μείωση) της δομικότητας σε κάθε βήμα του αλγορίθμου. Η πορεία του αλγορίθμου μπορεί να αναπαρασταθεί με ένα δενδροδιάγραμμα, από το οποίο μπορούμε να πάρουμε κοινότητες σε όποια φάση του αλγορίθμου επιθυμούμε, όπως είδαμε και στον αλγόριθμο Εdge Βetweenness (Newman M.E.J. 2 2004). Την ίδια χρονιά (2004), οι Clauset, Newman και Moore πρότειναν βελτιώσεις στον αλγόριθμο Fast Greedy του Newman και έτσι προήλθε και η τελική μορφή του συγκεκριμένου αλγορίθμου, παίρνοντας και την ονομασία του από τα αρχικά των επιθέτων των δημιουργών του (CNM). Στην αρχική του μορφή ο αλγόριθμος αποθήκευε τον πίνακα γειτνίασης του δικτύου (adjacency matrix) και σε κάθε βήμα του ανανέωνε τα στοιχεία του ενώνοντας γραμμές και στήλες που αντιστοιχούσαν στις κοινότητες που συνδέονταν. Βέβαια, σε αραιά δίκτυα υπάρχει πρόβλημα, γιατί μέσα στον πίνακα σύνδεσης του δικτύου υπάρχουν πολλά μηδενικά, κάτι το οποίο κάνει την εκτέλεση του αλγορίθμου απαιτητική σε χρήση μνήμης και χρόνου υπολογισμού, ανάλογα με την τάξη και το μέγεθος του δικτύου προς μελέτη. Η βελτίωση που πρότειναν οι Clauset, Newman και Moore είχε να κάνει με το εξής: εκεί που υπήρχε ο πίνακας γειτνίασης και αυτός ενημερώνονταν με βάση τις διαφορές της δομικότητας που προέκυπταν σε κάθε βήμα του αλγόριθμου, τώρα υπολογίζονται οι διαφορές της δομικότητας σε κάθε βήμα του αλγορίθμου και μόνον αυτές. Έτσι οι υπολογισμοί γίνονται μόνο στις κοινότητες που συνδέονται μεταξύ τους, καθώς κοινότητες που δεν συνδέονται μεταξύ τους δεν δίνουν κάποια αύξηση στην τιμή της δομικότητας. Προκειμένου να επιτευχθεί αυτό χρησιμοποιούνται 3 δομές δεδομένων: 1) Ένας αραιός (sparse) πίνακας με τις διαφορές της δομικότητας Qij για κάθε ζευγάρι i, j κοινοτήτων που συνδέονται με τουλάχιστον μια ακμή μεταξύ τους. Η κάθε
31 γραμμή που δημιουργείται από αυτές τις διαφορές του πίνακα μορφή ενός δυαδικού δέντρου. Qij αποθηκεύεται με τη 2) Ένα δυαδικό δένδρο max-heap H (δυαδικό δέντρο για τον υπολογισμό του μέγιστου στοιχείου ανάμεσα στους γονείς και τα παιδιά ), που περιέχει το μεγαλύτερο στοιχείο της κάθε γραμμής του παραπάνω πίνακα διαφορών Qij και τις ετικέτες των αντίστοιχων κοινοτήτων (Wikipedia/Min-max heap), (Wikipedia/Binary heap). 3) Έναν πίνακα διάνυσμα με τα στοιχεία i (όπως ορίζεται κατά τον ορισμό της δομικότητας). Στο πρώτο βήμα, καθώς κάθε κόμβος αποτελεί κοινότητα, υπολογίζονται οι επόμενες αρχικές τιμές: και 1 kk i ΔQ 2m i, j 2 0, j m 2, αν i, j είναι γείτονες αλλιώς (13) ki αi (14) 2m Στις παραπάνω σχέσεις, Qij είναι οι διαφορές στη δομικότητα που προκύπτουν από πρόσθεση της ακμής μεταξύ των κόμβων (κοινοτήτων) i, j, m είναι το μέγεθος του δικτύου (πλήθος ακμών), k, k είναι ο βαθμός των κόμβων i, j αντίστοιχα και α i όπως δίνεται στον ορισμό της δομικότητας. Ο αλγόριθμος προχωρά με τα εξής βήματα: i j 1) Υπολογισμός των Qij και i σύμφωνα με τις σχέσεις (1) και (2) και ενημέρωση του δυαδικού δένδρου H με το μεγαλύτερο στοιχείο της κάθε γραμμής του πίνακα Q. 2) Επιλογή του μεγαλύτερου στοιχείου Qij από το δυαδικό δένδρο H, συνδέοντας τις αντίστοιχες κοινότητες, ανανεώνοντας τον πίνακα Q, το δυαδικό δένδρο H και το i (όπως περιγράφονται παρακάτω) και αυξάνοντας το Q κατά Qij 3) Επανάληψη του βήματος 2 μέχρι να παραμείνει μόνο μια κοινότητα. Όταν συνδέουμε τις κοινότητες i και j, ονομάζουμε την κοινότητα που προκύπτει από τη
32 συγχώνευση j και ταυτόχρονα ενημερώνουμε την j γραμμή και στήλη και αφαιρούμε την i γραμμή και στήλη. Οι κανόνες ανανέωσης είναι οι εξής: Αν η κοινότητα k συνδέεται και με την i και με την j κοινότητα, τότε: ΔQ ΔQ ΔQ (15α) jk ik jk Αν η κοινότητα k συνδέεται με την i αλλά όχι με την j, τότε: ΔQ ΔQ 2αα (15β) jk ik j k Αν η κοινότητα k συνδέεται με την j αλλά όχι με την i, τότε: ΔQ ΔQ 2αα (15γ) jk jk i k Σημειώνουμε εδώ το γεγονός ότι οι παραπάνω τρεις ισότητες υποδηλώνουν ότι η Q θα έχει ένα μέγιστο κατά τη διάρκεια εκτέλεσης του αλγορίθμου και μετά το μεγαλύτερο Q θα γίνει αρνητική καθώς όλα τα Q που θα ακολουθούν θα την μειώνουν. Στις ανανεώσεις τέλος έχει μείνει ακόμα μία και αφορά τα i, για τα οποία έχουμε: αj α j αi (16) Ακολουθεί ένα παράδειγμα από εκτέλεση του αλγορίθμου που έκαναν οι δημιουργοί του CNM. Πρόκειται για ένα δίκτυο που προήλθε από το διαδικτυακό κατάστημα Amazon και αφορά τις πωλήσεις του Αυγούστου του 2003. Στο δίκτυο αυτό οι κόμβοι αποτελούν τα προϊόντα του Amazon και οι ακμές του δικτύου αποτυπώνουν τα δέκα δημοφιλέστερα προϊόντα που αγοράζει κάποιος από το Amazon, με την προϋπόθεση ότι έχει αγοράσει ήδη κάποιο προϊόν. Όπως είναι κατανοητό πρόκειται για ένα κατευθυνόμενο δίκτυο, αλλά εδώ οι Clauset, Moore και Newman το μελέτησαν σαν ένα μη-κατευθυνόμενο. Το δίκτυο συγκεκριμένα που μελέτησαν αντιπροσωπεύει την μεγαλύτερη συνιστώσα και αποτελείται από 409687 κόμβους και 2464630 ακμές. Το δενδροδιάγραμμα σε ένα δίκτυο είναι αδύνατο να σχεδιαστεί, αλλά έχει γίνει γραφική παράσταση με την μεταβολή της δομικότητας στην Εικόνα 11 που φτάνει στη μέγιστη τιμή Q 0.745. Επίσης δημιουργήθηκαν 1684 κοινότητες με μέσο όρο κόμβων 243, όπου δέκα μεγαλύτερες κοινότητες αποτελούνται το 87% του συνόλου του δικτύου. Τέλος στην ίδια Εικόνα 11 δίνεται μια γραφική αναπαράσταση του δικτύου στο βήμα της μέγιστης δομικότητας και στο οποίο διακρίνονται οι κύριες κοινότητες (major communities), οι κοινότητες δορυφόρους (satellite communities) και οι κοινότητες που είναι γέφυρες (bridges) (Clauset A. et al 2004).
33 2.2.3 Παρατηρήσεις Ο αλγόριθμος αυτός έχει υλοποιήσεις για απλά μη-κατευθυνόμενα γραφήματα με και χωρίς βάρη στις ακμές, ενώ δεν έχει υλοποίηση για κατευθυνόμενα γραφήματα Εικόνα 11: (α) Γραφική παράσταση της δομικότητας σε σχέση με το πλήθος των συγχωνεύσεων των κοινοτήτων στο δίκτυο της Amazon όπου παρατηρείται ότι η μέγιστη τιμή είναι η Q=0.745, (β) η αναπαράσταση του δικτύου της Amazon όπου με τις κύριες κοινότητες, τις κοινότητες γέφυρες (π.χ.ανάμεσα στην κάτω αριστερά και στην κάτω δεξιά, κοντά στο κέντρο) και γ) οι δέκα μεγαλύτερες του δικτύου της Amazon στους οποίους διακρίνεται το είδος και το πλήθος των κόμβων που αποτελούν την κάθε μία και που συνολικά αποτελούν το 87% του συνόλου του δικτύου (Clauset A. et al 2004) (Girvan M. et al 2004). Επίσης είχε καλά αποτελέσματα σε μεγάλο δίκτυο, όπως αυτό του Amazon που δοκίμασαν την υλοποίηση του οι Clauset, Newman και Moore (Clauset A. et al 2004).
34 Όσον αφορά την πολυπλοκότητα είναι σαφώς πιο γρήγορος από τον Edge 2 Betweenness, καθώς από On που ήταν όταν αναφερόμασταν σε αραιά δίκτυα 2 στην πρώτη του μορφή όταν τον εισήγαγε ο Newman, έφτασε να είναι στο Onlog n μετά τη βελτίωση που πρότειναν οι Clauset, Newman και Moore. 2.3 Αλγόριθμος Walktrap 2.3.1 Εισαγωγή Οι Pons και Latapy έκανα μια διαπίστωση που αποτελεί και την ιδέα του αλγορίθμου: οι τυχαίοι περίπατοι σε ένα δίκτυο τείνουν να παγιδεύονται (trapped) σε τμήματα του δικτύου που είναι πυκνά συνδεδεμένα μεταξύ τους και ανταποκρίνονται σε αυτό που περιγράφει ο ορισμός της κοινότητας. Έτσι χρησιμοποιώντας τους τυχαίους περιπάτους, όρισαν μια απόσταση για τη σύγκριση της ομοιότητας (similarity) τόσο μεταξύ των κόμβων, όσο και μεταξύ των κοινοτήτων. Δημιουργήθηκε λοιπόν ένας αλγόριθμος που χρησιμοποιεί την ιεραρχική ανάλυση κατά συστάδες με την προσθετική διαδικασία, ο οποίος όσον αφορά τη διαμέριση του δικτύου ανήκει στην κατηγορία των αλγορίθμων που χρησιμοποιούν ως κριτήριο την ομοιότητα των κόμβων (node similarity). (Balasque J.M. et al 2012). Η χρήση τυχαίων περιπάτων σε δίκτυα δεν ήταν κάτι καινούριο. Οι Francois Fouss, Alain Pirotte, Jean-Michel Renders Marco Saerens σε Μαρκοβιανά μοντέλα μελέτησαν την Ευκλείδεια Χρονική Απόσταση Μετατροπής (Euclidean Commute Time Distance) βασισμένη στο μέσο χρόνο πρώτου περάσματος (average first-passage time) ενός περιπατητή. Μέσος χρόνος πρώτου περάσματος mk i ενός περιπατητή σε ένα Μαρκοβιανό μοντέλο είναι ο μέσος αριθμός βημάτων που χρειάζεται ένας τυχαίος περιπατητής για να φτάσει στην κατάσταση k για πρώτη φορά, όταν ξεκινάει από την κατάσταση i. Με βάση αυτόν ορίζεται ο μέσος χρόνος μετατροπής (average commute time) ni, j m j i m i j, που είναι μια μονάδα μέτρησης απόστασης για όλα τα ζευγάρια i, j των καταστάσεων. Έτσι δημιουργείται η Ευκλείδεια Χρονική Απόσταση Μετατροπής που είναι η ποσότητα 1 2 n i, j (Fouss F. et al 2007).
35 2.3.2 Περιγραφή του Αλγορίθμου Για την κατάταξη των κόμβων σε κοινότητες είναι απαραίτητο να εισαχθεί μια απόσταση, η οποία θα πρέπει να παίρνει μεγάλες τιμές για δύο κόμβους που βρίσκονται σε διαφορετικές κοινότητες και μικρές τιμές για δύο κόμβους που βρίσκονται στην ίδια κοινότητα. Αρχικά ορίζεται η πιθανότητα μετάβασης από έναν κόμβο i σε έναν κόμβο j που δίνεται από τη σχέση: P ij Aij (17) di () όπου A ij είναι το στοιχείο στην i γραμμή και στην j στήλη του πίνακα γειτνίασης A και di () ο βαθμός του κόμβου i. Αν t P ij είναι η πιθανότητα μετάβασης από έναν κόμβο i σε έναν κόμβο j μέσω ενός τυχαίου περιπάτου μήκους t, τότε για δύο κόμβους i και j τότε: Αν δύο κόμβοι i και j ανήκουν στην ίδια κοινότητα, τότε η πιθανότητα θα πρέπει να είναι μεγάλη. Το αντίστροφο όμως δεν ισχύει, δηλαδή αν δύο κόμβοι i και j έχουν μεγάλη πιθανότητα κοινότητα. Η πιθανότητα t P ij t P ij, τότε απαραίτητα δεν θα ανήκουν στην ίδια t P ij επηρεάζεται από τους βαθμούς d j του κόμβου j, επειδή ο περιπατητής έχει μεγαλύτερη πιθανότητα να μεταβεί σε κόμβους που έχουν μεγαλύτερο βαθμό. Δύο κόμβοι της ίδιας κοινότητας τείνουν να βλέπουν όλους τους άλλους κόμβους με τον ίδιο τρόπο. Επομένως για τους κόμβους i και j που ανήκουν στην ίδια κοινότητα θα ισχύει για κάθε βήμα k : t ij P t ji P. Με βάση τα παραπάνω ορίζεται η απόσταση r ij μεταξύ δύο κόμβων i και j του δικτύου με τη σχέση: r ij k 1 t ik t jk 2 n P P (18) d k όπου n είναι το πλήθος των κόμβων του δικτύου (τάξη του δικτύου).
36 Από την απόσταση μεταξύ δύο κόμβων προκύπτει γενικεύοντας, η απόσταση μεταξύ δύο κοινοτήτων. Έτσι ορίζεται η t P Cj που είναι η πιθανότητα μετάβασης από κοινότητα C σε έναν κόμβο j σε t βήματα και δίνεται από τη σχέση: t Cj P 1 t P (19) C i C ij όπου όταν γίνεται αναφορά σε μετάβαση από κοινότητα χρησιμοποιείται ως σημείο αναφοράς ένας τυχαία επιλεγμένος κόμβος της. Έτσι ορίζεται η απόσταση μεταξύ δύο κοινοτήτων C 1 και C 2 του δικτύου από τη σχέση: r CC 1 2 n 2 1 2 (20) k1 t C k P P d k t C k Η διαδικασία της εκτέλεσης του αλγορίθμου βασίζεται στη μέθοδο του Ward όσον αφορά την ιεράρχηση κατά συστάδες με την προσθετική διαδικασία (Ward J.H. 1963). Έτσι, ξεκινάει από μια διαμέριση (partition) P 1 του γραφήματος σε n κοινότητες που η καθεμία αποτελείται από έναν μεμονωμένο κόμβο και υπολογίζονται όλες οι αποστάσεις για τους γειτονικούς κόμβους. Σε κάθε βήμα k : επιλέγονται δύο κοινότητες C 1 και C 2 δημιουργώντας τη διαμέριση P k και υπολογίζεται η απόσταση που ορίστηκε παραπάνω, συνδέονται αυτές οι δύο κοινότητες σε μια καινούρια C3 C1 C2 και δημιουργείται μια καινούρια διαμέριση Pk 1, ανανεώνονται οι αποστάσεις μεταξύ των κοινοτήτων. Ο τρόπος που δουλεύει ο αλγόριθμος μπορεί να αναπαρασταθεί από ένα δενδροδιάγραμμα. Προκειμένου να συνδεθούν οι κοινότητες σε κάθε βήμα k, επιλέγονται αυτές που ελαχιστοποιούν την μέση τιμή σ k, που δίνεται από τη σχέση: σ k 1 r (21) 2 ic n C P i C k Για δύο γειτονικές κοινότητες C 1 και C 2 που πρόκειται να συνδεθούν σε μια κοινότητα C, υπολογίζεται η διαφορά Δ, 3 σχέση: σ C C των δύο κοινοτήτων που δίνεται από τη 1 2
37 1 2 2 2 Δ σ C1, C2 ric r 3 ic r 1 ic2 n i C3 i C1 i C2 (22) Έτσι επιλέγονται προς σύνδεση οι κοινότητες που δίνουν τη μικρότερη διαφορά Δσ. Όσον αφορά τις συνδέσεις κοινοτήτων ισχύουν τα εξής: 1) Η αύξηση του σ μετά την σύνδεση δύο κοινοτήτων C 1 και C 2 εξαρτάται από την απόστασή τους r CC 1 2, δηλαδή: 1 C C Δ σ C, C CC n C C 1 2 2 1 2 r 1 2 1 2 (23) 2) Αν οι κοινότητες C 1 και C 2 συνδένται σε μια κοινότητα C 3, δηλαδή C3 C1 C2, τότε για κάθε άλλη κοινότητα του δικτύου ισχύει: Δ σ C, C 3 C1 C Δ σ C1, C C2 C Δ σ C2, C C Δ σ C1, C2 C C C 1 2 (24) (τύπος των Lance-Williams-Jambu) k 1 Ο αλγόριθμος που μελετήθηκε δημιουργεί μια ακολουθία από διαμερίσεις P, που η καθεμία αποτελείται από κοινότητες. Για την ποιοτική μελέτη του k n διαχωρισμού του δικτύου σε κοινότητες υπάρχει η δομικότητα, που δίνεται από τη σχέση: όπου 2 C C (25) CP Q P e α Q P η δομικότητα της διαμέρισης P, e C το κλάσμα των ακμών που βρίσκεται εντός της κοινότητας και α C το κλάσμα των ακμών της κοινότητας C με τις άλλες. Η μεγαλύτερη δομικότητα, όπως έχει ειπωθεί, δίνει και την καλύτερη διαμέριση του δικτύου σε κοινότητες. Οι συγγραφείς εδώ όρισαν μια καινούρια μετρική, γιατί η δομικότητα δεν ταιριάζει στις διαμερίσεις που αυτοί δουλεύουν στον αλγόριθμο τους. Όταν συνδέονται δύο διαφορετικές κοινότητες, η τιμή Δσ k σ k 1 σ k είναι μεγάλη. Αντίστροφα, η διαφορά αυτή είναι μικρή στο προηγούμενο βήμα k 1. Έτσι, εισάγεται ο λόγος η k που δίνεται από τη σχέση: η k Δσ σ σ Δσ σ σ k k1 k κ1 k k1 (26)
38 Οπότε η καλύτερη διαμέριση του δικτύου σε κοινότητες είναι εκεί που μεγιστοποιείται ο λόγος αυτός η k. Στις μετρήσεις που έκαναν οι συγγραφείς χρησιμοποίησαν την δομικότητα, γιατί πάνω σε αυτήν βασίζονται οι υπόλοιποι αλγόριθμοι που σύγκριναν. Υλοποίηση του αλγορίθμου και σύγκρισή του με τους δύο προηγούμενους αλγόριθμους που αναφέρονται σε αυτήν την διπλωματική πάνω στο δίκτυο της σχολής καράτε του Zachary. Η δομικότητα βρέθηκε να είναι 0.40 με τον αλγόριθμο Edge Betweenness, 0.39 με τον αλγόριθμο Fast Greedy και 0.38 με τον αλγόριθμο Walktrap με χρήση μήκους τυχαίου περιπάτου t 5 και t 2 (Latapy M. et al 2006). 2.3.3 Παρατηρήσεις Ο αλγόριθμος αυτός έχει υλοποιήσεις για απλά μη-κατευθυνόμενα γραφήματα με και χωρίς βάρη στις ακμές, ενώ δεν έχει υλοποίηση για κατευθυνόμενα γραφήματα (Balasque J.M. et al 2012), ενώ μπορεί να χρησιμοποιηθεί και σε δίκτυα που εμφανίζονται κοινότητες με αλληλοεπικάλυψη (Latapy M. et al 2006). Για τις τιμές t που χρησιμοποιούνται για την εκτέλεση του αλγορίθμου ισχύει 3t 8. Στα προγράμματα που υλοποιούν τον αλγόριθμο χρησιμοποιούνται συνήθως οι τιμές t 4 ή t 5 (π.χ. η R χρησιμοποιεί το t 4). Συνίσταται η χρήση μικρών τιμών για το t όταν πρόκειται για πυκνά συνδεδεμένα δίκτυα και μεγάλες τιμές όταν πρόκειται για αραιά συνδεδεμένα δίκτυα (Latapy M. et al 2006). Όσον αφορά την πολυπλοκότητα είναι σχετικά αργός αλγόριθμος, καθώς αυτή είναι στο On 2 log n (Balasque J.M et al 2012). Ακολουθεί ένα παράδειγμα σε ένα μικρό δίκτυο από τους συγγραφείς.
39 Εικόνα 12: (a) Το υπό μελέτη δίκτυο με χρήση μήκος τυχαίου περιπάτου, (b) το δενδροδιάγραμμα που δημιουργεί ο αλγόριθμος και (c) η γραφική παράσταση της δομικότητας (πράσινη γραμμή) και του λόγου n k (μαύρη γραμμή) σε κάθε βήμα k του αλγορίθμου (Latapy M. et al 2006) 2.4 Αλγόριθμος Louvain 2.4.1 Εισαγωγή Οι συγγραφείς είχαν ως σκέψη να δημιουργήσουν έναν αλγόριθμο που βασικός του σκοπός θα ήταν η μεγιστοποίηση της δομικότητας, όπως έκαναν στο παρελθόν οι Clauset, Newman και Moore. Το κύριο μειονέκτημα του αλγορίθμου των τριών αυτών ήταν ότι δεν μπορούσε να εφαρμοστεί σε μεγάλα δίκτυα λόγω της πολυπλοκότητάς του. Τα δίκτυα που μελετήθηκαν μέχρι στιγμής ήταν πλήθους το πολύ 400000 κόμβων, όπως του δικτύου πωλήσεων του Amazon. Το 2008 υπήρχαν δίκτυα πολύ μεγαλύτερης τάξης,, όπως ήταν των ενεργών μελών του Facebook που αριθμούσε περί τους 64000000 χρήστες, των συνδρομητών της Vodafone που αριθμούσε περί τους 200000000 συνδρομητές και του ευρετηρίου (index) της Google που αριθμούσε μερικά δισεκατομμύρια ιστοσελίδες (webpages). Ήταν λοιπόν αναγκαίο η δημιουργία ενός αλγορίθμου που θα έδινε τη δυνατότητα μελέτης τέτοιων δικτύων (Blondel V.D. et al 1 2008). Δημιουργήθηκε έτσι ένας αλγόριθμος που χρησιμοποιεί την ιεραρχική ανάλυση κατά συστάδες με την προσθετική διαδικασία (agglomerative method), ο
40 οποίος όσον αφορά την εύρεση κοινοτήτων με διαμέριση του δικτύου ανήκει στην κατηγορία των αλγορίθμων που βασίζονται στην πυκνότητα (density) (Balasque J.M. et al 2012). 2.4.2 Περιγραφή του Αλγορίθμου Έστω ένα δίκτυο με N κόμβους και με βάρη στις ακμές. Ο αλγόριθμος αποτελείται από δύο φάσεις που επαναλαμβάνονται συνεχώς σε κάθε βήμα του αλγορίθμου. 1 η φάση Αρχικά κάθε κόμβος θεωρείται ως μια κοινότητα. Έπειτα κάθε κόμβος i έστω ότι έχει γείτονες τους κόμβους j. Υπολογίζεται η διαφορά στη δομικότητα μετακινώντας τον κόμβο i σε κάθε έναν από τους γείτονές τους j και στο τέλος θα μείνει στην ίδια κοινότητα με εκείνον τον κόμβο j με τον οποίο πετυχαίνεται η μεγαλύτερη αύξηση στη δομικότητα. Αν δεν επιτυγχάνεται αύξηση στη δομικότητα, τότε παραμένει στην κοινότητα που ήταν. Για τη μείωση του υπολογιστικού κόστους μπορεί να οριστεί μια τιμή (threshold) για την οποία θεωρείται σημαντική η αύξηση της δομικότητας. Η σειρά με την οποία θα εξεταστούν οι κόμβοι δεν παίζει κάποιο ρόλο στην ταχύτητα του αλγορίθμου. Η διαφορά στη δομικότητα υπολογίζεται από τη σχέση: 2 2 2 in 2ki. in tot ki in tot ki (27) ΔQ 2m 2m 2m 2m 2m όπου ΔQ είναι η διαφορά στη δομικότητα, in είναι το άθροισμα των βαρών των ακμών εντός της κοινότητας, tot είναι το άθροισμα των βαρών των ακμών που σχετίζονται με κόμβους της κοινότητας, k i είναι το άθροισμα των βαρών των ακμών του κόμβου i, k i, in είναι το άθροισμα των βαρών των ακμών του κόμβου i εντός της κοινότητας και m είναι το άθροισμα των βαρών των ακμών όλου του δικτύου. Κατά αντιστοιχία με τη δομικότητα που ορίσαμε για απλό δίκτυο μηκατευθυνόμενο και χωρίς βάρη, για ένα δίκτυο απλό μη-κατευθυνόμενο με βάρη ο τύπος της δομικότητας θα είναι: 1 kk i j Q Aij δ ci, c j 2m i, j 2m (28)
41 όπου A ij είναι το βάρος της ακμής που συνδέει τους κόμβους i και j, ki j A ij είναι το άθροισμα των βαρών των ακμών του κόμβου i, c i είναι η κοινότητα στην οποία ανήκει ο κόμβος i, δ είναι το δέλτα του Kronecker, για το οποίο ισχύει ότι η συνάρτηση δ u, v παίρνει τις τιμές 1, αν u (Newman M.E.J. 1 2004). v και 0 αν u v και 1 m 2 ij A ij 2 η φάση Οι κοινότητες που δημιουργήθηκαν στην πρώτη φάση αποτελούν τους κόμβους του δικτύου που θα δημιουργηθούν στη δεύτερη φάση. Έτσι το άθροισμα των βαρών των ακμών που συνδέουν κόμβους δύο κοινοτήτων θα αποτελεί το συνολικό βάρος της ακμής που συνδέει τις δύο κοινότητες και οι ακμές μεταξύ των κόμβων της ίδιας κοινότητες αποτελούν βρόχους (self-loops) της κοινότητας. Έτσι γίνεται και η μείωση της πολυπλοκότητας του δικτύου (Arenas A. et al 2007). Ακολουθεί ένα παράδειγμα με ένα μικρό δίκτυο και την αναλυτική περιγραφή του τρόπου με τον οποίο δουλεύει ο αλγόριθμος. Εδώ το δίκτυο είναι χωρίς βάρη, οπότε θεωρείται ότι η κάθε ακμή έχει βάρος 1. Εικόνα 13: Τρόπος λειτουργίας του αλγορίθμου σε ένα δίκτυο, όπου σε κάθε επανάληψη διακρίνονται οι δύο φάσεις του (Blondel V.D. et al 1 2008) Παραπάνω στην κάτω αριστερή πλευρά της εικόνας εμφανίζεται το αρχικό μας δίκτυο (όλοι οι κόμβοι εμφανίζονται με γαλάζιο χρώμα. Στην πρώτη φάση γίνονται οι μετακινήσεις των κόμβων για τη δημιουργία των κοινοτήτων με στόχο την μεγιστοποίηση της δομικότητας. Έτσι προκύπτουν οι
42 τέσσερις κοινότητες που η καθεμία έχει τους δικούς της χρωματισμούς στους κόμβους της (κόκκινο, πράσινο, μπλε, γαλάζιο). Στη δεύτερη φάση η κάθε κοινότητα αναπαριστάται με έναν κόμβο. Έτσι δημιουργούνται: η πράσινη κοινότητα με 14 ακμές μεταξύ των μελών της που είναι οι: 0,2, 0,4, 0,5, 1,2, 1,4, 2,0, 2,1, 2,4, 2,5, 4,0, 4,1, 4,2, 5,0, 5, 2, η κόκκινη κοινότητα με 16 ακμές μεταξύ των μελών της που είναι οι: 8,9, 8,10, 8,14, 8,15, 9,8, 9,12, 9,14, 10,8, 10,12, 10,14, 12,9, 12,10, 14,8, 14,9, 14,10, 15,8, η μπλε κοινότητα με 4 ακμές μεταξύ των μελών της που είναι οι: 3,7, 6,7, 7,3, 7,6 και η γαλάζια κοινότητα με 2 ακμές μεταξύ των μελών της που είναι οι: 11,13, 13,11. Οι ακμές μεταξύ των μελών μιας κοινότητας αποτελούν βρόχους για την κοινότητα, όπως προαναφέρθηκε. Η πράσινη με την μπλε κοινότητα έχουν μεταξύ τους 4 ακμές, που είναι οι ακμές μεταξύ ενός κόμβου από την μία με έναν κόμβο από την άλλη που είναι οι 0,3, 1,7, 2,6, 5,7, η πράσινη με την κόκκινη κοινότητα έχουν μεταξύ τους μία ακμή που είναι η 4,10, η πράσινη με τη γαλάζια έχουν μεταξύ τους μία ακμή που είναι η 5,11, η μπλε κοινότητα με την γαλάζια έχουν μεταξύ τους μία ακμή που είναι η 8,11 και η κόκκινη κοινότητα με τη γαλάζια έχουν μεταξύ τους 3 ακμές που είναι οι 8,11, 10,11, 10,13. Έτσι προκύπτει το τετράγωνο με τη μία διαγώνιο και ολοκληρώνεται το πρώτο βήμα του αλγορίθμου. Κάνοντας την ίδια διαδικασία με τις δύο φάσεις ολοκληρώνεται και το δεύτερο βήμα του αλγορίθμου και προκύπτει στο κάτω δεξιό μέρος της Εικόνας 14 η γραμμή, στην οποία ο πράσινος κόμβος προέκυψε από την σύνδεση των της πράσινης και της μπλε κοινότητας του πρώτου βήματος και ο γαλάζιος κόμβος που προέκυψε από την σύνδεση της κόκκινης και της γαλάζιας κοινότητας. Η τελική πράσινη κοινότητα (πράσινη και μπλε μαζί) έχουν 26 ακμές μεταξύ των μελών της που είναι οι βρόγχοι της και είναι οι:
43 0,2, 0,3, 0,4, 0,5, 1,2, 1,4, 1,7, 2,0, 2,1, 2,4, 2,5, 2,6, 3,0, 3,7, 4,0, 4,1, 4,2, 5,0, 5,2, 5,7, 6,2, 6,7, 7,1, 7,3, 7,5, 7,6, και η τελική γαλάζια κοινότητα (κόκκινη και γαλάζια μαζί) έχουν 24 ακμές μεταξύ των μελών της που είναι οι βρόγχοι της και είναι οι: 8,9, 8,10, 8,11, 8,14, 8,15, 9,8, 9,12, 9,14, 10,8, 10,11, 10,12, 10,13, 10,13, 10,14, 11,8, 11,10, 11,13, 12,9, 12,10, 13,10, 13,11, 14,8, 14,9, 14,10, 15,8. Τέλος υπάρχουν και 3 ακμές που συνδέουν τις δύο αυτές κοινοτήτες που είναι οι 4,10, 5,11, 6,11. Ο αλγόριθμος αυτός εκτελέστηκε και στο δίκτυο καράτε του Zachary, όπου πέτυχε μέγιστη τιμή δομικότητας 0.42. Χρειάστηκαν 3 βήματα του αλγορίθμου: στο πρώτο βήμα οι 34 κόμβοι του δικτύου διαχωρίστηκαν σε 6 κοινότητες, στο δεύτερο έγιναν 4 και στο τρίτο δεν άλλαξε τίποτα και παρέμειναν 4 (Blondel V.D. et al 1 2008). Οι συγγραφείς είχαν τη δυνατότητα να δοκιμάσουν τον αλγόριθμό τους σε ένα πραγματικά μεγάλο δίκτυο, όπως ήταν το δίκτυο μιας εταιρείας κινητής τηλεφωνίας του Βελγίου. Πρόκειται για ένα δίκτυο απλό, μη-κατευθυνόμενο, με βάρη. Αποτελείται από 2500000 κόμβους που αντιστοιχούν στους συνδρομητές της εταιρείας και 38000000 ακμές που αντιστοιχούν στο σύνολο των ζευγαριών επικοινωνίας μεταξύ των συνδρομητών. Συνολικά πραγματοποιήθηκαν 810000000 επικοινωνίες μεταξύ των συνδρομητών, είτε πρόκειται για γραπτά μηνύματα (SMS), είτε για κλήσεις και αυτό αποτελεί το σύνολο των βαρών των ακμών του δικτύου (Blondel V.D. et al 2 2008). Όσον αφορά τη δομικότητα, η μέγιστη της τιμή ήταν Q 0.76, ενώ ο χρόνος εκτέλεσης του αλγορίθμου για το δίκτυο αυτό ήταν 2008). T 44 sec (Blondel V.D. et al 1 2.4.3 Παρατηρήσεις Για τον αλγόριθμο αυτό υπάρχουν υλοποιήσεις για δίκτυα απλά, μηκατευθυνόμενα, με και χωρίς βάρη. Η πολυπλοκότητα του είναι της τάξης του, κάτι που τον καθιστά πολύ γρήγορο και εφαρμόσιμο για μεγάλα δίκτυα (Balasque J.M. et al 2012). Σε όσα δίκτυα δοκιμάστηκε δε χρειάστηκε να γίνουν παραπάνω από 6 βήματα.
44 Η ακρίβεια που πετυχαίνει θεωρείται ικανοποιητική, λαμβάνοντας υπόψη την τάξη και το μέγεθος των δικτύων στα οποία μπορεί να εφαρμοστεί. Αν έχει κάποιο μειονέκτημα, Εικόνα 14: (α) Αναπαράσταση του δικτύου της Βελγικής εταιρείας κινητής τηλεφωνίας για τα 2000000 των συνδρομητών. Κάθε κόμβος αντιστοιχεί σε κοινότητα που έχει τουλάχιστον 100 συνδρομητές. Με κόκκινο χρώμα είναι οι κοινότητες που κύρια γλώσσα επικοινωνίας είναι τα Γαλλικά, ενώ με πράσινο χρώμα αυτές που κύρια γλώσσα επικοινωνίας είναι τα Γερμανικά, (β) κατανομή του ποσοστού της κύριας γλώσσας ανάλογα με το μέγεθος της κοινότητας (μόνο για μεγάλες κοινότητες) (Blondel V.D. et al 1 2008) αυτό είναι ο περιορισμός που τίθεται κατά την εφαρμογή του, όχι για λόγω υπολογιστικού κόστους, αλλά λόγω ανάγκης για μεγάλη μνήμη που απαιτείται για να εκτελεστεί (Blondel V.D. et al 1 2008). 2.5 Αλγόριθμος Infomap 2.5.1 Εισαγωγή Στα πραγματικά δίκτυα, τα οποία αποτελούνται από εκατομμύρια κόμβους και ακμές είναι απαραίτητο να υπάρχει ένας τρόπος όχι μόνο να αναπαρασταθούν, αλλά να είναι δυνατό να αντληθούν και πληροφορίες από την αναπαράστασή τους. Αυτό έγινε εφικτό με τη χαρτογραφική μέθοδο (cartographic method) των Roger Guimera και Luıs A Nunes Amaral, σύμφωνα με την οποία έχουμε αναπαράσταση του δικτύου στους χάρτες (maps) που προκύπτουν και επιτυγχάνονται ακόμα δύο πράγματα: λαμβάνουμε τις συστάδες (modules) του δικτύου και διακρίνονται οι ρόλοι που έχουν μέσα σε αυτές οι κόμβοι που τις αποτελούν (Amaral L.A.N. et al 2005). Έτσι δημιουργήθηκε ένας
45 αλγόριθμος που κάνει διαμέριση του δικτύου και ανήκει στην κατηγορία αλγορίθμων που βασίζονται στη συμπίεση (compression) (Balasque J.M. et al 2012) 2.5.2 Περιγραφή του Αλγορίθμου Πέρα από το ποιες είναι οι συστάδες σε ένα δίκτυο και την μελέτη των ρόλων που διαδραματίζουν οι κόμβοι που τις αποτελούν, έχει σημασία να διερευνηθεί και ο τρόπος που οι συστάδες αυτές επιδρούν στην συμπεριφορά ολόκληρου του δικτύου. Για να γίνει αυτό θα πρέπει να μελετηθεί το πως η πληροφορία διατρέχει το δίκτυο μεταξύ των συστάδων. Αυτό είναι ένα πρόβλημα κωδικοποίησης της πληροφορίας αυτής. Έτσι θα χρησιμοποιηθεί σαν οδηγός (proxy) ένας τυχαίος περιπατητής για να μελετηθεί η ροή αυτής της πληροφορίας (Bergstrom C.T. et al 2008). Αποδεικνύεται ότι η εύρεση της δομής των κοινοτήτων ενός δικτύου είναι στην ουσία ένα πρόβλημα κωδικοποίησης (Axelsson D. et al 2009). Για την κωδικοποίηση των κόμβων ενός δικτύου, μπορεί να χρησιμοποιηθεί η μέθοδος του Huffman. Με τη συγκεκριμένη μέθοδο χρησιμοποιείται ένα αλφάβητο χαρακτήρων που δημιουργούν κωδικές λέξεις (codewords) για την ονομασία των κόμβων. Η συχνότητα εμφάνισης της κάθε λέξης παίζει ρόλο στο πόσο μεγάλη θα είναι αυτή σε μήκος (Huffman D.A. 1952). Είναι δηλαδή κάτι αντίστοιχο με τον τρόπο που δουλεύουν τα σήματα του κώδικα Mors (Axelsson D. et al 2009). Όσον αφορά τη χρήση του κώδικα Huffman, αντιπροσωπευτική είναι η Εικόνα 15. Εικόνα 15: (a) Το αρχικό δίκτυο των 25 κόμβων που φαίνεται ο τυχαίος περίπατος των 71 βημάτων, (b) η ονομασία σύμφωνα με τον κώδικα του Huffman, οπότε χρειάζονται 314 bits για την ονομασία όλου του περίπατου, (c) η μείωση της ονοματολογίας στα 243 bits μετά τη χρήση των συστάδων, (d) οι συστάδεςκοινότητες που προκύπτουν με τις κωδικές ονομασίες και τη σύνδεση μεταξύ τους (Bergstrom C.T. et al 2008), (Axelsson D. et al 2009).
46 Στην Εικόνα 15 λοιπόν στο (a) είναι το δίκτυο με τους 25 κόμβους που θα χρησιμοποιηθεί ως σημείο αναφοράς και στο οποίο φαίνεται η διαδρομή των 71 κόμβων διέλευσης του τυχαίου περιπατητή. Στο (b) ο κάθε κόμβος έχει ονομαστεί σύμφωνα με τον κώδικα Huffman. Κάτω από το δίκτυο βρίσκονται με κενά ανάμεσά τους τα ονόματα των κόμβων από τα οποία διέρχεται ο τυχαίος περιπατητής, όπως φαίνεται η διαδρομή που ακολουθεί από το (a). Επειδή ο αριθμός των κόμβων είναι 25, θα χρειαστούν λέξεις που έχουν log 25 5 bits μήκος για τον κάθε ένα, οπότε ο τυχαίος περιπατητής για τους 71 κόμβους θα χρειαστεί 715 355 bits μήκος. Στο (b) λοιπόν κάτω από το δίκτυο ακολουθεί η σειρά των λέξεων για κάθε κόμβο με τη σειρά που περνάει ο τυχαίος περιπατητής, δηλαδή πρώτα ο κόμβος 1111100 στην πάνω αριστερή γωνία, μετά ο 1100, κ.ο.κ. μέχρι τον κόμβο 00011. Χωρίζοντας το δίκτυο σε συστάδες, δε χρειάζονται τόσες πολλές λέξεις. Σε κάθε συστάδα υιοθετείται μια ονομασία για αυτήν (codebook), οπότε σημασία έχει να έχουν διαφορετικό όνομα οι κόμβοι που είναι στην ίδια συστάδα. Έτσι στο (c) η κόκκινη συστάδα έχει την ονομασία 111, η πορτοκαλί έχει την ονομασία 0, η πράσινη έχει την ονομασία 10 και η μπλε έχει την ονομασία 110. Στο (c) λοιπόν κάτω από το δίκτυο, με τις νέες ονομασίες ξεκινάει ο τυχαίος περίπατος με την κόκκινη συστάδα με το 111, ακολουθεί ο πρώτος κόμβος της με το 0000, ο δεύτερος με το 11, κ.ο.κ. Όταν τελειώσει η διαδρομή του τυχαίου περιπατητή στην κόκκινη συστάδα, μπαίνει το 0001, όπως φαίνεται στο δεξί μέρος από το κόκκινο βελάκι κάτω από το δίκτυο. Μετά ακολουθεί η πορτοκαλί συστάδα που ξεκινάει με την ονομασία της που είναι το 0 και ακολουθούν οι κόμβοι της. Όταν θα τελειώσει και αυτή θα μπει το τέλος της ονομασίας της πορτοκαλί συστάδας που είναι το 1011, όπως φαίνεται στο πορτοκαλί βελάκι. Με αυτόν τον τρόπο χρειάζονται 243 bits για την ονομασία της διαδρομής που ακολουθεί ο τυχαίος περιπατητής, δηλαδή μειώθηκε το μήκος των χαρακτήρων κατά 32%. Στο (d) φαίνονται οι συστάδες με την ονομασία τους και τη σύνδεση που έχουν μεταξύ τους. Αυτό που έγινε έχει εφαρμογή και στην καθημερινή ζωή. Έτσι, για παράδειγμα, δε χρειάζονται διαφορετικά ονόματα οδών για μια χώρα, αλλά διαφορετικά ονόματα οδών για κάθε πόλη, που σημαίνει ότι χωρίς κανένα πρόβλημα μπορεί ένα όνομα οδού να υπάρχει σε πολλές διαφορετικές πόλεις της χώρας (Bergstrom C.T. et al 2008) Ο αλγόριθμος Infomap βασίζεται στην ελαχιστοποίηση της εξίσωσης του χάρτη (map equation), η οποία περιγράφει το μήκος της διαδρομής ενός τυχαίου περιπατητή
47 σε ένα δίκτυο με τη χρήση κώδικα δύο επιπέδων (two-level description) με τους κωδικούς λέξεων (codewords) και τους κωδικούς βιβλίων (codebooks) όπως περιγράφηκε νωρίτερα. Έτσι θεωρείται μια διαμέριση M ενός δικτύου που αποτελείται από n κόμβους και m συστάδες. Τότε η εξίσωση του χάρτη δίνεται από τη σχέση: m L( M ) q H ( Q) p H ( P ) (29) i1 i i Ο πρώτος όρος q H ( Q) της σχέσης (1) δίνει τον μέσο αριθμό των bits που απαιτούνται για να περιγραφεί η κίνηση του τυχαίου περιπατητή μεταξύ των συστάδων και ο δεύτερος όρος m i i ph ( P ) δίνει τον μέσο αριθμό των bits που απαιτούνται για i1 να περιγραφεί η κίνηση του τυχαίου περιπατητή στο εσωτερικό των συστάδων. Ακολουθεί ανάλυση της παραπάνω σχέσης: q m q (29) i1 i όπου q είναι η πιθανότητα του τυχαίου περιπατητή να βρίσκεται μεταξύ των συστάδων σε κάθε βήμα και εξέρχεται από τη συστάδα i, qi είναι η πιθανότητα του τυχαίου περιπατητή να q HQ ( ) log m i i m m i 1 q j 1 i q j1 i q (30) όπου HQ ( ) είναι η εντροπία των κινήσεων μεταξύ των συστάδων (ο λογάριθμος είναι με βάση το 2), όπου i p q p (31) i αi α i p είναι το βάρος της εντροπίας στο εσωτερικό της συστάδας i, p α είναι ο εργοδικός κόμβος (ergodic node) που επισκέπτεται τον κόμβο α, ο όρος α i υποδηλώνει το για όλους τους κόμβους α στη συστάδα i και qi είναι το βάρος των κινήσεων του τυχαίου περιπατητή μέσα στη συστάδα i. Με βάση αυτά προκύπτει: i q i q i p α p α H( P ) log log qi p β i β qi p β i β αi qi p β i β qi p βi β (32)
48 όπου H( P i ) είναι η εντροπία των κινήσεων του τυχαίου περιπατητή στο εσωτερικό της συστάδας i, η οποία αποτελεί και το ελάχιστο όριο του μέσου μήκους του κωδικού λέξης (codeword) που χρησιμοποιείται για να ονομαστεί ένας κόμβος στη συστάδα i (Bergstrom C.T. et al 2008), (Axelsson D. et al 2009). Έτσι υπάρχουν δύο τρόποι για την μελέτη της δομής ενός δικτύου. Από την μία είναι η εξίσωση του χάρτη που για ένα δίκτυο περιγράφεται με τη σχέση (Amaral L.A.N. et al 2005) και από την άλλη υπάρχει η παραδοσιακή μετρική της δομικότητας. Όσον αφορά τη δομικότητα, στη γενική της μορφή για ένα δίκτυο κατευθυνόμενο με βάρη που διαμερίζεται σε m συστάδες δίνεται από τη σχέση: i1 in out ii wi wi 2 m w Q (33) w w όπου Q είναι η δομικότητα, w ii το συνολικό βάρος των ακμών που αρχίζουν και τελειώνουν στη συστάδα i, in w i και out w i το συνολικό εισερχόμενο και εξερχόμενο βάρος των ακμών της συστάδας i και w είναι το συνολικό βάρος των ακμών του δικτύου. Η σχέση (1) επικεντρώνεται στη σημασία της ροής στη δομή του δικτύου, ενώ η σχέση (6) επικεντρώνεται στη σημασία των τοπολογικών ιδιοτήτων των ακμών του δικτύου. Στην Εικόνα 16 που ακολουθεί έχουμε δύο δίκτυα στα οποία φαίνονται οι διαφορές ανάμεσα στη βελτιστοποίηση (ελαχιστοποίηση) της εξίσωσης του χάρτη L και στη βελτιστοποίηση (μεγιστοποίηση) της δομικότητας Q. Εικόνα 16: Δίκτυα Α και Β που φαίνεται η μεταβολή τους ανάλογα με τη βελτιστοποίηση εξίσωσης του χάρτη και δομικότητας (Bergstrom C.T. et al 2008)
49 Στην Εικόνα 16 υπάρχουν δύο δίκτυα Α και Β κατευθυνόμενα και με βάρη. Σε κάθε ένα από αυτά, στα αριστερά είναι η διαμέριση με στόχο τη βελτιστοποίηση (ελαχιστοποίηση) του L και στα δεξιά του είναι η διαμέρισή με στόχο τη βελτιστοποίηση (μεγιστοποίηση) της Q. Στο Α φαίνεται καλύτερη επιλογή η ελαχιστοποίηση του L, γιατί στη διαμέριση στα αριστερά, επειδή οι παχιές ακμές έχουν διπλάσιο βάρος από τις άλλες, ένας τυχαίος περιπατητής χρειάζεται κατά μέσο όρο 3 βήματα για να βγει από μια συστάδα, ενώ σε αυτό στα δεξιά χρειάζεται μεγαλύτερο μήκος περιγραφής της πορείας του τυχαίου περιπατητή, γιατί αυτός χρειάζεται κατά μέσο όρο 12 5 βήματα για να εξέλθει της συστάδας. Σε αυτό μεγιστοποιείται η Q, γιατί αυτή βασίζεται στα βάρη και στις κατευθύνσεις των ακμών. Αντίθετα στο Β καλύτερη επιλογή φαίνεται η μεγιστοποίηση της Q, επειδή εδώ δεν υπάρχει κάποια ροή και φαίνονται στα αριστερά να ανήκουν όλοι οι κόμβοι στην ίδια συστάδα. Το ερώτημα που εύλογα προκύπτει είναι ποια μετρική ενδείκνυται για βελτιστοποίηση, η L ή η Q. Εξαρτάται από το τι θέλει ο κάθε ερευνητής: για ανάλυση δεδομένων δικτύου που παριστάνουν κινήσεις προτύπων μεταξύ των κόμβων συνίσταται η L για βελτιστοποίηση, ενώ για ανάλυση δεδομένων δικτύου που δεν υπάρχει η παραπάνω κίνηση, αλλά σχέσεις μεταξύ ζευγαριών κόμβων συνίσταται η Q για βελτιστοποίηση. Εικόνα 17: α) Δίκτυο επιστημών που δημιουργήθηκε από 6128 εφημερίδες και 6434916 αναφορές μεταξύ των επιστημόνων, β) δίκτυο κοινωνικών επιστημών, μέρος του δικτύου του (α) που δημιουργήθηκε από 1431 εφημερίδες και 217287 αναφορές μεταξύ των επιστημόνων για το έτος 2004 (Bergstrom C.T. et al 2008)
50 Η επιστήμη και η οργάνωση της σε επιμέρους τομείς έδωσε το ερέθισμα στους Martin Rosvall και Carl Bergstrom να μελετήσουν δύο δίκτυα, το ένα το δίκτυο των επιστημών ευρύτερα και το άλλο το δίκτυο των κοινωνικών επιστημών. Ως δείγμα πάρθηκαν εφημερίδες (journals) που αναφέρονταν επιστημονικές εργασίες και μελετήθηκαν οι αναφορές (citations) μεταξύ των επιστημόνων που μάλιστα θεωρήθηκαν ότι αποτελούν κίνηση πληροφορίας μεταξύ των επιστημών. Έτσι δημιουργήθηκαν τα δύο δίκτυα που απεικονίζοντα στην Εικόνα 17. Τα δύο αυτά δίκτυα της Εικόνας 17 είναι κατευθυνόμενα με βάρη. Στο (α) της Εικόνας 17 που είναι το δίκτυο των επιστημών εμφανίζονται μόνο ακμές που αφορούν τουλάχιστον 5000 αναφορές, οπότε από τις 88 κατηγορίες επιστημών εμφανίζονται οι 51 και από τους περιορισμούς του προγράμματος που χρησιμοποιήθηκε απεικονίζεται στο δίκτυο το 98% των βαρών των κόμβων και το 94% της συνολικής ροής κίνησης. Στο (β) της Εικόνας 17 που είναι το δίκτυο των κοινωνικών επιστημών, που προέρχεται από το δίκτυο (α) των γενικών επιστημών εμφανίζονται μόνο ακμές που αφορούν τουλάχιστον 2000 αναφορές, οπότε από τις 54 κατηγορίες κοινωνικών επιστημών εμφανίζονται οι 36 και από τους περιορισμούς του προγράμματος που χρησιμοποιήθηκε απεικονίζεται στο δίκτυο το 97% των βαρών των κόμβων και το 90% της συνολικής ροής κίνησης. Στο δίκτυο της Εικόνας 15 είχε γίνει επεξήγηση του τρόπου που γίνεται η διαδικασία του αλγορίθμου. Στην Εικόνα 18, στο (α), φαίνεται η αρχική και η τελική κατάσταση του συγκεκριμένου δικτύου, αρχικά και τελικά μετά την συμπίεση της ονομασίας του μήκους της διαδρομής του τυχαίου περιπατητή και στο (β) η συμπίεση αυτή από βήμα σε βήμα μέχρι την τελική μορφή του καθορισμού των κοινοτήτων του δικτύου. Οι Rosvall και Bergstrom αργότερα ήθελαν να βελτιώσουν τον αλγόριθμο Infomap γενικεύοντας την μέθοδο του χάρτη εξίσωσης των δύο επιπέδων (two-level map equation) απαντώντας σε τρία ερωτήματα: 1) Σε πόσα ιεραρχικά επίπεδα μπορεί να οργανωθεί ένα δίκτυο; 2) Πόσες συστάδες μπορούν να υπάρχουν σε κάθε επίπεδο; 3) Ποιοι κόμβοι θα είναι μέλη σε κάθε συστάδα; Οι απαντήσεις δόθηκαν με τη μέθοδο της ιεραρχικής εξίσωσης του χάρτη (hierarchical map equation). Η ιεραρχική εξίσωση του χάρτη δημιουργεί ένα σύνολο από κωδικούς βιβλίων, οι οποίοι δομούνται ιεραρχικά και προσδιορίζουν κίνηση μεταξύ των συστάδων (modules)
51 α) β) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Εικόνα 18: α) Αρχική μορφή και τελική μορφή του δικτύου μετά την συμπίεση με την ενδιάμεση διακύμανση των δύο όρων του αθροίσματος (Axelsson D. et al 2009) β) τα διαδοχικά στάδια κατά την εκτέλεση του αλγορίθμου όπου φαίνεται η ελαχιστοποίηση της εξίσωσης του χάρτη σε 22 βήματα (Bergstrom C.T. et al 2008) των υποσυστάδων (submodules), υπουποσυστάδων (subsubmodules) συνεχίζοντας ομοίως μέχρι το τελευταίο επίπεδο δομής συστάδων. Έτσι για έναν ιεραρχικό χάρτη M που αποτελείται από n κόμβους που ανήκουν σε m συστάδες, όπου η κάθε συστάδα i
52 έχει έναν υποχάρτη (submap) i M που αποτελείται με τη σειρά του από υποσυστάδες και αυτή με τη σειρά της αποτελείται από ij υποσυστάδες που η κάθε μία i m έχει ij M υποχάρτες με παίρνει τη μορφή: ij m υποσυστάδες κ.ο.κ. Η εξίσωση του ιεραρχικού χάρτη m i L( M ) q H ( Q) L( M ) (34) i1 με την περιγραφή του μήκους για κάθε υποχάρτη i m i i i ij i1 i M να δίνεται από τη σχέση: L( M ) q H( Q ) L( M ) (35) και στο τελευταίο επίπεδο δομής συστάδων θα ισχύει: ij... k ij... k ij... k L( M ) q H ( P ) (36) Σε κάθε υποσυστάδα, i q είναι η τιμή (rate) του κωδικού λέξης που θα χρησιμοποιηθεί για την είσοδο στην m i υποσυστάδα ή την έξοδο σε μια πιο γενικό (coarser) επίπεδο και HQ ( i ) είναι η συχνότητα του μέσου βάρους μήκος (frequency weighted average length) των κωδικών λέξεων στο κάθε υποεπίπεδο του κωδικού βιβλίου. Στο έσχατο (finest) επίπεδο, ij... k p είναι η τιμή του κωδικού λέξης που χρησιμοποιείται για τους επισκεπτόμενους κόμβους στις υποσυστάδες ij... k ή την έξοδο σε ένα πιο γενικό επίπεδο και ij... k HP ( ) είναι η συχνότητα του μέσου βάρους μήκος (frequency weighted average length) των κωδικών λέξεων στον κωδικό βιβλίου της υποσυστάδας. Εικόνα 19: Δίκτυο με 27 κόμβους που αναλύεται με Α) την μέθοδο των δύο επιπέδων του χάρτη και με Β) την μέθοδο του της ιεραρχικής εξίσωσης του χάρτη (Bergstrom C.T. et al 2011)
53 Ένα παράδειγμα που δείχνει τη διαφορά ανάμεσα στη μέθοδο των δύο επιπέδων της εξίσωσης του χάρτη και στην ιεραρχική εξίσωση του χάρτη παρουσιάζεται στην Εικόνα 19 (Bergstrom C.T. et al 2011). Το αρχικό δίκτυο των 27 κόμβων προτού χωριστεί είχε μήκος περιγραφής 4.75 bits. Για αυτό λοιπόν το μη-κατευθυνόμενο κα χωρίς βάρη δίκτυο που έχει άθροισμα βαθμών 78 (οι 24 κόμβοι έχουν βαθμό 3 και 3 κόμβοι έχουν βαθμό 2) υπολογίζονται όλες οι τιμές και κανονικοποιούνται. Έτσι για την μορφή Α οι σχετικές τιμές των κωδικών λέξεων στο σύνολο των κωδικών βιβλίων είναι 3 2 3 2 3 3 3 3 2 Q,,,,,,,, (οι βαθμοί μεταξύ των 9 συστάδων είναι 24 24 24 24 24 24 24 24 24 συνολικά 24 και σε αυτές 3 έχουν βαθμό 2 και οι υπόλοιπες 6 έχουν βαθμό 3) σε σύνολο 24 q (78 είναι οι συνολικοί βαθμοί των 2 κόμβων και 24 είναι το άθροισμα 78 των αριθμητών των τελευταίων κλασμάτων). Για τους κωδικούς λέξεων της πρώτης συστάδας χρησιμοποιούνται στο κωδικό βιβλίου οι σχετικές τιμές t P 2 3 3 2,,, 10 10 10 10 (ένας κόμβος στη συστάδα 1 έχει βαθμό 2 και 2 κόμβοι έχουν βαθμό 3, ενώ όλη η συστάδα 1 έχει βαθμό 2 σε σύνολο βαθμών 10) σε σύνολο t 10 p (78 είναι το 78 άθροισμα των βαθμών του δικτύου και το 10 από το σύνολο της συστάδας 1 που ήταν στον παρονομαστή των τελευταίων κλασμάτων) με συμβολή στην πιθανότητα εξόδου t 2 q (78 είναι το άθροισμα τω βαθμών του δικτύου και 2 είναι οι βαθμοί της 78 συστάδας 1, επειδή συνδέεται με τις στοιβάδες 2 κα 3). Για την μορφή Β οι σχετικές τιμές των κωδικών λέξεων στο σύνολο των κωδικών βιβλίων είναι 2 2 2 Q,, (οι 6 6 6 βαθμοί μεταξύ των 3 μεγάλων συστάδων είναι συνολικά 6 και κάθε συστάδα έχει βαθμό 2) και τιμών t 2 3 3 2 Q,,, (αυτά είναι ίδια με την περίπτωση Α) σε σύνολο 10 10 10 10 t 6 q (78 το άθροισμα των βαθμών του δικτύου και 6 το άθροισμα των 78 βαθμών των 3 μεγάλων συστάδων) και t 10 q (78 το σύνολο των βαθμών του 78 δικτύου και 10 το άθροισμα των βαθμών που προκύπτει από την κάθε υποσυστάδα που
54 έχει 2 υποσυστάδες με βαθμούς 3, 1 υποσυστάδα με βαθμό 2 και η συστάδα που έχει βαθμό 2). Έτσι με την μορφή Β το μήκος της περιγραφής μειώνεται κατά 0.09 bits, από τα 3.57 bits στα 3.48 bits. Για να φανεί η διαφορά ανάμεσα στις δύο μεθόδους, οι συγγραφείς χρησιμοποίησαν τρία πραγματικά δίκτυα, το δίκτυο των επιστημών, το δίκτυο της παγκόσμιας κυκλοφορίας των αεροπλάνων και το δίκτυο των ανθρωπίνων αρρωστιών που φαίνονται στην Εικόνα 20. Εικόνα 20: Τρία δίκτυα στα οποία φαίνεται πως δουλεύουν οι δύο μέθοδοι που αναλύθηκαν προηγουμένως, Α) επιστήμες, Β) παγκόσμια κυκλοφορία αεροπλάνων, C) ανθρώπινες αρρώστιες (Bergstrom C.T. et al 2011) Στο δίκτυο των επιστημών διακρίνονται τέσσερις κατηγορίες, (α) οι κοινωνικές επιστήμες, (β) οι φυσικές επιστήμες, (γ) οι επιστήμες της ζωής και (δ) οικολογία και επιστήμες της Γης. Στο δίκτυο της παγκόσμιας κυκλοφορίας των αεροπλάνων τα αεροδρόμια χωρίζονται αρχικά ανά χώρες και στην συνέχεια ανά ηπείρους που βρίσκονται οι χώρες αυτές και στο δίκτυο των ανθρωπίνων αρρωστιών διαχωρίζονται οι αρρώστιες ανάλογα με τα γονίδια που σχετίζονται με αυτές. Ειδικά για το δίκτυο των επιστημών χρησιμοποιήθηκαν 7940 εφημερίδες με επιστημονικά άρθρα που περιείχαν 9200000 αναφορές μεταξύ των άρθρων που συσχέτιζαν και τους κλάδους των επιστημών. Έτσι δημιουργήθηκε το δίκτυο της Εικόνας 21. Από το δίκτυο της Εικόνας 21 βγαίνει το συμπέρασμα ότι αν ένας ερευνητής κάνει έναν τυχαίο περίπατο μέσα στη βιβλιογραφία των άρθρων, τότε θα ξοδέψει το 54% του χρόνου του διαβάζοντας εφημερίδες σχετικές με τις επιστήμες της ζωής, 33% του χρόνου του διαβάζοντας εφημερίδες σχετικές με τις φυσικές επιστήμες, 8% του χρόνου του διαβάζοντας εφημερίδες σχετικές με την οικολογία κα τις επιστήμες της
55 Γης και 4% του χρόνου διαβάζοντας εφημερίδες σχετικές με τις κοινωνικές επιστήμες (Bergstrom C.T. et al 2011). Εικόνα 21: Το δίκτυο τω επιστημών όπου φαίνονται οι τέσσερις κατηγορίες κα οι επιστήμες που αποτελούν τις κατηγορίες αυτές (Bergstrom C.T. et al 2011) 2.5.3 Παρατηρήσεις Για τον αλγόριθμο αυτό υπάρχουν υλοποιήσεις για δίκτυα απλά, μηκατευθυνόμενα και χωρίς βάρη, για μη-κατευθυνόμενα δίκτυα με βάρη, αλλά και για κατευθυνόμενα δίκτυα χωρίς βάρη, δηλαδή για όλες τις κατηγορίες των δικτύων, ενώ δεν υπάρχει αναφορά για την πολυπλοκότητά του (Balasque J.M. et al 2012). Όσον αφορά στα συμπεράσματα από τα δίκτυα που εφαρμόστηκε ο αλγόριθμος είναι: 1) Από το δίκτυο της Εικόνας 17, οι συγγραφείς παρατήρησαν ότι είναι σημαντικό όχι μόνο να συμπιεστεί η ονομασία που απαιτείται για να περιγραφεί το μήκος της διαδρομής του τυχαίου περιπατητή, αλλά να υπάρχει κα ένα όριο σε αυτήν την συμπίεση, ώστε να μην υπάρχει κίνδυνος να χαθεί πληροφορία που περιγράφει τις σχέσεις που υπάρχουν στις δομές του δικτύου (Bergstrom C.T. et al 2008). 2) Από το δίκτυο της Εικόνας 21, οι συγγραφείς παρατήρησαν ότι ο τυχαίος περιπατητής μπορεί να μην είναι και καλός οδηγός, γιατί οι τιμές που δίνει στα διάφορα μεγέθη εξαρτώνται από τους κόμβους τους οποίους επισκέπτεται, κάτι το οποίο μπορεί να μην αντιπροσωπεύει την πραγματική ροή της πληροφορίας μέσα στο δίκτυο (Bergstrom C.T. et al 2011).
56 Κεφάλαιο 3 ο ΕΦΑΡΜΟΓΕΣ ΣΕ ΤΥΧΑΙΑ ΚΑΙ ΟΙΚΟΝΟΜΙΚΑ ΔΙΚΤΥΑ 3.1 Ο Αλγόριθμος Παραγωγής Τυχαίων Δικτύων LFR 3.1.1 Εισαγωγή Το LFR είναι ένας αλγόριθμος παραγωγής τυχαίων δικτύων που δημιουργήθηκε από τους Lancichinetti, Fortunato και Radicchi και δίνει τη δυνατότητα κατασκευής τεχνητών δικτύων με ορισμένες προδιαγραφές. Έτσι μπορεί να γίνει προσομοίωση πραγματικών δικτύων και να μελετηθούν τα χαρακτηριστικά τους, ξεπερνώντας τη δυσκολία της εύρεσης πραγματικών δικτύων για τη πραγματοποίηση της μελέτης αυτής. Στην Εικόνα 22 που ακολουθεί φαίνονται οι παράμετροι που μπορούν να καθορισθούν για τη κατασκευή των δικτύων αυτών. Εικόνα 22: Τα δεδομένα που εισάγονται στον αλγόριθμος παραγωγής τυχαίων δικτύων LFR Από την Εικόνα 22 διακρίνονται οι παράμετροι που μπορούν να καθορισθούν από το χρήστη. Οι παράμετροι αυτοί είναι: το πλήθος των κόμβων n (εδώ είναι 1000), ο μέσος βαθμός των κόμβων k (εδώ είναι 15), ο μεγαλύτερος βαθμός των κόμβων k max (εδώ είναι 30), η παράμετρος που καθορίζει την κατανομή των βαθμών των κόμβων γ της power law κατανομής (εδώ είναι 3),
57 η παράμετρος που καθορίζει την κατανομή του μεγέθους των κοινοτήτων β της power law κατανομής (εδώ είναι 2), το mixing coefficient μ που δείχνει το ποσοστό των ακμών ενός κόμβου που συνδέεται με κόμβους εκτός της κοινότητας του κόμβου (εδώ είναι 0.1), το μικρότερο μέγεθος κοινότητας που μπορεί να υπάρχει s min (εδώ είναι 20), το μεγαλύτερο μέγεθος κοινότητας που μπορεί να υπάρχει s max (εδώ είναι 35). Από τις 8 αυτές παραμέτρους οι 6 πρώτες είναι υποχρεωτικές να εισαχθούν, ενώ οι 2 τελευταίες είναι προαιρετικές, δηλαδή και να μην καθορίσει ο χρήστης τιμή για αυτές ο αλγόριθμος θα εισάγει μια τιμή αυτόματα. 3.1.2 Παραγωγή Δικτύων και Αποτελεσμάτων Με το LFR παράχθηκαν 4 δίκτυα για να μελετηθούν ως προς δομικότητα και το πλήθος των κοινοτήτων που έχουν με τη χρήση των 5 αλγορίθμων. Για τις παραμέτρους στα δίκτυα που μελετήθηκαν επιλέχθηκαν οι τιμές: n 1000, που είναι η μεγαλύτερη δυνατή τιμή που μπορεί να δοθεί λόγω των περιορισμών στη μελέτη μεγαλύτερης τάξης δικτύων που θέτει η πολυπλοκότητα του αλγορίθμου Edge Betweenness. k 15, για να έχουν τα δίκτυα την ιδιότητα του μικρού κόσμου. kmax 30 και kmax 90, ώστε να μελετηθούν δύο κατηγορίες δικτύων, μια που θα έχει πιο αραιή και μια που θα έχει πιο πυκνή σύνδεση αντίστοιχα με τις τιμές. γ 3 και β 2, γιατί είναι τιμές που αντιστοιχούν σε πραγματικά δίκτυα (Cherifi H. et al 2011). μ 0.1 και μ 0.5, ώστε να μελετηθούν δύο δίκτυα κατηγορίες δικτύων, μια που θα έχει πολλή καλή δομή κοινοτήτων και μια που είναι σχετικά χαλαρή η δομή των κοινοτήτων. smin 20 και smax 35, στην περίπτωση που είναι kmax 30, smin 20 και smax 95 στην περίπτωση είναι kmax 90. Οι τιμές αυτές πληρούν τις προδιαγραφές των δημιουργών του LFR που απαιτούν smin kmin και s max k al 2008). max, ώστε ο κάθε κόμβος να βρίσκεται σε μια κοινότητα (Fortunato S. et
58 Έτσι δημιουργήθηκαν 4 κατηγορίες δικτύων προς μελέτη στα οποία θα μελετηθεί η δομικότητα και το πλήθος των κοινοτήτων. Για μεγαλύτερη αξιοπιστία των αποτελεσμάτων, σε κάθε κατηγορία δημιουργήθηκαν 20 δίκτυα, τα οποία είναι απλά συνδετικά μη-κατευθυνόμενα και χωρίς βάρη στις ακμές με τον LFR. Πίνακας 1: Οι 4 κατηγορίες των δικτύων με τα χαρακτηριστικά τους Δίκτυα 1-20 Δίκτυα 21-40 Δίκτυα 41-60 Δίκτυα 61-80 n 1.000 n 1.000 n 1.000 n 1.000 k 15 k 15 k 15 k 15 k max 30 max k 30 k max 90 k max 90 γ 3 γ 3 γ 3 γ 3 β 2 β 2 β 2 β 2 μ 0.1 μ 0.5 μ 0.1 μ 0.5 s 20 min s 20 min s 20 min s 20 min s 35 max s 35 max s 95 max s 95 max Για την κάθε κατηγορία δικτύων υπολογίστηκε η δομικότητα και το πλήθος των κοινοτήτων που δίνει τόσο ο LFR, όσο και οι 5 αλγόριθμοι. Στο τέλος υπολογίστηκε για τις 2 ποσοτικές μετρικές η μέση τιμή και η τυπική απόκλιση. Για τις μετρήσεις χρησιμοποιήθηκε ο αλγόριθμος LFR στην έκδοση 2.1 και το πρόγραμμα της R στην έκδοση 3.0.1 στην εκδοχή των 64 bit. Αυτά τα προγράμματα έτρεξαν σε έναν υπολογιστή με επεξεργαστή Intel i5-3570k, με μνήμη 8 GB RAM και λειτουργικό σύστημα Windows 7 Professional 64 bit. Επίσης για τη γραφική αναπαράσταση των αποτελεσμάτων χρησιμοποιήθηκαν διαγράμματα Box Plot (Wikipedia/Box Plot). Στα διαγράμματα που ακολουθούν για την αναπαράσταση των αλγορίθμων οι συντομογραφίες στις ονομασίες αντιστοιχούν σε: ED: Edge Betweenness FG: Fast Greedy IM: Infomap LV: Louvain WT: Walktrap. Για τα δίκτυα 1-20 με τις τιμές των παραμέτρων που επιλέχθηκαν, όπως αναφέρονται στον Πίνακα 1, πρόκειται για δίκτυα με σχετικά αραιή σύνδεση και με μεγάλη συνοχή στις κοινότητες.
59 Από τα γραφήματα Box Plot της Εικόνας 23 όλοι σχεδόν οι αλγόριθμοι, δίνουν την ίδια τιμή δομικότητας και το ίδιο πλήθος κοινοτήτων, εκτός από τον Fast Greedy, ο οποίος παρά το ότι δεν έχει μεγάλη διαφορά στη δομικότητα δίνει πολύ λιγότερες κοινότητες. Εικόνα 23: Γραφήματα Box Plot δομικότητας και πλήθους κοινοτήτων σε κάθε περίπτωση για τα δίκτυα 1-20 του Πίνακα 1 Για τα δίκτυα 21-40 με τις τιμές των παραμέτρων που επιλέχθηκαν, όπως αναφέρονται στον Πίνακα 1, πρόκειται για δίκτυα με σχετικά αραιή σύνδεση και με μικρή συνοχή στις κοινότητες. Εικόνα 24: Γραφήματα Box Plot δομικότητας και πλήθους κοινοτήτων σε κάθε περίπτωση για τα δίκτυα 21-40 του Πίνακα 1 Από τα γραφήματα Box Plot της Εικόνας 24 όσον αφορά τη δομικότητα, ο Infomap ακολουθεί ακριβώς τον LFR, όπως και στην προηγούμενη περίπτωση και ακολουθεί από κοντά ο Louvain. Ο Walktrap μαζί με τον Edge Betweenness έχουν μια μικρή διαφορά, ενώ ο Fast Greedy διαφέρει σημαντικά. Στις κοινότητες πάλι ο Infomap δίνει ακριβώς τα ίδια αποτελέσματα με τον LFR με τον Walktrap να ακολουθεί με μια μικρή διαφορά. Ο Edge Betweenness διαμερίζει το δίκτυο σε μεγάλο πλήθος κοινοτήτων, ενώ ο Fast Greedy από την άλλη δίνει μικρό πλήθος κοινοτήτων. Ο Louvain είναι σε μια
60 δική του κατηγορία με ούτε πολλές, ούτε λίγες κοινότητες σε σχέση με την πραγματικότητα. Για τα δίκτυα 41-60 με τις τιμές των παραμέτρων που επιλέχθηκαν, όπως αναφέρονται στον Πίνακα 1, πρόκειται για δίκτυα με σχετικά πυκνή σύνδεση και με μεγάλη συνοχή στις κοινότητες. Εικόνα 25: Γραφήματα Box Plot δομικότητας και πλήθους κοινοτήτων σε κάθε περίπτωση για τα δίκτυα 41-60 του Πίνακα 1 Από τα γραφήματα Box Plot της Εικόνας 25 όλοι σχεδόν οι αλγόριθμοι, δίνουν την ίδια τιμή δομικότητας και το ίδιο πλήθος κοινοτήτων, εκτός από τον Fast Greedy, ο οποίος παρά το ότι δεν έχει μεγάλη διαφορά στη δομικότητα δίνει πολύ λιγότερες κοινότητες. Για τα δίκτυα 61-80 με τις τιμές των παραμέτρων που επιλέχθηκαν, όπως αναφέρονται στον Πίνακα 1, πρόκειται για δίκτυα με σχετικά πυκνή σύνδεση και με μικρή συνοχή στις κοινότητες. Εικόνα 26: Γραφήματα Box Plot δομικότητας και πλήθους κοινοτήτων σε κάθε περίπτωση για τα δίκτυα 61-80 του Πίνακα 1 Από τα γραφήματα Box Plot της Εικόνας 26 όσον αφορά τη δομικότητα, ο Infomap ακολουθεί ακριβώς τον LFR, όπως και στην προηγούμενη περίπτωση και ακολουθεί από κοντά ο Louvain και με μια λίγο μεγαλύτερη διαφορά ο Edge Betweenness. Ο Walktrap μαζί με τον Fast Greedy φαίνεται να διαφέρουν σημαντικά. Στις κοινότητες
61 πάλι ο Infomap δίνει ακριβώς τα ίδια αποτελέσματα με τον LFR με τον Walktrap να ακολουθεί σε μια μικρή διαφορά. Ο Edge Betweenness διαμερίζει το δίκτυο σε μεγάλο πλήθος κοινοτήτων, ενώ ο Fast Greedy από την άλλη δίνει μικρό πλήθος κοινοτήτων. Ο Louvain είναι σε μια δική του κατηγορία με ούτε πολλές, ούτε λίγες κοινότητες σε σχέση με την πραγματικότητα. Στους Πίνακες 2 και 3 που ακολουθούν παρουσιάζονται η μέση τιμή x και η τυπική απόκλιση s για τη δομικότητα και το πλήθος των κοινοτήτων για κάθε 20άδα δικτύων που δημιουργήθηκε για κάθε μια από τις 4 κατηγορίες με τις παραμέτρους που επιλέχθηκαν, με σημείο αναφοράς τον Πίνακα 1. Πίνακας 2: Μέση τιμή και τυπική απόκλιση της δομικότητας για τις 4 κατηγορίες των δικτύων δομικότητα LFR EB FG LV WT IM Δίκτυα 1-20 Δίκτυα 21-40 Δίκτυα 41-60 Δίκτυα 61-80 x 0.872262125 0.872262125 0.861512905 0.872262125 0.872262115 0.872262125 s 0.001373275 0.001373275 0.004957004 0.001373275 0.0013733 0.001373275 x 0.472703385 0.442720805 0.371688005 0.47386178 0.453342635 0.472713385 s 0.001196079 0.008691397 0.008043708 0.001646069 0.003307606 0.001203351 x 0.84232443 0.84232443 0.83229959 0.84232443 0.840519075 0.84232443 s 0.004422921 0.004422921 0.005888796 0.004422921 0.005016526 0.004422921 x 0.449631020 0.408753525 0.355820665 0.44703889 0.352750775 0.44962102 s 0.003758112 0.0107883 0.008690434 0.005487457 0.020063259 0.003760217 Πίνακας 3: Μέση τιμή και τυπική απόκλιση του πλήθους κοινοτήτων για τις 4 κατηγορίες των δικτύων πλήθος κοινοτήτων LFR EB FG LV WT IM Δίκτυα 1-20 Δίκτυα 21-40 Δίκτυα 41-60 Δίκτυα 61-80 x 37.9 37 32.1 37.9 37.9 37.9 s 0.943398113 0.943398113 2.11896201 0.943398113 0.943398113 0.943398113 x 37.9 65.65 6.5 26.85 35.4 37.9 s 0.943398113 11.39857447 0.741619849 1.388344338 2.177154106 0.943398113 x 24 24 21.6 24 24 24 s 3.391164992 3.391164992 3.152776554 3.391164992 3.391164992 3.391164992 x 25.6 77.95 6.6 21.8 25.8 25.6 s 1.959591794 13.69114677 0.8 1.749285568 2.731300057 1.959591794
62 3.1.3 Παρατηρήσεις Αρχικά τονίζεται ότι η τάξη του δικτύου είναι σχετικά μικρή, λόγω των περιορισμών που θέτει η πολυπλοκότητα του Edge Betweenness γα τη μελέτη μεγαλύτερων δικτύων. Ο Infomap φαίνεται ότι δίνει ακριβώς τα ίδια αποτελέσματα με το δίκτυο αναφοράς του LFR και στις 4 περιπτώσεις δικτύων που εξετάστηκαν. Η δομικότητα φαίνεται ότι εξαρτάται αναλογικά από το mixing coefficient μ, κάτι το λογικό αφού ρυθμίζει το που πηγαίνουν οι ακμές ενός κόμβου σε σχέση με την κοινότητα στην οποία βρίσκεται. Όσο πιο μικρό είναι το μ, τόσο πιο καλά οι αλγόριθμοι πλησιάζουν το δίκτυο αναφοράς του LFR. Ανεξάρτητα πάντως από τις τιμές της δομικότητας παρατηρείται το πως συμπεριφέρεται ο κάθε αλγόριθμος, κυρίως όσο το μ ανεβαίνει, καθώς ο μεγαλύτερος βαθμός δε φαίνεται να επηρεάζει σημαντικά τα αποτελέσματα. Έτσι, αν εξαιρεθεί ο Infomap που ταυτίζεται στην ουσία με το δίκτυο αναφοράς του LFR, για τους υπόλοιπους βγαίνουν τα εξής συμπεράσματα: ο Edge Betweenness γενικά δημιουργεί πολλές κοινότητες, σε αντίθεση με τον Fast Greedy που δημιουργεί πολύ λίγες. Ο Louvain δίνει καλύτερα αποτελέσματα από τον Fast Greedy στο πλήθος των κοινοτήτων, λόγω του ότι κάνει ένα βήμα παραπάνω κατά τη διάρκεια βελτιστοποίησης της δομικότητας στη συγκρότηση των κοινοτήτων. Ο Walktrap είναι σχετικά πιο κοντά στην πραγματικότητα και στον Infomap, λόγω πιθανόν της ίδιας βασικής ιδέας που έχουν που είναι ο τυχαίος περίπατος. 3.2 Δίκτυο Μετοχών Χρηματιστηρίου Αξιών Αθηνών (Χ.Α.Α.) 3.2.1 Επεξεργασία των Δεδομένων Το δίκτυο που μελετήθηκε αφορά τις μετοχές του Χ.Α.Α. και τα δεδομένα που χρησιμοποιήθηκαν για τις μετοχές που διαπραγματεύθηκαν την περίοδο από τις 2 Ιανουαρίου 2007 έως και τις 30 Δεκεμβρίου 2011 και περιλαμβάνει τις τιμές κλεισίματος αυτών στο τέλος της κάθε ημέρας. Στο διάστημα αυτό διαπραγματεύθηκαν συνολικά 325 μετοχές. Επειδή όμως αυτές δεν διαπραγματεύθηκαν όλη την περίοδο των 5 ετών (2007-2011), έγινε μια επεξεργασία αυτών, προκειμένου να βρεθούν οι μετοχές που περιλαμβάνουν σε πρώτη φάση τιμές κλεισίματος τουλάχιστον την πρώτη μέρα (2 Ιανουαρίου 2007) και την τελευταία (30 Δεκεμβρίου 2011). Αυτές οι μετοχές βρέθηκαν ότι είναι 252. Όταν γίνεται αναφορά στο πλήθος των μετοχών,
63 καταμετρούνται οι μετοχές ανάλογα με την ονομασία τους στην περίοδο αυτή. Δεν εξετάστηκε το γεγονός αν μια επιχείρηση άλλαξε ονομασία και συνέχισε να υπάρχει, όπως π.χ. η μετοχή «ΕΛΛΗΝΙΚΑΙ ΙΧΘΥΟΚΑΛΛΙΕΡΓΕΙΑΙ Α.Β.Ε.Ε. (ΚΟ)» που διατηρούσε αυτόν τον τίτλο μέχρι τις 30 Απριλίου 2010 και από τις 3 Μαΐου 2010 και μετά μετονομάστηκε σε «ΕΛΛΗΝΙΚΕΣ ΙΧΘΥΟΚΑΛΛΙΕΡΓΕΙΕΣ Α.Β.Ε.Ε. (ΚΟ)», ή μετοχές που οι επιχειρήσεις που αφορούσαν συγχωνεύτηκαν ή έγινε εξαγορά της μίας από την άλλη, οπότε και διατηρήθηκε μόνο η μια από τις δύο ονομασίες ή ακόμα και να άλλαξε, όπως έγινε με την περίπτωση της τράπεζας ΜΑΡΦΙΝ που εξαγόρασε την τράπεζα ΕΓΝΑΤΙΑ και η ονομασία της μετοχής της δεύτερης έγινε ΜΑΡΦΙΝ ΕΓΝΑΤΙΑ ΤΡΑΠΕΖΑ, ενώ της πρώτης βγήκε από το ταμπλό. Οι προαναφερθείσες μετοχές εξαιρέθηκαν από τι δημιουργία και τη μελέτη του δικτύου, γιατί δεν ενδιαφέρει το ιστορικό της κάθε επιχείρησης κατά την επιλογή των μετοχών, αλλά μόνο το να διατηρείται η ίδια ονομασία. Από τις 252 μετοχές που αρχικά επιλέχθηκαν, παρατηρήθηκε ότι μπορεί αυτές να περιλαμβάνουν στο ιστορικό τους μέρα κλεισίματος και την πρώτη μέρα της μελετώμενης περιόδου (2 Ιανουαρίου 2007) και την τελευταία (30 Δεκεμβρίου 2011), αλλά δεν έχουν διαπραγματευθεί και τις 1250 ημέρες των 5 αυτών ετών. Οι λόγοι που οι μετοχές αυτές «έμεναν εκτός ταμπλό του Χ.Α.Α.», όπως χαρακτηρίζεται στην ορολογία του χρηματιστηρίου το φαινόμενο αυτό, είτε για κάποιες μέρες, είτε ακόμα και για μια περίοδο, δεν αποτελεί αντικείμενο μελέτης της εργασίας αυτής. Έπειτα, έγινε ένας διαχωρισμός των μετοχών, ανάλογα με το ποσοστό πληρότητας σε μέρες κλεισίματος που εμφάνιζαν. Έτσι οι μετοχές κατηγοριοποιήθηκαν σε τρεις κατηγορίες: 1) μετοχές με ποσοστό πληρότητας 100% επί των 1250 ημερών διαπραγμάτευσης, 2) μετοχές με ποσοστό πληρότητας 99%-100%, 3) μετοχές με ποσοστό πληρότητας 95%-100%. Οι μετοχές της πρώτης κατηγορίας είναι 173, της δεύτερης κατηγορίας 212 και της τρίτης κατηγορίας 231. Προκειμένου να συμπληρωθούν οι κενές ημέρες, υπολογίστηκε ο μέσος όρος των τιμών που οριοθετούν πριν και μετά την περίοδο αυτή των συνεχόμενων κενών ημερών. Οι μετοχές, βάσει του μηνιαίου δελτίου του Χ.Α.Α. του Δεκεμβρίου του 2011 διαχωρίζονται σε 17 κατηγορίες και σε 63 υποκατηγορίες (Μηνιαίο Στατιστικό Δελτίο Χ.Α.Α. Δεκέμβριος 2011). Για τη μελέτη του δικτύου επιλέχθηκε το δίκτυο που περιλαμβάνει 212 μετοχές της κατηγορίας ποσοστού πληρότητας 99%-100%, αφενός γιατί οι τιμές κλεισίματος που δεν υπάρχουν είναι
64 πολύ λίγες για να αποκλειστούν οι μετοχές αυτές και αφετέρου γιατί πρόκειται για μετοχές μεγάλης κεφαλαιοποίησης (BLUE CHIPS) και δε θα μπορούσαν να μείνουν εκτός της συγκεκριμένης μελέτης. Η συνολική περίοδος χωρίστηκε στα δυο, με σημείο αναφοράς την ημερομηνία 2 Σεπτεμβρίου 2009, ημέρα εξαγγελίας πρόωρων εκλογών για τις 4 Οκτωβρίου 2009 από τον τότε πρωθυπουργό της Ελλάδας Κωνσταντίνο Καραμανλή με αιτία την ανάγκη λήψης μέτρων για την αντιμετώπιση της επερχόμενης Ελληνικής Κρίσης Χρέους (Wikipedia/Ελληνική Κρίση Χρέους). 3.2.2 Ελάχιστα Δένδρα Ζεύξης (Minimum Spanning Trees) Η πιο γνωστή προσέγγιση για την μελέτη οικονομικών δικτύων είναι αυτή του Ελαχίστου Δένδρου Ζεύξης (ΕΔΖ) (Minimum Spanning Trees (MST)). Τα ΕΔΖ έχουν χρησιμοποιηθεί σε τέτοια δίκτυα για να αναγνωρίσουν συστάδες μετοχών που ανήκουν στον ίδιο κλάδο. Είναι κατασκευασμένα χρησιμοποιώντας την ιεραρχική ανάλυση κατά συστάδες με την προσθετική μέθοδο, γνωστή και ως ανάλυση σε συστάδες μονής σύνδεσης (single-linkage clustering). Στο πρώτο βήμα, συνδέονται δύο κόμβοι που έχουν την μικρότερη απόσταση δημιουργώντας μια συστάδα. Στο επόμενο βήμα υπολογίζονται οι αποστάσεις των κόμβων μεταξύ τους μαζί με την καινούρια συστάδα που δημιουργήθηκε και συνδέονται αυτοί που έχουν την μικρότερη απόσταση. Αυτό γίνεται μέχρι να συνδεθούν όλες οι συστάδες. Η ομοιότητα των συστάδων c και c εκφράζεται συνήθως ως απόσταση αυτών των δύο συστάδων Dc, c, η οποία προσδιορίζεται θεωρώντας την απόσταση d ανάμεσα σε κάθε κόμβο i c και κάθε κόμβο j c. ij Στις συστάδες λοιπόν μονής σύνδεσης η απόσταση μεταξύ των συστάδων δίνεται από τη σχέση: D c, c min d ij (37) ic j c Η σχέση (37) αναφέρεται σε ανάλυση κατά συστάδες μονής σύνδεσης. Εναλλακτικά θα μπορούσε να χρησιμοποιηθεί η ανάλυση κατά συστάδες μέσης σύνδεσης (average-linkage clustering), στην οποία η απόσταση μεταξύ δύο συστάδων δίνεται από τη σχέση: D c c 1 d cc (38), ij ic jc
65 Για τα οικονομικά δίκτυα, μια τυπική μέτρηση που χρησιμοποιείται για το είναι ο μετασχηματισμός του συντελεστή συσχέτισης του Pearson ρ i, j που δίνεται από τη σχέση: dij 2 1 ρ i, j (39) Η παραπάνω απόσταση d ij αντιστοιχίζει το διάστημα 1,1 στο διάστημα 0, 2. Το ΕΔΖ αναδεικνύει την μια ιεραρχική δομή μεταξύ των κόμβων που κρύβεται μέσα στο δίκτυο. Για την κατασκευή του ΕΔΖ δύο συστάδες c και c συνδέονται με την ακμή που συνδέει τους δύο πιο κοντινούς μεταξύ των συστάδων κόμβους. Οι ακμές επιλέγονται με τέτοιο τρόπο ώστε να μην δημιουργούνται κύκλοι. Η διαδικασία που χρησιμοποιείται είναι προσθετική και τελικά δημιουργεί ένα δένδρο ζεύξης (spanning tree). Επειδή οι συστάδες συνδέονται χρησιμοποιώντας τις ελάχιστες αποστάσεις μεταξύ των κόμβων, τα ΕΔΖ δημιουργούν ένα μήκος ακμών ελαχίστου μήκους. Έτσι το δένδρο ζεύξης του δημιουργείται είναι ένα απλό, συνδετικό και μη-κυκλικό σταθμισμένο γράφημα που συνδέει τους n κόμβους με n 1 ακμές. Το δένδρο ζεύξης είναι πιο εύκολο να μελετηθεί σε σχέση με ένα πλήρως συνδετικό γράφημα που θα 1 n n ακμές. 2 περιέχει 1 Όσον αφορά την εύρεση των συστάδων σε ένα δίκτυο με δένδρο ελαχίστου μήκους υπάρχουν δύο τρόποι εργασίας πάνω στα φύλλα του δένδρου: είτε ορίζεται μια τιμή κατώφλι (threshold), την οποία όσες ακμές την ξεπερνούν στο θέμα της απόστασης των κόμβων που συνδέουν αφαιρούνται από το δίκτυο, είτε ξεκινάει η διαδικασία από τους μεμονωμένους κόμβους ορίζοντας μια τιμή κατώφλι, την οποία όσες ακμές την ξεπερνούν συνδέονται μεταξύ τους. Η χρήση της μεθόδου των ΕΔΖ έχει κάποια μειονεκτήματα. Το κυριότερο πρόβλημα με τα ΕΔΖ είναι ότι μπορεί να συνδέονται κόμβοι δύο συστάδων που στην ουσία δεν έχουν καμία σχέση. Επίσης, οι συνδέσεις που δημιουργούνται μπορεί να εμφανίζονται πιο σημαντικές από όσο είναι στην πραγματικότητα. Τέλος, είναι δύσκολο να προσδιοριστούν μέσα στα ΕΔΖ τα όρια των κοινοτήτων ξεκάθαρα (Fenn D.J. et al 2010). Στο δίκτυο που δημιουργήθηκε από τα δεδομένα των μετοχών του Χ.Α.Α. από τις μετοχές με διαπραγμάτευση στο 99% τουλάχιστον των συνεδριάσεων. d ij
66 Δημιουργήθηκαν δύο ΕΔΖ, το ένα αφορά το δίκτυο από τις 2 Ιανουαρίου 2007 έως και τις 2 Σεπτεμβρίου 2009 (ημέρα εξαγγελίας πρόωρων εκλογών) και το άλλο το δίκτυο από τις 3 Σεπτεμβρίου 2009 έως και τις 30 Δεκεμβρίου 2011, χωρίς να χρησιμοποιηθεί κάποια συγκεκριμένη τιμή κατώφλι για τη δημιουργία τους. 3.2.3 Αποτελέσματα Μετοχών Αφού ολοκληρώθηκε η επεξεργασία των δεδομένων των μετοχών, δημιουργήθηκε η χρονοσειρά για κάθε μία από αυτές. Η ανάλυση που ακολουθεί έγινε με χρήση της γλώσσας προγραμματισμού R (στην έκδοση 2.15.3 στα 64 bit) και όσον αφορά την επεξεργασία των δικτύων χρησιμοποιήθηκε η βιβλιοθήκη igraph 0.6.6. για το σκοπό αυτό χρησιμοποιήθηκε υπολογιστής με επεξεργαστή Intel i7-870, με μνήμη 16 GB RAM και λειτουργικό σύστημα Windows 7 Ultimate 64 bit. 1 2 3 4 5 6 7 8 9 10 11 12 Εικόνα 27: Χρονοσειρές 12 ενδεικτικών μετοχών
67 Αρχικά με χρήση των επεξεργασμένων τιμών κλεισίματος (αφαίρεση μεριδίων, κ.λ.π.) που είχαν οι 212 μετοχές, δημιουργήθηκαν οι χρονοσειρές των μετοχών αυτών για τα 5 χρόνια συνολικά της διαπραγμάτευσής τους, για τα οποία υπήρχαν διαθέσιμα τα δεδομένα. Για τις μεταβολές που είχαν οι μετοχές σε καθημερινή βάση (returns), χρησιμοποιήθηκε η σχέση: pi () t Ri ( t) ln p ( t1) i στην οποία υπολογίζεται για κάθε μετοχή i η μεταβολή (return) Ri () t τη χρονική στιγμή t, όπουμε pi () t η επεξεργασμένη τιμή κλεισίματος της μετοχής i κατά τη χρονική στιγμή t και pi ( t 1) η επεξεργασμένη τιμή κλεισίματος της ίδιας μετοχής i κατά τη χρονική στιγμή t 1 (Fenn D.J. et al 2010). Στην Εικόνα 27 παρουσιάζονται οι χρονοσειρές 12 ενδεικτικών μετοχών. Οι μετοχές που φαίνονται είναι οι: 1. ΑΛΦΑ (ALPHA ΤΡΑΠΕΖΑ Α.Ε. (ΚΟ)) 2. ΑΤΤ (ATTICA BANK ΑΝΩΝΥΜΗ ΤΡΑΠΕΖΙΚΗ ΕΤΑΙΡΕΙΑ (ΚΟ)) 3. ΑΤΕ (ΑΓΡΟΤΙΚΗ ΤΡΑΠΕΖΑ ΤΗΣ ΕΛΛΑΔΟΣ Α.Ε. (ΚΟ)) 4. ΑΝΕΚ (ΑΝΕΚ Α.Ε. (ΚΟ)) 5. ΤΙΤΚ (ΑΝΩΝΥΜΟΣ ΕΤΑΙΡΙΑ ΤΣΙΜΕΝΤΩΝ ΤΙΤΑΝ (ΚΟ)) 6. ΔΟΛ (ΔΗΜ/ΦΙΚΟΣ ΟΡΓΑΝΙΣΜΟΣ ΛΑΜΠΡΑΚΗ Α.Ε. (ΚΟ)) 7. ΕΤΕ (ΕΘΝΙΚΗ ΤΡΑΠΕΖΑ ΤΗΣ ΕΛΛΑΔΟΣ Α.Ε. (ΚΟ)) 8. ΕΛΛΑΚΤΩΡ (ΕΛΛΑΚΤΩΡ Α.Ε. (ΚΟ)) 9. ΚΡΕΤΑ (ΚΡΕΤΑ ΦΑΡΜ ΑΒΕΕ (ΚΟ)) 10. ΣΑΡΑΝ (ΚΥΛΙΝΔΡΟΜΥΛΟΙ Κ. ΣΑΡΑΝΤΟΠΟΥΛΟΣ Α.Ε. (ΚΟ)) 11. ΔΙΟΝ (ΝΤΙΟΝΙΚ Α.Ε.Β.Ε. (ΚΟ)) 12. ΟΤΕ (ΟΤΕ Α.Ε. (ΚΟ)) (40) Σε όλες τις παραπάνω μετοχές διαφαίνεται μια μεταβολή στις χρονοσειρές των τιμών τους προς το τέλος του 2009, μετά δηλαδή την αναγγελία των εκλογών που έγινε στις 2/9/2009. Στα γραφήματα που ακολουθούν φαίνεται για τις προαναφερθείσες μετοχές οι ποσοστιαίες μεταβολές των επεξεργασμένων τιμών κλεισίματος αυτών (returns) σε καθημερινή βάση. Αυτό γίνεται τόσο για την περίοδο πριν τις 2/9/2009, όσο και για μετά από αυτήν την ημρομηνία.
68 ΜΕΤΟΧΗ ΠΡΙΝ ΤΙΣ 2/9/2009 ΜΕΤΑ ΤΙΣ 2/9/2009 1. ΑΛΦΑ 2. ΑΤΤ 3. ΑΤΕ 4. ΑΝΕΚ 5. ΤΙΤΚ 6. ΔΟΛ 7. ΕΤΕ 8. ΕΛΛΑΚΤΩΡ 9. ΚΡΕΤΑ 10. ΣΑΡΑΝ 11. ΔΙΟΝ 12. ΟΤΕ Εικόνα 28: Οι ποσοστιαίες μεταβολές των 12 μετοχών πριν και μετά τις 2/9/2009 Παρατηρώντας κάποιος τα γραφήματα των returns, μπορεί να καταλάβει ότι η πορεία της κάθε μετοχής είναι διαφορετική κατά το χρονικό διάστημα πριν και μετά την αναγγελία των εκλογών. Για κάθε ζεύγος μετοχών υπολογίστηκε ο συντελεστής συσχέτισης του Pearson μεταξύ των μεταβολών των επεξεργασμένων τιμών κλεισίματος (returns). Στην Εικόνα 29 φαίνονται οι συντελεστές συσχέτισης μεταξύ των 212 μετοχών που μελετήθηκαν. Παρατηρείται ότι πριν τις εκλογές υπάρχει μια ποικιλία από τιμές των συντελεστών συσχέτισης, που φαίνεται να είναι τυχαία κατανεμημένοι σε όλο το φάσμα της κλίμακας και με λίγες ακραίες τιμές στο γράφημα Box Plot. Μετά τις εκλογές φαίνεται ότι αλλάζει η κατάσταση, με την πλειοψηφία των τιμών κοντά στο μηδέν και με πολλές