Μέτρα σε δίκτυα-ιδιότητες και εφαρμογές

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης ΠΜΣ : Στατιστική και Μοντελοποίηση Διπλωματική εργασία Μέτρα σε δίκτυα-ιδιότητες και εφαρμογές Γρηγοριάδης Ιωάννης Επιβλέπων καθηγητής : Πολυχρόνης Μωυσιάδης Θεσσαλονίκη

2 ΠΕΡΙΛΗΨΗ Ο τομέας των δικτύων είναι ένας σχετικά πρόσφατος και ραγδαία αναπτυσσόμενος τομέας. Με το πέρασμα των χρόνων, διάφορα είδη δικτύων εισβάλουν ολοένα και περισσότερο στην καθημερινή μας ζωή. Έτσι, η κατανόηση τους και η ενασχόληση με αυτά παρουσιάζει μεγάλο ενδιαφέρον. Κύριο αντικείμενο μελέτης των δικτύων αποτελεί η σημαντικότητα κάθε κόμβου και ο ρόλος του μέσα στο δίκτυο. Η σημαντικότητα των κόμβων εκτιμάται μέσω της κεντρικότητας τους, η οποία ορίζεται με διάφορους τρόπους. Η παρούσα εργασία λοιπόν, επιχειρεί να εμβαθύνει σε όλα τα παραπάνω πεδία με στόχο την αποσαφήνιση της κεντρικότητας σε δίκτυα, τόσο θεωρητικά όσο και μέσω παραδειγμάτων, καθώς και να παρουσιάσει ένα διαφορετικό τρόπο δημιουργίας δικτύων και τη συσχέτιση τους με τα πραγματικά δίκτυα. 1

3 Περιεχόμενα ΚΕΦΑΛΑΙΟ 1 ο : ΕΙΣΑΓΩΓΗ ΣΤΑ ΔΙΚΤΥΑ Ορισμός δικτύου, είδη και ιδιότητες Θεωρία τυχαίων γραφημάτων Ορισμός και ιστορική εξέλιξη της κεντρικότητας στα δίκτυα ΚΕΦΑΛΑΙΟ 2 Ο : ΜΕΤΡΑ ΚΕΝΤΡΙΚΟΤΗΤΑΣ ΣΕ ΔΙΚΤΥΑ Κεντρικότητα Βαθμού (Degree Centrality) Ιδιοδιανυσματική Κεντρικότητα (Eigenvector Centrality) Κεντρικότητα Katz (Katz centrality) Βαθμική Κεντρικότητα Page(Pagerank) Alpha κεντρικότητα (Alpha centrality) Κεντρικότητα Eνδιαμεσότητας (Betweenness Centrality) Κεντρικότητα Εγγύτητας (Closeness Centrality) Συντελεστής Σύμπλεξης (Clustering Coefficient) Κεντρικότητα ομφαλoύ και αυθεντίας (hubs and authorities centrality) Κεντρικότητα πληροφορίας (Information centrality) Κεντρικότητα πυρηνοποίησης (coreness centrality) h-δείκτης (h-index) loby δείκτης (loby index) C-δείκτης (C-index) ΚΕΦΑΛΑΙΟ 3 Ο : ΕΦΑΡΜΟΓΗ ΤΩΝ ΜΕΤΡΩΝ ΚΕΝΤΡΙΚΟΤΗΤΑΣ ΣΕ ΠΑΡΑΔΕΙΓΜΑΤΑ ΔΙΚΤΥΩΝ Παράδειγμα κοινωνικού δικτύου Παράδειγμα δικτύου παραπομπών ΣΥΜΠΕΡΑΣΜΑΤΑ-ΣΥΖΗΤΗΣΗ ΠΕΡΙΟΡΙΣΜΟΙ ΚΑΙ ΜΕΛΛΟΝΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΒΙΒΛΙΟΓΑΦΙΑ

4 ΕΙΣΑΓΩΓΗ Η ανάγκη για την αποτελεσματική αντιμετώπιση πολύπλοκων συστημάτων έγινε το εφαλτήριο για τη δημιουργία των δικτύων. Η απεικόνιση των δικτύων βοηθάει στην ευκολότερη διαχείριση των συστημάτων μέσω του τμηματικού διαχωρισμού τους. Αυτός είναι ο λόγος, για τον οποίον τα δίκτυα βρίσκουν εφαρμογή σε μεγάλο πλήθος τομέων. Φυσικά, δίκτυα διαφορετικών ειδών παρουσιάζουν διαφορετικές ιδιότητες. Για την αντιμετώπιση σύνθετων δικτύων μεγάλη είναι η συνδρομή της θεωρίας τυχαίων γραφημάτων. Η θεωρία τυχαίων γραφημάτων προσπαθεί μέσω της δημιουργίας γραφημάτων να εντοπίσει ιδιότητες και να δώσει απαντήσεις που αφορούν πραγματικά δίκτυα. Τα πιο γνωστά τυχαία γραφήματα προκύπτουν με διωνυμική κατανομή βαθμού (Erdos-Renyi) ή χρησιμοποιώντας κάποια επιλεκτική σύνδεση στις συνδέσεις τους (Barabasi-Albert). Ένα από τα σημαντικότερα αντικείμενα μελέτης στα δίκτυα είναι η κεντρικότητα των κόμβων τους. Η κεντρικότητα καθορίζει την αξία του κάθε κόμβου μέσα στο δίκτυο και επιτρέπει με διάφορους τρόπους την απόδοση ιδιοτήτων στις κορυφές του. Όμως, όπως είναι λογικό η σημερινή χρήση της κεντρικότητας των δικτύων δεν παρουσιάζει πολλά κοινά με την αρχική. Mία ιστορική αναδρομή στην εξέλιξη της κεντρικότητας μέσα στο πέρασμα των χρόνων, θα καταστήσει εφικτή αυτή τη σύγκριση. Όλα τα παραπάνω ζητήματα θα αναφερθούν αναλυτικά στο πρώτο κεφάλαιο της εργασίας. Το δεύτερο κεφάλαιο σχετίζεται αποκλειστικά με τα μέτρα κεντρικότητας σε δίκτυα. Η αναλυτική παρουσίαση του κάθε μέτρου, ο τρόπος και ο λόγος δημιουργίας του καθώς και διάφορες ιδιότητες και παραλλαγές του, θα εξεταστούν με προσοχή. Δεκατέσσερα μέτρα μαζί με τα θεωρητικά αποτελέσματα για τις μεταξύ τους συσχετίσεις, περιγράφονται και συνδράμουν στην επιλογή του κατάλληλου μέτρου από τους αναγνώστες ανάλογα με τις ανάγκες τους. Στο τρίτο κεφάλαιο, πραγματοποιείται η μετάβαση από τη θεωρία στην πράξη. Δυο παραδείγματα δικτύων παρουσιάζονται και γίνεται η εφαρμογή των εξεταζόμενων μέτρων. Το πρώτο παράδειγμα αναφέρεται σε ένα κατευθυνόμενο δίκτυο Twitter. Λόγω της κατεύθυνσης των ακμών του, ορίζονται για τα περισσότερα μέτρα δύο υποκατηγορίες. Η πρώτη, αφορά τα μέτρα τα οποία υπολογίζουν την κεντρικότητα των κόμβων δίνοντας βαρύτητα στις εισερχόμενες ακμές του ενώ η δεύτερη εστιάζει στις 3

5 εξωτερικές ακμές. Για όλα τα μέτρα έχουν δημιουργηθεί συναρτήσεις υπολογισμού τους, ενώ για τα μέτρα που χρησιμοποιούν παραμέτρους γίνεται εξέταση των επιπτώσεων της αλλαγής παραμέτρου στην κατανομή κεντρικότητας των χωρώνκόμβων. Βέβαια, δε λείπει η ερμηνεία των αποτελεσμάτων όλων των μέτρων κεντρικότητας για το συγκεκριμένο δίκτυο και η συσχέτιση τους με τα θεωρητικά αποτελέσματα του δευτέρου κεφαλαίου. Μάλιστα, προτείνεται και η δημιουργία ενός καινούριου μέτρου και εξετάζεται η αποτελεσματικότητα και η συσχέτισή του με τα ήδη υπάρχοντα. Στη συνέχεια δημιουργείται ένα τυχαίο γράφημα (Erdös-Rènyi), αποτελούμενο από τον ίδιο αριθμό κόμβων με το αρχικό και ελέγχεται αν υπάρχει κάποια συσχέτιση στην κατανομή των τιμών κεντρικότητας για το κάθε μέτρο στα δύο δίκτυα. Στο δεύτερο παράδειγμα εξετάζεται ένα δίκτυο αναφορών. Για την ακρίβεια, βασιζόμενοι σε αποτελέσματα ερευνών, δημιουργούμε ένα τυχαίο γράφημα (Barabasi- Albert) και γίνεται η υπόθεση ότι αντιστοιχεί σε δίκτυο αναφορών. Έπειτα, αντλούμε ένα καινούριο δίκτυο από το δίκτυο αναφορών, από το οποίο θα προσπαθήσουμε να εξάγουμε συμπεράσματα για την κατανομή των επιστημόνων. Το καινούριο δίκτυο είναι κατευθυνόμενο και σταθμισμένο και γίνεται προσπάθεια για εύρεση συσχέτισης ορισμένων μέτρων, τα οποία αφορούν κυρίως δίκτυα αναφορών, με μέτρα που είναι ευρέως χρησιμοποιούμενα σε μεγαλύτερης γκάμας δίκτυα. Στο τελευταίο μέρος της εργασίας, παρουσιάζονται τα αποτελέσματα της έρευνας και κάποιες προτάσεις για μελλοντική έρευνα. 4

6 ΚΕΦΑΛΑΙΟ 1 ο : ΕΙΣΑΓΩΓΗ ΣΤΑ ΔΙΚΤΥΑ 1.1 Ορισμός δικτύου, είδη και ιδιότητες Τα δίκτυα θα αποτελέσουν το κύριο αντικείμενο συζήτησης της παρούσας διπλωματικής. Έτσι, αρχικά ας δούμε τον τρόπο με τον οποίο τα ορίζουμε. Ένα δίκτυο, στην απλούστερη μορφή του, είναι ένα σύνολο σημείων που ενώνονται μεταξύ τους με γραμμές. Στην ορολογία των δικτύων, τα σημεία ονομάζονται κορυφές ή κόμβοι και οι συνδετικές γραμμές ονομάζονται ακμές. Στην καθημερινή μας ζωή υπάρχουν πολλά συστήματα τα οποία αποτελούνται από επιμέρους τμήματα που συνδέονται μεταξύ τους με διάφορους τρόπους. Τέτοιου είδους συστήματα, ιδίως σε περιπτώσεις που κρίνεται απαραίτητη η μελέτη τους, είναι ωφέλιμο να αναπαρασταθούν σε μορφή δικτύου. Στην εποχή μας, το πιο ευρέως γνωστό δίκτυο είναι το διαδίκτυο (Internet). To διαδίκτυο σχηματίζει ένα τεράστιο δίκτυο που συνδέει εκατομμύρια υπολογιστές σε παγκόσμιο επίπεδο, οι οποίοι μπορούν να επικοινωνούν μεταξύ τους για όσο χρόνο βρίσκονται συνδεδεμένοι σε αυτό. Επομένως, συνδέοντας την έννοια του διαδικτύου με τον ορισμό των δικτύων, μπορούμε να πούμε ότι οι υπολογιστές παίζουν τον ρόλο των κόμβων ενώ οι ακμές αντιστοιχούν στην επικοινωνία μεταξύ των υπολογιστών. Το δίκτυο αποτελεί μια μορφή αναπαράστασης ενός συστήματος με στόχο την απλούστευσή του, μέσω του διαχωρισμού του σε μικρότερα τμήματα, και της κατανόησης της ολικής λειτουργίας του μέσω της εξερεύνησης των σχέσεων των συνδεόμενων τμημάτων του. Η προσπάθεια αυτή μπορεί να ενισχυθεί με την εισαγωγή επιπρόσθετων στοιχείων στους κόμβους και τις ακμές του δικτύου. Τέτοια στοιχεία είναι η ονομασία των κόμβων και η προσθήκη βαρών στις ακμές που αντιστοιχούν σε μία επιπλέον πληροφορία για τη σχέση των εκάστοτε συνδεόμενων κόμβων. Κινούμενοι σε αυτή τη γραμμή πλεύσης, οι επιστήμονες στην προσπάθεια τους να μελετήσουν τα δίκτυα ανέπτυξαν μια πληθώρα μαθηματικών, υπολογιστικών και στατιστικών εργαλείων αποσκοπώντας στην 5

7 καλύτερη ερμηνεία ολόκληρου του δικτύου, αλλά και του κάθε κόμβου ξεχωριστά. Η εύρεση της κορυφής με τις περισσότερες συνδέσεις και του μήκους του μονοπατιού που ενώνει δύο κόμβους, συγκαταλέγονται στη μεγάλη λίστα αυτών των εργαλείων. Μάλιστα, η εφαρμογή αυτών των εργαλείων βρίσκει αντίκρισμα σε μεγάλο εύρος δικτύων λόγω της απλοποιημένης μορφής που παρουσιάζουν τα περισσότερα δίκτυα. Ο εύκολος και απλοϊκός τρόπος δημιουργίας των δικτύων σε συνδυασμό με τη μεγάλη χρησιμότητα τους, έχει σαν επακόλουθο την ύπαρξη μεγάλου αριθμού διαφορετικών ειδών δικτύων. Ήδη έγινε αναφορά στο διαδίκτυο. Ας δούμε τώρα τις σημαντικότερες κατηγορίες δικτύων. Ένα από τα σημαντικότερα είδη δικτύων που παρουσιάζει ιδιαίτερο ενδιαφέρον τα τελευταία χρόνια είναι τα κοινωνικά δίκτυα. Ένα κοινωνικό δίκτυο είναι μια κοινωνική δομή αποτελούμενη από κοινωνικούς παράγοντες (όπως άτομα ή οργανώσεις), οι οποίοι έχουν τη δυνατότητα να συνδέονται μεταξύ τους με κάποια σχέση. Για παράδειγμα ένα κοινωνικό δίκτυο μπορεί να αποτελείται από άτομα που συνδέονται μεταξύ τους με σχέσεις φιλίας (Facebook, Twitter) ή από εταιρίες που συνδέονται με επιχειρηματικές σχέσεις. H μελέτη των κοινωνικών δικτύων παρέχει ένα σύνολο μεθόδων για την ανάλυση της δομής όλων των κοινωνικών οντοτήτων καθώς επίσης και μια ποικιλία από θεωρίες που εξηγούν τη σχέση των οντοτήτων μεταξύ τους. Ειδικότερα, μέσω της ανάλυσης των κοινωνικών δικτύων ελέγχονται οι τοπικές αλλά και οι ευρύτερες σχέσεις μεταξύ των οντοτήτων στο δίκτυο, εντοπίζονται σημαντικές οντότητες που ασκούν μεγάλη επιρροή στις υπόλοιπες και εξετάζεται η δυναμική ολόκληρου του δικτύου. Από όλα τα παραπάνω γίνεται εύκολα αντιληπτό ότι τα κοινωνικά δίκτυα και η ανάλυσή τους είναι άρρηκτα συνδεδεμένα με τους τομείς της ψυχολογίας και της κοινωνιολογίας. Ένα άλλο πολύ σημαντικό δίκτυο είναι ο Παγκόσμιος Ιστός (World Wide Web). Aν και στην καθημερινότητα πολλές φορές το ίντερνετ και ο παγκόσμιος ιστός αντιμετωπίζονται σαν ταυτόσημες έννοιες, η πραγματικότητα διαφέρει. Ο παγκόσμιος ιστός είναι ένα δίκτυο αποθηκευμένων πληροφοριών σε ιστοσελίδες. Οι κόμβοι του δικτύου είναι ιστοσελίδες και οι ακμές είναι υπερσύνδεσμοι, δηλαδή τα τονισμένα αποσπάσματα κειμένου που οδηγούν από μια ιστοσελίδα σε άλλη. Οι δισεκατομμύρια σελίδες και σύνδεσμοι του παγκόσμιου ιστού δεν είναι απλά ιδιαίτερα βοηθητικές προς όλο τον κόσμο αλλά παρουσιάζουν και μεγάλο ενδιαφέρον από την σκοπιά των δικτύων. 6

8 Αναπαράσταση κοινωνικού δικτύου Το γεγονός ότι υπάρχει η τάση να εισάγονται υπερσύνδεσμοι μεταξύ ιστοσελίδων με όμοιο περιεχόμενο, συνεπάγεται ότι η δομή των συνδέσμων αποκαλύπτει κάποια πράγματα για το περιεχόμενο των ιστοσελίδων. Επίσης το πόσο σημαντική θέση έχει μια ιστοσελίδα ανάμεσα στις υπόλοιπες, επηρεάζεται από το πλήθος των συνδέσεων στη συγκεκριμένη σελίδα. Επομένως, με μια πρώτη ματιά, εξετάζοντας το δίκτυο παγκοσμίου ιστού μπορούμε να βγάλουμε συμπεράσματα για την κάθε ιστοσελίδα. Ένας κλάδος που τα τελευταία χρόνια χρησιμοποιεί αρκετά τα δίκτυα είναι η βιολογία. Για παράδειγμα, ένα από τα πιο γνωστά δίκτυα από αυτόν τον κλάδο είναι τα νευρωνικά δίκτυα. Τα νευρωνικά δίκτυα είναι δίκτυα που έχουν σαν κόμβους τους νευρώνες του ανθρωπίνου εγκεφάλου, που συνδέονται μεταξύ τους ανταλλάσσοντας ηλεκτρικά σήματα. Γνωστά είναι επίσης και τα δίκτυα τροφής (τροφική αλυσίδα), τα οποία αποτελούν οικολογικά δίκτυα που οι κορυφές τους αντιστοιχούν στα είδη του οικοσυστήματος και οι ακμές τους στη σχέση θηρευτή-θηράματος, τα δίκτυα αλληλεπιδράσεων κυττάρων, πρωτεϊνών κτλ. 7

9 Νευρωνικό δίκτυο ανθρωπίνου εγκεφάλου Ένα ακόμη είδος δικτύων που θα θέλαμε να σχολιάσουμε είναι το δίκτυο βιβλιογραφικών αναφορών (παραπομπών). Ένα δίκτυο παραπομπών έχει ως κόμβους επιστημονικές εργασίες και οι ακμές αντιστοιχούν σε παραπομπή από μια εργασία σε μια άλλη. Όμοια, και σε αυτή την περίπτωση είναι λογικό εργασίες, που παραπέμπει η μία στην άλλη, να έχουν σχετικό περιεχόμενο. Ακόμη, αν θεωρήσουμε δεδομένο ότι μια εργασία που έχει πολλές βιβλιογραφικές αναφορές θα έχει εξέχουσα θέση σε σχέση με τις άλλες, τότε μπορούμε να κατανοήσουμε τη χρησιμότητα του δικτύου και τη συνεισφορά του στην κατάταξη των επιστημονικών εργασιών. Τέλος, θα γίνει αναφορά στον τρόπο σύνδεσης των κορυφών σε ένα δίκτυο. Υπάρχουν δίκτυα στα οποία πρέπει να διαχωρίζεται η σύνδεση ενός κόμβου Α με έναν κόμβο Β από την σύνδεση του κόμβου Β με τον κόμβο Α. Για παράδειγμα, στον παγκόσμιο ιστό, όταν μια ιστοσελίδα έχει έναν υπερσύνδεσμο που οδηγεί σε μια άλλη, δεν μπορώ να ξέρω σίγουρα ότι και η άλλη σελίδα θα έχει υπερσύνδεσμο για την αρχική. Όμοια, σε ένα δίκτυο παραπομπών όταν μια επιστημονική εργασία παραπέμπει 8

10 σε μία άλλη, είναι σχεδόν βέβαιο ότι η πρώτη δημοσιεύτηκε αργότερα από τη δεύτερη και άρα στις περισσότερες περιπτώσεις δεν μπορεί η δεύτερη να έχει βιβλιογραφική αναφορά για την πρώτη. Από τα παραπάνω, γίνεται επιτακτική η ανάγκη δημιουργίας δικτύων με κατευθυνόμενες ακμές. Τα δίκτυα αυτά ονομάζονται κατευθυνόμενα δίκτυα. Στην περίπτωση που δεν έχουμε κατευθυνόμενες ακμές, τα δίκτυα θα ονομάζονται μη κατευθυνόμενα. Έχει γίνει νωρίτερα αναφορά στην προσθήκη βαρών στις ακμές, ώστε να δοθεί περισσότερη πληροφορία για τα στοιχεία του δικτύου. Δίκτυα που εμφανίζουν βάρη στις ακμές τους ονομάζονται σταθμισμένα δίκτυα ενώ αντίστοιχα, δίκτυα που δεν εμφανίζουν βάρη ονομάζονται μη σταθμισμένα δίκτυα. 1.2 Θεωρία τυχαίων γραφημάτων Όπως είδαμε, η δημιουργία ενός δικτύου έχει ως στόχο την καλύτερη κατανόηση ενός συστήματος μέσω της απεικόνισής του. Η εξέλιξη στην έρευνα των δικτύων οδήγησε στη μελέτη σύνθετων δικτύων, τα οποία τα τελευταία χρόνια αποτελούν ένα μεγάλο μέρος των εξεταζόμενων δικτύων. Ένα σύνθετο δίκτυο είναι ένα δίκτυο το οποίο δεν παρουσιάζει τετριμμένα τοπολογικά χαρακτηριστικά, δηλαδή δεν παρουσιάζει χαρακτηριστικά που απαντώνται στη δομή ενός δικτύου απλής μορφής. Η ανάγκη για μοντελοποίηση σύνθετων δικτύων αποτέλεσε την απαρχή της δημιουργίας των τυχαίων γραφημάτων. Τα τυχαία γραφήματα είναι απεικονίσεις δικτύων που δημιουργούνται με τυχαία κατανομή των ακμών τους. Δημιουργοί της θεωρίας των τυχαίων γραφημάτων ήταν οι P.Erdos και A.Renyi (1959,1960,1961), έχοντας ως έναυσμα της προσπάθειάς τους, την ανακάλυψη του Erdos ότι η χρησιμοποίηση πιθανολογικών μεθόδων είναι χρήσιμη στην αντιμετώπιση προβλημάτων στη θεωρία γραφημάτων. Ο αρχικός ορισμός που έδωσαν στο τυχαίο γράφημα είναι η δημιουργία ενός δικτύου με Ν κορυφές και n ακμές, οι οποίες επιλέγονται τυχαία από τις συνολικά N(N1) πιθανές ακμές του δικτύου. Έχουμε λοιπόν ένα χώρο 2 9

11 πιθανοτήτων με στοιχεία γραφήματα, κάθε ένα από τα οποία αποτελείται από Ν κορυφές και n ακμές και η επιλογή του κάθε γραφήματος είναι ισοπίθανη. Ένας εναλλακτικός και σχεδόν ισοδύναμος ορισμός με τον παραπάνω είναι ο ορισμός του διωνυμικού μοντέλου. Σύμφωνα με το διωνυμικό μοντέλο έχουμε Ν κορυφές με πιθανότητα σύνδεσης p, μεταξύ όλων των ζευγών κορυφών του δικτύου. Έτσι, ο συνολικός αριθμός των ακμών του δικτύου είναι μια τυχαία μεταβλητή με αναμενόμενη τιμή N( N 1) E( n) p. Επομένως, αν G 0 είναι ένα 2 γράφημα με τις παραπάνω ιδιότητες, τότε η πιθανότητα το γράφημα που κατασκευάστηκε με την παραπάνω διαδικασία να συμπίπτει με το G 0 είναι : 0 N( N1) n 2 n p(g ) p (1 p). Η θεωρία των τυχαίων γραφημάτων επικεντρώνεται στην αναζήτηση ιδιοτήτων των παραπάνω γραφημάτων, οι οποίες σχετίζονται με ιδιότητες σύνθετων γραφημάτων όταν το. Πολλές από αυτές τις ιδιότητες μπορούν να οριστούν με πιθανολογικές μεθόδους. Οι Erdos και Renyi χρησιμοποίησαν τον ορισμό, ότι σχεδόν όλα τα γραφήματα θα έχουν μια ιδιότητα Q, εάν η πιθανότητα να έχουν τα γραφήματα την ιδιότητα είναι 1 όταν το. Ο κύριος στόχος της θεωρίας τυχαίων γραφημάτων είναι ο καθορισμός της πιθανότητας σύνδεσης, για την οποία μια ιδιότητα του γραφήματος είναι περισσότερο πιθανό να προκύψει. Η μεγάλη διαπίστωση των Erdos και Renyi ήταν ότι για μια συγκεκριμένη τιμή της πιθανότητας σύνδεσης, είτε σχεδόν όλα τα γραφήματα θα έχουν αυτή την ιδιότητα είτε δεν θα την έχει σχεδόν κανένα. Για πολλές ιδιότητες μάλιστα, υπάρχει μία κρίσιμη πιθανότητα για την οποία όταν μια πιθανότητα σύνδεσης (συνάρτηση του πλήθους κορυφών) αυξάνεται σε αργότερο ρυθμό από ότι αυτή (για ), τότε η ιδιότητα αυτή δεν υπάρχει σχεδόν σε όλα τα γραφήματα με την ίδια πιθανότητα σύνδεσης. Σε αντίθετη περίπτωση, αν η πιθανότητα σύνδεσης αυξάνεται με γρηγορότερο ρυθμό από την κρίσιμη πιθανότητα, τότε σχεδόν όλα τα γραφήματα που δημιουργήθηκαν με την ίδια πιθανότητα σύνδεσης θα έχουν τη συγκεκριμένη ιδιότητα. Έτσι λοιπόν, με την μελέτη των τυχαίων γραφημάτων μπορούμε να βγάλουμε συμπεράσματα για ιδιότητες που υπάρχουν σε άλλα δίκτυα από διάφορους τομείς. Ο ορισμός των Erdos και Renyi όμως παρουσιάζει δύο προβλήματα. Το πρώτο πρόβλημα που προκύπτει σχετίζεται με την ίδια πιθανότητα 10

12 σύνδεσης μεταξύ όλων των κόμβων του δικτύου. Τα τυχαία γραφήματα που δημιουργήθηκαν με αυτόν τον τρόπο ορίζουν ένα δίκτυο με Ν κορυφές και πιθανότητα σύνδεσης p για όλους τους κόμβους. Στα περισσότερα πραγματικά δίκτυα κάτι τέτοιο δεν ισχύει. Συνήθως έχουμε περιπτώσεις ανοιχτών συστημάτων, τα οποία αυξάνονται με τη συνεχή προσθήκη κόμβων. Το δεύτερο πρόβλημα είναι ότι οι νεοεισερχόμενοι κόμβοι δε συνδέονται με ίδια πιθανότητα σε όλους τους υπάρχοντες κόμβους του δικτύου, αλλά ακολουθούν επιλεκτική σύνδεση ανάλογα με το πλήθος συνδέσεων του κάθε κόμβου. Τα δύο αυτά προβλήματα οδήγησαν τους Α.Barabasi και R.Albert στη δημιουργία τυχαίων γραφημάτων με ένα διαφορετικό τρόπο. Τα γραφήματα αυτά ονομάστηκαν γραφήματα ελεύθερα κλίμακας (scale-free). Τα γραφήματα ελεύθερης κλίμακας είναι δίκτυα όπου η κατανομή των συνδέσεων των κόμβων τους ακολουθεί κατανομή νόμου δύναμης (power-law). Δηλαδή, αν Χ είναι η τυχαία μεταβλητή που μετράει τις συνδέσεις κάθε κόμβου, τότε P(X k) k a, όπου α είναι παράμετρος που παίρνει τιμές κυρίως στο διάστημα [2,3]. Πρακτικά, τα τυχαία γραφήματα που δημιουργούνται με αυτόν τον τρόπο χρησιμοποιούνται σε αρκετά μεγαλύτερο βαθμό σε σχέση με το μοντέλο των Erdos και Renyi, εξαιτίας της προσέγγισης της συμπεριφοράς των περισσότερων πραγματικών δικτύων. 1.3 Ορισμός και ιστορική εξέλιξη της κεντρικότητας στα δίκτυα Όπως είδαμε στην προηγούμενη ενότητα, το δίκτυο αποτελεί μια οπτική αναπαράσταση ενός συστήματος, διαιρούμενου σε μικρά τμήματα με στόχο τη μελέτη των χαρακτηριστικών των τμημάτων αλλά και ολόκληρου του συστήματος. Ένα από τα σημαντικότερα χαρακτηριστικά των κόμβων του δικτύου είναι η κεντρικότητα τους. Η κεντρικότητα του κάθε κόμβου είναι ένα μέτρο σημαντικότητας, που αντικατοπτρίζει τη σημασία του κόμβου σε όλο το δίκτυο. Φυσικά, δεν θεωρούνται σε όλα τα δίκτυα σημαντικοί οι κόμβοι που έχουν τις ίδιες πάντα ιδιότητες. Ο ορισμός της 11

13 σημαντικότητας των κόμβων και κατά συνέπεια και της κεντρικότητάς τους, εξαρτάται από το είδος του κάθε φορά εξεταζόμενου δικτύου και από το τι θέλει να μελετήσει ο ερευνητής. Για παράδειγμα, σε ένα κοινωνικό δίκτυο είναι λογικό να θεωρηθούν σημαντικοί, κόμβοι που έρχονται σε επικοινωνία με μεγάλο αριθμό άλλων. Σε αυτή την περίπτωση το μεγάλο πλήθος ακμών από έναν κόμβο αντιστοιχεί σε μεγάλο πλήθος σχέσεων φιλίας και φαντάζει ικανό ώστε να προσδώσει στο άτομο εξέχουσα θέση στο δίκτυο. Σε ένα δίκτυο ροής πληροφοριών όμως, ίσως να μην είναι ικανές μόνο οι πολλές συνδέσεις του κόμβου για να χαρακτηριστεί σημαντικός. Είναι λογικός ο ισχυρισμός ότι στα δίκτυα πληροφοριών, ένας κόμβος θα έχει σημαντική θέση στο δίκτυο όταν μπορεί να ελέγξει τις πληροφορίες που διακινούνται μεταξύ πολλών κόμβων. Επομένως την κεντρικότητα του δεν θα την κρίνει η άμεση σύνδεση του με άλλους κόμβους, αλλά η συχνή παρεμβολή του μεταξύ μονοπατιών των ζευγών κόμβων που ανταλλάζουν πληροφορίες μέσα στο δίκτυο. Έτσι, δόθηκε το έναυσμα για τη δημιουργία μιας σειράς μέτρων κεντρικότητας, τα οποία μπορούν να εφαρμοστούν κάθε φορά ανάλογα με το δίκτυο και τις ανάγκες του ερευνητή. Ας δούμε τώρα, πως δημιουργήθηκε αρχικά η ανάγκη για τον υπολογισμό της κεντρικότητας, κάνοντας μια ιστορική αναδρομή στην κεντρικότητα των δικτύων. H ιδέα της κεντρικότητας σε κοινωνικά δίκτυα εισήχθη πρώτη φορά από τον A.Bavelas. O Bavelas ασχολήθηκε ειδικότερα με την επικοινωνία σε μικρές ομάδες και υπέθεσε μία σχέση μεταξύ της κεντρικότητας και της επιρροής της στις διεργασίες της ομάδας. Στα τέλη του 1940, πραγματοποιήθηκε η πρώτη ερευνητική εφαρμογή της κεντρικότητας υπό την καθοδήγηση του Bavelas, στο εργαστήριο δικτύων του M.I.T. Οι πρώτες μελέτες οι οποίες διεξήχθησαν από τους H.Leavitt (1949) και S.Smith (1950), αναφέρθηκαν από τους Bavelas (1950) και Βarret (1951) και περιγράφηκαν για πρώτη φορά λεπτομερώς από τον Leavitt (1951). Όλες αυτές οι έρευνες κατέληξαν στο συμπέρασμα ότι η κεντρικότητα σχετίζεται με την αποτελεσματικότητα της ομάδας σε επίλυση προβλημάτων, την αντίληψη ηγεσίας και την προσωπική ικανοποίηση των συμμετεχόντων. Οι παραπάνω έρευνες αποτέλεσαν το έναυσμα για την πραγματοποίηση μιας σειράς πολλών πειραμάτων μεταξύ των δεκαετιών του 1950 και Υπήρξαν επεκτάσεις, τροποποιήσεις και επεξεργασίες των αρχικών αποτελεσμάτων. Ωστόσο, τα συγκεντρωτικά αποτελέσματα από όλες τις έρευνες ήταν συχνά αντιφατικά μεταξύ 12

14 τους. Αυτός ήταν και ο λόγος ο οποίος οδήγησε τον Burgess (1968) να δηλώσει oτι οι έρευνες δεν έχουν παράγει συνεπή συγκεντρωτικά αποτελέσματα. Παρά τη σύγχυση αυτή, τα αποτελέσματα έδειχναν με βεβαιότητα ότι η κεντρικότητα σχετίζεται με τον τρόπο που οργανώνονται οι ομάδες για την επίλυση τουλάχιστον κάποιων ειδών προβλημάτων. Κριτικές για αυτό το γεγονός συντάχθηκαν από τους Flament (1956,1960,1963,1965), Mulder (1956,1958), Glanzer και Glaser (1957,1961),Cohen (1964), Shaw (1964), Burgess (1968), Snadowsky (1972) και Rogers και Agarwala- Rogers (1976) Ωστόσο, οι εφαρμογές της κεντρικότητας δεν περιορίστηκαν μόνο σε πειραματικές μελέτες για την αντιμετώπιση προβλημάτων από ομάδες. Οι Cohn και Marriott (1958) χρησιμοποίησαν την κεντρικότητα, στην προσπάθεια τους να κατανοήσουν την πολιτική ενσωμάτωση στο πλαίσιο της ποικιλομορφίας της ινδικής κοινωνικής ζωής. Πιο συγκεκριμένα, αναζήτησαν πως μπορεί να διοικηθεί ένα μεγάλο και ανομοιογενές έθνος όπως η Ινδία. Ο Pitts (1965) εξέτασε τις συνέπειες της κεντρικότητας σε μονοπάτια επικοινωνίας για την αστική ανάπτυξη. Ειδικότερα, ανακατασκεύασε το δίκτυο μεταφοράς μέσω ποταμιών του δωδέκατου αιώνα στην κεντρική Ρωσία, σε μια προσπάθεια να εξηγήσει την πρωτοκαθεδρία της σύγχρονης πόλης της Μόσχας μεταξύ των πολλών οικισμών της περιοχής. Αποδείχθηκε ότι όντως η Μόσχα ήταν ένα σημαντικό κέντρο στο μεσαιωνικό δίκτυο μεταφοράς. Οι Beauchamp (1965) και Mackenzie (1966) διερεύνησαν τις επιπτώσεις της κεντρικότητας στον σχεδιασμό των οργανισμών. Ο Beauchamp υποστήριξε ότι η αποτελεσματικότητα ενός καινούργιου οργανισμού που συνδυάζει δύο ή περισσότερους υπάρχοντες οργανισμούς, θα μπορούσε να βελτιστοποιηθεί συνδέοντας τις υπομονάδες τους, στα πιο κεντρικά σημεία τους. Ο Mackenzie από την άλλη, ισχυρίστηκε ότι η σχέση μεταξύ της οργανωτικής δομής και της αποτελεσματικότητας θα πρέπει να εξαρτάται από την πολυπλοκότητα της εργασίας του οργανισμού. Πιο πρόσφατα, ο Czepiel (1974) χρησιμοποίησε την έννοια της κεντρικότητας για να εξηγήσει τη διάχυση της τεχνολογικής καινοτομίας στη βιομηχανία σιδήρου και χάλυβα. Τα αποτελέσματα του δεν ήταν στατιστικά σημαντικά, αλλά αποδείχθηκε ότι σε γενικές γραμμές, οι επιχειρήσεις χάλυβα που ήταν περισσότερο κεντρικές στο δίκτυο επικοινωνίας μεταξύ των επιχειρήσεων, υιοθετούσαν γρηγορότερα καινούριους τρόπους χύτευσης. Ο Rogers (1974) μελέτησε την εμφάνιση δύο ειδών κεντρικότητας σε δίκτυο διεπιχειρησιακών σχέσεων. Με αυτή την έρευνα, ανακάλυψε ότι ανεξάρτητα από το ποια από τις δύο κεντρικότητες θα χρησιμοποιήσει, ορισμένοι οργανισμοί 13

15 τείνουν να είναι σταθερά περισσότερο κεντρικοί από άλλους. Επιπρόσθετα, απέδειξε ότι η κεντρικότητα ενός οργανισμού ήταν προβλέψιμη τόσο από τα χαρακτηριστικά της, όσο και από τις ιδιότητες του δικτύου στο οποίο άνηκε. Η κεντρικότητα όμως, δεν χρησιμοποιήθηκε μόνο σε πολύ εξειδικευμένες περιπτώσεις όπως παραπάνω. Ακόμα και σήμερα η έννοια της κεντρικότητας απασχολεί άτομα που εργάζονται σε οργανισμούς επικοινωνίας και σχεδιασμού. Είναι φανερό πλέον, πως η κεντρικότητα των δικτύων αποτελεί αναπόσπαστο κομμάτι πολλών οργανισμών και παίζει σημαντικό ρόλο σε πολλούς τομείς της καθημερινής μας ζωής. Από τις απλοϊκές έρευνες που διενεργήθηκαν πριν πενήντα χρόνια, έχουμε περάσει πλέον σε ένα στάδιο όπου η ύπαρξη εκατοντάδων μέτρων κεντρικότητας αποτελεί ένα δυνατό εργαλείο στη μελέτη και την κατανόηση των ιδιοτήτων τόσο του κάθε κόμβου ξεχωριστά, όσο και ολόκληρου του δικτύου. Για το λόγο αυτό στο παρακάτω κεφάλαιο θα αναπτυχθούν τα σημαντικότερα μέτρα κεντρικότητας σε δίκτυα και θα διερευνηθούν οι ιδιότητες τους. 14

16 ΚΕΦΑΛΑΙΟ 2 Ο : ΜΕΤΡΑ ΚΕΝΤΡΙΚΟΤΗΤΑΣ ΣΕ ΔΙΚΤΥΑ 2.1 Κεντρικότητα Βαθμού (Degree Centrality) Ίσως το απλούστερο μέτρο κεντρικότητας σε ένα δίκτυο είναι ο βαθμός της κάθε κορυφής του. Ο Freeman (1978) όρισε ότι ο βαθμός των κόμβων σε ένα δίκτυο ισούται με τον αριθμό των γειτονικών τους κόμβων, δηλαδή τον αριθμό των κόμβων με τους οποίους συνδέονται. Αντίστοιχα, όταν αναφερόμαστε σε κατευθυνόμενα δίκτυα, είθισται να διαχωρίζουμε τον εσωτερικό και τον εξωτερικό βαθμό κάθε κόμβου. Ως εσωτερικός βαθμός (in-degree) του κόμβου ορίζεται το συνολικό πλήθος των κατευθυνόμενων ακμών, οι οποίες καταλήγουν στον κόμβο, σε αντίθεση με τον εξωτερικό βαθμό (out-degree) που προσμετρά όλες τις κατευθυνόμενες ακμές που φεύγουν από τον κόμβο με κατεύθυνση τους υπόλοιπους κόμβους του δικτύου. Βέβαια, και σε αυτήν την περίπτωση μπορούμε να υπολογίσουμε το συνολικό βαθμό ενός κόμβου, θεωρώντας ουσιαστικά ότι το δίκτυο είναι μη κατευθυνόμενο, αθροίζοντας απλά τον εσωτερικό με τον εξωτερικό του βαθμό. Ο βαθμός της κάθε κορυφής αναφέρεται και ως κεντρικότητα βαθμού, κυρίως στη βιβλιογραφία των κοινωνικών δικτύων και αντίστοιχα κεντρικότητα εσωτερικού ή εξωτερικού βαθμού, αν πρόκειται για κατευθυνόμενα δίκτυα. Παρά το γεγονός ότι η κεντρικότητα βαθμού είναι ένα από τα απλούστερα μέτρα, σε ορισμένες περιπτώσεις μπορεί να γίνει αρκετά διαφωτιστικό. Σε ένα κοινωνικό δίκτυο οι συνδέσεις των κόμβων, αντιστοιχούν στην ύπαρξη μιας σχέσης μεταξύ προσώπων. Έτσι, φαίνεται εύλογο να θεωρήσουμε ότι κόμβοι με πολλές συνδέσεις θα έχουν μία εξέχουσα θέση στο δίκτυο, με την έννοια της δυνατότητας άμεσης επιρροής μεγάλου πλήθους κόμβων και μεγαλύτερης πρόσβασης σε πληροφορίες που διακινούνται στο δίκτυο, σε σύγκριση με άλλους κόμβους που έχουν λιγότερες συνδέσεις. Για το λόγο αυτό κατανέμεται μεγάλη κεντρικότητα στους υψηλόβαθμους κόμβους του κοινωνικού δικτύου. Το συγκεκριμένο μέτρο, λόγω της 15

17 απλότητας του, βρίσκει εφαρμογές και σε πολλά άλλα είδη δικτύων. Ένα παράδειγμα ενός μη-κοινωνικού δικτύου, είναι ένα δίκτυο παραπομπών για την αξιολόγηση επιστημονικών εργασιών. Ο συνολικός αριθμός παραπομπών από άλλες εργασίες σε μια συγκεκριμένη εργασία (ο εσωτερικός της βαθμός στο δίκτυο) αποτελεί ένα ακατέργαστο μέτρο σχετικά με την επιρροή της συγκεκριμένης εργασίας στις άλλες, και χρησιμοποιείται ευρέως ως μέτρο αξιολόγησης επιστημονικών ερευνών. Η κεντρικότητα βαθμού ενός κόμβου i σε ένα μη κατευθυνόμενα δίκτυο αλλά και οι κεντρικότητες εσωτερικού και εξωτερικού βαθμού σε κατευθυνόμενα δίκτυα, δίνονται από τις παρακάτω σχέσεις : k i N A (2.1.1) j ij k out i N A (2.1.2) j ij k in i N A (2.1.3) j ji N : Το πλήθος των κορυφών του δικτύου A ij : To στοιχείο του πίνακα γειτνίασης που βρίσκεται στην (i, j) θέση (Να ληφθεί υπ όψη ότι σε μη κατευθυνόμενα δίκτυα ισχύει A ij = A ji ενώ στα κατευθυνόμενα δίκτυα εν γένει ισχύει A ij A ji ) Στην περίπτωση που εξετάζουμε την κεντρικότητα σε ένα σταθμισμένο δίκτυο, όπου στην κάθε ακμή αντιστοιχεί ένα βάρος, ο τρόπος ορισμού της κεντρικότητας αλλάζει. Αρχικά, η κεντρικότητα εξισώθηκε με το άθροισμα των βαρών όλων των ακμών που συνδέονται με τον εξεταζόμενο κόμβο (Barrat et al., 2004). Το μέτρο αυτό, που προέκυψε από την επέκταση της κεντρικότητας βαθμού σε σταθμισμένα δίκτυα, ονομάστηκε δύναμη του κόμβου και ορίστηκε ως εξής : 16

18 s i N w (2.1.4) j ij w ij : Το βάρος της ακμής που συνδέει τους κόμβους i, j Αν θεωρήσουμε ότι εξετάζουμε ένα μη σταθμισμένο δίκτυο προσδίδοντας σε κάθε ακμή του, βάρος ίσο με τη μονάδα, εύκολα φαίνεται ότι η σχέση (2.1.4) οδηγεί στη σχέση (2.1.1). Βλέπουμε λοιπόν, ότι σε ένα μη κατευθυνόμενο δίκτυο ο ορισμός της κεντρικότητας βαθμού και της δύναμης του κόμβου διαχωρίζονται. Μπορούμε να πούμε ότι και οι δύο ορισμοί δεν εξετάζουν επαρκώς όλα τα δεδομένα του δικτύου για την κατανομή της κεντρικότητας. Από τη μία, η κεντρικότητα βαθμού επικεντρώνεται αποκλειστικά στον αριθμό των συνδέσεων του κόμβου με τους υπολοίπους και από την άλλη, η δύναμη του κόμβου λαμβάνει υπόψη της μόνο τα βάρη, αδιαφορώντας για το πλήθος των γειτόνων του. Για παράδειγμα στο παρακάτω σχήμα ο κόμβος B και ο κόμβος C έχουν την ίδια δύναμη (5), γιατί ταυτίζεται το άθροισμα των βαρών των ακμών τους, ασχέτως αν ο Β έχει τους διπλάσιους γείτονες από τον C Σχήμα : Παράδειγμα σταθμισμένου δικτύου 17

19 Στρεφόμενος προς την κατεύθυνση αντιμετώπισης του παραπάνω προβλήματος ο T.Opsahl (2010), προσπάθησε να συνδυάσει τα δύο παραπάνω μέτρα. Στην προσπάθεια αυτή συντέλεσε η εισαγωγή μίας παραμέτρου συντονισμού a, η οποία καθορίζει το βαθμό επίδρασης της κεντρικότητας ενός κόμβου από το πλήθος των συνδέσεων του και από τα βάρη των ακμών του. Πιο συγκεκριμένα, εισήγαγε ένα μέτρο κεντρικότητας των κόμβων, που ισούται με το γινόμενο του πλήθους των γειτονικών τους κόμβων επί το άθροισμα των βαρών των ακμών τους, ρυθμιζόμενο από μία παράμετρο. Το καινούριο αυτό μέτρο ορίστηκε ως εξής : s C () i k k s wa i (1 a) a D i i i ki a (2.1.5) a : Η θετική παράμετρος συντονισμού Για παράδειγμα αν θέσουμε α=0.5 στο προηγούμενο κατευθυνόμενο γράφημα θα είχαμε k = (1, 4, 2, 1, 2), s = (0.5, 5.0, 5.0, 1.0, 6.5), οπότε: C D wa = (0.71, 4.47, 3.16, 1.00, 3.61) που δίνει μεγαλύτερη κεντρικότητα στον κόμβο Β από ότι στον C Η επιλογή της παραμέτρου a εξαρτάται αποκλειστικά από το εκάστοτε ερευνητικό πλαίσιο και τα δεδομένα του δικτύου. Όταν a (0,1), η κεντρικότητα γίνεται ανάλογη της κεντρικότητας βαθμού του κόμβου, ενώ όταν a 1, η καινούρια κεντρικότητα και η κεντρικότητα βαθμού αποκτούν μια αρνητική σχέση. Έτσι, όταν δύο ή περισσότεροι κόμβοι έχουν την ίδια δύναμη, είμαστε σε θέση να ρυθμίσουμε ποιος από τους κόμβους θα έχει τη μεγαλύτερη κεντρικότητα, με κριτήριο τις συνδέσεις του με τους υπόλοιπους κόμβους. Με αυτόν τον τρόπο καθορίζουμε την τιμή της παραμέτρου αναλόγως αν οι συνδέσεις αυτές, θεωρούμε ότι του προσδίδουν θετικές ή αρνητικές ιδιότητες. Όταν a 1, η νέα κεντρικότητα ταυτίζεται με τη δύναμη του κόμβου, ενώ όταν α=0 ταυτίζεται με το βαθμό. Σε κατευθυνόμενα και σταθμισμένα 18

20 δίκτυα το μέτρο προσαρμόζεται και διασπάται χρησιμοποιώντας κάθε φορά ή τον εσωτερικό ή τον εξωτερικό βαθμό του κόμβου. Έτσι, θα έχουμε : out wa out s i CDout () i ki out ki a (2.1.6) in wa in s i CDin() i ki in ki a (2.1.7) out s i : Η εξωτερική δύναμη του κόμβου που ορίζεται ως το άθροισμα των βαρών των εξωτερικών ακμών του in s i : H εσωτερική δύναμη του κόμβου που ορίζεται ως το άθροισμα των βαρών των εσωτερικών ακμών του Για να επιτραπεί η σύγκριση κόμβων που ανήκουν σε διαφορετικά δίκτυα (πιθανόν διαφορετικού μεγέθους), χρησιμοποιείται η κανονικοποιημένη κεντρικότητα βαθμού. Για τον υπολογισμό της, απλά διαιρούμε την κεντρικότητα βαθμού με το μέγιστο πιθανό αριθμό συνδέσεων μιας κορυφής. Έχει οριστεί επίσης και η * κεντρικότητα βαθμού ενός δικτύου ως εξής: Έστω i ο κόμβος με τη μεγαλύτερη κεντρικότητα βαθμού στο δίκτυο G. Η κεντρικότητα βαθμού του δικτύου είναι : N ( k * k ) i i i1 k(g) N max[ ( k k )] i1 * i i (2.1.8) 19

21 N k * i i1 max[ ( k )] : Η μέγιστη τιμή του αθροίσματος, η οποία προκύπτει i από την επιλογή του κατάλληλου γραφήματος Όμως, ο παρονομαστής της σχέσης μεγιστοποιείται στην περίπτωση του αστεροειδούς γραφήματος. Σε ένα τέτοιο γράφημα, ο κεντρικός κόμβος έχει κεντρικότητα βαθμού ίση με Ν-1 και η κεντρικότητα όλων των υπόλοιπων κόμβων ισούται με 1. Επομένως, με λίγες πράξεις η σχέση γίνεται k(g) N ( k k ) * i i i (2.1.9) Εν τούτοις, το αρχικό μέτρο αλλά ακόμη και η παραλλαγή του, παρά την ευκολία υπολογισιμότητάς τους, λαμβάνουν υπόψη τους μόνο την ύπαρξη ή όχι σύνδεσης μεταξύ των κόμβων και τα βάρη των ακμών τους. Το μειονέκτημα αυτό, καθιστά περιορισμένες τις δυνατότητες του μέτρου και δημιουργεί την ανάγκη για δημιουργία άλλων μέτρων, τα οποία θα είναι απαλλαγμένα από τον αυστηρά τοπικό χαρακτήρα της κεντρικότητας βαθμού και θα διερευνούν τη χρησιμότητα του κάθε κόμβου σε ολόκληρο το δίκτυο, αντιμετωπίζοντας την κεντρικότητα ως κάτι πιο πολύπλοκο. 2.2 Ιδιοδιανυσματική Κεντρικότητα (Eigenvector Centrality) Ένα άλλο μέτρο, λιγότερο τοπικό και πιο σύνθετο υπολογιστικά σε σύγκριση με την κεντρικότητα βαθμού, είναι η ιδιοδιανυσματική κεντρικότητα. Είδαμε ότι ο λόγος που ο βαθμός κεντρικότητας δε βρίσκει εφαρμογή σε μεγάλο φάσμα δικτύων, 20

22 είναι ότι λαμβάνει υπόψη μόνο την ύπαρξη συνδέσεων μεταξύ κόμβων. Οι κόμβοι όμως που συνδέονται με έναν συγκεκριμένο κόμβο δεν είναι εξίσου σημαντικοί μεταξύ τους. Είναι εύλογο, λοιπόν να ορίσουμε ένα μέτρο κεντρικότητας, το οποίο συνυπολογίζει τόσο το πλήθος των γειτονικών κόμβων, όσο και τη σημαντικότητα του κάθε γείτονα. Αυτό επιτυγχάνεται με την ιδιοδιανυσματική κεντρικότητα. Το μέτρο αυτό αναθέτει σε κάθε κόμβο τη σχετική βαθμολογία κεντρικότητας, σύμφωνα με την αρχή ότι οι συνδέσεις με υψηλόβαθμους κόμβους συνεισφέρουν περισσότερο στη βαθμολογία του, σε σύγκριση με κόμβους που έχουν τον ίδιο αριθμό συνδέσεων αλλά αντιστοιχούν σε χαμηλόβαθμους κόμβους. κεντρικότητα Για τον υπολογισμό του μέτρου ας κάνουμε κάποιες αρχικές υποθέσεις για την x i του κάθε κόμβου i. Για παράδειγμα μπορούμε να αρχίσουμε θέτοντας xi 1 για κάθε i. Προφανώς αυτό δεν είναι ένα χρήσιμο μέτρο κεντρικότητας, αλλά μπορούμε να το χρησιμοποιήσουμε για τον υπολογισμό ενός καλύτερου μέτρου γειτόνων του i, έτσι ώστε : ' x i, το οποίο ορίζουμε να είναι το άθροισμα των κεντρικοτήτων των x A x (2.2.1) ' i ij j j A ij είναι το (i, j) -στοιχείο του πίνακα γειτνίασης. Μπορούμε επίσης να γράψουμε την παραπάνω σχέση σε μορφή πινάκων ' x Ax x είναι το διάνυσμα με στοιχεία x i. 21

23 Επαναλαμβάνοντας τη διαδικασία ώστε να έχουμε καλύτερες εκτιμήσεις, έχουμε μετά από t βήματα ένα διάνυσμα κεντρικότητας xt () που δίνεται από τη σχέση : t x( t) A x(0) (2.2.2) Τώρα ας εκφράσουμε το x (0) ως γραμμικό συνδυασμό των ιδιοδιανυσμάτων v i του πίνακα γειτνίασης: x(0) civi (2.2.3) i για κατάλληλες τιμές της σταθεράς c i. Έχουμε : x(t) A c v c k v c v (2.2.4) t t t i i i i i i 1 i i i i i 1 t i είναι οι ιδιοτιμές του A 1 είναι η μεγαλύτερη από τις ιδιοτιμές. Αφού i 1 i 1 όλοι οι όροι του αθροίσματος, εκτός του πρώτου 1 μειώνονται εκθετικά καθώς το t μεγαλώνει και έτσι όταν t έχουμε : 22

24 t x(t) c v i i i Με άλλα λόγια το οριακό διάνυσμα κεντρικοτήτων είναι απλά ανάλογο με το μεγαλύτερο ιδιοδιάνυσμα του πίνακα γειτνίασης. Ισοδύναμα μπορούμε να πούμε ότι η κεντρικότητα x ικανοποιεί τη σχέση: Ax x (2.2.5) 1 Αυτό είναι το ιδιοδιάνυσμα κεντρικότητας όπως το όρισε αρχικά ο Bonacich το Σύμφωνα με τον Bonanich, (1987,1991) το ιδιοδιάνυσμα είναι ανάλογο με το άθροισμα των σειρών ενός πίνακα, που σχηματίζεται προσθέτοντας όλες τις δυνάμεις του πίνακα γειτνίασης και σταθμίζοντας με τις αντίστοιχες δυνάμεις των αντιστρόφων ιδιοτιμών: S A Είναι επίσης γνωστό ότι τα στοιχεία του πίνακα, ο οποίος είναι υψωμένος σε δύναμη κ, δίνουν το πλήθος των περιπάτων μήκους κ, από τον κόμβο i στον κόμβο j. Έτσι το μέτρο αυτό, αποτελεί ένα σταθμισμένο μέτρο του πλήθους των περιπάτων κάθε μήκους για κάθε κόμβο του δικτύου. Όπως είπαμε, η κεντρικότητα xi του κόμβου i είναι ανάλογη του αθροίσματος των κεντρικοτήτων των γειτόνων του : x (2.2.6) 1 i i Ajix j j 23

25 Αυτό δίνει στην ιδιοδιανυσματική κεντρικότητα την πολύ καλή ιδιότητα ότι μπορεί να είναι μεγάλη είτε επειδή μπορεί ένας κόμβος να έχει μεγάλο πλήθος γειτόνων, είτε επειδή έχει σημαντικούς γείτονες, είτε και τα δύο. Η παραπάνω ιδιότητα καθιστά την ιδιοδιανυσματική κεντρικότητα ένα χρήσιμο εργαλείο σε ένα μεγάλο φάσμα δικτύων. Ένα παράδειγμα είναι τα κοινωνικά δίκτυα, καθώς σε τέτοιου είδους δίκτυα η κεντρικότητα ενός κόμβου αποτελεί συνάρτηση τόσο του πλήθους των συνδέσεων, όσο και της κεντρικότητας των κόμβων που έρχονται σε επικοινωνία με τον συγκεκριμένο κόμβο. Η σχέση (2.2.6) δεν ορίζει την κανονικοποιημένη μορφή της ιδιοδιανυσματικής κεντρικότητας. Παρά το γεγονός ότι συνήθως ενδιαφερόμαστε μόνο για το ποιος κόμβος έχει υψηλή ή χαμηλή ιδιοδιανυσματική κεντρικότητα και επομένως δε μας ενδιαφέρουν οι απόλυτες τιμές, αν θέλουμε να κανονικοποιήσουμε την ιδιοδιανυσματική κεντρικότητα μπορούμε απλά να απαιτήσουμε το άθροισμά τους να είναι ίσο με το συνολικό πλήθος των κόμβων στο δίκτυο (πράγμα που εξασφαλίζει ότι η μέση κεντρικότητα παραμένει σταθερή όσο το δίκτυο μεγαλώνει). Η ιδιοδιανυσματική κεντρικότητα μπορεί να υπολογιστεί και για κατευθυνόμενα και για μη κατευθυνόμενα δίκτυα. Λειτουργεί όμως καλύτερα για μη κατευθυνόμενα δίκτυα. Σε κατευθυνόμενα δίκτυα προκύπτουν κάποιες επιπλοκές. Πρώτον, ένα μη κατευθυνόμενο δίκτυο έχει έναν πίνακα γειτνίασης που στη γενική περίπτωση είναι ασύμμετρος. Αυτό σημαίνει ότι υπάρχουν δύο σύνολα ιδιοδιανυσμάτων : Δεξιά ιδιοδιανύσματα Αριστερά ιδιοδιανύσματα Επομένως υπάρχουν δύο μέγιστα ιδιοδιανύσματα. Προκύπτει ένα δίλλημα μεταξύ αυτών, για τη χρήση τους στον υπολογισμό της ιδιοδιανυσματικής κεντρικότητας. Στις περισσότερες περιπτώσεις επιλέγουμε να χρησιμοποιήσουμε το δεξί ιδιοδιάνυσμα. Ο λόγος είναι ότι η κεντρικότητα σε κατευθυνόμενα δίκτυα συνήθως απονέμεται με βάση άλλους κόμβους που συνδέονται στο δικό μας, και όχι το γεγονός ότι ο δικός μας κόμβος συνδέεται με άλλους. Για καλύτερη κατανόηση ας δούμε ένα παράδειγμα. 24

26 Στο World Wide Web o αριθμός και το κύρος των ιστοσελίδων που συνδέονται στη σελίδα μας, μπορεί να αποτελέσει μια εύλογη ένδειξη της σημαντικότητας ή της χρησιμότητας της. Από την άλλη, το γεγονός ότι η ιστοσελίδα συνδέεται με άλλες σημαντικές σελίδες δεν δίνει κάποια χρήσιμη πληροφορία. Ο καθένας μπορεί να δημιουργήσει μια ιστοσελίδα που συνδέεται με χιλιάδες άλλες, αλλά αυτό δε θα την κάνει σημαντική (με την έννοια της ιδιοδιανυσματικής κεντρικότητας). Παρόμοια πράγματα ισχύουν σε δίκτυα παραπομπών και άλλα κατευθυνόμενα δίκτυα. Έτσι ο ορισμός της ιδιοδιανυσματικής κεντρικότητας ενός κόμβου i που χρησιμοποιείται περισσότερο σε ένα κατευθυνόμενο δίκτυο, την καθιστά ανάλογη της κεντρικότητας των κόμβων οι οποίοι συνδέονται με τον ίδιο, όπως είδαμε στη σχέση (2.2.6). Η σχέση αυτή σε μορφή πινάκων πλέον γράφεται : Ax x 1 x είναι το δεξί μέγιστο ιδιοδιάνυσμα. Ωστόσο υπάρχουν ακόμα προβλήματα με την ιδιοδιανυσματική κεντρικότητα σε κατευθυνόμενα δίκτυα. Σχήμα: Παράδειγμα δικτύου 25

27 Στο παραπάνω σχήμα, ο κόμβος Α συνδέεται με το υπόλοιπο γράφημα, αλλά έχει μόνο ακμές που φεύγουν από τον κόμβο και δεν υπάρχει ακμή που έρχεται σε αυτόν. Ένας τέτοιος κόμβος έχει πάντα κεντρικότητα μηδέν επειδή δεν υπάρχουν μη μηδενικοί όροι στο άθροισμα (2.2.6). Αυτό πιθανόν να μην είναι μεγάλο πρόβλημα. Ίσως όταν σε ένα κόμβο δεν έρχεται καμία ακμή από άλλους κόμβους, να πρέπει ο κόμβος αυτός να έχει μηδενική κεντρικότητα. Ας δούμε όμως τώρα τον κόμβο D, ο οποίος έχει μια ακμή που έρχεται σε αυτόν, αλλά αυτή η ακμή προέρχεται από τον κόμβο Α και έτσι ο D έχει επίσης μηδενική κεντρικότητα, αφού ο μοναδικός όρος στο άθροισμα (2.2.6) είναι μηδέν. Γενικεύοντας τη συγκεκριμένη περίπτωση, βλέπουμε ότι ένας κόμβος μπορεί να δέχεται ακμές από άλλους κόμβους, οι οποίοι με τη σειρά τους δέχονται ακμές από πολλούς άλλους, και ούτω καθεξής, αλλά αν η διαδικασία καταλήγει σε κόμβο ή κόμβους με μηδενικό εσωτερικό βαθμό η τελική κεντρικότητα του κόμβου θα είναι μηδέν. Με μαθηματικούς όρους, μόνο οι κόμβοι που ανήκουν σε ένα ισχυρά συνδεδεμένο παράγοντα (component) (δηλαδή το μέγιστο υπογράφημα στο οποίο όλοι οι κόμβοι του συνδέονται μεταξύ τους με μονοπάτια δύο κατευθύνσεων) δύο η περισσοτέρων κόμβων ή στον εξωτερικό παράγοντα(out-component) (δηλαδή το σύνολο τον κόμβων που είναι προσβάσιμοι μέσω κατευθυνόμενων μονοπατιών, ξεκινώντας από ένα συγκεκριμένο κόμβο) ενός τέτοιου παράγοντα, μπορούν να έχουν μη μηδενικό ιδιοδιάνυσμα κεντρικότητας. Σε πολλές περιπτώσεις, ωστόσο, κόμβοι με υψηλό εσωτερικό βαθμό θεωρείται κατάλληλο να έχουν υψηλή κεντρικότητα, ακόμα και αν δεν ανήκουν σε ένα ισχυρά συνδεδεμένο παράγοντα ή στον εξωτερικό παράγοντα του. Για παράδειγμα ιστοσελίδες με πολλές συνδέσεις, μπορούν εύλογα να θεωρηθούν σημαντικές ακόμα και αν δεν ανήκουν σε ένα ισχυρά συνδεδεμένο παράγοντα. Επίσης τα άκυκλα δίκτυα (κατευθυνόμενα δίκτυα χωρίς κατευθυνόμενους κύκλους), όπως είναι τα δίκτυα παραπομπών, δεν έχουν ισχυρά συνδετικούς παράγοντες που αποτελούνται από περισσότερους από έναν κόμβο. Έτσι όλοι οι κόμβοι έχουν κεντρικότητα μηδέν. Είναι σαφές πλέον ότι το γεγονός αυτό μετατρέπει την ιδιοδιανυσματική κεντρικότητα σε ένα άχρηστο μέτρο για τέτοιου είδους δίκτυα. Μια παραλλαγή της ιδιοδιανυσματικής κεντρικότητας, η οποία αντιμετωπίζει αυτό το πρόβλημα είναι η Katz κεντρικότητα. 26

28 2.3 Κεντρικότητα Katz (Katz centrality) Είδαμε παραπάνω ότι το πρόβλημα που αντιμετωπίζει η ιδιοδιανυσματική κεντρικότητα βρίσκεται στο γεγονός ότι ακόμα και κόμβοι που έχουν υψηλό εσωτερικό βαθμό, είναι πιθανό εν τέλει να έχουν μηδενική κεντρικότητα. Σίγουρα σε ορισμένα δίκτυα αυτό είναι ανεπιθύμητο. Η κεντρική ιδέα για την αντιμετώπιση αυτού του προβλήματος είναι η δημιουργία ενός μέτρου κεντρικότητας, το οποίο θα καταλογίζει σε κάθε κόμβο κάποια μη μηδενική κεντρικότητα ανεξάρτητα από τη θέση του κόμβου στο δίκτυο και την κεντρικότητα των γειτόνων του. Αυτή ακριβώς είναι η συνεισφορά της κεντρικότητας Katz. Η κεντρικότητα Katz x i ενός κόμβου i ορίζεται με τον εξής τρόπο (2.3.1) xi Ax ij j j α, β: θετικές σταθερές. Αναλύοντας τον παραπάνω τύπο, παρατηρούμε ότι ο πρώτος όρος της κεντρικότητας είναι η ιδιοδιανυσματική κεντρικότητα του κόμβου. Ωστόσο με την προσθήκη της θετικής σταθεράς β εξασφαλίζεται ότι κάθε κόμβος του δικτύου θα έχει κάποια μη μηδενική κεντρικότητα. Έτσι ακόμα και κόμβοι με μηδενικό εσωτερικό βαθμό, έχουν μη μηδενική κεντρικότητα. Επομένως έχουν συνεισφορά στην κεντρικότητα των κόμβων στους οποίους συνδέονται. Με αυτό το μέτρο δηλαδή, κόμβοι με υψηλό εσωτερικό βαθμό θα έχουν υψηλή κεντρικότητα ανεξάρτητα από την κεντρικότητα των γειτόνων τους. Φυσικά, κόμβοι που έχουν συνδυασμό υψηλού εσωτερικού βαθμού και ύπαρξης γειτόνων με υψηλή κεντρικότητα θα παρουσιάζουν υψηλότερη κεντρικότητα σε σχέση με άλλους κόμβους με εξίσου υψηλό εσωτερικό βαθμό, όπου οι γείτονες τους όμως έχουν χαμηλή κεντρικότητα. Η σχέση (2.3.1) σε μορφή πινάκων γράφεται : 27

29 x aax 1 (2.3.2) 1 είναι το διάνυσμα (1,1,1,.). Λύνοντας ως προς x έχουμε : x 1 ( aa) 1 Επειδή όπως είδαμε και στην ιδιοδιανυσματική κεντρικότητα, τα μέτρα κεντρικότητας μας ενδιαφέρουν περισσότερο ως μέτρα σύγκρισης, η απόλυτη τιμή της κεντρικότητας κάθε κόμβου είναι μικρής σημασίας. Για το λόγο αυτό μπορούμε να δώσουμε στην παράμετρο β όποια τιμή θέλουμε. Για λόγους ευκολίας, συνήθως θέτουμε β=1 και έχουμε : x 1 ( aa) 1 (2.3.3) Για τον υπολογισμό πλέον της κεντρικότητας, υπάρχει μία μόνο παράμετρος α. Η παράμετρος αυτή ρυθμίζει την ισορροπία μεταξύ του πρώτου όρου και της σταθεράς στη σχέση (2.3.1). Στην παράμετρο α όμως δεν μπορούμε να δώσουμε αυθαίρετα μια οποιαδήποτε μεγάλη τιμή. Εάν a 0 τότε από τη σχέση (2.3.1) εύκολα προκύπτει ότι όλοι οι κόμβοι θα έχουν την ίδια κεντρικότητα β. Όσο αυξάνεται το α, οι κεντρικότητες μεγαλώνουν και τελικά μετά από κάποια τιμή αποκλίνουν. Από τη σχέση (2.3.3) παρατηρούμε ότι η απόκλιση πραγματοποιείται όταν αποκλίνει το στοιχείο 1 ( I aa), δηλαδή όταν 1 det( I aa) =0 det( ) 0 28

30 Αυτή όμως είναι η χαρακτηριστική εξίσωση, οι ρίζες 1 της οποίας αποτελούν ιδιοτιμές του πίνακα γειτνίασης. Καθώς το α αυξάνεται, η ορίζουσα μηδενίζει πρώτη φορά όταν 1 1 1: η πρώτη ιδιοτιμή του πίνακα γειτνίασης. 1 Δηλαδή το σημείο που αρχίζει η απόκλιση είναι για. Επομένως αφού θέλουμε οι κεντρικότητες να συγκλίνουν, επιβάλλεται να επιλέξουμε τιμή για το 1. Πέραν αυτού ωστόσο, δεν υπάρχει κάποια επιπλέον καθοδήγηση για την 1 επιλογή της τιμής του α. Δίνοντας στο α τιμές κοντά στο ανώτατο όριο του 1 1 σημαίνει ότι δίνουμε αρκετά μεγάλη βαρύτητα στον ιδιοδιανυσματικό όρο και ελάχιστη βαρύτητα στον σταθερό όρο. Έτσι τα αποτελέσματα αυτού του μέτρου κεντρικότητας θα είναι παρόμοια με της ιδιοδιανυσματικής κεντρικότητας με τη διαφορά ότι θα αποδίδει μικρές μη μηδενικές τιμές κεντρικότητας σε κόμβους που δεν ανήκουν ούτε σε ισχυρά συνδεδεμένους παράγοντες ούτε και στους εξωτερικούς παράγοντες τους. Οι περισσότεροι ερευνητές επιλέγουν το α σύμφωνα με την παραπάνω διαδικασία. Σχετικά με το χρόνο υπολογισιμότητας της κεντρικότητας Katz, διαπιστώνεται ένα πρόβλημα. Επιχειρώντας να υπολογίσουμε την κεντρικότητα από τη σχέση (2.3.3), αν το δίκτυο αποτελείται από n σε πλήθος κόμβους, ο χρόνος αντιστροφής ενός πίνακα είναι ανάλογος του 3 n. Επομένως για μεγάλα δίκτυα ο υπολογισμός γίνεται απαγορευτικά αργός. Ένας τρόπος αντιμετώπισης αυτού του προβλήματος είναι η χρήση της αναδρομικής σχέσης (2.3.1), με αρχική εκτιμητική επιλογή κεντρικοτήτων (ακόμα και κακών εκτιμήσεων) x,και στη συνέχεια χρήση της σχέσης 1 29

31 ' x Ax 1 για καλύτερη εκτίμηση. Επαναλαμβάνοντας αυτή τη διαδικασία πολλές φορές, οι κεντρικότητες θα συγκλίνουν σε κάποιες τιμές, πολύ κοντινές στις σωστές κεντρικότητες. Ο χρόνος υπολογισιμότητας τώρα είναι ανάλογος του γινομένου των μη μηδενικών στοιχείων του πίνακα γειτνίασης και του αριθμού επαναλήψεων. Ωστόσο ο υπολογισμός του κατάλληλου πλήθους επαναλήψεων, ώστε οι κεντρικότητες να συγκλίνουν στις επιθυμητές τιμές εξαρτάται από λεπτομέρειες του δικτύου και από την επιλογή της παραμέτρου α. Δηλαδή ούτε η εύρεση του ακριβή απαιτούμενου αριθμού επαναλήψεων δεν είναι εύκολη διαδικασία. Παρόλα αυτά η σχέση (2.3.1) προτιμάται από την (2.3.3) για μεγάλα δίκτυα. Η κεντρικότητα Katz εκτός από μη κατευθυνόμενα δίκτυα μπορεί να εφαρμοστεί εξίσου καλά και σε κατευθυνόμενα. Μάλιστα αρκετές φορές η χρήση της είναι ιδιαίτερα χρήσιμη. Μια παραλλαγή της κεντρικότητας μπορεί να προκύψει αν θεωρήσουμε ότι ο όρος β στη σχέση (2.3.1) δεν είναι ίδιος για κάθε κόμβο. Δηλαδή x a A x (2.3.4) i ij j j είναι κάποια εγγενής μη δικτυακή συνεισφορά στην κεντρικότητα κάθε κόμβου. Για παράδειγμα σε κοινωνικά δίκτυα η σημαντικότητα κάθε κόμβου μπορεί να εξαρτάται από μη δικτυακούς παράγοντες, όπως είναι το εισόδημα ή η ηλικία και αν έχουμε πληροφορίες σχετικά με αυτούς τους παράγοντες μπορούμε να τις ενσωματώσουμε στο. 30

32 2.4 Βαθμική Κεντρικότητα Page(Pagerank) Ένα ακόμα μέτρο κεντρικότητας στα δίκτυα είναι η βαθμική κεντρικότητα page (Pagerank). Αρχικά ας δώσουμε έναν ορισμό της σελιδοβαθμικής κεντρικότητας, ο οποίος διαφέρει από τους ορισμούς των μέχρι τώρα αναφερόμενων μέτρων. Για τη μελέτη αυτού του ορισμού, είναι αναγκαία η κατανόηση της έννοιας του μοντέλου του τυχαίου σέρφερ. Το μοντέλο του τυχαίου σέρφερ αναφέρεται σε ένα χρήστη του διαδικτύου, ο οποίος πλοηγείται σε ιστοσελίδες. Σύμφωνα με το μοντέλο, ο χρήστης επιλέγει τυχαία κάθε φορά τη σελίδα που θα συνεχίσει την πλοήγηση του, ακολουθώντας υπερσυνδέσμους από τη σελίδα που βρίσκεται. Επειδή όμως υπάρχουν και σελίδες χωρίς υπερσυνδέσμους (sink pages), σε τέτοιες περιπτώσεις ο χρήστης θα επιλέγει τυχαία μια άλλη ιστοσελίδα. Ας προσαρμόσουμε τα παραπάνω δεδομένα σε ένα δίκτυο. Κάθε ιστοσελίδα θα αποτελεί έναν κόμβο του δικτύου, ενώ οι υπερσύνδεσμοι που οδηγούν από τη μία ιστοσελίδα στην άλλη, θα αποτελούν τις ακμές του δικτύου. O χρήστης επιλέγει κάθε φορά με ίση πιθανότητα ποιον από τους υπερσυνδέσμους (ακμές) θα ακολουθήσει, ενώ όπως είπαμε υπάρχει και η πιθανότητα να επιλέξει τυχαία μια άλλη ιστοσελίδα (κόμβο). Ορίζουμε λοιπόν τις τιμές της βαθμικής κεντρικότητας page σε ένα δίκτυο ως τις στάσιμες πιθανότητες του παρακάτω τυχαίου περιπάτου: Έστω ότι εφαρμόζουμε το μοντέλου του τυχαίου σέρφερ, ξεκινώντας από έναν κόμβο και εκτελώντας τυχαίο περίπατο με πιθανότητα, να συνεχίσουμε τον περίπατο σε έναν γειτονικό κόμβο και πιθανότητα 1, να μεταφερθούμε σε έναν οποιονδήποτε κόμβο του δικτύου. Η βαθμική κεντρικότητα page των κόμβων του δικτύου δίνεται από τις στάσιμες πιθανότητες του συγκεκριμένου τυχαίου περιπάτου. Δηλαδή, η τιμή της βαθμικής κεντρικότητας page κάθε κόμβου του δικτύου αντιστοιχεί στην πιθανότητα, μέσω ενός τυχαίου περιπάτου που ξεκινάει από οποιοδήποτε κόμβο, να σταματήσει ο περίπατος αυτός στο συγκεκριμένο κόμβο. σχέση : Έτσι, η τιμή της βαθμικής κεντρικότητας page κάθε κόμβου δίνεται από τη 31

33 Pr( p ) i Pr( p j ) 1 (2.4.1) L( p ) N p jm ( pi) j (p j ) είναι το σύνολο των κόμβων που συνδέονται με τον p j L( p j ) είναι ο εξωτερικός βαθμός του p j Ν είναι το συνολικό πλήθος των κόμβων του δικτύου. Αποδεικνύεται ότι η σχέση (2.4.1) είναι λύση στάσιμης κατάστασης δυναμικής διαδικασίας. Η σχέση (2.4.1), μπορεί να μετατραπεί σε μορφή πινάκων ως εξής: 1 1 p Dout p 1 (2.4.2) N out D : Ο διαγώνιος πίνακας με στοιχεία D ( i, i) max( k,1) out 1: Το διάνυσμα στήλη (1,1,1,...1) out i Θεωρούμε τώρα, ότι το άθροισμα των βαθμικών κεντρικοτήτων page όλων τον κόμβων του δικτύου ισούται με τη μονάδα. Έχουμε λοιπόν, 1 Jp, όπου J είναι ο πίνακας που έχει όλα τα στοιχεία του μονάδες. Από τη σχέση (2.4.2), έχουμε: 32

34 1 1 p Dout p Jp N 1 1 ( Dout J) p Tp (2.4.3) N T : O πίνακας μετάβασης του τυχαίου σέρφερ Με αυτόν τον τρόπο, βλέπουμε ότι ουσιαστικά οι τιμές της βαθμικής κεντρικότητας page αποτελούν το ιδιοδιάνυσμα του πίνακα μετάβασης του τυχαίου σέρφερ, που αντιστοιχεί στην ιδιοτιμή ίση με τη μονάδα. Υπάρχει επομένως, φανερά, κάποια συσχέτιση μεταξύ βαθμικής κεντρικότητας page και ιδιοδιανυσματικής κεντρικότητας. Ας προσπαθήσουμε τώρα να συνδέσουμε τον ορισμό της βαθμικής κεντρικότητας page με τα προηγούμενα μέτρα κεντρικότητας. Στην κεντρικότητα Katz αν έχουμε έναν κόμβο με υψηλή κεντρικότητα, ο οποίος συνδέεται με άλλους κόμβους, τους προσδίδει επίσης υψηλή κεντρικότητα. Το γεγονός αυτό σε πολλές περιπτώσεις είναι ανεπιθύμητο. Η κεντρικότητα δηλαδή που λαμβάνει ένας κόμβος από τη σύνδεση του με κάποιον άλλο υψηλόβαθμο, πρέπει να μοιράζεται σε όλους τους γειτονικούς κόμβους του υψηλόβαθμου, ώστε να περιορίζεται η αύξηση της κεντρικότητας του αρχικού κόμβου. Ένα απλό παράδειγμα παρατηρούμε σε δίκτυα ιστοσελίδων. Ο κατάλογος ιστοσελίδων Yahoo συνδέεται με εκατομμύρια άλλες σελίδες. Αυτό όμως δεν πρέπει να αυξάνει σε μεγάλο βαθμό την κεντρικότητα της κάθε σελίδας που συνδέεται, διότι στην πραγματικότητα η σύνδεση της σελίδας με τη Yahoo δεν πρέπει να αυξάνει τη σημαντικότητά της, καθώς αποτελεί ένα ελάσσονος σημασίας γεγονός. Ένας απλός τρόπος αντιμετώπισης του παραπάνω προβλήματος είναι να διαιρέσουμε την κεντρικότητα κάθε κόμβου που συμβάλλει στη διαμόρφωση των κεντρικοτήτων των άλλων κόμβων, με τον εξωτερικό βαθμό του. Έτσι έχουμε x x (2.4.4) j i Aij out j k j 33

35 Είναι φανερό ότι η σχέση (2.4.4) έχει ίδια μορφή με τη σχέση (2.4.1). Η σχέση (2.4.2) σε μορφή πινάκων μας δίνει ~ x aadout x 1 ( I aad out ) 1 (2.4.5) ~ Αν θέσουμε για λόγους απλούστευσης 1 έχουμε : ~ ~ out out out x ( aad ) 1 D (D A) 1 (2.4.6) Η σχέση (2.4.6) δίνει τις τιμές της σελιδοβαθμικής κεντρικότητας για όλους τους κόμβους του δικτύου. Όπως όμως και στην κεντρικότητα Katz, έτσι και εδώ έχουμε μια παράμετρο α,την οποία πρέπει με κάποιο τρόπο να καθορίσουμε.όμοια με πριν βρίσκουμε ότι η παράμετρος α πρέπει να είναι μικρότερη από την αντίστροφη 1 μεγαλύτερη ιδιοτιμή του πίνακα AD out. Για ένα μη κατευθυνόμενο δίκτυο χρησιμοποιώντας το θεώρημα Perron- Frobenius που ισχυρίζεται ότι η μεγαλύτερη ιδιοτιμή ενός πίνακα με μη αρνητικά στοιχεία είναι η μοναδική που αντιστοιχεί σε μη αρνητικά στοιχεία του αντίστοιχου ιδιοδιανύσματος, αποδεικνύεται ότι η απαιτούμενη μεγαλύτερη ιδιοτιμή είναι ίση με 1 και το αντίστοιχο ιδιοδιάνυσμα είναι ( k1, k 2,k 3,...), όπου ki είναι ο βαθμός του i κόμβου. Σε αυτή την περίπτωση το α πρέπει να είναι μικρότερο της μονάδας. Σε κατευθυνόμενα δίκτυα όμως, η τιμή της μεγαλύτερης ιδιοτιμής ποικίλει και έτσι δεν έχουμε κάποια συγκεκριμένη μεθοδολογία για την επιλογή της παραμέτρου α. Επιπρόσθετα, στα μη κατευθυνόμενα δίκτυα αξίζει να σημειωθεί μια ιδιότητα που παρουσιάζει ένα συγκεκριμένο είδος δικτύων και συνδέει τη βαθμική κεντρικότητα page με την κεντρικότητα βαθμού. Ας θεωρήσουμε ότι βρισκόμαστε σε ένα συνδετικό, μη κατευθυνόμενο και μη διμερές γράφημα. Αρχικά, διαιρούμε κάθε στοιχείο της i σειράς του πίνακα γειτνίασης με το βαθμό του κόμβου i. Τώρα, ο καινούριος πίνακας B, που δημιουργήθηκε είναι ένας δεξιά στοχαστικός πίνακας, δηλαδή όλες οι σειρές 34

36 του αθροίζουν στη μονάδα. Είναι αποδεδειγμένο ότι η ασυμπτωτική πιθανότητα κατανομής του τυχαίου περιπάτου στις κορυφές του πίνακα μετάβασης B, δίνεται από k1 k2 το διάνυσμα στήλη f,,..., 2E 2E 2E και ισχύει T B f k n T f (Lovasz L.,1993). Σε αυτό το σημείο μπορούμε να εκφράσουμε τη βαθμική κεντρικότητα page στην παρακάτω μορφή : ~ T ( B (1 ) U1) p p (2.4.7) U (1/ N,1/ N,...,1/ N) T Ε: Το πλήθος ακμών του δικτύου Με κατάλληλες πράξεις αποδεικνύεται ότι αν το διάνυσμα U αντικατασταθεί από το διάνυσμα της κατανομής των βαθμών f, τότε η βαθμική κεντρικότητα page ισούται με το διάνυσμα f (Grolmusz V.,2012). H ειδική αυτή όμως περίπτωση, επιτυγχάνεται όταν έχουμε ένα κανονικό γράφημα, ένα γράφημα δηλαδή όπου όλοι οι κόμβοι του έχουν τον ίδιο βαθμό. Επομένως σε ένα κανονικό γράφημα η βαθμική κεντρικότητα page κάθε κόμβου είναι ανάλογη με την κεντρικότητα βαθμού του. Ενδιαφέρον παρουσιάζει η επιλογή της παραμέτρου από την μηχανή αναζήτησης Google. H Google έχει ως στόχο τη δημιουργία μιας λίστας ιστοσελίδων που ανταποκρίνονται όσο το δυνατόν καλύτερα στις ερωτήσεις του ερευνητή. Αρχικά εντοπίζει τις ιστοσελίδες που σχετίζονται με το ερώτημα, χρησιμοποιώντας σχετικά απλές μεθόδους όπως η αντιστοιχία κειμένου και στη συνέχεια κατατάσσει τις σελίδες, βασιζόμενη σε έναν συνδυασμό κριτηρίων ένα εκ των οποίων είναι και η βαθμική κεντρικότητα page. Η τιμή της παραμέτρου α που χρησιμοποιεί η μηχανή αναζήτησης Google είναι 0.85, χωρίς όμως να είναι ξεκάθαρο ποια στρατηγική ακολούθησε η Google για αυτή την επιλογή. Η πιθανότερη εκδοχή είναι ότι πρόκειται για κάποια έξυπνη εικασία που βασίστηκε πάνω σε πειραματισμούς για την απόδειξη της ορθής λειτουργίας της. 35

37 Όπως και στη κεντρικότητα Katz έτσι και εδώ μια παραλλαγή της βαθμικής κεντρικότητας page μπορεί να προκύψει αν ο σταθερός όρος είναι διαφορετικός για κάθε κόμβο : x x a A (2.4.8) k j i ij out j j ή ακόμα αν ο παραπάνω όρος δεν υπάρχει x x a A (2.4.9) k j i ij out j j Στη συνέχεια, θα εστιάσουμε σε ακόμα μία παραλλαγή της βαθμικής κεντρικότητας page που αφορά κυρίως τα κοινωνικά δίκτυα. H παραλλαγή αυτή έχει ως αρχή ότι κάθε κόμβος έχει περιορισμένη ικανότητα να αποτελέσει την τελευταία στάση ενός τυχαίου περιπάτου. Η ικανότητα του κόμβου να δεχθεί μια ακμή, εξαρτάται από το πλήθος των εσωτερικών ακμών του κόμβου. Το γεγονός ότι ένας κόμβος δέχεται μεγάλο πλήθος εισερχόμενων ακμών έχει ως συνέπεια τη μείωση της ικανότητας του να αποτελέσει το τελευταίο βήμα του περιπάτου του τυχαίου σέρφερ. Είναι λοιπόν επακόλουθο να επηρεαστεί η βαθμική κεντρικότητα page του κόμβου. Η παραλλαγή αυτή ονομάζεται βαθμική κεντρικότητα page περιορισμένης προσοχής (limitedattention pagerank) και ορίζεται ως εξής : la ~ la p pd out AD in (1 )D in 1 (2.4.10) in D in : Ο διαγώνιος πίνακας με στοιχεία D ( i, i) max(k,1) in i 36

38 Τέλος, ας δούμε έναν αλγόριθμο για τον υπολογισμό της βαθμικής κεντρικότητας σε σταθμισμένα δίκτυα (Χing W.,Ghobarni A.,2004). Αρχικά ορίζουμε το εσωτερικό και το εξωτερικό βάρος δύο κόμβων, τα οποία είναι συναρτήσεις του εσωτερικού βαθμού του ενός κόμβου και των εσωτερικών βαθμών των γειτόνων του εταίρου κόμβου, στη μια περίπτωση, και αντίστοιχα του εξωτερικού βαθμού του ενός και των εξωτερικών βαθμών των γειτόνων του άλλου κόμβου, στην άλλη περίπτωση. Πιο συγκεκριμένα : W in in ku (v,u) (2.4.11) in k pr ( u) p και W out out ku (v,u) (2.4.12) out k pr ( u) p Ru ( ) : Το σύνολο των γειτονικών κόμβων, του κόμβου u. Έτσι, οι παραπάνω ορισμοί σε συνδυασμό με τη σχέση (2.4.1), δίνουν τη βαθμική κεντρικότητα page ενός κόμβου ως εξής : Pr( ) Pr(u) W in out u ( u, v) W ( u, v) (1 ) (2.4.12) vm ( u) 37

39 2.5 Alpha κεντρικότητα (Alpha centrality) Ο P.Bonacich το 1987 δημιούργησε ένα μέτρο κεντρικότητας που είχε πολλές ομοιότητες με την κεντρικότητα Katz. Η alpha κεντρικότητα αποτελεί στην ουσία μια πιο γενικευμένη μορφή της κεντρικότητας Katz. Συνιστά ένα μέτρο που επιχειρεί να υπολογίσει την κεντρικότητα ενός κόμβου, συνυπολογίζοντας τη διαφορετική συνεισφορά κάθε άλλου με τον οποίο έρχεται σε επικοινωνία αλλά και τις επιρροές που δέχεται από το περιβάλλον εκτός δικτύου. Η επίτευξη των παραπάνω πραγματοποιείται με τη χρήση μίας παραμέτρου και ενός επιπλέον διανύσματος. Αρχικά χρησιμοποιεί μια παράμετρο απόσβεσης, η οποία διαμορφώνει μια εκθετική εξασθένηση της βαρύτητας των μονοπατιών, μεταξύ των κόμβων, ανάλογη με την αύξηση του μήκους τους. Στη συνέχεια με ένα διάνυσμα e ενσωματώνει και τις εξωγενείς επιδράσεις σε κάθε κόμβο. Με λίγα λόγια, η alpha κεντρικότητα μετράει το συνολικό πλήθος μονοπατιών από έναν κόμβο, σταθμίζοντάς ανάλογα με το μήκος τους, και λαμβάνοντας υπόψη και τους εξωγενείς παράγοντες. Ο τύπος της alpha κεντρικότητας είναι : T c aa c e (2.5.1) α: είναι η παράμετρος απόσβεσης Α: είναι ο πίνακας γειτνίασης του δικτύου e : είναι το διάνυσμα των εξωτερικών επιρροών. Η σχέση (2.5.1) με κατάλληλο μετασχηματισμό και σε μορφή πινάκων γίνεται : T 1 C ( I aa ) e (2.5.2) 38

40 Ωστόσο τις περισσότερες φορές το ενδιαφέρον εστιάζεται στη συμπεριφορά των κόμβων αποκλειστικά μέσα στο δίκτυο. Για τον λόγο αυτό το διάνυσμα e αντικαθίσταται από ένα διάνυσμα στήλης με μονάδες. Έτσι η σχέση (2.5.2) γίνεται C I aa 1 ( T ) 1 (2.5.3) Επομένως για την alpha κεντρικότητα κάθε κόμβου ισχύει c k k1 a A 1 k A1 aa 1 a A 1... (2.5.4) Αυτό το άπειρο άθροισμα συγκλίνει σε ένα μοναδικό σύνολο τιμών όταν όπου 1 είναι η μεγαλύτερη ιδιοτιμή του πίνακα γειτνίασης. a, 1 1 Μεγάλο ενδιαφέρον παρουσιάζει η επιλογή της παραμέτρου απόσβεσης a. Η τιμή του a αντικατοπτρίζει τον βαθμό στον οποίο ένας κόμβος επηρεάζεται από τις κεντρικότητες των άλλων κόμβων, με τους οποίους έρχεται σε επικοινωνία. Στην περίπτωση όπου το a είναι θετικό, έχουμε ένα συμβατικό μέτρο κεντρικότητας, με το οποίο κάθε κόμβος επηρεάζεται θετικά όταν επικοινωνεί με κόμβους υψηλής κεντρικότητας. Για παράδειγμα σε ένα δίκτυο επικοινωνίας, όπου η ποσότητα πληροφορίας που είναι διαθέσιμη σε έναν κόμβο σχετίζεται θετικά με την αντίστοιχη ποσότητα πληροφορίας που είναι διαθέσιμη στους κόμβους με τους οποίους επικοινωνεί, η επιλογή θετικής τιμής για την παράμετρο απόσβεσης κρίνεται αναγκαία. Μολαταύτα, υπάρχουν δίκτυα στα οποία η σύνδεση κόμβων με υψηλόβαθμους κόμβους μειώνει την κεντρικότητά τους. Για παράδειγμα, σε καταστάσεις διαπραγματεύσεων είναι επωφελές να συνδέεται ένας κόμβος με άλλους που έχουν λίγες συνδέσεις. Η δύναμη του κόμβου ενισχύεται με την σύνδεση του με χαμηλόβαθμες κορυφές. Στην περίπτωση ύπαρξης συνδέσεων με υψηλόβαθμους κόμβους, δηλαδή με κόμβους οι οποίοι έχουν αρκετές επιπλέον επιλογές για συναλλαγές, η δύναμη διαπραγμάτευσης αυτόματα μειώνεται. Σε τέτοιου είδους περιπτώσεις, η επιλογή αρνητικής τιμής της παραμέτρου απόσβεσης είναι κατάλληλη. 39

41 Όταν η συγκεκριμένη παράμετρος είναι μηδέν, τότε η alpha κεντρικότητα μετατρέπεται σε κεντρικότητα βαθμού. Η παράμετρος α καθορίζει πόσο μακριά, κατά μέσο όρο, η επίδραση ενός κόμβου θα γίνει αισθητή και με αυτόν τον τρόπο καθορίζει το μήκος κλίμακας των αλληλεπιδράσεων. Όταν η παράμετρος α παίρνει κάποια μικρή τιμή τότε η alpha κεντρικότητα ανιχνεύει μόνο την τοπική δομή του δικτύου. Όσο μεγαλώνει η τιμή της παραμέτρου α, τόσο περισσότερο οι απομακρυσμένοι κόμβοι 1 συνεισφέρουν στην τιμή της κεντρικότητας ενός συγκεκριμένου κόμβου. Όταν a έχουμε πλέον ένα καθολικό μέτρο για το δίκτυο, το οποίο προσεγγίζει την ιδιοδιανυσματική κεντρικότητα. Μία δυσκολία στην εφαρμογή αυτού του μέτρου εντοπίζεται στον περιορισμό της παραμέτρου απόσβεσης από το μεγαλύτερο ιδιοδιάνυσμα του πίνακα γειτνίασης. Σε μεγάλα δίκτυα, ο υπολογισμός του ιδιοδιανύσματος είναι δύσκολο έργο και αποτελεί εμπόδιο για τη χρήση της κεντρικότητας alpha. Για τον σκοπό αυτό προτάθηκε η κανονικοποιημένη κεντρικότητα alpha η οποία ορίζεται ως εξής: 1 Έστω ο πίνακας της alpha κεντρικότητας: C( a, t ) A( I aa) 1, τότε η κανονικοποιημένη κεντρικότητα alpha είναι (, t ) i,j C(, t ) C (, t ) ij (2.5.5) Αποδεικνύεται ότι σε αντίθεση με την alpha κεντρικότητα, η κανονικοποιημένη μορφή δεν περιορίζεται από το μεγαλύτερο ιδιοδιάνυσμα του πίνακα γειτνίασης. Επίσης αποδεικνύεται η ύπαρξη του lim (, t ) και ότι όσο το αυξάνεται, η 1 a 1 κανονικοποιημένη κεντρικότητα άλφα συγκλίνει σε αυτή τη τιμή (Ghosh and Lerman,2010). Τέλος αξίζει να αναφερθεί μια παραλλαγή της κεντρικότητας alpha, αρκετά χρήσιμη κυρίως σε κοινωνικά δίκτυα. Αρχικά, ο Y.Wang τροποποίησε τα υπάρχοντα μοντέλα επιδημίας SIS ώστε να μπορούν να χρησιμοποιηθούν σε δίκτυα. Ας 40

42 θεωρήσουμε ότι ένας ιός διαδίδεται στο δίκτυο, όπου σε κάθε χρονικό βήμα ένας κόμβος μπορεί να μεταδώσει τον ιό σε ευπαθής γειτονικούς κόμβους με κάποια πιθανότητα και επίσης ένας ήδη μολυσμένος κόμβος μπορεί να θεραπευτεί με κάποια άλλη πιθανότητα. Αποδεικνύεται ότι η κεντρικότητα alpha αποτελεί τη στάσιμη κατανομή μιας τέτοιας διαδικασίας επιδημίας σε ένα δίκτυο, όπου είναι η πιθανότητα μετάδοσης ενός μηνύματος ή κάποιας άλλης επίδρασης μέσω μιας ακμής του δικτύου. Ας θεωρήσουμε τώρα την περίπτωση, όπου η ικανότητα ενός κόμβου να λαμβάνει εισερχόμενα ερεθίσματα (είτε μηνύματα είτε ιούς) είναι περιορισμένη και ομοιόμορφα κατανεμημένη μεταξύ όλων των εισερχόμενων συνδέσεών του. Η πιθανότητα, δηλαδή, ένας κόμβος j να λάβει ένα μήνυμα από έναν κόμβο i είναι 1 d ( ) in j din( j ) είναι ο εσωτερικός βαθμός του κόμβου j. Το νέο μέτρο κεντρικότητας ονομάζεται κεντρικότητα alpha περιορισμένης προσοχής. Ο νέος πίνακας του παραλλαγμένου μέτρου είναι, M AD (2.5.6) 1 in όπου 1 D in είναι διαγώνιος πίνακας, ο οποίος στην κύρια διαγώνιο έχει το άθροισμα των εσωτερικών βαθμών κάθε κόμβου και σε όλες τις υπόλοιπες θέσεις μηδενικά. Η ροή πληροφοριών σε κοινωνικά δίκτυα συχνά μοντελοποιείται με μια τέτοια διαδικασία επιδημίας και έτσι το μέτρο αυτό φαντάζει κατάλληλο για την αξιολόγηση σημαντικών χρηστών των κοινωνικών δικτύων. Το γεγονός αυτό το επιβεβαιώνει η 41

43 εφαρμογή του μέτρου σε πραγματικά δεδομένα κοινωνικών δικτύων, όπου δείχνει να εφαρμόζει καλύτερα από την απλή κεντρικότητα alpha (Lerman K.et al.,2013) 2.6 Κεντρικότητα Eνδιαμεσότητας (Betweenness Centrality) O L. Freeman το 1977 εισήγαγε ένα καινούριο μέτρο κεντρικότητας κόμβων σε δίκτυα. Για την περιγραφή του, ας θεωρήσουμε ότι έχουμε ένα δίκτυο ροής αντικειμένων (πληροφοριών, μηνυμάτων, διαδόσεων κ.τ.λ ) μεταξύ των κόμβων, μέσω των ακμών, οι οποίες τους συνδέουν. Αρχικά πρέπει να κάνουμε δύο υποθέσεις: Η ροή μεταξύ των κόμβων είναι ισοπίθανη, δηλαδή η ροή έχει ίδια πιθανότητα να μεταδοθεί σε οποιονδήποτε άλλον κόμβο επικοινωνεί με τον αρχικό Η ροή ακολουθεί πάντα το συντομότερο μονοπάτι (γεωδαισιακή) μεταξύ όλων των ζευγών των κόμβων. Κάνοντας τις παραπάνω υποθέσεις, ψάχνουμε ένα μέτρο το οποίο υπολογίζει το πλήθος των γεωδαισιακών, μεταξύ όλων των κόμβων του δικτύου, στα οποία εμφανίζεται ο κάθε κόμβος. Εξαιτίας όμως της συχνής ύπαρξης περισσοτέρων του ενός συντομότερων μονοπατιών που συνδέουν δύο κόμβους, προσαρμόζουμε το μέτρο διαιρώντας με το συνολικό πλήθος των γεωδαισιακών που υπάρχουν μεταξύ όλων των κόμβων. Ουσιαστικά έχουμε ένα δίκτυο ροής αντικειμένων, όπως περιγράψαμε παραπάνω, όπου στην περίπτωση ύπαρξης πολλών ισομηκών κοντινότερων μονοπατιών, επιλέγουμε τυχαία ένα από αυτά και συνεχίζουμε τη διαδικασία. 42

44 Το μέτρο τώρα αντιστοιχεί στη μέση αναμενόμενη συχνότητα εμφάνισης ενός κόμβου στη ροή αντικειμένων, δύο διαφορετικών κόμβων του δικτύου. Ο Freeman ονόμασε το μέτρο αυτό, κεντρικότητα ενδιαμεσότητας και το όρισε ως εξής: st ( u) g(u) (2.6.1) sut st ( u) : ο συνολικός αριθμός των γεωδαισιακών από τον κόμβο s st στον κόμβο t,τα οποία περνούν από τον κόμβο u st : ο συνολικός αριθμός των γεωδαισιακών από τον κόμβο s στον κόμβο t. Σε αυτόν τον ορισμό υπάρχει ένα λεπτό σημείο. Η σχέση (2.6.1) δεν υπολογίζει τα μονοπάτια που ξεκινούν και καταλήγουν στον ίδιο κόμβο, όπως επίσης ούτε τα μονοπάτια που έχουν ως άκρα τον κόμβο, του οποίου μετράμε την κεντρικότητα. Στη βιβλιογραφία συναντάμε πληθώρα περιπτώσεων, όπου τα παραπάνω μονοπάτια συμπεριλαμβάνονται στην τιμή της κεντρικότητας. Ωστόσο, οι διαφορές στις δύο αυτές περιπτώσεις είναι ασήμαντες και δεν επηρεάζουν την κατάταξη των κόμβων, καθιστώντας τη χρήση των δύο ορισμών ισοδύναμη. Ενδιαφέρον παρουσιάζει το εύρος των τιμών της κεντρικότητας ενδιαμεσότητας. Ας θεωρήσουμε ότι βρισκόμαστε σε ένα παράγοντα που αποτελείται από n το πλήθος κόμβους. Χρησιμοποιώντας τον ορισμό της κεντρικότητας ενδιαμεσότητας, όπου περιλαμβάνουμε όλα τα προαναφερθέντα μονοπάτια, αποδεικνύεται ότι η μέγιστη τιμή των γεωδαισιακών στα οποία μπορεί να ανήκει ένας κόμβος είναι n 2 n 1 και αντίστοιχα η ελάχιστη είναι 2n 1. O λόγος της μεγαλύτερης και της μικρότερης κεντρικότητας μέσα σε ένα παράγοντα επομένως είναι 2 n n1 1 n. Η ποσότητα αυτή είναι μεγάλη, για μεγάλα δίκτυα και φανερώνει το 2n 1 2 μεγάλο εύρος τιμών του συγκεκριμένου μέτρου. 43

45 Μια κανονικοποιημένη μορφή της κεντρικότητας ενδιαμεσότητας λαμβάνεται αν διαιρέσουμε με (n1)(n 2) σε κατευθυνόμενα δίκτυα και αντίστοιχα με ( n 1)(n2) 2 σε μη κατευθυνόμενα δίκτυα, όπου n είναι το πλήθος των κόμβων, του μεγαλύτερου παράγοντα του δικτύου. Ένα μειονέκτημα αυτού του μέτρου, είναι η αποκλειστική επιλογή των κοντινότερων μονοπατιών. Το γεγονός αυτό, καθιστά το μέτρο ακατάλληλο για πολλά είδη δικτύων, όπως για παράδειγμα δίκτυα που περιγράφουν τη μετάδοση μιας μόλυνσης ή την κίνηση πληροφοριών. Σε τέτοιου είδους δίκτυα η επιλογή της κεντρικότητας alpha, αποτελεί σίγουρα μια καλύτερη λύση. Επιπλέον, ο τύπος (2.6.1) δεν εφαρμόζεται σε σταθμισμένα γραφήματα. Όλα τα παραπάνω συντέλεσαν στη δημιουργία μιας παραλλαγής της κεντρικότητας ενδιαμεσότητας, τη ροή κεντρικότητας ενδιαμεσότητας (Flow Betweenness centrality). Ας θεωρήσουμε τις ακμές ενός σταθμισμένου δικτύου ως κανάλια επικοινωνίας που ενώνουν ζεύγη ανθρώπων. Η τιμή κάθε σύνδεσης καθορίζει τη δυνατότητα σύνδεσης του κάθε καναλιού μέσω των κόμβων. Θεωρούμε επίσης, ότι μεταξύ των καναλιών ρέει πληροφορία, η οποία δε μεταδίδεται μόνο σε άμεσα συνδεδεμένους κόμβους, αλλά σε όλους τους κόμβους που επικοινωνούν μέσω μονοπατιών. Η ροή κεντρικότητας ενδιαμεσότητας μετράει την ποσότητα ροής που περνάει από έναν κόμβο, ο οποίος βρίσκεται σε ένα μονοπάτι μεταξύ δύο άλλων, όταν παράλληλα έχουμε μέγιστη μετάδοση ροής μεταξύ αυτών. Έτσι ο τύπος της κεντρικότητας αυτής είναι : nst ( u) g'( u) (2.6.2) n st n ( u ): η μέγιστη ροή που μεταδίδεται από τον κόμβο s στον κόμβο t και st περνάει από τον κόμβο u 44

46 n st η μέγιστη ροή που μεταδίδεται από τον κόμβο s στον κόμβο t. Το μόνο πρόβλημα πλέον είναι ο καθορισμός της μέγιστης ροής μεταξύ δύο κόμβων. Για τον σκοπό αυτό όμως, έχουν αναπτυχθεί πολλοί αλγόριθμοι όπως των Ford και Fulkerson, του Dinic και του Karzanov,οι οποίοι καθιστούν τον υπολογισμό του μέτρου εύκολη υπόθεση. Ομοίως όμως με πριν, αυτό το μέτρο παρουσιάζει κάποιο μειονέκτημα. Ενώ καταφέραμε να ξεφύγουμε από το στενό πλαίσιο των γεωδαισιακών,θεωρήσαμε όμως και πάλι αποκλειστικά μονοπάτια μεγιστοποίησης της ροής. Μια ακόμη παραλλαγή της κεντρικότητας ενδιαμεσότητας, που αντιμετωπίζει αυτό το πρόβλημα και γενικεύεται σε όλα τα είδη μονοπατιών, είναι η ενδιαμεσότητα τυχαίου περιπάτου (Random Walk Betweenness). Το μέτρο αυτό υπολογίζει πόσες φορές, κατά μέσο όρο, πέρασε από έναν κόμβο, ένας τυχαίος περίπατος που πραγματοποιήθηκε μεταξύ των ζευγών των κόμβων του δικτύου. Σε αντίθεση με τον αρχικό ορισμό της κεντρικότητας ενδιαμεσότητας, αυτή η παραλλαγή προσαρμόζει καλύτερα σε δίκτυα, όπου η πληροφορία ρέει ουσιαστικά τυχαία μέχρι να καταλήξει σε ένα συγκεκριμένο κόμβο. Πραγματοποιώντας ένα μεγάλο αριθμό τυχαίων περιπάτων, φαίνεται πως τελικά επιλύουμε τα προηγούμενα προβλήματα, τα οποία σχετίζονται με την επιλογή μόνο κάποιων υποσυνόλων των μονοπατιών. Η πραγματικότητα όμως απέχει πολύ από αυτό το συμπέρασμα. Η πραγματοποίηση κάθε τυχαίου περιπάτου αντιστοιχεί κάθε φορά σε διαφορετικές πιθανότητες. Έτσι η συνεισφορά των μονοπατιών, μέσω των τυχαίων περιπάτων, στο μέτρο δεν είναι κάθε φορά ίδια. Συνήθως τα συντομότερα μονοπάτια συνεισφέρουν περισσότερο, καθώς τις περισσότερες φορές είναι δύσκολο ένας τυχαίος περίπατος να συνεχιστεί χωρίς να καταλήξει σχετικά σύντομα στον επιθυμητό κόμβο. Έτσι, αυτή η παραλλαγή περιέχει συνεισφορά από περισσότερα μονοπάτια, σε σχέση με τα προηγούμενα μέτρα, χωρίς όμως να καταφέρει την ισοδύναμη συνεισφορά όλων των μονοπατιών στο μέτρο. Τέλος, αξίζει να αναφερθούμε σε μια προσπάθεια για την εύρεση της κατανομής της κεντρικότητας ενδιαμεσότητας σε συγκεκριμένα είδη δικτύων. Θα εξετάσουμε την αρχική κανονικοποιημένη κεντρικότητα ενδιαμεσότητας,σε μη κατευθυνόμενα και μη σταθμισμένα δίκτυα. Αρχικά οι Goh et al. (2001) πραγματοποίησαν μια αριθμητική μελέτη της κατανομής της κεντρικότητας ενδιαμεσότητας σε ένα μοντέλο δικτύου 45

47 ελεύθερα κλίμακος (scale free). Ένα δίκτυο ελευθέρας κλίμακος είναι ένα δίκτυο, του οποίου η κατανομή των βαθμών των κόμβων του είναι κατανομή νόμου δύναμης (power law), είναι δηλαδή της μορφής P( x k) k a, όπου [2,3]. Οι Goh et al.(2001) έδειξαν ότι κεντρικότητα ενδιαμεσότητας ακολουθεί μια κατανομή νόμου δύναμης με εκθέτη : P( g) g Σύμφωνα με τα αριθμητικά τους αποτελέσματα, ισχυρίστηκαν ότι η τιμή είναι καθολική για όλα τα [2,3]. Εν ολίγοις, διατύπωσαν ότι μπορούμε να κατηγοριοποιήσουμε όλα τα δίκτυα σε δύο κλάσεις, για : 2, 2 2,όπου σε κάθε κλάση, το είναι ανεξάρτητο από τις λεπτομέρειες του δικτύου. Μολαταύτα, ο Barthelemy με τη μελέτη της σχέσης 46

48 g k 1,όπου είναι μια παράμετρος που εξαρτάται από το δίκτυο, έδειξε ότι κάτι 1 τέτοιο δεν ισχύει. Έδειξε λοιπόν ότι η παράμετρος εξαρτάται σε κάθε δίκτυο από την παράμετρο και τόνισε τη σημασία της παραμέτρου, καταλήγοντας στα παρακάτω συμπεράσματα. Σε δίκτυα που είναι δέντρα ή μοιάζει η δομή τους με δέντρο το 2. Αν 1 επιπλέον τα δίκτυα αυτά είναι ελεύθερα κλίμακος με παράμετρο,τότε. 2 Αν το δίκτυο δεν έχει δομή που μοιάζει με δέντρο τότε οι παράμετροι, εξαρτώνται από τις λεπτομέρειες του δικτύου. Τέλος αν ανήκει στη δεύτερη κατηγορία και είναι επιπλέον και ελεύθερα κλίμακος δίκτυο, η παράμετρος δ έχει ένα κατώτατο όριο. 2.7 Κεντρικότητα Εγγύτητας (Closeness Centrality) To 1979 o L.Freeman δημιούργησε ένα ακόμα μέτρο κεντρικότητας, το οποίο αποδίδει υψηλές τιμές σε κόμβους που βρίσκονται σε κοντινότερες αποστάσεις με τους υπόλοιπους του δικτύου. Το μέτρο αυτό ονομάζεται κεντρικότητα εγγύτητας και ορίζεται ως εξής: 1 Cl() i d( i, j) (2.7.1) j 47

49 d( i, j ) : Η απόσταση των κόμβων i και j Η κεντρικότητα εγγύτητας μπορεί επίσης να θεωρηθεί ως η ικανότητα κάθε κόμβου να μεταδίδει πληροφορίες σε όλους τους υπόλοιπους κόμβους του δικτύου. Η ύπαρξη μικρής μέσης απόστασης ενός κόμβου από τους υπόλοιπους, συνεπάγεται αυτόματα και καλύτερη ικανότητα στη διάδοση πληροφορίας. Είναι επομένως φυσικό επακόλουθο να αποδίδουμε υψηλή κεντρικότητα σε έναν τέτοιο κόμβο. Σε αντίθεση με την κεντρικότητα ενδιαμεσότητας, η κεντρικότητα εγγύτητας εκτείνεται σε ένα αρκετά μικρότερο εύρος τιμών. Πράγματι, ο λόγος της μικρότερης προς τη μεγαλύτερη απόσταση κόμβων σε ένα δίκτυο είναι της τάξης log( n ), όπου n είναι το συνολικό πλήθος κόμβων του δικτύου. Επομένως γίνεται εύκολα αντιληπτό ότι και το εύρος των τιμών της κεντρικότητας εγγύτητας θα είναι εξίσου μικρό. Το γεγονός αυτό, σε πολλές περιπτώσεις προκαλεί σύγχυση στη σύγκριση της κεντρικότητας των κόμβων, λόγω των μικρών διαφορών των τιμών που καθιστούν δύσκολο τον διαχωρισμό τους. Στον κλασικό ορισμό (2.7.1) της κεντρικότητας εγγύτητας εντοπίζεται ένα ακόμα πρόβλημα. Η απλή εφαρμογή της σχέσης (2.7.1) σε ένα δίκτυο συνεπάγεται ότι η κεντρικότητα κάθε κόμβου παρουσιάζει μια αντιστρόφως ανάλογη σχέση με το πλήθος των κόμβων με τους οποίους έρχεται σε επικοινωνία. Η επαλήθευση της παραπάνω πρότασης στηρίζεται στη γενίκευση ότι ανεξαρτήτως αν ένας κόμβος απέχει μικρές ή μεγάλες αποστάσεις από άλλους, εφόσον έρχεται σε επικοινωνία με μεγάλο αριθμό κόμβων, ο παρονομαστής στη σχέση (2.7.1) τείνει να μεγαλώσει. Επακόλουθα η κεντρικότητα του συγκεκριμένου κόμβου τείνει να ελαττωθεί. Δημιουργείται λοιπόν η εντύπωση ότι κόμβοι που ανήκουν σε μικρότερους παράγοντες έχουν μεγαλύτερη κεντρικότητα από άλλους που ανήκουν σε μεγαλύτερους παράγοντες. Για τον λόγο αυτό, στις περισσότερες περιπτώσεις οι έρευνες βασίζονται σε κόμβους που ανήκουν στον ίδιο παράγοντα, ώστε να επιτυγχάνεται ορθά η σύγκριση τους. Με σκοπό την αντιμετώπιση αυτού του προβλήματος ο Opsahl Τ. πρότεινε μια παραλλαγή της κεντρικότητας εγγύτητας. Η παραλλαγή αυτή ορίζεται ως εξής: 48

50 1 Cl() i (1.18) d( i, j) j Η διαφορά με τον αρχικό ορισμό της κεντρικότητας εγγύτητας (1.17) είναι ότι σε αυτή την παραλλαγή οι αποστάσεις πρώτα αντιστρέφονται και μετά αθροίζονται. Έτσι, προσδίδεται μεγαλύτερη κεντρικότητα σε κόμβους που ανήκουν σε παράγοντες με περισσότερους κόμβους. Άλλωστε, τις περισσότερες φορές αυτό είναι επιθυμητό, καθώς κόμβοι που έρχονται σε επικοινωνία με πολλούς άλλους, έχουν μεγαλύτερη σημασία για το δίκτυο. Επιπρόσθετα, ένα καινούριο πρόβλημα προκύπτει με την εφαρμογή του μέτρου σε σταθμισμένα δίκτυα. Το πρόβλημα αυτό σχετίζεται με τον ορισμό της απόστασης δύο κόμβων μέσα στο δίκτυο. Αρχικά δημιουργήθηκαν πολλοί αλγόριθμοι εύρεσης του συντομότερου μονοπατιού μεταξύ δύο κόμβων σε σταθμισμένα δίκτυα. Ένας από αυτούς ήταν και του Djikstra E.(1959). Στο συγκεκριμένο αλγόριθμο τα βάρη κάθε ακμής αντιστοιχούν σε κόστη μετάβασης μεταξύ των κόμβων του δικτύου. Οι Newman M.(2001) και Brandes U. (2001) αντέστρεψαν τα βάρη σε αυτόν τον αλγόριθμο, ώστε να έχουν μια αντιστρόφως ανάλογη σχέση με την απόσταση των κόμβων. Έτσι, η σταθμισμένη απόσταση δύο κόμβων ορίστηκε ως εξής: d w 1 1 ( i, j) min(... ) w w (2.7.2) ih hj w ih : Το βάρος της ακμής που συνδέει των κόμβο i με έναν γειτονικό του κόμβο. Παρατηρούμε ότι η απόσταση λαμβάνεται ως συνάρτηση μόνο των βαρών των ακμών του δικτύου. Σε σταθμισμένα δίκτυα όμως, η έννοια της απόστασης οφείλει πολλές φορές να αντιμετωπισθεί ως πολυδιάστατη. 49

51 Το πλήθος των κόμβων από τους οποίους αποτελείται κάθε μονοπάτι, είναι σίγουρα μια παράμετρος που πρέπει να συνυπολογισθεί για την εύρεση της απόστασης. Οι Opsahl T., et al. (2010) εισήγαγαν για αυτό το σκοπό μια θετική παράμετρο, η οποία ρυθμίζει το βαθμό επιρροής των βαρών και του πλήθους των κόμβων κάθε μονοπατιού, στον υπολογισμό της απόστασης δύο κόμβων. Η σταθμισμένη απόσταση ορίζεται πλέον ως εξής: d w 1 1 ( i, j) min(... ) (2.7.3) ( w ) ( w ) ih hj 0 Η σταθμισμένη κεντρικότητα εγγύτητας γίνεται πλέον: wa Cl ( i) d ( i, j) wa 1 (2.7.4) j Για την επίδραση των τιμών της παραμέτρου στην σταθμισμένη κεντρικότητα εγγύτητας ισχύουν τα παρακάτω: 0: Στον υπολογισμό της κεντρικότητας λαμβάνουμε υπόψη μόνο το μήκος κάθε μονοπατιού μεταξύ των κόμβων. 0 1: Στον υπολογισμό της κεντρικότητας δίνουμε μεγαλύτερη βαρύτητα στο μήκος κάθε μονοπατιού μεταξύ των κόμβων. 50

52 1: Στον υπολογισμό της κεντρικότητας λαμβάνουμε υπόψη μόνο τις τιμές των βαρών κάθε ακμής του δικτύου. 1 : Στον υπολογισμό της κεντρικότητας δίνουμε μεγαλύτερη βαρύτητα στις τιμές των βαρών κάθε ακμής του δικτύου. Ο J.D Noh (2004) παρουσίασε μια προσέγγιση της κεντρικότητας εγγύτητας μέσω τυχαίων περιπάτων σε σύνθετα μη κατευθυνόμενα δίκτυα. Χρησιμοποίησε το μοντέλο του τυχαίου περιπάτου, όπως το είδαμε και στα προηγούμενα μέτρα. Δηλαδή, σε κάθε κόμβο ο τυχαίος περίπατος επιλέγει με ίση πιθανότητα τον επόμενο κόμβο στον οποίο θα συνεχίσει. Στη συνέχεια, στην προσπάθεια του να προσδιορίσει την ταχύτητα κίνησης των τυχαίων περιπάτων, μελέτησε το μέσο χρόνο της πρώτης επίσκεψης ενός κόμβου από κάποιο άλλο. Σε αυτό το επιχείρημα, όρισε την κεντρικότητα κάθε κόμβου μέσω των τυχαίων περιπάτων ως το λόγο της στάσιμης πιθανότητας κάθε κόμβου (σε προηγούμενη ενότητα την εξισώσαμε με την τιμή της σελιδοβαθμικής κεντρικότητας) προς ένα χαρακτηριστικό χρόνο χαλάρωσης. Ο χρόνος χαλάρωσης δίνεται από τη σχέση : i pii pi t0 { (t) } (2.7.5) p () t : Η πιθανότητα να επανέλθει ο τυχαίος περίπατος στον κόμβο i σε χρόνο t ii p i : H στάσιμη πιθανότητα του κόμβου i Έτσι, η κεντρικότητα δίνεται από την σχέση: 51

53 pi Cl() i (2.7.6) Αποδείχθηκε ότι ο μέσος χρόνος της πρώτης επίσκεψης ενός κόμβου από κάποιον άλλο, μέσω τυχαίων περιπάτων, καθορίζεται ουσιαστικά από τις κεντρικότητες των δύο κόμβων. Το συμπέρασμα αυτό αποτυπώνεται στην παρακάτω σχέση: 1 1 Tij Tji Cl( j) Cl( i) (2.7.7) Tij : Ο μέσος χρόνος της πρώτης επίσκεψης του κόμβου j από τον κόμβο i, μέσω τυχαίων περιπάτων. Ουσιαστικά, η κεντρικότητα αυτή ποσοτικοποιεί τη σημαντικότητα κάθε κόμβου, με γνώμονα τη δυνατότητα που έχει να λαμβάνει πληροφορίες, που διακινούνται τυχαία στο δίκτυο. Από την σχέση (2.7.7) παρατηρούμε ότι ισχύει: Cl( i) Cl(j) Tij Tji Με άλλα λόγια, ο κόμβος με τη μεγαλύτερη κεντρικότητα λαμβάνει ταχύτερα την πληροφορία που διακινείται μεταξύ των δύο κόμβων. Συμπερασματικά, κόμβοι με υψηλή κεντρικότητα έχουν το πλεονέκτημα να ενημερώνονται γρηγορότερα από άλλους, για νέες πληροφορίες οι οποίες κυκλοφορούν στο δίκτυο. 52

54 Ένα άλλο μειονέκτημα της κεντρικότητας εγγύτητας σχετίζεται με το μεγάλο κόστος υπολογισιμότητας της. Ο χρόνος για τον υπολογισμό της κεντρικότητας εγγύτητας σε ένα δίκτυο με n κόμβους και m ακμές είναι 2 (nm n log n). Εύκολα επομένως γίνεται αντιληπτό, ότι σε μεγάλα δίκτυα ο υπολογισμός της κεντρικότητας αποτελεί μια επώδυνη διαδικασία Το πρόβλημα αυτό προσπάθησαν να αντιμετωπίσουν οι Wehmuth K. και Ziviani A. (2013), δημιουργώντας ένα μέτρο για μη κατευθυνόμενα δίκτυα, το οποίο έχει υψηλή συσχέτιση με την κεντρικότητα εγγύτητας. Το μέτρο αυτό όμως, υπερτερεί της κεντρικότητας εγγύτητας σε δύο σημεία: Ο χρόνος υπολογισιμότητας του είναι μικρότερος σε σχέση με την κεντρικότητα εγγύτητας Για τον υπολογισμό του δεν είναι αναγκαία η πλήρης γνώση της τοπολογίας του δικτύου Η ονομασία που έδωσαν στο μέτρο είναι ΚΕΚΚΕ: Κατανεμημένη Εκτίμηση της Κατάταξης της Κεντρικότητας Εγγύτητας (DΑCCER: Distributed Assessment of the Closeness CEntrality Ranking). Ας προσπαθήσουμε τώρα, να σκιαγραφήσουμε την λειτουργία της ΚΕΚΚΕ. Η ΚΕΚΚΕ υπολογίζει την τοπική κεντρικότητα κάθε κόμβου, ορίζοντας κάθε φορά μια συγκεκριμένη ακτίνα, η οποία με τη σειρά της διαμορφώνει μια περιορισμένη γειτονιά για τον κεντρικό κόμβο. Μέσα σε αυτή τη γειτονιά δρα μια συνάρτηση ταξινόμησης, η οποία αντιστοιχεί την κάθε γειτονιά του δικτύου στο άθροισμα των βαθμών των κόμβων της σε ολόκληρο το δίκτυο. Με αυτό τον τρόπο επιτυγχάνεται μια ταξινόμηση των κόμβων του δικτύου, που σχεδόν ταυτίζεται με την ταξινόμηση που προκύπτει από την κεντρικότητα εγγύτητας. Αναφέρεται μάλιστα, μια ιδανική τιμή της ακτίνας (h=2), η οποία παρέχει την κατάλληλη εξισορρόπηση μεταξύ της υψηλής συσχέτισης του μέτρου με την κεντρικότητα εγγύτητας και του περιορισμένου κόστους υπολογισμού του μέτρου. Τέλος, η ΚΕΚΚΕ όπως είναι φυσικό, όντας ένα προσεγγιστικό μέτρο της κεντρικότητας εγγύτητας δεν εφαρμόζει το ίδιο καλά σε όλα τα είδη δικτύων. 53

55 Αποδείχθηκε ότι η ΚΕΚΚΕ εφαρμόζει καλύτερα σε δίκτυα με ακανόνιστη δομή, με μικρή ακτίνα σε σχέση με το μέγεθός τους και σε δίκτυα με χαμηλή πυκνότητα. Τέτοια δίκτυα είναι τα ανεξάρτητα κλίμακος δίκτυα και τα δίκτυα μικρόκοσμου (δίκτυα στα οποία οι περισσότεροι κόμβοι δεν συνδέονται άμεσα με άλλους, αλλά μπορούν να επικοινωνήσουν μαζί τους με έναν μικρό αριθμό βημάτων). 2.8 Συντελεστής Σύμπλεξης (Clustering Coefficient) Ο συντελεστής σύμπλεξης είναι ένα μέτρο κεντρικότητας με διπλή χρησιμότητα. Μπορεί να χρησιμοποιηθεί ως μέτρο κατάταξης των κόμβων ενός δικτύου σύμφωνα με την κεντρικότητα τους, ενώ παράλληλα μπορεί να λειτουργήσει και ως μέτρο σύγκρισης μεταξύ δικτύων. Η ανάγκη επομένως, ενός αρχικού διαχωρισμού καθίσταται αναγκαία. Έχουμε λοιπόν τις δύο παρακάτω μορφές του συντελεστή σύμπλεξης : Τοπικός συντελεστής σύμπλεξης (Local clustering coefficient). Ολικός συντελεστής σύμπλεξης (Global clustering coefficient). Aς αναφερθούμε αρχικά στον τοπικό συντελεστή σύμπλεξης. O τοπικός συντελεστής σύμπλεξης εφαρμόζεται μεμονωμένα σε κάθε κόμβο του δικτύου και δείχνει την απόσταση που απέχουν οι γείτονες του κεντρικού κόμβου από τη δημιουργία κλίκας. Με άλλα λόγια, ο τοπικός συντελεστής σύμπλεξης αναφέρεται στους άμεσα συνδεόμενους κόμβους με τον κεντρικό κάθε φορά κόμβο και ποσοτικοποιεί τη δυνατότητα τους να συντελέσουν ένα πλήρες υπογράφημα, ένα υπογράφημα δηλαδή του οποίου όλοι οι κόμβοι συνδέονται μεταξύ τους. Ειδικότερα, ο τοπικός συντελεστής σύμπλεξης ενός κόμβου είναι ο λόγος του πλήθους των ζευγών των γειτονικών του κόμβων, οι οποίοι συνδέονται μεταξύ τους, 54

56 προς το συνολικό αριθμό ζευγών των γειτονικών του κόμβων. Σε μη κατευθυνόμενα δίκτυα όμως, ο παρονομαστής του παραπάνω λόγου ισούται με το συνδυασμό όλων των γειτόνων ανά δύο. Επομένως, ο ορισμός του μέτρου για μη κατευθυνόμενα και μη σταθμισμένα δίκτυα είναι ο εξής : i ( i 1) e jk : j, k Ni, e jk E ClC(i) (2.8.1) 2 i : Ο βαθμός του κόμβου i. e jk : Το πλήθος των ακμών που βρίσκονται μεταξύ των γειτόνων του κόμβου i. N : {j: e E}. H γειτονιά του κόμβου i. i ij E : Το σύνολο όλων των ακμών του δικτύου. Ο R. Burt (1994) αναφέρθηκε σε ένα φαινόμενο, το οποίο κατ επέκταση σχετίζεται με το συντελεστή σύμπλεξης. Το φαινόμενο των δομικών οπών (structural holes), παρατηρείται κυρίως σε κοινωνικά δίκτυα, όταν οι γείτονες ενός κόμβου δεν συνδέονται άμεσα μεταξύ τους. Αρχικά ο Burt συνέδεσε τις δομικές οπές των δικτύων με ένα άλλο μέτρο, το οποίο και ονόμασε πλεονασμό (redundancy). Ο S.P Borgatti (1997) απλοποίησε τον προγενέστερο ορισμό του Burt και όρισε το μέτρο του πλεονασμού ενός κεντρικού κόμβου, ως το μέσο πλήθος, των μεταξύ τους συνδέσεων, των γειτονικών του κόμβων. Εύκολα πλέον γίνεται αντιληπτό, ότι υπάρχει σχέση που συνδέει τον πλεονασμό με το συντελεστή σύμπλεξης. Η σχέση αυτή είναι η παρακάτω: Ra(i) ClC(i) 1 i (2.8.2) 55

57 Ra() i : Ο πλεονασμός του κόμβου i Τώρα φαίνεται καθαρά, ότι ο συντελεστής σύμπλεξης αποτελεί ένα μέσο ελέγχου ύπαρξης δομικών οπών στο δίκτυο. Το γεγονός αυτό είναι μεγίστης σημασίας για τη μελέτη των δικτύων. Στην περίπτωση που έχουμε διάδοση πληροφοριών στο δίκτυο, αυτές οι δομικές οπές συνιστούν εμπόδιο για την αποτελεσματική ροή των πληροφοριών, καθώς μειώνουν τον αριθμό των διαθέσιμων μονοπατιών. Από άλλη οπτική γωνία όμως, ένας κόμβος με χαμηλό συντελεστή σύμπλεξης, θα περιβάλλεται από μεγάλο αριθμό δομικών οπών. Έτσι, αφού οι γείτονες του κεντρικού κόμβου χαρακτηρίζονται από έλλειψη μεταξύ τους συνδέσεων, η μετάδοση πληροφοριών μεταξύ των γειτονικών κόμβων οφείλει να περάσει από τον κεντρικό κόμβο. Αβίαστα λοιπόν καταλήγουμε στο συμπέρασμα ότι ο συντελεστής σύμπλεξης μπορεί να θεωρηθεί ως ένα μέτρο επιρροής, με την παραπάνω έννοια της διάδοσης πληροφοριών, του κεντρικού κόμβου προς τους γειτονικούς του κόμβους. Σε προηγούμενη ενότητα όμως, είδαμε ότι η κεντρικότητα ενδιαμεσότητας είναι ένα παρόμοιο μέτρο, το οποίο μετράει το πόσο ελέγχει ένας κόμβος τις πληροφορίες που κινούνται μεταξύ όλων των ζευγών των κόμβων του δικτύου. Στην περίπτωση βέβαια του συντελεστή σύμπλεξης, ο έλεγχος δεν αφορά ολόκληρο το δίκτυο, αλλά μόνο τους κόμβους που είναι γειτονικοί με τον κεντρικό. Κοντολογίς,ο συντελεστής σύμπλεξης συνιστά μια περιορισμένη μορφή της ενδιάμεσης κεντρικότητας. Ωστόσο, η μεγάλη συσχέτιση των δύο μέτρων σε συνδυασμό με το υψηλό υπολογιστικό κόστος της κεντρικότητας ενδιαμεσότητας, δίνει πολλές φορές προτεραιότητα στη χρήση του συντελεστή σύμπλεξης, παρά την τοπική του δράση. Ενδιαφέρον παρουσιάζει και η σχέση του συντελεστή σύμπλεξης με το βαθμό των κόμβων του δικτύου. Σε αρκετά δίκτυα, ο συντελεστής σύμπλεξης εξαρτάται από το βαθμό ενός κόμβου. Παρατηρείται μάλιστα, μια αντιστρόφως ανάλογη σχέση μεταξύ των δύο μεγεθών. Δηλαδή, όσο αυξάνεται ο βαθμός ενός κόμβου, ο συντελεστής σύμπλεξης του τείνει να ελαττωθεί. Στον ορισμό του ολικού συντελεστή σύμπλεξης ενός δικτύου, παρουσιάζεται ένα μικρό πρόβλημα. Υπάρχουν δύο ορισμοί που χρησιμοποιούνται για τον υπολογισμό του ίδιου μέτρου. Φυσικά, εάν υπήρχε υψηλή συσχέτιση μεταξύ των δύο 56

58 ορισμών, η επιλογή οποιουδήποτε ορισμού δεν θα επηρέαζε τα αποτελέσματα μας. Στην πραγματικότητα όμως, δε συμβαίνει κάτι τέτοιο. Ειδικότερα, ο πρώτος ορισμός δόθηκε από τους D.J Watts και S. Strogatz (1994), οι οποίοι θεώρησαν ως ολικό συντελεστή σύμπλεξης, το μέσο τοπικό συντελεστή σύμπλεξης ενός κόμβου του δικτύου. Δηλαδή: ClC i ClC() i n (2.8.3) Μεταγενέστερα, ένας άλλος ορισμός αναπτύχθηκε για τον ολικό συντελεστή σύμπλεξης. Ορίσθηκε ως η μέση πιθανότητα δύο κόμβοι του δικτύου με έναν κοινό κόμβο σύνδεσης, να συνδέονται μεταξύ τους. Δηλαδή: ClC i i t i i 2 (2.8.4) t i : ο αριθμός των ακμών μεταξύ των γειτόνων του κόμβου i Ο ορισμός αυτός, ενδέχεται να εμφανιστεί και στην παρακάτω ισοδύναμη μορφή: 3(αριθμό τριγώνων στο δίκτυο) ClC συνολικό αριθμό των τριάδων κορυφών στο δίκτυο Τρίγωνο : Μια τριάδα κορυφών που συνδέονται όλες μεταξύ τους 57

59 Τριάδες κορυφής : Τριάδες που αποτελούνται κάθε φορά από την κεντρική κορυφή και τις δυάδες των γειτονικών της κόμβων. Όπως είπαμε και πριν, έχει διαπιστωθεί εμπειρικά ότι οι ορισμοί (2.8.3) και (2.8.4) δεν έχουν υψηλή συσχέτιση. Η χαμηλή συσχέτιση των δύο μέτρων οφείλεται στο γεγονός, ότι στο πρώτο μέτρο, κάθε ζεύγος γειτονικών ακμών του κεντρικού κόμβου συνεισφέρει ισοδύναμα σε αυτό, σε αντίθεση με το δεύτερο όπου για τον υπολογισμό του βασίζεται στη συνεισφορά κάθε κορυφής. Πιο αναλυτικά, στον ορισμό (2.8.3) θα έχουμε μια υπέρμετρη εκπροσώπηση από υψηλόβαθμους κόμβους, σε αντίθεση με τον ορισμό (2.8.4), όπου η παρουσία τους θα είναι μικρότερη. Αυτό αποτελεί άλλη μια ένδειξη, ότι στη γενική περίπτωση, κόμβοι με διαφορετικό βαθμό θα έχουν διαφορετικό τοπικό συντελεστή σύμπλεξης. Σε δίκτυα όπου οι τοπικοί συντελεστές ομαδοποίησης των κόμβων παρουσιάζουν μικρή απόκλιση, δεν επηρεάζονται δηλαδή αισθητά από τον βαθμό τους, η συσχέτιση των δύο μέτρων είναι σαφώς μεγαλύτερη. Ο ορισμός (2.8.1) αναφέρεται μόνο σε μη κατευθυνόμενα και μη σταθμισμένα δίκτυα. Στην περίπτωση ενός σταθμισμένου δικτύου, οι Barrat A. et al. (2004) όρισαν το σταθμισμένο τοπικό συντελεστή σύμπλεξης ενός κόμβου ως εξής : ClC w 1 ( wij wih ) (i) A A A s ( 1) 2 i jh, ij ih jh (2.8.5) s i : Η δύναμη ενός κόμβου ( s i A ij w ij ). j w ij : Το βάρος της ακμής που ενώνει τους i,jκόμβους. Ουσιαστικά, οι Barrat et al. στον ορισμό (2.8.5), δε λαμβάνουν υπόψη τους το βάρος των ακμών που συνδέουν τους γειτονικούς τους κόμβους, καθώς αποκλειστικός στόχος του μέτρου είναι η εκτίμηση της πιθανότητας εμφάνισης μιας κλειστής τριάδας. Μιας τριάδας κόμβων, δηλαδή, οι οποίοι συνδέονται όλοι μεταξύ τους. 58

60 Στηριζόμενοι σε αυτή την ιδέα, οι Opsahl και P. Panzarasa δημιούργησαν μια σειρά παραλλαγών του μέτρου. Συγκεκριμένα όρισαν το σταθμισμένο ολικό συντελεστή ομαδοποίησης ως εξής : ClC we (2.8.6) : Η τιμή μιας τριάδας κόμβων. : Το σύνολο των κλειστών τριάδων του δικτύου. : Το σύνολο όλων των τριάδων του δικτύου. Το ερώτημα στον ορισμό (2.8.6), είναι ο τρόπος ορισμού της τιμής των τριάδων του δικτύου. Για τον σκοπό αυτό, όρισαν την τιμή των τριάδων, με τους τέσσερις παρακάτω τρόπους: Ως τον αριθμητικό μέσο των βαρών των ακμών μιας τριάδας του δικτύου, που συνδέουν τον κεντρικό κόμβο με τους δύο γείτονές του. Ως το γεωμετρικό μέσο των βαρών των ακμών μιας τριάδας του δικτύου,που συνδέουν τον κεντρικό κόμβο με τους δύο γείτονες του. Ως το μικρότερο βάρος των ακμών μιας τριάδας του δικτύου, που συνδέουν τον κεντρικό κόμβο με τους δύο γείτονες του. Ως το μεγαλύτερο βάρος των ακμών μιας τριάδας του δικτύου, που συνδέουν τον κεντρικό κόμβο με τους δύο γείτονες του. Η κατάλληλη επιλογή του, εξαρτάται από το είδος του δικτύου και από το τι πραγματικά μας ενδιαφέρει κάθε φορά να εκλάβουμε ως αποτέλεσμα. 59

61 Για την περίπτωση των κατευθυνόμενων δικτύων, μη σταθμισμένων και σταθμισμένων, ο Fagiolo G. (2007) έδωσε τους παρακάτω ορισμούς για τον τοπικό συντελεστή σύμπλεξης ενός κόμβου : ClC D () i (A A ) T 3 ii 2 2[ i ( i 1) 2 Aii ] (2.8.7) T A : Ο αντίστροφος πίνακας του πίνακα γειτνίασης. 2 A ii : Το (i,i) στοιχείου του πίνακα 2. ClC DW 1 1 [ ] 3 T 3 3 W ii 2 i ii [W ( ) ] () i 2[ ( 1) 2 ] (2.8.8) W : Ο πίνακας των βαρών του δικτύου. 1 [ ] 3 W : Ο πίνακας των βαρών, όπου κάθε στοιχείο είναι υψωμένο στη δύναμη Κεντρικότητα ομφαλoύ και αυθεντίας (hubs and authorities centrality) Όπως έχει γίνει ήδη φανερό από τα προηγούμενα μέτρα, η σημαντικότητα ενός κόμβου εξαρτάται κάθε φορά από το δίκτυο στο οποίο αντιστοιχεί. Πιο συγκεκριμένα, σε κατευθυνόμενα δίκτυα η κεντρικότητα που προσδίδεται σε κάθε κόμβο είναι άρρητα συνδεδεμένη με την κατεύθυνση των ακμών. Έτσι, η κεντρικότητα των κόμβων 60

62 επηρεάζεται είτε από τις εισερχόμενες είτε από τις εξερχόμενες ακμές τους. Ανάλογα με το είδος του δικτύου, προκύπτει κάθε φορά η κατάλληλη επιλογή του μέτρου κεντρικότητας, με σκοπό την επιθυμητή κατανομή κεντρικότητας. Ο ρόλος, δηλαδή, που παίζει ο κόμβος σε ένα συγκεκριμένο δίκτυο, είναι αυτός που θα καθορίσει και την σημαντικότητα του. Παρακάτω παρουσιάζεται η διαχώριση δύο πιθανών αιτίων, που οδηγούν σε υψηλή κεντρικότητα των κόμβων και μας επιτρέπουν την χρήση τους ανάλογα με το δίκτυο στο οποίο εφαρμόζονται. Υψηλή κεντρικότητα ως αποτέλεσμα μεγάλου πλήθους εισερχόμενων ακμών, οι οποίες καθιστούν, με άμεσο τρόπο, σημαντικό τον κόμβο. Υψηλή κεντρικότητα ως αποτέλεσμα μεγάλου πλήθους εξερχόμενων ακμών σε άλλους σημαντικούς κόμβους, οι οποίες καθιστούν, με έμμεσο τρόπο, σημαντικό τον κόμβο. Ενώ γίνεται εύκολα αντιληπτός ο λόγος κατανομής υψηλής κεντρικότητας σύμφωνα με την πρώτη περίπτωση, στη δεύτερη περίπτωση η κατάσταση είναι λίγο δυσκολότερη. Τα δύο παρακάτω παραδείγματα συμβάλουν στην καλύτερη αποσαφηνοποίηση του φαινομένου. Αρχικά, θεωρούμε ένα δίκτυο παραπομπών,το οποίο αποτελείται και από κόμβους - άρθρα επισκόπησης. Άρθρα δηλαδή που προσπαθούν να συνοψίσουν και να αναλύσουν ένα θέμα, αναφερόμενα και σε αποτελέσματα προηγούμενων ερευνών. Ένα τέτοιου είδους άρθρο, μπορεί από μόνο του να μη δίνει σημαντικές πληροφορίες για το θέμα το οποίο αναλύει, αλλά να παραπέμπει σε άλλα σημαντικά συγγράμματα. Επιπλέον σε δίκτυα με ιστοσελίδες, μπορεί κάποια σελίδα να μην έχει σημαντικές πληροφορίες για ένα θέμα αλλά να οδηγεί μέσω συνδέσμων σε άλλες σελίδες, οι οποίες είναι αρκετά θεμελιώδεις στο δίκτυο. Mε όλα τα παραπάνω, είναι φανερό ότι σε κάποια συγκεκριμένα είδη δικτύων, υπάρχουν δύο είδη σημαντικών κόμβων: 61

63 Οι αυθεντίες: κόμβοι που περιέχουν χρήσιμες πληροφορίες για ένα θέμα που μας ενδιαφέρει. Οι ομφαλοί: κόμβοι που οδηγούν σε κόμβους αυθεντίες. Φυσικά, ένας κόμβος μπορεί ταυτόχρονα να είναι και ομφαλός και αυθεντία όταν πληροί συγχρόνως και τις δύο ιδιότητες. Επιπρόσθετα, σε μη κατευθυνόμενα δίκτυα δεν μπορεί να υπάρξει διαχώριση μεταξύ εισερχόμενων και εξερχόμενων ακμών και κατά συνέπεια δεν υφίστανται οι παραπάνω έννοιες. Έτσι λοιπόν, ο J. Kleinberg (1999) ανέπτυξε έναν αλγόριθμο με στόχο την ποσοτικοποίηση της σημαντικότητας κάθε κόμβου, με βάση τα δύο παραπάνω είδη που είδαμε παραπάνω. Ο αλγόριθμος αυτός ονομάστηκε HITS (hyperlink-induced topic search) και δίνει σε κάθε κόμβο μια κεντρικότητα αυθεντίας (authority centrality) και μια κεντρικότητα ομφαλού (hub centrality). Κύριο χαρακτηριστικό των κόμβων με υψηλή κεντρικότητα αυθεντίας είναι ότι έχουν πολλές εισερχόμενες ακμές από κόμβους ομφαλούς, ενώ οι κόμβοι με υψηλή κεντρικότητα ομφαλού διακρίνονται από την ύπαρξη πολλών εξερχόμενων ακμών προς κόμβους αυθεντίες. Σύμφωνα με τον Kleinberg η κεντρικότητα αυθεντίας ενός κόμβου είναι ανάλογη με το άθροισμα των κεντρικοτήτων ομφαλού των κόμβων από τους οποίους προέρχονται οι εισερχόμενες ακμές του. Η μαθηματική σχέση που δίνει την κεντρικότητα ομφαλού είναι η εξής : x A y (2.9.1) i ij j j α: σταθερά Ομοίως, η κεντρικότητα ομφαλού ενός κόμβου είναι ανάλογη με το άθροισμα των κεντρικοτήτων αυθεντίας των κόμβων, στους οποίους καταλήγουν οι εξερχόμενες ακμές του. Η μαθηματική σχέση που δίνει την κεντρικότητα ομφαλού είναι η εξής : 62

64 y A x (2.9.2) i ji j j β: σταθερά Σε μορφή πινάκων οι δύο εξισώσεις παίρνουν την παρακάτω μορφή: x aay (2.9.3) y x (2.9.4) Από τις σχέσεις (2.9.3) και (2.9.4) έχουμε ότι : o T AA y x (2.9.5) o y y (2.9.6) Όπου ( ) 1 Από τις σχέσεις (2.9.5) και (2.9.6) γίνεται εύκολα αντιληπτό ότι η κεντρικότητα αυθεντίας και η κεντρικότητα ομφαλού, δίνονται από τα ιδιοδιανύσματα των πινάκων και που αντιστοιχούν σε κοινή ιδιοτιμή. Όπως και σε προηγούμενα μέτρα έτσι και εδώ, επιλέγουμε το ιδιοδιάνυσμα που αντιστοιχεί στη μεγαλύτερη ιδιοτιμή. Επιπροσθέτως, είναι θέμα αλγεβρικών πράξεων να αποδειχθεί ότι η μεγαλύτερη ιδιοτιμή των παραπάνω πινάκων είναι κοινή. Πολλαπλασιάζοντας και τα δύο μέλη της σχέσης (2.9.5) με τον αντίστροφο του πίνακα γειτνίασης έχουμε : 63

65 T ( x) ( x) (2.9.7) Έτσι το x είναι ένα ιδιοδιάνυσμα του Συγκρίνοντας τις σχέσεις (2.9.6) και (2.9.7) έχουμε ότι : με την κοινή ιδιοτιμή λ. y x (2.9.8) H σχέση (2.9.8) επιτρέπει τον εύκολο υπολογισμό της κεντρικότητας ομφαλού σε περίπτωση που είναι γνωστή η κεντρικότητα αυθεντίας. Πρακτικά, ο αλγόριθμος του HITS εξαρτάται από το εκάστοτε ερώτημα αναζήτησης του χρήστη. Ειδικότερα, κάθε φορά που ο χρήστης πραγματοποιεί μια αναζήτηση, ο αλγόριθμος HITS δρα σε μια λίστα με τις πιο σχετικές σελίδες πάνω στο ερώτημα του. Η εξαγωγή αυτών των σελίδων πραγματοποιείται μέσω κάποιας μηχανής αναζήτησης. Ο καθορισμός αυτού του συνόλου (root set) βασίζεται σε έναν αλγόριθμο, ο οποίος επικεντρώνεται σε αναζήτηση κειμένου και αποτελεί το πρώτο βήμα του αλγορίθμου HITS. Εν συνεχεία, στο παραπάνω σύνολο προστίθενται όλες οι σελίδες στις οποίες συνδέονται οι αρχικές και μερικές σελίδες, οι οποίες συνδέονται στις αρχικές (base set). Με αυτόν τον τρόπο επιτυγχάνεται η δημιουργία ενός υπογραφήματος, πάνω στο οποίο εφαρμόζεται ο αλγόριθμος με τον ακόλουθο τρόπο. Αρχικά, κάθε κόμβος του υπογραφήματος έχει βαθμολογία ομφαλού και βαθμολογία αυθεντίας, ίσες με τη μονάδα. Στη συνέχεια εφαρμόζονται οι σχέσεις (2.9.1) και (2.9.2), όπου οι σταθερές είναι ίσες με τη μονάδα και κανονικοποιούμε τις τιμές διαιρώντας κάθε βαθμολογία ομφαλού με το άθροισμα των τετραγώνων όλων των υπολοίπων βαθμολογιών ομφαλού και αντίστοιχα τις βαθμολογίες αυθεντίας με το άθροισμα των τετραγώνων όλων των υπολοίπων βαθμολογιών αυθεντίας. Τέλος, απλά επαναλαμβάνουμε τη διαδικασία. Η κανονικοποίηση γίνεται για να αποφευχθούν αποκλίνουσες τιμές. Συμπερασματικά, ο αλγόριθμος HITS αποτελεί μια επέκταση της ιδιοδιανυσματικής κεντρικότητας και παράλληλα έναν πρόδρομο για τη βαθμική κεντρικότητα page. Το πλεονέκτημα του απέναντι στην ιδιοδιανυσματική 64

66 κεντρικότητα, είναι ότι αντιμετωπίζει το πρόβλημα ότι κορυφές που δεν ανήκουν σε ένα ισχυρά συνδεδεμένο παράγοντα ή στον εξωτερικό παράγοντα του, μπορούν πλέον να έχουν μη μηδενική κεντρικότητα. Το γεγονός αυτό οφείλεται στις δυο βαθμολογίες που προσφέρει ο αλγόριθμος HITS. Έτσι ενώ η κεντρικότητα ομφαλού μπορεί να είναι ίση με μηδέν σε κάποιες περιπτώσεις, είναι πιθανό να έχουμε μη μηδενική κεντρικότητα αυθεντίας, και το αντίστροφο. Η εφαρμογή του αλγορίθμου HITS κινείται στο ίδιο πνεύμα με τη βαθμική κεντρικότητα page, έχοντας όμως κάποιες διαφορές. Βασικός στόχος και των δύο αλγορίθμων είναι κατά κύριο λόγο, σε ένα δίκτυο ιστοσελίδων να αποφασίσουν για τη σημαντικότητα τους με γνώμονα τη δομή των συνδέσεων. H βασικότερη διαφορά των δύο μέτρων είναι ότι ο αλγόριθμος HITS, σε αντίθεση με τη βαθμική κεντρικότητα page, εξαρτάται από το ερώτημα αναζήτησης. Ως συνέπεια αυτού του γεγονότος, ο χρόνος υπολογισιμότητας του αλγορίθμου HITS είναι σχετικά μεγάλος. Αν αναλογιστούμε και ότι ο αλγόριθμος αυτός χρησιμοποιεί μια παραδοσιακή μηχανή αναζήτησης, εύκολα γίνεται αντιληπτό ότι για τις σημερινές μηχανές αναζήτησης που έχουν να αντιμετωπίσουν δεκάδες εκατομμύρια αναζητήσεις καθημερινά, η εφαρμογή του είναι σχεδόν ανέφικτη (χρησιμοποιείται στο Ask.com). Τέλος, άλλη μία σημαντική διαφορά των δύο μέτρων είναι ότι ο αλγόριθμος HITS ασχολείται μόνο με ένα υπογράφημα του δικτύου ενώ η βαθμική κεντρικότητα page με ολόκληρο το δίκτυο Κεντρικότητα πληροφορίας (Information centrality) Το επόμενο μέτρο επικεντρώνεται στην αποτελεσματική διάδοση πληροφοριών στο δίκτυο, όπως είδαμε και στις περιπτώσεις της κεντρικότητας εγγύτητας, αλλά και της κεντρικότητας ενδιαμεσότητας. H δημιουργία του μέτρου βασίζεται στον τρόπο διάδοσης των πληροφοριών μέσα σε ένα συνήθως κοινωνικό δίκτυο. Θεωρούμε ότι οι πληροφορίες διακινούνται παράλληλα στο κοινωνικό δίκτυο, με την έννοια ότι όλοι οι κόμβοι ανταλλάζουν πακέτα πληροφοριών ταυτόχρονα. Με αυτόν τον τρόπο, η κεντρικότητα ενός κόμβου καθορίζεται από το πόσο μεγάλη είναι η συμβολή του στη διάδοση πληροφοριών σε όλο το δίκτυο. 65

67 Ένας τρόπος να ελέγξουμε τη σημαντικότητα των κόμβων κινούμενοι στην παραπάνω κατεύθυνση, είναι να εξετάσουμε τη συμπεριφορά του δικτύου έπειτα από την απομάκρυνση του εκάστοτε εξεταζόμενου κόμβου. Ειδικότερα, αρχικά θα εξετάσουμε την ικανότητα μετάδοσης πληροφοριών του δικτύου, αποτελούμενο από όλους τους κόμβους και στη συνέχεια θα επαναλάβουμε την ίδια διαδικασία απενεργοποιώντας ουσιαστικά κάθε φορά έναν κόμβο, με στόχο τον υπολογισμό της συνεισφοράς του στο δίκτυο. Για την εκτίμηση της αποτελεσματικότητας των κόμβων του δικτύου στη διακίνηση πληροφοριών θα χρησιμοποιήσουμε την αποτελεσματικότητα δικτύου E. Όπως ορίσαμε και στην κεντρικότητα εγγύτητας έτσι και εδώ, η αποτελεσματική επικοινωνία μεταξύ των κόμβων i και j είναι αντιστρόφως ανάλογη της μικρότερης απόστασης μεταξύ των δύο κόμβων. Έτσι, θα έχουμε αθροιστικά 1 1 ( 1) i (2.10.1) j G dij N : το πλήθος κορυφών του δικτύου d ij : Η απόσταση των δύο κόμβων Η αποτελεσματικότητα του δικτύου μετράει το μέσο ρυθμό ροής των πληροφοριών στο δίκτυο. Είναι επίσης καλά ορισμένη, καθώς στην περίπτωση δύο κόμβων που δεν επικοινωνούν, η απόστασή τους θα είναι ίση με άπειρο και κατά συνέπεια το αντίστροφό της θα μηδενίζει. Για μη κατευθυνόμενα δίκτυα το εύρος της αποτελεσματικότητας είναι [0,1]. Ας γυρίσουμε τώρα στον αρχικό μας σχεδιασμό, δημιουργώντας ένα μέτρο κεντρικότητας που βασίζεται στη συμβολή του κόμβου στη ροή των πληροφοριών. Το μέτρο αυτό ονομάζεται κεντρικότητα πληροφορίας και ορίζεται ως εξής : 66

68 C l i ' (G) EG ( i ) EG ( ) (2.10.2) E (G) : Η αποτελεσματικότητα του δικτύου G ' G i : Το γράφημα που δημιουργείται από την αφαίρεση όλων των ακμών που συνδέουν τον κόμβο i με τους γειτονικούς του κόμβους Στο καινούριο γράφημα που δημιουργείται από την αφαίρεση των συνδετικών ακμών του κόμβου με τους γείτονες του, επηρεάζεται η επικοινωνία μεταξύ πολλών κόμβων του δικτύου. Έχοντας ως γνώμονα ότι οι πληροφορίες ακολουθούν πάντα το συντομότερο μονοπάτι για τη διάδοση τους, η έλλειψη κάποιων ακμών μπορεί να δημιουργήσει κενά σε αυτά τα μονοπάτια και να αναγκάσει τις πληροφορίες να αλλάξουν μονοπάτι. Ως επέκταση αυτής της αλλαγής, δύναται να προκύψει αύξηση του μήκους του μικρότερου μονοπατιού που συνδέει κάποια από τα ζεύγη των ακμών και ως περαιτέρω συνέπεια να ελαττωθεί η αποτελεσματικότητα του δικτύου. Εκεί είναι που αποσκοπεί η κεντρικότητα πληροφορίας. Στην περίπτωση όπου ένας κόμβος ανήκει πάνω σε μεγάλο πλήθος μονοπατιών ελαχίστου μήκους που συνδέουν κόμβους, με την απομάκρυνσή του από το δίκτυο δημιουργείται η τάση να ελαττωθεί η αποτελεσματικότητα του καινούριου δικτύου και να του προσδοθεί μια μεγάλη κεντρικότητα πληροφορίας. Σε αντίθετη περίπτωση, όταν η απομάκρυνση ενός κόμβου δεν επηρεάσει σε σημαντικό βαθμό την αποτελεσματικότητα του νέου δικτύου τότε ο κόμβος θα αποκομίσει μικρή κεντρικότητα πληροφορίας. 67

69 2.11 Κεντρικότητα πυρηνοποίησης (coreness centrality) Για την προσέγγιση του επόμενου μέτρου κεντρικότητας, πρέπει αρχικά εκ των ουκ άνευ να γίνει μια αναφορά σε μια συγκεκριμένη κατηγοριοποίηση των κόμβων του δικτύου. Η κατηγοριοποίηση αυτή αφορά στη δημιουργία υπογραφημάτων, με βάση είτε το βαθμό (αν πρόκειται για μη κατευθυνόμενα δίκτυα) είτε για εσωτερικό ή εξωτερικό βαθμό (αν πρόκειται για κατευθυνόμενα δίκτυα) της κάθε κορυφής στο υπογράφημα ή κάποια άλλα χαρακτηριστικά όπως θα δούμε παρακάτω, με σκοπό τη δημιουργία ομάδων. Αναφερόμαστε δηλαδή σε μέτρα συνεκτικότητας. Πολλά δίκτυα, συμπεριλαμβανομένων και των κοινωνικών δικτύων, είναι αναγκαίο να τα χωρίσουμε σε ομάδες ή κοινότητες. Για παράδειγμα, ένα κοινωνικό δίκτυο αποτελούμενο από ανθρώπους δύναται να το χωρίσουμε σε ομάδες φίλων, συνεργατών ή επιχειρηματικών συνεταίρων. Επιπρόσθετα το δίκτυο παγκόσμιου ιστού χωρίζεται σε ομάδες, σχετικών μεταξύ τους, ιστοσελίδων, όπως επίσης και τα βιοχημικά δίκτυα χωρίζονται σε λειτουργικές ομάδες. Για όλους τους παραπάνω λόγους και επιπλέον για τη μελέτη ιδιοτήτων μεγάλων πραγματικών δικτύων (βιωσιμότητα, συνδεσιμότητα, κεντρικότητα κ.α), την αποτελεσματική επίλυση δύσκολων NP-προβλημάτων (non-deterministic polynomial-time hard) (εύρεση μέγιστης κλίκας, προσέγγιση του πυκνότερου υπογραφήματος κ.α), αλλά και την οπτικοποίηση δικτύων μεγάλης κλίμακας, η ομαδοποίηση των κόμβων του δικτύου σε υπογραφήματα καθίσταται απαραίτητη. Ας θεωρήσουμε αρχικά ότι μας ενδιαφέρει η δημιουργία ενός υπογραφήματος, μέσα στο οποίο όλοι οι κόμβοι συνδέονται μεταξύ τους. Ένα τέτοιο υπογράφημα ονομάζεται κλίκα (clique). Εάν επιπλέον έχει την ιδιότητα να είναι και μέγιστο, δηλαδή να μην υπάρχει άλλο μεγαλύτερο υπογράφημα που να αποτελεί κλίκα και η δημιουργία του να οφείλεται στην προσθήκη κόμβων στους ήδη υπάρχοντες, ονομάζεται μέγιστη κλίκα. Oι κλίκες με τη σειρά τους, αποτελούν χρήσιμο εργαλείο σε διάφορα είδη δικτύων. Η εμφάνιση μιας κλίκας, σε ένα κατά τα άλλα αραιό δίκτυο, αποτελεί συνήθως ένδειξη μιας εξαιρετικά συνεκτικής υποομάδας. Σε ένα κοινωνικό δίκτυο, για παράδειγμα, η παρουσία μιας κλίκας μεταφράζεται στην ύπαρξη μιας ομάδας ατόμων που γνωρίζονται όλα μεταξύ τους. Αυτό αποτελεί έναν οιωνό, ότι πιθανόν να πρόκειται 68

70 για μια ομάδα συνεργατών ή συμμαθητών. Σε ένα δίκτυο βιοπληροφορικής οι κλίκες βρίσκουν εφαρμογή στη μοντελοποίηση του προβλήματος ομαδοποίησης των δεδομένων της γονιδιακής έκφρασης, όπως η εύρεση του ελαχίστου αριθμού αλλαγών, που απαιτούνται για το μετασχηματισμό ενός γραφήματος το οποίο περιγράφει τα δεδομένα σε ένα γράφημα που σχηματίζεται από ξένες ενώσεις κλικών (Βen-Dor et al., 1999). Επιπλέον, σε μια προσπάθεια εύρεσης κλικών σε ένα δίκτυο αλληλεπίδρασης μεταξύ πρωτεϊνών, βρέθηκαν συμπλέγματα πρωτεϊνών που αλληλοεπιδρούν στενά μεταξύ τους ενώ έχουν αρκετά λιγότερες αλληλοεπιδράσεις με πρωτεΐνες εκτός του συμπλέγματος (Spirin et al., 2003). Στη χημεία οι κλίκες χρησιμοποιήθηκαν για την περιγραφή χημικών ουσιών σε μια χημική βάση δεδομένων οι οποίες έχουν υψηλό βαθμό ομοιότητας με μία επιθυμητή δομή (Rhodes et al., 2003), ενώ στους ηλεκτρολόγους μηχανικούς χρησίμευσαν στην ανάλυση δικτύων επικοινωνίας ( Prihar, 1956) Από όλα τα παραπάνω, εύκολα γίνεται αντιληπτό ότι η ύπαρξη ενός αλγορίθμου εύρεσης των κλικών ενός δικτύου, θα αποτελέσει ένα χρήσιμο εργαλείο για την ανάλυση πολλών ειδών δικτύου. Ένα ακόμη θεμελιώδες ερώτημα είναι ο χρόνος υπολογισιμότητας ενός τέτοιου αλγορίθμου. Πολλοί αλγόριθμοι έχουν δημιουργηθεί για αυτό το σκοπό. Στις περισσότερες δε των περιπτώσεων, αντικείμενο αναζήτησης αποτελεί η συλλογή των μέγιστων κλικών. Δυστυχώς όμως, το πρόβλημα εύρεσης της μέγιστης κλίκας σε ένα δίκτυο αποτελεί ένα NP-πλήρες πρόβλημα. Ένα ΝP-πλήρες πρόβλημα είναι ένα πρόβλημα που είναι NP-δύσκολο και παράλληλα είναι και το ίδιο ΝP. Πιο συγκεκριμένα, ένα ΝP-δύσκολο πρόβλημα είναι ένα πρόβλημα για το οποίο, σε ένα πρόβλημα που ανήκει στα ΝP-προβλήματα, μπορεί να εφαρμόσει μια πολυωνυμική αναγωγή, που το αναγάγει στο πρόβλημα μας. Επομένως σε γενική μορφή, η εύρεση των κλικών ενός δικτύου γίνεται σε εκθετικό χρόνο, αν και υπάρχουν ειδικές περιπτώσεις δικτύων, στα οποία κάτω από προϋποθέσεις η εύρεση τους πραγματοποιείται σε πολυωνυμικό χρόνο. Οι κλίκες, παρά τη χρησιμότητά τους, αναφέρονται αδιαμφισβήτητα σε μια πολύ συγκεκριμένη κατηγορία υπογραφημάτων, με την έννοια ότι πρέπει όλοι οι κόμβοι να είναι άμεσα προσβάσιμοι μεταξύ τους. Σε περίπτωση που θέλουμε να κάνουμε το μέτρο λίγο πιο ευέλικτο και να ομαλοποιήσουμε τις ισχυρές υποθέσεις των κλικών, η χρήση των k -κλικών, των k -ομάδων και των k -πλεγμάτων, φαντάζει ως ιδανική λύση. 69

71 Μία k -κλίκα ( k -clique) είναι ένα υπογράφημα, όπου η απόσταση δύο οποιονδήποτε κόμβων δεν είναι μεγαλύτερη από k. Δηλαδή: d( u, v) k u, v S (2.11.1) d( u, v ) : Η απόσταση των κορυφών u και v S : Το σύνολο κορυφών του υπογραφήματος Με άλλα λόγια, το k αντιστοιχεί στο μήκος του μεγίστου μονοπατιού, μεταξύ όλων των ζευγών των κόμβων του υπογραφήματος. Η 1-κλίκα ταυτίζεται με τον ορισμό της κλίκας, καθώς η μέγιστη επιθυμητή απόσταση γίνεται πλέον ένα και είναι σαφές ότι αναζητούμε ένα πλήρες υπογράφημα. Στις k - κλίκες οι αυστηροί περιορισμοί της κλίκας εξασθενούν, στρέφοντας το ενδιαφέρον μας στο μικρότερο μονοπάτι που ενώνει ένα ζεύγος κόμβων και όχι στην άμεση επικοινωνία τους. Ωστόσο, σε ορισμένες περιπτώσεις θα ήταν φρονιμότερο να αναζητήσουμε ένα υπογράφημα με βάση τη μέγιστη απόσταση δύο κόμβων. Αυτό πραγματοποιείται, μέσω των k -ομάδων του δικτύου. Μία k -ομάδα ( k -group) είναι ένα υπογράφημα, η διάμετρος του οποίου δεν είναι μεγαλύτερη από k. Δηλαδή, αν G (V, E) είναι το αρχικό γράφημα και GS ( ) (S,E (S S)), S V το «φέρον» υπογράφημα του, τότε το υπογράφημα αυτό θα αποτελεί μία k -ομάδα εάν diam( G[ S]) k. Πρόκειται επομένως για ένα υπογράφημα, μέσα στο οποίο η μέγιστη απόσταση δύο κόμβων είναι μικρότερη ή ίση από δοθείσα παράμετρο. Από τους ορισμούς της k -κλίκας και της k -ομάδας, γίνεται εύκολα αντιληπτό ότι αν ένα υπογράφημα αποτελεί μια k -κλίκα τότε υποχρεωτικά θα αποτελεί και μια k -ομάδα. Ωστόσο το αντίστροφο δεν ισχύει. Πέραν αυτού, μία k -ομάδα έχει και κάποιου είδους μειονεκτήματα αναφορικά με τη συνεκτικότητα του υπογραφήματος. Τα αδύναμα αυτά σημεία του προαναφερθέντος είδους υποομάδας αναφαίνονται εύκολα στο παράδειγμα του αστεροειδούς γραφήματος, όπου ο κεντρικός κόμβος συνδέεται με όλους τους κόμβους του δικτύου. Ένα τέτοιο υπογράφημα έχει διάμετρο 70

72 2, καθώς όλοι οι κόμβοι μπορούν να επικοινωνήσουν μεταξύ τους με την παρέμβαση το πολύ ενός (κεντρικού) κόμβου. Το γεγονός αυτό καθιστά το αστεροειδές γράφημα 2-ομάδα. Στην πραγματικότητα όμως, οι κόμβοι που συνδέονται με τον κεντρικό, δεν συνδέονται άμεσα μεταξύ τους. Ενώ λοιπόν υπάρχει εξασφαλισμένη προσβασιμότητα, μπορεί να υπάρχει έλλειψη συνεκτικότητας, με την έννοια των χαμηλών βαθμών των κόμβων και της μικρής συνδεσιμότητας του υπογραφήματος. Ένας τρόπος αντιμετώπισης αυτού του προβλήματος, είναι η χρήση των k -πλεγμάτων. Ένα k -πλέγμα ( k -plex) μεγέθους n είναι ένα μέγιστο υποσύνολο αποτελούμενο από n κορυφές του δικτύου, έτσι ώστε κάθε κορυφή να συνδέεται με τουλάχιστον n-k άλλες κορυφές. Στην περίπτωση όπου k 1, ξαναγυρίζουμε στον ορισμό της κλίκας. Όμοια με τις κλίκες τα k-πλέγματα είναι πιθανόν να επικαλύπτονται μεταξύ τους, δηλαδή δύο πλέγματα μπορούν να μοιράζονται έναν ή περισσότερους κόμβους. Τα k -πλέγματα βρίσκουν εφαρμογές κυρίως σε κοινωνικά δίκτυα. Σε κοινωνικά δίκτυα ενδέχεται να αποτελεί αντικείμενο έρευνας μια ομάδα ατόμων που δεν γνωρίζονται απαραίτητα όλοι μεταξύ τους. Αρκεί κάθε άτομο να γνωρίζει τουλάχιστον ένα συγκεκριμένο αριθμό άλλων ατόμων. Αυτός ακριβώς είναι ο στόχος του k -πλέγματος, όπου με την κατάλληλη επιλογή της παραμέτρου k ουσιαστικά καθορίζουμε την ομάδα που θέλουμε να εξετάσουμε. Για την επιλογή του k δεν υπάρχει κάποιος πάγιος κανόνας. Πειραματικά, ενδείκνυται να ξεκινάμε από μικρές τιμές και να προχωράμε σε αύξουσες. H απόδοση μικρών τιμών στο k, τείνει να γίνει σημαντική σε μικρότερες ομάδες, ενώ αντίθετα, σε μεγάλες ομάδες η χρήση μικρών τιμών του k επιβάλλει ένα είδος αυστηρού περιορισμού και για αυτόν το λόγο προτιμώνται μεγαλύτερες τιμές. Για το χρόνο υπολογισιμότητας των μέγιστων k-πλεγμάτων, ισχύει ότι ακριβώς και στην περίπτωση των μέγιστων κλικών (άλλωστε οι κλίκες αποτελούν υποπερίπτωση τους). Ο υπολογισμός δηλαδή των μέγιστων k-πλεγμάτων έχει αποδειχθεί ότι αποτελεί NP-πλήρες πρόβλημα για κάθε σταθερό, θετικό ακέραιο k. Ένα άλλο είδος υπογραφήματος, παρόμοιο με το k -πλέγμα, που σχετίζεται ομοίως με το βαθμό των κόμβων είναι οι k -πυρήνες ( k -cores). Ένας k -πυρήνας είναι ένα μέγιστο υποσύνολο κόμβων, τέτοιο ώστε κάθε ένας να συνδέεται με τουλάχιστον άλλους k κόμβους στο υποσύνολο. Δηλαδή, αν G το αρχικό γράφημα, ένα υπογράφημα και ( ) είναι ο μικρότερος βαθμός των κόμβων του υπογραφήματος, 71

73 τότε θα λέμε ότι το υπογράφημα H είναι ένας k -πυρήνας εάν είναι ένα μέγιστο υπογράφημα και παράλληλα ισχύει ( ) k. Είναι φανερό ότι ένας k - πυρήνας αποτελούμενος από n κόμβους, είναι επίσης ένα ( n - k )-πλέγμα, καθώς στο πλέγμα κάθε κόμβος θα συνδέεται με τουλάχιστον n (n k) k κόμβους. Μια σημαντική όμως διαφορά τους, είναι ότι οι k -πυρήνες,σε αντίθεση με τα k -πλέγματα και τις κλίκες, δεν επικαλύπτονται. Αυτή η διαφορά οφείλεται στο ότι αν δύο k -πυρήνες μοιράζονται έναν ή περισσότερους κόμβους, θα σχηματίσουν έναν μεγαλύτερο k -πυρήνα και επομένως αποκλείεται η περίπτωση επικάλυψης. O S.B Seidman (1983) ήταν ο πρώτος που ασχολήθηκε με τους k -πυρήνες. Αρχικά, ξεκαθάρισε ότι οι k -πυρήνες συνδράμουν στην ανίχνευση πυκνών συνόλων του γραφήματος και όχι απαραίτητα των ισχυρά συνεκτικών υποσυνόλων. Η πυκνότητα του υπογραφήματος είναι ο λόγος του πλήθους των συνδέσεων προς όλες τις δυνατές συνδέσεις που πραγματοποιούνται μέσα σε αυτό. Ουσιαστικά ο Seidman προσπάθησε να συνδυάσει την πυκνότητα με τα πλεονεκτήματα ενός συνεκτικού (όχι κατά ανάγκη σε μεγάλο βαθμό) υποσυνόλου. Με αυτόν τον τρόπο, ένας k - πυρήνας προβάλλεται ως ένα μέτρο που περικλείει συνεκτικά υποσύνολα καθώς και τους κόμβους γύρω από αυτά. H επιλογή της παραμέτρου k σχετίζεται σε κάποιο βαθμό με την συνεκτικότητα του υπογραφήματος. Ο Seidman επεδίωξε να δώσει στην έννοια της συνοχής ενός υπογραφήματος τρείς διαστάσεις. Η πρώτη προσεγγίζει τη συνεκτικότητα με την συνδετικότητα (ελάχιστος αριθμός κόμβων που πρέπει να αφαιρεθούν για τη δημιουργία μη συνδετικού γραφήματος),η δεύτερη με τη διάμετρο του υπογραφήματος και η τρίτη με την ύπαρξη κλικών μέσα στο υπογράφημα. Δουλεύοντας πάνω στις τρείς αυτές περιπτώσεις απέδειξε ότι με οποιονδήποτε από τους παραπάνω τρόπους και αν θεωρηθεί η συνεκτικότητα, τείνει να γίνει μεγαλύτερη για μεγάλες τιμές της παραμέτρου k. Για μικρές τιμές του k, οι k -πυρήνες τείνουν να μεγαλώσουν και κατά συνέπεια να μειωθεί η συνεκτικότητα του υπογραφήματος. Έτσι, σε περίπτωση που ενδιαφερόμαστε για τη μελέτη συνεκτικών υποσυνόλων συνιστάται η επιλογή μεγάλων τιμών της παραμέτρου k. Για την πολυπλοκότητα ενός αλγορίθμου εύρεσης των k -πυρήνων ενός δικτύου, τα πράγματα είναι απλούστερα σε σχέση με τις άλλες περιπτώσεις. Υπάρχει αναδρομικός αλγόριθμος που καταφέρνει σε πολυωνυμικό χρόνο να υπολογίσει τους 72

74 k -πυρήνες του δικτύου (Batagelj V. & Zaversnik M.,2002). Πιο συγκεκριμένα, σε ένα δίκτυο με n κορυφές και m ακμές, ο χρόνος υπολογισιμότητας είναι O(max(m, n)). Όταν μάλιστα αναφερόμαστε σε συνδετικό δίκτυο, όπου ισχύει η σχέση mn 1, τότε ο χρόνος υπολογισιμότητας γίνεται Om ( ). Μέχρι στιγμής, έγινε αναφορά στη χρησιμότητα των υποομάδων συνεκτικότητας που προκύπτουν στα δίκτυα. Ας δούμε τώρα τι συμβαίνει με τους κόμβους που ανήκουν σε τέτοιου είδους υποομάδες και συγκεκριμένα σε k -πυρήνες. Ένας κόμβος που ανήκει σε έναν k -πυρήνα, θα συνδέεται τουλάχιστον με άλλους k κόμβους μέσα στο υπογράφημα. Για παράδειγμα, σε ένα κοινωνικό δίκτυο για να εισέλθει κάποιο μέλος στην ομάδα, αρκεί να γνωρίζει τουλάχιστον άλλα k μέλη της ομάδας. Είναι προφανές ότι ένας κόμβος ο οποίος ανήκει σε έναν k -πυρήνα, μπορεί να ανήκει και σε μικρότερους πυρήνες. Παρατηρώντας όμως τους πυρήνες από τη σκοπιά της κεντρικότητας, ένας κόμβος θεωρείται κεντρικότερος όταν ανήκει σε υποομάδα με μεγαλύτερη συνοχή. Δηλαδή, αξίζει να επικεντρωθούμε σε συνεκτικές υποομάδες, οι οποίες όπως είδαμε παραπάνω αντιστοιχούν σε μεγάλες τιμές τις παραμέτρου k. Έτσι δίνουμε μεγαλύτερη βαρύτητα στο μεγαλύτερο πυρήνα που ανήκει ο κάθε κόμβος. Η τιμή της παραμέτρου k που αντιστοιχεί στο μεγαλύτερο πυρήνα που ανήκει ο κάθε κόμβος ονομάζεται πυρηνοποίηση(coreness). Επομένως, ένας κόμβος με πυρηνοποίηση ίση με c θα ανήκει σε c -πυρήνα, δεν θα μπορεί όμως να ανήκει σε ( c 1) -πυρήνα. Μια ενδιαφέρουσα προσέγγιση των k -πυρήνων σε κοινωνικά δίκτυα, μπορεί να επιτευχθεί με ένα μοντέλο εμπλοκής των χρηστών, όπου κάθε χρήστης ζημιώνεται με ένα κόστος για να παραμείνει εμπλεκόμενος στο δίκτυο αλλά παράλληλα αποκομίζει ένα κέρδος ανάλογο με το πλήθος των φίλων του που βρίσκονται στο δίκτυο. Ο όρος εμπλοκή μπορεί να ερμηνευτεί ως η συνεισφορά σε ένα δημόσιο αγαθό (όπως το περιεχόμενο δικτύου), η εγγραφή σε ένα καινούριο χαρακτηριστικό του κοινωνικού δικτύου, η προτίμηση μιας τεχνολογίας από μια άλλη και ούτω καθεξής. Μία σημαντική ιδιότητα των κοινωνικών δικτύων είναι ότι η συμπεριφορά ενός χρήστη επηρεάζεται από τη συμπεριφορά των φίλων του. Ειδικότερα, παρατηρείται μια τάση του χρήστη να ακολουθήσει τη συμπεριφορά των φίλων του στο δίκτυο. Ολοένα και περισσότερες εμπειρικές μελέτες δείχνουν ότι η επίδραση αυτών των αλληλεπιδράσεων μέσα στο δίκτυο, έχει αντίκτυπο και στη συμπεριφορά των χρηστών εκτός του δικτύου. Έτσι, εύλογα προκύπτει η επιθυμία σχεδίασης ή τροποποίησης ενός 73

75 κοινωνικού δικτύου που να μεγιστοποιεί τη συμμετοχή και την εμπλοκή όλων των χρηστών. Ας θεωρήσουμε το σενάριο όπου κάθε χρήστης στο κοινωνικό δίκτυο έχει δύο πιθανές στρατηγικές, ή να εμπλακεί σε αυτό ή να το απορρίψει. Θεωρούμε επίσης, ότι αρχικά όλοι οι χρήστες-κόμβοι του δικτύου είναι εμπλεκόμενοι και επιπλέον για μια παράμετρο k ένας κόμβος παραμένει εμπλεκόμενος αν και μόνο αν τουλάχιστον k φίλοι του είναι εμπλεκόμενοι. Για παράδειγμα, η εμπλοκή μπορεί να σημαίνει ενεργή συμμετοχή στο κοινωνικό δίκτυο, η οποία αξίζει να πραγματοποιηθεί από έναν χρήστη αν και μόνο αν υπάρχουν τουλάχιστον k φίλοι του που συμμετέχουν ενεργά στο δίκτυο. H απόρριψη μπορεί να αντιπροσωπεύει την εγκατάλειψη ενός προϊόντος για κάποιο άλλο νεοαφιχθέν και ανταγωνιστικό προς αυτό προϊόν, όταν το πλήθος των φίλων ενός χρήστη που χρησιμοποιούν το παλιό προϊόν πέσει κάτω από k. Με την παραπάνω επαναληπτική διαδικασία δημιουργούμε τους k -πυρήνες, απορρίπτοντας κάθε φορά τους χρήστες που έχουν λιγότερους από k φίλους. Τέλος, οι k -πυρήνες μπορούν να ερμηνευθούν μέσω μίας παιγνιοθεωρητικής μοντελοποίησης. Έστω ότι κάθε κόμβος ενός κοινωνικού δικτύου G (V, E) αποφασίζει αν πρέπει να παραμείνει εμπλεκόμενος στην κοινωνική δραστηριότητα. Υποθέτουμε επίσης, ότι κάθε κόμβος u του δικτύου υφίσταται ένα (ακέραιο) κόστος k για την προσπάθεια που καταβάλει, ώστε να μείνει εμπλεκόμενος σε αυτή τη δραστηριότητα. Επιπρόσθετα, ο κόμβος u λαμβάνει κέρδος μίας μονάδας για κάθε γειτονικό κόμβο w που είναι εμπλεκόμενος. Αυτή η διαδικασία αντικατοπτρίζει την ιδέα ότι το κέρδος από τη συμμετοχή ενός χρήστη στη δραστηριότητα προέρχεται από την αλληλεπίδραση του με τους φίλους του στο κοινωνικό δίκτυο. Αν όλοι οι κόμβοι λαμβάνουν την απόφαση τους ταυτόχρονα, μπορούμε να μοντελοποιήσουμε τη διαδικασία ως ένα παίγνιο ταυτόχρονης κίνησης (simultaneous-move game), ένα παιχνίδι δηλαδή όπου ο κάθε παίχτης επιλέγει την στρατηγική του ταυτόχρονα με τους υπόλοιπους παίχτες, χωρίς όμως να ξέρει τις στρατηγικές τις οποίες θα ακολουθήσουν οι άλλοι. Κάθε κόμβος τώρα παριστάνει έναν παίχτη και οι πιθανές στρατηγικές που έχει να επιλέξει είναι είτε να εμπλακεί στην κοινωνική δραστηριότητα είτε να την απορρίψει. Για μια επιλογή στρατηγικών από τον κάθε παίχτη, έστω ότι το S είναι το σύνολο των παιχτών που διαλέγουν να μείνουν εμπλεκόμενοι στο δίκτυο. Η τελική τιμή που αντιστοιχεί σε έναν κόμβο είναι 0 αν ο κόμβος απορρίψει την κοινωνική 74

76 δραστηριότητα, ενώ αν εμπλακεί σε αυτή είναι η διαφορά του βαθμού του στο υπογράφημα GS ( ) από το κόστος k, με το οποίο έχει επιβαρυνθεί. Πολλές φορές στη θεωρία παιγνίων ενδιαφερόμαστε για μια πιθανή λύση, η οποία προκύπτει από την υιοθέτηση της καλύτερης απόκρισης-στρατηγικής κάθε παίχτη στη στρατηγική των άλλων παιχτών. Δηλαδή, μια λύση όπου ο κάθε παίχτης δεν έχει κίνητρο να αποκλίνει από την επιλεγείσα στρατηγική του, αφού λάβει υπόψη τις στρατηγικές των άλλων παιχτών, γιατί δεν θα μπορεί να αποκομίσει περισσότερο όφελος. Μία τέτοια λύση ονομάζεται ισορροπία του Νας. Στην περίπτωση μας οι στρατηγικές θα αποτελούν ισορροπία του Νας, αν και μόνο αν το υπογράφημα GS ( ) έχει ελάχιστο βαθμό k (έτσι ώστε κανένας εμπλεκόμενος παίχτης να μη θέλει να απορρίψει τη δραστηριότητα) και κανένας κόμβος από το σύνολο V S να μην έχει k ή περισσότερους γείτονες στο σύνολο S (έτσι ώστε να μην υπάρχει παίχτης που έχει απορρίψει τη δραστηριότητα και θέλει να επανεμπλακεί). Παρόλο που στη γενική περίπτωση μπορεί να υπάρχουν πολλές ισορροπίες, θα υπάρχει πάντα μια μέγιστη μοναδική ισορροπία *, με την έννοια ότι το S * θα περιέχει το S για όλες τις ισορροπίες. Αυτή η μέγιστη ισορροπία είναι πλέον φανερό ότι αντιστοιχεί στον k -πυρήνα του κοινωνικού δικτύου. Μέσω λοιπόν αυτής της παιγνιοθεωρητικής μοντελοποίησης καταφέραμε να δείξουμε ότι οι k -πυρήνες βρίσκουν μια ιδιαίτερη εφαρμογή στα κοινωνικά δίκτυα. Συνοψίζοντας, σε ένα κοινωνικό δίκτυο αν κάθε χρήστης λαμβάνει κάποιο κόστος k από την εμπλοκή του σε μια κοινωνική δραστηριότητα, ενώ δέχεται κέρδος ανάλογο με το πλήθος των εμπλεκόμενων φίλων του, τότε παίρνοντας τους k -πυρήνες του δικτύου επιτυγχάνουμε την ισορροπία και την βέλτιστη ευημερία όλων των χρηστών h-δείκτης (h-index) Στη συνέχεια θα γίνει αναφορά σε κάποια μέτρα που χρησιμοποιούνται κυρίως σε δίκτυα παραπομπών. Όπως αναφέρθηκε στο πρώτο κεφάλαιο, ένα δίκτυο παραπομπών έχεις ως κόμβους ακαδημαϊκές εργασίες. Οι ακμές μεταξύ των κόμβων 75

77 αντιστοιχούν στις αντίστοιχες παραπομπές από μία εργασία σε άλλες. Σε τέτοιου είδους δίκτυα είναι επιθυμητό να πραγματοποιηθεί μια κατάταξη μεταξύ των επιστημόνων, οι οποίοι είναι συγγραφείς των εργασιών. Αυτός είναι και ο σκοπός δημιουργίας του h- δείκτη. Ο h-δείκτης εισήχθη από τον φυσικό E. Hirsch (2005) με σκοπό την ποσοτικοποίηση των επιπτώσεων και της παραγωγικότητας των εργασιών ενός φυσικού ή γενικά ενός οποιουδήποτε επιστήμονα. Με άλλα λόγια, ο h-δείκτης προσπαθεί να κατατάξει τους επιστήμονες με βάση την ανταπόκριση των εργασιών τους από άλλους, μέσω των παραπομπών τους. Ο h-δείκτης ορίστηκε ως εξής : Ένας επιστήμονας έχει δείκτη h, εάν h από τις p συνολικές δημοσιεύσεις του, αναφέρονται τουλάχιστον σε h παραπομπές η κάθε μία, ενώ για κάθε μια από τις υπόλοιπες ( -h) δημοσιεύσεις δεν υπάρχουν παραπάνω από h παραπομπές. p Δηλαδή, όταν ένας επιστήμονας έχει δείκτη h, σημαίνει ότι υπάρχουν h δημοσιεύσεις του από τις οποίες η κάθε μία αναφέρεται σε τουλάχιστον h δημοσιεύσεις. Ουσιαστικά το μέτρο αυτό αποτελεί ένα συνδυασμό των απλών μέτρων του πλήθους των δημοσιεύσεων ενός επιστήμονα και του αριθμού των παραπομπών σε δημοσιεύσεις του. Είναι επίσης σημαντικό να τονιστεί ότι το μέτρο εφαρμόζεται μόνο για σύγκριση επιστημόνων στο ίδιο πεδίο, καθώς ο αριθμός των παραπομπών έχει μεγάλες αποκλίσεις σε διαφορετικά πεδία. Επιπλέον είναι απαγορευτική η χρήση του δείκτη για σύγκριση επιστημόνων που έζησαν σε διαφορετικές εποχές. Ένας νέος επιστήμονας είναι σε μειονεκτική θέση σε σύγκριση με ένα παλαιότερο, καθώς η κεντρικότητα του περιορίζεται από τις λίγες, λόγω ηλικίας, δημοσιεύσεις του. Άλλο ένα μειονέκτημα του δείκτη εντοπίζεται στην καταμέτρηση των παραπομπών με αρνητικό περιεχόμενο. Για παράδειγμα, μια δημοσίευση μπορεί να αναφέρεται σε μία άλλη με σκοπό την απόσυρση της. Παρά το γεγονός αυτό όμως, ο h-δείκτης του επιστήμονα τείνει να αυξηθεί. Για τον υπολογισμό του h-δείκτη μπορούν να χρησιμοποιηθούν βάσεις δεδομένων παραπομπών. Τέτοιες βάσεις δεδομένων όπως η Scopus και η Web of Knowledge παρέχουν αυτόματο υπολογισμό του h-δείκτη κάθε επιστήμονα. Επίσης υπάρχει μηχανή που υπολογίζει τον h-δείκτη μέσω των αποτελεσμάτων του google 76

78 scholar. Είναι λογικό ο υπολογισμός του h-δείκτη να διαφέρει σε περιπτώσεις που χρησιμοποιούμε διαφορετικές βάσεις δεδομένων. Mε στόχο τον περιορισμό των προαναφερθέντων μειονεκτημάτων, δημιουργήθηκαν πολλές τροποποιήσεις του h-δείκτη. Μια από τις σημαντικότερες είναι ο g-δείκτης(g-index). Ο g-δείκτης δημιουργήθηκε από τον L. Egghe (2006) και ορίζεται ως εξής : Δοθέντος ενός συνόλου δημοσιεύσεων που κατατάσσονται σε φθίνουσα σειρά με βάση των αριθμό των παραπομπών που έχουν λάβει, ο g-δείκτης είναι ο μεγαλύτερος αριθμός, τέτοιος ώστε οι κορυφαίες g δημοσιεύσεις να λαμβάνουν συνολικά τουλάχιστον 2 g παραπομπές. Ο παραπάνω ορισμός μπορεί να εκφραστεί με τον παρακάτω τύπο : 2 1 i i (2.12.1) ig g ig g c g c c i : Οι παραπομπές που λαμβάνει η i δημοσίευση Από τη σχέση (2.12.1) παρατηρούμε πως συνδέεται ο g-δείκτης με τον h- δείκτη. Το δεύτερο μέλος της ανισότητας αποτελεί το μέσο όρο παραπομπών ανά δημοσίευση, για τις πρώτες g δημοσιεύσεις. Τέλος αξίζει να αναφερθεί, ότι σχετικά με τον h-δείκτη ο g-δείκτης παρουσιάζει δύο σημαντικά πλεονεκτήματα : Λαμβάνει υπόψη το βάρος των παραπομπών που λαμβάνουν οι κορυφαίες δημοσιεύσεις του επιστήμονα Ο συνολικός αριθμός δημοσιεύσεων δεν περιορίζει το δείκτη 77

79 2.13 loby δείκτης (loby index) Ένα ακόμα μέτρο εμπνευσμένο από τον h-δείκτη είναι ο l-δείκτης (lobby index). Ο l-δείκτης ουσιαστικά είναι μια γενίκευση του h-δείκτη σε άλλα είδη δικτύων. Σε δίκτυα επικοινωνίας, σε κοινωνικά δίκτυα και σε βιολογικά δίκτυα η αποτελεσματική επικοινωνία μεταφράζεται ως επικοινωνία υψηλού αντίκτυπου από τους άλλους κόμβους και χαμηλού κόστους. Τα περισσότερα μέτρα κεντρικότητας ενδιαφέρονται για τη θέση του κόμβου, το ρόλο του στο δίκτυο ή την επιρροή που ασκεί στους υπόλοιπους κόμβους. Κανένα όμως από τα μέτρα που είδαμε δεν καταγράφει την αποτελεσματικότητα στην επικοινωνία του κόμβου. Το κενό αυτό θα το καλύψει ο l-δείκτης. Ο l-δείκτης ορίζεται ως εξής : Ο l-δείκτης ενός κόμβου i είναι ο μεγαλύτερος ακέραιος k, έτσι ώστε ο κόμβος i να έχει τουλάχιστον k γείτονες με βαθμό τουλάχιστον k. Η εφαρμογή του l-δείκτη, στηρίζεται στο γεγονός ότι άτομα που έχουν την ικανότητα να επηρεάσουν τις γνώμες πολλών άλλων, θα πρέπει να έχουν φίλους οι οποίοι με τη σειρά τους θα ασκούν επιρροή πολλούς άλλους. Παράλληλα μάλιστα θα πρέπει τα άτομα αυτά να διατηρούν χαμηλό τον αριθμό των δικών τους συνδέσεων, ώστε να μειώσουν το κόστος που αντιστοιχεί σε μία σύνδεση. Με αυτόν το συλλογισμό ο l-δείκτης φαντάζει ο καταλληλότερος για την κατανομή κεντρικότητας. Αποδεικνύεται τέλος (Korn et al., 2009) ότι σε δίκτυα ελεύθερα κλίμακας με εκθέτη a, ισχύει P( l( x) k) k aa ( 1) C-δείκτης (C-index) Ας δούμε τώρα ένα μέτρο κεντρικότητας που χρησιμοποιείται κατά κύριο λόγο σε σταθμισμένα μη κατευθυνόμενα δίκτυα συνεργασίας. Ένα δίκτυο συνεργασίας έχει 78

80 ως κόμβους άτομα ή εταιρίες και η ύπαρξη ακμής υποδηλώνει τη συνεργασία ανάμεσα τους. Τα βάρη των ακμών αντιστοιχούν στο πόσες φορές έχουν συνεργαστεί μεταξύ τους οι δύο συγκεκριμένες οντότητες. Στόχος μας είναι η εύρεση ενός μέτρου που αναδεικνύει την ικανότητα συνεργασίας του κάθε κόμβου. Σύμφωνα με τη λογική, όταν ένας κόμβος συνδέεται με πολλούς άλλους έχοντας μεγάλα βάρη στις ακμές του και μάλιστα οι γειτονικοί αυτοί κόμβοι έχουν εξέχουσα θέση στο δίκτυο, τότε η ικανότητα συνεργασίας του κόμβου τείνει να είναι μεγάλη. Δηλαδή, η ικανότητα συνεργασίας ενός κόμβου είναι ανάλογη του πλήθους των γειτόνων του, των βαρών των ακμών του και της σημασίας των γειτονικών του κόμβων. Ο C-δείκτης είναι ένας δείκτης συνεργασίας που συνδυάζει όλες τις παραπάνω ιδιότητες με την έννοια του h-δείκτη. Ο C-δείκτης ορίζεται ως εξής: Ο C-δείκτης ενός κόμβου i είναι ο μεγαλύτερος ακέραιος, τέτοιος ώστε ο κόμβος i να έχει τουλάχιστον C γείτονες που το γινόμενο της κεντρικότητας βαθμού τους επί το βάρος της εκάστοτε ακμής που τους ενώνει με τον κόμβο i, να μην είναι μικρότερο από C. ορισμού. Ας δούμε όμως ένα παράδειγμα, για την καλύτερη κατανόηση του πολύπλοκου Σχήμα : Παράδειγμα δικτύου Στο παραπάνω δίκτυο, θα υπολογίσουμε τον C-δείκτη του κόμβου C. Οι γειτονικοί κόμβοι του κόμβου C είναι οι A,B,D,E. Aς πάρουμε τώρα διαδοχικά τα γινόμενα της κεντρικότητας βαθμού κάθε γειτονικού κόμβου επί το βάρος της αντίστοιχης ακμής. Ο κόμβος Α έχει κεντρικότητα βαθμού ίση με 1 και το βάρος της 79

81 ακμής του με τον κόμβο C είναι 1, άρα το γινόμενο είναι 1. Όμοια, για τους υπόλοιπους κόμβους θα πάρουμε ότι τα αντίστοιχα γινόμενα είναι : 1,4,28,44. Βλέπουμε ότι υπάρχουν 3 γειτονικοί κόμβοι με γινόμενο όχι μικρότερο του 3, ενώ δεν υπάρχουν 4 γειτονικοί κόμβοι με γινόμενο όχι μικρότερο του 4. Άρα το 3 είναι ο μεγαλύτερος ακέραιος που ικανοποιεί τις συνθήκες που έχουμε και επομένως ο C-δείκτης του κόμβου C ισούται με 3. ΚΕΦΑΛΑΙΟ 3 Ο : ΕΦΑΡΜΟΓΗ ΤΩΝ ΜΕΤΡΩΝ ΚΕΝΤΡΙΚΟΤΗΤΑΣ ΣΕ ΠΑΡΑΔΕΙΓΜΑΤΑ ΔΙΚΤΥΩΝ 3.1 Παράδειγμα κοινωνικού δικτύου Αφού παρουσιάστηκαν αναλυτικά τα σημαντικότερα μέτρα κεντρικότητας των δικτύων, ας δούμε τώρα ένα παράδειγμα κοινωνικού δικτύου, στο οποίο θα εφαρμόσουμε τα παραπάνω μέτρα. Η αρχική σκέψη ήταν η δημιουργία ενός μέτρου που εξετάζει τις σχέσεις των χωρών της Ευρωπαϊκής Ένωσης και την επιρροή που ασκεί η κάθε χώρα στην άλλη. Η διαφοροποίηση μεταξύ των καθηκόντων όμοιων ηγετικών αξιωμάτων όλων των χωρών, απέτρεψε τη λήψη τους ως αντικείμενο εξέτασης, καθώς κάθε κόμβος-αξίωμα θα είχε διαφορετική βαρύτητα μέσα στη χώρα του. Για παράδειγμα, αν εξεταζόντουσαν οι σχέσεις των πρωθυπουργών, οι διαφορετικές αρμοδιότητες που αναλαμβάνουν οι πρωθυπουργοί της κάθε χώρας και η δύναμη τους πάνω σε διαφορετικά θέματα, θα αποτελούσαν τροχοπέδη στην προσπάθεια μας. Έτσι, το επόμενο βήμα ήταν η επιλογή μιας θέσης που αντιπροσωπεύει ισάξια κάθε χώρα και φανερώνει το βαθμό αλληλοσυσχέτισης με τις υπόλοιπες χώρες της Ευρωπαϊκής Ένωσης. Καταλληλότερη θέση για τον σκοπό αυτό, κρίθηκε ο υπουργός εξωτερικών της κάθε χώρας. 80

82 Στο εξεταζόμενο παράδειγμα, οι 26 κόμβοι του δικτύου αποτελούν τους λογαριασμούς στο Τwitter των υπουργών εξωτερικών (ή υπουργεία εξωτερικών) 25 χωρών της ευρωπαϊκής ένωσης και το λογαριασμό της ίδιας της ευρωπαϊκής ένωσης (τη χρονική στιγμή δημιουργίας του δικτύου δεν είχαν λογαριασμό στο Τwitter οι υπουργοί εξωτερικών της Ουγγαρίας, του Λουξεμβούργο και της Πορτογαλίας). Οι ακμές μεταξύ των κόμβων αντιστοιχούν στο αν ο υπουργός εξωτερικών μίας χώρας ακολουθεί (follow) τον υπουργό εξωτερικών κάποιας άλλης ή την Ευρωπαϊκή Ένωση. Φυσικά, στο Twitter όταν ένας χρήστης ακολουθεί έναν άλλον, δε συνεπάγεται αυτόματα ότι θα ισχύει και η αντίστροφη σχέση. Από το γεγονός αυτό προκύπτει το συμπέρασμα ότι το δίκτυο που θα δημιουργήσουμε πρέπει να είναι κατευθυνόμενο. Για το συγκεκριμένο παράδειγμα χρησιμοποιήθηκαν δεδομένα από το πακέτο twitter της γλώσσας R. To πακέτο αυτό επιτρέπει την είσοδο σε διαδικτυακά δεδομένα του Twitter. Mέσω λοιπόν του twitter, εξετάστηκαν οι σχέσεις ακολουθίας των υπουργών εξωτερικών των χωρών της Ευρωπαϊκής Ένωσης και δημιουργήθηκε το παρακάτω κατευθυνόμενο δίκτυο. Κοινωνικό δίκτυο (Τwitter) Κάθε χώρα-κόμβος έχει το ίδιο χρώμα με τις εξερχόμενες ακμές της 81

83 γειτνίασης : Για μια πιο ξεκάθαρη εικόνα των συνδέσεων του δικτύου δίνεται και ο πίνακας \\\\\\\ Πίνακας 3.1.1: Πίνακας γειτνίασης του δικτύου Δουλεύοντας πάνω σε αυτό το δίκτυο θα προσπαθήσουμε να βρούμε τις κεντρικότητες που αντιστοιχούν στους υπουργούς εξωτερικών κάθε χώρας. Για συντομία από εδώ και στο εξής θα αναφέρονται απλά ως χώρες. Επίσης, επειδή τα αποτελέσματα των μέτρων δεν μας ενδιαφέρουν ως μεγέθη, αλλά τα θέλουμε μόνο για να πραγματοποιήσουμε σύγκριση των κόμβων, θα χρησιμοποιούμε την κανονικοποιημένη μορφή των μέτρων, διαιρώντας κάθε κεντρικότητα με την αντίστοιχη μέγιστη. Η διαδικασία αυτή θα καταστήσει δυνατή και τη σύγκριση διαφορετικών μέτρων μέσω της κατανομής των κεντρικοτήτων. To πρώτο μέτρο, το οποίο θα εφαρμοστεί στο παραπάνω δίκτυο είναι η κεντρικότητα βαθμού. Αρχικά, να διευκρινίσουμε ότι εφόσον αναφερόμαστε σε κατευθυνόμενο δίκτυο θα γίνει διαχωρισμός μεταξύ κεντρικότητας εσωτερικού και εξωτερικού βαθμού. Ο εσωτερικός βαθμός μίας χώρας-κόμβου θα αποτελεί ένα απλοϊκό μέτρο για τον έλεγχο του πλήθους των χωρών που την ακολουθούν στο Τwitter, ενώ αντίστοιχα ο εξωτερικός θα ελέγχει το πλήθος των χωρών που ακολουθεί η ίδια η χώρα. Ο συνολικός βαθμός κεντρικότητας μπορεί να χαρακτηρισθεί ως ένα 82

84 μέτρο αλληλεπίδρασης της χώρας με τις υπόλοιπες. Τα αποτελέσματα των κεντρικοτήτων βαθμού παρουσιάζονται στον παρακάτω πίνακα. Πίνακας 3.1.2: Κεντρικότητες βαθμού Πρώτη σειρά: Εσωτερική κεντρικότητα βαθμού Δεύτερη σειρά: Εξωτερική κεντρικότητα βαθμού Τρίτη σειρά: Ολική κεντρικότητα βαθμού Στον παραπάνω πίνακα παρουσιάζεται σε κάθε γραμμή η εσωτερική, η εξωτερική και η ολική κεντρικότητα βαθμού, κατά σειρά, της κάθε χώρας. Ας δούμε τώρα και την κοινή γραφική παράσταση των τριών αυτών μέτρων. Διάγραμμα κεντρικοτήτων βαθμού 83

85 Ας δούμε τώρα και τον πίνακα συσχετίσεων των τριών μέτρων. Πίνακας 3.1.3:Συσχετίσεις κεντρικοτήτων βαθμού Από τα αποτελέσματα των παραπάνω πινάκων, παρατηρείται μια μέτρια συσχέτιση μεταξύ του εσωτερικού και εξωτερικού βαθμού κεντρικότητας. Ίσως να περιμέναμε ακόμα μεγαλύτερη συσχέτιση, αλλά όπως προκύπτει, ο αριθμός των χωρών οι οποίες ακολουθούν μια χώρα και των χωρών που η χώρα ακολουθεί στο Twitter παρουσιάζουν κάποια απόκλιση μεταξύ τους. Αυτός άλλωστε ήταν και ο λόγος που εξετάστηκε το συγκεκριμένο κοινωνικό δίκτυο, καθώς η απουσία μιας αμφίδρομης σχέσης των χωρών προσδίδει στο δίκτυο ιδιαίτερο ενδιαφέρον. Το επόμενο εξεταζόμενο μέτρο έχει μια ιδιαιτερότητα. Όπως είδαμε στο προηγούμενο κεφάλαιο η ιδιοδιανυσματική κεντρικότητα σε κατευθυνόμενα δίκτυα μας φέρνει αντιμέτωπους με ένα δίλλημα. Το δίλλημα αυτό δεν είναι άλλο από την απόφαση επιλογής του δεξιού ή του αριστερού ιδιοδιανύσματος του πίνακα γειτνίασης. Είδαμε ότι τις περισσότερες φορές η επιλογή του δεξιού ιδιοδιανύσματος φαντάζει ιδανικότερη. Αυτό όμως δεν είναι κάτι πάγιο. Η βαρύτητα που δίνει ο κάθε ερευνητής στις εξερχόμενες και στις εισερχόμενες ακμές του δικτύου καθορίζει την επιλογή του ιδιοδιανύσματος. Στο συγκεκριμένο παράδειγμα η κεντρικότητα έχει διττή σημασία. Ένας κόμβος μπορεί να θεωρηθεί κόμβος μεγάλης κεντρικότητας είτε όταν ακολουθεί πολλούς άλλους κεντρικούς κόμβους, λόγω της δυνατότητας να ελέγχει στοιχεία που αναρτώνται στους λογαριασμούς τους, είτε όταν αντίστοιχα ακολουθείται από πληθώρα άλλων, εξαιτίας του ενδιαφέροντος των άλλων χωρών για το λογαριασμό της συγκεκριμένης χώρας. Έτσι, είναι φρόνιμο να διαχωρίσουμε τις δυο αυτές περιπτώσεις. Το στατιστικό πακέτο R, μέσω εντολής, μας δίνει τη δυνατότητα να ορίσουμε την ιδιοδιανυσματική κεντρικότητα ως το αριστερό ιδιοδιάνυσμα του πίνακα γειτνίασης. Εφαρμόζοντας κατάλληλο κώδικα και παίρνοντας το δεξί ιδιοδιάνυσμα του 84

86 ανάστροφου του πίνακα γειτνίασης (ο οποίος αντιστοιχεί στο αριστερό ιδιοδιάνυσμα του πίνακα γειτνίασης) καταφέραμε να λάβουμε την ιδιοδιανυσματική κεντρικότητα που δίνει μεγαλύτερη βαρύτητα στις εξερχόμενες ακμές. Για να γίνει εφικτός ο παραπάνω διαχωρισμός, θα ονομάζουμε τις δύο αυτές ιδιοδιανυσματικές κεντρικότητες εισερχόμενη και εξερχόμενη. Οι τιμές των ιδιοδιανυσματικών κεντρικοτήτων συγκεντρώνονται στον παρακάτω πίνακα. Πίνακας 3.1.4: Ιδιοδιανυσματικές κεντρικότητες Πρώτη σειρά : Εισερχόμενη ιδιοδιανυσματική κεντρικότητα Δεύτερη σειρά : Εξερχόμενη ιδιοδιανυσματική κεντρικότητα Ακολουθεί η γραφική παράσταση των μέτρων και ο πίνακας συσχέτισης τους. Διάγραμμα ιδιοδιανυσματικών κεντρικοτήτων 85

87 Πίνακας 3.1.5: Συσχετίσεις ιδιοδιανυσματικών κεντρικοτήτων Όμοια με την κεντρικότητα βαθμού παρατηρούμε μια πολύ μικρή συσχέτιση μεταξύ των δύο μέτρων. Η επεξήγηση αυτού του αποτελέσματος συνοψίζεται στο γεγονός, ότι το να ακολουθεί μια χώρα άλλες σημαντικές χώρες εξαρτάται σε ελάχιστο βαθμό από το αν η χώρα ακολουθείται από άλλες σημαντικές. Ίσως το χαρακτηριστικότερο παράδειγμα είναι η ιδιοδιανυσματική κεντρικότητα της Σλοβενίας. Η Σλοβενία ενώ κατατάσσεται πρώτη με βάση την εξωτερική ιδιοδιανυσματική κεντρικότητα, παίρνοντας ως κριτήριο την εσωτερική της ιδιοδιανυσματική κεντρικότητα κατατάσσεται μόλις στην εικοστή τρίτη θέση. Στη συνέχεια θα εξετάσουμε την άλφα κεντρικότητα των κόμβων του δικτύου. Η άλφα κεντρικότητα εξαρτάται κάθε φορά από την επιλογή της παραμέτρου απόσβεσης, η οποία με τη σειρά της καθορίζεται από την μεγαλύτερη ιδιοτιμή του πίνακα γειτνίασης. Στη γενική περίπτωση είδαμε ότι η παράμετρος μπορεί να λάβει είτε θετικές είτε αρνητικές τιμές. Στο παράδειγμά μας όμως έχουμε ένα κοινωνικό δίκτυο και η αρνητική επιλογή της παραμέτρου απόσβεσης, η οποία μεταφράζεται ως απόδοση μικρής κεντρικότητας σε κόμβους-χώρες που συνδέονται με άλλους υψηλόβαθμους κόμβους, δεν ανταποκρίνεται στην πραγματικότητα. Για το λόγο αυτό, δε θα εξεταστούν οι αρνητικές τιμές της παραμέτρου απόσβεσης, παρόλο που σε κάποιο άλλο παράδειγμα είναι πιθανό να έπρεπε να τεθούν υπό εξέταση. Όμοια με την ιδιοδιανυσματική κεντρικότητα, έτσι και εδώ, το στατιστικό πακέτο R ορίζει την κεντρικότητα alpha, δίνοντας μεγάλη βαρύτητα στις εισερχόμενες ακμές. Με τη χρήση του κατάλληλου κώδικα και σε αυτή την περίπτωση, ορίσθηκε η κεντρικότητα alpha που αντικατοπτρίζει την συνεισφορά των εξερχόμενων ακμών του κόμβου. Η μοναδική αλλαγή είναι ότι τώρα πολλαπλασιάζουμε τον αντίστροφο πίνακα που δημιουργήθηκε, από δεξιά με το διάνυσμα στήλη, όπου όλα τα στοιχεία του είναι μονάδες, ενώ στην πρώτη περίπτωση ο πίνακας πολλαπλασιαζόταν αριστερά με το διάνυσμα γραμμή, όλα 86

88 τα στοιχεία του οποίου ήταν μονάδες. Ο διαχωρισμός των δύο κεντρικοτήτων επιτυγχάνεται και αυτή τη φορά με τις ονομασίες εσωτερική και εξωτερική κεντρικότητα alpha. Αρχικά, για την εφαρμογή του μέτρου, πήραμε δύο τιμές για την παράμετρο alpha. Η πρώτη αντιστοιχεί στο μισό του ορίου και η δεύτερη είναι πάρα πολύ κοντά στο όριο. Φυσικά, το όριο εξαρτάται κάθε φορά από τη μεγαλύτερη ιδιοτιμή του πίνακα γειτνίασης. Τα αποτελέσματα βρίσκονται στους πίνακες που ακολουθούν. Πίνακας 3.1.6: Κεντρικότητες Άλφα για α = lima/2 Πρώτη σειρά : Εισερχόμενη κεντρικότητα alpha Δεύτερη σειρά : Εξερχόμενη κεντρικότητα alpha Πίνακας 3.1.7: Κεντρικότητες Άλφα για α κοντά στο όριο Πρώτη σειρά : Εισερχόμενη κεντρικότητα alpha Δεύτερη σειρά : (alp1) Εξερχόμενη κεντρικότητα alpha 87

89 Ακολουθούν οι γραφικές παραστάσεις των μέτρων και οι συσχετίσεις τους. Διάγραμμα Άλφα κεντρικοτήτων για α = lima/2 Διάγραμμα Άλφα κεντρικοτήτων για α κοντά στο όριο 88

90 Πίνακας 3.1.8: Συσχετίσεις άλφα κεντρικοτήτων για α = lima/2 Πίνακας 3.1.9: Συσχετίσεις άλφα κεντρικοτήτων για α κοντά στο όριο Για άλλη μια φορά, σε συμφωνία με τα προηγούμενα μέτρα, φαίνεται πως και σε αυτή την περίπτωση η συσχέτιση των δύο μέτρων είναι ελάχιστη. Από τα παραπάνω αποτελέσματα όμως μπορούμε να αντλήσουμε και άλλα σημαντικά συμπεράσματα. Παρατηρώντας τους πίνακες 3.3 και 3.6 βλέπουμε ότι η ιδιοδιανυσματική κεντρικότητα και η κεντρικότητα alpha, για τιμές της παραμέτρου κοντά στο ανώτερο επιτρεπόμενο όριο, σχεδόν συμπίπτουν. Το γεγονός αυτό, κάθε άλλο παρά έκπληξη μας προκαλεί, αφού όπως είδαμε και στη θεωρία η alpha κεντρικότητα για οριακές τιμές προσεγγίζει την ιδιοδιανυσματική κεντρικότητα. Εφόσον η κεντρικότητα alpha περιέχει μια παράμετρο απόσβεσης είναι φυσικό επακόλουθο να εξετάσουμε την πορεία της κεντρικότητας για διάφορες τιμές της παραμέτρου. Η μελέτη της μεταβολής της κεντρικότητας κάθε χώρες είναι ανούσια, καθώς είναι προφανές ότι όσο μεγαλώνει η παράμετρος τόσο θα αυξάνεται και η κεντρικότητα κάθε χώρας. Αυτό που αξίζει να δούμε είναι πως επηρεάζεται η κεντρικότητα κάθε χώρας σε σχέση με τις κεντρικότητες των υπολοίπων χωρών. Λαμβάνοντας τις κανονικοποιημένες τιμές κεντρικότητας μιας χώρας για διάφορες τιμές τις παραμέτρου, μπορούμε να ελέγξουμε τον τρόπο μεταβολής της κεντρικότητας της σε σχέση με τη μεταβολή της χώρας με τη μεγαλύτερη κεντρικότητα. 89

91 Διάγραμμα της εσωτερικής κεντρικότητας alpha της Αυστρίας, για τιμές της παραμέτρου από μηδέν μέχρι το επιτρεπόμενο όριο. Στο παραπάνω γράφημα βλέπουμε την κανονικοποιημένη εσωτερική κεντρικότητα της Αυστρίας για τιμές της παραμέτρου από μηδέν μεχρι το επιτρεπόμενο όριο. Παρατηρούμε μια φθίνουσα πορεία της κεντρικότητας της, πράγμα που ερμηνεύεται ως αργότερος ρυθμός αύξησης της κεντρικότητας της σε σχέση με τη χώρα που έχει τη μεγαλύτερη κεντρικότητα. Το σημαντικότερο ερώτημα είναι αν επηρεάζεται η κατάταξη των χωρών από διαφορετικές τιμές της παραμέτρου alpha. Για τον σκοπό αυτό, δημιουργήθηκε ο παρακάτω πιίνακας με την κατάταξη των χωρών με βάση την εισερχόμενη κεντρικότητα alpha, για 14 τιμές της παραμέτρου μεταξύ του μηδενός και του ανώτατου επιτρεπόμενου όριου. 90

92 Πίνακας : Η κατανομή των χωρών σε φθίνουσα σειρά, με βάση την εισερχόμενη κεντρικότητα alpha για διάφορες τιμές της παραμέτρου Πίνακας : Η συνέχεια του πίνακα Από τον πίνακα , γίνεται κατανοητό πως δεν υπάρχει κάποια σημαντική αλλαγή της κατάταξης των χωρών μέσω της εισερχόμενης κεντρικότητας alpha, μεταξύ των εξεταζόμενων τιμών της παραμέτρου (εκτός από τη μηδενική τιμή που όπως ήταν αναμενόμενο, επέστρεψε για όλες τις χώρες την ίδια κεντρικότητα ίση με τη μονάδα). Η ύπαρξη αλλαγών θα σήμαινε ότι υπήρξαν χώρες των οποίων η κεντρικότητα καθορίζεται από μονοπάτια διαφορετικών μηκών. Έτσι, με τη μεταβολή της 91

93 παραμέτρου θα σταθμίζονταν αλλιώς τα μονοπάτια διαφορετικών μηκών και κατά συνέπεια θα υπήρξε και αλλαγή στην κατάταξη των χωρών. Κάτι τέτοιο όμως δε συμβαίνει στο δίκτυο μας. Το επόμενα δύο μέτρα σχετίζονται με τα μονοπάτια ελαχίστης απόστασης που ενώνουν δύο χώρες-κόμβους του δικτύου. Αρχικά θα εξεταστεί η κεντρικότητα ενδιαμεσότητας του κάθε κόμβου. Όπως έχουμε προαναφέρει, η κεντρικότητα ενδιαμεσότητας ενός κόμβου είναι ανάλογη του πλήθους των μονοπατιών ελαχίστου μήκους που συνδέουν ζεύγη κόμβων, στα οποία παρεμβάλλεται ο κόμβος. Με αυτή την κεντρικότητα ξεφεύγουμε από την ταύτιση της σημαντικότητας των κόμβων με τη συνδεσιμότητα τους. Η κεντρικότητα ενδιαμεσότητας είναι ένα πολύ σημαντικό μέτρο για δίκτυα στα οποία υπάρχει διάδοση πληροφορίας. Στο παράδειγμα μας, υπάρχει διάδοση πληροφοριών μέσω των χωρών από τους προσωπικούς τους λογαριασμούς στο Twitter. Mε αυτόν τον τρόπο μια πιθανή ερμηνεία της κεντρικότητας ενδιαμεσότητας στο δίκτυο μας, είναι ότι κάθε χώρα αποκτά σημαντικότητα από την παρεμβολή της σε πολλά μονοπάτια σύνδεσης άλλων χωρών, επειδή έχει τη δυνατότητα αναπαραγωγής πληροφοριών των χωρών τις οποίες ακολουθεί. Αιτία αυτού του αποτελέσματος είναι ότι το δίκτυο μας είναι κατευθυνόμενο. Έτσι, όταν μία χώρα παρεμβάλλεται μεταξύ άλλων δύο, μπορεί να αναπαράγει μέσω retweet όποιες πληροφορίες θεωρεί χρήσιμες, και να επιτρέψει σε αυτές που την ακολουθούν να έχουν πρόσβαση σε αυτές ακόμα και αν δεν επικοινωνούν με τους κόμβους που ανάρτησαν τις αρχικές πληροφορίες. Τώρα, ως προς το σκέλος της ελάχιστης απόστασης των μονοπατιών, μπορούμε να πούμε ότι ελαττώνοντας το μήκος του μονοπατιού, αυξάνεται η πιθανότητα να έχουμε ολική διάδοση πληροφορίας κατά μήκος των ακμών του. Με άλλα λόγια, αν θεωρήσουμε ότι όλες οι χώρες έχουν την ίδια πιθανότητα να διαδίδουν πληροφορίες άλλων κόμβων μέσω retweet, τότε το μονοπάτι ελαχίστου μήκους μεγιστοποιεί την πιθανότητα ολικής διάδοσης της πληροφορίας σε όλους τους εμπλεκόμενους κόμβους. Συνοψίζοντας, με αυτή την ερμηνεία, η κεντρικότητα ενδιαμεσότητας ορίζεται ως ο λόγος των συνολικών μονοπατιών μεγίστης πιθανότητας ολικής διάδοσης πληροφορίας, στα οποία παρεμβάλλεται ένας κόμβος, προς το συνολικό αριθμό των μονοπατιών μεγίστης πιθανότητας ολικής διάδοσης πληροφοριών μεταξύ όλων των ζευγών των κόμβων του δικτύου. Παράλληλα με τον κλασικό ορισμό της κεντρικότητας ενδιαμεσότητας, στοχεύοντας στην καταπολέμηση του περιορισμού που κρύβεται πίσω από την 92

94 αποκλειστική επιλογή των μονοπατιών ελαχίστου μήκους, ορίσαμε και την ροή κεντρικότητας ενδιαμεσότητας. Η ροή κεντρικότητας ενδιαμεσότητας σχετίζεται με τη παρεμβολή των κόμβων σε μονοπάτια μέγιστης διάδοσης ροής. Στους παρακάτω πίνακες βλέπουμε τις τιμές των δύο κεντρικοτήτων ενδιαμεσότητας, τις γραφικές τους παραστάσεις και τις αντίστοιχες συσχετίσεις τους. Πίνακας : Κεντρικότητες Eνδιαμεσότητας Πρώτη σειρά : Κλασική κεντρικότητα ενδιαμεσότητας Δεύτερη σειρά : Ροή κεντρικότητας ενδιαμεσότητας Διάγραμμα της κλασικής κεντρικότητας ενδιαμεσότητας και της ροής κεντρικότητας ενδιαμεσότητας 93

95 Πίνακας : Συσχετίσεις απλής κεντρικότητας ενδιαμεσότητας και της ροής κεντρικότητας ενδιαμεσότητας Παρατηρούμε μια αρκετά μεγάλη συσχέτιση μεταξύ των δύο μέτρων. Το γεγονός αυτό τονίζει την όμοια συμπεριφορά των χωρών που βρίσκονται μεταξύ των κοντινότερων μονοπατιών άλλων χωρών και αυτών που βρίσκονται μεταξύ των μονοπατιών μέγιστης διάδοσης ροής. Το δεύτερο μέτρο που σχετίζεται με τα μονοπάτια ελαχίστου μήκους που συνδέουν τους κόμβους του δικτύου είναι η κεντρικότητα εγγύτητας. Ο κλασικός ορισμός της κεντρικότητας εγγύτητας αθροίζει τις γεωδαισιακές αποστάσεις των μονοπατιών που ξεκινάνε από έναν κόμβο και καταλήγουν στους υπόλοιπους και έπειτα τις αντιστρέφει. Το μέτρο αυτό κατανέμει μεγάλη κεντρικότητα σε κόμβους που απέχουν μικρή απόσταση από τους υπόλοιπους κόμβους του δικτύου. Η ερμηνεία του μέτρου μπορεί να είναι παραπλήσια με αυτήν της κεντρικότητας ενδιαμεσότητας. Έτσι, κάθε κόμβος θα καθίσταται σημαντικός αν ακολουθεί άμεσα το λογαριασμό κάποιας χώρας ή αν παραπέμπονται ανάμεσα τους όσο το δυνατό λιγότερες χώρες. Με αυτόν τον τρόπο αυξάνεται η πιθανότητα να συλλέξει πληροφορίες από άλλες χώρες μέσω των retweets. Όσο λιγότεροι κόμβοι βρίσκονται μεταξύ μιας χώρας και των υπολοίπων χωρών (μικρότερη απόσταση), τόσο μεγαλύτερη θα είναι και η πιθανότητα συλλογής πληροφορίας. Όπως όμως είδαμε και σε προηγούμενο μέτρο, μια χώρα μπορεί να θεωρηθεί σημαντική όχι μόνο όταν έχει τη δυνατότητα να συλλέγει πληροφορίες από τις υπόλοιπες χώρες, αλλά και όταν άλλες χώρες επιθυμούν να συλλέξουν πληροφορίες από αυτήν. Κάτω από αυτές τις συνθήκες, δεν αρκεί μόνο ο προηγούμενος ορισμός για την κεντρικότητα εγγύτητας. Έτσι λοιπόν ορίζουμε την εισερχόμενη κεντρικότητα εγγύτητας (η προηγούμενη θα αναφέρεται ως εξερχόμενη) όμοια με πριν, με τη διαφορά ότι για να υπολογίσουμε την ελάχιστη απόσταση εξετάζουμε τα μονοπάτια που καταλήγουν στη χώρα μας. Επιζητούμε δηλαδή χώρες, στις οποίες με μεγάλη 94

96 πιθανότητα, άλλες χώρες έχουν πρόσβαση στις πληροφορίες που ανεβάζουν στο Twitter. Εκτός από τον κλασικό ορισμό της κεντρικότητας εγγύτητας, αναφερθήκαμε και στην παραλλαγή που δημιουργήθηκε από τον T.Opsahl. Ο Opsahl για τον υπολογισμό της κεντρικότητας εγγύτητας, πρώτα αντιστρέφει και έπειτα αθροίζει όλες τις αποστάσεις, με σκοπό να εξαλείψει την αρνητική σχέση που τείνει να δημιουργηθεί μεταξύ της κεντρικότητας εγγύτητας και του βαθμού κεντρικότητας. Όμοια με πριν ορίστηκαν και υπολογίστηκαν οι εισερχόμενες και εξερχόμενες κεντρικότητες εγγύτητας του Opsahl. Όλα τα παραπάνω αποτελέσματα συγκεντρώθηκαν στους παρακάτω πίνακες και γραφικές παραστάσεις. Πίνακας : Κεντρικότητες Εγγύτητας Πρώτη σειρά : Εισερχόμενη κεντρικότητα εγγύτητας Opsahl Δεύτερη σειρά : Εξερχόμενη κεντρικότητα εγγύτητας Opsahl Τρίτη σειρά: Κλασική εισερχόμενη κεντρικότητα εγγύτητας Τέταρτη σειρά: Κλασική εξερχόμενη κεντρικότητα εγγύτητας Διάγραμμα κλασικής εισερχόμενης και Opsahl εισερχόμενης κεντρικότητας εγγύτητας 95

97 Διάγραμμα κλασικής εξερχόμενης και Opsahl εξερχόμενης κεντρικότητας εγγύτητας Πίνακας : Συσχετίσεις κλασικής εισερχόμενης και εξερχόμενης κεντρικότητας εγγύτητας και των παραλλαγών του Opsahl Όπως ήταν αναμενόμενο παρατηρούνται μεγάλες συσχετίσεις μεταξύ των κλασικών μέτρων κεντρικότητας εγγύτητας και των παραλλαγών του Opsahl, ενώ είναι αξιοσημείωτο πως αυτή τη φορά οι συσχετίσεις των εισερχόμενων και εξερχόμενων μέτρων δεν είναι απλά μικρές, αλλά είναι αρνητικές. Αυτή η σχετικά υψηλή αρνητική συσχέτιση δηλώνει ότι η πιθανότητα μια χώρα να έχει μεγάλη δυνατότητα στην πρόσβαση πληροφοριών των άλλων είναι αντιστρόφως ανάλογη της πιθανότητας άλλες χώρες να έχουν μεγάλη πρόσβαση στις δικιές της πληροφορίες. 96

98 Ας δούμε τώρα την εφαρμογή και τη σημασία της βαθμικής κεντρικότητας page στο παράδειγμά μας. Η βαθμική κεντρικότητα page ενός κόμβου ορίζεται ως η πιθανότητα, πραγματοποιώντας τυχαίο περίπατο, μετά από μεγάλο αριθμό βημάτων να καταλήξουμε στον κόμβο μας. Στο παράδειγμα μας, μπορεί να θέλουμε η αύξηση της κεντρικότητας που δίνει μία χώρα σε μία άλλη, ακολουθώντας την, να μοιράζεται μεταξύ των χωρών που ακολουθεί. Ο λόγος είναι απλός. Όταν μια χώρα που ακολουθεί μία άλλη, ακολουθεί και πολλές άλλες, τότε δε δίνει κάποια ιδιαίτερη σημασία στη χώρα αυτή και τις πληροφορίες που μπορεί να πάρει από το λογαριασμό της. Επομένως δεν θα πρέπει να της προσδίδει και ιδιαίτερη αξία. Σε αυτή την περίπτωση η βαθμική κεντρικότητα page είναι η κατάλληλη επιλογή. Οι τιμές της βαθμικής κεντρικότητας page και η γραφική τους παράσταση παρουσιάζονται παρακάτω. Πίνακας : Βαθμική Kεντρικότητα Page για παράμετρο 0.85 Διάγραμμα Βαθμική Kεντρικότητα Page 97

99 Στον παραπάνω πίνακα, η βαθμική κεντρικότητα page των κόμβων υπολογίστηκε χρησιμοποιώντας ως παράμετρο απόσβεσης την τιμή 0.85, την τιμή δηλαδή που χρησιμοποιεί και η Google. Προκύπτει όμως το ερώτημα, αν θα επηρεαστεί η κατάταξη από διαφορετικές τιμές της παραμέτρου. Όπως και με την κεντρικότητα alpha, έτσι και εδώ, παίρνοντας τις κανονικοποιημένες τιμές της κεντρικότητας για διάφορες τιμές της παραμέτρου θα εντοπίσουμε τη μεταβολής της κεντρικότητας της εξεταζόμενης χώρας συγκριτικά με τη χώρα με την εκάστοτε μεγαλύτερη κεντρικότητα. Στο παρακάτω γράφημα βλέπουμε το αντίκτυπο που έχει η μεταβολή της παραμέτρου στις κεντρικότητες της Κροατίας και της Ευρώπης. Διάγραμμα Βαθμικής Kεντρικότητας Page της Κροατίας και της Ευρωπαϊκής Ένωσης για εύρος τιμών της παραμέτρου απόσβεσης 98

100 Από το γράφημα συμπεραίνουμε ότι η Ευρώπη, για όλες τις εξεταζόμενες τιμές της παραμέτρου, έχει σταθερά τη μεγαλύτερη κεντρικότητα. Για την Κροατία από την άλλη, όσο αυξάνεται η παράμετρος αυξάνεται και η διαφορά της από την κεντρικότητα της Ευρώπης. Ας δούμε τώρα την κατάταξη των χωρών σε φθίνουσα διάταξη για 11 τιμές της παραμέτρου μεταξύ 0.5 και 1. Π Πίνακας : Η κατανομή των χωρών σε φθίνουσα σειρά, με βάση τη βαθμική κεντρικότητα page για διάφορες τιμές της παραμέτρου Πίνακας : Η συνέχεια του πίνακα Από τους παραπάνω πίνακες παρατηρούμε ότι οι μεταβολές στην κατάταξη των χωρών για διάφορες τιμές της παραμέτρου είναι μηδαμινές. Επομένως μπορούμε να εφαρμόσουμε το μέτρο για οποιαδήποτε τιμή της παραμέτρου (από 0.5 ως 1) χωρίς σημαντικές διαφορές στα αποτελέσματα. 99

101 Στη συνέχεια θα δούμε τις κεντρικότητες ομφαλού και αυθεντίας. Ένας κόμβος με υψηλή κεντρικότητα αυθεντίας, αντιστοιχεί σε μία χώρα που ακολουθείται από πολλές άλλες, οι οποίες ακολουθούν επίσης μεγάλο αριθμό χωρών. Αντίθετα, ένας κόμβος με υψηλή κεντρικότητα ομφαλού αντιστοιχεί σε μία χώρα που ακολουθεί χώρες με υψηλή κεντρικότητα αυθεντίας. Ουσιαστικά στην κεντρικότητα αυθεντίας λειτουργούμε με ανάποδο σκεπτικό από τη βαθμική κεντρικότητα page. Εκεί θέλαμε να μοιράσουμε την κεντρικότητα που λαμβάνει μια χώρα από μία άλλη, η οποία ακολουθεί πολλές άλλες, ενώ εδώ θέλουμε να το αναδείξουμε. Οι τιμές των κεντρικοτήτων, οι γραφικές παραστάσεις και η μέτρια συσχέτιση τους, παρουσιάζονται παρακάτω. Πίνακας : Κεντρικότητας αυθεντίας και κεντρικότητα ομφαλού Πρώτη γραμμή κεντρικότητα αυθεντίας Δεύτερη γραμμή κεντρικότητα ομφαλού Διάγραμμα κεντρικότητας αυθεντίας και κεντρικότητας ομφαλού 100

102 Πίνακας : Συσχετίσεις Κεντρικότητας αυθεντίας και κεντρικότητας ομφαλού Άλλο ένα μέτρο που σχετίζεται με τη διάδοση πληροφορίας ήταν η κεντρικότητα πληροφορίας. Με την κεντρικότητα πληροφορίας ελέγχουμε την αποτελεσματική διάδοση πληροφοριών σε ολόκληρο το δίκτυο, έπειτα από την απομάκρυνση ενός κόμβου. Εάν δηλαδή αποδειχθεί ότι με την απομάκρυνση μιας χώρας από το δίκτυο, θα μειωθεί αισθητά η διάδοση πληροφορίας, τότε σε αυτή την χώρα θα αποδοθεί μεγάλος βαθμός κεντρικότητας. Οι τιμές της κεντρικότητας πληροφορίας και η γραφική της παράσταση δίνονται παρακάτω. Πίνακας : Κεντρικότητα πληροφορίας Διάγραμμα κεντρικότητας πληροφορίας 101

103 Στο προηγούμενο κεφάλαιο έγινε εκτενής αναφορά στα μέτρα ομαδοποίησης ενός δικτύου, τα οποία ιδιαίτερα σε περιπτώσεις κοινωνικών δικτύων είναι αρκετά χρήσιμα. Στο παράδειγμα μας, θα εξεταστεί η κεντρικότητα πυρηνοποίησης των κόμβων. Η κεντρικότητα πυρηνοποίησης θα ερμηνευτεί με τον τρόπο που αναπτύχθηκε στη θεωρία για την περίπτωση των κοινωνικών δικτύων. Πιο συγκεκριμένα, θεωρούμε ότι κάθε χώρα επιβαρύνεται με ένα ποσό για να συνεχίσει να διατηρεί το λογαριασμό της στο Twitter και να αποτελεί ενεργό μέλος, ενώ παράλληλα δέχεται και κάποιο όφελος από τις χώρες που είτε την ακολουθούν είτε τις ακολουθεί. Η κεντρικότητα πυρηνοποίησης της κάθε χώρας θα είναι το μέγιστο ποσό που μπορεί να πληρώσει κάθε χώρα, ώστε σε συνδυασμό με το κέρδος που θα λαμβάνει από τις συνδέσεις της, να ωφελείται από την παραμονή της στο Twitter. Με αυτόν τον τρόπο, μία χώρα με υψηλή κεντρικότητα πυρηνοποίησης, στην υποτιθέμενη περίπτωση όπου το να γίνεις μέλος στο Twitter απαιτεί συνδρομή, θα είχε τη δυνατότητα να εξοφλήσει ένα ικανοποιητικό ποσό εξαιτίας των πλεονεκτημάτων που της προσφέρουν οι χώρες με τις οποίες συνδέεται (για παράδειγμα πρόσβαση στις πληροφορίες τους). Όμοια με προηγούμενα μέτρα θα ορίσουμε την εισερχόμενη και την εξερχόμενη κεντρικότητα πυρηνοποίησης, ανάλογα με το αν θεωρούμε σημαντικό το να ακολουθεί μια χώρα τις υπόλοιπες ή το να την ακολουθούν. Οι τιμές των δύο κεντρικοτήτων, οι γραφικές τους παραστάσεις και η συσχέτιση τους, δίνονται παρακάτω. Πίνακας : Κεντρικότητα πυρηνοποίησης Πρώτη γραμμή: Εισερχόμενη Κεντρικότητα πυρηνοποίησης Δεύτερη γραμμή: Εξερχόμενη Κεντρικότητα πυρηνοποίησης 102

104 Διάγραμμα εισερχόμενης και εξερχόμενης κεντρικότητας πυρηνοποίησης Πίνακας : Συσχετίσεις εισερχόμενης και εξερχόμενης κεντρικότητας πυρηνοποίησης Το τελευταίο μέτρο προς εξέταση είναι ο συντελεστής σύμπλεξης. Είδαμε ότι ο συντελεστής σύμπλεξης αποτελεί ένα τοπικό μέτρο το οποίο ελέγχει τη δυνατότητα δημιουργίας κλίκας των γειτόνων ενός κόμβου. Το γεγονός αυτό προσδίδει στο μέτρο διπλή χρησιμότητα. Από τη μία, μία χώρα-κόμβος με υψηλό συντελεστή σύμπλεξης θα έχει μεγάλη πιθανότητα για ολική διάδοση πληροφορίας μεταξύ της ίδιας και των γειτόνων της και από την άλλη μια χώρα με χαμηλό συντελεστή θα έχει μεγαλύτερη πιθανότητα να περάσουν από αυτή οι πληροφορίες των γειτόνων της (λόγω μικρής συνδεσιμότητας τους), να τις ελέγξει και μόνο αν τις θεωρήσει χρήσιμες να τις δημοσιοποιήσει στις υπόλοιπες χώρες με τις οποίες συνδέεται. 103

105 Στο παράδειγμά όμως υπάρχει ένα πρόβλημα. Το δίκτυο που εξετάζουμε είναι κατευθυνόμενο και δε ξέρουμε πώς να ορίσουμε ένα κλειστό μονοπάτι μεταξύ τριών κόμβων. Για το λόγο αυτό δημιουργήθηκαν αλγόριθμοι για τον υπολογισμό του συντελεστή σύμπλεξης με τους δύο παρακάτω τρόπους : Έστω ότι έχουμε τον κόμβο Α, ο οποίος ακολουθεί τους κόμβους Β,Γ,Δ. Το σύνολο των τριάδων που ξεκινούν από τον κόμβο Α θα είναι (Β->Γ),(Γ->Β),(Β->Δ),(Δ->Β),(Γ->Δ),(Δ->Γ). Δηλαδή συνολικά έξι. Μας ενδιαφέρει η γενική επικοινωνία των χωρών τις οποίες ακολουθεί ένας κόμβος Έστω ότι έχουμε τον κόμβο Α, ο οποίος ακολουθείται από τους κόμβους Β,Γ,Δ. Το σύνολο των τριάδων που καταλήγουν στον κόμβο Α θα είναι (Β->Γ),(Γ->Β),(Β->Δ),(Δ->Β),(Γ->Δ),(Δ->Γ). Δηλαδή συνολικά έξι. Μας ενδιαφέρει η γενική επικοινωνία των χωρών που ακολουθούν έναν κόμβο. Με τον παραπάνω τρόπο ορίσαμε τον εξερχόμενο και τον εισερχόμενο συντελεστή σύμπλεξης. Μία χώρα με υψηλό εισερχόμενο συντελεστή σύμπλεξης δίνει τη δυνατότητα σε χώρες που την ακολουθούν να αναρτήσουν πληροφορίες σχετικά με την ίδια και να τις σχολιάσουν μεταξύ τους. Με αυτό τον τρόπο θα αυξηθεί η σημαντικότητα της χώρας. Από την άλλη, μια χώρα με υψηλό εξερχόμενο συντελεστή σύμπλεξης έχει τη δυνατότητα να δει πληροφορίες που δημοσιοποιούν από κοινού, χώρες τις οποίες ακολουθεί. Θεωρήθηκε σκόπιμο, μία χώρα που δεν έχει παραπάνω από ένα γείτονα, να μη λάβει μέρος στην κατάταξη. Με αυτά τα δεδομένα, παρουσιάζονται οι τιμές των κεντρικοτήτων και οι γραφικές τους παραστάσεις. Πίνακας : Κεντρικότητα Συντελεστή σύμπλεξης Πρώτη γραμμή: Εισερχόμενη κεντρικότητα συντελεστή σύμπλεξης Δεύτερη γραμμή: Εξερχόμενη κεντρικότητα συντελεστή σύμπλεξης 104

106 Διάγραμμα εισερχόμενης και εξερχόμενης κεντρικότητας συντελεστή σύμπλεξης Το παραπάνω γράφημα παρουσιάζει σημεία ασυνέχειας εξαιτίας του υπολογισμού των μέτρων μόνο για χώρες με δύο ή περισσότερους γείτονες. Στη συνέχεια παρουσιάζεται η γραφική παράσταση των μέτρων μόνο για τις χώρες που συμμετείχαν στις μετρήσεις και των δύο μέτρων και η συσχέτισή τους. Διάγραμμα εισερχόμενης και εξερχόμενης κεντρικότητας συντελεστή σύμπλεξης των χωρών στις οποίες ορίζεται από κοινού ο συντελεστής 105

107 Πίνακας : Συσχετίσεις εισερχόμενης και εξερχόμενης κεντρικότητας συντελεστή σύμπλεξης Είδαμε στη θεωρία ότι το μεγάλο πλήθος των γειτονικών κόμβων επηρεάζει αρνητικά το συντελεστή σύμπλεξης. Σε πολλές περιπτώσεις όμως αυτό δεν είναι επιθυμητό. Έτσι, έγινε προσπάθεια εισαγωγής ενός καινούριου μέτρου που να επηρεάζεται θετικά από το βαθμό του κάθε κόμβου. Η παραλλαγή αυτής της κεντρικότητας θα επιτευχθεί με τη βοήθεια μίας παραμέτρου που θα σταθμίζει το συντελεστή σύμπλεξης με την κεντρικότητα βαθμού. Όμως, επειδή θέλουμε η παραλλαγή να δίνει περισσότερη βαρύτητα στο συντελεστή σύμπλεξης θα χρησιμοποιήσουμε μια συνάρτηση που επιστρέφει τη μικρότερη τιμή της παραμέτρου ( ξεκινώντας από το 1) για την οποία η συσχέτιση της παραλλαγής με το συντελεστή παραμένει ικανοποιητικά μεγάλη. Θεωρήσαμε ότι η συσχέτιση θα είναι ικανοποιητική όταν είναι μεγαλύτερη του 0.7. Έτσι λοιπόν η συνάρτηση θα μας επιστρέφει τις τιμές της κεντρικότητας για την κατάλληλη τιμή της παραμέτρου. Η παραλλαγή αυτή θα εφαρμόζεται μόνο στους κόμβους που δύναται να υπολογιστεί ο κλασικός συντελεστής σύμπλεξης. Ο υπολογισμός του καινούριου μέτρου έγινε για τον εισερχόμενο και για τον εξερχόμενο συντελεστή και οι σχέσεις που χρησιμοποιήθηκαν είναι οι παρακάτω. Cld aclc ( i) (1 a)k in in in i i Cld aclc ( i) (1 a)k out out out i i α: Παράμετρος του νέου μέτρου που κυμαίνεται μεταξύ μηδέν και ένα 106

108 Ας δούμε τώρα τα αποτελέσματα των νέων μέτρων, τη γραφική παράσταση όλων των συντελεστών ομαδοποίησης και τη μεταξύ τους συσχέτιση. Πίνακας : Παραλλαγή της εισερχόμενης κεντρικότητας συντελεστή σύμπλεξης Πίνακας : Παραλλαγή της εξερχόμενης κεντρικότητας συντελεστή σύμπλεξης Διάγραμμα εισερχόμενης και εξερχόμενης κεντρικότητας συντελεστή σύμπλεξης και των παραλλαγών τους στις χώρες στις οποίες ορίζεται από κοινού ο συντελεστής 107

109 Από τον πίνακα των συσχετίσεων βλέπουμε, όπως ήταν φυσικό από τον τρόπο δημιουργίας του καινούριου μέτρου, μια μεγάλη συσχέτιση της παραλλαγής με τον κλασικό συντελεστή σύμπλεξης. Αντίθετα, ο εισερχόμενος και εξερχόμενος συντελεστής σύμπλεξης έχουν σχεδόν μηδενική συσχέτιση μεταξύ τους. Ο μεγάλος δηλαδή εσωτερικός συντελεστής ενός κόμβου, δεν επηρεάζει την τιμή του εξωτερικού συντελεστή του. Πίνακας : Συσχετίσεις εισερχόμενης και εξερχόμενης κεντρικότητας συντελεστή σύμπλεξης και των παραλλαγών τους στις χώρες στις οποίες ορίζεται από κοινού ο συντελεστής Έγινε λοιπόν η παρουσίαση των σημαντικότερων μέτρων κεντρικότητας για το δίκτυο μας. Σχεδόν σε όλα τα μέτρα οι συσχετίσεις μεταξύ εισερχόμενων και εξερχόμενων μέτρων ήταν αρκετά χαμηλή. Επομένως το ενδιαφέρον επικεντρώνεται στη σύγκριση των εσωτερικών και εξωτερικών μέτρων μεταξύ τους. Παρακάτω παρουσιάζονται οι γραφικές παραστάσεις των μέτρων και οι συσχετίσεις τους. Διάγραμμα των σημαντικότερων εισερχόμενων μέτρων κεντρικότητας όλων των χωρών 108

110 Πίνακας : Συσχετίσεις των σημαντικότερων εισερχόμενων μέτρων κεντρικότητας όλων των χωρών Από το γράφημα λείπουν τα μέτρα του συντελεστή σύμπλεξης, εξαιτίας του γεγονότος ότι δεν ορίζονται για όλες τις χώρες. Παρακάτω παρουσιάζεται το γράφημα όλων των μέτρων και η συσχέτιση τους, μόνο για τους κόμβους που μπορεί να υπολογιστεί ο συντελεστής σύμπλεξης. Διάγραμμα των σημαντικότερων εξερχόμενων μέτρων κεντρικότητας όλων των χωρών 109

111 Πίνακας : Συσχετίσεις των σημαντικότερων εξερχόμενων μέτρων κεντρικότητας όλων των χωρών Διάγραμμα των σημαντικότερων εισερχόμενων μέτρων κεντρικότητας για τις χώρες που ορίζεται ταυτόχρονα ο εσωτερικός και εξωτερικός τους συντελεστής σύμπλεξης 110

112 Πίνακας : Συσχετίσεις των σημαντικότερων εισερχόμενων μέτρων κεντρικότητας για τις χώρες που ορίζεται ταυτόχρονα ο εσωτερικός και εξωτερικός τους συντελεστής σύμπλεξης Διάγραμμα των σημαντικότερων εξερχόμενων μέτρων κεντρικότητας για τις χώρες που ορίζεται ταυτόχρονα ο εσωτερικός και εξωτερικός τους συντελεστής σύμπλεξης 111

113 Πίνακας : Συσχετίσεις των σημαντικότερων εξερχόμενων μέτρων κεντρικότητας για τις χώρες που ορίζεται ταυτόχρονα ο εσωτερικός και εξωτερικός τους συντελεστής σύμπλεξης Από τον πίνακα συσχετίσεων μπορούμε να βγάλουμε μερικά χρήσιμα συμπεράσματα. Αρχικά, βλέπουμε την υψηλή συσχέτιση που παρουσιάζουν η κεντρικότητα βαθμού, η ιδιοδιανυσματική κεντρικότητα, η κεντρικότητα alpha και η κεντρικότητα αυθεντίας ή ομφαλού (ανάλογα αν αναφερόμαστε στα εισερχόμενα ή στα εξερχόμενα μέτρα). Γενικά τα μέτρα αυτά βασίζονται περισσότερο στη συνδεσιμότητα των κόμβων. Το αποτέλεσμα αυτό επιβεβαιώνει τις θεωρητικές προσεγγίσεις για τις συσχετίσεις των συγκεκριμένων μέτρων. Μάλιστα, ορίζοντας μια παράμετρο πολύ κοντά στο ανώτατο όριο, για την κεντρικότητα alpha, βλέπουμε ότι παρουσιάζει τέλεια συσχέτισή με την ιδιοδιανυσματική κεντρικότητα, όπως ακριβώς αναφέραμε στη θεωρία. Η κεντρικότητα ενδιαμεσότητας παρουσιάζει μέτρια συσχέτιση με την παραπάνω ομάδα μέτρων, καλή συσχέτιση με τη βαθμική κεντρικότητα page και πάρα πολύ καλή συσχέτιση με την κεντρικότητα πληροφορίας. Και σε αυτή την περίπτωση τα αποτελέσματα συμφωνούν με τη θεωρία. Τα μέτρα αυτά αναγνωρίζουν κυρίως κόμβους με εξέχουσα θέση σε δίκτυα διακίνησης πληροφοριών και ήταν αναμενόμενο να παρουσιάζουν μεταξύ τους καλή συσχέτιση. Η βαθμική κεντρικότητα page συμπεριλήφθηκε τόσο στα εισερχόμενα όσο και στα εξερχόμενα μέτρα. Ωστόσο οι υψηλές συσχετίσεις της με τα εισερχόμενα μέτρα σε συνδυασμό με τις αντίστοιχες χαμηλές με τα εξερχόμενα, μας οδηγούν στο συμπέρασμα ότι εφαρμόζεται καλύτερα σε δίκτυα που μας ενδιαφέρει να δώσουμε βαρύτητα σε κόμβους που επηρεάζονται θετικά από τις εισερχόμενες ακμές τους. Η κεντρικότητα εγγύτητας όπως και η κεντρικότητα πυρηνοποίησης παρουσιάζουν μέτρια προς καλή συσχέτιση με τα μέτρα της πρώτης ομάδας και είναι σχεδόν ασυσχέτιστες με την κεντρικότητα 112

114 ενδιαμεσότητας και την κεντρικότητα πληροφορίας. Επιπλέον η κεντρικότητα εγγύτητας φαίνεται να επηρεάζεται αρκετά από την απομάκρυνση των χωρών για τις οποίες δεν ορίζεται συντελεστής σύμπλεξης, καθώς στις καινούριες μετρήσεις για τα εισερχόμενα μέτρα έχει αυξηθεί αισθητά η συσχέτιση της με τα υπόλοιπα μέτρα, ενώ για τα εξερχόμενα έχει μειωθεί. Τέλος, ο συντελεστής σύμπλεξης και η παραλλαγή του έχουν αρνητική συσχέτιση με όλα σχεδόν τα μέτρα. Η εξήγηση δόθηκε και παραπάνω. Ο συντελεστής σύμπλεξης είναι ένα μέτρο, που ανάλογα με τις ανάγκες του ερευνητή μπορεί να θεωρηθεί ευνοϊκό να λαμβάνει υψηλές τιμές, μπορεί όμως και το αντίθετο. Παρόλα αυτά, με τη δημιουργία του νέου μέτρου καταφέραμε και βελτιώσαμε τη συσχέτιση με τα υπόλοιπα μέτρα, καθώς σε αρκετές περιπτώσεις η μεγάλη αρνητική συσχέτιση έχει μετατραπεί σχεδόν σε έλλειψη συσχέτισης. Το νέο μέτρο λοιπόν με κάποιο τρόπο καθιστά το συντελεστή σύμπλεξης περισσότερο προσιτό στα υπόλοιπα μέτρα. Το τελευταίο βήμα είναι η δημιουργία ενός τυχαίου γραφήματος και ο έλεγχος της συσχέτισης των μέτρων κεντρικότητας στα δύο γραφήματα. Έτσι, δημιουργήσαμε ένα τυχαίο γράφημα αποτελούμενο από 26 κόμβους με τον ορισμό των Erdos και Renyi, με πιθανότητα σύνδεσης 1 4 και έγινε ο υπολογισμός των σημαντικότερων μέτρων. Παρακάτω βλέπουμε τον πίνακα γειτνίασης του τυχαίου γραφήματος. Πίνακας : Πίνακας γειτνίασης του τυχαίου γραφήματος 113

115 Στόχος μας είναι να εφαρμόσουμε στο τυχαίο γράφημα τα ίδια μέτρα που εφαρμόσαμε και στο δίκτυο του Twitter και να μπορέσουμε με κάποιο τρόπο να συγκρίνουμε τα δύο δίκτυα. Ένα εμπόδιο σε αυτή την προσπάθεια είναι ότι μεταξύ των κόμβων του τυχαίου γραφήματος και των χωρών του δικτύου Twitter δεν υπάρχει καμία αντιστοίχιση. Για το λόγο αυτό, θα τοποθετήσουμε τα αποτελέσματα των μέτρων για όλους τους κόμβους σε φθίνουσα σειρά ώστε να καταφέρουμε να εξετάσουμε τις συσχετίσεις του κάθε μέτρου και στα δύο δίκτυα. Στους παρακάτω πίνακες παρουσιάζονται αρχικά τα αποτελέσματα των εισερχόμενων και εξερχόμενων μέτρων για το τυχαίο γράφημα και στη συνέχεια η συσχέτιση των αποτελεσμάτων του κάθε μέτρου του ενός δικτύου με τα αποτελέσματα του ίδιου μέτρου που εφαρμόστηκε στο άλλο δίκτυο. Πίνακας Τιμές των σημαντικότερων εισερχόμενων μέτρων για το τυχαίο γράφημα 114

116 Πίνακας : Συσχετίσεις των εισερχόμενων μέτρων μεταξύ του δικτύου twitter και του τυχαίου γραφήματος Πίνακας : Τιμές των σημαντικότερων εξερχόμενων μέτρων για το τυχαίο γράφημα Πίνακας : Συσχετίσεις των εξερχόμενων μέτρων μεταξύ του δικτύου twitter και του τυχαίου γραφήματος 115

117 Τα αποτελέσματα των πινάκων και είναι άκρως εντυπωσιακά. Παρατηρούμε ότι και για τα δύο είδη μέτρων, αν εξαιρέσουμε την κεντρικότητα πυρηνοποίησης για τα εξωτερικά μέτρα, υπάρχει εξαιρετικά μεγάλη συσχέτιση της δράσης στα δύο δίκτυα. Ως αποτέλεσμα, η κατανομή του κάθε μέτρου στο δίκτυο του Twitter, προσεγγίζει αρκετά την κατανομή του κάθε μέτρου σε ένα τυχαίο γράφημα, αποτελούμενο από το ίδιο πλήθος κόμβων και έχοντας πιθανότητα σύνδεσης μεταξύ δύο οποιονδήποτε κόμβων ίση με 1. Το γεγονός αυτό μπορεί να χαρακτηριστεί ως μια 4 μικρή ένδειξη ότι η κατανομή της κεντρικότητας σε κοινωνικά δίκτυα, μπορεί να προσεγγιστεί από την κατανομή κεντρικότητας σε τυχαία Erdos και Renyi γραφήματα. 3.2 Παράδειγμα δικτύου παραπομπών Στο προηγούμενο παράδειγμα κοινωνικού δικτύου δε χρησιμοποιήθηκαν καθόλου οι δείκτες h και g, καθώς τα μέτρα αυτά χρησιμοποιούνται σχεδόν αποκλειστικά σε δίκτυα αναφορών. Έτσι το επόμενο παράδειγμα σχετίζεται με τη μελέτη ενός δικτύου αναφορών. Ένα δίκτυο αναφορών έχει για κόμβους επιστημονικές δημοσιεύσεις και οι κατευθυνόμενες ακμές αντιστοιχούν στην αναφορά μίας δημοσίευσης εντός των παραπομπών κάποιας άλλης. Η πρώτη σκέψη ήταν η απλή αναπαράσταση ενός δικτύου αναφορών με πραγματικά δεδομένα. Η έρευνα όμως του Redner έγινε αφορμή για σκέψη ενός άλλου τρόπου ορισμού του δικτύου. Ο Redner (1998) εξέτασε την κατανομή παραπομπών επιστημονικών δημοσιεύσεων από το Ινστιτούτο Επιστημονικών Ερευνών και δημοσιεύσεων οι οποίες εκδόθηκαν στο Physical Review D, μεταξύ 1975 και Το αποτέλεσμα της έρευνάς του ήταν ότι η πιθανότητα μια δημοσίευση να αναφέρεται k-φορές ακολουθεί μία κατανομή νόμου δύναμης με εκθέτη k=3. Δηλαδή η κατανομή των εσωτερικών βαθμών του δικτύου αναφορών ακολουθεί κατανομή νόμου δύναμης. Επιπλέον μια έρευνα του Vazquez (2001) έδειξε ότι, σε ένα δίκτυο αναφορών, το ίδιο ισχύει και για την κατανομή των εξωτερικών βαθμών των κόμβωνδημοσιεύσεων. 116

118 Όλα τα παραπάνω αποτελούν ενδείξεις ότι δημιουργώντας ένα τυχαίο γράφημα με το μοντέλο των Barabasi και Albert, τότε οι κόμβοι του δύναται να αντιστοιχούν σε επιστημονικές δημοσιεύσεις ενός δικτύου αναφορών, έχοντας ως κατανομή των βαθμών τους μία κατανομή νόμου δύναμης. Αυτή ακριβώς είναι και η κεντρική ιδέα, με βάση την οποία δημιουργήθηκε το δίκτυο του παραδείγματος. Αρχικά, δημιουργήσαμε ένα τυχαίο γράφημα Barabasi και Albert, αποτελούμενο από 200 κόμβους. Θεωρήσαμε ότι οι κόμβοι αυτοί αποτελούν τις 20 επιστημονικές δημοσιεύσεις 10 επιστημόνων, οι οποίες έχουν τις περισσότερες αναφορές σε σχέση με τις υπόλοιπες. Φυσικά στο παράδειγμα θα μπορούσαμε να χρησιμοποιήσουμε και πραγματικά δεδομένα και σίγουρα ένα δίκτυο με περισσότερες δημοσιεύσεις. Ωστόσο για τον στόχο του παραδείγματος το μέγεθος του δικτύου κρίνεται ικανοποιητικό. Το επόμενο βήμα είναι η κατασκευή του πίνακα γειτνίασης μέσω του τυχαίου γραφήματος. Ο πίνακας αυτός θα έχει διαστάσεις 200x200 και κάθε στοιχείο του θα αντιστοιχεί στην ύπαρξη ή όχι αναφοράς μεταξύ δύο δημοσιεύσεων. Ο πίνακας γειτνίασης δεν θα παρουσιαστεί λόγω μεγάλου μεγέθους. Tο δίκτυο αναφορών παρουσιάζεται παρακάτω. Δίκτυο παραπομπών. Κάθε κόμβος αντιστοιχεί σε μία επιστημονική δημοσίευση. Κόμβοι με το ίδιο χρώμα αποτελούν δημοσιεύσεις του ίδιου επιστήμονα. 117

119 Δουλεύοντας στο υπάρχον δίκτυο το σίγουρο είναι ότι δε θα μπορέσουμε να χρησιμοποιήσουμε πολλά μέτρα κεντρικότητας για τη σύγκριση των επιστημόνων. Έτσι λοιπόν, προτείνεται η δημιουργία ενός νέου δικτύου, στο οποίο κάθε κόμβος θα αντιστοιχεί σε έναν επιστήμονα και οι ακμές μεταξύ των επιστημόνων θα έχουν βάρη, τα οποία θα αντιστοιχούν στο πλήθος των αναφορών που έχουν δεχθεί οι εργασίες ενός επιστήμονα από τις εργασίες κάποιου άλλου. Πλέον, το δεύτερο δίκτυο που δημιουργήθηκε είναι κατευθυνόμενο και σταθμισμένο. Θα προσπαθήσουμε να εφαρμόσουμε κάποια από τα μέτρα κεντρικότητας και να ελέγξουμε τη συσχέτιση τους με τους δείκτες που δημιουργήθηκαν για τον υπολογισμό της κεντρικότητας σε δίκτυα αναφορών. Το καινούργιο δίκτυο και ο πίνακας γειτνίασης του, φαίνονται παρακάτω. Δίκτυο με κόμβους που αντιστοιχούν σε επιστήμονες και ακμές που δηλώνουν την ύπαρξη αναφοράς μιας δημοσίευσης του επιστήμονα στις παραπομπές των δημοσιεύσεων ενός άλλου. 118

120 Πίνακας :Πίνακας γειτνίασης του καινούργιου δικτύου. A, B, J: Οι δέκα επιστήμονες των επιστημονικών δημοσιεύσεων Τα μέτρα κεντρικότητας που θα συγκρίνουμε είναι η κεντρικότητα εσωτερικού και εξωτερικού βαθμού, η κεντρικότητα ενδιαμεσότητας και οι δείκτες h και g. Οι κεντρικότητες βαθμού και η κεντρικότητα ενδιαμεσότητας θα υπολογιστούν με τις παραλλαγές του Opsahl για κατευθυνόμενα σταθμισμένα δίκτυα,όπως περιγράφηκαν στη θεωρία, για τιμή της παραμέτρου ίση με 0.5. Παρακάτω βλέπουμε τα αποτελέσματα των δεικτών και τις συσχετίσεις τους. Πίνακας : Πίνακας τιμών των μέτρων κεντρικότητας σε δίκτυο αναφορών Πίνακας : Συσχετίσεις των μέτρων κεντρικότητας σε δίκτυο αναφορών 119

Δείτε περισσότερα