ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΑΛΛΗΛΕΠΙΔΡΑΣΗΣ ΑΝΘΡΩΠΟΥ ΜΗΧΑΝΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΧΡΙΣΤΑΚΟΠΟΥΛΟΥ ΕΥΑΓΓΕΛΙΑΣ ΤΟΥ ΑΝΔΡΕΑ (Αριθμός Μητρώου: 6662) Θέμα: Μελέτη εφαρμογών μεθόδων εξόρυξης γνώσης σε κοινωνικά δίκτυα ΕΠΙΒΛΕΠΟΥΣΑ ΚΑΘΗΓΗΤΡΙΑ: ΣΟΦΙΑ ΔΑΣΚΑΛΑΚΗ ΑΡΙΘΜΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: /2011 ΠΑΤΡΑ
2
ΠΙΣΤΟΠΟΙΗΣΗ Πιστοποιείται ότι η Διπλωματική Εργασία με θέμα: Μελέτη εφαρμογών μεθόδων εξόρυξης γνώσης σε κοινωνικά δίκτυα της φοιτήτριας του τμήματος Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών Χριστακοπούλου Ευαγγελίας του Ανδρέα (Αριθμός Μητρώου : 6662) παρουσιάστηκε δημόσια και εξετάστηκε στο τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών στις /07/2011 Η Επιβλέπουσα Ο συνεπιβλέπων Ο Διευθυντής του τομέα Επίκουρη Καθηγήτρια Καθηγητής Καθηγητής Σ.Δασκαλάκη Ν. Αβούρης Ε.Χούσος 3
4
ΑΡΙΘΜΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: ΤΙΤΛΟΣ: ΜΕΛΕΤΗ ΕΦΑΡΜΟΓΩΝ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΕ ΚΟΙΝΩΝΙΚΑ ΔΙΚΤΥΑ Φοιτήτρια: Χριστακοπούλου Ευαγγελία Επιβλέπουσα: Σοφία Δασκαλάκη Συνεπιβλέπων: Νικόλαος Αβούρης Περίληψη Ένα βασικό ανοιχτό ερώτηµα στην ανάλυση των online κοινωνικών δικτύων είναι η κατανόηση του φαινοµένου της οµοφιλίας. Οι χρήστες τους είναι όµοιοι µε τους φίλους τους, όσον αφορά τα ενδιαφέροντά τους, τα hobbies τους και τα θέµατα συζήτησής τους. Στη διπλωµατική αυτή εργασία, επιχειρείται η διερεύνηση του φαινοµένου της οµοφιλίας σε δύο κυρίαρχους και δηµοφιλείς δικτυακούς κοινωνικούς χώρους- στο Facebook και στο Twitter. Τα datasets τα οποία εξορύχθηκαν για αυτήν τη διπλωµατική εργασία αφορούν τους Έλληνες χρήστες των δύο προαναφερθέντων κοινωνικών δικτύων. Ακόµη, εισάγεται ένα καινούριο µοντέλο για τη µέτρηση της οµοιότητας µεταξύ των χρηστών, ως προς τα κοινά τους ενδιαφέροντα το λεγόµενο προσαρµοσµένο vector space µοντέλο. Το µοντέλο αυτό συγκρίνεται µε τη διαδεδοµένη µέθοδο των κοινών γειτόνων. Τέλος, προτείνεται η δηµιουργία recommendations βάσει των κοινών ενδιαφερόντων των χρηστών και όχι µόνο βάσει των κοινών φίλων (όπως είναι η υπάρχουσα κατάσταση). Μάλιστα, κατασκευάζεται µια web application η οποία δείχνει το πώς µπορεί να πραγµατοποιηθεί αυτό, κάνοντας homophily-based recommendations και χρησιµοποιώντας το προσαρµοσµένο vector space µοντέλο. 5
TITLE: STUDY OF APPLICATIONS OF DATA MINING METHODS IN SOCIAL NETWORKS Student: Christakopoulou Evangelia Supervisor: Sophia Daskalaki Co-supervisor: Nikolaos Avouris Abstract A fundamental open question in social networking analysis is the research of the phenomenon of homophily. The users of the social networking sites are similar to their friends, regarding their interests, their hobbies and their topics of discussion. In this diploma thesis, the study of the phenomenon of homophily is attempted in two main and popular networking sites- Facebook and Twitter. The datasets that were mined for the purpose of this diploma thesis concern the Greek users of the two above-mentioned social networking sites.moreover, a new method for measuring similarity between users regarding their common interests is introduced- the so-called adapted vector-space model. This model is compared to the popular method of common neighbors. Finally, the creation of recommendations based on the common interests of users (and not only based on the existence of common friends, as is the case with the existing situation) is suggested. What is more, a web application is constructed that shows how this can be implemented. This application makes homophily-based recommendations and it uses the adapted vector-space model. 6
Ευχαριστίες Η παρούσα διπλωµατική εργασία εκπονήθηκε στο Εργαστήριο Αλληλεπίδρασης Ανθρώπου Υπολογιστή του Τµήµατος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστηµίου Πατρών. Θα ήθελα να ευχαριστήσω όλους όσους συνέβαλαν στην ολοκλήρωση της εργασίας αυτής. Καταρχάς, τους επιβλέποντες την εργασία µου, τον καθηγητή Νικόλαο Αβούρη και την επίκουρη καθηγήτρια Σοφία ασκαλάκη για την πολύτιµη και πολύπλευρη βοήθειά τους, την εµπιστοσύνη τους σε µένα και τις πολύ ωραίες ιδέες που µου έδωσαν. Χωρίς την σηµαντικότατη συµβολή τους, αυτή η εργασία δε θα είχε ολοκληρωθεί. Ακόµη, θα ήθελα να ευχαριστήσω τη Λένα και την Κωνσταντίνα για τη µεγάλη τους υποστήριξη. Τέλος, θα ήθελα να ευχαριστήσω την οικογένεια και τους κοντινούς µου φίλους που µε βοήθησαν µε το δικό του τρόπο ο καθένας. 7
8
ΠΕΡΙΕΧΟΜΕΝΑ 1. Εισαγωγή... 13 1.1 Στόχος της διπλωµατικής εργασίας... 13 1.2 οµή της διπλωµατικής εργασίας... 14 2. Εισαγωγή στην Ανάλυση Κοινωνικών ικτύων... 15 2.1 ικτυακοί κοινωνικοί χώροι.... 15 2.1.1 Κοινωνικά δίκτυα & Social Media... 15 2.1.2 Twitter... 16 2.1.3 Facebook.... 17 2.2. Βασικά είδη ανάλυσης κοινωνικών δικτύων... 19 2.3 Linkage-based δοµή... 20 2.4 Content-based δοµή/ Οµοφιλία... 22 2.4.1 Μηχανισμοί ομοφιλίας: Επιλογή και Κοινωνική Επίδραση... 24 2.4.2 ιάδραση µεταξύ επιλογής και κοινωνικής επίδρασης... 25 2.5 Εξόρυξη γνώσης από social media... 27 2.5.1 Η εξόρυξη γνώσης µε µία µατιά... 28 2.5.2 Κίνητρα για εξόρυξη γνώσης σε social media.... 29 2.5.3 Αναπαράσταση και εξόρυξη δεδοµένων των social media.... 30 2.6 Πρόβλεψη συνδέσµων-recommendation-target marketing... 31 3 Εξόρυξη των Datasets... 33 3.1 ηµιουργία του Twitter Dataset... 33 3.1.1 Συλλογή twitterers.... 33 3.1.2 Συλογή tweets... 44 3.1.3 Power law... 69 3.1.4 Γράφος following... 83 3.2 ηµιουργία του Facebook Dataset.... 87 3.2.1 Γενικά.... 87 3.2.2 Dataset από το Facebook.com/directory... 92 3.2.3 Ego Network Dataset... 94 4 Ομοφιλία... 103 4.1 Γενικά... 103 4.2 Ομοφιλία στο facebook... 105 4.3 Ομοφιλία στο twitter... 114 5 Link prediction/recommendation... 127 5.1 Γενικά περί link prediction/recommendation... 127 9
5.1.1 Μέθοδοι similarity που υφίστανται... 127 5.1.2 Μέθοδοι similarity που θα χρησιμοποιήσουμε... 129 5.2 Recommendation στο Facebook... 132 5.2.1 Common Neighbors... 132 5.2.2 Vector Space Model... 138 5.3 Recommendation στο Twitter... 148 5.3.1 Common Neighbors... 148 5.3.2 Vector Space Model... 156 6 Web Application... 167 6.1 Η Facebook web application... 167 6.1.1 Tagcloud... 168 6.1.2 Cooccurences του hobby 180 6.1.3 Recommendation... 183 6.2 Η Twitter web application... 191 6.2.1 Tagcloud... 192 6.2.2 Cooccurences του hashtag... 204 6.2.3 Recommendation... 212 6.2.4 Video... 218 7 Συμπεράσματα... 225 7.1 Συμπεράσματα... 225 7.2 Empirical evaluation... 226 7.3 Καινοτόμα συνεισφορά αυτής της διπλωματικής εργασίας... 228 7.4 Μελλοντικές κατευθύνσεις... 229 Βιβλιογραφία... 231... 10
11
12
Εισαγωγή 1 1.1 Στόχος της διπλωματικής εργασίας Ο στόχος της παρούσης διπλωµατικής εργασίας είναι διττός. Ο πρώτος επιµέρους στόχος είναι η µελέτη του φαινοµένου της οµοφιλίας στους δικτυακούς κοινωνικούς χώρους, και πιο συγκεκριµένα σε δύο από τους βασικούς τους αντιπροσώπους το Facebook και το Twitter. Η διαπίστωση της ύπαρξης οµοφιλίας οδηγεί στο 2 ο επιµέρους στόχο, που είναι η δηµιουργία ενός recommendation συστήµατος βασιζόµενου στην οµοφιλία, το οποίο υλοποείται µε την εισαγωγή ενός νέου µοντέλου και οδηγεί στη δηµιουργία µιας web application. 13
1.2 Δομή της διπλωματικής εργασίας Στο κεφάλαιο 2 γίνεται µια εισαγωγική παρουσίαση των social networking sites, των µεθόδων εξόρυξης γνώσης από δικτυακούς κοινωνικούς χώρους, των ιδιοτήτων των γράφων και εξηγείται η σηµασία του όρου οµοφιλία όπως και του recommendation system. Στο κεφάλαιο 3 περιγράφεται η διαδικασία της δηµιουργίας του twitter και του facebook dataset. Πιο συγκεκριµένα, περιγράφεται η εξόρυξη των δεδοµένων, η προεπεξεργασία τους, το καθάρισµά τους και τα εργαλεία που χρησιµοποίηθηκαν. Στο κεφάλαιο 4 ερευνάται το φαινόµενο της οµοφιλίας και στο Facebook και στο Twitter, µε τη χρήση ενός µοντέλου πιθανοτήτων. Στο κεφάλαιο 5 εισάγεται το προσαρµοσµένο vector-space µοντέλο. Χρησιµοποιώντας αυτό το µοντέλο, όπως και τη µέθοδο των κοινών γειτόνων, ερευνάται η οµοιότητα µεταξύ των χρηστών των δύο προαναφερθέντων κυρίων κοινωνικών δικτύων. Στο κεφάλαιο 6, παρουσιάζεται η web application και αναλύεται ο τρόπος που προκύπτουν τα recommendations, βάσει των κοινών ενδιαφερόντων των χρηστών. Τέλος, στο κεφάλαιο 7, περιγράφονται τα συµπεράσµατα που προέκυψαν από αυτή τη διπλωµατική εργασία, το empirical evaluation, η καινοτοµία της και κάποιες µελλοντικές κατευθύνσεις. 14
Εισαγωγή στην Ανάλυση Κοινωνικών Δικτύων 2 2.1 Δικτυακοί κοινωνικοί χώροι 2.1.1 Κοινωνικά δίκτυα & Social media Ο ερχοµός και η ακµάζουσα δηµοτικότητα online κοινωνικών δικτύων όπως του Twitter και του Facebook υπήρξε ένα από τα πιο συναρπαστικά γεγονότα της τελευταίας δεκαετίας. Αυτά τα social media έχουν οδηγήσει σε µια τεράστια έκρηξη network-centered δεδοµένων. Γενικά, ένα κοινωνικό δίκτυο ορίζεται ως το δίκτυο των αλληλεπιδράσεων ή των σχέσεων, όπου οι κόµβοι απαρτίζονται από actors και οι ακµές απαρτίζονται από τις σχέσεις ή τις αλληλεπιδράσεις µεταξύ των actors. Οι συµβατικές µελέτες πάνω στις αναλύσεις των κοινωνικών δικτύων έχουν ιστορικά προηγηθεί του ερχοµού και της δηµοφιλίας των computers και του Internet. Ένα κλασικό παράδειγµα αυτού είναι η µελέτη του Milgram τη δεκαετία του 60 (πολύ πριν την εφεύρεση του ίντερνετ),ο οποίος διατύπωσε την περίφηµη αρχή των «6 degrees of separation», η οποία υποστηρίζει ότι οποιοσδήποτε άνθρωπος στον κόσµο απέχει από οποιονδήποτε άλλον κατά µέσον όρο έξι βήµατα. Αυτό επίσης αναφέρεται ως «small world phenomenon». Σήµερα, µια µεγάλη ποικιλία online δεδοµένων είναι διαθέσιµη ώστε να χρησιµοποιηθούν για να αποδείξουν το παραπάνω φαινόµενο, όπως και άλλες εικασίες σαν αυτή του «shrinking diameters» ή του «preferential attachment». Γενικά, η διαθεσιµότητα των µαζικών ποσοτήτων των 15
δεδοµένων σε µια online εφαρµογή έχει δώσει µια νέα ώθηση προς µια επιστηµονική και στατιστικά αξιόπιστη µελέτη του πεδίου των κοινωνικών δικτύων. Ο ορισµός των social media, όπως δίνεται από τη Wikipedia είναι ο ακόλουθος: «µέσα σχεδιασµένα για να διαχέονται µέσω της κοινωνικής αλληλεπίδρασης, µε υψηλή προσβασιµότητα και µε τεχνικές δηµοσίευσης που µπορούν να µεταβάλλονται. Τα social media χρησιµοποιούν το Internet και τεχνολογίες που βασίζονται στο web για να µετασχηµατίζουν µονολόγους που εκπέµπονται στα media (οne to many) σε social media διαλόγους (many to many). Έτσι στηρίζουν την δηµοκρατικοποίηση της γνώσης και της πληροφορίας, µεταµορφώνοντας τους ανθρώπους από καταναλωτές περιεχοµένου σε παραγωγούς περιεχοµένου». Τα social media αναφέρονται σε µια ποικιλία υπηρεσιών πληροφορίας που χρησιµοποιούνται συνεργατικά από πολλούς ανθρώπους και διακρίνονται στις εξής κατηγορίες: ΚΑΤΗΓΟΡΙΑ Blogs Microblogs Opinion mining Photo and video Sharing Social bookmarking Social networking sites Social news Wikis ΠΑΡΑ ΕΙΓΜΑΤΑ Blogger, LiveJournal, WordPress Twitter, GoogleBuzz Epinions, Yelp Flickr, YouTube Delicious, StumbleUpon Facebook, LinkedIn, MySpace, Orkut Digg,Slashdot Scholarpedia, Wikihow,Wikipedia, Event maps Πίνακας 2.1.1 Κατηγορίες-Παραδείγματα Social Media Σαν δύο αντιπροσωπευτικά παραδείγµατα social media σε αυτή τη διπλωµατική εργασία, χρησιµοποιούνται το twitter και το facebook. 2.1.2 Twitter Το Twitter είναι µια από τις πιο αξιοσηµείωτες micro-blogging υπηρεσίες, που απασχολεί ένα µοντέλο κοινωνικού δικτύου που ονοµάζεται «following», στο οποίο 16
κάθε χρήστης µπορεί να διαλέξει εκείνον που αυτός θέλει να «ακολουθεί» (follow), δηλαδή από τον οποίο µπορεί να λαµβάνει tweets χωρίς να απαιτείται ο τελευταίος να παρέχει άδεια πρώτα. Το Micro-blogging είναι ένα είδος επικοινωνίας που εµφανίζεται ολοένα και περισσότερο στο προσκήνιο τα τελευταία χρόνια. Επιτρέπει στους χρήστες να δηµοσιεύουν σύντοµα µηνύµατα ενηµέρωσης, τα οποία µπορεί να υποβάλλονται σε πολλά διαφορετικά κανάλια, συµπεριλαµβανοµένου του Web και της υπηρεσίας έκδοσης µηνυµάτων. Μία από τις περισσότερο διακεκριµένες υπηρεσίες του microblogging είναι το Twitter. Αναφερόµαστε στους χρήστες του twitter ως «Twitterers», και τα µικρά µηνύµατα ενηµέρωσης που δηµοσιεύονται από τους χρήστες «tweets». Αυτό επιτρέπει στους twitterers να δηµοσιεύουν tweets (µε ένα όριο 140 χαρακτήρων).το Twitter επίσης παρέχει τη λειτουργικότητα της κοινωνικής δικτύωσης. Αντίθετα προς τις υπηρεσίες άλλων κοινωνικών δικτύων που απαιτούν οι χρήστες να στέλνουν προσκλήσεις φιλίας προς τους άλλους χρήστες για να τους κάνουν φίλους, το Twitter περιλαµβάνει ένα µοντέλο κοινωνικής δικτύωσης καλούµενο «ακόλουθος» (following),στο οποίο κάθε twitterer επιτρέπεται να διαλέγει ποιόν θέλει να ακολουθεί χωρίς απαίτηση κάποιας άδειας. Αντιστρόφως, αυτός µπορεί επίσης να ακολουθείται από άλλους χωρίς τη χορήγηση άδειας πρώτα. Το Twitter έγινε πολύ δηµοφιλές από την πρώτη µέρα που εµφανίστηκε. Ενδεικτικά, το πρώτο εξάµηνο του 2010 ήταν καταγεγραµµένοι στο Twitter πάνω από 100 εκατοµµύρια χρήστες, οι οποίοι συνέτασσαν πάνω από 65 εκατοµµύρια tweets την ηµέρα. Αυτό έχει τραβήξει το αυξανόµενο ενδιαφέρον της ερευνητικής κοινότητας. Έχουν γίνει εργασίες για τη µελέτη των τοπολογικών και γεωγραφικών ιδιοτήτων του κοινωνικού δικτύου που σχηµατίστηκε από τους twitterers και από τους followers τους. Επιπροσθέτως, έχουν πραγµατοποιηθεί έρευνες για τον προσδιορισµό της ταυτότητας των twitterers που επηρεάζουν («influential»). 2.1.3 Facebook Το Facebook βασίζεται σε µία µοναδική τάξη δικτύων που ονοµάζεται «publicly articulated» δίκτυα τα οποία είναι δίκτυα που δείχνουµε στους άλλους και χρησιµοποιούµε ως µέσο για να διαχειριζόµαστε πρόσβαση σε πληροφορίες. Tο Facebook είναι ένα τέτοιο δίκτυο, στο οποίο οι «φίλοι» (friends) εµφανίζονται σε µία κυλιόµενη λίστα πληροφοριών, που ονοµάζεται «news feed». Οι φίλοι µπορούν να 17
παίζουν παιχνίδια, να µοιράζονται φωτογραφίες, να στέλνουν µηνύµατα, να κάνουν chat και να προσκαλούν ο ένας τον άλλο σε εκδηλώσεις. Βασικά, η λίστα των φίλων κάποιου ατόµου είναι ένα βήµα εκκίνησης για τη φιλοξενία δραστηριοτήτων που οι άνθρωποι θέλουν να κάνουν online µε κάποιους ανθρώπους, αλλά όχι µε όλους. Το Facebook είναι πιθανόν το µεγαλύτερο «publicly articulated» κοινωνικό δίκτυο στον κόσµο. Έχει περισσότερα από 400 εκατοµµύρια µέλη, που εικονικά όλοι τους συνδέονται µε κάποιο τρόπο µε οποιονδήποτε άλλον. ιακόσιοι εκατοµµύρια από τους χρήστες του Facebook κάνουν log in κάθε µήνα. Το Facebook ξεκίνησε το 2004 και προσέφερε κάτι ξεχωριστό στην online business: αποκλειστικότητα. Το site ξεκίνησε µεταξύ φοιτητών του Harvard και µετά άρχισε να αυξάνεται συνεχώς, προσθέτοντας χρήστες από επιλεγµένα πανεπιστήµια, και ακολούθως από σχεδόν όλα τα πανεπιστήµια, και τελικά από το ευρύ κοινό. Αυτή η προσέγγιση έδωσε στο Facebook δύο πλεονεκτήµατα σε σχέση µε τους ανταγωνιστές του. Το πρώτο είναι ότι καθώς οι φοιτητές ήταν ήδη καλά συνδεδεµένοι µεταξύ τους, το site µπορούσε από νωρίς να επωφεληθεί από τα network effects. εύτερον, η προέλευσή του από το Harvard, σε συνδυασµό µε την αισθητική των χρωµάτων µπλε και άσπρο σηµατοδότησαν την νοµιµότητα που προσέλκυσε µεγαλύτερους και πιο σκεπτικούς χρήστες. Μία από τις αντιφάσεις του Facebook είναι ότι ναι µεν παρέχει εργαλεία για την διατήρηση της ιδιωτικότητας των χρηστών αλλά τείνει να θέλει να δίνει προς τα έξω όσο περισσότερο περιεχόµενο σε όσους δυνατόν περισσότερους ανθρώπους δηµόσια. ηλαδή λειτουργεί στην ιδέα ότι οι φίλοι έχουν µία πρόσβασηέλεγχο, καθώς µπορούν να δουν ο ένας τις φωτογραφίες του άλλου, να διαβάσουν τις ενηµερώσεις κατάστασης και να προσκληθούν ο ένας στις εκδηλώσεις του άλλου, µε έναν τρόπο που οι ξένοι δεν µπορούν να αλληλεπιδράσουν µε το χρήστη. 18
Εικόνα 2.1.1 Hobbies Facebook Τα δίκτυα φιλίας που δηµιουργούνται στο Facebook τείνουν να οµαδοποιούνται (cluster) φυσικά γύρω από τις διαφορετικούς τοµείς της ζωής ενός ανθρώπου: φίλοι, συµµαθητές, συνάδελφοι και οικογένεια, µαζί µε άλλες οµάδες και χόµ µπυ. Αν κάποιος είναι ιδιαιτέρως ενεργός και στο site και προέρχεται από µία κοινωνία που είναι ιδιαιτέρως προχωρηµ µένη στο Facebook, το δίκτυο θα είναι τεράστιο, αλλά και πάλι το πιο πιθανό είναι να οµδοποιηθεί και πάλι µε τρόπους που βγάζουν νόηµα. Για αυτό το λόγο µας ενδιαφέρει το clustering και οι σηµαντικοί άνθρωποι µέσα και µεταξύ των clusters.τα clusters συνήθως θεωρούνται µη-ταξινοµηµένα. Σε ένα σύνηθες δίκτυο του Facebook, οι κόµβοι οµαδοποιούνται σε ξεκάθαραα γκρουπ ατόµων, τα clusters, όπως φίλοι από το Λύκειο ή συνάδελφοι από τη δουλειά. Αυτό είναι µια από τις πιο σηµαντικές και µε νόηµα πληροφορίες που µπορούµε να τραβήξουµε από το Facebook δίκτυο φίλων. 2.2 Βασικά είδη ανάλυσης κοινωνικών δικτύων Τα online κοινωνικά δίκτυα, (σε αυτά συµπεριλαµβάνονται και το Facebook και το Twitter), περιλαµβάνουν τεράστια ποσότητα περιεχοµένου, όπως κείµενα, εικόνες, ήχος ή βίντεο. Αυτό το περιεχόµενο µπορεί να χρησιµοποιηθεί για πολλούς σκοπούς. Συγκεκριµένα, η αλληλεπίδραση µεταξύ των συνδέσµων και του περιεχοµένου έχει 19
ωθήσει στη δηµιουργία µιας µεγάλης ποικιλίας εφαρµογών εξόρυξης. Επιπροσθέτως, τα social media δίνουν στους χρήστες πολλούς διαφορετικούς τρόπους ώστε να αλληλεπιδρούν ο ένας µε τον άλλο, όπως το να κάνουν tag ο ένας στον άλλο. Όλοι αυτοί οι έµµεσοι τύποι αλληλεπίδρασης προσφέρουν άφθονη content-based γνώση η οποία µπορεί να αξιοποιηθεί για σκοπούς εξόρυξης. Υπάρχουν δύο πρωτογενή είδη δεδοµένων τα οποία συχνά αναλύονται στο περιβάλλον των κοινωνικών δικτύων: Linkage-based & Structural Analysis : Φτιάχνουµε µία ανάλυση της συµπεριφοράς της σύνδεσης του δικτύου µε σκοπό να καθορίσουµε σπουδαίους κόµβους, κοινότητες, συνδέσµους και τις αναπτυσσόµενες περιοχές του δικτύου. Αυτή η ανάλυση παρέχει µια καλή γενική εποπτεία της συµπεριφοράς της παγκόσµιας εξέλιξης του θεµελιώδους δικτύου. Adding Content-based Analysis: Πολλά κοινωνικά δίκτυα περιέχουν τεράστιο ποσό περιεχοµένου το οποίο το χρησιµοποιούν προκειµένου να καλυτερέψουν την ποιότητα της ανάλυσης. Για παράδειγµα, δίκτυα blogs, δίκτυα emails και πίνακες µηνυµάτων περιέχουν στοιχεία κειµένων που είναι συνδεδεµένα το ένα µε το άλλο. Έχει παρατηρηθεί ότι ο συνδυασµός linkage-based analysis µε content-based analysis έχει πολύ ικανοποιητικά αποτελέσµατα στις περισσότερες εφαρµογές. Το περιεχόµενο µπορεί να είναι συνδεδεµένο µε κόµβους στην κοινότητα, πράγµα το οποίο έχει δειχθεί ότι βελτιώνει την ποιότητα των clusters στο δίκτυο. Αυτό συµβαίνει διότι το περιεχόµενο πληροφορίας σε διαφορετικά τµήµατα του δικτύου συχνά συνδέεται στενά µε τη δοµή του. Ο συνδυασµός των δύο µπορεί να προσφέρει χρήσιµη πληροφορία η οποία δε θα µπορούσε να αποκτηθεί ούτε από το ένα ούτε από το άλλο σαν µοναδική οντότητα. Έχει επίσης παρατηρηθεί ότι η χρήση του περιεχοµένου πληροφορίας µπορεί επίσης να καλυτερέψει τα ποιοτικά αποτελέσµατα σε προβλήµατα όπως το link inference. 2.3 Linkage-based δομή Ενα δίκτυο κοινότητας (community network) µπορεί να οριστεί ως µια οµάδα ατόµων που είναι πολύ περισσότερο συνδεδεµένα το ένα στο άλλο από ότι είναι 20
συνδεδεµένα µε µία άλλη οµάδα συνδεδεµένων ατόµων που βρίσκονται σε άλλα µέρη του δικτύου. Οι κοινότητες προσδιορίζονται από δοµικές συνδέσεις, όχι αναγκαία από κάποια ιδιαίτερα κοινά χαρακτηριστικά. Βασικά, ένα κοινωνικό δίκτυο είναι ένα οργανωµένο τµήµα κόσµου, που συνίσταται από δύο είδη στοιχείων: τους ανθρώπους και τις συνδέσεις µεταξύ τους. Η οργάνωση των φυσικών κοινωνικών δικτύων, τυπικά δεν επιβάλλεται από την κορυφή. Πράγµατι τα καθηµερινά κοινωνικά δίκτυα, αναπτύσσονται συστηµατοποιηµένα από τη φυσική τάση του κάθε ατόµου να αναζητά και να κάνει πολλούς ή λίγους φίλους, να έχει µεγάλες ή µικρές οικογένειες, να εργάζεται σε προσωπικές ή ανώνυµες θέσεις εργασίας. Το σχήµα του δικτύου, γνωστό επίσης ως η δοµή του και η τοπολογία, είναι µια βασική ιδιότητα του δικτύου. Ενώ το σχήµα µπορεί να απεικονίζεται µε διαφορετικούς τρόπους, το πραγµατικό σχέδιο (pattern) των διασυνδέσεων που καθορίζει το σχήµα, παραµένει το ίδιο ανεξάρτητο από το πώς απεικονίζεται το δίκτυο. Μπορούµε να παρουσιάσουµε ένα κοινωνικό δίκτυο σαν ένα γράφο. Ένας στατικός unweighted γράφος G αποτελείται από ένα σύνολο V κόµβων και από ένα σύνολο ακµών E: G =, E.Παρουσιάζουµε τα µεγέθη του και του E σαν Ν και Ε. Ένας γράφος µπορεί να είναι κατευθυνόµενος ή µη κατευθυνόµενος- για παράδειγµα, µια τηλεφωνική κλήση µπορεί να είναι από τη µια οµάδα στην άλληκαι θα έχουν ένα κατευθυνόµενο άκρο, ή µία αµοιβαία φιλία πιθανόν παρουσιάζεται σαν ένα µη κατευθυνόµενο άκρο. Οι γράφοι µπορούν επίσης να είναι weigthed, όπου εκεί πιθανόν βρίσκονται πολλαπλά άκρα µεταξύ των δύο κόµβων (π.χ. επανάληψη φωνητικής κλήσης) ή ειδικά βάρη άκρων (π.χ. χρηµατικά ποσά για συναλλαγή). Σε ένα σταθµισµένο γράφο, έστω ότι e, είναι το άκρο µεταξύ των κόµβων i και των κόµβων j.θα αναφερόµαστε σε αυτούς τους δύο κόµβους σαν τους γειτονικούς κόµβους ( neighboring nodes ) ή incident nodes (προσπίπτοντες κόµβοι) του άκρου e, Έστω, το βάρος του άκρου e,. Το συνολικό βάρος του κόµβου ορίζεται ως το άθροισµα των βαρών όλων των δικών του συνεπαγόµενων άκρων, το οποίο είναι =, όπου δηλώνει τους βαθµούς του (τις τάξεις του). 21
Υπάρχει µια σχέση µεταξύ δοθέντος άκρου βάρους, και των βαρών των γειτονικών του κόµβων και. Τέλος, οι γράφοι µπορεί να είναι µονοµερείς ή πολυµερείς. Πολλά κοινωνικά δίκτυα είναι µονοµερή π.χ άνθρωποι σε µια οµάδα. Όµως, επίσης πιθανόν να είναι πολυµερείς δηλαδή υπάρχουν πολλαπλές τάξεις κόµβων και άκρων τα οποία είναι µόνο σχεδιασµένα µεταξύ κόµβων διαφορετικών τάξεων. Ο διµερής γράφος, όπως ο γράφος movie-actor του IMDB, ο οποίος αποτελείται από ασύνδετα σύνολα των κόµβων και, λέει, για συγγραφείς και κινηµατογραφικές ταινίες, µε κανένα άκρο ανάµεσα σε κόµβους του ιδίου τύπου. Μπορούµε να παραστήσουµε ένα γράφο είτε οπτικά, ή µε ένα adjacent πίνακα Α, όπου οι κόµβοι είναι σε γραµµές και στήλες, και οι αριθµοί στον πίνακα δείχνουν την ύπαρξη των άκρων. Για µη σταθµισµένους γράφους, όλες οι είσοδοι είναι 0 ή 1. Για τους σταθµισµένους γράφους ο adjacent πίνακας περιέχει τις τιµές των βαρών. Μια άλλη ενδιαφέρουσα ιδιότητα ενός γράφου είναι η κατανοµή των components του. Αναφερόµαστε σε ένα συνδεδεµένο component σε ένα γράφο ως ένα σύνολο κόµβων και άκρων όπου υπάρχει µία διαδροµή µεταξύ κάθε δυο κόµβων στο σύνολο.(για directed γράφους, αυτό θα είναι ένα ασθενώς συνδεδεµένο component, όπου ένα ισχυρά συνδεδεµένο component απαιτεί µία άµεση διαδροµή µεταξύ κάθε δύο δοθέντων κόµβων µέσα σε ένα σύνολο.) Σε πραγµατικούς γράφους µε το χρόνο σχηµατίζεται ένα τεράστιο συνδεδεµένο component (GCC). Components τάξης 2 σχηµατίζουν ένα power law. Τέλος, ένα άλλο πολύ σηµαντικό χαρακτηριστικό του γράφου είναι η διάµετρος. Για ένα δοθέντα (static) γράφο η διάµετρος ορίζεται ως η µεγίστη απόσταση µεταξύ δύο οποιωνδήποτε κόµβων, όπου απόσταση είναι ο ελάχιστος αριθµός των hops (π.χ. άκρα τα οποία πρέπει να µεταπηδηθούν) στη διαδροµή από τον ένα κόµβο στον άλλο, αγνοώντας την κατευθυντικότητα. 2.4 Content-based δομή/ομοφιλία Μία από τις πιο βασικές έννοιες που διέπουν τη δοµή των κοινωνικών δικτύων είναι η οµοφιλία - η αρχή κατά την οποία τείνουµε να γίνουµε όµοιοι µε τους φίλους µας. Συνήθως, οι φίλοι µας δεν µοιάζουν µε ένα τυχαίο δείγµα του βασικού πληθυσµού, 22
αλλά είναι γενικά όµοιοι µε µας σε φυλετικές και εθνικές διαστάσεις, στην ηλικία, και σε χαρακτηριστικά τα οποία είναι περισσότερο ή λιγότερο µεταβλητά, τα οποία συµπεριλαµβάνουν τα µέρη που ζουν, τις ασχολίες τους, τα επίπεδα του πλούτου και τα ενδιαφέροντά τους, τις πεποιθήσεις και τις απόψεις τους. Προφανώς, πολλοί από εµάς έχουν ειδικές φιλίες οι οποίες είναι εξαίρεση στα παραπάνω, αλλά σε γενικές γραµµές οι σύνδεσµοι σε ένα κοινωνικό δίκτυο τείνουν να συνδέουν ανθρώπους οι οποίοι είναι όµοιοι ο ένας µε τον άλλο. Αυτή η παρατήρηση έχει µια µακρά ιστορία, καθώς οι McPherson, Smith-Lovin και Cook σηµειώνουν στην εκτεταµένη περίληψη της έρευνάς τους πάνω στην οµοφιλία, ότι η θεµελιώδης ιδέα µπορεί να βρεθεί στα γραπτά του Πλάτωνα («η οµοιότητα προκαλεί φιλία») και στον Αριστοτέλη (οι άνθρωποι «αγαπούν εκείνους που µοιάζουν στους εαυτούς τους») καθώς επίσης σε διάφορες παροιµίες. Επιπλέον, η οµοφιλία αποτέλεσε σε µεγάλο µέρος αντικείµενο δουλειάς των Lazarsfeld και Merton στα 1950. Η οµοφιλία µάς παρέχει µια πρώτη θεµελιώδη εικόνα του πώς το περιβάλλον ενός δικτύου µπορεί να οδηγήσει στο σχηµατισµό των συνδέσµων του. Θεωρούµε τη βασική αντίθεση µεταξύ µιας φιλίας που σχηµατίζεται επειδή δύο άτοµα συστήνονται µέσω ενός κοινού φίλου και µίας φιλίας που σχηµατίζεται επειδή δύο άτοµα παρακολουθούν το ίδιο σχολείο ή δουλεύουν για την ίδια εταιρεία. Στην πρώτη περίπτωση, ένας καινούργιος σύνδεσµος προστίθεται για λόγους που είναι εγγενείς ( intrinsic ) στο δίκτυο, οπότε χρειάζεται να µην κοιτάµε πέραν του δικτύου για να καταλάβουµε από πού προήλθε ο σύνδεσµος. Στη δεύτερη περίπτωση, ο νέος σύνδεσµος προκύπτει από ένα εξίσου φυσικό λόγο, αλλά εδραιώνεται µόνο όταν κοιτάξουµε τους συναφείς ( contextual ) παράγοντες πέραν του δικτύου - σε κάποια από τα κοινωνικά περιβάλλοντα (π.χ σχολεία και εταιρείες) στα οποία ανήκουν οι κόµβοι. Φυσικά, υπάρχουν ισχυρές αλληλεπιδράσεις µεταξύ των εγγενών και συναφών αποτελεσµάτων για το σχηµατισµό κάθε απλού συνδέσµου, και τα δύο λειτουργούν παράλληλα µέσα στο ίδιο δίκτυο. Για παράδειγµα, η αρχή του «triadic closure» κατά την οποία τρίγωνα στο δίκτυο τείνουν να «κλείσουν» σα σχηµατισµοί συνδέσµων µεταξύ φίλων των φίλων, υποστηρίζεται από µια ποικιλία µηχανισµών που εκτείνονται από τους εγγενείς έως τους συναφείς. Αν θεωρήσουµε εγγενείς 23
µηχανισµούς: Όταν τα άτοµα Β και C έχουν ένα κοινό φίλο τον Α, τότε υπάρχουν αυξηµένες ευκαιρίες και πηγές εµπιστοσύνης στις οποίες βασίζουν τις αλληλεπιδράσεις τους, και ο Α θα έχει επίσης κίνητρα να διευκολύνει τη φιλία τους. Όµως, τα κοινωνικά περιβάλλοντα παρέχουν επίσης εγγενείς βάσεις για το τριαδικό κλείσιµο: αφού ξέρουµε ότι οι Α-Β και οι Α-C φιλίες ήδη υπάρχουν, η αρχή της οµοφιλίας προτείνει ότι καθένα από τα Β και C πιθανόν να είναι όµοιο µε το Α σε ένα αριθµό διαστάσεων, και ως εκ τούτου είναι πιθανώς όµοιοι ο ένας προς τον άλλο. Σαν αποτέλεσµα, βασισµένο καθαρά σε αυτή την οµοιότητα, είναι πολύ πιθανό η φιλία Β-C να σχηµατιστεί, ακόµα και αν κανένας από αυτούς δεν είναι ενήµερος ότι ο άλλος γνωρίζει τον Α. 2.4.1 Μηχανισμοί ομοφιλίας: Επιλογή και Κοινωνική Επίδραση Το γεγονός σύµφωνα µε το οποίο οι άνθρωποι τείνουν να κάνουν δεσµούς µε άλλους οι οποίοι είναι όµοιοι µε αυτούς, είναι ένας ισχυρισµός σχετικά µε τη δοµή των κοινωνικών δικτύων, που από µόνος του δεν προτείνει έναν µηχανισµό µέσω του οποίου να προτιµώνται να σχηµατίζονται δεσµοί µεταξύ οµοίων ανθρώπων. Στην περίπτωση των αµετάβλητων χαρακτηριστικών όπως η φυλή ή η εθνικότητα, η τάση των ανθρώπων να σχηµατίζουν φιλίες µε άλλους που τους µοιάζουν συχνά ορίζεται ως «επιλογή», κατά την οποία οι άνθρωποι επιλέγουν φίλους µε όµοια χαρακτηριστικά. Η επιλογή ίσως λειτουργεί σε πολλές διαφορετικές βαθµίδες, και µε διαφορετικά επίπεδα πρόθεσης. Σε µια µικρή οµάδα, όπου οι άνθρωποι επιλέγουν φίλους µε τους οποίους µοιάζουν πολύ από ένα σύνολο πιθανών επαφών αναµφίβολα η επιλογή είναι ενεργή. Σε άλλες περιπτώσεις, και σε πιο παγκόσµια επίπεδα, η επιλογή µπορεί να υπονοείται πιο πολύ. Για παράδειγµα, όταν οι άνθρωποι ζουν σε γειτονιές, παρακολουθούν σχολεία, ή εργάζονται σε εταιρίες που είναι σχετικά οµοιογενείς, συγκρινόµενοι µε τον πληθυσµό σα σύνολο, το κοινωνικό τους περιβάλλον ευνοεί ευκαιρίες για δηµιουργία φιλίας µε άλλους που τους µοιάζουν. Όταν εξετάζουµε πώς τα αµετάβλητα χαρακτηριστικά αλληλεπιδρούν µε το σχηµατισµό δικτύου, η διαδοχή των γεγονότων είναι σαφής : τα έµφυτα χαρακτηριστικά ενός προσώπου αποφασίζονται στη γέννηση, και παίζουν ρόλο στο πώς θα διαµορφωθούν οι διασυνδέσεις αυτού του προσώπου κατά τη πορεία της ζωής του/της. Από την άλλη µεριά, µε τα χαρακτηριστικά που είναι περισσότερο µεταβλητά- συµπεριφορές, δραστηριότητες, ενδιαφέροντα, ιδέες, και γνώµες, τα 24
αποτελέσµατα ανατροφοδότησης (feedback) µεταξύ των ατοµικών χαρακτηριστικών του προσώπου και των συνδέσµων στο κοινωνικό δίκτυο γίνονται περισσότερο πολύπλοκα. Αλλά τώρα µια άλλη διαδικασία έρχεται επίσης να παίξει ρόλο: οι άνθρωποι ίσως αλλάζουν τις συµπεριφορές τους για να τις φέρουν πιο κοντά σε «ευθυγράµµιση» µε τις συµπεριφορές των φίλων τους. Αυτή η διαδικασία έχει ποικιλοτρόπως περιγραφεί ως κοινωνικοποίηση και κοινωνική επίδραση, αφότου οι υπάρχουσες κοινωνικές συνδέσεις σε ένα δίκτυο επηρεάζουν τα ατοµικά χαρακτηριστικά των κόµβων. Η κοινωνική επίδραση µπορεί να σκιαγραφηθεί ως το αντίστροφο της επιλογής: µε την επιλογή, τα ατοµικά χαρακτηριστικά καθοδηγούν το σχηµατισµό των δεσµών, ενώ µε την κοινωνική επίδραση, οι υπάρχοντες δεσµοί στο δίκτυο εξυπηρετούν τη διαµόρφωση των µεταβλητών χαρακτηριστικών των ανθρώπων. 2.4. 2 Διάδραση μεταξύ επιλογής και κοινωνικής επίδρασης Όταν κοιτάµε ένα απλό στιγµιότυπο του δικτύου και βλέπουµε ότι οι άνθρωποι τείνουν να µοιράζονται µεταβλητά χαρακτηριστικά µε τους φίλους τους, µπορεί να είναι δύσκολο να ξεχωρίσουµε ευδιάκριτα τα αποτελέσµατα και τις συνεισφορές της επιλογής και της κοινωνικής επίδρασης. Ερωτήµατα όπως; Έχουν προσαρµόσει οι άνθρωποι τις συµπεριφορές τους στο δίκτυο ώστε να µοιάζουν περισσότερο µε των φίλων τους, ή έχουν αναζητήσει ανθρώπους που ήδη µοιάζουν µε αυτούς; ανακύπτουν και µπορούν να απαντηθούν χρησιµοποιώντας µακροχρόνιες µελέτες ενός κοινωνικού δικτύου, στο οποίο οι κοινωνικές διασυνδέσεις και οι συµπεριφορές µέσα σε µία οµάδα έχουν παρακολουθηθεί πάνω από µια χρονική περίοδο. Βασικά, αυτό δίνει τη δυνατότητα να δούµε τις αλλαγές της συµπεριφοράς που λαµβάνουν χώρα µετά τις αλλαγές στις συνδέσεις στο δίκτυο ενός ατόµου, σε αντίθεση µε τις αλλαγές του δικτύου που λαµβάνουν χώρα όταν ένα άτοµο αλλάζει τη συµπεριφορά του/της. Ένα παράδειγµα αλληλεπίδρασης αυτών των παραγόντων είναι η εργασία του Christakis και του Fowler πάνω στην επίδραση των κοινωνικών δικτύων σε αποτελέσµατα σχετικά µε την υγεία. Σε µια πρόσφατη µελέτη, χρησιµοποιώντας µακροχρόνια δεδοµένα που κάλυπταν περίπου 12,000 άτοµα, εστίασαν στην 25
κατάσταση της παχυσαρκίας του κοινωνικού δικτύου για µία περίοδο πάνω από 32 χρόνια. Οπότε βρήκαν ότι οι παχείς και οι µη παχείς άνθρωποι οµαδοποιούνται στο δίκτυο µε ένα τρόπο σχετικό µε την οµοφιλία: οι άνθρωποι τείνουν να γίνουν περισσότερο όµοιοι ως προς την κατάσταση παχυσαρκίας µε τους γείτονες τους στο δικό τους δίκτυο απ ότι στην εκδοχή του ιδίου δικτύου όπου η κατάσταση της παχυσαρκίας κατανέµεται τυχαία. Το πρόβληµα λοιπόν είναι να διακρίνουµε ανάµεσα στις πολλές υποθέσεις το γιατί παρουσιάζεται αυτή η οµαδοποιήση ( clustering): i. Είναι εξ αιτίας του αποτελέσµατος της επιλογής, όπου οι άνθρωποι διαλέγουν να δηµιουργούν φιλίες µε άλλους της ιδίας κατάστασης παχυσαρκίας; ii. Εξαιτίας των συγκεχυµένων αποτελεσµάτων οµοφιλίας σύµφωνα µε άλλα χαρακτηριστικά, στα οποία η δοµή του δικτύου δείχνει υπάρχοντα πρότυπα οµοιότητας σε άλλες διαστάσεις που συσχετίζονται µε την κατάσταση της παχυσαρκίας ; iii. Εξαιτίας των αλλαγών στην κατάσταση παχυσαρκίας των φίλων ενός προσώπου εξασκήθηκε επίδραση (πιθανόν συµπεριφοράς) που επηρεάζει τη µελλοντική του κατάταση παχυσαρκίας ; Στατιστική ανάλυση στην εργασία του Christakis και του Fowler θέτει τα εξής επιχειρήµατα, ακόµα και αν µετράµε για αποτελέσµατα των τύπων (i)και (ii), υπάρχει µια σηµαντική µαρτυρία για ένα επίσης αποτέλεσµα του τύπου (iii) :επειδή η παχυσαρκία είναι µια κατάσταση υγείας που φανερώνει ένα τύπο κοινωνικής επίδρασης, οι αλλαγές στην κατάσταση παχυσαρκίας των φίλων µας έχει διαδοχικά µια επακόλουθη επίδραση σε εµάς. Αυτό προτείνει την ενδιαφέρουσα άποψη ότι η παχυσαρκία (και ίσως άλλες καταστάσεις υγείας µε ισχυρή την πλευρά της συµπεριφοράς) παρουσιάζει κάποιο ποσό «µεταδοτικότητας» σε κοινωνικό επίπεδο: ναι µεν δεν «κολλάµε» από τους φίλους µας απαραιτήτως µε τον τρόπο που κολλάµε τη γρίπη, αλλά παρ όλα αυτά µπορεί να εξαπλωθεί µέσω του κοινωνικού δικτύου µε τους µηχανισµούς της κοινωνικής επίδρασης. Τα παραπάνω παραδείγµατα δείχνουν το πόσο δυσδιάκριτα είναι τα όρια µεταξύ επιλογής και κοινωνικής επίδρασης: ακόµα και όταν οι άνθρωποι τείνουν να οµοιάσουν στους γείτονές τους σε ένα κοινωνικό δίκτυο, ίσως δεν είναι σαφές γιατί. Το θέµα είναι ότι η παρατήρηση µιας οµοφιλίας συχνά δεν είναι από µόνη της µια 26
κατάληξη, αλλά µάλλον είναι το αρχικό σηµείο για βαθύτερες ερωτήσεις -ερωτήσεις που κατευθύνουν στο γιατί είναι παρούσα η οµοφιλία, πώς οι θεµελιώδεις µηχανισµοί της θα επηρεάσουν την περαιτέρω εξέλιξη του δικτύου, και πώς αυτοί οι µηχανισµοί αλληλεπιδρούν µε εξωτερικές εν δυνάµει προσπάθειες για να επηρεάσουν τη συµπεριφορά των ανθρώπων στο δίκτυο. 2.5 Εξόρυξη γνώσης από social media Η εξόρυξη γνώσης, ως ένα νέο πεδίο, έχει αποτελέσει την αιχµή του δόρατος στην έρευνα και στην ανάπτυξη µεθόδων και αλγορίθµων, καθώς χειρίζεται τεράστια ποσά δεδοµένων για την επίλυση προβληµάτων του πραγµατικού κόσµου. Παροµοιάζοντας τους data miners µε τους παραδοσιακούς µεταλλωρύχους που εξάγουν πολύτιµα µέταλλα από τη γη και τα ορυκτά, οι datα miners θέλουν να εξάγουν σηµαντικές πληροφορίες από µια βάση δεδοµένων που φαινοµενικά δεν είναι πρόθυµη και που δεν αποκτιέται πάντοτε εύκολα. Με την ευρέως διαδεδοµένη χρήση των social media µέσω του internet, ένα πρωτοφανές ποσό δεδοµένων είναι διαθέσιµο και είναι αντικείµενο µελέτης πολλών πεδίων, όπως η κοινωνιολογία, οι επιχειρήσεις, η ψυχολογία, η διασκέδαση, η πολιτική κοκ. Εφαρµόζοντας τις τεχνικές εξόρυξης γνώσης στα social media µπορούµε να ανακαλύψουµε ενδιαφέρουσες πλευρές της ανθρώπινης συµπεριφοράς και της ανθρώπινης αλληλεπίδρασης. Το data mining µπορεί να χρησιµοποιηθεί σε σύνδεση µε τα social media για να βελτιωθεί η αντίληψη που έχουν οι άνθρωποι σχετικά µε ένα θέµα, για να προσδιορισθούν οµάδες ανθρώπων ανάµεσα στις µάζες του πληθυσµού, για να µελετηθούν οµάδες που αλλάζουν µε το χρόνο, για να βρεθούν άνθρωποι µε επιρροή, ή ακόµα και να γίνει η σύσταση ενός προϊόντος ή µιας δραστηριότητας σε ένα άτοµο. Η εφαρµογή της εξόρυξης γνώσης στα δεδοµένα των social media, οδήγησε σε σηµαντική άνοδο των online social media τα τελευταία χρόνια. Τα δεδοµένα των social media έχουν τρία χαρακτηριστικά τα οποία δηµιουργούν προκλήσεις στους ερευνητές : Τα δεδοµένα είναι µεγάλα, θορυβώδη, και δυναµικά. Για να ξεπεράσουν αυτές τις προκλήσεις, αναπτύσσονται οι τεχνικές του data mining που χρησιµοποιούνται από τους ερευνητές για να δώσουν µία βαθύτερη µατιά στα δεδοµένα των social media που διαφορετικά δε θα ήταν δυνατόν. 27
2.5.1 Η εξόρυξη γνώσης με μία ματιά Ένας ορισµός του Data mining είναι η ταυτοποιήση νέων και actionable προτύπων στα δεδοµένα. Το Data mining είναι επίσης γνωστό ως Ανακάλυψη Γνώσης από εδοµένα (KDD=Knowledge Discovery from Data) ή ως Ανακάλυψη Γνώσης σε Βάσεις εδοµένων, που συντοµευµένα είναι επίσης KDD.Το Data mining σχετίζεται µε το machine learning, την ανάκτηση πληροφορίας, τη στατιστική, τις βάσεις δεδοµένων, και ακόµα και µε την οπτικοποίηση των δεδοµένων. Ένας τυπικός ορισµός για την εξόρυξη γνώσης βρέθηκε στο WordNet του Πανεπιστηµίου του Princeton όπου ορίζεται ως: «η επεξεργασία των δεδοµένων που χρησιµοποιεί ικανότητες αναζήτησης δεδοµένων και στατιστικούς αλγορίθµους για να ανακαλύψει πρότυπα και συσχετισµούς σε µεγάλες προϋπάρχουσες βάσεις δεδοµένων. Ένας τρόπος για να ανακαλύψουµε νέα σηµασία στα δεδοµένα» Η ιδέα κλειδί πίσω από το Data mining είναι η εύρεση καινούργιας πληροφορίας σε ένα σύνολο δεδοµένων, η οποία είναι κρυµµένη ή λανθάνουσα. Το data mining µπορεί να βοηθήσει ανθρώπους να καταλάβουν καλύτερα µεγάλα σύνολα δεδοµένων. Η κατάταξη (Classification) είναι µια συνήθης supervised προσέγγιση και είναι κατάλληλη όταν το σύνολο των δεδοµένων έχει ετικέτες ή ένα µικρό τµήµα των δεδοµένων έχει ετικέτες. Οι αλγόριθµοι της κατάταξης αρχίζουν µε ένα σύνολο εκπαιδευµένων δεδοµένων που περιλαµβάνουν ετικέτες τάξης για κάθε στοιχείο των δεδοµένων. Ο αλγόριθµος µαθαίνει από τα training δεδοµένα και φτιάχνει ένα µοντέλο το οποίο αυτόµατα κατηγοριοποιεί στοιχεία νέων δεδοµένων σε µια από τις ευδιάκριτες τάξεις που προµηθεύονται από τα training δεδοµένα. Κανόνες κατάταξης και δέντρα απόφασης είναι παραδείγµατα των supervised τεχνικών κατάταξης. To Clustering είναι µια συνηθισµένη unsupervised τεχνική εξόρυξης δεδοµένων που είναι χρήσιµη όταν αντιµετωπίζουµε σύνολα δεδοµένων χωρίς ετικέτες. Αντίθετα προς τους αλγορίθµους κατάταξης, οι αλγόριθµοι clustering δεν εξαρτώνται από training data για να αναπτύξουν ένα µοντέλο. Οι clustering αλγόριθµοι καθορίζουν ποια στοιχεία στο σύνολο δεδοµένων µοιάζουν, βασιζόµενοι στην οµοιότητα των στοιχείων των δεδοµένων. Η οµοιότητα µπορεί να οριστεί ως 28
ευκλείδεια απόσταση για µερικά σύνολα αριθµητικών δεδοµένων. Όµως, συχνά σε δεδοµένα που είναι συνδεδεµένα µε social media, οι τεχνικές cluster πρέπει να είναι ικανές να συναλλάσσονται µε το κείµενο. Σε αυτή την περίπτωση, οι τεχνικές clustering χρησιµοποιούν λέξεις κλειδιά οι οποίες αντιπροσωπεύονται ως διανύσµατα και το µέτρο του συνηµιτόνου της οµοιότητας χρησιµοποιείται για να ξεχωρίσει πώς οµοιάζει ένα διάνυσµα (στοιχείο δεδοµένων) µε ένα άλλο. Επιπροσθέτως των µεθόδων classification και clustering, υπάρχει µια ποικιλία από τεχνικές εξόρυξης που περιγράφονται σε διάφορα βιβλία όπως Bayesian classification algorithms, Support vector machines, text mining, link analysis, rule-based classifiers και multi-relational data mining. 2.5.2 Κίνητρα για εξόρυξη γνώσης σε social media Είναι υπεβολικά δύσκολο να παίρνουµε χρήσιµες πληροφορίες από τα δεδοµένα των κοινωνικών δικτύων χωρίς την εφαρµογή των τεχνολογιών της εξόρυξης δεδοµένων. Οι τεχνικές των δεδοµένων εξόρυξης µπορούν να βοηθήσουν αποτελεσµατικά διαχειριζόµενες τις τρεις κύριες προκλήσεις που θέτουν τα δεδοµένα των Social media. Πρώτον, τα σύνολα των δεδοµένων των social media είναι µεγάλα, θεωρούµε τα 400 εκατοµµύρια των χρηστών του Facebook σαν ένα παράδειγµα. Χωρίς αυτοµατοποιηµένη διαδικασία πληροφορίας για ανάλυση των Social media οι λογικές µέθοδοι ανάλυσης των δεδοµένων των κοινωνικών δικτύων θα γίνονταν ανέφικτες σε κάθε λογικό ποσό χρόνου. εύτερον, τα σύνολα των δεδοµένων των social media µπορεί να έχουν θόρυβο. Για παράδειγµα, spam blogs ή αλλιώς «splogs» είναι άφθονα στην µπλογκόσφαιρα, όπως επίσης και τα υπερβολικά επουσιώδη tweets στο Twitter. Τρίτον, τα δεδοµένα από online social media τα οποία είναι δυναµικά, συχνά µεταβαλλόµενα και που ανανεώνονται πολύ συχνά είναι τόσο συνηθισµένα που τα θεωρούµε ως µία σπουδαία παράµετρο που πρέπει να λάβουµε υπ όψιν. Τα wikis τροποποιούνται και δηµιουργούνται, τα δίκτυα των φίλων συνεχώς αλλάζουν µέγεθος και νέα µπλογκ εκδίδονται τακτικά.. 29
2.5.3 Αναπαράσταση και εξόρυξη δεδομένων των social media Όµοια µε τα δεδοµένα των άλλων κοινωνικών δικτύων, είναι συνηθισµένο να χρησιµοποιούµε ένα γράφο αναπαράστασης για να µελετήσουµε σύνολα δεδοµένων social media. Ένας γράφος αποτελείται από ένα σύνολο περιεχοµένων κορυφών (κόµβοι) και άκρων(δεσµοί).τα άτοµα αντιπροσωπεύονται τυπικά σαν κόµβοι στο γράφο. Οι σχέσεις ή οι συνεργασίες µεταξύ των ατόµων (κόµβων) αντιπροσωπεύονται σα δεσµοί στο γράφο. Αφού επιλέξουµε µια κατάλληλη διαδικασία εξόρυξης δεδοµένων, σκεφτόµαστε κάθε προεπεξεργασία που χρειάζεται να γίνει. Επίσης, ίσως είναι αναγκαίο να εφαρµόσουµε µία µεθοδική διαδικασία για τη δηµιουργία ενός περισσότερου αραιού συνόλου δεδοµένων για να θέσουµε λογικούς χρόνους επεξεργασίας. Η προεπεξεργασία θα περιελάµβανε θεώρηση για ανωνυµία και κατάλληλο µηχανισµό για προστασία της ιδιωτικότητος. Αν και τα social media περιλαµβάνουν πελώριες ποσότητες δηµοσίως διαθέσιµων δεδοµένων είναι σηµαντικό να διασφαλιστούν τα ατοµικά δικαιώµατα και να προστατευθεί η αποκλειστικότητα των site τους. Η επίδραση των spam χρειάζεται να εξεταστεί µαζί µε την χρονολογική παρουσίαση. Επιπροσθέτως µε την προεπεξεργασία, σηµαντικό είναι να εξετάσουµε την επίδραση του χρόνου. Είναι πολύ διαφορετικά τα αποτελέσµατα µιας χρονικής στιγµής συγκρινόµενα µε µιας άλλης στιγµής.αν και η συνιστώσα του χρόνου είναι ολοφάνερη θεώρηση για ορισµένες περιοχές όπως ο εντοπισµός θέµατος, η διάδοση επίδρασης, η ανάπτυξη δικτύου, λιγότερο εµφανής είναι η επίδραση του χρόνου σε εντοπισµό κοινότητας, στη συµπεριφορά οµάδας, και στο µάρκετινγκ. Το τι καθορίζει µια κοινότητα σε µία χρονική στιγµή µπορεί να είναι σηµαντικά διαφορετικό από κάποια άλλη χρονική στιγµή.η συµπεριφορά της οµάδας και τα ενδιαφέροντα αλλάζουν µε το χρόνο και ότι ήταν δηµοφιλές τη µια µέρα σε µια οµάδα την άλλη µέρα ίσως να µην είναι. Με τα δεδοµένα να αντιπροσωπεύονται σε γράφο, η εργασία αρχίζει µε επιλογή αριθµού κόµβων που είναι γνωστοί ως seeds. Η χρήση της δοµής των δεσµών για να επεκταθούµε από το σύνολο των seeds και η συγκέντρωση των νέων πληροφοριών 30
είναι γνωστή ως «crawling the network. Ο crawler ανακαλύπτει νέα πληροφορία και την αποθηκεύει σε µια τοποθεσία αποθήκευσης για περαιτέρω ανάλυση αργότερα. Μερικά social media sites όπως το Technorati,το Facebook,και το Twitter παρέχουν Application Programmer Interfaces(APIs) που επιτρέπουν οι εφαρµογές του crawler να αλληλεπιδρούν άµεσα µε την πηγή των δεδοµένων. Όµως, αυτά τα sites συνήθως περιορίζουν τον αριθµό των API συναλλαγών την ηµέρα καθώς εξαρτώνται από το δεσµό που έχει ο χρήστης του API µε το site. Μερικά sites έχουν τη δυνατότητα να συγκεντρώνουν δεδοµένα(crawl) χωρίς να χρησιµοποιούν APIs. οθέντος ότι το µέγεθος των δεδοµένων των social media που είναι διαθέσιµο είναι τεράστιο, καθίσταται απαραίτητο να περιορίσουµε το ποσό των δεδοµένων που συγκεντρώνει ο crawler. Αφότου ο crawler έχει συγκεντρώσει τα δεδοµένα, µερικές µεταδιαδικασίες είναι απαραίτητες για τον έλεγχο και το φιλτράρισµα των δεδοµένων. 2.6 Πρόβλεψη συνδέσμων- recommendation- target marketing Το πρόβληµα πρόβλεψης συνδέσµου (link prediction) είναι χρήσιµο για τον καθορισµό σπουδαίων µελλοντικών συνδέσµων στο κοινωνικό δίκτυο. Η διαδικασία της πρόβλεψης πιθανόν χρησιµοποιεί είτε τη δοµή του δικτύου είτε την πληροφορία των χαρακτηριστικών σε διαφορετικούς κόµβους. Το link prediction πρόβληµα σχετίζεται άµεσα µε το recommendation σύστηµα. Ένα σύστηµα recommendation αναλύει τα δεδοµένα των κοινωνικών δικτύων και προτείνει νέους φίλους ή νέες οµάδες σε ένα χρήστη. Η δυνατότητα του να προτείνουµε σε ένα άτοµο να γίνει µέλος µιας οµάδας δίνει πλεονέκτηµα σε µια οµάδα που θα ήθελε να έχει επιπρόσθετα µέλη και µπορεί να είναι χρήσιµη σε ένα άτοµο που ψάχνει να βρει άλλα άτοµα ή µια οµάδα ανθρώπων µε παρόµοια ενδιαφέροντα ή στόχους. Και πάλι, ο µεγάλος αριθµός των ατόµων και οµάδων το καθιστούν δύσκολη εργασία, χωρίς την ύπαρξη ενός αυτοµατοποιηµένου συστήµατος. Επιπροσθέτως, τα χαρακτηριστικά της οµάδας µεταβάλλονται µε το χρόνο. Για αυτούς τους λόγους, οι αλγόριθµοι των δεδοµένων εξόρυξης οδηγούν τις υπάρχουσες recommendations που γίνονται στους χρήστες. Από τη στιγµή που ένας καινούριος χρήστης εισέρχεται σε ένα site κοινωνικής δικτύωσης, το site παρέχει προτάσεις εξάπλωσης του κοινωνικού δικτύου του χρήστη. Μεγάλο µέρος της ελκυστικότητας των sites του κοινωνικού δικτύου είναι άµεσο αποτέλεσµα των 31
αυτοµατοποιηµένων recommendations οι οποίες επιτρέπουν στο χρήστη να δηµιουργεί και να εξαπλώνει ένα online κοινωνικού δικτύου µε σχετικά µικρή προσπάθεια από την πλευρά του. Μια υλοποίηση του συστήµατος recommendation χρησιµεύει σαν ένα καλό παράδειγµα. Οι recommendations βασίζονται στα δεδοµένα του προφίλ του χρήστη και σε µια σχετική δοµή συνδέσµων σύνδεσης του χρήστη, η οποία µπορεί να χρησιµοποιηθεί για να παρέχει εισηγήσεις στους χρήστες σχετικά µε ποια οµάδα να συνδεθούν. Το πρώτο βήµα είναι να προσδιοριστούν χαρακτηριστικά του προφίλ τα οποία αντιστοιχίζουν καλύτερα ένα µέλος της οµάδας σε ιδιαίτερη οµάδα. Έπειτα, τα µέλη της οµάδας ταξινοµούνται για να προσδιοριστούν τα πιο αντιπροσωπευτικά µέλη της οµάδας. Τελικά, δηµιουργείται ένα δένδρο απόφασης που βασίζεται στα µέλη µε τα πιο αντιπροσωπευτικά προφίλ. Οι πληροφορίες του προφίλ µπορούν επίσης να εξορυχθούν µαζί µε δεδοµένα από άλλες πηγές, για να προτείνουν γεγονότα που ένας χρήστης µπορεί να βρει ενδιαφέροντα ή χρήσιµα. Κυρίως, το Twitter και το Facebook χρησιµοποιούν τη δοµή του δικτύου για να κάνουν recommendations- στη διπλωµατική αυτή, προτείνεται να γίνονται recommendations και βάσει των χαρακτηριστικών των κόµβων (και συγκεκριµένα των ενδιαφερόντων τους). Βέβαια, το link prediction πρόβληµα σχετίζεται άµεσα µε το target marketing. Έτσι, αν γνωρίζουµε ότι τα ενδιαφέροντα ενός χρήστη επηρεάζουν τους άλλους, µπορεί αυτός ο χρήστης να θεωρηθεί target. Γενικά, εάν το αναµενόµενο κέρδος από έναν πελάτη είναι µεγαλύτερο από το κόστος του µάρκετινγκ για αυτόν, οι εταιρίες µπορούν να προχωρήσουν σε µάρκετινγκ που στοχεύει σε αυτόν. Όταν µιλάµε για «target market» αναφερόµαστε σε µια οµάδα από καταναλωτές που η επιχείρηση έχει αποφασίσει να θέσει ως στόχο των προσπαθειών του µάρκετινγκ και τελικά του προιόντος. 32
Εξόρυξη των Datasets 3 Στο κεφάλαιο αυτό θα αναλύσουµε διεξοδικά τη διαδικασία που ακολουθούµε για την εξόρυξη δεδοµένων από τα δύο κοινωνικά δίκτυα που µελετάµε- το Twitter και το Facebook- µε σκοπό τη δηµιουργία των δύο αντίστοιχων datasets. Στο πρώτο µέρος αυτού του κεφαλαίου θα περιγράψουµε τη διαδικασία συγκέντρωσης δεδοµένων από το Twitter, που περιλαµβάνουν τις «following» σχέσεις και τα «tweets» των χρηστών. Αφού περιγραφεί ο τρόπος µε τον οποίο συγκεντρώσαµε τους twitterers αλλά και τα tweets τους, η προεπεξεργασία και το καθάρισµα των δεδοµένων, θα µελετήσουµε την κατανοµή των followers για τους έλληνες twitterers. Εν τέλει, θα παρουσιάσουµε το γράφο των following που δηµιουργήσαµε. Στο δεύτερο µέρος αυτού του κεφαλαίου, θα επικεντρωθούµε στην εφαρµογή των µεθόδων εξόρυξης γνώσης στο Facebook αντίστοιχα. Οπότε, θα περιγράψουµε, όλα εκείνα τα βήµατα που έγιναν προκειµένου να δηµιουργήσουµε το δικό µας facebook dataset για το σκοπό της διπλωµατικής µας. 3.1 Δημιουργία του Twitter Dataset Το Twitter dataset µας περιλαµβάνει τα δεδοµένα των twitterers µε βάση την Ελλάδα και δηµιουργήθηκε το Μάιο του 2011 3.1.1 Συλλογή twitterers Η συλλογή των twitterers πραγµατοποιήθηκε µε τη βοήθεια του twitaholic.com. Το site αυτό βρίσκει τους top twitterers βάσει του αριθµού των followers των, ή των following τους ή βάσει των updates των ή της ηµεροµηνίας που δηµιούργησαν 33
λογαριασµό στο Twitter. Ακόµα, επιτρέπει να φιλτράρουµε τους twitterers µε κριτήριο την τοποθεσία τους. To twitaholic µας παρέχει το screen name, τη θέση (location), το url, τους followers, τους following, τον αριθµό των updates (δηλαδή τον αριθµό των tweets), και την ηµεροµηνία που δηµιούργησαν λογαριασµό στο twitter οι twitterers για τους οποίους ενδιαφερόµαστε. Στην εικόνα 3.1.1 βλέπουµε ένα τυπικό screenshot του twitaholic.com: Εικόνα 3.1.1 Twitaholic.com Παραδοχές- παρατηρήσεις Με τη βοήθεια του twitaholic.com, συλλέχτηκαν οι twitterers µε βάση τους την Ελλάδα, την Αθήνα και τη Θεσσαλονίκη. Θεωρήθηκε ότι η τοποθεσία (location) που καθορίζουν οι χρήστες του Twitter στο προφίλ τους αντιπροσωπεύει τη βάση τους. Έτσι, µαζέψαµε 518 twitterers µε βάση τους την Αθήνα, 874 µε βάση τους την Ελλάδα και 102 µε βάση τους τη Θεσσαλονίκη συνολικά. Στη συνέχεια τα δεδοµένα 34
καθαρίστηκαν και φιλτραρίστηκαν καθώς διαπιστώθηκαν τα ακόλουθα και έγιναν οι παρακάτω παραδοχές: εν συµπεριλάβαµε twitterers που έχουν τη βάση τους σε άλλες ελληνικές πόλεις, γιατί το πλήθος τους ήταν πολύ µικρό. Αντιληφθήκαµε ότι η location Athens δεν υποδηλώνει µόνο την πρωτεύουσα της Ελλάδας, αλλά και την πόλη Athens στην Georgia των Ηνωµένων Πολιτειών. Καθώς έγινε σαφές ότι οι πληροφορίες που µας παρέχει τo twitaholic για τους προς µελέτη twitterers δεν επαρκούν για το filtering του dataset, διαπιστώσαµε ότι έπρεπε να βρούµε και επιπλέον πληροφορίες για αυτούς τους Twitterers. Φυσικά, ένας τρόπος θα ήταν να προσπελάσουµε την επίσηµη twitter page του κάθε twitterer και να καταλάβουµε από το context και τη γλώσσα γραφής των tweets την εθνικότητα του twitterer. Όµως, µια τέτοια δουλειά θα ήταν πολύ επίπονη και χρονοβόρα. Οπότε, έπρεπε να βρεθεί ένας πιο έξυπνος τρόπος. Για το λόγο αυτό καταλήξαµε ότι έπρεπε να κάνουµε χρήση του twitter api και συγκεκριµένα της µεθόδου get users/show. Η µέθοδος get users/ show του twitter api επιστρέφει εκτεταµένη πληροφορία για ένα δεδοµένο χρήστη, που προσδιορίζεται από το id του ή από το screen name του. Η µορφή της µεθόδου είναι η εξής : https://api.twitter.com/1/users/show.xml?screen_name=****.συγκεκριµένα οι πληροφορίες που µας επιστρέφονται για ένα χρήστη του Twitter είναι οι παρακάτω σε xml µορφή (υποστηρίζεται και json format): 35
<?xml version="1.0" encoding="utf-8"?> <user> <id>6253282</id> <name>twitter API</name> <screen_name>twitterapi</screen_name> <location>san Francisco, CA</location> <description>the Real Twitter API. I tweet about API changes, service issues and happily answer questions about Twitter and our API. Don't get an answer?it's on my website.</description> <profile_image_url>http://a3.twimg.com/profile_images/689684365/api_normal.png </profile_image_url> <url>http://apiwiki.twitter.com</url> <protected>false</protected> <followers_count>160752</followers_count> <profile_background_color>c1dfee</profile_background_color> <profile_text_color>000000</profile_text_color> <profile_link_color>0000ff</profile_link_color> <profile_sidebar_fill_color>e0ff92</profile_sidebar_fill_color> <profile_sidebar_border_color>87bc44</profile_sidebar_border_color> <friends_count>19</friends_count> <created_at>wed May 23 06:01:13 +0000 2007</created_at> <favourites_count>2</favourites_count> <utc_offset>-28800</utc_offset> <time_zone>pacific Time (US & Canada)</time_zone> <profile_background_image_url>http://a3.twimg.com/profile_background_images/59 931895/twitterapi-background-new.png</profile_background_image_url> <profile_background_tile>false</profile_background_tile> <profile_use_background_image>true</profile_use_background_image> <notifications></notifications> <geo_enabled>true</geo_enabled> <verified>true</verified> <following></following> <statuses_count>1858</statuses_count> 36
<lang>en</lang> <contributors_enabled>true</contributors_enabled> <status> <created_at>tue Jun 22 16:53:28 +0000 2010</created_at> <id>16783999399</id> <text>@demonicpagan possible some part of your signature generation is incorrect & fails for real reasons.. follow up on the list if you suspect</text> <source><a href="http://www.tweetdeck.com" rel="nofollow">tweetdeck</a></source> <truncated>false</truncated> <in_reply_to_status_id>16781827477</in_reply_to_status_id> <in_reply_to_user_id>6339722</in_reply_to_user_id> <favorited>false</favorited> <in_reply_to_screen_name>demonicpagan</in_reply_to_screen_name> <geo/> <coordinates/> <place/> <contributors/> </status> </user> Από τις παραπάνω πληροφορίες, οι πιο ενδιαφέρουσες και χρήσιµες για το filtering είναι η time zone, και η περιγραφή που δίνει ο ίδιος ο χρήστης για τον εαυτό του. 37