Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα Ανάλυση Μεγάλων Δεδομένων - Μελέτη Περίπτωσης στη Διαδικτυακή Εφαρμογή «Help Me Vote» - Big Data Analysis - a Case Study on the Web-Based Application «Help Me Vote» Επιβλέπων: Μανωλόπουλος Ιωάννης, Καθηγητής Τριμελής Επιτροπή: Μανωλόπουλος Ιωάννης, Ελευθέριος Αγγελής, Κωνσταντίνος Μαργαρίτης Αϊβατζή Χ. Τατιάνα Φεβρουάριος 2017
Περιεχόμενα 1. Περιγραφή προβλήματος - Στόχοι Μελέτης 2. Μεθοδολογία 3. Διαδικτυακή Εφαρμογή Help Me Vote 4. Παραγοντική Ανάλυση - Factor Analysis 5. Κανόνες Συσχέτισης -Association Rules 6. Παρουσίαση Αποτελεσμάτων 7. Συμπεράσματα 2
Περιγραφή Προβλήματος Πρόβλημα διαχείρισης μεγάλου όγκου δεδομένων Δυσκολία στην ανάλυση μεγάλων δεδομένων Δυσκολία στην άμεση εξαγωγή συμπερασμάτων Αντιμετώπιση: Κλάδος Διαχείρισης Μεγάλων Δεδομένων Big Data Analysis & Τεχνικές Εξόρυξης Δεδομένων Data Mining Αντικείμενο Μελέτης: Τρόποι διαχείρισης και ανάλυσης των δεδομένων που προκύπτουν από το διαδικτυακό ερωτηματολόγιο HelpMeVote 2015 3
Στόχοι Μελέτης Ανάλυση και η επεξήγηση των δεδομένων της διαδικτυακής εφαρμογής HelpMeVote - Ιανουάριος 2015 Ανακάλυψη και η εξαγωγή ενδιαφέρουσας, μη προφανούς και χρήσιμης πληροφορίας Μείωση του μεγάλου όγκου μεταβλητών, κατανόηση και ερμηνεία των δεδομένων Εύρεση και παρουσίαση συσχετίσεων μεταξύ των γνωρισμάτων του συνόλου δεδομένων 4
Μεθοδολογία Έρευνας Επιλογή δεδομένων μεγάλου όγκου big data Επιλογή κατάλληλων μεθόδων για ανάλυση των δεδομένων Επιλογή κατάλληλων εργαλείων για την εφαρμογή των μεθόδων Εφαρμογή μεθόδων και Παρουσίαση αποτελεσμάτων 5
Εφαρμογή HelpMeVote Ηλεκτρονικός Σύμβουλος Ψήφου (VAA - Voting Advice Application) Ηλεκτρονική Εφαρμογή σε μορφή διαδικτυακού ερωτηματολογίου Επιτρέπει στους ψηφοφόρους να συγκρίνουν τις απόψεις τους με τις θέσεις των κομμάτων Δημιουργοί εφαρμογής: Ιωάννης Ανδρεάδης (Αναπλ. Καθηγ.,Τμήμα Πολιτικών Επιστημών, Α.Π.Θ.) Θεόδωρος Χατζηπαντελής (Καθηγ.,Τμήμα Πολιτικών Επιστημών, Α.Π.Θ.) Ανοιχτά δεδομένα:www.openicpsr.org 6
Περιγραφή Εφαρμογής HelpMeVote 2015 Εκλογές Ιανουαρίου 2015 31 μεταβλητές ερωτήσεις κλειστού τύπου 10 μεταβλητές δημογραφικά χαρακτηριστικά χρηστών Μέγεθος Δείγματος: Ν=543.870 7
Περιγραφή Εφαρμογής HelpMeVote 2015 Σύγκριση θέσης χρήστη - κόμματος Συντελεστής εγγύτητας : Βαθμός συμφωνίας χρήστη - κόμματος {-100%,100%} 8
Πολιτικός Χάρτης HelpMeVote 2015 Οριζόντιος άξονας: Φιλελευθερισμός/Συντηρητισμός Κοινωνικός φιλελευθερισμός, Ατομικά δικαιώματα Συντηριτισμός, Αυταρχισμός, Εθνικισμός Κάθετος άξονας: Ευρωπαϊσμός/Αντιευρωπαϊσμός Παραμονή στο Ευρώ, Σταδιακή ελάφρυνση βαρών Μη παραμονή στο Ευρώ, διαγραφή χρέους, Άμεση ελάφρυνση βαρών 9
Περιγραφική Στατιστική Ανάλυση Δεδομένα Help Me Vote 2015- SPSS Διαφωνώ απολύτως 28,4% Πρέπει να υπάρξει νομοθετική ρύθμιση για τον περιορισμό των διαδηλώσεων 25,9% Τα μνημόνια με την Τρόικα ήταν απαραίτητα για να μην χρεοκοπήσει η Ελλάδα 24,7% Γάμοι μεταξύ ομοφυλόφιλων θα πρέπει να απαγορεύονται δια νόμου Συμφωνώ απολύτως 42,1% Τα λαϊκά αιτήματα αγνοούνται σήμερα προς όφελος των συμφερόντων 40,8% Πρέπει να διαχωριστεί πλήρως η εκκλησία από το κράτος 40,1% Οι γυναίκες πρέπει να είναι ελεύθερες να αποφασίζουν στο θέμα της έκτρωσης Female 37% Male 63% <18 18-24 25-34 35-49 50-64 >64 Εύρος Εύρος ηλικίας Ηλικίας 10
Παραγοντική Ανάλυση -Factor Analysis Αποτελεί μία Πολυμεταβλητή Στατιστική Μέθοδο: Ανακάλυψης ομάδων μεταβλητών από μεγάλα σύνολα δεδομένων Μείωσης των διαστάσεων ενός συνόλου δεδομένων, διατηρώντας όσο το δυνατό περισσότερη πληροφορία Στόχος εφαρμογής μεθόδου: Ομαδοποίηση μεταβλητών σύμφωνα με τις συσχετίσεις που υπάρχουν μεταξύ τους Μεγιστοποίηση της κατανόησης της δομής των δεδομένων Ερμηνεία δεδομένων κατά τον καλύτερο δυνατό τρόπο 11
Ορθογώνιο Μοντέλο Παραγοντικής Ανάλυσης Οι συσχετίσεις μεταξύ των μεταβλητών οφείλονται στην ύπαρξη κοινών παραγόντων τους οποίους δε γνωρίζουμε και θέλουμε να εκτιμήσουμε. Οι p μεταβλητές μπορούν να γραφτούν ως γραμμικός συνδυασμός k παραγόντων k<p, δηλαδή ο αριθμός των παραγόντων πρέπει να είναι μικρότερος του αριθμού των μεταβλητών 12
Βήματα Παραγοντικής Ανάλυσης Έλεγχος συσχετίσεων των μεταβλητών-καταλληλότητα εφαρμογής ΠΑ Καθορισμός Αριθμού Παραγόντων - Μέγεθος Ιδιοτιμών Εκτίμηση παραγόντων Μέθοδος των Κυρίων Συνιστωσών (Principal Factor Method) Μέθοδος της Μέγιστης Πιθανοφάνειας (Maximum Likelihood) Περιστροφή Δημιουργούνται καινούριοι και πιο εύκολα ερμηνεύσιμοι παράγοντες Υπολογισμός των σκορ των παραγόντων Ερμηνεία αποτελεσμάτων α. Με τις επιβαρύνσεις ομαδοποιούνται οι μεταβλητές κατά παράγοντα β. Ονομασία παραγόντων ώστε να αποδίδουν σαφώς ένα χαρακτηρισμό για τη δομή τους 13
Α Εφαρμογή Παραγοντικής Ανάλυσης HelpMeVote 2015 - SPSS Έλεγχος συσχετίσεων - καταλληλότητας δεδομένων για εφαρμογή ΠΑ Κριτήρια επιλογής παραγόντων: Ιδιοτιμές > 1 & 25 επαναλήψεις Προκύπτουν 5 παράγοντες που ερμηνεύουν το 48,8% της συνολικής διακύμανσης 14
Β Εφαρμογή Παραγοντικής Ανάλυσης HelpMeVote 2015 Κριτήρια επιλογής παραγόντων: Ιδιοτιμές > 0,7 & 50 επαναλήψεις Προκύπτουν 13 παράγοντες που ερμηνεύουν το 70% της συν. Διακύμανσης Εκτίμηση Παραγόντων: Μέθοδος των κυρίων συνιστωσών Πίνακας επιβαρύνσεων μετά την περιστροφή Ερμηνεία των αποτελεσμάτων Παράγοντας F 1 F 2 F 3 F 4 F 5 F 6 F 7 F 8 F 9 F 10 F 11 F 12 F 13 Τίτλος Στάση χώρας προς Ε.Ε. και Διαχείριση Χρέους Κοινωνική Ενσωμάτωση Μεταναστών στη Χώρα Παροχή κοινωνικών υπηρεσιών και Ιδιωτικός Τομέας Κατασταλτικά μέτρα προστασίας πολιτών Πολιτική Εκπροσώπηση Ατομικές ελευθερίες και δικαιώματα Ταξική Ανισότητα Μνημόνιο και Οικονομική Κρίση Δικαίωμα έκτρωσης Τήρηση νόμων Αμυντικές δαπάνες και διαχωρισμός κράτους - εκκλησίας Φορολογία μεγάλων επιχειρήσεων Επιρροή Ε.Ε. στις πολιτικές αποφάσεις της χώρας 15
Β Εφαρμογή Παραγοντικής Ανάλυσης HelpMeVote 2015 Πίνακας επιβαρύνσεων Οι μετανάστες βοηθούν την οικονομία της χώρας. Μεταβλητή F2 F3 F2: Κοινωνική Ενσωμάτωση Μεταναστών στη Χώρα -0,83 Η ύπαρξη πολυπολιτισμικότητας στην Ελλάδα είναι ένα θετικό φαινόμενο. Οι προϋποθέσεις παροχής ασύλου και ιθαγένειας πρέπει να γίνουν αυστηρότερες. Γάμοι μεταξύ ομοφυλόφιλων θα πρέπει να απαγορεύονται δια νόμου. -0,79 0,65 0,50 F3: Παροχή κοινωνικών υπηρεσιών και Ιδιωτικός Τομέας Πρέπει να είναι δυνατόν να λειτουργήσουν μη-κρατικά, μη-κερδοσκοπικά ιδρύματα τριτοβάθμιας εκπαίδευσης. Για την καταπολέμηση της ανεργίας θα πρέπει να υπάρξουν περισσότερες μορφές ευέλικτης εργασίας Το εθνικό σύστημα υγείας μπορεί να γίνει πιο αποτελεσματικό μέσω της μερικής ιδιωτικοποίησής του Τράπεζες και μεγάλες επιχειρήσεις κοινής ωφέλειας (ΔΕΗ, ΟΤΕ, ΟΣΕ, κ.α.) πρέπει να περάσουν στον έλεγχο Δημοσίου 0,78 0,64 0,64-0,40 16
Κανόνες Συσχέτισης Association Rules Διαδικασία εύρεσης προτύπων από ένα μεγάλο όγκο δεδομένων με σκοπό να εξαχθεί ενδιαφέρουσα, μη προφανής και χρήσιμη πληροφορία Εξαγωγή κανόνων που εκφράζουν συσχετίσεις μεταξύ αντικειμένων σε ένα σύνολο δεδομένων Όπου, Χ και Y στοιχειοσύνολα και Παραδείγματα Κανόνων Συσχέτισης: X: Υπόθεση Y: Συμπέρασμα Buys(Computer) Buys(Antivirus Software), Boolean -μονής διάστασης Age(25-30)^Income (15.000-30.000) Buys(car), Ποσοτικός -πολλών διαστάσεων 17
Εξαγωγή Κανόνων Συσχέτισης Μέτρα ενδιαφέροντος: Καθορίζουν ποιοι κανόνες είναι σημαντικοί και προσφέρουν γνώση Support (Υποστήριξη): Ποσοστό συναλλαγών που περιέχουν και το X και το Y στοιχειοσύνολο Confidence (Εμπιστοσύνη): Πιθανότητα μια συναλλαγή που περιέχει το Χ να περιέχει επίσης και το Y στοιχειοσύνολο Μικρή τιμή του μέτρου support σημαίνει ότι ο κανόνας έχει μικρό ενδιαφέρον To confidence καθορίζει την ακρίβεια και μετρά την αξιοπιστία ενός κανόνα Στάδια ανάπτυξης των Κανόνων Συσχέτισης: 1. Εύρεση όλων των συχνών στοιχειοσυνόλων 2. Εξαγωγή των κανόνων συσχέτισης που υπακούν σε ένα κατώφλι confidence Συχνό στοιχειοσύνολο: support > min_support κατώφλι 18
Αλγόριθμος Apriori-Κανόνες Συσχέτισης Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Αρχή: Όλα τα υποσύνολα ενός Συχνού Στοιχειοσυνόλου είναι επίσης συχνά Συνένωση (Join Step) min_sup=2 Κλάδεμα (Pruning Step) Πιθανοί Κανόνες που προκύπτουν από το συχνό στοιχειοσύνολο {BCE}: B C,E B,C E C,E B E C,Bδ 19
Εφαρμογή Κανόνων Συσχέτισης HelpMeVote 2015 Λογισμικό WEKA: εργαλείο εξόρυξης δεδομένων Χρήση 34 μεταβλητών από τις 40 - Εξαιρούνται μεταβλητές μικρού ενδιαφέροντος (ψήφος σε προηγούμενες εκλογές, επίπεδο βεβαιότητας, κ.ά) 20
Εφαρμογή Κανόνων Συσχέτισης HelpMeVote 2015 Α/Α min_confidence min_support best rules found max_confidence 1 0,5 0,15 116 0,8 2 0,5 0,16 99 0,8 3 0,5 0,17 80 0,74 4 0,5 0,18 63 0,74 5 0,5 0,19 48 0,71 6 0,5 0,20 32 0,71 7 0,5 0,21 22 0,71 8 0,5 0,22 17 0,71 9 0,5 0,23 9 0,71 10 0,5 0,24 8 0,71 11 0,5 0,25 1 0,62 12 0,5 0,26 0-21
Εφαρμογή Κανόνων Συσχέτισης HelpMeVote 2015 22
Εφαρμογή Κανόνων Συσχέτισης HelpMeVote 2015 Μέγιστο αριθμό κανόνων που επιθυμούμε να εξαχθούν (Num Rules) = 150 Minimum Support = 0,24 Minimum Confidence = 0,5 Εξάγονται 8 κανόνες συσχέτισης 23
Σημαντικοί κανόνες συσχέτισης Α/Α Κανόνας Support Confidence 1 2 3 Η κυβέρνηση πρέπει να λάβει μέτρα για τη μείωση της ανισότητας των εισοδημάτων. (= Συμφωνώ απόλυτα) ==> Τα λαϊκά αιτήματα αγνοούνται σήμερα προς όφελος των συμφερόντων. (= Συμφωνώ απόλυτα) Οι γυναίκες πρέπει να είναι ελεύθερες να αποφασίζουν στο θέμα της έκτρωσης. (= Συμφωνώ απόλυτα) => Πρέπει να διαχωριστεί πλήρως η εκκλησία από το κράτος. (= Συμφωνώ απόλυτα) Τα μνημόνια σωρεύουν χρέη χωρίς ορατά οφέλη. (= Συμφωνώ απόλυτα) => Τα λαϊκά αιτήματα αγνοούνται σήμερα προς όφελος των συμφερόντων. (=Συμφωνώ απόλυτα) 25% 64% 24,5% 62% 24,5% 71% 4 Η μείωση της φορολογίας των μεγάλων επιχειρήσεων θα λειτουργήσει θετικά για την ανάπτυξη της οικονομίας. (= Συμφωνώ) ==>Η κυβέρνηση πρέπει να λάβει μέτρα για τη μείωση της ανισότητας των εισοδημάτων. (= Συμφωνώ) 22,4% 53% 5 Τις πιο σοβαρές πολιτικές αποφάσεις θα έπρεπε να παίρνουν οι πολίτες και όχι οι πολιτικοί. (=Συμφωνώ απόλυτα) ==> Τα λαϊκά αιτήματα αγνοούνται σήμερα προς όφελος των συμφερόντων. (=Συμφωνώ απόλυτα) 19,3% 69% 6 Πολλά από όσα προβλέπονται στα Μνημόνια θα έπρεπε να τα έχουμε κάνει εδώ και πολύ καιρό. (=Συμφωνώ απόλυτα) ==> Είναι προτιμότερο για την Ελλάδα να είναι εντός της Ευρωπαϊκής Ένωσης αντί εκτός. (= Συμφωνώ απόλυτα) 18,4% 63% 7 Είναι προτιμότερο για την Ελλάδα να είναι εντός της Ευρωπαϊκής Ένωσης αντί εκτός. (=Συμφωνώ απόλυτα) ==> Πολλά από όσα προβλέπονται στα Μνημόνια θα έπρεπε να τα έχουμε κάνει εδώ και πολύ καιρό. (= Συμφωνώ απόλυτα) 18,4% 53% 24
Συμπεράσματα Παραγοντικής Ανάλυσης Απλούστευση του αρχικού προβλήματος μείωση όγκου δεδομένων (31μεταβλητές 13 μεταβλητές) Ανάδειξη νέων παραγόντων που προσθέτουν ουσιαστικές πληροφορίες για την εξαγωγή των τελικών συμπερασμάτων Διατήρηση όσο το δυνατόν περισσότερης πληροφορίας Μεγαλύτερη κατανόηση της δομής του συνόλου των μεταβλητών της εφαρμογής HelpMeVote 2015 Υποκειμενικότητα στην ερμηνεία των αποτελεσμάτων 25
Συμπεράσματα Κανόνων Συσχέτισης Δεν εξάγονται αξιόλογα συμπεράσματα από τις συσχετίσεις που προκύπτουν από τα δημογραφικά στοιχεία o Μορφωτικό επίπεδο = Τριτοβάθμια Φύλο = Αρσενικό o Η κυβέρνηση πρέπει να λάβει μέτρα για τη μείωση της ανισότητας των εισοδημάτων.(= Συμφωνώ) Φύλο = Αρσενικό Υποκειμενικότητα στον καθορισμό των μέτρων ενδιαφέροντος Στις εφαρμογές που υλοποιήθηκαν εμφανίζονται κοινοί κανόνες συσχέτισης 26
Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα Thanks! 27