Αξιοποίηση αλγόριθμων εξόρυξης πληροφορίας στην ανάλυση κοινωνιοψυχολογικών ερευνητικών δεδομένων Ευθαλία Μάσσου Πάντειο Πανεπιστήμιο Κοινωνικών και Πολιτικών Επιστημών. 9 Ο Πανελλήνιο Συνέδριο Κοινωνικής Ψυχολογίας
Περιεχόμενα I. Εισαγωγή στους αλγόριθμους εξόρυξης πληροφορίας (data mining) II. Ερευνητική εφαρμογή σε κοινωνιοψυχολογικά δεδομένα 1. Ταυτότητα της έρευνας 2. Μεταβλητές της έρευνας 3. Στατιστική Ανάλυση a. Μείωση Διαστάσεων Βάσης Κατασκευή Δεικτών b. Αλγόριθμοι Εξόρυξης Πληροφορίας (Data Mining) 4. Συμπεράσματα 5. Βιβλιογραφία 2
Ι. ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DATA MINING) 3
Τι είναι Data Mining; Data mining είναι η ανάλυση συχνά μεγάλων παρατηρούμενων συνόλων δεδομένων με σκοπό να βρούμε σχέσεις που δεν υποψιαζόμαστε και να συνοψίσουμε τα δεδομένα με καινοτόμους τρόπους, κατανοητούς και χρήσιμους για τον κάτοχο των δεδομένων. (Hand, Manilla,Smyth,2001) 4
Αλγόριθμοι εξόρυξης πληροφορίας (Data Mining) στατιστική DM τεχνητή νοημοσύνη βάσεις δεδομένων 5
Βήματα τυπικής διαδικασίας ανάλυσης με τη χρήση αλγόριθμων εξόρυξης πληροφορίας 1) Συλλογή δεδομένων (συνήθως πολύ μεγάλες βάσεις) 2) Προεπεξεργασία δεδομένων (π.χ. ελλειπή δεδομένα, ακραίες τιμές) 3) Εφαρμογή αλγόριθμων εξόρυξης πληροφορίας 4) Ερμηνεία και αξιολόγηση των αποτελεσμάτων 6
Είδη αλγόριθμων εξόρυξης πληροφορίας Ταξινόμηση (classification) Συσχέτιση (association) Ανάλυση συστάδων (clustering) Αριθμητική πρόβλεψη (numeric prediction) 7
II. ΕΡΕΥΝΗΤΙΚΗ ΕΦΑΡΜΟΓΗ ΣΕ ΚΟΙΝΩΝΙΟΨΥΧΟΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ 8
Στόχος της έρευνας: Να διερευνηθεί η οπτική των ερωτώμενων ως προς την επιείκεια της κοινωνίας απέναντι στη χρήση φυσικής και συμβολικής βίας. 9
1. Ταυτότητα της έρευνας Χρόνος διεξαγωγής: Ιούλιος 1994 Επιστημονικά υπεύθυνος: Καθ. Σ. Παπαστάμου Δείγμα: Αντιπροσωπευτικό Ν= 2500 (53.2% άντρες, 46.8%γυναίκες) Γεωγραφική κάλυψη: Πανελλαδική (αστικές, ημιαστικές και αγροτικές περιοχές) Μέθοδος συλλογής δεδομένων: ποσοτική έρευνα με τη χρήση δομημένων ερωτηματολογίων (προσωπική συνέντευξη) 10
2. Μεταβλητές της έρευνας Πολιτική αυτοτοποθέτηση στην κλίμακα Αριστερά Δεξιά (1 = άκρα αριστερά, 8 = άκρα δεξιά) Κλίμακα Συντηρητισμού - Προοδευτισμού (Παπαστάμου, Doise, 1985), (1= διαφωνώ απόλυτα, 5=συμφωνώ απόλυτα) Μια οικογένεια με παραδοσιακές συνήθειες Μια πιο φιλελεύθερη παιδεία Παραδοσιακές ηθικές αρχές Περιορισμός αριθμού ξένων στην Ελλάδα Υπακοή των παιδιών στους γονείς Μια οικογένεια πιο φιλελεύθερη και ελαστική Ένα πιο αυστηρό εκπαιδευτικό σύστημα Τα παιδιά να είναι ανεξάρτητα από τις απόψεις των γονιών τους Ελαστικότεροι ηθικοί κανόνες Ίδια πολιτικά και κοινωνικά δικαιώματα με τους Έλληνες στους ξένους που βρίσκονται στην Ελλάδα 11
2. Μεταβλητές της έρευνας (συν.) Κλίμακα πράξεων ανοχής της κοινωνίας (Παπαστάμου, Προδρομίτης: πόσο επιεικής θα έπρεπε να φανεί η κοινωνία μας απέναντι (1 = καθόλου, 5 = πάρα πολύ) Ευθανασία Αντίσταση κατά της αστυνομικής αρχής Εξωσυζυγικές σχέσεις Διαζύγιο Κλεπταποδοχή Ομοφυλοφιλία Πορνεία Αντίρρηση συνείδησης Χρήση ναρκωτικών Έκτρωση Φόνο εξ αμελείας Κλοπή αυτοκινήτου Εμπορία ναρκωτικών Τρομοκρατικές ενέργειες Φυλετικές διακρίσεις Φοροδιαφυγή Θανατική ποινή 12
3. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ a. ΜΕΙΩΣΗ ΔΙΑΣΤΑΣΕΩΝ ΒΑΣΗΣ ΚΑΤΑΣΚΕΥΗ ΔΕΙΚΤΩΝ 13
Κλίμακα Συντηρητισμού - Προοδευτισμού (συνολική εξηγούμενη διακύμανση 57.18%) Συντηρητισμός (α=0.74) Παραδοσιακές ηθικές αρχές Μια οικογένεια με παραδοσιακές συνήθειες Υπακοή των παιδιών στους γονείς Ένα πιο αυστηρό εκπαιδευτικό σύστημα Περιορισμός αριθμού ξένων στην Ελλάδα Προοδευτισμός (α=0.56) Τα παιδιά να είναι ανεξάρτητα από τις απόψεις των γονιών τους Ίδια πολιτικά και κοινωνικά δικαιώματα με τους Έλληνες στους ξένους που βρίσκονται στην Ελλάδα Ελαστικότεροι ηθικοί κανόνες Θεσμικός φιλελευθερισμός (p<0.01) Μια πιο φιλελεύθερη παιδεία Μια οικογένεια πιο φιλελεύθερη και ελαστική 14
Κλίμακα πράξεων ανοχής της κοινωνίας (συνολική εξηγούμενη διακύμανση 56.43%) Κοινωνική ελευθεριότητα (α=0.86) Ομοφυλοφιλία Πορνεία Αντίρρηση συνείδησης Εξωσυζυγικές σχέσεις Αντίσταση κατά της αστυνομικής αρχής Χρήση ναρκωτικών Διαζύγιο Έκτρωση Βαριά εγκληματικότητα (α=0.68) Εμπορία ναρκωτικών Τρομοκρατικές ενέργειες Κλοπή αυτοκινήτου Κλεπταποδοχή Θάνατος (p<0.01) Φόνος εξ αμελείας Ευθανασία Χρήση φυσικής και συμβολικής βίας (p<0.01) Θανατική ποινή Φυλετικές διακρίσεις 15
Πολιτική αυτοτοποθέτηση στην κλίμακα Αριστερά - Δεξιά 16
b. ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DATA MINING) 17
CHAID (Chi-square Automatic Interaction Detection) αλγόριθμος κατασκευής δέντρων αποφάσεων Ο αλγόριθμος εξετάζει αρχικά τον πίνακα διασταυρώσεων των ανεξάρτητων μεταβλητών με την εξαρτημένη μεταβλητή και ελέγχει τη σημαντικότητά τους με τον χ 2 έλεγχο Επιλέγεται η πιο σημαντική ανεξάρτητη μεταβλητή Αν αυτή έχει περισσότερες από δύο κατηγορίες, αυτές συγκρίνονται και όσες δεν παρουσιάζουν διαφορές στο αποτέλεσμα συνενώνονται Η διαδικασία συνεχίζεται με διαδοχικές συνενώσεις των ζευγών των κατηγοριών που παρουσιάζουν τη λιγότερο σημαντική διαφορά και τερματίζεται όταν όλες οι εναπομείνασες κατηγορίες διαφοροποιούνται. 18
Μεθοδολογία Ανεξάρτητες μεταβλητές: Συντηρητισμός Προοδευτισμός Θεσμικός Φιλελευθερισμός (1=Διαφωνία, 2= Ενδιάμεση Στάση, 3=Συμφωνία) Πολιτική Αυτοτοποθέτηση (1= Άκρα Αριστερά, 5= Άκρα Δεξιά, 6= Άρνηση Αυτοτοποθέτησης) Εξαρτημένη μεταβλητή: Πόσο επιεικής θα έπρεπε να φανεί η κοινωνία απέναντι στη χρήση φυσικής και συμβολικής βίας (1=Καθόλου, 2= Ενδιάμεση Στάση, 3= Πάρα Πολύ) 19
20
Κανόνες από το δέντρο αποφάσεων: Δείγμα σχεδόν τριχοτομημένο [Kαθόλου επιείκεια (n=854), Ενδιάμεση στάση (n=747), Επιείκεια (n=679)] Aκροαριστεροί (n=77) καθόλου επιεικείς (n=34) Ακροαριστεροί, μη συντηρητικοί (n=33) Ακροαριστεροί, ενδιάμεση στάση και συντηρητικοί Αριστεροί έως ακροδεξιοί (n=2105) επιεικείς (n=19) καθόλου επιεικείς (n=21) καθόλου επιεικείς (n=803) Αριστεροί έως ακροδεξιοί, μη προοδευτικοί και ενδιάμεσοι (n=1615) ενδιάμεση στάση (n=582) Αριστεροί, μη προοδευτικοί και ενδιάμεσοι(n=209) καθόλου επιεικείς (n=101) Κεντρώοι έως ακροδεξιοί, μη προοδευτικοί και ενδιάμεσοι (n=1406) ενδιάμεση στάση (n=526) Αριστεροί έως ακροδεξιοί, προοδευτικοί (n=400) καθόλου επιεικείς (n=231) Αριστεροί έως ακροδεξιοί, προοδευτικοί, ενδιάμεσοι και μη θεσμικά φιλελεύθεροι (n=236) καθόλου επιεικείς (n=120) Αριστεροί έως ακροδεξιοί, προοδευτικοί, θεσμικά φιλελεύθεροι (n=254) καθόλου επιεικείς (n=111) Όσοι αρνούνται να αυτοτοποθετηθούν (n=98) επιεικείς (n=45) Όσοι αρνούνται να αυτοτοποθετηθούν, μη θεσμικά φιλελεύθεροι (n=59) καθόλου επιεικείς (n=22) Όσοι αρνούνται να αυτοτοποθετηθούν, ενδιάμεσοι και θεσμικά φιλελεύθεροι (n=40) επιεικείς (n=30) 21
Συγκεντρωτικά αποτελέσματα: Η κοινωνία θα έπρεπε να φανεί απέναντι στη χρήση φυσικής και συμβολικής βίας: Πολύ επιεικείς Ακροαριστεροί, μη συντηρητικοί (0.83%). Αρνούνται να αυτοτοποθετηθούν, θεσμικά φιλελεύθεροι (1.32%). Καθόλου επιεικείς Οι ακροαριστεροί, με ενδιάμεση ή θετική στάση ως προς το συντηρητισμό. Αριστεροί έως ακροδεξιοί, μη προοδευτικοί ή ενδιάμεσοι (ως προς τον προοδευτισμό), που αυτοτοποθετούνται στην αριστερά. Αριστεροί έως ακροδεξιοί, προοδευτικοί, ανεξάρτητα από τη στάση τους απέναντι στο θεσμικό φιλελευθερισμό. Αρνούνται να αυτοτοποθετηθούν, μη θεσμικά φιλελεύθεροι. Με ενδιάμεση στάση Αριστεροί έως ακροδεξιοί, μη προοδευτικοί ή ενδιάμεσοι, που αυτοτοποθετούνται αριστερά και δεξιότερα. 22
Δημογραφικό προφίλ των επιεικών ως προς τη χρήση φυσικής και συμβολικής βίας Ακροαριστεροί, μη συντηρητικοί Άντρες 25-44 ετών Μη εργαζόμενοι/ Νοικοκυρές Κεντρική Ελλάδα / Εύβοια Γυμνάσιο / Λύκειο Μέχρι 100.000δρχ. μηνιαίο εισόδημα Πρόθεση ψήφου 7/1994: ΚΚΕ Αρνούνται να αυτοτοποθετηθούν, θεσμικά φιλελεύθεροι Άντρες 25-44 ετών Υπάλληλοι γραφείου Κεντρική Ελλάδα / Εύβοια / Μακεδονία Γυμνάσιο / Λύκειο Από 101.000-200.000δρχ. μηνιαίο εισόδημα Πρόθεση ψήφου 7/1994: «Δεν απαντώ» 23
4. ΣΥΜΠΕΡΑΣΜΑΤΑ 24
Η επιείκεια της κοινωνίας απέναντι στη χρήση φυσικής και συμβολικής βίας υποβόσκει και στα δύο άκρα του πολιτικού φάσματος. Τα υψηλά ποσοστά σωστά ταξινομημένων εγγραφών επιτρέπουν τη χρήση του μοντέλου για ταξινόμηση μελλοντικών δεδομένων. Οι αλγόριθμοι εξόρυξης πληροφορίας μπορούν να χρησιμοποιηθούν εναλλακτικά ή/και συμπληρωματικά προς άλλες διαδεδομένες στην Κοινωνική Ψυχολογία μεθοδολογίες για την περαιτέρω διερεύνηση κοινωνιοψυχολογικών ερευνητικών ερωτημάτων. 25
5. ΒΙΒΛΙΟΓΡΑΦΙΑ 26
Bozdogan H., Statistical Data Mining and Knowledge Discovery, Chapman & Hall/CRC, 2004. Doise, W., Papastamou, S., Representations sociales des causes de la delinquance: croyances generales et cas concrets. Deviance et Societe, 11, 153-162, 1987. D. Hand, H. Manila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. Hastie T., Tibshirani R., Friedman J., The elements of statistical learning, Data mining, Inference and Prediction, Springer, 2001. Van Hiel, A., Duriez, B., Kossowka, M., The presence of the left-wing authoritarionism in Western Europe and its relationship with conservative ideology, Political Psychology, Vol. 27, 769-793, 2006. Προδρομίτης Γ., Παπαστάμου Σ., Όψεις κοσμικής και θρησκευτικής «ορθοδοξίας»: από τις δοξασίες στις πρακτικές. Πεδία έρευνας στην κοινωνική ψυχολογία: πολιτισμός, μετανάστευση, οργανισμοί, υγεία πρόληψη, στενές διαπροσωπικές σχέσεις, Ατραπός, 2006. Witten I., Frank E., Data mining, practical machine learning tools and techniques, Elsevier, 2005 27
Σας ευχαριστώ για την προσοχή σας! 28