ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ»
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΜΕ ΤΟ SPSS
To SPSS θα: - Κάνει πολύπλοκη στατιστική ανάλυση σε δευτερόλεπτα - Κάνει γραφήματα κάθε είδους - Σας γλιτώσει χρόνο - Θα κάνει ό,τι του ζητήσετε (στατιστικό!) Το SPSS δεν θα: - Αποφασίσει ποιο είναι το κατάλληλο στατιστικό εργαλείο για κάθε περίπτωση - Σας κάνει καφέ!
Ξεκινώντας με το SPSS Επιλογές: 1) εισαγωγή δεδομένων από ένα αρχείο EXCEL ή ένα ήδη υπάρχον αρχείο SPSS 2) Πληκτρολόγηση δεδομένων σε ήδη υπάρχον αρχείο ή σε νέο.
Car_sales.sav Data view
Variable view
Ανάλυση μιας μεταβλητής
ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΕΣ Frequencies Ch03_Working_Parents.sav
Κανένα στατιστικό δεν έχει νόημα Επιλέγουμε bar chart ή Pie chart (ραβδόγραμμα ή κυκλικό διάγραμμα) και συχνότητες ή ποσοστά
Ανοίγει αυτόματα παράθυρο αποτελεσμάτων Outpout
Με διπλό κλικ πάνω σε οποιοδήποτε γράφημα ανοίγει ο chart editor και μπορούμε να κάνουμε διάφορες αλλαγές ανάλογα με το τι αρέσει στον καθένα.
ΠΟΣΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΕΣ Child_data.sav Frequencies Frequencies Descriptives Explore Καλύτερα να το αποεπιλέξουμε!
Ιστόγραμμα για την μεταβλητή IQ με την καμπύλη της κανονικής κατανομής
Για να φτιάξουμε ομαδοποιημένο πίνακα συχνοτήτων μιας ποσοτικής μεταβλητής HSB500.sav Φτιάχνουμε καινούρια μεταβλητή που κάθε τιμή της είναι μία κλάση της προηγούμενης. Για να φαίνεται αυτό στον πίνακα βάζουμε label τα διαστήματα:
Από Frequencies επιλέγουμε Display frequency table
Descriptives
Συντελεστής μεταβλητότητας = τυπική απόκλιση (std.deviation)/μέση τιμή (mean) Age: 17,79% Memory: 12,76% IQ : 6,54% Reading : 10,91% Μεγαλύτερη ομοιογένεια ως προς το IQ Skewness λοξότητα/ σφάλματα Age: -1,26 Memory: 0,76 IQ : 0,65 Reading : -0,17 Τιμές μέσα στο [-2,2] άρα σχετικά συμμετρικές κατανομές
HSB500.sav Όταν είμαστε κοντά στο 2 είμαστε πολύ κοντά στην κανονική κατανομή
Έχουν δημιουργηθεί οι z-τιμές των μεταβλητών δηλαδή οι τυποποιημένες τιμές, που δείχνουν πόσες τυπικές αποκλίσεις από τη μέση τιμή απέχει η συγκεκριμένη περίπτωση. π.χ. στο IQ η μεγαλύτερη τιμή είναι 1,82191 δηλ. 1,8 αποκλίσεις πάνω από τη μέση τιμή.
Explore Προορίζεται για ταυτόχρονη περιγραφική ανάλυση 2 ή περισσότερων μεταβλητών θα περιοριστούμε όμως προς το παρόν σε μία μεταβλητή Εκτιμητές μέσου όρου 5 μεγαλύτερες και 5 μικρότερες τιμές
δεν υπάρχουν outliers διάμεσος Boxplot (θηκόγραμμα)
Εδώ φαίνεται το σφάλμα που θα κάνουμε αν απορρίψουμε την υπόθεση ότι οι μεταβλητές μας ακολουθούν την κανονική κατανομή. Η reading ability είναι πιο κοντά στην κανονική κατανομή από τις υπόλοιπες.
Σε μεγαλύτερο δείγμα: Απορρίπτουμε την υπόθεση της κανονικής κατανομής
Κανονική κατανομή - Κατανομές Χ τετράγωνο test: ελέγχουμε αν οι παρατηρούμενες συχνότητες των κατηγοριών μιας μεταβλητής απέχουν πολύ από τις αντίστοιχες θεωρητικές/αναμενόμενες μιας γνωστής κατανομής Kolmogorov-Smirnov test: ελέγχουμε αν η παρατηρούμενη συνάρτηση αθροιστικής κατανομής μιας μεταβλητής συμπίπτει με κάποια εκ των γνωστών θεωρητικών. Γραφικές τεχνικές αναζήτησης της κατανομής μιας μεταβλητής
Ανάλυση δύο μεταβλητών
ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΕΣ Crosstabs Με την Crosstabs παρουσιάζουμε ταυτόχρονα τουλάχιστον δύο ποιοτικά χαρακτηριστικά (ή ποσοτικά που έχουν ομαδοποιηθεί). Εκτός αυτού όμως προχωρούμε και στην αναζήτηση της έντασης και της φύσης της πιθανής τους σχέσης
Αν αυτή η τιμή είναι >0,1 δεν είναι διαφορετικοί οι πληθυσμοί ανα κατηγορία. Στη δική μας περίπτωση είναι διαφορετικοί Γνωρίζω το 8,4% όταν ξέρω ένα από τα δύο Βελτίωσε κατά 7,7% την πρόβλεψη για την μόρφωση του πατέρα (από ότι αν επιλέγαμε στην τύχη) <0,3 άρα ασθενής σχέση
ΠΟΣΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΕΣ Case summaries Case summaries Means Explore Correlate Ποσοτικές μεταβλητές Ποιοτικές μεταβλητές Αποεπιλέγουμε το display cases HSB500.sav
Διαλέγουμε τα στατιστικά που θέλουμε να υπολογιστούν για κάθε ομάδα αποτελέσματα
Means Η διαφορά που έχει με τη case summaries είναι η δυνατότητα πρόσβασης στην ANOVA
αφού sig>0,1 δεν υπάρχει γραμμική σχέση μεταξύ των δύο μεταβλητών Το ποσοστό της μεταβλητότητας της μίας μεταβλητής που εξηγείται από την άλλη είναι πολύ χαμηλό
Explore Όχι κανονική κατανομή
Άλλα γραφήματα Από το graphs Scaterplot (διάγραμμα διασποράς)
Correlate 1) Bivariate Χρησιμοποιούμε τον συντελεστή Pearson για ποσοτικές μεταβλητές και όχι για μικρά δείγματα. Ο συντελεστής συσχέτισης είναι το στατιστικό μέτρο που χρησιμοποιείται για την αναζήτηση της έντασης αλλά και της φύσης της σχέσης μεταξύ δύο ποσοτικών μεταβλητών.
Pearson r 0 απουσία γραμμικής σχέσης (0, 0,3] ασθενής γραμμική σχέση (0,3, 0,6] μέτρια γραμμική σχέση (0,6, 1) ισχυρή γραμμική σχέση 1 Απόλυτη γραμμική σχέση Το test λειτουργεί καλύτερα όταν οι μεταβλητές κατανέμονται κανονικά και δεν υπάρχουν outliers Ακολουθεί ένα παράδειγμα από το car_sales.sav όπου έχουμε μεταβλητές με ισχυρή συσχέτιση.
Χρησιμοποιούμε τον συντελεστή Spearman αν μία τουλάχιστον από τις μεταβλητές είναι ordinal Χρησιμοποιούμε τον συντελεστή συσχέτισης του Kendall (αντί του Spearman) αν έχουμε λίγα δεδομένα (και πολλές ισοπαλίες)
2) Partial Οι μερικές συσχετίσεις μας δίνουν ένα μέτρο συσχέτισης μεταξύ δύο μεταβλητών αφαιρώντας την γραμμική επίδραση μιας μεταβλητής ελέγχου Control variable: engine size
Βιβλιογραφία - Τσάντας Ν.- Μωυσιάδης Χ. Μπαγιάτης Ν. Χατζηπαντελής Θ. (1999) Ανάλυση δεδομένων με τη βοήθεια στατιστικών πακέτων, εκδόσεις Ζήτη - Andy Field (2000) Relationships Between Variables από την ιστοσελίδα του συγγραφέα - Μ.J. Norusis (2002) SPSS 11.0 Guide to Data Analysis, Prentice Hall - Φαρμάκης Ν.(2009) Δημοσκοπήσεις και Δεοντολογία, εκδόσεις Χριστοδουλίδη Κάπου εδώ τελειώνουμε με την περιγραφική στατιστική μίας, δύο ή περισσότερων μεταβλητών με το SPSS Ευχαριστώ για την υπομονή σας!