Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης
Σύνολα Δεδομένων - Είδη Ποσοτικής Έρευνας: Παράλογες Ιδέες Γονέων (Δειγματοληπτική) http://www.amarkos.gr/courses/datasets/learning_small.xls Επίδοση και Στάσεις απέναντι στα Μαθηματικά Δεδομένα της έρευνας PISA 2003 για την Ελλάδα (Συσχετιστική) http://www.amarkos.gr/courses/datasets/pisa2003_greece.sav Ένα Πείραμα Χωρικής Σκέψης στο Νηπιαγωγείο (Πειραματική) http://www.amarkos.gr/courses/datasets/experiment.xls http://www.amarkos.gr/courses/datasets 1
Θέματα που καλύπτονται στο εργαστήριο: Οι εντολές Frequencies, Descriptives, Explore Δείκτες ασυμμετρίας / κυρτότητας (skewness / kurtosis) Έλεγχοι Κανονικότητας με τη βοήθεια γραφικής αναπαράστασης (Ιστόγραμμα, Q-Q Plot, BoxPlot) Επιλογής υποσυνόλου υποκειμένων (Select cases) / Αλλαγή κωδικοποίησης μεταβλητών (Recode into same / different variables) Πίνακες Συνάφειας Κατηγορικών Μεταβλητών Crosstabs Συσχέτιση Ποσοτικών Μεταβλητών Correlate, Bivariate Οι δείκτες Pearson s r και Spearman s rho 2
Σύνολα Δεδομένων για το Μάθημα: http://www.amarkos.gr/courses/datasets - Κατεβάστε τo αρχείο δεδομένων για τις «Παράλογες Ιδέες Γονέων» και ανοίξτε το αρχείο με το SPSS. 3
Παράλογες Ιδέες - Τα Δεδομένα «Παράλογες Ιδέες» των γονέων 357 μαθητών 4
Πίνακες Συχνοτήτων (Κατηγορικές μεταβλητές) Analyze Descriptive Statistics Frequencies Check στο Display frequency tables Κλικ στο Charts 5
Πίνακες Συχνοτήτων (Κατηγορικές μεταβλητές) Analyze Descriptive Statistics Frequencies Check στο Display frequency tables Κλικ στο Charts και επιλέξτε Bar Charts 6
Πίνακες Συχνοτήτων (Κατηγορικές μεταβλητές) SPSS Output 7
Στατιστικά Περιγραφικά Μέτρα (Ποσοτικές μετ.) α τρόπος Analyze Descriptive Statistics Frequencies Uncheck το Display frequency tables Κλικ στο Statistics 8
Στατιστικά Περιγραφικά Μέτρα (Ποσοτικές μετ.) α τρόπος Analyze Descriptive Statistics Frequencies Uncheck το Display frequency tables Κλικ στο Statistics Ζητάμε Mean, Median, Mode, Quartiles, Std. deviation, Min, Max, Skewness, Kurtosis Κλικ στο Continue 9
Στατιστικά Περιγραφικά Μέτρα (Ποσοτικές μετ.) α τρόπος Επιλογή Histograms (Check Show normal curve on histogram ) Κλικ στο Continue 10
Στατιστικά Περιγραφικά Μέτρα (Ποσοτικές μετ.) α τρόπος 11
Στατιστικά Περιγραφικά Μέτρα (Ποσοτικές μετ.) β τρόπος Analyze Descriptive Statistics Descriptives Κλικ στο Options (δε δίνει όλα τα μέτρα) 12
Στατιστικά Περιγραφικά Μέτρα (Ποσοτικές μετ.) γ τρόπος Analyze Descriptive Statistics Explore 13
Μορφές Κατανομών 14
Δείκτες Aσυμμετρίας (Skewness) - Κυρτότητας (Kurtosis) Αρνητικές τιμές του συντελεστή ασυμμετρίας είναι ένδειξη ότι η κατανομή παρουσιάζει αρνητική ασυμμετρία. Η κατανομή είναι θετικά ασύμμετρη όταν λαμβάνει θετικές τιμές. Αρνητικές τιμές του συντελεστή κυρτότητας σημαίνουν ότι η κατανομή είναι πλατύκυρτη ενώ θετικές τιμές ότι είναι λεπτόκυρτη. Τιμές κοντά στο μηδέν είναι ένδειξη ότι η κατανομή είναι μεσόκυρτη. Και οι δύο τιμές πρέπει να είναι κοντά στο μηδέν για περίπου κανονική κατανομή. Ένας απλός κανόνας για να δεχτούμε ότι η κατανομή μιας μεταβλητής δεν απέχει σημαντικά από την κανονική είναι οι τιμές της ασυμμετρίας και της κυρτότητας να βρίσκονται στο διάστημα τιμών [-2, +2]. Στις περιπτώσεις μεγάλων δειγμάτων (n>300) το αντίστοιχο εύρος είναι από -1 έως +1. 15
Δείκτες Aσυμμετρίας (Skewness) - Κυρτότητας (Kurtosis) 16
Έλεγχοι Κανονικότητας με τη βοήθεια γραφικής αναπαράστασης Analyze Descriptive Statistics Explore Τοποθετούµε τις µεταβλητές που θέλουµε να ελέγξουμε στο πλαίσιο Dependent List και κλικ στο Plots 17
Έλεγχοι Κανονικότητας με τη βοήθεια γραφικής αναπαράστασης Επιλέγουμε Histogram (όχι Stem-and-leaf) και check στο Normality plots with tests Κλικ Continue Κλικ ΟΚ 18
Από το Ιστόγραμμα διαπιστώνουμε ότι κατανομή της ηλικίας του πατέρα δεν απέχει πολύ από την κανονική κατανομή. Είναι ελαφρώς θετικά ασύμμετρη και αυτό οφείλεται σε ακραίες τιμές που βρίσκονται στα δεξιά της κατανομής Ιστόγραμμα 19
Boxplot (1) Το Boxplot είναι ένας βολικός τρόπος γραφικής αναπαράστασης μιας μεταβλητής, ως προς πέντε βασικές παραμέτρους που συνοψίζουν την κατανομή της: - την ελάχιστη τιμή (min) - το 1 ο τεταρτημόριο (Q25 ή Q1) - τη διάμεσο (Q50 ή Q2) - το τρίτο τεταρτημόριο (Q75 ή Q3) - και τη μέγιστη τιμή (max). Με το boxplot, μπορούμε επιπλέον να εντοπίσουμε τυχόν ακραίες τιμές (outliers) μιας μεταβλητής. 20
Boxplot (2) Κάθε πλαίσιο-κουτί απεικονίζει το Q 1, τη διάμεσο (Μ) και το Q 3. Οι απολήξεις (μουστάκια) υποδεικνύουν τα όρια των τιμών min και max όταν το μήκος τους είναι μικρότερο από (1.5*(Q 3 Q 1 )) Τιμές που βρίσκονται πάνω από (1.5*(Q 3 Q 1 )) ονομάζονται ύποπτα ακραίες (outlier). Τιμές που βρίσκονται πάνω από (3*(Q 3 Q 1 )) ονομάζονται ακραίες (extreme). Κατανομές με συμμετρικά θηκογράμματα 21 πλησιάζουν την κανονική.
Boxplot (3) Κάθε πλαίσιο-κουτί απεικονίζει το Q 1, τη διάμεσο (Μ) και το Q 3. Οι απολήξεις (μουστάκια) υποδεικνύουν τα όρια των τιμών min και max όταν το μήκος τους είναι μικρότερο από (1.5*(Q 3 Q 1 )) Τιμές που βρίσκονται πάνω από (1.5*(Q 3 Q 1 )) ονομάζονται ύποπτα ακραίες (outlier). Τιμές που βρίσκονται πάνω από (3*(Q 3 Q 1 )) ονομάζονται ακραίες (extreme). Κατανομές με συμμετρικά θηκογράμματα 22 πλησιάζουν την κανονική.
Boxplot (4) Το boxplot, όπως και το ιστόγραμμα, μας επιτρέπει να κρίνουμε αν η κατανομή μιας συνεχούς μεταβλητής είναι κανονική. Για να κάνουμε αυτήν την παραδοχή ϑα πρέπει: η διάμεσος να μην αποκλίνει σημαντικά προς το πρώτο ή το τρίτο τεταρτημόριο, δηλαδή η γραμμή που αντιστοιχεί στη διάμεσο να μην πλησιάζει σε κάποιο από τα δύο άκρα του κουτιού (γιατί αλλιώς αυτό ϑα σήμαινε πως η κατανομή δεν πλησιάζει τη συμμετρική), το εύρος των τιμών στα δύο ακραία τεταρτημόρια να μη διαφέρει σημαντικά, δηλαδή τα μήκη των δύο απολήξεων να είναι συγκρίσιμα (για τη διατήρηση της συμμετρίας). να μην υπάρχουν ακραίες τιμές, δηλαδή να μην υπάρχουν σημεία μακριά από τις δύο απολήξεις. 23
Boxplot (5) Οι παρατηρήσεις 260, 249, 118 και 182 (ο) είναι πιθανές ακραίες τιμές (μεγάλες ηλικίες) γιατί βρίσκονται πάνω από 1.5(Q3 - Q1). Η παρατήρηση 162 (ο) πιθανόν να είναι ακραία ηλικία (μικρή ηλικία) γιατί βρίσκονται κάτω από 1.5(Q3-Q1). 24
Boxplot (6) Αλλάζουμε την ηλικία του πατέρα του 1 ου μαθητή σε μια πολύ υψηλή τιμή. Η παρατήρηση 1 (*) αποτελεί ακραία παρατήρηση της κατανομής (πολύ μεγάλη ηλικία) γιατί βρίσκεται πάνω από 3(Q3-Q1). Αυτή η παρατήρηση θα ξεχωρίζει επίσης και στο Ιστόγραμμα και το QQ-Plot. 25
Boxplot (7) 26
Normal Q-Q Plot (1) Πρόκειται για ένα διάγραμμα όπου η παρατηρηθείσα αθροιστική σχετική συχνότητα σχεδιάζεται απέναντι στην αναμενόμενη αθροιστική σχετική συχνότητα, δηλαδή αυτή που θα προέκυπτε αν η κατανομή ήταν κανονική. Ηλικία Πατέρα 27
Normal Q-Q Plot (2) Όσο πιο κοντά στην ευθεία είναι τα σημεία του σχήματος τόσο πιο πολλές είναι οι ενδείξεις ότι τα δεδομένα ακολουθούν την κανονική κατανομή. Διαπιστώνουμε ότι μερικές παρατηρήσεις της κατανομής αποκλίνουν σημαντικά από την ευθεία (πάνω δεξιά). 28 Ηλικία Πατέρα
Σχέση QQ-Plot και μορφής της κατανομής (1) 29 Hair et al. (2010)
Σχέση QQ-Plot και μορφής της κατανομής (2) 30 Hair et al. (2010)
Επιλογή Υποσυνόλου Υποκειμένων Σύνολα Δεδομένων για το Μάθημα: http://www.amarkos.gr/courses/datasets - Κατεβάστε τo αρχείο δεδομένων για το «Διδακτικό Πείραμα Χωρικής Σκέψης» (αρχείο Excel) και ανοίξτε το αρχείο μέσα από το SPSS. 31
Επιλογή Υποσυνόλου Υποκειμένων Πώς μπορούμε να επιλέξουμε μόνο τις παρατηρήσεις της ομάδας ΟΠ1; Data Select Cases. If condition is satisfied 32
Επιλογή Υποσυνόλου Υποκειμένων Data Split File 33
Αλλαγή Κωδικοποίησης Ομαδοποίηση τιμών Σύνολα Δεδομένων για το Μάθημα: http://www.amarkos.gr/courses/datasets - Κατεβάστε τo αρχείο δεδομένων για το «Μάθηση και Μέγεθος Σχολικής Τάξης» (αρχείο Excel) και ανοίξτε το αρχείο μέσα από το SPSS. * Να ομαδοποιήσετε τις επιδόσεις στα Μαθηματικά σε τρία διαστήματα - κατηγορίες ως εξής: α) 320 454 β) 455 485 γ) 486 626 34
Αλλαγής Κωδικοποίησης - Recode Transform Recode into Different Κλικ στο Old and New Values 35
Πίνακες Συνάφειας Κατηγορικών Μεταβλητών * Να κατασκευάσετε και να σχολιάσετε τον πίνακα συνάφειας μεταξύ του φύλου μαθητή και των ομαδοποιημένων επιδόσεων στα Μαθηματικά. 36
Πίνακες Συνάφειας Κατηγορικών Μεταβλητών Analyze Descriptive Statistics Crosstabs Cells 37
Πίνακες Συνάφειας Κατηγορικών Μεταβλητών - 156 από τα 539 αγόρια (28,9%) έχουν χαμηλή επίδοση στα μαθηματικά. - 156 από τους 263 μαθητές με χαμηλή επίδοση στα Μαθηματικά (59,3%) είναι αγόρια. 38
Πίνακες Συνάφειας Κατηγορικών Μεταβλητών - Να κατασκευάσετε το διάγραμμα διασποράς της σχέσης ανάμεσα στις επιδόσεις των μαθητών στα Μαθηματικά και στις επιδόσεις στην Ανάγνωση. - Να υπολογίσετε και να σχολιάστε του δείκτες συσχέτισης Pearson s r και Spearman s rho ανάμεσα στις παραπάνω μεταβλητές. 39
Συνάφεια (Συσχέτιση) Ποσοτικών Μεταβλητών Κατασκευή Διαγράμματος Διασποράς Graphs Legacy Dialogs Scatter/Dot Simple Scatter 40
Διάγραμμα Διασποράς Η Γραμμικότητα, η Κατεύθυνση και η Ένταση της σχέσης είναι τρεις έννοιες που μας ενδιαφέρουν Θετική Γραμμική Σχέση Αρνητική Γραμμική Σχέση Μη Γραμμική Σχέση Απουσία Γραμμικής Σχέσης 41
Πώς θα μετρήσουμε τη αλληλεξάρτηση δύο μεταβλητών; Το στατιστικό κριτήριο που χρησιμοποιούμε για να διαπιστώσουμε αν υπάρχει αλληλεξάρτηση μεταξύ δύο μεταβλητών, ονομάζεται ΔΕΙΚΤΗΣ ΣΥΣΧΕΤΙΣΗΣ (CORRELATION COEFFICIENT) 42
Δείκτες Συσχέτισης Οι τρεις σημαντικότεροι και πιο συχνά χρησιμοποιούμενοι δείκτες συσχέτισης είναι: Δείκτης r του Pearson (Product-moment correlation coefficient) Δείκτης rho του Spearman Ο δείκτης Συμφωνίας W του Kendall 43
Η Ερμηνεία του Δείκτη Συσχέτισης r Ο δείκτης συσχέτισης r αποτελείται από δύο στοιχεία: ένα πρόσημο (πληροφορίες για την κατεύθυνση της σχέσης) μια αριθμητική τιμή από 0 ως 1 (πληροφορίες για το βαθμό/ένταση της σχέσης) Θετική συσχέτιση (+) Όταν αυξάνεται η μια μεταβλητή, αυξάνεται και η άλλη Αρνητική συσχέτιση (-) Όταν αυξάνεται η μια μεταβλητή, μειώνεται η άλλη 44
Διάγραμμα Διασποράς Ποιά είναι η σχέση ανάμεσα στις επιδόσεις στην Άλγεβρα και την Φυσική; Πολύ υψηλή Θετική Συσχέτιση r = + 0,98 45
Διάγραμμα Διασποράς Ποιά είναι η σχέση ανάμεσα στις επιδόσεις στην Φυσική και τα Νέα Ελληνικά; Πολύ υψηλή Αρνητική Συσχέτιση r = - 0,97 46
Διάγραμμα Διασποράς Ποιά είναι η σχέση ανάμεσα στις επιδόσεις στην Άλγεβρα και την Μουσική; Μηδενική Συσχέτιση r = 0,06 (απουσία γραμμικής σχέσης) 47
Διάγραμμα Διασποράς ανάμεσα στη θερμοκρασία και τους μήνες του έτους Θετική Καμπυλόγραμμη Συσχέτιση (ακατάλληλος ο r) 48
Πληροφορίες που παίρνουμε από το δείκτη συσχέτισης r του Pearson Αν υπάρχει γραμμική συσχέτιση μεταξύ δύο μεταβλητών Το είδος (κατεύθυνση) της συσχέτισης Το βαθμό/ένταση της συσχέτισης 49
Η Ερμηνεία του Δείκτη Συσχέτισης r Αν ο δείκτης είναι μικρότερος του ± 0.30 Αν ο δείκτης κυμαίνεται μεταξύ ± 0.30 0.49 Αν ο δείκτης κυμαίνεται μεταξύ ± 0.50 0.69 Αν ο δείκτης κυμαίνεται μεταξύ ± 0.70 0.79 Αν ο δείκτης κυμαίνεται μεταξύ ± 0.80 0.99 Δεν υπάρχει συσχέτιση Χαμηλή συσχέτιση Μέτρια συσχέτιση Υψηλή συσχέτιση Πολύ υψηλή συσχέτιση 50
Συσχέτιση Ποσοτικών Μεταβλητών Ο συντελεστής συσχέτισης r του Pearson Analyze Correlate Bivariate Προϋποθέσεις χρήσης του συντελεστή r του Pearson (α) οι μεταβλητές να είναι συνεχείς και να κατανέμονται κανονικά, και (β) οι μεταβλητές να έχουν γραμμική σχέση μεταξύ τους Όταν δεν πληρούνται οι παραπάνω προϋποθέσεις χρησιμοποιούμε τον συντελεστή συσχέτισης του Spearman. 51
Συσχέτιση Ποσοτικών Μεταβλητών Pearson s r Υψηλή θετική συσχέτιση Spearman s rho Υψηλή θετική συσχέτιση 52
Άσκηση Κατανόησης 1) Από την ιστοσελίδα του μαθήματος να κατεβάσετε και να εισάγετε στο SPSS τα δεδομένα «Μάθηση & Μέγεθος Σχολικής Τάξης» 2) Να εισάγετε ετικέτες στις τιμές των κατηγορικών μεταβλητών (θα τις βρείτε στο αρχείο Περιγραφή - Description). 3) Να σχολιάσετε τις κατανομές των μεταβλητών «Μαθηματικά», «Ανάγνωση» και «Εμπειρία του Εκπαιδευτικού». Ποιά η σχέση τους με την κανονική κατανομή; Σχολιάστε τους αντίστοιχους συντελεστές ασυμμετρίας-κυρτότητας και τα κατάλληλα γραφήματα. 4) Τι συμβαίνει στις μέσες επιδόσεις των μαθητών στην Ανάγνωση και τα Μαθηματικά καθώς αυξάνει το μέγεθος της τάξης; 5) Να ομαδοποιήσετε τις επιδόσεις στα Μαθηματικά σε τρεις κατηγορίες α) 320 454 β) 455 485 γ) 486-513. 53
Άσκηση Κατανόησης 6) Να κατασκευάσετε και να σχολιάσετε τον πίνακα συνάφειας μεταξύ του γεύματος στο σχολείο και των ομαδοποιημένων επιδόσεων στα Μαθηματικά. 7) Να κατασκευάσετε το διάγραμμα διασποράς της σχέσης ανάμεσα στα χρόνια εμπειρίας του εκπαιδευτικού και τις επιδόσεις των μαθητών στην Ανάγνωση. 8) Να υπολογίσετε και να σχολιάστε του δείκτες συσχέτισης Pearson s r και Spearman s rho ανάμεσα στις παραπάνω μεταβλητές. 54
#end 55