Δειγματοληψία στην εκπαιδευτική έρευνα Είδη δειγματοληψίας
Γνωρίζουμε ότι: Με τη στατιστική τα δεδομένα γίνονται πληροφορίες Στατιστική Δεδομένα Πληροφορία Αλλά από πού προέρχονται τα δεδομένα; Πώς τα συλλέγουμε; Πώς γνωρίζουμε ότι είναι αξιόπιστα; Πώς ξέρουμε ότι είναι αντιπροσωπευτικά;
Μέθοδοι συλλογής δεδομένων Υπάρχουν πολλοί τρόποι για να συλλέξουμε δεδομένα και τρεις από τους πιο διαδεδομένους είναι: Η παρατήρηση Το πείραμα Ηδημοσκόπηση.
Δημοσκόπηση Με τη δημοσκόπηση συλλέγουμε δεδομένα από ανθρώπους, π.χ. οι έρευνες της κοινής γνώμης, τα exit-polls, οι έρευνες αγοράς. Ο βαθμός ανταπόκρισης (response rate) στην δημοσκόπηση είναι ένας σημαντικός παράγοντας με τον οποίο αξιολογούμε την ποιότητά της. Δημοσκοπίσεις γίνονται με διάφορους τρόπους, όπως Τηλεφωνικές συνεντεύξεις, Προσωπικές συνεντεύξεις, και Ερωτηματολόγια.
Σχεδιασμός των ερωτηματολογίων Πολλά βιβλία και άρθρα έχουν γραφτεί για την κατασκευή των ερωτηματολογίων. Τα κυριότερα σημεία, στα οποία συμφώνούν οι περισσότεροι μελετητές είναι τα εξής: 1.Το ερωτηματολόγιο πρέπει να είναι όσο το δυνατόν πιο σύντομο. 2.Ρωτάτε απλές και ξεκάθαρες ερωτήσεις. 3.Αρχίστε με ερωτήσεις δημογραφικού τύπου, ώστε να κάνετε τους ερωτώμενους να νιώσουν άνετα. 4.Χρησιμοποιήστε διχοτομικές ερωτήσεις (ναι/όχι), καθώς και ερωτήσεις πολλαπλής επιλογής. 5.Χρησιμοποιείστε με προσοχή τις ερωτήσεις ελεύθερης απάντησης. 6.Μη χρησιμοποιείτε κατευθυνόμενες ερωτήσεις. 7.Δώστε πιλοτικά το ερωτηματολόγιο σε μια ομάδα ανθρώπων. 8.Σκεφτείτε πώς θα χρησιμοποιήσετε τα δεδομένα σας.
Δειγματοληψία υποσύνολο Πληθυσμός Δείγμα
Δειγματοληψία Μέσω στατιστικών διαδικασιών, μπορούμε να βγάλουμε συμπεράσματα για τον πληθυσμό μέσα από ένα αντιπροσωπευτικό δείγμα του πληθυσμού Δειγματοληψία, δηλαδή η συλλογή ενός υποσυνόλου του πληθυσμού, κάνουμε για λόγους κόστους και πρακτικότητας Σε κάθε περίπτωση, φροντίζουμε να έχουμε ίδιο τον πληθυσμό - στόχο (target population) και τον πληθυσμό στον οποίο μπορούμε να γενικεύσουμε (sampled population).
Μέθοδοι δειγματοληψίας στην ποσοτική έρευνα: Απλή τυχαία δειγματοληψία (simple random sampling), Στρωματοποιημένη δειγματοληψία (stratified random sampling), και Δειγματοληψία κατά ομάδες (cluster sampling).
Απλή τυχαία δειγματοληψία (simple Random Sampling): Στην απλή τυχαία δειγματοληψία, κάθε μονάδα του πληθυσμού έχει ίσες πιθανότητες να επιλεγεί στο δείγμα Π.χ.: αν επιλέξουμε τυχαία τρία ονόματα φοιτητών από όλους όσοι βρίσκονται στην αίθουσα τότε έχουμε μια ιδέα για την απλή τυχαία δειγματοληψία
Δειγματοληψία με πίνακα τυχαίων αριθμών Έστω ότι έχουμε έναν πληθυσμό αποφοίτων (N=200) Θέλουμε ένα δείγμα είκοσι αποφοίτων (n=20) Διαιρούμε: N/n=5 Επιλέγουμε ένα νούμερο από το 1 ως το 5 (έστω το 4) Αρχίζοντας από το 4, επιλέγουμε κάθε 5 ο νούμερο
Απλή τυχαία δειγματοληψία με τη βοήθεια πινάκων τυχαίων αριθμών
Απλή τυχαία δειγματοληψία με τη βοήθεια ειδικού προγράμματος Σημείωση: Καμιά φορά πρέπει να προσέχουμε και τις επαναλήψεις
Στρωματοποιημένη δειγματοληψία stratified random sampling Για την στρωματοποιημένη δειγματοληψία χωρίζουμε τον πληθυσμό σε διαφορετικά υποσύνολα ή στρώματα (strata), και χρησιμοποιούμε τυχαία δειγματοληψία μέσα σε κάθε στρώμα. Στρώμα 1 : Φύλο Άνδρες Γυναίκες Στρώμα 2 : Ηλικία < 20 20-30 31-40 41-50 51-60 > 60 Στρώμα 3 : Επάγγελμα Επιστήμονας Κληρικός Εργάτης Άλλο Μπορούμε να βγάλουμε συμπεράσματα για όλο τον πληθυσμό, να βγάλουμε συμπεράσματα για κάθε στρώμα ξεχωριστά, να βγάλουμε συμπεράσματα διαστρωματικά
Στρωματοποιημένη δειγματοληψία Όταν έχουμε χωρίσει τον πληθυσμό σε στρώματα, μπορούμε να χρησιμοποιήσουμε απλή τυχαία δειγματοληψία Κατηγορία εισοδημάτων Ποσοστό στον πληθυσμό Αν έχουμε πόρους για να συλλέξουμε μόνο 400 άτομα θα πάρουμε 100 από αυτούς που έχουν χαμηλό εισόδημα Μέγεθος του δείγματος n=400 n=1000 Κάτω από 10.000 25% 100 250 10.000 20.000 40% 160 400 20.000 40.000 30% 120 300 Πάνω από 40.000 5% 20 50 Αν επιλέγουμε 1.000 ανθρώπους, θα πάρουμε 50 από το στρώμα των εύπορων
Δειγματοληψία κατά ομάδες (cluster sampling) Στη δειγματοληψία κατά ομάδες επιλέγουμε ομάδες ατόμων (σχολεία, τμήματα) Η μέθοδος αυτή είναι πολύ χρήσιμη στην εκπαιδευτική έρευνα, όταν δεν γνωρίζουμε τον πληθυσμό ή όταν οι μονάδες του πληθυσμού είναι διεσπαρμένες από γεωγραφική άποψη Στη δειγματοληψία κατά ομάδες μπορεί να έχουμε σφάλμα δειγματοληψίας, λόγω μη ομοιότητας των μονάδων μέσα σε κάθε ομάδα
To μέγεθος του δείγματος Με το μέγεθος του δείγματος θα ασχοληθούμε αργότερα, αλλά, γενικά, όσο μεγαλύτερο είναι το δείγμα, τόσο ακριβέστερες είναι οι εκτιμήσεις που κάνουμε για τον πληθυσμό
Είδη σφαλμάτων κατά τη δειγματοληψία Δύο τύπους σφαλμάτων αναγνωρίζουμε, όταν κάνουμε εκτιμήσεις από το δείγμα προς τον πληθυσμό: Τα σφάλματα δειγματοληψίας και τα συστηματικά σφάλματα, τα σφάλματα δηλαδή που δεν οφείλονται στο πλαίσιο της δειγματοληψίας Στα σφάλματα δειγματοληψίας οφείλονται στην τυχαιότητα, δηλαδή στο πλαίσιο της δειγματοληψίας Τα σφάλματα που δεν οφείλονται στο πλαίσιο της δειγματοληψίας οφείλονται σε κάποιο λόγο, ο οποίοςέχεινα κάνει με τον σχεδιασμό ή τη διεξαγωγή της έρευνας
Σφάλματα δειγματοληψίας Τα σφάλματα δειγματοληψίας οφείλονται στις διαφορές μεταξύ διαφορετικών δειγμάτων λόγω της τυχαιότητας στο υφιστάμενο πλαίσιο της δειγματοληψίας Π.χ.: Επιλέγουμε δύο φορές (δύο δείγματα) 10 σχολείων από τα 100 σχολεία της Δυτικής Αττικής. Αν στο πρώτο δείγμα τύχει να επιλεγούν μόνο σχολεία της Ελευσίνας και στο δεύτερο δείγμα δεν επιλεγεί κανένα σχολείο της Ελευσίνας, αυτό είναι τυχαιότητα (σφάλμα δειγματοληψίας) Εύλογο συμπέρασμα: Με την αύξηση του μεγέθους του δείγματος μειώνουμε την πιθανότητα του να υποπέσουμε σε σφάλμα δειγματοληψίας
Συστηματικά σφάλματα Τα συστηματικά σφάλματα είναι πιο σοβαρά και οφείλονται σε λάθη που γίνονται σε αυτή καθ αυτή τη συλλογή των δεδομένων. Μπορεί να οφείλονται σε: Λάθη κατά τη συλλογή των δεδομένων Συστηματική αποφυγή απάντησης από ανθρώπους με ορισμένα χαρακτηριστικά Επιλογή ατόμων Εύλογο συμπέρασμα: Με την αύξηση του μεγέθους του δείγματος δεν μειώνουμε την πιθανότητα του να υποπέσουμε σε σφάλμα δειγματοληψίας
Σφάλματα κατά τη συλλογή των δεδομένων οφείλονται σε λανθασμένη καταγραφή δεδομένων για τους εξής λόγους: αναξιόπιστη μέτρηση λόγω κακού εργαλείου, λάθη σωστής καταγραφής, λάθη στην καταγραφή λόγω αμφισημιών, ή ανακριβείς απαντήσεις σε «ευαίσθητα» θέματα.
Συστηματική αποφυγή απάντησης (non response) Μερικές φορές η αποφυγή απάντησης είναι συστηματική μέσα στο δείγμα. Π.χ., μια ερώτηση θεωρείται για κάποιους ερωτώμενους από το δείγμα με συγκεκριμένα χαρακτηριστικά ότι θίγει ευαίσθητα θέματα για αυτούς και δεν απαντιέται. Όπως έχουμε αναφέρει, το ποσοστό των απαντήσεων (response rate) είναι ένας σημαντικός παράγοντας για την αξιολόγηση της έρευνας.
Σφάλμα επιλογής Κάποιες ομάδες του πληθυσμού αποκλείονται από το δείγμα, λόγω του σχεδιασμού ή λόγω της αδυναμίας των ερευνητών
Η σχέση μεταξύ των δύο σφαλμάτων Σφάλμα δειγματοληψίας Συνολικό σφάλμα Συστηματικό σφάλμα
Δειγματοληψία στην εκπαιδευτική έρευνα Μέγεθος του δείγματος και δειγματοληπτική κατανομή
Απότοδείγμαστονπληθυσμό Χρειάζεται να συζητήσουμε τρεις κατανομές Η πληροφορία από το δείγμα συνδέεται με την πληροφορία για τον πληθυσμό μέσω της δειγματοληπτικής κατανομής Κατανομή του πληθυσμού Δειγματοληπτική κατανομή Κατανομή του δείγματος
Κατανομή συχνότητας Συχνότητα α β γ δ x Περιοχή = β x γ)
Η κανονική κατανομή (normal distrubution) Από τις πιο σημαντικές κατανομές στη στατιστική f(x) f(x) = 1 2πσ e (x μ) 2σ 2 2 σ Έχει δύο παραμέτρους: μ: τον μέσο όρο και σ: την τυπική απόκλιση μ x
Η «τυπική απόκλιση» (standard deviation) είναι ένα μέτρο της διασποράς (dispersion) μιας κατανομής ενώ ο μέσος όρος (mean) είναι ένας δείκτης «κεντρικής τάσης» της κατανομής. Περσικός Κόλπος: ημέρα = 72 νύχτα = 68 Έρημος Kalahari : ημέρα = 110 νύχτα = 30 Μέσος όρος: x Διακύμανση: 2 σ = ( x x) N 2
Περσικός Κόλπος: ημέρα = 72 νύχτα = 68 Έρημος Kalahari : ημέρα = 110 νύχτα = 30 x 72 + 68 110 + 30 Μέσος όρος : x = = = = 70 N 2 2 Διακύμανση : σ 2 ( x x) = N 2 = (72 70) 2 + (68 70) 2 2 = 4 Τυπική απόκλιση : σ = σ 2 = 4 = 2 Και στις δύο περιπτώσεις ο μέσος όρος είναι το 70. Για την έρημο Kalahari, όμως, βρίσκουμε διακύμανση ίση με 800 και τυπική απόκλιση ίση περίπου με 28,284.
Κανονική κατανομή Αύξηση του μέσου όρου Αλλαγή του μ
Κανονική κατανομή μείωση του μέσου όρου Αλλαγή του μ
Κανονική κατανομή αύξηση της τυπικής απόκλισης σ Αλλαγή της σ
Κανονική κατανομή μείωση της τυπικής απόκλισης σ Αλλαγή της σ
Κανονική κατανομή πιθανότητας X ~ N(μ,σ) P(α X β)=; α β
Τυπική κανονική κατανομή Τυπική κανονική κατανομή: Z ~N(0,1) 0 90% 95% -1,645 0 1,645-1,96 0 1,96
Τυπική Κανονική Κατανομή μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ x σε μία τυπική απόκλιση πάνω από τον μ.ο.: 0.6827 ή 68% των τιμών x σε δύο τυπικές αποκλίσεις πάνω από τον μ.ο.: 0.9545 ή 95% των τιμών x σε τρεις τυπικές αποκλίσεις πάνω από τον μ.ο.: 0.9973 ή 99% των τιμών
Κεντρικό Οριακό Θεώρημα (Central Limit Theorem) Ας υποθέσουμε ότι έχουμε έναν πληθυσμό Π, με: Π={ x 1,x 2, x n } x i x j
Έστω ότι μ είναι ο μέσος όρος του Π Έστω n= το δείγμα, και m ο μέσος όρος στο δείγμα Παραμένει σταθερό; x i x j
«Αν πάρουμε όλα τα πιθανά δείγματα μεγέθους n από έναν πληθυσμό και υπολογίσουμε τους μέσους όρων αυτών των δειγμάτων, τότε η κατανομή των μέσων όρων θα είναι κατά προσέγγιση κανονική κατανομή» 0 m Ν m N
Κεντρικό οριακό θεώρημα Σε τυχαία δειγματοληψία από έναν πληθυσμό με μέσο όρο μ και τυπική απόκλιση σ, όταν το μέγεθος του δείγματος n είναι επαρκώς μεγάλο, η κατανομή των μέσων όρων των δειγμάτων (δηλαδή η «δειγματοληπτική κατανομή»: είναι κατά προσέγγιση κανονική με μέσο όρο μ X ίσο με μ και τυπική απόκλιση s X ίση με σ / n Εφαρμόζεται για δείγματα μεγέθους n > 30 ανεξαρτήτως από το σχήμα των κατανομής του πληθυσμού Εφαρμόζεται για δείγματα μεγέθους n 30, αν η κατανομή στον πληθυσμό είναι κανονική
Κεντρικό Οριακό Θεώρημα μ 68% μ54.25 -σ/ n μ + 54.75 σ / n 95% μ54.00-2σ n μ + 2σ/ n 55.00 99.7% 99.7% μ53.75-3σ n μ + 3σ/ n 55.25
Σφάλμα = e Σφάλμα = e Κατώτερο όριο (L) X Ανώτερο όριο (U) Σφάλμα = e = z α/2 σ n Συνήθως, το 1,96 Εύρος του διαστήματος = w = 2e Ανώτερο όριο = X + e Κατώτερο όριο = X - e
Εκτίμηση του µ x Παράδειγμα: Μια εταιρεία απασχολεί περί τους N=10.000 εργαζόμενους. Γιαναεκτιμήσουμετα χρόνια υπηρεσίας του καθενός από τους 10.000 επιλέγουμε με απλή τυχαία δειγματοληψία n=50. Έστω ότι στο δείγμα μας: x = 6.0 Είναι σωστή μια τέτοια εκτίμηση; Όχι!
Δειγματοληπτική κατανομή με πιθανότητα 0,05 (=α) στα άκρα της. 1 - α = 0,95 α/2 = 0,025 α/2 = 0,025 Z = Z =
Δειγματοληπτική κατανομή και εκτίμηση n=40 n=20 n=10 Άρα, ο μέσος όρος x είναι καλός εκτιμητής του μέσου της δειγματοληπτικής κατανομής μ x
e d a b c X (years) μ = μ X X Z = X μ X σ X -3-2 -1 0 1 2 3 X a 3σ X X a X a + 3σ X X b 3σ X X b X b + 3σ X X c 3σ X X c X c + 3σ X X d 3σ X X d X d + 3σ X Αυτό δεν περιέχει τον µ X X e 3σ X X e X e + 3σ X
Εκτίμηση του µ x σε «μεγάλα δείγματα» (n>30) Γενικά, δεν γνωρίζουμε τον µ ήτηνσ.
Έτσι, αφού x = 6.0 δεν είναι από μόνο του επαρκές, κάνουμε μια εκτίμηση του διαστήματος για το. μ x Υπολογίζουμε λοιπόν ένα διάστημα εμπιστοσύνης γύρω από τον μ x
0.0013=α/2 0.4987 0.4987-3 0 3 P( x 3σ μ x + 3σ ) = x x x 0.9974 0.0013=α/2 x ± 3σ x
Γενικά σε μεγάλα δείγματα (n>30) υπολογίζουμε το διάστημα με πιθανότητα 100(1- α)% for µ x : x ± z x z α / 2σ α / 2σ x μ x x + zα / 2 x σ x Όπου το z α/2 έχει α/2 της επιφάνειας στα δεξιά του. σ x Αν δεν γνωρίζουμε την τιμή της αλλά μπορούμε να την υπολογίζουμε από την s x σε μεγάλα δείγματα.
Για την επιχείρηση που είπαμε x = 6.0, υποθέτουμε ότι s x = 4.6 έτη. Έτσι, για n = 50, 10,000 50 4.6 ˆ = = &.6489 10,000 1 50 σ x Η, αν αγνοήσουμε τη διόρθωση: 4.6 ˆ = = & 50 σ x.6505 Στρογγυλοποιούμε την σˆ σε περίπου 0,65. x
Άρα για τρεις τυπικές αποκλίσεις 3-σ, or 99.74%, το διάστημα εμπιστοσύνης είναι: 6,0 3(0,65) μ x 6,0 + 3(0,65) 6,0 1,95 μ x 6,0 + 1,95 4,05 μ x 7,95
Το αντίστοιχο επίπεδο 90% Το διάστημα εμπιστοσύνης είναι: 6,0 1,645(0,65) μ x 6,0 + 1,645(0,65) 6,0 1,07 μ x 6,0 + 1,07 4,93 μ x 7,07
Παράδειγμα Διάστημα εμπιστοσύνης = 95% ή 0,05 Έστω ότι το αποδεκτό σφάλμα είναι μία μονάδα πάνω και κάτω Έστω σ, ητυπικήαπόκλισητουπληθυσμού) Λύνουμε την εξίσωση ως προς N: σ X ± 1.96 14243 N 0,1 σ 0,1 = 1,96 n 2,5 0,1 = 1,96 n 2,5 N = 1,96 0,1 N = 2.401 Άρα, αν θέλουμε να είμαστε ακριβείς σε ένα διάστημα εμπιστοσύνης συν-πλην μίας μονάδας, θα πρέπει να πάρουμε ένα δείγμα δύο χιλιάδων τετρακοσίων ενός
X ± 1.96σx = X ± 1.96 σ N 15 ± 1.96 5 100 = 15 ± 0.98
P s ± 2.33 PsQs N =.55 ± 2.33 (.55)(.45) 125 =.55 ± 0.1037
X ± 2.797σx ˆ = X ± 2.797 S N 1 52 ± 2.797 12 24 = 52 ± 6.85
Για να αποφασίσουμε το μέγεθος του δείγματος χρειαζόμαστε Τον μέσο όρο Το τυπικό σφάλμα Τον βαθμό ακρίβειας Το διάστημα εμπιστοσύνης
Όταν πρόκειται για ποσοστά: Accuracy Level plus or minus 5 percent (95% confidence level) Steps: A..05/1.96=.0255102 B. (.0255102) 2 =.0006507 ( Py ( Py Std )( Pn N )( Pn Error.25.0006507 ) 2 ) = = = N Std 384 Error