Θυμηθείτε εισήγηση 7η Δείγμα & Δειγματοληψία στην Έρευνα ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (#252) Η Στατιστική είναι ένας μηχανισμός που από τα δεδομένα παράγει πληροφόρηση: Δεδομένα Στατιστική Πληροφορίες Αλλά από πού τα δεδομένα έρχονται; Πως μαζεύονται; Πως εξασφαλίζεται η ορθότητα τους; Αντιπροσωπεύουν τον πληθυσμό από τον οποίο επιλέχθηκαν;. ΔΕΙΓΜΑΤΟΛΗΠΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ ΠΛΗΘΥΣΜΟΣ: Το ευρύτερο σύνολο, στο οποίο και ενδιαφερόμαστε να γενικεύσουμε τα ευρήματα της έρευνας ΔΕΙΓΜΑ: Το υποσύνολο του πληθυσμού, το οποίο μελετάμε στην πράξη και με βάση το οποίο θα διατυπώσουμε συμπεράσματα για τον πληθυσμό ΔΕΙΓΜΑΤΟΛΗΨΙΑ: Η συστηματική διαδικασία με την οποία από τον πληθυσμό επιλέγουμε ένα δείγμα. Δειγματοληψία Θυμηθείτε ότι η επαγωγική στατιστική μας επιτρέπει να βγάλουμε συμπεράσματα σχετικά με τον πληθυσμό βασισμένοι στο δείγμα. Η δειγματοληψία (η επιλογή ενός υποσυνόλου του πληθυσμού) γίνεται συχνά για λόγους κόστους (κοστίζει λιγότερο να κάνεις δειγματοληψία με 1,000 τηλεθεατές από ότι με 100 εκατομμύρια τηλεθεατές) και πρακτικούς (π.χ. δεν γίνεται να εκτελέσουμε έναν έλεγχο σύγκρουσης για κάθε αυτοκίνητο ή ακόμα για πάρα πολλά αυτοκίνητα). Σε κάθε περίπτωση, το δείγμα από τον πληθυσμό τον οποίο τελικά θα επιλέξουμε θα πρέπει να είναι παραπλήσιος με αυτόν που αρχικά είχαμε αποφασίσει. Δειγματοληψία Ορισμός Η διαδικασία με την οποία επιλέγονται ορισμένα άτομα από έναν συγκεκριμένο πληθυσμό ως αντιπρόσωποι του συνολικού πληθυσμού Πηγή: Last JM. A dictionary of epidemiology. Second Edition, Oxford University Press, 1988 Γιατί δειγματοληψία; Μικρό κόστος Μεγάλη ταχύτητα Σχετικώς επαρκή ακρίβεια Χρήση σύνθετων εργαλείων Δειγματοληψία vs απογραφή Δείγμα vs συνολικός πληθυσμός 1
Τύποι δειγματοληψίας Δειγματοληψία με γνωστή πιθανότητα επιλογής (probability sampling) Τυχαία ή τυχαιοποιημένη δειγματοληψία Δυνατότητα υπολογισμού του τυχαίου σφάλματος Εφαρμογή της θεωρίας των πιθανοτήτων Δειγματοληψία με άγνωστη πιθανότητα επιλογής (non-probability sampling) Δειγματοληψία με άγνωστη πιθανότητα επιλογής Δειγματοληψία ευκολίας (convenience sampling): εύκολη πρόσβαση στον πληθυσμό Δειγματοληψία χιονοστιβάδας (snowball sampling): από φίλο σε φίλο και από γείτονα σε γείτονα κλπ Δειγματοληψία σκοπιμότητας (purposive sampling): επιλέγονται άτομα με υποκειμενικά «κριτήρια» Δειγματοληψία αναλογίας (quota sampling): αντανακλά δημογραφικά με τον πληθυσμό Προβλήματα Αδυναμία υπολογισμού του τυχαίου σφάλματος Πιθανότητα συστηματικού σφάλματος Απαιτείται μεγάλη εμπειρία και επανειλημμένη εφαρμογή Δειγματοληψία με γνωστή πιθανότητα επιλογής (1) Ένα δειγματοληπτικό διάγραμμα είναι μία μέθοδος ή διαδικασία για να καθορίσουμε πως ένα δείγμα θα επιλεχθεί από έναν πληθυσμό. Θα επικεντρώσουμε την προσοχή μας σε αυτές τις τέσσερεις μεθόδους: Απλή Τυχαία Δειγματοληψία, Συστηματική Δειγματοληψία Στρωματοποιημένη Τυχαία δειγματοληψία, και Κατά Συστοιχίες Δειγματοληψία. Δειγματοληψία με γνωστή πιθανότητα επιλογής (2) Τυχαία ή τυχαιοποιημένη δειγματοληψία Ενεργητική (και συχνά επίπονη) διαδικασία με την οποία επιδιώκεται να εξασφαλιστεί ότι όλα τα άτομα του πληθυσμού έχουν καθορισμένη πιθανότητα επιλογής στο δείγμα Απλή Τυχαία Δειγματοληψία (1) Ένα απλό τυχαίο δείγμα είναι ένα δείγμα επιλεγμένο με τέτοιο τρόπο ώστε κάθε δυνατό δείγμα του ιδίου μεγέθους έχει την ίδια πιθανότητα να επιλεγεί. Απλή Τυχαία Δειγματοληψία (2) Παράδειγμα 1: Ένας επιθεωρητής έχει να επιλέξει ένα τυχαίο δείγμα 40 από 1,000 φορολογικές δηλώσεις προσώπων για εξέταση Το να επιλέξουμε τρία ονόματα από ένα καπέλο που περιέχει όλα τα ονόματα των φοιτητών της τάξης είναι ένα παράδειγμα απλού τυχαίου δείγματος: κάθε ομάδα τριών ατόμων έχει την ίδια πιθανότητα να επιλεγεί όπως και κάθε ομάδα τριών ατόμων. Κάποιοι ακέραιοι μπορούν πολλαπλές φορές να επιλεχθούν. Απλά επιλέγουμε επιπλέον εφεδρικούς αριθμούς. 2
Συστηματική Δειγματοληψία (1) Επιλογή του δείγματος με βάση κάποιον απλό, συστηματικό κανόνα Διαδικασία Ορισμός του τρόπου καθορισμού του συνόλου του πληθυσμού δειγματοληψίας Υπολογισμός του δειγματοληπτικού κλάσματος Επιλογή της πρώτης μονάδας (ατόμου) που θα μπει στο δείγμα (με τυχαίο τρόπο) Καθορισμός του κανόνα επιλογής (π.χ. σειρά επιλογής) Συστηματική Δειγματοληψία (2) Θέλουμε να εκτιμήσουμε την γνώση της αγγλικής γλώσσας (επιπέδου Cambridge) στους πρωτοετείς φοιτητές του ΤΕΦΑΑ 1. Ορισμός πληθυσμού δείγματος (π.χ εισήχθησαν 320 φοιτητές κατά το τρέχον ακαδημαϊκού έτος) 2. Καθορισμός του δείγματος π.χ. 40 άτομα 3. Υπολογισμός δειγματικού κλάσματος (320/40=8) 4. Επιλογή του πρώτου φοιτητή που θα συμμετέχει στο δείγμα από το 1 έως το 8 (π.χ. το τέταρτο) 5. Στο εξής κάθε 8 ος φοιτητής από τον πρώτο επιλεγέντα (π.χ ο 4 ος ) θα συμμετέχει στο δείγμα. Δηλαδή στο δείγμα θα συμμετέχουν οι π.χ. 4ος, 12ος, 20ος, 28ος, 36ος, 44ος, κλπ Στρωματοποιημένη Τυχαία δειγματοληψία (1) Αφού στρωματοποιήσουμε τον πληθυσμό, μπορούμε να χρησιμοποιήσουμε απλή τυχαία δειγματοληψία για να παράγουμε το πλήρες δείγμα: Στρωματοποιημένη Τυχαία δειγματοληψία (2) Ένα στρωματοποιημένο τυχαίο δείγμα πετυχαίνεται αν χωρίσουμε τον πληθυσμό σε αμοιβαία αποκλειόμενα σύνολα, ή στρώμα, και μετά επιλέγουμε απλά τυχαία δείγματα από κάθε στρώμα. Εάν μόνο έχουμε την δυνατότητα να επιλέξουμε 400 ανθρώπους συνολικά, Θα επιλέγαμε 100 από αυτούς από την ομάδα των χαμηλών εισοδημάτων Εάν επιλέξουμε 1000 ανθρώπου, θα επιλέγαμε 50 από αυτούς από την κατηγορία με τα υψηλότερα εισοδήματα. Στρώμα 1 : Φύλλο Αρσενικό Θηλυκό Στρώμα 2 : Ηλικία < 20 20-30 31-40 41-50 51-60 > 60 Στρώμα 3 : Επάγγελμα επαγγελματίας υπάλληλος εργάτης λοιπά Μπορούμε να θέλουμε σχετικά με τον συνολικό πληθυσμό, να βγάλουμε συμπεράσματα μέσα σε ένα στρώμα ή να βγάλουμε συμπεράσματα διασταυρώνοντας στρώματα. Κατά Συστοιχίες Δειγματοληψία (1) (κατά συστάδες) Μία κατά συστοιχίες δειγματοληψία είναι ένα απλό τυχαίο δείγμα ομάδων ή συστοιχιών (σε αντίθεση με την απλή τυχαία δειγματοληψία από μεμονωμένα άτομα). Αυτή η μέθοδος είναι χρήσιμη όταν είναι δύσκολο ή κοστίζει να έχουμε μία πλήρης λίστα των μελών του πληθυσμού ή όταν τα στοιχεία του πληθυσμού είναι ευρέως διάσπαρτα γεωγραφικός. Η κατά συστοιχίες δειγματοληψία ενδέχεται να αυξήσει το λάθος του δείγματος οφειλόμενο στις ομοιότητες μεταξύ των μελών των ομάδων. Κατά Συστοιχίες Δειγματοληψία (2) Ταξινόμηση του πληθυσμού σε συστάδες (ομάδες) από μονάδες (άτομα) Λήψη τυχαίου δείγματος συστάδων Συμμετέχουν στο δείγμα το σύνολο ή μέρος των μονάδων (ατόμων) από τις επιλεγμένες συστάδες 3
Παράδειγμα Δειγματοληψίας Κατά Συστοιχίες (3) Θέλουμε να εκτιμήσουμε το επίπεδο της παχυσαρκίας στα παιδιά της πρώτης τάξης του Δημοτικού του Νομού Ροδόπης (200 σχολεία) 1. Ταξινόμηση (π.χ. χ με αλφαβητική σειρά) των παιδιών στα σχολεία (200 x 20= 4000) 2. Λήψη τυχαίου δείγματος σχολείων : π.χ. 40 σχολεία (απαιτείται κατάλογος σχολείων) 3. Λήψη τυχαίου δείγματος 10 παιδιών από κάθε επιλεγμένο σχολείο (40 σχολεία x10 μαθητές = 400 επιλεγμένοι μαθητές) επιλέγω με τυχαία δειγματοληψία επιλέγω στην τύχη Μέγεθος Δείγματος Καθορισμός Μεγέθους Δείγματος Στο προηγούμενο κεφάλαιο είδαμε πως καθορίζεται το μέγεθος του δείγματος για απλή τυχαία δειγματοληψία. Υπάρχουν αριθμητικές τεχνικές για να καθορίσουμε τα μεγέθη του δειγμάτων για όλες τις δειγματοληπτικές τεχνικές, π.χ. στρωματοποιημένη ή κατά συστοιχίες, και διδάσκονται σε μαθήματα για δειγματοληπτικές έρευνες (survey sampling). Γενικά όσο πιο μεγάλο το μέγεθος του δείγματος τόσο πιο ακριβή αναμένονται οι εκτιμητές του δείγματος να είναι. Τύποι υπολογισμού Μεγέθους Δείγματος ή Σφάλματος Δειγματοληψίας Σχέση Μεγέθους Δείγματος με Μέγεθος Σφάλματος Σχέση Μεγέθους Πληθυσμού με Μέγεθος Δείγματος Δειγματοληπτικά και Μη-δειγματοληπτικά Λάθη Δύο βασικοί τύποι λαθών μπορούν να εμφανισθούν όταν το δείγμα των παρατηρήσεων παίρνεται από έναν πληθυσμό: δειγματοληπτικό λάθος και μηδειγματοληπτικό λάθος. Το δειγματοληπτικό λάθος αναφέρεται σε διαφορές μεταξύ του δείγματος και του πληθυσμού οι οποίες υπάρχουν επειδή αυτές οι συγκεκριμένες παρατηρήσεις έτυχε να επιλεχθούν. Τα μη-δειγματοληπτικά λάθη είναι πιο σοβαρά και οφείλονται σε λάθη κατά την απόκτηση των δεδομένων ή οφείλεται στην ακατάλληλη επιλογή των δειγματοληπτικών παρατηρήσεων. Δειγματοληπτικό λάθος Το δειγματοληπτικό λάθος αναφέρεται σε διαφορές μεταξύ του δείγματος και του πληθυσμού οι οποίες υπάρχουν επειδή αυτές οι συγκεκριμένες παρατηρήσεις έτυχε να επιλεχθούν Ένας άλλος τρόπος για να δούμε αυτό είναι: οι διαφορές αποτελεσμάτων για διαφορετικά δείγματα (ιδίου μεγέθους) οφειλόμενη καθαρά δειγματοληπτικό λάθος: Π.χ. Δύο δείγματα μεγέθους 10 από 1,000 νοικοκυριά. Εάν συνέβη να πάρουμε τα δεδομένα με το υψηλότερα εισοδήματα στο πρώτο μας δείγμα και όλα τα χαμηλότερα στο δεύτερο, αυτή η διαφορά οφείλεται καθαρά σε δειγματοληπτικό λάθος. Αύξηση του δείγματος, μειώνει το δειγματοληπτικό λάθος. 4
Μη-Δειγματοληπτικό λάθος Τα μη-δειγματοληπτικά λάθη είναι πιο σοβαρά και οφείλονται σε λάθη κατά την απόκτηση των δεδομένων ή οφείλεται στην ακατάλληλη επιλογή των δειγματοληπτικών παρατηρήσεων. Τρεις τύποι μη-δειγματοληπτικών λαθών: α. -μεροληψία στην επιλογή του δείγματος. β.-ατέλειες του σχεδιασμού και της οργάνωσης της έρευνας και γ.- άλλες αντικειμενικές δυσκολίες που ανακύπτουν κατά την εκτέλεση μιας στατιστικής έρευνας και Σημειώστε: Αύξηση του δείγματος, δεν μειώνει το μηδειγματοληπτικό λάθος. Μεροληψία στην Επιλογή του Δείγματος συμβαίνει όταν το δειγματοληπτικό σχέδιο είναι τέτοιο που κάποια μέλη του πληθυσμού δεν μπορούν να επιλεχθούν και δεν συμπεριλαμβάνονται μέσα στο δείγμα ατέλειες του σχεδιασμού και της οργάνωσης της έρευνας Ακατάλληλα ή μη ενημερωμένα δειγματοληπτικά πλαίσια Ασάφειες ή ακατάλληλη δομή ερωτηματολογίου Επιλογή ακατάλληλων ερευνητών Πλημμελή ενημέρωση ερευνητών Ελλειπής δημοσιότητα της έρευνας. ατέλειες του σχεδιασμού και της οργάνωσης της έρευνας Ακατάλληλα ή μη ενημερωμένα δειγματοληπτικά πλαίσια Ασάφειες ή ακατάλληλη δομή ερωτηματολογίου Επιλογή ακατάλληλων ερευνητών Πλημμελή ενημέρωση ερευνητών Ελλειπής δημοσιότητα της έρευνας. Λανθασμένες κατευθύνσεις προς τους ερευνητές Λανθασμένη καταγραφή των απαντήσεων από τους ερευνητές ή παραλείψεις ερωτημάτων (λάθη γίνονται κατά την μεταγραφή από βασικές πηγές, λανθασμένη καταγραφή των δεδομένων οφειλόμενη σε παρερμηνεία των όρων, λανθασμένες απαντήσεις σε ερωτήσεις οφειλόμενες σε ευαίσθητα θέματα κλπ) Λήψη των πληροφοριών από ακατάλληλο άτομο Λάθη κωδικογράφησης Λάθη εισαγωγής των δεδομένων στον Η/Υ, κλπ. Λανθασμένες μετρήσεις παίρνονται εξαιτίας ελαττωματικού εξοπλισμού..άλλες αντικειμενικές δυσκολίες ανταπόκριση-εύρεση μονάδων δείγματος (non-response). Το Ποσοστό Ανταπόκρισης (η αναλογία των ανθρώπων που συμμετέχει στην σφυγμομέτρηση) είναι πολύ βασική παράμετρος και βοηθάει στην κατανόηση της εγκυρότητας της σφυγμομέτρησης και στην κατανόηση πηγών με λάθη από αναπάντητα ερωτηματολόγια Έλλειψη ενδιαφέροντος (στατιστικής συνείδησης) από τους ερευνώμενους Επίπεδο μόρφωσης των ερευνώμενων Λάθη επικοινωνίας κατά την συνέντευξη, κλπ Ατέλειες προγραμμάτων Η/Υ για την επεξεργασία των δεδομένων κλπ. Έλλειψη κατάλληλης υποδομής (hardware, software, χάρτες, κλπ.) ευχαριστώ! ερωτήσεις? 5