(Στατιστική Ανάλυση) Δεδομένων I Σύγκριση δύο πληθυσμών (με το S.P.S.S.) Νίκος Τσάντας Πρόγραμμα Μεταπτυχιακών Σπουδών Τμήμ. Μαθηματικών Μαθηματικά και Σύγχρονες Εφαρμογές Ακαδημαϊκό έτος 2011-12 Πρόκειται για την πλέον συνηθισμένη περίπτωση στατιστικής ανάλυσης. Για παράδειγμα χρειάζεται να συγκρίνουμε δύο πληθυσμούς, αν θέλουμε να διαπιστώσουμε την ύπαρξη (ή όχι) διαφοράς σε δύο φάρμακα, δύο μεθόδους διδασκαλίας, ή σε δύο διαφορετικές προπονητικές τεχνικές. Η σύγκριση των πληθυσμών έχει ως στόχο τη διαπίστωση ύπαρξης ή όχι διαφορών μεταξύ τους, με τρόπο τεκμηριωμένο, που να λαμβάνει υπόψη τα τυχαία σφάλματα που υπεισέρχονται στις μετρήσεις. Οι στατιστικές τεχνικές για τη σύγκριση δύο πληθυσμών, ανάλογα με τη μεθοδολογία που χρησιμοποιούν, χωρίζονται σε δύο μεγάλες κατηγορίες, τις παραμετρικές και τις μη παραμετρικές. ΣΥΓΚΡΙΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ 1
Οι παραμετρικές, οι οποίες είναι και οι πιο διαδεδομένες, απαιτούν την ύπαρξη συγκεκριμένων συνθηκών για τα μεγέθη των δειγμάτων ή τον πληθυσμό από τον οποίο προέρχονται. Επιπλέον δε, ο έλεγχος που πραγματοποιούν αφορά παραμέτρους του πληθυσμού (μέση τιμή, διακύμανση), κι όχι τον πληθυσμό αυτό καθ αυτό. Το ενδιαφέρον δηλαδή εδώ, συγκεντρώνεται π.χ. στη σύγκριση της μέσης τιμής ενός πληθυσμού με τη μέση τιμή ενός άλλου, όπως μέσα εισοδήματα των κατοίκων δύο περιοχών, μέση επίδοση των μαθητών δύο σχολείων στις Πανελλήνιες, κλπ. Η υπόθεση που ελέγχεται είναι η: Η 0 : οι δύο πληθυσμοί έχουν την ίδια μέση τιμή (μ 1 - μ 2 = 0) με εναλλακτική την Η 1 : οι δύο πληθυσμοί έχουν διαφορετική μέση τιμή (μ 1 - μ 2 0) Αντίθετα, οι μη παραμετρικές δεν απαιτούν υποθέσεις για τους πληθυσμούς από τους οποίους προέρχονται τα δείγματα κι ούτε έχουν περιορισμούς για τα μεγέθη τους. Η υπόθεση που ελέγχεται εδώ είναι η Η 0 : τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό με εναλλακτική την Η 1 : τα δύο δείγματα προέρχονται από διαφορετικούς πληθυσμούς ΣΥΓΚΡΙΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ 2
Κρίσιμα για το είδος της στατιστικής ανάλυσης που θα επιλεγεί είναι τα ερω- τήματα που αφορούν την ανεξαρτησία των δειγμάτων. Δύο δείγματα χαρακτηρίζονται ως ανεξάρτητα (independent) όταν δεν υπάρχει καμία σχέση μεταξύ των μονάδων του ενός δείγματος με τις μονάδες του άλλου. την κατανομή των δεδομένων. Η εφαρμογή των παραμετρικών τεχνικών σε ανεξάρτητα δείγματα, απαιτεί την ύπαρξη της κανονικής κατανομής στον πληθυσμό από τον οποίο προέρχονται. Εναλλακτικά, επιτρέπεται η χρήση τους, όταν τα μεγέθη των δειγμάτων είναι αρκετά μεγάλα ( 30). (Στην περίπτωση των συσχετισμένων δειγμάτων η υπόθεση της κανονικότητας πρέπει να ελεγχθεί για τις διαφορές των μετρήσεων d i = X i Y i ). Ανεξάρτητα δείγματα Παραμετρικές τεχνικές (t-test) Μη Παραμετρικές τεχνικές (Mann-Whitney U-test) Εξαρτημένα δείγματα Παραμετρικές τεχνικές (paired t-test) Μη Παραμετρικές τεχνικές (Wilcoxon test) ΣΥΓΚΡΙΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ 3
Η διαδικασία Independent-Samples T Test (αρχείο world95.sav) Does life for people in temperate zone countries differ from that in the tropics? In the latter region, do fewer people live in cities? (and) do they consume fewer calories than those in cooler regions? Μεταβλητές: Ποσοστό αστικοποίησης (urban) και κλιματολογικές συνθήκες (climate). Μέση ημερήσια κατανάλωση θερμίδων (calories) και κλιματολ συνθήκες (climate) Χρησιμοποιήστε την εντολή Select Cases για να ασχοληθείτε μόνον με τις κλιματολογικές συνθήκες tropical -τροπικό κλίμα- (5) και temperate -εύκρατο κλίμα- (8). ΣΥΓΚΡΙΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ 4
Analyze Compare Means Independent-Samples T Test... (αρχείο world95.sav) Δείτε την επιλογή listwise στο κουμπί Options ΠΡΟΣΟΧΗ: Διαφορετικά στατιστικά ΣΥΓΚΡΙΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ 5
Loss in prediction Graphs Bar Simple Error Bar Who tends to have more children? People in countries that are Catholic or Muslim? Μεταβλητές: Μέσος αριθμός παιδιών ανά οικογένεια (fertilty) και θρησκεία (religion). ΣΥΓΚΡΙΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ 6
Άσκηση For each country in the file, the values of the variable pop_incr indicates how much the country s population has grown during previous year, and the variable b_to_d contains the ratio of its birth rate to death rate. Suppose that somewhere you read that the ratio of births to deaths exceed 1.25 (five or more births for every four deaths) for a population to grow. You wonder if countries with no growth or very little growth (for example, less than 1%) do indeed have significantly smaller birth-to death ratios than those with large increases in population. Additionally, examine birth (birth_rt) and death (death_rt) rates, fertility rates (fertilty) and population densities (density) for the two groups. Because you are exploring possible differences among five variables, you would like to use the same countries (that is, the same sample size) from test to test by excluding al data from any country that has one or more values missing across the five variables. This is called listwise deletion. Η διαδικασία (Nonparametric) 2 Independent Samples Analyze Nonparametric Tests 2 Independent Samples... 2 3 1 4 1 2 3 4 ΣΥΓΚΡΙΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ 7
Η διαδικασία Paired-Samples T Test Are females in OECD countries expected to live longer than males? Analyze Compare Means Paired-Samples T Test... region = 1 ΠΡΟΣΟΧΗ: πρόκειται για τις διαφορές των δύο δειγμάτων Η διαδικασία (Nonparametric) 2 Related Samples Analyze Nonparametric Tests 2 Related Samples... 1 1 2 3 2 3 ΣΥΓΚΡΙΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ 8
Βιβλιογραφία Andy Field (2009). Discovering statistics using SPSS, 3 rd edition. SAGE Publications M.J. Norusis (2011). IBM SPSS Statistics 19 Guide to Data Analysis. Prentice Hall. Λύση Test Variable(s): b_to_d, birth_rt, death_rt, fertily, density Grouping Variable: pop_incr Define Groups Cut point: 1.0 Options Confidence Interval: 99 Missing Values Exclude cases listwise ΠΡΟΣΟΧΗ: Η άσκηση ζητά μονόπλευρο έλεγχο. ΣΥΓΚΡΙΣΗ ΔΥΟ ΠΛΗΘΥΣΜΩΝ 9