Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 5 Οι τιμές ενός τεστ κατανέμονται κανονικά με μέση τιμή 100 και τυπική απόκλιση 15. Διαθέτουμε τις τιμές επτά μαθητών για το παραπάνω τεστ : 55, 70, 85, 100, 115, 130 και 145. Για κάθε μια από τις παραπάνω τιμές να βρεθεί το ποσοστό του μαθητικού πληθυσμού με τιμές μικρότερες η ίσες από αυτή. Προτείνονται τα παρακάτω: 1. Να εισαχθούν τα δεδομένα των επτά μαθητών σε ένα αρχείο δεδομένων του SPSS. Η μεταβλητή θα ονομαστεί score. α. εκτελούμε το SPSS από το εικονίδιό του στην επιφάνεια εργασίας του υπολογιστή, και στον πίνακα variable view του κενού αρχείου δεδομένων εισάγουμε το όνομα της μεταβλητής SCORE στο πεδίο Name. β. Στη συνέχεια μεταφερόμαστε στον πίνακα data view του αρχείου και εισάγουμε τις τιμές της μεταβλητης SCORE. 2. Να υπολογιστούν οι τυπικές τιμές για τα δεδομένα. Θα χρησιμοποιηθεί η εντολή compute για το σχηματισμό της μεταβλητής zscore που είναι ίση με την παρακάτω παράσταση: (score-100)/15
Εκτελούμε την διαδικασία Transform -> Compute Variable και στο πλαίσιο Target Variable βάζουμε zscore ενώ στο πλαίσιο Numeric Expression γράφουμε (score - 100) / 15 Μετά το «κλίκ» στο OK του παράθυρου Compute Variable η επιστροφή στο data view βλέπουμε της τιμές της μεταβλητής zscore. 3. Να χρησιμοποιηθεί η συνάρτηση cdfnorm() για να δημιουργηθεί η μεταβλητή cumprob με τη βοήθεια της παράστασης: Η μεταβλητή cumprob εκφράζει το ποσοστό των περιπτώσεων με τιμές μικρότερες ή ίσες του zscore στη περίπτωση της τυπικής κανονικής κατανομής. Από την επιλογή της διαδικασίας Transform -> Compute Variable στο πλαίσιο Target Variable γράφουμε cumprob και επιλέγουμε από το πλαίσιο Function group την ομάδα συναρτήσεων CDF & Noncentral CDF μέσα στην οποία βρίσκεται η συνάρτηση Cdfnorm(zvalue). H συνάρτηση εισάγεται στο πλαίσιο Numeric Expression. Στην παρένθεση της συνάρτησης μεταφέρουμε το όνομα της μεταβλητής ZSCORE από τη λίστα των ονομάτων που βρίσκονται στο αρχείο μας.
Μετά το «κλίκ» στο OK του παράθυρου Compute Variable η επιστροφή στο data view βλέπουμε της τιμές της μεταβλητής cumprob. 4. Να κάνετε τις απαραίτητες ρυθμίσεις ώστε η μεταβλητή cumprob να εμφανίζεται με τέσσερα δεκαδικά ψηφία. Τα τέσσερα δεκαδικά μπορεί να εμφανιστούν (παρακάτω εικόνα) αν από τον πίνακα variable view αν στο πεδίο decimals της μεταβλητής cumprob αυξήσουμε το 2 σε 4. Μπορούμε να παρατηρήσουμε ότι το ποσοστό των περιπτώσεων με τιμή μικρότερη η ίση με 55 είναι 0,0013 ή
0,13% Στη προηγούμενη εικόνα πριν την αύξηση των δεκαδικών το αντίστοιχο ποσοστό ήταν 0,00%. Να χρησιμοποιηθεί το αρχείο gss.sav για να απαντηθούν οι παρακάτω ερωτήσεις: a. Να γίνει το ιστόγραμμα των μεταβλητών age, educ, tvhours και hrs1. Να τοποθετηθεί η κανονική κατανομή πάνω σε κάθε ιστόγραμμα. Ποιες από αυτές τις κατανομές κατανέμονται κατά προσέγγιση κανονικά; Σε τι διαφέρει κάθε κατανομή από την κανονική; 1. Με ανοιχτή την εφαρμογή του SPSS ανοίγουμε το αρχείο gss.sav από την επιλογή file->open data 2. Από την επιλογή analyze->descriptive statistics- >frequencies εισάγουμε το όνομα της μεταβλητής ή μεταβλητών. Με «κλικ» στην επιλογή Charts επιλέγεται Histogram και Show normal curve on histogram. Συνεχίζουμε με Continue και τέλος ok από το βασικό παράθυρο των frequencies.
Στο Output file βρίσκουμε το ιστόγραμμα: Στο παραπάνω ιστόγραμμα έγινε περεταίρω επεξεργασία έτσι ώστε να γίνεται ομαδοποίηση των ηλικιών σε 10 διαστήματα. Παρατηρούμε την παρουσία θετικής ασσυμετρίας η οποία οφείλεται στην απουσία συμμετεχόντων με ηλικία μικρότερη των 18 αφού το ερωτηματολόγιο απευθύνεται σε ενήλικες. Προκειμένου να γίνει αντιληπτή η βοήθεια της «μαύρης γραμμής» που ανήκει στην κανονική κατανομή η οποία έχει ακριβώς την ίδια μέση τιμή και τυπική απόκλιση με τη μεταβλητή στην οποία ανήκει το ιστόγραμμα, δίνεται παρακάτω το ιστόγραμμα μιας μεταβλητής που δεν αποκλίνει σχεδόν καθόλου από την κανονική κατανομή.
b. Να δημιουργηθεί η μεταβλητή IQ που θα κατανέμεται κανονικά κάνοντας χρήση της εντολής compute και δίνοντας στο dialog box την παρακάτω έκφραση: RV.NORMAL(100,15) Η εντολή που δόθηκε δημιουργεί ένα τυχαίο δείγμα από μια κανονική κατανομή με μέσο όρο 100 και τυπική απόκλιση 15. 1. Να γίνει το ιστόγραμμα της IQ και να τοποθετηθεί η κανονική κατανομή πάνω σ αυτό. Ακολουθώντας τις οδηγίες της προηγούμενης δραστηριότητας στην επιλογή transform->compute variable δίνουμε το όνομα της νέας μεταβλητής IQ και τον τύπο RV.NORMAL(100,15) που θα δημιουργήσει τις τιμές της. Στη συνέχεια ακολουθώντας ξανά την προηγούμενη δραστηριότητα κατασκευάζουμε το ιστόγραμμα: 2. Αν η IQ είναι ακριβώς κανονική ποιο είναι ποσοστό περιπτώσεων αναμένεται να έχουν τιμές ανάμεσα στο 70 και το 130; Ποιο ποσοστό περιπτώσεων του δείγματός σας έχουν τιμές μέσα σ αυτό το διάστημα; Αν η IQ ακολουθεί ακριβώς την κανονική κατανομή το ποσοστό των περιπτώσεων με τιμές στο διάστημα [70, 130] είναι το 95% αφού το διάστημα μπορεί να γραφεί [100-2*15,
100+2*15] δηλαδή [μ-2σ, μ+2σ] διάστημα που περιλαμβάνει το 95% των τιμών μιας κανονικής κατανομής. Για να απαντήσουμε στο ερώτημα ποιο είναι το ποσοστό των περιπτώσεων του δείγματος μας με τιμές IQ στο διάστημα [70, 130], Δημιουργούμε τον πίνακα κατανομής συχνοτήτων της IQ σύμφωνα από την επιλογή analyze Descriptive Statistics frequencies που εμφανίζεται παρακάτω. Διατρέχουμε την στήλη των τιμών και βρίσκουμε την πλησιέστερη τιμή στην τιμή 70 που είναι η 70,03 και σημειώνουμε την σχετική αθροιστική συχνότητα 1,9%. Αφαιρούμε την τελευταία από την σχετική αθροιστική συχνότητα 97,4 που αντιστοιχεί στην 130,1 ( την πλησιέστερη στο 130). Η διαφορά 97,4-1,9= 95,5% που εκφράζει κατά προσέγγιση το ποσοστό των τιμών της IQ που βρίσκονται στο διάστημα [70, 130]. IQ Frequency Percent Valid Percent Cumulative Percent Valid 54,05 1,1,1,1 54,78 1,1,1,1 58,10 1,1,1,2 60,77 1,1,1,3........ 69,34 1,1,1 1,8 70,03 1,1,1 1,9 70,09 1,1,1 1,9 70,16 1,1,1 2,0........ 129,28 1,1,1 97,3 129,43 1,1,1 97,3 130,10 1,1,1 97,4 130,23 1,1,1 97,5 130,27 1,1,1 97,5 130,58 1,1,1 97,6 130,68 1,1,1 97,7 130,70 1,1,1 97,7 131,17 1,1,1 97,8 131,72 1,1,1 97,9 131,75 1,1,1 97,9........ 141,61 1,1,1 99,9
145,74 1,1,1 100,0 Total 1500 100,0 100,0 3. Ποιο είναι ποσοστό περιπτώσεων αναμένεται να έχουν τιμές IQ από 115 και πάνω αν η IQ κατανέμεται κανονικά; Ποιο είναι το αντίστοιχο ποσοστό στο δείγμα σας; 4. Ποιο είναι ποσοστό περιπτώσεων αναμένεται να έχουν τιμές IQ από 85 και κάτω αν η IQ κατανέμεται κανονικά; Ποιο είναι το αντίστοιχο ποσοστό στο δείγμα σας; 5. Από τις απαντήσεις στα 2, 3 και 4 μπορεί να υποστηριχτεί ότι οι τιμές IQ του δείγματος ακολουθούν κατά προσέγγιση την κανονική κατανομή. (οι ερωτήσεις 3 και 4 αφήνονται ως δραστηριότητα στις φοιτήτριες/τες)