ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα Γκριζιώτη Μαρία ΜSc Ιατρικής Ερευνητικής Μεθοδολογίας
Όταν ανοίγουµε µία βάση στο SPSS η πρώτη εικόνα που θα δούµε στην οθόνη του υπολογιστή είναι η ακόλουθη (Εικόνα Νο1). Εικόνα Νο1
Στο κάτω αριστερό σηµείο της οθόνης υπάρχουν δύο ενδείξεις, το Data view και το Variable view. Επιλέγοντας το Variable view θα δoύµε στην οθόνη την εικόνα Νο2, στην οποία θα χρειαστεί τα δεδοµένα µας να τα αντιστοιχίσουµε σε µεταβλητές. Έτσι κάτω από τη στήλη που αντιστοιχεί στο Name θα γραφτούν οι µεταβλητές. Για παράδειγµα το φύλο ως sex, η ηλικία ως age, η οικογενειακή κατάσταση ως marital status κλπ. Εικόνα Νο2
Αφού ορίσουµε τις µεταβλητές και τις καταγράψουµε θα διαµορφωθεί η ακόλουθη εικόνα (Νο3). Εικόνα Νο3
Ολοκληρώνοντας την καταγραφή των µεταβλητών και επιλέγοντας το Data view θα προκύψει η εικόνα Νο4. Οι αριθµοί 1,2,3 κλπ που βρίσκονται στην αριστερή πλευρά της οθόνης αντιστοιχούν σε ένα στοιχείο (πχ άτοµο) του δείγµατός µας. Έτσι για παράδειγµα στον αριθµό 1 θα καταγράψουµε όλες τις µεταβλητές που αντιστοιχούν στο ερωτηµατολόγιο που συµπλήρωσε ο συµµετέχων Νο1. ηλαδή η κάθε οριζόντια γραµµή αντιστοιχεί στα δηµογραφικά στοιχεία ενός ατόµου. Εικόνα Νο4
Οι µεταβλητές καταγράφονται στο στατιστικό πρόγραµµα µε αριθµούς. Οι ποσοτικές µεταβλητές καταγράφονται είτε µε ακέραιους, είτε µε δεκαδικούς αριθµούς. Οι ποιοτικές όµως µεταβλητές θα πρέπει να κωδικοποιηθούν. Για παράδειγµα όταν θα χρειαστεί στη µεταβλητή του φύλου να αντιστοιχίσουµε τους άνδρες και τις γυναίκες, δεν θα γράψουµε ολογράφως male ή female, αλλά θα κωδικοποιήσουµε το male ως 1 και το female ως 2. Για να γίνει αυτό επιλέγουµε το Variable view και πηγαίνουµε στη στήλη Values. Επιλέγουµε το None της αντίστοιχης µεταβλητής την οποία θέλουµε να κωδικοποιήσουµε, στην προκειµένη περίπτωση το φύλο (sex). Το εικονίδιο που θα ανοίξει είναι το Value Labels. Στη θέση value γράφουµε τον άριθµό 1 µε τον οποίο θέλουµε να κωδικοποιήσουµε από τη µεταβλητή sex το male και στη θέση label γράφουµε male. Στη συνέχεια πατάµε το Αdd. Επαναλαµβάνουµε την ίδια διαδικασία για το female. Όταν ολοκληρώσουµε την κωδικοποίηση πατάµε ΟΚ. (βλέπε εικόνα Νο5) Εικόνα Νο5
Αν η ποιοτική µεταβλητή που θέλουµε να κωδικοποιήσουµε έχει περισσότερες από µία κατηγορίες, όπως για παράδειγµα η οικογενειακή κατάσταση τότε µε τον ίδιο τρόπο που περιγάφηκε παραπάνω αντιστοιχούµε έναν αριθµό σε κάθε κατηγορία της οικογενειακής κατάστσης πχ 1 single, 2 married, 3 divorced, 4 widowed. (βλέπε εικόνα Νο6) Εικόνα Νο6
Αφού ολοκληρώσουµε την εισαγωγή των δεδοµένων στο πρόγραµµα πατώντας την επιλογή Data view θα προκύψει η εικόνα Νο7. Εικόνα Νο 7 Τώρα είµαστε σε θέση να επεξεργαστούµε τα δεδοµένα µας και να προχωρήσουµε αρχικά στην περιγραφική στατιστική µε τον υπολογισµό των ποσοστών για τις ποιοτικές µεταβλητές και τον υπολογισµό της µέσης τιµής, της τυπικής απόκλισης και των 95%CI για τις ποσοτικές µεταβλητές. Στο κοµµάτι της αναλυτικής στατιστικής θα κάνουµε σύγκριση ποσοστών για τις ποιοτικές µεταβλητές και σύγκριση µέσης τιµής για τις ποσοτικές.
Περιγραφική στατιστική Ποιοτικές µεταβλητές Οι ποιοτικές µεταβλητές περιγράφονται µε ποσοστά. Έτσι αν θέλουµε να περιγράψουµε το δείγµα µας, οι ποιοτικές µεταβλητές, όπως το φύλο, η οικογενειακή κατάσταση, η θέση εργασίας, το µορφωτικό επίπεδο κλπ θα περιγραφούν µε τη χρήση των ποσοστών. Για να γίνει αυτό επιλέγουµε το Analyze, στη συνέχεια πάµε στην επιλογή Descriptive statistics και τέλος επιλέγουµε Frequencies. (βλέπε εικόνα 8) Εικόνα Νο 8
Κάνοντας την επιλογή Frequencies ανοίγει το παρακάτω παράθυρο. Επιλέγουµε τη µεταβλητή στην οποία θέλουµε να δούµε το ποσοστό και µε το βελάκι που βρίσκεται ανάµεσα στα δύο πλαίσια την περνάµε στο πλαισιο Variables (βλέπε εικόνες Νο9 και Νο10) Εικόνα Νο 9
Εικόνα Νο10
Πατάµε το ΟΚ και προκύπτει η εικόνα Νο 11. Εικόνα Νο11 Άρα µπορούµε να πούµε ότι από τα 163 άτοµα που συµµετείχαν στην έρευνά µας τα 22 ήταν άνδρες (13,5%) και τα 141 γυναίκες (86,5%). Από τον πίνακα των ποσοστών που βλέπουµε στο Output καταγράφουµε τα ποσοστά που είναι στη στήλη Valid Percent.
Ποσοτικές µεταβλητές Οι ποσοτικές µεταβλητές περιγράφονται µε τη µέση τιµή, την τυπική απόκλιση και τα 95%CI. Πάµε στην επιλογή Analyze, πατάµε Descriptive Statistics και επιλέγουµε το Explore. (βλέπε εικόνα 12) Εικόνα Νο 12
Μετά την επιλογή του Explore θα προκύψει η εικόνα Νο13 Εικόνα Νο 13
Αρχικά θα υπολογίσουµε τη µέση τιµή της ηλικίας για όλο το δείγµα. Έτσι θα επιλέξουµε την ηλικία (age) που βρίσκεται στο δεξί πλαίσιο και πατώντας το βελάκι που δείχνει το Dependent list θα περάσει στο πλαίσιο Dependent list.(βλέπε εικόνα 14). Εικόνα Νο 14
Από το Display(κάτω αριστερά) επιλέγουµε Both. Πατάµε το Statistics και προκύπτει το εικονίδιο Explore:Statistics. Από αυτό επιλέγουµε τα: Descriptives Confidence Interval for Mean 95%, Outliers, Percentiles. Στη συνέχεια πατάµε Continue. (βλέπε εικόνα Νο15) Εικόνα Νο15
Από το Plots επιλέγουµε το Stem-and-leaf, το Histogram και το Normality plots with tests. Στη συνέχεια επιλέγουµε Continue.(βλέπε εικόνα 16) Εικόνα Νο 16
Στο Output θα προκύψουν τα ακόλουθα: Explore Case Processing Summary Cases Valid Missing Total N Percent N Percent N Percent age 160 98,2% 3 1,8% 163 100,0% Descriptives Statistic Std. Error age Mean 35,2250,47193 95% Confidence Lower Bound 34,2929 Interval for Mean Upper Bound 36,1571 5% Trimmed Mean 35,0000 Median 35,0000 Variance 35,635 Std. Deviation 5,96947 Minimum 23,00 Maximum 55,00 Range 32,00 Interquartile Range 10,00 Skewness,534,192 Kurtosis,173,381 Percentiles Weighted Average(Definition 1) age Percentiles 5 10 25 50 75 90 95 27,0000 28,0000 30,0000 35,0000 40,0000 42,0000 45,0000 Tukey's Hinges age 30,0000 35,0000 40,0000 Extreme Values Case Number Value age Highest 1 115 55,00 2 89 53,00 3 114 53,00 4 55 47,00 5 86 46,00 Lowest 1 122 23,00 2 95 25,00 3 75 26,00 4 66 26,00 5 56 26,00
Tests of Normality Kolmogorov-Smirnov(a) Shapiro-Wilk Statistic df Sig. Statistic df Sig. age,116 160,000,965 160,000 a Lilliefors Significance Correction age Histogram 30 Frequency 20 10 0 20,00 30,00 age 40,00 50,00 Mean =35,23 Std. Dev. =5,969 N =160
Normal Q-Q Plot of age 3 2 Expected Normal 1 0-1 -2-3 20 30 40 Observed Value 50 60
60,00 50,00 40,00 30,00 20,00 age BOX PLOT
Ας ερµηνεύσουµε τα αποτελέσµατα. Στον πίνακα που βρίσκεται κάτω από την ένδειξη Case Processing Summary βλέπουµε ότι ο αριθµός του δείγµατος είναι 163 άτοµα (Total), αυτοί που απάντησαν στην ερώτηση για την ηλικία ήταν 160 (Valid) και όσοι δεν απάντησαν ήταν 3 άτοµα (Missing). Στον πίνακα µε την ένδειξη Descriptives βλέπουµε ότι η µέση ηλικία του δείγµατος είναι 35,2 έτη (Mean), η τυπική απόκλιση 5,9 έτη (Std. Deviation), τα 95%CI: 34,3-36,2 (95% Confidence Interval for Mean) και η διάµεσος 35 έτη (Median). Η ελάχιστη ηλικία είναι τα 23 έτη (Minimum) και η µέγιστη τα 55 (Maximum). Το εύρος της διακύµανσης είναι τα 32 έτη (Range) και η διακύµανση 35,6 (Variance). Στον πίνακα µε την ένδειξη Extreme Values βλέπουµε τις πέντε πιο ακραίες υψηλότερες και χαµηλότερες τιµές της ηλικίας. Αυτός ο πίνακας µας βοηθάει να κάνουµε και έναν έλεγχο για το αν έχει γίνει κάποιο λάθος κατά την εισαγωγή των δεδοµένων. Έτσι για παράδειγµα µπορόυµε να δούµε ότι το 115 πχ ερωτηµατολόγιο στην ένδειξη Highest καταγράφει ηλικία 55 έτη και αν δεν είµαστε βέβαιοι για την ορθή αντιγραφή που έχουµε κάνει στη βάση των δεδοµένων µπορούµε να ανατρέξουµε στο ερωτηµατολόγιο 115 και να το ελέγξουµε. Στον πίνακα µε την ένδειξη Tests of Normality υπάρχουν δύο κριτήρια το Kolmogorov-Smirnov και το Shapiro-Wilk, από τα οποία µπορούµε να συµπεράνουµε αν η µεταβλητή µας κατανέµεται κανονικά. Αν ο αριθµός του δείγµατος είναι µικρότερος από 50 άτοµα-παρατηρήσεις χρησιµοποιούµε το Shapiro-Wilk, ενώ αν είναι άνω των 50 το Kolmogorov-Smirnov. Στην προκειµένη περίπτωση το δείγµα µας είναι 163 άτοµα, άρα θα χρησιµοποιήσουµε το Kolmogorov-Smirnov. Εδώ θα πρέπει να θυµηθούµε τη µηδενική υπόθεση. Η µηδενική υπόθεση που θα διατυπώσουµε για την κατανοµή της µεταβλητής της ηλικίας θα είναι ότι η ηλικία του δείγµατός µας κατανέµεται κανονικά. Από το κριτήριο ελέγχου της κατανοµής το οποίο είναι το Kolmogorov-Smirnoν, γιατί το δείγµα µας είναι 163 άτοµα, βλέπουµε ότι το p value το οποίο αντιστοιχεί στο Sig (significance) είναι 0,000, δηλαδή µικρότερο από το 0,05. Σε αυτή την περίπτωση η µηδενική υπόθεση που διατυπώσαµε απορρίπτεται και άρα η µεταβλητή της ηλικίας για όλο το δείγµα δεν κατανέµεται κανονικά. Αυτό µπορούµε να το καταλάβουµε και από το ιστόγραµµα (Histogram) στο οποίο αν ενώσουµε όλες τις κορυφές των ιστογραµµάτων µε µία νοητή γραµµή δεν σχηµατίζεται η καµπύλη της κανονικής κατανοµής, η οποία θα πρέπει να έχει κωδονοειδές σχήµα και να είναι συµµετρική ως προς τον κεντρικό της άξονα. Το Boxplot µας δείχνει τα τεταρτηµόρια. Όπως η διάµεσος χωρίζει το δείγµα σε δύο ίσα µέρη, υπάρχουν και τα τεταρτηµόρια τα οποία διαιρούν το δείγµα σε τέσσερα ίσα µέρη. Στο πρώτο τεταρτηµόριο αντιστοιχούν οι τιµές του 25% των µετρήσεων (πρώτη οριζόντια γραµµή στο boxplot) στο δεύτερο τεταρτηµόριο το 50% των µετρήσεων (το δεύτερο τεταρτηµόριο συµπίπτει µε τη διάµεσο και είναι η έντονη οριζόντια γραµµή στο boxplot) και το τρίτο τεταρτηµόριο στο οποίο αντιστοιχούν το 75% των µετρήσεων (τρίτη οριζόντια γραµµή στο boxplot).
Εκτός από τον υπολογισµό της µέσης τιµής της ηλικίας για όλο το δείγµα µπορούµε να υπολογίσουµε και τη µέση τιµή της ηλικίας για το κάθε φύλο. Σε αυτή την περίπτωση κάνουµε ακριβώς τα ίδια βήµατα που αναφέρθηκαν παραπάνω (βλέπε εικόνες 12, 13, 14, 15, 16) και όταν φθάσουµε στην εικόνα 14 επιλέγουµε το sex και µε το βελάκι του Factor List το περνάµε στο πλαίσιο Factor. (βλέπε εικόνα Νο17) Εικόνα Νο17 To Οutput που θα προκύψει θα µας δώσει µία περιγραφή για τον αριθµό των ανδρών και των γυναικών (22 άνδρες και 141 γυναίκες-total), πόσοι άνδρες και πόσες γυναίκες απάντησαν στην ερώτηση της ηλικίας (22 άνδρες, 138 γυναίκες-valid) και τέλος πόσοι δεν απάντησαν σε αυτή την ερώτηση (0 άνδρες και 3 γυναίκες-misssing). Στους πίνακες των Descriptives, Extreme Values, και Tests of Normality θα περιγράφονται ξεχωριστά τα δύο φύλα.
Στον πίνακα Tests of Normality θα δούµε ότι η ηλικία στους άνδρες κατανέµεται κανονικά p>0,05, ενώ στις γυναίκες δεν υπάρχει κανονική κατανοµή p<0,05. (βλέπε Output) Άρα η µέση ηλικία των ανδρών είναι τα 37 έτη, η τυπική απόκλιση τα 4,2 έτη, τα 95%CI:35,2-38,9 και η διάµεσος 37. Για τις γυναίκες η µέση τιµή της ηλικίας είναι τα 34,9 έτη, η τυπική απόκλιση τα 6,2 έτη, τα 95% CI:33,9-35,9 και η διάµεσος 34,5. OUTPUT sex Case Processing Summary Cases Valid Missing Total sex N Percent N Percent N Percent age male 22 100,0% 0,0% 22 100,0% female 138 97,9% 3 2,1% 141 100,0% Descriptives sex Statistic Std. Error age male Mean 37,0455,89606 95% Confidence Interval for Mean Lower Bound 35,1820 Upper Bound 38,9089 5% Trimmed Mean 37,0505 Median 37,0000 Variance 17,665 Std. Deviation 4,20292 Minimum 30,00 Maximum 44,00 Range 14,00 Interquartile Range 5,50 Skewness -,175,491 Kurtosis -,616,953 female Mean 34,9348,52497 95% Confidence Lower Bound 33,8967 Interval for Mean Upper Bound 35,9729 5% Trimmed Mean 34,6554 Median 34,5000 Variance 38,032 Std. Deviation 6,16703 Minimum 23,00 Maximum 55,00 Range 32,00 Interquartile Range 10,00 Skewness,647,206 Kurtosis,251,410
Extreme Values sex Case Number Value age male Highest 1 80 44,00 2 135 44,00 3 138 42,00 4 36 41,00 5 131 41,00 Lowest 1 44 30,00 2 33 30,00 3 1 30,00 4 42 32,00 5 94 34,00 female Highest 1 115 55,00 2 89 53,00 3 114 53,00 4 55 47,00 5 86 46,00 Lowest 1 122 23,00 2 95 25,00 3 75 26,00 4 66 26,00 5 56 26,00 Tests of Normality Kolmogorov-Smirnov(a) Shapiro-Wilk sex Statistic df Sig. Statistic df Sig. age male,090 22,200(*),956 22,421 female,122 138,000,956 138,000 * This is a lower bound of the true significance. a Lilliefors Significance Correction