ΠΡΟΚΑΤΑΡΚΤΙΚΗ Στατιστική Ανάλυση με το S.P.S.S. μέρος B Νίκος Τσάντας Πρόγραμμα Μεταπτυχιακών Σπουδών Τμήμ. Μαθηματικών Μαθηματικά και Σύγχρονες Εφαρμογές Ακαδημαϊκό έτος 2011-12 Ξέρουμε πια τα στατιστικά για όλα τα αντικείμενα του δείγματος. Αλλά (π.χ.) οι άνθρωποι που θεωρούν τη ζωή τους συναρπαστική ( life = 3 ) πως διαφοροποιούνται από τους υπόλοιπους; Είναι πιο πλούσιοι; Έχουν καλύτερη εκπαίδευση; Υπάρχουν διαφορές μεταξύ αντρών και γυναικών; I. Συμπεριφορά ποσοτικών μεταβλητών μέσα σε ποιοτικές Η διαδικασία Means Η διαδικασία Explore II. Συμπεριφορά ποιοτικών μεταβλητών μέσα σε ποιοτικές Η διαδικασία Crosstabs III. Συμπεριφορά ποσοτικών μεταβλητών μέσα σε ποσοτικές Scatterplot Η διαδικασία Correlate ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 1
Analyze Compare Means Means... Η διαδικασία Means (αρχείο gss.sav) ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 2
Αναζητήστε στο αρχείο gss93.sav το προφίλ εκείνων που ψήφισαν: Dependent List: age, rincom91 Independent List: degree2 / dwelown / vote92 Measures of Association Μεταβλητότητα της age που εξηγείται από τη polviews Ελέγχει αν οι μέσες τιμές των ομάδων είναι ίσες Ελέγχει αν οι μέσες τιμές των ομάδων βρίσκονται πάνω σε μια ευθεία γραμμή ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 3
(αρχείο world95.sav) Η διαδικασία Explore How does female life expectancy vary by region? ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 4
hinges / hspread outliers ( o ) = 1.5 hspread extreme values (*) = 3 hspread Haiti 47 Costa Rica 79 Mean = 80.10, Median = 80.00 Mean = 71.76, Median = 75.00 μικρή διασπορά τιμών 5% του 21 = 1.05 περίπου 25% των χωρών 78 ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 5
μόνο δύο ψηφία (!!!)??? χιλιάδες lower limit: 67-1.5 10 = 52 upper limit:77+1.5 10 = 92 μέχρι 5 γραμμές παραπλανητικός τίτλος ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 6
Normality (έχει γίνει επεξεργασία) ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 7
Spread versus Level plot Χρησιμότητα. Η ANOVA απαιτεί ίσες διακυμάνσεις. Εδώ γίνεται ο στατιστικός έλεγχος, κυρίως όμως προτείνεται ένας μετασχηματισμός, χρήσιμος στην περίπτωση απόρριψης του ελέγχου. (1 ) x y b Μετασχηματισμός Δύναμη Κλίση (b) square 2-1 none 1 0 Square root 1/2 1/2 logarithm 0 1 ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 8
Η διαδικασία Crosstabs Analyze Descriptive Statistics Crosstabs... (Does religious preference vary by region of the country?) (αρχείο gss93.sav)? γραμμές/στήλες Χρησιμοποιήστε την εντολή Select Cases για να αποκλείσετε τις θρησκείες Jewish (3) και Other (5) ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 9
Έλεγχος ανεξαρτησίας?? διαφορετικοί έλεγχοι?? αποτέλεσμα Μειονεκτήματα για το chi-square Measures (for unordered categories) Μέτρα που βασίζονται στο chi-square Μέτρα αναλογικής μείωσης του σφάλματος πρόβλεψης ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 10
Layers (Is the relationship between marital status and view of life the same for males and females?) Χρησιμοποιήστε την εντολή Select Cases για να αποκλείσετε τους separated (4) Διαφορετικό αποτέλεσμα Odds Ratio look ahead for disease yes no exposure yes a b no c d relative risk a c+d c(a+b) The study design starts with the factor/exposure look back for exposure yes no disease yes a b no c d odds ratio ad cb The study design starts with the event/disease Τιμή 1 μεταφράζεται ότι δεν υπάρχει διαφορά ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 11
(Are home owners more likely to vote than renters?) Χρησιμοποιήστε την εντολή Select Cases για να κρατήσετε δύο κατηγορίες στην κάθε μεταβλητή The Kappa Measure of Agreement (How do the educational levels of a person s mother and father agree?) >0.75, [0.40, 0.75], <0.40 Χρησιμοποιήστε την εντολή Select Cases για να αποκλείσετε την κατηγορία Junior College (2) Row(s): padeg Column(s): madeg 65.1% ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 12
Measures (for ordered categories) (Are the respondent s preferences for blues and jazz music correlated?) Row(s): blues Column(s): jazz Preferences for jazz and rhythm & blues are correlated Graphs Scatter... Scatterplot (αρχείο world95.sav) (Shape of the data concerning female life expectancy, birthrate per 1000 population (and percentage of population living in urban areas)??? αντιστοιχία με correlation ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 13
There seems to be a pattern There aren t unusual combinations Try to 1. Labeling the points 2. Identifying Different Groups Labeling the points Identifying Different Groups Πιο ξεκάθαρος σχολιασμός ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 14
Make a scatterplot matrix if you are interested in the relations between several pairs of variables. Ο σχολιασμός πρέπει να είναι γενικότερος. πιο ισχυρή σχέση παρατηρείται μεταξύ Life Expectancy και Birthrate. Αρνητική. Ομοίως, η μικραίνει ο Birthrate καθώς μεγαλώνει η urban, αλλά όχι τόσο ισχυρά. Life Expectancy και urban είναι θετικά συσχετισμένα. Make a 3-D scatterplot if you are interested to see simultaneously the values of three variables.? spikes? unusual points? rotate ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 15
Make an overlay scatterplot if you want to overlay two scatterplots with the same X-axis. Η διαδικασία Correlate Διαγράμματα διασποράς: υπόδειξη του πρότυπου (γραμμικό ή μη-γραμμικό), της πιθανής σχέσης μεταξύ δύο ποσοτικών μεταβλητών. Συσχέτιση: ο συντελεστής συσχέτισης είναι το στατιστικό μέτρο που χρησιμοποιείται για την αναζήτηση της έντασης αλλά και της φύσης της σχέσης μεταξύ δύο ποσοτικών μεταβλητών. Pearson r (γραμμική συμμεταβολή / [-1, 1] ) 0 Απουσία γραμμικής σχέσης (0, 0.3] Ασθενής γραμμική σχέση (0.3, 0.6] Μέτρια γραμμική σχέση (0.6, 1) Ισχυρή γραμμική σχέση 1 Απόλυτη γραμμική σχέση Πρόσημο. Έλεγχος υποθέσεων (προϋποθέσεις). Αιτιότητα. The Third Variable Problem. Direction of Causality. Spearman. (Kendall s tau-b). ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 16
Analyze Correlate Bivariate... (αρχείο world95.sav) simple scatterplot scatterplot matrices ΟΧΙ στη σύγκριση των πιθανοτήτων ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 17
Χρησιμοποιήστε τον συντελεστή συσχέτισης του Spearman, εάν τουλάχιστον μία από τις μεταβλητές είναι ordinal. (πιο ταιριαστό) παράδειγμα Similar in magnitude to the previous (Pearson). However Χρησιμοποιήστε τον συντελεστή συσχέτισης του Kendall (αντί του Spearman), εάν έχετε λίγα δεδομένα και πολλές ισοπαλίες. ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 18
Analyze Correlate Partial... Partial correlations provide a measure of correlation between two variables by removing the linear effect of one control variable. (3-D scatterplot) Αρχικά στοιχεία Διαχωρισμός τιμών ως προς τη διάμεσο (=3.48) Δυσκολία εντοπισμού σχέσης Ανυπαρξία γραμμικής σχέσης ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 19
Βιβλιογραφία Andy Field (2009). Discovering statistics using SPSS, 3 rd edition. SAGE Publications M.J. Norusis (2011). IBM SPSS Statistics 19 Guide to Data Analysis. Prentice Hall. ΠΡΟΚΑΤΑΡΚΤΙΚΑ. ΜΕΡΟΣ Γ' 20