ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ 1 Παλινδρόµηση Έλεγχοι Υποθέσεων ΙI ΕΠΙΜΕΛΕΙΑ ΣΗΜEΙΩΣΕΩΝ: ΒΑΣΙΛΕΙΑ ΗΣ ΓΕΩΡΓΙΟΣ ΗΜΗΤΡΙΟΥ ΒΑΣΙΛΕΙΟΣ ΕΛΕΥΘΕΡΙΟΥ ΜΑΥΡΟΥ ΗΣ ΜΩΥΣΙΑ ΗΣ ΘΕΟ ΩΡΟΣ ΣΚΟΥΡΚΕΑΣ ΑΝΑΣΤΑΣΙΟΣ ΕΞΑΜΗΝΟ 4 ο ΜΑΘΗΜΑ ΠΕΡΙΕΧΟΜΕΝΑ ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΙΣΗ ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ ΣΕ ΠΙΝΑΚΑ ΣΥΝΑΦΕΙΑΣ ( Χ 2 testανεξαρτησιασ ) ΜΗ ΠΑΡΑΜΕΤΡΙΚΑ ΤΕST ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΡΙΤΗΡΙΟ ΤΩΝ ΡΟΩΝ KOLMOGOROV SMIRNOV ΓΙΑ ΕΝΑ ΕΙΓΜΑ ΓΙΑ ΥΟ ΑΝΕΞΑΡΤΗΤΑ ΕΙΓΜΑΤΑ KOLMOGOROV SMIRNOV ΜΑΝΝ WHITNEY ΓΙΑ ΥΟ ΕΞΑΡΤΗΜΕΝΑ ΕΙΓΜΑΤΑ SIGN TEST WILCOXON 2 1
Απλή Γραµµική Παλινδρόµηση 3 Θέλουµε να προσαρµόσουµε για δύο ποσοτικές µεταβλητές X, Y ένα γραµµικό µοντέλο της µορφής Y = a + bx Χ: είναι η ανεξάρτητη τ.µ. Υ: είναι η εξαρτηµένη τ.µ. Π.χ. Αυξάνει γραµµικά το βάρος καθώς αυξάνει η ηλικία ενός παιδιού; Ερώτηµα: Υπάρχει γραµµική σχέση µεταξύ των δύο µεταβλητών; Οπτικός έλεγχος γραµµικής σχέσης Scatter Plot Αρχείο δεδοµένων cntry15.sav Graphs Scatter Simple Define Μεταβλητές: Y:αναµενόµενος χρόνος ζωής γυναικών (lifeexpf) X:ποσοστό γεννήσεων ανά 1000 κατοίκους (birthrat) 4 2
5 Θέλουµε τα σηµεία να είναι συγκεντρωµένα σε κάποια από τις 2 διαγωνίους για να υπάρχει γραµ. σχέση 6 80 2 9 1 y c n ta 70 c e p x e life le a m e60 F 50 Cuba Equador Mongolia Βλέπουµε ότι υπάρχει γραµµική σχέση µεταξύ των δυο µεταβλητών. Καθώς αυξάνονται οι γεννήσεις µειώνεται ο µέσος χρόνος ζωής των γυναικών. 10 20 30 40 50 Births per 1000 population, 1992 3
Εύρεση µοντέλου Αναζητούµε το µαθηµατικό µοντέλο Y=a+bX. Η εκτίµηση των παραµέτρων a, b γίνεται µε την µέθοδο των ελαχίστων τετραγώνων. Analyze Regression Linear 7 Analyze Regression Linear 8 4
9 a= 89,985 (για το SPSS b 0 ) b= - 0,697( για το SPSS b 1 ) Model 1 (Constant) Births per 1000 population, 1992 Unstandardized Coefficients Coefficients a Standardized Coefficients 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound 89,985 1,765 50,995,000 86,173 93,797 a. Dependent Variable: Female life expectancy 1992 -,697,050 -,968-13,988,000 -,805 -,590 H υπόθεση Η 0 :b=0 Η 1 :b 0 είναι ισοδύναµη µε την Η 0 :ρ=0 (=>ανεξαρτησία των Χ,Υ) Η 1 :ρ 0 όπου ρ η συσχέτιση των Χ,Υ Ελέγχουµε τις υποθέσεις Η 0 : b i =0 για i=0,1 Αν δεχτούµε την υπόθεση ότι b 1 =0 τότε το µοντέλο µας δεν προσαρµόζεται καλά στα δεδοµένα µας 10 Model 1 Model Summary b Adjusted Std. Error of R R Square R Square the Estimate,968 a,938,933 2,537 a. Predictors: (Constant), Births per 1000 population, 1992 b. Dependent Variable: Female life expectancy 1992 Το ποσοστό της συνολικής µεταβλητότητας διασποράς που εξηγείται από το µοντέλο είναι το R 2. Αυτό µας δείχνει πόσο καλή είναι η προσαρµογή. Όσο πιο κοντά είναι στην τιµή 1 τόσο καλύτερα προσαρµόζεται το µοντέλο στα δεδοµένα µας. 5
Analyze Reports Case Summaries 11 X Y Y 12 Case Summaries a 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total a. N Limited to first 100 cases. Births per 1000 population, Female life expectancy Unstandardiz ed Predicted Value country 1992 (X) 1992 (Y) (Πρόβλεψη) Somalia 46 55 57,90856 Tanzania 50 55 55,11929 Zambia 48 59 56,51393 Zaire 45 56 58,60588 Algeria 31 68 68,36833 Namibia 45 63 58,60588 Burkina Faso 50 53 55,11929 Cuba 18 79 77,43346 Equador 28 72 70,46028 North Korea 24 72 73,24955 Mongolia 34 68 66,27637 Thailand 20 71 76,03882 Turkey 28 72 70,46028 France 13 82 80,92004 Netherlan ds 13 81 80,92004 15 15 15 15 6
Χ 2 -ΤΕΣΤ ΑΝΕΞΑΡΤΗΣΙΑΣ 13 ΤΟ ΤΕΣΤ ΑΥΤO ΕΛΕΓΧΕΙ ΤΗΝ ΥΠΑΡΞΗ ΣΧΕΣΗΣ ΜΕΤΑΞΥ ΥΟ ΠΟΙΟΤΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ. Η 0 : Τα δύο χαρακτηριστικά είναι ανεξάρτητα Η 1 : Τα δύο χαρακτηριστικά είναι εξαρτηµένα ΠΡΟΥΠΟΘΕΣΗ για την εφαρµογή του ελέγχου: 1) Θ ij >= 5 ηλαδή οι αναµενόµενες (expected) παρατηρήσεις σε κάθε κελί του πίνακα συνάφειας να είναι τουλάχιστον 5 ή το πολύ 20% των θ ij <= 5. 2) Το κάθε άτοµο να εµφανίζεται µόνο µια φορά σε κάθε κελί, δηλαδή να µην υπάρχει επικάλυψη στις κατηγορίες. Ανοίξτε το αρχείο Gss Analyze Descriptives Statistics Crosstabs 14 7
15 RS Highest Degree Total RS Highest Degree * Is life exciting or dull Crosstabulation Less than HS High school Junior college Bachelor Graduate Count Expected Coun Count Expected Coun Count Expected Coun Count Expected Coun Count Expected Coun Count Expected Coun Is life exciting or dull Dull Routine Exciting Total 24 96 66 186 12,0 85,8 88,2 186,0 35 251 231 517 33,3 238,5 245,3 517,0 2 33 27 62 4,0 28,6 29,4 62,0 2 58 97 157 10,1 72,4 74,5 157,0 1 21 51 73 4,7 33,7 34,6 73,0 64 459 472 995 64,0 459,0 472,0 995,0 Ελέγχουµε τις προϋποθέσεις για το χ 2 τεστ. Σε 2 κελιά έχουµε Θij<5. Το συνολικό ποσοστό τους είναι µικρότερο του 20% και άρα ικανοποιούνται οι προϋποθέσεις για το χ 2 τεστ. Chi-Square Tests Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Asymp. Sig. Value df (2-sided) 53,962 a 8,000 55,874 8,000 47,633 1,000 995 a. 2 cells (13,3%) have expected count less than 5. The minimum expected count is 3,99. Sig<0.05 => Απορρίπτεται η Ηo ηλαδή δεν είναι ανεξάρτητες οι µεταβλητές. ΜΗ ΠΑΡΑΜΕΤΡΙΚΑ ΤΕΣΤ 16 Σ αυτά τα τεστ δεν απαιτούνται υποθέσεις για τους πληθυσµούς από τους οποίους προέρχονται τα δείγµατα (δηλαδή δεν απαιτείται ΚΑΝΟΝΙΚΟΤΗΤΑ) και ούτε υπάρχουν περιορισµοί για τα µεγέθη τους) ΑΡΑ ΕΦΑΡΜΟΖΟΝΤΑΙ ΠΑΝΤΑ. υστυχώς όµως έχουν µεγαλύτερο σφάλµα τύπου β σε σχέση µε τα µη παραµετρικά => λιγότερο αξιόπιστα. 8
Έλεγχος τυχαιοτητας ( Κριτήριο Ροών) Ελέγχει αν υπάρχει κάποιο συγκεκριµένο σχέδιο (pattern) στον τρόπο που εµφανίζονται τα δεδοµένα στο αρχείο. Συγκεκριµένα ελέγχει την υπόθεση Η 0 : Το δείγµα είναι τυχαίο Η 1 : Το δείγµα δεν είναι τυχαίο (υπάρχει pattern). 17 ΚΡΙΤΗΡΙΟ ΡΟΩΝ Analyze Nonparametric Tests Runs Χρησιµοποιούµε µια ποιοτική µεταβλητή µε 2 κατηγορίες ή «κόβουµε» µια ποσοτική σε 2 κατηγορίες µε βάση κάποιο µέτρο θέσης π.χ. τη διάµεσο. Runs Test Test Value a Cases < Test Value Cases >= Test Value Total Cases Number of Runs Z Asymp. Sig. (2-tailed) a. Median Age of Respondent 43 733 762 1495 690-3,014,003 18 Sig<0.05 Απορρίπτουµε την Ηo άρα το δείγµα δεν είναι τυχαίο 9
KOLMOGOROV SMIRNOV ΓΙΑ ΕΝΑ ΕΙΓΜΑ Ελέγχουµε αν η παρατηρούµενη συνάρτηση αθροιστικής κατανοµής µιας µεταβλητής, συµπίπτει µε κάποια εκ των γνωστών θεωρητικών F 0 (x). ηλαδή Η 0 : F(x)=F 0 (x) H 1 : F(x) F 0 (x) 19 Συνήθως µας ενδιαφέρει αν τα δεδοµένα προέρχονται από κανονική κατανοµή ΠΑΡΑ ΕΙΓΜΑ : Analyze Nonparametric Tests 1-Sample K-S 20 One-Sample Kolmogorov-Smirnov Test N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Calculated from data. Mean Std. Deviation Absolute Positive Negative Age of Respondent 1495 46,23 17,418,090,090 -,056 3,475,000 Απορρίπτουµε την µηδενική υπόθεση, δηλαδή το δείγµα δεν προέρχεται από κανονική κατανοµή! ΛΑΘΟΣ ΠΡΟΣΟΧΗ : ΤΟ Κ-S ΓΙΑ ΠΟΛΛΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ ΙΝΕΙ ΟΤΙ ΤΑ Ε ΟΜΕΝΑ ΕΝ ΑΚΟΛΟΥΘΟΥΝ ΚΑΝΟΝΙΚΗ ΚΑΤΑΝΟΜΗ ΓΙΑΤΙ ΤΟ ΣΦΑΛΜΑ ΤΥΠΟΥ ΙΙ ΓΙΝΕΤΑΙ ΠΟΛΥ ΜΕΓΑΛΟ. ΓΙ ΑΥΤΟ ΓΙΑ n>30 ΕΧΟΜΑΣΤΕ ΤΗΝ ΚΑΝΟΝΙΚΟΤΗΤΑ ΑΠΟ ΤΟ Κ.Ο.Θ. 10
Ενώ ακολουθεί κανονική 21 Histogram 80 60 y c n e u q40 r e F 20 0 20 40 60 80 A ge of Respondent M ean = 46,23 S td. D e v. = 17,4 1 8 N = 1.495 ΓΙΑ ΥΟ ΑΝΕΞΑΡΤΗΤΑ ΕΙΓΜΑΤΑ KOLMOGOROV SMIRNOV ΜΑΝΝ WHITNEY Ελέγχουµε αν δυο ανεξάρτητα δείγµατα( X 1, X n ) και (Y 1, Y n ) προέρχονται από την ίδια κατανοµή. ηλαδή πιο απλά, ελέγχουµε για 2 οµάδες (ανεξάρτητα => αποτελούνται από διαφορετικά άτοµα- υποκείµενα) αν είναι οι παρόµοιες ή διαφορετικές. Είναι το µη παραµετρικό αντίστοιχο του ελέγχου για την διαφορά των µ.τ. 2 ανεξ. πληθυσµών. Η 0 : F(X)=G(X)?? (µ 1 =µ 2 ) H 1 : F(X) G(X)?? (µ 1 µ 2 ) 22 11
Ερώτηµα: Είναι ίδια η ηλικία στο δείγµα του αρχείου GSS για τους άντρες και τις γυναίκες; (ανεξαρτησία ;) Πως πρέπει να είναι περασµένα τα δεδοµένα; 23 Analyze Nonparametric Tests 2 Independent Samples ΜΑΝΝ WHITNEY Test Statistics a Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Age of Respondent 260812,500 465932,500-1,549,122 a. Grouping Variable: Respondent's Sex KOLMOGOROV SMIRNOV 24 εχόµαστε την Ηο γιατί Sig >0.05 συνεπώς τα δείγµατα προέρχονται από την ίδια κατανοµή. ηλαδή οι άντρες και οι γυναίκες έχουν την ίδια ηλικία στο δείγµα. Οι 2 οµάδες στις οποίες χωρίστηκε η µεταβλητή της ηλικίας µε βάση το φύλο είναι παρόµοιες. Test Statistics a Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) Absolute Positive Negative a. Grouping Variable: Respondent's Sex Age of Respondent,059,014 -,059 1,127,157 12
ΓΙΑ ΥΟ ΕΞΑΡΤΗΜΕΝΑ ΕΙΓΜΑΤΑ SIGN TEST WILCOXON Με το sign test και Wilkoxon ελέγχουµε για ζευγαρωτές παρατηρήσεις (εξαρτηµένα δείγµατα) την υπόθεση: Η 0 : d=0 (µ 1 =µ 2 ) H 1 : d 0 (µ 1 µ 2 ) Όπου d είναι η διάµεσος των διαφορών x i -y i ηλαδή πιο απλά, ελέγχουµε για 2 οµάδες (εξαρτηµένα => αποτελούνται από τα ίδια άτοµαυποκείµενα) αν είναι οι παρόµοιες ή διαφορετικές. Είναι το µη παραµετρικό αντίστοιχο του ελέγχου για την διαφορά των µ.τ. 2 εξαρτηµένων πληθυσµών 25 Έχουµε την ποσότητα µιας ορµόνης που βρίσκεται στο αίµα 10 ασθενών πριν και µετά την χορήγηση µιας θεραπείας. H θεραπεία µετέβαλλε την µέση ποσότητα ορµόνης των ασθενών; 26 Άρα πως θα περάσω τα δεδοµένα στο SPSS? Αφού αναφερόµαστε στα ίδια υποκείµενα- άτοµα πρέπει να τοποθετήσουµε το ίδιο άτοµα στην ίδια γραµµή(κάθε γραµµή στο SPSS αναφέρεται στο ίδιο υποκείµενο ) 13
Analyze Nonparametric Tests 2 Related samples 27 Test Statistics b Z Asymp. Sig. (2-tailed) after - before -2,934 a,003 a. Based on negative ranks. b. Wilcoxon Signed Ranks Test Sig<0.05 =>Απορρίπτουµε την µηδενική Υπόθεση Test Statistics b after - before Exact Sig. (2-tail,001 a a. Binomial distribution use b. Sign Test Mην ξεχάσετε τις ασκήσεις 28 Την επόµενη φορά που θα έχουµε µάθηµα να τις φέρετε Σχόλια µε import text Για την άσκηση 4 14