Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Κατανομές Στατιστικών Συναρτήσεων Δύο δείγματα από κανονική κατανομή Έστω Χ= ( Χ, Χ,..., Χ ) τ.δ. από Ν( µ, σ ) μεγέθους n και 1 n 1 1 Y = (Y, Y,...,Y ) τ.δ. από Ν( µ, σ ) 1 n 1 Χ Y ( µ µ ) S σ Τ ( Χ,Y) Ν(0,1), Τ ( Χ,Y) F, 1 X 1 = = n1 1,n 1 σ S 1 σ Y σ1 n + n 1 μεγέθους n τότε 1 Εάν όπου σ = σ 1 S Χ Y ( µ µ ) τότε Τ ( Χ,Y) = t + 1 3 n1 n 1 1 Spooled + n1 n (n 1)S + (n 1)S 1 X Y pooled = (n1+ n 1)

Κατανομές Στατιστικών Συναρτήσεων Δύο δείγματα από κανονική κατανομή ζευγαρωτές παρατηρήσεις (n 1 = n =n, ίδιες δειγματικές μονάδες) Ορίζουμε τις τ.μ. Z = (Z, Z,..., Z ) ως Z = X Y για i=1,...,n i 1 i 1 1 n i i i με Ε(Z )=μ -μ και Var(Z )=σ +σ για i=1,,...,n 1 1 1(, Y) = = Ν(0,1), σ1 + σ σ1 + σ Τ Χ Τ 3 ( Χ,Y) Z ( µ µ ) Χ Y ( µ µ ) n Z ( µ µ ) Χ Y ( µ 1 µ ) S S 1 = = Z n n Z n t n 1 3

Κατανομές Στατιστικών Συναρτήσεων Δύο δείγματα (μεγάλα) από οποιαδήποτε κατανομή Έστω Χ= ( Χ, Χ,..., Χ ) τ.δ. (n 5) από κατανομή i Y = (Y,Y,...,Y ) 1 n με Ε( Χ )=μ και Var( Χ )=σ i=1,,...,n 1 1 i 1 1 1 n με Ε( Y)=μ και Var( Y)=σ i=1,,...,n τότε (από το ΚΟΘ) Τ i τ.δ. (n i Χ Y ( µ µ ) 1 1( Χ, Y) = Ν(0,1), σ1 σ n 1 Χ Y ( µ µ ) Τ Χ Ν 1 3(, Y) = (0,1) SX SY n + + n n 1 1 5) από κατανομή 4

Διαστήματα εμπιστοσύνης Δύο δείγματα από κανονική κατανομή Διάστημα εμπιστοσύνης ίσων ουρών σ.ε. 1-α για το μ -μ, όταν τα σ =σ =σ είναι άγνωστα 1 1 1 1 x y t (a / )S +, x y + t (a / )S + n1+ n pooled n1+ n pooled n n n n όταν τα σ x 1 1 1 1 σ και είναι άγνωστα 1 1 X Y X Y v S S S S y t (a / ) +, x y + t (a / ) + v n n n n 1 1 (βλέπε διαφάνεια 8) SX S Y + (στρογγυλευμένο στον πλησιέστερο ακέραιο) n1 n όπου v= όταν n 1 n S X S Y n1 n + και v = (n 1) όταν n1 = n = n n 1 n 1 5

Διαστήματα εμπιστοσύνης Δύο δείγματα από κανονική κατανομή Να κατασκευασθεί δ.ε. ίσων ουρών σ.ε. 90% για την διαφορά μεταξύ των μέσων χρόνων που απαιτούνται για την συναρμολόγηση του συγκεκριμένου προϊόντος μετά από περίοδο εκπαίδευσης δύο εβδομάδων με τη συνήθη και τη νέα μέθοδο εκπαίδευσης, από 18 διαφορετικούς εργάτες οι οποίοι εκπαιδεύτηκαν με τις δύο μεθόδους. 6

Διαστήματα εμπιστοσύνης Δύο δείγματα από κανονική κατανομή Click Analyze >Compare Means >Independent-Samples T Test 7

XY Διαστήματα εμπιστοσύνης Δύο δείγματα από κανονική κατανομή Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means F Sig. t df Equal variances assumed,061,807 1,649 16 Equal variances not assumed 1,649 15,844 Independent Samples Test t-test for Equality of Means H 0 : σ 1 = σ αμφίπλευρος H 1 : σ 1 σ ο Levene έλεγχος εφαρμόζεται για οποιαδήποτε δείγματα. Ενώ ο έλεγχος διασπορών που βασίζεται στην F κατανομή (διαφ. ) προϋποθέτει τα δείγματα να προέρχονται από κανονική κατανομή XY Sig. (-tailed) Mean Difference Std. Error Difference Equal variances assumed,119 3,66667,9 Equal variances not assumed,119 3,66667,9 Independent Samples Test t-test for Equality of Means 90% Confidence Interval of the Difference t=mean Differ/Std. Error Diff H 0 : μ 1 = μ (σε ε.σ. 11.9%) H 1 : μ 1 μ Group Statistics αμφίπλευρος άρα το 90% δ.ε. περιέχει το 0 Lower Upper Sample N Mean Std. Deviation Std. Error Mean XY Equal variances assumed -,149 7,5476 XY 1 9 35, 4,94413 1,64804 Equal variances not assumed -,1664 7,54997 9 31,5556 4,4754 1,49175 8

Διαστήματα εμπιστοσύνης Δύο δείγματα από κανονική κατανομή Για τα δείγματα που μελέτησα, επειδή n 1 = n =9<< 5, πρέπει να κάνω ελέγχους κανονικότητας. Εάν δεν προέρχονται από κανονικές κατανομές τα προηγούμενα συμπεράσματα για τη διαφορά των μέσων δεν είναι έγκυρα. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Sample Statistic df Sig. Statistic df Sig. XY 1,185 9,00 *,966 9,863,17 9,00 *,977 9,946 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. άρα και τα δύο δείγματα προέρχονται από κανονική κατανομή 9

Κατανομές Στατιστικών Συναρτήσεων Δύο δείγματα από κανονική κατανομή ζευγαρωτές παρατηρήσεις (n 1 = n =n, ίδιες δειγματικές μονάδες) (εδώ καταχρηστικά, με την υπόθεση ότι έχω μόνο 9 εργάτες οι οποίοι αρχικά εκπαιδεύτηκαν και χρονομετρήθηκαν με τη συνήθη μέθοδο και στη συνέχεια εκπαιδεύτηκαν και χρονομετρήθηκαν με τη νέα μέθοδο) Click Analyze >Compare Means >Paired-Samples T Test 10

Κατανομές Στατιστικών Συναρτήσεων Δύο δείγματα από κανονική κατανομή ζευγαρωτές παρατηρήσεις (n 1 = n =n, ίδιες δειγματικές μονάδες) Paired Samples Statistics Pair 1 Mean N Std. Deviation Std. Error Mean X 35, 9 4,94413 1,64804 Y 31,5556 9 4,4754 1,49175 Paired Samples Correlations N Correlation Sig. Pair 1 X & Y 9,700,036 Paired Samples Test Paired Differences 90% Confidence Interval of the Difference Mean Std. Deviation Std. Error Mean Lower Upper Pair 1 X - Y 3,66667 3,6743 1,474 1,38919 5,94414 το 90% δ.ε. δεν περιέχει το 0 Paired Samples Test έχω διαφορετικό συμπέρασμα t df Sig. (-tailed) Pair 1 X - Y,994 8,017 H 0 : μ 1 = μ αμφίπλευρος H 1 : μ 1 μ (σε ε.σ. 88.3%) 11

Pearson s X έλεγχος καλής προσαρμογής Θέλουμε να ελέγξουμε εάν το ζάρι είναι δίκαιο a. Εκχωρώ τιμές στις μεταβλητές Zapi και observed b. Click Data c. Weight Cases d. Επιλέγω Weight cases by observed e. Ok 1

Pearson s X έλεγχος καλής προσαρμογής a. Click Analyze b. Nonparametric Tests c. Chi-square Test d. Επιλέγω Test Variable List Zapi e. Επιλέγω All categories equal Zapi f. Ok Observed N Expected N Residual 1 11 0,0-9,0 1 0,0 1,0 3 9 0,0 9,0 4 30 0,0 10,0 5 19 0,0-1,0 6 10 0,0-10,0 Total 10 Chi-Square Test Statistics Zapi 18,00 a df 5 Asymp. Sig.,003 a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 0,0. H 0 : p 1 = p = = p 6 =1/6 H 1 : κάποιο p i διαφέρει (σε ε.σ. 99.7%) Αμφίπλευρος όπου p i =P(Z=i) i=1,,6 13

Έλεγχος για ποσοστό a. Click Analyze b. Nonparametric Tests c. Binomial d. Επιλέγω Test Variable List Zapi e. Επιλέγω Test Proportion 0,5 (0,333) f. Επιλέγω Cut point 3 () g. Ok Zapi Binomial Test Category N Observed Prop. Test Prop. Zapi Group 1 <= 3,67,333,07 a,b Group > 88,733 Total 10 1,000 a. Alternative hypothesis states that the proportion of cases in the first group <,333. b. Based on Z Approximation. Binomial Test Category N Observed Prop. Test Prop. Asymp. Sig. (- tailed) Group 1 <= 3 61,51,50,97 a Group > 3 59,49 Total 10 1,00 a. Based on Z Approximation. Asymp. Sig. (1- tailed) H 0 : P(Z=1,,3)=0.5 αμφίπλευρος H 1 : P(Z=1,,3) 0.5 H 0 : P(Z=1,) 1/3 μονόπλευρος H 1 : P(Z=1,)<1/3 (σε ε.σ. 9.8%) 14

Pearson s X έλεγχος καλής προσαρμογής Θέλουμε να ελέγξουμε εάν το πλήθος των ατυχημάτων ακολουθούν Poisson κατανομή Όμως η παράμετρος της Poisson κατανομής δεν μας δίδεται και άρα την εκτιμούμε από τον δειγματικό μέσο 0.071 και υπολογίζουμε τις πιθανότητες που μας ενδιαφέρουν 0.013 15

Pearson s X έλεγχος καλής προσαρμογής Οι θεωρητικές τιμές προκύπτουν ως θ i =n*p i 3.56 0.64 Accident Observed N 0 3 1 1 6 Total 50 a a. 3 cells were generated, but 4 expected frequencies were specified. Chi- Square Test cannot be performed. οπότε συνενώνουμε τις δύο τελευταίες κατηγορίες 16

Pearson s X έλεγχος καλής προσαρμογής Accident Test Statistics Observed N Expected N Residual Accident 0 3 31,0 1,1 1 1 14,9 -,8 6 4, 1,8 Total 50 Chi-Square 1,354 a df Asymp. Sig.,508 a. 1 cells (33,3%) have expected frequencies less than 5. The minimum expected cell frequency is Προσοχή: εδώ οι βαθμοί ελευθερίας εμφανίζονται ως γεγονός που δε λαμβάνει υπόψη τη μια εκτιμώμενη παράμετρο της Poisson. Έτσι το p-value (0.508) είναι λανθασμένο p-value=1-cdf.chisq(1.354,-1)= 0.446 4,. H 0 : το δείγμα προέρχεται από Poisson κατανομή (σε ε.σ. 4.46%) H 1 : δεν προέρχεται από Poisson 17

Pearson s X έλεγχος ανεξαρτησίας βλέπε επόμενες διαφάνειες p-value=1-cdf.chisq(11.111,3-1-1)= 0.0009 18

Pearson s X έλεγχος ανεξαρτησίας Για να αποφύγουμε το πρόβλημα της εισαγωγής των θεωρητικών τιμών καθώς και τους λανθασμένους βαθμούς ελευθερίας στον Χ έλεγχο κάνουμε τα εξής: Click Analyze >Descriptive Statistics >Crosstabs Weight cases by observed 19

Pearson s X έλεγχος ανεξαρτησίας Smoking * Healthy Crosstabulation Healthy Smoking NonSmoking Smoking Total Healthy Patient Total Count 10 70 80 Expected Count 0,0 60,0 80,0 Count 40 80 10 Expected Count 30,0 90,0 10,0 Count 50 150 00 Expected Count 50,0 150,0 00,0 Chi-Square Tests Asymp. Sig. (- Value df sided) Pearson Chi-Square 11,111 a 1,001 Exact Sig. (- sided) Exact Sig. (1- sided) παίρνουμε τους σωστούς βαθμούς ελευθερίας και p-value, οπότε: Continuity Correction b 10,08 1,00 Likelihood Ratio 11,887 1,001 Fisher's Exact Test,001,001 Linear-by-Linear Association 11,056 1,001 N of Valid Cases 00 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 0,00. b. Computed only for a x table H 0 : τα χαρακτηριστικά κάπνισμα και ασθένεια των πνευμόνων είναι ανεξάρτητα H 1 : είναι εξαρτημένα (σε ε.σ. 99.9%) 0