Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Κατανομές Στατιστικών Συναρτήσεων Δύο ανεξάρτητα δείγματα από κανονική κατανομή Έστω Χ= ( Χ, Χ,..., Χ ) τ.δ. από Ν( µ, σ ) μεγέθους n και 1 n 1 1 Y = (Y, Y,..., Y ) τ.δ. από Ν( µ, σ ) 1 n 1 Χ Y ( µ µ ) S σ Τ Χ Ν Τ Χ 1 X 1(,Y) = (0,1), (,Y) = F n 1,n σ S 1 σ Y σ1 n + n 1 μεγέθους n, ανεξάρτητα, τότε 1 1 1, Εάν όπου σ Χ Y ( µ µ ) = σ τότε Τ ( Χ,Y) = t + 1 1 3 n1 n 1 1 Spooled + n1 n S (n 1)S + (n 1)S 1 X Y pooled = (n1+ n 1)

Κατανομές Στατιστικών Συναρτήσεων Δύο δείγματα από κανονική κατανομή ζευγαρωτές παρατηρήσεις (n 1 = n =n, ίδιες δειγματικές μονάδες) Ορίζουμε τις τ.μ. Z = (Z, Z,..., Z ) ως Z = X Y για i=1,...,n i 1 i 1 1 n i i i με Ε(Z )=μ -μ και Var(Z )=σ +σ για i=1,,...,n Τ Χ Τ 1 1 1(, Y) = = Ν(0,1), σ1 + σ σ1 + σ 3 ( Χ,Y) Z ( µ µ ) Χ Y ( µ µ ) n Z ( µ µ ) Χ Y ( µ 1 µ ) S S 1 = = Z n n Z n t n 1 3

Κατανομές Στατιστικών Συναρτήσεων Δύο δείγματα (μεγάλα) από οποιαδήποτε κατανομή Έστω Χ= ( Χ, Χ,..., Χ ) τ.δ. (n 5) από κατανομή i Y = (Y,Y,..., Y ) 1 n με Ε( Χ )=μ και Var( Χ )=σ i=1,,...,n 1 1 i 1 1 1 n με Ε( Y)=μ και Var( Y)=σ i=1,,...,n Τ Χ i i Χ Y ( µ µ ) 1 1(, Y) = Ν(0,1), σ1 σ n 1 τ.δ. (n 5), ανεξάρτητο του Χ, από κατανομή 1 Χ Y ( µ µ ) Τ Χ Ν 1 3(, Y) = (0,1) SX SY n + + n n 1 τότε (από το ΚΟΘ) 4

Διαστήματα εμπιστοσύνης Δύο δείγματα από κανονική κατανομή Διάστημα εμπιστοσύνης ίσων ουρών σ.ε. 1-α για το μ -μ, όταν τα σ =σ =σ είναι άγνωστα 1 1 1 1 x y t (a / )S +, x y + t (a / )S + n1+ n pooled n1+ n pooled n n n n όταν τα σ x 1 1 1 1 σ και είναι άγνωστα 1 1 X Y X Y v S S S S y t (a / ) +, x y + t (a / ) + v n n n n 1 1 (βλέπε διαφάνεια 8) SX S Y + (στρογγυλευμένο στον πλησιέστερο ακέραιο) n1 n όπου v= όταν n 1 n S X S Y n1 n + και v = (n 1) όταν n1 = n = n n 1 n 1 5

Διάστημα εμπιστοσύνης-έλεγχοι υποθέσεων Δύο δείγματα από κανονική κατανομή Να κατασκευασθεί δ.ε. ίσων ουρών σ.ε. 90% για την διαφορά μεταξύ των μέσων χρόνων που απαιτούνται για την συναρμολόγηση του συγκεκριμένου προϊόντος μετά από περίοδο εκπαίδευσης δύο εβδομάδων με τη συνήθη και τη νέα μέθοδο εκπαίδευσης, από 18 διαφορετικούς εργάτες οι οποίοι εκπαιδεύτηκαν με τις δύο μεθόδους. 6

Διάστημα εμπιστοσύνης-έλεγχοι υποθέσεων Δύο δείγματα από κανονική κατανομή Click Analyze >Compare Means >Independent-Samples T Test 7

XY Διάστημα εμπιστοσύνης-έλεγχοι υποθέσεων Δύο δείγματα από κανονική κατανομή Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means F Sig. t df Equal variances assumed,061,807 1,649 16 Equal variances not assumed 1,649 15,844 Independent Samples Test t-test for Equality of Means H 0 : σ 1 = σ αμφίπλευρος H 1 : σ 1 σ ο Levene έλεγχος εφαρμόζεται για οποιαδήποτε δείγματα. Ενώ ο έλεγχος διασπορών που βασίζεται στην F κατανομή (διαφ. ) προϋποθέτει τα δείγματα να προέρχονται από κανονική κατανομή XY Sig. (-tailed) Mean Difference Std. Error Difference Equal variances assumed,119 3,66667,9 Equal variances not assumed,119 3,66667,9 Independent Samples Test t-test for Equality of Means 90% Confidence Interval of the Difference t=mean Differ/Std. Error Diff H 0 : μ 1 = μ (σε ε.σ. 11.9%) H 1 : μ 1 μ Group Statistics αμφίπλευρος άρα το 90% δ.ε. περιέχει το 0 Lower Upper Sample N Mean Std. Deviation Std. Error Mean XY Equal variances assumed -,149 7,5476 XY 1 9 35, 4,94413 1,64804 Equal variances not assumed -,1664 7,54997 9 31,5556 4,4754 1,49175 8

Διάστημα εμπιστοσύνης-έλεγχοι υποθέσεων Δύο δείγματα από κανονική κατανομή Για τα δείγματα που μελέτησα, επειδή n 1 = n =9<< 5, πρέπει να κάνω ελέγχους κανονικότητας. Εάν δεν προέρχονται από κανονικές κατανομές τα προηγούμενα συμπεράσματα για τη διαφορά των μέσων δεν είναι έγκυρα. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Sample Statistic df Sig. Statistic df Sig. XY 1,185 9,00 *,966 9,863,17 9,00 *,977 9,946 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. άρα και τα δύο δείγματα προέρχονται από κανονική κατανομή 9

Διάστημα εμπιστοσύνης-έλεγχοι υποθέσεων Δύο δείγματα από κανονική κατανομή ζευγαρωτές παρατηρήσεις (n 1 = n =n, ίδιες δειγματικές μονάδες) (εδώ καταχρηστικά, με την υπόθεση ότι έχω μόνο 9 εργάτες οι οποίοι αρχικά εκπαιδεύτηκαν και χρονομετρήθηκαν με τη συνήθη μέθοδο και στη συνέχεια εκπαιδεύτηκαν και χρονομετρήθηκαν με τη νέα μέθοδο) Click Analyze >Compare Means >Paired-Samples T Test 10

Διάστημα εμπιστοσύνης-έλεγχοι υποθέσεων Δύο δείγματα από κανονική κατανομή ζευγαρωτές παρατηρήσεις (n 1 = n =n, ίδιες δειγματικές μονάδες) Paired Samples Statistics Pair 1 Mean N Std. Deviation Std. Error Mean X 35, 9 4,94413 1,64804 Y 31,5556 9 4,4754 1,49175 Paired Samples Correlations N Correlation Sig. Pair 1 X & Y 9,700,036 Paired Samples Test Paired Differences 90% Confidence Interval of the Difference Mean Std. Deviation Std. Error Mean Lower Upper Pair 1 X - Y 3,66667 3,6743 1,474 1,38919 5,94414 το 90% δ.ε. δεν περιέχει το 0 Paired Samples Test έχω διαφορετικό συμπέρασμα t df Sig. (-tailed) Pair 1 X - Y,994 8,017 H 0 : μ 1 = μ αμφίπλευρος H 1 : μ 1 μ (αποδ. H 1 σε ε.σ. 1.7%) 11

Έλεγχος για ισότητα μέσων Δύο ανεξάρτητα δείγματα μικρού μεγέθους 1 << 1. Ελέγχουμε εάν τα δείγματα προέρχονται από κανονική κατανομή, χρησιμοποιώντας τους ελέγχους Kolmogorov-Smirnov και Shapiro-Wilk. Εάν αποδεχθούμε αυτήν την υπόθεση (αλλιώς έλεγχος δεν μπορεί να γίνει), με τον έλεγχο Levene εξετάζουμε εάν οι διασπορές είναι ίσες 3α. Εάν οι διασπορές είναι ίσες, χρησιμοποιούμε στο t-test το δ.ε. και το p-value (Sign.) της 1 ης γραμμής 3β. Εάν οι διασπορές είναι άνισες, χρησιμοποιούμε στο t-test το δ.ε. και το p-value (Sign.) της ης γραμμής Έλεγχος για ισότητα μέσων n,n Ζευγαρωτές παρατηρήσεις δείγμα μικρού μεγέθους 1. Ελέγχουμε εάν τα δείγματα προέρχονται από κανονική κατανομή. Εάν αποδεχθούμε αυτήν την υπόθεση (αλλιώς έλεγχος δεν μπορεί να γίνει), κάνουμε στο paired t-test. n<< 1

Έλεγχος για ισότητα μέσων Δύο ανεξάρτητα δείγματα μεγάλου μεγέθους n >>5, 30 1,n 1. Δεν χρειάζεται έλεγχος για το εάν προέρχονται από κανονική κατανομή. Δεν εξετάζουμε εάν οι διασπορές είναι ίσες 3. Χρησιμοποιούμε στο t-test το δ.ε. και το p-value (Sign.) της ης γραμμής Έλεγχος για ισότητα μέσων Ζευγαρωτές παρατηρήσεις δείγμα μεγάλου μεγέθους n>>5, 30 1. Δεν χρειάζεται έλεγχος για το εάν προέρχονται από κανονική κατανομή. Κάνουμε στο paired t-test. 13

Pearson s X έλεγχος καλής προσαρμογής Θέλουμε να ελέγξουμε εάν το ζάρι είναι δίκαιο a. Εκχωρώ τιμές στις μεταβλητές Zapi και observed b. Click Data c. Weight Cases d. Επιλέγω Weight cases by observed e. Ok 14

Pearson s X έλεγχος καλής προσαρμογής a. Click Analyze b. Nonparametric Tests c. Chi-square Test d. Επιλέγω Test Variable List Zapi e. Επιλέγω All categories equal Zapi f. Ok Observed N Expected N Residual 1 11 0,0-9,0 1 0,0 1,0 3 9 0,0 9,0 4 30 0,0 10,0 5 19 0,0-1,0 6 10 0,0-10,0 Total 10 Chi-Square Test Statistics Zapi 18,00 a df 5 Asymp. Sig.,003 a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 0,0. H 0 : p 1 = p = = p 6 =1/6 H 1 : κάποιο p i διαφέρει (αποδ. H 1 σε ε.σ. 0.3%) Αμφίπλευρος όπου p i =P(Z=i) i=1,,6 15

Έλεγχος για ποσοστό a. Click Analyze b. Nonparametric Tests c. Binomial d. Επιλέγω Test Variable List Zapi e. Επιλέγω Test Proportion 0,5 (0,333) f. Επιλέγω Cut point 3 () g. Ok Zapi Binomial Test Category N Observed Prop. Test Prop. Zapi Group 1 <= 3,67,333,07 a,b Group > 88,733 Total 10 1,000 a. Alternative hypothesis states that the proportion of cases in the first group <,333. b. Based on Z Approximation. Binomial Test Category N Observed Prop. Test Prop. Asymp. Sig. (- tailed) Group 1 <= 3 61,51,50,97 a Group > 3 59,49 Total 10 1,00 a. Based on Z Approximation. Asymp. Sig. (1- tailed) H 0 : P(Z=1,,3)=0.5 (αποδ. H 0 σε ε.σ. 9.7%) H 1 : P(Z=1,,3) 0.5 αμφίπλευρος H 0 : P(Z=1,) 1/3 μονόπλευρος H 1 : P(Z=1,)<1/3 (αποδ. H 1 σε ε.σ. 7.%) 16

Pearson s X έλεγχος καλής προσαρμογής Θέλουμε να ελέγξουμε εάν το πλήθος των ατυχημάτων ακολουθούν Poisson κατανομή Όμως η παράμετρος της Poisson κατανομής δεν μας δίδεται και άρα την εκτιμούμε από τον δειγματικό μέσο 0.071 και υπολογίζουμε τις πιθανότητες που μας ενδιαφέρουν 0.013 17

Pearson s X έλεγχος καλής προσαρμογής 3.56 0.64 Οι θεωρητικές τιμές προκύπτουν ως θ i =n*p i Accident Observed N 0 3 1 1 6 Total 50 a a. 3 cells were generated, but 4 expected frequencies were specified. Chi- Square Test cannot be performed. οπότε συνενώνουμε τις δύο τελευταίες κατηγορίες 18

Pearson s X έλεγχος καλής προσαρμογής Accident Test Statistics Observed N Expected N Residual 0 3 31,0 1,1 1 1 14,9 -,8 6 4, 1,8 Total 50 Accident Chi-Square 1,354 a df Asymp. Sig.,508 a. 1 cells (33,3%) have expected frequencies less than 5. The minimum expected cell frequency is Προσοχή: εδώ οι βαθμοί ελευθερίας εμφανίζονται ως γεγονός που δε λαμβάνει υπόψη τη μια εκτιμώμενη παράμετρο της Poisson. Έτσι το p-value (0.508) είναι λανθασμένο p-value=1-cdf.chisq(1.354,-1)= 0.446 4,. H 0 : το δείγμα προέρχεται από Poisson κατανομή (σε ε.σ. 4.46%) H 1 : δεν προέρχεται από Poisson 19

Pearson s X έλεγχος ανεξαρτησίας Οι θεωρητικές τιμές προκύπτουν ως θ ij =π i. *π. j /n βλέπε επόμενες διαφάνειες p-value= 0.0009= 1-CDF.CHISQ(11.111,3-1-1) 0

Pearson s X έλεγχος ανεξαρτησίας Για να αποφύγουμε το πρόβλημα της εισαγωγής των θεωρητικών τιμών καθώς και τους λανθασμένους βαθμούς ελευθερίας στον Χ έλεγχο κάνουμε τα εξής: Click Analyze >Descriptive Statistics >Crosstabs Weight cases by observed 1

Pearson s X έλεγχος ανεξαρτησίας Value Chi-Square Tests df Asymp. Sig. (- sided) Pearson Chi-Square 11,111 a 1,001 Exact Sig. (- sided) Exact Sig. (1- sided) παίρνουμε τους σωστούς βαθμούς ελευθερίας και p-value, οπότε: Continuity Correction b 10,08 1,00 Likelihood Ratio 11,887 1,001 Fisher's Exact Test,001,001 Linear-by-Linear Association 11,056 1,001 N of Valid Cases 00 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 0,00. b. Computed only for a x table H 0 : τα χαρακτηριστικά κάπνισμα και ασθένεια των πνευμόνων είναι ανεξάρτητα H 1 : είναι εξαρτημένα (αποδ. H 1 σε ε.σ. 0.1%)