ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο
Κατανομές Στατιστικών Συναρτήσεων Δείγμα από κανονική κατανομή Έστω Χ= Χ Χ Χ τ.δ. από Ν µσ τότε ( 1,,..., n) (, ) Τ Χ Χ Ν Τ Χ σ σ Χ Τ Χ n Χ S µ S µ 1( ) = (0,1), ( ) = ( n 1) n 1, 3( ) = tn 1 Δείγμα (μεγάλο) από οποιαδήποτε κατανομή n Έστω Χ= ( Χ, Χ,..., Χ ) τ.δ. (n 5) από κατανομή 1 n με Ε( Χi)=μ και Var( Χi)=σ i=1,,...,n τότε (από το ΚΟΘ) Χ µ Χ µ Τ1( Χ) = Ν(0,1), Τ3( Χ) = Ν(0,1) σ S n n ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο
Προσωμοίωση Στατιστικών Συναρτήσεων Δείγμα από κανονική κατανομή a. σε ένα νέο Data Set βάζουμε έναν αριθμό στην 1 η στήλη στο 100 ο κελί (για να πάρουμε 100 τιμές) b. Transform >Compute Variable c. επιλέγω Target Variable Χ 1, Χ,, Χ 5 d. Function group επιλέγουμε Random Numbers e. για Functions and Special Variables επιλέγουμε RV.ΝΟRMAL(4,) έτσι δημιουργούμε 100 διαφορετικά τυχαία δείγματα μεγέθους n=5 από Ν(μ=4,σ = ) έχουμε στην αρχή θέσει Random number generator Starting point 16410 ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 3
Κατανομές Στατιστικών Συναρτήσεων Δείγμα από κανονική κατανομή ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 4
Κατανομές Στατιστικών Συναρτήσεων Δείγμα από κανονική κατανομή T1 Statistics N Valid 100 Missing 0 Mean -,410 Median -,344 Std. Deviation,943 Minimum -,3 Maximum 1,94 Percentiles 5 -,9144 50 -,344 75,3658 ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 5
Κατανομές Στατιστικών Συναρτήσεων Δείγμα από κανονική κατανομή T Statistics N Valid 100 Missing 0 Mean 4,0594 Median 3,464 Std. Deviation,8631 Variance 8,193 Minimum,8 Maximum 14,00 Percentiles 5 1,7377 50 3,464 75 5,550 ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 6
Κατανομές Στατιστικών Συναρτήσεων Δείγμα από κανονική κατανομή Statistics T3 N Valid 100 Missing 0 Mean -,331 Median -,619 Std. Deviation 1,47161 Variance,166 Minimum -6,36 Maximum 4,35 να επισημάνετε τη διαφορά ανάμεσα στις σ.π. των δύο κατανομών: η κανονική έχει μικρότερο εύρος τιμών από το αντίστοιχο της t Percentiles 5 -,934 50 -,619 75,3591 ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 7
Προσδιορισμός ποσοστιαίων σημείων για τον υπολογισμό του PZ ( > z) = a, όπου Ζ Ν(0,1) a z a γνωρίζουμε ότι: άρα: PZ z z z 1 ( a) = 1 α Φ( a) = 1 α a = Φ (1 α) IDF.NORMAL(1-α,μ,σ) εδώ z α = IDF.NORMAL(1-α,0,1) για τον υπολογισμό του χ n 1 ( α) P( Χ> χ ( α)) = a, όπου Χ Χ n 1 n 1 γνωρίζουμε ότι: άρα: P( Χ χ ( α)) = 1 α F ( χ ( α)) = 1 α χ ( α) = F (1 α) 1 n 1 X n 1 n 1 X IDF.CHISQ(1-α,df) εδώ x n-1(α)= IDF.CHISQ(1-α,n-1) Αντίστοιχα για την t κατανομή IDF.Τ(1-α,df) εδώ t n-1 (α)= IDF.T(1-α,n-1) ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 8
Διαστήματα εμπιστοσύνης Δείγμα από κανονική κατανομή Διάστημα εμπιστοσύνης ίσων ουρών σ.ε. 1-α για το μ, όταν το σ είναι γνωστό σ σ α α x za/, x+ za/ 1-α =90% = 0.05 1- = 0.95 n n ιδίου εύρους ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 9
Διαστήματα εμπιστοσύνης Δείγμα από κανονική κατανομή Η inside δηλώνει εάν το μ=4 δεν ανήκει (0) ή ανήκει (1) σε κάθε διάστημα που κατασκευάστηκε inside Frequency Percent Valid Percent Cumulative Percent 1-α=90% Valid,00 9 9,0 9,0 9,0 1,00 91 91,0 91,0 100,0 Total 100 100,0 100,0 ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 10
Διαστήματα εμπιστοσύνης Δείγμα από κανονική κατανομή Διάστημα εμπιστοσύνης ίσων ουρών σ.ε. 1-α για το μ, όταν το σ είναι άγνωστο S S α x tn 1( a/ ), x+ tn 1( a/ ) 1-α =90% = 0.05 n n 89% όχι ιδίου εύρους ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 11
Διαστήματα εμπιστοσύνης Δείγμα από κανονική κατανομή Διάστημα εμπιστοσύνης ίσων ουρών σ.ε. 1-α για το σ, όταν το μ είναι άγνωστο S S α ( n 1), ( n 1) 1- =90% 0.05 α = χn 1( α / ) χn 1(1 α / ) 86% ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 1
Διαστήματα εμπιστοσύνης μεγάλο δείγμα (n>>5) από οποιαδήποτε κατανομή Διάστημα εμπιστοσύνης ίσων ουρών σ.ε. 1-α για το μέσο, μ, όταν η διασπορά, σ, είναι άγνωστη S S α x za/, x+ za/ 1-α =90% = 0.05 n=5 n n Χ Ν(0,1), Υ Εxp (1/ ), Z Pois (.5), W Bern(0.8) E(X)=μ 1 Ε(Υ)= θ E(Z)=λ Ε(W)=p ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 13
Διαστήματα εμπιστοσύνης μεγάλο δείγμα (n>>5) από οποιαδήποτε κατανομή ο εκτιμητής της τυπικής απόκλισης του x: S n Descriptives Statistic Std. Error x Mean,0454,15703 90% Confidence Interval for Mean Lower Bound -,33 Upper Bound,3140 5% Trimmed Mean,0439 Median -,0984 Variance,616 Std. Deviation,78517 Minimum -1,50 Maximum 1,57 Range 3,07 Interquartile Range 1,13 Skewness,197,464 Kurtosis -,34,90 ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 14
Διαστήματα εμπιστοσύνης μεγάλο δείγμα (n>>5) από οποιαδήποτε κατανομή Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. x,113 5,00 *,979 5,861 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. p-value του ελέγχου κανονικότητας Κάνει έλεγχο κανονικότητας (δηλ. εάν το δείγμα προέρχεται από κανονική κατανομή) διότι το δ.ε. που δίδεται εδώ είναι αυτό που προκύπτει από την κατανομή t, βλέπε σελ. 11, ως εξής: ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 15
Διαστήματα εμπιστοσύνης μεγάλο δείγμα (n>>5) από οποιαδήποτε κατανομή Click Analyze >Compare Means >One-Sample T Test H 0 : μ=μ 0 μ-μ 0 =0 H 1 : μ μ 0 μ-μ 0 0 δ.ε. για μ-μ 0 αμφίπλευρος One-Sample Test Test Value = 0 One-Sample Statistics N Mean Std. Deviation Std. Error Mean x 5,0454,78517,15703 90% Confidence Interval of the Difference t df Sig. (-tailed) Mean Difference Lower Upper x,89 4,775,04536 -,33,3140 τα δ.ε. με σ.ε. μικρότερο από 1-Sig=.5% δεν περιέχουν το 0 One-Sample Test Test Value = 0 % Confidence Interval of the Difference t df Sig. (-tailed) Mean Difference Lower Upper x,89 4,775,04536,0010,0897 ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 16
Διαστήματα εμπιστοσύνης μεγάλο δείγμα (n>>5) από οποιαδήποτε κατανομή One-Sample Test Test Value = 90% Confidence Interval of the Difference t df Sig. (-tailed) Mean Difference Lower Upper δ.ε. για 1/θ- y,01 4,983,00734 -,5855,600 Descriptives One-Sample Statistics N Mean Std. Deviation Std. Error Mean y 5,0073 1,7357,34651 y 90% Confidence Interval for Mean Statistic Std. Error Mean,0073,34651 Lower Bound 1,4145 Upper Bound,600 H 0 : 1/θ= H 1 : 1/θ αμφίπλευρος 1/θ-=0 1/θ- 0 5% Trimmed Mean 1,907 Median 1,714 Variance 3,00 Std. Deviation 1,7357 Minimum,08 Maximum 5,68 Range 5,60 Interquartile Range 3,08 Skewness,618,464 Kurtosis -,813,90 ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 17
Διαστήματα εμπιστοσύνης μεγάλο δείγμα (n>>5) από οποιαδήποτε κατανομή One-Sample Test Test Value = 0.5 90% Confidence Interval of the Difference t df Sig. (-tailed) Mean Difference Lower Upper p (1- p) x (1- x) = = 0.0854 n n S διαφέρει λίγο από = 0.08718 n δ.ε. για ποσοστό w,98 4,006,6000,1108,409 Descriptives H 0 : p=0.5 H 1 : p 0.5 H 0 : p=0.8 H 1 : p 0.8 w 90% Confidence Interval for Mean Statistic Std. Error Mean,7600,08718 Lower Bound,6108 Upper Bound,909 One-Sample Test 5% Trimmed Mean,7889 Test Value = 0.8 Median 1,0000 90% Confidence Interval of the Difference t df Sig. (-tailed) Mean Difference Lower Upper w -,459 4,650 -,04000 -,189,109 Variance,190 Std. Deviation,43589 Minimum,00 Maximum 1,00 One-Sample Statistics N Mean Std. Deviation Std. Error Mean w 5,7600,43589,08718 Range 1,00 Interquartile Range,50 Skewness -1,97,464 Kurtosis -,354,90 ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 18
Έλεγχος κανονικότητας Kolmogorov-Smirnov Η στατιστική συνάρτηση που χρησιμοποιούμε είναι η D= sup F ( x)- F( x) x πλήθος παρατηρήσεων δείγματος όπου Fn ( x) = n και F(x) η α.σ.κ. της υπόθεσής μας (για έλεγχο κανονικότητας F(x)= x (x-μ) 1 - σ - πσ e dx ) n x (εμπειρική α.σ.κ.) ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 19
Έλεγχος κανονικότητας Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. x,113 5,00 *,979 5,861 y,146 5,178,903 5,0 z,149 5,157,946 5,05 w,469 5,000,533 5,000 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. Ποιον προτιμούμε, ποιον εμπιστευόμαστε; Μελέτες έχουν δείξει ότι η ισχύς του Kolmogorov-Smirnov είναι μικρότερη από αυτήν του Shapiro-Wilk ελέγχου: P KS (αποδ Η 1 Η 1 αληθής)<p SW (αποδ Η 1 Η 1 αληθής). Δηλαδή, ο έλεγχος K-S τείνει να αποδεχτεί ευκολότερα ως κανονικά, δείγματα τα οποία δεν προέρχονται από την κανονική κατανομή. Άρα συμβουλευόμαστε και τους δύο ελέγχους. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο 0