Κεϕάλαιο 2 ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ. 2.1 Σηµειακή Εκτίµηση. {x 1,..., x n } της X από ένα δείγµα µεγέθους n. Τότε η σηµειακή εκτίµηση της θ δίνεται

Σχετικά έγγραφα
Κεφάλαιο 2 ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ. 2.1 Σηµειακή Εκτίµηση. ˆθ παίρνει διαφορετικές τιµές, δηλαδή η ˆθ είναι η ίδια τ.µ. µε κάποια κατανοµή κι έχει µέση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ

Στατιστική για Χημικούς Μηχανικούς Έλεγχος στατιστικών υποθέσεων. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΧΗΜΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική ΜΕΡΟΣ Β. για Ηλεκτρολόγους Μηχανικούς. ηµήτρης Κουγιουµτζής

Κεϕάλαιο 3. Στοιχεία Στατιστικής. ˆp = n i /n. (3.1)

ΑΝΤΙΚΕΙΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Στατιστική για Χημικούς Μηχανικούς Συσχέτιση και Γραμμική Παλινδρόμηση. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ιαστήµατα Εµπιστοσύνης

A(θ) = n log θ B(x ) = 0. T (x ) = x i. Γ(n)θ n =

Στατιστική Συμπερασματολογία

2. Στοιχεία Πολυδιάστατων Κατανοµών

1 Ορισµός ακολουθίας πραγµατικών αριθµών

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

3. ΠΑΡΑΜΕΤΡΟΙ ΚΑΤΑΝΟΜΩΝ

Κεφάλαιο 6 Παράγωγος

n + 1 X(1 + X). ) = X i i=1 i=1

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

c(2x + y)dxdy = 1 c 10x )dx = 1 210c = 1 c = x + y 1 (2xy + y2 2x + y dx == yx = 1 (32 + 4y) (2x + y)dxdy = 23 28

3. Κατανομές πιθανότητας

11 Το ολοκλήρωµα Riemann

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις και σημειακή εκτίμηση παραμέτρων Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή συμπερασμάτων για το σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Περιγραφική Στατιστική, Εκτίµηση και Ελεγχος Παραµέτρων. της σ 2 είναι επίσης αµερόληπτη. n 1 +n 2

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΤΜΗΜΑ ΑΓΡΟΤΙΚΗΣ ΑΝΑΠΤΥΞΗΣ Θεόδωρος Χ. Κουτρουµ ανίδης Αναπληρωτής Καθηγητής ΠΘ ΕΦΑΡΜΟΣΜΕΝΗ ΟΙΚΟΝΟΜΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

Στατιστική για Πολιτικούς Μηχανικούς Σημειώσεις μέρους Β

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις, σημειακή εκτίμηση παραμέτρων και γραμμική παλινδρόμηση Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή


Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές» (ε) Κάθε συγκλίνουσα ακολουθία άρρητων αριθµών συγκλίνει σε άρρητο αριθµό.


όπου D(f ) = (, 0) (0, + ) = R {0}. Είναι Σχήµα 10: Η γραφική παράσταση της συνάρτησης f (x) = 1/x.

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

ΚΕΦΑΛΑΙΟ 2 ΜΗ ΓΡΑΜΜΙΚΕΣ ΕΞΙΣΩΣΕΙΣ

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Στατιστική για Χημικούς Μηχανικούς Περιγραφική Στατιστική. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών


Αρµονική Ανάλυση. Ενότητα: L p Σύγκλιση. Απόστολος Γιαννόπουλος. Τµήµα Μαθηµατικών

x y max(x))

εξαρτάται από το θ και για αυτό γράφουµε την σ.π.π. στην εξής µορφή: ( θ, + ) θ θ n 2n (θ,+ ) 1, 0, x θ.

5.1 Συναρτήσεις δύο ή περισσοτέρων µεταβλητών

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

X = = 81 9 = 9

1.4 Λύσεις αντιστρόφων προβλημάτων.

TMHMA OIKONOMIKΩN ΕΠΙΣΤΗΜΩΝ Διαγώνισμα Προόδου Στατιστικής III

Αριθµητική Ανάλυση. Ενότητα 5 Προσέγγιση Συναρτήσεων. Ν. Μ. Μισυρλής. Τµήµα Πληροφορικής και Τηλεπικοινωνιών,

ΣΤΑΤΙΣΤΙΚΗ. Ακαδ. Έτος Βασίλης ΚΟΥΤΡΑΣ. ιδάσκων: ιδάσκων ε ί Συµβάσει Π. 407/80.

< 1 για κάθε k N, τότε η σειρά a k συγκλίνει. +, τότε η η σειρά a k αποκλίνει.

11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου

Είδη Μεταβλητών. κλίµακα µέτρησης

Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές»

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ Λυσεις Ασκησεων - Φυλλαδιο 1

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΠΛΗΡΟΦΟΡΙΚΗ ΘΕ: ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΤΗΝ ΠΛΗΡΟΦΟΡΙΚΉ Ι (ΠΛΗ 12) ΛΥΣΕΙΣ ΕΡΓΑΣΙΑΣ 3

Κεφάλαιο 2 ΣΥΝΑΡΤΗΣΕΙΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ. 2.1 Συνάρτηση

Στατιστική. Εκτιμητική

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Αρµονική Ανάλυση. Ενότητα: Ολοκλήρωµα Lebesgue. Απόστολος Γιαννόπουλος. Τµήµα Μαθηµατικών

Στατιστική Συμπερασματολογία

Στατιστική Επιχειρήσεων ΙΙ

Σχολικός Σύµβουλος ΠΕ03

P (A) = 1/2, P (B) = 1/2, P (C) = 1/9

Οι παρατηρήσεις του δείγματος, μεγέθους n = 40, δίνονται ομαδοποιημένες κατά συνέπεια ο δειγματικός μέσος υπολογίζεται από τον τύπο:

Σηµειώσεις στις σειρές

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

1 Οι πραγµατικοί αριθµοί

τη µέθοδο της µαθηµατικής επαγωγής για να αποδείξουµε τη Ϲητούµενη ισότητα.

12xy(1 x)dx = 12y. = 12 y. = 12 y( ) = 12 y 1 6 = 2y. x 6x(1 x)dx = 6. dx = 6 3 x4

Κεφάλαιο 7 Βασικά Θεωρήµατα του ιαφορικού Λογισµού

(X1 X 2 ) 2}. ( ) f 1 (x i ; θ) = θ x i. (1 θ) n x i. x i log. i=1. i=1 t2 i

Μέθοδος μέγιστης πιθανοφάνειας

στατιστική θεωρεία της δειγµατοληψίας

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

1 Οι πραγµατικοί αριθµοί

4 Συνέχεια συνάρτησης

4.ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Παρουσίαση 1 ΙΑΝΥΣΜΑΤΑ

Transcript:

Κεϕάλαιο 2 ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ Οι στατιστικές δείγµατος που υπολογίζονται από τα δεδοµένα που έχουν συλλεχθεί, όπως η δειγµατική µέση τιµή x και η δειγµατική διασπορά s 2, χρησιµοποιούνται για την εκτίµηση των σχετικών παραµέτρων πληθυσµού (µ και σ 2 αντίστοιχα). Γενικά από τις παρατηρήσεις του δείγµατος µπορούµε να υπολογίσουµε τη σηµειακή εκτί- µηση (poit estimatio) και την εκτίµηση διαστήµατος (iterval estimatio) της παραµέτρου µιας τ.µ.. 2.1 Σηµειακή Εκτίµηση Η σηµειακή εκτίµηση µιας παραµέτρου είναι η στατιστική που υπολογίζουµε από το δείγµα, δηλαδή είναι µια τιµή, που υπολογίζεται µε ϐάση τα δεδοµένα του δείγµατος και αντιπροσωπεύει την πραγµατική τιµή της σχετικής παράµετρου του πληθυσµού. Για παράδειγµα, ο µέσος όρος των 25 τιµών του πορώδους ηλίου που µετρήθηκαν σε 25 δοκίµια γαιάνθρακα ενός κοιτάσµατος αποτελεί µια σηµειακή εκτίµηση της µέσης τιµής του πορώδους ηλίου για το γαιάνθρκα αυτού του κοιτάσµατος (δες Παράδειγµα 1.2). Εστω X µια τ.µ. µε αθροιστική συνάρτηση κατανοµής F X (x; θ) ή απλά F(x; θ) που εξαρτάται από την παράµετρο θ την οποία ϑέλουµε να εκτιµήσουµε. Εστω ακόµα ότι έχουµε παρατηρήσεις {x 1,..., x } της X από ένα δείγµα µεγέθους. Τότε η σηµειακή εκτίµηση της θ δίνεται από τη συνάρτηση g(x 1,..., x ) των τιµών του δείγµατος που λέγεται εκτιµήτρια συνάρτηση. Η εκτιµήτρια (estimator) της θ από το δείγµα είναι ˆθ = g(x1,..., x ). Επειδή οι παρατηρήσεις {x 1,..., x } αλλάζουν κάθε φορά που µελετάµε διαϕορετικό δείγ- µα µεγέθους, µπορούµε να υποθέσουµε ότι οι παρατηρήσεις {x 1,..., x } είναι τιµές των τ.µ. {X 1,..., X }, που είναι ανεξάρτητες µεταξύ τους κι ακολουθούν την ίδια κατανοµή F(x; θ). Άρα η παράµετρος ˆθ είναι συνάρτηση αυτών των τ.µ.. Για ευκολία ϑα χρησιµοποιούµε το συµβολισµό {x 1,..., x } και ϑεωρητικά (εννοώντας τις τ.µ. {X 1,..., X }) και πρακτικά (εννοώντας τις παρατηρούµενες αριθµητικές τιµές αυτών των τ.µ.). Είναι φανερό ότι για διαϕορετικά δείγµατα (διαϕορετικές τιµές {x 1,..., x }) η εκτιµήτρια συνάρτηση της παραµέτρου ˆθ παίρνει διαϕορετικές τιµές, δηλαδή η ˆθ είναι η ίδια τ.µ. µε κάποια κατανοµή κι έχει µέση τιµή µˆθ = E(ˆθ) και διασπορά σ 2 ˆθ = Var(ˆθ). ύο σηµαντικές παράµετροι µιας τ.µ. X που ϑέλουµε να εκτιµήσουµε είναι η µέση τιµή µ κι η διασπορά σ 2. 21

22 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ Εκτίµηση µέσης τιµής Είναι φυσικό ως εκτιµήτρια της µ να ορίσουµε τη δειγµατική µέση τιµή που ορίσαµε στην Παράγραϕο 1.2.1 x = 1 x i. (2.1) Εκτίµηση διασποράς Οπως για τη µέση τιµή έτσι και για τη διασπορά σ 2 η εκτιµήτρια είναι η δειγµατική διασπορά που ορίσαµε στην Παράγραϕο 1.2.2 ως s 2 = 1 1 Βέβαια µπορεί κάποιος να ορίσει την εκτιµήτρια της σ 2 ως s 2 = 1 (x i x) 2. (2.2) (x i x) 2. (2.3) Οι εκτιµήτριες s 2 και s 2 διαϕέρουν µόνο ως προς το συντελεστή του αθροίσµατος ( 1 και 1 1 αντίστοιχα). Για µεγάλο οι δύο εκτιµήτριες συγκλίνουν στην ίδια τιµή. Αναπτύσσοντας τα τετράγωνα της (2.2) έχουµε τον ισοδύναµο τύπο (όµοια για την (2.3), δες επίσης την (1.5) στην Παράγραϕο 1.2.2) s 2 = 1 1 που συνήθως χρησιµοποιούµε στους υπολογισµούς. x 2 i x 2, (2.4) 2.1.1 Κριτήρια καλών εκτιµητριών Παραπάνω ορίσαµε κάπως αυθαίρετα εκτιµήτριες της µέσης τιµής µ και της διασποράς σ 2 χωρίς να γνωρίζουµε αν είναι καλές εκτιµήτριες ή όχι. Γενικά όταν ορίζουµε µια εκτιµήτρια ˆθ κάποιας παραµέτρου θ ϑέλουµε να ελέγξουµε αν είναι κατάλληλη και γι αυτό ϑέτουµε κάποια κριτήρια ή ιδιότητες που πρέπει να πληρεί µια καλή εκτιµήτρια. Παρακάτω περιγράϕονται ορισµένες επιθυµητές ιδιότητες µιας εκτιµήτριας ˆθ. Αµεροληψία Η ˆθ είναι αµερόληπτη (ubiased) αν η µέση τιµή της είναι ίση µε την παράµετρο θ, δηλαδή αν ισχύει E(ˆθ) = θ. Αλλιώς λέγεται µεροληπτική µε µεροληψία b(ˆθ) = E(ˆθ) θ. Παράδειγµα 2.1. Η δειγµατική µέση τιµή x είναι αµερόληπτη εκτιµήτρια της µέσης τιµής µ µιας τ.µ. X ενός πληθυσµού. Εχουµε θ = µ και ˆθ = x και ϑέλουµε να δείξουµε ότι E( x) = µ. Αυτό προκύπτει ως E( x) = E 1 x i = 1 E(x i ) = 1 µ = µ.

2.1. ΣΗΜΕΙΑΚΗ ΕΚΤΙΜΗΣΗ 23 Παράδειγµα 2.2. Για την εκτίµηση της διασποράς σ 2 µιας τ.µ. X ενός πληθυσµού µπορεί να δειχθεί ότι : 1. Η δειγµατική διασπορά s 2 είναι αµερόληπτη εκτιµήτρια της σ 2, δηλαδή ισχύει E(s 2 ) = σ 2. 2. Η δειγµατική διασπορά s 2 που ορίστηκε στη (2.3) είναι µεροληπτική εκτιµήτρια της σ 2 µε µεροληψία b( s 2 ) = σ2. Συνέπεια Η ιδιότητα αυτή ορίζει πως όσο αυξάνει το µέγεθος του δείγµατος τόσο µεγαλώνει η πιθανότητα η εκτίµηση να είναι κοντά στην πραγµατική τιµή της παραµέτρου, όπου το κοντά σηµαίνει ότι η διαϕορά της εκτιµούµενης από την πραγµατική τιµή της παραµέτρου είναι µικρότερη από κάποια αυθαίρετα µικρή απόσταση ϸ. ηλαδή η ˆθ είναι συνεπής (cosistet) αν ισχύει P( θ ˆθ ϸ) 1 όταν, όπου ϸ είναι αυθαίρετα µικρός ϑετικός αριθµός. Παράδειγµα 2.3. Η εκτιµήτρια x της µέσης τιµής µ µιας τ.µ. X είναι συνεπής. Αν όµως αντί της δειγµατικής µέσης τιµής διαλέξουµε σαν εκτιµήτρια της µ τον αριθµητικό µέσο της µικρότερης και µεγαλύτερης τιµής του δείγµατος x d = x mi + x max, 2 τότε µπορεί να δειχθεί ότι η εκτιµήτρια x d δεν είναι συνεπής εκτιµήτρια της µ. Αποτελεσµατικότητα Η αποτελεσµατικότητα αναϕέρεται στη διασπορά της εκτιµήτριας και δίνεται συγκριτικά. Μια εκτιµήτρια ˆθ1 της θ είναι πιο αποτελεσµατική (effective) από µια άλλη εκτιµήτρια ˆθ2 αν έχει µικρότερη διασπορά, σ 2ˆθ1 < σ 2ˆθ2. Παράδειγµα 2.4. Η δειγµατική µέση τιµή x και η x d είναι δύο εκτιµήτριες της µέσης τιµής µ κι έχουν διασπορές σ 2 x και σ2 x d αντίστοιχα. Μπορεί να δειχθεί ότι σ 2 x < σ2 x d κι άρα η εκτιµήτρια x είναι πιό αποτελεσµατική από τη x d. Επάρκεια Μια εκτιµήτρια της παραµέτρου θ είναι επαρκής (adequate) όταν χρησιµοποιεί όλη την πληροϕορία από το δείγµα που σχετίζεται µε τη θ. Παράδειγµα 2.5. Η δειγµατική µέση τιµή x, εκτιµήτρια της µέσης τιµής µ µιας τ.µ. X, είναι επαρκής γιατί χρησιµοποιεί όλες τις παρατηρήσεις που µετρήθηκαν στο δείγµα, ενώ η x d δεν είναι επαρκής γιατί χρησιµοποιεί µόνο δύο τιµές των παρατηρήσεων του δείγµατος (x mi και x max ). Παρατηρήσεις Από τα παραπάνω παραδείγµατα ϐλέπουµε πως οι εκτιµήτριες, x για την παραµέτρο µ και s 2 για την παράµετρο σ 2, που ορίσαµε αυθαίρετα, πληρούν όλες τις τέσσερις ιδιότητες και είναι καλές εκτιµήτριες.

24 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ Στον ορισµό των εκτιµητριών x και s 2 δεν κάναµε κάποια υπόθεση για την κατανοµή της τ.µ. X κι άρα µπορούµε να τις χρησιµοποιήσουµε για οποιαδήποτε τ.µ. X που παρατηρούµε. Στη συνέχεια ϑα υποθέσουµε πως η κατανοµή της X είναι γνωστή (ως προς τη γενική µορϕή της) αλλά δεν είναι γνωστή κάποια παράµετρο θ της κατανοµής και ϑα δούµε πως µπορούµε γενικά να υπολογίσουµε την εκτιµήτρια της θ. 2.1.2 Μέθοδος υπολογισµού της σηµειακής εκτίµησης Υποθέτουµε ότι η τ.µ. X έχει κάποια γνωστή κατανοµή, δηλαδή γνωρίζουµε τη γενική µορϕή της αθροιστικής συνάρτησης κατανοµής F(x; θ) και της f (x; θ), που είναι η συνάρτηση πυκνότητας πιθανότητας αν η X είναι συνεχής και η συνάρτηση µάζας πιθανότητας αν η X είναι διακριτή. Η παράµετρος θ της κατανοµής είναι άγνωστη και ϑέλουµε να την εκτιµήσουµε από το δείγµα των παρατηρήσεων {x 1,..., x }. Θα ϑεωρήσουµε επίσης το πρόβληµα να έχουµε περισσότερες από µία άγνωστες παραµέτρους. Μέθοδος των Ροπών Για συνήθεις κατανοµές, µια παράµετρος θ της κατανοµής F(x; θ) σχετίζεται µε τις δύο κύριες παραµέτρους µ και σ 2. Για παράδειγµα, για την κανονική κατανοµή οι µ και σ 2 είναι οι µόνες δύο παράµετροι που καθορίζουν πλήρως της συνάρτηση της κατανοµής. Για την οµοιόµορϕη κατανοµή σε διάστηµα [a, b], η σχέση των παραµέτρων της κατανοµής a και b µε τις µ και σ 2 δίνεται ως µ = a+b και σ 2 = (b a)2. 2 12 Γενικά όταν υπάρχει κάποια σχέση που µας επιτρέπει να υπολογίσουµε την παράµετρο θ (ή τις παραµέτρους θ 1, θ 2 ) από τις µ και σ 2, τότε ϐρίσκουµε την εκτιµήτρια ˆθ (ή τις εκτιµήτριες ˆθ 1, ˆθ2 ) ως εξής : 1. υπολογίζουµε τις εκτιµήσεις x και s 2 των µ και σ 2 αντίστοιχα, 2. αντικαθιστούµε τις εκτιµήσεις x και s 2 στην έκϕραση της θ (ή των θ 1, θ 2 ) ως προς µ και σ 2. Αυτή είναι η µέθοδος των ϱοπών (method of momets). Η ονοµασία προκύπτει από τη χρήση των ϱοπών στην εκτίµηση των παραµέτρων : τη µέση τιµή µ που είναι η πρώτη ϱοπή και τη διασπορά σ 2 που είναι η δεύτερη κεντρική ϱοπή. Αν οι δύο αυτές ϱοπές δεν επαρκούν, δηλαδή έχουµε να εκτιµήσουµε περισσότερες από δύο παραµέτρους ή οι σχέσεις δε δίνουν µοναδικότητα λύσης για τις παραµέτρους, χρησιµοποιούµε και ϱοπές µεγαλύτερου ϐαθµού, αλλά δε ϑα ασχοληθούµε µε τέτοια προβλήµατα. Παράδειγµα 2.6. Στο Κεϕάλαιο 1 µελετήσαµε ένα δείγµα από µετρήσεις του πορώδους ηλίου σε 25 δοκίµια γαιάνθρακα ενός κοιτάσµατος Α. Τα δεδοµένα αυτά (καθώς και τα 20 δεδοµένα πορώδους ηλίου για ένα άλλο κοίτασµα Β που ϑα µελετήσουµε αργότερα) δίνονται στον Πίνακα 1.3. Για το πορώδες ηλίου σε γαιάνθρακα κοιτάσµατος Α είχαµε ϐρεί πως η δειγµατική µέση τιµή x είναι x = 1 25 25 x i = 1 141.8 = 5.67 25 και η δειγµατική διασπορά s 2 είναι (όπου έχουµε πρώτα υπολογίσει πως 25 x 2 i = 813.3) s 2 = 1 25 24 x 2 i 25 x 2 = 1 24 (813.3 25 5.672 ) = 0.375.

2.1. ΣΗΜΕΙΑΚΗ ΕΚΤΙΜΗΣΗ 25 Με ϐάση αυτό το δείγµα η εκτίµηση της µέση τιµής µ είναι 5.67 και της διασποράς σ 2 είναι 0.375. Αν η τ.µ. X (πορώδες ηλίου σε γαιάνθρακα) ακολουθεί κανονική κατανοµή N(µ, σ 2 ), τότε είναι φανερό πως αυτές οι εκτιµήσεις περιγράϕουν πλήρως την κανονική κατανοµή της X µε ϐάση αυτό το δείγµα. Αν η τ.µ. X ακολουθεί οµοιόµορϕη κατανοµή σε κάποιο διάστηµα [a, b], τότε µπορούµε να εκτιµήσουµε τις παραµέτρους a και b από τις σχέσεις µ = a+b και σ 2 = (b a)2. Αντικαθιστούµε τις 2 12 µ και σ 2 µε τις εκτιµήσεις x και s 2 και λύνουµε το παρακάτω σύστηµα εξισώσεων x = a+b 2 s 2 = (b a)2 12 â = x 3s ˆb = x + 3s â = 4.61 ˆb = 6.73 Μέθοδος της Μεγίστης Πιθανοϕάνειας Η µέθοδος αυτή δίνει την εκτίµηση που έχει τη µέγιστη πιθανοϕάνεια, δηλαδή δίνει την τιµή της παραµέτρου η οποία, µεταξύ όλων των δυνατών τιµών της παραµέτρου, είναι η πιό πιθανή µε ϐάση το δείγµα. Η συνάρτηση πυκνότητας πιθανότητας για κάποια τιµή X = x i που εξαρτάται από κάποια παράµετρο θ παίρνει την τιµή f (x i ; θ) (αν η X είναι διακριτή τότε αυτή η τιµή εκϕράζει την πιθανότητα P(X = x i ) ). Επειδή {x 1,..., x } είναι ανεξάρτητες, η πιθανότητα να τις παρατηρήσουµε σ ένα τυχαίο δείγµα µεγέθους δίνεται από τη συνάρτηση πιθανόϕανειας (likelihood fuctio) ως προς θ L(x 1,..., x ; θ) = f (x 1 ; θ) f (x ; θ). Στα προβλήµατα εκτίµησης, ϑεωρούµε τα {x 1,..., x } δεδοµένα και ενδιαϕερόµαστε για τη θ. Άν λοιπόν L(x 1,..., x ; θ 1 ) > L(x 1,..., x ; θ 2 ) για δύο τιµές θ 1 και θ 2 της θ, τότε η τιµή θ 1 είναι πιο αληθοϕανής από τη θ 2 γιατί δίνει µεγαλύτερη πιθανότητα να παρατηρήσουµε τα {x 1,..., x }. Θέλουµε λοιπόν να ϐρούµε την πιό αληθοϕανή τιµή της θ, δηλαδή την τιµή ˆθ που µεγιστοποιεί τη L(x1,..., x ; θ) ή καλύτερα (για ευκολότερους υπολογισµούς) τη log L(x 1,..., x ; θ). Άρα η εκτιµήτρια µεγίστης πιθανοϕάνειας (maximum likelihood estimator) ˆθ ϐρίσκεται από τη σχέση log L(x 1,..., x ; θ) θ = 0. (2.5) Άν ϑέλουµε να εκτιµήσουµε δύο ή περισσότερες παραµέτρους θ 1,..., θ m, η συνάρτηση πιθανόϕανειας είναι L(x 1,..., x ; θ 1,..., θ m ) και οι εκτιµήτριες ˆθ1,..., ˆθm ϐρίσκονται λύνοντας το σύστηµα των m εξισώσεων log L(x 1,..., x ; θ 1,..., θ m ) θ j = 0 για j = 1,..., m. (2.6) Παράδειγµα 2.7. Εχουµε ένα τυχαίο δείγµα {x 1,..., x } από κανονική κατανοµή N(µ, σ 2 ) και ϑέλουµε να εκτιµήσουµε τη µέση τιµή µ ϑεωρώντας τη σ 2 γνωστή. Η συνάρτηση πυκνότητας πιθανότητας της κανονικής κατανοµής είναι f X (x; µ) f (x) = 1 2πσ e (x µ)2 2σ 2. Η συνάρτηση πιθανόϕανειας (για την οποία µόνο η παράµετρος µ είναι άγνωστη) είναι ( ) 1 /2 L(x 1,..., x ; µ) = exp 2πσ 1 (x 2 2σ 2 i µ) 2,

26 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ όπου exp(x) e x. Ο λογάριθµος της συνάρτησης πιθανόϕανειας είναι log L(x 1,..., x ; µ) = 2 log 2π 2 log(σ2 ) 1 2σ 2 (x i µ) 2. Η εκτιµήτρια µεγίστης πιθανοϕάνειας ˆµ ϐρίσκεται µηδενίζοντας την παράγωγο της log L (σχέση (2.5) ) log L = 0 1 (x µ σ 2 i µ) = 0 (2.7) που δίνει τη λύση ˆµ = 1 x i = x, δηλαδή είναι ίδια µε την εκτιµήτρια x της µέσης τιµής µ που ορίσαµε για οποιαδήποτε κατανοµή της τ.µ. X. Παράδειγµα 2.8. Ας υποθέσουµε στο προηγούµενο παράδειγµα πως κι η διασπορά σ 2 είναι άγνωστη. Τότε στην παραπάνω εξίσωση (2.7) προστίθεται κι η εξίσωση log L σ 2 = 0 2σ 2 + 1 σ 4 (x i µ) 2 = 0. (2.8) Η επίλυση του συσήµατος των εξισώσεων (2.7) και (2.8) δίνει την ίδια λύση για τη µ και για τη σ 2 είναι σ 2 = 1 (x i ˆµ) 2 = 1 (x i x) 2. Οι εκτιµήτριες µεγίστης πιθανοϕάνειας λοιπόν για τη µέση τιµή µ και τη διασπορά σ 2 µιας τ.µ. που ακολουθεί κανονική κατανοµή είναι απλά η δειγµατική µέση τιµή και διασπορά αντίστοιχα, αλλά για τη διασπορά έχουµε τη µεροληπτική δειγµατική διασπορά s 2 (σχέση (2.3) ). Ασυµπτωτικά όµως (για µεγάλο ) η εκτιµήτρια σ 2 = s 2 είναι αµερόληπτη. Η µέθοδος µεγίστης πιθανοϕάνειας είναι η καλύτερη µέθοδος εκτίµησης αν γνωρίζουµε την κατανοµή της τ.µ. X και µπορεί να εϕαρµοσθεί σε οποιοδήποτε πρόβληµα εκτίµησης παραµέτρων. Μέθοδος των Ελαχίστων Τετραγώνων Αυτή η µέθοδος εϕαρµόζεται µόνο στην περίπτωση που οι άγνωστες παράµετροι εµϕανίζονται σε σχέσεις τυχαίων µεταβλητών και οι σχέσεις αυτές είναι γραµµικές ως προς τις παραµέτρους που ϑέλουµε να εκτιµήσουµε. Μια απλή περίπτωση είναι να έχουµε µια τ.µ. Y και η κάθε τιµή της y να δίνεται από τη σχέση y = θ 1 x 1 + + θ m x m + ϸ, όπου οι τιµές x 1,..., x m είναι γνωστές, θ 1,..., θ m είναι οι άγνωστες παράµετροι και ϸ είναι µια άλλη τ.µ. µε E(ϸ) = 0. Θα ασχοληθούµε µε τη µέθοδο αυτή στο Κεϕάλαιο 4. Παρατηρήσεις

2.2. ΕΚΤΙΜΗΣΗ ΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ 27 Η µέθοδος µεγίστης πιθανοϕάνειας µπορεί να εϕαρµοσθεί για οποιοδήποτε θ αν γνωρί- Ϲουµε την κατανοµή F X (x; θ) ενώ η µέθοδος των ϱοπών δεν εϕαρµόζεται αν η θ δε µπορεί να υπολογισθεί από τις ϱοπές. Η εκτίµηση µεγίστης πιθανοϕάνειας έχει όλες τις ιδιότητες καλής εκτιµήτριας, δηλαδή είναι αµερόληπτη (ασυµπτωτικά, δηλαδή η µεροληψία b( theta) ˆ τείνει στο µηδέν για µεγάλα ), συνεπής, αποτελεσµατική κι επαρκής. Γι αυτό κι αυτή η µέθοδος είναι η καλύτερη µέθοδος εκτίµησης παραµέτρων αν γνωρίζουµε την κατανοµή F X (x; θ). 2.2 Εκτίµηση ιαστήµατος Εµπιστοσύνης Η σηµειακή εκτίµηση ˆθ από κάποιο δείγµα δεν περιέχει καµιά πληροϕορία για την ακρί- ϐεια της εκτίµησης της θ. Η εκτίµηση ˆθ είναι µια τιµή που δε γνωρίζουµε πόσο κοντά είναι στην πραγµατική τιµή της θ κι επίσης η τιµή αυτή αλλάζει µε το δείγµα. Για παράδειγµα, υπολογίζουµε τη δειγµατική µέση τιµή x από ένα τυχαίο δείγµα µεγέθους. Άν πάρουµε ένα άλλο τυχαίο δείγµα ίδιου µεγέθους, η τιµή της x ϑα είναι διαϕορετική. Μπορεί να είναι πιό κοντά ή πιό µακριά στην πραγµατική τιµή της µ απ ότι αυτή από το προηγούµενο δείγµα. Γενικά λοιπόν η εκτιµήτρια ˆθ εξαρτάται από το δείγµα και είναι λοιπόν τ.µ. µε κάποια κατανοµή. Γι αυτό στην εκτίµηση της θ είναι σηµαντικό εκτός από τη σηµειακή εκτίµηση ˆθ να υπολογίσουµε και διάστηµα [θ 1, θ 2 ] που να µπορούµε να πούµε µε µεγάλη εµπιστοσύνη ότι ϑα περιέχει την πραγµατική τιµή της παραµέτρου θ. Στη συνέχεια ϑα δούµε τέτοια διαστήµατα εµπιστοσύνης για διάϕορες παραµέτρους, αρχίζοντας από τη µέση τιµή. 2.2.1 ιάστηµα εµπιστοσύνης της µέσης τιµής µ Η σηµειακή εκτίµηση της µέσης τιµής µ µιας τ.µ. X είναι η δειγµατική µέση τιµή x (σχέση (2.1) ) που είναι κι αµερόληπτη εκτιµήτρια της µ, δηλαδή η µέση τιµή της x είναι η πραγµατική τιµή µ που είναι άγνωστη όµως σε µας, µ x = E( x) = µ. Παρ όλο που η εκτιµήτρια x είναι διαϕορετική από δείγµα σε δείγµα, επειδή η x είναι συνεπής εκτιµήτρια, όταν αυξάνεται το µέγεθος του δείγµατος η x πλησιάζει τη µέση τιµή µ. Η διασπορά λοιπόν της x ϑα πρέπει να εξαρτάται από το έτσι ώστε καθώς ο αριθµός των παρατηρήσεων µεγαλώνει η διασπορά να µικραίνει. Πράγµατι για τη διασπορά σ 2 x έχουµε σ 2 x = Var( x) = Var 1 x i = 1 2 Var(x i ) = 1 2 (σ2 ) = σ2, (2.9) δηλαδή η διασπορά της εκτιµήτριας x είναι ανάλογη της διασποράς σ 2 της X κι αντιστρόϕως ανάλογη του αριθµού των παρατηρήσεων. Στην παραπάνω σχέση υποθέσαµε πως οι πα- ϱατηρήσεις x 1,..., x είναι ανεξάρτητες (εννοώντας και πάλι τις τ.µ. X 1,..., X ). Την τυπική απόκλιση (τετραγωνική ϱίζα της διασποράς) σ x = σ/ της x ϑα την ονοµάζουµε σταθερό σϕάλµα (stadard error) της εκτιµήτριας x. Η τ.µ. x λοιπόν έχει κάποια κατανοµή µε µέση τιµή µ x = µ και διασπορά σ 2 x = σ2 /. Στη συνέχεια, για να ορίσουµε διάστηµα εµπιστοσύνης της µ ϑα ϐασιστούµε στην κατανοµή της x. Για να υποθέσουµε κάποια γνωστή κατανοµή για τη x χρειάζεται να ελέγξουµε το µέγεθος του δείγµατος, αν η κατανοµή της X είναι κανονική κι αν γνωρίζουµε τη διασπορά της.

28 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ Γνωστή διασπορά Θεωρούµε εδώ ότι γνωρίζουµε τη διασπορά σ 2 της τ.µ. X στον πληθυσµό. Για την κατανοµή της x διακρίνουµε δύο περιπτώσεις : 1. Αν η τ.µ. X ακολουθεί κανονική κατανοµή N(µ, σ 2 ) ή το δείγµα είναι µεγάλο ( > 30) τότε και η τ.µ. x ακολουθεί κανονική κατανοµή N(µ, σ 2 /). 2. Αν δε συµβαίνει το παραπάνω, δηλαδή αν η τ.µ. X δεν ακολουθεί κανονική κατανοµή και το δείγµα είναι µικρό τότε γενικά δε γνωρίζουµε την κατανοµή της x. Αν το δείγµα είναι µεγάλο η κανονική κατανοµή της x δίνεται από το Κεντρικό Οριακό Θεώρηµα, ενώ αν η τ.µ. X ακολουθεί κανονική κατανοµή τότε και το άθροισµα τέτοιων τ.µ. X 1,..., X ακολουθεί κανονική κατανοµή κι έτσι προκύπτει πως και η x ακολουθεί κανονική κατανοµή. Υποθέτοντας ότι η x ακολουθεί κανονική κατανοµή N(µ, σ 2 /), η τ.µ. z που προκύπτει από τον απλό µετασχηµατισµό z x µ σ/ ακολουθεί την τυπική κανονική κατανοµή x N(µ, σ 2 /) z x µ σ/ N(0, 1). Για την τυπική κανονική κατανοµή µπορούµε εύκολα να ορίσουµε ένα διάστηµα [z α/2, z 1 α/2 ], στο οποίο ϑα ανήκει η z µε κάποια δοθείσα πιθανότητα 1 α, όπως φαίνεται στο Σχήµα 2.1. Τα άκρα του διαστήµατος, z α/2 και z 1 α/2, λέγονται κρίσιµες τιµές. Οι δείκτες α/2 και 1 α/2 1 α α/2 α/2 z α/2 0 z 1 α/2 Σχήµα 2.1: Συνάρτηση πυκνότητας πιθανότητας της τυπικής κανονικής κατανοµής και οι ουρές της για κάποιο α. δηλώνουν τις τιµές της αθροιστικής συνάρτησης για z α/2 και z α/2 αντίστοιχα, δηλαδή ισχύει Φ(z α/2 ) = P(z < z α/2 ) = α/2 Φ(z 1 α/2 ) = P(z < z 1 α/2 ) = 1 α/2 όπου Φ(z) είναι η αθροιστική συνάρτηση της τυπικής κανονικής κατανοµής. Άρα η πιθανότητα να είναι z < z α/2 και z > z 1 α/2 είναι α. Οι δύο σκιασµένες περιοχές στο Σχήµα 2.1 κατέχουν µαζί ποσοστό α% του συνολικού εµβαδού του ολοκληρώµατος της συνάρτησης πυκνότητας πιθανότητας. Αντίστοιχα η πιθανότητα να συµβαίνει z [z α/2, z 1 α/2 ] είναι 1 α. Γενικά λοιπόν ισχύει P(z α/2 < z z 1 α/2 ) = Φ(z 1 α/2 ) Φ(z α/2 ) = 1 α. Επειδή η συνάρτηση πυκνότητας πιθανότητας της τυπικής κανονικής κατανοµής είναι συµ- µετρική ως προς το 0 ισχύει z α/2 = z 1 α/2. Άρα στην ουσία για να ορίσουµε το διάστηµα [z α/2, z 1 α/2 ] χρειαζόµαστε µία µόνο κρίσιµη τιµή.

2.2. ΕΚΤΙΜΗΣΗ ΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ 29 Ανακεϕαλαιώνοντας, ϐρήκαµε ότι σε κάθε δοθείσα πιθανότητα 1 α αντιστοιχεί ένα διάστηµα τιµών της τ.µ. z που ορίζεται από την κρίσιµη τιµή z 1 α/2 που την υπολογίζουµε ως z 1 α/2 = Φ 1 (1 α/2) από τον στατιστικό πίνακα της τυπικής κανονικής κατανοµής. Για παράδειγµα για α = 0.05 το διάστηµα [ 1.96, 1.96] περιέχει την τ.µ. z µε πιθανότητα 0.95, όπου z 0.975 = Φ 1 (0.975) = 1.96. [Ο συµβολισµός που χρησιµοποιούµε εδώ, όπως και για άλλες κατανοµές που ϑα δούµε παρακάτω, ϐασίζεται στην αρχή της αντιστοίχισης του δείκτη της κρίσιµης τιµής στην τιµή της αντίστοιχης αθροιστικής συνάρτησης. Σε κάποια ϐιβλία η ϑετική κρίσιµη τιµή z 1 α/2 συµβολίζεται ως z α/2 και η αρνητική κρίσιµη τιµή z α/2 συµβολίζεται ως z α/2 ]. Θέλουµε να µετασχηµατίσουµε το διάστηµα [z α/2, z 1 α/2 ] για πιθανότητα 1 α στο αντίστοιχο διάστηµα που περιέχει την παραµέτρο µ. Γι αυτό λύνουµε τις σχέσεις z α/2 = x µ σ/ z 1 α/2 = x µ σ/ ως προς µ και ϐρίσκουµε τα άκρα του διαστήµατος για τη µέση τιµή µ ] σ σ σ x ± z 1 α/2 [ x z 1 α/2, x + z 1 α/2. (2.10) Το διάστηµα αυτό υπολογίστηκε για κάποια δοθείσα πιθανότητα 1 α που είναι το προκα- ϑορισµένο επίπεδο εµπιστοσύνης (cofidece level) και λέγεται διάστηµα εµπιστοσύνης (cofidece iterval) της µ σε επίπεδο 1 α. Η ερµηνεία αυτού του διαστήµατος ϑέλει προσοχή. Σε µια πρώτη προσέγγιση ϑα λέγαµε ότι σηµαίνει µε πιθανότητα (εµπιστοσύνη) 1 α η µέση τιµή µ ϐρίσκεται µέσα σ αυτό το διάστηµα, το οποίο δεν είναι ορθό αϕού η µ είναι σταθερό µέγεθος κι όχι τ.µ. για να µιλάµε για την τιµή της µε πιθανότητες. Το µέγεθος που αλλάζει (ανάλογα µε το δείγµα) είναι το διάστηµα και σ αυτό πρέπει να αναϕέρεται η πιθανότητα ή εµπιστοσύνη. Σωστότερη λοιπόν ερµηνεία είναι ότι αν χρησιµοποιούσαµε πολλά τέτοια διαστήµατα από διαϕορετικά δείγµατα, ποσοστό (1 α)% απ αυτά ϑα περιείχαν τη µ ή µε 1 α πιθανότητα (εµπιστοσύνη) το διάστηµα αυτό ϑα περιέχει την πραγµατική µ. Συνοπτικά η διαδικασία για τον προσδιορισµό του διαστήµατος εµπιστοσύνης της µ είναι Επιλογή του επιπέδου εµπιστοσύνης 1 α Υπολογισµός του z 1 α/2 από τον αντίστοιχο στατιστικό πίνακα για την τυπική κανονική κατανοµή Υπολογισµός του διαστήµατος [ x z 1 α/2 σ, x +z 1 α/2 σ ], όπου το σ είναι γνωστό και το x είναι η δειγµατική µέση τιµή των παρατηρήσεων. Παράδειγµα 2.9. Θέλουµε να εκτιµήσουµε διάστηµα εµπιστοσύνης σε επίπεδο 95% για το µέσο ποσοστό πορώδες ηλίου σε γαιάνθρακα του κοιτάσµατος Α από τα δεδοµένα του Πίνακα 1.3. Υποθέτουµε ότι από παλιότερες µετρήσεις γνωρίζουµε ότι η διασπορά για το πορώδες ηλίου είναι σε ποσοστό σ 2 = 0.38. Εξετάζοντας τη δειγµατική κατανοµή του πορώδες ηλίου από τα δεδοµένα µας, π.χ. σχεδιάζοντας το ιστόγραµµα των δεδοµένων του Πίνακα 1.3 (όπως κάναµε στο Σχήµα 1.2) ή το ϑηκόγραµµα που παρουσιάζεται στο Σχήµα 2.2, ϐλέπουµε ότι φαίνεται να είναι κανονική (είναι συµµετρική και δεν έχει µακριές ουρές). Ειδικά για το ϑηκόγραµµα φαίνεται να τηρούνται τα τρία χαρακτηριστικά που συνιστούν κανονική κατανοµή όπως τα ϑέσαµε στην Παράγραϕο 1.2:

30 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ Η διάµεσος δεν τείνει προς το Q 1 ή το Q 3. Οι µύστακες έχουν περίπου το ίδιο µήκος. εν υπάρχουν ακραίες τιµές ή ύποπτες ακραίες τιµές. 7 Θηκoγραµµα πoρωδoυς ηλιoυ για κoιτασµα A 6.5 6 5.5 5 4.5 A Σχήµα 2.2: Θηκόγραµµα των δεδοµένων του πορώδους ηλίου σε γαιάνθρακα του κοιτάσµατος Α του Πίνακα 1.3. Αρα µπορούµε να υποθέσουµε ότι το πορώδες ηλίου X ακολουθεί κανονική κατανοµή N(µ, 0.38) και τότε η δειγµατική µέση τιµή x του πορώδους ηλίου ακολουθεί επίσης κανονική κατανοµή N(µ, 0.38/25), όπου = 25 είναι το µέγεθος του δείγµατος. Για την εκτίµηση του διάστηµατος εµπιστοσύνης ακολουθούµε τα ϐήµατα : 1. Το επίπεδο εµπιστοσύνης είναι 1 α = 0.95 (α = 0.05). 2. Από τον στατιστικό πίνακα έχουµε z 0.975 = Φ 1 (0.975) = 1.96. 3. Το διάστηµα για τη µέση τιµή µ είναι (έχουµε υπολογίσει ότι x = 5.67, δες Παράδειγµα 2.6) 5.67 ± 1.96 0.38 5 [5.43, 5.91]. Αρα το 95% διάστηµα εµπιστοσύνης του µέσου ποσοστού πορώδους ηλίου σε γαιάνθρακα µε ϐάση το δείγµα του κοιτάσµατος Α είναι [5.43, 5.91]. Μπορούµε να πούµε ότι η σηµειακή εκτίµηση x = 5.67 είναι αρκετά ακριβής αϕού το αντίστοιχο 95% διάστηµα εµπιστοσύνης είναι αρκετά µικρό. Αγνωστη διασπορά Γενικά η διασπορά σ 2 της τ.µ. X είναι άγνωστη και την εκτιµούµε από το δείγµα µε την s 2 (π.χ. δες την (2.4) που χρησιµοποιούµε για τους υπολογισµούς). Αν το δείγµα είναι µεγάλο ( > 30) η εκτιµήτρια s 2 είναι αρκετά ακριβής κι απλά µπορούµε να αντικαταστήσουµε τη διασπορά σ 2 µε τη δειγµατική διασπορά s 2 στην παραπάνω διαδικασία

2.2. ΕΚΤΙΜΗΣΗ ΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ 31 για να πάρουµε το διάστηµα εµπιστοσύνης για τη µ. Αν όµως το δείγµα είναι µικρό τότε η προσέγγιση δεν είναι καλή και το διάστηµα µπορεί να είναι αρκετά ανακριβές. Για µικρό και υποθέτοντας πως η X ακολουθεί κανονική κατανοµή, η τ.µ. t που ορίζεται ως t x µ s/ ακολουθεί την κατανοµή studet ή την t κατανοµή µε 1 ϐαθµούς ελευθερίας t x µ s/ t 1. Η κατανοµή αυτή µοιάζει µε την τυπική κανονική κατανοµή και την προσεγγίζει καθώς αυξάνει ο αριθµός των ϐαθµών ελευθερίας όπως φαίνεται στο Σχήµα 2.3. Για µεγάλο η προσέγγιση 0.4 0.3 N(0,1) t 5 t 24 t 50 f X (x) 0.2 0.1 0 6 4 2 0 2 4 6 x Σχήµα 2.3: Συνάρτηση πυκνότητας πιθανότητας για την τυπική κανονική κατανοµή και την κατανοµή studet µε 5, 24 και 50 ϐαθµούς ελευθερίας, όπως δείχνει το επεξήγηµα των γραµ- µών. είναι πολύ καλή κι οι τιµές των t και z είναι πρακτικά ίδιες. Η διαδικασία για την εκτίµηση του διαστήµατος εµπιστοσύνης είναι ίδια όπως στην περίπτωση της γνωστής διασποράς, αλλά η άγνωστη διασπορά σ 2 αντικαθίσταται από τη δειγµατική διασπορά s 2 που υπολογίζεται από το δείγµα κι η κρίσιµη τιµή είναι t 1,1 α/2 αντί για z 1 α/2 και τη ϐρίσκουµε από το στατιστικό πίνακα για την κατανοµή studet. [Η κρίσιµη τιµή της t ορίζεται από το 1 α/2 αλλά και από τους ϐαθµούς ελευθερίας 1. Στο Σχήµα 2.4 παρουσιάζεται η κατανοµή studet για 1 = 24 ϐαθµούς ελευθερίας κι οι κρίσιµες τιµές της για 1 α = 0.95.] Το διάστηµα εµπιστοσύνης σε επίπεδο 1 α είναι x ± t 1,1 α/2 s. (2.11) Παράδειγµα 2.10. Για το προηγούµενο παράδειγµα υποθέτουµε πως η διασπορά είναι άγνωστη (που είναι και η πιό πιθανή περίπτωση για το πραγµατικό πρόβληµα). Το δείγµα είναι αρκετά µεγάλο κι ίσως ϑα µπορούσαµε να υποθέσουµε πως η x σαν τ.µ. ακολουθεί κανονική κατανοµή και να χρησιµοποιήσουµε στους υπολογισµούς του διαστήµατος εµπιστοσύνης την κρίσιµη τιµή z 1 α/2. Για να εκτιµήσουµε όµως το διάστηµα εµπιστοσύνης για το µέσο πορώδες ηλίου µε την καλύτερη δυνατή ακρίβεια χρησιµοποιούµε την κρίσιµη τιµή t 1,1 α/2 από την κατανοµή studet (δες Σχήµα 2.4). Η δειγµατική διασπορά έχει ϐρεθεί να είναι s 2 = 0.375 (δες Παράδειγµα 2.6).

32 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ 0.4 0.3 f X (x) 0.2 0.1 t 24,0.025 = 2.064 t 24,0.975 =2.064 0 6 4 2 0 2 4 6 x Σχήµα 2.4: Συνάρτηση πυκνότητας πιθανότητας για την κατανοµή studet µε 24 ϐαθµούς ελευθερίας κι η δεξιά κι αριστερή κρίσιµη τιµή της για 1 α = 0.95. Από το στατιστικό πίνακα για την κατανοµή studet, για 1 α/2 = 0.975 και 1 = 24, ϐρίσκουµε t 24, 0.975 = 2.064 και το διάστηµα εµπιστοσύνης για τη µ είναι 5.67 ± 2.064 0.375 5 [5.42, 5.92]. Η χρήση της κρίσιµης τιµής t 24, 0.975 = 2.064 υπαγορεύεται από τη χρήση της εκτίµησης s 2 αντί της πραγµατικής διασποράς σ 2 που δεν τη γνωρίζουµε. Αν αποϕασίζαµε εσϕαλµένα να χρησιµοποιήσουµε στους παραπάνω υπολογισµούς τη z 0.975 = 1.96 της κανονικής κατανοµής ϑα ϐρίσκαµε το διάστηµα [5.52, 5.82] πού είναι φυσικά πιό µικρό αϕού z 0.975 < t 24, 0.975. Το διάστηµα όµως αυτό δεν είναι ακριβές γιατί κάναµε την υπόθεση για κανονική κατανοµή της x που δεν εϕαρµόζεται στην περίπτωση που η διασπορά είναι άγνωστη και το δείγµα είναι µικρό. Γενικά όταν τον δεν είναι µεγάλο το διάστηµα εµπιστοσύνης της x που παίρνουµε υ- ποθέτοντας ότι η x ακολουθεί κατανοµή studet είναι πιό µεγάλο από αυτό που παίρνουµε υποθέτοντας ότι η x ακολουθεί κανονική κατανοµή και η διασπορά παραµένει η ίδια. Μη κανονική κατανοµή και µικρά δείγµατα Σε κάποιες περιπτώσεις το δείγµα µπορεί να είναι µικρό και η κατανοµή της τ.µ. X που παρατηρούµε να µην είναι κανονική. [ Οταν δε ξέρουµε τίποτε για την κατανοµή της X αυτό το εκτιµούµε από τα δεδοµένα του δείγµατος, π.χ. από τη µορϕή του ιστογράµµατος ή του ϑηκογράµµατος των δεδοµένων.] Σε µια τέτοια περίπτωση (κι ανεξάρτητα από το αν η διασπορά είναι γνωστή ή όχι) δε µπορούµε να υποθέσουµε πως η x ακολουθεί κάποια συγκεκριµένη κατανοµή και στη συνέχεια να εκτιµήσουµε διάστηµα εµπιστοσύνης για τη µέση τιµή µ. Σε τέτοιες περιπτώσεις ενδιαϕερόµαστε για τη διάµεσο δ = δ X της τ.µ. X αντί της µ = µ X. Η σηµειακή εκτίµηση x της δ είναι απλά η κεντρική τιµή των παρατηρήσεων διαταγµένες σε αύξουσα σειρά (δες Παράγραϕο 1.2.1). Το διάστηµα εµπιστοσύνης για τη δ ϐρίσκεται µε τη µέθοδο Wilcoxo που ϐασίζεται στην τάξη των παρατηρήσεων παρά στις τιµές τους. Αυτή η εκτίµηση διαστήµατος εµπιστοσύνης λέγεται µη παραµετρική (επειδή δεν υποθέτουµε κάποια κατανοµή και τις παραµέτρους της για την εκτιµήτρια).

2.2. ΕΚΤΙΜΗΣΗ ΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ 33 Παρατηρήσεις Γενικά ϑα ϑέλαµε το διάστηµα εµπιστοσύνης να είναι όσο το δυνατό µικρότερο για να έχουµε όσο το δυνατόν πιό ακριβή σηµειακή εκτίµηση. Το διάστηµα εµπιστοσύνης εξαρτάται από : την κατανοµή και τη διασπορά σ 2 της τ.µ. χαρακτηριστικά της τ.µ. που µελετάµε]. X [αυτά δε µπορούµε να τα αλλάξουµε, είναι το µέγεθος του δείγµατος [αύξηση του έχει σαν αποτέλεσµα τη µείωση του εύρους του διαστήµατος, που είναι φυσικά επιθυµητό αλλά όχι πάντοτε εϕικτό, αϕού η απόκτηση πολλών παρατηρήσεων µπορεί να είναι εργασία επίπονη και πολυέξοδη]. το επίπεδο εµπιστοσύνης 1 α [αυτό το καθορίζουµε εµείς, αλλά δε ϑα ϑέλαµε να µικρήνουµε το διάστηµα µειώνοντας την εµπιστοσύνη µας σ αυτό γιατί τότε τα αποτελέσµατά µας δε ϑα έχουν την επιθυµητή στατιστική σηµαντικότητα]. Το επίπεδο εµπιστοσύνης που συνήθως χρησιµοποιείται στην πράξη είναι 95%. Στον Πίνακα 2.1 συνοψίζεται η εκτίµηση του διαστήµατος εµπιστοσύνης της µ στις διάϕορες περιπτώσεις. διασπορά κατανοµή της X κατανοµή της x διάστηµα εµπιστοσύνης γνωστή κανονική z x µ σ/ N(0, 1) x ± z σ 1 α/2 γνωστή µη κανονική µεγάλο z x µ σ/ N(0, 1) x ± z σ 1 α/2 γνωστή µη κανονική µικρό άγνωστη µεγάλο z x µ s/ N(0, 1) x ± z s 1 α/2 άγνωστη κανονική µικρό t x µ s/ t 1 x ± t s 1,1 α/2 άγνωστη µη κανονική µικρό Πίνακας 2.1: Εκτίµηση του διαστήµατος εµπιστοσύνης της µ ανάλογα µε τη γνώση της διασποράς και κατανοµής της τ.µ. X και το µέγεθος του δείγµατος. Εύρος διαστήµατος εµπιστοσύνης Πολλές φορές πριν να κάνουµε το πείραµα και συλλέξουµε τις µετρήσεις προκαθορίζουµε ένα συγκεκριµένο εύρος για το δ.ε. ή Ϲητάµε το εύρος του δ.ε. να µην ξεπερνάει κάποιο ανώτατο όριο για να έχουν νόηµα τα αποτελέσµατα. Για να το πετύχουµε αυτό χωρίς να αλλάξουµε τη σηµαντικότητα των στατιστικών αποτελεσµάτων, ϐρίσκουµε το µέγεθος του δείγµατος που µας δίνει αυτό το εύρος του δ.ε. Αυτό υπολογίζεται ϑέτοντας το εύρος του δ.ε. ίσο µε την τιµή που Ϲητάµε και λύνοντας την εξίσωση ως προς το. Για παράδειγµα, ας υποθέσουµε πως το δείγµα είναι µικρό και η τ.µ. X ακολουθεί κανονική κατανοµή µε άγνωστη διασπορά, χρησιµοποιούµε δηλαδή τη σχέση (2.11) για να υπολογίσουµε το δ.ε. της µέσης τιµής µ. Το εύρος του δ.ε. είναι w = 2 t 1,1 α/2 s (2.12)

34 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ και λύνοντας ως προς ϐρίσκουµε ότι για να είναι το εύρος του δ.ε. ίσο µε w πρέπει το δείγµα να έχει µέγεθος ( = 2 t 1,1 α/2 s ) 2. (2.13) w Στην παραπάνω σχέση η τιµή t 1,1 α/2 δεν είναι γνωστή αϕού το είναι άγνωστο και Ϲητούµενο. Θα πρέπει λοιπόν να χρησιµοποιήσουµε την τιµή t 1,1 α/2 που συµϕωνεί καλύτερα µε το αποτέλεσµα για το από την (2.13). Αν το παίρνει µεγάλες τιµές το παραπάνω πρόβληµα δεν υϕίσταται αϕού για µεγάλα η κρίσιµη τιµή t 1,1 α/2 είναι πρακτικά ίδια µε την αντίστοιχη κρίσιµη τιµή της τυπικής κανονικής κατανοµής z 1 α/2. Άρα για µεγάλο η σχέση (2.13) δίνεται ως ( = 2 z 1 α/2 s ) 2. (2.14) w Παράδειγµα 2.11. Στο προηγούµενο παράδειγµα για το πορώδες ηλίου σε γαιάνθρακα υπολογίσαµε το 95% δ.ε. του µέσου πορώδους ηλίου κάνοντας χρήση της κατανοµής studet και ϐρήκαµε ότι είναι (σε ποσοστό) [5.42, 5.92]. Το εύρος του δ.ε. είναι w = 5.92 5.42 = 0.50. Αν ϑέλουµε να το µειώσουµε στο µισό (δηλαδή σε w = 0.25) τότε αντί για 25 δοκίµια πρέπει να χρησιµοποιήσουµε 2 0.375 = 2 1.96 = 92.2 93, 0.25 δηλαδή πρέπει να αυξήσουµε το δείγµα σε 93 δοκίµια. 2.2.2 ιάστηµα εµπιστοσύνης της διασποράς σ 2 Οπως για να ϐρούµε διάστηµα εµπιστοσύνης για τη µέση τιµή µ ορίσαµε πρώτα την κατανοµή της εκτιµήτριας x έτσι και για να ϐρούµε διάστηµα εµπιστοσύνης για τη διασπορά σ 2 ορίζουµε πρώτα την κατανοµή της αµερόληπτης εκτιµήτριας s 2 της σ 2 (π.χ. από τη σχέση (2.4)). Γνωρίζουµε ότι η χ 2 ( 1)s2 ακολουθεί την κατανοµή X 2 µε 1 ϐαθµούς ελευθερίας σ 2 χ 2 ( 1)s2 σ 2 X 2 1. Στο Σχήµα 2.5 παρουσιάζεται η µορϕή της κατανοµής X 2 για χαρακτηριστικούς ϐαθµούς ε- λευθερίας. Για λίγους ϐαθµούς ελευθερίας η κατανοµή X 2 είναι αρκετά λοξή και γίνεται πιο συµµετρική καθώς αυξάνουν οι ϐαθµοί ελευθερίας. Για δοθείσα πιθανότητα 1 α µπορούµε να ϐρούµε από τον στατιστικό πίνακα για τη κατανοµή X 2 τις δύο κρίσιµες τιµές χ 2 και 1,α/2 χ2 για τις οποίες ισχύει 1,1 α/2 P(χ 2 1,α/2 < χ2 < χ 2 1,1 α/2 ) = 1 α. (2.15) Επειδή η X 2 δεν είναι συµµετρική έχουµε δύο κρίσιµες τιµές : την αριστερή κρίσιµη τιµή χ 2 που είναι τέτοια ώστε 1,α/2 P(χ2 < χ 2 ) = α/2 και τη δεξιά κρίσιµη τιµή 1,α/2 χ2 που 1,1 α/2 είναι τέτοια ώστε P(χ 2 < χ 2 ) = 1 α/2. [Οι δείκτες α/2 και 1 α/2 των κρίσιµων τιµών 1,1 α/2 είναι κι οι τιµές της αντίστοιχης αθροιστικής συνάρτησης κατανοµής.] Στο Σχήµα 2.6 παρουσιάζεται η κατανοµή X 2 για 1 = 24 ϐαθµούς ελευθερίας καθώς κι οι κρίσιµες τιµές της για 1 α = 0.95.

2.2. ΕΚΤΙΜΗΣΗ ΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ 35 0.18 0.16 0.14 X 2 5 0.12 0.1 f X (x) 0.08 0.06 0.04 0.02 X 2 24 X 2 50 0 0 20 40 60 80 x Σχήµα 2.5: Συνάρτηση πυκνότητας πιθανότητας για την κατανοµή X 2 µε 5, 24 και 50 ϐαθµούς ελευθερίας. 0.06 0.05 X 2 24 0.04 f X (x) 0.03 0.02 0.01 X 2 24,0.025 = 12.4 X 2 24,0.975 =39.4 0 0 10 20 30 40 50 60 x Σχήµα 2.6: Συνάρτηση πυκνότητας πιθανότητας για την κατανοµή X 2 µε 24 ϐαθµούς ελευθε- ϱίας κι η δεξιά κι αριστερή κρίσιµη τιµή της για 1 α = 0.95. Στη σχέση (2.15), λύνοντας τις δύο ανισότητες χ 2 1,α/2 < ( 1)s2 σ 2 χ 2 1,1 α/2 ως προς σ 2 ϐρίσκουµε το (1 α)% διάστηµα εµπιστοσύνης για τη σ 2 ( 1)s2 ( 1)s2,, (2.16) χ 2 1,1 α/2 χ 2 1,α/2 όπου η δειγµατική διασπορά s 2 υπολογίζεται από το δείγµα των παρατηρήσεων. Το 95% δ.ε. για την τυπική απόκλιση σ έχει σαν άκρα τις τετραγωνικές ϱίζες των αντίστοιχων άκρων του 95% δ.ε. για τη διασπορά σ 2. Παράδειγµα 2.12. Από τα δεδοµένα για το πορώδες ηλίου γαιάνθρακα ενός κοιτάσµατος Α του Πίνακα 1.3 ϑέλουµε να εκτιµήσουµε τη διασπορά σ 2 του πορώδους ηλίου. Η σηµειακή εκτίµηση

36 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ϐρέθηκε να είναι (σε ποσοστά) s 2 = 0.375. Για 1 = 24 και α = 0.05 από τον στατιστικό πίνακα για τη X 2 ϐρίσκουµε χ 2 = 24, 0.025 12.4 και χ2 24, 0.975 = 39.4 (δες Σχήµα 2.6). Το 95% διάστηµα εµπιστοσύνης για τη σ 2 είναι [ 24 0.375 24 ] 0.375, = [0.228, 0.726]. 39.4 12.4 Το 95% δ.ε. για την τυπική απόκλιση σ του πορώδους ηλίου είναι [ 0.228, 0.726] = [0.478, 0.852]. Στο παραπάνω παράδειγµα παρατηρούµε ότι η εκτίµηση s 2 = 0.375 είναι πιό κοντά στο αριστερό άκρο του διαστήµατος εµπιστοσύνης. Γενικά το διάστηµα εµπιστοσύνης για τη διασπορά σ 2 δεν είναι συµµετρικό ως προς τη σηµειακή εκτίµηση s 2 κι αυτό γιατί η κατανοµή X 2 δεν είναι συµµετρική όπως είναι η κανονική κατανοµή κι η κατανοµή studet. Οσο µεγαλώνουν όµως οι ϐαθµοί ελευθερίας (δηλαδή το µέγεθος δείγµατος) η X 2 κατανοµή προσεγγίζει την κανονική κατανοµή (δες Σχήµα 2.5). Γι αυτό για πολύ µεγάλα δείγµατα το διάστηµα εµπιστοσύνης µπορεί να υπολογισθεί κι από άλλο τύπο που περιέχει κρίσιµες τιµές της τυπικής κανονικής κατανοµής. 2.2.3 ιάστηµα εµπιστοσύνης της αναλογίας p Σε αρκετά προβλήµατα τα δεδοµένα δεν είναι αριθµητικές τιµές µιας τ.µ. του πληθυσµού αλλά δυαδικές τιµές, δηλαδή κάποιο στοιχείο του πληθυσµού έχει µια ιδιότητα (επιτυχία ή 1) ή δεν την έχει (αποτυχία ή 0). Ο λόγος των στοιχείων του πληθυσµού που πληρούν την ιδιότητα προς το σύνολο όλων των στοιχείων του πληθυσµού λέγεται αναλογία p. [Η αναλογία p είναι η πιθανότητα επιτυχίας σε µια δοκιµή όταν αναϕερόµαστε σε ακολουθίες Beroulli.] Ενα παράδειγµα είναι η αναλογία κοριτσιών στις Πολυτεχνικές Σχολές της Ελλάδας ή η αναλογία σκουριασµένων ϱάβδων χάλυβα σε µια αποθήκη. Σε πολλές περιπτώσεις ϑέλουµε να εκτιµήσουµε την αναλογία p από ένα δείγµα µεγέθους. Η σηµειακή εκτίµηση της p είναι απλά ˆp = m, ο λόγος των επιτυχίων m στο δείγµα προς το πλήθος των στοιχείων του δείγµατος. Γνωρίζουµε ότι για µεγάλο η κατανοµή της εκτιµήτριας ˆp είναι κανονική µε µέση τιµή E(ˆp) = p και διασπορά Var(ˆp) = p(1 p), δηλαδή ισχύει p(1 p) ˆp N(p, ). Ακολουθώντας την ίδια διαδικασία όπως για τη µέση τιµή µε γνωστή διασπορά, µε τη ϐοήθεια του µετασχηµατισµού ˆp p z p(1 p)/ καταλήγουµε στο διάστηµα εµπιστοσύνης για την αναλογία p p(1 p) ˆp ± z 1 α/2. Αντικαθιστώντας στο τυπικό σϕάλµα την αναλογία p µε την δειγµατική αναλογία ˆp έχουµε το διάστηµα εµπιστοσύνης για την p από το δείγµα ˆp(1 ˆp) ˆp ± z 1 α/2. (2.17)

2.2. ΕΚΤΙΜΗΣΗ ΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ 37 Το εύρος του δ.ε. της αναλογίας p είναι w = 2 z 1 α/2 Λύνοντας την παραπάνω σχέση ως προς ϐρίσκουµε ( 2 z1 α/2 ) 2 = ˆp(1 ˆp). w ˆp(1 ˆp). (2.18) Πριν από τη µελέτη του δείγµατος δε γνωρίζουµε την εκτίµηση της αναλογίας p. Άρα από την παραπάνω σχέση δε µπορούµε να ϐρούµε τον αριθµό των παρατηρήσεων που ϑα χρειαστούµε για να υπολογίσουµε δ.ε. της p εύρους w. Μπορεί να δειχθεί όµως πως η µέγιστη τιµή που µπορεί να πάρει η έκϕραση ˆp(1 ˆp) είναι 0.25. Άρα το µέγεθος δείγµατος που χρειαζόµαστε για να εξασϕαλίσουµε µέγιστο εύρος w του δ.ε. είναι ( 2z1 α/2 ) 2 ( z1 α/2 ) 2 = 0.25 =. (2.19) w w Παράδειγµα 2.13. Για να εκτιµήσουµε την αναλογία σκουριασµένων ϱαβδών χάλυβα µιας αποθήκης πήραµε ένα δείγµα από = 100 ϱάβδους και ϐρήκαµε m = 12 σκουριασµένες. Η σηµειακή εκτίµηση για την αναλογία p των σκουριασµένων ϱαβδών είναι ˆp = 12 = 0.12. 100 Το 95% διάστηµα εµπιστοσύνης είναι (z 1 α/2 = z 0.975 = 1.96) 0.12 (1 0.12) 0.12 ± 1.96 [0.056, 0.184]. 100 Αρα σε 95% επίπεδο εµπιστοσύνης και µε ϐάση το δείγµα µας µπορούµε να πούµε ότι το διάστηµα [0.056, 0.184] ϑα περιέχει την πραγµατική αναλογία σκουριασµένων ϱαβδών χάλυβα, την οποία ϑα µπορούσαµε να τη ϐρούµε αν καταµετρούσαµε όλες τις ϱάβδους στην αποθήκη. Εστω ότι ϑέλουµε να εκτιµήσουµε το διάστηµα εµπιστοσύνης της αναλογίας p των σκουριασµένων ϱαβδών στο ίδιο επίπεδο εµπιστοσύνης 95% αλλά µε µικρότερο εύρος w = 0.05 (ή αν αναϕερόµαστε σε ποσοστά το εύρος να είναι 5 εκατοστιαίες µονάδες). Από την σχέση (2.19) ϐρίσκουµε ότι το µέγιστο µέγεθος του δείγµατος που ϑα χρειαστούµε είναι (αντικαθιστώντας τις τιµές z 1 α/2 = z 0.975 = 1.96 και w = 0.05) ( 1.96 ) 2 = = 1536.6 1537, 0.05 δηλαδή για να µειώσουµε το εύρος του 95% δ.ε. της αναλογίας σκουριασµένων ϱαβδών περίπου κατά το 1/3 πρέπει να αυξήσουµε το µέγεθος του δείγµατος πάνω από 15 φορές. 2.2.4 ιάστηµα εµπιστοσύνης της διαϕοράς δύο µέσων τιµών µ 1 µ 2 Θέλουµε να εκτιµήσουµε τη διαϕορά των µέσων τιµών µ 1 και µ 2 δύο ανεξάρτητων τ.µ. X 1 και X 2 έχοντας δύο δείγµατα µεγέθους 1 και 2 από τον πληθυσµό της X 1 και τον πληθυσµό της X 2 αντίστοιχα. Η σηµειακή εκτίµηση της διαϕοράς µ 1 µ 2 είναι απλά η διαϕορά των δειγµατικών µέσων τιµών x 1 x 2. Για το διάστηµα εµπιστοσύνης της διαϕοράς µ 1 µ 2 πρέπει να ελέγξουµε την κατανοµή της εκτιµήτριας x 1 x 2, όπως κάναµε στην εκτίµηση διαστήµατος εµπιστοσύνης για τη µέση τιµή µ.

38 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ Γνωστές διασπορές Θεωρούµε ότι γνωρίζουµε τις διασπορές σ 2 1 και σ2 2 των X 1 και X 2. Υπο- ϑέτουµε επίσης ότι το δείγµα είναι αρκετά µεγάλο ή η κατανοµή των X 1 και X 2 είναι κανονική. Τότε η εκτιµήτρια x 1 x 2 ακολουθεί κανονική κατανοµή µε µέση τιµή µ 1 µ 2 και διασπορά σ 2 1 1 + σ2 2 2. Αν οι X 1 και X 2 είναι οµοσκεδαστικές, δηλαδή σ 2 = 1 σ2 = 2 σ2, τότε η διασπορά είναι σ 2 ( 1 1 + 1 2 ). Η διαδικασία είναι ίδια όπως για την εύρεση του διαστήµατος εµπιστοσύνης για τη µέση τιµή µ αν κάνουµε τις παρακάτω αντικαταστάσεις : εκτιµήτρια x x 1 x 2 µέση τιµή εκτιµήτριας µ µ 1 µ 2 διασπορά εκτιµήτριας σ 2 σ2 1 1 + σ2 2 2. Εποµένως το διάστηµα εµπιστοσύνης της διαϕοράς µ 1 µ 2 είναι σ 2 1 ( x 1 x 2 ) ± z 1 α/2 + σ2 2. (2.20) 1 2 Στην πράξη, όταν εκτιµάµε το διάστηµα εµπιστοσύνης της διαϕοράς µ 1 µ 2 είναι γιατί ϑέλουµε να διαπιστώσουµε αν κατά µέσο όρο η µια τ.µ. είναι διαϕορετική (µεγαλύτερη ή µικρότερη) από την άλλη και αν ναι να εκτιµήσουµε το µέγεθος αυτής της διαϕοράς. Το διάστηµα εµπιστοσύνης λοιπόν το ερµηνεύουµε ως εξής : Αν περιέχει το µηδέν τότε δε µπορούµε να πούµε ότι οι µέσες τιµές των τ.µ. X 1 και X 2 διαφέρουν για το επίπεδο εµπιστοσύνης που χρησιµοποιήσαµε και µε ϐάση τα συγκεκριµένα δεδοµένα. Αν είναι ϑετικό τότε µπορούµε να πούµε πως για το επίπεδο εµπιστοσύνης που χρησιµοποιήσαµε η τ.µ. X 1 είναι κατά µέσο όρο µεγαλύτερη από τη X 2 κατά ένα ποσό που κυµαίνεται στα όρια του διαστήµατος που εκτιµήσαµε. Ανάλογα ερµηνεύουµε το διάστηµα εµπιστοσύνης όταν είναι αρνητικό. Παράδειγµα 2.14. Ενδιαϕερόµαστε να διαπιστώσουµε αν το πορώδες ηλίου του γαιάνθρακα ενός κοιτάσµατος Α είναι κατά µέσο όρο διαϕορετικό από αυτό ενός άλλου κοιτάσµατος Β. Γι αυτό ϑέλουµε να εκτιµήσουµε το 95% διάστηµα εµπιστοσύνης για τη διαϕορά των µέσων τιµών µ 1 και µ 2 του πορώδες ηλίου σε γαιάνθρακα του κοιτάσµατος Α και Β αντίστοιχα. ίνεται ότι η διασπορά είναι κοινή και γνωστή και είναι σ 2 = 0.38. Στον Πίνακα 1.3 έχουµε 25 µετρήσεις του πορώδους ηλίου του γαιάνθρακα από το κοίτασµα Α και 20 από το κοίτασµα Β. Στο Παράδειγµα 2.9 είδαµε µε τη ϐοήθεια ιστογράµµατος (Σχήµα 1.2) και ϑηκογράµµατος (Σχήµα 2.2) πως το πορώδες ηλίου του γαιάνθρακα από το κοίτασµα Α ϑα µπορούσε να ακολουθεί κανονική κατανοµή. Από το ιστόγραµµα και το ϑηκόγραµµα του Σχή- µατος 2.7 µπορούµε να πούµε το ίδιο και για το πορώδες ηλίου του γαιάνθρκα από το κοίτασµα Β. Αρα µπορούµε να υποθέσουµε πως οι τ.µ. του πορώδους ηλίου X 1 και X 2 και για τους δύο πληθυσµούς, δηλαδή τους γαιάνθρακες από τα δύο κοιτάσµατα, ακολουθούν κανονική κατανο- µή. Συγκρίνοντας τα ϑηκογράµµατα για τα κοιτάσµατα Α και Β (δες Σχήµα 2.2) φαίνεται ότι η κεντρική τάση (εδώ διάµεσος) του ποσοστού πορώδους ηλίου για το γαιάνθρκα του κοιτάσµατος Β είναι χαµηλότερη από αυτή για το κοίτασµα Α, αλλά ίσως όχι σηµαντικά αϕού οι δύο ϑήκες

2.2. ΕΚΤΙΜΗΣΗ ΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ 39 6 Iστoγραµµα pioρωδoυς ηλιoυ για κoιτασµα B 7 Θηκoγραµµα πoρωδoυς ηλιoυ για τα 2 κoιτασµατα 5 6.5 συχνoτητα 4 3 2 6 5.5 5 1 4.5 0 4 4.5 5 5.5 6 6.5 7 ευρoς A B Σχήµα 2.7: Ιστόγραµµα των δεδοµένων του πορώδους ηλίου (σε ποσοστά) του γαιάνθρακα από το κοίτασµα Β του Πίνακα 1.3 και ϑηκογράµµατα των δεδοµένων του πορώδες ηλίου του γαιάνθρακα από τα δύο κοιτάσµατα. (τα διαστήµατα των 50% κεντρικών τιµών του κάθε δείγµατος) επικαλύπτονται σε µεγάλο ϐαθµό. Στη συνέχεια ϑα εξετάσουµε αν αυτή η διαϕορά είναι στατιστικά σηµαντική κάνοντας χρήση του διαστήµατος εµπιστοσύνης της µ 1 µ 2. Οι δειγµατικές µέσες τιµές υπολογίζονται σε x 1 = 5.67 και x 2 = 5.38. Η διαϕορά τους είναι x 1 x 2 = 0.29. Από τη σχέση (2.20), όπου z 1 α/2 = z 0.975 = 1.96 και σ 2 1 = σ2 2 = σ2 = 0.38 ϐρίσκουµε ότι το 95% διάστηµα εµπιστοσύνης είναι ( 1 0.29 ± 1.96 0.38 25 + 1 ) 20 [ 0.073, 0.653]. Συµπεραίνουµε λοιπόν πως σε επίπεδο εµπιστοσύνης 95% δε µπορούµε να πούµε πως τα δύο κοιτάσµατα γαιάνθρακα διαϕέρουν σηµαντικά ως προς το πορώδες ηλίου. Το διάστηµα [ 0.073, 0.653] περιέχει έστω και οριακά το 0 και δε µας επιτρέπει να συµπεράνουµε στατιστικά σηµαντική διαφορά. Για τέτοια οριακά αποτελέσµατα η µόνη λύση είναι να αυξήσουµε τα δείγµατα και να κάνουµε πάλι την εκτίµηση. Αγνωστες διασπορές Συνήθως όταν δε γνωρίζουµε τις µ 1, µ 2 αγνοούµε και τις σ 2 1, σ2 2. Οταν το δείγµα είναι µεγάλο ( > 30) µπορούµε να αντικαταστήσουµε στη σχέση (2.20) τις σ 2 1, σ2 2 µε τις δειγµατικές διασπορές s 2 1, s2 2 και να εκτιµήσουµε έτσι το διάστηµα εµπιστοσύνης για τη διαϕορά µ 1 µ 2. Οταν όµως το µέγεθος του ενός ή και των δύο δειγµάτων είναι µικρό η εκτίµηση του διαστήµατος εµπιστοσύνης είναι πιο περίπλοκη. Στην περίπτωση που οι κατανοµές των X 1 και X 2 δε δίνονται (ή φαίνονται από τα δεδοµένα) να είναι κανονικές, δε µπορούµε γενικά να προσδιορίσουµε την κατανοµή της διαϕοράς x 1 x 2 για να εκτιµήσουµε έτσι το διάστηµα εµπιστοσύνης. Σε µια τέτοια περίπτωση πρέπει να καταϕύγουµε σε µή-παραµετρική εκτίµηση. Στη συνέχεια υποθέτουµε πως οι κατανοµές των X 1 και X 2 είναι κανονικές κι επιπλέον οµοσκεδαστικές (σ 2 1 = σ2 2 = σ2 ). Σ αυτήν την περίπτωση ορίζουµε πρώτα τη δειγµατική κοινή

40 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ διασπορά s 2 ως συνάρτηση των s 2 1 και s2 2 s 2 = ( 1 1)s 2 + 1 ( 2 1)s 2 2. (2.21) 1 + 2 2 Μπορεί να δειχθεί ότι η s 2 είναι αµερόληπτη εκτιµήτρια της κοινής διασποράς σ 2. Με τη ϐοήθεια της s 2 η εκτίµηση της διασποράς της διαϕοράς x 1 ( x 2 είναι s 2 1 1 + 1 2 ). Για την εκτι- µήτρια x 1 x 2 µπορούµε να ορίσουµε τον παρακάτω µετασχηµατισµό που ακολουθεί κατανοµή studet µε 1 + 2 2 ϐαθµούς ελευθερίας t ( x 1 x 2 ) (µ 1 µ 2 ) t 1+2 2 1 s 1 + 1 2 από το οποίο προκύπτει πως το (1 α)% διάστηµα εµπιστοσύνης της διαϕοράς µ 1 µ 2 είναι 1 ( x 1 x 2 ) ± t 1 + 2 2,1 α/2 s + 1. (2.22) 1 2 Παράδειγµα 2.15. Για το προηγούµενο παράδειγµα ας υποθέσουµε πως η διασπορά του πορώδους ηλίου του γαιάνθρακα είναι άγνωστη και για τα δύο κοιτάσµατα. Από τα δύο ιστογράµµατα στα Σχήµατα 1.2 και 2.7 καθώς και τα ϑηκογράµµατα στο Σχήµα 2.7 µπορούµε να δεχτούµε οτι οι τ.µ. του πορώδους ηλίου του γαιάνθρακα κι από τα δύο κοιτάσµατα ακολουθούν κανονική κατανοµή και µάλιστα έχουν την ίδια διασπορά (το εύρος των τιµών των δύο δειγµάτων είναι πε- ϱίπου το ίδιο). [Τα ϑηκογράµµατα δείχνουν κάποια διαϕορά στη διασπορά των τιµών του πορώδους ηλίου µεταξύ των δύο κοιτασµάτων αλλά για να αποκλείσουµε ότι οι διασπορές µπορεί να είναι ίσες ϑα πρέπει η µια ϑήκη να είναι τουλάχιστον διπλάσια της άλλης.] εχόµαστε λοιπόν ότι η κατανοµή του ποσοστού πορώδους ηλίου του γαιάνθρακα και για τα δύο κοιτάσµατα είναι κανονική, οι διασπορές είναι ίδιες και επειδή επιπλέον τα δείγµατα είναι σχετικά µικρά συµπεραίνουµε ότι η διαϕορά x 1 x 2 ακολουθεί κατανοµή studet. Η δειγµατική διασπορά του πορώδες ηλίου του γαιάνθρακα από το κοίτασµα Α είναι s 2 = 1 0.375 και από το κοίτασµα Β είναι s 2 2 = 0.326 (σχετικά κοντά). Εϕαρµόζοντας τη σχέση (2.21) ϐρίσκουµε ότι η δειγµατική κοινή διασπορά είναι s 2 = 0.353 κι εποµένως s = 0.594 (όπου 1 = 25 και 2 = 20). Οι ϐαθµοί ελευθερίας είναι 1 + 2 2 = 43 και για επίπεδο εµπιστοσύνης 95% ϐρίσκουµε από τον στατιστικό πίνακα για την κατανοµή studet την κρίσιµη τιµή t 43, 0.975 = 2.02 (πολύ κοντά στην αντίστοιχη κρίσιµη τιµή z 0.975 = 1.96 της τυπικής κανονικής κατανοµής γιατί οι ϐαθµοί ελευθερίας είναι πολλοί). Το 95% διάστηµα εµπιστοσύνης είναι ( x 1 x 2 = 0.29) 0.29 ± 2.02 0.594 1 25 + 1 20 [ 0.07, 0.65]. Οπως και πριν που η διασπορά ήταν γνωστή δε µπορούµε να πούµε πως οι µέσες τιµές για το πορώδες ηλίου του γαιάνθρακα από τα δύο κοιτάσµατα διαϕέρουν µε στατιστική σηµαντικότητα. Παρατηρήσεις Οι παράγοντες που επηρεάζουν τον υπολογισµό του διαστήµατος εµπιστοσύνης της µ 1 µ 2 είναι οι ίδιες όπως για τη µ. Σ αυτές προστίθεται και ο παράγοντας της ισότητας των διασπορών των X 1 και X 2. Στον Πίνακα 2.2 συνοψίζεται η εκτίµηση του διαστήµατος εµπιστοσύνης της

2.2. ΕΚΤΙΜΗΣΗ ΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ 41 διασπορές κατανοµή 1, 2 κατανοµή της x 1 x 2 διάστηµα εµπιστοσύνης των X 1,X 2 των X 1,X 2 γνωστές κανονική z ( x 1 x 2 ) (µ 1 µ 2 ) N(0, 1) ( x 1 x 2 ) ± z 1 α/2 σ 1 2 + σ2 2 1 2 γνωστές γνωστές άγνωστες άνισες/ίσες άγνωστες ίσες άγνωστες ίσες άγνωστες άνισες µη κανονική µη κανονική µεγάλα z ( x 1 x 2 ) (µ 1 µ 2 ) N(0, 1) ( x 1 x 2 ) ± z 1 α/2 σ 1 2 + σ2 2 1 2 µικρά σ 2 1 1 + σ2 2 2 σ 2 1 1 + σ2 2 2 µεγάλα z ( x 1 x 2 ) (µ 1 µ 2 ) s N(0, 1) ( x 1 x 2 ) ± z 2 1 1 α/2 s 1 2 + s2 1 + s2 2 2 2 1 2 κανονική µικρά t ( x 1 x 2 ) (µ 1 µ 2 ) µη κανονική s 1 + 1 1 2 t 1 + 2 2 ( x 1 x 2 ) ± t 1 + 2 2,1 α/2s µικρά µικρά 1 1 + 1 2 Πίνακας 2.2: Εκτίµηση του διαστήµατος εµπιστοσύνης της διαϕοράς µ 1 µ 2 ανάλογα µε τη γνώση των διασπορών και κατανοµών των τ.µ. X 1 και X 2 καθώς και των µεγεθών 1 και 2 των αντιστοίχων δειγµάτων. µ 1 µ 2 στις διάϕορες περιπτώσεις. Υπάρχει φανερή αντιστοιχία των περιπτώσεων για το διάστηµα εµπιστοσύνης της µέσης τιµής (Πίνακας 2.1) και για το διάστηµα εµπιστοσύνης της διαϕοράς δύο µέσων τιµών (Πίνακας 2.2, οι έξι πρώτες σειρές). Για τη διαϕορά µέσων τιµών υπάρχει ακόµα η περίπτωση των άνισων κι αγνώστων διασπορών σε συνδιασµό µε µικρά δείγµατα (τελευταία σειρά του Πίνακα 2.2) για την οποία δεν µπορούµε να καθορίσουµε την κατανοµή της εκτιµήτριας x 1 x 2 και απ αυτήν να ϐρούµε το διάστηµα εµπιστοσύνης. Σ αυτήν την περίπτωση ούτε η µη παραµετρική εκτίµηση µπορεί να δώσει διάστηµα εµπιστοσύνης (για τη διάµεσο). Για το διάστηµα εµπιστοσύνης της διαϕοράς µέσων τιµών υποθέσαµε οτι οι τ.µ. X 1 και X 2 είναι ανεξάρτητες. ε ϑα ασχοληθούµε µε την περίπτωση που οι X 1 και X 2 είναι εξαρτηµένες (όταν δηλαδή έχουµε Ϲευγαρωτές παρατηρήσεις) γιατί τέτοια προβλήµατα δεν παρουσιάζονται συχνά στη µηχανική. 2.2.5 ιάστηµα της διαϕοράς δύο αναλογιών p 1 p 2 Η εκτίµηση διαστήµατος εµπιστοσύνης της διαϕοράς δύο αναλογιών p 1 p 2 παρουσιάζεται όταν ϑέλουµε να συγκρίνουµε δύο πληθυσµούς ως προς µια ιδιότητα, δηλαδή αν η αναλογία p 1 των στοιχείων που πληρούν µια ιδιότητα στον ένα πληθυσµό είναι διαϕορετική, κι αν ναι κατά πόσο, από την αντίστοιχη αναλογία p 2 του άλλου πληθυσµού. Για παράδειγµα, ϑέλουµε

42 ΚΕΦΑΛΑΙΟ 2. ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ να δούµε κατά πόσο διαϕέρει η αναλογία κοριτσιών στην Πολυτεχνική Σχολή και στη Φυσικο- µαθηµατική ή ϑέλουµε να διερευνήσουµε αν οι αναλογίες σκουριασµένων ϱαβδών χάλυβα σε δύο αποθήκες διαϕέρουν και κατά πόσο. Η σηµειακή εκτίµηση της διαϕοράς p 1 p 2 δίνεται από τη διαϕορά των ˆp 1 = m 1 1 και ˆp 2 = m 2 2, όπου m 1 είναι το πλήθος επιτυχιών στο δείγµα µεγέθους 1 από τον πρώτο πληθυσµό και m 2 είναι το πλήθος επιτυχιών στο δείγµα µεγέθους 2 από το δεύτερο πληθυσµό. Γνωρίζουµε ότι για µεγάλα 1 και 2 η κατανοµή της εκτιµήτριας ˆp 1 ˆp 2 είναι κανονική µε µέση τιµή E(ˆp 1 ˆp 2 ) = p 1 p 2 και διασπορά Var(ˆp 1 ˆp 2 ) = p 1(1 p 1 ) 1 + p 2(1 p 2 ) 2 κι άρα (ˆp 1 ˆp 2 ) (p 1 p 2 ) z p1 (1 p 1 ) + p N(0, 1). 2(1 p 2 ) 1 2 Αντικαθιστώντας στον τύπο της διασποράς τις άγνωστες αναλογίες p 1 και p 2 µε τις δειγµατικές εκτιµήσεις ˆp 1 και ˆp 2 ϐρίσκουµε το (1 α)% διάστηµα εµπιστοσύνης της διαϕοράς p 1 p 2 (ˆp 1 ˆp 2 ) ± z 1 α/2 ˆp1 (1 ˆp 1 ) 1 + ˆp 2(1 ˆp 2 ) 2. (2.23) Για την εκτίµηση της διασποράς της εκτιµήτριας ˆp 1 ˆp 2, µπορούµε να υποθέσουµε ότι οι αναλογίες p 1 και p 2 δε διαϕέρουν παρά πολύ έτσι ώστε να µπορούµε να χρησιµοποιήσουµε την εκτίµηση της κοινής αναλογίας ˆp που ορίζεται ως ˆp = 1 ˆp 1 + 2 ˆp 2 1 + 2. Τότε η διασπορά της ˆp 1 ˆp 2 δίνεται ως ˆp(1 ˆp)( 1 1 + 1 2 ) και το διάστηµα εµπιστοσύνης της διαϕοράς p 1 p 2 δίνεται από τη σχέση ( 1 (ˆp 1 ˆp 2 ) ± z 1 α/2 ˆp(1 ˆp) + 1 ). (2.24) 1 2 Παράδειγµα 2.16. Για να εκτιµήσουµε αν υπάρχει διαϕορά στο ποσοστό σκουριασµένων ϱα- ϐδών χάλυβα δύο αποθηκών πήραµε ένα δείγµα 100 ϱαβδών από την πρώτη αποθήκη και ϐρήκαµε 12 σκουριασµένες κι ένα δείγµα 120 ϱαβδών από τη δεύτερη αποθήκη και ϐρήκαµε 26 σκουριασµένες. Η εκτίµηση από τα δείγµατα για τις αναλογίες σκουριασµένων ϱαβδών είναι ˆp 1 = 12 = 0.12 100 για την πρώτη αποθήκη και ˆp 2 = 26 = 0.217 για τη δεύτερη αποθήκη. Η διαϕορά είναι 120 ˆp 1 ˆp 2 = 0.097 (σε ποσοστό 9.7%) κι από το 95% διάστηµα εµπιστοσύνης µπορούµε να κρίνουµε αν είναι στατιστικά σηµαντική. Από τη σχέση (2.23) και για z 1 α/2 = 1.96 ϐρίσκουµε 0.12 0.88 0.217 0.783 0.097 ± 1.96 + [ 0.198, 0.004]. 100 120 Το 95% διάστηµα εµπιστοσύνης περιέχει οριακά το µηδέν και γι αυτό συµπεραίνουµε πως µε αυτά τα δείγµατα και σ αυτό το επίπεδο εµπιστοσύνης η δειγµατική διαϕορά των αναλογιών αν και είναι σε ποσοστό περίπου 10% δεν είναι στατιστικά σηµαντική. Φαίνεται όµως το ποσοστό σκου- ϱιασµένων ϱαβδών στη πρώτη αποθήκη να είναι µικρότερο. Ισως ϑα έπρεπε να αυξήσουµε το δείγµα µας και να πάρουµε έτσι στενότερο διάστηµα εµπιστοσύνης για να διαπιστώσουµε αν πράγ- µατι περιέχει το 0 ή όχι, αν δηλαδή η διαϕορά των δύο αναλογιών είναι στατιστικά σηµαντική.