Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις, σημειακή εκτίμηση παραμέτρων και γραμμική παλινδρόμηση Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή

Σχετικά έγγραφα
Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις και σημειακή εκτίμηση παραμέτρων Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή συμπερασμάτων για το σ

X = = 81 9 = 9

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Στατιστική Συμπερασματολογία

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 13 Μαρτίου /31

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική

Στατιστική. Εκτιμητική

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

TMHMA OIKONOMIKΩN ΕΠΙΣΤΗΜΩΝ Διαγώνισμα Προόδου Στατιστικής III

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

A(θ) = n log θ B(x ) = 0. T (x ) = x i. Γ(n)θ n =

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Εισόδημα Κατανάλωση

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Στατιστική Συμπερασματολογία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Στατιστική Επιχειρήσεων ΙΙ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Πιθανότητες και Αρχές Στατιστικής (5η Διάλεξη) Σωτήρης Νικολετσέας, καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαϊκό Ετος

Μέθοδος μέγιστης πιθανοφάνειας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

pdf: X U(a, b) 0, x < a 1 b a, a x b 0, x > b

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Εφαρμοσμένη Στατιστική

(X1 X 2 ) 2}. ( ) f 1 (x i ; θ) = θ x i. (1 θ) n x i. x i log. i=1. i=1 t2 i

Περιεχόμενα 5ης Διάλεξης 1 Ανισότητα Markov 2 Διασπορά 3 Συνδιασπορά 4 Ανισότητα Chebyshev 5 Παραδείγματα Σωτήρης Νικολετσέας, αναπληρωτής καθηγητής 5

CRAMER-RAO ΚΑΤΩ ΦΡΑΓΜΑ - ΑΠΟ ΟΤΙΚΟΙ ΕΚΤΙΜΗΤΕΣ

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

Εκτιμήτριες. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. Ασκήσεις για ΑΕΙ και ΤΕΙ. Kglykos.gr. σε Εκτιμήτριες. μέθοδος ροπών και μέγιστης πιθανοφάνειας

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Απλή Παλινδρόμηση και Συσχέτιση

9. Παλινδρόμηση και Συσχέτιση

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 3η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Μαθηματικά Και Στατιστική Στη Βιολογία

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΙΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ, ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Είδη Μεταβλητών. κλίµακα µέτρησης

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Χ. Εμμανουηλίδης, 1

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Εφαρμοσμένη Στατιστική

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΞΕΤΑΣΕΙΣ ΣΤΟ ΜΑΘΗΜΑ ΠΙΘΑΝΟΤΗΤΕΣ ΣΤΑΤΙΣΤΙΚΗ ΤΜΗΜΑΤΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΙΟΥΝΙΟΥ ( ) ΟΜΑΔΑ Α ( 40% )

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ για τη λήψη αποφάσεων

Στατιστική Επιχειρήσεων ΙΙ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

P (A B) = P (AB) P (B) P (A B) = P (A) P (A B) = P (A) P (B)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Πολλαπλή παλινδρόμηση (Multivariate regression)

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Θεωρία Πιθανοτήτων & Στατιστική

Κεφάλαιο 1. Εισαγωγή: Βασικά Στοιχεία Θεωρίας Πιθανοτήτων και Εκτιμητικής

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

Όταν η s n δεν συγκλίνει λέμε ότι η σειρά αποκλίνει.

Αριθμητική Ανάλυση και Εφαρμογές

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

Διάστημα εμπιστοσύνης της μέσης τιμής

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Τυχαία μεταβλητή (τ.μ.)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

(p 1) (p m) (m 1) (p 1)

Εισαγωγή στην Εκτιμητική

E [X ν ] = E [X (X 1) (X ν + 1)]

Διαχείριση Υδατικών Πόρων

Στατιστική Επιχειρήσεων Ι

3. Κατανομές πιθανότητας

Απλή Γραμμική Παλινδρόμηση I

Transcript:

Πιθανότητες και Αρχές Στατιστικής (10η Διάλεξη) Σωτήρης Νικολετσέας, καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαϊκό Ετος 2017-2018 Σωτήρης Νικολετσέας, καθηγητής 1 / 48

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις, σημειακή εκτίμηση παραμέτρων και γραμμική παλινδρόμηση Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού με βάση ένα (σχετικά μικρό) τυχαίο υποσύνολό του (δείγμα) - Γίνεται μελέτη των δειγματικών δεδομένων και επαγωγή τους στον (γεννήτορα) πληθυσμό (στατιστική επαγωγή), με μια ορισμένη πιθανότητα εμπιστοσύνης στην επιτυχία αυτής της επαγωγικής διαδικασίας. Αντιθέτως, η θεωρία Πιθανοτήτων είναι εγγενώς απαγωγική, δηλαδή ουσιαστικά γνώση για τον πληθυσμό (όλον) μεταφέρεται (απάγεται) στο τυχαίο δείγμα (μέρος). Παράδειγμα: - πιθανοθεωρία: ξέρω ότι ο χρόνος ζωής λαμπτήρων ακολουθεί εκθετική κατανομή με παράμετρο λ, και υπολογίζω την πιθανότητα συγκεκριμένων χρόνων ζωής σε κάποιους λαμπτήρες. - στατιστική επαγωγή: ξέρω ότι οι λαμπτήρες έχουν εκθετικά κατανεμημένο χρόνο ζωής, χωρίς να ξέρω την παράμετρο λ, και συμπεραίνω την λ από τους πραγματικούς χρόνους ζωής σε ένα τυχαίο δείγμα λαμπτήρων. Σωτήρης Νικολετσέας, καθηγητής 2 / 48

Βασικές μέθοδοι στατιστικής συμπερασματολογίας Σημειακές εκτιμήσεις: Στόχος είναι η κατασκευή μιας εκτίμησης για μία τιμή (δηλαδή ένα σημείο και όχι ένα διάστημα της άγνωστης παραμέτρου), μαζί με τον υπολογισμό του σφάλματος. Παράδειγμα: η εκτίμηση της παραμέτρου λ για τον (εκθετικά κατανεμημένο) χρόνο ζωής λαμπτήρων Διαστήματα εμπιστοσύνης: Αντί για μια τιμή, αναζητούμε ένα φάσμα τιμών (διάστημα). Αυτό είναι ιδιαίτερα χρήσιμο όταν το δείγμα είναι μικρό ή/και όταν το σφάλμα εκτίμησης είναι σχετικά μεγάλο. Παράδειγμα: οι φυσιολογικές τιμές ιατρικών εξετάσεων, το αποδεκτό εύρος τιμών κατά τη μέτρηση αστικών ρύπων Ελεγχοι στατιστικών υποθέσεων: ελέγχεται αν μια πρόταση αναφορικά με κάποιο χαρακτηριστικό ενός πληθυσμού είναι σωστή Σωτήρης Νικολετσέας, καθηγητής 3 / 48

Σημειακές Εκτιμήσεις Σε αυτή τη διάλεξη θα ασχοληθούμε με σημειακές εκτιμήσεις. Η σημειακή εκτίμηση γίνεται μέσω εύρεσης και αξιολόγησης εκτιμητριών συναρτήσεων. Μέθοδοι εύρεσης εκτιμητριών συναρτήσεων: - Μέθοδος ροπών - Μέθοδος ελαχίστων τετραγώνων - Μέθοδος μέγιστης πιθανοφάνειας Βασικά κριτήρια αξιολόγησης εκτιμητριών συναρτήσεων: - αμεροληψία ή εγκυρότητα - αποτελεσματικότητα ή αξιοπιστία - συνέπεια Σωτήρης Νικολετσέας, καθηγητής 4 / 48

Τυχαίο Δείγμα - αντιστοιχία με Θεωρία Πιθανοτήτων Πληθυσμός: ένα σύνολο ανθρώπων, συσκευών κλπ ( στοιχεία ) των οποίων μελετώνται ορισμένα χαρακτηριστικά π.χ. το μηνιαίο εισόδημα των ανθρώπων, η διάρκεια ζωής των λαμπτήρων Σημαντική αντιστοιχία με Θεωρία Πιθανοτήτων: - πληθυσμός συνάρτηση κατανομής F - χαρακτηριστικό τυχαία μεταβλητή X δηλαδή, θεωρούμε ότι η θεωρητική συμπεριφορά του πληθυσμού ακολουθεί κάποια συνάρτηση κατανομής F, και ότι οι συγκεκριμένες τιμές του χαρακτηριστικού σε ένα τυχαίο δείγμα περιγράφονται από μια τυχαία μεταβλητή X που έχει την κατανομή F. Σωτήρης Νικολετσέας, καθηγητής 5 / 48

Πιθανοθεωρητική Επαγωγή και Στατιστική Απαγωγή Αν ξέραμε την F (π.χ. την παράμετρο λ για την εκθετική κατανομή του χρόνου ζωής των λαμπτήρων) θα μπορούσαμε να εκτιμήσουμε πλήρως την πιθανοθεωρητική συμπεριφορά ενός τυχαίου δείγματος π.χ. του χρόνου ζωής X ενός λαμπτήρα. Στην πράξη όμως, δεν ξέρουμε ακριβώς την F (δηλαδή, ξέρουμε ότι είναι εκθετική αλλά αγνοούμε την παράμετρο της λ) και έχουμε μόνο ορισμένες πραγματικές μετρήσεις (δηλαδή τιμές της μεταβλητής X), π.χ. παρατηρούμε τους χρόνους ζωής X 1, X 2,..., X ν από ν λαμπτήρες. Σκοπός μας είναι να εκτιμήσουμε την άγνωστη παράμετρο λ. Σωτήρης Νικολετσέας, καθηγητής 6 / 48

Τυχαίο δείγμα Ορισμός: Αν ένας πληθυσμός έχει συνάρτηση κατανομής F, καλούμε τυχαίο δείγμα του ένα σύνολο ανεξάρτητων τυχαίων μεταβλητών X 1, X 2,..., X ν που όλες ακολουθούν την συνάρτηση κατανομής F. Γράφουμε: X 1, X 2,..., X ν F και καλούμε τον αριθμό ν μέγεθος του δείγματος. Παρατήρηση: Μετά τη δειγματοληψία, οι τ.μ. X 1, X 2,..., X ν παίρνουν συγκεκριμένες τιμές (πραγματικές μετρήσεις) x 1, x 2,..., x ν. Οι στατιστικές μέθοδοι βασίζονται σε αυτές ακριβώς τις μετρήσεις x i. Σωτήρης Νικολετσέας, καθηγητής 7 / 48

Παραμετρική Στατιστική Δύο βασικοί κλάδοι της στατιστικής: Μη παραμετρική: η συνάρτηση κατανομής F είναι εντελώς άγνωστη. Παραμετρική: ξέρουμε ότι η άγνωστη συνάρτηση κατανομής F ανήκει σε μία οικογένεια κατανομών (π.χ. είναι εκθετική με παράμετρο λ) αλλά αγνοούμε την παράμετρο λ (την οποία ακριβώς προσπαθούμε να εκτιμήσουμε). Παρατήρηση: Θα ασχοληθούμε μόνο με μεθόδους παραμετρικής στατιστικής. Σωτήρης Νικολετσέας, καθηγητής 8 / 48

Εκτιμήτριες Συναρτήσεις Εστω τυχαίο δείγμα X 1, X 2,..., X ν από μία συνάρτηση κατανομής F (x; θ) όπου η παράμετρος θ είναι άγνωστη, και την οποία προσπαθούμε να εκτιμήσουμε με βάση το δείγμα. Για το σκοπό αυτό θα χρησιμοποιήσουμε στατιστικές συναρτήσεις (συναρτήσεις ορισμένες στο δείγμα) που καλούνται εκτιμήτριες. Ορισμός: Εστω τυχαίο δείγμα X 1, X 2,..., X ν από τη συνάρτηση κτανομής F = F (x; θ), όπου θ άγνωστη παράμετρος της F. Οποιαδήποτε συνάρτηση T (X): T = T (X 1, X 2,..., X ν ) ορισμένη στο δείγμα χωρίς να εξαρτάται από την άγνωστη παράμετρο θ καλείται εκτιμήτρια συνάρτηση της παραμέτρου. Παρατήρηση: Ακριβώς επειδή η T σκοπεύει στην εκτίμηση της άγνωστης παραμέτρου θ, δεν μπορεί να εξαρτάται από την θ (ή τυχόν άλλες άγνωστες παραμέτρους). Πολλές φορές η T (X) συμβολίζεται με ˆθ και οι αριθμητικές τιμές που παίρνει καλούνται εκτιμήσεις. Σωτήρης Νικολετσέας, καθηγητής 9 / 48

Παράδειγμα Εκτιμητριών Συναρτήσεων Παράδειγμα: Εστω μηχανή που παράγει εξαρτήματα και υποθέτουμε ότι κάθε παραγόμενο εξάρτημα είναι λειτουργικό με πιθανότητα p και ελαττωματικό με πιθανότητα 1 p (που χαρακτηρίζει την ποιότητα της μηχανής), στοχαστικά ανεξάρτητα για τα διάφορα εξαρτήματα. Θέλουμε να εκτιμήσουμε την άγνωστη παράμετρο θ = p επιτυχούς δημιουργίας εξαρτημάτων παρατηρώντας ένα τυχαίο δείγμα X 1, X 2,..., X ν από ν εξαρτήματα. Προφανώς οι X i ακολουθούν την κατανομή Bernoulli: { X 1, X 2,..., X ν b(θ), 0 < θ < 1 1, το i-οστό εξάρτημα είναι λειτουργικό (πιθανότητα θ) όπου X i = 0, το i-οστό εξάρτημα είναι ελαττωματικό (πιθανότητα 1 θ) Μία προφανής εκτιμήτρια συνάρτηση είναι ο μέσος όρος των λειτουργικών προιόντων στο δείγμα: T 1 = X = X 1+X 2 + +X ν ν Άλλες εκτιμήτριες είναι οι T 2 = X ν, T 3 = X 1 X 3 X 4, T 4 = X 3 X 5 X 7, ή ακόμα και η T 5 = 1 (η οποία είναι ουσιαστικά 3 ανεξάρτητη του δείγματος). Ωστόσο οι στατιστικές συναρτήσεις T = 2θ, T = θ X 3 + X θ δεν είναι εκτιμήτριες γιατί εξαρτώνται από την άγνωστη παράμετρο θ. Σωτήρης Νικολετσέας, καθηγητής 10 / 48

Παράδειγμα Εκτιμήτριας Συνάρτησης Παράδειγμα: Εστω ότι οι βαθμολογίες σε μια γραπτή εξέταση ακολουθούν την κανονική κατανομή N(µ, σ 2 ), με μέση τιμή µ (παράμετρος θ 1 ) και διασπορά σ 2 (παράμετρος θ 2 ) που μας είναι άγνωστες και προσπαθούμε να τις συμπεράνουμε δειγματοληπτώντας τυχαία ένα μικρό σύνολο από ν γραπτά των οποίων η βαθμολογία βρίσκεται να είναι X 1, X 2,..., X ν. Εκτιμήτριες για τις άγνωστες παραμέτρους θ 1 και θ 2 είναι οι: T 6 = X = X1+X2+ +Xν ν για την θ 1 = µ και T 7 = S 2 = 1 ν (X i ν 1 X) 2 για την θ 2 = σ 2 i=1 (δηλαδή ο δειγματικός μέσος όρος και η δειγματική διασπορά). Προφανώς η στατιστική συνάρτηση ν T = (X i θ 1 ) i=1 δεν είναι εκτιμήτρια, γιατί εξαρτάται από το άγνωστο θ 1. Σωτήρης Νικολετσέας, καθηγητής 11 / 48

Αμεροληψία Εκτιμητριών Οπως είδαμε, για μια άγνωστη παράμετρο μπορούν να κατασκευαστούν πολλές εκτιμήτριες συναρτήσεις. Αναζητώντας μια κατά το δυνατόν καλή εκτιμήτρια, ένα πρώτο κριτήριο είναι η αμεροληψία. Ορισμός: Μια εκτιμήτρια T καλείται αμερόληπτη για την άγνωστη παράμετρο θ, άν E(T ) = θ για όλες τις δυνατές τιμές της θ. Παρατήρηση: Η T, αφού ορίζεται με βάση τις τ.μ. X i, είναι και αυτή τυχαία μεταβλητή. Η ιδιότητα της αμεροληψίας απαιτεί από μία καλή εκτιμήτρια να στοχεύει την άγνωστη παράμετρο θ, με την έννοια ότι οι τιμές που παίρνει (γύρω από την θ) έχουν μέση τιμή θ. Σωτήρης Νικολετσέας, καθηγητής 12 / 48

Αμεροληψία Εκτιμητριών - Παραδείγματα (Ι) Στο παράδειγμα με τα ελαττωματικά προϊόντα έχουμε: ( ) E(T 1 ) = E( X) X1 + + X ν = E = 1 ν E(X i ) = ν ν = 1 ν ν θ = θ E(T 2 ) = E(X ν ) = θ i=1 E(T 3 ) = E(X 1 X 3 X 4 ) = E(X 1 ) E(X 3 ) E(X 4 ) = = θ θ θ = θ E(T 4 ) = E(X 3 X 5 X 7 ) = E(X 3 )E(X 5 )E(X 7 ) = θ θ θ = θ 3 E(T 5 ) = 1 3 Άρα αμερόληπτες είναι μόνο οι T 1 και T 2. (Ωστόσο, η T 4 είναι αμερόληπτη για την παράμετρο θ 3 ). Σωτήρης Νικολετσέας, καθηγητής 13 / 48

Αμεροληψία Εκτιμητριών - Παραδείγματα (ΙΙ) Στο παράδειγμα με τις βαθμολογίες είναι: ( ) E(T 6 ) = E( X) X1 + + X ν = E = 1 ν ν = 1 ν ν µ = µ = θ 1 [ ] E(T 7 ) = E(S 2 1 ν ) = E (X i ν 1 X) 2 = i=1 = 1 ν E(X i ν 1 X) 2 = σ 2 = θ 2 i=1 ν E(X i ) = Άρα η T 6 είναι αμερόληπτη για την θ 1 (όχι όμως για την θ 2 ) και η T 7 είναι αμερόληπτη για την θ 2 (όχι όμως για την θ 1 ). i=1 Σωτήρης Νικολετσέας, καθηγητής 14 / 48

Παράδειγμα Αν X 1, X 2,..., X ν είναι δείγμα από ομοιόμορφη κατανομή U(0, θ) να βρεθεί αμερόληπτη εκτιμήτρια του θ 2. Λύση Είναι γνωστό ότι η πληθυσμιακή διασπορά της U(0, θ) είναι Var(X) = θ2 12 και επίσης (θεωρούμε γνωστό) ότι η δειγματική διασπορά S 2 = 1 ν ν 1 i=1 (X i X) 2 είναι αμερόληπτη εκτιμήτρια για την πληθυσμιακή διασπορά, δηλαδή E(S 2 ) = θ2 12. Άρα E(12S2 ) = θ 2 και επομένως αν T = 12S 2 τότε E(T ) = θ 2 και άρα η εκτιμήτρια T = 12 ν 1 2 i=1 (Xi X) ν 1 είναι αμερόληπτη για την θ 2. Σωτήρης Νικολετσέας, καθηγητής 15 / 48

Αποτελεσματικότητα ή Αξιοπιστία Εκτιμητριών Συναρτήσεων Είδαμε λοιπόν ότι για μια άγνωστη παράμετρο μπορεί να υπάρχουν πολλές αμερόληπτες εκτιμήτριες. Μεταξύ τους, είναι διαισθητικά σωστό να επιλέξουμε ως καλύτερη εκείνη με τη μικρότερη διασπορά, άρα με υψηλότερη συγκέντρωση, γύρω από τη μέση τιμή που (λόγω της αμεροληψίας) είναι η άγνωστη παράμετρος. Ορισμός: Μεταξύ δύο αμερόληπτων εκτιμητριών T 1 και T 2 για μία άγνωστη παράμετρο θ (οπότε E(T 1 ) = E(T 2 ) = θ) η T 1 θα θεωρείται καλύτερη (αποτελεσματικότερη) από την T 2, ως προς το κριτήριο της ελάχιστης διασποράς, άν για κάθε θ: Var(T 1 ) Var(T 2 ) Παράδειγμα: Στο παράδειγμα με τα ελαττωματικά προϊόντα έχουμε: ( ) Var(T 1 )=Var( X)=Var X1 + + X ν = 1 ν ν ν 2 Var(X i ) = = 1 ν ν θ(1 θ) = θ(1 θ) 2 ν i=1 ενώ Var(T 2 )=Var(X ν )=θ(1 θ), άρα καλύτερη είναι η T 1. Σωτήρης Νικολετσέας, καθηγητής 16 / 48

Εγκυρότητα και Αξιοπιστία Μια εκτιμήτρια δεν αρκεί να έχει μικρή διασπορά για να θεωρείται καλή, πρέπει επιπλέον να είναι αμερόληπτη, δηλαδή οι τιμές που παίρνει να είναι γύρω από την άγνωστη παράμετρο και να έχουν μέση τιμή την παράμετρο θ. Π.χ. στο παράδειγμα με τα ελαττωματικά προϊόντα, η σταθερή εκτιμήτρια (T 5 = 1 3 ) έχει τη μικρότερη δυνατή διασπορά (0). Ωστόσο, δεν είναι αμερόληπτη γιατί στοχεύει πάντα το 1 3 και όχι το άγνωστο θ. Δηλαδή, η αμεροληψία εγγυάται την εγκυρότητα της εκτιμήτριας, υπό την έννοια της αποφυγής θεμελιωδών (συστηματικών) λαθών λόγω της μη στόχευσης της παραμέτρου. Από την άλλη μεριά, οι αποκλίσεις της εκτιμώμενης τιμής από την πραγματική, μπορεί να οφείλονται σε τυχαίες επιδράσεις (μικρή ακρίβεια στην εκτίμηση) λόγω μεγάλης διασποράς των τιμών της εκτιμήτριας συνάρτησης σε σειρά επαναλήψεων της μέτρησης. Τα τυχαία σφάλματα σε πολλαπλές επαναλήψεις περιγράφονται από την ιδιότητα της αξιοπιστίας. Σωτήρης Νικολετσέας, καθηγητής 17 / 48

Εγκυρότητα και Αξιοπιστία Εκτιμητριών Σωτήρης Νικολετσέας, καθηγητής 18 / 48

Κριτήριο μέσου τετραγωνικού σφάλματος Ποσότητα που επιτυγχάνει τον ταυτόχρονο υπολογισμό τόσο της εγκυρότητας όσο και της αξιοπιστίας. Ορισμός: Καλούμε λάθος της εκτιμήτριας, για συγκεκριμένο δείγμα x, την ποσότητα: e(x) = ˆθ(x) θ (προφανώς η ποσότητα αυτή εξαρτάται όχι μόνο από την εκτιμήτρια αλλά και το συγκεκριμένο δείγμα). Ορισμός: Καλούμε μέσο τετραγωνικό σφάλμα (mean square error) τη μέση τιμή του τετραγώνου των λαθών μιας εκτιμήτριας ˆθ: MSE(ˆθ) = E[(ˆθ(x) θ) 2 ] Ορισμός: Για συγκεκριμένο δείγμα x, καλούμε δειγματοληπτική απόκλιση της ˆθ, την ποσότητα: d(x) = ˆθ(x) E(ˆθ(x)) = ˆθ(x) E(ˆθ) Ορισμός: Καλούμε διασπορά της εκτιμήτριας ˆθ, τη μέση τιμή των τετραγώνων των δειγματοληπτικών αποκλίσεων: Var(ˆθ) = E[(ˆθ E(ˆθ)) 2 ] Για αμερόληπτες εκτιμήτριες είναι E(ˆθ) = θ, άρα Var(ˆθ) = E[(ˆθ θ) 2 ] Ορισμός: Καλούμε μεροληψία (bias) της εκτιμήτριας ˆθ την ποσότητα B(ˆθ) = E(ˆθ) θ Σωτήρης Νικολετσέας, καθηγητής 19 / 48

Παρατηρήσεις Είναι: MSE(ˆθ) =Var(ˆθ) + [B(ˆθ)] 2 δηλαδή το μέσο τετραγωνικό σφάλμα μιας εκτιμήτριας είναι ίσο με τη διασπορά της συν το τετράγωνο της μεροληψίας της. Ορισμός: Μεταξύ δυο εκτιμητριών ˆθ 1 και ˆθ 2 για μια άγνωστη παράμετρο θ, η ˆθ 1 θεωρείται καλύτερη της ˆθ 2 ως προς το κριτήριο του ελάχιστου τετραγωνικού σφάλματος, αν MSE(ˆθ 1 ) < MSE(ˆθ 2 ) Παρατήρηση: Αν οι ˆθ 1 και ˆθ 2 είναι αμερόληπτες, τότε B(ˆθ 1 ) = B(ˆθ 2 ) = 0 και το κριτήριο ουσιαστικά συνίσταται στην επιλογή της εκτιμήτριας με μικρότερη διασπορά (δηλαδή της πιο αποτελεσματικής). Σωτήρης Νικολετσέας, καθηγητής 20 / 48

Δύο βασικές εκτιμήτριες: δειγματικός μέσος και δειγματική διασπορά Δειγματικός μέσος: X = X ν = 1 ν X i ν i=1 (πρόκειται επομένως για τον αριθμητικό μέσο των τ.μ. του δείγματος) Δειγματική διασπορά: S 2 = S 2 ν = 1 ν 1 ν (X i X) 2 Θεώρημα: Εστω X 1, X 2,..., X ν τυχαίο δείγμα από την κατανομή F με μέση τιμή µ και διασπορά σ 2. Είναι: E( X) = µ, Var( X) = σ2 ν, E(S2 ) = σ 2. Επίσης, αν µ 4 = E[(X i µ) 4 ] < ( τότε ) Var(S 2 ) = 1 ν µ 4 ν 3 ν 1 σ4 i=1 Σωτήρης Νικολετσέας, καθηγητής 21 / 48

Απόδειξη Είναι: E( X) = E ( 1 ν ν i=1 X ) i = 1 ν ν i=1 E(X i) = 1 ν νµ = µ Επειδή οι X i είναι ανεξάρτητες, η διασπορά έχει γραμμικότητα και: ) = 1 Var( X) =Var ( 1 ν ν i=1 X i Για την S 2 είναι: S 2 = 1 ν i=1 (X i X) 2 = 1 ν ν 2 i=1 Var(X i) = 1 ν νσ 2 = σ2 2 ν ν ν 1 ν 1 i=1 (X2 i 2X X i + X 2 ) = = 1 ν ν 1 i=1 X2 i 2 ν ν 1 i=1 X X i + 1 ν X ν 1 i=1 2 = = 1 ν ν 1 i=1 X2 i 2 X ν ν 1 i=1 X i + 1 ν 1 ν X 2 = = 1 ν ν 1 i=1 X2 i 2 Xν X ν 1 + 1 ν 1 ν X 2 = ( = 1 ν ν 1 i=1 X2 i ν X 2) ( E(S 2 ) = 1 ν ν 1 i=1 E(X2 i ) νe( X 2 ) ) = ( = 1 ν ν 1 i=1 (µ2 + σ 2 ) ν(var( X) + E 2 ( X)) ) = ( ) = 1 ν 1 ν(µ 2 + σ 2 ) νσ2 ν νµ 2 = 1 ν 1 (ν 1)σ2 = σ 2 Σωτήρης Νικολετσέας, καθηγητής 22 / 48

Στοχαστική σύγκλιση τυχαίων μεταβλητών Ορισμός: Λέμε ότι η ακολουθία τ.μ. T ν (ν= 1, 2,... ) συγκλίνει στοχαστικά (ή αλλιώς συγκλίνει κατά πιθανότητα) στο θ ανν lim Pr{ T ν θ ɛ} = 0 ν p για οποιοδήποτε (οσοδήποτε μικρό) ɛ > 0. Γράφουμε T ν θ καθώς ν Με άλλα λόγια, καθώς το ν μεγαλώνει, η T ν πλησιάζει οσοδήποτε θέλουμε την τιμή θ με πολύ μεγάλη πιθανότητα που τείνει στο 1. Σωτήρης Νικολετσέας, καθηγητής 23 / 48

Συνέπεια εκτιμητριών συναρτήσεων Ορισμός: Εστω τυχαίο δείγμα X 1, X 2,..., X ν από την κατανομή F (x; θ) όπου θ είναι άγνωστη παράμετρος και T ν ακολουθία εκτιμητριών συναρτήσεων: T ν = T ν (X 1, X 2,..., X ν ), ν = 1, 2,... Η T ν καλείται συνεπής για την παράμετρο θ αν p θ καθώς ν T ν Με άλλα λόγια, αν χρησιμοποιούμε συνεπή εκτιμήτρια, τότε ɛ > 0 (οσοδήποτε μικρό) είναι lim ν Pr{ T ν θ ɛ} = 0 και επομένως αν πάρουμε ένα καταλλήλως μεγάλο δείγμα πλησιάζουμε πάρα πολύ την πραγματική τιμή της θ. Σωτήρης Νικολετσέας, καθηγητής 24 / 48

Σχέση συνέπειας με αποτελεσματικότητα και αμεροληψία Θεώρημα: Αν T ν αμερόληπτες εκτιμήτριες και Var(T ν ) 0 καθώς ν, τότε η T ν είναι συνεπής. Απόδειξη: Αφού η T ν είναι αμερόληπτη, είναι E(T ν ) = θ, και επομένως (από την ανισότητα Chebyshev): Pr{ T ν θ ɛ} Var(Tν) ɛ 2 ɛ > 0 Άρα, για ɛ > 0 σταθερό, είναι 0 Pr{ T ν θ ɛ} Var(Tν) ɛ 0 καθώς ν 2 p Άρα T ν θ. Σωτήρης Νικολετσέας, καθηγητής 25 / 48

Ασυμπτωτική αμεροληψία Πρόκειται για ασθενέστερη συνθήκη σε σχέση με την αμεροληψία, αφού αντί για E(T ν ) = θ αρκεί E(T ν ) θ καθώς ν Θεώρημα: Αν T ν ασυμπτωτικά αμερόληπτη εκτιμήτρια και Var(T ν ) 0 (καθώς ν ), τότε η T ν είναι συνεπής. Απόδειξη: Εστω E(T ν ) = δ ν θ. Τότε Pr{ T ν θ ɛ} E[(Tν θ)2 ] ɛ 2 (1) Αλλά, E[(T ν θ) 2 ] = E[((T ν δ ν ) + (δ ν θ)) 2 ] = = Var(T ν ) + E[(δ ν θ) 2 ] + 2E[(T ν δ ν )(δ ν θ)] = = Var(T ν ) + (δ ν θ) 2 + 2(δ ν θ)e[(t ν δ ν )] = = Var(T ν ) + (δ ν θ) 2 0 αφού Var(T ν ) 0 και δ ν θ. Άρα E[(T ν θ) 2 ] 0 καθώς ν και η συνέπεια προκύπτει από την (1). Σωτήρης Νικολετσέας, καθηγητής 26 / 48

Ασυμπτωτική αμεροληψία Παρατήρηση 1: Μια αμερόληπτη εκτιμήτρια δεν είναι πάντα συνεπής (πρέπει επιπλέον να έχει διασπορά που τείνει στο μηδέν καθώς το μέγεθος του δείγματος αυξάνει). Αντιθέτως, μια συνεπής εκτιμήτρια είναι οπωσδήποτε ασυμπτωτικά αμερόληπτη. Παρατήρηση 2: Η συνέπεια (όπως και η ασυμπτωτική αμεροληψία) είναι ασυμπτωτικές ιδιότητες, δηλαδή αφορούν σε πολύ μεγάλα, μεταβαλλόμενα μεγέθη δειγμάτων. Αντιθέτως, η αμεροληψία και η αποτελεσματικότητα αναφέρονται σε δείγματα σχετικά μικρού, σταθερού μεγέθους. Σωτήρης Νικολετσέας, καθηγητής 27 / 48

Δειγματικός μέσος και δειγματική διασπορά Θεώρημα: Εστω X 1, X 2,..., X ν τυχαίο δείγμα από κατανομή F με μέση τιμή µ και διασπορά σ 2 <. Η ακολουθία των δειγματικών μέσων X = X ν = 1 ν ν i=1 X i είναι συνεπής για την μέση τιμή µ της κατανομής, ενώ η ακολουθία των δειγματικών διασπορών S 2 = Sν 2 = 1 ν ν 1 i=1 (X i X) 2 είναι συνεπής για το σ 2. Απόδειξη: Δείξαμε πριν ότι E( X) = µ και Var( X) = σ2 ν 0 καθώς ν και επομένως η X είναι συνεπής για τη µ (επίσης είναι αμερόληπτη). ( Επίσης, δείξαμε ) ότι E(S 2 ) = σ 2 και Var(S 2 ) = 1 ν µ 4 ν 3 ν 1 σ 4 0 καθώς ν, και άρα η S 2 είναι συνεπής (και αμερόληπτη) για την σ 2. Σωτήρης Νικολετσέας, καθηγητής 28 / 48

Δειγματικός μέσος και δειγματική διασπορά Παρατήρηση: Επομένως, μπορούμε πάντα να βρίσκουμε συνεπείς (και αμερόληπτες) εκτιμήτριες για την πληθυσμιακή μέση τιμή και την πληθυσμιακή διασπορά για ΟΠΟΙΑΔΗΠΟΤΕ κατανομή, υπό την έννοια ότι τέτοιες εκτιμήτριες είναι, για οποιαδήποτε κατανομή, ο δειγματικός μέσος όρος X (για τη µ) και η δειγματική διασπορά S 2 (για τη σ 2 ). Σωτήρης Νικολετσέας, καθηγητής 29 / 48

Το θεώρημα Slutsky Θεώρημα: Εστω T ν και W ν ακολουθίες τ.μ. για τις οποίες T ν p θ1 και W ν p θ2 καθώς ν. Είναι (για ν ): (i) g(t ν ) p g(θ 1 ) εφόσον η g είναι συνεχής στο θ 1 (ii) T ν ± W ν p θ1 ± θ 2 (iii) T ν W ν p θ1 θ 2 (iv) Tν W ν p θ 1 θ 2, εφόσον θ 2 0 Το θεώρημα αυτό είναι πολύ χρήσιμο κατά την κατασκευή συνεπών εκτιμητριών (βασιζόμενοι σε εκτιμήτριες των οποίων η συνέπεια είναι γνωστή). Σωτήρης Νικολετσέας, καθηγητής 30 / 48

Παράδειγμα Ο αριθμός των emails που φτάνουν σε έναν server σε μια ορισμένη περίοδο της ημέρας (π.χ. από τις 9π.μ. έως τις 10π.μ.) ακολουθεί την κατανομή Poisson με παράμετρο λ. Αν X 1, X 2,..., X ν είναι οι αριθμοί των emails που φτάνουν στον server σε τυχαίο δείγμα ν ημερών, να βρεθεί συνεπής εκτιμήτρια α) για την μέση τιμή του αριθμού των emails β) για την πιθανότητα να μην έρθει κανένα email από τις 9π.μ. έως τις 10π.μ. μιας ημέρας. Λύση: α) Οπως είδαμε, μια συνεπής εκτιμήτρια για την μέση τιμή µ = λ είναι ο δειγματικός μέσος όρος X ν = X = 1 ν ν i=1 X i β) Είναι Pr{X 1 = 0} = e λ λ0 0! = e λ Αφού X p ν λ ορίζω την Wν = e X ν η οποία είναι συνεπής για την ποσότητα e λ αφού g(t ν ) p g(θ 1 ) και εδώ W ν = g( X ν ) = e X ν p g(θ1 ) = e λ. (η προϋπόθεση της συνέχειας της e λ στο λ > 0 ισχύει). Σωτήρης Νικολετσέας, καθηγητής 31 / 48

Μέθοδοι εύρεσης εκτιμητριών Μέθοδος των ροπών Μέθοδος μέγιστης πιθανοφάνειας Μέθοδος ελάχιστων τετραγώνων Πρόκειται για γενικές μεθοδολογίες (επιπλέον των ad hoc μεθόδων και των θεωρητικών αναλύσεων) που επιτρέπουν την υιοθέτηση κάποιας αρχής βελτιστοποίησης κατά την κατασκευή εκτιμητριών με επιθυμητές ιδιότητες. Σωτήρης Νικολετσέας, καθηγητής 32 / 48

Μέθοδος των ροπών Είναι η παλαιότερη μέθοδος Βασική ιδέα: εξίσωση μερικών (έστω K) από τις πρώτες ροπές της πληθυσμιακής κατανομής περί το μηδέν με τις αντίστοιχες ροπές του τυχαίου δείγματος. Παίρνουμε τόσες εξισώσεις (ροπές) όσος είναι ο αριθμός των αγνώστων παραμέτρων που θέλουμε να εκτιμήσουμε Λύνουμε το K K σύστημα και βρίσκουμε εκτιμήσεις των παραμέτρων Θυμίζουμε ότι, οι πληθυσμιακές ροπές τάξης r είναι m r = E(X r ) ενώ η δειγματική ροπή τάξης r είναι ν r = 1 n n i=1 Xr i Παρατηρήσεις: Οι προκύπτουσες εκτιμήτριες είναι συχνά μεροληπτικές Επίσης, είναι δύσκολο να διατυπωθεί συμπέρασμα σχετικά με την αποτελεσματικότητα Ωστόσο η μέθοδος είναι πολύ απλή και κάτω από ορισμένες συνθήκες οι εκτιμήτριες που παράγει είναι συνεπείς. Σωτήρης Νικολετσέας, καθηγητής 33 / 48

Παράδειγμα Εστω X 1, X 2,..., X ν τυχαίο δείγμα από ομοιόμορφο πληθυσμό (κατανομή U(a, b)) με παραμέτρους a = 0 και b = θ (άγνωστο) α) Να βρεθεί εκτιμήτρια της παραμέτρου b με τη μέθοδο των ροπών και β) να ελεγχθεί η συνέπειά της. Λύση: α) Η πρώτη πληθυσμιακή ροπή περί την αρχή είναι: m 1 = E(X 1 ) = a+b 2 = θ 2 Η πρώτη δειγματική ροπή περί το μηδέν είναι: ν 1 = 1 n n i=1 X i = X Άρα από το (1 1) σύστημα m 1 = ν 1 παίρνουμε θ 2 = X και η εκτιμήτρια είναι ˆθ = 2 X. β) Είναι E(ˆθ) = E(2 X) = E( 2 n (X 1 +X 2 + +X n ) = 2 n ne(x i) = 2 θ 2 = θ και Var(ˆθ) = Var(2 X) = 4Var( X 1+X 2 + +X n n ) = 4 n θ2 n 2 12 = θ2 3n 0 καθώς n και επομένως η ˆθ = 2 X είναι συνεπής. Σωτήρης Νικολετσέας, καθηγητής 34 / 48

Παράδειγμα Να βρεθούν με τη μέθοδο των ροπών εκτιμήτριες συναρτήσεις της μέσης τιμής και της διασποράς σ 2 ενός κανονικού πληθυσμού με κατανομή N(µ, σ 2 ) Λύση: Εχουμε 2 άγνωστες παραμέτρους, άρα παίρνουμε 2 ροπές (εξισώσεις). Οι πληθυσμιακές ροπές 1ης και 2ης τάξης είναι: m 1 = E(X) = µ και m 2 = E(X 2 ) = Var(X) + E 2 (X) = σ 2 + µ 2 Οι αντίστοιχες δειγματικές ροπές είναι: ν 1 = 1 n n i=1 X i = X, και ν 2 = 1 n n i=1 X2 i Άρα, το{ 2 2 σύστημα { είναι: m 1 = ν 1 µ = X (1) m 2 = ν 2 σ 2 + µ 2 = 1 n n i=1 X2 i (2) Σωτήρης Νικολετσέας, καθηγητής 35 / 48

Παράδειγμα (συνέχεια) Άρα, η εκτιμήτρια της µ είναι η ˆθ 1 = X και είναι συνεπής. Η εκτιμήτρια ˆθ 2 της σ 2 είναι: (2) σ 2 n i=1 = X2 i n µ 2 n i=1 = X2 i n X ( 2 = 1 n n i=1 X2 i n X 2) = = 1 n n i=1 (X i X) 2 την οποία και παίρνουμε ως εκτιμήτρια της διασποράς σ 2. Είναι E( ˆθ 2 ) = n 1 1 n n 1 n i=1 (X i X) 2 = n 1 1 n n n 1 i=1 (X i X) 2 = (1 1 n )S2 όπου S 2 η δειγματική διασπορά. Άρα E( ˆθ 2 ) S 2 και η ˆθ 2 δεν είναι αμερόληπτη (αλλά είναι ασυμπτωτικά αμερόληπτη). Σωτήρης Νικολετσέας, καθηγητής 36 / 48

Παράδειγμα Δίνεται πληθυσμός με pdf : f(x, θ) = (θ + 1)x θ, x [0, 1]. Να βρεθεί εκτιμήτρια της παραμέτρου θ με την μέθοδο των ροπών. Λύση: Η πρώτη πληθυσμιακή ροπή είναι: 1 m 1 = E(X) = x(θ + 1)x θ dx = (θ + 1) xθ+2 θ+2 Η πρώτη δειγματική ροπή είναι: ν 1 = 1 n n i=1 X i = X Από την εξίσωση m 1 = ν 1 παίρνουμε θ+1 θ+2 = X θ = 2 X 1 1 X και η εκτιμήτρια είναι ˆθ = 2 X 1 1 X 0 1 0 = θ+1 θ+2 Σωτήρης Νικολετσέας, καθηγητής 37 / 48

Μέθοδος μέγιστης πιθανοφάνειας Είναι μια από τις πλέον σημαντικές μεθόδους. Βασική ιδέα: εύρεση εκτιμητριών τέτοιων ώστε να μεγιστοποιείται η πιθανότητα εμφάνισης των τιμών του συγκεκριμένου τυχαίου δείγματος. Εστω τυχαίο δείγμα από κατανομή f(x; θ). Η (πληθυσμιακή) κατανομή πιθανότητας του δείγματος είναι προφανώς (θεωρούμε το θ σταθερό): f(x 1, x 2,..., x n; θ) = f(x 1; θ)f(x 2; θ) f(x n; θ) Αν τώρα θεωρήσουμε σταθερές τις (πραγματοποιημένες) τιμές του δείγματος και την θ ως μεταβλητή, θα έχουμε τη συνάρτηση πιθανοφάνειας (likelihood) του δείγματος: L(x 1, x 2,..., x n; θ) = L(θ) = f(x 1; θ)f(x 2; θ) f(x n; θ) (ουσιαστικά πρόκειται για την ίδια ποσότητα, απλώς αλλάζουν οι σταθερές και η μεταβλητή.) Συνήθως, για κάθε άγνωστη παράμετρο θ, υπάρχει μια μοναδική τιμή του θ που μεγιστοποιεί τη συνάρτηση πιθανοφάνειας L(θ). Η τιμή αυτή ονομάζεται εκτιμήτρια μέγιστης πιθανοφάνειας (MLE) της θ και συμβολίζεται ˆθ. Σωτήρης Νικολετσέας, καθηγητής 38 / 48

Μέθοδος μέγιστης πιθανοφάνειας Παρατήρηση: Η αρχή της μέγιστης πιθανοφάνειας διαισθητικά βασίζεται στο ότι το παρατηρηθέν δείγμα είναι ένα γεγονός E = {x 1, x 2,..., x n } και η συνάρτηση πιθανοφάνειας είναι η πιθανότητα εμφάνισής του. Αφού όμως το γεγονός συνέβη πρέπει να έχει μεγάλη πιθανότητα, και η μεγιστοποίηση της L(θ) = L(x 1, x 2,..., x n ; θ) σημαίνει επιλογή εκείνης της τιμής του θ που μεγιστοποιεί την πιθανότητα εμφάνισης του E = {x 1, x 2,..., x n }. Σωτήρης Νικολετσέας, καθηγητής 39 / 48

Περιγραφή της MLE μεθόδου Ουσιαστικά χρησιμοποιούμε κλασσικές μεθόδους εύρεσης μέγιστων τιμών παραγωγίσιμων συναρτήσεων: 1. Κατασκευάζουμε τη συνάρτηση πιθανοφάνειας των δεδομένων του δείγματος με βάση την κατανομή που ακολουθούν: L(θ) = L(x 1, x 2,..., x n ; θ) = n i=1 f(x i; θ) 2. Παίρνουμε το λογάριθμο της L(θ) (για διευκόλυνση των πράξεων) και παραγωγίζουμε ως προς την άγνωστη θ, βρίσκουμε δηλαδή την d ln L(θ) dθ 3.Βρίσκουμε την τιμή της θ (υποψήφια εκτιμήτρια ˆθ) ώστε d ln L(θ) dθ = 0 ˆθ =... 4. Δείχνουμε ότι η δεύτερη παράγωγος είναι αρνητική ώστε η λύση να αντιστοιχεί σε ολικό μέγιστο: d 2 ln L(θ) d 2 θ < 0 θ=ˆθ Σωτήρης Νικολετσέας, καθηγητής 40 / 48

Παράδειγμα Δίνεται τυχαίο δείγμα X 1, X 2,..., X n από εκθετική κατανομή άγνωστης μέσης τιμής θ. Να βρεθεί εκτιμήτρια της θ με την MLE μέθοδο. Λύση: Η συνάρτηση πιθανοφάνειας είναι: L(θ) = n i=1 f(x i; θ) = n i=1 1 x θ e i θ = ( ) 1 n n i=1 x i θ e θ ln L(θ) = ln ( ) 1 n n i=1 x i n + ln e θ i=1 = = n ln θ x i d ln L(θ) θ n i=1 x i n Άρα dθ = 0 θ = = X και η υποψήφια εκτιμήτρια είναι η ˆθ = X Επίσης d2 ln L(θ) < 0 nθ < 2n X που ισχύει για d 2 θ θ = ˆθ = X και επομένως η MLE είναι πράγματι η ˆθ = X. θ Σωτήρης Νικολετσέας, καθηγητής 41 / 48

Μέθοδος ελάχιστων τετραγώνων Η μέθοδος αποσκοπεί στην εύρεση εκτιμητριών που βελτιστοποιούν όσο το δυνατόν περισσότερες επιθυμητές ιδιότητες. Κριτήριο επιλογής: Η ελαχιστοποίηση του αθροίσματος των τετραγώνων των αποκλίσεων ( σφαλμάτων ) μεταξύ των δειγματοληπτικών τιμών και των προς εκτίμηση (θεωρητικών, από την κατανομή) τιμών της τυχαίας μεταβλητής. Παράδειγμα: Αν προσπαθούμε να εκτιμήσουμε την μέση τιμή µ ενός πληθυσμού, επιλέγουμε ως εκτιμήτρια την τιμή ˆµ του µ που για το συγκεκριμένο δείγμα ελαχιστοποιεί την συνάρτηση Q: Q = n i=1 (X i µ) 2 Η ελαχιστοποίηση της Q γίνεται με παραγώγιση (όπως και στην MLE ). Στο συγκεκριμένο παράδειγμα προκύπτει εύκολα (άσκηση!) ότι η Q ελαχιστοποιείται για ˆµ = X. Παρατήρηση: Η μέθοδος οδηγεί σε εκτιμήτριες που ελαχιστοποιούν την διακύμανση (μεταξύ όλων των αμερόληπτων εκτιμητριών). Αρκετά γενικά, οι εκτιμήτριες αυτές είναι συνεπείς. Σωτήρης Νικολετσέας, καθηγητής 42 / 48

Γραμμική Παλινδρόμηση (Linear Regression) Συχνά εξετάζουμε τη σχέση μεταξύ 2 ή περισσότερων μεταβλητών. π.χ. τη σχέση ύψους και βάρους, το ποσοστό υγρασίας σε ένα χημικό προϊόν σε σχέση με την υγρασία του περιβάλλοντος στο οποίο παράγεται. συνήθως υπάρχει μία μοναδική εξαρτημένη μεταβλητή Y η οποία εξαρτάται από τις τιμές μιας (ή περισσότερων) ανεξάρτητων μεταβλητών εισόδου x 1, x 2,..., x r ο σκοπός μας είναι, παρατηρώντας ένα μικρό δείγμα, να μπορέσουμε να συμπεράνουμε τη σχέση της Y ως προς τις μεταβλητές x i. Σωτήρης Νικολετσέας, καθηγητής 43 / 48

Γραμμική Παλινδρόμηση (Linear Regression) Συχνά η σχέση αυτή είναι γραμμική, δηλαδή υπάρχουν (άγνωστες) σταθερές β 0, β 1,..., β r ώστε: Y = β 0 + β 1 x 1 + + β r x r Αν μπορέσουμε να συμπεράνουμε τα β i τότε μπορούμε να προβλέψουμε με ακρίβεια τις τιμές της Y. Στην πράξη στη γραμμική αυτή σχέση υπεισέρχεται ένα τυχαίο λάθος ɛ και η σχέση γίνεται Y = β 0 + β 1 x 1 + + β r x r + ɛ όπου ɛ τυχαία μεταβλητή με μέση τιμή 0. Η σχέση αυτή λέγεται εξίσωση γραμμικής παλινδρόμησης. Οι συντελεστές β i λέγονται συντελεστές παλινδρόμησης και λέμε ότι η εξαρτημένη μεταβλητή Y παλινδρομεί στις εξαρτημένες μεταβλητές x i. Σωτήρης Νικολετσέας, καθηγητής 44 / 48

Απλή γραμμική παλινδρόμηση Οταν r = 1 (δηλαδή η εξαρτημένη μεταβλητή είναι μία) τότε μιλάμε για απλή γραμμική παλινδρόμηση με εξίσωση Y = α + βx + ɛ Σωτήρης Νικολετσέας, καθηγητής 45 / 48

Εκτίμηση ελαχίστων τετραγώνων των παραμέτρων της γραμμικής παλινδρόμησης Εστω ότι παρατηρούμε τις τιμές Y i ως προς τις εισόδους x i (i = 1, 2,..., n) και θέλουμε να υπολογίσουμε τα α και β. Σκεφτόμαστε ότι, αν A είναι εκτίμηση της α και B είναι εκτίμηση της β, τότε η εκτίμηση για την είσοδο x i θα είναι A + Bx i και το τετράγωνο της απόκλισης από την πραγματική παρατηρηθείσα τιμή Y i θα είναι (Y i A Bx i ) 2 Το άθροισμα των τετραγώνων των αποκλίσεων αυτών είναι n SS = (Y i A Bx i ) 2 i=1 Η μέθοδος συνίσταται ακριβώς στην εύρεση των A και B που ελαχιστοποιούν αυτό το άθροισμα. Σωτήρης Νικολετσέας, καθηγητής 46 / 48

Απλή γραμμική παλινδρόμηση (ΙΙ) Θεώρημα: Οι εκτιμητές ελαχίστων τετραγώνων των β, α για τις τιμές Y i, x i (i = 1, 2,..., n) είναι: n i=1 B = x iy i x n i=1 Y i n i=1 x2 i n x2 A = Ȳ B x Η ευθεία γραμμή A Bx καλείται ευθεία παλινδρόμησης. Παράδειγμα: Στο παράδειγμα με την υγρασία εύκολα βρίσκουμε ότι α = 2.51, β = 0.32 άρα η ευθεία παλινδρόμησης είναι Y = 2.51 + 0.32x Σωτήρης Νικολετσέας, καθηγητής 47 / 48

Παρατήρηση Μια άλλη μέθοδος (την οποία είδαμε στη διάλεξη 9) για την μελέτη της σχέσης περισσότερων της μίας μεταβλητών είναι η συσχέτιση (συντελεστής συσχέτισης r). Σωτήρης Νικολετσέας, καθηγητής 48 / 48