Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Σχετικά έγγραφα
Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Στατιστική Συμπερασματολογία

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Στατιστική Συμπερασματολογία

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

Στατιστική. Εκτιμητική

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Είδη Μεταβλητών. κλίµακα µέτρησης

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

A(θ) = n log θ B(x ) = 0. T (x ) = x i. Γ(n)θ n =

εξαρτάται από το θ και για αυτό γράφουµε την σ.π.π. στην εξής µορφή: ( θ, + ) θ θ n 2n (θ,+ ) 1, 0, x θ.

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ AΝΑΛΟΓΙΕΣ

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

3. Κατανομές πιθανότητας

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

X = = 81 9 = 9

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΑΝΤΙΚΕΙΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις και σημειακή εκτίμηση παραμέτρων Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή συμπερασμάτων για το σ

Μέθοδος Newton-Raphson

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ για τη λήψη αποφάσεων

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις, σημειακή εκτίμηση παραμέτρων και γραμμική παλινδρόμηση Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή

Εκτιμήτριες. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. Ασκήσεις για ΑΕΙ και ΤΕΙ. Kglykos.gr. σε Εκτιμήτριες. μέθοδος ροπών και μέγιστης πιθανοφάνειας

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 13 Μαρτίου /31

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ

n + 1 X(1 + X). ) = X i i=1 i=1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Περιγραφική Στατιστική, Εκτίµηση και Ελεγχος Παραµέτρων. της σ 2 είναι επίσης αµερόληπτη. n 1 +n 2

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

ειγµατοληπτική κατανοµή

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΣΚΗΣΕΙΣ ΣΤΟΥΣ ΕΛΕΓΧΟΥΣ ΥΠΟΘΕΣΕΩΝ

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

TMHMA OIKONOMIKΩN ΕΠΙΣΤΗΜΩΝ Διαγώνισμα Προόδου Στατιστικής III

Εισαγωγή στη θεωρία ακραίων τιμών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

Εφαρμοσμένη Στατιστική

Κεφάλαιο 2 ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ. 2.1 Σηµειακή Εκτίµηση. ˆθ παίρνει διαφορετικές τιµές, δηλαδή η ˆθ είναι η ίδια τ.µ. µε κάποια κατανοµή κι έχει µέση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

x y max(x))

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Εισαγωγή στην Εκτιμητική

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

Ανάλυση εδομένων με χρήση του Στατιστικού Πακέτου R

Μέθοδος μέγιστης πιθανοφάνειας

ONE WAY ANOVA. .Π.Μ.Σ. Μαθηµατικά των Υπολογιστών & των αποφάσεων. Πάτρα, 11 Ιανουαρίου 2011

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ - ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ. Εισαγωγικές εξετάσεις για το Μεταπτυχιακό Πρόγραμμα - Μέρος 2ο

ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ. Για την Γ Τάξη Γενικού Λυκείου Μάθημα Επιλογής ΟΡΓΑΝΙΣΜΟΣ ΕΚΔΟΣΕΩΣ ΔΙΔΑΚΤΙΚΩΝ ΒΙΒΛΙΩΝ ΑΘΗΝΑ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Εφαρμοσμένη Στατιστική

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

Στατιστική για Χημικούς Μηχανικούς Έλεγχος στατιστικών υποθέσεων. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών

9. Παλινδρόμηση και Συσχέτιση

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Εισαγωγή στη Στατιστική

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Χ. Εμμανουηλίδης, 1

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Περιεχόμενα της Ενότητας. Δειγματοληψία. Δειγματοληψίας. Δειγματοληψία. Τυχαία Δειγματοληψία. Χ. Εμμανουηλίδης, 1.

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Εργαστήριο Μαθηµατικών & Στατιστικής. 1 η Πρόοδος στο Μάθηµα Στατιστική 5/12/08 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ. 3 ο Θέµα

c(2x + y)dxdy = 1 c 10x )dx = 1 210c = 1 c = x + y 1 (2xy + y2 2x + y dx == yx = 1 (32 + 4y) (2x + y)dxdy = 23 28

Transcript:

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τοµέας Μαθηµατικών, Σχολή Εφαρµοσµένων Μαθηµατικών και Φυσικών Επιστηµών, Εθνικό Μετσόβιο Πολυτεχνείο.

Περιεχόµενα Εισαγωγή στη Στατιστική Εισαγωγή στο Στατιστικό Πακέτο R Περιγραφική Στατιστική Προσοµοίωση Στατιστική Συµπερασµατολογία Ένα Δείγµα Δύο Ανεξάρτητα Δείγµατα Δείγµατα κατά Ζεύγη Ποσοστά Έλεγχος καλής προσαρµογής Πίνακες Συνάφειας 2 2 Ανάλυση Παλινδρόµησης Ανάλυση Διασποράς Στατιστική Συµπερασµατολογία 2

Εισαγωγικά Όπως είδαµε και στην εισαγωγή, στην Στατιστική συνήθως ενδιαφερόµαστε να εκτιµήσουµε ένα άγνωστο µέγεθος, το οποίο καλείται παράµετρος και το οποίο συνήθως συνοψίζει κατά κάποιον τρόπο τις τιµές της υπό µελέτης µεταβλητής στον πληθυσµό, π.χ. τη µέση της τιµή. Η εκτίµησή µας γίνεται µε την βοήθεια κατάλληλα επιλεγµένων δειγµατοσυναρτήσεων, συναρτήσεων δηλαδή του δείγµατος, οι οποίες καλούνται (σηµειακές) εκτιµήτριες. Ο τρόπος επιλογής εκτιµητριών γίνεται είτε (α) µε βάση την λογική, π.χ. αν θέλουµε να εκτιµήσουµε την µέση τιµή στον πληθυσµό µας ακούγεται λογικό να χρησιµοποιήσουµε ως εκτιµήτρια την µέση τιµή του δείγµατος (plug in principle), είτε (β) µε βάση διάφορες ιδιότητες, π.χ. η εκτιµήτρια µας θέλουµε να έχει µέση τιµή ίση µε την ποσότητα όπου εκτιµά (αµεροληψία) είτε (γ) µε βάση κάποιο κριτήριο κατασκευής (π.χ. εκτιµήτριες µέγιστης πιθανοφάνειας). Να υπενθυµίσουµε εδώ ότι οι εκτιµήτριες ως δειγµατοσυναρτήσεις είναι τυχαίες µεταβλητές και άρα η ίδια εκτιµήτρια συνήθως παίρνει άλλη τιµή όταν παρατηρούµε άλλα δεδοµένα. Συνήθως θέλουµε η εκτιµήτριά µας να έχει µικρή µεταβλητότητα (δηλαδή διασπορά), έτσι ώστε το τυπικό σφάλµα εκτίµησης (η τυπική απόκλιση της εκτιµήτριας) να είναι µικρό, δηλαδή οι τιµές της εκτιµήτριας µας να µην µεταβάλλονται πολύ από δείγµα σε δείγµα. Στατιστική Συµπερασµατολογία 3

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Το πιο διαδεδοµένο κριτήριο κατασκευής εκτιµητριών είναι αυτό της µέγιστης πιθανοφάνειας (maximum likelihood). Πιθανοφάνεια καλείται η από κοινού σ.π.π. ή σ.µ.π. του τυχαίου δείγµατος Χ 1,...,Χ n. Αν το χαρακτηριστικό που µας ενδιαφέρει προέρχεται από ένα πληθυσµό µε σ.π.π ή σ.µ.π. f(x;θ) όπου θ είναι το διάνυσµα των αγνώστων παραµέτρων, τότε επειδή το τυχαίο δείγµα αποτελείται από ανεξάρτητες και ισόνοµες τ.µ. η πιθανοφάνεια θα είναι ίση µε Στατιστική Συµπερασµατολογία 4

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Η παραπάνω συνάρτηση είναι µια συνάρτηση του θ και µας δίνει την πιθανότητα το δείγµα µας να προέρχεται από την υποτιθέµενη κατανοµή µε παράµετρο θ. Συνεπώς µπορούµε να διαλέξουµε το θ έτσι ώστε να µεγιστοποιείται αυτή η πιθανότητα. Οι εκτιµήτριες που παίρνουµε µε τον τρόπο αυτόν καλούνται Εκτιµήτριες Μέγιστης Πιθανοφάνειας (Ε.Μ.Π.) και τις συµβολίζουµε µε Αρκετά συχνά δουλεύουµε µε την λογαριθµική πιθανοφάνεια για λόγους ευκολίας υπολογισµών Στατιστική Συµπερασµατολογία 5

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Για την µεγιστοποίηση της παραπάνω συνάρτησης συνήθως δουλεύουµε αναλυτικά, παίρνουµε τις µερικές παραγώγους ως προς κάθε συνιστώσα του θ, τις εξισώνουµε µε το µηδέν και λύνουµε το σύστηµα που προκύπτει. Εν συνεχεία µε την βοήθεια των δευτέρων µερικών παραγώγων ελέγχουµε αν το σηµείο είναι πράγµατι σηµείο µεγίστου. Με την βοήθεια της R µπορούµε επίσης να δούµε το γράφηµα της πιθανοφάνειας και να βρούµε µε την βοήθειά του το µέγιστο. Στατιστική Συµπερασµατολογία 6

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Παράδειγµα 1: Έστω ότι ο αριθµός Χ των πετρελαιοφόρων που φθάνουν κάθε µέρα σε ένα λιµάνι είναι τ.µ. µε κατανοµή Poisson(λ), όπου λ άγνωστο. Τα παρακάτω δεδοµένα αποτελούν τις παρατηρήσεις από τυχαίο δείγµα 20 ηµερών 9 4 5 5 7 13 8 3 6 5 4 5 10 5 5 4 3 3 4 7 Στατιστική Συµπερασµατολογία 7

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Τότε Εύκολα προκύπτει ότι η Ε.Μ.Π. του λ τότε είναι Για τις συγκεκριµένες παρατηρήσεις η τιµή της εκτιµήτριάς µας είναι Στατιστική Συµπερασµατολογία 8

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Η επόµενη συνάρτηση στην R υπολογίζει την λογαριθµική Poisson πιθανοφάνεια για συγκεκριµένο δείγµα και για 10000 διαφορετικές τιµές του λ. > lambda<-seq(0.001, 10, length=10000) > poisson_loglikelihood<-function(data, lambda){ results<-rep(na,10000) for(i in 1:10000){ results[i]<-sum(dpois(data,lambda[i],log=t)) } return(results) } Στατιστική Συµπερασµατολογία 9

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Μπορούµε λοιπόν να κάνουµε ένα γράφηµα της εν λόγω συνάρτησης και να δούµε εµπειρικά που µεγιστοποιείται. > x<-c(9,4,5,5,7,13,8,3,6,5,4,5,10,5,5,4,3,3,4,7) > results<-poisson_loglikelihood(x, lambda) > plot(lambda, results, xlab="lambda", ylab="loglikelihood", type="l") Στατιστική Συµπερασµατολογία 10

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Στατιστική Συµπερασµατολογία 11

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Για να βρούµε εµπειρικά το µέγιστο γράφουµε την εντολή > lambda[order(results)[10000]] [1] 5.75 Η εντολή order(results)[10000] µας επιστρέφει τη θέση που υπάρχει η µεγαλύτερη l(λ), και άρα η εντολή lambda[order(results)[10000]] µας επιστρέφει πράγµατι το λ που µεγιστοποιεί την l(λ). Η παραπάνω τιµή δεν σηµαίνει κατ ανάγκη ότι είναι το µέγιστο, καθώς έχουµε πάρει µόνο ένα αριθµό σηµείων λ. Στην περίπτωσή µας είναι πράγµατι το µέγιστο αφού > mean(x) [1] 5.75 Στατιστική Συµπερασµατολογία 12

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Παράδειγµα 2: Ο χρόνος Χ (σε λεπτά) αναµονής στην ουρά για να εξυπηρετηθείτε από το ταµείο µιας τράπεζας έστω ότι είναι τ.µ. οµοιόµορφα κατανεµηµένη στο διάστηµα (0,θ), µε θ άγνωστη παράµετρο. Έστω ότι έχουµε τις παρακάτω παρατηρήσεις 12 χρόνων αναµονής 5 0 2 10 6 4 3 8 9 7 8 4 Στατιστική Συµπερασµατολογία 13

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Η σ.π.π. της οµοιόµορφης κατανοµής στο διάστηµα (0, θ) είναι: Η πιθανοφάνεια τότε είναι είναι η δείκτρια του συνόλου (0,θ). Στατιστική Συµπερασµατολογία 14

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Ο αναλυτικός τρόπος µε την παράγωγο δεν µπορεί να δουλέψει στο εν λόγω παράδειγµα οπότε θα ζητήσουµε την βοήθεια της R για να βρούµε το µέγιστο. > theta<-seq(0.1, 20, length=10000) > uniform_likelihood<-function(data, theta){ results<-rep(na,10000) for(i in 1:10000){ results[i]<-prod(dunif(data,0, theta[i])) } return(results) } > y<-c(5, 0, 2, 10, 6, 4, 3, 8, 9, 7, 8, 4) > results<-uniform_likelihood(y, theta) > plot(theta, results, xlab="theta", ylab="likelihood", type="l") Στατιστική Συµπερασµατολογία 15

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Στατιστική Συµπερασµατολογία 16

Εκτιµήτριες Μέγιστης Πιθανοφάνειας Η πιθανοφάνεια όπως περιµέναµε είναι 0 όταν θ < y i, για τουλάχιστον ένα i, ενώ όταν θ y i (για όλα τα i = 1,..,n) είναι µια φθίνουσα συνάρτηση του θ. Θέλουµε λοιπόν την µικρότερη τιµή του θ που να ικανοποιεί όµως την ανισότητα θ y i (για όλα τα i = 1,..,n), και άρα το µέγιστο (Ε.Μ.Π.) είναι το Στατιστική Συµπερασµατολογία 17

Εκτιµήτριες μέγιστης πιθανοφάνειας2 Μια άλλη εκτιµήτρια (αµερόληπτη µάλιστα) της άγνωστης παραµέτρου θ είναι και η θ =2 X 1 + X 2 + + X n n Από τον νόµο των µεγάλων αριθµών το δεξί µέλος συγκλίνει στο 2Ε θ [Χ]=2θ/2=θ όταν το n πάει στο άπειρο. Μπορούµε να την συγκρίνουµε µε την Ε.Μ.Π. και να αποφασίσουµε ποια είναι καλύτερη; Στατιστική Συµπερασµατολογία 18

Εκτιµήτριες µέγιστης πιθανοφάνειας Ας παίξουµε το ακόλουθο παιχνίδι: ας ζητήσουµε από τον υπολογιστή να διαλέξει τυχαία µια τιµή για την θ. Χωρίς να την δούµε (για µας θα είναι η άγνωστη παράµετρος) θα προσπαθήσουµε να την εκτιµήσουµε µε τη βοήθεια των δύο εκτιµητριών, προσοµοιώνοντας δείγµατα από µια τ.µ. µε οµοιόµορφη κατανοµή στο διάστηµα (0,θ). Στατιστική Συµπερασµατολογία 19

Εκτιµήτρια µέγιστης πιθανοφάνειας Στην µεταβλητή theta εκχωρούµε ένα τυχαίο αριθµό στο διάστηµα (0,100). Αυτή θα είναι η άγνωστη για εµάς παράµετρος θ > theta<-runif(1,0,100) Προσοµοιώνουµε τώρα 100000 δείγµατα από µια τ.µ. µε οµοιόµορφη κατανοµή στο (0,θ) > x<-runif(100000,0,theta) Υπολογίζουµε στη συνέχεια τις εκτιµήσεις της άγνωστης (σε εµάς) παραµέτρου θ που δίνουν οι δύο εκτιµήτριες, ˆθ = max X i θ =2 X Στατιστική Συµπερασµατολογία 20

Εκτιµήτρια µέγιστης πιθανοφάνειας Ας δούµε τα αποτελέσµατα... > a<-c(max(x),2*mean(x)) > a [1] 49.19720 49.24383 Και ας δούµε ποια τιµή είχε εκχωρήσει ο υπολογιστής στην theta > theta [1] 49.19777 H E.M.Π. έδωσε µια εκτίµηση πιο κοντά στην πραγµατική τιµή αλλά αυτό θα µπορούσε να είναι συµπτωµατικό. Ας επαναλάβουµε το πείραµα. Στατιστική Συµπερασµατολογία 21

Εκτιµήτρια µέγιστης πιθανοφάνειας > x<-runif(100000,0,theta) > a<-c(max(x),2*mean(x)) > a [1] 49.19703 49.02390 Βλέπουµε ότι η ΕΜΠ έδωσε πάλι καλύτερη εκτίµηση της πραγµατικής τιµής της theta, και ότι δεν έχει µεταβληθεί πολύ σε σχέση µε την προηγούµενη εκτίµηση που πείραµε. Φαίνεται ότι οι εκτιµήσεις της ΕΜΠ έχουν µικρότερη διασπορά. Θα επαναλάβουµε λοιπόν πολλές φορές το προηγούµενο πείραµα και θα εξετάσουµε τα δείγµατα των εκτιµήσεων που δίνουν οι δύο εκτιµήτριες. Στατιστική Συµπερασµατολογία 22

Εκτιµήτρια µέγιστης πιθανοφάνειας > y<-rep(na,1000) > z<-rep(na,1000) > for (i in 1:1000) {x<-runif(100000,0,theta) + y[i]<-max(x) + z[i]<-2*mean(x) } > summary(y) Min. 1st Qu. Median Mean 3rd Qu. Max. 49.19 49.20 49.20 49.20 49.20 49.20 > summary(z) Min. 1st Qu. Median Mean 3rd Qu. Max. 48.93 49.13 49.19 49.19 49.25 49.47 Η ΕΜΠ βλέπουµε ότι έχει µικρότερη µεταβλητότητα και µάλλον θα την προτιµούσαµε σαν εκτιµήτρια της θ. Στατιστική Συµπερασµατολογία 23

Διαστήµατα Εµπιστοσύνης Οι (σηµειακές) εκτιµήσεις δεν µας δίνουν κάποια πληροφορία σχετικά µε την ακρίβεια ή το σφάλµα εκτίµησης. Είναι λοιπόν χρήσιµο να προσδιορίσουµε, µέσω των εκτιµητριών και των τυπικών τους σφαλµάτων, ένα διάστηµα το οποίο θα περιέχει την άγνωστη τιµή της παραµέτρου µε καθορισµένη πιθανότητα, έστω γ. Σκοπός µας δηλαδή είναι να βρούµε δυο ποσότητες u και v (u<v) έτσι ώστε P(u θ v)=γ=1-α. Το [u,v] καλείται διάστηµα εµπιστοσύνης (Δ.Ε.) µε συντελεστή εµπιστοσύνης (σ.ε.) γ=1-α. Το διάστηµα εµπιστοσύνης του θ προσδιορίζεται µε βάση την κατανοµή της εκτιµήτριας του θ από το τυχαίο δείγµα, συνεπώς οι τιµές u και v είναι τυχαίες µεταβλητές. Αυτό σηµαίνει ότι από διαφορετικό δείγµα ίδιου µεγέθους ενδέχεται να προκύψουν διαφορετικά Δ.Ε. για το θ. Στατιστική Συµπερασµατολογία 24

Διαστήµατα Εµπιστοσύνης Το εύρος του Δ.Ε. εξαρτάται από το τυπικό σφάλµα της εκτιµήτριας του θ και τον συντελεστή εµπιστοσύνης. Όσο µεγαλύτερο είναι το τυπικό σφάλµα της εκτιµήτριας του θ τόσο µεγαλύτερο εύρος έχει το Δ.Ε. Επίσης όσο µεγαλύτερο συντελεστή εµπιστοσύνης έχουµε τόσο µεγαλύτερο εύρος έχει το Δ.Ε. Το τυπικό σφάλµα των εκτιµητριών είναι αντιστρόφως ανάλογο του µεγέθους του δείγµατος n. Συνεπώς όσο το n αυξάνει τόσο το εύρος του Δ.Ε. θα µειώνεται. Στατιστική Συµπερασµατολογία 25

Διαστήµατα Εµπιστοσύνης Η πραγµατική ερµηνεία ενός Δ.Ε. µε σ.ε. γ είναι η ακόλουθη. Σε µια σειρά κατασκευών διαστηµάτων εµπιστοσύνης µιας παραµέτρου, µε ανεξάρτητα δείγµατα του αυτού µεγέθους, ένα ποσοστό 100 γ% των διαστηµάτων αυτών αναµένεται να περιέχουν την αληθή τιµή της παραµέτρου θ. Στατιστική Συµπερασµατολογία 26

Διαστήµατα Εµπιστοσύνης Στατιστική Συµπερασµατολογία 27

Διαστήµατα Εµπιστοσύνης Παράδειγµα: Έστω Χ 1,...,Χ n τυχαίο δείγµα από πληθυσµό µε µέση τιµή µ (άγνωστη) και διασπορά σ 2 (γνωστή). Μια λογική εκτιµήτρια για το µ είναι ο δειγµατικός µέσος Για µεγάλο n από το Κ.Ο.Θ. ξέρουµε ότι Συνεπώς το τυπικό σφάλµα της εκτιµήτριάς µας είναι Στατιστική Συµπερασµατολογία 28

Διαστήµατα Εµπιστοσύνης Τότε όµως η τ.µ. και συνεπώς αν z α/2 το σηµείο εκείνο της τυποποιηµένης Κανονικής κατανοµής για το οποίο P(Z>z α/2 )=α/2 έχουµε P(-z α/2 <Ζ<z α/2 )=γ=1-α. Στατιστική Συµπερασµατολογία 29

Διαστήµατα Εµπιστοσύνης -z α/2 z α/2 Στατιστική Συµπερασµατολογία 30

Διαστήµατα Εµπιστοσύνης Λύνοντας την ανισότητα -z α/2 <Ζ<z α/2 ως προς µ προκύπτει το ακόλουθο γ% Δ.Ε. για το µ Η πιθανότητα δεν εκφράζει την πιθανότητα το µ να πάρει τιµές στο εν λόγω διάστηµα, διότι το µ είναι µια σταθερά (αν και άγνωστη), αλλά είναι η πιθανότητα το εν λόγω διάστηµα να περιέχει την πραγµατική τιµή του µ. Στατιστική Συµπερασµατολογία 31

Διαστήµατα Εµπιστοσύνης Αν είναι η τιµή του σε συγκεκριµένο δείγµα τότε θα εκτιµήσουµε το µ µε το διάστηµα το οποίο µε πιθανότητα γ περιέχει το άγνωστο µ. Στατιστική Συµπερασµατολογία 32