ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Σχετικά έγγραφα
Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Στατιστική. Εκτιμητική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

HMY 795: Αναγνώριση Προτύπων

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας

Στατιστική Συμπερασματολογία

HMY 795: Αναγνώριση Προτύπων

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Στατιστική Συμπερασματολογία

Θεωρία Λήψης Αποφάσεων

- ΟΡΙΟ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ ΕΝΟΤΗΤΑ 6: ΜΗ ΠΕΠΕΡΑΣΜΕΝΟ ΟΡΙΟ ΣΤΟ

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Εφαρμοσμένη Στατιστική

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Εισόδημα Κατανάλωση

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΝΤΥΠΟ ΘΕΜΑΤΩΝ ΕΞΕΤΑΣΕΩΝ

1 Μερική παραγώγιση και μερική παράγωγος

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Αναγνώριση Προτύπων Ι

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

HMY 795: Αναγνώριση Προτύπων

Στατιστική Συμπερασματολογία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 1: Εκτιμητές και Ιδιότητες. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

Kεφάλαιο 4. Συστήματα διαφορικών εξισώσεων. F : : F = F r, όπου r xy

Παραδείγματα Ιδιοτιμές Ιδιοδιανύσματα

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Κεφάλαιο 2: Θεωρία Απόφασης του Bayes 2.1 Εισαγωγή

Στατιστική Συμπερασματολογία

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων

Παράδειγμα 1. Δίνεται ο κάτωθι κλειστός βρόχος αρνητικής ανάδρασης με. Σχήμα 1. στο οποίο εφαρμόζουμε αρνητική ανάδραση κέρδους

Μαθηματική Εισαγωγή Συναρτήσεις

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

Από το Γυμνάσιο στο Λύκειο Δειγματικός χώρος Ενδεχόμενα Εύρεση δειγματικού χώρου... 46

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

IV. Συνέχεια Συνάρτησης. math-gr


Εφαρμοσμένη Στατιστική

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

HMY 795: Αναγνώριση Προτύπων

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Από το Γυμνάσιο στο Λύκειο Δειγματικός χώρος Ενδεχόμενα Εύρεση δειγματικού χώρου... 46

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Κεφάλαιο 4: Στοιχεία της εκδοχής hp της ΜΠΣ στις 2- διαστάσεις

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ

ΠΕΡΙΕΧΟΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΟΡΘΟΓΩΝΙΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ...23 ΑΠΟΛΥΤΗ ΤΙΜΗ. ΑΝΙΣΟΤΗΤΕΣ...15 ΚΕΦΑΛΑΙΟ 3 ΕΥΘΕΙΕΣ...32 ΚΕΦΑΛΑΙΟ 4 ΚΥΚΛΟΙ...43

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

Μαθηματική Εισαγωγή Συναρτήσεις

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

- ΟΡΙΟ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ ΕΝΟΤΗΤΑ 7: ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ - ΠΡΑΞΕΙΣ ΜΕ ΣΥΝΕΧΕΙΣ ΣΥΝΑΡΤΗΣΕΙΣ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ ΣΕ ΔΙΑΣΤΗΜΑΤΑ

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

E [ -x ^2 z] = E[x z]

IV.13 ΔΙΑΦΟΡΙΚΕΣ ΕΞΙΣΩΣΕΙΣ 1 ης ΤΑΞΕΩΣ

Δειγματοληψία στην Ερευνα. Ετος

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

Κεφάλαιο 0: Εισαγωγή

Κεφάλαιο 9. Έλεγχοι υποθέσεων

4.3.3 Ο Έλεγχος των Shapiro-Wilk για την Κανονική Κατανομή

Οικονομετρία. Απλή Παλινδρόμηση. Έλεγχοι υποθέσεων και διαστήματα εμπιστοσύνης των συντελεστών. Τμήμα: Αγροτικής Οικονομίας & Ανάπτυξης

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

Περιεχόμενα. 1. Ειδικές συναρτήσεις. 2. Μιγαδικές Συναρτήσεις. 3. Η Έννοια του Τελεστή. Κεφάλαιο - Ενότητα

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

P(A ) = 1 P(A). Μονάδες 7

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

ΘΕΜΑ Α Α1. Αν και είναι δύο συμπληρωματικά ενδεχόμενα ενός δειγματικού χώρου να αποδείξετε ότι για τις πιθανότητές τους ισχύει: ( ) 1 ( ).

ΣΥΝΔΥΑΣΤΙΚΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΩΝ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

9. Παλινδρόμηση και Συσχέτιση

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Ασκήσεις μελέτης της 16 ης διάλεξης

Είδη Μεταβλητών. κλίµακα µέτρησης

Transcript:

3.1 Εισαγωγή ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ Στο κεφ. 2 είδαμε πώς θα μπορούσαμε να σχεδιάσουμε έναν βέλτιστο ταξινομητή εάν ξέραμε τις προγενέστερες(prior) πιθανότητες ( ) και τις κλάση-υπό όρους πυκνότητες ( ). Δυστυχώς,στις εφαρμογές αναγνώρισης προτύπων σπάνια, αν όχι ποτέ, έχουμε αυτό το είδος της πλήρους γνώσης για την πιθανολογική δομή του προβλήματος. Σε μια χαρακτηριστική περίπτωση έχουμε μόνο κάποια ασαφής, γενική γνώση για την κατάσταση, μαζί με διάφορα σχεδιαστικά δείγματα ή δεδομένα εκπαίδευσης - οι ιδιαίτεροι αντιπρόσωποι των προτύπων που θέλουμε να κατηγοριοποιήσουμε. Το πρόβλημα, τότε, είναι να βρεθεί κάποιος τρόπος να χρησιμοποιηθούν αυτές οι πληροφορίες για να σχεδιάσουμε ή να εκπαιδεύσουμε τον ταξινομητή. Μια προσέγγιση σε αυτό το πρόβλημα είναι να χρησιμοποιηθούν τα δείγματα για να εκτιμίσουμε τις άγνωστες πιθανότητες και τις πυκνότητες πιθανότητας, και έπειτα να χρησιμοποιήσουμε τις προκύπτουσες εκτιμήσεις σαν ήταν οι αληθινές τιμές. Στα χαρακτηριστικά εποπτευμένα προβλήματα ταξινόμησης προτύπων, η εκτίμηση των εκ των προτέρων πιθανοτήτων δεν παρουσιάζει καμία σοβαρή δυσκολία (πρόβλημα 3). Εντούτοις,η εκτίμηση από τις κλάση-υπό όρους πυκνότητες είναι ένα άλλο θέμα. Ο αριθμός των διαθέσιμων δειγμάτων φαίνεται πάντα πάρα πολύ μικρός, και τα σοβαρά προβλήματα προκύπτουν όταν ο αριθμός των διαστάσεων του διανύσματος Χ των χαρακτηριστικών είναι μεγάλος. Εάν ξέρουμε τον αριθμό παραμέτρων και η γενική γνώση μας για το πρόβλημα μας επιτρέπουν να παραμετροποίησουμε τις υπό συνθήκη πυκνότητες, τότε η δριμύτητα αυτών των προβλημάτων μπορεί να μειωθεί σημαντικά. Υποθέστε, παραδείγματος χάριν, ότι μπορούμε εύλογα να υποθέσουμε ότι η ( ) είναι μια κανονική πυκνότητα με μέση τιμή και πίνακα συνδιακύμανσης, ωστόσο δεν ξέρουμε τις ακριβείς τιμές αυτών των ποσοτήτων. Αυτή η γνώση απλοποιεί το πρόβλημα από το να υπολογίσουμε μια άγνωστη συνάρτηση ( ) στo να εκτιμίσουμε τις παραμέτρους και. Το πρόβλημα της εκτίμησης παραμέτρου είναι κλασσικό στην στατιστική, και μπορεί να προσεγγιστεί με διάφορους τρόπους. Θα εξετάσουμε δύο συνήθεις και λογικές διαδικασίες, την εκτίμηση μέγιστης πιθανότητας και τη Μπεϋζιανή εκτίμηση. Αν και τα αποτελέσματα που λαμβάνουμε με αυτές τις δύο διαδικασίες είναι, συχνά, σχεδόν ίδια, οι προσεγγίσεις, είναι εννοιολογικά αρκετά διαφορετικές. Η εκτίμηση μέγιστης πιθανοφάνειας και μερικές άλλες μέθοδοι βλέπουν τις παραμέτρους ως ποσότητες οι τιμές των οποίων είναι καθορισμένες αλλά άγνωστες. Η καλύτερη εκτίμηση της τιμής τους καθορίζεται να είναι αυτή που μεγιστοποιεί την πιθανότητα να επιτύχουν τα δείγματα τα οποία παρατηρήθηκαν. Αντίθετα, οι Μπεϋζιανές μέθοδοι βλέπουν τις παραμέτρους ως τυχαίες μεταβλητές που έχουν κάποια γνωστή a priori κατανομή. Η παρατήρηση των δειγμάτων το μετατρέπει σε μια μεταγενέστερη πυκνότητα, με αυτόν τον τρόπο αναθεωρώντας την άποψή μας για τις αληθινές τιμές των παραμέτρων. Στη Μπεϋζιανή περίπτωση, θα δούμε ότι μια χαρακτηριστική επίδραση της παρατήρηση των επιπλέον δειγμάτων πρόκειται να οξύνει την a posteriori συνάρτηση πυκνότητας, που την αναγκάζει να οξύνει κοντά στις πραγματικές τιμές των παραμέτρων. Αυτό το φαινόμενο είναι γνωστό ως Μπεϋζιανή μάθηση. Σε καθε περίπτωση, χρησιμοποιούμε τις μετέπειτα πυκνότητες για τον κανόνα ταξινόμησής, όπως έχουμε δει πιο πριν. 1

Είναι σημαντικό να διακρίνουμε την υπό επίβλεψη μάθηση και την μάθηση χωρίς επίβλεψη. στις δύο περιπτώσεις, τα δείγματα Χ υποτίθεται ότι λήφθηκαν με την επιλογή μιας φυσικής κατάστασης με πιθανότητα ( ), και έπειτα επιλέγοντας ανεξάρτητα το Χ σύμφωνα με το νόμο της πιθανότητας ( ). Η διάκριση είναι ότι με την υπό επίβλεψη μάθηση ξέρουμε την φύση της κατάστασης (ετικέτα κλάσης) για κάθε δείγμα, ενώ με την μάθηση χωρίς επίβλεψη όχι. Όπως θα περίμενε κάποιος, το πρόβλημα της μάθησης χωρίς επίβλεψη είναι το δυσκολότερο. Σε αυτό το κεφάλαιο θα εξετάσουμε μόνο την περίπτωση της επίβλεψης, αναβάλλοντας την συζήτηση της μάθησης χωρίς επίβλεψη στο κεφ.10. Τέλος υπάρχουν μη παραμετρικές διαδικασίες για τον μετασχηματισμό του χώρου των χαρακτηριστικών, ελπίζοντας ότι μπορεί να είναι δυνατό να υιοθετηθούν παραμετρικές μέθοδοι στο μετασχηματισμένο χώρο. Αυτή οι μέθοδοι διακριτής ανάλυσης περιέχουν και αυτή της γραμμικής διακρινουσας Fisher που παρέχει ένα σημαντικό σύνδεσμο ανάμεσα στις παραμετρικές τεχνικές του κεφαλαίου 3 και των προσαρμοστικών τεχνικών των κεφαλαίων 5 και 6 και σε μερικές μεθόδους επιλογής χαρακτιριστικών που περιγράφονται στο κεφάλαιο 10. 3.2 Εκτίμηση μέγιστης πιθανοφάνειας Οι μέθοδοι εκτίμησης μέγιστης πιθανοφάνειας έχουν διάφορες ελκυστικές ιδιότητες. Κατ' αρχάς, σχεδόν πάντα έχουν καλές ιδιότητες σύγκλισης καθώς ο αριθμός δειγμάτων εκπαίδευσης αυξάνει. Επιπλέον, η εκτίμηση μέγιστης πιθανοφάνειας μπορεί συχνά να είναι απλούστερη από τις εναλλακτικές μεθόδους, όπως οι Μπεϋζιανές τεχνικές ή άλλες μέθοδοι που παρουσιάζονται στα επόμενα κεφάλαια. 3.2.1 Η γενική αρχή Υποθέστε ότι χωρίζουμε μια συλλογή δειγμάτων σύμφωνα με την κλάση, έτσι ώστε να έχουμε c σύνολα δεδομένων,,,, με τα δείγματα στο να έχουν επιλεχθεί ανεξάρτητα σύμφωνα με το νόμο της πιθανότητας( ). Λέμε ότι τέτοια δείγματα είναι α.ο.κ.--ανεξάρτητες ομοιόμορφα κατανεμημένες τυχαίες μεταβλητές. Υποθέτουμε ότι η ( ) έχει μια γνωστή παραμετρική μορφή, και επομένως καθορίζεται μοναδικά από την τιμή μιας παραμέτρου διάνυσμα. Για παράδειγμα, να έχουμε την ( )~(, ), όπου αποτελείται από τους συντελεστές και. Για να δείξουμε την εξάρτηση του ( ) στο ρητά, γράφουμε το ( ) ως (, ). Το πρόβλημά μας είναι να χρησιμοποιήσουμε τις πληροφορίες που παρέχονται από τα δείγματα εκπαίδευσης για να λάβουμε καλές εκτιμήσεις για τα άγνωστα διανύσματα παραμέτρους,, που σχετίζονται με κάθε κλάση. Για να απλοποιήσουμε την επεξεργασία αυτού του προβλήματος, θα υποθέσουμε ότι τα δείγματα στο δεν δίνουν καμία πληροφορία για εάν, δηλαδή, θα υποθέσουμε ότι οι παράμετροι για τις διαφορετικές κλάσεις είναι συναρτησιακά ανεξάρτητες. Αυτό μας επιτρέπει να εργαστούμε με κάθε κλάση χωριστά, και για να απλοποιήσουμε το συμβολισμό μας με τη διαγραφή των ενδείξεων των διακρίσεων κλάσης. Με αυτήν την υπόθεση έχουμε c χωριστά προβλήματα της ακόλουθης μορφής: Χρησιμοποιούμε ένα καθορισμένο σύνολο D των δειγμάτων εκπαίδευσης που 2

προέρχονται ανεξάρτητα από την πυκνότητα πιθανότητας ( ) για να υπολογίσουμε το άγνωστο διάνυσμα παραμέτρων θ. Υποθέστε ότι το D περιέχει n δείγματα,,. Κατόπιν, επειδή τα δείγματα επιλέχθηκαν ανεξάρτητα, έχουμε ( )= ( ). (1) Θυμηθείτε από το κεφ.2 ότι, βλέποντάς το ως συνάρτηση του θ, η ( ) καλείται πιθανοφάνεια του θ όσον αφορά το σύνολο των δειγμάτων. Η εκτίμηση μέγιστης πιθανοφάνειας του θ είναι, εξ ορισμού, η τιμή του θ που μεγιστοποιεί την ( ). Διαισθητικά, αυτή η εκτίμηση αντιστοιχεί στην τιμή του θ όπου κατά κάποιο τρόπο συμφωνεί καλύτερα ή υποστηρίζει τα πραγματικά παρατηρηθέντα δείγματα εκπαίδευσης (εικόνα 3.1). Σχήμα 3.1: Η γραφική παράσταση στην κορυφή παρουσιάζει διάφορα σημεία εκπαίδευσης σε μια διάσταση, γνωστή ή που υποτίθεται ότι προήλθε από μία γκαουσσιανή μιας συγκεκριμένης διασποράς, αλλά μίας άγνωστης μέσης τιμής. Τέσσερις από τον άπειρο αριθμό των υποψηφίων πηγαίων κατανομών παρουσιάζονται στις διακεκομένες γραμμές. Η μεσσαία παρουσιάζει την πιθανοφάνεια της ( ) ως συνάρτηση της μέσης τιμής. Εάν είχαμε έναν πολύ μεγάλο αριθμό σημείων εκπαιδεύσης, αυτή η πιθανοφάνεια θα ήταν πολύ στενή. Η τιμή που μεγιστοποιεί την πιθανοφάνεια συμβολίζεται με μεγιστοποιεί επίσης το λογάριθμο της πιθανοφάνειας - δηλ., την log- πιθανοφάνεια (), που παρουσιάζεται στο τέλος.παρατηρείστε ότι αν και δείχνουν παρόμοια, η πιθανοφάνεια ( ) παρουσιάζεται ως συνάρτηση του θ ενώ η πυκνότητα υπο συνθήκη ( ) παρουσιάζεται ως συνάρτηση του x.επιπλέον, ως συνάρτηση του θ, η πιθανοφάνεια ( ) δεν είναι συνάρτηση πυκνότητας πιθανότητας και η περιοχή της δεν έχει καμία σημασία. 3

Για αναλυτικούς λόγους, είναι συνήθως ευκολότερο να εργαστεί κανείς με το λογάριθμο της πιθανοφάνειας απ' ό,τι με η ίδια την πιθανοφάνεια. Δεδομένου ότι ο λογάριθμος αυξάνεται μονότονα,το που μεγιστοποιεί την log- πιθανοφάνεια μεγιστοποιεί επίσης την πιθανοφάνεια. Εάν η ( ) είναι μια καλώς ορισμένη, διαφορίσιμη συνάρτηση του θ, το μπορεί να βρεθεί με τις τυποποιημένες μεθόδους διαφορικού υπολογισμού. Εάν ο αριθμός παραμέτρων που πρόκειται να εκτιμιθούν είναι p,τότε θεωρούμε ότι το θ δηλώνει τον p-συντελεστή διάνυσμα θ =(.. ), και θεωρούμε το να είναι ο τελεστής κλίσης (2) Ορίζουμε το () ως την συνάρτηση log-πιθανοφάνειας ()=ln( ). (3) Μπορούμε έπειτα να γράψουμε τη λύση μας τυπικά ως το όρισμα θ που μεγιστοποιεί τη log-πιθανοφάνεια, δηλ., =argmax(), (4) όπου υποννοείται η εξάρτηση στο σύνολο δεδομένων D. Κατά συνέπεια από την Εξ. 1 ()= ln( ) (5) = ln( ). (6) Κατά συνέπεια, ένα σύνολο απαραίτητων προϋποθέσεων για την εκτίμηση μέγιστης πιθανοφάνειας για το θ μπορεί να ληφθεί από το σύνολο των p εξισώσεων =0. Μια λύση στην Εξ. 7 θα μπορούσε να αντιπροσωπεύει ένα πραγματικά ολικό μέγιστο, ένα τοπικό μέγιστο ή ένα ελάχιστο, ή (σπάνια) ένα σημείο καμπής του (). Κάποιος πρέπει να είναι προσεκτικός, επίσης, για να ελέγξει εάν το extremum εμφανίζεται σε ένα όριο του διαστήματος παραμέτρου, το οποίο μπορεί να μην είναι προφανές από τη λύση στην Εξ. 7. Εάν όλες οι λύσεις βρεθούν, είμαστε σίγουροι ότι μια αντιπροσωπεύει το αληθινό μέγιστο, αν και να πρέπει να ελέγξουμε κάθε λύση χωριστά (ή να υπολογίσουμε τις δεύτερες παραγώγους) για να προσδιορίσουμε που είναι το ολικό μέγιστο. Φυσικά, πρέπει να σημειώσουμε ότι το είναι μια εκτίμηση, είναι μόνο στο όριο ενός απείρως μεγάλου αριθμού σημείων εκπαίδευσης και ότι μπορούμε να αναμείνουμε ότι η εκτίμησή μας θα είναι ίση με με την αληθινή αξία της παράγουσας συνάρτησης. Σημειώνουμε ότι μια σχετική κατηγορία εκτιμητών - maximum a posteriori ή εκτιμητές MAP--βρίσκει την τιμή του θ που μεγιστοποιεί το ()(),όπου το ()περιγράφει την εκ των προτέρων πιθανότητα διαφορετικών τιμών των παραμέτρων. Κατά συνέπεια ένας εκτιμητής μέγιστης πιθανόφάνειας είναι ένας εκτιμητής MAP για ομοιόμορφη ή «επίπεδη» posterior. Υπό αυτήν τη μορφή, ένας εκτιμητής MAP βρίσκει την 4

κορυφή, ή το mode μιας a posteriori πυκνότητας. Το μειονέκτημα των εκτιμητών MAP είναι ότι εάν επιλέξουμε κάποιο αυθαίρετο μη γραμμικό μετασχηματισμό του διαστήματος παραμέτρου (π.χ., μια γενική περιστροφή), η πυκνότητα θα αλλάξει, και η λύση MAP δεν είναι κατ ανάγκη πλέον κατάλληλη. 3.2.2 Η Γκαουσιανή περίπτωση : Άγνωστη μ Για να δείτε πώς τα αποτελέσματα των μεθόδων της μέγιστης πιθανοφάνειας ισχύουν για μια συγκεκριμένη περίπτωση, υποθέστε ότι τα δείγματα προέρχονται από έναν πολλών μεταβλητών κανονικό πληθυσμό με μέση τιμή μ και συνδιακύμανση Σ. Για απλότητα, εξετάστε πρώτα την περίπτωση όπου μόνο η μέση τιμή είναι άγνωστη. Υπό αυτόν τον όρο, εξετάζουμε ένα σημείο του δείγματος και βρίσκουμε ln( )= ln[(2) ] ( ) ( ) (8) ln( )= ( ). (9) Προσδιορίζοντας το θ με μ, βλέπουμε από την Εξ. 9 ότι η εκτίμηση μέγιστης πιθανοφάνειας για μ πρέπει να ικανοποιεί ( )=0. (10) Πολλαπλασιάζοντας με Σ και ρυθμίζοντας εκ νέου, λαμβάνουμε =. (11) Αυτό είναι ένα πολύ να ικανοποιητικό αποτέλεσμα. Λέει ότι η εκτίμηση μέγιστης πιθανοφάνειας για τον άγνωστο πληθυσμό είναι η μέση τιμή των δειγμάτων εκπαίδευσης η μέση τιμή του δείγματος, μερικές φορές γράφεται για να διευκρινίσει την εξάρτησή του στον αριθμό των δειγμάτων. Γεωμετρικά, εάν σκεφτόμαστε τα δείγματα n όπως ένα σύννεφο των σημείων, η μέση τιμή του δείγματος είναι στο κέντρο του σύννεφου. η μέση τιμή του δείγματος έχει ένα αριθμό από επιθυμιτές στατιστικές ιδιότητες επίσης, και κάποια θα έτειναν να χρησιμοποιήσουν αυτήν την μάλλον προφανή εκτίμηση ακόμη και χωρίς γνώση ότι είναι η λύση μέγιστης πιθανοφάνειας. 3.2.3 Η Γκαουσιανή περίπτωση : Άγνωστη μ και Σ Στη γενικότερη (και πιό χαρακτηριστική) κανονική περίπτωση πολλών μεταβλητών, ούτε η μέση τιμή μ ούτε η συνδιακύμανση Σ είναι γνωστή. Κατά συνέπεια, αυτές οι άγνωστες παράμετροι αποτελούν τους συντελεστές του διανύσματος παραμέτρων θ. Εξετάστε πρώτα τη περίπτωση μίας μεταβλητή με = και =. Εδώ η logπιθανοφάνεια ενός σημείου είναι και η παράγωγός του είναι ln( )= ln2 ( ) (12) 5

= ln( )= ( ) ( ) Εφαρμόζοντας τη Εξ. 7 στην log-πιθανοφάνεια οδηγεί στις συνθήκες. (13) ( ) =0 (14) +. (15) ( ) =0 Όπου τα και είναι οι εκτιμήσεις μέγιστης πιθανοφάνειας για τα θ1 και θ2, αντίστοιχα. Αντικαθιστώντας =, = και κάνοντας μια ελάχιστα εκ νέου ρύθμιση, λαμβάνουμε τις ακόλουθες εκτιμήσεις μέγιστης πιθανοφάνειας για και : = (16) = ( ). (17) Ενώ η ανάλυση της περίπτωσης πολλών μεταβλητών είναι βασικά πολύ παρόμοια, περιλαμβάνονται αρκετά περισσότεροι χειρισμοί (πρόβλημα 6). Όπως θα προβλέπαμε, εν τούτοις, το αποτέλεσμα είναι ότι οι εκτιμήσεις μέγιστης πιθανοφάνειας για μ και Σ δίνονται από = (18) = ( )( ). (19) Κατά συνέπεια, άλλη μια φορά διαπιστώνουμε ότι η εκτίμηση μέγιστης πιθανοφάνειας για το διάνυσμα μέσης τιμής είναι η μέση τιμή του δείγματος. Η εκτίμηση μέγιστης πιθανοφάνειας για τον πίνακα συνδιακύμανσης είναι ο αριθμητικός μέσος όρος των n πινάκων ( )( ). Αυτό είναι επίσης ένα πολύ ικανοποιητικό αποτέλεσμα. 3.2.4 Bias Η εκτίμηση της μέγιστης πιθανοφάνειας για τη διασπορά είναι biased δηλαδή η αναμενόμενη τιμή σε όλα τα σύνολα δεδομένων μεγέθους n της διασποράς των δειγμάτων δεν είναι ίση με την αληθινή διασπορά: ℇ ( ) =. (20) Θα επιστρέψουμε σε μια γενικότερη εκτίμηση του bias στο κεφάλαιο 9, αλλά προς το παρόν μπορούμε να επιβεβαιώσουμε την Εξ. 20 για μια ελλοχεύουσα διανομή με μη μηδενική διασπορά,, στην ακραία περίπτωση του n = 1, στο οποίο η αναμενόμενη τιμή δίνεται από E[ ]=0. Η εκτίμηση της μέγιστης πιθανοφάνειας του πίνακα συνδιακύμανσης είναι ομοίως biased. 6

Ένας στοιχειώδης αμερόληπτος εκτιμητής για Σ δίνεται από = ( )( ). (21) όπου το είναι o αποκαλούμενος πίνακας συνδιακύμανσης δειγμάτων, όπως εξερευνείται στο πρόβλημα 33. Εάν ένας εκτιμητής είναι αμερόληπτος για όλες τις κατανομές, όπως παραδείγματος χάριν ο εκτιμητής διασποράς στην Εξ. 21, τότε αποκαλείται απολύτως αμερόληπτος. Σε πολλά προβλήματα αναγνώρισης προτύπων με μεγάλα σύνολα δεδομένων εκπαιδευσης, οι ασυμπτωτικά αμερόληπτοι εκτιμητές είναι αποδεκτοί. Σαφώς, το =[ ], και το είναι ασυμπτωτικά αμερόληπτα, αυτές οι δύο εκτιμήσεις είναι ουσιαστικά ίδιες όταν το n είναι μεγάλο. Ωστόσο, η ύπαρξη δύο παρόμοιων αλλά εντούτοις ευδιάκριτων εκτιμήσεων για τον πίνακα συνδιακύμανσης μπορεί να είναι ανατρεπτικό, και είναι φυσικό να ρωτηθεί ποια είναι «σωστή.» Φυσικά, για n> 1 η απάντηση είναι ότι αυτές οι εκτιμήσεις δεν ούτε σωστές ούτε λάθος - είναι απλώς διαφορετικές. Η ύπαρξη των δύο, ουσιαστικά δείχνει ότι καμία εκτίμηση από μόνη της δεν κατέχει όλες τις ιδιότητες που μπορεί να επιθυμήμουμε. Για τους σκοπούς μας, η πιό επιθυμητή ιδιότητα είναι μάλλον σύνθετη - θέλουμε την εκτίμηση που οδηγεί στην καλύτερη επίδοση ταξινόμησης. Ενώ είναι λογικό και σωστό να σχεδιάσουμε έναν ταξινομητή με την αντικατάσταση των εκτιμήσεων μέγιστης πιθανοφάνειας για τις άγνωστες παραμέτρους, μπορεί να αναρωτηθούμε εάν άλλες εκτιμήσεις δεν οδηγήσουν στην καλύτερη απόδοση.παρακάτω εξετάζουμε αυτήν την ερώτηση από μια Μπεϋζιανή οπτική γωνία. Εάν έχουμε ένα αξιόπιστο μοντέλο για τις ελλοχεύουσες κατανομές και την εξάρτησή τους στο διάνυσμα παραμέτρων θ, ο ταξινομητής μέγιστης πιθανοφάνειας θα δώσει άριστα αποτελέσματα. Αλλά τι γίνεται αν το μοντέλο μας είναι λάθος ; Παίρνουμε πάντα τον καλύτερο ταξινομητή στο υποτιθέμενο σύνολο μοντέλων μας; Για παράδειγμα, άν υποθέσουμε ότι μια κατανομή προέρχεται από το Ν (μ, 1) αλλά αντ' αυτού αυτό προέρχεται πραγματικά από το Ν (μ, 10); Η τιμή που βρίσκουμε για θ = μ από τη μέγιστη πιθανοφάνεια παράγει το καλύτερο όλων των ταξινομητών της μορφής που προέρχεται από το Ν (μ, 1); Δυστυχώς, η απάντηση είναι «όχι» και ένα επεξηγηματικό παράδειγμα δίνεται στο πρόβλημα 7 όπου το αποκαλούμενο μοντέλο λάθους είναι πράγματι μεγάλο. Αυτό επισημαίνει την ανάγκη για αξιόπιστες πληροφορίες σχετικά με τα μοντέλα : εάν το υποτιθέμενο μοντέλο είναι πολύ φτωχό, δεν μπορούμε να βεβαιωθούμε ότι ο ταξινομητής που παράγουμε είναι ο καλύτερος, ακόμη και μεταξύ του συνόλου μας. Θα επιστρέψουμε στο πρόβλημα επιλογής μεταξύ των υποψήφιων μοντέλων στο κεφ.9. 7