Κεφάλαιο 3: Μέγιστη Πιθανοφάνεια και Bayesian Εκτίμηση Παραμέτρων 3.1 Εισαγωγή

Σχετικά έγγραφα
Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

ΜΕΘΟ ΟΣ ΡΕΥΜΑΤΩΝ ΒΡΟΧΩΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΠΑΤΡΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ 22/06/2012 ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΙΑΣ

ΒΑΣΙΚΗ ΑΣΚΗΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑΣ Ι.

Ο σκοπός μας είναι να μάθουμε αν η γενεθλιακή Αφροδίτη σε Αντίθεση με Πλούτωνα είναι όψη

Ελαχιστοποίηση του Μέσου Τετραγωνικού Σφάλµατος για διαφορετικές τιµές των Παραµέτρων του Κλασσικού Γραµµικού Υποδείγµατος.

Dimitris Balios 18/12/2012

Η ΕΝΝΟΙΑ ΤΗΣ ΠΑΡΑΓΩΓΟΥ ΠΑΡΑΓΩΓΟΣ ΣΥΝΑΡΤΗΣΗ ΚΑΝΟΝΕΣ ΠΑΡΑΓΩΓΙΣΗΣ ΡΥΘΜΟΙ ΜΕΤΑΒΟΛΗΣ

EC-ASE: Ευρωπαϊκό Πιστοποιητικό για τους Συμβούλους / Εκπαιδευτές Κοινωνικής Οικονομίας

ΛΥΣΕΙΣ ΕΞΕΤΑΣΗΣ ΣΤΟ ΜΑΘΗΜΑ «ΤΕΧΝΟΛΟΓΙΑ ΜΕΤΡΗΣΕΩΝ» ΗΜΕΡΟΜΗΝΙΑ: 13/02/2014

ΕΞΙΣΩΣΕΙΣ MAXWELL ΘΕΩΡΙΑ

ΜΕΘΟΔΟΣ ΕΙΔΩΛΩΝ ΘΕΩΡΙΑ & ΑΣΚΗΣΕΙΣ

ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ. Απλές περιπτώσεις Εφαρµόζουµε τις ιδιότητες των ορίων. Ουσιαστικά κάνουµε αντικατάσταση. lim 3x 4x+ 8 = = =

2. ΟΡΙΟ & ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

ΚΕΦΑΛΑΙΟ 3ο: ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΝΟΤΗΤΑ 4: ΡΥΘΜΟΣ ΜΕΤΑΒΟΛΗΣ [Κεφ. 2.4: Ρυθμός Μεταβολής του σχολικού βιβλίου]. ΠΑΡΑΔΕΙΓΜΑΤΑ

ροή ιόντων και µορίων

1.0 Βασικές Έννοιες στην Τριγωνομετρία

1.1 Η ΕΝΝΟΙΑ ΤΟΥ ΙΑΝΥΣΜΑΤΟΣ

Θεωρούμε ένα σύστημα με N βαθμούς ελευθερίας, το οποίο θα περιγράφεται από N συντεταγμένες ψ 1 (t), ψ 2 (t),..., ψ N (t).

Ατομικάενεργειακάδιαγράμματα: Θεώρημα μεταβολών: Προσέγγιση Born- Openheimer: Θεωρία μοριακών τροχιακών:

Π.Μ.Σ Ηλεκτρονική Μάθηση

Αρχές Οικονομικής Θεωρίας

ΜΙΑ ΚΡΟΥΣΗ ΣΤΟΙΧΕΙΩΔΩΝ ΣΩΜΑΤΙΔΙΩΝ

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Σκοπός της ενότητας αυτής είναι να παρουσιάσει σύντομα αλλά περιεκτικά τους τρόπους με τους οποίους παρουσιάζονται τα στατιστικά δεδομένα.

Exουμε βρεί την εξίσωση κύματος: λν = υ, όπου υ = Τ /μ στη περίπτωση της χορδής. Οπότε. υ ν = = λ

Ειδικές εφαρμογές: Χρήση ειδικού τύπου τάπας στις ανατινάξεις σε λατομεία

ιατυπώστε την ιδιότητα αυτή µε τη βοήθεια µεταβλητών.

ΕΛΛΗΝΙΚΗ ΜΑΘΗΜΑΤΙΚΗ ΕΤΑΙΡΕΙΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ 2010

220 Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών (Βόλος)

(Ανάλογα εργαζόµαστε και για να αποδείξουµε ότι δύο γωνίες έχουν κοινή διχοτόµο ή δύο τόξα κοινό µέσο).

Τιµή και απόδοση µετοχής. Ανάλυση χαρτοφυλακίου. Απόδοση µετοχής. Μεταβλητότητα τιµών και αποδόσεων

Α. ΝΟΜΟΣ ΗΜΙΤΟΝΩΝ ΟΡΙΣΜΟΙ. α β γ ΜΑΘΗΜΑ 10. Κεφάλαιο 2o : Τριγωνοµετρία. Υποενότητα 2.4: Νόµος των Ηµιτόνων Νόµος των Συνηµιτόνων. Θεµατικές Ενότητες:

ΕΠΙΧΕΙΡΗΜΑΤΙΑΣ ΚΑΙ Η ΜΑΓΙΚΗ ΠΕΤΡΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΒΙΟΜΗΧΑΝΙΑΣ

ΚΕΦΑΛΑΙΟ 12: ΜΙΚΡΕΣ ΤΑΛΑΝΤΩΣΕΙΣ Ευστάθεια κοντά στη θέση ισορροπίας

ΛΥΣΕΙΣ ΕΞΕΤΑΣΗΣ ΣΤΟ ΜΑΘΗΜΑ «ΤΕΧΝΟΛΟΓΙΑ ΜΕΤΡΗΣΕΩΝ» ΗΜΕΡΟΜΗΝΙΑ: 02/02/2017 ΜΟΝΟ ΓΙΑ ΤΟΥΣ ΕΠΙ ΠΤΥΧΙΩ ΦΟΙΤΗΤΕΣ , (1) R1 R 2.0 V IN R 1 R 2 B R L 1 L

ΙΑΓΩΝΙΣΜΑ ΑΛΓΕΒΡΑΣ Β ΛΥΚΕΙΟΥ

ΠΟΛΩΤΙΚΑ ΦΙΛΤΡΑ (Polaroids)

ΜΑΓΝΗΤΙΚΗ ΔΥΝΑΜΗ ΠΑΝΩ ΣΕ ΑΓΩΓΟ ΠΟΥ ΔΙΑΡΡΕΕΤΑΙ ΑΠΟ ΡΕΥΜΑ

για το Τμήμα Πληροφορικής με Εφαρμογές στη Βιοιατρική, του Πανεπιστημίου Στερεάς Ελλάδας ίϊρμίϊμιη

HMY 795: Αναγνώριση Προτύπων

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 13

Συστήματα Αυτομάτου Ελέγχου ΙΙ Ασκήσεις Πράξης

ΜΑΘΗΜΑ ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

ΗΜΙΤΟΝΙΚΗ ΜΟΝΙΜΗ ΚΑΤΑΣΤΑΣΗ (Η.Μ.Κ.)

Τίτλος Μαθήματος: Γενική Φυσική (Ηλεκτρομαγνητισμός) Διδάσκων: Επίκουρος Καθηγητής Δημήτριος Βλάχος

44.5kN (111.25kN) 14.6kN/m (36.5kN/m) 0.65m. Σχήµα Γεωµετρικά δεδοµένα, δεδοµένα φόρτισης και διακριτοποίησης της δοκού του παραδείγµατος 2γ.

ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΙΑΣ ΠΤΥΧΙΑΚΉ ΕΡΓΑΣΙΑ. «Δημιουργία ολοκληρωμένων αρχείων. μετεωρολογικών δεδομένων από μετρήσεις

Πολλαπλές λύσεις Δημιουργικότητα σε Προβλήματα Μαθηματικών

Εάν η εξωτερική περιοδική δύναμη είναι της μορφής F δ =F max ημω δ t, τότε η εφαρμογή του 2 ου Νόμου του Νεύτωνα δίνει: dx b dt

Ατομική και ηλεκτρονιακή δομή των στερεών

Τεχνικό εγχειρίδιο. Χαλύβδινος λέβητας βιομάζας σειρά BMT

ΠΑΡΑ ΟΣΙΑΚΑ ΜΟΥΣΙΚΑ ΟΡΓΑΝΑ ΑΠΟ ΟΛΟ ΤΟ ΚΟΣΜΟ. ΕΝΑ ΜΟΥΣΙΚΟ ΤΑΞΙ Ι ΣΤΙΣ 5 ΗΠΕΙΡΟΥΣ ΜΕ ΜΕΡΙΚΑ ΚΛΙΚ. ΙΑΘΕΜΑΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΜΕ ΤΗ ΧΡΗΣΗ Η/Υ

V=αβγ (1) µ το πλάτος της δεξαµενής, β= 1

2 ο υ ΣΥΝΕΔΡΙΟΥ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΑΥΤΟΜ ΑΤΙΣΜ ΟΥ. Δυνατότητες της Τεχνολογίας και του Αυτοματισμού στην ανατολή του 21ου α ιώ να

Γυμνάσιο-Ημερήσιο & Εσπερινό ΓΕ.Λ. Πανελλαδικών

Ορισμός: Μια συνάρτηση f/α ονομάζεται συνεχής στο σημείο x ο

ΣΤΑΤΙΚΑ ΗΜΜ ΠΕΔΙΑ. Καταναλισκόμενη ισχύς σε ωμικό αγωγό. Το έργο που παράγεται από το ηλεκτρικό πεδίο πάνω σ ένα ελεύθερο φορτίο του αγωγού είναι,

«Νανοκρυσταλλικό πυρίτιο για εφαρμογές σε νανοηλεκτρονικές διατάξεις μνήμης»

ΣΤΕΦΑΝΟΣ ΣΤΕΦΑΝΟΥ Α.Ε.Μ. 4049

ΤΡΙΓΡΑΜΜΑ ΚΑΙ ΔΙΑΤΑΞΕΙΣ

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 19 ΙΟΥΝΙΟΥ 2018 ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

Στατιστική Συμπερασματολογία

ΑΝΑΡΤΗΤΕΟ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΕΠΕΙΓΟΝ-ΠΡΟΘΕΣΜΙΑ

: ΕΥΔ ΕΠ ΠΙΝ : Θ. Σπίγγος Ημερ. : 8/2/2017 Αριθμ. Πρωτ ΘΕΜΑ: Παροχή διευκρινήσεων σχετικά με την Πρόσκληση ΙΟΝ40 του ΠΕΠ Ι.Ν

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ

ΜΑΘΗΜΑ ΟΡΙΟ ΣΥΝΑΡΤΗΣΗΣ ΣΤΟ xo

Τίτλος Μαθήματος: Γενική Φυσική (Ηλεκτρομαγνητισμός) Διδάσκων: Επίκουρος Καθηγητής Δημήτριος Βλάχος

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΘΕΡΜΟΧΗΜΕΙΑ ΠΡΟΣΔΙΟΡΙΣΜΟΣ ΘΕΡΜΟΤΗΤΑΣ ΑΝΤΙΔΡΑΣΕΩΣ. Έννοιες που πρέπει να γνωρίζετε: Α θερμοδυναμικός νόμος, ενθαλπία, θερμοχωρητικότητα

Κεφάλαιο 4 ΗΛΕΚΤΡΙΚΟ ΔΥΝΑΜΙΚΟ ΚΑΙ ΕΝΕΡΓΕΙΑ

Ι Α Γ Ω Ν Ι Σ Μ Α ΧΗΜΕΙΑ Β ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ. 04 Ιαν 2011 Επιµέλεια: Μπεντρός Χαλατζιάν

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανολογίας Τομέας Ενεργειακός. Πτυχιακή Εργασία

Μέθοδος μέγιστης πιθανοφάνειας

ΑΠΑΝΤΉΣΕΙΣ ΠΑΝΕΛΛΗΝΙΩΝ ΕΞΕΤAΣΕΩΝ ΦΥΣΙΚΗ ΘΕΤΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ 2009 Επιμέλεια: Νεκτάριος Πρωτοπαπάς.

ΕΚΠΑΙΔΕΥΤΗΡΙΑ ΓΕΙΤΟΝΑ ΤΜΗΜΑ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ & ΤΕΧΝΟΛΟΓΙΑΣ

ΕΣΩΤΕΡΙΚΟΣ ΚΑΝΟΝΙΣΜΟΣ ΛΕΙΤΟΥΡΓΙΑΣ. Προγράμματος Μεταπτυχιακών Σπουδών Ειδίκευσης (Π.Μ.Σ.) στην «Ψυχολογία της Υγείας» και στη «Σχολική Ψυχολογία»

HMY 795: Αναγνώριση Προτύπων

Θέματα πανελληνίων διαγωνισμών Ε.Μ.Ε. Β γυμνασίου Θαλής

ΠΡΟΤΕΙΝΟΜΕΝΑ ΘΕΜΑΤΑ ΦΥΣΙΚΗΣ ΘΕΤΙΚΗΣ ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Β ΛΥΚΕΙΟΥ

γραπτή εξέταση στο µάθηµα ΦΥΣΙΚΗ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

Στατιστική. Εκτιμητική

Στα παρακάτω σχήµατα δίνονται οι γραφικές παραστάσεις δύο συναρτήσεων. Να βρείτε τα σηµεία στα οποία αυτές δεν είναι συνεχείς. 2 3,5 1 O. x 2.

Ο ΤΑΜΕΙΑΚΟΣ ΚΥΚΛΟΣ ΣΑΝ ΜΕΓΕΘΟΣ ΜΕΤΡΗΣΗΣ ΤΗΣ ΡΕΥΣΤΟΤΗΤΑΣ: ΕΜΠΕΙΡΙΚΗ ΜΕΛΕΤΗ ΤΩΝ ΕΙΣΗΓΜΕΝΩΝ ΕΤΑΙΡΙΩΝ ΣΤΟ Χ.Α.Α.

ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ Πρόλογος Η έννοια και η σημασία της χρηματοοικονομικής ανάλυσης... 9

Γεώργιος Παστιάδης* ΑΣΤΙΚΑ ΚΑΙ ΑΓΡΟΤΙΚΑ ΚΕΝΤΡΑ: ΔΙΕΡΕΥΝΩΝΤΑΙ ΜΕ ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΥΣ ΤΗ ΝΕΑ ΚΟΙΝΩΝΙΚΗ ΑΤΖΕΝΤΑ, ΥΠΟ ΤΗΝ ΕΠΙΔΡΑΣΗ ΤΟΥ ΕΠΙΠΕΔΟΥ ΕΚΠΑΙΔΕΥΣΗΣ

Τίτλος Μαθήματος: Γενική Φυσική (Ηλεκτρομαγνητισμός) Διδάσκων: Επίκουρος Καθηγητής Δημήτριος Βλάχος

ΦΘΙΝΟΥΣΕΣ ΚΑΙ ΕΞΑΝΑΓΚΑΣΜΕΝΕΣ ΤΑΛΑΝΤΩΣΕΙΣ

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ ΝΕΟ & ΠΑΛΑΙΟ ΣΥΣΤΗΜΑ Γ ΗΜΕΡΗΣΙΩΝ ΤΕΤΑ ΤΗ 18 ΑΪ Υ 2016 ΑΤΕΥΘΥ ΣΗΣ ( Α Α ΣΥΣΤΗ Α) ,β), τότε να αποδείξετε ότι το f(x

Τετάρτη 5 Νοεμβρίου 2014 ΕΠΙΛΕΓΜΕΝΑ ΘΕΜΑΤΑ ΦΥΣΙΚΗΣ Α ΛΥΚΕΙΟΥ ΑΠΟ ΤΗΝ ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ

HMY 795: Αναγνώριση Προτύπων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

1o ΛΥΚΕΙΟ ΠΕΤΡΟΥΠΟΛΗΣ ΠΟΛΥΩΝΥΜΑ ΠΟΛΥΩΝΥΜΑ ΟΡΙΣΜΟΣ ( ) Αριθµητική τιµή του πολυώνυµου ( ) Το πολυώνυµο ( ) = = =.

ΕΦΑΡΜΟΓΗ 3.2. (Η/Ν Υπερεντάσεως Κατευθύνσεως)

ΠΑΝΕΛΛΗΝΙΑ Αριθμ. Πρωτ. 25/2018. ΟΜΟΣΠΟΝΔΙΑ ΣΤΡΑΤΙΩΤΙΚΩΝ Αθήνα 27 Αυγ ΑΝΑΚΟΙΝΩΣΗ ΥΠ ΑΡΙΘΜ. 101

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Οδηγίες λειτουργίας AMASET + Κυτίο μεταγωγής

Transcript:

Κεφάλαι 3: Μέγιστη Πιθανφάνεια και Bayesia Εκτίμηση Παραμέτρων 3. Εισαγωγή Στ κεφάλαι είδαμε πως μπρύμε να σχεδιάσυμε έναν βέλτιστ ταξινμητή, αν όμως έχυμε γνωστές τις εκ των πρτέρων πιθανότητες P(ω i ) και τις υπό συνθήκη πυκνότητες πιθανότητας p(x ω i ). Δυστυχώς όμως στα πρακτικά πρβλήματα η δμή αυτών των πιθαντήτων είναι άγνωστη. Στις περισσότερες των περιπτώσεων έχυμε κάπια αόριστη, γενική γνώση σχετικά με την κατάσταση αυτών των πιθαντικών δμών μαζί με έναν αριθμό επίσης από δείγματα εκπαίδευσης, πυ είναι αντιπρσωπευτικά των πρτύπων πυ θέλυμε να ταξινμήσυμε. Τ πρόβλημα τώρα είναι να βρύμε κάπιν τρόπ να χρησιμπιήσυμε αυτήν την πληρφρία στ σχεδιασμό ή την εκπαίδευση τυ ταξινμητή. Μια πρσέγγιση στ πρόβλημα είναι να χρησιμπιήσυμε δείγματα για να βρύμε τις άγνωστες πιθανότητες και τις πυκνότητές τυς και μετά να τις χρησιμπιήσυμε σαν να ήταν ι πραγματικές. Σε τυπικά πρβλήματα αναγνώρισης πρτύπων η εκτίμηση των εκ των πρτέρων πιθαντήτων δεν παρυσιάζει σβαρές δυσκλίες. Όμως η εκτίμηση των υπό συνθήκη κατηγρίας (class cditial) πυκντήτων είναι εντελώς άλλ θέμα. Ο αριθμός των διαθέσιμων δειγμάτων σχεδόν πάντα δείχνει να είναι μικρός και δημιυργύνται πρβλήματα όταν τ διάνυσμα χαρακτηριστικών x είναι μεγάλ. Αν γνωρίζυμε από πριν τν αριθμό των παραμέτρων και αν η γενική γνώση μας για τ πρόβλημα μας επιτρέπει να παραμετρπιήσυμε τις υπ συνθήκη πυκνότητες, τότε ι δυσκλίες αυτών των πρβλημάτων μπρύν να μειωθύν σημαντικά. Για παράδειγμα υπθέστε ότι p(x ω i ) είναι μια καννική πυκνότητα με κάπια μέση τιμή μ i και πίνακα συνδιασπράς Σ i., αν και δεν γνωρίζυμε τις ακριβείς τιμές,αυτών των παραμέτρων. Η γνώση αυτή απλπιεί τ πρόβλημα, αντί να ψάχνυμε να εκτιμήσυμε την άγνωστη συνάρτηση p(x ω i ), ψάχνυμε τις παραμέτρυς μ i και Σ i. Τ πρόβλημα της εκτίμησης παραμέτρων είναι κλασσικό στην Στατιστική και μπρεί να πρσεγγιστεί με πλλύς τρόπυς. Μπρύμε να θεωρήσυμε δύ γνωστές διαδικασίες, την εκτίμηση μέγιστης πιθανφάνειας και την Bayesia εκτίμηση. Αν και τα απτελέσματα πυ παίρνυμε από αυτές τις διαδικασίες μιάζυν, εντύτις διαφέρυν ως πρς τη σύλληψη. Η εκτίμηση μέγιστης πιθανφάνειας και άλλες μέθδι λαμβάνυν ως παραμέτρυς κάπιες πσότητες, ι πίες έχυν σταθερές αλλά άγνωστες τιμές. Η βέλτιστη εκτίμηση των τιμών αυτών είναι εκείνη πυ μεγιστπιεί την πιθανότητα να πάρυμε τα δείγματα πυ έχυμε αρχικά παρατηρήσει. Σε αντίθεση, ι μέθδι Bayesia εκτίμησης θεωρύν τις παραμέτρυς ως τυχαίες μεταβλητές, πυ έχυν όμως γνωστή εκ των πρτέρων κατανμή. Η παρατήρηση των δειγμάτων μετατρέπει αυτές τις κατανμές σε εκ των υστέρων πυκνότητες επιθεωρώντας έτσι τη γνώμη μας για τις πραγματικές τιμές αυτών των παραμέτρων. Στις Bayesia περιπτώσεις, θα δύμε, ότι μια τυπική επίπτωση της παρατήρησης των δειγμάτων είναι να βελτιώνυμε την εκ των υστέρων συνάρτηση πυκνότητας πρκαλώντας απότμες κρυφές (peas) κντά στις πραγματικές τιμές των παραμέτρων. Αυτό τ φαινόμεν είναι γνωστό ως μάθηση κατά Bayes. Σε πιαδήπτε από τις δύ πραναφερθείσες περιπτώσεις χρησιμπιύμε τις εκ των υστέρων πυκνότητες ως κανόνα ταξινόμησης όπως είδαμε πρηγυμένως. Είναι σημαντικό να θέσυμε τ διαχωρισμό μεταξύ της επιβλεπόμενης μάθησης και της μη επιβλεπόμενης. Τα δείγματα x και στις περιπτώσεις, υπτίθεται ότι τα

παίρνυμε επιλέγντας μια κατάσταση από τ ω i με πιθανότητα P(ω i ) και στη συνέχεια επιλέγντας ανεξάρτητα x σύμφωνα με τ νόμ πιθαντήτων p(x ω i ). Η διαφρά είναι ότι με την επιβλεπόμενη μάθηση, γνωρίζυμε την κατάσταση της φύσης (ετικέτα κατηγρίας) για κάθε δείγμα, ενώ στη μη επιβλεπόμενη μάθηση η κατάσταση δεν είναι γνωστή. Όπως θα περίμενε κάπις τ πρόβλημα της μη επιβλεπόμενης μάθησης είναι δυσκλότερ. Στ κεφάλαι αυτό θα θεωρήσυμε μόν την περίπτωση της επιβλεπόμενης μάθησης. 3. Εκτίμηση Μέγιστης Πιθανφάνειας Η εκτίμηση μεγίστης πιθανφάνειας έχει ένα μεγάλ αριθμό ελκυστικών ιδιτήτων. Αρχικά έχυν σχεδόν πάντα καλές ιδιότητες σύγκλισης, όσ βέβαια αριθμός των δειγμάτων αυξάνει. Επίσης η εκτίμηση μεγίστης πιθανφάνειας είναι συχνά ευκλότερη μέθδς, από τις εναλλακτικές τεχνικές, όπως είναι η Bayesia ή άλλες μεθόδι πυ παρυσιάζνται στα επόμενα υπκεφάλαια. 3.. Η Γενική Αρχή Υπθέστε ότι διαχωρίζυμε μια συλλγή δειγμάτων ανάλγα με την τάξη τυς, έτσι ώστε να έχυμε c σύνλα δεδμένων, D, D c με τα δείγματα στ D j να είναι επιλεγμένα ανεξάρτητα από την πιθανότητα p(x ω j ). Τότε λέμε ότι αυτά τα δείγματα είναι α.ι.κ ανεξάρτητες και ιδανικά κατανεμημένες τυχαίες μεταβλητές. Υπθέτυμε ότι η p(x ω j ) έχει γνωστή παραμετρική μρφή και έτσι είναι καθρισμένη μναδικά από την τιμή μιας παραμέτρυ διανύσματς θ j. Για παράδειγμα, μπρεί να έχυμε p(x ω j ) Ν(μ j,σ j ), όπυ τ θ j απτελείται από τα μ j και τα Σ j. Για να δείξυμε την εξάρτηση τυ p(x ω j ) και θ j, γράφυμε τ p(x ω j ) ως p(x ω j, θ j ). Τ πρόβλημά μας είναι να χρησιμπιήσυμε την πληρφρία πυ μας παρέχυν τα δείγματα εκπαίδευσης για να πάρυμε καλή πρσέγγιση για τις άγνωστες παραμέτρυς θ, θ c, πυ σχετίζνται με κάθε κατηγρία. Για να απλπιήσυμε τ πρόβλημα, ας υπθέσυμε ότι τα δείγματα D i, δε δίνυν πληρφρία για τα θ j αν i j, αυτό σημαίνει ότι θα υπθέσυμε ότι ι παράμετρι για τις διαφρετικές τάξεις είναι λειτυργικά ανεξάρτητες. Αυτό μας επιτρέπει να δυλέψυμε με κάθε τάξη ξεχωριστά και να απλπιήσυμε τ συμβλισμό διαγράφντας τις ενδείξεις διαχωρισμύ των κατηγριών. Με αυτήν την υπόθεση, έχυμε c διαφρετικά πρβλήματα της ακόλυθης μρφής: Χρησιμπιύμε ένα σύνλ D δειγμάτων εκπαίδευσης σχεδιασμένων ανεξάρτητα από την πυκνότητα πιθανότητας p(x θ) για να εκτιμήσυμε την άγνωστη διανυσματική παράμετρ θ. Υπθέστε ότι τ D περιέχει δείγματα, x,, x. Τότε επειδή τα δείγματα είναι ανεξάρτητα έχυμε: p ( D θ ) = p ( x θ ) (3.) κ = Θυμηθείτε από τ κεφάλαι, ότι αριστερός όρς της παραπάνω εξίσωσης, αν θεωρηθεί συνάρτηση ως πρς τ θ καλείται πιθανφάνεια τυ θ ως πρς τ σύνλ των δείγματων. Η εκτίμηση της μέγιστης πιθανφάνειας τυ θ είναι εξ ρισμύ, η τιμή θ πυ μεγιστπιεί τ p ( D θ ). Διαισθητικά, αυτή η εκτίμηση αντιστιχεί με μια τέτια τιμή θ πυ, κατά κάπια έννια να συμφωνεί ή να συμβαδίζει με τα πραγματικά, παρατηρύμενα, δείγματα εκπαίδευσης (Εικόνα 3.).

Εικόνα 3. Για αναλυτικύς σκπύς είναι συνήθως ευκλότερ να δυλεύει κανείς με τ λγάριθμ της πιθανφάνειας. Επειδή, λγάριθμς είναι αύξυσα μνότνη συνάρτηση, τ θ πυ μεγιστπιεί την lg πιθανφάνεια, μεγιστπιεί επίσης την πιθανφάνεια. Αν τ p ( D θ ) συμπεριφέρεται καλά, η διαφρίσιμη συνάρτηση τυ θ, τ θ μπρεί να βρεθεί με μεθόδυς διαφρικής λγικής. Αν επίσης, αριθμός των παραμέτρων πυ πρέπει να εκτιμηθύν είναι p, τότε με τ θ δηλώνυμε τ p t συνιστωσών διάνυσμα θ = ( θ,..., θ και τ ανάδελτα τυ θ ρίζεται ως: p ) θ θ = :. θ p Ορίζυμε τ l(θ) ως την lg συνάρτηση πιθανφάνειας: (3.) l ( θ ) l p ( D θ ) (3.3) Μπρύμε να γράψυμε τη δική μας λύση τυπικά, ως τ θ πυ μεγιστπιεί την lglielihd: θ = arg max l ( θ ), (3.4) θ

όπυ η εξάρτηση στ σύνλ D είναι έμμεση. Έτσι έχυμε από την εξίσωση 3.: l ( θ ) = l p ( x κ θ ) (3.5) κ = και θ l = θ l p ( x κ θ ). (3.6) κ = Έτσι ένα σύνλ από απαιτύμενες συνθήκες για τη μέγιστη εκτίμηση πιθανφάνειας για τ θ μπρεί να εξαχθεί από τ σύνλ των p εξισώσεων: θ l = 0 (3.7) Μία λύση έστω θ της εξίσωσης 3.7, μπρεί να αντιπρσωπεύει ένα αληθινό, λικό μέγιστ, ένα τπικό μέγιστ ή ελάχιστ ή σπανιότερα ένα σημεί τυ l(θ). Πρέπει στ σημεί αυτό να είμαστε πρσεκτικί ώστε να ελέγξυμε εάν τ ακραί σημεί βρίσκεται στ όρι τυ χώρυ των παραμέτρων, πράγμα τ πί μπρεί να μην γίνει πρφανές από την λύση της εξίσωσης 3.7. Αν βρεθύν όλες ι λύσεις εγγυόμαστε ότι η μια αναπαριστά τ αληθινό μέγιστ, όμως μπρεί να θέλυμε να ελέγξυμε κάθε λύση ατμικά (η να υπλγίσυμε τις δεύτερες παραγώγυς) για να αναγνωρίσυμε πι είναι τ λικό βέλτιστ. Πάντως πρέπει να μην ξεχνάτε ότι τ θ είναι απλά μια εκτίμηση και ότι είναι μνάχα στ όρι ενός απειρστύ αριθμύ σημείων εκπαίδευσης, πυ μπρεί να περιμένυμε ότι η εκτίμηση μας, θα ισδυναμεί με την αληθινή τιμή της συνάρτησης πυ παράγεται. Παρατηρήσατε μέχρι εδώ ότι η σχετική τάξη των εκτιμητών μέγιστη εκ των υστέρων ή ΜΑP (Μaximum Α Psteriri) βρίσκει την τιμή τυ θ πυ μεγιστπιεί τ l(θ)p(θ), όπυ τ p(θ) περιγράφει την εκ των πρτέρων πιθανότητα των διαφρετικών τιμών παραμέτρων. Ο MAP εκτιμητής βρίσκει την κρυφή ή την κατάσταση της εκ των υστέρων πυκνότητας. Τ μεινέκτημα των ΜΑP εκτιμητών είναι ότι αν επιλέξυμε κάπιν αφηρημέν μη γραμμικό μετασχηματισμό τυ χώρυ των παραμέτρων, (για παράδειγμα μια συνλική περιστρφή), η πυκνότητα θα αλλάξει και η MAP λύση, δε θα είναι πλέν η κατάλληλη. 3.. Η περίπτωση Gauss: Τ άγνωστ μ Για να δείξυμε πως ι μέθδι της μέγιστης πιθανφάνειας εφαρμόζνται σε μια συγκεκριμένη περίπτωση, υπθέτυμε ότι τα δείγματα πρέρχνται από έναν καννικό πληθυσμό, πυ όμως εμφανίζει μεγάλες απκλίσεις με μέση τιμή μ και πίνακα συνδιασπράς Σ. Για λόγυς απλότητας, θεωρήστε πρώτα την περίπτωση όπυ μόν η μέση τιμή είναι άγνωστη. Κάτω από αυτές τις συνθήκες, θεωρύμε ένα σημεί δείγμα x κ και βρίσκυμε: d t lp(x κ μ) = l[( π ) Σ ] ( x ) Σ ( x ) (3.8) και μ lp(x κ μ) = Σ ( x ) (3.9) Αναγνωρίζντας τ θ από τ μ, βλέπυμε από τις εξισώσεις 3.6, 3.7 και 3.9 ότι η εκτίμηση μέγιστης πιθανφάνειας για τ μ πρέπει να ικανπιεί:

κ = Σ ( x ) = 0 (3.0) Πλλαπλασιάζντας με Σ και αναδιαμρφώνντας έχυμε: = x (3.) = Αυτό είναι ένα πλύ ικανπιητικό απτέλεσμα. Λέει ότι η εκτίμηση μέγιστης πιθανφάνειας για τν άγνωστ μέσ όρ τυ πληθυσμύ είναι απλά αριθμητικός μέσς όρς των δειγμάτων εκπαίδευσης η μέση τιμή τυ δείγματς πυ κάπιες φρές γράφεται, για να διευκρινίσει την εξάρτησή τυ από τν αριθμό των δειγμάτων. Γεωμετρικά αν σκεφτύμε τα δείγματα ως σύννεφ σημείων, μέσς όρς τυ δείγματς είναι στ κέντρ τυ σύννεφυ. Ο μέσς όρς τυ δείγματς έχει ένα αριθμό επιθυμητών στατιστικών ιδιτήτων όπως επίσης και κάπις θα μπρύσε να χρησιμπιήσει αυτήν την εκτίμηση χωρίς ακόμη να γνωρίζει ότι πρόκειται για την επίλυση μέγιστης πιθανφάνειας. 3..3 Η περίπτωση Gauss: Τ άγνωστ μ και Σ Σε μια πι γενική (και πι τυπική) περίπτωση, με δείγματα πυ πρέρχνται από έναν καννικό πληθυσμό, πυ όμως εμφανίζει μεγάλες απκλίσεις, ύτε η μέση τιμή μ ύτε πίνακας συνδιασπράς Σ είναι γνωστός. Έτσι αυτές ι άγνωστες παράμετρι απτελύν τις συνιστώσες τυ διανύσματς παραμέτρων θ. Θεωρήστε αρχικά την περίπτωση όπυ θ =μ και θ =σ. Εδώ τ lg lielihd σημεί είναι ένα απλό σημεί: lp(x κ θ) = l πθ ( x κ θ ) θ (3.) και η παράγωγός τυ: l = θ θ ( x κ θ ) θ l p ( x = κ θ ) ( x κ θ ) + θ θ (3.3) Εφαρμόζντας την εξίσωση 3.7 στην πλήρη lg lielihd δηγύμαστε στις συνθήκες: ( x ) 0 κ θ = (3.4) κ = θ και + κ = θ κ = ( x κ θ ) θ = 0 (3.5) όπυ τ θ και τ θ είναι ι εκτιμήσεις για τη μέγιστη πιθανφάνεια για τα θ και θ, αντίστιχα. Με την αντικατάσταση τυ = θ και σ = θ παίρνυμε:

= x = (3.6) και σ = ( x ) (Μνδιάστατη Gauss) (3.7) = Ενώ η ανάλυση της περίπτωσης κατά την πία υπάρχυν απκλίσεις στν πληθυσμό είναι παρόμια, εμπλέκνται συγκριτικά πλύ περισσότερι χειρισμί. Όπως θα είχαμε πρβλέψει πάντως, τ απτέλεσμα είναι ότι η εκτίμηση της μέγιστης πιθανφάνειας για τ μ και τ Σ δίννται από τυς τύπυς: = x (3.8) = και t Σ = ( x )( x ) (Γενική Περίπτωση Πλυδιάστατη Gauss) (3.9) = Έτσι, ακόμη μια φρά βρήκαμε ότι η μέγιστη πιθανφάνεια, για τ διάνυσμα της μέσης τιμής είναι απλά η μέση τιμή τυ δείγματς. Η εκτίμηση της μέγιστης πιθανφάνειας για τν πίνακα συνδιασπράς είναι αριθμητικός μέσς όρς των μητρείων )( x κ t ( x ). Επειδή αληθινός πίνακας συνδιασπράς είναι η κ πρσδκώμενη τιμή τυ πίνακα απτέλεσμα. )( x κ t ( x ) αυτό είναι ένα πλύ σημαντικό κ 3..4 Πόλωση (Bias) Η εκτίμηση της μέγιστης πιθανφάνειας για τη διασπρά σ είναι πλωμένη δηλαδή, η πρσδκώμενη τιμή όλων των συνόλων δεδμένων πλήθυς τυ δείγματς διασπράς δεν είναι ίση με την αληθινή διασπρά. _ E ( xi x ) = σ σ (3.0) = Μπρύμε να επαληθεύσυμε την εξίσωση 3.0 για την υπκείμενη κατανμή με μη μηδενική διασπρά σ και στην ακραία περίπτωση τυ =, στην πία πρσδκώμενη τιμή δίνεται από Ε [ ] = 0 σ. Η εκτίμηση μέγιστης πιθανφάνειας τυ πίνακα συνδιασπράς είναι παρμίως πλωμένη. Ένας στιχειώδης μη πλωμένς εκτιμητής για τ Σ δίνεται από: C = ( x = τ κ )( x κ ) (3.) όπυ τ C είναι τ λεγόμεν δείγμα τυ πίνακα συνδιασπράς. Αν ένας εκτιμητής είναι μη πλωμένς για όλες τις κατανμές, όπως για παράδειγμα εκτιμητής διασπράς στην εξίσωση 3., τότε λέγεται απόλυτα μη πλωμένς. Αν εκτιμητής τείνει να γίνει μη πλωμένς όσ αριθμός των δειγμάτων γίνεται πλύ μεγάλς, όπως για παράδειγμα στην εξίσωση 3.0, τότε εκτιμητής είναι ασυμπτωτικά μη

πλωμένς. Σε πλλά πρβλήματα αναγνώρισης πρτύπων με μεγάλ σύνλ δεδμένων εκπαίδευσης, ι ασυμπτωτικά μη πλωμένι εκτιμητές είναι απδεκτί. Είναι φανερό ό,τι Σ = [( ) / ] C και τ Σ είναι ασυμπτωτικά μη πλωμένα. Αυτί ι δύ εκτιμητές είναι ιδανικά όμιι για μεγάλα. Πάντως, η ύπαρξη δύ παρόμιων, μα και συνάμα διακριτών εκτιμητών για τν πίνακα συνδιασπράς μπρεί να είναι ανησυχητική και είναι φυσιλγικό να τίθεται τ ερώτημα πι από τα δύ είναι σωστό. Βέβαια για > η απάντηση είναι ότι αυτί ι εκτιμητές δεν είναι ύτε σωστί ύτε λάθς είναι απλώς διαφρετικί. Αυτό πυ όμως πραγματικά δείχνει η ύπαρξη και των δυ είναι ότι καμιά δεν κατέχει όλες τις επιθυμητές ιδιότητες. Για τυς σκπύς μας, η πι επιθυμητή ιδιότητα είναι πλύ περίπλκη θέλυμε η εκτίμηση να δηγεί στη βέλτιστη απόδση ταξινόμησης. Ενώ είναι συνήθως συνάμα λγικό και ρθό να σχεδιάζυμε τν ταξινμητή αντικαθιστώντας την εκτίμηση της μέγιστης πιθανφάνειας για άγνωστες παραμέτρυς, μπρεί επίσης να αναρωτηθύμε αν άλλι εκτιμητές μπρεί να μην δηγύν σε καλύτερη απόδση. Στη συνέχεια αντιμετωπίζυμε αυτό τ ερώτημα από την Bayesia πλευρά. Αν έχυμε ένα αξιόπιστ μντέλ για τις υπκείμενες κατανμές και για τις εξαρτήσεις τυς από τ παραμετρικό διάνυσμα θ, τότε ένας ταξινμητής μεγίστης πιθανφάνειας μπρεί να έχει βέλτιστα απτελέσματα. Αλλά αν τ μντέλ μας είναι λάθς; Παίρνυμε έτσι κι αλλιώς τν βέλτιστ ταξινμητή από τα υπψήφια μντέλα μας; Για παράδειγμα, τι γίνεται αν υπθέσυμε ότι μια κατανμή πρέρχεται από N(μ,) αλλά στην πραγματικότητα πρέρχεται από Ν(μ,0); Η τιμή πυ βρύμε για θ=μ από τη μέγιστη πιθανφάνεια θα παράγει τν καλύτερ ταξινμητή της μρφής N(μ,); Δυστυχώς, η απάντηση είναι όχι. Συνεπώς αυτό πυ χρειάζεται (θυμηθείτε και από τ κεφάλαι) είναι η αξιόπιστη πληρφρία σχετικά με τ είδς τυ συνόλυ των μντέλων, ώστε να υπθέτυμε όχι πλύ φτωχά μντέλα. 3.3 Εκτίμηση κατά Βayes Τώρα θεωρύμε έναν εκτιμητή κατά Bayes ή αλλιώς μάθηση κατά Bayes σε πρβλήματα αναγνώρισης πρτύπων. Αν και θα πάρυμε παρόμιες απαντήσεις με τις μεθόδυς μέγιστης πιθανφάνειας, εντύτις υπάρχει μια βαθύτερη νηματική διαφρά: Ενώ στις μεθόδυς μέγιστης πιθανφάνειας θεωρήσαμε ως σταθερό τ διάνυσμα παραμέτρων θ, στην μάθηση κατά Βayes θεωρύμε τ θ να είναι τυχαία μεταβλητή και τα δεδμένα εκπαίδευσης μας επιτρέπυν να μετατρέψυμε την κατανμή αυτής της μεταβλητής σε εκ των υστέρων πυκνότητα πιθανότητας. 3.3. Οι υπό συνθήκη πυκνότητες Ο υπλγισμός των εκ των υστέρων πιθαντήτων P ( ω x ) βρίσκεται στην καρδιά της ταξινόμησης κατά Bayes. Ο τύπς τυ Bayes, μας επιτρέπει να υπλγίζυμε αυτές τις πιθανότητες, από τις εκ των πρτέρων πιθανότητες P ( ω ) και τις υπό συνθήκη κατηγρίας πυκνότητες P ( x ω i ), αλλά πως γίνεται κάτι τέτι αν αυτές ι τιμές είναι άγνωστες; Η γενική απάντηση είναι, ότι τ καλύτερ πυ έχυμε να κάνυμε είναι να υπλγίσυμε τ P ( ω x ), χρησιμπιώντας όλη την πληρφρία, πυ έχυμε στην κατχή μας. Μέρς αυτής της πληρφρίας μπρεί να είναι εκ των πρτέρων γνώση, όπως γνώση των συναρτησιακών τύπων για άγνωστες πυκνότητες και περιχές για τις τιμές των άγνωστων παραμέτρων. Μέρς της πληρφρίας μπρεί να βρίσκεται στ σύνλ των δειγμάτων εκπαίδευσης. Αν πάλι δηλώσυμε ως D τ σύνλ των δειγμάτων, τότε μπρύμε να δώσυμε έμφαση στ ρόλ των i

δειγμάτων με τ ότι στόχς μας είναι να υπλγίσυμε τις εκ των υστέρων πιθανότητες P ( ω x, D ). Από αυτές τις πιθανότητες μπρύμε να πάρυμε τν ταξινμητή κατά Bayes. Δθέντς τυ δείγματς D, τύπς τυ Bayes γίνεται: P( x ωi, D) P( ω i D ) P( ω i x, D ) = c (3.) p( x ω, D) P( ω D ) j = Όπως αυτή η εξίσωση πρτείνει, μπρύμε να χρησιμπιήσυμε την πληρφρία πυ μας παρέχυν τα δείγματα εκπαίδευσης, για να βηθηθύμε στ να καθρίσυμε και τις υπό συνθήκη κατηγρία πυκνότητες και τις εκ των πρτέρων πιθανότητες. Αν και θα μπρύσαμε να διατηρήσυμε αυτή τη γενικότητα, από δω και στ εξής θα υπθέσυμε ότι ι πραγματικές τιμές των εκ των πρτέρων πιθαντήτων είναι γνωστές ή λαμβάννται μέσα από πλύ εύκλυς υπλγισμύς. Έτσι αντικαθιστύμε : P ( ω i ) = P ( ω i D ). Επιπλέν, επειδή εξετάζυμε την περίπτωση με επίβλεψη (supervised), μπρύμε να διαχωρίσυμε τα δείγματα εκπαίδευσης ανά κατηγρία σε c υπσύνλα D, D c, με τα δείγματα στ D i να ανήκυν στ ω i. Όπως αναφέρθηκε όταν ασχληθήκαμε με τις μεθόδυς μέγιστης πιθανφάνειας. Στις περισσότερες ενδιαφέρυσες περιπτώσεις (και σε όλες όσες θα θεωρήσυμε στη συνέχεια) τα δείγματα στ D i δεν έχυν καμιά επίδραση στ P ( x ω j, D ) if i j. Αυτό έχει δύ κυρίως απτελέσματα. Αρχικά, μας επιτρέπει να δυλέψυμε με κάθε κατηγρία ξεχωριστά, χρησιμπιώντας μόν τα δείγματα τυ D i για να καθρίσυμε τ P ( x ω i, D ). Αν θεωρήσυμε ότι ι εκ των πρτέρων πιθανότητες είναι γνωστές τότε η εξίσωση 3. γίνεται: p ( x ωi, D i ) P ( ωi ) P ( ω i x, D ) = c p ( x ω, D ) P ( ω ) (3.3) j = Έπειτα, επειδή κάθε κλάση μπρεί να αντιμετωπιστεί ανεξάρτητα, μπρύμε να πρχωρήσυμε σε απλπίηση των συμβλισμών, με τ να μην λάβυμε υπόψη τυς αχρείαστυς περιρισμύς τάξεων. Ουσιαστικά έχυμε c διαφρετικά πρβλήματα της ακόλυθης μρφής: Χρησιμπιήστε ένα σύνλ D δειγμάτων σχηματισμένων ανεξάρτητα, αλλά σχετικά με την σταθερή αλλά άγνωστη πιθαντική κατανμή p(x) για να καθρίσυμε τ p(x D). Αυτό είναι τ κυρίως πρόβλημα στην μάθηση κατά Bayes. 3.3. Κατανμή παραμέτρων Παρόλ πυ η επιθυμητή πυκνότητα πιθανότητας p(x) είναι άγνωστη, θα υπθέσυμε ότι έχει γνωστή παραμετρική μρφή. Τ μόν λιπόν πράγμα πυ είναι άγνωστ είναι η τιμή τυ διανύσματς των παραμέτρων θ. Θα εκφράσυμε τ γεγνός ότι τ p(x) είναι άγνωστ αλλά έχει γνωστή παραμετρική μρφή με τ να λέμε ότι η συνάρτηση p(x θ) είναι γνωστή. Κάθε πληρφρία πυ μπρεί να έχυμε σχετικά με τ θ πριν να παρατηρήσυμε τα δείγματα υπτίθεται ότι περιέχεται σε μια εκ των πρτέρων πιθανότητα p(θ). H παρατήρηση των δειγμάτων μετατρέπει αυτό σε εκ των υστέρων πυκνότητα πιθανότητας p(θ D), για την πία ελπίζυμε να εμφανίζει κρυφή (pea) στ πραγματικό σημεί θ. Παρατηρείστε ότι καταφέραμε να μετατρέψυμε τ πρόβλημα τυ να μάθυμε την συνάρτηση της πυκνότητας πιθανότητας σε εκτίμηση τυ παραμετρικύ διανύσματς. j j j j j

Ο βασικός μας σκπός είναι να υπλγίσυμε τ p(x D), τ πί είναι κντά στ άγνωστ p(x). Αυτό τ κάνυμε λκληρώνντας την συνδυασμένη πυκνότητα πιθανότητας p(x, θ D) ως πρς θ. Δηλαδή: p ( x D ) = p ( x, θ D ) d θ (3.4) όπυ η λκλήρωση εκτείνεται σε όλ τ χώρ των παραμέτρων. Τώρα μπρύμε πάντα να γράφυμε p ( x, θ D ) ως τ γινόμεν p ( x θ, D ) p ( θ D ). Επειδή η επιλγή τυ x και αυτή των δειγμάτων εκπαίδευσης D γίννται ανεξάρτητα, πρώτς παράγντας είναι απκλειστικά και μόν p(x θ). Με άλλα λόγια η κατανμή τυ x είναι πλήρως γνωστή από τη στιγμή πυ γνωρίζυμε την τιμή τυ διανύσματς παραμέτρων. Έτσι η εξίσωση 3.4 μπρεί να ξαναγραφεί ως: p ( x D ) = p ( x θ ) p ( θ D ) d θ (3.5) Αυτή η εξίσωση κλειδί συνδέει την επιθυμητή υπό συνθήκη κατηγρίας πυκνότητα p(x D) με την εκ των υστέρων πυκνότητα p(θ D) για τ διάνυσμα παραμέτρων. Αν τ p(θ D) εμφανίζει αιχμηρή κρυφή (pea) γύρω από κάπια τιμή θ, παίρνυμε p ( x D ) p ( x θ ), για παράδειγμα τ απτέλεσμα πυ θα παίρναμε αντικαθιστώντας την εκτίμηση θ με την πραγματική τιμή τυ διανύσματς παραμέτρων. Αυτό τ απτέλεσμα έγκειται στην υπόθεση ότι τ p(x θ) είναι μαλό και ότι τα όρια τυ λκληρώματς δεν έχυν μεγάλη σημασία. Αυτές ι περιπτώσεις είναι τυπικές, αλλά όχι η γενική περίπτωση. Γενικότερα αν δεν είμαστε σίγυρι για την ακριβή τιμή τυ θ, η παραπάνω εξίσωση μας δηγεί απευθείας στ μέσ όρ p(x θ) από όλες τις πιθανές τιμές τυ θ. Έτσι, όταν ι άγνωστες πυκνότητες έχυν γνωστό παραμετρικό τύπ, τα δείγματα ασκύν την επιρρή τυς στ p(x D) διαμέσυ της εκ των υστέρων πυκνότητας p(θ D). Θα πρέπει επίσης να υπγραμμίσυμε ότι στην πράξη η λκλήρωση της εξίσωσης 3.5 μπρεί να γίνει αριθμητικά για παράδειγμα με μέθδ Mte Carl simulati. 3.4 Bayesia Εκτίμηση Παραμέτρων: Η Gaussia Περίπτωση Σε αυτήν την ενότητα χρησιμπιύμε τις Bayesia μεθόδυς για να υπλγίσυμε την εκ των υστέρων πυκνότητα p(θ D) καθώς και την επιθυμητή πυκνότητα πιθανότητας p(x D) για την περίπτωση όπυ p ( x ) ~ N (, Σ ). 3.4. Η περίπτωση μιας μεταβλητής (uivariate) Θεωρήστε την περίπτωση όπυ έχυμε τ μ ως τη μναδική άγνωστη παράμετρ. Για απλότητα θεωρύμε αυτήν την περίπτωση ως: p ( x ) ~ N (, σ ) (3.6) όπυ η μναδική άγνωστη πσότητα είναι η μέση τιμή μ. Υπθέτυμε ότι πιαδήπτε εκ των πρτέρων γνώση μπρεί να έχυμε για τ μ, μπρεί να εκφραστεί με την γνωστή εκ των πρτέρων πυκνότητα p(μ). Αργότερα θα κάνυμε μια πι εκτεταμένη υπόθεση ότι: p ( ) ~ N (, σ ) (3.7)

όπυ συνάμα τα μ και σ, είναι γνωστά. Μιλώντας πρόχειρα, τ μ αναπαριστά την καλύτερη από πριν πρόβλεψή μας για τ μ και τ σ μετράει την αβεβαιότητά μας για αυτήν την πρόβλεψη. Η υπόθεση ότι, η από πριν κατανμή για τ μ είναι καννική θα απλπιήσει τα ακλυθύμενα μαθηματικά. Πάντως, τ σημαντικό εδώ δεν είναι η από πριν υπόθεση ότι η κατανμή τυ μ είναι καννική αλλά ότι είναι γνωστή η κατανμή τυ! Έχντας επιλέξει την εκ των πρτέρων πυκνότητα για τ μ, μπρύμε να δύμε την κατάσταση ως ακλύθως. Φανταστείτε ότι μια τιμή επιλέγεται για τ μ, από ένα πληθυσμό, πυ διέπεται από τ νόμ πιθαντήτων p(μ). Μόλις αυτή η τιμή σχηματιστεί γίνεται η πραγματική τιμή τυ μ και λκληρωτικά καθρίζει την πυκνότητα για τ x. Υπθέστε τώρα ότι δείγματα x, x επιλέγνται ανεξάρτητα από τν εναπμείναντα πληθυσμό. Αν D= [x, x ], χρησιμπιύμε τν τύπ τυ Bayes για να πάρυμε: p ( D ) p ( ) p ( D ) = = p p α p ( x ) p ( ) (3.8) ( D ) ( ) d = όπυ τ α είναι ένας παράγντας εξμάλυνσης πυ εξαρτάται από τ D αλλά είναι ανεξάρτητ τυ μ. Αυτή η εξίσωση δείχνει τ πώς η παρατήρηση ενός συνόλυ δειγμάτων εκπαίδευσης επηρεάζει τις ιδέες μας σχετικά με την πραγματική τιμή τυ μ. Συνδέει την εκ των πρτέρων πυκνότητα p(μ) με την εκ των υστέρων πυκνότητα p(μ D). Επειδή p ( x ) ~ N (, σ ) και p ( ) ~ N (, ) έχυμε: σ 0 0 όπυ ι παράγντες πυ δεν εξαρτώνται από τ μ έχυν δώσει τη θέση τυς στα α, α και α. Έτσι τ p(μ D) είναι μια εκθετική συνάρτηση μιας τετραγωνικής συνάρτησης τυ μ. Για παράδειγμα είναι ξανά καννική πυκνότητα. Επειδή αυτό ισχύει για πιδήπτε αριθμό δειγμάτων εκπαίδευσης, τ p(μ D) παραμένει καννικό όσ αριθμός των δειγμάτων μειώνεται, τ p(μ D) λέγεται ότι είναι αναπαράγυσα πυκνότητα (reprducig desity) και τ p(μ) λέγεται πρηγύμενς συζυγής (cjugate prir). Αν γράψυμε p ( D ) ~ N (, σ ) τότε τα και σ μπρύν να βρεθύν εξισώνντας τυς συντελεστές στην εξίσωση 3.9 με τυς αντίστιχυς συντελεστές στη γενική Gaussia μρφή: p ( D ) = = exp (3.30) π σ σ Αναγνωρίζντας τυς συντελεστές με αυτόν τν τρόπ παράγεται:

σ = + σ σ (3.3) και + σ σ σ όπυ τ είναι μέσς των δειγμάτων: Λύνντας ως πρς και σ παίρνυμε: και = (3.3) = x (3.33) = σ = (3.34) σ σ σ + + σ + σ σ σ σ = (3.35) σ σ + Αυτές ι εξισώσεις δείχνυν πως η εκ των πρτέρων πληρφρία συνδυάζεται με την εμπειρική πληρφρία πυ μας δίνυν τα δείγματα για να πάρυμε την εκ των υστέρων πυκνότητα p(μ D). Μιλώντας πρόχειρα, τ αναπαριστά την καλύτερη πρόβλεψή μας για τ μ, αν πρηγυμένως έχυμε παρατηρήσει τα δείγματα, ενώ τ σ μετράει την αβεβαιότητά μας για αυτήν την μαντεψιά. Επειδή τ σ μειώνεται μνότνα με τ να φτάνει τ σ /, όσ τ τείνει στ άπειρ κάθε πρόσθετη παρατήρηση μειώνει την αβεβαιότητά μας για την αληθινή τιμή τυ μ. Όσ τ αυξάνει, γίνεται όλ και περισσότερη αιχμηρή η κρυφή (pea) τυ p(μ D), πλησιάζντας (θυμηθείτε από τα σήματα Ι) τη συνάρτηση δέλτα Dirac όσ τ τείνει στ άπειρ. Αυτή η συμπεριφρά είναι κινώς γνωστή ως Bayesia μάθηση (σχήμα 3.). p(μ/x, x,, x ) p(μ/x, x,, x ) μ

Γενικά, τ Εικόνα 3. είναι γραμμικός συνδυασμός τυ συντελεστές και άθρισμα ίσ με. Έτσι τ και τυ και τυ, με μη μηδενικύς πάντα βρίσκεται κάπυ μεταξύ τυ. Αν σ 0, τ πλησιάζει τη μέση τιμή τυ δείγματς όσ τ αυξάνεται στ άπειρ. Αν σ = 0 έχυμε μια εκφυλισμένη περίπτωση όπυ, με την εκ των πρτέρων βεβαιότητά μας ότι τ =, είναι τόσ ισχυρή ώστε κανένας αριθμός παρατηρήσεων δεν αλλάζει την εκτίμησή μας. Από την άλλη ακραία περίπτωση όταν σ >> σ είμαστε τόσ αβέβαιι για την μαντεψιά μας ώστε παίρνυμε = χρησιμπιώντας μόν τα δείγματα για να εκτιμήσυμε τ μ. Γενικά η σχετική ισρρπία μεταξύ εκ των πρτέρων γνώσης και εμπειρικών δεδμένων ρίζεται από την αναλγία τυ σ ως πρς τ σ, πυ κάπιες φρές μπρεί να τ συναντήσετε και ως δγματισμό. Αν δγματισμός δεν είναι άπειρς μετά από αρκετά δείγματα ι ακριβείς τιμές για τα και σ θα είναι ελάσσνς σημασίας και επιπλέν τ θα συγκλίνει στη μέση τιμή. 3.4.. Η Περίπτωση μιας μεταβλητής (uivariate): p(x D) Έχντας την a psteriri πυκνότητα για τη μέση τιμή, p(μ D), ότι περισσεύει είναι να πάρυμε και την υπό συνθήκης κατηγρίας πυκνότητα για τ p(x D), (υσιαστικά αυτό είναι τ ίδι με τ P ( x ω,d i ). Aπό τις εξισώσεις 3.5, 3.6 και 3.30 έχυμε: i 3.36 Αυτό είναι μια συνάρτηση τυ x, με τ p(x D) να είναι ανάλγ με τ exp[ (/)(xμ ) /(σ + σ )] και επίσης τ p(x D) να είναι καννικά κατανεμημέν με μέση τιμή μ και διασπρά σ + σ : p ( x D ) ~ N (, σ + σ ) (3.37) Με άλλα λόγια για να πάρυμε τ p(x D), τυ πίυ η παραμετρική μρφή είναι γνωστό ότι είναι: p ( x ) ~ N (, σ ), τ μόν πυ κάνυμε είναι να αντικαταστήσυμε τ μ με τ μ και τ σ με τ σ + σ. Ως επίδραση, η υπθετική

μέση τιμή μ συμπεριφέρεται σαν να ήταν η πραγματική και η γνωστή διασπρά αυξάνει λόγω της πρόσθετης αβεβαιότητας τυ x, πυ είναι απτέλεσμα της έλλειψης γνώσης για τη μέση τιμή μ. Αυτό τώρα είναι τ τελικό μας απτέλεσμα: Η πυκνότητα p(x D) είναι η επιθυμητή υπό συνθήκη κατηγρία πυκνότητα P ( x ω, D ) και μαζί με τις εκ των πρτέρων πιθανότητες P ( ω ) μας δίνυν την πιθαντική απαραίτητη πληρφρία για τ σχεδιασμό τυ ταξινμητή. Αυτό έρχεται σε αντίθεση με τις μεθόδυς της μέγιστης πιθανφάνειας, ι πίες μας δίνυν μόν εκτιμήσεις για τα και σ παρά εκτιμήσεις για την κατανμή τυ p(x D) 3.4.3 Η Περίπτωση πλλών μεταβλητών (multivariate) Η αντιμετώπιση της Multivariate περίπτωσης στην πία τ Σ είναι γνωστό αλλά τ μ δεν είναι, απτελεί την άμεση γενίκευση της. Για τ λόγ αυτό θα χρειαστεί να πάρυμε μόν την παράγωγ. Όπως και πριν υπθέστε ότι: p ( x ) ~ N (, Σ ) και p ( ) ~ N (, Σ ) (3.38) όπυ τ Σ, Σ και τ μ υπτίθεται ότι είναι γνωστά. Μετά την παρατήρηση ενός συνόλυ D, ανεξάρτητων δειγμάτων x, x χρησιμπιύμε τν κανόνα τυ Bayes για να πάρυμε: p ( D ) = α p ( x ) p ( ) = = j t t = α exp ( ) x, Σ + Σ + Ο Σ Σ (3.39) = τ πί έχει τη μρφή: j j t p( D ) = α exp (( ) Σ ( )) (3.40) Έτσι έχυμε p ( D ) ~ N (, Σ ) και έχυμε καταφέρει να αναπαράγυμε την πυκνότητα. Εξισώνντας τυ συντελεστές παίρνυμε τις αντίστιχες με τις 3.34 και 3.35 εξισώσεις : Σ = Σ + Σ (3.4) και όπυ τ είναι η μέση τιμή τυ δείγματς : Σ = Σ + Σ (3.4) = = x (3.43) Η λύση αυτών των εξισώσεων για τα και Σ απλπιείται αν γνωρίζυμε τ μητρεί πυκντήτων: ( A + B ) = A ( A + B ) B = B ( A + B ) A. (3.44)

τ πί ισχύει για κάθε ζευγάρι από μη ιδιόμρφα d by d μητρεία Α και Β. Μετά από πράξεις έχυμε τα τελικά απτελέσματα : = Σ ( Σ + Σ ) + Σ ( Σ + Σ ) (3.45) και Σ = Σ ( Σ + Σ ) Σ. (3.46) Η απόδειξη ότι p ( x D ) ~ N (, Σ + Σ ) γίνεται με τ να κάνυμε την λκλήρωση: p ( x D ) = p ( x ) p ( D ) d (3.47) Πάντως αυτό τ απτέλεσμα μπρεί να ληφθεί με λιγότερη πρσπάθεια εάν παρατηρήσυμε ότι τ x μπρεί να δωθεί ως τ άθρισμα δύ αμιβαία ανεξάρτητων τυχαίων μεταβλητών, ενός τυχαίυ διανύσματς μ με p ( D ) ~ N (, Σ ) και ενός ανεξάρτητυ τυχαίυ διανύσματς y με p ( y ) ~ N ( 0, Σ ). Επειδή τ άθρισμα δυ ανεξάρτητων τυχαίων, καννικά κατανεμημένων διανυσμάτων είναι ένα καννικά κατανεμημέν διάνυσμα επίσης, τυ πίυ η μέση τιμή είναι τ άθρισμα των μέσων τιμών και πίνακας συνδιασπράς είναι τ άθρισμα των πινάκων συνδιασπράς έχυμε: p ( x D ) ~ N (, Σ + Σ ) (3.48) και η γενίκευση λκληρώθηκε. 3.5 Bayesia Εκτίμηση Παραμέτρων: Γενική Θεωρία Μόλις είδαμε πως η Bayesia πρσέγγιση μπρεί να χρησιμπιηθεί για να πάρυμε τις επιθυμητές πυκνότητες p(x D) στην ειδική περίπτωση των πλλών μεταβλητών πυ ακλυθύν Gaussia κατανμή. Αυτή η πρσέγγιση μπρεί να γενικευθεί ώστε να μπρεί να εφαρμστεί σε κάθε περίπτωση, στην πία η άγνωστη πυκνότητα μπρεί να παραμετρπιηθεί. Οι βασικές υπθέσεις συνψίζνται στα ακόλυθα: Η μρφή της πυκνότητας p(x θ) υπτίθεται ότι είναι γνωστή, αλλά η τιμή τυ διανύσματς παραμέτρων θ δεν είναι επακριβώς γνωστή. Η αρχική μας γνώση σχετικά με τ θ υπτίθεται ότι περιέχεται σε μια γνωστή εκ των πρτέρων πυκνότητα p(θ). Η υπόλιπη γνώση μας σχετικά με τ θ περιέχεται στ σύνλ D των δειγμάτων x, x πυ πρέρχνται ανεξάρτητα σχετικά με την άγνωστη πυκνότητα p(x). Τ βασικό πρόβλημα είναι να υπλγίσυμε την εκ των υστέρων πυκνότητα p(θ D), επειδή από αυτήν θα βρύμε μέσω της εξίσωσης 3.5 τ p(x D): p( x D) = p( x θ ) p( θ D) d θ. (3.49) Από τν τύπ τυ Bayes παίρνυμε: p ( D θ ) p ( θ ) p ( θ D ) = (3.50) p ( D θ ) p ( θ ) d ( θ ) και από αυτήν την ανεξάρτητη υπόθεση

p ( D θ ) = p ( x θ ). (3.5) = Αυτό απτελεί την τυπική λύση στ πρόβλημα και ι εξισώσεις 3.50 και 3.5 φωτίζυν τη σχέση πυ υπάρχει με τη λύση της μέγιστης πιθανφάνειας. Υπθέστε ότι τ p(d θ) φτάνει σε μια κρυφή (pea) στ θ = θ. Αν η εκ των πρτέρων πυκνότητα p(θ) δεν είναι μηδέν στ θ = θ και δεν αλλάζει πλύ στ γειτνικό διάστημα, τότε τ p(θ D) επίσης εμφανίζει κρυφή (pea) στ ίδι σημεί. Έτσι, η εξίσωση 3.49 δείχνει ότι τ p(x D) θα γίνει περίπυ p ( x θ ), τ απτέλεσμα δηλαδή πυ θα έπαιρνε κάπις χρησιμπιώντας την μέγιστη πιθανφάνεια σαν να ήταν η πραγματική τιμή. Αν η κρυφή τυ p(d θ) είναι πλύ αιχμηρή, τότε η επίδραση της εκ των πρτέρων πληρφρίας στην αβεβαιότητα της πραγματικής τιμής θ μπρεί κάλλιστα να αγνηθεί. Σε αυτήν αλλά και σε πι γενική περίπτωση, πάντως, η λύση κατά Bayes μας λέει πώς να χρησιμπιύμε όλη τη διαθέσιμη πληρφρία για να υπλγίσυμε την επιθυμητή πυκνότητα p(x D). Ενώ έχυμε πάρει την τυπική επίλυση κατά Bayes εντύτις, ένας αριθμός από ενδιαφέρυσες ερωτήσεις παραμένει. Μια από αυτές αφρά τ φόρτ αλλά και τν τρόπ όλων αυτών των υπλγισμών. Κάπια άλλη αναφέρεται στη σύγκλιση τυ p(x D) στ p(x). Θα συζητήσυμε τ θέμα της σύγκλισης σύντμα και αργότερα θα επιστρέψυμε σε θέματα υπλγιστικύ φόρτυ. Για να δείχνυμε τν αριθμό των δειγμάτων ενός συνόλυ σε μια κατηγρία, θα γράφυμε D = [x, x ]. Από την εξίσωση 3.5 αν > παίρνυμε: p ( D θ ) = p ( x θ ) p ( D θ ). (3.5) Aντικαθιστώντας αυτήν στην εξίσωση 3.50 και χρησιμπιώντας τν τύπ τυ Bayes βλέπυμε ότι η εκ των υστέρων πυκνότητα ικανπιεί την αναδρμική σχέση: p ( x θ ) p ( θ D ) p ( θ D ) = (3.53) p ( x θ ) p ( θ D ) d θ O Εννώντας ότι p ( θ D ) = p ( θ ) η επαναλαμβανόμενη χρήση της εξίσωσης 3.53 παράγει την ακλυθία των πυκντήτων p ( θ ), ( θ x ), ( θ x, x ) κ..κ. Θα p p πρέπει να γίνεται πρφανές από την εξίσωση 3.53 ότι τ p ( θ D ) εξαρτάται μόν από τα σημεία τυ D και όχι από την ακλυθία από την πία επιλέχθηκαν. Αυτό λέγεται αναδρμική κατά Bayes μέθδς για εκτίμηση παραμέτρων. 3.6 Τα Πρβλήματα των Διαστάσεων Σε πρακτικές εφαρμγές πλλών κατηγριών δεν είναι διόλυ απίθαν να αντιμετωπίζνται πρβλήματα σχετικά με πενήντα ή εκατό χαρακτηριστικά, ειδικότερα όταν τα χαρακτηριστικά αυτά παίρνυν δυαδικές τιμές. Μπρεί βέβαια τυπικά να πιστεύυμε ότι κάθε χαρακτηριστικό είναι χρήσιμ για τυλάχιστν κάπιες από τις διαφρπιήσεις, ενώ μπρεί να αμφιβάλλυμε για τ αν κάθε χαρακτηριστικό παρέχει ανεξάρτητη πληρφρία,(με δική μας πρόθεση τα περίσσεια χαρακτηριστικά δεν έχυν συμπεριληφθεί). Υπάρχυν δύ θέματα πυ πρέπει να αντιμετωπιστύν. Τ πι σημαντικό είναι τ πώς (ή πόσ) η απόδση της ταξινόμησης εξαρτάται από τις πλλές διαστάσεις (και τ πσό των δεδμένων

εκπαίδευσης), και τ δεύτερ είναι η υπλγιστική πλυπλκότητα τυ σχεδιασμύ τυ ταξινμητή. 3.6. Ακρίβεια, Διάσταση και Εκπαίδευση μεγέθυς τυ δείγματς Αν τα χαρακτηριστικά είναι στατιστικά ανεξάρτητα, υπάρχυν κάπια θεωρητικά απτελέσματα πυ υπστηρίζυν την πιθανότητα της τέλειας απόδσης. Για παράδειγμα, θεωρήστε την δύ κατηγριών Multivariate περίπτωση με την ίδια συνδιασπρά π.χ όπυ p ( x ω ) ~ N (, Σ ), για j=,. Αν ι εκ των πρτέρων j j πιθανότητες είναι ίσες, τότε δεν είναι δύσκλ να δειχθεί ότι ρυθμός λάθυς τυ Bayes δίνεται από τν τύπ: P ( e ) = π r / e u / du (3.54) όπυ τ r είναι η τετραγωνική απόσταση Mahalabis (Κεφάλαι, Ενότητα.5): t r = ( ) Σ ( ). (3.55)

Πίνακας 3.α Οι πι γνωστές εκθετικές κατανμές και τα απαραίτητα στατιστικά στιχεία τυς.

Πίνακας 3.β Οι πι γνωστές εκθετικές κατανμές και τα απαραίτητα στατιστικά στιχεία τυς. Έτσι η πιθανότητα τυ λάθυς μειώνεται όσ αυξάνεται τ r, πλησιάζντας στ 0, όσ τ r τείνει στ άπειρ. Στην υπθετική ανεξάρτητη περίπτωση, Σ = diag ( σ,..., ): σ d r = d i = i i. σ i (3.56) Αυτό δείχνει τ πως κάθε χαρακτηριστικό συνεισφέρει στη μείωση της πιθανότητας τυ λάθυς. Φυσικά, τα πι χρήσιμα χαρακτηριστικά είναι αυτά για τα πία η διαφρά μεταξύ των μέσων τιμών είναι μεγάλη σχετικά με τις τυπικές απκλίσεις. Πάντως, κανένα χαρακτηριστικό δεν είναι άχρηστ αν ι μέσες τιμές για τις δύ κατηγρίες διαφέρυν. Ένας πρφανής τρόπς για να μειώσυμε τ ρυθμό λάθυς περισσότερ είναι να πρσθέσυμε νέα, ανεξάρτητα χαρακτηριστικά. Κάθε νέ χαρακτηριστικό δεν χρειάζεται να πρσθέτει πλύ σε αυτήν την ελάττωση, αλλά αν τ r μπρεί να αυξηθεί χωρίς όρι, η πιθανότητα λάθυς μπρεί να γίνει μικρή. Γενικά, αν η απόδση πυ λαμβάνεται από ένα δθέν σύνλ χαρακτηριστικών είναι ανεπαρκής, τότε είναι λγικό να θεωρήσυμε ό,τι πρέπει να πρσθέσυμε νέα χαρακτηριστικά. Ειδικά αυτά πυ θα βηθήσυν στ να ξεχωρίσυμε τα ζευγάρια των κατηγριών πυ είναι συχνά δύσκλ να ταξινμηθύν χωρίς μπέρδεμα. Αν και η αύξηση τυ αριθμύ των χαρακτηριστικών αυξάνει τ κόστς και την πλυπλκότητα και τυ εξαγωγέα χαρακτηριστικών αλλά και τυ ταξινμητή, είναι συχνά λγικό να νμίζυμε ότι η απόδση θα βελτιωθεί. Πάντως, αν η πιθαντική δμή τυ πρβλήματς ήταν γνωστή, τ ρίσκ τυ Bayes πιθανώς δε θα αυξανόταν με την πρόσθεση των νέων χαρακτηριστικών. Στη χειρότερη περίπτωση θα αγνύσε τα νέα χαρακτηριστικά αλλά αν τα νέα χαρακτηριστικά παρέχυν πιαδήπτε πρόσθετη πληρφρία η απόδση πρέπει να βελτιωθεί. (Εικόνα 3.3) Εικόνα 3.3 Δυστυχώς έχει συχνά παρατηρηθεί στην πράξη ότι η πρόσθεση περισσότερων τυ ενός χαρακτηριστικών στιχείων (πέρα από ένα σημεί) αντί να βελτιώνει την

απόδση, την μειώνει. Αυτό τ φαινμενικά παράδξ παρυσιάζεται ως σβαρό πρόβλημα για τ σχεδιασμό ταξινμητών. Η βασική πηγή δυσκλίας μπρεί αν ανιχνευθεί στ γεγνός ότι μπρεί να έχυμε επιλέξει λάθς μντέλ (π.χ η Gaussia υπόθεση ή κάπια άλλη να είναι λανθασμένες) ή αριθμός των δειγμάτων εκπαίδευσης να είναι περιρισμένς και έτσι ι κατανμές να μην υπλγίζνται ακριβώς. Πάντως η ανάλυση τυ πρβλήματς είναι δελεαστική και απαιτεί δεξιτεχνία. 3.7 Hidde Marv Μντέλα Μέχρι εδώ περιρίσαμε την πρσχή μας σε πρβλήματα πυ έχυν να κάνυν με εκτίμηση παραμέτρων, σε υπό συνθήκη κατηγρίας πυκνότητες με σκπό να πάρυμε μια απλή απόφαση. Τώρα μεταφερόμαστε σε πρβλήματα πυ έχυν να κάνυν με τ να πάρυμε μια ακλυθία από απφάσεις. Σε πρβλήματα πυ έχυν έμφυτη την πρσωρινότητα αυτό σημαίνει διαδικασίες πυ «ξεδιπλώννται» στ χρόν μπρεί να έχυμε δηλαδή μια κατάσταση στ χρόν t πυ επηρεάζεται άμεσα από την κατάσταση t. Tα κρυμμένα μντέλα Marv (ΗΜΜ) χρησιμπιύνται συχνά σε τέτια πρβλήματα όπως για παράδειγμα στην αναγνώριση πρτύπων για μιλία και χειρνμίες. Tα κρυμμένα μντέλα Marv έχυν ένα αριθμό από παραμέτρυς των πίων ι τιμές εξαρτώνται από τ αν είναι βέλτιστες στ να περιγράφυν τα δείγματα εκπαίδευσης για κάθε γνωστή κατηγρία. Αργότερα, ένα δκιμαστικό πρότυπ (patter) ταξινμείται από τ μντέλ πυ έχει την μεγαλύτερη εκ των υστέρων πιθανότητα δηλαδή αυτό πυ εξηγεί βέλτιστα τ δκιμαστικό πρότυπ (patter). 3.8 Βιβλιγραφία [] Pierre Baldi. Sre Brua. Yves Chauvi. Jacb Egel brecht. ad Aders Krgh. Hidde Marv mdels tr huma gees. I Stephe J. Has, Jac D. Cwa, ad C. Lee Giles, editrs. Advaces i Neural Ifrmati Prcessig Systems, vlume 6, pages 76 768, Mrga Kaufma, Sa Mate, CA, 994. [] Leard E. Baum ad Ted Petrie. Statistical iferece fr prbabilistic fuctis f fiite state Marv chais. Aals f Mathematical Statistics, 37:554 563, 966. [3] Leard E. Baum, Ted Petrie, Gerge Sules, ad Nrma Weiss, A maximizati techique ccurrig i the statistical aalysis f prbabilistic fuctis f Marv chais. Aals f Mathematical Statistics. 4 (); l64 7, 970. [4] Jse M. Berard ad Adria F. M. Smith. Bayesia Thery. Wiley, New Yr, 996. i Christpher M. Bishp. Neural Netwrs fr Patter Recgiti. Oxfrd Uiversity Press, Oxfrd, UK, 995. [5] David Braverma, Learig filters fr ptimum patter recgiti. IRE Trasactis Ifrmati Thery, rt 8;80 85, 96. [6] Eugee Charia. Statistical Laguage Learig. MIT Press, Cambridge, MA, 993. i] Herma Cherff ad Licl E. Mses. Elemetary Decisi Thery. Wiley, New Yr, 959. [7] Thmas H. Crme, Charles E. Leisers, ad Rald L. Rivest. Itrducti t Algrithms. MIT Press. Cambridge. MA. 990. [8] Arthur P. Dempster, Na M. Laird, ad Dald B. Rubi. Maximum lielihd frm icmplete data via the EM algrithm (with discussi). Jural f the Ryal Statistical Sciety, Series B, 39: 38, 977. [9] Pierre A. Devijver ad Jsef Kittler. Patiet Recgiti: A Statistical Apprach. Pretice Hall, Ld, 98. [0] Rald A. Fisher, The use f multiple measuremets i taxmic prblems. Aals f Eugeics, 7 Part II: 79 88, 936.

[] G. David Frey, Jr. The Viterbi algrithm. Prceedigs f the IEEE, 6:68 78, 973. [] Keisue Fuuaga. Itrducti t Statistical Patter Recgiti. Academic Press, New Yr, secd editi, 990. [3] David Haussler, Michael Kears, ad Rbert Schapire. Buds the sample cmplexity f Bayesia learig usig ifrmati thery ad the VC dimesi. Machie Learig, 4:84 4, 994. [4] Harld Jeffreys. Thery f Prbability. Oxfrd Uiversity Press, Oxfrd. UK, 96 reprit editi, 939. [5] Frederic Jelie. Statistical Methds fr Speech Recgiti. MIT Press, Cambridge. MA, 997. [6] Ia T. Jlliffe. Pricipal Cmpet Aalysis. Spriger Verlag, New Yr, 986. [7] Michael I. Jrda ad Rbert A. Jacbs. Hierarchical mixtures f experts ad the EM algrithm. Neural Cmputati, 6():8 4, 994. [8] Dald E. Kuth. The A f Cmputer Prgrammig, vlume. Addis Wesley, Readig, MA, first editi, 973. [9] Gary E. Kpec ad Phil A. Chu. Dcumet image decdig usig Marv surce mdels. IEEE Trasactis Patter Aalysis ad Machie Itelligece, 6(6):60 67. 994. [0] Aders Krgh, Michael Brw,. Saira Mia, Kimme Sjlader, ad David Haussler. Hidde Marv mdels i cmputatial bilgy: Applicatis t prtei mdellig. Jural f Mlecular Bilgy. 35:50 53, 994. [] Deis Victr Lidley. The use f prir prbability distributis i statistical iferece ad decisi. I Jerzy Neyma ad Elizabeth L. Sctt, editrs. Prceedigs Furth Bereley Sympsium Mathematical Statistics ad Prbability, pages 453 468. Uiversity f Califr ia Press, Bereley, CA, 96. [] Adrei Adreivich Marv, Issledvaie za mechatelg sluchaya zavisimyh ispytaii {i vestigati f a remarable case f depedat trials) Izvestiya Petersburgsi aademii au, 6th ser., l(3):6 80, 907. [3] Geffrey J. McLachla. Discrimiat Aalysis ad Statistical Patter Recgiti. Wiley, New Yr, 99. [4] Geffrey J. McLachla ad Thiriyambaam Krisha. The EM Algrithm ad Extesis. Wiley. New Yr, 996. [5] Mafred Opper ad David Haussler. Geeralizati perfrmace f Bayes ptimal predicti algrithm fr learig a perceptr. Physical Review Letters 66(0):677 68, 99 [6] Lawrece Rabier ad Biig Hwag Juag. Fudametals f Speech Recgiti. Pretice Hall, Eglewd Cliffs, NJ, 993. [7] Lawrece R. Rabier. A tutrial hidde Marv mdels ad selected applicatis i speech recgiti. Prceedigs f IEEE, 77():57 86, 989. [8] Dald B. Rubi ad Rderic J. A. Little. Statistical Aalysis with Missig Data. Wiley, New Yr, 987. [9] Jurge Schurma. Patter Classificati: A Uified View f Statistical ad Neural Appraches. Wiley. New Yr, 996. [30] Rss D. Shachter. Evaluatig ifluece diagrams. Operatis Research, 34(6);87 88, 986. [3] Padhraic Smyth, David Hecerma, ad Michael Jrda. Prbabilistic idepedece etwrs fr hidde Marv prbability mdels. Neural Cmputati, 9():7 69. 997. [3] Charles W. Therrie. Decisi Estimati ad Classificati: A Itrducti t Patter Recgiti ad Related Tpics. Wiley, New Yr, 989. [33] D. Michael Titterigt. Recursive parameter estimati usig icmplete data. Jural f the Ryal Statistical Sciety, Series B, 46(); 57 67, 984.

[34] Adrew J. Viterbi. Errr buds fr cvlutial cdes ad a asympttically ptimal decdig algrithm. IEEE Trasactis Ifrmati Thery, lt 3():60 69, 967.