HMY 795: Αναγνώριση Προτύπων

Σχετικά έγγραφα
HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 9-10

HMY 799 1: Αναγνώριση Συστημάτων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 799 1: Αναγνώριση Συστημάτων

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

HMY 799 1: Αναγνώριση Συστημάτων

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

HMY 795: Αναγνώριση Προτύπων

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Αναγνώριση Προτύπων Ι

HMY 795: Αναγνώριση Προτύπων

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

Εφαρμοσμένη Στατιστική

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

!n k. Ιστογράμματα. n k. x = N = x k

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

HMY 795: Αναγνώριση Προτύπων

HMY 799 1: Αναγνώριση Συστημάτων

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv


Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

1 x-μ - 2 σ. e σ 2π. f(x) =

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμογές μεθοδολογιών μηχανικής εκμάθησης στο χώρο της παραγωγής υδρογονανθράκων. Βασίλης Γαγάνης

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 4

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις, σημειακή εκτίμηση παραμέτρων και γραμμική παλινδρόμηση Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

ΚΑΤΑΝΟΜΗ ΠΥΚΝΟΤΗΤΑΣ ΠΙΘΑΝΟΤΗΤΑΣ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Συμπίεση Δεδομένων

HMY 799 1: Αναγνώριση. συστημάτων. Διαλέξεις 6 7. Συνάφεια (συνέχεια) Μη παραμετρική αναγνώριση γραμμικών

HMY 795: Αναγνώριση Προτύπων

Μέθοδος μέγιστης πιθανοφάνειας

Στατιστική Συμπερασματολογία

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική

Πολλαπλή παλινδρόμηση (Multivariate regression)

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Χρονοσειρές, Μέρος Β 1 Πρόβλεψη Χρονικών Σειρών

ΜΑΣ 371: Αριθμητική Ανάλυση ΙI ΑΣΚΗΣΕΙΣ. 1. Να βρεθεί το πολυώνυμο Lagrange για τα σημεία (0, 1), (1, 2) και (4, 2).

3. Κατανομές πιθανότητας

HMY 795: Αναγνώριση Προτύπων

X = = 81 9 = 9

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

Στατιστική Περιγραφή Φυσικού Μεγέθους - Πιθανότητες

HMY 795: Αναγνώριση Προτύπων

Πιθανολογική Ανάλυση Αποφάσεων. Συστήματα Αποφάσεων Εργαστήριο Συστημάτων Αποφάσεων και Διοίκησης

Παραδείγματα (2) Διανυσματικοί Χώροι

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εισόδημα Κατανάλωση

HMY 795: Αναγνώριση Προτύπων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 799 1: Αναγνώριση Συστημάτων

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

Τοπογραφικά Δίκτυα & Υπολογισμοί

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 11

Το μοντέλο Perceptron

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Kruskal-Wallis H

Αριθμητική Ανάλυση και Εφαρμογές

Μέθοδος Ελαχίστων Τετραγώνων (για την προσαρμογή (ή λείανση) δεδομένων/μετρήσεων)

Transcript:

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 9 10 Γραμμική παλινδρόμηση (Linear regression)

Μπεϋζιανή εκτίμηση για την κανονική κατανομή Γνωστή μέση τιμή μ, άγνωστη διασπορά σ 2. Ακρίβεια λ=1/σ 2 : conjugate prior p(λ): Gamma distribution =

Μπεϋζιανή εκτίμηση για την κανονική κατανομή μ,σ 2 (ή λ) άγνωστες: Conjugate prior: Gaussian gamma distribution ib ti Gaussian mixtures

pc ( x) = i c j= 1 Σύγκριση μεθόδων εκτίμησης p( x C ) p( C ) i p ( x C ) p ( C ) j Maximum likelihood, MAP: p(x θ ML,D i ), p(x θ MAP,D i ) p x Di = p x θ p θ Di d θ Bayes: ( ) ( ) ( ) i j Πιθανοφάνεια με οξεία κορυφή στο θ ML, η p(θ ML ) 0 p(θ D i ) μέγιστο στο θ ML Αποτελέσματα από p( x Di) = p( x θ) p( θ Di) dθ, p(x θ ML,D i ) παρόμοια Αν η εκ των προτέρων κατανομή δεν αποκλείει την «πραγματική» λύση: ML, Bayes ισοδύναμα αποτελέσματα ασυμπτωτικά (Ν ) Σφάλματα ταξινόμησης : Σφάλμα Bayes Σφάλμα μοντέλου (model error) Σφάλμα εκτίμησης (estimation error)

Για μια (μικρή) περιοχή R με όγκο V: Μη παραμετρικές μέθοδοι Κ σταθερό, V από δεδομένα: K nearest neighbors algorithm V σταθερό, Κ από τα δεδομένα: Εκτίμηση πυκνότητας με πυρήνα (kernel density estimation) Σύγκλιση lim N E{ pn( x)} = p( x) lim Var{ p ( x)} = 0 N N h παράμετρος ομαλότητας

Μη παραμετρικές μέθοδοι Kernel density: Ομοιόμορφο h παντού Αν στην ΚσταθερόκαιμεταβάλλουμετοV: το Περιοχές με υψηλή πυκνότητα: μικρό κελί, υψηλή ανάλυση Περιοχές με χαμηλή πυκνότητα: μεγάλο κελί, χαμηλή ανάλυση Απευθείας ταξινόμηση η K παράμετρος ομαλοποίησης (smoothing parameter)

Γραμμική παλινδρόμηση (Linear regression) Ένα από τα πιο βασικά προβλήματα στις ποσοτικές επιστήμες είναι η πρόβλεψη της τιμής μιας εξαρτημένης μεταβλητής με βάση την πληροφορία που μας δίνεται από κάποιες άλλες μεταβλητές x 1,,x D Τα μοντέλα γραμμικής παλινδρόμησης (linear regression models) είναι μορφής: Τ y( ( xw, ) = w 0 + wx 1 1+... + w Dx D = wx δηλ. εξαρτώνται γραμμικά από τις άγνωστες παραμέτρους w i και έχουν μελετηθεί εκτεταμένα στη στατιστική και χρησιμοποιηθεί σε πολλά επιστημονικά πεδία (οικονομία, ανθρωπιστικές επιστήμες, ψυχολογία, μηχανική κλπ.) Τα μοντέλα αυτά είναι απλά,, οι ιδιότητές τους έχουν μελετηθεί λεπτομερώς και συχνά μας δίνουν ικανοποιητικές περιγραφές Επιπλέον, σε περίπτωση που δεν έχουμε ικανό αριθμό πειραματικών δεδομένων ή/και έχουμε αρκετό θόρυβο τα μοντέλα γραμμικής παλινδρόμησης μπορεί να δώσουν καλύτερα αποτελέσματα από πιο πολύπλοκα (μη γραμμικά) ) μοντέλα Επίσης, μοντέλα αυτού του τύπου μπορούν να εφαρμοστούν και σε μετασχηματισμούς των εισόδων, επεκτείνοντας την ευελιξία τους Στη γενική περίπτωση, το πρόβλημα της παλινδρόμησης αφορά στον υπολογισμό μιας συνάρτησης των ανεξάρτητων μεταβλητών y(x,w), βάσει των παρατηρήσεων x και t (target variable), ώστε ηδιαφορά: t y( x,w) = t yˆ να είναι μικρή. Αν τα y και x περιγράφονται σε στοχαστικό πλαίσιο, τότε μπορούμε π.χ. να ελαχιστοποιήσουμε την: [ t y x,w ] 2 E{ ( ) }

Γραμμική παλινδρόμηση (Linear regression) Στη γενική περίπτωση οι ανεξάρτητες μεταβλητές μπορεί να είναι (μη γραμμικοί) μετασχηματισμοί των εισόδων της μορφής φ(x): συναρτήσεις βάσης (basis functions) Συνήθως: φ 0 (x)=1, w 0 : bias (απόκλιση) Π.χ. προσαρμογή ρμ καμπύλης:

Γραμμική παλινδρόμηση (Linear regression) Πιθανές συναρτήσεις βάσης: Πολυωνυμικές (ολικές global), διαχωρισμός χώρου: splines Γκαουσιανές: τοπικές

Γραμμική παλινδρόμηση (Linear regression) Πιθανές συναρτήσεις βάσης: Σιγμοειδείς (sigmoidal) τοπικές Συνημιτονοειδείς: περιοδικές (συγκεκριμένη συχνότητα Συνημιτονοειδείς: περιοδικές (συγκεκριμένη συχνότητα άπειρη χρονική/χωρική έκταση) Κυμάτια (Wavelets): εντοπισμένα και στο χώρο/χρόνο και στη συχνότητα

Γραμμική παλινδρόμηση (Linear regression) 2 w yx (, w ) = w 1 0 0 + wx 1 + wx 2 0 1 1 2 2 yx (, w ) = wx + w y( ( xw, ) = w + wx + w x

Έχουμε λοιπόν ϕ Γραμμική παλινδρόμηση (Linear regression) Τ y( xw, ) = w + w ( x) +... + w M ϕ M ( x) = wφ 0 1 1 1 1 φ 1 ϕ 1 = =... ϕm 1, w w w... w M [ ] 0 1 1 Έστω ότι έχουμε ένα σύνολο δεδομένων {φ 1, t 1,φ 2, t 2,,φ N,t N } και θέλουμε να προσδιορίσουμε τις τιμές των παραμέτρων ρ w Tο κριτήριο ελάχιστων τετραγώνων (Gauss 1809) μπορεί να χρησιμοποιηθεί γι αυτό το σκοπό: N N 1 2 1 T 2 V ( w N ) = [ tk yk( )] = tk k Ν x,w k= 1 Ν φ w k= 1 Ψάχνουμε τις τιμές των παραμέτρων w που ελαχιστοποιούν το V N wls = arg min V w N ( w) Η μέθοδος των ελάχιστων τετραγώνων είναι λογική είτε δουλεύουμε σε ντετερμινιστικό ή σε στοχαστικό υπόβαθρο Άρα: V N T N tk k k= 1 2 Τ ( w) = φ w = ( t Φw) ( t Φw) V ( w) N = Τ 2 Φ ( t Φw ) = 0 w t = Φw Φ: πίνακας Ν x Μ

Γραμμική παλινδρόμηση (Linear regression) Άρα πρέπει (για Ν>Μ) να λύσουμε το υπερπροσδιορισμένο (overdetermined) σύστημα t = Φw Η λύση του συστήματος αυτού δίνεται από τον ψευδοαντίστροφο (pseudoinverse) του (μη τετραγωνικού) πίνακα Φ 1 Τ Τ w = ΦΦ Φt = Φ t ˆ LS ( ) 1 Τ Αν ο πίνακας Φ είναι πλήρους βαθμού (full rank/nonsingular), o πίνακας ΦΦ (positive definite) και έχουμε μοναδική λύση που αντιστοιχεί σε ελάχιστο καθώς VN ( w) Τ = 2ΦΦ T w w Ισοδύναμα: N 1 N w ˆ T LS = k k k tk φφ k= 1 φ k= 1 είναι θετικά ορισμένος

Ελάχιστα τετράγωνα Γεωμετρική ερμηνεία t: διάνυσμα στο χώρο R N Ισοδύναμο πρόβλημα: Βρείτε γραμμικό συνδυασμό των {φ 0,φ 1,,φ M-1 } για κάθε x n που προσεγγίζει το διάνυσμα t όσο καλύτερα γίνεται. Αν Μ<Ν, τα {φ,φ,,φ Μ-1 ορίζουν έναν υποχώρο R Μ του R N 0 φ 1 φ 1 } Αν το διάνυσμα y ανήκει σε αυτόν τον υποχώρο: μπορούμε να το εκφράσουμε ως γραμμικό συνδυασμό των {φ 0,φ 1,,φ Μ-1 } Αν όχι: η καλύτερη προσέγγιση που ανήκει στο R Μ είναι αυτή με τη μικρότερη απόσταση από το διάνυσμα t, δηλαδή η ορθογώνια προβολή του t στον υποχώρο R Μ ( t tˆ ) ϕ i, i = 0,1,..., M 1 t ˆt Άρα ( t tˆ ) T ϕ i = 0 και επειδή ˆ M t M 1 tˆ = ŵ φ j= 0 M 1 T T t φi jφ φ j i j= 0 j j = ŵ, i = 0,1,..., M 1 η οποία σε μορφή πίνακα γράφεται: Τ ( ) ΦΦwˆ Τ LS = Φ t Τ ( ) 1 Τ wˆ = ΦΦ Φt LS N = 3, M = 2

Γραμμική παλινδρόμηση και μέγιστη πιθανοφάνεια Έστω ότι οι παρατηρήσεις μας προέρχονται από μια ντετερμινιστική συνάρτηση συν θόρυβο: όπου Η κατανομή του t είναι: Άρα δεδομένων των παρατηρήσεων και η πιθανοφάνεια είναι: και όπου

Γραμμική παλινδρόμηση και μέγιστη πιθανοφάνεια Άρα οι εκτιμήσεις που παίρνουμε από τις μεθόδους ML και LS είναι πανομοιότυπες όταν ο θόρυβος είναι Γκαουσιανός Έστω ότι μας ενδιαφέρει μόνο το w 0. Μεγιστοποιώντας την πιθανοφάνεια Τέλος, μεγιστοποιώντας την πιθανοφάνεια ως προς β:

Γραμμική παλινδρόμηση και κανονικοποίηση Κανονικοποίηση (regularization). Συνάρτηση σφάλματος: Ακρίβεια + όρος κανονικοποίησης Ο όρος κανονικοποίησης μπορεί να λάβει διάφορες μορφές, π.χ.: λ συντελεστής κανονικοποίησης (regularization coefficient). Μπορεί να βρεθεί αναλυτική λύση: Parameter shrinkage, weight decay Γενικά μπορούμε να χρησιμοποιήσουμε συναρτήσεις σφάλματος μορφής:

Γραμμική παλινδρόμηση και κανονικοποίηση q=1: Lasso regularization

Γραμμική παλινδρόμηση και κανονικοποίηση Η ελαχιστοποίηση της είναι ισοδύναμη με την ελαχιστοποίηση των ελάχιστων τετραγώνων με περιορισμό: Η κανονικοποίηση με μικρό λ (πχ Lasso) οδηγεί σε αραιότερες (sparser) λύσεις κάποια βάρη οδηγούνται στο μηδέν, με άλλα λόγια διαλέγουμε «σημαντικούς» όρους

Γραμμική παλινδρόμηση με πολλαπλές εξόδους Παρόμοια με την περίπτωση μιας εξόδου, η πιθανοφάνεια είναι: Παρατηρήσεις Log likelihood lih και Μεγιστοποίηση ως προς W: Για συγκεκριμένη μεταβλητή εξόδου: όπου

The bias variance tradeoff Η επιλογή της πολυπλοκότητας του μοντέλου, με άλλα λόγια του αριθμού των συναρτήσεων βάσης, είναι πολύ βασικό ερώτημα Αν έχουμε κανονικοποίηση, εξαρτάται από την τιμή του λ Για προβλήματα αυτού του τύπου, μπορούμε να ορίσουμε τη μέση ή αναμενόμενη τετραγωνική συνάρτηση απώλειας (squared loss function) ως εξής: Ο σκοπός είναι να επιλέξουμε το y(x) ώστε να ελαχιστοποιήσουμε τη μέση απώλεια Ε{L}. Στη γενική περίπτωση, η y(x) που το επιτυγχάνει είναι η υπό συνθήκη αναμενόμενη τιμή του t δεδομένου του x:

The bias variance tradeoff Η μέση τετραγωνική απώλεια μπορεί να γραφεί ως: ( ) εξαρτάται από το h(x) και ανεξάρτητο του h(x), αντιστοιχεί στη διασπορά της ελαχιστοποιείται για y(x)=h(x) κατανομής του t, κανονικοποιημένο ως προς το x, δηλ. άρα αντιστοιχεί στη μεταβλητότητα των παρατηρήσεων t. Ο όρος αυτός δεν μπορεί να μηδενιστεί Αν είχαμε άπειρα δεδομένα, τότε θα μπορούσαμε να υπολογίσουμε την h(x) ακριβώς. Όμως στην πράξη έχουμε πεπερασμένο αριθμό δεδομένων D οπότε υπολογίζουμε την συνάρτηση y(x,w) από αυτά. Ας υποθέσουμε ότι μπορούμε να πάρουμε έναν μεγάλο αριθμό δειγμάτων δεδομένων D μήκους Ν και υπολογίζουμε κάθε φορά τη συνάρτηση y(x,w)

The bias variance tradeoff Για να εκτιμήσουμε την απόδοση της εκτίμησης που κάνουμε παίρνοντας την αναμενόμενη τιμή ως προς όλα τα σύνολα δεδομένων D για τον όρο, με άλλα λόγια το: Μπορεί να δειχθεί ότι: Ο πρώτος όρος εξαρτάται από την απόκλιση από την ζητούμενη συνάρτηση παλινδρόμησης h(x) και ο δεύτερος από το πόσο η εκτίμηση για ένα συγκεκριμένο σύνολο δεδομένων διαφέρει από την αναμενόμενη τιμή ως προς όλα τα σύνολα δεδομένων

The bias variance tradeoff Τελικά λοιπόν η αναμενόμενη απώλεια εξαρτάται από τρεις όρους: όπου: Τα πολύ απλά μοντέλα χαρακτηρίζονται από μεγάλη απόκλιση και μικρή διασπορά, ενώ τα πολύ πολύπλοκα μοντέλα από μικρή απώλεια και μεγάλη διασπορά Άρα υπάρχει ένας συμβιβασμός μεταξύ απόκλισης και διασποράς (bias variance trade off) Το καλύτερο μοντέλο είναι αυτό που επιτυγχάνει τον καλύτερο συμβιβασμό

The bias variance tradeoff Παράδειγμα: 100 σύνολα δεδομένων με Ν=25 σημεία το καθένα από την h(x)=sin(2πx), γραμμική παλινδρόμηση με M 1=24 Γκαουσιανές συναρτήσεις βάσης

The bias variance tradeoff

The bias variance tradeoff Μπορούμε να υπολογίσουμε τους όρους απόκλισης διασποράς ως εξής: όπου: Γενικά είναι δύσκολο να ακολουθήσουμε την παραπάνω διαδικασία ασία στην πράξη: Bayesian linear regression

Bayesian linear regression Προσδιορισμός πολυπλοκότητας για εκτίμηση μέγιστης πιθανοφάνειας: Κανονικοποίηση προσδιορισμός λ Δεδομένα επικύρωσης περισσότερα δεδομένα Πολλαπλά σύνολα δεδομένων (δύσκολο) Εναλλακτικά: Μπεϋζιανή θεώρηση Ή εκ των υστέρων κατανομή για το διάνυσμα w δίνεται από την: p ( w t ) p ( t w ) p ( w ) Η πιθανοφάνεια για Γκαουσιανό θόρυβο (γνωστής διασποράς) έχει επίσης τη μορφή κανονικής κατανομής: άρα μπορούμε να διαλέξουμε συζυγή εκ των προτέρων κατανομή για το w την ακόλουθη κανονική κατανομή:

Bayesian linear regression Τελικά η εκ των υστέρων κατανομή προκύπτει: Για Ν=0 0 posterior=prior i w MAP =m N, ενώ για απείρως «απλωμένη» prior δηλ. S 0 =α 1 I με α >0, m N >w ML Πχ για έχουμε: και άρα μεγιστοποίηση της εκ των υστέρων πιθανότητας = κανονικοποίηση με λ=α/β

Παράδειγμα: Δεδομένα από f(x)= 0.3+0.5x και x~uniform[ 1,1], λευκός θόρυβος με σ=0.2 άρα t n =f(x n )+e. Γραμμικό μοντέλο y(x,w)=w 1 +w 2 x Υποθέτουμε ότι το β είναι γνωστό Bayesian linear regression

Bayesian linear regression Προγνωστική κατανομή: Πως μπορούμε να προβλέψουμε τις επόμενες τιμές του t? Ολοκληρώνουμε ως προς w Θόρυβος στα δεδομένα Αβεβαιότητα στην εκτίμηση των παραμέτρων w Στο όριο Ν η διασπορά της προγνωστικής κατανομής εξαρτάται μόνο από το β

Bayesian linear regression Παράδειγμα: 9 Γκαουσιανές συναρτήσεις βάσης

Bayesian linear regression Παράδειγμα: 9 Γκαουσιανές συναρτήσεις βάσης