HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 9-10

Σχετικά έγγραφα
HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 799 1: Αναγνώριση Συστημάτων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

HMY 799 1: Αναγνώριση Συστημάτων

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

HMY 799 1: Αναγνώριση Συστημάτων

Αναγνώριση Προτύπων Ι

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

HMY 795: Αναγνώριση Προτύπων

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

Εφαρμοσμένη Στατιστική

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

HMY 795: Αναγνώριση Προτύπων

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

Μέθοδος μέγιστης πιθανοφάνειας

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

3. Κατανομές πιθανότητας

HMY 795: Αναγνώριση Προτύπων

Στατιστική Συμπερασματολογία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ


27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

!n k. Ιστογράμματα. n k. x = N = x k

HMY 799 1: Αναγνώριση Συστημάτων

Εφαρμοσμένη Στατιστική

Εφαρμογές μεθοδολογιών μηχανικής εκμάθησης στο χώρο της παραγωγής υδρογονανθράκων. Βασίλης Γαγάνης

ΚΑΤΑΝΟΜΗ ΠΥΚΝΟΤΗΤΑΣ ΠΙΘΑΝΟΤΗΤΑΣ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

HMY 795: Αναγνώριση Προτύπων

HMY 799 1: Αναγνώριση Συστημάτων

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 2

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

HMY 799 1: Αναγνώριση. συστημάτων. Διαλέξεις 6 7. Συνάφεια (συνέχεια) Μη παραμετρική αναγνώριση γραμμικών

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

HMY 799 1: Αναγνώριση Συστημάτων

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 4

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Μέθοδος μέγιστης πιθανοφάνειας

Πολλαπλή παλινδρόμηση (Multivariate regression)

Kruskal-Wallis H

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 11

Κεφ. 3: Παρεμβολή. 3.1 Εισαγωγή. 3.2 Πολυωνυμική παρεμβολή Παρεμβολή Lagrange Παρεμβολή Newton. 3.3 Παρεμβολή με κυβικές splines

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις, σημειακή εκτίμηση παραμέτρων και γραμμική παλινδρόμηση Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή

Τοπογραφικά Δίκτυα & Υπολογισμοί

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

X = = 81 9 = 9

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Άσκηση 2: Y=BX+C. Λύση:

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

Στατιστική. Εκτιμητική

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

HMY 795: Αναγνώριση Προτύπων

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

Πιθανολογική Ανάλυση Αποφάσεων. Συστήματα Αποφάσεων Εργαστήριο Συστημάτων Αποφάσεων και Διοίκησης

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017

Εισόδημα Κατανάλωση

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

Συστήματα Αυτομάτου Ελέγχου ΙΙ. Άσκηση. γραμμάτων του επιθέτου σας (π.χ. για το επίθετο Κοσματόπουλος, οι αριθμοί α ι θα είναι a

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων

(1) L{a 1 x 1 + a 2 x 2 } = a 1 L{x 1 } + a 2 L{x 2 } (2) x(t) = δ(t t ) x(t ) dt x[i] = δ[i i ] x[i ] (3) h[i, i ] x[i ] (4)

Transcript:

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 9-10 Γραμμική παλινδρόμηση (Linear regression)

Μπεϋζιανή εκτίμηση για την κανονική κατανομή Γνωστή μέση τιμή μ, άγνωστη διασπορά σ 2. Ακρίβεια λ=1/σ 2 : conjugate prior p(λ): Gamma distribution =

Μπεϋζιανή εκτίμηση για την κανονική κατανομή μ,σ 2 (ή λ) άγνωστες: Conjugate prior: Gaussian-gamma distribution Gaussian mixtures

p( C x) = i c j= 1 p( x C ) p( C ) i p( x C ) p( C ) j Maximum likelihood, MAP: p(x θ ML,D i ),p(x θ MAP,D i ) Bayes: p( x D ) p( x θ) p( θ D ) dθ i Σύγκριση μεθόδων εκτίμησης = i j i Πιθανοφάνεια με οξεία κορυφή στο θ ML, η p(θ ML ) 0 p(θ D i ) μέγιστο στο θ ML Αποτελέσματα από p( x D ) p( x θ) p( θ D ) dθ, p(x θ ML,D i )παρόμοια Αν η εκ των προτέρων κατανομή δεν αποκλείει την «πραγματική» λύση: ML, Bayes ισοδύναμα αποτελέσματα ασυμπτωτικά (Ν ) Σφάλματα ταξινόμησης : Σφάλμα Bayes Σφάλμα μοντέλου (model error) Σφάλμα εκτίμησης (estimation error) i = i

Για μια (μικρή) περιοχή R με όγκο V: Μη παραμετρικές μέθοδοι Κ σταθερό, V από δεδομένα: K nearest neighbors algorithm V σταθερό, Κ από τα δεδομένα: Εκτίμηση πυκνότητας με πυρήνα (kernel density estimation) Σύγκλιση lim E{ p ( x)} = p( x) N lim Var{ p ( x)} = 0 N N N h παράμετρος ομαλότητας

Kernel density: Ομοιόμορφο h παντού Μη παραμετρικές μέθοδοι Αν στην Κ σταθερό και μεταβάλλουμε το V: Περιοχές με υψηλή πυκνότητα: μικρό κελί, υψηλή ανάλυση Περιοχές με χαμηλή πυκνότητα: μεγάλο κελί, χαμηλή ανάλυση Απευθείας ταξινόμηση K παράμετρος ομαλοποίησης(smoothing parameter)

Γραμμική παλινδρόμηση (Linear regression) Ένα από τα πιο βασικά προβλήματα στις ποσοτικές επιστήμες είναι η πρόβλεψη της τιμής μιας εξαρτημένης μεταβλητής yμε βάση την πληροφορία που μας δίνεται από κάποιες ανεξάρτητες μεταβλητές x 1,,x d Τα μοντέλα γραμμικής παλινδρόμησης (linear regression models) υποθέτουν γραμμική σχέση μεταξύ των ανεξάρτητων και της εξαρτημένης μεταβλητής, δηλ: Τ y = w + w x + + w x = w x ( x, w) 0 1 1... d d με άλλα λόγια εξαρτώνται γραμμικά από τις άγνωστες παραμέτρους w i Μοντέλα αυτού του τύπου έχουν μελετηθεί εκτεταμένα στη στατιστική και χρησιμοποιηθεί σε πολλά επιστημονικά πεδία (οικονομία, ανθρωπιστικές επιστήμες, ψυχολογία, μηχανική κλπ.) Τα μοντέλα αυτά είναι απλά, οι ιδιότητές τους έχουν μελετηθεί λεπτομερώς και συχνά μας δίνουν ικανοποιητικές περιγραφές Επιπλέον, σε περίπτωση που δεν έχουμε ικανό αριθμό πειραματικών δεδομένων ή/και έχουμε αρκετό θόρυβο τα μοντέλα γραμμικής παλινδρόμησης μπορεί να δώσουν καλύτερα αποτελέσματα από πιο πολύπλοκα (μη γραμμικά) μοντέλα

Γραμμική παλινδρόμηση (Linear regression) Στη γενική περίπτωση, το πρόβλημα της παλινδρόμησης αφορά στον υπολογισμό μιας συνάρτησης των ανεξάρτητων μεταβλητών y(x,w)βάσει των παρατηρήσεων x και t (target variable), ώστε η διαφορά: t y( x, w) = t yˆ να είναι «μικρή». Μπορούμε να θεωρήσουμε το πρόβλημα γραμμικής παλινδρόμησης σε ντετερμινιστικό ή στοχαστικό υπόβαθρο Αν τα yκαι xπεριγράφονται σε στοχαστικό πλαίσιο, τότε μπορούμε π.χ. να ελαχιστοποιήσουμε την: [ ] 2 2 = E{ t y( x, w) } ( t y( x, w)) p( x, t) dxdt

Γραμμική παλινδρόμηση (Linear regression) Στηγενική περίπτωση, οι ανεξάρτητες μεταβλητές μπορεί να είναι (μη γραμμικοί) μετασχηματισμοί των εισόδων, οπότε το μοντέλο γραμμικής παλινδρόμησης παίρνει τη μορφή: φ(x): συναρτήσεις βάσης (basis functions) Συνήθως: φ 0 (x)=1, w 0 : bias(απόκλιση) Π.χ. προσαρμογή καμπύλης:

Γραμμική παλινδρόμηση (Linear regression) Πιθανές συναρτήσεις βάσης: Πολυωνυμικές (ολικές - global), διαχωρισμός χώρου: splines Γκαουσιανές: τοπικές

Γραμμική παλινδρόμηση (Linear regression) Πιθανές συναρτήσεις βάσης: Σιγμοειδείς (sigmoidal) τοπικές Συνημιτονοειδείς: περιοδικές(συγκεκριμένη συχνότητα - άπειρη χρονική/χωρική έκταση) Κυμάτια (Wavelets): εντοπισμένα και στο χώρο/χρόνο και στη συχνότητα

Γραμμική παλινδρόμηση (Linear regression) Έχουμε λοιπόν τη γενική μορφή Τ y( x, w) = w0 + w1ϕ 1( x) +... + w M 1ϕ M 1( x) = w φ φ 1 ϕ... ϕ 1 = = M 1, w... [ w w w ] 0 1 M 1 Παράδειγμα: Προσαρμογή καμπύλης [ ] T M T Εδώ έχουμε: φ = 1 x... x, w = w0 w1... w M Παράδειγμα: Μοντέλο κρουστικής απόκρισης για σύστημα FIR (Αναγνώριση συστημάτων ΗΜΥ636) Εδώ: φ T T [ u( t) u( t 1)... u( t M 1) ], w [ h(0) h(1)... h( M 1) ] = + =

Γραμμική παλινδρόμηση (Linear regression) y( x, w) = w x+ w 1 0 y( x, ) w w x w x y( x, w) = w + w x + w x 2 w = 0+ 1 + 2 0 1 1 2 2

Γραμμική παλινδρόμηση (Linear regression) Ο σκοπός μας είναι η εκτίμηση του διανύσματος παραμέτρων w, δηλ. η εύρεση της εκτίμησης από παρατηρήσεις των φκαι t, δηλ. από το σύνολο {φ 1, t 1,φ 2, t 2,,φ N,t N } Μπορούμε να γράψουμε το ακόλουθο σύνολο γραμμικών εξισώσεων: t T 1 1 T t2 = φ2w... t N = φ w = φ w T N ή σε μορφή πινακων: όπου: t= Φw Τ t1 φ 1 t Τ 2 2, φ t= Φ=...... Τ tn φn t: διάνυσμα Nx1, Φ: πίνακας NxM Αν N=dτότε μπορούμε να αντιστρέψουμε τον πίνακαφ για να υπολογίσουμε τοw, όμως τυπικά έχουμε δεδομένα που περιέχουν θόρυβο, οπότε χρειαζόμαστε N>>dγια να πάρουμε καλά αποτελέσματα (Διάλεξη 1) overdeterminedsystem: στην περίπτωση αυτή δεν έχουμε ακριβή λύση Πως μπορούμε να λύσουμε την παραπάνω εξίσωση? T Ορίζουμε τα σφάλματα/ υπόλοιπα του μοντέλου (model errors/residuals)ως ε i = ti φi w και T το αντίστοιχο διάνυσμά τους ως: ε = [ ε1 ε 2... ε N ]

Γραμμική παλινδρόμηση (Linear regression) Μπορούμε τότε να ορίσουμε την εκτίμηση ελάχιστων τετραγώνων του w(gauss 1809) ως το διάνυσμα που ελαχιστοποιεί την ακόλουθη συνάρτηση κόστους (cost function): N N N 1 2 1 2 1 T 2 1 T 1 2 VN ( w) = ε k = [ tk yk ( x, w) ] = k k 2 k 1 2 k 1 2 t φ w = ε ε = ε = = k= 1 2 2 δηλ. ψάχνουμε το διάνυσμα w το οποίο ικανοποιεί την: wˆ = arg min V w ( w) Θέτουμε την παράγωγο ως προς w=0 V LS N N 1 T 2 1 T 1 N 2 t k k k= 1 2 2 Τ ( w ) = φ w = ε ε = ( t Φw ) ( t Φw ) = 1 [ Τ Τ Τ Τ Τ Τ = t t+ w Φ Φw t Φw w Φ t ] 2 VN ( w) Τ Τ = Φ t+ Φ Φw= 0 w Τ ( ) 1 Τ wˆ = Φ Φ Φ t LS * Σημ. από άλγεβρα T θ Aθ = Aθ+ θ T T a θ θ a = = a θ θ T A θ

Γραμμική παλινδρόμηση (Linear regression) Τ Αν ο πίνακας Φ είναι πλήρους βαθμού (full rank), τότε ο πίνακας Φ Φ είναι αντιστρέψιμος και θετικά ορισμένος και έχουμε την παραπάνω μοναδική λύση, η οποία αντιστοιχεί σε ελάχιστο, καθώς: VN ( w) Τ = 2Φ Φ T w w Ισοδύναμα: 1 N N T w ˆ = t φ φ k= 1 φ k= 1 ˆ LS k k k k ( ) 1 Τ Τ Αν ο Φ δεν είναι πλήρους βαθμού, τότε έχουμε άπειρες λύσεις. Ο πίνακας Φ Φ Φ ονομάζεται ψευδοαντίστροφος(pseudoinverse) του πίνακα Φ Η μέθοδος των ελάχιστων τετραγώνων είναι λογική είτε δουλεύουμε σε ντετερμινιστικό ή σε στοχαστικό υπόβαθρο

Ελάχιστα τετράγωνα Γεωμετρική ερμηνεία t: διάνυσμα στο χώρο R N Ισοδύναμο πρόβλημα: Βρείτε γραμμικό συνδυασμό των {φ 0,φ 1,,φ M-1 } για κάθε x n που προσεγγίζει το διάνυσμα tόσο καλύτερα γίνεται. -Αν Μ<Ν, τα {φ 0,φ 1,,φ Μ-1 } ορίζουν έναν υποχώρο R Μ του R N -Αν το διάνυσμα yανήκει σε αυτόν τον υποχώρο: μπορούμε να το εκφράσουμε ως γραμμικό συνδυασμό των {φ 0,φ 1,,φ Μ-1 } -Αν όχι: η καλύτερη προσέγγιση που ανήκει στο R Μ είναι αυτή με τη μικρότερη απόσταση από το διάνυσμα t, δηλαδή η ορθογώνια προβολή του tστον υποχώρο R Μ ( t t ˆ ) φi, i = 0,1,..., M 1 Άρα ( t tˆ ) T φi = 0 και επειδή ˆ M t R M 1 tˆ = ŵ φ j= 0 M 1 T T t φi jφ φ j i j= 0 j j = ŵ, i= 0,1,..., M 1 η οποία σε μορφή πίνακα γράφεται: Τ ( Φ Φ) wˆ LS Τ ˆ ( ) 1 LS = Τ = Φ t Τ w Φ Φ Φ t t ˆt N = 3, M = 2

Γραμμική παλινδρόμηση και μέγιστη πιθανοφάνεια Έστω ότι οι παρατηρήσεις μας προέρχονται από μια ντετερμινιστική συνάρτηση συν θόρυβο: όπου Η κατανομή του t είναι: Άρα δεδομένων των παρατηρήσεων και η πιθανοφάνεια είναι: και όπου

Γραμμική παλινδρόμηση και μέγιστη πιθανοφάνεια Άρα οι εκτιμήσεις που παίρνουμε από τις μεθόδους ML και LS είναι πανομοιότυπες όταν ο θόρυβος είναι Γκαουσιανός Έστω ότι μας ενδιαφέρει μόνο το w 0. Μεγιστοποιώντας την πιθανοφάνεια Τέλος, μεγιστοποιώντας την πιθανοφάνεια ως προς β:

Γραμμική παλινδρόμηση και κανονικοποίηση Κανονικοποίηση (regularization). Συνάρτηση σφάλματος: Ακρίβεια + όρος κανονικοποίησης Ο όρος κανονικοποίησης μπορεί να λάβει διάφορες μορφές, π.χ.: λ -συντελεστής κανονικοποίησης(regularization coefficient). Μπορεί να βρεθεί αναλυτική λύση ελαχιστοποιώντας ως προς w: Τετραγωνικός όρος κανονικοποίησης: Ridge regression, parameter shrinkage, weight decay Αν ο πίνακας Φ Τ Φέχει ορίζουσα κοντά στο μηδέν (ill-conditioned matrix) η χρήση κανονικοποίησης έχει ως (επιπλέον) αποτέλεσμα την αποφυγή αριθμητικών προβλημάτων Μπορούμε να πάρουμε μια ιδέα για πιθανά σφάλματα αυτού του τύπου αν υπολογίσουμε το λόγο μεταξύ της (απολύτως) μεγαλύτερης προς τη μικρότερη ιδιοτιμή του πίνακα -condition number (Matlab: cond, rcond) Όσο μεγαλύτερη η τιμή του condition number, τόσο πιο κοντά η ορίζουσα του Φ Τ Φ είναι στο μηδέν: μεγάλη ευαισθησία σε μικρές αλλαγές στα δεδομένα, οι οποίες μπορούν να προκαλέσουν μεγάλες αλλαγές στις εκτιμήσεις των συντελεστών Μπορούμε να πάρουμε την ίδια πληροφορία από το singular value decomposition του (μη τετραγωνικού) πίνακα Φ

Γραμμική παλινδρόμηση και κανονικοποίηση Μπορούμε να γενικεύσουμε και να χρησιμοποιήσουμε συναρτήσεις σφάλματος μορφής: q=1: Lasso regularization

Γραμμική παλινδρόμηση και κανονικοποίηση Η ελαχιστοποίηση της είναι ισοδύναμη με την ελαχιστοποίηση των ελάχιστων τετραγώνων με περιορισμό (πολλ/στες Lagrange Bishop Appendix E): όπου οι παράμετροι l, n συνδέονται μεταξύ τους Η κανονικοποίηση με μικρό q(πχ Lasso) οδηγεί σε αραιότερες (sparser) λύσεις κάποια βάρη οδηγούνται στο μηδέν, με άλλα λόγια διαλέγουμε «σημαντικούς» όρους Δεν έχουμε πλέον αναλυτική λύση πρόβλημα τετραγωνικού προγραμματισμού (λύση με επαναληπτικές μεθόδους κλπ.) Μπορούμε να επιλέξουμε την τιμή του λ χρησιμοποιώντας π.χ. δεδομένα επικύρωσης

Γραμμική παλινδρόμηση με πολλαπλές εξόδους Παρόμοια με την περίπτωση μιας εξόδου, η πιθανοφάνεια είναι: Παρατηρήσεις Log-likelihood (L: αριθμός εξόδων) και Μεγιστοποίηση ως προς W: Για συγκεκριμένη μεταβλητή εξόδου: όπου

The bias-variance tradeoff Η επιλογή της πολυπλοκότητας του μοντέλου, με άλλα λόγια του αριθμού των συναρτήσεων βάσης, είναι πολύ βασικό ερώτημα Αν έχουμε κανονικοποίηση, εξαρτάται από την τιμή του λ Για προβλήματα παλινδρόμησης, μπορούμε να ορίσουμε τη μέση ή αναμενόμενη τετραγωνική συνάρτηση απώλειας (squared loss function) ως εξής: [ ] 2 2 E{ L} = E{ t y( x) } = ( y( x) t) p( x, t) dxdt Ο σκοπός είναι να επιλέξουμε το y(x) ώστε να ελαχιστοποιήσουμε τη μέση απώλεια Ε{L}. Στη γενική περίπτωση, η y(x) που το επιτυγχάνει είναι η υπό συνθήκη αναμενόμενη τιμή του t δεδομένου του x:

The bias-variance tradeoff Η μέση τετραγωνική απώλεια μπορεί να γραφεί ως: ( ) εξαρτάται από το y(x)και ελαχιστοποιείται για y(x)=h(x) ανεξάρτητο του y(x), αντιστοιχεί στην εγγενή διασπορά της τ.μ. tγια κάθε πιθανή τιμή του τυχαίου δ/τος x, δηλ. άρα αντιστοιχεί στη μεταβλητότητα των παρατηρήσεων t. Ο όρος αυτός δεν μπορεί να μηδενιστεί Αν είχαμε άπειρα δεδομένα, τότε θα μπορούσαμε να υπολογίσουμε την h(x) ακριβώς. Όμως στην πράξη έχουμε πεπερασμένο αριθμό δεδομένων D οπότε υπολογίζουμε την συνάρτηση y(x,w) από αυτά. Ας υποθέσουμε ότι μπορούμε να πάρουμε έναν μεγάλο αριθμό δειγμάτων δεδομένων D μήκους Ν και υπολογίζουμε κάθε φορά τη συνάρτηση y(x,w)

The bias-variance tradeoff Για να εκτιμήσουμε την απόδοση της εκτίμησης που κάνουμε παίρνοντας την αναμενόμενη τιμή ως προς όλα τα σύνολα δεδομένων Dγια τον όρο, με άλλα λόγια το: Μπορεί να δειχθεί (προσθαφαιρώντας τον όρο ) ότι: Ο πρώτος όρος εξαρτάται από την απόκλιση από την ζητούμενη βέλτιστη συνάρτηση παλινδρόμησης h(x) και ο δεύτερος από το πόσο η εκτίμηση για ένα συγκεκριμένο σύνολο δεδομένων διαφέρει από την αναμενόμενη τιμή ως προς όλα τα σύνολα δεδομένων

The bias-variance tradeoff Τελικά λοιπόν η αναμενόμενη τετραγωνική απώλεια εξαρτάται από τρεις όρους: όπου: Τα πολύ απλά μοντέλα χαρακτηρίζονται από μεγάλη απόκλιση και μικρή διασπορά, ενώ τα πολύ πολύπλοκα μοντέλα από μικρή απώλεια και μεγάλη διασπορά Άρα υπάρχει ένας συμβιβασμός μεταξύ απόκλισης και διασποράς (bias-variance trade-off) Το «καλύτερο» μοντέλο είναι αυτό που επιτυγχάνει τον βέλτιστο συμβιβασμό

The bias-variance tradeoff Παράδειγμα: 100 σύνολα δεδομένων με Ν=25 σημεία το καθένα από την h(x)=sin(2πx), γραμμική παλινδρόμηση με M-1=24 Γκαουσιανές συναρτήσεις βάσης

The bias-variance tradeoff

The bias-variance tradeoff Μπορούμε να υπολογίσουμε τους όρους απόκλισης-διασποράς ως εξής: όπου: Γενικά είναι δύσκολο να ακολουθήσουμε την παραπάνω διαδικασία στην πράξη: Bayesian linear regression αντί να παίρνουμε όμως μέσο όρο ως προς πολλαπλά σύνολα δεδομένων, παίρνουμε μέσο όρο ως προς την εκ των υστέρων κατανομή των συντελεστών παλινδρόμησης

Bayesian linear regression Προσδιορισμός πολυπλοκότητας για εκτίμηση μέγιστης πιθανοφάνειας: Κανονικοποίηση προσδιορισμός λ Δεδομένα επικύρωσης περισσότερα δεδομένα Πολλαπλά σύνολα δεδομένων (δύσκολο) Εναλλακτικά: Μπεϋζιανή θεώρηση Ή εκ των υστέρων κατανομή για το διάνυσμα w δίνεται από την: p( w t) p( t w) p( w) Η πιθανοφάνεια για Γκαουσιανό θόρυβο (γνωστής διασποράς) έχει επίσης τη μορφή κανονικής κατανομής ως προς w: άρα μπορούμε να διαλέξουμε συζυγή εκ των προτέρων κατανομή για το w την ακόλουθη κανονική κατανομή:

Bayesian linear regression Τελικά η εκ των υστέρων κατανομή προκύπτει: Για Ν=0: posterior=prior w MAP= m N, ενώ για απείρως «απλωμένη»εκ των προτέρωνκατανομή δηλ. για S 0 =α -1 Iόπου α 0,τότε m N w ML Πχ για έχουμε: και άρα μεγιστοποίηση της εκ των υστέρων κατανομής πιθανότητας = κανονικοποίηση με λ=α/β

Παράδειγμα: Δεδομένα από f(x)=-0.3+0.5xκαι x~uniform[-1,1], λευκός θόρυβος με σ=0.2 άρα t n =f(x n )+e. Γραμμικό μοντέλο y(x,w)=w 1 +w 2 x Υποθέτουμε ότι το βείναι γνωστό και θεωρούμε α=2.0 Bayesian linear regression

Bayesian linear regression Προγνωστική κατανομή: Πως μπορούμε να προβλέψουμε τις επόμενες τιμές του t? Ολοκληρώνουμε ως προς w Θόρυβος στα δεδομένα Αβεβαιότητα στην εκτίμηση των παραμέτρων w Στο όριο Ν η διασπορά της προγνωστικής κατανομής εξαρτάται μόνο από το β

Bayesian linear regression Παράδειγμα: 9 Γκαουσιανές συναρτήσεις βάσης

Bayesian linear regression Παράδειγμα: 9 Γκαουσιανές συναρτήσεις βάσης

Bayesian linear regression Αν και το β είναι άγνωστο, υπάρχει αναλυτική λύση Conjugate prior p(w,β) Gaussian-gamma Posterior: Gaussian-gamma Predictive distribution: Student s t distribution Δημοσίευση για Bayesian linear regression στην ιστοσελίδα