HMY 795: Αναγνώριση Προτύπων Διαλέξεις 9-10 Γραμμική παλινδρόμηση (Linear regression)
Μπεϋζιανή εκτίμηση για την κανονική κατανομή Γνωστή μέση τιμή μ, άγνωστη διασπορά σ 2. Ακρίβεια λ=1/σ 2 : conjugate prior p(λ): Gamma distribution =
Μπεϋζιανή εκτίμηση για την κανονική κατανομή μ,σ 2 (ή λ) άγνωστες: Conjugate prior: Gaussian-gamma distribution Gaussian mixtures
p( C x) = i c j= 1 p( x C ) p( C ) i p( x C ) p( C ) j Maximum likelihood, MAP: p(x θ ML,D i ),p(x θ MAP,D i ) Bayes: p( x D ) p( x θ) p( θ D ) dθ i Σύγκριση μεθόδων εκτίμησης = i j i Πιθανοφάνεια με οξεία κορυφή στο θ ML, η p(θ ML ) 0 p(θ D i ) μέγιστο στο θ ML Αποτελέσματα από p( x D ) p( x θ) p( θ D ) dθ, p(x θ ML,D i )παρόμοια Αν η εκ των προτέρων κατανομή δεν αποκλείει την «πραγματική» λύση: ML, Bayes ισοδύναμα αποτελέσματα ασυμπτωτικά (Ν ) Σφάλματα ταξινόμησης : Σφάλμα Bayes Σφάλμα μοντέλου (model error) Σφάλμα εκτίμησης (estimation error) i = i
Για μια (μικρή) περιοχή R με όγκο V: Μη παραμετρικές μέθοδοι Κ σταθερό, V από δεδομένα: K nearest neighbors algorithm V σταθερό, Κ από τα δεδομένα: Εκτίμηση πυκνότητας με πυρήνα (kernel density estimation) Σύγκλιση lim E{ p ( x)} = p( x) N lim Var{ p ( x)} = 0 N N N h παράμετρος ομαλότητας
Kernel density: Ομοιόμορφο h παντού Μη παραμετρικές μέθοδοι Αν στην Κ σταθερό και μεταβάλλουμε το V: Περιοχές με υψηλή πυκνότητα: μικρό κελί, υψηλή ανάλυση Περιοχές με χαμηλή πυκνότητα: μεγάλο κελί, χαμηλή ανάλυση Απευθείας ταξινόμηση K παράμετρος ομαλοποίησης(smoothing parameter)
Γραμμική παλινδρόμηση (Linear regression) Ένα από τα πιο βασικά προβλήματα στις ποσοτικές επιστήμες είναι η πρόβλεψη της τιμής μιας εξαρτημένης μεταβλητής yμε βάση την πληροφορία που μας δίνεται από κάποιες ανεξάρτητες μεταβλητές x 1,,x d Τα μοντέλα γραμμικής παλινδρόμησης (linear regression models) υποθέτουν γραμμική σχέση μεταξύ των ανεξάρτητων και της εξαρτημένης μεταβλητής, δηλ: Τ y = w + w x + + w x = w x ( x, w) 0 1 1... d d με άλλα λόγια εξαρτώνται γραμμικά από τις άγνωστες παραμέτρους w i Μοντέλα αυτού του τύπου έχουν μελετηθεί εκτεταμένα στη στατιστική και χρησιμοποιηθεί σε πολλά επιστημονικά πεδία (οικονομία, ανθρωπιστικές επιστήμες, ψυχολογία, μηχανική κλπ.) Τα μοντέλα αυτά είναι απλά, οι ιδιότητές τους έχουν μελετηθεί λεπτομερώς και συχνά μας δίνουν ικανοποιητικές περιγραφές Επιπλέον, σε περίπτωση που δεν έχουμε ικανό αριθμό πειραματικών δεδομένων ή/και έχουμε αρκετό θόρυβο τα μοντέλα γραμμικής παλινδρόμησης μπορεί να δώσουν καλύτερα αποτελέσματα από πιο πολύπλοκα (μη γραμμικά) μοντέλα
Γραμμική παλινδρόμηση (Linear regression) Στη γενική περίπτωση, το πρόβλημα της παλινδρόμησης αφορά στον υπολογισμό μιας συνάρτησης των ανεξάρτητων μεταβλητών y(x,w)βάσει των παρατηρήσεων x και t (target variable), ώστε η διαφορά: t y( x, w) = t yˆ να είναι «μικρή». Μπορούμε να θεωρήσουμε το πρόβλημα γραμμικής παλινδρόμησης σε ντετερμινιστικό ή στοχαστικό υπόβαθρο Αν τα yκαι xπεριγράφονται σε στοχαστικό πλαίσιο, τότε μπορούμε π.χ. να ελαχιστοποιήσουμε την: [ ] 2 2 = E{ t y( x, w) } ( t y( x, w)) p( x, t) dxdt
Γραμμική παλινδρόμηση (Linear regression) Στηγενική περίπτωση, οι ανεξάρτητες μεταβλητές μπορεί να είναι (μη γραμμικοί) μετασχηματισμοί των εισόδων, οπότε το μοντέλο γραμμικής παλινδρόμησης παίρνει τη μορφή: φ(x): συναρτήσεις βάσης (basis functions) Συνήθως: φ 0 (x)=1, w 0 : bias(απόκλιση) Π.χ. προσαρμογή καμπύλης:
Γραμμική παλινδρόμηση (Linear regression) Πιθανές συναρτήσεις βάσης: Πολυωνυμικές (ολικές - global), διαχωρισμός χώρου: splines Γκαουσιανές: τοπικές
Γραμμική παλινδρόμηση (Linear regression) Πιθανές συναρτήσεις βάσης: Σιγμοειδείς (sigmoidal) τοπικές Συνημιτονοειδείς: περιοδικές(συγκεκριμένη συχνότητα - άπειρη χρονική/χωρική έκταση) Κυμάτια (Wavelets): εντοπισμένα και στο χώρο/χρόνο και στη συχνότητα
Γραμμική παλινδρόμηση (Linear regression) Έχουμε λοιπόν τη γενική μορφή Τ y( x, w) = w0 + w1ϕ 1( x) +... + w M 1ϕ M 1( x) = w φ φ 1 ϕ... ϕ 1 = = M 1, w... [ w w w ] 0 1 M 1 Παράδειγμα: Προσαρμογή καμπύλης [ ] T M T Εδώ έχουμε: φ = 1 x... x, w = w0 w1... w M Παράδειγμα: Μοντέλο κρουστικής απόκρισης για σύστημα FIR (Αναγνώριση συστημάτων ΗΜΥ636) Εδώ: φ T T [ u( t) u( t 1)... u( t M 1) ], w [ h(0) h(1)... h( M 1) ] = + =
Γραμμική παλινδρόμηση (Linear regression) y( x, w) = w x+ w 1 0 y( x, ) w w x w x y( x, w) = w + w x + w x 2 w = 0+ 1 + 2 0 1 1 2 2
Γραμμική παλινδρόμηση (Linear regression) Ο σκοπός μας είναι η εκτίμηση του διανύσματος παραμέτρων w, δηλ. η εύρεση της εκτίμησης από παρατηρήσεις των φκαι t, δηλ. από το σύνολο {φ 1, t 1,φ 2, t 2,,φ N,t N } Μπορούμε να γράψουμε το ακόλουθο σύνολο γραμμικών εξισώσεων: t T 1 1 T t2 = φ2w... t N = φ w = φ w T N ή σε μορφή πινακων: όπου: t= Φw Τ t1 φ 1 t Τ 2 2, φ t= Φ=...... Τ tn φn t: διάνυσμα Nx1, Φ: πίνακας NxM Αν N=dτότε μπορούμε να αντιστρέψουμε τον πίνακαφ για να υπολογίσουμε τοw, όμως τυπικά έχουμε δεδομένα που περιέχουν θόρυβο, οπότε χρειαζόμαστε N>>dγια να πάρουμε καλά αποτελέσματα (Διάλεξη 1) overdeterminedsystem: στην περίπτωση αυτή δεν έχουμε ακριβή λύση Πως μπορούμε να λύσουμε την παραπάνω εξίσωση? T Ορίζουμε τα σφάλματα/ υπόλοιπα του μοντέλου (model errors/residuals)ως ε i = ti φi w και T το αντίστοιχο διάνυσμά τους ως: ε = [ ε1 ε 2... ε N ]
Γραμμική παλινδρόμηση (Linear regression) Μπορούμε τότε να ορίσουμε την εκτίμηση ελάχιστων τετραγώνων του w(gauss 1809) ως το διάνυσμα που ελαχιστοποιεί την ακόλουθη συνάρτηση κόστους (cost function): N N N 1 2 1 2 1 T 2 1 T 1 2 VN ( w) = ε k = [ tk yk ( x, w) ] = k k 2 k 1 2 k 1 2 t φ w = ε ε = ε = = k= 1 2 2 δηλ. ψάχνουμε το διάνυσμα w το οποίο ικανοποιεί την: wˆ = arg min V w ( w) Θέτουμε την παράγωγο ως προς w=0 V LS N N 1 T 2 1 T 1 N 2 t k k k= 1 2 2 Τ ( w ) = φ w = ε ε = ( t Φw ) ( t Φw ) = 1 [ Τ Τ Τ Τ Τ Τ = t t+ w Φ Φw t Φw w Φ t ] 2 VN ( w) Τ Τ = Φ t+ Φ Φw= 0 w Τ ( ) 1 Τ wˆ = Φ Φ Φ t LS * Σημ. από άλγεβρα T θ Aθ = Aθ+ θ T T a θ θ a = = a θ θ T A θ
Γραμμική παλινδρόμηση (Linear regression) Τ Αν ο πίνακας Φ είναι πλήρους βαθμού (full rank), τότε ο πίνακας Φ Φ είναι αντιστρέψιμος και θετικά ορισμένος και έχουμε την παραπάνω μοναδική λύση, η οποία αντιστοιχεί σε ελάχιστο, καθώς: VN ( w) Τ = 2Φ Φ T w w Ισοδύναμα: 1 N N T w ˆ = t φ φ k= 1 φ k= 1 ˆ LS k k k k ( ) 1 Τ Τ Αν ο Φ δεν είναι πλήρους βαθμού, τότε έχουμε άπειρες λύσεις. Ο πίνακας Φ Φ Φ ονομάζεται ψευδοαντίστροφος(pseudoinverse) του πίνακα Φ Η μέθοδος των ελάχιστων τετραγώνων είναι λογική είτε δουλεύουμε σε ντετερμινιστικό ή σε στοχαστικό υπόβαθρο
Ελάχιστα τετράγωνα Γεωμετρική ερμηνεία t: διάνυσμα στο χώρο R N Ισοδύναμο πρόβλημα: Βρείτε γραμμικό συνδυασμό των {φ 0,φ 1,,φ M-1 } για κάθε x n που προσεγγίζει το διάνυσμα tόσο καλύτερα γίνεται. -Αν Μ<Ν, τα {φ 0,φ 1,,φ Μ-1 } ορίζουν έναν υποχώρο R Μ του R N -Αν το διάνυσμα yανήκει σε αυτόν τον υποχώρο: μπορούμε να το εκφράσουμε ως γραμμικό συνδυασμό των {φ 0,φ 1,,φ Μ-1 } -Αν όχι: η καλύτερη προσέγγιση που ανήκει στο R Μ είναι αυτή με τη μικρότερη απόσταση από το διάνυσμα t, δηλαδή η ορθογώνια προβολή του tστον υποχώρο R Μ ( t t ˆ ) φi, i = 0,1,..., M 1 Άρα ( t tˆ ) T φi = 0 και επειδή ˆ M t R M 1 tˆ = ŵ φ j= 0 M 1 T T t φi jφ φ j i j= 0 j j = ŵ, i= 0,1,..., M 1 η οποία σε μορφή πίνακα γράφεται: Τ ( Φ Φ) wˆ LS Τ ˆ ( ) 1 LS = Τ = Φ t Τ w Φ Φ Φ t t ˆt N = 3, M = 2
Γραμμική παλινδρόμηση και μέγιστη πιθανοφάνεια Έστω ότι οι παρατηρήσεις μας προέρχονται από μια ντετερμινιστική συνάρτηση συν θόρυβο: όπου Η κατανομή του t είναι: Άρα δεδομένων των παρατηρήσεων και η πιθανοφάνεια είναι: και όπου
Γραμμική παλινδρόμηση και μέγιστη πιθανοφάνεια Άρα οι εκτιμήσεις που παίρνουμε από τις μεθόδους ML και LS είναι πανομοιότυπες όταν ο θόρυβος είναι Γκαουσιανός Έστω ότι μας ενδιαφέρει μόνο το w 0. Μεγιστοποιώντας την πιθανοφάνεια Τέλος, μεγιστοποιώντας την πιθανοφάνεια ως προς β:
Γραμμική παλινδρόμηση και κανονικοποίηση Κανονικοποίηση (regularization). Συνάρτηση σφάλματος: Ακρίβεια + όρος κανονικοποίησης Ο όρος κανονικοποίησης μπορεί να λάβει διάφορες μορφές, π.χ.: λ -συντελεστής κανονικοποίησης(regularization coefficient). Μπορεί να βρεθεί αναλυτική λύση ελαχιστοποιώντας ως προς w: Τετραγωνικός όρος κανονικοποίησης: Ridge regression, parameter shrinkage, weight decay Αν ο πίνακας Φ Τ Φέχει ορίζουσα κοντά στο μηδέν (ill-conditioned matrix) η χρήση κανονικοποίησης έχει ως (επιπλέον) αποτέλεσμα την αποφυγή αριθμητικών προβλημάτων Μπορούμε να πάρουμε μια ιδέα για πιθανά σφάλματα αυτού του τύπου αν υπολογίσουμε το λόγο μεταξύ της (απολύτως) μεγαλύτερης προς τη μικρότερη ιδιοτιμή του πίνακα -condition number (Matlab: cond, rcond) Όσο μεγαλύτερη η τιμή του condition number, τόσο πιο κοντά η ορίζουσα του Φ Τ Φ είναι στο μηδέν: μεγάλη ευαισθησία σε μικρές αλλαγές στα δεδομένα, οι οποίες μπορούν να προκαλέσουν μεγάλες αλλαγές στις εκτιμήσεις των συντελεστών Μπορούμε να πάρουμε την ίδια πληροφορία από το singular value decomposition του (μη τετραγωνικού) πίνακα Φ
Γραμμική παλινδρόμηση και κανονικοποίηση Μπορούμε να γενικεύσουμε και να χρησιμοποιήσουμε συναρτήσεις σφάλματος μορφής: q=1: Lasso regularization
Γραμμική παλινδρόμηση και κανονικοποίηση Η ελαχιστοποίηση της είναι ισοδύναμη με την ελαχιστοποίηση των ελάχιστων τετραγώνων με περιορισμό (πολλ/στες Lagrange Bishop Appendix E): όπου οι παράμετροι l, n συνδέονται μεταξύ τους Η κανονικοποίηση με μικρό q(πχ Lasso) οδηγεί σε αραιότερες (sparser) λύσεις κάποια βάρη οδηγούνται στο μηδέν, με άλλα λόγια διαλέγουμε «σημαντικούς» όρους Δεν έχουμε πλέον αναλυτική λύση πρόβλημα τετραγωνικού προγραμματισμού (λύση με επαναληπτικές μεθόδους κλπ.) Μπορούμε να επιλέξουμε την τιμή του λ χρησιμοποιώντας π.χ. δεδομένα επικύρωσης
Γραμμική παλινδρόμηση με πολλαπλές εξόδους Παρόμοια με την περίπτωση μιας εξόδου, η πιθανοφάνεια είναι: Παρατηρήσεις Log-likelihood (L: αριθμός εξόδων) και Μεγιστοποίηση ως προς W: Για συγκεκριμένη μεταβλητή εξόδου: όπου
The bias-variance tradeoff Η επιλογή της πολυπλοκότητας του μοντέλου, με άλλα λόγια του αριθμού των συναρτήσεων βάσης, είναι πολύ βασικό ερώτημα Αν έχουμε κανονικοποίηση, εξαρτάται από την τιμή του λ Για προβλήματα παλινδρόμησης, μπορούμε να ορίσουμε τη μέση ή αναμενόμενη τετραγωνική συνάρτηση απώλειας (squared loss function) ως εξής: [ ] 2 2 E{ L} = E{ t y( x) } = ( y( x) t) p( x, t) dxdt Ο σκοπός είναι να επιλέξουμε το y(x) ώστε να ελαχιστοποιήσουμε τη μέση απώλεια Ε{L}. Στη γενική περίπτωση, η y(x) που το επιτυγχάνει είναι η υπό συνθήκη αναμενόμενη τιμή του t δεδομένου του x:
The bias-variance tradeoff Η μέση τετραγωνική απώλεια μπορεί να γραφεί ως: ( ) εξαρτάται από το y(x)και ελαχιστοποιείται για y(x)=h(x) ανεξάρτητο του y(x), αντιστοιχεί στην εγγενή διασπορά της τ.μ. tγια κάθε πιθανή τιμή του τυχαίου δ/τος x, δηλ. άρα αντιστοιχεί στη μεταβλητότητα των παρατηρήσεων t. Ο όρος αυτός δεν μπορεί να μηδενιστεί Αν είχαμε άπειρα δεδομένα, τότε θα μπορούσαμε να υπολογίσουμε την h(x) ακριβώς. Όμως στην πράξη έχουμε πεπερασμένο αριθμό δεδομένων D οπότε υπολογίζουμε την συνάρτηση y(x,w) από αυτά. Ας υποθέσουμε ότι μπορούμε να πάρουμε έναν μεγάλο αριθμό δειγμάτων δεδομένων D μήκους Ν και υπολογίζουμε κάθε φορά τη συνάρτηση y(x,w)
The bias-variance tradeoff Για να εκτιμήσουμε την απόδοση της εκτίμησης που κάνουμε παίρνοντας την αναμενόμενη τιμή ως προς όλα τα σύνολα δεδομένων Dγια τον όρο, με άλλα λόγια το: Μπορεί να δειχθεί (προσθαφαιρώντας τον όρο ) ότι: Ο πρώτος όρος εξαρτάται από την απόκλιση από την ζητούμενη βέλτιστη συνάρτηση παλινδρόμησης h(x) και ο δεύτερος από το πόσο η εκτίμηση για ένα συγκεκριμένο σύνολο δεδομένων διαφέρει από την αναμενόμενη τιμή ως προς όλα τα σύνολα δεδομένων
The bias-variance tradeoff Τελικά λοιπόν η αναμενόμενη τετραγωνική απώλεια εξαρτάται από τρεις όρους: όπου: Τα πολύ απλά μοντέλα χαρακτηρίζονται από μεγάλη απόκλιση και μικρή διασπορά, ενώ τα πολύ πολύπλοκα μοντέλα από μικρή απώλεια και μεγάλη διασπορά Άρα υπάρχει ένας συμβιβασμός μεταξύ απόκλισης και διασποράς (bias-variance trade-off) Το «καλύτερο» μοντέλο είναι αυτό που επιτυγχάνει τον βέλτιστο συμβιβασμό
The bias-variance tradeoff Παράδειγμα: 100 σύνολα δεδομένων με Ν=25 σημεία το καθένα από την h(x)=sin(2πx), γραμμική παλινδρόμηση με M-1=24 Γκαουσιανές συναρτήσεις βάσης
The bias-variance tradeoff
The bias-variance tradeoff Μπορούμε να υπολογίσουμε τους όρους απόκλισης-διασποράς ως εξής: όπου: Γενικά είναι δύσκολο να ακολουθήσουμε την παραπάνω διαδικασία στην πράξη: Bayesian linear regression αντί να παίρνουμε όμως μέσο όρο ως προς πολλαπλά σύνολα δεδομένων, παίρνουμε μέσο όρο ως προς την εκ των υστέρων κατανομή των συντελεστών παλινδρόμησης
Bayesian linear regression Προσδιορισμός πολυπλοκότητας για εκτίμηση μέγιστης πιθανοφάνειας: Κανονικοποίηση προσδιορισμός λ Δεδομένα επικύρωσης περισσότερα δεδομένα Πολλαπλά σύνολα δεδομένων (δύσκολο) Εναλλακτικά: Μπεϋζιανή θεώρηση Ή εκ των υστέρων κατανομή για το διάνυσμα w δίνεται από την: p( w t) p( t w) p( w) Η πιθανοφάνεια για Γκαουσιανό θόρυβο (γνωστής διασποράς) έχει επίσης τη μορφή κανονικής κατανομής ως προς w: άρα μπορούμε να διαλέξουμε συζυγή εκ των προτέρων κατανομή για το w την ακόλουθη κανονική κατανομή:
Bayesian linear regression Τελικά η εκ των υστέρων κατανομή προκύπτει: Για Ν=0: posterior=prior w MAP= m N, ενώ για απείρως «απλωμένη»εκ των προτέρωνκατανομή δηλ. για S 0 =α -1 Iόπου α 0,τότε m N w ML Πχ για έχουμε: και άρα μεγιστοποίηση της εκ των υστέρων κατανομής πιθανότητας = κανονικοποίηση με λ=α/β
Παράδειγμα: Δεδομένα από f(x)=-0.3+0.5xκαι x~uniform[-1,1], λευκός θόρυβος με σ=0.2 άρα t n =f(x n )+e. Γραμμικό μοντέλο y(x,w)=w 1 +w 2 x Υποθέτουμε ότι το βείναι γνωστό και θεωρούμε α=2.0 Bayesian linear regression
Bayesian linear regression Προγνωστική κατανομή: Πως μπορούμε να προβλέψουμε τις επόμενες τιμές του t? Ολοκληρώνουμε ως προς w Θόρυβος στα δεδομένα Αβεβαιότητα στην εκτίμηση των παραμέτρων w Στο όριο Ν η διασπορά της προγνωστικής κατανομής εξαρτάται μόνο από το β
Bayesian linear regression Παράδειγμα: 9 Γκαουσιανές συναρτήσεις βάσης
Bayesian linear regression Παράδειγμα: 9 Γκαουσιανές συναρτήσεις βάσης
Bayesian linear regression Αν και το β είναι άγνωστο, υπάρχει αναλυτική λύση Conjugate prior p(w,β) Gaussian-gamma Posterior: Gaussian-gamma Predictive distribution: Student s t distribution Δημοσίευση για Bayesian linear regression στην ιστοσελίδα