HMY 795: Αναγνώριση Προτύπων Διαλέξεις 9 10 Γραμμική παλινδρόμηση (Linear regression)
Μπεϋζιανή εκτίμηση για την κανονική κατανομή Γνωστή μέση τιμή μ, άγνωστη διασπορά σ 2. Ακρίβεια λ=1/σ 2 : conjugate prior p(λ): Gamma distribution =
Μπεϋζιανή εκτίμηση για την κανονική κατανομή μ,σ 2 (ή λ) άγνωστες: Conjugate prior: Gaussian gamma distribution ib ti Gaussian mixtures
pc ( x) = i c j= 1 Σύγκριση μεθόδων εκτίμησης p( x C ) p( C ) i p ( x C ) p ( C ) j Maximum likelihood, MAP: p(x θ ML,D i ), p(x θ MAP,D i ) p x Di = p x θ p θ Di d θ Bayes: ( ) ( ) ( ) i j Πιθανοφάνεια με οξεία κορυφή στο θ ML, η p(θ ML ) 0 p(θ D i ) μέγιστο στο θ ML Αποτελέσματα από p( x Di) = p( x θ) p( θ Di) dθ, p(x θ ML,D i ) παρόμοια Αν η εκ των προτέρων κατανομή δεν αποκλείει την «πραγματική» λύση: ML, Bayes ισοδύναμα αποτελέσματα ασυμπτωτικά (Ν ) Σφάλματα ταξινόμησης : Σφάλμα Bayes Σφάλμα μοντέλου (model error) Σφάλμα εκτίμησης (estimation error)
Για μια (μικρή) περιοχή R με όγκο V: Μη παραμετρικές μέθοδοι Κ σταθερό, V από δεδομένα: K nearest neighbors algorithm V σταθερό, Κ από τα δεδομένα: Εκτίμηση πυκνότητας με πυρήνα (kernel density estimation) Σύγκλιση lim N E{ pn( x)} = p( x) lim Var{ p ( x)} = 0 N N h παράμετρος ομαλότητας
Μη παραμετρικές μέθοδοι Kernel density: Ομοιόμορφο h παντού Αν στην ΚσταθερόκαιμεταβάλλουμετοV: το Περιοχές με υψηλή πυκνότητα: μικρό κελί, υψηλή ανάλυση Περιοχές με χαμηλή πυκνότητα: μεγάλο κελί, χαμηλή ανάλυση Απευθείας ταξινόμηση η K παράμετρος ομαλοποίησης (smoothing parameter)
Γραμμική παλινδρόμηση (Linear regression) Ένα από τα πιο βασικά προβλήματα στις ποσοτικές επιστήμες είναι η πρόβλεψη της τιμής μιας εξαρτημένης μεταβλητής με βάση την πληροφορία που μας δίνεται από κάποιες άλλες μεταβλητές x 1,,x D Τα μοντέλα γραμμικής παλινδρόμησης (linear regression models) είναι μορφής: Τ y( ( xw, ) = w 0 + wx 1 1+... + w Dx D = wx δηλ. εξαρτώνται γραμμικά από τις άγνωστες παραμέτρους w i και έχουν μελετηθεί εκτεταμένα στη στατιστική και χρησιμοποιηθεί σε πολλά επιστημονικά πεδία (οικονομία, ανθρωπιστικές επιστήμες, ψυχολογία, μηχανική κλπ.) Τα μοντέλα αυτά είναι απλά,, οι ιδιότητές τους έχουν μελετηθεί λεπτομερώς και συχνά μας δίνουν ικανοποιητικές περιγραφές Επιπλέον, σε περίπτωση που δεν έχουμε ικανό αριθμό πειραματικών δεδομένων ή/και έχουμε αρκετό θόρυβο τα μοντέλα γραμμικής παλινδρόμησης μπορεί να δώσουν καλύτερα αποτελέσματα από πιο πολύπλοκα (μη γραμμικά) ) μοντέλα Επίσης, μοντέλα αυτού του τύπου μπορούν να εφαρμοστούν και σε μετασχηματισμούς των εισόδων, επεκτείνοντας την ευελιξία τους Στη γενική περίπτωση, το πρόβλημα της παλινδρόμησης αφορά στον υπολογισμό μιας συνάρτησης των ανεξάρτητων μεταβλητών y(x,w), βάσει των παρατηρήσεων x και t (target variable), ώστε ηδιαφορά: t y( x,w) = t yˆ να είναι μικρή. Αν τα y και x περιγράφονται σε στοχαστικό πλαίσιο, τότε μπορούμε π.χ. να ελαχιστοποιήσουμε την: [ t y x,w ] 2 E{ ( ) }
Γραμμική παλινδρόμηση (Linear regression) Στη γενική περίπτωση οι ανεξάρτητες μεταβλητές μπορεί να είναι (μη γραμμικοί) μετασχηματισμοί των εισόδων της μορφής φ(x): συναρτήσεις βάσης (basis functions) Συνήθως: φ 0 (x)=1, w 0 : bias (απόκλιση) Π.χ. προσαρμογή ρμ καμπύλης:
Γραμμική παλινδρόμηση (Linear regression) Πιθανές συναρτήσεις βάσης: Πολυωνυμικές (ολικές global), διαχωρισμός χώρου: splines Γκαουσιανές: τοπικές
Γραμμική παλινδρόμηση (Linear regression) Πιθανές συναρτήσεις βάσης: Σιγμοειδείς (sigmoidal) τοπικές Συνημιτονοειδείς: περιοδικές (συγκεκριμένη συχνότητα Συνημιτονοειδείς: περιοδικές (συγκεκριμένη συχνότητα άπειρη χρονική/χωρική έκταση) Κυμάτια (Wavelets): εντοπισμένα και στο χώρο/χρόνο και στη συχνότητα
Γραμμική παλινδρόμηση (Linear regression) 2 w yx (, w ) = w 1 0 0 + wx 1 + wx 2 0 1 1 2 2 yx (, w ) = wx + w y( ( xw, ) = w + wx + w x
Έχουμε λοιπόν ϕ Γραμμική παλινδρόμηση (Linear regression) Τ y( xw, ) = w + w ( x) +... + w M ϕ M ( x) = wφ 0 1 1 1 1 φ 1 ϕ 1 = =... ϕm 1, w w w... w M [ ] 0 1 1 Έστω ότι έχουμε ένα σύνολο δεδομένων {φ 1, t 1,φ 2, t 2,,φ N,t N } και θέλουμε να προσδιορίσουμε τις τιμές των παραμέτρων ρ w Tο κριτήριο ελάχιστων τετραγώνων (Gauss 1809) μπορεί να χρησιμοποιηθεί γι αυτό το σκοπό: N N 1 2 1 T 2 V ( w N ) = [ tk yk( )] = tk k Ν x,w k= 1 Ν φ w k= 1 Ψάχνουμε τις τιμές των παραμέτρων w που ελαχιστοποιούν το V N wls = arg min V w N ( w) Η μέθοδος των ελάχιστων τετραγώνων είναι λογική είτε δουλεύουμε σε ντετερμινιστικό ή σε στοχαστικό υπόβαθρο Άρα: V N T N tk k k= 1 2 Τ ( w) = φ w = ( t Φw) ( t Φw) V ( w) N = Τ 2 Φ ( t Φw ) = 0 w t = Φw Φ: πίνακας Ν x Μ
Γραμμική παλινδρόμηση (Linear regression) Άρα πρέπει (για Ν>Μ) να λύσουμε το υπερπροσδιορισμένο (overdetermined) σύστημα t = Φw Η λύση του συστήματος αυτού δίνεται από τον ψευδοαντίστροφο (pseudoinverse) του (μη τετραγωνικού) πίνακα Φ 1 Τ Τ w = ΦΦ Φt = Φ t ˆ LS ( ) 1 Τ Αν ο πίνακας Φ είναι πλήρους βαθμού (full rank/nonsingular), o πίνακας ΦΦ (positive definite) και έχουμε μοναδική λύση που αντιστοιχεί σε ελάχιστο καθώς VN ( w) Τ = 2ΦΦ T w w Ισοδύναμα: N 1 N w ˆ T LS = k k k tk φφ k= 1 φ k= 1 είναι θετικά ορισμένος
Ελάχιστα τετράγωνα Γεωμετρική ερμηνεία t: διάνυσμα στο χώρο R N Ισοδύναμο πρόβλημα: Βρείτε γραμμικό συνδυασμό των {φ 0,φ 1,,φ M-1 } για κάθε x n που προσεγγίζει το διάνυσμα t όσο καλύτερα γίνεται. Αν Μ<Ν, τα {φ,φ,,φ Μ-1 ορίζουν έναν υποχώρο R Μ του R N 0 φ 1 φ 1 } Αν το διάνυσμα y ανήκει σε αυτόν τον υποχώρο: μπορούμε να το εκφράσουμε ως γραμμικό συνδυασμό των {φ 0,φ 1,,φ Μ-1 } Αν όχι: η καλύτερη προσέγγιση που ανήκει στο R Μ είναι αυτή με τη μικρότερη απόσταση από το διάνυσμα t, δηλαδή η ορθογώνια προβολή του t στον υποχώρο R Μ ( t tˆ ) ϕ i, i = 0,1,..., M 1 t ˆt Άρα ( t tˆ ) T ϕ i = 0 και επειδή ˆ M t M 1 tˆ = ŵ φ j= 0 M 1 T T t φi jφ φ j i j= 0 j j = ŵ, i = 0,1,..., M 1 η οποία σε μορφή πίνακα γράφεται: Τ ( ) ΦΦwˆ Τ LS = Φ t Τ ( ) 1 Τ wˆ = ΦΦ Φt LS N = 3, M = 2
Γραμμική παλινδρόμηση και μέγιστη πιθανοφάνεια Έστω ότι οι παρατηρήσεις μας προέρχονται από μια ντετερμινιστική συνάρτηση συν θόρυβο: όπου Η κατανομή του t είναι: Άρα δεδομένων των παρατηρήσεων και η πιθανοφάνεια είναι: και όπου
Γραμμική παλινδρόμηση και μέγιστη πιθανοφάνεια Άρα οι εκτιμήσεις που παίρνουμε από τις μεθόδους ML και LS είναι πανομοιότυπες όταν ο θόρυβος είναι Γκαουσιανός Έστω ότι μας ενδιαφέρει μόνο το w 0. Μεγιστοποιώντας την πιθανοφάνεια Τέλος, μεγιστοποιώντας την πιθανοφάνεια ως προς β:
Γραμμική παλινδρόμηση και κανονικοποίηση Κανονικοποίηση (regularization). Συνάρτηση σφάλματος: Ακρίβεια + όρος κανονικοποίησης Ο όρος κανονικοποίησης μπορεί να λάβει διάφορες μορφές, π.χ.: λ συντελεστής κανονικοποίησης (regularization coefficient). Μπορεί να βρεθεί αναλυτική λύση: Parameter shrinkage, weight decay Γενικά μπορούμε να χρησιμοποιήσουμε συναρτήσεις σφάλματος μορφής:
Γραμμική παλινδρόμηση και κανονικοποίηση q=1: Lasso regularization
Γραμμική παλινδρόμηση και κανονικοποίηση Η ελαχιστοποίηση της είναι ισοδύναμη με την ελαχιστοποίηση των ελάχιστων τετραγώνων με περιορισμό: Η κανονικοποίηση με μικρό λ (πχ Lasso) οδηγεί σε αραιότερες (sparser) λύσεις κάποια βάρη οδηγούνται στο μηδέν, με άλλα λόγια διαλέγουμε «σημαντικούς» όρους
Γραμμική παλινδρόμηση με πολλαπλές εξόδους Παρόμοια με την περίπτωση μιας εξόδου, η πιθανοφάνεια είναι: Παρατηρήσεις Log likelihood lih και Μεγιστοποίηση ως προς W: Για συγκεκριμένη μεταβλητή εξόδου: όπου
The bias variance tradeoff Η επιλογή της πολυπλοκότητας του μοντέλου, με άλλα λόγια του αριθμού των συναρτήσεων βάσης, είναι πολύ βασικό ερώτημα Αν έχουμε κανονικοποίηση, εξαρτάται από την τιμή του λ Για προβλήματα αυτού του τύπου, μπορούμε να ορίσουμε τη μέση ή αναμενόμενη τετραγωνική συνάρτηση απώλειας (squared loss function) ως εξής: Ο σκοπός είναι να επιλέξουμε το y(x) ώστε να ελαχιστοποιήσουμε τη μέση απώλεια Ε{L}. Στη γενική περίπτωση, η y(x) που το επιτυγχάνει είναι η υπό συνθήκη αναμενόμενη τιμή του t δεδομένου του x:
The bias variance tradeoff Η μέση τετραγωνική απώλεια μπορεί να γραφεί ως: ( ) εξαρτάται από το h(x) και ανεξάρτητο του h(x), αντιστοιχεί στη διασπορά της ελαχιστοποιείται για y(x)=h(x) κατανομής του t, κανονικοποιημένο ως προς το x, δηλ. άρα αντιστοιχεί στη μεταβλητότητα των παρατηρήσεων t. Ο όρος αυτός δεν μπορεί να μηδενιστεί Αν είχαμε άπειρα δεδομένα, τότε θα μπορούσαμε να υπολογίσουμε την h(x) ακριβώς. Όμως στην πράξη έχουμε πεπερασμένο αριθμό δεδομένων D οπότε υπολογίζουμε την συνάρτηση y(x,w) από αυτά. Ας υποθέσουμε ότι μπορούμε να πάρουμε έναν μεγάλο αριθμό δειγμάτων δεδομένων D μήκους Ν και υπολογίζουμε κάθε φορά τη συνάρτηση y(x,w)
The bias variance tradeoff Για να εκτιμήσουμε την απόδοση της εκτίμησης που κάνουμε παίρνοντας την αναμενόμενη τιμή ως προς όλα τα σύνολα δεδομένων D για τον όρο, με άλλα λόγια το: Μπορεί να δειχθεί ότι: Ο πρώτος όρος εξαρτάται από την απόκλιση από την ζητούμενη συνάρτηση παλινδρόμησης h(x) και ο δεύτερος από το πόσο η εκτίμηση για ένα συγκεκριμένο σύνολο δεδομένων διαφέρει από την αναμενόμενη τιμή ως προς όλα τα σύνολα δεδομένων
The bias variance tradeoff Τελικά λοιπόν η αναμενόμενη απώλεια εξαρτάται από τρεις όρους: όπου: Τα πολύ απλά μοντέλα χαρακτηρίζονται από μεγάλη απόκλιση και μικρή διασπορά, ενώ τα πολύ πολύπλοκα μοντέλα από μικρή απώλεια και μεγάλη διασπορά Άρα υπάρχει ένας συμβιβασμός μεταξύ απόκλισης και διασποράς (bias variance trade off) Το καλύτερο μοντέλο είναι αυτό που επιτυγχάνει τον καλύτερο συμβιβασμό
The bias variance tradeoff Παράδειγμα: 100 σύνολα δεδομένων με Ν=25 σημεία το καθένα από την h(x)=sin(2πx), γραμμική παλινδρόμηση με M 1=24 Γκαουσιανές συναρτήσεις βάσης
The bias variance tradeoff
The bias variance tradeoff Μπορούμε να υπολογίσουμε τους όρους απόκλισης διασποράς ως εξής: όπου: Γενικά είναι δύσκολο να ακολουθήσουμε την παραπάνω διαδικασία ασία στην πράξη: Bayesian linear regression
Bayesian linear regression Προσδιορισμός πολυπλοκότητας για εκτίμηση μέγιστης πιθανοφάνειας: Κανονικοποίηση προσδιορισμός λ Δεδομένα επικύρωσης περισσότερα δεδομένα Πολλαπλά σύνολα δεδομένων (δύσκολο) Εναλλακτικά: Μπεϋζιανή θεώρηση Ή εκ των υστέρων κατανομή για το διάνυσμα w δίνεται από την: p ( w t ) p ( t w ) p ( w ) Η πιθανοφάνεια για Γκαουσιανό θόρυβο (γνωστής διασποράς) έχει επίσης τη μορφή κανονικής κατανομής: άρα μπορούμε να διαλέξουμε συζυγή εκ των προτέρων κατανομή για το w την ακόλουθη κανονική κατανομή:
Bayesian linear regression Τελικά η εκ των υστέρων κατανομή προκύπτει: Για Ν=0 0 posterior=prior i w MAP =m N, ενώ για απείρως «απλωμένη» prior δηλ. S 0 =α 1 I με α >0, m N >w ML Πχ για έχουμε: και άρα μεγιστοποίηση της εκ των υστέρων πιθανότητας = κανονικοποίηση με λ=α/β
Παράδειγμα: Δεδομένα από f(x)= 0.3+0.5x και x~uniform[ 1,1], λευκός θόρυβος με σ=0.2 άρα t n =f(x n )+e. Γραμμικό μοντέλο y(x,w)=w 1 +w 2 x Υποθέτουμε ότι το β είναι γνωστό Bayesian linear regression
Bayesian linear regression Προγνωστική κατανομή: Πως μπορούμε να προβλέψουμε τις επόμενες τιμές του t? Ολοκληρώνουμε ως προς w Θόρυβος στα δεδομένα Αβεβαιότητα στην εκτίμηση των παραμέτρων w Στο όριο Ν η διασπορά της προγνωστικής κατανομής εξαρτάται μόνο από το β
Bayesian linear regression Παράδειγμα: 9 Γκαουσιανές συναρτήσεις βάσης
Bayesian linear regression Παράδειγμα: 9 Γκαουσιανές συναρτήσεις βάσης