HMY 799 : Αναγνώριση Συστημάτων Διάλεξη Γραμμική παλινδρόμηση (Linear regression)
Εμπειρική συνάρτηση μεταφοράς Ομαλοποίηση (smoothing) Y ( ) ( ) ω G ω = U ( ω) ω +Δ ω γ ω Δω = ω +Δω W ( ξ ω ) U ( ξ) G( ξ) dξ G( ω ) W ( ξ ω ) U ( ξ) dξ ω Δω γ π M R β ( ω) GR( ) ( ) =, R ( ) ω = β M ω = UR ( ω ) R β ( ω ) = G M υ() t = yt () g ( τ) ut ( τ) = yt () Gqut ( ) () τ = Φ ( ω) ( ) yu Φ ω =Φyy ( ω) υυ Φ ( ω) uu u(t) g (τ) + υ(t) y(t)
Γραμμική παλινδρόμηση (Linear regression) Ένα από τα πιο βασικά προβλήματα στις ποσοτικές επιστήμες είναι η πρόβλεψη της τιμής μιας μεταβλητής y με βάση την πληροφορία που μας δίνεται από κάποιες άλλες μεταβλητές φ,,φ d α μοντέλα γραμμικής παλινδρόμησης (linear regression models) υποθέτουν ότι η εξάρτηση του y από τις ανεξάρτητες μεταβλητές φ,,φ d είναι γραμμική και έχουν χρησιμοποιηθεί εκτεταμένα στη στατιστική, αλλά και σε πολλά επιστημονικά πεδία (οικονομία, ανθρωπιστικές επιστήμες, ψυχολογία, μηχανική κλπ.) α μοντέλα αυτά είναι απλά και συχνά μας δίνουν ικανοποιητικές περιγραφές Επιπλέον, σε περίπτωση που δεν έχουμε ικανό αριθμό πειραματικών δεδομένων ή/και έχουμε αρκετό θόρυβο τα μοντέλα γραμμικής παλινδρόμησης μπορεί να δώσουν καλύτερα αποτελέσματα από πιο πολύπλοκα (μη γραμμικά) μοντέλα Επίσης, μοντέλα αυτού του τύπου μπορούν να εφαρμοστούν και σε μετασχηματισμούς των εισόδων, επεκτείνοντας την ευελιξία τους Μέθοδος ελαχίστων τετραγώνων: Gauss (89) Στη γενική περίπτωση, το πρόβλημα της παλινδρόμησης αφορά στον υπολογισμό μιας συνάρτησης των ανεξάρτητων μεταβλητών g(φ) βάσει των δεδομένων x και y, ώστε η διαφορά: y g( ( φ ) = yy να είναι μικρή. Αν τα y και φ περιγράφονται σε ένα στοχαστικό πλαίσιο, τότε μπορούμε π.χ. να ελαχιστοποιήσουμε την: E { y g ( φ ) } E [ ]
Γραμμική παλινδρόμηση (Linear regression) Στην περίπτωση που η συνάρτηση g είναι γραμμική συνάρτηση των ανεξάρτητων μεταβλητών: Γραμμική παλινδρόμηση g( φ) = θϕ + θϕ +... + θdϕd = φ θ όπου φ ϕ ϕ, θ...... ϕ d = = [ θ θ θ ] d Σημείωση: Οι ανεξάρτητες μεταβλητές μπορεί να είναι οι ίδιες οι είσοδοι μόνο, μη γραμμικοί μετασχηματισμοί των εισόδων π.χ. λογαριθμικοί, τετραγωνική ρίζα κλπ., αναπαραστάσεις της μορφής 3 ϕ = ϕ, ϕ 3 = ϕ ήακόμη και αλληλεπιδράσεις της μορφής ϕ 3 = ϕ ϕ Αναγνώριση συστημάτων Είδαμε στα προηγούμενα ότι τα δυναμικά γραμμικά συστήματα μπορούν να τυποποιηθούν ως πρόβλημα γραμμικής παλινδρόμησης Θα δούμε στα επόμενα ότι ακόμη και μη γραμμικά συστήματα μπορούν να τυποποιηθούν με τον ίδιο τρόπο, χρησιμοποιώντας πολυωνυμικές αναπαραστάσεις/αλληλεπιδράσεις Έστω ότι έχουμε ένα σύνολο δεδομένων {φ, y,φ, y,,φ,y } και θέλουμε να προσδιορίσουμε τις τιμές των παραμέτρων θ Όπως έχουμε δει το κριτήριο ελάχιστων τετραγώνων μπορεί να χρησιμοποιηθεί η γι αυτό το σκοπό: V( θ ) = [ y g( φ) ] = y φθ = =
Γραμμική παλινδρόμηση (Linear regression) gx ( ) = θ x + θ gx ( ) = θ ( x = θ + θ x + θ x + θx+ θx g( )
Γραμμική παλινδρόμηση (Linear regression) Η μέθοδος των ελάχιστων τετραγώνων είναι λογική είτε δουλεύουμε σε ντετερμινιστικό ή σε στατιστικό υπόβαθρο Ψάχνουμε λοιπόν τις τιμές των παραμέτρων: θ = arg min V ( θ θ) Μπορούμε να ελαχιστοποιήσουμε την: V ( θ ) = y φ θ = ( y Φθ ) ( y Φθ ) Φ: πίνακας x d = V ( θ) = Φ ( y Φθ) = θ θ Φ Φ Φ y = ( ) Για >d λύνουμε το overdetermined σύστημα y = Φθ Αν ο πίνακας Φ είναι πλήρους βαθμού (full ran/nonsingular), o πίνακας ΦΦ (positive definite) και έχουμε μοναδική λύση που αντιστοιχεί σε ελάχιστο καθώς V ( θ) =ΦΦ θθ Ισοδύναμα θ = y φ φ = φ = είναι θετικά ορισμένος
Ελάχιστα τετράγωνα Γεωμετρική ερμηνεία {y,φ,φ,,φ }: διανύσματα στο χώρο R Ισοδύναμο πρόβλημα: Βρείτε γραμμικό συνδυασμό των {φ,φ,,φ d } που προσεγγίζει το διάνυσμα y όσο καλύτερα γίνεται. α {φ,φ,,φ,φ d } ορίζουν ρζ τον υποχώρο D d με διάσταση d Αν το διάνυσμα y ανήκει σε αυτόν τον υποχώρο: μπορούμε να το εκφράσουμε ως γραμμικό συνδυασμό των {φ,φ,,φ d } Αν όχι: η καλύτερη προσέγγιση που ανήκει στο D d είναι αυτή ήμε τη ημικρότερη ρηαπόσταση από το διάνυσμα y, η οποία είναι η ορθογώνια προβολή του y στον υποχώρο D d ( yy ) ϕ i, i =,,..., d Άρα ( y y ) ϕ i = και επειδή y D d y = θ φ j= j d y φi jφ φ j j j= j d = θ, i =,,..., d η οποία σε μορφή πίνακα γράφεται: ( ΦΦθ ) ( ) = = Φy θ Φ Φ Φ y = 3, d =
Σταθμισμένα ελάχιστα τετράγωνα (Weighted least squares) Συχνά μπορεί οι παρατηρήσεις μας να μην είναι εξίσου αξιόπιστες: διαφορετικά βάρη V( θ) = α y φθ = Σε μορφή πίνακα V( θ) = ( y Φθ) Q( y Φθ) α Q =... α ελικά: ( ) θ Φ Q Φ Φ Q y = θ = α α φφ = φ = y Σφάλμα πρόβλεψης (Prediction error), υπόλοιπα (residuals) ε = y y = y Φθ ο ποσοστό της εξόδου που εξηγείται από το μοντέλο μπορεί να ποσοτικοποιηθεί από R y ε = = y =, MSE = y y = = Συντελεστής συσχέτισης (correlation coefficient), κανονικοποιημένο σφάλμα πρόβλεψης (normalized mean square error) Συνήθως αφαιρούμε τη μέση τιμή του y πριν τον υπολογισμό
Γραμμική παλινδρόμηση Στοχαστικό υπόβαθρο Έστω τώρα ότι οι παρατηρήσεις μας (πεδίο χρόνου) δημιουργούνται από: y() t = φ () t θ + e() t Eet {()} =, Eetes {()()} = rls Υποθέσεις: φ(t) ντετερμινιστικό Απλούστερη περίπτωση για το θόρυβο e(t): Λευκός με E{ ee } = λ Ι Ιδιότητες της εκτίμησης ελάχιστων τετραγώνων Η ποσότητα ( ) θ LS = Φ Φ Φ y είναι αμερόληπτη εκτίμηση του θ δηλ. E { θ LS} = θ Ο πίνακας συνδιασποράς της εκτίμησης ελάχιστων τετραγώνων είναι: E{ θ ( ) LSθLS} = λ Φ Φ Η συνδιασπορά εξαρτάται από τη διακύμανση του θορύβου και τη μορφή της εισόδου Είναι επιθυμητό η είσοδος να είναι τέτοια που οι τιμές του ανωτέρου αντίστροφου να είναι μικρές ο λ δεν είναι γνωστό: Πως μπορούμε να το εκτιμήσουμε? Η εκτίμηση της διακύμανσης του θορύβου: λ = yt () () t d φ θ t= είναι αμερόληπτη
Βέλτιστη γραμμική αμερόληπτη εκτίμηση (Best linear unbiased estimate BLUE) Επιστρέφουμε στην περίπτωση των σταθμισμένων ελάχιστων τετραγώνων θ Φ Q Φ Φ Q y = ( ) Ερώτηση: Για ποια μορφή του πίνακα Q ελαχιστοποιείται η διακύμανση της εκτίμησης? Στη γενική περίπτωση που E { ee } = R Cov{ θ } = Φ Q Φ Φ Q R Q ΦΦQ Φ ( ) ( ) WLS Η επιλογή του πίνακα σταθμίσεως Q που ελαχιστοποιεί την παραπάνω είναι: Q = R Η εκτίμηση γι αυτή την τιμή του Q θ = Φ Q Φ Φ Q y = θ ( ) WLS BLUE λέγεται βέλτιστη γραμμική αμερόληπτη εκτίμηση (BLUE). ι γίνεται όταν το e είναι λευκός θόρυβος? E { ee } = diag ( λ, λ,..., λ ) α = λ θ = Φ Φ Φ y = θ BLUE ( ) LS Άρα η εκτίμηση ελάχιστων τετραγώνων είναι η εκτίμηση με την ελάχιστη διακύμανση Αν ο θόρυβος δεν είναι Γκαουσιανός, μπορεί να υπάρχει άλλη εκτίμηση (π.χ. μη γραμμική) με μικρότερη διακύμανση
Κατανομή των εκτιμήσεων Εφόσον χρησιμοποιούμε τις τυχαίες μεταβλητές y(t) για να εκτιμήσουμε τις παραμέτρους θ, και οι εκτιμήσεις αυτές είναι τυχαίες μεταβλητές. Ποια είναι η κατανομή τους? Έστω ότι ο θόρυβος ακολουθεί Γκαουσιανή κατανομή (,λ ) και είναι λευκός (ανεξ. δείγματα) Η εκτίμηση της εξόδου ακολουθεί Γκαουσιανή κατανομή y ( Φθ, λ I) Η εκτίμηση των συντελεστών ακολουθεί επίσης κανονική κατανομή με θ ( ) LS ( θ, λ Φ Φ ) Στη γενική περίπτωση (όχι ανεξάρτητα δείγματα) y ( Φθ, R ) ( ) ( ) (, θ ) LS θ Φ Φ Φ R ΦΦΦ Ακόμη και αν οι παρατηρήσεις δεν είναι κανονικά κατανεμημένες, συχνά η κατανομή των παραμέτρων θ πλησιάζει την κατανομή για μεγάλο (κεντρικό οριακό θεώρημα) Η εκτίμηση της διακύμανσης του θορύβου ακολουθεί κατανομή χ