HMY 799 1: Αναγνώριση Συστημάτων

Σχετικά έγγραφα
HMY 799 1: Αναγνώριση Συστημάτων

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 799 1: Αναγνώριση Συστημάτων

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Χ. Εμμανουηλίδης, 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 9-10

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

9. Παλινδρόμηση και Συσχέτιση

HMY 795: Αναγνώριση Προτύπων

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

HMY 799 1: Αναγνώριση. συστημάτων. Διαλέξεις 6 7. Συνάφεια (συνέχεια) Μη παραμετρική αναγνώριση γραμμικών

Εισόδημα Κατανάλωση

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

HMY 795: Αναγνώριση Προτύπων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Εισαγωγή στην Εκτιμητική

Πολλαπλή παλινδρόμηση (Multivariate regression)

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 2

Στατιστική Επιχειρήσεων ΙΙ

HMY 795: Αναγνώριση Προτύπων

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

HMY 799 1: Αναγνώριση Συστημάτων

Στατιστική Συμπερασματολογία

HMY 795: Αναγνώριση Προτύπων

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

HMY 799 1: Αναγνώριση Συστημάτων

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 4

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

HMY 799 1: Αναγνώριση Συστημάτων

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

Απλή Παλινδρόμηση και Συσχέτιση

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Διαχείριση Υδατικών Πόρων

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

Γ. Πειραματισμός - Βιομετρία

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ

Μέθοδος μέγιστης πιθανοφάνειας

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

Οικονομικές εφαρμογές υπολογιστικών πακέτων. Στοχαστικά υποδείγματα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

X = = 81 9 = 9

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 4ο

Αναλυτική Στατιστική

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι)

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

3. Κατανομές πιθανότητας

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Στατιστική Ι. Ενότητα 1: Στατιστική Ι (1/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2)

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Διάλεξη 1 Βασικές έννοιες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστική Συμπερασματολογία

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Transcript:

HMY 799 : Αναγνώριση Συστημάτων Διαλέξεις Γραμμική παλινδρόμηση (Linear regression) Συνέχεια

Γραμμική παλινδρόμηση (Linear regression) g = θϕ + θϕ + + θ ϕ = φ θ ( φ)... d d ϕ ϕ φ=, θ= [ θ θ... θd ]... ϕ d y = Φθ Ν>d: overdetermined Ελάχιστα τετράγωνα V( θ) = yk k = ( ) ( ) φ θ y Φθ y Φθ k = ( ) ˆ θ = Φ Φ Φ y Ν θ ˆ Ν = φ φ k= φ k= y k k k k Σταθμισμένα ελάχιστα τετράγωνα V ( θ ) = α k yk k Ν φ θ α 0 0 k = Q = 0... 0 θ ˆ Φ Q Φ Φ Q y 0 0 α Ν Ν = ( )

Ποσοστικοποίηση σφάλματος πρόβλεψης: εˆ = y yˆ = y Φθˆ Ν R yˆ ˆ k ε k k= k= y =, MSE = yk yk k= k= Γραμμική παλινδρόμηση Στοχαστικό υπόβαθρο: Αν τα δεδομένα δημιουργούνται από σύστημα της μορφής y() t = φ () t θ + e() t 0 Eet {()} = 0, Eetes {()()} = rls Ιδιότητες εκτίμησης ελάχιστων τετραγώνων: E { θˆ } = θ LS 0 { ˆ ˆ E θ θ } = λ LS LS 0 ˆ λ Ν d t= ( Φ Φ ) = yt () () t ˆ Ν φ θ (για E{ ee } = λ Ι ) Βέλτιστη γραμμική αμερόληπτη εκτίμηση (BLUE) Q = R ( ) ˆ θ = Φ Q Φ Φ Q y = θˆ WLS BLUE 0 αμερόληπτη εκτίμηση διακύμανσης θορύβου Για e λευκό: ( ) ( ) Cov { θˆ } = Φ Q Φ Φ Q R Q ΦΦQ Φ WLS E{ ee } = diag( λ, λ,..., λ ) α = ( ) ˆ θ = Φ Φ Φ y = θˆ BLUE k k λk LS

Κατανομή των εκτιμήσεων Οι εκτιμήσεις είναι τυχαίες μεταβλητές! Γκαουσιανός λευκός θόρυβος με Ν(0,λ ) Έξοδος: yˆ ( φ ( t) θ 0, λ I) Συντελεστές: ˆ θ ( ) LS ( θ0, λ Φ Φ ) Γενική περίπτωση (θόρυβος με πίνακα συνδιακύμανσης R ) yˆ ( φ ( t) θ, R ) 0 ˆ θls ( θ0, Φ Φ Φ R ΦΦΦ ) ( ) ( ) Ακόμη και αν οι παρατηρήσεις δεν είναι κανονικά κατανεμημένες, συχνά η κατανομή των παραμέτρων θ πλησιάζει την κατανομή για μεγάλο Ν (κεντρικό οριακό θεώρημα)

Κατανομή των εκτιμήσεων Η εκτίμηση της διακύμανσης του θορύβου ακολουθεί κατανομή χ Κατανομή χ (χ k με k βαθμούς ελευθερίας) Η κατανομή που ακολουθεί το άθροισμα όπου Χi τυχαίες ανεξάρτητες Γκαουσιανές μεταβλητές Ν(0,) Συγκεκριμένα: Ν d λ λ χ ˆ ( ) Ν d 0

Κατανομή των εκτιμήσεων Στατιστικός έλεγχος Μπορούμε να χρησιμοποιήσουμε αυτές τις κατανομές για να κάνουμε έλεγχο στατιστικών υποθέσεων (hypothesis testing) Π.χ. είναι η τιμή ενός συντελεστή διαφορετική από το μηδέν? Βασική ιδέα: x Αν γνωρίζουμε την δειγματική κατανομή (sampling distribution) της εκτίμησης μιας τυχαίας μεταβλητής μπορούμε να τη χρησιμοποιήσουμε για στατιστικό έλεγχο x υποθέσεων π.χ. έστω ότι γνωρίζουμε ότι η πραγματική τιμή της τ.μ. φ είναι φ 0 και η δειγματική κατανομή της εκτίμησης ˆϕ είναι όπως στο σχήμα και θέλουμε να αποφανθούμε εάν η τιμή ενός οποιουδήποτε δείγματος της τ.μ. ˆϕ είναι διαφορετική του φ 0. Αν η πιθανότητα παρατήρησης της τιμής της διαφοράς ˆϕ ϕ 0 είναι μεγάλη: αποδοχή της υπόθεσης ˆϕ = ϕ 0, αλλιώς απόρριψη Πιο συγκεκριμένα, για να απορρίψουμε/αποδεχθούμε μια υπόθεση με πιθανότητα α πρέπει να υπολογίσουμε τις εξής πιθανότητες Η πιθανότητα ένα δείγμα της να βρίσκεται εκτός των δύο αυτών τιμών είναι α ˆϕ

Κατανομή των εκτιμήσεων Στατιστικός έλεγχος Η τιμή του α ονομάζεται επίπεδο σημαντικότητας (level of significance) Συνήθως επιλέγουμε μια μικρή τιμή για το α (π.χ. α=0.05) Όσο πιο μικρή η τιμή του α: τόσο πιο μικρή η πιθανότητα το δείγμα ϕˆϕ να είναι εκτός της ϕ ϕ α / περιοχής από α / μέχρι Αμφίπλευρος έλεγχος (two sided test): έλεγχος και στις κατευθύνσεις Μονόπλευρος έλεγχος: π.χ. ˆϕ ϕ 0 Δύο τύποι σφαλμάτων: Απόρριψη της υπόθεσης ενώ είναι αληθινή (Σφάλμα τύπου Ι πιθανότητα = α) Αποδοχή της υπόθεσης ενώ είναι λανθασμένη (Σφάλμαύπου ΙΙ) ˆϕ

Κατανομή των εκτιμήσεων Στατιστικός έλεγχος Στην περίπτωση της γραμμικής παλινδρόμησης είδαμε ότι: ˆ θls ( θ, λ Φ Φ ) 0 ( ) Για να εξετάσουμε εάν η εκτίμηση ενός συντελεστή θ είναι διαφορετική του μηδενός (λευκός θόρυβος): j Υποθέτουμε με άλλα λόγια ότι η «αληθινή» τιμή του θ j είναι μηδέν, άρα: ˆθ j (0, λ rj ) ˆθ Σχηματίζουμε τη μεταβλητή j z r j : διαγώνιο στοιχείο του πίνακα (Φ Φ) j = λ rj Αν θεωρήσουμε τη μεταβλητή λ γνωστή (ντετερμινιστική), η μεταβλητή z j ακολουθεί κατανομή Ν(0,) Αν θεωρήσουμε τη μεταβλητή λ τυχαία (πιο ρεαλιστικό), η μεταβλητή z j είναι λόγος μιας τ.μ. με κανονική κατανομή προς τη ρίζα μιας τ.μ. που ακολουθεί κατανομή χ. Η τ.μ. αυτή ακολουθεί κατανομή t (Student s t distribution αποτέλεσμα από στατιστική) με Ν d βαθμούς ελευθερίας Άρα για να αποφανθούμε αν η μεταβλητή z j είναι διαφορετική του μηδενός, μπορούμε να συγκρίνουμε την τιμή t ( ) d z j με την τιμή t d, α / (πιθανότητα ουράς tail probability) Οι τιμές αυτές μπορεί να υπολογιστούν κατευθείαν από πίνακες ή προγράμματα, π.χ. Matlab tcdf(x,v) tpdf(x,v) tinv(p,v) ˆ j

Κατανομή των εκτιμήσεων Στατιστικός έλεγχος Μάλιστα για μεγάλες τιμές του Ν, κατανομή t προσεγγίζει την τυπική κανονική κατανομή (standard normal distribution (0,)) και μπορούμε να συγκρίνουμε τα δείγματα της θˆ j με την πιθανότητα ουράς της Ν(0,) Matlab: P = ORMCDF(X,MU,SIGMA) Y = ORMPDF(X,MU,SIGMA) X = ORMIV(P,MU,SIGMA) (MU=0, SIGMA=)

Κατανομή των εκτιμήσεων Στατιστικός έλεγχος Θα μπορούσαμε να συγκρίνουμε παρόμοια εάν η εκτίμηση ενός συντελεστή ˆθ j είναι διαφορετική μιας τιμής θ σχηματίζοντας τη μεταβλητή ˆθ j θ 0, j 0, j z j = λ rj η οποία ακολουθεί κατανομή t ή Ν όπως και πριν. Μπορούμε να ποσοτικοποιήσουμε την «αβεβαιότητα για την εκτίμηση κάθε συντελεστή υπολογίζοντας το διάστημα εμπιστοσύνης του (confidence interval) (θ ˆ t ˆ λ r,θ ˆ + t ˆ λ r ) j d, α/ j j d, α/ j το οποίο π.χ. για α=0.05 μας δίνει το διάστημα τιμών για την εκτίμηση του συντελεστή ˆθ j για το οποίο είμαστε σίγουροι κατά 95% ότι οι τιμές του συντελεστή βρίσκονται εντός αυτού του διαστήματος Μπορούμε επίσης να ελέγξουμε τη σημαντικότητα μιας ομάδας συντελεστών ταυτόχρονα (π.χ. μια ομάδα μπορεί να σχετίζονται με μια συγκεκριμένη ανεξάρτητη μεταβλητή), υπολογίζοντας την τιμή της στατιστικής ποσότητας F (F statistic) ( MSE MSE)/( d d) F = MSE /( d ) Για Γκαουσιανό θόρυβο, αυτή η ποσότητα ακολουθεί την κατανομή Fd d, d Σημ. από στατιστική: Ο λόγος δύο τ.μ. που ακολουθούν κατανομή χ με βαθμούς ελευθερίας d και d ακολουθεί κατανομή F d,d Για μεγάλο Ν η ανωτέρω κατανομή προσεγγίζει την χd d

Στατιστικός έλεγχος Επιλογή τάξης Πως μπορούμε να χρησιμοποιήσουμε αυτά τα αποτελέσματα για την επιλογή της τάξης του μοντέλου γραμμικής παλινδρόμησης? Στην ιδανική περίπτωση (όχι θόρυβος σύστημα ίδιου τύπου) όταν αυξήσουμε το d όσο πρέπει το σφάλμα μηδενίζεται Ρεαλιστικά: σταδιακή μείωση του σφάλματος για αυξανόμενο d Ερώτηση: Πότε πρέπει να σταματήσουμε να προσθέτουμε όρους? ο πρόβλημα λοιπόν είναι να αποφασίσουμε εάν η μείωση του κριτηρίου ΔV=V V για δύο μοντέλα M και M (όπου το M περιέχει περισσότερους όρους) είναι «μικρή» ή όχι Μπορούμε να ελέγξουμε την «κανονικοποιημένη» ποσότητα V V V Επιπλέον όταν το Ν τείνει στο άπειρο και το αληθινό μας σύστημά μπορεί να περιγραφεί από το μοντέλο V τέλεια, τότε η διαφορά ΔV θα πρέπει να τείνει στο μηδέν Ελεγχος της ποσότητας V ( V) V

Έχουμε λοιπόν y() t = φ () t θ + e() t 0 ε λ {()} e t iid, (0, ) Στατιστικός έλεγχος Επιλογή τάξης Από τα προηγούμενα έχουμε ότι η ποσότητα ( V V)/( d d) F = V /( d ) ακολουθεί κατανομή η οποία προσεγγίζει την για μεγάλο Ν Fd d, d χd d >Άρα για να συγκρίνουμε την απόδοση δύο μοντέλων Μ και Μ Υπολογίζουμε τα μέσα τεραγωνικά σφάλματα και την ποσότητα F Καθορίζουμε το επίπεδο σημαντικότητας α Συγκρίνουμε την ποσότητα αυτή είτε με την ή την χ d d, d d Αν F < χ : αποδοχή μοντέλου Μ d d, α Αν F > χd d, α : αποδοχή μοντέλου Μ F α d, α Matlab: Y = CHIPDF(X,V),P = CHICDF(X,V), X = CHIIV(P,V) Περισσότερα για επιλογή τάξης στα επόμενα

Υπολογιστικά ζητήματα Ανάλυση ιδιοτιμών (eigenvalue decomposition) του πίνακα Φ Φ (Hessian) ΦΦ= UΛU Μπορούμε να πάρουμε μια ιδέα για το πόσο κινδυνεύουμε από αριθμητικά σφάλματα υπολογίζοντας το λόγο μεγαλύτερης προς μικρότερης ιδιοτιμής, ο οποίος ονομάζεται αριθμός κατάστασης (condition number) του πίνακα (Matlab: εντολές cond, rcond) Όσο μεγαλύτερος αυτός ο αριθμός, τόσο πιο κοντά είναι η ορίζουσα του πίνακα Φ Φ στο μηδέν: μεγαλύτερη ευαισθησία Εξάρτηση από το σχεδιασμό της εισόδου, π.χ. (αντίστροφος για μέθοδο συσχέτισης) ˆ g = ( Φ uu ) Φ yu Μπορούμε να κάνουμε το ίδιο υπολογίζοντας την ανάλυση ιδιαζουσώντιμών (Singular value decomposition) του πίνακα Φ και υπολογίζοντας τις ιδιάζουσες τιμές (singular values)

Η εκτίμηση των συντελεστών θ ˆ Φ Φ Φ y Ν = ( ) Υπολογιστικά ζητήματα απαιτεί την αντιστροφή του πίνακα Φ Φ. Αρκετές φορές όμως η αντιστροφή αυτού του πίνακα μπορεί να είναι ευαίσθητη σε αριθμητικά σφάλματα, ιδιαίτερα για μεγάλους πίνακες των οποίων η ορίζουσα μπορεί να είναι κοντά στο μηδέν (γραμμές/στήλες περίπου ανεξάρτητες) ή πίνακες που περιέχουν λίγα μη μηδενικά στοιχεία (αραιοί πίνακες sparse matrices). Στην περίπτωση αυτή μπορεί τα αποτελέσματα να μην είναι αξιόπιστα αν αλλάξει λίγο η είσοδος και η έξοδος, μπορεί να αλλάξουν πολύ και οι εκτιμώμενες τιμές των συντελεστών! Για να αποφύγουμε τέτοιου είδους σφάλματα: Αποδόμηση QR (QR decomposition): Μπορούμε να βρούμε ορθογώνιο πίνακα Q (Q Q=I) ώστε για τον μη τετραγωνικό πίνακα Φ (Ν>d) να ισχύει: Φ = QR όπου R άνω τριγωνικός πίνακας Πολλαπλασιάζοντας το σύστημα Φθ=y με τον πίνακα Q μας δίνει: Qy= QΦ = Rθ Είναι ισοδύναμο λοιπόν να λύσουμε το σύστημα: Rθ = Qy ο σύστημα αυτό λύνεται εύκολα (R τριγωνικός) Περισσότερες πράξεις, λιγότερη ευαισθησία σε σφάλματα (ο αριθμός κατάστασης είναι η ρίζα του αριθμού κατάστασης του αρχικού πίνακα) Matlab: έντολή qr

Υπολογιστικά ζητήματα Singular value decomposition Φ = UΣV Φ: Νxd, U,V ορθογώνιοι πίνακες (U: x, V: dxd), Σ διαγώνιος Μπορούμε να «κρατήσουμε» μόνο τις μεγαλύτερες ιδιάζουσες τιμές του πίνακα Φ δηλ. Σ 0 0 V Φ = UΣV = U U 0 Σ 0 V 0 0 0 και να υπολογίσουμε τον ψευδοαντίστροφο μειωμένης τάξης: Φ + + = V Σ U με άλλα λόγια, απορρίπτουμε τους συντελεστές εκείνους που συνδέονται με πολύ μικρές ιδιάζουσες τιμές και λύνουμε ένα πρόβλημα μικρότερης τάξης Matlab: εντολή [U,S,V] = SVD(X)

Υπολογιστικά ζητήματα Ομαλοποίηση (regularization): Παρομοίως όταν το πρόβλημά μας είναι ασθενώς ορισμένο (illconditioned) δηλ κινδυνεύουμε από αριθμητικά σφάλματα, μπορούμε να χρησιμοποιήσουμε ένα κριτήριο της μορφής: * * W ( θ ) = V ( θ ) + δ θ- θ = ( y Φθ ) ( y Φθ ) + δ θ - θ όπου το θ* είναι ένα σταθερό σημείο στο χώρο των συντελεστών (συνήθως επιλέγουμε θ*=0). Ισοδύναμο με το να προσθέσουμε έναν όρο δι στον πίνακα Φ Φ: βελτίωση του αριθμού κατάστασης του πίνακα Ουσιαστικά «φέρνουμε» πιο κοντά στο θ* τις εκτιμήσεις των παραμέτρων μας (εισάγουμε δηλ. απόκλιση bias) αλλά σταθεροποιούμε το αριθμητικό πρόβλημα Οι παράμετροι που επηρεάζουν λιγότερο το y είναι αυτές που έρχονται πιο κοντά στο θ* Όσο μεγαλύτερη η τιμή του δ, τόσο περισσότερες παράμετροι θα έρθουν κοντά στο θ*

Γραμμική παλινδρόμηση και δυναμικά γραμμικά συστήματα Είδαμε στα προηγούμενα (μη παραμετρική αναγνώριση) ότι η διακριτή συνέλιξη μπορεί ουσιαστικά να αντιμετωπιστεί ως γραμμική παλινδρόμηση: y() () u() () 0... 0 gˆ (0) u() () 0... 0 y() u() u()... 0 gˆ () u() u()... 0 = Φ =.............................. y ( ) u ( ) u ( )... u( M + ) gˆ ( Μ ) u ( ) u ( )... u ( M+ ) Επίσης, έχουμε δει στα προηγούμενα τα μοντέλα ARX, μορφής: yt ( ) + ayt ( ) +... + ayt ( n) = but ( ) +... + but ( m) yt () = φ () t θ n θ = [ a... a b... b ] n m φ( t) = [ y( t )... y( t n) u( t )... u( t m)] k k kyk k= k= θ ˆ Ν = φ φ φ m

Γραμμική παλινδρόμηση και δυναμικά γραμμικά συστήματα k k Ο πίνακας Rφ( Ν ) = φφ k k και το διάνυσμα φ y περιέχουν αθροίσματα της μορφής: k = k = R φ ( Ν ) = yt ( iyt ) ( j), i, j n ij k = αλλά και όρους της μορφής u(t-i)u(t-j) και u(t-i)y(t-j). Ουσιαστικά αυτοί οι όροι αποτελούν εκτιμήσεις των συναρτήσεων αυτοσυσχέτισης και ετεροσυσχέτισης (αναλογία με ανάλυση αλληλοσυσχέτισης) Στα προηγούμενα θεωρήσαμε τον πίνακα Φ ντετερμινιστικό. Στη γενική περίπτωση (Φ στοχαστικός) ˆ * * E{ θ θ } = ( R ) f LS * Φ * 0 Φ R = E{ φ() t φ ()} t f = E{ φ()()} t e t Άρα για να έχουμε αμερόληπτη εκτίμηση θα πρέπει: * Ο πίνακας R Φ να είναι μη ιδιάζων (non singular) και * f = 0 το οποίο συμβαίνει όταν Ο θόρυβος e(t) είναι λευκός (ανεξάρτητα δείγματα, μηδενική μέση τιμή) Η τιμή e(t) είναι ανεξάρτητη από την τιμή σε κάθε άλλη χρονική στιγμή (t, t κλπ) Ο θόρυβος έχει μηδενική μέση τιμή δεν είναι όμως λευκός, η είσοδος u(t) είναι ανεξάρτητη του θορύβου και δεν υπάρχουν όροι της μορφής y(t i). Αλλιώς το διάνυσμα φ(t) περιέχει το y(t ), το οποίο περιέχει τον όρο e(t ), ο οποίος είναι συσχετισμένος με το e(t)

Γραμμική παλινδρόμηση και δυναμικά γραμμικά συστήματα Στην περίπτωση που έχουμε «χρωματισμένο» θόρυβο (colored noise) και υποθέσουμε ότι μπορεί να περιγραφεί από ένα μοντέλο AR (δηλ μορφής /D(q)) τάξης r: Aq ( qy ) yt ( ) = B ( q ) ut ( ) + et ( ) Aq ( ) D ( qyt ) ( ) = B ( q ) D ( q ) ut ( ) + et ( ) D( q) μπορούμε να πάρουμε την εκτίμηση ελάχιστων τετραγώνων αυτού του συστήματος (με τάξεις n+r, m+r) οπότε επειδή το e είναι λευκό, και έχουμε αμερόληπτη εκτίμηση παίρνουμε σωστή εκτίμηση της συνάρτησης μεταφοράς μεταξύ u και y καθώς: BqDq ( ) ( ) Bq ( ) = A( qdq ) ( ) Aq ( )

Εκτίμηση μέγιστης πιθανοφάνειας (maximum likelihood estimation) Η πιθανοφάνεια της τυχαίας (διανυσματικής) μεταβλητής y δεδομένης της τιμής των παραμέτρων θ ορίζεται ως η συνδυασμένη εξαρτημένη συνάρτηση πυκνότητας πιθανότητας (joint conditional probability density function) p ( y θ ) Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ψάχνει την τιμή των παραμέτρων θ η οποία μεγιστοποιεί την πιθανότητα παρατήρησης των δεδομένων εξόδου, δηλ. μεγιστοποιεί την: θˆ arg max p( y θ) ML = θ όπου y οι παρατηρήσεις μας. Για το μοντέλο γραμμικής παλινδρόμησης y () t = φ () t θ + e () t 0 {()} 0, e (0, Ι) Eet = λ Επειδή υπάρχει μετασχηματισμός μεταξύ e και y, μπορούμε ισοδύναμα να θεωρήσουμε την πιθανοφάνεια του θορύβου: L ( π) λ L( θ) = exp e ( t) / / ( π) (det[ λ ]) Ι λ t = ( θ) = exp ( Υ- Φθ) ( λ Ι) ( Υ - Φθ) / /

Εκτίμηση μέγιστης πιθανοφάνειας (maximum likelihood estimation) Μπορούμε να μεγιστοποιήσουμε το λογάριθμο της πιθανοφάνειας (πιο εύκολο) log( L( θ)) = ( Υ- Φθ) ( Υ - Φθ) log( π ) log( λ ) λ Για λ γνωστό: Μόνο ο πρώτος όρος εξαρτάται από το θ οπότε θέτοντας την πρώτη παράγωγο ως προς θ ίση με μηδέν καταλήγουμε στο ίδιο αποτέλεσμα με την εκτίμηση ελάχιστων τετραγώνων, και επειδή η δεύτερη παράγωγος είναι έχουμε μέγιστο. Αν το λ είναι άγνωστο μπορούμε να το εκτιμήσουμε μηδενίζοντας την πρώτη παράγωγο ως προς λ Μπορεί να αποδειχθεί ότι για τις εκτιμήσεις αυτές ισχύουν τα εξής κάτω όρια:

Εκτίμηση μέγιστης εκ των υστέρων πιθανότητας (maximum a posteriori estimation) Η Μπευζιανή προσέγγιση (Bayesian approach) προσφέρει ένα πολύ γενικό υπόβαθρο για την εκτίμηση παραμέτρων. Όλες οι παράμετροι θεωρούνται τ.μ. και ο σκοπός είναι ο υπολογισμός της συνάρτησης πυκνότητας πιθανότητάς τους με βάση τις παρατηρήσεις (εκ των υστέρων πιθανότητα posterior probability) bilit Βασική σχέση (Bayes rule): p(, ) p( ) p( ) Likelihood Prior p( ) = y θ Posterior= p( ) = y θ θ θ y y p( y) ormalizing Constant p(θ): Prior probability p( y) = p( y θ) p( θ) dθ Μπορούμε σε κάποιες περιπτώσεις να υπολογίσουμε την εκ των υστέρων πιθανότητα επιλέξουμε την τιμή του θ που μεγιστοποιεί αυτή την πιθανότητα, δηλ. θˆ arg max p( θ y) MAP = θ p ( θ y ) και να Η προσέγγιση αυτή μας δίνει ολόκληρες κατανομές ανομές και όχι συγκεκριμένες τιμές! Η εκ των προτέρων πιθανότητα p(θ) αντικατοπτρίζει την γνώση που μπορεί να έχουμε για την κατανομή των παραμέτρων μας Όσο πιο σίγουροι είμαστε γι αυτή την κατανομή, τόσο πιο πολύ μπορεί να επηρεάσουμε την τελική εκτίμηση

Μέθοδοι σφάλματος πρόβλεψης (prediction error methods) ο κριτήριο ελάχιστων τετραγώνων είναι ειδική περίπτωση μιας γενικής μεθοδολογίας για την αναγνώριση συστημάτων μέθοδοι αναγνώρισης σφάλματος πρόβλεψης (prediction error identification methods) Στη γενική περίπτωση: V( θ) = ( ef( t)) k = e () t = L ( q )() et F ( e ( t)) υπικά η συνάρτηση F έχει θετικές τιμές Φιλτράρισμα των σφαλμάτων: μπορεί να μη μας ενδιαφέρουν οι υψίσυχνες διαταραχές Είδαμε για τη μέθοδο ελάχιστων τετραγώνων ότι είναι μια λογική επιλογή και ότι πιο θεωρητικές προσεγγίσεις όπως η εκτίμηση μέγιστης πιθανοφάνειας δίνουν εντελώς ανάλογα αποτελέσματα υπό προϋποθέσεις Είναι λοιπόν σημαντικό ότι πρακτικά η ελαχιστοποίηση ενός κριτηρίου της ανωτέρω μορφής είναι λογική, έστω και χωρίς ένα αυστηρό θεωρητικό υπόβαθρο