ΚΕΦΑΛΑΙΟ 0 Ένα Πρόβλημα Δεδομένα.6 3. 3.8 4. 4.4 5.8 6.0 6.7 7. 7.8 5.6 7.9 8.0 8. 8. 9. 9.5 9.4 9.6 9.9 Απλή Γραμμική Παλινδρόμηση Μωυσιάδης Χρόνης 6 o Εξάμηνο Μαθηματικών Έχει σχέση το με το ; Ειδικότερα όταν αυξάνει το μπορούμε να πούμε ότι αυξάνει και το ; Μπορούμε να εκτιμήσουμε (παρεμβολή) την τιμή του όταν =5; (5 ανήκει στο (m(), ma()) Μπορούμε να εκτιμήσουμε (πρόβλεψη) την τιμή του όταν =9; (9 δεν ανήκει στο (m(), ma()) Ένα χρήσιμο γράφημα 3 Η επιδιωκόμενη ιδιότητα 4 Διάγραμμα Διασποράς ως προς Διάγραμμα Διασποράς και αποκλίσεις 4 5 6 7 8 9 0 =5.366+0.67 0 4 6 8 0 Προσπαθούμε να προσαρμόσουμε μια ευθεία που να περνά όσο κοντύτερα γίνεται από τα σημεία. Ευθεία Παλινδρόμησης 6 7 8 9 0 Απαιτούμε να ισχύει: -(α+β) -(α+β) 0 4 6 8 ( ) να είναι ελάχιστο ΕΥΘΕΙΑ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ Η μέθοδος ελαχίστων τετραγώνων 5 Οι υπολογισμοί 6 προσαρμόζεται το μοντέλο: Υποθέτουμε ότι στα δεδομένα (απόκριση) τ.μ. μέσω της ε α, β θεωρητικές σταθερές παράμετροι Σε παρατηρήσεις έχουμε...... σταθερά (όχι τ.μ.) και ζητούμε mmz ε σφάλμα που εξαρτάται από τυχαίους παράγοντες (ΤΥΧΑΙΑ ΜΕΤΑΒΛΗΤΗ) δηλαδή τα α, β που ελαχιστοποιούν τη συνάρτηση f(, ) ( ) Παραγωγίζουμε f æ ö = ( α β )( ) α β å - - - =- - - α ç å å = è = = ø f æ ö = ( -α-β )( - ) =- -α - β å ç å å å è ø β = = = = Τα κρίσιμα σημεία προκύπτουν από το σύστημα που δίνει το σύστημα των κανονικών εξισώσεων f f 0, 0
Εκτιμώμενες παράμετροι 7 Το μοντέλο πρόβλεψης 8 Το σύστημα κ.ε. γράφεται: Συμβολίζοντας /, συμβολισμός τη λύση του συστήματος των κ.ε. Η εκτίμηση παραμέτρων εφαρμόστηκε το 805 από τον A.M. Lgd (75-833). Ο C.F.Gauss (777-855) ισχυριζόταν ότι την είχε εφεύρει ενωρίτερα. ή και το μοντέλο πρόβλεψης είναι ŷ με /, Η ευθεία παλινδρόμησης περνά από το 6 7 8 9 0 ŷ Διάγραμμα Διασποράς και ευθεία παλινδρόμησης = 8.54 = 5.06 0 4 6 8 Παράδειγμα 9 Έλεγχος 0 α/α.6 5.6.56 8.90 3.36 3. 7.9 0.4 5.8 6.4 3 3.8 8.0 4.44 30.40 64.00 4 4. 8. 7.64 34.44 67.4 5 4.4 8. 9.36 35.64 65.6 6 5.8 9. 33.64 53.36 84.64 7 6.0 9.5 36.00 57.00 90.5 8 6.7 9.4 44.89 6.98 88.36 9 7. 9.6 50.4 68.6 9.6 0 7.8 9.9 60.84 7. 98.0 Σύνολα 50.6 85.4 90.0 453.44 744.04 5.06, 8.54 453.44 0 5.06 8.54.36 90.0 0 5.06 33.984.36 0.67, 8.54 0.66 5.06 5.37 33. 984 α/α ŷ ε ε.6 5.6 6.370-0.770 0.593 3. 7.9 7.373 0.57 0.78 3 3.8 8.0 7.750 0.50 0.06 4 4. 8. 8.00 0.99 0.040 5 4.4 8. 8.6-0.06 0.00 6 5.8 9. 9.004 0.96 0.038 7 6.0 9.5 9.30 0.370 0.37 8 6.7 9.4 9.569-0.69 0.09 9 7. 9.6 9.80-0.0 0.048 0 7.8 9.9 0.59-0.359 0.9 Σύνολα -0.00.355 Εκτιμήσεις των σφαλμάτων Μία βασική υπόθεση είναι 0( E 0) Το άθροισμα τετραγώνων των ε είναι μικρό (το δυνατόν μικρότερο Ιδιότητες Απόδειξη Υποθέσεις E( ) 0 ή ισοδύναμα ΘΕΩΡΗΜΑ.. Va( ) E( ) E( ) Va ( ) (/ / ) Va ( ) / Cov( ) 0 E( ) 0 E( ) Cov (, ) / 3. Οι εκτιμήτριες, έχουν τη μικρότερη διασπορά από κάθε άλλη αμερόληπτη εκτιμήτρια που εκφράζεται ως γραμμικός συνδυασμός των παρατηρήσεων Θέτοντας k ( )/ διαπιστώνουμε: Τότε: k 0 / k k k k k k / / k (/ k ) / k Τα k είναι σταθερές, όχι τυχαίες μεταβλητές
. (συν. ) E E k ke( ) k( ) E E ( ). Επειδή ασυσχέτιστες Va k Va ( ) ( ) / ( ) ( ) / Va k Va Cov(, ) Cov k, k k ( ) / k Va 3 (συν. ) 3. Έστω b c με E b Δηλ. c c ( ) c c διότι άρα Ώστε Άρα c 0 Va() b c Va ( ) c c k m Va ( b ) m c / ( ) Va c c c c k k ck k c ( )/ / 0 c / c k c k k 4 Τα υπόλοιπα (sduals) 5 Ιδιότητες του 6 Τα σφάλματα που είναι άγνωστα, τα εκτιμούμε από την Το άθροισμα τετραγώνων των σφαλμάτων (um of quas of Eos) συμβολίζεται όπου Ισχύουν 0 0? 0? E E E διότι ( ) E ( ) / E ( ) / άρα E E E E Va E ( ) ( ) ( ) ( ) ( ( ) ( ) ) ( ) E( /( ))? Η βασική ταυτότητα 7 Η υπόθεση της κανονικότητας των ε 8 Θέτοντας T και R έχουμε: ΘΕΩΡΗΜΑ T R T R 0 Έστω το μοντέλο όπου ε ~ Ν(0,σ ) Τότε η συνάρτηση πιθανοφάνειας των α, β, σ όταν δίνονται οι παρατηρήσεις,,, είναι ab L(,, ) p που με λογαρίθμιση γίνεται ab l( L) l( ) Ο υπολογισμός των παραμέτρων που μεγιστοποιούν την l(l) δίνει τις ίδιες εκτιμήσεις που βρέθηκαν μέχρι τώρα.
9 Οι κατανομές εκτιμητών και παραμέτρων Πίνακας Ανάλυσης της Διασποράς (ANOVA) 0 Από τις: (/ k ) ~, N / και k οι εκτιμήτριες των α, β ακολουθούν κανονική κατανομή, δηλ. ~, (/ / ) N Οι τ.μ. Η μέση πρόβλεψη στο 0 είναι ŷ 0 0 Η ατομική πρόβλεψη στο 0 είναι ŷ 0 0 0 Αποδεικνύεται 0 ~ N 0, (/ ( 0 ) / ) και 0 ~ N 0, (/ ( 0 ) / ) Επίσης,, είναι ανεξάρτητες των,,..., 0, 0,, είναι ανεξάρτητες. ~ Κάτω από την υπόθεση β=0, ισχύει R ~ και ο λόγος MR R / F ~ F, ME /( ) Αυτά τα καταγράφουμε στον πίνακα ANOVA Παλινδρόμηση R Υπόλοιπα (Σφάλματα) - Σύνολο T - β.ε. Μέσα Τετράγωνα Λόγος F R MR ME - MR F ME Ο λόγος F ελέγχει την υπόθεση Η 0 : β=0, έναντι της Η : β 0. Διαστήματα Εμπιστοσύνης Για το παράδειγμα Για τις παραμέτρους α, β αποδεικνύεται ότι το 00(-α)% δ.ε. είναι ; / / / t s t s / ; / Για τη μέση και την ατομική πρόβλεψη στο 0 το 00(-α)% δ.ε. είναι 0 t; /s / ( 0 ) / t s 0 ; / / ( 0 ) / Έχουμε βρει.36 33.984 Βρίσκουμε.36 0.67 744.04 0 8.54 4.74 /.354 β.ε. Μέσα Τετράγωνα Λόγος F Παλινδρόμηση 3.370 3.370 79.00 Υπόλοιπα (σφάλμ.).354 8 0.69 Σύνολο 4.74 9 T 4.74 R T 3.370 Επειδή F,8;0.0 =.6, η υπόθεση Η 0 : β=0 ΑΠΟΡΡΙΠΤΕΤΑΙ (συν. ) 3 4 Σφάλματα προσαρμογής-επαν/νες μετρήσεις s 0.69 0 t; /s / ( 0 ) / Va s Va( ) / 0.00497 Cov(, ) / 0.05 0 t; /s / ( 0 ) / ( ) (/ / ) 0.44 t; / s / / 5.37 0.876 a (4.496, 6.47) t / ; / s 0.67 0.66 (0.464, 0.790) (8.07, 8.807) (7.53, 9.50) Έστω ότι υπάρχουν παρατηρήσεις στο ίδιο,,,..., με τιμές,,,..., όπου Με την υπόθεση της κανονικότητας θα έχουμε ~,,,... Άρα ~ Επομένως ~ και όπου ( )/( ) F ~ F /( )... ( ) ( ),( ) καθαρά σφάλματα σφάλματα προσαρμογής έλεγχος ισότητας καθαρών σφαλμ. με σφ. προσαρμ.
Παράδειγμα Για τη μελέτη της απόδοσης σε φυσικό αέριο κοιτασμάτων άνθρακα έγινε ένα πείραμα στο οποίο μετρήθηκε η απόδοση () σε σχέση με την περιεκτικότητα σε άνθρακα () δειγμάτων. Τα αποτελέσματα των μετρήσεων δίνονται στον πίνακα Ερωτήματα Μπορούμε να προβλέψουμε το όταν είναι γνωστό ότι π.χ. είναι =.05, ή =3.0 ; Αν κάνουμε κάποια πρόβλεψη πόσο κοντά στην πραγματική τιμή θα είναι αυτή; Υπάρχει διαδικασία ώστε να είμαστε βέβαιοι ότι η πρόβλεψη θα είναι η καλύτερη δυνατή; α/α α/α 0.05 0.05.5.45 0.05 0.0 3.0 3.05 3 0.5 0.5 4.0 3.9 4 0.5 0.35 5.0 3.5 5 0.50 0.75 6.0 3.43 6 0.50 0.85 7.0 3.50 7 0.50 0.95 8.0 3.93 8.5.4 9.50 3.75 9.5.75 0.50 3.93 0.5.8.50 3.99.5.95.50 4.07 5 Υπολογισμοί ( ) Va( ) 6.648.6033 ( ) Cov(, ) 6.6304 ( ) Va( ) 43.9604 0.03804.395 T Καθαρά σφάλματα α/α β.ε 3 4 5 6 7 0.05 0.5 0.50 0.05 0.0 0.5 0.35 0.75 0.85 0.95 0.075 0.00 0.300 0.0050 0.850 0.000 ( ) s β.ε. = 6 (συν.) 7 Επαυξημένος ANOVA 8 α/α β.ε 8 9 0 3 4 5 6 7 8 9 0.5.0.50.4.75.8.95.45 3.05 3.9 3.5 3.43 3.50 3.93.75 3.93 3.99 4.07.878 0.569 4 3.39 0.4805 5 3.935 0.0555 3.4 6.4 ( ) 6 6 β.ε. Μέσα Τετράγωνα Λόγος F Παλινδρόμηση 4.6909 4.6909 697.6 Υπόλοιπα (σφάλμ.).395 0 0.06 Σφάλματα Προσαρμογής 0.09983 4 0.0496 0.355 Καθαρά Σφάλματα.4 6 0.0706 Σύνολο 43.9604 Επειδή F=0.355 (δηλ. F<) είναι βέβαιο ότι είναι μη σημαντικό Άρα η υπόθεση ότι τα σφάλματα προσαρμογής είναι ίσα με τα καθαρά σφάλματα ΔΕΝ ΑΠΟΡΡΙΠΤΕΤΑΙ. Επειδή F=697.6>8.095=F,0,0.0 η υπόθεση ότι β=0 ΑΠΟΡΡΙΠΤΕΤΑΙ. Άρα το μοντέλο είναι ικανοποιητικό