ΚΕΦΑΛΑΙΟ Πολλαπλή Γραμμική Παλινδρόμηση Μωυσιάδης Χρόνης 6 o Εξάμηνο Μαθηματικών Πρόβλημα Για αγορά οθόνης για υπολογιστή ψάξαμε στην αγορά και πήραμε τα στοιχεία του πίνακα Ερωτήματα Έχει σχέση η τιμή με το μέγεθος ; με το ρυθμό εστίασης ; Κωδικοποιούμε Ζ= μεγάλη Ζ= κανονική Τύπος - Κατασκευή Υπάρχει συνάρτηση ; Y f( X, Z) ή Y f( X, Z) Ρυθμός Εστίασης (Χ) Μέγεθος (Z) Τιμή (δρχ) (Υ) Soy CPD-73 5.5 Κανονική 86 Nec 5FGe 49.5 Κανονική 6 SuperMac Plus 48 Μεγάλη 7 Ikeg CT-D 55 Μεγάλη 377 Mtsubsh 7 43 Κανονική 64 E-Mashes E 54 Μεγάλη 45 Soy GDM38 57.5 Μεγάλη 4 Nao F55 5.5 Κανονική 96 SuperMac 7T 47.5 Κανονική 75 Radus v 47 Μεγάλη 38 Ειδικότερα υπάρχουν σταθερές ; Y b + b X + b Z
Γενικό Γραμμικό Μοντέλο 3 ΔΕΔΟΜΕΝΑ Προβλέπουσες μεταβλητές (predctor) ή ανεξάρτητες ΜΟΝΤΕΛΟ X Άγνωστες παράμετροι που ζητείται να εκτιμηθούν X X 3 X k x x x x y x x x x y x x x x y 3 k 3 k 3 k... k k Y Εξαρτημένη μεταβλητή ή απόκριση (respose) Y X X X το σφάλμα ε που απαιτείται να είναι «μικρό» Μετασχηματισμοί μοντέλων 4 Πολυωνυμικά Y x x x k... k Θέτουμε x=x, x =X,, x k =X k Y x x z xz Εκθετικά yx x y yx x xx Θέτουμε X l x, X l x, Y l y, l,,, l Θέτουμε x=x, x =X, log y=y Bx x y Ae e Θέτουμε x=x, x =X, z=x 3, x z =X 4 γραμμικό ; ΔΕΝ ΑΝΑΓΟΝΤΑΙ ΣΕ ΓΡΑΜΜΙΚΑ
Παράδειγμα 5 Για τη μελέτη της τάσης δοκών που σχηματίζουν γωνία θ με το έδαφος ισχύει ο τύπος του Hakso ff f f c c c f c όπου fc, f c άγνωστες αλλά σταθερές τάσεις που πρέπει να προσδιορισθούν. Ένας ερευνητής έκανε μετρήσεις της που αντιστοιχούν στις γωνίες,,,...,. Μετασχηματίστε τον τύπο του Hakso και τα δεδομένα έτσι ώστε ο προσδιορισμός των σταθερών που ζητούνται να πετυχαίνεται με γραμμικό μοντέλο. f f Απάντηση 6 Ο τύπος του Hakso γράφεται fc fc f c f fcf c f c fc fc άρα θέτοντας y x πετυχαίνεται το γραμμικό μοντέλο. y x Τα Δεδομένα γίνονται θ.. θ f f. f f y y. y x x. x f c f f c c όπου y f x
Σύστημα εξισώσεων 7 Εφαρμόζοντας το ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ Y X X... k X k στα δεδομένα παίρνουμε το σύστημα y x x... k xk y x x... k xk...... y x x... x k k ΖΗΤΟΥΜΕΝΟ: ΚΑΛΥΤΕΡΗ ΔΥΝΑΤΗ ΠΡΟΣΑΡΜΟΓΗ Δηλαδή εύρεση των συντελεστών β με τρόπο ώστε οι ισότητες να προσεγγίζονται περισσότερο Μέθοδος Ελαχίστων Τετραγώνων 8 Εύρεση των β ώστε το άθροισμα να είναι ελάχιστο Συμβολίζουμε τις λύσεις ˆ ( διαβάζουμε β εκτιμώμενο) ΥΠΑΡΧΟΥΝ ΚΑΙ ΑΛΛΕΣ ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΩΝ β ΜΟΝΤΕΛΟ ΠΡΟΒΛΕΨΗΣ Y ˆ ˆ X ˆ X ˆ X ˆ... k k Παρατηρήσεις: ΕΔΩ ΔΕΝ ΕΧΟΥΜΕ TO ΣΦΑΛΜΑ ε. ΤΟ Ŷ ΛΕΓΕΤΑΙ ΕΚΤΙΜΩΜΕΝΟ Y Η ΔΙΑΦΟΡΑ y ˆ ˆ Y ΕΙΝΑΙ ΤΟ ΣΦΑΛΜΑ ΜΕΤΑ ΤΗΝ ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΣΥΓΚΕΚΡΙΜΕΝΟΥ ΜΟΝΤΕΛΟΥ
Προβλέψεις - Σφάλματα 9 Πρόβλεψη στα δοθέντα σημεία yˆ ˆ ˆ x ˆ ˆ x... k xk yˆ ˆ ˆ ˆ ˆ xx... k xk...... yˆ ˆ ˆ x ˆ x... ˆ x k k Σύμφωνα με τη μέθοδο ελαχίστων τετραγώνων, πρέπει να ισχύει: ˆ y y να είναι ελάχιστο yyˆ ˆ y ˆ ˆ y... y yˆ ˆ ΥΠΟΛΟΙΠΑ (resduals) Για τον υπολογισμό ΑΛΓΕΒΡΑ ή ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ; Με μορφή Πινάκων ΘΕΤΟΝΤΑΣ y y Y X y προκύπτει το μοντέλο x x x x x x x x x x x x 3 k 3 k 3 k Y X k
Προϋποθέσεις E E ( ) E E 3 3 V( ) E( E)( E) I Τα σφάλματα είναι ασυσχέτιστα δηλαδή όλες οι συνδιασπορές είναι Τα σφάλματα έχουν μέση τιμή 3 Τα σφάλματα έχουν την ίδια σταθερή διασπορά σ Υπολογισμοί ΖΗΤΟΥΜΕΝΟ S ( )...,, Ισχύει ( Y X) ( YX) YY YX XX S ( ) YY YX XX S ( ) X X () ( X X XY) ( X X) XX Να είναι ελάχιστο? () Δηλαδή Χ Χ συμμετρ.
3 Παραγώγιση διανυσματικής συνάρτησης Διανυσματική συνάρτηση f() x x f( x), x συμμετρικός πίνακας f( x) x c x x x x x xax x, x,..., x A x x... (... ) x x x xx 3xx 3, x x ( xax ) ( xax ) ( xax ),..., Ax x x x Παράγωγος τετραγωνικής μορφής Δεύτερη παράγωγος διανυσμ. συνάρτ. f ( x) f( x) x xx f( x) x x f ( x) f( x) xx x Ακρότατα διανυσμ. συνάρτ. f( x) x κρίσιμο σημείο Αν f ( x) x x Εσσιανός πίνακας της πραγμ.συνάρτησης διανυσμ.μεταβλητής (Hessa matrx) προφανώς xax A xx 4 αρνητ. ορισμ. πίνακας σχετικό μέγιστο θετ. ορισμ. πίνακας σχετικό ελάχιστο
5 Κανονικές εξισώσεις-εκτίμηση παραμ. Από τη σχέση () το κρίσιμο σημείο ικανοποιεί την ( XX XY) Αν X Χ, τότε ˆ X X XY δηλαδή Είναι ΣΧΕΤΙΚΟ ΕΛΑΧΙΣΤΟ Διότι ο εσσιανός πίνακας είναι ο Χ Χ που είναι θετικά ορισμένος (θ.ο.), διότι: X X XY κανονικές εξισώσεις Αν X Χ =, τότε ισχύει ( XX) ( X)( X) ( X)( X) άθροισμα τετραγώνων ˆ X X X Y γενικευμένος αντίστροφος Είναι και ΟΛΙΚΟ ΕΛΑΧΙΣΤΟ 6 S ( ) ( Y X ) ( Y X ) ˆ ( ˆ ) Y X X Y X ˆ X ( ˆ ) ˆ Y X Y X ˆ ˆ X X ˆ ˆ X Y X ˆ Y X ˆ X ˆ S ˆ ( ) S ( ˆ ) ˆ XX ˆ X X όμοια XY X XY XX ˆ ˆ ˆ ˆ καν. εξισώσεις ˆ ˆ
Μοντέλο πρόβλεψης πίνακας «χατ» Το μοντέλο Y ˆ ˆ X ˆ X ˆ X ˆ... k k 7 γράφεται ή Yˆ Xˆ Yˆ X X X XY H X X X X Ο πίνακας Ŷ λειτουργεί ως τελεστής μετατροπής του διανύσματος Y σε Για το λόγο αυτό λέγεται πίνακας χατ. Ισχύει: HY H X XX XX XX XX XX XH μοναδιαίος Yˆ Ο Η είναι ΤΑΥΤΟΔΥΝΑΜΟΣ Ιδιότητες εκτιμητού παραμέτρων 8. Eˆ XX XX E ˆ E X X X Y X X X EY XX XE( X ) XX X( X E). V( ˆ ) X X ˆ ˆ ˆ ˆ ˆ V( ) E E E E ˆ ˆ ˆ XX XY XX X( X ) XX XX XX X XX X EXX XXX X EXX XXXX XX XE( ) X XX XX X I X XX XX XX XX XX
Διασπορά εκτιμήσεων παραμέτρων 9 ΘΕΤΟΥΜΕ c c c c c c c c C X X c c c c c c c c ΤΟΤΕ k k k ˆ k k k kk Var ˆ c k ( ),,,..., ˆ ˆ (, j) j, Cov c j k Var( ˆ ) c,,,..., k Εφαρμογή για k= (Παράδειγμα κεφ. ) α/α x y x y x y ε=y-.5.5.5.5.5.4.789.5..5..5.4.5789 3.5.5.65.65.65.3674 -.74 4.5.35.65.5.875.3674 -.74 5.5.75.5.565.375.7635 -.35 6.5.85.5.75.45.7635.8648 7.5.95.5.95.4759.7635.8648 8.5.4.565.64.775.96587 -.54587 9.5.75.565 3.65.875.96587 -.587.5.8.565 3.34.75.96587 -.4587.5.95.565 3.85.4375.96587 -.587.5.45.565 6.5 3.65.96587.4843 3. 3.5 4.4 9.35 6.45 3.3854 -.7854 4. 3.9 4.4.76 6.699 3.3854 -.3854 5. 3.5 4.4.565 6.85 3.3854 -.7854 6. 3.43 4.4.7649 7.3 3.3854.46 7. 3.5 4.4.5 7.35 3.3854.746 8. 3.93 4.4 5.4449 8.53 3.3854.646 9.5 3.75 6.5 4.65 9.375 3.96979 -.979.5 3.93 6.5 5.4449 9.85 3.96979 -.398.5 3.99 6.5 5.9 9.975 3.96979..5 4.7 6.5 6.5649.75 3.96979. 3.95 48.78 6.55 5.746 95.55 48.78 -. ŷ ŷ
Υπολογισμοί (Χ Χ) - και Χ Υ Είναι YX y x y Y x όπου: X y x x x x 3.95 X X x x 3.95 6.55 x x x y y y 48.78 XY x x 95.55 y xy X X.645973 -.8468953 -.8468953.69934 Το μοντέλο πρόβλεψης ˆ ˆ ˆ XX XY.645973 -.8468953 48.78.38447 -.8468953.69934 95.55.6333 Μοντέλο Πρόβλεψης Yˆ.38447.6333X Var( ˆ ) c.645973 Var( ˆ ) c.69934
Η γενική περίπτωση με k= 3 x x x X X xy XY x -x x -x X X x x S xx -x -x ˆ y ˆ y x x xy ˆ XX XY S xx S xy Επαλήθευση με γνωστούς τύπους 4 ˆ S S xy xx y x x xy ˆ y ˆ x S xx y x x x y y x x x y x x y ys xs xx x Sxx x x c Sxx Sxx Sxx Var( ˆ ) ˆ Var( ) c S S xx xy xx
Παρεμβολή -Πρόβλεψη 5 yˆ ˆ ˆ ˆ ˆ ˆ x x... k xk, x,, xk x Το δοσμένο Η πρόβλεψη x σημείο ŷ x ˆ στο σημείο x αυτό k Για το παράδειγμα: Παρεμβολή στο x =. Πρόβλεψη στο x =3. ˆ.38447 yˆ,,.6333 3.68 Όμοια yˆ ˆ, 3 4.77355 Ιδιότητες της πρόβλεψης ˆ ˆ. E( y ) E( y ) ˆ ˆ E( y) E x x E x E( y) διότι y x... k xk 6 Var( y ) x( X X ) x. ˆ ˆ ˆ ˆ ˆ ˆ Var( yˆ ) E yˆ E yˆ E x x E x x x x E x x x E ˆ ˆ x ˆ x V( ) x Var( yˆ ) x ( X X ) x
Η διασπορά στη γενική περίπτωση x -x Var( yˆ ), x Sxx -x x x -x x x x xx xx S xx -, - x Sxx ( x x) ( xx) ( x x) Sxx Sxx Για το παράδειγμα και για x = Var yˆ.645973 -.8468953 94 3.66637 Όμοια για x =3 Var( yˆ ).9854 ( ), -.8468953.69 7 Σφάλμα μετά την προσαρμογή 8 ˆ y ˆ y ˆ ˆ ˆ y y Y Yˆ...... ˆ ˆ y y SSE ˆ ˆ ( Y X ˆ ) ( Y X ˆ ) YY ˆ XY YXˆ ˆ XXˆ YX ˆ YXˆ ˆ X Y SSE = YY - βˆ XY ˆ XX ˆ ˆ XX( XX ) XY ˆ X Y
Το σφάλμα SSE ως τετραγωνική μορφή ˆ ( ) XY YX X X XY SSE YY ˆ X Y YY YX ( X X ) X Y A I X( XX) X SSE = YA Y ή AI H ΩΣΤΕ: SSE είναι Τετραγωνική Μορφή με πίνακα Α διότι Α είναι συμμετρικός πίνακας. ΕΡΩΤΗΜΑ: Η SSE είναι Τυχαία Μεταβλητή (Πολυδιάστατη). (αφού είναι τ.μ. ). Με τι κατανομή ; Y 9 πίνακας χατ Τετραγωνικές μορφές 3 (I) Y τυχαίο διάνυσμα με EY ( ) και VY ( ) I E( YAY ) A Tr( A) (IΙ) Y τυχαία πολυ-κανονική μεταβλητή Y N(, I ) ms YAY c s m μή κεντρική με A Αν X N τότε ο συντελεστής μη-κεντρικ. λ, της (IΙΙ) ( m, s ) Z= X + X + + X c... m m είναι... m Y τυχαία πολυ-κανονική μεταβλητή με Αν είναι YAY και YBY ανεξάρτητες, τότε AB Y N( m, I )
Μη-κεντρική χ κατανομή 3 α. χ 5 κατανομή με 5 β.ε. β. χ 5 κατανομή μη-κεντρική με 5 β.ε. και λ=6.875 α. πυκνότητα τ.δείγματος Χ =Χ /σ +...+Χ 5 /σ Χ ~N(,σ ), σ =,, 5, 4, β. πυκνότητα τ.δείγματος Χ =Χ /σ +...+Χ 5 /σ Χ ~N(μ,σ ), σ =,, 5, 4, μ =,,.5,.5,.5 λ=6.875..5..5..5..5 5 5 5...4..4.8 5 3 3 Θεώρημα Cochra 3 Y N(, I ) ms και Α, =,,,k (IV) συμμετρικοί πίνακες βαθμού k και YY YAY YA Y... YAk Y ΤΟΤΕ ΟΙ ΠΑΡΑΚΑΤΩ ΣΥΝΘΗΚΕΣ ΕΙΝΑΙ ΙΣΟΔΥΝΑΜΕΣ + + + k = A είναι ταυτοδύναμοι για όλα τα (A =A ) A A j = για όλα τα j με YAY για όλα τα c A YAY και YA ανεξάρτητες για όλα τα j j Y
Τυπικό Σφάλμα 33 ΕΙΔΑΜΕ ΟΤΙ SSE Y AY με A I H Είναι Y X Άρα EY ( ) X και E( ) V( ) I VY ( ) I με και Δηλαδή ικανοποιούνται οι προϋποθέσεις της ιδιότητας (Ι) E( SSE) E( YAY ) ( X ) A( X ) Tr( A) X( I H) X ( ) XX XHX Tr( I) Tr X ( X X ) X X X XX Tr( XX ) XX Tr Ik ) k Tr A Tr( I X ( X X ) X ) ( Εκτίμηση διασποράς σφαλμάτων 34 Ώστε: ESSE ( ) ( k) ή SSE E k s ΤΟΤΕ Αμερόληπτος εκτιμητής της διασποράς σφαλμάτων SSE SSE s = τυπικό k -k- Var( ˆ ) s c,,,..., k s( ˆ ) ( ˆ Var ) s c,,,..., k Var( yˆ ) s x Cx σφάλμα όπου C ( XX ) c ck ck ckk
Εφαρμογή στο παράδειγμα 35 Βρίσκουμε: ˆ.38447 48.78 SSE YY X Y 5.746.3946.6333 95.55 Από τον πίνακα = άθροισμα τετραγώνων των y SSE....3943 SSE.3946 s.6973 άρα s.4738 Οι διασπορές των ˆ, ˆ Οι διασπορές των προβλέψεων Var ˆ Var ˆ ( ).64597 s. ( ).6993 s.37 Var yˆ Var y s ( ).66637.4 ( ˆ).9854 s. 36 Παράδειγμα (η άσκηση.α του βιβλίου) Χ Χ Χ Χ Υ Χ Χ Υ Χ Χ Υ Υ Yˆ ˆ ˆ 4 9 3 8 5 7 6 66 8-8 - 6-6 - 4 - -4-6 8 5 3-4 -3 5 33 8 8-7 - 8-48 - 8-4 -4-346 6 8 9 64 5 4 49 36 56 64 4 64 36 36 44 6 4 6 484 6 3 9 5 4-4 - 3 85 48 6-8 3-8 48 4 6-4 36 64 5 9 4 6 9 5 89 8 5-3 5 4 8 4 33-3 - -3 - -4-4 -8 4 9 4 4 6 4 6 68
Υπολογισμοί Το Μοντέλο YX όπου: y x, x, y Y x, x, X y x, x, x, x, x, x, XX x, x, x, x, x, x, x, x, (.) x x,,,,, x, x x x 37 Το διάνυσμα παραμέτρων 38 66 XX 66 56 346 346 484 æ ö ç çè-.486.8.4 ø 4.375 -.8495 -.486 XX - = - ( ).8495.69.8 æ ö æ y ö æ y ö y å X Y = x, x, x, = x, y å çx x x è øç ç x y æ 33 ö X Y = 85 ç çè4 ø å,,, çèy è, ø ø ˆ.996.544 3.9978 XX XY
Το μοντέλο πρόβλεψης 39 προσεγγιστικά yˆ 4 X.5 X æ3.9978 ö æ33 ö ˆ SSE = Y Y - β XY = 89-.996 85 - = 69 ç è-.544 ø çè4 ø Με την εκτίμηση των παραμέτρων απευθείας SSE 69 s 8.65 k SSE s.937 68 Παράδειγμα (Συστολ. πίεση αίματος) 4 Σε 3 άτομα μετρήθηκε συστολική πίεση του αίματός τους (y), το βάρος τους (x ) σε kgr και η ηλικία τους (x ). Να βρεθεί γραμμικό μοντέλο που να εκφράζει τη συστολική πίεση συναρτήσει του βάρους και της ηλικίας. Να εκτιμηθεί η συστολική πίεση ατόμου 45 ετών που ζυγίζει 7 κιλά. Να βρεθεί η διασπορά των εκτιμήσεων των συντελεστών του μοντέλου και της πρόβλεψης. Οι μετρήσεις x x y ŷ ε 76. 9.5 85.5 8.5 79. 8.5 74.5 79. 85. 75.5 8. 95. 9.5 5 3 3 5 6 5 4 55 3 4 4 4 6 7 9 3 5 3 3 3 55 47 9.854 4.49 7.567 5.355 7.86 9.547.873 6.36 34.99 3.56 8.58 56.53 4.645.46.59-3.567.645 -.86 -.547.7 -.36 -.99 -.56 3.47 -.53 4.355 S x = 79.5 S x = 959.75 S x = 55 S x = 95 S y = 694 S y = 8 S xy = 446.5 S xy = 6535 S xx = 467.5 3. 79.5 55. XX 79.5 959.75 467.5 55. 467.5 95.
Το μοντέλο πρόβλεψης 4 æ 35.4895683.36655.37697ö - - XX - = - ç ç- è.37697.547667.85334 ø ( ).36655.377567.547667 æ 694. ö XY ç 446.5 =ç ç çè6535. ø æ 65.99678ö æ 65.ö ˆ - - - β = ( XX ) XY ç.549.54 =ç ç è.45434ø çè.45ø ΑΡΑ ΜΟΝΤΕΛΟ ΠΡΟΒΛΕΨΗΣ (προσεγγιστικά) yˆ 65..54x.45x Τα σφάλματα μετά την προσαρμογή 4 SSE Y Y ˆ X Y 6.936 (Αν χρησιμοποιήσουμε την προσέγγιση βρίσκουμε SSE=9.8 ενώ πραγματικό SSE=ε =6.945) SSE 6.93 s 6.93 3 Διαγώνιος ( X X ) 35.489568,.3776,.85 Άρα Var( ˆ ) 3.335 s( ˆ ) 4.944 Var( ˆ ).38 s( ˆ ).54 και s 6.93.59 Var( ˆ ).54 s( ˆ ).73
Πρόβλεψη 43 x 7, x 45 Αν τότε: x, 7, 45 65.99678 yˆ ˆ x, 7, 45.549.45434 yˆ 9.465 Var( yˆ ) s x ( XX ) x 6.93, 7, 45 ( ) 7 45 XX.59 s yˆ.584 Το άθροισμα τετραγώνων SST 44 Συνολικό Άθροισμα τετραγώνων SST y y y y Y Y Y Επειδή YY Y J Y Y YY Οπότε: SST YY Y J Y όπου J ή SST Y I J Y Τετραγωνική μορφή
Το άθροισμα τετραγώνων SSR 45 Η σχέση SSE YY ˆ X Y SSE Y Y Y ( X ( X X ) X Y δίνει ή SSE YY Y HY Συνδυάζοντας: SSR Το μέρος της συνολικής διασποράς που εξηγείται (ερμηνεύεται) από την παλινδρόμηση YY SSTY( J ) Y SSEYHY SST SSE Y( H J ) Y SST SSE SSR Κατανομή των Αθροισμάτων SSR, SSE, SST 46 SST YY YA Y SSR Y A Y SSE Y A3 Y ΟΠΟΤΕ: A 3 A H J X( XX ) X J J ( ) A I H I X XX X YY YAY YAY YAY 3 ΕΡΩΤΗΜΑ: Ισχύουν οι προϋποθέσεις του Θεωρήματος Cochra; (α) Οι πίνακες Α, Α, Α 3 είναι συμμετρικοί.
Οι πίνακες Α, Α, Α 3 είναι ταυτοδύναμοι 47 A J J J J J J A A διότι H J H J HJ HJ H HJ JH J X XX X X λύνεται, διότι X X X HJ X ( X X ) X J X ( X X ) X XJ A H J J A Η εξίσωση: A I H I H I HHH A 3 3 Οι βαθμοί των πινάκων Α, Α, Α 3 48 Tr A Tr J Tr J ( ) ( ) ( ) rak( A ) Tr( A ) Tr( H )- Tr( J ) ( k )-k Tr( A ) Tr( I ) Tr( H ) ( k ) 3 3 όπου χρησιμοποιήθηκε και ισχύει (β) k rak( A ) rak( A3 ) Tr( H) Tr( X ( XX ) X) Tr( AB) Tr( BA) Tr( XX ( XX ) ) Tr( I ) k 3 3
Ισχύει το θεώρημα Cochra 49 (γ) Ισχύουν οι προϋποθέσεις κανονικότητας Από ΑΡΑ ΕΧΟΥΜΕ ε N(, σ I ) Y = Xβ+ ε έπεται Y N Xβ σ I SSR χ σ k SSE χ σ -- k με A 3 SST χ - σ (, ) A X( I J ) X ( I A ) X( I J) X Ο πίνακας ANOVA 5 Πηγή Αθρoίσματα Τετραγώνων Παλινδρόμηση SSR k β.ε. Μέσα Τετράγωνα Λόγος F MSR SSR k F MSR MSE όπου Υπόλοιπα (Σφάλματα) SSE -k- Σύνολο SST - ˆ SST Y Y Y SSR X Y Y SSE YY ˆ X Y ή αλγεβρικά MSE SSE k - - SST y y SSR yˆ y SSE y yˆ
Διορθωτικός Παράγοντας 5 y Αν k=, ΜΟΝΤΕΛΟ =,,, ˆ Y y SSR ˆ X Y Y y Y Y y y Άρα SST=SSE X Τότε: (αφού ) ο δεύτερος όρος στον τύπο Ώστε: SSR στο ΠΛΗΡΕΣ μοντέλο οφείλεται στους άλλους συντ/στές,,..., ˆ SSR X Y Y λέγεται διορθωτικός παράγοντας 5 Εφαρμογή στο παράδειγμα της συστ. πίεσης ˆ 65. y 694 694 SST YY Y 8 486.789 3 SSR ˆ Y 65. 694 43.838 3 SSE SST SSR 486.789 43.838 6.95 Πηγή Αθρoίσματα Τετραγώνων β.ε. Μέσα Τετράγωνα Λόγος F Παλινδρόμηση 43.838 7.95 3.9*** Υπόλοιπα (σφάλμ.) 6.95 6.95=s Σύνολο 486.789 ΠΙΝΑΚΑΣ ΑΝΑΛΥΣΗΣ ΔΙΑΣΠΟΡΑΣ
Το συμπέρασμα 53 Η : β =β = Η : β β...4.6.8. Σε στάθμη σημ. α Αν F>F k,-k-;α ΑΠΟΡΡΙΠΤΕΤΑΙ Αν F<F k,-k-;α ΔΕΝ ΑΠΟΡΡΙΠΤΕΤΑΙ Εδώ F>4., άρα ηh ΑΠΟΡΡΙΠΤΕΤΑΙ F=3.9 F, F,;.9,. 4.,.5 5.46,.5 7.56,. 9.43,.5 3 4.8 5 6 8.5 Συντελεστής Προσδιορισμού SST SSR SSE 54 R SSR SSE = = - SST SST Σχέση των F και R R εκφράζει το ποσοστό της συνολικής διασποράς που ερμηνεύει το μοντέλο SSR / k... - k - F = = = R SSE/( -k -) k -R kf /( -k -) R = + kf /( - k - )
Διορθωμένος συντελεστής προσδιορισμού 55 SSE /( -k -) s R = - = - SST /( -) VarY διορθωμένος συντελεστής προσδιορισμού Σχέση των R και R ( -k-)( - R ) = ( -)( -R ) Για το παράδειγμα της πίεσης 43.838 R = =.958 486.789 6.95/ R = =.949 486.789/ Το μοντέλο ερμηνεύει το 95.8% της συνολικής διασποράς Έλεγχοι Υποθέσεων 56 ΘΕΩΡΗΜΑ (Gauß-Markov) θ=λβ Αν όπου είναι γραμμικός συνδυασμός των συντελεστών παλινδρόμησης, τότε η καλύτερη γραμμική εκτίμηση του θ (που είναι μοναδική) είναι η Απαραίτητη προϋπόθεση (για να εκτιμάται το θ) είναι ΝΑ ΕΧΕΙ ΛΥΣΗ Η ΕΞΙΣΩΣΗ λ =(λ,λ,...,λ k) ˆθ=λβ ˆ Xc=λ Αυτό συμβαίνει με βεβαιότητα αν ο Χ Χ είναι αντιστρέψιμος
Θεώρημα 57 Αν ΤΟΤΕ ΑΠΟΔΕΙΞΗ Y N( X β, s I) ˆθ-θ - s λ (X X) λ και t - k - θ=λβ ˆθ=λβ ˆ SSE s= -k- όπου ˆ - Η τ.μ. ˆθ=λ β = λ( X X) X Y έχει κατανομή N(μ, σ ) θˆ θˆ ˆ - - μ =Ε(θ)=λ ( XX ) X E ( Y) = λ ( XX ) X Cβ ˆθ = λ β = θ s = Var(θ) ˆ = E(θˆ- θ) = E ˆθ ( λ ( βˆ- β) ( βˆ- β) λ) = ˆ - = λv( β) λ=σλ( CC ) λ Ισχύουν 58 ˆθ-θ Z = N(,) - s λ(xx) λ άρα από γνωστό θεώρημα της Θ.Πιθ. αν Z, W είναι ανεξάρτητες ˆθ-θ και SSE ανεξάρτητες ˆθ και SSE ανεξάρτητες W= χ σ SSE Z W /( -k-) Yˆ -k- t - k - και οι δύο τ.μ. είναι τετραγωνικές μορφές της
ανεξαρτησία των δύο τετραγ. μορφών 59 SSE = Y ( I - H ) Y = Y AY ˆ ˆˆ ˆ ˆ ( ˆ θ = θθ= λ β λ β= λ β) λ β= ˆ βˆ λλ β= ˆ = Y X( X X) λλ ( X X) X Y = Y BY AB= I - X XX X X XX XX X = ˆθ-θ - - - ( ( ) ) ( ) λλ ( ) - Z s λ(xx) λ = = W SSE s -k- s -k- ( ) θ-θ ˆ - λ(xx) λ t - k - Έλεγχος παραμέτρων 6 ΠΟΡΙΣΜΑ Αν Y N( X β, s I) βˆ - β t s βˆ -k- ˆ s β Αρκεί οπότε ( ) æö λ= ç çè ø λ β ˆ = β (+)-στή γραμμή και τότε =s c όπου ( ) - λ(xx) λ=c
Έλεγχος μέσης πρόβλεψης 6 ΠΟΡΙΣΜΑ Αν Y N( X β, s I) τότε Yˆ -μ t - -k- s s x(xx) όπου ( yˆ) = Var( yˆ) = x - = s x ( X X) x λ=x Αρκεί διότι θ=x β =Ey = m y = β + β x +... + β x + ε k k Έλεγχος ατομικής πρόβλεψης 6 ΠΟΡΙΣΜΑ Αν Y N( X β, s I) Yˆ -μ t - -k- s +x (X s βˆ X) x διότι E(Y - Yˆ ) = τότε =s c όπου ( ) Var(Y ˆ ˆ - Y ) = Var ( x (β - β)+var(ε)= - = σ (+ x (X X) x )
Μονόπλευρο ή δίπλευρο t-τεστ 63 ΔΙΠΛΕΥΡΟ H :θ=θ H :θ¹ θ -α T = t -k- s ˆθ-θ - λ(xx) λ ΜΟΝΟΠΛΕΥΡΟ H H :θ=θ :θ>θ -α t -k- α/ α/ -4 t - t 4 -k-;-α/ -k-;α/ -4 - t -k-;α 4 α Μονόπλευρο ή δίπλευρο F-τεστ 64 ΘΕΩΡΗΜΑ T t F = T F -k-, -k- F,-k- -α ΔΙΠΛΕΥΡΟ H : β = H : β ¹ F,-k- -α ΜΟΝΟΠΛΕΥΡΟ H H : β = : β > α F,-k-;α α F,-k-;α
Εφαρμογή με το 3ο παράδειγμα 65 βˆ ˆ ˆ β β yˆ =- 65.+.54 X +.45 X SSR=43.838 (4.944) (.54) (.73) s( βˆ ) s( βˆ ) s( βˆ ) 3 SSE=6.936 ˆ = (, 7, 45 ), ˆ = 9.5, ( ˆ ) =.59, =.584 s + Var( Yˆ ) = 6.95 +.59 = 8.84.8,.5 * s ˆ.769,. ˆ = s + Var( Y ) =.967 Y t;.8,.5 3.69,.5 4.587,.5 x Y Var Y s Y ˆ Έλεγχοι συντελεστών 66 H : β = H : β ¹.54 T = = 3.975.54 Η ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=., διότι t ;α/ =4.587<3.97 H : β = H : β > H H.45 T = = 5.8.73 Η ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=.5, διότι t ;α =4.587<5.8 : β =-5 : β ¹-5-65.-(-5) T = =. 4.94 Η ΔΕΝ ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=., διότι t ;α/ =.8>.
Έλεγχοι πρόβλεψης Για τη μέση πρόβλεψη 67 H : EY =5 H : EY ¹ 5 9.5-5 T = = 3.7.584 H : Y = 5 H : Y ¹ 5 Η ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=., διότι t ;α/ =3.69<3.7 Για την ατομική πρόβλεψη 9.5-5 T = =.98.967 Η ΔΕΝ ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=.5, διότι t ;α/ =.8>.98 95% Διαστήματα εμπιστοσύνης 68 β βˆ t s( βˆ ) ;.5 ή (-98.396, -3.83) β β ΕΥ Υ βˆ t s( βˆ ) ;.5 βˆ t s( βˆ ) ;.5 ( ˆ ) Yˆ t Var Y ;.5 ( ˆ ) Yˆ t s + Var Y ;.5 ή ή ή ή (.8,.498) (.6,.588) (5.6,.679) (.539, 5.76)
Έλεγχος της διασποράς 69 H H : s =5 : s ¹ 5 s X SSE SSE = = =.59 s 5 G ια α =.5, χ = 3.5, και χ =.5 SSE 3.5 < <.5 s SSE SSE < s <.5 3.5 3.< s < 9.36 ;.975 ;.5.5.9 χ χ ;.5 ;.975 χ.5 5 (3., 9.36) ΔΕΝ ΑΠΟΡΡΙΠΤΕΤΑΙ η Η Θέμα από εξετάσεις 7 Η στήλη y στον παρακάτω πίνακα παριστάνει τις αποκρίσεις σε ένα πείραμα, ενώ οι στήλες x, x, x 3 τις προβλέπουσες μεταβλητές. α/α y x x x 3 α/α y x x x 3 8. 77.4 33. 8 7. 79 9.6 49.4 9.6 86.8 36.4 9 7. 6.3 5.7 3 87.4 5.53 39.8. 34.58 53.9 4 4.9 4. 4.5 97.9 58 3.89 56. 5 6. 4 9.5 44.9 93.3 77 5.66 58.4 6 9. 7 7. 47.6 3 83.6 3 4.7 6.5 7. 6 8.3 47.8 4 9. 38 4.9 63. Θεωρώντας ως πίνακα D τον πίνακα που σχηματίζεται με τις στήλες y, x,x και x 3,βρήκαμεότι: 493.9 333335.7 6474.7 346576.78 333335.7 66777 369853 765397 6474.7 369853 48.56 465.6 346576.78 765397 465.6 86933.45 æ y ö æ 99.38 ö x 8.5 = x.7 ç x ç 49.4 è ø è ø α) Χρησιμοποιώντας τα προηγούμενα υπολογίστε τον πίνακα για την προσαρμογή του μοντέλου στα δεδομένα, καθώς και τον πίνακα Χ Υ. και 3
7 49.3.39.7375 3.88 β) Χρησιμοποιώντας το γεγονός ότι με 5.57..83.98 σχηματίστε τον πίνακα ανάλυσης της διασποράς για τον συνολικό έλεγχο του μοντέλου και διατυπώστε τα συμπεράσματα που προκύπτουν σε στάθμη.5 και.. Να σημειωθεί πως υπολογίζονται οι κρίσιμες τιμές. (Αν δεν έχετε βρει σωστά αποτελέσματα από το (α) πάρτε ως SSR τη μη ακριβή τιμή SSR=) γ) Εξετάστε σε στάθμη.5 αν ο συντελεστής της μεταβλητής x είναι ή μήπως ίσος με. Απαντήστε το ίδιο ερώτημα με τη βοήθεια κατάλληλου διαστήματος εμπιστοσύνης. δ) Αγνοώντας τις άλλες δύο μεταβλητές και διαιρώντας δια την x και στρογγυλεύοντας σε ακέραιες τιμές παίρνουμε τον διπλανό πίνακα. Κάντε την παλινδρόμηση της y στην x και ελέγξτε το μοντέλο υπολογίζοντας τις επαναλήψεις της x = z. y x z (/) 8. 77 9.6 86 87.4 4.9 6. 4 9. 7. 6 7. 79 7. 6. 34 97.9 58 3 93.3 77 3 83.6 3 3 9. 38 3 7
73 74
75 76 Σφάλματα προσαρμογής-επαν/νες μετρήσεις Έστω ότι υπάρχουν παρατηρήσεις στο ίδιο x,,,..., r με τιμές y, j,,..., όπου Με την υπόθεση της κανονικότητας θα έχουμε j j j SSE y y ~,,,... r Άρα j j r SSe SSE ~ e SSE SSe ~ r Επομένως και F όπου ( SSE SSe )/( r ) ~ F SS /( r) e... r r ( ) r e ( r),( r) j καθαρά σφάλματα σφάλματα προσαρμογής έλεγχος ισότητας καθαρών σφαλμ. με σφ. προσαρμ.
77 y x z (/) s 8. 77 9.6 86 87.4 4.9 6. 4 9. 7. 6 7. 79 7. 6. 34 97.9 58 3 93.3 77 3 83.6 3 3 9. 38 3 6 4 3 4 mea(y) var(y) 98.33 94.37867 9.5 39.45 9.45 35.6667 (s-)* var(s) 97.8933 8.75 6.85 96.95 78
79 Αθρ. β.ε. Μέσα τετρ F Παλινδρόμηση 37.7 37,7.53 Υπόλοιπα 786.8 48.9 Σφάλματα προσαρμογής 6,6 6,6 5,7 Καθαρά σφάλματα 96.95 8,8 Σύνολο 84.5 3 Θέματα () 8 Στον παρακάτω πίνακα δίνονται στοιχεία από οικογένειες. Στη στήλη y δίνεται η επιφάνεια της κατοικίας της οικογένειας (σε τετρ. μέτρα), στη στήλη x το ετήσιο εισόδημα (σε χιλιάδες ευρώ), στη στήλη x τo πλήθος των με λών της και στη στήλη x 3 τo συνολικό πλήθος ετών μετά το λύκειο που σπούδασαν τα μέλη της οικογένειας που συνεισφέρουν στο εισόδημα. y x x x 3 y x x x 3 8 4 6 5 4 9 6 8 7 6 56 6 8 3 3 45 3 7 8 9 34 3 8 4 37 4 9 5 6 5 5 8 4 4 3 6 α) Χρησιμοποιώντας πίνακες να βρεθεί η ευθεία που εκτιμά την επιφάνεια της κατοικίας από το εισόδημα. (Οι φοιτητές που το ΑΕΜ τους είναι περιττός αριθμός να χρησιμοποιήσουν τα δεδομένα από τις πρώτες 5 οικογένειες, ενώ αυτοί που έχουν άρτιο τα υπόλοιπα). Να σημειωθούν όλοι οι πίνακες που θα χρησιμοποιήσετε και να φαίνονται οι πράξεις με τα ενδιάμεσα αποτελέσματα. Να γίνει και γραφική παράσταση, όπου να εξηγήσετε τι ελαχιστοποιεί η μέθοδος υπολογισμού του μοντέλου παλινδρόμησης. β) Κάντε τον πίνακα ανάλυσης της διασποράς και διατυπώστε τα συμπεράσματά σας. γ) Βρέστε το 95% δ.ε. για το συντελεστή του x στο μοντέλο. Προσαρμόστε το πλήρες μοντέλο και δώστε τα συμπεράσματά σας.
Θέματα () 8 Στο διπλανό πίνακα δίνονται οι ώρες που έτρεξε μία δρομέας σε κάθε μία από 8 διαδοχικές εβδομάδες και ο μέσος χρόνος (σε λεπτά) που έκανε η δρομέας για κάθε μίλι εκείνη την εβδομάδα. Να βρεθεί με χρήση πινάκων α) Αν ο χρόνος ανά μίλι σε μία εβδομάδα προπόνησης, μπορεί να προβλεφθεί από τις ώρες προπόνησης την εβδομάδα αυτή; Ποια η πρόβλεψη για μία εβδομάδα που έτρεξε 4 ώρες και ποια αν έτρεξε ώρες; β) Με ποια τυπική απόκλιση εκτιμώνται οι διάφοροι παράμετροι και μία από τις προβλέψεις; hours tme 3 5. 5 5. 8 4.9 4.6 9 4.7 7 4.8 4.6 6 4.9 Θέματα (3) 8 Σε ένα πείραμα για να μελετηθεί η οξείδωση ενός μετάλλου έγιναν παρατηρήσεις όπου μετρήθηκαν (σε κατάλληλες μονάδες) το ρεύμα του αέρα (x ), η θερμοκρασία του νερού (x ), η ποσοστιαία συγκέντρωση του οξέως (x 3 )καιτοβάρος που έχασε το μέταλλο εξαιτίας της σκουριάς (y). Το μέταλλο βυθιζόταν σε οξύ που εψύχετο με νερό και μετά εκτίθονταν σε ρεύμα αέρος. Τα αποτελέσματα δίνονται στον πίνακα. Επίσης, σε κάθε κελί του δεύτερου πίνακα δίνεται το άθροισμα γινομένων των μεταβλητών που το καθορίζουν. Π.χ. στο κελί που ορίζεται από τις x,x 3 είναι 38357= x, x. = 3 α) Υπολογίστε, χρησιμοποιώντας πίνακες, τους συντελεστές παλινδρόμησης του μοντέλου y x. β) Σχηματίστε τον πίνακα ανάλυσης της διασποράς και διατυπώστε τα συμπεράσματά σας. γ) Δώστε την πρόβλεψη για θερμοκρασία. Δείξτε ότι η τυπική απόκλιση της πρόβλεψης είναι. και βρέστε το 95% διάστημα εμπιστοσύνης για την ίδια την πρόβλεψη. δ) Μετά κάναμε παλινδρόμηση με τη μεταβλητή x και βρήκαμε SSR=75., με τις μεταβλητές x και x και βρήκαμε SSR=88.44, καθώς και παλινδρόμηση με όλες τις μεταβλητές και βρήκαμε SSR=89.48. Συγκρίνετε μεταξύ τους τα τέσσερα μοντέλα (μαζί με αυτό του (α)). Για το καλύτερο από αυτά υπολογίστε πόσο μέρος της συνολικής διασποράς ερμηνεύει. (Αν δεν έχετε βρει το SST, χρησιμοποιείστε την προσέγγιση SST=) ε) Για τη μεταβλητή x παρατηρήστε ότι υπάρχουν επαναλαμβανόμενες παρατηρήσεις. Αγνοώντας τις άλλες μεταβλητές σχηματίστε τον πίνακα ανάλυσης διασποράς και συμπληρώστε τον με τα καθαρά σφάλματα. Τι συμπεραίνετε για το μοντέλο με τη μεταβλητή x ; x x x 3 y x 78365 73 9988 3953 x 73 9545 38357 836 x 3 9988 38357 5694 389 y 3953 836 389 858 α/α x x x 3 y 8 7 89 4 8 7 88 37 3 75 5 9 37 4 6 4 87 8 5 6 87 8 6 6 3 87 8 7 6 4 93 9 8 6 4 93 9 58 3 87 5 58 8 8 4 58 8 89 4 58 7 88 3 3 58 8 8 4 58 9 93 5 5 8 89 8 6 5 8 86 7 7 5 9 7 8 8 5 9 79 8 9 5 8 9 56 8 5 7 9 5 Σύν 69 443 8 368