ΚΕΦΑΛΑΙΟ Πολλαπλή Γραµµική Παλινδρόµηση Μωυσιάδης Χρόνης 6 o Εξάµηνο Μαθηµατικών Πρόβληµα Για αγορά οθόνης για υπολογιστή ψάξαµε στην αγορά και πήραµε τα στοιχεία του πίνακα Ερωτήµατα Έχει σχέση η τιµή µε το µέγεθος ; µε το ρυθµό εστίασης ; Κωδικοποιούµε Ζ= µεγάλη Ζ= κανονική Τύπος - Κατασκευή Υπάρχει συνάρτηση ; = f ( X, Z) ή f ( X, Z) Ρυθµός Εστίασης (Χ) Μέγεθος (Z) Τιµή (δρχ) (Υ) Soy CPD-73 5.5 Κανονική 86 Nec 5FGe 49.5 Κανονική 6 SuperMac Plus 48 Μεγάλη 7 Ikeg CT-D 55 Μεγάλη 377 Mtsubsh 7 43 Κανονική 64 E-Mashes E 54 Μεγάλη 45 Soy GDM38 57.5 Μεγάλη 4 Nao F55 5.5 Κανονική 96 SuperMac 7T 47.5 Κανονική 75 Radus v 47 Μεγάλη 38 Ειδικότερα υπάρχουν σταθερές ; β + β X+ β Z Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση
Γενικό Γραµµικό Μοντέλο 3 Ε ΟΜΕΝΑ Προβλέπουσες µεταβλητές (predctor) ή ανεξάρτητες ΜΟΝΤΕΛΟ X Άγνωστες παράµετροι που ζητείται να εκτιµηθούν X X 3 X k x x x x y x x x x y x x x x y 3 k 3 k 3 k... k k Εξαρτηµένη µεταβλητή ή απόκριση (respose) = β + β X + β X + + β X + ε το σφάλµα ε που απαιτείται να είναι «µικρό» Μετασχηµατισµοί µοντέλων 4 Πολυωνυµικά = + x+ x + + x + k β β β... βk ε Θέτουµε x=x, x =X,, x k =X k = β + β x+ β x + γ z+ γ x z+ ε Εκθετικά y=αηx x y= β γ y= βx+ β + β x α+ βx+ γ x + ε Θέτουµε X = l x, X = l x, = l y, β = l α, β = β, β = γ, ε= lη Θέτουµε x=x, x =X, log y= Bx x y= Ae +Γe Θέτουµε x=x, x =X, z=x 3, x z =X 4 γραµµικό ; ΕΝ ΑΝΑΓΟΝΤΑΙ ΣΕ ΓΡΑΜΜΙΚΑ Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση
Παράδειγµα 5 Για τη µελέτη της τάσης δοκών που σχηµατίζουν γωνία θ µε το έδαφος ισχύει ο τύπος του Hakso f f fθ = fηµθ συν θ c c c + f c όπου fc, f c άγνωστες αλλά σταθερές τάσεις που πρέπει να προσδιορισθούν. Ένας ερευνητής έκανε µετρήσεις της που αντιστοιχούν στις γωνίες θ, =,,...,. Μετασχηµατίστε τον τύπο του Hakso και τα δεδοµένα έτσι ώστε ο προσδιορισµός των σταθερών που ζητούνται να πετυχαίνεται µε γραµµικό µοντέλο. f θ f θ Απάντηση 6 Ο τύπος του Hakso γράφεται ( ) fc f c ηµθ+ f c = = ηµθ + fθ fc f c f c fc fc άρα θέτοντας y= x= ηµθ α= β= f f πετυχαίνεται το γραµµικό µοντέλο. y= α+ β x+ ε Τα εδοµένα γίνονται θ θ.. θ f θ f θ f. f y y. y x x. x f c c c όπου y= f x = ηµ θ Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 3
Σύστηµα εξισώσεων 7 Εφαρµόζοντας το ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ = β + β X + β X +... + β k X k + ε στα δεδοµένα παίρνουµε το σύστηµα y = β+ β x + β x+... + βk xk+ ε y = β+ β x + β x +... + βk xk + ε...... y = β + β x + β x +... + β x + ε k k ΖΗΤΟΥΜΕΝΟ: ΚΑΛΥΤΕΡΗ ΥΝΑΤΗ ΠΡΟΣΑΡΜΟΓΗ ηλαδή εύρεση των συντελεστών β µε τρόπο ώστε οι ισότητες να προσεγγίζονται περισσότερο Μέθοδος Ελαχίστων Τετραγώνων 8 Εύρεση των β ώστε το άθροισµα να είναι ελάχιστο = ε Συµβολίζουµε τις λύσεις βˆ ( διαβάζουµε β εκτιµώµενο) ΥΠΑΡΧΟΥΝ ΚΑΙ ΑΛΛΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΩΝ β ΜΟΝΤΕΛΟ ΠΡΟΒΛΕΨΗΣ ˆ ˆ X ˆ X ˆ X ˆ = β + β... + β + + β k k Παρατηρήσεις: Ε Ω ΕΝ ΕΧΟΥΜΕ TO ΣΦΑΛΜΑ ε. ΤΟ Ŷ ΛΕΓΕΤΑΙ ΕΚΤΙΜΩΜΕΝΟ Η ΙΑΦΟΡΑ y ˆ ˆ = ε ΕΙΝΑΙ ΤΟ ΣΦΑΛΜΑ ΜΕΤΑ ΤΗΝ ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΣΥΓΚΕΚΡΙΜΕΝΟΥ ΜΟΝΤΕΛΟΥ Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 4
Προβλέψεις - Σφάλµατα 9 Πρόβλεψη στα δοθέντα σηµεία yˆ = ˆ β+ ˆ β x + ˆ β ˆ x+... + βk xk yˆ ˆ ˆ ˆ ˆ = β+ β x + β x +... + βk xk...... yˆ = ˆ β + ˆ β x + ˆ β x +... + ˆ β x k k Σύµφωνα µε τη µέθοδο ελαχίστων τετραγώνων, πρέπει να ισχύει: ε = = = ( y yˆ ) να είναι ελάχιστο y yˆ ˆ = ε y ˆ ˆ y= ε... y yˆ = ˆ ε ΥΠΟΛΟΙΠΑ (resduals) Για τον υπολογισµό ΑΛΓΕΒΡΑ ή ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ; Με µορφή Πινάκων ΘΕΤΟΝΤΑΣ y y y = X προκύπτει το µοντέλο x x x3 xk x x x x x x x3 x k 3 k = = X β+ ε β β β β = k ε ε ε ε = Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 5
Προϋποθέσεις E ε Eε Eε Eε ( ) = = = σ σ σ 3 σ σ σ 3 σ V ( ε) E( ε Eε)( ε Eε) = = = σ I Τα σφάλµατα είναι ασυσχέτιστα δηλαδή όλες οι συνδιασπορές είναι Τα σφάλµατα έχουν µέση τιµή σ σ σ σ 3 σ Τα σφάλµατα έχουν την ίδια σταθερή διασπορά σ Υπολογισµοί ΖΗΤΟΥΜΕΝΟ S ε ε ε ( β) = ε = ε + ε +... + ε = ( ε, ε, ε) = ε ε= ε = ( X β) ( X β) = Xβ+ β X Xβ Ισχύει Sε ( β ) Xβ β X Xβ = + = β β β β Sε ( β ) β β = X X () = ( X Xβ X ) ( X X ) = X X Να είναι ελάχιστο? () ηλαδή Χ Χ συµµετρ. Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 6
3 Παραγώγιση διανυσµατικής συνάρτησης ιανυσµατική συνάρτηση f ( x), x f ( x) = x f ( x) x συµµετρικός πίνακας c = x α α x = = α x α x α = α x x x Ax= ( x, x,..., x) A = x = α + α +... + α + ( α + α +... + α ) x x x x x 3x x3, x x ( x Ax) ( x Ax) ( x Ax) =,..., = Ax x x x Παράγωγος τετραγωνικής µορφής εύτερη παράγωγος διανυσµ. συνάρτ. f ( x) f ( x) x x x f ( x) = x x f ( x) f ( x) x x x Ακρότατα διανυσµ. συνάρτ. f ( x) x = κρίσιµο σηµείο Αν f ( x) x x Εσσιανός πίνακας της πραγµ.συνάρτησης διανυσµ.µεταβλητής (Hessa matrx) προφανώς x Ax = A x x 4 αρνητ. ορισµ. πίνακας σχετικό µέγιστο θετ. ορισµ. πίνακας σχετικό ελάχιστο Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 7
5 Κανονικές εξισώσεις-εκτίµηση παραµ. Από τη σχέση () το κρίσιµο σηµείο ικανοποιεί την ( X Xβ X ) = Αν X Χ, τότε ( ) ˆ β = X X X Είναι ΣΧΕΤΙΚΟ ΕΛΑΧΙΣΤΟ ιότι ο εσσιανός πίνακας είναι ο Χ Χ που είναι θετικά ορισµένος (θ.ο.), διότι: γ δηλαδή X Xβ = X κανονικές εξισώσεις Αν X Χ =, τότε ( ) ˆ β = X X X γενικευµένος αντίστροφος ισχύει γ ( X X) γ = ( γ X )( Xγ ) = ( Xγ ) ( Xγ ) > άθροισµα τετραγώνων Είναι και ΟΛΙΚΟ ΕΛΑΧΙΣΤΟ 6 Sε ( β ) = ( X β ) ( X β ) = = + + = ( ˆ ( ˆ ) Xβ X β β ) ( X ˆ β X ( ˆ β β ) ) ( ˆ X ) ( X ˆ) ( ˆ β β β β) X X( ˆ β β) ( ˆ β β) X ( X ˆ β) ( X ˆ β) X( ˆ β β) = + + + + S ˆ ε ( β ) S ( ˆ ε ) β ( ˆ β β) X X( ˆ β β) = X( β β) X όµοια ( β β) X ( Xβ) ( β β) ( X X Xβ) ˆ ˆ = ˆ ˆ = καν. εξισώσεις ( ) ( β β) = ˆ ˆ > Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 8
Μοντέλο πρόβλεψης πίνακας «χατ» Το µοντέλο ˆ ˆ X ˆ X ˆ X ˆ = β+ β... + β + + β k k 7 γράφεται ή Ŷ = Xβˆ ˆ = X( X X) X H = X X X X Ο πίνακας ( ) Ŷ= H λειτουργεί ως τελεστής µετατροπής του διανύσµατος σε Για το λόγο αυτό λέγεται πίνακας χατ. H = X X X X X X X X = X X X X = H Ισχύει: ( ) ( ) ( ) µοναδιαίος ˆ Ο Η είναι ΤΑΥΤΟ ΥΝΑΜΟΣ Ιδιότητες εκτιµητού παραµέτρων 8. Eβˆ = β ( ) ( ) ( ) β ε ( ) ( X X) X Xβ β E ˆ β = E X X X = X X X E = = X X X E( X + ) = X X X ( Xβ + Eε) = = =. V ( ˆ β ) = σ ( X X) V ( ˆ β ) E( ˆ β E ˆ β)( ˆ β E ˆ β) E( ˆ β β)( ˆ β β) ( X X) ( X X) ( X X) ( X X) ( X X) X ˆ β β= X β= = X ( Xβ+ ε) β= = X Xβ+ + X ε β= = ε = = = = = E( X X) X ε ( X X) X ε E( X X) X εε X( X X) ( X X) X E( εε ) X( X X) ( X X) X σ I X( X X) σ ( X X) X X( X X) σ ( X X) = = = = = = = = Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 9
ιασπορά εκτιµήσεων παραµέτρων 9 ΘΕΤΟΥΜΕ c c c c c c c c C X X c c c c c c c c ΤΟΤΕ k k = ( ) = k ˆ β k k k kk Var ˆ = c = k ( β ) σ,,,..., ˆ ˆ ( β, β j ) σ j, Cov = c j k σ = Var( ˆ β ) = σ c, =,,..., k Εφαρµογή για k= (Παράδειγµα κεφ. ) α/α x y x y x y ε=y-.5.5.5.5.5.4.789.5..5..5.4.5789 3.5.5.65.65.65.3674 -.74 4.5.35.65.5.875.3674 -.74 5.5.75.5.565.375.7635 -.35 6.5.85.5.75.45.7635.8648 7.5.95.5.95.4759.7635.8648 8.5.4.565.64.775.96587 -.54587 9.5.75.565 3.65.875.96587 -.587.5.8.565 3.34.75.96587 -.4587.5.95.565 3.85.4375.96587 -.587.5.45.565 6.5 3.65.96587.4843 3. 3.5 4.4 9.35 6.45 3.3854 -.7854 4. 3.9 4.4.76 6.699 3.3854 -.3854 5. 3.5 4.4.565 6.85 3.3854 -.7854 6. 3.43 4.4.7649 7.3 3.3854.46 7. 3.5 4.4.5 7.35 3.3854.746 8. 3.93 4.4 5.4449 8.53 3.3854.646 9.5 3.75 6.5 4.65 9.375 3.96979 -.979.5 3.93 6.5 5.4449 9.85 3.96979 -.398.5 3.99 6.5 5.9 9.975 3.96979..5 4.7 6.5 6.5649.75 3.96979. 3.95 48.78 6.55 5.746 95.55 48.78 -. ŷ ŷ Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση
Υπολογισµοί (Χ Χ) - και Χ Υ Είναι = X β+ ε y x ε y = x β α ε X= β = = όπου: y β β ε = x ε x x x 3.95 X X = = x x = = 3.95 6.55 x x x = = y y y 48.78 X ( X X) = = = = x x 95.55 y x y = = =.645973 -.8468953 -.8468953.69934 Το µοντέλο πρόβλεψης ˆ ˆ α β = ( ) ˆ= X X X = β.645973 -.8468953 48.78.38447 = = -.8468953.69934 95.55.6333 Μοντέλο Πρόβλεψης ˆ =.38447+.6333 X Var( ˆ α) = σ c =.645973 σ Var( ˆ β) = σ c =.69934 σ Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση
Η γενική περίπτωση µε k= 3 x - x x - x = = = = ( x x ) S xx - x - x ( X X) x = x x = X X ˆ y = x y = X ˆ α y x x x y β = ˆ= ( X X) X = β S xx S xy Επαλήθευση µε γνωστούς τύπους 4 ˆ β = S S xy xx y x x x y ˆ α = = y ˆ β x S xx ( ) y x x x y = y x x + x y x x y = = y S x S xx x = Sxx+ x x c = + Sxx Sxx Sxx Var( ˆ α ) = σ = σ = σ σ ˆ σ Var( β ) = σ c = σ = S S xx xy xx Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση
Παρεµβολή -Πρόβλεψη 5 ( ) yˆ = ˆ β+ ˆ β ˆ ˆ ˆ x + β x +... + βk xk =, x,, xk β x Το δοσµένο Η πρόβλεψη x = σηµείο ŷ = x ˆ β στο σηµείο x αυτό k Για το παράδειγµα: Παρεµβολή στο x =. Πρόβλεψη στο x =3. ( ) ˆ.38447 yˆ =, β = (, ).6333 = 3.68 Όµοια ( ) yˆ ˆ =, 3 β = = 4.77355 Ιδιότητες της πρόβλεψης. E( yˆ ) = E( y ) E yˆ = E( x ˆ β) = x E( ˆ β) = x β = E y ( ) ( ) διότι y = β+ β x +... + βk xk + ε 6 Var( y ) = σ x ( X X ) x. ˆ ( ) ( ˆ β β) ( ˆ β β)( ˆ β β) ( ˆ β β)( ˆ β β) Var( yˆ ) = E yˆ E yˆ = E x x = = E x x x x = E x x= x E ( ˆ β β)( ˆ = β β) x ˆ = x V ( β ) x Var( yˆ ) = σ x ( X X ) x Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 3
Η διασπορά στη γενική περίπτωση x - x Var( yˆ ) = σ (, x) - x= Sxx x σ - x x x x ( x - x x, - x x) + = + S x= σ = xx Sxx ( x x) + ( x x) ( x x) = σ = + σ Sxx Sxx Για το παράδειγµα και για x = Var yˆ.645973 -.8468953 = σ ( ) 934 = =.6663 7σ Όµοια για x =3 Var( yˆ ) =.9854σ ( ), -.8468953.69 7 Σφάλµα µετά την προσαρµογή 8 ˆ ε y ˆ y ˆ ˆ ˆ ε y y ε = ˆ... =... = ˆ ε ˆ y y SSE= ˆ ε ˆ ε = ( X ˆ β ) ( X ˆ β ) = ˆ β X X ˆ β ˆ = + β X X ˆ β X ˆ β = ( X ˆ = β) = = ˆ β X SSE = -βˆ X ˆ β X X ˆ β = ˆ β ( = ˆ β X = X X X X ) X = Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 4
Το σφάλµα SSE ως τετραγωνική µορφή ˆ β ( ) X = X X X X SSE= ˆ β X = X ( X X ) X A= I X ( X X ) X SSE = A ή A= I H ΩΣΤΕ: SSE είναι Τετραγωνική Μορφή µε πίνακα Α διότι Α είναι συµµετρικός πίνακας. ΕΡΩΤΗΜΑ: Η SSE είναι Τυχαία Μεταβλητή (Πολυδιάστατη). (αφού είναι τ.µ. ). Με τι κατανοµή ; 9 πίνακας χατ Τετραγωνικές µορφές 3 (I) (IΙ) Αν τυχαίο διάνυσµα µε E( ) = µ και V ( ) =σ I E( A ) = µ Aµ + σ Tr( A) τυχαία πολυ-κανονική µεταβλητή Ν(, I ) µσ A χ σ m µή κεντρική µε λ = µ Aµ σ X Νµ σ τότε ο συντελεστής µη-κεντρικ. λ, της (, ) Z= X + X + + X χ... m m είναι (IΙΙ) τυχαία πολυ-κανονική µεταβλητή µε Αν είναι A και B λ= µ... + + µ m Ν(, I ) µ A B= ανεξάρτητες, τότε Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 5
Μη-κεντρική χ κατανοµή 3 α. χ 5 κατανοµή µε 5 β.ε. β. χ 5 κατανοµή µη-κεντρική µε 5 β.ε. και λ=6.875 α. πυκνότητα τ.δείγµατος Χ =Χ /σ +...+Χ 5 /σ Χ ~N(,σ ), σ =,, 5, 4, β. πυκνότητα τ.δείγµατος Χ =Χ /σ +...+Χ 5 /σ Χ ~N(µ,σ ), σ =,, 5, 4, µ =,,.5,.5,.5 λ=6.875..5..5..5..5 5 5 5...4..4.8 5 3 3 Θεώρηµα Cochra 3 Ν(, I ) µσ και Α, =,,,k = A + A +... + Ak (IV) συµµετρικοί πίνακες βαθµού k και ΤΟΤΕ ΟΙ ΠΑΡΑΚΑΤΩ ΣΥΝΘΗΚΕΣ ΕΙΝΑΙ ΙΣΟ ΥΝΑΜΕΣ + + + k = A είναι ταυτοδύναµοι για όλα τα (A =A ) A A j = για όλα τα j µε A για όλα τα χ λ = µ A µ A και A ανεξάρτητες για όλα τα j j Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 6
Τυπικό Σφάλµα 33 ΕΙ ΑΜΕ ΟΤΙ SSE A µε A= I H = Είναι Άρα = X β + ε E( ) = X β και E( ε ) = V ( ε) = σ I V ( ) =σ I µε και ηλαδή ικανοποιούνται οι προϋποθέσεις της ιδιότητας (Ι) E( SSE) = E( A ) = ( Xβ ) A( Xβ ) + σ Tr( A) β X ( I H ) Xβ = ( ) β X Xβ β X Tr( I ) Tr X ( X X ) X = HXβ = = β X Xβ β X Xβ Tr( ( X X ) X X) = = Tr Ik+ ) = k Tr A = Tr( I X ( X X ) X ) = ( ) = = = = ( Εκτίµηση διασποράς σφαλµάτων 34 Ώστε: E( SSE) = σ ( k ) ή σ SSE = E k s ΤΟΤΕ Αµερόληπτος εκτιµητής της διασποράς σφαλµάτων = SSE SSE s= τυπικό k k Var ˆ = s c = k ( β ),,,..., s( ˆ β ) = Var( ˆ β ) = s c, =,,..., k Var y ( ˆ ) = s x Cx σφάλµα όπου C= ( X X ) = c ck = ck ckk Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 7
Εφαρµογή στο παράδειγµα 35 Βρίσκουµε: ˆ.38447 48.78 SSE= β X = 5.746 =.3946.6333 95.55 Από τον πίνακα = άθροισµα τετραγώνων των y SSE ε = ε + ε +... + ε =.3943 SSE.3946 s = = =.6973 άρα s=.4738 Οι διασπορές των ˆ, α ˆ β Οι διασπορές των προβλέψεων Var( ˆ α) =.64597 s =. Var yˆ ˆ Var( β ) =.6993 s =.37 Var y ( ) =.66637 s =.4 ( ˆ ) =.9854 s =. 36 Παράδειγµα (η άσκηση.α του βιβλίου) Χ Χ Χ Χ Υ Χ Χ Υ Χ Χ Υ Υ ˆ ˆε ˆε 4 9 3 8 5 7 6 66 8-8 - 6-6 - 4 - -4-6 8 5 3-4 -3 5 33 8 8-7 - 8-48 - 8-4 -4-346 6 8 9 64 5 4 49 36 56 64 4 64 36 36 44 6 4 6 484 6 3 9 5 4-4 - 3 85 48 6-8 3-8 48 4 6-4 36 64 5 9 4 6 9 5 89 8 5-3 5 4 8 4 33-3 - -3 - -4-4 -8 4 9 4 4 6 4 6 68 Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 8
Υπολογισµοί = X β+ ε Το Μοντέλο όπου: y x, x, y = x, x β ε, X = β β = ε y ε = β x, x ε, x, x, x, x, X X = x, x, x, = x, x, x, x, x, x, x, = x, x, x, ( συµ.) x, 37 Το διάνυσµα παραµέτρων 66 X X = 66 56 346 346 484 ( ).8495.69.8 38 4.375.8495.486 X X =.486.8.4 y y y X = x, x, x, = x, y x x x x y 33 X 85 = 4,,, y, ˆ β = =.996.544 3.9978 ( X X) X Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 9
Το µοντέλο πρόβλεψης 39 προσεγγιστικά yˆ = 4 X.5 X 3.9978 33 ˆ SSE= β X = 89.996 85 = 69.544 4 Με την εκτίµηση των παραµέτρων απευθείας SSE 69 s = 8.65 k = = SSE ε = = s=.937 68 Παράδειγµα (Συστολ. πίεση αίµατος) 4 Σε 3 άτοµα µετρήθηκε συστολική πίεση του αίµατός τους (y), το βάρος τους (x ) σε kgr και η ηλικία τους (x ). Να βρεθεί γραµµικό µοντέλο που να εκφράζει τη συστολική πίεση συναρτήσει του βάρους και της ηλικίας. Να εκτιµηθεί η συστολική πίεση ατόµου 45 ετών που ζυγίζει 7 κιλά. Να βρεθεί η διασπορά των εκτιµήσεων των συντελεστών του µοντέλου και της πρόβλεψης. Οι µετρήσεις x x y ŷ ε 76. 9.5 85.5 8.5 79. 8.5 74.5 79. 85. 75.5 8. 95. 9.5 5 3 3 5 6 5 4 55 3 4 4 4 6 7 9 3 5 3 3 3 55 47 9.854 4.49 7.567 5.355 7.86 9.547.873 6.36 34.99 3.56 8.58 56.53 4.645.46.59-3.567.645 -.86 -.547.7 -.36 -.99 -.56 3.47 -.53 4.355 Σ x= 79.5 Σ x = 959.75 Σ x= 55 Σ x = 95 Σ y= 694 Σ y = 8 Σ x y= 446.5Σ x y= 6535 Σ x x = 467.5 3. 79.5 55. X X = 79.5 959.75 467.5 55. 467.5 95. Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση
Το µοντέλο πρόβλεψης 4 35.4895683.36655.37697 X X =.37697.547667.85334 ( ).36655.377567.547667 694. X 446.5 = 6535. 65.99678 65. ˆ β= ( X X ) X.549.54 =.45434.45 ΑΡΑ ΜΟΝΤΕΛΟ ΠΡΟΒΛΕΨΗΣ (προσεγγιστικά) yˆ = 65.+.54 x +.45 x Τα σφάλµατα µετά την προσαρµογή 4 SSE = ˆ β X = 6.936 (Αν χρησιµοποιήσουµε την προσέγγιση βρίσκουµε SSE=9.8 ενώ πραγµατικό SSE= ε =6.945) SSE 6.93 s = = = 6.93 3 ιαγώνιος ( X X ) = ( 35.489568,.3776,.85) Άρα Var( ˆ β ) = 3.335 s( ˆ β ) = 4.944 Var( ˆ β ) =.38 s( ˆ β ) =.54 και s = 6.93 =.59 Var( ˆ β ) =.54 s( ˆ β ) =.73 Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση
Πρόβλεψη 43 x = 7, x = 45 Αν τότε: ( ) x =, 7, 45 65.99678 yˆ ˆ = x β = (, 7, 45).549.45434 Var ( yˆ ) = s x ( X X) x = y ˆ = 9.465 ( ) 45 X X.59 = 6.93, 7, 45 ( ) 7 = s =.584 yˆ Το άθροισµα τετραγώνων SST 44 Συνολικό Άθροισµα τετραγώνων ( ) ( ) SST = y y = y y = Επειδή = = = = = J ( ) ( ) Οπότε: ( ) SST = J όπου J = ή = ( ) SST I J Τετραγωνική µορφή Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση
Το άθροισµα τετραγώνων SSR 45 Η σχέση SSE= ˆ β X SSE= ( X ( X X ) X δίνει ή SSE= H Συνδυάζοντας: SSR Το µέρος της συνολικής διασποράς που εξηγείται (ερµηνεύεται) από την παλινδρόµηση = SST + ( J ) = SSE+ H SST = SSE+ ( H J ) SST = SSE+ SSR Κατανοµή των Αθροισµάτων SSR, SSE, SST 46 SST = A SSR = A SSE= A3 ΟΠΟΤΕ: A= A = H J = X( X X) X J 3 J ( ) A = I H= I X X X X = A + A + A 3 ΕΡΩΤΗΜΑ: Ισχύουν οι προϋποθέσεις του Θεωρήµατος Cochra; (α) Οι πίνακες Α, Α, Α 3 είναι συµµετρικοί. Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 3
Οι πίνακες Α, Α, Α 3 είναι ταυτοδύναµοι 47 A = J J = J J = J = J = A ( )( ) A διότι = H J H J = HJ ( HJ ) = H HJ = = JH + J Xγ = X Xγ = X Xγ λύνεται, διότι = γ = ( X X) X HJ = X( X X) X J= X( ( X X) X ) = Xγ = = J A = H J + J = A Η εξίσωση: ( )( ) A = I H I H = I H H+ H = A 3 3 Οι βαθµοί των πινάκων Α, Α, Α 3 48 ( ) ( ) ( ) Tr A = Tr J = Tr J = = rak( A ) = Tr( A ) = Tr( H )- Tr( J ) = ( k+ )- = k = Tr( A ) = Tr( I ) Tr( H ) = ( k+ ) = 3 3 rak( A ) rak( A3 ) όπου χρησιµοποιήθηκε Tr AB = Tr( H) = Tr( X( X X ) X ) = = Tr( X X( X X ) ) = Tr( Ik+ ) = k+ και ισχύει (β) + + 3 = = = ( ) Tr( BA) 3 Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 4
Ισχύει το θεώρηµα Cochra 49 (γ) Ισχύουν οι προϋποθέσεις κανονικότητας Από ΑΡΑ ΕΧΟΥΜΕ ε N(, σ I ) = Xβ+ ε έπεται N Xβ σ I (, ) SSR χ σ k λ = µ A µ = β X ( I J) Xβ SSE χ λ µ σ k µε = A 3µ = = = SST χ σ λ µ ( I A ) µ β X ( I J ) Xβ Ο πίνακας ANOVA 5 όπου Πηγή Αθρoίσµατα Τετραγώνων β.ε. Παλινδρόµηση SSR k Υπόλοιπα (Σφάλµατα) SSE -k- Σύνολο SST - ( ) ( ) SST = SSR= ˆ β X SSE= ˆ β X ή αλγεβρικά Μέσα Τετράγωνα Λόγος F SSR MSR= k MSE= SSE - k - = = = MSR F = MSE ( ) ( ˆ ) ( ˆ ) SST = y y SSR= y y SSE= y y Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 5
ιορθωτικός Παράγοντας 5 y = β + ε Αν k=, ΜΟΝΤΕΛΟ =,,, ( ) ( ) ˆ y Τότε: β = = (αφού ) ( ) ( ) ( ) X = SSR = β ˆ X = y = y y = Άρα SST=SSE Ώστε: SSR στο ΠΛΗΡΕΣ µοντέλο οφείλεται στους άλλους συντ/στές ο δεύτερος όρος στον τύπο β, β,..., β ( ) ˆ SSR= β X λέγεται διορθωτικός παράγοντας 5 Εφαρµογή στο παράδειγµα της συστ. πίεσης β ˆ ΧΥ= 65. y =Υ = 694 694 SST = ( ) = 8 = 486.789 3 SSR= β ˆ ΧΥ ( ) = 65. 694 = 43.838 3 SSE= SST SSR= 486.789 43.838= 6.95 Πηγή ΠΙΝΑΚΑΣ ΑΝΑΛΥΣΗΣ ΙΑΣΠΟΡΑΣ Αθρoίσµατα Τετραγώνων β.ε. Μέσα Τετράγωνα Λόγος F Παλινδρόµηση 43.838 7.95 3.9*** Υπόλοιπα (σφάλµ.) 6.95 6.95=s Σύνολο 486.789 Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 6
Το συµπέρασµα 53 Η : β =β = Η : β β...4.6.8. Σε στάθµη σηµ. α Αν F>F k,-k-;α ΑΠΟΡΡΙΠΤΕΤΑΙ Αν F<F k,-k-;α ΕΝ ΑΠΟΡΡΙΠΤΕΤΑΙ Εδώ F>4., άρα η H ΑΠΟΡΡΙΠΤΕΤΑΙ F=3.9 F, F,; α.9, αν α =. 4., αν α =.5 = 5.46, αν α =.5 7.56, αν α =. 9.43, αν α =.5 3 4.8 5 6 8.5 Συντελεστής Προσδιορισµού SST SSR SSE 54 R SSR SSE = = SST SST Σχέση των F και R R εκφράζει το ποσοστό της συνολικής διασποράς που ερµηνεύει το µοντέλο SSR / k... k F= = = R SSΕ /( k ) k R kf /( k ) R = + kf /( k ) Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 7
ιορθωµένος συντελεστής προσδιορισµού 55 SSE /( k ) s R = = SST /( ) Var διορθωµένος συντελεστής προσδιορισµού Σχέση των R και R ( k )( R ) = ( )( R ) Για το παράδειγµα της πίεσης 43.838 R = =.958 486.789 6.95/ R = =.949 486.789 / Το µοντέλο ερµηνεύει το 95.8% της συνολικής διασποράς Έλεγχοι Υποθέσεων 56 ΘΕΩΡΗΜΑ (Gauß-Markov) Αν θ =λβ όπου λ = (λ είναι,λ,...,λ k ) γραµµικός συνδυασµός των συντελεστών παλινδρόµησης, τότε η καλύτερη γραµµική εκτίµηση του θ (που είναι µοναδική) είναι η ˆθ =λβ ˆ Απαραίτητη προϋπόθεση (για να εκτιµάται το θ) είναι ΝΑ ΕΧΕΙ ΛΥΣΗ Η ΕΞΙΣΩΣΗ X c =λ Αυτό συµβαίνει µε βεβαιότητα αν ο Χ Χ είναι αντιστρέψιµος Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 8
Θεώρηµα 57 Αν N( Xβ, σ I) ˆθ -θ ΤΟΤΕ - s λ (X X) λ ΑΠΟ ΕΙΞΗ και t k θ =λβ ˆθ =λβ ˆ όπου SSE s = - k - ˆ Η τ.µ. ˆθ =λ β = λ ( X X ) X έχει κατανοµή N(µ θˆ, σ θˆ ) ˆ µ =Ε(θ) =λ ( X X ) X Ε ( ) = λ ( X X ) X Χβ ˆθ = λ β = θ σ = Var(θ) ˆ = E(θˆ -θ) = Ε ˆθ ( λ ( βˆ -β)( βˆ -β) λ) = ˆ - = λ V( β) λ =σ λ ( ΧΧ ) λ Ισχύουν 58 ˆθ -θ Z= Ν(,) - σ λ (X X) λ άρα από γνωστό θεώρηµα της Θ.Πιθ. αν Z, W είναι ανεξάρτητες ˆθ -θ και SSE ανεξάρτητες ˆθ και SSE ανεξάρτητες W = σ SSE Z W /( k ) χ -k- t k και οι δύο τ.µ. είναι τετραγωνικές µορφές της ˆ Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 9
ανεξαρτησία των δύο τετραγ. µορφών 59 SSE= ( I H ) = A ˆ ˆ ˆ ˆ ˆ ( ˆ θ = θθ= λ β λ β = λ β) λ β ˆ =βˆ λλ β ˆ = = X ( X X ) λλ ( X X ) X = B AB= I X X X X X X X X X X = ˆθ -θ - Z σ λ (X X) λ θˆ -θ = = t - k W SSE s λ (X X) λ k k ( ( ) ) ( ) λλ ( ) σ ( ) Έλεγχος παραµέτρων 6 ΠΟΡΙΣΜΑ Αν N( Xβ, σ I) βˆ - β t s βˆ k ˆ s β ( ) Αρκεί λ = (+)-στή γραµµή οπότε λ β ˆ =β και τότε = s c όπου ( ) - λ (X X) λ = c Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 3
Έλεγχος µέσης πρόβλεψης 6 ΠΟΡΙΣΜΑ Αν N( Xβ, σ I) τότε ˆ -µ t - k s s x (X όπου ( yˆ ) = Var( yˆ ) = X) x = s x ( X X ) x Αρκεί λ = x θ = x β = Ey = µ διότι y = β + β x +... + β x + ε k k Έλεγχος ατοµικής πρόβλεψης 6 ΠΟΡΙΣΜΑ Αν N( Xβ, σ I) ˆ -µ t - k s + x (X s βˆ X) x διότι E( ˆ ) = τότε = s c όπου ( ) Var( ˆ ˆ ) = Var ( x (β - β)+var(ε)= - =σ (+ x (X X) x ) Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 3
Μονόπλευρο ή δίπλευρο t-τεστ 63 T= ΙΠΛΕΥΡΟ H :θ =θ H :θ θ -α t -k- s ˆθ -θ - λ (X X) λ ΜΟΝΟΠΛΕΥΡΟ H :θ =θ H :θ >θ -α t -k- α/ α/ -4 t - t 4 -k-;-α/ -k-;α/ -4-4 t -k-;α α Μονόπλευρο ή δίπλευρο F-τεστ 64 ΘΕΩΡΗΜΑ T t F= T F k, k F,-k- -α ΙΠΛΕΥΡΟ H H : β = : β F,-k- -α ΜΟΝΟΠΛΕΥΡΟ H H : β = : β > α F,-k-;α α F,-k-;α Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 3
Εφαρµογή µε το 3ο παράδειγµα 65 βˆ ˆ ˆ β β yˆ = 65. +.54 X +.45 X SSR=43.838 SSE=6.936 (4.944) (.54) (.73) s( βˆ ) s( βˆ ) s( βˆ ) 3 ˆ = (, 7, 45 ), ˆ= 9.5, ( ˆ ) =.59, =.584 s + Var( ˆ ) = 6.95+.59= 8.84.8, ανα=.5 * ˆ.769, ανα=. s ˆ = s + Var( ) =.967 t; α =.8, ανα=.5 3.69, ανα=.5 4.587, ανα=.5 x Var s ˆ Έλεγχοι συντελεστών 66 H H : β = : β.54 T= = 3.975.54 Η ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=., διότι t ;α/ =4.587<3.97 H : β = H : β > H H.45 T= = 5.8.73 Η ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=.5, διότι t ;α =4.587<5.8 : β= 5 : β 5 65. ( 5) T= =. 4.94 Η ΕΝ ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=., διότι t ;α/ =.8>. Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 33
Έλεγχοι πρόβλεψης Για τη µέση πρόβλεψη 67 H H H H : E = 5 : E 5 Η ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=., διότι t ;α/ =3.69<3.7 Για την ατοµική πρόβλεψη : = 5 : 5 9.5 5 T= = 3.7.584 9.5 5 T= =.98.967 Η ΕΝ ΑΠΟΡΡΙΠΤΕΤΑΙ σε α=.5, διότι t ;α/ =.8>.98 95% ιαστήµατα εµπιστοσύνης 68 β βˆ ± t s( βˆ ) ;.5 ή (-98.396, -3.83) β β ΕΥ Υ βˆ ± t s( βˆ ) ;.5 βˆ ± t s( βˆ ) ;.5 ( ˆ) ˆ ± t Var ;.5 ( ˆ) ˆ ± t s + Var ;.5 ή ή ή ή (.8,.498) (.6,.588) (5.6,.679) (.539, 5.76) Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 34
Έλεγχος της διασποράς 69 H H : σ = 5 : σ 5 σ X SSE SSE = = =.59 σ 5 Γ ια α=.5, χ = 3.5, και χ =.5 3.5< SSE <.5 σ SSE SSE < σ <.5 3.5 3.< σ < 9.36 ;.975 ;.5.5.9 χ χ ;.5 ;.975 χ.5 5 (3., 9.36) ΕΝ ΑΠΟΡΡΙΠΤΕΤΑΙ η Η Θέµατα () 7 Στον παρακάτω πίνακα δίνονται στοιχεία από οικογένειες. Στη στήλη y δίνεται η επιφάνεια τηςκατοικίαςτηςοικογένειας (σετετρ.µέτρα),στηστήλη x τοετήσιοεισόδηµα (σεχιλιάδες ευρώ),στηστήλη x τoπλήθοςτωνµε λώντηςκαιστηστήλη x 3 τoσυνολικόπλήθοςετών µετά το λύκειο που σπούδασαν τα µέλη της οικογένειας που συνεισφέρουν στο εισόδηµα. y x x x 3 y x x x 3 8 4 6 5 4 9 6 8 7 6 56 6 8 3 3 45 3 7 8 9 34 3 8 4 37 4 9 5 6 5 5 8 4 4 3 6 α) Χρησιµοποιώντας πίνακες να βρεθεί η ευθεία που εκτιµά την επιφάνεια της κατοικίας από το εισόδηµα. (Οι φοιτητές που το ΑΕΜ τους είναι περιττός αριθµός να χρησιµοποιήσουν τα δεδοµένα από τις πρώτες 5 οικογένειες, ενώ αυτοί που έχουν άρτιο τα υπόλοιπα). Να σηµειωθούν όλοι οι πίνακες που θα χρησιµοποιήσετε και να φαίνονται οι πράξεις µε τα ενδιάµεσα αποτελέσµατα. Να γίνει και γραφική παράσταση, όπου να εξηγήσετε τι ελαχιστοποιεί η µέθοδος υπολογισµού του µοντέλου παλινδρόµησης. β) Κάντε τον πίνακα ανάλυσης της διασποράς και διατυπώστε τα συµπεράσµατά σας. γ)βρέστετο 95%δ.ε.γιατοσυντελεστήτου x στοµοντέλο. Προσαρµόστε το πλήρες µοντέλο και δώστε τα συµπεράσµατά σας. Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 35
Θέµατα () 7 Στο διπλανό πίνακα δίνονται οι ώρες που έτρεξε µία δροµέας σε κάθε µία από 8 διαδοχικές εβδοµάδες και ο µέσος χρόνος (σε λεπτά) που έκανε η δροµέας για κάθε µίλι εκείνη την εβδοµάδα. Να βρεθεί µε χρήση πινάκων α) Αν ο χρόνος ανά µίλι σε µία εβδοµάδα προπόνησης, µπορεί να προβλεφθεί από τις ώρες προπόνησης την εβδοµάδα αυτή; Ποια η πρόβλεψη για µία εβδοµάδα που έτρεξε 4 ώρες και ποια αν έτρεξε ώρες; β) Με ποια τυπική απόκλιση εκτιµώνται οι διάφοροι παράµετροι και µία από τις προβλέψεις; hours tme 3 5. 5 5. 8 4.9 4.6 9 4.7 7 4.8 4.6 6 4.9 Θέµατα (3) 7 Σε ένα πείραµα για να µελετηθεί η οξείδωση ενός µετάλλου έγιναν παρατηρήσεις όπου µετρήθηκαν (σεκατάλληλεςµονάδες)τορεύµατουαέρα (x ),ηθερµοκρασίατουνερού (x ), η ποσοστιαία συγκέντρωση του οξέως (x 3 ) και το βάρος που έχασε το µέταλλο εξαιτίας της σκουριάς (y). Το µέταλλο βυθιζότανσεοξύπουεψύχετο µενερόκαι µετά εκτίθονταν σε ρεύµα αέρος. Τα αποτελέσµατα δίνονται στον πίνακα. Επίσης, σε κάθε κελί του δεύτερου πίνακα δίνεται το άθροισµα γινοµένων των µεταβλητών που το καθορίζουν. Π.χ.στοκελίπουορίζεταιαπότις x, x 3 είναι 38357= x., x = 3 α) Υπολογίστε, χρησιµοποιώντας πίνακες, τους συντελεστές παλινδρόµησης του µοντέλου y= β+ βx+ ε. β) Σχηµατίστε τον πίνακα ανάλυσης της διασποράς και διατυπώστε τα συµπεράσµατά σας. γ) ώστε την πρόβλεψη για θερµοκρασία. είξτε ότι η τυπική απόκλιση της πρόβλεψης είναι. και βρέστε το 95% διάστηµα εµπιστοσύνης για την ίδια την πρόβλεψη. δ)μετάκάναµεπαλινδρόµησηµετηµεταβλητή x καιβρήκαµε SSR=75., µετις µεταβλητές x και x και βρήκαµε SSR=88.44, καθώς και παλινδρόµηση µε όλες τις µεταβλητές και βρήκαµε SSR=89.48. Συγκρίνετε µεταξύ τους τα τέσσερα µοντέλα (µαζίµεαυτότου (α)).γιατοκαλύτεροαπόαυτάυπολογίστεπόσοµέροςτηςσυνολικής διασποράς ερµηνεύει. (Αν δεν έχετε βρει το SST, χρησιµοποιείστε την προσέγγιση SST=) ε) Για τη µεταβλητή x παρατηρήστε ότι υπάρχουν επαναλαµβανόµενες παρατηρήσεις. Αγνοώντας τις άλλες µεταβλητές σχηµατίστε τον πίνακα ανάλυσης διασποράς και συµπληρώστε τον µε τα καθαρά σφάλµατα. Τι συµπεραίνετε για το µοντέλο µε τη µεταβλητή x ; x x x 3 y x 78365 73 9988 3953 x 73 9545 38357 836 x 3 9988 38357 5694 389 y 3953 836 389 858 α/α x x x 3 y 8 7 89 4 8 7 88 37 3 75 5 9 37 4 6 4 87 8 5 6 87 8 6 6 3 87 8 7 6 4 93 9 8 6 4 93 9 58 3 87 5 58 8 8 4 58 8 89 4 58 7 88 3 3 58 8 8 4 58 9 93 5 5 8 89 8 6 5 8 86 7 7 5 9 7 8 8 5 9 79 8 9 5 8 9 56 8 5 7 9 5 Σύν 69 443 8 368 Εφαρµοσµ. Ανάλ. Παλινδρ.& ιασποράς- Πολλαπλή Παλινδρόµηση 36