ΕΦΑΡΜΟΣΜΕΝΗ ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ (ΝΠΣ) & ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ (ΠΠΣ) (6o Εξάμηνο Μαθηματικών) Ιανουάριος 008 Επώνυμο... Όνομα... A.E.M.... Εξάμηνο... Θέμα Θέμα Θέμα 3 Θέμα 4 Βαθμός ΝΠΣ /3 / / /7,0 ΠΠΣ /3 / / /3,5 /0,0 ΘΕΜΑ : Δίνονται τα δεδομένα του διπλανού πίνακα. α) Μετασχηματίστε πρώτα τα δεδομένα χρησιμοποιώντας τις σχέσεις x = z z και x = z z Κατόπιν, υπολογίστε με χρήση πινάκων το μοντέλο πρόβλεψης της y με προβλέπουσες τις x και x. Ποια είναι η πρόβλεψη για z =8.5 και z =7.5; Για τους υπολογισμούς παρατηρείστε ότι αν Α, Β τετραγωνικοί A 0 A 0 πίνακες, ισχύει: = B και χρησιμοποιείστε 0 0 B (υποχρεωτικά) τα αθροίσματα (όχι πράξεις απευθείας): x x = 3.64, x y = 3.66, x y = 9.55 και τις διασπορές s = 0.6, s = 0.446358 και s = 0.77563. z z β) Σχηματίστε τον πίνακα ανάλυσης της διασποράς και κάντε έλεγχο για το συνολικό μοντέλο, όπως και για κάθε μία από τις προβλέπουσες και διατυπώστε τα συμπεράσματά σας. Πως θα εργαζόσαστε στη συνέχεια; (Υπόδειξη: Αν δεν υπολογίσατε σωστά τα αθροίσματα που απαιτούνται, πάρτε ως SSR=.03 και SST=4.95 που διαφέρουν λίγο από τις πραγματικές τιμές) y ΘΕΜΑ : Η επιφάνεια (y σε τετρ. μέτρα) της κατοικίας μιας οικογένειας ενδέχεται να εκφράζεται γραμμικά με το ετήσιο εισόδημα (x σε χιλιάδες ευρώ), με τo πλήθος (x ) των μελών της και με τo συνολικό πλήθος ετών (x 3 ) μετά το λύκειο που σπούδασαν τα μέλη της οικογένειας που συνεισφέρουν στο εισόδημα. Έγιναν μετρήσεις σε 0 οικογένειες. Προκειμένου να βρεθεί το καλύτερο μοντέλο που προσαρμόζεται στα δεδομένα που προέκυψαν, έγιναν όλες οι δυνατές παλινδρομήσεις και σχηματίστηκε ο επόμενος πίνακας. p Μοντέλο SSE p SSE p /s c p (-) 640 33.4 (x ) 60.365 (x ) 643.056 8.56 (x 3 ) 696.548 3.3 (x, x ) 350.54 (x, x 3 ) 546.995 8.06 (x, x ) 6.889 8.4 (x, x, x 3 ) 5.379 Συμπληρώστε τον πίνακα και προτείνατε το καλύτερο μοντέλο. α/α z z y 8.3 7.5 4.3 7.8 6.0 3. 3 8.5 7.3 4. 4 7.7 6.3.5 5 8.5 7.5 4.0 6 7.8 6.5.6 7 9. 7.7 4.9 8 7.9 6.6 3.4 9 9.3 7.8 3.6 0 8. 7.5 4.8 8.4 6.5 3.7 7.9 7.9 5.4 3 8. 7. 4.8 4 7.7 6.3.9 5 8.5 7. 4. 6 7.8 6.3 3.0 7 8.9 7.8 5. 8 8.3 7.5 4. 9 7.5 6.4 3. 0 7.7 8. 5.0 Σύνολο 64.0 4.0 79.0
ΘΕΜΑ 3: Η εξαρτημένη μεταβλητή y εξαρτάται από τις προβλέπουσες μεταβλητές x, x, x 3, x 4 και x 5. Κάναμε μία σειρά παλινδρομήσεις με τα παρακάτω αποτελέσματα. Ποιο είναι κατά τη γνώμη σας το καταλληλότερο μοντέλο που μπορείτε να προτείνετε από τα αποτελέσματα αυτά και γιατί; (να αποδείξετε τον ισχυρισμό σας) Προβλέπουσα μεταβλητή x Προβλέπουσα μεταβλητή x, x Regression 6070 6070.9.333773 Residuals 5 93930 9546.0 Προβλέπουσα μεταβλητή x Regression 707 707 9.9056 Residuals 5 9459 864 Προβλέπουσα μεταβλητή x3 Regression 590 590.0 0.996 Residuals 5 36744 6.8 Προβλέπουσα μεταβλητή x4 Regression 5453 5453. 3.089 Residuals 5 64748 76494.6 Προβλέπουσα μεταβλητή x5 Regression 3749 3749.0 0.0648767 Residuals 5 378883 95.5 Regression 55956 779763 6.6846 Residuals 4 63306 6650 Προβλέπουσα μεταβλητή x, x3 Regression 34859 6749.5 5.7 Residuals 4 844373 374 Προβλέπουσα μεταβλητή x, x4 Regression 83370 96635 9.4404 Residuals 4 35936 97097 Προβλέπουσα μεταβλητή x, x5 Regression 7043 635.5 4.65 Residuals 4 9389 3733 z ( a a ) ΘΕΜΑ 4: Ι) Υποθέτουμε ότι t t t μη μηδενικό μόνο για =. = +. Δείξτε ότι η { } z είναι στάσιμη και ότι για >0 το ρ είναι ΙΙ) Η εκτίμηση των παραμέτρων ενός εποχικού ARIMA μοντέλου με εποχικότητα έδωσε: Τιμή Τυπ.Αποκλ. Approx. Prob. AR 0.05 0.0034 0.40 MA 0.7 0.0684 0.04 SMA 0.73 0.056 0.03 α) Γράψτε την αναλυτική μορφή του μοντέλου. β) Εάν το στατιστικό Q έδωσε: 4 Q. 5.5 εξηγείστε πώς χρησιμοποιείται το παραπάνω στατιστικό και εάν μπορούμε βάσει της τιμής του να θεωρήσουμε ότι το μοντέλο είναι αποδεκτό; (α=0.05) t ΚΑΛΗ ΕΠΙΤΥΧΙΑ Διάρκεια Εξέτασης :30 ώρες
Λύσεις Εφαρμοσμένης Ανάλυσης Παλινδρόμησης και Διασποράς (Ιανουάριος 008) ΘΕΜΑ : α)το ζητούμενο μοντέλο θα είναι της μορφής Y = Xβ + ε, όπου οι στήλες του Χ είναι, x και x, με x =z -8. και x =z -7. δηλαδή με: x =(0.,-0.4,0.3,-0.5,0.3,-0.4,,-0.3,.,-0.,0.,-0.3,0,-0.5,0.3,-0.4,0.7,0.,-0.7,-0.5) και x =(0.4,-.,0.,-0.8,0.4,-0.6,0.6,-0.5,0.7,0.4,-0.6,0.8,0.,-0.8,0.,-0.8,0.7,0.4,-0.7,.). n x x Ο πίνακας Χ Χ έχει τη μορφή X X = x x xx. Από τη διασπορά s z = 0.6 και από τον x xx x ορισμό της x έχουμε s = 0.6. Επειδή δε x = 0, θα είναι x 0 xi = (0 ) sx = 9 0.446358 = 8.48. 0 x = (0 ) s = 9 0.6 = 4.94. Όμοια i x 0 0 0 0 0 0 Άρα, θα είναι: XX = 0 4.94 3.64 = 0 4.94 3.64 0 3.64 8.48 0 3.64 8.48 0 0 0 0.05 0 0 Άρα XX = 0 4.94 3.64 = 0 0.96078 0.70879 και 0 3.64 8.48 0 0.70879 0.74764 79 XY = 3.66 9.55 0.05 0 0 79 3.95 οπότε ˆ β = XX XY = 0 0.96078 0.70879 3.66 = 0.30063 0 0.70879 0.74764 9.55.8008 και το μοντέλο πρόβλεψης είναι Yˆ = 3.95 0.3 x+.8 xκαι αντικαθιστώντας τα x =z -8. και x =z -7. βρίσκουμε Yˆ = 6.638 0.3 z+.8 z. Θέτοντας z =8.5 και z =7.5, βρίσκουμε πρόβλεψη Y ˆ = 4.3838. 0 79 β) Είναι ˆ β XY = ( 3.95 0.30063.8008 ) 3.66 = 390.86 και 79 /0=389.05. Άρα 9.55 SSR=390.86-389.05=0.8. Από τη δοθείσα διασπορά για το Y έχουμε 0 0 yi sy = yi = SST = 0.77563 9. Άρα και SST=9 0.77563=4.73. 0 9 Έτσι, μπορούμε να σχηματίσουμε τον πίνακα Πηγή Αθροίσματα τετραγώνων β.ε. Μέσα τετράγωνα Λόγος F Παλινδρόμηση 0.8 5.406 3.5 Υπόλοιπα 3.98 7 0.3 Σύνολο 4.73 9 Επειδή F,5;0.0 =6.36 και F,0;0.0 =5.85, έπεται ότι η υπόθεση Η 0 : β =β =0, απορρίπτεται.
Για τον έλεγχο της υπόθεσης Η 0 : β =0, υπολογίζουμε το τυπικό σφάλμα β 0.3 s( β )= SSE/7 c = 0.3 0.96078 = 0.6. Τότε T = = = 0.5 που είναι < και άρα s( β) 0.6 ασήμαντο. Η υπόθεση Η 0 επομένως δεν μπορεί να απορριφθεί. β.8 Όμοια T = = = 5.94 που είναι σημαντικό αφού t 7;0.0 =.567. s( β ) 0.99 Άρα πρέπει να συνεχίσουμε διαγράφοντας την x από το μοντέλο. ΘΕΜΑ : Συμπληρώνουμε τον πίνακα P Μοντέλο SSE p SSE p /s c p (-) 640 33.4 5.40 (x ) 60.365.5 5.5 (x ) 643.056 8.56.56 (x 3 ) 696.548 3.3 6.30 (x, x ) 350.54 7.04 3.04 3 (x, x 3 ) 546.995 8.06 4.06 (x, x ) 6.889 8.4 4.40 4 (x, x, x 3 ) 5.379 6 4 Στην πρώτη στήλη το p ισούται με το πλήθος των μεταβλητών του μοντέλου αυξημένο κατά. Στην τελευταία στήλη το c p ισούται με SSE p /s -(n-p), όπου n=0 και s είναι η διασπορά σφαλμάτων στο πλήρες μοντέλο. Εδώ είναι s =5.379/(0-3-)=9.89. Η 4 η στήλη προκύπτει από την 3 η με διαίρεση με 9.89 Graph for the criterion Cp of Malows Cp of Malows 0 3 4 5 x x x,x3 x,x3 x,x x,x,x3 0 3 4 5 p Για εφαρμογή του κριτηρίου c p σχηματίζουμε το γράφημα (p, c p ) Από το γράφημα φαίνεται ότι το μοντέλο με την x μόνο είναι καλό και επομένως προτείνεται αυτό.
Θέμα 3. Από τα πέντε πρώτα μοντέλα βρίσκουμε ότι αυτό με το μεγαλύτερο SSR, δηλαδή με το μεγαλύτερο συντελεστή προσδιορισμού R, είναι το μοντέλο με την x το οποίο δίνει 707 707 R = = = 0.3978. 707 + 9459 3963 Από τα υπόλοιπα μοντέλα που σωστά συνδυάζουν την x με τις άλλες αυτό με το μεγαλύτερο R είναι το μοντέλο με τις x και x 4 που δίνει R = = 0.574. 83370 3963 Από τα δύο αυτά μοντέλα το πρώτο είναι περιορισμένο του δεύτερου και ισχύει ( SSR SSRΠ ) / 83370 707 563098 F = = = = 5.799 SSE /( n ) 35936/4 97097 Επειδή F,;0.05 =4.75, F,5;0.05 =4.54, άρα F,4;0.05 <5.79, και η μηδενική υπόθεση ότι τα μοντέλα δεν διαφέρουν απορρίπτεται. Άρα προτείνουμε το μοντέλο με τις x και x 4. Ez = ( Ea + Ea ) = 0 Var( z ) = ( Var( a ) + Var( a )) = σ 4 Θέμα 4. Ι) t t t t t t a γ = Cov( z, z ) = Cov( a + a, a + a ) = Cov( a + a ) + Cov( a + a ) + t t t t t t t t t t 4 4 4 Cov( a + a ) + Cov( a + a ) t t t t 4 4 γ ( σ + σ ) = σ = 0 a a a 4 0 =,,..., = σ = a 4 0 > και ρ = 0 = 0 =,,..., 0.5 = Θέμα 4 ΙΙ α)η παράμετρος AR είναι ασήμαντη, οπότε το μοντέλο είναι το ARIMA(0,0,)(0,0,) και η αναλυτική μορφή του είναι z = θb Θ B a = = a θa Θ a + θθ a θ = Θ= β) X Q r a ( )( )... t t t t t t ( 0.7, 0.73) = 3.94 < 3.94 ( ˆ ) = 0 0;0.05 t =,,... = 3.8 > 3.8 ( ˆ ) 0 ;0.05 t = 3,4,...,4 X Q r a