Άσκηση. Δίνονται οι παρακάτω παρατηρήσεις: X X X X Y 7 50 6 7 6 6 96 7 0 5 55 9 5 59 6 8 8 5 0 59 7 7 8 8 5 5 0 7 69 9 6 6 7 6 9 5 7 6 8 5 6 69 8 0 50 66 0 0 50 8 59 76 8 7 60 7 87 6 5 7 88 9 8 50 0 5 7 98 7 5 98 7 8 68 65 6 50 0 7 9 57 56 7 8 0 0 80 6 0 0 9 7 8 6 6 5 5 98 7 8 ) Να βρεθεί ο πίνακας συσχέτισης μεταξύ των X, X, X, X. Ποιά ζεύγη μεταβλητών παρουσιάζουν υψηλή συσχέτιση; ) i) Να εξεταστούν όλα τα δυνατά γραμμικά μοντέλα που περιέχουν τις X,X,X,X και την Y. Να βρεθεί το καλύτερο με βάση: a) το R, β) το R (adj), γ) το MSE p και δ) το C p. ii) Να βρεθεί το καλύτερο μοντέλο με βάση τις διαδικασίες Stepwise regression και Backward elimination και να περιγραφούν όλα τα ενδιάμεσα βήματα. ) Στο πλήρες μοντέλο: i) Εκτιμήστε τα β i, σ και υπολογίστε τους συντελεστές προσδιορισμού, R, R (adj). ii) Βρείτε 95% διάστημα εμπιστοσύνης για κάθε ένα από τα β i. Βρείτε από κοινού δ.ε. 95% για τα β, β, β, β με τη μέθοδο Bonferroni. iii) Να κάνετε τους ελέγχους Η 0 :β i =0 με H :β i 0, i=,,, και Η 0 : β = β = β = β = 0 με H :β 0 ή β 0 ή β 0 ή β 0 σε ε.σ. %. iv) Βρείτε 95% δ.ε. για τη μέση και ατομική πρόβλεψη του Υ όταν Χ = Χ = Χ = Χ = 0. v) Κάνετε τον έλεγχο Η 0 : β = β με Η 0 : β β σε ε.σ. α = 5%. Βρείτε δ.ε. 95% για το β +β.
Λύση. ) Χρησιμοποιώντας τη διαδικασία /Analyze/correlate/Bivariate προκύπτει ο πίνακας X X X X Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Correlations **. Correlation is significant at the 0.0 level (-tailed). X X X X,000,,886**,7,,5,000,7 0 0 0 0,,000,09,8**,5,,67,000 0 0 0 0,886**,09,000,5,000,67,,6 0 0 0 0,7,8**,5,000,7,000,6, 0 0 0 0 και άρα ο πίνακας συσχέτισης μεταξύ των X, X, X, X είναι X X X X X,000 X,,000 X,886,09,000 X,7,8,5,000 (Υπενθυμίζεται ότι ο πίνακας που προκύπτει από την διαδικασία Linear /Statistics: Coefficients, covariance Matrix είναι ο πίνακας συσχέτισης και συνδιασποράς μεταξύ των βˆ i και όχι μεταξύ των στηλών Χ i ). Παρατηρούμε ότι τα ζεύγη Χ,Χ και Χ,Χ παρουσιάζουν υψηλή συσχέτιση. Αυτό γίνεται εύκολα αντιληπτό και από το παρακάτω γράφημα (/Graphs/Scatter/Matrix). X X X X Επομένως (για λόγους που έχουμε αναπτύξει στην άσκ. 9) ίσως θα πρέπει στο μοντέλο να μείνει μόνο μία από τις Χ,Χ και μία από τις Χ,Χ. Σε αυτό το σημείο αξίζει να παρατηρήσουμε ότι δεν έχει νόημα να επικαλεστούμε τα p-value που δίνονται στον παραπάνω πίνακα διότι αυτά προκύπτουν υποθέτοντας ότι οι Χ i είναι τυχαίες παρατηρήσεις από κάποια κατανομή κάτι που δεν συμβαίνει στην προκειμένη περίπτωση (στο γραμμικό μοντέλο θεωρούνται ως ερμηνευτικές μεταβλητές, δηλαδή μη-τυχαίες). ) Εξετάζοντας όλα τα δυνατά μοντέλα λαμβάνουμε τον πίνακα.
p R R (Adj) MSE p C p X 0.059 0.06 586.87 80.08 X 0.509 0.9 88.98 9. X 0.5 0.08 9.7 7.86 X 0. 0. 99.99 6.8 X, X 0.680 0.656 559.88.09 X, X 0.9 0.065 5.8 7.9 X, X 0.56 0.50 765.78 5.6 X, X 0.758 0.70.89. X, X 0.50 0.95 8. 9.00 X, X 0.60 0.6 69.8 6.60 X, X, X 0.695 0.659 55.77. X, X, X 0.76 0.7.86.99 X, X, X 0.650 0.60 65.86 7.7 X, X, X 0.77 0.78 09.90. X, X, X, X 5 0.778 0.7 8.85 5.00 Οπότε, ) Σύμφωνα με το R καλύτερο θεωρείται το μοντέλο Χ, Χ («σταθεροποιεί» το R ) ) Σύμφωνα με το R (adj) καλύτερο θεωρείται το μοντέλο X, X, X (μεγαλύτερο R (adj)) ) Σύμφωνα με το MSE p καλύτερο θεωρείται το μοντέλο X, X, X (μικρότερο MSE p ) ) Σύμφωνα με το C p καλύτερο θεωρείται το μοντέλο X, X (μικρότερο C p με C p p). Υπενθυμίζεται ότι τα κριτήρια με βάση τα R (adj) και MSE p είναι ισοδύναμα διότι R (adj) = (n ) MSE p /SST. Τα παραπάνω γίνονται φανερά και από τα παρακάτω γραφήματα:,8,6,,,,,,,,,,,,,,,,8,6,,,,,,,,,,,,,,,,, R, 0,0,5,0,5,,0,5,0,5 R AD J, 0,0,5,0,5,,0,5,0,5 P P 600, 00,,,, 00 000 800 600,,,,,,,,,5,0 C p = p M SE 00 00,5,0,5,,0,5,,,,,0,5,,,5 CP,0,5,,0,5,,,0,5 P P
Σύμφωνα με παραπάνω παρατήρηση, επειδή η Χ παρουσιάζει υψηλή συσχέτιση με την Χ τελικά είναι προτιμότερο το μοντέλο X, X και όχι το X, X, X (η εξάρτηση της Υ από την Χ ίσως να είναι φαινομενική και να οφείλεται στο ότι η Υ εξαρτάται από την Χ ή οποία παρουσιάζει υψηλή συσχέτιση με την Χ). ii) Stepwise regression Variables Entered/Removed Variables Variables Method Entered Removed X, Stepwise (Criteria: Probability-of-F-to-enter <=,050, Probability-of-F-to-remove >=,00). X, Stepwise (Criteria: Probability-of-F-to-enter <=,050, Probability-of-F-to-remove >=,00). a Dependent Variable: Y Summary Adjusted Std. Error of R R Square R Square the Estimate,7 a,509,9 8,79,870 b,758,70 0,59 a. Predictors:, X b. Predictors:, X, X a. Predictors:, X b. Predictors:, X, X c. Dependent Variable: Y ANOVA c Sum of Squares df Mean Square F Sig. 09,76 09,76 8,987,000 a,8 8 88,98 7,00 9 5796, 7898,06,,000 b 78 7,89 7,00 9 X X X a. Dependent Variable: Y Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. 66,87,8,596,000 -,08,9 -,7-5,8,000 09,09,9 7,58,000 -,65, -,80-8,66,000,569,98,50 5,69,000
Το καλύτερο μοντέλο με βάση τη διαδικασία Stepwise regression είναι το Χ, Χ. Backward elimination Variables Entered/Removed Variables Variables Method Entered Removed X, X, X, X, Enter, X Backward (criterion: Probability of F-to-remove >=,00)., X Backward (criterion: Probability of F-to-remove >=,00). a All requested variables entered. b Dependent Variable: Y Summary Adjusted Std. Error of R R Square R Square the Estimate,88 a,778,7 0,7,880 b,77,78 0,5,870 c,758,70 0,59 a. Predictors:, X, X, X, X b. Predictors:, X, X, X c. Predictors:, X, X ANOVA d Sum of Squares df Mean Square F Sig. 6769,989 99,97,97,000 a 07, 5 8,88 7,00 9 658,70 9,568 9,750,000 b 0657,97 6 09,90 7,00 9 5796, 7898,06,,000 c 78 7,89 7,00 9 a. Predictors:, X, X, X, X b. Predictors:, X, X, X c. Predictors:, X, X d. Dependent Variable: Y
X X X X X X X X X a. Dependent Variable: Y Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig.,5 65 7,55,000 -,9,77 -,6 -,667,5 -,09,5 -,67 -,80,00,9,66,65,07,005 -,56,99 -,9 -,,70,55,778 7,79,000 -,065,55 -,68 -,95,00,555,9,506 7,000 -,57,9 -, -,86,77 09,09,9 7,58,000 -,65, -,80-8,66,000,569,98,50 5,69,000 Το καλύτερο μοντέλο με βάση τη διαδικασία Backward elimination είναι και πάλι το Χ, Χ. ) Θεωρούμε το πλήρες μοντέλο: Variables Entered/Removed b Variables Variables Entered Removed Method X, X, X, X a, Enter a. All requested variables entered. b. Dependent Variable: Y Summary Adjusted Std. Error of R R Square R Square the Estimate,88 a,778,7 0,7 a. Predictors:, X, X, X, X ANOVA b Sum of Squares df Mean Square F Sig. 6769,989 99,97,97,000 a 07, 5 8,88 7,00 9 a. Predictors:, X, X, X, X b. Dependent Variable: Y
X X X X a. Dependent Variable: Y Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound,5 65 7,55,000 8,87, -,9,77 -,6 -,667,5 -,00,07 -,09,5 -,67 -,80,00 -,7 -,90,9,66,65,07,005,6, -,56,99 -,9 -,,70 -,87,59 ii) Τα δ.ε. 95% για κάθε ένα από τα β i δίνονται στον παραπάνω πίνακα. Συγκεκριμένα, 95% Confidence Interval for B Lower Bound Upper Bound β 0 8,87, β -,00,07 β -,7 -,90 β,6, β -,87,59 Για την εύρεση από κοινού δ.ε. α = 95% για τα β, β, β, β με τη μέθοδο Bonferroni αρκεί να πάρουμε ως Ι i =(L i,u i ) ένα δ.ε. για το β i συντελεστού a /, i =,,, διότι τότε P(( β, β, β, β) I I I I) = P( β I, i =,,,) = P( A!... A ) Επομένως, δ.ε. για τα β i συντελεστού a/ = 98.75% είναι: i i! C C C C = P( A "..." A ) P( A )... P( A ) a = P( β Ι)... P( β Ι) = = a β ˆ s( βˆ ) t (( a / ) / ) = 0.9 ± 0.77 (0.0065) = (.67,.8) ± n p t5 β ˆ ˆ s( β) t (( a / ) / ) =.09 ± 0.5 t ± n p 5 (0.0065) = (.57, 0.600) β ˆ s( βˆ ) t (( a / ) / ) =.9 ± 0.66 (0.0065) = (0.5,.600) ± n p t5 β ˆ s( βˆ ) t (( a / ) / ) = 0.56 ± 0.99 (0.0065) = (.6, 0.505) ± n p t5 ( t5(0.0065) = IDF.T(0.9975,7) =,68). Άρα η περιοχή εμπιστοσύνης 95% για το (β, β, β, β ) θα είναι η (.67,.8) (.57, 0.600) (0.5,.600) (.6, 0.505). iii) Τα p-values των πρώτων ελέγχων Η 0 :β i =0 με H :β i 0, i=,,, δίνονται στον πίνακα των coefficients (0.5, 0.00, 0.005, 0.70). Επομένως, απορρίπτουμε τις υποθέσεις Η 0 :β =0, Η 0 :β =0.
Για τον από κοινού έλεγχο ως γνωστό χρησιμοποιούμε το F-test από τον πίνακα ANOVA. Το αντίστοιχο p-value είναι 0.000 οπότε, όπως ήταν αναμενόμενο, απορρίπτουμε την Η 0 : β = β = β = β = 0. iv) Εισάγοντας μία επιπλέον γραμμή στα δεδομένα και εκτελώντας τη διαδικασία της γραμμικής παλινδρόμησης (save Prediction intervals) προκύπτει ότι δ.ε. 95% για μέση πρόβλεψη του Υ (Χ = Χ = Χ = Χ = 0) : (58.50, 98.99), δ.ε. 95% για ατομική πρόβλεψη του Υ (Χ = Χ = Χ = Χ = 0) : (.669, 5.0778) v) Θα χρησιμοποιήσουμε τον μετασχηματισμό: γ = β +β β = γ β και το μοντέλο γίνεται Y β + β X + β X + ( γ β ) X + β X + ε = β + β X + β ( X X + γ X + β X + ε = 0 0 ) από όπου προκύπτει ο πίνακας (Χ = Χ Χ) X X X X a. Dependent Variable: Y Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound,5 65 7,55,000 8,87, -,9,77 -,6 -,667,5 -,00,07 -,09,5 -,809 -,80,00 -,7 -,90 -,06,80 -,0 -,7,900 -,85,60 -,56,99 -,9 -,,70 -,87,59 Επειδή p-value = 0.9 δεν απορρίπτουμε ότι Η 0 :γ = 0 β = β. Το δ.ε. 95% για το γ = β +β είναι (.85,.60).