ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ, 6-5-0 Άσκηση 8. Δίνονται οι παρακάτω 0 παρατηρήσεις (πίνακας Α) με βάση τις οποίες θέλουμε να δημιουργήσουμε ένα γραμμικό μοντέλο για την πρόβλεψη της Υ μέσω των ανεξάρτητων μεταβλητών Χ, Χ. Πίνακας Α Πίνακας Β i i 68 6.9 9.5 4. 44 66 77.8 4.7 49.8 99 6 8 8.7 0.7 5.9 4 444 7 89 4 0. 9.8 54. 5 0 90 5.9 9. 4. 6 56 9 0 6.7 5.6 5.9 7 507 58 95 7 7..4 58.5 8 6 9 8 5.4 7.9 5. 9 6 7 9 9.. 49.9 0 05 9 9 0 9. 5.5 5.5 490 87 67 5.4. 56.6 48 87 78 7. 0.4 56.7 5 5 8.7 8.7 46.5 4 6 56 40 4 7.8 9.7 44. 5 5 49 95 5.8 4.6 4.7 6 8 67 9 6.9 9.5 54.4 7 65 9 40 7.6 7.7 55. 8 7 5 8 8 5.4 0. 58.6 9 69 84 9 4.8.7 48. 0 70 64 67 0. 5. 5.0 6 5 4 58 9 8 54 99 90 4 9 8 5 46 78 8 6 07 86 5 7 5 50 8 68 9 5 9 70 7 6 0 48 87 59. Θεωρώντας ότι μοντέλο είναι = β + β + β + ε, ε ~ Ν(0,σ I ), 0 n i) Εκτιμήστε τα β 0, β, β, σ και υπολογίστε τους συντελεστές προσδιορισμού, R, R (adj). ii) Βρείτε τον πίνακα συσχέτισης και τον πίνακα διασποράς των β ˆ ˆ, β. iii) Βρείτε 95% διάστημα εμπιστοσύνης για κάθε ένα από τα β 0, β, β. Βρείτε από κοινού δ.ε. 95% για τα β, β, με τη μέθοδο Bonferroni. iv) Να κάνετε τους ελέγχους Η 0 :β =0 με H :β 0, Η 0 :β =0 με H :β 0 και Η 0 :β =β =0 με H :β 0 ή β 0 σε ε.σ. %. v) Βρείτε 95% δ.ε. για τη μέση και ατομική πρόβλεψη του Υ όταν Χ =50, Χ =60. vi) Κάνετε τον έλεγχο Η 0 : β =β με Η : β β σε ε.σ. α = 5%. Βρείτε δ.ε. 95% για το β β. vii) Ποιές παρατηρήσεις επηρεάζουν περισσότερο το μοντέλο ( ii > /n) και ποιες θεωρούνται ασυνήθιστες ( e ˆ * i > ); Να γίνει έλεγχος κανονικότητας των παρατηρήσεων (K - S για τα κατάλοιπα). viii) Το μοντέλο = β0 + β + β + β + ε βελτιώνει ουσιαστικά το προηγούμενο (β = 0;). Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:
= β0 + β + ε, = β0 + β + ε, = β0 + β + β + ε είναι το καλύτερο, με βάση το R, το R SSE (adj), και το C = ( n ). MSE Παρατηρούμε ότι τα εκτιμημένα β i δεν αλλάζουν σημαντικά στα τρία μοντέλα. Αυτό συμβαίνει πάντοτε; Εξετάστε γιατί δεν ισχύει κάτι ανάλογο εφαρμόζοντας τα δεδομένα του πίνακα B. Άσκηση 9. Δίνονται οι παρακάτω 54 παρατηρήσεις με βάση τις οποίες θέλουμε να δημιουργήσουμε ένα γραμμικό μοντέλο για την πρόβλεψη της Υ μέσω κάποιας ή κάποιων από τις ανεξάρτητες μεταβλητές Χ, Χ, Χ, 4. i 4 6.7 6 8.59 00 5. 59 66.70 0 7.4 57 8.6 04 4 6.5 7 4.0 0 5 7.8 65 5 4.0 509 6 5.8 8 7.4 80 7 5.7 46 6.9 80 8.7 68 8.57 7 9 6.0 67 9.50 0 0.7 76 94.40 0 6. 84 8 4. 9 6.7 5 4.86 65 5.8 96 4.95 80 4 5.8 8 88.95 0 5 7.7 6 67.40 68 6 7.4 74 68.40 7 7 6.0 85 8.98 87 8.7 5 4.55 4 9 7. 68 74.56 5 0 5.6 57 87.0 7 5. 5 76.85 09.4 8 5. 6 6.7 6 68.0 70 4 5.8 67 86.40 0 5 6. 59 00.95 76 6 5.8 6 7.50 44 7 5. 5 86.45 8 8. 76 90 5.59 574 9 5. 54 56.7 7 0 5.8 76 59.58 78. 64 65 0.74 7 8.7 45.5 58 5.0 59 7.50 6 4 5.8 7 9.0 95 5 5.4 58 70.64 5 6 5. 5 99.60 84 7.6 74 86.05 8 8 4. 8 9.85 0 9 4.8 6 76.45 5 40 5.4 5 88.8 48 4 5. 49 7.84 95 4.6 8 99.0 75 4 8.8 86 88 6.40 48 44 6.5 56 77.85 5
45.4 77 9.48 9 46 6.5 40 84.00 47 4.5 7 06.05 48 4.8 86 0 4.0 98 49 5. 67 77.86 58 50.9 8 0 4.55 0 5 6.6 77 46.95 4 5 6.4 85 40. 5 5 6.4 59 85. 98 54 8.8 78 7.0 i) Να βρεθεί ο πίνακας συσχέτισης μεταξύ των,,, 4, = log 0. ii) Να εξεταστούν όλα τα δυνατά γραμμικά μοντέλα που περιέχουν τις,,, 4 και την = log 0. Να βρεθεί το καλύτερο με βάση: a) το R, β) το R SSE (adj), γ) το MSE και δ) το C = ( n ). MSE iii) Να βρεθεί το καλύτερο μοντέλο με βάση τη διαδικασία Stewise regression και να περιγραφούν όλα τα ενδιάμεσα βήματα. iv) Να γίνει το ίδιο χρησιμοποιώντας τις διαδικασίες Forward selection και Backward elimination. Άσκηση 0. Δίνονται οι ετήσιοι μισθοί, σε χιλιάδες ευρώ 5 υπαλλήλων που επιλέχτηκαν τυχαία. Επίσης δίνονται τα χρόνια υπηρεσίας Χ, η ηλικία Χ και το φύλο τους Φ. i 4 5 6 7 8 9 0 4 5 5. 7.6.5.8 8.0.5 9.6 7.0.5..5 7.6 5.4 0.5 6.8 5.4 8.4 6.7. 4.6.4 8. 5. 7.9.5.8 9.6 6.8 7.5. 6 5 4 5 54 8 6 4 48 7 44 4 9 6 Φ Γ Α Γ Γ Α Α Α Α Α Γ Γ Γ Α Γ Α Το μοντέλο για τους άνδρες και τις γυναίκες είναι Υ = β 0 + β Χ + β Χ + ε και Υ = c 0 + β Χ + β Χ + ε αντίστοιχα. Αν υποθέσουμε ότι οι διασπορές των σφαλμάτων είναι ίσες, εξετάστε αν β 0 = c 0 σε ε.σ. α = 0.05. Άσκηση. Δίνονται οι παρακάτω παρατηρήσεις: 4 44 47 50 6 74 4 46 6 96 7 0 5 4 55 9 44 45 59 6 4 8 8 4 5 40 59 7 7 48 8 45 5 4 0 7 69 9 46 46 7 6 49 45 7 6 8 45 6 69 4 8 0 50 66 0 0 50 48 59 76 8 7 60 7 87 6 4 45 47 88 9 4 48 50 0 5 4 7 98 7 4 5 4 98
7 8 68 65 4 4 6 50 0 4 7 94 4 57 56 7 8 0 40 80 6 0 0 4 4 94 7 4 4 8 6 6 45 5 4 98 4 47 4 8 ) Να βρεθεί ο πίνακας συσχέτισης μεταξύ των,,, 4. Ποιά ζεύγη μεταβλητών παρουσιάζουν υψηλή συσχέτιση; ) i) Να εξεταστούν όλα τα δυνατά γραμμικά μοντέλα που περιέχουν τις,,, 4 και την. Να βρεθεί το καλύτερο με βάση: a) το R, β) το R (adj), γ) το MSE και δ) το C. ii) Να βρεθεί το καλύτερο μοντέλο με βάση τις διαδικασίες Stewise regression και Backward elimination και να περιγραφούν όλα τα ενδιάμεσα βήματα. ) Στο πλήρες μοντέλο: i) Εκτιμήστε τα β i, σ και υπολογίστε τους συντελεστές προσδιορισμού, R, R (adj). ii) Βρείτε 95% διάστημα εμπιστοσύνης για κάθε ένα από τα β i. Βρείτε από κοινού δ.ε. 95% για τα β, β, β, β 4 με τη μέθοδο Bonferroni. iii) Να κάνετε τους ελέγχους Η 0 :β i =0 με H :β i 0, i=,,,4 και Η 0 : β = β = β = β 4 = 0 με H :β 0 ή β 0 ή β 0 ή β 4 0 σε ε.σ. %. iv) Βρείτε 95% δ.ε. για τη μέση και ατομική πρόβλεψη του Υ όταν Χ = Χ = Χ = Χ 4 = 0. v) Κάνετε τον έλεγχο Η 0 : β = β με Η 0 : β β σε ε.σ. α = 5%. Βρείτε δ.ε. 95% για το β +β. 4
Απαντήσεις. Άσκηση 8. Θεωρούμε το μοντέλο = β0 + β + β + ε, ε ~ Ν(0,σ In), i) Εκτελούμε τη διαδικασία /Analyze/Regression/Linear με Deendent:, Indeendent:, (Method: Enter για να εισαχθούν και οι δύο μεταβλητές Χ, Χ στο μοντέλο). Επίσης επιλέγουμε στα /Statistics και τα εξής: Confidence intervals (δ.ε. για τις εκτιμήσεις των β i ), Covariance Matrix (πίνακας διασποράς των β ˆ ˆ, β ), Descritives (για να εμφανιστούν οι (δειγματικές) μέσες τιμές, τυπικές αποκλίσεις, και συντελεστές συσχέτισης των,, ). Τα αποτελέσματα από το SPSS είναι: Correlations Descritive Statistics Mean Std. Deviation N,5667 4,994 0 58,7667 9,506 0 49,000 0,06 0 Pearson Correlation Sig. (-tailed) N,000,9,88,9,000 -,00,88 -,00,000,,06,000,06,,494,000,494, 0 0 0 0 0 0 0 0 0 Variables Entered/Removed b Variables Variables Entered Removed Method, a, Enter a. All requested variables entered. b. Deendent Variable: Summary Adjusted Std. Error of R R Square R Square the Estimate,966 a,94,99 7,7795 a. Predictors:,, Regression Residual Total a. Predictors:,, b. Deendent Variable: ANOVA b Sum of Squares df Mean Square F Sig. 54670,5 7085,4 9,,000 a 856,88 7 47,9 584707,4 9 a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B t Sig. Lower Bound Uer Bound B Std. Error Beta 4,88 9,69,49,805-4,94 44,570,90,8,95 8,00,000,45,90 4,65,,88 7,87,000,687 4,644 5
Coefficient Correlations a Correlations Covariances a. Deendent Variable:,000,00,00,000 5,4E-0,66E-04,66E-04 5,65E-0 i) Συνεπώς, οι εκτιμήσεις των β 0, β, β, σ είναι ˆ ˆ ˆ SSE β = 4.88, β0 =.90, β = 4.65, σˆ = = MSE = s = 47.9, σˆ n Οι συντελεστές προσδιορισμού είναι R = 0.94, R (adj) = 0.99. 0 = ii) Ο πίνακας συσχέτισης και ο πίνακας διασποράς των β ˆ ˆ, β αντίστοιχα είναι: Coefficient Correlations Correlations.000 0.00 0.00.000 Covariances 54. 0.6 0.6 56.5 iii) Τα διαστήματα εμπιστοσύνης 95% για τα β 0, β, β είναι: β 0 : (-4.94, 44.570), β : (.45,.90), β : (.687, 4.644). 7.7795 Για την εύρεση από κοινού δ.ε. 95% για τα β, β με τη μέθοδο Bonferroni εργαζόμαστε ως εξής: Αναζητούμε μία περιοχή (τετράγωνο) εμπιστοσύνης (L,U ) (L,U ) μέσα στο οποίο βρίσκεται το (β, β ) με πιθανότητα τουλάχιστον α = 95%. Πιο συγκεκριμένα, αναζητούμε δύο διαστήματα Ι =(L,U ), Ι =(L,U ) για τα οποία να ισχύει ότι P(( β, β ) I I ) a Αρκεί να πάρουμε ως Ι ένα δ.ε. για το β συντελεστού α/ και ως Ι ένα δ.ε. για το β συντελεστού α/. Αρκεί διότι C C P(( β, β ) I I ) = P( β I, β I ) = P( A A ) = P( A A ) C C P( A ) P( A ) = P( β I ) P( β I ) = a / a / = a Ένα δ.ε. για το β συντελεστού α/ = 97.5% είναι: βˆ ± s( βˆ ) t (0.05/ ) =.90 ± 0.8 (0.05) = (.4,.466) βˆ n t7 ± s( βˆ ) t (0.05/ ) = 4.65 ± 0. (0.05) = (.6, 4.77) n t7 ( t7(0.05) = IDF.T(0.9875,7)=.7). Άρα η περιοχή εμπιστοσύνης 95% για το (β, β ) θα είναι η (.4,.466) (.6, 4.77). iv) Για τον έλεγχο Η 0 :β =0 με H :β 0, το πακέτο δίνει -value 0.000 (T * = 8,00) άρα σε ε.σ. % α- πορρίπτουμε ότι β =0. Επίσης, για τον έλεγχο Η 0 :β =0 με H :β 0, το πακέτο δίνει και πάλι -value 0.000 (T * = 7,87) άρα σε ε.σ. % απορρίπτουμε και ότι β =0. Τέλος, για τον έλεγχο της υπόθεσης Η 0 :β =β =0 με H :β 0 ή β 0 θα χρησιμοποιήσουμε το F-test του πίνακα ANOVA. Επειδή -value= 0.000 (F * = 9,) απορρίπτουμε την Η 0 σε ε.σ. %. 6
v) Για να βρούμε 95% δ.ε. για τη μέση και ατομική πρόβλεψη του Υ στο SPSS όταν Χ =50, Χ =60, προσθέτουμε στην η γραμμή των δεδομένων και στις στήλες των Χ, Χ τους αριθμούς 50 και 60 (η η γραμμή στην στήλη του Υ αφήνεται κενή). Στη συνέχεια εκτελούμε τη διαδικασία της παλινδρόμησης /Analyze/Regression/Linear επιλέγοντας στο save τα Unstandardized redicted values, Prediction Intervals. Στην η γραμμή λαμβάνονται τα αποτελέσματα: Αναμενόμενο Υ: 49,8760 Δ.ε. 95% για την μέση πρόβλεψη: (4,95, 65,54) Δ.ε. 95% για την μέση πρόβλεψη: (70,795, 48,9584) vi) Για να κάνουμε τον έλεγχο Η 0 : β =β με Η 0 : β β και να βρούμε δ.ε. 95% για το β β αρκεί να δημιουργήσουμε ένα νέο μοντέλο το οποίο θα περιέχει ως συντελεστή το γ = β β. Συγκεκριμένα, παίρνουμε τον μετασχηματισμό: από όπου προκύπτει το μοντέλο β 0 β 0, β β, β β γ = β 0 + β Χ + (β γ)χ + ε = β 0 + β (Χ + Χ ) + γ( Χ ) + ε Δημιουργούμε (Transform/comute) δύο νέες μεταβλητές Χ := Χ + Χ, Χ 4 := Χ. Στη συνέχεια ε- κτελούμε τη διαδικασία /Analyze/Regression/Linear με Deendent:, Indeendent:, 4 λαμβάνοντας τον πίνακα 4 a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B t Sig. Lower Bound Uer Bound B Std. Error Beta 4,88 9,69,49,805-4,94 44,570,90,8,897 8,00,000,45,90 -,6,59 -,076 -,68,50 -,446,75 από όπου δεν μπορούμε να απορρίψουμε σε ε.σ. 5% ή 0% ότι Η 0 : γ = 0 ή ισοδύναμα ότι Η 0 : β = β διότι το αντίστοιχο -value του ελέγχου είναι 0.50 (T * = 0.68). Το δ.ε. για το γ = β β είναι ίσο με (.446, 0.75). vii) Εκτελώντας τη διαδικασία /Analyze/Regression/Linear με Deendent:, Indeendent:, επιλέγουμε στο save τα leverage values και τα studentized residuals. Στον πίνακα των δεδομένων λαμβάνουμε τις στήλες: i studentized leverage residuals 0,88685 0,0455-0,46 0,05 -,4976 0,0779 4,6070 0,659 5 0,868 0,06456 6,46 0,0959 7-0,094 0,07984 8,0500 0,09067 9,0777 0,067 0 0,09 0,059,799 0,047-0,9666 0,06 -,7440 0,0886 4 -,6770 0,005 5 0,84 0,0850 6 0,89845 0,0066 7
7 0,560 0,0449 8 0,6 0,095 9 0,07 0,7 0-0,96685 0,06-0,664 0,08479 0,4445 0,08760-0,747 0,78 4 0,498 0,5 5 -,059 0,0587 6-0,6699 0,0766 7 -,087 0,0598 8 -,66875 0,0575 9 0,066 0,07890 0 0,60067 0,058 Παρατηρούμε ότι όλα τα leverages είναι μικρότερα του /n = 0. οπότε δεν υπάρχει κάποια παρατήρηση που να έχει μεγάλη επιρροή στο μοντέλο (αν υπάρχει κάποια τέτοια παρατήρηση, εκτελούμε παλινδρόμηση χωρίς αυτήν για να δούμε αν αλλάζουν σημαντικά οι εκτιμώμενες τιμές των παραμέτρων). Επίσης παρατηρούμε ότι η 8 η παρατήρηση παρουσιάζει μεγάλο studentized residual οπότε μπορεί να θεωρηθεί ως έκτροπη παρατήρηση. Όσον αφορά τις έκτροπες παρατηρήσεις ή τις παρατηρήσεις με μεγάλη επιρροή, βεβαιωνόμαστε ότι έχουν καταγραφεί και περαστεί σωστά στα δεδομένα. Αν δεν είμαστε απολύτως βέβαιοι για κάτι τέτοιο, μία συντηρητική απόφαση θα ήταν να εξαιρεθούν από το μοντέλο.,00 Normal P-P Plot of Studentized Residual,75,50 Exected Cum Prob,5 0,00 0,00,5,50,75,00 (unusual residual) Observed Cum Prob Για τον έλεγχο κανονικότητας των παρατηρήσεων πραγματοποιούμε ένα τεστ Kolmogorov - Smirnov για τα κατάλοιπα (Analyse/non-arametric tests/k-s test) από όπου λαμβάνουμε τον πίνακα: One-Samle Kolmogorov-Smirnov Test N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asym. Sig. (-tailed) a. Test distribution is Normal. b. Calculated from data. Mean Std. Deviation Absolute Positive Negative Studentized Residual 0 5,754E-0,0950,090,070 -,090,494,968 8
To -value είναι πολύ υψηλό (0.968) οπότε μπορούμε να δεχτούμε ότι τα κατάλοιπα προέρχονται από κανονική κατανομή (για να θεωρηθεί αξιόπιστο το τεστ υποθέτουμε ότι η συσχέτιση μεταξύ των καταλοίπων είναι αμελητέα). viii) Ένας τρόπος να εξετάσουμε αν το μοντέλο = β0 + β + β + β + ε βελτιώνει ουσιαστικά το προηγούμενο είναι να κάνουμε τον έλεγχο β = 0 (επίσης, θα μπορούσαμε να δούμε αν προκύπτει σημαντική αύξηση του R ή του R (adj) κ.τ.λ.). Από την εφαρμογή του μοντέλου αυτού λαμβάνουμε: a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. -4,0,954 -,75,459,40,50,499 4,790,000 4,688,57,994 9,070,000-9,E-0,008 -,6 -,,68 (Χ = Χ *Χ ) απ όπου συμπεραίνουμε ότι η συνεισφορά δεν είναι σημαντική (-value = 0.68 > 0.05).. Για να εξετάσουμε ποιο από τα παρακάτω τρία μοντέλα = β + β +, = β + β +, β + β + β + ε 0 ε 0 ε = 0 είναι το καλύτερο, με βάση το R, το R SSE (adj), και το C = ( n ) μπορούμε να εκτελέσουμε MSE την διαδικασία της παλινδρόμησης φορές, μία για κάθε μοντέλο. Εναλλακτικά μπορούμε να δούμε και τα τρία μοντέλα μαζί αν εργαστούμε ως εξής: ) Ανοίγουμε την διαδικασία Analyze/regression/linear θέτοντας Deendent: και indeendent με Method: Enter (Block : = β0 + β + ε ) ) Στη συνέχεια, επιλέγουμε Next για να πάμε στο Block όπου και θέτουμε Deendent: και indeendent με Method: Enter (προστίθεται και η Χ στο μοντέλο του Block οπότε προκύπτει το = β0 + β + β + ε στο Block ) ) Τέλος, επιλέγουμε και πάλι Next για να πάμε στο Block όπου και θέτουμε Deendent: και indeendent με Method: Remove (αφαιρείται η Χ από το μοντέλο του Block οπότε προκύπτει το = β0 + β + ε στο Block ). Πατώντας ΟΚ λαμβάνουμε τα αποτελέσματα: Variables Entered/Removed c Summary Variables Variables Entered Removed Method a, Enter a, Enter, a b Remove a. All requested variables entered. b. All requested variables removed. c. Deendent Variable: Adjusted Std. Error of R R Square R Square the Estimate,9 a,54,4,895,966 b,94,99 7,7795,88 c,778,770 68,4 a. Predictors:, b. Predictors:,, c. Predictors:, 9
Regression Residual Total Regression Residual Total Regression Residual Total a. Predictors:, b. Predictors:,, c. Predictors:, d. Deendent Variable: ANOVA d Sum of Squares df Mean Square F Sig. 9008,59 9008,59 5,08,0 a 494499,0 8 7660,679 584707,4 9 54670,5 7085,4 9,,000 b 856,88 7 47,9 584707,4 9 454768,7 454768,67 97,996,000 c 998,7 8 4640,668 584707,4 9 a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. 0,50 54,806,84,00,890,86,9,60,0 4,88 9,69,49,805,90,8,95 8,00,000 4,65,,88 7,87,000 6,895 4,8 4,845,000 4,60,40,88 9,899,000 Άρα για τα τρία μοντέλα παίρνουμε τον παρακάτω πίνακα: R R (adj) SSE SSE C = ( n ) MSE 0.54 0.4 494499.008 46 6 = 0.4 0.94 0.99 856.88 7.0 4 = 0.778 0.770 998.696 9.0 9 = 6 (MSE (πλήρους μοντέλου) = 47.9) Οπότε, με βάση και τα τρία κριτήρια, το καλύτερο μοντέλο είναι το πλήρες μοντέλο Υ, Χ, Χ (μοντέλο ). Υπενθυμίζεται ότι σύμφωνα με το R, καλύτερο θεωρείται το μοντέλο στο οποίο δεν αυξάνεται σημαντικά το R με την πρόσθεση νέων ανεξάρτητων μεταβλητών (μοντέλο που «σταθεροποιεί» το R ). Σύμφωνα με το R (adj) καλύτερο είναι το μοντέλο με το μεγαλύτερο R (adj) (ισοδύναμα μπορούμε να δούμε ποιο μοντέλο έχει το μικρότερο MSE διότι R (adj) = (n )MSE /SST). Tέλος, σύμφωνα με τον δείκτη C του Mallows s καλύτερο είναι το μοντέλο με το μικρότερο C που βρίσκεται κοντά στο (C ). Παρατηρούμε στους παραπάνω πίνακες ότι τα εκτιμημένα β,β δεν αλλάζουν σημαντικά στα τρία μοντέλα: ˆβ Υ = β 0 + β Χ + ε,890 Υ = β 0 + β Χ + β Χ + ε,90 4,65 Υ = β 0 + β Χ + ε 4,60 0
Αυτό συμβαίνει όταν οι ανεξάρτητες (ή ερμηνευτικές) μεταβλητές Χ,Χ είναι σχεδόν ασυσχέτιστες (δειγματικός συντελεστής συσχέτισης κοντά στο 0). Πράγματι, σε παραπάνω πίνακα είχαμε δει ότι το Pearson Correlation μεταξύ του Χ και του Χ είναι 0.00. Αν οι ανεξάρτητες μεταβλητές έχουν ι- σχυρή συσχέτιση (π.χ. Pearson Correlation κοντά στο ή στο -) τότε παρουσιάζεται το φαινόμενο της πολυσυγγραμμικότητας (multicollinearity). Αυτό το φαινόμενο παρουσιάζεται στα δεδομένα του πίνακα B. Συγκεκριμένα παίρνοντας τα παραπάνω μοντέλα αυτή τη φορά με τα δεδομένα του πίνακα B λαμβάνουμε: Correlations Pearson Correlation Sig. (-tailed) N,000,84,878,84,000,94,878,94,000,,000,000,000,,000,000,000, 0 0 0 0 0 0 0 0 0 (παρατηρούμε υψηλή θετική συσχέτιση 0.94 μεταξύ του Χ και του Χ ) Variables Entered/Removed c Variables Variables Entered Removed Method a, Enter a, Enter, a b Remove a. All requested variables entered. b. All requested variables removed. c. Deendent Variable: Summary Adjusted Std. Error of R R Square R Square the Estimate,84 a,7,695,898,88 b,778,75,54,878 c,77,758,50 a. Predictors:, b. Predictors:,, c. Predictors:, a. Deendent Variable: Unstandardized Coefficients Coefficients a Standardi zed Coefficien ts B Std. Error Beta t Sig. -,496,9 -,45,658,857,9,84 6,656,000-9,74 8,6 -,9,05,,0,9,7,474,659,9,676,65,07 -,64 5,657-4,78,00,857,0,878 7,786,000 Παρατηρούμε στους παραπάνω πίνακες ότι τα εκτιμημένα β,β αλλάζουν σημαντικά στα τρία μοντέλα: ˆβ Υ = β 0 + β Χ + ε 0,857 Υ = β 0 + β Χ + β Χ + ε 0, 0,659 Υ = β 0 + β Χ + ε 0.857 Μάλιστα παρατηρούμε ότι ενώ στο πρώτο μοντέλο Υ = β 0 + β Χ + ε η Χ είναι σημαντική, όταν στο μοντέλο προστίθεται η Χ (Υ = β 0 + β Χ + β Χ + ε) η Χ γίνεται μη-σημαντική ενώ τη θέση της παίρ-
νει η Χ. Μάλιστα, καλύτερο μοντέλο σύμφωνα με το R (adj) φαίνεται να είναι το Υ = β 0 + β Χ + ε. Εδώ μπορούμε π.χ. να δώσουμε την εξής ερμηνεία: Η Χ είναι πράγματι αυτή που επηρεάζει την Υ αλλά όταν εφαρμόζουμε το μοντέλο Υ = β 0 + β Χ + ε, η Χ φαίνεται σημαντική διότι είναι πολύ «κοντά» στην Χ (το t-test για το β στο μοντέλο στην ουσία ελέγχει αν η είσοδος του Χ στο μοντέλο Υ = β 0 + ε είναι σημαντική). Αν όμως υπάρχει και η Χ στο μοντέλο τότε το αντίστοιχο t-test για το β στο μοντέλο ελέγχει αν η είσοδος της Χ στο μοντέλο Υ = β 0 + β Χ + ε είναι σημαντική. Είναι φυσικό να μην φαίνεται τώρα σημαντική η Χ διότι δεν συνεισφέρει τίποτε νέο στο μοντέλο αφού υπάρχει ήδη η Χ η οποία ερμηνεύει ικανοποιητικά τη μεταβλητότητα του Υ. Στις περιπτώσεις όπου παρουσιάζεται υψηλή πολυσυγγραμμικότητα (μπορεί να εντοπισθεί και μέσω του δείκτη VIF (variance inflation factor) π.χ. όταν VIF > 0: o δείκτης VIF i που δίνεται στο πα- i ) i κέτο είναι ίσος με ( R όπου R είναι ο συντελεστής προσδιορισμού όταν κάνουμε παλινδρόμηση της Χ i (ως deendent) με τις υπόλοιπες Χ (ως indeendent)), εντοπίζουμε τις ομάδες των ερμηνευτικών μεταβλητών με υψηλή συσχέτιση και συνήθως παραμένει μόνο μία μεταβλητή από κάθε ομάδα. Σε αρκετές περιπτώσεις αυτό δεν είναι εύκολο οπότε είναι ανάγκη να χρησιμοποιήσουμε άλλες μεθόδους (π.χ. rincial comonents regression ή ridge regression). Σημειώνεται ότι η ύπαρξη πολυσυγγραμμικότητας μπορεί να οδηγήσει και σε μία σχεδόν μηδενική ορίζουσα του Χ Χ, με αποτέλεσμα να υπάρχει κίνδυνος εμφάνισης σοβαρών σφαλμάτων στρογγύλευσης στην διαδικασία υπολογισμού των εκτιμήσεων των β i. Για το λόγο αυτό προτείνεται η κανονικοποίηση των Υ,Χ,Χ πριν την εφαρμογή της παλινδρόμησης στο πακέτο ώστε να παίρνουν τιμές στο (,) με σκοπό να μειωθούν τα σφάλματα στρογγύλευσης (συνήθως η κανονικοποίηση αυτή γίνεται αυτόματα από το πακέτο).