Ενότητα 2 ιαφάνειες Μαθήµατος: 2- Ενότητα 2 ιαφάνειες Μαθήµατος: 2-2 ΠΜΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΥΓΕΙΑ, ΙΑΧΕΙΡΙΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΑΠΟΤΙΜΗΣΗ ΑΚ. ΕΤΟΣ 2006-2007, 3ο εξάµηνο.6. είκτες µερικής συσχέτισης ΜΑΘΗΜΑ 2 Συµπερασµατολογία για την επίδραση πολλών µεταβλητών σε µια ποσοτική (Πολλαπλή Παλινδρόµηση) [µέρος 2ο] ιαφάνεια 2-95 Έστω Χ, Χ 2, Χ 3,..., Χ p Περιγράφουν τη γραµµική σχέση 2 µεταβλητών (π.χ. Χ & Χ 2 ) αφού ελέγξουµε (after controlling for) για την επίδραση των υπόλοιπων µεταβλητών (δηλ. Χ 3,..., Χ p ). [αφού ελέγξουµε (after controlling for) εξουδετέρωση των επιδράσεων που οφείλονται σε άλλες µεταβλητές] ΥΠΟΛΟΓΙΣΜΟΣ Υπολογίζουµε κατάλοιπα e της παλινδρόµησης Χ = β () 0 + β () 3 Χ () 3 +... + β () p Χ () p e 2 της παλινδρόµησης Χ 2 = β (2) 0 + β (2) 3 Χ (2) 3 +... + β (2) p Χ () p r partial 2 = Cor(e,e 2 ) Έχει ίδιες ιδιότητες µε το δείκτη του Pearson. Προϋποθέσεις: Κανονικότητα, γραµµικότητα κλπ. (βλ. παλινδρόµηση) ιαφάνεια 2-97. Επίδραση πολλών µεταβλητών σε µια ποσοτική ΠΕΡΙΕΧΟΜΕΝΑ Β ΜΕΡΟΥΣ είκτες µερικής συσχέτισης (Partial correlations) (+ Συνέχεια παραδείγµατος -) Πολυωνυµική Παλινδρόµηση Χρήση κατηγορικών συµµεταβλητών σε παλινδροµικά µοντέλα Σχέση παλινδρόµησης και ANOVA/t-tests Αναλ. Συνδιακύµανσης (ANCOVA).6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια) ΙΑ ΙΚΑΣΙΑ ΣΤΟ SPSS. Επιλέγουµε το menu: Analyze>Correlate>Partial... 2. Επιλέγουµε 2 ή περισσότερες ποσοτικές µεταβλητές για τις οποίες επιθυµούµε να υπολογίσουµε τους δείκτες µερικής συσχέτισης 3. Επιλέγουµε 2 ή περισσότερες µεταβλητές για των οποίων τις επιδράσεις στις µεταβλητές του βήµατος 2 θέλουµε να ελέγξουµε (δηλ. να εξουδετερώσουµε). ιαφάνεια 2-96 ιαφάνεια 2-98
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-3 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-4.6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια) Μεταβλητές για τις οποίες θα υπολογίσουµε τους δείκτες µερικής συσχέτισης.6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια) ΑΠΛΟΙ ΕΙΚΤΕΣ ΓΡΑΜΜΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΤΟΥ PEARSON Μεταβλητές των οποίων τις επιδράσεις ελέγχουµε (εξουδετερώνουµε) ιαφάνεια 2-99 ιαφάνεια 2-0.6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια).6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια) Correlations Correlations Control Variables lotsize Lot Size in Sq.ft. price n US Dollars Area in Sq. ft Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df living Size of price n Living Area in US Dollars Sq. ft.000.778..000 0 27.778.000.000. 27 0 Control Variables -none- a lotsize Lot Size in Sq.ft. price n US Dollars Area in Sq. ft lotsize Lot Size in Sq.ft. price n US Dollars Area in Sq. ft Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df living Size of price n Living Area in lotsize Lot US Dollars Sq. ft Size in Sq.ft..000.963.907..000.000 0 28 28.963.000.96.000..000 28 0 28.907.96.000.000.000. 28 28 0.000.778..000 0 27.778.000.000. 27 0 a. Cells contain zero-order (Pearson) correlations. ιαφάνεια 2-00 ιαφάνεια 2-02
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-5 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-6.6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια) ΣΤΗΝ ΠΑΛΙΝ ΡΟΜΗΣΗ a..6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια) Area in Sq. ft a Correlations t Sig. Zero-order Partial Part 2.39.028 2249.972 9552.44 77.024.967.80 6.436.000.963.778.327 lotsize Lot Size in Sq.ft. -2.345.900 -.226 -.234.228.907 -.23 -.063 Dependent Variable: price n US Dollars ΕΙΚΤΕΣ ΜΕΡΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΤΙΜΗΣ + ΜΕΓΕΘΟΥΣ ΟΙΚΗΜΑΤΟΣ ιαφάνεια 2-03 ιαφάνεια 2-05.6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια).6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια) a Correlations t Sig. Zero-order Partial Part 2249.972 9552.44 2.39.028 77.024.967.80 6.436.000.963.778.327 Area in Sq. ft lotsize Lot Size in Sq.ft. -2.345.900 -.226 -.234.228.907 -.23 -.063 a. Dependent Variable: price n US Dollars ΕΙΚΤΕΣ ΓΡΑΜΜΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΤΟΥ PEARSON a. Area in Sq. ft a Correlations t Sig. Zero-order Partial Part 2.39.028 2249.972 9552.44 77.024.967.80 6.436.000.963.778.327 lotsize Lot Size in Sq.ft. -2.345.900 -.226 -.234.228.907 -.23 -.063 Dependent Variable: price n US Dollars ΕΙΚΤΕΣ ΜΕΡΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΤΙΜΗΣ + ΜΕΓΕΘΟΥΣ ΟΙΚΟΠΕ ΟΥ ιαφάνεια 2-04 ιαφάνεια 2-06
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-7 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-8 a..6. είκτες µερικής συσχέτισης Παράδειγµα - (συνέχεια) Area in Sq. ft a ΤΜΗΜΑΤΙΚΟΙ ΕΙΚΤΕΣ ΣΥΣΧΕΤΙΣΗΣ ΤΙΜΗΣ + ΜΕΓΕΘΟΥΣ ΟΙΚΗΜΑΤΟΣ ΤΙΜΗΣ + ΜΕΓΕΘΟΥΣ ΟΙΚΟΠΕ ΟΥ Correlations t Sig. Zero-order Partial Part 2.39.028 2249.972 9552.44 77.024.967.80 6.436.000.963.778.327 lotsize Lot Size in Sq.ft. -2.345.900 -.226 -.234.228.907 -.23 -.063 Dependent Variable: price n US Dollars Part Correlation: Συσχέτιση µεταξύ εξαρτηµένης µεταβλητής Υ (στο παρ ΤΙΜΗ) και της κάθε ανεξάρτητης Χ όταν έχουµε ελέγξει την τελευταία για τις επιδράσεις των υπόλοιπων ανεξάρτητων µεταβλητών. r YX PART =Cor(Y, e ) µε e τα κατάλοιπα της παλινδρόµησης Χ =β 0 +β 2 Χ 2 +...+β p Χ p Επίσης ονοµάζεται και δείκτης Ηµι-µερικής Συσχέτισης (semipartial correlation). ιαφάνεια 2-07 Παράδειγµα - (SPSS: Curve estimation) Y = b 0 +b x+b 2 x 2 Y = b 0 +b x+b 2 x 2 +b 3 x 3 ιαφάνεια 2-09 Πολλές φορές η παλινδρόµηση µπορεί να είναι πολυωνυµικής µορφής. Είναι παρόµοιο µε πολλαπλή παλινδρόµηση µε ανεξάρτητες µεταβλητές τις δυνάµεις της µεταβλητής Χ ηλ. Υ= β 0 + β Χ + β 2 Χ 2 +... + β p Χ p + ε Γιατί είναι σηµαντική; ιότι µπορούµε (βάζοντας αρκετούς όρους) να προσεγγίσουµε ικανοποιητικά οποιαδήποτε τύπου σχέση (δηλ. Συνάρτηση βλ. Taylor expansion στον απειροστικό λογισµό) ιαφάνεια 2-08 Παράδειγµα - (SPSS: Curve estimation) Dependent Variable: price n US Dollars Equation Linear Quadratic Cubic Summary and Parameter Estimates Summary R Square F df df2 Sig. Constant b b2 b3 3597.842 62.829.926 352.672 28.000.927 7.703 2 27.000 2654.620 49.54.003.939 34.496 3 26.000 233853.4-283.007.73-2.8E-005 The independent variable is Area in Sq. ft. Parameter Estimates ιαφάνεια 2-0
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-9 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-0 Παράδειγµα - (SPSS: Curve estimation) ΕΡΜΗΝΕΙΑ ΠΡΟΣΟΧΗ Ε Ω ΤΟ R 2 ΕΙΝΑΙ Η Η ΥΨΗΛΟ ΜΕ ΤΟ ΓΡΑΜΜΙΚΟ ΜΟΝΟ ΟΡΟ ΠΡΟΣΘΕΣΗ ΠΟΛΥΩΝΥΜΙΚΩΝ ΟΡΩΝ Ε ΜΑΣ ΒΕΛΤΙΩΝΕΙ ΠΟΛΥ ΤΟ ΜΟΝΤΕΛΟ ΑΛΛΑ ΜΑΣ ΥΣΚΟΛΕΥΕΙ ΠΟΛΥ ΤΗΝ ΕΡΜΗΝΕΙΑ ΤΥΠΩΝΕΙ ΠΕΡΙΣΣΟΤΕΡΕΣ ΛΕΠΤΟΜΕΡΕΙΕΣ ΓΙΑ ΚΑΘΕ ΜΟΝΤΕΛΟ ΣΥΝΕΠΩΣ Ε Ω ΕΙΝΑΙ ΚΑΛΥΤΕΡΑ ΝΑ ΜΕΙΝΟΥΜΕ ΣΤΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ ΑΚΟΜΑ ΚΑΙ ΚΑΠΟΙΟ ΑΛΛΟ ΠΟΛΥΩΝΥΜΙΚΟ ΜΟΝΤΕΛΟ ΕΙΝΑΙ ΛΙΓΟ ΚΑΛΥΤΕΡΟ ιαφάνεια 2- ιαφάνεια 2-3 Παράδειγµα - (SPSS: Curve estimation) Παράδειγµα -4 Area in Sq. ft Area in Sq. ft ** 2 Area in Sq. ft ** 3 B Std. Error Beta -283.007 46.49-4.336 -.932.064.73.074 0.778 2.34.027-2.8E-005.000-5.552-2.304.029 233853.4 9342.807 2.503.09 t Sig. ΜΗ ΣΤΑΤΙΣΤΙΚΑ ΣΗΜΑΝΤΙΚΟΣ ΟΡΟΣ WORLD95: ΣΧΕΣΗ ΑΝΑΜΕΝΟΜΕΝΟΥ ΧΡΟΝΟΥ ΖΩΗΣ ΓΥΝΑΙΚΩΝ (LIFEXPF) KAI GDP_CAP ΣΤΑΤΙΣΤΙΚΑ ΣΗΜΑΝΤΙΚΟΙ ΟΡΟΙ ιαφάνεια 2-2 ιαφάνεια 2-4
Ενότητα 2 ιαφάνειες Μαθήµατος: 2- Ενότητα 2 ιαφάνειες Μαθήµατος: 2-2 Παράδειγµα -4 (SPSS: Curve estimation) WORLD95: ΣΧΕΣΗ ΑΝΑΜΕΝΟΜΕΝΟΥ ΧΡΟΝΟΥ ΖΩΗΣ ΓΥΝΑΙΚΩΝ (LIFEXPF) KAI GDP_CAP Παράδειγµα -4 (SPSS: Stepwise procedures) WORLD95: ΣΧΕΣΗ ΑΝΑΜΕΝΟΜΕΝΟΥ ΧΡΟΝΟΥ ΖΩΗΣ ΓΥΝΑΙΚΩΝ (LIFEXPF) KAI GDP_CAP ΥΠΟΛΟΓΙΖΟΥΜΕ ΩΣ ΚΑΙ ΤΗ 0η ΥΝΑΜΗ ΜΕ ΤΟ TRANFORM>COMPUTE ιαφάνεια 2-5 ιαφάνεια 2-7 Παράδειγµα -4 (SPSS: Curve estimation) Παράδειγµα -4 (SPSS: Stepwise procedures) WORLD95: ΣΧΕΣΗ ΑΝΑΜΕΝΟΜΕΝΟΥ ΧΡΟΝΟΥ ΖΩΗΣ ΓΥΝΑΙΚΩΝ (LIFEXPF) KAI GDP_CAP Dependent Variable: lifeexpf Average female life expectancy Summary and Parameter Estimates Equation Linear Quadratic Cubic Summary Parameter Estimates b b2 R Square F df df2 Sig. Constant b3 64.06.00.42 75.5 07.000.544 63.352 2 06.000 59.95.003 -.E-007.604 53.35 3 05.000 57.270.006-4.5E-007.2E-0 The independent variable is gdp_cap Gross domestic product / capita. ιαφάνεια 2-6 ιαφάνεια 2-8
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-3 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-4 Παράδειγµα -4 (SPSS: Stepwise procedures) Παράδειγµα -4 (SPSS: Stepwise procedures) Variables Entered/Removed a Variables Entered Variables Removed Method gdp_cap Gross domestic product /. Stepwise (Criteria: Probability-of-F-to-enter <=.050, Probability-of-F-to- 2 G2. Stepwise (Criteria: Probability-of-F-to-enter <=.050, Probability-of-F-to- 3 G3. Stepwise (Criteria: Probability-of-F-to-enter <=.050, Probability-of-F-to- 4 G4. Stepwise (Criteria: Probability-of-F-to-enter <=.050, Probability-of-F-toa. Dependent Variable: lifeexpf Average female life expectancy ιαφάνεια 2-9 ιαφάνεια 2-2 Παράδειγµα -4 (SPSS: Stepwise procedures) ΕΡΜΗΝΕΙΑ ΤΕΤΡΑΓΩΝΙΚΩΝ ΜΟΝΤΕΛΩΝ Y = b 0 +b x+b 2 x 2 ΜΕΤΑΒΟΛΗ ΜΙΑΣ ΜΟΝΑ ΑΣ ΣΤΗΝ Χ ΣΥΝΕΠΑΓΕΤΑΙ µ x+ µ x = b + b 2 (2x+) [ΕΞΑΡΤΑΤΑΙ ΑΠΟ ΤΟ Χ] Αν b 2 > 0 ελάχιστο για x= - b /(2b 2 ) Αν b 2 <0 µέγιστο για x= - b /(2b 2 ) ιαφάνεια 2-20 ιαφάνεια 2-22
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-5 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-6.8. Χρήση κατηγορικών συµµεταβλητών σε παλινδροµικά µοντέλα.8. Χρήση κατηγορικών συµµεταβλητών σε παλινδροµικά µοντέλα ΤΟ ΜΟΝΤΕΛΟ ΤΗΣ ΑΝΑΛΥΣΗΣ ΙΑΚΥΜΑΝΣΗΣ Έστω ότι έχουµε k=,2,,k οµάδες και σε κάθε οµάδα j=,2,, n k παρατηρήσεις Υ kj = µ k + ε, ε~ν(0,σ 2 ) Υ kj = µ + α k + ε, ε~ν(0,σ 2 ) α k ονοµάζεται επίδραση του k επιπέδου της κατηγορικής µεταβλητής Για να έχουµε σωστή παραµετροποίση πρέπει να χρησιµοποιήσουµε περιορισµό Ερµηνεία µας γίνεται ανάλογα την παραµετροποίηση ιαφάνεια 2-23 Γωνιακοί περιορισµοί Corner Constraints Επίπεδο D 2 D 3 D κ- D κ 0 0 0 0 2 0 0 0... κ- 0 0 0 κ 0 0 0 Αν Χ= (επίπεδο αναφοράς) τότε όλες οι dummies θα έχουν τιµή µηδέν (0) Αν Χ=i> τότε η i dummy θα έχει τιµή ένα () ενώ όλες οι άλλες είναι µηδέν (0). ιαφάνεια 2-25.8. Χρήση κατηγορικών συµµεταβλητών σε παλινδροµικά µοντέλα.8. Χρήση κατηγορικών συµµεταβλητών σε παλινδροµικά µοντέλα Για να χρησιµοποιήσουµε κατηγορικές µεταβλητές χρειαζόµαστε να φτιάξουµε ψευδοµεταβλητές (Dummy variables) Για κ επίπεδα χρειαζόµαστε κ- ψευδοµεταβλητές 2 συνηθισµένοι τύποι Μεταβλητές 0- (Γωνιακοί περιορισµοί Corner Constraints) a = 0 [π.χ. α =0] : Γίνεται χρήση ενός βασικού επιπέδου αναφοράς (baseline reference category) Ψευδοµεταβλητές Μηδενικού Αθροίσµατος (sum-to-zero constraints): Κάθε παράµετρος µετράει αποκλίσεις από το «µέσο» των επιδράσεων K K a = 0 a = a ιαφάνεια 2-24 k = k k = 2 k Περιορισµοί Μηδενικού Αθροίσµατος Sum-to-zero Constraints Επίπεδο D 2 D 3 D κ- D κ - - - - 2 0 0 0... κ- 0 0 0 κ 0 0 0 Αν Χ= (επίπεδο αναφοράς) τότε όλες οι dummies θα έχουν τιµή µείον ένα (-) Αν Χ=i> τότε η i dummy θα έχει τιµή ένα () ενώ όλες οι άλλες είναι µηδέν (0). ιαφάνεια 2-26
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-7 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-8.9. Σχέση παλινδρόµησης και ANOVA/t-tests.9. Σχέση παλινδρόµησης και ANOVA/t-tests Γωνιακοί περιορισµοί Corner Constraints Υ = β 0 + β 2 D 2 + ε Αν X= (επίπεδο αναφοράς) D 2 = 0 Υ= β 0 + ε η µέση (αναµενόµενη) τιµή του ου επιπέδου είναι ίση µε τη σταθερά β 0 Αν X=2 (επίπεδο 2) D 2 = Υ= β 0 + β 2 η µέση (αναµενόµενη) τιµή του 2ου επιπέδου είναι ίση µε β 0 + β 2 Συνεπώς β 2 είναι η διαφορά των µέσων τιµών στα δύο επίπεδα (αυτό δεν κάνει το t-test;) ιαφάνεια 2-27 Περιορισµοί µηδενικού αθροίσµατος STZ Constraints Υ = β 0 + β 2 D 2 + ε Αν X= D 2 = - Υ= β 0 β 2 + ε η µέση (αναµενόµενη) τιµή του ου επιπέδου είναι ίση µε τη σταθερά β 0 β 2 Αν X=2 (επίπεδο 2) D 2 = Υ= β 0 + β 2 η µέση (αναµενόµενη) τιµή του 2ου επιπέδου είναι ίση µε β 0 + β 2 Συνεπώς β 2 είναι η απόκλιση κάθε επιπέδου από το συνολικό µέσο Συνεπώς β 0 είναι εκτίµηση για το συνολικό µέσο ιαφάνεια 2-29.9. Σχέση παλινδρόµησης και ANOVA/t-tests.9. Σχέση παλινδρόµησης και ANOVA/t-tests ΠΑΡΑ ΕΙΓΜΑ 4-6 [05_dataset3] ΠΑΡΑ ΕΙΓΜΑ 4-6 [05_dataset.dat] Independent Samples Test Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means Levene's Test for Equality of Variances t-test for Equality of Means score Equal variances assumed 95% Confidence Interval of the Difference Mean Std. Error F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper.62.440 -.528 20.42-4.73333 3.09734 -.9428.7276 score Equal variances assumed 95% Confidence Interval of the Difference Mean Std. Error F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper.62.440 -.528 20.42-4.73333 3.09734 -.9428.7276 Equal variances not assumed -.569 9.846.33-4.73333 3.0752 -.03090.56424 Equal variances not assumed -.569 9.846.33-4.73333 3.0752 -.03090.56424 d2 a. Dependent Variable: score a t Sig. 83.67 2.088 39.826.000 4.733 3.097.323.528.42 d2stz a. Dependent Variable: score a t Sig. 85.533.549 55.230.000 2.367.549.323.528.42 ιαφάνεια 2-28 ιαφάνεια 2-30
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-9 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-20.9. Σχέση παλινδρόµησης και ANOVA/t-tests Οι 2 παλινδροµήσεις είναι ισοδύναµες Οι έλεγχοι για το β 2 είναι ισοδύναµοι µε τα independent samples t-tests. Το ίδιο συµβαίνει και µε την ANOVA.9. Σχέση παλινδρόµησης και ANOVA/t-tests Παράδειγµα [05_dataset03] Γωνιακοί περιορισµοί Corner Constraints ΓΕΝΙΚΟΙ ΚΑΝΟΝΕΣ Για <i<κ Αν X=i (επίπεδο i) D i =, D k = 0 για k i Υ= β 0 + β i η µέση (αναµενόµενη) τιµή του <i> επιπέδου είναι ίση µε β 0 + β i Συνεπώς β 0 είναι ο µέσος του επίπεδου αναφοράς Συνεπώς β i είναι η διαφορά του <i> επιπέδου από το επίπεδο αναφοράς ιαφάνεια 2-3 ιαφάνεια 2-33.9. Σχέση παλινδρόµησης και ANOVA/t-tests Παράδειγµα [05_dataset03].9. Σχέση παλινδρόµησης και ANOVA/t-tests Παράδειγµα [05_dataset03] Γωνιακοί περιορισµοί Corner Constraints κ=3 επίπεδα Υ = β 0 + β 2 D 2 + β 3 D 3 + ε Αν X= (επίπεδο αναφοράς) D 2 = 0, D 3 = 0 Υ= β 0 + ε η µέση (αναµενόµενη) τιµή του ου επιπέδου είναι ίση µε τη σταθερά β 0 Αν X=2 (επίπεδο 2) D 2 =, D 2 = 0 Υ= β 0 + β 2 η µέση (αναµενόµενη) τιµή του 2ου επιπέδου είναι ίση µε β 0 + β 2 Αν X=3 (επίπεδο 2) D 2 = 0, D 2 = Υ= β 0 + β 3 η µέση (αναµενόµενη) τιµή του 2ου επιπέδου είναι ίση µε β 0 + β 3 Συνεπώς β 2 είναι η διαφορά του 2ου επιπέδου από το επ. Αναφοράς Συνεπώς β 3 είναι η διαφορά του 3ου επιπέδου από το επ. αναφοράς ιαφάνεια 2-32 Γωνιακοί περιορισµοί Corner Constraints grade Between Groups Within Groups Total Regression Residual Total a. Predictors:, d3, d2 b. Dependent Variable: grade ANOVA Sum of Squares df Mean Square F Sig. 250.000 2 25.000 3.348.070 448.000 2 37.333 698.000 4 ANOVA b ΠΑΛΙΝ ΡΟΜΗΣΗ Sum of Squares df Mean Square F Sig. 250.000 2 25.000 3.348.070 a 448.000 2 37.333 698.000 4 Η 0 : µ =µ 2 =µ 3 Η 0 : β 2 =β 3 =0 ιαφάνεια 2-34
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-2 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-22.9. Σχέση παλινδρόµησης και ANOVA/t-tests Παράδειγµα [05_dataset03].9. Σχέση παλινδρόµησης και ANOVA/t-tests Παράδειγµα [05_dataset03] Γωνιακοί περιορισµοί Corner Constraints Dependent Variable: grade Parameter Intercept [method=] [method=2] [method=3] Parameter Estimates ANOVA ΤΕΛΕΥΤΑΙΟ ΕΠΙΠΕ Ο ΕΙΝΑΙ ΤΟ ΕΠΙΠΕ Ο ΑΝΑΦΟΡΑΣ 95% Confidence Interval B Std. Error t Sig. Lower Bound Upper Bound 75.000 2.733 27.447.000 69.046 80.954 5.000 3.864.294.220-3.420 3.420 0.000 3.864 2.588.024.580 8.420 0 a..... a. This parameter is set to zero because it is redundant. a d2 d3 a. Dependent Variable: grade ΠΑΛΙΝ ΡΟΜΗΣΗ t Sig. 80.000 2.733 29.277.000 5.000 3.864.346.294.220-5.000 3.864 -.346 -.294.220 ιαφάνεια 2-35 Περιορισµοί µηδενικού αθροίσµατος Sumto-zero Constraints ΓΕΝΙΚΟΙ ΚΑΝΟΝΕΣ Για <i<κ Αν X=i (επίπεδο i) D i =, D k = 0 για k i Υ= β 0 + β i η µέση (αναµενόµενη) τιµή του <i> επιπέδου είναι ίση µε β 0 + β i Συνεπώς β 0 είναι ο συνολικός µέσος (ο µέσος των µέσων) Συνεπώς β i είναι η διαφορά του <i> επιπέδου από το συνολικό µέσο ιαφάνεια 2-37.9. Σχέση παλινδρόµησης και ANOVA/t-tests Παράδειγµα [05_dataset03] Μοντέλο παράλληλων γραµµών Περιορισµοί µηδενικού αθροίσµατος Sum-to-zero Constraints κ=3 επίπεδα Υ = β 0 + β 2 D 2 + β 3 D 3 + ε Αν X= (επίπεδο αναφοράς) D 2 = -, D 3 = - Υ= β 0 β 2 β 3 + ε η µέση (αναµενόµενη) τιµή του ου επιπέδου είναι ίση µε τη σταθερά β 0 β 2 β 3 Αν X=2 (επίπεδο 2) D 2 =, D 2 = 0 Υ= β 0 + β 2 η µέση (αναµενόµενη) τιµή του 2ου επιπέδου είναι ίση µε β 0 + β 2 Αν X=3 (επίπεδο 2) D 2 = 0, D 2 = Υ= β 0 + β 3 η µέση (αναµενόµενη) τιµή του 2ου επιπέδου είναι ίση µε β 0 + β 3 Συνεπώς β 2 είναι η διαφορά του 2ου επιπέδου από το συνολικό µέσο (β 0 ) Συνεπώς β 3 είναι η διαφορά του 3ου επιπέδου από το το συνολικό µέσο (β 0 ) ιαφάνεια 2-36 Γυρίζουµε στο παράδειγµα 8- Έχουµε και την περιοχή όπου (πιθανώς) να επηρεάζει την τιµή των σπιτιών Έχουµε 3 περιοχές άρα θα χρησιµοποιήσουµε 2 dummies µε περιοχή αναφοράς την η (area2, area3) ιαφάνεια 2-38
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-23 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-24 Μοντέλο παράλληλων γραµµών Μοντέλο παράλληλων γραµµών Summary Συνεπώς το µοντέλο µας θα γίνει = β 0 + β Living i + β 2 area2 i + β 3 area3 i (χρησιµοποιούµε µόνο την έκταση της οικίας για να είναι πιο εύκολο το παράδειγµα) ιαφάνεια 2-39 Adjusted Std. Error of R R Square R Square the Estimate.972 a.945.939 894.834 a. Predictors:, area3, area2, living Size of Living Area in Sq. ft Area in Sq. ft area2 area3 a a. Dependent Variable: price n US Dollars t Sig. 42. 750.6 3.50.002 43.6 8.2.67 5.32.000 405.0 508.7.06.79.437 24283. 9950.4.35 2.44.022 = 42 + 43.6 Living i + 4005 area2 i + 24283 area3 i ιαφάνεια 2-4 Μοντέλο παράλληλων γραµµών Μοντέλο παράλληλων γραµµών ΙΑ ΙΚΑΣΙΑ Φτιάχνουµε τις dumies (area2, area3) Προσαρµόζουµε το παλινδροµικό µοντέλο µε Y την τιµή (price) και Χ το µέγεθος του οικήµατος (living) και τις dumies των περιοχών (area2, area3) Επιλέγουµε το µοντέλο µας Ερµηνεύουµε τις παραµέτρους = 42 + 43.6 Living i + 405 area2 i + 242832area3 i ΕΡΜΗΝΕΙΑ ΠΑΡΑΜΕΤΡΩΝ Subdivision=A area2=area3=0 = β 0 + β Living i [εδώ = 42 + 43.6 Living i ] Συνεπώς β 0 : σταθερά του παλινδροµικού µοντέλου για την περιοχή Α β 0 : Αναµενόµενη τιµή της περιοχής Α όταν το οίκηµα έχειµηδενική έκταση (???) [εδώ 42$] β : κλίση του παλινδροµικού µοντέλου για την περιοχή Α β : Αναµενόµενη αύξηση τιµής στην περιοχή Α ανά τετραγωνικό έκτασης κτιρίου [εδώ 43.6$] ιαφάνεια 2-40 ιαφάνεια 2-42
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-25 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-26 Μοντέλο παράλληλων γραµµών Μοντέλο παράλληλων γραµµών = 42 + 43.6 Living i + 405 area2 i + 24283 area3 i ΕΡΜΗΝΕΙΑ ΠΑΡΑΜΕΤΡΩΝ Subdivision=Β area2=, area3=0 = (β 0 +β 2 )+β Living i [εδώ = 4536+43.6 Living i ] Συνεπώς (β 0 +β 2 ): σταθερά του παλινδροµικού µοντέλου για την περιοχή Β (β 0 +β 2 ): Αναµενόµενη τιµή τηςπεριοχήςβόταντοοίκηµα έχει µηδενική έκταση (???) [εδώ 4536$] β : κλίση του παλινδροµικού µοντέλου για την περιοχή B (ίδια µε Α) β : Αναµενόµενη αύξηση τιµής στην περιοχή Β ανά τετραγωνικό έκτασης κτιρίου [εδώ 43.6$] β 2 : ιαφορά τιµής µεταξύ 2 σπιτιών περιοχών Α και Β ίδιου µεγέθους (στη Β είναι 405$ πιο ακριβό) ιαφάνεια 2-43 = 42 + 43.6 Living i + 405 area2 i + 24283 area3 i ΕΡΜΗΝΕΙΑ ΠΑΡΑΜΕΤΡΩΝ (συνοπτική) β 0 : το πάγιο κόστος µίας κατοικίας στην περιοχή Α είναι 42$ β : το κόστος κάθε τετραγωνικού είναι 43.6 για όλες τις περιοχές β 2 : ένα σπίτι στην περιοχή Β έχει 405$ επιπλέον πάγιο κόστος σε σχέση µε ένα σπίτι της περιοχής Α β 3 : ένα σπίτι στην περιοχή C έχει 24283$ επιπλέον πάγιο κόστος σε σχέση µε ένα σπίτι της περιοχής Α [ΠΡΟΣΟΧΗ]: ΤΟ β είναι κοινό [ΠΑΡΑΛΛΗΛΕΣ ΓΡΑΜΜΕΣ] ιαφάνεια 2-45 Μοντέλο παράλληλων γραµµών Μοντέλο παράλληλων γραµµών = 42 + 43.6 Living i + 405 area2 i + 24283 area3 i ΕΡΜΗΝΕΙΑ ΠΑΡΑΜΕΤΡΩΝ Subdivision=C area2=0, area3= = (β 0 +β 3 )+β Living i [εδώ = 650404+43.6 Living i ] Συνεπώς (β 0 +β 3 ): σταθερά του παλινδροµικού µοντέλου για την περιοχή C (β 0 +β 3 ): Αναµενόµενη τιµή τηςπεριοχήςc όταν το οίκηµα έχει µηδενική έκταση (???) [εδώ 65404$] β : κλίση του παλινδροµικού µοντέλου για την περιοχή C (ίδια µε Α,B) β : Αναµενόµενη αύξηση τιµής στην περιοχή C ανά τετραγωνικό έκτασης κτιρίου [εδώ 43.6$] β 3 : ιαφορά τιµής µεταξύ 2 σπιτιών περιοχών Α και C ίδιου µεγέθους (στη C είναι 24283$ πιο ακριβό) ιαφάνεια 2-44 ιαφάνεια 2-46
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-27 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-28 Μοντέλο παράλληλων γραµµών = 42 + 43.6 Living i + 405 area2 i + 24283 area3 i ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ β 2 p=0.437 >0.05 δεν υπάρχει σηµαντική διαφοροποίηση του πάγιου κόστους µεταξύ των περιοχών Α & Β µπορούµε νααφαιρέσουµε τηνdummy area2 και να έχουµε έναµοντέλο για τις 2 περιοχές β 3 p=0.022<0.05 υπάρχει σηµαντική διαφοροποίηση τουπάγιουκόστουςµεταξύ των περιοχών Α & C β 0 & β στατιστικά σηµαντικά ΠΡΟΣΟΧΗ: συγκρίσεις (+έλεγχοι υποθέσεων) γίνονται µόνο σε σχέση µε το επίπεδο αναφοράς. Αν θέλαµε να συγκρίνουµε το πάγιο κόστος των περιοχών Β+C θα έπρεπε να αλλάξουµε το επίπεδο αναφοράς. ιαφάνεια 2-47 Είναι πιο ρεαλιστικό µοντέλο να υποθέσουµε διαφορετική τιµή ανά τετραγωνικό διαφορετικές κλίσεις διαφορετικά παλινδροµικά µοντέλα ήέναενιαίο(συνδιακύµανσης) = β 0 + β Living i + β 2 area2 i + β 3 area3 i + β 4 Living i + β 4 Living i ιαφάνεια 2-49 Είναι πιο ρεαλιστικό µοντέλο να υποθέσουµε διαφορετική τιµή ανά τετραγωνικό διαφορετικές κλίσεις διαφορετικά παλινδροµικά µοντέλα Οι πολλαπλασιαστικοί όροι Living i & Living i είναι οι παράµετροι που µετρούν τις αλληλεπιδράσεις της ποσοτικής living και της κατηγορικής subdivision στην µεταβλητή απόκρισης Price εισάγουν διαφορετικές κλίσεις στο µοντέλο µας βοηθούν να ελέγξουµε την ισότητα των κλίσεων (και για αυτό δεν κάνουµε 3 διαφορετικά µοντέλα) ΣΤΗΝ ΠΡΑΞΗ: όταν έχουµε πολλές επεξηγηµατικές µεταβλητές (ποσοτικές + κατηγορικές) δεν είναι δυνατόν λάβουµε όλες τις αλληλεπιδράσεις Παίρνουµε µόνο αυτές που έχουν λογική ερµηνεία ή πρέπει να συµπεριληφθούν σύµφωνα µε κάποια επιστηµονική θεωρία ή σενάριο ιαφάνεια 2-48 ιαφάνεια 2-50
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-29 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-30 ΙΑ ΙΚΑΣΙΑ Φτιάχνουµε τις dumies (area2, area3) Φτιάχνουµε τις αλληλεπιδράσεις livar2, livar3 Προσαρµόζουµε το παλινδροµικό µοντέλο µε Y την τιµή (price) και Χ το µέγεθος του οικήµατος (living), τις dumies των περιοχών (area2, area3) και τις αλληλεπιδράσεις livar2, livar3 Επιλέγουµε το µοντέλο µας Ερµηνεύουµε τις παραµέτρους = 440 + 43.4 Living i + 7625 area2 i + 793 area3 i -7.4 Living i + 3.4 Living i ΕΡΜΗΝΕΙΑ ΠΑΡΑΜΕΤΡΩΝ Subdivision=A area2=area3=0 = β 0 + β Living i [εδώ = 440 + 43.4 Living i ] Συνεπώς β 0 : σταθερά του παλινδροµικού µοντέλου για την περιοχή Α β 0 : Αναµενόµενη τιµή της περιοχής Α όταν το οίκηµα έχειµηδενική έκταση (???) [εδώ 440$] β : κλίση του παλινδροµικού µοντέλου για την περιοχή Α β : Αναµενόµενη αύξηση τιµής στην περιοχή Α ανά τετραγωνικό έκτασης κτιρίου [εδώ 43.4$] ιαφάνεια 2-5 ιαφάνεια 2-53 ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΑΡΑ ΕΙΓΜΑΤΟΣ = 440 + 43.4 Living i + 7625 area2 i + 793 area3 i -7.4 Living i + 3.4 Living i Area in Sq. ft area2 area3 livar2 livar3 a t Sig. 440.0 24395.0.697.03 43.4 7.3.664 2.504.09 7624.8 448.6.254.428.672 593.2 3832.3.230.47.680-7.4 25.0 -.96 -.295.770 3.4 20.8.25.63.872 a. Dependent Variable: price n US Dollars ιαφάνεια 2-52 = 440 + 43.4 Living i + 7625 area2 i + 793 area3 i - 7.4 Living i + 3.4 Living i ΕΡΜΗΝΕΙΑ ΠΑΡΑΜΕΤΡΩΝ Subdivision=Β area2=, area3=0 = (β 0 +β 2 )+ (β +β 4 )Living i [ = 59035 + 36 Living i ] β 0 +β 2 : σταθερά του παλινδροµικού µοντέλου για την περιοχή B β 0 +β 2 : Αναµενόµενη τιµή της περιοχής B όταν το οίκηµα έχειµηδενική έκταση (???) [εδώ 59035$] β 2 : ιαφορά των αναµενόµενων τιµών των περιοχών Α & Β όταντοοίκηµα έχει µηδενική έκταση (???) [εδώ στην περιοχή Β έχουµε πάγιοκόστοςµεγαλύτερο κατά 7625$ από ότι στην περιοχή Α]. β + β 4 : κλίση του παλινδροµικού µοντέλου για την περιοχή B β + β 4 : Αναµενόµενηαύξησητιµής στην περιοχή B ανά τετραγωνικό έκτασης κτιρίου [εδώ 36$] β 4 : ιαφορά τιµής ανά τετραγωνικό για την περιοχή Β σε σχέση µε τηνπεριοχήα [εδώ στη περιοχή Β το τετραγωνικό κοστίζει 7.4 λιγότερα $ από ότι στην Α] ιαφάνεια 2-54
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-3 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-32 = 440 + 43.4 Living i + 7625 area2 i + 793 area3 i -7.4 Living i + 3.4 Living i ΕΡΜΗΝΕΙΑ ΠΑΡΑΜΕΤΡΩΝ Subdivision=C area2=0, area3= = (β 0 +β 3 )+ (β +β 5 )Living i [ = 59323+ 46.8 Living i ] β 0 +β 3 : σταθερά του παλινδροµικού µοντέλου για την περιοχή C β 0 +β 3 : Αναµενόµενη τιµή της περιοχής C όταν το οίκηµα έχειµηδενική έκταση (???) [εδώ 59035$] β 3 : ιαφορά των αναµενόµενων τιµών των περιοχών Α & C όταν το οίκηµα έχει µηδενική έκταση (???) [εδώ στην περιοχή C έχουµε πάγιο κόστος µεγαλύτερο κατά 793$ από ότι στην περιοχή Α]. β + β 5 : κλίση του παλινδροµικού µοντέλου για την περιοχή C β + β 5 : Αναµενόµενηαύξησητιµής στην περιοχή C ανά τετραγωνικό έκτασης κτιρίου [εδώ 46.8$] β 5 : ιαφορά τιµής ανά τετραγωνικό για την περιοχή C σε σχέση µε τηνπεριοχήα [εδώ στη περιοχή C το τετραγωνικό κοστίζει 3.4 περισσότερα $ από ότι στην Α] ιαφάνεια 2-55 ιαφάνεια 2-57 = 440 + 43.4 Living i + 7625 area2 i + 793 area3 i -7.4 Living i + 3.4 Living i ΕΡΜΗΝΕΙΑ ΠΑΡΑΜΕΤΡΩΝ (συνοπτική) β 0 : το πάγιο κόστος µίας κατοικίας στην περιοχή Α είναι 42$ β : το κόστος κάθε τετραγωνικού είναι 43.6 για όλες τις περιοχές β 2 : το επιπλέον πάγιο κόστος για την περιοχή Β είναι 7625$ µεγαλύτερο σε σχέση µε τηνπεριοχήα β 3 : το επιπλέον πάγιο κόστος για την περιοχή C είναι 793$ µεγαλύτερο σε σχέση µε τηνπεριοχήα β 4 : ένα σπίτι στην περιοχή B έχει 7.4$ µικρότερο κόστος ανά τετραγωνικό σε σχέση µε ένα σπίτι της περιοχής Α β 5 : ένα σπίτι στην περιοχή C έχει 3.4$ µεγαλύτερο κόστος ανά τετραγωνικό σε σχέση µε ένα σπίτι της περιοχής Α ιαφάνεια 2-56 = 440 + 43.4 Living i + 7625 area2 i + 793 area3 i -7.4 Living i + 3.4 Living i ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ β 4 & β 5 δεν υπάρχει διαφορά στο κόστος ανά τετραγωνικό για τις 3 περιοχές β 2 & β 3 δεν υπάρχει διαφορά στο πάγιο κόστος για τις 3 περιοχές β το πάγιο κόστος της περιοχής Α µπορεί να θεωρηθεί µηδέν β 2 ητιµή αλλάζει ανάλογα µε την έκταση του οικήµατος. ιαφάνεια 2-58
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-33 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-34 και κοινής σταθεράς Είναι πιο ρεαλιστικό µοντέλο να υποθέσουµε διαφορετική τιµή ανά τετραγωνικό και ίδιο πάγιο κόστος (αν αυτό έχει νόηµα) διαφορετικά παλινδροµικά µοντέλα µε ίδιες σταθερές = β 0 + β Living i + β 4 Living i + β 4 Living i και κοινής σταθεράς = 5068 + 36.9 Living i + 3.7 Living i + 2.5 Living i ιαφάνεια 2-59 ιαφάνεια 2-6 και κοινής σταθεράς = 5068 + 36.9 Living i + 3.7 Living i + 2.5 Living i Area in Sq. ft livar2 livar3 a a. Dependent Variable: price n US Dollars t Sig. 5067.6 5762.9 3.2.004 36.9.3.565 3.27.003 3.7 3.5.098.063.297 2.5 5.4.460 2.33.028 και µηδενικής σταθεράς Είναι πιο ρεαλιστικό µοντέλο να υποθέσουµε διαφορετική τιµή ανά τετραγωνικό και µηδενικό πάγιο κόστος διαφορετικά παλινδροµικά µοντέλα µε ίδιες σταθερές = β Living i + β 4 Living i + β 4 Living i [SPSS: Analyze>Regression>Linear OPTIONS Include constant in equation ] ιαφάνεια 2-60 ιαφάνεια 2-62
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-35 Ενότητα 2 ιαφάνειες Μαθήµατος: 2-36 και µηδενικής σταθεράς = 72.6 Living i -4.6 Living i 3.4 Living i Area in Sq. ft livar2 livar3 a,b B Std. Error a. Dependent Variable: price n US Dollars b. Linear Regression through the Origin Beta 72.6 2..043 34.02.000-4.6 2.7 -.035 -.696.0-3.4 2.4 -.036 -.374.8 t Sig. Κλιµακωτές ιαδικασίες Επιλογής Μεταβλητών Εδώ η σταθερά φαίνεται να βελτιώνει την προσαρµογή του µοντέλου οπότε µάλλον πρέπει να την αφήσουµε στο µοντέλο Κάνοντας backward (βάζοντας και τη σταθερά µέσα ως µεταβλητή) καταλήγουµε στο ακόλουθο µοντέλο = 35892 + 48 Living i + 7625 area2 i + 876 area3 i ιαφάνεια 2-63 ιαφάνεια 2-65 και µηδενικής σταθεράς = 72.6 Living i -4.6 Living i 3.4 Living i 2 3 4 Κλιµακωτές ιαδικασίες Επιλογής Μεταβλητών Variables Entered/Removed b,c Variables Variables Entered Removed Method livar3, livar2, constant, area3, area2, Area in Sq. ft a. Enter. livar3 Backward (criterion: Probability of F-to-remove >=.00).. livar2 Backward (criterion: Probability of F-to-remove >=.00).. area2 Backward (criterion: Probability of F-to-remove >=.00). a. All requested variables entered. b. Dependent Variable: price n US Dollars c. Linear Regression through the Origin ιαφάνεια 2-64 ιαφάνεια 2-66
Ενότητα 2 ιαφάνειες Μαθήµατος: 2-37 Κλιµακωτές ιαδικασίες Επιλογής Μεταβλητών Κάνοντας backward (αφαιρώντας τις area2 & area 3 προκαθορίζουµε ίσες σταθερές) καταλήγουµε στο ακόλουθο µοντέλο = 388 + 47 Living i + 7.6 Living i area3 i ιαφάνεια 2-67 Κλιµακωτές ιαδικασίες Επιλογής Μεταβλητών 2 Variables Entered/Removed b,c Variables Variables Entered Removed Method livar3, livar2, constant, living Size of Living Area in Sq. ft a. Enter. livar2 Backward (criterion: Probability of F-to-remove >=.00). a. All requested variables entered. b. Dependent Variable: price n US Dollars c. Linear Regression through the Origin ιαφάνεια 2-68