Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις
Οι παρούσες σημειώσεις επιχειρούν να αποτελέσουν μια βοήθεια τόσο στην παρακολούθηση της διάλεξης όσο και στη μελέτη κάποιων εκ των θεμάτων της Γραμμικής Παλινδρόμησης που θα διδαχθούν από το συγγραφέα τους στα πλαίσια του μαθήματος «Στατιστική Ανάλυση Δεδομένων». Ενότητα 1 η ΈΛΕΓΧΟΣ ΣΥΣΧΕΤΙΣΜΕΝΩΝ ΣΦΑΛΜΑΤΩΝ Παράδειγμα 1 autocorrelation1.sav Προσαρμόζω το μοντέλο χωρίς quarter και ζητώ την αποθήκευση των παρακάτω
Τότε προκύπτουν
Model Summary b Adjusted R Std. Error of the Model R R Square Square Estimate Durbin-Watson 1,978 a,957,955 3,98268,328 a. Predictors: (Constant), MONEY STOCK b. Dependent Variable: Consumer Expenditure a Unstandardized Standardized Model B Std. Error Beta t Sig. 1 (Constant) -154,719 19,850-7,794,000 MONEY STOCK 2,300,115,978 20,080,000 a. Dependent Variable: Consumer Expenditure Ελέγχω κανονικότητα, σταθερή διακύμανση και ορθότητα μοντέλου. Καθώς οι παρατηρήσεις έχουν διαταχθεί κατά χρονολογική σειρά είναι δικαιολογημένο να περιμένω ότι μπορεί να εμφανιστεί αυτοσυσχέτιση Τρόποι ελέγχου Γραφική παράσταση των υπολοίπων (ή των μαθητικοποιημένων υπολοίπων) ως προς την χρονολογική σειρά των παρατηρήσεων. Άρα δημιουργώ τη στήλη (αύξων αριθμό-id) ΑΑ. Έπειτα γραφική από Chart Builder υπολοίπων ως προς ΑΑ. 8,00000 6,00000 Unstandardized Residual 4,00000 2,00000-2,00000-4,00000-6,00000 0,00 5,00 10,00 aa 15,00 20,00
Παρατηρούμε ότι κάποια θετικά, μετά αρνητικά μετά θετικά άρα υπάρχει αυτοσυσχέτιση!!!!! Τεστ των Durbin-Watson (1 ου βαθμού). Ένας άλλος στατιστικός τρόπος εξέτασης της αυτοσυσχέτισης πρώτου βαθμού επιτυγχάνεται με το στατιστικό των Durbin-Watson (Linear Regression Statistics). Το στατιστικό αυτό ελέγχει την μηδενική υπόθεση της μη ύπαρξης αυτοσυσχέτισης έναντι της εναλλακτικής ότι υπάρχει θετική αυτοσυσχέτιση πρώτου βαθμού (γραμμική). Η τιμή d αυτού του στατιστικού συγκρίνεται με τις τιμές d l και d u που δίνονται από κατάλληλους πίνακες. Αν d < d τότε απορρίπτεται η υπόθεση των l ασυσχέτιστων σφαλμάτων. Αν d > d η υπόθεση δεν μπορεί να απορριφθεί, ενώ αν u d < d < d δεν μπορούμε να πάρουμε απόφαση. l u Model Summary b Adjusted R Std. Error of the Model R R Square Square Estimate Durbin-Watson 1,978 a,957,955 3,98268,328 a. Predictors: (Constant), MONEY STOCK b. Dependent Variable: Consumer Expenditure Για n=20 k=1 είναι d l = 1.2 και d u = 1.41 οπότε απορρίπτεται η υπόθεση των ασυσχέτιστων σφαλμάτων. Άρα υπάρχει αυτοσυσχέτιση πρώτου βαθμού.
Runs Test Unstandardized Residual Test Value(a),0000000 Total Cases 20 Number of Runs 5 Z -2,447 Asymp. Sig. (2-tailed),014 a User-specified. Αν το αρχικό μοντέλο είναι το Y = β + β Χ + ε t 0 1 t t Ύπαρξη αυτοσυσχέτισης πρώτου βαθμού σημαίνει ότι: Επομένως με πράξεις έχω εt = ρεt 1 + ut, ρ < 1 ( ) ( ) Yt = β0 + β1xt + ρ Yt 1 β0 β1xt 1 + ut > Y ρy = β (1 ρ) + β X ρx + u t t 1 0 1 t t 1 t Επομένως μου υποδεικνύεται ποιος είναι ο μετασχηματισμός. Είναι ο Y ρy = Y, X ρx = X * * t t 1 t t t 1 t
Το θέμα είναι πως θα υπολογίσω το ρ. Λύση εκτίμηση Πως? Από το μοντέλο ε = ρε + u t t 1 t Δηλαδή το μοντέλο χωρίς σταθερό όρο με εξαρτημένη τα υπόλοιπα και ανεξάρτητη τη Lag(υπόλοιπα,1). (a,b) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 lagres1,875,143,822 6,128,000 a Dependent Variable: Unstandardized Residual b Linear Regression through the Origin Άρα ˆ ρ = 0.874 επομένως είμαι σε θέση τώρα να κάνω το νέο μετασχηματισμό Y 0.875 Y = Y, X 0.875X = X * * t t 1 t t t 1 t (a) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 (Constant) -30,523 14,044-2,173,044 xasteri 2,795,613,742 4,557,000 a Dependent Variable: yasteri Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1,742(a),550,523 2,25138 1,669 a Predictors: (Constant), xasteri b Dependent Variable: yasteri ˆ 30.523 β 0νεο = 1νεο ˆ 2.795 β = άρα 0 ˆ 30.523 β νεο = = 244.184 ˆ β 1παλιό = 2.795 1 0.875
Παράδειγμα 2 autocorrelation2.sav a Unstandardized Standardized Model B Std. Error Beta t Sig. 1 (Constant) -,061,010-5,845,000 popult,071,004,962 16,867,000 a. Dependent Variable: starts (a) Model Summary b Adjusted R Std. Error of the Model R R Square Square Estimate Durbin-Watson 1,962 a,925,922,00408024,621 a. Predictors: (Constant), popult b. Dependent Variable: starts
d = 1.29 υπάρχει αυτοσυσχέτιση πρώτου βαθμού l 0,01000 Unstandardized Residual 0,00500-0,00500-0,01000 0,00 5,00 10,00 id 15,00 20,00 25,00 Runs Test Unstandardize d Residual Test Value(a),0000000 Total Cases 25 Number of Runs 6 Z -2,829 Asymp. Sig. (2-tailed),005 a User-specified. Προσαρμόζω το μοντέλο βάζοντας και τη νέα μεταβλητή μέσα υποψιασμένος ότι δεν αρκούν αυτές οι δύο μεταβλητές Model Summary b Adjusted R Std. Error of the Model R R Square Square Estimate Durbin-Watson 1,986 a,973,971,00250302 1,852 a. Predictors: (Constant), index, popult
b. Dependent Variable: starts a Unstandardized Standardized Model B Std. Error Beta t Sig. 1 (Constant) -,010,010-1,013,322 popult,035,006,467 5,394,000 index,008,001,541 6,254,000 a. Dependent Variable: starts d = 1.29 d = 1, 45 άρα όχι αυτοσυσχέτιση πρώτου βαθμού. l u 0,00250 Unstandardized Residual -0,00250-0,00500-0,00750 0,00 5,00 10,00 id 15,00 20,00 25,00
Runs Test Unstandardize d Residual Test Value(a),0000000 Total Cases 25 Number of Runs 13 Z,000 Asymp. Sig. (2-tailed) 1,000 a User-specified. Παράδειγμα 3 Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1,895(a),801,795 3,01938 1,968 a Predictors: (Constant), pdi b Dependent Variable: sales (a) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 (Constant) 12,392 2,539 4,880,000 pdi,198,016,895 12,351,000 a Dependent Variable: sales n=40 dl=1.44 du=1.54 όχι αυτοσυσχέτιση πρώτου βαθμού.
5,00000 Unstandardized Residual 2,50000-2,50000-5,00000 0,00 10,00 20,00 aa 30,00 40,00 5,00000 Unstandardized Residual 2,50000-2,50000-5,00000-5,00-2,50 0,00 reslag1 2,50 5,00
5,00000 Unstandardized Residual 2,50000-2,50000-5,00000-5,00-2,50 0,00 reslag2 2,50 5,00
Εισαγωγή δείκτριας 1 για χειμώνα 0 για καλοκαίρι Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1,986(a),972,971 1,13737 1,772 a Predictors: (Constant), period, pdi b Dependent Variable: sales (a) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 (Constant) 20,469 1,094 18,704,000 pdi,199,006,898 32,915,000 period -5,464,360 -,415-15,192,000 a Dependent Variable: sales
3,00000 2,00000 Unstandardized Residual 1,00000-1,00000-2,00000-3,00000 0,00 10,00 20,00 aa 30,00 40,00 Runs Test Unstandardize d Residual Test Value(a),0000000 Total Cases 40 Number of Runs 18 Z -,787 Asymp. Sig. (2-tailed),431 a User-specified.
Ενότητα 2 η Πρόβλημα σταθερής διακύμανσης Παράδειγμα chatterjeep.44.sav (a) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 (Constant) 14,448 9,562 1,511,143 Number of workers,105,011,881 9,303,000 a Dependent Variable: Number of supervisors 4 2 Unstandardized Residual -2-4 -6 5 10 15 Unstandardized Predicted Value Αυξάνει η διακύμανση όσο αυξάνει το χ 2 2 Άρα Var( ει ) = κ χ δηλαδή Var( ει / χ) = σταθερή Άρα διαιρώ με χ. Προσαρμόζω το νέο μοντέλο (όχι ορθό φαίνεται ότι λείπει δευτεροβάθμιος όρος) 20 (a) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 (Constant),121,009 13,445,000 diax 3,803 4,570,164,832,413 a Dependent Variable: ydiax
οπότε αρχικό είναι Υ/ Χ = 0.121+ 3.803/ Χ άρα Υ= 0.121Χ+ 3.803 (a,b) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 (Constant) 3,803 4,570,832,413 Number of workers,121,009,937 13,445,000 a Dependent Variable: Number of supervisors b Weighted Least Squares Regression - Weighted by weight Παράδειγμα 2 είναι απλό παίρνεις ρίζα λόγω Poisson!!!! Παράδειγμα trees.sav Προσαρμόζω το μοντέλο Προσαρμόζω το μοντέλο Ενότητα 3 η Πρόβλημα ορθότητας Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson
1,974(a),948,944 3,88183 1,266 a Predictors: (Constant), height, diameter b Dependent Variable: volume (a) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 (Constant) -57,988 8,638-6,713,000 diameter 4,708,264,899 17,816,000 height,339,130,132 2,607,014 a Dependent Variable: volume Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1,974(a),948,944 3,88183 1,266 a Predictors: (Constant), height, diameter b Dependent Variable: volume (Αυτοσυσχέτιση πρώτου βαθμού?1,266<dl και όμως έχω αυτοσυσχέτιση πρώτου βαθμού!!!) 1 Unstandardized Residual 5,00000-5,00000-1 2 4 6 Unstandardized Predicted Value διακύμανση όχι σταθερή, λείπει δευτεροβάθμιος όρος αφού έχω σχήμα τέτοιο ούτε ορθό μοντέλο καθώς δεν κατανέμονται τυχαία γύρω από το μηδέν ίσως μία πιθανή ακραία τιμή. εν υπάρχει πρόβλημα κανονικότητας.
1 Unstandardized Residual 5,00000-5,00000-1 9,00 12,00 15,00 diameter 18,00 21,00 1 Unstandardized Residual 5,00000-5,00000-1 60 65 70 75 height 80 85 90 Partial regression plot
Partial Regression Plot Dependent Variable: volume 30,00 20,00 10,00 volume 0,00-10,00-20,00-30,00-5,00-2,50 0,00 diameter 2,50 5,00 Partial Regression Plot Dependent Variable: volume 10,00 5,00 volume 0,00-5,00-10,00-15 -10-5 height 0 5 10
Επειδή το δεύτερο δεν είναι γραμμικό το πρόβλημα είναι με το Diameter!!!!Εισάγω δευτεροβάθμιο όρο Box-Tidwell 1.Προσαρμόζω αρχικό μοντέλο (a) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 (Constant) -57,988 8,638-6,713,000 diameter 4,708,264,899 17,816,000 height,339,130,132 2,607,014 a Dependent Variable: volume b1=4.708 b2=0.339 2. Μετά δημιουργώ τις δύο νέες μεταβλητές Ζ1=diameter *ln(diameter) Z2=height*ln(height) 3. Δες τι πρόβλημα υπάρχει είναι αυτό με το Tolerance (a) Unstandardized Standardized t Sig. Model B Std. Error Beta B Std. Error 1 (Constant) 42,386 16,983 2,496,019 diameter -21,856 4,531-4,172-4,823,000 z1 7,312 1,246 5,063 5,866,000 z2,074,017,153 4,471,000 a Dependent Variable: volume Πάω σε άλλο πακέτο JMP ή μέσω General Linear Model Univariate Covariates τις νέες ανεξάρτητες και αποθήκευση των parameter estimates Parameter Estimates Term Intercept Column 1 Column 2 Column 4 Column 5 Estimate 66,819779-21,4934-1,840857 7,2115119 0,4207484 Std Error 124,4344 5,068416 9,343542 1,395156 1,758369 t Ratio 0,54-4,24-0,20 5,17 0,24 Prob> t 0,5958 0,0002* 0,8453 <,0001* 0,8128
Dependent Variable: volume Parameter Intercept diameter height z1 z2 Parameter Estimates 95% Confidence Interval B Std. Error t Sig. Lower Bound Upper Bound 65,567 124,718,526,604-190,794 321,927-21,464 5,065-4,238,000-31,874-11,053-1,757 9,363 -,188,853-21,004 17,490 7,204 1,394 5,167,000 4,338 10,070,405 1,762,230,820-3,217 4,027 g1=7.2 g2=0.4 W j = γ j a j bj Άρα γ1 a1 b1 γ 2 a2 b X a j j, a 0 ( X j) ln, a = 0 = + 1 7.2 = + 1 = + 1 = 1.5 + 1 = 2.5 4.708 0.4 = + 1= + 1= 2.19 2 0.339 Προσαρμόζω το νέο μοντέλο Έχει ένα πρόβλημα σταθερής διακύμανσης Όχι πρόβλημα ορθότητας μοντέλου Προσαρμόζω το νέο μοντέλο (ποιο?) Έχει ένα πρόβλημα σταθερής διακύμανσης Όχι πρόβλημα ορθότητας μοντέλου j j Παράδειγμα 2
400,00 Number of surviving bacteria 300,00 200,00 100,00 0,00 0,00 2,00 4,00 6,00 8,00 Time 10,00 12,00 14,00 μοιάζει 15 1 Unstandardized Residual 10 5 15 14 13 12 11 10 9 7 5 4 3 2 8 6-5 -5 5 10 15 20 Unstandardized Predicted Value 25 με σχήμα σελ 61 καρακώστα θέλει λογαριθμο εξαρτημένης
Προσαρμόζω το μοντέλο ε ξεχνώ να επανέρχομαι σε αρχικό Ακραίες Ενότητα 4 η Ακραίες 10,00 8,00 News rating 6,00 4,00 2,00 0,00 2,00 3,00 4,00 5,00 Lead in 6,00 7,00 8,00 υπάρχουν ενδείξεις γραμμικής σχέσης αλλά και 4 πιθανές ακραίες τιμές
3,00000 2,00000 Studentized Residual 1,00000-1,00000-2,00000 2,00 3,00 4,00 5,00 Lead in 6,00 7,00 8,00 Yπάρχουν ενδείξεις γραμμικής σχέσης αλλά και 4 πιθανές ακραίες τιμές. Παρατηρήσεις με απόλυτες τιμές των τυποποιημένων υπολοίπων μεγαλύτερες του 3 θεωρούνται ακραίες. Παρατηρήσεις με απόλυτες τιμές των τυποποιημένων υπολοίπων μεταξύ του 2 και 3 θεωρούνται πιθανές ακραίες και χρήζουν εξέτασης.
Απόλυτες τιμές των μαθητικοποιημένων διαγραφόμενων υπολοίπων για μία παρατήρηση μεγαλύτερες του IDF.T(1-a/2,n-p-1) δηλαδή εδω του 2.0484 υποδεικνύουν τη συγκεκριμένη παρατήρηση ως ακραία. Εδώ έχω ακραία την παρατήρηση με αύξοντα αριθμό 29!!!!