Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Παράδειγμα 1 Ο παρακάτω πίνακας δίνει τις πωλήσεις (ζήτηση) ενός προϊόντος Υ (σε κιλά) από το delicatessen μιας περιοχής και τις αντίστοιχες τιμές Χ του προϊόντος (σε ευρώ ανά κιλό) για μια ορισμένη χρονική περίοδο. Τιμή προϊόντος ( /κιλό), Χ 15 13 11 9 9 6 5 4 Πωλήσεις σε κιλά, Υ 5 6 8 10 9 12 15 11 Μας ενδιαφέρουν: 1. η εύρεση των συντελεστών της ευθείας ελαχίστων τετραγώνων, των πωλήσεων στην τιμή του προϊόντος, και οι σχετικοί έλεγχοι για τις τιμές τους 2. η μελέτη της ύπαρξης των θεωρητικών προϋποθέσεων εφαρμογής του μοντέλου της παλινδρόμησης 3. η δυνατότητα: να προβλέψουμε την αναμενόμενη ζήτηση όταν γνωρίζουμε την τιμή ενός προϊόντος ή να προβλέψουμε την τιμή του όταν γνωρίζουμε τη ζήτηση. 2

Click Graphs >Legacy Dialogs >Scatter/Dot επιλέγουμε Simple Scatter, Add Fit Line at Total y=16.377-0.764x 3

Click Analyze >Regression >Linear 4

Variables Entered/Removed b Model Variables Entered Variables Removed Method 1 X a. Enter a. All requested variables entered. b. Dependent Variable: Y Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,915 a,836,809 1,420 a. Predictors: (Constant), X b. Dependent Variable: Y =S R 2 : συντελεστής προσδιορισμού, δίνει το ποσοστό της συνολικής μεταβλητότητας που ερμηνεύεται από το μοντέλο. H 0 : β 1 = 0 αμφίπλευρος H 1 : β 1 0 R 2 =SSR/SST=61.896/74=0.836 SST=SSR+SSE=61.896+12.104=74 ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 61,896 1 61,896 30,683,001 a Residual 12,104 6 2,017 Total 74,000 7 a. Predictors: (Constant), X b. Dependent Variable: Y MSR=SSR/1=61.896 MSE=SSE/(n-2)=12.104/6=2.017=S 2 F 1,n-2 =MSR/MSE=30.683 (δείτε σελ. 4-6 διαφ. θεωρίας) 5

Coefficients a Standardized Unstandardized Coefficients Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 16,377 1,339 12,228,000 X -,764,138 -,915-5,539,001 a. Dependent Variable: Y Coefficients a 90,0% Confidence Interval for B Model Lower Bound Upper Bound H 0 : β 0 = 0 αμφίπλευρος H 1 : β 0 0 (αυτός ο έλεγχος δεν έχει ιδιαίτερη σημασία) H 0 : β 1 = 0 αμφίπλευρος H 1 : β 1 0 είναι απόλυτα ισοδύναμος με τον έλεγχο της σελ. 5 1 (Constant) 13,775 18,980 X -1,032 -,496 a. Dependent Variable: Y 1 x 1 x β0 t (a / 2)S +, β n 2 0 + t (a / 2)S + n 2 n Sxx n S β Διαστήματα εμπιστοσύνης (σ.ε. 90%) για τις παραμέτρους β 0 και β 1 2 2 2 2 n S S 1 t (a / 2), β n 2 1 + t (a / 2) όπου S n 2 xx ( xi x = ) S xx S xx xx i= 1 2 =(8-1)*(3.891^2)=105.98 σελ. 5 6

Residuals Statistics a Minimum Maximum Mean Std. Deviation N Predicted Value 4,92 13,32 9,50 2,974 8 Std. Predicted Value -1,542 1,285,000 1,000 8 Standard Error of Predicted,502,968,693,167 8 Value Α Adjusted Predicted Value 4,84 14,63 9,55 3,122 8 Residual -2,321 2,443,000 1,315 8 Std. Residual -1,634 1,720,000,926 8 Stud. Residual -2,044 2,022 -,015 1,116 8 Deleted Residual -3,631 3,375 -,052 1,915 8 Stud. Deleted Residual -3,385 3,269 -,026 1,794 8 Mahal. Distance,000 2,377,875,837 8 Cook's Distance,000 1,179,251,462 8 Centered Leverage Value,000,340,125,120 8 a. Dependent Variable: Y Β 7

Δ Γ Πρέπει να ελέγξουμε εάν ισχύουν οι θεωρητικές προϋποθέσεις εφαρμογής του μοντέλου: 1. τα κατάλοιπα ακολουθούν κανονική κατανομή 2. έχουν την ίδια διασπορά για τις διαφορετικές τιμές της ανεξάρτητης μεταβλητής X (ομοσκεδαστικότητα). Για το 1. τα σχήματα Α, Β και οι έλεγχοι κανονικότητας δίνουν θετική απάντηση. Για το 2. τα σχήματα Γ και Δ αρνητική. Θα έπρεπε να έχουν την εξής μορφή: Αυτό θα μπορούσε ίσως να επιτευχθεί, κάνοντας κάποιον μετασχηματισμό (βλέπε Παράδ. 2 σελ. 14 ) Άρα εδώ, το γραμμικό μοντέλο δεν εφαρμόζεται σωστά. Οι διαφ. 9,10 «ισχύουν» αν ήταν σωστό. 8

Θέλουμε όλες οι παρατηρήσεις να έχουν παραπλήσια Cook s distance. Αν κάποια(ες) διαφέρει(ουν) σημαντικά τότε αυτή(ές) επηρεάζει(ουν) καθοριστικά την τιμή της β 1. Αυτή μάλιστα που έχει τη μεγαλύτερη Leverage Value έχει μεγάλη βαρύτητα στον υπολογισμό της γραμμής (Ελέγχουμε αρχικά εάν αυτές τις πληκτρολογήσαμε σωστά. Η συνέχεια θα συζητηθεί σε άλλο, πιο προχωρημένο, μάθημα) 9

β β β β 2 2 n + x t (a / 2)S +, + x + t (a / 2)S + όπου S = x x 1 ( x0 x) 1 ( x0 x) 0 1 0 n 2 0 1 0 n 2 xx i n Sxx n Sxx i= 1 β β β β 1 ( x0 x) 1 ( x0 x) 0 1 0 n 2 0 1 0 n 2 xx 2 2 + x t (a / 2)S 1+ +, + x + t (a / 2)S 1+ + n S n S Διαστήματα εμπιστοσύνης (σ.ε. 90%) για τη μέση πρόβλεψη δηλ. την τιμή της γραμμής παλινδρόμησης στο x 0 (το x 0 πρέπει να ανήκει στο εύρος των αρχικών τιμών του X) και την ατομική πρόβλεψη xx y 0 y 0 + ε ( ) 2 10

Click Graphs >Legacy Dialogs >Scatter/Dot επιλέγουμε Overlay Scatter, Add interpolation Line y 0 για x 0 =7.5 16.377-.764*7.5=10.647 (LBx, UBx ) όταν y = 7.5 σ.ε. 90% 0 0 0 (LBx, + ) όταν y = 4 σ.ε. 95% 0 0 11

Παράδειγμα 2 12

Model Summary b Adjusted R Model R R Square Square Std. Error of the Estimate Ε 1,935 a,875,854,86924 a. Predictors: (Constant), X b. Dependent Variable: Y y=-1.816+0.043x ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 31,764 1 31,764 42,039,001 a Residual 4,533 6,756 Total 36,297 7 a. Predictors: (Constant), X b. Dependent Variable: Y Coefficients a ΣΤ Model 1 Standardized Unstandardized Coefficients Coefficients B Std. Error Beta t Sig. (Constant) -1,816 1,052-1,727,135 X,043,007,935 6,484,001 a. Dependent Variable: Y 13

Παρά το γεγονός ότι R 2 =0.875 τα κατάλοιπα στο ΣΤ έχουν τη μορφή άρα η σχέση των Χ, Υ δεν είναι γραμμική και θα εφαρμόσω μετασχηματισμό, ο οποίος λόγω της μορφής του Ε (γ) είναι ο (δ) 1 Y = β + β + ε, i = 1,...,n i 0 1 i Χi y=10.833-826.114/x 14

Για το νέο γραμμικό μοντέλο που προέκυψε από τον μετασχηματισμό, παρατηρώ ότι ισχύουν οι θεωρητικές προϋποθέσεις της κανονικότητας και ομοσκεδαστικότητας για τα κατάλοιπα: (λόγω αυτού μπορώ να προχωρήσω σε περαιτέρω ανάλυση) 15

Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate y=10.833-826.114/x 1,992 a,984,981,31046 a. Predictors: (Constant), InvX b. Dependent Variable: Y ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 35,719 1 35,719 370,574,000 a Residual,578 6,096 Total 36,297 7 a. Predictors: (Constant), InvX Συμπεράσματα: 1. το 98.4%(=R 2 ) της μεταβλητότητας ερμηνεύεται από την καμπύλη παλινδρόμησης 2. το β 1 0 (και β 0 0) b. Dependent Variable: Y Coefficients a Unstandardized Coefficients Standardized Coefficients Coefficients a 90,0% Confidence Interval for B Model B Std. Error Beta t Sig. Model Lower Bound Upper Bound 1 (Constant) 10,833,337 32,178,000 1 (Constant) 10,178 11,487 InvX -826,114 42,914 -,992-19,250,000 InvX -909,504-742,723 a. Dependent Variable: Y a. Dependent Variable: Y 16

Συμπέρασμα: οι παρατηρήσεις με σχετικά μεγάλη CD δεν έχουν αντίστοιχα μεγάλη LV οπότε δεν έχουν τόση μεγάλη βαρύτητα στον υπολογισμό της γραμμής. Δεν θα χρειαστεί να κάνουμε κάτι άλλο. Έτσι τα δ.ε. και οι προβλέψεις είναι σωστές 17

Ανάλυση Διασποράς-ένας παράγοντας Πχ Εδώ r=3 και n i =20 i=1,2,3 και τα δεδομένα αφορούν την απόδοση νέων εργαζομένων οι οποίοι εκπαιδεύτηκαν σε τρεις διαφορετικές ομάδες (η 1 η ομάδα εκπαιδεύτηκε 1 ημέρα, η 2 η 2 ημέρες και η 3 η 3 ημέρες) 18

Ανάλυση Διασποράς-ένας παράγοντας Click Graphs >Legacy Dialogs >Error Bar επιλέγουμε Simple Παρατηρούμε ότι η μέση απόδοση αυξάνεται από ομάδα σε ομάδα αλλά ταυτόχρονα η μεταβλητότητά της μειώνεται 19

Ανάλυση Διασποράς-ένας παράγοντας Click Analyze >Compare Means >One-Way ANOVA Mε την ANOVA μπορούμε ταυτόχρονα να ελέγξουμε την ισότητα πολλών μέσων H 0 : μ 1 = μ 2 = =μ r αμφίπλευρος H 1 : κάποια από τις μ i διαφέρει 20

Ανάλυση Διασποράς-ένας παράγοντας Score on training exam Test of Homogeneity of Variances Score on training exam Levene Statistic df1 df2 Sig. Score on training exam Descriptives 4,637 2 57,014 ANOVA Sum of Squares df Mean Square F Sig. Between Groups 2525,691 2 1262,846 12,048,000 Within Groups 5974,724 57 104,820 Total 8500,415 59 95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound 1 20 63,5798 13,50858 3,02061 57,2576 69,9020 2 20 73,5677 10,60901 2,37225 68,6025 78,5328 3 20 79,2792 4,40754,98556 77,2165 81,3420 Total 60 72,1422 12,00312 1,54960 69,0415 75,2430 Descriptives training exam Minimum Maximum 32,68 86,66 47,56 89,65 71,77 89,69 Y N( µ, σ ), 2 ij i i j = 1,...,20, i = 1,2,3 µ = 63.58, σ = 13.51 1 1 µ = 73.57, σ = 10.61 2 2 32,68 89,69 µ = 79.28, σ = 4.41 3 3 έλεγχος ομοσκεδαστικότητας H 0 : σ 1 = σ 2 = σ 3 αμφίπλευρος H 1 : κάποια από τις σ i διαφέρει από τις άλλες εάν η H 0 είχε γίνει δεκτή και στη συνέχεια γινόταν δεκτή και η υπόθεση της κανονικότητας για τα Υ ij τότε: H 0 : μ 1 = μ 2 = μ 3 αμφίπλευρος H 1 : κάποια από τις μ i διαφέρει (Τώρα μόνο ελέγχους για τη διαφορά των μέσων ανά δύο μπορούμε ίσως να κάνουμε) 21

Ανάλυση Διασποράς-ένας παράγοντας έλεγχος κανονικότητας για τα Υ ij για κάθε στάθμη (i=1,,3) του παράγοντα άρα και στις τρεις στάθμες του παράγοντα τα δείγματα προέρχονται από κανονική κατανομή 22