0. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ 0. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ Συχνά στην πράξη το μοντέλο της απλής γραμμικής παλινδρόμησης είναι ανεπαρκές για την περιγραφή της μεταβλητότητας που υπάρχει στην εξαρτημένη μεταβλητή Y με συνέπεια οι προβλέψεις να έχουν μεγάλη ανακρίβεια. Στην περίπτωση αυτή χρειάζεται ενδεχομένως να λάβουμε υπ όψη μας k ανεξάρτητες μεταβλητές για την πρόβλεψη της εξαρτημένης μεταβλητής. Το γενικό γραμμικό μοντέλο με k ανεξάρτητες μεταβλητές X, X,..., X k, λέγεται πολλαπλή γραμμική παλινδρόμηση και έχει την μορφή Y X X X 0... k k όπου 0,,..., k, είναι οι (άγνωστες) παράμετροι παλινδρόμησης και είναι το τυχαίο σφάλμα. Αυτό αντιστοιχεί στην μεταβλητότητα του Y που δεν μπορεί να περιγράψει η πολλαπλή παλινδρόμηση, για το οποίο υποθέτουμε ότι προέρχεται από την κανονική κατανομή με μέση τιμή 0 και (άγνωστη) διακύμανση. Κατά την ανάλυση της πολλαπλής παλινδρόμησης είναι σημαντικό να γνωρίζουμε τόσο τη μορφή όσο και το βαθμό της σχέσης που υπάρχει σε κάθε ζεύγος μεταξύ των μεταβλητών. Για το σκοπό αυτό το Minitab παρέχει τη δυνατότητα αφ ενός μεν την δημιουργία του πίνακα διαγραμμάτων (Matrix Plot) που είναι η γραφική παράσταση της εξαρτημένης μεταβλητής Y ως προς κάθε ανεξάρτητη μεταβλητή X, i,,..., k, αφ ετέρου δε την ανάλυση της συσχέτισης. Επιθυμητή είναι η i ύπαρξη συσχέτισης μεταξύ των Y και X i αλλά όχι και η ύπαρξη συσχέτισης μεταξύ των X, i,,..., k η οποία είναι γνωστή σαν πολλαπλή συγγραμμικότητα. i Παράδειγμα 0. Κατά τη διαδικασία εκτίμησης της αξίας μιάς καινούργιας κατοικίας από την εφορία, ο αρμόδιος εφοριακός υπάλληλος συγκέντρωσε στοιχεία από διαμερίσματα της περιοχής που πωλήθηκαν πρόσφατα, προκειμένου να αναπτύξει ένα μοντέλο παλινδρόμησης για την πρόβλεψη της αξίας της συγκεκριμένης κατοικίας. Στο αρχείο C:\Forecasting Lab Data\Home Appraisal.MTW υπάρχουν δεδομένα για την τιμή πώλησης (C Price), το πλήθος δωματίων (C Bedrooms), το εμβαδόν (σε τετραγωνικά πόδια) (C4 SqFtArea) και την ηλικία της κατοικίας (C5 Age) για 6 κατοικίες της περιοχής. Προκειμένου να αναπτύξουμε ένα μοντέλο γραμμικής παλινδρόμησης, θα προσαρμόσουμε την εξίσωση Y X X X 0 όπου Y = τιμή πώλησης, X = πλήθος δωματίων, X = εμβαδόν και X = ηλικία κατοικίας. 0. Ο ΠΙΝΑΚΑΣ ΔΙΑΓΡΑΜΜΑΤΩΝ ΔΙΑΣΠΟΡΑΣ Aνοίγουμε το αρχείο C:\Forecasting Lab Data\Home Appraisal.MTW. Για να πάρουμε το διάγραμμα διασποράς μεταξύ της Y και των X i, i,,.. Από τη γραμμή μενού επιλέγουμε Graph Matrix Plot. Ιωάννης Ι.Γεροντίδης, Καθηγητής 7
. Στο πλαίσιο διαλόγου Matrix Plots που εμφανίζεται επιλέγουμε Simple και πατάμε ΟΚ.. Στο πλαίσιο διαλόγου Matrix Plot - Matrix of Plots, Simple που εμφανίζεται: (α) Στο πλαίσιο Graph variables: πληκτρολογούμε Price-Age (η παύλα ανάμεσα στις μεταβλητές εξασφαλίζει ότι θα επιλεγούν όλες οι μεταβλητές μεταξύ των Price και Age από τον αριστερό κατάλογο). Πατάμε στο κουμπί Matrix Options. (β) Στο πλαίσιο διαλόγου Matrix Plot Options που εμφανίζεται και κάτω από τον τίτλο Matrix Display επιλέγουμε Upper right και πατάμε ΟΚ. Ιωάννης Ι.Γεροντίδης, Καθηγητής 8
. Στο πλαίσιο διαλόγου Matrix Plot - Matrix of Plots, Simple που επανεμφανίζεται, πατάμε στο κουμπί Labels. 4. Στο πλαίσιο διαλόγου Matrix Plot Labels που εμφανίζεται και στο πλαίσιο Title πληκτρολογούμε Πίνακας διαγραμμάτων εκτίμησης κατοικίας. 5. Πατάμε δύο φορές ΟΚ και στο Graph Window εμφανίζεται το διάγραμμα Τα διαγράμματα διασποράς στην πρώτη σειρά του πίνακα δείχνουν τη σχέση που υπάρχει μεταξύ της Y και των ανεξάρτητων μεταβλητών. Το πρώτο διάγραμμα καταδεικνύει μία θετική σχέση μεταξύ τιμής πώλησης και πλήθους δωματίων, το δεύτερο μία θετική σχέση μεταξύ τιμής και εμβαδού. Τέλος το τρίτο διάγραμμα της πρώτης σειράς δείχνει μία αρνητική σχέση μεταξύ τιμής και ηλικίας της κατοικίας. Τα υπόλοιπα τρία διαγράμματα διασποράς δείχνουν τις υπάρχουσες σχέσεις μεταξύ των ανεξαρτήτων μεταβλητών. Όπως είναι αναμενόμενο το διάγραμμα του πλήθους δωματίων με το εμβαδόν δείχνει ότι το εμβαδόν αυξάνει με το πλήθος των δωματίων. Ιωάννης Ι.Γεροντίδης, Καθηγητής 9
0. Ο ΠΙΝΑΚΑΣ ΣΥΣΧΕΤΙΣΕΩΝ Στη συνέχεια για να υπολογίσουμε τις συσχετίσεις για όλα τα ζεύγη των μεταβλητών:. Από τη γραμμή μενού επιλέγουμε Stat Basic Statistics Correlation.. Στο πλαίσιο διαλόγου Correlation που εμφανίζεται: (α) Στο πλαίσιο Variables: πληκτρολογούμε Price-Age. (β) Αποεπιλέγουμε το πλαίσιο Display p-values.. Πατάμε ΟΚ και στο Session Window παίρνουμε τα αποτελέσματα Οι σχετικά υψηλές τιμές συσχέτισης μεταξύ τιμής πώλησης - πλήθους δωματίων και μεταξύ τιμής πώλησης εμβαδού συμπίπτουν με τα συμπεράσματα στα διαγράμματα διασποράς. Η μεγαλύτερη συσχέτιση είναι μεταξύ τιμής πώλησης εμβαδού. Η σχετικά μεγάλη συσχέτιση μεταξύ πλήθους δωματίων εμβαδού καταδεικνύει την ύπαρξη πιθανής πολλαπλής συγγραμμικότητας. 0.4 Η ΠΡΟΣΑΡΜΟΣΜΕΝΗ ΕΥΘΕΙΑ ΠΑΛΙΝΔΡΟΜΗΣΗΣ Για να προσαρμόσουμε το μοντέλο της πολλαπλής παλινδρόμησης:. Από τη γραμμή μενού επιλέγουμε Stat Regression Regression.. Στο πλαίσιο διαλόγου Regression που εμφανίζεται: Ιωάννης Ι.Γεροντίδης, Καθηγητής 0
(α) Από τον αριστερό κατάλογο διπλοπατάμε στη μεταβλητή C Price για να εμφανιστεί στο πλαίσιο Response:. (β) Στο πλαίσιο Predictors: πληκτρολογούμε Bedrooms-Age. (γ) Πατάμε στο κουμπί Results και στο πλαίσιο διαλόγου Regression Results που εμφανίζεται επιλέγουμε Regression equation, table of coefficients, s,r-squared, and basic analysis of variance.. Πατάμε δύο φορές ΟΚ και στο Session Window παίρνουμε τα αποτελέσματα Αρχικά το Minitab δίνει την προσαρμοσμένη ευθεία παλινδρόμησης Yˆ 5468 X.4X 67X. Επειδή το ˆ 0 54686 εκφράζει την εκτιμούμενη τιμή πώλησης για X 0, X 0, X 0 (τιμές που δεν συμπεριλαμβάνονται στο δείγμα), για τον λόγο αυτό η προτεινόμενη τιμή 54686 είναι άνευ πρακτικής σημασίας. Η κλίση ˆ εκφράζει την εκτιμούμενη μέση μεταβολή στην τιμή πώλησης όταν το πλήθος των δωματίων αυξηθεί κατά ένα με την προϋπόθεση ότι ο εμβαδόν και η ηλικία της κατοικίας παραμένουν σταθερά. Η κλίση ˆ.4 εκφράζει την εκτιμούμενη μέση μεταβολή στην τιμή πώλησης όταν το εμβαδόν αυξηθεί κατά ένα τετραγωνικό πόδι, με την προϋπόθεση ότι το πλήθος των δωματίων και η ηλικία της κατοικίας Ιωάννης Ι.Γεροντίδης, Καθηγητής
παραμένουν σταθερά. Τέλος η κλίση ˆ 67 εκφράζει την εκτιμούμενη μέση μεταβολή στην τιμή πώλησης όταν το η ηλικία της κατοικίας αυξηθεί κατά ένα έτος, με την προϋπόθεση ότι το πλήθος των δωματίων και το εμβαδόν παραμένουν σταθερά. Η τιμή s 074408 που βρίσκεται στον πίνακα ANOVA στη διασταύρωση της γραμμής Residual Error και της στήλης MS είναι ένας εκτιμητής της διακύμανσης. Ένας εκτιμητής για το είναι το από τον πίνακα ANOVA. s s 440.6 και βρίσκεται ακριβώς πάνω Από την ίδια γραμμή έχουμε ότι ο συντελεστής προσδιορισμού είναι R 68.4% που σημαίνει ότι το 68% της ολικής μεταβλητότητας των τιμών πώλησης ερμηνεύεται από το μοντέλο παλινδρόμησης ενώ το % παραμένει ανερμήνευτο. 0.5 ΔΟΚΙΜΑΣΙΑ ΥΠΟΘΕΣΕΩΝ Προκειμένου να δοκιμάσουμε την χρησιμότητα ολοκλήρου του μοντέλου της παλινδρόμησης, η σχετική δοκιμασία είναι H0 : 0 με H : τουλάχιστον ένα i 0. Η τιμή του στατιστικού F.07 και η τιμή p -value = 0.000 δίνονται στον πίνακα ANOVA Επειδή F.07.90 F,;0.95 δεν μπορούμε να αποδεχθούμε την H 0 σε επίπεδο σημαντικότητας 0.05 και συνεπώς το συγκεκριμένο μοντέλο της παλινδρόμησης είναι χρήσιμο. Στη συνέχεια θα δοκιμάσουμε την χρησιμότητα των ανεξαρτήτων μεταβλητών. Από τον πίνακα των συντελεστών της παλινδρόμησης βλέπουμε ότι η μεταβλητή Bedrooms έχει την μεγαλύτερη τιμή στο p -value = 0.55. Συνεπώς υπάρχει ένδειξη ότι η μεταβλητή X = πλήθος δωματίων είναι η λιγότερο χρήσιμη από τις υπόλοιπες. Για τον λόγο θα δοκιμάσουμε την υπόθεση H0 : 0 με H : 0. Ιωάννης Ι.Γεροντίδης, Καθηγητής
Από τη στήλη T έχουμε ότι το στατιστικό t 0.6 ακολουθεί την κατανομή t με ( n k ) (6 ) βαθμούς ελευθερίας. Για να υπολογίσουμε την τιμή του 0.975 εκατοστιαίου σημείου t, 0.9 7 5 με τη βοήθεια του Minitab:. Από τη γραμμή μενού επιλέγουμε Calc Probability Distributions t.. Στο πλαίσιο διαλόγου t Distribution που εμφανίζεται: (α) Επιλέγουμε το πλαίσιο Inverse Cumulative Probability. (β) Στο πλαίσιο Degrees of freedom δίνουμε. (γ) Επιλέγουμε το πλαίσιο Input constant, όπου δίνουμε 0.975. (δ) Στο πλαίσιο Optional storage δίνουμε t. (ε) Πατάμε ΟΚ.. Από τη γραμμή μενού επιλέγουμε Data Display Data 4. Στο πλαίσιο διαλόγου Display Data που εμφανίζεται: Ιωάννης Ι.Γεροντίδης, Καθηγητής
(α) (β) Διπλοπατάμε στη μεταβλητή K t από τον αριστερό κατάλογο για να εμφανιστεί στο πλαίσιο Columns, constants and matrices to display: Πατάμε ΟΚ οπότε στο Session Window εμφανίζεται το αποτελέσμα Επειδή t 0.6.0 6 9 t, 0.9 7 5 δεν μπορούμε να απορρίψουμε την H 0 σε επίπεδο σημαντικότητας 0.05 και συνεπώς η μεταβλητή X δεν είναι χρήσιμη και θα πρέπει να αφαιρεθεί από την εξίσωση παλιδρόμησης. 0.6 ΤΟ ΝΕΟ ΜΟΝΤΕΛΟ Επειδή από την μέχρι τώρα ανάλυση προέκυψε ότι η μεταβλητή X = πλήθος δωματίων πρέπει να αφαιρεθεί, επαναλαμβάνουμε την προηγούμενη ανάλυση μόνο για τις μεταβλητές X = εμβαδόν και X = ηλικία. Έτσι τώρα έχουμε το μοντέλο Y X X. 0 Για να προσαρμόσουμε την πολλαπλή παλινδρόμηση:. Από τη γραμμή μενού επιλέγουμε Stat Regression Regression.. Στο πλαίσιο διαλόγου Regression που εμφανίζεται: (α) Από τον αριστερό κατάλογο διπλοπατάμε στη μεταβλητή C Price για να εμφανιστεί στο πλαίσιο Response:. (β) Στο πλαίσιο Predictors: πληκτρολογούμε SqFtArea-Age.. Πατάμε δύο φορές ΟΚ και στο Session Window παίρνουμε τα αποτελέσματα Η προσαρμοσμένη ευθεία παλινδρόμησης έχει τώρα τη μορφή Yˆ 60794 5.4X 645X. Επειδή το ˆ 0 60794 εκφράζει την εκτιμούμενη τιμή πώλησης της κατοικίας για X 0, X 0 (τιμές που δεν συμπεριλαμβάνονται στο δείγμα), για τον λόγο αυτό η τιμή αυτή δεν έχει πρακτική σημασία. Η κλίση ˆ 5.4 εκφράζει την εκτιμούμενη Ιωάννης Ι.Γεροντίδης, Καθηγητής 4
μέση μεταβολή στην τιμή πώλησης όταν το εμβαδόν αυξηθεί κατά ένα τετραγωνικό πόδι, με την προϋπόθεση ότι η ηλικία της κατοικίας παραμένει σταθερή. Τέλος η κλίση ˆ 645 εκφράζει την εκτιμούμενη μέση μεταβολή στην τιμή πώλησης όταν το η ηλικία της κατοικίας αυξηθεί κατά ένα έτος, με την προϋπόθεση ότι το εμβαδόν παραμένει σταθερό. Προκειμένου να δοκιμάσουμε την χρησιμότητα ολοκλήρου του μοντέλου της παλινδρόμησης, η σχετική δοκιμασία είναι H0 : 0 με H : τουλάχιστον ένα i 0. Η τιμή των στατιστικών είναι F 5.05 και p -value = 0.000. Επειδή F 5.05.9 F,;0.95 δεν μπορούμε να αποδεχθούμε την H 0 σε επίπεδο σημαντικότητας 0.05 και συνεπώς το συγκεκριμένο μοντέλο της παλινδρόμησης είναι χρήσιμο. Ενα 95% διάστημα εμπιστοσύνης για το δίνεται από τον τύπο ˆ t SE( ˆ ). ( n k ); / Οι τιμές ˆ και SE( ˆ ) δίνονται από τον πίνακα των συντελεστών της παλινδρόμησης Επειδή t ();0.975.045 το ζητούμενο διάστημα εμπιστοσύνης είναι (6.49, 44.7). Προκειμένου τώρα να προβλέψουμε την τιμή μιάς κατοικίας η οποία έχει X 050 και X 5 θα κατασκευάσουμε ένα 95% διάστημα εμπιστοσύνης και ένα 95% διάστημα πρόβλεψης για την τιμή πώλησης.. Από τη γραμμή μενού επιλέγουμε Stat Regression Regression.. Στο πλαίσιο διαλόγου Regression που εμφανίζεται: (α) Από τον αριστερό κατάλογο διπλοπατάμε στη μεταβλητή C Price για να εμφανιστεί στο πλαίσιο Response:. (β) Στο πλαίσιο Predictors: πληκτρολογούμε SqFtArea-Age. (γ) Πατάμε στο κουμπί Options και στο πλαίσιο διαλόγου Regression Options που εμφανίζεται και στο πλαίσιο Prediction intervals for new observations: δίνουμε 050 5 και μετά ΟΚ. Ιωάννης Ι.Γεροντίδης, Καθηγητής 5
. Στο πλαίσιο διαλόγου Regression που επανεμφανίζεται πατάμε στο κουμπί Results. 4. Στο πλαίσιο διαλόγου Regression Results που εμφανίζεται επιλέγουμε Regression equation, table of coefficients, s, R-squared. 5. Πατάμε δύο φορές ΟΚ και στο Session Window παίρνουμε μεταξύ άλλων και τα αποτελέσματα Μία εκτίμηση για την τιμή πώλησης της συγκεκριμένης κατοικίας είναι 759. Ένα 95% διάστημα εμπιστοσύνης για την μέση τιμή πώλησης όλων των κατοικιών που έχουν X 050 και X 5 είναι (854, 964). Τέλος ένα 95% διάστημα πρόβλεψης για την τιμή πώλησης μιάς συγκεκριμένης κατοικίας με X 050 και X 5 είναι (949, 57). 0.7 ΑΣΚΗΣΕΙΣ. Στο αρχείο C:\Forecasting Lab Data\Food Expenditure.MTW υπάρχουν δεδομένα για τις ετήσιες δαπάνες διατροφής - Y (Food) σε εκατοντάδες, το ετήσιο εισόδημα - X (Income) σε χιλιάδες και το μέγεθος - X (Size) της οικογένειας για ένα δείγμα 0 οικογενειών. (α) Να κατασκευάσετε τους πίνακες διαγραμμάτων διασποράς και συσχέτισης για τις τρεις μεταβλητές και να ερμηνεύσετε τα αποτελέσματα. (β) Να προσαρμόσετε το μοντέλο της πολλαπλής παλινδρόμησης στις δαπάνες διατροφής ως προς το ετήσιο εισόδημα και το μέγεθος της οικογένειας. (γ) Να δοκιμάσετε την χρησιμότητα ολοκλήρου του μοντέλου της παλινδρόμησης καθώς και των επί μέρους μεταβλητών. (δ) Να υπολογίσετε ένα εκτιμητή για τις ετήσιες δαπάνες διατροφής για μία οικογένεια με ετήσιο εισόδημα X = 6000 και μέγεθος X = 7 ατόμων και να κατασκευάσετε ένα 95% διάστημα εμπιστοσύνης και ένα 95% διάστημα πρόβλεψης. Ιωάννης Ι.Γεροντίδης, Καθηγητής 6