Ι ΙΟΤΗΤΕΣ ΥΠΟΛΟΙΠΩΝ ΣΤΗΝ ΑΝΑΛΥΣΗ ΠΑΛΙΝ ΡΟΜΗΣΗΣ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ι ΙΟΤΗΤΕΣ ΥΠΟΛΟΙΠΩΝ ΣΤΗΝ ΑΝΑΛΥΣΗ ΠΑΛΙΝ ΡΟΜΗΣΗΣ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ «ΣΤΑΤΙΣΤΙΚΗ & ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ» Ι ΙΟΤΗΤΕΣ ΥΠΟΛΟΙΠΩΝ ΣΤΗΝ ΑΝΑΛΥΣΗ ΠΑΛΙΝ ΡΟΜΗΣΗΣ του ΗΜΗΤΡΙΟΥ Κ. ΤΣΑΦΗ Επιβλέπων: Λέκτορας Καθηγητής Χρήστος Νάκας ΕΡΓΑΣΙΑ Που υποβλήθηκε στο Τµήµα Μαθηµατικών της Σχολής Θετικών Επιστηµών του Αριστοτελείου Πανεπιστηµίου Θεσσαλονίκης ως µέρος των απαιτήσεων για την απόκτηση Μεταπτυχιακού ιπλώµατος Ειδίκευσης στη Στατιστική & Επιχειρησιακή Έρευνα Θεσσαλονίκη εκέµβριος 9

2 Στις χαρές της ζωής µου Φανή και Σουλτάνα και στους γονείς µου Κωνσταντίνο και Σουλτάνα

3 ΕΥΧΑΡΙΣΤΙΕΣ Η διατριβή που κρατάτε στα χέρια σας δεν θα µπορούσε να έχει γραφτεί χωρίς την καθοδήγηση και τις καίριες υποδείξεις του επιβλέποντος καθηγητού µου κ. Χρήστου Νάκα τον οποίο και ευχαριστώ θερµά. Θα ήθελα να εκφράσω τις βαθύτατες ευχαριστίες µου στους παρακάτω αγαπηµένους φίλους οι οποίοι µου κάνουν την τιµή να µου προσφέρουν άδολα τη φιλία τους. Ευχαριστώ από καρδιάς τους Νικόλαο Κακλίδη, Γεώργιο Κωνσταντινίδη, Ευδόκιµο Κωνσταντινίδη, Γεώργιο Πεκρίδη και Νεκτάριο Φιληµέγκα για την ηθική και τεχνική τους υποστήριξη. Επιθυµώ ακόµη να εκδηλώσω την απέραντη ευγνωµοσύνη µου στους γονείς µου Κωνσταντίνο και Σουλτάνα και στην αδερφή µου Άννα για όλα όσα µου προσφέρανε απλόχερα - και κυρίως για την αγάπη τους. Μα πάνω απ όλους ευχαριστώ τη σύζυγό µου Φανή για την υποµονή και την ανεκτικότητά της, καθώς και για το κουράγιο που µου έδωσε.

4

5 ΠΕΡΙΛΗΨΗ ΗΜΗΤΡΙΟΣ Κ. ΤΣΑΦΗΣ Ι ΙΟΤΗΤΕΣ ΥΠΟΛΟΙΠΩΝ ΣΤΗΝ ΑΝΑΛΥΣΗ ΠΑΛΙΝ ΡΟΜΗΣΗΣ εκέµβριος 9 Στατιστικά µοντέλα είναι κάθε οµάδα µαθηµατικών και πιθανοθεωρητικών εξισώσεων που χρησιµοποιούνται για να περιγράψουν και να συνοψίσουν ένα φαινόµενο. Τα πιο δηµοφιλή µοντέλα είναι τα γενικευµένα γραµµικά µοντέλα (Generalzed Lnear Models) σηµαντικό κοµµάτι των οποίων αποτελούν τα γενικά γραµµικά µοντέλα (General Lnear Models). Η ανάλυση παλινδρόµησης αποτελεί ίσως την πιο γνωστή και περισσότερο χρησιµοποιούµενη στατιστική τεχνική µε την οποία επιχειρούµε να ανακαλύψουµε και να µοντελοποιήσουµε σχέσεις µεταξύ µεταβλητών. Τα παλινδροµικά µοντέλα βασίζονται σε συγκεκριµένες υποθέσεις τις οποίες οφείλουµε να ελέγχουµε µε τη βοήθεια της ανάλυσης υπολοίπων. Η ανάλυση υπολοίπων στηρίζεται σε µια σειρά κυρίως - γραφικών µεθόδων που µας επιτρέπει να ελέγξουµε τις υποθέσεις του µοντέλου παλινδρόµησης για να αποφανθούµε για την καταλληλότητά του ή όχι. Ο Anscombe κατέδειξε την αξία της χρήσης γραφικών µεθόδων στην ανάλυση δεδοµένων. Το κουαρτέτο του αποτελείται από τέσσερα διαφορετικά σύνολα δεδοµένων που έχουν ακριβώς την ίδια στατιστική σύνοψη, αλλά εντελώς ανόµοια γραφήµατα διασποράς. Ο Anscombe µε τα τέσσερα σετ δεδοµένων του κατέστησε την οπτικοποίηση των δεδοµένων εξαιρετικά χρήσιµο εργαλείο στη στατιστική ανάλυση. Με απλά λόγια, ένα γράφηµα µπορεί να αποκαλύψει µοτίβα που µπορούν πολύ εύκολα να «κρυφτούν» από το υπολογιστικό - στατιστικό µέρος µιας ανάλυσης. Mε τη βοήθεια αλγορίθµου κατορθώσαµε να δηµιουργήσαµε σύνολα δεδοµένων που να αντιστοιχούν σε υποδείγµατα πολλαπλής γραµµικής παλινδρόµησης και των οποίων τα γραφήµατα διασποράς των υπολοίπων e ως προς τις προσαρµοσµένες τους τιµές ŷ αποτυπώνουν κρυµµένες εικόνες ή κρυµµένα µηνύµατα. Πρόκειται ασφαλώς για την ψυχαγωγική πλευρά της παλινδρόµησης και της ανάλυσης υπολοίπων.

6

7 ΚΑΤΑΛΟΓΟΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Α/Α Τίτλος Σελ. Ευχαριστίες Ι Περίληψη ΙΙΙ Κατάλογος περιεχοµένων V Κατάλογος πινάκων I Κατάλογος γραφηµάτων III ΚΕΦΑΛΑΙΟ 1. ΣΤΑΤΙΣΤΙΚΑ ΜΟΝΤΕΛΑ-ΓΕΝΙΚΑ ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ 1 1. Στατιστικά Μοντέλα Γενικά 1 1. Η αρχή της οικονοµίας (Occam s razor) Αρχές στατιστικής µοντελοποίησης ιερεύνηση των µεταβλητών δεδοµένων ηµιουργία µοντέλου Εκτίµηση παραµέτρων Υπόλοιπα (σφάλµατα) και έλεγχος του µοντέλου Συµπεράσµατα και ερµηνεία Γενικευµένα - Γενικά Γραµµικά µοντέλα Γενικά Γενικευµένα Γραµµικά Μοντέλα (Generalzed Lnear Models) Εισαγωγή Παράγοντες γενικευµένων γραµµικών µοντέλων Τύποι γενικευµένων γραµµικών µοντέλων Γενικά Γραµµικά Μοντέλα Κανονική κατανοµή Παράγοντες γενικών γραµµικών µοντέλων Εκτίµηση παραµέτρων Εκτίµηση µε τη µέθοδο µεγίστης πιθανοφάνειας Εκτίµηση µε τη µέθοδο ελαχίστων τετραγώνων Έλεγχος καλής προσαρµογής Εκτίµηση της απόκλισης (devance) Έλεγχοι υποθέσεων Ορθογωνιότητα Υπόλοιπα Άλλοι διαγνωστικοί έλεγχοι

8 1.6.9 Τύπος γενικού γραµµικού µοντέλου 1.7 Ανακεφαλαίωση ΚΕΦΑΛΑΙΟ. ΑΝΑΛΥΣΗ ΠΑΛΙΝ ΡΟΜΗΣΗΣ 5.1 Γενικά περί παλινδρόµησης 5. Εισαγωγή στην πολλαπλή γραµµική παλινδρόµηση 7.3 Υποθέσεις πολλαπλής γραµµικής παλινδρόµησης 7.4 Μοντέλο πολλαπλής γραµµικής παλινδρόµησης 9.5 Εκτίµηση των παραµέτρων του µοντέλου Εκτίµηση β µε τη µέθοδο ελαχίστων τετραγώνων 3.5. Ιδιότητες των εκτιµητών ελαχίστων τετραγώνων Εκτίµηση της διακύµανσης σ ιαγράµµατα διασποράς στην πολλαπλή παλινδρόµηση Εκτίµηση µε τη µέθοδο µεγίστης πιθανοφάνειας 36.6 Έλεγχος υποθέσεων στην πολλαπλή γραµµική παλινδρόµηση Έλεγχος σηµαντικότητας της πολλαπλής παλινδρόµησης Συντελεστής προσδιορισµού Έλεγχοι συντελεστών πολλαπλής παλινδρόµησης Έλεγχος της γενικής γραµµικής υπόθεσης 41.7 ιαστήµατα εµπιστοσύνης στην πολλαπλή παλινδρόµηση ιαστήµατα εµπιστοσύνης των συντελεστών παλινδρόµησης 4.7. ιαστήµατα εµπιστοσύνης της µέσης απόκρισης Ταυτόχρονα διαστήµατα εµπιστοσύνης των συντελεστών παλινδρόµησης 44.8 Πρόβλεψη 45.9 Μερικός συντελεστής προσδιορισµού συσχέτισης 45.1 Πολυσυγγραµµικότητα Μέτρηση συγγραµµικότητας Συνέπειες της ύπαρξης συγγραµµικότητας Έλεγχος προϋποθέσεων πολλαπλής γραµµικής παλινδρόµησης Έλεγχος ανεξαρτησίας Έλεγχος κανονικότητας Έλεγχος γραµµικότητας Έλεγχος ισότητας διασπορών 5.1 Ανίχνευση ακραίων τιµών και παρατηρήσεων επίδρασης 5.13 Επιλογή µεταβλητών - Μέθοδοι επιλογής µεταβλητών Η µέθοδος Forward Η µέθοδος Backward 54

9 .13.3 Η µέθοδος Stepwse Παρατήρηση Αριθµός µεταβλητών που πρέπει να συµπεριλαµβάνονται στο µοντέλο Επικύρωση (Valdaton) πολλαπλού παλινδροµικού µοντέλου Εµπειρικός τρόπος δηµιουργίας πολλαπλών παλινδροµικών µοντέλων Μετασχηµατισµοί µεταβλητών σε περιπτώσεις απόκλισης από τις υποθέσεις Ανακεφαλαίωση 59 ΚΕΦΑΛΑΙΟ 3. ΑΝΑΛΥΣΗ ΥΠΟΛΟΙΠΩΝ Εισαγωγή Ορισµός Ιδιότητες υπολοίπων Τύποι υπολοίπων Τυποποιηµένα υπόλοιπα (Standardzed Resduals) Studentzed υπόλοιπα Deleted ή PRESS υπόλοιπα Γραφήµατα υπολοίπων Γραφήµατα πριν τη προσαρµογή ενός µοντέλου Μονοδιάστατα γραφήµατα ιδιάστατα γραφήµατα Γραφήµατα µετά την προσαρµογή του µοντέλου - Γραφήµατα υπολοίπων Πιθανοθεωρητικά γραφήµατα P-P (Normal Probablty Plot) Γραφήµατα υπολοίπων σε χρονική ακολουθία (Plot of Resdual n Tme Sequence) Γράφηµα υπολοίπων ως προς τις παρατηρούµενες τιµές Ftted values y ) y (Plot of Resdual aganst the Γραφήµατα υπολοίπων ως προς τις επεξηγηµατικές µεταβλητές aganst the Regressor) x j (Plot of Resduals Γραφήµατα µερικής παλινδρόµησης και γραφήµατα µερικών υπολοίπων (Partal Regresson an Partal Resdual plots) 3.6 Στατιστικά τεστ για υπόλοιπα Έλεγχος της υπόθεσης της κανονικότητας Έλεγχος της υπόθεσης της ανεξαρτησίας Σειριακή συσχέτιση υπολοίπων Στατιστικοί έλεγχοι για σειριακή συσχέτιση PRESS Στατιστικό Γενικά

10 3.7. είκτης προσδιορισµού R για πρόβλεψη Χρήση στατιστικού PRESS για τη σύγκριση µοντέλων Ακραίες ή έκτροπες τιµές (Outlers) Γενικά Ανίχνευση ακραίων τιµών µε τη βοήθεια της t κατανοµής Παρατηρήσεις επίδρασης (Influental Ponts) Γενικά ιαφορά ακραίας τιµής και παρατήρησης επίδρασης στο επίπεδο της αναπαράστασης Ανίχνευση παρατηρήσεων επίδρασης µε τη βοήθεια της F κατανοµής Ειδικά χρήσιµα γραφήµατα γύρω από τις ακραίες τιµές και τις παρατηρήσεις επίδρασης Γραφήµατα αποστάσεων Cook έναντι Leverage τιµών Γραφήµατα DfFts µέτρων έναντι της σειράς καταχώρησης των περιπτώσεων (cases) Γραφήµατα DfBetas µέτρων έναντι της σειράς καταχώρησης των περιπτώσεων (cases) Ανακεφαλαίωση 89 ΚΕΦΑΛΑΙΟ 4. ΓΡΑΦΗΜΑΤΑ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ Εισαγωγή Γραφήµατα στη Στατιστική Ανάλυση Η χρησιµότητα των γραφηµάτων Η περίπτωση της απλής γραµµικής παλινδρόµησης Κουαρτέτο Anscombe Η περίπτωση της πολλαπλής γραµµικής παλινδρόµησης ηµιουργία δεδοµένων µε τα χαρακτηριστικά των δεδοµένων Anscombe Η συµβολή του Anscombe Περιγραφή του προβλήµατος Μεθοδολογία Γενικά Κατασκευή αρχικού πληθυσµού Κατασκευή της επόµενης γενεάς Κατασκευή της τελευταίας γενεάς Εφαρµογή ηµιουργία µιας γενεάς µε ιδιότητες Anscombe δεδοµένων Ανακεφαλαίωση 117 ΚΕΦΑΛΑΙΟ 5. (ΥΠΕΡ)ΡΕΑΛΙΣΜΟΣ ΣΤΑ ΓΡΑΦΗΜΑΤΑ ΥΠΟΛΟΙΠΩΝ Εισαγωγή ηµιουργία αλγορίθµου Επίλυση για ορθογώνια R και Y ˆ 1

11 5.. Επίλυση για µη ορθογώνια R και Y ˆ Παράδειγµα 1 ο Επιλογή µεταβλητών Παράδειγµα ο Πρόγραµµα Gauss Εφαρµογή Εφαρµογή Ανακεφαλαίωση 14

12

13 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Α/Α Τίτλος πίνακα Σελ. 1.1 Κυριότεροι τύποι Γενικευµένων Γραµµικών Μοντέλων Έλεγχοι υποθέσεων όταν ο πίνακας σχεδιασµού είναι ορθογώνιος 19.1 Μεταβλητές παλινδροµικού µοντέλου 31. Ανάλυση διακύµανσης Σύνολα δεδοµένων Anscombe Βασικά Στατιστικά Μέτρα Αποτελέσµατα Παλινδροµήσεων Νέα σύνολα δεδοµένων µε ιδιότητες Anscombe Βασικά Στατιστικά Μέτρα Αποτελέσµατα Παλινδροµήσεων Αποτελέσµατα παλινδρόµησης συνόλου δεδοµένων logotypo.txt Αποτελέσµατα παλινδρόµησης συνόλου δεδοµένων mnma.txt 139

14

15 ΚΑΤΑΛΟΓΟΣ ΓΡΑΦΗΜΑΤΩΝ Α/Α Τίτλος γραφήµατος Σελ. 3.1 Περιπτώσεις πιθανοθεωρητικών P-P γραφηµάτων των υπολοίπων Περιπτώσεις προτύπων σε γραφήµατα υπολοίπων Πρότυπα γραφηµάτων υπολοίπων ως προς τις y (οµοίως και για x ) ιαφορά ακραίας τιµής από παρατήρηση επίδρασης Γραφήµατα διασποράς των τεσσάρων συνόλων δεδοµένων του Anscombe Γραφήµατα διασποράς στα οποία έχουµε προσαρµόσει την εξίσωση παλινδρόµησης Γραφήµατα υπολοίπων ως προς τις τιµές των ( e, x ) Γραφήµατα διασποράς των τεσσάρων νέων συνόλων δεδοµένων Γραφήµατα διασποράς στα οποία έχουµε προσαρµόσει την εξίσωση παλινδρόµησης Γραφήµατα υπολοίπων ως προς τις τιµές των * ( e, x ) Γραφήµατα διασποράς αρχικών δεδοµένων Anscombe και νέας γενεάς δεδοµένων Παραδείγµατα παράξενων γραφηµάτων υπολοίπων Παράδειγµα εικόνας µε σταθερό πλαίσιο Παράδειγµα εικόνας µε ασαφές πλαίσιο Το µάτι του ταύρου Πολλαπλό γράφηµα διασπορών της Υ µε τις και γράφηµα υπολοίπων ( e, y ) Απόφθεγµα του G.E.P Βοχ Αποτελέσµατα εφαρµογής αλγόριθµου στο αρχικό γράφηµα Λογότυπο αυθεντικότητας ενός προϊόντος (jpg αρχείο) Μετατροπή της αρχικής εικόνας σε ( x, y ) ζεύγη τιµών Προσαρµογή στα ( x, y ) ζεύγη σηµείων της ευθείας ελαχίστων τετραγώνων Προσαρµογή στα ( x, y ) ζεύγη σηµείων ενός πλαισίου σηµείων Γράφηµα υπολοίπων των ( x, y ) ζευγών σηµείων (από πρόγραµµα GAUSS) Γραφήµατα διασποράς των µεταβλητών ( Y, ) και των µεταβλητών (, j ) Γράφηµα υπολοίπων e ως προς τις ŷ (Με S-PLUS) 136 ˆ 5.15 Προσαρµογή στα ( x, y ) ζεύγη σηµείων της ευθείας ελαχίστων τετραγώνων και του πλαισίου σηµείων Γράφηµα υπολοίπων των ( x, y ) ζευγών σηµείων (από πρόγραµµα GAUSS) 138

16 5.17 Γραφήµατα διασποράς των µεταβλητών ( Y, ) και των µεταβλητών (, j ) Γράφηµα υπολοίπων e ως προς τις ŷ (Με S-PLUS) 14

17 ΚΕΦΑΛΑΙΟ 1 ΣΤΑΤΙΣΤΙΚΑ ΜΟΝΤΕΛΑ - ΓΕΝΙΚΑ ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ (A model should be as smple as possble. But not smpler. - A. Ensten) 1. Στατιστικά Μοντέλα 1.1 Γενικά Η στατιστική µοντελοποίηση αποτελεί ένα σηµαντικό αναλυτικό εργαλείο που επιτρέπει στον ερευνητή µέσω µιας ενοποιηµένης διαδικασίας να αποτυπώσει και να ερµηνεύσει σύνθετες σχέσεις µεταξύ µεταβλητών που χαρακτηρίζουν µια κατάσταση ή ένα φαινόµενο. Ένα κατάλληλα επιλεγµένο µοντέλο δίνει τη δυνατότητα αποµόνωσης και εξαγωγής κρίσεων ή συµπερασµάτων σχετικά µε την επίδραση κάθε µεταβλητής σε ένα φαινόµενο και βοηθά σε σηµαντικό βαθµό στην κατανόηση του. Ειδικότερα η χρήση στατιστικών µοντέλων είναι αναγκαία για καθένα από τους παρακάτω τέσσερις κύριους λόγους: α) Για την αιτιολόγηση και απόδειξη µιας θεωρίας. Με την κατασκευή µοντέλων µπορεί να αναπτυχθούν θεωρητικές απόψεις ή να ελεγχθούν ισχυρισµοί ανταγωνιστικοί µεταξύ τους. β) Για να γίνουν προβλέψεις. Αρκετά µοντέλα, ιδιαίτερα στο οικονοµικό πεδίο, κατασκευάζονται µε σκοπό τη δηµιουργία προβλέψεων που αφορούν στη λειτουργία ενός φαινοµένου ή µιας κατάστασης στο µέλλον. Η ικανότητα - για παράδειγµα - πρόβλεψης των αλλαγών στο δείκτη ανεργίας ή στο ύψος των επιτοκίων ή στο κόστος ζωής δίνει τη δυνατότητα στους αρµόδιους οικονοµικούς παράγοντες να

18 λαµβάνουν κατάλληλα µέτρα. Επί της ουσίας, η δυνατότητα προβλέψεων µε τη βοήθεια κατάλληλων και αξιόπιστων µοντέλων ελαχιστοποιεί τον κίνδυνο για λανθασµένες αποφάσεις. γ) Για να προσδιορίσουν τη επίδραση των µεταβλητών. Όπως είναι γνωστό κάθε µεταβλητή εκφράζει ένα συγκεκριµένο χαρακτηριστικό ενός φαινοµένου. Τα µοντέλα δίνουν τη δυνατότητα αξιολόγησης της επίδρασης ενός χαρακτηριστικού (µιας µεταβλητής) στο αποτέλεσµα του φαινοµένου που µελετάται. δ) Για να µειωθεί η διάσταση του προβλήµατος και να αποκαλυφθούν τυχόν ψευδοµεταβλητές. Η περιγραφή ενός φαινοµένου µπορεί να επιτυγχάνεται µε τη βοήθεια πλήθους µεταβλητών πολλές από τις οποίες µπορεί να είναι ισχυρά συσχετισµένες. Για παράδειγµα, η παραγοντική ανάλυση που αποτελεί µια πολυµεταβλητή στατιστική τεχνική έχει σκοπό να βρει την ύπαρξη κοινών παραγόντων ανάµεσα σε µια οµάδα αρκετών µεταβλητών. Μ αυτό τον τρόπο µειώνονται οι διαστάσεις του προβλήµατος επειδή δεν δουλεύουµε µε τις αρχικές µεταβλητές αλλά µε τους παράγοντες που προκύπτουν και οι οποίοι έχουν τη δυνατότητα να διατηρούν σε σηµαντικό βαθµό την πληροφορία που υπήρχε στις αρχικές µεταβλητές. Ταυτόχρονα δίνεται η δυνατότητα εξήγησης των συσχετίσεων που υπάρχουν στα δεδοµένα, για τις οποίες έχει υποτεθεί ότι οφείλονται αποκλειστικά στην ύπαρξη κάποιον παραγόντων που δηµιούργησαν αυτά τα δεδοµένα. Αξίζει να σηµειωθεί ότι οι τέσσερις παραπάνω λόγοι δεν είναι αµοιβαία αποκλειόµενοι. Μοντέλα τα οποία βασίζονται σταθερά στη θεωρία είναι πιθανό να επιτυγχάνουν καλύτερες προβλέψεις και είναι σαφώς καταλληλότερα στο να ανακαλύπτουν και να ερµηνεύουν τις επιδράσεις των διαφόρων χαρακτηριστικών στο αποτέλεσµα του υπό µελέτη φαινοµένου. Η κατανόηση των αρχών που διέπουν τη στατιστική µοντελοποίηση απαιτεί εξοικείωση µε τις βασικές αρχές και µεθόδους της στατιστικής επιστήµης. Γι αυτό το λόγο είναι απαραίτητη η κατανόηση εννοιών όπως αυτών της εκτίµησης διαστηµάτων εµπιστοσύνης, του ελέγχου υποθέσεων, των κατανοµών πιθανότητας και των δειγµατικών κατανοµών. Απαιτείται ακόµη εµπειρία στη χρήση των t-tests, της απλής και πολλαπλής γραµµικής παλινδρόµησης, της ανάλυσης διακύµανσης καθώς και στον έλεγχο ανεξαρτησίας σε πίνακα διπλής εισόδου. Επιπρόσθετα, είναι χρήσιµο να υπάρχουν βασικές γνώσεις γύρω από τη θεωρία πινάκων καθώς και µια σχετική ευχέρεια στην χρήση Η/Υ. Η επανάσταση που σηµειώθηκε τα τελευταία χρόνια στον

19 χώρο της πληροφορικής και η ανάπτυξη λογισµικού κατάλληλου για στατιστική επεξεργασία έχει διευκολύνει την ανάπτυξη και εξέλιξη της στατιστικής επιστήµης και της ανάλυσης δεδοµένων [1],[]. 1. Η αρχή της οικονοµίας ( Occam s Razor ) Στις αρχές του 14 ου αιώνα ο βρετανός φιλόσοφος Wllam of Occam ισχυρίστηκε ότι από ένα σύνολο εξίσου ικανοποιητικών εξηγήσεων για ένα συγκεκριµένο φαινόµενο, η σωστή και περισσότερο ενδεδειγµένη εξήγηση είναι η απλούστερη. Υποστήριξε ακόµη ότι για την ερµηνεία ενός φαινοµένου, θα πρέπει να λαµβάνονται υπόψη µόνο οι απολύτως αναγκαίες υποθέσεις και αυτές θα πρέπει να ναι όσο το δυνατόν λιγότερο πολύπλοκες. Στη στατιστική µοντελοποίηση η αρχή της οικονοµίας έχει το εξής νόηµα: α) Τα µοντέλα πρέπει να έχουν όσο το δυνατόν λιγότερες παραµέτρους, άρα λιγότερες επεξηγηµατικές µεταβλητές. β) Τα γραµµικά µοντέλα πρέπει να προτιµώνται σε σχέση µε τα µη γραµµικά. γ) Τα πειράµατα πρέπει να βασίζονται σε λίγες υποθέσεις και θα πρέπει να προτιµώνται σε σχέση µε εκείνα που βασίζονται σε πολλές. δ) Τα µοντέλα θα πρέπει να ναι απλά και επαρκή. ε) Θα πρέπει να προτιµώνται απλές ερµηνείες σε σχέση µε πολύπλοκες και µη κατανοητές. Όλες οι παραπάνω προϋποθέσεις είναι µεν χρήσιµες αλλά οφείλουµε να τις χρησιµοποιούµε µε σύνεση και φειδώ. Μέσα στο µυαλό µας θα πρέπει να υπάρχουν τα λόγια του Ensten που σηµείωσε ότι «ένα µοντέλο πρέπει να είναι όσο το δυνατόν απλό, αλλά όχι απλούστατο». Μετά τα παραπάνω εισαγωγικά στοιχεία είµαστε έτοιµοι να δώσουµε τις βασικές αρχές της στατιστικής µοντελοποίησης [1],[3]. 1.3 Αρχές στατιστικής µοντελοποίησης ιερεύνηση των µεταβλητών δεδοµένων Κάθε στατιστική ανάλυση πρέπει να ξεκινά µε τη µελέτη κάθε µεταβλητής ξεχωριστά και ταυτόχρονα θα πρέπει να ελέγχεται και η ποιότητα των δεδοµένων (ύπαρξη ακραίων τιµών κλπ). Ειδικότερα σ ότι αφορά στις µεταβλητές θα πρέπει να µας απασχολούν ερωτήµατα όπως - ποια είναι η κλίµακα µέτρησης τους, αν είναι συνεχείς ή κατηγορικές και στην περίπτωση που είναι κατηγορικές από πόσες κατηγορίες αποτελούνται και αν αυτές είναι ονοµαστικής ή διατεταγµένης κλίµακας.

20 Ταυτόχρονα οφείλουµε να εξετάζουµε αν και µε ποιο τρόπο σχετίζονται οι µεταβλητές µεταξύ τους. Αυτό επιτυγχάνεται µε τη δηµιουργία πινάκων διασταύρωσης (συνάφειας) για τις κατηγορικές µεταβλητές, µε διαγράµµατα διασποράς για τις συνεχείς µεταβλητές, µε sde by sde θηκογραφήµατα συνεχών µεταβλητών των οποίων οι τιµές οµαδοποιούνται στις κατηγορίες (factor levels) µιας κατηγορικής µεταβλητής καθώς και µε τη χρήση άλλων µεθόδων. Ο έλεγχος της ποιότητας των δεδοµένων αφορά κυρίως στην ύπαρξη ακραίων και ελλειπουσών παρατηρήσεων (τιµών). Σε πρώτο στάδιο, για τον έλεγχο της ύπαρξης ακραίων τιµών µπορούµε να δηµιουργήσουµε θηκογραφήµατα των µεταβλητών ή να κάνουµε τυποποίηση των αρχικών τιµών (υπολογισµός z-τιµών) [4] ηµιουργία µοντέλου Ένα στατιστικό µοντέλο περιέχει τις µεταβλητές απόκρισης Y και συνήθως αρκετές επεξηγηµατικές µεταβλητές. Στην πράξη και στις περισσότερες περιπτώσεις η µεταβλητή απόκρισης είναι µια και συµβολίζεται µε Y. Για την κατασκευή ενός µοντέλου είναι χρήσιµο: α) να υπάρχει γνώση του γενικού πλαισίου στο οποίο βρίσκονται τα δεδοµένα β) να λαµβάνονται υπόψη τα ερωτήµατα που επιθυµούµε να απαντήσουµε και αφορούν το υπό µελέτη φαινόµενο καθώς και τη µελέτη σχεδιασµού γ) να διερευνάται αν υφίστανται σχέσεις µεταξύ των µεταβλητών και δ) να πραγµατοποιείται ανάλυση των επεξηγηµατικών µεταβλητών. Ένα µοντέλο αποτελείται από δύο παράγοντες: 1) Τις κατανοµές πιθανότητας των µεταβλητών απόκρισης Y (συνήθως πρόκειται για την κατανοµή πιθανότητας µιας µεταβλητής Y ) ) Τη συνάρτηση που συνδέει την αναµενόµενη τιµή της µεταβλητής απόκρισης Y µε ένα γραµµικό συνδυασµό των επεξηγηµατικών µεταβλητών, = 1,...n. Η συνάρτηση αυτή καλείται συνάρτηση σύνδεσης (equaton lnkng) και έχει τη µορφή g[ E(Y) ] = β o + β1 1 +β +...+βn n. Το δεύτερο µέλος της παραπάνω εξίσωσης β o + β1 1 +β βn n αποτελεί το λεγόµενο γραµµικό παράγοντα (lnear component) [4].

21 1.3.3 Εκτίµηση παραµέτρων Οι πιο συνηθισµένες µέθοδοι εκτίµησης παραµέτρων είναι η µέθοδος της µεγίστης πιθανοφάνειας και η µέθοδος των ελαχίστων τετραγώνων. Επικουρικά, χρησιµοποιούνται και ορισµένες κατάλληλες γραφικές µέθοδοι που συµπληρώνουν τις προηγούµενες υπολογιστικές και αλγεβρικές µεθόδους βελτιστοποίησης [4] Υπόλοιπα (σφάλµατα) και έλεγχος του µοντέλου Η ανάλυση των υπολοίπων αποτελεί ένα σηµαντικό εργαλείο προκειµένου να ελέγξουµε τις υποθέσεις που κάνουµε στην κατασκευή ενός µοντέλου. Το υπόλοιπο ορίζεται ως η διαφορά της προβλεπόµενης (predcted) από την παρατηρούµενη (observed) τιµή και συνήθως συµβολίζεται µε e. ηλαδή έχουµε: Υπόλοιπο e =Παρατηρούµενη τιµή y Προβλεπόµενη τιµή y Η προβλεπόµενη τιµή y ή µ καλείται και προσαρµοσµένη επειδή προσδιορίζεται από την εξίσωση του µοντέλου που έχουµε εκτιµήσει. Είναι προφανές ότι τα υπόλοιπα e είναι οι διαφορές µεταξύ εκείνου που πραγµατικά παρατηρείται και εκείνου που προβλέπεται από την εξίσωση του µοντέλου προσαρµογής, δηλαδή είναι η ποσότητα που η εξίσωση του µοντέλου δεν είναι ικανή να ερµηνεύσει. Στην περίπτωση των γενικευµένων γραµµικών µοντέλων και ειδικότερα σε αυτά των γενικών πραγµατοποιούµε συγκεκριµένες υποθέσεις για τα υπόλοιπα. Αυτές είναι ότι τα υπόλοιπα είναι µεταξύ τους ανεξάρτητα, έχουν µέση τιµή µηδέν, σταθερή διασπορά σ και ακολουθούν κανονική κατανοµή. Επιπρόσθετα θα πρέπει να είναι ασυσχέτιστα µε τις επεξηγηµατικές µεταβλητές. Εκτός από τα συνήθη υπόλοιπα υπάρχουν πολλά είδη υπολοίπων τα οποία είναι τροποποιήσεις των αρχικών. Αυτά τα υπόλοιπα θα τα δούµε αναλυτικά στα κεφάλαια και 3 του παρόντος. Με την ανάλυση των υπολοίπων ελέγχουµε τις υποθέσεις του µοντέλου προσαρµογής. Αν το µοντέλο δίνει καλή περιγραφή της σχέσης ανάµεσα στη µεταβλητή απόκρισης Y και τις επεξηγηµατικές µεταβλητές τότε τα υπόλοιπα θα πρέπει να παρουσιάζουν σαφείς ενδείξεις που θα τείνουν να επιβεβαιώσουν τις υποθέσεις που έχουµε κάνει ή το λιγότερο αυτές δεν θα πρέπει να απορρίπτονται. Με τη µελέτη των υπολοίπων, µπορούµε να διαπιστώσουµε αν οι υποθέσεις του µοντέλου ενδεχοµένως είναι λανθασµένες. Με την εξέταση των υπολοίπων είµαστε σε θέση να συµπεράνουµε: ˆ

22 1) ότι οι υποθέσεις φαίνεται ότι παραβιάζονται (µε τρόπο που µπορεί να προσδιοριστεί) και ) ότι οι υποθέσεις δεν παραβιάζονται. Σηµειώνουµε ότι αν ισχύει η δεύτερη περίπτωση δε σηµαίνει ότι καταλήγουµε στο συµπέρασµα ότι οι υποθέσεις είναι σωστές αλλά ότι µε βάση τα διαθέσιµα δεδοµένα δεν έχουµε λόγο να αποφανθούµε ότι αυτές δεν είναι (σωστές). Κάτι ανάλογο ισχύει και στους ελέγχους υποθέσεων όπου - είτε απορρίπτουµε είτε όχι - την µηδενική υπόθεση. Οι τρόποι εξέτασης των υπολοίπων είναι κυρίως γραφικοί, εύκολα εφαρµόσιµοι και συνήθως πολύ αποκαλυπτικοί όταν οι υποθέσεις παραβιάζονται. Οι κυριότεροι τρόποι για να παραστήσουµε γραφικά τα υπόλοιπα e, είτε πρόκειται για τα συνήθη απλά - είτε πρόκειται για τα τυποποιηµένα ή τα studentzed υπόλοιπα είναι: 1) Συνολικά. Παρατηρούµε ουσιαστικά την κατανοµή των υπολοίπων ως προς το σχήµα (αν προσεγγίζει την κανονική κατανοµή). ) Σε χρονική ακολουθία (sequence plot), αν είναι γνωστή η σειρά των δεδοµένων 3) Ως προς τις προσαρµοσµένες τιµές ŷ. 4) Ως προς τις επεξηγηµατικές µεταβλητές x, = 1,,..., n Επιπλέον αυτών των βασικών τρόπων υπάρχουν και στατιστικές που δίνουν ένα αριθµητικό µέτρο για το αν υπάρχουν αποκλίσεις από τις υποθέσεις του µοντέλου. Όλα τα παραπάνω θα µελετηθούν περισσότερο διεξοδικά στην περίπτωση των γενικών γραµµικών µοντέλων και ιδιαίτερα στην περίπτωση της γραµµικής παλινδρόµησης [5] Συµπεράσµατα και ερµηνεία Είναι γνωστό ότι τα επιστηµονικά δεδοµένα και οι µετρήσεις τους περιέχουν µηνύµατα που δυστυχώς διαστρεβλώνονται από αυτό που αποκαλούµε θόρυβο (nose). Ο στόχος της στατιστικής µοντελοποίησης είναι να εξάγει όσο το δυνατόν περισσότερη πληροφορία από τα δεδοµένα προκειµένου να µελετηθεί ένα φαινόµενο. Η διαδικασία αυτή θα πρέπει να εξισορροπείται από κάποια κριτήρια όπως είναι αυτό της απλότητας ( αρχή της οικονοµίας που περιγράφηκε παραπάνω). Εποµένως είναι σαφές ότι ένα απλό ή πολύ περισσότερο ένα φειδωλό µοντέλο που περιγράφει τα δεδοµένα κατά τρόπο επαρκή είναι προτιµότερο από πολύπλοκα µοντέλα, τα οποία

23 αφήνουν µικρό ποσοστό της µεταβλητότητας των µεταβλητών απόκρισης ανερµήνευτο. Για να προσδιορίσουµε ένα φειδωλό µοντέλο υπολογίζουµε διαστήµατα εµπιστοσύνης και πραγµατοποιούµε ελέγχους υποθέσεων στις παραµέτρους του. Στον έλεγχο υποθέσεων εµπλέκονται πάντοτε δύο στατιστικές υποθέσεις. Η πρώτη από αυτές αποτελεί τη µηδενική υπόθεση H, ενώ η δεύτερη ονοµάζεται εναλλακτική H 1. Με τη χρήση κάθε φορά ενός στατιστικού κριτηρίου καλούµαστε να απαντήσουµε αν µια υπόθεση απορρίπτεται ή δεν απορρίπτεται. Τονίζεται ότι µια υπόθεση που δεν απορρίπτεται δεν είναι και κατ ανάγκη αληθινή, απλά δεν υπάρχουν αρκετά στοιχεία ή πληροφορίες για να την απορρίψουµε. Αυτός είναι και ο λόγος που ενώ οι έλεγχοι υποθέσεων είναι χρήσιµοι για να προσδιορίσουµε ένα µοντέλο, δεν είναι και επαρκείς για την ερµηνεία του. Γι αυτό - όπου είναι δυνατόν - οι παράµετροι ενός µοντέλου και η αξιοπιστία των εκτιµήσεων θα πρέπει να ελέγχονται µε τη βοήθεια των διαστηµάτων εµπιστοσύνης των παραµέτρων καθώς και από το τυπικό τους σφάλµα, παρά από τις p - τιµές [4],[5]. 1.4 Γενικευµένα - Γενικά Γραµµικά µοντέλα Γενικά Τα µοντέλα αποτελούν συµπυκνωµένες και απλές αναπαραστάσεις της πραγµατικότητας που χρησιµοποιούνται συχνά τόσο στην επιστήµη όσο και στην τεχνολογία. Παρά το γεγονός ότι φαίνεται δύσκολο να αποδεχτεί κάποιος πως ένα µοντέλο αναπαριστά την πραγµατικότητα κατά τρόπο αληθινό, µεγάλο µέρος της στατιστικής θεωρίας βασίζεται πάνω σ αυτήν την παραδοχή. Είναι γνωστό ότι τα µοντέλα είναι ντετερµινιστικά ή πιθανοθεωρητικά. Στην πρώτη περίπτωση τα αποτελέσµατα είναι εκ των προτέρων προσδιορισµένα ενώ στη δεύτερη εµπλέκεται η έννοια της µεταβλητότητας που οφείλεται σε ποικίλους άγνωστους παράγοντες. Αυτά τα µοντέλα στα οποία επεισέρχεται η έννοια της πιθανότητας αποτελούν τα στατιστικά µοντέλα. Η πιο σηµαντική - και µε τις περισσότερες εφαρµογές - κατηγορία είναι αυτή που αναφέρεται στα γενικευµένα γραµµικά µοντέλα (Generalzed Lnear Models). Την ονοµασία τους την οφείλουν στο γεγονός ότι αποτελούν γενίκευση των κλασσικών γραµµικών µοντέλων τα οποία βασίζονται στην κανονική κατανοµή. Η γενίκευση αναφέρεται στο ότι στα συγκεκριµένα µοντέλα η µεταβλητή (ή οι

24 µεταβλητές) απόκρισης µπορεί να ακολουθεί κατανοµή που να προέρχεται από µια ειδικά επιλεγµένη οικογένεια κατανοµών, που καλείται εκθετική. Με αυτόν τον τρόπο η συνάρτηση σύνδεσης (lnk functon) συνδέει το γραµµικό κοµµάτι του µοντέλου µε τη µέση τιµή µιας από τις κατανοµές της συγκεκριµένης οµάδας [4]. 1.5 Γενικευµένα Γραµµικά Μοντέλα (Generalzed Lnear Models) Εισαγωγή Έστω Y τυχαία µεταβλητή της οποίας η κατανοµή πιθανότητας εξαρτάται από την παράµετρο ϑ. Η κατανοµή ανήκει στην εκθετική οικογένεια αν µπορεί να γραφτεί ως εξής: f(y, ) = s(y)t( )e α (y)b( ϑ ) ϑ ϑ (1.1) όπου s,b,α και t είναι γνωστές συναρτήσεις. Παρατηρούµε τη συµµετρία που υπάρχει ανάµεσα στο y και το ϑ. Αυτό είναι περισσότερο εµφανές αν η παραπάνω σχέση γραφεί µε την ακόλουθη µορφή f(y, ) = exp [ (y)b( ) + c( ) + d(y) ] ϑ α ϑ ϑ (1.) όπου s(y)=expd(y) και t(ϑ)=expc(ϑ). Αν α(y)=y τότε λέµε ότι η κατανοµή είναι σε κανονική µορφή (canoncal form) και η ποσότητα b(ϑ) καλείται φυσική παράµετρος (natural parameter) της κατανοµής. Στην περίπτωση που υπάρχουν και άλλες παράµετροι εκτός από τη ϑ, έχουµε µια κατάσταση που δεν είναι επιθυµητή, γι αυτό και αυτές ονοµάζονται «ενοχλητικές» παράµετροι (nusance parameters). Πολλές από τις γνωστές κατανοµές ανήκουν στην εκθετική οικογένεια. Για παράδειγµα, η κατανοµή Posson, η διωνυµική κατανοµή κ.α. Κυρίαρχη, βέβαια, όλων είναι η κανονική κατανοµή η οποία θα παρουσιαστεί αναλυτικότερα κατά την αναφορά µας στα γενικά γραµµικά µοντέλα [],[4] Παράγοντες γενικευµένων γραµµικών µοντέλων Έστω Υ 1, Υ,...,Υ Ν ανεξάρτητες τυχαίες µεταβλητές, καθεµία από τις οποίες ακολουθεί κατανοµή από την εκθετική οικογένεια κατανοµών και έχει τις ακόλουθες ιδιότητες: α) Οι κατανοµές των µεταβλητών Y, = 1,,..., N έχουν κανονική µορφή και εξαρτώνται από µία παράµετρο ϑ (δεν χρειάζεται όλα τα [ ] f(y, ϑ ) = exp y b ( ϑ ) + c ( ϑ ) + d (y ) ϑ να είναι τα ίδια), δηλαδή

25 β) Οι κατανοµές των µεταβλητών Y είναι ίδιες (π.χ. όλες θα ακολουθούν την κανονική ή τη διωνυµική κατανοµή κ.λ.π.) πράγµα που σηµαίνει ότι δεν απαιτούνται οι περιγραφές των b,c και d. Οπότε η από κοινού συνάρτηση κατανοµής πιθανότητας των Y είναι : N [ ] f(y, y...y, ϑ, ϑ... ϑ ) = exp y b( ϑ ) + c( ϑ ) + d(y ) = 1 N 1 N =1 N N N = exp yb( ϑ ) + c( ϑ ) + d(y ) =1 =1 =1 Οι παράµετροι ϑ τυπικά δεν θεωρούνται άµεσου ενδιαφέροντος. Για τον προσδιορισµό του µοντέλου συνήθως ενδιαφερόµαστε για µια µικρότερη σειρά παραµέτρων β 1,β...β ρ (όπου ρ<ν). Υποθέτουµε ότι E(Y ) = µ,όπου µ είναι συνάρτηση του ϑ. Για ένα γενικευµένο γραµµικό µοντέλο υπάρχει ένας µετασχηµατισµός του µ τέτοιος ώστε g(µ ) = x β. Στην παραπάνω εξίσωση η g είναι µια µονότονη, διαφορίσιµη συνάρτηση που ονοµάζεται συνάρτηση σύνδεσης, το επεξηγηµατικών µεταβλητών x x1 x = οπότε x xρ T = x x... x 1 ρ, δηλαδή: T x είναι ένα διάνυσµα διαστάσεων px1 των και τέλος β είναι ένα διάνυσµα διαστάσεων px1 των παραµέτρων, δηλαδή Σηµειώνεται ότι το διάνυσµα x είναι η -οστή στήλη του πίνακα. β1 β β =. βρ Εποµένως οι παράγοντες ενός γενικευµένου γραµµικού µοντέλου συνοψίζονται στους ακόλουθους τρεις: 1) Στις µεταβλητές απόκρισης Υ 1, Υ...Υ Ν οι οποίες ακολουθούν την ίδια κατανοµή που προέρχεται από την εκθετική οικογένεια

26 ) Σε µια οµάδα παραµέτρων β 1 β= και επεξηγηµατικών µεταβλητών β p T x 1 T x x x 1ρ x = = x T N1 x Νρ xν 3) Σε µια µονότονη, διαφορίσιµη συνάρτηση σύνδεσης g τέτοια ώστε: g(µ ) = T x β όπου E(Y ) = µ [4]. Πρέπει να σηµειωθεί ότι δεν θα επεκταθούµε στην παρουσίαση των µεθόδων εκτίµησης παραµέτρων καθώς και στον έλεγχο καλής προσαρµογής ενός γενικευµένου γραµµικού µοντέλου διότι δεν αποτελούν αντικείµενα της συγκεκριµένης εργασίας Τύποι γενικευµένων γραµµικών µοντέλων παράγοντες: Τα γενικευµένα γραµµικά µοντέλα αποτελούνται από τρεις κύριους α) Τον τυχαίο παράγοντα (random component) όπου οι µεταβλητές απόκρισης Υ ακολουθούν µια κατανοµή από την εκθετική οικογένεια, δηλαδή Υ ~Dstrbuton (β), όπου β το διάνυσµα των παραµέτρων του µοντέλου. β) Τον συστηµατικό παράγοντα n = β +β1 1 + β βp p όπου γραµµικός παράγοντας του µοντέλου. n ο γ) Τη συνάρτηση σύνδεσης που συνδέει τον τυχαίο παράγοντα µε το γραµµικό, δηλαδή g( β ) = n = β + β1 1 +β βpp. Συνήθως β είναι ο µέσος των Υ [4]. Ακολούθως δίνονται, µε τη βοήθεια πίνακα, οι κυριότεροι τύποι γενικευµένων γραµµικών µοντέλων - πλην του κανονικού - που θα παρουσιαστεί αναλυτικά παρακάτω.

27 Μοντέλο Bernoull ιωνυµικά (Bnomal) Posson Πίνακας 1.1 Κυριότεροι τύποι Γενικευµένων Γραµµικών Μοντέλων Τυχαίος Παράγοντας Υ διχοτοµικές µεταβλητές Υ ~ Bernoull (ρ ) E(Y)=ρ Υ ο αριθµός των επιτυχιών σε ένα σύνολο n δοκιµών Υ ~ Bernoull (ρ,n ) E(Y)= n ρ Υ ο αριθµός των επιτυχιών σε µια συγκεκριµένη χρονική περίοδο Υ ~ Posson (λ ) E(Y)=λ Συστηµατικός Παράγοντας Χ ποσοτικές ή κατηγορικές τυχαίες µεταβλητές Χ ποσοτικές ή κατηγορικές τυχαίες µεταβλητές Χ ποσοτικές ή κατηγορικές τυχαίες µεταβλητές log = Συνάρτηση Σύνδεσης ρ 1-ρ g(ρ)=log(ρ) ρ 1-ρ log = n = β +β1x βpx p n = β +β1x βpx p g(ρ)=log(ρ) Λογιστικά µοντέλα g(ρ)=φ -1 (ρ) Μοντέλα πιθανοµονάδας (probt) g(ρ)=log[-log(1-ρ)] Συµπληρωµατικά log-log µοντέλα Log(λ )= n = β +β1x βpx p g(λ)=log(λ) 1.6 Γενικά Γραµµικά Μοντέλα Κανονική κατανοµή Η κανονική κατανοµή είναι η σηµαντικότερη κατανοµή πιθανοτήτων µε τις περισσότερες εφαρµογές. Μελετήθηκε αρχικά από τον Abraham de Movre ( ), ο οποίος το 1733 απέδειξε ότι η κανονική κατανοµή είναι προσέγγιση της διωνυµικής κατανοµής Bnomal (n,ρ) για 1 ρ = και µεγάλο n. Ογδόντα χρόνια αργότερα, το 181, ο Perre Smon de Laplace ( ) απέδειξε ότι το προηγούµενο συµπέρασµα ισχύει και για 1 ρ. Ακόµη ο Laplace έδειξε ότι η κανονική κατανοµή είναι το όριο της υπεργεωµετρικής κατανοµής. Το 189 ο Carl Fredrch Gauss ( ) µελετώντας τη θεωρία τυχαίων σφαλµάτων διατύπωσε τη θεωρία ότι αυτά πρέπει να ακολουθούν την κανονική κατανοµή. Ο Gauss δηµιούργησε και έναν πρώτο πίνακα τιµών της συνάρτησης κατανοµής, γι αυτό και

28 αυτή αναφέρεται ως Γκαουσιανή (Gaussan dstrbuton). Η ονοµασία κανονική (normal) είναι µεταγενέστερη και οφείλεται στον Pearson. Η συνεχής τυχαία µεταβλητή Υ θα λέµε ότι ακολουθεί την κανονική κατανοµή µε παραµέτρους µ και σ και συµβολίζεται µε συνάρτηση πυκνότητας πιθανότητας της Υ είναι : 1 1 f(y,µ) = exp - (y - µ) σ ( πσ ) 1 Η παραπάνω σχέση µπορεί να γραφεί και ως εξής : y yµ µ 1 f(y,µ) = exp log πσ σ σ σ ( ) Y N(µ,σ ), αν η που αποτελεί την κανονική µορφή της µ σχέσης. Η φυσική παράµετρος είναι b(µ) = και οι υπόλοιποι όροι της σχέσης (1.) σ µ σ προσδιορίζονται ως εξής: c(µ) = - - log ( πσ ) ότι εναλλακτικά ο όρος 1 - log(πσ ) κανονική κατανοµή έχει το σχήµα κωνοειδούς καµπύλης. και y d(y) = -. Σηµειώνεται σ µπορεί να περιληφθεί και στην d(y). Η Η κανονική κατανοµή χρησιµοποιείται για τη µοντελοποίηση συνεχών δεδοµένων που κατανέµονται συµµετρικά γύρω από τη µέση τους τιµή. Χρησιµοποιείται ευρύτατα για τρεις, κυρίως, λόγους: α) Πολλά φυσικά φαινόµενα περιγράφονται πολύ καλά από την κανονική κατανοµή β) Ακόµη και αν τα δεδοµένα που διαθέτουµε δεν κατανέµονται κανονικά (έχουν δηλαδή θετικά ή αρνητικά ασύµµετρες κατανοµές) το µέσο ή το σύνολο των τυχαίων δειγµάτων θα προσεγγίζουν την κανονική κατανοµή. Τούτο αποδεικνύεται από το κεντρικό οριακό θεώρηµα. γ) Σηµαντικό κοµµάτι της στατιστικής θεωρίας αναπτύχθηκε µε βάση την κανονική κατανοµή (παραµετρικές µέθοδοι), περιλαµβάνοντας τις δειγµατικές κατανοµές που προσεγγιστικά ακολουθούν την κανονική κατανοµή. Γι αυτό το λόγο, αν τα συνεχή δεδοµένα y δεν κατανέµονται κανονικά, πολύ συχνά επιχειρούνται µετασχηµατισµοί όπως ' y = logy ή y' = y κλπ, µε τους οποίους παράγονται δεδοµένα ' y που η κατανοµή τους προσεγγίζει την κανονική [6],[7].

29 1.6. Παράγοντες γενικών γραµµικών µοντέλων Τα γενικά γραµµικά µοντέλα (General Lnear Models) περιλαµβάνουν µοντέλα της µορφής E(Y ) = µ = x β όπου T Y N(µ,σ ) και Y 1,Y...Y N είναι ανεξάρτητες τυχαίες µεταβλητές. Η συνάρτηση σύνδεσης είναι ταυτοτική κα ισχύει g(µ ) = µ. Αυτού του είδους τα µοντέλα συνήθως γράφονται y = β + ε όπου : Y1 Y y =, Y N T 1 T =, T β1 β β = βρ και e1 e e = e N µε τη µορφή Το e αποτελεί το διάνυσµα - διαστάσεων Nx1 - των υπολοίπων e που είναι ανεξάρτητες, ταυτόσηµες τυχαίες µεταβλητές (..d.) µε για = 1,...N. e N(,σ ) Η διαφοροποίηση αυτών των µοντέλων µε τα γενικευµένα γραµµικά είναι ότι οι µεταβλητές απόκρισης Y ακολουθούν την κανονική κατανοµή [4] Εκτίµηση παραµέτρων Η εκτίµηση παραµέτρων ενός γενικού γραµµικού µοντέλου πραγµατοποιείται µε τη µέθοδο µεγίστης πιθανοφάνειας και µε τη µέθοδο ελαχίστων τετραγώνων Εκτίµηση µε τη µέθοδο µεγίστης πιθανοφάνειας Έστω το µοντέλο E(Y ) = µ = x β, µε T όπου Υ είναι Ν Y N(µ,σ ) ανεξάρτητες τυχαίες µεταβλητές και β είναι το διάνυσµα των ρ παραµέτρων (ρ<ν). Το παραπάνω αποτελεί ένα γενικό γραµµικό µοντέλο µε συνάρτηση σύνδεσης την ταυτοτική συνάρτηση. Επειδή η συνάρτηση σύνδεσης είναι η ταυτοτική, ισχύει µ µ = n οπότε =. Τα στοιχεία του πίνακα J θα έχουν απλούστερη µορφή, n δηλαδή γραφεί: 1 = σ N j κ κ = =1 σ x x J επειδή Var(Y ) = σ. Εποµένως ο πίνακας J µπορεί να T J. (1.3)

30 Από τη σχέση ρ (m-1) n z = xκb κ + (y -µ ) κ=1 µ προκύπτει η απλούστερη µορφή ρ (m-1) κ κ κ=1 z = x b + (y -µ ). Όµως το µ που εκτιµάται από την ποσότητα (m-1) b είναι ρ T (m-1) (m-1) = xκbκ κ=1 x b. Γι αυτό σ αυτήν την περίπτωση έχουµε z = y. Άρα η εξίσωση εκτίµησης T (m) T Wb = Wz παίρνει τη µορφή 1 1 b = σ σ T b = T από εδώ προκύπτει ότι ο εκτιµητής µεγίστης πιθανοφάνειας είναι ( ) -1 T (1.4) όπου ο πίνακας ( ) είναι µη ιδιάζων. T y και T y Εποµένως το παραπάνω µοντέλο µπορεί να γραφεί µε τη βοήθεια διανυσµάτων ως εξής y β I N(,σ ) όπου Ι είναι ένας NxN πίνακας µε στοιχεία στην κύρια διαγώνιο µονάδες και αλλού. ηλαδή ο πίνακας Ι είναι µοναδιαίος. Από T -1 T την εξίσωση (1.4) προκύπτει E( ) = ( ) ( ) b β = β πράγµα που σηµαίνει ότι το b είναι ένας αµερόληπτος εκτιµητής του διανύσµατος των παραµέτρων β. Για να πάρουµε τον πίνακα διακυµάνσεων συνδιακυµάνσεων του b αφαιρούµε από κάθε µέλος της σχέσης (1.4) την ποσότητα β και έχουµε: ( T -1 ) T ( T -1 ) T ( ) b - β = y - β = y - β και παίρνοντας αναµενόµενες τιµές προκύπτει: Τ T T Τ T ( b - β)( b - β ) = ( ) Ε ( y - β)( y - β) ( ) T T T T ( ) [ ] ( ) ( ) -1-1 Ε = Var(y) = σ. Όµως T -1-1 σ ( ) = J διότι ισχύει 1 = σ T J άρα ο πίνακας διακυµάνσεων συνδιακυµάνσεων του διανύσµατος των εκτιµητών των παραµέτρων b είναι J -1 όπως γνωρίζουµε από τη σχέση ( )( ) ( ) στοιχείων Τ -1 T -1 b - β b - β J UU J J. Ε = Ε = Ο εκτιµητής µέγιστης πιθανοφάνειας b είναι γραµµικός συνδυασµός των y του διανύσµατος y. Επειδή τα y κατανέµονται κανονικά και τα στοιχεία του διανύσµατος b θα ακολουθούν την κανονική κατανοµή. Συνεπώς η ακριβής δειγµατική κατανοµή του b θα είναι b -1 N( β, J ) ή αλλιώς T (b - β) J(b - β) (p).

31 1 Ακόµα ένας αµερόληπτος εκτιµητής της διακύµανσης σ είναι: Τ ( ) ( ) ˆσ = y - β y - β (1.5) Ν - ρ Η παραπάνω ποσότητα µπορεί να χρησιµοποιηθεί για την εκτίµηση του J και ως εκ τούτου να εξάγουµε χρήσιµα συµπεράσµατα για το διάνυσµα των παραµέτρων b [4] Εκτίµηση µε τη µέθοδο ελαχίστων τετραγώνων Αν E( ) = Ε y - b y - b = V όπου V γνωστό, µπορούµε να y b και ( )( ) Τ βρούµε τον εκτιµητή ελαχίστων τετραγώνων β ɶ του διανύσµατος των παραµέτρων β χωρίς να κάνουµε περαιτέρω υποθέσεις για την κατανοµή του y. Ελαχιστοποιούµε Τ -1 w T -1 την ποσότητα S = ( y - b) V ( y - b ). Η λύση του ( ) w S = - V y - b = β ɶ είναι ( ) -1 T -1 T -1 β = V V y. Ειδικότερα για το µοντέλο E(Y ) = µ = x β µε T Y N(µ,σ ), = 1,,..., N όπου τα στοιχεία του y είναι ανεξάρτητα και έχουν κοινή ɶ T y. διακύµανση ισχύει β = ( T ) -1 Παρατηρούµε εποµένως ότι, σ αυτήν την περίπτωση, οι εκτιµητές µέγιστης πιθανοφάνειας και οι εκτιµητές ελαχίστων τετραγώνων είναι ίδιοι. Μέχρι στιγµής έχουµε θεωρήσει το µοντέλο E(Y ) = µ = x β µε T Y N(µ,σ ), = 1,...N όπου η διακύµανση των τ.µ όπου οι διακυµάνσεις των µεταβλητών Y είναι σταθερή και ίση µε σ. Τι γίνεται όµως στην περίπτωση γίνεται η εκτίµηση των παραµέτρων του µοντέλου; Y διαφέρουν µεταξύ τους; Με ποιο τρόπο Έστω Var(y ) = σ Var(y ) = σ για κ. Η ανισότητα των διακυµάνσεων κ κ των µεταβλητών απόκρισης Y αντιµετωπίζεται σταθµίζοντας τις παρατηρήσεις µε µια ποσότητα που είναι ο αντίστροφος της διακύµανσης τους. Συγκεκριµένα, ο σταθµισµένος µέσος µιας µεταβλητής Y δίνεται από τη σχέση y = w y w όπου 1 w =. Η εκτίµηση του διανύσµατος των παραµέτρων β του µοντέλου σ αυτήν σ την περίπτωση γίνεται σταθµίζοντας τους εκτιµητές ελαχίστων τετραγώνων, δηλαδή

32 T -1 T ( ) ( ) b = W Wy όπου W πίνακας στάθµισης που περιλαµβάνει τους αντιστρόφους των διακυµάνσεων σ1 σ = W σν 1 [4] Έλεγχος καλής προσαρµογής Εκτίµηση της απόκλισης (devance) Έστω το µοντέλο E(Y ) = µ = x β µε T Y N(µ,σ ), = 1,...N όπου οι τυχαίες µεταβλητές Y είναι ανεξάρτητες. Η λογαριθµική συνάρτηση πιθανοφάνειας είναι ίση µε ( β y ) ( ) µοντέλο, όλα τα Ν 1 1 =1 l, = - y - µ - Nlog(πσ ). Για ένα κεκορεσµένο σ µ µπορούν να διαφέρουν µεταξύ τους, εποµένως το διάνυσµα των παραµέτρων β έχει Ν στοιχεία µ 1,µ...µ N. Παραγωγίζοντας τη λογαριθµική συνάρτηση πιθανοφάνειας ως προς κάθε µ και επιλύνοντας τις εξισώσεις εκτίµησης, προκύπτει ότι ˆµ = y. Συνεπώς η µέγιστη τιµή της λογαριθµικής συνάρτησης 1 l bmax, y = - Nlog(πσ ). Για πιθανοφάνειας για το κεκορεσµένο µοντέλο είναι ( ) T κάθε άλλο µοντέλο µε ρ<ν παραµέτρους, έχουµε ( ) -1 b = T y που αποτελεί τον εκτιµητή µέγιστης πιθανοφάνειας. Η µέγιστη τιµή της λογαριθµικής συνάρτησης πιθανοφάνειας για το µοντέλο µε ρ<ν παραµέτρους είναι Ν 1 T 1 l ( b, y) = - ( y - x b ) - Nlog(πσ ). Εποµένως η απόκλιση θα υπολογίζεται σ ως εξής: =1 =1 =1 N N 1 T 1 D = l( bmax, y) - l( b, y ) = ( y - x b) = ( y ˆ - µ ) (1.6) σ σ όπου ˆµ είναι η προσαρµοσµένη τιµή E(Y ) = µ, T x b. Στην απλή περίπτωση που έχουµε µόνο µια παράµετρο β στο µοντέλο, δηλαδή και Χ είναι ένα διάνυσµα µε Ν µεταβλητές, τότε

33 ˆ b = µ = y N = y, δηλαδή =1 N ˆµ = y, Ν σ =1. Άρα D = ( y - y) 1. Όµως το στατιστικό D συνδέεται µε τη δειγµατική διακύµανση Ν 1 σ D s = y - y = ( ). Είναι γνωστό ότι N -1 N -1 =1 s η οποία ισούται µε ( ) N -1 s σ ( ) Χ Ν -1 οπότε D (N -1) ακριβώς. 1 N 1 =1 σ Γενικότερα, από τη σχέση T T ( y - ) = ( - ) ( - ) D = σ x b y Χb y Χb όπου Χ ο πίνακας σχεδιασµού που έχει x γραµµές. Κάνοντας ένα βήµα παραπέρα έχουµε: 1 T 1 T T T T T 1 T T T D = ( y - b) ( y - b) = ( y y - b y + b b) = ( y y -b y ) [4]. (1.7) σ σ σ Έλεγχοι υποθέσεων δηλαδή: Έστω η µηδενική υπόθεση H και µια περισσότερο γενική υπόθεση H 1, β1 β Η : β = β = βq vs Η : β = β 1 β1 β = M βρ όπου q<ρ<ν Έστω ακόµη Χ και Χ 1 οι πίνακες σχεδιασµού, b, b 1 οι εκτιµητές µέγιστες πιθανοφάνειας και D, D 1 οι αποκλίσεις. Ελέγχουµε τη µηδενική υπόθεση H έναντι της εναλλακτικής H 1 και έχουµε 1 T T T T T T 1 T T T T D = D - D 1 = ( - ) -( ) = ( ) σ y y b y y y b y b y b y. σ Επειδή το µοντέλο που αντιστοιχεί στην εναλλακτική υπόθεση H 1 είναι πιο γενικό είναι πιθανότερο να περιγράφει καλύτερα τα δεδοµένα και υποθέτουµε ότι D 1 ακολουθεί την κατανοµή (N - p). Από την άλλη, η ποσότητα D µπορεί να ακολουθεί την κατανοµή (N - q), αν η µηδενική υπόθεση H δεν είναι σωστή. Σε

34 αυτήν την περίπτωση η διαφορά D=D -D 1 ακολουθεί την µη κεντρική κατανοµή. (p - q, u) Εποµένως το στατιστικό F θα ακολουθεί την κεντρική κατανοµή F(p - q, N - p) αν η µηδενική υπόθεση H δεν απορρίπτεται (είναι σωστή). ιαφορετικά το F θα ακολουθεί µη κεντρική κατανοµή. Το στατιστικό F είναι ίσο µε : T T T T D - D1 b y - b1 1 y ρ - q ρ - q F = = T T T D1 y y - b1 1 y N -ρ N - ρ Τιµές του F που είναι µεγάλες σε σχέση µε την κατανοµή F(p - q, N - p) αποτελούν ισχυρή ένδειξη για την απόρριψη της µηδενικής υπόθεσης H [4] Ορθογωνιότητα Συχνά η ερµηνεία της παραµέτρου µιας επεξηγηµατικής µεταβλητής εξαρτάται από ποιες από τις υπόλοιπες επεξηγηµατικές µεταβλητές συµπεριλαµβάνονται στο µοντέλο. Εξαίρεση αποτελεί η περίπτωση όπου ο πίνακας σχεδιασµού διαχωρίζεται στους παράγοντες 1,,..., m που συνιστούν υποµοντέλα του µοντέλου, δηλαδή Χ=[Χ 1,Χ,,Χ m ] για m ρ όπου T j κ = ένας πίνακας µε στοιχεία µηδενικά j κ. Σε αυτή την περίπτωση θα πρέπει ο πίνακας Χ να είναι ορθογώνιος. Έστω β πίνακας µε στοιχεία β 1,β,,β m έτσι ώστε να ισχύει: E( y) = β = 1β1 + β mβ m. Κάθε όρος της παραπάνω σχέσης αντιστοιχεί σε µια µεταβλητή συνήθως ποσοτική, αλλά µπορεί στο µοντέλο να υπάρχουν και κατηγορικές µεταβλητές που ονοµάζονται ψευδοµεταβλητές (dummy varables) και αποτελούνται από κατηγορίες οι οποίες αποτελούν τα επίπεδα µέτρησής των. Αν ο πίνακας Χ µπορεί να διαχωριστεί µε τον τρόπο που περιγράφουµε παραπάνω, τότε ο πίνακας Τ Χ Χ Χ Χ = Τ 1 1 T είναι ένας block διαγώνιος πίνακας όπου Χ Χ Τ m m. Ακόµη θα έχουµε Τ Χ y T Χ1 y =. T Χmy T Ως εκ τούτου οι εκτιµήσεις των παραµέτρων ( ) -1 b = y είναι T j j j j αναλλοίωτες ως προς τα υπόλοιπα στοιχεία του µοντέλου και θα ισχύει:

35 b y = b y b y T T T T T T 1 1 m m Συνεπώς οι υποθέσεις H 1 : β1 =, H : β =,... H m : βm =, µπορούν να ελεγχθούν ανεξάρτητα και σύµφωνα µε τον ακόλουθο πίνακα Πίνακας 1. Έλεγχοι υποθέσεων όταν ο πίνακας σχεδιασµού είναι ορθογώνιος Πηγή διακύµανσης Βαθµοί ελευθερίας Άθροισµα τετραγώνων Μοντέλο που αντιστοιχεί στην Η 1... Μοντέλο που αντιστοιχεί στην Η m Υπόλοιπο N - ρ 1... ρ m m j=1 ρ j b y T T 1 1 T m... b y T m T T T y y - b y ΣΥΝΟΛΟ Ν T y y Στην πράξη, εκτός από ορισµένα, πολύ καλά σχεδιασµένα, πειράµατα, ο πίνακας σχεδιασµού Χ δύσκολα µπορεί να είναι ορθογώνιος. Γι αυτό η ερµηνεία κάθε υποσυνόλου παραµέτρων, έστω β j, εξαρτάται από το ποιοι άλλοι όροι συµπεριλαµβάνονται στο µοντέλο. Για να ξεπεραστεί αυτή η ασάφεια, πολλά στατιστικά προγράµµατα διαθέτουν τεστ που λαµβάνουν υπόψη όλους τους όρους, πριν προστεθεί η ποσότητα jβ j. Στην περίπτωση αυτήν, τα αποτελέσµατα του αθροίσµατος των τετραγώνων και οι έλεγχοι υποθέσεων καλούνται τύπου ΙΙΙ έλεγχοι (Type III tests) [4] Υπόλοιπα Ένα γενικό γραµµικό µοντέλο συνήθως γράφεται y = β + e όπου τα υπόλοιπα e είναι..d. τυχαίες µεταβλητές µε e N(,σ ) µε = 1,,..., N. T Εποµένως τα υπόλοιπα θα είναι ίσα µε e ˆ = y ˆ - x b = y -µ όπου ˆµ είναι οι προσαρµοσµένες τιµές. Ο πίνακας διακυµάνσεων συνδιακυµάνσεων του διανύσµατος των υπολοίπων ê θα ισούται µε:

36 ( ˆˆ ) ( - )( - ) T = E( ) - ( ) = σ - ( ) -1 D T = E T E T T Τ Τ ee y b y b yy bb Ι όπου Ι µοναδιαίος πίνακας. Τα τυποποιηµένα υπόλοιπα r θα είναι ίσα µε Τ h είναι το -στο στοιχείο της διαγωνίου του πίνακα ( ) -1 εκτίµηση της συνολικής διακύµανσης σ. ê r = όπου 1 ˆσ(1- h ) Τ H = και ˆσ είναι η Αυτού του είδους τα υπόλοιπα χρησιµοποιούνται για τον έλεγχο της επάρκειας του µοντέλου που έχουµε προσαρµόσει στα δεδοµένα. Τούτο επιτυγχάνεται µε τη χρήση ποικίλων γραφηµάτων καθώς και µε µαθηµατικές µεθόδους. Συγκεκριµένα πραγµατοποιούνται έλεγχοι για την ύπαρξη γραµµικότητας µεταξύ των µεταβλητών και για την ύπαρξη ανεξαρτησίας µεταξύ των παρατηρήσεων. Ακόµη διερευνάται αν τα υπόλοιπα ακολουθούν την κανονική κατανοµή καθώς και το αν σχετίζονται µε άλλες επεξηγηµατικές µεταβλητές που δεν περιλαµβάνονται στο µοντέλο [4],[5] Άλλοι διαγνωστικοί έλεγχοι Εκτός από την ανάλυση υπολοίπων, υπάρχουν αρκετές ακόµη µέθοδοι για τον έλεγχο της επάρκειας ενός µοντέλου και την διερεύνηση της ύπαρξης, ή µη, ασυνήθιστων παρατηρήσεων ή πολύ περισσότερο παρατηρήσεων που επιδρούν σηµαντικά στο µοντέλο. Μια ακραία τιµή (outler) είναι µια παρατήρηση που δεν προσαρµόζεται ικανοποιητικά στο µοντέλο που έχουµε εκτιµήσει. Μια παρατήρηση επίδρασης (nfluental observaton) επιδρά σηµαντικά στα αποτελέσµατα και εποµένως και στην ερµηνεία του µοντέλου. Οι παρατηρήσεις επίδρασης ενδεχοµένως να είναι ή όχι ακραίες τιµές και αντιστρόφως. Η τιµή h είναι το -οστο στοιχείο της διαγωνίου του πίνακα Η και ονοµάζεται µόχλευση (leverage) της -οστής παρατήρησης. Μια παρατήρηση µε υψηλή τιµή µόχλευσης µπορεί να επιφέρει σηµαντική διαφοροποίηση σ ότι αφορά στην προσαρµογή ενός µοντέλου στα δεδοµένα. Συνήθως, αν τα h είναι µεγαλύτερα κατά δυο ή τρεις φορές από το πηλίκο ρ Ν (όπου ρ είναι ο αριθµός των παραµέτρων του µοντέλου και Ν ο αριθµός των παρατηρήσεων) τότε αυτά πρέπει να ελεγχθούν. Οι παρακάτω τύποι αποτελούν µετρήσεις που περιλαµβάνουν τυποποιηµένα

37 σφάλµατα και τιµές µόχλευσης, δηλαδή h DFts = r 1- h 1 και 1 h D = r ρ 1- h είναι γνωστός ως απόσταση Cook. Υψηλές τιµές των προηγούµενων στατιστικών καταδεικνύουν ότι η -οστή παρατήρηση ασκεί ισχυρή επιρροή στο µοντέλο. Μια άλλη προσέγγιση για τον προσδιορισµό παρατηρήσεων επίδρασης είναι να προσαρµόσουµε στα δεδοµένα µας µοντέλα - µε και χωρίς - τις «ύποπτες» παρατηρήσεις και να ελέγξουµε τις διαφορές που προκύπτουν στις εκτιµήσεις των παραµέτρων b καθώς και στον έλεγχο καλής προσαρµογής (είτε µε τη χρήση της απόκλισης είτε µε το κριτήριο του αθροίσµατος των τετραγώνων). Για παράδειγµα, το στατιστικό delta-beta είναι ίσο µε ˆβ j = b j - b j() όπου b () j που είναι η εκτίµηση του β j που προκύπτει όταν η -οστη παρατήρηση παραλείπεται από τα δεδοµένα. Αυτά τα στατιστικά µπορούν να τυποποιηθούν διαιρώντας τα µε τα τυπικά τους σφάλµατα και µπορούν να συγκριθούν µε την τυποποιηµένη κανονική κατανοµή για να προσδιορίσουµε µεγάλες τιµές τους. Μπορούµε ακόµη να δηµιουργήσουµε γραφήµατα αυτών ως προς τις παρατηρήσεις έτσι ώστε να προσδιορίσουµε εποπτικά τυχόν ακραίες τιµές. Τα στατιστικά delta-beta µπορούν να επεκταθούν σ όλες τις παραµέτρους κάνοντας χρήση της σχέσης εκφράζει το διάνυσµα των εκτιµήσεων των παραµέτρων 1 T Τ ( - ( ) ) - ( ) ( ) D = b b b b όπου b () ρ b (). Αυτό το στατιστικό πρακτικά ισούται µε την απόσταση Cook. Οµοίως η επίδραση της -οστης παρατήρησης στην απόκλιση καλείται delta-απόκλιση (delta-devance). Μόλις προσδιορίσουµε µια παρατήρηση επίδρασης ή µια ακραία τιµή, το πρώτο βήµα είναι να καθορίσουµε αν πρόκειται για κάποιο σφάλµα µέτρησης ή κάποιο σφάλµα πληκτρολόγησης κλπ. Αν συµβαίνει κάτι τέτοιο διορθώνουµε την τιµή της παρατήρησης. Σε αντίθετη περίπτωση εξετάζουµε το ενδεχόµενο να αφαιρέσουµε από τα δεδοµένα µας αυτήν την παρατήρηση εφόσον έχουµε έναν καλό λόγο να το κάνουµε. Αν δεν µπορεί να συµβεί κάτι τέτοιο διατηρούµε την τιµή στα δεδοµένα µας και προσαρµόζουµε σ αυτά δυο µοντέλα όπου στο ένα λαµβάνεται υπόψη η παρατήρηση επίδρασης και στο άλλο όχι. Είναι προφανές ότι και για τα δύο µοντέλα θα δίνονται το σύνολο των υπολογισµών και των συµπερασµάτων σχετικά µε το φαινόµενο που µελετάµε [4],[5].

38 1.6.9 Τύπος γενικού γραµµικού µοντέλου Τα γενικά γραµµικά µοντέλα είναι γνωστά και ως κανονικά µοντέλα για τον απλό λόγο ότι οι µεταβλητές απόκρισης Y ακολουθούν κανονική κατανοµή. Τα γενικά γραµµικά µοντέλα ως το σηµαντικότερο υποσύνολο των γενικευµένων, καθορίζονται από τους τρεις παράγοντες, ήτοι τον τυχαίο και συστηµατικό παράγοντα καθώς και τη συνάρτηση σύνδεσης. Συγκεκριµένα, ο τυχαίος παράγοντας αποτελείται από τις µεταβλητές απόκρισης (συνήθως µια) Y οι οποίες είναι ποσοτικές και ακολουθούν την κανονική κατανοµή µε µέση τιµή µ και διακύµανση σ, δηλαδή Y N(µ,σ ) µε E(Y) = µ και Var(Y ) = σ. Ο συστηµατικός παράγοντας αποτελείται από τις επεξηγηµατικές µεταβλητές που µπορούν να είναι ποσοτικές ή κατηγορικές ή συνδυασµός και των δυο. Ειδικότερα αν έχουµε : α) µόνο ποσοτικές επεξηγηµατικές µεταβλητές τότε προκύπτει µοντέλο παλινδρόµησης (regresson model) β) µόνο κατηγορικές (ποιοτικές) επεξηγηµατικές µεταβλητές τότε έχουµε µοντέλο ανάλυσης διακύµανσης (ANOVA model) γ) τόσο ποσοτικές όσο και κατηγορικές επεξηγηµατικές µεταβλητές τότε έχουµε µοντέλο ανάλυσης συνδιακύµανσης (ANCOVA model). Ακόµη η συνάρτηση σύνδεσης ενός γενικού γραµµικού µοντέλου έχει τη µορφή µ = n = β + β1x βpx p. Συνοψίζοντας, οφείλουµε να τονίσουµε τις τέσσερις κύριες υποθέσεις πάνω στις οποίες στηρίζονται τα γενικά γραµµικά µοντέλα. Αυτές είναι: 1) η γραµµικότητα ) η κανονικότητα των υπολοίπων e 3) η ισότητα των διακυµάνσεων (οµοσκεδαστικότητα) των υπολοίπων e και 4) η ανεξαρτησία των επεξηγηµατικών µεταβλητών Χ [4],[5]. 1.7 Ανακεφαλαίωση Στατιστικά µοντέλα είναι κάθε οµάδα µαθηµατικών και πιθανοθεωρητικών εξισώσεων που χρησιµοποιούνται για να περιγράψουν και να συνοψίσουν ένα φαινόµενο. Εφόσον αυτά κρίνονται κατάλληλα και ικανοποιητικά µπορούν να χρησιµοποιηθούν και για προβλέψεις. Συνήθως αποτελούνται τόσο από στοχαστικές όσο και από αιτιοκρατικές (ντετερµινιστικές σχέσεις). Τα πιο δηµοφιλή µοντέλα είναι

39 τα γενικευµένα γραµµικά µοντέλα (Generalzed Lnear Models) σηµαντικότατο κοµµάτι των οποίων αποτελούν τα γενικά γραµµικά µοντέλα (General Lnear Models). Είδαµε ότι στα γενικευµένα γραµµικά µοντέλα οι µεταβλητές απόκρισης ακολουθούν κατανοµή που προέρχεται από την εκθετική οικογένεια. Κυρίαρχη θέση σ αυτού του είδους τα µοντέλα κατέχουν τα γενικά γραµµικά µοντέλα, στα οποία οι µεταβλητές απόκρισης Y ακολουθούν την κανονική κατανοµή. Τα γενικά γραµµικά µοντέλα διαθέτουν ορισµένα βασικά χαρακτηριστικά που τα καθιστούν ελκυστικά. Αυτά είναι : α) Είναι κατανοητά και σαφή, γι αυτό και είναι εύκολο να περιγραφούν και να ερµηνευτούν. Συγκεκριµένα, το γραµµικό µοντέλο y = b + e είναι απλό αλλά συνάµα ισχυρό ενώ για τα υπόλοιπα e ισχύει e N(,σ ). β) Ο τυχαίος παράγοντας του µοντέλου είναι απλός. Η κανονική κατανοµή περιγράφεται πλήρως και από τις δυο του παραµέτρους µ και σ Y (ή στην πολυµεταβλητή περίπτωση, από το διάνυσµα των µέσων µ και του πίνακα διακυµάνσεων συνδιακυµάνσεων) γ) Τα µοντέλα αυτά µπορούν εύκολα να υπολογιστούν. Οι εκτιµήσεις των Τ παραµέτρων β του µοντέλου µπορούν να εκτιµηθούν από τη σχέση ( ) -1 Τ b = y που αποτελούν γραµµικούς συνδυασµούς των πραγµατικών δεδοµένων y. Γενικά µπορεί να χρησιµοποιηθεί η θεωρία και οι ιδιότητες της γραµµικής άλγεβρας για τον παραπάνω αλλά και για τους άλλους υπολογισµούς. δ) Για την εκτίµηση των παραµέτρων β του µοντέλου µπορεί να χρησιµοποιηθούν τόσο η µέθοδος των ελαχίστων τετραγώνων όσο και η µέθοδος µεγίστης πιθανοφάνειας. Και οι δυο µέθοδοι δίνουν τα ίδια αποτελέσµατα. Όπως έχουµε ήδη αναφέρει τα γενικά γραµµικά µοντέλα είναι κανονικά και πολύ συχνά αναφέρονται ως παλινδροµικά µοντέλα (regresson models). Στη συνέχεια θα περιγράψουµε διεξοδικά το µοντέλο της πολλαπλής γραµµικής παλινδρόµησης. Βιβλιογραφία 1. McCullogh, C.E. and Searle, S.R. (1), Generalzed Lnear and Mxed Models, Wley, New York

40 . McCullagh, P. and elder, J.A. (1989), Generalzed Lnear Models, Second Edton, Chapman & Hall/, London 3. Lndsey, J.K. (1997), Applyng Generalzed Lnear Models, Sprger, New York 4. Dodson, A.J. (), An Introducton to Generalzed Lnear Models, Second Edton, Chapman & Hall/CRC, New York 5. Draper,. και Smth, H. (1997), Εφαρµοσµένη Ανάλυση Παλινδρόµησης (Μετάφραση: Χατζηκωνσταντινίδης, Ε. και Καλαµατιανού, Α.), Εκδόσεις Παπαζήση, Αθήνα 6. Αθανασόπουλος,. (1991), Θεωρία Πιθανοτήτων ΙΙ, Εκδόσεις Α. Σταµούλη, Πειραιάς 7. Κουνιάς, Σ. και Μωυσιάδης, Χ. (1995), Θεωρία Πιθανοτήτων Ι, Εκδόσεις Ζήτη, Θεσσαλονίκη 8. Ελληνικό Στατιστικό Ινστιτούτο, (9), Λεξικό Στατιστικής Ορολογίας, Εκδόσεις Ελληνικού Στατιστικού Ινστιτούτου, Αθήνα

41 ΚΕΦΑΛΑΙΟ ΑΝΑΛΥΣΗ ΠΑΛΙΝ ΡΟΜΗΣΗΣ (One of the prncpal ams of statstcs s to fnd and descrbe relatonshps among physcal quanttes n the world n whch we lve. It s often desrable and possble to fnd equatons or formulas that descrbe these relatonshps. That s, n fact, the objectve of regresson analyss n statstcs - J. W. Cotts).1 Γενικά περί παλινδρόµησης Ένα σηµαντικό ερώτηµα που καλούµαστε συχνά να απαντήσουµε είναι αν µπορούµε να εκτιµήσουµε ή πολύ περισσότερο να προβλέψουµε την τιµή µιας ή περισσοτέρων µεταβλητών κάτω από ορισµένες συνθήκες. Αυτές οι συνθήκες περιγράφονται κυρίως από µεταβλητές οι τιµές των οποίων είναι δυνατό να ελεγχθούν από τον ερευνητή. Έτσι για παράδειγµα η µεταβλητή Y που ζητάµε να προβλεφθεί µπορεί να παριστάνει τη ζήτηση ενός προϊόντος και οι µεταβλητές 1 και µπορούν να αναφέρονται στην τιµή πώλησης και το κόστος διαφήµισης ενός προϊόντος αντίστοιχα. Οι µεταβλητές, = 1, αποτελούν τις συνθήκες του πειράµατος και είναι γνωστές ως επεξηγηµατικές ή ανεξάρτητες µεταβλητές. Η µεταβλητή Y που επιθυµούµε να εκτιµήσουµε είναι γνωστή ως µεταβλητή απόκρισης η εξαρτηµένη µεταβλητή. Η ανάλυση παλινδρόµησης αποτελεί ίσως την πιο γνωστή και περισσότερο χρησιµοποιούµενη στατιστική τεχνική µε την οποία επιχειρούµε να ανακαλύψουµε και να µοντελοποιήσουµε σχέσεις µεταξύ µεταβλητών. Οι εφαρµογές της

42 παλινδρόµησης είναι πολυάριθµες και απαντώνται σε κάθε επιστηµονικό πεδίο όπως η οικονοµία, η µηχανική, η φυσική, η χηµεία, η αστρονοµία, η ιατρική, η βιολογία και άλλες. Με λίγα λόγια η παλινδρόµηση µελετά την εξάρτηση µεταξύ µεταβλητών. Το πρόβληµα είναι µε ποιο τρόπο µπορεί να περιγραφεί (µαθηµατικά) αυτή η εξάρτηση εφόσον φυσικά αυτή υφίσταται. Σε κάθε σύστηµα (φαινόµενο), οι µεταβλητές ποσότητες αλλάζουν (µεταβάλλονται). Εποµένως, έχει ενδιαφέρον να εξεταστούν οι επιδράσεις που ασκούν (ή φαίνεται να ασκούν) κάποιες µεταβλητές πάνω σε κάποιες άλλες. Μπορεί τελικά να υπάρχει µια απλή συναρτησιακή σχέση µεταξύ των µεταβλητών. Στις φυσικές διαδικασίες η ύπαρξη µιας τέτοιας απλής σχέσης αποτελεί στην συντριπτική τους πλειοψηφία την εξαίρεση παρά τον κανόνα. Όπως αναφέραµε συνήθως υπάρχει µια συναρτησιακή σχέση η οποία είναι τόσο πολύπλοκη ώστε δε µπορεί να γίνει κατανοητή ή να περιγραφεί µε απλούς όρους. Σε µια τέτοια περίπτωση η επιθυµία µας είναι να προσεγγίσουµε αυτή την πολύπλοκη συναρτησιακή σχέση µε µια κάπως απλή µαθηµατική συνάρτηση (π.χ. πολυώνυµο) που να περιλαµβάνει τις κατάλληλες µεταβλητές ώστε να περιγράφει ικανοποιητικά το φαινόµενο που ερευνούµε. Εξετάζοντας αυτή την απλή µαθηµατική συνάρτηση µπορεί να καταφέρουµε να µάθουµε περισσότερα για τη σχέση που υφίσταται µεταξύ των µεταβλητών και να εκτιµήσουµε τις ξεχωριστές αλλά και τις κοινές επιδράσεις που παράγονται από τις αλλαγές σε συγκεκριµένες σηµαντικές µεταβλητές. Η µέθοδος της παλινδρόµησης περιλαµβάνει τη βασική συνθήκη ότι η σχέση µεταξύ των µεταβλητών είναι γραµµική ως προς τις άγνωστες παραµέτρους. Είναι γνωστό ότι υπάρχουν και µη γραµµικά παλινδροµικά µοντέλα τα οποία όµως δεν αποτελούν αντικείµενο της συγκεκριµένης εργασίας. Εποµένως από δω και µπρος η ύπαρξη γραµµικότητας αποτελεί βασική προϋπόθεση σε ότι αφορά στη σχέση των µεταβλητών. Οι άγνωστες παράµετροι εκτιµώνται κάτω από κάποιες συγκεκριµένες συνθήκες µε τη βοήθεια των διαθέσιµων δεδοµένων και παράγεται µια εξίσωση προσαρµογής. Η αξία της εξίσωσης προσαρµογής µπορεί να υπολογιστεί και µπορούν να πραγµατοποιηθούν έλεγχοι σχετικά µε τις συνθήκες (προϋποθέσεις) που πρέπει να ισχύουν, για να δούµε αν κάποιες από αυτές είναι λανθασµένες. Η απλούστερη περίπτωση αυτής της διαδικασίας περιλαµβάνει την κατασκευή µιας ευθείας γραµµής που να διέρχεται όσο το δυνατόν πιο κοντά από το νέφος σηµείων που δηµιουργούν n ζεύγη παρατηρήσεων (x, y ) µε = 1,,..., n. Πρόκειται για την περίπτωση της

43 απλής γραµµικής παλινδρόµησης την οποία δεν θα εξετάσουµε διότι αποτελεί την απλούστερη υποπερίπτωση της πολλαπλής γραµµικής παλινδρόµησης.. Εισαγωγή στην πολλαπλή γραµµική παλινδρόµηση Στην περίπτωση της απλής γραµµικής παλινδρόµησης προσπαθούµε να εκτιµήσουµε ή να προβλέψουµε τις τιµές της µεταβλητής απόκρισης Y µε τη βοήθεια των τιµών της επεξηγηµατικής µεταβλητής. Η προγνωστική αξία ενός τέτοιου υποδείγµατος µπορεί να διερευνηθεί περαιτέρω αν σ αυτό συµπεριληφθούν περισσότερες από µια επεξηγηµατικές µεταβλητές, οι οποίες επιδρούν στις τιµές της µεταβλητής απόκρισης. Η χρήση και η ερµηνεία ενός υποδείγµατος παλινδρόµησης µε πολλές επεξηγηµατικές µεταβλητές γνωστό ως υπόδειγµα πολλαπλής παλινδρόµησης είναι φυσική προέκταση του υποδείγµατος της απλής παλινδρόµησης. Είναι προφανές ότι οι υπολογισµοί που απαιτούνται για την εκτίµηση των αντίστοιχων συντελεστών είναι αρκετά πιο σύνθετοι και χρονοβόροι [1]. απόκρισης Στο πλαίσιο της πολλαπλής γραµµικής παλινδρόµησης η µεταβλητή Y είναι συνεχής ποσοτική ενώ οι επεξηγηµατικές µεταβλητές, = 1,...n µπορούν να ναι συνεχείς ποσοτικές ή ακόµη και κατηγορικές. Η ύπαρξη επεξηγηµατικών µεταβλητών κατηγορικού τύπου σε ένα µοντέλο παλινδρόµησης είναι εφικτή κάτω από ορισµένες προϋποθέσεις. Η Noruss () υποστηρίζει ότι διχοτοµικές κατηγορικές µεταβλητές µπορούν να εισαχθούν στο παλινδροµικό µοντέλο άµεσα, αρκεί οι δύο κατηγορίες να κωδικοποιηθούν κατάλληλα (µε η µία και 1 η άλλη). Ωστόσο στο µοντέλο µπορούν να εισαχθούν και κατηγορικές µεταβλητές µε περισσότερες των δύο κατηγοριών (επιπέδων) αρκεί να χρησιµοποιήσουµε ψευδοµεταβλητές (dummy varables) []. Στο παρόν κεφάλαιο θα παρουσιάσουµε το υπόδειγµα της πολλαπλής γραµµικής παλινδρόµησης όπου οι επεξηγηµατικές µεταβλητές όλες συνεχείς ποσοτικές., = 1,...n είναι.3 Υποθέσεις πολλαπλής γραµµικής παλινδρόµησης Οι υποθέσεις της πολλαπλής γραµµικής παλινδρόµησης είναι παρόµοιες µε εκείνες της απλής. Υπάρχουν µικρές διαφοροποιήσεις και τροποποιήσεις οι οποίες παρουσιάζονται αµέσως παρακάτω. Έστω µια συνεχής ποσοτική τυχαία µεταβλητή

44 που αποτελεί τη µεταβλητή απόκρισης και κ επεξηγηµατικές µεταβλητές, = 1,,..., k. Θεωρούµε ότι η σχέση της Y µε τις των τιµών της Y από τις τιµές των όταν ισχύουν οι εξής προϋποθέσεις: k είναι γραµµική. Η εκτίµηση k επεξηγηµατικών µεταβλητών είναι εφικτή ) Ο προσδιορισµός των τιµών των επεξηγηµατικών µεταβλητών 1,,..., k πραγµατοποιείται χωρίς σφάλµα ) Σε κάθε σύνολο τιµών x 1, x,..., x k των µεταβλητών 1,,..., k αντιστοιχεί ένας υποπληθυσµός τιµών της Y, ο οποίος ακολουθεί την κανονική κατανοµή ) Οι µέσες τιµές των υπο-πληθυσµών της Y συνδέονται µε τις αντίστοιχες τιµές των µεταβλητών 1,... k διαµέσου µιας γραµµικής σχέσης της µορφής E(Y x 1, x...x κ ) = β +β1x 1 + βx βκx κ + ε (.1) ή αλλιώς y = β + β1x 1 + βx +...+βκx κ + ε (.) v) Οι διακυµάνσεις των υπο-πληθυσµών της Y που ορίζονται για κάθε σύνολο τιµών x 1, x,..., x k είναι ίσες. Η κοινή διακύµανση των υπο-πληθυσµών της Y συµβολίζεται µε σ. Η παραδοχή της ισότητας των διακυµάνσεων των υποπληθυσµών της Y όπως και στην περίπτωση της απλής γραµµικής παλινδρόµησης ονοµάζεται οµοσκεδαστικότητα. v) Οι τιµές της Y είναι ανεξάρτητες η µια της άλλης [1]. Στο πλαίσιο ενός πολλαπλού γραµµικού παλινδροµικού µοντέλου είναι δυνατόν να παρατηρήσουµε συσχέτιση όχι µόνο ανάµεσα στη µεταβλητή απόκρισης Y και σε κάθε µια από τις επεξηγηµατικές µεταβλητές, = 1,,..., k αλλά και ανάµεσα στις ίδιες τις επεξηγηµατικές µεταβλητές. Η ύπαρξη γραµµικής σχέσης και µάλιστα σε υψηλό βαθµό ανάµεσα στις επεξηγηµατικές µεταβλητές ονοµάζεται πολυσυγγραµµικότητα (multcollnearty) και δεν είναι επιθυµητή για την καλή λειτουργία του µοντέλου που έχουµε εκτιµήσει. Γι αυτό το λόγο, ένα από τα κύρια µελήµατα της ανάλυσης παλινδρόµησης είναι ο έλεγχος για την αναγνώριση της ύπαρξης πολυσυγγραµµικότητας. Αν υφίσταται τέλεια συσχέτιση ανάµεσα στις επεξηγηµατικές µεταβλητές του πολλαπλού παλινδροµικού µοντέλου τότε έχουµε το φαινόµενο της ιδιοµορφίας (sngularty). Το φαινόµενο της πολυσυγγραµµικότητας και της ιδιοµορφίας αποτελούν σηµαντικά προβλήµατα διότι επηρεάζουν και παραµορφώνουν τα αποτελέσµατα της ανάλυσης παλινδρόµησης και εµποδίζουν τη

45 σωστή ερµηνεία των σχέσεων ανάµεσα στις επεξηγηµατικές µεταβλητές και τη µεταβλητή απόκρισης. Τα προβλήµατα της πολυσυγγραµµικότητας και της ιδιοµορφίας ανιχνεύονται µε την εξέταση των διαφόρων πινάκων και δεικτών, όπως είναι ο πίνακας συσχετίσεων (correlaton matrx), ο δείκτης ανοχής (tolerance) κλπ []..4 Μοντέλο πολλαπλής γραµµικής παλινδρόµησης Το υπόδειγµα της πολλαπλής γραµµικής παλινδρόµησης έχει τη µορφή: y = β + β1x 1 + βx +...+βκx κ + ε όπου Y είναι η µεταβλητή απόκρισης (response) ή αλλιώς εξαρτηµένη µεταβλητή,, = 1,,..., k είναι οι επεξηγηµατικές µεταβλητές (predctor) ή ανεξάρτητες µεταβλητές. Τα β,β 1,...,β k είναι σταθερές που ονοµάζονται µερικοί συντελεστές της παλινδρόµησης (partal regresson coeffcent) και αποτελούν τις (k +1) άγνωστες παραµέτρους που ζητείται να εκτιµηθούν. Η ποσότητα ε είναι η τιµή µιας τυχαίας µεταβλητής η οποία έχει µέση τιµή και διακύµανση ίση µε την κοινή διακύµανση των διαφόρων υπο-πληθυσµών της Y Η κατανοµή της τυχαίας µεταβλητής ε είναι κανονική, ενώ οι επιµέρους τιµές της είναι ανεξάρτητες η µία της άλλης. Η ποσότητα ε καλείται υπόλοιπο ή σφάλµα. [1],[3]. σ. Η ερµηνεία των συντελεστών β,β 1,...,β k του υποδείγµατος της πολλαπλής παλινδρόµησης είναι αντίστοιχη µε αυτή των συντελεστών της απλής παλινδρόµησης. Ο σταθερός όρος β είναι η τιµή της µεταβλητής απόκρισης Y όταν όλες οι επεξηγηµατικές µεταβλητές, = 1,,..., k παίρνουν την τιµή. Καθένας από τους συντελεστές β, = 1,,...,k εκφράζει τη µεταβολή της µέσης τιµής της µεταβλητής απόκρισης Y για µία µονάδα αύξησης της επεξηγηµατικής µεταβλητής, εφόσον οι τιµές των άλλων επεξηγηµατικών µεταβλητών παραµένουν σταθερές [1]. Το σφάλµα ε εκφράζει κάθε απόκλιση της πραγµατικότητας από το µοντέλο. Εκτός από τα πιθανά σφάλµατα µετρήσεων, περιέχει και σφάλµατα προσαρµογής που οφείλονται είτε σε παράλειψη µεταβλητών είτε σε χρήση µεταβλητών που δεν σχετίζονται µε τη µεταβλητή απόκρισης Y [3]. Η δυνατότητα των επεξηγηµατικών µεταβλητών να συσχετίζονται µεταξύ τους διευρύνει τις περιπτώσεις εφαρµογής του µοντέλου (.). Πράγµατι, µε

46 κατάλληλους µετασχηµατισµούς, «µη γραµµικά» ή και «εκθετικά» µοντέλα ανάγονται στο γενικό γραµµικό µοντέλο όπως φαίνεται παρακάτω. Θέτοντας, για παράδειγµα, j j = x, j = 1,,...,k το πολυωνυµικό µοντέλο κ y = β +β1x + βx βκx + ε ανάγεται αµέσως στο (.). Οµοίως, θέτοντας 1 = x, = z, 3 = x, 4 = xz το µοντέλο y = β + β1x + βz + β3x +β4xz + ε ανάγεται και πάλι στο (.). Ακόµη και το εκθετικό µοντέλο α+βx+γx +ε y = ανάγεται στο (.) αρκεί να θέσουµε ισχύει για το µοντέλο Y = log y, = x, = x, β = α, β = β, β = γ. Το ίδιο 1 1 y = αεx x αρκεί να θέσουµε τα ακόλουθα β γ 1 Y = lny, = lnx, = lnx, β = ln α, β = β, β = β και α = lnε. Υπάρχουν βέβαια µοντέλα τα οποία δεν είναι γραµµικά και δεν µπορούν να αναχθούν σε τέτοια, οποιοδήποτε µετασχηµατισµό και αν εφαρµόσουµε [3]. Πριν προχωρήσουµε στην εκτίµηση των παραµέτρων του µοντέλου πρέπει να αναφέρουµε ότι για να µπορέσουµε να χρησιµοποιήσουµε µεθόδους στατιστικής ανάλυσης για τον υπολογισµό των β, = 1,,...,k υποθέτουµε ότι τα υπόλοιπα είναι τυχαίες µεταβλητές, ασυσχέτιστες µε κοινή διακύµανση κάνουµε ελέγχους υποθέσεων για τα ε σ. Όταν θέλουµε να β τότε θεωρούµε ότι τα υπόλοιπα ανεξάρτητες τυχαίες µεταβλητές µε κοινή κανονική κατανοµή N(,σ ) [3]. ε είναι.5 Εκτίµηση των παραµέτρων του µοντέλου Για την εκτίµηση των παραµέτρων του µοντέλου πολλαπλής γραµµικής παλινδρόµησης θα χρησιµοποιήσουµε τη βοήθεια της άλγεβρας πινάκων. Η χρήση των πινάκων έχει πολλά πλεονεκτήµατα. Ένα από αυτά (που δεν είναι και το λιγότερο σηµαντικό) είναι ότι όταν το πρόβληµα γραφεί και λυθεί χρησιµοποιώντας πίνακες, τότε η λύση µπορεί να εφαρµοστεί σε οποιοδήποτε πρόβληµα παλινδρόµησης ανεξάρτητα από το πλήθος των όρων που υπάρχουν στην εξίσωση παλινδρόµησης [4]..5.1 Εκτίµηση β µε τη µέθοδο ελαχίστων τετραγώνων Η µέθοδος των ελαχίστων τετραγώνων χρησιµοποιείται για να εκτιµήσουµε τους µερικούς συντελεστές της παλινδρόµησης της εξίσωσης (.). Υποθέτουµε ότι n k διαθέσιµες παρατηρήσεις και έστω y εκφράζει την -οστή παρατήρηση της

47 µεταβλητής απόκρισης Y και x j εκφράζει την -οστή παρατήρηση της επεξηγηµατικής µεταβλητής j. Τα δεδοµένα στην περίπτωση της πολλαπλής γραµµικής παλινδρόµησης έχουν την ακόλουθη µορφή. Παρατήρηση Πίνακας.1 Μεταβλητές παλινδροµικού µοντέλου Απόκριση Υ Επεξηγηµατικές µεταβλητές n y 1 y y 3... y n x 11 x 1 x 1κ x 11 x 1 x 1κ x 11 x 1 x 1κ x 11 x 1 x 1κ Θεωρούµε ακόµη ότι τα υπόλοιπα ε είναι µεταξύ τους ασυσχέτιστα και ότι ισχύουν E(ε) = και Var(ε) = σ. Ταυτόχρονα υποθέτουµε ότι οι επεξηγηµατικές µεταβλητές, = 1,...k δεν είναι τυχαίες και µετρώνται χωρίς σφάλµα. Μπορούµε να γράψουµε το δειγµατικό πολλαπλό παλινδροµικό µοντέλο µε βάση την εξίσωση (.) ως εξής : y = β +β x + β x β x + ε = β + β x + ε, = 1,,..., n (.3) 1 1 κ κ j j j=1 Η συνάρτηση ελαχίστων τετραγώνων ισούται µε: S(β,β...β ) = ε = y -β - β x n n κ 1 κ j j =1 =1 j=1 κ (.4) Η συνάρτηση πρέπει να ελαχιστοποιηθεί ως προς τα β, = 1,,...,k. Οι εκτιµητές ελαχίστων τετραγώνων των παραµέτρων ακόλουθες σχέσεις : β, = 1,,...,k πρέπει να ικανοποιούν τις n κ S ˆ ˆ = - y -β - β jx j = β =1 j=1 και (.5.α)

48 n κ S ˆ ˆ = - y -β - β jxj x j = β j =1 j=1 (.5.β) όπου j = 1,,..., k Απλοποιώντας τις εξισώσεις (.5) προκύπτουν οι κανονικές εξισώσεις ελαχίστων τετραγώνων : n n n n nβ ˆ + βˆ x + βˆ x + +βˆ x = y 1 1 κ κ =1 =1 =1 =1 n n n n n κ 1 κ 1 =1 =1 =1 =1 =1 βˆ x + βˆ x + βˆ x x + +βˆ x x = x y n n n n n κ 1 κ 1 κ κ κ κ =1 =1 =1 =1 =1 βˆ x + βˆ x x + βˆ x x + +βˆ x = x y M (.6) Σηµειώνεται ότι υπάρχουν ρ=κ+1 κανονικές εξισώσεις όσες και ο αριθµός των µερικών συντελεστών της παλινδρόµησης β, =,1,,..., k Η λύση του παραπάνω συστήµατος µας δίνει τους εκτιµητές ελαχίστων τετραγώνων β ˆ,β ˆ ˆ 1,...,β κ [5]. Έχουµε ήδη αναφέρει ότι είναι περισσότερο βολικό να παρουσιάζουµε µοντέλα πολλαπλής γραµµικής παλινδρόµησης µε τη βοήθεια της άλγεβρας πινάκων. Χρησιµοποιώντας πίνακες, το µοντέλο που δίνεται από την εξίσωση (.3) γίνεται y = β + ε όπου: y1 y y =, y n κ β1 ε1 1 1 κ = β, = ε β, ε = 1 n1 n nκ βκ εn Γενικά, το y είναι ένα nx1 διάνυσµα των παρατηρήσεων της µεταβλητής απόκρισης, Χ είναι ένας πίνακας nxp των παρατηρήσεων των επεξηγηµατικών µεταβλητών, β είναι ένα px1 διάνυσµα των µερικών συντελεστών της παλινδρόµησης και ε είναι ένα nx1 διάνυσµα των τυχαίων υπολοίπων (σφαλµάτων). Επιθυµούµε να υπολογίσουµε το διάνυσµα των εκτιµητών ελαχίστων τετραγώνων ˆβ που ελαχιστοποιεί την n ' ποσότητα S( β) = ε = ε ε = ( y - β) ( y - β ) =1 Σηµειώνεται ότι η ποσότητα S(β) µπορεί να γραφεί και ως εξής: S( β) = y y -β''y - y'β + β'χ'χβ = y y - β''y + β'χ'χβ δεδοµένου ότι β''y είναι ένας 1x1 πίνακας, ο ανάστροφος του ( β''y)' = y'β είναι επίσης ένας πίνακας 1x1

49 (πίνακας σηµείο). Οι εκτιµητές ελαχίστων τετραγώνων θα πρέπει να ικανοποιούν τη σχέση: S = - 'y + 'β = που απλοποιείται στη σχέση β ˆ 'β = 'y (.7) Οι εξισώσεις (.7) ονοµάζονται κανονικές εξισώσεις ελαχίστων τετραγώνων. Για την επίλυση αυτών των εξισώσεων πολλαπλασιάζουµε τα δύο µέλη της σχέσης (4.7) µε τον ανάστροφο του πίνακα '. Εποµένως ο εκτιµητής ελαχίστων τετραγώνων του -1 διανύσµατος β είναι β ˆ = ( ') 'y (.8) δεδοµένου ότι ο αντίστροφος πίνακας ( ) -1 ' υπάρχει. Ο πίνακας ( ) -1 ' υπάρχει πάντοτε εφόσον οι επεξηγηµατικές µεταβλητές είναι γραµµικά ανεξάρτητες. Τούτο συµβαίνει αν καµία στήλη του πίνακα Χ δεν αποτελεί γραµµικό συνδυασµό των άλλων στηλών. Αναλύοντας τη σχέση (.7) έχουµε: n n n n n x x x ˆβ y.. 1 κ =1 =1 =1 =1 ˆβ n n n n 1 n x1 x1 x1x x1x κ. x1y =1 =1 =1 =1 = =1 n n n n n xκ xκx1 xκx xκ ˆβ xκy =1 =1 =1 =1 κ =1 Παρατηρούµε την ταύτιση που υπάρχει στην παραπάνω φόρµα των τριών πινάκων µε το σύστηµα των εξισώσεων (.6). Το προσαρµοσµένο πολλαπλό γραµµικό παλινδροµικό µοντέλο ως προς τις τιµές των επεξηγηµατικών µεταβλητών κ j j j=1 = [1, 1,..., k ] ' είναι ŷ = 'β ˆ = β ˆ + βˆ. Το διάνυσµα των προσαρµοσµένων τιµών ŷ ως προς τις παρατηρούµενες τιµές y είναι ( ) -1 yˆ = βˆ = Χ y = Ηy (.9) Ο πίνακας H = ( Χ) -1 συχνά καλείται πίνακας καπέλο και είναι διαστάσεων nxn. Ο συγκεκριµένος πίνακας και οι ιδιότητές του παίζουν κεντρικό ρόλο στην ανάλυση παλινδρόµησης.

50 Η διαφορά µεταξύ της παρατηρούµενης τιµής προσαρµοσµένης τιµής y και της αντίστοιχης e = y - y ˆ. ŷ καλείται υπόλοιπο και δίνεται από τη σχέση Τα n υπόλοιπα µπορούν εύκολα να γραφούν µε τη βοήθεια πινάκων ως εξής: e = y - y ˆ (.1.α) Μια χρήσιµη ακόµη έκφραση για τα υπόλοιπα είναι : e = y - β = y - Hy = (I - H)y [5],[6] (.1.β).5. Ιδιότητες των εκτιµητών ελαχίστων τετραγώνων Οι στατιστικές ιδιότητες του διανύσµατος των εκτιµητών ελαχίστων τετραγώνων ˆβ δίνονται παρακάτω: Μέση τιµή -1-1 ( βˆ ) ( Χ) y ( Χ) ( β ε) Ε = Ε = Ε + = ( ) ( ) -1-1 = Ε Χ Χβ + Χ ε = β δεδοµένου ότι E( ε) = και ( Χ) -1 = Ι. Συνεπώς το ˆβ είναι ένας αµερόληπτος εκτιµητής του β. ιακύµανση Η διακύµανση του ˆβ εκφράζεται µε τη βοήθεια του πίνακα διακυµάνσεων { } συνδιακυµάνσεων ως εξής ( ˆ) ˆ ( ˆ) ˆ ( ˆ) Cov β = Ε β - Ε β β - Ε β που είναι ένας συµµετρικός πίνακας διαστάσεων pxp του οποίου το j-οστό διαγώνιο στοιχείο είναι η διακύµανση του β ˆ j και του οποίου το (j) - οστό µη διαγώνιο στοιχείο είναι η διακύµανση µεταξύ του ˆβ και ˆβ j. Ο πίνακας διακυµάνσεων συνδιακυµάνσεων του ˆβ υπολογίζεται ως εξής: ( ˆ) ( ˆ) ( ) -1 Cov = Var = Var β β y. Ο πίνακας ( ) -1 είναι ένας πίνακας µε στοιχεία σταθερές και η διακύµανση του y ισούται µε σ Ι, οπότε ( ˆ) ( ) ( ) ( ) ( ) Var β = Var y = Var y = ( ) Χ( ) ( ) = σ = σ

51 Αν θέσουµε ' -1 C = ( ) η διακύµανση του j ˆβ είναι σ c j και η συνδιακύµανση µεταξύ του ˆβ και ˆβ j είναι σ c j. Ο εκτιµητής ελαχίστων τετραγώνων ˆβ είναι ο καλύτερος γραµµικός αµερόληπτος εκτιµητής του β σύµφωνα και µε το θεώρηµα Gauss Markov. Αν υποθέσουµε ότι τα υπόλοιπα ε κατανέµονται κανονικά, τότε όπως θα δούµε και παρακάτω το ˆβ είναι ο εκτιµητής µεγίστης πιθανοφάνειας του β. Ο εκτιµητής µεγίστης πιθανοφάνειας ˆβ είναι ο ελάχιστος αµερόληπτος εκτιµητής της διακύµανσης του β [5],[6]..5.3 Εκτίµηση της διακύµανσης σ Όπως στην περίπτωση της απλής γραµµικής παλινδρόµησης, έτσι και στην πολλαπλή µπορούµε να βρούµε τον εκτιµητή της διακύµανσης σ από το άθροισµα n των τετραγώνων των υπολοίπων, δηλαδή ( ) ˆ n Res =1 =1 e e. SS = y - y = e = Αντικαθιστώντας στην παραπάνω σχέση όπου e το e = y - β ˆ έχουµε Res ( ) ( ) SS = y - βˆ y - βˆ = y y - β y ˆ - y βˆ + β β ˆ ˆ = y y - β y ˆ + β β ˆ ˆ Επειδή ˆ β = y η τελευταία εξίσωση γίνεται SS = y y -β y ˆ (.11) [5]. Το άθροισµα των τετραγώνων των υπολοίπων έχει n-ρ βαθµούς ελευθερίας δεδοµένου ότι εκτιµώνται ρ παράµετροι από το παλινδροµικό µοντέλο. Το µέσο τετράγωνο των υπολοίπων είναι ίσο µε ΜS Res SS Res Res =. Η αναµενόµενη τιµή του n -ρ µέσου τετραγώνου των υπολοίπων είναι σ και αποτελεί έναν αµερόληπτο εκτιµητή της διακύµανσης σ, δηλαδή ισχύει ˆσ = ΜS Res (.13) [5]..5.4 ιαγράµµατα διασποράς στην πολλαπλή παλινδρόµηση Είναι γνωστό ότι το διάγραµµα διασποράς είναι ένα σηµαντικό εργαλείο για την ανάλυση της σχέσης µεταξύ µιας µεταβλητής Y και µιας µεταβλητής. Με τη βοήθεια ενός πολλαπλού πίνακα διαγραµµάτων διασποράς (matrx of scatterplots) µπορούµε να οπτικοποιήσουµε τη σχέση µεταξύ της µεταβλητής απόκρισης Y και των επεξηγηµατικών µεταβλητών, = 1,,..., n. Όµως αυτό µπορεί να

52 πραγµατοποιηθεί κάτω από ορισµένες προϋποθέσεις, όπως είναι: α) η ύπαρξη µικρού αριθµού επεξηγηµατικών µεταβλητών (συνήθως δυο) και β) να υφίσταται ανεξαρτησία µεταξύ αυτών. Στην πραγµατικότητα, βέβαια, σε ένα πολλαπλό παλινδροµικό µοντέλο υπάρχουν αρκετές επεξηγηµατικές µεταβλητές, = 1,,..., n καθώς και σφάλµα ε. Τέλος, και η ύπαρξη πολυσυγγραµµικότητας είναι συχνή. Σε αυτές τις περιπτώσεις ο πολλαπλός πίνακας διαγραµµάτων διασπορών, µεταξύ όλων των µεταβλητών που εµπλέκονται στο µοντέλο, όχι µόνο δεν είναι χρήσιµος άλλα αντίθετα λειτουργεί παραπλανητικά [5]..5.5 Εκτίµηση µε τη µέθοδο µεγίστης πιθανοφάνειας Όπως και στην περίπτωση της απλής γραµµικής παλινδρόµησης, µπορούµε να δείξουµε ότι οι εκτιµητές µεγίστης πιθανοφάνειας των παραµέτρων του πολλαπλού γραµµικού µοντέλου - όταν τα υπόλοιπα (σφάλµατα) κατανέµονται κανονικά και ανεξάρτητα - αποτελούν εκτιµητές ελαχίστων τετραγώνων. Έστω το µοντέλο y = β + ε όπου τα υπόλοιπα είναι ανεξάρτητα µεταξύ τους και ακολουθούν την κανονική κατανοµή µε σταθερή διακύµανση σ ή αλλιώς ε Ν(, σ Ι). Η συνάρτηση πυκνότητας πιθανότητας των υπολοίπων ε είναι 1 1 f(ε ) = exp - ε σ π σ. Η συνάρτηση πιθανοφάνειας είναι η από κοινού κατανοµή των ε 1,ε,...,ε n ή n =1 f(ε ). Οπότε η συνάρτηση πιθανοφάνειας έχει τη µορφή 1 1 ε β ε ε. Επειδή µπορούµε να σ n L(,,σ ) = f(ε ) = exp n - =1 n σ ( π) αντικαταστήσουµε όπου ε = y - β η παραπάνω σχέση γίνεται: 1 1 y β ( y - β) ( y - β ). σ L(,,,σ ) = exp n - ' n σ ( π) Γενικά είναι πιο απλό να εργαστούµε µε το λογάριθµο της πιθανοφάνειας, οπότε έχουµε: n 1 y β ( y - β) ( y - β ). Είναι προφανές ότι για µια σ lnl(,,,σ ) = - ln(π) - nln(σ) - ' τιµή του σ η λογαριθµική συνάρτηση πιθανοφάνειας µεγιστοποιείται όταν ο όρος ( y - β) '( ) y - β ελαχιστοποιείται. Γι αυτό, ο εκτιµητής µεγίστης πιθανοφάνειας

53 του διανύσµατος των παραµέτρων β (όταν τα υπόλοιπα κατανέµονται κανονικά) είναι ισοδύναµος µε τον εκτιµητή ελαχίστων τετραγώνων β ˆ = ( ' ) -1 'y. Ο εκτιµητής µέγιστης πιθανοφάνειας της διακύµανσης σ είναι σ = ( y - βˆ )'( y - βˆ ) ɶ [5]. n.6 Έλεγχος υποθέσεων στην πολλαπλή γραµµική παλινδρόµηση Μετά την εκτίµηση των παραµέτρων του µοντέλου οφείλουµε να ελέγξουµε: (1) την επάρκεια ή καταλληλότητα του µοντέλου και () ποιες από τις επεξηγηµατικές µεταβλητές, = 1,,..., n είναι σηµαντικές και ως εκ τούτου πρέπει να διατηρηθούν στο µοντέλο. Οι έλεγχοι υποθέσεων είναι ιδιαίτερα χρήσιµες διαδικασίες στο να απαντήσουν στα προηγούµενα ζητήµατα. Η χρήση αυτών των ελέγχων απαιτεί τα υπόλοιπα (σφάλµατα) να είναι ανεξάρτητα και να ακολουθούν την κανονική κατανοµή µε µέση τιµή Var(ε ) = σ. E(ε ) = και διακύµανση.6.1 Έλεγχος σηµαντικότητας της πολλαπλής παλινδρόµησης Ο έλεγχος της σηµαντικότητας της παλινδρόµησης πραγµατοποιείται για να διαπιστώσουµε αν υφίσταται γραµµική σχέση ανάµεσα στη µεταβλητή απόκρισης Y µε κάθε επεξηγηµατική µεταβλητή, = 1,,..., k. Η διαδικασία αυτή θεωρείται ένας γενικός έλεγχος της επάρκειας ή καταλληλότητας του µοντέλου. Οι υποθέσεις που ελέγχουµε είναι: H :β = β 1 =...β k = vs H 1 :β j για ένα τουλάχιστον j Η απόρριψη της µηδενικής υπόθεσης δηλώνει ότι τουλάχιστον µία από τις επεξηγηµατικές µεταβλητές µοντέλο [5]., = 1,,..., k είναι στατιστικά σηµαντική για το Η διαδικασία του ελέγχου αποτελεί γενίκευση της ανάλυσης διακύµανσης που χρησιµοποιείται στην απλή γραµµική παλινδρόµηση. Το συνολικό άθροισµα των τετραγώνων των αποκλίσεων γύρω από το µέσο όρο (ολική διασπορά) SS T αποτελείται από δύο παράγοντες. Από το άθροισµα των τετραγώνων των αποκλίσεων

54 που οφείλεται στο παλινδροµικό µοντέλο (διασπορά που εξηγείται από την παλινδρόµηση) SS R και το άθροισµα των τετραγώνων των σφαλµάτων SS Res. ηλαδή ισχύει SS T = SS R + SS Res. Σε περίπτωση που η µηδενική υπόθεση H δεν απορρίπτεται, τότε το πηλίκο SS σ R ακολουθεί ελευθερίας, όσους και οι επεξηγηµατικές µεταβλητές στο µοντέλο. Ακόµη το πηλίκο SS σ Res ακολουθεί k κατανοµή έχοντας κ βαθµούς, = 1,,..., k που υπάρχουν Χ n-κ-1 κατανοµή µε n-κ-1 βαθµούς ελευθερίας. Οι ποσότητες SS Res.και SS R είναι ανεξάρτητες. Από τον ορισµό του F SS R/κ ΜSR στατιστικού έχουµε F = = Fκ,n-κ-1 που ακολουθεί την SS /(n - κ -1) ΜS κατανοµή F. Ακόµη ισχύουν * ' β = [β 1,β,...,β k ] και c Res E(MS Res Res ) = σ και β Χ Χ β όπου κσ *' ' * c c E(MS R ) = σ + πίνακας «κέντρο» του µοντέλου, που ισούται µε: c x - x x - x x - x κ κ = x1 - x1 x - x xκ - x κ x - x x - x x - x n1 1 n nκ κ Τα παραπάνω µέσα τετράγωνα δείχνουν ότι αν η παρατηρηθείσα τιµή του F είναι µεγάλη, τότε είναι πιθανό τουλάχιστον µία παράµετρος του µοντέλου β j. Τούτο σηµαίνει ότι το F ακολουθεί F κατανοµή µε κ και n-κ-1 βαθµούς ελευθερίας. Η *' ' * β Χc Χcβ παράµετρος λ = δείχνει ότι η παρατηρηθείσα τιµή του F θα πρέπει να σ είναι µεγάλη, αν τουλάχιστον µια παράµετρος β j. Γι αυτό το λόγο, στον έλεγχο της υπόθεσης H : β = β 1 =...β k = υπολογίζουµε το στατιστικό F και απορρίπτουµε την H αν ισχύει F Fα,k,n-k-1. Η όλη διαδικασία συνοψίζεται σε ένα πίνακα ανάλυσης διακύµανσης που δίνεται αµέσως παρακάτω

55 Πίνακας. Ανάλυση διακύµανσης Πηγή διακύµανσης Άθροισµα τετραγώνων Βαθµοί ελευθερίας Μέσα τετράγωνα F Παλινδρόµηση Υπόλοιπα SS R SS Res κ n-κ-1 MS R MS Res ΜS ΜS R Res Ολική διασπορά SS T n-1 Η ποσότητα SS Res µπορεί να γραφεί SS = y'y -β''y ˆ (.14) Res και επειδή n n y n =1 SS T = y - = y'y - y =1 n η εξίσωση (.14) µπορεί να γραφεί =1 n n y y =1 ˆ =1 SS Res = y'y - - β''y - (.15) n n ή πιο απλά SS Res = SST -SS R (.16) Εποµένως το άθροισµα των τετραγώνων της παλινδρόµησης είναι SS = - R n y ˆ =1 β''y (.17) n και το άθροισµα των τετραγώνων των αποκλίσεων είναι SS = y'y - β''y ˆ (.18) Τέλος το συνολικό άθροισµα των τετραγώνων (ολική διασπορά) είναι SS = - T n y =1 y'y [5]. (.19) n Res.6. Συντελεστής προσδιορισµού Στην προηγούµενη παράγραφο είδαµε τη σχέση SS T = SS R + SSRes που δείχνει ότι η συνολική διασπορά γύρω από τη µέση τιµή αναλύεται σε δυο παράγοντες. Στον παράγοντα SS R που εξηγείται από τη γραµµική σχέση και στον παράγοντα SSRes που οφείλεται είτε σε σφάλµατα είτε σε άλλους απροσδιόριστους παράγοντες. Εποµένως

56 είναι προφανές ότι ένα µοντέλο θα είναι κατάλληλο για τα δεδοµένα µας όσο ο παράγοντας SS Res είναι µικρότερος από το SS R. Η ποσότητα SS SS R = = 1- SS SS R Res T T ονοµάζεται συντελεστής προσδιορισµού και αποτελεί καθαρό αριθµό που παίρνει τιµές µεταξύ και 1. Όσο µάλιστα το πλησιάζει το 1 τόσο η προσαρµογή του µοντέλου που έχουµε επιλέξει για τα δεδοµένα µας είναι καλύτερη. Ο συντελεστής προσδιορισµού R R µπορεί να χρησιµοποιηθεί και για τον έλεγχο της υπόθεσης H :β = β 1 =...β k = αντί του στατιστικού F. Πράγµατι, µπορεί εύκολα να διαπιστωθεί ότι: n - κ -1 R F = κ 1- R ή ( ) ( ) κf/ n - κ -1 R =. 1+ κf/ n - κ -1 (.) Όταν το δείγµα είναι µικρό σε σχέση µε τον αριθµό των µεταβλητών, = 1,,..., k τότε χρησιµοποιείται ο διορθωµένος συντελεστής προσδιορισµού R adj ο οποίος είναι ίσος µε ( ) ( ) SS / n - κ -1 σ Var(Y) Res R adj = = 1- SS T/ n -1 (.1) Από τον παραπάνω τύπο διαπιστώνουµε ότι το R adj µπορεί να πάρει και αρνητικές τιµές αρκεί το σ να είναι µεγαλύτερο από το Var(Y), πράγµα που συµβαίνει κάποιες φορές στην πράξη. Η σχέση µεταξύ των δύο συντελεστών προσδιορισµού n -1 είναι 1- R adj = (1- R ). (.) n - κ -1 Η τετραγωνική ρίζα του R ονοµάζεται συντελεστής πολλαπλής συσχέτισης και συµβολίζεται µε r. Πολλοί ερευνητές προκειµένου να αναφερθούν στην προσαρµογή του µοντέλου προτιµούν να χρησιµοποιήσουν το συντελεστή r αντί του συντελεστή προσδιορισµού R [3]..6.3 Έλεγχοι συντελεστών πολλαπλής παλινδρόµησης Από τη στιγµή που αποσαφηνίζεται ότι τουλάχιστον µια επεξηγηµατική µεταβλητή είναι σηµαντική για το µοντέλο, τίθεται το ερώτηµα ποια ή ποιες αν είναι περισσότερες είναι αυτήν ή αυτές. Όταν προσθέτουµε σε ένα παλινδροµικό

57 µοντέλο µια νέα µεταβλητή, αυτό έχει ως αποτέλεσµα να αυξάνεται το άθροισµα των τετραγώνων της παλινδρόµησης SS R και να µειώνεται το άθροισµα των τετραγώνων των υπολοίπων SS Res. Θα πρέπει να αποφασίσουµε αν η αύξηση του SS R είναι τέτοια που να δικαιολογεί την προσθήκη στο µοντέλο µίας νέας µεταβλητής. Η προσθήκη µιας ακόµα µεταβλητής στο µοντέλο προκαλεί ταυτόχρονα και αύξηση της διακύµανσης των προσαρµοσµένων τιµών ŷ, γι αυτό οφείλουµε να είµαστε προσεκτικοί στο ποιες µεταβλητές εισάγουµε σ αυτό. Θα πρέπει, δηλαδή, αυτές οι µεταβλητές να έχουν σηµαντικό ρόλο και αξία στην ερµηνεία της µεταβλητής απόκρισης Υ. Επιπρόσθετα, η εισαγωγή µίας µη σηµαντικής µεταβλητής στο µοντέλο µπορεί να επιφέρει αύξηση του µέσου τετραγωνικού σφάλµατος µε αποτέλεσµα να προκληθεί µείωση στην ερµηνευτική αξία και άρα στη χρησιµότητα του µοντέλου [5]. Ο έλεγχος της σηµαντικότητας για κάθε συντελεστή του πολλαπλού µοντέλου παλινδρόµησης, όπως π.χ. του β j, είναι : H :β j = vs H 1 :β j Αν η µηδενική υπόθεση H :β j = δεν απορρίπτεται, τότε αυτό σηµαίνει ότι η επεξηγηµατική µεταβλητή j µπορεί να διαγραφεί από το µοντέλο. Το στατιστικό για τον έλεγχο της παραπάνω υπόθεσης είναι βˆ j t = = σˆ c jj βˆ j ( ˆ j) se β όπου c jj είναι το στοιχείο της διαγωνίου του πίνακα ' -1 ως προς το j ( ) ˆβ. Η µηδενική υπόθεση H : β = απορρίπτεται αν t /,n-k-1. Σηµειώνεται ότι αυτός ο έλεγχος είναι j t α µερικός επειδή ο συντελεστής παλινδρόµησης β j εξαρτάται και από όλες τις υπόλοιπες µεταβλητές, j που βρίσκονται στο µοντέλο [5]..6.4 Έλεγχος της γενικής γραµµικής υπόθεσης H : Tβ = vs Έστω η υπόθεση που µας ενδιαφέρει µπορεί να περιγραφεί ως εξής :

58 H : Tβ 1 όπου T ένας πίνακας mxp διαστάσεων - µε στοιχεία σταθερές - τέτοιος ώστε µόνο r από τις m εξισώσεις του συστήµατος Τβ= είναι ανεξάρτητες. Το πλήρες µοντέλο (Full model) είναι y = β + ε µε ˆ = ( ) -1 β ' 'y και το άθροισµα των τετραγώνων των υπολοίπων είναι SS (FM) = y'y - β''y ˆ µε n-ρ βαθµούς ελευθερίας. Res Για να πάρουµε το περιορισµένο µοντέλο (reduced model), οι r ανεξάρτητες εξισώσεις του συστήµατος Τβ= χρησιµοποιούνται για την εύρεση των r συντελεστών της παλινδρόµησης του πλήρους µοντέλου σε όρους των εναποµείναντων ρ-r συντελεστών παλινδρόµησης. Αυτό οδηγεί στο περιορισµένο µοντέλο y = Zγ + ε όπου Ζ είναι ένας πίνακας nx(p - r) διαστάσεων και γ είναι ένα (p - r)x1 διάνυσµα των αγνώστων συντελεστών παλινδρόµησης. Η εκτίµηση του γ είναι ˆ = ( ) -1 γ Ζ'Ζ Ζ'y και το άθροισµα των τετραγώνων των υπολοίπων για το παραπάνω µοντέλο είναι SS ˆ Res (RM) = y'y - γ'z'y µε n-ρ+r βαθµούς ελευθερίας. Το περιορισµένο µοντέλο περιέχει λιγότερες παραµέτρους από το πλήρες µοντέλο, οπότε θα ισχύει SS Res (RM) SS Res(FM). Για τον έλεγχο της υπόθεσης H : Tβ = χρησιµοποιούµε τη διαφορά του αθροίσµατος τετραγώνων των υπολοίπων των δύο µοντέλων, δηλαδή SS H = SS Res (RM) -SS Res(FM) (.) µε n-ρ+r-(n-ρ)=r βαθµούς ελευθερίας. Η ποσότητα SS Η ονοµάζεται άθροισµα τετραγώνων ως προς την υπόθεση H : Tβ =. Το στατιστικό που χρησιµοποιούµε γι αυτόν τον έλεγχο είναι SS /r H F =. Είναι προφανές ότι απορρίπτουµε SS Res (FM)/ ( n -ρ ) τη µηδενική υπόθεση H : Tβ = αν F F α,r,n-p [5]..7 ιαστήµατα εµπιστοσύνης στην πολλαπλή παλινδρόµηση Τα διαστήµατα εµπιστοσύνης, για καθέναν από τους µερικούς συντελεστές της παλινδρόµησης καθώς και για τη µέση απόκριση, παίζουν σηµαντικό ρόλο στην ανάλυση παλινδρόµησης. Στη συνέχεια περιγράφεται αναλυτικά η εύρεση των προαναφερόµενων διαστηµάτων εµπιστοσύνης.

59 .7.1 ιαστήµατα εµπιστοσύνης των συντελεστών παλινδρόµησης Για την κατασκευή διαστηµάτων εµπιστοσύνης των συντελεστών παλινδρόµησης β j υποθέτουµε ότι τα υπόλοιπα (σφάλµατα) ε κατανέµονται κανονικά µε µέση τιµή και διακύµανση σ και είναι µεταξύ τους ανεξάρτητα. Ακόµη και οι παρατηρήσεις y ακολουθούν την κανονική κατανοµή µε µέση τιµή κ β + β x και διακύµανση σ j j j=1 και είναι επίσης ανεξάρτητα. εδοµένου ότι ο εκτιµητής ελαχίστων τετραγώνων ˆβ αποτελεί γραµµικό συνδυασµό των παρατηρήσεων, έπεται ότι το ˆβ ακολουθεί κανονική κατανοµή µε µέση τιµή το διάνυσµα β και πίνακα διακυµάνσεων συνδιακυµάνσεων σ ( ) ' -1. Τούτο σηµαίνει ότι η περιθώρια κατανοµή οποιουδήποτε συντελεστή παλινδρόµησης ˆβ j είναι κανονική µε µέση τιµή β j και διακύµανση σ c jj, όπου c jj είναι το j-οστό στοιχείο της διαγωνίου του πίνακα ' ( ) -1. Συνεπώς, καθένα από τα στατιστικά ˆβ -β j j ˆσ c jj, j=,1 κ (.3) ακολουθεί την t κατανοµή µε n-ρ βαθµούς ελευθερίας, όπου ˆσ είναι η εκτίµηση της διακύµανσης του σφάλµατος όπως προκύπτει από τη σχέση ˆσ = ΜS Res. Βασισµένοι στο αποτέλεσµα της σχέσης (.3) µπορούµε να προσδιορίσουµε ένα 1(1-α)% διάστηµα εµπιστοσύνης για το συντελεστή παλινδρόµησης β j, j=,1 κ το οποίο είναι (.4) Η ποσότητα ( ) ˆβ j [5]. j jj βˆ - t σˆ c β β ˆ + t σˆ c j α/,n-ρ jj j j α /,n-ρ jj se β ˆ = σˆ c καλείται τυπικό σφάλµα του συντελεστή παλινδρόµησης.7. ιαστήµατα εµπιστοσύνης της µέσης απόκρισης Μπορούµε να κατασκευάσουµε ένα διάστηµα εµπιστοσύνης για τη µέση απόκριση σε ένα συγκεκριµένο σηµείο, όπως το x 1, x...x k. Έστω το διάστηµα x µε στοιχεία:

60 1 x 1 x = x x κ Η προσαρµοσµένη τιµή στο συγκεκριµένο σηµείο είναι ŷ ˆ = x 'β (.5) που αποτελεί µια αµερόληπτη εκτιµήτρια του E(y/ x ), δεδοµένου ότι ˆ ' E(y ) = x β = E(y/ x) και η διακύµανση του ŷ είναι (.6). ˆ Var(y ) = σ x ( ) x ' ' -1 Εποµένως, ένα 1(1-α)% διάστηµα εµπιστοσύνης για τη µέση απόκριση στο σηµείο x 1, x,..., x k είναι ( ) ( ) -1-1 α /,n-ρ α /,n-ρ yˆ - t σ ˆ x ' ' x E(y x ) y ˆ + t σ ˆ x ' ' x [5]. (.7).7.3 Ταυτόχρονα διαστήµατα εµπιστοσύνης των συντελεστών παλινδρόµησης Σε διάφορα προβλήµατα η κατασκευή διαστηµάτων εµπιστοσύνης ή πρόβλεψης πραγµατοποιείται µε τη χρήση του ίδιου δείγµατος δεδοµένων. Σε αυτές τις περιπτώσεις ο ερευνητής ενδιαφέρεται να ορίσει ένα συντελεστή εµπιστοσύνης που να εφαρµόζεται ταυτόχρονα σε όλη την οµάδα των διαστηµικών εκτιµήσεων. Η οµάδα των διαστηµάτων εµπιστοσύνης ή πρόβλεψης που είναι αληθινά ταυτόχρονα µε πιθανότητα 1-α καλείται ταυτόχρονη (smultaneous) ή από κοινού (jont) [5]. Είναι σχετικά εύκολο να ορίσουµε µια από κοινού περιοχή εµπιστοσύνης για τις παραµέτρους β του πολλαπλού γραµµικού µοντέλου. Ισχύει ' ( ˆ ) ( ˆ ) β - β ' β - β Fρ,n-ρ πράγµα που σηµαίνει ότι ρms Res ' ( βˆ - β) '( βˆ - β) P F a,n-ρ = 1- α. Εποµένως µια 1(1-α)% από κοινού περιοχή ρmsres ( ) ' βˆ - β ' ( βˆ - β ) εµπιστοσύνης για όλες τις παραµέτρους β είναι ρms Res F α,ρ,n-ρ (.8) Η παραπάνω ανισότητα περιγράφει γραφικά µια ελλειπτική περιοχή. Για ρ= προκύπτει η από κοινού περιοχή εµπιστοσύνης για την περίπτωση της απλής

61 γραµµικής παλινδρόµησης, η οποία µπορεί εύκολα να σχεδιαστεί. Για ρ=3 τα πράγµατα δυσκολεύουν επειδή απαιτείται τρισδιάστατο λογισµικό γραφικών [5]..8 Πρόβλεψη Το πολλαπλό παλινδροµικό µοντέλο µπορεί να χρησιµοποιηθεί για την πρόβλεψη µελλοντικών παρατηρήσεων της Y ως προς συγκεκριµένες τιµές των ' επεξηγηµατικών µεταβλητών, έστω π.χ. x 1, x,..., x k. Αν x = [1, x 1, x,..., x k ] τότε µια σηµειακή εκτίµηση της µελλοντικής παρατήρησης y στο σηµείο x 1, x...x k είναι ŷ = x ˆ 'β (.9) Ένα 1(1-α)% διάστηµα πρόβλεψης για τη µελλοντική παρατήρηση y είναι: ( ) ( ) -1-1 yˆ - t /,n-ρ σˆ ˆ ˆ ˆ α 1+ x ' y y y y + tα /,n-ρ σ 1+ ' ' x x ' x (.3) Η παραπάνω σχέση αποτελεί γενίκευση της αντίστοιχης σχέσης που είδαµε στο προηγούµενο κεφάλαιο στην περίπτωση της απλής γραµµικής παλινδρόµησης [5]..9 Μερικός συντελεστής προσδιορισµού συσχέτισης Είδαµε στην παράγραφο.6.4 το περιορισµένο παλινδροµικό γραµµικό µοντέλο. Ας θεωρήσουµε το πλήρες µοντέλο y = β+ ε και έστω ότι από αυτό προκύπτει το περιορισµένο µοντέλο Y = β + β1 1 +β...β β k k + ε µε απαλοιφή της επεξηγηµατικής µεταβλητής. Αν SS Res και SS Res() είναι τα αθροίσµατα τετραγώνων των αποκλίσεων που µένουν ανερµήνευτα από την προσαρµογή του πλήρους και του περιορισµένου µοντέλου αντίστοιχα, τότε προφανώς η διαφορά SSRes() SSRes δίνει το µέρος της ανερµήνευτης διασποράς που εξηγεί η µεταβλητή µε την είσοδό της στο µοντέλο. Το ποσοστό αυτής της διαφοράς ως προς την µέχρι τότε ανερµήνευτη (ανεξήγητη) διασπορά είναι ένα µέτρο της σηµαντικότητας της µεταβλητής και ονοµάζεται µερικός συντελεστής προσδιορισµού (coeffcent of partal determnaton) και συµβολίζεται µε r y:1...(-1)(+1)...κ δηλαδή SS Res() -SS r y:1...(-1)(+1)...κ = SS Res() Res (.31)

62 Ο παραπάνω συντελεστής συµβολίζεται επίσης και µε σηµαίνει ότι επεξηγηµατικές µεταβλητές µαζί µε την r y:κ όπου ο υποδείκτης κ είναι σε πλήθος κ. Ο συµβολισµός αυτός δεν δείχνει ποιες από τις µεταβλητές είναι στο µοντέλο, πράγµα που δηµιουργεί µερικές φορές σύγχυση ιδιαίτερα όταν µελετούµε ταυτόχρονα πολλά µοντέλα µε το ίδιο πλήθος µεταβλητών. Η θετική τετραγωνική ρίζα του µερικού συντελεστή προσδιορισµού συµβολίζεται µε r y:1...(-1)(+1)...κ και λέγεται µερικός συντελεστής συσχέτισης (partal correlaton coeffcent) Αποδεικνύεται ότι ο µερικός συντελεστής συσχέτισης ικανοποιεί την αναδροµική σχέση: ry :1...(-1)(+1)...(j-1)(j+1)...κ - r r r y:1...(-1)(+1)...κ = 1- r 1- r ( y ) j:1...(-1)(+1)...(j-1)(j+1)...κ όπου j = 1,,...,( -1),( +1),...,k. y j:1...(-1)(+1)...(j-1)(j+1)...κ j:1...(-1)(+1)...(j-1)(j+1)...κ ( j:1...(-1)(+1)...(j-1) (j+1)...κ) Οι συντελεστές µερικής συσχέτισης όπως και οι απλοί συντελεστές συσχέτισης υπολογίζονται πολύ ευκολότερα µε πράξεις πινάκων αντί µε τη βοήθεια των παραπάνω αναδροµικών τύπων. Αν θεωρήσουµε τον πίνακα S = (s j) ότι είναι ο πίνακας διασπορών συνδιασπορών των µεταβλητών 1,,..., k, τότε ο πίνακας R = D SD, όπου D s διαγώνιος πίνακας µε διαγώνια στοιχεία τα διαγώνια -1/ -1/ s s στοιχεία του S, δηλαδή D s = dag(s) και D -1/ συµβολίζει τον πίνακα που προκύπτει µε την αντιστροφή των τετραγωνικών ριζών των διαγώνιων στοιχείων του διαγώνιου πίνακα D s και αποτελεί τον πίνακα των συντελεστών συσχέτισης των [3]..1 Πολυσυγγραµµικότητα Με τον όρο πολυσυγγραµµικότητα (multcollnearty) εννοούµε την ύπαρξη µιας επεξηγηµατικής µεταβλητής που είναι γραµµικά συσχετισµένη µε µία άλλη επεξηγηµατική µεταβλητή ή µε γραµµικό συνδυασµό άλλων ανεξάρτητων µεταβλητών. Η πολυσυγγραµµικότητα είναι αρκετά συχνό φαινόµενο, ιδιαίτερα όταν τα δεδοµένα προέρχονται από κοινωνικές ή οικονοµικές µελέτες και αποτελεί µια από τις κυριότερες αιτίες για την εξαγωγή λανθασµένων συµπερασµάτων στην πολλαπλή γραµµική παλινδρόµηση. Η ύπαρξη πολυσυγγραµµικότητας συνεπάγεται την αύξηση των τυπικών σφαλµάτων των συντελεστών παλινδρόµησης. Μάλιστα αν υφίσταται

63 πλήρης ή τέλεια πολυσυγγραµµικότητα, αν δηλαδή ισχύει j = λ + λχ τότε ο πίνακας σχεδιασµού Χ έχει βαθµό µικρότερο του κ+1 και άρα και ο πίνακας j ' έχει βαθµό µικρότερο του κ+1, δηλαδή είναι ιδιάζων και εποµένως δεν µπορούν να βρεθούν συντελεστές παλινδρόµησης. Όσο προσεγγίζεται η παραπάνω ακραία περίπτωση, τόσο περισσότερες υπολογιστικές δυσκολίες δηµιουργούνται. Η απαλοιφή της µεταβλητής j δεν λύνει πάντα τα προβλήµατα, διότι σ αυτήν την περίπτωση οι συντελεστές παλινδρόµησης των υπόλοιπων µεταβλητών δεν εκτιµώνται αµερόληπτα. [3]..1.1 Μέτρηση συγγραµµικότητας Η ένταση της γραµµικής σχέσης ανάµεσα στις επεξηγηµατικές µεταβλητές είναι δυνατόν να µετρηθεί από τους παρακάτω δείκτες: α) Από τις ιδιοτιµές (egenvalues) του πίνακα συνδιασποράς. Όσο οι ιδιοτιµές είναι κοντά στο µηδέν, τόσο οι µεταβλητές είναι υψηλά συσχετισµένες. Ένας τέτοιος πίνακας µε υψηλές εσωτερικές συσχετίσεις ανάµεσα στις µεταβλητές ονοµάζεται llcondtoned matrx. β) Από τον παράγοντα ανοχής (tolerance factor). Αυτός ο παράγοντας παίρνει ως δείκτης τιµές από έως 1 και εκφράζει το ποσοστό της µεταβλητότητας (διασποράς) µιας επεξηγηµατικής µεταβλητής, το οποίο δεν µπορεί να εξηγηθεί από τη γραµµική σχέση αυτής της µεταβλητής µε τις υπόλοιπες του παλινδροµικού µοντέλου. Εποµένως είναι προφανές ότι αν µια επεξηγηµατική µεταβλητή έχει τιµή ανοχής (tolerance) κοντά στο 1 τότε ένα ελάχιστο ποσοστό της διασποράς της εξηγείται από τις άλλες µεταβλητές του µοντέλου. Συνεπώς σε αυτήν την περίπτωση δεν υφίσταται πρόβληµα πολυσυγγραµµικότητας. Αντίθετα, αν η τιµή tolerance για µια επεξηγηµατική µεταβλητή είναι κοντά στο, τότε αυτή µπορεί να γραφεί ως γραµµικός συνδυασµός των υπολοίπων πολυσυγγραµµικότητας., πράγµα που σηµαίνει την ύπαρξη γ) Από τον παράγοντα πληθωριστικής διασποράς (Varance Inflaton Factor) ή VIF. Ο παράγοντας VIF ορίζεται ως ο αντίστροφος του παράγοντα ανοχής tolerance. Γνωρίζουµε ότι ισχύει Tolerance= 1- R (.3)

64 όπου R είναι ο συντελεστής πολλαπλής συσχέτισης για την επεξηγηµατική µεταβλητή, όταν αυτή η µεταβλητή προβλέπεται από τις άλλες επεξηγηµατικές µεταβλητές του µοντέλου. Οπότε έχουµε: 1 1 VIF = = tolerance 1- R (.33) Όσο αυξάνει ο παράγοντας VIF τόσο αυξάνει και η διασπορά του αντίστοιχου συντελεστή παλινδρόµησης. Κατά την άποψη του Myers (199) «αν ο VIF ξεπερνά την τιµή 1 τότε έχουµε λόγους να αρχίσουµε να ανησυχούµε για την παλινδροµική µας ανάλυση». δ) Από τους δεσµευµένους δείκτες (condton ndexes). Αν υποθέσουµε ότι έχουµε µπροστά µας έναν πίνακα συνδιασποράς και γενικά πίνακες µε ιδιοτιµές, τότε αν σχηµατίσουµε το λόγο της µεγαλύτερης ιδιοτιµής µε κάποια πιο µικρή και στη συνέχεια υπολογίσουµε την τετραγωνική ρίζα του παραπάνω πηλίκου, τότε προκύπτει ένας δείκτης που καλείται Condton Index. Αν ο δείκτης αυτός έχει τιµή πάνω από 15, τότε είναι πιθανό να έχουµε πρόβληµα πολυσυγγραµµικότητας. Αν η τιµή του υπερβαίνει το 3 τότε είναι φανερό ότι υφίσταται σοβαρό πρόβληµα πολυσυγγραµµικότητας. []..1. Συνέπειες της ύπαρξης συγγραµµικότητας Όταν διαγνωστεί πρόβληµα πολυσυγγραµµικότητας και είναι πράγµατι υπαρκτή, τότε δηµιουργείται αρκετά σηµαντικό πρόβληµα στην έρευνα καθώς έχουµε τις ακόλουθες συνέπειες: α) Αυξάνεται η διασπορά των συντελεστών παλινδρόµησης µε αποτέλεσµα η εξίσωση της παλινδρόµησης να είναι περισσότερο ασταθής β) Περιορίζεται σε σηµαντικό βαθµό το µέγεθος του συντελεστή πολλαπλού προσδιορισµού R γ) Γίνεται ασαφής και δυσδιάκριτη η συµβολή, επίδραση και αποτελεσµατικότητα κάθε επεξηγηµατικής µεταβλητής στο µοντέλο []. Ο βασικότερος έλεγχος για ένα πολλαπλό παλινδροµικό µοντέλο είναι εκείνος της ύπαρξης ή µη πολυσυγγραµµικότητας. Είδαµε ότι η παρουσία πολυσυγγραµµικότητας δίνει µια θολή και ενδεχοµένως πλαστή εικόνα για το παλινδροµικό µας µοντέλο. Είναι συνεπώς προφανές ότι πριν τον έλεγχο των

65 υποθέσεων του µοντέλου παλινδρόµησης οφείλουµε να εξετάσουµε προσεχτικά τη σπουδαία και θεµελιακή παραδοχή της απουσίας συγγραµµικότητας []..11 Έλεγχος προϋποθέσεων πολλαπλής γραµµικής παλινδρόµησης Στη συνέχεια θα περιγράψουµε µε συντοµία τους ελέγχους των παραδοχών του πολλαπλού γραµµικού παλινδροµικού µοντέλου Έλεγχος ανεξαρτησίας εξής: Ο έλεγχος της ανεξαρτησίας των υπολοίπων (ή των ŷ ) πραγµατοποιείται ως α) Με τη βοήθεια του στατιστικού δείκτη Durbn Watson. Με το δείκτη αυτόν µπορούµε να δούµε αν οι παρατηρήσεις σχετίζονται θετικά ή αρνητικά ή είναι ασυσχέτιστες όπως και επιθυµούµε. β) Με τη βοήθεια γραφήµατος και ειδικότερα των γραφηµάτων διασποράς των τυποποιηµένων υπολοίπων έναντι της τάξης (sequence) των παρατηρήσεων. Η έλλειψη συστηµατικών και ανοµοιόµορφα συσσωρευµένων σηµείων καθώς και προτύπων αποτελεί ένδειξη ύπαρξης ανεξαρτησίας. Η υπόθεση της ύπαρξης ανεξαρτησίας δεν παραβιάζεται αν στο γράφηµα προκύπτει µια τυχαία κατανοµή των υπολοίπων πάνω και κάτω από µία «νοητή» οριζόντια γραµµή η οποία διέρχεται από το σηµείο µηδέν [], [4]..11. Έλεγχος κανονικότητας Ο έλεγχος της ύπαρξης κανονικότητας (ή µη) των υπολοίπων πραγµατοποιείται µε τη βοήθεια διαγραµµάτων. Μερικά από αυτά είναι: α) Φυλλογράφηµα των υπολοίπων (stem and leaf plot of resduals) β) Ιστόγραµµα των υπολοίπων (οποιουδήποτε είδους υπολοίπων όπως των τυποποιηµένων κλπ) γ) Normal P-P και Q-Q γραφήµατα συνήθως των τυποποιηµένων υπολοίπων [],[4] Έλεγχος γραµµικότητας Στο πλαίσιο του ελέγχου της γραµµικότητας οφείλουµε να εξετάσουµε µία µία τις επεξηγηµατικές µεταβλητές, = 1,,..., k σε σχέση µε τη µεταβλητή απόκρισης

66 Y για να διαπιστώσουµε αν υπάρχει γραµµική σχέση µεταξύ τους. Αυτό µπορεί να επιτευχθεί µε έναν από τους ακόλουθους τρόπους: α) Με τη βοήθεια γραφήµατος πολλαπλών διαγραµµάτων διασποράς (multple scatter plots) της µεταβλητής απόκρισης Υ µε κάθε µία από τις επεξηγηµατικές µεταβλητές, = 1,...k. Πρόκειται για αδρό έλεγχο της γραµµικότητας αλλά συχνά αποδεικνύεται εξαιρετικά χρήσιµος []. β) Με τη βοήθεια γραφήµατος διασποράς των τυποποιηµένων υπολοίπων ως προς τις τυποποιηµένες προβλεπόµενες τιµές (standardzed Predcted Values). Αν σ αυτό το γράφηµα τα σηµεία είναι τυχαία κατανεµηµένα εντός µίας οριζόντιας νοητής ταινίας, η οποία έχει ως άξονα την ευθεία που διέρχεται από το σηµείο µηδέν, τότε αυτό αποτελεί ένδειξη ύπαρξης γραµµικότητας. Σε καµία, πάντως περίπτωση δεν θα πρέπει να υπάρχουν πρότυπα ή συστηµατικές συσσωρεύσεις σηµείων εντός της ταινίας που αναφέραµε. γ) Με τη βοήθεια γραφηµάτων µερικής παλινδρόµησης (Partal Regresson Plots). Ουσιαστικά κατασκευάζουµε διαγράµµατα διασποράς της µεταβλητής απόκρισης Υ µε κάθε µία από τις επεξηγηµατικές µεταβλητές, = 1,...k. Είναι προφανές ότι αν το νέφος των σηµείων ενός τέτοιου διαγράµµατος σχηµατίζουν µια γραµµή, τότε υπάρχει γραµµική σχέση στις συγκεκριµένες δύο µεταβλητές που εξετάσαµε [],[4] Έλεγχος ισότητας διασπορών Ο έλεγχος της ισότητας των διασπορών πραγµατοποιείται µε τη βοήθεια του γραφήµατος διασποράς των τυποποιηµένων υπολοίπων ως προς τις τυποποιηµένες προβλεπόµενες τιµές. Σε περίπτωση που τα σηµεία είναι τυχαία κατανεµηµένα στο γράφηµα, χωρίς να υπάρχει κάποιο πρότυπο, τότε εξασφαλίζεται η ύπαρξη οµοσκεδαστικότητας. Ουσιαστικά µε την παραπάνω διαδικασία προσπαθούµε να ελέγξουµε αν η διασπορά των τιµών της µεταβλητής απόκρισης Υ είναι ίδια για κάθε συνδυασµό των τιµών των επεξηγηµατικών µεταβλητών, = 1,,..., k. Είναι προφανές ότι αν η διασπορά των υπολοίπων (δηλαδή των σηµείων του γραφήµατος) αυξάνει καθώς αυξάνουν οι προβλεπόµενες τιµές ŷ που βρίσκονται στον οριζόντιο άξονα, τότε δεν έχουµε ίδια διασπορά αλλά διαφορετική στις διάφορες περιοχές του γραφήµατος, εποµένως έχουµε ετεροσκεδαστικότητα. Η ετεροσκεδαστικότητα είναι µια προβληµατική κατάσταση διότι αναδεικνύει πρότυπα τα οποία σηµαίνουν πως

67 υφίσταται κάποιου είδους σχέση ανάµεσα στα υπόλοιπα και στις προβλεπόµενες, από το µοντέλο, τιµές []..1 Ανίχνευση ακραίων τιµών και παρατηρήσεων επίδρασης Η ανάλυση παλινδρόµησης επηρεάζεται από παρατηρήσεις που δείχνουν να είναι αποκοµµένες από τις άλλες ή γενικά φαίνεται να έχουν διαφορετική συµπεριφορά από τις υπόλοιπες. Αυτού του είδους οι παρατηρήσεις ονοµάζονται ακραίες (outlers). Αν η συµπεριφορά αυτών των παρατηρήσεων φτάνει µέχρι το σηµείο να επηρεάζει βαθιά ή ακόµη να ανατρέπει τα αποτελέσµατα που προκύπτουν από την ανάλυση παλινδρόµησης, τότε γίνεται λόγος για την ύπαρξη παρατηρήσεων επίδρασης (nfluental ponts) εν υπάρχει σαφής διάκριση ανάµεσα στις ακραίες τιµές και στις παρατηρήσεις επίδρασης. Μια ακραία τιµή δεν επηρεάζει απαραίτητα την εξίσωση παλινδρόµησης και δεν ασκεί καθοριστική επίδραση πάνω στους συντελεστές της παλινδρόµησης. Αντίθετα, µια παρατήρηση επίδρασης αν απαλειφθεί από την ανάλυση προκαλεί ουσιαστική αλλαγή σε τουλάχιστον έναν από τους µερικούς συντελεστές της εξίσωσης παλινδρόµησης. Ο εντοπισµός τέτοιου είδους τιµών ή παρατηρήσεων πραγµατοποιείται, όπως έχουµε δει, διαγραµµατικά αλλά και µε τη βοήθεια µαθηµατικών τεχνικών και µεθόδων. Ειδικότερα, τα µέτρα εντοπισµού και αναγνώρισης των ακραίων τιµών είναι: α) Η απόσταση D Mahalanobs που αποτελεί ένα µέτρο που µας δείχνει κατά πόσο απέχει µια περίπτωση από το κέντρο βάρους (centrod) όλων των περιπτώσεων και δίνεται από την ακόλουθη σχέση D = ( x - x) ' S -1 ( ) συνδιασποράς, x - x όπου S είναι η µήτρα x το διάνυσµα των δεδοµένων για την περίπτωση και x το διάνυσµα των µέσων των επεξηγηµατικών µεταβλητών. Μια µεγάλη τιµή της απόστασης Mahalanobs δείχνει ότι µια παρατήρηση είναι ακραία τιµή για τις επεξηγηµατικές µεταβλητές του µοντέλου µας. β) Η τιµή Laverage για µια περίπτωση είναι το µέγεθος το οποίο δίνεται από τη σχέση D = (n -1)h, όπου 1 x ( ) x. Να σηµειωθεί ότι ο πίνακας καπέλο h = ' ' - (hat matrx) Η παίζει σηµαντικό ρόλο στον προσδιορισµό ακραίων τιµών και παρατηρήσεων επίδρασης. Με άλλα λόγια, η απόσταση Mahalanobs ισούται µε (n-1) φορές την τιµή Leverage. Ορισµένα στατιστικά πακέτα υπολογίζουν το

68 κεντραρισµένο Leverage, δηλαδή Centered Leverage= 1 h - n. Κατά τους Hoagln και Welsh (1978) µια τιµή Leverage που ξεπερνά την ποσότητα ρ n, όπου ρ είναι ο αριθµός των συντελεστών της παλινδρόµησης µαζί µε το σταθερό όρο, θεωρείται υψηλή και αποτελεί ένδειξη για την ύπαρξη ακραίας τιµής. Τα µέτρα εντοπισµού και αναγνώρισης των παρατηρήσεων επίδρασης (nfluental ponts) είναι τα ακόλουθα: α) Η απόσταση Cook που µετρά την αλλαγή στις εκτιµήσεις των συντελεστών της παλινδρόµησης, αν η περίπτωση απαλειφθεί από την ανάλυση. Αξίζει να σηµειωθεί ότι αν εκτελέσουµε την ανάλυση παλινδρόµησης δυο φορές, µία µε όλες τις περιπτώσεις µέσα και µία µετά την αφαίρεση της περίπτωσης, θα βλέπαµε τις αλλαγές στους συντελεστές παλινδρόµησης. Η απόσταση Cook µας πληροφορεί αν αυτές οι αλλαγές είναι σηµαντικές. Η απόσταση Cook για την περίπτωση, δίνεται από τη σχέση CD = 1 h r κ h όπου h είναι η τιµή Leverage, κ ο αριθµός των ( ) επεξηγηµατικών µεταβλητών του µοντέλου και r τα τυποποιηµένα υπόλοιπα. Οι Cook και Wesberg (198) έδειξαν ότι αν CD >1 τότε η περίπτωση µπορεί να θεωρηθεί παρατήρηση επίδρασης. β) Ο δείκτης DfFts µετρά την επίδραση της περίπτωσης πάνω στις εκτιµήσεις των συντελεστών παλινδρόµησης αλλά και πάνω στην διασπορά τους. Ο δείκτης DfFts h DfFts = SDR όπου 1- h δίνεται από τη σχέση ( ) h είναι η τιµή Leverage της περίπτωσης και SDR είναι τα υπόλοιπα και ειδικότερα τα Studentzed Deleted υπόλοιπα. Να σηµειωθεί εδώ ότι ενώ οι Cook αποστάσεις δεν ενδιαφέρονται για το πρόσηµο µπροστά στην τιµή τους, οι DfFts διατηρούν το πρόσηµό τους. Έχουν προταθεί από τους Neter, Kutner, Nachtshem και Wasserman (1996) οι παρακάτω πρακτικούς κανόνες για τον χαρακτηρισµό µιας περίπτωσης ως παρατήρηση επίδρασης. α) Αν µια περίπτωση έχει τυποποιηµένη τιµή DfFts >1 κατ απόλυτη τιµή και το µέγεθος του δείγµατος είναι µικρό ή µεσαίο (n 3), τότε θα πρέπει αυτή η περίπτωση να θεωρείται παρατήρηση επίδρασης.

69 β) Αν µια περίπτωση έχει τυποποιηµένη τιµή DfFts µεγαλύτερη από την ποσότητα ρ n και το µέγεθος του δείγµατος είναι µεγάλο (n 3) τότε προτείνεται αυτή η περίπτωση να θεωρείται παρατήρηση επίδρασης. γ) Ο δείκτης Dfbeta µετράει τη επίδραση της περίπτωσης στην εκτίµηση καθενός συντελεστή παλινδρόµησης χωριστά. Ας υποθέσουµε ότι εκτελούµε την ανάλυση παλινδρόµησης βασιζόµενοι σε n περιπτώσεις και λαµβάνουµε ένα συντελεστή παλινδρόµησης b k, k =,1,..., p -1. Αν εκτελέσουµε και πάλι την ανάλυση παλινδρόµησης χωρίς την περίπτωση, προκύπτει ένας νέος συντελεστής παλινδρόµησης είναι bk - b k() b k(), οπότε η διαφορά του µε τον προηγούµενο συντελεστή b k θα. Αν διαιρέσουµε αυτή τη διαφορά µε µία εκτίµηση του τυπικού σφάλµατος του b k, τότε λαµβάνουµε το µέτρο Dfbeta, δηλαδή ( ) b - b κ κ() Dfbeta = όπου MSE κ() () είναι το µέσο τετραγωνικό σφάλµα όταν η MSE () c κκ περίπτωση παραλείπεται από την ανάλυση και c kk είναι το διαγώνιο στοιχείο του πίνακα ' ( ) -1. Ο πίνακας Χ περιλαµβάνει τις τιµές των επεξηγηµατικών µεταβλητών. Οι δείκτες Dfbetas µας πληροφορούν ποιοι ακριβώς από τους συντελεστές παλινδρόµησης επηρεάζονται περισσότερο. Σ ότι αφορά στις κρίσιµες τιµές των δεικτών Dfbetas, ο Stevens () θεωρεί ότι µια Dfbeta τιµή µεγαλύτερη (κατ απόλυτη τιµή) του αποτελεί ένδειξη παρατήρησης επίδρασης. Οι Neter, Kutner, Nachtshem και Wasserman (1996) συνδυάζουν τις κρίσιµες τιµές των Dfbetas µε το εκάστοτε µέγεθος του δείγµατος. ηλαδή: α) Αν η απόλυτη τιµή ενός τυποποιηµένου Dfbeta ξεπερνά το 1 και το µέγεθος του δείγµατος είναι µικρό (n 3), τότε η αντίστοιχη περίπτωση θεωρείται παρατήρηση επίδρασης. β) Οµοίως, αν η απόλυτη τιµή ενός τυποποιηµένου Dfbeta είναι µεγαλύτερη από την ποσότητα ρ n και το µέγεθος του δείγµατος είναι µεγάλο (n 3). Είναι προφανές ότι όσες είναι οι επεξηγηµατικές µεταβλητές, = 1,,..., k του µοντέλου τόσες είναι και οι τυποποιηµένες Dfbeta τιµές που αναζητούµε, ώστε να αποφανθούµε ποια ή ποιες περιπτώσεις είναι που επηρεάζουν (και πόσο) τον κάθε συντελεστή παλινδρόµησης ξεχωριστά [].

70 .13 Επιλογή µεταβλητών - Μέθοδοι επιλογής µεταβλητών Έχουν αναπτυχθεί διάφορες µέθοδοι για την επιλογή των µεταβλητών ενός µοντέλου παλινδρόµησης. Αν, για παράδειγµα, κάποιος ερευνητής έχει στη διάθεσή του 5 επεξηγηµατικές µεταβλητές, τότε θεωρητικά µπορεί να κατασκευάσει 3 παλινδροµικά µοντέλα. Από το προηγούµενο είναι προφανές ότι οι επιλογές µας, σε περίπτωση που υπάρχουν περισσότερες από επεξηγηµατικές µεταβλητές, είναι πάρα πολλές. Όπως αναφέραµε, υπάρχουν διάφορες µέθοδοι για την επιλογή των µεταβλητών ενός παλινδροµικού µοντέλου. Οι κυριότερες από αυτές είναι η µέθοδος Forward, η µέθοδος Backward και η µέθοδος Stepwse για κάθε µία από τις οποίες θα αναφέρουµε λίγα λόγια Η µέθοδος Forward µεταβλητών Η µέθοδος αυτή ανεξαρτήτως του αριθµού των επεξηγηµατικών, = 1,,..., k που έχουµε ξεκινά πάντοτε µε τη δηµιουργία ενός µοντέλου που περιέχει το σταθερό όρο (ntercept). Στη συνέχεια και σε κάθε βήµα εισάγεται στο µοντέλο µια επεξηγηµατική µεταβλητή. Αυτό έχει ως συνέπεια την αύξηση του συντελεστή πολλαπλού προσδιορισµού R. Η µεταβολή στην τιµή του R θεωρείται σηµαντική αν η µηδενική υπόθεση H : Η πραγµατική αλλαγή στο R είναι ίση µε µηδέν vs H 1: Αλλιώς απορρίπτεται σε κάποιο επίπεδο σηµαντικότητας α που εµείς καθορίζουµε. Εποµένως, αν σε κάποιο βήµα, το παρατηρούµενο επίπεδο σηµαντικότητας είναι µικρότερο από το επίπεδο που εµείς επιλέξαµε, τότε η επεξηγηµατική µεταβλητή εισάγεται στο µοντέλο. Η διαδικασία σταµατά όταν δεν υπάρχουν πλέον µεταβλητές που να µπορούν να προκαλέσουν σηµαντική αύξηση του R []..13. Η µέθοδος Backward µεταβλητών Η µέθοδος αυτή ανεξαρτήτως του αριθµού των επεξηγηµατικών, = 1,,..., k που έχουµε ξεκινά πάντοτε µε τη δηµιουργία ενός µοντέλου που περιλαµβάνει όλες τις επεξηγηµατικές µεταβλητές. Στη συνέχεια και σε κάθε βήµα αποβάλλει µια µεταβλητή που είναι εκείνη που επιφέρει τη µικρότερη

71 αλλαγή στο συντελεστή πολλαπλού προσδιορισµού R. Η µεταβολή στο R θεωρείται αρκετά µικρή αν η µηδενική υπόθεση H : Η πραγµατική αλλαγή στο R είναι ίση µε µηδέν vs H 1: Αλλιώς δεν απορρίπτεται σε επίπεδο σηµαντικότητας α το οποίο εµείς επιλέγουµε. Συνεπώς, αν το παρατηρούµενο επίπεδο σηµαντικότητας είναι µεγαλύτερο από το επίπεδο που εµείς καθορίσαµε, τότε η µηδενική υπόθεση δεν απορρίπτεται και ως εκ τούτου η µεταβλητή αποβάλλεται από το µοντέλο. Αυτό συνεχίζεται µέχρις ότου δεν υπάρχουν άλλες επεξηγηµατικές µεταβλητές που κατ ελάχιστο µεταβάλλουν το R [] Η µέθοδος Stepwse Η µέθοδος αυτή είναι ένας συνδυασµός των δύο προηγούµενων µεθόδων. Αρχικά η µέθοδος ξεκινά µε τη µέθοδο Forward. Εισάγει στο µοντέλο τις δύο πρώτες µεταβλητές σύµφωνα µε το κριτήριο εισόδου και στη συνέχεια εξετάζει αν κάποια από αυτές ικανοποιεί το κριτήριο εξόδου. Αν κάποια µεταβλητή το ικανοποιεί, αποβάλλεται από το µοντέλο. Κατόπιν, θέτει και πάλι σε λειτουργία το κριτήριο εισόδου της µεθόδου Forward για την είσοδο νέας µεταβλητής. Μια µεταβλητή εισάγεται στο µοντέλο αν θεωρείται σηµαντική. Η προβλεπτική δύναµη των επεξηγηµατικών µεταβλητών ανά πάσα στιγµή είναι αυτή που προσδιορίζει την είσοδο ή την έξοδο τους από το µοντέλο. Είναι προφανές ότι τα κριτήρια εισόδου εξόδου λειτουργούν µε πιθανότητες οι οποίες αντιστοιχούν σε τιµές του στατιστικού F. Το επίπεδο στατιστικής σηµαντικότητας, τόσο για το κριτήριο εισόδου όσο και για το κριτήριο εξόδου, καθορίζεται από τον ερευνητή. Η διαδικασία εισαγωγής και εξαγωγής µεταβλητών σταµατά αν το επίπεδο σηµαντικότητας καθοριστεί να είναι µικρότερο για την είσοδο µιας µεταβλητής σε σχέση µε εκείνο της εξόδου (µιας µεταβλητής) από το µοντέλο [] Παρατήρηση Οι παραπάνω µέθοδοι, όπως αναφέραµε, απαντώνται σε όλα τα στατιστικά πακέτα και είναι αυτές που χρησιµοποιούνται περισσότερο για την επιλογή µεταβλητών για την δηµιουργία ενός πολλαπλού γραµµικού µοντέλου. Για να εισαχθεί µια επεξηγηµατική µεταβλητή σε ένα παλινδροµικό µοντέλο θα πρέπει να

72 ικανοποιεί το λεγόµενο κριτήριο ανοχής (tolerance crteron). Το κριτήριο αυτό στα περισσότερα στατιστικά πακέτα έχει την τιµή tolerance=,1. Ταυτόχρονα είναι σηµαντικό να γνωρίζουµε αν µια µεταβλητή κατά την εισαγωγή της στο µοντέλο προκαλεί συγγραµµικότητα µε µια άλλη µεταβλητή που βρίσκεται ήδη στο µοντέλο. Είδαµε ότι η ύπαρξη πολυσυγγραµµικότητας έχει δυσάρεστες επιπτώσεις στο παλινδροµικό µοντέλο [],[4] Αριθµός µεταβλητών που πρέπει να συµπεριλαµβάνονται στο µοντέλο Έχουµε δει ότι η εισαγωγή µιας επεξηγηµατικής µεταβλητής στο µοντέλο επιφέρει αύξηση του συντελεστή πολλαπλού προσδιορισµού R. Αυτό συχνά δηµιουργεί την λανθασµένη άποψη ότι ένα παλινδροµικό µοντέλο µε µεγάλο αριθµό επεξηγηµατικών µεταβλητών είναι περισσότερο κατάλληλο από ένα άλλο µε σαφώς λιγότερες µεταβλητές. Η εισαγωγή πολλών επεξηγηµατικών µεταβλητών σε ένα µοντέλο πολλαπλής γραµµικής παλινδρόµησης, εκ των οποίων οι περισσότερες δεν είναι σηµαντικές για το µοντέλο, δηµιουργεί µια ανεπιθύµητη κατάσταση που στην στατιστική ορολογία είναι γνωστή ως overfttng. Τέτοιου είδους µοντέλα έχουν εξαιρετικά φτωχή εφαρµογή πάνω σε νέα δείγµατα που προέρχονται από τον ίδιο πληθυσµό. Στην περίπτωση, δηλαδή, που έχουµε overfttng η τιµή του συντελεστή πολλαπλής συσχέτισης r ανάµεσα στις παρατηρούµενες και στις προβλεπόµενες τιµές της µεταβλητής απόκρισης Υ είναι µικρότερη στο νέο δείγµα σε σχέση µε το αρχικό. Ακόµη µια άλλη κατάσταση ανεπιθύµητη για ένα µοντέλο είναι αυτή κατά την οποία επεξηγηµατικές µεταβλητές που σηµαντικές για το µοντέλο, δεν περιλαµβάνονται σ αυτό. Αυτή η κατάσταση καλείται underfttng []. Ο Myers (199) επισηµαίνει ότι θα πρέπει να επιδιώκουµε βέλτιστα παλινδροµικά µοντέλα. ηλαδή µοντέλα που θα έχουν µικρότερο κατά το δυνατόν αριθµό επεξηγηµατικών µεταβλητών, αλλά από τα οποία δεν θα απουσιάζουν σηµαντικές µεταβλητές. ιότι αν ένα µοντέλο είναι πολύ «απλό», του λείπουν δηλαδή µεταβλητές µε ουσιαστική συµβολή, τότε αυτό πιθανά έχει µεροληπτικούς µερικούς συντελεστές και εποµένως πραγµατοποιεί µεροληπτικές προβλέψεις. Από την άλλη, ένα ιδιαίτερα πολύπλοκο µοντέλο ίσως καταλήξει σε µεγάλες διασπορές, τόσο στο επίπεδο των συντελεστών της παλινδρόµησης όσο και στο επίπεδο των προβλέψεων [].

73 Ένα µέτρο που ελαχιστοποιεί τις overfttng ή underfttng καταστάσεις στα µοντέλα πολλαπλής παλινδρόµησης είναι το κριτήριο του Mallows, για το οποίο ισχύει Cρ ρ. Η τιµή C ρ δίνεται από τη σχέση C = ρ + ( s - σˆ )( Ν -ρ) ˆσ ρ όπου ρ=κ+1 ο αριθµός των συντελεστών παλινδρόµησης, κ ο αριθµός των επεξηγηµατικών µεταβλητών του µοντέλου, s η διασπορά των υπολοίπων του µοντέλου την οποία έχουµε εκτιµήσει από το δείγµα µας και σ η διασπορά των υπολοίπων που βασίζεται στο πλήρες µοντέλο. Είναι φανερό ότι αν η τιµή C ρ είναι περίπου ίση µε τον αριθµό των συντελεστών παλινδρόµησης p του µοντέλου, συµπεριλαµβανοµένου και του σταθερού όρου τότε µπορούµε να ισχυριστούµε ότι οι διαστάσεις του µοντέλου µας είναι σωστές []..14 Επικύρωση (Valdaton) πολλαπλού παλινδροµικού µοντέλου Μετά τα προηγούµενα προκύπτει το ερώτηµα αν το µοντέλο παλινδρόµησης που έχουµε εκτιµήσει µπορεί να εφαρµοστεί σε άλλα ανεξάρτητα δείγµατα δεδοµένων τα οποία προέρχονται από τον ίδιο πληθυσµό. Για να ελέγξουµε την προβλεπτική δύναµη ενός µοντέλου παλινδρόµησης χρησιµοποιούµε τις ακόλουθες µεθόδους: 1) Προσδιορίζουµε τον προσαρµοσµένο συντελεστή πολλαπλού προσδιορισµού µε τη βοήθεια του τύπου του Sten. Ο τύπος του Sten (196) δίνεται από τη σχέση: ˆρ = 1- c όπου ( n -1)( n - )( n +1)( 1- R ) ( )( ) n n - κ -1 n - κ - R adj ˆρ c είναι ο πληθυσµιακός συντελεστής πολλαπλού προσδιορισµού, n είναι το µέγεθος του δείγµατος και κ ο αριθµός των επεξηγηµατικών µεταβλητών. ) Επιχειρούµε διαχωρισµό των δεδοµένων (data splttng). Είναι µια µέθοδος που χρησιµοποιείται σε µεγάλα δείγµατα. Ουσιαστικά επιλέγουµε ένα µέρος από το σύνολο των παρατηρήσεών µας, έστω το 6%, µε τρόπο τυχαίο και εφαρµόζουµε ανάλυση παλινδρόµησης. Αν τα αποτελέσµατα δεν αποκλίνουν σηµαντικά από τα αρχικά τότε είναι φανερό ότι το µοντέλο παλινδρόµησης που έχουµε εκτιµήσει είναι έγκυρο. 3) Χρησιµοποιούµε το στατιστικό PRESS. Στην πραγµατικότητα πρόκειται για τα στατιστικά PRESS, SSE και MSE. Ισχύει σύµφωνα µε τους Neter, Kutner, Nachtshem και Wasserman (1996) το εξής: «Μια αρκετά µεγάλη συµφωνία στους

74 δείκτες των στατιστικών PRESS και SSE υπαινίσσεται ότι το στατιστικό MSE λογικά µπορεί να είναι ένας έγκυρος δείκτης της προβλεπτικής ικανότητας του µοντέλου παλινδρόµησης που έχουµε επιλέξει». Με το στατιστικό PRESS θα ασχοληθούµε πιο εκτενώς στο κεφάλαιο 3 µε τον τίτλο «Ανάλυση Υπολοίπων». Η διαδικασία έλεγχου της εγκυρότητας ενός µοντέλου είναι γνωστή ως model valdaton..15 Εµπειρικός τρόπος δηµιουργίας πολλαπλών παλινδροµικών µοντέλων Στις προηγούµενες σελίδες παρουσιάσαµε τις τρεις γνωστότερες µεθόδους επιλογής µεταβλητών για τη δηµιουργία πολλαπλών παλινδροµικών µοντέλων (µέθοδος Forward, µέθοδος Backward και µέθοδος Stepwse). Εκτός όµως από τις παραπάνω κλασσικές µεθόδους µπορούµε να καταφύγουµε και στη χρήση εµπειρικών τρόπων για το «χτίσιµο» ενός παλινδροµικού µοντέλου. Έστω, για παράδειγµα, ότι έχουµε στη διάθεσή µας µια µεταβλητή απόκρισης Υ και έξι επεξηγηµατικές µεταβλητές, = 1,,...,6 και επιθυµούµε να δηµιουργήσουµε ένα προβλεπτικό παλινδροµικό µοντέλο που να είναι ικανοποιητικό. Αρχικά µελετούµε κάθε επεξηγηµατική µεταβλητή ή ανεξάρτητο παράγοντα χωριστά ως προς τη µεταβλητή απόκρισης. Εφαρµόζοντας σε κάθε περίπτωση τον έλεγχο του Wald παρατηρούµε ποιες από τις επεξηγηµατικές µεταβλητές, = 1,,...,6 έχουν ρ τιµή µικρότερη από,15 ή, (ρ τιµή <,15 ή ρ τιµή <,). Όσες από τις µεταβλητές πληρούν το παραπάνω κριτήριο τις εντάσσουµε στο µοντέλο. Έστω για το παράδειγµά µας ότι αυτές είναι οι Χ 1 (ρ τιµή =,1), η Χ 3 (ρ τιµή =,8), και η Χ 4 (ρ τιµή =,15). Οπότε προκύπτει το ακόλουθο µοντέλο πολλαπλής παλινδρόµησης Υ=β +β 1 Χ 1 + β 3 Χ 3 + β 4 Χ 4 +ε. Στη συνέχεια δηµιουργείται το ερώτηµα κατά πόσο είναι σηµαντική για το µοντέλο η µεταβλητή, π.χ. Χ 3 δεδοµένου ότι σ αυτό βρίσκονται και οι µεταβλητές Χ 1 και Χ 4. Εφαρµόζοντας τον έλεγχο του Wald για το µοντέλο παρατηρούµε ποιες επεξηγηµατικές µεταβλητές από τις Χ 1, Χ 3 και Χ 4 έχουν ρ τιµή µικρότερη από,5. Έστω ότι οι µεταβλητές Χ 1 και Χ 3 πληρούν την παραπάνω προϋπόθεση, οπότε το µοντέλο γίνεται Υ=β +β 1 Χ 1 + β 3 Χ 3 +ε. Ακολούθως οφείλουµε να εξετάσουµε αν υφίσταται αλληλεπίδραση µεταξύ των µεταβλητών Χ 1 και Χ 3 οπότε προκύπτει το µοντέλο Υ=β +β 1 Χ 1 + β 3 Χ 3 + β 13 Χ 1 Χ 3 +ε. Στο παραπάνω µοντέλο µπορούµε να εφαρµόσουµε όλη την διαδικασία της

75 ανάλυσης παλινδρόµησης. Αξίζει να σηµειωθεί ότι δεν υπάρχει τέλειο ή απόλυτα σωστό µοντέλο, απλά υπάρχουν ικανοποιητικά µοντέλα [7]..16 Μετασχηµατισµοί µεταβλητών σε περιπτώσεις απόκλισης από τις υποθέσεις Οι υποθέσεις που πρέπει να ικανοποιούνται για την εκτίµηση ενός µοντέλου παλινδρόµησης y = β + ε που να είναι έγκυρο και αξιόπιστο είναι: α) Συνθήκες κανονικότητας των υπολοίπων ε N(, σ I) β) Οι επεξηγηµατικές µεταβλητές, = 1,,..., k να είναι ποσοτικές (µετρήσιµες) [3]. Στην πράξη όµως πολλές φορές τα σφάλµατα δεν ακολουθούν κανονική κατανοµή (ούτε βέβαια η Υ) ή ακολουθούν κανονική κατανοµή µε διαφορετικές διακυµάνσεις. Ακόµη µπορεί τα σφάλµατα να µην είναι ασυσχέτιστα µεταξύ τους αλλά να σχετίζονται. Σ αυτές τις περιπτώσεις δεν ικανοποιείται η πρώτη συνθήκη. Μια µέθοδος για την αντιµετώπιση τέτοιων καταστάσεων είναι η αναζήτηση µετασχηµατισµών µε τη βοήθεια των οποίων επιτυγχάνεται η άρση των αποκλίσεων [3]. Επίσης πολύ συχνά οι επεξηγηµατικές µεταβλητές, = 1,,..., k δεν είναι µόνο ποσοτικές άλλα υπάρχουν και ποιοτικές µεταβλητές µεταξύ τους. Τούτο σηµαίνει ότι η δεύτερη προϋπόθεση δεν ισχύει. Σ αυτήν την περίπτωση οι µεταβλητές που χρησιµοποιούνται για να περιγράψουν µεγέθη ποιοτικών µεταβλητών ονοµάζονται βωβές (dummy) µεταβλητές. Στην πιο απλή περίπτωση, µια δίτιµη κατηγορική µεταβλητή περιγράφεται από µια βωβή µεταβλητή, έστω Ζ που παίρνει µόνο δύο τιµές, 1 για την πρώτη κατηγορία και για τη δεύτερη. εν θα επεκταθούµε περαιτέρω πάνω στους µετασχηµατισµούς και στην αντιµετώπιση των ποιοτικών µεταβλητών σ ένα µοντέλο πολλαπλής παλινδρόµησης καθώς δεν αποτελούν αντικείµενο της συγκεκριµένης εργασίας. [3]..17 Ανακεφαλαίωση Η διαδικασία οικοδόµησης ενός µοντέλου παλινδρόµησης αποτελεί µια ενδιαφέρουσα και συναρπαστική ενασχόληση στη στατιστική ανάλυση. Με απλά λόγια µπορούµε να ισχυριστούµε ότι ένα παλινδροµικό µοντέλο είναι ικανοποιητικό αν: α) Πληρούνται οι υποθέσεις που µε λεπτοµέρεια έχουµε αναφέρει

76 β) Ερµηνεύεται µε ευκολία γ) Έχει σηµαντική προβλεπτική ικανότητα µε όσο το δυνατόν µικρότερο αριθµό επεξηγηµατικών µεταβλητών, = 1,,..., k δ) Παρουσιάζει σταθερότητα, δηλαδή δεν επηρεάζεται από µια µικρή αλλαγή στα δεδοµένα µας ε) Εφαρµόζεται όχι µόνο στο δικό µας δείγµα αλλά σε διαφορετικά δείγµατα του ίδιου πληθυσµού (model valdaton) Ζωτικής σηµασίας στην ανάλυση παλινδρόµησης είναι ο έλεγχος για την ύπαρξη πολυσυγγραµµικότητας καθώς και αυτός για την ύπαρξη ακραίων τιµών (outlers) και παρατηρήσεων επίδρασης (nfluental ponts). Τέλος, ο έλεγχος των υποθέσεων ενός παλινδροµικού µοντέλου µέσω της ανάλυσης υπολοίπων είναι καθοριστικός για να αποφασίσουµε για την καταλληλότητα ή µη του µοντέλου. Βιβλιογραφία 1. Γναρδέλλης, Χ. (3), Εφαρµοσµένη Στατιστική, Εκδόσεις Παπαζήση, Αθήνα. αφέρµος, Β. (5), Κοινωνική Στατιστική µε το SPSS, Εκδόσεις Ζήτη, Θεσσαλονίκη 3. Μπόρα-Σέντα, Ε. και Μωυσιάδης, Χ. (1997), Εφαρµοσµένη Στατιστική, Εκδόσεις Ζήτη, Θεσσαλονίκη 4. Draper,. and Smth, H. (1997), Εφαρµοσµένη Ανάλυση Παλινδρόµησης (Μετάφραση: Χατζηκωνσταντινίδης, Ε και Καλαµατιανού, Α.), Εκδόσεις Παπαζήση, Αθήνα 5. Montgomery, D. C., Peck, E. A., Vnng, G. (6), Introducton to Lnear Regresson Analyss, Fourth Edton, John Wley & Sons Inc., New Jersey 6. Chatterjee, S. and Had, A.S. (6), Regresson Analyss by Example, John Wley & Sons Inc., New Jersey 7. Νάκας, Χ. (8), Σηµειώσεις µαθήµατος Ανάλυσης εδοµένων ΙΙ, ΜΠΣ «Στατιστική & Επιχειρησιακή Έρευνα», Μαθηµατικό Τµήµα Σχολή Θετικών Επιστηµών Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης 8. Ελληνικό Στατιστικό Ινστιτούτο (9), Λεξικό Στατιστικής Ορολογίας, Εκδόσεις Ελληνικού Στατιστικού Ινστιτούτου, Αθήνα

77 ΚΕΦΑΛΑΙΟ 3 ΑΝΑΛΥΣΗ ΥΠΟΛΟΙΠΩΝ (There s no sngle statstcal tool that s powerful as a well chosen graph - Chambers) 3.1 Εισαγωγή Οι κύριες υποθέσεις που έχουµε κάνει µέχρι στιγµής για τη µελέτη της ανάλυσης παλινδρόµησης συνοψίζονται στις ακόλουθες: α) Η σχέση µεταξύ της µεταβλητής απόκρισης Y και των επεξηγηµατικών µεταβλητών Χ, = 1,,..., k είναι γραµµική ή σχεδόν γραµµική β) Τα υπόλοιπα e έχουν µέση τιµή µηδέν γ) Τα υπόλοιπα e έχουν σταθερή διακύµανση σ δ) Τα υπόλοιπα e είναι µεταξύ τους ασυσχέτιστα ε) Τα υπόλοιπα e κατανέµονται κανονικά. Οι υποθέσεις (δ) και (ε) υποδεικνύουν ότι τα υπόλοιπα είναι ανεξάρτητες τυχαίες µεταβλητές. Επιπρόσθετα, η υπόθεση (ε) απαιτείται για τη διενέργεια ελέγχου και την εκτίµηση διαστηµάτων εµπιστοσύνης. Πάντοτε οφείλουµε να εξετάζουµε την εγκυρότητα των παραπάνω υποθέσεων διενεργώντας ελέγχους µε σκοπό την εξέταση της επάρκειας του µοντέλου που έχουµε εκτιµήσει. Ο εντοπισµός µεγάλων αποκλίσεων στις υποθέσεις οδηγεί σε ασταθές µοντέλο - υπό την έννοια - ότι ένα

78 διαφορετικό δείγµα από τον ίδιο πληθυσµό µπορεί να δώσει ένα διαφορετικό µοντέλο µε αντίθετα συµπεράσµατα. Συνήθως δεν µπορούµε να βγάλουµε ασφαλή συµπεράσµατα για την καταλληλότητα ενός µοντέλου χρησιµοποιώντας τα συνήθη στατιστικά, όπως ο συντελεστής προσδιορισµού R και τα στατιστικά F και t. Οι διαγνωστικές µέθοδοι που χρησιµοποιούµε για την εξέταση των υποθέσεων ενός µοντέλου και κυρίως των παλινδροµικών µοντέλων είναι ως επί τω πλείστον γραφικές και βασίζονται στην ανάλυση των υπολοίπων (σφαλµάτων) του µοντέλου [1]. 3. Ορισµός Το υπόλοιπο (σφάλµα) ορίζεται ως η διαφορά e = y ˆ - y, = 1,,..., n όπου y είναι η -οστή παρατήρηση και ŷ είναι η αντίστοιχη -οστή προσαρµοσµένη τιµή που προσδιορίζεται από την εξίσωση παλινδρόµησης που έχουµε εκτιµήσει από τα δεδοµένα µας. Τα υπόλοιπα εκφράζουν τις αποκλίσεις των πραγµατικών παρατηρήσεων από την ευθεία παλινδρόµησης που έχουµε προσαρµόσει στο δεδοµένα µας και αποτελούν µετρήσεις της µεταβλητότητας της µεταβλητής Y που δεν εξηγείται από το µοντέλο. Η ανάλυση των υπολοίπων είναι ένας αποτελεσµατικός τρόπος για να ανακαλύψουµε ενδεχόµενες αποκλίσεις του µοντέλου από τις βασικές υποθέσεις. Με τη δηµιουργία γραφηµάτων υπολοίπων µπορούµε να διερευνήσουµε πόσο ικανοποιητικά προσαρµόζεται το παλινδροµικό µας µοντέλο στα δεδοµένα και να ελέγξουµε τις υποθέσεις που είδαµε παραπάνω []. Τα υπόλοιπα έχουν διάφορες σηµαντικές ιδιότητες. Έχουν µέση τιµή µηδέν και η διακύµανσή τους εκτιµάται από τη σχέση: n - n e - e e =1 =1 SSRes = = = MSRes n - p n - p n - p (3.1) Τα υπόλοιπα δεν είναι ανεξάρτητα πράγµα που όµως δεν έχει σηµαντική επίδραση στη χρήση τους για τον έλεγχο της καταλληλότητας του µοντέλου, εφόσον το µέγεθος του δείγµατος δεν είναι µικρό σε σχέση µε τον αριθµό των παραµέτρων p []. 3.3 Ιδιότητες υπολοίπων Όπως είδαµε τα υπόλοιπα για το µοντέλο της πολλαπλής γραµµικής παλινδρόµησης ορίζονται από τη σχέση:

79 e = y - yˆ = ( I - H) y, όπου Ε e = (I 1 ) ( ) -Απόδειξη- ' -1 ' H = ( ) ( ) ( ) ( ) ( ) ( ) ( ) Ε e = Ε I - H y = I - H Ε y = I - H β = I - H β = β = (I ) Cov ( e) = σ ( I - H ) -Απόδειξη- ( e ' ) ( I - H ) y ( I - H ) ( y )( I - H ) Cov = Cov = Cov ' = ( I - H) σ I( I - H) = σ ( I - H) = σ ( I - H) Εποµένως ( ) ( ) Var e = σ 1- h και ( ) όπου H = ( h j),, j = 1,,..., n (Ι 3 ) Cov( e,yˆ ) = -Απόδειξη- Cov e,e = -σ h, j j j ( ˆ) ( ) ( ) ( ) ( I - H) ( y) H ( I - H) IH ( I - H) H Cov e,y = Cov I - H y, Hy = I - H Cov y,y H = = Var = σ = σ = ( ) ( ) = σ = σ = σ = H - H H - H (Ι 4 ) Cov ( e, y) = σ ( Ι - Η ) -Απόδειξη- ( e, y ) ( I - H ) y y ( I - H ) ( y,y ) ( I - H) ( y) ( I - H) I ( I - H) Cov = Cov, = Cov = = Var = σ = σ (Ι 5 ) Τα υπόλοιπα e ακολουθούν κανονική κατανοµή e N[,σ ( Ι - Η)] 3.4 Τύποι υπολοίπων Σε προηγούµενο κεφάλαιο είδαµε ότι για την κατασκευή γραφηµάτων υπολοίπων χρησιµοποιούµε τα τυποποιηµένα υπόλοιπα (standardzed resduals) ή τα studentzed υπόλοιπα. Με τη βοήθεια των παραπάνω υπολοίπων µπορούµε να εντοπίσουµε παρατηρήσεις που είναι ακραίες (outlers) και να ελέγξουµε τις υποθέσεις 1-5 που διατυπώσαµε νωρίτερα. Ας δούµε τους κυριότερους τύπους υπολοίπων που χρησιµοποιούνται για τα γραφήµατα υπολοίπων. Επειδή αναφερθήκαµε εκτενώς στα τυποποιηµένα υπόλοιπα θα δώσουµε µερικές σύντοµες πληροφορίες γι αυτά και θα ασχοληθούµε λεπτοµερέστερα µε τους άλλους τύπους.

80 3.4.1 Τυποποιηµένα υπόλοιπα (Standardzed Resduals) Τα τυποποιηµένα υπόλοιπα προκύπτουν από την διαίρεση των υπολοίπων e µε την τετραγωνική ρίζα του µέσου τετραγώνου του αθροίσµατος των υπολοίπων MS Res, δηλαδή: e d =, = 1,,..., n (3.) MS Res Τα τυποποιηµένα υπόλοιπα έχουν µέση τιµή µηδέν και διακύµανση µονάδα. Αν η τιµή ενός τυποποιηµένου υπολοίπου είναι µεγαλύτερη από 3 ( d ) σοβαρή ένδειξη ότι η αντίστοιχη παρατήρηση είναι ακραία []. > 3 τότε έχουµε 3.4. Studentzed υπόλοιπα Έχουµε δει ότι το διάνυσµα των υπολοίπων δίνεται και από τη σχέση: e =( I - H) y (3.3) όπου ' -1 ' H = ( ) είναι ο πίνακας καπέλο. Ο πίνακας H έχει ορισµένες πολύ ' χρήσιµες ιδιότητες. Είναι συµµετρικός ( H = H ) και ισχύει HH = H. Οµοίως ο πίνακας I - H είναι συµµετρικός και ισχύει (I - H)(I - H) = I - H. Αντικαθιστώντας στη σχέση 3.3 όπου y = β + ε έχουµε: ( )( ) ( ) e = I - H β + ε = β - Hβ + I - H ε = -1 ' ' ( ) ( ) ( ) = β - β + I - H ε = I - H ε (3.4) Οπότε, τα υπόλοιπα είναι ο ίδιος γραµµικός µετασχηµατισµός των παρατηρήσεων y και των σφαλµάτων e. Ο πίνακας διακυµάνσεων-συνδιακυµάνσεων των υπολοίπων είναι: ' ( ) ( ) ( ) ( )( ) ( ) Var e = Var I - H ε = I - H Var ε I - H = σ I - H (3.5) Var ε όπου ( ) = σ I και I - H είναι συµµετρικός πίνακας. Ακόµη ο πίνακας I - H είναι γενικά µη διαγώνιος, πράγµα που σηµαίνει ότι τα υπόλοιπα έχουν διαφορετικές διακυµάνσεις και ότι είναι συσχετισµένα []. Η διακύµανση του -στου υπολοίπου ισούται µε: ( ) ( ) Var e = σ 1- h (3.6)

81 όπου h είναι το -στο διαγώνιο στοιχείο του πίνακα H. Η συνδιακύµανση µεταξύ των υπολοίπων e και e j είναι: Cov( e,e j) = -σ h j (3.7) όπου hj είναι το j-στό στοιχείο του πίνακα H. Επίσης ισχύει µέσου τετραγώνου των υπολοίπων hj 1, η χρήση του MS Res για την εκτίµηση της διακυµάνσεως των υπολοίπων έχει ως αποτέλεσµα την υπερεκτίµηση της διακύµανσης Var( e ). Επιπρόσθετα, δεδοµένου ότι h είναι η µέτρηση της θέσης του -στού σηµείου στο διάστηµα x, η διακύµανση του e εξαρτάται από το σηµείο που βρίσκεται το σηµείο x. Γενικά, σηµεία που βρίσκονται στο µέσο του διαστήµατος x έχουν µεγαλύτερες διακυµάνσεις από εκείνα που είναι περισσότερο αποµακρυσµένα. Αξίζει να σηµειωθεί ότι παραβιάσεις των υποθέσεων του µοντέλου είναι πιθανότερο να παρατηρηθούν στα σηµεία που είναι αποµακρυσµένα οι οποίες µάλιστα είναι δύσκολο να ανακαλυφθούν µε τη χρήση των κοινών υπολοίπων e ή ακόµη και των τυποποιηµένων υπολοίπων d. Αυτό συµβαίνει γιατί συνήθως τα παραπάνω υπόλοιπα έχουν µικρότερη τιµή []. Για να αντιµετωπιστούν τέτοιου είδους προβλήµατα, µια λογική διαδικασία είναι η διερεύνηση των studentzed υπολοίπων, τα οποία δίνονται από τη σχέση: e r =, = 1,,...n (3.8) MS 1- h Res ( ) Τα studentzed υπόλοιπα έχουν σταθερή διακύµανση Var( r ) θέση του = 1 ανεξάρτητα από τη x όταν το µοντέλο είναι σωστό. Πολλές φορές η διακύµανση των υπολοίπων σταθεροποιείται, ειδικά όταν έχουµε µεγάλο αριθµό δεδοµένων. Σ αυτές τις περιπτώσεις παρατηρείται µια µικρή διαφορά ανάµεσα στα τυποποιηµένα και τα studentzed υπόλοιπα. Γενικά πάντως τα τυποποιηµένα και studentzed υπόλοιπα µεταφέρουν κοινή πληροφορία. Ωστόσο, από τη στιγµή που κάποιο σηµείο µε µεγάλο υπόλοιπο και υψηλή τιµή h επιδρά στην προσαρµογή των ελαχίστων τετραγώνων, είναι σωστό η εξέταση για την ισχύ ή µη των υποθέσεων της παλινδρόµησης να πραγµατοποιείται µε τη βοήθεια των studentzed υπολοίπων []. Στην περίπτωση της απλής γραµµικής παλινδρόµησης όπου έχουµε µόνο µια επεξηγηµατική µεταβλητή, τα studentzed υπόλοιπα δίνονται από τον τύπο:

82 r = e - x - x 1 MS Res 1- + n Sxx, = 1,,..., n []. (3.9) Deleted ή PRESS υπόλοιπα Είδαµε προηγουµένως ότι τα τυποποιηµένα και τα studentzed υπόλοιπα είναι αποτελεσµατικά για την ανακάλυψη ακραίων τιµών. Μια άλλη προσέγγιση όπου τα υπόλοιπα είναι χρήσιµα για την εύρεση ακραίων τιµών είναι η ποσότητα η οποία ˆ () υπολογίζεται από τη σχέση y - y, όπου ŷ() είναι η προσαρµοσµένη τιµή της -οστής απόκρισης που βασίζεται σ όλες τις παρατηρήσεις εκτός από την.η λογική πίσω από αυτό είναι ότι αν η -οστή παρατήρηση y είναι πραγµατικά ασυνήθιστη τότε το παλινδροµικό µοντέλο που βασίζεται στο σύνολο των παρατηρήσεων µπορεί να επηρεάζεται δραµατικά από τη συγκεκριµένη παρατήρηση. Αυτή µπορεί να δηµιουργήσει µια προσαρµοσµένη τιµή ŷ που να ναι περίπου ίδια µε την πραγµατική αρχική τιµή y, πράγµα που συνεπάγεται ότι η τιµή του υπολοίπου e θα είναι µικρή. Ωστόσο, αν η -οστή παρατήρηση διαγραφεί, τότε η τιµή y( ) δεν µπορεί να επηρεαστεί από τη συγκεκριµένη παρατήρηση, οπότε το υπόλοιπο που προκύπτει ενδέχεται να υποδηλώνει την παρουσία ακραίας τιµής. Αν διαγράψουµε την -οστή παρατήρηση, τότε προσαρµόζουµε το µοντέλο παλινδρόµησης στις εναποµείνουσες n -1 παρατηρήσεις και υπολογίζουµε την προβλεπόµενη τιµή της (σφάλµα) σ αυτή τη περίπτωση ισούται µε: y ως προς τη διαγραφείσα παρατήρηση. Το υπόλοιπο e = y ˆ - y () (3.1) Ο υπολογισµός του προβλεπόµενου υπολοίπου (predcton error) επαναλαµβάνεται για κάθε παρατήρηση = 1,,..., n και τα υπόλοιπα που προκύπτουν καλούνται PRESS υπόλοιπα ή διαγραµµένα (deleted) υπόλοιπα. Τα συγκεκριµένα υπόλοιπα ονοµάζονται PRESS γιατί για τον υπολογισµό τους χρησιµοποιούµε το άθροισµα των τετραγώνων των προβλεπόµενων υπολοίπων. Με µια πρώτη µατιά φαίνεται ότι ο υπολογισµός των PRESS υπολοίπων απαιτεί την προσαρµογή n διαφορετικών µοντέλων παλινδρόµησης. Ωστόσο, είναι

83 πιθανό ο υπολογισµός των PRESS υπολοίπων να πραγµατοποιείται µε τη βοήθεια των αποτελεσµάτων από µια απλή εφαρµογή της µεθόδου των ελαχίστων τετραγώνων στο σύνολο των n παρατηρήσεων. Το -στο PRESS υπόλοιπο ισούται µε: e =, = 1,,..., n (3.11) 1- h ( ) e Από τη σχέση 3.11 γίνεται εύκολα αντιληπτό ότι το PRESS υπόλοιπο είναι ίσο µε το συνηθισµένο υπόλοιπο e σταθµισµένο ως προς τα διαγώνια στοιχεία του πίνακα H. Υπόλοιπα που σχετίζονται µε σηµεία των οποίων οι τιµές h είναι υψηλές, έχουν και υψηλές τιµές PRESS (υπολοίπων). Αυτά τα σηµεία χαρακτηρίζονται γενικά ως υψηλής επίδρασης (σηµεία). Τέλος, η διακύµανση του -στού PRESS υπολοίπου ισούται µε: e 1 σ ( ) 1- h 1- h Var e ( ) = Var = σ 1- h = ( 1- h) Και το τυποποιηµένο PRESS υπόλοιπο δίνεται από: e e ( ) (1- h ) e = = Var e σ ( 1- h ) σ ( 1- h ) ( ) (3.1) (3.13) όπου, αν χρησιµοποιήσουµε την ποσότητα MSRes για να εκτιµήσουµε τη διακύµανση σ προκύπτει το studentzed υπόλοιπο στο οποίο αναφερθήκαµε αναλυτικά προηγουµένως []. 3.5 Γραφήµατα υπολοίπων Οι γραφικές µέθοδοι διαδραµατίζουν ένα σηµαντικό ρόλο στην ανάλυση δεδοµένων. Η ανάλυση των υπολοίπων µε τη βοήθεια γραφηµάτων αποτελεί µια πολύ αποτελεσµατική µέθοδο για να διερευνήσουµε την καταλληλότητα ενός µοντέλου παλινδρόµησης το οποίο έχουµε προσαρµόσει στα δεδοµένα µας. Γενικά, µε τη βοήθεια γραφικών µεθόδων µπορούµε να: α) ανιχνεύσουµε σφάλµατα στα δεδοµένα (π.χ ένα αποµακρυσµένο σηµείο από το νέφος των υπολοίπων σηµείων µπορεί να οφείλεται σε λάθος πληκτρολόγησης) β) αναγνωρίσουµε πρότυπα στα δεδοµένα (π.χ συστάδες σηµείων, ακραίες τιµές κ.λ.π.) γ) διερευνήσουµε θέσεις µεταξύ µεταβλητών

84 δ) ανακαλύψουµε καινούργια φαινόµενα ε) επιβεβαιώσουµε ή να αναιρέσουµε υποθέσεις στ) ελέγξουµε την καταλληλότητα ενός µοντέλου ζ) προτείνουµε τρόπους «θεραπείας» (π.χ. µετασχηµατισµός δεδοµένων, συλλογή νέων δεδοµένων, επανασχεδιασµός του πειράµατος κ.λ.π) η) επαυξήσουµε τις αριθµητικές µεθόδους γενικά Συνήθως τα γραφήµατα που χρησιµοποιούµε στην ανάλυση δεδοµένων χωρίζονται σε δύο µεγάλες κατηγορίες: 1) Στα γραφήµατα πριν τη προσαρµογή του µοντέλου τα οποία είναι εξαιρετικά χρήσιµα για τη διόρθωση λαθών και στην απόφαση επιλογής ενός µοντέλου ) Στα γραφήµατα µετά την προσαρµογή ενός µοντέλου τα οποία µας βοηθούν να ελέγξουµε τις υποθέσεις του µοντέλου σ ότι αφορά στον έλεγχο της καλής προσαρµογής του [3]. Στη συνέχεια θα παρουσιάσουµε τα βασικότερα γραφήµατα υπολοίπων. Τα γραφήµατα αυτά µπορούν να δηµιουργηθούν πολύ εύκολα µε τη βοήθεια διαφόρων στατιστικών πακέτων. Πρέπει να τονιστεί ότι γραφήµατα υπολοίπων πρέπει να εξετάζονται σε κάθε περίπτωση προσαρµογής µοντέλων παλινδρόµησης σε δεδοµένα. Είναι ακόµη χρήσιµο να σχεδιάζουµε γραφήµατα µε τη βοήθεια των απλών υπολοίπων καθώς και µε τη χρήση των τυποποιηµένων ή των studentzed υπολοίπων. Συνήθως χρησιµοποιούµε τα studentzed υπόλοιπα επειδή έχουν σταθερή διασπορά [] Γραφήµατα πριν τη προσαρµογή ενός µοντέλου Πριν προχωρήσουµε στην παρουσίαση των γραφηµάτων υπολοίπων θα παρουσιάσουµε εν συντοµία τα γραφήµατα που χρησιµοποιούµε πριν την προσαρµογή ενός µοντέλου στα δεδοµένα. Πρόκειται συνήθως για µονοδιάστατα ή διδιάστατα γραφήµατα που αποτελούν έναν αρχικό οδηγό µε τη βοήθεια του οποίου µπορούµε να αποφύγουµε σοβαρά λάθη στην επιλογή ενός µοντέλου παλινδρόµησης [3] Μονοδιάστατα γραφήµατα Η ανάλυση δεδοµένων ξεκινά µε την εξέταση κάθε µεταβλητής χωριστά. Αυτό πραγµατοποιείται για να έχουµε γενικά µια εικόνα για την κατανοµή κάθε µιας

85 από τις µεταβλητές. Ένα από τα παρακάτω γραφήµατα χρησιµοποιούνται για την εξέταση µίας µεταβλητής: α) Ιστόγραµµα συχνοτήτων (Hstogram) β) Φυλλογράφηµα (Stem and leaf plot) γ) ιάγραµµα σηµείων (Dot plot) δ) Θηκόγραµµα (Box plot) Τα µονοδιάστατα γραφήµατα υπηρετούν δύο βασικές λειτουργίες. Μας αποκαλύπτουν την µορφή της κατανοµής κάθε µεταβλητής χωριστά πληροφορώντας µας αν αυτή είναι συµµετρική ή ασύµµετρη. Όταν µια µεταβλητή παρουσιάζει υψηλό βαθµό ασυµµετρίας πρέπει να µετασχηµατιστεί. Ο µετασχηµατισµός που συνήθως επιλέγουµε σε αυτές τις περιπτώσεις είναι ο λογαριθµικός. Εποµένως τα µονοδιάστατα γραφήµατα αποτελούν οδηγό στο να αποφασίσουµε αν στη συνέχεια της ανάλυσης θα εργαστούµε µε τις αρχικές ή τις µετασχηµατισµένες µεταβλητές. Παράλληλα αυτού του είδους τα γραφήµατα υποδεικνύουν την παρουσία ή µη ακραίων τιµών στις µεταβλητές. Αν εντοπιστούν ακραίες τιµές οφείλουµε να ελέγξουµε αν αυτές οφείλονται σε λάθη πληκτρολόγησης ανατρέχοντας στην πηγή των δεδοµένων µας. Αν µετά τον έλεγχο συνεχίζουν να υφίστανται ακραίες τιµές προχωράµε στην ανάλυσή µας. Καµία παρατήρηση δεν µπορεί να διαγραφεί σε αυτό το στάδιο απλά οι έκτροπες παρατηρήσεις επισηµαίνονται και καταγράφονται [3] ιδιάστατα γραφήµατα Στην περίπτωση που έχουµε πολυµεταβλητά δεδοµένα θα πρέπει να δηµιουργήσουµε και να εξετάσουµε ένα γράφηµα µε τον ίδιο αριθµό διαστάσεων όσες και οι µεταβλητές του φαινοµένου που µελετάµε. Είναι προφανές ότι αυτό είναι εφικτό µόνο στην περίπτωση που έχουµε µικρό αριθµό µεταβλητών (έως και 3). Ωστόσο, µπορούµε να δηµιουργήσουµε διαγράµµατα διασποράς µεταβλητών ανά δύο και να διερευνήσουµε την ύπαρξη ή µη συσχέτισης µεταξύ κάθε µεταβλητής µε όλες τις υπόλοιπες. Κατ αυτό τον τρόπο προκύπτουν τα πολλαπλά διαγράµµατα διασποράς τα οποία µελετήσαµε στο κεφαλαίο 4 [3] Γραφήµατα µετά την προσαρµογή του µοντέλου - Γραφήµατα υπολοίπων Τα γραφήµατα µετά την προσαρµογή ενός µοντέλου χρησιµοποιούνται για τον έλεγχο των υποθέσεων του µοντέλου παλινδρόµησης. Τα γραφήµατα αυτά µπορούν να οµαδοποιηθούν στις ακόλουθες κύριες κατηγορίες:

86 α) Γραφήµατα για των έλεγχο των προϋποθέσεων της γραµµικότητας και της κανονικότητας β) Γραφήµατα για τον προσδιορισµό ακραίων τιµών ή παρατηρήσεων επίδρασης γ) ιαγνωστικά γραφήµατα για τη διερεύνηση της επίδρασης των µεταβλητών [3] Πιθανοθεωρητικά γραφήµατα P-P ( ormal Probablty Plot) Μικρές αποκλίσεις από τη υπόθεση της κανονικότητας δεν επηρεάζουν σε σηµαντικό βαθµό το µοντέλο παλινδρόµησης που έχουµε εκτιµήσει. Αντίθετα οι µεγάλες αποκλίσεις από την κανονικότητα αποτελούν σοβαρό πρόβληµα, δεδοµένου ότι τα στατιστικά t και F καθώς και τα αντίστοιχα διαστήµατα εµπιστοσύνης και πρόβλεψης βασίζονται στην ύπαρξη κανονικότητας. Επιπρόσθετα, αν τα υπόλοιπα παρουσιάζουν πλατύκυρτη κατανοµή µε περισσότερο «βαριές» ουρές σε σχέση µε την κανονική τότε η προσαρµογή µέσω των ελαχίστων τετραγώνων είναι ιδιαίτερα ευαίσθητη σε ένα µικρό υποσύνολο των δεδοµένων. Αυτό έχει ως αποτέλεσµα την εµφάνιση ακραίων ή έκτροπων τιµών που αποτελεί µια κατάσταση άκρως ανεπιθύµητη. Σ αυτές τις περιπτώσεις οι τεχνικές εκτίµησης που χρησιµοποιούνται είναι γνωστές ως ανθεκτικές (robust regresson methods) η παρουσίαση των οποίων δεν αποτελεί αντικείµενο της παρούσας εργασίας. Μια απλή υπόθεση για τον έλεγχο της υπόθεσης της κανονικότητας είναι η κατασκευή ενός πιθανοθεωρητικού P-P γραφήµατος των υπολοίπων του µοντέλου. Πρόκειται για ένα γράφηµα το οποίο σχεδιάζεται κατά τρόπο τέτοιο ώστε η αθροιστική κανονική κατανοµή να παριστάνεται µε µια ευθεία διαγώνια γραµµή. Έστω e [ ] < e 1 [ ] <... < e [ n] είναι τα υπόλοιπα τα οποία έχουν ταξινοµηθεί κατ αύξουσα φυσική σειρά. Αν σχεδιάσουµε τα υπόλοιπα e [ ] ως προς την αθροιστική πιθανότητα 1 ( - ) p =, n = 1,,...n σ ένα Ρ-Ρ γράφηµα τα σηµεία που προκύπτουν σχηµατίζουν περίπου µια ευθεία γραµµή. Στο σύνολο των στατιστικών προγραµµάτων η ευθεία γραµµή σχεδιάζεται εξαρχής και πάνω (ή πολύ κοντά) τοποθετούνται τα σηµεία που προαναφέραµε. Ουσιαστικές αποκλίσεις των σηµείων από την ευθεία διαγώνιο γραµµή υποδεικνύουν ότι η κατανοµή των υπολοίπων δεν είναι κανονική. Τούτο σηµαίνει ότι η υπόθεση της κανονικότητας παραβιάζεται. Ορισµένες φορές τα Ρ-Ρ γραφήµατα κατασκευάζονται σχεδιάζοντας τα ταξινοµηµένα

87 κατ αύξουσα φυσική σειρά e [ ] ως προς τις αναµενόµενες «κανονικές» τιµές Φ -1 ( - 1 ) n, όπου Φ είναι η τυποποιηµένη αθροιστική κανονική κατανοµή. ( ) Αυτό προκύπτει από το γεγονός ότι E e[ ] ( - 1 ) -1. Φ Το γράφηµα (α) αποτελεί ένα ιδανικό Ρ-Ρ γράφηµα όπου τα υπόλοιπα ακολουθούν κανονική κατανοµή. Παρατηρούµε ότι τα σηµεία τοποθετούνται πάνω και κατά µήκος της οριζόντιας γραµµής. Αντίθετα τα γραφήµατα (β) έως (ε) παρουσιάζουν προβλήµατα και οι µορφές των γραφικών τους παραστάσεων αποτελούν σοβαρές ενδείξεις για απόκλιση από την υπόθεση της κανονικότητας. Τα γραφήµατα (β) και (γ) δείχνουν ότι τα υπόλοιπα προέρχονται από κατανοµή λεπτόκυρτη και πλατύκυρτη αντίστοιχα. Οµοίως τα γραφήµατα (δ) και (ε) παρουσιάζουν πρότυπα που σχετίζονται µε έντονη θετική και αρνητική ασυµµετρία. Τούτο σηµαίνει ότι τα υπόλοιπα δεν ακολουθούν κανονική κατανοµή. n Γράφηµα 3.1 Περιπτώσεις πιθανοθεωρητικών P-P γραφηµάτων των υπολοίπων

88 Πρέπει να σηµειωθεί ότι µικρά δείγµατα ( n 16) δηµιουργούν πολύ συχνά Ρ- Ρ γραφήµατα που παρεκκλίνουν ουσιαστικά από τη γραµµικότητα. Σε µεγάλα δείγµατα ( n 3) τα Ρ-Ρ γραφήµατα έχουν καλύτερη συµπεριφορά. Συνήθως ένας αριθµός σηµείων απαιτείται για να δηµιουργήσουµε ένα σταθερό και ικανοποιητικό Ρ-Ρ γράφηµα [] Γραφήµατα υπολοίπων σε χρονική ακολουθία (Plot of Resdual n Tme Sequence) Αν η χρονική ακολουθία µε την οποία έχουµε συλλέξει τα δεδοµένα είναι γνωστή µπορούµε να δηµιουργήσουµε το γράφηµα των υπολοίπων ως προς το χρόνο. Ειδικότερα στον κάθετο άξονα ' xx τις χρονικές στιγµές (διάταξη χρόνου). ' yy τοποθετούµε τα υπόλοιπα e και στο οριζόντιο Σε περίπτωση που τα υπόλοιπα κατανέµονται κατά µήκος και εντός µιας οριζόντιας ζώνης - όπως αποτυπώνεται στο γράφηµα (α) είναι προφανές ότι δεν υπάρχουν φανερές ατέλειες στο µοντέλο. Σ αυτού του είδους τα σχήµατα είναι ενδεικτικό ότι µια µακροχρόνια χρονική επίδραση δεν επηρεάζει τα δεδοµένα (ή αν τα επηρεάζει η επίδραση έχει κάπως ερµηνευτεί από µια επεξηγηµατική µεταβλητή η οποία επίσης υπόκειται σε µια χρονική επίδραση). Αντίθετα, στο γράφηµα (β) φαίνεται ότι η διασπορά δεν είναι σταθερή αλλά αυξάνεται µε το χρόνο, που σηµαίνει ότι µια ανάλυση σταθµισµένων ελαχίστων τετραγώνων θα έπρεπε να είχε χρησιµοποιηθεί. Οµοίως στο γράφηµα (γ) η διασπορά αυξάνεται σε συνάρτηση µε το χρόνο. Η παρέκκλιση από την εξίσωση προσαρµογής είναι φανερή. Τέλος στο γράφηµα (δ) παρατηρούµε ότι τα υπόλοιπα δηµιουργούν µια καµπύλη που υποδεικνύει τη µη ύπαρξη γραµµικότητας [1]. Γράφηµα 3. Περιπτώσεις προτύπων σε γραφήµατα υπολοίπων (α) (β)

89 (γ) (δ) Τα γραφήµατα υπολοίπων σε χρονική ακολουθία υποδεικνύουν αν τα υπόλοιπα σε µια χρονική περίοδο µπορούν να συσχετίζονται µε άλλα σε διαφορετικές χρονικές περιόδους. Η συσχέτιση µεταξύ των υπολοίπων του µοντέλου σε διαφορετικές χρονικές περιόδους καλείται αυτοσυσχέτιση (autocorrelaton).η ύπαρξη αυτοσυσχέτισης (είτε θετικής είτε αρνητικής) αποτελεί δυνητικά µια σοβαρή παραβίαση των βασικών υποθέσεων του παλινδροµικού µοντέλου [] Γράφηµα υπολοίπων ως προς τις προσαρµοσµένες τιµές y (Plot of Resdual aganst the Ftted values y ) Ένα γράφηµα των υπολοίπων e (ή οποιωνδήποτε άλλων από τους γνωστούς τύπους υπολοίπων) ως προς τις αντίστοιχες προσαρµοσµένες τιµές y είναι χρήσιµο για να ελέγξουµε ορισµένες από τις συνήθεις παραβιάσεις των υποθέσεων ενός µοντέλου παλινδρόµησης. Αν ένα γράφηµα έχει τη µορφή της εικόνας (α) πράγµα που σηµαίνει ότι τα υπόλοιπα κατανέµονται κατά µήκος και εντός µιας οριζόντιας ζώνης τότε είναι προφανές ότι το παλινδροµικό µοντέλο που έχουµε προσαρµόσει στα δεδοµένα µας είναι ικανοποιητικό υπό την έννοια ότι δεν έχουµε παραβιάσεις των βασικών του υποθέσεων. Αν ένα γράφηµα υπολοίπων προσαρµοσµένες τιµές e ως προς τις y προσοµοιάζει µε κάποιο από τα πρότυπα των εικόνων (β) έως (δ) τότε είναι βέβαιο ότι έχουµε σηµαντικές παραβιάσεις των υποθέσεων του παλινδροµικού µοντέλου []. Συγκεκριµένα τα πρότυπα που εµφανίζονται στις εικόνες (β) και (γ) υποδεικνύουν ότι η διακύµανση των υπολοίπων δεν είναι σταθερή. Το πρότυπο του «προς τα έξω ανοιχτού χωνιού» που εµφανίζεται στην εικόνα (β) υπονοεί ότι η διακύµανση των υπολοίπων είναι µια αύξουσα συνάρτηση των y. Οµοίως το πρότυπο του «προς τα µέσα ανοιχτού χωνιού» δείχνει ότι η διακύµανση των

90 υπολοίπων αυξάνεται όσο οι τιµές y µειώνονται. Πολύ συχνά προκύπτουν πρότυπα µε τη µορφή «διπλού τόξου» όπως φαίνεται στην εικόνα (γ). Τούτο συµβαίνει όταν τα y είναι αναλογίες µε τιµές µεταξύ και 1. Η συνήθης προσέγγιση για να αντιµετωπίσουµε την ανισότητα στη διακύµανση των υπολοίπων e είναι να χρησιµοποιήσουµε κατάλληλο µετασχηµατισµό είτε στη µεταβλητή απόκρισης είτε σε κάποια ή κάποιες από τις επεξηγηµατικές µεταβλητές. Γενικά, προτιµούµε να µετασχηµατίσουµε τη µεταβλητή απόκρισης Y για να σταθεροποιήσουµε την διακύµανση []. Ένα καµπυλοειδές γράφηµα όπως αυτό της εικόνας (δ) υποδεικνύει την έλλειψη γραµµικότητας. Αυτό µπορεί να σηµαίνει ότι και άλλες επεξηγηµατικές µεταβλητές χρειάζονται να ενταχθούν στο µοντέλο. Για παράδειγµα, ένας όρος µεταβλητή υψωµένη στο τετράγωνο µπορεί να ναι αναγκαία. Σε τέτοιες περιπτώσεις χρήσιµοι µπορεί να αποδειχθούν µετασχηµατισµοί της µεταβλητής απόκρισης ή των επεξηγηµατικών µεταβλητών []. Γράφηµα 3.3 Πρότυπα γραφηµάτων υπολοίπων ως προς τις y (οµοίως και για x )

91 Ακόµη ένα γράφηµα των υπολοίπων e ως προς τα y µπορεί να αποκαλύψει ένα ή περισσότερα ασυνήθιστα µεγάλα υπόλοιπα. Αυτά τα σηµεία µπορεί να αποτελούν ενδεχοµένως ακραίες ή έκτροπες παρατηρήσεις. Μεγάλα υπόλοιπα που απαντώνται σε ακραίες τιµές y µπορούν να υποδεικνύουν ότι είτε η διακύµανση δεν είναι σταθερή, είτε ότι η σχέση µεταξύ της Y και των δεν είναι γραµµική. Αυτές οι πιθανότητες είναι απαραίτητο να διερευνηθούν πριν τα σηµεία αυτά χαρακτηριστούν ως ακραία ή έκτροπα []. Παρατήρηση Κατασκευάζουµε το γράφηµα των υπολοίπων e ως προς τις προσαρµοσµένες τιµές y και όχι ως προς τις παρατηρούµενες τιµές ασυσχέτιστα. Αντίθετα τα υπόλοιπα y επειδή τα υπόλοιπα e και e µε τις παρατηρούµενες τιµές ' συνήθως συσχετισµένα. Πράγµατι, γνωρίζουµε ότι ( ) -1 e = y - yˆ =( I - H) y. Επιπλέον υποθέτουµε ότι y Ν ( β,σ I) διάνυσµα ŷ = H y = My e I - H y είναι y είναι ' ŷ = βˆ = y = Hy και. ηµιουργούµε το επειδή το y ακολουθεί την πολυδιάστατη κανονική κατανοµή και το διάνυσµα My κατανέµεται κανονικά. Η αναµενόµενη τιµή του διανύσµατος My είναι: Ε ( My) = MΕ ( y) = H β β= I - H Ο πίνακας συνδιακύµανσης του My είναι: Var ( ) = Var( ) ' My M y M = σ H [ H I - H ] = I - H σ ( ) ( I - H) ( I - H) HH H I - H H = σ I - H εδοµένου ότι όλες οι διακυµάνσεις µεταξύ y και e κατανέµονται από κοινού κανονικά, οι προσαρµοσµένες τιµές y και τα υπόλοιπα e είναι ανεξάρτητα [1],[].

92 Γραφήµατα υπολοίπων ως προς τις επεξηγηµατικές µεταβλητές x j (Plot of Resduals aganst the Regressor) Η µορφή αυτών των γραφηµάτων είναι ίδια µε εκείνη των γραφηµάτων ως προς τις προσαρµοσµένες τιµές y µε τη διαφορά ότι τώρα χρησιµοποιούµε τις τιµές xjτης j-οστής επεξηγηµατικής µεταβλητής. Οι τιµές x j τοποθετούνται -όπως συµβαίνει και µε τις προσαρµοσµένες τιµές y - στον οριζόντιο άξονα του γραφήµατος. Για ακόµη µια φορά η συνολική εικόνα µιας οριζόντιας «ζώνης» των υπολοίπων εκλαµβάνεται ως ικανοποιητική (εικόνα α). Από την άλλη αν προκύψουν πρότυπα όπως αυτά των εικόνων (β) και (γ) τότε είναι φανερό ότι η διασπορά δεν είναι σταθερή και επιβάλλεται είτε ο µετασχηµατισµός της µεταβλητής απόκρισης Y, είτε η χρήση σταθµισµένων ελαχίστων τετραγώνων. Σε περίπτωση που προκύπτει κάποιο πρότυπο όπως αυτό της εικόνας (δ) όπου τα σηµεία δηµιουργούν καµπύλη πρέπει στο παλινδροµικό µοντέλο να προστεθεί ένας ακόµα όρος (ή όροι), για παράδειγµα ένας τετραγωνικός όρος της γράφηµα 3.3 σελίδα 74) []. ή να µετασχηµατίσουµε την Y (βλέπε Σε προβλήµατα παλινδρόµησης που περιλαµβάνουν δύο ή τρεις επεξηγηµατικές µεταβλητές είναι δυνατό να κατασκευάσουµε ένα διάγραµµα δύο ή τριών διαστάσεων στο οποίο θα τοποθετούνται τα σηµεία. Σε µια τέτοια περίπτωση µπορούµε να δηµιουργήσουµε το γράφηµα των σηµείων στα οποία λαµβάνονται οι παρατηρήσεις και να σηµειώσουµε τα υπόλοιπα δίπλα σ αυτό. Συχνά τα γραφήµατα αυτά δίνουν µια πολύ καλή οπτική θεώρηση της περίπτωσης που µελετάµε. Όταν έχουµε περισσότερες από τρεις επεξηγηµατικές µεταβλητές µπορούµε να κατασκευάσουµε γραφήµατα για υποσύνολα αυτών των µεταβλητών ή να µελετήσουµε κάθε επεξηγηµατική µεταβλητή ως προς τη µεταβλητή απόκρισης Y. Αυτού του είδους τα γραφήµατα είναι γνωστά ως γραφήµατα µερικής παλινδρόµησης και γραφήµατα µερικών υπολοίπων. (Partal Regresson and Partal Resdual plots) [1],[].

93 Γραφήµατα µερικής παλινδρόµησης και γραφήµατα µερικών υπολοίπων (Partal Regresson an Partal Resdual plots) α) Γραφήµατα µερικής παλινδρόµησης Με τα γραφήµατα µερικής παλινδρόµησης εξετάζουµε την περιθώρια επίδρασης µιας επεξηγηµατικής µεταβλητής j στο µοντέλο, δεδοµένης της ύπαρξης υπολοίπων επεξηγηµατικών µεταβλητών σ αυτό. ιαφορετικά, τα συγκεκριµένα γραφήµατα µπορούν να δοθούν ως γραφικές εκφράσεις του συντελεστή µερικής συσχέτισης µιας συγκεκριµένης επεξηγηµατικής µεταβλητής j µε τη µεταβλητή απόκρισης Y, αφού απαλειφθεί η γραµµική επίδραση των υπολοίπων επεξηγηµατικών µεταβλητών του µοντέλου παλινδρόµησης. Αυτού του είδους τα γραφήµατα δηµιουργήθηκαν από τους Monsteller και Tukey (1977) και αποτελούν τη γραφική εκδοχή της t στατιστικής [],[4]. Έστω ότι έχουµε ένα µοντέλο πολλαπλής παλινδρόµησης µε δύο επεξηγηµατικές µεταβλητές, δηλαδή: y = β +β1x 1 +βx + ε Αυτό που µας ενδιαφέρει είναι να µελετήσουµε τη φύση της περιθώριας σχέσης µεταξύ της επεξηγηµατικής µεταβλητής x 1 και της Y, αν δηλαδή η σχέση µεταξύ x 1 και Y ορίζεται επακριβώς. Αρχικά παλινδροµούµε την Y πάνω στην επεξηγηµατική µεταβλητή x και προκύπτουν οι προσαρµοσµένες τιµές και τα υπόλοιπα ως εξής: ( ) ŷ x = ˆ ϑ + ˆ ϑ x 1 e y = y - yˆ x x ( ), = 1,,..., n (3.14) Στη συνέχεια παλινδροµούµε την x πάνω στη x 1 και υπολογίζουµε τα υπόλοιπα: ( ) ˆx x = a ˆ + aˆ x 1 1 x e = x - xˆ x ( ) 1 x 1 1, = 1,,...n (3.15) Το γράφηµα µερικής παλινδρόµησης για την επεξηγηµατική µεταβλητή x 1 προκύπτει σχεδιάζοντας τα υπόλοιπα της µεταβλητής απόκρισης Y e y x ως προς τα υπόλοιπα της 1 e x x 1 x. Αν η µεταβλητή 1 x πραγµατικά εισάγεται στο µοντέλο γραµµικά τότε το γράφηµα µερικής παλινδρόµησης θα δείχνει µια γραµµική

94 σχέση, πράγµα που σηµαίνει ότι τα µερικά υπόλοιπα θα τοποθετούνται κατά µήκος µιας ευθείας γραµµής µε µη µηδενική κλίση. Η κλίση αυτής της γραµµής θα αποτελεί το συντελεστή παλινδρόµησης της x 1 στο µοντέλο πολλαπλής γραµµικής παλινδρόµησης. Αν στο γράφηµα µερικής παλινδρόµησης το νέφος των σηµείων δηµιουργεί µια καµπυλόγραµµη «ζώνη», τότε δεν υφίσταται γραµµικότητα και ενδεχοµένως ένας µετασχηµατισµός των δεδοµένων της x 1 να έδινε λύση στο πρόβληµα []. Είναι προφανές ότι το γράφηµα µερικής παλινδρόµησης είναι ένα γράφηµα υπολοίπων της Y έναντι της τις επεξηγηµατικές µεταβλητές εκτός της j από το οποίο η γραµµική εξάρτηση της Y από όλες j έχει αφαιρεθεί κάτι που ισχύει και για τη γραµµική εξάρτηση της j µε τις υπόλοιπες επεξηγηµατικές µεταβλητές. Στη γενική µορφή, θεωρούµε τις ποσότητες y e Χ (j) και x j e Χ (j) όπου είναι ο αυθεντικός πίνακας από τον οποίο έχει αφαιρεθεί η j-οστή επεξηγηµατική µεταβλητή. Έστω το µοντέλο: y = β + ε = β + β x + ε (3.16) ( j) j j Πολλαπλασιάζοντας τη σχέση (3.16) από αριστερά µε την ποσότητα I - H ( j) έχουµε: ( ( )) ( ) ( ) ( ) j( ( )) j ( ( )) I - H y = I - H β + β I - H x + I - H ε j j j j j ( ) ( ) Ισχύει I - H( j) =, οπότε j ( ( )) j ( ) ( ) j ( ( )) I - H y = β I - H x + I - H ε ή j j j x j e y = β je + ε x ( j) ( j) ( ) * * όπου ε = I - H( j) ε. Τούτο σηµαίνει ότι ένα γράφηµα µερικής παλινδρόµησης πρέπει να έχει κλίση β j []. β) Γραφήµατα µερικών υπολοίπων Ένα γράφηµα υπολοίπων που σχετίζεται στενά µε το γράφηµα µερικής παλινδρόµησης είναι το γράφηµα µερικών υπολοίπων. Αυτό το γράφηµα χρησιµοποιείται για να αποκαλύψει τη σχέση ανάµεσα στη µεταβλητή απόκλισης Y

95 και στις επεξηγηµατικές µεταβλητές επεξηγηµατικές µεταβλητές x 1, x,, για τη µεταβλητή e y * x j j j όπου x j ορίζονται ως εξής: = e + βˆ x, = 1,,..., n x, = 1,,..., n. Έστω ότι µοντέλο περιέχει τις x k. Τα µερικά υπόλοιπα (partal resduals) e είναι τα υπόλοιπα του µοντέλου περιλαµβανοµένων όλων των επεξηγηµατικών µεταβλητών. Όταν τα µερικά υπόλοιπα σχεδιάζονται ως προς τα x j το αποτέλεσµα είναι µια γραµµή κλίσης ˆβ j που αποτελεί το συντελεστή παλινδρόµησης (που σχετίζεται µε το x j ) του µοντέλου. Γενικά, η ερµηνεία του γραφήµατος µερικών υπολοίπων είναι παρόµοια µ αυτή του γραφήµατος µερικής παλινδρόµησης []. 3.6 Στατιστικά τεστ για υπόλοιπα Θα αναφερθούµε στα κυριότερα στατιστικά τεστ που αποτελούν ποσοτικές µεθόδους για να ελέγξουµε τις υποθέσεις του παλινδροµικού µοντέλου που συζητήσαµε παραπάνω. Γενικά πάντως ποσοτικές µέθοδοι για τον έλεγχο των υπολοίπων σ ένα µοντέλο παλινδρόµησης δεν χρησιµοποιούνται ευρέως. Στις περισσότερες περιπτώσεις τα γραφήµατα υπολοίπων δίνουν ικανοποιητικές πληροφορίες για την ισχύ ή όχι των υποθέσεων του µοντέλου. Ωστόσο, επειδή η µελέτη των γραφηµάτων υπολοίπων απαιτεί ικανότητα και εµπειρία, τα στατιστικά τεστ µπορεί να αποδειχθούν εξαιρετικά χρήσιµα σ ένα αρχάριο ερευνητή Έλεγχος της υπόθεσης της κανονικότητας Για τον έλεγχο της υπόθεσης της κανονικότητας των υπολοίπων και για µεγάλα δείγµατα ( n 3) χρησιµοποιούµε το τεστ των Kolmogorov-Smrnov. Συγκεκριµένα, χρησιµοποιώντας είτε τα απλά είτε τα τυποποιηµένα ή ακόµη και τα studentzed υπόλοιπα εφαρµόζουµε το στατιστικό κριτήριο Kolmogorov-Smrnov σ αυτά και ελέγχουµε την υπόθεση: H : Τα υπόλοιπα ακολουθούν την κανονική κατανοµή vs H 1: Αλλιώς

96 Σε περίπτωση που έχουµε µικρά δείγµατα ( n 15) τότε χρησιµοποιούµε το στατιστικό κριτήριο των Shapro-Wlk. Πρέπει να σηµειωθεί όταν το µέγεθος του δείγµατος είναι µικρό - δηλαδή κάτω των 15 - η κατανοµή των studentzed υπολοίπων είναι µια t κατανοµή, η οποία στα άκρα της έχει περισσότερες παρατηρήσεις από όσες έχει η κανονική κατανοµή. Γι αυτό προτιµούµε τα απλά ή τυποποιηµένα υπόλοιπα όταν ελέγχουµε την υπόθεση της κανονικότητας σε µικρά δείγµατα [4] Έλεγχος της υπόθεσης της ανεξαρτησίας Σειριακή συσχέτιση υπολοίπων Στην ανάλυση παλινδρόµησης υποθέτουµε ότι τα υπόλοιπα παρατήρησης είναι κατά ζεύγη ασυσχέτιστα. Αν η υπόθεση αυτή δεν ισχύει τότε αναµένουµε ότι τα γραφήµατα υπολοίπων σε χρονική σειρά ή σε κάποια άλλη λογική σειρά που ορίζεται από τις περιστάσεις, θα µας βοηθήσουν να τα αποκαλύψουµε. Υπάρχουν βέβαια διάφοροι τρόποι µε τους οποίους τα υπόλοιπα µπορεί να σχετίζονται. Ένας συνηθισµένος τρόπος είναι να ναι σειριακά συσχετισµένα πράγµα που σηµαίνει ότι οι συσχετίσεις µεταξύ των υπολοίπων που απέχουν S βήµατα είναι πάντοτε ίδιες [1] Στατιστικοί έλεγχοι για σειριακή συσχέτιση ύο γνωστοί τρόποι για τον έλεγχο υποδειγµάτων σειριακής συσχέτισης στα υπόλοιπα είναι ο έλεγχος ροών και ο έλεγχος των Durbn- Watson.. Θα παρουσιάσουµε παρακάτω τον έλεγχο που κατά κόρον χρησιµοποιείται και είναι αυτός των Durbn- Watson. [1]. α)έλεγχος Durbn- Watson Ο πλέον δηµοφιλής έλεγχος για τον εντοπισµό ενός συγκεκριµένου τύπου σειριακής συσχέτισης είναι αυτός των Durbn- Watson. Η ονοµασία προήλθε από τους δύο συγγραφείς οι οποίοι µελέτησαν τη χρήση του για τον έλεγχο των υπολοίπων στην παλινδρόµηση και παρήγαγαν κατάλληλους πίνακες το Αρχικά εφαρµόστηκε από τον van Heumann για προβλήµατα µη παλινδρόµησης το 1941 [1]. Έστω ότι προσπαθούµε να προσαρµόσουµε µε τη µέθοδο των ελαχίστων τετραγώνων, ένα γραµµικό µοντέλο

97 n y = β + β x + ε (3.17) u u u =1 Στις παρατηρήσεις ( x u, x 1u, x u,..., x ku), u = 1,,..., n. Συνήθως υποθέτουµε ότι τα υπόλοιπα eu είναι ανεξάρτητες µεταβλητές που ακολουθούν την κανονική κατανοµή N(, σ ) έτσι ώστε όλες οι σειριακές συσχετίσεις είναι p s =. Ουσιαστικά ελέγχουµε την υπόθεση: H : όλα τα p s = vs H 1: p = p s s ( p και p < 1), η οποία προκύπτει από την υπόθεση ότι τα υπόλοιπα τέτοια ώστε: e u = pe u-1 + z u όπου zu N(,σ ) εu είναι και είναι ανεξάρτητα των e u-1, e u-, και των z u-1, z u-, Επίσης ότι η µέση τιµή και η διακύµανση των e u είναι σταθερές ανεξάρτητες του u οπότε έπεται e σ N,. Η σχέση αυτή, κάτω από τη µηδενική υπόθεση H : p = 1 ρ u ανάγεται στην eu N(,σ ), u = 1,,...n Για να ελέγξουµε την υπόθεση H : p = έναντι της H 1 προσαρµόζουµε το µοντέλο της εξίσωσης (5.17) και βρίσκουµε τα υπόλοιπα e 1,e,...e n. Κατόπιν σχηµατίζουµε τη στατιστική: d = n u= ( e - e ) u u-1 n u=1 e u (3.18) και αποφασίζουµε αν θα απορρίψουµε ή όχι την H στηριζόµενοι στην τιµή της d. Μια τέτοια απόφαση είναι λίγο πολύπλοκη, διότι πρέπει να αναζητήσουµε δύο κρίσιµες τιµές αντί µιας µόνο. Επιπλέον, η d χρησιµοποιείται µόνο για έναν αριστερόπλευρο έλεγχο έναντι των εναλλακτικών υποθέσεων p >. Για να ελέγξουµε υποθέσεις έναντι των εναλλακτικών υποθέσεων p <, θεωρητικά

98 χρειαζόµαστε ένα δεξιόπλευρο έλεγχο, ο οποίος µπορεί να πραγµατοποιηθεί ως ένας αριστερόπλευρος έλεγχος χρησιµοποιώντας τη στατιστική ( 4 - d ) [1]. Γενικά, οι διαδικασίες ελέγχου είναι οι ακόλουθες: 1. Μονόπλευρος έλεγχος έναντι των εναλλακτικών p > Αν d < d 1 τότε η d είναι στατιστικά σηµαντική και απορρίπτουµε την H σε επίπεδο σηµαντικότητας α. 1-. Αν d > d u τότε η d δεν είναι στατιστικά σηµαντική και δεν απορρίπτουµε την H Αν d1 d du ο έλεγχος δεν είναι βάσιµος. Μονόπλευρος έλεγχος έναντι των εναλλακτικών p <. Πρόκειται για την ίδια διαδικασία µε την (1) χρησιµοποιώντας την στατιστική ( 4 - d) στη θέση της d. 3. ίπλευρος συµµετρικός έλεγχος έναντι των εναλλακτικών p 3-1. Αν d < d 1 ή 4 - d < d 1 τότε η d είναι στατιστικά σηµαντική και απορρίπτουµε την H σε επίπεδο σηµαντικότητας α. 3-. Αν d > d u και 4 - d > du τότε η d δεν είναι στατιστικά σηµαντική και δεν απορρίπτουµε την H σε επίπεδο σηµαντικότητας α. Σ όλες τις άλλες περιπτώσεις είναι µη βάσιµος Ακόµη πιο απλά για το δείκτη Durbn-Watson ισχύουν τα εξής; α) Λαµβάνει τιµές µεταξύ [, 4 ] β) Αν η τιµή του είναι κοντά στο 4 τότε τα διαδοχικά υπόλοιπα σχετίζονται και µάλιστα αρνητικά γ) Αν η τιµή του είναι κοντά στο τότε τα διαδοχικά υπόλοιπα σχετίζονται και µάλιστα αρνητικά δ) Αν η τιµή του κυµαίνεται µεταξύ 1,5 και,5 τότε τα διαδοχικά υπόλοιπα δε σχετίζονται και ικανοποιείται η υπόθεση της ανεξαρτησίας [1]. 3.7 PRESS Στατιστικό Γενικά Είδαµε στην παράγραφο τον ορισµό για τα deleted ή press υπόλοιπα τα οποία προσδιορίζονται από τη σχέση e = y ˆ - y ( ), όπου ŷ ( ) είναι η προβλεπόµενη

99 τιµή της -οστής απόκρισης που βασίζεται στο µοντέλο που έχουµε προσαρµόσει στα εναποµείναντα n -1 σηµεία. Έχουµε αναφέρει ακόµη ότι υψηλές τιµές των press υπολοίπων είναι χρήσιµες για να αποκαλύψουµε παρατηρήσεις στις οποίες το µοντέλο δεν προσαρµόζεται ικανοποιητικά ή παρατηρήσεις για τις οποίες το µοντέλο θα µας δώσει «φτωχές» προβλέψεις. Ο Allen (1971, 1974) πρότεινε τη χρήση του στατιστικού press που ορίζεται ως το άθροισµα των τετραγώνων των deleted ή press υπολοίπων ως µέτρο για τον έλεγχο της ποιότητας του µοντέλου που έχουµε εκτιµήσει. Το στατιστικό press δίνεται από τη σχέση: n n e 1- h ˆ ( ) (3.19) PRESS = y - y = =1 =1 Γενικά το στατιστικό PRESS θεωρείται µέτρο του πόσο ικανοποιητικά ένα µοντέλο παλινδρόµησης προβλέπει νέα δεδοµένα. Ένα παλινδροµικό µοντέλο µε µικρή τιµή PRESS είναι επιθυµητό [] είκτης προσδιορισµού δείκτη R για πρόβλεψη Το στατιστικό PRESS µπορεί να χρησιµοποιηθεί για τον προσδιορισµό του R για προβλέψεις ως εξής: PRESS R pred = 1- SS Ο παραπάνω δείκτης T (3.) R pred µας δίνει µια ένδειξη για την προβλεπτική ικανότητα του µοντέλου παλινδρόµησης που έχουµε εκτιµήσει. Οι τιµές που παίρνει ο δείκτης R pred κυµαίνονται µεταξύ και 1 και όσο πιο κοντά στη µονάδα είναι η τιµή του τόσο καλύτερη προβλεπτική αξία έχει το µοντέλο [] Χρήση στατιστικού PRESS για τη σύγκριση µοντέλων Η κυριότερη χρήση του στατιστικού PRESS είναι για να συγκρίνουµε µοντέλα παλινδρόµησης. Γενικά, ένα µοντέλο µε µικρή τιµή PRESS είναι προτιµότερο σε σχέση µε κάποιο που η PRESS τιµή του είναι µεγάλη. Όπως ήδη έχουµε αναφέρει ένα µοντέλο παλινδρόµησης µε µικρή τιµή PRESS έχει µεγαλύτερη προβλεπτική ικανότητα [].

100 3.8 Ακραίες ή έκτροπες τιµές (Outlers) Γενικά Ακραία ή έκτροπη τιµή (outler) µεταξύ των υπολοίπων θεωρείται εκείνη που κατ απόλυτη τιµή είναι αρκετά µεγαλύτερη από τις υπόλοιπες και ενδεχοµένως βρίσκεται σε απόσταση τριών ή τεσσάρων τυπικών αποκλίσεων από τη µέση τιµή των υπολοίπων. Μια ακραία τιµή αποτελεί ούτως ή άλλως ιδιοµορφία και υποδεικνύει ένα σηµείο των δεδοµένων που δεν είναι σε καµία περίπτωση αντιπροσωπευτικό του υπό µελέτη πληθυσµού. Γι αυτό το λόγο θα πρέπει να µελετηθεί προσεκτικά για να δούµε αν η αιτία της ιδιοµορφίας µπορεί να προσδιοριστεί [1],[]. Όπως έχουµε δει τα γραφήµατα υπολοίπων - κυρίως ως προς τις προβλεπόµενες τιµές ŷ( ) - καθώς και τα κανονικά Ρ-Ρ γραφήµατα µας βοηθούν να εντοπίσουµε ακραίες τιµές. Με τη µελέτη των τυποποιηµένων ή των studentzed υπολοίπων έχουµε την ικανότητα να βρούµε τέτοιου είδους «ιδιόµορφες» τιµές. Οι ακραίες τιµές πρέπει να διερευνώνται προσεχτικά για να δούµε αν η αιτία για την ασυνήθιστη συµπεριφορά τους µπορεί να εντοπιστεί. Μερικές φορές οι ακραίες τιµές αποτελούν «κακές» τιµές, που προκύπτουν από ασυνήθιστα αλλά ερµηνεύσιµα γεγονότα. Τέτοια είναι λάθη στη καταγραφή και καταχώρηση των δεδοµένων, λανθασµένη κωδικοποίηση των µεταβλητών (κυρίως σε ποιοτικές µεταβλητές) κλπ. Σ αυτές τις περιπτώσεις απαιτείται επανέλεγχος και διόρθωση των τιµών ή ακόµη και διαγραφή τους αν δεν είναι εφικτή η διόρθωση. Η απόρριψη των «κακών» τιµών είναι επιθυµητή δεδοµένου ότι η µέθοδος ελαχίστων τετραγώνων ωθεί την ευθεία παλινδρόµησης προς την ακραία τιµή καθώς ελαχιστοποιείται το άθροισµα των τετραγώνων των υπολοίπων. Ωστόσο, θα πρέπει να σηµειωθεί ότι θα πρέπει να υπάρχει ισχυρή µη στατιστική απόδειξη ότι η ακραία τιµή είναι πράγµατι «κακή» για να απαλλαγούµε απ αυτή []. Έχουν προταθεί κανόνες για την απόρριψη των ακραίων τιµών, αν δηλαδή αποφασίσουµε να εξαιρέσουµε την (τις) αντίστοιχη (ες) παρατήρηση (εις) από τα δεδοµένα - µετά την εξαίρεση των οποίων - πρέπει να αναλύσουµε ξανά τα δεδοµένα χωρίς αυτές. Η αυτόµατη απόρριψη των ακραίων τιµών δεν είναι πάντοτε µια σοφή απόφαση. Πολλές φορές οι ακραίες τιµές περιλαµβάνουν σηµαντικές πληροφορίες, που δεν υπάρχουν στα άλλα δεδοµένα, διότι προκύπτουν από ένα ασυνήθιστο συνδυασµό περιστάσεων που έχουν ζωτική σηµασία και απαιτείται συνεπώς

101 περαιτέρω διερεύνηση. Ως ένα γενικό κανόνα θα λέγαµε ότι οι ακραίες τιµές θα πρέπει να απορρίπτονται µόνο αν αποτελούν λάθη καταγραφής των δεδοµένων που αναφέραµε νωρίτερα. ιαφορετικά θα πρέπει να διερευνώνται προσεκτικά [1]. Εκτός από τη χρήση γραφηµάτων ποικίλα στατιστικά τεστ έχουν προταθεί για τον έλεγχο και την απόρριψη των ακραίων τιµών. Για παράδειγµα οι Burnett και Lews (1994) και Stefansky (1971, 197) έχουν προτείνει ένα κατά προσέγγιση τεστ για τον προσδιορισµό των ακραίων τιµών που βασίζεται στο µέγιστο κανονικό υπόλοιπο e n e =1 το οποίο είναι εξαιρετικά εύκολο να εφαρµοστεί. Ένα ακόµα τεστ που χρησιµοποιείται γι αυτό το σκοπό είναι εκείνο που βασίζεται στη χρήση του R- student [1]. Όπως είδαµε και στο κεφάλαιο 4 οι συνήθεις υπολογιστικές µέθοδοι που χρησιµοποιούνται για την ανίχνευση ακραίων τιµών είναι η απόσταση Mahalanobs D και η τιµή Leverage h που υπολογίζεται για κάθε περίπτωση (case). Αξίζει να σηµειωθεί ότι τα δύο παραπάνω µέτρα αγνοούν την µεταβλητή απόκρισης Y και οι υπολογισµοί τους στηρίζονται αποκλειστικά στη χρήση των τιµών των επεξηγηµατικών µεταβλητών x, = 1,,...n. Επειδή το ζήτηµα των ακραίων τιµών είναι σηµαντικό στην ανάλυση παλινδρόµησης θα προσθέσουµε στη συνέχεια ένα διαφορετικό τρόπο ανίχνευσής τους [1] Ανίχνευση ακραίων τιµών µε τη βοήθεια της t κατανοµής Αν διαθέτουµε ένα ικανοποιητικό µοντέλο παλινδρόµησης στο οποίο δεν εµφανίζονται ακραίες τιµές, τότε, κάθε studentzed deleted υπόλοιπο, έστω ακολουθεί την t κατανοµή µε n - p -1 βαθµούς ελευθερίας. Εποµένως, είναι εφικτό να εφαρµόσουµε ένα τεστ, που να µας πληροφορεί αν µια περίπτωση στην οποία αντιστοιχεί το µεγαλύτερο studentzed deleted υπόλοιπο, αποτελεί µια ακραία τιµή. Είναι προφανές ότι a pror δεν γνωρίζουµε ποια είναι η περίπτωση εκείνη που εµφανίζει το µεγαλύτερο studentzed deleted υπόλοιπο. Κατά συνέπεια θα πρέπει να εφαρµοστούν n τεστ, ένα για κάθε περίπτωση. Η κατάλληλη κρίσιµη τιµή για τη a διαδικασία πολλαπλών συγκρίσεων του Bonferron είναι η t 1-, n - p -1 n όπου a είναι το επίπεδο στατιστικής σηµαντικότητας που εµείς θέτουµε για να κρίνουµε τη t,

102 µηδενική υπόθεση, n είναι το µέγεθος του δείγµατος, δηλαδή οι παρατηρήσεις που λαµβάνουν µέρος στην ανάλυση και p ο αριθµός των συντελεστών της παλινδρόµησης στον οποίο περιλαµβάνεται και ο σταθερός όρος ( p = k +1 ). Ουσιαστικά ο έλεγχος που πραγµατοποιείται είναι ο εξής: H : Το studentzed deleted υπόλοιπο µε τη µεγαλύτερη απόλυτη τιµή δεν είναι ακραία τιµή vs H 1: Αλλιώς [4]. 3.9 Παρατηρήσεις επίδρασης (Influental Ponts) Γενικά εν υπάρχει σαφής διάκριση ανάµεσα σε µια ακραία τιµή (outler) και σε µια παρατήρηση επίδρασης (nfluental pont). Τόσο οι ακραίες τιµές όσο και οι παρατηρήσεις επίδρασης αποτελούν ασυνήθιστες περιθωριακές τιµές. Ωστόσο µια ακραία τιµή δεν επηρεάζει απαραίτητα τη δοµή της εξίσωσης παλινδρόµησης υπό την έννοια ότι δεν ασκεί καθοριστικό ρόλο στους συντελεστές της παλινδρόµησης. Πρόκειται δηλαδή για µια «ακίνδυνη» τιµή για τη λειτουργία ενός παλινδροµικού µοντέλου. Αντίθετα, µια παρατήρηση επίδρασης επηρεάζει τους παλινδροµικούς συντελεστές µε αποτέλεσµα να δίνεται λανθασµένη εντύπωση για την επάρκεια και την προβλεπτική αξία του µοντέλου. Ένας ορισµός για την παρατήρηση επίδρασης είναι ότι πρόκειται για µια παρατήρηση η οποία όταν αποκλισθεί από την ανάλυση, προκαλεί µια ουσιαστική αλλαγή σε τουλάχιστον έναν από τους µερικούς συντελεστές παλινδρόµησης [1],[4]. Όπως έχουµε δει στο κεφάλαιο οι παρατηρήσεις επίδρασης ανιχνεύονται µε ευκολία. Τα µέτρα ανίχνευσης και εντοπισµού των παρατηρήσεων επίδρασης είναι οι αποστάσεις Cook, τα µέτρα DfFts και τα µέτρα DfBetas. Σ ότι αφορά στον τρόπο αντιµετώπισης αυτών των ασυνήθιστων σηµείων υπάρχουν δύο κυρίως τρόποι: α) Ο πρώτος περιλαµβάνει τη χρησιµοποίηση µεθόδων, τεχνικών και εργαλείων για τον εντοπισµό αυτών των σηµείων τα οποία στη συνέχεια µελετώνται και ενδεχοµένως µερικά από αυτά να διαγραφούν από την ανάλυση. β) ο δεύτερος περιλαµβάνει τη συγκρότηση διαδικασιών οι οποίες είναι ανθεκτικές στην αλλοπρόσαλλη συµπεριφορά αυτών των σηµείων και περιγράφονται µε το γενικό όνοµα ανθεκτική παλινδρόµηση (Robust regresson) [1],[4].

103 3.9. ιαφορά ακραίας τιµής και παρατήρησης επίδρασης στο επίπεδο της αναπαράστασης Η διαφορά µεταξύ µιας ακραίας τιµής και µιας παρατήρησης επίδρασης αποτυπώνεται καλύτερα µε τη βοήθεια γραφήµατος. Στο ακόλουθο διάγραµµα βλέπουµε µια ακραία τιµή που συµβολίζεται µε το γράµµα L και µια παρατήρηση επίδρασης που συµβολίζεται µε το γράµµα P. Γράφηµα 3.4 ιαφορά ακραίας τιµής από παρατήρηση επίδρασης Τα σηµεία αυτά αποτελούν παρατηρήσεις του ίδιου µοντέλου παλινδρόµησης, το οποίο για λόγους ευκολίας περιλαµβάνει µόνο µια επεξηγηµατική µεταβλητή. Είναι φανερό και τα δύο σηµεία L και P είναι ακραίες τιµές, για τη µεταβλητή του µοντέλου επειδή απέχουν σηµαντικά από το νέφος που σχηµατίζουν τα υπόλοιπα σηµεία. Ωστόσο µόνο το σηµείο P είναι παρατήρηση επίδρασης γιατί όπως φαίνεται «κινείται» σε κατεύθυνση διαφορετική από το νέφος των σηµείων του γραφήµατος όπως επίσης και τη γραµµή παλινδρόµησης που είχαµε χαράξει. Η ευθεία παλινδρόµησης για να µη χαρακτηριζόταν το σηµείο P ως παρατήρηση επίδρασης - θα έπρεπε να µειώσει τη γωνία κλίσης της και να πλησιάσει το σηµείο P (βλέπε διακεκοµµένη γραµµή). Είναι προφανές το σηµείο P - όντας µόνο του στην κάτω

104 δεξιά περιοχή του γραφήµατος - επηρεάζει σηµαντικά τη θέση του µοντέλου προσαρµογής. Αν η παρατήρηση αυτή (σηµείο P ) θα έχει ή δε θα έχει µεγάλο υπόλοιπο εξαρτάται από το µοντέλο προσαρµογής καθώς και από τα υπόλοιπα δεδοµένα [1],[4] Ανίχνευση παρατηρήσεων επίδρασης µε τη βοήθεια της F κατανοµής Οι Neter, Kutner, Nochthem και Wasserman (1996) κρίνουν χρήσιµη τη συσχέτισης της τιµής Cook CD µε την κατανοµή F( 1- α,p, n - p) για να εξακριβωθεί το αντίστοιχο εκατοστηµόριο και να αποφανθούµε αν η παρατήρηση είναι παρατήρηση επίδρασης. Αν το εκατοστηµόριο είναι µέχρι και % τότε η παρατήρηση δεν ασκεί σηµαντική επίδραση στο µοντέλο. Αντίθετα, αν το εκατοστηµόριο που αντιστοιχεί στην τιµή Cook είναι κοντά ή πολύ περισσότερο ξεπερνά το 5% τότε η παρατήρηση ασκεί σηµαντική επίδραση στο µοντέλο και ως εκ τούτου αποτελεί παρατήρηση επίδρασης [4]. 3.1 Ειδικά χρήσιµα γραφήµατα γύρω από τις ακραίες τιµές και τις παρατηρήσεις επίδρασης Γραφήµατα αποστάσεων Cook έναντι Leverage τιµών Τα γραφήµατα αυτά αποτελούν γραφήµατα διασποράς (scatter plots) όπου στον κάθετο άξονα ' yy τοποθετούνται οι αποστάσεις Cook και στον οριζόντιο άξονα ' x x οι Leverage τιµές. Πρόκειται για χρήσιµα γραφήµατα που δίνουν σηµαντικές πληροφορίες για το µοντέλο παλινδρόµησης που έχει εκτιµηθεί. Αξίζει να σηµειωθεί ότι η ύπαρξη υψηλών Leverage τιµών επηρεάζουν την κλίση της ευθείας παλινδρόµησης αλλά όχι το µοντέλο αυτό καθεαυτό, δηλαδή τους συντελεστές της παλινδρόµησης. Από την άλλη, υψηλές Cook τιµές επηρεάζουν τους συντελεστές της παλινδρόµησης αλλά όχι την κλίση της ευθείας [4] Γραφήµατα DfFts µέτρων έναντι της σειράς καταχώρησης των περιπτώσεων (cases) Πρόκειται για γραφήµατα στα οποία στον κάθετο άξονα DfFts µέτρα και στον οριζόντιο άξονα ' yy τοποθετούνται τα ' x x η χρονική ακολουθία καταχώρησης των περιπτώσεων. Τα γραφήµατα αυτά είναι γνωστά ως γραφήµατα συνεχούς σειράς. Σ αυτά τα γραφήµατα χαράσσουµε µια οριζόντια γραµµή αναφοράς η οποία είναι

105 παράλληλη προς τον άξονα ' x x και διέρχεται από την τιµή 1 του άξονα ' yy. Αυτό συµβαίνει επειδή είναι γνωστό ότι αν µια τιµή DfFt είναι µεγαλύτερη του 1 τότε η αντίστοιχη παρατήρηση αποτελεί παρατήρηση επίδρασης (nfluental pont) [4] Γραφήµατα DfBetas µέτρων έναντι της σειράς καταχώρησης των περιπτώσεων (cases) Τα γραφήµατα αυτά είναι όµοια µε τα γραφήµατα της παραγράφου Όπως και παραπάνω και σ αυτά χαράσσουµε µια οριζόντια γραµµή που είναι παράλληλη προς τον άξονα ' x x και διέρχεται από το σηµείο 1 του άξονα ' yy. Αυτή η γραµµή αποτελεί γραµµή αναφοράς και αν µια περίπτωση (case) ξεπερνά το όριο του 1 τότε αυτό είναι πιθανή παρατήρηση επίδρασης [4] Ανακεφαλαίωση Η ανάλυση υπολοίπων αποτελεί µια σειρά µεθόδων κυρίως γραφικών αλλά και µαθηµατικών που µας επιτρέπει να ελέγξουµε τις υποθέσεις του µοντέλου παλινδρόµησης για να αποφανθούµε για την ορθότητα του ή µη. Οι συνήθεις αποκλίσεις από τις υποθέσεις του µοντέλου αφορούν: α) τη µη ύπαρξη γραµµικότητας β) τη µη ύπαρξη σταθερής διασποράς των υπολοίπων e ή ισοδύναµα των y γ) την ύπαρξη εξάρτησης µεταξύ των υπολοίπων e ή ισοδύναµα των y δ) το υπόλοιπο e ή ισοδύναµα των y δεν ακολουθούν κανονική κατανοµή ε) την ύπαρξη ακραίων ή έκτροπων τιµών (outlers) καθώς και παρατηρήσεων επίδρασης (nfluental ponts) Ο έλεγχος των αποκλίσεων πραγµατοποιείται κυρίως µε τη βοήθεια γραφηµάτων διασποράς υπολοίπων είτε ως προς τις τιµές µεταβλητής, είτε ως προς τις προσαρµοσµένες τιµές x της ανεξάρτητης ŷ, είτε τέλος ως προς τη χρονική ακολουθία καταχώρησης των παρατηρήσεων. Στα γραφήµατα αυτά δεν χρησιµοποιούνται µόνο τα απλά υπόλοιπα αλλά όλοι οι τύποι υπολοίπων και κυρίως τα τυποποιηµένα υπόλοιπα, τα studentzed υπόλοιπα κλπ. Αξίζει να σηµειωθεί ότι στα γραφήµατα διασποράς υπολοίπων είναι ξεκάθαρες οι κατακόρυφες αποκλίσεις - κάτι που δεν είναι συνήθως εµφανές οπτικά στο αρχικό διάγραµµα διασποράς, ιδιαίτερα όταν η κλίση της ευθείας παλινδρόµησης είναι µεγάλη.

106 Εκτός από τα γραφήµατα χρησιµοποιούνται και διάφορα στατιστικά τεστ για τον έλεγχο των αποκλίσεων του µοντέλου. Για παράδειγµα, για τον έλεγχο της ανεξαρτησίας των υπολοίπων χρησιµοποιείται κυρίως ο έλεγχος των Durbn-Watson και δευτερευόντως ο έλεγχος των ροών. Για τον έλεγχο της υπόθεσης της κανονικότητας των υπολοίπων χρησιµοποιείται ο έλεγχος καλής προσαρµογής x καθώς και ο έλεγχος Kolmogorov Smrnov (για n 5 ) και ο έλεγχος Shapro Wlk (για n 5). ( Οι ακραίες τιµές εντοπίζονται γραφικά µε βοήθεια γραφηµάτων διασποράς x, y ) αλλά κυρίως µε γραφήµατα της µορφής ( x,e ) ή ( ŷ,e ). Ο χειρισµός των ακραίων τιµών θα πρέπει να είναι ιδιαίτερα προσεκτικός. Πρέπει να τονιστεί ότι οι ακραίες τιµές αποκαλύπτονται γραφικά µε την κατασκευή γραφηµάτων των studentzed υπολοίπων και όχι των απλών υπολοίπων. Γενικά αν µια παρατήρηση 4 έχει τιµή µόχλευσης (leverage) p ή n ˆ ˆ p,5 τότε αυτή µπορεί να θεωρηθεί ως ακραία. Ακόµη θα πρέπει να εξετάζεται αν µια ακραία τιµή µπορεί να αποτελεί παρατήρηση επίδρασης. Εξαιρετικά χρήσιµο γι αυτό είναι ο υπολογισµός της απόστασης Cook, καθώς και των µέτρων DfFts και DfBetas. Η ύπαρξη παρατηρήσεων επίδρασης αποτελεί µια κατάσταση που δεν είναι επιθυµητή δεδοµένου ότι αυτές επηρεάζουν σηµαντικά τους συντελεστές παλινδρόµησης του µοντέλου. Βιβλιογραφία 1. Draper,. and Smth, H. (1997), Εφαρµοσµένη Ανάλυση Παλινδρόµησης (Μετάφραση: Χατζηκωνσταντινίδης, Ε και Καλαµατιανού, Α.), Εκδόσεις Παπαζήση, Αθήνα. Montgomery, D. C., Perk, E. A., Vnng, G (6), Introducton to Lnear Regresson Analyss, Fourth Edton, John Wley & Sons Inc., New Jersey 3. Chatterjee, S. and Had, A.S. (6), Regresson Analyss by Example, John Wley & Sons Inc., New Jersey 4. αφέρµος, Β (5), Κοινωνική Στατιστική µε το SPSS, Εκδόσεις Ζήτη, Θεσσαλονίκη 5. Ελληνικό Στατιστικό Ινστιτούτο (9), Λεξικό Στατιστικής Ορολογίας, Εκδόσεις Ελληνικού Στατιστικού Ινστιτούτου, Αθήνα

107 ΚΕΦΑΛΑΙΟ 4 ΓΡΑΦΗΜΑΤΑ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ (Graphs are essental to good statstcal analyss. Ordnary scatterplots and «trple» scatterplots are dscussed n relaton to regresson analyss F.J Anscombe) 4.1 Εισαγωγή Στο προηγούµενο κεφάλαιο είδαµε ότι η χρήση γραφικών µεθόδων είναι απαραίτητη για να ελέγξουµε τις υποθέσεις ενός µοντέλου παλινδρόµησης προκειµένου να αποφασίσουµε αν αυτό είναι κατάλληλο ή όχι. Υπενθυµίζουµε ότι οι συνήθεις αποκλίσεις από τις υποθέσεις ενός παλινδροµικού µοντέλου αφορούν: α) η µη ύπαρξη γραµµικότητας β) η µη ύπαρξη σταθερής διασποράς των υπολοίπων e ή ισοδύναµα των y γ) η ύπαρξη εξάρτησης µεταξύ των υπολοίπων e ή ισοδύναµα των y δ) τα υπόλοιπα e ή ισοδύναµα των y δεν ακολουθούν κανονική κατανοµή ε) η ύπαρξη ακραίων ή έκτροπων τιµών (outlers) καθώς και παρατηρήσεων επίδρασης (nfluental ponts) Ο έλεγχος των αποκλίσεων πραγµατοποιείται κυρίως µε τη βοήθεια γραφηµάτων διασποράς υπολοίπων είτε ως προς τις τιµές µεταβλητής, είτε ως προς τις προσαρµοσµένες τιµές x της ανεξάρτητης ŷ, είτε τέλος ως προς τη χρονική ακολουθία καταχώρησης των παρατηρήσεων. Επικουρικά, µε τις γραφικές

108 µεθόδους χρησιµοποιούνται και µαθηµατικές (στατιστικά τεστ) για τον έλεγχο αυτών των αποκλίσεων. Στην ουσία δεν νοείται στατιστική ανάλυση δεδοµένων στις µέρες µας χωρίς τη χρήση γραφηµάτων τα οποία διαδραµατίζουν καθοριστικό ρόλο στην εξαγωγή ορθών συµπερασµάτων για το φαινόµενο που µελετάµε. Τούτο αποδεικνύεται και από το γεγονός ότι το σύνολο των στατιστικών προγραµµάτων σήµερα διαθέτουν µεγάλη ποικιλία και δυνατότητες στη δηµιουργία διαφόρων γραφηµάτων. Ωστόσο οι απόψεις για την αξία των γραφηµάτων στη στατιστική ανάλυση διαχρονικά δεν ήταν πάντοτε θετικές. Μέχρι τα µέσα του προηγούµενου αιώνα ( ου ) διατυπώνονταν από αρκετούς επιστήµονες σοβαρές επιφυλάξεις για τη χρήση των γραφικών µεθόδων στην ανάλυση δεδοµένων. Υπήρχαν ακόµη - από ορισµένους - και ακραίες απόψεις ότι τα γραφήµατα ήταν εργαλεία άνευ αξίας δεδοµένου ότι τα στατιστικά τεστ αποκαλύπτουν µε ακρίβεια τα όποια χαρακτηριστικά γνωρίσµατα των δεδοµένων ή τις όποιες σχέσεις µεταξύ των µεταβλητών. Αντίθετα, οι γραφικές µέθοδοι - υποστήριζαν ότι - δίνουν µια αδρή και εντελώς επιφανειακή εικόνα των χαρακτηριστικών γνωρισµάτων των δεδοµένων στην οποία δεν µπορεί να βασιστεί κανείς σε καµιά περίπτωση για την εξαγωγή συµπερασµάτων. Από την άλλη µεριά υπήρχαν και οι ένθερµοι υποστηρικτές της χρήσης γραφηµάτων και της οπτικοποίησης των δεδοµένων (data vsualzaton) γενικότερα, οι οποίοι θεωρούσαν ότι τα γραφήµατα «αποκαλύπτουν» µε τον καλύτερο τρόπο τα δεδοµένα. Υποστήριζαν ακόµη, ότι οι γραφικές µέθοδοι µπορούν να είναι περισσότερο ακριβείς από τους συµβατικούς και συνηθισµένους στατιστικούς υπολογισµούς και να δώσουν πληροφορίες για τα δεδοµένα που οι µαθητικές µέθοδοι αδυνατούν να «αποκαλύψουν» [1]. Την απάντηση στην παραπάνω διένεξη για τη χρήση ή µη γραφικών µεθόδων (to graph or not to graph) στην ανάλυση δεδοµένων την έδωσε η εκπληκτικής έµπνευσης εργασία του F.J Anscombe το 1973 βασικά στοιχεία της οποίας θα παρουσιάσουµε αµέσως παρακάτω. 4. Γραφήµατα στη Στατιστική Ανάλυση 4..1 Η χρησιµότητα των Γραφηµάτων Ο F.J Anscombe αποτύπωσε το κλίµα που κυριαρχούσε στις αρχές της δεκαετίας του 7 υποστηρίζοντας ότι τα περισσότερα εγχειρίδια στατιστικής όπως και τα τότε στατιστικά προγράµµατα δεν έδιναν ιδιαίτερη βαρύτητα στη χρήση των

109 γραφηµάτων. Οι απόψεις που διατυπώνονταν και ασπάζονταν οι περισσότεροι συνοψίζονταν στα ακόλουθα: α) οι αριθµητικές µέθοδοι αποτελούσαν ακριβείς υπολογισµούς ενώ τα γραφήµατα παρείχαν µόνο µια αδρή χονδρική προσέγγιση του φαινοµένου που µελετούνταν β) σε κάθε είδος δεδοµένων αντιστοιχούσε µια συγκεκριµένη στατιστική µέθοδος που αποτελούσε και τη σωστή στατιστική προσέγγιση για την ανάλυσή τους γ) η χρήση σύνθετων µαθηµατικών υπολογισµών αποτελούσε µια «έντιµη» προσέγγιση, σ αντίθεση µε την οπτική αναπαράσταση των δεδοµένων που ήταν απλώς εξαπάτηση Στην πραγµατικότητα τόσο οι στατιστικές - µαθηµατικές µέθοδοι όσο και τα γραφήµατα θα έπρεπε κατά τον Anscombe να χρησιµοποιούνται για την κατανόηση ενός συνόλου δεδοµένων. Ειδικότερα, τα γραφήµατα µπορούσαν: 1) να βοηθήσουν στην αναγνώριση και εκτίµηση αδρών χαρακτηριστικών γνωρισµάτων των δεδοµένων ) να επιτρέψουν τη διερεύνηση σ ένα δεύτερο πιο αναλυτικό επίπεδο αυτών των αδρών χαρακτηριστικών Είναι γνωστό ότι οι περισσότερες στατιστικές µέθοδοι στηρίζονται σε υποθέσεις που αφορούν στη συµπεριφορά των δεδοµένων. Σε πολλές περιπτώσεις οι υποθέσεις αυτές µπορούν να είναι λανθασµένες και ως τούτου οι αριθµητικοί υπολογισµοί να είναι παραπλανητικοί. Σε κάθε περίπτωση είναι απαραίτητο να γίνεται διερεύνηση, του κατά πόσο οι υποθέσεις που διατυπώθηκαν είναι λογικά ορθές και σε περίπτωση που είναι λανθασµένες να επιδιώκεται η κατανόηση των αιτιών αυτών των λαθών. Τα γραφήµατα µπορούν να αποδειχθούν εξαιρετικά πολύτιµα για αυτό το σκοπό. Η σωστή στατιστική ανάλυση δεν αποτελεί µια υπόθεση ρουτίνας αλλά απαιτεί πολύ περισσότερα πράγµατα από τον υπολογισµό κάποιων βασικών στατιστικών µέτρων. Η ανάλυση θα πρέπει να προσανατολίζεται σε ενδεχοµένως «παράξενα» χαρακτηριστικά γνωρίσµατα των δεδοµένων και να αναζητεί την ύπαρξη δευτερευόντων σχέσεων µεταξύ των µεταβλητών. Στο οπλοστάσιο των ερευνητών υπάρχει σήµερα πληθώρα γραφηµάτων που συντελούν στην αποτελεσµατικότερη και ορθότερη ανάλυση των δεδοµένων. Η συνεισφορά του Tukey προς την κατεύθυνση αυτή υπήρξε καθοριστική [].

110 4.. Η περίπτωση της απλής γραµµικής παλινδρόµησης Με την απλή γραµµική παλινδρόµηση µελετάµε τη σχέση ανάµεσα σε µια µεταβλητή απόκρισης (εξαρτηµένη) Y και σε µια επεξηγηµατική (ανεξάρτητη) µεταβλητή. Στην ουσία η απλή γραµµική παλινδρόµηση ποσοτικοποιεί τη σχέση δύο συνεχών τυχαίων µεταβλητών και Y υπό τη µορφή ενός γραµµικού υποδείγµατος στο οποίο οι τιµές της µεταβλητής Y εκτιµώνται ή προβλέπονται από τις τιµές της µεταβλητής. Πριν όµως προσδιοριστεί το γραµµικό υπόδειγµα, δηλαδή η δειγµατική ευθεία παλινδρόµησης, είναι απαραίτητο να επιβεβαιωθεί η γραµµική σχέση που υπάρχει (ή όχι) µεταξύ των δυο µεταβλητών στα δειγµατικά δεδοµένα. Η διαδικασία αυτή µπορεί να πραγµατοποιηθεί µε τη βοήθεια ενός διαγράµµατος διασποράς (scatter plot) [3]. περιπτώσεις: Σ ένα διάγραµµα διασποράς µπορούν να εµφανιστούν οι ακόλουθες α) τα σηµεία (x, y ) µπορούν να ακολουθούν νοητά ή να προσεγγίζουν µια ευθεία γραµµή β) τα σηµεία (x, y ) µπορούν να προσεγγίζουν µια οµαλή καµπύλη, αλλά όχι µια ευθεία γραµµή γ) οι τιµές της µεταβλητής απόκρισης Y να είναι διασπαρµένες και να δηµιουργούν ένα νέφος σηµείων χωρίς να εµφανίζουν οποιαδήποτε σχέση µε τις τιµές της επεξηγηµατικής µεταβλητής δ) να συµβαίνει κάτι ενδιάµεσο µεταξύ των περιπτώσεων (γ) και (α) ή (γ) και (β) ε) τα περισσότερα από τα σηµεία (x, y ) να προσεγγίζουν µια ευθεία ή µια οµαλή καµπύλη αλλά κάποια (τα λιγότερα ή ακόµη και ένα!) απ αυτά να είναι διασπαρµένα σε µεγάλη απόσταση από την ευθεία (ή την καµπύλη) []. Η περίπτωση (ε) παρουσιάζει ιδιαίτερο ενδιαφέρον δεδοµένου ότι σ αυτή παρουσιάζεται ένα φαινόµενο το οποίο χρήζει ιδιαίτερης µελέτης και το οποίο οι συνηθισµένοι µαθηµατικοί υπολογισµοί της ανάλυσης παλινδρόµησης αδυνατούν να εντοπίσουν. Γενικά, στην περίπτωση που στα δεδοµένα µας υπάρχουν ακραίες ή έκτροπες παρατηρήσεις (outlers) απαιτούνται ειδικοί χειρισµοί που παρουσιάστηκαν στα προηγούµενα κεφάλαια. Το πρώτο πάντως που πρέπει να ελεγχθεί είναι κατά πόσο αυτές οι τιµές είναι αυθεντικές και δεν οφείλονται σε λανθασµένες καταγραφές ή καταχωρήσεις.

111 Αντίθετα, η περίπτωση (α) θεωρείται συνήθως ιδανική και αποτελεί ένα κλασσικό υπόδειγµα απλής γραµµικής παλινδρόµησης. Η περίπτωση (β) αποτελεί περίπτωση µη γραµµικής παλινδρόµησης η οποία όµως µπορεί µε κατάλληλο µετασχηµατισµό είτε των τιµών της µεταβλητής Χ, είτε των τιµών της Υ να µεταβληθεί στην περίπτωση (α). Η περίπτωση (γ) δείχνει ότι µεταξύ των τιµών της Χ και της Υ δεν υφίσταται κανενός είδους σχέση (συνήθως ο συντελεστής γραµµικής συσχέτισης r είναι µηδέν ή προσεγγίζει το µηδέν πράµα που σηµαίνει ότι οι δύο µεταβλητές είναι µεταξύ τους ανεξάρτητες) []. Το µοντέλο της απλής γραµµικής παλινδρόµησης περιλαµβάνει µια απλή επεξηγηµατική µεταβλητή η οποία συνδέεται µε µια µεταβλητή απόκρισης Y µε µια ευθεία γραµµή, δηλαδή έχουµε: Y = β o + β1 + ε (4.1) όπου οι παράµετροι β o και β 1 εκφράζουν τη σταθερά (ntercept) και την κλίση (slope) του µοντέλου αντίστοιχα και αποτελούν τους όρους που επιθυµούµε να εκτιµήσουµε. Ο παράγοντας ε = y ˆ - y είναι το υπόλοιπο ή σφάλµα του µοντέλου. Τα υπόλοιπα υποθέτουµε ότι έχουν µέση τιµή µηδέν και διακύµανση σ άγνωστη. Επιπλέον θεωρούµε ότι τα υπόλοιπα είναι ασυσχέτιστα, πράγµα που σηµαίνει ότι η τιµή ενός υπολοίπου δεν εξαρτάται από την τιµή κανενός άλλου υπολοίπου. Ο παράγοντας ŷ εκφράζει τις προσαρµοσµένες τιµές του µοντέλου και ισούται µε ŷ = b + b1x, όπου b,b 1 αποτελούν τις εκτιµήτριες των παραµέτρων β o, β 1 [],[3]. Στην ιδανική περίπτωση που ισχύουν οι υποθέσεις της απλής γραµµικής παλινδρόµησης η µέθοδος των ελαχίστων τετραγώνων δίνει ένα κατάλληλο µοντέλο παλινδρόµησης. Επιπλέον, το άθροισµα των τετραγώνων των υπολοίπων ε = y ˆ - y οδηγεί σε ορθή εκτίµηση της διακύµανσης των σφαλµάτων. Ως εκ τούτου οι εκτιµήσεις b, b 1 των παραµέτρων βo και β 1 θα είναι σωστές, δεν θα υπάρχει απώλεια πληροφοριών και το µοντέλο παλινδρόµησης που έχουµε εκτιµήσει θα προσαρµόζεται απολύτως ικανοποιητικά στα δεδοµένα µας []. Στην πράξη όµως, δεν γνωρίζουµε αν το θεωρητικό υπόβαθρο των υποθέσεων της παλινδρόµησης ισχύει. Συνετό είναι να θεωρούµε ότι οι υποθέσεις - a pror - δεν ισχύουν προκειµένου να αποφεύγουµε σοβαρά λάθη. Η ουσία είναι ότι αµέσως µετά την ολοκλήρωση του υπολογιστικού µέρους της παλινδρόµησης οφείλουµε να προχωρήσουµε στο σχεδιασµό ορισµένων γραφηµάτων υπολοίπων.

112 υπολοίπων Όπως διεξοδικά είδαµε στο κεφάλαιο 3 του παρόντος, ένα γράφηµα των e (ή οποιωνδήποτε άλλων από τους γνωστούς τύπους υπολοίπων) ως προς τις αντίστοιχες προσαρµοσµένες τιµές y είναι χρήσιµο για να ελέγξουµε ορισµένες από τις συνήθεις παραβιάσεις των υποθέσεων ενός µοντέλου παλινδρόµησης. Εξαιρετικά χρήσιµα είναι ακόµη και τα γραφήµατα των υπολοίπων e ως προς τις τιµές x της επεξηγηµατικής µεταβλητής Χ. Οι τιµές x τοποθετούνται - όπως συµβαίνει και µε τις προσαρµοσµένες τιµές y - στον οριζόντιο άξονα του γραφήµατος. Τόσο στη µια όσο και στην άλλη περίπτωση η συνολική εικόνα µιας οριζόντιας «ζώνης» των υπολοίπων εκλαµβάνεται ως ικανοποιητική [],[4] Είναι γεγονός πάντως ότι τα υπόλοιπα συνήθως δεν έχουν ακριβώς ίσες διακυµάνσεις και συσχετίζονται µε ποικιλόµορφους τρόπους. Γι αυτό σ ένα γράφηµα των υπολοίπων ακόλουθα: e ως προς τις προσαρµοσµένες τιµές y προσέχουµε τα α) κάποια από τα υπόλοιπα e να έχουν πολύ µεγαλύτερες τιµές σε σχέση µε τ άλλα (ένδειξη για την ύπαρξη ακραίων τιµών) β) τα υπόλοιπα e να δηµιουργούν οπτικά µια νοητή καµπύλη ως προς τις προσαρµοσµένες τιµές y γ) να υπάρχει προοδευτική µεταβολή (είτε αύξηση είτε µείωση) στη µεταβλητότητα των υπολοίπων e καθώς αυξάνονται οι προσαρµοσµένες τιµές y δ) να προκύψει κάποια ασύµµετρη ή κάποια µη κανονική κατανοµή των υπολοίπων e []. Σε πολλές περιπτώσεις οι δυσχέρειες (β), (γ) και (δ) µπορούν να αρθούν µ ένα απλό µετασχηµατισµό της κλίµακας στην οποία εκφράζεται η µεταβλητή απόκρισης Υ παίρνοντας τους λογαρίθµους των τιµών της. Εναλλακτικά, η περίπτωση (β) µπορεί να αντιµετωπιστεί µε µετασχηµατισµό των τιµών της επεξηγηµατικής µεταβλητής Χ ή µπορούµε απλά να προσθέσουµε στο δεξί µέλος της σχέσης (4.1) έναν ακόµη όρο, για παράδειγµα ένα τετραγωνικό όρο και η προαναφερθείσα σχέση να γίνει y = β o +β1x +βx + ε. Ένας ακόµη λόγος για τη δηµιουργία και εξέταση ενός γραφήµατος υπολοίπων e ως προς τις προσαρµοσµένες

113 τιµές y είναι η πιθανή ύπαρξη κάποιων ιδιαίτερα υψηλών τιµών της επεξηγηµατικής µεταβλητής Χ. Αυτό έχει ως αποτέλεσµα την εµφάνιση ενός ή περισσότερων ακραίων τιµών στο γράφηµα ( e, y ˆ ). Θυµίζουµε ότι ισχύει η σχέση y = y ˆ + e (Αρχική παρατήρηση = Προσαρµοσµένη τιµή + Υπόλοιπο). Σε πολλές περιπτώσεις η µαθηµατική προσαρµογή της εξίσωσης παλινδρόµησης στο σύνολο των δεδοµένων φαίνεται να είναι απολύτως ικανοποιητική. Ωστόσο, η εγκυρότητα της σχέσης (4.1) και η εξαγωγή ασφαλών συµπερασµάτων από αυτή, εγείρει αµφιβολίες, αν περιοριστούµε µόνο στο υπολογιστικό της µέρος και - απλά - στην εκτίµηση των παραµέτρων της βo και β 1. Τούτο συµβαίνει επειδή η ύπαρξη µια ακραίας τιµής της µεταβλητής Χ µπορεί να συµβάλλει καθοριστικά - και πολύ περισσότερο από τις υπόλοιπες τιµές της Χ - στον καθορισµό των συντελεστών της παλινδρόµησης (αλλάζει παντελώς η γεωµετρία της ευθείας από µια µόνο τιµή). Εποµένως, µπορεί - κατ αυτό τον τρόπο - να προκύψει µια εξίσωση παλινδρόµησης που να είναι εντελώς παραπλανητική []. Είναι προφανές ότι η µη χρήση και µελέτη κατάλληλων γραφηµάτων µπορεί να οδηγήσει σε στρεβλώσεις της εξίσωσης παλινδρόµησης και ως εκ τούτου σε λανθασµένα συµπεράσµατα. Αυτό συµβαίνει επειδή ο υπολογισµός των παραµέτρων βo και β 1 και άρα της εξίσωσης παλινδρόµησης Y = β o + β1 + ε όπως επίσης και η εύρεση του πίνακα ανάλυσης διακύµανσης και του απλού ή του προσαρµοσµένου συντελεστή προσδιορισµού ( R και R adj ) από µόνα τους δεν είναι αρκετά. Όλα τα προηγούµενα αποδεικνύονται περίτρανα µε το ακόλουθο παράδειγµα [] Κουαρτέτο Anscombe Έστω τα παρακάτω τέσσερα (4) σύνολα δεδοµένων τα οποία αποτελούνται από n = 11 ζεύγη παρατηρήσεων ( x, y ) εκ των οποίων η Χ θεωρείται η επεξηγηµατική µεταβλητή και η Υ η µεταβλητή απόκρισης. Στον ακόλουθο πίνακα δίνονται τα τέσσερα σετ δεδοµένων. Σηµειώνεται ότι για τις τρεις πρώτες οµάδες δεδοµένων οι τιµές της µεταβλητής Χ (Χ 1, Χ και Χ 3 ) είναι ακριβώς ίδιες ενώ στην τέταρτη (Χ 4 ) διαφοροποιούνται. Πράγµατι, έχουµε:

114 Πίνακας 4.1 Σύνολα δεδοµένων Anscombe Α/Α 1 ο Σύνολο ο Σύνολο 3 ο Σύνολο 4 ο Σύνολο Χ 1 Υ 1 Χ Υ Χ 3 Υ 3 Χ 4 Υ Υπολογίζουµε µε τη βοήθεια κάποιου στατιστικού πακέτου ορισµένα βασικά στατιστικά µέτρα των ανωτέρω 4 συνόλων Πίνακας 4. Βασικά Στατιστικά Μέτρα Στατιστικό 1 ο Σύνολο ο Σύνολο 3 ο Σύνολο 4 ο Σύνολο Χ 1 Υ 1 Χ Υ Χ 3 Υ 3 Χ 4 Υ 4 Ν Μέση τιµή Τυπική Απόκλιση SD Συσχέτιση r Παρατηρούµε ότι η µέση και η τυπική απόκλιση των µεταβλητών 1,, 3, 4 είναι ίσες κάτι που ισχύει και για τις µεταβλητές Y 1,Y,Y 3,Y 4. Ακόµη ο συντελεστής γραµµικής συσχέτισης r και στα τέσσερα σετ δεδοµένων ισούται µε,8. Στη συνέχεια επιχειρούµε να εκτιµήσουµε την εξίσωση παλινδρόµησης για καθένα από τα τέσσερα σετ δεδοµένων. Πίνακας 4.3 Αποτελέσµατα Παλινδροµήσεων Παλινδρόµηση Χ 1 -Υ 1 Χ -Υ Χ 3 -Υ 3 Χ 4 -Υ 4 Σταθερά b Κλίση b Εξίσωση Παλινδρόµησης Άθροισµα των τετραγώνων x - x Άθροισµα τετραγώνων της παλινδρόµησης Άθροισµα τετραγώνων των υπολοίπων Εκτιµώµενο τυπικό σφάλµα του b 1 Συντελεστής προσδιορισµού R y = 3+.5x y = 3+.5x y = 3+.5x y = 3+.5x (1 df) 7.5 (1 df) 7.5 (1 df) 7.5 (1 df) (9 df) (9 df) (9 df) (9 df)

115 Παρατηρούµε ότι και τα τέσσερα σύνολα δεδοµένων περιγράφονται από ακριβώς το ίδιο γραµµικό µοντέλο και το οποίο δίνεται από την εξίσωση y = 3+.5x. Ταυτόχρονα έχουµε την ίδια τιµή για τον συντελεστή προσδιορισµού R =.667 πράγµα που σηµαίνει ότι για όλα τα σύνολα το ποσοστό της µεταβλητότητας της Υ που ερµηνεύεται από την ανεξάρτητη µεταβλητή Χ πλησιάζει το 67%. Ακόµη και η τιµή του στατιστικού F και για τα τέσσερα σύνολα δεδοµένων είναι ίδια και ανέρχεται σε Εποµένως, είναι προφανές ότι και τα τέσσερα σύνολα περιγράφονται µαθηµατικά κατά τρόπο ισοδύναµο ή ταυτόσηµο [1], []. Η πραγµατικότητα βέβαια είναι εντελώς διαφορετική επειδή τα τέσσερα παραπάνω σύνολα διαφέρουν µεταξύ τους σηµαντικά. Αυτό αποδεικνύεται αν σχεδιάσουµε για καθένα από τα τέσσερα σύνολα δεδοµένων το αντίστοιχο γράφηµα διασποράς. Οπότε έχουµε: Γράφηµα 4.1 Γραφήµατα διασποράς των τεσσάρων συνόλων δεδοµένων του Anscombe x1-y x3-y x-y x4-y είναι ότι: Τα πρώτα συµπεράσµατα µελετώντας τα παραπάνω γραφήµατα διασποράς

116 α) Το νέφος των σηµείων που δηµιουργεί το 1 ο σύνολο δεδοµένων (σχήµα 1) φαίνεται να ακολουθεί µια νοητή ευθεία γραµµή. Ωστόσο είναι φανερό ότι υφίσταται µεταβλητότητα β) Τα σηµεία του ου συνόλου δεδοµένων (σχήµα ) ξεκάθαρα δηµιουργούν µια νοητή καµπύλη γραµµή. Τούτο σηµαίνει ότι αποκλείεται η ύπαρξη γραµµικότητας. γ) Τα σηµεία του 3 ου συνόλου δεδοµένων (σχήµα 3) δείχνουν να τοποθετούνται σε µια νοητή ευθεία γραµµή µε ασήµαντη µεταβλητότητα. Ωστόσο υπάρχει ένα σηµείο που απέχει σηµαντικά από την οµάδα των υπόλοιπων σηµείων δ) Τα σηµεία του 4 ου συνόλου δεδοµένων (σχήµα 4) έχουν όλα εκτός από ένα την ίδια τετµηµένη x τιµή. Όπως και στην περίπτωση (γ) ένα σηµείο απέχει πολύ από την οµάδα των υπολοίπων σηµείων []. Αν στα παραπάνω τέσσερα γραφήµατα προσαρµόσουµε την εξίσωση παλινδρόµησης y = 3+.5x που έχουµε εκτιµήσει η κατάσταση γίνεται περισσότερο ξεκάθαρη. Γράφηµα 4. Γραφήµατα διασποράς στα οποία έχουµε προσαρµόσει την εξίσωση παλινδρόµησης

117 Στα γραφήµατα έχουµε προσαρµόσει την εξίσωση παλινδρόµησης που έχουµε εκτιµήσει για κάθε οµάδα δεδοµένων για τα οποία έχουµε να σχολιάσουµε τα εξής: α) Τα ζεύγη των σηµείων στο 1 ο σχήµα του γραφήµατος κατανέµονται εκατέρωθεν της ευθείας παλινδρόµησης η οποία φαίνεται ότι περιγράφει ικανοποιητικά τα δεδοµένα. Αυτό αποδεικνύεται και από το γράφηµα των υπολοίπων ως προς τις τιµές της µεταβλητής 1 ( e, x ) το οποίο φαίνεται ότι πληρεί τις γνωστές προϋποθέσεις (βλ. σχ. 1 γράφ. 4.3) β) Στο ο σχήµα τα σηµεία δηµιουργούν µια οµαλή καµπύλη πράγµα που δείχνει ότι δεν υπάρχει σχέση γραµµική αλλά τετραγωνική. Το γράφηµα των υπολοίπων ως προς τις τιµές της µεταβλητής ( e, x ) είναι απολύτως ξεκάθαρο (βλ. σχ. γράφ. 4.3) γ) Στο 3 ο σχήµα παρατηρούµε ότι ένα σηµείο απέχει σηµαντικά από την ευθεία παλινδρόµησης που έχουµε εκτιµήσει. Είναι προφανές ότι το σηµείο αυτό αποτελεί ακραία τιµή (outler) για τα δεδοµένα µας που δεν φαίνεται να επηρεάζει όµως την εξίσωση παλινδρόµησης. Ωστόσο το γράφηµα υπολοίπων ως προς τις τιµές της µεταβλητής 3 ( e, x ) πιστοποιεί ότι το µοντέλο παλινδρόµησης που έχουµε εκτιµήσει για το συγκεκριµένο σύνολο δεδοµένων δεν είναι κατάλληλο (βλ. σχ. 3 γράφ. 4.3). δ) Στο 4 ο σχήµα είναι ξεκάθαρο ότι το σηµείο που απέχει από την οµάδα των υπολοίπων δεδοµένων είναι καθοριστικό ως προς την προσαρµογή της ευθείας παλινδρόµησης σ αυτά. Είναι προφανές ότι το συγκεκριµένο σηµείο αποτελεί παρατήρηση επίδρασης (nfluental pont) και ότι η ευθεία παλινδρόµησης που έχουµε εκτιµήσει δεν είναι κατάλληλη. Αυτό αποδεικνύεται και από το αντίστοιχο γράφηµα υπολοίπων ως προς τις τιµές της µεταβλητής 4 ( e, x ) (βλ. σχ. 4 γράφ. 4.3). Το 4 ο σύνολο δεδοµένων αποτελεί µάλλον αποτέλεσµα ενός παντελώς ακατάλληλου και κακού πειραµατικού σχεδιασµού. Γράφηµα 4.3 Γραφήµατα υπολοίπων ως προς τις τιµές των 9 ( e, x ) 4 Resduals Ftted : x1 Resduals Ftted : x

118 3 4 Resduals Resduals Ftted : x Ftted : x Η περίπτωση της πολλαπλής γραµµικής παλινδρόµησης Όσα έχουν αναφερθεί για την περίπτωση της απλής γραµµικής παλινδρόµησης - όπου έχουµε µια µεταβλητή απόκρισης Υ και µια επεξηγηµατική µεταβλητή Χ - επεκτείνονται και σε µοντέλα περισσότερο πολύπλοκα όπου έχουµε περισσότερες από µια επεξηγηµατικές µεταβλητές. Ειδικά στην περίπτωση όπου έχουµε ένα µοντέλο µε δύο επεξηγηµατικές µεταβλητές 1 και Χ, δηλαδή Y = β o + β1 1 + βχ + ε είναι εφικτή και η κατασκευή ενός τρισδιάστατου γραφήµατος διασποράς µε τη βοήθεια του οποίου µπορούµε να δούµε γραφικά τη συµπεριφορά των δεδοµένων και να βγάλουµε κάποια πρώτα συµπεράσµατα []. Γενικά στην περίπτωση της πολλαπλής γραµµικής παλινδρόµησης µπορούµε να χρησιµοποιήσουµε και τον πολλαπλό πίνακα διαγραµµάτων διασποράς (matrx of scatterplots) µε τον οποίο µπορούµε να οπτικοποιήσουµε τη σχέση µεταξύ της µεταβλητής απόκρισης Y και των επεξηγηµατικών µεταβλητών, = 1,...n. Επίσης µπορούµε να ελέγξουµε αν οι επεξηγηµατικές µεταβλητές, = 1,...n συσχετίζονται ανά δύο µεταξύ τους. Ωστόσο οφείλουµε να είµαστε φειδωλοί στη χρήση των παραπάνω γραφηµάτων διότι σε πολύπλοκα παλινδροµικά µοντέλα είναι πολύ πιθανή η ύπαρξη πολυσυγραµµικότητας. Στα πολλαπλά παλινδροµικά µοντέλα µε δύο επεξηγηµατικές µεταβλητές 1 και Χ τα πράγµατα είναι περισσότερο απλά και σχετικά ασφαλή (πρέπει σε κάθε περίπτωση να ελέγξουµε την ανεξαρτησία των µεταβλητών) [4]. Ο έλεγχος των υποθέσεων του πολλαπλού γραµµικού παλινδροµικού µοντέλου πραγµατοποιείται µε τη βοήθεια των διαγραµµάτων υπολοίπων όπως αναλυτικά παρουσιάστηκε στο κεφάλαιο 3 του παρόντος.

119 Η αξία της χρήσης γραφηµάτων στην ανάλυση δεδοµένων είναι ιδιαίτερα σηµαντική. Στην πραγµατικότητα δεν υφίσταται σωστή στατιστική ανάλυση χωρίς τη χρήση γραφικών µεθόδων. Τα γραφήµατα «αποκαλύπτουν» τα δεδοµένα και κυριολεκτικά και µεταφορικά. Η απεικόνιση δεδοµένων µε τη βοήθεια υπολογιστή έχει καταστεί πολύ εύκολη στη σηµερινή εποχή. Ωστόσο η χρήση των κατάλληλων - σε κάθε περίπτωση - γραφηµάτων και προπάντων η ερµηνεία τους απαιτεί µεγάλη προσοχή, ταλέντο και εµπειρία. 4.3 ηµιουργία δεδοµένων µε τα χαρακτηριστικά των δεδοµένων Anscombe Η συµβολή του Anscombe Τα σύνολα δεδοµένων του Anscombe είναι εξαιρετικά δηµοφιλή για τη διδασκαλία της σηµασίας της χρήσης γραφικών µεθόδων στην ανάλυση δεδοµένων. Το κουαρτέτο Anscombe αποτελείται από τέσσερα σύνολα δεδοµένων που έχουν ακριβώς την ίδια στατιστική σύνοψη, αλλά εντελώς ανόµοια γραφήµατα διασποράς. Ο Anscombe µε τα τέσσερα σετ δεδοµένων του έφερε στην επιφάνεια και κατέδειξε την αξία της οπτικοποίησης των δεδοµένων, αποδεικνύοντας ότι ένα γράφηµα µπορεί να αποκαλύψει µοτίβα που µπορούν πολύ εύκολα να «κρυφτούν» από το υπολογιστικό - στατιστικό µέρος της ανάλυσης [], [5]. εν είναι γνωστός, εντούτοις, ο τρόπος µε τον οποίο ο Anscombe δηµιούργησε αυτά τα σύνολα δεδοµένων. Στη συνέχεια θα παρουσιάσουµε µια γενική διαδικασία µε την οποία µπορούµε να παράγουµε σύνολα δεδοµένων µε ίδια στατιστικά µέτρα (ίδια στατιστική σύνοψη) αλλά ανόµοια γραφήµατα χρησιµοποιώντας µια προσέγγιση βασισµένη σε γενετικό αλγόριθµο (Genetc algorthm) [5] Περιγραφή του προβλήµατος Έστω ένας πίνακας δηλαδή την ανεξάρτητη µεταβλητή ακόµη τις ποσότητες * * x, y και * που περιλαµβάνει δύο διανύσµατα µεγέθους nχ1, s,s * * x y * x και την εξαρτηµένη µεταβλητή * y. Θεωρούµε που αποτελούν τις αντίστοιχες µέσες τιµές και τυπικές αποκλίσεις των διανυσµάτων * x και * y καθώς και την ποσότητα * r που αποτελεί το συντελεστή συσχέτισης ανάµεσα στα διανύσµατα * x και * y. Έστω ακόµη πίνακας που αποτελείται από τα διανύσµατα διαστάσεων nx1 x, y. Το πρόβληµα

120 είναι να βρούµε τουλάχιστον ένα πίνακα ο οποίος να έχει εντελώς ίδια στατιστικά µέτρα µε τον πίνακα ανόµοιο µ εκείνο των *. Παράλληλα, το γράφηµα διασποράς των x, y πρέπει να είναι * * x,y. Αυτό πραγµατοποιείται µε τη βοήθεια µιας συνάρτησης * g(, ) η οποία ποσοτικοποιεί τη γραφική διαφορά που υπάρχει µεταξύ των γραφηµάτων διασποράς των x, y και των * * x,y. * Συνεπώς ο στόχος µας είναι η µεγιστοποίηση της συνάρτησης g(, ) υπό τον περιορισµό * * x - x + y - y + s x -s x + s y -s y + r - r =. Για να µετρήσουµε τη γραφική ανοµοιότητα ανάµεσα σε δύο γραφήµατα διασποράς µελετούµε την απόλυτη διαφορά ανάµεσα στις παρακάτω ποσότητες των και *. Υπάρχουν αρκετές µέθοδοι για τη µέτρηση αυτής της διαφοράς, τις οποίες παρουσιάζουµε µε συντοµία παρακάτω: α) Με τα διατεταγµένα δεδοµένα, δηλαδή * * g = x() - x () + y() - y() β) Με το τεστ των Kolmogorov-Smrnov, δηλαδή * g = max( F( α) - F ( ) ) α όπου * F( α ) ( F ( α ) ) η αθροιστική συχνότητα των τιµών y ( y ) που είναι µικρότερα ή ίσα * µε το a. Το a αντιστοιχεί σε όλες τις πιθανές τιµές των y και * y. γ) Με τους τετραγωνικούς συντελεστές της εξίσωσης παλινδρόµησης, δηλαδή * g = b - b, όπου y = b + b x + b x 1 + e και * * * * * * * y = b + b1 x + b x + e δ) Με τον πολλαπλασιαστή Lagrange των Breusch - Pagan που αποτελεί ένα µέτρο της ετεροσκεδαστικότητας, δηλαδή * g = LM - LM ε) Με την τυποποιηµένη ασυµµετρία, δηλαδή (y - y) (y - y ) g = - 3 * * 3 sk 3 3 sy s * y στ) Με την τυποποιηµένη κύρτωση, δηλαδή (y - y) (y - y ) g = - 4 * * 4 kur 4 4 sy s * y ζ) Με τη µεγιστοποίηση του στατιστικού Cook D, δηλαδή g = max(d ) - max(d ) * όπου d είναι το στατιστικό D του Cook για την παρατήρηση. Υπάρχει ακόµη η δυνατότητα να πειραµατιστούµε µε ποικίλους συνδυασµούς των παραπάνω περιπτώσεων (π.χ g = g sk *gkur κλπ) [5].

121 4.3.3 Μεθοδολογία Γενικά Όπως ήδη αναφέραµε η λύση στο πρόβληµά µας µπορεί να δοθεί µε τη βοήθεια ενός γενετικού αλγορίθµου. Οι γενετικοί αλγόριθµοι χρησιµοποιούνται πολύ συχνά για να αντιµετωπίσουµε προβλήµατα που είναι δύσκολο να επιλυθούν µε τις κλασσικές µεθόδους βελτιστοποίησης. Η λύση ενός γενετικού αλγορίθµου είναι γνωστή ως γενεά και εµφανίζεται ως ένα διάνυσµα (συνήθως) πραγµατικών αριθµών ή αλφαριθµητικών χαρακτήρων. Με την έναρξη του γενετικού αλγορίθµου δηµιουργείται ένας αρχικός πληθυσµός γενεών. Στη συνέχεια ο αλγόριθµος επαναληπτικά µετασχηµατίζει αυτόν τον πληθυσµό σε πολλές νέες γενεές. Σε κάθε γενεά, παράγονται «τέκνα» τα οποία επιλέγονται για να περιληφθούν στην επόµενη γενεά µε τρόπους που θα δούµε στη συνέχεια. Πρέπει να τονιστεί ότι η λογική των γενετικών αλγορίθµων βασίζεται στη θεωρία του αρβίνου περί φυσικής επιλογής, δεδοµένου ότι γενεές µε υψηλές «κατάλληλες» τιµές (ftness values) είναι πιθανότερο να επιβιώσουν και να περιληφθούν στην επόµενη γενεά [5] Κατασκευή αρχικού πληθυσµού Ο αλγόριθµος περιλαµβάνει τα παρακάτω βήµατα για να δηµιουργήσουµε τον αρχικό πληθυσµό. α) ηµιουργούµε ένα πίνακα - διαστάσεων nx - που αποτελείται από στοιχεία τα οποία παρήχθησαν από την τυπική κανονική κατανοµή. Εκτός από την τυπική κανονική κατανοµή µπορούµε να χρησιµοποιήσουµε και άλλες κατανοµές για να παράγουµε δεδοµένα. Στην εφαρµογή µας χρησιµοποιήσαµε τα σύνολα δεδοµένων του Anscombe β) Θέτουµε τις µέσες τιµές των στηλών του πίνακα µε µηδέν χρησιµοποιώντας τη σχέση µονάδες. = - enx1 * όπου e nx1 είναι ένα nx1 διάνυσµα που αποτελείται από γ) Ορθο-κανονικοποιούµε τις στήλες του πίνακα. Για να το πετύχουµε αυτό χρησιµοποιούµε τη µέθοδο Gram - Schmdt παίρνοντας µια µη ορθογώνια οµάδα γραµµικών και ανεξάρτητων διανυσµάτων βάση e1 και e έχουµε: x και y και δηµιουργώντας µια ορθογώνια

122 u1 = x, u = y - proju 1 y όπου proj = v,u uv u u,u και v 1, v αποτελεί το εσωτερικό u1 u προϊόν. Οπότε e1 = και e = u u 1 και ort-nor = [ e1, e ]. δ) Μετασχηµατίζουµε τον πίνακα µε τη βοήθεια της παρακάτω σχέσης που περιλαµβάνει τον πίνακα συνδιακύµανσης του ort-nor 1 * * nx1 *. ηλαδή έχουµε: = n -1* *Cov( ) + e *. Η ποσότητα n -1 είναι απαραίτητη επειδή χρησιµοποιούµε τη δειγµατική τυπική απόκλιση στους υπολογισµούς της συνδιακύµανσης. Ακόµη = [x, x ]. * * * 1 Με τα προηγούµενα βήµατα δηµιουργούµε µια γενεά η οποία ικανοποιεί τον αρχικό µας περιορισµό (βλ. παρ. 4.3.). Ως εκ τούτου η νέα γενεά έχει την ίδια στατιστική σύνοψη µε την αρχικό σύνολο δεδοµένων, αλλά τα γραφήµατα διασποράς είναι µεταξύ τους ανόµοια. Σε κάθε γενεά απαιτείται ο υπολογισµός µιας κατάλληλης τιµής (ftness value) για κάθε µέλος του πληθυσµού. Στην παράγραφο 4.3. παρουσιάσαµε αρκετούς τρόπους για τον υπολογισµό της γραφικής διαφοράς των τιµών της καινούριας γενεάς από τον αρχικό πίνακα * που περιλαµβάνει τα δεδοµένα µε τα οποία ξεκινάµε Από αυτές τις γραφικές διαφορές προκύπτουν οι «κατάλληλες» τιµές (ftness values) οι οποίες επιλέγονται από µια default διαδικασία του λογισµικού Matlab [5] Κατασκευή της επόµενης γενεάς Οι ftness τιµές αποτελούν τον οδηγό µε τον οποίο επιλέγονται τα στοιχεία της επόµενης γενεάς. Η δηµιουργία των επόµενων γενεών πραγµατοποιείται µε το πρόγραµµα Matlab µε τη βοήθεια µιας default διαδικασίας (Matlab Genetc Algorthm Toolbox Stohastc Unform selecton procedure). Σε κάθε γενεά µπορούν να δηµιουργηθούν τριών ειδών τέκνα: 1) Elte τέκνα. Πρόκειται για τα τέκνα µε τις δύο καλύτερες ftness τιµές τα οποία αυτόµατα επιλέγονται για να είναι µέλη της επόµενης γενεάς ) Crossover τέκνα. Πρόκειται για τέκνα που προκύπτουν από το συνδυασµό δύο προηγούµενων γενεών. Περίπου το 8% των µελών µιας νέας γενεάς επιλέγονται µ αυτό τον τρόπο 3) Mutaton τέκνα. Πρόκειται για τέκνα που διορθώνουν τα µέλη της νέας γενεάς. Μια γενεά τροποποιείται αν προσθέσουµε σε κάθε στοιχείο της πατρικής γενεάς,

123 έναν τυχαίο αριθµό ο οποίος προκύπτει µε τη βοήθεια της κανονικής κατανοµής Ν(,.5). Σε κάθε γενεά που δηµιουργείται παρατηρούνται ολοένα και λιγότερες k διορθώσεις σύµφωνα µε τον ακόλουθο τύπο Var k = Var k-1 *(1-.75* ) Gen όπου Vark είναι η διακύµανση της κανονικής κατανοµής στην k γενεά και Gen είναι ο συνολικός αριθµός των γενεών. Τα στοιχεία (τέκνα) της νέας γενεάς ορθο κανονικοποιούνται και µετασχηµατίζονται σύµφωνα µε τον αλγόριθµο (βήµατα α-δ) που παρουσιάστηκε αναλυτικά στην παράγραφο [5] Κατασκευή της τελευταίας γενεάς Ο αλγόριθµος επαναλαµβάνεται 5 φορές ή µέχρι τη στιγµή που δεν παρατηρείται εξέλιξη στη διαδικασία για περισσότερο από δευτερόλεπτα. Οι γενεές µε µεγάλες ftness τιµές αποτελούν τις προφανείς λύσεις στο πρόβληµά µας [5] Εφαρµογή ηµιουργία µιας γενεάς µε ιδιότητες Anscombe δεδοµένων Στην εφαρµογή µας θα χρησιµοποιήσουµε τα σύνολα δεδοµένων του Anscombe ως αρχικά δεδοµένα για να τρέξουµε τον αλγόριθµό µας. Θα δηµιουργήσουµε µια νέα γενεά δεδοµένων που θα έχουν την ίδια στατιστική σύνοψη µε τα αρχικά σύνολα αλλά ανόµοια γραφήµατα διασποράς. Ο αλγόριθµος και η όλη διαδικασία πραγµατοποιείται µε τη βοήθεια του Matlab. Αρχικά εισάγουµε στο Matlab τα τέσσερα σύνολα δεδοµένων του Anscombe δηµιουργώντας ουσιαστικά τέσσερις πίνακες διαστάσεων 11x. Η 1 η στήλη καθενός από τους παρακάτω πίνακες αποτελεί την επεξηγηµατική µεταβλητή Χ και η η στήλη την µεταβλητή απόκρισης Υ. Ο κώδικας µε τον οποίο πραγµατοποιούµε την παραπάνω διαδικασία δίνεται για κάθε σύνολο δεδοµένων παρακάτω. Εποµένως για το 1 ο σύνολο δεδοµένων έχουµε: dataset1 = zeros(11,); dataset1(1,1) = 1; dataset1(,1) = 8; dataset1(3,1) = 13; dataset1(4,1) = 9; dataset1(5,1) = 11; dataset1(6,1) = 14; 1 ο Σύνολο εδοµένων Y dataset1(1,) = 8.4; dataset1(,) = 6.95; dataset1(3,) = 7.58; dataset1(4,) = 8.81; dataset1(5,) = 8.33; dataset1(6,) = 9.96;

124 dataset1(7,1) = 6; dataset1(8,1) = 4; dataset1(9,1) = 1; dataset1(1,1) = 7; dataset1(11,1) = 5; dataset1(7,) = 7.4; dataset1(8,) = 4.6; dataset1(9,) = 1.84; dataset1(1,) = 4.8; dataset1(11,) = 5.68; Για το ο σύνολο δεδοµένων έχουµε: dataset = zeros(11,); dataset(1,1) = 1; dataset(,1) = 8; dataset(3,1) = 13; dataset(4,1) = 9; dataset(5,1) = 11; dataset(6,1) = 14; dataset(7,1) = 6; dataset(8,1) = 4; dataset(9,1) = 1; dataset(1,1) = 7; dataset(11,1) = 5; ο Σύνολο εδοµένων Για το 3 ο σύνολο δεδοµένων έχουµε: dataset3 = zeros(11,); dataset3(1,1) = 1; dataset3(,1) = 8; dataset3(3,1) = 13; dataset3(4,1) = 9; dataset3(5,1) = 11; dataset3(6,1) = 14; dataset3(7,1) = 6; dataset3(8,1) = 4; dataset3(9,1) = 1; dataset3(1,1) = 7; dataset3(11,1) = 5; 3 ο Σύνολο εδοµένων Για το 4 ο σύνολο δεδοµένων έχουµε: dataset4 = zeros(11,); dataset4(1,1) = 8; dataset4(,1) = 8; dataset4(3,1) = 8; dataset4(4,1) = 8; dataset4(5,1) = 8; dataset4(6,1) = 8; dataset4(7,1) = 8; dataset4(8,1) = 8; dataset4(9,1) = 8; dataset4(1,1) = 8; dataset4(11,1) = 19; 4 ο Σύνολο εδοµένων Y dataset(1,) = 9.14; dataset(,) = 8.14; dataset(3,) = 8.76; dataset(4,) = 8.77; dataset(5,) = 9.6; dataset(6,) = 8.1; dataset(7,) = 6.13; dataset(8,) = 3.1; dataset(9,) = 9.13; dataset(1,) = 7.6; dataset(11,) = 4.74; Y dataset3(1,) = 7.46; dataset3(,) = 6.77; dataset3(3,) = 1.74; dataset3(4,) = 7.11; dataset3(5,) = 7.81; dataset3(6,) = 8.84; dataset3(7,) = 6.8; dataset3(8,) = 5.39; dataset3(9,) = 8.15; dataset3(1,) = 6.4; dataset3(11,) = 5.73; Y dataset4(1,) = 6.58; dataset4(,) = 5.76; dataset4(3,) = 7.71; dataset4(4,) = 8.84; dataset4(5,) = 8.47; dataset4(6,) = 7.4; dataset4(7,) = 5.5; dataset4(8,) = 5.56; dataset4(9,) = 7.91; dataset4(1,) = 6.89; dataset4(11,) = 1.5;

125 Με την εντολή dataset_fll ζητάµε να συµπληρωθούν οι τέσσερις πίνακες µε τις τιµές που καταχωρήθηκαν παραπάνω. Μ αυτό τον τρόπο έχουµε εισάγει στο Matlab τα τέσσερα σύνολα δεδοµένων του Anscombe. Στη συνέχεια γράφουµε τον κώδικα µε τον οποίο θα εκτελεστούν τα βήµατα (α)-(δ) που είδαµε αναλυτικά στην παράγραφο Στόχος µας είναι να δηµιουργήσουµε τέσσερα νέα σύνολα δεδοµένων που θα έχουν την ίδια στατιστική σύνοψη αλλά ανόµοια γραφήµατα µεταξύ τους, όπως ακριβώς συµβαίνει µε τα δεδοµένα Anscombe. Εκτελούµε τον κώδικα τέσσερις φορές, για κάθε σύνολο δεδοµένων χωριστά. Για το 1 ο σύνολο δεδοµένων έχουµε: =dataset1; o=dataset1; =-ones(11,1) * mean(); [Q,R] = grams(); d1 = sqrt(1) * Q * sqrtm(cov(o)) + ones (11,1) * mean(o); S = abs(-o); g=zeros(11,1); for = 1:11 g(,1) = S(,1) + S(,); end Για το ο σύνολο δεδοµένων έχουµε: =dataset; o=dataset; =-ones(11,1) * mean(); [Q,R] = grams(); d = sqrt(1) * Q * sqrtm(cov(o)) + ones (11,1) * mean(o); S = abs(-o); g=zeros(11,1); for = 1:11 g(,1) = S(,1) + S(,); end

126 Για το 3 ο σύνολο δεδοµένων έχουµε: =dataset3; o=dataset3; =-ones(11,1) * mean(); [Q,R] = grams(); d3 = sqrt(1) * Q * sqrtm(cov(o)) + ones (11,1) * mean(o); S = abs(-o); g=zeros(11,1); for = 1:11 g(,1) = S(,1) + S(,); end Για το 4 ο σύνολο δεδοµένων έχουµε: =dataset4; o=dataset4; =-ones(11,1) * mean(); [Q,R] = grams(); d4 = sqrt(1) * Q * sqrtm(cov(o)) + ones (11,1) * mean(o); S = abs(-o); g=zeros(11,1); for = 1:11 g(,1) = S(,1) + S(,); end Η εντολή [Q,R] = grams(); που εµφανίζεται στους παραπάνω κώδικες αναφέρεται στην ορθοκανονικοποίηση ενός πίνακα. Πρέπει να σηµειωθεί ότι η εντολή για την ορθοκανονικοποίηση Gram - Schmdt ενός πίνακα δεν υπάρχει στο Matlab. Ως εκ τούτου δηµιουργήσαµε κώδικα για να εφαρµόσουµε τη µέθοδο ορθοκανονικοποίησης Gram - Schmdt στο παράδειγµα µας η οποία παρουσιάζεται αµέσως παρακάτω. Ορθοκανονικοποίηση Gram - Schmdt functon [ Q,R ] = grams( A ) [m,n] = sze(a); Q = zeros(m,n); R=zeros(n,n);

127 for j =1:n v=a(:,j); for =1:j-1 R(,j) = Q(:,)'*A(:,j); v=v-r(,j)*q(:,); end R(j,j) = norm(v); Q(:,j) = v/r(j,j); end end Μετά την εκτέλεση του παραπάνω κώδικα για καθένα από τα τέσσερα αρχικά σύνολα δεδοµένων προκύπτουν τέσσερα νέα σύνολα δεδοµένων τα οποία παρουσιάζουµε στον ακόλουθο πίνακα. Α/Α * 1 Πίνακας 4.4 Νέα σύνολα δεδοµένων µε ιδιότητες Anscombe 1 ο Σύνολο ο Σύνολο 3 ο Σύνολο 4 ο Σύνολο * * * * * * * Υ 1 Υ 3 Υ 3 4 Υ Υπολογίζουµε µε τη βοήθεια κάποιου στατιστικού πακέτου (SPSS) ορισµένα βασικά στατιστικά µέτρα των ανωτέρω 4 συνόλων Στατιστικό * 1 Πίνακας 4.5 Βασικά Στατιστικά Μέτρα 1 ο Σύνολο ο Σύνολο 3 ο Σύνολο 4 ο Σύνολο * * * * * * * Υ 1 Υ 3 Υ 3 4 Υ 4 Ν Μέση τιµή Τυπική Απόκλιση SD Συσχέτιση r Παρατηρούµε ότι η µέση και η τυπική απόκλιση των µεταβλητών * * * * 1,, 3, 4 είναι ίσες κάτι που ισχύει και για τις µεταβλητές * * * * Y 1,Y,Y 3,Y 4.

128 Ακόµη ο συντελεστής γραµµικής συσχέτισης r και στα τέσσερα σετ δεδοµένων ισούται µε,8. Στη συνέχεια επιχειρούµε να εκτιµήσουµε την εξίσωση παλινδρόµησης για καθένα από τα τέσσερα σετ δεδοµένων. * Παλινδρόµηση 1 - Σταθερά Πίνακας 4.6 Αποτελέσµατα Παλινδροµήσεων * Υ 1 * * - Υ * * 3 - Υ 3 * * 4 - Υ 4 b Κλίση b Εξίσωση Παλινδρόµησης Εκτιµώµενο τυπικό σφάλµα του b 1 Συντελεστής R προσδιορισµού Προσαρµ. Συντελεστής προσδιορισµού R adj y = 3+.5x y = 3+.5x y = 3+.5x y = 3+.5x Παρατηρούµε ότι και τα τέσσερα καινούρια σύνολα δεδοµένων περιγράφονται από ακριβώς το ίδιο γραµµικό µοντέλο και το οποίο δίνεται από την εξίσωση y = 3+.5x. Ταυτόχρονα έχουµε την ίδια τιµή για τον συντελεστή προσδιορισµού R =.667 όπως και για τον προσαρµοσµένο συντελεστή προσδιορισµού R adj =.69 πράγµα που σηµαίνει ότι για όλα τα σύνολα το ποσοστό της µεταβλητότητας της Υ που ερµηνεύεται από την ανεξάρτητη µεταβλητή Χ πλησιάζει το 63%. Ακόµη και η τιµή του στατιστικού F και για τα τέσσερα σύνολα δεδοµένων είναι ίδια και ανέρχεται σε Εποµένως, είναι προφανές ότι και τα τέσσερα σύνολα περιγράφονται µαθηµατικά κατά τρόπο ισοδύναµο ή ταυτόσηµο. Ακριβώς τα ίδια συµπεράσµατα είχαν προκύψει και κατά την ανάλυση των συνόλων δεδοµένων του Anscombe. Σχεδιάζοντας για καθένα από τα τέσσερα σύνολα δεδοµένων το αντίστοιχο γράφηµα διασποράς βλέπουµε ότι προκύπτουν τέσσερα ανόµοια γραφήµατα. Πράγµατι, έχουµε:

129 Γράφηµα 4.4 Γραφήµατα διασποράς των τεσσάρων νέων συνόλων δεδοµένων Τα πρώτα συµπεράσµατα από τη µελέτη των παραπάνω γραφηµάτων διασποράς είναι ότι: α) Το νέφος των σηµείων που δηµιουργεί το 1 ο σύνολο δεδοµένων (σχ. 1 γράφ. 4.4) φαίνεται να ακολουθεί µια νοητή ευθεία γραµµή. β) Τα σηµεία του ου συνόλου δεδοµένων (σχ. γράφ. 4.4) δηµιουργούν µια νοητή καµπύλη γραµµή. Τούτο αποκλείει την ύπαρξη γραµµικότητας. γ) Τα σηµεία του 3 ου συνόλου δεδοµένων (σχ. 3 γράφ. 4.4) δείχνουν να τοποθετούνται σε µια νοητή ευθεία γραµµή µε ασήµαντη µεταβλητότητα. Ωστόσο υπάρχει ένα σηµείο που απέχει σηµαντικά από την οµάδα των υπόλοιπων σηµείων δ) Τα σηµεία του 4 ου συνόλου δεδοµένων (σχ. 4 γράφ. 4.4) τοποθετούνται σε µια ευθεία µε εξαιρετικά απότοµη κλίση (σχεδόν κάθετη στον άξονα ' xx. Όπως και στην περίπτωση (γ) ένα σηµείο απέχει πολύ από την οµάδα των υπολοίπων σηµείων.

130 Προσαρµόζοντας την εξίσωση παλινδρόµησης y = 3+.5x (που έχουµε εκτιµήσει) στα παραπάνω γραφήµατα η κατάσταση γίνεται περισσότερο ξεκάθαρη. Γράφηµα 4.5 Γραφήµατα διασποράς στα οποία έχουµε προσαρµόσει την εξίσωση παλινδρόµησης α) Τα ζεύγη των σηµείων στο 1 ο σχήµα του γραφήµατος 4.5 ακολουθούν νοητά την ευθεία παλινδρόµησης. Τούτο σηµαίνει ότι το υπόδειγµα παλινδρόµησης που έχουµε εκτιµήσει είναι κατάλληλο και ικανοποιητικό. Αυτό αποδεικνύεται και από το γράφηµα των υπολοίπων ως προς τις τιµές της µεταβλητής φαίνεται ότι ικανοποιεί τις γνωστές προϋποθέσεις. (1 γράφ. 4.6) * 1 ( e, x ) το οποίο β) Στο ο σχήµα του γραφήµατος 4.5 τα σηµεία δηµιουργούν µια οµαλή καµπύλη πράγµα που δείχνει ότι υφίσταται τετραγωνική και όχι γραµµική σχέση µεταξύ

131 αυτών. Το γράφηµα των υπολοίπων ως προς τις τιµές της µεταβλητής * ( e, x ) είναι σαφές και απορρίπτει την ύπαρξη γραµµικότητας πέραν πάσης αµφιβολίας. ( γράφ. 4.6) γ) Στο 3 ο σχήµα του γραφήµατος 4.5 παρατηρούµε ότι ένα σηµείο απέχει σηµαντικά από την ευθεία παλινδρόµησης που έχουµε εκτιµήσει. Το σηµείο αυτό αποτελεί ακραία τιµή (outler) για τα δεδοµένα µας που δεν φαίνεται να επηρεάζει όµως την εξίσωση παλινδρόµησης. Ωστόσο το γράφηµα υπολοίπων ως προς τις τιµές της µεταβλητής * 3 ( e, x ) αποδεικνύει ότι το µοντέλο παλινδρόµησης που έχουµε εκτιµήσει για το συγκεκριµένο σύνολο δεδοµένων δεν είναι επαρκές. (3 γράφ. 4.6) δ) Στο 4 ο σχήµα του γραφήµατος 4.5 είναι φανερό ότι το σηµείο που απέχει από την οµάδα των υπολοίπων δεδοµένων είναι καθοριστικό ως προς την προσαρµογή της ευθείας παλινδρόµησης σ αυτά. Είναι προφανές ότι το συγκεκριµένο σηµείο αποτελεί παρατήρηση επίδρασης (nfluental pont) πράγµα που σηµαίνει ότι η ευθεία παλινδρόµησης που έχουµε εκτιµήσει επηρεάζεται σηµαντικά απ αυτό. Πράγµατι, η παρατήρηση επίδρασης επηρεάζει καθοριστικά το συντελεστή b 1 της εξίσωσης παλινδρόµησης και άρα και την κλίση της ευθείας. Εποµένως η ευθεία παλινδρόµησης σε καµία περίπτωση δεν είναι αντιπροσωπευτική των αρχικών µας σηµείων Αυτό αποδεικνύεται και από το αντίστοιχο γράφηµα υπολοίπων ως προς τις τιµές της µεταβλητής * 4 ( e, x ). (4 γράφ. 4.6) Γράφηµα 4.6 Γραφήµατα υπολοίπων ως προς τις τιµές των * ( e, x ) ιάγραµµα υπολοίπων ιάγραµµα υπολοίπων 1 1 Υπόλοιπα Υπόλοιπα * -3 * ιάγραµµα υπολοίπων ιάγραµµα υπολοίπων 3 3 Υπόλοιπα Υπόλοιπα * 4*

132 Πριν τελειώσουµε µε τη συγκεκ&rh