ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΑΛΙΝΔΡΟΜΗΣΗ



Σχετικά έγγραφα
5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Εισόδημα Κατανάλωση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

9. Παλινδρόμηση και Συσχέτιση

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Γ. Πειραματισμός - Βιομετρία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Διαχείριση Υδατικών Πόρων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Διάστημα εμπιστοσύνης της μέσης τιμής

Απλή Παλινδρόμηση και Συσχέτιση

Απλή Γραμμική Παλινδρόμηση II

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι)

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα


Περιγραφική Ανάλυση ποσοτικών μεταβλητών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Χ. Εμμανουηλίδης, 1

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΟΙΚΟΝΟΜΕΤΡΙΑ. Α μέρος: Πολυσυγγραμμικότητα. Παπάνα Αγγελική

Μια από τις σημαντικότερες δυσκολίες που συναντά ο φυσικός στη διάρκεια ενός πειράματος, είναι τα σφάλματα.

α + α+ α! (=+9 [1] ι «Analyze-Regression-Linear». «Dependent» ι η η η!ηη ι «Independent(s)» η!ηη. # ι ι ι!η " ι ιηη, ι!" ι ηιι. 1 SPSS ι η η ι ιηη ι η

Γ. Πειραματισμός Βιομετρία

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Ενδεικτικές ασκήσεις ΔΙΠ 50

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Αναλυτική Στατιστική

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Διάλεξη 1 Βασικές έννοιες

Εφαρμοσμένη Στατιστική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Πολλαπλή παλινδρόμηση (Multivariate regression)

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2013 στη Στατιστική

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

7. Ανάλυση Διασποράς-ANOVA

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

ΕΙ Η ΠΑΛΙΝ ΡΟΜΗΣΗΣ. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΛΙΝ ΡΟΜΗΣΗ (Simple Linear Regression) ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ (Regression) ΠΑΛΙΝ ΡΟΜΗΣΗ.

Κεφάλαιο 1 o Εξισώσεις - Ανισώσεις

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Transcript:

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΑΛΙΝΔΡΟΜΗΣΗ Δημοκρίτειο Πανεπιστήμιο Θράκης Τμήμα Δασολογίας και Διαχείρισης Περιβάλλοντος και Φυσικών Πόρων 4 0 εξάμηνο ΚΙΤΙΚΙΔΟΥ ΚΥΡΙΑΚΗ

ΕΙΣΑΓΩΓΗ Σχέσεις εξάρτησης μεταξύ των μεταβλητών Ο κλάδος της Στατιστικής που εξετάζει τη σχέση μεταξύ δύο ή περισσότερων μεταβλητών με απώτερο σκοπό την πρόβλεψη μιας από αυτές μέσω των άλλων χαρακτηρίζεται με την ονομασία ανάλυση παλινδρόμησης (regresson analyss). Οι μεταβλητές αυτές θα πρέπει να είναι ποσοτικές (quanttatve), δηλαδή να εκφράζονται είτε σε κλίμακα διαστημάτων (nterval scale) είτε σε αναλογική κλίμακα (rato scale). Κάθε μεταβλητή έχει έναν αριθμό τιμών (values) ή παρατηρήσεων (observatons) ή περιπτώσεων (cases). Η ανάλυση παλινδρόμησης μπορεί να εφαρμοστεί και σε ποιοτικές (qualtatve) μεταβλητές, όμως δε θα ασχοληθούμε με αυτή την περίπτωση. Η μεταβλητή που θέλουμε να εκτιμήσουμε ή να προβλέψουμε λέγεται εξαρτημένη (dependent) ή αποκριτική (responsve) ή πραγματική ή παρατηρηθείσα (observed) ή μεταβλητή εξόδου (output varable) και οι μεταβλητές που θεωρούνται δεδομένες λέγονται ανεξάρτητες (ndependents) ή προβλέπουσες (predctors) ή παλινδρομούσες (regressors) ή μεταβλητές εισόδου (nput varables). Η σχέση που συνδέει την εξαρτημένη μεταβλητή με τις ανεξάρτητες είναι στατιστική (statstcal) και όχι συναρτησιακή (functonal). Στη στατιστική σχέση, για κάθε τιμή της ανεξάρτητης (-ων) μεταβλητής (-ών) υπολογίζεται μια θεωρητική τιμή της εξαρτημένης μεταβλητής, ενώ η πραγματική τιμή της βρίσκεται μέσα σε ένα εύρος τιμών, το οποίο περιέχει τη θεωρητική τιμή. Στη συναρτησιακή σχέση, δηλαδή σε μια εξίσωση, κάθε τιμή της ανεξάρτητης μεταβλητής δίνει πάντα την ίδια τιμή στην εξαρτημένη μεταβλητή (μορφή Y=f(X), όπου Υ και Χ η εξαρτημένη και η ανεξάρτητη μεταβλητή αντίστοιχα). Ωστόσο, για ευκολία χρησιμοποιούμε τον όρο «εξισώσεις παλινδρόμησης», παρόλο που δεν πρόκειται για εξίσωση αλλά για στατιστικό μοντέλο. Η γραμμή παλινδρόμησης Αν παραστήσουμε τα ζεύγη ( X, Y των παρατηρήσεων μεταβλητών σε ένα ) σύστημα ορθογώνιων αξόνων, παρατηρούμε ότι προκύπτει μια διασπορά των 1

σημείων που αντιστοιχούν στις μεταβλητές που εξετάζουμε. Η παράσταση αυτή των σημείων καλείται στικτό διάγραμμα ή διάγραμμα διασποράς (scatter dagram, scatter plot) και μπορεί να μας δώσει σημαντικές πληροφορίες για τη σχέση εξάρτησης που ενδεχομένως υπάρχει μεταξύ των μεταβλητών τις οποίες εξετάζουμε. Η απλούστερη περίπτωση παλινδρόμησης είναι η απλή γραμμική παλινδρόμηση (smple lnear regresson), κατά την οποία υπάρχει μόνο μια ανεξάρτητη μεταβλητή X και η εξαρτημένη μεταβλητή Y, η οποία μπορεί να προσεγγιστεί ικανοποιητικά από μία γραμμική συνάρτηση του X (παλινδρόμηση του Y πάνω στο Χ). Στο παρακάτω σχήμα δίνεται ένα διάγραμμα διασποράς 5 σημείων και έχει χαραχτεί μια γραμμή (στην περίπτωσή μας ευθεία) που φαίνεται πως περνάει από το μέσο του νέφους των σημείων αυτών. Η ευθεία αυτή έχει τη μορφή Yˆ =b0+b 1 Χ, όπου Yˆ (Υ καπέλο) είναι η εκτιμώμενη (estmated) ή προβλεφθείσα (predcted) ή προσαρμοσθείσα (adjusted, ftted) ή θεωρητική (theoretcal) ή αναμενόμενη (expected) τιμή του Y για δοσμένη τιμή της Χ. Η κάθε τιμή Υ δίνεται από τη σχέση Υ=β 0 +β 1 Χ+e, όπου β 0 και β 1 είναι οι (πραγματικοί) συντελεστές παλινδρόμησης (regresson coeffcents) και e το σφάλμα (error) ή υπόλοιπο (resdual), δηλαδή η διαφορά Y Yˆ. Τα b 0 και b 1 στην ευθεία παλινδρόμησης είναι οι εκτιμητές των συντελεστών παλινδρόμησης (regresson estmators) β 0 και β 1. Η ευθεία απλής γραμμικής παλινδρόμησης.

Αν η γραμμή παλινδρόμησης που φαίνεται πως περνάει από το μέσο του νέφους των τιμών ενός διαγράμματος διασποράς δεν είναι ευθεία, τότε θα πρέπει να εκτιμήσουμε μια γραμμή μη γραμμικής παλινδρόμησης (nonlnear regresson), όπως για παράδειγμα αυτή του παρακάτω σχήματος. Στην περίπτωση που οι ανεξάρτητες μεταβλητές είναι παραπάνω από μια (πολλαπλή παλινδρόμηση, multple regresson), τότε θα έχουμε ένα ν-διάστατο διάγραμμα διασποράς, με αριθμό διαστάσεων ν ίσο με τον αριθμό των ανεξάρτητων μεταβλητών συν ένα, το οποίο καλείται και επιφάνεια παλινδρόμησης (regresson surface) ή επιφάνεια απόκρισης (response surface). Ένα παράδειγμα τρισδιάστατου διαγράμματος (δηλαδή με ανεξάρτητες μεταβλητές Χ 1 και Χ ) δίνεται στο επόμενο σχήμα. Τέλος, στο τελευταίο σχήμα δίνεται ένα διάγραμμα διασποράς, όπου δε φαίνεται να υπάρχει κάποια σχέση μεταξύ των μεταβλητών. Διάγραμμα διασποράς μη γραμμικής παλινδρόμησης. 3

Τρισδιάστατο διάγραμμα διασποράς. Μη ύπαρξη σχέσης μεταξύ μεταβλητών. Το στατιστικό πακέτο SPSS Το στατιστικό πακέτο SPSS (Statstcal Package for the Socal Scences) είναι ένα από τα πιο χρησιμοποιούμενα προγράμματα ηλεκτρονικού υπολογιστή, το οποίο, ανάμεσα στα άλλα, έχει ενσωματωμένα και δυο υποπρογράμματα παλινδρόμησης, το REGRESSION για γραμμική και το NLR για μη γραμμική παλινδρόμηση. Αναφορές σε εντολές του πακέτου αυτού θα γίνονται όπου κρίνεται σκόπιμο. 4

Η ΜΕΘΟΔΟΣ ΤΩΝ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ Γενικά Η πιο απλή διαδικασία προσαρμογής μιας γραμμής σε ένα διάγραμμα διασποράς είναι, βέβαια, «με το μάτι». Αυτή όμως έχει πολλά μειονεκτήματα, παρά την απλότητά της. Το κυριότερο είναι η έλλειψη αντικειμενικότητας, αφού διάφορα άτομα μπορούν να χαράξουν διαφορετικές μεταξύ τους γραμμές. Ακόμα και το ίδιο άτομο μπορεί να χαράζει διαφορετικές γραμμές κάθε φορά. Χρειαζόμαστε λοιπόν μια ακριβέστερη μέθοδο για την προσαρμογή μιας γραμμής σε τέτοιου είδους δεδομένα. Μια μέθοδος που χρησιμοποιείται για την εκτίμηση των παραμέτρων της γραμμής παλινδρόμησης που προσαρμόζεται καλύτερα στα δεδομένα, είναι η μέθοδος των ελάχιστων τετραγώνων (least squares method) ή συνηθισμένη μέθοδος των ελάχιστων τετραγώνων (ordnary least squares method). Η μέθοδος αυτή συνίσταται στον προσδιορισμό των παραμέτρων της γραμμής παλινδρόμησης, έτσι ώστε να ελαχιστοποιείται το άθροισμα των τετραγώνων των σφαλμάτων e ( e Y Y ˆ ) =, δηλαδή e mn. Βασικές υποθέσεις Για να εφαρμόσουμε την ανάλυση παλινδρόμησης και να είναι στατιστικά έγκυρα τα αποτελέσματα που θα προκύψουν, θα πρέπει να ισχύουν ορισμένες υποθέσεις, τόσο για τα δεδομένα του δείγματος που θα χρησιμοποιηθούν στην ανάλυση παλινδρόμησης, όσο και για τον πληθυσμό από τον οποίο πάρθηκε το δείγμα. Οι υποθέσεις αυτές είναι: 1. Να ξέρουμε ότι η πραγματική εξίσωση το πληθυσμού, που συνδέει την εξαρτημένη μεταβλητή Υ με την (τις) ανεξάρτητη (-τες) Χ είναι της μορφής που θέλουμε να προσαρμόσουμε.. Οι τιμές της (των) Χ μεταβλητής (-ών) να είναι γνωστές σταθερές (fxed), όχι τυχαίες. 5

3. Οι τιμές της Υ να είναι τυχαίες (random). 4. Οι τιμές της Υ να είναι ασυσχέτιστες (uncorrelated). 5. Η διασπορά ή μεταβλητότητα ή διακύμανση (varance) της Υ να είναι ομοιογενής (homogeneous), δηλαδή σταθερή, σε όλο το εύρος των τιμών της (των) Χ μεταβλητών. 6. Αν, εκτός από την εκτίμηση των συντελεστών παλινδρόμησης, θέλουμε να εκτιμήσουμε διαστήματα εμπιστοσύνης (confdence ntervals) ή να κάνουμε ελέγχους στατιστικών υποθέσεων (null hypotheses tests) με το t ή F κριτήριο, τότε οι τιμές της Υ πρέπει επιπλέον να ακολουθούν την κανονική κατανομή. 7. Αν, εκτός από την εκτίμηση των συντελεστών παλινδρόμησης, θέλουμε να εκτιμήσουμε διαστήματα εμπιστοσύνης (confdence ntervals) ή να κάνουμε ελέγχους στατιστικών υποθέσεων (null hypotheses tests) με το t ή F κριτήριο, τότε οι τιμές της Υ πρέπει επιπλέον να είναι και ανεξάρτητες (ndependent). Όταν ικανοποιούνται οι 4 πρώτες υποθέσεις, τότε η μέθοδος των ελάχιστων τετραγώνων δίνει τις άριστες (best) ή τις πιο αποτελεσματικές (effcent - effectve) (δηλαδή με τη μικρότερη διασπορά) και αμερόληπτες (unbased) εκτιμήσεις των συντελεστών παλινδρόμησης β. Ένας εκτιμητής ˆθ λέγεται αμερόληπτος εκτιμητής μιας παραμέτρου θ, όταν η προσδοκώμενη τιμή του είναι ίση με το θ. Με άλλα λόγια, αν πάρουμε όλα τα δυνατά δείγματα από έναν πληθυσμό (ή πολλά δείγματα) και υπολογίσουμε για το καθένα από αυτά το ˆθ, τότε ο αριθμητικός μέσος όλων των ˆθ θα είναι ίσος με το θ (ή θα πλησιάζει το θ). Παρόλο που οι βασικές υποθέσεις ποτέ δεν πληρούνται με την αυστηρή στατιστική έννοια, τα αποτελέσματα που παίρνουμε με τη μέθοδο των ελάχιστων τετραγώνων θα είναι έγκυρα, όταν οι υποθέσεις ικανοποιούνται κατά προσέγγιση και το μέγεθος του δείγματος είναι μεγάλο. Αν δε συμβαίνουν αυτά, τότε ίσως θα πρέπει να επανεξετάσουμε το μοντέλο παλινδρόμησης, να το απορρίψουμε ή να εφαρμόσουμε κάποια άλλη μέθοδο παλινδρόμησης, εκτός των συνηθισμένων ελάχιστων τετραγώνων. Η απευθείας εξέταση της εξαρτημένης μεταβλητής Υ δεν είναι και τόσο χρήσιμη στην παλινδρόμηση, επειδή οι παρατηρήσεις παίρνουν τιμές που είναι συνάρτηση του επιπέδου μέτρησης της (των) ανεξάρτητης (-ων) μεταβλητής (-ών). Έτσι, η εξέτασή 6

της γίνεται έμμεσα με την εξέταση των υπολοίπων (e). Μπορούμε, λοιπόν, να εκφράσουμε την 3 η, 4 η, 5 η, 6 η και 7 η υπόθεση ως εξής: 1. Τα σφάλματα (υπόλοιπα) πρέπει να είναι τυχαία.. Τα σφάλματα πρέπει να είναι ασυσχέτιστα. 3. Η διακύμανση των υπολοίπων πρέπει να είναι ομοιογενής (σταθερή) σε όλο το εύρος των πραγματικών τιμών Υ. Εναλλακτικά, μπορούμε να εξετάσουμε αν η διακύμανση των υπολοίπων είναι σταθερή σε όλο το εύρος των θεωρητικών τιμών Yˆ, επειδή οι τιμές των e και της Υ συνήθως συσχετίζονται, ενώ οι τιμές των e και της Yˆ όχι. 4. Τα υπόλοιπα πρέπει να ακολουθούν την κανονική κατανομή. 5. Τα υπόλοιπα πρέπει να είναι ανεξάρτητα. Προσαρμογή ευθείας γραμμής με τη μέθοδο των ελάχιστων τετραγώνων Όπως έχουμε ήδη αναφέρει, η μέθοδος των ελάχιστων τετραγώνων ελαχιστοποιεί το άθροισμα των τετραγώνων των σφαλμάτων, δηλαδή e mn. Στην πιο απλή περίπτωση παλινδρόμησης, στην απλή γραμμική παλινδρόμηση, όπου η πραγματική ευθεία είναι η Υ=β0+β 1 Χ+e και η εκτιμηθείσα ευθεία η Yˆ =b0+b 1 Χ, (δες κεφάλαιο 1), οι εκτιμητές b 0 και b 1 υπολογίζονται ως εξής: Υπολογίζουμε το άθροισμα των τετραγώνων των σφαλμάτων: ( ) ( ) e= Y Yˆ = Y b + bx = Y b bx e = Y b bx και b 1 : b 0 b 1 e e 0 1 0 1 0 1 Βρίσκουμε τις μερικές παραγώγους (partal dervatves) του ( )( Y b bx) ( Y b bx) = 1 = 0 1 0 1 ( X )( Y b bx) ( Y b bx) = = Χ 0 1 0 1 e ως προς b0 Μηδενίζουμε τις μερικές παραγώγους και λύνουμε το σύστημα Χ ( εξισώσεις και άγνωστοι, οι b 0 και b 1 ): 7

e = 0 b ( 0 1 ) 0 0 1 0 0 Y b bx = Y nb b X= S XY ( b bx) 0 = ( XY ) b X b X = = b1 b =... 0 b1 =... 0 1 0 0 1 0 όπου n το μέγεθος του δείγματος (ο αριθμός των παρατηρήσεων). Στην εξίσωση Yˆ =b0+b 1 Χ η τιμή του εκτιμητή b 0 του συντελεστή β 0 παριστάνει την τομή της ευθείας με τον άξονα των y και λέγεται σταθερός όρος (ntercept, constant term). Με άλλα λόγια, είναι η τιμή της εξαρτημένης μεταβλητής Υ όταν X=0. Όταν b 0 =0, τότε η ευθεία διέρχεται από την αρχή των αξόνων και έχουμε γραμμική παλινδρόμηση δια της αρχής (lnear regresson through the orgn) ή γραμμική παλινδρόμηση χωρίς σταθερό όρο (no-ntercept lnear regresson, no-constant term lnear regresson). Έστω τώρα δυο τιμές x 1 και x =x 1 +1 της ανεξάρτητης μεταβλητής Χ. Παίρνοντας τη διαφορά των αντίστοιχων θεωρητικών τιμών της εξαρτημένης μεταβλητής βρίσκουμε ŷ - ŷ 1 =(b 0 +b 1 x )- (b 0 +b 1 x 1 )=b 1 (x -x 1 )=b 1 (x 1 +1-x 1 )=b 1, δηλαδή ŷ = ŷ 1 +b 1. Συνεπώς, ο εκτιμητής b 1 παριστάνει τη μεταβολή της εξαρτημένης μεταβλητής Υ όταν το Χ μεταβληθεί κατά μια μονάδα ή, με άλλα λόγια, την κλίση (slope) της ευθείας παλινδρόμησης. Έτσι, όταν το X αυξηθεί κατά μια μονάδα τότε το Yˆ αυξάνεται κατά b1 μονάδες όταν b 1 <0 ή ελαττώνεται κατά b 1 μονάδες όταν b 1 <0. Στην πολλαπλή γραμμική παλινδρόμηση, όπου οι ανεξάρτητες μεταβλητές είναι παραπάνω από μια, η πραγματική ευθεία είναι η Υ=β 0 +β 1 Χ 1 +β Χ +...+β k X k +e και η εκτιμηθείσα ευθεία η Yˆ =b0+ b 1 Χ 1 +b Χ +...+b k X k. Όμοια με την εφαρμογή της μεθόδου των ελάχιστων τετραγώνων στην απλή γραμμική παλινδρόμηση, υπολογίζουμε το e, τις μερικές παραγώγους του ως προς b 0, b 1,..., b k, τις μηδενίζουμε και καταλήγουμε σε ένα σύστημα pxp, όπου p=ο αριθμός των συντελεστών παλινδρόμησης=k+1. Εδώ, η τιμή του εκτιμητή b 0 του συντελεστή β 0 παριστάνει την τομή της p-διάστατης επιφάνειας των Χ με τον άξονα των y και λέγεται επίσης σταθερός όρος (ntercept, constant term). Με άλλα λόγια, είναι η τιμή της εξαρτημένης μεταβλητής Υ όταν Χ 1 =Χ =...=X k =0. Ανάλογα με την απλή γραμμική παλινδρόμηση, ο εκτιμητής b (=1,, k) παριστάνει τη μεταβολή της 8

εξαρτημένης μεταβλητής Υ όταν η Χ μεταβληθεί κατά μια μονάδα και όλες οι άλλες Χ κρατούνται σταθερές. Για την προσαρμογή των γραμμικών εξισώσεων στα δεδομένα, μια από τις πιο χρησιμοποιούμενες μεθόδους εισαγωγής ανεξάρτητων μεταβλητών, που είναι ενσωματωμένη στο υποπρόγραμμα REGRESSION του SPSS, είναι η ENTER. Η μέθοδος ENTER εξαναγκάζει την εισαγωγή όλων των ανεξάρτητων μεταβλητών στο μοντέλο, χωρίς άλλους ελέγχους, απορρίπτοντας, όμως, από την αρχή, τις μεταβλητές για τις οποίες διαπιστώνεται τέλεια πολυσυγγραμμικότητα (multcolnearty) Η πολυσυγγραμμικότητα θα εξηγηθεί παρακάτω, στα μέτρα επάρκειας του μοντέλου. Η μέθοδος των ελάχιστων τετραγώνων στη μη γραμμική παλινδρόμηση Η μέθοδος των ελάχιστων τετραγώνων μπορεί να εφαρμοστεί και στη μη γραμμική παλινδρόμηση με την ίδια λογική, δηλαδή τον υπολογισμό του e, των μερικών παραγώγων του ως προς b0, b 1,..., b k, το μηδενισμό τους και τέλος τη λύση ενός συστήματος pxp, όπου p=ο αριθμός των συντελεστών παλινδρόμησης=k+1. Όμως, οι υπολογισμοί αυτοί είναι εξαιρετικά πολύπλοκοι και θα πρέπει, σε όλες σχεδόν τις περιπτώσεις, να χρησιμοποιήσουμε επαναληπτικές μεθόδους (αλγόριθμους). Όταν υπάρξει λύση σε ένα τέτοιο σύστημα pxp, μετά από έναν αριθμό επαναλήψεων (teratons), λέμε ότι η επαναληπτική διαδικασία συγκλίνει (converges). Για να εφαρμόσουμε κάποια τέτοια επαναληπτική διαδικασία, συνήθως θα πρέπει να δώσουμε στους εκτιμητές των συντελεστών παλινδρόμησης κάποιες αρχικές τιμές (startng values, ntal values). Οι τιμές αυτές μπορεί να είναι υποθετικές, σε λογικά, βέβαια, πλαίσια, ή προκαταρκτικές εκτιμήσεις που βασίζονται σε οποιαδήποτε πληροφορία είναι διαθέσιμη για την εξίσωση παλινδρόμησης και τα δεδομένα που έχουμε στη διάθεσή μας. Ελπίζεται ότι οι αρχικές αυτές τιμές, θα βελτιωθούν μετά την εκτέλεση ενός αριθμού επαναληπτικών υπολογισμών. Σε μερικά στατιστικά πακέτα (όχι στο SPSS), η τιμή προεπιλογής (default value) για τις αρχικές τιμές των εκτιμητών είναι η μονάδα. Για την προσαρμογή των μη γραμμικών εξισώσεων στα δεδομένα αναπτύχθηκαν διάφοροι αλγόριθμοι και λογισμικά. Η μέθοδος Levenberg Marquardt, η οποία είναι ενσωματωμένη στο υποπρόγραμμα NLR του SPSS, είναι 9

η μέθοδος προεπιλογής (default). Πρόκειται για έναν συμβιβασμό δυο μεθόδων, της μεθόδου γραμμικοποίησης (lnearzaton method) ή μεθόδου Gauss-Newton ή σειράς Taylor (Taylor seres method) και της μεθόδου της ταχύτατης καθόδου (steepest descent method). Η μέθοδος Levenberg Marquardt φαίνεται να συνδυάζει τα καλύτερα χαρακτηριστικά και των δυο αυτών μεθόδων, ενώ αποφεύγει τους πιο σοβαρούς περιορισμούς τους. Είναι καλή στο ότι σχεδόν πάντοτε συγκλίνει και δε «σέρνεται», όπως συχνά κάνει η μέθοδος της ταχύτατης καθόδου. Γενικά, πρόκειται για μια μέθοδο που φαίνεται να δουλεύει καλά σε πολλές περιπτώσεις κι έτσι αποτελεί μια λογική πρακτική επιλογή. ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΚΑΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ Εκτίμηση διαστημάτων εμπιστοσύνης Για την εκτίμηση των διαστημάτων εμπιστοσύνης (confdence ntervals) για τους συντελεστές παλινδρόμησης β μπορούν να χρησιμοποιηθούν οι γενικές στατιστικές σχέσεις που ισχύουν για την εκτίμηση παραμέτρων του πληθυσμού. Έτσι, κάθε συντελεστής παλινδρόμησης παίρνει τιμές μέσα σε ένα κλειστό διάστημα που υπολογίζεται από τη σχέση: όπου: ( a, ) β ( a, ) b t n s b b + t n s b b s b = ο εκτιμητής του συντελεστή παλινδρόμησης β = το τυπικό σφάλμα εκτίμησης του συντελεστή β (δες Βιομετρία Ι) t( a, n p ) = η τιμή της t (Student) κατανομής, για πιθανότητα (probablty) ή επίπεδο σημαντικότητας (sgnfcance level) α/ και (n-p) βαθμούς ελευθερίας (degrees of freedom).. p = αριθμός συντελεστών παλινδρόμησης n = μέγεθος δείγματος (αριθμός παρατηρήσεων) 10

Αν το διάστημα εμπιστοσύνης περιέχει την τιμή μηδέν, τότε ο συντελεστής παλινδρόμησης β δε διαφέρει στατιστικά σημαντικά από το μηδέν (για πιθανότητα a). Συνεπώς, θα πρέπει να επανεξετάσουμε (ή να απορρίψουμε) το αντίστοιχο μοντέλο παλινδρόμησης. Στο σημείο αυτό θα πρέπει να επισημάνουμε πως, ενώ για την γραμμική παλινδρόμηση είναι ξεκάθαροι οι διάφοροι στατιστικοί έλεγχοι, στη μη γραμμική παλινδρόμηση τα πράγματα είναι συγκεχυμένα. Στη γραμμική παλινδρόμηση, όταν τα σφάλματα είναι τυχαία, έχουν ομοιογενή διασπορά και κατανέμονται κανονικά, οι εκτιμητές που παίρνονται με τη μέθοδο των ελάχιστων τετραγώνων έχουν ελάχιστη διασπορά και είναι αμερόληπτοι. Στην περίπτωση των μη γραμμικών μοντέλων, ακόμα και αν ισχύουν οι παραπάνω υποθέσεις για τα σφάλματα, δε μπορεί να γίνουν γενικές διαπιστώσεις σχετικά με τις ιδιότητες των εκτιμητών, εκτός αν πρόκειται για μεγάλα δείγματα. Οι εκτιμητές γενικά δεν είναι αμερόληπτοι, αλλά είναι αμερόληπτοι και ελάχιστης διασποράς εκτιμητές στο όριο (to the lmt), δηλαδή οι ιδιότητές τους είναι προσεγγιστικές ή ασυμπτωτικές (asymptotc). Συνεπώς, τα τυπικά σφάλματα και τα διαστήματα εμπιστοσύνης των εκτιμητών, που υπολογίζονται με τους τύπους που προαναφέρθηκαν, είναι ασυμπτωτικά. Έλεγχοι υποθέσεων Παρακάτω περιγράφονται οι έλεγχοι υποθέσεων που μπορούν να γίνουν για τους συντελεστές παλινδρόμησης, με το F και το t κριτήριο. Και εδώ επισημαίνουμε πως, για τη μη γραμμική παλινδρόμηση, οι έλεγχοι αυτοί είναι προσεγγιστικοί. F-έλεγχος και ανάλυση διακύμανσης Για να ελεγχθεί αν ένα μοντέλο παλινδρόμησης είναι σημαντικό (sgnfcant), δηλαδή αν έστω και ένας συντελεστής παλινδρόμησης (εκτός του σταθερού όρου, αν υπάρχει) διαφέρει στατιστικά σημαντικά από το μηδέν, υπολογίζουμε την ποσότητα F ως εξής: 11

F = n n = 1 = 1 ( Yˆ Y ) ( Y Yˆ ) p 1 n p όπου: Υ = η πραγματική τιμή της εξαρτημένης μεταβλητής Yˆ = η εκτιμηθείσα τιμή της εξαρτημένης μεταβλητής Y = ο μέσος όρος της εξαρτημένης μεταβλητής n = το μέγεθος του δείγματος p = ο αριθμός των συντελεστών παλινδρόμησης (αν πρόκειται για γραμμική παλινδρόμηση με σταθερό όρο p=k+1). Η μηδενική υπόθεση (null hypothess) είναι: Η 0 : β1 = β =... = βk = 0 και η εναλλακτική της (alternatve): Η 1 : β 0 για τουλάχιστο ένα. Αν F F(α, p, n-p) δεχόμαστε την Η 0, ενώ αν F>F(α, p, n-p) δεχόμαστε την Η 1. Πολλά στατιστικά πακέτα (ανάμεσα σε αυτά και το SPSS), αντί να δίνουν την τιμή F(α, p, n-p), υπολογίζουν τη σημαντικότητα (sgnfcance) του F, δηλαδή την πιθανότητα η κατανομή F(α, p, n-p) να έχει τιμή μεγαλύτερη από το F που υπολογίστηκε. Σε αυτή την περίπτωση, αν (σημαντικότητα του F) α δεχόμαστε την Η 1, ενώ αν (σημαντικότητα του F)>α δεχόμαστε την Η 0. Το SPSS δεν υπολογίζει τη σημαντικότητα του F στη μη γραμμική παλινδρόμηση. Ο πίνακας της ανάλυσης διακύμανσης (Αnalyss Οf Varance, ANOVA) στην παλινδρόμηση έχει ως εξής: Πηγή διακύμανσης (Source of varance) Γραμμή παλινδρόμησης (Regresson) Σφάλμα (Error) Σύνολο (Total) Αθροίσματα τετραγώνων (Sum of Squares,SS) SSR= ( Y Y) ˆ SSE=SST-SSR= Y Y ˆ ( ) SST= ( Y Y) Βαθμοί ελευθερίας (Degrees of Freedom,DF) DFR=p-1 DFE=n-p DFT=n-1 Μέσα τετράγωνα (Mean Squares, MS) SSR MSR = DFR SSE MSE = DFE SST MST = DFT 1

MSR Συνεπώς, F =. Στη μη γραμμική παλινδρόμηση, το SPSS δεν υπολογίζει MSE απευθείας την τιμή του F, οπότε θα πρέπει να εφαρμόσουμε τον παραπάνω τύπο. t-έλεγχος Για να ελεγχθεί η σημαντικότητα οποιουδήποτε συντελεστή παλινδρόμησης β υπολογίζουμε την ποσότητα t ως εξής: b t = s b Η μηδενική υπόθεση είναι: Η 0 : β = 0 και η εναλλακτική της: Η 1. Η 1 : β 0. Αν t t( a, n ) p δεχόμαστε την Η 0, ενώ αν t > t( a, n p) δεχόμαστε την Όπως και στον F-έλεγχο, πολλά στατιστικά πακέτα (ανάμεσα σε αυτά και το SPSS), αντί να δίνουν την τιμή t( a, n p), υπολογίζουν τη σημαντικότητα (sgnfcance) του t, δηλαδή την πιθανότητα η κατανομή t( a, n p) να έχει τιμή μεγαλύτερη από το t που υπολογίστηκε. Σε αυτή την περίπτωση, αν (σημαντικότητα του t) α δεχόμαστε την Η 1, ενώ αν (σημαντικότητα του t)>α δεχόμαστε την Η 0. Στη μη γραμμική παλινδρόμηση, πρέπει να επισημάνουμε πως αντί για την τιμή t( a, n p ) χρησιμοποιούμε την t( a, n p 1 ). Το SPSS δεν υπολογίζει τη σημαντικότητα του t στη μη γραμμική παλινδρόμηση, ούτε δίνει απευθείας την τιμή του t, αλλά δίνει τα b και s b. ΕΠΑΡΚΕΙΑ ΤΟΥ ΜΟΝΤΕΛΟΥ Αν οι στατιστικοί έλεγχοι που περιγράφτηκαν δώσουν τα επιθυμητά αποτελέσματα, αυτό δε σημαίνει πως το μοντέλο παλινδρόμησης είναι κατάλληλο για 13

την εκτίμηση της εξαρτημένης μεταβλητής, γιατί μπορεί να μην πληρούνται μια ή περισσότερες υποθέσεις. Συνήθως τέτοιες παραβιάσεις δεν εντοπίζονται με το t ή το F κριτήριο. Αν η παραβίαση κάποιας (-ων) υπόθεσης (υποθέσεων) είναι σημαντική, τότε δε μπορούμε να πούμε πως η επιλεγμένη εξίσωση παλινδρόμησης προσαρμόζεται επαρκώς ικανοποιητικά στα δεδομένα. Για να ελέγξουμε, λοιπόν, την επάρκεια (suffcency) ενός μοντέλου, μπορούμε να εφαρμόσουμε διάφορους μαθηματικούς και γραφικούς ελέγχους. Ο έλεγχος τυχαιότητας, ο μαθηματικός έλεγχος ομοιογένειας της διακύμανσης και οι μαθηματικοί έλεγχοι κανονικότητας έχουν περιγραφεί στη Βιομετρία Ι. Εδώ θα ασχοληθούμε με το γραφικό έλεγχο ομοιογένειας της διακύμανσης και τους γραφικούς ελέγχους κανονικότητας. Γραφική μέθοδος ελέγχου ομοιογένειας της διακύμανσης Για να ελέγξουμε την ομοιογένεια της διακύμανσης της Υ ή των σφαλμάτων e με γραφικό τρόπο, μπορούμε να κατασκευάσουμε το διάγραμμα διασποράς των τιμών Υ με τις τιμές Χ (αν έχουμε μόνο μια ανεξάρτητη μεταβλητή), ή των e με τις Υ, ή των e με τις Yˆ (επειδή οι τιμές των e και της Υ συνήθως συσχετίζονται, ενώ οι τιμές των e και της Yˆ όχι). Τα παραπάνω γραφικά μπορούν να μας αποκαλύψουν την ύπαρξη ανεπάρκειας του μοντέλου παλινδρόμησης. Όταν τα σημεία του γραφικού δίνουν την εντύπωση ότι συγκεντρώνονται μέσα σε μια στενή οριζόντια λωρίδα γύρω από το μηδέν, τότε η διασπορά των σφαλμάτων είναι σταθερή, όπως φαίνεται στην περίπτωση α του σχήματος. Η περίπτωση (β) του σχήματος υποδεικνύει πως η διασπορά των σφαλμάτων δεν είναι σταθερή, αλλά αύξουσα συνάρτηση της μεταβλητής που βρίσκεται στον άξονα των x (της Χ ή της Υ ή της Yˆ ). H μορφή γ του σχήματος δείχνει πως η μεταβλητή που βρίσκεται στον άξονα των x μάλλον ακολουθεί τη διωνυμική κατανομή (bnomal dstrbuton), πράγμα που είναι ανεπίτρεπτο στην ανάλυση παλινδρόμησης με τη μέθοδο των ελάχιστων τετραγώνων. Τέλος, οι περιπτώσεις (δ) και (ε) του σχήματος είναι μια ένδειξη πως στην εξίσωση θα έπρεπε να περιληφθούν μια ή περισσότερες ανεξάρτητες μεταβλητές ή ότι πρέπει να γίνει κάποιος μετασχηματισμός. Οι παρατηρήσεις για τις περιπτώσεις (β), (δ) και (ε) του σχήματος ισχύουν και για τα γραφικά με κλίσεις προς την αντίθετη κατεύθυνση. 14

Μορφές γραφικών υπολοίπων. Παραδείγματα γραφικών υπολοίπων 6 μοντέλων παλινδρόμησης δίνονται στα παρακάτω σχήματα, που προέρχονται από πραγματικά δεδομένα. Σταθερή διακύμανση. Αύξουσα διακύμανση. Διωνυμική κατανομή. Ανάγκη εισαγωγής νέων μεταβλητών ή μετασχηματισμού. 15

Ανάγκη εισαγωγής νέων μεταβλητών ή μετασχηματισμού. Ανομοιογενής διακύμανση. Γραφικοί μέθοδοι ελέγχου κανονικότητας Υπάρχουν διάφορες γραφικές μέθοδοι για τον έλεγχο της κανονικότητας μιας μεταβλητής. Το ιστόγραμμα συχνοτήτων (frequency hstogram) χρησιμοποιείται πάρα πολύ στη συνήθη στατιστική ανάλυση. Εμφανίζοντας στο ιστόγραμμα την κανονική καμπύλη μπορούμε να δούμε γραφικά κατά πόσο τα δεδομένα προσεγγίζουν την κανονική κατανομή. Στα παρακάτω σχήματα δίνονται τα ιστογράμματα 4 μεταβλητών. Μαθηματικοί έλεγχοι (δες Βιομετρία Ι) έδειξαν πως οι πρώτες δεν ακολουθούν την κανονική κατανομή, ενώ η τελευταία την ακολουθεί (για πιθανότητα α=1%). Ωστόσο, θα μπορούσαμε ίσως να πούμε πως και η 3 η μεταβλητή προσεγγίζει ικανοποιητικά την κανονική κατανομή. Ιστόγραμμα της 1 ης μεταβλητής. Ιστόγραμμα της ης μεταβλητής. 16

Ιστόγραμμα της 3 ης Ιστόγραμμα της 4 ης μεταβλητής. μεταβλητής. Στο φυλλογράφημα (stem and leaf plot), τα δεδομένα ταξινομούνται, δίνοντας προτεραιότητα αρχικά στην τιμή του ακέραιου μέρους τους και μετά στην τιμή του δεκαδικού μέρους τους, σε οριζόντιες σειρές. Οι τιμές των παρατηρήσεων χωρίζονται σε δυο τμήματα, τον κορμό (stem) και το φύλλο (leaf) ως εξής: Τιμή Διαχωρισμός κορμός και φύλλο 15,4 15 4 15 4 Στη γραφική παράσταση του φυλλογραφήματος, στη θέση του «και», συχνά χρησιμοποιούνται διάφορα σύμβολα (* t f s. ) για να απεικονίσουν με σύντομο τρόπο τα στοιχεία, όταν αυτά είναι πολλά και συσσωρεύονται στις γραμμές του φυλλογραφήματος. Το φυλλογράφημα έχει τη μορφή του ιστογράμματος, στραμμένου 90 με τη φορά των δεικτών του ρολογιού. Στα παρακάτω σχήματα δίνονται τα φυλλογραφήματα των 4 προηγούμενων μεταβλητών. Και εδώ, θα μπορούσαμε ίσως να πούμε πως, εκτός από την 4 η μεταβλητή, και η 3 η προσεγγίζει ικανοποιητικά την κανονική κατανομή. Φυλλογράφημα της 1 ης μεταβλητής. Φυλλογράφημα της ης μεταβλητής. 17

Φυλλογράφημα της 3 ης μεταβλητής. Φυλλογράφημα της 4 ης μεταβλητής. Με το γραφικό κανονικής πιθανότητας (normal probablty plot), σε κάθε παρατηρηθείσα τιμή, αντιστοιχίζεται η θεωρητική τιμή που θα είχε η παρατήρηση, αν αυτή προέρχονταν από πληθυσμό που ακολουθεί κανονική κατανομή. Αν πραγματικά τα δεδομένα προσεγγίζουν την κανονική κατανομή, τότε η πλειοψηφία των παρατηρήσεων συγκεντρώνονται σε ευθεία γραμμή, διαφορετικά αποκλίνουν έντονα από την ευθεία. Το SPSS ως γραφικά κανονικής πιθανότητας μπορεί να δώσει γραφικά, το κανονικό P-P γραφικό (normal Probablty-Probablty plot) και το κανονικό Q-Q γραφικό (normal Quantles-Quantles plot). Στα παρακάτω σχήματα δίνονται τα κανονικά Ρ-Ρ γραφικά και τα κανονικά Q-Q γραφικά των 4 μεταβλητών που προαναφέρθηκαν. Τα συμπεράσματα που προκύπτουν είναι τα ίδια με αυτά των ιστογραμμάτων και των φυλλογραφημάτων. Κανονικό Ρ-Ρ γραφικό της 1 ης μεταβλητής. Κανονικό Ρ-Ρ γραφικό της ης μεταβλητής. 18

Κανονικό Ρ-Ρ γραφικό της 3 ης μεταβλητής. Κανονικό Ρ-Ρ γραφικό της 4 ης μεταβλητής. Κανονικό Q-Q γραφικό της 1 ης μεταβλητής. Κανονικό Q-Q γραφικό της ης μεταβλητής. Κανονικό Q-Q γραφικό της 3 ης Κανονικό Q-Q γραφικό της 4 ης μεταβλητής. μεταβλητής. Το γραφικό κανονικών αποκλίσεων (detrended normal plot) συμπληρώνει το γραφικό κανονικής πιθανότητας, δίνοντας, στον κάθετο άξονα, τις πραγματικές αποκλίσεις των δεδομένων από την ευθεία γραμμή. Αν τα δεδομένα προέρχονται από κανονικό πληθυσμό, τα σημεία στο γραφικό συγκεντρώνονται γύρω από μια ευθεία που περνάει από το μηδέν, με τυχαίο τρόπο. Αν ακολουθούν κάποιο έντονο σχέδιο, ή, με άλλα λόγια, αν έχουμε μεγάλα εύρη στις αποκλίσεις από τις κανονικές τιμές, τότε μάλλον υπάρχει σημαντική απόκλιση από την κανονικότητα. Το SPSS ως γραφικά κανονικών αποκλίσεων μπορεί να δώσει γραφικά, το γραφικό κανονικών 19

αποκλίσεων P-P (detrended normal Probablty-Probablty plot) και το γραφικό κανονικών αποκλίσεων Q-Q (detrended normal Quantty-Quantty plot). Στα παρακάτω σχήματα δίνονται τα γραφικά κανονικών αποκλίσεων Ρ-Ρ και Q-Q των 4 μεταβλητών που προαναφέρθηκαν. Τα συμπεράσματα που προκύπτουν είναι τα ίδια με αυτά των ιστογραμμάτων και των φυλλογραφημάτων. Κανονικό κανονικών αποκλίσεων Ρ-Ρ της 1 ης μεταβλητής. Κανονικό κανονικών αποκλίσεων Ρ-Ρ της ης μεταβλητής. Κανονικό κανονικών αποκλίσεων Ρ-Ρ της 3 ης μεταβλητής. Κανονικό κανονικών αποκλίσεων Ρ-Ρ της 4 ης μεταβλητής. Κανονικό κανονικών αποκλίσεων Q-Q της 1 ης μεταβλητής. Κανονικό κανονικών αποκλίσεων Q-Q της ης μεταβλητής. 0

Σχήμα 5.30 Κανονικό κανονικών αποκλίσεων Q-Q της 3 ης μεταβλητής. Σχήμα 5.31 Κανονικό κανονικών αποκλίσεων Q-Q της 4 ης μεταβλητής. Απομονωμένες και ακραίες τιμές Οι απομονωμένες τιμές (outlers) και οι ακραίες τιμές (extremes) είναι παρατηρήσεις που απέχουν πολύ από τις υπόλοιπες τιμές. Πρόκειται για παρατηρήσεις που δεν είναι τυπικές των υπόλοιπων στοιχείων, συνεπώς αποτελούν ιδιομορφία και υποδεικνύουν σημεία που δεν είναι αντιπροσωπευτικά του πληθυσμού, απ όπου προέρχονται τα δεδομένα. Με την εμφάνιση μιας τέτοιας τιμής, η πρώτη σκέψη είναι ότι πρόκειται για μια λανθασμένη μέτρηση, οπότε η τιμή αυτή θα πρέπει να διορθωθεί ή να απομακρυνθεί από το σύνολο των δεδομένων. Η απομάκρυνση «κακών» τιμών και η ανάλυση παλινδρόμησης χωρίς αυτές είναι επιθυμητή, εφόσον χρησιμοποιούμε τη μέθοδο των ελάχιστων τετραγώνων, γιατί διαφορετικά η εξίσωση παλινδρόμησης θα «τραβάει» δυσανάλογα προς αυτές τις τιμές. Από την άλλη πλευρά, τέτοιες τιμές μπορεί να είναι απόλυτα σωστές και να παρέχουν πολύτιμες πληροφορίες (για παράδειγμα να είναι αποτέλεσμα αλληλεπίδρασης με κάποια άλλη ανεξάρτητη μεταβλητή που δεν υπάρχει στην εξίσωση παλινδρόμησης). Συνεπώς, θα πρέπει να έχουμε κάποια ισχυρή ένδειξη, προτού απομακρύνουμε μια ή περισσότερες τέτοιες τιμές. Ως γενικό κανόνα, θα μπορούσαμε να πούμε πως τέτοιες τιμές θα πρέπει να απορρίπτονται, μόνο αν αποτελούν λάθη καταγραφής των δεδομένων ή των οργάνων με τα οποία γίνονται οι μετρήσεις. Απεικόνιση των απομονωμένων και ακραίων τιμών, που τυχόν υπάρχουν, μπορεί να γίνει με το θηκόγραμμα. 1

Το θηκόγραμμα. Οι τιμές του κατώτερου (5%) και του ανώτερου (75%) ποσοστημορίου (percentle) προσδιορίζουν την αρχή και το τέλος της θήκης (box), η οποία περιέχει το 50% των τιμών των δεδομένων. Το μήκος της θήκης προσδιορίζεται από τη διαφορά των προαναφερθέντων ποσοστημορίων και εκφράζει το μέγεθος της διασποράς των παρατηρήσεων. Η διάμεσος (medan) παριστάνεται από την οριζόντια γραμμή που τέμνει τη θήκη. Από τη θέση της διαμέσου μπορεί να προσδιοριστεί η ασυμμετρία της κατανομής του δείγματος. Αν η διάμεσος βρίσκεται στο κέντρο, πρόκειται για μια συμμετρική κατανομή, ενώ αν πλησιάζει το κατώτερο ή ανώτερο άκρο της θήκης, τότε έχουμε αντίστοιχα θετική ή αρνητική ασυμμετρία. Οι τιμές που ξεπερνούν το τριπλάσιο μήκος της θήκης, από το ανώτερο ή κατώτερο άκρο της, παρουσιάζονται με και ορίζονται ως ακραίες τιμές, ενώ οι τιμές που βρίσκονται μεταξύ 1,5 ως 3 φορές το μήκος της θήκης παρουσιάζονται με το γράμμα Ο και ορίζονται ως απομονωμένες τιμές. Στα παρακάτω σχήματα δίνονται τα θηκογράμματα μεταβλητών. Η μεταβλητή του ενός σχήματος έχει 4 απομονωμένες τιμές και 1 ακραία και είναι συμμετρική, ενώ αυτή του άλλου σχήματος δεν εμφανίζει απομονωμένες και ακραίες τιμές και είναι θετικά συμμετρική.

Θηκόγραμμα με απομονωμένες και ακραίες τιμές. Θηκόγραμμα χωρίς απομονωμένες και ακραίες τιμές. Πολυσυγγραμμικότητα Στην ανάλυση της πολλαπλής γραμμικής παλινδρόμησης, μεταξύ των παλινδρομουσών μεταβλητών Χ μπορεί να εμφανιστεί πολυσυγγραμμικότητα (multcolnearty), με την έννοια της ύπαρξης γραμμικής εξάρτησης μεταξύ των ανεξάρτητων μεταβλητών. Η ισχυρή γραμμική εξάρτηση μεταξύ των ανεξάρτητων μεταβλητών επηρεάζει δραματικά την εκτίμηση των συντελεστών παλινδρόμησης, με την έννοια της αύξησης των διασπορών τους. Επίσης, τα διαγνωστικά πολυσυγγραμμικότητας (multcolnearty dagnostcs) μπορούν να χρησιμοποιηθούν στην επικύρωση εξισώσεων πολλαπλής γραμμικής παλινδρόμησης, η οποία αναλύεται παρακάτω. Ένα απλό και συγχρόνως σημαντικό διαγνωστικό πολυσυγγραμμικότητας που υπολογίζει το SPSS είναι ο παράγοντας διόγκωσης διασποράς (Varance Inflaton Factor, VIF), ο οποίος, για την X ανεξάρτητη μεταβλητή (=1,,, k) υπολογίζεται από τον τύπο: όπου: 1 VIF = 1 R R = ο συντελεστής προσδιορισμού (αναλύεται παρακάτω) όταν η X χρησιμοποιείται ως εξαρτημένη μεταβλητή και οι υπόλοιπες X χρησιμοποιούνται ως ανεξάρτητες. 3