2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για



Σχετικά έγγραφα
SOURCE DF SUM OF SQUARES MEAN SQUARE F VALUE PR F MODEL (a) E04 (e) (g) (h) ERROR (b) (d) (f) TOTAL (c) E04 R SQUARE (i) PARAMETER

ΜΕΘΟΔΟΣ ΤΗΣ ΒΗΜΑΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ (STEPWISE REGRESSION)

ΚΕΦΑΛΑΙΟ ΙΙΙ ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισόδημα Κατανάλωση

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΠΑΝΑΛΗΠΤΙΚΟ ΒΙΝΤΕΟ ΣΤΑΤΙΣΤΙΚΗ

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

5. Έλεγχοι Υποθέσεων

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

9. Παλινδρόμηση και Συσχέτιση

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Αναλυτική Στατιστική

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

ΑΣΚΗΣΕΙΣ Πρόβλημα απουσιών στ)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Στατιστική Συμπερασματολογία

Απλή Γραμμική Παλινδρόμηση II

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Πολλαπλή Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Απλή Γραμμική Παλινδρόμηση I

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

10.7 Λυμένες Ασκήσεις για Διαστήματα Εμπιστοσύνης

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ AΝΑΛΟΓΙΕΣ

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

7.2 ΜΕΘΟΔΟΙ ΜΟΝΟΤΟΝΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ (Monotone Regression)

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΜΠΣ Τραπεζικής & Χρηματοοικονομικής

Στατιστική Επιχειρήσεων ΙΙ

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Εναλλακτικά του πειράματος

Y Y ... y nx1. nx1

Πρόλογος Μέρος Ι: Απλό και πολλαπλό υπόδειγμα παλινδρόμησης Αντικείμενο της οικονομετρίας... 21

Εργασία. στα. Γενικευμένα Γραμμικά Μοντέλα

ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ

Απλή Παλινδρόμηση και Συσχέτιση

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΑΣΚΗΣΕΙΣ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ. Άσκηση 1. Βρείτε δ/μα εμπιστοσύνης για τη μέση τιμή μ κανονικού πληθυσμού όταν n=20,

Διάλεξη 2. Εργαλεία θετικής ανάλυσης Ή Γιατί είναι τόσο δύσκολο να πούμε τι συμβαίνει; Ράπανος-Καπλάνογλου 2016/7

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Transcript:

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο μεταβλητών που είναι υποψήφιες να περιληφθούν σε ένα μοντέλο πολλαπλής παλινδρόμησης. Μια από τις μεθόδους αυτές που θα εξηγήσουμε αργότερα ξεκινά με μοντέλο που δεν έχει καμια μεταβλητή και στη συνέχεια προσθέτει κάθε φορά από μια μεταβλητή που έχει σημαντική συνεισφορά στο μοντέλο. Η μέθοδος αυτή ονομάζεται συνήθως μέθοδος προοδευτικής προσθήκης μεταβλητών (forward procedure). Η μέθοδος που θα συζητήσουμε εδώ χρησιμοποιεί την ακριβώς αντίθετη λογική: ξεκινά περιλαμβάνοντας όλες τις μεταβλητές στο μοντέλο και σε κάθε βήμα αποκλείει μια μεταβλητή που δεν έχει σημαντική συνεισφορά σε αυτό. Η μέθοδος αυτή ονομάζεται μέθοδος αποκλεισμού μεταβλητών (backward elimination procedure). Όπως είδαμε σε προηγούμενη ενότητα έξη από τις οκτώ μεταβλητές του μοντέλου που χρησιμοποιήθηκε για το παράδειγμά μας είναι υποψήφιες για αποκλεισμό. Η μέθοδος αποκλεισμού μεταβλητών αποκλείει σε κάθε βήμα την μεταβλητή εκείνη που έχει το μεγαλύτερο παρατηρούμενο επίπεδο σημαντικότητας (P value) με την προϋπόθεση ότι το παρατηρούμενο αυτό επίπεδο σημαντικότητας υπερβαίνει το επίπεδο σημαντικότητας α που έχουμε προκαθορίσει. Έτσι, όπως βλέπουμε από τον πίνακα 2, αν χρησιμοποιήσουμε σαν επίπεδο σημαντικότητας το 0.05 στο πρώτο στάδιο της μεθόδου θα αποκλείσουμε την μεταβλητή Χ 7 γιατί έχει το μεγαλύτερο επίπεδο σημαντικότητας (P value = 0.5294) με τιμή μεγαλύτερη από το 0.05. Στη συνέχεια, χρησιμοποιώντας και πάλι τη μέθοδο των ελαχίστων τετραγώνων, προσαρμόζουμε το μοντέλο με τις υπόλοιπες επτά μεταβλητές στα δεδομένα. Τα αποτελέσματα δίνονται στον πίνακα που ακολουθεί. Παρατηρούμε, ότι, όπως είναι φυσικό, οι συντελεστές και τα παρατηρούμενα επίπεδα σημαντικότητας που αναφέρονται στις υπόλοιπες μεταβλητές στον πίνακα αυτού είναι όλα διαφορετικά από

τις αντίστοιχες τιμές του αντίστοιχου πίνακα, όταν χρησιμοποιήθηκε και η μεταβλητή Χ 7. Οι επόμενες 6 εκτυπώσεις από τον υπολογιστή εμφανίζουν τα υπόλοιπα βήματα στην μέθοδο αποκλεισμού μεταβλητών για το πρόβλημά μας. Όπως βλέπουμε στο δεύτερο βήμα αποκλείεται η μεταβλητή Χ 5 γιατί έχει παρατηρούμενο επίπεδο σημαντικότητας (P value) 0.5267. Στο τρίτο στάδιο αποκλείεται η μεταβλητή Χ 4 γιατί έχει παρατηρούμενο επίπεδο σημαντικότητας 0.5659. Η διαδικασία αυτή συνεχίζεται με τον ίδιο τρόπο μέχρι το στάδιο 7 όπου, όπως βλέπουμε, όλα τα παρατηρούμενα επίπεδα σημαντικότητας για τις μεταβλητές που έχουν μείνει έχουν τιμές μικρότερες από 0.05. Έτσι, καμια άλλη μεταβλητή δεν αποκλείεται από το μοντέλο και το τελικό μοντέλο στο οποίο καταλήγουμε με τη μέθοδο αυτή περιλαμβάνει μόνο τις μεταβλητές Χ 3 και Χ 6. Μοντέλο 7 μεταβλητών MODEL 7 149.51 21.36 6.79.0001 ERROR 42 144.98 3.45.5077 X 1 X 4 X 5 X 8 15.313-5.319 E-02 7.246 E-01 1.902 E-04 7.182 E-02 1.009 E-01-7.726 E-01-2.072 =0-0.99 0.99 3.92 0.84 0.64-2.52-1.51.3295.3286.0003.4079.5267.0158.1384 OF 5.392E-02 7.331 E-01 4.856 E-05 8.591 E-02 1.580 E-01 3.071 E-01 1.372

Μοντέλο 6 Μεταβλητών MODEL 6 148.10 24.68 7.25.0001 ERROR 43 146.39 3.40 5125 X 1 X 4 X 8 15.080-2.689 E-02 9.040 E-01 1.874 E-04 4.056 E-02-7.907 E-01-1.986 =0-0.78 1.34 3.90 0.58-2.60-1.47.4406.1859.0003.5659.0126.1502 OF 3.455 E-02 6.725 E-01 4.802 E-05 7.010 E-02 3.037 E-01 1.356 Μοντέλο 5 Μεταβλητών MODEL 5 146.96 29.39 8.77.0001 ERROR 44 147.53 3.35.4990 X 1 X 8 15.811-1.442 E-02 1.078 1.944 E-04-8.673 E-01-1.804 =0-0.54 1.81 4.22-3.20-1.38.5932.0777.0001.0026.1750 OF 2.680 E-02 5.968 E-01 4.611 E-05 2.712 E-01 1.308

Μοντέλο 4 Μεταβλητών MODEL 4 145.96 36.50 11.06.0001 ERROR 45 148.50 3.30.4957 X 8 14.867 1.141 1.774 E-04-8.088 E-01-1.665 =0 1.96 5.32-3.28-1.31.0558.0001.0020.1974 OF 5.808 E-01 3.332 E-05 2.465 E-01 1.273 Μοντέλο 3 Μεταβλητών MODEL 3 140.34 46.78 13.96.0001 ERROR 46 151.14 3.35.4766 15.165 1.125 1.631 E-04-8.081 E-01 =0 1.92 5.14-3.25.0608.0001.0021 OF 5.851 E-01 3.173 E-05 2.483 E-01

Μοντέλο 2 Μεταβλητών MODEL 2 129.96 63.98 18.06.0001 ERROR 47 166.53 3.54.4345 14.464 1.740 E-04-7.437 E-01 =0 5.42-2.94.0001.0051 OF 3.211 E-05 2.530 E-01 Δηλαδή με την μέθοδο αυτή το μοντέλο που θα χρησιμοποιηθεί από την εταιρεία παροχής συμβουλών θα είναι το Ε(Υ) = α + β 3 Χ 3 + β 6 Χ 6. Παρατήρηση: Θα πρέπει να επισημάνουμε εδώ ότι, ενδεχομένως, μια διαφορετική μέθοδος επιλογής μεταβλητών για την πολλαπλή παλινδρόμηση θα καταλήξει σε διαφορετικό σύνολο μεταβλητών που θα πρέπει να περιληφθούν στο μοντέλο. Εν γένει όμως υπάρχει αρκετή συμφωνία μεταξύ των διαφόρων μεθόδων. Παρ' όλα αυτά συχνά υπάρχει σημαντική διαφορά μεταξύ των μεταβλητών του τελικού μοντέλου και αυτών που εμφανίζονται ως υποψήφιες για αποκλεισμό στο πρώτο στάδιο της μεθόδου αποκλεισμού μεταβλητών που περιγράψαμε. Αυτό συμβαίνει γιατί ο αποκλεισμός μιας μεταβλητής μεταβάλλει τα παρατηρούμενα επίπεδα σημαντικότητας που αντιστοιχούν στις υπόλοιπες μεταβλητές. Εξάλλου, από τη στιγμή που ο ερευνητής έχει πρόσβαση σε υπολογιστή είναι λογικό και φρόνιμο να αποκλείει μια μεταβλητή σε κάθε βήμα.

2.1 Η Πιθανότητα λάθους πρώτου είδους (Probability of a type I error) Σε κάθε βήμα στην μέθοδο αποκλεισμού μεταβλητών (backward elimination procedure) γίνεται ένας έλεγχος υποθέσεως σε κάποιο συγκεκριμένο και προκαθορισμένο επίπεδο σημαντικότητας α. Η τιμή του α υποτίθεται ότι εκπροσωπεί την πιθανότητα να κάνουμε λάθος πρώτου είδους (να απορρίψουμε δηλαδή την μηδενική υπόθεση ενώ η υπόθεση αυτή είναι σωστή). Παρ' όλα αυτά η τιμή του α είναι πράγματι η πιθανότητα να κάνουμε λάθος πρώτου είδους μόνο στο πρώτο βήμα και μόνον αν οι υποθέσεις για την κατανομή των ε i ισχύουν. Μετά το πρώτο βήμα, ο έλεγχος γίνεται στην πραγματικότητα δεσμευμένος έλεγχος (δεσμευμένος στο ενδεχόμενο ότι τουλάχιστον μια μεταβλητή έχει αφαιρεθεί από το μοντέλο). Για το λόγο αυτό η τιμή του α δεν υποδηλοί την πραγματική πιθανότητα λάθους πρώτου είδους. Το γεγονός επίσης ότι γίνονται μια σειρά από ελέγχους υποθέσεων με τη χρησιμοποίηση των ιδίων δεδομένων τείνει να αυξάνει την πιθανότητα να γίνει λάθος πρώτου είδους σε κάποιο σημείο της διαδικασίας. Επομένως θα πρέπει να δίνεται ιδιαίτερη προσοχή στην ερμηνεία του α σε οποιαδήποτε διαδικασία όπως αυτή που περιγράφουμε (και όπως αυτή που θα περιγράψουμε στη συνέχεια) όπου γίνονται πολλαπλοί έλεγχοι υποθέσεων στο ίδιο σύνολο δεδομένων. Σε τέτοιες περιπτώσεις το α είναι πράγματι η πιθανότητα να γίνει λάθος πρώτου είδους μόνο στο πρώτο βήμα της διαδικασίας και εφόσον βέβαια ισχύουν οι υποθέσεις για τις κατανομές των λαθών. Η πιθανότητα να γίνει λάθος πρώτου είδους στο επόμενο ή στα επόμενα βήματα είναι στην πραγματικότητα άγνωστη. Για τους ελέγχους αυτούς η τιμή του α χρησιμεύει μόνο για να μπορέσουμε να χρησιμοποιήσουμε τον έλεγχο και να αποφασίσουμε αν μια μεταβλητή πρέπει να μείνει στο μοντέλο ή όχι. Είναι προφανές ότι η συνολική πιθανότητα να γίνει λάθος πρώτου είδους τουλάχιστον μια φορά κατά τη διάρκεια της διαδικασίας πολλαπλών αποφάσεων όπως αυτή που περιγράψαμε, είναι πάντοτε μεγαλύτερη από το α (αφού α είναι η πιθανότητα που

αντιστοιχεί στο πρώτο βήμα της διαδικασίας και, προφανώς, στα βήματα που ακολουθούν εμφανίζονται πρόσθετες ευκαιρίες για να γίνει λάθος πρώτου είδους). Το λάθος που γίνεται από την αδυναμία υπολογισμού της συνολικής πιθανότητας λάθους πρώτου είδους στην διαδικασία που προαναφέραμε δεν αποτελεί σοβαρό πρόβλημα με την προϋπόθεση ότι ο αναλυτής γνωρίζει ότι το πρόβλημα αυτό υπάρχει. Αν το πρόβλημα αγνοηθεί μια αυξημένη πιθανότητα λάθους πρώτου είδους είναι ενδεχόμενο να έχει σοβαρές συνέπειες (όπως για παράδειγμα να καταλήξει κανείς στο συμπέρασμα ότι ένα φάρμακο είναι αποτελεσματικό μετά από μια εξαντλητική διαδικασία στην οποία έχουν χρησιμοποιηθεί πολλά φάρμακα). 2.2 Διάστημα εμπιστοσύνης για τον μέσο μ Υ x Όπως και στην απλή γραμμική παλινδρόμηση το 100(1-a)% διάστημα εμπιστοσύνης τον μέσου μ Υ x δίνεται από τον τύπο μˆ Y x Y x t n k 1, 1 / 2 S όπου είναι μια σημειακή εκτίμηση του μ Υ x και υπολογίζεται με αντικατάσταση των γνωστών τιμών των μεταβλητών Χ 1,..., Χ k στην εκτιμήτρια ελαχίστων τετραγώνων της εξίσωσης παλινδρόμησης. Το τυπικό λάθος του μˆ είναι δύσκολο να υπολογισθεί στην Y x πολλαπλή παλινδρόμηση και για το λόγο αυτό συνήθως χρησιμοποιούνται οι τιμές που δίνει ο υπολογιστής. Παράδειγμα: Όπως υπολογίσαμε στην προηγούμενη ενότητα η εκτιμώμενη επιφάνεια παλινδρόμησης, μετά το τέλος της διαδικασίας αποκλεισμού μεταβλητών είναι η μˆ Y x = 14.46 + 0.0001740 Χ 3-0.7437 Χ 6 Να καθορισθεί το 95% διάστημα εμπιστοσύνης για την πραγματική μέση ικανοποίηση στο χώρο εργασίας εργαζομένων που έχουν εβδομαδιαίο μισθό 36000 και μεταπτυχιακό τίτλο Master's. Y x

Λύση: Αντικαθιστώντας τις τιμές Χ 3 = 36000 και Χ 6 = 17 στην εκτιμηθείσα επιφάνεια παλινδρόμησης έχουμε μˆ Y x = 14.46 + 0.0001740 (36000) - 0.7437 (17) = 8.085 Η τιμή αυτή είναι μια σημειακή εκτίμηση του μ Υ x. Για τις τιμές αυτές του Χ 3 και Χ 6 το στατιστικό πακέτο SAS δίνει το παρακάτω 95% διάστημα εμπιστοσύνης για το μ Υ x : LOWER 95% CL UPPER 95% CL FOR MEAN FOR MEAN 7.184 8.986 Επομένως με βεβαιότητα 95% μπορούμε να πούμε ότι με βάση τα στοιχεία του δείγματος η πραγματική μέση ικανοποίηση από το χώρο δουλειάς για όλους τους εργαζομένους με εβδομαδιαίο εισόδημα 36000 και μεταπτυχιακό τίτλο Master's βρίσκεται μεταξύ των τιμών 7.184 και 8.986. 2.3 Διάστημα πρόβλεψης για το Υ Όπως έχουμε δει μία σημαντική χρησιμότητα της θεωρίας παλινδρόμησης είναι η πρόβλεψη αγνώστων τιμών της εξαρτημένης μεταβλητής Υ για δοθείσες τιμές των εξαρτημένων μεταβλητών. Στην περίπτωση αυτή μια υψηλή τιμή του συντελεστή r 2 είναι σημαντική (αφού κάτι τέτοιο υποδηλώνει τόσο μια καλή προσαρμογή στά δεδομένα όσο και μια καλύτερη τιμή για την πρόβλεψη). Το 100(1-α)% διάστημα πρόβλεψης για την τιμή Υ με τη χρησιμοποίηση της πολλαπλής παλινδρόμησης για συγκεκριμένες τιμές των ανεξάρτητων μεταβλητών Χ 1, Χ 2,..., Χ k δίνεται από τον γνωστό τύπο Y t S n k 1, 1 / 2 Y Επειδή κα στην περίπτωση αυτή ο υπολογισμός του τυπικού λάθους S Y είναι δύσκολος χρησιμοποιούνται στατιστικά πακέτα για τον προσδιορισμό του διαστήματος πρόβλεψης. Το στοιχείο που χρειάζεται για τον καθορισμό του είναι το μοντέλο που θα

χρησιμοποιηθεί για να δώσει την συγκεκριμένη πρόβλεψη. Το μοντέλο αυτό δεν είναι βέβαια υποχρεωτικά αυτό το οποίο προκύπτει ως τελευταίο βήμα στη μέθοδο αποκλεισμού μεταβλητών. Παράδειγμα: Να υπολογισθεί ένα 95% διάστημα πρόβλεψης για το μοντέλο της προηγουμένης παραγράφου. Λύση: Αντικαθιστώντας τις τιμές Χ 3 = 36000 και Χ 6 = 17 στην εκτιμηθείσα επιφάνεια παλινδρόμησης θα βρούμε, προφανώς, ως σημειακή εκτιμήτρια του Υ την τιμή Y = 8.085 (Η σημειακή εκτιμήτρια για το Υ είναι, προφανώς, η ίδια με τη σημειακή εκτιμήτρια του μ Υ x ). Το 95% διάστημα πρόβλεψης για την πρόβλεψη Υ που αντιστοιχεί στις παραπάνω τιμές του Χ 3 και Χ 6 δίνεται, από το στατιστικό πακέτο SAS ως εξής: LOWER 95% CL UPPER 95% CL INDIVIDUAL INDIVIDUAL 4.192 11.977 Σημείωση: Το διάστημα πρόβλεψης που καταλήξαμε για την ικανοποίηση στο χώρο δουλειάς εμφανίζεται μεγάλο σε σχέση με τα δεδομένα που έχουμε στον αρχικό πίνακα. Επομένως, είναι δύσκολο να εκτιμήσουμε με κάποια ακρίβεια, ποιά είναι η ακριβής ικανοποίηση από το επάγγελμα αυτό ενός συγκεκριμένου ατόμου με εβδομαδιαίο εισόδημα 36000 και μεταπτυχιακό τίτλο Master's. Το μέγεθος του διαστήματος πρόβλεψης εξαρτάται τόσο από το μέγεθος της διασποράς στα άτομα του δείγματος όσο και από το πόσο καλά το συγκεκριμένο μοντέλο εφαρμόζει στα δεδομένα.