ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Σχετικά έγγραφα
ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Εισόδημα Κατανάλωση

Κάθε σύνολο δεδομένων κρύβει δομή το θέμα είναι να την εντοπίσομε (analytics)

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ και ΣΥΣΧΕΤΙΣΗ. Μέρος 2

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

χ 2 test ανεξαρτησίας

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Ανάλυση Διακύμανσης. Ι. Κ. Δημητρίου

Αναλυτική Στατιστική

Πολλαπλή παλινδρόμηση (Multivariate regression)

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Εισαγωγή στην Ανάλυση Δεδομένων

Διαχείριση Υδατικών Πόρων

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Χ. Εμμανουηλίδης, 1

Η τελεία χρησιμοποιείται ως υποδιαστολή (π.χ 3 14 τρία κόμμα δεκατέσσερα) Παρακαλώ παραδώστε τα θέματα μαζί με το γραπτό σας ΟΝΟΜΑ: ΕΠΩΝΥΜΟ: ΑΜ:

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ


Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Γ. Πειραματισμός Βιομετρία

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Κάθε σύνολο δεδομένων κρύβει δομή το θέμα είναι να την εντοπίσομε (analytics)

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

9. Παλινδρόμηση και Συσχέτιση

Διάστημα εμπιστοσύνης της μέσης τιμής

Απλή Παλινδρόμηση και Συσχέτιση

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ. Τρίτη Γραπτή Εργασία στη Στατιστική. Γενικές οδηγίες για την εργασία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

UNIVERSITY OF THESSALY FACULTY OF ENGINEERING DEPARTMENT OF PLANNINGAND REGIONAL DEVELOPMENT MASTER «EUROPEAN REGIONAL DEVELOPMENT STUDIES»

3η Ενότητα Προβλέψεις

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Πρόλογος Μέρος Ι: Απλό και πολλαπλό υπόδειγμα παλινδρόμησης Αντικείμενο της οικονομετρίας... 21

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Α μέρος: Πολυσυγγραμμικότητα. Παπάνα Αγγελική

Περιεχόμενα. Πρόλογος... 15

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Γ. Πειραματισμός - Βιομετρία

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

σ = και σ = 4 αντιστοίχως. Τότε θα ισχύει

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Οικονομετρία Ι. Ενότητα 5: Ανάλυση της Διακύμανσης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

ΣΤΑΤΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

Εργαστήριο Οικονομετρίας Προαιρετική Εργασία 2016 Χειμερινό Εξάμηνο

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

ΟΙΚΟΝΟΜΕΤΡΙΑ. Η μέθοδος των βοηθητικών μεταβλητών. Παπάνα Αγγελική

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Εισαγωγή στη Στατιστική

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Transcript:

ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Καθηγητής Ι. Κ. ΔΗΜΗΤΡΙΟΥ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών demetri@econ.uoa.gr Οικονομικά, Διοικητικά και Πληροφοριακά Συστήματα Επιχειρήσεων

Οργάνωση διάλεξης σε 2 επίπεδα 1. Ανάλυση του προβλήματος με ένα παράδειγμα 2. Επιμέρους θέματα (ψευδομεταβλητές, stepwise regression, κατάλοιπα, ελαστικότητες, κλπ), ερωτήματα χρήσεως ΣΗΜΕΙΩΣΗ: Οι διαφάνειες γράφτηκαν αρκετά λεπτομερώς, ώστε να διευκολυνθεί η μελέτη του αντικειμένου. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 10

Η παλινδρόμηση (με τις πολλές μορφές που μπορεί να λάβει) δίνει ποσοτικές εκτιμήσεις σε οικονομικές (και άλλες) σχέσεις πιστοποιεί τη θεωρία. Η θεωρία μπορεί να προέρχεται από την Οικονομία Φυσική, Μετεωρολογία, Αστρονομία Βιολογία Μηχανική (Engineering) Γενικά, οποιαδήποτε επιστήμη που υπόκειται σε αβεβαιότητες Επί του συνόλου των χρήσεων αναλυτικών μεθόδων φαίνεται να συντελεί στο 80% Ι. Κ. ΔΗΜΗΤΡΙΟΥ 11

Εμπειρική έρευνα (γενικώς) 1. Έστω οικονομικό / διοικητικό πρόβλημα (δηλ. υποθέσεις, μεταβλητές, σχέσεις, αρχικός προσδιορισμός οικονομετρικού υποδείγματος) 2. Μετασχηματισμός σε οικονομετρικό υπόδειγμα (σχέση, πχ γραμμική, υποθέσεις για σφάλμα) 3. Λήψη δείγματος με κατάλληλη μέθοδο οικονομετρίας 4. Εκτίμηση παραμέτρων και ΕΥ 5. Διάγνωση εγκυρότητας υποθέσεων (μτβλ, τύπος, ιδιότητες σφάλματος) 6. Αξιολόγηση συνεπειών των εμπειρικών αποτελεσμάτων που εξήχθησαν από το υπόδειγμα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 12

Εμπειρική έρευνα (ειδικώς για τη διάλεξη) 1. Έστω οικονομικό / διοικητικό πρόβλημα (δηλ. υποθέσεις, μεταβλητές, σχέσεις, αρχικός προσδιορισμός οικονομετρικού υποδείγματος) 2. Μετασχηματισμός σε οικονομετρικό υπόδειγμα (σχέση, πχ γραμμική, υποθέσεις για σφάλμα) 3. Λήψη δείγματος με κατάλληλη μέθοδο οικονομετρίας 4. Εκτίμηση παραμέτρων και ΕΥ 5. Διάγνωση εγκυρότητας υποθέσεων (μτβλ, τύπος, ιδιότητες σφάλματος) 6. Αξιολόγηση συνεπειών των εμπειρικών αποτελεσμάτων που εξήχθησαν από το υπόδειγμα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 13

Η Ανάλυση Παλινδρόμησης (γενικώς) προσδιορίζει το υπόδειγμα (μοντέλο ή εκτιμημένη εξίσωση) για μία ή περισσότερες μεταβλητές και παρέχει μεθόδους εξαγωγής συμπερασμάτων για κάποιον πληθυσμό βασισμένη σε ένα δείγμα μεγέθους n. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 14

Στην πολλαπλή γραμμική παλινδρόμηση μια εξαρτημένη μεταβλητή είναι γραμμική σχέση πολλών ανεξάρτητων μεταβλητών. y x x x 2 3 0 1 2 3 y sin( x) cos( x) 0 1 2 y log( x ) log( x ) 0 1 1 2 2 y k l 0 1 2 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 15

ΣΚΟΠΟΣ Αφού υπολογισθούν οι τιμές (ή για την ακρίβεια, οι εκτιμήσεις των τιμών) των β i, δίνομε τις τιμές αυτές στην εξίσωση για προβλέψεις των τιμών της y. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 16

Περιγραφή της πολλαπλής γραμμικής παλινδρόμησης Δίνεται ένα σύνολο Ν-άδων παρατηρήσεων και μια άγνωστη συναρτησιακή σχέση, η οποία υπόκειται των παρατηρήσεων. Συγκεκριμένα θεωρούμε τη σχέση όπου μια μεταβλητή είναι γραμμική συνάρτηση Ν άλλων μεταβλητών. Πρώτον, θα προσδιορίσομε τη σχέση αυτή χρησιμοποιώντας πληροφορίες από τα δεδομένα. Έπειτα θα εξετάσομε (έλεγχος υπόθεσης) αν οι συντελεστές της σχέσης είναι σημαντικά διάφοροι του μηδενός. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 17

Παράδειγμα δεδομένων, Ν-άδων μτβλ ανεξάρτητη ανεξάρτητη... ανεξάρτητη Εξαρτημένη 0 27 21 3,5 68 F 0 62 0 29 16 4,0 99 F 0 75 1 30 22 4,0 98 M 1 95 0 34 25 3,0 90 M 1 78 0 29 22 4,0 99 F 0 95 1 30 19 4,0 97 F 0 91 0 29 23 4,0 79 M 1 72 0 28 15 4,0 95 F 0 95 0 28 14 4,0 85 M 1 88 0 31 19 4,0 82 M 1 97 0 25 12 3,0 81 M 1 49 0 34 16 3,5 87 M 1 70 0 27 13 4,0 92 F 0 75 0 28 19 4,0 89 F 0 78 0 31 25 4,0 97 F 0 89 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 18

Παράδειγμα δεδομένων Calc HS ACT Math Alg Place Alg2 Grade HS Rank Gender Gender Code Calc 0 27 21 3,5 68 F 0 62 0 29 16 4,0 99 F 0 75 1 30 22 4,0 98 M 1 95 0 34 25 3,0 90 M 1 78 0 29 22 4,0 99 F 0 95 1 30 19 4,0 97 F 0 91 0 29 23 4,0 79 M 1 72 0 28 15 4,0 95 F 0 95 0 28 14 4,0 85 M 1 88 0 31 19 4,0 82 M 1 97 0 25 12 3,0 81 M 1 49 0 34 16 3,5 87 M 1 70 0 27 13 4,0 92 F 0 75 0 28 19 4,0 89 F 0 78 0 31 25 4,0 97 F 0 89 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 19

Υποθέσεις του υποδείγματος γραμμικής παλινδρόμησης (κάθε φορά που καλείται η Παλινδρ) 1. Το γραμμικό υπόδειγμα είναι σωστό 2. Ο όρος σφάλματος ε, κατανέμεται Κανονικά γύρω από το μηδέν 3. Τα σφάλματα έχουν σταθερή διακύμανση 4. Τα σφάλματα είναι ανεξάρτητα αλλήλων. ΠΡΟΣΟΧΗ: Η σημαντικότητα της εξίσωσης παλινδρόμησης δεν είναι απόδειξη ότι οι υποθέσεις αυτές δεν έχουν παραβιαστεί. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 20

Η κατανομή F είναι βασική στην παλινδρόμηση και την ΑΝΑΔΙΑ. Λοξή (skewed) F(4,9) p-value: Η τιμή-p είναι η πιθανότητα για μια τιμή τόσο ακραία όσο η παρατηρηθείσα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 22

Ronald Fisher (1890-1962) Karl Pearson (1857-1936) F χ 2 Source: http://www.swlearning.com/qua nt/kohler/stat/biographical_sket ches/fisher_3.jpeg Ι. Κ. ΔΗΜΗΤΡΙΟΥ 23

Χρήση Παλινδρόμησης για Πρόβλεψη Έστω (ΥΠΟΔΕΙΓΜΑ), εξαρτημένη μεταβλητή: τιμή διαμερίσματος (y) και ανεξάρτητες μεταβλητές: μ 2 & παλαιότητα πολυκατοικίας (x 1 ) & τιμή ενοικίασης (x 2 ) & κατάσταση κτηρίου (x 3 ). Χρησιμοποιούμε πολλαπλή παλινδρόμηση για να δούμε πώς πολλές μεταβλητές συνδυάζονται για να προβλέψουν την τιμή της εξαρτημένης μεταβλητής. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 24

Πόση από τη μεταβλητότητα της εξαρτ μτβλ εξηγείται από τις ανεξ μτβλ; Οι συνδυασμένες μτβλ δίνουν καλύτερα ή χειρότερα αποτελέσματα από τα αναμενόμενα; Πόση σημασία έχουν οι επιμέρους μτβλ στην πρόβλεψη; Μπορούμε να απαλείψομε κάποια επιμέρους μτβλ χωρίς απώλεια αξιοπιστίας της πρόβλεψης; Πχ ας υποθέσομε ότι το προηγούμενο ΥΠΟΔΕΙΓΜΑ, χωρίς άλλες πληροφορίες, δίνει y 228000 0.48x 0.76x 1.54x 1 2 3 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 25 Φανερά, η κατάσταση κτηρίου έχει τη μεγαλύτερη βαρύτητα στο υπόδειγμα

Παρατηρήσεις Στην πολλαπλή παλινδρόμηση οι υπολογισμοί είναι πολύπλοκοι και χειροτερεύουν καθώς αυξάνει ο αριθμός των συντελεστών Χρήση πακέτων λογισμικού. Επίσης, η παλινδρόμηση μπορεί να χρησιμοποιηθεί για τη σύγκριση ομάδων (πχ διαφοροποίηση μισθών ανδρών-γυναικών, σύγκριση αποδοτικότητας κλπ), αντί για ΑΝΑΔΙΑ. Μαρτυρία σε δικαστήριο - στις ΗΠΑ πολλοί στατιστικοί εργάζονται σε νομικές διαδικασίες. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 26

Παρουσίαση με ένα παράδειγμα: Πρόβλεψη βαθμών Πώς η επίδοση των πρωτοετών φοιτητών στο διαφορικό λογισμό (μτβλ Calc) σχετίζεται με διάφορες ανεξάρτητες μεταβλητές; (δίνεται το αρχείο calc.xls > copy σε calc3.xls πριν το χρησιμοποιήσετε) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 27

Δομή του αρχείου calc.xls ONOMA MTBΛ Calc_HS ACT_Math Alg_Place Alg2_Grade HS_Rank Gender Gender_Code Calc ΠΕΡΙΓΡΑΦΗ Calculus High School (0/1, N/O) ACT maths exam (American College Testing) Algebra Placement exam in the first week of classes 2nd year Άλγεβρα High School βαθμός Φύλλο Α/Θ Φύλλο (1/0) Βαθμός στο Calculus Ι. Κ. ΔΗΜΗΤΡΙΟΥ 28

Το περιεχόμενο του αρχείου (συνόλου) 80 δεδομένων Calc HS ACT Math Alg Place Alg2 Grade HS Rank Gender Code Gender Calc 0 27 21 3,5 68 0 F 62 0 29 16 4,0 99 0 F 75 1 30 22 4,0 98 1 M 95 0 34 25 3,0 90 1 M 78 0 29 22 4,0 99 0 F 95 1 30 19 4,0 97 0 F 91 0 29 23 4,0 79 1 M 72 0 28 15 4,0 95 0 F 95 0 28 14 4,0 85 1 M 88 Calc3.xls Κρατείστε αντίγραφο των δεδομένων Ι. Κ. ΔΗΜΗΤΡΙΟΥ 29

(Συσχέτιση μεταβλητών Όταν έχομε να μελετήσομε πολλές μεταβλητές, κατ αρχήν είναι χρήσιμο να υπολογίσομε τις συσχετίσεις μεταξύ των μεταβλητών. Έτσι λαμβάνομε μια γρήγορη εικόνα των σχέσεων μεταξύ των μεταβλητών, προσδιορίζοντας ποιες είναι πολύ συσχετισμένες και ποιες όχι. Αυτό μπορεί να γίνει με τον πίνακα συσχέτισης: Ι. Κ. ΔΗΜΗΤΡΙΟΥ 30

Σας δίνεται το αρχείο calc.xls > copy σε calc2.xls πριν το χρησιμοποιήσετε. Στο Excel εκτελούμε Εργαλεία > Ανάλυση Δεδομένων > Συσχέτιση Ι. Κ. ΔΗΜΗΤΡΙΟΥ 32

Πιο ενδιαφέρουσες, δηλ. υψηλότερες, οι συσχετίσεις με Calc. Κάθε άλλη συσχέτιση υπολείπεται. Πχ R(Calc με HSRank)= 0.324 ή R 2 =10.5% του βαθμού Calc εξηγείται από HSRank. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 33 Ερμηνείες συσχέτισης

Αν HS Rank χρησιμοποιηθεί (πρβλ παλινδρόμηση) για την πρόβλεψη του Calc, βελτιώνει κατά 10.5% το άθροισμα των σφαλμάτων στο Calc. R(Calc με Calc HS=0/1)= 0.318 σημαίνει ότι αν ο φοιτητής είχε Calc HS είναι αρκετά πιθανό να λάβει καλύτερο βαθμό στο Calc (το Excel δεν δείχνει πόσο πιθανό είναι αυτό, δηλ. την p-τιμή). Αρνητικές συσχετίσεις: R(Alg2 Grade με Gender Code=0/1)= -0.446 R(HS Rank με Gender Code=0/1)= -0.319 Αφορούν μόνο τους Α: χειρότεροι στην Αλγ και στην κατάταξη. Οι Θ είχαν μεγαλύτερο βαθμό στην Άλγεβρα 2 και καλύτερη κατάταξη (HS Rank). 34

Επίσης μπορούμε να λάβομε τα διαγράμματα διασποράς της y ως προς κάθε άλλη μτβλ και εκάστης μτβλ ως προς τις άλλες μτβλ. Αυτό θα αποκαλύψει υποκείμενες σχέσεις (πχ. μονοτονίες, γραμμικότητες, καμπυλότητες, κλπ) μεταξύ των μεταβλητών και θα δείξει και τις ισχυρότερες εξαρτήσεις (ΙΚΔ εδώ χρειάζονται μέθοδοι ανάλυσης dd). Έχομε ήδη δει τον πίνακα συσχετ: δεν δείχνει ότι μπορεί να ληφθεί μια ακριβής πρόβλεψη. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 35

Calc Calc 120 100 80 60 Calc Πόσο φανερή είναι η συσχέτιση? - Ανοδική γραμμική τάση - Άνοιγμα τιμών y 40 20 0 0 5 10 15 20 25 30 35 AlgPlace Calc 120 100 80 60 40 20 0 Calc 0 5 10 15 20 25 30 35 40 ACT Math Πόσο φανερή είναι η συσχέτιση? - Tάση? Ανοδική γραμμική τάση - Άνοιγμα τιμών y? Ι. Κ. ΔΗΜΗΤΡΙΟΥ 36

Alg2 Grade Alg2Grade 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0 5 10 15 20 25 30 35 AlgPlace Πόσο φανερή είναι είναι η συσχέτιση? - Tάση? - Άνοιγμα τιμών y? Γενικώς, τα ανωτέρω γραφήματα υποδεικνύουν γραμμικότητες (άρα συσχέτιση και παλινδρόμηση είναι κατάλληλες τεχνικές για πρόβλεψη της calc). Ι. Κ. ΔΗΜΗΤΡΙΟΥ 37

Στην ουσία καμιά γραφική ανάλυση δεν είναι ακριβής. Απλώς υποδεικνύει σχέσεις. Σημειωτέον ότι η πολυσυγγραμμικότητα (Π/Σ) εκτιμάται από τον πίνακα παλινδρόμησης. Π/Σ υπάρχει αν οι μτβλ είναι πολύ συσχετισμένες ) Επιστρέφομε στην ανάλυση παλινδρόμησης. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 38

Factors Affecting Achievement in the First Course in Calculus (Edge & Friedberg, J. Experim Education, 1984): Three groups of students at Illinois State University (of respective sizes 235, 157, and 397) were used as subjects to determine which factors were significant predictors of success in the first course in calculus. The second and third groups were used to provide replications of the initial study. Academic independent variables considered were: ACT scores, high school rank, high school GPA, high school algebra grades, and the score from an algebra pretest. Biographical independent variables considered were: sex, birth order, family size and high school size. The dependent variable was a function of the student's course grade in the first semester of calculus. The use of stepwise and all-subsets regression procedures on the three groups revealed in each case that the best combination of predictors consisted of the algebra pretest and high school rank. From this result, the investigators concluded that the combination of algebraic skills, as represented by the score on the algebra pretest, and long-term perseverance (επιμονή, εμμονή, εργατικότητα, φιλοπονία) and competitiveness, as measured by high school rank, play a significant role in the prediction of achievement in the 41 first semester of calculus.

Προτείνεται το υπόδειγμα: Calc= CalcHS + ACTMath 0 1 2 + AlgPlace + Alg2Grade 3 4 + HSRank + GenderCode + ε 5 6 Το μοντέλο αυτό αφορά στον πληθυσμό από τον οποίο έχομε λάβει το δείγμα Calc.xls. H Ανάλυση με Excel / Analysis ToolPak / Regression παρέχει ένα εκτιμημένο μοντέλο (υπόδειγμα) που βασίζεται σε ένα δείγμα 80 βαθμολογιών. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 42

Για να εξάγομε συμπεράσματα για τον πληθυσμό από τον οποίο λάβαμε το δείγμα απαιτείται να αναπτύξομε ένα εκτιμημένο υπόδειγμα παλινδρόμησης και να χρησιμοποιήσομε μια διαδικασία στατιστικής συμπερασματολογίας. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 43

Πρώτα τακτοποιούμε τα δεδομένα στο calc3.xls (σε σχέση με το αρχικό αρχείο calc.xls) για να έχομε συνεχόμενες στήλες με αριθμούς. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 44

Ι. Κ. ΔΗΜΗΤΡΙΟΥ 45

Έπειτα στο Excel εκτελούμε Εργαλεία > Ανάλυση Δεδομένων > Παλινδρόμηση (Επιδείχθηκε στην προηγούμενη διάλεξη) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 46

CALC3.xls / φύλλο MultReg Ι. Κ. ΔΗΜΗΤΡΙΟΥ 47

Ι. Κ. ΔΗΜΗΤΡΙΟΥ 48

Επιμέρους αναλύσεις και διερμηνεύσεις: Πρώτη ερώτηση Είναι το υπόδειγμα σημαντικό; Δεύτερη ερώτηση Πόσο επεξηγηματικό είναι το μοντέλο; Τρίτη ερώτηση Ποια είναι η εξίσωση παλινδρόμησης και ποιες μεταβλητές είναι οι πιο σημαντικές; Ι. Κ. ΔΗΜΗΤΡΙΟΥ 49

Επιμέρους Πρώτη ερώτηση: είναι το υπόδειγμα σημαντικό; (αφορά στην αμέσως επόμενη ανάλυση) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 50

Διερμήνευση του πίνακα ANOVA / ANAΔΙΑ ΑΝΑΔΙΑ: Δείχνει αν το υπόδειγμα παλινδρόμησης είναι σημαντικό. Βοηθά να επιλέξομε μεταξύ των δύο υποθέσεων (α=5%): Η 0 : Οι συντελεστές και των έξι μεταβλητών = 0 Η 1 : Τουλάχιστον ένας συντελεστής 0 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ n = 80 Αν Η 0 αληθής, το κλάσμα F ~ F(6,73) 2.23 βε SS MS F Σημαντικότητα F Παλινδρόμηση ESS 6 3840,2 640,03 7,2 4,7E-06 Κατάλοιπο RSS 73 6492,0 88,9 Σύνολο TSS 79 10332,0 Η0: δηλ. δεν υπάρχει σχέση μεταξύ των 6 μεταβλητών και της εξαρτημένης Ι. Κ. ΔΗΜΗΤΡΙΟΥ 51 Σημαντικότητα παλινδρόμησης?

ΠΑΡΑΤΗΡΗΣΗ: ΑΝΑΔΙΑ: Δείχνει αν το υπόδειγμα παλινδρόμησης είναι σημαντικό. Πρόχειρα μιλώντας: δηλ. αν το error (RSS) είναι μικρό σε σχέση με την παλινδρόμηση (ESS). Δηλ. όσο πιο μεγάλο το κλάσμα ESS/RSS, τόσο καλύτερα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 52

Έλεγχος υποθέσεων (συζήτηση) Αν Η 0 αληθής, τότε πρέπει το F-κλάσμα να ακολουθεί την F(με 6 βε στον αριθμητή και 73 στον παρονομαστή). Αυτό ελέγχεται με την απάντηση στην 6η στήλη. Υπό την Η 0, η πιθανότητα λήψης της τιμής F-κλάσμα = 7.2 (~F, κλάσμα με 6 βε στον αριθμητή και 73 στον παρονομαστή) είναι 0,0000047 (= p-value, αφορά στην Η 0 ) < < 0.05. Κανόνας: Αν η παλινδρόμηση είναι σημαντική (βλ στήλη F, δηλ. p-value < εσ), απορρίπτομε την Η 0. Διαφορετικά δεν απορρίπτομε την Η 0. (Στο παράδειγμα, απορρίπτομε την Η 0 υπό 5% και αποδεχόμαστε την Η 1 ). Άρα η παλινδρόμηση είναι σημαντική σε επίπεδο 5%. Αν F όχι σημαντικό, δεν θα είχε ενδιαφέρον να 53 συνεχίσομε την ανάλυση.

A p-value means only one thing (although it can be phrased in a few different ways), it is: The probability of getting the results you did (or more extreme results) given that the null hypothesis is true. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 54

Η Ανάλυση Διακύμανσης ξεκινά με την αποσύνθεση του ΤSS = Σ (y i y_bar) 2 = 10332 μονάδες μεταβολής. Που οφείλονται; Υπάρχουν δύο πηγές: Οι μτβλ πρόβλεψης ή άλλες μτβλ που δεν θεωρούνται στο μοντέλο. Το ΕSS (παλινδρόμηση) = 3840 μετρά τη μεταβολή στην εξαρτημένη μτβλ λόγω των έξι εξαρτημένων μτβλ συν όλων των άλλων πιθανών μτβλ που δεν θεωρούνται (ακόμη) στο μοντέλο. Το RSS (κατάλοιπα) = 6492 μετρά τη μεταβολή στην εξαρτημένη μτβλ μόνον λόγω όλων των άλλων μτβλ που δεν θεωρούνται (ακόμη) στο μοντέλο. TSS = ESS + RSS ή 10332 = 3840 + 6492 TSS έχει n-1 βε = 80 1 (μέγεθος δείγματος, 1 λόγω y_bar) ESS έχει k βε = 6 (πλήθος μτβλ) RSS έχει n-1-k βε = 73 (κατάλοιπα) 55

St Error of Est = sqrt(m RSS) = sqrt(6492/73)= sqrt(88.9)=9.43 = επίδραση σφάλματος στην παλινδρόμηση Standard error είναι η εκτιμημένη τιμή του σ, η τυπική απόκλιση του όρου ε, δηλ βλπ παρακάτω (μειώνεται: 1. προσθέτοντας στατ σημαντ μετβλ στην παλινδρόμηση 2. απομακρύνοντας μη σημαντ μτβλ μέσω του ΑΝΑΔΙΑ) 56

Διερμήνευση του πίνακα ANOVA (συνέχεια) ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ βε SS MS F Σημαντικότητα F Παλινδρόμηση ESS 6 3840,2 640,03 7,2 4,7E-06 Υπόλοιπο RSS 73 6492,0 88,9 Σύνολο TSS 79 10332,0 Μικρό F δείχνει ότι η μεταβλητικότητα της y οφείλεται στο rnd error και όχι στην παλινδρόμηση. Εδώ, 7.2 > F(6,73,0.05)= 2.23. Άρα παλινδρόμηση σημαντική σε εσ 5% και αποδοχή Η 1. Έπεται ότι κάποια β i 0. Αν F-test μη σημαντικό, δεν έχει ενδιαφέρον η υπόλοιπη παλινδρόμηση. 4.7Ε-06=[Η πιθανότητα ότι ένα κλάσμα F(6,73) έχει τιμή 7.2]<<5%=εσ. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 58

Έχοντας απορρίψει την Η 0, μπορούμε να χρησιμοποιήσομε το μοντέλο παλινδρ για να κάνομε προβλέψεις. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 59

Συνέχεια της ανάλυσης (δεύτερη ερώτηση). Πόσο επεξηγηματικό είναι το μοντέλο; Ι. Κ. ΔΗΜΗΤΡΙΟΥ 60

Διερμήνευση Στατιστικών Πολλ Παλινδρόμησης Στατιστικά παλινδρόμησης Πολλαπλό R (sqrt (R Τετρ) = συσχέτιση μεταξύ Calc και γραμμ συνδ ανεξ μετβλ) 0,61 R Τετράγωνο (συντελεστής προσδιορισμού) 0,37 Προσαρμοσμένο R Τετράγωνο Adj_R 2 = 1 [RSS/(n-K-1)]/[TSS/(n-1)] 0,32 Τυπικό σφάλμα (τυπικό σφάλμα του error ε) 9,43 Μέγεθος δείγματος 80 37% της ευ-μεταβλητότητας (variability) στο βαθμό Calc αποδίδεται στην παλινδρόμηση (δηλ. σε διαφορές μεταξύ των φοιτητών). Το υπόλοιπο, στο rnd. 0.61 αυξάνει αν Ν>>. Καλύτερα το Προσαρμ R Tετρ (0.32), Ι. Κ. ΔΗΜΗΤΡΙΟΥ 61 διότι δείχνει αν αξίζει να εισάγομε μεταβλητές στο υπόδειγμα.

Τυπικό σφάλμα = 9.43 = εκτιμητής του σ, ήτοι της τυπικής απόκλισης του σφάλματος ε = τυπική απόκλιση της πρόβλεψης του Calc όταν διαφοροποιούνται οι τιμές των μεταβλητών = τ/σ πρόβλεψης των 80 βαθμολογιών. Επειδή 10 βαθμοί διαφοροποιούν το [άριστα πολύ καλά], [πολύ καλά καλά] κοκ, το τ/σ είναι περίπου ένας βαθμός στην κλίμακα 10. 9.43 = επίδραση σφάλματος στην παλινδρόμηση (μειώνεται: 1. προσθέτοντας στατ σημαντ μετβλ στην παλινδρόμηση 2. απομακρύνοντας μη σημαντ μτβλ μέσω του ΑΝΑΔΙΑ) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 62

Μέχρι στιγμής, το υπόδειγμα είναι στατιστικά σημαντικό και εξηγεί το 37% περίπου της μεταβλητότητας στους βαθμούς του Calc. (Τρίτη ερώτηση) - Ποια είναι η εξίσωση παλινδρόμησης και ποιες μεταβλητές είναι οι πιο σημαντικές; Ι. Κ. ΔΗΜΗΤΡΙΟΥ 63

Διερμήνευση του πίνακα συντελεστών Η παλινδρόμηση εξάγει τον ακόλουθο πίνακα, τον οποίο και εξηγούμε ανά στήλη Συντελ εστές Τυπικό σφάλμα t- στατ τιμή-p Κατώτ ερο 95% Υψηλό τερο 95% Κατώτ ερο 95% Υψηλό τερο 95% Τεταγμένη στην αρχή 27,94 12,44 2,25 0,03 3,15 52,73 3,15 52,73 Calc HS 7,19 2,49 2,89 0,01 2,23 12,15 2,23 12,15 ACT Math 0,35 0,43 0,82 0,42-0,51 1,21-0,51 1,21 Alg Place 0,83 0,27 3,09 0,003 0,29 1,36 0,29 1,36 Alg2 Grade 3,68 2,44 1,51 0,14-1,18 8,55-1,18 8,55 HS Rank 0,11 0,12 0,95 0,34-0,12 0,34-0,12 0,34 Gender Code 2,63 2,47 1,06 0,29-2,29 7,55-2,29 7,55 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 64

Οι συντελεστές και η εξίσωση Συντελε στές Τυπικό σφάλμα t τιμή-p Κατώτε ρο 95% Υψηλό τερο 95% Τεταγμένη στην αρχή 27,94 12,44 2,25 0,03 3,15 52,73 Calc HS 7,19 2,49 2,89 0,01 2,23 12,15 ACT Math 0,35 0,43 0,82 0,42-0,51 1,21 Alg Place 0,83 0,27 3,09 0,00 0,29 1,36 Alg2 Grade 3,68 2,44 1,51 0,14-1,18 8,55 HS Rank 0,11 0,12 0,95 0,34-0,12 0,34 Gender Code 2,63 2,47 1,06 0,29-2,29 7,55 Calc=27.94 Θα εξηγήσομε στη συνέχεια τα στοιχεία του πίνακα 7.19 CalcHS + 0.35 ACTMath + 0.83 AlgPlace + 3.68 Alg2Grade Ι. Κ. ΔΗΜΗΤΡΙΟΥ 65 + 0.11 HSRank + 2.63 GenderCode

Τι δείχνει η εξίσωση; - Την οριακή μεταβολή της Calc ως προς τη μοναδιαία μεταβολή μιας των μεταβλητών, ενώ υπόλοιπες μτβλ σταθερές. - Επίσης, πρόβλεψη: Για κάποιον υποψήφιο φοιτητή Ο συντελεστής 7.19 επηρεάζει ΠΟΛΥ το βαθμό του Calc Calc=27.94 7.19 0 + 0.35 30 + 0.83 23 + 3.68 4 Συντελε στές Τεταγμένη στην αρχή 27,94 Πχ δίνεται Calc HS 7,19 0 ACT Math 0,35 30 Alg Place 0,83 23 Alg2 Grade 3,68 4 HS Rank 0,11 90 Gender Code 2,63 1 To Gender Code επιδρά θετικά Ι. Κ. ΔΗΜΗΤΡΙΟΥ 66 στην πρόβλεψη! + 0.11 90 + 2.63 1 = 74.87=75 0 = η απουσία Calc HS επιδρά αρνητικά στην πρόβλεψη

Προσέξτε το συντελεστή GenderCode=2.63 που δείχνει την επίδραση του φύλου αν οι άλλες μτβλ σταθερές. Επειδή Άρρεν=1 και Θήλυ=0, αν η εξίσωση παλινδρόμησης είναι αληθής, ένας Α θα λάβει 2.63 βαθμούς υψηλότερους από μία Θ. Εμπιστεύεστε αυτό το συμπέρασμα; Εξαρτάται από τη σημαντικότητα της μτβλ GenderCode. Οπότε πρέπει να προσδιορίσομε την ακρίβεια με την οποία η τιμή υπολογίστηκε. Αυτό γίνεται εξετάζοντας τις est st deviations των συντελεστών. Τα τυπικά σφάλματα είναι χρήσιμα σε ελέγχους υποθέσεων για τους συντελεστές Συντελε στές Τυπικό σφάλμα Τεταγμένη στην αρχή 27,94 12,44 Calc HS 7,19 2,49 ACT Math 0,35 0,43 Alg Place 0,83 0,27 Alg2 Grade 3,68 2,44 HS Rank 0,11 0,12 67 Gender Code 2,63 2,47

t-test για τους συντελεστές (t-test=κλάσμα συντελεστή διά του τυπικού σφάλματος) Πχ. t_alg Place = 3.09 ή Συντελ Τυπικό t- μεγαλύτερο με πιθανότητα= εστές σφάλμα στατ τιμή-p 0.003<5%. Κατώτερο Υψηλότε Άρα, Alg Κατώτερ Place Υψηλότε 95% ρο 95% ο 95% ρο 95% σημαντικός σε 5%. Σε όρους ΕΥ, Τεταγμένη στην απόρριψη της Η0, ότι συντελεστής αρχή 27,94 12,44 2,25 0,03 =0 3,15 υπό 5% 52,73 και αποδοχή 3,15Η1. 52,73 Calc HS 7,19 2,49 2,89 0,01 Δίπλευρο 2,23 12,15 t. 2,23 12,15 ACT Math 0,35 0,43 0,82 0,42-0,51 Επίσης, Calc 1,21HS σημαντικός -0,51 1,21 (0.01) Alg Place 0,83 0,27 3,09 0,003 0,29 Υπόλοιπες 1,36 μτβλ μη 0,29 σημαντικές. 1,36 Alg2 Grade 3,68 2,44 1,51 0,14 Επομένως, -1,18 8,55 μη δαπανάσαι -1,18 για 8,55 τη HS Rank 0,11 0,12 0,95 0,34 διερμήνευση -0,12 0,34 των υπολοίπων -0,12 0,34 μτβλ. Gender Code 2,63 2,47 1,06 0,29-2,29 Επιμέρους, 7,55δεν συνιστάται -2,29 7,55 να υποθέσομε ότι άρρενες καλύτεροι θηλέων. t-test = Συντελεστής / Τυπ Σφαλμα Αν Συντελεστής = 0, τότε ακολουθεί t-κατανομή με n-k-1=80-6-1=73 βε P=πιθανότητα μιας t τιμής τόσο μεγάλης ή μεγαλύτερης σε απόλυτη τιμή 68

Υπολογισμός διαστημάτων εμπιστοσύνης για την προαναφερθείσα πρόβλεψη της calc και των β i Calc=27.94 7.19 0 + 0.35 30 yˆ 2 StandardError 1/ n 75 (2 9.43 1/80) 75 2.11 + 0.83 23 + 3.68 4 + 0.11 90 + 2.63 1 = 74.87=75 ˆ Διάστημα εμπιστοσύνης για β i i StandardError( i) tn k 1, a/2 Gender Code 2,63 2,47 1,06 0,29 GenderCode 2.63 2.47 t Το Excel δίνει αυτόματα τα δε 2.47 80 6 1,0.025 n k 1, a/2 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 69 2.63 2.47 1.99 7.55 ή 2.29 ˆ t eg

95% διαστήματα εμπιστοσύνης για συντελεστές Συντελε στές Τυπικό σφάλμα t τιμή-p Κατώτ ερο 95% Υψηλό τερο 95% Τεταγμένη στην αρχή 27,94 12,44 2,25 0,03 3,15 52,73 Calc HS 7,19 2,49 2,89 0,01 2,23 12,15 ACT Math 0,35 0,43 0,82 0,42-0,51 1,21 Alg Place 0,83 0,27 3,09 0,003 0,29 1,36 Alg2 Grade 3,68 2,44 1,51 0,14-1,18 8,55 HS Rank 0,11 0,12 0,95 0,34-0,12 0,34 Gender Code 2,63 2,47 1,06 0,29-2,29 7,55 Είναι παράξενο που το ACTMath ΔΕΝ είναι σημαντικό, διότι το test σχετίζεται με τη δύναμη των μαθηματικών 95% δε για Calc HS: το μάθημα Calc HS σχετίζεται με μια αύξηση της βαθμολογίας της Calc μεταξύ 2.23 και 12.15 στην εν λόγω εξίσωση παλινδρόμησης Ι. Κ. ΔΗΜΗΤΡΙΟΥ 70

Η συσχέτιση ACTmath με την Calc βρέθηκε = 0.353 = πολύ σημαντική (p=0.001). Γιατί εδώ δεν φαίνεται η σημαντικότητα; Διότι, εμπλέκονται κι άλλες μτβλ που περιέχουν κάποια από την ίδια πληροφορία. Χρησιμοποιώντας το t-test για τη σημαντικότητα του ACTMath, εξετάζεται ουσιαστικά αν μπορούμε να προχωρήσομε διαγράφοντας αυτό τον όρο. Αν οι άλλες μεταβλητές αναλάβουν να δώσουν αυτή την πληροφορία, τότε ο συντελεστής δεν είναι σημαντικός και επομένως απορριπτέος. Άρα δε χάνομε και πολλά. Ωστόσο αν διώξομε τον λιγότερο σημαντικό, οι άλλοι μπορεί να καταστούν σημαντικοί. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 71

Η ακόλουθη στρατηγική (stepwise regression) μειώνει τον αριθμό των ανεξ μτβλ: Βήμα 1. Απαλοιφή του λιγότερου σημαντικού 2. Επαναπαλινδρόμηση 3. Επανάληψη 1. και 2. έως ότου καταστούν οι ανεξ μτβλ σημαντικές. Σημείωση: μία μέθοδος ανάλυσης δεν αποτελεί μονόδρομο. Καλύτερα να χρησιμοποιούνται περισσότερες της μίας (πχ συσχέτιση και παλινδρόμηση). Ι. Κ. ΔΗΜΗΤΡΙΟΥ 72

ΥΠΕΝΘΥΜΙΣΗ, μέχρι εδώ: Αναλύσαμε και διερμηνεύσαμε τρεις ερωτήσεις: Πρώτη ερώτηση Είναι το υπόδειγμα σημαντικό; Δεύτερη ερώτηση Πόσο επεξηγηματικό είναι το μοντέλο; Τρίτη ερώτηση Ποια είναι η εξίσωση παλινδρόμησης και ποιες μεταβλητές είναι οι πιο σημαντικές; Ι. Κ. ΔΗΜΗΤΡΙΟΥ 83

( Με πρακτική κατανοούμε την παλινδρόμηση και σχεδόν κάθε αντίστοιχη μέθοδο (μοντέλο + στατ ανάλυση). Αύξηση δεξιότητας. ) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 85

Στη συνέχεια αξιολογούμε την επιτυχία της παλινδρόμησης με τα εξής τέσσερα κοινά διαγράμματα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 86

Εξέταση των υποθέσεων της παλινδρόμησης Τα τέσσερα κοινά διαγράμματα που δίνει η παλινδρόμηση του Excel βοηθούν στην εκτίμηση της παλινδρόμησης: 1. Διάγραμμα της εξαρτ μτβλ ως προς τις εκτιμημένες τιμές: καταλληλότητα παλινδρόμησης 2. Διάγραμμα καταλοίπων ως προς τις εκτιμημένες τιμές μεγεθύνει το κατακόρυφο άνοιγμα των δεδομένων, άρα ελέγχονται οι υποθέσεις παλινδρόμησης. Αν καμπυλότητες, τότε (?). Αν κατακόρυφο άνοιγμα τιμών στη μία μεριά, τότε μη σταθερή var 3. Διάγραμμα καταλοίπων ως προς επιμέρους μτβλ: αναδεικνύει επιμέρους προβλήματα 4. Κανονικό διάγραμμα των καταλοίπων: αποτιμά την Κανονική υπόθεση των καταλοίπων. 87

Eξαρτ μτβλ ως προς Εκτιμήσεις Πόσο πετυχημένη είναι η παλινδρόμηση; Σχεδίασε: Παρατηρήσεις (Calc) vs. Εκτιμήσεις Ι. Κ. ΔΗΜΗΤΡΙΟΥ 88

Ι. Κ. ΔΗΜΗΤΡΙΟΥ 89

Παρατηρήσεις Calculus 110 100 90 80 70 60 50 40 40 50 60 70 80 90 100 Εκτιμήσεις Ι. Κ. ΔΗΜΗΤΡΙΟΥ 91

Φαίνεται να στενεύουν οι τιμές για μεγαλύτερες εκτιμήσεις του Calculus. Αν η διακύμανση του σφάλματος ήταν μικρότερη για βαθμούς με υψηλές εκτιμήσεις, θα παραβιαζόταν η 4η υπόθεση της παλινδρόμησης περί σταθερής διακύμανσης. Θεωρούμε αυτούς τους φοιτητές με εκτίμηση βαθμού 80 στο Calc. Οι πραγματικοί βαθμοί κυμαίνονται από 65 έως 95 περίπου, ευρύ! Όμως το εύρος είναι «<» στο βαθμό 90: Οι πραγματικές τιμές (παρατηρήσεις) είναι στο 80-90. Τι συμβαίνει; Συμβαίνει το εξής: Υπάρχει το όριο 100 στη βαθμολογία (εξαρτημένη μτβλ). Αυτό γενικά (το όριο) προκαλεί μη σταθερή διακύμανση σφάλματος. 92

Κατάλοιπα ως προς Εκτιμήσεις Δείχνει μια άλλη όψη της μεταβολής μεταξύ των παρατηρούμενων και των εκτιμημένων τιμών (διότι κατάλοιπο = παρατήρηση - εκτίμηση). Ι. Κ. ΔΗΜΗΤΡΙΟΥ 93

Κατάλοιπα 25 20 15 10 Κατάλοιπ 5 0-5 60 65 70 75 80 85 90 95 100-10 -15-20 -25 Εκτιμήσεις Ι. Κ. ΔΗΜΗΤΡΙΟΥ 94

Χρήσιμο διάγραμμα για την επαλήθευση των υποθέσεων παλινδρόμησης. Πχ η 1η υπόθεση απαιτεί την κατάλληλη μορφή του υποδείγματος. Εδώ δεν παρατηρείται κάποιο συστηματικό πρότυπο (πχ καμπύλη). Αν η υπόθεση της σταθερής διακύμανσης δεν ικανοποιείται, τότε θα πρέπει να φαίνεται στο διάγραμμα. Κοιτάζομε για τάση στο κατακόρυφο άνοιγμα. Φανερά, στενεύει η τάση προς τα δεξιά (αυτό εγείρει υποψίες για την εγκυρότητα της παλινδρόμησης, robustness). Τότε, προτείνεται ο μετασχηματισμός των δεδομένων, αλλά επάγεται δυσκολία διερμήνευσης μτβλ. Κατάλοιπ 25 20 15 10 5-10 -15 Κατάλοιπα 0-5 60 65 70 75 80 85 90 95 100 Ι. Κ. ΔΗΜΗΤΡΙΟΥ -20 95-25 Εκτιμήσεις

Κατάλοιπα ως προς καθεμιά μεταβλητή Τα διαγράμματα μπορεί να δείξουν Καμπυλότητες Μη σταθερή διακύμανση Αυτά τα διαγράμματα δημιουργούνται αυτόματα από το Excel: 1. Διαγράμματα διασποράς καταλοίπων ως προς καθεμιά μτβλ 2. Διαγράμματα εκτίμησης calc ως προς μτβλ παλινδρόμησης Ι. Κ. ΔΗΜΗΤΡΙΟΥ 96

Υπόλοιπα Alg Place Διάγραμμα υπολοίπων 25 20 15 10-10 -505-15 -20-25 0 10 20 30 40 Alg Place Φαίνεται άνοιγμα στα κατάλοιπα για μικρότερους βαθμούς. Μάλλον πρέπει να μετασχηματίσομε τα δεδομένα Πώς αιτιολογείται ένα θετικό (αρνητικό) κατάλοιπο Ι. Κ. ΔΗΜΗΤΡΙΟΥ 97

Calc Alg Place Διάγραμμα προσαρμογής γραμμής 120 120 100 80 60 40 20 0 0 20 40 Alg Place Calc Προβλεπόμενος Calc 100 Εκτιμήσεις 80 60 40 Χειρονακτικά 20 0 0 5 10 15 20 25 30 35 Alg Place Ι. Κ. ΔΗΜΗΤΡΙΟΥ 98

120 100 Εκτιμήσει 80 60 40 20 0 0 5 10 15 20 25 30 35 Alg Place Οι εκτιμήσεις είναι πιο συμμαζεμένες από τις παρατηρήσεις. (λογικό φαίνεται) Γραμμική τάση ως προς Alg Place Δεν φαίνεται να υπάρχει άνοιγμα Ι. Κ. ΔΗΜΗΤΡΙΟΥ 99

Κανονικά σφάλματα και Κανονικό διάγραμμα διασποράς Τι γίνεται με την υπόθεση της Κανονικότητας των σφαλμάτων; - Αν υπάρχουν μη Κανονικά σφάλματα, εμφανίζονται ακραίες τιμές στο διάγραμμα διασποράς καταλοίπων ως προς εκτιμήσεις (calc). Κατάλοιπα - Εδώ, δεν υπάρχουν 25 20 15 10 τιμές καταλοίπων > από το 21. 0-5 60 65 70 75 80 85 90 95 100 Πόσο μεγάλα πρέπει να είναι τα κατάλοιπα αν τα σφάλματα είναι Κανονικά; Αποφάσισε χρησιμοποιώντας το Normal Probability plot. Κατάλοιπ Ι. Κ. ΔΗΜΗΤΡΙΟΥ 100 5-10 -15-20 -25 Εκτιμήσεις

Για να λάβομε το Normal Probability plot επιλέγομε Ι. Κ. ΔΗΜΗΤΡΙΟΥ 101

Ι. Κ. ΔΗΜΗΤΡΙΟΥ 102

Διάγραμμα κανονικής πιθανότητας Calc 110 100 90 80 70 60 50 40-10 40 90 Δείγμα ποσοστού Παρατηρούνται αποκλίσεις στην αρχή. Φαίνεται να υπάρχει μικρό πρόβλημα με την υπόθεση της Κανονικότητας. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 103

Σύνοψη της παλινδρόμησης Ποια είναι τα κύρια συμπεράσματα από την παλινδρόμηση + κατάλοιπα + διαγράμματα; - Με F = 7.2 > F(6,73,0.05) = 2.23, παλινδρόμηση σημαντική σε εσ 5%. - Με R 2 = 0.37 και προσαρμοσμένο R 2 = 0.32, η παλινδρόμηση εξηγεί περίπου το 1/3 της διακύμανσης στο βαθμό του calc (απογοητευτικό ωστόσο, διότι το Πανεπιστήμιο δίνει βάρος στις προβλέψεις). - Μόνο η άλγεβρα και αν παρακολούθησε ή όχι HScalc είναι σημαντικοί συντελεστές. - Υπάρχει κάποιο πρόβλημα με τη μη σταθερή διακύμανση (ανεξάρτητο συμπερασμάτων). 104

Το παράδειγμα δίνει μια ιδέα για το πώς θα μπορούσε να γινόταν μια αξιολόγηση στα ΑΕΙ κατά το 2 ο έτος σπουδών μετά τις Πανελλαδικές (περιέχοντας και τα φροντιστήρια). Ι. Κ. ΔΗΜΗΤΡΙΟΥ 105

( Πώς κάνομε κανονικοποίηση των καταλοίπων (normalization)

x y fit=y_hat residual 1 41 32 31.1083 0.8917 2 35 20 26.7045-6.7045 3 34 35 25.9706 9.0294 4 40 24 30.3743-6.3743 5 33 27 25.2366 1.7634 6 42 28 31.8422-3.8422 7 37 31 28.1725 2.8275 8 42 33 31.8422 1.1578 9 30 26 23.0348 2.9652 10 43 41 32.5762 8.4238 11 38 29 28.9064 0.0936 12 38 33 28.9064 4.0936 13 46 36 34.7781 1.2219 14 36 23 27.4385-4.4385 15 32 22 24.5027-2.5027 16 43 38 32.5762 5.4238 17 42 26 31.8422-5.8422 18 30 20 23.0348-3.0348 19 41 30 31.1083-1.1083 20 45 30 34.0441-4.0441 10 8 6 4 2 0-2 25 35 45 55-4 -6-8 residual residual

Residual avg 0.00000 residual std 4.6421098 0.8917 1 0.1920922 =0.8917/4.6421-6.7045 2-1.444291 9.0294 3 1.9451136-6.3743 4-1.373157 1.7634 5 0.3798645-3.8422 6-0.827696 2.8275 7 0.609108 1.1578 8 0.2494031 2.9652 9 0.6387714 8.4238 10 1.8146522 0.0936 11 0.0201596 4.0936 12 0.8818386 1.2219 13 0.2632268-4.4385 14-0.956141-2.5027 15-0.539125 5.4238 16 1.1683929-5.8422 17-1.258535-3.0348 18-0.653747-1.1083 19-0.238747-4.0441 20-0.871183 ΚΑΝΟΝΙΚΟΠΟΙΗΣΗ Έρχονται περίπου στο -1 έως 1 2.5 2 1.5 1 0.5 0-0.5-1 -1.5-2 0 5 10 15 20 Σειρά1 )

// Ι. Κ. ΔΗΜΗΤΡΙΟΥ 110

Ψευδομεταβλητές dummy variables Ανακαλούμε το πρόβλημα της περασμένης διάλεξης, το οποίο χρησιμοποιεί δύο κατηγορικές μεταβλητές (δηλ. μεταβλητές που κατηγοριοποιούν τα δεδομένα): Ι. Κ. ΔΗΜΗΤΡΙΟΥ 111

Δομή του αρχείου calc.xls ONOMA MTBΛ Calc_HS ACT_Math Alg_Place Alg2_Grade HS_Rank Gender Gender_Code Calc ΠΕΡΙΓΡΑΦΗ Calculus High School (0/1, N/O) ACT maths exam (American College Testing) Algebra Placement exam in the first week of classes 2nd year Άλγεβρα High School βαθμός Φύλλο Α/Θ Φύλλο (1/0) Βαθμός στο Calculus Ι. Κ. ΔΗΜΗΤΡΙΟΥ 112

Το περιεχόμενο του αρχείου (συνόλου) 80 δεδομένων Calc HS ACT Math Alg Place Alg2 Grade HS Rank Gender Code Gender Calc 0 27 21 3,5 68 0 F 62 0 29 16 4,0 99 0 F 75 1 30 22 4,0 98 1 M 95 0 34 25 3,0 90 1 M 78 0 29 22 4,0 99 0 F 95 1 30 19 4,0 97 0 F 91 0 29 23 4,0 79 1 M 72 0 28 15 4,0 95 0 F 95 0 28 14 4,0 85 1 M 88 Calc3.xls Κρατείστε αντίγραφο των δεδομένων Ι. Κ. ΔΗΜΗΤΡΙΟΥ 113

Στη συνέχεια υπολογίσαμε το υπόδειγμα και προχωρήσαμε σε πρόβλεψη: Ι. Κ. ΔΗΜΗΤΡΙΟΥ 114

Τι δείχνει η εξίσωση; - Την οριακή μεταβολή της Calc ως προς τη μοναδιαία μεταβολή μιας των μεταβλητών, ενώ υπόλοιπες μτβλ σταθερές. - Επίσης, πρόβλεψη: Για κάποιον υποψήφιο φοιτητή Ο συντελεστής 7.19 επηρεάζει ΠΟΛΥ το βαθμό του Calc Calc=27.94 7.19 0 + 0.35 30 + 0.83 23 + 3.68 4 Συντελε στές Τεταγμένη στην αρχή 27,94 Πχ δίνεται Calc HS 7,19 0 ACT Math 0,35 30 Alg Place 0,83 23 Alg2 Grade 3,68 4 HS Rank 0,11 90 Gender Code 2,63 1 To Gender Code επιδρά θετικά Ι. Κ. ΔΗΜΗΤΡΙΟΥ 115 στην πρόβλεψη! + 0.11 90 + 2.63 1 = 74.87=75 0 = η απουσία Calc HS επιδρά αρνητικά στην πρόβλεψη

Ψευδομεταβλητές (dummy variables) Έστω μτβλ φύλο (άρρεν / θήλυ, gender) Εκφράζεται ποιοτικά και ποσοτικοποιείται με δυαδικές μτβλ (binary, 0/1) ή ψευδομεταβλητές ή κατηγορικές μτβλ Πχ Μισθός = β 0 +β 1 Χ 1 +β 2 Χ 2 +ε όπου Χ 1 = 1, αν έχει μεταπτυχιακό, = 0, διαφορετικά Χ 2 = έτη προϋπηρεσίας Τότε, αν Χ 1 = 0, Μισθός = β 0 +β 2 Χ 2 αν Χ 1 = 1, Μισθός = β 0 +β 1 +β 2 Χ 2 +ε β 1 = πρόσθετο έσοδο Ι. Κ. ΔΗΜΗΤΡΙΟΥ 116

Ψευδομεταβλητές (συνέχεια) Εποχικότητα (3 ψ/μ για αναπαράσταση 4 εποχών) Χ 1t = 1, 1o τέταρτο = 0, διαφορετικά Χ 2t = 1, 2o τέταρτο = 0, διαφορετικά Χ 3t = 1, 3o τέταρτο = 0, διαφορετικά Υ = β 0 +β 1 Χ 1t +β 2 Χ 2t +β 3 Χ 3t + β 4 Χ 4t +ε όπου Χ 4t δεν είναι ψ/μ και t = δείκτης τριμηνιαίων παρατηρήσεων β 1 = δείχνει την έκταση που η αναμενόμενη τιμή της Υ στο 1ο τρίμηνο διαφέρει από την αναμενόμενη τιμή της στο 4ο τρίμηνο. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 117

Παράδειγμα Ι. Κ. ΔΗΜΗΤΡΙΟΥ 118

Ο αναλυτής πιστεύει ότι επιπρόσθετα του μεγέθους (Χ 1 ), οι χρόνοι προσαρμογής (Υ) μιας εταιρείας στη χρήση S/W (Χ 2 ) διαφέρουν στις εταιρείες πληροφορικής από τις εταιρείες καλλυντικών. Χ 2 : πρόκειται για ποιοτική μεταβλητή = τύπος εταιρείας. Ποσοτικοποιείται ως εξής: Χ 2 = 1, αν είναι εταιρεία καλλυντικών, = 0, αν είναι εταιρεία πληροφορικής Υ = β 0 +β 1 ΜέγεθοςΕταιρείας+β 2 ΕταιρείαΚαλυντικών+ε Υ = β 0 +β 1 Χ 1 +β 2 Χ 2 +ε Τότε, αν Χ 2 = 0, Υ = β 0 + β 1 Χ 1 αν Χ 2 = 1, Υ = β 0 + β 1 Χ 1 + β 2 β 2 = Αν >0 σημαίνει ότι εταιρείες στα καλλυντικά χρειάζονται περισσότερο χρόνο προσαρμογής στη χρήση S/W. Εταιρείες στο χώρο της πληροφορικής Εταιρείες στο χώρο των καλλυντικών Επειδή παράλληλες γραμμές, η διαφορά στο χρόνο προσαρμογής δεν Ι. Κ. ΔΗΜΗΤΡΙΟΥ 119 εξαρτάται από το μέγεθος της εταιρείας.

Χρόνος προσαρμογής καλλυντικά ( ) x x 1 0 1 0 2 1 1 2 0 2 0 πληροφορική x x 0 1 0 1 1 2 0 Μέγεθος εταιρίας β 2 δείχνει πόσο μεγαλύτερος (μικρότερος) είναι ο χρόνος προσαρμογής για τις εταιρίες 1 απ ό,τι για τις εταιρίες 0. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 120, άρα ο χρόνος προσαρμογής δεν εξαρτάται από το μέγεθος της εταιρίας.

Ψευδομεταβλητές (συνέχεια) Υπόδειγμα τριών εταιρειών Πλέον των εταιρειών καλλυντικών (Χ 1 ) και πληροφορικής (Χ 2 ), υποθέτομε και λιανικής πώλησης Χ 3. Αναπαράσταση των εταιρειών: Χ 2 = 1, καλλυντικών 0, όχι καλλυντικών Χ 3 = 1, λιανικής 0, όχι λιανικής Άρα κωδικοποίηση (παράδειγμα): Καλλυντικών: Χ 2 = 1, Χ 3 = 0 Λιανικής: Χ 2 = 0, Χ 3 = 1 Πληροφορικής: Χ 2 = 0, Χ 3 = 0 (ούτε Καλλυντικών, ούτε Λιανικής) ( ) x x x 0 1 1 2 2 3 3 Κανόνας: μια κατηγορική μεταβλητή με Κ κλάσεις, αναπαρίσταται με Κ-1 ενδείκτες (indicators), όπου έκαστος λαμβάνει την τιμή 0 ή 1. 121

Υποδείγματα πρώτης τάξης με αλληλεπίδραση Είδαμε ότι η διαφορά στο χρόνο προσαρμογής δεν εξαρτάται από το μέγεθος της εταιρείας. Υποθέτομε ότι οι μικρές εταιρείες καλλυντικών είχαν μεγαλύτερους χρόνους προσαρμογής, αλλά οι μεγάλες εταιρείες καλλυντικών είχαν μικρότερους από τις εταιρείες πληροφορικής. Αυτό υποδεικνύει μια αλληλεπίδραση μεταξύ των τύπων εταιρειών και του μεγέθους. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 122

Καθώς Χ 1 αυξάνει, χρ_προσαρμογής εταιρειών καλλυντικών μειώνεται. Καθώς Χ 1 αυξάνει, χρ_προσαρμογής εταιρειών πληροφορικής αυξάνει. Επομένως, η επίδραση του Χ 1 (μέγεθος εταιρείας) στους χρ_προσαρμογής εξαρτάται από τον τύπο εταιρείας. Άρα, όχι παράλληλες, αλλά υπό αλληλεπίδραση. x x 0 1 1 2 2 x x x x 0 1 1 2 2 12 1 2 ΟΧΙ ΑΛΛΗΛΕΠΙΔΡΑΣΗ ΜΕ ΑΛΛΗΛΕΠΙΔΡΑΣΗ Ερμηνεία των συντελεστών Ι. Κ. ΔΗΜΗΤΡΙΟΥ 123

Ερμηνεία του β 12 Έστω εταιρεία πληροφορικής Χ 2 = 1, αν είναι εταιρεία καλλυντικών, = 0, αν είναι εταιρεία πληροφορικής Τότε Χ 2 =0 και Χ 1 Χ 2 =0 x 0 0 x 0 1 1 2 12 0 1 1 Έστω εταιρεία καλλυντικών Χ 2 = 1, αν είναι εταιρεία καλλυντικών, = 0, αν είναι εταιρεία πληροφορικής Τότε Χ 2 =1 και Χ 1 Χ 2 =Χ 1 x 1 x ( ) ( ) x 0 1 1 2 12 1 0 2 1 12 1 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 124

0 2 καλλυντικά Καθώς το μέγεθος των εταιρειών καλλυντικών αυξάνει, οι χρόνοι προσαρμογής μειώνονται x 0 1 1 1 0 0 πληροφορική ( ) ( ) x 0 2 1 12 1 0, 12 12 1 x 1 Πότε προσθέτομε όρο αλληλεπίδρασης; Όταν η λογική, η θεωρία ή τα δεδομένα υποδεικνύουν ότι η επίδραση μιας εξαρτημ μτβλ στην ανεξάρτητη εξαρτάται από μιαν άλλη ανεξάρτητη μτβλ. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 125

Υποδείγματα δεύτερης τάξης Όταν υπάρχουν καμπύλες σχέσεις, όπως πολυώνυμα 2ου βαθμού. x x 0 1 1 11 1 2 β 11 = επίδραση της επιτάχυνσης στην παλινδρόμηση Πχ Στην Ψυχολογία, stress (x) & παραγωγικότητα (y) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 126

Η δημιουργία ενός υποδείγματος, ας πούμε τετραγωνικού ή σιγμοειδούς, απαιτεί θεώρηση και πρακτική. Στην επόμενη διαφάνεια τα δεδομένα (+) προσαρμόζονται από μια σιγμοειδή προσέγγιση (ο) που επιδεικνύει φθίνουσα επιτάχυνση. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 127

Υπόδειγμα υποκατάστασης PDP (+) από VAX ( ) υπολογιστές (μη γραμμική σχέση μεταβλητών) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 128

Υποδείγματα λογαριθμικής αναγωγής (πολλαπλασιαστικά υποδείγματα) Όταν υπάρχουν μη γραμμικές σχέσεις (με θετικές μεταβλητές), όπως x 1x 2e 0 1 2 τότε ανάγεται στο γραμμικό υπόδειγμα ln ln ln x ln x 0 1 1 2 2 Με αντίστοιχη λογαριθμική αναγωγή των δεδομένων Y, X 1 και Χ 2 σε LnY, LnX 1 και LnX 2 και συνήθη εφαρμογή της παλινδρόμησης. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 129

Ελαστικότητα στο γραμμικό υπόδειγμα Στο γραμμικό υπόδειγμα, η κλίση είναι σταθερή k k, k 1,2, K, n Αλλά η ελαστικότητα (δηλ. η επί τοις εκατόν αλλαγή στην εξαρτημένη μτβλ που προκαλείται από 1% αλλαγή σε μια ανεξάρτητη, ενώ υπόλοιπες σταθερές) δεν είναι σταθερή k Y / Y Y X X k k X / X X Y Y k k k Ι. Κ. ΔΗΜΗΤΡΙΟΥ 130 k

Ελαστικότητα στο πολλαπλασιαστικό υπόδειγμα x 1x 2e 0 1 2 Τότε ανάγεται στο γραμμικό υπόδειγμα ln ln ln x ln x 0 1 1 2 2 k ln Y / Y YX ln X / X k k k k Σταθερές ελαστικότητες! η ΥΧ k = β k τοις εκατόν είναι η αλλαγή στην εξαρτημένη μτβλ Υ που προκαλείται από 1% αλλαγή σε μια ανεξάρτητη μτβλ Χ k, ενώ υπόλοιπες μτβλ σταθερές. 131

Ο λογάριθμος μια ψευδομεταβλητής Για να αποφευχθεί το ενδεχόμενο να λάβομε το λογάριθμο του μηδενός, ο καλύτερος τρόπος είναι να ορίσομε την ψ/μ έτσι ώστε να παίρνει τις τιμές 1 και e (αντί για 0 και 1). Οπότε ο λογάριθμος γίνεται 0 και 1 και η διερμήνευση του β παραμένει όπως στη γραμμική περίπτωση. Επίσης η θεωρητική ισχύς της ψ/μ διατηρείται. 132

How to interpret a coefficient on a dummy variable? For a single dummy variable without an interaction term, the value of the coefficient tells you the change in the value of the dependent variable compared with the base case. Example: Predicted Wage = 10.2 + 1.3Northeast 0.9Midwest 1.7South Consider cases: Person is from the Midwest. Then this person is predicted to make 10.2 0.9 = 9.3 (dollars per hour) since the values for Northeast and South are zero. Southerners make $1.70 per hour less than Westerners. How to interpret a coefficient on a dummy variable with a log dependent variable? The coefficient on a dummy variable with a log-transformed Y variable is interpreted as the percentage change in Y associated with having the dummy variable characteristic relative to the omitted category, with all other included X variables held fixed. Example: Predicted ln Charitable Giving (δωρεές) =-4.46-1.3 lnprice + 0.91 lnincome +0.46 Married Approximate Interpretation: Predicted Charitable Giving is approximately 46 percent higher in for married tax payers, holding constant price of giving and income. 133

Υποθέσεις, Περιορισμοί, Πρακτικότητες Υπόθεση Γραμμικότητας Υπόθεση Κανονικότητας Περιορισμοί Επιλογή αριθμού μεταβλητών Πολυ-συγγραμμικότητα και ευαισθησία πινάκων Πολυωνυμική παλινδρόμηση Η σπουδαιότητα της ανάλυσης καταλοίπων Ι. Κ. ΔΗΜΗΤΡΙΟΥ 134

Υπόθεση Γραμμικότητας Κατ ουσίαν η υπόθεση αυτή ουδέποτε επιβεβαιώνεται. Ευτυχώς, οι διαδικασίες πολλαπλής παλινδρόμηση δεν επηρεάζονται πολύ από μικρές αποκλίσεις αυτής της υπόθεσης. Ωστόσο, ως κανόνας, ενδείκνυται να κοιτάζομε πάντοτε τα διδιάστατα διαγράμματα των ενδιαφερόμενων μεταβλητών. Αν εμφανίζεται καμπυλότητα, τότε είτε μετασχηματίζομε τις μεταβλητές, είτε εισάγομε μη γραμμικές συνιστώσες. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 135

Υπόθεση Κανονικότητας Τα κατάλοιπα (παρατηρήσεις μείον y_hat) κατανέμονται Κανονικά (δηλ. ακολουθούν την Κανονική κατανομή). Ακόμη και αν οι περισσότεροι έλεγχοι (συγκεκριμένα το F- test) είναι πολύ ανθεκτικοί ως προς τις παραβιάσεις της υπόθεσης, είναι πάντα μια καλή ιδέα, πριν τα συμπεράσματα, να επανεξετάζομε τις κατανομές των κυρίων μεταβλητών που μας ενδιαφέρουν. Μπορούμε να παραγάγομε ιστογράμματα των καταλοίπων καθώς και normal probability plots, για να εξετάσομε την κατανομή των τιμών των καταλοίπων. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 136

Περιορισμοί Ο κύριος εννοιολογικός περιορισμός όλων των τεχνικών παλινδρόμησης είναι ότι απλώς διαπιστώνομε σχέσεις, αλλά ποτέ δεν είμαστε βέβαιοι για την υποκείμενη αιτιώδη σχέση. Στην πραγματικότητα, στην ερευνητική ανάλυση, αιτιώδεις σχέσεις δεν εξετάζονται. (φιλοσοφική θεώρηση, επιστημονική αντιμετώπιση) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 137

Επιλογή του Αριθμού των Μεταβλητών Η πολλαπλή παλινδρόμηση είναι δελεαστική τεχνική: «βάζεις» όσες μτβλ νομίζεις και κάποιες απ αυτές θα βγουν σημαντικές. Περικλείοντας απλώς όσες μτβλ νομίζομε ότι επηρεάζουν μιαν άλλη μτβλ σημαίνει ότι επενδύομε στην τύχη. Το πρόβλημα επιδεινώνεται όταν, επιπροσθέτως, ο αριθμός των μτβλ είναι σχετικά μικρός. Διαισθητικά, είναι φανερό ότι δύσκολα συνάγονται συμπεράσματα από μια ανάλυση 100 ερωτήσεων που βασίζονται σε 10 άτομα που ανταποκρίθηκαν. Πολλοί συγγραφείς προτείνουν να είναι ο αριθμός των παρατηρήσεων (ανταποκρίσεων) 10 έως 20 φορές μεγαλύτερος αυτού των μεταβλητών, διαφορετικά οι εκτιμητές της παλινδρόμησης θα είναι μάλλον πολύ ασταθείς και απίθανο να αναπαραχθούν σε 138 συνέχεια της μελέτης.

Πολυσυγγραμμικότητα (Π/Σ, γραμμική εξάρτηση) και ευαισθησία πινάκων Είναι κοινό πρόβλημα σε πολλές αναλύσεις συσχέτισης. Ιδιαίτερα όταν υπάρχουν πολλές μεταβλητές, δεν είναι άμεσα φανερή η ύπαρξη αυτού του προβλήματος, αλλά εκδηλώνεται αφού τρέξει η παλινδρόμηση. Ωστόσο, όταν υπάρξει αυτό το πρόβλημα σημαίνει ότι τουλάχιστον μία ανεξ μτβλ είναι εντελώς περιττή. Υπάρχουν πολλοί στατιστικοί ενδείκτες (tolerances, semi-partial R, κλπ) συγγραμμικότητας, καθώς και κάποιες θεραπείες (πχ Ridge regression). Για να ξεσκαρτάρομε την Π/Σ: διώξε μτβλ με απόλυτη τιμή t- stat < 1 ή με συντελεστή παλινδρόμησης που έχει πρόσημο αντίθετο προσδοκώμενου. (Βλ Χαλικιά, 3 η έκδ., σελ. 321 παράδειγμα) 139

Πολυωνυμική παλινδρόμηση Η πολυωνυμική παλινδρόμηση μπορεί να δημιουργήσει δύσκολα προβλήματα πολυσυγγραμμικότητας, είτε επειδή οι δυνάμεις x, x 2, x 3, x 4 κοκ παρουσιάζουν εξάρτηση, είτε επειδή οι τιμές της ανεξ μτβλ είναι μεγάλες. Υπάρχουν κάποιες τεχνικές για τον περιορισμό του προβλήματος. A cubic polynomial regression fit to a simulated data set. The confidence band is within 95%. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 140

Η Σημαντικότητα της Ανάλυσης Καταλοίπων Ακόμη κι αν οι περισσότερες υποθέσεις της πολλαπλής παλινδρόμησης δεν μπορούν να ελεγχθούν κατηγορηματικά, χονδροειδείς παραβιάσεις μπορούν να εντοπισθούν, ώστε να τις διαχειρισθούμε κατάλληλα. Τα έκτοπα σημεία (outliers, extreme cases), ιδιαίτερα, μπορούν να εκτρέψουν τα αποτελέσματα «τραβώντας» ή «σπρώχνοντας» τη γραμμή παλινδρόμησης προς κάποια κατεύθυνση, κι έτσι να οδηγήσουν σε μεροληπτικούς συντελεστές. Συχνά, αποκλείοντας ακόμη και ένα έκτοπο σημείο μπορεί να διαφοροποιήσει ριζικά τ αποτελέσματα. Παράδειγμα Ι. Κ. ΔΗΜΗΤΡΙΟΥ 141

Ι. Κ. ΔΗΜΗΤΡΙΟΥ 142

Ένα πλαίσιο χρήσεως της παλινδρόμησης: Ι. Κ. ΔΗΜΗΤΡΙΟΥ 143

Σχεδίασε διαγράμματα διασποράς για κάθε ζεύγος (x i,y) ΔΙΑΓΡΑΜΜΑ ΡΟΗΣ ΓΙΑ ΤΗΝ ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ Βρες την παλινδρόμηση Pass Τεστάρισε το μοντέλο με ΑΝΑΔΙΑ Διώξε μη σημαντικές μτβλ με t-test Fail Σκέψου πρόσθετες μτβλ Τεστάρισε υποθέσεις υποκείμενες του τελικού εκτιμημένου υποδείγματος Pass Fail Μετασχημάτισε τα δεδομένα. Επίσης πρόσθετες μτβλ. Πρόβλεψη ή Εξήγηση Αποτίμησε την πολυσυγγραμμικότητα και διόρθωσε 144

Πλέον εισερχόμαστε σε ερευνητικές περιοχές Ι. Κ. ΔΗΜΗΤΡΙΟΥ 145

Τέλος Ι. Κ. ΔΗΜΗΤΡΙΟΥ 146