ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Σχετικά έγγραφα
ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Κάθε σύνολο δεδομένων κρύβει δομή το θέμα είναι να την εντοπίσομε (analytics)

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ και ΣΥΣΧΕΤΙΣΗ. Μέρος 2

Εισόδημα Κατανάλωση

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι)

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Πολλαπλή παλινδρόμηση (Multivariate regression)

Διαχείριση Υδατικών Πόρων

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

χ 2 test ανεξαρτησίας

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Χ. Εμμανουηλίδης, 1

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Ανάλυση Διακύμανσης. Ι. Κ. Δημητρίου

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Κάθε σύνολο δεδομένων κρύβει δομή το θέμα είναι να την εντοπίσομε (analytics)

Εισαγωγή στην Ανάλυση Δεδομένων

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Απλή Παλινδρόμηση και Συσχέτιση

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

Αναλυτική Στατιστική

Πρόλογος Μέρος Ι: Απλό και πολλαπλό υπόδειγμα παλινδρόμησης Αντικείμενο της οικονομετρίας... 21

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

9. Παλινδρόμηση και Συσχέτιση

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

Απλή Γραμμική Παλινδρόμηση II

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Kruskal-Wallis H

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

σ = και σ = 4 αντιστοίχως. Τότε θα ισχύει

3η Ενότητα Προβλέψεις

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΣΤΑΤΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

Οικονομετρία Ι. Ενότητα 5: Ανάλυση της Διακύμανσης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Οι παρατηρήσεις του δείγματος, μεγέθους n = 40, δίνονται ομαδοποιημένες κατά συνέπεια ο δειγματικός μέσος υπολογίζεται από τον τύπο:

Γ. Πειραματισμός Βιομετρία

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Διάστημα εμπιστοσύνης της μέσης τιμής

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Ευαισθησία της γραμμής παλινδρόμησης (Sensitivity of linear regression)

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Η τελεία χρησιμοποιείται ως υποδιαστολή (π.χ 3 14 τρία κόμμα δεκατέσσερα) Παρακαλώ παραδώστε τα θέματα μαζί με το γραπτό σας ΟΝΟΜΑ: ΕΠΩΝΥΜΟ: ΑΜ:

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Διάλεξη 1 Βασικές έννοιες

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Εργαστήριο Οικονομετρίας Προαιρετική Εργασία 2016 Χειμερινό Εξάμηνο

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή

Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ. Τρίτη Γραπτή Εργασία στη Στατιστική. Γενικές οδηγίες για την εργασία

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Πολλαπλή Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Συνολοκλήρωση και μηχανισμός διόρθωσης σφάλματος

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Απλή Γραμμική Παλινδρόμηση I

Οικονομετρία Ι. Ενότητα 9: Αυτοσυσχέτιση. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Α μέρος: Πολυσυγγραμμικότητα. Παπάνα Αγγελική

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Transcript:

ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Καθηγητής Ι. Κ. ΔΗΜΗΤΡΙΟΥ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών demetri@econ.uoa.gr Οικονομικά, Διοικητικά και Πληροφοριακά Συστήματα Επιχειρήσεων

Οργάνωση διάλεξης σε 2 επίπεδα 1. Ανάλυση του προβλήματος με ένα παράδειγμα 2. Επιμέρους θέματα (ψευδομεταβλητές, stepwise regression, κατάλοιπα, ελαστικότητες, κλπ), ερωτήματα χρήσεως ΣΗΜΕΙΩΣΗ: Οι διαφάνειες γράφτηκαν αρκετά λεπτομερώς, ώστε να διευκολυνθεί η μελέτη του αντικειμένου. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 10

Η παλινδρόμηση (με τις πολλές μορφές που μπορεί να λάβει) δίνει ποσοτικές εκτιμήσεις σε οικονομικές (και άλλες) σχέσεις πιστοποιεί τη θεωρία. Η θεωρία μπορεί να προέρχεται από την Οικονομία Φυσική, Μετεωρολογία, Αστρονομία Βιολογία Μηχανική (Engineering) Γενικά, οποιαδήποτε επιστήμη που υπόκειται σε αβεβαιότητες Επί του συνόλου των χρήσεων αναλυτικών μεθόδων φαίνεται να συντελεί στο 80% Ι. Κ. ΔΗΜΗΤΡΙΟΥ 11

Εμπειρική έρευνα (γενικώς) 1. Έστω οικονομικό / διοικητικό πρόβλημα (δηλ. υποθέσεις, μεταβλητές, σχέσεις, αρχικός προσδιορισμός οικονομετρικού υποδείγματος) 2. Μετασχηματισμός σε οικονομετρικό υπόδειγμα (σχέση, πχ γραμμική, υποθέσεις για σφάλμα) 3. Λήψη δείγματος με κατάλληλη μέθοδο οικονομετρίας 4. Εκτίμηση παραμέτρων και ΕΥ 5. Διάγνωση εγκυρότητας υποθέσεων (μτβλ, τύπος, ιδιότητες σφάλματος) 6. Αξιολόγηση συνεπειών των εμπειρικών αποτελεσμάτων που εξήχθησαν από το υπόδειγμα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 12

Εμπειρική έρευνα (ειδικώς για τη διάλεξη) 1. Έστω οικονομικό / διοικητικό πρόβλημα (δηλ. υποθέσεις, μεταβλητές, σχέσεις, αρχικός προσδιορισμός οικονομετρικού υποδείγματος) 2. Μετασχηματισμός σε οικονομετρικό υπόδειγμα (σχέση, πχ γραμμική, υποθέσεις για σφάλμα) 3. Λήψη δείγματος με κατάλληλη μέθοδο οικονομετρίας 4. Εκτίμηση παραμέτρων και ΕΥ 5. Διάγνωση εγκυρότητας υποθέσεων (μτβλ, τύπος, ιδιότητες σφάλματος) 6. Αξιολόγηση συνεπειών των εμπειρικών αποτελεσμάτων που εξήχθησαν από το υπόδειγμα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 13

Η Ανάλυση Παλινδρόμησης (γενικώς) προσδιορίζει το υπόδειγμα (μοντέλο ή εκτιμημένη εξίσωση) για μία ή περισσότερες μεταβλητές και παρέχει μεθόδους εξαγωγής συμπερασμάτων για κάποιον πληθυσμό βασισμένη σε ένα δείγμα μεγέθους n. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 14

Στην πολλαπλή γραμμική παλινδρόμηση μια εξαρτημένη μεταβλητή είναι γραμμική σχέση πολλών ανεξάρτητων μεταβλητών. y x x x 2 3 0 1 2 3 y sin( x) cos( x) 0 1 2 y log( x ) log( x ) 0 1 1 2 2 y k l 0 1 2 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 15

ΣΚΟΠΟΣ Αφού υπολογισθούν οι τιμές (ή για την ακρίβεια, οι εκτιμήσεις των τιμών) των β i, δίνομε τις τιμές αυτές στην εξίσωση για προβλέψεις των τιμών της y. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 16

Περιγραφή της πολλαπλής γραμμικής παλινδρόμησης Δίνεται ένα σύνολο Ν-άδων παρατηρήσεων και μια άγνωστη συναρτησιακή σχέση, η οποία υπόκειται των παρατηρήσεων. Συγκεκριμένα θεωρούμε τη σχέση όπου μια μεταβλητή είναι γραμμική συνάρτηση Ν άλλων μεταβλητών. Πρώτον, θα προσδιορίσομε τη σχέση αυτή χρησιμοποιώντας πληροφορίες από τα δεδομένα. Έπειτα θα εξετάσομε (έλεγχος υπόθεσης) αν οι συντελεστές της σχέσης είναι σημαντικά διάφοροι του μηδενός. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 17

Παράδειγμα δεδομένων, Ν-άδων μτβλ ανεξάρτητη ανεξάρτητη... ανεξάρτητη Εξαρτημένη 0 27 21 3,5 68 F 0 62 0 29 16 4,0 99 F 0 75 1 30 22 4,0 98 M 1 95 0 34 25 3,0 90 M 1 78 0 29 22 4,0 99 F 0 95 1 30 19 4,0 97 F 0 91 0 29 23 4,0 79 M 1 72 0 28 15 4,0 95 F 0 95 0 28 14 4,0 85 M 1 88 0 31 19 4,0 82 M 1 97 0 25 12 3,0 81 M 1 49 0 34 16 3,5 87 M 1 70 0 27 13 4,0 92 F 0 75 0 28 19 4,0 89 F 0 78 0 31 25 4,0 97 F 0 89 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 18

Παράδειγμα δεδομένων Calc HS ACT Math Alg Place Alg2 Grade HS Rank Gender Gender Code Calc 0 27 21 3,5 68 F 0 62 0 29 16 4,0 99 F 0 75 1 30 22 4,0 98 M 1 95 0 34 25 3,0 90 M 1 78 0 29 22 4,0 99 F 0 95 1 30 19 4,0 97 F 0 91 0 29 23 4,0 79 M 1 72 0 28 15 4,0 95 F 0 95 0 28 14 4,0 85 M 1 88 0 31 19 4,0 82 M 1 97 0 25 12 3,0 81 M 1 49 0 34 16 3,5 87 M 1 70 0 27 13 4,0 92 F 0 75 0 28 19 4,0 89 F 0 78 0 31 25 4,0 97 F 0 89 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 19

Υποθέσεις του υποδείγματος γραμμικής παλινδρόμησης (κάθε φορά που καλείται η Παλινδρ) 1. Το γραμμικό υπόδειγμα είναι σωστό 2. Ο όρος σφάλματος ε, κατανέμεται Κανονικά γύρω από το μηδέν 3. Τα σφάλματα έχουν σταθερή διακύμανση 4. Τα σφάλματα είναι ανεξάρτητα αλλήλων. ΠΡΟΣΟΧΗ: Η σημαντικότητα της εξίσωσης παλινδρόμησης δεν είναι απόδειξη ότι οι υποθέσεις αυτές δεν έχουν παραβιαστεί. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 20

Η κατανομή F είναι βασική στην παλινδρόμηση και την ΑΝΑΔΙΑ. Λοξή (skewed) F(4,9) p-value: Η τιμή-p είναι η πιθανότητα για μια τιμή τόσο ακραία όσο η παρατηρηθείσα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 22

Ronald Fisher (1890-1962) Karl Pearson (1857-1936) F χ 2 Source: http://www.swlearning.com/qua nt/kohler/stat/biographical_sket ches/fisher_3.jpeg Ι. Κ. ΔΗΜΗΤΡΙΟΥ 23

Χρήση Παλινδρόμησης για Πρόβλεψη Έστω (ΥΠΟΔΕΙΓΜΑ), εξαρτημένη μεταβλητή: τιμή διαμερίσματος (y) και ανεξάρτητες μεταβλητές: μ 2 & παλαιότητα πολυκατοικίας (x 1 ) & τιμή ενοικίασης (x 2 ) & κατάσταση κτηρίου (x 3 ). Χρησιμοποιούμε πολλαπλή παλινδρόμηση για να δούμε πώς πολλές μεταβλητές συνδυάζονται για να προβλέψουν την τιμή της εξαρτημένης μεταβλητής. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 24

Πόση από τη μεταβλητότητα της εξαρτ μτβλ εξηγείται από τις ανεξ μτβλ; Οι συνδυασμένες μτβλ δίνουν καλύτερα ή χειρότερα αποτελέσματα από τα αναμενόμενα; Πόση σημασία έχουν οι επιμέρους μτβλ στην πρόβλεψη; Μπορούμε να απαλείψομε κάποια επιμέρους μτβλ χωρίς απώλεια αξιοπιστίας της πρόβλεψης; Πχ ας υποθέσομε ότι το προηγούμενο ΥΠΟΔΕΙΓΜΑ, χωρίς άλλες πληροφορίες, δίνει y 228000 0.48x 0.76x 1.54x 1 2 3 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 25 Φανερά, η κατάσταση κτηρίου έχει τη μεγαλύτερη βαρύτητα στο υπόδειγμα

Παρατηρήσεις Στην πολλαπλή παλινδρόμηση οι υπολογισμοί είναι πολύπλοκοι και χειροτερεύουν καθώς αυξάνει ο αριθμός των συντελεστών Χρήση πακέτων λογισμικού. Επίσης, η παλινδρόμηση μπορεί να χρησιμοποιηθεί για τη σύγκριση ομάδων (πχ διαφοροποίηση μισθών ανδρών-γυναικών, σύγκριση αποδοτικότητας κλπ), αντί για ΑΝΑΔΙΑ. Μαρτυρία σε δικαστήριο - στις ΗΠΑ πολλοί στατιστικοί εργάζονται σε νομικές διαδικασίες. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 26

Παρουσίαση με ένα παράδειγμα: Πρόβλεψη βαθμών Πώς η επίδοση των πρωτοετών φοιτητών στο διαφορικό λογισμό (μτβλ Calc) σχετίζεται με διάφορες ανεξάρτητες μεταβλητές; (δίνεται το αρχείο calc.xls > copy σε calc3.xls πριν το χρησιμοποιήσετε) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 27

Δομή του αρχείου calc.xls ONOMA MTBΛ Calc_HS ACT_Math Alg_Place Alg2_Grade HS_Rank Gender Gender_Code Calc ΠΕΡΙΓΡΑΦΗ Calculus High School (0/1, N/O) ACT maths exam (American College Testing) Algebra Placement exam in the first week of classes 2nd year Άλγεβρα High School βαθμός Φύλλο Α/Θ Φύλλο (1/0) Βαθμός στο Calculus Ι. Κ. ΔΗΜΗΤΡΙΟΥ 28

Το περιεχόμενο του αρχείου (συνόλου) 80 δεδομένων Calc HS ACT Math Alg Place Alg2 Grade HS Rank Gender Code Gender Calc 0 27 21 3,5 68 0 F 62 0 29 16 4,0 99 0 F 75 1 30 22 4,0 98 1 M 95 0 34 25 3,0 90 1 M 78 0 29 22 4,0 99 0 F 95 1 30 19 4,0 97 0 F 91 0 29 23 4,0 79 1 M 72 0 28 15 4,0 95 0 F 95 0 28 14 4,0 85 1 M 88 Calc3.xls Κρατείστε αντίγραφο των δεδομένων Ι. Κ. ΔΗΜΗΤΡΙΟΥ 29

(Συσχέτιση μεταβλητών Όταν έχομε να μελετήσομε πολλές μεταβλητές, κατ αρχήν είναι χρήσιμο να υπολογίσομε τις συσχετίσεις μεταξύ των μεταβλητών. Έτσι λαμβάνομε μια γρήγορη εικόνα των σχέσεων μεταξύ των μεταβλητών, προσδιορίζοντας ποιες είναι πολύ συσχετισμένες και ποιες όχι. Αυτό μπορεί να γίνει με τον πίνακα συσχέτισης: Ι. Κ. ΔΗΜΗΤΡΙΟΥ 30

Σας δίνεται το αρχείο calc.xls > copy σε calc2.xls πριν το χρησιμοποιήσετε. Στο Excel εκτελούμε Εργαλεία > Ανάλυση Δεδομένων > Συσχέτιση Ι. Κ. ΔΗΜΗΤΡΙΟΥ 32

Πιο ενδιαφέρουσες, δηλ. υψηλότερες, οι συσχετίσεις με Calc. Κάθε άλλη συσχέτιση υπολείπεται. Πχ R(Calc με HSRank)= 0.324 ή R 2 =10.5% του βαθμού Calc εξηγείται από HSRank. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 33 Ερμηνείες συσχέτισης

Αν HS Rank χρησιμοποιηθεί (πρβλ παλινδρόμηση) για την πρόβλεψη του Calc, βελτιώνει κατά 10.5% το άθροισμα των σφαλμάτων στο Calc. R(Calc με Calc HS=0/1)= 0.318 σημαίνει ότι αν ο φοιτητής είχε Calc HS είναι αρκετά πιθανό να λάβει καλύτερο βαθμό στο Calc (το Excel δεν δείχνει πόσο πιθανό είναι αυτό, δηλ. την p-τιμή). Αρνητικές συσχετίσεις: R(Alg2 Grade με Gender Code=0/1)= -0.446 R(HS Rank με Gender Code=0/1)= -0.319 Αφορούν μόνο τους Α: χειρότεροι στην Αλγ και στην κατάταξη. Οι Θ είχαν μεγαλύτερο βαθμό στην Άλγεβρα 2 και καλύτερη κατάταξη (HS Rank). 34

Επίσης μπορούμε να λάβομε τα διαγράμματα διασποράς της y ως προς κάθε άλλη μτβλ και εκάστης μτβλ ως προς τις άλλες μτβλ. Αυτό θα αποκαλύψει υποκείμενες σχέσεις (πχ. μονοτονίες, γραμμικότητες, καμπυλότητες, κλπ) μεταξύ των μεταβλητών και θα δείξει και τις ισχυρότερες εξαρτήσεις (ΙΚΔ εδώ χρειάζονται μέθοδοι ανάλυσης dd). Έχομε ήδη δει τον πίνακα συσχετ: δεν δείχνει ότι μπορεί να ληφθεί μια ακριβής πρόβλεψη. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 35

Calc Calc 120 100 80 60 Calc Πόσο φανερή είναι η συσχέτιση? - Ανοδική γραμμική τάση - Άνοιγμα τιμών y 40 20 0 0 5 10 15 20 25 30 35 AlgPlace Calc 120 100 80 60 40 20 0 Calc 0 5 10 15 20 25 30 35 40 ACT Math Πόσο φανερή είναι η συσχέτιση? - Tάση? Ανοδική γραμμική τάση - Άνοιγμα τιμών y? Ι. Κ. ΔΗΜΗΤΡΙΟΥ 36

Alg2 Grade Alg2Grade 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0 5 10 15 20 25 30 35 AlgPlace Πόσο φανερή είναι είναι η συσχέτιση? - Tάση? - Άνοιγμα τιμών y? Γενικώς, τα ανωτέρω γραφήματα υποδεικνύουν γραμμικότητες (άρα συσχέτιση και παλινδρόμηση είναι κατάλληλες τεχνικές για πρόβλεψη της calc). Ι. Κ. ΔΗΜΗΤΡΙΟΥ 37

Στην ουσία καμιά γραφική ανάλυση δεν είναι ακριβής. Απλώς υποδεικνύει σχέσεις. Σημειωτέον ότι η πολυσυγγραμμικότητα (Π/Σ) εκτιμάται από τον πίνακα παλινδρόμησης. Π/Σ υπάρχει αν οι μτβλ είναι πολύ συσχετισμένες ) Επιστρέφομε στην ανάλυση παλινδρόμησης. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 38

Factors Affecting Achievement in the First Course in Calculus (Edge & Friedberg, J. Experim Education, 1984): Three groups of students at Illinois State University (of respective sizes 235, 157, and 397) were used as subjects to determine which factors were significant predictors of success in the first course in calculus. The second and third groups were used to provide replications of the initial study. Academic independent variables considered were: ACT scores, high school rank, high school GPA, high school algebra grades, and the score from an algebra pretest. Biographical independent variables considered were: sex, birth order, family size and high school size. The dependent variable was a function of the student's course grade in the first semester of calculus. The use of stepwise and all-subsets regression procedures on the three groups revealed in each case that the best combination of predictors consisted of the algebra pretest and high school rank. From this result, the investigators concluded that the combination of algebraic skills, as represented by the score on the algebra pretest, and long-term perseverance (επιμονή, εμμονή, εργατικότητα, φιλοπονία) and competitiveness, as measured by high school rank, play a significant role in the prediction of achievement in the 41 first semester of calculus.

Προτείνεται το υπόδειγμα: Calc= CalcHS + ACTMath 0 1 2 + AlgPlace + Alg2Grade 3 4 + HSRank + GenderCode + ε 5 6 Το μοντέλο αυτό αφορά στον πληθυσμό από τον οποίο έχομε λάβει το δείγμα Calc.xls. H Ανάλυση με Excel / Analysis ToolPak / Regression παρέχει ένα εκτιμημένο μοντέλο (υπόδειγμα) που βασίζεται σε ένα δείγμα 80 βαθμολογιών. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 42

Για να εξάγομε συμπεράσματα για τον πληθυσμό από τον οποίο λάβαμε το δείγμα απαιτείται να αναπτύξομε ένα εκτιμημένο υπόδειγμα παλινδρόμησης και να χρησιμοποιήσομε μια διαδικασία στατιστικής συμπερασματολογίας. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 43

Πρώτα τακτοποιούμε τα δεδομένα στο calc3.xls (σε σχέση με το αρχικό αρχείο calc.xls) για να έχομε συνεχόμενες στήλες με αριθμούς. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 44

Ι. Κ. ΔΗΜΗΤΡΙΟΥ 45

Έπειτα στο Excel εκτελούμε Εργαλεία > Ανάλυση Δεδομένων > Παλινδρόμηση (Επιδείχθηκε στην προηγούμενη διάλεξη) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 46

CALC3.xls / φύλλο MultReg Ι. Κ. ΔΗΜΗΤΡΙΟΥ 47

Ι. Κ. ΔΗΜΗΤΡΙΟΥ 48

Επιμέρους αναλύσεις και διερμηνεύσεις: Πρώτη ερώτηση Είναι το υπόδειγμα σημαντικό; Δεύτερη ερώτηση Πόσο επεξηγηματικό είναι το μοντέλο; Τρίτη ερώτηση Ποια είναι η εξίσωση παλινδρόμησης και ποιες μεταβλητές είναι οι πιο σημαντικές; Ι. Κ. ΔΗΜΗΤΡΙΟΥ 49

Επιμέρους Πρώτη ερώτηση: είναι το υπόδειγμα σημαντικό; (αφορά στην αμέσως επόμενη ανάλυση) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 50

Διερμήνευση του πίνακα ANOVA / ANAΔΙΑ ΑΝΑΔΙΑ: Δείχνει αν το υπόδειγμα παλινδρόμησης είναι σημαντικό. Βοηθά να επιλέξομε μεταξύ των δύο υποθέσεων (α=5%): Η 0 : Οι συντελεστές και των έξι μεταβλητών = 0 Η 1 : Τουλάχιστον ένας συντελεστής 0 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ n = 80 Αν Η 0 αληθής, το κλάσμα F ~ F(6,73) 2.23 βε SS MS F Σημαντικότητα F Παλινδρόμηση ESS 6 3840,2 640,03 7,2 4,7E-06 Κατάλοιπο RSS 73 6492,0 88,9 Σύνολο TSS 79 10332,0 Η0: δηλ. δεν υπάρχει σχέση μεταξύ των 6 μεταβλητών και της εξαρτημένης Ι. Κ. ΔΗΜΗΤΡΙΟΥ 51 Σημαντικότητα παλινδρόμησης?

ΠΑΡΑΤΗΡΗΣΗ: ΑΝΑΔΙΑ: Δείχνει αν το υπόδειγμα παλινδρόμησης είναι σημαντικό. Πρόχειρα μιλώντας: δηλ. αν το error (RSS) είναι μικρό σε σχέση με την παλινδρόμηση (ESS). Δηλ. όσο πιο μεγάλο το κλάσμα ESS/RSS, τόσο καλύτερα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 52

Έλεγχος υποθέσεων (συζήτηση) Αν Η 0 αληθής, τότε πρέπει το F-κλάσμα να ακολουθεί την F(με 6 βε στον αριθμητή και 73 στον παρονομαστή). Αυτό ελέγχεται με την απάντηση στην 6η στήλη. Υπό την Η 0, η πιθανότητα λήψης της τιμής F-κλάσμα = 7.2 (~F, κλάσμα με 6 βε στον αριθμητή και 73 στον παρονομαστή) είναι 0,0000047 (= p-value, αφορά στην Η 0 ) < < 0.05. Κανόνας: Αν η παλινδρόμηση είναι σημαντική (βλ στήλη F, δηλ. p-value < εσ), απορρίπτομε την Η 0. Διαφορετικά δεν απορρίπτομε την Η 0. (Στο παράδειγμα, απορρίπτομε την Η 0 υπό 5% και αποδεχόμαστε την Η 1 ). Άρα η παλινδρόμηση είναι σημαντική σε επίπεδο 5%. Αν F όχι σημαντικό, δεν θα είχε ενδιαφέρον να 53 συνεχίσομε την ανάλυση.

A p-value means only one thing (although it can be phrased in a few different ways), it is: The probability of getting the results you did (or more extreme results) given that the null hypothesis is true. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 54

Η Ανάλυση Διακύμανσης ξεκινά με την αποσύνθεση του ΤSS = Σ (y i y_bar) 2 = 10332 μονάδες μεταβολής. Που οφείλονται; Υπάρχουν δύο πηγές: Οι μτβλ πρόβλεψης ή άλλες μτβλ που δεν θεωρούνται στο μοντέλο. Το ΕSS (παλινδρόμηση) = 3840 μετρά τη μεταβολή στην εξαρτημένη μτβλ λόγω των έξι εξαρτημένων μτβλ συν όλων των άλλων πιθανών μτβλ που δεν θεωρούνται (ακόμη) στο μοντέλο. Το RSS (κατάλοιπα) = 6492 μετρά τη μεταβολή στην εξαρτημένη μτβλ μόνον λόγω όλων των άλλων μτβλ που δεν θεωρούνται (ακόμη) στο μοντέλο. TSS = ESS + RSS ή 10332 = 3840 + 6492 TSS έχει n-1 βε = 80 1 (μέγεθος δείγματος, 1 λόγω y_bar) ESS έχει k βε = 6 (πλήθος μτβλ) RSS έχει n-1-k βε = 73 (κατάλοιπα) 55

St Error of Est = sqrt(m RSS) = sqrt(6492/73)= sqrt(88.9)=9.43 = επίδραση σφάλματος στην παλινδρόμηση Standard error είναι η εκτιμημένη τιμή του σ, η τυπική απόκλιση του όρου ε, δηλ βλπ παρακάτω (μειώνεται: 1. προσθέτοντας στατ σημαντ μετβλ στην παλινδρόμηση 2. απομακρύνοντας μη σημαντ μτβλ μέσω του ΑΝΑΔΙΑ) 56

Διερμήνευση του πίνακα ANOVA (συνέχεια) ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ βε SS MS F Σημαντικότητα F Παλινδρόμηση ESS 6 3840,2 640,03 7,2 4,7E-06 Υπόλοιπο RSS 73 6492,0 88,9 Σύνολο TSS 79 10332,0 Μικρό F δείχνει ότι η μεταβλητικότητα της y οφείλεται στο rnd error και όχι στην παλινδρόμηση. Εδώ, 7.2 > F(6,73,0.05)= 2.23. Άρα παλινδρόμηση σημαντική σε εσ 5% και αποδοχή Η 1. Έπεται ότι κάποια β i 0. Αν F-test μη σημαντικό, δεν έχει ενδιαφέρον η υπόλοιπη παλινδρόμηση. 4.7Ε-06=[Η πιθανότητα ότι ένα κλάσμα F(6,73) έχει τιμή 7.2]<<5%=εσ. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 58

Έχοντας απορρίψει την Η 0, μπορούμε να χρησιμοποιήσομε το μοντέλο παλινδρ για να κάνομε προβλέψεις. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 59

Συνέχεια της ανάλυσης (δεύτερη ερώτηση). Πόσο επεξηγηματικό είναι το μοντέλο; Ι. Κ. ΔΗΜΗΤΡΙΟΥ 60

Διερμήνευση Στατιστικών Πολλ Παλινδρόμησης Στατιστικά παλινδρόμησης Πολλαπλό R (sqrt (R Τετρ) = συσχέτιση μεταξύ Calc και γραμμ συνδ ανεξ μετβλ) 0,61 R Τετράγωνο (συντελεστής προσδιορισμού) 0,37 Προσαρμοσμένο R Τετράγωνο Adj_R 2 = 1 [RSS/(n-K-1)]/[TSS/(n-1)] 0,32 Τυπικό σφάλμα (τυπικό σφάλμα του error ε) 9,43 Μέγεθος δείγματος 80 37% της ευ-μεταβλητότητας (variability) στο βαθμό Calc αποδίδεται στην παλινδρόμηση (δηλ. σε διαφορές μεταξύ των φοιτητών). Το υπόλοιπο, στο rnd. 0.61 αυξάνει αν Ν>>. Καλύτερα το Προσαρμ R Tετρ (0.32), Ι. Κ. ΔΗΜΗΤΡΙΟΥ 61 διότι δείχνει αν αξίζει να εισάγομε μεταβλητές στο υπόδειγμα.

Τυπικό σφάλμα = 9.43 = εκτιμητής του σ, ήτοι της τυπικής απόκλισης του σφάλματος ε = τυπική απόκλιση της πρόβλεψης του Calc όταν διαφοροποιούνται οι τιμές των μεταβλητών = τ/σ πρόβλεψης των 80 βαθμολογιών. Επειδή 10 βαθμοί διαφοροποιούν το [άριστα πολύ καλά], [πολύ καλά καλά] κοκ, το τ/σ είναι περίπου ένας βαθμός στην κλίμακα 10. 9.43 = επίδραση σφάλματος στην παλινδρόμηση (μειώνεται: 1. προσθέτοντας στατ σημαντ μετβλ στην παλινδρόμηση 2. απομακρύνοντας μη σημαντ μτβλ μέσω του ΑΝΑΔΙΑ) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 62

Μέχρι στιγμής, το υπόδειγμα είναι στατιστικά σημαντικό και εξηγεί το 37% περίπου της μεταβλητότητας στους βαθμούς του Calc. (Τρίτη ερώτηση) - Ποια είναι η εξίσωση παλινδρόμησης και ποιες μεταβλητές είναι οι πιο σημαντικές; Ι. Κ. ΔΗΜΗΤΡΙΟΥ 63

Διερμήνευση του πίνακα συντελεστών Η παλινδρόμηση εξάγει τον ακόλουθο πίνακα, τον οποίο και εξηγούμε ανά στήλη Συντελ εστές Τυπικό σφάλμα t- στατ τιμή-p Κατώτ ερο 95% Υψηλό τερο 95% Κατώτ ερο 95% Υψηλό τερο 95% Τεταγμένη στην αρχή 27,94 12,44 2,25 0,03 3,15 52,73 3,15 52,73 Calc HS 7,19 2,49 2,89 0,01 2,23 12,15 2,23 12,15 ACT Math 0,35 0,43 0,82 0,42-0,51 1,21-0,51 1,21 Alg Place 0,83 0,27 3,09 0,003 0,29 1,36 0,29 1,36 Alg2 Grade 3,68 2,44 1,51 0,14-1,18 8,55-1,18 8,55 HS Rank 0,11 0,12 0,95 0,34-0,12 0,34-0,12 0,34 Gender Code 2,63 2,47 1,06 0,29-2,29 7,55-2,29 7,55 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 64

Οι συντελεστές και η εξίσωση Συντελε στές Τυπικό σφάλμα t τιμή-p Κατώτε ρο 95% Υψηλό τερο 95% Τεταγμένη στην αρχή 27,94 12,44 2,25 0,03 3,15 52,73 Calc HS 7,19 2,49 2,89 0,01 2,23 12,15 ACT Math 0,35 0,43 0,82 0,42-0,51 1,21 Alg Place 0,83 0,27 3,09 0,00 0,29 1,36 Alg2 Grade 3,68 2,44 1,51 0,14-1,18 8,55 HS Rank 0,11 0,12 0,95 0,34-0,12 0,34 Gender Code 2,63 2,47 1,06 0,29-2,29 7,55 Calc=27.94 Θα εξηγήσομε στη συνέχεια τα στοιχεία του πίνακα 7.19 CalcHS + 0.35 ACTMath + 0.83 AlgPlace + 3.68 Alg2Grade Ι. Κ. ΔΗΜΗΤΡΙΟΥ 65 + 0.11 HSRank + 2.63 GenderCode

Τι δείχνει η εξίσωση; - Την οριακή μεταβολή της Calc ως προς τη μοναδιαία μεταβολή μιας των μεταβλητών, ενώ υπόλοιπες μτβλ σταθερές. - Επίσης, πρόβλεψη: Για κάποιον υποψήφιο φοιτητή Ο συντελεστής 7.19 επηρεάζει ΠΟΛΥ το βαθμό του Calc Calc=27.94 7.19 0 + 0.35 30 + 0.83 23 + 3.68 4 Συντελε στές Τεταγμένη στην αρχή 27,94 Πχ δίνεται Calc HS 7,19 0 ACT Math 0,35 30 Alg Place 0,83 23 Alg2 Grade 3,68 4 HS Rank 0,11 90 Gender Code 2,63 1 To Gender Code επιδρά θετικά Ι. Κ. ΔΗΜΗΤΡΙΟΥ 66 στην πρόβλεψη! + 0.11 90 + 2.63 1 = 74.87=75 0 = η απουσία Calc HS επιδρά αρνητικά στην πρόβλεψη

Προσέξτε το συντελεστή GenderCode=2.63 που δείχνει την επίδραση του φύλου αν οι άλλες μτβλ σταθερές. Επειδή Άρρεν=1 και Θήλυ=0, αν η εξίσωση παλινδρόμησης είναι αληθής, ένας Α θα λάβει 2.63 βαθμούς υψηλότερους από μία Θ. Εμπιστεύεστε αυτό το συμπέρασμα; Εξαρτάται από τη σημαντικότητα της μτβλ GenderCode. Οπότε πρέπει να προσδιορίσομε την ακρίβεια με την οποία η τιμή υπολογίστηκε. Αυτό γίνεται εξετάζοντας τις est st deviations των συντελεστών. Τα τυπικά σφάλματα είναι χρήσιμα σε ελέγχους υποθέσεων για τους συντελεστές Συντελε στές Τυπικό σφάλμα Τεταγμένη στην αρχή 27,94 12,44 Calc HS 7,19 2,49 ACT Math 0,35 0,43 Alg Place 0,83 0,27 Alg2 Grade 3,68 2,44 HS Rank 0,11 0,12 67 Gender Code 2,63 2,47

t-test για τους συντελεστές (t-test=κλάσμα συντελεστή διά του τυπικού σφάλματος) Πχ. t_alg Place = 3.09 ή Συντελ Τυπικό t- μεγαλύτερο με πιθανότητα= εστές σφάλμα στατ τιμή-p 0.003<5%. Κατώτερο Υψηλότε Άρα, Alg Κατώτερ Place Υψηλότε 95% ρο 95% ο 95% ρο 95% σημαντικός σε 5%. Σε όρους ΕΥ, Τεταγμένη στην απόρριψη της Η0, ότι συντελεστής αρχή 27,94 12,44 2,25 0,03 =0 3,15 υπό 5% 52,73 και αποδοχή 3,15Η1. 52,73 Calc HS 7,19 2,49 2,89 0,01 Δίπλευρο 2,23 12,15 t. 2,23 12,15 ACT Math 0,35 0,43 0,82 0,42-0,51 Επίσης, Calc 1,21HS σημαντικός -0,51 1,21 (0.01) Alg Place 0,83 0,27 3,09 0,003 0,29 Υπόλοιπες 1,36 μτβλ μη 0,29 σημαντικές. 1,36 Alg2 Grade 3,68 2,44 1,51 0,14 Επομένως, -1,18 8,55 μη δαπανάσαι -1,18 για 8,55 τη HS Rank 0,11 0,12 0,95 0,34 διερμήνευση -0,12 0,34 των υπολοίπων -0,12 0,34 μτβλ. Gender Code 2,63 2,47 1,06 0,29-2,29 Επιμέρους, 7,55δεν συνιστάται -2,29 7,55 να υποθέσομε ότι άρρενες καλύτεροι θηλέων. t-test = Συντελεστής / Τυπ Σφαλμα Αν Συντελεστής = 0, τότε ακολουθεί t-κατανομή με n-k-1=80-6-1=73 βε P=πιθανότητα μιας t τιμής τόσο μεγάλης ή μεγαλύτερης σε απόλυτη τιμή 68

Υπολογισμός διαστημάτων εμπιστοσύνης για την προαναφερθείσα πρόβλεψη της calc και των β i Calc=27.94 7.19 0 + 0.35 30 yˆ 2 StandardError 1/ n 75 (2 9.43 1/80) 75 2.11 + 0.83 23 + 3.68 4 + 0.11 90 + 2.63 1 = 74.87=75 ˆ Διάστημα εμπιστοσύνης για β i i StandardError( i) tn k 1, a/2 Gender Code 2,63 2,47 1,06 0,29 GenderCode 2.63 2.47 t Το Excel δίνει αυτόματα τα δε 2.47 80 6 1,0.025 n k 1, a/2 Ι. Κ. ΔΗΜΗΤΡΙΟΥ 69 2.63 2.47 1.99 7.55 ή 2.29 ˆ t eg

95% διαστήματα εμπιστοσύνης για συντελεστές Συντελε στές Τυπικό σφάλμα t τιμή-p Κατώτ ερο 95% Υψηλό τερο 95% Τεταγμένη στην αρχή 27,94 12,44 2,25 0,03 3,15 52,73 Calc HS 7,19 2,49 2,89 0,01 2,23 12,15 ACT Math 0,35 0,43 0,82 0,42-0,51 1,21 Alg Place 0,83 0,27 3,09 0,003 0,29 1,36 Alg2 Grade 3,68 2,44 1,51 0,14-1,18 8,55 HS Rank 0,11 0,12 0,95 0,34-0,12 0,34 Gender Code 2,63 2,47 1,06 0,29-2,29 7,55 Είναι παράξενο που το ACTMath ΔΕΝ είναι σημαντικό, διότι το test σχετίζεται με τη δύναμη των μαθηματικών 95% δε για Calc HS: το μάθημα Calc HS σχετίζεται με μια αύξηση της βαθμολογίας της Calc μεταξύ 2.23 και 12.15 στην εν λόγω εξίσωση παλινδρόμησης Ι. Κ. ΔΗΜΗΤΡΙΟΥ 70

Η συσχέτιση ACTmath με την Calc βρέθηκε = 0.353 = πολύ σημαντική (p=0.001). Γιατί εδώ δεν φαίνεται η σημαντικότητα; Διότι, εμπλέκονται κι άλλες μτβλ που περιέχουν κάποια από την ίδια πληροφορία. Χρησιμοποιώντας το t-test για τη σημαντικότητα του ACTMath, εξετάζεται ουσιαστικά αν μπορούμε να προχωρήσομε διαγράφοντας αυτό τον όρο. Αν οι άλλες μεταβλητές αναλάβουν να δώσουν αυτή την πληροφορία, τότε ο συντελεστής δεν είναι σημαντικός και επομένως απορριπτέος. Άρα δε χάνομε και πολλά. Ωστόσο αν διώξομε τον λιγότερο σημαντικό, οι άλλοι μπορεί να καταστούν σημαντικοί. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 71

Η ακόλουθη στρατηγική (stepwise regression) μειώνει τον αριθμό των ανεξ μτβλ: Βήμα 1. Απαλοιφή του λιγότερου σημαντικού 2. Επαναπαλινδρόμηση 3. Επανάληψη 1. και 2. έως ότου καταστούν οι ανεξ μτβλ σημαντικές. Σημείωση: μία μέθοδος ανάλυσης δεν αποτελεί μονόδρομο. Καλύτερα να χρησιμοποιούνται περισσότερες της μίας (πχ συσχέτιση και παλινδρόμηση). Ι. Κ. ΔΗΜΗΤΡΙΟΥ 72

ΥΠΕΝΘΥΜΙΣΗ, μέχρι εδώ: Αναλύσαμε και διερμηνεύσαμε τρεις ερωτήσεις: Πρώτη ερώτηση Είναι το υπόδειγμα σημαντικό; Δεύτερη ερώτηση Πόσο επεξηγηματικό είναι το μοντέλο; Τρίτη ερώτηση Ποια είναι η εξίσωση παλινδρόμησης και ποιες μεταβλητές είναι οι πιο σημαντικές; Ι. Κ. ΔΗΜΗΤΡΙΟΥ 83

( Με πρακτική κατανοούμε την παλινδρόμηση και σχεδόν κάθε αντίστοιχη μέθοδο (μοντέλο + στατ ανάλυση). Αύξηση δεξιότητας. ) Ι. Κ. ΔΗΜΗΤΡΙΟΥ 85

Στη συνέχεια αξιολογούμε την επιτυχία της παλινδρόμησης με τα εξής τέσσερα κοινά διαγράμματα. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 86

Εξέταση των υποθέσεων της παλινδρόμησης Τα τέσσερα κοινά διαγράμματα που δίνει η παλινδρόμηση του Excel βοηθούν στην εκτίμηση της παλινδρόμησης: 1. Διάγραμμα της εξαρτ μτβλ ως προς τις εκτιμημένες τιμές: καταλληλότητα παλινδρόμησης 2. Διάγραμμα καταλοίπων ως προς τις εκτιμημένες τιμές μεγεθύνει το κατακόρυφο άνοιγμα των δεδομένων, άρα ελέγχονται οι υποθέσεις παλινδρόμησης. Αν καμπυλότητες, τότε (?). Αν κατακόρυφο άνοιγμα τιμών στη μία μεριά, τότε μη σταθερή var 3. Διάγραμμα καταλοίπων ως προς επιμέρους μτβλ: αναδεικνύει επιμέρους προβλήματα 4. Κανονικό διάγραμμα των καταλοίπων: αποτιμά την Κανονική υπόθεση των καταλοίπων. 87

Eξαρτ μτβλ ως προς Εκτιμήσεις Πόσο πετυχημένη είναι η παλινδρόμηση; Σχεδίασε: Παρατηρήσεις (Calc) vs. Εκτιμήσεις Ι. Κ. ΔΗΜΗΤΡΙΟΥ 88

Ι. Κ. ΔΗΜΗΤΡΙΟΥ 89

Παρατηρήσεις Calculus 110 100 90 80 70 60 50 40 40 50 60 70 80 90 100 Εκτιμήσεις Ι. Κ. ΔΗΜΗΤΡΙΟΥ 91

Φαίνεται να στενεύουν οι τιμές για μεγαλύτερες εκτιμήσεις του Calculus. Αν η διακύμανση του σφάλματος ήταν μικρότερη για βαθμούς με υψηλές εκτιμήσεις, θα παραβιαζόταν η 4η υπόθεση της παλινδρόμησης περί σταθερής διακύμανσης. Θεωρούμε αυτούς τους φοιτητές με εκτίμηση βαθμού 80 στο Calc. Οι πραγματικοί βαθμοί κυμαίνονται από 65 έως 95 περίπου, ευρύ! Όμως το εύρος είναι «<» στο βαθμό 90: Οι πραγματικές τιμές (παρατηρήσεις) είναι στο 80-90. Τι συμβαίνει; Συμβαίνει το εξής: Υπάρχει το όριο 100 στη βαθμολογία (εξαρτημένη μτβλ). Αυτό γενικά (το όριο) προκαλεί μη σταθερή διακύμανση σφάλματος. 92

Κατάλοιπα ως προς Εκτιμήσεις Δείχνει μια άλλη όψη της μεταβολής μεταξύ των παρατηρούμενων και των εκτιμημένων τιμών (διότι κατάλοιπο = παρατήρηση - εκτίμηση). Ι. Κ. ΔΗΜΗΤΡΙΟΥ 93

Κατάλοιπα 25 20 15 10 Κατάλοιπ 5 0-5 60 65 70 75 80 85 90 95 100-10 -15-20 -25 Εκτιμήσεις Ι. Κ. ΔΗΜΗΤΡΙΟΥ 94

Χρήσιμο διάγραμμα για την επαλήθευση των υποθέσεων παλινδρόμησης. Πχ η 1η υπόθεση απαιτεί την κατάλληλη μορφή του υποδείγματος. Εδώ δεν παρατηρείται κάποιο συστηματικό πρότυπο (πχ καμπύλη). Αν η υπόθεση της σταθερής διακύμανσης δεν ικανοποιείται, τότε θα πρέπει να φαίνεται στο διάγραμμα. Κοιτάζομε για τάση στο κατακόρυφο άνοιγμα. Φανερά, στενεύει η τάση προς τα δεξιά (αυτό εγείρει υποψίες για την εγκυρότητα της παλινδρόμησης, robustness). Τότε, προτείνεται ο μετασχηματισμός των δεδομένων, αλλά επάγεται δυσκολία διερμήνευσης μτβλ. Κατάλοιπ 25 20 15 10 5-10 -15 Κατάλοιπα 0-5 60 65 70 75 80 85 90 95 100 Ι. Κ. ΔΗΜΗΤΡΙΟΥ -20 95-25 Εκτιμήσεις

Κατάλοιπα ως προς καθεμιά μεταβλητή Τα διαγράμματα μπορεί να δείξουν Καμπυλότητες Μη σταθερή διακύμανση Αυτά τα διαγράμματα δημιουργούνται αυτόματα από το Excel: 1. Διαγράμματα διασποράς καταλοίπων ως προς καθεμιά μτβλ 2. Διαγράμματα εκτίμησης calc ως προς μτβλ παλινδρόμησης Ι. Κ. ΔΗΜΗΤΡΙΟΥ 96

Υπόλοιπα Alg Place Διάγραμμα υπολοίπων 25 20 15 10-10 -505-15 -20-25 0 10 20 30 40 Alg Place Φαίνεται άνοιγμα στα κατάλοιπα για μικρότερους βαθμούς. Μάλλον πρέπει να μετασχηματίσομε τα δεδομένα Πώς αιτιολογείται ένα θετικό (αρνητικό) κατάλοιπο Ι. Κ. ΔΗΜΗΤΡΙΟΥ 97

Calc Alg Place Διάγραμμα προσαρμογής γραμμής 120 120 100 80 60 40 20 0 0 20 40 Alg Place Calc Προβλεπόμενος Calc 100 Εκτιμήσεις 80 60 40 Χειρονακτικά 20 0 0 5 10 15 20 25 30 35 Alg Place Ι. Κ. ΔΗΜΗΤΡΙΟΥ 98

120 100 Εκτιμήσει 80 60 40 20 0 0 5 10 15 20 25 30 35 Alg Place Οι εκτιμήσεις είναι πιο συμμαζεμένες από τις παρατηρήσεις. (λογικό φαίνεται) Γραμμική τάση ως προς Alg Place Δεν φαίνεται να υπάρχει άνοιγμα Ι. Κ. ΔΗΜΗΤΡΙΟΥ 99

Κανονικά σφάλματα και Κανονικό διάγραμμα διασποράς Τι γίνεται με την υπόθεση της Κανονικότητας των σφαλμάτων; - Αν υπάρχουν μη Κανονικά σφάλματα, εμφανίζονται ακραίες τιμές στο διάγραμμα διασποράς καταλοίπων ως προς εκτιμήσεις (calc). Κατάλοιπα - Εδώ, δεν υπάρχουν 25 20 15 10 τιμές καταλοίπων > από το 21. 0-5 60 65 70 75 80 85 90 95 100 Πόσο μεγάλα πρέπει να είναι τα κατάλοιπα αν τα σφάλματα είναι Κανονικά; Αποφάσισε χρησιμοποιώντας το Normal Probability plot. Κατάλοιπ Ι. Κ. ΔΗΜΗΤΡΙΟΥ 100 5-10 -15-20 -25 Εκτιμήσεις

Για να λάβομε το Normal Probability plot επιλέγομε Ι. Κ. ΔΗΜΗΤΡΙΟΥ 101

Ι. Κ. ΔΗΜΗΤΡΙΟΥ 102

Διάγραμμα κανονικής πιθανότητας Calc 110 100 90 80 70 60 50 40-10 40 90 Δείγμα ποσοστού Παρατηρούνται αποκλίσεις στην αρχή. Φαίνεται να υπάρχει μικρό πρόβλημα με την υπόθεση της Κανονικότητας. Ι. Κ. ΔΗΜΗΤΡΙΟΥ 103

Σύνοψη της παλινδρόμησης Ποια είναι τα κύρια συμπεράσματα από την παλινδρόμηση + κατάλοιπα + διαγράμματα; - Με F = 7.2 > F(6,73,0.05) = 2.23, παλινδρόμηση σημαντική σε εσ 5%. - Με R 2 = 0.37 και προσαρμοσμένο R 2 = 0.32, η παλινδρόμηση εξηγεί περίπου το 1/3 της διακύμανσης στο βαθμό του calc (απογοητευτικό ωστόσο, διότι το Πανεπιστήμιο δίνει βάρος στις προβλέψεις). - Μόνο η άλγεβρα και αν παρακολούθησε ή όχι HScalc είναι σημαντικοί συντελεστές. - Υπάρχει κάποιο πρόβλημα με τη μη σταθερή διακύμανση (ανεξάρτητο συμπερασμάτων). 104

Το παράδειγμα δίνει μια ιδέα για το πώς θα μπορούσε να γινόταν μια αξιολόγηση στα ΑΕΙ κατά το 2 ο έτος σπουδών μετά τις Πανελλαδικές (περιέχοντας και τα φροντιστήρια). Ι. Κ. ΔΗΜΗΤΡΙΟΥ 105

( Πώς κάνομε κανονικοποίηση των καταλοίπων (normalization)

x y fit=y_hat residual 1 41 32 31.1083 0.8917 2 35 20 26.7045-6.7045 3 34 35 25.9706 9.0294 4 40 24 30.3743-6.3743 5 33 27 25.2366 1.7634 6 42 28 31.8422-3.8422 7 37 31 28.1725 2.8275 8 42 33 31.8422 1.1578 9 30 26 23.0348 2.9652 10 43 41 32.5762 8.4238 11 38 29 28.9064 0.0936 12 38 33 28.9064 4.0936 13 46 36 34.7781 1.2219 14 36 23 27.4385-4.4385 15 32 22 24.5027-2.5027 16 43 38 32.5762 5.4238 17 42 26 31.8422-5.8422 18 30 20 23.0348-3.0348 19 41 30 31.1083-1.1083 20 45 30 34.0441-4.0441 10 8 6 4 2 0-2 25 35 45 55-4 -6-8 residual residual

Residual avg 0.00000 residual std 4.6421098 0.8917 1 0.1920922 =0.8917/4.6421-6.7045 2-1.444291 9.0294 3 1.9451136-6.3743 4-1.373157 1.7634 5 0.3798645-3.8422 6-0.827696 2.8275 7 0.609108 1.1578 8 0.2494031 2.9652 9 0.6387714 8.4238 10 1.8146522 0.0936 11 0.0201596 4.0936 12 0.8818386 1.2219 13 0.2632268-4.4385 14-0.956141-2.5027 15-0.539125 5.4238 16 1.1683929-5.8422 17-1.258535-3.0348 18-0.653747-1.1083 19-0.238747-4.0441 20-0.871183 ΚΑΝΟΝΙΚΟΠΟΙΗΣΗ Έρχονται περίπου στο -1 έως 1 2.5 2 1.5 1 0.5 0-0.5-1 -1.5-2 0 5 10 15 20 Σειρά1 )

// Ι. Κ. ΔΗΜΗΤΡΙΟΥ 110