ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΕΙΔΙΚΕΥΣΗ: ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ

Σχετικά έγγραφα
Πολλαπλή παλινδρόμηση (Multivariate regression)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Εισόδημα Κατανάλωση

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΔΙΚΕΥΣΗ: ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Απλή Γραμμική Παλινδρόμηση II

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

Χ. Εμμανουηλίδης, 1

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΜΑΘΗΜΑ 3ο. Υποδείγματα μιας εξίσωσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

9. Παλινδρόμηση και Συσχέτιση

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 3η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

ΠΑΛΙΝΔΡΟΜΗΣΗ. Απλή Παλινδρόμηση. (Όγκος πωλήσεων = α +b έξοδα διαφήμησης +e ) Εκτίμηση Απλής Παλινδρόμησης. α= εκτίμηση της τεταγμένης για χ=0

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Απλή Παλινδρόμηση και Συσχέτιση

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΟΙΚΟΝΟΜΕΤΡΙΑ. Α μέρος: Πολυσυγγραμμικότητα. Παπάνα Αγγελική

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Εφαρμοσμένη Στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Η μέθοδος των βοηθητικών μεταβλητών. Παπάνα Αγγελική

Γ. Πειραματισμός - Βιομετρία

ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ

Διαχείριση Υδατικών Πόρων

Γ. Πειραματισμός Βιομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι)

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

3η Ενότητα Προβλέψεις

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Εργαστήριο Οικονομετρίας Προαιρετική Εργασία 2016 Χειμερινό Εξάμηνο

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχανικών Χωροταξίας, Πολεοδομίας & Περιφερειακής Ανάπτυξης

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2)

Οικονομετρία Ι. Ενότητα 2: Ανάλυση Παλινδρόμησης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

ΠΑΛΙΝ ΡΟΜΗΣΗ..Π.Μ.Σ. Μαθηµατικά των Υπολογιστών και των Αποφάσεων. Πάτρα, 27 Ιανουαρίου 2011

Ενδεικτικές ασκήσεις ΔΙΠ 50

Αν έχουμε δύο μεταβλητές Χ και Υ και σύμφωνα με την οικονομική θεωρία η μεταβλητή Χ προσδιορίζει τη συμπεριφορά της Υ το ερώτημα που τίθεται είναι αν

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Απλή Γραμμική Παλινδρόμηση I

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ

Στατιστική Επιχειρήσεων ΙΙ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΜΑΘΗΜΑ 4 ο. Μοναδιαία ρίζα

Οικονομετρία Ι. Ενότητα 9: Αυτοσυσχέτιση. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

ΚΕΦΑΛΑΙΟ ΙΙΙ ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Οικονομετρία Ι. Ενότητα 5: Ανάλυση της Διακύμανσης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Πρόλογος Μέρος Ι: Απλό και πολλαπλό υπόδειγμα παλινδρόμησης Αντικείμενο της οικονομετρίας... 21

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΦΑΡΜΟΣΜΕΝΗ ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ (ΝΠΣ) & ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ (ΠΠΣ) (6o Εξάμηνο Μαθηματικών) Ιανουάριος 2008

ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 4: ΔΙΑΛΕΞΗ 04

Διάστημα εμπιστοσύνης της μέσης τιμής

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Transcript:

Α.Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΕΙΔΙΚΕΥΣΗ: ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ : «Η ΕΠΙΔΡΑΣΗ ΔΙΑΦΟΡΩΝ ΠΑΡΑΓΟΝΤΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓΗ ΜΙΑΣ ΠΕΡΙΦΕΡΙΑΚΗΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΜΟΝΑΔΑΣ» ΣΠΟΥΔΑΣΤΗΣ ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ ΠΕΤΡΑΚΗΣ ΑΝΔΡΕΑΣ ΙΟΥΝΙΟΣ 008 ΚΟΖΑΝΗ

ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ... 3 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ...4 Εισαγωγή...4 Οι βασικές υποθέσεις... 7 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ... 8 Εισαγωγή στα στοιχεία...8 Προσδιορισμός του μοντέλου... 11 Η μέθοδος των ελαχίστων τετραγώνων... 13 (Ordinary Least Squares)... 13 Σφάλματα... 16 ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ (DEGREES OF FREEDOM) df...17 Μέσα Τετράγωνα (mean square)...17 Ο λόγος F των μέσων τετραγώνων (F-statistic)...18 ΠΙΝΑΚΑΣ ΑΝΟVA... 18 Έλεγχος του μοντέλου σύμφωνα με F κατανομή...19 Έλεγχος των συντελεστών παλινδρόμησης... 1 Ο συντελεστής προσδιορισμού του μοντέλου...1 Ο Διορθωμένος συντελεστής προσδιορισμού... (The αdjusted coefficient of determination or αdjusted R-square)... Διασπορά και Τυπική απόκλιση μοντέλου...3 Έλεγχος προσήμων διασποράς και τυπικής απόκλισης... 4 των συντελεστών του μοντέλου... 4 Διασπορά και τυπική απόκλιση των συντελεστών του μοντέλου...4 Το στατιστικό Τ έλεγχος σημαντικότητας και διάστημα εμπιστοσύνης συντελεστών...6 Διάστημα εμπιστοσύνης συντελεστή (Coefficient Interval:C.I.)...9 ΑΠΑΛΕΙΦΗ ΤΩΝ ΣΥΝΤΕΛΕΣΤΩΝ (επαναυπολογισμός του νέου μοντέλου).. 31 Σφάλματα... 35 Μέσα Τετράγωνα (mean square)...36 Ο λόγος F των μέσων τετραγώνων (F-statistic)...37 ΠΙΝΑΚΑΣ ΑΝΟVA... 37 Έλεγχος του μοντέλου σύμφωνα με F κατανομή...38 Ο συντελεστής προσδιορισμού του μοντέλου...40 Ο Διορθωμένος συντελεστής προσδιορισμού...40 Διασπορά και Τυπική απόκλιση μοντέλου...41 Έλεγχος προσήμων διασποράς και τυπικής απόκλισης... 41 των συντελεστών του μοντέλου... 41 Διασπορά και τυπική απόκλιση των συντελεστών του μοντέλου...4 Το στατιστικό Τ έλεγχος σημαντικότητας και διάστημα εμπιστοσύνης συντελεστών...43 Διάστημα εμπιστοσύνης συντελεστή (Coefficient Interval:C.I.)...45 ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ...47 Επιλογή του καλύτερου και απλούστερου μοντέλου...47 ΚΕΦΑΛΑΙΟ ΤΕΤΑΡΤΟ... 49 Πολυσυγραμμικότητα... 49 ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ...54 Αυτοσυσχέτιση (ΑUTOCORRELATION) των καταλοίπων... 54 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 3

ΚΕΦΑΛΑΙΟ ΕΚΤΟ... 57 Ετεροσκεδαστικότητα των καταλοίπων...57 ΒΙΒΛΙΟΓΡΑΦΙΑ ΗΛΕΚΤΡΟΝΙΚΕΣ ΠΗΓΕΣ... 61 ΠΑΡΑΡΤΗΜΑ... 6 ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ Εισαγωγή Το πρώτο βήμα στην οικονομετρική ανάλυση είναι να θεωρήσουμε κάποιο υπόδειγμα το οποίο περιγράφει την οικονομική συμπεριφορά των μεταβλητών που θέλουμε να διερευνήσουμε εμπειρικά. Στην συνέχεια θα πρέπει να συλλέξουμε ένα δείγμα παρατηρήσεων και να εκτιμήσουμε το υπόδειγμα χρησιμοποιώντας την κατάλληλη μέθοδο εκτίμησης. Το εκτιμημένο υπόδειγμα μπορεί να χρησιμοποιηθεί σε διάφορους σκοπούς, όπως για να ελέγξουμε στατιστικά αν εξηγεί τη θεωρητική σχέση μεταξύ των οικονομικών μεταβλητών που υποθέσαμε ή να διεξάγουμε προβλέψεις. Το πιο απλό υπόδειγμα που χρησιμοποιούμε στην οικονομετρική ανάλυση είναι το γραμμικό υπόδειγμα παλινδρόμησης μιας ανεξάρτητης μεταβλητής (linear single regression model) y i =β 1+β x i+ ε i,i =1,,3...,n όπου οι παρατηρήσεις της εξαρτημένης y i (dependent) και ανεξάρτητης x i (independent) μεταβλητής του υποδείγματος αντίστοιχα, για ένα δείγμα n παρατηρήσεων, και αποτελούν τις άγνωστες προς εκτίμηση παραμέτρους (συντελεστές) του υποδείγματος και συμβολίζουν τις παρατηρήσεις του διαταρακτικού όρου (disturbance term) του υποδείγματος. Οι τιμές του όρου αυτού δεν είναι παρατηρήσιμες. Όπως θα εξηγήσουμε στη συνέχεια, αυτές αντιπροσωπεύουν τους άγνωστους ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 4

παράγοντες που επηρεάζουν τις μεταβολές της εξαρτημένης μεταβλητής, πέραν της ανεξάρτητης μεταβλητής. Στο υπόδειγμα ο όρος β 1 +β x i θεωρείται ως το ερμηνευτικό μέρος του καθώς αυτό εξηγεί τις συστηματικές μεταβολές της εξαρτημένης μεταβλητής μεταβλητής y i για κάποιες μεταβολές των τιμών της ανεξάρτητης x i. Για το λόγο αυτό, πολλές φορές στη βιβλιογραφία η μεταβλητή x i αναφέρεται ως ερμηνευτική μεταβλητή του υποδείγματος. Αρχικά, στην ανάλυσή μας θα θεωρήσουμε ότι οι τιμές της μεταβλητής x i είναι προκαθορισμένες, δηλαδή παραμένουν ίδιες σε επαναλαμβανόμενα δείγματα παρατηρήσεων. Aυτό σημαίνει ότι θα μεταχειριζόμαστε τις παρατηρήσεις της μεταβλητής αυτής ως σταθερές, δηλαδή θα ισχύει E(x i ) = x i, για όλες τις παρατηρήσεις i του δείγματος. Ο διαταρακτικός όρος του υποδείγματος, ε i που γράφεται ως ε i = y i -(b 1 + bx i ), αντιπροσωπεύει το στοχαστικό μέρος του υποδείγματος. Το μέρος αυτό αποτελεί το ανερμήνευτο κομμάτι του υποδείγματος. Η ύπαρξη του διαταρακτικού όρου μπορεί να αποδοθεί σε μια σειρά από τυχαίους, μη συστηματικούς παράγοντες που επηρεάζουν την εξαρτημένη μεταβλητή και δεν συνδέονται με την ανεξάρτητη μεταβλητή. Παραδείγματα τέτοιων παραγόντων αποτελούν, οι φυσικές καταστροφές, οι απρόβλεπτες διαρθρωτικές αλλαγές στην οικονομία, λάθη εκτιμήσεων των οικονομικών μονάδων, σφάλματα μέτρησης των οικονομικών μεταβλητών κτλ. Με σκοπό την καλύτερη μελέτη τους και ανάλογα με τα χαρακτηριστικά τους, τα διάφορα επιστημονικά μοντέλα ή πειράματα (ή γενικότερα τα φυσικά φαινόμενα) μπορεί να θεωρηθεί ότι εντάσσονται σε δύο μεγάλες κατηγορίες: τα προσδιοριστικά ή αιτιοκρατικά (deterministic) μοντέλα ή πειράματα (ή φαινόμενα), στα οποία οι γνωστές μεταβλητές (π.χ. αρχικές συνθήκες) αρκούν για την ακριβή πρόβλεψη των αποτελεσμάτων τους (βέβαια αποτελέσματα), και ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 5

τα στοχαστικά (stochastic, probabilistic) μοντέλα ή πειράματα (ή φαινόμενα), στα οποία οι γνωστές μεταβλητές δεν είναι αρκετές για την ακριβή πρόβλεψη των αποτελεσμάτων τους. Τα στοχαστικά πειράματα λέγεται ότι κατά κάποιον τρόπο επηρεάζονται από τον παράγοντα «τύχη», o οποίος μπορεί να θεωρηθεί ότι περιέχει όλες τις άγνωστες μεταβλητές ή παραμέτρους. Για το λόγο αυτό τα στοχαστικά πειράματα καλούνται και πειράματα τύχης. Παραδείγματα αιτιοκρατικών φαινομένων ή πειραμάτων είναι: - ο χρόνος εκλείψεων του ήλιου, - ο τόκος που θα λάβουμε για καταθέσεις ύψους α με προκαθορισμένο επιτόκιο β. κ.τ.λ. Παραδείγματα στοχαστικών φαινομένων ή πειραμάτων είναι: - το αποτέλεσμα της ρίψης ενός κέρματος ή ενός κύβου (ζαριού), - η τιμή ενός αγαθού σε μία ορισμένη στιγμή στο μέλλον, - ο χρόνος ζωής ενός ανθρώπου, κ.τ.λ. Τα αποτελέσματα των στοχαστικών πειραμάτων δεν είναι δυνατό να προβλεφθούν με ακρίβεια. Εάν όμως πραγματοποιήσουμε έναν μεγάλο αριθμό από όμοια στοχαστικά πειράματα (κάτω πάντα από τις ίδιες συνθήκες) τότε, σύμφωνα με τον εμπειρικό νόμο της «στατιστικής ισορροπίας» είναι δυνατή η μέτρηση της συχνότητας εμφάνισης ενός συγκεκριμένου αποτελέσματος. Η συμπεριφορά των περισσότερων οικονομικών μεταβλητών είναι συνάρτηση όχι μιας αλλά πολλών μεταβλητών Y = f(x 1,x,x 3...x n ) δηλαδή η Υ είναι συνάρτηση των η ερμηνευτικών μεταβλητών x 1,x,x 3...x n,οπότε για ένα δείγμα από n παρατηρήσεις μπορούμε να γράψουμε: Y t = b 0 + b1x 1t + bx t +...bnx nt + u t. Η παραπάνω σχέση αποτελεί το υπόδειγμα της γραμμικής πολυμεταβλητής παλινδρόμησης. Με βάση τη σχέση αυτή, στο διάγραμμα που ακολουθεί ορίζουμε τις αποστάσεις μεταξύ των παρατηρούμενων (πραγματικών) και ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 6

εκτιμημένων τιμών της εξαρτημένης μεταβλητής του γραμμικού υποδείγματος. Οι αποστάσεις αυτές αναφέρονται ως κατάλοιπα (residuals) τoυ γραμμικού υποδείγματος και θεωρούνται ως εκτιμήσεις των μη παρατηρήσιμων τιμών του διαταρακτικού όρου, που αντιστοιχούν στις i=1,,,n παρατηρήσεις του δείγματος. Oι τιμές των καταλοίπων μπορεί να είναι θετικές, ή αρνητικές, ανάλογα με το αν οι παρατηρήσεις της μεταβλητής yi βρίσκονται πάνω, ή κάτω, από τις εκτιμημένες της τιμές Οι βασικές υποθέσεις y i. Οι βασικές υποθέσεις που συνιστούν το κλασικό γραμμικό υπόδειγμα στη γενική του μορφή είναι οι παρακάτω: Υπόθεση 1 Οι διαταρακτικοί όροι ακολουθούν την κανονική κατανομή με μέσο μηδέν και σταθερή διακύμανση. υ τ Ν ( 0, σ ) Υπόθεση Οι ερμηνευτικές μεταβλητές είναι μη στοχαστικές. Υπόθεση 3 Δεν υπάρχει αυτοσυσχέτιση μεταξύ των διαταρακτικών όρων. Con(u i,u j) = 0,i Υπόθεση 4 Ή j Το υπόδειγμα παλινδρόμησης είναι σωστά εξειδικευμένο. Υπόθεση 5 Οι ερμηνευτικές μεταβλητές μετρώνται χωρίς σφάλματα. Υπόθεση 6 Δεν υπάρχουν γραμμικές σχέσεις μεταξύ των ερμηνευτικών μεταβλητών (πολυσυγραμμικότητα). Παραβίαση των υποθέσεων οδηγεί σε μικρές ή μεγάλες δυσκολίες στη χρήση του υποδείγματος για το σκοπό που επιδιώκεται. ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 7

ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ Εισαγωγή στα στοιχεία Η μελέτη αυτή θα πραγματοποιηθεί με τη χρήση στατιστικών μοντέλων κατάλληλης μορφής τα οποία θα δημιουργηθούν με χρήση του λογισμικού MATHEMATICA. τετραγώνων: Πιο συγκεκριμένα με τη βοήθεια της μεθόδου των ελαχίστων Θα βρεθεί το μοντέλο που προσαρμόζεται στα δεδομένα, με εξαρτημένη μεταβλητή την y x 1,x,x 3,x 4,x 5. και προβλέπουσες μεταβλητές τις Θα κατασκευαστεί ο πίνακας ANOVA του μοντέλου και να ελεγθεί αν το μοντέλο είναι σταθερό, σε επίπεδο σημαντικότητας α=0.05, Θα υπολογιστεί ο συντελεστής προσδιορισμού R διορθωμένος συντελεστής προσδιορισμού αποτελέσματα, και ο R και να σχολιαστούν τα Θα βρεθεί η διασπορά και η τυπική απόκλιση του μοντέλου, καθώς και των συντελεστών και να βρεθεί, σε επίπεδο σημαντικότητας α=0.05 μηδέν, ποιοι από τους συντελεστές των ερμηνευτικών μεταβλητών είναι Θα εκτιμηθεί το 95% διαστήματος εμπιστοσύνης κάθε συντελεστή, ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 8

Θα βρεθεί το νέο μοντέλο, μετά τη διαγραφή μη σημαντικών μεταβλητών και να γίνει πλήρης μελέτη του, Θα βρεθεί το καλύτερο-απλούστερο μοντέλο από όλα τα δυνατά, Θα γίνει έλεγχος πολυσυγραμμικότητας του μοντέλου, Θα βρεθούν τα κατάλοιπα, τα τυποποιημένα κατάλοιπα, τα R- student, να γίνουν τα σχετικά γραφήματα και να γίνει έλεγχος αυτοσυσχέτισης και ετεροσκεδαστικότητας των καταλοίπων, Θα ελεγxθεί, σε επίπεδο σημαντικότητας a=0.05. Θα εισαχθούν ψευδομεταβλητές στο ίδιο ή άλλο υπόδειγμα, αφού γίνουν οι σχετικές παραδοχές. Το μοντέλο που θα δημιουργήσουμε αφορά την ΕΠΙΔΟΣΗ ΔΙΑΦΟΡΩΝ ΠΑΡΑΓΟΝΤΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓΗ ΜΙΑΣ ΠΕΡΙΦΕΡΙΑΚΗΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΜΟΝΑΔΑΣ. Όπου Y = αριθμός παραγόμενων τυποποιημένων προϊόντων σε συγκεκριμένο χρόνο, x 1 = Μ.Ο. ανθρώπινου δυναμικού, x = ο τεχνολογικός εξοπλισμός, x 3 = η τεχνογνωσία, x 4 = η συντήρηση του εξοπλισμού και x 5 = set up εργαλειομηχανών (δηλαδή ο χρόνος προετοιμασίας της μηχανής για παραγωγή). ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 9

Στον πίνακα που ακολουθεί παρουσιάζονται 30 μετρήσεις έτσι όπως αυτές δόθηκαν για τη μελέτη της παρούσας διπλωματικής εργασίας. A/A X 1 X X 3 X 4 X 5 Y 1 1 55 91, 66, 11,4 0 1 64 88,9 55, 16,8 17 3 14 6 69,3 45,6 18,3 14 4 1 41 76 85,3 11,8 11 5 11 55 77, 78,6 9,5 1 6 9 48 83,6 45,9,1 184 7 10 6 59,7 51,3 15, 191 8 10 33 68,3 64,9 9,3 188 9 11 60 64, 58,6 6,6 19 10 1 59 79,1 45,1 7,9 15 11 1 46 75,8 38,7 1 17 1 15 48 95,9 41,3 14,3 39 13 14 59 95,9 45,4 15,8 31 14 1 41 85,6 78,3 0,1 04 15 9 46 78, 8,3 3,4 171 16 6 75 46,8 95,6 17,8 161 17 11 4 64,6 45,6 6,3 194 18 10 66 55,9 45,4 8,9 185 19 10 67 66,4 57,8 15,4 188 0 14 6 78,5 66,3 18,9 1 1 16 63 9,3 4,8 5,4 9 11 59 6,3 57,,1 187 3 1 55 78, 57, 6,8 09 4 1 60 78,6 67, 31,7 00 5 9 4 64,3 78,9 5,6 175 6 8 41 75,6 8,6 13, 165 7 8 60 5,9 44, 9,8 169 8 10 5 78,6 55,6 15,9 187 9 1 54 84, 38,9 16,8 16 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 10

30 6 57 54,1 94,7 17,3 158 Τα δεδομένα του προβλήματος της πολλαπλής γραμμικής παλινδρόμησης συνήθως ταξινομούνται με τη μορφή πίνακα ως εξής: 1 x 11 x 1 x 31 x 41 x 51 Χ= 1 x 1 x x 3 x 4 x 5 1 x 130 x 30 x 330 x 430 x 530 Η i στήλη του παραπάνω πίνακα παριστάνει τις τιμές της μεταβλητής x i δηλαδή η κάθε στήλη είναι ένας παράγοντας που εκτιμούμε ότι επηρεάζει τη μεταβλητή y. H j στήλη του παραπάνω πίνακα παριστάνει τα δεδομένα της j εκτέλεσης του πειράματός μας με x 1j, x j,..., x mj είναι οι τιμές των προβλεπουσών μεταβλητών x 1, x,..., xm αντίστοιχα και y j η προκύπτουσα τιμή της εξαρτημένης μεταβλητής y. Προσδιορισμός του μοντέλου Η συνάρτηση y = f(x 1,x,x 3,x 4,x 5 ) είναι προσδιοριστικής μορφής, δείχνει δηλαδή ότι για ίση συμμετοχή συντελεστών θα πάρουμε τον ίδιο τελικό αριθμό προϊόντων. Αυτό όμως δεν ισχύει στην πράξη. Για να λάβουμε υπ όψη τις διαφορές ή αποκλίσεις, προσθέτουμε μια τυχαία μεταβλητή u ή ε. Με αυτό τον τρόπο, η προσδιοριστική σχέση μετατρέπεται σε στοχαστική. Η παρουσία του διαταρρακτικού όρου μπορεί να αποδοθεί στο γεγονός ότι η παραγωγή ενός προϊόντος είναι αστάθμητη και επομένως ο διαταρρακτικός όρος παριστάνει τον αστάθμητο ή απρόβλεπτο ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 11

παράγοντα. Άλλος λόγος για την ύπαρξη του διαταρρακτικού όρου αναφέρεται στο σφάλμα μέτρησης των μεταβλητών. (Τα σφάλματα μέτρησης είναι αναπόφευκτα και επομένως και αν ακόμη η θεωρητική σχέση ανάμεσα στις μεταβλητές είναι ακριβής, πάλι θα υπάρχουν αποκλίσεις από τη θεωρητική σχέση, που θα οφείλονται στην ύπαρξη λαθών στη μέτρηση των τιμών των μεταβλητών). Είναι πολύ σημαντικό σε πάρα πολλά προβλήματα να προβλέψουμε την τιμή μιας ή περισσοτέρων μεταβλητών κάτω από ορισμένες συνθήκες. Οι συνθήκες περιγράφονται και αυτές από μεταβλητές, που λέγονται προβλέπουσες μεταβλητές ή «ανεξάρτητες μεταβλητές» (predictor variables ή independent variables). Η μεταβλητή της οποίας «προβλέπουμε» τις τιμές λέγεται «εξαρτημένη μεταβλητή» (dependent variable) ή απόκριση (response). Το στοχαστικό γραμμικό μοντέλο θα είναι της μορφής : y = b 0 + b1x 1 + bx + b3x 3 + b4x 4 + b5x 5 + u όπου η ανεξάρτητη μεταβλητή y καλείται και παλινδρομητής (regressor), b 0 ο σταθερός όρος, b 1,b,b 3,b 4,b 5 οι συντελεστές της παλινδρόμησης και u το σφάλμα ή όρος του σφάλματος ή διαταρακτικός όρος του μοντέλου. H εκτίμηση των παραμέτρων του υποδείγματος, θα γίνει με τη μέθοδο των ελαχίστων τετραγώνων (Ordinary Least Squares Method). ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 1

Η μέθοδος των ελαχίστων τετραγώνων (Ordinary Least Squares) Η εκτίμηση των παραμέτρων του υποδείγματος της γραμμής παλινδρόμησης μπορεί να γίνει με πολλούς τρόπους. Ο πιο συνηθισμένος είναι η μέθοδος των ελαχίστων τετραγώνων (least squares method) γιατί είναι απλή και οι εκτιμητές που προκύπτουν από τη μέθοδο αυτή έχουν πολλές από τις ιδιότητες που θέλουμε για το υπόδειγμά μας. Το κριτήριο στο οποίο βασίζεται η μέθοδος αυτή είναι η ελαχιστοποίηση του αθροίσματος των τετραγώνων των καταλοίπων (minimum, sum of squared residuals), δηλαδή το άθροισμα των τετραγώνων των αποκλίσεων από τη γραμμή παλινδρόμησης που προκύπτει από τη μέθοδο των ελαχίστων τετραγώνων είναι ελάχιστο. Με άλλα λόγια δεν υπάρχει άλλη γραμμή παλινδρόμησης που το άθροισμα των τετραγώνων των αποκλίσεών της να είναι μικρότερο από αυτό που προκύπτει από τη μέθοδο των ελαχίστων τετραγώνων. Μια άλλη μέθοδος για την εκτίμηση των παραμέτρων του υποδείγματος της γραμμής παλινδρόμησης είναι και η μέθοδος της μέγιστης πιθανοφάνειας (maximum log likelihood) την οποία όμως δεν θα εξετάσουμε στην παρούσα εργασία. Τα αριθμητικά δεδομένα των πινάκων όπως αυτά εξάγονται από το MATHEMATICA παρουσιάζονται παρακάτω. ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 13

X= i y i 1. 1 55 91. 66. 11.4 1. 1 64 88.9 55. 16.8 1. 14 6 69.3 45.6 18.3 1. 1 41 76 85.3 11.8 1. 11 55 77. 78.6 9.5 1. 9 48 83.6 45.9.1 1. 10 6 59.7 51.3 15. 1. 10 33 68.3 64.9 9.3 1. 11 60 64. 58.6 6.6 1. 1 59 79.1 45.1 7.9 1. 1 46 75.8 38.7 1 1. 15 48 95.9 41.3 14.3 1. 14 59 95.9 45.4 15.8 1. 1 41 85.6 78.3 0.1 1. 9 46 78. 8.3 3.4 1. 6 75 46.8 95.6 17.8 Y= 1. 11 4 64.6 45.6 6.3 1. 10 66 55.9 45.4 8.9 1. 10 67 66.9 57.8 15.4 1. 14 6 78.5 66.3 18.9 1. 16 63 9.3 4.8 15.4 1. 11 59 6.3 57..1 1. 1 55 78. 57. 6.8 1. 1 60 78.6 67. 31.7 1. 9 4 64.3 78.9 5.6 1. 8 41 75.6 8.6 13. 1. 8 60 5.9 44. 9.8 1. 10 5 78.6 55.6 15.9 { z kj 1. 1 54 84. 38.9 16.8 1. 6 57 54.1 94.7 17.3 kj y 0 17 14 11 1 184 191 188 19 15 17 39 31 04 171 161 194 185 188 1 9 187 09 00 175 165 169 187 { z 16 158 Ο πίνακας Χ είναι 30x6. ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 14

O ψευδοαντίστροφός του T X p είναι : (Χ p ) T = Ο πίνακας των συντελεστών είναι B = XpY, οπότε αντικαθιστώντας B= έχουμε: i y 83.036 6.31036 0.46975 0.555509 { z - 0.018796-0.519693 kj Β= Χp Υ = [83.036, 6.31036, 0.46975, 0.555509, -0.018796, -0.519693] ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 15

άρα b ) 0 =83.036, b ) 1=6.31036, b ) =0.46975, b ) 3 =0.555509, b ) 4 =- 0.018796 b ) 5 =-0.519693 όπου b ) 0, b ) 1, b ), b ) 3, b ) 4, b ) 5 οι εκτιμημένοι συντελεστές παλινδρόμησης. Επομένως το μοντέλο έχει την παρακάτω μορφή (όπου y η εκτίμηση της παλινδρόμησης με βάση το δείγμα παρατηρήσεων) ) y = 83.036 + 6.31036x + 0.46975x + 0.555509x +(- 0.018796)x +(- 0.519693)x 1 3 4 5 ή ) y = 83.036 + 6.31036x + 0.46975x + 0.555509x - 0.018796x - 0.519693x 4 5 1 3 Σφάλματα Είναι τo άθροισμα των τετραγώνων των σφαλμάτων ή των υπολοίπων SSE (Sum Square Errors). Πρόκειται για τη διασπορά που οφείλεται στα σφάλματα (σε τυχαίους παράγοντες). Eίναι επιθυμητό το SSE να τείνει στο 0. Έχουμε SSE = Y T (I n X X p ) Y SSE = 1093.74 Συνολικό άθροισμα των τετραγώνων των αποκλίσεων από τον μέσο όρο y των y1, y,, y30 : SST (Sum Square Total) Είναι η συνολική διασπορά γύρω από το μέσο όρο SST =YT Y 1 n (Y Jn Y) οπότε με αντικατάσταση έχουμε SST = 407789 1359,97 30 SSR (Sum Square Regression) Πρόκειται για τη διασπορά γύρω από το μέσο όρο που οφείλεται στην παλινδρόμηση. SSR= SST SSE =1359,97 1093.74 = 1499,3 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 16

ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ (DEGREES OF FREEDOM) df a) Ο βαθμός ελευθερίας dfr R (Regression) ή του γραμμικού μοντέλου ισούται με το πλήθος m των ανεξάρτητων μεταβλητών του μοντέλου ( x 1,x,x 3,x 4,x 5 ). Άρα Άρα df R = m = 5 Οι βαθμοί ελευθερίας ικανοποιούν την παρακάτω σχέση Συνολική df = μη ερμηνευθείσα df + ερμηνευθείσα df δηλαδή dft = dfr + dfe. b) Ο βαθμός ελευθερίας της συνολικής διασποράς T (Total) ισούται με n -1 όπου n το πλήθος των παρατηρήσεων. Άρα df T = n -1= 30(παρατηρήσεις)-1= 9 c) Ο βαθμός ελευθερίας της σφαλμάτων Ε (Εrrors) ισούται με τη διαφορά : df E = dft - df R = (n -1)- m = n - m -1 Άρα df E = 30-5 -1= 4 Μέσα Τετράγωνα (mean square) Τα SSR και SSΕ είναι αθροίσματα τετραγώνων αποκλίσεων, βασισμένα σε διαφορετικό αριθμό βαθμών ελευθερίας. Για να είναι συγκρίσιμα μεγέθη, θα διαιρεθούν με τους αντίστοιχους βαθμούς ελευθερίας, οπότε προκύπτουν τα μέσα τετράγωνα. Ο έλεγχος τους βασίζεται στην κατανομή F. a) Μέσα τετράγωνα παλινδρόμησης (mean square οf regression) ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 17

ΜSR= SSR dfr = SSR m =1499,3 = 499.85 5 b)μέσα τετράγωνα σφαλμάτων (E) (mean square οf residuals) MSE = SSE dfe = SSE n - m -1 = 1093.74 30-5 -1(= 4) = 45.573= s MSE = S όπου S η διακύμανση και S η τυπική απόκλιση. S = MSE = 45.573 =6.75073 [S.E. of Regression] Ο λόγος F των μέσων τετραγώνων (F-statistic) F = MSR = MSE 499.85 = 45.573 54.85449 ΠΙΝΑΚΑΣ ΑΝΟVA Πηγή Διακύμανσης Αθροίσματα Τετραγώνων SS Βαθμο ί Ελευθερ ίας df Μέσα Αθρο ίσματα Τετραγώνων MS F Παλι νδρόμησης R SSR=1499,3 5 MSR=499.85 Καταλο ίπων E Σύνολο T SSE=1093.74 4 MSE=45.573 SST=1359,97 9 F=54.85449 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 18

Έλεγχος του μοντέλου σύμφωνα με F κατανομή Το μοντέλο θα πρέπει να ελέγχει αν είναι σταθερό αυτό θα γίνει με την βοήθεια του στατιστικού F ο οποίος ορίζεται ως F = MSR = MSE 54.85449 με την βοήθεια αυτού του στατιστικού τελεστή θα μπορέσει να απορριφτεί η υπόθεση ότι κανένας από του παράγοντες δεν επηρεάζει την μεταβλητή Y. Θα ελεγχθεί αν το μοντέλο μας είναι σταθερό, σε επίπεδο σημαντικότητας α=0.05. Βήμα 1ο Υπόθεση H 0 το μοντέλο σταθερό και H α το μοντέλο δεν είναι σταθερό Βήμα ο Κρίσιμο σημείο Το διάστημα αποδοχής της υπόθεσης H 0 είναι το (0, f )= (0,.61,) και το διάστημα απόρριψης της H 0 είναι το (f, + ) = (.61,+ ). Έχουμε την παρακάτω γραφική παράσταση της κατανομής F (για τη σταθερότητα του μοντέλου) ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 19

Βήμα 3ο Γραφική παράσταση Βήμα 4ο Αποτέλεσμα και Απόφαση f=.61 υπόθεση Ελέγχουμε, σε επίπεδο σημαντικότητας a=0.05, τη μηδενική H 0 : b ) 0 = b ) 1= b ) = b ) 3 = b ) 4 = b ) 5 =0 αν ισχύει, τότε το μοντέλο είναι σταθερό, δηλαδή η εξίσωση παλινδρόμησης δεν εξηγεί καθόλου τις μεταβολές της y, οπότε ) απορρίπτουμε το μοντέλο και την εναλλακτική υπόθεση H α : b 0 ή ) b 0 ή b ) 3 0 ή b ) 4 0 ή b ) 5 0 (οπότε το μοντέλο δεν είναι σταθερό, κατ αρχήν αποδοχή του μοντέλου, καθώς η y εξαρτάται από τις ερμηνευτικές μεταβλητές του υποδείγματος). [Χαλικιάς:001]. 1 ΣΥΜΠΕΡΑΣΜΑ : Το στατιστικό F = MSR = MSE 54.85449 (.61,+ ), άρα απορρίπτουμε την H 0 και αποδεχόμαστε την υπόθεση H α (ότι μοντέλο μας δεν είναι σταθερό, δηλαδή η μεταβλητή y εξαρτάται από τις προβλέπουσες μεταβλητές x 1,x,x 3,x 4,x 5 ). ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 0

Έλεγχος των συντελεστών παλινδρόμησης Ο συντελεστής προσδιορισμού R του μοντέλου (The coefficient of determination or R-square) Ο συντελεστής προσδιορισμού R παίρνει τιμές στο διάστημα [0, 1] και συγκεκριμένα 0 < R <1, R = 0.919537. Αν R =1 σημαίνει πως έχουμε βρει το καταλληλότερο μοντέλο, όλες οι μεταβλητές μας είναι σημαντικές και δεν έχουμε καθόλου σφάλματα στο υπόδειγμά μας. = 1- SSE SST SST = R = SSR Μη - ερμηνευόμενη μεταβλητότητα 1- = 0.919537 Ολική Μεταβλητότητα Και είναι αυτός που προσδιορίζει το ποσοστό της μεταβλητότητας της εξαρτημένης μεταβλητής Y που ερμηνεύεται από την εξίσωση παλινδρομήσεως της σχέσεως του Y ως προς X 1. ΣΥΜΠΕΡΑΣΜΑ : To 91.95% της παραγωγής προϊόντων (ραούλων) είναι άμμεσα εξαρτώμενο από τους παράγοντες x 1,x,x 3,x 4,x 5, ενώ το ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 1

8,05% οφείλεται σε άλλες αιτίες οι οποίες δεν υπάρχουν στο μοντέλο που εξετάζουμε. Στην περίπτωσή μας R = 0.919537, οπότε είναι πολύ καλή η προσαρμογή του μοντέλου μας. Η ποσότητα 100R εκφράζει το ποσοστό της προσαρμογής του μοντέλου που εκτιμήθηκε από το δείγμα. Άρα το μοντέλο μας με βάση το δείγμα, προσαρμόζεται κατά 91,95 % του συνόλου. Ο Διορθωμένος συντελεστής προσδιορισμού (The αdjusted coefficient of determination or αdjusted R-square) R Επειδή στην πολλαπλή παλινδρόμηση η τιμή του R αυξάνεται μόνο όταν προστίθεται μια νέα ανεξάρτητη μεταβλητή, οι ερευνητές και τα περισσότερα στατιστικά πακέτα, χρησιμοποιούν ένα συντελεστή προσδιορισμού που έχει "διορθωθεί" λαμβάνοντας υπόψη τόσο τον αριθμό των παρατηρήσεων m όσο και τον αριθμό των ανεξαρτήτων μεταβλητών n. H προσθήκη μιας νέας ανεξάρτητης μεταβλητής στο υπόδειγμα θα οδηγήσει σε μείωση της ανερμήνευτης συνιστώσας (αποκλίσεις μεταξύ Y και Ŷ ) και επομένως σε αύξηση της τιμής του συντελεστή R. Επομένως η προσθήκη νέων ανεξάρτητων μεταβλητών στο υπόδειγμα θα οδηγήσει πάντα σε αύξηση της τιμής του R. Όμως, κάθε νέα ανεξάρτητη μεταβλητή «στοιχίζει» και ένα βαθμό ελευθερίας. Το ερώτημα είναι αν η αύξηση αυτή του R είναι τόσο σημαντική, ώστε να αξίζει την απώλεια ενός βαθμού ελευθερίας. Η προσθήκη πολλών ανεξάρτητων μεταβλητών μπορεί να οδηγήσει σε «τεχνητή» αύξηση της τιμής του R που δε θα έχει καμία αξία, όταν μάλιστα ο αριθμός των ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ

ανεξάρτητων μεταβλητών (k) είναι υψηλός σε σχέση με το μέγεθος του δείγματος. Το πρόβλημα αυτό αντιμετωπίζεται με το «διορθωμένο» (adjusted) συντελεστή πολλαπλού προσδιορισμού που λαμβάνει υπόψη του την απώλεια των βαθμών ελευθερίας. R = S MSE 1- = 1- = MST Var(Y) Μη ερμηνευόμενη διακύμανση 1- = Ολική Διακύμανση = 0.90773, R = 0.90773 και είναι αυτός που προσδιορίζει το ποσοστό της διακύμανσης του Y, που εξηγείται απο τον συνδυασμό όλων των ανεξάρτητων μεταβλητών. ΣΥΜΠΕΡΑΣΜΑ : Ο Διορθωμένος συντελεστής προσδιορισμού R είναι επίσης πολύ κοντά στη μονάδα, πράγμα που σημαίνει πως η σχέση των ανεξάρτητων μεταβολών και της παραγωγής του τελικού προιόντος είναι αρκετά ισχυρή. Διασπορά και Τυπική απόκλιση μοντέλου Επειδή το σ είναι άγνωστο θα προσεγγίσουμε με την S = 45.573 που αποτελεί αμερόληπτη εκτίμηση της διασποράς των σφαλμάτων σ. Η S είναι η διακύμανση και s η τυπική απόκλιση του δείγματος: των παρατηρήσεων. Η τυπική απόκλιση (standard deviation) είναι ένα ευρέως χρησιμοποιούμενο μέτρο διασποράς που δείχνει την ενδεχόμενη διαφορά μιας συγκεκριμένης τιμής από το μέσο όρο όλων των τιμών [Φίλιας:000]. S = MSE = 45.573 =6.75073 [S.E. of Regression] ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 3

Έλεγχος προσήμων διασποράς και τυπικής απόκλισης των συντελεστών του μοντέλου Θετικό πρόσημο έχουν όλοι οι συντελεστές b 0,b 1,b,b 3 και αρνητικό πρόσημο έχουν οι συντελεστές b 4 & b 5. Αυτό σημαίνει πως οι b 0,b 1,b,b 3 σχετίζονται θετικά με το Υ οπότε και έχουν άμεση εξαρτημένη σχέση, ενώ οι συντελεστές b 4 & b5 σχετίζονται αρνητικά με το Υ το οποίο όμως δεν επιδέχεται επιστημονική ερμηνεία. Προφανώς αυτό θα ενδυναμώσει την εξάρτηση του μοντέλου από τις πέντε μεταβλητές που χρησιμοποιήθηκαν εξαρχής. Διασπορά και τυπική απόκλιση των συντελεστών του μοντέλου Οι διασπορές των συντελεστών μπορούν να βρεθούν με την T βοήθεια του πίνακα C = ( X X ) -1 και επειδή έχουμε ότι X T.X= i kj y 30. 330. 1634..7 181.7 465.4 330. 379. 17990. 5091.9 19301.8 5138.5 1634. 17990. 91754. 10168. 98017.1 565.6.7 5091.9 10168. 169600. 1347. 35034.5 { z 181.7 19301.8 98017.1 1347. 11803. 8687. 465.4 5138.5 565.6 35034.5 8687. 8555.18 Ο C θα iείναι HX T.XL- 1 = y 5.183-0.049791-0.0338961-0.039657-0.0199443 0.0145016-0.049791 0.0181957-0.000687763-0.00597 0.00077614 0.000489033-0.0338961-0.000687763 0.000469611 0.00016046 0.0000487001-0.000197643-0.039657-0.00597 0.00016046 0.000559863-0.000011869-0.0003938 { z - 0.0199443 0.00077614 0.0000487001-0.000011869 0.000183581-0.0000941013 0.0145016 0.000489033-0.000197643-0.0003938-0.0000941013 0.00091903 kj Άρα έχουμε C 00 = 5.183 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 4

C 11 = 0.0181957 C = 0.000469611 C 33 = 0.000559863 C 44 = 0.000183581 C 55 = 0.00091903 Υπολογίζουμε την διακύμανση (variance) κάθε συντελεστή καθώς αυτή θα χρειαστεί στον υπολογισμό της σπουδαιότητας του κάθε συντελεστή παλινδρόμησης. Έτσι έχουμε Var(b ˆ ) = s * C = 45.573 * 5.183 = 36.01309 0 00 Var(b ˆ ) = s * C = 45.573 * 0.0181957 = 0.8919899 1 11 Var(b ˆ ) = s * C = 45.573 * 0.000469611= 0.0140153 Var(b ˆ ) = s * C = 45.573 * 0.000559863 = 0.0551444 3 33 Var(b ˆ ) = s * C = 45.573 * 0.000183581= 0.00836608406 4 44 Var(b ˆ ) = s * C = 45.573 * 0.00091903 = 0.040134 5 55 Οπότε s( b ) ) 0 )= Var(b 0 ) =15.36883961 s( b ) ) 1)= Var(b 1) = 0.91061511 s( b ) )= Var(b ) = 0.0045801363 s( b ) 3 )= Var(b 3 ) = 0.159731787 s( b ) ) 4 )= Var(b 4 ) = 0.091466977 s( b ) ) 5 )= Var(b 5 ) = 0.04971315 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 5

Το στατιστικό Τ έλεγχος σημαντικότητας και διάστημα εμπιστοσύνης συντελεστών Επόμενο βήμα στην ανάλυση των δεδομένων που έχουμε είναι η χρήση του στατιστικού τελεστή b i T =, με i =1,,3,4,5. s(b ) i Όπου b i είναι η εκτιμώμενη τιμή του ι - οστού συντελεστή και S(b i )το τυπικό σφάλμα του b i. Η σπουδαιότητα κάθε συντελεστή παλινδρόμησης ελέγχεται χρησιμοποιώντας την παραπάνω εξίσωση. Ο έλεγχος αυτός δείχνει πόσο βοηθάει η ανεξάρτητη μεταβλητή στην εκτίμηση της τιμής του Υ παρουσία των υπολοίπων ανεξάρτητων μεταβλητών. Για κάθε μεταβλητή θα ελέγξω την υπόθεση H 0 : b i = 0, i = 0,1,,3,4,5 και την εναλλακτική υπόθεση ότι H 1 : τουλάχιστον ένας συντελεστής για τον οποίο b i 0. Το διάστημα αποδοχής της υπόθεσης H0 είναι το (-.064,+.064) Βήμα 1ο H 0 : b 0 = 0 (μη στατιστικά σημαντικός) H a : b0 Ή 0 (στατιστικά σημαντικός)[επίπεδο σημαντικότητας α = 5%.] Βήμα ο Κάνουμε το σχήμα της Τ κατανομής Έχουμε δίπλευρο έλεγχο γι αυτό έχουμε και αρνητικές τιμές. ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 6

Βήμα 3ο Βρίσκουμε τα κρίσιμα σημεία : ν = n - k. Όπου ν = βαθμοί ελευθερίας Όπου n = το μέγεθος του δείγματος Όπου k = ο αριθμός των ανεξάρτητων μεταβλητών (-.064,+.064) Βήμα 4ο Για τον συντελεστή b1 Υπολογίζουμε το ( ) 1 b 6.310364 T b 1 = 6.9977 s(b ) 0.910616 1 Το στατιστικό T ( b ) = Ξ ( + ) απορρίπτουμε την H 0, άρα ισχύει b1 Ή 0 (δηλ.είναι στατιστικά σημαντικός) 1 6.9977.064,, άρα Για τον συντελεστή b Υπολογίζουμε το ( ) b 0.46975 T b = 1.6883 s(b ) 0.1469 Το στατιστικό T ( b ) =1.6883 Ξ (.064,+ ) την H 0, άρα ισχύει b = 0 (δηλ.είναι στατιστικά ασήμαντος), άρα δεχόμαστε ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 7

Επομένως, η μεταβλητή x μπορεί να διαγραφεί από το μοντέλο, αφού δεν είναι σημαντική στην πρόβλεψη των τιμών της Y. Για τον συντελεστή b3 Υπολογίζουμε το ( ) 3 b 0.555509 T b 3 = 3.477756 s(b ) 0.15973 3 Το στατιστικό T ( b ) = 3.477756 Ξ (.064,+ ) απορρίπτουμε την H 0,άρα ισχύει b3 Ή 0 3, άρα (δηλ.είναι στατιστικά σημαντικός) Για τον συντελεστή b4 Υπολογίζουμε το ( ) 4 b -0.018730 T b 4 = -0.0477 s(b ) 0.091467 Το στατιστικό T ( b ) = -0.0477 Ξ (.064,+ ) 4 την H 0, άρα ισχύει b 4 = 0 (δηλ.είναι στατιστικά ασήμαντος) 4, άρα δεχόμαστε Επομένως, η μεταβλητή x 4 μπορεί να διαγραφεί από το μοντέλο, αφού δεν είναι σημαντική στην πρόβλεψη των τιμών της Y. Για τον συντελεστή b5 Υπολογίζουμε το ( ) 5 b -0.519693 T b 5 = -.53544 s(b ) 0.04971 5 Το στατιστικό T ( b ) = -.53544 Ξ (.064,+ ) 5, άρα απορρίπτουμε την H 0, άρα ισχύει b 5 ¹ 0 (δηλ.είναι στατιστικά σημαντικός) Ο έλεγχος σημαντικότητας των συντελεστών μπορεί να γίνει και με την βοήθεια του στατιστικού F δηλαδή με την μέθοδο του Hotelling, έτσι θα έχουμε : (μόνον για τους συντελεστές που πρόκειται να διαγραφούν από το μοντελο μας) Για τον συντελεστή b ˆ ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 8

F = T =1.6884,850154 και f =.74 και F Ξ ( 0,.74) άρα δέχομαι την H 0, δηλαδή b ˆ = 0. Για τον συντελεστή ˆb 4 F = T = (-0.04769) 0.0419303 και f =.74 και F Ξ ( 0,.74) άρα δέχομαι την H 0, δηλαδή ˆb 4 = 0. Βήμα 5ο (γενικό συμπέρασμα - απόφαση) ΣΥΜΠΕΡΑΣΜΑ : Επειδή t b1,b3,b5 < t πίνακα αποδεχόμαστε την υπόθεση H 0 δηλαδή οι συντελεστές b 1,b,b 3 είναι στατιστικά σημαντικοί, ενώ οι συντελεστές b,b 4 είναι στατιστικά ασήμαντοι. Διάστημα εμπιστοσύνης συντελεστή (Coefficient Interval:C.I.) Το 95% διάστημα εμπιστοσύνης αναφέρεται στην επιτυχία της εκτίμησης με αποτέλεσμα η αποτυχία να είναι μόνον το υπόλοιπο 5%. Δηλαδή το διάστημα εμπιστοσύνης της επιτυχίας είναι ( 1- a ) *100% όπου α είναι το ποσοστό της αποτυχίας η εκτίμηση μας να βρίσκεται στα όρια του διαστήματος εμπιστοσύνης. Έτσι έχουμε την σχέση θ - b 0 s(b 0 ) t n-m-1 Η έννοια του διαστήματος εμπιστοσύνης είναι ότι, αν ληφθούν 100 δείγματα από τον πληθυσμό, τότε για τα 95 θα ισχύει ότι η τιμή του συντελεστή περιέχεται στο διάστημα αυτό. ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 9

Εκείνο που πραγματικά ερμηνεύει το Διάστημα Εμπιστοσύνης είναι «με πιθανότητα 0.95 [α=0,05] το τυχαίο διάστημα μέσα στο οποίο υπάρχει η πραγματική τιμή της b 1. Γνωρίζοντας ότι t = t n-m-1,a/ = t 4,0,05 =.064, για κάθε έναν από τους συντελεστές θα έχουμε τα παρακάτω: Για τον συντελεστή b0 Έχουμε ότι θ Ξ (b - s(b )t,b - s(b )t ) ή ή 0 0 n-m-1,a/ 0 0 n-m-1,a/ θ Ξ (83.03595-15.368847 *.064,83.03595 +15.368847 *.064) θ Ξ (51.483,114.95) Για τον συντελεστή b1 Έχουμε ότι θ Ξ (4.43085,8.18988) Για τον συντελεστή b Έχουμε ότι θ Ξ (-0.0549707,0.5489) Για τον συντελεστή b3 Έχουμε ότι θ Ξ (0.583,0.885196) Για τον συντελεστή b4 Έχουμε ότι θ Ξ (-0.07517,0.170058) Για τον συντελεστή b5 Έχουμε ότι θ Ξ (-0.94754,-0.096631) ΣΥΜΠΕΡΑΣΜΑ : Αφού βρήκαμε ότι οι συντελεστές b και b4 δεν επηρεάζουν σημαντικά την τιμή της μεταβλητής Y μπορούν ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 30

διαγραφούν.πρακτικά αυτό σημαίνει πως ο τεχνολογικός εξοπλισμός και η συντήρηση του εξοπλισμού δεν επηρεάζουν σημαντικά την παραγωγή των προιόντων. Από στοιχεία της εταιρίας φαίνεται ότι το διάστημα που πάρθηκαν τα στοιχεία δεν υπήρξε καμία ουσιώδη αναβάθμιση του εξοπλισμού της. Επιπρόσθετα η συντήρηση του υπάρχον εξοπλισμού φαίνεται να μετέχει ελάχιστα στην παραγωγή των προιόντων πράγμα που πιθανώς οφείλεται στον σύγχρονο εξοπλισμό της εταιρίας που ήδη υπάρχει. ΑΠΑΛΕΙΦΗ ΤΩΝ ΣΥΝΤΕΛΕΣΤΩΝ b & b 4 (επαναυπολογισμός του νέου μοντέλου). Όπου Y = αριθμός παραγόμενων τυποποιημένων προϊόντων σε συγκεκριμένο χρόνο, x 1 = Μ.Ο. ανθρώπινου δυναμικού, x 3 = η τεχνογνωσία και x 5 = set up εργαλειομηχανών A/A X1 X3 X5 Y 1 1 91, 11,4 0 1 88,9 16,8 17 3 14 69,3 18,3 14 4 1 76 11,8 11 5 11 77, 9,5 1 6 9 83,6,1 184 7 10 59,7 15, 191 8 10 68,3 9,3 188 9 11 64, 6,6 19 10 1 79,1 7,9 15 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 31

11 1 75,8 1 17 1 15 95,9 14,3 39 13 14 95,9 15,8 31 14 1 85,6 0,1 04 15 9 78, 3,4 171 16 6 46,8 17,8 161 17 11 64,6 6,3 194 18 10 55,9 8,9 185 19 10 66,4 15,4 188 0 14 78,5 18,9 1 1 16 9,3 5,4 9 11 6,3,1 187 3 1 78, 6,8 09 4 1 78,6 31,7 00 5 9 64,3 5,6 175 6 8 75,6 13, 165 7 8 5,9 9,8 169 8 10 78,6 15,9 187 9 1 84, 16,8 16 30 6 54,1 17,3 158 Το στοχαστικό γραμμικό μοντέλο θα είναι της μορφής : y = b 0 + b1x 1 + b3x 3 + b5x 5 + u όπου η ανεξάρτητη μεταβλητή y καλείται και παλινδρομητής (regressor), b 0 ο σταθερός όρος, b 1,b 3,b 5 οι συντελεστές της παλινδρόμησης και u το σφάλμα ή όρος του σφάλματος ή διαταρακτικός όρος του μοντέλου. H εκτίμηση των παραμέτρων του υποδείγματος, θα γίνει με τη μέθοδο των ελαχίστων τετραγώνων (Ordinary Least Squares Method). Τα αριθμητικά δεδομένα των πινάκων όπως αυτά εξάγονται από το MATHEMATICA παρουσιάζονται παρακάτω. ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 3

ΔΙΠΛΩΜΑΤΙΚΗ i ΕΡΓΑΣΙΑ Μ.Π.Σ. X= y i 1. 1 91. 11.4 1. 1 88.9 16.8 1. 14 69.3 18.3 1. 1 76 11.8 1. 11 77. 9.5 1. 9 83.6.1 1. 10 59.7 15. 1. 10 68.3 9.3 1. 11 64. 6.6 1. 1 79.1 7.9 1. 1 75.8 1 1. 15 95.9 14.3 1. 14 95.9 15.8 1. 1 85.6 0.1 1. 9 78. 3.4 1. 6 46.8 17.8 Y= 1. 11 64.6 6.3 1. 10 55.9 8.9 1. 10 66.9 15.4 1. 14 78.5 18.9 1. 16 9.3 15.4 1. 11 6.3.1 1. 1 78. 6.8 1. 1 78.6 31.7 1. 9 64.3 5.6 1. 8 75.6 13. 1. 8 5.9 9.8 1. 10 78.6 15.9 { z kj 1. 1 84. 16.8 1. 6 54.1 17.3 kj Ο πίνακας Χ είναι 30x4. y 0 17 14 11 1 184 191 188 19 15 17 39 31 04 171 161 194 185 188 1 9 187 09 00 175 165 169 187 { z 16 158 O ψευδοαντίστροφός του T X p είναι : ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 33

(Χ p ) T = Ο πίνακας των συντελεστών είναι B = XpY, οπότε αντικαθιστώντας έχουμε: ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 34

B=i y k { z j0.433375-0.434031 ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Μ.Π.Σ. Β= Χp Υ = [96.9496, 6.8857, 0.433375, -0.434031]Τ άρα b ) 0 =96.9496, b ) 1=6.8857, b ) 3 =0.433375, b ) 5 =-0.434031 όπου b ) 0, b ) 1, b ) 3, b ) 5 οι εκτιμημένοι συντελεστές παλινδρόμησης. Επομένως το μοντέλο έχει την παρακάτω μορφή (όπου y ) η εκτίμηση της παλινδρόμησης με βάση το δείγμα παρατηρήσεων) ) y = 96.9496 + 6.8857 x + 0.433375 x +(-0.434031)x 1 3 5 ή ) y = 96.9496 + 6.8857 x 1 + 0.433375 x3-0.434031x5 Σφάλματα Είναι τo άθροισμα των τετραγώνων των σφαλμάτων ή των υπολοίπων SSE (Sum Square Errors). Πρόκειται για τη διασπορά που οφείλεται στα σφάλματα (σε τυχαίους παράγοντες). Eίναι επιθυμητό το SSE να τείνει στο 0. Έχουμε SSE = YT (In X Xp) Y SSE = 134.64 Συνολικό άθροισμα των τετραγώνων των αποκλίσεων από τον μέσο όρο y των y1, y,, y30 : SST (Sum Square Total) 407789 1 Είναι η συνολική διασπορά γύρω από το μέσο όρο SST =YT Y n 30 (Y Jn Y) οπότε με αντικατάσταση έχουμε SST= = 1359,6667 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 35

SSR (Sum Square Regression) Πρόκειται για τη διασπορά γύρω από το μέσο όρο που οφείλεται στην παλινδρόμηση. SSR= SST SSE =1359.6667 134.64= =1358,067 ΒΑΘΜΟΙ ΕΛΕΥΘΕΡΙΑΣ (DEGREES OF FREEDOM) DF a) Ο βαθμός ελευθερίας dfr R (Regression) ή του γραμμικού μοντέλου ισούται με το πλήθος m των ανεξάρτητων μεταβλητών του μοντέλου (x 1, x 3, x 5 ). Άρα Άρα df R = m = 3 Οι βαθμοί ελευθερίας ικανοποιούν την παρακάτω σχέση Συνολική df = μη ερμηνευθείσα df + ερμηνευθείσα df δηλαδή dft = dfr + dfe. b) Ο βαθμός ελευθερίας της συνολικής διασποράς T (Total) ισούται με n -1 όπου n το πλήθος των παρατηρήσεων. Άρα df T = n -1= 30(παρατηρήσεις)-1= 9 c) Ο βαθμός ελευθερίας της σφαλμάτων Ε (Εrrors) ισούται με τη διαφορά : df E = dft - df R = (n -1)- m = n - m -1 Άρα df E = 30-3 -1= 6 Μέσα Τετράγωνα (mean square) Τα SSR και SSΕ είναι αθροίσματα τετραγώνων αποκλίσεων, βασισμένα σε διαφορετικό αριθμό βαθμών ελευθερίας. Για να είναι συγκρίσιμα μεγέθη, θα διαιρεθούν με τους αντίστοιχους βαθμούς ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 36

ελευθερίας, οπότε προκύπτουν τα μέσα τετράγωνα. Ο έλεγχος βασίζεται στην κατανομή F. τους a) Μέσα τετράγωνα παλινδρόμησης (mean square οf regression) ΜSR = SSR dfr = SSR m =1358,067 = 4119.3433 3 b)μέσα τετράγωνα σφαλμάτων (E) (mean square οf residuals) MSE = SSE dfe = SSE n - m -1 = 134.64 30-3 -1(= 6) = 47.486= s απόκλιση. MSE = S όπου S η διακύμανση και S η τυπική S = MSE = 47.486 =6.891 [S.E. of Regression] Ο λόγος F των μέσων τετραγώνων (F-statistic) F = MSR = MSE 4119.3433 = 86.750643 47.486 ΠΙΝΑΚΑΣ ΑΝΟVA Πηγή Διακύμανσης Αθρο ίσματα Τετραγώνων SS Βαθμο ί Ελευθερ ίας df Μέσα Αθρο ίσματα Τετραγώνων MS F ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 37

Παλινδρόμησης R SSR=1358,06 3 MSR=4119.343 3 Καταλο ίπων E Σύνολο T SSE=134.64 6 MSE=47.486 SST=1359,666 7 9 F=86.750643 Έλεγχος του μοντέλου σύμφωνα με F κατανομή Το μοντέλο θα πρέπει να ελέγχει αν είναι σταθερό αυτό θα γίνει με την βοήθεια του στατιστικού F ο οποίος ορίζεται ως F = MSR = MSE 86.750643 με την βοήθεια αυτού του στατιστικού τελεστή θα μπορέσει να απορριφτεί η υπόθεση ότι κανένας από του παράγοντες δεν επηρεάζει την μεταβλητή Y. Θα ελεγχθεί αν το μοντέλο μας είναι σταθερό, σε επίπεδο σημαντικότητας α=0.05. Βήμα 1ο Υπόθεση H 0 το μοντέλο σταθερό και H α το μοντέλο δεν είναι σταθερό Βήμα ο Κρίσιμο σημείο Το διάστημα αποδοχής της υπόθεσης H 0 είναι το (0, f )= (0,.975) και το διάστημα απόρριψης της H 0 είναι το (f, + ) = (.975, + ). Έχουμε την παρακάτω γραφική παράσταση της κατανομής F (για τη σταθερότητα του μοντέλου) ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 38

Βήμα 3ο Γραφική παράσταση Βήμα 4ο Αποτέλεσμα και Απόφαση υπόθεση Ελέγχουμε, σε επίπεδο σημαντικότητας a=0.05, τη μηδενική H 0 : b ) 1= b ) 3 = b ) 5 =0 αν ισχύει, τότε το μοντέλο είναι σταθερό, δηλαδή η εξίσωση παλινδρόμησης δεν εξηγεί καθόλου τις μεταβολές της y, οπότε ) απορρίπτουμε το μοντέλο και την εναλλακτική υπόθεση H α : b 0 ή b ) 3 0 ή b ) 5 0 (οπότε το μοντέλο δεν είναι σταθερό, κατ αρχήν αποδοχή του μοντέλου, καθώς η y εξαρτάται από τις ερμηνευτικές μεταβλητές του υποδείγματος). [Χαλικιάς:001]. 1 Το στατιστικό F = MSR = MSE 86.750643 (.975,+ ), άρα απορρίπτουμε την H 0 και αποδεχόμαστε την υπόθεση H α (ότι μοντέλο μας δεν είναι σταθερό, δηλαδή η μεταβλητή y εξαρτάται από τις προβλέπουσες μεταβλητές x 1,x 3,x 5 ). Έλεγχος των συντελεστών παλινδρόμησης ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 39

Ο συντελεστής προσδιορισμού R του μοντέλου (The coefficient of determination or R-square) Ο συντελεστής προσδιορισμού R παίρνει τιμές στο διάστημα [0, 1] και συγκεκριμένα 0 < R <1, R = 0.909171. Αν R =1 σημαίνει πως έχουμε βρει το καταλληλότερο μοντέλο, όλες οι μεταβλητές μας είναι σημαντικές και δεν έχουμε καθόλου σφάλματα στο υπόδειγμά μας. =1- SSE SST SST = R = SSR Μη ερμηνευόμενη μεταβλητότητα 1- Ολική Μεταβλητότητα = 0.909171 Και είναι αυτός που προσδιορίζει το ποσοστό της μεταβλητότητας της εξαρτημένης μεταβλητής Y που ερμηνεύεται από την εξίσωση παλινδρομήσεως της σχέσεως του Y ως προς X 1. Στην περίπτωσή μας R = 0.909171, οπότε είναι πολύ καλή η προσαρμογή του μοντέλου μας. Η ποσότητα 100R εκφράζει το ποσοστό της προσαρμογής του μοντέλου που εκτιμήθηκε από το δείγμα. Άρα το μοντέλο μας με βάση το δείγμα, προσαρμόζεται κατά 90,91 % του συνόλου. Ο Διορθωμένος συντελεστής προσδιορισμού R (The αdjusted coefficient of determination or αdjusted R-square) Επειδή στην πολλαπλή παλινδρόμηση η τιμή του R αυξάνεται μόνο όταν προστίθεται μια νέα ανεξάρτητη μεταβλητή, οι ερευνητές και τα περισσότερα στατιστικά πακέτα, χρησιμοποιούν ένα συντελεστή προσδιορισμού που έχει "διορθωθεί" λαμβάνοντας υπόψη τόσο τον αριθμό των παρατηρήσεων m όσο και τον αριθμό των ανεξαρτήτων μεταβλητών n ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 40

R = S MSE 1- = 1- = MST Var(Y) Μη ερμηνευόμενη διακύμανση 1- = Ολική Διακύμανση = 0.898691 R = 0.898691 και είναι αυτός που προσδιορίζει το ποσοστό της διακύμανσης του Y, που εξηγείται απο τον συνδυασμό όλων των ανεξάρτητων μεταβλητών. Διασπορά και Τυπική απόκλιση μοντέλου Επειδή το σ είναι άγνωστο θα προσεγγίσουμε με την S = 45.573 που αποτελεί αμερόληπτη εκτίμηση της διασποράς των σφαλμάτων σ. Η του δείγματος: των παρατηρήσεων. S είναι η διακύμανση και s η τυπική απόκλιση Η τυπική απόκλιση (standard deviation) είναι ένα ευρέως χρησιμοποιούμενο μέτρο διασποράς που δείχνει την ενδεχόμενη διαφορά μιας συγκεκριμένης τιμής από το μέσο όρο όλων των τιμών [Φίλιας:000]., S = MSE = 45.573 =6.891 [S.E. of Regression] Έλεγχος προσήμων διασποράς και τυπικής απόκλισης των συντελεστών του μοντέλου Θετικό πρόσημο έχουν όλοι οι συντελεστές b 0,b 1,b και αρνητικό πρόσημο έχει ο συντελεστής b 3. Αυτό σημαίνει πως οι b 0,b 1,b σχετίζονται θετικά με το Υ οπότε και έχουν άμεση εξαρτημένη σχέση, ενώ ο συντελεστής b 3 σχετίζεται αρνητικά με το Υ το οποίο όμως δεν επιδέχεται επιστημονική ερμηνεία. Προφανώς αυτό θα ενδυναμώσει την εξάρτηση του μοντέλου από τις τρεις μεταβλητές που απέμειναν. ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 41

Διασπορά και τυπική απόκλιση των συντελεστών του μοντέλου Οι διασπορές των συντελεστών μπορούν να βρεθούν με την T βοήθεια του πίνακα C = ( X X ) -1 και επειδή έχουμε ότι kj.7 5091.9 169600. 35034.5 465.4 5138.5 35034.5 8555.18{z HL Ο C k θα είναι {z j- 0.011557-0.00178015 0.000453891-0.0001653-0.00653759 0.00054900-0.0001653 0.000808375 Άρα έχουμε C 00 =1.454 C 11 = 0.013165 C = 0.000453891 C 33 = 0.000808375 Υπολογίζουμε την διακύμανση (variance) κάθε συντελεστή καθώς αυτή θα χρειαστεί στον υπολογισμό της σπουδαιότητας του κάθε συντελεστή παλινδρόμησης. Έτσι έχουμε Var(b ˆ ) = s * C = 47.486 *1.454 = 58.1485 0 00 Var(b ˆ ) = s * C = 47.486 * 0.013165 = 0.6515319 1 11 Var(b ˆ ) = s * C = 47.486 * 0.000453891= 0.01553468 Var(b ˆ ) = s * C = 47.486 * 0.000808375 = 0.038386495 3 33 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 4

Οπότε s( b ) ) 0 )= Var(b 0 ) = 7.65516376 s( b ) ) 1)= Var(b 1) = 0.79 s( b ) )= Var(b ) = 0.0004645519 s( b ) 3 )= Var(b 3 ) = 0.0014735998 Το στατιστικό Τ έλεγχος σημαντικότητας και διάστημα εμπιστοσύνης συντελεστών Επόμενο βήμα στην ανάλυση των δεδομένων που έχουμε είναι η χρήση του στατιστικού τελεστή b i T =, με i =1,,3. s(b ) i Όπου b i είναι η εκτιμώμενη τιμή του ι - οστού συντελεστή και S(b i )το τυπικό σφάλμα του b i. Η σπουδαιότητα κάθε συντελεστή παλινδρόμησης ελέγχεται χρησιμοποιώντας την παραπάνω εξίσωση. Ο έλεγχος αυτός δείχνει πόσο βοηθάει η ανεξάρτητη μεταβλητή στην εκτίμηση της τιμής του Υ παρουσία των υπολοίπων ανεξάρτητων μεταβλητών. Για κάθε μεταβλητή θα ελέγξω την υπόθεση H 0 : b i = 0, i = 0,1,,3 και την εναλλακτική υπόθεση ότι H 1 : τουλάχιστον ένας συντελεστής για τον οποίο b i 0. Το διάστημα αποδοχής της υπόθεσης H0 είναι το (-.056,+.056) Βήμα 1ο H 0 : b 0 = 0 (μη στατιστικά σημαντικός) H : b Ή 0 (στατιστικά σημαντικός)[επίπεδο σημαντικότητας α=5%.] a 0 Βήμα ο ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 43

Κάνουμε το σχήμα της Τ κατανομής Έχουμε δίπλευρο έλεγχο γι αυτό έχουμε και αρνητικές τιμές. Βήμα 3ο Βρίσκουμε τα κρίσιμα σημεία : ν = n - k. Όπου ν = βαθμοί ελευθερίας Όπου n = το μέγεθος του δείγματος Όπου k = ο αριθμός των ανεξάρτητων μεταβλητών (-.056,+.056) Βήμα 4ο Για τον συντελεστή b1 Υπολογίζουμε το ( ) 1 απορρίπτουμε την H 0, b 6.88571 T b 1 = 8.70478 s(b ) 0.790666 1 Το στατιστικό T ( b ) = 8.70478 Ξ (.056,+ ) άρα ισχύει b1 Ή 0 (δηλ.είναι στατιστικά σημαντικός) 1, άρα Για τον συντελεστή b Υπολογίζουμε το ( ) b 0.433375 T b =.9519 s(b ) 0.146811 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 44

απορρίπτουμε την H 0, ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Μ.Π.Σ. Το στατιστικό T ( b ) =.9519 Ξ (.056,+ ) άρα ισχύει b Ή 0 (δηλ.είναι στατιστικά σημαντικός) Για τον συντελεστή b3, άρα Υπολογίζουμε το ( ) 3 απορρίπτουμε την H 0, b -0.434031 T b 3 = -.159 s(b ) 0.19595 3 Το στατιστικό T ( b ) = -.159 Ξ ( -,.056) άρα ισχύει b3 Ή 0 (δηλ.είναι στατιστικά σημαντικός) 3, άρα Βήμα 5ο (γενικό συμπέρασμα - απόφαση) ΣΥΜΠΕΡΑΣΜΑ : Επειδή t άσκησης < t πίνακα αποδεχόμαστε την υπόθεση H 0 δηλαδή όλοι οι συντελεστές είναι στατιστικά σημαντικοί. Διάστημα εμπιστοσύνης συντελεστή (Coefficient Interval:C.I.) Το 95% διάστημα εμπιστοσύνης αναφέρεται στην επιτυχία της εκτίμησης με αποτέλεσμα η αποτυχία να είναι μόνον το υπόλοιπο 5%. Δηλαδή το διάστημα εμπιστοσύνης της επιτυχίας είναι ( 1- a ) *100% όπου α είναι το ποσοστό της αποτυχίας η εκτίμηση μας να βρίσκεται στα όρια του διαστήματος εμπιστοσύνης. Έτσι έχουμε την σχέση θ - b 0 s(b 0 ) t n-m-1 Η έννοια του διαστήματος εμπιστοσύνης είναι ότι, αν ληφθούν 100 δείγματα από τον πληθυσμό, τότε για τα 95 θα ισχύει ότι η τιμή του συντελεστή περιέχεται στο διάστημα αυτό. ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 45

Εκείνο που πραγματικά ερμηνεύει το Διάστημα Εμπιστοσύνης είναι «με πιθανότητα 0.95 [α=0,05] το τυχαίο διάστημα μέσα στο οποίο υπάρχει η πραγματική τιμή της b 1. Γνωρίζοντας ότι t = t n-m-1,a/ = t 6,0,05 =.056, για κάθε έναν από τους συντελεστές θα έχουμε τα παρακάτω: Για τον συντελεστή b0 Έχουμε ότι θ Ξ (b - s(b )t,b - s(b )t ) ή ή 0 0 n-m-1,a/ 0 0 n-m-1,a/ θ Ξ (96.949553-7.65506 *.056,96.949553 + 7.65506 *.056) θ Ξ (81.715,11.68) Για τον συντελεστή b1 Έχουμε ότι θ Ξ (5.5696,8.50818) Για τον συντελεστή b Έχουμε ότι θ Ξ (0.13153,0.73519) Για τον συντελεστή b3 Έχουμε ότι θ Ξ (-0.83685,-0.031093) ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 46

ΚΕΦΑΛΑΙΟ ΤΡΙΤΟ Επιλογή του καλύτερου και απλούστερου μοντέλου Μελετούμε τα 3-1= 7 μη σταθερά μοντέλα, τα χωρίζουμε σε κλάσεις (στην περίπτωσή μας τέσσερις) Αi, i=0,1,,3 όπου η κλάση Αi να περιλαμβάνει τα μοντέλα με i προβλέπουσες μεταβλητές. Κατασκευάζουμε τον παρακάτω πίνακα όπου εμφανίζονται όλες οι κλάσεις με τις αντίστοιχεs τιμές R και SSE. ΣΗ Α1 ΚΛΑ Σ x1 x ΜΕΤΑΒΛΗΤΕ 10 0 R SSE 87. 110 175.07 59.577 5494.7 x 3 0.3931 13560.4 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 47

Α Α3 x 1, x x 1, x 3 x, x 3 03 873 446 89. 87. 64. 1467.68 1648.4 483.8 x 1, x, x 3 90. 917 134.64 Υπολογίζουμε τον συντελεστή R 0 του Aitkin R 0 = 1-(1-R )(1+ m n - m -1 F m,n-m-1,a) R 0 = 0.87799 R 0 = 0.87799 οπότε 100R 0 = 87.799 R -επαρκή μοντέλα καλούνται εκείνα για τα οποία ισχύει : R =0.909171 100R > 100R 0 Από τον πίνακα, προκύπτουν τα εξής : κλάση Α3 x1, x, x3 = μ1 Κριτήριο s Υπολογίζουμε το s για το μοντέλο μ 1 και για το μοντέλο μ : Κριτήριο s μ1= Cp SSE μ1 n - m -1 =134.64 30-3 -1 = 47.4861 Υπολογίζουμε το C p για το μοντέλο μ 1 και για το μοντέλο μ : Cpμ1 = SSEμ1 -(n - p) = 134.64 -(30-8) = 4.0000948 s 47.4861 όπου m=3 και p=m+1=3+1=4 s = SSE n - m -1 =134.64 = 47.4861 η διακύμανση του πλήρους 30-3 -1 μοντέλου οπότε έχουμε Cpμ1 p = 4.0000948 4 =0.0000948 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 48

Επιλέγουμε τελική κλάση Α3 x1, x, x3 =μ1 Έτσι καταλήγουμε ότι το καλύτερο και απλούστερο μοντέλο είναι το y =107.95499-8.5859x1-0.78845x ΚΕΦΑΛΑΙΟ ΤΕΤΑΡΤΟ Πολυσυγραμμικότητα Η επόμενη υπόθεση που ελέγχουμε είναι ότι οι ερμηνευτικές μεταβλητές είναι ασυσχέτιστες. Αν υπάρχει πολυσυγραμμικότητα, δηλαδή ισχυρή συσχέτιση μεταξύ των ερμηνευτικών μεταβλητών, τότε οι εκτιμήσεις των παραμέτρων του υποδείγματος είναι εξαιρετικά ασταθείς και οι τιμές τους υφίστανται δραματικές αλλαγές όταν γίνονται μικρές αλλαγές στα δεδομένα του προβλήματος. Μια από της υποθέσεις της γραμμής παλινδρόμησης είναι ότι δεν υπάρχουν γραμμικές σχέσεις μεταξύ των ερμηνευτικών μεταβλητών (υπόθεση 10) Αν η υπόθεση αυτή δεν ισχύει τότε υπάρχει πολυσυγραμμικότητα Διακρίνουμε τις παρακάτω μορφές πολυσυγραμμικότητας: Τέλεια ή πλήρης πολυσυγραμμικότητα. Είναι η περίπτωση που υπάρχει τέλεια γραμμική συσχέτιση μεταξύ όλων των ερμηνευτικών μεταβλητών του υποδείγματος. ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 49

Απουσία πολυσυγραμμικότητας. Είναι η περίπτωση που υπάρχει μηδενική γραμμική συσχέτιση μεταξύ όλων των ερμηνευτικών μεταβλητών του υποδείγματος Ατελής ή μη πλήρης πολυσυγραμμικότητα. Είναι η περίπτωση που υπάρχει γραμμική συσχέτιση κάποιου βαθμού μεταξύ όλων των ερμηνευτικών μεταβλητών του υποδείγματος. Έλεγχοι διαπίστωσης της πολυσυγραμμικότητας : Υψηλό R και χαμηλό t Σύμφωνα με τον Frisch (1934) υπάρχει σοβαρή πολυσυγραμμικότητα μεταξύ των ερμηνευτικών μεταβλητών όταν ο συντελεστής R είναι πολύ μεγάλος και ταυτόχρονα οι έλεγχοι του t σημειώνουν μη στατιστικά αποτελέσματα. Στην περίπτωση αυτή μολονότι οι τιμές του t σημειώνουν μη σημαντικά αποτελέσματα εντούτοις η τιμή του F του ελέγχου του Wald σημειώνει σημαντικότητα σε ομάδες συντελεστών παλινδρόμησης. Υψηλοί συντελεστές συσχέτισης μεταξύ των ερμηνευτικών μεταβλητών. Αν οι απλοί συντελεστές συσχέτισης μεταξύ των ερμηνευτικών μεταβλητών είναι ανά δύο υψηλοί (συνήθως μεγαλύτεροι από 0.80), τότε υπάρχει σοβαρή πολυσυγραμμικότητα μεταξύ των μεταβλητών αυτών. Θεωρούμε την εκτίμηση του υποδείγματος ) y = 83.036 + 6.31036x + 0.46975x + 0.555509x - 0.018796x - 0.519693x 4 5 1 3 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 50

Θα ελέγξουμε την ενδεχόμενη ύπαρξη γραμμικής εξάρτησης μεταξύ των μεταβλητών x 1, x, x 3, x 4, x 5. Αν αποκαλυφθεί γραμμικότητα μεταξύ μεταβλητών, θα διαγραφεί εκείνη με το χαμηλότερο R και θα μελετηθεί εξ αρχής το νέο μοντέλο. Ο συσχετισμός μεταξύ δύο μεταβλητών, απεικονίζει τον βαθμό με τον οποίο οι μεταβλητές σχετίζονται μεταξύ τους. Το πιο συνηθισμένο μέτρο συσχετισμού είναι ο στιγμιαίος συσχετισμό Pearson, ο οποίος καλείται για συντομία συσχετισμός Pearson. Όταν ο συσχετισμός Pearson αναφέρεται σε έναν «πληθυσμό» συμβολίζεται με το γράμμα ρ, ενώ όταν αναφέρεται σε ένα «δείγμα» συμβολίζεται με το γράμμα r και δίνεται από τον τύπο το +1. S S xy xy r xy = = SxxSyy S x S y Ο συντελεστής γραμμικής συσχέτισης παίρνει τιμές από το 1 έως Συγκεκριμένα: r xy = -1: Πλήρης αρνητική γραμμική σχέση r xy = 0 : X x και X x ασυσχέτιστες r xy = +1: Πλήρης θετική γραμμική σχέση O πίνακας R γραμμικής συσχέτισης των συντελεστών (correlation symmetric matrix), προκύπτει από την σχέση ι x ji - x ω j R=X*T X* όπου X*= κ ϊ, j = 1,,3,4 i=1,,,30 κλ s j n -1 ϊϋ ΜEΤΑΒΛΗΤΗ ΜΕΣΟΣ ΑΡΙΘΜΗΤΙΚΟΣ ΤΥΠΙΚΗ ΑΠΟΚΛΙΣΗ x j x j x 1 11 0,048 x 74.09 13.051 x 3 15.5133 6.78557 s j ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 51

Αντικαθιστώντας στον τύπο του πίνακα X* έχουμε: 0,0785674 0.43934-0.11566 0,0785674 0.11143 0.03511 0,35706-0.0689 0.076605 0,0785674 0.07305-0.1016 0 0.0443386-0.16456-0,15713484 0.13558 0.1805-0,0785674-0.05155-0.0085747 5-0,0785674-0.08546 8-0.170035 0-0.141-0.4394 0,0785674 0.071465-0.08348 0,0785674 0.043791-0.0961466 0,31469681 0.31094-0.033043 0,35706 0.31094 0.00784498 0,0785674 0.164096 0.155-0,15713484 0.0585954 0.4614-0,3983710 1-0.389068 0.065774 0-0.13597-0.5134-0,0785674-0.59331-0.18098-0,0785674-0.10506-0.0031015 0,35706 0.06874 0.09680 0,39837101 0.59616-0.0031015 0-0.168087 0.1805 0,39837101 0.0585954 0.308873 0,0785674 0.064981 0.44968 ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 5

-0,15713484-0.139574-0.719-0,35706 0.01577-0.063307-0,35706-0.30101-0.15635-0,0785674 0.064981 0.0105816 0,0785674 0.144136 0.03511-0,3983710 1-0.84993 0.0488943 O πίνακας R γραμμικής συσχέτισης των συντελεστών (correlation =i symmetric matrix) είναι: R k j1. 0.71934 0.0410668 0.71934 1. 0.15776 0.0410668 0.15776 1. y { z Θα ελέγξουμε την ύπαρξη πολυσυγραμικότητας (γραμμικής εξάρτησης) μεταξύ των ερμηνευτικών μεταβλητών, με 3 τρόπους. a) Εξετάζοντας τον πίνακα R, παρατηρούμε ότι δεν υπάρχει τιμή που να προσεγγίζει τους αριθμούς 1 και +1(εκτός της διαγωνίου),όλοι βρίσκονται κοντά στο 0, άρα δεν υπάρχει (ούτε αρνητική ούτε θετική) γραμμική εξάρτηση μεταξύ μεταβλητών. y { z :i b) Εξετάζουμε τις ιδιοτιμές λ i για i=1,,3 του πίνακα R The Eigenvalues of R are k j1.76315 0.977444 0.59404 των Δεν υπάρχει ιδιοτιμή λ i 0, άρα δεν υπάρχει γραμμική εξάρτηση μεταξύ των μεταβλητών xi -1 c) Λαμβάνουμε τον αντίστροφο του πίνακα R, S = R ΤΣΙΜΗΝΑΚΗΣ ΙΩΑΝΝΗΣ 53