Εφαρμοσμένη Στατιστική Έρευνα Απλό Γραμμικό Υπόδειγμα AΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟ ΕΙΓΜΑ Δρ. Χρήστος Εμμανουηλίδης Αν. Καθηγητής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Εφαρμοσμένη Στατιστική, Τμήμα Ο.Ε. ΑΠΘ Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3 4 Η Συνάρτηση Παλινδρόμησης στον Πληθυσμό 5 Y Y u u = τομή της ευθείας με τον άξονα των Υ = σχέση μεταξύ της εξαρτημένης και της ανεξάρτητης μεταβλητής στον πληθυσμό. = κλίση της ευθείας παλινδρόμησης = διαταρακτικός όρος ή σφάλμα,..., 6 Χ. Εμμανουηλίδης, cemma@eco.auth.gr
Η Συνάρτηση Παλινδρόμησης στον Πληθυσμό E Y Y E Y Y β β u β β u Δειγματική Συνάρτηση Παλινδρόμησης Περιγράφει τη σχέση ανάμεσα στην εξαρτημένη και την ανεξάρτητη μεταβλητή στο δείγμα Απαιτεί την εκτίμηση των παραμέτρων του υποδείγματος (τομή και κλίση) από τα δειγματικά δεδομένα Y,,, u Y u Y = Οι εκτιμήσεις των αντίστοιχων ποσοτήτων ή 7 8 Η Συνάρτηση Παλινδρόμησης στον Πληθυσμό και οι Δειγματικές Παρατηρήσεις Οι συναρτήσεις παλινδρόμησης: (α) στον πληθυσμό και (β) στο δείγμα Δειγματική συνάρτηση παλινδρόμησης Συνάρτηση παλινδρόμησης στον πληθυσμό 9 9 Παραδοχές του κλασσικού υποδείγματος παλινδρόμησης Είναι ιδανικές μαθηματικές συνθήκες που εξασφαλίζουν πως οι εκτιμημένες παράμετροι είναι: Παραδοχή η: γραμμικότητα Η σχέση ανάμεσα στην εξαρτημένη και την ανεξάρτητη μεταβλητή είναι γραμμική: (α) αμερόληπτοι (ubased) (β) συνεπείς (cosstet), και (γ) πιο αποτελεσματικοί (ecet) δηλαδή έχουν την μικρότερη διακύμανση από κάθε άλλον γραμμικό αμερόληπτο εκτιμητή. Y u Χ. Εμμανουηλίδης, cemma@eco.auth.gr
Παραδοχή η: Το σφάλμα u έχει μέση τιμή. Eu E(u)= Παραδοχή 3η: Ομοσκεδαστικότητα Τα σφάλματα σε κάθε παρατήρηση έχουν σταθερή και ίση διακύμανση : var u Επίπτωση: E( Y ) Επίπτωση: var Y, ανεξάρτητα των τιμών Χ 3 4 Ομοσκεδαστικά και ετεροσκεδαστικά σφάλματα Παραδοχή 4η: Απουσία αυτοσυσχέτισης Τα σφάλματα μεταξύ παρατηρήσεων είναι ανεξάρτητα corr u, u j ή covu, u j, j δεν είναι στοχαστικά, cov Y, Y Επίπτωση: Αφού τα Χ δεν είναι στοχαστικά, Θετική αυτοσυσχέτιση ης τάξεως j Αρνητική αυτοσυσχέτιση ης τάξεως Ομοσκεδαστικά σφάλματα Ετεροσκεδαστικά σφάλματα 5 6 Παραδοχή 5η: Κανονικότητα σφάλματος Παραδοχή 5η: Κανονικότητα σφάλματος Ο διαταρακτικός όρος (σφάλμα) ακολουθεί την κανονική κατανομή u ~ N, β Κατανομή του y δεδομένου του x β β Επίπτωση: Αφού το Υ είναι γραμμική συνάρτηση των u τότε Y ~ N E( Y ), x x x 3 x 4 όπου E( Y ) 7 8 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3
Παραδοχή 6η: Μη στοχαστικά Οι τιμές δεν είναι στοχαστικές (μη τυχαίες ή πλήρως προσδιορισμένες) Συχνές παραβιάσεις: Σφάλματα μέτρησης Ενδογενείς μεταβλητές Η παραδοχή αυτή εξασφαλίζει πως η συνδιακύμανση ανάμεσα στην ανεξάρτητη μεταβλητή και στο σφάλμα είναι μηδέν. cov, u Παραβίαση της 6ης Παραδοχής Εκτιμημένη σχέση Πραγματική σχέση 9 Παραδοχή 7η μεταβλητότητα στην Υπάρχει κάποιος βαθμός μεταβλητότητας στην ανεξάρτητη μεταβλητή (). Εκτίμηση ελαχίστων τετραγώνων (OLS estmato) Εκτίμηση με τη συνήθη μέθοδο ελαχίστων τετραγώνων: Επιλογή των και ώστε να ελαχιστοποιείται το άθροισμα των τετραγώνων των καταλοίπων (ή σφαλμάτων εκτίμησης, SSE) SSE u Y Y Y,,, SSE SSE και Εκτίμηση ελαχίστων τετραγώνων (OLS estmato) Εκτίμηση με τη συνήθη μέθοδο ελαχίστων τετραγώνων: SSE Y, SSE Y, Κανονικές εξισώσεις: (ένα σύστημα δύο εξισώσεων) Y,, Y,,, Εκτιμητές ελαχίστων τετραγώνων (OLS estmators) Από τις κανονικές εξισώσεις με λίγη άλγεβρα: Y Y,, Y 3 4 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4
Ιδιότητες εκτιμητών ελαχίστων τετραγώνων Κάτω από τις συνθήκες του κλασικού γραμμικού υποδείγματος οι εκτιμητές OLS είναι: αμερόληπτοι συνεπείς ελάχιστης διακύμανσης Δηλαδή είναι: βέλτιστοι γραμμικοί αμερόληπτοι εκτιμητές (BLUE) (Θεώρημα Gauss Markov) 5 Διακύμανση του εκτιμητή του συντελεστή τομής Ισχύει: var E, u Εκτίμηση του σ :, Συνεπώς: var, 6 Διακύμανση του εκτιμητή του συντελεστή κλίσης Ισχύει: var E, Συνδιακύμανση των συντελεστών τομής και κλίσης cov,, Συνεπώς: var, 7 8 Εκτιμημένη εξίσωση παλινδρόμησης Κλίση της εξίσωσης Y Y, 5 4, 4.667 var.68 4,.68.8 u 3, 4 4.667 3 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5
Εκτιμημένη εξίσωση παλινδρόμησης y τομή της εξίσωσης Y 5 var 4.667 5.6 4 5,.68.8 Εκτιμημένη εξίσωση παλινδρόμησης Y 5.336.8 (τυπικά σφάλματα των εκτιμήσεων) 3 3 Ανάλυση μεταβλητότητας της Υ Ανάλυση μεταβλητότητας της Υ: Y Y u Εξηγούμενη και μη εξηγούμενη μεταβλητότητα Με λίγη άλγεβρα προκύπτει η σχέση για τη µεταβλητότητα της Υ Y Y Y Y Y Y,,, SST = SSR + SSE SST = ολικό άθροισµα τετραγώνων (µεταβλητότητα της Υ) SSR = άθροισµα τετραγώνων παλινδρόµησης (µεταβλητότητα που ερµηνεύεται από την παλινδρόµηση) SSE = άθροισµα τετραγώνων καταλοίπων (µεταβλητότητα που δεν ερµηνεύεται από την παλινδρόμηση) u Y Y κατάλοιπα (resduals) ή σφάλματα εκτίμησης 33 (μη εξηγούμενη μεταβ.) ) (εξηγούμενη μεταβλητότητα) (συνολική μεταβλητότητα) 34 Συντελεστής Προσδιορισμού R O συντελεστής προσδιορισμού είναι: R = SSR/SST όπου: SSR = άθροισμα τετραγώνων παλινδρόμησης SST = ολικό άθροισμα τετραγώνων Συντελεστής Προσδιορισμού R R = SSR/SST = /4 =.877 88.7% της μεταβλητότητας των πωλήσεων ερμηνεύεται γραμμικά από τον αριθμό των TV σποτ. Μεγάλη ερμηνευτική ικανότητα της εξίσωσης παλινδρόμησης Εύρος τιμών: R Εκφράζει το ποσοστό (αναλογία) της μεταβλητότητας της Υ που ερμηνεύεται από την Χ. 35 36 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6
R = R = εξηγούμενη μεταβλητότητα = συνολική μεταβλητότητα = μη εξηγούμενη μεταβλητότητα = συνολική μεταβλητότητα 37 38 37 38 Παρατηρήσεις για το R Ο R υπολογίζεται ως SSR/SST μόνον όταν υπάρχει ο συντελεστής τομής στο υπόδειγμα παλινδρόμησης Το R δεν είναι στατιστική συνάρτηση που να μπορεί να χρησιμοποιηθεί απευθείας για έλεγχο υποθέσεων Αν η διαδικασία που γεννά τα δεδομένα είναι σε μεγάλο βαθμό τυχαία, τότε το R θα είναι μικρό, ακόμη και όταν το υπόδειγμα έχει εξειδικευτεί σωστά Το R είναι μέτρο συσχέτισης και όχι αιτιότητας r r r Δειγματικός Συντελεστής Συσχέτισης r xy s s Y όπου: = κλίση της εκτιμημένης εξίσωσης παλινδρόμησης s = τυπική απόκλιση της Χ s Y = τυπική απόκλιση της Υ Y Y Y θετική γραμμική σχέση ανάμεσα στις Χ και Υ αρνητική γραμμική σχέση ανάμεσα στις Χ και Υ απουσία γραμμικής σχέσης ανάμεσα στις Χ και Υ 39 4 Δειγματικός Συντελεστής Συσχέτισης Δειγματικός Συντελεστής Συσχέτισης rxy ( ) R rxy s s ( ) R xy Y r όπου: = κλίση της εκτιμημένης εξίσωσης παλινδρόμησης R = συντελεστής προσδιορισμού Θετικό πρόσημο του R.887 5 s s 5.339 Y rxy στην.887.9366 Y 5 rxy 5.9366 5.339 4 4 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 7
Έλεγχοι Σημαντικότητας ΕΛΕΓΧΟΙ ΣΗΜΑΝΤΙΚΟΤΗΤΑΣ Για να ελέγξουμε τη σημαντικότητα μιας εξίσωσης παλινδρόμησης διεξάγουμε στατιστικό έλεγχο για την υπόθεση Η : =. Τύποι ελέγχων: t - έλεγχος και F - έλεγχος Και οι δύο έλεγχοι απαιτούν μια εκτίμηση του, της διακύμανσης του διαταρακτικού όρου u. 43 44 Έλεγχοι Σημαντικότητας Μια εκτίμηση του Το μέσο τετραγωνικό σφάλμα (mea square error - MSE) είναι μια εκτίμηση του. Συμβολίζεται και ως s. όπου: s = MSE = SSE/( ) SSE ( Y Y ) ( Y ) u Έλεγχοι Σημαντικότητας Μια εκτίμηση του Τυπικό σφάλμα της εκτίμησης (stadard error o estmate) u SSE, s MSE 45 46 Παραδοχή Κανονικότητας Κάθε γραμμικός συνδυασμός κανονικά κατανεμημένων τ.μ. ακολουθεί την κανονική κατανομή. Αν ο διαταρακτικός όρος ακολουθεί την κανονική κατανομή, οι εκτιμητές των συντελεστών κλίσης και τομής θα είναι και αυτοί κανονικά κατανεμημένοι (επειδή είναι γραμμικοί εκτιμητές): ~ N, N,, ~, N N,, 47 Μη κανονικά σφάλματα και μεγάλα δείγματα Αν ο διαταρακτικός όρος δεν ακολουθεί την κανονική κατανομή, απότοκεντρικόοριακόθεώρημαπροκύπτειότιοι συντελεστές τομής και κλίσης συγκλίνουν σε μια κανονική κατανομή όσο το μέγεθος του δείγματος τείνει στο άπειρο (δηλαδή η ή ασυμπτωτικά) ) 48 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 8
Η στατιστική Ζ κατανέμεται ως Η t στατιστική j j Z j ~ N,, j, Αφού το είναι άγνωστο, χρησιμοποιούμε την t στατιστική: j j t ~ t, j j, Παρατηρείστε ότι οι βαθμοί ελευθερίας της κατανομής t studet είναι (αριθμός εκτιμώμενων παραμέτρων) 49 Έλεγχοι Σημαντικότητας : t Έλεγχος Υποθέσεις H : H a : Στατιστική Ελέγχου t Τυπική απόκλιση του 5 Έλεγχοι Σημαντικότητας : t Έλεγχος Κανόνας Απόρριψης όπου: Απόρριψη της H αν p- τιμή < α ή αν t < -t -,α/ ή t > t -,α/ t -,α/ η κριτική τιμή της t - κατανομής με - βαθμούς ελευθερίας Έλεγχοι Σημαντικότητας : t Έλεγχος Παράδειγμα πωλήσεων αυτοκινήτων. Εξειδίκευση Υποθέσεων. H : H a :. Καθορισμός επιπέδου σημαντικότητας. 3. Στατιστική ελέγχου. t α =.5 4. Κανόνας απόρριψης. Απόρ. H αν p- τιμή <.5 ή t > 3.8 ( με 3 β.ε.) 5 5 Έλεγχοι Σημαντικότητας : t Έλεγχος Διάστημα εμπιστοσύνης για το 5. Τιμή της στατιστικής ελέγχου. t 5.8 6. Απόφαση για την H. 4.63 Μπορούμε να χρησιμοποιήσουμε το 95% Δ.Ε. του β για τον έλεγχο της προηγούμενης υπόθεσης. Η υπόθεση H απορρίπτεται αν η υποτιθέμενη τιμή του β είναι εκτός του Δ.Ε. για το β. Η τιμή t = 4.63 αντιστοιχεί σε εμβαδόν.95 στην δεξιά ουρά της κατανομής. Άρα η p-τιμή είναι.9. (Επίσης, t = 4.63 > 3.8). Απορρίπτουμε την H. 53 54 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 9
Διάστημα εμπιστοσύνης για το ( α)% Δ.Ε. για το : όπου: t -,α/ t, a/ η κριτική τιμή της t - κατανομής με - βαθμούς ελευθερίας Διάστημα εμπιστοσύνης για το Κανόνας απόρριψης: 95% Δ.Ε. του Απόφαση H απορρίπτεται Απόρριψη της H αν το Δ.Ε. του β δεν περιέχει την τιμή. t, a / = 5 ± 3.8(.8) = 5 ± 3.44 ή.56 έως 8.44 55 56 Έλεγχος Καλής Προσαρμογής: F Έλεγχος Υποθέσεις Στατιστική ελέγχου H : H a : Το υπόδειγμα δεν έχει καλή προσαρμογή Το υπόδειγμα έχει καλή προσαρμογή MSR SSR /( k ) F MSE SSE /( k ) Έλεγχος Καλής Προσαρμογής: F Έλεγχος Κατανομή δειγματοληψίας της στατιστικής F MSR SSR /( k ) R /( k ) ~ Fk (, k) MSE SSE /( k) ( R )/( k) (x) k = πλήθος εκτιμώμενων παραμέτρων (k= στην Α.Γ.Π.) MSR = Μέσο άθροισμα τετραγώνων παλινδρόμησης = SSR / (β.ε. παλινδρόμησης) = SSR / (πλήθος ανεξάρτητων μεταβλητών) Στην απλή γραμμική παλινδρόμηση MSR = SSR 57 Κατανομή F με k- β.ε τουαριθμητή - k β.ε. του παρονομαστή F(k-,-k) MSR = SSR στην Α.Γ.Π 58 Έλεγχος Καλής Προσαρμογής: F Έλεγχος Κανόνας Απόρριψης όπου: F α Απόρριψη της H αν p-τιμή < α ή F > F α η κριτική τιμή της F κατανομής με β.ε τουαριθμητή(k- = - =) και - β.ε. του παρονομαστή (-k = -) Έλεγχος Καλής Προσαρμογής: F Έλεγχος (x) α F α (,-) F(,-) Δεξιόπλευρος έλεγχος: Για δεδομένο επίπεδο σημαντικότητας α η μηδενική υπόθεση Η θα απορρίπτεται όταν η F ξεπερνά μια κριτική τιμή, δηλαδή όταν F F α (,-). Μικρότερα α αντιστοιχούν σε μεγαλύτερες τιμές του R και μεγαλύτερες κριτικές τιμές. Δίνει το ίδιο αποτέλεσμα με τον t-έλεγχο 59 6 Χ. Εμμανουηλίδης, cemma@eco.auth.gr
Έλεγχος Καλής Προσαρμογής: F Έλεγχος Παράδειγμα πωλήσεων αυτοκινήτων. Εξειδίκευση Υποθέσεων. H : H a :. Καθορισμός επιπέδου σημαντικότητας. 3. Στατιστική ελέγχου. 4. Κανόνας απόρριψης. F = MSR/MSE α =.5 Απόρ. H αν η p-τιμή <.5 ή F >.3 (με και 3 β.ε.) Έλεγχος Καλής Προσαρμογής: F Έλεγχος 5. Τιμή της στατιστικής ελέγχου. F = MSR/MSE = /4.667 =.43 6. Απόφαση για την H. Η τιμή F =.43 >.3. Απορρίπτουμε την H. ή Ακόμη η p-τιμή =.7 <.5. Απορρίπτουμε την H. Υπάρχει ένδειξη στατιστικά σημαντικής γραμμικής σχέσης ανάμεσα στον αριθμό των TV σποτ και στις πωλήσεις. 6 6 Παρατηρήσεις Στατιστικά σημαντικές συσχετίσεις δε σημαίνουν αιτιακή σχέση. Στατιστικά σημαντικά αποτελέσματα δεν σημαίνουν απαραίτητα πως η σχέση των Χ και Υ είναι γραμμική. Μπορεί να είναι μη γραμμική με κάποια γραμμική συνιστώσα. Στατιστικά σημαντικά αποτελέσματα μπορεί να μην έχουν ουσιαστική σημασία αν το μέγεθος των επιδράσεων είναι τετριμμένο (πολύ μικρό). Αποτελέσματα που δεν είναι στατιστικά σημαντικά μπορεί να έχουν ουσιαστική σημασία αν το μέγεθος των επιδράσεων είναι μεγάλο. 63 Εκτίμηση αναμενόμενης τιμής της Υ E( Y ) Y Διάστημα εμπιστοσύνης ( α)% για την Ε(Υ ) Y t όπου,, a/ και u, 64 Εκτίμηση μιας μεμονωμένης τιμής της Υ πρόβλεψη της Υ EY ( ) Y Διάστημα εμπιστοσύνης ( α)% για την πρόβλεψη της Υ Y t όπου Y, a/ Y, η διακύμανση της πρόβλεψης Τώρα η αβεβαιότητα είναι μεγαλύτερη καθώς συνυπολογίζεται και ο διαταρακτικός όρος u : το σφάλμα πρόβλεψης Y Y εξαρτάται και από το u 65 Συνεπώς, Y, Y u e Y Y u Ee ( ) και με αλγεβρικές πράξεις Var( e ) Var( Y ) δηλαδή η πρόβλεψη είναι αμερόληπτη κάτω από τις παραδοχές OLS Y, Το Δ.Ε. για την πρόβλεψη είναι μεγαλύτερο από αυτό για την αναμενόμενη τιμή 66 Χ. Εμμανουηλίδης, cemma@eco.auth.gr
Το Δ.Ε. για την πρόβλεψη είναι μεγαλύτερο από αυτό για την αναμενόμενη τιμή 99% Δ.Ε. για τις προβλέψεις 99% Δ.Ε. για τις εκτιμήσεις (αναμενόμενες τιμές) Οι προβλέψεις έχουν μικρότερη διακύμανση όταν: Η διακύμανση του διαταρακτικού όρου είναι μικρότερη, Το δείγμα είναι μεγαλύτερο Ητιμήτης είναι κοντά στο δειγματικό μέσο 67 Παράδειγμα πωλήσεων αυτοκινήτων Σημειακή εκτίμηση πωλήσεων: Αν ο αριθμός των TV σποτ είναι 3, η αναμενόμενη μ τιμή των πωλήσεων είναι Y 53 5 68 Παράδειγμα βάρους Διάστημα εμπιστοσύνης (codece terval) για τις αναμενόμενες πωλήσεις: 3,, 5, 6.6 4,,.449, / 69 Παράδειγμα βάρους Διάστημα εμπιστοσύνης για τις αναμενόμενες πωλήσεις : 95% Δ.Ε. : α =.5 Y t t a / t3,. 5, a /,. 3 8 5 3.8.449 5 4.68 δηλ..39, 9.6 7 Παράδειγμα βάρους Διάστημα πρόβλεψης (predcto terval) για τις πωλήσεις: 3,, 5,.6 6 4,,.63 Y, / 7 Παράδειγμα βάρους Διάστημα πρόβλεψης για τις πωλήσεις: 95% Δ.Π. : α =.5 Y t t a / t3,. 5, a/ Y,. 3 8 5 3.8.63 5 8.785 δηλ. 6.7,33.8 7 Χ. Εμμανουηλίδης, cemma@eco.auth.gr
73 74 75 76 77 78 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 3
79 8 8 8 83 84 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 4
85 86 87 88 89 9 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 5
9 9 Τέλος Ενότητας Εφαρμοσμένη Στατιστική, Τμήμα Ο.Ε. ΑΠΘ Χ. Εμμανουηλίδης, cemma@eco.auth.gr 93 Χ. Εμμανουηλίδης, cemma@eco.auth.gr 6