ιαφάνειες ιαλέξεων - Εφαρµοσµένη Στατιστική Έρευνα AΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟ ΕΙΓΜΑ Tο ο Απλό Γραµµικό Υπόδειγµα Παράδειγµα Συγκέντρωση όζοντος στη Ν. Υόρκη. εδοµένα ηµερών (Μάιος Σεπτ. 973) ozoe (Y) Συγκέντρωση όζοντος (ppb) rad () Ηλιακή ακτινοβολία (lagleys) temp () Μέγιστη ηµερ.θερµοκρασία ( F) wd () Ταχύτητα ανέµου (mph) Γραµµική σχέσηανάµεσα στην Υ και την Χ? Παράδειγµα Παράδειγµα: ιαγράµµατα διασποράς () 5 6 7 8 9 5 5 3 rad 9 8 temp 7 6 5 5 wd 5 5 5 ozoe 3 3 5 5 4 Απλό γραµµικό υπόδειγµα Απλό γραµµικό υπόδειγµα Με το απλό γραµµικό υπόδειγµα παλινδρόµησης εκτιµούµε µια γραµµική (ως προς τις παραµέτρους) σχέση ανάµεσα σε δύο ποσοτικές µεταβλητές Χ («ανεξάρτητη µεταβλητή») και Υ («εξαρτηµένη µεταβλητή»). Η ανεξάρτητη µεταβλητή Χ συνήθως είναι υπό τον έλεγχο του ερευνητή. Στόχος είναι να µελετήσουµε πώς οι (συνήθως ελεγχόµενες) µεταβολές των τιµών της Χεπιδρούν γραµµικά στις τιµές που παίρνει η Υ, δηλ. πώς «η Υ εξαρτάται γραµµικά από την Χ» Με ένα εκτιµηµένο γραµµικό µοντέλο για την σχέση των Χ και Υ µπορούµε να: εξετάσουµε στατιστικά αν υπάρχει γραµµική σχέση ανάµεσα στις Χ,Υ διεξάγουµε προβλέψεις των τιµών της Υ δεδοµένης της τιµής της Χ Η Συνάρτηση Παλινδρόµησης στον Πληθυσµό Y β + β + u β Y β u τοµή της ευθείας µε τον άξονα των Υ σχέση µεταξύ της εξαρτηµένης και της ανεξάρτητης µεταβλητής στον πληθυσµό. κλίση της ευθείας παλινδρόµησης διαταρακτικός όρος ή σφάλµα,..., 5 6 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης PDF processed wth CutePDF evaluato edto www.cutepdf.com
ιαφάνειες ιαλέξεων - Η Συνάρτηση Παλινδρόµησης στον Πληθυσµό E Y ( Y ) β E( Y ) Y β + β + u + u + β ειγµατική Συνάρτηση Παλινδρόµησης Περιγράφει τη σχέση ανάµεσα στην εξαρτηµένη και την ανεξάρτητη µεταβλητή στο δείγµα Απαιτεί την εκτίµησητων παραµέτρων του υποδείγµατος (τοµή και κλίση) από τα δειγµατικά δεδοµένα, β, β, Y β + β + β + β Οι εκτιµήσεις των αντίστοιχων ποσοτήτων ή 7 8 Η Συνάρτηση Παλινδρόµησης στον Πληθυσµό και οι ειγµατικές Παρατηρήσεις Οι συναρτήσεις παλινδρόµησης: (α) στον πληθυσµό και (β) στο δείγµα ειγµατική συνάρτηση παλινδρόµησης Συνάρτηση παλινδρόµησης στον πληθυσµό 9 Παραδοχές του κλασσικού υποδείγµατος παλινδρόµησης Είναι ιδανικές µαθηµατικές συνθήκες που εξασφαλίζουν πως οι εκτιµηµένες παράµετροι είναι: (α) αµερόληπτοι (ubased) (β) συνεπείς (cosstet), και (γ) πιο αποτελεσµατικοί (ecet) δηλαδή έχουν την µικρότερη διακύµανση -από κάθε άλλον γραµµικό αµερόληπτο εκτιµητή. Παραδοχή η: γραµµικότητα Η σχέση ανάµεσα στην εξαρτηµένη και την ανεξάρτητη µεταβλητή είναι γραµµική: Y β + β + u ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -3 Παραδοχή η: Το σφάλµα uέχει µέση τιµή. E(u) Παραδοχή 3η: Οµοσκεδαστικότητα Τα σφάλµατα σε κάθε παρατήρηση έχουν σταθερή και ίση διακύµανση : E( u ) var ( u ) σ Επίπτωση: E( Y ) β + β Επίπτωση: var ( Y) σ, ανεξάρτητα των τιµών Χ 3 4 Οµοσκεδαστικά και ετεροσκεδαστικά σφάλµατα Παραδοχή 4η: Απουσία αυτοσυσχέτισης Τα σφάλµατα µεταξύ παρατηρήσεων είναι ανεξάρτητα corr ( u, u ) ή cov( u, u ), j j j δεν είναι στοχαστικά, cov( Y, Y ) Επίπτωση: Αφού τα Χ δεν είναι στοχαστικά, j Θετική αυτοσυσχέτιση ης τάξεως Αρνητική αυτοσυσχέτιση ης τάξεως Οµοσκεδαστικά σφάλµατα Ετεροσκεδαστικά σφάλµατα 5 6 Παραδοχή 5η: Κανονικότητα σφάλµατος Παραδοχή 5η: Κανονικότητα σφάλµατος Ο διαταρακτικός όρος (σφάλµα) ακολουθεί την κανονική κατανοµή u ~ N (, σ ) Κατανοµή τουyδεδοµένου τουx β β Επίπτωση: Αφού το Υείναι γραµµική συνάρτηση των u τότε Y ~ N E( Y ), σ ( ) x x x 3 x 4 όπου E( Y ) β + β 7 8 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -4 Παραδοχή 6η: Μη στοχαστικά Οι τιµές δεν είναι στοχαστικές (µητυχαίες ή πλήρως προσδιορισµένες) Συχνές παραβιάσεις: Σφάλµατα µέτρησης Ενδογενείς µεταβλητές Η παραδοχή αυτή εξασφαλίζει πως η συνδιακύµανση ανάµεσα στην ανεξάρτητη µεταβλητή και στο σφάλµα είναι µηδέν. cov (, u ) Παραβίαση της 6ης Παραδοχής Εκτιµηµένη σχέση Πραγµατική σχέση 9 Παραδοχή 7η µεταβλητότητα στην Υπάρχει κάποιος βαθµός µεταβλητότητας στην ανεξάρτητη µεταβλητή (). Εκτίµηση ελαχίστων τετραγώνων (OLS estmato) Εκτίµηση µε τη συνήθη µέθοδο ελαχίστων τετραγώνων: β β Επιλογή των και ώστε να ελαχιστοποιείται το άθροισµα των τετραγώνων των καταλοίπων (ή σφαλµάτων εκτίµησης, SSE) ( ) ( β ) β SSE u Y Y Y,,, SSE SSE και β β Εκτίµηση ελαχίστων τετραγώνων (OLS estmato) Εκτίµηση µε τη συνήθη µέθοδο ελαχίστων τετραγώνων: ι, ι, ( Y β β ) SSE - β ( β β ) SSE - Y β Κανονικές εξισώσεις: (ένα σύστηµα δύο εξισώσεων) Y β + β ι, ι, Y β + β ι, ι, ι, Εκτιµητές ελαχίστων τετραγώνων (OLS estmators) Από τις κανονικές εξισώσεις µε λίγη άλγεβρα: β ( ( Y Y ), ( ), β Y β 3 4 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -5 Ιδιότητεςεκτιµητών ελαχίστων τετραγώνων Κάτω από τις συνθήκες του κλασικού γραµµικού υποδείγµατος οι εκτιµητές OLS είναι: αµερόληπτοι συνεπείς ελάχιστης διακύµανσης Ισχύει: ιακύµανση του εκτιµητή του συντελεστή τοµής var ( β ) E( β β ) σ +, ηλαδή είναι: βέλτιστοι γραµµικοί αµερόληπτοι εκτιµητές (BLUE) (Θεώρηµα Gauss-Markov) 5 Εκτίµηση του σ :, σ Συνεπώς: var ( ) β σ β + ), 6 Ισχύει: ιακύµανση του εκτιµητή του συντελεστή κλίσης var ( β ) E( β β ), σ Συνεπώς: var ( ) β β σ ), Συνδιακύµανση των συντελεστών τοµής και κλίσης cov ( β, β ) ), 7 8 Παράδειγµα Εκτιµηµένη Εξίσωση Παλινδρόµησης Παράδειγµα: Πωλήσεις Αυτοκινήτων Αριθµός Πωλήσεις TV σϖοτ (Χ) Αυτοκινήτων (Υ) 3 3 4 4 8 7 7, Y sales 6 6 3 tvspots Κλίση της εξίσωσης ( ) β ( Y Y), β 5 4, 4.667 var β σ.68 β 4 ),.68.8, 4 4.667 σ 3 9 3 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -6 Εκτιµηµένη Εξίσωση Παλινδρόµησης y-τοµή της εξίσωσης β Y β 5() ( var β) 4.667 5.6 β + + ) 4 5, 5.6.366 β Εκτιµηµένη εξίσωση παλινδρόµησης + 5 (.366) (.8) (τυπικά σφάλµατα των εκτιµήσεων) 3 sales 6 6 ιάγραµµα διασποράς και ευθεία παλινδρόµησης..5..5 3. tvspots 5+ 3 Aνάλυση µεταβλητότητας της y Ανάλυση µεταβλητότηταςτης y: y y + Με λίγη άλγεβρα προκύπτει η σχέση για τη µεταβλητότητα της y ( y ) ( ) ( y y y + y y) Εξηγούµενη και µη εξηγούµενη µεταβλητότητα SST SSR + SSE (µη εξηγούµενη µεταβ.) (εξηγούµενη µεταβλητότητα) (συνολική µεταβλητότητα) SST ολικό άθροισµα τετραγώνων (µεταβλητότητα της y) SSR άθροισµα τετραγώνων παλινδρόµησης (µεταβλητότητα που ερµηνεύεται από την παλινδρόµηση) SSE άθροισµα τετραγώνων καταλοίπων (µεταβλητότητα που δεν ερµηνεύεται) y y κατάλοιπα (resduals) ή σφάλµατα εκτίµησης 33 34 Συντελεστής Προσδιορισµού R O συντελεστής προσδιορισµού είναι: R SSR/SST όπου: SSR άθροισµα τετραγώνωνπαλινδρόµησης SST ολικό άθροισµα τετραγώνων Συντελεστής Προσδιορισµού R R SSR/SST /4.877 Περίπου 88% της µεταβλητότητας των πωλήσεων ερµηνεύεταιγραµµικάαπό από τον αριθµό των TV σποτ. Μεγάλη ερµηνευτική ικανότητα της εξίσωσης παλινδρόµησης Εύρος τιµών: R Εκφράζει το ποσοστό (αναλογία) της µεταβλητότητας της y που ερµηνεύεταιαπό από την x. 35 36 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -7 R R εξηγούµενη µεταβλητότητα συνολική µεταβλητότητα µη εξηγούµενη µεταβλητότητα συνολική µεταβλητότητα 37 38 Παρατηρήσεις για το R Ο R υπολογίζεται ως SSR/SST µόνο αν υπάρχει ο συντελεστής τοµής στο υπόδειγµα παλινδρόµησης Το R δεν είναι στατιστική συνάρτηση που να µπορεί να χρησιµοποιηθεί απευθείας για έλεγχο υποθέσεων Αν η διαδικασία που γεννά τα δεδοµένα είναι σε µεγάλο βαθµό τυχαία, τότε το R θα είναι µικρό, ακόµη και όταν το υπόδειγµα έχει εξειδικευτεί σωστά Το R είναι µέτρο συσχέτισης και όχι αιτιότητας r r r ειγµατικός Συντελεστής Συσχέτισης xy xy xy όϖου: s s Y r xy s β s Y τυϖική αϖόκλιση των τιµών της Χ τυϖική αϖόκλιση των τιµών της Υ > θετική γραµµική σχέση ανάµεσα στις Χ και Υ < αρνητική γραµµική σχέση ανάµεσα στις Χ και Υ απουσία γραµµικής σχέσης ανάµεσα στις Χ και Υ 39 4 ειγµατικός Συντελεστής Συσχέτισης ειγµατικός Συντελεστής Συσχέτισης xy ( πρ σηµο β) r ό R όϖου: β κλίση της εκτιµηµένης εξίσωσης ϖαλινδρόµησης β + βχ Θετικό ϖρόσηµο τουβ στην β 5 s s 5.339 Y ( πρ σηµο β) r xy 5.9366 5.339 s β s rxy ό R xy Y r xy.877 r.9366 xy r y + 5 x 4 4 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -8 Έλεγχοι Σηµαντικότητας ΕΛΕΓΧΟΙ ΣΗΜΑΝΤΙΚΟΤΗΤΑΣ Για να ελέγξουµε τη σηµαντικότητα µιας εξίσωσης ϖαλινδρόµησης διεξάγουµε στατιστικό έλεγχο για την υϖόθεση Η : β. Τύϖοι ελέγχων: t - έλεγχος και F - έλεγχος Και οι δύο έλεγχοι αϖαιτούν µια εκτίµηση του σ, της διακύµανσης του διαταρακτικού όρου u. 43 44 Έλεγχοι Σηµαντικότητας Έλεγχοι Σηµαντικότητας Μια εκτίµηση του σ Το µέσο τετραγωνικό σφάλµα (mea square error - MSE) είναι µια εκτίµηση του σ. Συµβολίζεται και ωςs. όϖου: ( ) s MSESSE SSE ( Y ) ( Y β β ) Μια εκτίµηση του σ Τυπικό σφάλµα της εκτίµησης (stadard error o estmate) SSE, s MSE 45 46 Παραδοχή Κανονικότητας Κάθε γραµµικός συνδυασµός κανονικά κατανεµηµένων τ.µ. ακολουθεί την κανονική κατανοµή. Αν ο διαταρακτικός όρος ακολουθεί την κανονική κατανοµή, οι εκτιµητές των συντελεστών κλίσης και τοµής θα είναι και αυτοί κανονικά κατανεµηµένοι (επειδή είναι γραµµικοί εκτιµητές): β ( ) ~ N β, σβ N β, σ + ( ), β ~ N ( β, σ ) β Nβ, σ ( ), 47 Μη κανονικά σφάλµατα και µεγάλα δείγµατα Αν ο διαταρακτικός όρος δεν ακολουθεί την κανονική κατανοµή, από το κεντρικό οριακό θεώρηµα προκύπτει ότι οι συντελεστές τοµής και κλίσης συγκλίνουν σεµια κανονική κατανοµή όσο το µέγεθος του δείγµατος τείνει στο άπειρο (δηλαδήασυµπτωτικά) 48 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -9 Η t -στατιστική Η στατιστική Ζ κατανέµεται ως β j β j Z ~ N,, σ β j ( ) j, Αφού το σ είναι άγνωστο, χρησιµοποιούµε την t στατιστική: β j β j t ~ t, σ β j j, Παρατηρείστε ότι οι βαθµοί ελευθερίας της κατανοµής t- studetείναι (αριθµός εκτιµώµενων παραµέτρων) 49 Υποθέσεις Έλεγχοι Σηµαντικότητας : t Έλεγχος Στατιστική Ελέγχου β ) H : β H : β a β t β Τυπική απόκλιση του β 5 Έλεγχοι Σηµαντικότητας : t Έλεγχος Κανόνας Απόρριψης Απόρριψη της H αν p-τιµή <α ή αν t < -t -,α/ ή t > t -,α/ όπου: t -,α/ η κριτική τιµή της t - κατανοµής µε - βαθµούς ελευθερίας 5 Έλεγχοι Σηµαντικότητας : t Έλεγχος Παράδειγµα πωλήσεων αυτοκινήτων. Εξειδίκευση Υποθέσεων. β t H : β H α : β. Καθορισµός επιπέδου σηµαντικότητας. 3. Στατιστική ελέγχου. 4. Κανόνας απόρριψης. σ β α.5 Απόρ. H αν p-τιµή <.5 ή t 3.8 (µε 3 β.ε.) 5 Έλεγχοι Σηµαντικότητας : t Έλεγχος ιάστηµα εµπιστοσύνης για τοβ 5. Τιµή της στατιστικής ελέγχου. β 5 t 4. 63. 8 σ β 6. Αϖόφαση για την H. Μπορούµε να χρησιµοποιήσουµε το 95%.Ε. τουβ για τον έλεγχο της προηγούµενης υπόθεσης. Η υπόθεση H απορρίπτεται αν η υποτιθέµενη τιµή του β είναι εκτός του.ε. για το β. Η τιµή t 4.54 αντιστοιχείσε σε εµβαδόν. στην δεξιά ουρά της κατανοµής. Άραη p-τιµή είναι κάτω από.. (Επίσης, t 4.63 > 3.8.) Απορρίπτουµε την H. 53 54 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων - ιάστηµα εµπιστοσύνης για το β ιάστηµα εµπιστοσύνης για το β (-α)%.ε. για το β : Κανόνας απόρριψης: Απόρριψη της H αν το.ε. του β δεν περιέχει την τιµή. όπου: t -,,α/ β ± t, a/ β α/ η κριτική τιµή της t - κατανοµής µε - βαθµούς ελευθερίας 95%.Ε. τουβ β Απόφαση ± t, a / σ β 5 ± 3.8(.8) 5 ± 3.44 ή.56 έως 8.44 H απορρίπτεται 55 56 Υποθέσεις Έλεγχος ΚαλήςΠροσαρµογής: F Έλεγχος Στατιστική ελέγχου H : β H α : β Το υπόδειγµα δεν έχει καλή προσαρµογή Το υπόδειγµα έχει καλή προσαρµογή MSR SSR / ( k ) F MSE SSE / ( k ) Έλεγχος ΚαλήςΠροσαρµογής: F Έλεγχος Κατανοµή δειγµατοληψίας της στατιστικής F MSR SSR / ( k ) R / ( k ) F ~ F( k, k) MSE SSE / ( k) ( R ) / ( k) (x) k πλήθος εκτιµώµενων παραµέτρων (k στην Α.Γ.Π.) MSR Μέσο άθροισµα τετραγώνων παλινδρόµησης SSR / (β.ε. παλινδρόµησης) SSR / (πλήθος ανεξάρτητων µεταβλητών) Στην απλή γραµµική παλινδρόµηση MSR SSR 57 Κατανοµή Fµε k- β.ε του αριθµητή - k β.ε. του παρονοµαστή F(k-,,-k) MSR SSR στην Α.Γ.Π. 58 Έλεγχος ΚαλήςΠροσαρµογής: F Έλεγχος Έλεγχος ΚαλήςΠροσαρµογής: F Έλεγχος (x) Κανόνας Απόρριψης Απόρριψη της H αν p-τιµή <α ή F > F α όπου: F α η κριτική τιµή της F κατανοµής µε β.ε του αριθµητή (k- - ) και - β.ε. του παρονοµαστή (-k k -) 59 F α(k-,-) α F(k-,-) εξιόπλευρος έλεγχος: Για δεδοµένο επίπεδο σηµαντικότητας α η µηδενική υπόθεση Η θα απορρίπτεται ότανηfξεπερνά µια κριτική τιµή, δηλαδή όταν F F α (k-,-). Μικρότερα α αντιστοιχούν σε µεγαλύτερες τιµές του R και µεγαλύτερες κριτικέςτιµές. ίνει το ίδιο αποτέλεσµα µε τον t-έλεγχο 6 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων - Έλεγχος ΚαλήςΠροσαρµογής: F Έλεγχος Παράδειγµα πωλήσεων αυτοκινήτων. Εξειδίκευση Υποθέσεων. H : β H α : β. Καθορισµός επιπέδου σηµαντικότητας. 3. Στατιστική ελέγχου. 4. Κανόνας απόρριψης. F MSR/MSE α.5 Απόρ. H αν η p-τιµή <.5 ή F >.3 (µε και 3 β.ε.) Έλεγχος ΚαλήςΠροσαρµογής: F Έλεγχος 5. Τιµή της στατιστικής ελέγχου. F MSR/MSE /4.667.43 6. Αϖόφαση για την H. Η τιµή F.43 >.3.. Απορρίπτουµε την H. ή Ακόµη η p-τιµή.9 <.5. Απορρίπτουµε την H. Υπάρχει ένδειξη στατιστικά σηµαντικής γραµµικής σχέσης ανάµεσα στον αριθµό των TV σποτκαι στις πωλήσεις. 6 6 Παρατηρήσεις Στατιστικά σηµαντικές συσχετίσεις δε σηµαίνουν αιτιακή σχέση. Στατιστικά σηµαντικά αποτελέσµατα δεν σηµαίνουν απαραίτητα πως η σχέση των Χ και Υ είναι γραµµική. Μπορεί να είναι µη-γραµµική µε κάποια γραµµική συνιστώσα. Στατιστικά σηµαντικά αποτελέσµατα µπορεί να µην έχουν ουσιαστική σηµασία αν το µέγεθος των επιδράσεων είναι τετριµµένο (πολύ µικρό). Αποτελέσµατα που δεν είναι στατιστικά σηµαντικά µπορεί να έχουν ουσιαστική σηµασία αν το µέγεθος των επιδράσεων είναι µεγάλο. 63 Εκτίµηση αναµενόµενης τιµής της Υ ιάστηµα εµπιστοσύνης (-α)%για την Ε(Υ ) όπου σ σ + ( ) β + β E Y Y ± t ( ( ),, a/ και, σ 64 Εκτίµηση µιας µεµονωµένης τιµής της Υ πρόβλεψητης Υ ( ) β + β E Y Y ιάστηµα εµπιστοσύνης (-α)%για τηνπρόβλεψητης Υ ± t, a/ Συνεπώς, β + β, Y β + β + u ( β β) ( β β) e Y + u ( ) E e δηλαδή η πρόβλεψη είναι αµερόληπτη κάτω από τις παραδοχές OLS όπου ( + + ( ) σ, η διακύµανση της πρόβλεψης και µε αλγεβρικές πράξεις Var e Var Y σ + + σ ( ) ( ) ( ( ), Τώρα η αβεβαιότητα είναι µεγαλύτερη καθώς συνυπολογίζεται και ο διαταρακτικός όρος u : το σφάλµα πρόβλεψης Y εξαρτάται και από το u 65 Το.Ε. για την πρόβλεψη είναι µεγαλύτερο από αυτό για την αναµενόµενη τιµή 66 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων - Το.Ε. για την πρόβλεψη είναι µεγαλύτερο από αυτό για την αναµενόµενη τιµή 99%.Ε. για τις προβλέψεις 99%.Ε. για τις εκτιµήσεις (αναµενόµενες τιµές) Παράδειγµα πωλήσεων αυτοκινήτων Σηµειακή εκτίµηση πωλήσεων: Αν τρέξουµε 3 TV-σποτς, η αναµενόµενη τιµή του αριθµού των αυτοκινήτων που πωλούνται είναι β + β + 5 3 5 Οι προβλέψεις έχουν µικρότερη διακύµανση όταν: Η διακύµανση του διαταρακτικού όρου είναι µικρότερη, Το δείγµα είναι µεγαλύτερο Ητιµήτης είναι κοντά στο δειγµατικό µέσο 67 68 Παράδειγµα πωλήσεων αυτοκινήτων ιάστηµα εµπιστοσύνης (codece terval)για τις αναµενόµενες πωλήσεις: 3,, 5,.6 ) ( ), 4, ( σ +.449, / Παράδειγµα πωλήσεων αυτοκινήτων ιάστηµα εµπιστοσύνης για τις αναµενόµενες πωλήσεις: 95%.Ε. : α.5 ± t, a/ t a / t3,. 5,. 3 8 5± 3.8.449 5± 4.68 (.39,9.6) 69 7 Παράδειγµα πωλήσεων αυτοκινήτων ιάστηµα πρόβλεψης (predcto terval) για τις πωλήσεις: 3,, 5,.6 ) ( ), 4, (.63 Y + + ), / Παράδειγµα πωλήσεων αυτοκινήτων ιάστηµα πρόβλεψης για τις πωλήσεις: 95%.Π. : α.5 ± t, a/ t a / t3,. 5,. 3 8 5± 3.8.63 5± 8.785 (6.7,33.8) 7 7 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -3 Παραβιάσεις Παραδοχών Παραβιάσεις Παραδοχών Γραµµικότητα Επιπτώσεις: µεροληψία και ασυνέπεια εκτιµητών και τυπικών σφαλµάτων, µεροληπτικές προβλέψεις ιδιαίτερα εκτός εύρους παρατηρούµενων τιµών Ανίχνευση: ιάγραµµα διασποράς (α) παρατηρούµενων τιµών - προβλέψεων και (β) σφαλµάτων προβλέψεων Αντιµετώπιση: Κατάλληλος µη-γραµµικός µετασχηµατισµός της εξαρτηµένης ή/και ανεξάρτητων µεταβλητών Ανεξαρτησία (σε υποδείγµατα χρονοσειρών ) Είναι µερικές φορές αποτέλεσµα λανθασµένης εξειδίκευσης της συναρτησιακής µορφής της εξίσωσης (π.χ. λόγω µη-γραµµικότητας) Επιπτώσεις: Μεροληψία στην εκτίµηση των διακυµάνσεων των συντελεστών κλίσεως, µη αποτελεσµατικοί εκτιµητές παραµέτρων Ανίχνευση: ιάγραµµα αυτοσυσχετίσεων των σφαλµάτων, έλεγχος Durb-Watso για AR(), άλλοι έλεγχοι (Breusch-Godrey, Rus, Box-Perce, κ.α.) Αντιµετώπιση: Προσθήκη υστερήσεων της εξαρτηµένης ή/και ανεξάρτητων µεταβλητών, χρήση διαφορών κάποιας τάξης ( ης, ης κ.ο.κ - derecg), εξειδίκευση ARMA ARIMA,αλλαγή συναρτησιακής µορφής, άλλες µέθοδοι εκτίµησης (Feasble GLS) 73 74 Παραβιάσεις Παραδοχών Παραβιάσεις Παραδοχών Οµοσκεδαστικότητα Είναι µερικές φορές αποτέλεσµα λανθασµένης εξειδίκευσης της συναρτησιακής µορφής της εξίσωσης ή/και αυτοσυσχέτισης Επιπτώσεις: µεροληψία και ασυνέπεια τυπικών σφαλµάτων εκτιµητών, µη αποτελεσµατικότητα εκτιµητών και συνεπώς πρόβληµα στην διεξαγωγή ελέγχων σηµαντικότητας και κατασκευή διαστηµάτων εµπιστοσύνης για τις προβλέψεις Ανίχνευση: ιάγραµµα διασποράς (α) σφαλµάτων προβλέψεων και (β) σφαλµάτων χρόνου (για χρονοσειρές). Έλεγχοι (π.χ. έλεγχος Whte) Αντιµετώπιση: Κατάλληλος µη-γραµµικός µετασχηµατισµός της εξαρτηµένης µεταβλητής που σταθεροποιεί τη διακύµανση των σφαλµάτων (varace stablsg trasormato) π.χ. λογάριθµος, τετραγωνική ρίζα, αντιστροφή /Υ, κ.ά. Εκτίµηση GLS µε κατάλληλη εξειδίκευση του πίνακα διακύµανσης-συνδιακύµανσης Κανονικότητα Είναι συνήθως αποτέλεσµα µη-κανονικότητας της κατανοµής της εξαρτηµένης ή/και ανεξάρτητων µεταβλητών, µη-γραµµικότητας ή παρουσίας ακραίων τιµών. Επιπτώσεις: µεροληψία και ασυνέπεια τυπικών σφαλµάτων εκτιµητών, µη αποτελεσµατικότητα εκτιµητών και συνεπώς πρόβληµα στην διεξαγωγή ελέγχων σηµαντικότητας και κατασκευή διαστηµάτων εµπιστοσύνης για τις προβλέψεις Ανίχνευση: ιάγραµµα Kανονικής Πιθανότητας (Normal probablty plot). Ανίχνευση παρατηρήσεων υψηλής µόχλευσης. Έλεγχοι (π.χ. έλεγχος Kolmogorov-Smrov) Αντιµετώπιση: Κατάλληλος µη-γραµµικός µετασχηµατισµός της εξαρτηµένης ή και ανεξάρτητων µεταβλητών. Αποκοπή ακραίων σηµείων αν αυτά προκύπτουν από σφάλµατα συλλογής ή καταγραφής. 75 76 Ανάλυση καταλοίπων για τον έλεγχο της ισχύος των παραδοχών για το u Αν οι παραδοχές (assumptos) για τον διαταρακτικό όρο δεν είναι βάσιµες, τότε οι έλεγχοι υποθέσεων για τη σηµαντικότητα της εξίσωσης παλινδρόµησης και τα διαστήµατα εµπιστοσύνης και πρόβλεψης δεν είναι αξιόπιστα Τα κατάλοιπα παρέχουν την καλύτερη πληροφορία για τον διαταρακτικό όρο u Κατάλοιπο της -παρατήρησης u Y Γράφηµα καταλοίπων έναντι της Χ Αν η παραδοχή της οµοσκεδαστικότητας του διαταρακτικού όρου είναι βάσιµη, και αν το γραµµικό υπόδειγµα είναι µια καλή προσέγγιση της σχέσης των Χ και Υ, τότε Το γράφηµα των καταλοίϖων έναντι των τιµών της Χ θα ϖρέϖει να κατανέµονται ϖερίϖου γύρω αϖό µια µϖάντα ϖαράλληλη στον άξονα των Χ Η ανάλυση καταλοίπων σε µεγάλο βαθµό βασίζεται στην εξέταση γραφηµάτων των καταλοίπων ως συνάρτηση της επεξηγηµατικής µεταβλητής Χ (ή των εκτιµηµένων τιµών της Y) 77 78 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -4 Γράφηµα καταλοίπων έναντι της Χ Γράφηµα καταλοίπων έναντι της Χ Εϖιθυµητή κατάσταση Ετεροσκεδαστικά κατάλοιϖα Κατάλοιϖα Κατάλοιϖα Χ Χ 79 8 Γράφηµα καταλοίπων έναντι της Χ Γράφηµα καταλοίπων έναντι της Χ Ακατάλληλη συναρτησιακή σχέση Γραµµική σχέση µε ασυνήθιστη ϖαρατήρηση Κατάλοιϖα Κατάλοιϖα Γραµµικά κατάλοιϖα ϖου εξισορροϖούν την ασυνήθιστη ϖαρατήρηση Χ Χ 8 8 Κανονικότητα των καταλοίπων Κανονικότητα των καταλοίπων Αναµενόµενη Αθροιστική Πιθανότητα Normal Probablty Plot Παρατηρούµενη Αθροιστική Πιθανότητα z u Έλεγχος καλής προσαρµογής Kolmogorov Smrov (KS-test) H : Τα δεδοµένα ακολουθούν την συγκεκριµένη κατανοµή Η : Τα δεδοµένα δεν ακολουθούν την συγκεκριµένη κατανοµή z u Συγκρίνει τις παρατηρούµενες σχετικές αθροιστικές συχνότητες µε αυτές που αναµένονται µε βάση την κατανοµή της µηδενικής υπόθεσης Για τον έλεγχο κανονικότητας των καταλοίπων συγκρίνεται η παρατηρούµενη αθροιστική κατανοµή τους µε την τυπική κανονική κατανοµή: H : Z ~ N(, ) u 83 84 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -5 Αναγνώριση ασυνήθιστων παρατηρήσεων Αναγνώριση παρατηρήσεων µε υψηλή επιρροή Οι ασυνήθιστες παρατηρήσεις (outlers) outlers)είναι σηµεία µακριά από την ευθεία παλινδρόµησης Στην απλή παλινδρόµηση φαίνονται στο διάγραµµα διασποράς, καθώς και στα διαγράµµατα καταλοίπων. Οι z-τιµές των καταλοίπων µπορούν να χρησιµοποιηθούν για την αναγνώρισή τους. Κατάλοιπα µε απόλυτες z-τιµές >.96 µπορούν να θεωρηθούν ως ασυνήθιστες παρατηρήσεις. Είναι παρατηρήσεις µε σηµαντική επίδραση στους συντελεστές της παλινδρόµησης (luetal observatos). Μπορεί να είναι ασυνήθιστες παρατηρήσεις (outlers) outlers)που οφείλονται σε ακραίες τιµές στην Υ ή στην Χ ή και στις δυο. Στην απλή παλινδρόµηση φαίνονται στο διάγραµµα διασποράς, καθώς και στα διαγράµµατα καταλοίπων. Μπορεί να οφείλονται σε σφάλµα καταγραφής Μπορεί να είναι σωστές τιµές που χρειάζονται περαιτέρω µελέτη. 85 86 Υ Αναγνώριση παρατηρήσεων µε υψηλή επιρροή Γραµµική σχέση µε ασυνήθιστη ϖαρατήρηση ασυνήθιστη ϖαρατήρηση Χ Αναγνώριση παρατηρήσεων µε υψηλή επιρροή Παρατηρήσεις µε ακραίες τιµές στην Χ ονοµάζονται σηµεία υψηλής µόχλευσης (hgh leverage pots) Leverage της -παρατήρησης: h + ( j j, Όσο περισσότερο απέχει από τον µέσο τόσο µεγαλύτερη η τιµή του leverage. 87 Κάποια προγράµµατα θέτουν τιµή leverageίση µε 6/ως κατώφλι για τις παρατηρήσεις υψηλής επιρροής 88 Έλεγχος ετεροσκεδαστικότητας Έλεγχος Whte Εκτιµηµένη εξίσωση παλινδρόµησης Y β + β +,,..., k k, k Εκτιµήστε την παλινδρόµηση και καταγράψτε την τιµή του K R γ + δz + ν, όπου Z {υποσύνολο των,..., }, έστω µεγέθους p (περιλαµβάνει τα τετράγωνα και τις αλληλεπιδράσεις των Χ) K Έλεγχος για αυτοσυσχέτιση Έλεγχος Durb-Watso Έλεγχος AR() χωρίς υστερήσεις της εξαρτηµένης µεταβλητής στο δεξί σκέλος της εξίσωσης παλινδρόµησης ( t ut ) t d t t ( R ) d () Στατιστική DW µε τιµές p R( p ) Cov ( ut, ut p) t σ u p d 4 t t t p t ειγµατικός συντελεστής αυτοσυσχέτισης Κάτω από την µηδενική υπόθεση της απουσίας ετεροσκεδαστικότητας R ~ χ p δηλ. ο έλεγχος είναι ένας έλεγχος µε την κατανοµή χ µε p β.ε. 89 Τιµές d αποτελούν ένδειξη απουσίας αυτοσυσχέτισης Όταν υπάρχει θετική αυτοσυσχέτιση, τότε d< Όταν υπάρχει αρνητική αυτοσυσχέτιση, τότε d > 9 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης
ιαφάνειες ιαλέξεων -6 Έλεγχος για αυτοσυσχέτιση Έλεγχος Durb-Watso (συνέχεια) Για να ελέγξουµε για θετική αυτοσυσχέτιση σε επίπεδο σηµαντικότητας α, η στατιστική ελέγχου d συγκρίνεται µε την κάτω και άνω κριτική τιµή (d L,α και d U,α )που δίνονται από ειδικούς πίνακες ως συναρτήσεις του µεγέθους δείγµατος και του αριθµού των επεξηγηµατικών µεταβλητών k : Αν d < d L,α, υπάρχει στατιστικά σηµαντική ένδειξη θετικής αυτοσυσχέτισης Αν d > d U,α, υπάρχει στατιστικά σηµαντική ένδειξη απουσίαςθετικής αυτοσυσχέτισης Αν d L,α < d < d U,α, ο έλεγχος δεν παρέχει σαφές συµπέρασµα Έλεγχος για αυτοσυσχέτιση Έλεγχος Durb-Watso (συνέχεια) Για να ελέγξουµε για αρνητική αυτοσυσχέτιση σε επίπεδο σηµαντικότητας α : Αν (4-d) < d L,α, υπάρχει στατιστικά σηµαντική ένδειξη αρνητικής αυτοσυσχέτισης Αν (4-d) > d U,α, υπάρχει στατιστικά σηµαντική ένδειξη απουσίαςαρνητικής αυτοσυσχέτισης Αν d L,α < (4-d) < d U,α, ο έλεγχος δεν παρέχει σαφές συµπέρασµα 9 9 ΤΕΛΟΣ ΕΝΟΤΗΤΑΣ 93 ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ -3 Χρήστος Εµµανουηλίδης