Σημειώσεις Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου Αθήνα -3-7 Εκτίμηση των Παραμέτρων β & β Απλό γραμμικό υπόδειγμα: Y X () Η αναμενόμενη τιμή του Υ, δηλαδή, μέση τιμή του Υ, δίνεται παρακάτω: EY ( ) X EY ( X) () Y X Η εκτίμηση το Ε(Υ ) είναι: Y X... ή... Y b b X (3) Το σφάλμα της εκτίμησης είναι e και ισούται με: e Y Y (4) Αναζητούμε τις εκτιμήσεις των β και β που ελαχιστοποιούν τα e και συγκεκριμένα ελαχιστοποιούν το άθροισμα των τετραγώνων της e, δηλαδή, m ( ) Y Y Q (5) Q ( Y X) (6) και Q ( Y X) (7) Από την εξίσωση (6) έχουμε: Y X Y X Y X Y X
Από την εξίσωση (7) έχουμε: YX X X YX X X ( Y X) X X ( X X ) X YX YX YX YX YX Y X X X X X YX Y XY YX X X X ( ( X ) ) X X X Τα και που εκτιμήσαμε για τις παραμέτρους και λέγονται σημειακές εκτιμήσεις. Για μεγαλύτερη σιγουριά στην εκτίμησή μας θα πρέπει να υπολογίσουμε τα αντίστοιχα Δ.Ε. και να διεξάγουμε στατιστικούς ελέγχους υποθέσεων για τις παραμέτρους τού υπό εκτίμηση υποδείγματος. Για το λόγο αυτό πρέπει να προσδιοριστεί η κατανομή των και και να γίνουν οι πιο κάτω υποθέσεις: ) Τα σφάλματα (errors) ε ~ Ν (, σ ) για κάθε. Η υπόθεση αυτή για τα ε (αντίστοιχα και για τα Υ ), δηλώνει ότι κάθε ένα από αυτά έχουν την ίδια διακύμανση. Για το λόγο αυτό τα σφάλματα ονομάζονται ομοσκεδαστικά (homoscedastc). Παραβίαση της υπόθεσης αυτής οδηγεί στο πρόβλημα της ετεροσκεδαστικότητας (heteroscedastcty). ) Τα σφάλματα (ε ) είναι μεταξύ τους ανεξάρτητα. Δηλαδή, Cov(ε, ε j ) =, για κάθε j (τα οποία δεν αυτοσυχ/νται). Από τη σχέση Υ =β +β Χ +ε βλέπουμε ότι οι παραπάνω υποθέσεις συνεπάγονται τις παρακάτω υποθέσεις: ) Τα Υ ~ Ν(β + Χ, σ ), =,,... v) Τα Υ είναι ανεξάρτητα μεταξύ τους. Δηλαδή, τα Υ είναι, αντίστοιχα, ασυσχέτιστα).
v) Τα Χ είναι προκαθορισμένα. Διάστημα Εμπιστοσύνης για το β ) Πώς προσδιορίζεται ένα Δ.Ε για το β ; (εκτιμητής) ± (κριτική τιμή πινάκων)*(τυπ. σφάλ. εκτιμητή): e ( X X) * t * t,, ) Πώς προσδιορίζεται ένας στατιστικός έλεγχος;? t : c : c c όπου c είναι η τιμή της παραμέτρου β κάτω από την υπόθεση μηδέν. 3
Ύλη 6 ης Διάλεξης. Παράδειγμα για:. Εκτιμήσεις παραμέτρων. Υπολογισμός των Y 3. Υπολογισμός εκτιμημένων σφαλμάτων 4. Πρόβλεψη τιμών της Υ. Εκτίμηση Διακύμανσης του Σφάλματος Δεδομένα Y X X Y XY =6 5 3 4 5 336 6 47 9 5876 59 47 3 59 69 338 6 68 464 46656 4688 95 3 4 385 64 4 7 89 576 48 37 58 3364 5669 3746 35 75 565 995 365 357 98 964 7449 34986 44 43 849 9448 8963 45 76 5776 5 34 56 89 79 347 4999 59 8 664 6936 565 567 76 5776 3489 439 56 65 45 6656 3354 684 93 8649 467856 636 5676 745 598 4946 Ζητούμενο. Εκτιμήσεις των παραμέτρων β και β :??. Υπολογισμός του: Y =? ( Y X) =? (εκτιμημένα σφάλματα) e Y Y 4
Συνολική Μεταβλητότητα του Υποδείγματος Y X (Y - Y ) (Y - ) 5 3 6,5757-66,5757 Y 37583,74 6 47 8,3896-56,3896 434564,5 47 3 694,33574-4,33574 536,544 6 68 385,53553-645,53553 77787,8 95 3 6,5757-66,5757 7747,46383 4 37 35 7 58 75 4,8443 3336,38 433,94439 987,5757-966,38-983,94439 97448,68 93389,343 Y 96846,566 357 98 53,6-643,6 699455,769 44 43 63,64676 777,3534 358984,54 45 76 48,85994 39,46 85,3779 56 89 479,76 89,379 675,7368 59 8 568,5757-49,5757 49,737 567 76 48,85994 489,46 7538,8 56 65 3664,78888 495, 35656,93 684 93 4978,443 86,5757 3465464,87 46844,9 3 3. Yπολογισμός προβλέψεων: των τιμών της εξαρτημένης μεταβλητής. Mε δεδομένη την τιμή της Χ, μπορούμε να προβλέψουμε την τιμή της Υ. Απαντήσεις. Εκτιμήσεις: YX Y X X ( ( X )) Y X 65, 78 46,96. Ερμηνεία των παραπάνω αποτελεσμάτων e Y Y Τα αποτελέσματα δίνονται στον προηγούμενο Πίνακα, στην 4 η στήλη. 5
Παράδοση -3-7 Σύντομη αναφορά σε διδαχθείσες έννοιες Μέχρι στιγμής έχουμε μάθει ότι εφαρμόζοντας τη Μέθοδο των Ελαχίστων Τετραγώνων δηλαδή, την ελαχιστοποίηση του αθροίσματος των τετραγώνου των καταλοίπων), μπορούμε να υπολογίσουμε: ( )( Y Y). τους εκτιμητές: ( X X) XY XX Y X &. τα κατάλοιπα e ισούνται με e Y Y. Tο άθροισμα των τετραγώνων τους e ( Y Y) ( Y ) Y Y YX και 3. τα αθροίσματα τετραγώνων ισούνται με: o T ( Y Y ) o R = T-E και o E ( Y Y ) 4. για ευκολία γράφουμε: o ( X ) XX ( X X) X o ( Y ) YY ( Y Y) Y o ( Y Y) ( X X) ( X X) Y YX Η πληθυσμιακή διακύμανση του σφάλματος είναι η παράμετρος που καθορίζει την ένταση της εξάρτησης της Υ από την Χ ( ). Ωστόσο, επειδή το, το τυπικό σφάλμα εκτίμησης της εξίσωσης παλινδρόμησης, δεν είναι γνωστό, χρησιμοποιούμε την εκτίμηση e από τα δεδομένα. Η εκτίμηση αυτή θα βασισθεί στο άθροισμα των τετραγώνων των σφαλμάτων γύρω από τη γραμμή παλινδρόμησης, δηλαδή το E: ( Y Y) E e Προσδιορισμό τυπικού σφάλματος της κατανομής δειγματοληψίας του συντελεστή Στο σημείο αυτό και βασισμένοι στα παραπάνω, θα ασχοληθούμε με τον προσδιορισμό του τυπικού σφάλματος της κατανομής δειγματοληψίας του συντελεστή, το οποίο συμβολίζεται με και δίνεται από τη σχέση:, ( ) 6
( )( Y Y) βασισμένοι στο Var( ) ( X X) ή E X ( X) / e ( X X) Το ονομάζεται και τυπικό σφάλμα εκτίμησης του συντελεστή παλινδρόμησης. Η κατανομή του δίνεται παρακάτω ~ N(, ) XX Άρα το (-α)% Δ. Ε. του ακολουθεί t,. Αντίστοιχα η ελεγχοσυνάρτηση για τον στστιστικό έλεγχο του είναι: T ~ t XX Οι υποθέσεις που συνεπάγονται τη χρήση του παραπάνω τύπου, διατυπώνονται παρακάτω: α) : c : c Η απορρίπτεται αν Τ > t -,-α/ β) : c : c Η απορρίπτεται αν Τ > t -,-α γ) : c : c Η απορρίπτεται αν Τ <- t -,-α 7
Προσδιορισμό της κατανομής δειγματοληψίας του συντελεστή Η κατανομή του δίνεται παρακάτω X ~ N(, ) XX διότι E( ) E( Y X ) X Var( ) ( ) XX X ( ) XX Άρα το (-α)% Δ. Ε. του ακολουθεί t,. Αντίστοιχα η ελεγχοσυνάρτηση για τον στστιστικό έλεγχο του είναι: T X ~ t XX Οι υποθέσεις που συνεπάγονται τη χρήση του παραπάνω τύπου, διατυπώνονται παρακάτω: α) : * : * Η απορρίπτεται αν Τ > t -,-α/ β) : * : * Η απορρίπτεται αν Τ > t -,-α γ) : * : * Η απορρίπτεται αν Τ <- t -,-α 8
ΟΠΑ Τμήμα Στατιστικής Ε. Κανδηλώρου Αν. Καθηγήτρια Αθήνα, 4-3-7 Παράδειγμα Ο πίνακας που ακολουθεί, δίνει στοιχεία για την ποσότητα σε νερό που χρησιμοποιήθηκε για πότισμα σε ένα χωράφι (σε εκατοστά) και την παραγωγή τριφυλλιού (σε τόνους ανά στρέμμα) στο χωράφι αυτό (που χρησιμοποιήθηκε πειραματικά). ΛύσηΆσκησης (λίπασμα-απόδοση αγροτεμαχίου) Νερό: (χ) 8 4 3 36 4 48 Σοδειά: (y)5.7 5.68 6.5 7. 8.5 8.7 8.4 α) Υπάρχει μια γραμμική σχέση Υ = β + β Χ ανάμεσα στη σοδειά και το νερό; β) Ερμηνεύονται οι μεταβολές της Υ από την Χ; γ) Ποιό είναι το ποσοστό ερμηνείας του Υ από το Χ; δ) Ποιό είναι το 9% ΔΕ του συντελεστή κλίσης της εξίσωσης; Άσκηση 4-3-7 Ένας αγρότης ενδιαφέρεται να προσδιορίσει τον τρόπο με τον οποίο η ποσότητα του λιπάσματος (σε εκατοντάδες κιλά) που χρησιμοποιείται σε ένα αγροτεμάχιο επηρεάζει την παραγωγή (σε χιλ. κιλά) του αγροκτήματος. Για το σκοπό αυτό πειραματίστηκε με όμοια αγροτεμάχια, έτσι ώστε οι όποιες διαφοροποιήσεις παρατηρούνται στην παραγωγή των αγρών να οφείλονται κατά κύριο λόγο στις διαφορετικές ποσότητες λιπάσματος που χρησιμοποιήθηκαν. τα δεδομένα δίνονται παρακάτω: Λίπασμα 6 8 6 8 4 Παραγωγή 76 55 79 57 694 634 75 57 59 754. Να σχεδιάσετε το διάγραμμα διασποράς μεταξύ των μεταβλητών. Τι αυτό αποκαλύπτει;. Να ελέγξετε τη στατιστική σημαντικότητα του συντελεστή συσχέτισης των μεταβλητών, σε -α = 97%; 3. Ποιές είναι οι συνιστώσες της «συνολικής μεταβλητότητα της εξαρτημένης μεταβλητής»; 4. Να εκτιμήσετε το 96% ΔΕ των παραμέτρων β & β. 5. Σύμφωνα με τη μέθοδο Ελαχίστων Τετραγώνων, η ευθεία που προσαρμόζεται καλύτερα στα δεδομένα μας είναι αυτή που m το E (άθροισμα των τετραγώνων των καταλοίπων = e ). Ερωτήσεις-Απαντήσεις e ( Y ( X )) ) Ποιά είναι η ευθεία που προσαρμόζεται καλύτερα στα παραπάνω δεδομένα; 9
Y X () Να την εκτιμήσετε. Y X.....() όπου: X Y Y X X (( X )) Υπολογίζοντας τα παραπάνω αθροίσματα: XY 8 X 64 Y 646 X 38 Η ευθεία που προσαρμόζεται καλύτερα στα παραπάνω δεδομένα και δεδομένου ότι: X Y Y X X (( X )) & 5 646 64 Y 5X 5( ) 4 Άρα η εκτιμημένη εξίσωση είναι: Y 4 5X ) Ποιά είναι η κλίση της γραμμής παλινδρόμησης; 5 Τι μετρά; Ο εκτιμητής της παραμέτρου β μετρά την κλίση της γραμμής παλινδρόμησης. Ο εκτιμητής αυτός μετρά το πόσο μεταβάλλεται η εξαρτημένη μεταβλητή (σε μονάδα μέτρησης της), σε μια μεταβολή της ανεξάρτητης κατά μία μονάδα δικής της μέτρησης. Άρα, η παραγωγή θα αυξηθεί κατά 5 χιλ. κιλά (5 κιλά!), αν το λίπασμα αυξηθεί κατά μία εκατοντάδα κιλά ( κιλά). 3) Ποιά είναι η προβλεπτική ικανότητα της εξίσωσης; Να ελέγξετε αυτήν την ικανότητα σε α=%.
Η προβλεπτική ικανότητα της εξίσωσης παλινδρόμησης ή το ποσοστό των μεταβολών της εξαρτημένης μεταβλητής (Υ) που οφείλονται στις επιδράσεις της (Χ), εκτιμάται από την παρακάτω εξίσωση R 8784 R,994 T 8838 Ερμηνεία: το 99,4% των μεταβολών της παραγωγής (Υ) οφείλεται στη μεταβολή της ποσότητας λιπάσματος (Χ) που χρησιμοποιείται. To υπόλοιπο,6% των μεταβολών της παραγωγής οφείλεται σε άλλες, εκτός της Χ, μεταβλητές. Να ελέγξετε την προβλεπτική ικανότητα της εξίσωσης, σε α=%. Η : θεωρητική τιμή του R = Η : θεωρητική τιμή του R R 8784 F = k MR 3,333 E ME 67,5 F F F, 587, ;,8;, ά... Δεδομένου ότι η μηδενική υπόθεση απορρίπτεται και σε α=%, έπεται ότι υπόθεση αυτή απορρίπτεται και σε α=% 4) Να σχεδιάσετε το διάγραμμα διασποράς μεταξύ των δύο μεταβλητών. 8, PRGOGI 7, 6,, 5,, 5, LIPM Τι αποκαλύπτει αυτό το διάγραμμα; Αποκαλύπτει με τον πιο εύκολο τρόπο, ότι υπάρχει θετική συσχέτιση μεταξύ των δύο μεταβλητών μας. 5) Τι μετρά ο συντελεστής συσχέτισης; Να τον υπολογίσετε. Μετρά το βαθμό της γραμμικής συσχέτισης τ.μ. (Χ & Υ) με διασπορά σ Χ & σ Υ αντίστοιχα & συνδιακύμανση, Cov.(X,Y) = E(X, Y)-E(X)E(Y). ή
Η ποσοτική μέτρηση της γραμμικής σχέσης μεταξύ μεταβλητών ονομάζεται συντλεστής συσχέτισης. Να ελέγξετε τη στατιστική σημαντικότητα του συντελεστή συσχέτισης των μεταβλητών, σε α =,3. =,994 Η : ρ= Η : ρ = 5,74 sg.=, Η απορ. διότι sg.< α=,3. 6) Ποιές είναι οι συνιστώσες της «συνολικής μεταβλητότητα της εξαρτημένης μεταβλητής»; Είναι τα: R, E, T 7) Να εκτιμήσετε το 95% ΔΕ των παραμέτρων β. Tι σχόλιο έχετε να κάνετε για τους αντίστοιχους στατιστικούς έλεγχους, χωρίς να κάνετε πράξεις; t,,5/ [4,4 β 5,959)] όπου =,46 διότι E X ( X) / e ( X X) t 8,,975 =,36 Η : β = Η : β > Η απορρίπτεται, δεδομένου ότι το Δ.Ε. δεν περιλαμβάνει το μηδέν. Άρα, επιβεβαιώνεται η στατιστικά σημαντική θετική σχέση μεταξύ Χ & Υ.
X Y XY X*X Y*Y (Y-Ymea) 76 4 4 498436 6 55 55 35-96 6 79 54 676 64 44 8 57 436 64 6789-9 694 388 4 48636 48 6 634 44 56 4956-75 43 4 55 69 57 685 44 364-75 8 59 43 64 7984-7 4 754 896 576 56856 8 64 646 8 38 4654 PRED (Y-Ymea) RE PRED-646=W W*W 7 36 6 54 96 55 96-96 96 79 736 44 736 5 664-3 -6 5876 7 34-6 54 96 64 44-6 -6 36 7 476 5 54 96 58 565-9 -66 4356 5 3689 9-6 5876 76 664-6 4 996 646 8838 8784 T R 3
Γραμμικά Μοντέλα (3-3-7) Ελένη Κανδηλώρου Ασκήσεις. Δίνονται δύο μεταβλητές με τα παρακάτω αθροίσματα. 9 X 4, 9 9 9 9 X 89,6 Y 47, Y 75,38 XY 363,3 α) Να γίνει η εκτίμηση των παραμέτρων β, β της παλινδρόμησης Υ = β + β Χ + ε β) Να προσδιοριστεί το 95% διάστημα εμπιστοσύνης των β, β γ) Να ελεγχθεί η υπόθεση β = σε επίπεδο σημαντικότητας %.. Δίνονται οι παρακάτω παρατηρήσεις: Ηλικία (Χ) 36 38 4 4 47 49 55 56 6 63 68 7 Πίεση αίματος (Υ) 8 5 5 4 8 45 5 47 55 49 5 6 α) Να σχεδιαστεί το διάγραμμα διασποράς μεταξύ των Χ, Υ. Δικαιολογείται από το διάγραμμα η εφαρμογή γραμμικού υποδείγματος; β) Να κατασκευάσετε: (ι) το διάγραμμα διασποράς των δεδομένων (Χ,Υ) μαζί με την εκτιμημένη ευθεία γραμμικής παλινδρόμησης και (ιι) τα διαστήματα εμπιστοσύνης για την ατομική και μέση πρόβλεψη, με πιθανότητα,95. γ) Να μελετήσετε το υπόδειγμα Υ = β + β Χ + ε. Συγκεκριμένα: (ι) Να εκτιμήσετε τα β, β. (ιι) Ποιό είναι τα όρια του συντελεστή παλινδρόμισης, με πιθανότηατ.95, (ιιι) Να ερμηνεύσετε τις εκτιμήσεις των συντελεστών παλινδρόμισης. (ιν) Μπορείτε να ισχυριστείτε ότι η Χ δεν επηρεάζει τις μεταβολές της Υ; Η μεταβλητή Υ εξαρτάται από την Χ; (ν) Να κατασκευάσετε τον πίνακα ανάλυσης διασποράς (ΑNOV) και να διαπιστώσετε αν έχει καλή προσαρμογή το υπόδειγμα. (νι) Τι ποσοστό της μεταβλητότητας των Y ερμηνεύεται από το υπόδειγμα; δ) Να υπολογιστούν οι θεωρητικές τιμές των Υ και τα κατάλοιπα. ) Ποιά είναι η πρόβλεψη της πίεσης του αίματος για γυναίκα ηλικίας Χ =5 ετών. ) Να γίνει σημειακή πρόβλεψη και να δοθούν τα διαστήματα ατομικής και μέσης πρόβλεψης (95%). 3) Εάν επιλεγεί τυχαία μια γυναίκα 5 ετών από τον πληθυσμό, μεταξύ ποιών ορίων θα βρίσκεται η πίεση του αίματός της (σ.ε. 95%). 4