Διάστημα εμπιστοσύνης της μέσης τιμής Συντελεστής εμπιστοσύνης Όταν : x z c s < μ < x +z s c Ν>30 Στον πίνακα δίνονται κρίσιμες τιμές z c και η αντιστοίχισή τους σε διάφορους συντελεστές εμπιστοσύνης: 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.7% 50% z c 3.00.58.33.05.00.96.645.8.00 0.6745 Αν α=0.05 τότε αν θεωρηθούν όλα τα δείγματα μεγέθους Ν από τον πληθυσμό τότε στο 95% των περιπτώσεων η μέση τιμή του πληθυσμού μ θα βρίσκεται στο παραπάνω διάστημα εμπιστοσύνης x t a s <μ< x +t a s Όταν Ν<30
Διάστημα εμπιστοσύνης της διακύμανσης Ν s x 0. 975 <σ Ν s x 0. 05 Για α=0.05 Ν s x ( α ) <σ Ν s x α / Για οποιοδήποτε α
ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ (correlaton coeffcent) Ελέγχουμε τη σχέση και το βαθμό αλληλεπίδρασης μεταξύ δύο ή περισσοτέρων μεταβλητών (χωρίς να προσδιορίζεται αν υπάρχει ή όχι εξάρτηση μεταξύ των μεταβλητών και ποια είναι τα αίτια που την προκαλούν). Δηλαδή δεν μας ενδιαφέρει η συναρτησιακή εξάρτηση μεταξύ των μεταβλητών που δίνεται από την γραμμή παλινδρόμησης Όταν όμως υπάρχει συναρτησιακή εξάρτηση και υπολογίζουμε τη γραμμή παλινδρόμησης, χρειάζεται να ξέρουμε ταυτόχρονα και το συντελεστή συσχέτισης
ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ (correlaton coeffcent) Χρησιμοποίηση του διαγράμματος διασποράς (scatter dagram) 80 60 350 70 60 50 40 30 0 50 40 30 0 300 50 00 50 00 0 0 50 0 0 0 40 60 80 00 0 40 Θετική συσχέτιση 0 30 35 40 45 50 55 60 65 70 75 80 Αρνητική συσχέτιση 0 0 0 0 30 40 50 60 70 Δεν υπάρχει συσχέτιση
Χάρτες χωρικής κατανομής του συντελεστή συσχέτισης 80 60 40 0 0-80 -60-40 -0 0 0 40 60 80
ΓΡΑΜΜΙΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ r (X (X X).(Y X) (Y Y) Y) -<r< Αν r>0 τότε η συσχέτιση είναι θετική (X αυξάνει και Y αυξάνει επίσης) Αν r<0 τότε η συσχέτιση είναι αρνητική (X αυξάνει ενώ Υ ελαττώνεται) Αν r0 τότε δεν υπάρχει συσχέτιση Αν r τότε η συσχέτιση είναι πολύ καλή
ΣΗΜΑΝΤΙΚΟΤΗΤΑ ΤΟΥ ΣΥΝΤΕΛΕΣΤΗ ΣΥΣΧΕΤΙΣΗΣ (ρ=0) Όταν ο συντελεστής συσχέτισης ρ του πληθυσμού των δύο μεταβλητών Χ και Ψ από τον οποίο έγινε η δειγματοληψία θεωρείται μηδέν (ρ=0) και εξετάζουμε τον συντελεστή r του δείγματος σε σχέση με το ρ. Δεδομένου ότι, μεγάλες τιμές του r (κυρίως όταν το δείγμα είναι μικρό) δεν σημαίνουν και μεγάλες τιμές του ρ θα πρέπει να γίνεται έλεγχος υποθέσεων για τη στατιστική σημαντικότητά του. H 0 : ρ=r=0 οι μεταβλητές Χ και Ψ είναι ασυσχέτιστες μεταξύ τους H : r 0 t r sr όπου s r r Το σφάλμα του r
Δίπλευρος έλεγχος με t-κατανομή t a (-) με βε=ν- από τον πίνακα Αν -t a <t<t a τότε H 0 αποδεκτή r=0 r δεν είναι στατιστικά σημαντικός και οι δύο μεταβλητές είναι ασυσχέτιστες μεταξύ τους Διαφορετικά, H 0 απορρίπτεται r 0 r είναι στατιστικά σημαντικός
Παράδειγμα Δίνεται το δείγμα των μέσων μηνιαίων θερμοκρασιών (Χ ) =,,, του σταθμού της Θεσσαλονίκης. Για κάθε τιμή Χ επιλέγουμε κατά τυχαίο τρόπο από τον πληθυσμό των τιμών της σχετικής υγρασίας του αέρα μια τιμή Ψ. Να ελεγχθεί αν το δείγμα προέρχεται από πληθυσμό ασυσχέτιστων μεταβλητών Ψ και Χ. Χ 5. 6.7 9.7 4. 9.6 4.4 6.6 6.8 6..0 6.9 Ψ 76. 73.0 7.4 67.8 63.8 55.9 53. 55.3 6.0 70. 76.8 78.0 Λύση Ν= H 0 : r=0 H : r 0 r ( X ( X ( Y Y ) Δίπλευρος έλεγχος με t-κατανομή ) Y ) X X ).( Y 0.9584 sr r 0.0903
t r sr 0.9584 0.0903 0.68 t a (-) με βε=-=0 και δίπλευρο έλεγχο για α=0.05 από τον πίνακα: t α =.8 Επειδή t<-t a τότε H 0 απορρίπτεται r 0 r είναι στατιστικά σημαντικός και οι δύο μεταβλητές συσχετίζονται μεταξύ τους
ΣΗΜΑΝΤΙΚΟΤΗΤΑ ΤΟΥ ΣΥΝΤΕΛΕΣΤΗ ΣΥΣΧΕΤΙΣΗΣ (ρ 0) Όταν ο συντελεστής συσχέτισης του πληθυσμού των δύο μεταβλητών από τον οποίο έγινε η δειγματοληψία είναι γνωστό ότι έχει κάποια συγκεκριμένη τιμή (ρ 0), τότε το r του δείγματος δε μπορεί να θεωρηθεί ότι προέρχεται από μία σχεδόν κανονική κατανομή (ασύμμετρη κατανομή), οπότε δεν χρησιμοποιείται ο t - έλεγχος H 0 : r=ρ H : r ρ Χρησιμοποιείται ο μετασχηματισμός του Fscher z zr ln( ln( r r ) ) z zr z z όπου z 3
Ο έλεγχος στηρίζεται στη μελέτη της απόκλισης (η μετασχηματισμένη μεταβλητή Ζ) η οποία ακολουθεί την κανονική κατανομή, ανεξάρτητα του μεγέθους του δείγματος Ζ a =.96 για δίπλευρο έλεγχο και α=0.05 Αν -z a <z<z a τότε H 0 αποδεκτή r=ρ το δείγμα προέρχεται από πληθυσμό με τη συγκεκριμένη τιμή του ρ Διαφορετικά, H 0 απορρίπτεται r ρ το δείγμα δεν προέρχεται από πληθυσμό με τη συγκεκριμένη τιμή του ρ
Παράδειγμα Να ελεγχθεί αν το δείγμα της προηγούμενης άσκησης προέρχεται από πληθυσμό με συντελεστή συσχέτισης ρ = 0.75. Χ 5. 6.7 9.7 4. 9.6 4.4 6.6 6.8 6..0 6.9 Ψ 76. 73.0 7.4 67.8 63.8 55.9 53. 55.3 6.0 70. 76.8 78.0 Λύση H 0 : r=ρ H : r ρ Ν= r=-0.9584 Δίπλευρος έλεγχος α=0.05 z ln( ) = zρ [ln( 0.75) ln( 0.75)] 0.973 zr r ln( ) zr = [ln( 0.9584) ln( 0.9584)] -. 96 r z 3 3 0.33
z zr z z.96 0.973 = z 8. 697 0.033 Επειδή z< -z a =-.96 η H 0 απορρίπτεται r ρ το δείγμα δεν προέρχεται από πληθυσμό με τη συγκεκριμένη τιμή του ρ
ΠΑΛΙΝΔΡΟΜΗΣΗ Στατιστική μέθοδος εύρεσης της σχέσης μεταξύ δύο ή περισσοτέρων μεταβλητών Μια μεταβλητή είναι εξαρτημένη και οι υπόλοιπες ανεξάρτητες Συνήθως η σχέση που διερευνούμε είναι η γραμμική Y=a+bX. Αλλες μορφές: Y = a + bx + cx Y = ab x Y = ax b παραβολή εκθετική γεωμετρική
ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Predctand: εκτιμώμενη παράμετρος ή εξαρτημένη μεταβλητή Predctor: η παράμετρος που χρησιμοποιείται για τον υπολογισμό ή ανεξάρτητη μεταβλητή Y=a+bX όπου b=κλίση της ευθείας παλινδρόμησης ή συντελεστής παλινδρόμησης a=τεταγμένη ως προς την αρχή ή σταθερά της ευθείας παλινδρόμησης
ΓΡΑΜΜΙΚΗ ΜΕΘΟΔΟΣ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ Η πλέον γνωστή μέθοδος παλινδρόμησης και μοντελοποίησης της σχέσης δύο ή περισσοτέρων μεταβλητών. Γνωστή και ως γραμμική παλινδρόμηση Η αλληλεπίδραση είναι μονοσήμαντη (οι τιμές Χ επηρεάζουν την Ψ χωρίς να ισχύει απαραίτητα το αντίστροφο) Στόχος είναι να οριστεί μία σχέση (γραμμική ή άλλης μορφής) με την οποία να είναι δυνατή η εκτίμηση, με το μικρότερο δυνατό σφάλμα, των τιμών της Ψ για κάθε τιμή της Χ
ΓΡΑΜΜΙΚΗ ΜΕΘΟΔΟΣ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ Από το διάγραμμα διασποράς μπορούν να οριστούν άπειρες ευθείες της μορφής Ψι=α+βΧι+Ει, όπου Ει το σφάλμα των τιμών Ψι του δείγματος από τις αντίστοιχες τιμές Ψι,εκ που εκτιμώνται από την εξίσωση, για τις τιμές Χι Θα πρέπει να οριστεί εκείνη η γραμμή για την οποία το άθροισμα των τετραγωνικών σφαλμάτων s ψ,χ, είναι ελάχιστο Αυτό επιτυγχάνεται με τη βοήθεια της παλινδρομικής ανάλυσης, όπου Χ η ανεξάρτητη μεταβλητή και Ψ η εξαρτημένη (αναμενόμενη) μεταβλητή Η εξαρτημένη (αναμενόμενη) μεταβλητή μπορεί να εκτιμηθεί μόνο μέσα στο εύρος των τιμών της ανεξάρτητης μεταβλητής
Υπολογισμός των a, b με τη βοήθεια της μεθόδου των ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ X ) ( X Y ) X )( ( (X.Y ) b X ) ( X X Y ) X )( ( ) (X (Y ) a x X X s sb, ) ( ) ) (.( [ ], x X X X a s s Σφάλμα στον υπολογισμό των a,b
Τυπικό σφάλμα εκτίμησης της μεταβλητής Ψ ως προς Χ X ) ( X ) X. X ( ) ( s x,
Ελεγχος σημαντικότητας του συντελεστή παλινδρόμησης b H 0 : b=0 Ν ζεύγη Χ, Ψ H : b 0 Δίπλευρος έλεγχος για Ν- βε t b sb όπου s b t a (-) από τον Πίνακα S (X, x X) Εαν -t a <t<t a τότε H 0 αποδεκτή b=0 b δεν είναι στατιστικά σημαντικός Διαφορετικά, H 0 απορρίπτεται b 0 b είναι στατιστικά σημαντικός
Παράδειγμα Να ελεγχθεί στη στάθμη σημαντικότητας α = 0.05 η σημαντικότητα του συντελεστή παλινδρόμησης b του δείγματος Χ 5. 6.7 9.7 4. 9.6 4.4 6.6 6.8 6..0 6.9 Ψ 76. 73.0 7.4 67.8 63.8 55.9 53. 55.3 6.0 70. 76.8 78.0 Λύση Ν= 88.3804.5 889.06 b (88.3) 3637.03 88.3804.5 889.06 (804.5) 54796.67 (88.3) 3637.03 s, x s b 7.0 (88.3) 3637.03 0.003 7.0.077
H 0 : b=0 H : b 0 t b sb 0.6 t a =.8 για Ν-=0 βε και δίπλευρο έλεγχο Επειδή t<-ta η H 0 απορρίπτεται b 0 b είναι στατιστικά σημαντικός. Αρα η κλίση της ευθείας παλινδρόμησης είναι στατιστικά σημαντική.
Ελεγχος ομοιογένειας των συντελεστών παλινδρόμησης δύο ευθειών H 0 : b =b Ν ζεύγη Χ, Ψ Ψ=a +b X s Ψ H : b b Ν ζεύγη Χ, Ψ Ψ=a +b X s Ψ t s p ( (X b X ) b j (X j X ) ) Δίπλευρος έλεγχος για s p ( )S ( ( ) ( )S ) Ν + -4 βε Εαν -t a <t<t a τότε H 0 αποδεκτή b,b στατιστικά ομοιογενείς
Παράδειγμα Δίνονται δύο δείγματα της δι-μεταβλητής (Χ,Ψ) των τιμών της θερμοκρασίας του αέρα και της σχετικής υγρασίας για τους σταθμούς της Αθήνας και του Ηρακλείου.Να ορισθούν οι ευθείες παλινδρόμησης που αντιστοιχούν στα ζεύγη τιμών κάθε σταθμού και στη συνέχεια να γίνει έλεγχος ομοιογένειας των συντελεστών παλινδρόμησης των δύο δειγμάτων. Αθήνα Χ (θερμοκρασία) Ηράκλειο Χ (θερμοκρασία) Ψ(Σχετική υγρασία) 0.3 68.8. 68.0 0.6 68.0. 66..3 65.9 3.5 66.0 5.9 6.6 6.5 6.7 0.7 59.0 0.3 60.8 5. 5.8 4.4 56.3 8.0 47.0 6. 56.6 7.8 47. 6.0 58.3 4. 53.4 3.5 6. 9.5 6. 0.0 65.5 5.4 68.7 6.6 67.7.0 70. 3.7 67.7 Ψ(Σχετική υγρασία) Λύση
Για την Αθήνα : b X X.9 4589.97 Ψ 75.6 X 8. 49 Ψ.9 75.6 86..9 4589.97 Ψ 60.467 44670.96.357 X X Ψ 86. Ψ 600.6 a = 60.467 (-.357)8.49 = 83.38 Άρα για την Αθήνα η ευθεία παλινδρόμησης είναι: Ψ = 83.38.357X Ομοια για το Ηράκλειο: Ψ = 76.563 0.74X H 0 : b =b H : b b Δίπλευρο έλεγχο για βε=ν +Ν 4 = + 4 =0 Τυπικό σφάλμα εκτίμησης 44670.96 75.6 86..9 75.6 4589.97 s 5.33 (ψ,x) 0.9 για Αθήνα
t 4787.5 755.9 3938.8 4.9 755.9 459.9 s 4.66 (ψ,x) 0 4.9 για Ηράκλειο 0x5.33 0 0 x s p 4.66 4.995 t (.357) ( 0.74) 4.995 486.669 34.909 3.65 Για 0 βαθμούς ελευθερίας στη στάθμη σημαντικότητας α =0.05 σε δίπλευρο έλεγχο η κρίσιμη τιμή είναι t α) =.086. Επειδή t=-3.65< -t α = -.086 απορρίπτεται η μηδενική υπόθεση Η ο, Δηλαδή οι συντελεστές παλινδρόμησης δεν μπορούν να θεωρηθούν στατιστικά ίσοι μεταξύ τους.
Ελεγχος σημαντικότητας τεταγμένης ως προς την αρχή a H 0 : a=0 Ν ζεύγη Χ, Ψ H : a 0 Δίπλευρος έλεγχος για Ν- βε t s όπου s t a (-) άπό τον Πίνακα a [ s X.( )], x ( XX ) Εαν -t a <t<t a τότε H 0 αποδεκτή a=0 a δεν είναι στατιστικά σημαντικός Διαφορετικά, H 0 απορρίπτεται a 0 a είναι στατιστικά σημαντικός
Παράδειγμα Να ελεγχθεί στη στάθμη σημαντικότητας α = 0.05 η σημαντικότητα της τεταγμένης επί της αρχής a Χ 5. 6.7 9.7 4. 9.6 4.4 6.6 6.8 6..0 6.9 Ψ 76. 73.0 7.4 67.8 63.8 55.9 53. 55.3 6.0 70. 76.8 78.0 Λύση Ν= X x 88.3 Ψ ψ 804.5 a = 67.04-(-.077)5.69 = 83.944 88.3804.5 889.06 (804.5) 54796.67 (88.3) 3637.03 s, x 7.0 s a 7.0 (5.69) 68.89.765
H 0 : a=0 H : a 0 t s 47.587 t a =.8 για Ν-=0 βε και δίπλευρο έλεγχο Επειδή t>ta η H 0 απορρίπτεται α 0 α είναι στατιστικά σημαντική. Αρα η σταθερά (τεταγμένη επί την αρχή) της ευθείας παλινδρόμησης είναι στατιστικά σημαντική.
Ορια εμπιστοσύνης του b b-t a.s b <b<b+t a.s b Οι τιμές αυτές περιστρέφουν την ευθεία παλινδρόμησης γύρω από το σημείο Α ( ) X, Όπου t a από τον πίνακα για βε=ν- και δίπλευρο έλεγχο Α AB ( b t. s A ( b t. s γ Γ b). b). ( X X ) ( X X ) Β Όπου ΑΒ και ΑΓ οι δύο ευθείες με διακεκομμένη γραμμή (όρια περιστροφής)
Παράδειγμα Αν η ευθεία παλινδρόμησης του παρακάτω δείγματος είναι Ψ=83.944-.077.Χ να υπολογισθούν τα όρια εμπιστοσύνης του συντελεστή παλινδρόμησης b του πληθυσμού και να χαραχθούν πάνω στο διάγραμμα διασποράς του δείγματος. Χ 5. 6.7 9.7 4. 9.6 4.4 6.6 6.8 6..0 6.9 Ψ 76. 73.0 7.4 67.8 63.8 55.9 53. 55.3 6.0 70. 76.8 78.0 Λύση Υπολογίζουμε το τυπικό σφάλμα εκτίμησης s ψ,x και την παράμετρο s b 88.3804.5 889.06 (804.5) 54796.67 (88.3) 3637.03 s, x s b 7.0 3637.03 (88.3) 0.05 7.0
Σχετική υγρασία για Ν- = - = 0 βε της t-κατανομής στη στάθμη σημαντικότητας α=0.05 σε δίπλευρο έλεγχο t α =.8 Ορια εμπιστοσύνης: b-t a.s b <b<b+t a.s b ( -.077).80.05 b ( -.077) +.80.05 ή.303 < b <-0.85 ψ, = 67.04 +(-0.85)(x 5.69) 90 80 70 60 Όρια εμπιστοσύνης του συντελεστή παλινδρόμησης β Α ( X, )= (5.69, 67.04) 50 5 7 9 3 5 7 9 3 5 7 Θερμοκρασία ψ, = 67.04 +(-.303)(x 5.69)
Ορια εμπιστοσύνης του a a-t a.s α <a<a+t a.s α Οι τιμές αυτές ορίζουν μια ζώνη εμπιστοσύνης εκατέρωθεν της γραμμής παλινδρόμησης Όπου t a από τον πίνακα για βε=ν- και δίπλευρο έλεγχο a t. s a t. s a a bx bx
Παράδειγμα Στην προηγούμενη άσκηση να υπολογισθούν τα όρια εμπιστοσύνης της τεταγμένης επί της αρχής a του πληθυσμού και να χαραχθούν πάνω στο διάγραμμα διασποράς του δείγματος. Λύση Υπολογίζουμε το τυπικό σφάλμα εκτίμησης s ψ,x και την παράμετρο s a 88.3804.5 889.06 (804.5) 54796.67 (88.3) 3637.03 s, x 7.0 s a 7.0 (5.69) 68.89.765
Σχετική υγρασία για Ν- = - = 0 βε της t-κατανομής στη στάθμη σημαντικότητας α=0.05 σε δίπλευρο έλεγχο t α =.8 Ορια εμπιστοσύνης: a-t a.s α <a<a+t a.s α 83.943 -.8.765 a 83.943 +.8.765 ή 80.0 a 87.88. ψ, = 80.0 +(-.077)x 90 80 70 60 50 Όρια εμπιστοσύνης της τεταγμένης ως προς την αρχή α Α 5 7 9 3 5 7 9 3 5 7 Θερμοκρασία ψ, = 87.88 +(-.077)x
Κυριότερες μορφές παλινδρόμησης. Λογαριθμική γραμμή παλινδρόμησης a b. ln X 80 75 70 65 60 55 50 45 40,5,5 3 3,5
. Υπερβολική γραμμή παλινδρόμησης a bx b. 0,7 0,6 0,5 0,4 0,3 0, 0, 0 0 0 0 30 3. Εκθετική γραμμή παλινδρόμησης X.b bx.e.b X g 3 logψ loga X logb 0 - - -3-4 0 5 0 5 0 5 30
4. Γεωμετρική γραμμή παλινδρόμησης.x b.x b g logψ loga blogx 00 50 00 50 0-50 -00-50 -00 5 0 5 0 5 30 5. Συνάρτηση Compertz X c.b. c b X d 6 5,5 logψ loga c x logb 5 4,5 4 0,5 0,7 0,9,,3,5,7
6. Αντίστροφη συνάρτηση a b X. c 3,5,5 0,5 0-0,5 - -,5 - -,5 0,5 0,7 0,9,,3,5,7 7. Πολυωνυμική παλινδρόμηση bx cx.. 80 75 70 65 60 55 50 5 0 5 0 5 30
Ψ log Ψ Παράδειγμα Στο δείγμα της δι-παραμετρικής μεταβλητής (X,Ψ ) να προσαρμοσθεί η εκθετική καμπύλη παλινδρόμησης. Χ.9.9 4. 7.0 0.9 5.4 7.8 7.7 4.9.0 7.5 4.5 Ψ 74.0 73.7 7. 68.4 64. 56.8 49.4 5.5 59.6 69. 73.3 74.3 log.87.88.86.84.8.75.69.7.78.84.87.87 Ψ Λύση Η εκθετική γραμμή παλινδρόμησης δίνεται από την εξίσωση logψ loga X logb Για να την ορίσουμε κάνουμε τον μετασχηματισμό Για τον υπολογισμό των σταθερών a,b θα επιλύσουμε το σύστημα που ορίζεται Α+ΒX (Α=loga,B=logb) Ψ log Ψ
X 36.7, log.78, X 503.07, X (log ) 45.774.78 =Α + 36.7Β 45.774 = 36.7Α + 503.07Β, από την λύση του οποίου έχουμε Α = loga =.087 ή a = 06.83 και Β = logb =-0.0 ή b = 0.975 άρα τελικά η γραμμή παλινδρόμησης είναι η Ψ 06.83 0. 975 X