Πάτρα, 7 Ιανουαρίου 011
Γενικά Πολλές ϕορές µας ενδιαφέρει να µελετήσουµε τις σχέσεις που υπάρχουν ανάµεσα στις µεταβλητές. Παράδειγµα 1 OZON 300 80 60 40 0 00 180 150 00 50 300 350 400 450 CFC 1 Από το παραπάνω διάγραµµα (scatter plot) είναι εµφανές, ότι όσο µεγαλώνει η συγκέντρωση του CFC-1, τόσο µειώνεται η πυκνότητα της στήλης του όζοντος και µάλιστα ϕαίνεται να υπάρχει µία γραµµική σχέση ανάµεσα σε αυτές τις δύο µεταβλητές της µορφής, Y = ax + b
Συντελεστής Συσχέτισης ρ(x, Y) = Cov(X, Y) VarX VarY Cov(X, Y) = E{(X EX)(Y EY)} = E(XY) (EX)(EY) ειγµατικός Συντελεστής Συσχέτισης r = S XY SXX S YY (Pearson) S XY = S XX = j=1 ( )( ) x i y j 1 x i y j n j=1 ( ) ( 1 ) x i S YY = y j 1 y j n n x i j=1 j=1
Συντελεστής Συσχέτισης Παρατήρηση 1 r 1 r 1 r 1 r 0 υπάρχει ισχυρή αρνητική γραµµική σχέση ανάµεσα στις δύο µεταβλητές υπάρχει ισχυρή ϑετική γραµµική σχέση ανάµεσα στις δύο µεταβλητές οι µεταβλητές είναι µεταξύ τους ασυσχέτιστες Πρόταση Αν X, Y είναι ανεξάρτητες Cov(X, Y) = E(XY) (EX)(EY) = 0 X, Y είναι ασυσχέτιστες ( εν µπορώ να ϐρω µια γραµµική σχέση µεταξύ των δύο µεταβλητών)
Συντελεστής Συσχέτισης Πόσο σηµαντικός είναι ο δειγµατικός συντελεστής συσχέτισης του Pearson; Είναι δύσκολο να ισχυριστούµε ότι για µια τιµή (r = 0.4) υπάρχει ϑετική γραµµική συσχέτιση µεταξύ των µεταβλητών. Υπάρχουν πίνακες που µπορούν να ϐοηθήσουν σε αυτήν την κατεύθυνση. Παράδειγµα Α n = 11 5% r = 0.601 σηµαίνει ότι υπάρχει πιθανότητα 5% να µην υπάρχει σχέση (γραµµική) µεταξύ των δύο µεταβλητών. Παράδειγµα Β n = 11 1% r = 0.7348 σηµαίνει ότι υπάρχει πιθανότητα 1% να µην υπάρχει σχέση (γραµµική) µεταξύ των δύο µεταβλητών.
Συντελεστής Συσχέτισης Οπότε, για ένα δείγµα 11 ατόµων, r 0.601 δεν υπάρχει κάποια ένδειξη συσχέτισης µεταξύ των δύο µεταβλητών X και Y. 0.601 < r 0.7348 υπάρχει ένδειξη συσχέτισης µεταξύ των δύο µεταβλητών X και Y. r > 0.7348 υπάρχει ισχυρή ένδειξη συσχέτισης µεταξύ των δύο µεταβλητών X και Y. Παράδειγµα 1 r = 0.9439 υπάρχει πολύ ισχυρή αρνητική γραµµική συσχέτιση ανάµεσα στο CFC-1 και το όζον. Υπόθεση X, Y N(µ,σ ). Αυτή η υπόθεση δεν είναι περιοριστική, εκτός αν στα δεδοµένα υπάρχει ασυµµετρία ή είναι στην µορφή τάξεων. Σε αυτήν την περίπτωση χρησιµοποιούµε τον συντελεστή συσχέτισης του Spearman.
Συντελεστής Συσχέτισης Συντελεστής Συσχέτισης του Spearman 6 d i r S = 1 n(n 1) d i = R(X i ) R(Y i ) Παρατηρήσεις 1 Αν δεν µας δίνουν τις τιµές των X και Y αλλά τις τάξεις των τιµών τους, τότε r S = r. 1 r S 1, αλλά η συσχέτιση δεν είναι κατ ανάγκην γραµµική. 3 Υπάρχουν πίνακες που µπορούµε να ϐγάλουµε συµπέρασµα για την ισχύ της συσχέτισης ανάµεσα στις δύο µεταβλητές.
Συντελεστής Συσχέτισης Παράδειγµα X Y R(X) R(Y) d d 18-0 4.9 1 1 0 0 1-5 5.1 0 0 6-30 5. 3 3 0 0 31-35 5.3 4 4 0 0 36-40 5.6 5 5 0 0 41-45 5.7 6 6 0 0 46-50 6.1 7 7 0 0 51-55 7.5 8 9.5-1.5.5 56-60 7.4 9 8 1 1 61-64 7.5 10 9.5 0.5 0.5 r S = 1 6 3.5 10(10 1) = 0.9798 υπάρχει πολύ ισχυρή ϑετική συσχέτιση ανάµεσα στην ηλικία και και την συγκέντρωση του µολύβδου στο αίµα που είναι σηµαντική σε επίπεδο σηµαντικότητας 0.1%.
Απλή Γραµµική Παλινδρόµηση Αν υπάρχει µια γραµµική σχέση µεταξύ των δύο µεταβλητών X και Y, αυτό σηµαίνει ότι, Y = a + bx Μέθοδος Ελαχίστων Τετραγώνων (Least Squared Method) Αν προσαρµόσουµε τα δεδοµένα µας πάνω σε µια ευθεία γραµµή, τότε ϑα υπάρχει διαφορά ανάµεσα στη δοσµένη τιµή και την ευθεία. Αυτή η διαφορά ονοµάζεται σφάλµα πρόβλεψης (predictor error). Αυτά τα σφάλµατα µετρώνται στην κατεύθυνση των y, καθώς ϑέλουµε να υπολογίσουµε την καλύτερη εξίσωση των y από τα x. Ŷ = â +ˆbX Y = â + ˆbX + e Υπολογίζουµε τα â και ˆb έτσι ώστε, (y i ŷ i ) = min ˆb = S XY S XX, â = ȳ ˆb x, SXX = (x i x), S XY = x i y i n xȳ
Απλή Γραµµική Παλινδρόµηση Παράδειγµα 1 Y : Οζον X : CFC-1 S XY = 54097.73, S XX = 148868.18, â = 351.10, ˆb = 0.3634 Y = 351.1 0.3634 X Παρατηρήσεις Αυτό σηµαίνει ότι κάθε ϕορά που αυξάνεται κατά µία µονάδα η συγκέντρωση του CFC-1 στην ατµόσφαιρα, τότε υπάρχει µείωση κατά 0.3634 σε µονάδα Dobson του όζοντος. Αν δεν υπάρχει καθόλου το CFC-1 στην ατµόσφαιρα, τότε η στήλη του όζοντος ϑα ήταν 351.1 µονάδες Dobson Οσο πιο µεγάλο είναι το δειγµατικό µέγεθος n, τόσο πιο ακριβής είναι η προσαρµογή της ευθείας. Η ευθεία Y = a + bx ονοµάζεται ευθεία παλινδρόµησης και τα a, b ονοµάζονται συντελεστές παλινδρόµησης.
Απλή Γραµµική Παλινδρόµηση Y i = a + bx i +ǫ i Υποθέσεις (Gauss - Markov) 1 ǫ i N(0,σ ), i = 1,,...,n Cov(ǫ i,ǫ j ) = 0, i j Εποµένως, E(Y i ) = a + bx i Var(Y i ) = Var(ǫ i ) = σ
Ελεγχοι Υποθέσεων ˆb = H 0 : b = 0 vs H 1 : b 0 (X i X)(Yi Ȳ) (X i X) Yi = (X i X) (X i X) εκτιµητής για το b Eˆb = b Εποµένως, (X i X) Var(ˆb) = ( ) Var(Y i ) = (X i X) σ (X i X) ˆb b σ n (Xi X) N(0, 1) T = ˆb b s n (Xi X) t n
Ελεγχοι Υποθέσεων H 0 : b = 0 vs H 1 : b 0 ˆb b T = s n (Xi X) t n (Ποσότητα Οδηγός) όπου, s = (Y i Ŷ i ) n Εποµένως το.ε. για το b µε σ.ε. 1 a είναι, s s ˆb tn,a/ n, ˆb+tn,a/ n (X i X) (X i X) οπότε H 0 απορρίπτεται εάν t > t n,a/, t = ˆb n (X i X) s
Ελεγχοι Υποθέσεων H 0 : a = a 0 vs H 1 : a a 0 â = Ȳ ˆb X Eâ = a Var(â) = εκτιµητής για το a n X i (X i X) Εποµένως το.ε. για το a µε σ.ε. 1 a είναι, [ â t n,a/ s n X i n (X i X), â + t n,a/ s σ n ] X i n (X i X) οπότε H 0 απορρίπτεται εάν t > t n,a/, t = â a0 s n n (Xi X) n X i
ANOVA Πόσο σηµαντική είναι η Παλινδρόµηση; Y i Ȳ = (Ŷ i Ȳ)+(Y i Ŷ) (Y i Ȳ) = (Ŷ i Ȳ) + (Y i Ŷ) SS Total = SS Reg + SS Res SS Total = Η συνολική µεταβλητότητα των Y i SS Regression = Η µεταβλητότητα που οφείλεται στην παλινδρόµηση SS Residual = Η µεταβλητότητα που οφείλεται στο γεγονός ότι όλες οι τιµές Y i δεν ϐρίσκονται πάνω στην ευθεία (Υπάρχουν Υπόλοιπα)
ANOVA H 0 : Μη Σωστή Προσαρµογή (b = 0) Πηγή της ϐαθµοί Μεταβλητότητας ελευθερίας SS MS F Παλινδρόµηση 1 (Ŷ i Ȳ) SS Reg MS Reg 1 s Υπόλοιπα n (Y i Ŷ i) SS Res n = s Συνολικά n 1 (Y i Ȳ i) Παρατήρηση E(MS Reg ) = σ + b (X i X) E(S ) = σ Αν b = 0 τότε, E(MS Reg ) = σ = E(S ) MS Reg 1 S ηλ. απορρίπτω την H 0 εάν, MS Reg > F S 1,n,a
Παλινδρόµηση Ποσοστό µεταβλητότητας που ερµηνεύεται από το µοντέλο R = SS Reg SS Total ονοµάζεται συντελεστής πολλαπλής συσχέτισης. R = (Ŷ i Ȳ) = 1 (Y i Ȳ) (Y i Ŷ i ) (Y i Ȳ) R = r (Pearson s corellation coefficient) Αν έχουµε ένα µοντέλο µε µικρό n, τότε χρησιµοποιούµε τον διορθωµένο συντελεστή συσχέτισης, R adj = 1 (Y i Ŷ i ) /(n ) (Y i Ȳ) /(n 1) = 1 s s y
Παράδειγµα 1 (Συνέχεια) H 0 : a = 0 vs H 1 : a 0 t = 5.93 >.6 = t 9,0.05 εποµένως απορρίπτω την H 0 H 0 : b = 0 vs H 1 : b 0 t = 8.58 >.6 = t 9,0.05 εποµένως απορρίπτω την H 0 H 0 : Μη Σωστή Προσαρµογή (b = 0) Πηγή της ϐαθµοί Μεταβλητότητας ελευθερίας SS MS F Παλινδρόµηση 1 19658 19658 73.58 Υπόλοιπα 9 404 67 Συνολικά 10 063 F = 73.58 > 5.1 = F 1,9,0.05 εποµένως απορρίπτω την H 0 R = 89.1% R adj = 87.9%