Koreláciou rozumieme vzájomý lieáry vz tah závislos t) dvoch áhodých premeých X a Y 1. Teto vz tah môˇze by t priamy tj. s rastúcimi hodotami jedej premeej rastú hodoty druhej premeej a aopak alebo epriamy tj. s rastúcimi hodotami jedej premeej klesajú hodoty druhej a aopak. 1 Koeficiet kovariacie O tom ˇci sú dve premeé X a Y vo vzájomom lieárom vz tahu priamom alebo epriamom) sa môˇzeme presvedˇci t a základe koeficietu kovariacie premeých X a Y oz.: cov xy) defiovaom cov xy = 1 x i x) y) = x y x y. Ak sú premeé X a Y ezávislé potom cov xy = 0. Ak cov xy > 0 medzi X a Y existuje priamy lieáry vz tah. Ak cov xy < 0 medzi X a Y existuje epriamy lieáry vz tah. Pozámka 1 Kovariaciu moˇzo defiova t aj ako cov xy = EXY ) EX) EY ) ˇco vysvet luje druhú ˇcas t defiície kovariacie. Kovariacia tej istej premeej je defiovaá cov xx = 1 x i x) x i x) = 1 Koeficiet korelácie x i x) = Dx) = σ x. Sila lieáreho vz tahu dvoch premeých v základom súbore je daá koeficietom korelácie r XY ktorý môˇze adobúda t iba hodoty z itervalu 1; 1). Ak sú premeé X a Y lieáre ezávislé koeficiet korelácie je rový resp. ve l mi blízky ule. Hodoty blízke 1 sa iterpretujú ako vysoká epriama lieára závislos t a hodoty blízke 1 sa iterpretujú ako vysoká priama lieára závislos t. Hodoty blízke ±0.5 iterpretujeme ako slabú lieáru závislos t. Ak sú však hodoty blízke ule emôˇzeme tvrdi t ˇze premeé X a Y sú ezávislé ale iba to ˇze sú lieáre ekorelovate lé ˇcím máme a mysli apr. elieáru závislos t. Predpokladajme ˇze pozáme párov dvojíc hodôt [x i ] premeých X a Y získaých áhodým výberom pre i = 1... štatistických jedotiek zo 1 V tejto ˇcasti kvôli preh l adosti upúš tame od ozaˇceia áhodých premeých gréckymi písmeami ξ a amiesto ozaˇceia ξ 1 ξ... budeme v d alšom pouˇzíva t ozaˇceie X Y.... 1
základého súboru. Potom sila vzájomej lieárej závislosti premeých X a Y meraá koeficietom korelácie súboru r XY je defiovaá po dosadeí dostávame cov xy σ x σ y x y x y x x y y po úplom vyjadreí bude ma t vz tah tvar ktorý azývame Pearsoov koeficiet korelácie pod l a Karla Pearsoa x i x i ) x i x i ) yi Pomere vysoká hodota koeficietu korelácie r 0.7) zameá ˇze medzi premeými X a Y je vysoká vzájomá lieára závislos t ale to ezameá ˇze medzi premeými existuje aj vysoká príˇciá závislos t pretoˇze môˇze existova t da l šia premeá apr. Z od ktorej je premeá Y taktieˇz lieáre závislá a ktorou sa lepšie vysvetlí variabilita hodôt premeej Y. Stupeˇ príˇciej závislosti premeých X a Y urˇcujú koeficiet determiácie a idex determiácie. 3 Koeficiet determiácie Stupeˇ príˇciej závislosti premeej Y od premeej X vyjadruje koeficiet determiácie defiovaý ako druhá mocia koeficietu korelácie r. Vo výberovom súbore ho ozaˇcujeme r. Iterpretácia koeficieta determiácie vychádza z aalýzy variability rozptylu) závisle premeej Y ktorú by mala do zaˇcej miery vysvetli t variabilita ezávisle premeej X za predpokladu ˇze od ej lieáre závisí ve lkos t hodôt Y. Ak apr. r = 0.7 potom r = 0.49 ˇco zameá ˇze iba 49% variability premeej Y sa dá vysvetli t lieárym vz tahom s premeou X regresou priamkou). Pretoˇze 51% variability premeej Y zostalo evysvetleej lieárym vz tahom s premeou X je zrejmé ˇze model bol zvoleý evhode amiesto lieárej závislosti sa mala uvaˇzova t elieára závislos t). Karl Pearso * 7. 3. 1857 7. 4. 1936) bol aglický matematik a filozof zástaca machizmu.
Príklad 1 Pracovík persoáleho oddeleia urˇcitého podiku cíti ˇze existuje vz tah medzi poˇctom dí absecie v práci a vekom pracovíka. Náhode vyberie pracové zázamy 10 pracovíkov a získa údaje o ich veku v rokoch áhodá premeá X v rokoch) a poˇcte dí v ktorých eastúpili do práce poˇcas kaledáreho roka áhodá premeá Y ). Údaje sú uvedeé v tabu lke x i : 7 61 37 3 46 58 9 36 64 40 : 15 6 10 18 9 7 14 11 5 8. Za predpokladu ˇze medzi poˇctom dí absecie a vekom pracovíka je lieára závislos t posú dte ˇci je priama alebo epriama. Vypoˇcítajte koeficiet korelácie a koeficiet determiácie. Riešeie: Medzivýsledky získame z tabu l ky ktorú miere modifikujeme x i x i yi x i 1 7 15 79 5 405 61 6 371 36 366 3 37 10 1690 370 4 3 18 59 34 414 5 46 9 116 81 414 6 58 7 3364 49 406 7 9 14 841 196 406 8 36 11 196 11 396 9 64 5 4096 5 30 10 40 8 1600 64 30 41 103 19661 11 3817 Medzivýsledky zapíšeme ešte raz = 10 x i = 41 = 103 x i = 19661 yi = 11 x i = 3817. 3
Pre výpoˇcet kovariacie je ajvhodejšie pouˇzi t vz tah x i cov xy = x y x y = = 3817 10 41 10 103 10 = 5193 = 51. 93. Medzi poˇctom dí absecie v roku a vekom pracovíka je epriama lieára závislos t s rastúcim vekom poˇcet dí v roku v ktorých pracovík eastúpi do práce bez udaia dôvodu klesá). Dosadeím do vz tahu x i cov xy = 51.93 = 0.93 85. σ x σ y 13.917 4 = kde σ x a σ x sme vypoˇcítali ako σ x = x x x x = x x = x i x i = = 19661 10 a teda σ x = 193. 69 = 13. 917 σ y = y y = y i ) 41 = 193. 69 10 = 11 10 ) 103 = 16. 01 10 a teda σ y = 16.01 4. Ďalšia moˇzos t je dosadi t priamo do vz tahu = x i ) x i x i x i ) = yi 10 3817 41 103 = 0.93 54. 10 19661 41 ) 10 11 103 ) 4
Koeficiet korelácie r = 0.93 iterpretujeme ako vysokú epriamu lieáru závislos t medzi poˇctom dí absecie v roku a vekom pracovíka. Koeficiet determiácie r = 0.93) = 0.864 9 zameá ˇze 86% variability poˇctu dí absecie v roku je vysvetleá vplyvom veku pracovíka a 14% variability poˇctu dí absecie v roku moˇzo vysvetli t iými príˇciami ako je lieáros t medzi premeými X a Y. Príklad Skupiu áhode vybratých maˇzelských párov sme roztriedili pod la veku maˇzelky X) a veku maˇzela Y). Charakterizujte stupeˇ závislosti medzi vekom maˇzela a vekom maˇzelky koeficietom korelácie. X \ Y 15-5 5-35 35-45 45-55 45-60 65-75 15-5 11 7 5-35 1 17 8 1 35-45 18 5 1 45-55 13 3 45-60 1 6 1 65-75 1 Riešeie: X \ Y 15-5 5-35 35-45 45-55 45-60 65-75 jx x jf x 15-5 11 7 18 18 0 18 0 5-35 1 17 8 1 7 7 30 7 30 35-45 18 5 1 6 6 40 6 40 45-55 13 3 18 18 50 18 50 45-60 1 6 1 8 8 60 8 60 65-75 1 3 3 70 3 70 1 6 8 0 11 3 3800 161600 jy y 1 0 5 30 8 40 0 50 11 60 3 75 4010 jy y 1 0 5 30 8 40 0 50 11 60 3 75 177300 x = 1 N y = 1 N x = 1 N y = 1 N xy = 1 N jx x j ) = 1 3800 = 38.0 jy y j ) = 1 4010 = 40. 1 jx x 1 j) = 161600 = 1616.0 jy yj ) 1 = 177300 = 1773.0 j x j y j ) = 1 11 0 0 + 7 0 30 +. 5
+1 30 0 + 17 30 30 + 8 30 40 + 1 30 50+ + 40 30 + 18 40 40 + 5 40 50 + 1 40 60 + + 50 40 + 13 50 50 + 3 50 60 + +1 60 50 + 6 60 60 + 1 60 70 + +1 70 60 + 70 70) = 1675.0 cov xy = xy x y = 1675 38 40.1 = 151. σ x = x x x x = x x = 1616 38 = 17.0 σ y = y y y y = y y = 1773 40.1 = 164. 99 r xy = cov xy 151. = = 0.897 55. σ x σ y 17.0 164. 99 Koeficiet korelácie idikuje silú priamu lieáru závislos t medzi vekom maˇzelky a maˇzela. r xy = 0.897 55 = 0.805 60. Z koeficieta determiácie vidíme ˇze aˇz 80% variability je vysvetleá lieárou závislos tou. V predošlom príklade boli hodoty daé iak ako sme boli zvykutý doteraz. Boli zapísaé v tabu l ke kde kaˇzdému políˇcku reprezetujúcemu dvojicu hodôt oboch súborov prislúchala daá poˇcetos t. Pri riešeí sme rozmiesteie poˇcetostí áleˇzite vyuˇzili. Pouˇzitím tabu lkového editora Microsoft Offi ce Excel resp. OpeOffi ce Calc sa zrejme aj samoté rutié výpoˇcty zrýchlia. Takýmto spôsobom usporiadaé údaje azývame korelaˇcá tabu l ka. 6