UNIVERZITA KOMENSKÉHO, BRATISLAVA FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY KATEDRA POISTNEJ MATEMATIKY A ŠTATISTIKY PARCIÁLNA A MNOHONÁSOBNÁ KORELÁCIA: KLASICKÝ VS. NEPARAMETRICKÝ PRÍSTUP (Bakalárska práca) HANA LAURINCOVÁ 9.1.10 Štatistika Poistná matematika Vedúci práce: Mgr. Ján Somorčík BRATISLAVA 2008
Abstrakt V tejto práci poukážeme na výhody a nevýhody testovania mnohonásobnej a parciálnej korelácie pomocou parametrických a neparametrických korelačných koeficientov. Hlavným ciel om je pomocou rôznych druhov korelačných koeficientov (Pearsonovho, Spearmanovho a Kendallovho) skúmat a porovnávat kvalitu testov pre koeficient mnohonásobnej a parciálnej korelácie pre vstupné dáta generované z normálneho N ¼, ½µ a neskôr Cauchyho rozdelenia. Na skúmanie kvality testu pomocou koeficientu parciálnej korelácie pri použití Kendallovho korelačného koeficientu predstavíme metódu jackknife. Simuláciami ukážeme platnost postupu na testovanie pomocou koeficientu mnohonásobnej korelácie pri použití Kendallovho korelačného koeficientu, ktorý bol teoreticky popísaný a zverejnený v článku [3] P.A.P Morana z roku 1951, avšak vzhl adom na technické možnosti tej doby nebol simulačne potvrdený. Kl účové slová: Pearsonov korelačný koeficient, Spearmanov korelačný koeficient, Kendallov korelačný koeficient, koeficient mnohonásobnej korelácie, koeficient parciálnej korelácie, jackknife
Čestne prehlasujem, že som túto bakalársku prácu vypracovala samostatne s použitím citovaných zdrojov.................................
Ďakujem vedúcemu mojej bakalárskej práce Mgr. Jánovi Somorčíkovi za množstvo času, ktoré mi venoval, za ochotu, priatel ský prístup, cenné rady a pripomienky.
OBSAH Obsah 1 Úvod 1 2 Rôzne typy korelačných koeficientov 2 2.1 Pearsonov korelačný koeficient................. 2 2.1.1 Výberový Pearsonov korelačný koeficient....... 3 2.2 Spearmanov korelačný koeficient................ 3 2.2.1 Vzt ah medzi Pearsonovým a Spearmanovým korelačným koeficientom................... 4 2.3 Kendallov korelačný koeficient................. 5 2.4 Zhrnutie rôznych druhov korelačných koeficientov..... 6 3 Koeficient mnohonásobnej korelácie 7 3.1 Definícia.............................. 7 3.1.1 Koeficient mnohonásobnej korelácie.......... 7 3.1.2 Výberová korelačná matica............... 8 3.1.3 Výberový koeficient mnohonásobnej korelácie.... 8 3.2 Prípad, ked Y a sú normálne rozdelené........... 9 3.2.1 Testovanie pomocou Spearmanovho korelačného koeficientu.......................... 10 3.2.2 Testovanie pomocou Kendallovho korelačného koeficientu.......................... 13 3.2.3 Prípad, ked Y a sú závislé.............. 16 3.3 Prípad, ked Y a majú Cauchyho rozdelenie......... 26 3.3.1 Prípad, ked H ¼ platí................... 26 3.3.2 Prípad, ked H ¼ neplatí.................. 29 4 Koeficient parciálnej korelácie 30 4.1 Definícia.............................. 30 4.1.1 Koeficient parciálnej korelácie.............. 30 4.1.2 Výberový koeficient parciálnej korelácie........ 31 4.2 Prípad, ked Y, Z, X sú normálne rozdelené.......... 32 5
OBSAH 4.2.1 Prípad, ked H ¼ platí................... 33 4.2.2 Metóda jackknife..................... 34 4.2.3 Prípad, ked H ¼ platí, ale kovariančná matica nie je identická.......................... 39 4.2.4 Prípad, ked H ¼ neplatí.................. 40 4.3 Prípad, ked Y, Z, X majú Cauchyho rozdelenie........ 42 4.3.1 Prípad, ked H ¼ platí................... 43 4.3.2 Prípad, ked H ¼ neplatí.................. 44 5 Záver 47 A Príloha - Simulácie v štatistickom softvéri R 50 A.1 Koeficient mnohonásobnej korelácie.............. 50 A.1.1 Výberová korelačná matica............... 50 A.1.2 Výberový koeficient mnohonásobnej korelácie.... 50 A.1.3 Odhad chyby prvého druhu............... 50 A.1.4 Odhad sily testu (generovanie závislých dát)..... 51 A.2 Koeficient parciálnej korelácie................. 52 A.2.1 Jackknife.......................... 52 6
1 Úvod V praxi sa často stretávame s potrebou merat závislost náhodných premenných. V literatúre aj pri praktických výpočtoch sa najčajstejšie na meranie tejto závislosti používa tzv. Pearsonov korelačný koeficient. My si ale predstavíme aj iné spôsoby výpočtu korelačných koeficientov, a to konkrétne neparametrické metódy - Spearmanov a Kendallov korelačný koeficient. Obidva pracujú s tzv. poradiami náhodných premenných a nie ich konkrétnymi hodnotami, čo môže byt v niektorých prípadoch vel mi užitočné. V tejto práci sa zameriame na zist ovanie kvality testov pomocou koeficientu mnohonásobnej a parciálnej korelácie, pričom vo vzt ahu pre ich výpočet použijeme rôzne druhy korelačných koeficientov. Ich kvalitu budeme merat pomocou odhadov chyby prvého druhu a sily testu. Koeficient mnohonásobnej korelácie meria závislost medzi náhodnou premennou a nejakým vektorom náhodných premmených. Koeficient parciálnej korelácie vyjadruje mieru závislosti medzi dvoma náhodnými premennými s vylúčením vplyvu nejakého vektora náhodných premenných, čo je často v praxi vel mi dôležité poznat. Vo vzt ahoch pre ich výpočet (ktorý predstavíme neskôr) je použitý práve Pearsonov korelačný koeficient. Prirodzene sa nám núka otázka, či by bolo možné vo vzt ahu pre ich výpočet použit iný druh korelačného koeficientu? Ak áno, kedy je výhodnejšie použit Pearsonov, Spearmanov, resp. Kendallov korelačný koeficient? Ako by kvalitu testu pomocou koeficientu mnohonásobnej a parciálnej korelácie ovplynila zmena typu rozdelenia vstupných dát? Na tieto otázky budeme hl adat odpovede, pričom budeme menit typ rozdelenia dát, s ktorými budeme pracovat. Konkrétne sa zameriame na náhodný výber z normálneho N ¼, ½µ a Cauchyho rozdelenia. Predsta- 1
víme aj metódu jackknife, pomocou ktorej budeme odhadovat smerodajnú odchýlku pri testovaní pomocou koeficientu parciálnej korelácie, kde vo vzt ahu pre jeho výpočet použijeme Kendallov korelačný koeficient. Na zist ovanie kvality testu pomocou koeficientu mnohonásobnej korelácie, kde vo vzt ahu pre jeho výpočet použijeme Kendallov korelačný koeficient, predstavíme a simulačne overíme postup, ktorý bol navrhnutý v článku [3] P.A.P. Morana. 2 Rôzne typy korelačných koeficientov Teraz si ukážeme, ako sú jednotlivé korelačné koeficienty definované, prípadne, aké sú medzi nimi vzt ahy. Potrebujeme to z dôvodu, že ich neskôr budeme dosadzovat do vzt ahov na výpočet koeficientu mnohonásobnej a parciálnej korelácie a na základe výsledkov, ku ktorým dospejeme, porovnáme navzájom dosiahnutú kvalitu testov. 2.1 Pearsonov korelačný koeficient Nech X a Y sú náhodné veličiny s konečnými druhými momentami a s kladnými rozptylmi. Závislost týchto veličín na sebe sa často meria pomocou korelačného koeficientu ρ cov X, Y µ. varxµ vary µ Niekedy namiesto ρ píšeme ρ Y,X, aby sme vyznačili, o ktoré veličiny sa jedná. Je zrejmé, že ρ Y,X ρ X,Y. L ahko sa dá ukázat, že platí { ρx,y ac > ¼ ρ ax b,cy d ρ X,Y ac < ¼ Pri lineárnej transformácii sa teda korelačný koeficient bud nezmení vôbec alebo len zmení znamienko. 2
2.2 Spearmanov korelačný koeficient Veta 1 Pre korelačný koeficient platí ½ ρ Y,X ½. Rovnost ρ Y,X ½ platí práve vtedy, ak Y a bx s pravdepodobnost ou 1, pričom b > ¼. Analogicky rovnost ρ Y,X ½ platí práve vtedy, ak Y a bx s pravdepodobnost ou 1, pričom b < ¼. Dôkaz: [2] 2.1.1 Výberový Pearsonov korelačný koeficient Majme náhodný výber X ½, Y ½ µ T,..., X n, Y n µ z nejakého dvojrozmerného rozdelenia. Označme X aritmetický priemer a S ¾ X výberovú disperziu Y ½...Y n. Ďalej definujme S X,Y ½ n ½ n X i Xµ Y i Y µ. i ½ Ak je S ¾ X > ¼ a S¾ Y > ¼, definujeme výberový korelačný koeficient r vzorcom r X,Y S XY. S ¾ X SY ¾ Výberový korelačný koeficient r X,Y je teda odhadom pre ρ Y,X. 2.2 Spearmanov korelačný koeficient Nech R ½,...,R N µ R X ½,...,X N µ, Q ½,...,Q N µ Q Y ½,...,Y N µ sú vektory poradí náhodných premenných X X ½,..., X N µ a Y Y ½,...,Y N µ v ich usporiadaní podl a vel kosti. (Na ilustráciu vektora poradí si môžeme uviest príklad: Majme vektor A, ½, ¾¼, µ, jeho vektor poradí (po anglicky rank) je vektor R A, ¾,, ½µ, teda poradia nadobúdajú hodnoty len z prirodzených čísel.) 3
2.2 Spearmanov korelačný koeficient Ak R ½,...,R N µ, Q ½,..., Q N µ sú vektory z R Nµ, tak S N N R i Q i i ½ sa nazýva Spearmanova štatistika a číslo kde ρ Spearman ½ N σ R σ Q ½ N N i ½ R i N ½ µ Q ¾ i N ½ ¾ µ, σ R σ Q N i ½ sa nazýva Spearmanov korelačný koeficient. i N ½ ¾ Teraz si uvedieme Vetu, ktorá nám hovorí o niektorých vlastnostiach Spearmanovho korelačného koeficientu, pričom vlastnost (I) uvádzame hlavne z dôvodu zrýchlenia našich simulácii: Veta 2 (I) Pre Spearmanov korelačný koeficient platí, že µ ¾, ρ Spearman ½¾ N N ¾ ½µ N i ½ R i N ½ ¾ µ Q i N ½ µ ¾ ½¾ N N ¾ ½µ S N ¾ N N ½µ µ ½ N N ¾ ½µ N R i Q i µ ¾. (II) ρ Spearman ½, pričom ρ Spearman ½ práve vtedy, ak R i Q i pre všetky i, a rovnost ρ Spearman ½ nastáva práve vtedy, ak R i N ½ Q i pre všetky i. Dôkaz (I),(II): [1] i ½ 2.2.1 Vzt ah medzi Pearsonovým a Spearmanovým korelačným koeficientom Pozrime sa ešte raz na vzt ah, ktorým je definovaný Spearmanov korelačný koeficient (2.2). Spravme aritmetický priemer poradí R: R R ½ R ¾... R N N ½ ¾... N N N N ½µ ¾ N N ½ ¾ 4
2.3 Kendallov korelačný koeficient (Je zrejmé, že R Q.) Z predchádzajúceho odvodenia vidíme, že môžeme vzt ah prepísat na a ked že tak dostávame ρ Spearman ½ N ρ Spearman N i ½ R i N ½ ½ ½ N N µ Q i N ½ ¾ µ ¾, N ½ i ½ i ¾ µ¾ N i ½ R N i Rµ Q i Qµ N i ½ i Rµ, ¾ ½ N N i Rµ ¾ i ½ N R i Rµ ¾, i ½ ρ Spearman ½ N i ½ R N i Rµ Q i Qµ N i ½ R i Rµ, ¾ ½ N čo zodpovedá Pearsonovmu korelačnému koeficientu medzi poradiami R Xµ a Q Y µ. 2.3 Kendallov korelačný koeficient Nech X, Y µ je dvojrozmerný náhodný vektor. Ak sú vektory X ½, Y ½ µ, X ¾, Y ¾ µ nezávislé a rozdelené ako X, Y µ, tak v označení P P X ½ X ¾ µ Y ½ Y ¾ µ > ¼µ, P P X ½ X ¾ µ Y ½ Y ¾ µ < ¼µ sa číslo τ P P nazýva Kendallovým koeficientom korelácie náhodných premenných X, Y. Veta 3 Nech τ je Kendallov koeficient korelácie náhodných premenných X, Y. (I) τ ½ (II) τ ½ práve vtedy, ak s pravdepodobnost ou 1 majú X ½ X ¾, Y ½ Y ¾ rovnaké znamienko, a teda nárast (pokles) hodnôt X je spojený s nárastom (poklesom) 5
2.4 Zhrnutie rôznych druhov korelačných koeficientov hodnôt Y. (III) τ ½ práve vtedy, ak s pravdepodobnost ou 1 majú X ½ X ¾, Y ½ Y ¾ opačné znamienko, a teda nárast (pokles) hodnôt X je spojený s poklesom (nárastom) hodnôt Y. (IV) Ak sú náhodné premenné X, Y nezávislé, tak τ ¼. Dôkaz: [1] Kendallov korelačný koeficient možno teda použit ako mieru asociácie medzi zložkami dvojrozmerného náhodného vektora. Výberový Kendallov korelačný koeficient (odhad pre τ) je definovaný nasledovným spôsobom: τ τ N ½ N N ½µ N N sign R i R j µsign Q i Q j µ i ½ j ½ ¾ N N ½µ N ½ N i ½ j i ½ sign R i R j µsign Q i Q j µ, kde R ½,...,R N µ je vektor poradí výberu X ½,...,X N µ v jeho usporiadaní podl a vel kosti a Q ½,...,Q N µ je vektor poradí výberu Y ½,...,Y N µ v jeho usporiadaní podl a vel kosti; X ½,...,X N, Y ½,...,Y N sú navzájom rôzne. 2.4 Zhrnutie rôznych druhov korelačných koeficientov V tejto kapitole sme si definovali rôzne druhy korelačných koeficientov. Najznámejším a v praktických výpočtoch aj najčastejšie používaným je Pearsonov korelačný koeficient. Ako sme ukázali v 2.2.1, Spearmanov korelačný koeficient je možné chápat ako Pearsonov medzi poradiami R Xµ, R Y µ dvoch náhodných premenných X, Y. Kendallov korelačný koeficient(ako vidno v 2.3) sleduje, či so zmenou zložky X vektora X, Y µ sa rovnakým smerom zmenilo aj Y, teda si stačí všímat znamienka (ked že vo vzt ahu pre Kendallov korelačný koeficient vystupuje funkcia signum). 6
3 Koeficient mnohonásobnej korelácie 3.1 Definícia 3.1.1 Koeficient mnohonásobnej korelácie Majme náhodnú veličinu Y a náhodný vektor X ½,...,X p µ T s konečnými druhými momentami. Závislost medzi Y a celým vektorom X ½,...,X p µ T meriame pomocou koeficientu mnohonásobnej korelácie ρ Y,, čo je korelačný koeficient medzi veličinou Y a jej najlepšou lineárnou aproximáciou Y α β T. Ak je β ¼, definuje sa ρ Y, ¼. Pretože platí ρ Y, ρ Y,α β T ρ Y,β T a cov Y, β T µ cov Y, µβ cov Y, µî ½ cov, Y µ ¼, kde V=varX, je koeficient mnohonásobnej korelácie vždy nezáporný. Veta 4 Označme È corx. Potom platí ρ ¾ Y, cor Y, µè ½ cor, Y µ. Dôkaz:[1] Popíšme si vzt ah medzi P corx a V varx. Označme D varx½ ¼ ¼... ¼ varx¾............................ varxp Potom platí P D ½ V D ½. Je to vidiet zo vzt ahu, ktorým je definovaný Pearsonov korelačný koeficient (2.1). 7
3.1 Definícia 3.1.2 Výberová korelačná matica Majme nejaké p-rozmerné rozdelenie so strednou hodnotou µ a kovariančnou maticou Î. Nech ½ X ½½... X ½p,..., Ò je náhodný výber z tohoto rozdelenia. Vezmeme prípad n > p. Zaved me výberový priemer a výberovú kovariančnú maticu Ë s ij µ nasledovným spôsobom: X n½... X np ½ n, (1) n Ë i ½ ½ n ½ n µ µ T. (2) i ½ Ak sú všetky diagonálne prvky matice Ë kladné, definujeme výberovú korelačnú maticu Ê Ê, r ij µ ( sij sii s jj ) p i,j ½. Diagonálne prvky matice Ê sú vždy rovné 1. Nediagonálne prvky sú výberové korelačné koeficienty zodpovedajúcich zložiek a platí pre ne ½ r ij ½. 3.1.3 Výberový koeficient mnohonásobnej korelácie Ak dosadíme do vzorcov pre ρ Y, výberové hodnoty, dostaneme výberový koeficient mnohonásobnej korelácie r Y,. Nech ( Y½ ½ ) ),..., 8 ( Yn Ò (3)
3.2 Prípad, ked Y a sú normálne rozdelené je náhodný výber z rozdelenia, ktoré má náhodný vektor Y, T µ T a nech výberová korelačná matica Ê, je regulárna. Potom r Y, Ê Y, Ê ½, Ê,Y. (4) Ukážme si teraz, ako vyzerá výberová korelačná matica Ê,, kde ( ) Y. Jej tvar v prípade, že vektor je -rozmerný p µ je: Ê, ½ R Y,...... R,Y............. R,............. Všeobecne je matica Ê, rozmeru p ½µ p ½µ, prípad pre p uvádzame preto, že vo výpočtoch (spúšt aní simulácii) budeme používat práve túto hodnotu. Dôvodom, prečo skúmame tvar tejto korelačnej matice, je zrýchlenie simulácii. Na výpočet koeficientu mnohonásobnej korelácie nám totiž teraz stačí spočítat výberovú korelačnú maticu Ê, a z nej vybrat vhodné riadky alebo stĺpce. 3.2 Prípad, ked Y a sú normálne rozdelené Zostrojme test pre H ¼ ρ Y, ¼ proti H ½ ρ Y, > ¼. Hladinu významnosti si zvol me α ±. Platí Veta 5 Nech (3) je výber z regulárneho normálneho rozdelenia. Ak platíρ Y, ¼ a n > p ½d, potom Z n p ½ p r ¾ Y, ½ r ¾ Y, F p,n p ½, 9
3.2 Prípad, ked Y a sú normálne rozdelené kde na vo vzt ahu na výpočet r Y, je použitý Pearsonov korelačný koeficient. Dôkaz: [2] Teda, ak platí H ¼, tak Z F p,n p ½. Určíme kritickú oblast testu (teda oblast, kde H ¼ zamietame): Test bude mat kritickú oblast tvaru S {Z > c}, kde c určíme z podmienky P chyby 1. druhuµ ±, teda P Z > cµ ±. Z toho vyplýva, že c kritická hodnota F p,n p ½ ¼.¼ µ. Teda kritická oblast S (naše testovacie pravidlo) bude mat tvar: S {Z > kritická hodnota F p,n p ½ ¼.¼ µ}, teda H ¼ zamietame, ak Z > kritická hodnota F p,n p ½ ¼.¼ µ 3.2.1 Testovanie pomocou Spearmanovho korelačného koeficientu Pozrime sa na Vetu 5 v podkapitole 3.2. Táto Veta platí za predpokladu, že pre výpočet r Y, je použitý Pearsonov korelačný koeficient. Ked že poznáme vzt ah medzi Pearsonovým a Spearmanovým korelačným koeficientom (Spearmanov je to isté ako Pearsonov medzi poradiami náhodných premenných) intuitívne nás to vedie k tušeniu, že by táto Veta mohla asymptoticky (pre vel ké n) platit aj pre Spearmanov korelačný koeficient. (Nikde v literatúre sme sa o tom nedočítali.) Či táto Veta platí alebo nie, budeme skúmat pomocou odhadov chýb prvého druhu, tzn. skúmame P H ¼ zamietame H ¼ platíµ h. Pokial totiž Veta platí, mali by chyby prvého druhu vychádzat blízko k ± (hladinu významnosti si zvolíme ±). Čo znamená blízko k ± si určíme pomocou intervalu spol ahlivosti pre chybu prvého druhu h. Vetu 5 budeme považovat pri použití Spearmanovho korelačného koeficientu za približne platnú, ak interval spol ahlivosti pre h obsahuje ±. Ukážeme si, ako tento interval spol ahlivosti pre h vyzerá. 10
3.2 Prípad, ked Y a sú normálne rozdelené Skutočnú chybu prvého druhu by bolo vel mi náročné zist ovat, preto ju odhadujeme pomocou bodového odhadu h X N, kde N je počet simulácii, X je počet zamietnutí nulovej hypotézy; X bin N, hµ. Hl adáme ± interval spol ahlivosti pre h. Z Centrálnej limitnej vety vyplýva X Nh Nh ½ hµ. N ¼, ½µ (5) P µ ¾, ± < X Nh Nh ½ hµ < µ ¾, ± µ. ± (6) P h µ ¾, ± h ½ hµ N < h < h µ¾, ± h ½ hµ µ N. ± (7) Počet simulácií si zvolíme N ½¼¼¼¼¼. Vypočítame polomer intervalu spol ahlivosti: µ ¾, ± h ½ hµ N. ¼. ± Teraz budeme skúmat pre aké n patrí ± do intervalu spol ahlivosti, teda pre aké n padne h do intervalu. ±,. ±µ. Vo vzt ahu vo Vete 5 namiesto Pearsonovho korelačného koeficientu použijeme Spearmanov korelačný koeficient a skúmame odhad chyby prvého druhu. Na ilustráciu a l ahšiu predstavu uvádzame aj obrázok 3.2.1, ktorý znázorňuje odhadnuté chyby prvého druhu a ich intervaly spol ahlivosti. Vetu 5 považujeme pri použití Spearmanovho korelačného koeficientu za približne platnú, ak interval spol ahlivosti pre h obsahuje ± (teda, ak h. ±,. ±µ). Z tabul ky 1 aj obrázka 3.2.1 je vidiet, že pre n ½, n ½, n ½ chyba prvého druhu /. ±,. ±µ. Pre n ¾¼, n ¾, n ¼, n, n ¼ táto chyba. ±,. ±µ. Simulačne sme teda ukázali, že zrejme pren > ½ 11
3.2 Prípad, ked Y a sú normálne rozdelené Tabul ka 1: Mnohonásobná - Spearman - Normálne rozdelenie - CHPD n p počet simulácií h v % 15 3 100000 5.402 18 3 100000 5.365 19 3 100000 5.381 20 3 100000 5.25 25 3 100000 5.219 30 3 100000 5.067 35 3 100000 5.184 40 3 100000 5.117 Obr. 1: Odhady chýb prvého druhu a ich intervaly spol ahlivosti má Z n p ½ p r ¾ Y, ½ r ¾ Y, približne F p,n p ½ rozdelenie, kde r Y, je ËÔ ÖÑ ÒÓÚ korelačný koeficient. Na základe zrealizovaných simulácii sa ukázalo, že Veta 5 zrejme pre 12
3.2 Prípad, ked Y a sú normálne rozdelené n > ½ približne platí aj pre ËÔ ÖÑ ÒÓÚ korelačný koeficient. 3.2.2 Testovanie pomocou Kendallovho korelačného koeficientu Pozrime sa na situáciu, ked vo vzt ahu pre výpočet výberového koeficientu mnohonásobnej korelácie (4) použijeme Kendallov korelačný koeficient. Ked sme použili analogický postup ako pre Spearmanov korelačný koeficient, zistili sme, že odhad chyby prvého druhu je vel mi vzdialený od ±. To nás nabáda k hl adaniu nejakého iného postupu, pomocou ktorého by bolo možné testovat aj pri použití Kendallovho korelačného koeficientu. Na postup, ktorý práve popíšeme, nás naviedol článok [3] P.A.P. Morana z roku 1951, v ktorom autor navrhol možnost ako testovat pomocou Kendalla, avšak vzhl adom na dobu, v ktorej ju objavil, ju nemohol simulačne overit. My sa pokúsime túto simuláciu zrealizovat. Autor odvodil testovaciu štatistiku pre H ¼ ρ Y, ¼ proti H ½ ρ Y, > ¼ pre p ¾, teda X ½, X ¾ µ nasledovným spôsobom: Vo vzt ahu pre výpočet koeficientu mnohonásobnej korelácie použime Kendallov korelačný koeficient. Moran komplikovanými výpočtami odvodil odhad strednej hodnoty kvadrátu r ¾ Y, Kendall, kde X ½ a X ¾ ponechal fixované: E r ¾ Y, Kendall µ ¾ n n ½µ ½ τ ¾ X ½,X ¾ µ {¾ ¾n µ τ ¾ X½,X ¾ n ½µτ X½,X ¾ r X½,X ¾ Spearman} Autor sa domnieva, že pre vel ké n (aké vel ké vzhl adom na to, že v tom čase nemal k dispozícii počítač, nedokáže určit ) je rozumné testovat r Y, Kendall tak, ako by to bol r Y, Pearson. Odhad strednej hodnoty pri použití Pearsonovho korelačného koeficientu má tvar E r ¾ Y, Pearson µ p n ½, 13
3.2 Prípad, ked Y a sú normálne rozdelené kde n je rozsah náhodného výberu. Potom n p ½ p r ¾ Y, Pearson ½ r ¾ Y, Pearson F p,n p ½, čo zodpovedá našej testovacej štatistike Z z Vety 5. Moran tvrdí, že E ry, Kendall ¾ µ je možné zapísat v podobnom tvare E r ¾ Y, Kendall µ ¾ n ½ p ¾µ a ako testovaciu štatistiku použit n p ½ p r ¾ Y, Kendall ½ r ¾ Y, Kendall F p,n p ½, kde n ½ ¾ E r ¾ Y, Kendall µ. Simulujme teraz odhady chyby prvého druhu pri použití vyššie uvedenej metódy. 14
3.2 Prípad, ked Y a sú normálne rozdelené Tabul ka 2: Mnohonásobná - Kendall - Normálne rozdelenie - CHPD n p počet simulácií h v % 4 2 100000 2.194 5 2 100000 2.552 6 2 100000 4.270 7 2 100000 5.032 8 2 100000 4.905 9 2 100000 5.059 10 2 100000 5.036 15 2 100000 4.999 20 2 100000 5.045 25 2 100000 4.975 30 2 100000 4.957 35 2 100000 4.886 40 2 100000 5.09 Obr. 2: Odhady chýb prvého druhu a ich intervaly spol ahlivosti - Kendall Z tabul ky 2 aj z obrázka 3.2.2 vidíme, že už od Ò > odhady chyby 15
3.2 Prípad, ked Y a sú normálne rozdelené prvého druhu h. ±,. ±µ. Simulačne sme teda ukázali od akého n je rozumné testovat koeficient mnohonásobnej korelácie pri použití Kendallovho korelačného koeficientu takisto, ako keby sme použili Pearsonov, len s tým rozdielom, že n nahradíme v testovacej štatistike n. 3.2.3 Prípad, ked Y a sú závislé Poznáme už aj postup na testovanie pomocou koeficientu mnohonásobnej korelácie, ked vo vzt ahu pre jeho výpočet použijeme Kendallov korelačný koeficient. Teraz sa ale prirodzene vynára otázka, ktorý z týchto korelačných koeficientov je lepšie použit vo vzt ahu pre výpočet mnohonásobnej korelácie. Toto budeme merat pomocou odhadov síl testu, teda simulujeme hodnoty ½ P H ¼ nezamietame H ¼ neplatíµ P H ¼ zamietame H ¼ neplatíµ. Porovnáme, pri použití ktorého koeficientu korelácie bude sila testu väčšia. Samozrejme, hodnoty nasimulované pri použití Kendallovho korelačného koeficientu nie je možné priamo porovnat s ostatnými dvoma typmi, ked že v tomto prípade p ¾ a v ostatných dvoch p. Doteraz sme generovali nezávislé Y, z normálneho rozdelenia. Pri skúmaní síl testu, ale bude potrebné nagenerovat závislé Y, (ked že v definícii sily testu vystupuje podmienka H ¼ neplatí, platí teda alternatívna hypotéza, ktorá hovorí, že Y, sú závislé.) Uvažujme prípad, že H ¼ neplatí. Teda platí H ½ ρ Y, ¼, t.j. Y a sú závislé. Teraz je potrebné vyriešit problém, ako z nezávislých Y a získat Y a závislé: 16
3.2 Prípad, ked Y a sú normálne rozdelené teda Y je náhodný výber z N ¼, ½µ, je náhodný výber z ( Y ( Y N ¼ ¼ ¼, ) N ) ¼ ¼ ¼ ¼ ½ ¼ ¼ ¼ ½ ¼ ¼ ¼ ½,, ½ ¼ ¼ ¼ ¼ ½ ¼ ¼ ¼ ¼ ½ ¼ ¼ ¼ ¼ ½ Označme É Podl a Vety z [2] platí:, potom É N µ, Iµ AÉ N Aµ, AIA }{{ T } µ, AA T z toho vyplýva, že ak A ½ ¾, tak AA T ½ ¾ ½ ¾ µ T. Na to, aby sme získali Y a závislé, potrebujeme teda poznat ½ ¾ : Zo Schurovej vety vyplýva: U λ ½ ¼ ¼ ¼ ¼ λ ¾ ¼ ¼ ¼ ¼ λ ¼ UT, ¼ ¼ ¼ λ kde λ ½,...,λ sú vlastné čísla matice a U je matica jej vlastných vektorov. Kedže je symetrická, kladne definitná matica, môžeme vyjadrit ½ ¾ U λ½ ¼ ¼ ¼ ¼ λ¾ ¼ ¼ ¼ ¼ λ ¼ ¼ ¼ 17 ¼ λ UT,
3.2 Prípad, ked Y a sú normálne rozdelené takže po prenásobení ½ ¾ É dostávame AÉ N Aµ, µ, kde A ½ ¾. Rôzne hodnoty ρ Y, dosiahneme rôznou vol bou matice. Budeme skúmat kvalitu testu pomocou koeficientu mnohonásobnej korelácie pri použití Pearsonovho a Spearmanovho korelačného koeficientu pri normálne rozdelených Y, s rôzne zvolenými kovariančnými maticami. Simulujeme odhady sily testov, t.j. hodnoty ½ P H ¼ nezamietame H ¼ neplatíµ pri použití Pearsonovho, Spearmanovho korelačného koeficientu, resp. Kendallovho korelačného koeficientu. Testovacie pravidlo bude rovnaké, ako ked sme simulovali odhady chyby 1. druhu (podl a Vety 5) : H ¼ zamietame, ak Z > kritická hodnotaf p,n p ½ ¼.¼ µ Prípad 1. Zvol me ½ ρ ρ ρ ρ ½ ¼ ¼ ρ ¼ ½ ¼. ρ ¼ ¼ ½ Ked že matica musí byt kladne definitná, podl a Sylvestrovho kritéria musí platit : ½ ρ ¾ > ¼ ½ ¾ρ ¾ > ¼ ½ ρ ¾ ½ > ¼, takže < ρ < ½. Zvolíme rôzne hodnoty ρ tak, aby bola splnená podmienka kladnej definitnosti. Ked zvolíme ρ. ¼, H ¼ takmer platí a teda sa dá očakávat, že sila testov bude slabá. Naopak, ak zvolíme ρ. ½, H ¼ je silno porušená, teda očakávame, že sila testov bude vel ká. a) Pri použití Pearsonovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ, sú nasimulované sily testov 18
3.2 Prípad, ked Y a sú normálne rozdelené nasledovné: Tabul ka 3: Mnohonásobná - Pearson - Normálne rozdelenie - Sila - Prípad 1 n p počet simulácií ρ sila testu v % 40 3 500 0.5 100 20 3 100000 0.5 99.758 20 3 100000 0.3 47.085 20 3 100000 0.2 19.511 b)pri použití Spearmanovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ, sú nasimulované sily testov nasledovné: Tabul ka 4: Mnohonásobná - Spearman - Normálne rozdelenie - Sila - Prípad 1 n p počet simulácií ρ sila testu v % 20 3 100000 0.5 98.723 20 3 100000 0.3 40.73 20 3 100000 0.2 17.776 Pozrime sa na odhady sily testu aj pri použití Kendallovho korelačného koeficientu. Pre n ¼ je test schopný s pravdepodobnost ou rovnou približne 1 odhalit závislost medzi Y a, preto volíme n < ¼, aby bolo možné porovnat sily testu pri použití Pearsonovho a Spearmanovho korelačného koeficientu. Z tabuliek je vidiet, že pri použití Pearsonovho korelačného koeficientu 19
3.2 Prípad, ked Y a sú normálne rozdelené Tabul ka 5: Mnohonásobná - Kendall - Normálne rozdelenie - Sila - Prípad 1 n p počet simulácií ρ sila testu v % 20 2 100000 0.5 83.297 20 2 100000 0.3 31.062 20 2 100000 0.2 15.025 sú odhady sily testov väčšie, ako pri použití Spearmanovho korelačného koeficientu. Nasimulované sily testu z tabul ky 5 nie je možné priamo porovnat s nasimulovanými hodnotami pri použití Pearsonovho a Spearmanovho korelačného koeficientu, ked že tu máme p ¾. Vidíme však, že je možné použit aj tento typ korelačného koeficientu a dosiahnut tak slušnú kvalitu výberového koeficientu mnohonásobnej korelácie. Prípad 2. Zvol me ½ ρ ¼ ¼ ρ ½ ¼ ¼ ¼ ¼ ½ ¼. ¼ ¼ ¼ ½ Zo Sylvestrovho kritéria vyplýva, že matica je kladne definitná pre ½ ρ ¾ < ¼, ρ teda volíme tak, aby bola splnená táto podmienka. Intuitívne by sa dalo očakávat, že odhad sily testu poklesne oproti Prípadu 1., ked že test t ažšie odhalí závislost len medzi niektorými zložkami Y a. a) Pri použití Pearsonovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ, sú nasimulované sily testov nasledovné: 20
3.2 Prípad, ked Y a sú normálne rozdelené Tabul ka 6: Mnohonásobná - Pearson - Normálne rozdelenie - Sila - Prípad 2 n p počet simulácií ρ sila testu v % 20 3 100000 0.7 85.975 20 3 100000 0.5 43.252 20 3 100000 0.3 15.147 b) Pri použití Spearmanovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ, sú nasimulované sily testov nasledovné: Tabul ka 7: Mnohonásobná - Spearman - Normálne rozdelenie - Sila - Prípad 2 n p počet simulácií ρ sila testu v % 20 3 100000 0.7 78.633 20 3 100000 0.5 37.79 20 3 100000 0.3 14.066 Náš intuitívny predpoklad sa ukázal ako pravdivý, nasimulované sily testov naozaj poklesli oproti Prípadu 1. Takisto ako v Prípade 1., aj tu z tabuliek vidiet, že pri použití Pearsonovho korelačného koeficientu sú odhady sily testu väčšie, ako pri použití Spearmanovho korelačného koeficientu. 21
3.2 Prípad, ked Y a sú normálne rozdelené Prípad 3. Zvol me ½ ρ ρ ρ ρ ½ ρ ρ ρ ρ ½ ρ. ρ ρ ρ ½ Volíme ρ tak, aby bola splnená podmienka kladnej definitnosti matice. Ked že koeficient mnohonásobnej korelácie popisuje závislost medzi Y a, mohlo by sa zdat, že ho neovplyvní závislost medzi zložkamix ½, X ¾, X matice a sily testov by potom mali vyjst rovnaké ako v Prípade 1.. a) Pri použití Pearsonovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ, sú nasimulované sily testov nasledovné: Tabul ka 8: Mnohonásobná - Pearson - Normálne rozdelenie - Sila - Prípad 3 n p počet simulácií ρ sila testu v % 20 3 100000 0.5 67.705 20 3 100000 0.3 27.588 20 3 100000 0.2 14.599 b) Pri použití Spearmanovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ, sú nasimulované sily testov nasledovné: 22
3.2 Prípad, ked Y a sú normálne rozdelené Tabul ka 9: Mnohonásobná - Spearman - Normálne rozdelenie - Sila - Prípad 3 n p počet simulácií ρ sila testu v % 20 3 100000 0.5 62.044 20 3 100000 0.3 25.364 20 3 100000 0.2 13.847 Z tabuliek 8, 9 vidíme, že sily testov nie sú rovnaké ako v Prípade 1, teda koeficient mnohonásobnej korelácie je ovplyvňovaný aj závislost ou zložiek X ½, X ¾, X matice, naša intuícia teda nebola správna. Zdôvodnenie: Koeficient mnohonásobnej korelácie ρ Y, je definovaný: ρ Y, cor Y, µp ½ cor, Y µ V matici 3 označme x prvky, ktoré vyjadrujú závislost medzi zložkami X ½, X ¾, X matice. V našom prípade: ( cor Y, µ ρ, ρ, ρ ½ ρ ρ ρ ρ ½ x x ρ x ½ x. ρ x x ½ ), cor, Y µ ρ ρ ρ P ½ ½ ½ ¾x x ¾ ½ x ¾ x x ¾ µ x ¾ x x x ¾ µ ½ x ¾ x x ¾ µ x ¾ x x x ¾ µ ½ x ¾ 23
3.2 Prípad, ked Y a sú normálne rozdelené Úpravami dostávame: ρ Y, ρ¾ x ¾ xµ ½ ¾x x ¾, z čoho jasne vidiet, že ρ Y, závisí od x. ρ Y, ρ Y, ρ ¾, ak x ¼ ρ ¾ ½ ρµ ¾, ak x ½ ¾ρ ρ ¾ ρ x ¼ zodpovedá Prípadu 1., x ρ zodpovedá Prípadu 3. Platí ρ ¾ ½ ρµ ¾ ½ ¾ρ ρ ¾ < ρ ¾, preto nám odhady sily testu vyšli v Prípade 3. menšie ako v Prípade 1. (Test t ažšie odhalí menšie ρ Y,.) Takisto ako v predošlých prípadoch 1. a 2. aj tu z tabuliek vidiet, že pri použití Pearsonovho korelačného koeficientu sú odhady sily testu väčšie, ako pri použití Spearmanovho korelačného koeficientu. Prípad 4. Zvol me ½ ¼ ¼ ¼ ¼ ½ ρ ρ ¼ ρ ½ ρ. ¼ ρ ρ ½ Volíme ρ tak, aby bola splnená podmienka kladnej definitnosti matice. Intuitívne sa dá očakávat, že v tomto prípade bude platit nulová hypotéza, teda, že Y a sú nezávislé. Ak sa ukáže naša intuícia ako správna, vyjdú nám chyby prvého druhu rovné približne 5%. a) Pri použití Pearsonovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ, sú chyby prvého druhu nasledovné: 24
3.2 Prípad, ked Y a sú normálne rozdelené Tabul ka 10: Mnohonásobná - Pearson - Normálne rozdelenie - CHPD - Prípad 4 n p počet simulácií ρ h v % 20 3 100000 0.5 4.932 20 3 100000 0.3 4.932 20 3 100000 0.2 4.932 b) Pri použití Spearmanovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ sú chyby prvého druhu nasledovné: Tabul ka 11: Mnohonásobná - Spearman - Normálne rozdelenie - CHPD - Prípad 4 n p počet simulácií ρ h v % 20 3 100000 0.5 5.216 20 3 100000 0.3 5.265 20 3 100000 0.2 5.298 Ako vidno z tabuliek 10, 11, test zamietal H ¼ v približne ± prípadov, čiže mal rovnakú náchylnost zamietat ako v prípade = identická matica. Zdôvodnenie je jednoduché: Počítajme ρ Y, cor Y, µp ½ cor, Y µ, kde ½ ρ ρ cor Y, µ ¼, ¼, ¼µ, P ρ ½ ρ, cor, Y µ ¼, ¼, ¼µT ρ Y, ¼. ρ ρ ½ 25
3.3 Prípad, ked Y a majú Cauchyho rozdelenie Takisto vidno, že nasimulovaná chyba prvého druhu je pri použití Pearsonovho korelačného koeficientu bližšie k 5% ako pri použití Spearmanovho korelačného koeficientu. Ukázali sme tiež, že ak H ¼ neplatí (Y a sú závislé), závislost medzi zložkami test ovplyvňuje (Prípad 3). V prípade, že H ¼ platí, závislost medzi zložkami nám test nijako neovplyvní (Prípad 4). 3.3 Prípad, ked Y a majú Cauchyho rozdelenie Pozrime sa ešte raz na Vetu 5. Jedným z predpokladov tejto Vety je, že máme náhodný výber z normálneho rozdelenia. Skúsme tento predpoklad porušit, budeme totiž uvažovat náhodný výber z Cauchyho rozdelenia a pozrieme sa, ako budú vyzerat odhady pravdepodobnosti chyby prvého druhu a sily testu pri použití najprv Pearsonovho korelačného koeficientu a potom Spearmanovho korelačného koeficientu v takomto prípade. Skúmame nakol ko sa hodnoty získané za predpokladu Cauchyho rozdelenia budú líšit od hodnôt získaných za predpokladu náhodného výberu z normálneho rozdelenia. Konštrukcia testu zostane rovnaká ako v prípade, ked bol náhodný výber z normálneho rozdelenia: Testujeme H ¼ ρ Y, ¼ proti H ½ ρ Y, > ¼. H ¼ zamietame, ak Z > kritická hodnota F p,n p ½ ¼.¼ µ 3.3.1 Prípad, ked H ¼ platí Simulujeme pravdepodobnosti chyby prvého druhu (P H ¼ zamietame H ¼ platíµ h); h odhadujeme pomocou bodového odhadu h X N, kde N je počet simulácii, X je počet zamietnutí nulovej hypotézy; tak ako v prípade náhodného výberu z normálneho rozdelenia (3.2.1). Počet simulácii si opät zvolíme N ½¼¼¼¼¼. Vetu 5 budeme považovat za platnú, ak 26
3.3 Prípad, ked Y a majú Cauchyho rozdelenie N interval spol ahlivosti pre h obsahuje ± (polomer intervalu spol ahlivosti je µ ¾, ± h ½ hµ. ¼. ±.) V prípade, že vo Vete 5 použijeme Pearsonov korelačný koeficient sú pravdepodobnosti nasimulované chyby prvého druhu nasledovné: Tabul ka 12: Mnohonásobná - Pearson - Cauchyho rozdelenie - CHPD n p počet simulácií h v % 40 3 100000 10.389 30 3 100000 11.11 20 3 100000 11.736 Obr. 3: Odhady chýb prvého druhu pri použití Pearsonovho korelačného koeficientu V prípade, že vo Vete 5 použijeme Spearmanov korelačný koeficient sú nasimulované pravdepodobnosti chyby prvého druhu nasledovné: 27
3.3 Prípad, ked Y a majú Cauchyho rozdelenie Tabul ka 13: Mnohonásobná - Spearman - Cauchyho rozdelenie - CHPD n p počet simulácií h v % 40 3 100000 5.154 30 3 100000 5.114 20 3 100000 5.175 15 3 100000 5.344 Obr. 4: Odhady chýb prvého druhu a ich intervaly spol ahlivosti pri použití Spearmanovho korelačného koeficientu Z tabul ky 12 vidíme, že odhady pravdepodobnosti chýb prvého druhu sa výrazne zvýšili, ked sme zmenili rozdelenie z normálneho (pri normálnom bola pravdepodobnost chyby prvého druhu ±) na Cauchyho a použili sme Pearsonov korelačný koeficient. Naopak, porovnaním tabuliek 1 a 13 vidiet, že zmena rozdelenia nevyvolala takmer žiadnu zmenu v týchto pravdepodobnostiach v prípade, že sme použili Spearmanov korelačný koeficient. 28
3.3 Prípad, ked Y a majú Cauchyho rozdelenie 3.3.2 Prípad, ked H ¼ neplatí Uvažujme prípad, že H ¼ neplatí. Teda platí H ½ ρ Y, > ¼, t.j. Y a sú závislé. Aby sme získali Y, závislé, použijeme analogický postup ako v prípade 3.2.3. Budeme skúmat kvalitu testov pomocou koeficientu mnohonásobnej korelácie, kde vo vzt ahu pre jej výpočet použijeme Pearsonov, Spearmanov a Kendallov korelačný koeficient, pričom Y, budú mat Cauchyho rozdelenie. Skúmame odhady sily testu pri použití Pearsonovho, resp. Spearmanovho korelačného koeficientu. Zvol me ½ ρ ρ ρ ρ ½ ¼ ¼ ρ ¼ ½ ¼ ρ ¼ ¼ ½. a) Pri použití Pearsonovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ, sú nasimulované sily testov nasledovné: Tabul ka 14: Mnohonásobná - Pearson - Cauchyho rozdelenie - Sila n p počet simulácií ρ sila testu v % 20 3 100000 0.5 98.603 20 3 100000 0.3 88.219 20 3 100000 0.2 83.585 a) Pri použití Spearmanovho korelačného koeficientu vo vzt ahu pre mnohonásobnú koreláciu pre rôzne zvolené n, p, ρ, sú nasimulované sily testov nasledovné: 29
Tabul ka 15: Mnohonásobná - Spearman - Cauchyho rozdelenie - Sila n p počet simulácií ρ sila testu v % 20 3 100000 0.5 92 20 3 100000 0.3 43.57 20 3 100000 0.2 25.81 Porovnaním tabuliek 3,14 vidíme, že odhady sily testov sa zvýšili v prípade, že máme náhodný výber z Cauchyho rozdelenia. Na druhej strane sa ale aj odhady pravdepodobnosti chýb prvého druhu zvýšili(tabul ka 12). To znamená, že test zamieta H ¼ v prípade, že H ¼ neplatí, ale aj ked platí. (Teda sa správa ako sudca, ktorý posiela do väzenia vinných, ale aj nevinných). Čo sa týka Spearmanovho korelačného koeficientu, z tabuliek 15 a 4 vidíme, že nasimulované sily testov sa nezmenili tak výrazne, ako v prípade Pearsonovho korelačného koeficientu. Vol ne povedané, Cauchyho rozdelenie neotriaslo Spearmanovým korelačným koefientom tak vel mi ako Pearsonovým; dosiahnutá kvalita s použitím Spearmanovho korelačného koeficientu je v prípade náhodného výberu z Cauchyho rozdelenia vyššia ako kvalita s použitím Pearsonovho. 4 Koeficient parciálnej korelácie 4.1 Definícia 4.1.1 Koeficient parciálnej korelácie Majme dve náhodné premenné Y a Z, ktoré môžu byt ovplyvňované veličinami X ½,...,X p. Zaujíma nás pravá korelácia medzi Y a Z, pričom sa vplyv vektora X ½,...,X p µ T eliminuje. Táto eliminácia by mohla 30
4.1 Definícia spočívat v tom, že by sa veličiny Y a Z sledovali za takých podmienok, pri ktorých sa vektor nemení. To sa však mnohokrát urobit nedá, a tak sme odkázaní na matematické prostriedky. Ak sa obmedzíme len na lineárne vzt ahy, potom najlepšou aproximáciou veličiny Y pomocou je Y α ½ β½ Ì. Tú čast veličiny Y, ktorú vektor nevysvetlí, si môžeme predstavit ako reziduum Y Y. Rovnaká úvaha platí aj pre veličinu Z, ktorú aproximujeme pomocou Z α ¾ β¾ Ì. To vedie k nasledujúcej definícii: Parciálny korelačný koeficient ρ Y,Z. veličín Y a Z pri pevnom je (Pearsonov)korelačný koeficient ρ Y Y,Z Z, pričom β ½ Î ½ cov, Y µ, (8) β ¾ Î ½ cov, Zµ, (9) α ½ EY β T ½ E, (10) α ½ EY β T ½ E, (11) kde Î var. Pretože na hodnotách α ½ a α ¾ koeficient ρ Y Y,Z Z nezávisí, platí tiež ρ Y,Z. ρ Y β T ½,Z β T ¾ Veta 6 Nech È cor. Potom ρ Y,Z cor Y, µè ½ cor, Zµ ρ Y,Z. [ ½ cor Y, µè ½ cor, Y µ][ Dôkaz: [2] ½ cor Z, µè ½ cor, Zµ ] 4.1.2 Výberový koeficient parciálnej korelácie Ak dosadíme do vzorca vo Vete 6 pre ρ Y,Z. výberové hodnoty, dostaneme výberový koeficient parciálnej korelácie r Y,Z.. Nech Y ½ Z ½ ½,..., Y n Z n n (12) 31
4.2 Prípad, ked Y, Z, X sú normálne rozdelené je náhodný výber z rozdelenia, ktoré má náhodný vektor Y, Z, T µ T a nech výberová korelačná matica Ê, je regulárna. Potom r Y,Z. r Y,Z Ê Y, Ê ½, Ê,Z, (13) ½ Ê Y, Ê ½, Ê,Y µ ½ Ê Z, Ê ½, Ê,Zµ pokial je menovatel nenulový. 4.2 Prípad, ked Y, Z, X sú normálne rozdelené Testujme H ¼ ρ Y,Z. ¼ proti H ½ ρ Y,Z. ¼. Platí: Veta 7 Nech 12 je výber z regulárneho normálneho rozdelenia. Ak platí ρ Y,Z. ¼ a n > p ¾, potom T r Y,Z. n p ¾ tn p ¾, ½ r ¾ Y,Z. kde na výpočet r Y,Z. je použitý Pearsonov korelačný koeficient. Dôkaz: [2] Teda, ak platí H ¼, tak T t n p ¾. Kritická oblast testu (oblast, kde H ¼ zamietame) bude mat tvar S { T > c}, kde c vypočítame z podmienky P chyby ½. druhuµ ±, čiže P T > cµ ± a z toho c ¾. ± kritická hodnota t n p ¾ c. ± kvantil t n p ¾ µ. Teda kritická oblast S (naše testovacie pravidlo) bude mat tvar: S { T > kritická hodnota t n p ¾ ¼.¼¾ µ}, teda H ¼ zamietame, ak T > kritická hodnota t n p ¾ ¼.¼¾ µ 32
4.2 Prípad, ked Y, Z, X sú normálne rozdelené 4.2.1 Prípad, ked H ¼ platí Podobne ako v 3.2.1 aj teraz budeme skúmat odhady pravdepodobnosti chyby prvého druhu, teda P H ¼ zamietame H ¼ platíµ h. V prípade, že vo Vete 7 použijeme Pearsonov korelačný koeficient, tak h ±. My sa ale pozrieme na situáciu, že vo Vete 7 použijeme Spearmanov a Kendallov korelačný koeficient. Odhadujeme h pomocou bodového odhadu h X N, kde N je počet simulácii, X je počet zamietnutí nulovej hypotézy; X bin N, hµ. Polomer ± intervalu spol ahlivosti pre N ½¼¼¼¼¼ je tak ako v 3.2.1 µ ¾, ± h ½ hµ N. ¼. ± Budeme skúmat pre aké n patrí ± do intervalu spol ahlivosti, teda pre aké n padne h do intervalu. ±,. ±µ. Vo vzt ahu vo Vete 7 namiesto Pearsonovho korelačného koeficientu použijeme Spearmanov korelačný koeficient a skúmame odhady chyby prvého druhu. Impulzom pre tento krok nám bol článok M. Schempera [5]. Tabul ka 16: Parciálna - Spearman - Normálne rozdelenie - CHPD n p počet simulácií h v % 40 3 100000 5.063 35 3 100000 4.974 30 3 100000 5.044 25 3 100000 5.114 20 3 100000 5.14 15 3 100000 5.084 33
4.2 Prípad, ked Y, Z, X sú normálne rozdelené Z tabul ky 16 vidíme, že pre nami zvolené n chyby prvého druhu. ±,. ±µ. A teda pre vhodne zvolené n má T r Y,Z. n p ¾ ½ ry,z. ¾ približne t n p ¾ rozdelenie, kde na výpočet r Y,Z. je použitý Spearmanov korelačný koeficient. Simulácie ukazujú, že použitie Spearmanovho korelačného koeficientu vo výpočte výberového koeficientu parciálnej korelácie vo Vete 7 nám test nijako nepokazilo. Teraz skúsme namiesto Pearsonovho korelačného koeficientu použit Kendallov korelačný koeficient a skúmat odhady chyby prvého druhu. Pre počet simulácii N ½¼¼¼¼¼ a p ¼ nám ale tento odhad vyšiel ¼.¼¼ ±, teda d aleko od ±. Podl a článku W. Hoeffdinga [6] str.324 má testovacia štatistika pre koeficient parciálnej korelácie pri použití Kendallovho korelačného koeficientu približne normálne rozdelenie, avšak vzt ah na výpočet odhadu smerodajnej odchýlky je nesmierne komplikovaný. My sme ju odhadli cez a test nám pri takomto zjednodušení zlyhal. ½ r ¾ Y,Z. n p ¾ Ukázalo sa, že v prípade použitia Kendallovho korelačného koeficientu nie je možné použit na skúmanie kvality testu koeficientu parciálnej korelácie taký istý postup ako pri použití Spearmanovho. Otázkou je, či nie je možné nájst nejaký iný, alternatívny postup, ktorý by nám umožnil použit práve Kendallov korelačný koeficient. Motiváciou k vyriešeniu tohto problému bol pre nás článok [4] Williama C. Parra, ktorý popisuje metódu jackknife. 4.2.2 Metóda jackknife V prípade, že pri testovaní hypotézy H ¼ proti H ½ pri koeficente parciálnej korelácie chceme použit Kendallov korelačný koeficient vo vzt ahu (13) namiesto Pearsonovho, použijeme metódu jackknife. V článku [4] William C. Parr uvádza, že v testovacej štatistike T kde r je obyčajný Pearsonov korelačný koeficient, je možné výraz 34 r ½ r ¾ n ¾, ½ r ¾ n ¾
4.2 Prípad, ked Y, Z, X sú normálne rozdelené považovat za odhad smerodajnej odchýlky. Tento odhad je podl a článku možné nahradit odhadom získaným metódou jackknife. A ked že testovacia štatistika T n p ¾ pre koeficient parciálnej korelácie r Y,Z. ½ ry,z. ¾ je vel mi podobná testovacej štatistike pre obyčajný (Pearsonov) korelačný koeficient, vedie nás to k tušeniu, že je možné použit túto metódu aj v tomto prípade. Popíšme si, ako funguje metóda jackknife pre tento náš konkrétny prípad (náš predpoklad je, že funguje aj v tomto prípade). Je známe, že v prípade dostatočne vel kého rozsahu náhodného výberu n sa Studentovo rozdelenie limitne blíži k štandardizovanému normálnemu rozdeleniu N ¼, ½µ. Využitím tohto vzt ahu prepíšeme Vetu 7 na T r Y,Z. ½ r ¾ Y,Z. n p ¾. N ¼, ½µ, kde menovatel predstavuje odhad smerodajnej odchýlky r Y,Z.. Táto testovacia štatistika je odvodená za predpokladu normálne rozdelených dát. Myšlienka získania nového odhadu smerodajnej odchýlky je nasledovná (článok [4], str. 721): Majme náhodný výber z nejakého rozdelenia Y ½ Z ½ ½,..., Y n Z n n. (14) Označme jednotlivé zložky náhodného výberu A ½, A ¾,...,A n. Jackknife metóda spočíva v tom, že z jedného náhodného výberu (teda z jednej sady nagenerovaných dát) z nejakého rozdelenia vyrobíme postupným vylučovaním i-tej zložky A i, i ½,...,n kvázi novú sadu dát. Z každej tejto sady vypočítame výberový parciálny korelačný koefient 35
4.2 Prípad, ked Y, Z, X sú normálne rozdelené ry i Z.XKendall, kde vo vzt ahu pre jeho výpočet 13 použijeme namiesto Pearsonovho korelačného koeficientu, ktorý sa zvyčajne používa, Kendallov korelačný koeficient: A ½, A ¾, A,...,A n r ½ Y Z.XKendall A ½, A ¾, A,...,A n r ¾ Y Z.XKendall A ½, A ¾, A,...,A n r Y Z.XKendall. A ½, A ¾, A,..., A n r n Y Z.XKendall Z takto získaných n parciálnych korelačných koeficientov zrátame priemer r Y Z.XKendall ½ n n i ½ r i Y Z.XKendall a definujeme odhad smerodajnej odchýlky nasledovným vzt ahom: smerodajná odchýlka n ½ n n ry i Z.XKendall r Y Z.XKendallµ ¾ i ½ Teda testovacia štatistika, ktorú získame metódou jackknife má tvar: T n ½ n r Y,Z. Kendall n i ½ ri Y Z.XKendall r Y Z.XKendallµ ¾. N ¼, ½µ (15) a naše testovacie pravidlo bude nasledovné: H ¼ zamietame, ak T > kritická hodnota N(0,1) ¼.¼¾ µ. V tomto tvare smerodajnej odchýlky sa nám môže zdat nezvyčajný zlomok n ½, skôr by sme očakávali zlomok ½. Ako vysvetlenie si môžeme uviest príklad (uvedené v článku [4] na str. n n ½ 720): 36
4.2 Prípad, ked Y, Z, X sú normálne rozdelené Majme náhodný výber z normálneho rozdeleniax ½, X ¾,...,X n N µ, σ ¾ µ. Odhadneme µ pomocou µ X a chceme pomocou metódy jackknife odhadnút V ar µµ. Z teórie vieme, že V ar µµ je rovné σ¾, a teda odhad pre V ar µµ, ktorý n označíme V ar µ) bude ½ n i ½ X n ½ i Xµ ¾. n Ukážeme, že odhad pomocou jackknife V ar jackknife µµ n ½ n n Xi Xµ ¾ i ½ ½ n i ½ X n ½ i Xµ ¾ n je rovný V ar µµ, kde Počítajme X i, i ½,..., n: X n i ½ n X i. X ½, X ¾, X,...,X n X ½ X ½, X ¾, X,...,X n X ¾ X ½, X ¾, X,...,X n X n X i ½ i X ½ n ½ n X i ½ i X ¾ n ½ n X i ½ i X n ½. n X ½, X ¾, X,..., X n X n X i ½ i X n n ½ Z čoho vyplýva n i ½ X i ½ n n ½ n i ½ X i n i ½ X i µ n i ½ X i Dosadíme a upravujeme: V ar jackknife µµ n ½ n n i ½ X i Xµ ¾ n ½ n n n i ½ i ½ X i X i n ½ n i ½ X i µ ¾ n 37
4.2 Prípad, ked Y, Z, X sú normálne rozdelené... ½ n n ½ i ½ X i Xµ ¾ n V ar µµ. Metódu jackknife na simulovanie koeficientu parciálnej korelácie pri použití Kendallovho korelačného koeficientu použil aj M. Schemper v článku [5], kde dokonca tvrdí, že metóda jackknife, resp. metóda bootstrap, ktorou sa tu tiež zaoberá, sú jediné, v tom čase známe, všeobecne použitel né metódy v takomto prípade (článok z roku 1991). Zaoberá sa tu (str.75) okrem iného aj simulovaním koeficientu parciálnej korelácie pri použití Spearmanovho korelačného koeficientu, kde testuje rovnakým spôsobom, ktorý sme použili aj my na základe [2]. Porovnával kvalitu rôznych parciálnych korelačných koeficientov, avšak v iných situáciach, s akými sa zaoberáme my v tejto práci. Teraz použijeme metódu jackknife a skúmajme odhady chyby prvého druhu v prípade, že v (15) použijeme Kendallov korelačný koeficient. Z časových dôvodov je počet simulácii znížený zn ½¼¼¼¼¼ nan ½¼¼¼¼. Časová náročnost výpočtu odhadu pravdepodobnosti chyby prvého druhu pomocou metódy jackknife je totiž niekol konásobne vyššia ako pri klasickom výpočte. Tabul ka 17: Parciálna - Kendall - Normálne rozdelenie - CHPD n p počet simulácií h v % 40 3 10000 4.66 Tabul ka 17 nám ukazuje, že nasimulovaná chyba prvého druhu je v prípade použitia Kendallovho koeficientu korelácie vo vzt ahu pre výpočet výberového koeficientu parciálnej korelácie a použitím metódy jackknife dost blízko k ±. (Odhad chyby prvého druhu v prípade, že sme nepoužili jackknife, nám vyšiel ¼.¼¼ ±, teda d aleko od ±.) 38
4.2 Prípad, ked Y, Z, X sú normálne rozdelené 4.2.3 Prípad, ked H ¼ platí, ale kovariančná matica nie je identická Teraz budeme simulovat situáciu, že H ¼ ρ Y,Z. ¼ platí, ale kovariančná matica nie je identická. zvolíme l ubovol ne, ale tak, aby boli splnené podmienky ρ Y,Z cor Y, µè ½ cor, Zµ ¼, a zároveň ρ Y,Z ¼, teda aby ρ Y,Z. ¼. Teda očakávame, že odhad chyby prvého druhu by mal byt približne ±. Zvol me ½ ¼. ¼. ¼. ¼. ¼. ½ ¼. ¼. ¼. ¼. ¼. ½ ¼. ¼. ¼. ¼. ¼. ½ ¼. ¼. ¼. ¼. ¼. ½ kde ρ Y,Z ¼., cor Y, µ ¼., ¼., ¼. µ, È cor, Zµ ¼., ¼., ¼. µ T., ½ ¼. ¼. ¼. ½ ¼. ¼. ¼. ½ Po dosadení do vzt ahu ρ Y,Z cor Y, µè ½ cor, Zµ dostávame:, ¼. ¼., ¼., ¼. µ ½ ¼. ¼. ¼. ½ ¼. ¼. ¼. ½ ½ ¼. ¼. ¼. ¼, takže sme splnili podmienku ρ Y,Z. ¼. Postupujeme analogicky ako v prípade 3.2.3, kde za dosadíme nami zvolenú maticu. Pre rozsah náhodného výberu n ¾¼, p, počet simulácii ½¼¼¼¼¼ skúmame odhad chyby prvého druhu. Tá nám vyšla. ½, čiže naše očakávanie sa ukázalo ako správne. Hoci odhad chyby prvého druhu nepatrí do nami zvoleného intervalu spol ahlivosti. ±,. ±µ, náchylnost testu zamietat H ¼ je relatívne blízko k ±. To znamená, že výberový parciálny korelačný koeficient 39
4.2 Prípad, ked Y, Z, X sú normálne rozdelené sa nenechá oklamat závislost ou medzi zložkami Y, ; Z, ; Y, Z a naozaj meria parciálnu závislost ρ Y,Z., ktorú sme v tomto prípade zvolili ako nulovú. 4.2.4 Prípad, ked H ¼ neplatí Uvažujme teraz prípad, že H ¼ neplatí, teda platí H ½ ρ Y,Z. ¼. Na to, aby sme získali Y,Z, závislé, použijeme analogický postup ako v 3.2.3. Budeme skúmat kvalitu testu koeficientu parciálnej korelácie pri použití rôznych druhov korelačných koeficientov vo vzt ahu pre jeho výpočet a pri normálne rozdelených Y,Z, pričom kovariančná matica môže byt zvolená rôzne. Simuláciami odhadneme sily testov, t.j. hodnoty ½ P H ¼ nezamietame H ¼ neplatíµ pri použití Pearsonovho, Spearmanovho a Kendallovho korelačného koeficientu. Testovacie pravidlo zostáva rovnaké, ako sme odvodili na začiatku kapitoly 4.2. Chceme dosiahnut, aby ρ Y,Z. ¼, teda aby ρ Y,Z cor Y, µè ½ cor, Zµ [ ½ cor Y, µè ½ cor, Y µ][ ½ cor Z, µè ½ cor, Zµ ] ¼. Toto dosiahneme vhodnou vol bou kovariančnej matice. Nechceme ale, aby ρ Y,Z. malo rádovo vel mi malé hodnoty, pretože potom by test t ažko odhalil túto závislost. volíme tak, že celá matica ½ ρ Y,Z ρ Y, ρ Y, ρ Y, ρ Y,Z ½ ρ Z, ρ Z, ρ Z, ρ,y ρ,z ½ ρ, ρ,, ρ,y ρ,z ρ, ½ ρ, ρ,y ρ,z ρ, ρ, ½ musí spĺnat podmienku kladnej definitnosti. Na to, aby bola táto podmienka splnená, musíme overit, či podmatice 40
4.2 Prípad, ked Y, Z, X sú normálne rozdelené ½ ρ Y,...... ρ,y............. ρ,............., ½ ρ Z,...... ρ,z............. ρ,............. majú kladné determinanty. Zvol me ½ ¼. ¼.¾ ¼.¾ ¼.¾ ¼. ½ ¼. ¼. ¼. ¼.¾ ¼. ½ ¼. ¼. ¼.¾ ¼. ¼. ½ ¼. ¼.¾ ¼. ¼. ¼. ½, Po dosadení do vzt ahu vo Vete 6 dostávame hodnotu ρ Y,Z. ¼. ¼ ¾¾, teda sme získali Y,Z, závislé. Skúmame odhad sily testu pri použití Pearsonovho, Spearmanovho aj Kendallovho korelačného koeficientu. Tabul ka 18: Parciálna - Pearson - Normálne rozdelenie - Sila n p počet simulácií sila testu v % 10 3 100000 67.92 Tabul ka 19: Parciálna - Spearman - Normálne rozdelenie - Sila n p počet simulácií sila testu v % 10 3 100000 55.405 Ako vidno z tabuliek 18, 19, pri použití Pearsonovho korelačného koeficientu je nasimulovaná sila testu väčšia ako pri použití Spearmanovho korelačného koeficientu. Takisto vidíme, že odhadnutá sila testu pri použití 41
4.3 Prípad, ked Y, Z, X majú Cauchyho rozdelenie Tabul ka 20: Parciálna - Kendall - Normálne rozdelenie - Sila n p počet simulácií sila testu v % 10 3 10000 46.06 Kendallovho korelačného koeficientu je menšia ako pri použití Spearmanovho. Teda vidíme, že v prípade normálne rozdelených dát jednoznačne svojou silou vedie Pearsonov korelačný koeficient. V prípade, že sme použili Kendallov korelačný koeficient (metódu jackknife), vznikali niekedy pri spúštaní simulácii problémy so zle podmienenými maticami. Čísla podmienenosti niektorých matíc R X,X (pomer najväčšieho a najmenšieho vlastného čísla) boli bud vel mi vel ké alebo vel mi malé ; vznikali singulárne matice, ku ktorým sa tým pádom nedala zrátat inverzná matica a v konečnom dôsledku ani hodnota testovacej štatistiky. Preto bolo potrebné stanovit nejakú hranicu pre čísla podmienenosti, aby sme sa vyhli problému so vznikom singulárnych matíc. Po odsledovaní týchto čísel bola stanovená podmienka ½¼¼¼¼¼¼ < číslo podmienenosti < ½¼¼¼¼¼¼ a iba v takomto prípade výpočet pokračoval d alej. 4.3 Prípad, ked Y, Z, X majú Cauchyho rozdelenie Vo Vete 7 porušme predpoklad náhodného výberu z normálneho rozdelenia a generujme dáta z Cauchyho rozdelenia a sledujme, ako sa zmenia nasimulované odhady chyby prvého druhu a sily testu pri použití Pearsonovho a Spearmanovho korelačného koeficientu vo vzt ahu pre výpočet parciálneho korelačného koeficientu v takomto prípade. (Budeme skúmat, ako zmena rozdelenia ovplyvní kvalitu testu.) Testujeme H ¼ ρ Y, ¼ proti H ½ ρ Y, ¼. H ¼ zamietame, ak Z > kritická hodnotat n p ¾ ¼.¼¾ µ 42