Veľkosť výberového súboru

Veľkosť výberového súboru Podľa Kah,H.A., Sempos,C.T.: Statistical Methods i Epidemiology. Oxford Uiv. Press, 1989 spracoval Doc. MUDr. Marti Rusák, CSc Často sa pýtame, aký veľký súbor potrebujem a preukázaie hypotézy. Na túto otázku ie je možé odpovedať štadardým počtom 30. V asledujúcom uvediem iekoľko príkladov ako sa dopracovať, resp. dopočítať správej odpovede. 1. Veľkosť výberu pre jede biomický parameter Predpokladajme, že chceme odhadúť pomer (proporciu (P pravideľých fajčiarov cigariet v skupie, ktorá prichádza a veľkú uiverzitu. Chceme dosiahuť, že áš odhad (p bude s vysokou pravdepodobosťou medzi ± skutočej hodoty pomeru (proporcie (P. Delta predstavuje určitý rozdiel medzi aším odhadom a skutočou hodotou (apríklad 0.5 alebo 0.5. Predtým ako môžeme veľkosť vypočítať je potrebé odhadúť samotý pomer (a prvý pohľad podivý postup. Dôvodom je skutočosť, že veľkosť výberu závisí a štadardej chybe odhadovaého parametra. Pre proporciu je štadardá chyba odhadu p rová P(1 P Ak považujeme proporciu fajčiarov cigariet medzi prvákmi za 0.30 a určíme, že chceme pracovať s rozdielom 0.04, potom vzťah 1 P(1 P 1.96SE( p = 1.96 = 0.04 (0.30(0.70 1.96SE( p = 1.96 = 0.04 vyjadruje, že si prajeme, aby 1.96 štadardej chyby ášho odhadu sa rovalo 0.04. Ak toto platí, potom s 95% pravdepodobosťou je áš odhad v rozsahu 4% (± =0.04 skutočosti. ároveň predpokladáme, že počet je dostatoče veľký a zaručeie ormáleho rozdeleia všetkých možých hodôt p (odhadov skutočej proporcie. V prípade epidemiologických štúdií je to väčšiou tak. Teraz môžeme rovicu riešiť pre 1 1 1.96 P(1 P = Δ 1

P 1-P výpočet 0.3 0.7 0.04 504 =(1.96*1.96 0.1 0.9 0.04 16 0. 0.8 0.04 384 0.4 0.6 0.04 576 0.5 0.5 0.04 600 Obrázok 1 Výpočet veľkosti pre rôze proporcie Takže dostávame asledovú tabuľku veľkostí výberu P Veľkosť výberu 95% výberov p bude medzi 0.10 16 0.06 a 0.14 0.0 384 0.16 a 0.4 0.30 504 0.6 a 0.34 0.40 576 0.36 a 0.44 0.50 600 0.46 a 0.54 Tabulka 1 Veľkosť výberu pri rôzych proporciách Čo sa stae, ak áš odhad proporcie bol esprávy? Predpokladajme, že sme uvažovali s proporciou P=0.0 a vypočítali veľkosť výberového súboru 384. V skutočosti bolo P rové 0.40. Pri P=0.40 je skutočý rozptyl všetkých možých priemerov výberu veľkosti 384 rový (0.4(0.6384=0.00065, pri čom štadardá chyba priemeru výberu je 0. 00065 = 0.05. Dve štadardé chyby sa budú rovať 0.05 a 95% všetkých p z výberu bude v rozmedzí od 0.35 do 0.45, pri veľkosti výberu 384. Pokiaľ v ašom výbere spozorujeme p veľkosti 0.35 a použijeme ho a výpočet štadardej chyby p potom odhadujeme skutočý priemer medzi 0.3 a 0.4 s istotou 0.95. Prirodzee ejdeme vyberať všetky možé výbery, ale le jede jediý. Preto sa môže stať, že p ami vybraého súboru je extréme ízke. V tom prípade si môžeme myslieť, že skutočá hodota je okolo 0.0. Avšak je omoho pravdepodobejšie, že teto výber povedie ku korekcii ašej predstavy o výskyte fajčeia cigariet. Teto príklad dokumetuje, že použiteľé výsledky je možo dosiahuť aj pri esprávom počiatočom odhade P.. Rozdiel medzi biomickými parametrami Často ie je cieľom epidemiológa odhadúť jediý parameter, ale porovať dva parametre. Toto je ajčastejší prípad použitia metód odhadu veľkosti výberového súboru, apríklad pre radomizovaú, kotrolovaú kliickú štúdiu. Predpokladajme, že máme za úlohu avrhúť štúdiu lieku, ktorý by mal zižovať icideciu ifarktu srdca. Abstrahujme od iých problémov vedeia takejto štúdie a zamerajme sa výhrade a odhad veľkosti výberového súboru potrebého pre uskutočeie tejto štúdie. Aby sme mohli odhadúť zmeu icidecie, musíme ajprv pozať jej predbežý odhad. Vyjdime z asledujúcich predpokladov: Celá štúdia má trvať 3 roky Icidecia ifarktu myokardu v daej populácii je 1% za rok, teda 3% za tri roky Stupeň zmey, ktorú daá štúdia odhalí pri určitej pravdepodobosti. Práve stupeň zmey, ktorý má štúdia potvrdiť s určitou mierou istoty je rozhodujúcim faktorom štúdie a predstavuje kombiáciu pozaia objektu skúmaia a subjektíveho rozhodutia výskumíka. Pokúsiť sa staoviť zížeie icidecie z 0.03 (teda 3% a 0.09

(a.9% sa ezdá byť vhodým rozhodutím.aj keď by sa možo ašlo zdôvodeie takéhoto zámeru, ie je rozumé sažiť sa potvrdiť tak malý rozdiel. Program, ktorý by sa o také iečo sažil bude určite ahradeý iým, ktorý sa bude usilovať o väčší rozdiel. Potom obtiažy, ákladý a časovo áročý program A, ktorý sa saží o zížeie o zížeie ročej icidecie o jedu desatiu perceta bude ahradeý programom B, ktorý ju zižuje o 5 desatí. Ak je skutoče icidecia v kotrolej skupie 3 percetá za 3 roky a liečba ju zižuje a.9%, potom výber potrebý a preukázaie tohto efektu musí byť ute väčší ako pri preukázaí redukcie z 3% a 1%. Vo všeobecosti platí, že čím väčší rozdiel sa sažíme potvrdiť, tým meší výberový súbor je potrebý. Nasledové štyri faktory musíme pozať pre výpočet potrebej veľkosti výberu: P c P e Skutočá icidecia v kotrolej skupie Skutočá icidecia v experimetálej skupie Pravdepodobosť I. typu chyby v teste výzamosti; teda dôvodeie, že je prítomý rozdiel medzi P c a P e kým v skutočosti sú údaje výberu le áhodou variaciou samotého parametru P c Pravdepodobosť II. typu chyby v teste výzamosti; teda eschoposť odmietuť ulovú hypotézu keď v skutočosti je rozdiel medzi P c a P e ako sa pôvode predpokladalo Skôr ako pristúpim k odvodeiu vzťahu medzi uvedeými parametrami považujem za potrebé upozoriť a skutočosť, že rozptyl (variacia rozdielu medzi dvoma ezávislými premeými sa rová súčtu variacií každej z ich: var(x y = var(x var(y Nezávislosť premeých môžem ilustrovať asledovými príkladmi. Hmotosť a výška ie sú vzájome ezávislé, keďže pozaie jedého z ich umožňuje odhadúť hodotu druhého. Avšak výška a číslo pasu sú takmer určite ezávislé, keďže pozaie jedého eumoží v žiadom prípade odhadúť hodotu druhého. Teraz sa sústreďme a rozptyl rozdielu medzi p c a p e (odhady P c a P e z výberu. V správe vedeej štúdii pozaie, že p c je mešie alebo väčšie ako P c ijako eposlúži odhadu, či p e je mešie alebo väčšie ako P e. Preto môžeme oprávee predpokladať, že oba parametre sú ezávislé a platí pre e var(p c p e = var(p c var(p e Rozobereme si prípad určeia veľkosti výberu, keď kotrolá i pokusá skupia sú rovakej veľkosti. Chceme určiť výzamý rozdiel medzi p c a p e s obojstraou chybou typu I veľkosti 0.05 (t.j. odmietuť ulovú hypotézu ak je rozdiel medzi p c a p e veľký a kladý alebo veľký a záporý a chybu II. Typu veľkosti 0.10,P c je skutoče 0.03 a P e je skutoče 0.0. Ak je ulová hypotéza pravdivá musíme vypočítať var(p c p e. Majme a pamäti, že pri pravdivosti ulovej hypotézy sa odhady p c a p e budú rovať 0.03. Potom môžme apísať, vzťah pre variaciu ich rozdielu ako súčet rozptylov oboch parametrov: 0.03(0.97 0.03(0.97 var( d : H 0 = kde d= p c p e a var(d:h 0 je rozptyl rozdielu za platosti ulovej hypotézy. Štadardá chyba rozdielu p c p e pri platej ulovej hypotéze je odmociou z predchádzajúceho vzťahu: 3

0.03(0.97 0.03(0.97 SE( d : H 0 = Sažíme sa vyšetriť dve možé situácie. Buď obe skupiy, kotrolá i experimetála, majú rovaké P = 0.03, čo je prípad ulovej hypotézy, alebo P c = 0.03 a P e = 0.0, čo je prípad alteratívej hypotézy. Chyba I. druhu veľkosti určuje, koľkokrát odmieteme pravdivú ulovú hypotézu. Ak je ulová hypotéza pravdivá, ľubovoľý rozdiel, ktorý spade do oblasti vedie k falošému odmietutiu ulovej hypotézy. Obe tieto oblasti odmietutia majú celkovú pravdepodobosť 0.05 a sú vzdialeé 1.96SE(d:H 0 od priemeru. Predpokladajme,že skutočosťou je pravdivá alteratíva hypotéza. V tom prípade iektoré z možých rozdielov vo výbere padú do zóy prijatia H 0. Dôsledkom je eschoposť odmietuť ulovú hypotézu aj keď alteratíva je pravdivá. Toto je chyba II. Typu (veľkosti a v ašom kokrétom prípade sme ju staovili ako.10. Takže 10% všetkých možých rozdielov vo výbere pri pravdivej alteratívej hypotéze povedie k eodmietutiu ulovej hypotézy, čo je v skutočosti espráve. Sáď je lepšie uvažovať o chybe II.typu ako o pravdepodobosti, ktorá je potrebá pre odmietutie H 0 keď je pravdivá alteratíva a tou je (1. Hodota (1 je ozačovaá ako sila testu. Ak chceme aby táto bola 0.90, potom (1 = 0.90 a = 0.10. Charakteristiky ormáleho rozdeleia určujú, že 10% plochy a chvoste rozdeleia je za 1.8 smerodatej odchýľky od priemeru. V ašom príklade smerodatá odchýľka rozdeleia všetkých možých rozdielov výberov pri alteratívej hypotéze je ároveň je potrebé si uvedomiť, že súčet 1.96SE(d:H 0 1.8SE(d:H A = 0.01. toho je možé vypočítať asledove: 0.03(0.97 0.0(0.98 SE( d H A = Takto obrovský výber 5703 kotrol a rovaké možstvo experimetálych jedicov potrebujeme pre rozpozaie tak malého rozdielu akým je rozdiel 1%. Rovicu môžeme zjedodušiť tým, že rozdiel P c P e ahradíme symbolom, parameter P bude zastupovať = 5703 súčet oboch P vydeleý dvomi: (P c P e a akoiec Q bude ozačovať difereciu 1 P. 4 0.03(0.97 0.0(0.98 1.96 0.41 1.96 = 75.5 1 0.41 1.8 = 0.01 ( ( = 1 1 0.03(0.97 0.0(0.98 1.8 PQ ( 1 PQ PQ Δ PQ 1 PQ 1 1 = 0.01

Odhad veľkosti výberu vo forme spreadsheet bude asledový: Alfa 0.05 Beta 0.10 pre alfa -1.96 =NORMSINV(B1 pre beta -1.8 =NORMSINV(B P kotroly 0.03 P exper 0.0 P 0.03 =(B5B6 Q 0.98 =1-B7 delta 0.01 =B5-B6 3075.69 =(POWER(B3*B4,**B7*B8POWER(B9, Pre staoveie 10% -ého rozdielu je potrebé výraze mešie súbory Alfa 0.05 Beta 0.10 pre alfa -1.96 =NORMSINV(B1 pre beta -1.8 =NORMSINV(B P kotroly 0.30 P exper 0.0 P 0.5 =(B5B6 Q 0.75 =1-B7 delta 0.10 =B5-B6 36.59 =(POWER(B3*B4,**B7*B8POWER(B9, 5

6 3. Spojité premeé Rovako ako pre biomiále premeé aj v prípade spojitých (apr. tlak krvi alebo teplota tela môžeme použiť obdobý postup. Výraz P(1-P ahradíme rozptylom var( a amiesto P použijeme (pre ozačeie priemeru populácie. Prepísaím rovice pre výpočet veľkosti rozdielu biomiálych parametrov a kotiuále získame asledový vzťah: kde predstavuje výsledok štadardej liečby a výsledok experimetálej. V prípade kotiuálych premeých je bežé, že dve premeé majú rovaký rozptyl ale rôze priemery. Preto môžeme ahradiť obe variacie jedou z ich Rozdiel priemerov ahradíme symbolom Δ: Odhady rozptylov môže výskumík získať z predchádzajúcich experimetov alebo sa spoľahe a iformovaý odhad. = var( var( var( = 1 1 var( var( ( ( ( [ ] = Δ 1 var( var( var(