Veľkosť výberového súboru

Σχετικά έγγραφα
Matematika Funkcia viac premenných, Parciálne derivácie

Obvod a obsah štvoruholníka

ARMA modely čast 2: moving average modely (MA)

Regresná analýza x, x,..., x

Chí kvadrát test dobrej zhody. Metódy riešenia úloh z pravdepodobnosti a štatistiky

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy

x j hodnota štatistického znaku x - aritmetický priemer ni absolútna početnosť m počet tried hšt ti ti kéh m počet tried hšt ti ti kéh

KATEDRA DOPRAVNEJ A MANIPULAČNEJ TECHNIKY Strojnícka fakulta, Žilinská Univerzita

Matematika prednáška 4 Postupnosti a rady 4.5 Funkcionálne rady - mocninové rady - Taylorov rad, MacLaurinov rad

Motivácia Denícia determinantu Výpo et determinantov Determinant sú inu matíc Vyuºitie determinantov. Determinanty. 14. decembra 2010.

,Zohrievanie vody indukčným varičom bez pokrievky,

ARMA modely čast 2: moving average modely (MA)

Ekvačná a kvantifikačná logika

Start. Vstup r. O = 2*π*r S = π*r*r. Vystup O, S. Stop. Start. Vstup P, C V = P*C*1,19. Vystup V. Stop

Cvičenie č. 4,5 Limita funkcie

Kontrolné otázky na kvíz z jednotiek fyzikálnych veličín. Upozornenie: Umiestnenie správnej a nesprávnych odpovedí sa môže v teste meniť.

3. prednáška. Komplexné čísla

Pravdepodobnosť a štatistika

1. Limita, spojitost a diferenciálny počet funkcie jednej premennej

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy

Goniometrické rovnice a nerovnice. Základné goniometrické rovnice

Základy matematickej štatistiky

ZNAKY. Ordinálne znaky = možno usporiadať, ale nie je podstatná veľkosť rozdielu!

Tomáš Madaras Prvočísla

HASLIM112V, HASLIM123V, HASLIM136V HASLIM112Z, HASLIM123Z, HASLIM136Z HASLIM112S, HASLIM123S, HASLIM136S

1 Koeficient kovariancie

7. FUNKCIE POJEM FUNKCIE

TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ. Zdroje: Kompendium statistického zpracování dat, VPS s r. o.

Limita postupnosti II.

Príklady na precvičovanie číselné rady a kritériá ich konvergencie a divergencie

PRIEMER DROTU d = 0,4-6,3 mm

1 Prevod miestneho stredného slnečného času LMT 1 na iný miestny stredný slnečný čas LMT 2

HANA LAURINCOVÁ KLASICKÝ VS. NEPARAMETRICKÝ PRÍSTUP Štatistika Poistná matematika

Komplexné čísla, Diskrétna Fourierova transformácia 1

Prognózovanie OBSAH PREDNÁŠKY

VYHODNOCOVANIE CHYBY MERANIA

Príklady na precvičovanie komplexné čísla, postupnosti a funkcie

Numerické metódy Učebný text pre bakalárske štúdium

2.4 OPAKOVATEĽNOSŤ A REPRODUKOVATEĽNOSŤ NORMOVANÝCH SKÚŠOK A VYJADRENIE NEISTÔT MERANÍ

6 Limita funkcie. 6.1 Myšlienka limity, interval bez bodu

Pravdepodobnosť a štatistika

1. písomná práca z matematiky Skupina A

6. Mocniny a odmocniny

Analýza vlastností funkcií mierky a waveletov v ortogonálnom prípade. - funkcia mierky a wavelet spĺňajúca relácie zmeny rozlíšenia

Prechod z 2D do 3D. Martin Florek 3. marca 2009

AerobTec Altis Micro

Život vedca krajší od vysnívaného... s prírodou na hladine α R-P-R

ZADANIE 1_ ÚLOHA 3_Všeobecná rovinná silová sústava ZADANIE 1 _ ÚLOHA 3

Štatistické riadenie procesov Regulačné diagramy 3-1

Pevné ložiská. Voľné ložiská

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCA

Metódy vol nej optimalizácie

Priamkové plochy. Ak každým bodom plochy Φ prechádza aspoň jedna priamka, ktorá (celá) na nej leží potom plocha Φ je priamková. Santiago Calatrava

Gramatická indukcia a jej využitie

M6: Model Hydraulický systém dvoch zásobníkov kvapaliny s interakciou

MIDTERM (A) riešenia a bodovanie

Definícia parciálna derivácia funkcie podľa premennej x. Definícia parciálna derivácia funkcie podľa premennej y. Ak existuje limita.

ODHAD HODNOTY BYTU NA PODKLADE PONUKOVÝCH CIEN

u R Pasívne prvky R, L, C v obvode striedavého prúdu Činný odpor R Napätie zdroja sa rovná úbytku napätia na činnom odpore.

Základy metodológie vedy I. 9. prednáška

24. Základné spôsoby zobrazovania priestoru do roviny

Logaritmus operácie s logaritmami, dekadický a prirodzený logaritmus

Termodynamika. Doplnkové materiály k prednáškam z Fyziky I pre SjF Dušan PUDIŠ (2008)

2 Chyby a neistoty merania, zápis výsledku merania

2 ODHADY PARAMETROV ZÁKLADNÉHO SÚBORU

Určite vybrané antropometrické parametre vašej skupiny so základným (*úplným) štatistickým vyhodnotením.

Uhol, pod ktorým sa lúč láme závisí len od relatívnych indexov lomu dvojice prostredí a od uhla dopadu podľa Snellovho zákona. n =

Návrh vzduchotesnosti pre detaily napojení

Integrovanie racionálnych funkcií

Obsah. 1.1 Reálne čísla a ich základné vlastnosti Komplexné čísla... 8

Harmonizované technické špecifikácie Trieda GP - CS lv EN Pevnosť v tlaku 6 N/mm² EN Prídržnosť

7 Derivácia funkcie. 7.1 Motivácia k derivácii

CHÉMIA Ing. Iveta Bruončová

Teória pravdepodobnosti

x x x2 n

C. Kontaktný fasádny zatepľovací systém

Spojité rozdelenia pravdepodobnosti. Pomôcka k predmetu PaŠ. RNDr. Aleš Kozubík, PhD. 26. marca Domovská stránka. Titulná strana.

UČEBNÉ TEXTY. Pracovný zošit č.2. Moderné vzdelávanie pre vedomostnú spoločnosť Elektrotechnické merania. Ing. Alžbeta Kršňáková

Podnikateľ 90 Mobilný telefón Cena 95 % 50 % 25 %

Deliteľnosť a znaky deliteľnosti

PREHĽAD ÚDAJOV. 1. Početnosť

Odporníky. 1. Príklad1. TESLA TR

Moderné vzdelávanie pre vedomostnú spoločnosť Projekt je spolufinancovaný zo zdrojov EÚ M A T E M A T I K A

FUNKCIE N REÁLNYCH PREMENNÝCH

Derivácia funkcie. Pravidlá derivovania výrazov obsahujúcich operácie. Derivácie elementárnych funkcií

Zložené funkcie a substitúcia

6 APLIKÁCIE FUNKCIE DVOCH PREMENNÝCH

Rozdiely vo vnútornej štruktúre údajov = tvarové charakteristiky

Kontrolné otázky z jednotiek fyzikálnych veličín

Príklady na precvičovanie Fourierove rady

Metódy spracovania experimentálnych výsledkov Autor pôvodného textu: Peter Ballo

3. Striedavé prúdy. Sínusoida

Ispitivanje toka i skiciranje grafika funkcija

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Vyhlásenie o parametroch stavebného výrobku StoPox GH 205 S

Analýza údajov. W bozóny.

Modul pružnosti betónu

Matematika 2. časť: Analytická geometria

Úvod do lineárnej algebry. Monika Molnárová Prednášky

Súčtové vzorce. cos (α + β) = cos α.cos β sin α.sin β cos (α β) = cos α.cos β + sin α.sin β. tg (α β) = cotg (α β) =.

Transcript:

Veľkosť výberového súboru Podľa Kah,H.A., Sempos,C.T.: Statistical Methods i Epidemiology. Oxford Uiv. Press, 1989 spracoval Doc. MUDr. Marti Rusák, CSc Často sa pýtame, aký veľký súbor potrebujem a preukázaie hypotézy. Na túto otázku ie je možé odpovedať štadardým počtom 30. V asledujúcom uvediem iekoľko príkladov ako sa dopracovať, resp. dopočítať správej odpovede. 1. Veľkosť výberu pre jede biomický parameter Predpokladajme, že chceme odhadúť pomer (proporciu (P pravideľých fajčiarov cigariet v skupie, ktorá prichádza a veľkú uiverzitu. Chceme dosiahuť, že áš odhad (p bude s vysokou pravdepodobosťou medzi ± skutočej hodoty pomeru (proporcie (P. Delta predstavuje určitý rozdiel medzi aším odhadom a skutočou hodotou (apríklad 0.5 alebo 0.5. Predtým ako môžeme veľkosť vypočítať je potrebé odhadúť samotý pomer (a prvý pohľad podivý postup. Dôvodom je skutočosť, že veľkosť výberu závisí a štadardej chybe odhadovaého parametra. Pre proporciu je štadardá chyba odhadu p rová P(1 P Ak považujeme proporciu fajčiarov cigariet medzi prvákmi za 0.30 a určíme, že chceme pracovať s rozdielom 0.04, potom vzťah 1 P(1 P 1.96SE( p = 1.96 = 0.04 (0.30(0.70 1.96SE( p = 1.96 = 0.04 vyjadruje, že si prajeme, aby 1.96 štadardej chyby ášho odhadu sa rovalo 0.04. Ak toto platí, potom s 95% pravdepodobosťou je áš odhad v rozsahu 4% (± =0.04 skutočosti. ároveň predpokladáme, že počet je dostatoče veľký a zaručeie ormáleho rozdeleia všetkých možých hodôt p (odhadov skutočej proporcie. V prípade epidemiologických štúdií je to väčšiou tak. Teraz môžeme rovicu riešiť pre 1 1 1.96 P(1 P = Δ 1

P 1-P výpočet 0.3 0.7 0.04 504 =(1.96*1.96 0.1 0.9 0.04 16 0. 0.8 0.04 384 0.4 0.6 0.04 576 0.5 0.5 0.04 600 Obrázok 1 Výpočet veľkosti pre rôze proporcie Takže dostávame asledovú tabuľku veľkostí výberu P Veľkosť výberu 95% výberov p bude medzi 0.10 16 0.06 a 0.14 0.0 384 0.16 a 0.4 0.30 504 0.6 a 0.34 0.40 576 0.36 a 0.44 0.50 600 0.46 a 0.54 Tabulka 1 Veľkosť výberu pri rôzych proporciách Čo sa stae, ak áš odhad proporcie bol esprávy? Predpokladajme, že sme uvažovali s proporciou P=0.0 a vypočítali veľkosť výberového súboru 384. V skutočosti bolo P rové 0.40. Pri P=0.40 je skutočý rozptyl všetkých možých priemerov výberu veľkosti 384 rový (0.4(0.6384=0.00065, pri čom štadardá chyba priemeru výberu je 0. 00065 = 0.05. Dve štadardé chyby sa budú rovať 0.05 a 95% všetkých p z výberu bude v rozmedzí od 0.35 do 0.45, pri veľkosti výberu 384. Pokiaľ v ašom výbere spozorujeme p veľkosti 0.35 a použijeme ho a výpočet štadardej chyby p potom odhadujeme skutočý priemer medzi 0.3 a 0.4 s istotou 0.95. Prirodzee ejdeme vyberať všetky možé výbery, ale le jede jediý. Preto sa môže stať, že p ami vybraého súboru je extréme ízke. V tom prípade si môžeme myslieť, že skutočá hodota je okolo 0.0. Avšak je omoho pravdepodobejšie, že teto výber povedie ku korekcii ašej predstavy o výskyte fajčeia cigariet. Teto príklad dokumetuje, že použiteľé výsledky je možo dosiahuť aj pri esprávom počiatočom odhade P.. Rozdiel medzi biomickými parametrami Často ie je cieľom epidemiológa odhadúť jediý parameter, ale porovať dva parametre. Toto je ajčastejší prípad použitia metód odhadu veľkosti výberového súboru, apríklad pre radomizovaú, kotrolovaú kliickú štúdiu. Predpokladajme, že máme za úlohu avrhúť štúdiu lieku, ktorý by mal zižovať icideciu ifarktu srdca. Abstrahujme od iých problémov vedeia takejto štúdie a zamerajme sa výhrade a odhad veľkosti výberového súboru potrebého pre uskutočeie tejto štúdie. Aby sme mohli odhadúť zmeu icidecie, musíme ajprv pozať jej predbežý odhad. Vyjdime z asledujúcich predpokladov: Celá štúdia má trvať 3 roky Icidecia ifarktu myokardu v daej populácii je 1% za rok, teda 3% za tri roky Stupeň zmey, ktorú daá štúdia odhalí pri určitej pravdepodobosti. Práve stupeň zmey, ktorý má štúdia potvrdiť s určitou mierou istoty je rozhodujúcim faktorom štúdie a predstavuje kombiáciu pozaia objektu skúmaia a subjektíveho rozhodutia výskumíka. Pokúsiť sa staoviť zížeie icidecie z 0.03 (teda 3% a 0.09

(a.9% sa ezdá byť vhodým rozhodutím.aj keď by sa možo ašlo zdôvodeie takéhoto zámeru, ie je rozumé sažiť sa potvrdiť tak malý rozdiel. Program, ktorý by sa o také iečo sažil bude určite ahradeý iým, ktorý sa bude usilovať o väčší rozdiel. Potom obtiažy, ákladý a časovo áročý program A, ktorý sa saží o zížeie o zížeie ročej icidecie o jedu desatiu perceta bude ahradeý programom B, ktorý ju zižuje o 5 desatí. Ak je skutoče icidecia v kotrolej skupie 3 percetá za 3 roky a liečba ju zižuje a.9%, potom výber potrebý a preukázaie tohto efektu musí byť ute väčší ako pri preukázaí redukcie z 3% a 1%. Vo všeobecosti platí, že čím väčší rozdiel sa sažíme potvrdiť, tým meší výberový súbor je potrebý. Nasledové štyri faktory musíme pozať pre výpočet potrebej veľkosti výberu: P c P e Skutočá icidecia v kotrolej skupie Skutočá icidecia v experimetálej skupie Pravdepodobosť I. typu chyby v teste výzamosti; teda dôvodeie, že je prítomý rozdiel medzi P c a P e kým v skutočosti sú údaje výberu le áhodou variaciou samotého parametru P c Pravdepodobosť II. typu chyby v teste výzamosti; teda eschoposť odmietuť ulovú hypotézu keď v skutočosti je rozdiel medzi P c a P e ako sa pôvode predpokladalo Skôr ako pristúpim k odvodeiu vzťahu medzi uvedeými parametrami považujem za potrebé upozoriť a skutočosť, že rozptyl (variacia rozdielu medzi dvoma ezávislými premeými sa rová súčtu variacií každej z ich: var(x y = var(x var(y Nezávislosť premeých môžem ilustrovať asledovými príkladmi. Hmotosť a výška ie sú vzájome ezávislé, keďže pozaie jedého z ich umožňuje odhadúť hodotu druhého. Avšak výška a číslo pasu sú takmer určite ezávislé, keďže pozaie jedého eumoží v žiadom prípade odhadúť hodotu druhého. Teraz sa sústreďme a rozptyl rozdielu medzi p c a p e (odhady P c a P e z výberu. V správe vedeej štúdii pozaie, že p c je mešie alebo väčšie ako P c ijako eposlúži odhadu, či p e je mešie alebo väčšie ako P e. Preto môžeme oprávee predpokladať, že oba parametre sú ezávislé a platí pre e var(p c p e = var(p c var(p e Rozobereme si prípad určeia veľkosti výberu, keď kotrolá i pokusá skupia sú rovakej veľkosti. Chceme určiť výzamý rozdiel medzi p c a p e s obojstraou chybou typu I veľkosti 0.05 (t.j. odmietuť ulovú hypotézu ak je rozdiel medzi p c a p e veľký a kladý alebo veľký a záporý a chybu II. Typu veľkosti 0.10,P c je skutoče 0.03 a P e je skutoče 0.0. Ak je ulová hypotéza pravdivá musíme vypočítať var(p c p e. Majme a pamäti, že pri pravdivosti ulovej hypotézy sa odhady p c a p e budú rovať 0.03. Potom môžme apísať, vzťah pre variaciu ich rozdielu ako súčet rozptylov oboch parametrov: 0.03(0.97 0.03(0.97 var( d : H 0 = kde d= p c p e a var(d:h 0 je rozptyl rozdielu za platosti ulovej hypotézy. Štadardá chyba rozdielu p c p e pri platej ulovej hypotéze je odmociou z predchádzajúceho vzťahu: 3

0.03(0.97 0.03(0.97 SE( d : H 0 = Sažíme sa vyšetriť dve možé situácie. Buď obe skupiy, kotrolá i experimetála, majú rovaké P = 0.03, čo je prípad ulovej hypotézy, alebo P c = 0.03 a P e = 0.0, čo je prípad alteratívej hypotézy. Chyba I. druhu veľkosti určuje, koľkokrát odmieteme pravdivú ulovú hypotézu. Ak je ulová hypotéza pravdivá, ľubovoľý rozdiel, ktorý spade do oblasti vedie k falošému odmietutiu ulovej hypotézy. Obe tieto oblasti odmietutia majú celkovú pravdepodobosť 0.05 a sú vzdialeé 1.96SE(d:H 0 od priemeru. Predpokladajme,že skutočosťou je pravdivá alteratíva hypotéza. V tom prípade iektoré z možých rozdielov vo výbere padú do zóy prijatia H 0. Dôsledkom je eschoposť odmietuť ulovú hypotézu aj keď alteratíva je pravdivá. Toto je chyba II. Typu (veľkosti a v ašom kokrétom prípade sme ju staovili ako.10. Takže 10% všetkých možých rozdielov vo výbere pri pravdivej alteratívej hypotéze povedie k eodmietutiu ulovej hypotézy, čo je v skutočosti espráve. Sáď je lepšie uvažovať o chybe II.typu ako o pravdepodobosti, ktorá je potrebá pre odmietutie H 0 keď je pravdivá alteratíva a tou je (1. Hodota (1 je ozačovaá ako sila testu. Ak chceme aby táto bola 0.90, potom (1 = 0.90 a = 0.10. Charakteristiky ormáleho rozdeleia určujú, že 10% plochy a chvoste rozdeleia je za 1.8 smerodatej odchýľky od priemeru. V ašom príklade smerodatá odchýľka rozdeleia všetkých možých rozdielov výberov pri alteratívej hypotéze je ároveň je potrebé si uvedomiť, že súčet 1.96SE(d:H 0 1.8SE(d:H A = 0.01. toho je možé vypočítať asledove: 0.03(0.97 0.0(0.98 SE( d H A = Takto obrovský výber 5703 kotrol a rovaké možstvo experimetálych jedicov potrebujeme pre rozpozaie tak malého rozdielu akým je rozdiel 1%. Rovicu môžeme zjedodušiť tým, že rozdiel P c P e ahradíme symbolom, parameter P bude zastupovať = 5703 súčet oboch P vydeleý dvomi: (P c P e a akoiec Q bude ozačovať difereciu 1 P. 4 0.03(0.97 0.0(0.98 1.96 0.41 1.96 = 75.5 1 0.41 1.8 = 0.01 ( ( = 1 1 0.03(0.97 0.0(0.98 1.8 PQ ( 1 PQ PQ Δ PQ 1 PQ 1 1 = 0.01

Odhad veľkosti výberu vo forme spreadsheet bude asledový: Alfa 0.05 Beta 0.10 pre alfa -1.96 =NORMSINV(B1 pre beta -1.8 =NORMSINV(B P kotroly 0.03 P exper 0.0 P 0.03 =(B5B6 Q 0.98 =1-B7 delta 0.01 =B5-B6 3075.69 =(POWER(B3*B4,**B7*B8POWER(B9, Pre staoveie 10% -ého rozdielu je potrebé výraze mešie súbory Alfa 0.05 Beta 0.10 pre alfa -1.96 =NORMSINV(B1 pre beta -1.8 =NORMSINV(B P kotroly 0.30 P exper 0.0 P 0.5 =(B5B6 Q 0.75 =1-B7 delta 0.10 =B5-B6 36.59 =(POWER(B3*B4,**B7*B8POWER(B9, 5

6 3. Spojité premeé Rovako ako pre biomiále premeé aj v prípade spojitých (apr. tlak krvi alebo teplota tela môžeme použiť obdobý postup. Výraz P(1-P ahradíme rozptylom var( a amiesto P použijeme (pre ozačeie priemeru populácie. Prepísaím rovice pre výpočet veľkosti rozdielu biomiálych parametrov a kotiuále získame asledový vzťah: kde predstavuje výsledok štadardej liečby a výsledok experimetálej. V prípade kotiuálych premeých je bežé, že dve premeé majú rovaký rozptyl ale rôze priemery. Preto môžeme ahradiť obe variacie jedou z ich Rozdiel priemerov ahradíme symbolom Δ: Odhady rozptylov môže výskumík získať z predchádzajúcich experimetov alebo sa spoľahe a iformovaý odhad. = var( var( var( = 1 1 var( var( ( ( ( [ ] = Δ 1 var( var( var(