Andmeanalüüs molekulaarbioloogias Praktikum 3 Kahe grupi keskväärtuste võrdlemine Studenti t-test 1
Hüpoteeside testimise peamised etapid 1. Püstitame ENNE UURINGU ALGUST uurimishüpoteesi ja nullhüpoteesi. 2. Valime ENNE UURINGU ALGUST statistilise olulisuse nivoo α. Olulisuse nivoo määrab millises piires oleme me valmis vigu aktsepteerima. 3. Otsustame ENNE UURINGU ALGUST kas tahame teha ühepoolset või kahepoolset testi. ====================== TEOSTAME UURINGU ============================ 4. Valime nullhüpoteesi testimiseks sobiva statistilise testi. 5. Sisestame arvutiprogrammi (Excel, R, vms.) andmed, sooritame testi ning saame vastuseks nullhüpoteesi kehtimise tõenäosuse: P-väärtuse. 6. Võrdleme P-väärtust olulisuse nivoo α-ga. Kui P-väärtus on väiksem olulisuse nivoost, siis loeme tulemuse statistiliselt oluliseks. 7. Sõnastame tulemuse teaduslikus vormis. Tulemuses peaks olema välja toodud sisulise mõju suurus ning tulemuse statistiline olulisus (kas täpse P-väärtusena või statistilisuse olulisuse määrana). 2
Praktikumi teemad 1. Hüpoteeside testimine Student i t-test paarikaupa andmetele Testime, kas ravimi võtmine alandab vererõhku 2. Hüpoteeside testimine Student i t-test mitte-paarikaupa andmetele Võrdleme meeste ning naiste isiksuseomadusi Kasutame isiksuse andmeid, mis on allalaetavad kodulehelt http://bioinfo.ut.ee/amb/amb_praktikum3.xls 3
1. Hüpoteeside testimine Studenti t-test paarikaupa andmetele Küsimus: Kas ravim alandab vererõhku? Etapp 1: Sõnastame uurimishüpoteesi ning nullhüpoteesi Uurimishüpotees: Ravimi võtmise järel on inimeste vererõhk madalam kui enne ravimi võtmist Nullhüpotees: Ravimi võtmise järel on inimeste vererõhk sama, mis enne ravimi võtmist Etapp 2: Valime statistilise usaldusväärtuse nivoo α α = 0.05 Etapp 3: Otsustame, kas kasutame ühepoolset või kahepoolset testi. Kuna küsimus on seotud vererõhu VÄHENEMISEGA, siis võime kasutada ühepoolset testi. 4
1. Hüpoteeside testimine Studenti t-test paarikaupa andmetele Etapp 4: Valime sobiva statistilise testi Antud tüüpi hüpoteesi (kahe grupi keskväärtused ei erine) testimiseks sobib Studenti t-test paarikaupa andmetele Etapp 5: Leiame P-väärtuse Kasutame selleks Exceli funktsiooni =TTEST() Etapp 6: Võrdleme P-väärtust olulise nivooga Etapp 7: Sõnastame tulemuse 5
Keskväärtuse erinevuse testimine Kahe grupi normaaljaotusega jaotunud andmete erinevust saame testida Studenti t- testiga =TTEST(Data1;Data2;Mode;Type) Data1 ja Data2: lahtrid kahe grupi mõõtmistulemustega Mode: ühepoolne test (1) või kahepoolne test (2) Type: 1, 2 või 3 (1) paarikaupa andmed samadelt indiviididelt/objektidelt (2) andmed sõltumatutelt objektidelt, kuid sarnase hajuvusega (3) andmed sõltumatutelt objektidelt, kuid oluliselt erineva hajuvusega t-testi vastuseks saame P-väärtuse (tõenäosus, et kahe grupi keskväärtus ei ole erinev ja sellise keskväärtuse erinevusega valimid on saadud juhuslikult) 6
Keskväärtuse erinevuse testimine Type: 1, 2 või 3 (1) paarikaupa andmed samadelt indiviididelt/objektidelt (2) andmed sõltumatutelt objektidelt, kuid sarnase hajuvusega (3) andmed sõltumatutelt objektidelt, kuid oluliselt erineva hajuvusega tüüp 2 ja tüüp 3 vahel saame valida, kasutades täiendavat statistilist testi (F-testi) või kasutades andmete jaotuse visuaalset hindamist histogrammilt (kui jaotuste laiused on sarnased, siis tüüp 2, kui erinevad, siis tüüp 3). 7
2. Keskväärtuse erinevuse testimine paarikaupa andmetega Töölehel 4.1 Keskv. võrdlemine A on fiktiivsed vererõhu andmed enne ja pärast ravimi kasutamist. Kasutame gruppide erinevuse testimiseks Studenti t-testi: =TTEST(F2:F664,G2:G664,1,1) Leidsime, et P=2.8*10-14 Võrreldes saadud tulemust eelnevalt valitud usaldusväärtuse nivooga (0.05) võime nentida, et tulemus on statistiliselt oluline (kuna P<α). 8
1. Keskväärtuse erinevuse testimine paarikaupa andmetega Leiame samast andmestikust sisulise mõju suuruse (gruppide keskväärtuste vahe) ja sõnastame tulemuse kokkuvõtva lausega. Tulemuse sõnastus: Uuringust selgus, et peale ravimi võtmist oli inimeste vererõhk keskmiselt 5 ühiku võrra madalam kui enne ravimi võtmist. Tulemus oli statistiliselt oluline usaldusväärsuse nivool 0.05. 9
2. Keskväärtuse erinevuse testimine mitte-paarikaupa (sõltumatute) andmetega UURIMISHÜPOTEES: Meeste ja naiste neurootilisuse keskväärtus on erinev. NULLHÜPOTEES: Meeste ja naiste neurootilisuse keskväärtus ei ole erinev. Järgnevalt tuleb valida usaldusväärtuse nivoo ja otsustada, kas teha ühepoolne test või kahepoolne test. Kuna võimalik on mõlemasuunaline erinevus, tuleb antud juhul teha kahepoolne test. Statistilise testi valimiseks oleks esmalt vaja hinnata kummagi grupi neurootilisuse hajuvust, et valida Studenti testi tüüp 2 või tüüp 3. Analüüsi tegemiseks tuleb neurootilisuse andmed sorteerida inimeste soo järgi. 10
2. Keskväärtuse erinevuse testimine mitte-paarikaupa (sõltumatute) andmetega Antud juhul meeste ja naiste hajuvus sarnane, seetõttu võime kasutada tüüp 2 testi. =TTEST(G2:G281,G282:G664,2,2) 11
2. Keskväärtuse erinevuse testimine mitte-paarikaupa (sõltumatute) andmetega Testime: Kas meeste ja naiste neurootilisuse keskväärtus on oluliselt erinev? Tulemusena saame P-väärtuseks 2.89*10-4 Arvutame ka mõju sisulise suuruse (antud juhul keskväärtuste vahe). Tulemuse korrektne tõlgendus: Naiste neurootilisuse keskväärtus on 7 punkti võrra kõrgem kui meeste neurootilisuse keskväärtus. Erinevus on statistiliselt väga oluline (P<0.01). 12
2. Keskväärtuse erinevuse testimine sõltumatute andmegruppidega Testime: Kas meeste ja naiste ekstravertsuse (E), avatuse (O), põikpäisuse (A) ja meelekindluse (C) keskväärtus on oluliselt erinev? 13
3. Keskväärtuse erinevuse testimine katseandmetega Ühes bakalaureusetöös sooviti määrata kas regulaatorvalk p53 mõjutab geeniekspressiooni. Katsesüsteemi testimiseks sooritati positiivne kontrollkatse. Rakkudesse viidi reporterplasmiid, millel oli p53 valgu poolt represseeritav promootor ning selle taga lutsiferaasi tootev geen. Katseliselt mõõdeti lutsiferaasi aktiivsust tassidel a) kuhu oli p53 valku rakkudesse viidud või b) tassidel, kus rakkudesse p53 ei olnud lisatud. Kõigi analüüsitavate plasmiididega tehti 3 korduskatset. Saadi järgmised tulemused: Katse 1 Katse 2 Katse3 P53+ 65 72 23 P53-335 395 174 Kas positiivne kontroll töötas? 14
3. Keskväärtuse erinevuse testimine katseandmetega Ühes bakalaureusetöös sooviti määrata kas regulaatorvalk p53 mõjutab geeniekspressiooni. Katsesüsteemi testimiseks sooritati positiivne kontrollkatse. Rakkudesse viidi reporterplasmiid, millel oli p53 valgu poolt represseeritav promootor ning selle taga lutsiferaasi tootev geen. Katseliselt mõõdeti lutsiferaasi aktiivsust tassidel a) kuhu oli p53 valku rakkudesse viidud või b) tassidel, kus rakkudesse p53 ei olnud lisatud. Kõigi analüüsitavate plasmiididega tehti 3 korduskatset. Kas positiivne kontroll töötas? Jah, lutsiferaasi aktiivsuse keskväärtus on p53 juuresolekul 5,6 korda väiksem. Erinevus on statistiliselt oluline (P=0,029). 15
4. Eelnevate oskuste värskendamine Ühes bakalaureusetöös sooviti määrata kas regulaatorvalk p53 mõjutab geeniekspressiooni. Katsesüsteemi testimiseks sooritati positiivne kontrollkatse. Rakkudesse viidi reporterplasmiid, millel oli p53 valgu poolt represseeritav promootor ning selle taga lutsiferaasi tootev geen. Katseliselt mõõdeti lutsiferaasi aktiivsust tassidel a) kuhu oli p53 valku rakkudesse viidud või b) tassidel, kus rakkudesse p53 ei olnud lisatud. Kõigi analüüsitavate plasmiididega tehti 3 korduskatset. Joonistage p53+ ja p53- rakkude lutsiferaasi aktiivsusi kirjeldav tulpdiagramm koos 95% usalduspiiridega. 16