Andmeanalüüs molekulaarbioloogias LOMR.0.007. loeng Andmed, tunnused, tunnuste tüübid ja tunnuse jaotuse iseloomustamine Prof Maido Remm Märt Möls martm@ut.ee Töökorraldus Hinne Hinne kujuneb kontrolltööde (40%) ja eksami (60%) punktidest. Kontrolltööd (4x0 punkti) Iga loengu (välja arvatud esimene loeng) lõpus toimub kontrolltöö antud loengu teemal. Kontrolltööd baseeruvad koduseks lugemiseks antud raamatu peatükkidel! Kontrolltöö edukaks sooritamiseks peate seega need peatükid kodus läbi lugema ja läbi mõtlema! Raamatuid ja arvuteid võib kasutada, kuid töö tegemise aeg on limiteeritud (ca 5 küsimust 5 minuti jooksul), nii et materjal peab teil olema enne läbi töötatud ja läbi mõeldud. Eelkõige kontrollitakse loengust ja peatükkidest arusaamist, mitte faktide teadmist. Peate näitama, et olete teemaga tutvunud ja sellest ka aru saanud. Õppematerialid Harvey Motulsky Intuitive Biostatistics (200, 995) Järgmiseks korraks lugeda leheküljed 3-52 (995.a. raamatu järgi). Kursuse kodulehekülg: http://www.ms.ut.ee/mart/amb/ Töökorraldus Teisipäeviti toimuvad praktikumid. Paluks kaasa võtta sülearvutid, millele võiks juba olla paigaldatud R (tarkvara, mida hakkame kasutama praktikumides statistilise analüüsi tegemiseks). R on vabavara mida saab maha laadida järgmiselt võrgulehelt: http://www.r-project.org
Näide Loteriiga peavõidu saamine (näiteks Eestis müüdava Eurojackpoti piletiga) on äärmiselt vähetõenäoline sündmus. Väike on ka tõenäosus sattuda autoga sõites hukkunutega lõppevasse liiklusõnnetusse. Kui pika tee peaksite autoga läbima, et tõenäosus iseennast või kedagi teist surnuks sõita oleks samasuur kui lotovõidu saamise tõenäosus? Vastus: 930m = 0,93 km (203.a. andmed, Eesti) Anna vahemik, kus arvad 90% kindlusega paiknevat õige vastuse:. Millal (eestlased?) vallutasid Sigtuna? 87 2. Mitu inimest elab Haapsalus (rahvaloenduse andmetel, 3.dets 20)? 0 25 3. Mitu üliõpilast oli LOTEs 202. aastal? 247 4. Mitu professorit töötas Tartu Ülikoolis 202. aastal? 93 5. Mitu geenidoonorit oli TÜ geenivaramus 7.veebruaril 204.aastal? 6. Mitu Petrogradis elavat eestlast osales 26. märtsil 97.a 5 535 meeleavaldusel Petrogradis (nõuti Põhja-Liivima ühendamist Eestimaa kubermanguga)? 40 000 7. Kui suur on soolekepikese (Ecoli O57:H7) genoom (Mb)? 8. Kui palju õpilasi läks Eesti suurimasse kooli 203. aastal? 5,4 Mb 779 9. Kui pikk on inimese. kormosoomis paiknev DNA-ahel (millimeetrites)? 85mm 7 last 0. Mitu last oli Postimehe asutajal Johann Voldemar Jannsenil? 2
Teaduslikele küsimustele vastamine Enamusel juhtudel vajame teaduslikele küsimustele vastamiseks statistika abi. Miks? Inimese aju ei ole harjunud mõtlema tõenäosustest. Inimese aju teeb otsuseid enamasti liiga kiiresti, enesekindlalt ja üleliia optimistlikult. Inimaju on harjunud nägema mustreid: ta näeb ja leiab mustreid ka sealt, kus neid pole. Tunnuse jaotus Tunnuse võimalike väärtuste ja nende esinemistõenäosuste kirjeldamine tga tga taa taa taa taa taa taa taa taa tga tga taa taa taa taa tga taa tga taa taa taa taa tga taa tga taa taa taa taa taa taa taa taa tga taa taa taa taa taa taa tga tga tga taa... Sagedustabel lõpukoodon sagedus taa 2706 tag 326 tga 258 2500 2000 500 000 Tunnuse jaotus Tunnuse võimalike Tulpdiagrammväärtuste ja nende 60esinemistõenäosuste kirjeldamine tga tga taa taa 50 taa taa taa taa taa taa tga tga taa taa taa taa tga taa tga taa taa taa taa tga taa tga taa taa taa taa taa 40 taa taa taa tga taa taa taa taa taa taa tga tga tga taa... 20 Jaotustabel (osakaalud) 500 0 taa Protsent (%) 30 Tulpdiagramm 0 tag 0 lõpukoodon osakaal tga taa 63,% tag 7,6% tga 29,3% taa tag tga taa Kakuke - ringdiagramm tag tga 3
0 8 6 4 2 0 Pideva tunnuse jaotus (Halb näide ära nii tee!) Meestudengite pikkused 88 97 79 7 89 76 90.2 8 93 77 68 72 94 76.2 70 9.5 99 80 20 78 82 86 90 89. 92 83 75 84 74 73 84.5 85 83.5 8.5 87 98 9 82.7 Sagedustabel Pideva tunnuse jaotus Vahemik sagedus (65,70] 6 (70,75] 2 (75,80] 36 (80,85] 4 (85,90] 28 (90,95] (95,200] 4 (200,205] Sagedus 0 0 20 30 40 Histogramm 70 80 90 200 pikkus Tunnuse tüübid Pidev tunnus (pikkus, kaal, vanus,...) Diskreetne tunnus (käte arv, hammaste arv,...) Järjestustunnus (väga hea/hea/keskmine/halb/väga halb tüüpi tunnus) Nominaalne tunnus (rahvus, alguskoodon,...) Muutuja tüüp on (teataval määral) uurija enda otsustada Inimese pikkus mõõdetuna näiteks cm või mm on pidev tunnus Neidsamu mõõdetud pikkuseid võime aga jagada pikkadeks, keskmisteks ja lühikesteks tulemuseks saame järjestustunnuse; järjestustunnuse analüüsimiseks saab aga peaaegu alati kasutada ka nominaalse tunnuse analüüsimiseks sobivaid meetodeid. Me kaotame osa vaatlustes olemasolevast informatsioonist, kui otsustame teisendada ta järjestustunnuseks (pikk/keskmine/lühike), kuid mõnikord saame vastu võimaluse kasutada lihtsamaid analüüsimeetodeid või saame oma tulemusi esitada kergemini, vähem taustadeadmiseid nõudval viisil. 4
Statistikud Vaatluste (andmete) põhjal arvutatavad näitajad, mis peaksid iseloomustama uuritava tunnuse jaotust või jaotuse mõnda tähelepanuväärset aspekti. Statistikuks on näiteks keskmine: n x= x x= 3+ 4+ 6+ 7+ 25 i n 5 i= = 9 ( ) Mediaan Väärtus, millest suuremaid ja väiksemaid väärtuseid esineb samapalju: 3 4 6 7 25 mediaan 2 3 4 6 7 25 Mediaan (4+6)/2=5 2 2 2 2 3 25 mediaan Mood Multimodaalsete jaotuste näiteid keskmine mediaan mood 0 20 30 40 50 Tunnus Z 5
Multimodaalsete jaotuste näiteid Multimodaalsete jaotuste näiteid Väärtuste varieeruvuse kirjeldamine Miinimum ja maksimum Mitu jalga on inimesel? 0-6 Olemasolevate vaatluste miinimum on (peaaegu) alati liiga suur ja olemasolevate vaatluste maksimum liiga väike... Reaalses andmestikus näitavad enamasti sisestus- või mõõtmisvigu, mutante,... Kvantiilid Definitsioon: Uuritava tunnuse α-kvantiil on tunnuse väärtus, millest väiksemate väärtuste osakaal on α. Näiteks 0,-kvantiil on väärtus, millest väiksemate väärtuste osakaal on 0, ehk 0%. Enimkasutatavad: mediaan (0,5-kvantiil) detsiilid (0,; 0,2;...-kvantiil), kvartiilid (0,25; 0,75-kvantiil). 6
Dispersioon Mõõtmisvead Mõõtmisviga -3-2 - 0 2 3 Aparaat Aparaat 2 x = 0 mediaan(x )= 0 x 2= 0 mediaan(x 2)= 0 Dispersioon Keskmine erinevus keskmisest? ( x x) = n n i= ( x i x) =0 Keskmine ruuterinevus keskmisest? n n 2 2 2 2 ( s ( x) = ) s= x = ( x i x) n i= ( xi x) n i= dispersioon Mõõtmisviga -3-2 - 0 2 3 Mõõtmisvead Aparaat Aparaat 2 x = 0 x 2=0 mediaan(x )= 0 mediaan(x 2)= 0 Standardhälve Ruutjuur dispersioonist, s Kahe standardhälbe kaugusele keskmisest jäävad garanteeritult ¾ vaatlustest (enamasti ~95%) Kolme standardhälbe kaugusele keskmisest jäävad garanteeritult 8/9 vaatlustest (enamasti ~99,7%) 7
Mõõtmisvead Joonised Mõõtmisviga -3-2 - 0 2 3 Aparaat Aparaat 2 x = 0 mediaan(x )= 0 x 2 = 0 mediaan(x 2 )= 0 s=,3 s=0,5 Karp-vurrud diagramm (boxplot) Näitab: mediaani (keskmine paks joon); alumist ja ülemist kvartiili (karbikese alumine ja ülemine piir); miinimumi ja maksimumi; 2 3 4 5 6 7 8 Joonised Tihedusfunktsioon Karp-vurrud diagramm (boxplot) Näitab: mediaani (keskmine paks joon); alumist ja ülemist kvartiili (karbikese alumine ja ülemine piir); Kui miinimum või maksimum jäävad liiga kaugele, siis vahel ei viitsita vurrude joonistamiseks karbist sedavõrd kaugele vantsida ja tehakse nad veidi lähemale. 2 3 4 5 6 7 8 f(x) 0.00 0.05 0.0 0.5 0.20 0 2 4 6 8 20 tunnus 8
Tihedusfunktsioon Tihedusfunktsioon Naistudengite pikkused (Tartu Ülikool) f(x) 0.0 0. 0.2 0.3 0.4 0.5 0.6 0.00 0.0 0.02 0.03 0.04 0.05 0.06 S=0,02 S=0,234 8 9 0 2 3 Kui suur osa uuritava tunnuse väärtustest jääb vahemikku 0..? x 50 60 70 80 90 Pikkus (cm) Tihedusfunktsioon Tihedusfunktsioon ja histogramm Naistudengite pikkused (Tartu Ülikool) Tihedusfunktsioon histogramm 0.00 0.0 0.02 0.03 0.04 0.05 0.06 x =... s x =... 0.00 0.05 0.0 0.5 0.20 sagedus 0 500 000 500 50 60 70 80 90 Pikkus (cm) 0 2 4 6 8 20 0 5 20 9
Tihedusfunktsioon ja histogramm Tihedusfunktsioon ja histogramm Tihedusfunktsioon histogramm histogramm 0.00 0.05 0.0 0.5 0.20 0.00 0.05 0.0 0.5 0.20 0.00 0.05 0.0 0.5 0.20 0 2 4 6 8 20 0 5 20 0 5 20 Tihedusfunktsioon ja histogramm 0.00 0.05 0.0 0.5 0.20 histogramm Hiigelsuur valim Tihedusfunktsiooni üks võimalik interpretatsioon Tihedusfunktsioon näitab, milline näeks välja histogramm siis, kui teeksime lõpmatult palju vaatluseid ja joonistaksime histogrammile ka äärmiselt palju tulpasid. 5 0 5 20 25 0
Objekt-tunnus maatriks Objekt-tunnus maatriks Aeg Rott Tootlus Tulemus 2:23-23 2:34 2-28 2:36 3-32 2:40 + 28 2:42 4-9 2:44 2 + 32... Objekt-tunnus maatriks Rott Enne Pärast 23 28 2 28 32 3 32... 4 9......... Aeg Rott Tootlus Tulemus 2:23-23 2:34 2-28 2:36 3-32 2:40 + 28 2:42 4-9 2:44 2 + 32... Kokkuvõte: mida peaksite teadma Objekt-tunnus maatriks Tunnuste tüübid (pidev/diskreetne/järjestustunnus/nominaalne tunnus) Põhistatistikud: keskmine, mediaan, mood, dispersioon, standardhälve, kvantiilid Jaotuse visualiseerimine ja jooniste interpreteerimine: histogramm, funktsioon, karp-vurrud diagramm