Töökorraldus. Õppematerialid. Töökorraldus. Harvey Motulsky Intuitive Biostatistics (2010, 1995)

Σχετικά έγγραφα
Matemaatiline statistika ja modelleerimine

Lokaalsed ekstreemumid

2.2.1 Geomeetriline interpretatsioon

Graafiteooria üldmõisteid. Graaf G ( X, A ) Tippude hulk: X={ x 1, x 2,.., x n } Servade (kaarte) hulk: A={ a 1, a 2,.., a m } Orienteeritud graafid

Funktsiooni diferentsiaal

Planeedi Maa kaardistamine G O R. Planeedi Maa kõige lihtsamaks mudeliks on kera. Joon 1

Kompleksarvu algebraline kuju

7.7 Hii-ruut test 7.7. HII-RUUT TEST 85

9. AM ja FM detektorid

Vektorid II. Analüütiline geomeetria 3D Modelleerimise ja visualiseerimise erialale

MATEMAATIKA TÄIENDUSÕPE MÕISTED, VALEMID, NÄITED LEA PALLAS XII OSA

Wilcoxoni astakmärgitest (Wilcoxon Signed-Rank Test)

MATEMAATIKA TÄIENDUSÕPE MÕISTED, VALEMID, NÄITED, ÜLESANDED LEA PALLAS VII OSA

Geomeetrilised vektorid

Andmeanalüüs molekulaarbioloogias

PLASTSED DEFORMATSIOONID

Matemaatiline analüüs I iseseisvad ülesanded

2. Normi piiride määramine (R.D. Smith)

2. Normi piiride määramine

Ruumilise jõusüsteemi taandamine lihtsaimale kujule

HAPE-ALUS TASAKAAL. Teema nr 2

Kontekstivabad keeled

Arvuti kasutamine uurimistöös

Matemaatiline analüüs I iseseisvad ülesanded

Juhuslik faktor ja mitmetasandilised mudelid

Kirjeldab kuidas toimub programmide täitmine Tähendus spetsifitseeritakse olekuteisendussüsteemi abil Loomulik semantika

28. Sirgvoolu, solenoidi ja toroidi magnetinduktsiooni arvutamine koguvooluseaduse abil.

1 Funktsioon, piirväärtus, pidevus

HULGATEOORIA ELEMENTE

5. TUGEVUSARVUTUSED PAINDELE

ITI 0041 Loogika arvutiteaduses Sügis 2005 / Tarmo Uustalu Loeng 4 PREDIKAATLOOGIKA

Lisa 2 ÜLEVAADE HALJALA VALLA METSADEST Koostanud veebruar 2008 Margarete Merenäkk ja Mati Valgepea, Metsakaitse- ja Metsauuenduskeskus

A - suurepärane % B - väga hea 81-90% C - hea 71-80% D - rahuldav 61-70% E - kasin 51-60% F - puudulik 0 50% Kirjeldav statistika

Arvuteooria. Diskreetse matemaatika elemendid. Sügis 2008

Ecophon Line LED. Süsteemi info. Mõõdud, mm 1200x x x600 T24 Paksus (t) M329, M330, M331. Paigaldusjoonis M397 M397

Veaarvutus ja määramatus

Excel Statistilised funktsioonid

Ehitusmehaanika harjutus

Funktsioonide õpetamisest põhikooli matemaatikakursuses

siis on tegemist sümmeetrilise usaldusvahemikuga. Vasakpoolne usaldusvahemik x i, E x = EX, D x = σ2

2017/2018. õa keemiaolümpiaadi piirkonnavooru lahendused klass

8. KEEVISLIITED. Sele 8.1. Kattekeevisliide. Arvutada kahepoolne otsõmblus terasplaatide (S235J2G3) ühendamiseks. F = 40 kn; δ = 5 mm.

,millest avaldub 21) 23)

Sisukord. 4 Tõenäosuse piirteoreemid 36

4 T~oenäosuse piirteoreemid Tsentraalne piirteoreem Suurte arvude seadus (Law of Large Numbers)... 32

Matemaatiline statistika ja modelleerimine

4.2.5 Täiustatud meetod tuletõkestusvõime määramiseks

REAKTSIOONIKINEETIKA

Suhteline salajasus. Peeter Laud. Tartu Ülikool. peeter TTÜ, p.1/27

DEF. Kolmnurgaks nim hulknurka, millel on 3 tippu. / Kolmnurgaks nim tasandi osa, mida piiravad kolme erinevat punkti ühendavad lõigud.

1 Reaalarvud ja kompleksarvud Reaalarvud Kompleksarvud Kompleksarvu algebraline kuju... 5

4.1 Funktsiooni lähendamine. Taylori polünoom.

Joonis 1. Teist järku aperioodilise lüli ülekandefunktsiooni saab teisendada võnkelüli ülekandefunktsiooni kujul, kui

KOMBINATSIOONID, PERMUTATSIOOND JA BINOOMKORDAJAD

; y ) vektori lõpppunkt, siis

Matemaatika VI kursus Tõenäosus, statistika KLASS 11 TUNDIDE ARV 35

Sisukord. 3 T~oenäosuse piirteoreemid Suurte arvude seadus (Law of Large Numbers)... 32

Seminar II: Mitmemõõtmeline dispersioonanalüüs (MANOVA)

Smith i diagramm. Peegeldustegur

Sissejuhatus mehhatroonikasse MHK0120

Elastsusteooria tasandülesanne

Eessõna 7 Maa atmosfäär 11 Pilvede olemus, tekkimine ja tähtsus 16 Pilvede klassifitseerimine, süstemaatika ja omavahelised seosed 26

1 MTMM Kõrgem matemaatika, eksamiteemad 2014

T~oestatavalt korrektne transleerimine

1.1. NATURAAL-, TÄIS- JA RATSIONAALARVUD

Andmete haldus ja analüüs MS Excelis Praktikum 1

Epidemioloogiliste terminite lühisõnastik

Vahendid Otsus Analüüs: Analüüsi Riskantseid Otsuseid

Praktikum 1. Matemaatiline statistika ja modelleerimine, DK.0007

Mõõtm., andmetöötlus ja autom. piimanduses ja lihanduses, VL-1112 ja VL-1122 Praktikum 1

5. OPTIMEERIMISÜLESANDED MAJANDUSES

Mathematica kasutamine

KORDAMINE RIIGIEKSAMIKS VII teema Vektor. Joone võrrandid.

Kujutise saamine MAGNETRESONANTSTOMOGRAAFIAS (MRT) Magnetic Resonance Imaging - MRI

ESF5511LOX ESF5511LOW ET NÕUDEPESUMASIN KASUTUSJUHEND 2 EL ΠΛΥΝΤΉΡΙΟ ΠΙΆΤΩΝ ΟΔΗΓΊΕΣ ΧΡΉΣΗΣ 21 HU MOSOGATÓGÉP HASZNÁLATI ÚTMUTATÓ 41

Eesti elektrienergia hinna analüüs ja ühesammuline prognoosimine ARIMA tüüpi mudelitega

Arvutatavad statistikud. Programmi LSTATS kasutamisjuhend

Punktide jaotus: kodutööd 15, nädalatestid 5, kontrolltööd 20+20, eksam 40, lisapunktid Kontrolltööd sisaldavad ka testile vastamist

1 Entroopia ja informatsioon

Compress 6000 LW Bosch Compress LW C 35 C A ++ A + A B C D E F G. db kw kw /2013

Statistiline andmetöötlus, VL-0435 sügis, 2008

Kontrollijate kommentaarid a. piirkondliku matemaatikaolümpiaadi

MATEMAATILISEST LOOGIKAST (Lausearvutus)

KORDAMINE RIIGIEKSAMIKS V teema Vektor. Joone võrrandid.

Ecophon Square 43 LED

Kineetiline ja potentsiaalne energia

SELEKTSIOONIINDEKSID

TTÜ informaatikainstituut. Tutvumine Pythoniga

SISSEJUHATUS TEADVUSETEADUSESSE. Teema on niivõrd põnev ja huvitav, JAAN ARU TALIS BACHMANN

Mitmest lülist koosneva mehhanismi punktide kiiruste ja kiirenduste leidmine

Annegrete Peek. Üldistatud aditiivne mudel. Bakalaureusetöö (6 EAP)

Parim odav. nutitelefon

Sõiduki tehnonõuded ja varustus peavad vastama järgmistele nõuetele: Grupp 1 Varustus

Kõrv vastu arvutit: testis 2.1 arvutikõlarid

Matemaatiline analüüs IV praktikumiülesannete kogu a. kevadsemester

Pesumasin Πλυντήριο ρούχων Mosógép Veļas mašīna

Analüütilise geomeetria praktikum II. L. Tuulmets

Eesti LV matemaatikaolümpiaad

Eesti koolinoorte XLVIII täppisteaduste olümpiaadi

ALGEBRA I. Kevad Lektor: Valdis Laan

Transcript:

Andmeanalüüs molekulaarbioloogias LOMR.0.007. loeng Andmed, tunnused, tunnuste tüübid ja tunnuse jaotuse iseloomustamine Prof Maido Remm Märt Möls martm@ut.ee Töökorraldus Hinne Hinne kujuneb kontrolltööde (40%) ja eksami (60%) punktidest. Kontrolltööd (4x0 punkti) Iga loengu (välja arvatud esimene loeng) lõpus toimub kontrolltöö antud loengu teemal. Kontrolltööd baseeruvad koduseks lugemiseks antud raamatu peatükkidel! Kontrolltöö edukaks sooritamiseks peate seega need peatükid kodus läbi lugema ja läbi mõtlema! Raamatuid ja arvuteid võib kasutada, kuid töö tegemise aeg on limiteeritud (ca 5 küsimust 5 minuti jooksul), nii et materjal peab teil olema enne läbi töötatud ja läbi mõeldud. Eelkõige kontrollitakse loengust ja peatükkidest arusaamist, mitte faktide teadmist. Peate näitama, et olete teemaga tutvunud ja sellest ka aru saanud. Õppematerialid Harvey Motulsky Intuitive Biostatistics (200, 995) Järgmiseks korraks lugeda leheküljed 3-52 (995.a. raamatu järgi). Kursuse kodulehekülg: http://www.ms.ut.ee/mart/amb/ Töökorraldus Teisipäeviti toimuvad praktikumid. Paluks kaasa võtta sülearvutid, millele võiks juba olla paigaldatud R (tarkvara, mida hakkame kasutama praktikumides statistilise analüüsi tegemiseks). R on vabavara mida saab maha laadida järgmiselt võrgulehelt: http://www.r-project.org

Näide Loteriiga peavõidu saamine (näiteks Eestis müüdava Eurojackpoti piletiga) on äärmiselt vähetõenäoline sündmus. Väike on ka tõenäosus sattuda autoga sõites hukkunutega lõppevasse liiklusõnnetusse. Kui pika tee peaksite autoga läbima, et tõenäosus iseennast või kedagi teist surnuks sõita oleks samasuur kui lotovõidu saamise tõenäosus? Vastus: 930m = 0,93 km (203.a. andmed, Eesti) Anna vahemik, kus arvad 90% kindlusega paiknevat õige vastuse:. Millal (eestlased?) vallutasid Sigtuna? 87 2. Mitu inimest elab Haapsalus (rahvaloenduse andmetel, 3.dets 20)? 0 25 3. Mitu üliõpilast oli LOTEs 202. aastal? 247 4. Mitu professorit töötas Tartu Ülikoolis 202. aastal? 93 5. Mitu geenidoonorit oli TÜ geenivaramus 7.veebruaril 204.aastal? 6. Mitu Petrogradis elavat eestlast osales 26. märtsil 97.a 5 535 meeleavaldusel Petrogradis (nõuti Põhja-Liivima ühendamist Eestimaa kubermanguga)? 40 000 7. Kui suur on soolekepikese (Ecoli O57:H7) genoom (Mb)? 8. Kui palju õpilasi läks Eesti suurimasse kooli 203. aastal? 5,4 Mb 779 9. Kui pikk on inimese. kormosoomis paiknev DNA-ahel (millimeetrites)? 85mm 7 last 0. Mitu last oli Postimehe asutajal Johann Voldemar Jannsenil? 2

Teaduslikele küsimustele vastamine Enamusel juhtudel vajame teaduslikele küsimustele vastamiseks statistika abi. Miks? Inimese aju ei ole harjunud mõtlema tõenäosustest. Inimese aju teeb otsuseid enamasti liiga kiiresti, enesekindlalt ja üleliia optimistlikult. Inimaju on harjunud nägema mustreid: ta näeb ja leiab mustreid ka sealt, kus neid pole. Tunnuse jaotus Tunnuse võimalike väärtuste ja nende esinemistõenäosuste kirjeldamine tga tga taa taa taa taa taa taa taa taa tga tga taa taa taa taa tga taa tga taa taa taa taa tga taa tga taa taa taa taa taa taa taa taa tga taa taa taa taa taa taa tga tga tga taa... Sagedustabel lõpukoodon sagedus taa 2706 tag 326 tga 258 2500 2000 500 000 Tunnuse jaotus Tunnuse võimalike Tulpdiagrammväärtuste ja nende 60esinemistõenäosuste kirjeldamine tga tga taa taa 50 taa taa taa taa taa taa tga tga taa taa taa taa tga taa tga taa taa taa taa tga taa tga taa taa taa taa taa 40 taa taa taa tga taa taa taa taa taa taa tga tga tga taa... 20 Jaotustabel (osakaalud) 500 0 taa Protsent (%) 30 Tulpdiagramm 0 tag 0 lõpukoodon osakaal tga taa 63,% tag 7,6% tga 29,3% taa tag tga taa Kakuke - ringdiagramm tag tga 3

0 8 6 4 2 0 Pideva tunnuse jaotus (Halb näide ära nii tee!) Meestudengite pikkused 88 97 79 7 89 76 90.2 8 93 77 68 72 94 76.2 70 9.5 99 80 20 78 82 86 90 89. 92 83 75 84 74 73 84.5 85 83.5 8.5 87 98 9 82.7 Sagedustabel Pideva tunnuse jaotus Vahemik sagedus (65,70] 6 (70,75] 2 (75,80] 36 (80,85] 4 (85,90] 28 (90,95] (95,200] 4 (200,205] Sagedus 0 0 20 30 40 Histogramm 70 80 90 200 pikkus Tunnuse tüübid Pidev tunnus (pikkus, kaal, vanus,...) Diskreetne tunnus (käte arv, hammaste arv,...) Järjestustunnus (väga hea/hea/keskmine/halb/väga halb tüüpi tunnus) Nominaalne tunnus (rahvus, alguskoodon,...) Muutuja tüüp on (teataval määral) uurija enda otsustada Inimese pikkus mõõdetuna näiteks cm või mm on pidev tunnus Neidsamu mõõdetud pikkuseid võime aga jagada pikkadeks, keskmisteks ja lühikesteks tulemuseks saame järjestustunnuse; järjestustunnuse analüüsimiseks saab aga peaaegu alati kasutada ka nominaalse tunnuse analüüsimiseks sobivaid meetodeid. Me kaotame osa vaatlustes olemasolevast informatsioonist, kui otsustame teisendada ta järjestustunnuseks (pikk/keskmine/lühike), kuid mõnikord saame vastu võimaluse kasutada lihtsamaid analüüsimeetodeid või saame oma tulemusi esitada kergemini, vähem taustadeadmiseid nõudval viisil. 4

Statistikud Vaatluste (andmete) põhjal arvutatavad näitajad, mis peaksid iseloomustama uuritava tunnuse jaotust või jaotuse mõnda tähelepanuväärset aspekti. Statistikuks on näiteks keskmine: n x= x x= 3+ 4+ 6+ 7+ 25 i n 5 i= = 9 ( ) Mediaan Väärtus, millest suuremaid ja väiksemaid väärtuseid esineb samapalju: 3 4 6 7 25 mediaan 2 3 4 6 7 25 Mediaan (4+6)/2=5 2 2 2 2 3 25 mediaan Mood Multimodaalsete jaotuste näiteid keskmine mediaan mood 0 20 30 40 50 Tunnus Z 5

Multimodaalsete jaotuste näiteid Multimodaalsete jaotuste näiteid Väärtuste varieeruvuse kirjeldamine Miinimum ja maksimum Mitu jalga on inimesel? 0-6 Olemasolevate vaatluste miinimum on (peaaegu) alati liiga suur ja olemasolevate vaatluste maksimum liiga väike... Reaalses andmestikus näitavad enamasti sisestus- või mõõtmisvigu, mutante,... Kvantiilid Definitsioon: Uuritava tunnuse α-kvantiil on tunnuse väärtus, millest väiksemate väärtuste osakaal on α. Näiteks 0,-kvantiil on väärtus, millest väiksemate väärtuste osakaal on 0, ehk 0%. Enimkasutatavad: mediaan (0,5-kvantiil) detsiilid (0,; 0,2;...-kvantiil), kvartiilid (0,25; 0,75-kvantiil). 6

Dispersioon Mõõtmisvead Mõõtmisviga -3-2 - 0 2 3 Aparaat Aparaat 2 x = 0 mediaan(x )= 0 x 2= 0 mediaan(x 2)= 0 Dispersioon Keskmine erinevus keskmisest? ( x x) = n n i= ( x i x) =0 Keskmine ruuterinevus keskmisest? n n 2 2 2 2 ( s ( x) = ) s= x = ( x i x) n i= ( xi x) n i= dispersioon Mõõtmisviga -3-2 - 0 2 3 Mõõtmisvead Aparaat Aparaat 2 x = 0 x 2=0 mediaan(x )= 0 mediaan(x 2)= 0 Standardhälve Ruutjuur dispersioonist, s Kahe standardhälbe kaugusele keskmisest jäävad garanteeritult ¾ vaatlustest (enamasti ~95%) Kolme standardhälbe kaugusele keskmisest jäävad garanteeritult 8/9 vaatlustest (enamasti ~99,7%) 7

Mõõtmisvead Joonised Mõõtmisviga -3-2 - 0 2 3 Aparaat Aparaat 2 x = 0 mediaan(x )= 0 x 2 = 0 mediaan(x 2 )= 0 s=,3 s=0,5 Karp-vurrud diagramm (boxplot) Näitab: mediaani (keskmine paks joon); alumist ja ülemist kvartiili (karbikese alumine ja ülemine piir); miinimumi ja maksimumi; 2 3 4 5 6 7 8 Joonised Tihedusfunktsioon Karp-vurrud diagramm (boxplot) Näitab: mediaani (keskmine paks joon); alumist ja ülemist kvartiili (karbikese alumine ja ülemine piir); Kui miinimum või maksimum jäävad liiga kaugele, siis vahel ei viitsita vurrude joonistamiseks karbist sedavõrd kaugele vantsida ja tehakse nad veidi lähemale. 2 3 4 5 6 7 8 f(x) 0.00 0.05 0.0 0.5 0.20 0 2 4 6 8 20 tunnus 8

Tihedusfunktsioon Tihedusfunktsioon Naistudengite pikkused (Tartu Ülikool) f(x) 0.0 0. 0.2 0.3 0.4 0.5 0.6 0.00 0.0 0.02 0.03 0.04 0.05 0.06 S=0,02 S=0,234 8 9 0 2 3 Kui suur osa uuritava tunnuse väärtustest jääb vahemikku 0..? x 50 60 70 80 90 Pikkus (cm) Tihedusfunktsioon Tihedusfunktsioon ja histogramm Naistudengite pikkused (Tartu Ülikool) Tihedusfunktsioon histogramm 0.00 0.0 0.02 0.03 0.04 0.05 0.06 x =... s x =... 0.00 0.05 0.0 0.5 0.20 sagedus 0 500 000 500 50 60 70 80 90 Pikkus (cm) 0 2 4 6 8 20 0 5 20 9

Tihedusfunktsioon ja histogramm Tihedusfunktsioon ja histogramm Tihedusfunktsioon histogramm histogramm 0.00 0.05 0.0 0.5 0.20 0.00 0.05 0.0 0.5 0.20 0.00 0.05 0.0 0.5 0.20 0 2 4 6 8 20 0 5 20 0 5 20 Tihedusfunktsioon ja histogramm 0.00 0.05 0.0 0.5 0.20 histogramm Hiigelsuur valim Tihedusfunktsiooni üks võimalik interpretatsioon Tihedusfunktsioon näitab, milline näeks välja histogramm siis, kui teeksime lõpmatult palju vaatluseid ja joonistaksime histogrammile ka äärmiselt palju tulpasid. 5 0 5 20 25 0

Objekt-tunnus maatriks Objekt-tunnus maatriks Aeg Rott Tootlus Tulemus 2:23-23 2:34 2-28 2:36 3-32 2:40 + 28 2:42 4-9 2:44 2 + 32... Objekt-tunnus maatriks Rott Enne Pärast 23 28 2 28 32 3 32... 4 9......... Aeg Rott Tootlus Tulemus 2:23-23 2:34 2-28 2:36 3-32 2:40 + 28 2:42 4-9 2:44 2 + 32... Kokkuvõte: mida peaksite teadma Objekt-tunnus maatriks Tunnuste tüübid (pidev/diskreetne/järjestustunnus/nominaalne tunnus) Põhistatistikud: keskmine, mediaan, mood, dispersioon, standardhälve, kvantiilid Jaotuse visualiseerimine ja jooniste interpreteerimine: histogramm, funktsioon, karp-vurrud diagramm