Biostatistica. Distribuția normală 1

Σχετικά έγγραφα
Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

Metode iterative pentru probleme neliniare - contractii

Integrala nedefinită (primitive)

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

8 Intervale de încredere

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

Curs 1 Şiruri de numere reale

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

7 Distribuţia normală

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

Subiecte Clasa a VIII-a

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

Curs 4 Serii de numere reale

Aplicaţii ale principiului I al termodinamicii la gazul ideal

prin egalizarea histogramei

Metode de interpolare bazate pe diferenţe divizate

3 Distribuţii discrete clasice

Scoruri standard Curba normală (Gauss) M. Popa

Subiecte Clasa a VII-a

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

Câmp de probabilitate II

5.4. MULTIPLEXOARE A 0 A 1 A 2

Zgomotul se poate suprapune informaţiei utile în două moduri: g(x, y) = f(x, y) n(x, y) (6.2)

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

Modelarea şi Simularea Sistemelor de Calcul Distribuţii ( lab. 4)

Sisteme diferenţiale liniare de ordinul 1


MARCAREA REZISTOARELOR

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

I3: PROBABILITǍŢI - notiţe de curs

riptografie şi Securitate

I3: PROBABILITǍŢI - notiţe de curs

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

Ecuaţia generală Probleme de tangenţă Sfera prin 4 puncte necoplanare. Elipsoidul Hiperboloizi Paraboloizi Conul Cilindrul. 1 Sfera.

Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare

NOTIUNI DE BAZA IN STATISTICA

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

Laborator 11. Mulţimi Julia. Temă

a. 11 % b. 12 % c. 13 % d. 14 %

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca

2.1 Sfera. (EGS) ecuaţie care poartă denumirea de ecuaţia generală asferei. (EGS) reprezintă osferă cu centrul în punctul. 2 + p 2

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

9 Testarea ipotezelor statistice

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite

Asupra unei inegalităţi date la barajul OBMJ 2006

ANALIZA DATELOR EXPERIMENTALE

APLICAȚIILE MEDICALE ALE CALCULULUI PROBABILITĂŢILOR. Călinici Tudor 2016

Elemente de bază în evaluarea incertitudinii de măsurare. Sonia Gaiţă Institutul Naţional de Metrologie Laboratorul Termometrie

Cursul 6. Tabele de incidenţă Sensibilitate, specificitate Riscul relativ Odds Ratio Testul CHI PĂTRAT

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB

TEMA 9: FUNCȚII DE MAI MULTE VARIABILE. Obiective:

Curs 2 Şiruri de numere reale

Seminar 5 Analiza stabilității sistemelor liniare

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice

Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane

Toate subiectele sunt obligatorii. Timpul de lucru efectiv este de 3 ore. Se acordă din oficiu 10 puncte. SUBIECTUL I.

Componente şi Circuite Electronice Pasive. Laborator 3. Divizorul de tensiune. Divizorul de curent

Problema a II - a (10 puncte) Diferite circuite electrice

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2016 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

z a + c 0 + c 1 (z a)

POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE

Valori limită privind SO2, NOx şi emisiile de praf rezultate din operarea LPC în funcţie de diferite tipuri de combustibili

Subiecte Clasa a V-a

Functii Breviar teoretic 8 ianuarie ianuarie 2011

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].

1. Scrieti in casetele numerele log 7 8 si ln 8 astfel incat inegalitatea obtinuta sa fie adevarata. <

f(x) = l 0. Atunci f are local semnul lui l, adică, U 0 V(x 0 ) astfel încât sgnf(x) = sgnl, x U 0 D\{x 0 }. < f(x) < l +

1. Distribuţiile teoretice 2. Intervalul de încredere pentru caracteristicile cantitative (medii) Histograma Nr. valori Nr. de clase de valori

Examen AG. Student:... Grupa: ianuarie 2016

TEORIA PROBABILITĂŢILOR UNIVERSITATEA TEHNICĂ GH. ASACHI,

DistributiiContinue de Probabilitate Distributia Normala

1. PROPRIETĂȚILE FLUIDELOR

Orice izometrie f : (X, d 1 ) (Y, d 2 ) este un homeomorfism. (Y = f(x)).

Matematici speciale Seminar 10

CURS 11: ALGEBRĂ Spaţii liniare euclidiene. Produs scalar real. Spaţiu euclidian. Produs scalar complex. Spaţiu unitar. Noţiunea de normă.

Profesor Blaga Mirela-Gabriela DREAPTA

PRELUCRAREA STATISTICĂ A SEMNALELOR

Foarte formal, destinatarul ocupă o funcţie care trebuie folosită în locul numelui

T R A I A N ( ) Trigonometrie. \ kπ; k. este periodică (perioada principală T * =π ), impară, nemărginită.

ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor

EDITURA PARALELA 45 MATEMATICĂ DE EXCELENŢĂ. Clasa a X-a Ediţia a II-a, revizuită. pentru concursuri, olimpiade şi centre de excelenţă

COMBINATORICĂ. Mulţimile ordonate care se formează cu n elemente din n elemente date se numesc permutări. Pn Proprietăţi

Laborator 6. Integrarea ecuaţiilor diferenţiale

BARAJ DE JUNIORI,,Euclid Cipru, 28 mai 2012 (barajul 3)

Recapitulare - Tipuri de date

2. Circuite logice 2.2. Diagrame Karnaugh. Copyright Paul GASNER 1

Olimpiada Naţională de Matematică Etapa locală Clasa a IX-a M 1

CIRCUITE LOGICE CU TB

Ovidiu Gabriel Avădănei, Florin Mihai Tufescu,

2. Circuite logice 2.4. Decodoare. Multiplexoare. Copyright Paul GASNER

Elemente de Teoria. Chapter Spaţiu de probabilitate

Transcript:

Biostatistica Distribuția normală 1

Funcţia masă de probabilitate -3 Funcţia masă de probabilitate Pr(X=r).008.076.265.411.240 r 0 1 2 3 4 Hipertensiune. Dintre pacientii unei clinici se iau la intamplare 4 pacienti. Variabila X este numarul de pacienti care au nevoie de tratament pentru hipertensiune. Spre exemplu probabilitatea ca 2 dintre cei patru sa aibe nevoie de tratament pentru hipertensiune este 0.265. Adica 26.5%. Si aici trebuie ca P X = r = 1, adica.008 +.076 +.265 +.411 +.240 = 1 2

Valoarea asteptata a unei v.a. discrete n Exp X = x i Pr X = x i i=1 Hipertensiune. Exp X = 0. 008 + 1. 076 + 2. 265 + 3. 411 + 4 (. 240) = 2. 80 In R acest calcul se face: Dteor = c(.008,.076,.265,.411,.240) i <- 0:4 Exp=i %*% Dteor# produs de doua matrici Exp #similar sum(dteor*i) rez. numar [,1] [1,] 2.799 # rezultatul este o matrice de 1*1 3

Valoarea asteptata a unei v.a. discrete n Exp X = i=1 x i Pr X = x i Hipertensiune. Exp X = 0. 008 + 1. 076 + 2. 265 + 3. 411 + 4 (. 240) = 2. 80 In R acest calcul se face: Dteor = c(.008,.076,.265,.411,.240) i <- 0:4 Exp=(i %*% Dteor)[1,1] Exp [1] 2.799 # rezultatul este un numar 4

Valoarea asteptata a unei v.a. discrete Otorinolaringologie ORL (Otolaryngology). Otita medie, o boala a urechii medii, este una dintre cele mai frecvente afectiuni ale unui copil în primii 2 ani de viață. Fie X variabila aleatoare care reprezintă numărul de episoade de otita medie în primii 2 ani de viață. Dteor = c(.129,.264,.271,.185,.095,.039,.017) i <- 0:(length(Dteor)-1) Exp=(i %*% Dteor)[1,1] writelines(sprintf("exp = %g",exp)) Exp = 2.038 Functia masa de probabilitate pentru nr de episoade de otita medie în primii 2 ani de viață r 0 1 2 3 4 5 6 Pr (X = r).129.264.271.185.095.039.017 5

Dispersia si abaterea standard pentru o v.a. discretă Dispersia (variance) σ 2 n Var X = σ 2 = x i μ 2 Pr X = x i i=1 Abaterea standard (standard deviation) σ. Formula sd X = σ = Var X σ 2 = E x i μ 2 = x i 2 Pr X = x i n i=1 n i=1 unde μ = E X = Exp X = x i Pr X = x i μ 2 6

Dispersia si abaterea standard pentru Otorinolaringologie n i=1 x i 2 Pr X = x i = E X 2 o v.a. discretă -2 σ 2 = E X μ 2 = x i 2 Pr X = x i n i=1 μ 2 = 0 2. 129 + 1 2. 264 + + 6 2. 017 = 6. 12 σ 2 = 6. 12 2. 038 2 = 1. 967 sd X = σ = 1. 967 = 1. 402 Functia masa de probabilitate pentru nr de episoade de otita medie în primii 2 ani de viață r 0 1 2 3 4 5 6 Pr (X = r).129.264.271.185.095.039.017 7

Interval de incredere 95% al v.a. Interval de incredere IC (Confidence Interval) CI are la baza ideea de a scrie un interval in care, cu un anumit grad de incredere, p[%], se va afla o variabila: X μ ± p CI X; p = μ ± k p σ unde k este un numar care depinde de p. Intervalul de incredere se calculeaza pentru un procent dat p care precizeaza cat la suta din toata masa de probabilitate se afla in acest interval. Regula 95% (pentru variabile distribuite normal ) : Aproximativ 95% din masa de probabilitate intră în două deviații standard (2 σ) in jurul mediei variabilei aleatoare CI X; 95% = μ ± 2 σ Otorinolaringologie CI r; 95% = 2. 038 ± 2(1. 402) = 2. 038 ± 2. 805 8

Functia de repartiție Funcţia de repartiţie (Probability Distribution Function, or Cumulative distribution function CDF) Funcţia de repartiţie a probabilitaţii (numele complet) a unei variabile aleatoare continue este definită prin F X (x) = P( X <= x) oricare ar fi x real. Funcţia de repartiţie precizează, pentru fiecare număr x, probabilitatea ca variabila aleatoare X să fie mai mică sau egală cu x. Pe scurt, funcţia de repartiţie se noteaza F(X). 9

Otorinolaringologie Functia de repartiție -2 F(x) Interval. 129 x 0. 393 x 1. 664 x 2. 849 x 3. 944 x 4. 983 x 5 1. 0 x 6 Functia masa de probabilitate pentru nr de episoade de otita medie în primii 2 ani de viață r 0 1 2 3 4 5 6 Pr (X = r).129.264.271.185.095.039.017 10

Functia de repartiție -3 Otorinolaringologie: codul R care simuleaza p=c(.129,.264,.271,.185,.095,.039,.017) d=sample(0:6,1e5,replace=t,prob=p cdf=ecdf(d) plot(cdf, verticals=true, col.points='darkblue', col.vert='red',col.hor='green', ylab='f(x)',main='cdf(d)') F(x) Interval. 129 x 0. 393 x 1. 664 x 2. 849 x 3. 944 x 4. 983 x 5 1. 0 x 6 11

ecdf(t) = ecdf empirical CDF nr. elem. din esantion t volum esantion e=sample(1:6,10000,replace=t,prob=c(1,3,7,5,3,1)) hist(e) plot(ecdf(e)) tb=table(e);tb x=as.integer(names(tb)) y=as.integer(tb) plot(x,y/1e4) plot(x,y/1e4*100/5) round(y/1e4*100/5) e 1 2 3 4 5 6 470 1478 3519 2479 1540 514 [1] 1 3 7 5 3 1 fisier= "ex ecdf zar masluit.r" 12

Permutari, Aranjamente, Combinari Permutari (Permutations) P n : numarul de moduri in care pot fi aranjate n obiecte in n cutii (sau intr-o cutie cu n locuri) P n = n! Aranjamente (i-permutations of n) P(n, i): numarul de moduri in care pot fi aranjate i obiecte din n, in i cutii (sau intr-o cutie cu i locuri) P n, i = n! = n n 1 n i + 1 n i! Combinari (i-combinations of n) C n, i = C i n = n i : numarul de submultimi de i obiecte dintr-o multime de n obiecte n n 1 n i + 1 n! C n, i = = 1 2 i i! n i! 13

Permutari, Aranjamente, Combinari Pacienti : Din greseala 3 pacienti, A, B, si C, au fost programati la un control de rutina la aceeasi ora. Totusi intrarea la medic se va face in ordinea sosirii: {A,B,C},{A,C,B}... Cate secvente de intrare exista? R. P 3 = 3! = 6 #factorial(3) Sanatate Mintala. Să presupunem 3 femei schizofrenie de varsta 50-59 si 6 medici eligibili disponibil în aceeași comunitate. In cate moduri pot fi alesi trei medici? R. P(6,3) = 6 5 4 = 120 #factorial(6)/factorial(3) Locuri in spital. Intr-un spital trebuiesc internati 4 pacienti, iar la acea sectie mai sunt disponibile 7 paturi. In cate moduri pot fi alese paturile pentru cei 4 pacienti? R. C 7, 4 = 7 6 5 4 1 2 3 4 = 35 #choose(7,4) 14

Proces Bernoulli În teoria probabilităților și statistică, un proces Bernoulli (sau proces binomial) este un experiment aleator cu exact două rezultate posibile, "succes" și "eșec", în care probabilitatea de succes este același de fiecare dată când experimentul este realizat. Exemplu: Fie evenimentul de interes este aparitia unei fețe (Stema sau Banul) atunci cand dăm cu banul. Un astfel de proces este un proces Bernoulli. 15

Distributiei Binomiala, Binom(n,p) Toate exemplele in care trebuie folosita distribuția binomială au o structură comună: un eșantion de n încercări independente, fiecare dintre ele poate avea numai două rezultate posibile, care sunt notate ca "succes" și "eșec". Care este probabilitatea a k succese (din n încercări) daca probabilitatea unui succes este p. B k; n, p = P X = k = C k n pk 1 p n k Pacienti la clinica. Un grup de 5 pacienti ai unei clinici sunt testati daca prezinta simptome de gripa. Dat fiind ca in perioada de test probabilitatea prezentei simptomelor de gripa la un pacient este 3/5, care este probabilitatea ca exact 2 din cei 5 pacienti sa prezinte simptome de gripa? R. B 2; 5,3/5 = C 2 5 (3/5)2 2/5 3 = 10 9 8 5 5 Cod R pentru acest calcul: dbinom(2, 5, 3/5) = 0. 2304 16

Distributiei Binomiala -2 B k; n, p = P X = k = C k n pk 1 p n k Pacienti la clinica. Un grup de 5 pacienti ai unei clinici sunt testati daca prezinta simptome de gripa. Dat fiind ca, in perioada de test, probabilitatea prezentei simptomelor de gripa la un pacient este 3/5, care este probabilitatea P ca cel putin doi din cei 5 pacienti sa prezinte simptome de gripa? R. P = B 2; 5,3/5 + B 3; 5,3/5 + B 4; 5,3/5 + B 5; 5,3/5 = 0. 2304 + 0. 3456 + 0. 2592 + 0. 07776 = 0. 91296 Cod R pentru acest calcul: sum(dbinom(2:5, 5,.6)) 17

Celulele sangelui uman Denumire Numărul pe μl (mm 3 ) de sânge Eritrocite Leucocite 6.000 8.000 Granulocite 4,5-5,0 milioane la femei 5,0-5,5 milioane la bărbați Neutrofile 2.500 7.500 Eozinofile 40 400 Bazofile 10 100 Limfocite 1.500 3.500 Monocite 200 800 Trombocite 300.000 18

Celulele sangelui uman Denumire Numărul pe μl (mm 3 ) de sânge Eritrocite Leucocite 6.000 8.000 Granulocite 4,5-5,0 milioane la femei 5,0-5,5 milioane la bărbați Neutrofile 2.500 7.500 Eozinofile 40 400 Bazofile 10 100 Limfocite 1.500 3.500 Monocite 200 800 Trombocite 300.000 Granulocite 19

Celulele sangelui uman Denumire Numărul pe μl (mm 3 ) de sânge Eritrocite Leucocite 6.000 8.000 Granulocite 4,5-5,0 milioane la femei 5,0-5,5 milioane la bărbați Neutrofile 2.500 7.500 Eozinofile 40 400 Bazofile 10 100 Limfocite 1.500 3.500 Monocite 200 800 Trombocite 300.000 20

Celulele sangelui uman Boli Infectioase. Evaluează probabilitatea ca din 10 globule albe 2 să fie limfocite dacă probabilitatea să fie o limfocită este 0.2. Raspuns. P = B(2,10,. 2) 0. 3020 21

Distributiei Binomiala -3 Boala pulmonara. Un anchetator observă că copiii dezvolta bronșită cronică, în primul an de viață, în cel putin 3 din 20 gospodării în care ambii părinți au bronșită cronică, comparativ cu incidenta națională de bronsită cronică, care este de 5% în primul an de viață. Este această diferență "reală", sau poate fi întâmplătoare? Concret, care este probabilitatea P ca, în cel puțin 3 din 20 de case, copiii sa dezvolte bronsita cronica dacă probabilitatea de aparitie a bolii, în orice gospodărie, este 0.05? 20 Raspuns. P X 3 = B k, 20,. 05 = 1 2 k=0 k=3 B k, 20,. 05 = 0. 07548367 Codul R este fie: sum(dbinom(3:20,20,.05)) fie 1-sum(dbinom(0:2,20,.05)) 22

Distribuția Binomială -4 Boli Infectioase. Unul dintre testele de laborator comune vizeaza identificarea si numararea celulelor sanguine. Distingem doua tipuri de numarari: 1. Numararea celulelor albe (WBC White Blood cells) 2. Diferentierea celulelor albe in 5 categorii: Neutrofile, Eozinofile, Bazofile, Limfocite, Monocite (numit differential WBC, pe scurt diferențial). Atât WBC cat și diferențialul sunt utilizate pe scară largă în a face diagnosticul clinic. Ne concentram aici pe diferențial, în special pe distribuția numărului de neutrofile k din 100 globule albe (numărul tipic de numărare). Vom vedea că numărul de neutrofile urmează o distribuție binomială. 23

Distribuția Binomială Boli infecțioase. Numărul de limfocite într-un diferențial de 100 de celule albe din sânge (vezi slideul urmator pentru definirea unui diferențial) este distribuit binomial deoarece această variabilă aleatoare este o sumă de 100 de variabile aleatoare, fiecare reprezentând reprezentand o variabila binară: este (1) sau nu este (0) această celulă individuală o limfocită. 24

Distribuția Binomială Boli Infectioase. Unul dintre testele de laborator comune vizeaza identificarea si numararea celulelor sanguine. Distingem doua tipuri de numarari: 1. Numararea celulelor albe (WBC White Blood cells) 2. Diferentierea celulelor albe in 5 categorii: Neutrofile, Eozinofile, Bazofile, Limfocite, Monocite (numit differential WBC, pe scurt diferențial). Atât WBC cat și diferențialul sunt utilizate pe scară largă în a face diagnosticul clinic. Ne concentram aici pe diferențial, în special pe distribuția numărului de neutrofile k din 100 globule albe (care este numărul tipic numărate). Numărul de neutrofile urmează o distribuție binomială. 25

Valoarea asteptată. Valoarea asteptata si dispersia n Distributiei Binomiale μ = E X = k Binom k; n, p Dispersia = n p k=0 n n = k C k n pk 1 p n k k=0 σ 2 = E X μ 2 = k np 2 C k n pk 1 p n k k=0 = np 1 p Valoarea așteptată și dispersia unei distribuții binomiale sunt np și npq, respectiv, unde q = 1 p. 26

Graficul p*q=f(p) q = 1 p 27

Distribuția Poisson Este o distributie discreta. A fost pentru prima data utilizata la studiul numarului de decese in urma loviturilor de copita ale cailor in armata prusaca. Are un singur parametru: media Functia masa de probabilitate pentru distributia Poisson este: Poisson k; μ = P X = k = k e k! 28

Distribuția Poisson Functia masa de probabilitate : Poisson k; μ = P X = k = k e k! 29

Distribuția Poisson Distribuția Poisson este, probabil, cea mai frecvent utilizata distribuție discretă, după distribuția binomială Această distribuție este asociată cu evenimente rare. Aceste evenimente au o rata medie de aparitie si sunt independente unul de celalalt. Ex. evenimente distribuite uniform in timp sau spatiu. Distributia Poisson exprima probabilitatea de aparitie a un anumit număr de evenimente într-un interval fix de timp (sau de spațiu). 30

Distribuția Poisson -2 Distribuția Poisson poate fi derivată de luând în considerare un interval de timp (sau spațial), în care apar în medie evenimente. Intervalul este împărțit în n subintervale I 1,, I n de dimensiuni egale. Probabilitatea ca un eveniment sa apara in subintervalul I k este, pentru orice k, egal cu /n, iar aparitia unui eveniment in I k poate fi aproximativ considerat un proces Bernoulli. Numarul total de evenimente X, va fi distribuit aproximativ Binomial cu parametrii n si /n. Distribuția Binom n, μ/n, la limita n, va tinde către distributia Poisson cu parametrul μ. Această aproximație este cunoscută sub numele de legea de evenimentelor rare. 31

Distribuția Poisson -3 Legea de evenimentelor rare. Binom n, μ/n, la limita n, va tinde către distributia Poisson cu parametrul. Binom n, μ/n n Poisson Functia masa de probabilitate pentru distributia Poisson este: Poisson k; μ = P X = k = k e k! Nota. De regula parametrul distributiei Poisson se noteaza cu lambda si nu cu μ (chiar si R foloseste aceasta notatie): Rosner foloseste μ 32

Distribuția Poisson -4 Boli Infectioase. Să presupunem că numărul de decese cauzate de febra tifoida, pe o perioadă de 1 an este distribuită Poisson cu parametrul μ = 4.6. Care este distribuția de probabilitate a numărului de decese pe o perioada de 6 luni? Raspuns. Deoarece nr mediu de decese pe un an este 4.6, atunci numarul mediu de decese pe 6 luni va fi 4.6/2. Adica =2.3. Poisson k k 2.3 k; 2.3 e / k! 2.3 e / k! k 0 1 2 3 4 5 P(X = k).1003.2306.2652.2033 0.1169.0538 Codul R care da aceste valori: dpois(0:5,2.3) 33

Distribuția Poisson -5 Boli Infectioase. Să presupunem că numărul de decese cauzate de febra tifoida, pe o perioadă de 1 an este distribuită Poisson cu parametrul μ = 4.6. Care este probabilitate de a avea cel putin 4 decese pe o perioada de 3 luni? Raspuns. Deoarece nr mediu de decese pe un an este 4.6, atunci numarul mediu de decese pe 3 luni va fi 4.6/4. Adica =1.15. Poisson k 1.15 k;1.15 1.15 e / k! k 0 1 2 3 P(Y = k) 0.3166 0.3641 0.2094 0.0803 4 1 0. 3166+ 0. 3641+ 0. 2094+ 0. 0803 0. 296 P Y Codul R care da acest rezultat: 1-sum(dpois(0:3,1.15)) 34

Valuarea asteptata si varianta Distribuției Poisson Pentru o distribuție Poisson cu parametrul μ, media și varianța sunt ambele egale cu μ. Boli Infectioase. Numărul de decese care pot fi atribuite poliomielitei între anii 1968-1977 este prezentat în tabelul următor. Numărul de decese care pot fi atribuite poliomielitei în anii 1968-1977 An 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 Nr. decese 15 10 19 23 15 17 23 17 26 15 Distribuția Poisson se va potrivi probabil bine aici deoarece varianța este aproximativ egala cu media. Cod R pentru calculul mediei si variantei d=c(15,10,19,23,15,17,23,17,26,15) mean(d) # 18 var(d) # 23.11111 35

Verificarea legii de evenimentelor rare Distribuția binomială cu n mare și p mic poate fi aproximată cu precizie de o distributie Poisson cu parametrul μ = np. Exemplu: n=1000, p=.001 μ = 1. Pentru ambele distributii vom calcula Pr (X 4) = 1 Pr (X 3) Binomiala(1000,0.001): 1-sum(dbinom(0:3,1000,.001)) 0.01892683 Poisson (1): 1-sum(dpois(0:3,1)) 0.01898816 36

Verificarea legii de evenimentelor rare Distribuția binomială cu n mare și p mic poate fi aproximată cu precizie de o distributie Poisson cu parametrul μ = np. Poisson (μ =1): 0.01898816 Binomiala(n=10^2,p=1/10^2): 0.01837404 Binomiala(n=10^3,p=1/10^3): 0.01892683 Binomiala(n=10^4,p=1/10^4): 0.01898203 Binomiala(n=10^5,p=1/10^5): 0.01898754 Binomiala(n=10^6,p=1/10^6): 0.01898810 Binomiala(n=10^7,p=1/10^7): 0.01898815 Binomiala(n=10^8,p=1/10^8): 0.01898816 37

Verificarea legii de evenimentelor rare 'blue' D. Poisson 38

Verificarea legii de evenimentelor rare 'blue' D.poisson 39

Verificarea legii de evenimentelor rare 'blue' D.poisson 40

Verificarea legii de evenimentelor rare 'blue' D.poisson 41

Verif. legii de evenimentelor rare Diferenta 42

Verif. legii de evenimentelor rare Diferenta 43

Verif. legii de evenimentelor rare Diferenta 44

Verif. legii de evenimentelor rare Diferenta 45

Verif. legii de evenimentelor rare Diferenta 46

Verif. legii de evenimentelor rare Diferenta 47

Tema pentru acasa Faceti in Rscript graficul distributiilor binomiale cu n=27 si p=0.1,0.2,...,0.9 48

Functia densitate de probabilitate FDP (Probability Density Function) Se defineste pentru o variabila aleatoare continua. Functia densitate de probabilitate a unei variabile aleatoare X este o functie cu proprietatea ca aria dintre oricare doua puncte a si b este egala cu probabilitatea ca variabila X sa ia valori intre a si b. Astfel aria totala de sub curba functiei densitate de probabilitate, calculata pentru toata multimea valorilor posibile ale variabile X, este 1. 49

Functia densitate de probabilitate Hipertensiune O FDP pentru Presiunea Arterială Diastolică (PAD) pentru barbati intre 35 si 44 de ani este prezentata in figura alaturata. 50

Functia densitate de probabilitate Hipertensiune. Ariile A si B dau probabilitatile de a fi moderat hipertensiv si sever hipertensiv. 51

Funcția de distributie cumulativă FDC Funcția de distributie cumulativă (FDC) pentru variabila aleatoare X evaluată în punctul a este definită ca probabilitatea ca X va lua valori a. Aceasta este reprezentată de aria de sub FDP din stânga lui a. 52

Funcția de distributie cumulativă Obstretică.. 53

μ, 2, Valoarea așteptată (ExpectedValue) a unei variabile aleatoare continuă X, notata cu E (X), sau μ, este valoarea medie a variabilei aleatoare. μ = E X = XdP = Xf X dx Dispersia (variance) unei variabile aleatoare continue X, notata cu Var(X) sau 2, este media patratului distantei fata de valoarea asteptata a variabilei: σ 2 = Var X = E(X μ) 2 σ 2 = E X 2 μ 2 (Tema) Abaterea standard (standard deviation) este σ = Var X 54

Distribuția normală Distribuția normală este distribuția continuă cea mai des întâlnită. Este frecvent numită distribuție Gaussiană, după cunoscutul matematician Karl Friedrich Gauss. 55

Distribuția normală Distribuția normală este notată N(μ, σ 2 ). Are functia densitate de probabilitate: f x = 1 2π e μ x 2 2σ 2 56

Distribuția normală standard Distribuția normală standard este notată N(0,1). Are functia densitate de probabilitate: f x = 1 e x2 2 2π 1 2π = 0.3989 0. 4 57

Distribuția normală standard O variabila aleatoare Z are distribuția normală standard dacă are funcția de densitate de probabilitate dată de: x = 1 e x2 2 2π unde < x < 58

Distribuția generală normală N(μ, σ 2 ) Distribuția generală normală este familia localizare-scală asociată cu distribuția normală standard. Concret, să presupunem că μ R și σ (0, ) și că variabila Z are distribuția normală standard. Atunci variabila X = μ + σz are o distribuție normală cu parametrul de localizare μ și parametrul de scală σ. Aceasta distributie este notată N(μ, σ). f x = 1 2π e μ x 2 2σ 2, < x < 59

Distribuția generală normală N(μ, σ 2 ) Distribuția normală cu parametrul de localizare μ și parametrul de scală σ are funcția de densitate de probabilitate f dată de unde f x = 1 x μ = 1 2π e μ x 2 2σ 2 x = 1 2π e x2 2 si < x < 60

Distribuția normală FDP pentru o distribuție normală cu media μ=50 și varianța σ 2 =100, N(50,100) 61

Distribuția normală Trei funcții de repartiție Normale reprezentate în scală logaritmică. Ex. R: dnorm_log.r 62

Distribuția normală Codul: dnorm_log.r plot(function(x) dnorm(x,10), -60, 70, main = "Repartitia Normala in scala logaritmica", log='y',ylab='n(mu,sigma)', lwd = 2) curve(dnorm(x), add = TRUE, col = "blue", lwd = 2,xlim=c(-35,35)) curve(dnorm(x,0,2), add = TRUE, col = "red", lwd = 2,xlim=c(-60,60)) legend("topleft", legend=c('n(10,1)','n(0,1)','n(0,2)'),bty='n', text.col=c('black','blue','red')) 63

Distribuția normală Compararea a două distribuții normale cu aceeași varianță avand medii diferite 64

FDC a distribuției normale standard FDC a distribuției normale standard, notata cu Φ(x) 65

FDC - distribuția normală standard Graficul FDC pentru distribuția normale standard, Φ(x) Φ(x) 66

Proprietăți de simetrie ale distribuției normale standard Φ ( x) = Pr (X x) = Pr (X x) = 1 Pr (X x) = 1 Φ (x) Φ x = 1 Φ (x) 67

Capacitatea vitală forțată - CVF Afectiuni pulmonare. Capacitatea vitală forțată (FVC - Forced vital capacity) - un test standard de investigare a functiei pulmonare - este volumul de aer (exprimat in litrii) pe care o persoană il poate expulza în 6 secunde. 68

Capacitatea vitală forțată FVC FVC 69

Capacitatea vitală forțată CVF Afectiuni pulmonare. Cercetările actuale analizează factorii de risc potențiali, cum ar fi fumatul, poluarea aerului, alergii de interior, sau de tipul de aragaz utilizat in casa, care pot afecta CVF la elevi. Una dintre probleme este ca varsta, sexul și înălțimea afecteaza funcția pulmonară. De aceea s-au facut studii la scara nationala in care au fost izolate grupurile de aceeasi varsta, sex si inaltime. Este interesant ca variabila aleatoare CVF (pentru aceste grupuri), notata aici cu X, urmeaza o distributie normala cu media si varianta, N μ, σ. 70

Capacitatea vitală forțată CVF Afectiuni pulmonare. Se defineste CVF standardizata variabila calculata cu Z = (X μ)/σ, unde X este distributia CVF originala Noua variabila Z urmează aproximativ o distributie normala standard N 0,1. Să presupunem că un copil este considerat are o deficienta pulmonară dacă CVF standardizat al sau este mai mic decat 1. 5. Ne punem problema: care este probabilitatea ca sa intalnim un asfel de copil? Pr Z < 1.5 este egala cu valoarea functiei de distributie cumulativa pentru distributia N 0,1. Folosim pnorm(-1.5) care intoarce 0.0668072 71

Capacitatea vitală forțată CVF Afectiuni pulmonare. Am vazut ca pentru N 0,1 Pr Z < 1.5 0.0668, adica aproximativ 7% dintre copii sunt afectati. La fel putem calcula Pr Z > 1.5 folosind 1-pnorm(1.5)care intoarce acelasi rezultat 0.0668072. Am verificat astfel, numeric, ca pentru N 0,1 Pr Z < 1.5 = Pr Z > 1.5 72

Capacitatea vitală forțată CVF Pr Z < 1.5 = 1 P 1.5 1 0.93=0.07 73

pdf N(0,1) aici 74