BIOSTATISTICA CURS I ELEMENTE DE BAZĂ Statistica reprezită ramura matematicii ce a apărut di ecesitatea de a calcula probabilitatea aumitor eveimete di cadrul uui experimet. Majoritatea domeiilor de bază ale matematicii s-au dezvoltat di ceriţele practice ale oameilor sau di observaţii directe asupra aturii. Statistica aaliza probabilităţii; motivaţie: variaţia itrisecă (imaetă) a datelor studiul eşatioului => cocluzii aplicate pe îtreaga populaţie. Reprezetarea datelor statistice Datele culese experimetal urmează a fi aalizate coform metodelor statistice. Datele se culeg î geeral ditr-o populaţie statistică sau colectivitate statistică. Elemetele populaţiei sut uităţi statistice sau idivizi. La u aumit momet e iteresează o trăsătură comuă a idivizilor, umită variabilă sau caracteristică. Variabilele pot fi catitative (şi se exprimă umeric pri valoarea măsurată sau dedusă experimetal) sau calitative (atributive). Acestea di urmă se pot exprima pri aprecieri ca mic, mare, mijlociuşi li se pot echivala valori umerice. Variabilele catitative pot fi împărţite î cotiuare î variabile discreteşi cotiue. U exemplu de variabilă discretă ar fi umărul de ou ăscuţi pe zi la o aumită materitate. U exemplu de variabilă cotiuă este îălţimea persoaelor. Î geeral iformaţiile ce se culeg sut umai de la o parte di idivizi, u di îtreaga populaţie. Aceasta este o cercetare selectivă. Aceşti idivizi formează eşatioul sau selecţia de lucru.
FRECVENŢE Vârsta Frecveţa absolută (ai) Frecveţa relativă (fi) Frecveţa absolută cumulată (Ai) Frecveţa relativă cumulată (Fi) 5 5,38 5,38 5 7,57 3,95 5,85 5,48 5 6,48 68,68 5 9,75 87,83 5 3,94 8 Suma 8 Numărul idivizilor ce aparţi uui aumit iterval (sau clasă) formează frecveţa absolută otată a, a, am (m umărul de clase ce este de obicei mai mic ca umărul de idivizi). m Avem relaţia: aj =, ude : j= Petru eşatioae mari frecveţa relativă aj frecveţa absolută a clasei j. tide către probabilitatea eveimetului m umărul de clase. studiat. umărul de idivizi. Frecveţa relativă fi se obţie raportâd frecveţa absolută aj la umărul de idivizi. m m aj aj fj = şi avem relaţia: fj = = = j= j= Frecveţa cumulată este umărul de idivizi cumulaţi pâă la o aumită valoare a variabilei de studiu. La râdul ei frecveţa cumulată poate fi absolută şi relativă. Petru frecveţele cumulate se folosesc de obicei la otaţie literele mari. HISTOGRAMA Frecveta absoluta 5 5 5 4 5 Frecveta cumulata 9 8 7 8 5 5 6 4-5 5- -5 5- -5 5-3 3-35 Iterval varsta 9 4 96 77 5 5 3-5 5- -5 5- -5 5-3 3-35 Iterval varsta Este reprezetarea sub formă grafică a uor dreptughiuri cu îălţimea proporţioală cu frecveţa, iar cu baza egală cu dimesiuea itervalului de grupare. Există histograme a frecveţelor absolute, relativeşi cumulate.
Idicatori statistici Î studiul distribuţiei de frecveţe a caracteristicii uei populaţii se observă o tediţă de variaţie cu două aspecte: de localizare (de poziţie) de împrăştiere (de variaţie). Aaliza catitativă care să permită evaluări şi comparaţii di puct de vedere al localizării sau al împrăştierii datelor se poate efectua umai cu ajutorul idicatorilor statistici. Aceştia exprimă umeric, pe baza valorilor de studiu fie localizarea fie variaţia datelor. Media aritmetică Media geometrică Media armoică Media pătratică xi x + x +... + x i= x = = M G = x x x3... x = Π i = M H = = + +... + x x x i= xi M xi i= P = = x xi Mediaa x Me = k + x Me = x k + = x+ x + / + x k ( + ) / Modul Fie şirul format di elemetele x, x, x3,,x. Valoarea xi corespuzătoare frecveţei celei mai mari poartă umele de modul. Valoarea cetrală X max+ X mi Xc = = Proprietăţile caracteristicilor de localizare Mediile aritmetică şi pătratică sut iflueţate de valorile mari ale şirului. Mediile geometrică şi armoică sut mai puteric iflueţate de valorile mici ale şirului. Mediaa u este iflueţată de valorile extreme. Valoarea cetrată u depide de toate valorile şirului de date ci umai de cele extreme. Relaţie existetă ître medii: M H < MG < X < M P Cel mai des idicator de localizare folosit este media aritmetică. - Idicatori de variaţie Aceştia reprezită o evaluare umerică a împrăştierii datelor. ( ) ( ) ( ) ( ) xi x x x + x x +... + x x i= σ = = Dispersia Abaterea pătratică medie ( xi x ) i= D[ x] = σ = Amplitudiea Este defiită ca difereţa valorilor extreme şi se otează cu W sau A (î majoritatea cazurilor). W = A = Xmax - Xmi Itervalul itercuartilic Cuartilele împart datele î 4 clase de frecveţe egale cu 5%. Astfel sut ecesare 3 valori Q, Q, Q3 ce reprezită cuartilele. Presupuem că avem o distribuţie a frecveţelor parametrului x (discret) coform graficului de mai jos: 3
Distributia de frecveta 8 6 4 Q Q Q3 parametrul x Coeficietul de variaţie Abaterea pătratică medie se iterpretează pri compararea cu media valorilor de studiat. Dacă avem o medie de şi o abatere pătratică stadard de valoare 5, atuci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie de, atuci variaţia este foarte mare. Î cocluzie se defieşte coeficietul de variaţie: Asimetrie - Skewess Asimetrie dreapta Asimetrie la stâga Mo M(x) M(x) Mo 4 7 3 6 9 5 8 3 34 37 4 43 46 49 5 4 7 3 6 9 5 8 3 34 37 4 Dacă Sk>, avem asimetrie pozitivă sau la dreapta. Dacă Sk<, avem asimetrie egativă sau la stâga. 3 Dacă Sk=, avem simetrie (distribuţia ormală are asimetria ). Î geeral o distribuţie ce are valoarea Sk diferită de cu mai mult de u puct, deotă o difereţă semificativă faţă de distribuţia ormală. Uimodală Bimodală Multimodală 4
Boltirea (Excesul, Kurtosis) β β < > = 3 3 Repartiţie aplatizată ascuţită medie sau sau mezocurtică platicurtică leptocurtică 3 3 5 7 9 3 5 7 9 3 5 7 9 9 3 3 33 33 35 35 37 37 39 39 Avem următoarele modalităţi de caracterizare a distribuţiilor: Mezocurtică Leptocurtică β = 3, γ = β > 3, γ > Platicurtică β < 3, γ < Graficul de tip Box-ad-Whiskers Este o metodă ce prezită compact forma distribuţiei uui set de date. Se foloseşte cu succes î compararea şi determiarea simetriei repartiţiei determiate de u lot de date (box cutie, whiskers mustăţi). Variabila studiata 3 4 5 Lot Lot Lot 3 Petru realizarea graficului se calculează aumiţi idicatori statistici ce reprezită cele 5 limite. Mediaa este valoarea di cadrul şirului ordoat care se află la jumătatea acestuia. Aceasta împarte setul de date i două grupe egale şi este reprezetată î grafic de liia otată cu valoarea 3. Limitele respectiv 4 reprezită valorile cuartilelor. Acestea împart distribuţia de frecveţă î patru părţi egale. Astfel î total sut 3 ca umăr. Cuartila a doua este chiar mediaa (otată cu 3). Difereţa ditre cuartila 3 (otată cu ) şi (otată cu 4) reprezită itervalul itercuartilic. Acesta defieşte lugimea a 5% di setul de date. Extremele respectiv 5 sut determiate de - cuatile. De obicei se alege. Astfel ivelul 5 di grafic va prezeta cuatila petru care % di date sut sub această valoare, iar ivelul di grafic va reprezeta valoarea petru care 9% di date sut sub acesta. Graficul este relevat pri faptul că scoate î evideţă ivelul de simetrie al distribuţiei. Dacă distribuţia u este simetrică mediaa u se va afla la mijlocul dreptughiului (î cele mai multe cazuri). Mai mult laturile di afara dreptughiului u vor fi de dimesiui egale. Această simetrie este bie de a fi verificată deoarece dacă setul de date este proveit ditr-o distribuţie ormală (Gauss Laplace) atuci proprietăţi şi metode statistice specifice pot fi utilizate î aaliza datelor. 5
VARIABILE ALEATOARE Este cuoscut faptul că î cadrul uui experimet oricâte precauţii s-ar lua petru a cotrola diferiţi factori, rezultatele obţiute vor prezeta o aumită variabilitate. Această variabilitate este cuprisă î aproape toate domeiile de lucru, obligâdu-e să lucrăm cu itervale ale parametrilor de studiu î loc de valori fixe. Variabila aleatoare este o oţiue fudametală di domeiul statisticii, reprezetâd acea mărime de iteres ce poate lua î cadrul realizării experimetului o valoare oarecare ecuoscută aprioric. f(x) Repartiţia Normală (Gauss-Laplace) Elemet de probabilitate Desitatea de probabilitate Suprafaţa totală are dimesiuea (probabilitatea eveimetului sigur este ) f ( x µ ) σ ( x) = e σ π ( + ) x, Fucţia de repartiţie x 3 5 7 9 3 a 5 a 7 9 3 5 7 9 3 33 35 37 39 x Se otează simbolic N(µ, σ), sau N(x, µ, σ). F (a) 5 5 3 5 7 9 3 5 7 9 3 5 7 9 3 33 35 37 39 4 43 45 a f(x)..8 σ * *π.6,68.4,954.,997 µ 3 σ µ σ µ σ µ µ+σ µ+ σ µ+3 σ Fucţia desitate de probabilitate Proprietăţile repartiţiei ormale F(x) 5,5 5 µ Fucţia de probabilitate. Distribuţia admite u sigur maxim fiid astfel uimodală. Maximul se atige î puctul x=µ şi are valoarea f ( µ ) = (î acest puct derivata este zero σ * * π df/dx=).. Este simetrică î raport cu dreapta x=µ. Î orice repartiţie ormală mediaa şi modul coicid cu media aritmetică. Datorită simetriei suprafaţa cuprisă ître curba desităţii de probabilitate şi axa xx pe itervalul (, µ ) este egală cu cea di itervalul ( µ,+ ) şi are valoarea /. Evidet suprafa a total[ are valoarea reprezetâd probabilitatea eveimetului sigur. Suprafaţa cuprisă ître dreptele x=µ-σ, x=µ+σ, x= şi curba desităţii de probabilitate este egală cu,68. Coform calculelor şi reprezetării grafice majoritatea cazurilor î proporţie de peste 95% se află î itervalul (µ-σ, µ+σ ) 6
. Puctele de pe abscisă de valoare µ+σ respectiv de valoare µ-σ sut pucte de iflexiue. Î acestea curba desităţii de probabilitate îşi modifică covexitatea. d f ( x) Astfel derivata a doua este zero. =. d x x= µ ± σ Î puctele x şi x fucţia f(x) tide la zero. Are formă de clopot de ude şi deumirea de clopotul lui Gauss.. Asimetria şi aplatisarea boltirea petru o repartiţie ormală au valoarea. De asemeea mometele cetrate de ordi impar sut ule petru o astfel de repartiţie (difereţele ître xi şi medie îşi păstrează semul). 3. Modificarea mediei duce la o traslare a curbei pe direcţia axei xx. Iată u exemplu realizat î graficul următor. Avem relaţia ître medii: µ < µ < µ 3 Dispersiile sut egale: σ = σ = σ 3 = σ f(x)..8.6.4. Desităţile de probabilitate petru medii diferite dar aceleaşi dispersii µ µ µ3 Desităţile de probabilitate petru medii egale dar dispersii diferite.e+ f(x) σ 8.E- 6.E- 4.E-.E-.E+ µ σ σ3 Exemplu: CLEARANCE-UL DE CREATININĂ (ClCr) Ua di fucţile riichiului costă î elimiarea produşilor azotaţi di orgaism (exemplu: creatiia valori ormale,9-,5 mg/dl). Evaluarea fucţioării riichiului se face pri măsurarea clearace-ului de creatiiă ( metodă de a estima rata de filtrare glomerulară a riichiului). Glomerul / Glomerulă este o parte a efroului filtrul riichiului. Petru adulţi: Cockcroft-Gault formula (petru femei se îmulţeşte cu,85): Creatiia i plasmă se măsoară: mg/dl Petru copii: u este corect să se folosească vârsta î exprimarea formulei. Copiii au rate de creştere diferite şi o aumită boală poate afecta creşterea. Creatiia este o proteiă depedetă de masa corporală. Astfel variaţiile ormale ale acestei proteie depid de talie. Ca urmare se foloseşte formula Schwartz pt. aprecierea ClCr: talia ( cm),55 ( ml /,73m / mi. ) creatiia ( mg / dl) Stadiul isuficieţei reale fucţie de ClCr: Normal: 9 3 (ml /,73m / mi.) Stadiu: I 5-9, II 49-3, III 9-5 Stadiu IV: sub 5 isuficieţă reală termială (riichiul u mai este fucţioal) 7
Itervale de Îcredere Î cadrul realizării experimetelor de u umăr repetat de ori se obţie u umăr fiit de eveimete. Observaţiile ce se fac asupra populaţiei pot fi totale (dacă se studiază toate eveimetele) şi parţiale (dacă se studiază doar u eşatio di total). Cercetarea uitară a îtregii populaţii î multe situaţii este greu de realizat poate chiar impracticabilă. Sut cazuri î care chiar umărul datelor medicale este mic şi bazat pe aceasta trebuie deduse caracteristici geerale asupra feomeului sau obiectivului de studiu. Eşatioul este cosiderat mic dacă volumul său are u umăr de elemete mai mic de 3 şi mare dacă umărul umărul de elemete depăşeşte valoarea de 3. Astfel fucţie de umărul de valori dispoibile se aplică diferite teste şi precizia estrimărilor este cu atât mai buă cu cât avem mai multe date de studiu. Scopul pricipal î cadrul culegerii datelor costă î a obţie cu u effort miim (volum miim de date) u volum maxim de iformaţii. Estimarea costă î operaţia de determiare a parametrilor populaţiei pe baza eşatioului studiat. Datorită lipsei de iformaţie existetă pri cercetarea euitară cât şi datorită dispersiei parametrilor doriţi, se poate deduce pe baza uei aumite probabilităţi (de obicei acceptată la valoarea de 95% î domeiul medical) u aumit iterval de îcredere a parametrului de studiat. Obiectivul fial al uui experimet costă î majoritatea cazurilor î a măsura valoarea uui parametru. Valoarea măsurată (izolată de altfel) u poate fi cosiderată satisfăcătoare sau ca valoare de referiţă dacă u se fac precizări la domeiul de variaţie şi la probabilitatea corespuzătoare. Î cadrul estimării parametrilor uei populaţii valoarea estimată este de fapt o variabilă aleatoare determiată de eşatioul studiat. Cu cât avem maio multe eşatioae cu atât avem mai multe valori ale parametrului dorit de a fi calculat. Itervalul de estimare a parametrului respectiv se deduce di formula de calcul a probabilităţii. x P = Pr obabilitatea( x < X < x) = f ( x) dx x f(x) reprezită desitatea de probabilitate. x, x reprezită limitele itervalului ca variabila aleatoare X să aibă o aumită probabilitate P de a aparţie acestui iterval. Reprezetâd grafic fucţia desitate de probabilitate obţiem itervalul de îcredere cu ivelul de semificaţie α, deseat mai jos. f(x)..8.6.4 α. iterval de icredere α=β α x M[x] x β - reprezită ivelul de îcredere. α - reprezită riscul sau ivelul de semificaţie. Petru iterval simetric bilateral avem α = α/ + α/, riscul se împarte simetric. Î caz geeral putem avea u risc stâga α respectiv dreapta α cu suma egală cu α. Î cocluzie riscul poate fi plasat simetric sau asimetric faţă de media dorită spre a fi estimată. 8
Exemplu de calcul - Iterval de îcredere petru media uei variabile aleatoare repartizată ormal. Di formula de calcul a probabilităţii avem: P (,96 < Z <,96 ) =,95 = β = α () Se poate demostra că dacă avem mai multe eşatioae ditr-o populaţie ormală, media de selecţie este o variabilă aleatoare repartizată ormal N(µ,σ /). Petru a o cetra şi µ x ormaliza vom aplica formula: z = (). σ / µ x Di prima şi a doua formulă putem scrie:,96 < <, 96 (3) σ / σ σ Dezvoltâd î cotiuare formula 3 obţiem: x,96 < µ < x +,96 σ µ = x ±, 96 (4) Î caz geeral petru u risc α simetric formula 4 devie: µ = x ± zα / σ (5) Ude Z α/ este abscisa desităţii de probabilitate f(x) petru u ivel de semificaţie α/ (valori tabelate î aexe). Dacă riscul este bilateral dar u simetric avem următoarea formulă dedusă di (): P ( Zα < Z < Zα ) = β = α Zα µ x < < Zα σ σ σ x Zα < µ < x + Zα (6) Teste de Ipoteză Se ştie că î statistică obiectul fudametal costă î luarea uei decizii chiar î cazul existeţei uei icertitudii. Decizia luată trebuie să fie corectă şi idepedetă (pe cât posibil) de lipsa de cuoştiţă materializată pri icertitudie. Î cazul testelor de ipoteză problema de bază costă î elaborarea regulilor de decizie î aşa fel îcât ditre variatele posibile să se aleagă cocluzia corectă cu o probabilitate acceptată ca satisfăcătoare măcar. Se emit mai multe ipoteze şi pri decizie se acceptă doar o ipoteză ce se îcadrează î probabilitatea stabilită. Ipoteza statistică reprezită o presupuere asupra parametrilor ueia sau uor repartiţii sau chiar asupra repartiţiei î sie (spre exemplu verificarea ormalităţii uei repartiţii). Testele statistice reprezită metode matematice de verificare a ipotezelor statistice. Pri acestea se doreşte a se verifica o ipoteză care apoi se aplică populaţiei de date (dacă este adevărată). Testarea se face pe baza eşatioului de date. Astfel orice decizie comportă u aumit risc. Î euţarea uei ipoteze există două posibilităţi: Ipoteza ulă otată H î care parametrii de comparat se cosideră egali. Spre exemplu media populaţiei avâd date î eşatioului este egală cu media populaţiei caracterizată de eşatioul. H : µ = µ Ipoteza alterativă î care se cosideră cei doi parametri diferiţi. H : µ µ 9
Se creează apoi fucţia discrimiată statistică (forma matematică a testului), a cărei valoare calculată se compară cu valori tabelate ale tipului de repartiţie î care se îcadrează. Pe scurt paşii de urmat î verificarea pri test statistic:. Euţarea ipotezei.. Alegerea parametrului de studiu (poate să fie coţiut implicit î euţarea ipotezei). 3. Deducerea şi calculul statisticii discrimiate dorite pri regula de decizie. 4. Acceptarea sau respigerea ipotezei. Testul Ipotezei Simple Acest test costă î a specifica valorile parametrilor ecuoscuţi ai uei repartiţii. Se poate verifica egalitatea ditre media uei populaţii repartizate ormal, cu o aumită valoare. Testul Ipotezei Duble Foarte frecvet î aplicaţiile de tip medical (şi u umai) apare problema comparării uor parametri ditr-u eşatio cu parametrii altui eşatio (pot fi chiar di aceeaşi populaţie dar la momete diferite). Presupuem că avem două eşatioae otate cu X cu valorile x, x,, x respectiv Y cu valorile y, y,, y. Cosiderăm că cele două populaţii sut repartizate ormal. Dorim să testăm ipoteza H: µ x = µ y, mediile sut egale cu alterativa H: µ x µ y, mediile sut diferite. Populaţia Populaţia Comparăm!!! Media M Media M Diferă semificativ statistic???!!! P<,5
, x y Dispersiile σ σ se cuosc Î această situaţie variabila V urmează o distribuţie ormală şi va Exemplu de calcul σ σ x y avea dispersia echivaletă σ V = +. Testul ipotezei duble x y Compararea mediilor a Fucţia discrimiată se va calcula cu formula: doua esatioae V µ ( X Y ) ( µ x µ y ) V Z = = σ V Se creeaza variabila V σ σ x y + egala cu difereta celor x y doua variabile. Variabila Z este repartizată ormal N(,). Petru specificaţie bilaterală simetrică regiuea de acceptare va fi: P ( Zα < Zc < Zα ) = α, cu α ivelul de semificaţie. Petru medii egale se calculează: X Y Zc = σ σ Decizia se ia fuctie de x y + valoarea calculata Zc x y sau fuctie de valoarea Dacă calculâd Zc se respectă realţia Zc < Z α, atuci acceptăm p corespuzatoare. ipoteya H cu îcredere β = - α. Astfel putem cosidera că mediile sut egale. Dacă relaţia: Zc Z α este respectată atuci u putem accepta ipoteza H şi vom cosidera mediile ca fiid diferite. INTERPRETAREA GRAFICA IN CADRUL DECIZIEI MEDICALE. f(z).8.6.4 α sau p. M[z]= Zcalculat Pri calculul statisticii se deduce valoarea Zcalculat si corespuzator acesteia se poate determia valoarea semificatiei p calculate. DECIZIA Daca Zc>Zacceptat (tabelat) sau daca pcalculat <,5 decucem existeta dif. sem. stat. Daca Zc<Zacceptat (tabelat) sau daca pcalculat>,5 u exista dif. sem. stat.
COMPARAREA MEDIILOR A DOUA ESANTIOANE SE POT APLICA TESTELE: TESTUL Z IN SITUATIA IN CARE DATELE SUNT REPARTIZATE NORMAL SI SE CUNOSC DISPERSIILE (CU VOLUM MARE DE DATE / CEL PUTIN 3). TESTUL T PENTRU DATE REPARTIZATE NORMAL DAR NU SE CUNOSC DISPERSIILE (DACA VOLUMUL DE DATE ESTE MARE, PESTE 3 TESTUL T CONVERGE CATRE Z). 3 TESTUL ANOVA(aaliza variatei) PENTRU VOLUM MARE DE DATE, REPARTITIE NORMALA, VARIANTE EGALE (HOMOSCEDASTICITATE) Testul t Prezita variate diferite fuctie de: Datele sut perechi (iaite / dupa tratamet) Se cuoaste ca variatele sut egale. 3 Variatele u sut egale (sau u se cuoaste acest lucru). Exista astfel 3 teste t cu formule diferite. Testul ANOVA (aalysis of variace / se compara mai multe esatioae) Iaite de a aplica acest test trebuie sa e asiguram ca: Esatioaele de lucru trebuie sa fie idepedete. Datele sa fie extrese di populatii repartizate ormal. 3 Homoscetasticitate variatele sa fie egale
3