1. Distribuţiile teoretice (diagramă de distribuţie, distribuţia normală sau gaussiană) 2. Intervalul de încredere pentru caracteristicile cantitative (medii) 1. Distribuţia constituie ansamblul tuturor valorilor posibile şi respectiv, al probabilităţilor acestora de apariţie pentru o anumită variabilă/caracteristică dintr-un eşantion sau populaţie (5). Distribuţia poate fi reprezentată sub formă de tabel de distribuţie şi de grafic/ diagramă de distribuţie sau histogramă (6,7). Histograma este o diagramă de distribuţie. Cel mai des, coloanele sunt figurate vertical, cu baza pe abscisă, iar frecvenţa fiecărei categorii de valori este precizată pe ordonată (12,13). Când dorim să întocmim un grafic de distribuţie pentru un număr mare de valori (de exemplu, greutăţile a 150 de copii în vârstă de 6 7 ani la începutul anului şcolar) şi unele valori se repetă, este necesară o grupare a acestora în intervale de clasă. Seria simplă şi ordonată a datelor va fi transformată într-o serie grupată aşa cum reiese din exemplul următor (11). Să presupunem că avem valorile tensiunii arteriale sistolice (TAS) din 208 fişe medicale ale băieţilor de clasa a XII-a dintr-un liceu. Aceşti subiecţi au în comun variabilele vârstă şi sex. Dacă dorim să evaluăm situaţia TAS pe baza unei reprezentări grafice, trebuie să luăm în considerare fiecare din cele 208 valori. Etapele parcurse sunt următoarele (14,15): 1. Se determină rangul (amplitudinea) datelor; în cazul de faţă 140-91 = 49. 2. În funcţie de numărul total de valori/ subiecţi se stabileşte şi numărul de clase de valori sau intervale de clasă. Se poate utiliza următorul tabel drept ghid. Nr. valori Nr. de clase de valori <50 5-7 50-100 6-10 100-250 7-12 >250 10-20 În cazul nostru avem 208 subiecţi şi alegem 10 intervale de clasă. 3. Se determină intervalul constant al clasei împărţind amplitudinea la numărul de clase şi se rotunjeşte corespunzător (49/10 5). 4. Se stabilesc clasele de valori (91-95, 96-100, 101-105,. 136-140 mmhg). Niciodată nu vom alege intervale de genul 90-95, 95-100, 100-105, etc., deoarece acestea pot cuprinde valori care se încadrează în două intervale. 5. Se alcătuieşte un tabel cu frecvenţele de apariţie ale subiecţilor ce aparţin fiecărui interval de clasă. În acest moment seria simplă de date a devenit o serie grupată. 6. Se construieşte graficul, unde lăţimea coloanei reprezintă intervalul de clasă, iar înălţimea este dată de frecvenţa de apariţie (fig. 1). Distribuţiile teoretice reprezintă modele de distribuţie statistică şi exprimă posibilitatea teoretică de evoluţie a fenomenelor studiate. Distribuţiile teoretice sunt descrise cu ajutorul unor formule matematice cunoscute sub numele de legile distribuţiei. Principalele tipuri de distribuţie sunt: 1. Distribuţia normală sau gaussiană; 2. Distribuţia normală standard sau distribuţia z; 3. Distribuţia binomială;
4. Distribuţia Poisson. Distribuţia normală Dispersia de la medie se poate reprezenta sugestiv prin curba ideală de variaţie, corespunzând unei distribuţii simetrice şi continue (curba normală a lui Laplace Gauss). O astfel de repartiţie normală, ideală, cunoscută şi ca cea de a doua lege a lui Laplace, se întâlneşte rar, în special în biometrie şi în domeniul erorilor întâmplătoare, de aceea se mai numeşte şi legea erorilor. Această repartiţie ocupă un loc deosebit printre distribuţiile teoretice, fiind adeseori luată drept reper pentru comparaţia cu alte distribuţii. Repartiţia normală constituie, de altfel, o lege limită către care tind unele distribuţii (binomială, Poisson) în anumite condiţii tipice. Distribuţia normală este reprezentată de o familie de curbe definite prin doi parametri: media aritmetică şi deviaţia standard a seriei de valori. Curbele au întotdeauna formă de clopot simetric, iar gradul de alungire sau de aplatizare al clopotului depinde de valoarea deviaţiei standard a eşantionului (fig. 3.1). Faptul că o curbă are formă de clopot, nu înseamnă că reprezintă o distribuţie normală, deoarece şi alte distribuţii pot avea forme similare. 1. M=1, σ=2; 2. M=4, σ=1; 3. M=6, σ=0,5 Fig. 3.1 Curbe normale cu diferite grade de alungire şi aplatizare Curba ideală de variaţie este simetrică faţă de ordonata maximă, notată cu M, corespunzând mediei aritmetice (fig. 3.2).
M-3σ M-2σ M-σ M M+σ M+2σ M+3σ Fig. 3.2 Curba normală Laplace Gauss Prin calcul s-a stabilit că, în cazul curbei ideale sau normale de variaţie, în partea ariei totale cuprinse între medie, adică ordonata maximă şi ordonata a cărei abcisă este egală cu σ sunt cuprinse 68,26 % din totalul valorilor unei serii de variaţie. Între medie şi 2σ sunt cuprinse 95,45 % din totalul valorilor seriei, iar între medie şi 3σ se găsesc 99,73 % din valorile serie statistice. În calculele obişnuite, nu este nevoie de o exactitate mai mare în măsurarea abaterii decât de 3σ, căreia îi corespunde, într-o repartiţie normală, aproape totalitatea cazurilor, cu excepţia a 0,27 % dintre acestea, ceea ce este neglijabil. Chiar dacă am calcula abaterea de la medie cu 4σ, nu am obţine o exactitate cu mult mai mare: 4σ = 99,9936 %, iar 5σ = 99,99994 %. În cercetările experimentale, care necesită o exactitate ridicată, se calculează deviaţia dublă sau triplă. În cercetările clinice este suficientă calcularea deviaţiei duble, care cuprinde, cum s-a arătat, 95,45 % din totalul valorilor seriei statistice. Deviaţia standard caracterizează cel mai corect gradul de dispersie faţă de media aritmetică, deoarece ţine seama de toate observaţiile repartiţiei de frecvenţe şi, totodată, este afectată mult mai puţin de fluctuaţiile de selecţie, comparativ cu celelalte măsurători ale gradului de dispersie. Un aspect practic ce trebuie luat în considerare este faptul că, atunci când populaţia din care a fost extras eşantionul are o distribuţie aproximativ normală (gaussiană), atunci deviaţia standard oferă o interpretare utilă a datelor din punctul de vedere al probabilităţilor. Este de remarcat faptul că, într-o populaţie cu o distribuţie normală, media, mediana şi modulul sunt egale. Totodată, distribuţia normală constituie punctul de pornire pentru o serie de teste analitice, cum ar fi testul χ 2. Numeroase caracteristici biologice prezintă o distribuţie normală, astfel încât pot fi utilizate ca exemple: înălţimea persoanelor adulte, tensiunea arterială într-o populaţie sănătoasă, erorile aleatoare survenite în urma măsurătorilor de laborator, parametrii biochimici.
Verificarea normalităţii unei distribuţii MEDIA, MEDIANA, MODUL au valori apropiate Rangul (amplitudinea) = x max. - x min. 6 DS. O posibilitate de transformare a unei distribuţii negaussiene într-una gaussiană este mărirea efectivului studiat. 2. Intervalul de încredere INTERVALUL DE ÎNCREDERE = este intervalul în care pornind de la frecvenţa (media) pe un eşantion, putem estima că se găseşte cu un grad ridicat de probabilitate, frecvenţa adevărată (media adevărată), adică cea a colectivităţii generale, de unde a fost extras acel eşantion. Intervalul de încredere pentru caracteristicile cantitative IC = x t în care x = media eşantionului =ES eroarea standard câte determinări trebuie să facem pentru a afla o medie reală (pentru caracteristicile cantitative) şi o frecvenţă reală (pentru caracteristicile calitative)? pentru medii (40 de cazuri): de exemplu să presupunem că am luat în studiu x, caracteristica cantitativă, greutatea exprimată în grame pentru un număr de nou născuţi vii. Atunci când generalizez datele prin calcularea intervalului de încredere niciodată cele două limite, inferioară şi superioară a intervalului nu vor varia, atât de mult, încât să am un nou născut de 1 gr. de exemplu, iar altul de 3000 gr. De aceea este suficient să luăm în studiu mai puţine unităţi statistice (40 cazuri). 1. Este doar estimat cu o probabilitate mare (estimează x pentru toată colectivitatea, în funcţie de caracteristica studiată). IC 2. IC stabileşte limitele fenomenului studiat (cantitativ x (media) 3. IC = este intervalul în care se găseşte media sau frecvenţa adevărată pentru întreg fenomenul (pentru întreaga colectivitate). ex.: talia la naştere (media) este de 52 cm la băieţi; oricât de puţine cazuri am cerceta, nu găsim cazuri extreme (un copil de 1 cm sau un copil cu 52 cm); obţinem un rezultat mai apropiat de realitate; Intervalul de încredere este numai estimat cu o anumită probabilitate deci nu precizat cu certitudine. IC = x ± t µ în care x = media eşantionului =ES eroarea standard Exemplu: n = 9 x = 62,6 kg µ = 2,0 kg prag de semnificaţie = 0,05 /sau 5%...precizie 95% prag de semnificaţie = 0,01 /sau 1%... precizie 99% prag de semnificaţie = 0,001/sau 0,1%... precizie 99,9%.
GL (grade de libertate) = n 1 IC pentru p (prag de semnificaţie) = 0,05 GL = n 1 GL = 9 1 = 8 t = 2,31 IC = 62,6 ± 2,31 x 2,0 IC = 62,6 ± 4,6 IC = 58,0 67,2 kg Deci, măsurând un eşantion de 9 persoane, putem afirma că media adevărată, deci media tuturor tinerilor recruţi în ceea ce priveşte greutatea corporală, se găseşte undeva între 58,0 şi 67,2 kg şi aceasta nu cu certitudine ci cu o probabilitate de 95%. Intervalul este foarte mare, deci informaţia privind media adevărată este destul de vagă, mai ales din cauza numărului mic de observaţii (n = 9). IC pentru p = 0,01 P = 99 % GL = 8 t = 3,36 IC = 62,6 ± 3,36 x 2,0 IC = 62,6 ± 6,7 IC = 55,9 69,3 kg Deci, cu o probabilitate mai mare (P = 99 %), se poate afirma că media adevărată se găseşte între 55,9 şi 69,3 kg (în acest interval).