Recapitulare - Tipuri de date Date numerice vârsta, greutatea, talia, hemoglobina, tensiunea arterială, calcemia, glicemia, colesterolul, transaminazele etc. valori continue sau discrete numere întregi sau zecimale Date ordinale stadiul evolutiv, gravitatea, starea la externare, gradul de rudenie etc. codurile folosite au o ordine Date nominale codul bolii, grupa sanguină, consistenţa ficatului, culoarea urinei etc. codurile folosite NU au o ordine Date alfanumerice nume, prenume, adresă, loc de muncă, descrierea bolii etc. în general texte sau alte simboluri
Graficul Histogramă Poligonul frecvenţelor
Tipuri de distribuţii Distribuţie simetrică Distribuţie uşor asimetrică Distribuţie asimetrică Distribuţie puternic asimetrică
Curba Gauss - curba repartiţiei NORMALE Unul din cazurile cele mai importante este acela când repartiţia datelor respectă densitatea ideală - aşa numita repartiţie Gauss sau normală
Curba Gauss
Curba Gauss Coeficientul de inteligenţă Media=100, Deviaţia standard=15
UNIVERSITATEA DE MEDICINĂ ŞI FARMACIE DIN CRAIOVA Cursul 5 Corelaţia statistică
SUMAR Karl Pearson (1856-1936) Francis Galton (1822-1911) Noţiunea de corelaţie statistică Graficul Scatter Coeficientul de corelaţie Pearson - r Interpretarea coeficientului de corelaţie
Corelaţia - Definiţie Este un termen general folosit pentru a defini interdependenţa sau legătura dintre variabilele observate în populaţii statistice. Apare uneori cu un înţeles foarte larg, acoperind orice legătură statistică fie între variabile cantitative, fie între variabile calitative, fie între ambele tipuri de variabile. În sens restrâns este o măsură a gradului de legătură statistică dintre variabilele cantitative, sub numele de coeficient de corelaţie. Cel mai des folosit este coeficientul de corelaţie r al lui Pearson (coeficient de corelaţie liniară), care măsoară gradul de legătură între variabile.
Graficul Scatter modalitate de vizualizare a relaţiei dintre 2 parametri Selectarea datelor Meniul INSERT Opţiunea Chart Graficul de tip scatter oferă informaţii privind Corelaţia Omogenitatea Simetria datelor reprezentate şi analizate
Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale 100 90 80 70 VSH 2 ore 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 VSH 1 ora
Corelaţia dintre TA sistolică si diastolică la pacienţi cu diferite afecţiuni hepato-renale 150 140 130 120 TA diastolică 110 100 90 80 70 60 50 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 TA sistolică
Corelaţia dintre sodiul şi potasiul seric la pacienţi cu diferite afecţiuni hepato-renale 5.5 5.0 4.5 K seric 4.0 3.5 3.0 2.5 115 120 125 130 135 140 145 150 Na seric
Coeficientul de corelaţie Pentru două serii de date distribuite gaussian, cel mai sintetic indicator al corelaţiei este coeficientul de corelaţie r al lui Pearson r = RAPORTUL DINTRE COVARIAŢIA SERIILOR ŞI PRODUSUL DEVIAŢIILOR LOR STANDARD sau unde X=x 1, x 2,,x n şi Y=y 1, y 2,..,y n sunt valorile măsurate, iar X, Y sunt mediile de eşantionare ale seriilor respective.
Coeficientul de corelaţie Coeficientul de corelaţie r are valori cuprinse între -1 şi 1. Pătratul coeficientului de corelaţie, notat r 2, reprezintă coeficientul de determinare între cei doi parametri şi are valori între 0 şi 1. Putem calcula intervalul de încredere de 95% pentru coeficientul de corelaţie Pearson - se consideră că r este semnificativ atunci când intervalul de încredere nu conţine valoarea 0.
Interpretare Semnul + sau arată tipul (direcţia) relaţiei Valoarea numerică arată intensitatea relaţiei -1.0.1 Corelaţie perfectă inversă-negativă Corelaţie nulă inexistentă Corelaţie perfectă directă-pozitivă
Interpretare În cazul unui coeficient de corelaţie pozitiv (ex. r = 0,5) avem o corelaţie directă - cele două variabile corelate variază în acelaşi sens (când una creşte, şi cealaltă creşte, respectiv când una scade, şi cealaltă scade). În cazul unui coeficient de corelaţie negativ (ex. r = -0,5) avem o corelaţie inversă, cele două variabile corelate variază în sens contrar (când una creşte, cealaltă scade).
IMC=greutate(kg)/ înălţime 2 (m) 50 45 Corelaţia dintre greutate si IMC y = 0.208x + 12.245 r = 0.670 50 45 Corelaţia dintre înalţime si IMC y = -0.1173x + 48.37 r = - 0.239 40 40 35 35 IMC 30 IMC 30 25 25 20 20 15 40 60 80 100 120 140 160 Greutate 15 135 145 155 165 175 185 195 205 Înalţime
Interpretarea rapidă a coeficientului r r є [0; 0.2] corelaţie foarte slabă, inexistentă r є [0.2; 0.4] corelaţie slabă r є [0.4; 0.6] corelaţie rezonabilă r є [0.6; 0.8] corelaţie înalta r є [0.8; 1] corelaţie foarte înaltă - relaţie foarte strînsă între variabile sau eroare de calcul
Exemple seturi de date şi valori r Dacă valoarea absolută a coeficientului de corelaţie este slabă (aproape de 0), nu trebuie să se conchidă neapărat că nu există legătură statistică între cele două variabile - legătura poate să existe, dar nu este liniară.
OBSERVAŢII Pentru date care nu au o distribuţie gaussiană, dar care se pot ordona, fără a avea un număr mare de valori egale intre ele, putem folosi coeficientul ρ (rho) Spearman, obţinut prin testul neparametric Spearman de corelaţie a rangurilor. În cazul datelor ale căror ranguri egale depăşeşte 25% din numărul lor este indicate folosirea testului τ (tau) al lui Kendall.
Teste statistice Testele statistice verifică veridicitatea unor ipoteze - inferenţe statistice ipoteza H 0 (sau ipoteza de nul): datele nu prezintă legături între ele, sunt independente / valorile comparate nu diferă între ele ipoteza H 1 (sau ipoteza alternativă): datele prezintă legături între ele, sunt dependente/ valorile comparate diferă între ele Rezultatul p al testului, furnizat ca un număr între 0 şi 1, reprezintă probabilitate de a face o eroare dacă respingem ipoteza H 0 a testului. Dacă p este mai mic decât pragul de semnificaţie α ales de obicei α=0,05 - respingem ipoteza H 0 şi admitem că este adevărată ipoteza H 1. Interpretarea valorilor p se face la majoritatea testelor statistice astfel: p < 0.05, legătura statistică este semnificativă (S, încredere 95%). p < 0.01, legătura statistică este semnificativă (S, încredere 99%). p < 0.001, legătura statistică este înalt semnificativă (HS, încredere 99.9%). p > 0.05, legătura statistică este nesemnificativă (NS).
Semnificaţie statistică Pentru a vedea daca valoarea lui r este semnificativă statistic, deci dacă cei doi parametri sunt corelaţi, se poate calcula parametrul t, care, conform distribuţiei Student, se poate transforma într-o valoare care arată probabilitatea de eroare - p, considerând că avem N-2 grade de libertate (degrees of freedom - df, N = numărul de perechi de valori). p < 0,05 - corelaţie semnificativă statistic între parametrii analizaţi MS Excel ----- p=tdist(t,df,nr_direcţii _ critice)
ATENŢIE! Ecuaţia de regresie este relaţia matematică care exprimă dependenţa dintre două sau mai multe variabile. Frecvent se foloseşte ecuaţia de regresie liniară = dreapta de regresie: y = a x +b unde y este variabila dependentă iar x este variabila independentă. Parametrul a (panta dreptei de regresie = slope ) este denumit coeficient de regresie nu trebuie confundat cu coeficientul de corelaţie!! Trebuie aleasă ecuaţia de regresie care să descrie cu cea mai mică eroare relaţia dintre variabile Estimarea parametrilor a ( slope ) şi b ( intercept ) se face uzual prin metoda celor mai mici pătrate
120 100 Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale y = 1.217 x + 10.456 r = 0.965 VSH 2 ore 80 60 40 20 0 0 10 20 30 40 50 60 70 80 90 100 VSH 1 ora
Întrebări