Coeficientul de corelaţie Pearson(r) M. Popa

Σχετικά έγγραφα
Recapitulare - Tipuri de date

NOTIUNI DE BAZA IN STATISTICA

Distribuţia multinomială Testul chi-pătrat. M. Popa

Curs 1 Şiruri de numere reale

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

Subiecte Clasa a VII-a

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

MARCAREA REZISTOARELOR

sunt comparate grupuri formate din subiecńi diferińi, evaluańi în condińii diferite testul t pentru eşantioane independente ANOVA

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

Metode de interpolare bazate pe diferenţe divizate

TESTE STATISTICE PENTRU DATE ORDINALE. M. Popa

Integrala nedefinită (primitive)

Scoruri standard Curba normală (Gauss) M. Popa

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

Aplicaţii ale principiului I al termodinamicii la gazul ideal

a. 11 % b. 12 % c. 13 % d. 14 %

Laborator biofizică. Noţiuni introductive

Curs 4 Serii de numere reale

PRELEGEREA XII STATISTICĂ MATEMATICĂ

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

Erori si incertitudini de măsurare. Modele matematice Instrument: proiectare, fabricaţie, Interacţiune măsurand instrument:

Subiecte Clasa a VIII-a

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

Metode iterative pentru probleme neliniare - contractii

5.4. MULTIPLEXOARE A 0 A 1 A 2

Erori statistice Puterea testului statistic Mărimea efectului. Marian Popa

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

8 Intervale de încredere

1. [ C] [%] INT-CO2 [ C]

1. PROPRIETĂȚILE FLUIDELOR

CURS: METODE EXPERIMENTALE ÎN FCS

TEMA 9: FUNCȚII DE MAI MULTE VARIABILE. Obiective:

Cursul 6. Tabele de incidenţă Sensibilitate, specificitate Riscul relativ Odds Ratio Testul CHI PĂTRAT

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

riptografie şi Securitate

Statisticǎ - curs 4. 1 Generalitǎţi privind ipotezele statistice şi problema verificǎrii ipotezelor statistice 2

Seminar 5 Analiza stabilității sistemelor liniare

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

Msppi. Curs 3. Modelare statistica Exemplu. Studiu de caz

Laborator 11. Mulţimi Julia. Temă

Analiza bivariata a datelor

[ C] [%] INT-CO2 [ C]

Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011

STATISTICĂ DESCRIPTIVĂ


V O. = v I v stabilizator

Capitolul ASAMBLAREA LAGĂRELOR LECŢIA 25

z a + c 0 + c 1 (z a)

Problema a II - a (10 puncte) Diferite circuite electrice

Componente şi Circuite Electronice Pasive. Laborator 3. Divizorul de tensiune. Divizorul de curent

Asupra unei inegalităţi date la barajul OBMJ 2006

Curs 2 Şiruri de numere reale

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

Statistică descriptivă Distribuția normală Estimare. Călinici Tudor 2015

Elemente de bază în evaluarea incertitudinii de măsurare. Sonia Gaiţă Institutul Naţional de Metrologie Laboratorul Termometrie

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

Noţiuni introductive

Componente şi Circuite Electronice Pasive. Laborator 4. Măsurarea parametrilor mărimilor electrice

Proiectarea filtrelor prin metoda pierderilor de inserţie

9 Testarea ipotezelor statistice

Stabilizator cu diodă Zener

Valori limită privind SO2, NOx şi emisiile de praf rezultate din operarea LPC în funcţie de diferite tipuri de combustibili

2. STATICA FLUIDELOR. 2.A. Presa hidraulică. Legea lui Arhimede

I. Noţiuni introductive

Distribuţia binomială Teste statistice neparametrice nominale. M. Popa

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB

Esalonul Redus pe Linii (ERL). Subspatii.

5.1. Noţiuni introductive

Capitolul 2 - HIDROCARBURI 2.5.ARENE

Sisteme diferenţiale liniare de ordinul 1

TESTAREA IPOTEZELOR STATISTICE

Εμπορική αλληλογραφία Ηλεκτρονική Αλληλογραφία

Regresie si corelatie

PROIECT ECONOMETRIE. Profesori coordinatori: Liviu-Stelian Begu și Smaranda Cimpoeru

Metode Runge-Kutta. 18 ianuarie Probleme scalare, pas constant. Dorim să aproximăm soluţia problemei Cauchy

ECO-STATISTICA-NOTITZZE DE LABORATOR

T R A I A N ( ) Trigonometrie. \ kπ; k. este periodică (perioada principală T * =π ), impară, nemărginită.

Statistica descriptivă

Variabile statistice. (clasificare, indicatori)

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

EDITURA PARALELA 45 MATEMATICĂ DE EXCELENŢĂ. Clasa a X-a Ediţia a II-a, revizuită. pentru concursuri, olimpiade şi centre de excelenţă

Curs 2 DIODE. CIRCUITE DR

Subiecte Clasa a V-a

Analiza datelor de marketing utilizand S.P.S.S. - analiza diferentiala -

1. Distribuţiile teoretice 2. Intervalul de încredere pentru caracteristicile cantitative (medii) Histograma Nr. valori Nr. de clase de valori

* K. toate K. circuitului. portile. Considerând această sumă pentru toate rezistoarele 2. = sl I K I K. toate rez. Pentru o bobină: U * toate I K K 1

GEOMETRIE PLANĂ TEOREME IMPORTANTE ARII. bh lh 2. abc. abc. formula înălţimii

Transcript:

Coeficientul de corelaţie Pearson(r) M. Popa

Asocierea valorilor perechi re studiu 30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 Nota la examen

Conceptul de corelaţie (Galton şi Pearson) cauzalitatea este doar limita extremă categoriei de relaţie între două fenomene prea complexă pentru a fi întotdeauna demonstrată asocierea poate fi un principiu explicativ aduce în domeniul ştiinţelor sociale şi umane rigoarea specifică ştiinţelor fizice şi naturale.

probleme de cercetare tipice există o legătură între numărul atitudini pozitive pe care le manifestă oamenii şi numărul atitudinilor pozitive pe care le primesc din partea celor din jur?. există o legătură între timpul de reacţie şi nivelul extraversiunii, ca trăsătură de personalitate?. există o legătură între greutate şi înălţime? există o relaţie între frecvenţa pulsului şoferilor şi viteza maşinii pe care o conduc? există o relaţie între numărul orelor de studiu la statistică şi punctajul obţinut la evaluări?

Coeficientul de covarianţă x * y cov xy = N precursorul coeficientului de corelaţie ridică probleme de utilizare în cazul variabilelor exprimate în unităţi de măsură diferite

Coeficientul de corelaţie Pearson z x şi z y sunt transformările z ale variabilelor corelate formula poate fi utilizată indiferent de unitatea de măsură r poate lua valori între -1, corelaţie perfectă negativă +1, corelaţie perfectă pozitivă 0, absenţa corelaţiei Formula de calcul r = r r = = z x N * z N z y 2 x ( X m )*( Y m ) N * x s x * s y y

Plaja de valori Pearson r un număr între -1 şi+1 care indică intensitatea relaţiei dintre variabile Semnul(- sau +) indică direcţia relaţiei Valoarea indică intensitatea relaţiei -1 ------------ 0 ------------ +1 corelaţie corelaţie corelaţie perfectă negativă nulă perfectă pozitivă

corelaţie pozitivă VariabilaY Variabila X

corelaţie negativă Variabila Y Variabila X

corelaţie inexistentă (0) Variabila Y Variabila X

Scatterplot 1 care indică o corelație mai puternică? Scatterplot 2

Un exemplu tr erori Cercetătorii au observat o relaţie între timpul de reacţie şi numărul erorilor la diverse tipuri de sarcini. Această relaţie este denumită compensarea vitezăcorectitudine. Datele reprezintă timpul de reacţie (milisecunde) şi numărul total de erori înregistrate pentru un număr de 8 subiecţi. 184 10 213 6 234 2 197 7 189 13 221 10 237 4 192 9

Criteriile deciziei statistice coeficientul r se raportează la o distribuţie teoretică derivată din distribuţia t df=n-2 tabel special cu praguri de semnificaţie ale coeficientului de corelaţie r

pentru test bilateral, α=0.05 şi df=6 (8-2) r critic=0.707

tr (X) X-m (X-m) 2 erori (Y) Y-m (Y-m) 2 (X-m)* (Y-m) 1 184-24,38 594,38 10 2,37 5,62-57,78 2 213 4,62 21,34 6-1,63 2,66-7,53 3 234 25,62 656,38 2-5,63 31,70-144,24 4 197-11,38 129,50 7 -,63,40 7,17 5 189-19,38 375,58 13 5,37 28,84-104,07 6 221 12,62 159,26 10 2,37 5,62 29,91 7 237 28,62 819,10 4-3,63 13,18-103,89 8 192-16,38 268,30 9 1,37 1,88-22,44 Σ m X s X 1667 3023,88 61 89,88-402,87 208,38 7,63 20,784 3,583

r ( X m )*( Y m ) = N * sx * sy x y = - 402,87 8* 20,78*3,583 = - 402,87 595,14 = 0.68 r calculat = -0.68 < r critic=0.70 Decizia statistică? Decizia cercetării?

Interpretarea coeficientului de corelaţie 1) Corelaţie şi cauzalitate 2) Natura liniară a corelaţiei Pearson 3) Interpretarea valorii testului r 4) Coeficientul de determinare

(1) Corelaţie şi cauzalitate Pearson (r) NU are semnificaţie cauzală relevă legătura, asocierea, variaţia concomitentă a valorilor poate fi interpretat cauzal numai dacă variablele sunt măsurate în condiţii de experiment

(2) Natura liniară a corelaţiei Pearson

Corelația dintre valorile lui z şi probabilitatea aferentă de sub curba normală,6 Distributia normala z (r=0),5,4,3,2,1 p 0,0-4 -3-2 -1 0 1 2 3 4 z

Corelație curbilinie performanță şi nivelul stresului

F. J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 1973, 27, 17-21 set #1 set #2 set #3 set #4 X 1 Y 1 X 2 Y 2 X 3 Y 3 X 4 Y 4 10,00 8,04 10,00 9,14 10,00 7,46 8,00 6,58 8,00 6,95 8,00 8,14 8,00 6,77 8,00 5,76 13,00 7,58 13,00 8,74 13,00 12,74 8,00 7,71 9,00 8,81 9,00 8,77 9,00 7,11 8,00 8,84 11,00 8,33 11,00 9,26 11,00 7,81 8,00 8,47 14,00 9,96 14,00 8,10 14,00 8,84 8,00 7,04 6,00 7,24 6,00 6,13 6,00 6,08 8,00 5,25 4,00 4,26 4,00 3,10 4,00 5,39 19,00 12,50 12,00 10,84 12,00 9,13 12,00 8,15 8,00 5,56 7,00 4,82 7,00 7,26 7,00 6,42 8,00 7,91 5,00 5,68 5,00 4,74 5,00 5,73 8,00 6,89 corelațiile dintre toate cele patru seturi de date, două câte două, au aceeaşi valoare: r=0.816... şi totuşi...

Reprezentări scatterplot pentru cele patru seturi de date Anscombe (r=0.81) 14,00 14,00 12,00 12,00 10,00 10,00 20,00 18,00 x1 x2 8,00 8,00 6,00 6,00 4,00 4,00 4,00 5,00 6,00 7,00 y1 8,00 9,00 10,00 11,00 3,00 4,00 5,00 6,00 y2 7,00 8,00 9,00 10,00 14,00 12,00 16,00 10,00 x3 x4 14,00 8,00 12,00 6,00 10,00 4,00 8,00 6,00 8,00 y3 10,00 12,00 6,00 8,00 y4 10,00 12,00

Mărimea efectului Valoarea însăşi a lui r Coeficientul de determinare (r 2 )

Interpretarea valorii testului r (Hopkins) Coeficientul de corelaţie Descriptor 0.1 Foarte mic, neglijabil, nesubstanţial 0.1 0.3 0.3 0.5 0.5 0.7 0.7 0.9 0.9 Mic, minor Moderat, mediu Mare, ridicat, major Foarte mare, foarte ridicat Aproape perfect, descrie relaţia dintre două variabile practic indistincte

Interpretarea valorii testului r (Davis) 0.70 asociere foarte puternică 0.50 0.69 asociere substanţială 0.30 0.49 asociere moderată 0.10 0.29 asociere scăzută 0.01 0.09 asociere neglijabilă

Coeficientul de determinare (r 2 ) r r 2 1.00 1.00.90.81.80.64.70.49.60.36.50.25.40.16.30.09.20.04.10.01.0.0 coeficientul de determinare r=0,68 r 2 =0,46 46% din variația valorilor uneia dintre variabile este determintă de variația valorilor celeilalte variabile r 2 (Cohen) 0.0196 efect mic 0.1300 efect mediu 0.2600 efect mare

Limite de încredere pentru coeficientul de corelaţie Semnificaţia limitelor de încredere r(calculat pentru eşantion) estimare pentru ρ(ro) putem evalua probabilitatea ca intensitatea asocierii în populaţie să se afle între anumite limite aceste limite vor fi cu atât mai largi, cu atât acurateţea estimării r este mai scăzută distanţa dintre limitele de încredere (superioară şi inferioară) este dată de eroarea standard a valorii calculate a lui r (simbolizată cu r e ) variabilitatea estimată pentru o distribuţie de coeficienţi r, pe care o vom numi rs(de la sample distribution, distribuţia de eşantionare) principiul de calcul este acelaşi ca pentru media populaţiei

Calcularea limitelor de încredere pentru r Particularităţi: Distribuția valorilor r la nivelul populației nu este simetrică decât pentru valoarea r=0-1-----0,68--- 0 -----------+1 Fisher a elaborat un algoritm pe baza căruia valorile rs sunt transformate în valori Z, a căror arie de distribuţie sub curba normală este cunoscută: Z = 0.5*ln[(1 + r)/(1 - r)]

calculul limitelor de încredere pentru r r=-0.68 Z (r -0.68 ) = -0.8291 Z critic=±1.96 ρ = r ± z * r critic e Limita superioară a intervalului (Z)... (r) ρ = 0.8291+ 1.96 * 0.447 = + 0.04 r=+0.04 r e 1 = N 3 = 1 8 3 = 0,447 Limita inferioară a intervalului (Z)... (r) ρ = 0.8291 1.96*0.447= 1.70 r=-0.94 Z (r)

limita inferioară -0.94 valoarea calculată -0.68 limita superioară +0.04-1 -0.50 0.00 coeficientul de corelație am obţinut o corelaţie mare, dar valoarea adevărată, la nivelul populaţiei, se poate află oriunde, pe intervalul de la o valoare negativă, la una aproape perfectă.

Utilizarea limitelor de încredere

r statisticsemnificativ" P < 0.05 Zero cade în afara intervalului de încredere Exemple: patru corelaţii pentru eşantioane de 20 subiecţi r interval 0.70 0.37 -- 0.87 0.007 0.44 0.00 -- 0.74 0.05 0.25-0.22 -- 0.62 0.29 0.00-0.44 -- 0.44 1.00 p -0.50 0.00 0.50 1 coeficient de corelație

Un exemplu Limitele de încredere pentru acesta sunt între -0.07 şi +0.60 nesemnificativ, (între cele două limite este şi valoarea zero) Cu cât N va fi mai mare, cu atât valoarea lui r e va fi mai mică iar limitele intervalului de încredere pentrur, mai aproape der. Dacă am creşte volumul eşantionului la 50 de subiecți, limita inferioară ar trece dincolo de valoarea zero. Celelalte linii din tabel prezintă efectul de mărime al eşantionului în cazul creşterii lui N până la 100 de subiecți. N Pearson r Eşantion N=30; r=0.30 Niv. de încredere (%) Limite de încredere inferioară Superioară 30 0,30 95-0,07 0,60 40 0,30 95-0,01 0,56 50 0,30 95 0,02 0,53 60 0,30 95 0,05 0,51 70 0,30 95 0,07 0,50 80 0,30 95 0,09 0,49 90 0,30 95 0,10 0,48 100 0,30 95 0,11 0,47

pentru exemplul nostru dacă N=10 r e =1/sqrt(7)=0.38 lim. sup.=-0.8291+1.96*0.38=-0.08 (r=-0.08) lim. inf. =-0.8291-1.96*0.38=-1.57 (r=-0.93) cu numai 2 subiecţi în plus, rezultatul devenea semnificativ

Semnificaţia diferenţei dintre doi coeficienţi de corelaţie corelaţia dintre extraversie şi agresivitate separat, pentru bărbaţi şi pentru femei r=0.50 pentru bărbaţi r=0.30 pentru femei Ambii semnficativi Semnificaţia diferenţei ia în considerare: diferenţa dintre valorile r mărimea eşantioanelor Mărimea a celor doi coeficienţi De exemplu, o diferenţă de 0.1 între doi indici de corelaţie poate fi nesemnficativă dacă cei doi rsunt 0.15 şi 0.25 poate fi semnificativă dacă valorile r comparate sunt 0.80 şi 0.90.

Condiţii pentru calcularea coeficientului de corelaţie Pearson eşantionul aleatoriu variabile cu distribuţie care să nu se abată grav de la distribuţia normală condiţie este cu atât mai importantă cu cât eşantionul este mai mic atenţie aparte trebuie acordată valorilor excesive, prezenţa acestora putând avea efecte neaşteptate asupra valorii coeficientului de corelaţie vezi seturile Anscombe

Efectul valorilor extreme (bivariate) asupra lui r Anscombe (r=0.81) 14,00 20,00 12,00 18,00 16,00 10,00 x3 x4 14,00 8,00 12,00 6,00 10,00 4,00 8,00 6,00 8,00 y3 10,00 12,00 6,00 8,00 y4 10,00 12,00

Utilizarea coeficientul de corelaţie Analiza de corelaţie este una dintre cele mai uzuale proceduri statistice în cercetarea psihologică consistenţa testelor (internă, test-retest) validităţii testelor psihologice testul t (dep) sau r?

Publicarea rezultatului corelaţiei A fost evaluată relaţia dintre numărul conduitelor agresive emise şi cel al aprecierilor primite, pe un grup de 8 elevi. Media conduitelor agresive a fost de m=20.68 (s=20.78) iar a aprecierilor primite m=7.63 (s=3.58). Am rezultat o corelaţie negativă, nesemnificativă, între cele două tipuri de conduite, r(6)=-0.68, p>0.05, bilateral.

Tabela Fisher de transformare a valorilor r în scoruri Z (Sursa: http://davidmlane.com/hyperstat/rtoz_table.html)

r Z r Z r Z R Z 0.0000 0.0000 0.2600 0.2661 0.5200 0.5763 0.7800 1.0454 0.0100 0.0100 0.2700 0.2769 0.5300 0.5901 0.7900 1.0714 0.0200 0.0200 0.2800 0.2877 0.5400 0.6042 0.8000 1.0986 0.0300 0.0300 0.2900 0.2986 0.5500 0.6184 0.8100 1.1270 0.0400 0.0400 0.3000 0.3095 0.5600 0.6328 0.8200 1.1568 0.0500 0.0500 0.3100 0.3205 0.5700 0.6475 0.8300 1.1881 0.0600 0.0601 0.3200 0.3316 0.5800 0.6625 0.8400 1.2212 0.0700 0.0701 0.3300 0.3428 0.5900 0.6777 0.8500 1.2562 0.0800 0.0802 0.3400 0.3541 0.6000 0.6931 0.8600 1.2933 0.0900 0.0902 0.3500 0.3654 0.6100 0.7089 0.8700 1.3331 0.1000 0.1003 0.3600 0.3769 0.6200 0.7250 0.8800 1.3758 0.1100 0.1104 0.3700 0.3884 0.6300 0.7414 0.8900 1.4219 0.1200 0.1206 0.3800 0.4001 0.6400 0.7582 0.9000 1.4722 0.1300 0.1307 0.3900 0.4118 0.6500 0.7753 0.9100 1.5275 0.1400 0.1409 0.4000 0.4236 0.6600 0.7928 0.9200 1.5890 0.1500 0.1511 0.4100 0.4356 0.6700 0.8107 0.9300 1.6584 0.1600 0.1614 0.4200 0.4477 0.6800 0.8291 0.9400 1.7380 0.1700 0.1717 0.4300 0.4599 0.6900 0.8480 0.9500 1.8318 0.1800 0.1820 0.4400 0.4722 0.7000 0.8673 0.9600 1.9459 0.1900 0.1923 0.4500 0.4847 0.7100 0.8872 0.9700 2.0923 0.2000 0.2027 0.4600 0.4973 0.7200 0.9076 0.9800 2.2976 0.2100 0.2132 0.4700 0.5101 0.7300 0.9287 0.9900 2.6467 0.2200 0.2237 0.4800 0.5230 0.7400 0.9505 0.2300 0.2342 0.4900 0.5361 0.7500 0.9730 0.2400 0.2448 0.5000 0.5493 0.7600 0.9962 0.2500 0.2554 0.5100 0.5627 0.7700 1.0203