Regresie si corelatie Contet Statistica dispune de o seamă de metode de studiere a dependenţelor dintre două sau mai multe variabile. Printre acestea sunt şi cele cuprinse în "analiza de regresie şi corelaţie". În cadrul acesteia se studiază dependenţa dintre o variabilă (caracteristică) rezultativă (y) şi una sau mai multe variabile (caracteristici) independente (). Caracteristica rezultativă se mai numeşte caracteristica dependentă, endogenă sau efect, iar caracteristica independentă se mai numeşte caracteristica factorială, eogenă sau cauză. Regresia ne arată cum (ca formă analitică) o variabilă este dependentă de altă variabilă (sau de alte variabile), iar corelaţia ne arată gradul în care o variabilă este dependentă de o altă variabilă (sau alte variabile). Clasificări a) după numărul caracteristicilor independente luate în studiu: - legături simple - legături multiple b) după direcţia legăturilor, acestea pot fi: - legături directe - legături inverse c) după epresia analitică a legăturilor, acestea pot fi: - legături liniare - legături neliniare (curbilinii) d) metode de abordare - metode simple (elementare) - metode analitice 1
METODE ELEMENTARE DE CARACTERIZARE A LEGĂTURILOR DINTRE VARIABILE metoda seriilor paralele independente; metoda grupărilor; metoda tabelului de corelaţie; metoda grafică. Clasificări a) după numărul caracteristicilor independente luate în studiu: - legături simple - legături multiple b) după direcţia legăturilor, acestea pot fi: - legături directe - legături inverse c) după epresia analitică a legăturilor, acestea pot fi: - legături liniare - legături neliniare (curbilinii) d) metode de abordare - metode simple (elementare) - metode analitice Metoda seriilor paralele interdependente Se ordonează observaţiile în funcţie de caracteristica independentă (crescător sau descrescător) şi se urmează modul în care se aranjează valorile lui y. Concluzii: - caracteristica y se ordonează aproimativ crescător - rezultă că putem aprecia că între cele două variabile eistă o legătură directă; - caracteristica y se ordonează aproimativ descrescător rezultă că putem aprecia că între cele două variabile eistă o legătură inversă; - caracteristica y nu înregistrează o tendinţă de ordonare (crescător sau descrescător) - rezultă că putem aprecia că între cele două variabile nu eistă legătură.
.... Metoda grupărilor Se repartizează unităţilor în grupe omogene în funcţie de o caracteristică independentă. Pentru fiecare grupă astfel constituită se centralizează datele numerice referitoare la caracteristica rezultativă şi se calculează medii pe fiecare grupă şi mărimi relative. Prin comparaţia variaţiei caracteristicii independente cu indicatorii calculaţi pentru caracteristica rezultată se poate aprecia eistenţa şi forma legăturilor dintre cele două variabile. Metoda tabelului de contingenţă Tabelul de contingenţă este un tabel cu dublă intrare şi prezintă o grupare a unităţilor unei colectivităţii în funcţie de două caracteristici: una dependentă şi alta independentă. Se foloseşte în special în cadrul unui număr mare de observaţii. Dacă considerăm două variabile naţionalitate şi religie, atunci tabelul poate fi de forma: Eemplu - Tabel de contingenţă Religia/ Naţionalitatea Română Maghiară General Slovaci Altele Total Ortodoă n11 n1.. n1j.. n1p-1 n1p n1. Romanocatolică n1 n.. nj.. np-1 np n. General ni1 ni.. nij.. nip-1 nip ni. Musulmană nr-11 nr-1.. nr-1j.. nr-1p-1 nr-1p nr-1. Altele nr1 nr.. nrj.. nrp-1 nrp nr. Total n.1 n... n.j.. n.p-1 n.p n 3
Metoda grafică Graficul se construieşte pornind de le perechile de valori observate (, y) care se reprezintă în sistemul de ae rectangulare. Pe aa OX se reprezintă variabila independentă, iar pe aa OY variabila dependentă y. Fig. 8.4. y y 0 Fig. 8.5. Leg` tur` direct` 0 Fig. 8.6. Leg`tur` invers` Regresia liniară (1) Asumptii ale regresie liniare: A1. Toate variabilele independente sunt cantitative sau dihotomice. Variabilele sunt masurate fara eroare. A. Toate variabilele independente au varianta nenula. A3. Nu are loc multicoliniaritate. A4. Valoarea medie a variabilei ε (eroare) este zero pentru orice multime de valori ale variabilelor independente. A5. Fiecare variabila independenta este necorelata cu variabila ε. A6. Varianta lui ε este constanta-- homoscedasticity. A7. Pentru oricare doua observatii, erorile sunt necorelate. A8. Pentru orice valori ale variabilelor independente, ε este distribuita normal. A1 - A7. : asumptiile Gauss-Markov Regresia liniară () Să presupunem, că un cercetător, în căutarea partenerei ideale, şi-a propus să studieze căsătoriile reuşite, în special în privinţa vârstei mirelui şi a miresei la căsătorie. Statistica a 15 căsnicii considerate reuşite, după vârsta la cununie, este prezentată în tabelul următor Număr curent Mireasa (A) Mirele (B) vârsta (în ani împliniţi) la cununie 17 18 1.. 5 3. 8 36 4. 19 1 5. 0 6. 19 19 7. 3 4 8. 7 3 9. 3 38 10. 5 6 11. 0 1. 5 13. 0 3 14. 5 15. 1 3 Media,466666667 5,66666667 Abaterea standard 3,860669 5,5793691 Dispersia 14,915555556 31,18888889 4
Reprezentarea grafică 40 Vârsta mirelui 35 30 5 0 15 15 0 5 30 35 Vârsta miresei ŷ i Punerea problemei Fie f:r->r o funcţie liniară, având forma analitică: f()=a+b, ÎR. Pentru diferitele valori ale lui a şi b funcţia va lua valori diferite. Două cazuri concrete şi unul general este redat în tabelul următor. Nr. crt. i 1.. 3. 4. 5. 6. 7. 8. 9. 10. 11. 1. 13. 14. Vârsta mirelui i 18 5 36 1 19 4 3 38 6 5 3 5 Vârsta miresei yi 17 8 19 0 19 3 7 3 5 0 0 f()= 15+ zi 1 35 57 7 9 3 33 49 61 37 9 35 31 35 f()=9+/ wi 18 1,5 7 19,5 0 18,5 1 5 8 0 1,5 0,5 1,5 f()=a+b a+18b a+5b a+36b a+1b a+b a+19b a+4b a+3b a+38b a+6b a+b a+5b a+3b a+5b 15. 3 1 31 0,5 a+3b Concepte Chiar şi printr-o inspectare sumară a tabelului putem afirma că valorile w sunt mai bune decât cele din coloana lui z. Dar trebuie să alegem cea mai bună pereche de alori a şi b. În continuarea studiului trebuie să introducem o noţiune foarte importantă. Definiţie: Fie ( i,y i ), i=1..m un set de date, f:r R o funcţie. Variabila e definită prin e i = y i f( i ) = yi yˆ i, i=1..m, se numeşte variabilă reziduală, iar valorile acestei variabile se numesc valori reziduale. Este clar că în rezolvarea problemei contează valoarea absolută a valorilor reziduale, dar pentru a lucra cu epresii luăm pătratele acestora. Epresia cea mai des utilizată este suma pătratelor valorilor reziduale, care sumă vom numi pe scurt suma pătratică reziduală. 5
Estimarea parametrilor (1) Înlocuind pe Y" cu valoarea sa, relaţia devine: ( i a b i ) y = minim. Derivând în raport cu a" şi b", anulând derivatele parţiale, se obţine sistemul de ecuaţii normale: na i = yi a i i = iyi unde n reprezintă numărul unităţilor observate, adică numărul perechilor (,y). Rezultă că y = a + b sau a = y - b, ceea ce înseamnă că dreapta de regresie trece prin punctul mediu (, y). Rezolvând sistemul de ecuaţii normale, se obţin parametrii a" şi b". Estimarea parametrilor () i i i i y y i i 1 34 18 306 17 65 5 550 3 196 36 1008 8 4 441 1 399 19 5 484 440 0 6 361 19 361 19 7 576 4 55 3 8 104 3 864 7 9 1444 38 116 3 10 676 6 650 5 11 484 440 0 1 65 5 550 13 59 3 460 0 14 65 5 550 15 59 3 483 1 10043 379 889 337 yˆ = 0.6775843 + 5.468303843 Interpretări Coeficientul a", care poate lua atât valori pozitive cât şi negative, reprezintă ordonata la origine, respectiv este valoarea lui y" când este egal cu zero. Coeficientul b" - denumit coeficient de regresie - arată măsura în care variază caracteristica dependentă în cazul în care caracteristica independentă se modifică cu o unitate. În funcţie de semnul coeficientului de regresie, putem aprecia tipul de legătură: în cazul corelaţiei directe, coeficientul are o valoare pozitivă; în cazul corelaţiei inverse, valoarea lui este negativă; în cazul în care b = 0, se apreciază că variabilele (y şi ) sunt independente. În graficul de corelaţie coeficientul b" indică panta liniei drepte. 6
Modele neliniare de regresie (1) Modelul eponenţial transformat al ecuaţiei eponenţiale are la bază ecuaţia: y = a b care se estimează folosind modelul: Y = a b + ε Prin logaritmare, modelul se poate transforma într-un model liniar de forma: lg Y = lg a + lg b Făcând următoarele înlocuiri: Y = lg Y ; a' = lg a ; b' = lg b, rezultă ecuaţia unei drepte, respectiv: y' = a' + b' Modele neliniare de regresie () Modelul hiperbolei Legăturile dintre fenomenele economice pot fi şi de forma unei hiperbole. În acest caz, dependenţa inversă dintre cele două variabile ( scade, y creşte sau creşte, y scade) se poate eprima prin ecuaţia: 1 y = α + β α + β sau y = Funcţia de estimaţie este: 1 Y = a + b + ε i iar cei doi parametri rezultă din rezolvarea sistemului de ecuaţii normale: 1 na = yi i 1 1 1 a = yi i i i Modele neliniare de regresie (3) Modelul logaritmic este dat de epresia: y = a + b lg, care se estimează prin modelul: Y = a + b lg i + ε, Când a > 0 şi b > 0 curba este crescătoare, iar când a > 0 şi b < 0 curba este descrescătoare. Folosind metoda celor mai mici pătrate se ajunge la următorul sistem de ecuaţii normale: na lg i = yi a lg i ( lg i ) = yi lg i 7
Y5 X1 5 X 5 MODELE DE REGRESIE MULTIFACTORIALĂ Y (X11,X1,Y1) 3,5 (X1,X,Y) (X13,X3,Y3) (X14,X4,Y4) (X15,X5,Y5) 3,0,5 Y,0 1,5 1,0 X1 X 4 3 1 1 0 X1 0-1 - -3-3 - -1 X 3 Y' = a + b1*x1 + b*x. Y = (10 - X1 -X ) 1/ Metoda corelaţiei Corelaţia parametrică (variabile măsurate pe scala de raport) Corelaţia neparametrică (variabile măsurate pe scala nominală, ordinală sau de interval) Corelaţia parametrică Metoda corelaţiei prezintă avantajul că oferă o măsură sintetică a legăturilor dintre variabilele statistice. Indicatorii care măsoară intensitatea legăturii sunt: covarianţa, coeficientul de corelaţie şi raportul de corelaţie. COVARIANŢA Covarianţa se calculează sub forma mediei aritmetice simple a produselor abaterilor celor două variabile corelate, şi y, de la mediile lor aritmetice şi y, conform relaţiei: n 1 cov (, y) = i yi y n i= 1 8
Covarianţa () Covariaţia este nulă dacă variabilele sunt independente (lipsa legăturii de corelaţie). Valoarea sa absolută cov (,y) nu are limită superioară. Pe măsură ce intensitatea corelaţiei creşte şi covariaţia creşte. Indicatorul reprezintă avantajul că se calculează destul de uşor. În acelaşi timp, prezintă şi dezavantajul că depinde de unităţile în care se măsoară variabilele aleatoare. Deci nu este comparabil de la o variabilă la alta. Indicatorul ia valori pozitive dacă legătura dintre variabile este directă şi valori negative în coz contrar. Valori apropiate de zero semnifică lipsa oricărei legături între şi y; valori ridicate ale indicatorului arată o legătură puternică. COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ (1) Este un indicator care măsoară numai intensitatea legăturii de tip liniar dintre două variabile şi y. Se calculează ca o medie aritmetică a produsului abaterilor normale normate ale celor două variabile. Notând abaterile normale normate ale variabilelor şi y: i yi y z = ; zy = σ σy rezultă următoarea relaţie de calcul: y = ( i )( yi y) ( i )( yi y) = nσσy ( i ) ( yi y) în care n " este numărul observaţiilor-perechi. Faţă de covarianţă rezultă că relaţia: cov(, y) ( i )( yi y) ry = = σσy nσσy sau, altfel spus, covariaţia abaterilor normate z, zy se transformă în coeficientul de corelaţie liniară simplă. COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ () În practică se utilizează relaţia: r = n iyi i yi [ n ( i ) ] n y ( yi ) i [ ] i Coeficientul de corelaţie simplă se mai poate calcula şi cu relaţia: σ r = b, σy în care: b - este coeficientul de regresie simplă; σ - abaterea medie pătratică a caracteristicii factoriale; σy - abaterea medie pătratică a caracteristicii rezultative. 9
COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ (3) Coeficientul de corelaţie poate lua valori cuprinse între -1 şi +1, adică satisface inegalităţile: - 1 ry 1, iar semnul său, ca şi cel al coeficientului de regresie, semnifică tipul de legătură: semnul minus indică legătura inversă, semnul plus indică legătura directă. Cu cât coeficientul de corelaţie are valori mai apropiate de 1 sau 1, cu atât corelaţia rectilinie dintre variabilele şi y este mai puternică. Pe măsură ce coeficientul de corelaţie se apropie de zero, scade şi intensitatea legăturii dintre cele două variabile. În cazul în care ry = 0, variabilele sunt independente ori necorelate liniar, iar pentru egal cu unitatea, rezultă dependenţa funcţională între cele două variabile. 10