Regresie si corelatie

Σχετικά έγγραφα
(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

Metode iterative pentru probleme neliniare - contractii

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

Curs 4 Serii de numere reale

Sisteme diferenţiale liniare de ordinul 1

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

Curs 1 Şiruri de numere reale

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

Integrala nedefinită (primitive)

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

Aplicaţii ale principiului I al termodinamicii la gazul ideal

Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011

8 Intervale de încredere

Curs 2 DIODE. CIRCUITE DR

Subiecte Clasa a VIII-a

Recapitulare - Tipuri de date

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

MARCAREA REZISTOARELOR

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

Functii Breviar teoretic 8 ianuarie ianuarie 2011

Metode de interpolare bazate pe diferenţe divizate

Conice - Câteva proprietǎţi elementare

Ecuaţia generală Probleme de tangenţă Sfera prin 4 puncte necoplanare. Elipsoidul Hiperboloizi Paraboloizi Conul Cilindrul. 1 Sfera.

Asupra unei inegalităţi date la barajul OBMJ 2006

Subiecte Clasa a VII-a

Componente şi Circuite Electronice Pasive. Laborator 3. Divizorul de tensiune. Divizorul de curent

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

Profesor Blaga Mirela-Gabriela DREAPTA

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

TEMA 9: FUNCȚII DE MAI MULTE VARIABILE. Obiective:


Stabilizator cu diodă Zener

CONCURS DE ADMITERE, 17 iulie 2017 Proba scrisă la MATEMATICĂ

5.4. MULTIPLEXOARE A 0 A 1 A 2


Ecuatii exponentiale. Ecuatia ce contine variabila necunoscuta la exponentul puterii se numeste ecuatie exponentiala. a x = b, (1)

Criptosisteme cu cheie publică III

2 Transformări liniare între spaţii finit dimensionale

IV. CUADRIPOLI SI FILTRE ELECTRICE CAP. 13. CUADRIPOLI ELECTRICI

POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE

4. Măsurarea tensiunilor şi a curenţilor electrici. Voltmetre electronice analogice

Curs 2 Şiruri de numere reale

a. 11 % b. 12 % c. 13 % d. 14 %

Ovidiu Gabriel Avădănei, Florin Mihai Tufescu,

SEMINARUL 3. Cap. II Serii de numere reale. asociat seriei. (3n 5)(3n 2) + 1. (3n 2)(3n+1) (3n 2) (3n + 1) = a

Esalonul Redus pe Linii (ERL). Subspatii.

2.1 Sfera. (EGS) ecuaţie care poartă denumirea de ecuaţia generală asferei. (EGS) reprezintă osferă cu centrul în punctul. 2 + p 2

a. Caracteristicile mecanice a motorului de c.c. cu excitaţie independentă (sau derivaţie)

Seminar 5 Analiza stabilității sistemelor liniare

riptografie şi Securitate

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

Problema a II - a (10 puncte) Diferite circuite electrice

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

6 n=1. cos 2n. 6 n=1. n=1. este CONV (fiind seria armonică pentru α = 6 > 1), rezultă

Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare

BARAJ DE JUNIORI,,Euclid Cipru, 28 mai 2012 (barajul 3)

Principiul Inductiei Matematice.

Matrice. Determinanti. Sisteme liniare

Vectori liberi Produs scalar Produs vectorial Produsul mixt. 1 Vectori liberi. 2 Produs scalar. 3 Produs vectorial. 4 Produsul mixt.

2. Sisteme de forţe concurente...1 Cuprins...1 Introducere Aspecte teoretice Aplicaţii rezolvate...3

Toate subiectele sunt obligatorii. Timpul de lucru efectiv este de 3 ore. Se acordă din oficiu 10 puncte. SUBIECTUL I.

Componente şi Circuite Electronice Pasive. Laborator 4. Măsurarea parametrilor mărimilor electrice

III. Reprezentarea informaţiei în sistemele de calcul

Progresii aritmetice si geometrice. Progresia aritmetica.

CURS XI XII SINTEZĂ. 1 Algebra vectorială a vectorilor liberi

Cursul Măsuri reale. D.Rusu, Teoria măsurii şi integrala Lebesgue 15

Variabile statistice. (clasificare, indicatori)

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

7 Distribuţia normală

1. [ C] [%] INT-CO2 [ C]

T R A I A N ( ) Trigonometrie. \ kπ; k. este periodică (perioada principală T * =π ), impară, nemărginită.

2. Circuite logice 2.4. Decodoare. Multiplexoare. Copyright Paul GASNER

Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane

Erori si incertitudini de măsurare. Modele matematice Instrument: proiectare, fabricaţie, Interacţiune măsurand instrument:

PROIECT ECONOMETRIE. Profesori coordinatori: Liviu-Stelian Begu și Smaranda Cimpoeru

( ) ( ) ( ) Funcţii diferenţiabile. cos x cos x 2. Fie D R o mulţime deschisă f : D R şi x0 D. Funcţia f este

1. PROPRIETĂȚILE FLUIDELOR

1.3 Baza a unui spaţiu vectorial. Dimensiune

* K. toate K. circuitului. portile. Considerând această sumă pentru toate rezistoarele 2. = sl I K I K. toate rez. Pentru o bobină: U * toate I K K 1

Tranzistoare bipolare şi cu efect de câmp

VII.2. PROBLEME REZOLVATE

V O. = v I v stabilizator

I. Noţiuni introductive

Sisteme de ecuaţii diferenţiale

CIRCUITE LOGICE CU TB

Capitolul ASAMBLAREA LAGĂRELOR LECŢIA 25

Dioda Zener şi stabilizatoare de tensiune continuă

Transcript:

Regresie si corelatie Contet Statistica dispune de o seamă de metode de studiere a dependenţelor dintre două sau mai multe variabile. Printre acestea sunt şi cele cuprinse în "analiza de regresie şi corelaţie". În cadrul acesteia se studiază dependenţa dintre o variabilă (caracteristică) rezultativă (y) şi una sau mai multe variabile (caracteristici) independente (). Caracteristica rezultativă se mai numeşte caracteristica dependentă, endogenă sau efect, iar caracteristica independentă se mai numeşte caracteristica factorială, eogenă sau cauză. Regresia ne arată cum (ca formă analitică) o variabilă este dependentă de altă variabilă (sau de alte variabile), iar corelaţia ne arată gradul în care o variabilă este dependentă de o altă variabilă (sau alte variabile). Clasificări a) după numărul caracteristicilor independente luate în studiu: - legături simple - legături multiple b) după direcţia legăturilor, acestea pot fi: - legături directe - legături inverse c) după epresia analitică a legăturilor, acestea pot fi: - legături liniare - legături neliniare (curbilinii) d) metode de abordare - metode simple (elementare) - metode analitice 1

METODE ELEMENTARE DE CARACTERIZARE A LEGĂTURILOR DINTRE VARIABILE metoda seriilor paralele independente; metoda grupărilor; metoda tabelului de corelaţie; metoda grafică. Clasificări a) după numărul caracteristicilor independente luate în studiu: - legături simple - legături multiple b) după direcţia legăturilor, acestea pot fi: - legături directe - legături inverse c) după epresia analitică a legăturilor, acestea pot fi: - legături liniare - legături neliniare (curbilinii) d) metode de abordare - metode simple (elementare) - metode analitice Metoda seriilor paralele interdependente Se ordonează observaţiile în funcţie de caracteristica independentă (crescător sau descrescător) şi se urmează modul în care se aranjează valorile lui y. Concluzii: - caracteristica y se ordonează aproimativ crescător - rezultă că putem aprecia că între cele două variabile eistă o legătură directă; - caracteristica y se ordonează aproimativ descrescător rezultă că putem aprecia că între cele două variabile eistă o legătură inversă; - caracteristica y nu înregistrează o tendinţă de ordonare (crescător sau descrescător) - rezultă că putem aprecia că între cele două variabile nu eistă legătură.

.... Metoda grupărilor Se repartizează unităţilor în grupe omogene în funcţie de o caracteristică independentă. Pentru fiecare grupă astfel constituită se centralizează datele numerice referitoare la caracteristica rezultativă şi se calculează medii pe fiecare grupă şi mărimi relative. Prin comparaţia variaţiei caracteristicii independente cu indicatorii calculaţi pentru caracteristica rezultată se poate aprecia eistenţa şi forma legăturilor dintre cele două variabile. Metoda tabelului de contingenţă Tabelul de contingenţă este un tabel cu dublă intrare şi prezintă o grupare a unităţilor unei colectivităţii în funcţie de două caracteristici: una dependentă şi alta independentă. Se foloseşte în special în cadrul unui număr mare de observaţii. Dacă considerăm două variabile naţionalitate şi religie, atunci tabelul poate fi de forma: Eemplu - Tabel de contingenţă Religia/ Naţionalitatea Română Maghiară General Slovaci Altele Total Ortodoă n11 n1.. n1j.. n1p-1 n1p n1. Romanocatolică n1 n.. nj.. np-1 np n. General ni1 ni.. nij.. nip-1 nip ni. Musulmană nr-11 nr-1.. nr-1j.. nr-1p-1 nr-1p nr-1. Altele nr1 nr.. nrj.. nrp-1 nrp nr. Total n.1 n... n.j.. n.p-1 n.p n 3

Metoda grafică Graficul se construieşte pornind de le perechile de valori observate (, y) care se reprezintă în sistemul de ae rectangulare. Pe aa OX se reprezintă variabila independentă, iar pe aa OY variabila dependentă y. Fig. 8.4. y y 0 Fig. 8.5. Leg` tur` direct` 0 Fig. 8.6. Leg`tur` invers` Regresia liniară (1) Asumptii ale regresie liniare: A1. Toate variabilele independente sunt cantitative sau dihotomice. Variabilele sunt masurate fara eroare. A. Toate variabilele independente au varianta nenula. A3. Nu are loc multicoliniaritate. A4. Valoarea medie a variabilei ε (eroare) este zero pentru orice multime de valori ale variabilelor independente. A5. Fiecare variabila independenta este necorelata cu variabila ε. A6. Varianta lui ε este constanta-- homoscedasticity. A7. Pentru oricare doua observatii, erorile sunt necorelate. A8. Pentru orice valori ale variabilelor independente, ε este distribuita normal. A1 - A7. : asumptiile Gauss-Markov Regresia liniară () Să presupunem, că un cercetător, în căutarea partenerei ideale, şi-a propus să studieze căsătoriile reuşite, în special în privinţa vârstei mirelui şi a miresei la căsătorie. Statistica a 15 căsnicii considerate reuşite, după vârsta la cununie, este prezentată în tabelul următor Număr curent Mireasa (A) Mirele (B) vârsta (în ani împliniţi) la cununie 17 18 1.. 5 3. 8 36 4. 19 1 5. 0 6. 19 19 7. 3 4 8. 7 3 9. 3 38 10. 5 6 11. 0 1. 5 13. 0 3 14. 5 15. 1 3 Media,466666667 5,66666667 Abaterea standard 3,860669 5,5793691 Dispersia 14,915555556 31,18888889 4

Reprezentarea grafică 40 Vârsta mirelui 35 30 5 0 15 15 0 5 30 35 Vârsta miresei ŷ i Punerea problemei Fie f:r->r o funcţie liniară, având forma analitică: f()=a+b, ÎR. Pentru diferitele valori ale lui a şi b funcţia va lua valori diferite. Două cazuri concrete şi unul general este redat în tabelul următor. Nr. crt. i 1.. 3. 4. 5. 6. 7. 8. 9. 10. 11. 1. 13. 14. Vârsta mirelui i 18 5 36 1 19 4 3 38 6 5 3 5 Vârsta miresei yi 17 8 19 0 19 3 7 3 5 0 0 f()= 15+ zi 1 35 57 7 9 3 33 49 61 37 9 35 31 35 f()=9+/ wi 18 1,5 7 19,5 0 18,5 1 5 8 0 1,5 0,5 1,5 f()=a+b a+18b a+5b a+36b a+1b a+b a+19b a+4b a+3b a+38b a+6b a+b a+5b a+3b a+5b 15. 3 1 31 0,5 a+3b Concepte Chiar şi printr-o inspectare sumară a tabelului putem afirma că valorile w sunt mai bune decât cele din coloana lui z. Dar trebuie să alegem cea mai bună pereche de alori a şi b. În continuarea studiului trebuie să introducem o noţiune foarte importantă. Definiţie: Fie ( i,y i ), i=1..m un set de date, f:r R o funcţie. Variabila e definită prin e i = y i f( i ) = yi yˆ i, i=1..m, se numeşte variabilă reziduală, iar valorile acestei variabile se numesc valori reziduale. Este clar că în rezolvarea problemei contează valoarea absolută a valorilor reziduale, dar pentru a lucra cu epresii luăm pătratele acestora. Epresia cea mai des utilizată este suma pătratelor valorilor reziduale, care sumă vom numi pe scurt suma pătratică reziduală. 5

Estimarea parametrilor (1) Înlocuind pe Y" cu valoarea sa, relaţia devine: ( i a b i ) y = minim. Derivând în raport cu a" şi b", anulând derivatele parţiale, se obţine sistemul de ecuaţii normale: na i = yi a i i = iyi unde n reprezintă numărul unităţilor observate, adică numărul perechilor (,y). Rezultă că y = a + b sau a = y - b, ceea ce înseamnă că dreapta de regresie trece prin punctul mediu (, y). Rezolvând sistemul de ecuaţii normale, se obţin parametrii a" şi b". Estimarea parametrilor () i i i i y y i i 1 34 18 306 17 65 5 550 3 196 36 1008 8 4 441 1 399 19 5 484 440 0 6 361 19 361 19 7 576 4 55 3 8 104 3 864 7 9 1444 38 116 3 10 676 6 650 5 11 484 440 0 1 65 5 550 13 59 3 460 0 14 65 5 550 15 59 3 483 1 10043 379 889 337 yˆ = 0.6775843 + 5.468303843 Interpretări Coeficientul a", care poate lua atât valori pozitive cât şi negative, reprezintă ordonata la origine, respectiv este valoarea lui y" când este egal cu zero. Coeficientul b" - denumit coeficient de regresie - arată măsura în care variază caracteristica dependentă în cazul în care caracteristica independentă se modifică cu o unitate. În funcţie de semnul coeficientului de regresie, putem aprecia tipul de legătură: în cazul corelaţiei directe, coeficientul are o valoare pozitivă; în cazul corelaţiei inverse, valoarea lui este negativă; în cazul în care b = 0, se apreciază că variabilele (y şi ) sunt independente. În graficul de corelaţie coeficientul b" indică panta liniei drepte. 6

Modele neliniare de regresie (1) Modelul eponenţial transformat al ecuaţiei eponenţiale are la bază ecuaţia: y = a b care se estimează folosind modelul: Y = a b + ε Prin logaritmare, modelul se poate transforma într-un model liniar de forma: lg Y = lg a + lg b Făcând următoarele înlocuiri: Y = lg Y ; a' = lg a ; b' = lg b, rezultă ecuaţia unei drepte, respectiv: y' = a' + b' Modele neliniare de regresie () Modelul hiperbolei Legăturile dintre fenomenele economice pot fi şi de forma unei hiperbole. În acest caz, dependenţa inversă dintre cele două variabile ( scade, y creşte sau creşte, y scade) se poate eprima prin ecuaţia: 1 y = α + β α + β sau y = Funcţia de estimaţie este: 1 Y = a + b + ε i iar cei doi parametri rezultă din rezolvarea sistemului de ecuaţii normale: 1 na = yi i 1 1 1 a = yi i i i Modele neliniare de regresie (3) Modelul logaritmic este dat de epresia: y = a + b lg, care se estimează prin modelul: Y = a + b lg i + ε, Când a > 0 şi b > 0 curba este crescătoare, iar când a > 0 şi b < 0 curba este descrescătoare. Folosind metoda celor mai mici pătrate se ajunge la următorul sistem de ecuaţii normale: na lg i = yi a lg i ( lg i ) = yi lg i 7

Y5 X1 5 X 5 MODELE DE REGRESIE MULTIFACTORIALĂ Y (X11,X1,Y1) 3,5 (X1,X,Y) (X13,X3,Y3) (X14,X4,Y4) (X15,X5,Y5) 3,0,5 Y,0 1,5 1,0 X1 X 4 3 1 1 0 X1 0-1 - -3-3 - -1 X 3 Y' = a + b1*x1 + b*x. Y = (10 - X1 -X ) 1/ Metoda corelaţiei Corelaţia parametrică (variabile măsurate pe scala de raport) Corelaţia neparametrică (variabile măsurate pe scala nominală, ordinală sau de interval) Corelaţia parametrică Metoda corelaţiei prezintă avantajul că oferă o măsură sintetică a legăturilor dintre variabilele statistice. Indicatorii care măsoară intensitatea legăturii sunt: covarianţa, coeficientul de corelaţie şi raportul de corelaţie. COVARIANŢA Covarianţa se calculează sub forma mediei aritmetice simple a produselor abaterilor celor două variabile corelate, şi y, de la mediile lor aritmetice şi y, conform relaţiei: n 1 cov (, y) = i yi y n i= 1 8

Covarianţa () Covariaţia este nulă dacă variabilele sunt independente (lipsa legăturii de corelaţie). Valoarea sa absolută cov (,y) nu are limită superioară. Pe măsură ce intensitatea corelaţiei creşte şi covariaţia creşte. Indicatorul reprezintă avantajul că se calculează destul de uşor. În acelaşi timp, prezintă şi dezavantajul că depinde de unităţile în care se măsoară variabilele aleatoare. Deci nu este comparabil de la o variabilă la alta. Indicatorul ia valori pozitive dacă legătura dintre variabile este directă şi valori negative în coz contrar. Valori apropiate de zero semnifică lipsa oricărei legături între şi y; valori ridicate ale indicatorului arată o legătură puternică. COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ (1) Este un indicator care măsoară numai intensitatea legăturii de tip liniar dintre două variabile şi y. Se calculează ca o medie aritmetică a produsului abaterilor normale normate ale celor două variabile. Notând abaterile normale normate ale variabilelor şi y: i yi y z = ; zy = σ σy rezultă următoarea relaţie de calcul: y = ( i )( yi y) ( i )( yi y) = nσσy ( i ) ( yi y) în care n " este numărul observaţiilor-perechi. Faţă de covarianţă rezultă că relaţia: cov(, y) ( i )( yi y) ry = = σσy nσσy sau, altfel spus, covariaţia abaterilor normate z, zy se transformă în coeficientul de corelaţie liniară simplă. COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ () În practică se utilizează relaţia: r = n iyi i yi [ n ( i ) ] n y ( yi ) i [ ] i Coeficientul de corelaţie simplă se mai poate calcula şi cu relaţia: σ r = b, σy în care: b - este coeficientul de regresie simplă; σ - abaterea medie pătratică a caracteristicii factoriale; σy - abaterea medie pătratică a caracteristicii rezultative. 9

COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ (3) Coeficientul de corelaţie poate lua valori cuprinse între -1 şi +1, adică satisface inegalităţile: - 1 ry 1, iar semnul său, ca şi cel al coeficientului de regresie, semnifică tipul de legătură: semnul minus indică legătura inversă, semnul plus indică legătura directă. Cu cât coeficientul de corelaţie are valori mai apropiate de 1 sau 1, cu atât corelaţia rectilinie dintre variabilele şi y este mai puternică. Pe măsură ce coeficientul de corelaţie se apropie de zero, scade şi intensitatea legăturii dintre cele două variabile. În cazul în care ry = 0, variabilele sunt independente ori necorelate liniar, iar pentru egal cu unitatea, rezultă dependenţa funcţională între cele două variabile. 10