Statstcă multvarată Lucrarea nr. 6 Asocerea datelor - Excel, SPSS A. Noţun teoretce Generaltăţ Spunem că două (sau ma multe) varable sunt asocate dacă, în dstrbuţa comună a varablelor, anumte grupur de valor au probabltăţ ma mar de realzare smultană decât alte grupur de valor. Cu alte cuvnte, dacă o varablă a o valoare, atunc celelalte varable vor lua, cu probabltăţ ma mar, valor determnate de valoarea prme varable. Se observă astfel că, în analză, una dntre varable joacă rolul de varablă dependentă ar cealaltă (sau celelalte) joacă rolul de varablă ndependentă (varable ndependente). Denumrle (ca ş rolurle) sunt relatve, doar necestăţle ş posbltăţle cercetătorulu stablnd rolul fecăre varable. Un aspect al probleme este evdenţerea asocer ş alt aspect este evaluarea gradulu de asocere. Evaluarea asocer: Scala drecţonală ( 1 +1). Permte dstngerea asocerlor negatve (în care valorle varablelor sunt nvers proporţonale: mare cu mc, mc cu mare) de asocerle poztve (în care valorle varablelor sunt drect proporţonale: mare cu mare, mc cu mc). Valoarea zero ndcă lpsa de asocere. Este specfcă varablelor ordnale ş celor contnue (de nterval). 1 0 +1 Asocere negatvă Lpsă de asocere Asocere poztvă (nversă) (drectă) Scala nedrecţonală (0 1). Este ma puţn senztvă decât scala drecţonală, permte doar dferenţerea asocere neasocere, fără a specfca sensul asocer. Pentru varablele asocate puternc nu se poate precza tpul de asocere. Este specfcă varablelor nomnale. Atrbutul PRE (Proportonal Reducton n Error) reducerea proporţonală a eror, se referă la îmbunătăţrea prognoze valorlor varable dependente atunc când se cunoaşte valoarea varable ndependente. Se defneşte ca măsură a canttăţ cu care cunoaşterea varable ndependente măreşte corecttudnea predcţe în raport cu o "ghcre" pură (bazată doar pe cunoaşterea repartţe varable dependente): PRE= Eroarea folosnd doar varabla dependentă Eroarea folosnd varabla ndependentă Eroarea folosnd doar varabla dependentă Se poate gând PRE ca varanţa explcată de varabla ndependentă. Asocerea între două varable nomnale (caltatve) Fe două varable dscrete nomnale, X ş Y, având r ş, respectv, s categor. Se consderă că datele expermentale măsurate într-un eşanton de volum n sunt prezentate în tabelul de frecvenţe încrucşate:
Y 1 Y j Y s Total X 1 n 11 n 1j n 1s n 1* X n 1 n j n s n * X r n r1 n rj n rs n r* Total n *1 n *j n *s n unde n * reprezntă totalul frecvenţelor de pe lna, ar n *j este suma frecvenţelor de pe coloana j. Se consderă că varablele X ş Y sunt ndependente emprc, dacă are loc relaţa n n j nj =,( ), j n care exprmă faptul că lnle (coloanele) sunt proporţonale, dec proflele-ln sunt egale (ca ş proflele-coloane). Se poate demonstra că, în aceste condţ, proporţa elementelor clasate Y j este aceeaş între elementele clasate X ca ş între elementele neclasate X (elementele non X ). Între nvelurle X ş Y j exstă o asocere poztvă dacă n j > (n * n *j ) / n (adcă în celula j exstă o frecvenţă ma mare decât în populaţe); exstă o asocere negatvă dacă n j < (n * n *j ) / n (adcă în celula j exstă o frecvenţă ma mcă decât în populaţe). Se adoptă ca măsură a asocer (globale) mărmea (Pearson) n* n* j n j d (sau χ n ) =, j n* n* j n sau n d j = n 1. j n* n* j Indcatorul χ (numt ndcator al contngenţe pătratce) nu este măsurat pe o scală 0-1 ş dn acest motv, neîncadrându-se în teora generală a ndclor de asocere, nu poate f utlzat cu bune rezultate pentru comparaţ. Au fost propuş atunc o sere de alţ ndc, (dervaţ dn χ ): φ = χ n, ndcator al contngenţe pătratce med (Pearson) χ C = n + χ, coefcentul contngenţe pătratce med (Pearson) T = φ ( s 1)( t 1), coefcentul lu Cuprov V = φ, coefcentul lu Cramer. mn{( s 1),( r 1)}
Semnfcaţa statstcă a asocer: Se poate utlza canttatea χ pentru a testa asocerea evdenţată de datele de sondaj. Testul de asocere χ are potezele: H 0 : varablele X ş Y nu sunt asocate; H 1 : varablele X ş Y sunt asocate. Se demonstrează că în condţle poteze H 0, varabla χ, calculată ma sus, este repartzată χ cu un număr de grade de lbertate egal cu (r 1)(s 1), χ ~ χ (r-1)(s-1), ceea ce permte efectuarea unu test statstc. Lmte de aplcare. Pentru a aplca testul trebue ca nu ma mult de 0% dntre celule să abă ma puţn de 5 elemente. Asocerea datelor ordnale Datortă faptulu că scalele de măsură ordnale au defntă ordnea între categor (clase), coefcenţ de asocere sunt drecţonal, adcă măsuraţ pe o scală ( 1 0 +1). Coefcentul de corelaţe a rangurlor (Spearman) r s Acesta este o măsură PRE ş este drecţonală. Se utlzează atunc când observaţle cuprnd valor ale unor varable ordnale, structurate ca în tabelul următor: Observaţa varabla 1 varabla 1 v 11 v 1 v 1 v n v 1n v n Se începe prn a atrbu rangur valorlor fecăre varable, separat, cu tratarea stuaţle de ex-aequo. Se obţne astfel Observaţa rangur varabla 1 rangur varabla 1 r 11 r 1 (r 11 -r 1 ) r 1 r (r 1 -r ) n r 1n r n (r 1n -r n ) Formula de defnţe a coefcentulu de corelaţe a rangurlor este r s = 1 6 d. n( n 1) Testarea semnfcaţe coefcentulu r s calculat este bazată pe statstca n τ = rs, 1 r s d
care, în poteza nulă, H 0 : ρ s = 0, urmează o dstrbuţe Student cu ν = n grade de lbertate. Se va respnge H 0 în favoarea une poteze alternatve, drecţonale sau nu, prn procedura uzuală a unu test bazat pe repartţa Student. Coefcentul de corelaţe a rangurlor nu este adecvat pentru scale ordnale cu puţne categor (5 7) care dau, de regulă, multple cazur de egaltate. În asemenea stuaţ se utlzează coefcentul γ, defnt în contnuare. Coefcentul γ Acest ndcator este bazat tot pe atrburea de rangur valorlor celor două varable ordnale, dar pleacă de la deea: cunoaşterea ordn a două rangur pentru varabla ndependentă poate prezce ordnea rangurlor pentru varabla dependentă? Răspunsul ar trebu să fe afrmatv pentru varable asocate, orce abatere de la acest răspuns trebue să conducă la deea de ndependenţă (lpsă de asocere) între cele două varable. Coefcentul γ este o măsură PRE pe o scală drecţonală ş se defneşte prn γ = f f a a unde f a este numărul de agremente (potrvr), f este numărul de nversun, spunând că r 1 r r 1j r j se potrvesc dacă ordnea este aceeaş în cele douăcoloane ş că are loc o nversune dacă ordnea este schmbată. Semnfcaţa lu γ poate f testată prn utlzarea une formule aproxmatve (aplcablă pentru n 10) z = γ f f + f a n(1-γ ) care, în poteza H 0 : γ = 0, este o varablă normală redusă ş se poate aplca un test bazat pe repartţa normală standard. Asocerea datelor contnue (de nterval) În domenul datelor contnue, asocerea varablelor este, de regulă, studată sub denumrea de corelaţe (denumre care a fost ntrodusă ş la coefcentul de corelaţe a rangurlor, pentru date ordnale). Se pot dstnge două mar drecţ în acest studu: calcularea unu ndcator al asocer (corelaţe) estmarea unu model funcţonal care să repreznte asocerea dntre varable (analzat în cursurle dedcate tematc modelulu lnar). Coefcentul de corelaţe (lnară) Pentru a evalua exstenţa une asocer ş ntenstatea asocer, se utlzează coefcentul de corelaţe, notat r. Acesta este măsurat pe o scală drecţonală de la 1 la +1 ş are atrbutul PRE. Coefcentul de corelaţe este defnt prn r = ( x + f X )( y ( ( x X ) )( ( y Y ) ) Y ),
exstând, evdent, ş alte formule echvalente. Canttatea r obţnută pe baza unu eşanton este, în sprtul dscuţe de până acum, o estmare a coefcentulu de corelaţe ρ dn populaţe. Semnfcaţa coefcentulu de corelaţe poate f testată utlzând un test Student. În aplcarea testulu se presupune (este cerut) că împrăşterea valorlor Y este unformă după valorle lu X (propretatea de homoscedastctate). În plus, exstă ş poteze dstrbuţonale de normaltate a varablelor X ş Y. Statstca testulu este n t = r. 1 r În poteza H 0 : ρ = 0, statstca t este repartzată Student cu n- grade de lbertate. Se respnge H 0 în favoarea poteze alternatve nedrecţonale H 1 : ρ 0, dacă t > t 1-α/;n-. Se pot consdera ş teste unlaterale, după procedura generală a testelor bazate pe dstrbuţa Student. B. Instrumente Excel, SPSS Excel Coefcentul de corelaţe dntre două varable poate f calculat prn funcţa CORREL(Array1,Array), unde Array1, Array sunt, respectv, zonele care conţn valorle celor două varable (trebue să abă, evdent, acelaş număr de valor). Pentru a calcula matrcea de corelaţe (dec sunt mplcate ma mult de două varable) se utlzează procedura CORRELATION dn Tools - Data Analyss. Observaţe. Nu sunt dsponble prelucrăr specfce pentru asocerea varablelor nomnale sau ordnale, acestea trebund să fe realzate prn funcţle ş operaţle posble în Excel. CORRELATION Este procedura care calculează coefcenţ de corelaţe lnară, cunoscuţ ş drept coefcenţ de corelaţe Pearson. Varablele mplcate sunt varable contnue (de nterval). În cazul când exstă un număr sufcent de mare de valor ş de rangur posble, procedura poate f utlzată ş pentru calculul coefcenţlor de corelaţe a rangurlor (Spearman). Dalogul de nţere a procedur Correlaton este prezentat în fgura alăturată. Input Input Range se preczează domenul datelor de ntrare. Acesta trebue să fe o zonă compactă dntr-o foae de calcul. Grouped By se selectează butonul corespunzător modulu de înscrere a valorlor une varable: Columns pentru varable pe coloane, Rows pentru varable pe lne. Labels n Frst Row se marchează dacă prma lne (cazul Columns) sau prma coloană (cazul Rows) conţne denumrle varablelor.
Output optons Output Range, New Worksheet Ply, New Workbook Preczează zona unde se vor înscre rezultatele. Zona de rezultate cuprnde un tabel pătratc cu coefcenţ de corelaţe între toate perechle de varable dn domenul de ntrare. Deoarece tabloul este smetrc faţă de prma dagonală, se afşează doar partea nferoară (stânga-jos). Dn păcate, în Excel nu este raportată semnfcata acestor coefcenţ de corelaţe, cu alte cuvnte nu se raportează nformaţle necesare verfcăr poteze de nultate a coefcenţlor. Testarea semnfcaţe coefcenţlor se poate efectua prn apelarea, în foaa de calcul Excel, a funcţlor necesare, după modelul următor, în care se verfcă H 0 : coefcentul de corelaţe dntre varable este egal cu zero H 1 : coefcentul de corelaţe dntre varable este dfert de zero Se calculează transformata Fsher a coefcentulu de corelaţe r calculat prn utlzarea funcţe fsher() dn Excel: într-o celulă neutlzată se tastează =fsher(refernţa la celula unde este coefcentul de corelaţe) Se obţne rezultatul calcululu: 1 1+ r z = ln 1 r Cu această valoare se calculează ntervalul aproxmatv de încredere cu lmtele 1 1 z 1 = z z 1 α ş z = z + z 1 α n 3 n 3 Observaţe. Calculul une lmte, de ex, z 1, se efectuează cu formula Excel = refernţa la celula unde este z 1/sqrt(n-3)*normsnv(1-α/) O metodă alternatvă, pentru poteza nulă a unu coefcent egal cu 0, este utlzarea unu test t bazat pe statstca, dată drect ca o formulă Excel: = r/sqrt(1-r^)*sqrt(n ) unde r semnfcă valoarea, sau refernţa la coefcentul de corelaţe testat, ar n este valoarea sau refernţa la volumul eşantonulu. Pentru a obţne, în Excel, probabltatea crtcă blaterală se utlzează formula =tdst(abs(t),n-,) în care t poate f înlocut drect cu expresa de calcul corespunzătoare: =tdst(abs(r/sqrt(1 r^)*sqrt(n-)),n-,) unde r ş n au semnfcaţle preczate anteror. RANK AND PERCENTILE Această procedură realzează atrburea de rangur valorlor une varable. Se obţn atât rangur ordnale descrescătoare cât ş rangur centlce. Rangurle ordnale sunt atrbue descrescător: valoarea maxmă are rangul 1, următoarea ma mcă are rangul etc. Cazurle de ex-aequo sunt tratate prn atrburea prmulu rang dsponbl tuturor cazurlor dn aceeaş categore. Reamntm că o procedură ma des utlzată este aceea a atrbur rangulu medu tuturor valorlor egale. Rangul centlc al une valor este exprmat procentual după formula număr de valor Rang depăşte centlc = 100 %, n-1 unde n este volumul eşantonulu. La baza aceste formule este presupunerea că rangurle sunt dstrbute unform (ceea ce nu este adevărat pentru datele ordnale
unde rangul este o smplă convenţe), cele n rangur posble (= numărul de observaţ) separă (n 1) ntervale de lungm egale ş se calculează atunc cât la sută dn aceste ntervale (sau dn domenul rangurlor) este sub valoarea pentru care se calculează rangul centlc. De remarcat că sunt utlzate ş alte formule (cu rezultate uşor dferte) pentru calculul rangulu centlc, formule bazate pe rangul medu atrbut valorlor egale. În general, asemenea formule sunt utlzate pentru eşantoane relatv mc, pentru care erorle estmaţlor sunt mar ş dec utlzarea une formule sau a altea nu ne scoate dn lmtele de sguranţă acceptate. Calculele sunt efectuate pentru toate varablele prezente în domenul preczat ca ntrare, datele trebund să fe organzate într-un domenu dreptunghular contnuu. În fgură se prezntă dalogul Rank and Percentle, parametr care trebue să fe specfcaţ sunt doar de localzare a ntrărlor ş eşrlor ş sunt explcaţ în contnuare. Input Input Range, Grouped By, Labels n Frst Row Se specfcă domenul de ntrare, modul de organzare a varablelor (pe coloane sau pe ln) ş faptul dacă exstă denumr în domenul ndcat. Pentru o descrere ma pe larg a câmpurlor se va vedea zona Input de la Descrptve Statstcs. Output optons Output Range, New Worksheet Ply, New Workbook Fxează zona unde se vor înscre rezultatele. Dalogul Rank and Percentle Exemplu Rezultatele unu apel la procedura Rank and Percent, stuaţa lustrată este pur ddactcă, sunt structurate după cum urmează. Prmele două coloane conţn datele de sondaj. Aplcarea procedur pentru varabla
Scorur produce rezultatele dn coloanele D G. Prma coloană, Pont, prezntă numerele de ordne nţale ale valorlor. Coloana a doua, Scorur, este ordonarea descrescătoare a valorlor. Coloana a trea conţne rangurle ordnale atrbute valorlor. Se observă că valorle egale cu 15, care ar avea rangurle 4 ş 5, prmesc ambele rangul 4 ar rangul 5 nu ma este atrbut (următoarea valoare are rangul 6). Coloana a patra conţne rangurle centlce, calculate după formula preczată. Astfel valoarea 18, cu rangul 3, depăşeşte 3 valor. Cum n = 6 se obţne un rang centlc egal cu 3/(6 1), adcă de 60%. Aceasta valoare poate f înţeleasă potrvt fgur următoare: Se vede că valoarea 18 are în dreapta e, dec valor ma mc ordnea este valor 7 3 18 15 15 1 rangur 1 3 4 5 6 60% descrescătoare, tre segmente dn totalul de 5, adcă 60% dn dstrbuţe. Analog, valoarea 15 depăşeşte segmente dn 5, dec 0% etc. SPSS Pentru a calcula coefcenţ de corelaţe dntre varable de nterval sau ordnale se dă comanda Analyze > Correlate > Bvarate Se afşează dalogul Bvarate Correlatons în care se fxează varablele care sunt analzate ş tpul de coefcent de corelaţe calculat: Pearson, Spearman precum ş testul de semnfcaţe dort. Prn dalogul Optons se pot selecta anumte statstc elementare dorte în rezultat ca ş modul de tratare a observaţlor lpsă.
Ca rezultat se obţne, în prncpal, matrcea de corelaţe între varablele selectate pentru analză. O celulă a tabelulu conţne valoarea coefcentulu de corelaţe, probabltatea crtcă a testulu de semnfcaţe ş numărul de valor reţnute pentru calcul (după tratarea cazurlor lpsă). Potrvt procedur de decze într-un test statstc, se respnge poteza une corelaţ nule dacă probabltatea crtcă este ma mcă sau egală cu pragul de semnfcaţe ales. Corelaţle semnfcatve pot f marcate automat cu * (α=0,05) sau ** (α=0,01) prn selectarea opţun Flag sgnfcant correlatons dn dalogul prncpal. Pentru cazul varablelor dscrete, se poate consulta tabelul următor care conţne o sstematzare a coefcenţlor de asocere defnţ (e sunt calculaţ ş de SPSS), tabel adaptat după tabelul smlar dn http://demography.anu.edu.au/publcatons/sda-course-notes/sec03.htm. Denumrle statstclor sunt păstrate pentru a f recunoscute în dalogurle specalzate. Coefcent Statstcă Coefcenţ bazaţ pe χ Varabla dependentă Varabla ndependentă CHISQ Ch-square Orce tp Orce tp Observaţ PHI Ph sau Cramer's V Orce tp Orce tp Ph se utlzează de obce pentru tabele CC Contngency coeffcent Orce tp Orce tp Coefcenţ bazaţ pe reducerea proporţonală a eror LAMBDA Lambda Orce tp Orce tp UC Uncertanty coeffcent Orce tp Orce tp Statstc pentru varable ordnal BTAU Kendall tau-b Ordnal Ordnal CTAU Kendall tau-c Ordnal Ordnal Se recomandă BTAU
GAMMA Gamma Ordnal Ordnal Se recomandă BTAU D Somer's d Ordnal Ordnal Alţ coefcenţ KAPPA Kappa Nomnal Nomnal Tabele pătratce de frecvenţe RISK Relatve rsk Interval Orce tp ETA Eta Interval Orce tp CORR Correlaton Interval Interval Cazul varablelor dscrete, nomnale în specal, este analzat în dalogul afşat de comanda Analyze > Descrptve Statstcs > Crosstabs. Dn dalogul afşat, care produce calculul frecvenţelor încrucşate pentru două varable dscrete, se acţonează butonul Statstcs, afşându-se dalogul dn care se selectează ndcator de asocere dorţ. Rezultatul afşat va nclude ş testele de semnfcaţe adecvate. Pentru explcaţ suplmentare prvnd coefcenţ de asocere consderaţ în dalog, se poate studa următorul document prvnd asocerea varablelor dscrete: http://www.nfoas.ro/~val/statstca/asocvardsc.pdf C. Lucrarea practcă 1. Să se genereze în Excel două şrur de numere dntr-o repartţe unformă. a) Să se calculeze coefcentul de corelaţe între cele două varable astfel construte. Să se nterpreteze rezultatul ş să se verfce concordanţa cu reprezentarea grafcă adecvată. b) Să se repete generarea de numere ş să se testeze semnfcaţa statstcă a coefcentulu de corelaţe în fecare caz. c) Pentru o generare de numere, să se calculeze coefcentul de corelaţe a rangurlor (Spearman).. Să se deschdă în SPSS fşerul Unversty of Florda graduate salares.sav dn fşerele de test care însoţesc aplcaţa SPSS.
a) Să se studeze asocerea (ndcator χ, φ, C) dntre varablele dscrete gender ş college. Prn agregare de categor, sau elmnarea categorlor cu frecvenţe mc, să se aducă datele în stuaţa în care se poate aplca χ. b) Să se studeze asocerea dntre varablele graduaton date ş gender. c) Să se studeze asocerea gender ş salary: prn test t prn dscretzare ş χ. 3. Să se deschdă fşerul World95.sav dn fşerele de test care însoţesc aplcaţa SPSS. a) Să se calculeze ş să se nterpreteze matrcea de corelaţe dntre varablele contnue. b) Să se compare corelaţle semnfcatve calculate pentru: global (toate datele), pe relg predomnante, pe regun.