KORELACIJA Za brojne pojave u svijetu koji nas okružuje možemo primijetiti da su na neki način povezane: što više učimo, to nam je bolji uspjeh na ispitu; što više zarađujemo, više i trošimo; što više tekućine konzumiramo tijekom dana, to češće mokrimo; što su osobe starije, slabiji im je sluh itd. Često se govoreći o povezanosti susrećemo s pojmom korelacija, pogotovo u području statistike. Korelacija govori o stupnju međusobne povezanosti, sukladnih promjena različitih pojava (varijabli). Asocijacija među varijablama znači da je veličinu jedne varijable moguće predvidjeti na temelju poznavanja veličine druge varijable. Najpoznatije vrste koeficijenta korelacije su: - Pearsonov koeficijent korelacije ili Produkt-moment koeficijent korelacije. To je najpoznatiji koeficijent, a označava se s r (malo slovo r), - Spearmanov koeficijent korelacije ili koeficijent rang korelacije. Označava se malim grčkim slovom ro (). Pogodan je ako varijable ne daju simetričnu raspodjelu, ako su podaci izraženi u obliku ranga i ako je broj podataka relativno mali (30 i manje), Koeficijenti korelacije mogu se kretati od -1 do +1. Negativni predznak koeficijenta korelacije znači da su dvije varijable povezane tako da ako je jedna varijabla u porastu, druga pada. Npr. što više vježbamo, to je naš BMI manji. Pozitivan predznak znači da se obje varijable kreću u istom smjeru, npr. što se više bavimo nekom aerobnom aktivnošću, to će nam kapacitet pluća biti veći. Krajnje vrijednosti, +1 i -1 označavaju maksimalnu povezanost dviju varijabli, dakle, jedna određena vrijednost u prvoj varijabli povezana je samo s jednom vrijednošću u drugoj varijabli. U takvim slučajevima prognoza iz jedne varijable u drugu je potpuna. No, u živom svijetu rijetko kada srećemo potpune korelacije jer većinu obilježja kod živih bića "krasi" veći ili manji varijabilitet. Povezanosti koje možemo zapaziti kod živih bića jesu takve da je najčešće jedna vrijednost u prvoj varijabli povezana s nekoliko vrijednosti u drugoj varijabli. Ako pogledamo ljude koji su visoki m, oni mogu biti različite težine, ali će se njihove težine ipak kretati u određenom intervalu (npr. od 5 do 10 kg) jer su viši ljudi u prosjeku i teži. No, odnos visine i težine nije savršen jer se vjerojatno svatko od vas može sjetiti dviju osoba od kojih jedna ima veću visinu, a manju težinu od ove druge, pa zato povezanost tih dviju varijabli nikada nije potpuna. 1
Ako iz određene vrijednosti jedne varijable ne možemo ništa zaključiti o vrijednosti u drugoj varijabli, tj. ako jednoj određenoj vrijednosti jedne varijable odgovara bilo koji rezultat u drugoj varijabli (npr. odnos između boje kose i sedimentacije krvi), onda nema korelacije između dviju pojava, i to se bilježi izrazom r = 0. U ovim vježbama bavit ćemo se samo izračunavanjem ro koeficijenta rang korelacije. Formula za njegovo izračunavanje je sljedeća: 6 D 1 N N Osim toga, potrebno je nakon računa za rang korelaciju, odrediti je li ta povezanost statistički značajna ili nije, i to na sljedeći način: 1 t N 1 Broj stupnjeva slobode računa se df = N-, pri čemu N znači broj parova. Kada izračunamo t, uspoređujemo ga s graničnim vrijednostima uz dobivene stupnjeve slobode u tablici za t-test. Svakako treba imati na umu da utvrđena povezanost ne jamči da su promatrane varijable i u kauzalnom odnosu. Drugim riječima, dvije pojave mogu biti visoko povezane, a da pri tom jedna drugoj nisu uzrok, već je njihova korelacija uvjetovana nekim trećim čimbenikom. Npr. možemo utvrditi jako visoku povezanost između mjerenja s dva različita (ispravna) tlakomjera: koliki tlak pokazuje prvi tlakomjer, otprilike toliki pokazuje i drugi, no to ne znači da je mjerenje prvim tlakomjerom uzrok rezultata na drugom tlakomjeru, već su oba rezultata uvjetovana trećim faktorom, a to je krvni tlak pojedinca. ZADACI 1) Računajući rang korelaciju (Ro) utvrdite postoji li povezanost između težine i dobi djece smještene na jednom odjelu: Pacijent 1.. 3. 4. 5. 6. 7.. 9. Težina 4 6 3 35 31 3 7 5 Dob 7 10 10 11 9 6
Kako bi izračunali rang korelaciju, potrebno je prvo rezultate rangirati od najmanjeg do najvećeg. Možemo i obrnuto, samo je važno da ako u prvoj varijabli najvećem rezultatu dodijelimo rang 1, da tako moramo napraviti i s drugom varijablom. Dakle, napravimo nove stupce za rangove, te upisujemo rang vrijednosti tako da pored najmanjeg rezultata upišemo 1, pored sljedećeg po redu rang, i tako redom do zadnjeg rezultata. Najveći rang trebao bi biti jednak ukupnom broju rezultata. No, može nam se dogoditi da imamo dva jednaka rezultata, pa ćemo u tom slučaju izračunati tzv. vezane rangove. U našem primjeru imamo dvoje djece koja su jednako stara, oboje imaju po 10 godina, i to su rezultati koji bi trebali zauzeti. i 3. mjesto. Kako bi ta dva rezultata jednako tretirali, dodijelit ćemo im prosjek tih dvaju mjesta, pa će uz oba pisati,5. Kada nastavljamo dalje, treba voditi računa da smo potrošili i drugi i treći rang, te će sljedeći rezultat (u ovom slučaju 9) zauzeti četvrto mjesto. Čak troje djece ima godina, a ti rezultati trebali bi zauzimati peto, šesto i sedmo mjesto, te ćemo im dodijeliti prosjek (aritmetičku sredinu) tih triju mjesta. Uz svaku osmicu upisat ćemo rang 6. Nakon rangiranja, potrebno je utvrditi razliku između rangova, te dobivene razlike kvadrirati. Taj posljednji stupac zbrojimo, i zbroj uvrstimo u formulu. Nakon što smo dobili ro, potrebno je još odrediti je li povezanost statistički značajna ili nije. Pacijent Rang Y Rang Težina (kg) dob Y D D 1. 4 6-4. 4 6 4 3. 6 6 7-4 4. 3 10.5-0.5 0.5 5. 35 1 10.5-1.5.5 6. 31 3 11 1 4 7. 3 9 6 3 9. 7 5 9 4 1 1 9. 5 7 6 9-4 ΣD =3.5 6 ΣD 6 3.5 N( N -1) 9( 1-1) 195 70 0.7 = 0.79 = 0.73. 9 - t = 0.73 1-0.73 = 0.73 7 1-0,539 = 0,73 7 0,4671 = 0.73 14.939 =.. 3
= 0.73 t =. df= N-=7 Granični t (5%) =.36 Granični t (1%) = 3.50 P<0.05 Korelacija između dobi i težine djece visoka je, pozitivna i statistički je značajna uz rizik manji od 5%. Što su djeca starija, to u prosjeku imaju veću težinu. ) Računajući rang korelaciju utvrdite postoji li povezanost između broja bodova dobivenih na tečaju higijenskog minimuma () i ocjene higijene objekta (Y) na skali od 1 do 6, kod polaznika. Polaznik 1.. 3. 4. 5. 6. 7.. Bodovi na tečaju Higijena objekta 0 40 35 30 3 4 4 3 1 4 5 6 6 3 3) Računajući Spearmanov koeficijent korelacije utvrdite postoji li povezanost između količine alkohola u krvi i vremena reakcije vozača: Polaznik 1.. 3. 4. 5. 6. 7.. 9. 10. Alkohol u krvi Vrijeme reakcije 0, 0,4 0, 1,0 1,5 0,1 0,6 0,1 0,9 1, 0, 1, 3 3 0,9 0,4 0,5 1 4) Medicinsku sestru jednog odjela zanimalo je kolika je povezanost između triglicerida u krvi (mg/dl) i tzv. lošeg kolesterola (mmol/l) za 10 pacijenata. Izračunajte koeficijent korelacije. Pacijent 1.. 3. 4. 5. 6. 7.. 9. 10. Trigliceridi 150 155 170 170 130 10 140 300 0 160 Ldl kolesterol 3,1 3,0 3,0 3,, 4,0,4 4,5 3,,9 5) Izračunajte koeficijent korelacije između gubitka krvi u dl (), i dijastoličkog krvnog tlaka (Y) za pacijenata. Pacijent 1.. 3. 4. 5. 6. 7.. Bodovi na tečaju Higijena objekta 3,0 4,5 3,5 4,0 3,0 4,5 4,0 5,0 75 3 6 7 73 7 94 6 4
RJEŠENJA ) Računajući rang korelaciju utvrdite postoji li povezanost između broja bodova dobivenih na tečaju higijenskog minimuma () i ocjene higijene objekta (Y) na skali od 1 do 6, kod polaznika. Polaznik Bodovi na tečaju Y Higijena objekta Rang Rang Y D D 1. 0 3 6 5.5 0.5 0.5. 1 7-1 1 3. 40 4 4-4 4. 35 5 3 3 0 0 5. 30 5 7-4 6. 3 6 4 1.5.5 6.5 7. 4 6 1 1.5-0.5 0.5. 4 3 5.5.5 6.5 ΣD =.00 6 ΣD N N -1 6-1 ( ) ( ) 13 504 0.619= 0.73 = 0.74 t = 0.74 -.449 = 0.74 1-0.5476 0.67 =.7. = 0.74 Dobiveni t =.7 df= N-=6 Granični t (5%) =.45 Granični t (1%) = 3.71 P<0.05 Dobiveni koeficijent korelacije visok je, pozitivan i statistički je značajan uz rizik manji od 5%: što je polaznik postigao više bodova na tečaju, to je higijena objekta koji vodi veća. 3) Računajući Spearmanov koeficijent korelacije utvrdite postoji li povezanost između količine alkohola u krvi (g/kg) i vremena reakcije (u sekundama) vozača: Ispitanik alkohol u krvi Y vrijeme reakcije Rang Rang Y D D 1. 0, 0, 0 0. 0,4 1, 7 5 4 5
3. 0, 5 3.5 1.5.5 4. 1,0 3 3 1.5 1.5.5 5. 1,5 3 1 1.5 0.5 0.5 6. 0,1 0,9 9.5 7.5 6.5 7. 0,6 0,4 6 10-4 16. 0,1 0,5 9.5 9 0.5 0.5 9. 0,9 1 4 6-4 10. 1, 3.5-1.5.5 ΣD = 37.5 6 ΣD 6 37.5 N N -1 1010-1 ( ) ( ) 5 990 0.7 = 0.773 = 0.77 t = 0.77 1-0.599 = 0.77 0.4075 = 0.77 19.63 = 0.77 4.43 = 3.41. = 0.77 Dobiveni t = 3.41 df= N- = Granični t (5%) =.31 Granični t (1%) = 3.36 P<0.01 Povezanost između količine alkohola u krvi i vremena reakcije značajna je uz rizik manji od 1%. Povezanost je pozitivna i visoka: što je veća koncentracija alkohola u krvi, to je vrijeme reakcije duže. 4) Medicinsku sestru jednog odjela zanimalo je kolika je povezanost između triglicerida u krvi (mg/dl) i tzv. lošeg kolesterola (mmol/l) za 10 pacijenata. Izračunajte koeficijent korelacije. Y Rang Rang Pacijent D D Trigliceridi Ldl kolesterol Y 1. 150 3,1 3 6 3 9. 155 3,0 4 4,5 0,5 0,5 3. 170 3,0 6,5 4,5 4 4. 170 3, 6,5 7 0,5 0,5 5. 130, 1 1 1 6. 10 4,0 9 1 1 7. 140,4 1 1 1. 300 4,5 10 10 0 0 9. 0 3, 9 1 1 10. 160,9 5 3 4 ΣD = 1,5 6
6 ΣD N N -1 ( ) 6 1,5 19 10 99 990 0.13 = 0.7 t = 0.7 1-0.7569 = 0.7 0.431 = 0.7 3.91 = 0.7 5.74 = 4.99 = 0.7 Dobiveni t = 4.99 df= N- = Granični t (5%) =.31 Granični t (1%) = 3.36 P<0.01 Utvrđena pozitivna povezanost između količine triglicerida i ldl kolesterola u krvi visoka je, pozitivna i statistički značajna uz rizik manji od 1%. Što pacijenti imaju više triglicerida, to je i prisutnost ldl kolesterola veća. 5) Izračunajte koeficijent korelacije između gubitka krvi u dl (), i dijastoličkog krvnog tlaka (Y) za pacijenata. 6 ΣD N N -1 Y Rang Rang Pacijent Gubitak krvi Dij. krvni tlak D D Y 1. 3.0 75 7.5 6 1.5.5. 4.5 3.5 4-1.5.5 3. 3.5 6 6-4 4. 4.0 7 4.5 5-0.5 0.5 5. 3.0 73 7.5 7 0.5 0.5 6. 4.5 7.5 0.5 0.5 7. 4.0 94 4.5 1 3.5 1.5. 5.0 6 1 3-4 ( ) 6 5.5 153 63 504 0.3036 = 0.696 = 0.7 ΣD =5.5 t = 0.7 6 1-0.49 = 0.7 6 0.51 = 0.7 11.765 = 0.7 3.43 =.4. = 0.7 Dobiveni t =.4 df= N- = 6 Granični t (5%) =.45 Granični t (1%) = 3.71 P>0.05 Koeficijent korelacije između gubitka krvi i dijastoličkog krvnog tlaka nije statistički značajan, iako je korelacija visoka (i pozitivna). No, taj koeficijent korelacije ne treba odmah apriori odbaciti kao 7
neznačajan, jer je dobiveni t vrlo blizu graničnom t uz 0.05. S obzirom da je broj ispitanika vrlo mali, vjerojatno bi na većem uzorku (uz isti trend rezultata) dobili značajnu povezanost. PONOVIMO: Korelacija nam govori o stupnju povezanosti različitih pojava. Vrijednost koeficijenta korelacije može se kretati od -1 do +1. Negativni predznak znači da ako jedna varijabla raste, druga pada, a pozitivni predznak znači da se obje varijable kreću u istom smjeru. Maksimalna povezanost dviju varijabli (vrijednost 1) znači da je jedna određena vrijednost u prvoj varijabli povezana samo s jednom vrijednošću u drugoj varijabli. Rezultat 0 ili blizak nuli znači da nema povezanosti između dviju pojava. Ako utvrdimo da su dvije pojave značajno povezane, to nam ne jamči da su one i uzrok jedna drugoj. LITERATURA: 1. Howell, D.C. (199) Fundamental Statistics for the Behavioral Sciences. Boston: PWS-Kent.. Petz, B. (1997) Osnovne statističke metode za nematematičare. Jastrebarsko: Naklada "Slap". 3. http://www.surveysystem.com/correlation.htm preuzeto 15.0.010. 4. http://www.statsoft.com/textbook/basic-statistics/ preuzeto 15.0.010. NAPOMENE: Svi podaci u ovim zadacima izmišljeni su za potrebe vježbi studenata i ne predstavljaju stvarno stanje u navedenim populacijama. U zadacima točni rezultati mogu biti i oni koji donekle odstupaju od navedenih rezultata, uslijed rada s drukčijim brojem decimalnih vrijednosti. Zadnja promjena 5.10.017.