6. Aldagai kualitatibo baten eta kuantitatibo baten arteko harremana GAITASUNAK Gai hau bukatzerako ikaslea gai izango da: - Batezbestekoaren estimazioa biztanlerian kalkulatzeko. - Proba parametrikoak erabiltzeko baldintzak kontutan hartzeko. - Student-en t proba parametrikoa erabiltzeko baldintzak aplikatzeko eta probaren emaitzak interpretatzeko. - Bariantzaren analisia proba parametrikoa erabiltzeko baldintzak aplikatzeko eta probaren emaitzak interpretatzeko. - Mann Whitney-ren proba EZ-parametrikoa erabiltzeko baldintzak aplikatzeko eta probaren emaitzak interpretatzeko. - Krusskall Wallis-en proba EZ-parametrikoa erabiltzeko baldintzak aplikatzeko eta probaren emaitzak interpretatzeko. - Normaltasuna. Kolmogoroff Smirnoff - Homozedastizitatea. Levene. - Student-en t. Mann Wathney-n U - ANOVA.. Krusskall Wallis. 0. Sarrera Aldagai kualitatibo baten artean eta aldagai kuantitatibo baten artean harremana dagoen ikusteko hainbat proba estatistiko erabili daitezke, hiru baldintzen arabera: - Zenbat kategoriatan banatzen da aldagai kualitatiboa. - Normaltasuna - Homozedastizitatea. Aldagai kualitatiboak izan ditzake: - 2 kategoria. Orduan erabiliko dugu Student-en t edo Mann Whitney-n U. - 2 kategoria baino gehiago: Bariantzaren analisia (ANOVA) edo Krusskall Wallis. Aipatutako lau proben artean, batzuk parametrikoak dira ( Student-en t eta ANOVA ) eta besteak ez parametrikoak dira (Mann Whitneyn U eta Krusskall Wallis ). Proba parametrikoak potenteagoak dira eta informazio gehiago lortzen laguntzen digute. Halere, exigenteagoak direla esaten da, hau da, erabili ahal izateko baldintzak eskatzen dituzte. Bi dira erabili ahal izateko eskatzen diren baldintzak. 1
- Normaltasuna. - Homozedastizitatea. Ez badira biak betetzen, ezingo dugu proba parametrikorik erabili eta orduan proba ezparametrikoa erabiliko dugu. - Normaltasuna: Aldagai kuantitatiboa normalki banatzen den aldagai kualitatiboaren kategoria ezberdinetan. Aldagai kualitatiboak bi kategoria baditu, kategoria bakoitzaren histograma eraikiko dugu aldagai kuantitatiboarekin eta ikusiko dugu normalki banatzen den aldagai kuantitatiboa bi banaketa horietan. Aldagai kualitatiboak hiru kategoria baditu, hiru banaketak normalki banatzen diren ikusiko dugu. Normaltasunaren baldintza betetzen da, aldagai kualitatiboaren kategoria guztietan, banaketa normala bada. - Homozedastizitatea Aldagai kualitatiboaren kategoria ezberdinetan eginiko banaketek bariantza berdintsua izatean datza.. Beraz, egin beharrekoa zera da: - Aurrena, aldagai kualitatiboaren kategoria guztietan, aldagai kuantitatiboaren banaketa egin (maiztasun histograma). - Bigarrena, banaketa horiek normalki banatzen diren ikusi. - Hirugarrena, banaketa normal horiek bariantza berdintsua duten ikusi Normaltasuna eta homozedastizitatea ikusteko proba estatistiko bereziak daude: - Normaltasuna: Kolmogoroff Smirnoff-en proba. - Homozedastizitatea: Levene-n proba. Proba horien hipotesi nuluak: - Kolmogoroff Smirnoff-en proba: banaketa normala da - Levene-n proba: bariantzak berdintsuak dira. Normaltasunaren proba bat egingo dugu aldagai kualitatiboaren kategoria bakoitzarentzat. Leven-en proba bakarra egingo dugu banaketa guztien bariantzak berdintsuak diren ikusteko. 2
Hipotesi nuluaren probabilitatea Kolmogoroff Smirnoff-en proban:: 0,05 baino handiagoa: normalki banatzen da. 0,05 baino txikiagoa: banaketa ez da normala. Hipotesi nuluaren probabilitatea Leven-en proban:: 0,05 baino handiagoa: banaketen bariantzak berdintsuak dira. 0,05 baino txikiagoa: banaketen bariantzak ez dira berdintsuak. Adb: Bi aldagaien artean harremana dagoen ikusi nahi dugu. Aldagai bat pisua da (kuantitatiboa jarraia, arrazoi eskalan neurtua) eta bestea bizi den kontinentea da (kualitatiboa politomikoa, eskala nominalean neurtua: 0 Afrika, 1 Amerika, 2 Asia, 3 Ozeania, eta 4 Europa). Aurrena, pisuaren banaketa egingo dugu kontinente bakoitzarentzat eta ikusiko dugu: - Bost banaketak normalak diren (normaltasun proba) - Bost banaketa horien bariantzak berdintsuak diren.(homozedastizitatearen proba). Bi baldintzak betetzen badira, ANOVA proba erabiliko dugu. Bi baldintzetatik gutxienez bat betetzen ez bada, Krusskall Wallis-en proba erabiliko dugu. Bi baldintzak bete behar dira ANOVA erabiltzeko. Bost banaketetatik bat bakarrik normalki ez banatzea, nahikoa da ANOVA ez erabiltzeko. Laburtuz: Kualitatiboaren kategoriak Proba parametrikoak Proba ez-parametrikoak 2 Student-en t Man Witney-n U Ho: µ1=µ2 >2 ANOVA (Bariantzaren analisia) Ho: µ1=µ2=µ3=... Krusskall Wallis 3
1. Student-en t proba. Baldintzak: - Aldagai kualitatiboak bi kategoria izatea - Aldagai kuantitatiboa aldagai kualitatiboaren bi kategoriatan normalki banatzea. - Aldagai kuantitatiboaren bi banaketek bariantza berdintsuak izatea. Baldintza hau ez da ezinbestekoa, Student-en probak zuzenketa berezia baitauka kasu horietan erabiltzeko. Student-en t proban, bi bariantzak berdintsuak ez badira, zuzenketa bat egiten du eta beraz Student-en t proba zuzendua erabili daiteke. Bi banaketak ez badira normalki banatzen, ezin da Student-en t proba erabili eta Mann Wathney-n U proba erabili beharko dugu. Hipotesi nulua: ez dago harremanik bi aldagaien artean Hipotesi nulu matematikoa: Ho: µ1=µ2 Hori beti bezala bi eratara egin daiteke: 1- Era tradizionala: Gure laginean aldagai kualitatiboaren bi kategoriek bi azpitalde osatzen dituzte. Bakoitzak bere banaketa du aldagai kuantitatiboaren balioekin eta banaketa bakoitzak bere batezbestekoa du (m 1 eta m 2 ) Ikusi behar dena zera da, µ1 en eta µ2 ren balioak (konfidantza tarte jakin batentzat), hau da biztanleriako batezbestekoak, ukitzen diren ala ez. Ez badira ukitzen, bi batezbestekoak ezberdinak dira biztanlerian eta beraz, bi aldagaien artean harremana frogatu da. Biztanleriako bi batezbestekoak ukitzen badira, ez dago harremanik bi aldagaien artean. µ 1 = m 1 + t δ m1 µ 2 = m 2 + t δ m2 4
Adibidea: Hipotesia: Helduaroan, sexuaren artean eta pisuaren artean harremana dago. Hipotesi nulua: Helduaroan ez dago harremanik sexuaren eta pisuaren artean Hipotesi nulu matematikoa. µ 1 =µ 2 Biztanleriako helduen pisuaren batezbestekoa berdina da gizonezkoen artean eta emakumeen artean: µ 1 = Pisuaren batezbestekoa biztanleriako emakume helduen artean µ 2 = Pisuaren batezbestekoa biztanleriako gizon helduen artean Laginaren emaitzak Sexua Pisuaren batezbestekoa s δ Emakumea 56,6 6,5 0,6 Gizona 71,7 8,8 1,1 Laginean argi dago gizon eta emakumeen pisua ez dela berdina, harremana dagoela sexua eta pisuaren artean. Eta biztanlerian? Biztanlerian harremana dago sexua eta pisuaren artean? Horretarako %95eko konfiantza tarteak defini ditzakegu: - µ 1 = m 1 + t δ m1 = 56,6 + 2. 0,6 = 56,6 + 1,2 = (55,4---- 57,8). - µ 2 = m 2 + t δ m2 = 71,7 + 2. 1,1 = 71,7 + 2,2 = (69,5- --73,9). Biztanleriarako egindako inferentzia horiek, %95eko konfidantza tartea dira (asmatzeko %95eko probabilitatea, huts egiteko %5eko probabilitatea). Beraz, bi konfidantza tarte horiek ez badira ukitzen esan dezakegu berdinak izateko probabilitatea %5ekoa baino txikiagoa dela (oso txikia) beraz hipotesi nulua baztertu egingo dugu. 2- Ordenagailuari hipotesi nuluaren probabilitatea eskatuz Probabilitate hori 0,05 baino txikiagoa bada, hipotesi nulua baztertzen dut. Horrek esan nahi du, bi aldagaien artean harremana dagoela (asmatzeko gutxienez %95eko probabilitatearekin). Gure adibidean: lehenengo taulan estatistiko deskribatzaileak ikusten ditugu, eta bigarrenean Student-en t proba. Taula honetan ikus daiteke nesken (sexua 0) batezbestekoa (56,6), desbideraketa tipikoa (6,5) eta batezbestekoaren akatsa estandarra (0,6). Bigarren ilaran mutilen emaitzak daude (sexua 1) (60 mutil daude, batezbestekoa (71,7), desbideraketa tipikoa (8,8) eta batezbestekoaren akatsa estandarra (1,1). 5
Froga estatistikoa ikusten badugu, Student-en t arentzat bi balio ditugu: bat bariantzak berdinak badira eta bestea ezberdinak badira. Froga hau erabiltzeko bi baldintza bete behar dira: - Pisuaren banaketa gizonengan eta emakumeengan normala izatea (kolmogoroff Smirnoff frogaren bidez jakin dezakegu). - Pisuaren banaketak gizonezkoengan eta emakumezkoengan bariantza berdintsuak ditu. Hori Leven-en frogaren bidez jakin dezakegu. Student-en t frogak Levenen froga egin eta gainera, bariantzak berdin direnen kasuarentzat eta ezberdinak diren kasuarentzat, t kalkulatu eta hipotesi nuluaren probabilitatea kalkulatzen digu. Gure kasuan pisua normalki banatzen da gizonengan eta emakumeengan. Leven-en frogari begiratzen badiogu, ondoriozta dezakegu bi bariantzak berdintsuak direla. Leven-en frogaren hipotesi nulua da: bariantza berdinak dituzte pisuaren banaketek: gizonengan eta emakumeengan. Hipotesi nulu horren probabilitatea 0,05 baino handiago denez (0,098), ezin dugu hipotesi nulu hori baztertu. Beraz, ondorioa: bi banaketen bariantzak berdintsuak dira. Kasu hauetan, bariantza berdintsuak, lehenengo lerroko emaitzak begiratuko ditugu. t-ren balioa -12,494 eta t horri dagokion probabilitatea 0,000. Hau 0,05 baino txikiagoa da, beraz hipotesi nulua baztertu egingo dugu. Ondorioa: Biztanlerian harremana dago sexuaren artean eta pisuaren artean. Bi bariantzak ez balira berdintsuak, bigarren lerroko emaitzetan begiratuko genuke (Student-en t proba zuzendua, bariantza ezberdinak direnean erabiltzen den zuzenketa 6
2.ANOVA: Analisys of Variance (Bariantzaren analisia). Baldintzak: - Aldagai kualitatiboak bi kategoria baino gehiago izatea - Aldagai kuantitatiboa aldagai kualitatiboaren kategoria guztietan normalki banatzea. - Aldagai kuantitatiboaren banaketek bariantza berdintsuak izatea. ANOVA proban, bariantzak berdintsuak ez badira, ez dago zuzenketarik Student-en proban bezala. Orduan Krusskall Wallis erabili behar da. Hipotesi nulua: ez dago harremanik bi aldagaien artean Hipotesi nulu matematikoa: Ho: µ1=µ2=µ3=... Hori beti bezala bi eratara egin daiteke: 1- Era tradizionala: Gure laginean aldagai kualitatiboaren kategoriek bakoitzak azpitalde bat osatzen dute. Bakoitzak bere banaketa du aldagai kuantitatiboaren balioekin eta banaketa µ1 en, bakoitzak bere batezbestekoa du (m 1, m 2, m 3...) Ikusi behar dena zera da, µ1, µ2 en..eta µ n ren balioak (konfidantza tarte jakin batentzat), hau da biztanleriako batezbestekoak, ukitzen diren ala ez. Ez badira ukitzen, batezbestekoak ezberdinak dira biztanlerian eta beraz, bi aldagaien artean harremana dago. Biztanleriako batezbestekoak ukitzen badira, ez dago harremanik bi aldagaien artean. µ 1 = m 1 + t δ m1 µ 2 = m 2 + t δ m2 µ 2 = m 2 + t δ m2... µ n = m n + t δ mn 7
Adibidea Hipotesia: Harremana dago edateko maiztasunaren artean eta pisuaren artean. ALDAGAIAK : EDALE 0. Abstemioa 1. Noizbehinkakoa PISUA 2. Ohiturazkoa kualitatiboa dikotomikoa kuantitatiboa Eskala ordinalean neurtua Arrazoi eskalan neurtua Hipotesi nulua: ez dago harremanik edateko maiztasunaren artean eta pisuaren artean. Hipotesi nulu matematikoa: µ 0 =µ 1 =µ 2 Biztanlerian pisuaren batezbestekoa berdina da edale talde ezberdinetan. µ 0 = Pisuaren batezbestekoa biztanleriako abstemioen artean µ 1 = Pisuaren batezbestekoa biztanleriako noizbehinkako edaleen artean µ 2 = Pisuaren batezbestekoa biztanleriako ohiturazko edaleen artean Lagineko batazbestekoa Biztanleriko batazbestekoa (%95) Abstemioak 58,3 54,5-----------62 Noizbehinkakoak 62,4 60,5-------64,4 Ohiturazkoak 62,9 58,6---------------------67,2 Biztanlerian ordea, batezbestekoen konfidantza tarteak argi eta garbi ukitu egiten dira. Ezin dugu esan batezbestekoak berdinak ez direnik, beraz, ezin daiteke hipotesi nulua baztertu. Horrek esan nahi du ez dugula frogatu batezbestekoak biztanlerian ezberdinak direnik (h.d., biztanlerian ez da frogatu harremanik edateko ohituraren artean eta pisuaren artean. 8
2- Ordenagailuari hipotesi nuluaren probabilitatea eskatuz Probabilitate hori 0,05 baino txikiagoa bada, hipotesi nulua baztertzen dut. Horrek esan nahi du, bi aldagaien artean harremana dagoela (asmatzeko gutxienez %95eko probabilitatearekin). Gure adibidean: taulan horretan kategoria bakoitzaren batezbestekoa, desbideraketa tipikoa eta batezbestekoaren akats estandarra azaltzen dizkigu. Bigarren irteeran Leven-en proba egiten digu. Probabilitatea 0,05 baino handiagoa denez, hiru banaketen bariantzak berdintsuak direla esan dezakegu. Azkeneko irteeran bariantzaren analisia azaltzen zaigu. Hipotesi nuluaren probabilitatea 0,05 baino handiagoa denez, ezin dugu hipotesi nulua baztertu, beraz ez dugu probatu bi aldagaien artean harremana dagoenik. 9
ANOVA probak erabiltzen duen prozedura: berreduren batura. Demagun hiru kategoria dituela aldagai kualitatiboak. Aldagai kuantitatiboaren lau batezbesteko kalkula ditzakegu: orokorra eta kategoria bakoitzekoa. Prozedura honetan alde batetik taldeen arteko berreduren batura egiten da eta bestetik talde-barneko berreduren batura. Taldeen arteko berreduren baturaren batazbestekoa: kalkulatzen da talde bakoitzeko batezbestekotik batezbesteko orokorrera dagoen "distantzia" eta berredura egiten da. Gero dena batu eta askatasun graduengatik zatitzen da (kategoria kopurua-1). Talde-barneko berreduren baturaren batazbestekoa: kalkulatzen da subjektu bakoitzetik batezbesteko orokorrera dagoen "distantzia" eta berredura egiten da. Gero dena batu eta askatasun graduengatik zatitzen da (n-k+1). Lortutako bi emaitza horien zatiketa F balioa da. F= taldeen arteko berreduren baturaren batazbestekoa/taldebarneko berreduren baturaren batezbestekoa 10
3. Mann Whitney-n U proba. Noiz erabiltzen da? Student-en t proba ezin denean erabili: - Aldagai kualitatiboaren kategoria batean edo bietan, aldagai kuantitatiboa ez denean normalki banatzen. Hipotesi nulua: ez dago harremanik bi aldagaien artean Kasu honetan ez dugu hipotesi nuluaren adierazpen matematikorik ikusiko eta hipotesi nuluaren probabilitatea ordenagailuz bakarrik kalkulatzen ikasiko dugu. P<0,05 harremana dago biztanlerian bi aldagaien artean. p>0,05 ez. Hipotesia: Harremana dago edandako alkohol kopuruaren artean eta sexuaren artean. Edandako alkohol kopurua ez da normalki banatzen ez gizonezkoen artean eta ez emakumezkoen artean, beraz ezin da Student-en t froga erabili. Horren ordez Mann Whitney-n U froga erabiliko da. Honek botatzen duen hipotesi nulua ez da batezbestekoen berdintasunena. Ez gara hemen luzatuko. Oraingoz nahikoa da interpretazioa berdin egiten dela esatearekin. Ikus daiteke, p=0,000 (0,05 baino txikiagoa) beraz, biztanlerian ere harremana dago sexuaren artean eta edandako alkohol kopuruaren artean. 11
4. Krusskall Wallis-en proba. Noiz erabiltzen da? ANOVA proba ezin denean erabili: - Aldagai kualitatiboaren kategoria batean gutxienez, aldagai kuantitatiboa ez denean normalki banatzen. - Aldagai kualitatiboaren banaketa ezberdinetan aldagai kuantitatiboaren bariantzak ez direnean berdintsuak. Hipotesi nulua: ez dago harremanik bi aldagaien artean Kasu honetan ez dugu hipotesi nuluaren adierazpen matematikorik eta hipotesi nuluaren probabilitatea ordenagailuz bakarrik kalkulatzen ikasiko dugu. P<0,05 harremana dago biztanlerian bi aldagaien artean. p>0,05 ez. Hipotesia: Harremana dago edandako alkohol kopuruaren artean eta edateko ohituraren artean. Edandako alkohol kopurua ez da normalki banatzen ez abstemioen artean, ez noiz behinka edaten dutenen artean ez eta edateko ohitura dutenen artean ere, beraz ezin da ANOVA froga erabili. Horren ordez Krusskall Wallis-en froga erabiliko da. Honek botatzen duen hipotesi nulua ez da batezbestekoen berdintasunena. Ez gara hemen luzatuko. Oraingoz nahikoa da interpretazioa berdin egiten dela esatearekin. Ikus daiteke p 0,05 baino txikiagoa dela. Horrek esan nahi du biztanlerian ere harremana dagoela edateko ohituraren artean eta edandako kopuruaren artean. 12