Erori statistice Puterea testului statistic Mărimea efectului Marian Popa 2011
Enunţarea ipotezei cercetării (H1) QI mediu al elevilor olimpici este mai mare Enunţarea ipotezei de nul (H0) QI mediu al elevilor olimpici nu este mai mare (diferit) Alegerea nivelului de semnificaţie (alfa) 0.05; 0.01; 0.001 Colectarea şi analiza descriptivă a datelor Selectarea eşantionului, aplicarea unui test de inteligenţă Raportarea la un criteriu pentru evaluarea rezultatului pe eşantion z critic corespunzător lui alfa=0.05 pe curba normală Am respinsh0 pentru că valoarea calculată a testului a fost mai mare decât valoarea critică Adoptarea deciziei statistice Am fi admish0 dacă valoarea calculată a testului era mai mică decât valoarea critică
... cum înţelegem rezultatul? Fiecare elev olimpic este mai inteligent decât unul ne-olimpic? Nu, doarece sunt comparate mediile Elevii olimpici sunt în mod sigur mai inteligenţi decât elevii în general? Nu, deoarece pe curba normală (ipoteza de nul) este posibilă o medie QI mai mare decât a olimpicilor
... ce am testat de fapt? Posibilitatea ca H1 să fie adevărată? ( olimpicii sunt mai inteligenţi ) NU, deoarece testul se referă în mod direct la H0 Am testat probabilitatea ca H1 să fie falsă ( olimpicii nu sunt mai inteligenţi ) Decizia privind H1 este derivată din H0
...o analogie Căutăm aur într-un un munte (populaţia) H1=există aur (exploatabil) H0=nu există aur (exploatabil) Fixăm o valoare critică corespunzătoare unei probabilităţi de maxim 0.05 ca o anumită cantitate de aur să se afle oriunde pe pamânt ( concentrație naturală - H0) Excavăm o cantitate de pământ (eşantion) Măsurăm cantitatea de aur şi descoperim o anumită concentraţie de aur Admitem H0 dacă eșantionul are o concentrație mai mică decât cea naturală (H0) Dar dacă am avut ghinion când am selectat zona de explorare? Respingem H0 dacă eșantionul are o concentraţia egală sau mai mare decât cea naturală Dar dacă am avut noroc când am selectat zona de explorare? Rezultă că în orice situație decizia privind H0 presupune un risc de eroare
Erori statistice Se referă la eroarea deciziei statistice în raport cu realitatea vieţii, nu la aplicarea greşită a procedurii de testare. În raport cu realitatea vieţii, decizia cu privire la ipoteza de nul poate fi corectă sau greşită Cercetătorul nu poate şti cu certitudine dacă decizia statistică este corectă sau este greşită (dacă ar putea ști, nu ar mai avea nevoie de statistică)
decizia statistică vs. adevărul vieţii Adevărul vieţii (necunoscut) H 0 este adevărată (olimpicii NU SUNT mai inteligenţi) H 0 este falsă (olimpicii SUNT mai inteligenţi) Decizia statistică Acceptarea H 0 (olimpicii NU SUNT mai inteligenţi) Respingerea H 0 (olimpicii SUNT mai inteligenţi) 1. decizie corectă p=1-alfa 2.eroare de tip I P=alfa 4. eroare de tip II p=beta 3. decizie corectă p=1-beta (power)
Eroarea statistică de tip I Respingem H0 deşi în realitate este adevărată rezultat fals pozitiv decidem că olimpicii sunt mai inteligenţi; că există aur... deşi nu este adevărat p E1 =alfa; Nivelul maxim acceptat pentru E1=0.05! Decizia statistică se bazează pe măsura în care eşantionul reprezintă caracteristicile populaţiei chiar şi un eşantion selecţionat aleatoriu poate prezenta valori neobişnuit de îndepărtate de parametrii populaţiei supunându-ne în mod corect regulilor convenţionale ale deciziei statistice, respingem ipoteza de nul, făcând o eroare de tip I putem reduce probabilitatea erorii de tip Iprin asumarea unei valori mai mici pentru alfa acest lucru nu ar fi însă lipsit de consecinţe
Eroarea de tip I este complementară cu decizia corectă de acceptare a H0, când aceasta este realmente adevărată (1-alfa) reprezintă nivelul de încredere dacă am efectua exact acelaşi experiment de 100 ori, cu alfa=0.05: în 5% din cazuri respingem eronat H0 în 95% din cazuri acceptăm corect ipoteza de nul alfamaxim este impus prin convenţie eroarea de tip I maximă=5% (0.05) nivelul de încredere minim=95% (0.95)
Eroarea de tip I şi nivelul de încredere în condiţiile deciziei bilaterale Nivelul de încredere 1-alfa=0.95 Eroarea de tip I fals pozitiv p=0.025 z calculat =-1.96 z=0 z calculat =+1.96 Eroarea de tip I fals pozitiv p=0.025
Eroarea statistică de tip II Rezultatul testului impune acceptarea H0, deşi în realitate aceasta este falsă Muntele conţine în mod real un zăcământ de aur Eşantionul nu conţine dovada acestui fapt Rezultat fals negativ Ca urmare a hazardului eşantionării, diferenţa dintre media eşantionului cercetării şi media populaţiei nu atinge pragul semnificaţiei statistice Eroarea de tip II estecodificată cu beta, și nu poate fi mai mare de 0.30-0.40.
care eroare este mai gravă? societatea (comunitatea ştiinţifică) este interesată să evite respingerea H0 când ea este de fapt adevărată evitarea erorii de tip I Declararea existenţei unui zăcământ inexistent cercetătorul este interesat să evite acceptarea H0 când ea este de fapt falsă eroarea de tip II Declararea inexistenţei unui zăcământ existent ambele sunt rele eroare de tip I = se vor consuma resurse pentru exploatarea unui zăcământ nereal (Călimani) eroare de tip II = un zăcământ real va rămâne neexploatat
Eroarea de tip III 1. Respingerea corectă a ipotezei de nul, urmată de atribuirea incorectă a cauzei (Raiffa) interpretare greşită a rezultatului. ceva semnificativ se întâmplă, dar nu ceea ce crede cercetătorul Exemplul clasic este ilustrat de efectul de noutate Efectul placebopoate fi inclus de asemenea în categoria erorilor de tip III, dar nu toate erorile de tip III sunt de tip placebo Nu există metode statistice pentru eliminarea erorii de tip III, în această accepţie Singura protecţie vine dinspre calitatea modelului de cercetare Pentru evaluarea efectului placebo studiile medicale prevăd protocoale de tip dublu orb 2. Rezultatul cercetării conduce la confirmarea unui efect sau relaţii între variabile, dar sensul (direcţia) efectului este greşit interpretat. Rezultatele cercetării susţin că efectul noii metode de învăţare este superior celei vechi deşi, în realitate, situaţia stă exact invers, concluzia fiind greşită. În această accepţie, probabilitatea erorii de tip III este codificată cu litera γ (gamma) Unele programe statistice sunt capabile să o estimeze. Eroarea de tip III se poate manifesta numai în cercetări de tip experimental, singurele care permit concluzii de natură cauzală.
Puterea testului Să presupunem că datele cercetării ne impun admiterea H0. Ce poate determina un astfel de rezultat? 1. Ipoteza de nul este în realitate adevărată (ipoteza cercetării este realmente falsă) muntele nu conţine aur 2. Ipoteza de nul este în realitate falsă, dar cercetarea nu a fost capabilă să aducă dovada statistică zăcământul de aur există, dar explorarea noastră nu a avut suficientă putere ( sensibilitate ) pentru a surprinde existenţa aurului în acest caz, prin acceptarea ipotezei de nul (respingerea ipotezei cercetării) am comis o eroare de tip II.
Puterea testului Teoretic = sensibilitatea unui test statistic (cercetări) de a detecta un efect real (legătură reală) între variabile efect real modificări ale valorilor unei variabile se regăsesc în modificări ale valorilor celeilalte variabile Practic = exprimă probabilitatea de a respinge ipoteza de nul atunci când ea este cu adevărat falsă se exprimă ca 1-beta(probabilitatea erorii de tip II) situaţia cea mai bunei decizii pe care şi-o poate dori un cercetător să dovedească să confirme ipoteza cercetării (să respingă ipoteza de nul)
Eroarea de tip II şi puterea testului eroarea de tip II şi puterea testului sunt complementare cu cât puterea testului este mai mare, cu atât probabilitatea erorii de tip II(acceptarea nejustificată a H0) este mai mică eroarea de tip II: beta=1-puterea testului dacă puterea unei cercetări este 0.85: probabilitatea erorii de tip II este: 1-0.85=0.15 dacă puterea cercetării ar fi de 0.15: probabilitatea erorii de tip II: 1-0.15=0.85
Metode de creştere a puterii testului
creşterea volumului eşantionului (N) Scade eroarea standard maximizarea variabilităţii primare, aceea care decurge ca urmare a efectului unei variabile asupra celeilalte Reducerea erorilor de măsurare Alegerea modelul de cercetare efectul variabilei independente se manifestă mai puternic pe grupurile de subiecţi aflate la extremităţile scalei de măsurare a variabilei dependente decât pe valorile întregii scale dacă împrăştierea datelor de cercetare este mică, atunci puterea testului de a surprinde un efect semnificativ se reduce. utilizarea unor proceduri de investigare adecvate controlul şi eliminarea surselor de eroare; tratarea identică a tuturor subiecţilor cercetării; selectarea aleatoare a eşantioanelor eliminarea surselor de selecţie părtinitoare (bias). modelele de cercetare within-subjects(intrasubiect) au mai multă putere decât modelele between-subjects(inter-subiect) Testul bilateral reduce probabilitatea erorii de tip I, dar creşte probabilitatea erorii de tip IIşi, implicit, reduce puterea Testele parametrice prezintă o putere statistică mai mare decât cele neparametrice ori de câte ori este justificabil, se va opta pentru test unilateral, chiar dacă, în practică, testul bilateral este cel uzual utilizarea acestora din urmă se va face doar atunci când este absolut necesar (în conformitate cu condiţiile de aplicare) nu se va renunţa cu uşurinţă la un test parametric, dacă datele cercetării sunt măsurate pe scală cantitativă.
cât de multă putere? prea multă putere este tot atât de nedorit ca şi prea puţină dacă mărim puterea reducem probabilitatea erorii de tip II, dar creştem probabilitatea erorii de tip I un studiu cu putere mare (cu N foarte mare), are probabilitate mai mare de a respinge ipoteza de nul, chiar dacă aceasta este adevărată (eroare de tip I) Thompson... testul statistic devine o căutare tautologică pentru suficienţi participanţi în măsură să atingă semnificaţia statistică
calitatea deciziei statistice reprezintă rezultatul unei negocieri între nivelul acceptat pentru erorile de tip I şi II Eroare de p I MICA Putere MICĂ eroare de p II MARE să presupunem că studiul din exemplul nostru este efectuat identic de doi cercetători unul dintre ei îşi fixează nivelul lui alfa la 0.05 al doilea la 0.01 dacă rezultatului îi corespunde un p=0.03 primul respinge H0 al doilea este nevoit să accepte H0 (risc mai mare pt. E II)
utilizarea analizei de putere În faza premergătoare a unei cercetări pentru a evalua şansa de a obţine un rezultat semnificativ statistic cât de mică poate fi puterea unei cercetări pentru a accepta efectuarea ei? 0.5 este prea puţin pentru a investi timp şi bani 0.7, care corespunde unei probabilităţi de 0.3 pentru eroarea de tip II, este considerată ca fiind minimă 0.8 este considerat cel mai bun compromis între nivelul puterii şi consecinţele ei negative După efectuarea unei cercetări care este probabilitatea ca rezultatul acesteia să indice un efect real al variabilei independente asupra variabilei dependente GPower...
Mărimea efectului semnificaţia statistică nu spune nimic despre intensitatea relaţiei (efectului) dintre variabile Să considerăm că rezultatul explorării muntelui presupus aurifer conduce la respingerea ipotezei de nul geologii concluzionează că eşantionul conţine aur într-o proporţie semnificativă înseamnă oare acest lucru că muntele conţine mult aur? NU! Înseamnă că acea concentrație de aur din eşantion are o probabilitate prea mică să fie acolo din întâmplare CÂT DE MARE este cantitatea de aur nu putem şti doar pe baza testului de semnificaţie statistică mărimea efectului răspunde acestei întrebări
indici de mărime a efectului indici care se bazează pe diferenţa standardizată dintre medii d al lui Cohen, delta al lui Glass, g al lui Hedges; r, r 2 (coeficientul de determinare), eta pătrat, omega pătrat unii sunt oferiţi de SPSS, alţii de alte programe
Calcularea lui d pentru testul z(t) pentru un singur eşantion d = 106 100 15 = 0.4 d = m µ σ m=media eşantionului μ=media populaţiei σ=abaterea standard a populaţiei (se poate utiliza s) d (Cohen) 0.20 0.50 0.80 mic mediu mare
Suprapunerea distribuțiilor comparate, ca expresie a mărimii efectului Creşterea mărimii efectului reduce suprapunerea distribuţiilor
Raportarea mărimii efectului Testarea ipotezei de nul este supusă unor critici puternice American Psychological Associationa organizat un grup de lucru având ca obiect elaborarea unor recomandări cu privire la raportarea rezultatelor statistice (Wilkinson&APA Task Force on Statistical Inference, 1999) raportarea şi interpretarea mărimii efectului (...) este esenţială pentru o cercetare bună raportarea şi interpretarea mărimii efectului prezintă trei avantaje importante: facilitează studiile de metaanaliză (studii care sintetizează rezultatele mai multor cercetări pe aceeaşi temă); facilitează formularea unor ipoteze cu un grad mai mare de specificitate de către cercetătorii care vor studia aceeaşi temă; facilitează integrarea rezultatului unei cercetări în literatura dedicată acelui subiect,
Interdependenţa erorilor statistice cu puterea testului şi mărimea efectului
Distribuția H0 mărimea efectului Distribuția H1 Nivelul de încredere (1-alfa) Puterea (1-beta) µh0 µh1 Eroarea de tip II (beta) Pragul de decizie (valoarea critică) Eroarea de tip I (alfa)
mărimea efectului = Nivelul de încredere (eroarea de tip II) (1-alfa) - Puterea (1-beta) + µh0 µh1 Eroarea de tip I (alfa) +
mărimea efectului Crește Nivelul de încredere (eroarea de tip II) (1-alfa) același Puterea (1-beta) + µh0 µh1 Eroarea de tip II scade = Eroarea de tip I (alfa) aceeași
Important... La interpretarea rezultatului trebuie să ţinem cont de nivelul de semnificaţie de puterea testului de mărimea efectului
Rezultat semnificativ statistic? (se respinge H0?) DA DA NU NU Volumul eşantionului MIC MARE MIC MARE Concluzii Rezultat important. Chiar dacă puterea testului este mică, din cauza volumului redus al eşantionului, existenţa unui rezultat semnificativ arată o mărime a efectului importantă. Rezultatul poate fi important sau nu: semnificaţia poate rezulta din puterea ridicată a testului, ca urmare a volumului mare al eşantionului SAU poate fi expresia unei diferenţe importante dintre populaţiile comparate Rezultatul este neconcludent. Absenţa semnificaţiei statistice se poate datora: faptului că ipoteza cercetării este falsă SAU puterii reduse a testului, ca urmare a eşantionului prea mică Ipoteza cercetării este probabil falsă din cauză că, în ciuda puterii ridicate (eşantion mare), rezultatul nu a atins nivelul semnificaţiei statistice. Mărimea efectului este foarte mică
Testarea ipotezei de nul 1. Enunţarea ipotezei de nul (H0) -varianta extinsă - 2. Enunţarea ipotezei cercetării (H1) 3. Alegerea nivelului de semnificaţie (alfa) 5. Colectarea şi analiza descriptivă a datelor 6. Raportarea la un criteriu pentru evaluarea rezultatului pe eşantion 7. Adoptarea deciziei statistice (reţinerea sau respingerea H0) 8. Calcularea mărimii efectului indicele de intensitate a asocierii (r 2, eta 2 omega 2, ) d Cohen estimarea puterii testului
Concluzii interpretarea testului statistic nu este completă fără discuţia în jurul erorilor statistice, puterii testului şi mărimii efectului în ultimii ani, din ce în ce mai mult se atrage atenţia asupra faptului că limitarea rezultatelor la raportarea semnificaţiei statistice nu este suficientă American Psychological Association (2001) recomană publicarea, alături de semnificaţia statistică, a mărimii efectului şi limitelor de încredere din ce în ce mai multe reviste de specialitate care se respectă pretind includerea acestui indice în completarea semnificaţiei statistice