STATISTIKA 5. predavaje Doc.dr. Tadeja Kraer Šumejak
PORAZDELITVE VZORČNIH STATISTIK Imejmo vzorec velikosti. Na tem vzorcu ima spremeljivka X vredosti: x 1, x 2,, x. Vzorča statistika je poljuba fukcija vzorčih vredosti f(x 1, x 2,, x ). Pozamo veliko vzorčih statistik: kvatili, mere sredie, mere variabilosti. Nekatere vzorče statistike so zelo pomembe.
X je številska statističa spremeljivka, za katero sta ajpomembejši vzorči statistiki: Vzorča aritmetiča sredia: x 1 xi i 1 Vzorči stadardi odklo: 1 2 2 s xi ( x) 1 1 i 1
Če za X privzamemo ormalo porazdelitev N(M, ), je x ocea za M, s pa ocea za σ. To spozaje posreduje matematiča statistika. Posebo vlogo pri statističem sklepaju ima z- statistika i t-statistika, ki je zaa pod imeom Studetova statistika z x M t x M s
Spomimo se populacije vseh vzorcev velikosti, vemo da je ta številka lahko ogroma. Na vsakem od teh vzorcev ima vzorča statistika svojo vredost. Vzorči statistiki u priredimo slučajo spremeljivko U, jeo pozavaje je potrebo za sklepaje iz vzorca a populacijo. Pogledali bomo verjetosto porazdelitev za ekaj ajpomembejših vzorčih statistik.
Porazdelitev vzorčih aritmetičih sredi IZREK Če je slučaja spremeljivka X a populaciji porazdeljea N(M,σ), potem je slučaja spremeljivka X a populaciji vseh vzorcev velikosti porazdeljea N ( M, ). OPOMBA: ta izrek velja, ko gre za vzorčeje z vračajem eot. Razlika pa je zaemarljiva,če je populacija zelo velika, zato v praksi e ločujemo.
Izrek am pove, da so tudi aritmetiče sredie vzorcev z elemeti porazdeljee ormalo. Ob tem sta aritmetiča sredia osove možice i aritmetiča sredia aritmetičih sredi vzorcev eaki. Stadardi odklo porazdelitve aritmetičih sredi je eak kvocietu stadardega odkloa osove statističe možice i korea iz števila eot v vzorcu.
CENTRALNI LIMITNI IZREK Slučaja spremeljivka X se pri velikih vzorcih porazdeljuje približo ormalo tudi tedaj, ko verjetosta porazdelitev slučaje spremeljivke X a osovi populaciji i ormala. Cetrali limiti izrek lahko uporabimo v praksi, če je velikost vzorca večja od 30.
Primer Psihologi trdijo, da je v populaciji IQ porazdelje ormalo N(100,15). Tvorimo vzorce velikosti 4. Potem velja IQ N(100,7,5). 115 100 P( IQ 115) P( Z ) P( Z 2) 0,0228 7,5 2,3% vzorcev velikosti 4 ima vzorčo aritmetičo sredio ad 115. Tvorimo vzorce velikosti 25 i si zastavimo eako vprašaje.
Primer Iz populacije, ki je ormalo porazdeljea M=50 i σ=10 so vzorčili vzorce velikosti =25. Pri kolikšem odstotku vzorcev lahko pričakujemo vredosti aritmetičih sredi med 48,2 i 51,7? V katerih mejah je 90 % vseh vredosti?
Porazdelitev t-statistik Spozali smo že dejstvo: če je X N( M, ), je X N( M, ). X Posledičo je spremeljivka Z= M N (0,1). Če pozamo oba parametra ormale porazdelitve M i izračuamo x i ato vredost z-statistike: x M Z=., iz vzorca velikosti
Agleški statistik W. Gosset, za pod psevdoimom Studet, je v izrazu za z adomestil parameter z jegovo vzorčo oceo s i tako opredelil t-statistiko: x M t. s Ugotovil je, da se pri majhih vzorcih verjetosta porazdelitev t-statistike bistveo loči od stadardizirae ormale porazdelitve, pri velikih vzorcih pa je ta porazdelitev zelo blizu stadardizirae ormale porazdelitve.
Izrek Na populaciji vzorcev velikosti T X M S je slučaja spremeljivka porazdeljea po Studetovi porazdelitvi z -1 prostostimi stopjami. Zapišemo T t( SP 1).
Lastosti Gostota verjetosti za t-porazdelitev je po obliki podoba gostoti verjetosti za N(0,1). Fukcija je zveza, defiiraa a celoti reali osi. Je simetriča okoli 0. Parameter imeujemo stopje prostosti, ki določajo jeo obliko. V limiti je Studetova porazdelitev eaka stadardizirai ormali porazdelitvi.
Porazdelitev vzorčih variac Naj bo X N( M, ). Zamislimo si, da a vsakem vzorcu 2 velikosti izračuamo vzorčo variaco s : 1 s ( x x). 2 2 i 1 i 1 Vsak vzorec geerira svojo vredost. Tem vredostim 2 priredimo slučajo spremeljivko S. verjetosta porazdelitev. Zaima as jea
Izrek Slučaja spremeljivka X je porazdeljea ormalo s povprečo vredostjo M i stadardim odkloom σ. Na populaciji vzorcev velikosti je porazdelitev za S 2 2 podaa s -porazdelitvijo z -1 prostostimi stopjami: 2 1 2 2 S SP ( 1)
Lastosti Je zveza porazdelitev, defiiraa a pozitivem delu reale osi. Stopje prostosti določajo obliko porazdelitve. Za SP=1 i SP=2 ima posebo obliko. Ko je SP majho število, je porazdelitev asimetriča v deso, ko se SP povečuje, se asimetrija zmajšuje. S povečevajem SP(gre proti eskočo), postaja čedalje bolj podoba ormali porazdelitvi N(SP,SP 0.5 ).
F-porazdelitev Naj bosta X i Y eodvisi spremeljivki. Če je spremeljivka X porazdeljea po zakou spremeljivka Y porazdeljea po zakou 2 (m) i 2 (), je slučaja spremeljivka Z X my porazdeljea po zakou F(m, ). Porazdelitev F(m, ) je določea z dvema prostostima stopjama m i.
OCENJEVANJE PARAMETROV-OCENJEVANJE ARITMETIČNE SREDINE Spomimo se:
Glivekov izrek: Porazdelitvea fukcija vzorca z araščajem števila eot v vzorcu z verjetostjo 1 kovergira k porazdelitvei fukciji osove statističe možice. Navedei izrek am pove, da čim večje je število eot v vzorcu, bolj je frekveča porazdelitev vzorca podoba frekveči porazdelitvi osove statističe možice. Zato se bosta pri dovolj velikem številu eot v vzorcu ( je vsaj 100) aritmetiča sredia i stadardi odklo vzorca le malo razlikovala od aritmetiče sredie i stadardega odkloa celote možice.
S pomočjo dosedajih ugotovitev določimo z vzorcem eot aritmetičo sredio osove statističe možice. To lahko aredimo a dva ačia i sicer a osovi: točkove ocee itervale ocee Za točkovo oceo je zaželea epristraskost. Ocea je epristraska, če je povprečje vseh vzorčih oce eako ocejevaemu parametru. Zato je x s je epristraska ocea za M je epristraska ocea za
Itervala ocea parametra Itervala ocea parametra je t.i. iterval zaupaja. To je slučaji iterval, veza a pripadajoči slučaji vzorec. Defiicija: V ašem primeru bo to M. Naj ozačuje parameter, ki ga ocejujemo, vredost je vaprej predpisaa verjetost, 0< 1. Iterval (L, L ) imeujemo iterval zaupaja za parameter, če velja: P(L < L ) 1. 1 2 1 2
Kometar Stadarde vredosti, ki jih uporabljamo za verjetost α, so: 0,05, 0,01 ali 0,001. Verjetost 1- α imeujemo zaupaje. Običajo zaupaje izražamo v %, govorimo pr. o 95% zaupaju. L 1 oz. L 2 je spodja oz. zgorja meja itervala zaupaja, L 1 oz. L 2 sta slučaji spremeljivki. Pri vsakem vzorcu imata drugo vredost. Vsak slučaji vzorec geerira svoj iterval zaupaja (l 1,l 2 ).
V populaciji vseh vzorcev velikosti je odstotek itervalov, ki vsebujejo parameter Θ, eak 100(1-α). Za posamezi iterval zaupaja e vemo, ali je parameter Θ vsebova v tem itervalu ali e. Trdimo lahko, da je ta iterval z verjetostjo (1-α) ede tistih, ki vsebujejo parameter Θ.
INTERVAL ZAUPANJA ZA POVPREČNO VREDNOST Ločimo: Osova statističa možica porazdeljea ormalo po zakou N(M, ) i je zaa. Osova statističa možica porazdeljea ormalo po zakou N(M, ) i i zaa. Veliki vzorci.
N(M, ) i je zaa Ta situacija v praksi le redko astopa, vedar je zaradi kostrukcije itervala zaupaja ajlažja. Izpeljava temelji Spozali smo že dejstvo: če je X N( M, ), je X N( M, ). X M Posledičo je spremeljivka Z= N (0,1). P( z Z z ) 1 2 2 Z=1,96 pri 5% tvegaju
Širio tega itervala lahko zapišemo z obrazcem: x z M x z 2 2
0.4 0.35 0.3 0.25 0.2 p(x) 0.15 0.1 0.05 0 x Porazdelitev aritmetičih sredi vzorcev. Pri 5 % tvegaju ea osečea površia 0,025-ti del celote površie. Stopja Delež v celoti populaciji tvegaja obeh osečeih samo eega osečeega delov dela 5 % 0,05 0,025 1 % 0,01 0,005 0,01 % 0,001 0,0005
Če iščemo 95% iterval zaupaja za aritmetičo sredio populacije, tedaj s pomočjo tabel za stadardizirao ormalo porazdelitev, določimo vredost za Z tako, da bo veljalo: H(Z)=0,475 Z=1,96 Iterval je z verjetostjo 0,95 ede tistih, ki vsebuje povprečo vredost celote populacije. x 1, 96 M x 1, 96 5% tvegaje
Če iščemo 99% iterval zaupaja za aritmetičo sredio populacije, tedaj s pomočjo tabel za stadardizirao ormalo porazdelitev, določimo vredost za Z tako, da bo veljalo: H(Z)=0,495 Z=2,58 x 2,58 M x 2, 58 pri 1% tvegaju
Če iščemo 99,9% iterval zaupaja za aritmetičo sredio populacije, tedaj s pomočjo tabel za stadardizirao ormalo porazdelitev, določimo vredost za Z tako, da bo veljalo: H(Z)=0,4995 Z=3,29 x 3,29 M x 3, 29 pri 0,1% tvegaju
Primer Izračuajmo 90% i 95% iterval zaupaja za povprečo maso zdravila v stekleičkah, pri čemer je 1, 9 i x 10,5.
N(M, ) i i zaa Stadardi odklo i poda, ampak ga oceimo iz podatkov. Iterval zaupaja izpeljemo eako kot pod prvo točko, le da stadardizirao ormalo porazdelitev adomesti Studetova porazdelitev z -1 prostostimi stopjami: s x t M x t 2 2 s Odčitaš pri (-1) prostostih stopjah.
Veliki vzorci Če so vzorci tako veliki, da velja cetrali limiti izrek, izračuamo iterval zaupaja za povprečo vredost takole s x z M x z 2 2 s
PRIMER Deimo, da želimo ugotoviti, s 5 % tvegajem, povprečo maso 21 di starih piščacev. V ta ame smo, amesto vseh piščacev, stehtali vzorec 105 piščacev i dobili frekvečo porazdelitev mas prikazao v pregledici: Masa piščacev (g) Število piščacev ad 550 do 580 2 ad 580 do 610 8 ad 610 do 640 8 ad 640 do 670 18 ad 670 do 700 16 ad 700 do 730 20 ad 730 do 760 20 ad 760 do 790 8 ad 790 do 820 5
Masa piščacev (g) f k x k f k x 2 k f k x k ad 550 do 580 2 565 1130 638450 ad 580 do 610 8 595 4760 2832200 ad 610 do 640 8 625 5000 3125000 ad 640 do 670 18 655 11790 7722450 ad 670 do 700 16 685 10960 7507600 ad 700 do 730 20 715 14300 10224500 ad 730 do 760 20 745 14900 11100500 ad 760 do 790 8 775 6200 4805000 ad 790 do 820 5 805 4025 3240125 Skupaj 105 73065 51195825 x 1 73065 f x k k 105 695, 86 s 2 1 f k x 2 k x 2 51195825 105 695,86 2 3358,15 s s 2 57,95 x s 1, 96 M x 1, 96 s 57,95 695,86 1,96 M 105 695,86 57,95 1,96 105
Primer Izračuajmo 95% i 99% iterval zaupaja za povprečo oceo a kolokviju. Dai so rezultati za vzorec: 12,45,23, 67, 68,90, 34,0, 45,77.
Primer Z vzorcem 150 zabojev smo dobili asledje podatke: % gilega sadja število zabojev do 1 59 ad 1 do 3 43 ad 3 do 6 26 ad 6 do 10 17 ad 10 do 15 5 Z 1 % tvegajem oceite povpreči procet gilega sadja v osovi možici. Pri tem predpostavite, da je stadardi odklo osove možice eak stadardemu odklou vzorca. Nalogo rešite tudi brez te predpostavke. Narišite še gorjo frekvečo porazdelitev!
SKLEPI Na širio itervala vpliva: -zaupaje -variabilost proučevae spremeljivke, ki jo izraža s -število eot v vzorcu Če želimo, da se širia prepolovi moramo, moramo zvečati število eot v vzorcu vsaj za 4-krat. V izrazu za odklo je izraz s Stadarda apaka ocee.
PARAMETRIČNI PREIZKUSI ZNAČILNOSTI Parametriči preizkusi začilosti so amejei testiraju parametričih hipotez, to je domev o vredosti ezaih parametrov statističe spremeljivke X. Na primer praviloma testiramo ičelo hipotezo H 0, ki pravi, da je parameter q=q 0, proti alterativi hipotezi H 1, ki pravi q q 0, a stopji začilosti testa α. Na osovi tega pri preizkusu začilosti ičelo hipotezo H 0 : bodisi zavremo, bodisi e zavremo.
V prvem primeru rečemo, da med hipotetičimi i eksperimetalimi podatki obstaja začila razlika (ali razlika je sigifikata) i hipotezo H 0 zavremo. V drugem primeru pa razlika med hipotetičimi i eksperimetalimi vredostmi i začila oz. i statističo pomemba, zato hipoteze H 0 e zavremo. Pri testu začilosti lahko aredimo samo t.i. apako prve vrste, to pomei, da smo zavrili pravilo hipotezo H 0. Verjetost za to apako je predpisaa, s stopjo začilosti α i zaša običajo 0,05 ali 0,01.
ZAPOMNI SI: Pri preizkusu začilosti H 0 proti H 1, ičelo hipotezo H 0 ali zavremo (torej sprejmemo H 1 ) ali o jej e odločimo!
PARAMETRIČNI PREIZKUSI ZNAČILNOSTI POTEKAJO VEDNO NA NASLEDNJI NAČIN: 1. Postavimo ičelo i alterativo hipotezo. Opravka imamo bodisi z dvostraskim testom H 0 (q=q 0 ) proti H 1 (q q 0 ) bodisi z eim od eostraskih testov H 0 (q=q 0 ) oz. H 0 (q q 0 ) proti H 1 (q>q 0 ), H 0 (q=q 0 ) oz. H 0 (q q 0 ) proti H 1 (q<q 0 ). 2. Izberemo stopjo začilosti testa α (običajo 0,05 ali 0,01). 3. Glede a velikost vzorca ali obravavaega problema izberemo primero testo statistiko U.
4. Glede a porazdelitev statistike U i parameter α določimo kritičo območje testa w 0, to je podmožica realih števil izbraa tako, da je verjetost dogodka, da ob pravili hipotezi H 0 vredost teste statistike U leži v jej, majša ali eaka α. 5. Izračuamo eksperimetalo vredost teste statistike u e. Če u e pripada w 0, potem hipotezo H 0 zavremo. Če u e w 0, potem hipoteze H 0 e zavremo.
KOMENTAR Če pade izračuaa vredost za testo statistiko zuaj 95% itervala, potem ičelo hipotezo pri 5% tvegaju zavremo, čeprav je gotovo, da v 5% vseh primerov eizbežo pade ve (apaka prve vrste). Kritičo območje testa
Zakaj e sprejmemo ičele hipoteze? Zagrešimo pa lahko še eo apako, sprejmemo ičelo hipotezo, ko je apača. Verjetost za to apako e pozamo. Tej apaki pravimo apaka druge vrste. To pomei, da drži ea od alterativih hipotez. To pomei, da aša izračuaa vredost pripada eki drugi vzorči distribuciji.
TESTI, KI JIH BOMO OBRAVNAVALI: Testiraje hipotetiče aritmetiče sredie (stadardi odklo populacije je za ali veliki vzorci Testiraje hipotetiče aritmetiče sredie (mali vzorci) Testiraje eakosti dveh aritmetičih sredi (eodvisi vzorci) Testiraje eakosti dveh aritmetičih sredi (odvisi vzorci) Aaliza variace. s )
TESTIRANJE HIPOTETIČNE ARITMETIČNE SREDINE (VELIKI VZORCI) Primer Stroj poli eko sov v stekleičke i sicer je orma 50 mg a stekleičko. Zaradi slučajih vplivov odmerki ihajo. Privzeti smemo, da so odmerki porazdeljei ormalo. Če stroj dela v skladu s predpisi, za maso odmerka velja X~N( 50mg, 5mg) Zaima as ali je M=50mg?
Izvedemo asledji postopek. S slučajo izbiro izberemo določeo število stekleic v kotroli vzorec. Naj bo =25. V vsaki stekleici stehtamo odmerek i dobimo vzorčo aritmetičo sredio x. Formuliramo dve hipotezi: Ničela: M=50 Alterativa:M 50 H H 0 1 : M : M M M H H Privzemimo, da pozamo stadardi odklo populacije =5.
Preizkušaje statističih domev izhaja iz predpostavke, da je ičela domeva pravila. Če je to res je porazdelitev vzorčih aritmetičih sredi x v kotrolih vzorcih velikosti 25 ormala, jeo 5 povprečje je 50mg, stadardi odklo pa 1. To porazdelitev imeujemo ičela porazdelitev. Za to porazdelitev velja: približo dve tretjii vzorcev velikosti 25 ima x med 49 i 51, približo 95% vzorcev ima x med 48 i 52. Če bi za določe vzorec dobili 55, bi zagotovo zavrili ičelo domevo, ker izjemo malo tvegamo, ko zavremo to hipotezo. 25
Vaprej določimo α, imeujemo tudi stopja začilosti. Na osovi α razdelimo vredosti za x a dve območji: Območje, kjer osovo hipotezo zavremo. Območje, kjer osovo hipotezo obdržimo. Vredost, ki razločuje obe vredosti se imeuje kritiča vredost.
H 0 zavremo H 0 obdržimo H 0 zavremo Kritiča vredost Za aš primer aj bo α=0,05. Kritiča vredost je z=1,96. Torej ičelo domevo obdržimo, če je x v itervalu 50 1,96 1mg. Testo statistiko z izračuamo po formuli (stadardiziraa ormala porazdelitev vzorčih aritmetičih sredi): z x M H
z 1,96 pri 5% tvegaju zavremo H 1 z 1,96 pri 5% tvegaju sprejmemo H 1 Primer: Poglejmo podatke iz eega kotrolega vzorca: 61,0 51,2 47,8 49,9 50,3 49,0 50,1 49,9 47,5 51,2 52,1 60,1 46,6 52,1 62,2 54,2 53,1 51,1 49,9 47,9 53,3 53,0 49,0 49,8 50,2 Upoštevajmo, da je =5mg. 51,7 5 25 Rezultati iso statističo začili. Ničele hipoteze e moremo zavriti. z 50 1,7
Sedaj pa izhajamo iz dejstva, da stadardega odkloa populacije e pozamo, kar je v bistvu bolj realističo. Če je vzorec dovolj velik, potem upoštevamo, da je i postopamo eako kot v prejšjem primeru (>100). s Pri malih vzorcih pa z-statistiko adomesti Studetova t-statistika, ki je porazdeljea po Studetovi porazdelitvi z -1 stopjami prostosti. t x M s H
PRIMER Za prejšji primer oceimo stadardi odklo populacije iz podatkov: s=4,026 2 x i 67211 s s 2 67211 24 4,0247 51,7 25 24 Izračuamo testo statistiko 2 16,1979 t 51,7 50 4,026 25 2,112
Iz tabel odčitamo testo statistiko: t krit (24) 2,064 pri 5% tvegaju Sprejmemo alterativo hipotezo. Rezultati so statističo začili.
p-vredost je ajmajša stopja začilosti pri kateri še lahko zavremo ičelo hipotezo. Če je p-vredost majša od predpisae α, ičelo domevo zavremo.
Semeara zagotavlja, da je kalivost semea 95 %. Z vzorcem velikosti 100 eot smo dobili povprečo kalivost 94 %. Variaca populacije zaša 16. Preverite z 1 % tvegajem, če je trditev semeare pravila!
Oglejmo si primer, ko želimo ugotoviti ali imajo v hlevu s piščaci pasme Hubbard po 21 deh vzreje povprečo maso 687 gramov, kot jo za to starost avaja selektor. 666 859 769 692 492 773 515 822 760 706 669 824 719 608 606 768 592 709 655 624 633 653 678 633