Cvičenia zo ŠTATISTIKY v Exceli Kurz IPA-Slovakia, september 2008, VYHNE doc. RNDr. Štefan PEŠKO, CSc. stefan.pesko@fri.uniza.sk, http://frcatel.fri.uniza.sk/pesko/ Katedra matematických metód, Fakulta riadenia a informatiky, Žilinská univerzita v Žiline, Univerzitná 8215/1, 010 26 Žilina
Obsah Spracovanie štatistického súboru Popisné štatistiky Náhodný výber vzoriek Rozdelenia matematickej štatistiky Odhady parametrov Testovanie štatistických hypotéz Analýza rozptylu (ANOVA) Korelačná a regresná analýza Priebehové a regulačné diagramy Príklady k cvičeniam sú v zošite STATISTIKA.XLS.
Spracovanie štatistického súboru Štatistickým znakom X rozumieme vlastnost, ktorú sledujeme na jednotkách štatistického súboru daného rozsahu. Základný štatistický súbor rozsahu N predstavuje množinu všetkých štatistických jednotiek z ktorého pozorujeme len jeho čast tzv. výberový súbor rozsahu n < N a z jeho hodnôt x i sledovaného znaku X odhadujeme vlastnosti (parametre) základného súboru. Excel: ponúka štatistické funkcie, ktoré môžeme vyvolat z menu vol bou Vložit /Funkcia.../štatistické. Predspracovaný prístup k vybraným štatistickým procedúram umožňuje vol ba Nástroje/Analýza dat...
Popisné štatistiky polohy Máme základný štatistický súbor rozsahu N a s hodnotami (x 1,x 2,...,x N ) skúmanej premennej X. Predpokladáme, že hodnoty štatistických jednotiek x 1,x 2,...,x N sú umietnené v súvislom poli buniek x 1 : x N excelovskej tabul ky. Aritmetický priemer x = 1 N N i=1 x i, udáva aký objem hodôt premennej X pripadá na jednu jednotku súboru. Excel: AV ERAGE(x 1 : x N ). Medián M e udáva hodnotu, ktorá súbor hodnôt delí na dve rovnako pravdepodobné časti. Excel: MEDIAN(x 1 : x N ). Modus M O udáva najčastejšie sa vyskytujúcu hodnota znaku X súboru. Excel: MODE(x 1 : x N ).
Popisné štatistiky variability Variačné rozpätie V R = x max x min, je určené rozdielom maximálnej a minimálnej hodnoty premennej X v súbore. Excel: MAX(x 1 : x N ) MIN(x 1 : x N ). Rozptyl σ 2 = 1 N N i=1 (x i x) 2 udáva priemerný štvorec odchýlky od priemeru. Excel: V ARP(x 1 : x N ). Štandartná (smerodajná) odchylka σ = σ 2 udáva ako sa v priemere ochylujú hodnoty od aritmetického priemeru. Excel: STDEV P(x 1 : x N )). Štandartná chyba (strednej hodnoty) SE = σ N. Excel: nie je podporovaná. Absolútna odchylka d = 1 N N i=1 x i x Excel: AV EDEV (x 1 : x N ).
Analytický nástroj Popisná štatistika Rýchly obraz o parametroch súboru v tvare tabul ky ponúkajú v Exceli Analytické nástroje pod vol bou Popisná štatistika. POZOR: Pod názvom rozptyl výberu a smerodatná odchýlka výberu tu nenájdeme údaje získané funkciami V ARP() a STDEV P() ale ich výberové verzie V AR() a STDEV ()! Príklad 1 : Stavebný podnik zavádzajúci nový druh výrobku NOBASIL sledoval spokojnost prvých 50 zákazníkov. Každý z nich vyplnil dotazník, kde okrem iného ohodnotil spokojnost z novým výrobkom v 100 bodovej stupnici. Vypočítajte popisné štatistiky pomocou procedúry aj štatistických funkcií. Nakreslite histogram početností hodnotenia.
Príklad 1 Obrázok 1: Hodnotenia NOBASILu sú generované procedúrou Generátor pseudonáhodných čísel Binomické rozdelenie Bi(0.5, 100) a hodnoty štatistík procedúrou Popisná statistika.
Náhodný výber vzoriek Náhodna veličina X je zobrazenie X : Ω 0, 1, kde Ω je priestor javov a X(ω) je realizácia náhodnej veličiny. Hodnoty vzoriek (x [1],x [2],...,x [n] ) skúmanej náhodnej premennej X zo základného súboru (x 1,x 2,...,x N ): Jednoduchý náhodný výber každý prvok základného súboru má rovnakú pravdepodobnost stat sa prvkom výberového súboru. Oblastný náhodný výber základný súbor môže byt tvorený oblast ami skupinami jednotiek, pričom prvky v každej skupine sú si nejako podobné ale navzájom sa líšia. Systematický náhodný výber rozdelíme N-prvkovú množinu do n skupín po k prvkov a vyberáme z každej skupiny náhodne jeden prvok kým nemáme n-prvkový náhodný výber..
Vzorkovanie v Exceli Príklad 2 : Nadnárodná stavebná firma vlastní siet 100 prevádzok denne realizujúcich 8000 telefonických rezervácii zakázok. Ukazovatel om kvality služib je aj doba od prvého zazvonenie po prebratie hovoru zodpovedným pracovníkom. Spoločnost chce vykonat inšpekciu pomocou 30-tich telefonických rezervácii. Generujte základný súbor. Vytvorte z neho jednoduchý náhodý výber 60 rezervácií a tiež zodpovedajúci oblastný výber, ak sa naviac predpokladá, že spoločnost považuje čakanie od 30 sekúnd za nežadúce. Navrhnime systematický náhodný výber 20-tich prevádzok so znakom priemernej doby rezervácie. :-) Doby čakania v základnom súbore generujte funkciou z kategórie matematická analýza RAN DBET W EEN(5, 60) a použite analytický nástroj Vzorkování.
Príklad 2 Obrázok 2: Základný a výberové súbory hodnotenia kvality telefonickej rezervácie zakázok.
Diskrétna náhodná veličina Zákonom rozdelenia diskrétnej náhodnej veličiny X nadobúdajúcej konečný počet hodnôt x 1,x 2,...,x n je pravdepodobnostná funkcia: P(X = x i ) = p i, kde i = 1, 2,...,n, pričom n i=1 p i = 1. Charakteristiky: stredná hodnota E(X), rozptyl D(X) a štandartná odchýlka σ(x): E(X) = n x i p i D(X) = n (x i E(X)) 2 p i σ(x) = (D(X)). i=1 i=1
Niektoré diskrétne rozdelenia Diskrétne rovnomerné rozdelenie R(n): X {1, 2,...,n} a P(X = k) = 1/n, E(X) = n+1 2 a D(X) = n2 1 2. Excel: RANDBETWEEN(a,b), vracia čísla z {a,a + 1,...,b}. Alternatívne rozdelenie A(p): X {0, 1} a P(X = 1) = p, E(X) = p a D(X) = p(1 p). Excel: Generátor pseudonáhodních čísel/bernoulliho. Udáva, že jav nastáva s pravdepodobnost ou p. Binomické rozdelenie Bi(p,n): X {0, 1, 2,...,n} a p x = P(X = x) = ( n x) p x (1 p) n x, E(X) = np a D(X) = np(1 p). Excel: Generátor pseudonáhodních čísel/binomické. Udáva počet výskytov nejakého javu, ktorý nastáva s pravdepodobnost ou p v sérii n pokusov.
Príklad 3 Obrázok 3: Generátor pseudonáhodných čísel.
Spojitá náhodná veličina Zákonom rozdelenia spojitej náhodnej premennej X a, b je hustota rozdelenia pravdepodobnosti f(x); definuje distribučnú funkciu F(x) vzt ahom: F(x) = P(X < x) = x f(t)dt. Charakteristiky: stredná hodnota E(X), rozptyl D(X) a štandartná odchýlka σ(x): E(X) = xf(x)dx D(X) = E ( [X E(X)] 2) σ(x) = (D(X))
Kvantil a kritická hodnota Nech 0 < α < 1 je l ubovol né reálne číslo. Potom 100 α-percentným kvantilom skrátene α-kvantilom sa rozumie hodnota x α spojitej náhodnej premennej X pre ktorú je P(X x α ) = α. (1) 100 α-percentná kritická hodnota sa rozumie tá hodnota X pre ktorú je P(X x α ) = α. (2) Kolmica v bode x α rozdelí obsah pod grafom funkcie hustoty f(x) na l avú čast s obsahom α a pravú s 1 α. Pozor, α-kvantil je (1 α) kritická hodnota!!
Normálne rozdelenie Premenná X z N(µ,σ 2 ) má funkciou hustoty f(x) = 1 ( σ 2π exp 1 ( x µ ) 2 ). 2 σ Pre µ = 0,σ 2 = 1 máme štandartizované normálne rozdelenie N(0, 1) s hustotou φ(x) a distribučnou funkciou Φ(x) a platí: f(x) = 1 σ φ ( x µ σ ), F(x) = Φ Chrakteristiky: E(X) = µ,d(x) = σ 2. ( x µ Excel: F(x), f(x) a Φ(z) má NORMDIST(x,µ,σ, 1), NORMDIST(x,µ,σ, 0) a NORMDIST(z). Príslušný kvantil x α má v NORMSINV (α) resp. NORMINV (α,µ,σ). σ ).
Príklad 4 Obrázok 4: Hustota, distribučná funkcia, kvantil a kritická hodnota normálneho rozdelenia.
Pravidlo troch sigma pre N(µ, σ 2 ) P( X µ < kσ) = 2Φ(1) 1 = 0.6826 ak k = 1 2Φ(2) 1 = 0.9544 ak k = 2 2Φ(3) 1 = 0.9974 ak k = 3. Z jednotkovej plochy ohraničenej funkciou f(x) leží nad intervalom (µ σ,µ + σ) 68.26% plochy, nad intervalom (µ 2σ,µ + 2σ) 95.44% plochy a nad intervalom (µ 3σ,µ + 3σ) až 99.74% plochy. Pravidlo sa využíva v praxi na prvý odhad štandartnej odchýlky σ pre náhodnú premennú X u ktorej sa predpokladá rozdelenie N(µ,σ 2 ). Stačí ak šírku rozsahu určenú najväčšou a najmenšou X vydelíme šiestimi.
Chi-kvadrát rozdelenie Chi-kvadrát rozdelenie χ 2 (n) náhodná premenná χ 2 ktorá vznikne súčtom štvorcov n nezávislých náhodných premených X 1,X 2,...,X n zo štandartizovaného normálneho rozdelenia N(0, 1) χ 2 = X 2 1 + X 2 2 + + X 2 n. Parameter n sa nazýva stupeň vol nosti (degree of freedom). Charakteristiky: E(χ 2 (n)) = n,d(χ 2 (n)) = 2n. Pre n 30 možno toto rozdelenie aproximovat normálnym N(n, 2n). POZOR!!! v Exceli je tabelovaná doplnková distribučná funkcia 1 F(x) v tvare CHIDIST(x,n) a príslušný kvantil x α,n ako CHIINV (1 α,n).
Príklad 5 Obrázok 5: Aproximácia χ 2 (n) rozdelenie normálnym N(n,2n) pre n 30.
Studentove rozdelenie t-rozdelenie má náhodná premenná T ktorá vznikne podielom nezávislých náhodných premenných X z normálneho rozdelenia a N(0, 1) a χ 2 z rozdelenia χ 2 (n) T = X χ 2. Parameter n sa nazýva stupeň vol nosti Studentovho rozdelenia. Platí E(T) = 0. Pre n 30 možno toto rozdelenie aproximovat normovaným normálnym rozdelením N(0, 1). Excel: TINV (α,n) = t P( X > t) = α; TDIST(x,n, 1) = P(X > x), TDIST(x,n, 2) = P( X > x). n
Príklad 6 Obrázok 6: N(0,1) pre n 30. Aproximácia Studentovho rozdelenie normálnym
Fisherovo rozdelenie F-rozdelenie má náhodná premenná F ktorá vznikne podielom dvoch χ 2 náhodných premenných χ 2 1 a χ2 2 so stupňami vol nosti n 1 a n 2 F = χ 2 1 n 1 χ 2 2 n 2. Parametre n 1,n 2 sa nazývajú stupňami vol nosti Fisherovho rozdelenia. Excel: FDIST(x,n 1,n 2 ) = 1 F(x) a F 1 α = FINV (α,n 1,n 2 ).
Príklad 7 Obrázok 7: Graf hustoty Fisherovho rozdelenia pomocou distibučnej funkcie FDIST(x,n 1,n 2 ); platí f(x) = F (x).
Hl adanie kvantilov v EXCELi Zadaná Nájdený Funkcia pravdepodobnost kvantil NORMSINV () α z α 1 α z 1 α TINV () α t 1 α/2 2α t 1 α CHINV () α χ 2 1 α 1 α χ 2 α FINV () α F 1 α 1 α F α
Bodové odhady parametrov Pri bodovom odhade parametra Θ odhadujeme neznámy parameter základného súboru pomocou jednej hodnoty. Výberová štatistika U n dáva: neskreslený odhad parametra Θ ak konzistentný odhad parametra Θ ak E(U n ) = Θ, (3) lim P( U n Θ < ǫ) = 1, n výdatný odhad parametra Θ ak platí, že zo všatkých štatistík davajúcich neskreslený odhad parametru má U n najmenší rozptyl. Základné štatistiky majú uvedené vlastnosti kvality odhadu.
Intervalové odhady parametrov Pri intervalovom odhade parametra Θ odhadujeme neznámy parameter základného súboru intervalom (θ 1,θ 2 ). Interval (θ 1,θ 2 ) pre ktorý platí P(θ 1 < Θ < θ 2 ) = 1 α, (4) sa nazýva 100(1 α)% dvojstranný (obojstranný) intervalovom spol ahlivosti pre parameter Θ. Ak nás zaujímaju len intervaly typu (,θ 2 ) resp. (θ 1, ) hovoríme o jednostranných intervaloch spol ahlivosti. Číslo 1 α sa nazýva hladina spol ahlivosti a pravdepodobnost α nazývame riziko odhadu.
Odhad priemeru Príklad 8a (Interval spol ahlivosti pre odhad priemeru µ): Zaujíma nás 95% obojstranný intervalový odhad priemného počtu bodov, ktorými 50-ti zákazníci ohodnotili spokojnost s novým výrobkom NOBASIL. :-) ( S S ) x t 1 α,n 1 2 n,x + t 1 α,n 1 2 n, (5) kde t 1 α 2,n 1 je príslušný kvantil t-rozdelenia. Excel: 1) Procedúra Popisná štatistika, kde vol bou hodnoty 95 v položke Hladina spolehlvosti pro střední hodnotu určíme hladinu spol ahlivosti 100(1 α) = 95%. 2) Štatistické funkcie: AV ERAGE(x 1 : x n ),STDEV (x 1 : x n ),TINV (α,n 1).
Príklad 8a Obrázok 8: Interval spol ahlivosti pre priemernú spokojnost µ s výrobkom ( NOBASIL je vždy čast ou príslušného konfidenčného intervalu x z 1 α σ 2 n,x + z 1 α σ 2 n ).
Odhady rozptylu Príklad 8b (Interval spol ahlivosti pre odhad rozptylu σ 2 ): Určte 95% a 99% obojstranné i jednostranné intervalové odhady rozptylu počtu bodov hodnotenia výrobku. :-) pre obojstranný interval: ( (n 1)S 2 χ 2 1 α 2,n 1, (n 1)S 2 χ 2 α 2,n 1 ). (6) kde χ 2 α 2,n 1 a χ2 1 α 2,n 1 sú kvantily rozdelenia χ2 (n 1). Excel: Štatistické funkcie nesymetrických kvantilov CHIINV (1 α 2,n 1) a CHIINV (α 2,n 1).
Príklad 8b Obrázok 9: Obojstranný a jednostranné intervaly spol ahlivosti pre rozptyl spokojnosti σ 2 s výrobkom NOBASIL.
Testovanie štatistických hypotéz Testovaním hypotéz nazývame štatistické overovanie predpokladu o parametroch resp. rozdelení základného súboru na základe výsledkov získaných z náhodného výberu. Jednoduchá nulová hypotéza o hodnote parametra θ základného súboru H 0 : θ = θ 0. (7) proti alternatívnym hypotézam H 1 : θ θ 0 dvostranná, (8) H 1 : θ > θ 0 pravostranná, (9) H 1 : θ < θ 0 l avostranná. (10)
Chyby pri testovaní hypotéz Chyba prvého druhu, ak zamietneme H 0 aj napriek tomu že platí, a to s pravdepodobnost ou α = P(zamietneme H 0 platíh 0 ). Chyba druhého druhu, ak prijmeme H 0 i napriek tomu že platí alternatívna hypotéza H 1, a to s pp. β = P(nezamietneme H 0 platíh 1 ). Testovanie hypotéz je založené na fakte, že nemožno α aj β súčasne minimalizovat a tak sa predpokladá vopred dané α tzv. hladina významnosti (level of significance) vo výške α = 0.01; 0.05; 0.1. Test je odvodený tak, aby pri danej hladine významnosti α zabezpečoval maximálnu silu testu 1 β.
Kritické oblasti hypotéz Testovacia štatistika (test statistic) Q je náhodná premenná, ktorá môže nadobúdat z oblasti prijatia hypotézy H 0 a oblasti zamietnutia hypotézy H 0 tzv. kritická oblast. Obe podmnožiny reálnych čísel sú disjunktné a hranice, ktoré ich oddel ujú sa nazývajú kritické hodnoty. Ak je (q 1,q 2 ) oblast prijatia hypotézy H 0 a (,q 1 ) (q 2, ) je oblast prijatia obojstrannej H 1 platí F(q 1 ) = α 2, F(q 2) = 1 α 2, (11) kde F(q) je kvantil Q. Podobne pre pravostrannú resp. l avostrannú H 1 je oblast prijatia H 0 interval (,q 2 ) resp. (q 1, ) a platí F(q 1 ) = α, resp. F(q 2 ) = 1 α. (12)
Testovanie H 0 : µ = µ 0 Príklad 9a (so známym rozptylom σ 2 ): Spoločnost zásobujúca stavebné firmy izolačným materiálom TI-140 tvrdí, že je ho schopná doručit v priemere za 4.5 dni. Predpokladajme, že chceme overit tento predpoklad na základe náhodného výberu 40 zásielok. Z predchádzajúceho doručovania zásielok vieme, že štandartná odchýlka času doručenia je 2.3 dni. :-) 1) Vygenerujeme zadanie príkladu t.j. náhodný výber z rozdelenia Bi(0.6, 7) rozsahu n = 40. 2) Testujeme H 0 : µ = µ 0 proti H 1 : µ µ 0 pomocou štatistiky Z = X µ 0 σ, kde µ 0 = 4,σ = 2.3. n 3) Oblast prijatia H 0 je interval ( z 1 α/2,z 1 α/2 ).
Príklad 9a Obrázok 10: Testovanie očakávanej hodnoty doby doručenia zásielky µ 0 pri známom rozptyle.
Testovanie µ 0, σ 2 0 Príklad 9b (s neznámym rozptylom σ 2 ): Manažéri zásobovacej spoločnosti namietajú, že na odhad štandartnej odchylky z dlhodobého zásobovania sa už nedá spol ahnút, lebo sa zlepšlii podmienky zásobovania. A skutočne, smerodajná odchýlka náhodného výberu je 1.16 dní. Možno už teraz súhlasit s ich tvrdením, že priemerná doba dodávky je priemerne 4.5 dni? Testovacou štatistikou je T = X µ 0 S a oblast prijatia n H 0 : µ = µ 0 proti H 1 : µ µ 0 je ( t 1 α/2,n 1,t 1 α/2,n 1 ). Príklad 9c (o rozptyle základného súboru): Manažéri chcú vediet, či môžu počítat so smerodajnou odchylkou menej než 2 dni. Testovacou štatistikou je W = (n 1)S2 a oblast zamietnutia σ0 2 H 0 : σ 2 = σ0 2 proti H 1 : σ 2 < σ0 2 je (,χ2 α,n 1 ).
Príklady 9b, 9c Obrázok 11: Testy pri neznámom rozptyle základného súboru.
Test zhody priemerov 2 súborov Máme dva výberové súbory X 1 a X 2 normálnym rozdelením znaku s neznámymi rozptylmi a testujeme H 0 : µ 1 = µ 2 ; 1. H 1 : µ 1 µ 2 2. H 1 : µ 1 > µ 2 3. H 1 : µ 1 < µ 2 Dvojvýberový z-test na strednú hodnotu, nezávislé súbory, (n 1,n 2 30) Z = X 1 X 2 S 2 1 n 1 + S2 2 n 1 ; 1. z > z 1 α/2 2. z > z 1 α 3. z < z 1 α. Dvojvýberový párový t-test na strednú hodnotu, závislé T = X 1 X 2 S 2 1 n 1 + S2 2 n 1 ; 1. t > t 1 α/2 2. t > t 1 α 3. t < t 1 α.
Test zhody rozptylov 2 súborov Máme dva výberové súbory s normálnym rozdelením znaku X a testujeme H 0 : σ 2 1 = σ 2 2; 1. H 1 : σ 2 1 σ 2 2 2. H 1 : σ 2 1 > σ 2 2 3. H 1 : σ 2 1 < σ 2 2. Dvojvýberový F-test pre rozptyl, nezávislé, (ν i = n i 1) F = S 2 1 /S2 2 1. f < F α/2,ν1,ν 2 alebo f > F 1 α/2,ν1,ν 2 2. f > F 1 α,ν1,ν 2 3. f < F α,ν1,ν 2. Dvojvýberový párový t-test s rovnost ou rozptylov Dvojvýberový párový t-test s nerovnost ou rozptylov ;-) kuk Help pre Nástroje/Analýza údajov/dvojvýberový...
Zhoda priemerov a rozptylov Príklad 10 : Oddelenie marketingu stavebnej firmy chce overit účinnost novej stratégie kladúcej väčší dôraz na spokojnost zákazníkov ako na zisk. Pred zavedením zmien firma oslovila náhodne 40 firiem a po zavedení d alších 40 firiem. 1) Môžeme na základe výsledkov výberového zist ovania urobit záver, že vplyvom zmien vzrástla spokojnost zákazníkov? 2) Zmenilo zavedené opatrenie rozptyl spokojnosti zákazníkov? :-) 1) Testujte H 0 : µ 1 = µ 2 proti H 1 : µ 1 < µ 2. 2) Testujte H 0 : σ 2 1 = σ2 2 proti H 1 : σ 2 1 σ2 2. Poznámka: p-hodnota je najnižšia hladina α na zamietnutie H 0. Teda H 0 zamietame ak α p resp. H 0 prijímame ak α < p. Pozor, p-hodnota pre dvostranný test je dvojnásobok p-hodnoty pre jednostranný test.
Príklad 10 Obrázok 12: Dvojvýberové testy zhody priemerov a rozptylov.
Pearsonov χ 2 test dobrej zhody Náhodný výber rozsahu n 50 jednotiek sa rozdelí do r tried tak, aby počet jednotiek v každej triede bol najmenej 5. Porovnávajú sa empirické početnosti n i s teoretickými početnost ami np i v triedach pomocou štatistiky χ 2 = r i=1 (n i np i ) 2 np i, (13) kde p i - pravdepodobnost, že znak nadobudne hodnotu z i-tej triedy ak platí H 0 : premenná má dané rozdelenie. Testovacia štatistika má asymptoticky χ 2 r s 1 pričom s je počet odhadovaných parametrov pre výpočet p i. Nulová hypotéza H 0 proti nonh 0 sa na hladine významnosti α zamietne ak χ 2 > χ 2 1 α.
Test dobrej zhody Obrázok 13: Test normálneho rozdelenia súboru z príkladu 1.
Analýza rozptylu (ANOVA) ANalysis Of VAriance porovnáva priemery r výberových súborov rozsahu n i z N(µ i,σ 2 ) testovaním vplyvu úrovní α i,β i,... faktora A,B,... na variabilitu hodnôt premennej X. jednofaktorová ANOVA x ij = µ i + ε ij = µ + α i + ε ij, (14) kde ε ij je odchýlka j-tej štatistickej jednotky i-teho súboru má N(0,σ 2 ), dvojfaktorová ANOVA x ikj = µ + α i + β k + (αβ) ik + ε ikj, (15) kde ε ikj je odchýlka j-tej štatistickej jednotky úrovne i faktora A a úrovne k faktora B má N(0,σ 2 ).
Jednofaktorová ANOVA H 0 : µ 1 = µ 2 = = µ r H 1 : nie všetky µ i sa rovnajú, aspoň dva priemery sú rôzne. Testovacia štatistika má F-rozdelenie so stupňami vol nosti r 1 a n k: F = SST r 1 SSE n r,sse = r i=1 n i (x ij x i ) 2,SST = j=1 r i=1 n i (x i x) 2. Pri hladine významnosti α zamietneme H 0 ak platí F F 1 α,r 1,n r.
Príklad 12 Kontrolór stavebnej firmy zorganizoval v troch rôznych pobočkách testy spokojnosti zákazníkov so službami. Zákazníci známkovali služby pobočiek školským systémom 1 5. Výsledky kontroly boli vykonané v každej pobočke na vzorke 30-tich zákazníkov. Možno konštatovat, že priemerná spokojnost so službami je v sledovaných pobočkách zhodná? :-) 1) Štatistické datá generujte pre 3 firmy náhodným výberom z rozdelení Bi(0.4, 5); Bi(0.5, 5); Bi(0.6, 5) s náhodne ručne opravenými 0 hodnoteniamu. 2) Použite nástroj Analýza dát/ Anova: jeden faktor.
Jednofaktorová Anova Obrázok 14: Vnútroúrovňová variabilita SSE a medziúrovńová variabilita vysvelená jedným faktorom SST.
Dvojfaktorová ANOVA Vplyv faktoru A: H 0 : α 1 = α 2 = = α a = 0 H 1 : nie všetky α i sa rovnajú 0. Vplyv faktoru B: H 0 : β 1 = β 2 = = β b = 0 H 1 : nie všetky β k sa rovnajú 0. Vplyv interakcie (AB): H 0 : (αβ) ik = 0 pre všetky i = 1, 2,...,a;k = 1, 2,...,b H 1 : nie všetky (αβ) ik sa rovnajú 0.
Tabul ka analýzy dvojfakt. ANOVA Počet Suma Priemer Zdroj stupňov štvorcov štvorcov F variability vol nosti odchýlok odchýlok hodno Faktor A a 1 SSA MSA = SSA a 1 Faktor B b 1 SSB MSB = SSB b 1 Interakcia (a 1)(b 1) SSAB MAB = SSAB (a 1)(b 1) Reziduá ab(n 1) SSE MSE = SSE ab(n 1) Celkove abn 1 SST otal MSA MSE MSB MSE MAB MSE SSTotal = SSA + SSB + SSAB + SSE, n = n 1 = n 2 = = n r.
Príklad 13 Kontrolór sa domnieva, že spokojnost zákazníkov môžno ovplyvňujú vernostné balíčky poskytované vybraným zákazníkom. Výsledky kontroly boli vykonané v každej pobočke na vzorke 30-tich zákazníkov z ktorých 15 dostali v minulosti vernostný balíček. Zákazníci opät známkovali služby pobočiek školským systémom 1 5. Možno konštatovat, že priemerná spokojnost so službami je v sledovaných pobočkách zhodná bez ohl adu na vernostné balíčky? :-) Použite nástroj Analýza dát/ Anova: dva faktory bez/s opakováním.
Korelačná a regresná analýza Na skúmanie závislostí dvoch kvantitatívnych znakov X a Y slúži Korelačná analýza popisuje do akej miery premenná X vysvetl uje variabilitu premennej Y. Regresná analýza charakterizuje, ako sa mení závislá premenná Y pri zmenách nezávislej premennej X. Podl a počtu nezávislých premenných jednoduchá (párová) jedna nezávislá premenná, viacnásobná (mnohonásobná) aspoň dve nezávislé premenné. Bodový diagram zobrazuje body (x 1,y 1 ), (x 2,y 2 ),...,(x n,y n ) kde (x i,y i ) je konkrétna hodnota premenných X, Y nameraná na i-tej štatistickej jednotke.
Párová korelačná analýza Miery stupňa lineárnej závislosti premenných X, Y vo výberovom súbore rozsahu n Kovariancia medzi X, Y je číslo cov(x,y) = 1 n n (x i x)(y i y). (16) i=1 Výberový korelačný koeficient je skreslený bodový odhad korelačného koeficientu ρ x,y = cov(x,y)/σ x σ y r == n i=1 (x i x)(y i y) n i=1 (x i x) 2 n i=1 (y (17) i y) 2.
Test lineárnej nezávislosti Overuje sa platnost H 0 : ρ x,y = 0 oproti alternatatívnej hypotéze H 0 : ρ x,y 0 pomocou testovacej štatistiky T = r n 2 1 r2, (18) kde je oblast zamietnutia H 0 určená t > t 1 α/2,n 2. Príklad 14.: Pracovník personálneho oddelenia stavebnej firmy sa domnieva, že existuje lineárny vzt ah medzi vekom robotníkov a počtom dní absencie v práci, preto náhodne vyberie záznamy 15-tich robotníkov. Sú známe údaje o veku a počte dní absencie počas kalendárneho roka. Rozhodnite o opodstatnenosti tejto domnienky. :-) Použite funkciu CORREL(x 1 : x n ;y 1 : y n ).
Príklad 14 Obrázok 15: Dilema personalistu.
Jednoduchá lineárna regresia Ak na náhodnú premennú Y vplýva okrem X aj iné faktory potom body (x 1,y 1 ), (x 2,y 2 ),...,(x n,y n ) neležia na priamke. Rozložme hodnotu závislej premennej Y na deterministickú a náhodnú y i = η(x i ) + ε i,i = 1, 2,...,n. Funkcia η(x) je regresná funkcia, pri lineárnom vzt ahu je to regresná priamka kde y i = B 0 + B 1 x i + ε i,i = 1, 2,...,n (19) B 0 priesečník osy x s regresnou priamkou, B 1 regresný koeficient (smernica regresnej priamky), ε i i-ta náhodná chyba premennej Y.
Bodové odhady koeficientov Vyrovnávajúca regresná priamka je bodovým odhadom neznámej regresnej priamky v základnom súbore kde ỹ i = b 0 + b 1 x i,i = 1, 2,...,n (20) ỹ i očakávaná (vyrovnaná) hodnota premennej Y pre i-tu hodnotu premenej X, x i i-ta hodnota premenej X, b 0 bodový odhad koeficientu B 0, b 1 bodový odhad koeficientu B 1, výberový regresný koeficient. Reziduá e i = y i ỹ i sú bodové odhady náhodných chýb ε i.
Metóda najmenších štvorcov Metóda najmenších štvorcov preloží medzi bodmi (x i,y i ) priamku, ktorá minimalizuje reziduálny súčet štvorcov SSE = n (y i ỹ i ) 2 = n ( yi (b 0 b 1 x i ) ) 2 min, i=1 i=1 čo vedie k odhadu koeficientov a k regresnej priamke b 1 = r sy s x, b 0 = y b 1 x. (21) ỹ i y = b 1 (x x). (22)
Štatistická významnost modelu (y i y) 2 i } {{ } SSY = (ỹ i y) 2 + (y i ỹ i ) 2 i i }{{}}{{} SSR SSE Mierou variability hodnôt y i je štandartná odchýlka reziduí s rez = SSE n 2 (23) a reziduálny rozptyl s 2 rez. Silu lineárnej závislosti merajú výberový koeficient determinácie r 2 a korigovaný koeficient determinácie r 2 adj r 2 = SSR SSY, 0 r2 1, r 2 adj = 1 (1 r2 ) n 1 n 2. (24)
Testy hypotéz Celkový F-test linearity, H 0 : X, Y sú lineárne nazávislé proti H 1 : X, Y sú lineárne závislé. Testujúca štatistika a oblast zamietnutia H 0 F = SSR/1 SSE/(n 2), F > F 1 α,n 2. (25) T-test nezávislosti H 0 : B 1 = 0 proti H 1 : 1. B 1 0, 2. B 1 > 0, 3. B 1 < 0. Testujúca štatistika T = b 1 s(b 1 ),s(b 1) = s rez i (x i x) 2 (26) a oblast zamietnutia H 0 je 1. t > t 1 α/2,n 2, 2. t > t 1 α,n 2, 3. t < t 1 α,n 2.
Príklad 15 Vypočítajte metódou najmenších štvorcov odhady koeficientov regresnej priamky medzi vekom a počtami dní absencie a nakreslite ju. Posúd te štatistickú významnost tohoto modelu a vypočítajte intervaly spol ahlivosti pre regresné koeficienty i priemernú a individuálnu hodnotu závislej premennej. ;-) Použite nástroj Analýza dat/regrese.
Príklad 15a Obrázok 16: Čast výsledkov ponúkaných procedúrou Regrese.
Príklad 15b Obrázok 17: Grafy ponúkaných procedúrou Regrese.
Priebehové a regulačné diagramy Priebehový diagram je časový rad {x t } m 1, kde hodnota x t udáva hodnotu meratel ného parametra X v čase t = 1, 2,...,m. Pre výrobný proces je zadaná: dolná tolerančná medz LCL Lower specification limit horná tolerančná medz U CL Upper specification limit Regulačný diagram [3] je priebehový diagram, v ktorom sa konštruujú regulačné medze LCL x t UCL z n výberov vykonaných v čase t. Nech je znakom X chybný výrobok. NP r.d.: x t je počet chybných výrobkov R r.d.: x t /n podiel chybných výrobkov monitoruje dodržiavania regulačných medzí.
R regulačný diagram V každom z m okmihov vyberáme z n náhodne vybraných výrobkov. Ak x t je počet chybných výrobkov v t-tom výbere, p t = x t /n je ich podiel a p = 1 m m t=1 p t je celkový priemer podielu chybných výrobkov, potom LCL = p 3 p(1 p), UCL = p + 3 n p(1 p). (27) n Príklad 16.: Stavebná firma vykonala v 23 dňoch kontrolu plnenia plánu výstavby tak, že v náhodne vybrala 9 stavieb a zistila tam celkové počty sklzov voči plánu. Vypočítajte hodnoty regulačných medzí LCL a UCL pre podiel stavieb so sklzmi a zostrojte pre ne R regulačný diagram.
Ďalšie štúdium... Referencie [1] JUREČKOVÁ M., MOLNÁROVÁ I.: Štatistika s Excelom, AOS, Liptovský Mikuláš, 2005, ISBN 80-8040-257-4 [2] ŠTASTNÝ Z.: Matematické a statistické výpočty v Microsoft Excelu, Computer Press, Praha, 1999, ISBN 80-7226-141-X [3] CHAJDIAK J., RUBLÍKOVÁ E., GUDÁBA M.: Štatistické metódy v praxi, Statis, Bratislava, 1994, ISBN 80-85659-02-6 [4] LIKEŠ J., MACHEK J.: Matematická statistika, Sešit XI, MVŠT SNTL, Bratislava, 1988