Cvičenia zo ŠTATISTIKY v Exceli Kurz IPA-Slovakia, september 2008, VYHNE



Σχετικά έγγραφα
Matematika Funkcia viac premenných, Parciálne derivácie

Základy matematickej štatistiky

Základy metodológie vedy I. 9. prednáška

Chí kvadrát test dobrej zhody. Metódy riešenia úloh z pravdepodobnosti a štatistiky

Spojité rozdelenia pravdepodobnosti. Pomôcka k predmetu PaŠ. RNDr. Aleš Kozubík, PhD. 26. marca Domovská stránka. Titulná strana.

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy

Štatistické riadenie procesov Regulačné diagramy 3-1

7. FUNKCIE POJEM FUNKCIE

1. Limita, spojitost a diferenciálny počet funkcie jednej premennej

Matematika prednáška 4 Postupnosti a rady 4.5 Funkcionálne rady - mocninové rady - Taylorov rad, MacLaurinov rad

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy

Obvod a obsah štvoruholníka

Reprezentácia dát. Ing. Martin Mariš, Katedra regionalistiky a rozvoja vidieka, SPU, NITRA

Start. Vstup r. O = 2*π*r S = π*r*r. Vystup O, S. Stop. Start. Vstup P, C V = P*C*1,19. Vystup V. Stop

ARMA modely čast 2: moving average modely (MA)

TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ. Zdroje: Kompendium statistického zpracování dat, VPS s r. o.

KATEDRA DOPRAVNEJ A MANIPULAČNEJ TECHNIKY Strojnícka fakulta, Žilinská Univerzita

Cvičenie č. 4,5 Limita funkcie

4. domáca úloha. distribučnú funkciu náhodnej premennej X.

Hľadanie, skúmanie a hodnotenie súvislosti medzi znakmi

Motivácia Denícia determinantu Výpo et determinantov Determinant sú inu matíc Vyuºitie determinantov. Determinanty. 14. decembra 2010.

Motivácia pojmu derivácia

ARMA modely čast 2: moving average modely (MA)

Rozdiely vo vnútornej štruktúre údajov = tvarové charakteristiky

Ekvačná a kvantifikačná logika

Testy dobrej zhody. H 0 : f(x) = g(x) ; H 1 : f(x) g(x)

6 Limita funkcie. 6.1 Myšlienka limity, interval bez bodu

Priamkové plochy. Ak každým bodom plochy Φ prechádza aspoň jedna priamka, ktorá (celá) na nej leží potom plocha Φ je priamková. Santiago Calatrava

Metódy vol nej optimalizácie

HANA LAURINCOVÁ KLASICKÝ VS. NEPARAMETRICKÝ PRÍSTUP Štatistika Poistná matematika

3. Striedavé prúdy. Sínusoida

Matematika 2. časť: Analytická geometria

ŠTATISTICKÉ METÓDY VPRAXI

Hypotézy a intervaly spoľahlivosti stručná teória a vzorce

Určite vybrané antropometrické parametre vašej skupiny so základným (*úplným) štatistickým vyhodnotením.

Základy práce s ekonometrickým programom GRETL

Pravdepodobnostné modelovanie inverznými distribučnými funkciami: Charakteristiky kvantilových rozdelení

Komplexné čísla, Diskrétna Fourierova transformácia 1

1. písomná práca z matematiky Skupina A

Testy hypotéz o parametroch normálneho rozdelenia.

Goniometrické rovnice a nerovnice. Základné goniometrické rovnice

Vektorový priestor V : Množina prvkov (vektory), na ktorej je definované ich sčítanie a ich

Funkcie - základné pojmy

Ing. Andrej Trnka, PhD. Základné štatistické metódy marketingového výskumu

Pravdepodobnostné modelovanie inverznými distribučnými funkciami : Kvantilová deskriptívna analýza ako východisko ku kvantilovému modelovaniu

Štatistické spracovanie experimentálnych dát

Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Viktor Szabados. jednoduchou regresi. Katedra pravděpodobnosti a matematické statistiky

11 Štatistická prebierka

MIDTERM (A) riešenia a bodovanie

Príručka ku kurzu SPÔSOBILOSŤ PROCESU

4 Regulačné diagramy na reguláciu meraním

Moderné vzdelávanie pre vedomostnú spoločnosť Projekt je spolufinancovaný zo zdrojov EÚ M A T E M A T I K A

ŠTATISTIKA. Obsah. Predmet štatistiky Popisná štatistika Štatistické charakteristiky jednorozmerných rozdelení.. 17

Teória pravdepodobnosti

ANALÝZA VÝKONNOSTI CALL CENTRA POMOCÍ STATISTICKÝCH METOD

množiny F G = {t1, t2,, tn} T a pre ľubovoľný valec C so základňou B1, B2,, Bn v bodoch t1, t2,, tn, takou, že pre t G - F je Bt = E, platí PF(C) = PG

PREHĽAD ÚDAJOV. 1. Početnosť

2 Chyby a neistoty merania, zápis výsledku merania

HASLIM112V, HASLIM123V, HASLIM136V HASLIM112Z, HASLIM123Z, HASLIM136Z HASLIM112S, HASLIM123S, HASLIM136S

Matematika 2. časť: Funkcia viac premenných Letný semester 2013/2014

7 Derivácia funkcie. 7.1 Motivácia k derivácii

6 APLIKÁCIE FUNKCIE DVOCH PREMENNÝCH

Univerzita Pardubice

Regresná analýza x, x,..., x

FUNKCIE N REÁLNYCH PREMENNÝCH

Definícia parciálna derivácia funkcie podľa premennej x. Definícia parciálna derivácia funkcie podľa premennej y. Ak existuje limita.

Goniometrické substitúcie

Využitie programu Microsoft Excel pri ekonometrickom modelovaní

UČEBNÉ TEXTY. Pracovný zošit č.2. Moderné vzdelávanie pre vedomostnú spoločnosť Elektrotechnické merania. Ing. Alžbeta Kršňáková

Lineárna algebra I - pole skalárov, lineárny priestor, lineárna závislosť, dimenzia, podpriestor, suma podpriestorov, izomorfizmus

24. Základné spôsoby zobrazovania priestoru do roviny

x j hodnota štatistického znaku x - aritmetický priemer ni absolútna početnosť m počet tried hšt ti ti kéh m počet tried hšt ti ti kéh

M6: Model Hydraulický systém dvoch zásobníkov kvapaliny s interakciou

Základné poznatky molekulovej fyziky a termodynamiky

Vyhlásenie o parametroch stavebného výrobku StoPox GH 205 S

x x x2 n

Reálna funkcia reálnej premennej

Modelovanie dynamickej podmienenej korelácie kurzov V4

Numerické metódy Učebný text pre bakalárske štúdium

Požiadavky k štátnej skúške pre magisterský študijný program

23. Zhodné zobrazenia

,Zohrievanie vody indukčným varičom bez pokrievky,

Kompilátory. Cvičenie 6: LLVM. Peter Kostolányi. 21. novembra 2017

ÚLOHA Č.8 ODCHÝLKY TVARU A POLOHY MERANIE PRIAMOSTI A KOLMOSTI

primitívnoufunkcioukfukncii f(x)=xnamnožinereálnychčísel.avšakaj 2 +1 = x, tedaajfunkcia x2

Návrh vzduchotesnosti pre detaily napojení

NUMERICKÁ MATEMATIKA. Moderné vzdelávanie pre vedomostnú spoločnosť/ Projekt je spolufinancovaný zo zdrojov EÚ. Fakulta elektrotechniky a informatiky

Numerické metódy, pravdepodobnosť a matematická štatistika

ss rt çã r s t Pr r Pós r çã ê t çã st t t ê s 1 t s r s r s r s r q s t r r t çã r str ê t çã r t r r r t r s

Numerické metódy, pravdepodobnosť a matematická štatistika. Ján BUŠA Viktor PIRČ Štefan SCHRÖTTER

Obsah. Motivácia a definícia. Metódy výpočtu. Problémy a kritika. Spätné testovanie. Prípadová štúdia využitie v NBS. pre 1 aktívum pre portfólio

Tomáš Madaras Prvočísla

Numerické metódy Zbierka úloh

Margita Vajsáblová. ρ priemetňa, s smer premietania. Súradnicová sústava (O, x, y, z ) (O a, x a, y a, z a )

3. prednáška. Komplexné čísla

Kontrolné otázky na kvíz z jednotiek fyzikálnych veličín. Upozornenie: Umiestnenie správnej a nesprávnych odpovedí sa môže v teste meniť.

Súradnicová sústava (karteziánska)

FORMULAS FOR STATISTICS 1

Odporníky. 1. Príklad1. TESLA TR

Transcript:

Cvičenia zo ŠTATISTIKY v Exceli Kurz IPA-Slovakia, september 2008, VYHNE doc. RNDr. Štefan PEŠKO, CSc. stefan.pesko@fri.uniza.sk, http://frcatel.fri.uniza.sk/pesko/ Katedra matematických metód, Fakulta riadenia a informatiky, Žilinská univerzita v Žiline, Univerzitná 8215/1, 010 26 Žilina

Obsah Spracovanie štatistického súboru Popisné štatistiky Náhodný výber vzoriek Rozdelenia matematickej štatistiky Odhady parametrov Testovanie štatistických hypotéz Analýza rozptylu (ANOVA) Korelačná a regresná analýza Priebehové a regulačné diagramy Príklady k cvičeniam sú v zošite STATISTIKA.XLS.

Spracovanie štatistického súboru Štatistickým znakom X rozumieme vlastnost, ktorú sledujeme na jednotkách štatistického súboru daného rozsahu. Základný štatistický súbor rozsahu N predstavuje množinu všetkých štatistických jednotiek z ktorého pozorujeme len jeho čast tzv. výberový súbor rozsahu n < N a z jeho hodnôt x i sledovaného znaku X odhadujeme vlastnosti (parametre) základného súboru. Excel: ponúka štatistické funkcie, ktoré môžeme vyvolat z menu vol bou Vložit /Funkcia.../štatistické. Predspracovaný prístup k vybraným štatistickým procedúram umožňuje vol ba Nástroje/Analýza dat...

Popisné štatistiky polohy Máme základný štatistický súbor rozsahu N a s hodnotami (x 1,x 2,...,x N ) skúmanej premennej X. Predpokladáme, že hodnoty štatistických jednotiek x 1,x 2,...,x N sú umietnené v súvislom poli buniek x 1 : x N excelovskej tabul ky. Aritmetický priemer x = 1 N N i=1 x i, udáva aký objem hodôt premennej X pripadá na jednu jednotku súboru. Excel: AV ERAGE(x 1 : x N ). Medián M e udáva hodnotu, ktorá súbor hodnôt delí na dve rovnako pravdepodobné časti. Excel: MEDIAN(x 1 : x N ). Modus M O udáva najčastejšie sa vyskytujúcu hodnota znaku X súboru. Excel: MODE(x 1 : x N ).

Popisné štatistiky variability Variačné rozpätie V R = x max x min, je určené rozdielom maximálnej a minimálnej hodnoty premennej X v súbore. Excel: MAX(x 1 : x N ) MIN(x 1 : x N ). Rozptyl σ 2 = 1 N N i=1 (x i x) 2 udáva priemerný štvorec odchýlky od priemeru. Excel: V ARP(x 1 : x N ). Štandartná (smerodajná) odchylka σ = σ 2 udáva ako sa v priemere ochylujú hodnoty od aritmetického priemeru. Excel: STDEV P(x 1 : x N )). Štandartná chyba (strednej hodnoty) SE = σ N. Excel: nie je podporovaná. Absolútna odchylka d = 1 N N i=1 x i x Excel: AV EDEV (x 1 : x N ).

Analytický nástroj Popisná štatistika Rýchly obraz o parametroch súboru v tvare tabul ky ponúkajú v Exceli Analytické nástroje pod vol bou Popisná štatistika. POZOR: Pod názvom rozptyl výberu a smerodatná odchýlka výberu tu nenájdeme údaje získané funkciami V ARP() a STDEV P() ale ich výberové verzie V AR() a STDEV ()! Príklad 1 : Stavebný podnik zavádzajúci nový druh výrobku NOBASIL sledoval spokojnost prvých 50 zákazníkov. Každý z nich vyplnil dotazník, kde okrem iného ohodnotil spokojnost z novým výrobkom v 100 bodovej stupnici. Vypočítajte popisné štatistiky pomocou procedúry aj štatistických funkcií. Nakreslite histogram početností hodnotenia.

Príklad 1 Obrázok 1: Hodnotenia NOBASILu sú generované procedúrou Generátor pseudonáhodných čísel Binomické rozdelenie Bi(0.5, 100) a hodnoty štatistík procedúrou Popisná statistika.

Náhodný výber vzoriek Náhodna veličina X je zobrazenie X : Ω 0, 1, kde Ω je priestor javov a X(ω) je realizácia náhodnej veličiny. Hodnoty vzoriek (x [1],x [2],...,x [n] ) skúmanej náhodnej premennej X zo základného súboru (x 1,x 2,...,x N ): Jednoduchý náhodný výber každý prvok základného súboru má rovnakú pravdepodobnost stat sa prvkom výberového súboru. Oblastný náhodný výber základný súbor môže byt tvorený oblast ami skupinami jednotiek, pričom prvky v každej skupine sú si nejako podobné ale navzájom sa líšia. Systematický náhodný výber rozdelíme N-prvkovú množinu do n skupín po k prvkov a vyberáme z každej skupiny náhodne jeden prvok kým nemáme n-prvkový náhodný výber..

Vzorkovanie v Exceli Príklad 2 : Nadnárodná stavebná firma vlastní siet 100 prevádzok denne realizujúcich 8000 telefonických rezervácii zakázok. Ukazovatel om kvality služib je aj doba od prvého zazvonenie po prebratie hovoru zodpovedným pracovníkom. Spoločnost chce vykonat inšpekciu pomocou 30-tich telefonických rezervácii. Generujte základný súbor. Vytvorte z neho jednoduchý náhodý výber 60 rezervácií a tiež zodpovedajúci oblastný výber, ak sa naviac predpokladá, že spoločnost považuje čakanie od 30 sekúnd za nežadúce. Navrhnime systematický náhodný výber 20-tich prevádzok so znakom priemernej doby rezervácie. :-) Doby čakania v základnom súbore generujte funkciou z kategórie matematická analýza RAN DBET W EEN(5, 60) a použite analytický nástroj Vzorkování.

Príklad 2 Obrázok 2: Základný a výberové súbory hodnotenia kvality telefonickej rezervácie zakázok.

Diskrétna náhodná veličina Zákonom rozdelenia diskrétnej náhodnej veličiny X nadobúdajúcej konečný počet hodnôt x 1,x 2,...,x n je pravdepodobnostná funkcia: P(X = x i ) = p i, kde i = 1, 2,...,n, pričom n i=1 p i = 1. Charakteristiky: stredná hodnota E(X), rozptyl D(X) a štandartná odchýlka σ(x): E(X) = n x i p i D(X) = n (x i E(X)) 2 p i σ(x) = (D(X)). i=1 i=1

Niektoré diskrétne rozdelenia Diskrétne rovnomerné rozdelenie R(n): X {1, 2,...,n} a P(X = k) = 1/n, E(X) = n+1 2 a D(X) = n2 1 2. Excel: RANDBETWEEN(a,b), vracia čísla z {a,a + 1,...,b}. Alternatívne rozdelenie A(p): X {0, 1} a P(X = 1) = p, E(X) = p a D(X) = p(1 p). Excel: Generátor pseudonáhodních čísel/bernoulliho. Udáva, že jav nastáva s pravdepodobnost ou p. Binomické rozdelenie Bi(p,n): X {0, 1, 2,...,n} a p x = P(X = x) = ( n x) p x (1 p) n x, E(X) = np a D(X) = np(1 p). Excel: Generátor pseudonáhodních čísel/binomické. Udáva počet výskytov nejakého javu, ktorý nastáva s pravdepodobnost ou p v sérii n pokusov.

Príklad 3 Obrázok 3: Generátor pseudonáhodných čísel.

Spojitá náhodná veličina Zákonom rozdelenia spojitej náhodnej premennej X a, b je hustota rozdelenia pravdepodobnosti f(x); definuje distribučnú funkciu F(x) vzt ahom: F(x) = P(X < x) = x f(t)dt. Charakteristiky: stredná hodnota E(X), rozptyl D(X) a štandartná odchýlka σ(x): E(X) = xf(x)dx D(X) = E ( [X E(X)] 2) σ(x) = (D(X))

Kvantil a kritická hodnota Nech 0 < α < 1 je l ubovol né reálne číslo. Potom 100 α-percentným kvantilom skrátene α-kvantilom sa rozumie hodnota x α spojitej náhodnej premennej X pre ktorú je P(X x α ) = α. (1) 100 α-percentná kritická hodnota sa rozumie tá hodnota X pre ktorú je P(X x α ) = α. (2) Kolmica v bode x α rozdelí obsah pod grafom funkcie hustoty f(x) na l avú čast s obsahom α a pravú s 1 α. Pozor, α-kvantil je (1 α) kritická hodnota!!

Normálne rozdelenie Premenná X z N(µ,σ 2 ) má funkciou hustoty f(x) = 1 ( σ 2π exp 1 ( x µ ) 2 ). 2 σ Pre µ = 0,σ 2 = 1 máme štandartizované normálne rozdelenie N(0, 1) s hustotou φ(x) a distribučnou funkciou Φ(x) a platí: f(x) = 1 σ φ ( x µ σ ), F(x) = Φ Chrakteristiky: E(X) = µ,d(x) = σ 2. ( x µ Excel: F(x), f(x) a Φ(z) má NORMDIST(x,µ,σ, 1), NORMDIST(x,µ,σ, 0) a NORMDIST(z). Príslušný kvantil x α má v NORMSINV (α) resp. NORMINV (α,µ,σ). σ ).

Príklad 4 Obrázok 4: Hustota, distribučná funkcia, kvantil a kritická hodnota normálneho rozdelenia.

Pravidlo troch sigma pre N(µ, σ 2 ) P( X µ < kσ) = 2Φ(1) 1 = 0.6826 ak k = 1 2Φ(2) 1 = 0.9544 ak k = 2 2Φ(3) 1 = 0.9974 ak k = 3. Z jednotkovej plochy ohraničenej funkciou f(x) leží nad intervalom (µ σ,µ + σ) 68.26% plochy, nad intervalom (µ 2σ,µ + 2σ) 95.44% plochy a nad intervalom (µ 3σ,µ + 3σ) až 99.74% plochy. Pravidlo sa využíva v praxi na prvý odhad štandartnej odchýlky σ pre náhodnú premennú X u ktorej sa predpokladá rozdelenie N(µ,σ 2 ). Stačí ak šírku rozsahu určenú najväčšou a najmenšou X vydelíme šiestimi.

Chi-kvadrát rozdelenie Chi-kvadrát rozdelenie χ 2 (n) náhodná premenná χ 2 ktorá vznikne súčtom štvorcov n nezávislých náhodných premených X 1,X 2,...,X n zo štandartizovaného normálneho rozdelenia N(0, 1) χ 2 = X 2 1 + X 2 2 + + X 2 n. Parameter n sa nazýva stupeň vol nosti (degree of freedom). Charakteristiky: E(χ 2 (n)) = n,d(χ 2 (n)) = 2n. Pre n 30 možno toto rozdelenie aproximovat normálnym N(n, 2n). POZOR!!! v Exceli je tabelovaná doplnková distribučná funkcia 1 F(x) v tvare CHIDIST(x,n) a príslušný kvantil x α,n ako CHIINV (1 α,n).

Príklad 5 Obrázok 5: Aproximácia χ 2 (n) rozdelenie normálnym N(n,2n) pre n 30.

Studentove rozdelenie t-rozdelenie má náhodná premenná T ktorá vznikne podielom nezávislých náhodných premenných X z normálneho rozdelenia a N(0, 1) a χ 2 z rozdelenia χ 2 (n) T = X χ 2. Parameter n sa nazýva stupeň vol nosti Studentovho rozdelenia. Platí E(T) = 0. Pre n 30 možno toto rozdelenie aproximovat normovaným normálnym rozdelením N(0, 1). Excel: TINV (α,n) = t P( X > t) = α; TDIST(x,n, 1) = P(X > x), TDIST(x,n, 2) = P( X > x). n

Príklad 6 Obrázok 6: N(0,1) pre n 30. Aproximácia Studentovho rozdelenie normálnym

Fisherovo rozdelenie F-rozdelenie má náhodná premenná F ktorá vznikne podielom dvoch χ 2 náhodných premenných χ 2 1 a χ2 2 so stupňami vol nosti n 1 a n 2 F = χ 2 1 n 1 χ 2 2 n 2. Parametre n 1,n 2 sa nazývajú stupňami vol nosti Fisherovho rozdelenia. Excel: FDIST(x,n 1,n 2 ) = 1 F(x) a F 1 α = FINV (α,n 1,n 2 ).

Príklad 7 Obrázok 7: Graf hustoty Fisherovho rozdelenia pomocou distibučnej funkcie FDIST(x,n 1,n 2 ); platí f(x) = F (x).

Hl adanie kvantilov v EXCELi Zadaná Nájdený Funkcia pravdepodobnost kvantil NORMSINV () α z α 1 α z 1 α TINV () α t 1 α/2 2α t 1 α CHINV () α χ 2 1 α 1 α χ 2 α FINV () α F 1 α 1 α F α

Bodové odhady parametrov Pri bodovom odhade parametra Θ odhadujeme neznámy parameter základného súboru pomocou jednej hodnoty. Výberová štatistika U n dáva: neskreslený odhad parametra Θ ak konzistentný odhad parametra Θ ak E(U n ) = Θ, (3) lim P( U n Θ < ǫ) = 1, n výdatný odhad parametra Θ ak platí, že zo všatkých štatistík davajúcich neskreslený odhad parametru má U n najmenší rozptyl. Základné štatistiky majú uvedené vlastnosti kvality odhadu.

Intervalové odhady parametrov Pri intervalovom odhade parametra Θ odhadujeme neznámy parameter základného súboru intervalom (θ 1,θ 2 ). Interval (θ 1,θ 2 ) pre ktorý platí P(θ 1 < Θ < θ 2 ) = 1 α, (4) sa nazýva 100(1 α)% dvojstranný (obojstranný) intervalovom spol ahlivosti pre parameter Θ. Ak nás zaujímaju len intervaly typu (,θ 2 ) resp. (θ 1, ) hovoríme o jednostranných intervaloch spol ahlivosti. Číslo 1 α sa nazýva hladina spol ahlivosti a pravdepodobnost α nazývame riziko odhadu.

Odhad priemeru Príklad 8a (Interval spol ahlivosti pre odhad priemeru µ): Zaujíma nás 95% obojstranný intervalový odhad priemného počtu bodov, ktorými 50-ti zákazníci ohodnotili spokojnost s novým výrobkom NOBASIL. :-) ( S S ) x t 1 α,n 1 2 n,x + t 1 α,n 1 2 n, (5) kde t 1 α 2,n 1 je príslušný kvantil t-rozdelenia. Excel: 1) Procedúra Popisná štatistika, kde vol bou hodnoty 95 v položke Hladina spolehlvosti pro střední hodnotu určíme hladinu spol ahlivosti 100(1 α) = 95%. 2) Štatistické funkcie: AV ERAGE(x 1 : x n ),STDEV (x 1 : x n ),TINV (α,n 1).

Príklad 8a Obrázok 8: Interval spol ahlivosti pre priemernú spokojnost µ s výrobkom ( NOBASIL je vždy čast ou príslušného konfidenčného intervalu x z 1 α σ 2 n,x + z 1 α σ 2 n ).

Odhady rozptylu Príklad 8b (Interval spol ahlivosti pre odhad rozptylu σ 2 ): Určte 95% a 99% obojstranné i jednostranné intervalové odhady rozptylu počtu bodov hodnotenia výrobku. :-) pre obojstranný interval: ( (n 1)S 2 χ 2 1 α 2,n 1, (n 1)S 2 χ 2 α 2,n 1 ). (6) kde χ 2 α 2,n 1 a χ2 1 α 2,n 1 sú kvantily rozdelenia χ2 (n 1). Excel: Štatistické funkcie nesymetrických kvantilov CHIINV (1 α 2,n 1) a CHIINV (α 2,n 1).

Príklad 8b Obrázok 9: Obojstranný a jednostranné intervaly spol ahlivosti pre rozptyl spokojnosti σ 2 s výrobkom NOBASIL.

Testovanie štatistických hypotéz Testovaním hypotéz nazývame štatistické overovanie predpokladu o parametroch resp. rozdelení základného súboru na základe výsledkov získaných z náhodného výberu. Jednoduchá nulová hypotéza o hodnote parametra θ základného súboru H 0 : θ = θ 0. (7) proti alternatívnym hypotézam H 1 : θ θ 0 dvostranná, (8) H 1 : θ > θ 0 pravostranná, (9) H 1 : θ < θ 0 l avostranná. (10)

Chyby pri testovaní hypotéz Chyba prvého druhu, ak zamietneme H 0 aj napriek tomu že platí, a to s pravdepodobnost ou α = P(zamietneme H 0 platíh 0 ). Chyba druhého druhu, ak prijmeme H 0 i napriek tomu že platí alternatívna hypotéza H 1, a to s pp. β = P(nezamietneme H 0 platíh 1 ). Testovanie hypotéz je založené na fakte, že nemožno α aj β súčasne minimalizovat a tak sa predpokladá vopred dané α tzv. hladina významnosti (level of significance) vo výške α = 0.01; 0.05; 0.1. Test je odvodený tak, aby pri danej hladine významnosti α zabezpečoval maximálnu silu testu 1 β.

Kritické oblasti hypotéz Testovacia štatistika (test statistic) Q je náhodná premenná, ktorá môže nadobúdat z oblasti prijatia hypotézy H 0 a oblasti zamietnutia hypotézy H 0 tzv. kritická oblast. Obe podmnožiny reálnych čísel sú disjunktné a hranice, ktoré ich oddel ujú sa nazývajú kritické hodnoty. Ak je (q 1,q 2 ) oblast prijatia hypotézy H 0 a (,q 1 ) (q 2, ) je oblast prijatia obojstrannej H 1 platí F(q 1 ) = α 2, F(q 2) = 1 α 2, (11) kde F(q) je kvantil Q. Podobne pre pravostrannú resp. l avostrannú H 1 je oblast prijatia H 0 interval (,q 2 ) resp. (q 1, ) a platí F(q 1 ) = α, resp. F(q 2 ) = 1 α. (12)

Testovanie H 0 : µ = µ 0 Príklad 9a (so známym rozptylom σ 2 ): Spoločnost zásobujúca stavebné firmy izolačným materiálom TI-140 tvrdí, že je ho schopná doručit v priemere za 4.5 dni. Predpokladajme, že chceme overit tento predpoklad na základe náhodného výberu 40 zásielok. Z predchádzajúceho doručovania zásielok vieme, že štandartná odchýlka času doručenia je 2.3 dni. :-) 1) Vygenerujeme zadanie príkladu t.j. náhodný výber z rozdelenia Bi(0.6, 7) rozsahu n = 40. 2) Testujeme H 0 : µ = µ 0 proti H 1 : µ µ 0 pomocou štatistiky Z = X µ 0 σ, kde µ 0 = 4,σ = 2.3. n 3) Oblast prijatia H 0 je interval ( z 1 α/2,z 1 α/2 ).

Príklad 9a Obrázok 10: Testovanie očakávanej hodnoty doby doručenia zásielky µ 0 pri známom rozptyle.

Testovanie µ 0, σ 2 0 Príklad 9b (s neznámym rozptylom σ 2 ): Manažéri zásobovacej spoločnosti namietajú, že na odhad štandartnej odchylky z dlhodobého zásobovania sa už nedá spol ahnút, lebo sa zlepšlii podmienky zásobovania. A skutočne, smerodajná odchýlka náhodného výberu je 1.16 dní. Možno už teraz súhlasit s ich tvrdením, že priemerná doba dodávky je priemerne 4.5 dni? Testovacou štatistikou je T = X µ 0 S a oblast prijatia n H 0 : µ = µ 0 proti H 1 : µ µ 0 je ( t 1 α/2,n 1,t 1 α/2,n 1 ). Príklad 9c (o rozptyle základného súboru): Manažéri chcú vediet, či môžu počítat so smerodajnou odchylkou menej než 2 dni. Testovacou štatistikou je W = (n 1)S2 a oblast zamietnutia σ0 2 H 0 : σ 2 = σ0 2 proti H 1 : σ 2 < σ0 2 je (,χ2 α,n 1 ).

Príklady 9b, 9c Obrázok 11: Testy pri neznámom rozptyle základného súboru.

Test zhody priemerov 2 súborov Máme dva výberové súbory X 1 a X 2 normálnym rozdelením znaku s neznámymi rozptylmi a testujeme H 0 : µ 1 = µ 2 ; 1. H 1 : µ 1 µ 2 2. H 1 : µ 1 > µ 2 3. H 1 : µ 1 < µ 2 Dvojvýberový z-test na strednú hodnotu, nezávislé súbory, (n 1,n 2 30) Z = X 1 X 2 S 2 1 n 1 + S2 2 n 1 ; 1. z > z 1 α/2 2. z > z 1 α 3. z < z 1 α. Dvojvýberový párový t-test na strednú hodnotu, závislé T = X 1 X 2 S 2 1 n 1 + S2 2 n 1 ; 1. t > t 1 α/2 2. t > t 1 α 3. t < t 1 α.

Test zhody rozptylov 2 súborov Máme dva výberové súbory s normálnym rozdelením znaku X a testujeme H 0 : σ 2 1 = σ 2 2; 1. H 1 : σ 2 1 σ 2 2 2. H 1 : σ 2 1 > σ 2 2 3. H 1 : σ 2 1 < σ 2 2. Dvojvýberový F-test pre rozptyl, nezávislé, (ν i = n i 1) F = S 2 1 /S2 2 1. f < F α/2,ν1,ν 2 alebo f > F 1 α/2,ν1,ν 2 2. f > F 1 α,ν1,ν 2 3. f < F α,ν1,ν 2. Dvojvýberový párový t-test s rovnost ou rozptylov Dvojvýberový párový t-test s nerovnost ou rozptylov ;-) kuk Help pre Nástroje/Analýza údajov/dvojvýberový...

Zhoda priemerov a rozptylov Príklad 10 : Oddelenie marketingu stavebnej firmy chce overit účinnost novej stratégie kladúcej väčší dôraz na spokojnost zákazníkov ako na zisk. Pred zavedením zmien firma oslovila náhodne 40 firiem a po zavedení d alších 40 firiem. 1) Môžeme na základe výsledkov výberového zist ovania urobit záver, že vplyvom zmien vzrástla spokojnost zákazníkov? 2) Zmenilo zavedené opatrenie rozptyl spokojnosti zákazníkov? :-) 1) Testujte H 0 : µ 1 = µ 2 proti H 1 : µ 1 < µ 2. 2) Testujte H 0 : σ 2 1 = σ2 2 proti H 1 : σ 2 1 σ2 2. Poznámka: p-hodnota je najnižšia hladina α na zamietnutie H 0. Teda H 0 zamietame ak α p resp. H 0 prijímame ak α < p. Pozor, p-hodnota pre dvostranný test je dvojnásobok p-hodnoty pre jednostranný test.

Príklad 10 Obrázok 12: Dvojvýberové testy zhody priemerov a rozptylov.

Pearsonov χ 2 test dobrej zhody Náhodný výber rozsahu n 50 jednotiek sa rozdelí do r tried tak, aby počet jednotiek v každej triede bol najmenej 5. Porovnávajú sa empirické početnosti n i s teoretickými početnost ami np i v triedach pomocou štatistiky χ 2 = r i=1 (n i np i ) 2 np i, (13) kde p i - pravdepodobnost, že znak nadobudne hodnotu z i-tej triedy ak platí H 0 : premenná má dané rozdelenie. Testovacia štatistika má asymptoticky χ 2 r s 1 pričom s je počet odhadovaných parametrov pre výpočet p i. Nulová hypotéza H 0 proti nonh 0 sa na hladine významnosti α zamietne ak χ 2 > χ 2 1 α.

Test dobrej zhody Obrázok 13: Test normálneho rozdelenia súboru z príkladu 1.

Analýza rozptylu (ANOVA) ANalysis Of VAriance porovnáva priemery r výberových súborov rozsahu n i z N(µ i,σ 2 ) testovaním vplyvu úrovní α i,β i,... faktora A,B,... na variabilitu hodnôt premennej X. jednofaktorová ANOVA x ij = µ i + ε ij = µ + α i + ε ij, (14) kde ε ij je odchýlka j-tej štatistickej jednotky i-teho súboru má N(0,σ 2 ), dvojfaktorová ANOVA x ikj = µ + α i + β k + (αβ) ik + ε ikj, (15) kde ε ikj je odchýlka j-tej štatistickej jednotky úrovne i faktora A a úrovne k faktora B má N(0,σ 2 ).

Jednofaktorová ANOVA H 0 : µ 1 = µ 2 = = µ r H 1 : nie všetky µ i sa rovnajú, aspoň dva priemery sú rôzne. Testovacia štatistika má F-rozdelenie so stupňami vol nosti r 1 a n k: F = SST r 1 SSE n r,sse = r i=1 n i (x ij x i ) 2,SST = j=1 r i=1 n i (x i x) 2. Pri hladine významnosti α zamietneme H 0 ak platí F F 1 α,r 1,n r.

Príklad 12 Kontrolór stavebnej firmy zorganizoval v troch rôznych pobočkách testy spokojnosti zákazníkov so službami. Zákazníci známkovali služby pobočiek školským systémom 1 5. Výsledky kontroly boli vykonané v každej pobočke na vzorke 30-tich zákazníkov. Možno konštatovat, že priemerná spokojnost so službami je v sledovaných pobočkách zhodná? :-) 1) Štatistické datá generujte pre 3 firmy náhodným výberom z rozdelení Bi(0.4, 5); Bi(0.5, 5); Bi(0.6, 5) s náhodne ručne opravenými 0 hodnoteniamu. 2) Použite nástroj Analýza dát/ Anova: jeden faktor.

Jednofaktorová Anova Obrázok 14: Vnútroúrovňová variabilita SSE a medziúrovńová variabilita vysvelená jedným faktorom SST.

Dvojfaktorová ANOVA Vplyv faktoru A: H 0 : α 1 = α 2 = = α a = 0 H 1 : nie všetky α i sa rovnajú 0. Vplyv faktoru B: H 0 : β 1 = β 2 = = β b = 0 H 1 : nie všetky β k sa rovnajú 0. Vplyv interakcie (AB): H 0 : (αβ) ik = 0 pre všetky i = 1, 2,...,a;k = 1, 2,...,b H 1 : nie všetky (αβ) ik sa rovnajú 0.

Tabul ka analýzy dvojfakt. ANOVA Počet Suma Priemer Zdroj stupňov štvorcov štvorcov F variability vol nosti odchýlok odchýlok hodno Faktor A a 1 SSA MSA = SSA a 1 Faktor B b 1 SSB MSB = SSB b 1 Interakcia (a 1)(b 1) SSAB MAB = SSAB (a 1)(b 1) Reziduá ab(n 1) SSE MSE = SSE ab(n 1) Celkove abn 1 SST otal MSA MSE MSB MSE MAB MSE SSTotal = SSA + SSB + SSAB + SSE, n = n 1 = n 2 = = n r.

Príklad 13 Kontrolór sa domnieva, že spokojnost zákazníkov môžno ovplyvňujú vernostné balíčky poskytované vybraným zákazníkom. Výsledky kontroly boli vykonané v každej pobočke na vzorke 30-tich zákazníkov z ktorých 15 dostali v minulosti vernostný balíček. Zákazníci opät známkovali služby pobočiek školským systémom 1 5. Možno konštatovat, že priemerná spokojnost so službami je v sledovaných pobočkách zhodná bez ohl adu na vernostné balíčky? :-) Použite nástroj Analýza dát/ Anova: dva faktory bez/s opakováním.

Korelačná a regresná analýza Na skúmanie závislostí dvoch kvantitatívnych znakov X a Y slúži Korelačná analýza popisuje do akej miery premenná X vysvetl uje variabilitu premennej Y. Regresná analýza charakterizuje, ako sa mení závislá premenná Y pri zmenách nezávislej premennej X. Podl a počtu nezávislých premenných jednoduchá (párová) jedna nezávislá premenná, viacnásobná (mnohonásobná) aspoň dve nezávislé premenné. Bodový diagram zobrazuje body (x 1,y 1 ), (x 2,y 2 ),...,(x n,y n ) kde (x i,y i ) je konkrétna hodnota premenných X, Y nameraná na i-tej štatistickej jednotke.

Párová korelačná analýza Miery stupňa lineárnej závislosti premenných X, Y vo výberovom súbore rozsahu n Kovariancia medzi X, Y je číslo cov(x,y) = 1 n n (x i x)(y i y). (16) i=1 Výberový korelačný koeficient je skreslený bodový odhad korelačného koeficientu ρ x,y = cov(x,y)/σ x σ y r == n i=1 (x i x)(y i y) n i=1 (x i x) 2 n i=1 (y (17) i y) 2.

Test lineárnej nezávislosti Overuje sa platnost H 0 : ρ x,y = 0 oproti alternatatívnej hypotéze H 0 : ρ x,y 0 pomocou testovacej štatistiky T = r n 2 1 r2, (18) kde je oblast zamietnutia H 0 určená t > t 1 α/2,n 2. Príklad 14.: Pracovník personálneho oddelenia stavebnej firmy sa domnieva, že existuje lineárny vzt ah medzi vekom robotníkov a počtom dní absencie v práci, preto náhodne vyberie záznamy 15-tich robotníkov. Sú známe údaje o veku a počte dní absencie počas kalendárneho roka. Rozhodnite o opodstatnenosti tejto domnienky. :-) Použite funkciu CORREL(x 1 : x n ;y 1 : y n ).

Príklad 14 Obrázok 15: Dilema personalistu.

Jednoduchá lineárna regresia Ak na náhodnú premennú Y vplýva okrem X aj iné faktory potom body (x 1,y 1 ), (x 2,y 2 ),...,(x n,y n ) neležia na priamke. Rozložme hodnotu závislej premennej Y na deterministickú a náhodnú y i = η(x i ) + ε i,i = 1, 2,...,n. Funkcia η(x) je regresná funkcia, pri lineárnom vzt ahu je to regresná priamka kde y i = B 0 + B 1 x i + ε i,i = 1, 2,...,n (19) B 0 priesečník osy x s regresnou priamkou, B 1 regresný koeficient (smernica regresnej priamky), ε i i-ta náhodná chyba premennej Y.

Bodové odhady koeficientov Vyrovnávajúca regresná priamka je bodovým odhadom neznámej regresnej priamky v základnom súbore kde ỹ i = b 0 + b 1 x i,i = 1, 2,...,n (20) ỹ i očakávaná (vyrovnaná) hodnota premennej Y pre i-tu hodnotu premenej X, x i i-ta hodnota premenej X, b 0 bodový odhad koeficientu B 0, b 1 bodový odhad koeficientu B 1, výberový regresný koeficient. Reziduá e i = y i ỹ i sú bodové odhady náhodných chýb ε i.

Metóda najmenších štvorcov Metóda najmenších štvorcov preloží medzi bodmi (x i,y i ) priamku, ktorá minimalizuje reziduálny súčet štvorcov SSE = n (y i ỹ i ) 2 = n ( yi (b 0 b 1 x i ) ) 2 min, i=1 i=1 čo vedie k odhadu koeficientov a k regresnej priamke b 1 = r sy s x, b 0 = y b 1 x. (21) ỹ i y = b 1 (x x). (22)

Štatistická významnost modelu (y i y) 2 i } {{ } SSY = (ỹ i y) 2 + (y i ỹ i ) 2 i i }{{}}{{} SSR SSE Mierou variability hodnôt y i je štandartná odchýlka reziduí s rez = SSE n 2 (23) a reziduálny rozptyl s 2 rez. Silu lineárnej závislosti merajú výberový koeficient determinácie r 2 a korigovaný koeficient determinácie r 2 adj r 2 = SSR SSY, 0 r2 1, r 2 adj = 1 (1 r2 ) n 1 n 2. (24)

Testy hypotéz Celkový F-test linearity, H 0 : X, Y sú lineárne nazávislé proti H 1 : X, Y sú lineárne závislé. Testujúca štatistika a oblast zamietnutia H 0 F = SSR/1 SSE/(n 2), F > F 1 α,n 2. (25) T-test nezávislosti H 0 : B 1 = 0 proti H 1 : 1. B 1 0, 2. B 1 > 0, 3. B 1 < 0. Testujúca štatistika T = b 1 s(b 1 ),s(b 1) = s rez i (x i x) 2 (26) a oblast zamietnutia H 0 je 1. t > t 1 α/2,n 2, 2. t > t 1 α,n 2, 3. t < t 1 α,n 2.

Príklad 15 Vypočítajte metódou najmenších štvorcov odhady koeficientov regresnej priamky medzi vekom a počtami dní absencie a nakreslite ju. Posúd te štatistickú významnost tohoto modelu a vypočítajte intervaly spol ahlivosti pre regresné koeficienty i priemernú a individuálnu hodnotu závislej premennej. ;-) Použite nástroj Analýza dat/regrese.

Príklad 15a Obrázok 16: Čast výsledkov ponúkaných procedúrou Regrese.

Príklad 15b Obrázok 17: Grafy ponúkaných procedúrou Regrese.

Priebehové a regulačné diagramy Priebehový diagram je časový rad {x t } m 1, kde hodnota x t udáva hodnotu meratel ného parametra X v čase t = 1, 2,...,m. Pre výrobný proces je zadaná: dolná tolerančná medz LCL Lower specification limit horná tolerančná medz U CL Upper specification limit Regulačný diagram [3] je priebehový diagram, v ktorom sa konštruujú regulačné medze LCL x t UCL z n výberov vykonaných v čase t. Nech je znakom X chybný výrobok. NP r.d.: x t je počet chybných výrobkov R r.d.: x t /n podiel chybných výrobkov monitoruje dodržiavania regulačných medzí.

R regulačný diagram V každom z m okmihov vyberáme z n náhodne vybraných výrobkov. Ak x t je počet chybných výrobkov v t-tom výbere, p t = x t /n je ich podiel a p = 1 m m t=1 p t je celkový priemer podielu chybných výrobkov, potom LCL = p 3 p(1 p), UCL = p + 3 n p(1 p). (27) n Príklad 16.: Stavebná firma vykonala v 23 dňoch kontrolu plnenia plánu výstavby tak, že v náhodne vybrala 9 stavieb a zistila tam celkové počty sklzov voči plánu. Vypočítajte hodnoty regulačných medzí LCL a UCL pre podiel stavieb so sklzmi a zostrojte pre ne R regulačný diagram.

Ďalšie štúdium... Referencie [1] JUREČKOVÁ M., MOLNÁROVÁ I.: Štatistika s Excelom, AOS, Liptovský Mikuláš, 2005, ISBN 80-8040-257-4 [2] ŠTASTNÝ Z.: Matematické a statistické výpočty v Microsoft Excelu, Computer Press, Praha, 1999, ISBN 80-7226-141-X [3] CHAJDIAK J., RUBLÍKOVÁ E., GUDÁBA M.: Štatistické metódy v praxi, Statis, Bratislava, 1994, ISBN 80-85659-02-6 [4] LIKEŠ J., MACHEK J.: Matematická statistika, Sešit XI, MVŠT SNTL, Bratislava, 1988