PREHĽAD ÚDAJOV 1. Početnosť. Miery centrálnej tendencie a. Aritmetický priemer b. Medián c. Modus 3. Miery rozptylu a. Tvar b. Rozdelenie, rozloženie údajov c. Rozsah d. Rozptyl - variancia e. Smerodatná odchýlka 4. Grafické zobrazenie údajov 1. Početnosť Najjednoduchším spôsobom predstavenia údajov sú početnosti. Funkcia COUNT(od:do 1 ) v programe Excel vráti počet v príslušnom stĺpci, riadku alebo inak definovanom výbere (viac stĺpcov alebo riadkov), obr.1. Obrázok 0 Stanovenie počtu funkciou =COUNT(rozsah). Zložitejšie triedenia zisťovania početnosti sa ľahko uskutočňujú pomocou príkazu PIVOT TABLE and PIVOT CHART z ponuky DATA. V tomto príklade nemá praktický zmysel počítanie 1 Od je počiatočná adresa, do je konečná adresa bunky zoznamu
Pohlavie ako nezávislá premenná Určenie h Počt Obrázok 1 Tabuľka počtov meraní v jednotlivých premenných počtov meraní v jednotlivých premenných, keďže tieto sú rovnaké. Slúži ako príklad jednoduchej a rýchlej konštrukcie prehľadných tabuliek.. Miery centrálnej tendencie Ako už bolo spomenuté, číselným popisom výberu je štatistika. Táto môže mať formu umiestnenia, rozšírenia, indikátoru tvaru, percentilov a intervalových odhadov. Miery centrálnej tendencie poskytujú prvú predstavu o všeobecnom umiestnení údajov výberu na číselnej osi. Najbežnejšie používanou mierou centrálnej tendencie je aritmetický priemer. a. Aritmetický priemer Bežnou mierou centrálnej tendencie je aritmetický priemer. Získa sa spočítavaním všetkých hodnôt vo výbere a jej podieľom počtom hodnôt. N xi i x = = 1 Typicky sa náhodná premenná sa označuje ako x n i a posledná hodnota v konečnom rade hodnôt ako x n. je znak spočítavania (sumácie). Uvedený vzorec preto budeme čítať nasledovne: zober všetky hodnoty od 1 do n (počet všetkých členov výberu) a spočítaj ich. Súčet vydeľ celkovým počtom n. Výsledok je aritmetickým priemerom výberu (čiarka nad x). Vlastnosti priemeru ho určujú pre široké použitie. Prakticky všetky štatistické zisťovania robené na kvantitatívnych premenných využívajú aritmetický priemer pre získanie prvej informácie o vlastnostiach premennej. Jeho vlastnosti ho predurčujú pre časté použitie, jeho interpretácia nie je však bez problémov:
Jednoduchosť, je ľahko porozumiteľný a jednoducho vypočítateľný. Jeho porozumiteľnosť vedie k tomu, že aj deti v základnej škole sa rýchlo naučia používať priemer pre výpočet pravdepodobnej výslednej známky. Táto jednoduchosť a prirodzená zrozumiteľnosť vedie k nadužívaniu jeho použitia chybnej interpretácii výsledkov. Zo školy vieme, že nie vždy sa výsledná známka rovnala priemeru známok. Zapríčinili to medzi iným aj extrémne hodnoty (spomeňte si na očakávanie, že zlá známka bude ignorovaná). Citlivosť na extrémne hodnoty ovplyvňujú jeho hodnotu, takže v určitých prípadoch sa môže stať nepoužiteľným ako miera centrálnej tendencie. Ak žiak mal z nejakého predmetu nasledovné známky: 1, 3,, 1, 1, 1, 5 potom priemer známok bol, avšak ak by pani učiteľka nebrala do úvahy jedinú päťku, čo žiak dostal, potom by situácia bola iná 1, 3,, 1, 1, 1 s priemerom 1.5. Tu by sa mohla rozhodnúť aj pre jednotku ako výslednú známku. Unikátnosť určuje, že pre danú množinu údajov existuje jeden jediný priemer. b. Medián Medián konečnej množiny hodnôt je tá hodnota, ktorá rozdeľuje množinu na dve rovnaké časti, také, že počet hodnôt rovných alebo väčších ako medián sa rovná počtu hodnôt menších alebo rovných ako medián. Keď je počet hodnôt nepárny, potom bude medián prostrednou hodnotou zoradených meraní. Pokiaľ ich počet je párny, potom sú dve hodnoty v strede a mediánom je ich priemer. Ak by učiteľka žiaka používala medián pre hodnotenie, potom by výpočet vyzeral nasledovne: 1,1,1,1,,3,5 kde číslica 1 je presne v strede zoradených hodnôt. Ani odstránenie extrémnej hodnoty nezmení situáciu: 1,1,1,1,,3 kde stred zoradených hodnôt je medzi dvoma jednotkami. Vlastnosti mediánu ho predurčujú pre širšie použitie, ako je dnes bežným zvykom: Unikátnosť. Rovnako ako v prípade priemeru, jestvuje len jeden medián pre danú množinu údajov. Jednoduchosť vypočítania je rovnaká ako v prípade priemeru Citlivosť voči extrémnym hodnotám je menšia ako pri aritmetickom priemere, čižš nie je tak ľahko ovplyvniteľný ako priemer. Medián a priemer sa pre normálne rozdelenú premennú rovnajú (o rozdelení premenných ďalej). c. Modus V danej množine hodnôt je modus tá hodnota, ktorá sa vyskytuje najčastejšie. Možno ho s výhodou použiť pre popis kvalitatívnych údajov. V príklade so známkami modus bude opätovne jednotka. Najčastejšie sa používa pre hodnotenie skóre. Na príklade z predchádzajúcej kapitoly si ukážeme ako vypočítať všetky tri štatistiky v programe Excel. Použijeme funkcie AVERAGE(od:do), MEDIAN(od:do) a MODE(od:do) zo zoznamu štatistických funkcií. V druhom stĺpci pod ostatný údaj umiestnime jednotlivé
funkcie. Jednoduchým skopírovaním (príkazom COPY a PASTE) urobíme kópiu obsahu buniek do ďaľších stĺpcov. Výsledky sú na Obr.. Obrázok Výpočet mier centrálnej tendencie v programe Excel 3. Miery rozptylu Po stanovení centra údajov potrebujeme stanoviť ako blízko, resp. ako ďaleko sú údaje rozptýlené okolo stredu. Tento jav sa nazýva rozloženie, rozptyl alebo variabilita údajov. Rozptyl množiny pozorovaní popisuje rôznorodosť predstavovanú pozorovaniami. Ak by boli všetky dáta rovnaké, potom nie je prítomný žiaden rozptyl, ak sú dáta blízko pri sebe, potom je rozptyl malý. Jestvuje viacero mier rozptylu a každá z nich má iné vlastnosti. a. Tvar Tvar rozloženia popisuje tvar hodnôt zoskupených okolo číselnej osi. Je tento tvar symetrický alebo nesymetrický, je tam niekoľko vrcholov, alebo sú údaje zoskupené okolo jediného centra, tvoria údaje krivku v tvare zvonu? Na mnoho z uvedených otázok odpovie jednoduché grafické predstavenie údajov. Najčastejšie používanými mierami sú šikmosť a strmosť. Prvá miera kvantifikuje smer a chýbanie symetrie, čím je rozloženie šikmejšie, tým viac je potrebné používať silné mieru centrálnej tendencie medián. Šikmosť nadobúda kladné hodnoty pri posune do prava od stredu a negatívne hodnoty pri posune do ľava. Strmosť vypovedá o tom, nakoľko je rozloženie údajov ploché. Strmosť krivky normálneho rozdelenia je 0, iná hodnota hovorí o krivke strmšej alebo plochšej. Všeobecne platí, že čím je väčší počet meraní, tým presnejšie možno určiť tvar rozdelenia. Výpočet mier tvaru v Excel ilustruje obrázok 4. Je zrejmé, že všetky údaje sú značne ploché, ale pomerne symetrické okolo stredu. Na podrobnejšie skúmanie by bolo potrebné vybrať väčší súbor.
b. Rozdelenie, rozloženie údajov Popis tvaru rozloženia údajov vedie ku kategorizácii rozdelení. Najčastejšie sa spomína normálne rozdelenie údajov. Toto rozdelenie sa nazýva normálnym lebo vychádza zo samotného princípu štatistického zisťovania, teda náhodnosti výskytu javov. Ak sú javy náhodné, potom majú rovnakú pravdepodobnosť že sa uskutočnia. Napríklad hod kockou. Pri dostatočne veľkom počte hodov každá z číslic má rovnaký počet výskytov. Vtedy nie je čo skúmať pomocou štatistických metód. Pokiaľ je táto náhoda ovplyvnená nejakým faktorom, potom sa snažíme tento faktor identifikovať a zistiť k čomu vedie a čo ho spôsobuje. Iste nie je náhodné, že u niektorých ľudí sa prejaví cukrovka alebo vysoký krvný tlak. Podarilo sa vystopovať pomocou štatistických metód, že tento jav (ktorý by sa mohol javiť ako náhodný, pretože u niekoho sa vyskytne a u niekoho nie) závisí od viacerých faktorov a môžeme hovoriť o pravdepodonosti výskytu tohto javu u jednotlivca i v populácii. Pokiaľ sa niektorý jav, napríklad výška sústreďuje okolo nejakej hodnoty (priemeru) tak, že extrémne hodnoty smerom hore i dole sa vyskytujú výrazne menej, môžeme hovoriť o normálnom rozdelení. Potom vykreslenie frekvencie výskytu jednotlivých hodnôt má tvar zvonu, kde vrchol je priemer a smerom do prava a do ľava sa počet hodnôt znižuje. To potvrdzuje aj bežné pozorovanie, že okolo každého z nás je najviac priemerne vysokých ľudí a veľmi malých a veľmi vysokých je málo. Takéto rozdelenie charakterizuje priemer a medián, ktoré sú rovnaké, symetrickosť tvaru potvrdzuje symetria okolo stredu. Vlastnosť normálneho rozdelenia merania v populácii je veľmi dôležitá, pretože určuje, aký typ štatistických procedúr možno použiť. V prípade normálneho rozdelenia sa používajú parametrické testy, v prípade nie normálneho rozdelenia sa používajú neparametrické testy. Dôležité je mať na pamäti, že len na dostatočne veľkom súbore údajov možno uskutočniť stanovenie normálnosti rozdelenia. Miery, ktoré popisujú rozloženie údajov sú medzi inými: rozptyl, variabilita a smerodajná odchýlka. Obrázok 3 Výpočet rozsahu v programe Excel
c. Rozsah Rozsah je najjednoduchšou mierou rozptylu údajov. Vypočíta sa ako rozdiel medzi najmenšou a najväčšou hodnotou množiny pozorovaní. Jeho použitie je obmedzené, keďže do úvahy berie len dve hodnoty a preto značne závislý od extrémnych hodnôt. Výhodou je ľahká vypočítateľnosť. d. Rozptyl - variancia Presnejšou mierou rozloženia hodnôt je rozptyl resp. variancia. Výpočet je založený na spočítaní rozdielov hodnôt jednotlivých meraní od priemeru. Pred sčítaním sú tieto σ = n ( xi µ ) i= 1 N s = n ( xi x) i= 1 n 1 hodnoty umocnené na druhú, aby sa odstránil rozdiel v znamienkach. Súčet sa potom delí počtom meraní zmenšeným o jedno. Výpočet rozptylu pre populáciu sa označuje ako σ a pre výber z populácie ako s : Zo vzorca výpočtu vyplýva, že pokiaľ sú hodnoty množiny pozorovaní blízko seba, potom je ich rozptyl malý a naopak. Rozdiel n 1vo výpočte rozptylu sa nazýva počet stupňov voľnosti. Súčet odchýliek hodnôt od ich priemeru je rovný nule. Ak potom poznáme hodnoty n - 1 odchýliek od priemeru, potom pozáme aj n-tú hodnotu. e. Smerodatná odchýlka Smerodatná odchýlka je najčastejšie používanou mierou rozloženia údajov. Rozptyl predstavuje štvorce pôvodných hodnôt, po jeho odmocnení dostávame hodnotu, ktorá predstavuje originálnu hodnotu - smerodatnú odchýľku. Výpočet smerodatnej odchýľky s je analogický výpočtu rozptylu a doplnený záverečným odmocnením. Keď potrebujeme porovnať smerodajné odchýľky dvoch výberov smerodatná odchýľka vedie k chybe. Môže to byť z dôvodu rôznych jednotiek, v ktorých sú merané Všimnite si rozdiel v označovaní priemeru: priemer populácie (ktorý chceme spoznať) označujeme µ a pre priemer výberu sa používa označenie x. Taktiež označenie počtu meraní vo výbere označujeme písmenom n, pokiaľ veľkosť populácie písmenom N.
pozorovania alebo aj pri rovnakých jednotkách sa použijú množiny s dvoma výrazne rôznymi hodnotami. Vtedy je výhodné použiť bezrozmernú veličinu, nezávislú od jednotiek meraní: koeficient rozptylu. Tento sa vypočíta ako pomer smerodatnej odchýľky a priemeru výberu vynásobený sto. Výsledok je bezrozmerné číslo, nezávislé od jednotiek merania. Výpočet uvedených hodnôt ilustruje nasledovný príklad. s n ( xi x) i= 1 = n 1 s = s s cv = 100 x Obrázok 6 Výpočet štatistík v programe Excel Koeficient rozptylu možno interpretovať aj ako percento, ktoré predstavuje smerodatná odchýľka z priemeru hodnôt. Z údajov vyplýva, že najmenší rozptyl má premenná STK, hoci veľkosť smerodatnej odchýľky je najväčšia. To demonštruje užitočnosť použitia tejto odvodenej miery rozptylu. Mnohé štatistické programy ponúkajú štandardnú množinu popisu výberového súboru. V skriptách sme sa rozhodli používať štatistický program XL-STAT 3, ktorý predstavuje nadstavbu nad Excel a ponúka širokú paletu štatistických procedúr. Tento a podobné programy doporučujeme uprednostniť pred písaním vlastných štatistických procedúr. My však budeme pokračovať v ich používaní, pretože predstavujú šikovný spôsob demonštrácie jednotlivých krokov štatistických analýz a umožňujú nahliadnuť do ich podstaty. 3 Program je možno získať z Internetu na skúšobnú dobu 30 dní, na dlhšie používanie je potrebné program zakúpiť.
Rozsah Počet Priemer Šikmos ť Strmosť Rozptyl Smerodatná odchýľka Obrázok 7 Popis údajov programom XL-STAT 4. Grafické zobrazenie údajov Programy ako Excel ponúkajú širokú paletu možností zobrazenia údajov. Pre popis údajov údajov sa hodia najmä jednoduché bodové, stĺpcové a čiarové grafy. Ich príprava je popísaná v každej príručke Excel. Pre popis údajov a ich komplexné zobrazenie je veľmi užitočným box plot, čo by sa dalo preložiť ako vykreslenie v krabici. Budeme sa však držať pôvodného anglického názvu. Box plot graficky znázorňuje hlavné popisné miery centrálnej tendencie akými sú priemer a medián a tiež miery rozptylu: rozsah, prvý a tretí kvartil. Indikuje tiež tvar rozloženia hodnôt. Zobrazenie údajov STK a DTK z nášho príkladu indikuje, že sú približne normálne rozdelené (priemer a medián sú veľmi blízko), údaje nie sú symetrické okolo centra, ale v prípade STK sú posunuté do ľava a v prípade DTK do prava. Kvartily získame rozdelením rozsahu údajov (minimum maximum) na 4 rovnaké časti, taktiež poukazujú na tvar rozloženia hodnôt okolo stredu.
Medián Box plots Priemer premennej 80,000 81,364 DTK Umiestnenie priemeru premennej DTK 70,000 105,000 Maximum Pozícia mediánu 134,545 135,000 Minimu 115,000 STK 165,000 Tretia štvrtina (kvartil) dj 0 0 40 60 80 100 10 140 160 180 Prvá štvrtina (kvartil) údajov Obrázok 8 Box-plot