PREHĽAD ÚDAJOV. 1. Početnosť

Σχετικά έγγραφα
Matematika Funkcia viac premenných, Parciálne derivácie

Základy metodológie vedy I. 9. prednáška

Ekvačná a kvantifikačná logika

Obvod a obsah štvoruholníka

Chí kvadrát test dobrej zhody. Metódy riešenia úloh z pravdepodobnosti a štatistiky

Matematika prednáška 4 Postupnosti a rady 4.5 Funkcionálne rady - mocninové rady - Taylorov rad, MacLaurinov rad

7. FUNKCIE POJEM FUNKCIE

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy

1. Limita, spojitost a diferenciálny počet funkcie jednej premennej

Goniometrické rovnice a nerovnice. Základné goniometrické rovnice

ARMA modely čast 2: moving average modely (MA)

ARMA modely čast 2: moving average modely (MA)

Cvičenie č. 4,5 Limita funkcie

Rozdiely vo vnútornej štruktúre údajov = tvarové charakteristiky

6 Limita funkcie. 6.1 Myšlienka limity, interval bez bodu

KATEDRA DOPRAVNEJ A MANIPULAČNEJ TECHNIKY Strojnícka fakulta, Žilinská Univerzita

,Zohrievanie vody indukčným varičom bez pokrievky,

Reprezentácia dát. Ing. Martin Mariš, Katedra regionalistiky a rozvoja vidieka, SPU, NITRA

1. písomná práca z matematiky Skupina A

Start. Vstup r. O = 2*π*r S = π*r*r. Vystup O, S. Stop. Start. Vstup P, C V = P*C*1,19. Vystup V. Stop

Základy matematickej štatistiky

Motivácia Denícia determinantu Výpo et determinantov Determinant sú inu matíc Vyuºitie determinantov. Determinanty. 14. decembra 2010.

UČEBNÉ TEXTY. Pracovný zošit č.2. Moderné vzdelávanie pre vedomostnú spoločnosť Elektrotechnické merania. Ing. Alžbeta Kršňáková

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy

Spojité rozdelenia pravdepodobnosti. Pomôcka k predmetu PaŠ. RNDr. Aleš Kozubík, PhD. 26. marca Domovská stránka. Titulná strana.

Moderné vzdelávanie pre vedomostnú spoločnosť Projekt je spolufinancovaný zo zdrojov EÚ M A T E M A T I K A

24. Základné spôsoby zobrazovania priestoru do roviny

Motivácia pojmu derivácia

Ing. Andrej Trnka, PhD. Základné štatistické metódy marketingového výskumu

Deliteľnosť a znaky deliteľnosti

Prechod z 2D do 3D. Martin Florek 3. marca 2009

Funkcie - základné pojmy

MIDTERM (A) riešenia a bodovanie

AerobTec Altis Micro

ŠTATISTIKA. Obsah. Predmet štatistiky Popisná štatistika Štatistické charakteristiky jednorozmerných rozdelení.. 17

Návrh vzduchotesnosti pre detaily napojení

Úvod do lineárnej algebry. Monika Molnárová Prednášky

Tomáš Madaras Prvočísla

PRIEMER DROTU d = 0,4-6,3 mm

2 Chyby a neistoty merania, zápis výsledku merania

Komplexné čísla, Diskrétna Fourierova transformácia 1

Určite vybrané antropometrické parametre vašej skupiny so základným (*úplným) štatistickým vyhodnotením.

Kompilátory. Cvičenie 6: LLVM. Peter Kostolányi. 21. novembra 2017

3. Striedavé prúdy. Sínusoida

Odporníky. 1. Príklad1. TESLA TR

Matematika 2. časť: Analytická geometria

Metódy vol nej optimalizácie

Hľadanie, skúmanie a hodnotenie súvislosti medzi znakmi

MOSTÍKOVÁ METÓDA 1.ÚLOHA: 2.OPIS MERANÉHO PREDMETU: 3.TEORETICKÝ ROZBOR: 4.SCHÉMA ZAPOJENIA:

M6: Model Hydraulický systém dvoch zásobníkov kvapaliny s interakciou

Priamkové plochy. Ak každým bodom plochy Φ prechádza aspoň jedna priamka, ktorá (celá) na nej leží potom plocha Φ je priamková. Santiago Calatrava

ŠTATISTICKÉ METÓDY VPRAXI

Definícia parciálna derivácia funkcie podľa premennej x. Definícia parciálna derivácia funkcie podľa premennej y. Ak existuje limita.

4. Výrokové funkcie (formy), ich definičný obor a obor pravdivosti

7 Derivácia funkcie. 7.1 Motivácia k derivácii

Planárne a rovinné grafy

Kontrolné otázky na kvíz z jednotiek fyzikálnych veličín. Upozornenie: Umiestnenie správnej a nesprávnych odpovedí sa môže v teste meniť.

4 Reálna funkcia reálnej premennej a jej vlastnosti

C. Kontaktný fasádny zatepľovací systém

HASLIM112V, HASLIM123V, HASLIM136V HASLIM112Z, HASLIM123Z, HASLIM136Z HASLIM112S, HASLIM123S, HASLIM136S

Rozsah hodnotenia a spôsob výpočtu energetickej účinnosti rozvodu tepla

Funkcie a grafy v programe Excel

Príklady na precvičovanie Fourierove rady

Modul pružnosti betónu

MPV PO 16/2013 Stanovenie kovov v rastlinnom materiáli ZÁVEREČNÁ SPRÁVA

Obsah. 1.1 Reálne čísla a ich základné vlastnosti Komplexné čísla... 8

Podnikateľ 90 Mobilný telefón Cena 95 % 50 % 25 %

x x x2 n

Gramatická indukcia a jej využitie

REZISTORY. Rezistory (súčiastky) sú pasívne prvky. Používajú sa vo všetkých elektrických

RIEŠENIE WHEATSONOVHO MOSTÍKA

FUNKCIE N REÁLNYCH PREMENNÝCH

Reálna funkcia reálnej premennej

KLP-100 / KLP-104 / KLP-108 / KLP-112 KLP-P100 / KLP-P104 / KLP-P108 / KLP-P112 KHU-102P / KVM-520 / KIP-603 / KVS-104P

Ján Buša Štefan Schrötter

6 APLIKÁCIE FUNKCIE DVOCH PREMENNÝCH

Metodicko pedagogické centrum. Národný projekt VZDELÁVANÍM PEDAGOGICKÝCH ZAMESTNANCOV K INKLÚZII MARGINALIZOVANÝCH RÓMSKYCH KOMUNÍT

1 Prevod miestneho stredného slnečného času LMT 1 na iný miestny stredný slnečný čas LMT 2

Meranie na jednofázovom transformátore

u R Pasívne prvky R, L, C v obvode striedavého prúdu Činný odpor R Napätie zdroja sa rovná úbytku napätia na činnom odpore.

Integrovanie racionálnych funkcií

3. prednáška. Komplexné čísla

Matematika 2. časť: Funkcia viac premenných Letný semester 2013/2014

Metoda hlavních komponent a její aplikace

η = 1,0-(f ck -50)/200 pre 50 < f ck 90 MPa

ÚLOHA Č.8 ODCHÝLKY TVARU A POLOHY MERANIE PRIAMOSTI A KOLMOSTI

VLASTNÉ ČÍSLA A JORDANOV KANONICKÝ TVAR. Michal Zajac. 3 T b 1 = T b 2 = = = 2b

Analýza údajov. W bozóny.

Lineárna algebra I - pole skalárov, lineárny priestor, lineárna závislosť, dimenzia, podpriestor, suma podpriestorov, izomorfizmus

Súčtové vzorce. cos (α + β) = cos α.cos β sin α.sin β cos (α β) = cos α.cos β + sin α.sin β. tg (α β) = cotg (α β) =.

TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ. Zdroje: Kompendium statistického zpracování dat, VPS s r. o.

Úvod do lineárnej algebry

Obyčajné diferenciálne rovnice

HANA LAURINCOVÁ KLASICKÝ VS. NEPARAMETRICKÝ PRÍSTUP Štatistika Poistná matematika

Testy dobrej zhody. H 0 : f(x) = g(x) ; H 1 : f(x) g(x)

Margita Vajsáblová. ρ priemetňa, s smer premietania. Súradnicová sústava (O, x, y, z ) (O a, x a, y a, z a )

Štatistické riadenie procesov Regulačné diagramy 3-1

Zložené funkcie a substitúcia

Pravdivostná hodnota negácie výroku A je opačná ako pravdivostná hodnota výroku A.

7. Dokážte, že z každej nekonečnej množiny môžeme vydeliť spočítateľnú podmnožinu.

Transcript:

PREHĽAD ÚDAJOV 1. Početnosť. Miery centrálnej tendencie a. Aritmetický priemer b. Medián c. Modus 3. Miery rozptylu a. Tvar b. Rozdelenie, rozloženie údajov c. Rozsah d. Rozptyl - variancia e. Smerodatná odchýlka 4. Grafické zobrazenie údajov 1. Početnosť Najjednoduchším spôsobom predstavenia údajov sú početnosti. Funkcia COUNT(od:do 1 ) v programe Excel vráti počet v príslušnom stĺpci, riadku alebo inak definovanom výbere (viac stĺpcov alebo riadkov), obr.1. Obrázok 0 Stanovenie počtu funkciou =COUNT(rozsah). Zložitejšie triedenia zisťovania početnosti sa ľahko uskutočňujú pomocou príkazu PIVOT TABLE and PIVOT CHART z ponuky DATA. V tomto príklade nemá praktický zmysel počítanie 1 Od je počiatočná adresa, do je konečná adresa bunky zoznamu

Pohlavie ako nezávislá premenná Určenie h Počt Obrázok 1 Tabuľka počtov meraní v jednotlivých premenných počtov meraní v jednotlivých premenných, keďže tieto sú rovnaké. Slúži ako príklad jednoduchej a rýchlej konštrukcie prehľadných tabuliek.. Miery centrálnej tendencie Ako už bolo spomenuté, číselným popisom výberu je štatistika. Táto môže mať formu umiestnenia, rozšírenia, indikátoru tvaru, percentilov a intervalových odhadov. Miery centrálnej tendencie poskytujú prvú predstavu o všeobecnom umiestnení údajov výberu na číselnej osi. Najbežnejšie používanou mierou centrálnej tendencie je aritmetický priemer. a. Aritmetický priemer Bežnou mierou centrálnej tendencie je aritmetický priemer. Získa sa spočítavaním všetkých hodnôt vo výbere a jej podieľom počtom hodnôt. N xi i x = = 1 Typicky sa náhodná premenná sa označuje ako x n i a posledná hodnota v konečnom rade hodnôt ako x n. je znak spočítavania (sumácie). Uvedený vzorec preto budeme čítať nasledovne: zober všetky hodnoty od 1 do n (počet všetkých členov výberu) a spočítaj ich. Súčet vydeľ celkovým počtom n. Výsledok je aritmetickým priemerom výberu (čiarka nad x). Vlastnosti priemeru ho určujú pre široké použitie. Prakticky všetky štatistické zisťovania robené na kvantitatívnych premenných využívajú aritmetický priemer pre získanie prvej informácie o vlastnostiach premennej. Jeho vlastnosti ho predurčujú pre časté použitie, jeho interpretácia nie je však bez problémov:

Jednoduchosť, je ľahko porozumiteľný a jednoducho vypočítateľný. Jeho porozumiteľnosť vedie k tomu, že aj deti v základnej škole sa rýchlo naučia používať priemer pre výpočet pravdepodobnej výslednej známky. Táto jednoduchosť a prirodzená zrozumiteľnosť vedie k nadužívaniu jeho použitia chybnej interpretácii výsledkov. Zo školy vieme, že nie vždy sa výsledná známka rovnala priemeru známok. Zapríčinili to medzi iným aj extrémne hodnoty (spomeňte si na očakávanie, že zlá známka bude ignorovaná). Citlivosť na extrémne hodnoty ovplyvňujú jeho hodnotu, takže v určitých prípadoch sa môže stať nepoužiteľným ako miera centrálnej tendencie. Ak žiak mal z nejakého predmetu nasledovné známky: 1, 3,, 1, 1, 1, 5 potom priemer známok bol, avšak ak by pani učiteľka nebrala do úvahy jedinú päťku, čo žiak dostal, potom by situácia bola iná 1, 3,, 1, 1, 1 s priemerom 1.5. Tu by sa mohla rozhodnúť aj pre jednotku ako výslednú známku. Unikátnosť určuje, že pre danú množinu údajov existuje jeden jediný priemer. b. Medián Medián konečnej množiny hodnôt je tá hodnota, ktorá rozdeľuje množinu na dve rovnaké časti, také, že počet hodnôt rovných alebo väčších ako medián sa rovná počtu hodnôt menších alebo rovných ako medián. Keď je počet hodnôt nepárny, potom bude medián prostrednou hodnotou zoradených meraní. Pokiaľ ich počet je párny, potom sú dve hodnoty v strede a mediánom je ich priemer. Ak by učiteľka žiaka používala medián pre hodnotenie, potom by výpočet vyzeral nasledovne: 1,1,1,1,,3,5 kde číslica 1 je presne v strede zoradených hodnôt. Ani odstránenie extrémnej hodnoty nezmení situáciu: 1,1,1,1,,3 kde stred zoradených hodnôt je medzi dvoma jednotkami. Vlastnosti mediánu ho predurčujú pre širšie použitie, ako je dnes bežným zvykom: Unikátnosť. Rovnako ako v prípade priemeru, jestvuje len jeden medián pre danú množinu údajov. Jednoduchosť vypočítania je rovnaká ako v prípade priemeru Citlivosť voči extrémnym hodnotám je menšia ako pri aritmetickom priemere, čižš nie je tak ľahko ovplyvniteľný ako priemer. Medián a priemer sa pre normálne rozdelenú premennú rovnajú (o rozdelení premenných ďalej). c. Modus V danej množine hodnôt je modus tá hodnota, ktorá sa vyskytuje najčastejšie. Možno ho s výhodou použiť pre popis kvalitatívnych údajov. V príklade so známkami modus bude opätovne jednotka. Najčastejšie sa používa pre hodnotenie skóre. Na príklade z predchádzajúcej kapitoly si ukážeme ako vypočítať všetky tri štatistiky v programe Excel. Použijeme funkcie AVERAGE(od:do), MEDIAN(od:do) a MODE(od:do) zo zoznamu štatistických funkcií. V druhom stĺpci pod ostatný údaj umiestnime jednotlivé

funkcie. Jednoduchým skopírovaním (príkazom COPY a PASTE) urobíme kópiu obsahu buniek do ďaľších stĺpcov. Výsledky sú na Obr.. Obrázok Výpočet mier centrálnej tendencie v programe Excel 3. Miery rozptylu Po stanovení centra údajov potrebujeme stanoviť ako blízko, resp. ako ďaleko sú údaje rozptýlené okolo stredu. Tento jav sa nazýva rozloženie, rozptyl alebo variabilita údajov. Rozptyl množiny pozorovaní popisuje rôznorodosť predstavovanú pozorovaniami. Ak by boli všetky dáta rovnaké, potom nie je prítomný žiaden rozptyl, ak sú dáta blízko pri sebe, potom je rozptyl malý. Jestvuje viacero mier rozptylu a každá z nich má iné vlastnosti. a. Tvar Tvar rozloženia popisuje tvar hodnôt zoskupených okolo číselnej osi. Je tento tvar symetrický alebo nesymetrický, je tam niekoľko vrcholov, alebo sú údaje zoskupené okolo jediného centra, tvoria údaje krivku v tvare zvonu? Na mnoho z uvedených otázok odpovie jednoduché grafické predstavenie údajov. Najčastejšie používanými mierami sú šikmosť a strmosť. Prvá miera kvantifikuje smer a chýbanie symetrie, čím je rozloženie šikmejšie, tým viac je potrebné používať silné mieru centrálnej tendencie medián. Šikmosť nadobúda kladné hodnoty pri posune do prava od stredu a negatívne hodnoty pri posune do ľava. Strmosť vypovedá o tom, nakoľko je rozloženie údajov ploché. Strmosť krivky normálneho rozdelenia je 0, iná hodnota hovorí o krivke strmšej alebo plochšej. Všeobecne platí, že čím je väčší počet meraní, tým presnejšie možno určiť tvar rozdelenia. Výpočet mier tvaru v Excel ilustruje obrázok 4. Je zrejmé, že všetky údaje sú značne ploché, ale pomerne symetrické okolo stredu. Na podrobnejšie skúmanie by bolo potrebné vybrať väčší súbor.

b. Rozdelenie, rozloženie údajov Popis tvaru rozloženia údajov vedie ku kategorizácii rozdelení. Najčastejšie sa spomína normálne rozdelenie údajov. Toto rozdelenie sa nazýva normálnym lebo vychádza zo samotného princípu štatistického zisťovania, teda náhodnosti výskytu javov. Ak sú javy náhodné, potom majú rovnakú pravdepodobnosť že sa uskutočnia. Napríklad hod kockou. Pri dostatočne veľkom počte hodov každá z číslic má rovnaký počet výskytov. Vtedy nie je čo skúmať pomocou štatistických metód. Pokiaľ je táto náhoda ovplyvnená nejakým faktorom, potom sa snažíme tento faktor identifikovať a zistiť k čomu vedie a čo ho spôsobuje. Iste nie je náhodné, že u niektorých ľudí sa prejaví cukrovka alebo vysoký krvný tlak. Podarilo sa vystopovať pomocou štatistických metód, že tento jav (ktorý by sa mohol javiť ako náhodný, pretože u niekoho sa vyskytne a u niekoho nie) závisí od viacerých faktorov a môžeme hovoriť o pravdepodonosti výskytu tohto javu u jednotlivca i v populácii. Pokiaľ sa niektorý jav, napríklad výška sústreďuje okolo nejakej hodnoty (priemeru) tak, že extrémne hodnoty smerom hore i dole sa vyskytujú výrazne menej, môžeme hovoriť o normálnom rozdelení. Potom vykreslenie frekvencie výskytu jednotlivých hodnôt má tvar zvonu, kde vrchol je priemer a smerom do prava a do ľava sa počet hodnôt znižuje. To potvrdzuje aj bežné pozorovanie, že okolo každého z nás je najviac priemerne vysokých ľudí a veľmi malých a veľmi vysokých je málo. Takéto rozdelenie charakterizuje priemer a medián, ktoré sú rovnaké, symetrickosť tvaru potvrdzuje symetria okolo stredu. Vlastnosť normálneho rozdelenia merania v populácii je veľmi dôležitá, pretože určuje, aký typ štatistických procedúr možno použiť. V prípade normálneho rozdelenia sa používajú parametrické testy, v prípade nie normálneho rozdelenia sa používajú neparametrické testy. Dôležité je mať na pamäti, že len na dostatočne veľkom súbore údajov možno uskutočniť stanovenie normálnosti rozdelenia. Miery, ktoré popisujú rozloženie údajov sú medzi inými: rozptyl, variabilita a smerodajná odchýlka. Obrázok 3 Výpočet rozsahu v programe Excel

c. Rozsah Rozsah je najjednoduchšou mierou rozptylu údajov. Vypočíta sa ako rozdiel medzi najmenšou a najväčšou hodnotou množiny pozorovaní. Jeho použitie je obmedzené, keďže do úvahy berie len dve hodnoty a preto značne závislý od extrémnych hodnôt. Výhodou je ľahká vypočítateľnosť. d. Rozptyl - variancia Presnejšou mierou rozloženia hodnôt je rozptyl resp. variancia. Výpočet je založený na spočítaní rozdielov hodnôt jednotlivých meraní od priemeru. Pred sčítaním sú tieto σ = n ( xi µ ) i= 1 N s = n ( xi x) i= 1 n 1 hodnoty umocnené na druhú, aby sa odstránil rozdiel v znamienkach. Súčet sa potom delí počtom meraní zmenšeným o jedno. Výpočet rozptylu pre populáciu sa označuje ako σ a pre výber z populácie ako s : Zo vzorca výpočtu vyplýva, že pokiaľ sú hodnoty množiny pozorovaní blízko seba, potom je ich rozptyl malý a naopak. Rozdiel n 1vo výpočte rozptylu sa nazýva počet stupňov voľnosti. Súčet odchýliek hodnôt od ich priemeru je rovný nule. Ak potom poznáme hodnoty n - 1 odchýliek od priemeru, potom pozáme aj n-tú hodnotu. e. Smerodatná odchýlka Smerodatná odchýlka je najčastejšie používanou mierou rozloženia údajov. Rozptyl predstavuje štvorce pôvodných hodnôt, po jeho odmocnení dostávame hodnotu, ktorá predstavuje originálnu hodnotu - smerodatnú odchýľku. Výpočet smerodatnej odchýľky s je analogický výpočtu rozptylu a doplnený záverečným odmocnením. Keď potrebujeme porovnať smerodajné odchýľky dvoch výberov smerodatná odchýľka vedie k chybe. Môže to byť z dôvodu rôznych jednotiek, v ktorých sú merané Všimnite si rozdiel v označovaní priemeru: priemer populácie (ktorý chceme spoznať) označujeme µ a pre priemer výberu sa používa označenie x. Taktiež označenie počtu meraní vo výbere označujeme písmenom n, pokiaľ veľkosť populácie písmenom N.

pozorovania alebo aj pri rovnakých jednotkách sa použijú množiny s dvoma výrazne rôznymi hodnotami. Vtedy je výhodné použiť bezrozmernú veličinu, nezávislú od jednotiek meraní: koeficient rozptylu. Tento sa vypočíta ako pomer smerodatnej odchýľky a priemeru výberu vynásobený sto. Výsledok je bezrozmerné číslo, nezávislé od jednotiek merania. Výpočet uvedených hodnôt ilustruje nasledovný príklad. s n ( xi x) i= 1 = n 1 s = s s cv = 100 x Obrázok 6 Výpočet štatistík v programe Excel Koeficient rozptylu možno interpretovať aj ako percento, ktoré predstavuje smerodatná odchýľka z priemeru hodnôt. Z údajov vyplýva, že najmenší rozptyl má premenná STK, hoci veľkosť smerodatnej odchýľky je najväčšia. To demonštruje užitočnosť použitia tejto odvodenej miery rozptylu. Mnohé štatistické programy ponúkajú štandardnú množinu popisu výberového súboru. V skriptách sme sa rozhodli používať štatistický program XL-STAT 3, ktorý predstavuje nadstavbu nad Excel a ponúka širokú paletu štatistických procedúr. Tento a podobné programy doporučujeme uprednostniť pred písaním vlastných štatistických procedúr. My však budeme pokračovať v ich používaní, pretože predstavujú šikovný spôsob demonštrácie jednotlivých krokov štatistických analýz a umožňujú nahliadnuť do ich podstaty. 3 Program je možno získať z Internetu na skúšobnú dobu 30 dní, na dlhšie používanie je potrebné program zakúpiť.

Rozsah Počet Priemer Šikmos ť Strmosť Rozptyl Smerodatná odchýľka Obrázok 7 Popis údajov programom XL-STAT 4. Grafické zobrazenie údajov Programy ako Excel ponúkajú širokú paletu možností zobrazenia údajov. Pre popis údajov údajov sa hodia najmä jednoduché bodové, stĺpcové a čiarové grafy. Ich príprava je popísaná v každej príručke Excel. Pre popis údajov a ich komplexné zobrazenie je veľmi užitočným box plot, čo by sa dalo preložiť ako vykreslenie v krabici. Budeme sa však držať pôvodného anglického názvu. Box plot graficky znázorňuje hlavné popisné miery centrálnej tendencie akými sú priemer a medián a tiež miery rozptylu: rozsah, prvý a tretí kvartil. Indikuje tiež tvar rozloženia hodnôt. Zobrazenie údajov STK a DTK z nášho príkladu indikuje, že sú približne normálne rozdelené (priemer a medián sú veľmi blízko), údaje nie sú symetrické okolo centra, ale v prípade STK sú posunuté do ľava a v prípade DTK do prava. Kvartily získame rozdelením rozsahu údajov (minimum maximum) na 4 rovnaké časti, taktiež poukazujú na tvar rozloženia hodnôt okolo stredu.

Medián Box plots Priemer premennej 80,000 81,364 DTK Umiestnenie priemeru premennej DTK 70,000 105,000 Maximum Pozícia mediánu 134,545 135,000 Minimu 115,000 STK 165,000 Tretia štvrtina (kvartil) dj 0 0 40 60 80 100 10 140 160 180 Prvá štvrtina (kvartil) údajov Obrázok 8 Box-plot