ŠTATISTIKA Obsah Predmet štatistiky Meranie a úrovne merania 10 Popisná štatistika 13 Jednorozmerné rozdelenie 14 Štatistické charakteristiky jednorozmerných rozdelení 17 Dvojrozmerné rozdelenie 5 Štatistické charakteristiky dvojrozmerných rozdelení 8 Princípy štatistickej indukcie 38 Testovanie štatistickej významnosti 41 Testovanie metrických premenných 46
Predmet štatistiky Keď povieme napr "životné podmienky obyvateľstva sa značne zlepšili", "produktivita práce v minulom roku vzrástla", "vlaky ešte vždy meškajú", "návštevnosť kín sa znížila", sú to všetko výroky, ktoré majú niečo spoločné: zovšeobecňujú výsledok veľkého počtu pozorovaní, pričom ich platnosť pre pozorovanú kolektivitu ešte neznamená, že musia platiť i v každom individuálnom prípade Iba pomocou takýchto zovšeobecnení sa však dajú vystihnúť podstatné tendencie a vzťahy v prírodných a spoločenských javoch Skúmanie individuálneho javu, jeho konkrétnych vlastností a činiteľov tieto vlastnosti ovplyvňujúcich a podmieňujúcich, neumožní oddeliť, čo je pre daný jav podstatné a typické od toho, čo je nepodstatné a náhodné Teda neumožní odhaliť, ktoré vplyvy a faktory významne ovplyvňujú vlastnosti skúmaného javu a aké sú ich vzájomné súvislosti Individuálny jav je však iba určitou konkrétnou formou, jedným prvkom komplexu rovnorodých javov, ktoré sa vyskytujú v prírode alebo spoločnosti, je konkrétnym prejavom hromadného javu Hromadným javom rozumieme každý prírodný alebo spoločenský jav, ktorý sa vyskytuje pri veľkom počte elementárnych jednotiek, nositeľov tohto javu a jeho konkrétna forma v každom individuálnom prípade je výsledkom určitého zoskupenia činiteľov, pôsobiacich na danú elementárnu jednotku Skúmanie prírodných a spoločenských javov ako hromadných javov umožňuje poznať ich podstatu a vlastnosti i povahu činiteľov, ktoré ich ovplyvňujú v ich vzájomných vzťahoch a súvislostiach Napríklad váha novorodeniatok, úrodnosť určitého druhu plodín, spotreba potravín, účinnosť určitého druhu liečiva, váhový prírastok chovných zvierat sú všetko javy, pri ktorých treba pozorovať mnoho jednotlivých prípadov a až na základe takéhoto hromadného pozorovania možno robiť o príslušnom jave zovšeobecňujúce závery To znamená, že tieto javy treba skúmať ako
hromadné javy Skúmanie hromadných javov a ich vlastností v ich vzájomných vzťahoch a závislostiach si vyžaduje špeciálne metódy a postupy Tieto metódy poskytuje štatistika Štatistiku definujeme ako vedu o metódach kvantitatívneho hodnotenia vlastností hromadných javov Slovo štatistika sa však nepoužíva iba v tomto zmysle - bežne sa s ním stretávame v troch významoch Označuje sa ním: a) praktická činnosť, spojená so získavaním údajov o hromadných javoch, štatistických dát, ich spracovaním a vyhodnocovaním, b) štatistické dáta, t j údaje o hromadných javoch, bezprostredne získané pozorovaním alebo z nich vypočítané charakteristiky, c) vedná disciplína, ktorá sa zaoberá vysvetľovaním metód skúmania a vyhodnocovania údajov o hromadných javoch - štatistických dát Z definície štatistiky ako vednej disciplíny vyplývajú jej určité príznačné črty: a) Štatistika narába s hromadnými javmi Jednotlivé (individuálne) vystupuje iba ako špecifický prejav hromadného javu, pričom hromadný jav nemožno chápať iba ako jednoduchý súčet individuálnych prvkov "Ako celok má taká kolektivita svoje vlastnosti, odlišné od vlastností jednotlivcov (elementov) Napríklad obyvateľstvo štátu ako celok má svoje osobitné vlastnosti, ktoré sa nedajú získať interpretáciou z vlastností jednotlivých obyvateľov" [33] b) Popri všetkých zvláštnostiach, premenlivosti (variabilite) v individuálnych prejavoch hľadá štatistika pravidelnosti či zákonitosti javov a procesov Poznať tieto zákonitosti možno iba na základe znalosti dostatočne veľkého počtu individuálnych prípadov, teda na základe hromadného pozorovania Hromadné pozorovanie je pre štatistiku typické c) Štatistika hodnotí javy a procesy kvantitatívne, t j základnou formou vyjadrovania 3
(merania) vlastností hromadných javov je číselné (numerické) vyjadrenie Z toho vyplýva, že štatistika hojne využíva pri skúmaní hromadných javov matematický aparát Hromadnosť ako spoločná črta prírodných a spoločenských javov vytvára predpoklady pre použitie rovnakého metodického základu pri ich číselnom spracovaní a hodnotení Tento spoločný základ poskytuje štatistika S jej aplikáciou sa teda stretávame v najrôznejších vedných oblastiach, napr vo fyzike, biológii, meteorológii, sociológii, medicíne, ekonómii a pod Hromadné javy, ktoré sú predmetom skúmania v jednotlivých vedných oblastiach, majú však okrem toho vlastné špecifické črty, súvisiace s konkrétnymi podmienkami tej-ktorej vedy Pri skúmaní hromadných javov treba brať do úvahy tieto špecifické črty a pri ich spracovaní a hodnotení voliť také štatistické metódy, ktoré umožnia daný jav čo najvhodnejšie charakterizovať Aplikácia štatistiky v jednotlivých oblastiach vedy má teda svoje zvláštnosti: metódy a postupy spracovania, ktoré sú základom štatistického hodnotenia v jednej oblasti, používajú sa v inej iba zriedkavo, alebo sa vôbec nepoužívajú a naopak Rozpracovaním štatistických metód pre jednotlivé vedné oblasti, v ktorých sa tieto metódy systematicky používajú s prihliadnutím na špecifické problémy predmetnej vedy, vznikajú špeciálne odbory štatistiky Sú to napr: zdravotnícka štatistika, biologická štatistika, štatistika obyvateľstva (demografická štatistika), ekonomická štatistika, poľnohospodárska štatistika a pod ZÁKLADNÉ POJMY Predmetom štatistického skúmania je hromadný jav Jednotlivý jav je zaujímavý iba ako súčasť, elementárna zložka hromadného javu Napríklad, ak je predmetom štatistického skúmania spotreba na jedného obyvateľa, nemôžeme o tomto jave robiť nijaké závery na 4
základe zistenej spotreby toho-ktorého občana; o účinnosti liečiva sa nedá usudzovať na základe výsledkov u jedného pacienta, o cenovej úrovni na základe ceny určitého druhu tovaru na jednom mieste a pod Vo všetkých uvedených príkladoch musíme skúmať dostatočne veľký počet prípadov, musíme robiť hromadné pozorovanie Hromadnosť pozorovania je nevyhnutným predpokladom každého štatistického skúmania Pri hromadnom pozorovaní môže ísť o: a) jednoduché pozorovanie, ak do priebehu pozorovaných javov nijakým spôsobom nezasahujeme a neovplyvňujeme ich - takýto spôsob pozorovania je typický pre spoločenské javy, napr úrazovosť, zdravotný stav školopovinnej mládeže, návštevnosť divadiel a kín sú javy, ktoré skúmame bez akéhokoľvek zásahu do ich priebehu, b) experiment, pri ktorom sa vytvorí súbor kontrolovaných podmienok, v ktorých sa pozorovaný jav opakuje - takýto spôsob pozorovania je typický pre oblasť prírodných vied, napr pri skúmaní rozpustnosti určitej látky sa v laboratóriu môže kontrolovať a regulovať' teplota, koncentrácia látky, vlastnosti rozpúšťadla a pod V sociálno-ekonomickej oblasti je použiteľnosť experimentu veľmi obmedzená, na mnohých úsekoch neprichádza experiment vôbec do úvahy Základnou formou je jednoduché pozorovanie Hromadný jav nadobúda mnoho konkrétnych foriem - skladá sa z mnohých individuálnych javov Nositelia týchto individuálnych javov sa nazývajú štatistickými jednotkami Štatistická jednotka je základný prvok, na ktorom možno skúmať konkrétny prejav určitého hromadného javu a je základným a presne vymedzeným objektom pozorovania Štatistickými jednotkami môžu byť osoby, domácnosti, podniky, predmety, udalosti a pod Pri ich voľbe je rozhodujúci cieľ skúmania Napríklad pri skúmaní vybavenosti domácností bude štatistickou jednotkou jedna domácnosť, pri skúmaní príčin fluktuácie jeden pracovník, 5
dopravná nehoda bude štatistickou jednotkou pri skúmaní následkov dopravných nehôd a pod Štatistické jednotky v súhrne vytvárajú štatistický súbor Štatistický súbor je množina štatistických jednotiek, z ktorých každá vyhovuje určitým vlastnostiam, spoločným všetkým jednotkám daného súboru a vymedzujúcim tak štatistický súbor z hľadiska časového, priestorového a vecného, pričom v ďalších vlastnostiach sa štatistické jednotky môžu líšiť Z uvedenej definície vyplýva, že štatistické jednotky musia mať určité spoločné základné vlastnosti, ktoré sú podmienkou ich príslušnosti k štatistickému súboru Pri každom štatistickom skúmaní sa musí rozsah týchto spoločných znakov presne vymedziť, štatistické jednotky presne definovať Štatistické jednotky sa vymedzujú z priestorového, časového a vecného hľadiska Priestorové (miestne) vymedzenie štatistických jednotiek znamená určenie miesta alebo územia, za ktoré sa vykoná štatistické skúmanie Štatistický súbor tvoria tie jednotky, ktoré plnia podmienku príslušnosti k tomuto miestu alebo územiu Veľmi často sa priestorové vymedzenie zhoduje s administratívnym členením, napr kraj, okres Časové vymedzenie štatistických jednotiek spočíva v určení časového úseku, v ktorom (alebo okamihu, ku ktorému) sa štatistické jednotky zahrňujú do skúmania, napr pracovné úrazy za II polrok 004, spotreba plynu v domácnostiach v Bratislave v januári 005 a pod Vecným vymedzením štatistických jednotiek rozumieme stanovenie takých vlastností, ktorým musí vyhovovať každá štatistická jednotka Tieto spoločné znaky musia byť v definícii štatistickej jednotky jasne formulované Takou vlastnosťou môže byť dosiahnuté vzdelanie, napr minimálne stredoškolské s maturitou Štatistickými jednotkami sú len tie osoby, ktoré vyhovujú tejto charakteristike Čím užšie vymedzíme štatistické jednotky vecne, časovo a priestorovo, čím viac spoločných znakov od nich vyžadujeme, tým je štatistický súbor rovnorodejší, homogénnejší 6
Rozsah štatistického súboru je daný počtom jednotiek, ktoré do neho patria Štatistické súbory, ktoré majú do 30 jednotiek, označujeme ako malé súbory Štatistické súbory často pozostávajú z podstatne väčšieho počtu prvkov: niekoľko sto, tisíc, miliónov, alebo dokonca nekonečného počtu jednotiek V takýchto prípadoch hovoríme o veľkých súboroch Všetky štatistické jednotky, ktoré v zmysle definovania patria do štatistického súboru, tvoria základný súbor Zväčša však nie je možné, ani výhodné vykonať štatistické skúmanie u všetkých jednotiek základného súboru Vyberá sa z neho istý počet jednotiek podľa určených zásad Vybrané jednotky tvoria výberový súbor Existujú metódy, na základe ktorých je možné z výberových dát robiť závery o základnom súbore Každá štatistická jednotka je nositeľom určitých atribútov, ktoré nazývame štatistickými znakmi Štatistické znaky sú vonkajším merateľným výrazom vlastností štatistických jednotiek Členia sa z rôznych hľadísk: a) podľa spôsobu výskytu: - spoločné (konštanty), ktorých výskyt je podmienkou príslušnosti danej jednotky k štatistickému súboru a vyplývajú z definície štatistickej jednotky, - variabilné, ktoré sa pri jednotlivých štatistických jednotkách daného súboru môžu rôzne vyskytovať Používa sa pre ne aj označenie premenné b) Podľa počtu variantov, ktoré môžu nadobúdať: - alternatívne, ktoré nadobúdajú iba dva varianty (pohlavie), - množné, ktoré môžu nadobúdať mnoho variantov (národnosť, povolanie, mzda) c) Podľa toho, z akého hľadiska charakterizujú štatistickú jednotku: - časové, - priestorové, 7
- vecné Vecné znaky delíme podľa ich charakteru na kvalitatívne a kvantitatívne Kvalitatívne (slovné) znaky vyjadrujú vlastnosti štatistických jednotiek, ktoré sa opisujú slovom alebo definíciou (národnosť, farba vlasov a pod) Kvantitatívne (číselné) znaky charakterizujú vlastnosti jednotiek, ktoré sa vyjadrujú číselne, teda numericky (meranie výšky, váhy, miery inteligencie a pod) Podľa toho, či kvantitatívne štatistické znaky môžu v rámci nejakého intervalu nadobudnúť akékoľvek reálne hodnoty alebo iba niektoré, hovoríme o spojitých a nespojitých (diskrétnych) znakoch Spojitý znak môže nadobudnúť akékoľvek reálne hodnoty z nejakého intervalu (telesná výška) Ak však štatistický znak môže v rámci nejakého intervalu nadobudnúť iba niektoré hodnoty, napr celé čísla, ide o nespojitý (diskrétny) znak (počet predaných výrobkov) Podľa metód spracovania dát členíme štatistiku na dve základné súčasti Rozlišujeme popisnú a induktívnu štatistiku Obsahom popisnej štatistiky je, ako to vyplýva aj z jej názvu, popisným spôsobom charakterizovať štatistický súbor Používame k tomuto účelu rôzne metódy (zisťovanie početnosti alebo frekvencie výskytu, určovanie mier stredu, mier variability atď) Na tomto mieste pre ilustráciu uvedenie len niekoľko výstupov popisnej štatistiky: pri 100 hodoch mincou padol rub mince 58 krát a lícna strana mince 4 krát, priemerná známka v skúmanej školskej triede je 85, z 1000 pančúch boli tri chybné, priemerná škoda pri dopravných nehodách v roku 1999 bola 5500 Sk- v decembri sa v mestskej pôrodnici narodilo 55 chlapcov a 45 dievčat 8
Popisná štatistika umožňuje z veľkého počtu údajov, v ktorých by sme sa len ťažko orientovali, hutne prezentovať základné dáta o štatistickom súbore Pri výskume je bežné, že sa na tejto úrovni sleduje napr zloženie výskumnej vzorky, možné preferencie niektorých odpovedí V neposlednej miere je úlohou popisnej štatistiky pripraviť pôdu pre ďalšie spracovanie údajov na úrovni induktívnej štatistiky Induktívna štatistika je v priamej súvislosti s prijímaním záverov a rozhodovaním sa Dáva nám do rúk kritéria, na základe ktorých, pomocou určitých mier pravdepodobnosti, môžeme formulovať pravidelnosti v pozorovaných javoch Opäť uvedieme pre ilustráciu niekoľko príkladov výrokov typických pre induktívnu štatistiku: pri 100 hodoch mincou padol rub mince 58 krát a lícna strana mince 4 krát Opodstatňujú nás tieto údaje urobiť záver, že hráč hádzal mince falošne? je lepší priemerný prospech v skúmanej triede, než v ostatných triedach, spôsobený vyučovacou metódou? vyžaduje si počet chybných pančúch nejaké systematické opatrenie? je nárast hodnoty škôd spôsobených dopravnými nehodami od minulého roku náhodný, alebo je spôsobený určitým systematickým vplyvom? je rozdiel v počte narodených chlapcov a dievčat náhodný, alebo je spôsobený určitou príčinou? súvisí počet odtrénovaných jednotiek s počtom gólov strelených v zápase? Na záver tejto časti si zhrnieme podstatné myšlienky o úlohe a poznávacej hodnote štatistiky (Clauss, Ebner, 1986): Štatistika je vedecký nástroj na poznávanie objektívnej reality Štatistické uvažovanie sa premieta vedome alebo nevedome aj do nášho každodenného rozhodovania 9
Utváranie štatistického úsudku je integrovanou súčasťou induktívneho poznávania Je jeho nevyhnutným predpokladom Štatistické výroky informujú o typických, všeobecných a kvantifikovateľných vlastnostiach súborov Štatistické úsudky platia pre súbor, ale nemusia platiť pre každý prvok tohto súboru Zväčša je určená určitá miera pravdepodobnosti platnosti týchto úsudkov Meranie a úrovne merania Meranie znamená priraďovanie čísel objektom a javom podľa stanovených pravidiel Najjednoduchšou formou merania, resp kvantifikácie je zisťovanie početnosti alebo inými slovami povedané, zisťovanie frekvencie výskytu Na tejto úrovni používame aj najjednoduchšiu štatistickú metódu počítanie Je to prvý krok pri analýze ľubovoľných údajov získaných v určitom štatistickom súbore Podmienkou uskutočnenia tejto operácie je kvalitatívna rovnorodosť objektov Táto rovnorodosť neznamená, že sú jednotlivé prvky úplne rovnaké, ale sú totožné na základe určitého skupinotvorného kritéria (napr muži, vs ženy) Príklad: Už v škole nás učia, že musíme zrátať jablká s jablkami a hrušky s hruškami Mohli by sme ich zrátať aj spolu, ale musíme navrhnúť nové skupinotvorné kritérium ovocie Voľba skupinotvorného kritéria je jednou z podstatných otázok, ktorú musíme riešiť pri tvorbe výskumného projektu a nie až pri samotnom štatistickom spracovaní údajov Najjednoduchšia forma voľby skupinotvorného kritéria je označovaná ako dichotomická (alternatívna) V tomto prípade zisťujeme početnosť prvkov v dvoch triedach (napr muži 10
ženy) Meradlom pre počítanie však môžu byť aj kritéria, ktoré rozčlenia štatistický súbor do viacerých tried (opäť v závislosti na skúmanom probléme, napr triedenie osôb podľa povolania, podľa národnosti a pod) Zisťovanie početnosti, ako najjednoduchšia forma spracovania údajov je tiež označované ako nominálne škálovanie, nominálne meranie Nominálne škálovanie používame bežne v každodennom živote Identifikujeme druhých ako mužov alebo ženy, deti a dospelých atď Možno aj tento fakt vedie k tomu, že niektorí odborníci nepovažujú nominálne škálovanie za meranie Ak však za meranie považujeme priraďovanie čísel (symbolov) objektom alebo javom podľa určitých pravidiel, je aj nominálne škálovanie meraním Prvky jednotlivých tried môžeme počítať, porovnávať Podstata nominálneho merania je v klasifikácii objektov, tj v ich zaradení do určitých tried, podľa zvolených kritérií a na základe na nich pozorovaných znakov Túto charakteristiku môžeme vyjadriť postulátmi: alebo sa A = B, alebo sa A # B a druhým postulátom ak A = B a B = C, potom A = C Štatistické spracovanie údajov je, ako sme už uviedli obmedzené na počítanie, určovanie početnosti, frekvencie výskytu prvkov v jednotlivých triedach Zo štatistických mier, môžeme v tomto prípade zistiť modus to je hodnota, ktorá sa v určitom rozdelení vyskytuje najčastejšie (k tejto problematike sa ešte vrátime pri stredných hodnotách) V dvojrozmerných tabuľkách je možné stanovovať miery kontingencie Druhú úroveň škálovania (merania) predstavuje poradové, nazývané tiež ordinálne meranie Vychádza z predpokladu, že všetky objekty určitej triedy môžu byť zoradené podľa definovanej vlastnosti Postulát, o ktorý sa poradové škálovanie opiera, môžeme vyjadriť takto: ak A je väčšie ako B a B je väčšie ako C, tak potom aj A je väčšie ako C V triede vytvorenej určitým skupinovotvorným kritériom zisťujeme rozdiely v určitej vlastnosti 11
Posudzovanie sa však vykonáva len na úrovni, napr väčší, menší, rovnakí Nie je definovaná jednotka miery, nie sú definované vzdialenosti medzi objektami Príklad: Žiaci na telesnej výchove pretekali spoločne na trati okolo dvora Učiteľ si však zabudol stopky Mohol teda urobiť len poradie žiakov, v ktorom dobehli do cieľa Pritom rozdiely medzi nimi mohli byť rôzne Zo štatistických charakteristík môžeme v tomto prípade vypočítať strednú hodnotu nazývanú medián hodnotu z radu hodnôt zoradených podľa veľkosti, ktorá delí tento rad na polovice Ako mieru variability určujeme kvartilové rozpätie Môžeme tiež vyrátať poradové korelácie, ktoré predstavujú štatistickú mieru vyjadrujúcu súvislosť dvoch charakteristík Príklad: zoradíme do poradia žiakov podľa výsledkov v behu (bez udania konkrétnych časov) a podľa telesnej výšky (bez udania konkrétnej hodnoty v centimetroch) a hľadáme súvislosť medzi týmito znakmi Tretia úroveň škálovania je reprezentovaná intervalovým meraním, tiež nazývanou škálou rovnakých intervalov Intervalové škály majú všetky charakteristiky nominálnych a poradových škál, hlavne charakteristiku poradia Na rozdiel od nich však vzdialenosti medzi susednými hodnotami sú konštantné Jednotlivé intervaly môžu byť sčítané a odčítané Príklad: Ak sme na 9 bodovej intervalovej škále merali 4 objekty a namerali sme hodnoty: 8, 6, 5 a 3, potom môžeme oprávnene povedať, že rozdiel medzi prvým a tretím (8 5 = 3) a druhým a štvrtým (6 3 = 3) je rovnaký Upozorňujeme, že hodnoty, ktoré sú sčítané a odčítané sú intervaly, vzdialenosti, ale nie množstvá Nemajú teda absolútnu 0 na stupnici, len dohodnutú 0 V prípade intervalovej stupnice sú možnosti štatistického spracovania oveľa väčšie než v prípadoch nominálnej a poradovej stupnice Môžeme vyrátať aritmetický priemer ako 1
mieru stredu a smerodajnú odchýlku ako mieru variability Ako mieru súvislosti určujeme súčinovú koreláciu Absolútnu nulovú hodnotu majú škály, ktoré nazývame pomerové Tieto tiež nazývané absolútne stupnice Tým, že obsahujú absolútnu 0 umožňujú vykonať porovnanie pomerov Príkladom využiteľným aj v psychológii je vek človeka Môžeme vysloviť konštatovanie, že 40 ročný človek je krát starší ako 0 ročný Nemôžeme však tvrdiť, že človek s inteligenciou vyjadrenou 60 IQ je o polovicu menej inteligentný, než človek s IQ 10, pretože inteligencia je meraná intervalovou a nie pomerovou škálou Možnosti štatistického spracovania sú podobné ako v prípade intervalových škál (pribúdajú niektoré ďalšie charakteristiky, napr geometrický priemer) V sociálnych vedách je použitie pomerových škál veľmi zriedkavé a v konečnom dôsledku aj diskutabilné Skôr sú využívané výsledky pomerových škál z rôznych fyzikálnych, prípadne fyziologických meraní, ktoré odrážajú určité psychické alebo sociálne javy Štyri spomenuté druhy stupníc sa v podstate rozdeľujú do dvoch základných druhov Nominálne a poradové stupnice predstavujú nižší stupeň merania založený na zisťovaní početnosti a poradia nazývame ich homográdny prípad Intervalové a pomerové stupnice predstavujú metrické úrovne škálovania a nazývame ich heterográdny prípad 13
Popisná štatistika Popisná štatistika sa zaoberá popisom štatistických súborov s cieľom zjednodušiť komplikovanú sumu získaných údajov Pomocou nej vyjadrujeme empirické rozdelenia jednej, dvoch alebo viacerých premenných Pojem empirické rozdelenie označuje hodnoty sledovaných premenných nameraných v štatistickom súbore Sú získané empiricky, čiže výskumom alebo prieskumom Jednorozmerné rozdelenie Termínom jednorozmerné rozdelenie alebo inak jednorozmerná distribúcia hodnôt označujeme sledovanie empirického rozdelenia jednotlivej premennej V štatistických súboroch, ktoré obsahujú viaceré premenné ide o samostatné distribúcie týchto premenných bez hľadania vzájomných vzťahov medzi nimi Takáto forma spracovania dát sa nazýva aj triedenie prvého stupňa Rozoznávame tri spôsoby prezentácie empirických rozdelení, sú to: - tabuľkové vyjadrenie, - grafické zobrazenie, - numerické (číselné) charakteristiky Tabuľkové a grafické vyjadrenie Tabuľky jednorozmerných rozdelení majú podobu frekvenčných tabuliek (označujú sa aj ako tabuľky rozdelenia početností, príp tabuľky početností) Obsahujú informácie 14
o zaznamenaných hodnotách znaku, o počte výskytu hodnôt znaku v štatistickom súbore (absolútna početnosť), ďalej pomerné vyjadrenie počtu hodnôt (relatívna početnosť) a vyjadrenie pribúdajúcich súčtov početností na jednotlivých úrovniach hodnôt (kumulatívne početnosti a kumulatívne relatívne početnosti) Relatívne početnosti sa zvyčajne uvádzajú ako percentá Súčet percentuálnych hodnôt je rovný 100% Uvedené 4 typy početností sa používajú v tabuľkách popisujúcich kvantitatívne premenné (V prípade kvalitatívnych premenných tabuľky obsahujú iba absolútne a relatívne početnosti) V základnej frekvenčnej tabuľke sú vyjadrené početnosti výskytu každej jednotlivej hodnoty premennej v štatistickom súbore Ak následne spájame susedné hodnoty premennej do spoločných tried (intervalov) vznikajú tabuľky triednych početností (tabuľky triednych intervalov) Grafické zobrazenie je geometrickým obrazom výsledkov získaných sledovaním nejakého znaku v štatistickom súbore Poskytuje rovnakú informáciu o empirickom rozdelení ako tabuľka, ale iným spôsobom V prípade jednorozmerného rozdelenia kvantitatívnych znakov je graf najčastejšie konštruovaný v podobe histogramu Sú to obdĺžniky, ktorých veľkosť je závislá na početnosti výskytu hodnoty znaku v súbore (napr pri sledovaní telesnej výšky počet osôb, ktoré majú jednotlivé hodnoty výšky) Pokiaľ ide o kvalitatívne znaky, graf má podobu stĺpcového diagramu Výška stĺpca je podmienená početnosťou výskytu úrovne hodnoty znaku (napr vyjadrenie počtu mužov a počtu žien v štatistickom súbore) 15
Príklad zostavenia frekvenčnej tabuľky: Z uvedených hodnôt premennej X (výsledky testu vedomostí) zostavte tabuľky početností (s určením jednotlivých typov početností) pri šírkach intervalov h=1 a h=3 (n=0) x: 7, 4, 9, 3, 6, 1, 14, 11, 11, 10, 7, 9, 4, 5, 8, 6, 4, 5, 1, Riešenie: Tabuľka 1: Rozdelenie početností pri šírke intervalu h=1 (čiže každá hodnota zvlášť) X f rf (%) cf rcf (%) 1 1 5 1 5 1 5 10 3 1 5 3 15 4 3 15 6 30 5 10 8 40 6 10 10 50 7 10 1 60 8 1 5 13 65 9 10 15 75 10 1 5 16 80 11 10 18 90 1 1 5 19 95 13 0 0 19 95 14 1 5 0 100 0 100 16
Tabuľka : Rozdelenie početností pri šírke intervalu h=3 (tabuľka triednych intervalov) x f rf (%) cf rcf (%) 1-3 3 15 3 15 4-6 7 35 10 50 7-9 5 5 15 75 10-1 4 0 19 95 13-15 1 5 0 100 0 100 8 7 6 5 4 3 1 0 1-3 4-6 7-9 10-1 13-15 Graf 1: Histogram rozdelenia početností hodnôt meraného znaku při šírke intervalu h=3 17
Štatistické charakteristiky jednorozmerných rozdelení V predchádzajúcej časti sme si ukázali ako môžeme údaje vhodne zapísať do tabuľky a ako ich môžeme graficky vyjadriť Teraz prejdeme k numerickému vyjadreniu empirického rozdelenia, ktoré reprezentujú štatistické charakteristiky Štatistickými charakteristikami nazývame veličiny, ktoré poskytujú stručnú číselnú informáciu o všetkých údajoch štatistického súboru V opisnej štatistike sú definované dve základné skupiny týchto charakteristík: miery stredu (stredné hodnoty, miery centrálnej tendencie) - miery, ktoré označujú polohu rozdelenia na vodorovnej osi, charakteristiky polohy, miery variability - miery rozptýlenia, premenlivosti rozdelenia údajov Miery stredu Členíme ich na dve základné skupiny: priemery a ostatné stredné hodnoty K priemerom patria aritmetický priemer, geometrický priemer, harmonický priemer a kvadratický priemer Pri ich výpočte zohľadňujeme všetky namerané hodnoty znaku v štatistickom súbore Ostatné stredné hodnoty sú medián a modus Pri ich výpočte sa zohľadňujú len niektoré namerané hodnoty znaku Najdôležitejšou charakteristikou centrálnej tendencie je aritmetický priemer (ďalej budeme zväčša používať len pojem priemer, ako je to bežne zaužívané) Aritmetický priemer ( x, AM, M) je definovaný ako súčet nameraných hodnôt delený ich počtom 18
1 x = n n x i i= 1 Aritmetický priemer má celý rad dôležitých vlastností, z ktorých uvedieme nasledujúce: stálosť súčtu hodnôt ak jednotlivé hodnoty v súbore nahradíme ich priemerom, súčet hodnôt zostane nezmenený, ak ku každej hodnote x pripočítame rovnaké číslo, zväčší sa o toto číslo aj priemer (platí aj pre odpočítanie), Súčet odchýlok všetkých hodnôt od priemeru sa rovná nule n (x i - x ) = 0 i=1 Súčet štvorcov (druhých mocnín) odchýlok všetkých hodnôt od ich priemeru je najmenšie možné číslo Je menší ako súčet štvorcov odchýlok všetkých hodnôt od akejkoľvek inej hodnoty (x i - x ) < (x i - a), pričom x a Matematické vyjadrenie priemeru je jednoduché a používa sa v mnohých ďalších odvodeniach dôležitých vzťahov Výpočet priemeru je založený na všetkých nameraných hodnotách Priemer je citlivý voči extrémnym výkyvom, môže byť silne ovplyvnený krajnými hodnotami súboru Posledná uvedená charakteristika aritmetického priemeru je jeho nevýhodou a jednou z príčin, prečo niekedy ako štatistickú charakteristiku polohy používame medián 19
Medián ( x~, Me, Q) je hodnota z radu hodnôt zoradených podľa veľkosti, ktorá delí tento rad na polovice Pri jeho výpočte musíme najprv namerané hodnoty zoradiť do poradia od najmenšej po najväčšiu Potom pri nepárnom počte hodnôt medián určíme celkom jednoducho Je to práve hodnota tvoriaca stred radu hodnôt V prípade párneho počtu hodnôt, medián stanovíme ako priemer dvoch hodnôt ležiacich v strede usporiadaného radu Napr majme súbor hodnôt 4, 1,, 7, 5 Zoradíme ich do poradia: 1,, 4, 5, 7 Hodnota 4 predstavuje v tomto súbore medián Ak je počet hodnôt párny, ako napr: 1,,, 4, 5, 6, 7, 9; medián leží medzi číslami 4 a 5 a je reprezentovaný priemerom týchto hodnôt, čiže jeho hodnota je 4,5 Poradie mediánu v súbore dát zoradených podľa veľkosti vieme určiť (a tak si uľahčiť výpočet), a to podľa vzorca: ~ 1 x = n + ( 1) Medián vyjadruje 50% výskytu, tzn 50 percentil (C 50 ) Pri členení usporiadaného súboru na kvartily (štvrtiny) vyjadruje druhý kvartil (Q ) Dôležitou vlastnosťou mediánu je, že súčet absolútnych odchýlok všetkých hodnôt od ich mediánu je minimálny Je menší ako súčet absolútnych odchýlok všetkých hodnôt od akejkoľvek inej hodnoty Symbolicky: x i - x~ < xi - a, ak x~ a Treťou dôležitou štatistickou mierou stredu je modus Modus ( x, Mo) je definovaný ako hodnota, ktorá sa v určitom rozdelení vyskytuje najčastejšie Modus môžeme vyrátať za predpokladu, že početnosti hodnôt sa odlišujú: 3,4,4,5,5,5,5,6,6, modusom je hodnota 5 Ak majú dve susediace hodnoty rovnako vysoké 0
početnosti väčšie ako ostatné hodnoty je modusom priemer týchto dvoch hodnôt:,3,4,4,4,5,5,5,6 modusom je hodnota 4,5 Ak tieto hodnoty nie sú susedné potom určíme dva modusy (ide o bimodálne rozdelenie):,3,4,4,4,4,5,6,7,8,8,8,8,9,10,11, modusom je 4 a 8 V niektorých prípadoch môžeme modus určiť priamo z tabuľky alebo grafu Porovnanie mier stredu Odporúča sa uprednostniť pri výpočtoch, ak to podmienky dovoľujú, výpočet aritmetického priemeru, a to z nasledovných dôvodov: je jednoznačný a ľahko vypočitateľný, pri veľkom n dáva spoľahlivé odhady parametrov základného súboru V niektorých prípadoch nie je však jeho použitie optimálne Je to v situáciách, keď rozdelenie údajov je viacvrcholové, asymetrické, premenné sú poradové, výber je príliš malý Medián je vhodný, ak sa vyskytne väčšina z týchto obmedzení Konkrétne, ak máme k dispozícií len poradové premenné, rozdelenie údajov je asymetrické a máme k dispozícii výbery s malým počtom prvkov Modus je vhodný na opísanie viacvrcholových rozdelení údajov Na rozdiel od priemeru a mediánu možno ho stanoviť aj u nominálnych premenných Pri presne symetrickom rozdelení (tzv normálna alebo Gaussova krivka rozdelenia) sú hodnoty priemeru, mediánu a modusu totožné Ak analyzujeme pozitívne zošikmené rozdelenie (vrchol posunutý doľava k nižším hodnotám), potom platí: modus < medián < priemer Ak skúmame negatívne zošikmené rozdelenie (vrchol posunutý doprava k vyšším hodnotám), potom platí: priemer< medián < modus 1
Miery variability V úvode tejto časti sme uviedli, že rozlišujeme dve skupiny štatistických charakteristík súboru údajov Druhú skupinu, na ktorú sústredíme pozornosť v nasledujúcej časti, predstavujú miery variability Miery variability ako štatistické charakteristiky poskytujú informácie o tom, ako sú jednotlivé pozorované hodnoty v analyzovanom empirickom rozdelení rozptýlené, vypovedajú o premenlivosti hodnôt Sú pre charakterizovanie rozdelení údajov dôležité, pretože aj tie rozdelenia, ktoré majú rovnaké stredné hodnoty sa môžu od seba odlišovať rozptylom údajov Miery variability členíme na tie, ktoré sú odvodené iba od niektorých hodnôt (variačné rozpätie, kvartilové rozpätie) a na tie, ktoré vychádzajú zo všetkých nameraných hodnôt (priemerná odchýlka, rozptyl, smerodajná odchýlka) Variačné rozpätie (R - range) je definované ako rozdiel medzi najväčšou a najmenšou hodnotou distribúcie (rozdelenia) údajov Vypočítame ho pomocou vzorca: R = x max - x min Variačné rozpätie prináša informáciu o rozsahu hodnôt distribúcie a je určené extrémnymi (krajnými) hodnotami rozdelenia Môžeme toto rozpätie ľahko určiť, je prehľadné a zrozumiteľné Je však zároveň málo stabilné vzhľadom na náhodné výkyvy (používame ho zväčša len pre výbery do 1 prvkov) Výrazne závisí na veľkosti výberu a preto nemôžeme porovnávať variačné rozpätia rozlične veľkých výberov Neposkytuje spoľahlivý odhad rozptýlenia údajov v základnom súbore Kvartilové rozpätie (interkvartilový interval, R Q ) vychádza z rozčlenenia distribúcie na štyri rovnaké časti kvartily Súbor údajov musí byť usporiadaný podľa veľkosti
(podobne ako pri výpočte mediánu) Interval na znakovej osi, ohraničený dolným kvartilom Q 1 (štvrtina, 5 % všetkých hodnôt) a horným kvartilom Q 3 (tri štvrtiny, 75 % všetkých hodnôt) udáva hodnotu kvartilového rozpätia: R Q = Q 3 Q 1 V tomto intervale leží 50 % všetkých hodnôt empirického rozdelenia Polovičnú interkvartilovú vzdialenosť označujeme ako kvartilová odchýlka (Q) Q 3 Q Q = 1 Kvartilové rozpätie a kvartilová odchýlka sú presnejšími indikátormi variability ako variačné rozpätie, i keď ich určujú iba niektoré hodnoty rozdelenia Pri výpočte je výhodné stanoviť poradie prvého a tretieho kvartilu, a to pomocou nasledovných vzorcov: 1 = ( n 1 4 Q ) = ( n 1 1 + 3 Q 3 + ) 4 Priemerná odchýlka (e, MD) je definovaná ako aritmetický priemer z absolútnych hodnôt odchýlok všetkých hodnôt rozdelenia od ich strednej hodnoty (tou môže byť aritmetický priemer, ale aj medián) Vypočítava sa nasledovne: e n i= = 1 x i n x Rozptyl alebo variancia (s ) je definovaný ako súčet štvorcov odchýlok všetkých hodnôt rozdelenia od ich aritmetického priemeru delený počtom meraní mínus 1 meranie Prináša informáciu o tom, ako kolíšu namerané hodnoty okolo priemeru rozdelenia Základný tvar vzorca je nasledovný: s 1 n = n 1 i= 1 ( ) x i x Existuje však aj výpočtový tvar: 3
s = n i= 1 x i n x i= 1 n n 1 i Smerodajná (alebo štandardná) odchýlka (s) je definovaná ako druhá odmocnina z rozptylu Smerodajná odchýlka prináša informácie o presnosti merania (aká je chyba merania) a vypočítame ju nasledovne: s = s Rozptyl a smerodajná odchýlka sú najdôležitejšie miery variability, a to z nasledovných dôvodov: sú len veľmi málo ovplyvňované náhodnými extrémnymi hodnotami výberu, závisia od všetkých hodnôt distribúcie, sú spoľahlivé pre odhady rozptýlenia dát v základnom súbore, sú vhodné a využívajú sa pre ďalšie matematicko-štatistické spracovanie a výpočty Variačný koeficient V niektorých prípadoch potrebujeme zistiť, či meraný znak je rovnako rozptýlený v každom výbere Ak máme rovnaké výbery a rovnakým spôsobom sme znak merali, môžeme to urobiť jednoduchým porovnaním rozptylov Ak však výbery nie sú rovnaké, musíme najprv vyrátať variačný koeficient (Pearsonov), ktorý je definovaný ako miera variability vyjadrená v percentách aritmetického priemeru: 4
V = 100s x Variačný koeficient predstavuje relatívnu mieru variability Je určený pre hodnoty získané pomerovou stupnicou S jeho používaním sa však stretávame aj pri spracovaní dát získaných na intervalovej úrovni 5
Dvojrozmerné rozdelenie V predchádzajúcom texte sme venovali pozornosť charakteristikám rozdelenia jednej premennej, zaoberali sme sa teda jednorozmernou distribúciou hodnôt (triedenie prvého stupňa) V nasledujúcej časti popíšeme dvojrozmerné rozdelenia, teda distribúciu hodnôt dvoch premenných (triedenie druhého stupňa) Analýza dvojrozmerných rozdelení vychádza z predpokladu, že namerané hodnoty obidvoch premenných boli získané na tom istom prvku výberového súboru a sústreďuje sa na sledovanie vzťahu týchto premenných (napr vzťah výšky a váhy človeka) Vzťahy medzi dvoma premennými môžeme analyzovať z dvoch hľadísk: ako často sa vyskytujú určité spojenia znakov (napr vyskytuje sa vyššia hmotnosť s vyššou telesnou výškou?), aké sú súbežné zmeny dvoch znakov (napr ak stúpa telesná výška, zvyšuje sa aj telesná hmotnosť?) Tieto analýzy môžeme uskutočniť za predpokladu, že máme k dispozícii aspoň poradové, v lepšom prípade metrické (intervalové, pomerové) hodnoty Medzi dvoma premennými môžeme vzťah, resp súvislosť postihnúť v troch podobách, ako: zhodu - veľkým hodnotám jednej premennej zodpovedajú veľké hodnoty druhej premennej, malým hodnotám jednej premennej zase malé hodnoty druhej premennej, v tomto prípade hovoríme o pozitívnej korelácii, protiklad - veľkým hodnotám jednej premennej zodpovedajú malé hodnoty druhej premennej a naopak malým hodnotám zodpovedajú veľké hodnoty druhej premennej, v tomto prípade hovoríme o negatívnej korelácii, 6
nezávislosť - veľkým hodnotám jednej premennej zodpovedajú raz malé, inokedy veľké hodnoty druhej premennej, rovnako malým hodnotám jednej premennej zodpovedajú raz malé, raz veľké hodnoty druhej premennej; v tomto prípade medzi premennými neexistuje súvislosť, premenné nekorelujú Súvislosti medzi dvoma premennými môžeme skúmať z dvoch aspektov: korelácia - zisťujeme tesnosť vzťahu, mieru súvislosti medzi premennými, regresia - odhadujeme hodnotu jednej premennej, ak poznáme hodnotu druhej premennej toho istého prvku súboru Odhad (regresiu) jednej premennej na základe poznania hodnôt druhej premennej môžeme urobiť len, ak tieto premenné navzájom korelujú Odhady sú presnejšie pri vyššej tesnosti vzťahov V praxi tento postup využívame hlavne v prípadoch, ak z určitých dôvodov nemôžeme niektorú premennú merať Súvislosti premenných majú podobu štatistických (korelačných) a funkčných súvislostí Štatistická (korelačná) súvislosť medzi dvoma javmi neznamená, že medzi nimi existuje aj kauzálna zákonitosť Korelačné súvislosti vyjadrujeme vždy s určitou mierou pravdepodobnosti (vyšší ľudia majú väčšinou aj vyššiu hmotnosť, ale môže nastať aj prípad, že vyšší človek má nižšiu hmotnosť ako nižší) Naopak, pre funkčné súvislosti platí, že nastanú vždy (ak pustíme kameň z ruky, vždy padne na zem) S funkčnými súvislosťami sa stretávame pri štúdiu matematiky, či fyziky V spoločenskovednom výskume má absolútna väčšina vzťahov premenných povahu štatistických súvislostí Pri analyzovaní dát nemôžeme preto bezhlavo korelovať jednu premennú s druhou Skúmať korelačné vzťahy by sme mali len medzi premennými, u ktorých to má určitý zmysluplný dôvod a vyplýva to z formulovaných teoretických predpokladov Dvojrozmerné distribúcie môžeme rovnako ako jednorozmerné rozdelenia vyjadriť v tabuľkách a grafoch Pri tabuľkovom vyjadrení konštruujeme dvojrozmerné tabuľky (kontingenčné tabuľky, krostabulácia) 7
Napr: Tabuľka 1: Vzťah výkonovej motivácie a úspešnosti výkonu v teste Výkonová motivácia Úspešnosť výkonu malá priemer veľká Súhrn Nízka 5 16 1 53 Stredná 1 8 6 75 Vysoká 1 38 7 Súhrn 58 66 76 00 Grafickým vyjadrením dvojrozmerného rozdelenia sú korelačné diagramy (korelogramy) Prinášajú tú istú informáciu ako tabuľky, avšak iným spôsobom Najčastejšie používané korelogramy sú: bodový diagram (počty bodov vyjadrujú frekvenciu výskytu), ďalej plošný diagram, trojrozmerný diagram Uvedené diagramy nám umožňujú určiť o aký stupeň intenzity pozitívnej alebo negatívnej korelácie približne ide Ku korelačnému diagramu môžeme zostrojiť regresnú čiaru, ktorá najlepšie reprezentuje znázornenú množinu bodov (súčet vzdialeností všetkých bodov od nej je minimálny) Táto čiara má podobu regresnej priamky v prípade, že vzťah medzi premennými je lineárny (na celej stupnici hodnôt má sledovaný vzťah rovnaký priebeh) 8
Štatistické charakteristiky dvojrozmerných rozdelení Podobne, ako sme charakterizovali v číselnej podobe jednorozmerné distribúcie hodnôt (priemer, rozptyl, smerodajná odchýlka a ďalšie), môžeme číselne vyjadriť aj určité vlastnosti dvojrozmerných rozdelení Výber konkrétnej charakteristiky (teda, či pôjde o korelačný koeficient alebo kontingenčný koeficient) sa uskutočňuje v závislosti od typu škálovania premennej, resp od typu stupnice, ktorou boli premenné merané a typu rozdelenia údajov Korelačné a kontingenčné koeficienty informujú o stupni súvislosti medzi dvoma premennými (miera tesnosti vzťahu) Ak sú premenné škálované intervalovo alebo pomerovo (tj znaky sú vo vlastnom zmysle merateľné), alebo vyhovujú podmienkam poradovej škály, tak ich súvislosť zisťujeme korelačným koeficientom Ak sú však premenné škálované nominálne (znaky sú teda z kvalitatívne rozličných tried predmetov), potom ich súvislosť je vyjadrovaná kontingenčným koeficientom Súčinová korelácia Najpoužívanejšou mierou korelácie (stupňa súvislosti) medzi dvoma premennými, ktoré boli získané metrickými stupnicami (intervalovými alebo pomerovými) je Pearsonov korelačný koeficient nazývaný tiež súčinová korelácia Tento korelačný koeficient môžeme vypočítať, ak sú splnené nasledovné tri podmienky: a) regresná čiara je priamka tj medzi premennými je lineárna súvislosť, b) distribúcia hodnôt obidvoch premenných má charakter normálneho rozdelenia, c) údaje boli získané intervalovou alebo pomerovou škálou Súčinový korelačný koeficient je definovaný ako podiel spoločného rozptylu (kovariancia) premenných X a Y a smerodajných odchýlok týchto premenných: 9
s xy r = s s s y v rozpísanom výpočtovom tvare: r = n n n x n n xi i= 1 i= 1 i i í = 1 i= 1 x y i n x n i n i= 1 y n n yi i= 1 i= 1 i y i Hodnota súčinovej korelácie sa pohybuje medzi hodnotami 1 a -1 Krajná hodnota r = 1 znamená maximálnu mieru pozitívnej súvislosti medzi premennými (veľkým hodnotám jednej premennej zodpovedajú veľké hodnoty druhej premennej obdobne platí pre malé hodnoty) Ak r = -1 ide o maximálnu mieru negatívnej súvislosti, tzn silne protikladný vzťah medzi premennými (veľkým hodnotám jednej premennej zodpovedajú malé hodnoty druhej premennej a opačne) V obidvoch prípadoch prechádza štatistická súvislosť v jednoznačnú funkčnú súvislosť Ak r = 0 medzi premennými neexistuje žiadna súvislosť, sú na sebe nezávisle V praxi štatistických šetrení sa získavané hodnoty r zväčša pohybujú v pásme medzi 0 až 1, resp medzi 0 až -1, nedosahujú teda krajné polohy 1, -1 či 0 Hodnoty korelačného koeficientu (0,40; 0,85 a pod) nemôžeme interpretovať ako percentá Teda r = 0,85 neznamená, že hodnoty premenných sa zhodujú v 85 % Takýto pohľad je možný v prípade koeficientu determinácie hodnota r Tento koeficient udáva v akom rozsahu určuje variabilita jednej premennej variabilitu druhej premennej Ak hodnotu r vynásobíme x100 odhadujeme percentuálne podiel rozptylu jednej premennej, ktorý vyvolali zmeny druhej premennej Napr ak r = 0,8, potom r = 0,64; v %: 100 0,64 je 64% Hodnoty premennej Y sú na 64% určené hodnotami premennej X 30
Poradová korelácia Vo výskume v sociálnych vedách je zvlášť častý jav, že nepracujeme vždy len s metrickými premennými Nezriedka sú výsledky určené len poradím hodnôt (zoradíme žiakov do poradia podľa výsledkov v behu a výkonoch v skoku do diaľky) V takomto prípade môžeme zisťovať súvislosť medzi premennými pomocou Spearmanovej poradovej korelácie ( r s ) Tento korelačný koeficient použijeme aj vtedy, keď sledujeme vzťah metrickej a poradovej premennej Nevyhnutným predpokladom je transformácia metrických hodnôt na poradové dáta Poradový korelačný koeficient počítame podľa vzorca: r s = 6 n ( xip yip ) i= 1 n( n 1) 1 Symboly x p, y p predstavujú poradové dáta (poradia), teda nie meraním získané hodnoty Symbol n znamená rozsah súboru Kontingenčné koeficienty V sociálnom výskume veľmi často pracujeme s kvalitatívnymi znakmi, sústredíme sa teda teraz na kontingenčné koeficienty Voľba koeficientu, ktorý môžeme použiť ako opisnú charakteristiku je závislá na type stupnice (škály), ktorou meriame znaky Rozlišujú sa tieto formy: Obe náhodné premenné sú triedené dichotomicky, čiže každá premenná má iba triedy Ak triedy znakov tvoria pravé alternatívy počítame koeficient Φ Ak triedy premenných sú 31
z normálne rozdelených súborov (nepravá dichotómia), potom sa používa tetrachorický koeficient r tet Obidve premenné sú viacčlenne triedené Každá premenná má teda viac ako dve triedy V tomto prípade sa počíta kontingenčný koeficient C Jedna premenná je triedená dvojčlenne, druhá je metricky škálovaná, teda je triedená viacčlenne - počítame biseriálny (dvojriadkový) korelačný koeficient Ak kvalitatívna premenná predstavuje pravé alternatívne delenie, potom počítame bodovo biseriálny koeficient r bbis; v prípade, že kvalitatívna premenná je z normálne rozdeleného súboru určuje sa biseriálny koeficient r bis Ak obidve sledované premenné sú triedené dichotomicky, potom sa pozorované početnosti členia do štvorpolíčkovej tabuľky, ktorej schému uvádzame Schéma tabuľky x (štvorpolíčková tabuľka) Náhodná premenná X x 1 x Riadkový súčet Náhodná y a B (a + b) premenná Y y 1 c D (c + d) Stĺpcový súčet (a + c) (b + d) (a + c) + (b + d) = (a + b) + (c + d) = n Súčty (a + b), (c + d), (a + c), (b + d) nazývame okrajovými (marginálnymi) súčtami Riadkové a stĺpcové súčty dávajú spolu celkový počet pozorovaní n (krížová kontrola) 3
Koeficient Φ Koeficient Φ počítame v prípade, že dichotomické triedy oboch premenných tvoria pravé alternatívy To sú tie, ktoré vznikli prirodzenou cestou v reálnom živote Ako príklad možno uviesť sledovanie vzťahu pohlavia a bezpečnosti jazdy (pohlavie: muž - žena, bezpečnosť jazdy: nehoda - bez nehody) O pravú alternatívu ide aj v prípade, že vyhodnocujeme dotazník s možnosťou odpovede áno - nie Alternatívne triedenie je však v tomto prípade vynútené metódou výskumu Vzorec pre výpočet koeficientu Φ: φ = bc ad ( a + b)( c + d )( a + c)( b + d ) a, b, c, d sú početnosti, ktoré sú v štyroch políčkach tabuľky Menovateľ je odmocninou súčinu marginálnych súčtov Získané dáta vždy zapisujeme do štvorpolíčkovej tabuľky, ktorá je uvedená vyššie a následne ich spracovávame Tetrachorický koeficient r tet Ak sú obidve dichotomické náhodné premenné normálne rozdelené, môžeme opísať ich vzájomný vzťah pomocou tetrachorického (alebo štvorpolíčkového) koeficientu U oboch premenných teda ide o dichotómiu nepravú Dichotómie premenných môžeme vytvárať vzhľadom na priemery (tj osoby pod hodnotou priemeru tvoria jednu kategóriu, osoby nad hodnotou priemeru druhú kategóriu) Podmienkou použitia je normálne rozdelenie základných údajov Koeficient r tet je tým menej spoľahlivý, čím viac sa toto rozdelenie líši od normálneho Uveďme ako príklad sledovanie vzťahu neuroticizmu a prospechu v škole 33
Dichotómie tvorí na jednej strane nadpriemerná a podpriemerná úroveň neuroticizmu a na strane druhej nadpriemerný a podpriemerný školský prospech Koeficient r tet počítame podľa vzorca: rtet 180 = cos 1+ o bc ad Hodnota tetrachorickej korelácie je kosínus uhla Veľkosť uhla je daná výrazom v zátvorkách Ak existuje ideálna záporná korelácia, hodnoty b a c sú nulové, potom r tet = cos 180 = -100 Pri ideálne pozitívnej korelácii majú nulové hodnoty a a d, z čoho vyplýva ad = 0 a potom zo vzorca r tet = cos 0 = +100 V prípade štatistickej nezávislosti obidvoch premenných platí ad = bc; v menovateli výrazu v zátvorke je potom 1 + 1; r tet = cos 90 = 0 Ak počítame koeficient Φ a r tet z tých istých dát (z rovnakej tabuľky) vychádza hodnota r tet väčšia V prípade, že premenné sú triedené viacčlenne (3 a viac), údaje usporadúvame do kontingenčnej tabuľky k x m Pritom k je počet riadkov a m jen počet stĺpcov 34
Schéma kontingenčnej tabuľky k x m Znak B Znak A B 1 B B j B m Súčty A 1 n 11 n 1 n 1j n 1m n 1 A n 1 n n j n m n A i n i1 n i n ij n im n i A k n k1 n k n kj n km n k Súčty n 1 n n J n m n Ako príklad môžeme použiť sledovanie vzťahov medzi premennými národnosť a materinský jazyk V podmienkach SR sa premenná národnosť môže členiť na 4 kategórie Slovák, Maďar, Rusín, Čech a podobné členenie má aj premenná materinský jazyk Dostaneme tak tabuľku 4x4 Pokiaľ nás zaujíma miera súvislosti týchto premenných, umožní ju zistiť kontingenčný koeficient C Jeho hodnoty sa nachádzajú v pásme 0 až 1 Čím viac sa blíži k hodnote 1, tým silnejšia je miera súvislosti Koeficient C je možné určiť aj pre tabuľky x (ako alternatívu voči koeficientu Φ a tetrachorickému koeficientu) Počítame ho podľa vzorca: C = χ χ + n Symbol n aj v tomto prípade znamená rozsah štatistického súboru Symbol χ (chí kvadrát) označuje veličinu, ktorá umožňuje posudzovať existenciu, vs neexistenciu vzťahu medzi premennými Možno ju počítať v tabuľkách kxm, ale aj v tabuľkách x Hodnota χ je daná výrazom: 35
χ = n i= 1 ( f f ) b f e e Symbol f b označuje pozorované (empirické) početnosti, f e očakávané početnosti Očakávané početnosti pre jednotlivé políčka tabuľky počítame nasledovne: riadkový súčet krát stĺpcový súčet lomené celková početnosť 36
Príklad: V náhodných výberoch 157 dievčat a 154 chlapcov (študenti SŠ) bol zisťovaný záujem o literatúru Máme teda premenné: pohlavie (dievčatá, chlapci), záujem o literatúru (áno, nie) Spomedzi dievčat sa pozitívne vyjadrilo 96 študentiek Z chlapcov záujem uviedli 44 študenti Zistite mieru súvislosti medzi sledovanými premennými Dáta najprv usporiadame do tabuľky: Záujem o literatúru Áno Nie Riadkový súčet Pohlavie Dievčatá 96 (70,7) 61 (86,3) 157 Chlapci 44 (69,3) 110 (84,7) 154 Stĺpcový súčet 140 171 311 Keďže ide o pravé dichotómie použijeme pre výpočet koeficient Φ Po dosadení do vzorca dostaneme Φ = 61*44 96*110 / 157 * 154 * 140 * 171 = 0,37 Prípustné je aj použitie koeficientu C Pre výpočet χ je potrebné poznať očakávané početnosti Tie sú uvedené v tabuľke v zátvorkách pre každé políčko Ak dosadíme do vzorca pre χ dostaneme 33,33 Následne počítame koeficient C = 0,311 Zisťujeme, že hodnoty koeficientov Φ a C sú veľmi podobné Medzi premennými pohlavie a záujem o literatúru je určitá súvislosť Je daná odlišným rozdelením početností u dievčat v porovnaní s chlapcami 37
Tetrachorický koeficient r tet v danom príklade nie je vhodný (používa sa pre nepravé dichotómie) Výpočtom však môžeme overiť, že jeho hodnota bude väčšia ako Φ 38
Princípy štatistickej indukcie V doterajšom štúdiu štatistiky bola, v nadväznosti na vymedzenie základných pojmov a problematiku merania a škálovania v sociálnych vedách, venovaná kľúčová pozornosť opisnej štatistike Umožňuje určovať štatistické charakteristiky - pre jednorozmerné rozdelenia sú to napr priemery a smerodajné odchýlky, pre dvojrozmerné rozdelenia napr korelačné koeficienty V rámci induktívnej (inferenčnej, testovacej) štatistiky sa otvára možnosť zisťovať, či sa vypočítané štatistické charakteristiky navzájom významne líšia Induktívna štatistika umožňuje dospieť od špecifických zistení k zovšeobecneniam Sústredíme sa najprv na niektoré otázky teórie náhodných výberov, pôjde najmä o objasnenie vzťahov výberu a základného súboru Výber a základný súbor Pojmy výber a základný súbor zodpovedajú pojmom časť a celok Základný súbor je množina všetkých javov (faktov, osôb, prípadov), ktoré sú možné ako realizácie nejakej náhodnej premennej Výber je časťou, vzorkou základného súboru Existuje celý rad dôvodov, pre ktoré nie je možné uskutočňovať merania na všetkých prvkoch základného súboru Spomeňme aspoň niektoré: niektoré základné súbory sú príliš rozsiahle alebo dokonca nekonečne veľké, niektoré merania na všetkých prvkoch základného súboru sú príliš ekonomicky náročné v porovnaní s hodnotou a významom získaných dát, výsledky je potrebné poznať skôr, než by bolo možné uskutočniť meranie (škálovanie) v celom základnom súbore, 39
nie je možné realizovať skúmanie nejakého javu v základnom súbore v potrebnom časovom intervale (napr striedanie rôznych období v roku môže ovplyvniť časť výsledkov) Z uvedených i niektorých ďalších dôvodov sme preto odkázaní na skúmanie výberov V tejto súvislosti jednou zo základných otázok je platnosť z výberov získaných číselných charakteristík pre príslušný základný súbor Otázku možno sformulovať aj nasledovne: aké informácie o základnom súbore nám sprostredkujú zistenia vo výberoch? Predovšetkým sa usilujeme pomocou nich odhadovať neznáme parametre príslušného základného súboru Predpokladom toho je reprezentatívnosť výberov, tj výbery majú byť obrazom základného súboru v malom merítku Toto sa dosahuje najčastejšie formou náhodných výberov, ktorých zostavenie sa zakladá na podmienke, aby každý prvok základného súboru mal rovnakú a nezávislú pravdepodobnosť, že bude do výberu zahrnutý Vhodnou technikou je napr výber pomocou tabuľky náhodných čísel Popri čistom náhodnom výbere rozlišujeme stratifikovaný výber (rozklad na čiastkové súbory, oblasti, ako sú vekové kategórie, úrovne vzdelania, geografické oblasti a pod, v nich sa potom realizuje náhodný výber), skupinový výber (náhodný výber skupín, ktoré skutočne existujú, napr školské triedy, pracovné skupiny a pod) a viacstupňový výber (opiera sa o hierarchické usporiadanie, napr náhodný výber krajov, okresov, obcí a jednotlivcov zahrnutých do skúmania) Popri náhodných výberoch existujú však aj viaceré typy nenáhodných výberov (napr kvótne výbery) Problematika výberov je jednou zo závažných otázok metodológie sociálnych vied, v rámci ktorej je analyzovaná podrobnejšie Pokiaľ ide o rozsah výberu, z hľadiska štatistiky je vzorka veľká, ak obsahuje viac ako 30 prvkov Vzorky, resp výbery s n 30 označujeme ako malé Informácie o základnom súbore získavame teda pomocou výberov, metódami štatistickej indukcie 40