ODHADY PARAMETROV ZÁKLADNÉHO SÚBOR.1 Bodové odhady Každý záko rozdeleia pravdepodobosti diskrétej aj spojitej áhodej premeej závisí od jedého alebo viacerých parametrov. V praxi často hľadáme vhodý pravdepodobostý model rozdeleia určitej áhodej premeej, apr. počtu poistých pleí pri poisteí motorových vozidiel, výšky príjmov domácostí a pod. Často máme rozumé dôvody predpokladať určitý typ fukcie pravdepodobosti diskrétej, alebo hustoty pravdepodobosti spojitej premeej. Pretože obyčaje epozáme vektor parametrov Θ predpokladaých pravdepodobostých rozdeleí, musíme ich odhadúť X1, X,..., X. pomocou áhodého výberu Bodový odhad Bodový odhad parametra Θ spočíva v jeho ahradeí hodotou vhode zvoleej výberovej charakteristiky, čo symbolicky zapisujeme: = est Θ=Θˆ.1.1 Vlastosti bodových odhadov Pre odhad parametra Θ sa sažíme zvoliť takú výberovú charakteristiku, ktorá čo ajlepšie aproximuje hodotu Θ a poskytuje tak jej ajkvalitejší odhad. Základé vlastosti, ktoré majú zabezpečiť kvalitu bodového odhadu parametra Θ, sú tieto: eskresleosť (evychýleosť) odhadu, kozistetosť odhadu, výdatosť odhadu,
6. kapitola dostatočosť odhadu, robustosť odhadu. Neskresleý odhad Výberová charakteristika je eskresleým odhadom parametra Θ, ak sa jej stredá hodota rová skutočej hodote odhadovaého parametra, teda: E ( ) = Θ (.1) Skresleím bodového odhadu parametra Θ pomocou výberovej charakteristiky E a skutočej hodoty parametra Θ, teda: je rozdiel jej stredej hodoty je asymptoticky eskresleým odhadom paramet Ak je výberová charakteristika skresleie platí = 0. Výberová charakteristika ra Θ, ak platí: = E Θ eskresleým odhadom parametra Θ, zrejme pre lim E = Θ (.) 0,15 Bodový odhad parametra 100 eskresleý skresleý 0,1 f(u) 0,05 f(v) 0 75 100 15 u, v Obr..1 Bodový odhad parametra Θ = 100 Zdroj: Vlasté spracovaie. Na obr..1 je zázoreý odhad parametra základého súboru Θ = 100 pomocou dvoch výberových charakteristík, V. Platí E() = 95 a E(V) = 100, preto eskresleým odhadom parametra Θ je výberová charakteristika V.
ODHADY PARAMETROV ZÁKLADNÉHO SÚBOR 7 Kozistetý odhad Výberová charakteristika je kozistetým odhadom parametra Θ, ak platí: ( ) lim P Θ < ε = 1 (.3) teda ak sa so zväčšovaím rozsahu výberového súboru výberová charakteristika takmer isto líši od parametra Θ meej ako o ľubovoľe malé kladé číslo ε. = 00 = 50 = 10 = 5 skutočá hodota Θ v Obr.. Vlastosť kozistecie bodových odhadov Zdroj: Vlasté spracovaie. Na obr.. vidíme, ako sa s rastúcim rozdeleie výberovej charakteristiky V sústreďuje okolo skutočej hodoty parametra Θ. S rastúcim rozsahom výberového súboru preto rastie aj pravdepodobosť, že sa hodota v bodového odhadu bude málo líšiť od skutočej hodoty Θ. Výdatý odhad Výdatým odhadom parametra Θ azývame takú výberovú charakteristiku ˆ, ktorá zo všetkých výberových charakteristík poskytujúcich eskresleý bodový odhad parametra Θ má ajmeší rozptyl. Ak z ejakých dôvodov emôžeme určiť takú výberovú charakteristiku ˆ, ktorá je výdatým odhadom parametra Θ, odhadujeme teto parameter výberovou charakteristikou, ktorá sa ajviac blíži výdatému odhadu. Mierou výdatosti tejto charakteristiky je pomer: e ( ˆ ) D = D (.4)
8. kapitola Podľa obr..3 je výberová charakteristika s rozptylom σ = 4 zrejme výdatejším odhadom parametra Θ = 100 ako výberová charakteristika V s rozptylom σ = 16. V 0, f(u) Odhad parametra 100 výdatejší meej výdatý 0,1 0 f(v) 75 100 15 u, v Obr..3 Bodové odhady, V s rôzou mierou výdatosti Zdroj: Vlasté spracovaie. Čím viac sa miera výdatosti blíži k hodote 1, tým je odhad parametra Θ pomocou výberovej charakteristiky výdatejší. Odhad, pre ktorý platí: lim e = 1 (.5) sa azýva asymptoticky výdatým odhadom. Robustý odhad Výberová charakteristika je robustým odhadom parametra Θ, ak jej rozdeleie ie je ovplyveé edodržaím základých predpokladov, resp. jej výberové rozdeleie ie je citlivé a zmeu východiskových predpokladov. dostatočý odhad Výberová charakteristika je dostatočým odhadom parametra Θ, ak využíva všet ky iformácie z áhodého výberu, ktoré majú vzťah k odhadovaému parametru Θ. Teda všetky pozatky o parametri Θ, ktoré je možé získať z jedotlivých hodôt výberového súboru, poskytuje aj samotá výberová charakteristika.
ODHADY PARAMETROV ZÁKLADNÉHO SÚBOR 9.1. Overovaie vlastostí bodových odhadov Vlastosť kozistetosti overíme pomocou postačujúcej podmieky kozistetosti bodových odhadov (pozri Bakytová Hátle Novák gro, 1986, s. 61-6). Postačujúca podmieka kozistetosti Výberová charakteristika je kozistetým odhadom parametra Θ, ak má tieto vlastosti: má koečý rozptyl, teda D ( ) < pre všetky, je to eskresleý, alebo aspoň asymptoticky eskresleý odhad parametra Θ, pre rozptyl výberovej charakteristiky D ( ) koverguje k ule, t. j. lim D = 0 Vlastosť výdatosti overujeme pomocou tzv. Rao-Cramérovej erovosti. Rao-Cramérova erovosť Pre každý eskresleý bodový odhad parametra Θ platí erovosť: 1 D ( ) l f ( x;θ) E Θ (.6) Z tejto erovosti a z defiície výdatých bodových odhadov bezprostrede vyplýva, že výberová charakteristika je výdatým bodovým odhadom parametra Θ práve vtedy, ak vo vzťahu (.6) dostaeme rovosť: 1 D ( )= l f ( x;θ) E Θ (.7)
30. kapitola.1.3 Bodový odhad stredej hodoty μ základého súboru Stredú hodotu μ základého súboru, alebo presejšie stredú hodotu rozdeleia pravdepodobosti sledovaej áhodej premeej X odhadujeme pomocou výberového priemeru X. Overíme požadovaé vlastosti bodových odhadov pre túto výberovú charakteristiku. Zo vzťahu (1.6) vyplýva, že výberový priemer X je eskresleým odhadom stredej hodoty μ pre ľubovoľé rozdeleie pravdepodobosti áhodej premeej X. Pretože prvé dve vlastosti kozistetosti sú spleé a podľa (1.7) platí: σ lim D( X) = lim = 0 výberový priemer X je kozistetým odhadom stredej hodoty μ. kážeme pomocou vzťahu (.7), že výberový priemer X je výdatým odhadom stred ej hodoty základého súboru, ak X ~ Po ( λ ). V takomto prípade platí: λ λ μ = E( X) = λ a f ( x; λ ) = e x! Postuposťou krokov riešeia pravej stray rovosti (.7) dostaeme: l f x; λ = xlλ l x! λ ( λ ) λ = 1 = λ λ λ l x ; x x ([ λ] ) x λ 1 λ 1 E = = = λ E x λ λ λ Po dosadeí do (.7) pravá straa tejto rovosti je λ. D X a podľa (1.7) pre ľavú strau vzťahu (.7) do Pretože ~, staeme tiež: X Po λ platí = λ x D( X) Tým sme dokázali, že X je výdatým odhadom parametra λ Poissoovho rozdeleia. Predpokladajme, že v základom súbore X ~ N ( μσ ; ). kážeme pomocou platosti vzťahu (.7), že aj v tomto prípade je X výdatým odhadom stredej hodoty μ. = λ
6 riešeé PRÍKLADY V systéme SAS 6.1 Úvod do práce v systéme SAS Eterprise Guide Štatistický aalytický systém SAS (Statistical Aalytical System SAS) je softvérový produkt firmy SAS Istitute Ic., Cary, NC 7513, SA. Softvér vzikal v rokoch 1966 1976 ako vedecký projekt a Štátej uiverzite v Severej Karolíe (North Carolia State iversity). Spoločosť SAS založili v roku 1976 Jim Goodight, Joh Sall a Jim Barr, pracovíci tejto uiverzity. Z malej kacelárie so štyrmi zamestacami sa stala časom veľká spoločosť s takmer 13 700 pracovíkmi. SAS má des zákazíkov v 140 krajiách sveta v rôzych ištitúciách a orgaizáciách, kde im pomáha zbierať ajdôležitejšie údaje a tieto trasformovať do využiteľých strategických iformácií o zákazíkoch, o dodávateľoch a o vlastej orgaizácii. Na Slovesku vzikla SAS pobočka 1 v roku 1995 a v súčasosti má asi 50 zamestacov. SAS Slovakia, s. r. o. poúka a sloveskom trhu komplexé kozultačé služby, techickú podporu a školeia. Systém SAS je rozsiahly, profesioále orietovaý softvérový systém, ktorý sa skladá z viac ako 00 modulov (častí, kompoetov). SAS Eterprise Guide (ďalej SAS EG) je grafické užívateľské rozhraie (Graphic ser Iterface GI) pre systém SAS, ktoré bolo dodaé do verzie 9 v roku 004. Je to iteraktívy ástroj k systému SAS a bez základého systému SAS emôže fugovať. Pri ákupe SAS EG si treba kúpiť liceciu miimále a základý modul SAS-u (Base SAS) a pre štatistické aalýzy a modul SAS/ STAT. Sú to moduly, ktoré sú potrebé a riešeie príkladov z tejto kapitoly. Použitie iteraktíveho rozhraia SAS EG evyžaduje zalosť programovaia, čiže zalosť sytaxe SAS programovacieho jazyka. SAS kód (program) je v SAS EG automaticky geerovaý a základe práce používateľa v iteraktívych okách úloh, čiže v pouke (meu). Po spusteí aalýzy je SAS kód vykoaý a pozadí a je takisto súčasťou jedotlivých SAS výstupov. žívateľ sa tak môže obozámiť s obsahom a štruktúrou vykoaých SAS kódov, a tak sa učiť aj programovať v SASe. Nezáleží a tom, či SAS kód pre aalýzu údajov apíšeme a spustíme v programovom režime, alebo túto aa- 1 SAS Slovakia, s. r. o., Lazaretská 1, 811 08 Bratislava 1. Dostupé a iterete: <http://www.sas. com/offices/europe/slovakia/cotact/>.
44 6. kapitola lýzu aklikáme v SAS EG, dostaeme rovaké výsledky. SAS programový kód apísaý v prostredí systému SAS môžeme bez problémov použiť v aplikácii SAS EG. Je tu plá kompatibilita pri dodržaí iektorých základých pravidiel umiesteia SAS dátových súborov. Základou výhodou systému SAS v porovaí s iými podobými softvérmi je to, že vie priamo pracovať s dátovými súbormi rôzych typov. Aj aplikácia SAS EG umožňuje jedoduchý prístup k lokálym alebo vzdialeým SAS údajom (SAS dátové súbory verzie 6, 8 a 9) a aj k lokálym alebo vzdialeým údajom iého typu (apr. Microsoft Excel, Microsoft Access, Lotus, Paradox, Text, HTML, ODBC, k tabuľkám z databáz ako Oracle, DB, OLE DB a pod.). Táto časť je zameraá a obsluhu SAS Eterprise Guide, verzie 4. až 5.1. Pouka (meu) a obrazovky pre ié (staršie, resp. ovšie) verzie SAS EG môžu byť v iečom odlišé. Obsahom ie je kompletý ávod a obsluhu SAS EG, ale le výber iektorých častí, ktoré považujeme za potrebé bližšie vysvetliť vzhľadom k ich použitiu pri riešeí príkladov v tejto kapitole. žívateľ môže využiť aj systém Help, ktorý je pre jedotlivé časti SAS EG podrobe vypracovaý. Na webovej stráke spoločosti SAS je dostupá SAS dokumetácia, ktorá je takisto výborým zdrojom iformácií. 6.1.1 Pracová plocha SAS Eterprise Guide SAS EG ako iteraktíve rozhraie k systému SAS je samostatá aplikácia, ktorá sa ištaluje pod operačým systémom Widows. V SAS EG užívateľ vytvára svojou iteraktívou prácou SAS EG projekt. Projekt je základá štruktúra v SAS EG, s ktorou užívateľ pracuje. Každá ová aalýza môže predstavovať ový SAS EG projekt, ktorý možo uložiť ako súbor s prípoou egp (azov_projektu.egp) 3, eskôr otvoriť a pokračovať v práci. Aplikáciu SAS EG spustíme tak, že vyhľadáme teto program cez Štart meu operačého systému Widows. Otvorí sa úvodé oko, ktoré umožňuje (obr. 6.1): 1. Vybrať SAS EG projekt zo zozamu existujúcich projektov. Názvy existujúcich projektov, s ktorými užívateľ pracoval a svojom PC, sú zobrazeé v časti Ope a project.. Vytvoriť ový projekt (voľba New Project v časti New). 3. Vytvoriť ový SAS programový kód (voľba New SAS Program v časti New). 4. Vytvoriť ový dátový súbor (voľba New Data v časti New). 5. V časti Assistace poúka výukový program pre SAS EG (Tutorial Gettig Started with SAS Eterprise Guide). 6. V prípade, že užívateľ echce, aby sa úvodé oko zobrazovalo, ozačí voľbu Do t show this widow agai v spodej časti oka (obr. 6.1). Po výbere voľby New Project sa a obrazovke objavia tri základé oká prostredia SAS EG (obr. 6.): Project Tree, Workspace, Server List. SAS Olie Documetatio. Dostupé a iterete: <http://support.sas.com/oliedoc/913/ docmaipage.jsp>. 3 Projekty v SAS EG od verzie 4.0 majú prípou *.egp. V starších verziách SAS EG mali projekty prípou *.seg.
riešeé PRÍKLADY V systéme SAS 45 Obr. 6.1 Úvodé oko SAS EG Obr. 6. Základé oká v SAS EG Na začiatku je pre ový práve otvoreý SAS EG projekt oko Project Tree prázde (pozri obr. 6.). Postupe sa tu ukladajú jedotlivé prvky aalýzy v stromovej štruktúre, ktoré užívateľ iteraktíve tvorí cez pouku SAS EG. Oko obsahuje všetky vstupé i výstupé dáta, SAS programy, chybové hláseia o spusteých aalýzach a výsledky aalýz, ktoré boli vytvoreé alebo použité v SAS projekte. Vytvoreý projekt užívateľ prvýkrát pomeuje a uloží postuposťou krokov: File Save Project As. V pracovom prostredí (Workspace) sa automaticky po aštartovaí SAS EG otvorí oko Project Desiger, ktorého súčasťou je záložka Process Flow. Je to grafické zobrazeie priebehu projektu prostredíctvom diagramu s ikoami. V pracovom prostredí sú zobrazovaé aj výsledky jedotlivých aalýz po vykoaí SAS úloh, resp. programov zvyčaje v HTML formáte alebo ako SAS Reporty. Môžu tu byť zobrazeé aj obsahy jedotlivých systémových hláseí (Log) alebo SAS kódov (Code). Obr. 6.3 Oká SAS EG pouka voľby View Všetky oká sa dajú ľubovoľe posúvať, dá sa meiť ich veľkosť a prípade ich zatvárať, resp. otvárať. Oká zatvárame cez krížik umiesteý v ich pravom horom rohu a späte otvárame cez hlavú pouku, záložka View (obr. 6.3), klikutím a príslušý
46 6. kapitola ázov oka, ktoré chceme otvoriť. Okrem troch úvodých okie sa v pouke View achádzajú aj ďalšie oká: Task List, Project Log, Task Status. Oko Task List umožňuje otvoreie dialógu úloh (procedúr), ktoré poskytuje SAS Eterprise Guide. Jedotlivé úlohy obsahujú pouku a astaveia pre kokréte aalýzy, ktoré možo spúšťať aj cez hlavý poukový riadok. Je možé využívať záložku podľa jedotlivých kategórií aalýz, podľa ich zameraia (Tasks by Category, obr. 6.4) alebo podľa ázvov SAS procedúr, ktoré jedotlivé úlohy reprezetujú (Tasks by Name, obr. 6.5). Druhú možosť uvítajú užívatelia, ktorí pozajú SAS procedúry a ich jazyk. Použitie jedotlivých úloh (procedúr) závisí od kokrétej štruktúry licecovaých SAS modulov systému SAS, ktoré aplikácia SAS EG využíva. Oko Task Status zobrazuje iformácie o mometálom stave vykoávaia jedotlivých úloh, ktoré boli spusteé a vykoaie. Oko Project Log zobrazuje systémové iformácie o priebehu vykoaia jedotlivých úloh (procedúr), ktoré užívateľ poslal a vykoaie pomocou tlačidla Ru. Nové aj existujúce projekty sa dajú ačítať dvoma spôsobmi: 1. Ak začíame prácu so systémom SAS EG, zvolíme príslušú voľbu pre ačítaie ového alebo existujúceho projektu spomíaú v predchádzajúcom texte (pozri obr. 6.1).. Ak sa už achádzame v SAS EG, tak zvolíme asledujúcu postuposť príkazov: a) ak ide o ový projekt: File New Project; b) ak ide o existujúci projekt: File Ope Project Local Computers alebo SAS Servers. Obr. 6.4 Task List Tasks by Category (časť) Obr. 6.5 Task List Tasks by Names (časť)
riešeé PRÍKLADY V systéme SAS 47 6.1. Práca s dátami v projekte Vložeie SAS dátových súborov (prípoa *.sas7bdat, resp. staršie verzie ako 9 mali prípou *.sd) do projektu sa dá urobiť viacerými spôsobmi. Najjedoduchší spôsob je výber z hlavého poukového riadku (obr. 6.6): File Ope Data Local Computer alebo SAS Servers. Obr. 6.6 Vložeie dátového súboru do EG projektu (File Ope Data) Po vyhľadaí súboru a lokálom počítači odklikeme Ope. Súbor je pridaý do projektu a stáva sa automaticky aktívym vstupým súborom. Iheď po pridaí do projektu sa súbor štadarde otvorí v oke Workspace a je chráeý pred prepisovaím, čiže je v stave Protect data (read oly). V projekte (oko Project Tree) alebo v oke Process Flow je SAS dátový súbor reprezetovaý štvorcovou ikokou s červeou guličkou v pravom dolom rohu (pozri apr. obr. 6.9). Ďalší spôsob otvoreia existujúceho SAS dátového súboru je prostredíctvom tzv. SAS kižice. SAS kižica (Library) je v podstate predvoleá fyzická cesta k súboru a disku či iom médiu. Vo verziách SAS EG 4. až 5.1 možo kižice vytvárať priamo cez hlavú pouku Tools Assig Project Library (existujú aj ié možosti). Objaví sa dialógové oko, ktoré umoží zadať ázov kižice (Name, obr. 6.7), vybrať server alebo lokály disk (podľa možostí ištalácie SAS EG) a fyzickú cestu (Path, obr. 6.8), kde sa táto kižica bude achádzať. Pri tvorbe kižice vyberáme aj Egie, to zameá, že výberom z pouky určíme, aké typy súborov budú v daej kižici SAS EG viditeľé. Základou výhodou softvéru SAS je to, že vie priamo pracovať s dátovými súbormi z rôzych iých, ajmä databázových programov. V pouke voľby Egie sú typy súborov apr. ACCESS, Oracle, DB, SPSS a ié. Štadardá pouka pre Egie je BASE Latest versio of Base SAS (obr. 6.8). Oko pre tvorbu SAS kižice sa skladá z viacerých častí a jeho správe vypleie je a záver prezetovaé žltou ikokou (pozri apr. obr. 6.9), ktorá pribude v stromovej štruktúre projektu (Project Tree, resp. Process Flow). Symbolizuje kižicu, ktorej obsa-