Katedra štatistiky, Fakulta hospodárskej informatiky, Ekonomická univerzita v Bratislave Pravdepodobnostné modelovanie inverznými distribučnými funkciami : Identifikácia kvantilového modelu Ľubica SIPKOVÁ 3. z cyklu prezentácií Apríl 2009
Fázy kvantilového modelovania Identifikácia Vystihnutie tvaru empirického rozdelenia kvantilovým tvarom Estimácia Odhad parametrov kvantilového modelu Verifikácia Overenie vhodnosti kvantilového modelu Proces interaktívny, revidujúci predchádzajúce výsledky novými zisteniami s vrátením sa s novými informáciami k predchádzajúcim fázam, postupom a technikám.
Identifikácia Vystihnutie tvaru empirického rozdelenia Grafická identifikácia empirického rozdelenia Kvantitatívna analýza empirického rozdelenia: na momentovom základe na kvantilovom základe Identifikácia rozdelenia jednoduchými tvarmi Celého rozdelenia Zvlášť pre dolný a horný koniec Voľba tvaru váh pre konce rozdelenia Ako funkcia p Ako parametre modelu
Grafická analýza celého aj častí empirického rozdelenia (Q emp (p)=cp) Hodnota príjmov v závislosti od ich proporcionálneho postavenia vo vzostupnom usporiadaní v tis.sk CP 1,200 1,000 800 600 400 200 0 0.00 0.20 0.40 0.60 0.80 1.00 p Ľubica Sipková
Grafická analýza empirického rozdelenia Príjmy domácností SR v roku 2003 (Q emp (p)=cp) v tis. Sk CP v závislosti od p ( pre CP menšie ako dolný decil) Empirická kvantilová funkcia pre hodnoty pod dolným decilom 120 100 CP 80 60 CP = 425697p + 65536 R2 = 0,986 40 0 0.02 0.04 0.06 0.08 0.1 p Ľubica Sipková
Grafická analýza empirického rozdelenia Príjmy domácností SR v roku 2003 (Q emp (p)=cp) CP v závislosti od p ( pre CP v kvartilovom rozpätí ) Empirická kvantilová funkcia pre hodnoty medzi kvartilmi v tis.sk CP 300 275 250 225 200 175 CP = 272198p + 99913 R 2 = 0,9994 150 0.25 0.35 0.45 0.55 0.65 0.75 p Ľubica Sipková
Grafická analýza empirického rozdelenia Príjmy domácností SR v roku 2003 (Q emp (p)=cp) CP v závislosti od p ( pre CP väčšie ako horný decil) Empirická kvantilová funkcia pre hodnoty nad horným decilom v tis. Sk CP 1100 900 700 500 300 0.90 0.92 0.94 0.96 0.98 1.00 p Ľubica Sipková
Grafická analýza celého aj častí empirického rozdelenia (Box-Plot) Box-and-Whisker graf pre CP 0 1 2 3 4 5 6 7 8 9 10 11 12 v 100 000 Sk CP Ľubica Sipková
Grafická analýza empirického rozdelenia Príjmy domácností SR v 2003 Box-and-Whisker Plot pre dolných 95% hodnôt CP (Box-Plot) 0 1 2 3 4 5 v 100 tis. SK CP Takmer symetrické rozdelenie bez horných 5% hodnôt Ľubica Sipková
Grafická analýza empirického rozdelenia Príjmy domácností SR v 2003 (Box-Plot) Box-and-Whisker Plot pre prostrednú polovicu hodnôt CP Box-and-Whisker graf pre CP 0 1 2 3 4 5 6 7 8 9 10 11 12 v 100 000 Sk 16 19 22 CP 25 28 31 (X 10000) CP Symetrická prostredná časť medzi kvartilmi Ľubica Sipková
Grafická analýza empirického rozdelenia Príjmy domácností SR v 2003 16 Polygón rozdelenia pocetností pre CP Polygón % domác cností 12 8 4 0 0 2 4 6 8 10 12 v 100 tis. Sk CP Ľubica Sipková
Porovnanie zhody so známymi jednoduchými tvarmi pomocou procedúry: Comparison of Alternative Distributions Distribution Est. Parameters Log Likelihood KS D Lognormal (3-Parameter) 3-67677.7 0.0362935 Lognormal 2-67704.9 0.0397763 Loglogistic 2-67730.3 0.0496562 Gamma (3-Parameter) 3-67743.3 0.0244112 Birnbaum-Saunders 2-67763.8 0.0479773 Gamma 2-67775.9 0.0292224 Inverse Gaussian 2-67789.4 0.0550491 Largest Extreme Value 2-67873.8 0.0483855 Weibull 2-68026.0 0.0646936 Logistic 2-68477.7 0.0910885 Laplace 2-68514.9 0.108414 Exponential 1-68795.9 0.199527 Normal 2-69321.9 0.120725
Histogram for CDPD data 1600 frequ uency 1200 800 Distribution Gamma (3-Parameter) Loglogistic (3-Parameter) Lognormal (3-Parameter) 400 0 0 0.4 0.8 1.2 1.6 2 (X 1.E6) CDPD data
KS a CHI kv. Testy pre CDPD KS Test Erlang Gamma (3-Parameter) Loglogistic (3-Parameter) Weibull (3-Parameter) Lognormal (3-Parameter) DPLUS 0.0 0.0244112 0.0494693 0.0399911 0.0362935 DMINUS 1.0 0.0227598 0.0365427 0.0527996 0.0303411 DN 1.0 0.0244112 0.0494693 0.0527996 0.0362935 P-Value 0.0 0.00437615 0.0 0.0 0.00000264 Chi kv. Test Gamma Gamma (3-Parameter) Lognormal Lognormal (3-Parameter) Chi-Squared 399.179 379.992 394.717 354.507 D.f. 97 96 97 96 P-Value 0.0 0.0 0.0 0.0 Ľubica Sipková
Kvantitatívna analýza empirického rozdelenia Príjmy domácností SR v 2003 Výberové charakteristiky na momentovom základe Priemer = 244 284 Sk Rozptyl = 1.2012E10 Štandardná odchýlka = 109 598 Sk Koeficient šikmosti = +1.0498 Štand. šikmosť = 16.959 Pearsonova špicatosť = 2.997 Variačný koeficient = 44.87 % Štand. špicatosť = 24.209 na kvantilovom základe Medián = 237 407 Sk Kvartilové rozpätie = 139 770 Sk Galtonov koeficient šikmosti g=qd/iqr = -0.0123 Kvartilová diferencia qd=lq+uq-2 = -1718.50 Moorsova špicatosť k=[(e7-e5)+(e3-e1)]/iqr = 1.174 Ľubica Sipková
Čo by sme už mali vedieť na základe doterajšej identifikácie? nevhodnosť modelovať klasickým prístupom (nedostatočná dobrá zhoda jednoduchých rozdelení) obor funkčných hodnôt (hranice, limity rozdelenia) symetria asymetria (smer a intenzita asymetrie empirického rozd. a jeho častí) výsledky z histórie skúmania (známe modely aplikované v minulosti u podobnej NP overenie týchto tvarov pomocou Q-Q grafov)
Zopakujme všeobecné požiadavky na model kvalita a preferencie medzi modelmi sa budú posudzovať podľa ich splnenia vhodný na nadväzujúce analýzy, na vyjadrenie základných súhrnných charakteristík, má splniť svoj praktický účel dobrá zhoda štatisticky významný jednoduchosť (jednomodálnosť) možnosť aktualizácie v čase aplikovateľnosť viacnásobného prístupu modelovanie v podsúboroch, v štruktúrach možnosť aplikácie simulačných metód
Dva prístupy ku kvantilovému modelovaniu 1. Aplikovať odskúšané komplexné elastické tvary použiť známe zovšeobecnené tvary 2. Kombinovať jednoduché kvantilové tvary pomocou matematického aparátu a dať im príslušnú váhu v častiach rozdelenia skladaním kvantilového tvaru na mieru
1. Zovšeobecnené tvary definované kvantilovou funkciou (inverznou distribučnou funkciou) veľmi elastické (flexibilné) ľahko menia tvar, obor funkčných hodnôt (max, min), limity, inflexné body, rozloženie, asymetriu... sú viacparametrické, často s parametrom polohy, rozloženia, parametrami pre horný a dolný koniec
Zovšeobecnený tvar RS GLD Tvar štvor-parametrického asymetrického zovšeobecného lambda rozdelenia podľa Ramberga a Schmeisera : F ( λ p) 4 p λ 3 1 1( p) = λ + 1 λ2 ; 0 p 1 používa dva lineárne a dva nelineárne parametre Základný tvar má dva parametre pre dolný a horný koniec, ktoré spoločne modelujú šikmosť a špicatosť je extrémne elastický
2. Skladanie kvantilových tvarov rozdelenia v základnom tvare známeho jednoduchého kvantilového rozdelenia - bez parametrov polohy a stupnice (variability, rozloženia) potrebné identifikovať tvar zvlášť dolného a zvlášť horného konca pomocou empirického rozdelenia možno modifikovať kvantilové funkcie pomocou matematických operácií (základné pravidlá modifikácie kvantilových funkcií) zvoliť vhodné váhy týmto dvom tvarom
X~Q[p; Θ] Definovanie kvantilového modelu Q( p) 1 = F ( p) = x, 0 p 1 Jednoduchý kvantilový model v tvare : Q ( p ) = λ + η S ( p ) 0 p 1 môže byť lineárnym, alebo semilineárnym dvoj a viacparametrickým kvantilovým distribučným modelom v závislosti od jeho základného kvantilového tvaru : S(p)
Základné kvantilové tvary známych pravdepodobnostných rozdelení
Vystihnutie tvaru empirického rozdelenia - identifikácia Grafická analýza empirického rozdelenia príjmov Kvantitatívna analýza empirického rozdelenia príjmov: na momentovom základe na kvantilovom základe Identifikácia rozdelenia jednoduchými tvarmi Celého rozdelenia Zvlášť pre dolný a horný koniec Voľba tvaru váh pre konce rozdelenia Ako funkcia p Ako parametre modelu
Identifikácia rozdelenia pomocou pravdepodobnostných grafov napr. v STATGRAPHICS CENTURION XV pre Lognormálne 3-parametrické rozdelenie Lognorm al Probability Plot cumulative percent 99.9 99 95 80 50 20 5 1 0.1 10000 100000 1000000 10000000 C D PD data
Identifikácia rozdelenia Q-Q grafmi napr. pomocou STATGRAPHICS CENTURION XV pre Gamma 3-parametrické rozdelenie (X 1.E6) 3 Q uantile-q uantile Plot 2.5 CDPD data 2 1.5 1 0.5 0 0 2.5 5 7.5 10 12.5 15 (X 100000.) Gam m a distribution Ľubica Sipková
Identifikácia rozdelenia Q-Q grafmi porovnania vzdialenosti horných a dolných kvantilov od mediánu (v Exceli, ale možno aj pomocou STATGRAPHICS CENTURION XV) Porovnanie odchýlok hodnôt CP od mediánu (pravého konca oproti ľavému koncu rozdelenia CP) 200000 150000 m - CP( r ) 100000 50000 0 0 100000 200000 300000 400000 500000 600000 700000 800000 CP(n+1-r) - m Ľubica Sipková
Identifikácia len koncov rozdelenia jednoduchými tvarmi Useknutý Weibullov tvar pre dolný koniec Histogram pre CP s funkciou hustoty Weibullovho rozdelenia 240 200 frequenc cy 160 120 80 40 0 0 2 4 6 8 10 12 v 100 tis. Sk CP Ľubica Sipková
Identifikácia rozdelenia jednoduchými tvarmi Aké rozdelenie použiť pre horný koniec? Identifikačný graf pre Exponenciálne rozdelenie 9 8 7 6 - ln (1 -p ) 5 4 3 2 1 0 0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000 1100000 CP
Identifikácia rozdelenia jednoduchými tvarmi Identifikačný graf pre Weibullovo rozdelenie 9 8 ln [-ln (1 -p )] 7 6 5 4 Paretov tvar je vhodný pre horný koniec 3 2 1 0 11 12 13 ln CP
Identifikácia rozdelenia jednoduchými tvarmi Identifikačný graf pre logistické rozdelenie 10 8 6 4 ln [ p/(1-p) ] 2 0-2 0 200000 400000 600000 800000 1000000 1200000-4 -6-8 -10 CP
Identifikácia rozdelenia jednoduchými tvarmi Identifikačný graf pre Burr III rozdelenie 10 8 6 4 ln [ p/(1-p)] 2 0 10 11 12 13 14-2 -4-6 -8-10 ln CP
Identifikácia rozdelenia jednoduchými tvarmi Identifikačný graf pre Paretovo rozdelenie 9 - ln (1-p) 8 7 6 5 4 Paretov tvar je vhodný pre horný koniec 3 2 1 0 11 12 13 14 ln CP
V identifikačných grafoch nesledujeme sklon preloženej priamky Prečo sa v nich zameriame len na šikmosť a špicatosť rozdelení? možnosť ľahko zmeniť polohu a variabilitu kvantilových funkcií: Q( p) = λ + η S( p) posunutím centrovaním normovaním S(p) má vlastné parametre šikmosti, špicatosti, alebo parametre koncov rozdelenia, ktoré spolu definujú jeho šikmosť a špicatosť
Identifikačné grafy pre znázornenie šikmosti a špicatosti v empirickom súbore Galtonova šikmosť g(p) oproti p r Galtonova p-šikmosť g* (p) oproti p r indexu špicatosti t(p) oproti p r horného indexu špicatosti ut(p) oproti p r dolného indexu špicatosti lt(p) oproti p r a ich porovnaním s tvarmi pre simulované hodnoty teoretických rozdelení
Graf Galtonovej šikmosti pre empirické dáta Galtonova šikmosť empirického rozdelenia CP p 0.5 0.4 0.3 0.2 0.1 0 0.061; 0.100 0.294; 0.053 1.249; 0.011 1.800; 0.005-0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 g(p)
Graf Galtonovej šikmosti pre teoretické rozdelenie p Galtonova šikmosť pre W[ 2.345, 275832 ] 0.5 0.4 0.3 0.2 0 0.144, 0.101 0.296, 0.051 0.634, 0.011 0.701, 0.005-0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 g(p)
Tvar váh pre dva konce rozdelenia možné voliť ako funkciu pravdepodobnosti pre plynulý prechod z jedného tvaru do druhého Ako funkcia p ( 1 p ) a p [ ( )] 2 1 p 3 2 p a 2 p ( 3 2 p) [ ( )] 3 2 3( 2 1 p 10 15p + 6 p a p 10 15 p + 6 p ) 1 ω Ako parametre modelu ω 1 ( p) a ω( p) ( 1 ω ) a ω ( 1+ω ) ( 1 ω ) 2 a ( 1- ) a ω p 2 p 2 Ľubica Sipková
Ako može vyzerať poskladaný (zložený) kvantilový model? ( )[ ( )] β Q = λ + η CP ( p) 1 p ln 1 p + p γ 1, 0 < p < 1, β > 0, γ > 0 Weibullov-Paretov tvar: parameter polohy parameter stupnice, variability kvantilový základný tvar rozdelenia pre dolný koniec s jeho parametrami kvantilový základný tvar rozdelenia pre horný koniec s jeho parametrami váhy jednotlivým rozdeleniam 1 ( p)
Pravdepodobnostné modelovanie inverznými distribučnými funkciami: Identifikácia kvantilového modelu Spracovanie tretej z cyklu prezentácií o kvantilovom modelovaní. Podrobnejšie možno nájsť v monografii: Sipková, Ľ; Sodomová, E.: Modelovanie kvantilovými funkciami, Vydavateľstvo EKONÓM, Bratislava, 2007; 175 s. ISBN 978-80-225-2346-2 Ľubica SIPKOVÁ apríl 2009