ANEXA INTRODUCERE MODELUL GLM

Σχετικά έγγραφα
Metode iterative pentru probleme neliniare - contractii

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

Sisteme diferenţiale liniare de ordinul 1

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

Integrala nedefinită (primitive)

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

Seminar 5 Analiza stabilității sistemelor liniare

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

Curs 1 Şiruri de numere reale

Zgomotul se poate suprapune informaţiei utile în două moduri: g(x, y) = f(x, y) n(x, y) (6.2)

8 Intervale de încredere

7 Distribuţia normală

Curs 4 Serii de numere reale

Modul de calcul al prețului polițelor RCA

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor


Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice

prin egalizarea histogramei

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

MARCAREA REZISTOARELOR

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].

Esalonul Redus pe Linii (ERL). Subspatii.

Aplicaţii ale principiului I al termodinamicii la gazul ideal

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

Curs 2 DIODE. CIRCUITE DR

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

Elemente de bază în evaluarea incertitudinii de măsurare. Sonia Gaiţă Institutul Naţional de Metrologie Laboratorul Termometrie

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

Spatii liniare. Exemple Subspaţiu liniar Acoperire (înfăşurătoare) liniară. Mulţime infinită liniar independentă

Subiecte Clasa a VII-a

Metode de interpolare bazate pe diferenţe divizate

Msppi. Curs 3. Modelare statistica Exemplu. Studiu de caz

9 Testarea ipotezelor statistice

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor

a. 11 % b. 12 % c. 13 % d. 14 %

Modelarea şi Simularea Sistemelor de Calcul Distribuţii ( lab. 4)

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii


Subiecte Clasa a VIII-a

V O. = v I v stabilizator

NOTIUNI DE BAZA IN STATISTICA

Componente şi Circuite Electronice Pasive. Laborator 3. Divizorul de tensiune. Divizorul de curent

riptografie şi Securitate

Laborator 11. Mulţimi Julia. Temă

Εμπορική αλληλογραφία Ηλεκτρονική Αλληλογραφία

Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011

Proiectarea filtrelor prin metoda pierderilor de inserţie

Examen AG. Student:... Grupa: ianuarie 2016

ANALIZA DATELOR EXPERIMENTALE

Scoruri standard Curba normală (Gauss) M. Popa

Functii Breviar teoretic 8 ianuarie ianuarie 2011

Examen AG. Student:... Grupa:... ianuarie 2011

1.7 Mişcarea Browniană

Asupra unei inegalităţi date la barajul OBMJ 2006

5.4. MULTIPLEXOARE A 0 A 1 A 2

Cursul 6. Tabele de incidenţă Sensibilitate, specificitate Riscul relativ Odds Ratio Testul CHI PĂTRAT

z a + c 0 + c 1 (z a)

1.3 Baza a unui spaţiu vectorial. Dimensiune

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

Valori limită privind SO2, NOx şi emisiile de praf rezultate din operarea LPC în funcţie de diferite tipuri de combustibili

Capitolul 2 - HIDROCARBURI 2.4.ALCADIENE

Toate subiectele sunt obligatorii. Timpul de lucru efectiv este de 3 ore. Se acordă din oficiu 10 puncte. SUBIECTUL I.

TEMA 9: FUNCȚII DE MAI MULTE VARIABILE. Obiective:

Orice izometrie f : (X, d 1 ) (Y, d 2 ) este un homeomorfism. (Y = f(x)).

Curs 2 Şiruri de numere reale

CIRCUITE INTEGRATE MONOLITICE DE MICROUNDE. MMIC Monolithic Microwave Integrated Circuit

Problema a II - a (10 puncte) Diferite circuite electrice

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

1. PROPRIETĂȚILE FLUIDELOR

Erori si incertitudini de măsurare. Modele matematice Instrument: proiectare, fabricaţie, Interacţiune măsurand instrument:

Componente şi Circuite Electronice Pasive. Laborator 4. Măsurarea parametrilor mărimilor electrice

Capitolul ASAMBLAREA LAGĂRELOR LECŢIA 25

Recapitulare - Tipuri de date

Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane

Metode Runge-Kutta. 18 ianuarie Probleme scalare, pas constant. Dorim să aproximăm soluţia problemei Cauchy

riptografie şi Securitate

Analiza bivariata a datelor

Tranzistoare bipolare cu joncţiuni

LUCRAREA NR. 1 STUDIUL SURSELOR DE CURENT

Ecuatii trigonometrice

T R A I A N ( ) Trigonometrie. \ kπ; k. este periodică (perioada principală T * =π ), impară, nemărginită.

PROIECT ECONOMETRIE. Profesori coordinatori: Liviu-Stelian Begu și Smaranda Cimpoeru

Ecuatii exponentiale. Ecuatia ce contine variabila necunoscuta la exponentul puterii se numeste ecuatie exponentiala. a x = b, (1)

EDITURA PARALELA 45 MATEMATICĂ DE EXCELENŢĂ. Clasa a X-a Ediţia a II-a, revizuită. pentru concursuri, olimpiade şi centre de excelenţă

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite

Laborator 1: INTRODUCERE ÎN ALGORITMI. Întocmit de: Claudia Pârloagă. Îndrumător: Asist. Drd. Gabriel Danciu

REDRESOARE MONOFAZATE CU FILTRU CAPACITIV

2 Transformări liniare între spaţii finit dimensionale

Criptosisteme cu cheie publică III

Profesor Blaga Mirela-Gabriela DREAPTA

Transcript:

ANEXA Prezentare model actuarial GLM INTRODUCERE Societățile de asigurare folosesc metode actuariale pentru a determina aceste variabile utilizându-se în general o modelare de tipul generalized linear models (GLM). Mai jos este o prezentare generală a acestui model actuarial. MODELUL GLM Dauna medie și frecventa daunelor pentru categoria autoturismelor deținute de persoane fizice atât pentru riscul de daune materiale cat și pentru cel de vătămări corporale s-au estimat utilizându-se o modelare de tipul Generalized Linear Models. Modelul GLM reprezintă o extensie a modelului tradițional liniar (care cuprinde regresiile simple sau multiple, analize ANOVA) și asociază unei variabile pe care vrem sa o previzionam (numita variabila răspuns sau variabila dependenta ) mai multe variabile (numite factori sau predictori sau variabile independente ) despre care avem anumite informații. Scopul modelelor liniare este redarea relației dintre variabila răspuns Y și un număr de variabile predictive, X. Atât modelul clasic linear cat și cel generalizat privesc observațiile Yi ca fiind realizări ale variabilei aleatoare Y. Modelele GLM sunt compuse dintr-o gama larga de modele care includ modelele liniare ca și caz particular. Ipotezele restrictive ale modelului liniar de Normalitate, varianta constanta și aditivitatea efectelor sunt eliminate. în schimb, distribuția variabilei răspuns este membra a familiei exponențiale, iar dispersiei ii este permis sa varieze cu media distribuției. Membre ale familiei exponențiale sunt: distribuția Normala, distribuția Poisson, distribuția Binomiala, distribuția Gamma, distribuția Invers Gaussiana. Modelul tipic pentru modelarea numărului de daune sau a frecventei daunei este Poisson multiplicativ. În afara de faptul ca este universal acceptată și cel mai des utilizată în

modelarea numărului daunelor, distribuția Poisson deține și o proprietate particulara care o face și intuitiv adecvata și anume aceea ca este invarianta la masurile de timp. Similar, un model standard pentru modelarea severității daunelor datorita formei ei generale, este Gamma multiplicativ. Forma GLM: - vector nx1 al valorilor actuale observate, variabile aleatoare independente, normal distribuite. X matrice nxp a variabilelor independente (factori) - vector px1 al parametrilor - reprezinta termenul eroare, este un vector nx1 de variabile aleatoare independente, normal distribuite, cu media 0 și dispersia σ2. Relația dintre variabila dependenta și variabilele independenta este definita prin E(y). E( )=b ( )=. O alta componenta a modelului GLM este funcția de legătură ( link function ), diferențiabilă, inversabila, care descrie modul în care media variabilei yi, i relaționează cu predictorul liniar i = xi : g(µi) = xi. E( )=g-1( )= Deci, o funcție de medie și nu media, este modelata liniar. Sintetizând, un model GLM este structurat astfel: Unde: Yi vectorul variabilei răspuns, g(x) funcția link, inversabila, care face legătura intre răspunsul așteptat și combinația liniara a factorilor observați, Xij matricea factorilor, βj vectorul parametrilor modelului (care trebuie estimați), εi vectorul eroare ( offset ), - parametru, V(x) functia variatie, ωi coeficient care atribuie o credibilitate sau o pondere fiecărei observații.

Tabelul de mai jos sintetizează câteva modele tipice: Frecventa Nr. daune Dauna medie Probabilitate (de ex. de reînnoire) Link g(x) ln(x) ln(x) ln(x) ln(x/(1-x))) Eroare Poisson Poisson Gamma Binomial Parametru 1 1 Estimat 1 Variația V(x) x x x2 x(1-x) Ponderile Expunere 1 Daune 1 Offset 0 ln(expunere) 0 0 Având definit modelul prin X, g(x), V(x),,,, și dat fiind setul de observatii y, componentele lui se determina prin maximizarea functiei de verosimilitate (sau echivalent, logaritmul funcției de verosimilitate). în esență, aceasta metoda caută sa gaseasca parametrii care, odata aplicati modelului, produc datele observate cu probabilitatea cea mai mare. Verosimilitatea este definita ca fiind produsul probabilităților (sau a funcțiilor densitate de probabilitate în cazul distribuțiilor continue) de observare a fiecărei valori y. In practica, când exista mulți factori cum ar fi vârsta, capacitatea cilindrica, județul și durata poliței, fiecare conținând mai multe niveluri, este mai util sa se parametrizeze GLM considerând, pe lângă factorii observați, un termen intercept (constanta GLM), care reprezintă un parametru ce se aplica tuturor observațiilor. O analiză de tip GLM a daunelor necesită un anumit volum de date. Cu toate ca GLM sunt metode multivariate, este utila și benefica efectuarea unor analize univariate sau bivariate ale datelor înaintea modelarii GLM. In primul rând, analiza univariata a expunerilor și a daunelor pentru toți factorii indica daca o variabila conține suficiente informații pentru a fi inclusa în model (de exemplu, daca 99% din expunerea unei variabile se afla într-un singur nivel, atunci aceasta nu este potrivita pentru modelare). In al doilea rând, presupunând ca exista distribuții viabile ale factorilor pe niveluri, atenție suplimentara trebuie acordata nivelurilor individuale care conțin expunere și număr de daune reduse. Daca aceste niveluri nu sunt în cele din urma combinate cu alte niveluri, algoritmul de verosimilitate maxima a GLM s-ar putea sa nu conveargă (daca un nivel al unui

factor conține zero daune și si se modelează printr-un model multiplicativ, coeficientul teoretic corect pentru acel nivel va fi apropiat de zero, și parametrul estimat corespunzător logaritmului acelui coeficient s-ar putea sa fie atât de mare și negativ încât algoritmul numeric corespunzător verosimilității maxime nu va converge). Pe lângă investigarea expunerilor și daunelor, analiza unifactoriala a frecventei și daunei medii furnizează indicații preliminare a efectului produs de fiecare factor în parte. Deoarece în analiza se utilizează factori categoriali, este necesara o atenție sporita cu privire la modul în care acești factori sunt categorizati astfel încât GLM sa beneficieze de factorii care afectează sistematic experiența și sa se excludă factorii care nu au un efect sistematic. Pentru a distinge intre factorii cu efect sistematic și cei cu efect aleator (si deci neprobabil sa se repete în viitor) exista mai multe criterii, printre care: erorile standard ale estimațiilor parametrilor, teste de devianta (teste de tipul III), consistenta în timp și nu în ultimul rând intuiția și simțul realității. Pe lângă faptul ca furnizează estimațiile de verosimilitate maxima a parametrilor, GLM furnizează și informații suplimentare ce indica certitudinea estimărilor. Un astfel de diagnostic util este reprezentat de erorile standard ale estimațiilor, acestea fiind definite ca fiind rădăcina pătrata a elementului diagonal al lui -H-1 unde H (Hessian) este matricea derivatelor de ordin 2 a log verosimilității. In general, se presupune ca estimațiile parametrilor sunt distribuite asimptotic Normal. În consecință, se poate efectua un simplu test statistic asupra estimațiilor parametrilor pentru a vedea daca efectul fiecărui nivel al factorului este semnificativ diferit fata de nivelul de baza al acelui factor. Pentru aceasta se utilizează de obicei testul χ2 prin care se compara rădăcina pătrata a estimației parametrului împărțită la dispersia ei cu distribuția χ2 In practica, deseori interpretarea grafica a estimărilor și a erorilor standard sunt mai utile în testarea adecvării unui model. Pentru compararea masurilor de devianta a doua modele se utilizează teste de tipul III (χ2 or F-tests) pentru a determina semnificația teoretica a factorilor individuali. Devianta măsoară cu cat diferă valorile previzionate de cele observate. Pentru validarea modelului, după ce s-a stabilit cat de semnificativi sunt factorii modelați, trebuie sa se investigheze și alte elemente care include: reziduurile (testarea adecvării erorilor), levierul (identifica observațiile care au o influenta excesiva asupra modelului), transformarea Box-Cox (testarea adecvării funcției legătură). După ce au fost definiți factorii categoriali, este utila o stabilire a corelațiilor dintre factori (de exemplu prin utilizarea statisticii de corelație Cramer s V).

Chiar daca nu sunt utilizate direct în procesul GLM, o analiza a corelațiilor din portofoliu este utila în interpretarea rezultatelor produse de către GLM. în particular, acestea pot explica de ce rezultatele multivariate pentru un anumit factor diferă fata de rezultatele univariate și pot indica ce factori pot fi afectați de eliminarea sau includerea altor factori în GLM.