1. UVOD 1.1 POREKLO LOGISTIČKE FUNKCIJE - POPULACIONI MODEL

. UVOD. POREKLO LOGISTIČKE FUNKCIJE - POPULACIONI MODEL Poznat demograf z Engleske, Tomas Maltus je 789. godne u svom radu Put u katastrofu, pokušao da skrene pažnju svetske javnost na problem prenaseljenost znoseć svoju mračnu teorju da čovečanstvo može opstat samo ako eksponencjaln rast populacje bude povremeno prekdan epdemjama katastrofama. Maltus je rezonovao ovako: zamslmo da prebrojavanjem dođemo do podatka da u nekom trenutku žvo p() ljud. Populacja u sledećem trenutku je srazmerna populacj u prethodnom, odnosno p() = rp(), gde je r parametar koj opsuje neto prraštaj stanovnštva može se dobt z postojećh podataka na osnov toga što će u tom vremenskom ntervalu zmeđu dva brojenja, nek ljud da umru (ratov, sromaštvo, bolest), nek će da se rode. Ako se sa γ označ konstantna brzna rođenja u jednc vremena po jednk (stopa natalteta), a sa δ konstantna brzna umranja u jednc vremena po jednk (stopa mortalteta), tada važ da je konstantan prraštaj λ = γ δ. ntervala Ako je sa p(t) označen broj jednk u trenutku t, onda je on posle vremenskog t jednak p( t + t) = p( t) + λ p( t) t Vdmo da je rast srazmeran postojećoj populacj vremenu. Dferencna jednačna vod ka Cauchy-evom problemu za občnu dferencjalnu jednačnu p ( t) = λ p( t), () p() = p Rešavanjem ove dferencjelne jednačnu dobjamo:

dp( t) = λdt p( t) ln p( t) = λt + C λt p( t) = e e p( t) = Ae C λt Konstantu A određujemo, jer znamo početnu populacju p() = p. Važ da je p() p Ae A = = =, pa je rešenje jednačne () p( t) = p e λt (2) Ovaj model se nazva osnovn (Maltusov) populacon model. Međutm osnovne pretpostavke Maltusovog populaconog modela su razumne za populacje bakterja l žvotnja u dealnm uslovma odnosno populacju kod koje postoje neogrančen resurs, odgovarajuća shrana, nepostojanje bolest, nepostojanje prrodnh neprjatelja sl. Uprkos ovome ovaj model je mao ogroman utcaj na demografe msloce toga vremena. Name, sa povećanjem broja stanovnka povećava se kolčna prozvedenh resursa, hrane slčno, al ovo povećanje, prema tadašnjm podacma, raste artmetčkom progresjom. Broj stanovnka raste brže nego kolčna resursa. Posle određenog broja godna, dakle, resursa će bt manje, a stanovnka koj će h korstt vše, pa će tako zavladat oskudce. I ovo stanje će se vremenom pogoršavat. Ovo stanje je doblo nazv-demografska (Maltusova) katastrofa. Pa su zato msloc tog vremena došl do zaključka da je jedn načn da se zbegne zbegne l odlož katastrofa smanjenjem prraštaja, što se može postć povećanjem smrtnost - namerno zazvanm ratovma, bolestma, oskudcama, l ogrančenm rađanjem. 2

.2 POPRAVKA MODELA Maltusov model ma btan nedostatak: njedna realna sredna ne može da održava na seb neogrančeno velk broj ljud. Kako Maltusov model ma manu, to jest neogrančen rast, moguće je napravt model za p(t) koj ne daje apsurdna rešenja, ogrančava rast do neke maksmalne fksne vrednost specfčne za stem koj se posmatra. Dakle, jasno da Maltusov eksponencjaln populacon model nje realan, jer ogrančen resurs (hrana, voda, vazduh) usporavaju rast populacje. Populacja tež ka grančnom zasćenju. Drug nedostatak je taj što lnearne brzne rađanja umranja nsu konstantne kao u pretpostavc Maltusovog modela već su date sa: γ ( t) = γ γ p( t) δ ( t) = δ + δ p( t) γ > δ >, γ, δ > smanjuju brznu rađanja, a uvećavaju brznu umranja I neka je maksmaln prraštaj označen sa a, gde je a = γ δ Sada važ da je prrodn prraštaj λ( t) = ( γ β ) ( γ + β ) p( t) = a bp( t) gde smo sa b označl b = γ + β Jednačna sada ma oblk p ( t) = λ( t) p( t) = ap t bp t 2 ( ) ( ) b = a p( t) p( t) a a > b >, p() = p Prrodn sstem najčešće zbog svojh ogrančenja ne mogu prhvatt neogrančenu populacju. Stoga je čest sledeć slučaj: populacja P u početku raste eksponencjalno sa stopom rasta a, al se taj rast smanjuje kako se populacja prblžava maksmalnom (3) 3

(nosvom) kapactetu sstema a K b =. Matematčk takvo ponašanje možemo modelrat logstčkom jednačnom: dp( t) p = ap( t) dt K p() Mehanzam jednačne je sledeć: kada ja populacja P mala u odnosu na kapactet K, tada je zraz u zagrad prblžno jednak jedan, populacja se ponaša prema Maltusovom = p populaconom modelu. Kada se populacja prblž maksmalnom kapactetu, tada zraz u zagrad tež nula što koč rast populacje. Rešmo jednačnu: dp( t) p = ap( t) dt K dp = at + C p p K + dp = at + C p K p ln p ln K p = at + C K p ln p K p = e p K = Ae p = at C at at e C Opšte rešenje ove jednačne je logstčka funkcja. Kad uvrstmo početn uslov, dobjamo: K p( t) =, (4) at + Ae p() = p = K / ( + A) K p A = p Rešenje logstčke jednačne možemo prkazat u ekvvalentnom oblku 4

ap p( t) = bp + ( a bp ) e p( t) = Kp p + ( K p ) e at at, l: Krva p( t ) ma S-oblk nazva se logstčka krva. (5).3 SIGMOID FUNKCIJA Postoje razlčt oblc logstčke funkcje a jedan od specjalnh slučajeva je sgmod funkcja l sgmod krva koja je još poznata pod nazvom standardna logstčka funkcja l osnovna logstčka funkcja data je sa: P( t) = t + e (6) Ona se često se sreće u mnogm oblastma tehnke, naročto u veštačkm neuronskm mrežama kao transfer funkcja. Standardna sgmod funkcja se dobja kao jednačne prvog reda: dp P ( P ) dt = P () = / 2. rešenje nelnearne dferencjalne Ona je strogo rastuća funkcja koja se može prkazat u sledećem oblku: ϕ( ν ) = a + e ν gde je a parametar nagba sgmodne funkcje. Menjajuć vrednost parametra a, dobjaju se razlčt oblc, što je prkazano na slc.. 5

Slka. Sgmodna funkcja Posmatrajmo zraz (6). P-predstavlja verovatnoću da se nek događaj des, pod utcajem nekh nezavsnh rzčnh faktora, promenljva t se defnše kao: β + βx +... + βk xk, gde se β, =... k regreson koefcjent koj opsuju velčnu doprnosa odgovarajućeg rzčnog faktora x. Kada su regreson koefcjent poztvn tada nezavsne promenljve x povećavaju verovatnoć poztvnog shoda, a kada su negatvn, onda smanjuju tu verovatnoću. Prmer. Isptujemo verovatnoću da osoba u narednh godna umre od bolest srca, posamtrajuć rzčne faktore: x = godne preko 5, x2 -pol(muško-, žensko-), x3 -nvo holesterola preko 5 mmol/l. Neka su nam regreson koefcjent dat sa: β = 5, β = 2, β =, β =.2. 2 3 Posmatrajmo: Muškarca koj ma 5 godna 7 mmol/l holesterola u krv. Verovatnoća da on umre u nsrednh godna je tada data sa: P( t) = + e P( t) = + e ( β +β x +β2x2 + β3x3 ) =.7 ( 5+ 2(5 5) +.2(7 5)) Odnosno verovatnoća da ova osoba umre u narednh godna je 7%. 6

.4 PRIMENA LOGISTIČKE KRIVE Iako je logstčka krva često krtkovana, u smslu da je prmenjvana na ssteme gde nje odgovarajuća, ona se pokazala korsnom u modelranju šrokog opsega pojava. U lteratur se može pronać velk broj radova koj su pokušal da uspostave transcedentaln "Zakon logstčkog rasta u oblast ljudske populacje, kolonja bakterja, razvoja železnce td. Značaj logstčke raspodele je ostavo traga u mnogm oblastma ljudskh nastojanja. Verhulst je 845. godne korsto u ekonomskm demografskm stražvanjma. Berkson je korsto logstčku raspodelu u analzranju bo-assay kvaltatvnh odgovora. Mnog postupc u bologj drugm poljma korste S-krvu rasta. Bološka funkcja rasta po kojoj se obnavlja brojnost populacje rba, ptca, pa čak kolčne vode u podzemnm rezervoarma odgovara tzv. logstčkoj funkcj rasta. Logstčk model rasta je prv prmeno u analz rbarstva Schaffer (957). U bologj, logstčka funkcja opsuje populacon rast u ogrančenom okruženju, kao što je bakterja u petrevoj šolj. Ima prmenu u populaconom rastu vrsta koje rastu tako da su blzu zasćenja njegovh ekosstema. Kngsland je dao kroz storju prmene logstčke krve u populaconoj ekologj, njene uspehe neuspehe. Logstčke funkcje su dobar model u marketngu, gde prkazuju prodaju novh prozvoda u tokom vremena, mogu da opsuju krve potražnje: opadanje potražnje za prozvodom kao funkcja povećanja cene. Wofford drug su proučaval kontnurano naslje u porodc, u naconalnom uzorku mladh oba pola, starost od 8 do 27 godna. Dvadeset šest predktora, bazranh na podacma z lterature o naslju u domaćnstvu su uklučene u ovu analzu. Kao deo studje, sptanc koj su saopštl da su žrtve l zvršoc naslja u porodc 984. su ponovo ntervjusan 987.godne da b se utvrdlo da l naslje u porodc nastavlo l je preknuto od momenta prvog ntervjusanja 984. godne. Marchett kolege u IIASA kao mnog drug, su prkazal stotne prmera, uglavnom u soco-tehnološkm sstemma. Young je anketrao uporedo krve rasta koršćene za tehnološka predvđanja, uključujuć logstčku funkcju. 7

Logstčka krva je grala značajnu ulogu u socološkm stražvanjma, na prmer u teorj transformacje George Land, koj je korsto koncept S-krve za procenu pogodnog zanmanja u razlčtm fazama tehnološkog razvoja. Whte, Pearson, Wlson (999) su sptval ostvarenje prozvodne prakse u datom momentu, koršćenjem logstčkh regresonh modela. Palma, Beja, and Rodrgues (999) su modelral lght sghtngs, naročto u savremenoj prmen. Fong, Hu, Hesey (999) su korstl logstčku regresju za predkcju cache worthness objekata na World Wde Web. Sgmodna funkcja (standardna logstčka funkcja) je dfrencjablna, što je veoma važno za prmenu u neuronskm mrežama. Logstčka krva, l tzv. S krva ma zuzetno šroku prmenu u prognozranju broja korsnka telekomunkaconh servsa. Posebno dobr rezultat se postžu u prognozranju glavnh telefonskh prključaka (GTP). U prvoj faz uvođenja servsa zahtev rastu sporo, u drugoj faz kada je servs prhvaćen na tržštu, dolaz do rapdnog rasta broja zahteva. U trećoj faz dolaz do zasćenja tržšta (broj zahteva l uopšte ne raste l raste vrlo sporo). Gustna zasćenja se procenjuje posebno občno se razlkuje za svaku zemlju l pojedne njene delove. Kako je logstčk regreson model našao prmenu u populaconm stražvanjma u oblast medcne kod nas, govor stražvanje sprovedeno 23. godne među odraslm stanovnštvom Vojvodne (starj od 45 godna). Clj stražvanja je bo da se utvrde rzc za masovne nezaarzne bolest, a logstčk regreson model je prmenjen da b se utvrdla povezanost hperglkemje sa potencjalnm faktorma rzka. Kao nezavsne promenljve su posmatran pol, mesto stanovanja (urbano/ruralno), starost, obm struka, gojaznost. 8

2. LOGISTIČKI REGRESIONI MODEL Regresonе metode su sastavn deo svake analze podataka koja se bav opsvanjem veze zmeđu zavsnh promenljvh eksplanatornh, nezavsnh, promenljvh. Clj analze koja korst ovaj metod je nać model koj je najbolje prlagođen (ftovan) podacma, ujedno najekonomčnj, al model koj je ma fzčko značenje, koj opsuje vezu zmeđu zavsne (rezultujuće) promenljvh skupa nezavsnh eksplanatornh promenljvh. Kada se kaže najekonomčnj model msl se na model koj će mat, u neku ruku, optmalan broj promenljvh, odnosno model koj će sadržat samo one nezavsne promenljve koje maju utcaja na shod zavsne promenljve. Nezavsne promenljve se često nazvaju kovarjate (covatate). Najpoznatj prmer modelranja je lnearn regreson model gde se za zavsnu promenljvu pretpostavlja da je neprekdna. Međutm, čest je slučaj da je rezultujuća promenljva dskretna, sa dve l vše mogućh vrednost. Ovakva stuacja se sreće u medcn, kada zavsna promenljva predstavlja prsustvo l odsustvo neke osobne, bolest. Standardna metoda analze u ovakvoj stuacj je logstčk regreson model kako u medcn, tako u mnogm drugm oblastma (bologja, ekonomja, marketng, telekomunkacje, td). Ono što se u logstčkoj regresj razlkuje od lnearne regresje je to da je zavsna promenljva dskretna, občno bnarna (Bnarn logstčk regreson model), a u ređm slučajevma može da ma vše od dve kategorje. Ova razlka zmeđu logstčke lnearne regresje se ogleda kako u zboru parametara, tako u pretpostavkama U zavsnost od merne skale zavsne varjable, govormo o Nomnalnm, odnosno Ordnalnm logstčkm regresonm modelma. Zajednčk nazv m je Multnomn, l Poltomn. (Nezavsne varjable mogu bt kategorjalne, l kombnacja kategorjalnh neprekdnh, pr čemu u logstčkoj regresj ne postoje pretpostavke o raspodel za ove varjable. Logstčka regresja se korst za: - predvđanje zavsne promenljve na osnovu vrednost nezavsnh promenljvh - rangranje nezavsnh promenljvh po važnost 9

- procenu efekta nterakcje. Zavsna promenljva može bt da l je pacjent zlečen l ne; da l je nek prozvod prošao kontrolu kvalteta l ne; da l je žvotnja na kojoj se vršo nek eksperment prežvela st l ne td. Kao što vdmo, zavsna promenljva uzma samo dve vrednost, tj. dhotomna je. Upravo zbog toga se kodra sa, gde označava neuspeh l odsustvo neke karakterstke, a uspeh odnosno prsustvo neke karakterstke. Na prmer, ukolko je pacjent zlečen, shod je uspeh, a ako nje shod je neuspeh ; ako prozvod prođe kontrolu kvalteta shod je uspeh, u suprotnom neuspeh. Ukolko zavsna promenljva označava to da l je osoba zdrava l ne, onda bsmo sa kodral - osoba nje zdrava, a sa osoba je zdrava. Zavsnu promenljvu označavamo sa Y, doke nezavsne označavamo sa X. Vrednost nezavsnh promenljvh ćemo označavat sa x. Prmera rad, da l će pacjent bt zlečen l ne, može zavst od medcnskog tretmana kom je podvrgnut, od pola, godna starost pacjenta td.; da l će prozvod proć kontrolu kvalteta može zavst od temperature, kvalteta srovog materjala od kog se pravo prozvod td. Često je potrebno zvršt grupsanje podataka, tako da se u okvru jedne grupe nalaze sv subjekt koj maju ste vrednost nezavsnh promenljvh. Kada su podac grupsan, lakše je zabeležt broj uspeha, odnosno broj neuspeha, jer h beležmo za svaku grupu posebno, dok bsmo u slučaju negrupsanh podataka dobjal dugačke nzove. Prmer. Posmatramo starost zraženu u godnama (STAROST), prsustvo l odsustvo koronarnog srčanog oboljenja (CHD) za subjekata zabranh da učestvuju u stražvanju, gde je starost prkazana kao grupsana promenljva (STAR_KAT). Rezultujuća promenljva je CHD, koja je kodrana sa, označava odsustvo, a prsustvo srčane bolest. Želmo da sptamo u kakvoj su vez promenljve CHD Starost, odnosno da vdmo u kojoj mer starost subjekata utče na pojavu oboljenja. Ako b rezultujuća promenljva bla neprekdna, a ne bnarna, korstl bsmo djagram raspanja rezultata u odnosu na nezavsnu promenljvu, za obezbeđvanje utska

o prrod snaz veze zmeđu shoda nezavsne promenljve. Djagram raspanja za naše podatkeje dat na slc 2.,2,8 CHD,6,4,2 2 3 4 5 6 7 8 Starost (godne) Slka 2. Na ovom djagramu sve tačke prpadaju jednoj od dve paralelne prave koje predstavljaju prsustvo CHD (y = ), odnosno odsustvo CHD (y = ). Sa slke se vd da postoj tendencja da su pojednc koj nemaju koronarno srčano oboljenje mlađ od onh koj maju oboljenje. Mada ovaj grafkon prkazuje dhotomnu prrodu rezultujuće promenljve prlčno jasno, pak ne daje jasnu slku o prrod veze zmeđu CHD starost. Problem sa djagramom na slc 2 je da je varjablnost za promenljvu CHD za sve starost velka, te je zbog toga teško opsat funkconalnu vezu zmeđu starost CHD. Opšt metod elmnsanja nekh promenljvh, sa cljem održavanja strukture veze zmeđu rezultata nezavsne promenljve obuhvata kreranje ntervala za nezavsnu promenljvu računanje sredne rezultujuće promenljve unutar svake grupe. Ovaj postupak je sproveden koršćenjem starosnh kategorja kao grupsane promenljve, STAR_KAT u tabel, zračunavanjem sredne rezultujuće promenljve unutar svake grupe, tj. verovatnoću da osoba z odgovarajuće grupe obol.

Tabela. Tabela frekvencja za starosne grupe u odnosu na CHD CHD sredna STAR_KAT n odsutan prsutan (proporcja) 2-29 9. 3-34 5 3 2.3 35-39 2 9 3.25 4-44 5 5.33 45-49 3 7 6.46 5-54 8 3 5.63 55-59 7 4 3.76 6-69 2 8.8 Ukupno 57 43.43 Analzranjem ove tabele, jasno je da se sa povećanjem starost, povećava proporcja subjekata koj maju koronarno srčano oboljenje. Podac u tabel. su prkazan na slc 3, gde je predstavljen grafkon proporcje osoba sa regstrovanm CHD u odnosu na srednu svakog ntervala za starosne grupe. Sa datog grafka se može uočt da se sa povećanjem starost, povećava proporcja subjekata koj maju srčano oboljenje. Iako ovaj grafkon obezbeđuje značajan uvd u vezu zmeđu prsustva koronarnog srčanog oboljenja starost u ovom stražvanju, potrebno je opsat funkconalnu formu za ovu vezu. Ovaj grafkon je slčan onome što bsmo mogl dobt ako b se st proces grupsanja određvanje proseka zvelo u lnearnoj regresj. 2

,9,8 Poporcja prsutnog CHD,7,6,5,4,3,2, 2 25 3 35 4 45 5 55 6 65 7 Starosne grupe Slka 3. Proporcja subjekata sa CHD u odnosu na starosne kategorje Možemo uočt važne razlke zmeđu lnearne logstčke regresje. Prva razlka se tče prrode veze zmeđu rezultujuće (zavsne) nezavsne promenljve. U blo kom regresonom problemu ključna je očekvana vrednost zavsne promenljve, za datu vrednost nezavsne promenljve, E(Y x), gde Y označava zavsnu promenljvu, a x nezavsnu promenljvu. U lnearnoj regresj se ova sredna može zrazt kao lnearna jednakost po x (l nekm transformacjama x l Y), tj. E( Y x) = β + β x. Ovaj zraz podrazumeva da E(Y x) može da uzme blo koju vrednost sve dok se x kreće od - do +. Kolona, označena sa "sredna" u tabel daje ocenu za E(Y x). Pretpostavmo, da su ocenjene vrednost na slc 3 dovoljno blzu pravh vrednost E(Y x) za obezbeđvanje prhvatljve ocene za vezu zmeđu CHD starost. Sa dhotomnm podacma, za uslovnu srednu mora da važ E(Y x). Ovo možemo vdet na slc 3. Sem toga, grafkon pokazuje da se u ovom slučju sredna postepeno prblzava. Promena u E(Y x) po 3

jednc promene za x postaje progresvno manja kako uslovna sredna postaje blža nul l. Za ovu krvu se kaže da je S-oblka, podseća na grafkon funkcje raspodele slučajne promenljve. Iz tog razloga se mogu korstt neke dobro poznate funkcje raspodele za obezbeđvanje modela za E(Y x) kada je Y dhotomna promenljva. Postoje dva osnovna razloga zbog kojh korstmo logstčku krvu u analz dhotomne promenljve. Prvo, sa matematčke tačke gledšta, to je veoma fleksblna funkcja koja se jednostavno korst, kao drugo, omogućuje klnčk razumljvu nterpretacju. Da bsmo pojednostavl zaps, korstmo velčnu π(x) = E(Y x) za prkazvanje uslovne sredne od Y za dato x kada se korst logstčka krva. Poseban oblk logstčkog regresonog modela koj korstmo je: β + β x π ( x) = e + β + β x () e Za razlku od lnk funkcje (funkcje veze) u lnearnom regresonom modelu, gde je to funkcja dentteta, u logstčkoj regresj je to logt transformacja, defnsana kao odnos šans: ( ) π x g(x) = ln ( ) = β + β x. π x Transformacja g(x) ma mnogo poželjnh osobna lnearnog regresonog modela. Logt, g(x), je lnearan po svojm parametrma, može bt neprekdan,, može se kretat od - do +, što zavs od x. Logte su stastčar korstl u razlčte svrhe. Postoj takozvan "logt model" čj je najjednostavnj oblk: logt(p ) = a + bx, gde je x neka velčna od koje uspeh l neuspeh u -tom nzu Bernuljevh proba može da zavs, a p je verovatnoća uspeha u -tom slučaju. Koncept logta je takođe centralan u probablstčkom Rasch modelu za merenje, koj ma prmenu u pshologj obrazovnoj procen, među drugm oblastma Druga važna razlka zmeđu lnearnh logstčkh regresonh modela tče se uslovne raspodele za rezultujuću promenljvu. U lnearnom regresonom modelu, pretpostavljamo da se opservacja rezultujuće promenljve može zrazt sa Y=E(Y x)+ε, gde je ε greška predstavlja jedno odstupanje regstrovane vrednost od uslovne sredne. Najopštja pretpostavka je da ε ma normalnu raspodelu sa srednom nula, nekom varjansom koja je konstantna za sve nvoe nezavsne promenljve. To znač da će uslovna raspodela rezultujuće promenljve za dato x bt normalna, sa srednom E(Y x) 4

varjansom koja je konstantna. Međutm, ovo ne važ u slučaju kada je rezultujuća promenljva dhotomna. U ovoj stuacj, možemo zrazt vrednost rezultujuće promenljve za dato x kao: Y = π ( x) + ε. Kako je zavsna promenljva dhotomna uzma vrednost, uzećemo da uzma vrednost sa verovatnoćom π, a vrednost sa verovatnoćom π, tj. Y :. π π Slučajna promenljva Y x će takođe uzmat vrednost, sa verovatnoćama π ( x), π ( x) redom, tj. Y x :. Očekvana vrednost od Y za dato x, π ( x) π ( x) je: E( Y x) = ( π ( x)) + π ( x) = π ( x) Sled da je uslovna raspodela rezultujuće promenljve bnomna raspodelu sa verovatnoćom datom uslovnom srednom, π ( x). Ovde velčna ε može uzet jednu od dve moguće vrednost. Za y =, važ da je ε = π ( x) sa verovatnoćom π ( x), dok je za y =, ε = π ( x) sa verovatnoćom π ( x). Dakle, ε ma raspodelu sa srednom nula varjansom jednakom π ( x) π ( x) π ( x)( π ( x)), ε :. π ( x) π ( x) Ukratko, može se vdet da u regresonoj analz kada je rezultujuća promenljva dhotomna, važ sledeće: () Uslovna sredna E(Y x) mora bt u grancama zmeđu. Logstčk regreson model, π (x) dat u jednakost () zadovoljava ovo ogrančenje. (2) Pomoću bnomne, a ne normalne raspodele objašnjava se raspodela grešaka. (3) Vodeć prncp koj se korste u lnearnoj regresj, takođe važe za logstčku regresju 5

2. SLAGANJE LOGISTIČKOG REGRESIONOG MODELA SA PODACIMA Pretpostavmo da mamo uzorak od n nezavsnh regstrovanh vrednost parova ( x, y ), =,2... n, gde y označava vrednost rezultujuće dhotomne promenljve koja je kodrana sa, gde predstavlja odsustvo, a prsustvo neke karakterstke. x označava regstrovanu vrednost nezavsne promenljve za -t subjekat. Dalje, pretpostavmo da je rezultujuća promenljva kodrana sa, l, koje predstavlja odsustvo l prsustvo karakterstke, redom. Ftovanje logstčkog regresonog modela u jednakost π ( x) = e + e β + β x β + β x za skup podataka zahteva da ocenmo vrednost za nepoznate parametre, β β. bsmo objasnl šta znač pojam ftovanje modela, posmatraćemo najednostavnj logstčk regreson model koj sadrž samo jednu nezavsnu promenljvu, tj. U lnearnoj regresj, najčešće koršćen metod za ocenjvanje nepoznath parametara je metod najmanjh kvadrata. U tom metodu, bramo one vrednost β β, koje mnmzraju sumu kvadrata odstupanja regstrovane vrednost za Y od predvđene vrednost dobjene na osnovu modela. Pod uobčajenm pretpostavkama za lnearnu regresju, metod najmanjh kvadrata daje ocene sa mnoštvom poželjnh statstčkh svojstava. Međutm, kada se metod najmanjh kvadrata prmen na model sa dhotomnm shodom, ocene vše nemaju te ste osobne. Opšt metod ocenjvanja koj vod do funkcje najmanjh kvadrata za lnearn regreson model (kada greške maju normalnu raspodelu) je metod maksmalne verodostojnost, on će obezbedt osnovu za naš prstup ocenjvanja pomoću logstčkog regresonog modela. U vrlo opšem smslu, metod maksmalne verodostojnost daje vrednost za nepoznate parametre koj maksmzraju verovatnoću dobjanja regstrovanog skupa podataka. Da bsmo mogl da prmenmo ovaj metod, prvo moramo da konstrušemo funkcju verodostojnost koja zražava verovatnoću regstrovanh podataka u funkcj nepoznath parametara. Ocene maksmalne verodostojnost ovh parametara su zabrane tako to budu one vrednost koje maksmzraju ovu funkcju. Dakle, rezultujuće ocene su one, koje se najvše slažu, tj. najblže su regstrovanm Da 6

podacma. M ćemo sada opsat kako nać ove vrednost z logstčkog regresonog modela. Ftovanje datog logstčkog regresonog modela za nek skup podataka podrazumeva ocenu vrednost nepoznath parametara β β. Vrednost nepoznath parametara ćemo ocent korsteć metodu maksmalne verodostojnost. Da bsmo, uopšte, mogl korstt pomenutu metodu, prvo moramo konstrusat funkcju verodostojnost. Ako je zavsna promenljva β + βx e Y : tada zraz π ( x ) =, za β + βx π π + e prozvoljnu vrednost β = β, β ), daje uslovnu verovatnoću P{ Y = x} = π ( x) P{ Y = x} = π ( x). ( Za one parove x, y ) gde je y = doprnos funkcj verodostojnost je π x ), a ( za one parove x, y ) gde je y = doprnos funkcj verodostojnost je π ( x ), gde ( π ( x ) označava vrednost funkcje π (x) za konkretno x. Dakle, za par ( x, y ) doprnos funkcj verodostojnost je dat sledećm zrazom: ( y x ) ( ( x π ( π )) y (2) S obzrom da radmo pod pretpostavkom da su regstrovane vrednost nezavsne, funkcja verodostojnost je dobjena kao prozvod zraza u (2), tj. Rad jednostavnost korstćemo logartam ove funkcje, tj. logartam verodostojnost: n { π x ( ) π x } L( β) = ln l( β ) = y ln ( ) + y ln ( ) (3) = Korsteć nformacje koje mamo o zgledu logstčkog regresonog modela e = možemo zračunat + e β + βx π ( x ) β + β x n y l( β ) = π ( x ) ( π ( x )) = π ln = β + βx ln( π) = ln exp( β βx ) π + +. y 7

pa logartam verodostojnost možemo zapsat na sledeć načn: (4) L n β + x ( ) = [ y ( + x) ln( + e β β β β )] = Ocene parametara tražmo tako da maksmzraju funkcju verodostojnost. Da bsmo našl β = β, β ) koj maksmzra funkcju L(β ) dferencraćemo L (β ) u ( odnosu na β β dobjene jednačne ćemo zjednačt sa nulom. (5) L = β = n [ y e β + β x ] = β + βx = + e = n ( y π ( x )) (6) L = β = n [ y x x β + β x ] = β + βx = + e = e n x ( y π ( x )) Ove jednačne su nelnearne po β β, pa se rešavaju nekm od teratvnh postupaka. Vrednost β = β, β ) koja se dobje kao rešenje ovh jednačna se nazva ocena ( maksmalne verodostojnost označava se sa β = ( β, β ). Posledca jednakost (5) je da važ = n ^ ^ n = = ^ y π ( x ) odnosno vdmo da je suma regstrovanh vrednost za y jednaka sum predvđenh (očekvanh) vrednost na osnovu modela. Dakle, da sumramo: Želmo da odredmo očekvanu vrednost π (x) za zavsnu promenljvu y, za neko konkretno x. Da bsmo to mogl zvest potrebno je da odredmo vrednost nepoznath parametara β, do kojh dolazmo metodom maksmalne verodostojnost. Nakon određvanja ˆβ ^, možemo dobt očekvanu vrednost π (x) zamenom vrednost β sa ^β u logstčkom regresonom modelu π (x). Kao prmer, posmatramo podatke, sa opsom promenljvh dat u prmeru. Koršćenjem logstčke regresje, sa neprekdnom nezavsnom promenljvom STAROST, CHD kao 8

zavsnom promenljvom, dobjamo tabelu 2. Ocene maksmalne verodostojnost za β β su βˆ = -.44, βˆ =.38. Ftovane vrednost se dobjaju z jednakost: ˆ( gˆ ( e + e x) x ) = gˆ ( x) π, (7) gde je ocenjen logt gˆ ( x) dat jednakošću g ˆ( x) = -5.39+. STAROST (8) Tabela 2. Rezultat ftovanja logstčkog regresonog modela za podatke z Tabele Promenljva Koefcjent Stand.greška z P> z STAROST..24 4.6. Konstanta -5.39.337-4.68. Log-verodostojnost = -53.67656 (9) Log-verodostojnost dat u Tabel 2. je vrednost dobjena koršćenjem jednakost (4), a koja je zračunata koršćenjem βˆ βˆ. U Tabel 2. su prkazane još tr kolone. Jedna sadrž ocene standardnh grešaka ocenjenh koefcjenata, sledeća prkazuje kolčnk ocenjenog koefcjenta odgovarajuće standardne greške, poslednja vrednost je p-vrednost. 9

3. TESTIRANJE ZNAČAJNOSTI KOEFICIJENATA Nakon ocenjvanja koefcjenata, dalje razmatranje ftovanog modela se uopšteno odnos na ocenjvanje značajnost promenljvh u modelu. Ovo občno uključuje formulsanje testranje statstčkh hpoteza za određvanje da l su nezavsne promenljve u modelu "značajno" povezane sa rezultujućom promenljvom. Ptanje koje ovde postavljamo je sledeće: Da l nam model koj sadrž promenljvu, govor vše o rezultujućoj promenljvoj nego model koj ne sadrž tu promenljvu? Odgovor na ovo ptanje je dobjen upoređvanjem regstrovane vrednost rezultujuće promenljve sa predvđenom vrednost pomoću svakog od dva modela; prv sa, drug bez te promenljve. Ako su predvđene vrednost na osnovu modela koj sadrž tu promenljvu bolje, l tačnje u nekom smslu, nego vrednost koje su predvđene na osnovu modela koj ne sadrža tu promenljvu, tada je promenljva u modelu "značajna". postavljeno u relatvnom smslu. U lnearnoj regresj, ocenjvanje značajnost koefcjenta nagba je zvršeno koršćenjem analze varjanse. Totalna sumu kvadrata odstupanja regstrovanh vrednost od njhove sredne se sastoj z dva dela dela: () suma kvadrata odstupanja regstrovanh vrednost oko regresone prave, tzv. rezdualna suma kvadrata (SSE ) (2) suma kvadrata odstupanja predvđenh vrednost na osnovu regresonog modela od sredne zavsne promenljve, tzv. regresona suma kvadrata (SSR). Ako y označava regstrovanu vrednost, yˆ označava predvđenu vrednost na osnovu modela za -t subjekt, tada se za rešavanje problema korst sledeća statstka: n 2 ( ˆ ) () = SSE = y y Ukolko model ne sadrž nezavsnu promenljvu, jedn parametar je β, βˆ = y, sredna rezultujuće promenljve. U tom slučaju, yˆ = y, SSE je jednako totalnoj varjans. Kada uključmo nezavsnu promenljvu u model, smanjenje SSE se javlja zbog čnjence da koefcjent nagba za nezavsnu promenljvu nje jednak nul. Promena vrednost SSE je određena regresonm zvorom varjablnost, koj je označen sa SSR. 2

n n 2 2 SSR = ( y yˆ ) ( y y ) = =. Velke vrednost SSR sugeršu da je nezavsna promenljva značajna, dok male vrednost sugeršu da nezavsna promenljva nje korsna u predvđanju shoda. 3. TEST KOLIČNIKA VERODOSTOJNOSTI U logstčkoj regresj, poređenje regstrovane predvđene vrednost dobjene z modela koj sadrž nezavsnu promenljvu modela koj je ne sadrž, je bazrano na logartmu funkcje verodostojnost, kao što je defnsano u jednakost (4). Pr tome se smatra da je regstrovana vrednost zavsne promenljve ona predvđena vrednost koja se dobja na osnovu zasćenog modela. Zasćen model je onaj koj sadrž tolko mnogo parametara kolko ma podataka. Za poređenje regstrovanh sa predvđenm vrednostma na osnovu modela korstmo funkcje verodostojnost. ( verodostojnost ftovanog modela ) ( verodostojnost zasćenog modela ) D = 2ln Izraz unutar uglasth zagrada u zrazu () je kolčnk verodostojnost. Koršćenje -2ln je neophodno zbog dobjanja velčne čja je raspodela poznata može se korstt za testranje hpoteza. Ovaj test je poznat pod nazvom test kolčnka verodostojnost. Korsteć jednakost (4), jednakost () postaje: () n ˆ π ˆ π D = 2 y ln + ( y )ln = y y (2) gde je πˆ = πˆ (x ). Statstka D, u jednakost (2) se nazva odstupanje, a poznata je kao logartam test statstka kolčnka verodostojnost. U clju procenjvanja značajnost nezavsne promenljve, upoređujemo vrednost D za model koj sadrž nezavsnu promenljvu model koj je ne sadrž. Promena u D koja nastaje zbog uključvanja nezavsne promenljve u model je data sa: 2

G = D (model bez nezavsne promenljve) D (model sa nezavsnom promenljvom) Kako obe vrednost D maju st menlac (verodostojnost zasćenog modela), G se može se zrazt kao: ( verodostojnost modela bez nezavsne promenljve) ( verodostojnost modela sa nezavsnom promenljvom) G = 2ln Za specjalan slučaj jedne nezavsne promenljve, lako se pokazuje da kada promenljva nje u modelu, ocena maksmalne verodostojnost za β je ln(n /n ), gde je n = Σy, n = Σ( y ), predvđena vrednost je konstantna, n /n. U tom slučaju, vrednost G je: l G = 2ln n = ˆ π y n n n n n ( ˆ π ) n ( y) n G = 2 y ln( ˆ π ) + ( y )( ˆ π ) nln( n) + nln( n) nln( n) = Ukolko je tačna hpoteza da je β jednako nul, statstka G ma h-kvadrat raspodelu sa jednm stepenom slobode. Testranje hpoteza o vektoru parametara β može se vršt koršćenjem dva ˆ β statstčk ekvvalentna testa : Wald testa ( W = ) Score testa. SE ( ˆ β ) 22

Wald-ov test je u unvarjantnom slučaju dobjen upoređvanjem ocene maksmalne verodostojnost za parametar, sa ocenom njene standardne greške. nagba,βˆ Rezultujuć kolčnk, pod hpotezom da je β = ma standardnu normalnu raspodelu. Wald test za logstčk regreson model je dobjen kao: ˆ β W = SE ( ˆ β ) dvostrana p-vrednost, je P( z >W), gde z označava slučajnu promenljvu koja ma standardnu normalnu raspodelu. Na prmer, Wald-ov test za logstčk regreson model u Tabel je W =. =4.6,.24 dvostrana p-vrednost, prkazana u Tabel 2, je P( z >4.6), gde je z slučajna promenljva koja ma standardnu normalnu raspodelu. Međutm, Wald test često ma nedostatak da se ne odbacuje nulta hpoteza kada su koefcjent značajn 23

4. INTERPRETACIJA LOGISTIČKOG REGRESIONOG MODELA Pretpostavmo sada da je logstčk regreson model prlagođen podacma, da su promenljve u modelu značajne, blo u klnčkom l statstčkom smslu. Pod nterpretacjom blo kog ftovanog modela podrazumeva se da zvedemo praktčne zaključke z ocenjenh koefcjenata u modelu. Ptanje koje se postavlja je sledeće: Šta nam ocenjen koefcjent u modelu govore o ptanjma zbog kojh je započeto stražvanje? Ocenjen koefcjent za nezavsne promenljve predstavljaju nagb (stopu promene) funkcje zavsne promenljve po jednc promene za nezavsnu promenljvu. Dakle, nterpretacja modela uključuje dva problema: određvanje funkconalne veze zmeđu zavsne promenljve nezavsne promenljve prkladno defnsanje jednce promene za nezavsnu promenljvu. Prv korak je određvanje koja će to funkcja zavsne promenljve dat lnearnu funkcju po nezavsnm promenljvm. U slučaju lnearnog regresonog modela, to je funkcja dentteta jer je zavsna promenljva po defncj, lnearna po parametrma. U logstčkom regesonom modelu lnk funkcja (funkcja veze) je zapravo logt transformacja: g(x) = ln[π(x)/( π(x)] = β + β x. Podsetmo se da je za lnearn regreson model koefcjent nagba, β, jednak razlc zmeđu vrednost zavsne promenljve za x + vrednost zavsne promenljve za x, za blo koju vrednost x. Na prmer, ako je y(x) = β + β x, sled da je β = y(x +) y(x). U tom slučaju nterpretacja koefcjenta je relatvno jasna, zražava rezultujuću promenu u mernoj skal zavsne promenljve za jedncu promene u nezavsnoj promenljvoj. U logstčkom regresonom modelu, koefcjent nagba predstavlja promenu u logtu po jednc nezavsne promenljve, to jest važ: β = g(x +) g(x). 24

4. DIHOTOMNA NEZAVISNA PROMENLJIVA Slučaj kada je nezavsna promenljva u logstčkom regresonom modelu dhotomna predstavlja osnovu za druge slučajeve. Neka je nezavsna promenljva x kodrana sa nula l jedan. Razlka u logtu za subjekte sa x = x = je g() g() = [β + β ] [ β ] = β. Da b mogl nterpretrat ovaj rezultat potrebno je da uvedemo razmatramo meru povezanost koja se nazva odnos šans (odds rato). Da bsmo mogl nterpretrat dobjen rezultat uvešćemo pojam odnos šans (odds rato), koj daje meru povezanost nezavsne promenljve sa shodom od nteresa. Šansa je odnos verovatnoća da se događaj des prema verovatnoć da se događaj ne des. U našem slučaju nezavsna promenljva je kodrana sa, pa ćemo posebno računat šanse za oba slučaja. Šansa da je zavsna promenljva uzela vrednost, kada nezavsna promenljva uzme vrednost je Odds = P( Y = X = ) π () =. P( Y = X = ) π () Kada nezavsna promenljva uzme vrednost, šansa je da je zavsna promenljva uzela vrednost je Odds = P( Y = X = ) π () =. P( Y = X = ) π () Odnos šans, u oznac OR, je defnsan kao odnos ove dve šanse, tj. OR = π ( ) π ( ) π ( ) π ( ) Moguće vrednost verovatnoće u logstčkom modelu se mogu predstavt tablcom 2x 2 na sledeć načn: 25

Tabela 3. Rezultujuća promenljva (Y) Nezavsna promenljva (X) x = x = y = β + β β π () = e π () = e + β + e β + e y = () e β β π = π () + + β = + e β Total Ova tabela opravdava to što se odnos šans OR još nazva unakrsn odnos šans, jer vdmo da se OR dobja kao odnos unakrsnog prozvoda elemenata na glavnoj djagonal date tabele elemenata na sporednoj djagonal. Zamenom zraza z tabele u OR dobjamo: β + β e β + β β + β e e OR + + = β e β β + e + e β + β e = = β e e β Dakle, za logstčku regresju sa dhotomnom nezavsnom promenljvom koja je kodrana sa veza zmeđu odnosa šans regresonog koefcjenta je: OR e β =. Ocenjen odnos šans dobjamo kada β zamenmo sa ^ β odnosno ^ OR = e β Ova jednostavna veza zmeđu koefcjenta odnosa šans je osnovn razlog zašto se logstčka regresja pokazala kao moćan analtčk alat. ^ Odnos šans je mera povezanost koja ma šroku prmenu, naročto u epdemologj, gde aproksmra kolko je vše verovatno (l neverovatno) da je shod prsutan među onma sa x = nego među onma kod kojh je x =. 26

Na prmer, ako Y označava prsustvo l odsustvo kancera pluća, a X označava da l je osoba pušač l ne recmo da je dobjeno da je OR = 2. To b značlo da se kancer pluća dvostruko verovatnje javlja među pušačma nego među nepušačma u posmatranoj populacj. Kao drug prmer, pretpostavmo da Y označava prsustvo l odsustvo srčanog oboljenja, a da X označava da l je osoba fzčk aktvna l ne da je dobjeno da je ^ OR =.5, to znač da je upola manje verovatno da se srčano oboljenje jav kod fzčk aktvne, nego kod fzčk neaktve osobe u posmatranoj populacj. Dakle, z prethodna dva prmera vdmo da odnos šans OR može mat vrednost veće vrednost manje od jedan, u zavsnost šta se postav kao referentan shod. U prvom prmeru referentan shod je pojava kancera kod pušača, a u drugom pojava srčanog oboljenja kod fzčk aktvnh osoba. Generalno je svejedno kako se posmatra, jer uvek, na osnovu dobjenog odnosa za jedan shod, možemo dobt odnos za drug shod uzmanjem recpročne vrednost. Tako da, za prv prmer, možemo reć da je upola manje verovatno da nepušač dobje kancer pluća l za drug prmer da je dva puta verovatnje da će fzčk neaktvna osoba obolet od srčanog oboljenja. Uvešćemo još jedan pojam, a to je relatvn rzk, u oznac RR. Relatvn rzk predstavlja odnos verovatnoća uspeha u okvru dve grupe. U našem slučaju P( Y = X = ) π () RR = =. P( Y = X = ) π () Izraz za odnos šans se može zapsat na sledeć načn: π () OR = RR π () U mnogm prmerma odnos šans aproksmra relatvn rzk. Iz prethodne jednakost se π () jasno vd da će se to dest kada, odnosno kada su verovatnoće neuspeha u π () obe gurpe prblžno jednake. To se dešava kada je verovatnoća π (x) dovoljno mala blo ^ 27

da je x = l x =. U praks se srećemo sa ovom stuacjom kod sptvanja relatvno retkh bolest, koje kao takve maju malu verovatnoću pojave. Sledeć prmer pokazuje šta je to zapravo odnos šans, relatvn rzk razlku zmeđu ova dva pojma. Dat su podac u tabel, koj se odnose na broj prežvelh pognulh putnka na Ttanku, gde je blo ukupno 33 putnka, od toga 462 žene 85 muškarac. Tabela 4. Iz same tabele se vd da je verovatnje da muškarac umre nego žena, pa ćemo smrt žene uzet kao referentan shod, jer ćemo na taj načn dobt vrednost odnosa šans veću od jedan. Dakle, odnos šans će poredt odnose šans za smrt u okvru svake grupe, tj. među muškarcma ženama. Šanse za smrt kod žena su žene muškarc prežvel 38 42 45 pognul 54 79 863 ukupno 462 85 33 54 54 Odds 462 žene = = =.5. 38 38 462 Šanse za smrt kod muškaraca su 79 79 Odds 85 muškarc = = = 4.993. 42 42 85 Oddsmuškarc 4.993 Dakle, odnos šans je OR = = = 9. 986, što znač da su skoro deset puta Oddsžene.5 veće šanse za smrt muškarca u odnosu na smrt žene. Relatvn rzk pored verovatnoće za smrt u okvru svake grupe, tj. verovatnoća smrt kod muškaraca RR = verovatnoća smrt kod žena 28

Verovatnoća smrt kod muškaraca je 79 =. 8333, dok je verovatnoća smrt kod žena 85 54 =.3333. Zamenom ovh vrednost dobjamo da je relatvn rzk 462.8333 RR = = 2.5, odnosno postoj 2.5 puta veća verovatnoća za smrt muškarca nego za.3333 smrt žene. 3.2 NEPREKIDNA NEZAVISNA PROMENLJIVA Sada ćemo posmatrat logstčk regreson model koj sadrž neprekdnu nezavsnu promenljvu. U ovom slučaju promena od jedne jednce nezavsne promenljve najčešće nje nteresantna. Na prmer, rast sstolnog krvnog prtska za mmhg može bt suvše mal da bsmo ga smatral važnm dok b recmo rast od jednca predstavljao značajnj podatak. Sa druge strane, ako se vrednost koje nezavsna promenljva može uzet kreću u nervalu od do, tada b promena od jedne jednce bla suvše velka, dok b promena od. jednce bla realnja. Dakle, da bsmo obezbedl pravlnu nterpretacju modela smatraćemo da se desla promena od c jednca. Tada je promena u logtu sledeća: ( x + c) g( x) = β + β ( x + c β β x = β c g ) Sada je odnos šans dat zrazom β c OR( c) = e. Ocenu za odnos šans možemo dobt zamenom β sa njegovom ocenom dobjenom metodom maksmalne verodostojnost β ^ tada je ocenjena vrednos odnosa šans ^ OR( c) ^ βc = e. c može uzet blo koju vrednost, pr čemu se mora vodt računa o tome da se na jasan načn ukaže kako se menja rzk da je shod prsutan sa promenom nezavsne promenljve. Na prmer, neka zavsna promenljva predstavlja prsustvo l odsustvo srčanog oboljenja, a nezavsna promenljva predstavlja starost recmo da je ocenjen logt g x) =.44 +. 38 starost. (^ 29

.38 c Tada ocenjen odnos šans ma sledeć oblk OR( c) = e. Ako bsmo htel da vdmo kako povećanje starost od godna utče na pojavu srčane bolest u prethodnom zrazu c ćemo zament sa dobt OR () = e =. 46. ^ ^.38 Dakle, sa svakm povećanjem starost od godna rzk za pojavu srčanog oboljenja se povećava.46 puta. Osnovna razlka za ocenu odnosa šans kod modela sa dhotomnom modela sa neprekdnom nezavsnom promenljvom lež upravo u načnu defnsanja promene. 4. PROCENA SLAGANJA MODELA SA PODACIMA 4. UVOD Počnjemo razmatranje metoda za procenjvanje slaganja ocenjenog logstčkog regresonog modela sa podacma, pretpostavkom da smo zadovoljn našm pokušajma na nvou građenja modela. Odnosno, podrazumevamo da model sadrž one promenljve koje treba da su u modelu, tj. koje su značajne da su promenljve unete u korektnom funkconalnom oblku. Sada nas nteresuje kolko efkasno naš model opsuje rezultujuću (shodnu) promenljvu (tzv. goodness-of-ft). Neka su regstrovane uzoračke vrednost rezultujuće promenljve prkazane u vektorskom oblku sa y, gde je y' = (y, y 2,...,y n ). Označmo vrednost koje su predvđene modelom, l ftovane vrednost, sa ŷ, gde je ŷ ' = ( ŷ, ŷ 2,..., yˆ n ). Možemo zaključt da je model prlagođen podacma ako su: () mere rastojanja zmeđu y ŷ male. (2) doprnos svakog para (y, yˆ ), =, 2, 3,..., n ovm merama je nesstematsk, mal u odnosu na grešku modela. Dakle, kompletno procenjvanje ftovanog modela obuhvata kako zračunavanje mera rastojanja zmeđu y ŷ, tako sptvanje pojednačnh komponent th mera. 3

4.2 OSNOVNE MERE ZA GOODNESS OF-FIT Osnovne mere za goodness-of-ft predstavljaju opšt pokazatelj kolko dobro se model slaže sa podacma. Ove statstke ne moraju da daju nformacju o pojednm komponentama modela. Mala vrednost neke od th statstka ne uzma u obzr mogućnost nekh btnh, tj. nteresantnh odstupanja od vrednost dobjene na osnovu ftovanog modela za nekolko subjekata. Sa druge strane, velka vrednost neke od th statstka jasno ukazuje na stvarne probleme modela. Pre razmatranja specfčne goodness-of-ft statstke, moramo prvo razmotrt efekat koj ftovan model ma na stepene slobode koj su dostupn za procenu učnka modela. Korstćemo zraz covarate pattern za opsvanje odabranog skupa vrednost za kovarjate u modelu. Covarate patterns su opservacje sa stm vrednostma za sve nezavsne promenljve. Na prmer, ako mamo dve nezavsne promenljve X X 2 koje označavaju pol rasu redom, pr tome prva promenljva može uzet dve vrednost mušk žensk, a druga promenljva bela crna, tada mamo četr covarate patterns to (mušk,bela), (mušk,crna), (žensk,bela), (žensk,crna). Ukolko bsmo mal tr nezavsne promenljve X, X 2 X 3 koje označavaju pol, rasu, vsnu redom ako bsmo posmatral n subjekata, tada bsmo mogl mat najvše n covarate patterns jer je treća promenljva neprekdna. Na prmer, ako bsmo mal ovakvh subjekata: (žensk,bela,68),(žensk,bela,69),(žensk,bela,75),(žensk,crna,65), (žensk,crna,66), (mušk,crna,78),(mušk,crna,8), (mušk,crna,9), (mušk,bela,82), (mušk,bela,92). Tada vdmo da sv on maju razlčte vrednost nezavsnh promenljvh, odnosno mamo covarate patterns. A ukolko posmatramo ovakvh subjekata: (žensk,bela,68),(žensk,bela,68),(žensk,bela,75),(žensk,crna,65), (žensk,crna,65), (mušk,crna,78),(mušk,crna,78), (mušk,crna,9), (mušk,bela,82), (mušk,bela,92). Tada mamo 7 covarate patterns. Tokom razvjanja modela nje neophodno bavt se brojem covarate patterns. Stepen slobode za testove su bazran na razlc u broju parametara za modele koj se upoređuju, 3

a ne na broju covarate pattern. Međutm, kada je procenjeno kolko se model slaže sa podacma, tada sporno ptanje može bt broj covarate pattern. Goodness-of-ft se postže preko grupsanja ftovanh vrednost određenh pomoću kovarjat u modelu, a ne ukupnog skupa kovarjat. Na prmer, pretpostavmo da naš ftovan model sadrž p nezavsnh promenljvh, x' = (x, x 2, x 3,..., x p ), neka J označava broj razlčth regstrovanh vrednost x. Ako nek subjekt maju stu vrednost za x, tada je J < n. Označmo broj subjekata za koje je x = x j, sa m j, za j =, 2, 3,... J. Sled da je Σm j = n. Neka je sa y j označen broj poztvnh odgovora, y =, među m j subjekata za koje važ x = x j. Da bsmo bolje objasnl šta koja oznaka predstavlja vratćemo se na prmer u kojem smo posmatral sledeće subjekte: (žensk,bela,68),(žensk,bela,68),(žensk,bela,75),(žensk,crna,65), (žensk,crna,65), (mušk,crna,78),(mušk,crna,78), (mušk,crna,9), (mušk,bela,82), (mušk,bela,92). U ovom prmeru mamo deset subjekata, dakle n =. Od th deset, njh sedam ma razlčte vrednost tj. J = 7. Vdmo da mamo: dve belknje vsne 68 one čne jednu grupu tj. m = 2 jednu belknju vsne 75, ona čn drugu grupu tj. m 2 = dve crnknje vsne 65, one čne treću grupu tj. m 3 = 2 dva crnca vsne 78, on čne četvrtu grupu tj. m 4 = 2 po jednog crnca vsne 9, belca vsne 82 belca vsne 92 koj čne, redom, petu, šestu sedmu grupu tj. m 5 = m 6 = m 7 = Raspodela za statstku goodnes-of-ft se dobja, ako se stav da je n je dovoljno velko. Ako se broj covarate patterns takođe povećava sa n, tada svaka vrednost m j tež da bude mala. Za dstrbucone rezultate dobjene pod pretpostavkom da samo n postaje velko kažemo da su n-asmptotsk. Prmer n-asmptotskog ponašanja je prethodn prmer, jer 32

ukolko posmatramo velk broj subjekata njhove vsne, skoro je sgurno da ćemo mat velk broj razlčth vrednost, s obzrom da je vsna neprekdna promenljva. Ako fksramo broj grupa povećavamo obm uzorka onda će se povećavat broj elemenata u svakoj grup tj. matematčk rečeno ako fksramo J < n pustmo n da je dovoljno velko, tada svaka vrednost m j takođe tež da postane velka. Za raspodele gde svako m j postaje velko, kažemo da su m - asmptotske. Pretpostavmo da je J n, kao što očekujemo kad god postoj bar jedna neprekdna kovarjata u modelu. Ovo je slučaj koj se najčešće javlja u praks, a takođe predstavlja najveć zazov u razvjanju raspodela goodness-of-ft statstke. 4.3 PIRSONOVA HI-KVADRAT STATISTIKA I ODSTUPANJE U logstčkoj regresj postoj nekolko mogućh načna za procenu razlke zmeđu observrane ftovane vrednost. Za stcanje čnjence da su ftovane vrednost u logstčkoj regresj zračunate za svak covarate pattern da zavse od ocenjene verovatnoće za taj covarate pattern, označavamo procenjenu, ftovanu vrednost za j-t covarate pattern sa yˆ j, važ da je: gde je gˆ ( x j ) ocenjen logt. yˆ = m ˆ π = m e + e gˆ ( x ) j j j j gˆ ( x ) j j, Počnjemo razmatranjem dve mere rastojanja zmeđu regstrovane predvđene vrednost na osnovu modela, a to su: Prsonov rezdual rezdual odstupanja. Za određen covarate pattern, Prsonov rezdual je defnsan na sledeć načn: r( y, ˆ π j) = j ( y j m j ˆ π j) m ˆ π ( ˆ π ) j j j. Statstka koja je bazrana na ovm rezdualma je Prsonova h-kvadrat statstka: Χ 2 J 2 = r ( ˆ ) j= y j,π. j 33

Rezdual odstupanja je defnsan kao: y j m d( y j, ˆ π j) = sgn( y j m j ) 2 y j ln + ( m j y j) ln m ˆ π m j y ( ˆ π ) j j j j j / 2 Statstka koja je bazrana na rezdualma odstupanja je odstupanje (Devance). J 2 D = d( ˆ ) j= y j,π. Pod pretpostavkom da je ftovan model korektan za sve aspekte, statstke X 2 D maju h-kvadrat raspodelu sa J (p + ) stepen slobode. Za odstupanje ovo sled z čnjence da je D test statstka kolčnka verodostojnost zasćenog modela sa J parametara u odnosu na ftovan model sa p + parametara. Slčna teorja daje nultu raspodelu za X 2. Problem nastaje kada je J n, jer je raspodela n-asmptotska, pa se broj parametara povećava u stom odnosu kao velčna uzorka. Dakle, p-vrednost, zračunate za ove dve statstke kada je J n, a koršćenjem χ 2 (J p ) raspodele su nekorektne. Jedan načn da se zbegnu navedene smetnje sa raspodelama za X 2 D, kada je J n je grupsanje podataka na takav načn da se korst m-asmptotska raspodela. Da b se razumelo obrazloženje za razlčte postupke grupsanja, korsno je smatrat X 2 Prsonovom D kao logartam verodostojnost h-kvadrat statstke koja se dobja z tabele 2 J. Redov tabele odgovaraju vrednostma rezultujuće promenljve, y =,, a J kolona odgovara J mogućm vrednostma covarate patterns. Ocena očekvanh vrednost pod pretpostavkom da je logstčk model u stvar korektan model za ćelje koje odgovaraju y = redu j-toj kolon je m j. Sled da je ocena očekvanh vrednost za ćelju koja odgovara y = J-toj kolon m j ( πˆ j ). Kada su h-kvadrat testov zračunat z tabele kontgencje, p-vrednost su korektne pod nultom hpotezom da su ocenjene vrednost suvše "velke" u svakoj ćelj. Mada ovo prevše pojednostavljuje stuacju, to je u suštn korektno. U gore opsanoj tabel 2 J, očekvane vrednost su uvek prlčno male jer se broj kolona povećava kako se n povećava. Da b se zbegao ovaj problem, možemo smanjt kolone u fksran broj grupa, g, tada računat regstrovane očekvane frekvencje. Fksranjem broja kolona, ocenjene očekvane vrednost postaju veće, sa povećanjem n. j 34

Često se sugerše da je X 2 bolje nego D zato što na D prekomerno utču vrlo male frekvencje. Ako su očekvane frekvencje suvše male (to jest manje od ), obe aproksmacje su verovatno vrlo slabe. Naročto, ako svaka observacja ma razlčt covarate pattern pa je y nula, l jedan, n D, n X 2 ne daju upotrebljvu meru za ft. Ovo se može dest kada su nezavsne promenljve neprekdne. U takvm stuacjama najčešće se korst Hosmer- Lemeshow prstup. 4.4 TABELE KLASIFIKACIJE Jedan načn za sažmanje rezultata ftovanog logstčkog regresonog modela je pomoću tabele klasfkacje, koja je rezulat ukrštanja rezultujuće promenljve sa dhotomnom promenljvom čje su vrednost zvedene z ocenjenh logstčkh verovatnoća. Kreramo tabelu klasfkacje 2 2 predvđenh vrednost z našeg modela za shodnu promenljvu nasuprot tačnoj vrednost shodne promenljve. Predvđanje zavs od neke cut-off verovatnoće c. Pr tome se uzma da je y ˆ = ukolko je π c y ˆ = ukolko je ^ π c. Najčešće koršćena vrednost je c =. 5. Senztvnost testa predstavlja verovatnoću da je predvđena vrednost zavsne promenljve jedan, ukolko je, zasta, zavsna promenljva prmla vrednost jedan tj. ^ > P( yˆ = y = ). Specfčnost testa je verovatnoća da je predvđena vrednost zavsne promenljve nula, ako je njena stvarna vrednost nula tj. P( yˆ = y = ). Posmatrajmo sledeću tabelu klasfkacje : Regstrovano Klasfkovano GOJAZNOST = GOJAZNOST = Ukupno GOJAZNOST = 53 25 78 GOJAZNOST = 385 939 324 Ukupno 95 89 24 Tabela 4. Iz tabele se vd da je ukupno posmatrano 24 osobe, od kojh je 89 gojazno. 35

Od 89 gojaznh dobro smo klasfkoval njh 939, dok je njh 25 pogrešno klasfkovano. Od 95 negojaznh osoba 53 je dobro klasfkovano, dok je 385 osoba pogrešno klasfkovano. Senztvnost testa je: 939 P { osoba je klasfkovana kao gojazna osoba je zasta gojazna} = = 78.97 % 89 Specfčnost testa je : 53 P { osoba je klasfkovana kao negojazna osoba je zasta negojazna} = = 57.92% 95 Dakle, tačno smo klasfkoval 78.97% osoba koje su gojazne 57.92% osoba koje su 53 + 939 negojazne pa je ukupna stopa tačne klasfkacje = 69.82%. 24 25 gojaznh osoba je klasfkovano kao negojazno tj. 25 = 2.3%, dok je 385 osoba 89 koje nsu gojazne klasfkovano kao gojazno tj. 385 = 42.8%. 95 385 + 25 Dakle, ukupno je pogrešno klasfkovano = 3.8% posmatranh osoba. 24 Klasfkacja je osetljva na relatvnu velčnu dve komponentne grupe uvek favorzuje klasfkacju u veće grupe. Važan razlog zašto mere zvedene z tabele klasfkacje 2 2 (kao što su senztvnost specfčnost) ne bsmo trebal korstt za procenu kolko je model dobar, je taj da one veoma zavse od raspodele verovatnoća u uzorku Zbog razmatranja koje sled treba da razumemo smsao verovatnoće, a to je da se od n subjekata koj maju stu verovatnoću shoda koj nas nteresuje (πˆ ),očekuje se da će broj onh koj će mat shod od nteresa bt nπˆ, a broj onh za za koje se očekuje da neće mat shod od nteresa je n( πˆ ). Pretpostavmo da je koršćen cutpont.5 u clju klasfkacje pretpostavmo da je subjekata malo verovatnoću πˆ =.5. Za sve ove subjekte je predvđeno da će mat rezultat koj se posmatra, al pretpostavljajuć da je model dobro podešen, 5 subjekat b trebalo da zasta ma shod od nteresa, dok se za njh 49 treba očekvat da neće mat shod od nteresa. Dakle, 49 od pacjenata je pogrešno klasfkovano. 36