Regularizacija. Poglavje Polinomska regresija

Σχετικά έγγραφα
Diferencialna enačba, v kateri nastopata neznana funkcija in njen odvod v prvi potenci

Odvod. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 5. december Gregor Dolinar Matematika 1

Funkcijske vrste. Matematika 2. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 2. april Gregor Dolinar Matematika 2

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 21. november Gregor Dolinar Matematika 1

Zaporedja. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 22. oktober Gregor Dolinar Matematika 1

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 14. november Gregor Dolinar Matematika 1

Tretja vaja iz matematike 1

Odvod. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 10. december Gregor Dolinar Matematika 1

KODE ZA ODKRIVANJE IN ODPRAVLJANJE NAPAK

Booleova algebra. Izjave in Booleove spremenljivke

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 12. november Gregor Dolinar Matematika 1

Splošno o interpolaciji

Funkcije več spremenljivk

Numerično reševanje. diferencialnih enačb II

PONOVITEV SNOVI ZA 4. TEST

SKUPNE PORAZDELITVE VEČ SLUČAJNIH SPREMENLJIVK

MATEMATIČNI IZRAZI V MAFIRA WIKIJU

Enačba, v kateri poleg neznane funkcije neodvisnih spremenljivk ter konstant nastopajo tudi njeni odvodi, se imenuje diferencialna enačba.

NEPARAMETRIČNI TESTI. pregledovanje tabel hi-kvadrat test. as. dr. Nino RODE

13. Jacobijeva metoda za računanje singularnega razcepa

Zaporedja. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 15. oktober Gregor Dolinar Matematika 1

Statistika 2 z računalniško analizo podatkov. Multipla regresija in polinomski regresijski model

Izpeljava Jensenove in Hölderjeve neenakosti ter neenakosti Minkowskega

*M * Osnovna in višja raven MATEMATIKA NAVODILA ZA OCENJEVANJE. Sobota, 4. junij 2011 SPOMLADANSKI IZPITNI ROK. Državni izpitni center

IZPIT IZ ANALIZE II Maribor,

Kotne in krožne funkcije

DISKRETNA FOURIERJEVA TRANSFORMACIJA

Matematika. Funkcije in enačbe

V tem poglavju bomo vpeljali pojem determinante matrike, spoznali bomo njene lastnosti in nekaj metod za računanje determinant.

Poliedri Ines Pogačar 27. oktober 2009

Kvadratne forme. Poglavje XI. 1 Definicija in osnovne lastnosti

Podobnost matrik. Matematika II (FKKT Kemijsko inženirstvo) Diagonalizacija matrik

Definicija. definiramo skalarni produkt. x i y i. in razdaljo. d(x, y) = x y = < x y, x y > = n (x i y i ) 2. i=1. i=1

Tema 1 Osnove navadnih diferencialnih enačb (NDE)

Statistika II z računalniško analizo podatkov. Bivariatna regresija, tipi povezanosti

Interpolacija in aproksimacija funkcij

vezani ekstremi funkcij

1. Definicijsko območje, zaloga vrednosti. 2. Naraščanje in padanje, ekstremi. 3. Ukrivljenost. 4. Trend na robu definicijskega območja

Delovna točka in napajalna vezja bipolarnih tranzistorjev

Logistična regresija. Poglavje 6

Kontrolne karte uporabljamo za sprotno spremljanje kakovosti izdelka, ki ga izdelujemo v proizvodnem procesu.

Definicija 1. Naj bo f : D odp R funkcija. Funkcija F : D odp R je primitivna funkcija funkcije f, če je odvedljiva in če velja F = f.

POROČILO 3.VAJA DOLOČANJE REZULTANTE SIL

Matematika 1. Gregor Dolinar. 2. januar Fakulteta za elektrotehniko Univerza v Ljubljani. Gregor Dolinar Matematika 1

8. Diskretni LTI sistemi

Integralni račun. Nedoločeni integral in integracijske metrode. 1. Izračunaj naslednje nedoločene integrale: (a) dx. (b) x 3 +3+x 2 dx, (c) (d)

Matematika I (VS) Univerza v Ljubljani, FE. Melita Hajdinjak 2013/14. Pregled elementarnih funkcij. Potenčna funkcija. Korenska funkcija.

Osnove elektrotehnike uvod

Multivariatna analiza variance

diferencialne enačbe - nadaljevanje

p 1 ENTROPIJSKI ZAKON

Linearne preslikave. Poglavje VII. 1 Definicija linearne preslikave in osnovne lastnosti

Navadne diferencialne enačbe

Priporočilni sistemi. Poglavje 8

Reševanje sistema linearnih

matrike A = [a ij ] m,n αa 11 αa 12 αa 1n αa 21 αa 22 αa 2n αa m1 αa m2 αa mn se števanje po komponentah (matriki morata biti enakih dimenzij):

Navadne diferencialne enačbe

3. STATISTIKE Z DVEMA SPREMENLJIVKAMA

Regresija in korelacija

Lastne vrednosti in lastni vektorji

Zanesljivost psihološkega merjenja. Osnovni model, koeficient α in KR-21

INTEGRALI RACIONALNIH FUNKCIJ

Transformator. Delovanje transformatorja I. Delovanje transformatorja II

II. LIMITA IN ZVEZNOST FUNKCIJ

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Osnove sklepne statistike

1 Fibonaccijeva stevila

Fazni diagram binarne tekočine

Univerza v Ljubljani Fakulteta za računalništvo in informatiko MATEMATIKA. Polona Oblak

Metoda voditeljev. Poglavje 2

1. Trikotniki hitrosti

Projekcije in zmanjšanje dimenzionalnosti podatkov

Osnove matematične analize 2016/17

Na pregledni skici napišite/označite ustrezne točke in paraboli. A) 12 B) 8 C) 4 D) 4 E) 8 F) 12

PROCESIRANJE SIGNALOV

Matematika 2. Diferencialne enačbe drugega reda

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

Shefferjeva polinomska zaporedja

Odvode odvisnih spremenljivk po neodvisni spremenljivki bomo označevali s piko: Sistem navadnih diferencialnih enačb prvega reda ima obliko:

D f, Z f. Lastnosti. Linearna funkcija. Definicija Linearna funkcija f : je definirana s predpisom f(x) = kx+n; k,

Funkcije dveh in več spremenljivk

FAKULTETA ZA STROJNIŠTVO Matematika 4 Pisni izpit 22. junij Navodila

Dodatna poglavja iz linearne algebre za 1. letnik finančne matematike na FMF. Primož Moravec

S programom SPSS se, glede na število ur, ne bomo ukvarjali. Na izpitu so zastavljena neka vprašanja, zraven pa dobimo računalniški izpis izračunov. T

Iterativno reševanje sistemov linearnih enačb. Numerične metode, sistemi linearnih enačb. Numerične metode FE, 2. december 2013

Statistika 2 z računalniško analizo podatkov. Statistično sklepanje

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Inverzni problem lastnih vrednosti evklidsko razdaljnih matrik

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

Gimnazija Krˇsko. vektorji - naloge

Matematika vaja. Matematika FE, Ljubljana, Slovenija Fakulteta za Elektrotehniko 1000 Ljubljana, Tržaška 25, Slovenija

1. Έντυπα αιτήσεων αποζημίωσης Αξίωση αποζημίωσης Έντυπο Πίνακας μεταφράσεων των όρων του εντύπου...

Analiza 2 Rešitve 14. sklopa nalog

REˇSITVE. Naloga a. b. c. d Skupaj. FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost 2. kolokvij 23.

Kvantni delec na potencialnem skoku

IZVODI ZADACI (I deo)

APROKSIMACIJA FUNKCIJA

Matrike. Poglavje II. Matrika je pravokotna tabela realnih števil. Na primer: , , , 0 1

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

Mašinsko učenje. Regresija.

Transcript:

Poglavje 5 Regularizacija Pri vpeljavi linearne regresije v prejšnjem poglavju je bil cilj gradnja modela, ki se čimbolj prilega učni množici. Pa je to res pravi kriterij za določanje parametrov modela? Bo model, ki se najbolje prileže učni množici res tisti, ki bo dobro napovedoval nove primere? V tem poglavju pokažemo, da temu ni tako, nakažemo, kakšna bi bila lahko rešitev problema in potem tudi povemo, da je ta žal odvisna od parametra, ki ga moramo nekako oceniti iz podatkov. S tem smo sklenili začarani krog (in morda nismo rešili prav dosti), a odprli skrinjico problemov, ki je tipična za strojno učenje in znanost v podatkih. 5.1 Polinomska regresija Na sliki 5.1 so prikazani podatki, kjer linearni model očitno ni pravi in je odvisnost med atributom in razredom nelinearna. Linearni model z enim samim atributom, oziroma tako imenovani univariatni linearni model, očitno ne bo kos našemu problemu. Model z eno samo spremenljivko zapišemo kot y = θ 0 + θ 1 x. Kaj pa, če podatke spremenimo tako, da število atributov povečamo. S stolpci, ki so potence našega osnovnega atributa. Torej, namesto, da vhodni podatki vsebujejo samo stolpec z atributom x, dodamo še stolpce potenc te spremenljivke, torej na primer stolpce z vrednostmi x 2 in x 3. Za trenutek uvedimo nova imena spremenljivk, oziroma nova imena atributov, in poimenujmo a = x, b = x 2 in c = x 3. S takimi spremenljivkami lahko zapišemo novi linearni model y = θ 0 + θ 1 a + θ 2 b + θ 3 c. S takimi modeli smo tudi že imeli opravka (v prejšnjem poglavju), zato nam niso novi. Še vedno gre za linearni model: torej model, kjer so a, b in c neke številke (vrednosti atributov za posamezni primer), ki so pomnožene s parametri modela θ 0... θ 3, katerih vrednost iščemo. Sedaj pa preoblikujmo naš model tako, da spet vstavimo potence atributa x. Tokrat se zavedajmo, da potenčni izrazi označujejo vrednosti atributov, torej nekih konstant iz naše tabele podatkov. Prav zato je model še vedno linearen: y = θ 0 + θ 1 x + θ 2 x 2 + θ 3 x 3 49

50 POGLAVJE 5. REGULARIZACIJA Slika 5.1: Linearni model y = θ 0 + θ 1 x se ne ujema dobro s podatki, saj je napaka velika, odvisnost med atributom x in razredom y pa očitno ni linearna. Pravimo, da smo prostor atributov razširili s potenčnimi vrednostmi. Ker bomo nad tem prostorom gradili linearni regresijski model, temu postopku razširitve prostora atributov in gradnje linearnega modela pravimo polinomska regresija. In rezultat? Na sliki 5.2 je prikazan rezultat pri polinomski razširitvi stopnje 2 (uporabili smo atributa x in x 2 ) ter stopnje štiri (uporaba atributov x, x 2, x 3 in x 4 ). Slika 5.2: Polinomska regresija druge in četrte stopnje. Z dviganjem stopnje polinoma se naš model čedalje bolj prilega učnim podatkom, napovedna napaka oziroma naše kriterijska funkcija pa je čedalje manjša. S polinomsko razširitvijo sedmega reda smo dosegli skoraj popolno prileganje (slika 5.3). Vrednost naše kriterijske funkcije gre z dvigovanjem stopnje polinoma proti nič in je dejansko enaka nič takrat, ko

5.2. NAPOVEDNA TOČNOST 51 je stopnja polinoma oziroma razširitve atributnega prostora enaka m 1, kjer je m število primerov. Slika 5.3: Polinomska regresija sedme stopnje in koeficienti modela. Navidezno smo problem iskanja modela, ki bi minimiziral kriterijsko fukcijo, z uvedbo polinomske regresije rešili. Pa smo res? Spomnimo se, da je naš cilj gradnje modelov napovedovanje, torej ne samo modeliranje na osnovi učne množice, ampak uporaba modela za napovedovanje primerov, ki jih pri učenju nismo videli in ki so novi. Uporabo polinomske regresije moramo zato preskusiti na tovrstnih primerih, ki jim pravimo tudi testna množica. Pred tem pa se moramo dogovoriti, kako bomo merili uspešnost modela oziroma njegovo napovedno točnost. 5.2 Napovedna točnost Imejmo testno množico T s k primeri, k = T, za katere poznamo njihov atributni opis x (i) in vemo njihov pravi razred y (i). Oceniti želimo napovedno točnost regresijskega modela, ki za i-ti primer napove oziroma oceni vrednost njegovega razreda kot ŷ (i). Pri prvi meri za napovedno točnost, ki jo bomo tu uvedli, sledimo dosedanji logiki, da nas predznak napake ne zanima (torej kvadriramo) in da bi radi izračunali povprečno vrednost take, kvadrirane napake. Ker bi želeli, da se napaka izrazi v istih enotah kot vrednosti razreda v učni množici, povprečno kvadrirano napako na koncu še korenimo. Dobimo koren povprečne kvadrirane napake (angl. Root Mean Squared Error)): RMSE(T ) = k i=1 y(i) ŷ (i) Mera RMSE je sicer čisto v redu, a je njena vrednost odvisna od domene odvisne spremenljivke. Na primer, če je RMSE = 42.0 s tem pravzaprav nismo povedali ničesar, saj ne k

52 POGLAVJE 5. REGULARIZACIJA poznamo razpon odvisne spremenljvike. Če smo s tem ocenili težo tovornjakov v tonah, je napaka ogromna, če pa smo njegovo težo ocenjevali v kilogramih, je skoraj zanemarljiva. Bolje bi bilo imeti oceno napake, kjer je ta neodvisna od domene odvisne spremenljivke. Recimo, nekaj, čemur statistiki pravijo delež razložene variance: R 2 (T ) = 1 k(y (i) ŷ (i) ) 2 k(y (i) ȳ) 2 V imenovalcu ulomka je vsota kvadratov napak, ki bi jo naredili, če bi model napovedoval s povprečno vrednostjo odvisne spremenljivke učne množice. To bi bil prav slab model in pričakujemo, da bo njegova napaka večja, ali pa morda veliko večja od te, ki bi jo naredil boljši model in katerega kvadrat napake izračunamo v števcu ulomka. Za zelo dober model gre člen z ulomkom proti vrednosti 0, ocena R 2 pa zato proti vrednosti 1. Slabši modeli pa bodo imeli napako le malo manjšo od napake napovedi s povprečno vrednostjo. Ocena R 2 bo takrat šla proti 0. Delež razložene variance ima zato pričakovano vrednost med 0 in 1. Opozorimo le, da čeprav vemo, da bodo visoke vrednosti R 2, torej take blizu 1.0 zaželene, so lahko uporabni tudi modeli z vrednosti R 2 blizu nič. Na primer, z modelom, ki ima na testni množici pri napovedi tečaja neke valute R 2 = 0.1 bi obogateli, model z isto točnostjo za napoved jutrišnje povprečne temperature pa bi lahko vrgli v koš. 5.3 Ocenjevanje napovedne točnosti Naredimo eksperiment: učno množico, ki jo prikazuje slika 5.4, naključno razdelimo na polovico, kjer uporabimo polovico naključno izbranih primerov za učenje linearnega modela, na drugi polovici modela pa testiramo napovedno uspešnost. Za ocenjevanje točnosti smo uporabili R 2, in to merili na učni in testni množici. Rezultate kaže tabela 5.1. S stopnjo polinomske razširitve atributnega prostora napovedna točnost modela na učni množici monotono narašča. Na množici testnih primerov pa je slika drugačna: s kompleksnostjo modela napovedna točnost nekaj časa narašča, potem pa strmo pade. Pravimo, da se je model preveč prilegel učni množici, postal zato prekompleksen in ni zajel glavnih vzorcev, ki so prisotni tudi v novih primerih. 5.4 Regularizacija linearne regresije Ko višamo stopnjo polinomske razširitve atributnega prostora smo opazili (slika 5.3), da parametri modela podivjajo, oziroma postane njihova vrednost zelo visoka. Kar ni nič čudnega, saj se model zelo prilagodi učnim podatkom, funkcija odvisnosti med x in y je zelo razgibana, njeni odvodi pa zelo visoki. Prileganje učni množici se torej izrazi v absolutno velikih vrednostih parametrov modela (absolutno zato, ker so te vrednosti lahko visoke a negativne ali visoke in pozitivne). Želeli bi si manj divje modele, torej take, kjer bi bili parametri modela

5.4. REGULARIZACIJA LINEARNE REGRESIJE 53 Slika 5.4: Množica vseh primerov, ki jih naključno porazdelimo med učno in tesno množico za ocenjevanje gradnjo in ocenjevanje kvalitete modela polinomske regresije. Tabela 5.1: Delež razložene variance na učni in testni množici (podatki s slike 5.4) za polinomsko regresijo stopnje k. k učna testna 0 0.000 0.002 1 0.031 0.037 2 0.161 0.151 3 0.806 0.688 4 0.822 0.687 5 0.832 0.715 6 0.841 0.716 7 0.841 0.714 8 0.857 0.365 9 0.863 0.118

54 POGLAVJE 5. REGULARIZACIJA po absolutni meri manjši. To željo enostavno izrazimo kot dodatek h kriterijiski funkciji za linearno regresijo: J = 1 2m m ( f (y (i) ) y (i) ) 2 + η i=1 n θ 2 j (5.1) j=1 Prvi člen v zgornji enačbi je cenovna funkcija za linearno regresijo, kjer želimo, da se model čimbolj prilega učni množici. Drugi člen pa pravi, da naj bo kvadratna vrednost parametrov takega modela čim manjša. Uporabili smo kvadratno vrednost parametrov, saj nam je vseeno, ali je njihova vrednost pozitivna ali negativna. Pravimo, da smo cenovno funkcijo regularizirali, stopnjo regularizacije pa uravnavamo z vrednostjo η, katere tipične vrednosti so nizke, recimo 0.1 ali pa 0.01 ali pa celo 0.0001. Za učenje modela linearne regresije, torej, za določanje vrednosti parametrov θ i modela iz podatkov rabimo še izračunati gradient. Izračun je enostaven, saj je enak, kot pri neregularizirani linearni regresiji plus odvod člena za regularizacijo (spodnja enačba velja za i = 1... n, za i = 0 pa ostane odvod enak kot prej): θ i J(θ) = 1 m (h θ(x) y)x i + ηθ i (5.2) Ostane le še preskus: ali se, tudi z regularizacijo, lahko preveč prilagodimo manjšemu naboru podatkov v učni množici. Seveda je vse odvisno od stopnje regularizacije η, a v splošnem (pri primerni vrednosti parametra η) je odgovor ne. Regularizacija nam pomaga pri preprečevanju prevelikega prileganja. Naj sliki 5.5 je tako primer podatkov in polinomske regresije brez regularizacije in z regularizacijo. Slika 5.5: Model polinomske regresije stopnje osem brez (levo) in z regularizacijo (η = 0.01, desno).