Metódy vol nej optimalizácie Metódy vol nej optimalizácie p. 1/28
Motivácia k metódam vol nej optimalizácie APLIKÁCIE p. 2/28
II 1. PRÍKLAD: Lineárna regresia - metóda najmenších štvorcov Na základe dostupných dát chceme odhadnút cenu bytu v Dúbravke s rozlohou 94 m 2. rozloha (m 2 ) cena (e) 1. 84 139.000 2. 81 172.000 3. 38 76.500 4. 100 215.000... p. 3/28
1. PRÍKLAD: Lineárna regresia - metóda najmenších štvorcov Grafické znázornenie dát 260 240 220 200 180 160 140 120 100 80 60 30 40 50 60 70 80 90 100 110 120 p. 4/28
1. PRÍKLAD: Lineárna regresia - metóda najmenších štvorcov Lineárny model - hl adáme priamku, ktorá najlepšie vystihuje dané dáta 260 240 220 200 180 160 140 120 100 80 60 30 40 50 60 70 80 90 100 110 120 p. 5/28
1. PRÍKLAD: Lineárna regresia - metóda najmenších štvorcov Formálne - hl adáme funkciu h θ (x) = θ 0 +θ 1 x (hypotéza), resp. parametre priamky θ 0,θ 1. Označme - m - počet dátových bodov - x - vstupné premenné (rozloha bytu) - y - výstupné premenné (cena) - (x (i),y (i) ),i = 1,2,...,m - jednotlivé dátové body Myšlienka: hl adáme h θ tak, aby h θ (x (i) ) bolo čo najbližšie k y (i) pre i = 1,...,m, t. j. pre všetky dátové body Riešime Min{J(θ 0,θ 1 ) θ 0,θ 1 R}, kde J(θ 0,θ 1 ) = 1 m ( 2m i=1 hθ (x (i) ) y (i)) 2 = 1 m ( 2m i=1 θ0 +θ 1 x (i) y (i)) 2 p. 6/28
1. PRÍKLAD: Lineárna regresia - metóda najmenších štvorcov Funkcia J(θ 0,θ 1 ) je konvexná kvadratická funkcia 2 premenných p. 7/28
1. PRÍKLAD: Lineárna regresia - metóda najmenších štvorcov Lineárna regresia s viacerými vstupnými premennými: rozloha (m 2 ) izby vek cena (e) 1. 84 3 35 139.000 2. 81 2 12 172.000 3. 38 1 30 76.500 4. 100 4 25 215.000..... 3 rôzne charakteristiky (rozloha, izby, vek) vstupné dáta x R 3 p. 8/28
1. PRÍKLAD: Lineárna regresia - metóda najmenších štvorcov Označme - m - počet dátových bodov - n - počet charakteristík - x - vstupné premenné - vektory z R n - y - výstupné premenné - (x (i),y (i) ) R n+1,i = 1,2,...,m - jednotlivé dátové body - hypotéza (lineárny model) h(x) = θ 0 +θ 1 x 1 + +θ n x n - Minimalizuje sa funkcia n+1 premenných J(θ 0,θ 1,...,θ n ) - hypotéza (nelineárny model) - napr. h(x) = θ 0 +θ 1 x 1 +θ 2 x 1 x 2 +θ 3 x 3 3 + p. 9/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Na základe známych dát chceme zistit : e-mail = spam? ÁNO/NIE nádor = zhubný ÁNO/NIE internetová transakcia = podvod? ÁNO/NIE odhadovanie budúcej hodnoty v časovom rade (napr. cena aktíva) = stúpne? ÁNO/NIE p. 10/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Označme opät - m - počet dátových bodov - n - počet charakteristík - x R n - vstupné premenné - y {0,1} - výstupné premenné - (x (i),y (i) ) R n+1,i = 1,2,...,m - jednotlivé dátové body Zjednodušenie symboliky - Ak položíme x 0 1, tak vstupné premenné sú x = (x 0,x 1,...,x n ) = (1,x 1,...,x n ) R n+1 - Linéarna regresia - hypotéza h θ (x) = θ T x = θ 0 x 0 + +θ n x n p. 11/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Diagnostika nádorov: x 1 = polomer x 2 = plocha x 3 = textúra x 4 = symetria x 5 = konkávnost Rozpoznávanoe spamov: charakteristiky=slová x i = početnost i-teho slova p. 12/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Lineárna regresia: 1.2 1 0.8 0.6 0.4 0.2 0-0.2-0.4 0 1 2 3 4 5 6 7 8 9 10 p. 13/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Lineárna regresia = naivné riešenie: 1.2 1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 12 14 16 18 p. 14/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Lineárna funkcia h θ (x) = θ T x nie je vhodná. Chceme aby hypotéza h θ mala vlastnosti: 1. 0 h θ (x) 1 2. h θ (x (i) ) 0.5 ak y (i) = 1 3. h θ (x (i) ) 0.5 ak y (i) = 0 Model - logistická regresia h θ (x) = g(θ T x) g(z) = 1 1+e z p. 15/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Interpretácia funkcie h θ (x) h θ (x) = P(y = 1 x;θ) Napr. ak x = [ x 0 x 1 ] = [ 1 velkost nadora ] a h θ (x) = 0.7 - znamená 70% pravdepodobnost, že nádor je zhubný. Pokial ide len o 0/1 predikciu, tak predpovedáme y = 1 h θ (x) 0.5 θ T x 0 y = 0 h θ (x) < 0.5 θ T x < 0 p. 16/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Prípad viacerých charakteristík - n 2. Máme danú testovaciu množinu {(x (1),y (1) ),(x (2),y (2) ),...,(x (m),y (m) )}. 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 p. 17/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Úloha: Nájst parametre θ separujúcej nadroviny θ T x = 0. 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 p. 18/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Lineárna regresia: Parametre θ sme hl adali metódou najmenších štvorcov Min { J lin (θ) = 1 m m i=1 1 2 ( h θ (x (i) ) y (i)) 2 θ R n+1 }, kde h θ (x) = θ T x (!) Ozn. C quad (h θ (x),y) = 1 2 (h θ(x) y) 2. Funkcia J lin (θ) = 1 m m C quad (h θ (x (i) ),y (i) ) i=1 je konvexná v θ. p. 19/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Logistická regresia: Teoreticky by sme mohli hl adat parametre θ analogicky: Min { J log (θ) = 1 m m i=1 1 2 } ( h θ (x (i) ) y (i)) 2 θ R n+1, ale h θ (x) = g(θ T x) (!) V tomto prípade však funkcia J log (θ) NIE JE konvexná. Funkciu C quad (h θ (x),y) = 1 2 (h θ(x) y) 2 nahradíme konvexnou funkciou C log (h θ (x),y) = { ln(h θ (x)) y = 1, ln(1 h θ (x)) y = 0. p. 20/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Prípad y = 1 Prípad y = 0 Ak h θ (x) = 1 tak C log = 0 Ak h θ (x) 0 tak C log + Ak h θ (x) = 0 tak C log = 0 Ak h θ (x) 1 tak C log + Interpretácia: ak h θ (x) = 0, tak predpovedáme P(y = 1 x;θ) = 0 hoci y = 1, tento prípad penalizujeme vel mi vel kými hodnotami C log. Analogicky penalizujeme v prípade h θ (x) = 1 a y = 0 p. 21/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Budeme teda riešit úlohu { Min J log (θ) = 1 m C log (h θ (x (i) ),y (i) ) i=1 } θ R n+1, kde C log (h θ (x),y) = { ln(h θ (x)) y = 1, ln(1 h θ (x)) y = 0 a h θ (x) = g(θ T x) p. 22/28
2. PRÍKLAD: Logistická regresia - binárna klasifikácia Budeme teda riešit úlohu { Min J lin (θ) = 1 m C log (h θ (x (i) ),y (i) ) i=1 } θ R n+1, kde a C log (h θ (x),y) = yln(h θ (x)) (1 y)ln(1 h θ (x)) h θ (x) = g(θ T x) p. 23/28
3. PRÍKLAD: Rekonštrukcia signálu signál je snímaný v pravidelných časových intervaloch a reprezentovaný nejakou funkciou závislou od času x i = x(t i ), i = 0,1,...,T predpokladá sa, že signál sa príliš nemení - x i x i+1 audio signál - jednorozmerný signál obrázky/video - viacrozmerné signály prijatý signál je obyčajne znečistený šumom v: x sum = x+v Úloha: odhadnút pôvodný signál x zo zašumeného signálu x sum (signal de-noising) Formulácia úlohy: Min { x x sum 2 +γφ(x) x R T+1} φ(x) je nejaká regularizačná funkcia p. 24/28
3. PRÍKLAD: Rekonštrukcia signálu Kvadratické vyhladenie Totálna varácia D = φ quad (x) = T i=0 (x i+1 x i ) 2 = Dx 2 2 φ tv (x) = T i=0 x i+1 x i = Dx 1 1 1 0 0 0 1 1 0............. RT (T+1) 0 0 0 1 Ak je pôvodný signál hladký a šum sa prudko mení - φ quad (x) Ak sa skokovito menia hodnoty pôvodného signálu - φ tv (x) p. 25/28
3. PRÍKLAD: Rekonštrukcia signálu Kvadratické vyhladenie 3 2 1 0-1 -2-3 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 2.5 2 1.5 1 0.5 0-0.5-1 -1.5-2 -2.5 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 zašumený signál KV rekonštruovaný signál γ = 0.9 p. 26/28
3. PRÍKLAD: Rekonštrukcia signálu Totálna variácia 3 1.5 2 1 1 0.5 0 0-0.5-1 -1-2 -1.5-3 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000-2 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 zašumený signál TV rekonštruovaný signál γ = 0.9 p. 27/28
3. PRÍKLAD: Rekonštrukcia signálu Min { 1 2 Ax b 2 2 +λ Wx 1 x R n} b - rozmazaný m n obrázok reprezentovaný ako mn rozmerný vektor A lineárna transformácia reprezentujúca "rozmazanie" W ortogonálna matica reprezentujúca vlnkovú transformáciu (wavelet) Observed Image Reconstructed Image (lambda=0.001) p. 28/28