3.1.2 Konvergencija gradijentne metode Za iterativni algoritam kaºemo da konvergira u globalnom smislu, odnosno da je globalno konvergentan, ukoliko za proizvoljnu po etnu ta ku iterativnog niza algoritam generi²e niz ta aka koji konvergira ka ta ki koja zadovoljava NUPR za lokalni minimum. Moºe se desiti da algoritam ne konvergira u globalnom smislu, ali da ipak moºe generisati niz ta aka koji konvergira ka ta ki za koju su ispunjeni NUPR, pod uslovom da je po etna ta ka iterativnog niza dovoljno bliska ta ki koja predstavlja grani nu vrednost generisanog iterativnog niza. U tom slu aju kaºemo da algoritam konvergira u lokalnom smislu, odnosno da je lokalno konvergentan. Postavlja se pitanje kako izabrati po etnu ta ku iterativnog niza, odnosno koliko blizu treba pri i re²enju da bi zapo eli pretragu? Odgovor na ovo pitanje nije jednostavan i zavisi od osobina lokalne konvergencije algoritma. Jedan od parametara koji opisuje lokalnu i globalnu konvergenciju algoritma je njegova brzina konvergencije, odnosno broj iteracija koji je potreban algoritmu da dože do re²enja sa unapred zadatom ta no² u. U ovoj sekciji razmatra emo konvergenciju gradijentnih metode u op²tem obliku, pri emu e posebna paºnja biti posve ena konvergenciji metode najbrºeg spusta. Radi jednostavnosti, analizira emo konvergenciju gradijentne metode primenjene na re²avanje problema min R nf(x), gde je f(x) = 1 2 XT QX b T X kvadratna funkcija, pri emu je Q simetri na, pozitivno denitna matrica reda n, a b R n dati vektor. Zbog jednostavnije analize konvergencije funkcije f, deni²imo pomo nu funkciju G(X) = f(x) + 1 2 (X ) T QX = 1 2 (X X ) T Q(X X ), gde je X re²enje problema QX = b. Kako je G(X) f(x) = 1 2 (X ) T QX, a X ksirana ta ka, problem minimizacije funkcije G je ekvivalentan problemu minimizacije funkcije f. Za ocenu brzine konvergencije koristi emo razliku f(x (k) ) f(x ) umesto X (k) X jer je analiza jednostavnija. Moºe se pokazati da f(x (k) ) f(x ) i X (k) X konvergiraju istom brzinom (videti zadatke za veºbu). Kako je X = Q 1 b, odnosno QX = b, imamo: f(x (k) ) f(x ) = ( 1 2 (X(k) ) T QX (k) b T X (k) ) ( 1 2 (X ) T QX b T X ) = 1 2 (X(k) ) T QX (k) (QX ) T X (k) ( 1 2 (X ) T QX (QX ) T X ) = 1 2 (X(k) ) T QX (k) (X ) T QX (k) ( 1 2 (X ) T QX (X ) T QX ) = 1 2 (X(k) ) T QX (k) (X ) T QX (k) + 1 2 (X ) T QX = 1 2 (X(k) X ) T Q(X (k) X ) = G(X (k) ). Konvergenciju emo pokazati koriste i pomo nu funkciju G(X) i naredne dve leme: Lema 3.3 Neka je {X (k) } iterativni niz konstruisan gradijentnom metodom pri minimizaciji funkcije f(x) = 1 2 XT QX b T X, gde je Q simetri na pozitivno denitna matrica reda n i b R n dati vektor. Kako je niz {X (k) } denisan sa 1
X (k+1) = X (k) α k f k, gde je f k = f(x (k) ) = QX (k) b, tada vaºi slede a veza Pri tome vaºi i: a) Ukoliko je f k = 0, tada je γ k = 1. G(X (k+1) ) = (1 γ k )G(X (k) ). f b) Ukoliko je f k 0, tada je γ k = α T k Qf k k fk T Q 1 f k (2 f T k f k fk T Qf α k). k c) Ukoliko je niz {X (k) } dobijen primenom metode najbrºeg spusta, tada je γ k = (f T k f k) 2 (f T k Q 1 f k )(f T k Qf k). Dokaz Ukoliko je f k = 0, tvrženje sledi direktno. Pretpostavimo da je f k 0. Radi lak²eg zapisa uvodimo oznaku Z (k) = X (k) X. Tada je G(X (k) ) = 1 2 (Z(k) ) T QZ (k). Zatim, imamo da je G(X (k+1) ) = 1 2 (X(k+1) X ) T Q(X (k+1) X ) = 1 2 (X(k) X α k f k ) T Q(X (k) X α k f k ) = 1 2 (Z(k) ) T QZ (k) α k f T k QZ (k) + 1 2 α2 kf T k Qf k. Odavde se jednostavnim ra unanjem dobija S obzirom da je G(X (k) ) G(X (k+1) ) G(X (k) ) = 2α kf T k QZ(k) α 2 k f T k Qf k (Z (k) ) T QZ (k). f k = QX (k) b = QX (k) QX = QZ (k), dobijamo seled e veze (Z (k) ) T QZ (k) = f T k Q 1 f k i f T k QZ (k) = f T k f k. Zamenjuju i dobijene izraze, lako se izvodi da je γ k = G(X(k) ) G(X (k+1) ) G(X (k) ) ²to je i trebalo pokazati. Dokaz dela pod c) prepu²tamo itaocu. fk T = α Qf k k fk T (2 f k T f k Q 1 f k fk T Qf α k ), k Primetimo da je γ k 1, jer je γ k = 1 G(X(k+1) ), a G(X) je nenegativna funkcija, jer je Q G(X (k) ) pozitivno denitna matrica. Ako je γ k = 1 za neko k, tada je G(X (k+1) ) = 0, ²to je ekvivalentno 2
sa X (k+1) = X. U tom slu aju, za svako i k + 1 vaºi X (i) = X i γ i = 1. U slu aju metode najbrºeg spusta pokazuje se da γ k = 1 ako i samo ako je f k = 0 ili je f k sopstveni vektor matrice Q, o emo govore naredne dve leme. Lema 3.4 Neka je niz {X (k) } dobijen primenom metode najbrºeg spusta na minimizaciju kvadratne funkcije f(x) = 1 2 XT QX b T X. Ako je f k 0 za svako k, tada je γ k = 1 ako i samo ako je f k sopstveni vektor matrice Q. Dokaz. Neka je f k 0 za svako k. : Ako je f k sopstveni vektor matrice Q, imaju i u vidu Lemu 3.3 prema kojoj je γ k = (f T k f k) 2 (f T k Qf k)(f T k Q 1 f k ), lako se pokazuje da je γ k = 1. : Pretpostavimo da je γ k = 1. Tada, prema Lemi 3.3 sledi G(X (k+1) ) = 0, ²to zna i da je X (k+1) = X. Dalje, imamo da je X = X (k) α k f k. Mnoºe i dobijenu jednakost sa matricom Q i oduzimaju i b sa obe strane dobijamo: odnosno 0 = f k α k Qf k, Qf k = 1 α k f k, te je f k sopstveni vektor matrice Q koji odgovara sopstvenoj vrednosti Lema 3.5 Neka je niz {X (k) } dobijen primenom metode najbrºeg spusta na minimizaciju kvadratne funkcije f(x) = 1 2 XT QX b T X. Tada je γ k = 1 ako i samo ako je f k = 0 ili je f k sopstveni vektor matrice Q. Dokaz. Sledi direktno na osnovu prethodnih lema. Prepu²tamo itaocu formalno izvoženje dokaza. Sada emo formulisati i dokazati klju nu teoremu za konvergenciju gradijentne metode. Teorema daje neophodne i dovoljne uslove za konvergenciju niza {X (k) } koji je konstruisan gradijentnom metodom, tj. lim k X (k) = X, gde je X re²enje problema min R nf(x). Dakle, naredna teorema vaºi i za metod najbrºeg spusta i za metod konstantnog spusta o kojima je bilo re i ranije. Teorema 3.1 Neka je {X (k) } iterativni niz konstruisan gradijentnom metodom pri minimizaciji funkcije f(x) = 1 2 XT QX b T X, gde je Q simetri na pozitivno denitna matrica reda n i b R n dati vektor. Niz {X (k) } je denisan sa X (k+1) = X (k) α k f k, gde je f k = f(x (k) ) = QX (k) b. Neka je γ k denisano kao u Lemi 3.3 i pretpostavimo da je γ k > 0 za svako k. Tada niz {X (k) } konvergira ka X za svaki po etni vektor X (0) ako i samo ako vaºi 1 α k. 3
γ k =. k=0 Dokaz Pretpostavimo da je γ k < 1 za svako k (u suprotnom je dokaz trivijalan). Primetimo da X (k) X ako i samo ako G(X (k) ) 0 kad k. Sa druge strane, na osnovu Leme 3.3 imamo da je G(X (k+1) ) = (1 γ k )G(X (k) ), odakle dobijamo k 1 G(X (k) ) = ( (1 γ i ))G(X (0) ). Imaju i u vidu ovu jednakost, zaklju ujemo da G(X (k) ) 0, k (1 γ i ) = 0 ln(1 γ i ) =. Primetimo da prema pretpostavci γ i < 1 vaºi 1 γ i > 0, te je ln(1 γ i ) dobro denisan. Dakle, ostaje da pokaºemo da je ln(1 γ i ) = γ i =. : Pretpostavimo da je γ i = i dokaºimo da vaºi ln(1 γ i ) =. Primetimo da za proizvoljno X R, X > 0 vaºi ln(x) x 1. Dakle, ln(1 γ i ) 1 γ i 1 = γ i, te je ln(1 γ i ) γ i. Kako je γ i =, jasno je da vaºi ln(1 γ i ) =. : Sada dokaºimo suprotan smer. Neka je ispunjeno ºemo da vaºi γ i =. Pretpostavimo suprotno, tj. da je ln(1 γ i ) =. Treba da doka- γ i <. Tada mora biti γ i 0 za svako i. Dalje, primetimo da za x R takvo da je x 1, ali da je x dovoljno blisko jedinici vaºi ln(x) 2(x 1). Dakle, za dovoljno veliko i vaºi ln(1 γ i ) 2(1 γ i 1) = 2γ i, ²to dalje povla i da je ln(1 γ i ) 2γ i. Najzad, γ i < povla i γ i <, ²to je u kontradikciji sa polaznom pretpostavkom. Sada emo formulisati nekoliko lema koje e nam biti potrebne za ispitivanje konvergencije gradijentne metode, posebno metode najbrºeg spusta. Dokaze lema prepu²tamo itaocu. 4
Lema 3.6 Rejlegova nejednakost (Rayleigh's inequality) Za svaku simetri nu, pozitivno denitnu matricu Q i proizvoljan vektor X R n vaºi λ min (Q) X 2 X T QX λ max (Q) X 2, gde je λ min (Q) najmanja, a λ max (Q) najve a sopstvena vrednost matrice Q. Lema 3.7 Neka je Q proizvoljna simetri na, pozitivno denitna matricu Q i λ min (Q) najmanja, a λ max (Q) najve a sopstvena vrednost matrice Q. Tada vaºi: a) λ min (Q 1 ) = 1 λ max(q), b) λ max (Q 1 ) = 1 λ min(q), c) λ min (Q 1 ) X 2 X T Q 1 X λ max (Q 1 ) X 2. Lema 3.8 Za svaku realnu, simetri nu, pozitivno denitnu matricu Q i proizvoljan vektor X R n vaºi λ min (Q) λ max (Q) (X T X) 2 (X T QX)(X T Q 1 X) λ max(q) λ min (Q), gde je λ min (Q) najmanja, a λ max (Q) najve a sopstvena vrednost matrice Q. Lema 3.9 Za svaku pozitivno denitnu matricu Q i proizvoljan vektor X R n vaºi gde je cond(q) uslovljenost matrice Q. (X T X) 2 (X T QX)(X T Q 1 X) 1 [cond(q) 1 cond(q) + 1 ]2 Sada moºemo formulisati teoremu o konvergenciji metode najbrºeg spusta. Teorema 3.2 Neka je {X (k) }, k = 0, 1, 2,... iterativni niz konstruisan metodom najbrºeg spusta. Tada vaºi za proizvoljni izbor po etne ta ke X (0). X (k) X, k, Dokaz. Ukoliko je f k = f(x (k) ) = 0 za neko k, tada je X (k) = X i tvrženje vaºi. Zato pretpostavimo da je f k 0 za svako k. Podsetimo se da se kod metode najbrºeg spusta korak α k odrežuje kao α k = f k T f k fk T Qf. k Zamenjuju i izraz za α k u formuli za γ k dobijamo γ k = (f T k f k) 2 (f T k Qf k)(f T k Q 1 f k ). Primetimo da je u tom slu aju γ k > 0 za svako k. Dalje, prema Lemi 3.8 imamo da je 5
Prema tome, γ k λ min(q) λ max (Q) > 0. γ k =, te imaju i u vidu tvrženje Teoreme 3.1, zaklju ujemo da X (k) k=0 X kad k za proizvoljno X (0). Naredna teorema se odnosi na konvergenciju gradijentne metode sa konstantnom veli inom koraka spusta. Teorema 3.3 Neka je {X (k) }, k = 0, 1, 2,... iterativni niz konstruisan metodom konstantnog spusta. Tada X (k) X kad k za proizvoljno X (0), ako i samo ako za konstantni korak α vaºi 0 < α < 2 λ max (Q). Dokaz. : Prema Lemi 3.6 (Rejlegova nejednakost), uzimaju i X = f k imamo a zatim, prema Lemi 3.7 vaºi λ min (Q)f T k f k f T k Qf k λ max (Q)f T k f k, f T k Q 1 f k f T k f k λ min (Q). Zamenjuju i dobijene nejednakosti u formulu za γ k dobijamo te je γ k > 0 za svako k i k za proizvoljno X (0). γ k αλ min (Q) 2 2 ( α) > 0, λ max (Q) γ k =. Prema Teoremi 3.1, zaklju ujemo da X (k) X kad k=0 2 : Pretpostavimo suprotno, tj. da je α 0 ili α λ max(q). Izaberimo po etnu ta ku X(0) tako da je X (0) X sopstveni vektor matrice Q koji odgovara sopstvenoj vrednosti λ max (Q). Kako je dobijamo X (k+1) = X (k) α(qx (k) b) = X (k) α(qx (k) QX ), X (k+1) X = X (k) X α(qx (k) QX ) = (I n αq)(x (k) X ) = (I n αq)(i n αq)(x (k 1) X ) =... = (I n αq) k+1 (X (0) X ). Kako je X (0) X sopstveni vektor matrice Q koji odgovara sopstvenoj vrednosti λ max (Q), vaºi (I n αq) k+1 (X (0) X ) = (1 αλ max (Q)) k+1 (X (0) X ), 6
te je kona no X (k+1) X = (1 αλ max (Q)) k+1 (X (0) X ). Normiraju i poslednju jednakost dobijamo X (k+1) X = 1 αλ max (Q) k+1 X (0) X. 2 Kako je po pretpostavci α 0 ili α λ max(q), tada iz poslednje jednakosti sledi da 1 αλ max (Q) 1, pa niz X (k+1) X ne moºe konvergirati ka 0. Dakle, pod polaznim pretpostavkama, niz {X (k) } ne konvergira ka X. 3.1.2 Brzina konvergencije gradijentne metode U ovoj sekciji razmatramo brzinu konvergencije gradijentne metode, sa posebnim osvrtom na metodu najbrºeg spusta. Teorema 3.4 Neka je metod najbrºeg spusta primenjen na minimizaciju kvadratne funkcije G(X) = 1 2 (X X ) T Q(X X ), gde je Q simetri na pozitivno denitna matrica reda n, b R n dati vektor, a X re²enje problema QX = b. Za niz {X (k) } dobijen metodom najbrºeg spusta vaºi G(X (k+1) ) λ max(q) λ min (Q) G(X (k) ). λ max (Q) Dokaz. Pri dokazivanju Teoreme 3.1 pokazali smo da vaºi Prema tome, γ k λ min(q) λ max (Q). G(X (k) ) G(X (k+1) ) G(X (k) ) odakle direktno sledi tvrženje teoreme. = γ k λ min(q) λ max (Q), Podsetimo se da se uslovljenost matrice Q deni²e kao cond(q) = Q Q 1 = λmax(q) λ min(q). Ako ozna imo sa c = cond(q), tada iz Teoreme 3.4 sledi slede a posledica. Posledica 3.1 Ako vaºe pretpostavke Teoreme 3.4, tada je G(X (k+1) ) (1 1 c )G(X(k) ). Veli ina r = 1 1 c ima klju nu ulogu u konvergenciji niza {G(X(k) ) ka 0, odnosno konvergenciji niza {X (k) } ka X i nazivamo ga radijus konvergencije. Za manje vrednosti r vrednost G(X (k+1) ) biti manja u odnosu na G(X (k) ), i prema tome, niz {G(X (k) ) e brºe konvergirati ka 0, a samim tim e i niz {X (k) } brºe konvergirati ka X. Dalje, primetimo da radijus konvergencije r = 1 1 c opada kako c opada. Ukoliko je c = 1, 7
odnosno λ max (Q) = λ min (Q), tada algoritam u jednom koraku konvergira minimumu. Sa porastom vrednosti c, raste brzina konvergencije niza {G(X (k) )}, odnosno niza {X (k) }. Navodimo jo² jednu posledicu Teoreme 3.4. Posledica 3.2 Neka je niz {X (k) } dobijen primenom metode najbrºeg spusta na minimizaciju kvadratne funkcije f(x) = 1 2 XT QX b T X. Za proizvoljni izbor po etne ta ke X (0) iterativni niz {X (k) } konvergira ka minimumu X funkcije f i vaºi f(x (k+1) ) f(x ) [ cond(q) 1 cond(q) + 1 ]2 (f(x (k) ) f(x )), ²to zna i da metod konvergira linearno. Dokaz. Posledica 3.2 direktno sledi iz dela pod c) Leme 3.3 i Leme 3.8. Kako je [ cond(q) 1 cond(q)+1 ]2 0 konstantno i strogo manje od jedan, tada metod konvergira po ev²i od bilo koje ta ke X (0). Denicija 3.1 Neka niz {X (k) } konvergira ka X kad k, odnosno neka je lim k X (k) X = 0. Kaºemo da je red konvergencije niza {X (k) } jednak p, gde je p R ukoliko Ako za svako p R, p > 0 vaºi tada kaºemo da je red konvergencije. X (k+1) X 0 < lim k X (k) X <. p X (k+1) X lim k X (k) X = 0, p Primetimo da je red konvergencije mera brzine konvergencije, tj. ve i red konvergencije povla i i ve u brzinu konvergencije i obratno. Zbog toga se u literaturi ova dva pojma esto poistove uju (videti [1]). Ako je p = 1 kaºemo da je konvergencija linearna, odnosno da je u pitanju konvergencija prvog reda. Ako je p = 2 kaºemo da je konvergencija kvadratna, odnosno da je u pitanju konvergencija drugog reda. Red konvergencije se moºe denisati koriste i pojam "velikog O". Kaºemo da je A = O(h), tj. "A je veliko O od h", ako postoji konstanta a tavkva da je A a h za dovoljno malo h. Kaºemo da je red konvergencije je najmanje p ako X (k+1) X = O( X (k) X p ), o emu govori naredna teorema. Recimo, red konvergencije je najmanje 2, ukoliko je X (k+1) X = O( X (k) X 2 ). Teorema 3.5. Neka je {X (k) } niz koji konvergira ka X. Ako je tada je red konvergencije najmanje p. X (k+1) X = O( X (k) X p ). 8
Dokaz. Neka je s red konvergencije niza {X (k) } i neka je X (k+1) X = O( X (k) X p ). Tada postoji konstanta a, takva da za dovoljno veliko k vaºi Dalje je X (k+1) X X (k) X p a. X (k+1) X X (k) X s = X(k+1) X X (k) X p X(k) X p s a X (k) X p s. Pu²taju i da u gornjoj nejednakosti k dobijamo X (k+1) X lim k X (k) X a lim s k X(k) X p s > 0. Kako je po pretpostavci s red konvergencije, imamo X (k+1) X lim k X (k) X > 0. s Imaju i u vidu poslednje dve nejednakosti dobijamo a lim k X(k) X p s > 0. S obzirom da je lim k X (k) X = 0, zaklju ujemo da vaºi s p, te je red kovergencije najmanje p. Pokazuje se da je red konvergencije proizvoljnog konvergentnog niza ne moºe biti manji od jedan. Teorema 3.6. Neka je {X (k) } niz konstruisan metodom najbrºeg spusta pri minimizaciji proizvoljne funkcije f : R n R. Tada je red konvergenije u najgorem slu aju 1, odnosno, postoji funkcija f i ta ka X (0) tako da je red konvergencije niza {X (k) } jednak 1. Dokaz. Neka je f : R n R kvadratna funkcija sa matricom (Hesijanom) Q i {X (k) } niz konstruisan metodom najbrºeg spusta pri minimizaciji kvadratne funkcije f. Neka su λ max (Q) i λ min (Q) najve a, odnosno najmanja sopstvena vrednost matrice Q. Pretpostavimo da je λ max (Q) > λ min (Q). Da bi pokazali da je red konvergencije niza {X (k) } jednak 1, dovoljno je pokazati da postoji X (0) takvo da je X (k+1) X c X (k) X za neko c > 0. Prema Lemi 3.6 (Rejlegova nejednakost) vaºi Na sli an na in pokazujemo da je G(X (k+1) ) = 1 2 (X(k+1) X ) T Q(X (k+1) X ) λ max(q) X (k+1) X 2. 2 G(X (k) ) λ min(q) X (k) X 2. 2 9
Kombinuju i dobijene nejednakosti sa Lemom 3.3 zaklju ujemo da je X (k+1) X (1 γ k ) λ min(q) λ max (Q) X(k) X. Dakle, dovoljno je izabrati X (0) tako da je γ k d za neko d < 1. Podsetimo se da za algoritam najbrºeg spusta, pod pretpostavkom da je f k 0 za svako k, vrednosti γ k zavisi od f k na slede i na in γ k = (f T k f k) 2 (f T k Q 1 f k )(f T k Qf k). Razmotrimo najpre slu aj n = 2. Neka je X (0) X izabrano tako da (X (0) X ) 0 nije sopstveni vektor matrice Q. Tada f 0 = Q(X (0) X ) 0 takože nije sopstveni vektor matrice Q. Prema Lemi 3.1, vektor f k = X(k+1) X (k) ) α k takože nije sopstveni vektor matrice Q za bilo koje k, jer su sopstveni vektori koji odgovaraju sopstvenim vrednostima λ max (Q) i λ min (Q) uzajamno ortogonalni. Pri tome, pravac f k je isti kao jedan od ta dva uzajamno ortogonalna pravca. Primetimo da, imaju i u vidu Leme 3.5-3.6 vaºi slede e: ako f k nije sopstveni vektor matrice Q, tada γ k < 1. Odavde sledi da je prema Lemi 3.3, za svako k vrednost γ k jedan od dva broja koja su strogo manji od 1. Dakle, u slu aju n = 2 tvrženje teoreme vaºi. Razmotrimo sada op²ti slu aju n 2. Neka su v 1 i v 2 uzajamno ortogonalni sopstveni vektori koji odgovaraju sopstvenim vektorima λ max (Q) i λ min (Q) respektivno. Izaberimo X (0) tako da vektor (X (0) X ) 0 leºi u prostoru koji razapinju vektori v 1 i v 2, ali je (X (0) X ) v 1, v 2. Primetimo da onda i vektor f 0 = Q(X (0) X ) takože leºi u prostoru koji razapinju v 1 i v 2 i f 0 v 1, v 2. Kako je X (k+1) = X (k) α k f k imamo da je f k+1 = (I α k Q)f k, i svaki sopstveni vektor matrice Q je takože sopstveni vektor matrice I α k Q. Dakle, za svako k, vektor f k leºi u prostoru koji razapinju v 1 i v 2. Dokaz se dalje svodi na slu aj n = 2 koji je prethodno dokazan. Primer 3.4 Posmatrajmo problem minimizacije funkcije iz Primera 3.3. uslovljenost matrice Q u ovom primeru je cond(q) = 25. Kako je f(x (k+1) ) f(x ) [ cond(q) 1 cond(q) + 1 ]2 (f(x (k) ) f(x )), i odnos [ cond(q) 1 cond(q)+1 ]2 = 0.8521 konstantno i strogo manje od jedan, tada metod konvergira po e²i od bilo koje ta ke X (0). U Tabeli 3.1 prikazane su vrednosti f(x (k+1) ) f(x ) f(x (k) ) f(x ) = G(X(k+1) ) G(X (k) ), ija je gornja granica upravo 0.8521. U Tabeli 3.2 prikazane su vrednosti granice brzine konvergencije u odnosu na razli ite vrednosti uslovljenosti matrice Q. Primetimo da je i za srednje vrednosti cond(q) granica bliska jedinici. Jedino u slu ajevima kada je cond(q) otprilike manje od 50, metod konvergira dovoljno 10
Tablica 1: Brzina konvergencije f(x (k) ) G(X (k+1) ) G(X (k) ) granica 0-0.8521-0.1452 0.7659 0.8521-0.2365 0.8077 0.8521-0.3038 0.8246 0.8521-0.3560 0.8348 0.8521-0.3988 0.8379 0.8521-0.4343 0.8397 0.8521-0.4640 0.8401 0.8521-0.4889 0.8404 0.8521-0.5098 0.8405 0.8521-0.5274 0.8405 0.8521 brzo da bi bio od prakti ng zna aja. Ve za vrednost cond(q) = 100, konvergencija je znatno sporija. U ovom slu aju, pri primeni metode najbrºeg spusta zagarantovano je pobolj²anje od oko 4% pri svakoj iteraciji. Tablica 2: Zavisnost brzine konvergencije od cond(q) cond(q) granica 1 0 10 0.669421 100 0.960788 1000 0.996008 10000 0.999600 100000 0.999960 1000000 0.999996 Na Slici 3.4 ilustrovan je metod najbrºeg spusta primenjen na minimizaciju kvadratne funkcije sa cond(q) = 1.15 1. U ovom slu aju stopa brzina konvergencije je bliska nuli, te metod brzo konvergira, ²to je u skladu sa teorijskim rezultatima. Slika 1: Konvergencija za cond(q) = 1.15 11
Mežutim, u slu ajevima kada je cond(q) uzima ve e vrednosti, gornja granican na stopu konvergencije zna ajno raste te metod sporo konvergira (videti Tabelu 3.2). Slu aj za cond(q) = 45 je ilustrovan na Slici 3.5. Slika 2: Konvergencija za cond(q) = 45 Teorema o konvergenciji koja je data u ovom poglavlju odnosi se samo na slu aj kvadratne funkcije. Za proizvoljnu nelinearnu funkciju mogu e je pokazati da metod najbrºeg spusta takože konvergira linearno, sa brzinom konvergencije koja je ograni ena sa [ cond(q) 1 cond(q) + 1 ]2, gde je Q = f(x ) Hesijan posmatrane funkcije f. Dakle, metod najbrºeg spusta se pona²a sli no kao u su aju kvadratne funkcije. Primer 3.5 Posmatramo problem minimizacije funkcije f : R R zadate sa f(x) = X 2 X3 3. Primenimo gradijentni metod sa konstantnim korakom α = 1 2. Iterativni niz je denisan sa X (k+1) = X (k) αf (X (k) ) = 1 2 (X(k) ) 2. Uzimaju i za po etnu ta ku X (0) = 1, moºe se izvesti da je X (k) = 1 2 2 k 1. O igledno je da algoritam konvergira ka ta'v cki X = 0, kad k, koja je lokalni minimum funkcije f. Kako je X (k+1) X (k) 2 = 1 2, tada je red konvergencije 2. Zadaci za veºbu Zadatak 3.11 Posmatrajmo problem minimizacije funkcije f : R 2 R zadate sa metodom najbrºeg spusta. f(x 1, x 2 ) = x 2 1 + 2x 2 2 12
a) Ako je po etna ta ka X (0) = (2, 1), pokazati da niz ta aka generisan metodom najbrºeg spusta oblika X (k) = ( 1 ( ) 2 3 )k ( 1) k. b) Pokazati da je f(x (k+1) ) = f(x(k) ) 9. c) ta se moºe zaklju iti o brzini konvergencije metode? Uporediti stopu konvergencije sa stopom konvergencije pro minimizaciji kvadratne funkcije metodom najbrºeg spusta. Zadatak 3.12 Posmatrajmo problem minimizacije funkcije f : R 2 R zadate sa metodom najbrºeg spusta. f(x 1, x 2 ) = 4x 2 1 + x 2 2 a) Ako je po etna ta ka X (0) = (1, 4), pokazati da niz ta aka generisan metodom najbrºeg spusta oblika ( ) ( 1) X (k) = (0.6) k k. 4 b) Odrediti ta ku minimuma X funkcije f. c) Odrediti stopu konvergencije niza {f(x (k) ) f(x )}. Zadatak 3.13 Data je funkcija f : R 2 R denisana sa f(x 1, x 2 ) = 3(x 2 1 + x 2 2) + 4x 1 x 2 + 5x 1 + 6x 2 + 7. Neka je niz {X (k) } dobijen metodom konsantnog spusta na minimizaciju funkcije f: X (k+1) = X (k) α f(x (k) ). Odrediti najve u vrednost α za koju je algoritam globalno konvergentan. Zadatak 3.14 Data je funkcija f : R 2 R denisana sa gde su a i b realni parametri. f(x 1, x 2 ) = 3 2 (x2 1 + x 2 2) + (1 + a)x 1 x 2 x 1 x 2 + b, a) Napisati funkciju f u obliku kvadratne forme. b) Odrediti najve e vrednosti parametara a i b za koje postoji jednistveni globalni minium funkcije f za proizvoljni izbor po etne ta ke X (0). c) Na i globalni minimum (u funkciji od a i b). Zadatak 3.15 Neka funkcija f : R 2 R denisana u Zadatku 3.14. Posmatrajmo niz {X (k) } dobijen gradijentnom metodom sa konstantim korakom α = 2 5 : X (k+1) = X (k) 2 5 f(x(k) ). 13
Odrediti najve e vrednosti parametara a i b za koji algoritam konvergira ka jednistvenom globalnom miniumu funkcije f za proizvoljni izbor po etne ta ke X (0). Zadatak 3.16 Posmatramo problem minimizacije funkcije f : R R zadate sa f(x) = 1 2 (X c)2, gde je c R realni parametar. Primenimo gradijentni metod koji konstrui²e iterativni niz denisan sa X (k+1) = X (k) α k f (X (k) ), gde je f izvod funkcije f, a α k korak koji zadovoljava uslov 0 < α k < 1. a) Napisati formulu koja povezuje f(x (k+1) ), f(x (k) ) i α k. b) Koriste i deo pod a), dokazati da je algoritam globalno konvergentan za proizvoljni izbor po etne ta ke X (0) ako i samo ako vaºi α k =. Uputstvo: Koristiti injenicu da za proizvoljan niz ta aka {α k } {0, 1} vaºi: k=0 (1 α k ) = 0 k=0 α k =. k=0 Zadatak 3.17 Razmatramo problem minimizacije proizvoljne funkcije f : R n R. Primenimo proizvoljni gradijentni metod koji generi²e iterativni niz {X (k) } koji konvergira lokalnom minimumu X funkcije f, tj. lim k X (k) = X. Pretpostavimo da je f(x ) pozitivno denitna matrica. a) Dokazati da niz {f(x (k) ) f(x )} konvergira linearno ako i samo ako niz X (k) X konvergira linearno. b) Dokazati da nizovi pod a) imaju istu stopu konvergencije. Na i vezu izmežu stopa konvergencije ova dva niza. Literatura [1] Nash, S.G., Sofer, A. Linear and Nonlinear Programming. New York: McGraw-Hill, 1996. 14