Mini minimaliz acia an BUˇ Koˇ sice 2011

Σχετικά έγγραφα
Matematika Funkcia viac premenných, Parciálne derivácie

1. Limita, spojitost a diferenciálny počet funkcie jednej premennej

x x x2 n

7. FUNKCIE POJEM FUNKCIE

Matematika 2. časť: Funkcia viac premenných Letný semester 2013/2014

Matematika prednáška 4 Postupnosti a rady 4.5 Funkcionálne rady - mocninové rady - Taylorov rad, MacLaurinov rad

Goniometrické rovnice a nerovnice. Základné goniometrické rovnice

FUNKCIE N REÁLNYCH PREMENNÝCH

Motivácia Denícia determinantu Výpo et determinantov Determinant sú inu matíc Vyuºitie determinantov. Determinanty. 14. decembra 2010.

Vektorový priestor V : Množina prvkov (vektory), na ktorej je definované ich sčítanie a ich

Cvičenie č. 4,5 Limita funkcie

MIDTERM (A) riešenia a bodovanie

VLASTNÉ ČÍSLA A JORDANOV KANONICKÝ TVAR. Michal Zajac. 3 T b 1 = T b 2 = = = 2b

6 Limita funkcie. 6.1 Myšlienka limity, interval bez bodu

Lineárna algebra I - pole skalárov, lineárny priestor, lineárna závislosť, dimenzia, podpriestor, suma podpriestorov, izomorfizmus

Obvod a obsah štvoruholníka

Úvod do lineárnej algebry. Monika Molnárová Prednášky

Start. Vstup r. O = 2*π*r S = π*r*r. Vystup O, S. Stop. Start. Vstup P, C V = P*C*1,19. Vystup V. Stop

Motivácia pojmu derivácia

7 Derivácia funkcie. 7.1 Motivácia k derivácii

Matematika 2. časť: Analytická geometria

NUMERICKÁ MATEMATIKA. Moderné vzdelávanie pre vedomostnú spoločnosť/ Projekt je spolufinancovaný zo zdrojov EÚ. Fakulta elektrotechniky a informatiky

Ekvačná a kvantifikačná logika

Komplexné čísla, Diskrétna Fourierova transformácia 1

24. Základné spôsoby zobrazovania priestoru do roviny

Definícia parciálna derivácia funkcie podľa premennej x. Definícia parciálna derivácia funkcie podľa premennej y. Ak existuje limita.

Funkcie - základné pojmy

Nelineárne optimalizačné modely a metódy

Moderné vzdelávanie pre vedomostnú spoločnosť Projekt je spolufinancovaný zo zdrojov EÚ M A T E M A T I K A

ARMA modely čast 2: moving average modely (MA)

Príklady na precvičovanie Fourierove rady

1 Úvod Predhovor Sylaby a literatúra Základné označenia... 3

Obsah. 1.1 Reálne čísla a ich základné vlastnosti Komplexné čísla... 8

M6: Model Hydraulický systém dvoch zásobníkov kvapaliny s interakciou

Technická univerzita v Košiciach Fakulta elektrotechniky a informatiky MATEMATIKA II. Zbierka riešených a neriešených úloh

Úvod 2 Predhovor... 2 Sylaby a literatúra... 2 Označenia... 2

Numerické metódy matematiky I

Metódy vol nej optimalizácie

Reálna funkcia reálnej premennej

Tomáš Madaras Prvočísla

Prednáška Fourierove rady. Matematická analýza pre fyzikov IV. Jozef Kise lák

PREHĽAD ZÁKLADNÝCH VZORCOV A VZŤAHOV ZO STREDOŠKOLSKEJ MATEMATIKY. Pomôcka pre prípravný kurz

2. prednáška. Teória množín I. množina operácie nad množinami množinová algebra mohutnosť a enumerácia karteziánsky súčin

ARMA modely čast 2: moving average modely (MA)

G. Monoszová, Analytická geometria 2 - Kapitola III

BANACHOVE A HILBERTOVE PRIESTORY

Metódy vol nej optimalizácie

Obyčajné diferenciálne rovnice

MATEMATIKA I. Doc. RNDr. Michal Šabo, CSc

4. Výrokové funkcie (formy), ich definičný obor a obor pravdivosti

Goniometrické substitúcie

Matematika 2. Lineárna algebra. (ver )

MATEMATIKA I ZBIERKA ÚLOH

Technická univerzita v Košiciach. Zbierka riešených a neriešených úloh. z matematiky. pre uchádzačov o štúdium na TU v Košiciach

1. písomná práca z matematiky Skupina A

viacrozmerných a nekonečnorozmerných priestoroch. A ako nasvedčuje jej názov, pôjde o rovnice nelineárne.

1 Polynómy a racionálne funkcie Základy Polynómy Cvičenia Racionálne funkcie... 17

23. Zhodné zobrazenia

(IP3) (f, g) = (g, f) (symetria), (IP4) (f, f) > 0 pre f 0 (kladná definitnosť). Z podmienok (IP1) (IP4) sa ľahko dokážu rovnosti:

Integrovanie racionálnych funkcií

Súčtové vzorce. cos (α + β) = cos α.cos β sin α.sin β cos (α β) = cos α.cos β + sin α.sin β. tg (α β) = cotg (α β) =.

TECHNICKÁ UNIVERZITA V KOŠICIACH STROJNÍCKA FAKULTA MATEMATIKA 1. Funkcia jednej premennej a jej diferenciálny počet

Ján Buša Štefan Schrötter

Goniometrické funkcie

Jednotkový koreň (unit root), diferencovanie časového radu, unit root testy

Cieľom cvičenia je zvládnuť riešenie diferenciálnych rovníc pomocou Laplaceovej transformácie,

Spojité rozdelenia pravdepodobnosti. Pomôcka k predmetu PaŠ. RNDr. Aleš Kozubík, PhD. 26. marca Domovská stránka. Titulná strana.

Spojitosť a limity trochu inak

Deliteľnosť a znaky deliteľnosti

Priamkové plochy. Ak každým bodom plochy Φ prechádza aspoň jedna priamka, ktorá (celá) na nej leží potom plocha Φ je priamková. Santiago Calatrava

Súradnicová sústava (karteziánska)

Lineárne programovanie

4 Reálna funkcia reálnej premennej a jej vlastnosti

Úvod do lineárnej algebry

Funkcie komplexnej premennej

Analytická geometria

Riešenie sústavy lineárnych rovníc. Priame metódy.

TREDNÁ ODBORNÁ ŠKOLA STRÁŽSKE PRACOVNÝ ZOŠIT. k predmetu Matematika pre

Prechod z 2D do 3D. Martin Florek 3. marca 2009

MATEMATICKÁ ANALÝZA 1

7. Dokážte, že z každej nekonečnej množiny môžeme vydeliť spočítateľnú podmnožinu.

Vzorové príklady s riešeniami k lineárnej algebre a geometrie pre aplikovaných informatikov k písomke

Metodicko pedagogické centrum. Národný projekt VZDELÁVANÍM PEDAGOGICKÝCH ZAMESTNANCOV K INKLÚZII MARGINALIZOVANÝCH RÓMSKYCH KOMUNÍT

1. Trojuholník - definícia

stereometria - študuje geometrické útvary v priestore.

Derivácia funkcie. Pravidlá derivovania výrazov obsahujúcich operácie. Derivácie elementárnych funkcií

Numerické metódy Zbierka úloh

Polynómy. Hornerova schéma. Algebrické rovnice

DIFERENCÁLNE ROVNICE Matematická analýza (MAN 2c)

Prirodzené čísla. Kardinálne čísla

Planárne a rovinné grafy

16. Základne rovinné útvary kružnica a kruh

PageRank algoritmus. Univerzita Komenského v Bratislave Fakulta Matematiky, Fyziky a Informatiky

Numerické metódy, pravdepodobnosť a matematická štatistika. Ján BUŠA Viktor PIRČ Štefan SCHRÖTTER

Numerické metódy, pravdepodobnosť a matematická štatistika

ALGEBRA. Číselné množiny a operácie s nimi. Úprava algebrických výrazov

Základné vzťahy medzi hodnotami goniometrických funkcií

Numerické metódy Učebný text pre bakalárske štúdium

Matematická analýza pre fyzikov IV.

1.4 Rovnice, nerovnice a ich sústavy

Transcript:

Mini minimalizácia Ján BUŠA Košice 2011

RECENZOVALI: Prof. RNDr. Noname, CSc. Doc. RNDr. Emanname, PhD. Prvé vydanie Za odbornú stránku učebného textu zodpovedá autor. Rukopis neprešiel redakčnou ani jazykovou úpravou. Spracované programom pdfl A TEX. ISBN 80-8073-XXX-X Copyright c Ján Buša, 2011

Predhovor Ciel om tejto učebnice je poskytnút základný študijný materiál študentom predmetu Optimalizačné metódy, ktorý sa (znova) začína vyučovat v rámci inžinierskeho štúdia na Fakulte elektrotechniky a informatiky TU v Košiciach. Rozsah tohto predmetu tvorí prirodzené ohraničenie jeho obsahu, a preto je nutné chápat ho ako úvod do problematiky optimalizácie. Učebnice, ktoré by odpovedali rozsahu aj obsahu predmetu, napríklad, (Brunovská, 1988; Bunday, 1984), sú, žial, nedostupné. Preto som sa rozhodol napísat tieto skriptá napriek tomu, že nie som odborník v oblasti optimalizačných metód, hoci som o nich dost prečítal. Ak má niekto záujem o hlbšie preniknutie do tajov optimalizácie, bude musiet prečítat d alšie knihy. Na začiatok by som odporučil napríklad knihy Praktická optimalizácia autorov (Gill, Murray a Wright, 1981) alebo Numerická optimalizácia (Nocedal a Wright, 1999). V slovenčine zasa (Hudzovič, 2001) napísal učebnicu Optimalizácia. Vývoj optimalizačných metód samozrejme súvisí aj s rozvojom počítačovej techniky a softvéru. Na stránke http://www.mathworks.com/help/toolbox/optim/ sa dá stiahnut príručka Optimization Toolbox TM User s Guide firmy The MathWorks, Inc., ktorá vyvíja systém MATLAB. Na riešenie mnohých úloh však postačia aj funkcie FOSS programu QtOctave, ktorý sa dá stiahnut na stránke http://qtoctave.wordpress.com/ download/. Do učebnice som nezaradil kapitoly, ktoré sa vyučujú v rámci iných predmetov, zaoberajúce sa, napríklad, problematikou lineárneho, celočíselného alebo kvadratického programovania. Úvod poskytuje základné informácie o optimalizačných úlohách, ich formulácii a klasifikácii. Druhá kapitola zhŕňa základné poznatky, ktoré sú potrebné na pochopenie terminológie teórie optimalizácie, ako aj na pochopenie jej základov. Tretia kapitola je venovaná jednorozmernej minimalizácii. Štvrtá kapitola, takmer rovnako rozsiahla ako druhá kapitola, opisuje numerické metódy riešenia úloh bez ohraničení. Záverečná piata kapitola obsahuje stručný úvod do metód riešenia úloh na viazané minimum. V Košiciach 30. 6. 2011 Ján Buša

Obsah Predhovor 3 1 Úvod do optimalizácie 6 1.1 Formulácia optimalizačnej úlohy....................... 6 1.1.1 Optimalizácia bez ohraničení..................... 7 1.1.2 Optimalizácia s ohraničeniami.................... 7 1.2 Testovacie funkcie............................... 8 2 Matematické základy optimalizačných metód 11 2.1 Matice..................................... 11 2.1.1 Operácie s maticami......................... 11 2.1.2 Vlastné čísla a vlastné vektory matíc................ 12 2.1.3 Lineárny funkcionál.......................... 14 2.1.4 Kvadratická forma.......................... 14 2.2 Funckie n premenných............................ 15 2.2.1 Metrické priestory.......................... 15 2.2.2 Definícia lokálnych extrémov..................... 16 2.2.3 Konvexné množiny a funkcie..................... 17 2.3 Diferenciálny počet funkcií jednej premennej................ 22 2.3.1 Diferenciály funkcie jednej premennej................ 22 2.3.2 Taylorova veta pre funkciu jednej premennej............ 23 2.3.3 Nutná podmienka lokálneho extrému................ 23 2.3.4 Postačujúca podmienka [ne]existencie lokálneho extrému..... 23 2.4 Diferenciálny počet funkcií n premenných.................. 24 2.4.1 Diferenciál m-tého rádu....................... 24 2.4.2 Taylorova veta pre funkciu n premenných.............. 25 2.4.3 Prvý diferenciál, gradient a derivácia funkcie v danom smere... 26 2.4.4 Geometrický význam gradientu................... 27 2.4.5 Druhý diferenciál, Hesseho matica.................. 28 2.4.6 Diferencovatel né konvexné funkcie.................. 28 2.5 Nutné a postačujúce podmienky extrémov rôznych optimalizačných úloh 29 2.5.1 Viacrozmerná úloha bez ohraničení................. 30 2.5.2 Optimalizácia pri ohraničeniach typu lineárnych rovností..... 31 2.5.3 Optimalizácia pri ohraničeniach typu lineárnych nerovností.... 33 2.5.4 Optimalizácia pri ohraničeniach typu nelineárnych rovností.... 36 2.5.5 Optimalizácia pri ohraničeniach typu nelineárnych nerovností... 38 2.6 Príklad použitia metódy Lagrangeovych multiplikátorov na určenie viazaných extrémov............................... 39 2.6.1 Transformácia na úlohu bez ohraničení zbavenie sa premenných pri zachovaní väzby.......................... 39 2.6.2 Použitie metódy Lagrangeovych multiplikátorov a druhého diferenciálu na väzbe........................... 41 2.6.3 Použitie postačujúcich podmienok viazaného extrému....... 44 4

Obsah 5 3 Jednorozmerná optimalizácia 47 3.1 Priame metódy minimalizácie unimodálnej funkcie............. 47 3.1.1 Metóda dichotómie.......................... 48 3.1.2 Využitie rovnomerne rozdelených bodov na intervale [a, b]..... 49 3.1.3 Metóda využívajúca Fibonacciho čísla................ 50 3.1.4 Metóda zlatého rezu......................... 52 3.1.5 Metóda kvadratickej interpolácie.................. 53 3.1.6 Metóda kubickej interpolácie..................... 55 3.2 Metódy minimalizácie unimodálnej funkcie využívajúce derivácie funkcie 56 3.2.1 Metóda polovičného delenia intervalu................ 56 3.2.2 Newtonova-Raphsonova metóda................... 57 4 Numerické riešenie minimalizačných úloh bez ohraničení 59 4.1 Metódy minimalizácie bez ohraničení využívajúce prvé a druhé derivácie 59 4.1.1 Newtonova-Raphsonova metóda................... 59 4.2 Metódy minimalizácie bez ohraničení využívajúce prvé derivácie..... 60 4.2.1 Gradientná metóda.......................... 60 4.2.2 Metóda združených smerov pre kvadratickú funkciu........ 61 4.2.3 Metóda združených gradientov pre kvadratickú funkciu...... 65 4.2.4 Metóda združených gradientov pre všeobecné funkcie....... 67 4.2.5 Kvázinewtonovské metódy...................... 69 4.3 Priame metódy minimalizácie bez ohraničení................ 73 4.3.1 Hookeho-Jeevesova metóda...................... 73 4.3.2 Nelderova-Meadova metóda..................... 77 4.4 Porovnanie efektívnosti rôznych metód riešenia optimalizačných úloh bez ohraničení................................... 87 5 Numerické riešenie minimalizačných úloh s ohraničeniami 90 5.1 Riešenie úloh s ohraničeniami v tvare nerovníc............... 90 5.1.1 Metóda možných smerov....................... 90 5.1.2 Použitie bariérových funkcií..................... 92 5.1.3 Penalizačná metóda.......................... 95 5.1.4 Komplexová metóda......................... 97 5.2 Riešenie úloh s ohraničeniami v tvare rovníc................ 98 5.2.1 Metóda Lagrangeovych multiplikátorov............... 98 5.2.2 Metóda redukovaného gradientu................... 99 5.2.3 Newtonova metóda využívajúcu redukovanú Hesseho maticu... 101 5.2.4 Penalizačná metóda.......................... 102 Použitá literatúra 103 Register 105

1 Úvod do optimalizácie Často si ani neuvedomujeme, že dennodenne riešime najrozličnejšie optimalizačné úlohy. Napríklad ráno si môžeme klást otázku, kedy by sme mali vstávat, aby sme si zároveň čo najdlhšie pospali a súčasne, aby sme nezmeškali do práce. Aký lístok na hromadnú dopravu je potrebné si zakúpit, aby sme za rok zaplatili čo najmenej a ak sme sa rozhodli chodievat radšej pešo, ktorá cesta je najkratšia, prípadne najkrajšia? Rôzne veličiny sa snažíme maximalizovat (zisk, cenu z hl adiska predávajúceho, kvalitu, vol ný čas,... ) alebo minimalizovat (náklady, spotrebu, cenu z hl adiska kupujúceho, čas potrebný na vykonávanie nutných činností, čas čakania, hmotnost,... ) pri zachovaní istých podmienok. 1.1 Formulácia optimalizačnej úlohy Pri optimálnom rozhodovaní (riadení) treba poznat (Hudzovič, 2001): a) matematický model objektu riadenia; b) účelovú funkciu; c) ohraničujúce podmienky. Úlohu minimalizácie je možné zapísat v tvare f(x) min, x X. (1.1) Pritom f sa nazýva účelová funkcia, X je množina prípustných riešení a každý jej prvok x sa nazýva prípustné riešenie. Ďalej sa budeme zaoberat tzv. konečnerozmernými úlohami, pre ktoré je X R n. Definícia 1.1. Bod x X sa nazýva 1. bodom globálneho minima f na X alebo tiež globálne riešenie úlohy (1.1) ak f(x ) f(x) pre všetky x X; (1.2) 2. bodom lokálneho minima f na X alebo tiež lokálne riešenie úlohy (1.1) ak existuje číslo ε > 0 také, že f(x ) f(x) pre všetky x X O ε (x ), (1.3) kde okolie O ε (x ) = {x R n x x < ε} je otvorená gul a s polomerom ε a so stredom v bode x. Pre globálne riešenie úlohy (1.1) píšeme x = arg min x X f(x), pričom množinu všetkých globálnych riešení označujeme Arg min x X f(x). Poznámka 1.1. Namiesto minimalizačnej úlohy je možné uvažovat maximalizačnú úlohu. Pritom si však stačí uvedomit, že úloha f(x) max je ekvivalentná s úlohou: f(x) min, alebo v prípade f(x) > 0 je maximalizačná úloha ekvivalentná s úlohou 1/f(x) min. Ďalej sa budeme zaoberat minimalizačnými úlohami. 6

Úvod do optimalizácie 7 1.1.1 Optimalizácia bez ohraničení Ak je v úlohe (1.1) X = R n, hovoríme o optimalizácii bez ohraničení (anglicky unconstrained optimization ) alebo o úlohe na vol ný extrém. V rámci tejto triedy úloh majú zvláštne postavenie úlohy s konvexnými funkciami f.týmto úlohám sa budeme venovat podrobnejšie neskôr. 1.1.2 Optimalizácia s ohraničeniami Ak je množina X vo formulácii úlohy (1.1) vlastnou podmnožinou priestoru R n, hovoríme o optimalizácii s ohraničeniami (anglicky constrained optimization ) alebo o úlohe na viazaný extrém. Úloha matematického programovania Vel mi dôležitú triedu úloh na viazaný extrém tvoria úlohy matematického programovania. Takto nazývame úlohy (1.1) v prípade, ak má množina prípustných riešení tvar X = {x P g i (x) 0, i = 1,..., k; g i (x) = 0, i = k + 1,..., m}, (1.4) t. j. je zadaná pomocou konečného počtu nerovníc a rovníc uvažovaných na určitej množine P R n. Podmienky určené pomocou funkcií g i sa nazývajú funkcionálne ohraničenia; podmienka x P sa nazýva priame ohraničenie. Poznámka 1.2. Ak je v (1.4) k = 0, tak úloha neobsahuje ohraničenia typu nerovníc, v prípade k = m úloha neobsahuje ohraničenia typu rovníc a v prípade P = R n nemá úloha priame ohraničenia. Klasifikácia úloh matematického programovania Teraz uvedieme niektoré špeciálne úlohy matematického programovania (Sucharev, Timochov a Fedorov, 1986): Konvexné programovanie zahŕňa úlohy, v ktorých sú funkcie f, g 1,..., g k konvexné na P a funkcie g k+1,..., g m sú lineárne. Lineárneho programovanie je špeciálny prípad konvexného programovania v prípade, ak sú všetky funkcie f, g 1,..., g m lineárne. Kvadratické programovanie obsahuje lineárne ohraničenia g 1,..., g m a kvadratickú funkciu f s pozitívne semidefinitnou symetrickou maticou C. Geometrické programovanie pracuje s tzv. pozinómami, tvaru m x R n + a c R m + sú vektory, ktorých zložky sú kladné. c i i=1 n j=1 x a ij j, pričom Diskrétne programovanie pracuje s diskrétnou množinou X. Celočíselné programovanie pracuje s celočíselnou množinou P.

8 Kapitola 1 Čiastočne celočíselné programovanie kombinuje celočíselné premenné so spojitými. Dynamické programovanie je založené na rozložení úlohy na jednoduchšie podúlohy. Stochastické programovanie zahŕňa úlohy obsahujúce neurčitost. Z uvedených úloh sa budeme zaoberat úlohami konvexného programovania a okrajovo podmienkami úloh lineárneho a kvadratického programovania. 1.2 Testovacie funkcie Na porovnanie efektívnosti optimalizačných algoritmov je vhodné použit funkcie, ktoré spôsobujú rôzne problémy. V d alšom budeme často používat funkcie, ktoré sa líšia počtom premenných, počtom stacionárnych bodov a tiež svojou štruktúrou. (Reklaitis, Ravindran a Ragsdell, 1983) uvádzajú porovnanie rôznych metód a uvádzajú výsledky numerických experimentov. Uvádzajú výsledky, ktoré dosiahol pre testovaní (Himmelblau, 1972), ale ja d alší autori. Pekný súhrn testovacích funkcií uvádza (Hudzovič, 2001) na stranách 104 106: Rosenbrockova banánová funkcia patrí medzi najznámejšie. Má tvar f 1 (x 1, x 2 ) = (x 1 1) 2 + 100(x 2 x 2 1) 2. (1.5) Je zrejmé, že má jediné minimum v bode x = (1; 1) T. Witte a Holst navrhli 3 modifikácie Rosenbrockovej funkcie: f 2 (x 1, x 2 ) = (x 1 1) 2 + (x 2 x 2 1) 2. (1.6) f 3 (x 1, x 2 ) = 100(x 1 1) 2 + (x 2 x 2 1) 2. (1.7) f 4 (x 1, x 2 ) = (x 1 1) 2 + 100(x 2 x 3 1) 2. (1.8) Walukiewicz zovšeobecnil tento typ funkcií pre funkcie n premenných: n f 5 (x) = (x 1 1) 2 + 10 i (x i+1 x 2 i ) 2, (1.9) i=1 ktoré majú extrém v bode x = (1; 1;..., 1) T. Himmelblau navrhol funkciu f 6 (x 1, x 2 ) = (x 2 1 + x 2 11) 2 + (x 1 + x 2 2 7) 2. (1.10) Funkcia má 4 minimá, medzi nimi x = (3; 2) T.

Úvod do optimalizácie 9 Eason a Fenton použili funkciu [ f 7 (x 1, x 2 ) = 1 10 12 + x 2 1 + 1 + x2 2 x 2 1 + 100 + x2 1x 2 2 x 4 1x 4 2 ]. (1.11) Beale navrhol funkciu f 8 (x 1, x 2 ) = [ 1,5 x 1 (1 x 2 ) ] 2 + [ 2,25 x1 (1 x 2 2) ] 2 + [ 2,625 x1 (1 x 3 2) ] 2, (1.12) ktorá má minimum v bode x = (3; 1/2) T. Powell a Fletcher ponúkli funkciu [ ( f 9 (x 1, x 2, x 3 ) = 100 x 2 1 + x 2 2 1 ) 2 ( + x3 10 2π arctg x ) ] 2 2 + x 2 3 (1.13) x 1 s minimom v bode x = (1; 0; 0) T. Boxova funkcia f 10 (x 1, x 2, x 3 ) = 10 k=1 má minimum v bode x = (1; 10; 1) T. [ e kx 1 /10 e kx 2/10 x 3 ( e k/10 e k)] 2 (1.14) Poljak rozšíril a zovšeobecnil Boxovu funkciu na tvar: f 11 (x 1, x 2, x 3, x 4 ) = 1 p 2 10 k=1 [ p e k/5 + 2p e 2k/5 x 1 e kx 2/5 x 3 e kx 4/5 ] 2. (1.15) Jej minimum je v bode x = (p; 1; 2p; 2) T. Odporúčaný štartovací bod je x= = (p/2; 0; 5p/2; 3) T, vhodné hodnoty parametra sú p {1; 1000}. Woodova funkcia, čast ktorej tvorí Rosenbrockova funkcia má tvar: f 12 (x 1, x 2, x 3, x 4 ) = (x 1 1) 2 + 100(x 2 x 2 1) 2 + (x 3 1) 2 + 90(x 2 3 x 4 ) 2 + Jej minimum je v bode x = (1; 1; 1; 1) T. Powellova funkcia 4 premenných má tvar + 10,1 [ (x 2 1) 2 + (x 4 1) 2] + 19,8(x 2 1)(x 4 1). (1.16) f 13 (x 1, x 2, x 3, x 4 ) = (x 1 +10x 2 ) 2 +5(x 3 x 4 ) 2 +(x 2 2x 3 ) 4 +10(x 1 x 4 ) 4. (1.17) Jej minimum je v bode x = (0; 0; 0; 0) T. Budeme používat aj kvadratickú funkciu, ktorú uvádzajú (Attetkov, Galkin a Zarubin, 2003). Jej vzorec je f 14 (x 1, x 2 ) = 6x 2 1 4x 1 x 2 + 3x 2 2 + 4 5(x 1 + 2x 2 ) + 22. (1.18) Minimálnu hodnotu f(x ) = 28 nadobúda v bode x = ( 5; 2 5). Na stránke http://en.wikipedia.org/wiki/file:direct_search_broyden.gif je uvedená

10 Kapitola 1 Broydenova funkcia, ktorá má tvar f 15 (x 1, x 2 ) = (3 x 1 )x 1 2x 2 + 1 7/3 + (3 x 2 )x 2 x 1 + 1 7/3. (1.19) Funkcia nadobúda minimálnu nulovú hodnotu v bodoch x,1 = (2,7756946; 0,8113) T a x,2 = ( 0,534941; 0,4454925) T (pričom súradnice x 2 sú riešenia algebrickej rovnice x 4 2 6x 3 2 + 10x 2 2 x 2 3). Ak ju trochu pozmeníme na tvar f 16 (x 1, x 2 ) = (3 x 1 )x 1 2x 2 + 2 7/3 + (3 x 2 )x 2 x 1 + 1 7/3, (1.20) získame body x,1 = (3; 1) T a x,2 ( 0,51154714; 0,7963219) T, 1 v ktorých funkcia nadobúda minimálnu hodnotu rovnú 0. 1 Presné hodnoty sú x,2 2 = 5/3 83/54 3 1 6 107/3 3 83/54 + 1 6 107/3 a x,2 1 = (3 x,2 2 )x,2 2 +1.

2 Matematické základy optimalizačných metód V tejto kapitole uvedieme súhrn poznatkov z teórie funkcií viacerých premenných. Niektoré boli (v zjednodušenej forme) preberané v iných predmetoch a my sa nimi budeme zaoberat podrobnejšie. 2.1 Matice Budeme pracovat s maticami typu m n, pozostávajúcich z prvkov umiestnených do m riadkov a n stĺpcov. Prvky matíc budeme označovat a ij. Napríklad maticu A = [a ij ] = = [a ij ] j=1,...,n i=1,...,m, kde a ij R, i = 1,..., m, j = 1,..., n budeme nazývat reálnou maticou typu m n ak má tvar a 11 a 12 a 1n a 21 a 22 a 2n A =....... a m1 a m2 a mn V prípade m = n hovoríme o štvorcovej matici. Ak platí A T = A, kde [ ] T označuje transponovanie matíc (výmenu riadkov za stĺpce), hovoríme o symetrickej matici. Maticu typu n 1 nazývame stĺpcová matica, stĺpcový vektor alebo jednoducho stĺpec a budeme ju označovat x = [x 1, x 2,..., x n ] T, t. j. budeme písat len jeden index. Riadkovú maticu typu 1 n budeme písat ako x T = [x 1, x 2,..., x n ]. 2.1.1 Operácie s maticami Definícia 2.1. Skalárnym súčinom dvoch vektorov a, b R n sa nazýva maticový súčin riadku a stĺpca a počíta sa nasledujúcim spôsobom:2 n a T b = a 1 b 1 + a 2 b 2 + + a n b n = a i b i = b T a = (a, b). (2.1) i=1 Potom platí n x T x = x 2 i = x 2 2, i=1 pričom x 2 označuje dĺžku alebo normu vektora x Rn. Predpokladáme, že čitatel pozná základné operácie s maticami, ktorými sú vynásobenie matice reálnym skalárom, súčet, rozdiel a súčin matíc. Pripomíname, že súčin matíc sa vytvára pomocou skalárnych súčinov typu riadok stĺpec, pričom sa postupne všetky riadky l avého súčinitel a násobia stĺpcami pravého súčinitel a, pričom výsledky sa zapisujú do odpovedajúcich riadkov a stĺpcov výslednej matice. Jednotkovú maticu, t. j. štvorcovú maticu, ktorá má všetky prvky nulové s výnimkou diagonálnych prvkov, ktoré sú rovné 1, budeme označovat I (anglicky identity matrix ). 2 Niekedy je vhodnejšie použit označenie skalárneho súčinu pomocou okrúhlych zátvoriek, inokedy je vhodnejšie použit maticový súčin. 11

12 Kapitola 2 2.1.2 Vlastné čísla a vlastné vektory matíc Definícia 2.2. Číslo λ C sa nazýva vlastným číslom štvorcovej matice A rádu n práve vtedy, ak existuje nenulový vektor v R n taký, že platí A v = λ v. Vektor v sa nazýva vlastný vektor matice, odpovedajúci vlastnému číslu λ. Poznámka 2.1. Symetrická reálna matica A rádu n má n reálnych vlastných čísel, pričom vlastné vektory odpovedajúce rôznym vlastným číslam sú navzájom kolmé, t. j. ich skalárny súčin sa rovná nule. Rozklad symetrickej matice Nech λ i a v i, i = 1,..., n sú vlastné čísla a im odpovedajúce vlastné vektory symetrickej matice A rádu n, ktoré sú navzájom kolmé. Potom platí A = n i=1 λ i v i (v i ) T (v i ) T v i. (2.2) Ak majú ortogonálne vektory v i dĺžky rovné 1, tak (vi ) T v i = 1 a zápis rozkladu (2.2) sa zjednoduší (najčastejšie sa uvádza práve v takom tvare). Ak sú všetky vlastné čísla symetrickej matice nenulové, tak matica je regulárna, t. j. existuje jej inverzná matica. Rozklad inverznej matice je potom A 1 = n i=1 v i (v i ) T λ i (v i ) T v = n v i (v i ) T i (v i ) T Av. (2.3) i i=1 Rozklad (2.3) platí nielen pre systém vlastných vektorov, ale aj pre tzv. systém A- združených vektorov. Uvažujme kladne definitnú symetrickú maticu A n-tého rádu, t. j. maticu, ktorej všetky vlastné čísla sú kladné. Definícia 2.3. Systém nenulových vektorov s 1,..., s n R n sa nazýva úplným systémom A-združených vektorov práve vtedy, ak platí (s i ) T As j = 0 pre všetky i j, i, j = 1,..., n. (2.4) Poznámka 2.2. Na základe kladnej definitnosti matice A súčasne platí (s i ) T As i > 0 pre všetky i = 1,..., n. Veta 2.1 (O nezávislosti A-združených vektorov). Nech A je symetrická kladne definitná matica rádu n a nech vektory s 1,..., s n tvoria úplný systém nenulových A- združených vektorov. Potom vektory s 1,..., s n sú lineárne nezávislé. Dôkaz. Zapíšme rovnost 0 = σ 1 s 1 + σ 2 s 2 + + σ n s n.

Diferenciálny počet 13 Máme dokázat, že všetky koeficienty σ i lineárnej kombinácie na pravej strane sú rovné nule. Vynásobíme rovnost vektorom (s j ) T A a dostávame (s j ) T A 0 = σ 1 (s j ) T As 1 + σ 2 (s j ) T As 2 + + σ n (s j ) T As n, a teda na základe definície úplného systému A-združených vektorov platí 0 = σ j (s j ) T As j 0 = σ j. Ak vezmeme postupne všetky j = 1, 2,..., n, dostaneme potrebné tvrdenie. Veta 2.2 (O rozklade inverznej matice). Nech matica A je symetrická kladne definitná matica rádu n. Nech vektory s 1,..., s n tvoria úplný systém A-združených vektorov. Potom platí n A 1 s i (s i ) T = (s i ) T As = n s i (s i ) T n i (s i, As i ) = s i (s i ) T (As i, s i ). (2.5) i=1 Dôkaz. Zapíšme rovnicu A x = b, z ktorej vyplýva, že x = A 1 b. Rozložme vektor x v báze úplného systému vektorov: n x = x i s i, i=1 a teda n n A x = A x i s i = x i As i = b. i=1 i=1 i=1 Po vynásobení vektormi (s j ) T, j = 1,..., n postupne dostávame (s j ) T n i=1 Dostávame teda n s i (s i ) T x = (s i ) T As b, i i=1 i=1 x i As i = (s j ) T b, a teda x j = (sj ) T (s j ) T As j b. z čoho porovnaním s vyššie uvedeným zápisom na základe toho, že vektor b je l ubovol ný vektor, vyplýva tvrdenie vety. Poznámka 2.3. V obidvoch predchádzajúcich vetách by sme namiesto pozitívne definitnej matice mohli použit regulárnu symetrickú maticu, t. j. maticu, ktorej všetky vlastné čísla sú nenulové. Poznámka 2.4. Hoci výrazy (2.3) a (2.5) sú prakticky zhodné, systémy vektorov, ktoré sa v nich používajú, sú rôzne. V prvom prípade pracujeme so systémom ortogonálnych vlastných vektorov matice A, v druhom prípade pracujeme so systémom A-ortogonálnych, resp. A-združených vektorov matice A.

14 Kapitola 2 2.1.3 Lineárny funkcionál Definícia 2.4. Výraz typu l(x) = b 1 x 1 + b 2 x 2 + + b n x n = b T x (2.6) sa nazýva lineárny funkcionál premennej x R n, pričom zložky vektora b R n nazývajú koeficienty lineárneho funkcionálu. Lineárna funkcia vektorovej premennej x R n (funkcia n premenných) má tvar sa f(x 1, x 2,..., x n ) = f(x) = b T x + c, ak uvažujeme vektor koeficientov b ako konštantný. Lineárna funkcia je po konštante druhá najjednoduchšia funkcia n premenných, podobne ako tomu je v prípade funkcií jednej premennej. 2.1.4 Kvadratická forma Definícia 2.5. Uvažujme reálnu symetrickú maticu A rádu n. Potom výraz typu n n Q(x) = x T Ax = a ij x i x j (2.7) i=1 j=1 sa nazýva kvadratická forma premennej x R n, pričom matica A sa nazýva matica kvadratickej formy. Kvadratická funkcia vektorovej premennej x R n (funkcia n premenných) má tvar f(x 1, x 2,..., x n ) = f(x) = 1 2 xt Ax + b T x + c, (2.8) ak uvažujeme vektor koeficientov b a maticu A konštantné. Kvadratická funkcia viacerých premenných má podobné vlastnosti ako kvadratická funkcia jednej premennej a tvorí dôležitú súčast teórie funkcií viacerých premenných. Zmysel koeficienta 1 sa vyjasní 2 neskôr. Definícia 2.6. Kvadratická forma Q(x) sa nazýva kladne definitná [semidefinitná], ak pre každý nenulový vektor x R n je V (x) > 0 [V (x) 0]. Definícia 2.7. Kvadratická forma Q(x) sa nazýva záporne definitná [semidefinitná], ak pre každý nenulový vektor x R n je V (x) < 0 [V (x) 0]. Definícia 2.8. Kvadratická forma, ktorá nie je definitná ani semidefinitná sa nazýva nedefinitná alebo tiež indefinitná. Poznámka 2.5. Spolu s kvadratickou formou hovoríme aj o (jej) matici ako o kladne [semi]definitnej respektíve o záporne [semi]definitnej. Používame označenie A = A T > 0 a pod. Používa sa tiež označenie pozitívne respektíve negatívne definitná ma- Poznámka 2.6. tica Veta 2.3. Symetrická matica A rádu n je kladne definitná [semidefinitná] práve vtedy, ak sú všetky jej vlastné čísla kladné [nezáporné].

Diferenciálny počet 15 Veta 2.4. Symetrická matica A rádu n je záporne definitná [semidefinitná] práve vtedy, ak sú všetky jej vlastné čísla záporné [nekladné]. Veta 2.5. Symetrická matica A rádu n je nedefinitná práve vtedy, ak má kladné aj záporné vlastné čísla. Určenie vlastných čísel matice A je už pre n > 2 zložitý problém, pretože vlastné čísla sú riešením algebraickej rovnice n-ho rádu det(a λ I) = 0, ktorá sa nazýva charakteristická rovnica matice A. Pravda, numerické metódy umožňujú nájst vlastné čísla s l ubovol ne zvolenou presnost ou. Neocenitel nú pomoc v tejto situácii predstavuje Sylvestrovo kritérium Veta 2.6 (Sylvestrovo 3 kritérium). Symetrická matica A rádu n je kladne definitná práve vtedy, ak sú kladné všetky jej hlavné minory a 11 a 12 a 1i a 21 a 22 a 2i i =...., pre všetky i = 1, 2,..., n. (2.9).. a i1 a i2 a ii Dôsledok. Matica A je záporne definitná práve vtedy, ak pre jej hlavné minory platí ( 1) i i > 0 pre všetky i = 1, 2,..., n, t. j. ak sa znamienka minorov striedajú, pričom 1 < 0. 2.2 Funckie n premenných V tomto oddieli stručne uvedieme niektoré pojmy týkajúce sa funkcií n premenných, ktoré budeme využívat v d alších častiach. 2.2.1 Metrické priestory Budeme uvažovat množinu X, na ktorej je definovaná funkcia d(x, y), umožňujúca merat vzdialenosti medzi prvkami x a y množiny X. Túto funkciu tiež nazývame metrika 4. Dvojicu (X, d) potom nazývame metrický priestor. Príklad 2.1. Uvažujme množinu X = R n a funkciu d p (x, y) = [ n x i y i p] 1/p, p > 1. Potom dvojica (R n, d p ) je metrický priestor. Príklad 2.2. Často sa používa prípad p = 2. Metrika d 2 (x, y) = [ n x i y i 2] 1/2 definuje euklidovskú vzdialenost a dvojica (R n, d 2 ) tvorí euklidovský metrický priestor. Príklad 2.3. Funkcia d 1 (x, y) = n x i y i sa tiež zvykne nazývat manhattanská metrika. i=1 3 James Joseph Sylvester, 1814 1897, anglický matematik. 4 Metrika spĺňa známe podmienky: nezápornost, symetriu a trojuholníkovú nerovnost. Vzdialenost dvoch prvkov je nulová práve vtedy, ak sú prvky totožné. i=1 i=1

16 Kapitola 2 Príklad 2.4. Funkcia d (x, y) = d max (x, y) = max x i y i je špeciálny prípad p- 1 i n metriky pre p =. Poznámka 2.7. V množine reálnych čísel, t. j. v priestore R 1 sú všetky metriky d p zhodné. Ďalej budeme uvažovat metrický priestor (X, d). Definícia 2.9. Množina bodov metrického priestoru O ε (x O ) = {x X d(x, x 0 ) < ε} sa nazýva epsilonové okolie bodu x 0 X. Dôležitý je pojem vnútorného bodu množiny M. Definícia 2.10. Bod x 0 sa nazýva vnútorným bodom množiny M práve vtedy, ak existuje jeho okolie také, že platí O ε (x 0 ) M, t. j. ak existuje okolie, ktoré sa celé nachádza vnútri množiny M. Definícia 2.11. vnútorné. Množina M X sa nazýva otvorená práve vtedy, ak sú všetky jej body Definícia 2.12. L ubovol ná otvorená podmnožina X obsahujúca bod x 0 sa nazýva okolím bodu x 0 a označuje sa O(x 0 ). Definícia 2.13. Množina O(x 0 ) = O(x 0 )\{x 0 } sa nazýva prstencové okolie bodu x 0. Definícia 2.14. Bod x X sa nazýva hraničným bodom množiny M práve vtedy, ak jeho l ubovol né okolie obsahuje súčasne body množiny M aj body, ktoré do nej nepatria. Poznámka 2.8. Definícia 2.15. Hraničný bod množiny nemusí patrit do množiny. Množina M obsahujúca všetky svoje hraničné body sa nazýva uzavretá. Príklad 2.5. Množina (0; 3) je otvorená, množina [0; 3] je uzavretá a množina [0; 3) nie je ani otvorená, pretože jej hraničný bod 0 nie je vnútorný, ani uzavretá, pretože neobsahuje svoj hraničný bod 3. Definícia 2.16. Bod x 0 M sa nazýva izolovaným bodom množiny M práve vtedy, ak existuje také ε > 0, že O ε (x 0 ) M =. 2.2.2 Definícia lokálnych extrémov Definícia 2.17. Funkcia f(x) definovaná na metrickom priestore (X, d) má v bode x 0 lokálne minimum [maximum] práve vtedy, ak existuje také jeho okolie O(x 0 ), že pre všetky body x O(x 0 ) platí f(x) f(x 0 ) [f(x) f(x 0 )]. Definícia 2.18. Funkcia f(x) definovaná na metrickom priestore (X, d) má v bode x 0 ostré lokálne minimum [maximum] práve vtedy, ak existuje také jeho prstencové okolie O(x 0 ), že pre všetky body x O(x 0 ) platí f(x) > f(x 0 ) [f(x) < f(x 0 )]. Poznámka 2.9. Ak ako množina X vystupuje celý priestor R n, hovoríme o vol ných extrémoch. Neskôr budeme definovat aj viazané extrémy funkcie, ked sa v podstate len zmení základná množina X.

Diferenciálny počet 17 2.2.3 Konvexné množiny a funkcie Konvexné množiny a konvexné funkcie hrajú v teórii optimalizácie vel mi dôležitú úlohu. Vlastnosti konvexných funkcií na konvexných množinách zabezpečujú existenciu riešenia extremálnych úloh, prípadne aj jednoznačnost riešenia. Na riešenie optimalizačných úloh s konvexnými funkciami na konvexných množinách bol vyvinutý celý rad numerických metód. V tomto oddiele vysvetlíme len základné pojmy teórie konvexných funkcií n premenných, ktorá je dostatočne prebádaná a mohla by sa vyučovat ako samostatný predmet. Môžete sa s ňou stretnút pod názvom konvexná analýza. Konvexné množiny v priestore R n Definícia konvexnej množiny sa opiera o pojem úsečky v n-rozmernom priestore. Tento pojem zasa súvisí s operáciami, ktoré sa dajú uskutočnit v lineárnom priestore. Jedná sa o súčet vektorov a o násobenie vektora skalárom. Definíciu lineárneho priestoru tu nebudeme uvádzat, len skonštatujeme, že priestor R n je metrický lineárny euklidovský priestor 5. Definícia 2.19. Nech sú dané vektory x 1, x 2,..., x k R n a reálne čísla α 1, α 2,..., α k. Vektor α 1 x 1 + α 2 x 2 + + α k x k sa nazýva lineárna kombinácia vektorov x 1,..., x k s koeficientami α 1,..., α k. Definícia 2.20. Množina všetkých lineárnych kombinácií vektorov x 1,..., x k sa nazýva lineárny obal množiny vektorov a označuje sa span(x 1,..., x k ). 6 Poznámka 2.10. napísat v tvare x = α 1 x 1, α 1 R. Lineárny obal jedného vektora je priamka, ktorej rovnica sa dá Lineárny obal dvojice vektorov je rovina určená rovnicou x = α 1 x 1 + α 2 x 2, α 1, α 2 R. Rovnica priamky určenej dvomi bodmi x 1 a x 2 sa dá napísat v tvare x = x 1 + α(x 2 x 1 ) = (1 α)x 1 + αx 2, α R. Je vidiet, že v tomto prípade je α 1 = 1 α a α 2 = α, a teda α 1 + α 2 = 1 α + α = 1. Podmienka α 1 + α 2 = 1 teda určuje priamku ako podmnožinu lineárneho obalu vektorov. Bod x 1 odpovedá vol be α = 0 alebo α 1 = 1, α 2 = 0, bod x 2 odpovedá vol be α = 1 alebo α 1 = 0, α 2 = 1. Body úsečky [x 1 ; x 2 ] získame, ak budeme volit parameter α [0; 1]. Overte, že táto vol ba odpovedá podmienkam α 1 + α 2 = 1, α 1 0, α 2 0. 5 Metrický priestor má definovanú metriku, lineárny priestor umožňuje vytvárat lineárne kombinácie vektorov a euklidovský priestor má definovaný skalárny súčin, umožňujúci merat dĺžky a uhly. 6 Používa sa aj označenie Lin(x 1,..., x k )

18 Kapitola 2 Teda rovnica úsečky [x 1 ; x 2 ] má tvar x = α 1 x 1 + α 2 x 2, α 1 + α 2 = 1, α 1 0, α 2 0. Definícia 2.21. Nech sú dané vektory x 1, x 2,..., x k R n a reálne čísla α 1, α 2,..., α k. Vektor α 1 x 1 +α 2 x 2 + +α k x k, α 1 +α 2 + +α k = 1, α i 0, i = 1, 2,..., k, sa nazýva konvexná kombinácia vektorov x 1,..., x k s koeficientami α 1,..., α k. Definícia 2.22. Konvexná kombinácia vektorov sa nazýva rýdzokonvexnou, ak sú všetky jej koeficienty kladné.. Definícia 2.23. Množina všetkých konvexných kombinácií vektorov x 1,..., x k sa nazýva konvexný obal množiny vektorov a označuje sa conv(x 1,..., x k ). Poznámka 2.11. Ak vypustíme podmienku k α i = 1 a ponecháme len podmienky nezápornosti koeficientov, dostaneme pojmy kužel ová kombinácia a kužel ový obal množiny vektorov. Kužel ový obal jedného vektora tvorí polpriamku alebo lúč v priestore R n, kužel ový obal dvojice vektorov vytvára vnútro uhla medzi dvomi polpriamkami s vrcholom v bode 0 ako čast roviny v R n (napríklad kvadrant v rovine R 2 ), kužel ový obal troch vektorov v R 3 môže vytvorit priestorový uhol, napríklad niektorý z oktantov. Kužel ové kombinácie hrajú dôležitú úlohu v teórii lineárneho a kvadratického programovania, my sa im nebudeme d alej venovat. Definícia 2.24. Podmnožina X R n sa nazýva konvexnou práve vtedy, ak spolu s l ubovol nou dvojicou bodov x 1, x 2 X obsahuje aj úsečku [x 1 ; x 2 ]. i=1 Je možné použit aj inú ekvivalentnú definíciu: Definícia 2.25. Podmnožina X R n sa nazýva konvexnou práve vtedy, ak obsahuje všetky konvexné kombinácie svojich prvkov. Poznámka 2.12. Množina všetkých konvexných kombinácií bodov množiny X sa nazýva konvexný obal množiny a označuje sa conv(x). Príklad 2.6. Úsečka je konvexný obal dvojice rôznych bodov: [x 1 ; x 2 ] = conv(x 1, x 2 ). Rýdzokonvexný obal (množina všetkých rýdzokonvexných kombinácií) dvojice rôznych bodov bude vnútro úsečky (x 1 ; x 2 ). Trojuholník je konvexným obalom svojich vrcholov, ale súčasne je aj konvexným obalom svojich strán. Vnútro trojuholníka je rýdzokonvexným obalom vrcholov trojuholníka. Definícia 2.26. Konvexná množina sa nazýva rýdzokonvexnou práve vtedy, ak pre l ubovol né dva body množiny x 1, x 2 X každý bod z vnútra (x 1 ; x 2 ) úsečky [x 1 ; x 2 ] je vnútorným bodom množiny X. Príklad 2.7. Kruh v R 2 alebo gul a v R 3 sú rýdzokonvexné množiny, trojuholník alebo štvorec sú príkladmi konvexných ale nerýdzo konvexných množín. Je vnútro trojuholníka, t. j. trojuholník bez strán, rýdzokonvexnou množinou?

Diferenciálny počet 19 Obr. 2.1: Nekonvexná (vl avo) a konvexná (vpravo) množina a konvexný obal množiny Na obrázku 2.1 sú znázornené príklady konvexnej a nekonvexnej množiny. Nekonvexnost množiny vl avo dokazuje úsečka spájajúca dva body množiny, ktorá obsahuje aj body, ktoré nepatria do množiny. Svetlá farba na strednom obrázku ukazuje, ktoré body treba ku nekonvexnej množine pridat, aby z nekonvexnej množiny X vznikol jej konvexný obal conv(x) najmenšia konvexná množina obsahujúca celú množinu X (napríklad môžeme pridat všetky úsečky, spájajúce body množiny X jedna úsečka je na obrázku vl avo znázornená). Z hl adiska úloh s ohraničeniami je dôležitá nasledujúca veta. Veta 2.7 (O konvexnosti prieniku konvexných množín). počtu konvexných množín je konvexná množina. Prienik l ubovol ného Dôkaz. Uvažujme množinu X = β X β, pričom každá množina X β je konvexná. Zvol me l ubovol né dva body x 1 a x 2 X. Obidva body musia ležat aj v každej množine X β. Vzhl adom na konvexnost množín X β, do všetkých množín X β patrí aj celá úsečka [x 1 ; x 2 ]. Táto úsečka teda patrí aj do množiny X, čo dokazuje jej konvexnost. Poznámka 2.13. Pri riešení úloh s ohraničeniami v tvare nerovností a rovností môžeme skúmat množiny, ktoré určujú jednotlivé nerovnosti a rovnosti. Ak je každá z týchto množín konvexná, bude konvexná aj množina prípustných riešení X pozostávajúca z bodov vyhovujúcich všetkým ohraničeniam. Samozrejme, dôležité z hl adiska riešenia úlohy bude aj to, aby bola množina prípustných riešení neprázdna :) Príklad 2.8. Uvažujme vektor a R n a reálne číslo b. Potom množina bodov x R n, ktoré vyhovujú rovnosti a T x = b sa nazýva nadrovina (alebo hyperrovina) v priestore R n. Dokážte, že nadrovina je konvexná množina. Potom množina X = {x R n Ax = b}, kde A je matica typu r n a vektor b R r, je konvexná. Príklad 2.9. Množina bodov x R n, ktoré vyhovujú nerovnosti a T x b, kde a R n a b je reálne číslo, sa nazýva polpriestor. Dokážte, že polpriestor je konvexná množina. Potom množina X = {x R n Ax b}, kde A je matica typu r n a vektor b R r a nerovnost sa uvažuje po zložkách, je konvexná. Maticové lineárne rovnosti a nerovnosti tvoria množinu ohraničení v úlohách lineárneho a konvexného programovania. Máme teda zabezpečené, že ak je množina prípustných riešení týchto úloh neprázdna, bude súčasne aj konvexná.

20 Kapitola 2 Priemet bodu na množinu Niektoré minimalizačné metódy využívajú priemet bodu na množinu X. Definícia 2.27. Nech X R n. Priemetom bodu x R n na množinu X sa nazýva bod w X, ktorý je najbližší k bodu x, t. j. x w = inf x v. v X Priemet bodu x na množinu X budeme označovat P X (x) = w. Priemet bodu na množinu nemusí vždy existovat a ak existuje, nemusí byt jediný. Množiny, na ktoré sa dobre premieta sú práve konvexné množiny. Veta 2.8 (O existencii a jednoznačnosti priemetu na konvexnú množinu). Nech X R n je uzavretá konvexná množina. Potom 1. každý bod x R n má jediný priemet na množinu X; 2. nutnou a postačujúcou podmienkou toho, aby bod w X bol priemetom bodu x na množinu X je splnenie nerovnosti (w x) T (v w) 0, pre všetky v X. Konvexné funkcie n premenných Konvexné funkcie jednej premennej sa zvyknú preberat v základnom kurze matematickej analýzy. Vyzbrojení definíciou konvexnej množiny by sme mohli povedat, že konvexné funkcie sú také funkcie, ktorých nadgraf (množina bodov roviny, ktoré ležia na grafe a nad grafom funkcie f(x)) je konvexná množina. Uvažujme teraz funkciu n premenných f(x), x R n. Definícia 2.28. Množina bodov N = {(x; y) R n+1 x X R n, y f(x)} sa nazýva nadgraf alebo tiež epigraf funkcie f(x) na množine X. Poznámka 2.14. Analogicky sa definuje podgraf funkcie f(x). Definícia 2.29. Funkcia f(x) definovaná na konvexnej množine X sa nazýva konvexnou práve vtedy, ak je jej nadgraf na množine X konvexná množina. Definícia 2.30. Funkcia f(x) definovaná na konvexnej množine X sa nazýva konkávnou práve vtedy, ak je jej podgraf na množine X konvexná množina. Poznámka 2.15. Konvexné funkcie sú obl úbené, ak riešime úlohu minimalizácie a naopak, konkávne funkcie majú výborné vlastnosti z hl adiska úlohy maximalizácie.

Diferenciálny počet 21 Uvedené definície sú z jedného hl adiska jednoduché, na druhej strane by sa pomocou nich t ažko definovali užitočné rýdzokonvexné a silnokonvexné funkcie. Preto uvedieme ešte inú definíciu konvexnosti, konkávnost by sme definovali analogicky. Definícia 2.31. Funkcia f(x) definovaná na konvexnej množine X R n sa nazýva konvexnou na množine X práve vtedy, ak pre každé dva body x 1, x 2 X a pre každé α [0; 1] platí f ( (1 α)x 1 + αx 2) (1 α)f(x 1 ) + αf(x 2 ). (2.10) Funkcia sa nazýva rýdzokonvexnou na množine X ak pre všetky α (0; 1) je nerovnica v (2.10) ostrá. Poznámka 2.16. Konkávna a rýdzokonkávna funkcia sa definuje pomocou opačnej nerovnosti. Namiesto definície 2.31 by sme mohli uviest inú definíciu, ktorú teraz sformulujeme ako vetu. Veta 2.9. Na to, aby funkcia f(x) definovaná na konvexnej množine X R n bola konvexnou na množine X je nutné a postačujúce, ak pre l ubovol nú množinu bodov x 1,..., x k k X a pre každé α i 0, i = 1,..., k, α i = 1 platí i=1 f ( k α i x i) k α i f(x i ). (2.11) i=1 i=1 Nerovnost (2.11) sa nazýva Jensenova nerovnost 7. Analogické tvrdenie sa týka rýdzokonvexných funkcií, pričom nerovnosti sa zmenia na ostré, t. j. požaduje sa kladnost koeficientov α i a navyše rôznost bodov x i. Okrem pojmu rýdzokonvexnej funkcie sa definuje ešte pojem silnokonvexnej funkcie. Definícia 2.32. Funkcia f(x) definovaná na konvexnej množine X R n sa nazýva silnokonvexnou na množine X práve vtedy, ak existuje taká konštanta γ > 0, že pre každé dva body x 1, x 2 X a pre každé α [0; 1] platí f ( (1 α)x 1 + αx 2) (1 α)f(x 1 ) + αf(x 2 ) α(1 α)γ x 1 x 2 2. (2.12) Na základe porovnania definícií 2.31 a 2.31 je zrejmé, že každá silnokonvexná funkcia je zároveň rýdzokonvexná a teda aj konvexná. Číslo γ sa nazýva parametrom silnej vypuklosti. Príklad 2.10. Funkcia jednej premennej f(x) = x 4 je rýdzokonvexná na množine R, ale nie je silnokonvexná (problém spočíva v okolí bodu x = 0). Príklad 2.11. V priestore R n je funkcia f(x) = x T x = x 2 silno vypuklá. Pokúste sa toto tvrdenie dokázat. Konvexné funkcie majú viaceré dobré vlastnosti. Veta 2.10 (O spojitosti konvexnej funkcie). Nech množina X je konvexná a obsahuje aspoň jeden vnútorný bod (t. j. Int(X) ). Potom konvexná funkcia f(x) je spojitá 7 J. Jensen, 1859 1925, dánsky matematik.

22 Kapitola 2 vo všetkých vnútorných bodoch množiny X. Konkrétne, ak je f(x) konvexná na X = R n, tak je spojitá v každom bode X = R n. Veta 2.11 (O globálnom minime konvexnej funkcie). Nech X R n je konvexná množina a funkcia f(x) je konvexná na X. Potom je každý bol lokálneho minima f(x) súčasne bodom jej globálneho minima, pričom množina X = {x X f(x) = f = inf X f(x)} je konvexná. Ak je funkcia f(x) rýdzokonvexná, tak množina X obsahuje maximálne jeden bod. Poznámka 2.17. Rýdzokonvexná funkcia na konvexnej množine X môže mat teda najviac jedno lokálne minimum, ktoré je súčasne globálnym minimom na X. Rýdzokonvexná funkcia nemusí na uzavretej konvexnej množine X dosahovat svoje infimum. Napríklad ak pri n = 1 vezmeme konvexnú uzavretú množinu X = [1; ) a funkciu f(x) = 1/x, ktorá je rýdzokonvexná na X, bude inf X f(x) = 0, ale súčasne f(x) > 0 pre všetky x X. Na záver uved me vetu, ktorá zhŕňa vlastnosti silnokonvexných funkcií. Veta 2.12 (O existencii a jednoznačnosti minima silnokonvexnej funkcie). Nech X R n je uzavretá konvexná množina a funkcia f(x) je silnokonvexná na X. Potom 1. Lebesgueova množina 8 L(v) = {x X f(x) f(v)} je uzavretá a ohraničená pre všetky v X; 2. f = inf x X f(x) >, množina X = {x X f(x) = f } je neprázdna a obsahuje práve jeden bod x ; 3. pre každé x X platí nerovnost γ x x 2 f(x) f(x ); 4. každá minimalizačná postupnost {x k }: x k X, k = 1, 2,..., lim k f(x k ) = f, konverguje k bodu x. Dôkaz. Dôkaz uvádza, napríklad, (Vasiljev, 1980). 2.3 Diferenciálny počet funkcií jednej premennej 2.3.1 Diferenciály funkcie jednej premennej Nech funkcia jednej reálnej premennej f(x) je m-krát diferencovatel ná v bode x 0. Potom m-tý diferenciál funkcie f v bode x 0 definujeme vzt ahom d m f(x, x 0 ) = f (m) (x 0 ) (x x 0 ) = f (m) (x 0 ) x, (2.13) kde x = x x 0 alebo tiež x = x 0 + x. 8 H. L. Lebesque, 1875 1941, francúzsky matematik.

Diferenciálny počet 23 2.3.2 Taylorova veta pre funkciu jednej premennej Veta 2.13 (Taylorova 9 ). Nech funkcia f(x) je (m + 1)-krát spojite diferencovatel ná v okolí O(x 0 ) bodu x 0. Potom pre l ubovol ný bod x O(x 0 ) existuje také číslo ξ (0, 1), že platí kde f(x) = T m (x, x 0 ) + f ( (m+1) x0 + ξ(x x 0 ) ) (m + 1)! (x x 0 ) m+1, (2.14) T m (x, x 0 ) = f(x 0 ) + f (x 0 )(x x 0 ) + + f (m) (x 0 ) m! (x x 0 ) m = m k=1 d k f(x, x 0 ) k! (2.15) sa nazýva Taylorov polynóm m-tého stupňa funkcie f(x) so stredom v bode x 0. 2.3.3 Nutná podmienka lokálneho extrému Veta 2.14 (Nutná podmienka extrému). Nech funkcia f(x) má deriváciu v každom bode intervalu (a, b). Nech funkcia f(x) má v bode x 0 (a, b) lokálny extrém. Potom f (x 0 ) = 0. Dôkaz. Čitatel nájde dôkaz v učebnici matematickej analýzy. Poznámka 2.18. Funkcia f(x) = x má v bode x 0 = 0 lokálne minimum, ale nemá v tomto bode deriváciu. To svedčí o tom, že uvedená podmienka je nutná len pre extrémy, v ktorých má funkcia deriváciu. Definícia 2.33. funkcie f(x). Bod x 0, v ktorom platí f (x 0 ) = 0 sa nazýva stacionárnym bodom Poznámka 2.19. Stacionárne body spolu s hraničnými bodmi a s bodmi, v ktorých funkcia nemá deriváciu, vytvárajú množinu bodov podozrivých na extrém. 2.3.4 Postačujúca podmienka [ne]existencie lokálneho extrému Veta 2.15 (Postačujúca podmienka existencie lokálneho extrému). Nech funkcia f(x) má m + 1 spojitých derivácií v okolí bodu x 0, m N je nepárne. Nech f (k) (x 0 ) = 0 pre k = 1,..., m. Nech f (m+1) (x 0 ) 0. Potom ak f (m+1) (x 0 ) > 0, tak funkcia má v bode x 0 ostré lokálne minimum a ak f (m+1) (x 0 ) < 0, tak funkcia má v bode x 0 ostré lokálne maximum. Poznámka 2.20. Táto veta sa obvykle formuluje pre m = 1. Veta 2.16 (Postačujúca podmienka neexistencie lokálneho extrému). Nech funkcia f(x) má m+1 spojitých derivácií v okolí bodu x 0, m N je párne. Nech f (k) (x 0 ) = = 0 pre k = 1,..., m. Nech f (m+1) (x 0 ) 0. Potom funkcia nemá v bode x 0 lokálny extrém. 9 Brook Taylor, 1685 1731, anglický matematik a filozof.

24 Kapitola 2 Poznámka 2.21. V obidvoch vetách máme zaručené, že f (x 0 ) = 0, t. j. x 0 je stacionárny bod. Obidve vety nám umožňujú na základe vyšších derivácií rozhodnút, či v stacionárnom bode extrém je alebo nie je. Dôkaz. Na základe Taylorovej vety a podmienok dokazovaných viet pre každé x z dostatočne malého okolia bodu x 0 existuje také ξ (0; 1), že platí rovnost respektíve f(x) = f(x 0 ) + f ( (m+1) x0 + ξ(x x 0 ) ) (x x 0 ) m+1, (m + 1)! f(x) f(x 0 ) = f ( (m+1) x0 + ξ(x x 0 ) ) (x x 0 ) m+1, (2.16) (m + 1)! Navyše môžeme konštatovat, že na základe spojitosti derivácia f (m+1) (c) zachováva znamienko f (m+1) (x 0 ) v nejakom okolí O(x 0 ). Ak je m nepárne, bude m + 1 párne, a preto pravá strana rovnosti (2.16) bude pre x x 0 kladná v prípade f (m+1) (x 0 ) > 0. To dokazuje, že f(x) > f(x 0 ), t. j. v bode x 0 je ostré lokálne minimum. Podobne v prípade f (m+1) (x 0 ) < 0 bude f(x) < f(x 0 ), čo dokazuje ostré lokálne minimum v bode x 0. Ak je m nepárne, bude m + 1 párne, a preto pravá strana rovnosti (2.16) bude pre x x 0 menit znamienko pri prechode cez bod x 0. To dokazuje, že v bode x 0 nemôže byt extrém. 2.4 Diferenciálny počet funkcií n premenných V tejto časti zhrnieme najdôležitejšie poznatky z diferenciálneho počtu funkcií viacerých premenných, ktoré budeme v učebnici často používat. 2.4.1 Diferenciál m-tého rádu Definícia 2.34. Nech funkcia n premenných f(x) je m-krát diferencovatel ná v bode 10 x. Potom m-tý diferenciál funkcie f v bode x definujeme v prípade nezávislých premenných x 1,..., x n symbolickým vzt ahom [ d m f(x, x) = x 1 + + ] mf( x n x), (2.17) x1 x n kde x i = x i x i alebo tiež x i = x i + x i pre i = 1,...,n. Podobne označme [ d m f(x, x, ξ) = x 1 + + ] mf(ξ), x n (2.18) x1 x n 10 Aby sme sa vyhli problémom pri používaní indexov, budeme v tejto časti namiesto x 0, resp. x 0 používat označenie x.

Diferenciálny počet 25 pričom je zrejmé, že d m f(x, x) = d m f(x, x, x). Tento výraz sa nám bude hodit pri formulácii Taylorovej vety pre funkciu n premenných. So symbolickými vzt ahmi (2.17) a (2.18) narábame nasledujúcim spôsobom: najprv výraz v zátvorke symbolicky umocníme, potom na prázdne miesto presunieme symbol f( x), čím vznikne m-tá parciálna derivácia f v bode x (môže byt zmiešaná). Príklad 2.12. Určme druhý diferenciál funkcie troch premenných f(x 1, x 2, x 3 ) = x 1 x 2 2x 3 v bode x= (1; 2; 1). Riešenie. Na zjednodušenie vynecháme bod x, v ktorom počítame parciálne derivácie: [ d 2 f(x, x) = x1 x 1 + x 2 x 2 + x 3 x 3 ] 2f( x) = [ 2 = x 2 1 = 2 f x 2 1 ( x 1 ) 2 + 2 x 2 ( x 2 ) 2 + 2 2 x 2 ( x 3 ) 2 +2 [ 2 x 1 x 2 + 2 x 1 x 3 + 2 ] ] x 2 x 3 f = 3 x 1 x 2 x 1 x 3 x 2 x 3 ( x 1 ) 2 + 2 f x 2 2 ( x 2 ) 2 + 2 f x 2 3 ( x 3 ) 2 +2 [ 2 f x 1 x 2 + 2 f x 1 x 3 + 2 f ] x 2 x 3 = x 1 x 2 x 1 x 3 x 2 x 3 = 2(x 2 2) 2 8(x 1 1)(x 2 2) + 8(x 1 1)(x 3 + 1) + 8(x 2 2)(x 3 + 1). Poznámka 2.22. Ak v rovnosti (2.17)použijeme m = 0 dostávame d 0 f(x, x) = f( x). (2.19) 2.4.2 Taylorova veta pre funkciu n premenných Znenie Taylorovej vety pre funkciu n premenných sa vo formulácii používajúcej diferenciály prakticky nelíši od Taylorovej vety pre funkciu jednej premennej. Veta 2.17 (Taylorova). Nech funkcia n premenných f(x) je (m + 1)-krát spojite diferencovatel ná v okolí O( x) bodu x. Potom pre l ubovol ný bod x O( x) existuje také číslo ξ (0, 1), že platí kde f(x) = T m (x, x) + d(m+1) f ( x, x, x +ξ(x x) ) (m + 1)!, (2.20) T m (x, x) = f( x) + m k=1 d k f(x, x) k! = m k=0 d k f(x, x) k! (2.21) sa nazýva Taylorov polynóm m-tého stupňa funkcie f(x) so stredom v bode x.

26 Kapitola 2 2.4.3 Prvý diferenciál, gradient a derivácia funkcie v danom smere Uvažujme teraz výraz pre prvý diferenciál funkcie n premenných. Na základe (2.17) môžeme písat df(x, x) = d 1 f(x, x) = f( x) x 1 (x 1 x 1 ) + + f( x) x n (x n x n ). (2.22) Vektor g = g( x) = grad f( x) = f( x) x 1, f( x),..., f( x) x 2 x n T (2.23) sa nazýva gradient funkcie f(x) v bode x. Ako uvidíme d alej, hrá rozhodujúcu úlohu v teórii optimalizácie. Vektor dx = x = x( x) = [x 1 x 1, x 2 x 2,..., x n x n ] T (2.24) sa nazýva diferenciál funkcie f(x) v bode x. Použitím vektorových označení a definície skalárneho súčinu (2.1) sa zápis prvého diferenciálu výrazne zjednoduší: df(x, x) = g T dx. (2.25) Derivácia funkcie f v smere l Viaceré optimalizačné metódy využívajú krok minimalizácie funkcie f(x) na priamke v n-rozmernom priestore. S tým súvisí aj pojem derivácie funkcie v danom smere. Uvažujme bod x R n a vektor l = [l 1, l 2,..., l n ] T n R dĺžky jedna. Rovnica x = x +t l, t R, predstavuje parametrickú rovnicu priamky v priestore R n, pričom hodnote parametra t = 0 zrejme odpovedá samotný bod x. Všimnime si ešte, že na tejto priamke platí dx = dt l. Ak budeme uvažovat funkciu f(x) len na tejto priamke, dostávame funkciu jednej premennej ˆf(t) = f( x +t l), (2.26) ktorej definičný obor je podmnožinou R. Definícia 2.35. df dl = ˆf (0). Deriváciu funkcie f(x) v smere l v bode x definujeme ako

Diferenciálny počet 27 Veta 2.18 (Výpočet derivácie v smere). Platí vzt ah df dl = f( x) l 1 + f( x) l 2 + + f( x) l n = g T l. (2.27) x 1 x 2 x n Dôkaz. Vypočítajme deriváciu funkcie ˆf(t) v bode t = 0. Na základe definície derivácie zloženej funkcie máme s využitím diferenciálu (2.13), resp (2.25) funkcie f(x) ˆf (0) = d ˆf dt = df = t=0 dt t=0 g T dx dt = g T l dt dt = g T l. Poznámka 2.23. Je dôležité pracovat s vektorom jednotkovej dĺžky. Všetky jeho kladné násobky majú totiž rovnaký smer. 11 2.4.4 Geometrický význam gradientu Skúmajme teraz vzt ah (2.27). Uvidíme, aký je geometrický význam vektora gradientu. Ak uhol, ktorý zvierajú vektory g a l, označíme γ, môžeme skalárny súčin na pravej strane (2.27) zapísat pomocou vel kostí vektorov a kosínusu uhla γ: df dl = g T l = g l cos γ = g cos γ. (2.28) Vzhl adom na to, že vel kost gradientu sa pri zmene vektora l nemení, vel kost pravej strany (2.28) závisí len od uhla γ. Využijeme tento fakt a závery sformulujeme ako vety. Veta 2.19 (O smere najväčšieho rastu funkcie). Funkcia f(x) má v bode x najväčší rast v smere l = g, t. j. v smere gradientu. Dôkaz. Najväčšiu hodnotu rovnú jednej dosahuje cos γ pri uhle γ = 0. Preto má derivácia v smere najväčšiu hodnotu, ak zvolíme smer l totožný so smerom gradientu. V tom prípade bude [ ] df = g. dl max Veta 2.20 (O smere najväčšieho poklesu funkcie). Funkcia f(x) má v bode x najväčší pokles v smere l = g, t. j. v smere antigradientu. Dôkaz. Najmenšiu hodnotu rovnú 1 dosahuje cos γ pri uhle γ = π. Preto má derivácia v smere najmenšiu hodnotu, ak zvolíme smer l totožný so smerom antigradientu. V tom prípade bude [ ] df = g. dl min Veta 2.21 (O izoplochách funkcie). Funkcia f(x) v bode x zachováva hodnotu v smere l, ktorý je kolmý na smer g, t. j. gradient je kolmý na izolínie, resp. izoplochy funkcie f. 11 Pojem smer zahŕňa v tomto prípade ako smer vektora, tak aj jeho orientáciu. Vektor l má opačnú orientáciu, a teda aj iný (opačný) smer, ako vektor l.

28 Kapitola 2 Dôkaz. Ak zvolíme smer l kolmý na smer gradientu g, bude hodnota kosínusu a teda aj derivácie funkcie v smere l rovná nule, t. j. v smeroch kolmých na gradient sa hodnoty funkcie zachovávajú. 2.4.5 Druhý diferenciál, Hesseho matica Na príklade výpočtu 2. diferenciálu funkcie troch premenných na strane 24 sme mali možnost sa presvedčit o tom, že správny zápis druhého diferenciálu nie je jednoduchá vec (nehovoriac už o diferenciáloch vyšších rádov). V praxi sa riešia úlohy, v ktorých sú desiatky (prípadne aj stovky) premenných. Preto je vel mi dobré, že existuje kompaktnejší zápis druhého diferenciálu využívajúci matice. Uvažujme Hesseho maticu 12 druhých derivácií v bode x: H(x) = 2 f x 2 1 2 f x 2 x 1. 2 f x n x 1 2 f x 1 x 2 2 f x 2 2. 2 f x n x 2 2 f x 1 x n 2 f x 1 x 2.... 2 f x 2 n. (2.29) Ak sú všetky parciálne derivácie druhého rádu spojité (budeme to d alej predpokladat ), je Hesseho matica symetrická, t. j. H = H T. Veta 2.22 (O maticovom tvare druhého diferenciálu). f(x) sa dá zapísat v tvare Druhý diferenciál funkcie d 2 f(x, x) = (x x) T H( x) (x x) = dx T H( x) dx. (2.30) Poznámka 2.24. Budeme používat aj výraz d 2 f(x, x, ξ) = dx T H(ξ) dx, (2.31) ktorý sa od druhého diferenciálu líši len tým, že sa parciálne derivácie v Hesseho matici počítajú v bode ξ a nie v bode x. Dôkaz. Čitatel urobí najlepšie, ak si správnost zápisu (2.30) overí samostatne na príklade funkcie dvoch alebo troch premenných. 2.4.6 Diferencovatel né konvexné funkcie Vyššie sme už uviedli vetu 2.10 o tom, že každá konvexná funkcia je spojitá na konvexnej množine X. (Sucharev, Timochov a Fedorov, 1986) uvádzajú ešte silnejšie tvrdenie, že konvexná funkcia na množine X má deriváciu v každom vnútornom bode v každom prípustnom smere. 12 Ludwig Otto Hesse, 1811 1874, nemecký matematik.