1. Reţele Neuronale Artificiale

1. Reţele Neuronale Artificiale 1.1. Introducere Pornindu-se de la performanţele şi capabilităţile remarcabile pe care fiinţa umana le manifestă în diferitele arii de activitate, în particular de la performanţele creierului uman, diferite domenii teoretice, tehnice şi aplicative au încercat şi încearcă să atingă performanţe similare prin copierea diferitelor sisteme şi funcţii ale organismului uman şi nu numai. Creierul uman este o structură paralelă de procesare şi stocare a informaţiei compusă din aproximativ 10 miliarde de neuroni interconectaţi (10 10 ) []. Se estimează că în medie în creierul uman sunt aproximativ 60 de trilioane de conexiuni neuronale. Un neuron are rolul fundamental de a primi, conduce, procesa şi transmite diferite semnale primite de la organele de simţ, diferiţi proprioceptori sau de la alţi neuroni. Fiecare neuron biologic este format din: - corpul celular (soma); - axon axonul transportă semnalele la distanţă faţă de corpul celular, către alţi neuroni sau celule ţintă (de exemplu, motoneuronii care transportă semnalele de la măduva spinării până la musculatura picioarelor au axoni cu lungimi de până la un metru [a]); în final axonul se ramifică într-un număr de terminaţii axonale care se cuplează prin intermediul sinapselor cu dendridele altor neuroni sau direct cu corpul altor neuroni; - arbore dendridic este structura care primeşte semnale de la axonii altor neuroni (de exemplu există neuronii care primesc informaţii de la peste 100.000 de alţi neuroni [a]); - sinapse sinapsele sunt conexiunile ce se realizează la nivelul axonului unui neuron cu dendridele altui neuron. Faţă de structura fundamentală de bază a unui neuron prezentată anterior există o serie de excepţii care ţin de: lipsa axonului (dendridele au rol atât de receptor cât şi de emiţător), atât axonii cât şi dendridele pot forma sinapse cu alţi axoni şi cu alte dendride deci nu numai sinapse de tip axondendridă etc. Cercetătorii W.S. McCulloch şi W. Pitts au propus în anul 1943 primul model neuronal artificial []. Ca o particularitate a acestui model, el este caracterizat de o activare de tip totul sau nimic (ieşirea acestui model neuronal are doar două stări); acest neuron lucrează mai de grabă ca un 99

dispozitiv binar. În Figura 1.1 se prezintă structura generală a unui neuron artificial. Neuronul artificial modelează comportamentul unui neuron real. Astfel, conexiunile dintre neuroni, denumite ponderi sinaptice, sunt folosite în stocarea informaţiei. După o procesare locală a semnalului de intrare funcţie de informaţia stocată în ponderile sinaptice (multiplicarea acesteia cu valorile informaţionale stocate) se produce o integrare (sumare) globală a rezultatelor obţinute proces similar cu cel ce are loc în corpul celular al unui neuron biologic real. Dacă răspunsul global obţinut depăşeşte un anumit prag informaţia este transmisă mai departe. x 1 w 1 x 1 w 1 g( x) d i1 x i w i x w x w Functia de activare x 3 w 3 x 3 w 3 Activarea g(x) f( ) y x d... w d x d w d b Pragul (threshold, bias) Ponderi sinaptice Combinator liniar y f ( g( x) b) f ( d i1 x w b) i i Figura 1.1. Structura fundamentală a unui neuron artificial Reţelele neuronale artificiale (RNA) sunt structuri artificiale care încearcă să copie modul de funcţionare a creierului uman şi sunt construite din mai multe elemente de procesare (EP) sau neuroni artificiali grupaţi în straturi, fiecare strat având un număr variabil de elemente. Trăsăturile fundamentale ale RNA sunt următoarele: sunt structuri distribuite, sunt structuri adaptive, sunt maşini universale de învăţare neliniară. 100

Din punct de vederea al problemelor de clasificare, o reţea neurală dă naştere prin elementele sale de procesare la funcţii discriminant. Topologia reţelei neuronale artificiale este cea care defineşte şi determină numărul şi modalitatea de cuplare a funcţiilor discriminant. Suprafeţele de decizie obţinute prin gruparea acestor funcţii discriminant se modifică o dată cu topologia reţelei şi cu valorile ponderilor fiecărui neuron. Unul dintre avantajele centrale ale reţelelor neurale este acela că sunt suficient de puternice pentru a crea funcţii discriminant arbitrare astfel încât reţeaua neuronală artificială să conveargă către o clasificare optimală. RNA aparţin clasei clasificatorilor semiparametrici. Parametrii reţelei neuronale (ponderile RNA) sunt determinate din setul de date pe baza unui algoritm de adaptare (similar ca în cazul clasificatorilor parametrici) în schimb reţeaua neuronală nu face nici o supoziţie în legătură cu distribuţia datelor cu forma funcţională a funcţiei densitate de probabilitate. Într-o RNA şi, în general, în cazul sistemelor adaptive cel care construieşte reţeaua nu trebuie să specifice parametrii sistemului (valorile ponderilor fiecărui neuron în parte). Valorile acestor parametri sunt extraşi, în mod automat, din datele de intrare şi din răspunsul dorit, folosind ca mijloc pentru atingerea acestui obiectiv anumiţi algoritmi, denumiți de antrenare sau de adaptare. Utilizarea acestor algoritmi pentru modificarea valorilor ponderilor în scopul obţinerii unei clasificări cât mai bune este unul din conceptele fundamentale ale unei RNA. Performanţele clasificării sunt cuantificate folosind pentru aceasta un anumit criteriu de eroare. Utilizarea extensivă a RNA în probleme de aproximare şi clasificare este motivată de abilitatea demonstrată a unei reţele neuronale (RNA) cu două straturi ascunse, antrenată cu algoritmul invers de propagare a erorii, de a aproxima orice funcţie continuă, cu o eroare oricât de mică [Funahashi, 1989] conceptul de maşină universală de învăţare neliniară. Condiţia ca aceste structuri neuronale să fie maşini universale de învăţare este ca pe straturile ascunse să se regăsească un număr suficient de mare de neuroni [Hornik, 1989] astfel încât RNA să aibă puterea necesară îndeplinirii acestei condiţii. Astfel, pentru orice funcţie f definită pe o submulţime D a lui R n : f : D R n R (1.1) putem găsi o aproximare foarte bună F (dată de o reţea neuronală artificială), în sensul unei topologii definită pe D, cu o eroare mai mică decât un arbitrar ales pentru care să avem: f F = sup f (x) F (x) < (1.) xd 101

Conceptual, elemente definitorii în realizarea unei reţele neurale artificiale (a unui clasificator semiparametric), utilizat într-o problemă de clasificare, sunt: selecţia formei funcţiilor discriminant, determinarea numărului funcţiilor discriminant, plasarea lor în spaţiul trăsăturilor și modalitatea optimă de cuplare a lor astfel încât eroarea de clasificare să fie minimă. Acestea generează automat și numărul de straturi ale RNA. Vom discuta în cele ce urmează toate aceste elemente. De asemenea, vom discuta şi analiza algoritmii de antrenare pentru diferite topologii de reţele neurale artificiale. 1.. Modelul neuronal Adaline În cadrul acestui subcapitol vom studia unul dintre modelele "timpurii" ale neuron artificial modelul Adaline (ADAptive LINear Element) [xx]. Acest model este de o mare importanţă conceptuală şi practică. Modelul Adaline este unul utilizat într-o gamă extrem de largă de aplicaţii şi a fost introdus de B. Widrow şi M.E. Hoff la începutul anilor '60 [xx]. Ieşirea y a modelului este descrisă de relaţia: y d i 0 n n k w k x k ; x k 1 i i (1.3) 0 unde w0[k], w1[k],..., wd[k] sunt ponderile sinaptice ale modelului la momentul k, iar x 1 n [k], x n [k],..., x d n [k] sunt intrările modelului date de vectorul de trăsături x n prezentat modelului neuronal la acelaşi moment k, în timp ce d reprezintă dimensionalitatea spațiului de trăsături. Comparativ cu reprezentarea grafică din Figura 1.1 se observă că modelul neuronal Adaline este o particularizare în care funcţia de activare este egală cu unitatea iar pragul este înglobat în model prin intermediul intrării x 0 n [k]. În continuare vom discuta despre două proceduri de determinare (instruire, adaptare) a ponderilor modelului Adaline, descris de ecuaţia (1.3). Ambele proceduri fac parte din categoria procedurilor de instruire supervizată. Acest tip de proceduri utilizează pe lângă setul de date de intrare A = {x 1, x,..., x K } un set de exemplare ce vor caracteriza doritul reţelei neuronale, fiecare element din acest set fiind asociat cu unul din elementele de intrare. Deci, în final vom avea un set de exemplare {x n, dn}, n = 1,,..., 10

K, unde x n este vectorul de intrare în model, x n = [x1 n, x n,..., xd n ] T, ce este aplicat la un anumit moment de timp, iar dn reprezintă ieşirea dorită, corespunzătoare intrării x n. Ponderile modelului se calculează astfel încât pentru fiecare intrare x n, ieşirea yn a modelului să fie cât mai apropiată (conform unui criteriu de performanţă) de ieşirea dorită dn. În literatura de specialitate setul de exemplare {x n, dn}, cu n = 1,,..., K, este cunoscut sub numele de set de antrenare. 1..1. Algoritmul MMSE (Minimum Mean Square Error) În cadrul acestei metode se calculează un vector wopt optim de ponderi astfel încât să fie minimizată eroarea medie pătratică E e : E K 1 e Ed y en ; en dn yn K n1 (1.4) În relaţia (1.4) eroarea e n poartă numele de eroarea instantanee de instruire. Ieşirea neuronului Adaline este dată de: T T y w x x w (1.5) În relaţia (1.5) prin w T şi x T s-au notat vectorii linie care sunt transpuşii vectorilor coloană w (vector ponderi sinaptice) şi x (vector de intrare). Considerând că setul de antrenare este un proces statistic staţionar (estimatorii momentelor statistice variază lent în timp) ecuaţia (1.4) se scrie sub forma: E T T T Ed w Ex x w E{ d x } w e E d y (1.6) T Matricea Ex x Rx este matricea de corelaţie a vectorului aleator real x de intrare. În plus, definim şi vectorul P = E{d x T }. Cu aceste definiţii, relaţia (1.6) devine: T w Ee Ed w R w P w (1.7) de unde se observă că eroarea medie pătratică este o funcţie explicită dependentă de vectorul ponderilor w. Pentru determinarea vectorului wopt, corespunzător minimului erorii pătratice medii, se calculează derivatele funcţiei (w), şi se foloseşte condiţia de extrem: x 103

( w) R w w x P (1.8) Având în vedere faptul că funcţia (w) este pozitivă, rezultă că extremul funcţiei este un minim dat de ecuaţia: R x w opt P 0 (1.9) Din relaţia (1.9) rezultă că vectorul optim al ponderilor sinaptice pentru care se obţine o eroare pătratică minimă este wopt = Rx -1 P. Metoda MMSE poate fi sintetizată prin următoarele etape: 1. având întregul set de antrenare, apriori cunoscut, se calculează matricea de corelaţie a vectorului de trăsături de intrare T Rx Ex x şi vectorul P = E{d x T };. se calculează vectorul optim al ponderilor cu relaţia wopt = Rx -1 P. Metoda MMSE presupune cunoaşterea apriorică a întregului set de antrenare, fiind o metodă de instruire de tip globală sau bloc. În acele situaţii în care nu se dispune apriori de un set de antrenare, sau inversarea matricii de corelaţie a serului de date, Rx, este dificilă, se recurge la următoarea metoda de adaptare (instruire) a ponderilor ce va fi discutată în subcapitolul următor. 1... Algoritmul LMS (Least Mean Square) O altă modalitate de calcul a ponderilor, corespunzătoare minimului funcţiei (w), este dată de metoda de coborârea pe suprafaţa funcţiei de eroare în direcţia pantei celei mai abrupte. Dacă am analiza problema obţinerii erorii minime medii pătratice, dată de relaţia (1.4), pentru un caz unidimensonal considerând, în plus, şi valoarea pragului egală cu zero am obţine următoarea relaţie: n n K K 1 1 n n n w E d y d wx d wd x w x (1.10) K n1 n În relaţia (1.10) dacă considerăm drept variabil numai parametrul w iar ceilalţi parametri sunt ţinuţi constanţi observăm că obţinem o ecuaţie de gradul doi în w a cărui coeficient a termenului pătratic w va fi întotdeauna pozitiv. O posibilă reprezentare grafică a erorii medii pătratice (a relaţiei (1.10)) este dată în Figura 1. (Ex.0). K m1 104

Gradientul pe suprafaţa de eroare într-un anumit punct arbitrar, de exemplu în punctul w c, se poate determina cu relaţia: c c c w w w w w lim (1.11) w 0 w Din relaţia (1.11) se observă că gradientul este direct proporţional cu panta suprafeţei de eroare şi ia valori negative în stânga punctului w* ( = wopt, punct de minim al suprafeţei de eroare) şi valori pozitive în dreapta acestui punct. (w) (w a ) (w a ) (w b ) min (wopt) w wop (w b ) w Figura 1.. Suprafaţa de eroare w Deşi Figura 1. este reprezentată în situaţia unui spaţiu monodimensonal de trăsături ea poate fi generalizată pentru situaţia unui spaţiu d dimensional unde vom obţine o suprafaţă pătratică d dimensională. Această figură ne ajută de asemenea în găsirea unei metode intuitive de determinare a vectorului optim de ponderi wopt prin intermediul unei metode iterative. Astfel, după cum se observă în oricare punct al suprafeţei, direcţia de coborâre pe suprafaţa de eroare este în direcţia negativului gradientului funcţiei, din punctul respectiv. Astfel, punctul de minim poate fi determinat prin aplicarea iterativă a relaţiei: k w k w k w 1 (1.1) T unde w k este gradientul w w w d,,... în w[k], 0 1 iar este o constantă pozitivă denumită constantă de adaptare (de învățare). 105

După cum am demonstrat anterior gradientul erorii pătratice medii se poate calcula prin intermediul relaţiei (1.8) dacă se cunosc matricea de corelaţie a setului de date, Rx, şi vectorul P. Dar există situaţii în care nu dispunem apriori de un set de instruire sau estimarea matricii Rx şi a vectorului P este dificilă. În aceste situaţii se recurge la aproximarea gradientului erorii medii pătratice,, cu gradientul erorii pătratice instantanee. Algoritmii de calcul ai ponderilor rezultaţi în urma acestei aproximări formează clasa algoritmilor de tip gradient stohastic. Algoritmul de tip gradient stohastic utilizat în cadrul modelul Adaline este denumit în literatura de specialitate algoritmul Least Mean Square sau prescurtat LMS. În cadrul procesului de adaptare a ponderilor întregul set de antrenare {x n, dn}, i = 1,,..., K, va fi prezentat modelului neuronal Adaline de mai multe ori până când un anumit criteriu de performanţă este îndeplinit, de exemplu eroarea medie pătratică scade sub o anumită valoare. Prezentarea întregului set de date modelului neuronal poartă numele de epocă de antrenare. Astfel, procesul de adaptare al ponderilor este format dintr-un anumit număr de epoci de antrenare. Eroarea pătratică instantanee a modelului Adaline este definită de relaţia: n d k y k y k w T k x e ; k n n n (1.13) În relaţia anterioară d n este ieşirea dorită corespunzătoare vectorului de intrare x n, iar y n este ieşirea modelului la momentul de timp k calculată pentru vectorul de intrare x n şi vectorul de ponderi w[k], n fiind numărul curent al perechii {x n, dn} din setul de antrenare. Deoarece procesul de antrenare este unul iterativ, după cum s-a prezentat anterior, atingerea criteriului de oprire a procesului de adaptare a structurii neuronale necesită prezentarea de mai multe ori a setului de date de antrenare. Din această perspectivă, vom spune că algoritmul LMS necesită un anumit număr de epoci de antrenare până la atingerea criteriului de convergentă a ponderilor către acele valori ce determină obținerea unei erori globale minime. O epocă de anterenare este formată din toate exemplare { x n, d n } existente în setul de antrenare. Revenind la relaţia (1.13) indicele k precizează momentul de timp în care se face actualiazare; presupunând că suntem în epoca nep (de exemplu, epoca 9) exemplarul n (de exemplu, n = 6) şi o epocă este formată din 100 de exemplare de antrenare (K = 100; n = 1,,..., 100), atunci: k = (nep - 1) K + n (1.14) rezultând pentru exemplul particular anterior: k = 8 100 + 6 = 86. 106

În aceste condiţii, gradientul erorii pătratice instantanee este dat de: n ( e ) e x (1.15) k k Conform relaţiilor (1.1) - (1.15) algoritmul LMS are următoarele etape: 1. se iniţializează vectorul w al ponderilor (în multe situaţii practice pentru iniţializare se folosesc valori mici, generate aleator);. la iteraţia k a algoritmului de adaptare: se aplică un vector de intrare x i modelului; se calculează eroarea instantanee: e k = d i y i (1.16) În relaţia anterioară d i este ieşirea dorită, iar y i este produsul dintre vectorul corespunzător doritului actual, x i, şi vectorului curent de ponderi, w[k]: yi [k] = w T [k] x i (1.17) se modifică vectorul ponderilor cu relaţia: i k 1 wk e x w k (1.18) 3. se opreşte procesul de adaptare a ponderilor o dată cu îndeplinirea unui anumit criteriu global (de exemplu eroarea instantanee coboară sub un anumit prag); în caz contrar se revine la punctul. Problemă 11.1: (a) Dezvoltaţi un program în mediul LabWindows CVI capabil să determine un număr arbitrar de coeficienţi LPC (Linear Prediction Coefficients) prin metoda iterativă LMS. Programul va fi capabil să determine valorile coeficienţilor filtrului FIR predictiv pentru orice serie de timp încărcată dintr-un fişier de tipul TXT în care setul de date este stocat sub forma unei coloane. (b) Pentru un semnal sinusoidal şi unul de tip ECG (aceste semnale se regăsesc în directorul de semnale asociat acestui capitol) determinaţi valorile coeficienţilor modelului prin: metoda iterativă LMS şi prin metoda de modelare autoregresivă Yule- Walker. Numărul coeficienţilor utilizaţi în această modelare va fi cel optim. Acest numărul optim de coeficienţi vor fi determinaţi pentru fiecare serie de timp în parte prin utilizarea erorii de aproximare a metodei Yule-Walker. Comparaţi valorile obţinute prin cele două metode. Explicaţi diferenţele obţinute. 107

Rezolvare: (a) Implementarea programului se găseşte în directorul LMS - predicţie asociat acestui capitol. (b) Acest punct al problemei este temă de casă. Convergenţa algoritmului LMS este asigurată dacă factorul respectă condiţia [Gelfand, 1999]: 0 (1.19) 3 tr unde tr Rx este urma (suma elementelor de pe diagonala principală) a matricii Rx de corelaţie a procesului x de la intrarea neuronului artificial. Valoarea factorului de adaptare este esenţială pentru nivelul performanţelor de instruire ale neuronului Adaline. Algoritmul LMS clasic utilizează un factor de adaptare constant astfel ales încât să se respecte inegalitatea (1.19). Dar, pentru a optimiza performanţele de convergenţă ale neuronului Adaline, trebuie să fie variabil. Astfel, la începutul instruirii trebuie să fie mare pentru a se obţine o rată mare de convergenţă, de coborâre pe suprafaţa de eroare. După ce procesul de convergenţă a intrat într-o fază staţionară este necesar să folosim un mic, pentru a se obţine o valoare medie mică a erorii de instruire. Problemă 11.: Fiind dat un semnal arbitrar (s(t) discretizat s[n]), acesta se va aproxima prin intermediul altuia caracterizat de relaţia 1 : R x y k n am n xm n bm n m n clm n lm n dlm n lm n m1 k m1 k k l1 m1 lm k k l1 m1 lm (1.0) Semnalul ce realiza aproximarea va fi dat de o sumă de componente spectrale caracterizate de următoarele componente: fi : x n] sin [ (1.1) j m j j 1 Acest mod de compunere a unui semnal din aceste componente spectrale este caracteristic modalităţii de generare a undelor EEG în creierul uman. Diferitele unde EEG sunt generate în principal pe baza unor oscilaţii spontane (caracterizate de frecvenţele f i ), de o serie de componente de autocuplare (situate la frecvenţe cu valori de tipul f i ) şi, în final, de o altă serie de componente de intercuplare (f i + f j şi f i f j ). Componentele de autocuplare, precum şi cele de intercuplare apar în special datorită mecanismelor neliniare de interacţiune între diferiţii oscilatori interni din zonele corticale şi cele subcorticale [Bai, 000]. 108

fi : j [ n] sin m j j fi fj : ij n] sin m i m j fi + fj : n] sin m m (1.) [ (1.3) ij [ i j i j (1.4) Să se determine: (a) Relaţiile matematice de modificare a amplitudinilor fiecărei componente spectrale utilizând algoritmul LMS ştiind că funcţia de cost a cărui minim trebuie determinat este: 1 J e n (1.5) În relaţia anterioară eroarea instantanee este dată de: e n s n y n (1.6) (b) Relaţiile matematice de modificare a fazelor fiecărei componente spectrale utilizând algoritmul LMS, în aceleaşi condiţiile ca cele prezentate la punctul anterior. Rezolvare: (a) Relaţia ce va fi utilizată în modificarea iterativă a amplitudinii oscilaţiilor spontane este similară cu (1.1) fiind dată de: a j n a n J a n Derivând funcţia de cost se obţine: a În final se obţine: j i 1 j a j j (1.7) n 1 a n a j a j j n a j e a j 1 e a n j n j n y n a n n a n en x n j (1.8) 1 j a j j (1.9) În mod similar pentru amplitudinile componentelor de autocuplare cât şi pentru cele de intercupare se obţine: b n b n en n 1 (1.30) j j b j j 109

c d ij n c n i en n ij 1 ij c j ij (1.31) n d n en n 1 ij di j ij (1.3) Verificarea corectitudinii acestor relaţiilor, determinate anterior, se poate face şi prin intermediul implementării acestora într-un program şi a testării funcţionării algoritmului. Acest program se află în directorul LMS modelare amplitudine. (b) Acest ultim punct al problemei este temă de casă. Implemetarea programul ce realizează modelarea unui semnal prin intermediul unor oscilaţii spontane, a componentelor intercuplate şi a celor autocuplate prin adaptarea atât a informaţiei de amplitudine cât şi a celei de fază se află în directorul LMS modelare amplitudine si faza. 1.3. Modelul neuronal McCulloch-Pitts 1.3.1. Capacitatea de discriminarea a modelului neuronal McCulloch-Pitts Elementul de procesare sau neuronul McCulloch-Pitts (M-P) este o generalizare a modelului neuronal Adaline şi este compus dintr-o sumă de produse dintre intrările neuronului şi ponderile sinaptice ale acestuia plus o valoare constantă, toate acestea trecute printr-o neliniaritate de tip prag. Ecuaţia de intrare-ieşire al acestui neuron artificail este: y f d gx f w x b i1 i i (1.33) De altfel, modelul neuronului McCulloch-Pitts utilizat la ora actuală, prezentat în relaţia (1.33), este o generalizare a modelului neuronal propus în anul 1943 şi care lucra, atunci, doar cu variabile de intrare binare (0 şi 1) fiind caracterizat de ponderi şi praguri fixe. În relaţia (1.33) d reprezintă numărul de intrări ale neuronului (dimensionalitatea spaţiului de intrare al trăsăturilor), xi reprezintă valorile intrărilor elementului de procesare, wi sunt ponderile iar b este termenul bias sau prag. În cadrul modelului neuronal McCulloch-Pitts funcţia de activare f este o funcţie de tip semn (hard limited) definită prin relaţia: 110

1 dacă x 0 f x (1.34) 1 dacă x 0 Această funcţie de activare neliniară poartă şi numele de funcţie semn. Un astfel de sistem, realizat cu ajutorul unui neuron de tipul M-P, este capabil să separe doar două clase. O primă clasă este asociată valorii +1 a ieşirii sistemului şi cealaltă clasă este asociată valorii -1. Deci, elementul de procesare M-P este compus din: elementul liniar adaptiv (combinatorul liniar), cunoscut sub numele de neuronul Adaline (Adaptive Linear Element), şi o funcţie neliniară. În continuare vom studia şi vom înţelege capacitatea neuronului M-P de a recunoaşte, de a clasifica diferiţii vectori de trăsături. Din punct de vedere al teoriei clasificatorilor, relaţia (1.33) este generatoarea unei singure funcţii discriminant, dată de relaţia: g x d w1 x1 wx... wd xd b wi xi b (1.35) i1 Dar, din punct de vedere medical, fiziologic relaţia anterioară este similară şi modelează potenţialul membranei unui neuron biologic. În paragrafele următoare vom încerca să înţelegem în mod intuitiv ce reprezintă această funcţie discriminant generată de către neuronul M-P. Pentru facilitarea reprezentării grafice şi a înţelegerii intuitive a capacităţilor acestui neuron vom lucra mai departe într-un spaţiu bidimensional de intrare sau de trăsături. În această situaţie putem scrie ieşirea elementului de procesare astfel: 1 dacă w j x j b 0 j1, y (1.36) 1 dacă w j x j b 0 j1, Din relaţia (1.36) se poate observa că valoarea ieşirii neuronului este controlată în mod direct de către termenul: w1x1+ wx+b (1.37) Termenul, anterior prezentat, reprezintă ecuaţia unei drepte. Dar simultan acest termen este chiar funcţia discriminant, g(x1,x), generată de neuronul M-P. Mai mult, această funcţie discriminat este ieşirea pentru un neuron de tipul Adaline. Prin aplicarea funcţiei de activare neuronului Adaline va rezulta un sistem care împarte spaţiul de intrare în două semiplane, unul pentru vectorii de trăsături care sunt evaluaţi cu o valoare pozitivă (+1) şi altul 111

cu vectorii evaluaţi cu o valoare negativă (-1). Ecuaţia pentru suprafaţa de decizie se obţine prin egalarea cu zero a funcţiei discriminant: g x, x ) w x w x b 0 (1.38) ( 1 1 1 Problemă 11.3: Ştiind modalitatea de definire a suprafeţei/suprafeţelor de decizie raportate la funcţiile discriminant a claselor, dovediţi că relaţia anterioară este corectă. Din relaţia (1.38) rezultând: x w b 1 x1 (1.39) w w Suprafaţa de decizie este ecuaţia unei drepte cu panta: m w 1 / w (1.40) ce trece prin punctul (0, b/w), intersectând deci axa x în punctul: b x (1.41) w Această dreaptă se găseşte poziţionată la o distanţă faţă de origine egală cu: b d (1.4) w 1 w Datorită formei şi a semnificaţiei generate de relaţia (1.4) termenul b este cunoscut în literatura de specialitate drept deplasare (bias în engleză). Dacă sistemul caracterizat de ecuaţia (1.33) ar fi liniar, extragerea caracteristicii intrare-ieşire (a funcţiei de transfer) ar fi fost foarte uşor de aflat şi, în final, de vizualizat. Dar din păcate, pentru un sistem neliniar conceptul de funcţie de transfer nu se aplică. Relaţia (1.36) ne poate ajuta să vizualizăm răspunsul neuronului de tipul M-P. Acest exemplu este unul foarte simplu în care ieşirea are doar două valori {-1, 1}, dar de obicei ieşirea este foarte greu de obţinut în mod analitic. Din acest motiv se preferă o determinare a caracteristicii neuronului (a suprafeţei de decizie) printr-o parcurgere exhaustivă a întregului spaţiu de intrare. Suprafaţa obţinută reflectând astfel legătura existentă între intrarea şi Distanţa dintre un punct de coordonate (x 0, y 0 ) şi o dreaptă de ecuaţie a x + b y + c = 0 este: ax0 by0 c d a b 11

ieşirea sistemului neuronal implementat în acest caz particular doar cu ajutorul unui singur neuron de tipul McCulloch-Pitts. În cazul concret al relaţiei (1.38) funcţia discriminant este un plan. Acest plan se intersectează cu planul generat de trăsăturile x1 şi x într-o dreaptă (care este chiar suprafaţa de decizie) a cărei ecuaţie este dată de relaţia (1.38), vezi Figura 1.3. Suprafaţa de decizie g(x1, x) = 0, obţinută la intersecţia funcţiei discriminant g(x1, x) - x Funcţia discrimina -3 - g < 0-1 50 3 5 1 0 0-5 -1 - -50-3 -75-100 1 -b/ w g > 0 3 x1 Figura 1.3. Prezentarea funcţiei discriminant pentru cazul unui clasificator binar Acest exemplu prezentat anterior se poate extinde şi pentru spaţii de intrare multidimensionale, numai că de data aceasta suprafaţa de decizie, liniară în cazul anterior, devine un hiperplan cu o dimensiune mai mică cu o unitate faţă de dimensiunea spaţiul de intrare. Problemă 11.4: Determinaţi ponderile, w1 şi w, precum şi bias-ul, b, pentru modelul neuronal McCulloch-Pitts astfel încât suprafaţa de decizie să fie poziţionată astfel: (a) Să treacă prin punctele (0.5, 0) şi (0, -0.5). În plus, în planul de intrare (x1, x) neuronul să întoarcă o valoare egală cu +1 în partea dreaptă a suprafeţei de decizie, vezi Figura 1.4.(a). (b) Să treacă prin punctele (0.5, 0) şi (0, -0.5). În plus, în planul de intrare (x1, x) neuronul să întoarcă o valoare egală cu +1 în partea superioară a suprafeţei de decizie, vezi Figura 1.4.(b). 113

(c) Să treacă prin punctul (0.5, 0) şi să fie paralelă cu axa x. Simultan mai există și constrângerea ca în planul de intrare (x1, x) neuronul să întoarcă o valoare egală cu +1 în partea stângă a suprafeţei de decizie și -1 în partea dreaptă, vezi Figura 1.4.(c). (d) Să treacă prin punctul (0, 0.5) şi să fie paralelă cu axa x1. În plus, în planul de intrare (x1, x) neuronul să întoarcă o valoare egală cu +1 în partea superioară a suprafeţei de decizie, vezi Figura 1.4.(d). Pentru testarea corectitudinii valorilor calculate utilizaţi implementarea din directorul Exemplul 01 asociat acestui capitol. x x 1 0.5 0.5 1 x 1-0.5 0.5 1 x 1-0.5-0.5-1 (a) (b) x 1 x 1 0.5-0.5-1 - 0.5 0.5 1 x 1 - x 1-0.5 0. - 0.5-0.5 (c) -1 (d) Figura 1.4. Reprezentările grafice ale regiunilor decizionale pentru neuronului McCulloch-Pitts pentru diferite valori ale ponderilor sinaptice şi a biasului în conformitate cu datele problemei precedente 114

În cazul concret al relaţiei (1.35) funcţia discriminant este un plan. Acest plan se intersectează cu planul generat de trăsăturile x1 şi x într-o dreaptă (care este chiar suprafaţa de decizie) a cărei ecuaţie este dată de relaţia (1.38). 1.3.. Tipuri de neliniarităţi Pentru ecuaţia (1.36) decizia aparteneţei unui element la o clasă sau alta este una de tip crisp (elementul aparține sau nu clasei), deoarece funcţia semn este utilizată la ieşirea neuronului. De asemenea, alte tipuri de neliniarităţi pot fi utilizate la ieşirea neuronului. Dintre acestea cele mai cunoscute sunt cele ce au o formă sigmoidală 3. Dintre acestea, cele mai utilizate neliniarităţi sigmoidale sunt cele de tip: logistic (funcție sigmoidală unipolară) şi tangentă hiperbolică (funcție sigmoidală bipolară). f 1 1 x 0 x 0 f x (1.43) f(x) = tanh ( x) (1.44) x 1 exp 1 x (1.45) = 4 = 1 = 0.5 (a) (b) (c) Figura 1.5. Tipuri de neliniarităţi: (a) semn, (b) tangentă hiperbolică şi (c) logistică Pentru ultimile două neliniarităţi, prezentate grafic şi analitic în Figura 1.5, parametrul determină panta neliniarităţii şi în mod uzual ia valoarea 1. Diferenţa majoră între ultimile două neliniarităţi, prezentate în Figura 1.5(b) 3 aceasta funcţie este una monoton crescătoare având o formă de tip S 115

şi Figura 1.5(c), este dată de domeniul de variaţie a valorilor de ieşire. Pentru funcţia logistică domeniul este cuprins între [0, 1] în timp ce pentru funcţia tangent hiperbolică între [-1, 1]. Prin introducerea şi folosirea acestor neliniarităţi am obţinut o generalizare a funcţiilor discriminant pentru neuronul M-P de tipul: y f wi xi b (1.46) i Funcţia dată de (1.46) nu mai este un hiperlan similar cu cel dat de relaţia (1.35) precum la neuronul Adaline. Avantajul fundamental al neliniarităţilor de tip sigmoidal este dat de faptul că acestea sunt derivabile. Derivabilitatea acestor funcţii constituie un avantaj mai ales în cadrul algoritmilor de adaptare nesupervizată când vom folosi derivatele în vederea găsirii minimului suprafeţei de eroare. Ex.. 1.3.3. Elementul de procesare clasificator optimal? Deoarece ieşirea funcţiei logistice ia valori doar în intervalul [0, 1], ne punem întrebarea legitiă dacă acest fapt ne permite o interpretare a ieşirii neuronului drept probabilitate posterioară pentru o distribuţie Gauss-iană a claselor de intrare. Conform regulii Bayes o probabilitate de tip posterioară poate fi scrisă ca: i Pc i x f x c Pci x (1.47) P Iar pentru situaţia particulară când avem numai două clase, numitorul relaţiei (1.47) este dat de: P(x) = f(x c1) P(c1) + f(x c) P(c) (1.48) unde c1 şi c reprezintă cele două clase. Din punct de vedere matematic se poate arăta ușor că: unde 1 Pc x (1.49) 1 1 exp a f a ln f x c1 Pc 1 x c Pc (1.50) Deci, din relaţia (1.49), se poate observa că aceasta este chiar forma neliniarităţii de ieşire logistice, deci putem interpreta ieşirea neuronului drept probabilitatea posterioară a eşantionului de intrare. 116

Astfel pentru o ieșire egală cu 1 avem: 1, (1.51) în timp ce pentru o ieșire egală cu 0 (în situația elementelor aparținând celei de a doua clase) vom avea: 0, 1 1, 1 (1.5) Având în vedere că putem găsi o relaţie matematică liniară între funcţia tangent hiperbolică şi cea logistică putem nu numai echivala reţelele neuronale care utilizează una dintre aceste funcţii dar putem păstra şi interpretarea de tip probabilitate a ieşirii. 1.3.4. Algoritmul de adaptare al ponderilor Plasare funcţiei discriminant generată de neuronul McCulloch-Pitts în spaţiul de intrare al trăsăturilor este dată de: 1. raportul ponderilor acestea controlează panta (orientarea) suprafeţei de decizie, în timp ce. bias-ul controlează cu cât se va transla această suprafaţă de decizie faţă de origine, determinând punctul de intersecţie al acesteia cu ambele axe (x1 şi x) sau numai cu una din ele. Plasare funcţiei discriminant trebuie controlată astfel încât ieşirea să aibă valoare 1 pentru o clasă şi 1 (sau 0 funcţie de tipul neliniarităţii de ieşire utilizate) pentru cea de a doua clasă, deci poziţia funcţiei discriminant trebuie modificată în spaţiul de intrare până în momentul în care vom obţine numărul minim de erori. În cazul bidimensional este foarte uşor să plasăm manual suprafaţa de decizie pentru a obţine separarea corectă a celor două clase. Dar într-un spaţiu multidimensional nu mai avem posibilitatea de a vizualiza poziţia claselor şi deci avem nevoie de o procedură automată pentru poziţionarea suprafeţei de decizie. Pentru a ne atinge acest obiectiv trebuie să: calculăm eroarea instantanee a clasificării (notată cu, egală cu diferenţa între valoarea dorită a ieşirii, d, şi ieşirea reală a neuronului y) şi, în plus, avem nevoie de un algoritm care să minimizeze această eroare. Ex.3. 117

Există mai multe moduri de calcul a erorii globale dar cea mai folosită este eroarea medie pătratică (MSE Mean Square Error). Eroarea medie pătratică este o funcţie de cost dată de: J 1 K K n1 K 1 n d n yn (1.53) K n1 În relaţia (1.53) n este un index pe întreaga mulţime a vectorilor de trăsături avem astfel o mulțime de K vectori de trăsături în cadrul setului de antrenare al rețelei. Scopul clasificatorului este de a minimiza această funcţie de cost prin modificarea ponderilor reţelei. Căutarea vectorului optim de ponderi pentru a minimiza un anumit criteriu este deci în esenţă ideea de bază a algoritmului. Aceeași idee se regăsește la orice altă structură neuronală: trebuie identificați vectorii de pondere optimi, a diferitelor straturi neuronale, care minimizează eroarea sistemului. Din punct de vedere istoric, Rosenblatt [de cautat] a propus în anul 1958 următoarea procedură de minimizare a erorii de clasificare a neuronului McCulloch-Pitts (M-P): se ia un exemplar de intrare (un vector de trăsături) din setul de antrenare şi se calculează ieşirea modelului neuronal, dacă: ieşirea este corectă se trece mai departe la următorul exemplar din setul de antrenare, exemplarul de intrare este incorect clasificat se modifică vectorul de ponderi şi bias-ul modelului neuronal, se execută pașii anteriori pe întregul set de date de câte ori este necesar până când: ieșirea este corectă pentru fiecare element al setului de date, dacă elementele celor două clasele sunt liniar separabile sau eroare a scăzut sub un anumit prag acceptabil pentru clase neliniar separabile. Această procedură este algoritmul de antrenare al perceptronului M-P şi poate fi pusă sub următoarea relaţie analitică: w k wk dk yk xk 1 (1.54) În relaţia anterioară este pasul de adaptare, y este ieşirea reţelei în timp ce d este răspunsul dorit. Problemă: Comparaţi relaţia (1.54) cu relaţia de modificare a ponderilor dată de algoritmul LMS, relaţia (1.18). Exista vreo diferenţă? 118

Ex.4. Din relaţia (1.54) se observă că neuronul învaţă numai când ieşirea greşeşte, deci când vectorul de intrare este clasificat în mod greşit. Deoarece răspunsul dorit poate fi doar -1 şi +1 cantitatea cu care se modifică ponderile este egală cu: w k i i b i x k dacã d k 1 şi sign x k w k 1 (1.55) w k i i b i x k dacã d k 1 şi sign x k w k 1 (1.56) În cazul în care eşantioanele de intrare sunt liniar separabile, deci există o funcţie discriminant liniară care va produce eroare de clasificare zero, soluţia algoritmului de adaptare este un vector de ponderi w * şi un prag b* care satisface relaţia: d * * n sign w x n b i j 0 (1.57) j pentru un index n ce parcurge întregului set de date de intrare. Soluţia pentru cazul bidimensional este o dreaptă caracterizată de ecuaţia x T w * = 0 (vectorul optimal w * trebuie să fie ortogonal pe fiecare vector de date x). Algoritmului de adaptare dat de relaţia (1.54) îi ia un număr finiţi de paşi pentru a ajunge la soluţia optimă numai dacă clasele sunt liniar separabile. Există două probleme majore generate de acest algoritm: În momentul în care ultimul eşantion va fi corect clasificat, funcţia discriminant nu va mai putea fi repoziţionată sub nici o formă. Astfel, acest algoritm de adaptare produce diferite suprafeţe de decizie la diferite iniţializări şi adaptări succesive ale neuronului. Aceste suprafeţe de decizie furnizează o eroare egală cu zero în setul de antrenare, dar eroarea obţinută pe setul de test poate să fie diferită de zero. O poziționare mai corectă a suprafeței determinant ar fi fost în zona punctelor de minim a intersecției funcțiilor de densitate de probabilitate ce caracterizează cele două clase vezi clasificatorul Bayes-ian. Algoritmul de adaptare converge numai dacă clasele sunt liniar separabile, în caz contrar suprafaţa de decizie va oscila în mod continuu. (Ex.4a.) 119

1.3.5. Interpretarea geometrică a modelului neuronal M-P şi a algoritmului de adaptare a ponderilor Pentru o înţelegere intuitivă atât a semnificaţiilor diferitelor elemente ale modelului neuronal McCulloch-Pitts, a interacţiunii dintre acestea cât şi a algoritmului de adaptare a ponderilor, în cadrul acestui subcapitol se va prezenta o interpretare geometrică atât a modelului neuronal McCulloch-Pitts dar şi a algoritmului de adaptare a ponderilor acestui neuron. În continare considerăm ponderile {w1, w} drept punctul final al unui vector w a cărui capăt de început este poziţionat în origine. Observăm de asemenea că locul geometric al coordonatelor {x1, x} care satisfac relaţia (1.38): g ( x1, x ) w1 x1 w x b 0 (1.58) care este chiar suprafaţa de decizie a neronului. Această suprafaţă de decizie o vom reprezenta şi pe ea în mod vectorial prin intermediul unui vector care pleacă din origine şi sfârşeşte într-un punct aparţinând acestui loc geometric. Acest vector îl notăm în continuare cu g. Pentru simplitate în continuare vom presupune că pragul b este egal cu zero şi vom arăta că, utilizând această interpretare geometrică (caracterizată de reprezentarea vectorială w şi g ), vectorul ponderilor va fi perpendicular pe suprafaţa de decizie. Constrângerea anterioară, b = 0, nu influenţează sub nici o formă generalitatea acestei interpretări grafice deoarece ştim dintr-un subcapitol anterior că prin intermediul pragului b se modifică doar punctul de intersecţie a suprafeţei de decizie cu axa x nu şi panta dreptei. x {x1, x} x g(x1, {w1, Figura 1.6. Interpretarea vectorială a poziţiei vectorului de ponderi În acest caz vectorial, produsul din relaţia (1.58), w1 x1 + w x, poate fi interpretat ca un produs intern a doi vectori [w1, w] T şi [x1, x] T. Pentru a satisface g(x1, x) = 0, vectorii w şi g trebuie să fie perpendiculari deoarece produsul lor intern este zero. În concluzie suprafaţa de decizie g(x1, x) = 0 trebuie să fie perpendiculară pe vectorul ponderilor w, vezi Figura 1.6. Cum 10

ponderile neuronului sunt coeficienţii funcţiei discriminant rezultă că ponderile indică direcţia normală a suprafeţei de separaţie în spaţiul de intrare. În plus, întotdeauna vectorul w va fi situat în semiplanul în care răspunsul neuronului M-P va fi +1. Pentru a verifica acest lucru particularizăm funcţia discriminant, g(x1, x), pentru punctul extrem al acestui vector {w1, w}, obţinând: w, w w w w w w w 0 g (1.59) 1 1 1 1 Relaţia (1.59) demonstrează astfel afirmaţia făcută la începutul paragrafului anterior. Problemă: Pentru un neuron M-P caracterizat de următoarele valori ale parametrilor liberi w1 = 10, w = 5 şi b = 0, demonstraţi că în reprezentarea vectorială a acestui neuron, vectorul ponderilor este perpendicular pe suprafaţa de decizie a neuronului. Rezolvare: Parametrii ce caracterizează suprafaţa de decizie sunt w1 m şi intersecţia cu axa x este chiar în originea w sistemului de coordonate. Utilizând aceste informaţii trasăm această suprafaţă de decizie ca în Figura 1.7. Pentru a reprezenta vectorii w şi g trebuie să determinăm pentru fiecare vector în parte punctele extremităţilor lor. Dacă pentru vectorul w rezultatele Figura 1.7 sunt directe, vezi Figura 1.7, pentru vectorul g trebuie să determinăm un punct de apartenenţă a locului geometric dat de suprafaţa de decizie. Orice punct ce aparţine suprafeţei de decizie satisface relaţia g(x1, x) = 0. Dacă, de exemplu, luăm x1 = 5 rezultă automat x = -10. Reprezentarea grafică a vectorului g este prezentată în Figura 1.7. 11

Pentru a demonstra că vectorii w şi g sunt perpendiculari ne putem folosi de interpretarea produsului intern, în mod similar ca în demonstraţia făcută Suprafaţa de anterior în cadrul acestui decizie de x subcapitol, sau putem 10 calcula pantele dreptelor 5 {10, suport a celor doi vectori şi verificăm că între acestea există relaţia mw - -5 5 10 = -1 / mg în această x1 condiţie dreptele suport a vectorilor w şi g sunt -5 perpendiculare. Dacă {5, - dreptele suport a - vectorilor sunt Figura 1.7. Reprezentare grafică a rezultatelor obţinute în cadrul perpendiculare rezultă automat şi că vectorii w şi g sunt perpendiculari. Dreapta suport a vectorului w trece prin punctele {0, 0} şi {10, 5}; ecuaţia acesteia este: x1 0 x 0 10 0 5 0 Dezvoltând relaţia (1.60) obţinem în final: (1.60) x x 1 / (1.61) Constatând că panta dreptei suport a vectorului w este mw = ½ în timp ce panta dreptei suport a vectorului g este mg = -, tragem concluzia că cei doi vectori satisfac condiţia anterioară. De aici rezultă că vectorii w şi g sunt ortogonali. În continuare vom prezenta în mod grafic modalitatea de adaptare a ponderilor pentru modelul neuronal McCulloch-Pitts ce lucrează cu un spaţiu bidimensional al trăsăturilor. În Figura 1.8 se prezintă în mod grafic modalitatea de modificare a suprafeţelor de decizie în situaţia în care vectorii de trăsături E1 şi E sunt incorect clasificaţi, iar ponderile sunt modificate datorită influenţei acestor vectori de trăsături. Suprafaţa iniţială de decizie la momentul de timp n este S1. 1

x x1 S S1 x (a) S3 x1 S1 (b) Figura 1.8. Modalitatea de infuenţare a suprafeţei de decizie de către un elemnt clasificat greşit: (a) aparţinând clasei asociată de clasificator cu valoarea +1, respectiv, (b) aparţinând clasei asociată de clasificator cu valoarea -1 Să presupunem că vectorul de trăsături E1 este utilizat în procesul de adaptare a ponderilor. Deoarece vectorul de trăsături E1 este clasificat incorect, vezi poziţia suprafeţei de decizie S1 în Figura 1.8(a), şi deoarece valoarea dorită pentru acest element este +1 ponderile se vor modifica cu o cantitate dată de relaţia (1.55). Vectorial putem scrie: w n x n (1.6) E1 În acest mod vectorul de pondere w 1, definitoriu pentru suprafaţa de decizie S1, este modificat cu o cantitate, devenind vectorul w. Deoarece vectorul w w, în direcţia elementului E 1 este întotdeauna perpendicular 13

pe suprafaţa de decizie, poziţia noii suprafeţe de decizie obţinută în urma procesului de învăţare este cea reprezentată în Figura 1.8(a) prin dreapta S. Se observă că în acest caz suprafaţa de decizie a fost repoziţionată de influenţa elementul E1 astfel încât acest element să fie corect clasificat. Pentru situaţia prezentată în Figura 1.8(b) abordarea este similară. De această dată elementul E aparţine celei de a doua clase pe care clasificatorul trebuie în final să o asociaze cu valoarea -1 la ieşirea sa. Datorită poziţionării suprafeţei de decizie S1 acest element este clasificat în mod incorect fiind asociat cu o valoare +1 la ieşrea elementului neuronal de procesare McCulloch-Pitts. În această situaţie cantitate cu care se modifică vectorul de ponderi a neuronului este dată de relaţia (1.56). Această relaţie scrisă vectorial devine: w n x n (1.63) Observăm că vectorul w 1 este împins în sens contrar direcţiei vectorului E devenind w 3 ( w 3 w 1 w ). Noua suprafaţă de decizie S3 chiar dacă nu reuşeşte să clasifice în mod corect elementul E este mai aproape de soluţia corectă decât suprafaţa de decizie iniţială, S1. Observăm că din punct de vedere grafic fiecare element din spaţiul trăsăturilor incorect clasificat va împinge sau trage suprafaţa de decizie prin intermediul vectorului de ponderi, care este perpendicular pe acesta. E 1.3.6. Algoritmul delta de antrenare Algoritmul delta de antrenare a fost dezvoltat de McClelland şi de Rummelhart în anul 1986. În cadrul algoritmul LMS aplicat neuronului de tip Adaline se adună la vectorul de ponderi o cantitate proporţională cu produsul dintre eroare şi intrarea reţelei: w n k wk 1 (1.64) Vom încerca mai departe să refolosim ideile de bază conceptuale ale algoritmului LMS pentru antrenarea unui sistem neliniar. Să presupunem că avem o funcţie y = f(x), ideea de bază este aceea de a calcula y/x, deci de a calcula cum se reflectă o schimbare de mică amplitudine în intrare, x, în valoarea lui y deci cât de sensibil este y la schimbările lui x. Acest parametru poate fi numit sensibilitatea ieşirii la o variaţie a intrării: k x 14

y y f (1.65) x f x În mod similar, dacă x este înlocuit cu w ne vom da seama cât de sensibilă este ieşirea sistemului la o schimbare a lui w şi vom modifica vectorul de ponderi proporţional cu această sensibilitate. Singura problemă este dată de faptul că trebuie să trecem printr-o neliniaritate dată de funcţia f. Derivând obţinem: y y g f gx i (1.66) w g w i i În practică avem o eroare la ieşire şi dorim să modificăm toate ponderile astfel încât să minimizăm această eroare. Cel mai simplu mod de a face acest lucru este să distribuim modificările proporţional cu sensibilitatea erorii faţă de fiecare pondere în parte. Dacă vrem să minimizăm eroarea trebuie să facem schimbările cele mai importante în ponderile care afectează cel mai mult valoarea de ieşire şi prin aceasta eroarea. Eroarea instantanee poate fi scrisă: unde: Eroarea medie pătratică este dată de: 1 d y k k n (1.67) n n y n k f wi k xi (1.68) i g n K 1 w k dn yn k (1.69) K n1 Folosindu-ne de relaţiile (1.66), (1.67) şi (1.68) şi ţinând cont că gradientul erorii medii totale pe întreg setul de date este aproximat prin gradientul unei măsuri instantanee a erorii avem: w k i k yn k gnwi k yn k gn wi k n n d y f g x f g x n n n i k n i (1.70) 15

În cazul utilizării gradientului descendent pe suprafaţa de eroare, avem (deci a relației fundamentale (1.1)) : w k wk wk Introducând ecuația (1.70) obţinem: w i 1 (1.71) n k w k x f g 1 (1.7) i Relaţia (1.7) poartă numele de regula delta şi este o extensie a algoritmului LMS pentru sistemele neliniare, cu neliniarităţi derivabile. Deoarece neliniarităţile discutate până acum, într-un subcapitol anterior, se apropie exponenţial de 1 (0) şi de 1, multiplicarea prin derivată reduce termenul care se adună la pondere prin simplul motiv că forma derivatei este de tip Gauss-iană în jurul valorii gn. Derivatele funcţiei logistice şi a celei de tip tangentă hiperbolică sunt: Ex.5 g p y p y p g p.5 y f 1 k i n log istic (1.73) f tanh 0 1 p (1.74) Problemă: Demonstraţi valabilitatea relaţiilor (1.73) şi (1.74). 16

1.3.7. Implicaţiile existenţei neliniarităţii de ieşire În principal existenţa unei neliniarităţii la ieşirea unui neuron determină schimbarea formei suprafeţei de eroare. Forma parabolică a suprafeţei de eroare existentă în sistemele liniare, precum cea prezentată în Figura 1., nu se mai regăseşte în reţelele neuronale neliniare. Se poate observa că suprafaţa de eroare descrie cum costul reţelei se schimbă funcţie de vectorul de ponderi. (Ex.6.). Performanţele reţelei depind de topologia acesteia reflectată prin eroarea obţinută. În momentul în care un element de procesare neliniară este utilizat pentru rezolvarea unei probleme relaţia dintre suprafaţa de performanţă şi vectorul de ponderi devine neliniară şi nu mai există nici o garanţie a existenţei unui singur minim. Suprafaţa de eroare poate avea astfel câteva minime din care numai unul este minimul global, restul fiind minime locale. (w) minim local minim global Ex.7. direcţii ale gradientului Figura 1.9. Suprafaţa de performanţă neconvexă w Minimul care produce cea mai mică eroare este numit minimul global. Acest fapt afectează performanțele obținute, deoarece modalitatea de căutare a minimului, în cadrul algoritmilor de tip gradient, este bazată numai pe o informaţia locală. Dacă ne bazăm numai pe informaţia din imediata vecinătate ne este imposibil de a deosebi un minim local de un minim global. În acest mod putem obţine performanţe suboptimale dacă oprim procesul de învăţare în momentul atingerii unui minim local. Existența minimelor locale, pe suprafața de eroare, generează necesitatea existenței unui număr multiplu de antrenări fiecare antrenare fiind caracterizată de o nouă generare aleatoare a vectorului de ponderi. Astfel, sperăm că ne vom poziționa pe suprafața de eroare în diferite zone și în urma procesului de antrenare algoritmul va determina convergența ponderilor către minimul global. 17

1.4. Perceptronul Perceptronul lui Rosenblatt este un sistem utilizat în recunoaşterea de paternuri descoperit la începutul anilor 1950 şi utilizat în acel moment în cadrul problemelor de recunoaştere a diferitelor caractere (OCR - optical character recognition). Perceptronul este o reţea neuronală formată dintr-un singur strat de neuroni artificiali conectaţi complet prin intermediul ponderilor la intrările sistemului, Figura 1.10. Unul din dezavantajele modelului neuronal de tip M-P este dat de capacitatea acestuia de a discrimina doar două clase. Din acest motiv s-a impus o abordare mai generală a problemelor de clasificare astfel încât un sistem să aibă posibilitatea clasificării unui număr mai mare de clase. Pentru a atinge acest scop topologia sistemului de clasificare a fost modificată în sensul includerii unui strat de M elemente de procesare M-P astfel încât fiecare dintre ele să fie capabile să creeze propria funcţie discriminant în spaţiul d-dimensional de intrare. Avantajul de a avea M neuroni este dat de abilitatea de a determina fiecare neuron să răspundă numai de o anumită zonă a spaţiului. Fiecare neuron va decide dacă vectorul de trăsături prezentat la intrare este sau nu în clasa caracterizată de funcţia discriminant pe care acel neuron artificial o generează. Figura 1.10. Topologia unei RNA de tip perceptronul cu d intrări şi M ieşiri Relaţia matematică care descrie sistemul neuronal prezentat în Figura 1.10 este următoarea: y j f d g j f wijxi bj i1 (1.75) unde j = 1,,, M. Una dintre realizările remarcabile ale lui Rosenblatt, în domeniul rețelelor neuronale, a fost găsirea demonstraţiei care ne asigură că un perceptron 18

antrenat cu ajutorul relației (1.54) poate recunoaşte într-un număr finit de paşi cele M clase, cu condiția ca acestea să fie liniar separabile. Perceptronul are de asemenea proprietatea de a generaliza (de a furniza răspunsul corect pentru vectori de trăsături care aparţin claselor pentru care a sistemul neuronal a fost antrenat, dar acești vectori nu au fost utilizaţi niciodată în setul de antrenare). 11.4.1. Suprafaţa de decizie a perceptronului Un perceptron cu M ieşiri poate divide spaţiul de intrare în M regiuni distincte. Să presupunem că regiunile i şi j au o graniţă comună. Suprafaţa de decizie este o suprafaţă liniară dată de ecuaţia gi(x) = gj(x), unde gi şi gj sunt funcţiile discriminant a claselor i şi j. În total există M(M 1)/ astfel de ecuaţii 4. Regiunile de decizie ale unui perceptron sunt întotdeauna convexe. În momentul în care un neuron din strat răspunde cu o valoare maximă la un vector de trăsături de intrare înseamnă că acel vector se află în interiorul regiunii definite de neuron. Ex.8. Figura 1.11. Posibile suprafeţele de decizie ale unui perceptron 11.4.. Regula delta aplicată perceptronului Din punctul de vedere a regulii de adaptare modificările care apar la trecerea de la un singur neuron la o reţea de tipul perceptron (o rețea neuronală artificială cu un singur strat de neuroni) nu sunt foarte mari. Pentru antrenarea modelului neuronal se utilizează un set de exemplare {x k, d k } (denumit set de antrenare), cu k = 1,,..., K. Singura deosebire față 4 Combinații de M funcții discriminant luate câte (!!! ) 19

de modelul M-P este că de această dată doritul este un vector M dimensional, vezi (1.76). (1.76) Și în cazul regulii delta aplicată perceptronului, gradientul erorii totale (a erorii medii pătratice),, este aproximat cu gradientul erorii pătratice instantanee. În cazul perceptronului funcţia de cost trebuie calculată după o sumă a erorii furnizată de fiecare ieşire şi este dată de: cu: E k 1 M j1 n d j y j k e j (1.77) y j T n k wj k x wij k d i1 x n j (1.78) Adaptarea ponderilor se va face, similar ca la algoritmul LMS, prin intermediul relației: w ij Ek 1 ij (1.79) w k w k ij k În continuare putem rescrie relaţia (1.70) sub forma: E w ij k k E y k j k k k n d y k f g j y j j g j w ij j x g jp j w ij k (1.80) Ex.9. j f g n j x j 130

11.4.3. Marginea de decizie a perceptronului Anterior, am văzut cum regula de adaptare a neuronului McCulloch-Pitts este eficientă dar nu şi eficace deoarece imediat după ce ultimul eşantion a fost clasificat corect procesul de învăţare se opreşte, lăsând suprafaţa de decizie foarte aproape de acest eşantion. Desigur obţinem performanţe maxime în setul de antrenare dar nu şi în setul de test al sistemului. Acesta este motivul pentru care dorim să înlocuim algoritmul de adaptare al neuronului McCulloch-Pitts astfel încât suprafaţa de decizie să fie plasată în valea dintre distribuţiile celor două clase la distanţe egale de cele două frontiere ale claselor. Pentru aceasta trebuie să introducem şi să definim conceptul de margine de decizie. Să presupunem că avem un set de date de intrare şi de valori dorite ale ieşirii S = {(x1, d1), (x, d),, (xn, dn)} cu d = {- 1, + 1} şi avem o funcţie discriminant definită de (w, b). În aceste condiţii se defineşte marginea hiperplanului de separaţie drept o cantitate proporţională cu: min x, w b (1.81) x S unde <> este produsul intern între x şi w. Definim hiperplanul optim drept acea suprafaţă de decizie care maximizează marginea de decizie între cele două clase, Figura 1.1. După cum se vede din toate hiperplanele posibile care separă setul de date, cel optimal este acela care trece la jumătatea distanţei dintre eşantioanele care sunt cele mai apropiate de frontierele celor două clase. x Vectori suport Hiperplan optim Vector suport x1 Figura 1.1. Hiperplanul de separaţie şi marginea acestuia 131

Problema pe care o avem acum este aceea de a găsi acest hiperplan optim. După cum se vede în Figura 1.1 trebuie să găsim acele puncte (vectori de trăsături) care se regăsesc pe frontieră (numiţi şi vectori suport), definind-o, iar ulterior să plasăm funcţia discriminant la mijlocul distanţei dintre ele. Se poarte demonstra uşor, din simple considerente geometrice, că distanţa de la un vector de trăsături x (pentru cazul bidimensional cu care lucrăm de la un punct din plan către o dreaptă) către un hiperplan este dată de: x g d (1.8) w 1.4.4. Algoritmul Adatron În continuare se va prezenta un algoritm simplu, cunoscut sub numele de Adatron care va găsi funcţia discriminant care maximizează marginea de decizie. Acest algoritm este unul secvenţial, care va găsi în mod garantat soluţia optimă cu o rată de convergenţă exponenţială. Pentru a explica acest algoritm de antrenare, trebuie să rescriem funcţiile intrare-ieşire ale perceptronului în termenii unei reprezentări dependente de setul de date. unde: f x x sgn g (1.83) g x N x, w b i x, xi b (1.84) i0 unde <> este produsul intern, N este numărul de eşantioane. Coeficienții i sunt un set de multiplicatori ce cuantizează influența fiecărui vector de trăsături asupra ponderilor deoarece vectorul de ponderi se modifică conform relației (1.54) (mai exact a relațiilor (1.55) sau (1.56)). În Figura 1.13 este prezentată o astfel de topologie care creează o astfel de reprezentare dependentă de setul de date. În această structură prezentată algoritmul de adaptare a perceptronului va modifica ponderile i în locul ponderilor în situaţia existenţei unei erori. Algoritmul adaptiv devine: i n i n xi 1 (1.85) 13

b i n bi n xi 1 (1.86) Figura 1.13. Perceptronul reprezentat ca o structură dependentă de setul de date Algoritmul Adatron aplicat unui neuron de tipul M-P este capabil să distingă numai între două clase. Dacă problema are mai mult de două clase trebuie rezolvată secvenţial ca o decizie de numai două clase. Figura 1.14. Comparaţie între algoritmul Adatron şi regula delta Este foarte util să comparăm algoritmul Adatron prezentat în acest subcapitol cu regula delta prezentată anterior. În cazul regulii delta suprafaţa de decizie este controlată de eşantioanele care produc o valoare a ieşirii care 133

este diferită de valoarea dorită. Aceste eşantioane tind să existe la frontiera dintre cele două clase, deci eroarea medie pătratică este influenţată semnificativ de acestea. Dar, deoarece J conform relaţiei (1.53) este o funcţie continuă a erorii, toate eşantioanele vor contribui într-un mod sau altul la J. În concluzie MSE (Mean Square Error eroarea medie pătratică) este o funcţie dependentă de întreaga distribuţie a setului de date iar localizarea suprafeţei de decizie va fi afectată de forma clusterului de date și de numărul de elemente existent în acel cluster de date (neajunsuri: apar probleme în cazul maladiilor rare). Ex.10. În cazul algoritmului Adatron se observă un comportament diferit. În timpul procesului de adaptare, cea mai mare parte din coeficienţii i se duc către zero iar poziţionarea suprafeţei de decizie este determinată numai de un număr mic de eşantioane situate în imediata vecinătate a frontierei dintre cel două clase. Aceste eşantioane sunt numite vectori suport. Algoritmul de adaptare este astfel insensibil la: (a) forma generală a clusterilor şi se concentrează numai pe o vecinătate de eşantioane din imediata frontieră a celor două clase, Figura 1.14 și (b) numărul elementelor care formează clasele. S x S 1 S 3 P 01 (y = 1) P 11 (y = 0) x 1 x y P00 0 0 0 P01 0 1 1 P10 1 0 1 P11 1 1 0 P 00 (y = 0) P 10 (y = 1) x1 (a) (b) Figura 1.15 (a) Tabelul de adevăr a unei porţi SAU-EXCLUSIV şi (b) distribuţia eşantioanelor în spaţiul trăsăturilor 11.4.5. Limitările perceptronului La fel ca şi modelul neuronal M-P, perceptronul poate rezolva numai acele probleme care au clasele liniar separabile. Problema prototip ce 134

caracterizează clasa problemelor de clasificare neliniar separabile şi care nu poate fi rezolvată de un perceptron este dată de clasificarea setului de date rezultat de la ieşirea, y, a unei porţi sau-exclusiv, vezi Figura 1.15. Indiferent de poziţionarea suprafeţei discriminant, Figura 1.15(b), în cel mai fericit caz va rezulta o grupare în aceeaşi regiune a spaţiului, deci în aceeaşi clasă, a două elemente aparţinând uneia dintre clase dar, din păcate, va exista şi un element aparţinând celeilalte clase. Rezultă astfel obţinerea a cel puţin unei erori de clasificare. În cea de a doua regiune spaţială va exista doar un singur element. Acest element este corect clasificat. Deci, pentru această simplă problemă vom clasifica în mod greşit cel puţin un element. De exemplu, suprafaţa de decizie S 1 grupează în mod corect elementele P11 şi P00 dar în aceeaşi regiune a spaţiului se regăseşte şi elementul P10 care este clasificat incorect. Această problemă este exemplul clasic în care vectorii de trăsături nu sunt liniar separabili şi deci problema nu poate fi rezolvată de către o reţea neuronală artificială de tip perceptron. Ex.11. 135

1.5. Reţeaua neuronală cu un singur strat ascuns 11.5.1. Introducere Perceptronul multistrat (MLP Multi Layer Perceptron) lărgeşte noţiunea de percepron în ideea de a generaliza structura acestuia, a perceptronului, prin introducerea straturilor ascunse. Aceste straturi neuronale ascunse reprezintă de fapt straturi de neuroni care nu sunt legate în mod direct către exteriorul reţelei neuronale artificiale (RNA). În cadrul acestui subcapitol vom analiza rețeaua neuronală cu un singur strat ascuns. În Figura 1.16 se prezintă o reţea de tip MLP cu un singur strat ascuns, cu d intrări, K elemente de procesare ascunse (PE processing elments, neuroni) şi M ieşiri (totpologia aceastei reţele neuronale se notează prescurtat MLP (d- K-M)). În mod normal, elementele de procesare din reţelele MLP au funcţii de activare neliniare derivabile, deci, obligatoriu de tip sigmoidale pentru a asigura continuitatea funcției în orice punct al domeniului de definiție. Utilizarea funcţiilor de activare continui se impune deoarece aceste reţele neuronale sunt caracterizate de algoritmi de adaptare ce impun derivarea funcțiilor de activare ale elementelor ce procesează informația neuronii, poziționați pe diferitele straturi în cadrul RNA. În continuare vom analiza puterea de procesare oferită de elementele neuronale neliniare aparținând stratului ascuns al RNA. Această analiză se va face din punct de vedere al suprafeţelor de decizie obţinute, deci din punct de vedere a puterii de discriminare a acestor RNA. În cadrul acestui subcapitol vom adăuga la percepronul din Figura 1.10 (Subcapitolul anterior 11.4) un nou strat de elemente de procesare, vezi Figura 1.16. Figura 1.16. Un perceptron cu un strat ascuns (d-k-m) Reţeaua neuronală artificială cu un strat ascuns construieşte mapări ale spațiului de intrare în valori de ieşire care rezultă dintr-o serie de compuneri de funcții neliniare, de forma: 136

K d y j f j f i wik xk bi w ji b j, cu j 1, M (1.87) i1 k 1 Maparea rezultantă este una foarte flexibila şi este cea care conferă putere de discriminare RNA. Dificultatea generată de o astfel de mapare stă în principal în dificultatea analizei matematice a structurii neuronale. Scopul pe care îl urmărim în continuare este de a găsi tipul de funcţie discriminant care poate fi creată cu reprezentarea descrisă de relaţia (1.87) pentru a avea astfel o înțelegere intuitivă a rolului diferiților neuroni plasați pe diferite straturi în cadrul RNA. 11.5.. Suprafeţele de decizie Pentru a înţelege conceptual puterea reţelelor neuronale cu un singur strat ascuns vom analiza o astfel de reţea neuronală simplificată topologic. Reţeaua pe care o vom analiza are un singur strat ascuns cu două elemente de procesare, vezi Figura 1.17. În cadrul structurii din Figura 1.17 elementele de procesare au funcţii de activare de tip semn (hard limited). Scopul final este acela de a găsi potențiale funcţii discriminant generate de stratul ascuns al MLP-ului. Conceptual, MLP-ul cu un singur strat ascuns este, de fapt, o înseriere de elemente de procesare (EP) - neuroni. Vom încerca, din aceasta perspectivă, să înţelegem faptul ca cei doi neuroni din stratul ascuns creează, în spaţiul de intrare x1, x, doua funcţii discriminant. Vom nota ieşirea fiecărui element de procesare neuronal poziţionat pe stratul ascuns cu x3 şi x4. Fiecare dintre aceste ieşiri vor fi, de exemplu, +1 deasupra suprafeţei de decizie şi -1 inferior acesteia. Panta suprafeţelor discriminant este dată de raportul ponderilor w1/w şi w3/w4. x w1 w w3 b1 x3 w5 y x w4 x4 w6 b3 b Figura 1.17. Reţea neuronală de tip perceptron cu un singur strat ascuns, MLP (--1) În spaţiul x3, x4 ieşirea ultimului neuron va genera, de asemenea, o funcţie 137

discriminant liniara, ceea ce înseamnă ca se va obţine, de exemplu, un răspuns +1 a ieşirii deasupra (sau dedesubtul) unei linii drepte cu panta data de w5/w6. Adevărata problemă este generată de dorința găsirii răspunsul y în întreg spațiul de ieșire funcție de orice valoare a variabilelor de intrare x1, x a trăsăturilor x1, x. Aceasta reprezintă o problema care ţine de compunerea funcţiilor, cunoscându-se relaţia parametrică (neliniara) dintre x3 şi (x1, x), şi între x4 şi (x1, x). Este foarte utilă și instructivă scrierea tuturor relaţiilor intrare-ieşire sub forma de mai jos: y = f(w5x3 + w6x4 + b3) = f (w5 f1(w1x1 + wx + b1) + (1.88) + w6 f(w3x1 + w4x + b) + b3) = f ( f1 + f + b3 ) Relaţia (1.88) a fost scrisă ţinând cont şi de presupunerea ca ponderile stratului de ieşire sunt w5 = w6 = 1, această particularizare a fost aleasă doar pentru simplificarea prezentării. Fiecare expresie din interiorul parantezelor creează o funcţie discriminant, care conduce la o funcţie cu o valoare pozitiva pe o jumătate de plan (funcţia de ieşire a neuronilor cu ieşirile x3 şi x4 este o funcţie de tip semn). Localizarea tranziţiei în spaţiul de intrare este controlata de funcţiile discriminant ale neuronilor din stratul ascuns, astfel ca expresia din paranteze reprezintă suma a doua funcţii semn, f1 şi f, cu un termen reprezentând deplasarea (bias-ul) b3. În regiunea spaţiului de intrare unde ambele funcţii f1 şi f sunt pozitive, valoarea lui y va fi cea mai mare. Ieşirea y va avea o valoare intermediară în zonele din spaţiu unde doar una dintre funcţiile f1 sau f este pozitiva (dar nu amândouă) şi, în final, exista o arie în spaţiul de intrare unde y are valoarea minimă, unde ambele funcţii f1 şi f iau valoarea minimă posibilă. x valoare +1 Ieşirea x 3 Ieşirea x 4 valoare -1 (a) x 1 x valoare -1 (b) valoare +1 Figura 1.18. (a) Poziţionarea suprafeţei de decizie şi partiţionarea spaţiului dată de primul neuron, (b) Poziţionarea suprafeţei de decizie şi partiţionarea spaţiului dată de cel de al doilea neuron, (c) modul de divizarea al spaţiului de intrare pentru b3 = 0, în cazul în care funcţia de activare a neuronului de ieşire este funcţia unitate x 1 x Ieşirea y x 3, x 4 = +1 y = x 3, = +1 x x 3, = -1 4 = -1 x 4 = +1 y = 0 y = - y = 0 x 3, x 4 = -1 (c) x 1 138

Formele suprafeţelor de decizie finale sunt controlate de plasarea funcţiilor discriminant generate de neuronii poziţionaţi pe stratul ascuns (care, la rândul lor, sunt controlate de valorile variabilelor w1, w, w3, w4, b1 şi b din ecuaţia (1.88)). Trebuie observat, de asemenea, ca valoarea bias-ului b3 este adăugata la rezultatul aferent stratului ascuns. Valoarea lui va dicta daca valoarile de vârf a lui y sunt pozitive (zonele spațiale pentru care y = ) sau, daca vârful şi ambele platouri (y = 0, conform Figura 1.18(c)) sunt pozitive, sau, dacă toate sunt pozitive sau daca toate sunt negative. Deci, rolul bias-ului pentru stratul de ieşire este unul substanţial diferit de ceea ce se înţelege ca fiind un simplu control asupra ieșirii y cum este rolul bias-ul la nivelul stratului ascuns. În cazul stratului de ieșire bias-ul relevă detalii diferite despre compunerea funcţiilor, schimbând efectiv asocierea tuturor valorilor partiţiei create de stratul ascuns. Ponderile de ieşire w5 si w6 asigura flexibilitatea (se pot da ponderi diferite ieşirii fiecărui neuron din stratul ascuns) şi, mai mult, modifică modul în care se mixează ieşirile neuronilor de pe stratul ascuns. x Ieşirea y x Ieşirea y x y = 1 y = 1 Ieşirea y y = 1 y = -1 y = -1 (a) x 1 (b) Figura 1.19. Obţinirea diferitelor zone decizionale funcție de diferitele valori ale parametrului b3, pentru exemplul prezentat în Figura 1.18, ţinând cont şi de funcţia de activare a neuronului de ieşire: (a) b3 = -1, (b) b3 = 1 şi (c) b3 = 3 Problemă: Implementaţi în mediul de dezvoltare neuronal NeuroSolutions o reţea neuronală artificială similară cu cea din Figura 1.17 şi determinaţi ponderile acesteia pentru a obţine zone decizionale similare cu cele din Figura 1.19. Combinarea tuturor valorilor parametrilor relaţiei (1.88) poate genera suprafețe de decizie complexe, generând o mult mai mare flexibilitate a reţelei neuronale cu un singur strat ascuns comparativ cu cea a perceptronului. Este foarte important de observat faptul că adăugând un nou strat la reţeaua neuronală de tip perceptron se modifică în mod calitativ forma funcţiei globale discriminant obţinută. Regiunile de decizie nu mai sunt restricţionate x 1 (c) x 1 139

să fie convexe, întrucât reţeaua are un mecanism mult mai puternic de compunere. Ex.1. (şi XOR) În cazul RNA cu un strat ascuns se pot reţine următoarele caracteristici mai importante: numărul maxim de regiuni distincte ale spaţiului de intrare este controlat de numărul de neuroni situaţi pe stratul ascuns ( K pentru un K mult mai mare decât d ). O afirmaţie alternativa ar fi aceea ca fiecare neuron situat pe stratul ascuns creează o funcţie discriminant liniara; neuronii din stratul de ieşire au capacitatea de a combina o parte din regiunile create de elementele de procesare neuronale situate pe stratul ascuns printr-un efect multiplicativ sau aditiv. Acest aspect creează regiuni de decizie care nu mai sunt convexe; În al treilea rând, există mai multe combinaţii de ponderi care conduc la obţinerea aceeaşi divizări a spaţiului de intrare. În concluzie, clasificarea obţinută folosind o reţea de tipul MLP este una realizabilă prin controlul adecvat exercitat asupra poziţiei funcţiilor discriminant, corespunzător datelor de intrare şi răspunsului dorit. Puterea unei reţele de tipul MLP-ul este dată de modul mult mai flexibil în care se pot combina spaţial suprafeţele de decizie, generate de o anumită topologie a RNA. În plus, există şi algoritmi de învăţare care permit sistemului să descopere în mod automat poziţia funcţiilor discriminant necesare clasificării corecte a datelor de antrenare. x 1 x Out (a) x x1 x Out -1-1 -1 - -1 1 1-1 -1 1-1 1-1 - (b) (-1,1) (1,1) (-1,-1) (1,-1) x 1 (c) Figura 1.0. (a) Reprezentarea grafică a porţii XOR, (b) tabelul de adevăr şi (c) distribuţia caselor pentru o distribuţie a elementelor în spaţiul trăsăturilor similară cu acea furnizată de o poartă sau exlusiv 140

Problemă: Pentru o problemă de clasificare caracterizată de o distribuţie a claselor similară cu cea a unei porţi XOR (Figura 1.0), determinaţi: (a) Tipul neliniarităţii ce trebuie utilizată pentru toţi neuronii reţelei în vederea obţinerii unei clasificări conforme cu tabelul de adevăr prezentat în Figura 1.0(b). (b) Topologia minimală a reţelei neuronale artificiale capabilă să realizeze o partiţionare a spaţiului de intrare astfel încât să fie respectat tabelul de funcţionare din Figura 1.0(b). Justificaţivă răspunsul! (c) Ponderile şi deplasarea (bias-ul) fiecărui neuron în parte astfel încât să se maximizeze marginea suprafeţelor de decizie. Rezolvare: (a) Pentru obţinerea unui răspuns egal cu unitatea pentru anumite elemente ale setului de antrenare şi un răspuns egal cu -1 pentru restul vectorilor de trăsături se va folosi o neliniariate de tip signum asociată neuronului de ieşire. Se poate folosi şi o neliniaritate de tip tangent hiperbolic dar pentru ca regiuea de tranziţie dintre valorile -1 şi +1 a neliniartăţii să nu se facă simţită, ponderile neuronului corespondent trebuie să fie de valori cât mai mari. Pentru a se folosi simultan şi întreaga gamă dinamică a neuronilor, forţată de setul de date de intrare (care ia numai valorile {-1, 1}) se va folosi acelaşi tip de liniaritate şi pentru toţi neuronii din stratul ascuns a reţelei. Neliniaritatea de tip tangent hiperboloic este descrisă de ecuaţia: f activ ( x) tanh( x) (1.89) În continuare pentru toate reprezentările grafice ce vor fi prezentate în continuare valoarea parametrului α a fost aleasă egală cu unitatea. (b) Pentru rezolvarea acestei probleme de clasificare vom utiliza o reţea neuronală cu un singur strat ascuns. Pe primul strat ascuns vor exista doi neuroni care vor partiţiona spaţul în conformitate cu Figura 1.1. Primii doi neuroni de pe stratul ascuns vor realiza două suprafeţe de decizii, notate cu S1 şi S în figura de mai jos. Stratul de ieşire va avea un singur neuron care va cupla zonele determinate de cele două suprafeţe de decizii, S1 şi S, astfel încât pentru zona haşurată sistemul neuronal va întoarce 141

(c) valoarea 1, iar pentru restul spaţiului de trăsături sistemul va genera valoarea -1. Pentru maximizarea marginii suprafeţelor de decizie acestea vor fi plaste în conformitate cu poziţia suprafeţelor prezentate în Figura 1.1. Astfel, intersecţia cu axa x a suprafeţei S1 va fi în punctul -1, iar a suprafeţei S în punctul 1, iar panta ambelor segmente va fi -1. În acest mod distanţele de la vectorii suport la suprafeţele de decizie vor fi egale şi de valori maxime. În plus, vom alege pentru fiecare zonă a planului divizat de suprafeţele de decizie (S1 sau S) un anumit semn caracteristic pe care neuronul liniar (valoarea obţinută înainte trecerii acesteia prin funcţia de activare) îl va asocia acestor zone. S 1 : Panta acestui segment este egală cu -1, deci: m w 1S1, w S1 1 w w 1S1 (1.90) S1 pentru realizarea egalităţii de mai sus alegem w1s1 = - 10 (se putea alege orice altă valoare). Imediat rezultă că ws1 = - 10. x + - 0 (-1,1) (0,1) (1,1) 0 x 1 (1,-1) (-1,-1) (0,-1) - + S 1 S Figura 1.1. Spaţiul trăsătrilor şi plasarea suprafeţelor de decizie a primului strat pentru problema XOR-ului În plus, deoarece s-a ales ca intersecţia cu axa x a segmentului S1 să fie în punctul -1, avem relaţia bs1 1, ws1 din această relaţie rezultă că bs1 = -10. Funcţia discriminant a primului neuron este dată de relaţia: g x, x ) 10 x 10 x 10 (1.91) ( 1 1 Ultima etapă rămasă în determinarea ponderilor primului 14

neuron de pe stratul ascuns este de a verifica semnul asociat zonelor obţinute în urma folosirii funcţiei discriminant tocmai determinate. Pentru acest test se alege punctul de origine a sistemului de coordonate: g ( 0,0) 10 0 10 0 10 10 (1.9) Rezultatul obţinut demonstrează o asociere greşită a semnului pentru cele două zone ale spaţiului de intrare obţinute în urma utilizării acestei funcţii discriminant. Pentru rezolvarea acestei probleme se schimbă semnul bias-ului păstrându-se toate celelalte constrângeri (panta segmentului şi intersecţia cu axa x). Rezultatul final este: w 1S1 = 10, w S1 = 10 şi b S1 = 10. S : În vederea determinării parametrilor pentru cel de al doilea neuron, de pe stratul ascuns, paşii care trebuie urmaţi sunt similari. Astfel, în final se obţin următoarele valori: w 1S = -10, w S = -10 şi b S = 10. O: Prin cuplarea directă a ieşirilor neuronilor din stratul ascuns (sumarea directă a ieşirilor) se obţine o distribuţie a valorilor de ieşire funcţie de o anumită zonă a spaţiului conformă cu cea din Figura 1.1 valorile încercuite din cele trei zone. Deoarece se doreşte obţinerea unei valori unitare în zona haşurată şi -1 în restul spaţiului, după trecerea ieşirii ultimului neuron prin neliniritate, trebuie să avem valori pozitive în zona haşurată şi valori negative în restul spaţiului. Dar, aceste valori ce se vor obţine trebuie să fie cât mai mari posibile pentru saturarea nelinirităţii de ieşire şi obţinerea unor valori cât mai apropiate de -1 şi 1 a ieşirii reţelei neuronale artificiale. Din aceste motive se aleg pentru vectorii de pondere valorile: w 1o = 10 şi w o = 10. Utilizând aceste valori vom obţine pentru zona haşurată valoarea 0 şi 0 în rest. Utilizând un bias egal cu b o = -10 rezultă că în zona haşurată se va obţine o valoare egală cu +10 iar în restul spaţiului de trăsături reţeaua neuronală artificială va genera o valoare egală cu -10. Prin trecerea acestor valori prin neliniaritatea de ieşire se va obţine o partajare corectă a setului de date conform cerinţelor impuse în tabelul din Figura 1.0(b). Partiţionările spaţiului de trăsături obţinute la ieşirea reţelei neuronale şi la ieşirile celor neuroni de pe stratul ascuns prin 143

utilizarea ponderilor determinate anterior sunt prezentate în Figura 1. în aceste figuri prin culoarea alb se simbolizează o valoare egală cu unu, iar prin culoarea negru o valoare egală cu -1. (-1,1) (1,1) w1s1 (-1,-1) (1,-1) (-1,1) (1,1) x 1 x ws ws1 w1s w1o wo Out (-1,1) (1,1) (-1,-1) (1,-1) (-1,-1) (1,-1) Figura 1.. Topologia reţelei neuronale utilizată în clasificare şi suprafeţele de decizie realizate O reprezentare grafică tridimensională a ieșirii globale a sistemului este prezentată în Figura 1.3. Out 1 0-1 -1.5-1 -0.5 0 0.5 1 x1 1.5 1 0.5 0 x -0.5-1 1.5-1.5 Figura 1.3. Suprafaţa de decizie a reţelei neurale artificiale 144