Prefata Chiar daca acest material este suportul cursului de Retele neurale, de-a lungul timpului acest curs a ^nceput sa contina capitole noi, la inte

Despre autori Începând cu anul universitar 99/99, Razvan Andonie a predat un curs de Retele neurale la Universitatea "Transilvania", specializarile Electronica si calculatoare, Electrotehnica, Informatica. Acelasi curs l-a predat la Universitatea Texas din San Antonio, SUA, ^n anul universitar 999/000. Angel Cataron a facut parte din prima generatie de absolventi care au frecventat acest curs. În perioada 99-999, el a predat cursul de Retele neurale la Universitatea "Transilvania", specializarea Electronica si calculatoare. Pe lânga aceasta, el este coordonatorul orelor de laborator pentru acest curs si este doctorand ^n domeniul retelelor neurale.

Prefata Chiar daca acest material este suportul cursului de Retele neurale, de-a lungul timpului acest curs a ^nceput sa contina capitole noi, la interferenta retelelor neurale cu sistemele fuzzy si algoritmii genetici. Aceasta este ^n concordanta cu tendintele actuale ^n lume. De aceea, am preferat denumirea de inteligenta computationala. Inteligenta computationala, asa cum a fost denita de Bezdek, are ca obiectiv modelarea inteligentei biologice. Din acest punct de vedere, ea este similara domeniului numit inteligenta articiala. Spre deosebire de inteligenta articiala, care este bazata pe notiunea de cunostinta, inteligenta computationala este o modelare numericaainteligentei biologice. Putem vorbi deci de trei tipuri de "inteligenta": biologica, articiala si computationala. Inteligenta computationala este formata din urmatoarele subdomenii: retele neurale, algoritmi genetici, programare evolutionara, sisteme fuzzy, viata articiala. În contextul inteligentei computationale, toate aceste subdomenii sunt legate de modelarea numerica ainteligentei biologice. Acest curs acopera majoritatea subdomeniilor inteligentei computationale. Fiecare capitol ofera, pe lânga informatii teoretice, câte o sectiune de aplicatii, urmata de un set de exercitii, cele marcate prin (C) ind destinate implementarii pe calculator. Bezdek, J. "On the Relationship Between Neural Networks", Pattern Recognition and Intelligence, Int. J. Approximate Reasoning,, 85-0, 99.

Cuprins Preliminarii ^n calculul neural 9. Calculul neural: exemple....................... 0. Istoricul dezvoltarii retelelor neurale.................. Viitorul................................ 8 Concepte fundamentale 9. Neuronii biologici si modelele lor articiale............. 9. Modelarea retelelor neurale....................... ^Invatare si adaptare........................... Reguli de ^nvatare............................5 Exemple................................ 0. Exercitii................................ 8 Perceptroni monostrat 5. Clasicare............................... 5. Functii discriminant......................... 55. Clasicatori liniari.......................... 5. Perceptronul discret ca dihotomizator liniar............ 59.5 Perceptronul continuu ca dihotomizator liniar............ Teorema de convergenta aperceptronului............... Retele monostrat de perceptroni................... 8.8 Exemple................................ 9.9 Exercitii................................ Retele neurale feedforward multistrat 9. Clasicarea pattern-urilor liniar neseparabile.............................. 9. Regula de ^nvatare delta....................... 80. Regula delta generalizata....................... 8. Algoritmul de instruire backpropagation.............. 8.5 Factori ai ^nvatarii.......................... 89. Aproximatori universali........................ 9. Teorema lui Kolmogorov si retelele neurale............. 9.8 Aplicatii................................ 95.9 Exemple................................ 9 5

CUPRINS.0 Exercitii................................ 00 5 Retele neurale feedback monostrat 0 5. Retele Hopeld cu timp discret................... 0 5. Retele Hopeld cu timp continuu.................. 0 5. Aplicatie: problema comis-voiajorului................ 5. Exemple................................ 5.5 Exercitii................................ Memorii asociative 5. Concepte de baza........................... 5. Asociatori liniari............................ Memorii autoasociative recurente.................. 0. Analiza performantei......................... 5.5 Memoria asociativa bidirectionala (MAB).............. Exercitii................................ Retele neurale cu auto-organizare 5. Retelele Hamming si MAXNET................... 5. Instruirea nesupervizata a clusterelor................ 8. Harti Kohonen............................ 50. Exercitii................................ 5 8 Retele neurale RBF 59 8. Functii radiale............................. 59 8. O tehnica degrupare (clustering).................. 8. Discutie................................ 9 Retele neurale fuzzy 5 9. Logica fuzzy.............................. 5 9.. De ce logica fuzzy?...................... 5 9.. Logica fuzzy si cea conventionala.............. 9. Retele neurale fuzzy......................... 9 9.. Neuroni fuzzy......................... 9 9.. Structura unei RNF..................... 9.. Algoritmul de instruire a unei RNF............. 9.. Analiza RNF......................... 9..5 Rezultatele simularii..................... 9.. Concluzii........................... 5 0 Algoritmi genetici 0. Introducere.............................. 0. Exemplu................................ 8 0. Fundamente matematice....................... 80 0. Exercitii................................ 8

CUPRINS Puterea si complexitatea de calcul 85. Masina Turing............................. 85. Puterea de calcul aretelelor neurale................. 8. Reprezentarea functiilor booleene.................. 88. Complexitatea instruirii....................... 90 Consideratii epistemologice 9. Scopul unei retele neurale...................... 9. Functiile neurale biologice sunt localizate sau distribuite?..... 9. Este neliniaritatea esentiala ^n calculul neural?............................ 9. Deosebiri esentiale.......................... 95.5 Cum pot programate calculatoarele neurale................................. 9. Poate creierul sa seautoperceapa?.................. 9 A Complemente matematice 99 A. Vectori si matrici........................... 99 A. Forme patratice............................ 00 A. Elemente de geometrie analitica................... 0 A. Operatia XOR............................. 0 A.5 Iacobianul si hessianul........................ 0 A. Probleme de optimizare....................... 05 A. Metoda lui Euler (metoda tangentei)................ 0 A.8 Stabilitatea sistemelor dinamice neliniare.............. 08 A.9 Variabile aleatoare.......................... 09 B Subiecte-tip pentru examen C Link-uri 5 Bibliograe

8 CUPRINS

Capitolul Preliminarii ^n calculul neural Calculul neural se efectueaza pe o retea densa de noduri si conexiuni. Aceste noduri lucreaza ^n mod colectiv si simultan si se numesc neuroni articiali, sau neuroni. Neuronii pot opera, de exemplu, ca sumatoare sau comparatoare. De obicei, neuronii lucreaza ^n paralel si sunt congurati ^n arhitecturi regulate. Astfel, ei pot organizati pe nivele ierarhice si se permit conexiuni feedback ^n cadrul unui nivel sau conexiuni feedback catre nivelele adiacente. Puterea ecarei conexiuni este exprimata printr-o valoare numerica numita pondere, care poate modicata. Domeniul retelelor neurale este cunoscut si sub denumiri similare: neurocalcul, conexionism, procesare paralela distribuita, sisteme adaptive, retele cu autoorganizare etc. Aceasta varietate indica de fapt tot atâtea perspective din care se studiaza retelele neurale. Retelele neurale functioneaza ca retele paralele distribuite. Caracteristica lor de baza este arhitectura. Unele retele sunt caracterizate de comportarea lor ^n timp, de dinamica lor. Retelele neurale difera ^ntre ele prin modul de ^nvatare: exista o varietate de reguli de ^nvatare care stabilesc când si cum se modica ponderile conexiunilor. În ne, retelele difera prin viteza si ecienta de ^nvatare. Spre deosebire de calculatoarele conventionale, care sunt programate sa efectueze anumite lucrari, majoritatea retelelor neurale trebuie sa e ^nvatate (sau instruite). Ele ^nvata noi asocieri, noi pattern-uri, noi dependente functionale. Dupa cum vom vedea mai târziu, faptul ca retelele ^nvata reguli si algoritmi ^nlocuieste programarea necesara ^n calculul conventional. Utilizatorii retelelor neurale nu specica un algoritm care sa e executat de catre un anumit neuron, cum s-ar ^ntâmpla pe o masina traditionala. În loc de aceasta, ei aleg o conguratie care li se pare cea mai buna arhitectura, specica toate caracteristicile neuronilor si ponderile initiale, apoi aleg modul de instruire pentru retea. În urmatoarea faza, sunt aplicate diferite date de intrare din care reteaua ^si extrage cunostinte, adica ^nvata. Ca rezultat, reteaua acumuleaza informatie care poate apoi utilizata. Calculul cu retele neurale se situeaza^ntre inginerie si inteligenta articiala. Se folosesc tehnicile matematice ingineresti clasice, dar si metode euristice specice inteligentei articiale. 9

0 CAPITOLUL. PRELIMINARII ÎN CALCULUL NEURAL În acest sens vom raspunde la urmatoarele ^ntrebari: Cum poate instruita ecient o retea si cum se ^nvata ea? Ce modele de neuroni trebuie folosite? Care sunt cele mai adecvate arhitecturi pentru anumite clase de probleme? Care sunt cele mai bune metode pentru a extrage cunostintele acumulate ^ntr-o retea? Care sunt aplicatiile tipice pentru calculul neural si cât de eciente sunt aceste aplicatii? Retelele neurale au atras atentia specialistilor din numeroase discipline. Neurobiologii sunt interesati ^n modelarea retelelor neurale biologice. Fizicienii sunt atrasi de analogiile dintre retelele neurale si sistemele dinamice neliniare pe care le studiaza. Matematicienii sunt fascinati de potentialul modelarii matematice aplicat ^n sistemele foarte mari si complexe. Inginerii ^n electronica si calculatoare aplica retelele neurale ^n procesarea semnalelor si construiesc pe baza retelelor neurale circuite integrate inteligente. Psihologii cauta ^n retelele neurale structurile prototip care modeleaza procesarea informatiei de catre om. În ne, informaticienii sunt interesati ^n posibilitatile de calcul ale retelelor masiv paralele ^n domeniile inteligentei articiale, teoriei calculabilitatii, modelarii si simularii etc.. Calculul neural: exemple Ne propunem sa dam câteva exemple de utilizare a retelelor neurale ^n rezolvarea unor probleme reale. Clasicatori si sisteme automate de orientare ^n spatiu Vom deni retelele neurale care raspund instantaneu datelor de intrare. Pentru ^nceput, vom analiza performantele unui simplu clasicator, apoi vom extinde aceasta problema. Fie P 0 P ::: P opt puncte ^n spatiul tridimensional. Multimea consta din toate vârfurile unui cub tridimensional: fp 0 (; ; ;) P (; ; ) P (; ;) P (; ) P ( ; ) P 5 ( ; ) P ( ;) P ( )g Consideram doua clase de puncte:. puncte cu doua sau mai multe coordonate pozitive: P, P 5, P, P. restul de puncte.

.. CALCULUL NEURAL: EXEMPLE x x x date de intrare nod element sumator comparator Σ + suma sgn(.) ponderata ponderi clasa Figura.: Clasicator realizat cu o singura unitate. P (-,0,) P (0,-,) P 5 P x +x +x =0 P 0 P P P Figura.: Partitionarea spatiului cartezian. Pentru orice punct P i (x x x ), i = :::, apartenenta la una dintre clasele de mai sus poate stabilita prin urmatorul calcul: ( pentru clasa sgn(x x x )= ; pentru clasa Aceasta expresie descrie functia de decizie a unui clasicator. Nu este necesara o instruire a acestui clasicator. Reteaua neurala rezultata este extrem de simpla (g..). Am realizat clasicarea printr-o singura unitate, sau nod de calcul. Aceasta implementeaza^nsumarea cu ponderile respective ( ^n acest caz) si este urmata de o comparare cu prag. De fapt, se realizeaza o partitionare a spatiului cartezian tridimensional prin planul x + x + x =0(g..).

CAPITOLUL. PRELIMINARII ÎN CALCULUL NEURAL Punctele de deasupra planului fac parte din clasa, iar punctele de dedesupt din clasa. Problema pe care ne-o punem este daca o functie continua nu poate mai avantajoasa (g..). f( Σ) Σ - Figura.: Functie continua de decizie. În acest caz, datele de iesire pot ^n intervalul dintre - si. Folosirea neuronilor cu caracteristici continue ofera posibilitati mult mai mari. Se obtine ogranularitate (o ranare) mai mare a datelor de iesire. Neurologii folosesc electro-encefalograma (EEG) care preia pe mai multe canale impulsurile electrice ale creierului. Evaluarea EEG este dicilasi de aceea se face de obicei de catre neurologi calicati. Pentru o monitorizare pe calculator, sa ne concentram pe un caz concret: detectarea unei iminente crize de epilepsie. Este nevoie de o prelucrare on-line a semnalelor EEG. În 990, Eberhart si Dobbins au realizat detectarea semnalelor EEG pentru crizele de epilepsie folosind un clasicator neural. Datele sunt monitorizate prin patru canale de interes. Semnalele EEG sunt esantionate de 00 sau 50 ori pe secunda ^ntr-o fereastra de 0 ms. Aceasta are ca rezultat obtinerea a 8 sau 0 de esantioane de date pentru ecare canal. Aceste esantioane trebuie evaluate si sunt introduse ^ntr-o retea neurala de0deunitati interconectate, cu caracteristici continue. Un total de de unitati aranjate pe trei nivele ierarhice proceseaza datele. Doua unitati de iesire sunt utilizate pentru identicarea vârfurilor de semnal. Reteaua a fost elaborata de o echipa de ingineri si neurologi. Dupa ce a fost instruita, reteaua a dat rezultate excelente dovedindu-si utilitatea ^n spitale. Sa consideram un alt exemplu: proiectul ALVINN (Autonomous Land Vehicle In a Neural Network), raportat de Pomerleau (989). Reteaua ALVINN preia imagini ale drumului printr-o camera si printr-un laser care detecteaza profunzimea obiectelor. La iesire este generata directia pe care trebuie sa circule autovehiculul pentru a urma drumul. Arhitectura retelei este cea din gura..

.. CALCULUL NEURAL: EXEMPLE unitate de feedback pt. intensitatea drumului... 5 unitati de directie... 9 unitati imagine 0x (intrare)... profunzime 8x (intrare) Figura.: Arhitectura retelei ALVINN. Informatia video este o retina de 0x care sesizeaza ^n albastru (ofera cel mai bun contrast). Unitatea de feedback regleaza contrastul. Cele intrari conduc spre 9 unitati cu functie continua. Unitatea din mijlocul celor 5 de unitatideiesire aratacât de puternica este tendinta deamerge^nainte. Unitatile din stânga-dreapta reprezinta tendintele de a o lua la stânga-dreapta. Unitatile din extremitatile stânga si dreapta corespund virajelor stânga-dreapta cât mai accentuate. ALVINN a fost instruit prin imagini sintetizate pe calculator. Performantele obtinute au fost comparabile cu caracteristicile celor mai bune sisteme traditionale de orientare prin vedere articiala. Capacitatea sistemului ALVINN de a pastra directia drumului nu a fost implementata prin programare (algoritm), ci se bazeaza pe cunostintele asimilate prin instruire. Dupa / ora de instruire, sistemul era capabil sa se orienteze singur pe drum. Altfel ar fost necesare luni de zile pentru dezvoltarea algoritmilor care sa recunoasca pattern-urile din imaginile preluate. S-au facut observatii interesante. Astfel, reteaua s-a comportat mai bine dupa ce a fost instruita sa refaca erori de conducere. Prin aceasta, reteauasi-a dezvoltat masurile de corectare a conducerii. Memorie simpla si restaurarea pattern-urilor Vom discuta acum despre retele neurale care raspund ^n timp datelor de intrare (un pattern ^n acest caz). Deoarece ele fac acest lucru ^ntr-un mod foarte caracteristic, prin reconstructia treptata a unui pattern memorat, vom numi aceste

CAPITOLUL. PRELIMINARII ÎN CALCULUL NEURAL retele memorii. Fie reteaua simpla din gura.5. - + unitatea Σ sgn(.) o - unitatea Σ + sgn(.) - - unitatea Σ + sgn(.) o o Figura.5: Retea memorie. Reteaua consta din trei unitati care calculeaza valorile functiei signum, trei noduri de ^nsumare si sase ponderi care pot. Semnalele care trec prin ponderi sunt ^nmultite cu valoarea ponderilor. Presupunem ca reteaua este initializata la iesire cu o = o = o = (cazul, tab..). Când se permite retelei sa calculeze, intrarile la unitatile si sunt 0, ^n timp ce la unitatea este -. Ca rezultat, o si o nu se modica, deoarece sgn(0) nu este denit, ^n timp ce o devine -. Urmeaza cazul, care este o iesire nala deoarece nu se mai poate modica. Cazurile si sunt alte exemple de tranzitii posibile. Observam ca si cazurile si duc apoi la cazul, operând câte o singura modicare. Iata cum se reprezinta geometric aceste actualizari efectuate de reteaua de tip memorie descrisa. Se vede ca P ( ;) este iesirea stabila a memoriei. Când o singura componenta a vectorului de initializare binar (o, o, o ) difera de P, reteaua corecteaza aceasta componenta. Iesirea este apoi mentinuta constanta. Daca P reprezinta descrierea corecta a unui pattern, iar P, P, P variante distorsionate ale lui P, memoria are capacitatea de a restaura variantele distorsionate asimilându-le cu P (g..). Acest concept de memorie poate extins cu usurinta la lumea reala a aplicatiilor. Probleme de optimizare Retelele neurale pot aplicate cu succes pentru rezolvarea unor probleme de optimizare.

.. CALCULUL NEURAL: EXEMPLE 5 Tabelul.: Exemple de tranzitii ale retelei tip memorie. X ^nseamna sgn(0), iar iesirile ^ncadrate sunt cele care se modica. Cazul Nr. unitatii Iesirea actuala sgn() Iesirea urmatoare 0 X 0 X - - - - - - - - - 0 X - 0 X - 0 X - - 0 X - Sa presupunem ca valoarea analogica x, 0 x 5 trebuie digitizata^ntr-un numar binar v v 0, (v v 0 f0 g), astfel inc^at x v + v 0 : Exista, evident, patru posibilitati: 00, 0, 0,. O retea similara cu memoria din exemplul precedent poate rezolva aceasta conversie (g..). Reteaua consta din doua unitati cu caracteristici continue, ecare cu raspuns ^n intervalul dintre 0 si. La cele doua unitati, retelei i se mai adauga unnumar de elemente de interconectare pe care nu le specicam. Conversia corespunde minimizarii erorii de conversie A/D, unde eroarea este (x ; v ; v 0 ),^n prezenta restrictiei v 0 v f0 g. Aceasta problema de minimizare este rezolvabila de catre o anumita clasa de retele neurale. Caracteristic acestei clase este ca se minimizeaza asa numita functie de energie pe parcursul calculului. Proprietatea de minimizare a energiei este de importanta foarte mare si se formuleaza astfel: reteaua ^si cauta singura energia ei minima si se stabilizeaza acolo. O serie de probleme de optimizare se transpun direct ^n minimizarea functiei de energie a unei retele neurale. Minimizarea energiei de catre retea poate considerata analoga minimizarii erorii de conversie A/D. Clasa de retele neurale exemplicata prin conversia A/D este utilizabilasi pentru probleme de optimizare combinatorica^n care complexitatea este exponentiala sau, mai rau, ^n ordinul lui n!. ^In aceste probleme, este important sa se reduca ordinul timpului de cautare. Retelele neurale ofera si ^n acest sens o alternativa.

CAPITOLUL. PRELIMINARII ÎN CALCULUL NEURAL P P P 5 P P P 0 cazul cazul P P cazul cazul Figura.: Actualizarile efectuate de reteaua de tip memorie. Detectarea gruparilor si a trasaturilor O clasa importanta de retele neurale pot utilizate pentru detectarea gruparilor de date. Aceste retele sunt calate pe anumite aspecte de similaritate ^n datele evaluate. De exemplu, se poate sa m interesati ^n a grupa anumite rezultate de masurare ^n scopul eliminarii erorilor sistematice care pot aparea ^n timpul masurarii. Deoarece zgomotul este aleator, el nu formeaza grupari, ci doar perturba formarea gruparilor reale de date. Detectarea gruparilor si trasaturilor prezinta importante proprietati de autoorganizare care sunt legate de inteligenta articiala si teoria informatiei. Retelele din aceasta clasa au ^n general arhitecturi simple, dar subtilitatile apar ^n timpul procesului de autoorganizare. Detectarea trasaturilor se raporteaza la reducerea dimensionalitatii datelor. De exemplu, semnalul vorbirii consta din 5 canale de frecventa audio. Fonemele sunt deci descrise ^ntr-un spatiu 5-dimensional. Problema este ca nu putem reprezenta astfel fonemele, deoarece capacitatea noastra devizualizare se reduce la trei dimensiuni. Utilizând o retea neurala, este posibil sa reprezentam spectrul 5-dimensional al vorbirii ^ntr-un tablou ^n plan. Secventa fonemelor unui cuvânt formeaza o traiectorie specica ^n plan. Aceste harti fonotopice pot foarte utile ^n construirea masinilor de scris fonetice, ^n ^nvatarea vorbirii si pentru terapie.

.. ISTORICUL DEZVOLT ARII RET ELELOR NEURALE unitatea 0 v 0 intrare analogica x retea de interconectare unitatea v iesire digitala Figura.: Diagrama bloc a unui convertor A/D pe doi biti.. Istoricul dezvoltarii retelelor neurale McCulloch si Pitts (9) au propus primul model pentru neuron. Acest model include toate elementele pentru a efectua operatii logice, dar la acel nivel tehnologic era imposibil de implementat. Donald Hebb (99) a propus un model de ^nvatare pentru a actualiza conexiunile neuronului, cunoscut acum ca regula hebbiana de ^nvatare. El a formulat ideea ca informatia poate memorata ^n conexiuni. Primele neurocalculatoare au fost construite ^n anii '50 (Minsky, 95). Ele ^si adaptau automat conexiunile. În 958, Frank Rosenblatt a inventat un element neural numit perceptron. Era conceput ca o masina instruibila capabila sa ^nvete sa clasice anumite pattern-uri prin modicarea conexiunilor la elementele comparatoare. La ^nceputul anilor '0, a fost propus ADALINE (ADAptive LINEar combiner), un dispozitiv bazat pe regula de ^nvatare Windrow-Ho (Bernard Windrow, Marcian Ho). Regula minimiza eroarea patratica ^nsumata pe parcursul instruirii. Aplicatiile erau de recunoasterea formelor, control adaptiv si previziunea vremii. În ciuda entuziasmului anilor '0, masinile existente nu permiteau abordarea unor probleme complexe. Pe de alta parte, nici schemele de ^nvatare nu erau sucient de dezvoltate. S-a intrat astfel ^ntr-o perioada de stagnare a carei cauze erau de fapt cunoscute. Episodul nal al acestei ere a fost lucrarea lui Minsky si Papert, care a demonstrat limitele retelelor bazate pe perceptroni. În acest timp, majoritatea cercetatorilor se ^ndreptau spre alte domenii. Domeniul retelelor neurale (care facea la acea vreme parte din cibernetica) parea ^nchis. În schimb se dezvolta Minsky, M., S. Papert "Perceptrons". Cambridge, MA, MIT Press, 99.

8 CAPITOLUL. PRELIMINARII ÎN CALCULUL NEURAL promitator domeniul inteligentei articiale, preluând si sarcini pe care retelele neurale nu puteau sa le rezolve la acel stadiu. În perioada 95-98, câtiva cercetatori au reusit sa dezvolte totusi cercetarile. Kunihiko Fukushima a denit o clasa deretele neurale numite neocognitroni (980). Neocognitronul modeleaza recunoasterea vizuala a formelor prin emularea imaginilor de pe retina si procesarea lor folosind neuroni ierarhizati pe doua nivele. Cercetarile ^n domeniul memoriilor asociative auevoluat ^n Finlanda (Teuvo Kohonen) si SUA (James Anderson). Stephen Grossberg si Gail Carpenter au introdus câteva arhitecturi de retele neurale si au dezvoltat teoria retelelor adaptive prin rezonanta, ART. Era renasterii a^nceput odata cu introducerea arhitecturii recurente pentru memoriile asociative (John Hopeld, 98). O alta revitalizare a domeniului provine din lucrarile lui James McClelland si David Rumelhart (98). Începând cu anii 98-98, s-au initiat multe programe de cercetare si interesul a devenit extrem de mare. Au aparut aplicatii complexe. Au fost fabricate chip-uri VLSI de retele neurale. Cu toate ca domeniul calculului neural are o istorie interesanta, el este ^nca la^nceputul dezvoltarii sale.. Viitorul Datorita denumirii, domeniul retelelor neurale este supus unei supraestimari populiste. Este tentant pentru om sa-si imagineze o masina care sa e asemeni lui. Terminologia antropomorfa trebuie privita cu multa retinere. Putem aproape siguri ca retelele neurale nu vor ^nlocui calculatoarele clasice. Aceasta, deoarece calculatoarele clasice sunt foarte ieftine si eciente pentru efectuarea calculelor numerice (procesari de text, CAD, procesari de date). Sunt ^nsa domenii ^ntregi ^n care retelele neurale devin mai avantajoase. Cele mai interesante aplicatii sunt cele care presupun inferenta de tip uman si perceperea vorbirii si a imaginilor. Aceste aplicatii nu pot decât partial rezolvate pe calculatoare clasice. Este de asteptat ca retelele neurale sa e aplicate ^n procesarea semnalelor si sisteme expert. Retelele neurale nu vor ^nlocui aplicatiile de inteligenta articiala de pe calculatoarele clasice, ci vor oferi o tehnologie complementara. Neurocalculatoarele actuale sunt de multe ori calculatoare conventionale care executa software de simulare a retelelor neurale. Alte neurocalculatoare folosesc deja componente (placi, chip-uri) dedicate. Cele mai interesante sunt, desigur, chip-urile VLSI care implementeaza retele neurale. Fabricarea acestor chip-uri este deja actuala. În 98, AT&T a fabricat primul circuit integrat de memorie neurala.

Capitolul Concepte fundamentale Exista doua posibilitati de a deni retelele neurale. La o extrema, retelele neurale sunt o clasa de algoritmi matematici, deoarece o retea poate privita ^n esenta ca o notatie graca pentru o clasa larga de algoritmi. La cealalta extrema, retelele neurale emuleaza retelele neurale biologice din organismele vii. În lumina cunostintelor limitate pe care le avem ^n prezent asupra retelelor neurale biologice, cea mai plauzibila denitie se apropie mai mult de cea algoritmica. Retelele neurale sunt ^n mod cert inspirate din biologie, dar exista mari diferente ^ntre retelele neurale articiale si cele naturale. Nu exista ^nca modele care sa concureze cu succes performantele creierului uman. De fapt si cunostintele noastre despre functionarea creierului sunt extrem de limitate. Creierul ramâne mai curând o metafora pentru retelele neurale dezvoltate pâna acum. Cu toate ca analogia dintre retelele neurale articiale si cele naturale este vaga, vom ^ncepe totusi prin a mentiona modelul neuronului biologic. Vom deni apoi neuronul articial si retelele neurale articiale elementare. În ne, vom discuta formele de baza ale procesarii ^n retele neurale articiale, cu un accent deosebit pe procesele de ^nvatare.. Neuronii biologici si modelele lor articiale Creierul uman consta din aproximativ 0 neuroni. Ei comunica printr-o retea de conexiuni formate din axoni si sinapse, având o densitate de aproximativ 0 sinapse/neuron. Ipoteza cea mai recenta privind modelarea sistemului nervos natural este ca neuronii comunica ^ntre ei prin impulsuri electrice. Totodata, neuronii opereaza ^ntr-un mediu chimic. Creierul poate considerat o retea densa de conexiuni electrice conditionate ^n mare masura de procese biochimice. Reteaua neurala are o structura elaborata, cu interconexiuni foarte complexe. Intrarea ^n retea este asigurata decatre receptorii senzoriali. Receptorii furnizeaza stimuli atât din partea corpului cât si din partea organelor senzoriale care preiau stimulii lumii exterioare. Stimulii au forma impulsurilor electrice care conduc informatia ^n reteaua de neuroni. Ca rezultat al procesarii informatiei ^n sistemul nervos central, efectorii sunt controlati si dau raspunsuri sub forma diferitelor 9

0 CAPITOLUL. CONCEPTE FUNDAMENTALE actiuni. Avem deci un sistem const^and din receptori, reteaua neurala si efectori, care controleaza organismul si actiunile sale. Fluxul informational este descris ^n gura.. Receptori Organe senzoriale Corp Sistemul nervos central feedback intern Efectori Organe motor feedback extern Figura.: Fluxul informational ^n sistemul nervos. Neuronul biologic Neuronul este celula nervoasa si are trei componente: - soma - corpulcelulei - axonul - bra lunga care serveste ca linie de comunicatie - dendritele Dendritele formeaza unarboredebrene^n jurul corpului neuronului. Dendritele receptioneaza informatia de la alti neuroni prin axonii acestora. Axonul este o conexiune cilindrica lunga care ^n partea nala devine arborescenta. Fiecare ramura are o terminatie care aproape atinge dendritele neuronilor vecini. Sinapsa este interfata prin care neuronul ^si introduce semnalul catre dendrita altui neuron. Semnalele care ajung la o sinapsa plec^and de la dendritele neuronului respectiv sunt impulsuri electrice (g..). Transmisia interneuronala este uneori electrica dar de obicei este efectuata prin eliberarea de transmitatori chimici la sinapse. Astfel, terminatia axonului genereaza substanta chimica, care afecteaza neuronul receptor. Neuronul receptor e genereaza un impuls catre axonul sau, e nu produce nici un raspuns. Neuronul este capabil sa raspunda totalului intrarilor sale agregate ^ntr-un scurt interval de timp numit perioada de latenta. Raspunsul neuronului este generat daca totalul potentialului membranei sale atinge un anumit nivel. Membrana poate considerata ca o^nvelitoare care agrega magnitudinea semnalelor

.. NEURONII BIOLOGICI SI MODELELE LOR ARTIFICIALE axoni venind de la alti neuroni soma dendrite impulsul din partea corpului neuronului sinapsa dendrita altui neuron Figura.: Modelul neuronului biologic. care intra pe parcursul unei anumite durate de timp. Neuronul genereaza un impuls-raspuns si ^l transmite axonului sau numai daca conditiile necesare sunt ^ndeplinite. Impulsurile care intra ^n neuron pot excitatoare { daca cauzeaza generarea de catre neuron a unui impuls, sau inhibitoare { daca ^mpiedica generarea unui astfel de impuls. O conditie mai precisa pentru ca neuronul sa genereze un impuls este ca excitatia sa depaseasca inhibitia cu o valoare de aproximativ 0 mv, numita pragul neuronului. Deoarece o conexiune sinaptica produce reactia de excitatie sau de inhibitie a neuronului receptor, este practic sa atasam ponderile acestor conexiuni. Neuronul genereaza un impuls atunci când suma ponderilor impulsurilor receptate depaseste valoarea pragului pe parcursul perioadei de ^nsumare latenta. Procesarea ^n retelele neurale biologice este complexasi mai putin structurata decât calculul digital. Spre deosebire de cazul calculului digital, impulsurile neurale nu sunt sincronizate ^n timp. O caracteristica importanta a neuronului biologic este ca semnalele generate nu difera ^n magnitudine. Cu alte cuvinte, informatia transmisa ^ntre celulele nervoase este sub forma semnalelor binare. Dupa transmiterea unui impuls, axonul ramâne pentru un timp ^ntr-o staree de neexcitabilitate completa, acest interval numindu-se perioada refractara. Putem diviza timpul ^n intervale consecutive, ecare de durata perioadei refractare. Aceasta ne permite o descriere discreta a comportarii neuronului. De exemplu, putem preciza care neuroni vor genera impulsuri la momentul k + bazându-ne pe conditiile de excitatie de la momentul k. Neuronul va excitat la un anumit moment dat, daca numarul sinapselor excitate excitatoare depaseste numarul sinapselor excitate inhibitoare la momentul precedent cu cel putin numarul T, unde T este valoarea pragului neuronului. Intervalele de timp pot luate de ordinul milisecundelor. Perioada refractara nu este ^nsa uniforma: depinde de tipul de neuroni si de modul ^n care sunt ei conectati. Avem deci o retea densa de neuroni interconectati care genereaza semnale asincrone. Semnalele sunt transmise apoi catre neuronii vecini dar sunt

CAPITOLUL. CONCEPTE FUNDAMENTALE si retransmise (feedback) neuronilor generatori. Aceasta discutie este o simplicare foarte mare din punct de vedere neurobiologic. Retelele neurale articiale sunt mult mai simple dec^at corespondentul lor natural. Sa examinam un model de neuron articial cu semnicatie istorica. Modelul neural McCulloch-Pitts Este prima denitie formala a unui neuron articial (9). x x w w T o x n wn w i =- sau + i=,,...,n Figura.: Neuronul McCulloch-Pitts. Intrarile x k i i = :::n sunt 0 sau, ^n functie de absenta sau prezenta impulsului la momentul k (g.). Semnalul de iesire al neuronului este o. Regula dupa care neuronul genereaza un semnal este: o k+ = ( daca P ni= w i x k i T 0 daca P n i= w i x k i <T w i =pentru o sinapsa excitatoare si w i = ; pentru o sinapsa inhibitoare. Cu toate ca este foarte simplu, acest model are un remarcabil potential computational. Poate realiza operatiile logice NOT, OR si AND. Dupa cum stim, orice functie logica demai multe variabile poate implementata utiliz^and sau NOT si OR, sau NOT si AND. De exemplu, functiile NOR si NAND pot implementate prin retele de neuroni conform modelelor din gura.. x - T=0 x x - T=0 o T= x T= - T=0 o x - T=0 NAND x NOR Figura.: Functiile NOR si NAND.

.. NEURONII BIOLOGICI SI MODELELE LOR ARTIFICIALE Neuronul McCulloch-Pitts are o^ntârziere cu durata de o unitate. Aceasta proprietate permite construirea circuitelor digitale secventiale. Notam pentru ^nceput ca un singur neuron, cu o singura intrare x, cu ponderea si valoarea de prag unitare, calculeaza o k+ = x k. Un astfel de neuron se comporta ca un registru simplu, capabil sa retinaintrarea pentru un interval de timp de o unitate. O celula dememorie se construieste ca ^n gura.5. intrare excitatoare - intrare inhibitoare T= o k+ =x k Figura.5: Celula de memorie. Dupa ce s-a initializat celula, astfel ^ncât sa genereze sau sa nu genereze un semnal, aceasta valoare de iesire este sustinuta indenit, ^n absenta unor intrari. Hardware-ul unui calculator digital de orice complexitate poate obtinut prin utilizarea unei retele neurale constituite din blocuri elementare pentru operatii logice si pentru memorie. Ne intereseaza, ^nsa altceva: care este puterea de calcul a retelelor neurale tinând cont de capacitatea lor de a ^nvata. Vom reveni asupra acestor aspecte mai târziu. Modelarea unui neuron general Modelul neural McCulloch-Pitts este elegantsi are o expresie matematica precisa. El opereaza ^nsa câteva simplicari drastice. Astfel, permite doar stari binare (0 si ), presupune ca timpul este discret si presupune sincronismul operatiilor tuturor neuronilor. De asemenea, ponderile si pragurile sunt presupuse xe. În continuare, vom prezenta generalizari ale modelului McCulloch-Pitts, care vor de altfel modelele noastre operationale. Fiecare model neural consta dintr-un element de procesare cu conexiuni sinaptice de intrare si cu o singura iesire. Intrarile si iesirile sunt unidirectionale. Denim modelul unui neuron general ca in gura. sau o = f(w t x) o = f( nx i= w i x i ) unde w este vectorul de ponderi denit astfel: w =[w w :::w n ] t

CAPITOLUL. CONCEPTE FUNDAMENTALE x x x n w w wn ponderi multiplicative conexiuni sinaptice f(w tx) nod(unitate) de procesare o Figura.: Modelul unui neuron general. iar x este vectorul de intrari: x =[x x :::x n ] t : Toti vectorii din acest curs sunt vectori coloana, iar indicele t noteaza o transpunere. Functia f(w t x) este functia de activare. Domeniul ei de denitie este multimea valorilor de activare, net, a unui model neural: net = w t x: De aceea, folosim si notatia f(net). Variabila net este analogul potentialului membranei neuronului biologic. Convenim ca exista n ; conexiuni sinaptice si ca x n = ;, w n = T. Uneori vom extrage explicit pragul T ca parametru separat. De acum ^ncolo, vom ^ntelege prin neuroni {modele de neuroni, iar prin retele neurale {retele neurale articiale compuse din modele de neuroni. Functii de activare tipice sunt: - bipolara continua: f(net) = ; >0 +exp ;net - bipolara binara: f(net) = sgn(net) = ( net > 0 ; net < 0 Se observa capentru!,functia bipolaracontinua devine bipolar binara. Functiile unipolare sunt: - unipolara continua: f(net) = +exp ;net - unipolara binara: f(net) = ( net > 0 0 net < 0 Pentru!, functiile continue devin functii discrete. Cele doua functii continue se numesc si caracteristici sigmoidale. Majoritatea neuronilor utilizeaza functii de activare bipolare. Desigur, functiile de activare pot denite si altfel.

.. NEURONII BIOLOGICI SI MODELELE LOR ARTIFICIALE 5 f(net) λ=5 λ= λ=0,5 f(net) λ=5 λ= - 0 net - 0 net - Figura.: Functii de activare continue bipolara si unipolara. Daca functia de activare este bipolara binara, putem folosi reprezentarea din gura.8 a unui perceptron binar, iar pentru functia bipolara continua putem folosi reprezentarea din gura.9 a unui perceptron continuu. x x x n w w wn + net sumator - net comparator cu prag o(w,x) neuron Figura.8: Perceptron binar. Perceptronul discret a fost introdus de Rosenblatt (958) si a fost prima masina instruibila. Iesirile neuronilor pot discrete (binare) sau continue. Pentru un strat de m neuroni, valorile lor de iesire o, o, :::, o m pot date de: o =[o o :::o m ]: Domeniul de denitie al vectorilor o este un spatiu m-dimensional denit pentru cazul continuu astfel: (; ) m fo < m o i (; )g pentru cazul bipolar sau (0 ) m fo < m o i (0 )g pentru cazul unipolar: Domeniul lui o este interiorul unui cub m-dimensional.

CAPITOLUL. CONCEPTE FUNDAMENTALE x f(net)= +e λnet - x f(net) o(w,x) x n neuron Figura.9: Perceptron continuu. Pentru cazul discret, avem: f; g m fo < m o i f; gg pentru cazul bipolar sau f0 g m fo< m o i f0 gg pentru cazul unipolar: Domeniul lui o este format din vârfurile unui cub m-dimensional. poate avea deci m valori. Un vector. Modelarea retelelor neurale Cunoscând acum denitia modelului unui neuron general, putem deni o retea neurala ca o interconectare de neuroni astfel ^ncât iesirea ecarui neuron este conectata, via ponderi, cu toti neuronii, inclusiv cu neuronul respectiv. Retea feedforward Sa consideram o arhitectura feedforward de m neuroni care receptioneaza n intrari (g..0). Pentru acest model denim si o =[o o :::o m ] t x =[x x :::x n ] t : Ponderea w ij caracterizeaza al i-lea neuron cu a j-a intrare. Valoarea de activare pentru al i-lea neuron este atunci: net i = nx j= Fie w i =[w i w i :::w in ] t, atunci: w ij x j i = ::: m: net i = w t ix o i = f(w t ix) i = ::: m:

.. MODELAREA RET ELELOR NEURALE w o x x o w n... w m... x n w mn m o m Figura.0: Retea neurala feedforward. Denim operatorul matricial neliniar ; pentru care: o =;(Wx) unde W este matricea ponderilor (matricea conexiunilor): iar W = ;[] = w w ::: w n w w ::: w n. w m w m ::: w mn f() 0 ::: 0 0 f() ::: 0. 0 ::: 0 f() Functiile f() sunt functii neliniare de activare. Vectorii x, o sunt numiti si pattern-uri de intrare, respectiv de iesire. Transformarea unui pattern de intrare ^ntr-un pattern de iesire are loc fara^nt^arziere, instantaneu. De aceea, spunem ca o astfel de retea este de tip feedforward. Avem (g..): o(t) =;[Wx(t)] 5 5 : x(t) Γ[Wx] o(t) Figura.: Diagrama bloc a unei retele neurale feedforward.

8 CAPITOLUL. CONCEPTE FUNDAMENTALE Reteaua feedforward este caracterizata prin lipsa de feedback. O retea feedforward poate conectata ^n cascada pentru a forma o retea pe mai multe straturi. ^Intr-o astfel de retea, iesirea unui strat este intrarea urmatorului strat. Retea feedback O retea feedback se poate obtine dintr-o retea feedforward prin conectarea iesirilor neuronilor cu propriile intrari (g..). x (0) o (t) w w w n o (t+ ) x (0) o (t) o (t+ ) x (0) n o (t) n w nn n o n (t+ ) Figura.: Retea neurala feedback. Perioada de timp este analoga perioadei refractare a modelului neuronului biologic. Avem (g..): o(t +)=;[Wo(t)]: x(0) retea instantanee Γ[Wo(t)] intarziere o(t+ ) Figura.: Diagrama bloc a retelei neurale feedback. Intrarea x(t) este folosita doar pentru a initializa aceasta retea, astfel ^nc^at o(0) = x(0). Intrarea este apoi ^ndepartata si, pentru t > 0, sistemul devine autonom.

.. MODELAREA RET ELELOR NEURALE 9 Considerând timpul ca o variabila discreta si decidem sa observam functionarea retelei la momentele :::, sistemul este cu timp discret. Conventional, putem considera ca pasul timpului este unitar. Atunci, notam: o k+ =;(Wo k ) pentru k = ::: Aceasta retea este recurenta deoarece raspunsul ei la momentul k + depinde de ^ntregul istoric al retelei ^ncepând cu momentul k = 0: o =;[Wx 0 ] o =;[W;[Wx 0 ]] ::: o k+ =;[W;[:::;[Wx 0 ] :::]]: Retelele recurente opereaza de obicei cu o reprezentare discreta a datelor si folosesc neuroni cu o functie de activare discreta. Un sistem având intrari cu timp discret si o reprezentare discreta a datelor se numeste un automat. Deci, retelele neurale recurente din aceasta categorie pot considerate niste automate. Numim o o ::: stari ale retelei la momentele,,... si ecuatiile de mai sus oglindesc secventa tranzitiilor starilor. O stare de echilibru se numeste si atractor. Un atractor consta dintr-o singura stare, sau dintr-un numar limitat de stari. În capitolul am vazut ca o = h ; i t este un atractor. Secventa de stari ale unei retele recurente este ^n general nedeterminista. O retea cu timp continuu se obtine ^nlocuind elementele de ^ntârziere discrete cu elemente continue. Fie, de exemplu, reteaua feedback cu timp continuu din gura.. + v R v - - C + Figura.: Retea feedback cu timp continuu. Ea este o retea electrica constând dintr-o rezistentasi un condensator, unde v este tensiunea la intrare, iar v este tensiunea la iesire. De fapt, retelele electrice sunt utilizate frecvent pentru a modela calculele efectuate de o retea neurala. Retelele electrice poseda exibilitatea de a modela toate fenomenele liniare si neliniare ^ntâlnite ^n acest curs. Din aceasta cauza, retelele electrice reprezinta modele zice functionale ale retelelor neurale. Din legea lui Kircho obtinem: v ; v R = C dv dt )

0 CAPITOLUL. CONCEPTE FUNDAMENTALE dv dt + v RC = v RC : (.) De aici, obtinem: v t = C v ; v R care reprezinta modicarea tensiunii v ^n intervalul t. tensiunea tensiunea v v v v 0 t 0 t 0 t (a) (b) Figura.5: Raspunsul ^n timp (a) la un impuls si (b) la o tensiune de intrare de tip unda armonica al retelei cu timp continuu din gura anterioara. De obicei, retelele cu timp continuu folosesc neuroni cu functii de activare continue. ^In gura. avem o conexiune sinaptica bazata pe circuitul electric descris ^n gura.. net j j o j R ij net i i C i o i Figura.: Conexiune sinaptica.

.. ÎNV AT ARE SI ADAPTARE Rezistenta R ij serveste ca pondere de la iesirea neuronului j catre intrarea neuronului i. Ecuatia. poate discretizata astfel: net k+ i ; net k i t = R ij C i (o k j ; net k i ): De aici: net k+ i = net k i + t R ij C i (o k j ; net k i ): O retea de mai multi neuroni de acest tip are, din punct de vedere dinamic, o comportare complexa.. Învatare si adaptare În general, ^nvatarea este schimbarea comportamentului datorita experientei. La om si animale procesul de ^nvatare nu poate observat direct, ci presupunem ca a avut loc observând modicarile de comportament. La retelele neurale, procesul de ^nvatare este mai direct: putem observa ecare pas al ^nvatarii ca o relatie distincta de tip cauza-efect. Un cadru general pentru procesul de ^nvatare la retele neurale este dat de teoria aproximarii. Învatarea ca aproximare Teoria aproximarii se refera la aproximarea unei functii continue de mai multe variabile h(x) printr-o alta functie H(w x), unde x =[x x :::x n ] t este vectorul de intrare si w =[w w :::w m ] t este vectorul parametrilor (ponderilor). Scopul ^nvatarii este sa se gaseasca w pentru care se obtine cea mai buna aproximare a lui h(x), având la dispozitie o multime de exemple, fxg, folosite pentru ^nvatare. O problema importanta estealegerea functiei H(w x), aceasta numindu-se problema reprezentarii. Dupa alegerea lui H(w x), se aplica algoritmul de ^nvatare al retelei pentru gasirea parametrilor optimi w : [H(w x) h(x)] [H(w x) h(x)] unde este o metrica (o distanta). Retelele feedback sunt sisteme dinamice. De aceea, ^nvatarea ^n acest caz se refera la ^nvatarea starilor de echilibru. Învatarea supervizata si ^nvatarea nesupervizata Majoritatea retelelor neurale pe care le discutam ^nvata incremental, pas cu pas. Daca ponderile retelei sunt ajustate printr-un singur pas, atunci informatia feedback produsa de retea nu mai este necesara si vorbim de o ^nvatare de tip batch, adica "la gramada".

CAPITOLUL. CONCEPTE FUNDAMENTALE x retea adaptiva W ρ[d,o] o generator de distanta semnal de invatare d Figura.: Învatare supervizata. Ne referim ^n continuare la ^nvatarea incrementala, ^n care conceptul de feedback are un rol central. În ^nvatarea supervizata (g..), presupunem ca la ecare moment când se aplica intrarea, raspunsul d al sistemului este dat de catre instructor (un factor uman). x retea adaptiva W o Figura.8: Învatare nesupervizata. Învatarea nesupervizata (g..8) se foloseste de multe ori, de exemplu, la clustering (g..9), atunci când informatia a priori este minima.. Reguli de ^nvatare Sa studiem procesul de instruire a vectorului w i de ponderi, având componentele w ij (unde w ij este ponderea conexiunii celei de-a j-a intrari cu cel de-al i-lea neuron) (g..0). Fie urmatoarea regula generala de ^nvatare: Vectorul w i = [w i w i :::w in ] t creste proportional cu produsul intrarii x si a semnalului de ^nvatare r. Semnalul r este in general o functie de w i, x si, daca este cazul, d i : r = r(w i x d i ): Incrementul lui w i produs la momentul t este: w i (t) =cr[w i (t) x(t) d i (t)]x(t) unde c este constanta de ^nvatare, pozitiva, care determina rata ^nvatarii. Atunci: w i (t +)=w i (t)+cr[w i (t) x(t) d i (t)]x(t):

.. REGULI DE ÎNV ATARE x x x 0 0 (a) (b) x Figura.9: (a) Pattern-uri bidimensionale care formeaza doua clustere. (b) Aparent, nu se disting mai multe clustere si nu stim câte sunt. În acest caz ^nvatarea nesupervizata nu este indicata. x x w i w i neuronul i o i... x n w in x w i r X generator de semnal de învãtare d i c Figura.0: Modelul instruirii ^n cazul ^nvatarii supervizate. Pentru cazul discret: w k+ i = w k i + cr(w k i x k i d k i )x k : Pentru cazul continuu: dw i (t) = crx(t): dt Vom studia ^n continuare ^nvatarea cu timp discret (pas cu pas). Se presupune ca ponderile sunt initializate convenabil, ^nainte ca procesul de ^nvatare sa^nceapa. Regula de ^nvatare a lui Hebb (99) Aceasta regula particularizeaza semnalul de ^nvatare astfel: r = f(w t ix) adica semnalul de ^nvatare este chiar iesirea neuronului. Atunci: w i = cf(w t ix)x

CAPITOLUL. CONCEPTE FUNDAMENTALE w ij = cf(w t ix)x j = co i x j pentru j = ::: n: Este necesar ca, initial, ponderile sa aiba valori aleatoare mici. Învatarea dupa regula lui Hebb este de tip feedforward si nesupervizata. Este implementata urmatoarea idee: "Daca celula A excita ^n mod repetat celula B, facând-o sa genereze un impuls, atunci are loc un proces de crestere (schimbare metabolica) ^ntr-una sau ^n ambele celule, astfel ^ncât ecienta excitarii lui B de catre A creste." Cu alte cuvinte, pattern-urile de intrare mai frecvente vor avea si inuenta cea mai mare asupra ponderilor conexiunilor. Regula de ^nvatare a perceptronului (Rosenblatt, 958) Semnalul de ^nvatare pentru aceasta regula este: r = d i ; o i unde o i = sgn(w t ix) si d i este raspunsul dorit (pentru cazul bipolar, ) (g..). x w i x... w i w in + net i comparator o i x n w i - x X d i -o i + c + d i Avem: Figura.: Regula de ^nvatare a perceptronului. w i = c[d i ; sgn(w t ix)]x w ij = c[d i ; sgn(w t ix)]x j pentru j = ::: n: Sa observam ca aceasta regula este aplicabila doar pentru situatia când functia de activare este binara. Are loc o ajustare a ponderilor daca si numai daca o i este incorect. Deoarece raspunsul dorit poate sau -, avem: w i =cx daca d i =si sgn(w t ix) =; w i = ;cx daca d i = ;si sgn(w t ix) = Daca d i = sgn(w t ix), se observa ca w i =0. Regula de ^nvatare a perceptronului este importanta pentru ^nvatarea supervizata a retelelor neurale. Ponderile sunt initializate cu orice valoare.

.. REGULI DE ^INV ATARE 5 Regula de ^nvatare delta (McClelland, Rummelhart, 98) Este valabila pentru functii de activare continue si pentru ^nvatarea supervizata. Semnalul de ^nvatare pentru aceasta regula (g..) este numit delta si este dat de r =[d i ; f(w t ix)]f 0 (w t ix): x w i x... x n w i w in x w i X f(net ) i f (net ) i X d -o i i - + + o i d i c Figura.: Regula de ^nvatare delta. Aceasta regula se deduce din conditia de cea mai mica eroare patratica dintre o i si d i. Fie E eroarea patratica: ceea ce este echivalent cu De aici, Componentele gradientului erorii sunt: E = (d i ; o i ) E = [d i ; f(w t ix)] : re = ;(d i ; o i )f 0 (w t ix)x: @E @w ij = ;(d i ; o i )f 0 (w t ix)x j pentru j = ::: n si reprezinta panta pe directia w ij. Alegem termenul w ij astfel ^nc^at sa e proportional cu panta negativa (deci sa minimizam pe E) si obtinem: w ij = (d i ; o i )f 0 (net i )x j j = ::: n w i = (d i ; o i )f 0 (net i )x (.) unde este o constanta pozitiva. w i = ;re

CAPITOLUL. CONCEPTE FUNDAMENTALE Presupun^and ca semnalul de ^nvatare este r =[d i ; f(w t ix)]f 0 (w t ix) obtinem: w i = c(d i ; o i )f 0 (net i )x ceea ce este identic cu., c si ind constante arbitrare. Regula delta este de fapt o transpunere a regulii de ^nvatare a perceptronului discret la cazul perceptronului continuu. Ponderile pot initializate cu orice valoare. Regula de ^nvatare Windrow-Ho (9) Aceasta regula este aplicabila pentru ^nvatarea supervizata. Este independenta de functia de activare folosita deoarece minimizeaza eroarea patratica dintre raspunsul dorit d i si valoarea de activare a neuronului net i = w t ix. Semnalul de ^nvatare este r = d i ; w t ix: Atunci, w i = c(d i ; w t ix)x w ij = c(d i ; w t ix)x j j = ::: n: Aceasta regula poate considerata un caz special al regulii delta: presupunem f(w t ix) = w t ix, adica functia de activare este functia identica f(net) = net si obtinem f 0 (net) =. Ponderile pot initializate oricum. Regula corelatiei Substituind r = d i ^n regula generala de ^nvatare obtinem regula corelatiei: w i = cd i x w ij = cd i x j j = ::: n: De obicei, regula corelatiei se aplica^n retele de memorie cu neuroni cu functie de activare binara. Se poate interpreta ca un caz particular al regulii lui Hebb ^n care functia de activare este binara si o i = d i. Totusi, ^nvatarea hebbiana este nesupervizata, ^n timp ce regula corelatiei se aplica la ^nvatarea supervizata. Ca si ^n cazul ^nvatarii hebbiene, este necesar ca ponderile sa e initializate cu valori apropiate de 0.