Το Δίκτυο Multi-Layer Perceptron και ο Κανόνασ Back-Propagation. Κϊςτασ Διαμαντάρασ Τμιμα Πλθροφορικισ ΤΕΙ Θεςςαλονίκθσ

Το Δίκτυο Multi-Layer Percetron και ο Κανόνασ Back-Proagation Κϊςτασ Διαμαντάρασ Τμιμα Πλθροφορικισ ΤΕΙ Θεςςαλονίκθσ

Το Πρόβλθμα XOR Περιοριςμζνεσ δυνατότθτεσ Percetron =1 νευρϊνασ. Πχ. Αδυναμία λφςθσ απλοφ προβλιματοσ XOR: x 1 x 2 y 0 0 0 0 1 1 1 0 1 1 1 0 2

Λφςθ του XOR με MLP y 0.5 1-1 x 2 a 1 a 2 0.5 1.5 1 1 1 1 x 1 x 1 x 2 3

Γενικι Τοπολογία Δικτφου MLP y 1 y 2 y m.................... 4.... x 1 x 2 x n-1 x n

Συνάρτθςθ Ενεργοποίθςθσ fu=1/1+e -u Δυαδικι Μθ παραγωγίςιμθ Συνεχείσ τιμζσ Παραγωγίςιμθ 5

Δυνατότθτεσ δικτφων MLP 1 Θεώρημα Έςτω f = ςιγμοειδισ και gx 1, x 2,..., x οποιαδιποτε ςυνεχισ ςυνάρτθςθ μεταβλθτών οριςμζνθ ςτον μοναδιαίο κφβο I = [0,1]. Τότε υπάρχει ακζραιοσ Μ και κάποιεσ τιμζσ των παραμζτρων α i, w ij, κ i, ζτςι ώςτε θ ςυνάρτθςθ M 1, x2,, x i f wijx j i i1 j1 x προςεγγίηει τθν gx 1, x 2,..., x με ςφάλμα μικρότερο του για όλεσ τισ τιμζσ {x 1, x 2,..., x } I και για οποιοδιποτε >0. 6

Δυνατότθτεσ Δικτφων MLP 2 Με απλά λόγια: Ιδιότθτα Universal Aroximator Ζνα δίκτυο δφο ςτρωμάτων μπορεί να προςεγγίςει όςο καλά επικυμοφμε οποιαδιποτε ςυνεχι ςυνάρτθςθ Οι νευρϊνεσ του κρυφοφ ςτρϊματοσ ζχουν τθ ςιγμοειδι ςυνάρτθςθ ενεργοποίθςθσ Ο νευρϊνασ εξόδου ζχει τθ γραμμικι ςυνάρτθςθ ενεργοποίθςθσ 7

Δυνατότθτεσ Δικτφων MLP 3 Όςο πιο πολφπλοκθ είναι θ ςυνάρτθςθ που επικυμοφμε να προςεγγίςουμε τόςο περιςςότερουσ κρυφοφσ νευρϊνεσ κζλουμε Δφο ςτρϊματα αρκοφν Universal Aroximator : ιςχφει και για ςυναρτιςεισ πολλϊν εξόδων 8

Συμβολιςμοί 9 Nl : πλικοσ νευρϊνων ςτο ςτρϊμα l a i l : ζξοδοσ του νευρϊνα i ςτρϊμα l x i : είςοδοι του δικτφου μθδενικό ςτρϊμα y i : ζξοδοι του τελευταίου ςτρϊματοσ w ij : ςυναπτικό βάροσ από νευρϊνα j ςε i στρώμα l+1 στρώμα l i j w ij

Ανάκλθςθ Είςοδοι: a 1 0 = x 1, a 2 0 = x 2,, a N0 0 = x N0 /* 0 = ςτρϊμα ειςόδου, L = ςτρϊμα εξόδου */ Έξοδοι: y 1 = a 1 L, y 2 = a 2 L,, y NL = a NL L Για κάκε ςτρϊμα l = 1,, L { Για κάκε νευρϊνα i = 1,, Nl { } } a l i f N l 1 j1 w ij l a j l 1 w i0 l 10

Εκπαίδευςθ 11 Κανόνας Back-Proagation Μάκθςθ με επίβλεψθ = 1,, P ηεφγθ {ειςόδων/ςτόχων} Διάνυςμα ςτόχων Διάνυςμα ειςόδου Διάνυςμα εξόδου T n x x ],, [ 1 x T m y y ],, [ 1 y T m d d ],, [ 1 d

Back-roagation 12 Κριτιριο μάκθςθσ: ελαχιςτοποίθςθ του μζςου τετραγωνικοφ ςφάλματοσ για όλα τα πρότυπα P το πλικοσ Μζκοδοσ βελτιςτοποίθςθσ: Κατάβαςθ Δυναμικοφ P m i i i P y d P P J 1 1 2 1 2 ] [ 1 1 y d

Κατάβαςθ Δυναμικοφ 1 J Α Κλίςθ gradient ςτο ςθμείο Α + Κλίςθ gradient ςτο ςθμείο Β Β w παλιό w νζο Αν θ κλίςθ είναι αρνθτικι τότε πάω μπροςτά w νζο w παλιό Αν θ κλίςθ είναι κετικι τότε πάω πίςω w 13

Κατάβαςθ Δυναμικοφ 2 Κινοφμαι αντίκετα απ ότι λζει θ παράγωγοσ: αν θ παράγωγοσ είναι κετικι τότε μειϊνω το w, αν θ παράγωγοσ είναι αρνθτικι τότε αυξάνω το w. Κάνω μικρά βιματα χρθςιμοποιϊντασ το b = βιμα εκπαίδευςθσ = μικρι κετικι τιμι Παραγϊγιςθ του κόςτουσ ωσ προσ τα ςυναπτικά βάρθ w w ij ij k k 1 w 1 ij w ij J k b w k J k b w k ij ij 14

Ο κανόνασ Back-Proagation BP Ζχει υπολογιςτεί θ παράγωγοσ και ο κανόνασ κατάβαςθσ δυναμικοφ για ζνα MLP πολλϊν ςτρωμάτων *Paul Werbos 1974] Ιςχφουν διαφορετικοί τφποι για το στρώμα i εξωτερικό ςτρϊμα L και για τα υπόλοιπα L ςτρϊματα. Για το εξωτερικό ςτρϊμα L: w ij k 1 d w i 1,, N L k b j 0,1,, N L 1 ij k k k k i i i i y f u k i a k j a j w ij στρώμα L-1 15

Ο κανόνασ BP 2 Το ςφάλμα δ: Αποτελείται από το γινόμενο δφο όρων 1. Το ςφάλμα d i y i και 2. Τθν παράγωγο f u i τθσ ςυνάρτθςθσ ενεργοποίθςθσ f των νευρϊνων του ςτρϊματοσ L. Ευτυχϊσ θ παράγωγοσ υπολογίηεται εφκολα για τισ ςθμαντικότερεσ ςυναρτιςεισ όπωσ: f = ςιγμοειδισ f u i = fu i [1 fu i ]= a i [1 a i ] f = tanh f u i = = 1 fu i 2 = 1 a i 2 f = γραμμικι f u i = 1 16

Ο κανόνασ BP 3 Για οποιοδιποτε εςωτερικό ςτρϊμα l < L: Υπολογιςμόσ i l προϊκθςθ προσ τα πίςω backward hase. Υπολογίηω τα i l χρθςιμοποιϊντασ τα i l+1 του πιο πάνω ςτρϊματοσ...... 1 2 3 N στρώμα l+1 i στρώμα l 17

Ο κανόνασ BP 4 Για το εςωτερικό ςτρϊμα l < L ςυνζχεια w ij k i l k 1 w i 1,, N l j 0,1,, N l 1 ij f u k b k i l N l 1 1 k i 1 1 Ο τφποσ είναι ίδιοσ με το ςτρϊμα L. Το μόνο που αλλάηει είναι ο υπολογιςμόσ του δ. w a l k j i l i a j w ij στρώμα l+1 στρώμα l 18

Ο κανόνασ BP 5 Αρχικοποίθςε τα βάρθ w ij l ςε μικρζσ τυχαίεσ τιμζσ Για κάκε εποχι = 1, 2,, MAXeoch { Για κάκε πρότυπο = 1,, P { /* Εκπαίδευςθ */ /* Φάςθ ανάκλθςθσ = Forward hase */ /* Φάςθ υπολογιςμοφ = Backward hase */ /* Φάςθ ενθμζρωςθσ βαρών = Udate hase */ } J=0; Για κάκε πρότυπο = 1,, P { /* Υπολογιςμόσ J */ /* Φάςθ ανάκλθςθσ = Forward hase */ /* Άκροιςε το τετραγωνικό ςφάλμα ςτο J */ } } Μζχρι J μικρότερο από κάποιο κατϊφλι MINJ 19

Εφαρμογι και Προβλιματα Δυνατότθτα επίλυςθσ πολφπλοκων προβλθμάτων. Καλφτεροσ ταξινομθτισ από το Percetron και το ADALINE. Universal Aroximator. Κατάβαςθ Δυναμικοφ Πρόβλθμα τοπικϊν ελαχίςτων: Μπορεί να «κολλιςει» ςε μια λφςθ που δεν είναι ιδιαίτερα καλι Αργι ςφγκλιςθ Ποιο b να επιλζξω; Δεν υπάρχει εφκολθ και ςαφισ απάντθςθ. Συνικωσ βάηω τυχαία μικρό b και δοκιμάηω. 20

Παραλλαγζσ BP Χριςθ ορμισ momentum: Φυλάω τθν προθγοφμενθ διόρκωςθ Δw ij k και τθν προκζτω ςτθν τωρινι J wij k 1 b wij k w k Ο ςυντελεςτισ μ πρζπει να είναι μικρότεροσ από το 1 αλλά κοντά ςτο 1 π.χ. 0.95. Όςο πιο κοντά, τόςο πιο γριγορα τρζχει, αλλά αν είναι πολφ κοντά μπορεί να οδθγιςει ςε απόκλιςθ. Αποτζλεςμα: Σε περιοχζσ όπου το J μειϊνεται αργά, θ ορμι επιταχφνει τον αλγόρικμο. Σε περιοχζσ όπου το w ταλαντϊνεται επιβάλλει εξομάλυνςθ είτε τείνει να κινείται προσ μια κατεφκυνςθ είτε μειϊνει τισ ταλαντϊςεισ. Άλλεσ παραλλαγζσ: Χριςθ line search, Χριςθ παραγϊγων δευτζρου βακμοφ Hessian ij 21

Εφαρμογζσ Text-To-Seech NetTalk \ z \ Κρυυό στρώμα T h i s i s t h e i n 22

Εφαρμογζσ 2 NetTalk 7x29 είςοδοι, κωδικοποιοφν 7 διαδοχικοφσ χαρακτιρεσ + ςθμεία ςτίξθσ 80 κρυφοί νευρϊνεσ 26 ζξοδοι κωδικοποιοφν φωνιματα Εκπαίδευςθ 1024 λζξεισ 95% ακρίβεια μετά από 50 εποχζσ Γενίκευςθ 78% άγνωςτο κείμενο 23

Εφαρμογζσ 3 Αναγνϊριςθ χειρόγραφων χαρακτιρων Αναγνϊριςθ ταχ. Κωδικϊν ΗΠΑ zi codes 4 ςτρϊματα + ςτρϊμα ειςόδου Είςοδοσ = εικόνα 16x16 Στρϊμα 1+2 = feature extraction Στρϊμα 3 = 30 νευρϊνεσ πλιρωσ ςυνδεδ. Στρϊμα 4 = 10 νευρϊνεσ εξόδου 24

Εφαρμογζσ 4 Αναγνϊριςθ ZIP codes Σφνολο 1256 νευρϊνεσ, 9760 παράμετροι προσ εκπαίδευςθ. Εκπαίδευςθ με BP. Πρότυπα εκπαίδευςθσ = 7300 χειρόγραφα ψθφία, ςφάλμα 1% Πρότυπα ελζγχου = 2000 χειρόγραφα ψθφία, ςφάλμα 5% 25

Εφαρμογζσ 5 Συμπίεςθ εικόνων Είςοδοσ Κρυφό ςτρ. Ζξοδοσ Στόχοσ = Είςοδοσ 26

Εφαρμογζσ 6 Τάβλι Πλοιγθςθ οχιματοσ Αναγνϊριςθ ομιλίασ Συλλαβιςμόσ λζξεων Αναγνϊριςθ πλαςτϊν ςυνδιαλλαγϊν Εκτίμθςθ τιμϊν μετοχϊν κλπ 27