Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP) x -0,5 a x x 2 0 0 0 0 - -0,5 y y 0 0 x 2 -,5 a 2 θ η τιμή κατωφλίου Μία λύση του προβλήματος XOR
Multi Layer Perceptron (MLP) x -0,5 Μία λύση του προβλήματος XOR a -0,5 y x 2 -,5 a 2 - x x 2 α =f(x +x 2-0,5) α 2 =f(x +x 2 -,5) y=f(a -a 2-0,5) 0 0 α =f(-0,5)=0 α 2 =f(-,5)=0 y=f(-0,5)=0 0 α =f(0,5)= α 2 =f(-0,5)=0 y=f(0,5)= 0 α =f(0,5)= α 2 =f(-0,5)=0 y=f(0,5)= α =f(,5)= α 2 =f(0,5)= y=f(-0,5)=0
x 2 (0,) (,) (0,0) (,0) x Δηλαδή έχουμε διαχωρισμό με δύο ευθείες
Γενική Τοπολογία Δικτύου MLP x x 2 y y m x n Στρώμα Εισόδου Input Layer Κρυφό Στρώμα Hidden Layer Κρυφό Στρώμα Ν Hidden Layer Ν Στρώμα Εξόδου Output Layer
Γενικεύοντας 2 2 2 2 στρώμα Γραμμικός διαχωρισμός 2 Στρώματα Κυρτός διαχωρισμός 3 Στρώματα Διαχωρισμός κάθε μορφής Η επίδραση των στρωμάτων στην επεξεργασία
Multi Layer Perceptron (MLP) To MLP είναι ένα Νευρωνικό Δίκτυο που έχει πολύ καλές επιδόσεις και επιλύει προβλήματα που ένα απλό Perceptron δεν μπορεί. Έχει μια διαφορά με το Perceptron που συναντήσαμε. Δεν χρησιμοποιεί ως συνάρτηση ενεργοποίησης την βηματική (0/ ή -/) αλλά συνήθως την Σιγμοειδή. Αυτό γίνεται γιατί, καθώς κατά την εκμάθηση, χρησιμοποιούνται αλγόριθμοι βελτιστοποίησης που βασίζονται στην κατάβαση δυναμικού (δηλαδή στην παραγώγιση), η βηματική δεν είναι παραγωγίσιμη. Η Σιγμοειδής και είναι πολύ κοντά στην βηματική και είναι παραγωγίσιμη.
Συνάρτηση Ενεργοποίησης (MLP) f u = + e u 0 Βηματική: Δυαδική Μη παραγωγίσιμη Σιγμοειδής: Συνεχείς τιμές Παραγωγίσιμη 7
Multi Layer Perceptron (MLP) Μια άλλη συνάρτηση ενεργοποίησης που χρησιμοποιείται στo MLP είναι η υπερβολική εφαπτομένη (hyperbolic tangent), η οποία μοιάζει με την βηματική, είναι κι αυτή παραγωγίσιμη και συνδέεται με την σιγμοειδή: tanh u = eu e u e u = 2f 2u + e u Όπου: f u η Σιγμοειδής
Multi Layer Perceptron (MLP) Στις δύο περιπτώσεις της συνάρτησης ενεργοποίησης (σιγμοειδή ή υπερβολικής εφαπτομένης), η έξοδος y του νευρωνικού δικτύου έχει ομαλές μεταβολές, σε αντιπαραβολή με την περίπτωση της βηματικής συνάρτησης όπου οι μεταβολές είναι απότομες. Το λευκό αντιστοιχεί στην τιμή y=, το μπλε στην y=0 και το γκρι-σιέλ στις ενδιάμεσες τιμές. Βηματική Σιγμοειδής
Multi Layer Perceptron (MLP) Τα δίκτυα MLP με σιγμοειδή συνάρτηση ενεργοποίησης έχουν πολλές δυνατότητες στην αναπαράσταση συναρτήσεων (κάθε ομαλής συνάρτησης), γι αυτό ονομάζονται και «Καθολικοί Προσεγγιστές» (Universal Approximators). Ακόμα και με μόνο δύο κρυφά στρώματα νευρώνων έχουν πολύ καλές επιδόσεις. Θεώρημα Ένα δίκτυο δύο στρωμάτων μπορεί να προσεγγίσει (θεωρητικά), όσο καλά επιθυμούμε, οποιαδήποτε συνεχή συνάρτηση.
Multi Layer Perceptron (MLP) Οι νευρώνες του κρυφού στρώματος έχουν τη σιγμοειδή συνάρτηση ενεργοποίησης. Ο νευρώνας εξόδου έχει τη γραμμική συνάρτηση ενεργοποίησης. Όσο πιο πολύπλοκη είναι η συνάρτηση που επιθυμούμε να προσεγγίσουμε, τόσο περισσότερους κρυφούς νευρώνες θέλουμε. Συνήθως δύο στρώματα αρκούν. Universal Approximator: ισχύει και για συναρτήσεις πολλών εξόδων.
Ανάκληση σε δίκτυο (MLP) Στο δίκτυο MLP, οι νευρώνες κάθε στρώματος l τροφοδοτούνται μόνον από τους νευρώνες του προηγούμενου στρώματος l. Συνήθως το στρώμα εισόδου το ονοματίζουμε «μηδενικό στρώμα» το οποίο τροφοδοτεί το ο στρώμα. Σημείωση: Στην διεθνή βιβλιογραφία η ορολογία και οι συμβολισμοί στα Νευρωνικά Δίκτυα ποικίλουν. Έτσι πολλές φορές προκύπτει η αναγκαιότητα εναρμόνισης των συμβολισμών. στρώμα l στρώμα l- i j w ij
Ανάκληση σε δίκτυο (MLP) L το πλήθος των στρωμάτων του MLP (χωρίς το στρώμα εισόδου). L το στρώμα εξόδου. N 0, N, N 2,.., N L το πλήθος των νευρώνων στα στρώματα 0,, 2,.,L. Δηλαδή N 0 είναι το πλήθος των εισόδων και N L είναι το πλήθος των εξόδων του δικτύου. a i l οι ενεργοποιήσεις των νευρώνων του στρώματος l. w ij l το συναπτικό βάρος που συνδέει τον νευρώνα a j l του στρώματος l με τον νευρώνα a i l του στρώματος l.
Ανάκληση σε δίκτυο (MLP) w i0 l το κατώφλι του νευρώνα a i l του στρώματος l. x i = a i 0 οι είσοδοι του δικτύου. y i = a i L οι έξοδοι του δικτύου. Ανάκληση είναι η διαδικασία υπολογισμού των τιμών των νευρώνων του δικτύου (των εξόδων τους δηλαδή), έχοντας δεδομένες τις τιμές των εισόδων x, x 2,.., x N(0). Για κάθε στρώμα θα είναι: α i l = f N l j= w ij l α j l + w i0 l
Αλγόριθμος: Ανάκληση σε δίκτυο (MLP) Είσοδοι: a (0) = x, a 2 (0) = x 2,, a N(0) (0) = x N(0) /* 0 = στρώμα εισόδου, L = στρώμα εξόδου */ Έξοδοι: y = a (L), y 2 = a 2 (L),, y N(L) = a N(L) (L) Για κάθε στρώμα l =,, L { Για κάθε νευρώνα i =,, N(l) { } } α i l = f N l j= w ij l α j l + w i0 l
Αλγόριθμος: Ανάκληση σε δίκτυο (MLP) Ο αλγόριθμος δείχνει πως ο νευρώνας i του στρώματος l έχει εισόδους τις ενεργοποιήσεις a i l των νευρώνων από το στρώμα l και κατώφλι το w i0 l. Έτσι έχοντας τις τιμές των εισόδων x i υπολογίζουμε πρώτα τις ενεργοποιήσεις των νευρώνων του στρώματος, μετά (με βάση αυτές) τις ενεργοποιήσεις των νευρώνων του στρώματος 2, κ.λ.π., μέχρι τον υπολογισμό των εξόδων του δικτύου.
Εκπαίδευση του δικτύου (MLP) Η εκπαίδευση ενός δικτύου MLP έχει ιδιαίτερο ενδιαφέρον λόγω της ικανότητας του MLP να συμπεριφέρεται ως «Καθολικός Προσεγγιστής» (Universal Approximator). Αποδεικνύεται πως εάν έχουμε το κατάλληλο μέγεθος δικτύου, τότε μπορούμε να το εκπαιδεύσουμε να μάθει όποια συνάρτηση θέλουμε και με οποιαδήποτε ακρίβεια θέλουμε. Αυτό αιτιολογεί και την μεγάλη δημοτικότητα των αλγορίθμων εκπαίδευσης MLP. Ο πιο γνωστός αλγόριθμος εκπαίδευσης είναι ο Back-Propagation.
Ο αλγόριθμος εκπαίδευσης Back-Propagation Προτάθηκε από τον Paul Werbos (970 s), αλλά και από άλλους την ίδια περίπου εποχή. Εκπαίδευση με επίβλεψη (ύπαρξη στόχων). Η γενική τοπολογία του MLP είναι: L στρώματα n = N(0) αριθμός εισόδων m = N(L) αριθμός εξόδων x, x 2,.., x n είσοδοι y, y 2,.., y m έξοδοι Για μια σειρά από P διανύσματα εισόδου, επιθυμούμε να έχουμε μια σειρά από P αντίστοιχα διανύσματα εξόδου.
Ο αλγόριθμος εκπαίδευσης Back-Propagation x p = x p, x n p T το p-στό διάνυσμα εισόδου y p = y p, y m p T το p-στό διάνυσμα εξόδου d p = d p, d m p T το p-στό διάνυσμα στόχων Για την εκπαίδευση θα χρησιμοποιηθούν τα P ζεύγη διανυσμάτων εισόδων-στόχων: x, d, x 2, d 2,., x p, d p. Η ιδανική εκπαίδευση θα κατέληγε στα ζεύγη: y = d, y 2 = d 2,.., y p = d p. Αυτό βέβαια δεν είναι εφικτό και θα πρέπει να προσαρμοστούμε σε μια βέλτιστη δυνατή προσέγγιση για την επιθυμητή έξοδο, χρησιμοποιώντας ένα κριτήριο κόστους. Το πιο διαδεδομένο κριτήριο είναι το Μέσο Τετραγωνικό Σφάλμα (Mean Square Error) J.
Ο αλγόριθμος εκπαίδευσης Back-Propagation P J MSE = P p= d p y p 2 = P p= Σκοπός: Η ελαχιστοποίηση της συνάρτησης MSE. Το MSE το έχουμε ήδη συναντήσει στο ADALINE. Ελαχιστοποιεί την απόσταση μεταξύ των διανυσμάτων y i, d i (επιθυμητή και πραγματική τιμή εξόδου). Παραγωγίζεται και μπορεί να χρησιμοποιηθεί στην μέθοδο κατάβασης δυναμικού για την εύρεση των αναδρομικών τύπων που θα υπολογίζουν την μεταβολή των συναπτικών βαρών για την πραγματοποίηση της εκπαίδευσης του δικτύου. P m i= d i p y i p 2
Κατάβαση δυναμικού J MSE Α Κλίση (gradient) στο σημείο Α + Κλίση (gradient) στο σημείο Β Β w παλιό w νέο Αν η κλίση είναι αρνητική τότε πάω μπροστά ( ) w νέο w παλιό Αν η κλίση είναι θετική τότε πάω πίσω ( ) Κινούμαι αντίθετα απ ότι λέει η παράγωγος: αν η παράγωγος είναι θετική τότε μειώνω το βάρος w, αν είναι αρνητική το αυξάνω. w
Κατάβαση δυναμικού Για να ελαχιστοποιηθεί το MSE πρέπει να διορθωθούν τα βάρη w ij. Πρέπει δηλαδή, με την μέθοδο κατάβασης δυναμικού, να βρούμε την μεταβολή του w ij ως προς τον χρόνο t (η οποία είναι η κλίση του J ως προς w ij ) δηλαδή πρέπει να βρούμε την παράγωγο του J ως προς w ij ). dw ij dt = J w ij Στον υπολογιστή χρησιμοποιούμε τον διακριτό χρόνο k, του οποίου συναρτήσεις θα είναι τα βάρη του κάθε στρώματος κατά την διάρκεια της εκπαίδευσης.
Κατάβαση δυναμικού w ij l, k : Συναπτικό βάρος που συνδέει τον νευρώνα j του στρώματος l με τον νευρώνα i του στρώματος l κατά την χρονική στιγμή k. στρώμα l w ij l, k στρώμα l- i j Η κατάβαση δυναμικού θα γίνει: J w ij l, k + w ij l, k = β w ij l, k J w ij l, k + = w ij l, k β w ij l, k Όπου β: το βήμα εκπαίδευσης
Κατάβαση δυναμικού Η έξοδος του νευρώνα i του στρώματος l θα είναι: Όπου: u i k l = a i k l = f u i k l N l ξ= w iξ l, k a ξ k l + w i0 l, k a i k Στρώμα l w ij l, k Στρώμα l- l i j Το μέγεθος u k i l λέγεται δικτυακή διέγερση (net input) του νευρώνα και είναι το άθροισμα των διεγέρσεων των νευρώνων του προηγούμενου στρώματος, συνδυασμένων με τα συναπτικά βάρη w iξ l, k. Το συναπτικό βάρος w i0 l, k αντιστοιχεί στο κατώφλι του νευρώνα i.
Ο κανόνας Back-Propagation (BP) Για διευκόλυνση των υπολογισμών, θέτουμε όπου: δ k J i l = u k i l Όπου δ i είναι η παράγωγος του κόστους J ως προς την δικτυακή διέγερση του νευρώνα i και έχει σχέση με το σφάλμα του νευρώνα i. Από την χρήση του ελληνικού γράμματος «δέλτα» στην παράσταση, πήρε και το όνομά του ο κανόνας Back-Propagation και λέγεται «Γενικευμένος κανόνας δέλτα» (Generalized Delta Rule)
J w ij l, k = J u k i l u k i l w ij l, k = δ i k u k i l l w ij l, k Η παράγωγος της δικτυακής διέγερσης ως προς το συναπτικό βάρος w ij l, k θα είναι: u i k Για j 0: Για j = 0: Ο κανόνας Back-Propagation (BP) N l l w ij l,k u k i l = w iξ l, k a k ξ l + w i0 l, k u i k ξ= l w ij l,k = a j k l u i k l w i0 l,k =
Με βάση αυτά θα έχουμε: Ο κανόνας Back-Propagation (BP) J w ij l, k = δ i k l a k j l για j =,, N(l ) δ k i l για j = 0 Εάν δε απλοποιήσουμε περεταίρω θέτοντας: a k 0 l = για όλα τα στρώματα l =,2,, L. θα έχουμε: J w ij l, k = δ i k l a j k l Για j = 0,,2,, N(l ) και l =,2,, L
Ο κανόνας Back-Propagation (BP) Στην ανωτέρω σχέση, ο υπολογισμός των σφαλμάτων δ k i l, για όλους τους νευρώνες i, θα γίνει αντίστροφα σε σχέση με την ανάκληση, δηλαδή ξεκινώντας από το στρώμα εξόδου και πηγαίνοντας πίσω, προς το στρώμα εισόδου. Για το στρώμα εξόδου L: Σφάλμα: παράγωγος του κόστους J ως προς την διέγερση u k i L δ i k = L = J a i k L J u k i L = J a k i f u i k u i k L L L a i k u i k = d i k y i k f u i k L Το σφάλμα δ k i L είναι η διαφορά του στόχου από την έξοδο επί την παράγωγο της συνάρτησης ενεργοποίησης f. L L
Ισχύουν διαφορετικοί τύποι για το εξωτερικό στρώμα L και για τα υπόλοιπα στρώματα. Για το στρώμα εξόδου L: Ο κανόνας Back-Propagation (BP) w ij k + = w ij k + βδ i k a j k δ i k = d i k y i k f u i k i =,, N L j = 0,,, N L d i a j w ij Στρώμα L Στρώμα L- Ανάλογα με το ποια συνάρτηση f u ενεργοποίησης χρησιμοποιούμε έχουμε και την διαφορετική παράγωγό της, f u. Για τις πιο συχνά χρησιμοποιούμενες (που πρέπει να είναι και παραγωγίσιμες) έχουμε:
Ο κανόνας Back-Propagation (BP) Για την σιγμοειδή: f u = + e u f u = f u f u Για την υπερβολική εφαπτομένη: f u = tanh u = eu e u e u + e u f u = + f u Για την γραμμική: f u = u f u = f u Σημείωση: Κάθε στρώμα μπορεί να έχει την δική του συνάρτηση ενεργοποίησης.
Ο κανόνας Back-Propagation (BP)..... d d 2 d 3 d N στρώμα l + d i στρώμα l Για οποιοδήποτε στρώμα l =,, L : Υπολογισμός δ i l προώθηση προς τα πίσω (backward phase). Υπολογίζω τα δ i l χρησιμοποιώντας τα δ i l + του πιο πάνω στρώματος. Εξ ου και το όνομα Back-Propagation.
Ο κανόνας Back-Propagation (BP) δ i k = l = N l+ μ= N l+ J u i k J l u k μ l + a i k u k μ l + a k i l u k i = δ k i l + w k μi l + f u k i l μ= l l
Ο κανόνας Back-Propagation (BP) Ο τύπος είναι ίδιος με αυτόν για το στρώμα L. Αλλάζει μόνον ο υπολογισμός του δ. d i w ij Στρώμα l+ w ij k + = w ij k + βδ i k a j k δ i k l = f u i k l i =,, N l j = 0,,, N l N l+ μ= a j w μi l + δ μ l + Στρώμα l
Εξίσωση ενημέρωσης βαρών j = 0,,, N l, Ο κανόνας Back-Propagation (BP) w ij l, k + = w ij l, k + βδ i k l a j k l l =,, L Τύποι υπολογισμού δ Στρώμα L = τελευταίο στρώμα: δ i k L = f u i k L d i k y i k Στρώμα l =,, L : δ i k l = f u i k l N l+ μ= w μi l + δ μ l +
Είσοδοι: P ζεύγη διανυσμάτων εισόδων-στόχων x p, d p Αρχικοποίησε τα βάρη w ij (l) σε μικρές τυχαίες τιμές Για κάθε εποχή =, 2,, MAXepoch { Για κάθε πρότυπο p =,, P { /* Εκπαίδευση */ /* Φάση ανάκλησης = Forward phase */ /* Φάση υπολογισμού d = Backward phase */ /* Φάση ενημέρωσης βαρών = Update phase */ } J=0; Για κάθε πρότυπο p =,, P { /* Υπολογισμός J */ /* Φάση ανάκλησης = Forward phase */ /* Άθροισε το τετραγωνικό σφάλμα στο J */ } } Μέχρι J μικρότερο από κάποιο κατώφλι minimum J Ο κανόνας Back-Propagation (BP)
Θέσε το συνολικό σφάλμα=0 Όχι Εάν το συνολικό σφάλμα < τελικού σφάλματος στόχου, σταμάτα Δώσε το ο πρότυπο και κάνε την εκπαίδευση Πρόσθεσε, την απόλυτη τιμή του σφάλματος κάθε νευρώνα εξόδου, στο συνολικό σφάλμα Ναι Stop Ναι, το τελευταίο πρότυπο έχει εκπαιδευτεί Εάν το τελευταίο πρότυπο έχει εκπαιδευθεί, άρχισε ξανά με το ο, διαφορετικά φόρτωσε το επόμενο πρότυπο και κάνε την εκπαίδευση Όχι, το τελευταίο πρότυπο δεν έχει εκπαιδευτεί
Τυπική καμπύλη εκπαίδευσης νευρωνικού δικτύου
Κατά την εκπαίδευση, υπάρχει ενδεχόμενο να «παγιδευτούμε» σε τοπικά ελάχιστα (Local minima) Τοπικά ελάχιστα (Local minima) Καμπύλη εκπαίδευσης νευρωνικού δικτύου με Local minima
Υπάρχει επίσης ενδεχόμενο να «παγιδευτούμε» οριστικά σε συνολικό ελάχιστο (Global minima) Τοπικά ελάχιστα (Local minima) Συνολικό ελάχιστο (Global minima) Καμπύλη εκπαίδευσης νευρωνικού δικτύου με Global minima
Εφαρμογή και Προβλήματα του MLP Δυνατότητα επίλυσης πολύπλοκων προβλημάτων. Καλύτερος ταξινομητής από το Perceptron και το ADALINE. Universal Approximator. Κατάβαση Δυναμικού Πρόβλημα τοπικών ελαχίστων: Μπορεί να «κολλήσει» σε μια λύση που δεν είναι ιδιαίτερα καλή. Αργή σύγκλιση. Ποιο b να επιλέξω; Δεν υπάρχει εύκολη και σαφής απάντηση. Συνήθως βάζω τυχαία μικρό b και δοκιμάζω.
Παράδειγμα εκπαίδευσης (MLP) 0,35 0, θ i =0 β= 0,9 0,6 0,8 0,4 a a 2 0,3 0,9 w ij l, k + = w ij l, k + βδ k i l a k j l f u = + e u f u = f u f u δ i k L = f u i k L d i k y i k d=0,5 y
Παράδειγμα εκπαίδευσης (MLP) u=(0,35x0,)+(0,9x0,8)=0,755 0,35 0, f 0,755 = + e 0,755 = 0,68 = a 0,8 a 0,9 0,6 0,4 a 2 0,3 0,9 f 0,68 = y + e 0,68 = 0,6637 = a 2 u=(0,9x0,6)+(0,35x0,4) = 0,68
0,35 0,9 Παράδειγμα εκπαίδευσης (MLP) 0, 0,6 0,8 0,4 a a 2 u=(0,3x0,68)+ (0,9x0,6637) = 0,8033 0,3 0,9 f 0,8033 = y = 0,69 = y + e 0,8033 Σφάλμα εξόδου: δ=(d-y)(-y)y = (0,5-0,69)(-0,69)0,69 = -0,0406 δ k i L = f u k i L d k k i y i f u = + e u f u = f u f u y = f u
0,35 0,9 Παράδειγμα εκπαίδευσης (MLP) 0, 0,6 0,8 0,4 a a 2 0,3 0,9 a = 0,68 a 2 = 0,6637 y Σφάλμα εξόδου: δ= -0,0406 w ij l, k + = w ij l, k + βδ i k l a j k l Νέα βάρη για το στρώμα εξόδου (για β=): w+ = w+(δ x είσοδος α) = 0,3 + (-0,0406x0,68) = 0,272392 w2+ = w2+(δ x είσοδος α2) = 0,9 + (-0,0406x0,6637) = 0,87305
0,35 0,9 Παράδειγμα εκπαίδευσης (MLP) 0, 0,6 0,8 0,4 δ i k l = f u i k l N l+ μ= a 0,272392 0,87305 a 2 w μi l + δ μ l + w+ = 0,272392 w2+ = 0,87305 y Σφάλμα εξόδου: δ=-0,0406 Δηλαδή το y παίρνει τώρα τις τιμές των α α 2 αντίστοιχα Σφάλματα ενδιάμεσου στρώματος: δ = δ x w x (-y)y = -0,0406 x 0,272392 x (-y)y = -2,406x0-3 δ2= δ x w2 x (-y)y = -0,0406 x 0,87305 x (-y)y = -7,96x0-3
Παράδειγμα εκπαίδευσης (MLP) 0,35 0,9 0, 0,8 0,4 0,6 a 0,272392 0,87305 a 2 δ = -2,406x0-3 δ2= -7,96x0-3 y Το a j k l για τα βάρη αυτά είναι η είσοδος, σ αυτό το στρώμα w ij l, k + = w ij l, k + βδ i k l a j k l Νέα βάρη ενδιάμεσου στρώματος: w3+ = 0, + (-2,406 x 0-3 x 0,35) = 0,0996 w4+ = 0,8 + (-2,406 x 0-3 x 0,9) = 0,7978 w5+ = 0,4 + (-7,96 x 0-3 x 0,35) = 0,3972 w6+ = 0,6 + (-7,96 x 0-3 x 0,9) = 0,5928
0,0996 0,35 0,7978 0,3972 0,9 0,5928 Παράδειγμα εκπαίδευσης (MLP) Επόμενο βήμα u=(0,35x0,0996)+(0,9x0,7978)=0,752726 a 0,272392 y 0,87305 a 2 u=(0,9x0,5928)+(0,35x0,3972) = 0,67254 f 0,752726 = = 0,6799 + e 0,752726 f 0,67254 = = 0,662 + e 0,67254
0,35 Επόμενο βήμα 0,9 Παράδειγμα εκπαίδευσης (MLP) u=(0,6799 x0,272392)+(0,662 x0,87305) = 0,763584208 0,0996 0,7978 0,3972 0,5928 a 0,272392 0,87305 a 2 a = 0,6799 a 2 = 0,662 f 0,763 = y d=0,5 y = 0,69 y 2 = 0,682 = 0,682 = y + e 0,763 Παλιό σφάλμα: -0.9. Νέο σφάλμα: -0.82. Δηλαδή έχουμε διόρθωση των βαρών προς την σωστή κατεύθυνση.
Εκπαίδευση χωρίς επίβλεψη (Unsupervised Learning) Η εκπαίδευση χωρίς επίβλεψη, επιτρέπει στο δίκτυο να αυτοοργανωθεί για την δική του ταξινόμηση των δεδομένων εισόδου (πρότυπα εισόδου), επιχειρώντας να βρει μια ενδεχόμενη δομή των δεδομένων χωρίς ετικέτα που δεν είναι προφανής. Σε αυτή την περίπτωση, δεν υπάρχουν επιθυμητές έξοδοι, επακριβώς καθορισμένες. Όταν η μάθηση πραγματοποιείται με έναν ορισμένο αριθμό των παραδειγμάτων (πρότυπα εισόδου) που είναι γνωστά εκ των προτέρων, η μάθηση ονομάζεται μη προσαρμοστική (non adaptive). Αντίθετα, όταν η μάθηση συντελείται συνεχώς, όταν προστίθενται πρότυπα, ονομάζεται προσαρμοστική (adaptive).