Το μοντέλο Perceptron

Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1

Το μοντέλο Perceptron Εκπαίδευση με επίβλεψη, δηλαδή με στόχους Ανάκληση: Είσοδοι Έξοδος διέγερση ή δυναμικό του Νευρώνα: u = w 1 x 1 + w 2 x 2 + + w n x n θ έξοδος: y = S i = f u Συνάρτηση ενεργοποίησης: f = βηματική (0/1 ή -1/1, χωρίς ιδιαίτερη σημασία) 1 1 0-1 2

Το μοντέλο Perceptron Σύμφωνα με τα ανωτέρω θα έχουμε τις εξής συνοπτικές σχέσεις: n n u = i=1 Και ανάλογα με την τιμή της διέγερσης, θα έχουμε: Για βηματική συνάρτηση ενεργοποίησης (0/1) w i x i θ y = f u > 0 αν u = 0 αν u < 0 αν u n i=1 n i=1 n i=1 i=1 w i x i θ y = f u w i x i > θ 1 w i x i = θ 0 w i x i < θ 0 3

Το μοντέλο Perceptron Το κατώφλι θ μπορεί να θεωρηθεί σαν ακόμα ένα συναπτικό βάρος του δικτύου (w 0 = θ ) με σταθερή είσοδο x 0 = 1. Μπορεί επίσης να ορισθεί ως συναπτικό βάρος το w 0 = θ και ως είσοδος το x 0 = 1. Τότε το συναπτικό βάρος είναι το αντίθετο του κατωφλίου και ονομάζεται πόλωση (bias). Στις περιπτώσεις αυτές αντιμετωπίζεται όπως και τα υπόλοιπα συναπτικά βάρη. Έτσι η διάσταση των επαυξημένων διανυσμάτων Εισόδου και Βαρών θα είναι n+1: x = x 0 x 1 x 2 x n 1 x n T w = w 0 w 1 w 2 w n 1 w n T 4

Το μοντέλο Perceptron Η εξίσωση στο όριο: u = n i=1 w i x i θ=0 Αντιστοιχεί σε ένα υπέρ-επίπεδο R n στον χώρο, με διαστάσεις που καθορίζονται από την τιμή του n. Τα σημεία x i που αντιστοιχούν σε θετικές τιμές της διέγερσης (u > 0) βρίσκονται από την μια μεριά του υπέρ-επιπέδου και αυτά που αντιστοιχούν σε αρνητικές τιμές (u < 0) βρίσκονται στην άλλη μεριά του. Για (u = 0) τα σημεία βρίσκονται πάνω στο υπέρ-επίπεδο. 5

Το μοντέλο Perceptron Για n =2, το υπέρ-επίπεδο συρρικνώνεται σε μια ευθεία με εξίσωση: u = w 1 x 1 + w 2 x 2 θ = 0 Η ευθεία αυτή θα είναι κάθετη στο διάνυσμα των συνοπτικών βαρών: w = w 1 w T 2 u = 0 W + 6

Το μοντέλο Perceptron x 1 Διαχωριστική γραμμή Μήλα Πορτοκάλια x 2 Γενικότερα, εάν υπάρχει μια ευθεία που διαχωρίζει τις δύο κλάσεις των δεδομένων εισόδου, το Perceptron μπορεί -δια της εκμάθησης (εκπαίδευσης)- να την βρει. 7

Η εκπαίδευση του Perceptron Το ζητούμενο είναι να μπορεί το Perceptron να ρυθμίσει τις παραμέτρους του (δηλαδή τα βάρη των συνάψεών του) ώστε να είναι σε θέση στην συνέχεια να διαχωρίζει τα δεδομένα της εισόδου (π.χ. τα μήλα από τα πορτοκάλια). Με άλλα λόγια να βρει την διαχωριστική γραμμή μεταξύ των κλάσεων εισόδου. Αυτό μπορεί να το κάνει στον βαθμό που υπάρχει μια τέτοια ευθεία- δια της εκμάθησης (εκπαίδευσης), η οποία και θα είναι κάθετη στο διάνυσμα των συναπτικών βαρών. 8

Η εκπαίδευση του Perceptron Η εκπαίδευση γίνεται με επίβλεψη, δηλαδή κατά κάποιον τρόπο με έναν «δάσκαλο» που δίνει την επιθυμητή τιμή της εξόδου d p (ή τιμή στόχου), για κάθε πρότυπο εκπαίδευσης p. Το δίκτυο «μαθαίνει» ρυθμίζοντας τις παραμέτρους w 0, w 1,, w n, λαμβάνοντας υπ όψη τα επαυξημένα πρότυπα εκπαίδευσης x 1,, x p, και τους στόχους d 1, d p, των προτύπων αυτών, χρησιμοποιώντας έναν επαναληπτικό (recursive) αλγόριθμο εκμάθησης. 9

Κανόνας εκπαίδευσης του Perceptron Ο πιο κλασσικός κανόνας εκμάθησης του Perceptron είναι αυτός της σταθερής αύξησης (fixed increment rule). Είναι ένας επαναληπτικός κανόνας, δηλαδή όλα τα πρότυπα εμφανίζονται στην είσοδο με κυκλική σειρά και όταν τελειώσουν επαναλαμβάνονται από την αρχή. Ένας πλήρης κύκλος χρήσης όλων των προτύπων αποτελεί μία εποχή (epoch). Επανάληψη k: 1 2 P P+1 P+2 2P 2P+1 Πρότυπο p: 1 2 P 1 2 P 1 Εποχή 1 Εποχή 2 10

Κανόνας εκπαίδευσης του Perceptron Ο κανόνας μεταβάλλει το επαυξημένο διάνυσμα των συναπτικών βαρών w μόνον όταν υπάρχει σφάλμα ταξινόμησης, δηλαδή όταν ο στόχος d p για το πρότυπο p διαφέρει από την τρέχουσα έξοδο του δικτύου: y = f w k 1 T x p Όπου w k 1 είναι το επαυξημένο διάνυσμα των συναπτικών βαρών μετά την επανάληψη k 1. Εάν υπάρχει σφάλμα d p y, η διόρθωση γίνεται προσθέτοντας ή αφαιρώντας ένα ποσοστό του προτύπου x p, ανάλογο του σφάλματος: w k = w k 1 + β d p y x p 11

Κανόνας εκπαίδευσης του Perceptron Καθώς, όπως είδαμε, το w 0 αναφέρεται στο συναπτικό βάρος του κατωφλίου με σταθερή είσοδο x 0 = 1, ο κανόνας εκπαίδευσης για το w 0 θα γίνει: w 0 k = w 0 k 1 + β d p y Η παράμετρος b ρυθμίζει το μέγεθος της διόρθωσης, καλείται βήμα εκπαίδευσης ή ρυθμός εκπαίδευσης (learning step ή learning rate) και είναι ένας μικρός θετικός αριθμός. Μεγάλο b κίνδυνος ταλάντωσης Μικρό b αργή σύγκλιση 12

Κανόνας εκπαίδευσης του Perceptron Η εκπαίδευση του δικτύου (δηλαδή η ρύθμιση του ανύσματος w ) γίνεται έτσι ώστε, εάν το πρότυπο ταξινομήθηκε εσφαλμένα, την επόμενη φορά, είτε θα ταξινομηθεί σωστά, είτε να προσεγγίσει την σωστή ταξινόμηση. Εάν π.χ. η διέγερση του νευρώνα στο βήμα k 1, πριν την διόρθωση των βαρών, είναι: p u k,πριν = w k 1 T x p Τότε στο βήμα k, μετά την διόρθωση των βαρών, θα έχουμε: p u k,μετα = w k T x p 13

Κανόνας εκπαίδευσης του Perceptron Αφού: w k = w k 1 + β d p y x p p u k,πριν p u k,μετα = w k 1 T x p = w k T x p = w k 1 T x p + β d p y x p T x p p = u k,πριν + β d p y x p 2 Οι εσφαλμένες ταξινομήσεις μπορεί να είναι δύο ειδών και ανάλογα με την περίπτωση, γίνεται η εκπαίδευση των βαρών. 14

Κανόνας εκπαίδευσης του Perceptron Αν: d p p = 1 και y = f u k,πριν = 0 οπότε: d p p y = 1 > 0 και u k,πριν 0 Δηλαδή: β d p y x p 2 p > 0 και τότε: u k,μετα Αν: d p p = 0 και y = f u k,πριν = 1 οπότε: d p p y = 1 < 0 και u k,πριν > 0 Δηλαδή: β d p y x p 2 p < 0 και τότε: u k,μετα p > u k,πριν p < u k,πριν Και στις δύο περιπτώσεις η διέγερση u μεταβάλλεται προς την σωστή κατεύθυνση, ώστε να οδηγήσει την έξοδο y στην σωστή τιμή, μηδενίζοντας ο σφάλμα. Δηλαδή προσεγγίζουμε προς την σωστή κατεύθυνση. 15

Κανόνας εκπαίδευσης του Perceptron Δηλαδή αν: d p = 1 και y = 0 Η διέγερση u p k αυξάνεται για να οδηγήσει την έξοδο στο επιθυμητό y = 1. Ενώ αν: d p = 0 και y = 1 Τότε η διέγερση u p k μειώνεται για να οδηγήσει την έξοδο στο επιθυμητό y = 0. Το ίδιο θα συμβεί και αν για τους στόχους έχουμε (- 1/1), αντί για (0/1). 16

Κανόνας εκπαίδευσης του Perceptron Η όλη διαδικασία, υπό μορφή ψευδοκώδικα θα έχει ως εξής: Εισήγαγε όλα τα πρότυπα με τη σειρά. Όταν τελειώσουν ξανάρχισε πάλι από την αρχή. Εποχή = μια κυκλική επανάληψη όλων των προτύπων Για κάθε εποχή { Για κάθε πρότυπο k { y k = f w T x k w new = w + β d k y k } } x k Αν στόχος = έξοδος: τότε δεν γίνεται καμία διόρθωση. Διόρθωση μόνο σε περίπτωση σφάλματος. 17

Κανόνας εκπαίδευσης του Perceptron Ο αλγόριθμος τερματίζεται όταν δεν γίνεται πλέον καμία διόρθωση σε κανένα πρότυπο. Αυτό σημαίνει ότι ΟΛΟΙ οι στόχοι είναι ίσοι με ΟΛΕΣ τις εξόδους: d 1 = y 1 d 2 = y 2.. d p = y p 18

Παράδειγμα εκπαίδευσης του Perceptron Στο Perceptron του παραδείγματος έχουμε: Άνυσμα εισόδου n + 1 x 1 διαστάσεων (μαζί με το bias): x i = 1 x 1 i x 2 i x n 1 i x T n Άνυσμα βαρών (μαζί με το bias): n + 1 x 1 w i = b n w 1 i w 2 i w n 1 i w n T b i : bias (πόλωση) y i : πραγματική έξοδος d i : επιθυμητή έξοδος β: συντελεστής εκμάθησης <1 Συνάρτηση ενεργοποίησης sgn x ή (-1/1) 19

Παράδειγμα εκπαίδευσης του Perceptron Βήματα της εκπαίδευσης: 1) Αρχικοποίηση (Initialization). Θέτουμε τα βάρη αρχικά: w 0 = 0 ή σε άλλες τυχαίες τιμές 2) Ενεργοποίηση (Activation) Στο βήμα i εφαρμόζουμε την είσοδο x i και την επιθυμητή έξοδο d i x i = 1 x 1 i x 2 i x n 1 i x T n 3) Υπολογισμός εξόδου (Actual Response) Στο βήμα i υπολογίζουμε την έξοδο y i y i = sgn w i T x i +1 για x 0 Όπου: sgn x = ή Βηματική (1/-1) 1 για x < 0 20

Παράδειγμα εκπαίδευσης του Perceptron 4) Επικαιροποίηση βαρών (εάν έχουμε σφάλμα) w k + 1 = w k + β d k y k x k Όπου: d k = +1 αν x k C 1 1 αν x k C 2 όπου C 1, C 2 : κλάσεις Εάν π.χ. έχουμε 2 πορτοκάλια και 2 μήλα με τα εξής χαρακτηριστικά: Πορτοκάλια (Κλάση C 1 ) Μήλα (Κλάση C 2 ) Βάρος (gr) Μέγεθος (cm) 121 16,8 114 15,2 210 9,4 195 8,1 21

Παράδειγμα εκπαίδευσης του Perceptron x 2 Μέγεθος (cm) 20 16 12 8 4 C 1 (121, 16,8) (114, 15,2) (210, 9,4) (195, 8,1) C 2 0 50 100 150 200 250 x 1 Βάρος (gr) Θέλουμε να κατατάξουμε ένα άγνωστο φρούτο με τα εξής χαρακτηριστικά: Βάρος 140 gr, Μέγεθος 17.9 cm. 22

Παράδειγμα εκπαίδευσης του Perceptron Δίδονται τυχαίες αρχικές τιμές: b(0)=50, w 1 =-30, w 2 =300 x 0 =+1 b(0)=50 x 1 w 1 =-30 Σ u 1 s i -1 x 2 w 2 =300 f(u) 23

Παράδειγμα εκπαίδευσης του Perceptron Στο επίπεδο η διαχωριστική ευθεία για είσοδο δύο διαστάσεων (x 1, x 2 ) θα είναι: n i=1 w i x i + b = w 1 x 1 + w 2 x 2 + b=0 x 2 C 1 0 x 1 C 2 24

Παράδειγμα εκπαίδευσης του Perceptron Εάν η αρχική διαχωριστική ευθεία μεταξύ των δύο κλάσεων είναι για παράδειγμα: w 1 x 1 + w 2 x 2 + b=0 30x 1 + 300x 2 + 50=0 Για x 1 = 100 x 2 = w 1x 1 b 30 100 50 = = 9,83 w 2 300 Για x 1 = 200 x 2 = w 1x 1 b 30 200 50 = = 19,83 w 2 300 25

Παράδειγμα εκπαίδευσης του Perceptron Τα δύο σημεία που ορίζουν την ευθεία θα είναι: (100, 9,83) και (200, 19,83) x 2 Μέγεθος (cm) 20 16 12 8 4 C 1 (121, 16,8) (114, 15,2) (100, 9,83) (200, 19,83) (210, 9,4) (195, 8,1) C 2 0 50 100 150 200 250 x 1 Βάρος (gr) 26

Παράδειγμα εκπαίδευσης του Perceptron Εάν εφαρμόσουμε στην είσοδο του Perceptron το άγνωστο φρούτο, θα έχουμε: x 0 =+1 b(0)=50 140 w 1 =-30 17,9 w 2 =300 Σ u 1 s i -1 f(u) x unknown = 1 140 17,9 T Άνυσμα βαρών (μαζί με το bias): w 3 = 50 30 300 T 27

Παράδειγμα εκπαίδευσης του Perceptron x 0 =+1 b(0)=50 140 w 1 =-30 Σ u 1 s i -1 17,9 w 2 =300 f(u) y unknown = sgn w T 0 x unknown = sgn 50 30 300 T 1 140 17,9 = sgn 1 50 30 140 + 300 17,9 = sgn 1220 = +1 Δηλαδή το άγνωστο φρούτο ανήκει στην κλάση C 1 (πορτοκάλι). 28

Παράδειγμα εκπαίδευσης του Perceptron Εάν τα αρχικά βάρη και το bias είναι τέτοια ώστε η ευθεία να μην ξεχωρίζει τις κλάσεις, π.χ. b(0)=-1230, w 1 (0)=-30, w 2 (0)=300 w 1 x 1 + w 2 x 2 + b=0 30x 1 + 300x 2 1230=0 Για x 1 = 100 x 2 = w 1x 1 b = w 2 Για x 1 = 200 x 2 = w 1x 1 b = w 2 30 100 + 1230 300 30 200 + 1230 300 = 14,1 = 24,1 29

Παράδειγμα εκπαίδευσης του Perceptron Τα δύο σημεία που ορίζουν την ευθεία θα είναι: (100, 14,1) και (200, 24,1). Τότε οι κλάσεις δεν ξεχωρίζουν και θα πρέπει να γίνει εκπαίδευση του Perceptron. x 2 Μέγεθος (cm) 20 16 12 8 4 (121, 16,8) (100, 14,1) (114, 15,2) (200, 24,1) (210, 9,4) (195, 8,1) 0 50 100 150 200 250 x 1 Βάρος (gr) 30

Παράδειγμα εκπαίδευσης του Perceptron Για το 1 ο γνωστό φρούτο (121, 16,8) θα έχουμε d 1 = +1 : x 0 =+1 b(0)=-1230 121 16,8 w 1 =-30 w 2 =300 Σ u 1-1 f(u) y 1 = sgn w T 1 x 1 = sgn 1230 30 300 T 1 121 16,8 = sgn 1 1230 30 121 + 300 16,8 = sgn 180 = +1 Δηλαδή ταξινομεί σωστά το φρούτο στην κλάση C 1 (πορτοκάλι). s i 31

Παράδειγμα εκπαίδευσης του Perceptron Για το 2 ο γνωστό φρούτο (114, 15,2) θα έχουμε d 2 = +1 : Απαιτείται διόρθωση x 0 =+1 των βαρών b(0)=-1230 114 15,2 w 1 =-30 w 2 =300 Σ u 1-1 f(u) y 2 = sgn w T 1 x 2 = sgn 1230 30 300 T 1 114 15,2 = sgn 1 1230 30 114 + 300 15,2 = sgn 90 = 1 Δηλαδή δεν ταξινομεί σωστά το φρούτο στην κλάση C 1 (πορτοκάλι). s i 32

Παράδειγμα εκπαίδευσης του Perceptron Επικαιροποίηση των βαρών: w k + 1 = w k + β d k y k x k w 1 = 1230 30 300 T x k = x 2 = 1 114 15,2 T d 1 = 1 y 1 = 1 β = 0,01 w 1 + 1 = w 1 + β d 1 y 1 x 1 w 2 = 1230 30 300 T + 0,01 1 1 1 114 15,2 T = 1230 30 300 T + 0,02 2,28 0,304 T = 1229,08 27,72 300,304 T Βάζουμε τα νέα βάρη και ταξινομούμε ξανά τα φρούτα. 33

Παράδειγμα εκπαίδευσης του Perceptron Επανάληψη για το (114, 15,2) d 2 = +1 : Δηλαδή τώρα ταξινομεί σωστά το x 0 =+1 φρούτο στην κλάση C 1 (πορτοκάλι). b(0)=-1229,08 114 15,2 w 1 =-27,72 w 2 =300,304 Σ u 1-1 f(u) y 2 = sgn w T 2 x 2 = sgn 1229,08 27,72 300,304 T 1 114 15,2 = sgn 1 1229,08 27,72 114 + 300,304 15,2 = sgn 175,46 = +1 s i 34

Παράδειγμα εκπαίδευσης του Perceptron Για το 3 ο γνωστό φρούτο (210, 9,4) θα έχουμε d 3 = 1 : Δηλαδή ταξινομεί σωστά το φρούτο x 0 =+1 στην κλάση C 2 (πορτοκάλι). b(0)=-1229,08 210 9,4 w 1 =-27,72 w 2 =300,304 Σ u 1-1 f(u) y 3 = sgn w T 2 x 3 = sgn 1229,08 27,72 300,304 T 1 210 9,4 = sgn 1 1229,08 27,72 210 + 300,304 9,4 = sgn 4227,4224 = 1 s i 35

Παράδειγμα εκπαίδευσης του Perceptron Για το 4 ο γνωστό φρούτο (195, 8,1) θα έχουμε d 4 = 1 : Δηλαδή ταξινομεί σωστά το φρούτο x 0 =+1 στην κλάση C 2 (πορτοκάλι). b(0)=-1229,08 195 8,1 w 1 =-27,72 w 2 =300,304 Σ u 1-1 f(u) y 4 = sgn w T 2 x 4 = sgn 1229,08 27,72 300,304 T 1 195 8,1 = sgn 1 1229,08 27,72 195 + 300,304 8,1 = sgn 4202,0176 = 1 = d 4 s i 36

Παράδειγμα εκπαίδευσης του Perceptron Επανεξετάζουμε το 1 ο γνωστό φρούτο (121, 16,8) d 1 = +1 : Δηλαδή ταξινομεί σωστά το φρούτο x 0 =+1 στην κλάση C 1 (πορτοκάλι). b(0)=-1229,08 121 16,8 w 1 =-27,72 w 2 =300,304 Σ u 1-1 f(u) y 1 = sgn w T 2 x 1 = sgn 1229,08 27,72 300,304 T 1 121 16,8 = sgn 1 1229,08 27,72 121 + 300,304 16,8 = sgn 461,91 = +1 = d 1 s i 37

Παράδειγμα εκπαίδευσης του Perceptron Μετά την εκπαίδευση του Perceptron (δηλαδή την επικαιροποίηση των βαρών του), η ευθεία διαχωρισμού των δύο κλάσεων θα έχει αλλάξει θέση. w 1 x 1 + w 2 x 2 + b=0 27,72x 1 + 300,304x 2 1229,08=0 Για x 1 = 100 x 2 = w 1x 1 b = w 2 Για x 1 = 200 x 2 = w 1x 1 b = w 2 27,72 100 + 1229,08 300,304 27,72 200 + 1229,08 300,304 = 13,32 = 22,55 38

Παράδειγμα εκπαίδευσης του Perceptron x 2 Μέγεθος (cm) 20 16 12 8 4 (121, 16,8) (114, 15,2) (100, 13,32) (200, 22,55) (210, 9,4) (195, 8,1) 0 50 100 150 200 250 x 1 Βάρος (gr) 39

Παράδειγμα εκπαίδευσης του Perceptron Επανεξετάζουμε το άγνωστο φρούτο (140, 17,9) : Δηλαδή ταξινομεί ξανά το άγνωστο x 0 =+1 φρούτο στην κλάση C 1 (πορτοκάλι). b(0)=-1229,08 140 17,9 w 1 =-27,72 w 2 =300,304 Σ u 1-1 f(u) y unknown = sgn w T 2 x unknown = sgn 1229,08 27,72 300,304 T 1 140 17,9 = sgn 1 1229,08 27,72 140 + 300,304 17,9 = sgn 265,56 = +1 s i 40

Ιδιότητες κανόνα Perceptron Θεώρημα: Αν το πρόβλημα είναι γραμμικά διαχωρίσιμο τότε συγκλίνει σε πεπερασμένο (αλλά άγνωστο) αριθμό επαναλήψεων. Αν το πρόβλημα δεν είναι γραμμικά διαχωρίσιμο το Perceptron δεν συγκλίνει ποτέ! Εδώ εξαντλείται και η ικανότητα του Perceptron. 41

Ιδιότητες κανόνα Perceptron x 2 Π.χ. Το πρόβλημα XOR D 1 (0,1) (1,1) D 2 D 3 Τα δεδομένα δεν είναι γραμμικώς διαχωρίσιμα. Εδώ εξαντλείται και το όριο του Perceptron. Η εξέλιξή του (το MLP) υπερνικά αυτό το πρόβλημα. (0,0) (1,0) x 1 42

Το δίκτυο ADALINE Στο μοντέλο Perceptron οι αρχικές τιμές των στοιχείων του επαυξημένου διανύσματος των συναπτικών βαρών w 0 παίρνουν τυχαίες τιμές και οι έξοδοι του Perceptron παίρνουν τις τιμές 0/1 ή 1/-1, ανάλογα με την βηματική συνάρτηση ενεργοποίησης. Το ADALINE: ADAptive LINear Element (Αυτοπροσαρμοζόμενο Γραμμικό Στοιχείο) Ο όρος εισήχθη από τον Widrow και περιγράφει μια πιο απλοποιημένη μορφή του νευρώνα, όπου η συνάρτηση ενεργοποίησης f(.) δεν υπάρχει καθόλου και η έξοδος y του νευρώνα ταυτίζεται με το δυναμικό του νευρώνα u. 43

Το δίκτυο ADALINE x 1 w 1 u = n w i x i θ x 2 w 2 i=1 x j w j Σ u s i S i = f u = u x n w n -θ Και αν χρησιμοποιήσουμε τα επαυξημένα ανύσματα: u = i=0 Με: w = w 0 w 1 w 2 w n 1 w T n x = x 0 x 1 x 2 x n 1 x T n n w i x i = W T X 44

Η έξοδος y=u του ADALINE παίρνει τιμές από - έως ενώ στο Perceptron είχαμε 0/1 ή -1/1. Το ίδιο μπορεί να συμβαίνει και για τους στόχους d p, χωρίς αυτό να είναι υποχρεωτικό. Όμως για τον διαχωρισμό των κλάσεων οι διακριτοί αριθμοί είναι πιο εύχρηστοι. Τελικά, καθώς η έξοδος του ADALINE (y=u) μπορεί να πάρει άπειρες τιμές, καταλήγουμε, για τον διαχωρισμό δύο κλάσεων Α και Β, να υιοθετήσουμε την λογική: Εάν u>0, κλάση Α άρα και οι αντίστοιχοι στόχοι d>0 Εάν u 0, κλάση Β Το δίκτυο ADALINE άρα και οι αντίστοιχοι στόχοι d 0 45

Ελάχιστα Τετράγωνα Είναι ευνόητο πως για μια τέλεια ταξινόμηση των δεδομένων εισόδου στις κλάσεις Α ή Β, θα έχουμε: u p = d p Αυτό οδηγεί στην επίλυση ενός συστήματος P γραμμικών εξισώσεων (όπου P = το πλήθος όλων των προτύπων και για τις δύο κλάσεις): u 1 = w T x 1 = d 1 u 2 = w T x 2 = d 2 u P = w T x P = d P 46

Ελάχιστα Τετράγωνα Η σε άλλη μορφή: XW = d Με: X = x 1, x 2,, x p T d = d 1, d 2,, d p T Δηλαδή έχουμε P εξισώσεις με n+1 αγνώστους (τα βάρη w 0, w 1,, w n ). Αν P>n+1 μπορεί το σύστημα να μην έχει λύση και τότε αναζητούμε μια προσεγγιστική λύση, χρησιμοποιώντας ένα κριτήριο που να μας δείχνει πόσο κοντά είναι οι τιμές εξόδου στις επιθυμητές τιμές, συνολικά για όλα τα πρότυπα. Ένα τέτοιο κριτήριο είναι το τετραγωνικό σφάλμα. 47

Τετραγωνικό σφάλμα: Ελάχιστα Τετράγωνα J = P d p u p 2 = P d p w T x p 2 p=1 p=1 Εάν d p = u p για όλα τα πρότυπα, τότε το τετραγωνικό σφάλμα μηδενίζεται. Το τετραγωνικό σφάλμα J ορίζεται και ως η νόρμα της διαφοράς Xw d, δηλαδή η τετραγωνική απόσταση του διανύσματος στόχου d από το διάνυσμα εξόδου u = Xw: J = u d 2 Του οποίου επιζητούμε την ελαχιστοποίηση. 48

Μέσο Τετραγωνικό Σφάλμα (Mean Square Error) Συνήθως όμως, για το κόστος, χρησιμοποιείται ένα μέγεθος λίγο διαφορετικό από το J, αυτό του Μέσου Τετραγωνικού Σφάλματος (MSE): Όπου η έκφραση E J MSE = E x T w d 2 δηλώνει την αναμενόμενη τιμή. Το J MSE είναι η μέση τιμή του τετραγωνικού σφάλματος: x T w d 2 Και μπορεί να γραφεί επίσης υπό την μορφή: p J MSE = 1 p i=1 u i d i 2 49

Μέσο Τετραγωνικό Σφάλμα (Mean Square Error) Για να βρούμε τον σωστό κανόνα εκπαίδευσης, πρέπει να ελαχιστοποιήσουμε το J MSE, πράγμα το οποίο μπορεί γίνει με την κατάβαση δυναμικού, χρησιμοποιώντας την παραγώγιση: dw dt = J MSE w = w E xt w d 2 = E w xt w d 2 = 2E x x T w d = 2E x d x T w 50

Μέσο Τετραγωνικό Σφάλμα (Mean Square Error) Η ανωτέρω σχέση οδηγεί στον αναδρομικό αλγόριθμο εκπαίδευσης, γνωστό και ως LMS (Least Mean Squares): ή w k = β k x k d k w k 1 T x k w k = w k 1 + β k x k δ k δ k = d k w k 1 T x k = d k u k Ή ακόμα: w k = w k w k 1 = β k x k δ k 51

Μέσο Τετραγωνικό Σφάλμα (Mean Square Error) Η ανωτέρω σχέση δείχνει πως η διόρθωση βάρους w k είναι ανάλογη (λόγος αναλογίας β ) του γινομένου της εισόδου x k επί το σφάλμα δ k. w k = w k w k 1 = β k x k δ k Ο ανωτέρω κανόνας εκπαίδευσης (ή μάθησης) ADALINE, λέγεται και κανόνας δέλτα (delta rule) ή κανόνας Widrow-Hoff από το όνομα των δημιουργών του. 52

Κανόνας ADALINE (Widrow-Hoff ή delta rule) Είσοδοι: Τα επαυξημένα πρότυπα εισόδου: x 1,., x p Οι στόχοι που είναι πραγματικοί αριθμοί: d 1,., d p Έξοδος: Τα εκπαιδευμένα συναπτικά βάρη: w 0, w 1,, w n Αλγόριθμος: Δώσε τυχαίες τιμές στο επαυξημένο διάνυσμα w 0 Όρισε το όριο ε για το σφάλμα εκπαίδευσης Δώσε μια μικρή τιμή>0 για την παράμετρο εκπαίδευσης b 53

Κανόνας ADALINE (Widrow-Hoff ή delta rule) k=1 Για κάθε εποχή e=1,,maxepochs { Για κάθε πρότυπο p=1,,p { u(k) = w T x(k) w νέο = w + b(k) (d(k) - u(k)) x(k) Διόρθωση k=k+1 } Για κάθε πρότυπο p { Υπολόγισε το J } Τερματισμός όταν J < ε ή όταν e=maxepochs } 54

Κανόνας ADALINE (Widrow-Hoff ή delta rule) Ο αλγόριθμος ADALINE εξομοιώνεται στον υπολογιστή με πεπερασμένο αριθμό επαναλήψεων και προτύπων εισόδου. Ο συντελεστής b συνήθως δεν τείνει στο μηδέν αλλά σε μια μικρή τιμή κοντά στο μηδέν. Αν τα πρότυπα είναι λίγα, τα χρησιμοποιούμε ξανά και ξανά, κυκλικά επαναλαμβανόμενα, για να δημιουργήσουμε τεχνητά μια μεγάλη ακολουθία. Μια επανάληψη όλων των προτύπων, λέγεται εποχή, όπως και στο Perceptron. 55

ADALINE & PERCEPTRON Ομοιότητα με Perceptron: 1. Ένας μόνο νευρώνας McCulloch-Pitts 2. Ύπαρξη στόχων (εκπαίδευση με επίβλεψη) Διαφορά με Perceptron: 1. Οι στόχοι συγκρίνονται με την διέγερση u και όχι με την έξοδο y 2. Κριτήριο: Μέσο Τετραγωνικό Σφάλμα 56

ADALINE: πρόβλημα ορισμού στόχων Πρόβλημα ορισμού στόχων Στο Perceptron στόχοι σαφείς (0/1 ή 1/1) Στο ADALINE < u <, d =? Συνήθως βάζουμε d=1 αν το πρότυπο ανήκει στην κλάση 1 ή d = 1 αν το πρότυπο ανήκει στην κλάση 0. Κατά την εκπαίδευση του ADALINE δεν χρησιμοποιείται η μη γραμμική συνάρτηση ενεργοποίησης. Κατά την ανάκληση του δικτύου όμως μπορούμε να την χρησιμοποιήσουμε, παίρνοντας για έξοδο y = f u δυαδικές τιμές (0/1 ή -1/1). 57

Παράδειγμα ADALINE: Γραμμικά Διαχωρίσιμο Το ADALINE διαχωρίζει τις κλάσεις με επιτυχία, όταν αυτές είναι καλά διαχωρίσιμες και έχουν συγκρίσιμη διασπορά 58

Παράδειγμα ADALINE: Γραμμικά Διαχωρίσιμο Το ADALINE δεν διαχωρίζει τις κλάσεις σωστά, αν και είναι γραμμικά διαχωρίσιμες! Η διασπορές τους είναι αρκετά διαφορετικές 59

Παράδειγμα ADALINE: μη Γραμμικά Διαχωρίσιμο Το ADALINE κάνει σχετικά καλή δουλειά, αν και οι κλάσεις είναι μη γραμμικά διαχωρίσιμες. Το Perceptron δεν θα συνέκλινε. 60

Σύγκριση Perceptron - ADALINE Και οι δύο κανόνες είναι αυτοπροσαρμοστικοί. Πλεονέκτημα ADALINE: συγκλίνει ακόμη κι αν το πρόβλημα δεν είναι γραμμικά διαχωρίσιμο. Στην περίπτωση αυτή το Perceptron ταλαντεύεται επ άπειρον. Μειονέκτημα ADALINE: δεν εγγυάται το διαχωρισμό των κλάσεων όταν το πρόβλημα είναι γραμμικά διαχωρίσιμο. Στον αλγόριθμο Perceptron τέτοιο πρόβλημα δεν υφίσταται. 61