Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Donald O. Hebb, Organization ofbehavior (1949) Ο Κανόνας του Hebb Είναι ένας από τους πρώτους κανόνες εκμάθησης στα νευρωνικά δίκτυα. Προτάθηκε αρχικά, από τον Hebb, ως ένας πιθανός μηχανισμός για την συναπτική μεταβολή στον εγκέφαλο και υιοθετήθηκε κατόπιν στα νευρωνικά δίκτυα. Εδράζεται στην μελέτη του Hebb για την θεωρία του Pavlov.
Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Ο Κανόνας του Hebb Όταν ο άξονας ενός νευρώνα Α είναι αρκετά κοντά ώστε να διεγείρει το νευρώνα Β, και συστηματικά και επίμονα συμμετέχει στην ενεργοποίησή του, τότε κάποια μεταβολική αλλαγή συμβαίνει, είτε στο ένα απ' τα δύο, είτε και στα δύο κύτταρα, έτσι ώστε η αποτελεσματικότητα με την οποία ο Α διεγείρει τον Β, αυξάνεται.
Γραμμικός Συσχετιστής (Linear Associator) Ο κανόνας του Hebb μπορεί να χρησιμοποιηθεί με διάφορες αρχιτεκτονικές ΝΝ. Η πιο απλή είναι αυτή του James Anderson ή του Teuvo Kohonen. Είσοδοι Γραμμικό Στρώμα a = Wp R p Rx1 W SxR n Sx1 S a Sx1 a i = ή Q j=1 w ij p j a = purelin Wp Γραμμικός Συσχετιστής
Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Αυτό οδηγεί στην μαθηματική έκφραση του κανόνα του Hebb: w ij new = w ij old + af i a iq g j p jq Όπου: p jq : είναι το j th στοιχείο του q th ανύσματος εισόδου p q a iq : είναι το i th στοιχείο της εξόδου όταν το q th άνυσμα εισόδου εμφανίζεται στην είσοδο. a: είναι η σταθερά εκμάθησης, ένα θετικός αριθμός. Και απλοποιώντας περεταίρω: w ij new = w ij old + a. a iq. p jq
Η σχέση αυτή λέει πως το βάρος αλλάζει ανάλογα με την δραστηριότητα και στις δύο πλευρές της σύναψης. Αυξάνει και όταν τα p j και a i είναι και τα δύο θετικά και όταν είναι και τα δύο αρνητικά. Αντίθετα μειώνεται όταν έχουν αντίθετα πρόσημα. Ο κανόνας αυτός είναι ένας κανόνας χωρίς επίβλεψη και δεν χρειάζεται καμιά επιθυμητή έξοδο. Εάν θέλουμε να τον χρησιμοποιήσουμε με επίβλεψη, θα αντικαταστήσουμε την τιμή της πραγματικής εξόδου με την τιμή στόχου και η σχέση θα γίνει: w ij new = w ij old + a. t iq. p jq Όπου t iq : το i th στοιχείο του ανύσματος στόχου t q Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη
Η απλοποιημένη σχέση (με a = 1) σε μορφή πινάκων θα είναι: W new = W old + t q p q T Εάν υποθέσουμε πως τα βάρη W old αρχικά είναι μηδέν και εφαρμόζονται τα Q ζεύγη εισόδου/εξόδου θα έχουμε: W = t 1 p 1 T + t 2 p 2 T + + t Q p Q T = με Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Q q=1 T = t 1 t 2 t Q, P = p 1 p 2 p Q t q p q T = TP T
Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Η επίδοση στην εκμάθηση του γραμμικού συσχετιστή με τον κανόνα του Hebb, όταν τα ανύσματα p q είναι ορθοκανονικά (δηλ. ορθογώνια και μοναδιαίου μήκους), θα διαγράφεται ως εξής: Για είσοδο p k η έξοδος a θα είναι: a = Wp k = Q q=1 t q p q T p k = Q q=1 t q p q T p k Για p q ορθοκανονικό, θα έχουμε: p q T p k = 1 q = k p q T p k = 0 q k και a = Wp k = t k Δηλαδή για πρωτότυπα ορθοκανονικά ανύσματα εισόδου, η έξοδος ισούται με τον στόχο και η εκμάθηση λειτουργεί τέλεια.
Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Ορθοκανονικά διανύσματα: Λέγονται τα ορθογώνια (κάθετα) διανύσματα, με μέτρο 1. Το μεταξύ τους γινόμενο είναι 0. Για τα διανύσματα αυτά ισχύει e i. e j = δ ij (δ ij είναι το σύμβολο του Kronecker, το οποίο είναι δ ij = 1 για i = j και δ ij = 0 για i j ). Εάν τα ανύσματα p q δεν είναι ορθοκανονικά (αλλά μοναδιαίου μήκους), θα έχουμε: a = Wp k = t k + q k t q p q T p k σφάλμα Δηλαδή τότε δεν θα έχουμε την σωστή έξοδο, και το σφάλμα θα εξαρτάται από τον βαθμό συσχέτισης μεταξύ πρωτοτύπου και ανύσματος εισόδου.
Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Μήκος (μέτρο) ανύσματος Εάν έχουμε ένα άνυσμα A = 3 1 2 Το μέτρο του θα είναι: Α = A x 2 + A y 2 + A z 2 = 9 + 1 + 4 = 14 = 3,742 Κανονικοποίηση ανύσματος A N = Α Α = 3 1 3,742 3,742 2 3,742 = 0,802 0,267 0,534
Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Παράδειγμα Έστω 2 ορθοκανονικά πρωτότυπα ζεύγη εισόδου/εξόδου: p 1 = 0,5 0,5 0,5 0,5, t 1 = 1 1 p 2 = 0,5 0,5 0,5 0,5, t 2 = 1 1 Μήτρα βαρών: W = TP T = 1 1 1 1 = 1 0 0 1 0 1 1 0 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5
Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Παράδειγμα Δοκιμή: a 1 = Wp 1 = 1 0 0 1 0 1 1 0 a 2 = Wp 2 = 1 0 0 1 0 1 1 0 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 = 1 1 = 1 1 Δηλαδή το σύστημα μας δίνει ως εξόδους τους στόχους: a 1 = t 1 και a 2 = t 2.
Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Παράδειγμα Εάν έχουμε δύο πρωτότυπα που δεν είναι ορθοκανονικά: p 1 = 1 1 1 Τα κανονικοποιούμε:, t 1 = 1 p 2 = 1 1 1, t 2 = 1 p 1 = p 2 = 3 = 1,732 1 1,732 = 0,5774 p 1 p 1 = 0,5774 0,5774 0,5774, t 1 = 1 p 2 p 2 = 0,5774 0,5774 0,5774, t 2 = 1
Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Παράδειγμα Μήτρα βαρών: W = TP T = 1 1 = 0 1,1548 0 0,5774 0,5774 0,5774 0,5774 0,5774 0,5774 a 1 = Wp 1 = 0 1,1548 0 a 2 = Wp 2 = 0 1,1548 0 0,5774 0,5774 0,5774 0,5774 0,5774 0,5774 = 0,6668 = 0,6668 Δηλαδή το σύστημα μας δίνει τιμές εξόδου κοντά στους στόχους (-1 1), ωστόσο όμως με ένα σημαντικό σφάλμα.
Ψευδοαντίστροφος κανόνας Μάθησης Όταν τα πρωτότυπα ανύσματα εισόδου δεν είναι ορθογώνια, ο κανόνας του Hebb δίνει κάποια σφάλματα, τα οποία μπορούμε να τα μειώσουμε με διάφορες μεθόδους (π.χ. με τον ψευδοαντίστροφο κανόνα). Σκοπός του γραμμικού συσχετιστή είναι να δίνει μια έξοδο t q όταν δέχεται μια είσοδο p q : Wp q = t q q = 1,2,.. Q Εάν δεν είναι δυνατόν να επιλεγεί η μήτρα βαρών έτσι ώστε να μπορεί να επιτευχθεί ακριβώς η σχέση, τότε μπορεί να αποπειραθεί μια προσέγγισή της: F W = Q q=1 t q Wp q 2 Για ορθοκανονικά ανύσματα εισόδου p q η F W μηδενίζεται.
Ψευδοαντίστροφος κανόνας Μάθησης Όταν τα ανύσματα εισόδου δεν είναι ορθοκανονικά, η F W, όχι μόνον δεν μηδενίζεται, αλλά και η τιμή που παίρνει δεν είναι κατ ανάγκη η ελάχιστη δυνατή. Η μήτρα βαρών που ελαχιστοποιεί την F W υπολογίζεται με την βοήθεια της ψευδοαντίστροφης μήτρας. Έχουμε: WP = T με: T = t 1 t 2 t Q, P = p 1 p 2 p Q F W = T WP 2 = E 2 = i j e ij 2 Η F W μπορεί να μηδενισθεί εάν υπάρχει η αντίστροφη της P. T WP = 0 WP = T W = ΤP 1
Ψευδοαντίστροφος κανόνας Μάθησης Η P 1 σπάνια υπάρχει. Κανονικά, τα ανύσματα p q (δηλαδή οι στήλες της P) είναι ανεξάρτητα, αλλά η R (δηλαδή η διάσταση του p q ) είναι μεγαλύτερη του Q (δηλαδή του αριθμού των ανυσμάτων p q ). Δηλαδή η P δεν θα είναι μια τετραγωνική μήτρα και δεν θα υπάρχει ακριβής αντίστροφός της. P = Q R Στην περίπτωση αυτή, η μήτρα που θα ελαχιστοποιεί την F W θα βρίσκεται από τον κανόνα της ψευδοαντιστρόφου:
Ψευδοαντίστροφος κανόνας Μάθησης Αντί WP = T θα έχουμε: WPP + = TP + W = ΤP + Η μήτρα P + λέγεται ψευδοαντίστροφος της P (των Moore- Penrose) και είναι η μοναδική μήτρα που ικανοποιεί την σχέση: PP + P = P P + PP + = P + P + P = P + P Τ PP + = PP + Τ Όταν ο αριθμός R των γραμμών της P είναι μεγαλύτερος του αριθμού Q των στηλών της και οι στήλες είναι ανεξάρτητες, τότε η ψευδοαντίστροφος υπολογίζεται: P + = P T P 1 P T
Ψευδοαντίστροφος κανόνας Μάθησης Παράδειγμα Ξαναπαίρνουμε τα δύο μη ορθοκανονικά πρωτότυπα και δεν χρειάζεται να κανονικοποιήσουμε τα ανύσματα εισόδου: p 1 = 1 1 1, t 1 = 1 p 2 = 1 1 1, t 2 = 1 Τ = 1 1 P = 1 1 1 1 1 1 W = ΤP + = 1 1 1 1 1 1 1 1 +
Παράδειγμα P + = P T P 1 P T Ψευδοαντίστροφος κανόνας Μάθησης = = 3 1 1 3 = 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0,25 0,5 0,25 0,25 0,5 0,25 1 1 1 1 1 1 1 = 0,375 0,125 0,125 0,375 1 1 1 1 1 1
Ψευδοαντίστροφος κανόνας Μάθησης Παράδειγμα W = ΤP + = 1 1 0,25 0,5 0,25 0,25 0,5 0,25 = 0 1 0 a 1 = Wp 1 = 0 1 0 a 2 = Wp 2 = 0 1 0 1 1 1 1 1 1 = 1 = 1 Δηλαδή το δίκτυο, με την χρήση της ψευδοαντιστρόφου, δίνει εξόδους ίσες με τις τιμές στόχους, όπως ακριβώς και με τον κανόνα του Hebb.
Εφαρμογή Για την κατανόηση του κανόνα του Hebb, στην εκμάθηση ενός δικτύου, θα χρησιμοποιήσουμε ένα υπεραπλουστευμένο παράδειγμα αναγνώρισης δεδομένων (ψηφίων) σε ένα δίκτυο αυτοσυσχετιστικής μνήμης (autoassociative memory). Στις αυτοσυσχετιστικές μνήμες το επιθυμητό άνυσμα εξόδου είναι ίδιο με το άνυσμα εισόδου (t q = p q ). Τα τρία ψηφία που θα δώσουμε ως δεδομένα εισόδου και ως στόχους εμφανίζονται ως πλέγμα 6x5. Για την μετατροπή του πλέγματος σε μήτρα, θα αντιστοιχίσουμε στα λευκά τετράγωνα (pixels) το «-1» και στα σκούρα το «1».
Εφαρμογή Το άνυσμα p 1 που αντιστοιχεί π.χ. στο ψηφίο «0» θα έχει διαστάσεις 30x1, όλες οι στήλες των τετραγώνων στην σειρά, θα είναι: p 1 = 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 T Με βάση τον κανόνα του Hebb και καθώς (t q = p q ), η μήτρα βαρών θα είναι: W = TP T = p 1 p 1 T + p 2 p 2 T + p 3 p 3 T
Εφαρμογή Καθώς οι τιμές της εξόδου=στόχου είναι δύο («-1» ή «1»), ο γραμμικός συσχετιστής που θα χρησιμοποιηθεί μπορεί να χρησιμοποιηθεί με συνάρτηση ενεργοποίησης Hard Limit: Είσοδοι Γραμμικό Στρώμα Hard Limit 30 p 30x1 W 30x30 n 30x1 30 a 30x1 a = hardlims Wp
Εφαρμογή Για να ελέγξουμε την λειτουργία του δικτύου θα το τροφοδοτήσουμε με δεδομένα (ψηφία) τα οποία έχουν παραμορφωθεί. Αρχικά η παραμόρφωση έχει να κάνει με την αφαίρεση του κάτω μισού ψηφίου. Το δίκτυο θα μας δώσει ως έξοδο το σωστό ψηφίο.
Εφαρμογή Συνεχίζοντας θα προχωρήσουμε μεγαλώνοντας την παραμόρφωση αφαιρώντας τα 2/3 του ψηφίου στο κάτω μέρος. Το δίκτυο θα μας δώσει την σωστή έξοδο μόνο για το ψηφίο «1», ενώ για τα άλλα δύο ψηφία μας δίνει εξόδους που δεν ανταποκρίνονται στα δεδομένα εισόδου. Αυτό είναι ένα χαρακτηριστικό και συνηθισμένο πρόβλημα των συσχετιστικών μνημών.
Εφαρμογή Στην τρίτη περίπτωση παραμορφώνουμε με θόρυβο τα ψηφία εισόδου, αλλάζοντας τυχαία 7 από τα pixels του καθενός. Το δίκτυο αναγνωρίζει επιτυχώς και τα τρία ψηφία.
Εφαρμογή Το παράδειγμα δίδεται στο Matlab με τον τίτλο nnd7sh. Neural Network DESIGN Supervised Hebb Pattern 1 Pattern 2 Pattern 3 Click on the green grids to define target. patterns. Click on the gray grid to define a test pattern. Select the rule to calculate the netw ork w eights below : Test Pattern Response Pattern Chapter 7
Εφαρμογή Μπορούμε στο εν λόγω παράδειγμα να δοκιμάσουμε και με δικά μας patterns. Π.χ. εδώ δημιουργούμε το γράμμα Κ.
Παραλλαγές Χεμπιανών Μοντέλων Μάθησης Φιλτραρισμένη εκμάθηση Ένα πρόβλημα του Χεμπιανού μοντέλου μάθησης είναι πως οδηγεί σε μήτρες βαρών με πολύ μεγάλα στοιχεία, όταν έχουμε πολλά πρότυπα δεδομένων. Ο βασικός κανόνας εκμάθησης είναι: W new = W old + t q p q T Μια θετική παράμετρος a < 1 (συντελεστής εκμάθησης) μπορεί να χρησιμοποιηθεί για να περιορίζει την αύξηση των στοιχείων της μήτρας βαρών: W new = W old + a t q p q T Μπορούμε επίσης να προσθέσουμε έναν όρο απομείωσης (γ < 1 ), ώστε η εκμάθηση να συμπεριφέρεται σαν φίλτρο εξομάλυνσης και να «θυμάται» τις πιο πρόσφατες εισόδους: W new = W old + a t q p q T γw old = 1 γ W old + a t q p q T
Παραλλαγές Χεμπιανών Μοντέλων Μάθησης Φιλτραρισμένη εκμάθηση Όσο το γ πλησιάζει προς το μηδέν (0) ο κανόνας εκμάθησης ανάγεται στον τυπικό κανόνα. Όσο το γ πλησιάζει στο 1, τόσο η εκμάθηση «ξεχνάει» τις παλιές εισόδους και «θυμάται» τις πιο πρόσφατες. Αυτό κρατάει την -χωρίς όρια- αύξηση της μήτρας βαρών. W new = 1 γ W old + a t q p q T Κανόνας Δέλτα Εάν αντικαταστήσουμε την επιθυμητή τιμή στόχο με την διαφορά μεταξύ στόχου και πραγματικής τιμής, τότε έχουμε έναν νέο κανόνα εκμάθησης, τον Κανόνα Δέλτα, γνωστό και ως αλγόριθμο Widrow-Hoff: W new = W old + a t q a q p T q
Παραλλαγές Χεμπιανών Μοντέλων Μάθησης Κανόνας Δέλτα Ο κανόνας αυτός ρυθμίζει τα βάρη, για να ελαχιστοποιηθεί το MSE, όπως γίνεται και με τον κανόνα εκμάθησης της ψευδοαντίστροφης μήτρας. Το πλεονέκτημα του κανόνα Δέλτα είναι ότι, μπορεί να επικαιροποιεί τα βάρη, μετά από κάθε νέο δεδομένο εισόδου, ενώ με την ψευδοαντίστοφη μήτρα τα βάρη υπολογίζονται σε ένα βήμα, αφού περάσουν όλα τα ζεύγη εισόδων/στόχων. Αυτό δίνει την δυνατότητα προσαρμογής στο μεταβαλλόμενο περιβάλλον.
Παραλλαγές Χεμπιανών Μοντέλων Μάθησης Κανόνας Hebb χωρίς επίβλεψη Ο κανόνας Hebb μπορεί να χρησιμοποιηθεί επίσης και στην μάθηση χωρίς επίβλεψη εάν αντικαταστήσουμε στην τιμή στόχου την πραγματική τιμή της εξόδου a q : W new = W old + aa q p q T Αυτή η εκδοχή του κανόνα του Hebb, για μάθηση χωρίς επίβλεψη, δεν απαιτεί την γνώση της τιμής στόχου. Υπ αυτή την έννοια, αποτελεί πιο άμεση ερμηνεία του αρχικού Κανόνα του Hebb, σε σχέση με αυτόν της μάθησης με επίβλεψη.
Εκπαιδευόμενη Διανυσματική Κβάντιση Learning Vector Quantization (LVQ) Κβάντιση (Quantization) Κβάντιση είναι η προσεγγιστική αναπαράσταση πληροφορίας, όπου επιλέγονται μερικές (μεταξύ πολλών συνεχών τιμών ενός συνόλου). Ο κβαντιστής είναι μια μηχανή που δέχεται μια τιμή X και δίνει μια προσέγγιση q X του X, η οποία q X προέρχεται από ένα πεπερασμένο σύνολο τιμών. Εάν π.χ. θέλουμε να παραστήσουμε μια τυχαία μεταβλητή X που παίρνει τιμές μεταξύ 0 και 1, με 10 τιμές: c 0 = 0,05, c 1 = 0,15, c 2 = 0,25, c 3 = 0,35, c 4 = 0,45, c 5 = 0,55, c 6 = 0,65, c 7 = 0,75, c 8 = 0,85, c 9 = 0,95.
Εκπαιδευόμενη Διανυσματική Κβάντιση Learning Vector Quantization (LVQ) Κβάντιση (Quantization) c 0 c 1 c 2 c 3 c 4 c 5 c 6 c 7 c 8 c 9 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Οι τιμές c i λέγονται κέντρα. Κάθε τιμή στο διάστημα [0,1] προσεγγίζει στο κοντινότερο κέντρο. Οι τιμές που έχουν το ίδιο κέντρο λέγονται γειτονιές. Π.χ. η τιμή X = 0,32401.. προσεγγίζεται από την τιμή c 4 = 0,35 και η X = 0,6892 προσεγγίζεται από την τιμή c 7 = 0,65.
Εκπαιδευόμενη Διανυσματική Κβάντιση (LVQ) Η διαδικασία αυτή απόδοσης της κάθε τιμής στο κέντρο της, λέγεται κβάντιση. Στην περίπτωση απλών αριθμών, βαθμωτή κβάντιση. Προφανώς η κβάντιση δημιουργεί ένα σφάλμα προσέγγισης (απώλεια ακρίβειας), αλλά είναι απαραίτητη προκειμένου οι τιμές να κωδικοποιηθούν, να μεταδοθούν, ή να αποθηκευθούν με λιγότερα bits, για λόγους οικονομίας. Για την κωδικοποίηση π.χ. των 10 κέντρων αρκούν 4 bits: c 0 0000,,c 9 1001, ενώ η κωδικοποίηση των αρχικών αριθμών θα απαιτούσε πολλαπλάσια.
Εκπαιδευόμενη Διανυσματική Κβάντιση (LVQ) Διανυσματική Κβάντιση (Vector Quantization) Είναι μια αντίστοιχη διαδικασία της βαθμωτής κβάντισης. Εάν π.χ. έχουμε ένα άνυσμα x = x 1 x 2 T στον δισδιάστατο χώρο, η κβάντισή του σε δύο κέντρα c 1, c 2, θα δημιουργούσε δύο γειτονιές. Οι γειτονιές διαχωρίζονται από την μεσοκάθετο της ευθείας που ενώνει τα κέντρα c 1, c 2. Τα ανύσματα x που βρίσκονται στα αριστερά της είναι πιο κοντά στο κέντρο c 1 και στα δεξιά της το c 2. Για περισσότερα κέντρα και περισσότερες γειτονιές, ισχύουν κατ αναλογία, τα ίδια πράγματα. Οι γειτονιές που δημιουργούνται από Ν κέντρα κβάντισης σε έναν n-διάστατο χώρο λέγονται περιοχές Voronoi.
Εκπαιδευόμενη Διανυσματική Κβάντιση (LVQ) c 1 c 2
Εκπαιδευόμενη Διανυσματική Κβάντιση (LVQ) c 3 c 1 c 2 c 4
Το δίκτυο SOM ως Κβαντιστής Η επιλογή των κέντρων κβάντισης έχει στόχο την ελαχιστοποίηση του σφάλματος προσέγγισης. Συνήθως το πλήθος τους είναι γνωστό και καθορίζεται από το πλήθος των bits που έχουμε για την αναπαράσταση του σήματος. Ζητούμενο είναι ο ορισμός της πιο κατάλληλης θέσης τους για την ελαχιστοποίηση του σφάλματος. Εάν c i είναι το πλησιέστερο κέντρο στο άνυσμα x, θα έχουμε: c i x c j x j i Η αναπαράσταση του x γίνεται καλύτερα από το c i, και η έξοδος του κβαντιστή: q x = c i. Το σφάλμα προσέγγισης είναι: q x x 2.
Το δίκτυο SOM ως Κβαντιστής Αν p x είναι η πυκνότητα πιθανότητας του x, η μέση τιμή του σφάλματος θα είναι: J = E q x x 2 = x q x x 2 p x dx Η σχέση αυτή (η τιμή του ολοκληρώματος δηλαδή) λέει πως εκεί που η πυκνότητα πιθανότητας p x είναι μικρή, το σφάλμα q x x 2 δεν παίζει σημαντικό ρόλο. Αντίθετα, το σφάλμα πρέπει να είναι μικρό εκεί που η πιθανότητα p x είναι μεγάλη. Δηλαδή εκεί που η κατανομή του x είναι πυκνή, πρέπει να έχουμε πολλά κέντρα ώστε οι γειτονιές να είναι μικρές και να έχουμε μικρό σφάλμα προσέγγισης. Αντίθετα εκεί που η κατανομή του x είναι αραιή (ή και ανύπαρκτη), τα κέντρα πρέπει να τοποθετηθούν αραιά ή ακόμα και καθόλου.
Υπάρχουν πολλές μέθοδοι κβαντοποίησης που δεν χρησιμοποιούν τα ΝΝ. Η πιο γνωστή: LBG: Linde-Buzo-Gray Ελαχιστοποιεί το σφάλμα J. Απαιτεί δύο προϋποθέσεις: Για κάθε διάνυσμα εισόδου x η κβάντιση q x επιλέγεται να είναι το κέντρο που βρίσκεται πιο κοντά στο x. Κάθε κέντρο c είναι ο Μ.Ο. των διανυσμάτων που βρίσκονται πιο κοντά του. Το SOM με μέγεθος γειτονιάς Γ=1, συμπεριφέρεται ακριβώς με τον ίδιο τρόπο, αφού: Ο νευρώνας που νικά και εκπαιδεύεται είναι αυτός που έχει το άνυσμα των βαρών του w πιο κοντά στο άνυσμα εισόδου x. Ο κανόνας εκπαίδευσης συγκλίνει στον Μ.Ο. των ανυσμάτων x. Το δίκτυο SOM ως Κβαντιστής
Εκπαίδευση στην βέλτιστη LVQ Η εκπαίδευση στην LVQ συνίσταται στην εύρεση της βέλτιστης τοποθέτησης των κέντρων για διανυσματική κβάντιση σε n διαστάσεις. Μοιάζει μαθηματικά με τον αλγόριθμο SOM μόνο που εδώ έχουμε μάθηση με επίβλεψη, αφού γνωρίζουμε την κλάση j στην οποία ανήκει το κάθε διάνυσα εισόδου x. Έχουμε M κλάσεις και N κέντρα: w 1, w 2, w N. Όπου (N M) Σε κάθε κλάση μπορεί να αντιστοιχούν παραπάνω από ένα κέντρα. Μπορεί επίσης να είναι N = k. M, δηλαδή να έχουμε k κέντρα για κάθε κλάση. Κάθε πρότυπο εισόδου ταξινομείται στην κλάση με το πλησιέστερο κέντρο w j.
Εκπαίδευση στην βέλτιστη LVQ Σκοπός της εκπαίδευσης είναι η εύρεση των θέσεων των Ν κέντρων, ώστε να περιγράφονται, όσο καλύτερα γίνεται, όλες οι κλάσεις. Η επίδοση της μεθόδου εξάγεται από το σφάλμα ταξινόμησης, δηλαδή το επί % των περιπτώσεων όπου το πρότυπο ταξινομείται σε διαφορετική κλάση από αυτήν στην οποία ανήκει. Ο αλγόριθμος που πραγματοποιεί αυτή την διαδικασία ονομάζεται LVQ1 και έχει σαν στόχο: a. να μετακινεί τα κέντρα προς τα κοντινά πρότυπα της ίδιας κλάσης b. και να τα απομακρύνει από τα κοντινά πρότυπα των άλλων κλάσεων Το βήμα εκπαίδευσης β n φθίνει σταδιακά με τις επαναλήψεις (π.χ. από το 0,1 στο 0).
Αλγόριθμος LVQ1 Είσοδοι: Τα διανυσματικά πρότυπα x 1, x P Οι δείκτες: Label (x 1 ), Label (x P ) των κλάσεων στις οποίες ανήκουν τα πρότυπα αυτά Οι αρχικές τιμές των κέντρων w 1, w 2, w N Έξοδοι: Οι εκπαιδευμένες τιμές των κέντρων w 1, w 2, w N
Μέθοδος: n = 0 Για κάθε εποχή { Για κάθε πρότυπο p = 1, P { n n + 1 j = label x p } Αλγόριθμος LVQ1 w i είναι το πλησιέστερο κέντρο στο x p Εκπαίδευσε μόνο το w i ως εξής: a. Φέρε το w i πιο κοντά στο x, αν έγινε σωστή ταξινόμηση (δηλαδή το w i αντιστοιχεί στην κλάση j: w i n + 1 = w i n + β n x w i n b. Απομάκρυνε το w i από το x, αν έγινε λάθος ταξινόμηση: w i n + 1 = w i n β n x w i n }
Αλγόριθμος ΟLVQ1 Είναι παραλλαγή του αλγορίθμου LVQ1. Τα βήματα εκπαίδευσης για κάθε κέντρο ορίζονται ξεχωριστά. Για το κέντρο w i που είναι πιο κοντά στο πρότυπο εισόδου x το βήμα εκπαίδευσης β i n δεν είναι σταθερό, αλλά ρυθμίζεται αναδρομικά ως εξής: β i n 1 Αν έγινε σωστή ταξινόμηση 1 + β i n 1 β i n = β i n 1 Αν έγινε λάθος ταξινόμηση 1 β i n 1 Δηλαδή το βήμα β i n μειώνεται κάθε φορά που έχουμε σωστή ταξινόμηση και αυξάνεται κάθε φορά που έχουμε λάθος.
Έτσι, τα κέντρα που βρίσκονται στο κέντρο της κλάσης, και κοντά σε πολλά πρότυπα, τείνουν να χάνουν τον ρυθμό της εκπαίδευσης (γίνονται πιο δυσκίνητα), ενώ αυτά που βρίσκονται μακριά από τα πρότυπα της κλάσης τους (και φταίνε για τις λάθος ταξινομήσεις) τείνουν να αυξάνουν ρυθμό εκπαίδευσης (γίνονται πιο ευκίνητα). Ο OLVQ1 δεν έχει καλή επίδοση όταν τα δεδομένα δεν συσσωρεύονται γύρω από ένα σημείο, αλλά σε περισσότερα. Ο Kohonen πρότεινε άλλους 2 αλγόριθμους, τους LVQ2 και LVQ3. Με τον LVQ2 γίνεται διόρθωση μόνο στα 2 πιο κοντινά κέντρα w i και w j : w i n + 1 = w i n β n x w i n w j n + 1 = w j n + β n x w j n Υπό τις προϋποθέσεις: Αλγόριθμος ΟLVQ1
Αλγόριθμος ΟLVQ2 a. Τα κέντρα w i και w j αντιστοιχούν σε διαφορετικές κλάσεις X i, X j b. Το πρότυπο x ανήκει στην κλάση X j αλλά το πλησιέστερο κέντρο είναι το w i της κλάσης X i c. Το πρότυπο x ανήκει σε μια περιοχή πλάτους w στο κέντρο της απόστασης μεταξύ w i και w j Οι προϋποθέσεις αυτές κάνουν τις διορθώσεις αρκετά σπάνιες και πάντα σε ζευγάρια κέντρων. Ο LVQ2 τείνει να υπερδιορθώνει τα κέντρα απομακρύνοντάς τα από την διαχωριστική επιφάνεια μεταξύ κλάσεων, γι αυτό και δεν συνιστάται η χρήση του για πολλές επαναλήψεις (π.χ. πλήθος εποχών 100 φορές το πλήθος των κέντρων).
Αλγόριθμος ΟLVQ3 Ο LVQ3 προσθέτει μια επί πλέον βελτίωση. Αν τα δύο πλησιέστερα κέντρα w i και w j αντιστοιχούν σε διαφορετικές κλάσεις, εφαρμόζουμε τον LVQ2. Αν όμως τα w i και w j αντιστοιχούν στην ίδια κλάση που ανήκει και το x τότε διορθώνονται σύμφωνα με: w i n + 1 = w i n + εβ n w j n + 1 = w j n + β n x w i n x w j n Όπου ε μια μικρή σταθερά (π.χ. ε = 0,1). Εδώ δεν χρησιμοποιείται το παράθυρο πλάτους w το οποίο χρησιμοποιείται μόνο στην περίπτωση των διαφορετικών κλάσεων.
Αλγόριθμος LVQ1 (παράδειγμα) 5 4 3 2 1 0-1 -2-2.5-2 -1.5-1 -0.5 0 0.5 1 1.5 2 2.5 4 κέντρα/κλάση. Τα κέντρα είναι πιο κοντά όταν έχουμε μεγάλη πυκνότητα δεδομένων και πιο αραιά στα πιο αραιά δεδομένα.
Στρώμα με επίβλεψη (Grossberg) Το δίκτυο Counterpropagation y 1 y 2 y K Στρώμα χωρίς επίβλεψη (Kohonen) x
Το δίκτυο Counterpropagation Είναι συνδυασμός ενός δικτύου με επίβλεψη και ενός χωρίς επίβλεψη, σε δύο στρώματα, τα οποία εκπαιδεύονται χωριστά. Το 1 ο στρώμα είναι ένα δίκτυο SOM, το οποίο κάνει κατηγοριοποίηση των προτύπων σε ομάδες (Clustering), και στο 2 ο στρώμα εφαρμόζεται η λογική του νευρώνα «νικητή». Οι δυαδικές έξοδοι a j του 1 ου στρώματος αποτελούν εισόδους για το 2 ο στρώμα (στρώμα Grossberg), που έχει Κ νευρώνες (όσες και οι κλάσεις).
Το δίκτυο Counterpropagation Η έξοδος του i-στού νευρώνα είναι: y i = w ij a j, i = 1, K. Καθώς a j = 1 μόνο για τον νευρώνα-νικητή (j = j ), έχουμε y i = w ij. Το 2 ο στρώμα εκπαιδεύεται με επίβλεψη, με τους στόχους d i με τον κανόνα που χρησιμοποιείται στο δίκτυο ADALINE: Δw ij = β d i y i a j = β d i w ij, αν j = j 0, διαφορετικά
Το δίκτυο Counterpropagation Οι στόχοι είναι συνήθως της μορφής: d 1 d 2 d K 1 0 0 κλάση 1 0 1 0 κλάση 2 0 0 1 κλάση Κ Το δίκτυο πραγματοποιεί έναν ταξινομητή. Το τμήμα του χωρίς επίβλεψη κάνει την ομαδοποίηση των προτύπων κι αυτό με επίβλεψη κωδικοποιεί την απόφαση σε ποια κλάση ανήκει το πρότυπο.
Βασίζεται στην Θεωρία του Αυτοπροσαρμοζόμενου Συντονισμού (Adaptive Resonance Theory) του Grossberg. Θεωρία: Τα πραγματικά βιολογικά συστήματα διαθέτουν: Πλαστικότητα (plasticity): Μαθαίνουν αυτοπροσαρμοζόμενα στα νέα και σημαντικά ερεθίσματα από το περιβάλλον. Σταθερότητα (stability): Δεν τροποποιούνται διαρκώς, πέφτοντας σε κατάσταση αστάθειας, όταν δέχονται ασήμαντα ή άσχετα ερεθίσματα από το περιβάλλον. Το δίκτυο ART
Το δίκτυο ART Ένα καλό ΝΝ πρέπει να μπορεί να δημιουργεί νέες καταστάσεις ισορροπίας, όντας ικανό να απομνημονεύει καινούργια πρότυπα (πλαστικότητα), χωρίς όμως να επανακωδικοποιεί ακατάπαυστα τις καταστάσεις ισορροπίας (σταθερότητα). Χρειάζεται δηλαδή μια συμφωνία μεταξύ πλαστικότητας και σταθερότητας (στα MLP π.χ., όλα τα συναπτικά βάρη, μπορούν να αλλάξουν ανά πάσα στιγμή).
Οι Carpenter & Grossberg ανέπτυξαν τα ART-1, ART-2, ART-3, για να λύσουν αυτό το πρόβλημα: Κάθε κλάση αντιπροσωπεύεται από το διάνυσμα των συναπτικών βαρών ενός νευρώνα (διάνυσμα αρχέτυπο). Κάθε διάνυσμα εισόδου γίνεται αποδεκτό σε μια κλάση, μόνο εφ όσον μοιάζει αρκετά με το αρχέτυπό της (δηλαδή το διάνυσμα εισόδου συντονίζεται με την κλάση: Resonates). Το αρχέτυπο τροποποιείται κατάλληλα κάθε φορά που ένα νέο πρότυπο εισέρχεται στην κλάση, έτσι ώστε να παραμένει πάντα αντιπροσωπευτικό της κλάσης αυτής. Το δίκτυο ART
Το δίκτυο ART Αν το διάνυσμα δεν συντονίζεται με καμιά κλάση, τότε δημιουργεί από μόνο του μια νέα κλάση, της οποίας είναι το αρχέτυπο. Στο μέλλον μπορεί να έρθουν κι άλλα πρότυπα. Έτσι δημιουργείται η σταθερότητα, αφού άσχετα πρότυπα δεν επηρεάζουν το αρχέτυπο, αλλά και πλαστικότητα, αφού το αρχέτυπο κάθε κλάσης προσαρμόζεται ανάλογα με τα πρότυπα που ταιριάζουν στην κλάση του.
Ερωτήματα: a. Πως αποφασίζουμε ότι ένα διάνυσμα εισόδου x συντονίζεται με μια κλάση C i ή όχι; Για την αποδοχή ενός προτύπου στην κλάση (συντονισμός) χρησιμοποιείται μια παράμετρος επαγρύπνησης ρ (vigilance parameter) που είναι το κατώφλι αποδοχής ενός προτύπου στην κλάση (0 < ρ < 1). b. Πως τροποποιείται το αρχέτυπο διάνυσμα w i της κλάσης C i όταν γίνεται αποδεκτό ένα νέο διάνυσμα x στην κλάση αυτή; Αλγόριθμος ART-1 (παράδειγμα με δυαδικά διανύσματα εισόδου). Το δίκτυο ART
Είσοδος: Δυαδικά (0/1) διανύσματα εισόδου x 1, x P n διαστάσεων Παράμετρος ρ (0 < ρ < 1) Έξοδος: Αρχέτυπα διανύσματα w 1, w K που αντιπροσωπεύουν Κ κλάσεις Μέθοδος: Διαθέτουμε στο σύνολο N νευρώνες με διανύσματα βαρών: w 1, w N Ενεργοποιούμε όλους τους νευρώνες με αρχικές τιμές: w i = 1, 1,, 1 T με i = 1, 2,, N Για κάθε νέο διάνυσμα εισόδου x P { Αλγόριθμος ART-1
Βήμα 1: Ονόμασε νικητή τον νευρώνα i για τον οποίο w i T x p = max w i T x p, (η σύγκριση γίνεται μόνο i ανάμεσα στους ενεργούς νευρώνες i και w i = (ε =μικρός θετικός αριθμός) Αλγόριθμος ART-1 w i ε+ j w ij ) Βήμα 2: Ήλεγξε αν το x p ανήκει στην κλάση i (συντονισμός) r = w i T x p ρ συντονισμός j x j p < ρ όχι συντονισμός Όπου r το κλάσμα των bits=1 του x p που είναι 1 και στο w i
Αλγόριθμος ART-1 Βήμα 3: Αν υπάρχει συντονισμός ενημέρωσε το αρχέτυπο με την διαδικασία masking: w i w i AND x p Αν δεν υπάρχει συντονισμός απενεργοποίησε τον νευρώνα i και πήγαινε στο Βήμα 1. } Μέχρι να τελειώσουν τα διανύσματα εισόδου ή να μην υπάρχουν άλλοι ενεργοί νευρώνες.
Αλγόριθμος ART-1 Ο ART-1 ξεκινάει έχοντας ένα πλήθος ενεργών νευρώνων N που είναι υποψήφιοι για τον ρόλο του αρχέτυπου κάποιας κλάσης (Αρχικοποίηση: w i = 1, 1,, 1 T που σημαίνει πως ο νευρώνας δεν είναι δεσμευμένος σε καμιά κλάση). Όταν εισάγεται ένα δυαδικό διάνυσμα x, οι ενεργοί νευρώνες ανταγωνίζονται με βάση το κανονικοποιημένο εσωτερικό γινόμενο μεταξύ των νευρώνων και του διανύσματος εισόδου.