Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη

Σχετικά έγγραφα
Το μοντέλο Perceptron

Τεχνητά Νευρωνικά Δίκτυα. Τσιριγώτης Γεώργιος Τμήμα Μηχανικών Πληροφορικής ΤΕΙ Ανατολικής Μακεδονίας & Θράκης

Συμπίεση Δεδομένων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Αναγνώριση Προτύπων Ι

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

4.3. Γραµµικοί ταξινοµητές

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

Αριθμητική Ανάλυση & Εφαρμογές

Υπολογιστική Νοημοσύνη. Μάθημα 13: Αναδρομικά Δίκτυα - Recurrent Networks

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

οµή δικτύου ΣΧΗΜΑ 8.1

Συμπίεση Δεδομένων

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

Α.Τ.ΕΙ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΟΛΥΜΕΣΩΝ. ΕΡΓΑΣΤΗΡΙΟ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ

Θεώρημα κωδικοποίησης πηγής

1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

6. Στατιστικές μέθοδοι εκπαίδευσης

Αριθμητική Ανάλυση και Εφαρμογές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Γραµµικοί Ταξινοµητές

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

HY213. ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΑΧΙΣΤΑ ΤΕΤΡΑΓΩΝΑ AΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Ασκήσεις μελέτης της 19 ης διάλεξης

Πληροφοριακά Συστήματα Διοίκησης

Αριθμητική Ανάλυση και Εφαρμογές

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

Αριθμητική Ανάλυση και Εφαρμογές

Α.Τ.Ε.Ι ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΕΡΓΑΣΤΗΡΙΟ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ 4

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

E[ (x- ) ]= trace[(x-x)(x- ) ]

Εισαγωγή στην επιστήμη των υπολογιστών

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

[1] είναι ταυτοτικά ίση με το μηδέν. Στην περίπτωση που το στήριγμα μιας συνάρτησης ελέγχου φ ( x)

Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Φυσικής Εισαγωγή στα Συστήματα Τηλεπικοινωνιών Συστήματα Παλμοκωδικής Διαμόρφωσης

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ιαφορική εντροπία Σεραφείµ Καραµπογιάς

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Νευρωνικά ίκτυα και Εξελικτικός

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Ανταγωνιστική Εκμάθηση Δίκτυα Kohonen. Κυριακίδης Ιωάννης 2013

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Ψηφιακές Τηλεπικοινωνίες

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

Επίλυση Συστήματος Γραμμικών Διαφορικών Εξισώσεων

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

HMY 795: Αναγνώριση Προτύπων

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Συμπίεση Δεδομένων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Α.Τ.Ε.Ι ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΕΡΓΑΣΤΗΡΙΟ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ. Σχήμα 1 Η λειτουργία του νευρώνα

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Εισαγωγή στην επιστήμη των υπολογιστών. Πράξεις με μπιτ

E [ -x ^2 z] = E[x z]

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Α.Τ.Ε.Ι. ΜΑΚΕΔΟΝΙΑΣ Τμήμα πληροφορικής και επικοινωνιών. Συμπίεση ψηφιακών εικόνων με ανάλυση κύριων συνιστωσών και χρήση νευρωνικού δικτύου.

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

Αναγνώριση Προτύπων Ι

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΜΑΘΗΜΑΤΙΚΑ Β ΓΥΜΝΑΣΙΟΥ. ΜΕΡΟΣ 1ο ΑΛΓΕΒΡΑ

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ C ΣΕΙΡΑ 1 η

3.7 Παραδείγματα Μεθόδου Simplex

4. Μέθοδοι αναγνώρισης ταξινοµητές µε επόπτη

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

Εισαγωγή στην Πληροφορική & τον Προγραμματισμό

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

HMY 795: Αναγνώριση Προτύπων

2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Εισαγωγή στους Νευρώνες. Κυριακίδης Ιωάννης 2013

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Transcript:

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Donald O. Hebb, Organization ofbehavior (1949) Ο Κανόνας του Hebb Είναι ένας από τους πρώτους κανόνες εκμάθησης στα νευρωνικά δίκτυα. Προτάθηκε αρχικά, από τον Hebb, ως ένας πιθανός μηχανισμός για την συναπτική μεταβολή στον εγκέφαλο και υιοθετήθηκε κατόπιν στα νευρωνικά δίκτυα. Εδράζεται στην μελέτη του Hebb για την θεωρία του Pavlov.

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Ο Κανόνας του Hebb Όταν ο άξονας ενός νευρώνα Α είναι αρκετά κοντά ώστε να διεγείρει το νευρώνα Β, και συστηματικά και επίμονα συμμετέχει στην ενεργοποίησή του, τότε κάποια μεταβολική αλλαγή συμβαίνει, είτε στο ένα απ' τα δύο, είτε και στα δύο κύτταρα, έτσι ώστε η αποτελεσματικότητα με την οποία ο Α διεγείρει τον Β, αυξάνεται.

Γραμμικός Συσχετιστής (Linear Associator) Ο κανόνας του Hebb μπορεί να χρησιμοποιηθεί με διάφορες αρχιτεκτονικές ΝΝ. Η πιο απλή είναι αυτή του James Anderson ή του Teuvo Kohonen. Είσοδοι Γραμμικό Στρώμα a = Wp R p Rx1 W SxR n Sx1 S a Sx1 a i = ή Q j=1 w ij p j a = purelin Wp Γραμμικός Συσχετιστής

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Αυτό οδηγεί στην μαθηματική έκφραση του κανόνα του Hebb: w ij new = w ij old + af i a iq g j p jq Όπου: p jq : είναι το j th στοιχείο του q th ανύσματος εισόδου p q a iq : είναι το i th στοιχείο της εξόδου όταν το q th άνυσμα εισόδου εμφανίζεται στην είσοδο. a: είναι η σταθερά εκμάθησης, ένα θετικός αριθμός. Και απλοποιώντας περεταίρω: w ij new = w ij old + a. a iq. p jq

Η σχέση αυτή λέει πως το βάρος αλλάζει ανάλογα με την δραστηριότητα και στις δύο πλευρές της σύναψης. Αυξάνει και όταν τα p j και a i είναι και τα δύο θετικά και όταν είναι και τα δύο αρνητικά. Αντίθετα μειώνεται όταν έχουν αντίθετα πρόσημα. Ο κανόνας αυτός είναι ένας κανόνας χωρίς επίβλεψη και δεν χρειάζεται καμιά επιθυμητή έξοδο. Εάν θέλουμε να τον χρησιμοποιήσουμε με επίβλεψη, θα αντικαταστήσουμε την τιμή της πραγματικής εξόδου με την τιμή στόχου και η σχέση θα γίνει: w ij new = w ij old + a. t iq. p jq Όπου t iq : το i th στοιχείο του ανύσματος στόχου t q Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη

Η απλοποιημένη σχέση (με a = 1) σε μορφή πινάκων θα είναι: W new = W old + t q p q T Εάν υποθέσουμε πως τα βάρη W old αρχικά είναι μηδέν και εφαρμόζονται τα Q ζεύγη εισόδου/εξόδου θα έχουμε: W = t 1 p 1 T + t 2 p 2 T + + t Q p Q T = με Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Q q=1 T = t 1 t 2 t Q, P = p 1 p 2 p Q t q p q T = TP T

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Η επίδοση στην εκμάθηση του γραμμικού συσχετιστή με τον κανόνα του Hebb, όταν τα ανύσματα p q είναι ορθοκανονικά (δηλ. ορθογώνια και μοναδιαίου μήκους), θα διαγράφεται ως εξής: Για είσοδο p k η έξοδος a θα είναι: a = Wp k = Q q=1 t q p q T p k = Q q=1 t q p q T p k Για p q ορθοκανονικό, θα έχουμε: p q T p k = 1 q = k p q T p k = 0 q k και a = Wp k = t k Δηλαδή για πρωτότυπα ορθοκανονικά ανύσματα εισόδου, η έξοδος ισούται με τον στόχο και η εκμάθηση λειτουργεί τέλεια.

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Ορθοκανονικά διανύσματα: Λέγονται τα ορθογώνια (κάθετα) διανύσματα, με μέτρο 1. Το μεταξύ τους γινόμενο είναι 0. Για τα διανύσματα αυτά ισχύει e i. e j = δ ij (δ ij είναι το σύμβολο του Kronecker, το οποίο είναι δ ij = 1 για i = j και δ ij = 0 για i j ). Εάν τα ανύσματα p q δεν είναι ορθοκανονικά (αλλά μοναδιαίου μήκους), θα έχουμε: a = Wp k = t k + q k t q p q T p k σφάλμα Δηλαδή τότε δεν θα έχουμε την σωστή έξοδο, και το σφάλμα θα εξαρτάται από τον βαθμό συσχέτισης μεταξύ πρωτοτύπου και ανύσματος εισόδου.

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Μήκος (μέτρο) ανύσματος Εάν έχουμε ένα άνυσμα A = 3 1 2 Το μέτρο του θα είναι: Α = A x 2 + A y 2 + A z 2 = 9 + 1 + 4 = 14 = 3,742 Κανονικοποίηση ανύσματος A N = Α Α = 3 1 3,742 3,742 2 3,742 = 0,802 0,267 0,534

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Παράδειγμα Έστω 2 ορθοκανονικά πρωτότυπα ζεύγη εισόδου/εξόδου: p 1 = 0,5 0,5 0,5 0,5, t 1 = 1 1 p 2 = 0,5 0,5 0,5 0,5, t 2 = 1 1 Μήτρα βαρών: W = TP T = 1 1 1 1 = 1 0 0 1 0 1 1 0 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Παράδειγμα Δοκιμή: a 1 = Wp 1 = 1 0 0 1 0 1 1 0 a 2 = Wp 2 = 1 0 0 1 0 1 1 0 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 = 1 1 = 1 1 Δηλαδή το σύστημα μας δίνει ως εξόδους τους στόχους: a 1 = t 1 και a 2 = t 2.

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Παράδειγμα Εάν έχουμε δύο πρωτότυπα που δεν είναι ορθοκανονικά: p 1 = 1 1 1 Τα κανονικοποιούμε:, t 1 = 1 p 2 = 1 1 1, t 2 = 1 p 1 = p 2 = 3 = 1,732 1 1,732 = 0,5774 p 1 p 1 = 0,5774 0,5774 0,5774, t 1 = 1 p 2 p 2 = 0,5774 0,5774 0,5774, t 2 = 1

Χεμπιανά Μοντέλα Μάθησης με Επίβλεψη Παράδειγμα Μήτρα βαρών: W = TP T = 1 1 = 0 1,1548 0 0,5774 0,5774 0,5774 0,5774 0,5774 0,5774 a 1 = Wp 1 = 0 1,1548 0 a 2 = Wp 2 = 0 1,1548 0 0,5774 0,5774 0,5774 0,5774 0,5774 0,5774 = 0,6668 = 0,6668 Δηλαδή το σύστημα μας δίνει τιμές εξόδου κοντά στους στόχους (-1 1), ωστόσο όμως με ένα σημαντικό σφάλμα.

Ψευδοαντίστροφος κανόνας Μάθησης Όταν τα πρωτότυπα ανύσματα εισόδου δεν είναι ορθογώνια, ο κανόνας του Hebb δίνει κάποια σφάλματα, τα οποία μπορούμε να τα μειώσουμε με διάφορες μεθόδους (π.χ. με τον ψευδοαντίστροφο κανόνα). Σκοπός του γραμμικού συσχετιστή είναι να δίνει μια έξοδο t q όταν δέχεται μια είσοδο p q : Wp q = t q q = 1,2,.. Q Εάν δεν είναι δυνατόν να επιλεγεί η μήτρα βαρών έτσι ώστε να μπορεί να επιτευχθεί ακριβώς η σχέση, τότε μπορεί να αποπειραθεί μια προσέγγισή της: F W = Q q=1 t q Wp q 2 Για ορθοκανονικά ανύσματα εισόδου p q η F W μηδενίζεται.

Ψευδοαντίστροφος κανόνας Μάθησης Όταν τα ανύσματα εισόδου δεν είναι ορθοκανονικά, η F W, όχι μόνον δεν μηδενίζεται, αλλά και η τιμή που παίρνει δεν είναι κατ ανάγκη η ελάχιστη δυνατή. Η μήτρα βαρών που ελαχιστοποιεί την F W υπολογίζεται με την βοήθεια της ψευδοαντίστροφης μήτρας. Έχουμε: WP = T με: T = t 1 t 2 t Q, P = p 1 p 2 p Q F W = T WP 2 = E 2 = i j e ij 2 Η F W μπορεί να μηδενισθεί εάν υπάρχει η αντίστροφη της P. T WP = 0 WP = T W = ΤP 1

Ψευδοαντίστροφος κανόνας Μάθησης Η P 1 σπάνια υπάρχει. Κανονικά, τα ανύσματα p q (δηλαδή οι στήλες της P) είναι ανεξάρτητα, αλλά η R (δηλαδή η διάσταση του p q ) είναι μεγαλύτερη του Q (δηλαδή του αριθμού των ανυσμάτων p q ). Δηλαδή η P δεν θα είναι μια τετραγωνική μήτρα και δεν θα υπάρχει ακριβής αντίστροφός της. P = Q R Στην περίπτωση αυτή, η μήτρα που θα ελαχιστοποιεί την F W θα βρίσκεται από τον κανόνα της ψευδοαντιστρόφου:

Ψευδοαντίστροφος κανόνας Μάθησης Αντί WP = T θα έχουμε: WPP + = TP + W = ΤP + Η μήτρα P + λέγεται ψευδοαντίστροφος της P (των Moore- Penrose) και είναι η μοναδική μήτρα που ικανοποιεί την σχέση: PP + P = P P + PP + = P + P + P = P + P Τ PP + = PP + Τ Όταν ο αριθμός R των γραμμών της P είναι μεγαλύτερος του αριθμού Q των στηλών της και οι στήλες είναι ανεξάρτητες, τότε η ψευδοαντίστροφος υπολογίζεται: P + = P T P 1 P T

Ψευδοαντίστροφος κανόνας Μάθησης Παράδειγμα Ξαναπαίρνουμε τα δύο μη ορθοκανονικά πρωτότυπα και δεν χρειάζεται να κανονικοποιήσουμε τα ανύσματα εισόδου: p 1 = 1 1 1, t 1 = 1 p 2 = 1 1 1, t 2 = 1 Τ = 1 1 P = 1 1 1 1 1 1 W = ΤP + = 1 1 1 1 1 1 1 1 +

Παράδειγμα P + = P T P 1 P T Ψευδοαντίστροφος κανόνας Μάθησης = = 3 1 1 3 = 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0,25 0,5 0,25 0,25 0,5 0,25 1 1 1 1 1 1 1 = 0,375 0,125 0,125 0,375 1 1 1 1 1 1

Ψευδοαντίστροφος κανόνας Μάθησης Παράδειγμα W = ΤP + = 1 1 0,25 0,5 0,25 0,25 0,5 0,25 = 0 1 0 a 1 = Wp 1 = 0 1 0 a 2 = Wp 2 = 0 1 0 1 1 1 1 1 1 = 1 = 1 Δηλαδή το δίκτυο, με την χρήση της ψευδοαντιστρόφου, δίνει εξόδους ίσες με τις τιμές στόχους, όπως ακριβώς και με τον κανόνα του Hebb.

Εφαρμογή Για την κατανόηση του κανόνα του Hebb, στην εκμάθηση ενός δικτύου, θα χρησιμοποιήσουμε ένα υπεραπλουστευμένο παράδειγμα αναγνώρισης δεδομένων (ψηφίων) σε ένα δίκτυο αυτοσυσχετιστικής μνήμης (autoassociative memory). Στις αυτοσυσχετιστικές μνήμες το επιθυμητό άνυσμα εξόδου είναι ίδιο με το άνυσμα εισόδου (t q = p q ). Τα τρία ψηφία που θα δώσουμε ως δεδομένα εισόδου και ως στόχους εμφανίζονται ως πλέγμα 6x5. Για την μετατροπή του πλέγματος σε μήτρα, θα αντιστοιχίσουμε στα λευκά τετράγωνα (pixels) το «-1» και στα σκούρα το «1».

Εφαρμογή Το άνυσμα p 1 που αντιστοιχεί π.χ. στο ψηφίο «0» θα έχει διαστάσεις 30x1, όλες οι στήλες των τετραγώνων στην σειρά, θα είναι: p 1 = 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 T Με βάση τον κανόνα του Hebb και καθώς (t q = p q ), η μήτρα βαρών θα είναι: W = TP T = p 1 p 1 T + p 2 p 2 T + p 3 p 3 T

Εφαρμογή Καθώς οι τιμές της εξόδου=στόχου είναι δύο («-1» ή «1»), ο γραμμικός συσχετιστής που θα χρησιμοποιηθεί μπορεί να χρησιμοποιηθεί με συνάρτηση ενεργοποίησης Hard Limit: Είσοδοι Γραμμικό Στρώμα Hard Limit 30 p 30x1 W 30x30 n 30x1 30 a 30x1 a = hardlims Wp

Εφαρμογή Για να ελέγξουμε την λειτουργία του δικτύου θα το τροφοδοτήσουμε με δεδομένα (ψηφία) τα οποία έχουν παραμορφωθεί. Αρχικά η παραμόρφωση έχει να κάνει με την αφαίρεση του κάτω μισού ψηφίου. Το δίκτυο θα μας δώσει ως έξοδο το σωστό ψηφίο.

Εφαρμογή Συνεχίζοντας θα προχωρήσουμε μεγαλώνοντας την παραμόρφωση αφαιρώντας τα 2/3 του ψηφίου στο κάτω μέρος. Το δίκτυο θα μας δώσει την σωστή έξοδο μόνο για το ψηφίο «1», ενώ για τα άλλα δύο ψηφία μας δίνει εξόδους που δεν ανταποκρίνονται στα δεδομένα εισόδου. Αυτό είναι ένα χαρακτηριστικό και συνηθισμένο πρόβλημα των συσχετιστικών μνημών.

Εφαρμογή Στην τρίτη περίπτωση παραμορφώνουμε με θόρυβο τα ψηφία εισόδου, αλλάζοντας τυχαία 7 από τα pixels του καθενός. Το δίκτυο αναγνωρίζει επιτυχώς και τα τρία ψηφία.

Εφαρμογή Το παράδειγμα δίδεται στο Matlab με τον τίτλο nnd7sh. Neural Network DESIGN Supervised Hebb Pattern 1 Pattern 2 Pattern 3 Click on the green grids to define target. patterns. Click on the gray grid to define a test pattern. Select the rule to calculate the netw ork w eights below : Test Pattern Response Pattern Chapter 7

Εφαρμογή Μπορούμε στο εν λόγω παράδειγμα να δοκιμάσουμε και με δικά μας patterns. Π.χ. εδώ δημιουργούμε το γράμμα Κ.

Παραλλαγές Χεμπιανών Μοντέλων Μάθησης Φιλτραρισμένη εκμάθηση Ένα πρόβλημα του Χεμπιανού μοντέλου μάθησης είναι πως οδηγεί σε μήτρες βαρών με πολύ μεγάλα στοιχεία, όταν έχουμε πολλά πρότυπα δεδομένων. Ο βασικός κανόνας εκμάθησης είναι: W new = W old + t q p q T Μια θετική παράμετρος a < 1 (συντελεστής εκμάθησης) μπορεί να χρησιμοποιηθεί για να περιορίζει την αύξηση των στοιχείων της μήτρας βαρών: W new = W old + a t q p q T Μπορούμε επίσης να προσθέσουμε έναν όρο απομείωσης (γ < 1 ), ώστε η εκμάθηση να συμπεριφέρεται σαν φίλτρο εξομάλυνσης και να «θυμάται» τις πιο πρόσφατες εισόδους: W new = W old + a t q p q T γw old = 1 γ W old + a t q p q T

Παραλλαγές Χεμπιανών Μοντέλων Μάθησης Φιλτραρισμένη εκμάθηση Όσο το γ πλησιάζει προς το μηδέν (0) ο κανόνας εκμάθησης ανάγεται στον τυπικό κανόνα. Όσο το γ πλησιάζει στο 1, τόσο η εκμάθηση «ξεχνάει» τις παλιές εισόδους και «θυμάται» τις πιο πρόσφατες. Αυτό κρατάει την -χωρίς όρια- αύξηση της μήτρας βαρών. W new = 1 γ W old + a t q p q T Κανόνας Δέλτα Εάν αντικαταστήσουμε την επιθυμητή τιμή στόχο με την διαφορά μεταξύ στόχου και πραγματικής τιμής, τότε έχουμε έναν νέο κανόνα εκμάθησης, τον Κανόνα Δέλτα, γνωστό και ως αλγόριθμο Widrow-Hoff: W new = W old + a t q a q p T q

Παραλλαγές Χεμπιανών Μοντέλων Μάθησης Κανόνας Δέλτα Ο κανόνας αυτός ρυθμίζει τα βάρη, για να ελαχιστοποιηθεί το MSE, όπως γίνεται και με τον κανόνα εκμάθησης της ψευδοαντίστροφης μήτρας. Το πλεονέκτημα του κανόνα Δέλτα είναι ότι, μπορεί να επικαιροποιεί τα βάρη, μετά από κάθε νέο δεδομένο εισόδου, ενώ με την ψευδοαντίστοφη μήτρα τα βάρη υπολογίζονται σε ένα βήμα, αφού περάσουν όλα τα ζεύγη εισόδων/στόχων. Αυτό δίνει την δυνατότητα προσαρμογής στο μεταβαλλόμενο περιβάλλον.

Παραλλαγές Χεμπιανών Μοντέλων Μάθησης Κανόνας Hebb χωρίς επίβλεψη Ο κανόνας Hebb μπορεί να χρησιμοποιηθεί επίσης και στην μάθηση χωρίς επίβλεψη εάν αντικαταστήσουμε στην τιμή στόχου την πραγματική τιμή της εξόδου a q : W new = W old + aa q p q T Αυτή η εκδοχή του κανόνα του Hebb, για μάθηση χωρίς επίβλεψη, δεν απαιτεί την γνώση της τιμής στόχου. Υπ αυτή την έννοια, αποτελεί πιο άμεση ερμηνεία του αρχικού Κανόνα του Hebb, σε σχέση με αυτόν της μάθησης με επίβλεψη.

Εκπαιδευόμενη Διανυσματική Κβάντιση Learning Vector Quantization (LVQ) Κβάντιση (Quantization) Κβάντιση είναι η προσεγγιστική αναπαράσταση πληροφορίας, όπου επιλέγονται μερικές (μεταξύ πολλών συνεχών τιμών ενός συνόλου). Ο κβαντιστής είναι μια μηχανή που δέχεται μια τιμή X και δίνει μια προσέγγιση q X του X, η οποία q X προέρχεται από ένα πεπερασμένο σύνολο τιμών. Εάν π.χ. θέλουμε να παραστήσουμε μια τυχαία μεταβλητή X που παίρνει τιμές μεταξύ 0 και 1, με 10 τιμές: c 0 = 0,05, c 1 = 0,15, c 2 = 0,25, c 3 = 0,35, c 4 = 0,45, c 5 = 0,55, c 6 = 0,65, c 7 = 0,75, c 8 = 0,85, c 9 = 0,95.

Εκπαιδευόμενη Διανυσματική Κβάντιση Learning Vector Quantization (LVQ) Κβάντιση (Quantization) c 0 c 1 c 2 c 3 c 4 c 5 c 6 c 7 c 8 c 9 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Οι τιμές c i λέγονται κέντρα. Κάθε τιμή στο διάστημα [0,1] προσεγγίζει στο κοντινότερο κέντρο. Οι τιμές που έχουν το ίδιο κέντρο λέγονται γειτονιές. Π.χ. η τιμή X = 0,32401.. προσεγγίζεται από την τιμή c 4 = 0,35 και η X = 0,6892 προσεγγίζεται από την τιμή c 7 = 0,65.

Εκπαιδευόμενη Διανυσματική Κβάντιση (LVQ) Η διαδικασία αυτή απόδοσης της κάθε τιμής στο κέντρο της, λέγεται κβάντιση. Στην περίπτωση απλών αριθμών, βαθμωτή κβάντιση. Προφανώς η κβάντιση δημιουργεί ένα σφάλμα προσέγγισης (απώλεια ακρίβειας), αλλά είναι απαραίτητη προκειμένου οι τιμές να κωδικοποιηθούν, να μεταδοθούν, ή να αποθηκευθούν με λιγότερα bits, για λόγους οικονομίας. Για την κωδικοποίηση π.χ. των 10 κέντρων αρκούν 4 bits: c 0 0000,,c 9 1001, ενώ η κωδικοποίηση των αρχικών αριθμών θα απαιτούσε πολλαπλάσια.

Εκπαιδευόμενη Διανυσματική Κβάντιση (LVQ) Διανυσματική Κβάντιση (Vector Quantization) Είναι μια αντίστοιχη διαδικασία της βαθμωτής κβάντισης. Εάν π.χ. έχουμε ένα άνυσμα x = x 1 x 2 T στον δισδιάστατο χώρο, η κβάντισή του σε δύο κέντρα c 1, c 2, θα δημιουργούσε δύο γειτονιές. Οι γειτονιές διαχωρίζονται από την μεσοκάθετο της ευθείας που ενώνει τα κέντρα c 1, c 2. Τα ανύσματα x που βρίσκονται στα αριστερά της είναι πιο κοντά στο κέντρο c 1 και στα δεξιά της το c 2. Για περισσότερα κέντρα και περισσότερες γειτονιές, ισχύουν κατ αναλογία, τα ίδια πράγματα. Οι γειτονιές που δημιουργούνται από Ν κέντρα κβάντισης σε έναν n-διάστατο χώρο λέγονται περιοχές Voronoi.

Εκπαιδευόμενη Διανυσματική Κβάντιση (LVQ) c 1 c 2

Εκπαιδευόμενη Διανυσματική Κβάντιση (LVQ) c 3 c 1 c 2 c 4

Το δίκτυο SOM ως Κβαντιστής Η επιλογή των κέντρων κβάντισης έχει στόχο την ελαχιστοποίηση του σφάλματος προσέγγισης. Συνήθως το πλήθος τους είναι γνωστό και καθορίζεται από το πλήθος των bits που έχουμε για την αναπαράσταση του σήματος. Ζητούμενο είναι ο ορισμός της πιο κατάλληλης θέσης τους για την ελαχιστοποίηση του σφάλματος. Εάν c i είναι το πλησιέστερο κέντρο στο άνυσμα x, θα έχουμε: c i x c j x j i Η αναπαράσταση του x γίνεται καλύτερα από το c i, και η έξοδος του κβαντιστή: q x = c i. Το σφάλμα προσέγγισης είναι: q x x 2.

Το δίκτυο SOM ως Κβαντιστής Αν p x είναι η πυκνότητα πιθανότητας του x, η μέση τιμή του σφάλματος θα είναι: J = E q x x 2 = x q x x 2 p x dx Η σχέση αυτή (η τιμή του ολοκληρώματος δηλαδή) λέει πως εκεί που η πυκνότητα πιθανότητας p x είναι μικρή, το σφάλμα q x x 2 δεν παίζει σημαντικό ρόλο. Αντίθετα, το σφάλμα πρέπει να είναι μικρό εκεί που η πιθανότητα p x είναι μεγάλη. Δηλαδή εκεί που η κατανομή του x είναι πυκνή, πρέπει να έχουμε πολλά κέντρα ώστε οι γειτονιές να είναι μικρές και να έχουμε μικρό σφάλμα προσέγγισης. Αντίθετα εκεί που η κατανομή του x είναι αραιή (ή και ανύπαρκτη), τα κέντρα πρέπει να τοποθετηθούν αραιά ή ακόμα και καθόλου.

Υπάρχουν πολλές μέθοδοι κβαντοποίησης που δεν χρησιμοποιούν τα ΝΝ. Η πιο γνωστή: LBG: Linde-Buzo-Gray Ελαχιστοποιεί το σφάλμα J. Απαιτεί δύο προϋποθέσεις: Για κάθε διάνυσμα εισόδου x η κβάντιση q x επιλέγεται να είναι το κέντρο που βρίσκεται πιο κοντά στο x. Κάθε κέντρο c είναι ο Μ.Ο. των διανυσμάτων που βρίσκονται πιο κοντά του. Το SOM με μέγεθος γειτονιάς Γ=1, συμπεριφέρεται ακριβώς με τον ίδιο τρόπο, αφού: Ο νευρώνας που νικά και εκπαιδεύεται είναι αυτός που έχει το άνυσμα των βαρών του w πιο κοντά στο άνυσμα εισόδου x. Ο κανόνας εκπαίδευσης συγκλίνει στον Μ.Ο. των ανυσμάτων x. Το δίκτυο SOM ως Κβαντιστής

Εκπαίδευση στην βέλτιστη LVQ Η εκπαίδευση στην LVQ συνίσταται στην εύρεση της βέλτιστης τοποθέτησης των κέντρων για διανυσματική κβάντιση σε n διαστάσεις. Μοιάζει μαθηματικά με τον αλγόριθμο SOM μόνο που εδώ έχουμε μάθηση με επίβλεψη, αφού γνωρίζουμε την κλάση j στην οποία ανήκει το κάθε διάνυσα εισόδου x. Έχουμε M κλάσεις και N κέντρα: w 1, w 2, w N. Όπου (N M) Σε κάθε κλάση μπορεί να αντιστοιχούν παραπάνω από ένα κέντρα. Μπορεί επίσης να είναι N = k. M, δηλαδή να έχουμε k κέντρα για κάθε κλάση. Κάθε πρότυπο εισόδου ταξινομείται στην κλάση με το πλησιέστερο κέντρο w j.

Εκπαίδευση στην βέλτιστη LVQ Σκοπός της εκπαίδευσης είναι η εύρεση των θέσεων των Ν κέντρων, ώστε να περιγράφονται, όσο καλύτερα γίνεται, όλες οι κλάσεις. Η επίδοση της μεθόδου εξάγεται από το σφάλμα ταξινόμησης, δηλαδή το επί % των περιπτώσεων όπου το πρότυπο ταξινομείται σε διαφορετική κλάση από αυτήν στην οποία ανήκει. Ο αλγόριθμος που πραγματοποιεί αυτή την διαδικασία ονομάζεται LVQ1 και έχει σαν στόχο: a. να μετακινεί τα κέντρα προς τα κοντινά πρότυπα της ίδιας κλάσης b. και να τα απομακρύνει από τα κοντινά πρότυπα των άλλων κλάσεων Το βήμα εκπαίδευσης β n φθίνει σταδιακά με τις επαναλήψεις (π.χ. από το 0,1 στο 0).

Αλγόριθμος LVQ1 Είσοδοι: Τα διανυσματικά πρότυπα x 1, x P Οι δείκτες: Label (x 1 ), Label (x P ) των κλάσεων στις οποίες ανήκουν τα πρότυπα αυτά Οι αρχικές τιμές των κέντρων w 1, w 2, w N Έξοδοι: Οι εκπαιδευμένες τιμές των κέντρων w 1, w 2, w N

Μέθοδος: n = 0 Για κάθε εποχή { Για κάθε πρότυπο p = 1, P { n n + 1 j = label x p } Αλγόριθμος LVQ1 w i είναι το πλησιέστερο κέντρο στο x p Εκπαίδευσε μόνο το w i ως εξής: a. Φέρε το w i πιο κοντά στο x, αν έγινε σωστή ταξινόμηση (δηλαδή το w i αντιστοιχεί στην κλάση j: w i n + 1 = w i n + β n x w i n b. Απομάκρυνε το w i από το x, αν έγινε λάθος ταξινόμηση: w i n + 1 = w i n β n x w i n }

Αλγόριθμος ΟLVQ1 Είναι παραλλαγή του αλγορίθμου LVQ1. Τα βήματα εκπαίδευσης για κάθε κέντρο ορίζονται ξεχωριστά. Για το κέντρο w i που είναι πιο κοντά στο πρότυπο εισόδου x το βήμα εκπαίδευσης β i n δεν είναι σταθερό, αλλά ρυθμίζεται αναδρομικά ως εξής: β i n 1 Αν έγινε σωστή ταξινόμηση 1 + β i n 1 β i n = β i n 1 Αν έγινε λάθος ταξινόμηση 1 β i n 1 Δηλαδή το βήμα β i n μειώνεται κάθε φορά που έχουμε σωστή ταξινόμηση και αυξάνεται κάθε φορά που έχουμε λάθος.

Έτσι, τα κέντρα που βρίσκονται στο κέντρο της κλάσης, και κοντά σε πολλά πρότυπα, τείνουν να χάνουν τον ρυθμό της εκπαίδευσης (γίνονται πιο δυσκίνητα), ενώ αυτά που βρίσκονται μακριά από τα πρότυπα της κλάσης τους (και φταίνε για τις λάθος ταξινομήσεις) τείνουν να αυξάνουν ρυθμό εκπαίδευσης (γίνονται πιο ευκίνητα). Ο OLVQ1 δεν έχει καλή επίδοση όταν τα δεδομένα δεν συσσωρεύονται γύρω από ένα σημείο, αλλά σε περισσότερα. Ο Kohonen πρότεινε άλλους 2 αλγόριθμους, τους LVQ2 και LVQ3. Με τον LVQ2 γίνεται διόρθωση μόνο στα 2 πιο κοντινά κέντρα w i και w j : w i n + 1 = w i n β n x w i n w j n + 1 = w j n + β n x w j n Υπό τις προϋποθέσεις: Αλγόριθμος ΟLVQ1

Αλγόριθμος ΟLVQ2 a. Τα κέντρα w i και w j αντιστοιχούν σε διαφορετικές κλάσεις X i, X j b. Το πρότυπο x ανήκει στην κλάση X j αλλά το πλησιέστερο κέντρο είναι το w i της κλάσης X i c. Το πρότυπο x ανήκει σε μια περιοχή πλάτους w στο κέντρο της απόστασης μεταξύ w i και w j Οι προϋποθέσεις αυτές κάνουν τις διορθώσεις αρκετά σπάνιες και πάντα σε ζευγάρια κέντρων. Ο LVQ2 τείνει να υπερδιορθώνει τα κέντρα απομακρύνοντάς τα από την διαχωριστική επιφάνεια μεταξύ κλάσεων, γι αυτό και δεν συνιστάται η χρήση του για πολλές επαναλήψεις (π.χ. πλήθος εποχών 100 φορές το πλήθος των κέντρων).

Αλγόριθμος ΟLVQ3 Ο LVQ3 προσθέτει μια επί πλέον βελτίωση. Αν τα δύο πλησιέστερα κέντρα w i και w j αντιστοιχούν σε διαφορετικές κλάσεις, εφαρμόζουμε τον LVQ2. Αν όμως τα w i και w j αντιστοιχούν στην ίδια κλάση που ανήκει και το x τότε διορθώνονται σύμφωνα με: w i n + 1 = w i n + εβ n w j n + 1 = w j n + β n x w i n x w j n Όπου ε μια μικρή σταθερά (π.χ. ε = 0,1). Εδώ δεν χρησιμοποιείται το παράθυρο πλάτους w το οποίο χρησιμοποιείται μόνο στην περίπτωση των διαφορετικών κλάσεων.

Αλγόριθμος LVQ1 (παράδειγμα) 5 4 3 2 1 0-1 -2-2.5-2 -1.5-1 -0.5 0 0.5 1 1.5 2 2.5 4 κέντρα/κλάση. Τα κέντρα είναι πιο κοντά όταν έχουμε μεγάλη πυκνότητα δεδομένων και πιο αραιά στα πιο αραιά δεδομένα.

Στρώμα με επίβλεψη (Grossberg) Το δίκτυο Counterpropagation y 1 y 2 y K Στρώμα χωρίς επίβλεψη (Kohonen) x

Το δίκτυο Counterpropagation Είναι συνδυασμός ενός δικτύου με επίβλεψη και ενός χωρίς επίβλεψη, σε δύο στρώματα, τα οποία εκπαιδεύονται χωριστά. Το 1 ο στρώμα είναι ένα δίκτυο SOM, το οποίο κάνει κατηγοριοποίηση των προτύπων σε ομάδες (Clustering), και στο 2 ο στρώμα εφαρμόζεται η λογική του νευρώνα «νικητή». Οι δυαδικές έξοδοι a j του 1 ου στρώματος αποτελούν εισόδους για το 2 ο στρώμα (στρώμα Grossberg), που έχει Κ νευρώνες (όσες και οι κλάσεις).

Το δίκτυο Counterpropagation Η έξοδος του i-στού νευρώνα είναι: y i = w ij a j, i = 1, K. Καθώς a j = 1 μόνο για τον νευρώνα-νικητή (j = j ), έχουμε y i = w ij. Το 2 ο στρώμα εκπαιδεύεται με επίβλεψη, με τους στόχους d i με τον κανόνα που χρησιμοποιείται στο δίκτυο ADALINE: Δw ij = β d i y i a j = β d i w ij, αν j = j 0, διαφορετικά

Το δίκτυο Counterpropagation Οι στόχοι είναι συνήθως της μορφής: d 1 d 2 d K 1 0 0 κλάση 1 0 1 0 κλάση 2 0 0 1 κλάση Κ Το δίκτυο πραγματοποιεί έναν ταξινομητή. Το τμήμα του χωρίς επίβλεψη κάνει την ομαδοποίηση των προτύπων κι αυτό με επίβλεψη κωδικοποιεί την απόφαση σε ποια κλάση ανήκει το πρότυπο.

Βασίζεται στην Θεωρία του Αυτοπροσαρμοζόμενου Συντονισμού (Adaptive Resonance Theory) του Grossberg. Θεωρία: Τα πραγματικά βιολογικά συστήματα διαθέτουν: Πλαστικότητα (plasticity): Μαθαίνουν αυτοπροσαρμοζόμενα στα νέα και σημαντικά ερεθίσματα από το περιβάλλον. Σταθερότητα (stability): Δεν τροποποιούνται διαρκώς, πέφτοντας σε κατάσταση αστάθειας, όταν δέχονται ασήμαντα ή άσχετα ερεθίσματα από το περιβάλλον. Το δίκτυο ART

Το δίκτυο ART Ένα καλό ΝΝ πρέπει να μπορεί να δημιουργεί νέες καταστάσεις ισορροπίας, όντας ικανό να απομνημονεύει καινούργια πρότυπα (πλαστικότητα), χωρίς όμως να επανακωδικοποιεί ακατάπαυστα τις καταστάσεις ισορροπίας (σταθερότητα). Χρειάζεται δηλαδή μια συμφωνία μεταξύ πλαστικότητας και σταθερότητας (στα MLP π.χ., όλα τα συναπτικά βάρη, μπορούν να αλλάξουν ανά πάσα στιγμή).

Οι Carpenter & Grossberg ανέπτυξαν τα ART-1, ART-2, ART-3, για να λύσουν αυτό το πρόβλημα: Κάθε κλάση αντιπροσωπεύεται από το διάνυσμα των συναπτικών βαρών ενός νευρώνα (διάνυσμα αρχέτυπο). Κάθε διάνυσμα εισόδου γίνεται αποδεκτό σε μια κλάση, μόνο εφ όσον μοιάζει αρκετά με το αρχέτυπό της (δηλαδή το διάνυσμα εισόδου συντονίζεται με την κλάση: Resonates). Το αρχέτυπο τροποποιείται κατάλληλα κάθε φορά που ένα νέο πρότυπο εισέρχεται στην κλάση, έτσι ώστε να παραμένει πάντα αντιπροσωπευτικό της κλάσης αυτής. Το δίκτυο ART

Το δίκτυο ART Αν το διάνυσμα δεν συντονίζεται με καμιά κλάση, τότε δημιουργεί από μόνο του μια νέα κλάση, της οποίας είναι το αρχέτυπο. Στο μέλλον μπορεί να έρθουν κι άλλα πρότυπα. Έτσι δημιουργείται η σταθερότητα, αφού άσχετα πρότυπα δεν επηρεάζουν το αρχέτυπο, αλλά και πλαστικότητα, αφού το αρχέτυπο κάθε κλάσης προσαρμόζεται ανάλογα με τα πρότυπα που ταιριάζουν στην κλάση του.

Ερωτήματα: a. Πως αποφασίζουμε ότι ένα διάνυσμα εισόδου x συντονίζεται με μια κλάση C i ή όχι; Για την αποδοχή ενός προτύπου στην κλάση (συντονισμός) χρησιμοποιείται μια παράμετρος επαγρύπνησης ρ (vigilance parameter) που είναι το κατώφλι αποδοχής ενός προτύπου στην κλάση (0 < ρ < 1). b. Πως τροποποιείται το αρχέτυπο διάνυσμα w i της κλάσης C i όταν γίνεται αποδεκτό ένα νέο διάνυσμα x στην κλάση αυτή; Αλγόριθμος ART-1 (παράδειγμα με δυαδικά διανύσματα εισόδου). Το δίκτυο ART

Είσοδος: Δυαδικά (0/1) διανύσματα εισόδου x 1, x P n διαστάσεων Παράμετρος ρ (0 < ρ < 1) Έξοδος: Αρχέτυπα διανύσματα w 1, w K που αντιπροσωπεύουν Κ κλάσεις Μέθοδος: Διαθέτουμε στο σύνολο N νευρώνες με διανύσματα βαρών: w 1, w N Ενεργοποιούμε όλους τους νευρώνες με αρχικές τιμές: w i = 1, 1,, 1 T με i = 1, 2,, N Για κάθε νέο διάνυσμα εισόδου x P { Αλγόριθμος ART-1

Βήμα 1: Ονόμασε νικητή τον νευρώνα i για τον οποίο w i T x p = max w i T x p, (η σύγκριση γίνεται μόνο i ανάμεσα στους ενεργούς νευρώνες i και w i = (ε =μικρός θετικός αριθμός) Αλγόριθμος ART-1 w i ε+ j w ij ) Βήμα 2: Ήλεγξε αν το x p ανήκει στην κλάση i (συντονισμός) r = w i T x p ρ συντονισμός j x j p < ρ όχι συντονισμός Όπου r το κλάσμα των bits=1 του x p που είναι 1 και στο w i

Αλγόριθμος ART-1 Βήμα 3: Αν υπάρχει συντονισμός ενημέρωσε το αρχέτυπο με την διαδικασία masking: w i w i AND x p Αν δεν υπάρχει συντονισμός απενεργοποίησε τον νευρώνα i και πήγαινε στο Βήμα 1. } Μέχρι να τελειώσουν τα διανύσματα εισόδου ή να μην υπάρχουν άλλοι ενεργοί νευρώνες.

Αλγόριθμος ART-1 Ο ART-1 ξεκινάει έχοντας ένα πλήθος ενεργών νευρώνων N που είναι υποψήφιοι για τον ρόλο του αρχέτυπου κάποιας κλάσης (Αρχικοποίηση: w i = 1, 1,, 1 T που σημαίνει πως ο νευρώνας δεν είναι δεσμευμένος σε καμιά κλάση). Όταν εισάγεται ένα δυαδικό διάνυσμα x, οι ενεργοί νευρώνες ανταγωνίζονται με βάση το κανονικοποιημένο εσωτερικό γινόμενο μεταξύ των νευρώνων και του διανύσματος εισόδου.