Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σχετικά έγγραφα
Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Το μοντέλο Perceptron

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία

4.3. Γραµµικοί ταξινοµητές

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Συσχετιστικές Μνήμες Δίκτυο Hopfield. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Τεχνητά Νευρωνικά Δίκτυα. Τσιριγώτης Γεώργιος Τμήμα Μηχανικών Πληροφορικής ΤΕΙ Ανατολικής Μακεδονίας & Θράκης

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τεχνητή Νοημοσύνη. TMHMA ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ. Εξάμηνο 5ο Οικονόμου Παναγιώτης & Ελπινίκη Παπαγεωργίου. Νευρωνικά Δίκτυα.

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Αναγνώριση Προτύπων Ι

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

Ανδρέας Παπαζώης. Τμ. Διοίκησης Επιχειρήσεων

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ασκήσεις μελέτης της 19 ης διάλεξης

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 3ο Φροντιστήριο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Εισαγωγή στους Νευρώνες. Κυριακίδης Ιωάννης 2013

Μη γραµµικοί ταξινοµητές Νευρωνικά ίκτυα

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

/5

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αναγνώριση Προτύπων Ι

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

Κεφάλαιο 4 Διανυσματικοί Χώροι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 2ο Φροντιστήριο

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

Λύσεις στο Επαναληπτικό Διαγώνισμα 2

Πληροφοριακά Συστήματα Διοίκησης

Κεφάλαιο 4 Διανυσματικοί Χώροι

Επαναληπτικές μέθοδοι

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

(a + b) + c = a + (b + c), (ab)c = a(bc) a + b = b + a, ab = ba. a(b + c) = ab + ac

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΜΑΘΗΜΑΤΙΚΑ Β ΓΥΜΝΑΣΙΟΥ. ΜΕΡΟΣ 1ο ΑΛΓΕΒΡΑ

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

ΘΕΜΑΤΑ ΠΡΟΑΓΩΓΙΚΩΝ ΑΠΟΛΥΤΗΡΙΩΝ ΕΞΕΤΑΣΕΩΝ ΜΑΪΟΣ ΙΟΥΝΙΟΣ

z = c 1 x 1 + c 2 x c n x n

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 13: Παραλλαγές Μηχανών Turing και Περιγραφή Αλγορίθμων

Πληροφοριακά Συστήματα & Περιβάλλον

4. Ο αισθητήρας (perceptron)

Μη Συµβολικές Μέθοδοι

1 x m 2. degn = m 1 + m m n. a(m 1 m 2...m k )x m 1

Α.Τ.Ε.Ι ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΕΡΓΑΣΤΗΡΙΟ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ 4

HMY 795: Αναγνώριση Προτύπων

Τάξη B. Μάθημα: Η Θεωρία σε Ερωτήσεις. Επαναληπτικά Θέματα. Επαναληπτικά Διαγωνίσματα. Επιμέλεια: Κώστας Κουτσοβασίλης. α Ε

Γραµµικοί Ταξινοµητές

ΕΝΑΣ ΔΙΚΡΙΤΗΡΙΟΣ ΑΛΓΟΡΙΘΜΟΣ SIMPLEX

2.1 Αριθμητική επίλυση εξισώσεων

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (ΗΥ-119)

Ανδρέας Παπαζώης. Τμ. Διοίκησης Επιχειρήσεων

Εφαρμοσμένη Βελτιστοποίηση

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Δίκτυα Perceptron. Κυριακίδης Ιωάννης 2013

Κίνηση σε μία διάσταση

δίου ορισμού, μέσου του τύπου εξαρτημένης μεταβλητής του πεδίου τιμών που λέγεται εικόνα της f για x α f α.

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΦΥΣ Διάλ Άλγεβρα. 1 a. Άσκηση για το σπίτι: Διαβάστε το παράρτημα Β του βιβλίου

ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ

3. Γραμμικά Συστήματα

π (α,β). Έστω τα διανύσματα π (α,β) να βρεθούν:

Εφαρμοσμένα Μαθηματικά ΙΙ

Πληροφορική 2. Τεχνητή νοημοσύνη

Μεθοδική Επανα λήψή. Επιμέλεια Κων/νος Παπασταματίου. Θεωρία - Λεξιλόγιο Βασικές Μεθοδολογίες. Φροντιστήριο Μ.Ε. «ΑΙΧΜΗ» Κ.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

Σύνολα. 1) Με αναγραφή των στοιχείων π.χ. 2) Με περιγραφή των στοιχείων π.χ.

QR είναι ˆx τότε x ˆx. 10 ρ. Ποιά είναι η τιµή του ρ και γιατί (σύντοµη εξήγηση). P = [X. 0, X,..., X. (n 1), X. n] a(n + 1 : 1 : 1)

Ανάλυση πολλών μεταβλητών. Δεύτερο φυλλάδιο ασκήσεων.

ΜΕΜ251 Αριθμητική Ανάλυση

ΕΡΩΤΗΜΑΤΑ σε ΝΕΥΡΩΝΙΚΑ

Αριθμητική Ανάλυση και Εφαρμογές

X = {(x 1, x 2 ) x 1 + 2x 2 = 0}.

Επιχειρησιακή Έρευνα I

Θέματα Προγραμματισμού Η/Υ

Transcript:

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron

Βιολογικός Νευρώνας Δενδρίτες, που αποτελούν τις γραμμές εισόδου των ερεθισμάτων (βιολογικών σημάτων) Σώμα, στο οποίο γίνεται η συσσώρευση των ερεθισμάτων και ο καθορισμός της διέγερσης του νευρώνα. Νευροάξονας, που αποτελεί τη γραμμή εξόδου του νευρώνα. Σύναψη, που είναι το σημείο διασύνδεσης μεταξύ δύο νευρώνων. δενδρίτες σώμα νευροάξονας συνάψεις Έχει παρατηρηθεί ότι το σήμα που εξέρχεται από το νευροάξονα ενός νευρώνα και εισέρχεται στο δενδρίτη του άλλου νευρώνα διαμορφώνεται κατά ένα ποσοστό που σχετίζεται με την ισχύ της σύναψης που ονομάζεται συναπτικό δυναμικό.

Συναπτικό Δυναμικό Το συναπτικό δυναμικό μπορεί να ενισχύει (θετικό) ή να καταστέλλει (αρνητικό) το σήμα εξόδου. Η γνώση μας είναι αποθηκευμένη στις τιμές των συναπτικών δυναμικών. Μάθηση στα βιολογικά συστήματα είναι η μεταβολή των συναπτικών δυναμικών. Οσο περισσότερο χρησιμοποιείται μια σύναψη τόσο ενισχύεται το δυναμικό της.

Τεχνητός Νευρώνας (neuron) x 1 x 0 =1 συνάρτηση ενεργοποίησης x 2 w 1 w 0 w 2 u g(u) o (έξοδος) w d x d d είσοδοι, σήμα εισόδου x i (i=1,,d) βάρη εισόδων w i, (i=1,,d) πόλωση w 0 τιμή βάρους μιας σύνδεσης που η είσοδός της είναι μόνιμα στην τιμή 1

Τεχνητός Νευρώνας (neuron) Ο υπολογισμός σε δύο στάδια: υπολογισμός της συνολικής εισόδου (ενεργοποίηση): d u(x)= w x +w i=1 i i 0 υπολογισμός της εξόδου o(x) του νευρώνα περνώντας την συνολική είσοδο u(x) από μια συνάρτηση ενεργοποίησης (activation function) o(x)=g(u) νευρώνας εσωτερικού γινομένου u(x)=w T x +w 0

Τεχνητός νευρώνας Εναλλακτική διατύπωση: Διάνυσμα βαρών: w=(w 1, w 2,, w d ) Τ Εκτεταμένο (extended) διάνυσμα βαρών: w e =(w 0, w 1, w 2,, w d ) Τ Εκτεταμένο (extended) διάνυσμα εισόδου: x e =(1, x 1, x 2,, x d ) Τ u(x)=w et x e <====> u(x)=w T x +w 0

Συναρτήσεις ενεργοποίησης Βηματική Συνάρτηση (ή συνάρτηση κατωφλίου): Η συνάρτηση ενεργοποίησης στο βιολογικό νευρώνα Χαρακτηρίζεται από δύο τιμές a και b. Αν x<0 τότε g(x)=a και εάν x>0 τότε g(x)=b. Συνήθως χρησιμοποιούνται οι τιμές a=0 και b=1 είτε a=-1 και b=1. Για x=0 υπάρχει ασυνέχεια και μπορούμε κατά σύμβαση να αναθέσουμε είτε την τιμή a είτε την τιμή b. Η βηματική συνάρτηση έχει το μειονέκτημα ότι η παράγωγός της είναι μηδέν. Δεδομένου ότι μάθηση στα ΤΝΔ είναι η μεταβολή των τιμών των βαρών και μεταβολή σχετίζεται με την παράγωγο, η βηματική συνάρτηση δεν θεωρείται βολική ως συνάρτηση ενεργοποίησης των νευρώνων στα ΤΝΔ

Συναρτήσεις ενεργοποίησης Σιγμοειδείς συναρτήσεις Έχουν μορφή τελικού σίγμα Αποτελούν συνεχείς και παραγωγίσιμες προσεγγίσεις της βηματικής. Στο όριο που η κλίση γίνεται πολύ μεγάλη, η σιγμοειδής γίνεται βηματική. Δύο βασικοί τύποι: 1) Λογιστική: σ(x)=1/(1+exp(-ax)) (a: κλίση, συνήθως a=1) δίνει τιμές στο (0,1) σ (x)=σ(x)(1-σ(x)) σ (x)=σ(x)(1-σ(x))(1-2σ(x)) Μπορούμε να υπολογίσουμε την παράγωγο σ (x) ξέροντας μόνο το σ(x) χωρίς να χρειάζεται η τιμή του x.

Συναρτήσεις ενεργοποίησης 2) Υπερβολική εφαπτομένη: tanh(x)= ax -ax e -e ax -ax e +e (a: κλίση, συνήθως a=1) δίνει τιμές στο (-1,1) tanh (x)=1-tanh 2 (x) Γραμμική συνάρτηση g(x)=x, g (x)=1 δίνει τιμές στο R

Ερώτηση Εάν σε κάποιο σημείο η λογιστική συνάρτηση έχει τιμή 0.6, ποια η τιμή της πρώτης παραγώγου της σε αυτό το σημείο; Ποια η τιμή της δεύτερης παραγώγου στο ίδιο σημείο; σ (x)=σ(x)(1-σ(x))=0.24 σ (x)=σ(x)(1-σ(x))(1-2σ(x))=-0.048 Ερώτηση Με βάση τη λογιστική συνάρτηση σ(x), να ορίσετε μια σιγμοειδή συνάρτηση ενεργοποίησης η οποία να δίνει τιμές στο διάστημα (a,b), όπου a, b πραγματικοί αριθμοί. g 1 (x)=(b a)*σ(x) (τιμές στο (0,b-a) g 2 (x)=a+(b-a)*σ(x) (τιμές στο (a,b))

Από τον τεχνητό νευρώνα στο ΤΝΔ Διασυνδέοντας τεχνητούς νευρώνες ορίζουμε τεχνητά νευρωνικά δίκτυα. Η αρχιτεκτονική (τρόπος διασύνδεσης) και ο τύπος των νευρώνων (π.χ. το είδος της συνάρτησης ενεργοποίησης που χρησιμοποιούν) καθορίζονται κάθε φορά από τον τύπο του προβλήματος μάθησης που θέλουμε να αντιμετωπίσουμε.

ΤΝΔ Πρόσθιας Τροφοδότησης (feedforward) Οι υπολογισμοί σε μία κατεύθυνση: από την είσοδο προς την έξοδο Υλοποιούν στατικές απεικονίσεις εισόδου-εξόδου x 1 x 2 y 1 y 2 x d y p Επίπεδο εισόδου Κρυμμένο επίπεδο Επίπεδο εξόδου

Ασκηση: Να ορίσετε την αρχιτεκτονική ενός ΤΝΔ με δύο εισόδους x 1, x 2 και μία έξοδο o το οποίο να υλοποιεί τη συνάρτηση: o(x 1,x 2 )=3σ(3x 1-2x 2 +7)-σ(-5x 1 +x 2-4)+6 Σε κάθε λογιστική συνάρτηση σ(u) αντιστοιχίζουμε ένα νευρώνα με λογιστική συνάρτηση ενεργοποίησης. Το όρισμα κάθε λογιστικής είναι συνάρτηση των εισόδων του νευρώνα και μας παρέχει τις τιμές των βαρών εισόδου στο νευρώνα αυτόν. Οι έξοδοι των δύο σιγμοειδών νευρώνων πολλαπλασιάζονται με συντελεστές βάρους και αθροίζονται για να δώσουν την έξοδο του ΤΝΔ. Άρα στην έξοδο έχουμε ένα νευρώνα με γραμμική συνάρτηση ενεργοποίησης. Για όλους τους νευρώνες οι σταθερές που προστίθενται αποτελούν τις πολώσεις των νευρώνων

o(x 1,x 2 )=3σ(3x 1-2x 2 +7)-σ(-5x 1 +x 2-4)+6 x 0 =1 x 1 3 7 3 6-5 -2 x 2 1 σ(u) σ(u) -1 g(u)=u o -4 x 0 =1

Επαναληπτικά ΤΝΔ (recurrent) Συνδέσεις ανάδρασης από την έξοδο προς την είσοδο δυναμικά συστήματα (εξελίσσονται στο χρόνο) x 1 x 2 y 1 y 2 x d y p σύνδεση ανάδρασης

Το perceptron To αρχαιότερο και απλούστερο νευρωνικό δίκτυο Ενας μόνο νευρώνας εσωτερικού γινομένου με βηματική συνάρτηση ενεργοποίησης x 1 x 0 =1 x 2 w 2 w 1 w 0 u -1 1 1 o x d w d d u(x)= w x +w i=1 i i 0 ο(x)=1 εάν u(x)>0 και ο(x)=-1 εάν u(x)<0. Τι δυνατότητες έχει το perceptron;

Eξίσωση υπερεπιπέδου Τα σημεία x=(x 1,,x d ) Τ που ικανοποιούν την εξίσωση: d wix i+w 0=0 i=1 ορίζουν ένα υπερεπίπεδο Η(w) στον R d x 2 u(x 1,x 2 ) (x 1, x 2 ) u(x 1, x 2 )>0 d u(x) w x +w i=1 i i 0 Yπερεπίπεδο στον R 2 (ευθεία γραμμή). u(x 1,x 2 )<0 w 0 / w x 1 u(x 1,x 2 )=w 1 x 1 + w 2 x 2 +w o =0

Εξίσωση υπερεπιπέδου Για x=(x 1,,x d ) Τ η απόλυτη τιμή u(x) δηλώνει την απόσταση του σημείου x από το υπερεπίπεδο H(w). Tο υπερεπίπεδο χωρίζει το χώρο R d σε δύο ημιχώρους. Για όλα τα σημεία x που ανήκουν στον ένα ημιχώρο ισχύει u(x)>0 (θετικός ημιχώρος) Για όλα τα σημεία x που ανήκουν στον άλλο ημιχώρο ισχύει u(x)<0 (αρνητικός ημιχώρος).

Γεωμετρική Ερμηνεία για Perceptron Ενα perceptron με διάνυσμα βαρών w ορίζει ένα υπερεπίπεδο H(w) Δοθέντος ενός διανύσματος εισόδου x υπολογίζει το u(x) και παρέχει έξοδο o(x)=1 εάν το x ανήκει στο θετικό ημιχώρο (u(x)>0) o(x)=-1 εάν το x ανήκει στον αρνητικό ημιχώρο (u(x)<0). Η έξοδος o(x) δηλώνει τον ημιχώρο στον οποίο βρίσκεται το x σε σχέση με το υπερεπίπεδο Η(w). Δεδομένου ότι εκπαίδευση στα ΤΝΔ είναι η ρύθμιση των βαρών, η εκπαίδευση του perceptron ανάγεται στον καθορισμό του υπερεπιπέδου ώστε να λύνεται κάποιο πρόβλημα.

Γραμμική Διαχωρισιμότητα Ένα σύνολο δεδομένων δύο κατηγοριών ονομάζεται γραμμικά διαχωρίσιμο, εάν υπάρχει υπερεπίπεδο που διαχωρίζει τις κατηγορίες. Δηλαδή αφήνει όλα τα πρότυπα της μιας κατηγορίας στο θετικό ημιχώρο και όλα τα πρότυπα της άλλης κατηγορίας στον αρνητικό ημιχώρο. Αν δεν ικανοποιείται η παραπάνω ιδιότητα το σύνολο δεδομένων ονομάζεται μη γραμμικά διαχωρίσιμο. Το διαχωριστικό υπερεπίπεδο εάν υπάρχει δεν είναι μοναδικό.

Γραμμική Διαχωρισιμότητα μη γραμμικό όριο απόφασης γραμμικό όριο απόφασης C 1 C 2 C 1 C 2

Γραμμική Διαχωρισιμότητα Ένα σύνολο δεδομένων δύο κατηγοριών ονομάζεται διαχωρίζεται από την ευθεία y=5x+4. Ποιο είναι το perceptron που λύνει αυτό το πρόβλημα; Τα δεδομένα είναι στον R 2 (δύο είσοδοι: x 1, x 2 ) x 2 = 5 x 1 + 4 5 x 1 - x 2 + 4 = 0 w 1 = 5, w 2 = -1, w 0 = 4

Εκπαίδευση Perceptron To perceptron μπορεί να χρησιμοποιηθεί για προβλήματα ταξινόμησης δύο κατηγοριών παρέχοντας έξοδο 1 για δεδομένα της μιας κατηγορίας και έξοδο -1 για δεδομένα της δεύτερης κατηγορίας. Η εκπαίδευση του perceptron συνίσταται στην εύρεση του διαχωριστικού υπερεπιπέδου Η(w). Μάθηση είναι η μεταβολή των βαρών μεταβολή της θέσης του υπερεπιπέδου.

Κωδικοποίηση Κατηγοριών X={(x n,c(x n )), n=1,,n} σύνολο παραδειγμάτων εκπαίδευσης (διάστασης d) δύο κατηγοριών x n =(x n1,,x nd ) T C(x n ) δηλώνει την κατηγορία (C 1 ή C 2 ) του x n. Στα ΤΝΔ η έξοδος είναι αριθμητική Το C(x n ) είναι συμβολική πληροφορία Χρειάζεται η συμβολική πληροφορία να μετατραπεί σε αριθμητική. Κωδικοποίηση κατηγοριών: καθορισμός τιμών-στόχων t για τις κατηγορίες: C 1 t=1, C 2 t=-1 {(x n,c(x n ))} {(x n,t n )}, όπου t n =1 εάν C(x n )=C 1 και όπου t n =-1 εάν C(x n )=C 2.

Εκπαίδευση perceptron με διόρθωση σφάλματος X={(x n, t n ), n=1,,n} σύνολο παραδειγμάτων εκπαίδευσης (διάστασης d) δύο κατηγοριών x n =(x n1,,x nd ) T t n = 1 ή -1 Στόχος της εκπαίδευσης: εύρεση των βαρών ώστε o(x n )=t n, για κάθε n=1,,ν Εκπαίδευση: μεταβολή των βαρών (δηλ. του διαχωριστικού υπερεπιπέδου) ώστε να διορθώνονται τα σφάλματα. Αρχικά επιλέγεται ένα τυχαίο διάνυσμα βαρών δηλαδή μια τυχαία θέση του διαχωριστικού υπερεπιπέδου. Με αυτή την τυχαία επιλογή, κάποια από τα δεδομένα x n θα ταξινομούνται σωστά (o(x n )=t n ) και κάποια λάθος (o(x n ) t n ). Σε κάθε επανάληψη του αλγορίθμου εκπαίδευσης επιλέγεται ένα παράδειγμα εκπαίδευσης (x n,t n ), εφαρμόζεται ως είσοδος στο perceptron και υπολογίζεται η έξοδος ο.

Εκπαίδευση perceptron με διόρθωση σφάλματος Σωστή ταξινόμηση του x n : δεν υπάρχει κάποιος λόγος να αλλάξουμε τις τιμές των βαρών. Λάθος ταξινόμηση: το x n βρίσκεται από τη λάθος πλευρά σε σχέση με το διαχωριστικό υπερεπίπεδο. Για το λόγο αυτό μεταβάλουμε τα βάρη, δηλ. μετακινούμε το διαχωριστικό υπερεπίπεδο, στην κατεύθυνση διόρθωσης του σφάλματος. Ο στόχος είναι είτε το δεδομένο να βρεθεί από την άλλη πλευρά σε σχέση με το υπερεπίπεδο είτε να παραμείνει σε λάθος πλευρά αλλά να μειωθεί η απόστασή του από το υπερεπίπεδο (έτσι ώστε σε επόμενη επανάληψη να τοποθετηθεί στη σωστή πλευρά). Αποδεικνύεται ότι εάν το σύνολο εκπαίδευσης είναι γραμμικά διαχωρίσιμο, η επαναληπτική διαδικασία θα εντοπίσει ένα σωστό διαχωριστικό υπερεπίπεδο σε πεπερασμένο αριθμό επαναλήψεων και θα τερματίσει.

Αλγόριθμος Εκπαίδευσης perceptron με διόρθωση σφάλματος Έστω w e (k) το εκτεταμένο διάνυσμα βαρών του perceptron και (x(k),t(k)) το παράδειγμα εκπαίδευσης που χρησιμοποιείται για την εκπαίδευση του percreptron κατά την επανάληψη k. Αρχικοποίηση: Θέτουμε k=0, δίνουμε στα βάρη w i (0) κάποιες τυχαία επιλεγμένες αρχικές τιμές (συνήθως στο (-1,1)) και καθορίζουμε την τιμή του ρυθμού μάθησης n (n>0). O ρυθμός μάθησης καθορίζει το πόσο μεγάλες ή μικρές θα είναι οι μεταβολές στις τιμές των βαρών (τυπική τιμή n=0.1)

Αλγόριθμος Εκπαίδευσης perceptron με διόρθωση σφάλματος Σε κάθε επανάληψη k εκτελούμε τα ακόλουθα βήματα: - Επιλογή κάποιου παραδείγματος εκπαίδευσης (x(k),t(k)), εφαρμογή του x e (k) ως είσοδο στο perceptron και υπολογισμός της εξόδου ο(k)=g(w et (k)x e (k)). 2. Ενημέρωση του διανύσματος βαρών του perceptron σύμφωνα με τον κανόνα διόρθωσης σφάλματος: w e (k+1) = w e (k)+ n[t(k) - o(k)]x e (k) (διανυσματική μορφή) ή w i (k+1) = w i (k)+ n [t(k) - o(k)]x i (k) (i=1,,d), w 0 (k+1) = w 0 (k)+ n [t(k) - o(k)] 3. k:=k+1

Αλγόριθμος Εκπαίδευσης perceptron με διόρθωση σφάλματος Αποδεικνύεται ότι εάν το σύνολο εκπαίδευσης είναι γραμμικά διαχωρίσιμο και όλα τα παραδείγματα χρησιμοποιούνται για την εκπαίδευση, ο αλγόριθμος σε πεπερασμένο αριθμό βημάτων θα καταλήξει σε τιμές βαρών που θα ταξινομούν σωστά όλα τα παραδείγματα εκπαίδευσης ανεξάρτητα από την τιμή του ρυθμού μάθησης (που πρέπει πάντα να είναι θετική).

Γιατί διορθώνονται τα σφάλματα; Έστω ο(k)=-1 και t(k)=1 t(k) - o(k) = 2 Iσχύει ότι u(k)<0 και επιθυμούμε u(k+1)> u(k). u(k+1) = w et (k+1) x e (k) = [w et (k) + 2 n x et (k)] x e (k) = u(k) + 2 x et (k) x e (k) > u(k) δεδομένου ότι x et (k) x e (k)= x e (k) 2 >0 και n>0. Έστω ο(k)=1 και t(k)=-1 t(k) - o(k) = - 2 Iσχύει ότι u(k)>0 και επιθυμούμε u(k+1) < u(k). u(k+1) = w et (k+1) x e (k) = [w et (k) - 2 n x et (k)] x e (k) = u(k) - 2 x et (k) x e (k) < u(k) δεδομένου ότι x et (k) x e (k)= x e (k) 2 >0 και n>0.

Αλγόριθμος Εκπαίδευσης perceptron με διόρθωση σφάλματος Σε ότι αφορά την επιλογή του παραδείγματος εκπαίδευσης που χρησιμοποιείται σε κάποια επανάληψη, αυτή μπορεί να γίνεται τυχαία, αλλά συνήθως χρησιμοποιούμε τα παραδείγματα διαδοχικά το ένα μετά το άλλο (έτσι εξασφαλίζουμε ότι όλα χρησιμοποιούνται για εκπαίδευση ίσο αριθμό φορών). Όταν ολοκληρωθεί ένας κύκλος εκπαίδευσης κατά τον οποίο όλα τα παραδείγματα έχουν διαδοχικά χρησιμοποιηθεί μια φορά το καθένα για την ενημέρωση των βαρών ενός ΤΝΔ λέμε ότι έχει συμπληρωθεί μια εποχή (epoch).

Αλγόριθμος Εκπαίδευσης perceptron με διόρθωση σφάλματος Tερματισμός του αλγορίθμου: όταν όλα τα παραδείγματα εκπαίδευσης έχουν δοκιμαστεί (εποχή) και δεν προκύπτει κανένα σφάλμα ταξινόμησης. Αυτό θα συμβεί μόνο στην περίπτωση που το σύνολο εκπαίδευσης είναι γραμμικά διαχωρίσιμο. Στην αντίθετη περίπτωση ο αλγόριθμος δεν τερματίζει διότι το υπερεπίπεδο δεν επαρκεί ως επιφάνεια διαχωρισμού. Δεν μπορούμε γνωρίζουμε εκ των προτέρων εάν ένα σύνολο παραδειγμάτων είναι γραμμικά διαχωρίσιμο. Για τον τερματισμό του αλγορίθμου διόρθωσης σφάλματος μετράμε τον αριθμό των σφαλμάτων σε κάθε εποχή. Εάν αυτός δεν μηδενιστεί για κάποιο μέγιστο αριθμό εποχών σταματάμε.

Αλγόριθμος Εκπαίδευσης perceptron με διόρθωση σφάλματος Το perceptron δεν μπορεί να λύσει το πρόβλημα XOR. x 2 (0,1) C 2 C 1 (1,1) C 1 C 2 (0,0) x 1 (1,0)