Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Σχετικά έγγραφα
Το μοντέλο Perceptron

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Νευρωνικά Δίκτυα στο Matlab

Τεχνητά Νευρωνικά Δίκτυα. Τσιριγώτης Γεώργιος Τμήμα Μηχανικών Πληροφορικής ΤΕΙ Ανατολικής Μακεδονίας & Θράκης

Ασκήσεις μελέτης της 19 ης διάλεξης

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μη γραµµικοί ταξινοµητές Νευρωνικά ίκτυα

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Νευρωνικά ίκτυα και Εξελικτικός. Σηµερινό Μάθηµα. επανάληψη Γενετικών Αλγορίθµων 1 η εργασία Επανάληψη νευρωνικών δικτύων Ασκήσεις εφαρµογές

4.3. Γραµµικοί ταξινοµητές

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αναγνώριση Προτύπων Ι

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Αριθμητική Ανάλυση & Εφαρμογές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Γραµµικοί Ταξινοµητές

Ανδρέας Παπαζώης. Τμ. Διοίκησης Επιχειρήσεων

Πληροφοριακά Συστήματα & Περιβάλλον

Αναγνώριση Προτύπων Ι

HMY 795: Αναγνώριση Προτύπων

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Αριθμητική Ανάλυση και Εφαρμογές

6. Στατιστικές μέθοδοι εκπαίδευσης

Τεχνητά Νευρωνικά Δίκτυα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Εισαγωγικές έννοιες. Κατηγορίες προβλημάτων (σε μια διάσταση) Προβλήματα εύρεσης μεγίστου. Συμβολισμοί

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΕΡΩΤΗΣΕΙΣ ΜΑΘΗΤΩΝ. Ερώτηση 1. Αν το x o δεν ανήκει στο πεδίο ορισμού μιας συνάρτησης f, έχει νόημα να μιλάμε για παράγωγο της f. στο x = x o?

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

ΚΕΦΑΛΑΙΟ 3ο: ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΝΟΤΗΤΑ 5: ΘΕΩΡΗΜΑ ROLLE [Θεώρημα Rolle του κεφ.2.5 Μέρος Β του σχολικού βιβλίου]. ΠΑΡΑΔΕΙΓΜΑΤΑ

ΕΡΩΤΗΜΑΤΑ σε ΝΕΥΡΩΝΙΚΑ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Φυσικής

Εργαστήριο Υπολογιστικής Νοημοσύνης Ευφυούς Ελέγχου. Αναστάσιος Ντούνης, Καθηγητής

Μη Συµβολικές Μέθοδοι

Πανεπιστήμιο Αιγαίου

ΠΕΡΙΕΧΟΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΟΡΘΟΓΩΝΙΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ...23 ΑΠΟΛΥΤΗ ΤΙΜΗ. ΑΝΙΣΟΤΗΤΕΣ...15 ΚΕΦΑΛΑΙΟ 3 ΕΥΘΕΙΕΣ...32 ΚΕΦΑΛΑΙΟ 4 ΚΥΚΛΟΙ...43

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Μαθηματικά. Ενότητα 13: Κυρτότητα Συνάρτησης Σαριαννίδης Νικόλαος Τμήμα Λογιστικής και Χρηματοοικονομικής

Ανδρέας Παπαζώης. Τμ. Διοίκησης Επιχειρήσεων

Τεχνητή Νοημοσύνη. TMHMA ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ. Εξάμηνο 5ο Οικονόμου Παναγιώτης & Ελπινίκη Παπαγεωργίου. Νευρωνικά Δίκτυα.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Νευρωνικά ίκτυα. Σηµερινό Μάθηµα

Αναγνώριση Προτύπων Ι

Βέλτιστος Έλεγχος Συστημάτων

( ) ( ) ( ) ( ) Παράγωγος-Κλίση-Μονοτονία ( ) ( ) β = Άσκηση 1 η : Να βρεθούν οι παράγωγοι των συναρτήσεων: log x. 2 x. ln(x, ( ) 2 x x. Έχουμε.

Stochastic Signals Class Estimation Theory. Andreas Polydoros University of Athens Dept. of Physics Electronics Laboratory

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων 1 / 20

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

E[ (x- ) ]= trace[(x-x)(x- ) ]

1 Επανάληψη εννοιών από τον Απειροστικό Λογισμό

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

HMY 795: Αναγνώριση Προτύπων

ΠΑΡΑΔΕΙΓΜΑΤΑ ΘΕΜΑ Β. Να μελετήσετε ως προς τη μονοτονία και τα ακρότατα τις παρακάτω συναρτήσεις: f (x) = 0 x(2ln x + 1) = 0 ln x = x = e x =

I.3 ΔΕΥΤΕΡΗ ΠΑΡΑΓΩΓΟΣ-ΚΥΡΤΟΤΗΤΑ

Κινητά Δίκτυα Υπολογιστών

Στοχαστικά Σήματα και Τηλεπικοινωνιές

Α.Τ.Ε.Ι ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΕΡΓΑΣΤΗΡΙΟ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ 4

Υπολογιστική Νοημοσύνη. Μάθημα 12: Παραδείγματα Ασκήσεων 2

E [ -x ^2 z] = E[x z]

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 3ο Φροντιστήριο

Πρόβλημα 1 «Φασίνα» Εύρεση εκτέλεσης εργασιών με τον μικρότερο συνολικό χρόνο

ΕΛΕΓΧΟΣ ΒΙΟΜΗΧΑΝΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΚΕΦΑΛΑΙΟ 4 ΚΕΦΑΛΑΙΟ 5. ΑΝΑΓΝΩΡΙΣΗ ΔΙΕΡΓΑΣΙΑΣ ΠΡΟΣΑΡΜΟΣΤΙΚΟΣ ΕΛΕΓΧΟΣ (Process Identifications)

Υπολογιστική Νοημοσύνη. Μέρος Β Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ) Αναστάσιος Ντούνης, Καθηγητής 1

Προσαρµοστικοί Αλγόριθµοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδροµικός αλγόριθµος ελάχιστων τετραγώνων (RLS Recursive Least Squares)

ΠΡΟΒΛΗΜΑΤΑ ΔΥΟ ΔΙΑΣΤΑΣΕΩΝ

Ηλεκτρομαγνητισμός. Χρήσιμες μαθηματικές έννοιες. Νίκος Ν. Αρπατζάνης

ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΕΥΘΥΝΣΗΣ

Υπολογιστική Νοημοσύνη. Μάθημα 13: Αναδρομικά Δίκτυα - Recurrent Networks

Βέλτιστα Ψηφιακά Φίλτρα: Φίλτρα Wiener, Ευθεία και αντίστροφη γραµµική πρόβλεψη

Αριθμητική Ανάλυση και Εφαρμογές

I.3 ΔΕΥΤΕΡΗ ΠΑΡΑΓΩΓΟΣ-ΚΥΡΤΟΤΗΤΑ

Transcript:

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP) x -0,5 a x x 2 0 0 0 0 - -0,5 y y 0 0 x 2 -,5 a 2 θ η τιμή κατωφλίου Μία λύση του προβλήματος XOR

Multi Layer Perceptron (MLP) x -0,5 Μία λύση του προβλήματος XOR a -0,5 y x 2 -,5 a 2 - x x 2 α =f(x +x 2-0,5) α 2 =f(x +x 2 -,5) y=f(a -a 2-0,5) 0 0 α =f(-0,5)=0 α 2 =f(-,5)=0 y=f(-0,5)=0 0 α =f(0,5)= α 2 =f(-0,5)=0 y=f(0,5)= 0 α =f(0,5)= α 2 =f(-0,5)=0 y=f(0,5)= α =f(,5)= α 2 =f(0,5)= y=f(-0,5)=0

x 2 (0,) (,) (0,0) (,0) x Δηλαδή έχουμε διαχωρισμό με δύο ευθείες

Γενική Τοπολογία Δικτύου MLP x x 2 y y m x n Στρώμα Εισόδου Input Layer Κρυφό Στρώμα Hidden Layer Κρυφό Στρώμα Ν Hidden Layer Ν Στρώμα Εξόδου Output Layer

Γενικεύοντας 2 2 2 2 στρώμα Γραμμικός διαχωρισμός 2 Στρώματα Κυρτός διαχωρισμός 3 Στρώματα Διαχωρισμός κάθε μορφής Η επίδραση των στρωμάτων στην επεξεργασία

Multi Layer Perceptron (MLP) To MLP είναι ένα Νευρωνικό Δίκτυο που έχει πολύ καλές επιδόσεις και επιλύει προβλήματα που ένα απλό Perceptron δεν μπορεί. Έχει μια διαφορά με το Perceptron που συναντήσαμε. Δεν χρησιμοποιεί ως συνάρτηση ενεργοποίησης την βηματική (0/ ή -/) αλλά συνήθως την Σιγμοειδή. Αυτό γίνεται γιατί, καθώς κατά την εκμάθηση, χρησιμοποιούνται αλγόριθμοι βελτιστοποίησης που βασίζονται στην κατάβαση δυναμικού (δηλαδή στην παραγώγιση), η βηματική δεν είναι παραγωγίσιμη. Η Σιγμοειδής και είναι πολύ κοντά στην βηματική και είναι παραγωγίσιμη.

Συνάρτηση Ενεργοποίησης (MLP) f u = + e u 0 Βηματική: Δυαδική Μη παραγωγίσιμη Σιγμοειδής: Συνεχείς τιμές Παραγωγίσιμη 7

Multi Layer Perceptron (MLP) Μια άλλη συνάρτηση ενεργοποίησης που χρησιμοποιείται στo MLP είναι η υπερβολική εφαπτομένη (hyperbolic tangent), η οποία μοιάζει με την βηματική, είναι κι αυτή παραγωγίσιμη και συνδέεται με την σιγμοειδή: tanh u = eu e u e u = 2f 2u + e u Όπου: f u η Σιγμοειδής

Multi Layer Perceptron (MLP) Στις δύο περιπτώσεις της συνάρτησης ενεργοποίησης (σιγμοειδή ή υπερβολικής εφαπτομένης), η έξοδος y του νευρωνικού δικτύου έχει ομαλές μεταβολές, σε αντιπαραβολή με την περίπτωση της βηματικής συνάρτησης όπου οι μεταβολές είναι απότομες. Το λευκό αντιστοιχεί στην τιμή y=, το μπλε στην y=0 και το γκρι-σιέλ στις ενδιάμεσες τιμές. Βηματική Σιγμοειδής

Multi Layer Perceptron (MLP) Τα δίκτυα MLP με σιγμοειδή συνάρτηση ενεργοποίησης έχουν πολλές δυνατότητες στην αναπαράσταση συναρτήσεων (κάθε ομαλής συνάρτησης), γι αυτό ονομάζονται και «Καθολικοί Προσεγγιστές» (Universal Approximators). Ακόμα και με μόνο δύο κρυφά στρώματα νευρώνων έχουν πολύ καλές επιδόσεις. Θεώρημα Ένα δίκτυο δύο στρωμάτων μπορεί να προσεγγίσει (θεωρητικά), όσο καλά επιθυμούμε, οποιαδήποτε συνεχή συνάρτηση.

Multi Layer Perceptron (MLP) Οι νευρώνες του κρυφού στρώματος έχουν τη σιγμοειδή συνάρτηση ενεργοποίησης. Ο νευρώνας εξόδου έχει τη γραμμική συνάρτηση ενεργοποίησης. Όσο πιο πολύπλοκη είναι η συνάρτηση που επιθυμούμε να προσεγγίσουμε, τόσο περισσότερους κρυφούς νευρώνες θέλουμε. Συνήθως δύο στρώματα αρκούν. Universal Approximator: ισχύει και για συναρτήσεις πολλών εξόδων.

Ανάκληση σε δίκτυο (MLP) Στο δίκτυο MLP, οι νευρώνες κάθε στρώματος l τροφοδοτούνται μόνον από τους νευρώνες του προηγούμενου στρώματος l. Συνήθως το στρώμα εισόδου το ονοματίζουμε «μηδενικό στρώμα» το οποίο τροφοδοτεί το ο στρώμα. Σημείωση: Στην διεθνή βιβλιογραφία η ορολογία και οι συμβολισμοί στα Νευρωνικά Δίκτυα ποικίλουν. Έτσι πολλές φορές προκύπτει η αναγκαιότητα εναρμόνισης των συμβολισμών. στρώμα l στρώμα l- i j w ij

Ανάκληση σε δίκτυο (MLP) L το πλήθος των στρωμάτων του MLP (χωρίς το στρώμα εισόδου). L το στρώμα εξόδου. N 0, N, N 2,.., N L το πλήθος των νευρώνων στα στρώματα 0,, 2,.,L. Δηλαδή N 0 είναι το πλήθος των εισόδων και N L είναι το πλήθος των εξόδων του δικτύου. a i l οι ενεργοποιήσεις των νευρώνων του στρώματος l. w ij l το συναπτικό βάρος που συνδέει τον νευρώνα a j l του στρώματος l με τον νευρώνα a i l του στρώματος l.

Ανάκληση σε δίκτυο (MLP) w i0 l το κατώφλι του νευρώνα a i l του στρώματος l. x i = a i 0 οι είσοδοι του δικτύου. y i = a i L οι έξοδοι του δικτύου. Ανάκληση είναι η διαδικασία υπολογισμού των τιμών των νευρώνων του δικτύου (των εξόδων τους δηλαδή), έχοντας δεδομένες τις τιμές των εισόδων x, x 2,.., x N(0). Για κάθε στρώμα θα είναι: α i l = f N l j= w ij l α j l + w i0 l

Αλγόριθμος: Ανάκληση σε δίκτυο (MLP) Είσοδοι: a (0) = x, a 2 (0) = x 2,, a N(0) (0) = x N(0) /* 0 = στρώμα εισόδου, L = στρώμα εξόδου */ Έξοδοι: y = a (L), y 2 = a 2 (L),, y N(L) = a N(L) (L) Για κάθε στρώμα l =,, L { Για κάθε νευρώνα i =,, N(l) { } } α i l = f N l j= w ij l α j l + w i0 l

Αλγόριθμος: Ανάκληση σε δίκτυο (MLP) Ο αλγόριθμος δείχνει πως ο νευρώνας i του στρώματος l έχει εισόδους τις ενεργοποιήσεις a i l των νευρώνων από το στρώμα l και κατώφλι το w i0 l. Έτσι έχοντας τις τιμές των εισόδων x i υπολογίζουμε πρώτα τις ενεργοποιήσεις των νευρώνων του στρώματος, μετά (με βάση αυτές) τις ενεργοποιήσεις των νευρώνων του στρώματος 2, κ.λ.π., μέχρι τον υπολογισμό των εξόδων του δικτύου.

Εκπαίδευση του δικτύου (MLP) Η εκπαίδευση ενός δικτύου MLP έχει ιδιαίτερο ενδιαφέρον λόγω της ικανότητας του MLP να συμπεριφέρεται ως «Καθολικός Προσεγγιστής» (Universal Approximator). Αποδεικνύεται πως εάν έχουμε το κατάλληλο μέγεθος δικτύου, τότε μπορούμε να το εκπαιδεύσουμε να μάθει όποια συνάρτηση θέλουμε και με οποιαδήποτε ακρίβεια θέλουμε. Αυτό αιτιολογεί και την μεγάλη δημοτικότητα των αλγορίθμων εκπαίδευσης MLP. Ο πιο γνωστός αλγόριθμος εκπαίδευσης είναι ο Back-Propagation.

Ο αλγόριθμος εκπαίδευσης Back-Propagation Προτάθηκε από τον Paul Werbos (970 s), αλλά και από άλλους την ίδια περίπου εποχή. Εκπαίδευση με επίβλεψη (ύπαρξη στόχων). Η γενική τοπολογία του MLP είναι: L στρώματα n = N(0) αριθμός εισόδων m = N(L) αριθμός εξόδων x, x 2,.., x n είσοδοι y, y 2,.., y m έξοδοι Για μια σειρά από P διανύσματα εισόδου, επιθυμούμε να έχουμε μια σειρά από P αντίστοιχα διανύσματα εξόδου.

Ο αλγόριθμος εκπαίδευσης Back-Propagation x p = x p, x n p T το p-στό διάνυσμα εισόδου y p = y p, y m p T το p-στό διάνυσμα εξόδου d p = d p, d m p T το p-στό διάνυσμα στόχων Για την εκπαίδευση θα χρησιμοποιηθούν τα P ζεύγη διανυσμάτων εισόδων-στόχων: x, d, x 2, d 2,., x p, d p. Η ιδανική εκπαίδευση θα κατέληγε στα ζεύγη: y = d, y 2 = d 2,.., y p = d p. Αυτό βέβαια δεν είναι εφικτό και θα πρέπει να προσαρμοστούμε σε μια βέλτιστη δυνατή προσέγγιση για την επιθυμητή έξοδο, χρησιμοποιώντας ένα κριτήριο κόστους. Το πιο διαδεδομένο κριτήριο είναι το Μέσο Τετραγωνικό Σφάλμα (Mean Square Error) J.

Ο αλγόριθμος εκπαίδευσης Back-Propagation P J MSE = P p= d p y p 2 = P p= Σκοπός: Η ελαχιστοποίηση της συνάρτησης MSE. Το MSE το έχουμε ήδη συναντήσει στο ADALINE. Ελαχιστοποιεί την απόσταση μεταξύ των διανυσμάτων y i, d i (επιθυμητή και πραγματική τιμή εξόδου). Παραγωγίζεται και μπορεί να χρησιμοποιηθεί στην μέθοδο κατάβασης δυναμικού για την εύρεση των αναδρομικών τύπων που θα υπολογίζουν την μεταβολή των συναπτικών βαρών για την πραγματοποίηση της εκπαίδευσης του δικτύου. P m i= d i p y i p 2

Κατάβαση δυναμικού J MSE Α Κλίση (gradient) στο σημείο Α + Κλίση (gradient) στο σημείο Β Β w παλιό w νέο Αν η κλίση είναι αρνητική τότε πάω μπροστά ( ) w νέο w παλιό Αν η κλίση είναι θετική τότε πάω πίσω ( ) Κινούμαι αντίθετα απ ότι λέει η παράγωγος: αν η παράγωγος είναι θετική τότε μειώνω το βάρος w, αν είναι αρνητική το αυξάνω. w

Κατάβαση δυναμικού Για να ελαχιστοποιηθεί το MSE πρέπει να διορθωθούν τα βάρη w ij. Πρέπει δηλαδή, με την μέθοδο κατάβασης δυναμικού, να βρούμε την μεταβολή του w ij ως προς τον χρόνο t (η οποία είναι η κλίση του J ως προς w ij ) δηλαδή πρέπει να βρούμε την παράγωγο του J ως προς w ij ). dw ij dt = J w ij Στον υπολογιστή χρησιμοποιούμε τον διακριτό χρόνο k, του οποίου συναρτήσεις θα είναι τα βάρη του κάθε στρώματος κατά την διάρκεια της εκπαίδευσης.

Κατάβαση δυναμικού w ij l, k : Συναπτικό βάρος που συνδέει τον νευρώνα j του στρώματος l με τον νευρώνα i του στρώματος l κατά την χρονική στιγμή k. στρώμα l w ij l, k στρώμα l- i j Η κατάβαση δυναμικού θα γίνει: J w ij l, k + w ij l, k = β w ij l, k J w ij l, k + = w ij l, k β w ij l, k Όπου β: το βήμα εκπαίδευσης

Κατάβαση δυναμικού Η έξοδος του νευρώνα i του στρώματος l θα είναι: Όπου: u i k l = a i k l = f u i k l N l ξ= w iξ l, k a ξ k l + w i0 l, k a i k Στρώμα l w ij l, k Στρώμα l- l i j Το μέγεθος u k i l λέγεται δικτυακή διέγερση (net input) του νευρώνα και είναι το άθροισμα των διεγέρσεων των νευρώνων του προηγούμενου στρώματος, συνδυασμένων με τα συναπτικά βάρη w iξ l, k. Το συναπτικό βάρος w i0 l, k αντιστοιχεί στο κατώφλι του νευρώνα i.

Ο κανόνας Back-Propagation (BP) Για διευκόλυνση των υπολογισμών, θέτουμε όπου: δ k J i l = u k i l Όπου δ i είναι η παράγωγος του κόστους J ως προς την δικτυακή διέγερση του νευρώνα i και έχει σχέση με το σφάλμα του νευρώνα i. Από την χρήση του ελληνικού γράμματος «δέλτα» στην παράσταση, πήρε και το όνομά του ο κανόνας Back-Propagation και λέγεται «Γενικευμένος κανόνας δέλτα» (Generalized Delta Rule)

J w ij l, k = J u k i l u k i l w ij l, k = δ i k u k i l l w ij l, k Η παράγωγος της δικτυακής διέγερσης ως προς το συναπτικό βάρος w ij l, k θα είναι: u i k Για j 0: Για j = 0: Ο κανόνας Back-Propagation (BP) N l l w ij l,k u k i l = w iξ l, k a k ξ l + w i0 l, k u i k ξ= l w ij l,k = a j k l u i k l w i0 l,k =

Με βάση αυτά θα έχουμε: Ο κανόνας Back-Propagation (BP) J w ij l, k = δ i k l a k j l για j =,, N(l ) δ k i l για j = 0 Εάν δε απλοποιήσουμε περεταίρω θέτοντας: a k 0 l = για όλα τα στρώματα l =,2,, L. θα έχουμε: J w ij l, k = δ i k l a j k l Για j = 0,,2,, N(l ) και l =,2,, L

Ο κανόνας Back-Propagation (BP) Στην ανωτέρω σχέση, ο υπολογισμός των σφαλμάτων δ k i l, για όλους τους νευρώνες i, θα γίνει αντίστροφα σε σχέση με την ανάκληση, δηλαδή ξεκινώντας από το στρώμα εξόδου και πηγαίνοντας πίσω, προς το στρώμα εισόδου. Για το στρώμα εξόδου L: Σφάλμα: παράγωγος του κόστους J ως προς την διέγερση u k i L δ i k = L = J a i k L J u k i L = J a k i f u i k u i k L L L a i k u i k = d i k y i k f u i k L Το σφάλμα δ k i L είναι η διαφορά του στόχου από την έξοδο επί την παράγωγο της συνάρτησης ενεργοποίησης f. L L

Ισχύουν διαφορετικοί τύποι για το εξωτερικό στρώμα L και για τα υπόλοιπα στρώματα. Για το στρώμα εξόδου L: Ο κανόνας Back-Propagation (BP) w ij k + = w ij k + βδ i k a j k δ i k = d i k y i k f u i k i =,, N L j = 0,,, N L d i a j w ij Στρώμα L Στρώμα L- Ανάλογα με το ποια συνάρτηση f u ενεργοποίησης χρησιμοποιούμε έχουμε και την διαφορετική παράγωγό της, f u. Για τις πιο συχνά χρησιμοποιούμενες (που πρέπει να είναι και παραγωγίσιμες) έχουμε:

Ο κανόνας Back-Propagation (BP) Για την σιγμοειδή: f u = + e u f u = f u f u Για την υπερβολική εφαπτομένη: f u = tanh u = eu e u e u + e u f u = + f u Για την γραμμική: f u = u f u = f u Σημείωση: Κάθε στρώμα μπορεί να έχει την δική του συνάρτηση ενεργοποίησης.

Ο κανόνας Back-Propagation (BP)..... d d 2 d 3 d N στρώμα l + d i στρώμα l Για οποιοδήποτε στρώμα l =,, L : Υπολογισμός δ i l προώθηση προς τα πίσω (backward phase). Υπολογίζω τα δ i l χρησιμοποιώντας τα δ i l + του πιο πάνω στρώματος. Εξ ου και το όνομα Back-Propagation.

Ο κανόνας Back-Propagation (BP) δ i k = l = N l+ μ= N l+ J u i k J l u k μ l + a i k u k μ l + a k i l u k i = δ k i l + w k μi l + f u k i l μ= l l

Ο κανόνας Back-Propagation (BP) Ο τύπος είναι ίδιος με αυτόν για το στρώμα L. Αλλάζει μόνον ο υπολογισμός του δ. d i w ij Στρώμα l+ w ij k + = w ij k + βδ i k a j k δ i k l = f u i k l i =,, N l j = 0,,, N l N l+ μ= a j w μi l + δ μ l + Στρώμα l

Εξίσωση ενημέρωσης βαρών j = 0,,, N l, Ο κανόνας Back-Propagation (BP) w ij l, k + = w ij l, k + βδ i k l a j k l l =,, L Τύποι υπολογισμού δ Στρώμα L = τελευταίο στρώμα: δ i k L = f u i k L d i k y i k Στρώμα l =,, L : δ i k l = f u i k l N l+ μ= w μi l + δ μ l +

Είσοδοι: P ζεύγη διανυσμάτων εισόδων-στόχων x p, d p Αρχικοποίησε τα βάρη w ij (l) σε μικρές τυχαίες τιμές Για κάθε εποχή =, 2,, MAXepoch { Για κάθε πρότυπο p =,, P { /* Εκπαίδευση */ /* Φάση ανάκλησης = Forward phase */ /* Φάση υπολογισμού d = Backward phase */ /* Φάση ενημέρωσης βαρών = Update phase */ } J=0; Για κάθε πρότυπο p =,, P { /* Υπολογισμός J */ /* Φάση ανάκλησης = Forward phase */ /* Άθροισε το τετραγωνικό σφάλμα στο J */ } } Μέχρι J μικρότερο από κάποιο κατώφλι minimum J Ο κανόνας Back-Propagation (BP)

Θέσε το συνολικό σφάλμα=0 Όχι Εάν το συνολικό σφάλμα < τελικού σφάλματος στόχου, σταμάτα Δώσε το ο πρότυπο και κάνε την εκπαίδευση Πρόσθεσε, την απόλυτη τιμή του σφάλματος κάθε νευρώνα εξόδου, στο συνολικό σφάλμα Ναι Stop Ναι, το τελευταίο πρότυπο έχει εκπαιδευτεί Εάν το τελευταίο πρότυπο έχει εκπαιδευθεί, άρχισε ξανά με το ο, διαφορετικά φόρτωσε το επόμενο πρότυπο και κάνε την εκπαίδευση Όχι, το τελευταίο πρότυπο δεν έχει εκπαιδευτεί

Τυπική καμπύλη εκπαίδευσης νευρωνικού δικτύου

Κατά την εκπαίδευση, υπάρχει ενδεχόμενο να «παγιδευτούμε» σε τοπικά ελάχιστα (Local minima) Τοπικά ελάχιστα (Local minima) Καμπύλη εκπαίδευσης νευρωνικού δικτύου με Local minima

Υπάρχει επίσης ενδεχόμενο να «παγιδευτούμε» οριστικά σε συνολικό ελάχιστο (Global minima) Τοπικά ελάχιστα (Local minima) Συνολικό ελάχιστο (Global minima) Καμπύλη εκπαίδευσης νευρωνικού δικτύου με Global minima

Εφαρμογή και Προβλήματα του MLP Δυνατότητα επίλυσης πολύπλοκων προβλημάτων. Καλύτερος ταξινομητής από το Perceptron και το ADALINE. Universal Approximator. Κατάβαση Δυναμικού Πρόβλημα τοπικών ελαχίστων: Μπορεί να «κολλήσει» σε μια λύση που δεν είναι ιδιαίτερα καλή. Αργή σύγκλιση. Ποιο b να επιλέξω; Δεν υπάρχει εύκολη και σαφής απάντηση. Συνήθως βάζω τυχαία μικρό b και δοκιμάζω.

Παράδειγμα εκπαίδευσης (MLP) 0,35 0, θ i =0 β= 0,9 0,6 0,8 0,4 a a 2 0,3 0,9 w ij l, k + = w ij l, k + βδ k i l a k j l f u = + e u f u = f u f u δ i k L = f u i k L d i k y i k d=0,5 y

Παράδειγμα εκπαίδευσης (MLP) u=(0,35x0,)+(0,9x0,8)=0,755 0,35 0, f 0,755 = + e 0,755 = 0,68 = a 0,8 a 0,9 0,6 0,4 a 2 0,3 0,9 f 0,68 = y + e 0,68 = 0,6637 = a 2 u=(0,9x0,6)+(0,35x0,4) = 0,68

0,35 0,9 Παράδειγμα εκπαίδευσης (MLP) 0, 0,6 0,8 0,4 a a 2 u=(0,3x0,68)+ (0,9x0,6637) = 0,8033 0,3 0,9 f 0,8033 = y = 0,69 = y + e 0,8033 Σφάλμα εξόδου: δ=(d-y)(-y)y = (0,5-0,69)(-0,69)0,69 = -0,0406 δ k i L = f u k i L d k k i y i f u = + e u f u = f u f u y = f u

0,35 0,9 Παράδειγμα εκπαίδευσης (MLP) 0, 0,6 0,8 0,4 a a 2 0,3 0,9 a = 0,68 a 2 = 0,6637 y Σφάλμα εξόδου: δ= -0,0406 w ij l, k + = w ij l, k + βδ i k l a j k l Νέα βάρη για το στρώμα εξόδου (για β=): w+ = w+(δ x είσοδος α) = 0,3 + (-0,0406x0,68) = 0,272392 w2+ = w2+(δ x είσοδος α2) = 0,9 + (-0,0406x0,6637) = 0,87305

0,35 0,9 Παράδειγμα εκπαίδευσης (MLP) 0, 0,6 0,8 0,4 δ i k l = f u i k l N l+ μ= a 0,272392 0,87305 a 2 w μi l + δ μ l + w+ = 0,272392 w2+ = 0,87305 y Σφάλμα εξόδου: δ=-0,0406 Δηλαδή το y παίρνει τώρα τις τιμές των α α 2 αντίστοιχα Σφάλματα ενδιάμεσου στρώματος: δ = δ x w x (-y)y = -0,0406 x 0,272392 x (-y)y = -2,406x0-3 δ2= δ x w2 x (-y)y = -0,0406 x 0,87305 x (-y)y = -7,96x0-3

Παράδειγμα εκπαίδευσης (MLP) 0,35 0,9 0, 0,8 0,4 0,6 a 0,272392 0,87305 a 2 δ = -2,406x0-3 δ2= -7,96x0-3 y Το a j k l για τα βάρη αυτά είναι η είσοδος, σ αυτό το στρώμα w ij l, k + = w ij l, k + βδ i k l a j k l Νέα βάρη ενδιάμεσου στρώματος: w3+ = 0, + (-2,406 x 0-3 x 0,35) = 0,0996 w4+ = 0,8 + (-2,406 x 0-3 x 0,9) = 0,7978 w5+ = 0,4 + (-7,96 x 0-3 x 0,35) = 0,3972 w6+ = 0,6 + (-7,96 x 0-3 x 0,9) = 0,5928

0,0996 0,35 0,7978 0,3972 0,9 0,5928 Παράδειγμα εκπαίδευσης (MLP) Επόμενο βήμα u=(0,35x0,0996)+(0,9x0,7978)=0,752726 a 0,272392 y 0,87305 a 2 u=(0,9x0,5928)+(0,35x0,3972) = 0,67254 f 0,752726 = = 0,6799 + e 0,752726 f 0,67254 = = 0,662 + e 0,67254

0,35 Επόμενο βήμα 0,9 Παράδειγμα εκπαίδευσης (MLP) u=(0,6799 x0,272392)+(0,662 x0,87305) = 0,763584208 0,0996 0,7978 0,3972 0,5928 a 0,272392 0,87305 a 2 a = 0,6799 a 2 = 0,662 f 0,763 = y d=0,5 y = 0,69 y 2 = 0,682 = 0,682 = y + e 0,763 Παλιό σφάλμα: -0.9. Νέο σφάλμα: -0.82. Δηλαδή έχουμε διόρθωση των βαρών προς την σωστή κατεύθυνση.

Εκπαίδευση χωρίς επίβλεψη (Unsupervised Learning) Η εκπαίδευση χωρίς επίβλεψη, επιτρέπει στο δίκτυο να αυτοοργανωθεί για την δική του ταξινόμηση των δεδομένων εισόδου (πρότυπα εισόδου), επιχειρώντας να βρει μια ενδεχόμενη δομή των δεδομένων χωρίς ετικέτα που δεν είναι προφανής. Σε αυτή την περίπτωση, δεν υπάρχουν επιθυμητές έξοδοι, επακριβώς καθορισμένες. Όταν η μάθηση πραγματοποιείται με έναν ορισμένο αριθμό των παραδειγμάτων (πρότυπα εισόδου) που είναι γνωστά εκ των προτέρων, η μάθηση ονομάζεται μη προσαρμοστική (non adaptive). Αντίθετα, όταν η μάθηση συντελείται συνεχώς, όταν προστίθενται πρότυπα, ονομάζεται προσαρμοστική (adaptive).