Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Σχετικά έγγραφα
Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Το μοντέλο Perceptron

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Ασκήσεις μελέτης της 19 ης διάλεξης

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

4.3. Γραµµικοί ταξινοµητές

Αναγνώριση Προτύπων Ι

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Αναγνώριση Προτύπων Ι

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

Αναγνώριση Προτύπων Ι

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Αριθμητική Ανάλυση & Εφαρμογές

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Non Linear Equations (2)

Τα περισσότερα προβλήματα βελτιστοποίησης είναι με περιορισμούς, αλλά οι μέθοδοι επίλυσης χωρίς περιορισμούς έχουν γενικό ενδιαφέρον.

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Γραµµικοί Ταξινοµητές

Μέθοδος Ελαχίστων Τετραγώνων (για την προσαρμογή (ή λείανση) δεδομένων/μετρήσεων)

Matrix Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι. Αλγόριθμοι» Γ. Καούρη Β. Μήτσου

Επαναληπτικές μέθοδοι

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ με το EXCEL

Εφαρμοσμένη Βελτιστοποίηση

Είναι γνωστό ότι η δύναμη που ασκείται σε ένα ελατήριο και ονομάζεται δύναμη επαναφοράς δίνεται από τη σχέση : F = kx (3.1)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Συσχετιστικές Μνήμες Δίκτυο Hopfield. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

E[ (x- ) ]= trace[(x-x)(x- ) ]

Α.Τ.Ε.Ι ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΕΡΓΑΣΤΗΡΙΟ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ 4

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Ανδρέας Παπαζώης. Τμ. Διοίκησης Επιχειρήσεων

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Αναγνώριση Προτύπων Ι

Μη γραµµικοί ταξινοµητές Νευρωνικά ίκτυα

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

ΜΑΣ 371: Αριθμητική Ανάλυση ΙI ΑΣΚΗΣΕΙΣ. 1. Να βρεθεί το πολυώνυμο Lagrange για τα σημεία (0, 1), (1, 2) και (4, 2).

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Δομή Επανάληψης. Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον

Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων 1 / 20

E [ -x ^2 z] = E[x z]

ΗΜΥ 681 Εκτίμηση κατάστασης II (AC Εκτίμηση κατάστασης)

MATLAB. Εισαγωγή στο SIMULINK. Μονάδα Αυτόματης Ρύθμισης και Πληροφορικής

Εφαρμοσμένα Μαθηματικά ΙΙ

ΜΕΜ251 Αριθμητική Ανάλυση

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

2x 1 + x 2 x 3 + x 4 = 1. 3x 1 x 2 x 3 +2x 4 = 3 x 1 +2x 2 +6x 3 x 4 = 4

ΠΡΟΒΛΗΜΑΤΑ ΔΥΟ ΔΙΑΣΤΑΣΕΩΝ

HMY 795: Αναγνώριση Προτύπων

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Κεφάλαιο 11. Πολυώνυμα Taylor Ορισμός

Δομές Δεδομένων & Αλγόριθμοι

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΝΑΡΤΗΣΕΩΝ ΑΚΡΟΤΑΤΑ ΣΥΝΑΡΤΗΣΕΩΝ. Αριθμητικές μέθοδοι ελαχιστοποίησης ΕΛΑΧΙΣΤΟΠΟΙΗΣΗ ΧΩΡΙΣ ΠΕΡΙΟΡΙΣΜΟΥΣ

Αριθμητική Ανάλυση 4.5 Ιδιοτιμές και ιδιοδιανύσματα πινάκων. Γ. Παπαευαγγέλου, ΕΔΙΠ, ΤΑΤΜ/ΑΠΘ

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία

Αριθμητική Ανάλυση και Εφαρμογές

6 ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΔΙΑΔΙΚΑΣΙΕΣ ΓΙΑ ΠΡΟΣΕΓΓΙΣΗ ΛΥΣΕΩΝ

Κεφάλαιο 2: Διανυσματικός λογισμός συστήματα αναφοράς

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Κεφ. 2: Επίλυση συστημάτων εξισώσεων. 2.1 Επίλυση εξισώσεων

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

A Τελική Εξέταση του μαθήματος «Αριθμητική Ανάλυση» Σχολή Θετικών Επιστημών, Τμήμα Μαθηματικών, Πανεπιστήμιο Αιγαίου

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

6. Στατιστικές μέθοδοι εκπαίδευσης

Δομές Δεδομένων Ενότητα 2

Transcript:

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης

Ελαχιστοποίηση συνάρτησης σφάλματος Εκπαίδευση ΤΝΔ: μπορεί να διατυπωθεί ως πρόβλημα ελαχιστοποίησης μιας συνάρτησης σφάλματος E(w) ως προς το διάνυσμα w=(w 1, w L ) των παραμέτρων του ΤΝΔ (βάρη και πολώσεις). Συνήθως αυτό που χρειάζεται είναι ο υπολογισμός των μερικών παραγώγων Ε/ w του σφάλματος ως προς τις παραμέτρους του ΤΝΔ Πολλές αποδοτικές μέθοδοι αριθμητικής ελαχιστοποίησης βασίζονται στις μερικές παραγώγους Πιο δημοφιλής μέθοδος για τα ΤΝΔ: gradent descent (κάθοδος βασισμένη στην κλίση) Είναι και η απλούστερη

Ελαχιστοποίηση συνάρτησης σφάλματος Εστω συνάρτηση σφάλματος E(w) την οποία θέλουμε να ελαχιστοποιήσουμε ως προς w: να βρούμε το σημείο ελαχίστου w * στο οποίο η συνάρτηση Ε(w * ) γίνεται ελάχιστη. Τα ακρότατα μιας συνάρτησης ικανοποιούν τη συνθήκη ότι η Ε/ w =0 για κάθε =1,,L. Μια συνάρτηση μπορεί να έχει περισσότερα του ενός ελάχιστα που ονομάζονται τοπικά ελάχιστα. Το καλύτερο (αυτό με την μικρότερη τιμή) από τα τοπικά ελάχιστα ονομάζεται ολικό ελάχιστο.

Ελαχιστοποίηση συνάρτησης E(w) σφάλματος D B w 2 w 1 A C E w 3 τρία τοπικά ελάχιστα: (A, C, E) ολικό ελάχιστο: A Αναλυτική εύρεση ελαχίστων: λύση του συστήματος εξισώσεων Ε/ w =0, =1,,L. Δυνατή μόνο όταν η Ε(w) είναι τετραγωνική. Καταφεύγουμε σε μεθόδους αριθμητικής ανάλυσης (επαναληπτικές) w

Ελαχιστοποίηση συνάρτησης σφάλματος Επαναληπτικές μέθοδοι: - ξεκινούν από μια αρχική τιμή (συνήθως τυχαία) w (0). - Σε κάθε επανάληψη t το διάνυσμα των βαρών τροποποιείται κατά Δw(t): w(t+1) = w(t) +Δw(t) ώστε η συνάρτηση να μειώνεται: Ε(w(t+1)) E(w(t)). - Οι αλγόριθμοι βελτιστοποίησης διαφοροποιούνται στον τρόπο με τον οποίο υπολογίζεται η μεταβολή Δw(t). - Συνήθως χρησιμοποιείται πληροφορία σχετική με την κλίση της συνάρτησης. -Η επαναληπτική διαδικασία συγκλίνει σε ένα τοπικό ελάχιστο w * της συνάρτησης Ε(w).

Ελαχιστοποίηση συνάρτησης σφάλματος Οι μέθοδοι υλοποιούν τοπική ελαχιστοποίηση. Αν η συνάρτηση Ε(w) έχει πολλά τοπικά ελάχιστα, το ελάχιστο στο οποίο θα καταλήξει η μέθοδος εξαρτάται από την αρχική τιμή του διανύσματος w (0) (η οποία συνήθως επιλέγεται τυχαία). Υπάρχει πιθανότητα εγκλωβισμού σε ανεπιθύμητα (με υψηλή τιμή) τοπικά ελάχιστα της συνάρτησης σφάλματος. Μια απλή λύση: πολλές εκτελέσεις από διαφορετικές αρχικές τιμές. Κρατάμε την καλύτερη από τις λύσεις που βρίσκουμε.

E(w) Κάθοδoς με βάση την κλίση (gradent descent (GD)) E w (t+1)=w (t)- w, =1,...,L w w(0) w(1) w(2) w * Ξεκινάμε από μια αρχική τιμή των βαρών w (0) (συνήθως τυχαία). Σε κάθε επανάληψη t: Υπολογισμός της κλίσης και ενημέρωση των w Ελέγχουμε για τερματισμό της μεθόδου Αν ναι, τερματίζουμε, αλλοιώς t:=t+1 και συνεχίζουμε.

Ρυθμός μάθησης η: ονομάζεται βήμα καθόδου Στην περίπτωση της εκπαίδευσης των ΤΝΔ ονομάζεται ρυθμός μάθησης (learnng rate). Καθορίζει εάν θα μετακινηθούμε στην κατεύθυνση μείωσης της συνάρτησης με μικρά ή μεγάλα βήματα. Μικρός ρυθμός μάθησης συνεπάγεται ομαλή κάθοδο προς το τοπικό ελάχιστο, αλλά απαιτούνται περισσότερες επαναλήψεις. Μεγάλος ρυθμός μάθησης συνεπάγεται ταχύτερη κάθοδο (μεγαλύτερα βήματα, λιγότερες επαναλήψεις), αλλά και αυξημένη πιθανότητα εμφάνισης ταλαντώσεων γύρω από το σημείο ελαχίστου.

Εκπαίδευση του απλού νευρώνα με ελαχιστοποίηση σφάλματος Σύνολο παραδειγμάτων εκπαίδευσης D={(x n,t n )}, n=1,,n x n =(x n1,, x nd ) T και t n αριθμός Eκπαίδευση απλού νευρώνα με βάρη w=(w 0, w 1,,w d ) T και συναρτ. ενεργοποίησης g(u). Για είσοδο το x n : u(x n ; w)=σ w x + w 0, ο(x n ; w)=g(u(x n ; w)) Στην περίπτωση που για κάποιο διάνυσμα βαρών η εκπαίδευση είναι τέλεια θα ισχύει: ο(x n ; w)=t n για κάθε n=1,,n δηλαδή η έξοδος του νευρώνα για είσοδο x n θα είναι ίση με την επιθυμητή t n.

Εκπαίδευση του απλού νευρώνα με ελαχιστοποίηση σφάλματος Επομένως μπορούμε να ορίσουμε την τετραγωνική συνάρτηση σφάλματος εκπαίδευσης: E(w)= 1 N N n n 2 (t -o(x ;w)) 2 n=1 n=1 1 E(w)= E (w), E (w)= (t -o(x ;w)) 2 n n n n 2 Ως άθροισμα τετραγώνων έχουμε κάτω φράγμα την τιμή μηδέν η οποία προκύπτει όταν έχουμε τέλεια εκπαίδευση. Η πιο σημαντική κατηγορία μεθόδων εκπαίδευσης ΤΝΔ για μάθησης με επίβλεψη προκύπτει από την ενημέρωση του διανύσματος των βαρών w με σκοπό την ελαχιστοποίηση του τετραγωνικού σφάλματος Ε(w). Ευρύτερα χρησιμοποιούμενη μέθοδος ελαχιστοποίησης: κάθοδος με βάση την κλίση (gradent descent).

Μερική Παράγωγος του σφάλματος εκπαίδευσης N 1 E(w)= E (w), E (w)= (t -o(x ;w)) 2 n=1 n n n n 2 E w? E w N n 1 E w n E w n n n (t -o(x ;w)) n o(x ;w) w n n o(x ;w) g(u) u(x ;w) g (u)x n, =0,...,d, x n0 1 w u w E w n n n n (t -o(x ;w)) g (u(x ;w))x n, =0,...,d, x n0 1 E w N n n n (t -o(x ;w))g (u(x ;w))x n, =0,...,d, xn0 1 n=1

Μερική Παράγωγος του σφάλματος εκπαίδευσης Yπολογισμός της μερικής παραγώγου που αντιστοιχεί στο σφάλμα για ένα παράδειγμα εκπαίδευσης (x n,t n ): εφαρμογή του x n ως είσοδο στον νευρώνα και υπολογισμός της συνολικής εισόδου u(x n ;w) και της εξόδου ο(x n ;w) υπολογισμός του σφάλματος: δ n = (t n - ο(x n ;w)) υπολογισμός των μερικών παραγώγων ως προς w E w n n n n (t -o(x ;w)) g (u(x ;w))x n, =0,...,d, x n0 1

Εκπαίδευση του απλού νευρώνα με gradent descent (ομαδική ενημέρωση) 1. Αρχικοποίηση: Θέτουμε t=0, αρχικές τιμές βαρών w(0) και ορίζουμε την τιμή του ρυθμού μάθησης η. 2. Σε κάθε επανάληψη t, έστω w(t) το διάνυσμα των βαρών. Αρχικοποιούμε: 0, =0,,L Για n=1,,n: εφαρμογή του x n ως είσοδο στον νευρώνα και υπολογισμός της συνολικής εισόδου u(x n ;w) και της εξόδου ο(x n ;w) υπολογισμός του σφάλματος: δ n = (t n - ο(x n ;w)). E w E E w n n : δ g (u(x ;w))x n, =0,...,d, xn0 1 w Ενημερώνουμε τις τιμές των βαρών: 3. Ελέγχουμε για τερματισμό της μεθόδου. Αν ναι, τερματίζουμε. 4. t:=t+1, μετάβαση στο βήμα 2. E w (t+1)=w (t)-, =1,...,L w

Εκπαίδευση του απλού νευρώνα με gradent descent (ομαδική ενημέρωση) Ομαδική ενημέρωση: η ενημέρωση των βαρών πραγματοποιείται μια φορά στο τέλος κάθε εποχής με βάση την μερική παράγωγο του συνολικού σφάλματος, αθροίζοντας δηλαδή τις μερικές παραγώγους των επιμέρους σφαλμάτων. Ο μετρητής επαναλήψεων t μετράει τις εποχές. Η ομαδική ενημέρωση αντιστοιχεί στην μαθηματικά αυστηρή υλοποίηση της μεθόδου gradent descent για την E ελαχιστοποίηση του σφάλματος Ε(w): w (t+1)=w (t)- w Σε κάθε εποχή t το σφάλμα Ε(w) θα πρέπει να μειώνεται (εάν ο ρυθμός μάθησης είναι επαρκώς μικρός), =1,...,L

Εκπαίδευση του απλού νευρώνα με gradent descent (σειριακή ενημέρωση) Η συνάρτηση Ε(w) που θέλουμε να ελαχιστοποιήσουμε έχει την εξής χρήσιμη ιδιότητα: εκφράζεται ως το άθροισμα των επιμέρους σφαλμάτων E n (w). Εναλλακτική προσέγγιση για την ελαχιστοποίηση του Ε(w). Σε κάθε επανάληψη τ (χρησιμοποιούμε διαφορετικό συμβολισμό σε σχέση το συμβολισμό t στην ομαδική ενημέρωση) εφαρμόζουμε τον κανόνα ενημέρωσης gradent descent για την ελαχιστοποίηση κάποιου από τα επιμέρους σφάλματα E n (w): w(τ+1)=w (τ)+n(t -o(x ;w))g (u(x ;w))x, =0,...,d, x 1 n n n n n0

Εκπαίδευση του απλού νευρώνα με gradent descent (σειριακή ενημέρωση) Αποδεικνύεται ότι εάν όλοι οι όροι Ε n (w) επιλέγονται το ίδιο συχνά, τότε το τελικό αποτέλεσμα της μεθόδου είναι η ελαχιστοποίηση του συνολικού σφάλματος Ε(w) δηλαδή λειτουργώντας σε κάθε βήμα στην κατεύθυνση μείωσης ενός όρου, επιτυγχάνουμε στο τέλος τη μείωση του αθροίσματος των όρων. Αυτό το γεγονός δεν πρέπει να θεωρηθεί ως κάτι προφανές δεδομένου ότι σε κάθε βήμα η αλλαγή των βαρών για την μείωση του όρου Ε n (w) δεν μειώνει απαραίτητα και το συνολικό σφάλμα Ε(w), διότι μπορεί να υπάρχουν άλλοι όροι Ε m (w) που να αυξάνουν με την αλλαγή των βαρών.

Εκπαίδευση του απλού νευρώνα με gradent descent (σειριακή ενημέρωση) Εάν όμως γίνουν πολλές τέτοιες επαναλήψεις και ο ρυθμός μάθησης μειώνεται (ξεκινώντας από μια αρχική τιμή n 0 ) ως n(κ)=n 0 /κ αποδεικνύεται ότι με πιθανότητα 1, ο αλγόριθμος θα συγκλίνει σε τοπικό ελάχιστο του συνολικού σφάλματος Ε(w). Η παραπάνω διαδικασία ονομάζεται στοχαστική (stochastc) gradent descent ή on-lne gradent descent ή σειριακή (sequental) gradent descent. Θα την ονομάζουμε μέθοδο gradent descent με σειριακή ενημέρωση των βαρών.

Εκπαίδευση του απλού νευρώνα με gradent descent (σειριακή ενημέρωση) 1 Αρχικοποίηση των βαρών w(0), και καθορισμός του ρυθμού μάθησης n. Αρχικοποίηση του μετρητή επαναλήψεων (τ:=0) και του μετρητή εποχών (t:=0). 2 Σε κάθε εποχή t, έστω w(t) το διάνυσμα βαρών του νευρώνα. Έναρξη εποχής t, αποθήκευση του τρέχοντος διανύσματος βαρών w old =w(τ). Για n=1 N Επιλογή του παραδείγματος εκπαίδευσης (x n,t n ) και εφαρμογή του στο νευρώνα και υπολογισμός των u(x n ;w) και o(x n ;w). Ενημέρωση των βαρών n n n w(τ+1)=w (τ)+n(t -o(x ;w))g (u(x ;w))x n, =0,...,d, xn0 1 τ:=τ+1. Tέλος εποχής k, έλεγχος τερματισμού ( w(τ)-w old <ε). Εάν ναι, τερματισμός. k:=k+1, goto 2.

Εκπαίδευση του απλού νευρώνα με gradent descent (σειριακή ενημέρωση) Ενώ στην ομαδική ενημέρωση έχουμε μία ενημέρωση των βαρών ανά εποχή, στην σειριακή ενημέρωση έχουμε Ν ενημερώσεις (τ=νt). Πλεονεκτήματα της σειριακής ενημέρωσης σε σχέση με την ομαδική ενημέρωση: Τα παραδείγματα μπορεί να μην είναι γνωστά εκ των προτέρων: προβλήματα μάθησης κατά τη λειτουργία (onlne learnng). Συνήθως είναι ταχύτερη λόγω του ότι η ενημέρωση των βαρών γίνεται άμεσα μετά από κάθε παράδειγμα εκπαίδευσης. Έχει παρατηρηθεί ότι μπορεί να αποφεύγει ρηχά τοπικά ελάχιστα.

Εκπαίδευση του απλού νευρώνα με gradent descent (σειριακή ενημέρωση) Mειονεκτήματα της σειριακής σε σχέση με την ομαδική ενημέρωση: H σειριακή ενημέρωση δεν εγγυάται τη μείωση της συνάρτησης σφάλματος. O έλεγχος τερματισμού είναι δυσκολότερος διότι δεν υπολογίζεται η κλίση της συνολικής συνάρτησης σφάλματος παρά μόνο η κλίση των επιμέρους σφαλμάτων ανά παράδειγμα εκπαίδευσης. Δεν υπάρχουν ευρέως αποδεκτές μελέτες που να αποδεικνύουν την υπεροχή της μιας μεθοδολογίας έναντι της άλλης. Η τεχνική της σειριακής ενημέρωσης έχει χρησιμοποιηθεί περισσότερο στο πεδίο της εκπαίδευσης των ΤΝΔ. Υβριδική προσέγγιση: on-lne updates n batches

Εκπαίδευση του γραμμικού νευρώνα x 2 x 1 w 2 w1 x 0 =1 w 0 u ο O γραμμικός νευρώνας έχει συνάρτηση ενεργοποίησης g(u)=u, επομένως g (u)=1. w d x d Oμαδική ενημέρωση: N n n n n0 n=1 w (k+1)=w (k)+n (t -o(x ;w))x, =0,...,d, x 1 Σειριακή ενημέρωση: w(κ+1)=w (κ)+n(t -o(x ;w))x, =0,...,d, x 1 n n n n0 Αν δ n =t n -o(x n ;w): n w(κ+1)=w (κ)+n δ xn κανόνας δέλτα (delta rule)

Εκπαίδευση του νευρώνα με συνάρτηση ενεργοποίησης την υπερβ. εφαπτομένη x 1 x 2 w1 w 0 w 2 w d x 0 =1 u tanh(u) ο g(u)=tanh(u) τιμές στο (-1,1), g (u)=1-tanh 2 (u) προσέγγιση του perceptron x d Oμαδική ενημέρωση: Σειριακή ενημέρωση: N n n 2 n n n0 n=1 w (k+1)=w (k)+n (t -o(x ;w))(1-o (x ;w))x, =0,...,d, x 1 n n 2 n w(κ+1)=w (κ)+n (t -o(x ;w))(1-o (x ;w))x n, =0,...,d, xn0 1 Η μέθοδος συγκλίνει πάντα σε ελάχιστο της συνάρτησης σφάλματος. Αν το σύνολο εκπαίδευσης είναι γραμμικά διαχωρίσιμο θα βρούμε λύση χωρίς σφάλματα (ολικό ελάχιστο), αλλοιώς καταλήγουμε σε λύση με σφάλματα.