Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σχετικά έγγραφα
ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Υπολογιστική Νοημοσύνη. Μάθημα 13: Αναδρομικά Δίκτυα - Recurrent Networks

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Το μοντέλο Perceptron

HMY 795: Αναγνώριση Προτύπων

Μη γραµµικοί ταξινοµητές Νευρωνικά ίκτυα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Αναγνώριση Προτύπων Ι

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

HMY 795: Αναγνώριση Προτύπων

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Υπολογιστική Νοημοσύνη. Μάθημα 12: Παραδείγματα Ασκήσεων 2

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

4.3. Γραµµικοί ταξινοµητές

Κινητά Δίκτυα Υπολογιστών

Προσομοίωση Νευρωνικού Δικτύου στο MATLAB. Κυριακίδης Ιωάννης 2013

Τετραγωνικά μοντέλα. Τετραγωνικό μοντέλο συνάρτησης. Παράδειγμα τετραγωνικού μοντέλου #1. Παράδειγμα τετραγωνικού μοντέλου #1

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ασκήσεις μελέτης της 19 ης διάλεξης

Αναγνώριση Προτύπων Ι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Νευρωνικά ίκτυα. Σηµερινό Μάθηµα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΠΡΟΣΕΓΓΙΣΗ ΚΑΙ ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ ΜΙΑΣ ΔΙΑΣΤΑΣΗΣ ΜΕ ΣΥΝΔΥΑΣΜΟ MLP ΚΑΙ RBF ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ.

Νευρωνικά Δίκτυα στο Matlab

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Τετραγωνικά μοντέλα. Τετραγωνικό μοντέλο συνάρτησης. Παράδειγμα τετραγωνικού μοντέλου #1. Παράδειγμα τετραγωνικού μοντέλου #1

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΦΥΣΙΚΟΥ ΑΕΡΙΟΥ

ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1. Τελεστές και πίνακες. 1. Τελεστές και πίνακες Γενικά. Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο.

MATLAB. Εισαγωγή στο SIMULINK. Μονάδα Αυτόματης Ρύθμισης και Πληροφορικής

3. Γραμμικά Συστήματα

Συγκριτική Μελέτη Μεθόδων Κατηγοριοποίησης σε Ιατρικά Δεδομένα

Συμπίεση Δεδομένων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αναγνώριση Προτύπων Ι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΛΛΗΝΙΚΗ ΕΤΑΙΡΕΙΑ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΕΠΙΣΤΗΜΗΣ ERSA

Τεχνητή Νοημοσύνη. TMHMA ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ. Εξάμηνο 5ο Οικονόμου Παναγιώτης & Ελπινίκη Παπαγεωργίου. Νευρωνικά Δίκτυα.

HMY 795: Αναγνώριση Προτύπων

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Γραµµικοί Ταξινοµητές

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης

Πληροφοριακά Συστήματα & Περιβάλλον

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΕΡΩΤΗΜΑΤΑ σε ΝΕΥΡΩΝΙΚΑ

ΜΕΜ251 Αριθμητική Ανάλυση

Α.Τ.Ε.Ι ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΕΡΓΑΣΤΗΡΙΟ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ 4

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

Εργαστήριο Υπολογιστικής Νοημοσύνης Ευφυούς Ελέγχου. Αναστάσιος Ντούνης, Καθηγητής

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εισαγωγή στους Νευρώνες. Κυριακίδης Ιωάννης 2013

Τεχνολογία Πολυμέσων. Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Εισαγωγικές έννοιες. Κατηγορίες προβλημάτων (σε μια διάσταση) Προβλήματα εύρεσης μεγίστου. Συμβολισμοί

Τεχνητά Νευρωνικά Δίκτυα

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

Νευρωνικά ίκτυα και Εξελικτικός. Σηµερινό Μάθηµα. επανάληψη Γενετικών Αλγορίθµων 1 η εργασία Επανάληψη νευρωνικών δικτύων Ασκήσεις εφαρµογές

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αριθμητική Ανάλυση & Εφαρμογές

HY213. ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ

Εφαρμοσμένα Μαθηματικά ΙΙ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Τσαλαβούτης Α. Βασίλειος Φοιτητής 10 ου εξαμήνου ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ

Υπολογιστική Νοημοσύνη. Μέρος Β Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ) Αναστάσιος Ντούνης, Καθηγητής 1

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 17-18

Νικόλαος Αδάλογλου του Μιχαήλ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

n. Έστω αποτελείται από όλους τους πίνακες που αντιμετατίθενται με ένα συγκεκριμένο μη μηδενικό nxn πίνακα Τ:

Project 1: Principle Component Analysis

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αριθμητική Ανάλυση και Εφαρμογές

Κεφάλαιο 4 Διανυσματικοί Χώροι

Ισότητα, Αλγεβρικές και Αναλυτικές Ιδιότητες Πραγματικών Ακολουθιών

Transcript:

Το Πολυ Perceptron

Δίκτυα Πρόσθιας Τροφοδότησης (feedforward) Tο αντίστοιχο γράφημα του δικτύου δεν περιλαμβάνει κύκλους: δεν υπάρχει δηλαδή ανατροφοδότηση της εξόδου ενός νευρώνα προς τους νευρώνες από τους οποίους επηρεάζεται άμεσα ή έμμεσα. Οι υπολογισμοί είναι όλοι στην ίδια κατεύθυνση: από την είσοδο προς την έξοδο. Υλοποιούν στατική απεικόνιση από των χώρο των εισόδων R d στο χώρο των εξόδων R p (d είσοδοι, p έξοδοι).

Το Πολυ Perceptron (MultiLayer Perceptron (MLP)) Δίκτυο πρόσθιας τροφοδότησης (feedforward). Οι νευρώνες οργανωμένοι σε επίπεδα ή στρώματα (layers): δεν υπάρχουν συνδέσεις μεταξύ νευρώνων του ίδιου επιπέδου. Διαστρωμάτωση: διευκολύνει τη μαθηματική ανάλυση και επιπλέον προσφέρει δυνατότητα παράλληλης επεξεργασίας είσοδου 1 ο κρυμμένο 2 ο κρυμμένο εξόδου

Το Πολυ Perceptron (MLP) Επίπεδο εισόδου, ένα ή περισσότερα κρυμμένα επίπεδα μη γραμμικών νευρώνων εσωτερικού γινομένου, εξόδου. Πλήρης διασύνδεση μεταξύ των νευρώνων δύο διαδοχικών επιπέδων. Συνήθως δεν επιτρέπονται συνδέσεις μεταξύ νευρώνων που ανήκουν σε επίπεδα που δεν είναι διαδοχικά. είσοδου 1 ο κρυμμένο 2 ο κρυμμένο εξόδου

Το Πολυ Perceptron (MLP) Συμβολισμός i : νευρώνας i του επιπέδου. ( ) u i : τη συνολική είσοδο στο νευρώνα ( ) y i : την έξοδο του νευρώνα ( ) i : το σφάλμα του νευρώνα ( ) ( ) w i0 : την πόλωση του νευρώνα (ή b i ) g : τη συνάρτηση ενεργοποίησης των νευρώνων στο d : τον αριθμό των νευρώνων στο ( ) w ij : βάρος της σύνδεσης από το νευρώνα j 1 στο νευρώνα i

Το Πολυ Perceptron (MLP) Έστω ένα MLP με d εισόδους, p εξόδους και Η κρυμμένα επίπεδα. Το εισόδου είναι το μηδέν το εξόδου το Η+1. (d 0 = d, d H+1 = p) Ευθύ πέρασμα (forward pass) (δοθέντος του διανύσματος εισόδου υπολογίζεται το διάνυσμα εξόδου): (0) Επίπεδο εισόδου: y =x, i i y =x 1 (0) 0 0 Κρυμμένα επίπεδα και εξόδου: Για h=1,,h+1 dh-1 dh-1 (h) (h) (h-1) (h) (h) (h-1) (h) i ij j i ij j i0 h j=0 j=1 u = w y <==> u = w y w, i=1,...d (h) (h) (h) y i =g h(u i ) i=1,...,d h, y0 1 (H+1) Έξοδος του δικτύου: o =y i=1,...,p i i

Το Πολυ Perceptron (MLP) H συνάρτηση ενεργοποίησης των κρυμμένων νευρώνων είναι μη γραμμική (συνήθως λογιστική: σ(u)=1/(1+exp(-u))). Στο εξόδου η συνάρτηση ενεργοποίησης είναι συνήθως γραμμική ή λογιστική ανάλογα με το πρόβλημα που έχουμε να επιλύσουμε. Για προβλήματα ταξινόμησης προτιμάται η λογιστική και για προβλήματα συναρτησιακής προσέγγισης η γραμμική. 1 ο κρυμμένο 2 ο κρυμμένο είσοδου εξόδου

Υπολογιστικές Δυνατότητες του MLP Το MLP υλοποιεί συναρτησιακή προσέγγιση (απεικόνιση) από το χώρο των εισόδων στο χώρο των εξόδων. H απεικόνιση που επιθυμούμε να υλοποιήσουμε καθορίζεται από τα παραδείγματα εκπαίδευσης. Το MLP χαρακτηρίζεται από την ιδιότητα της παγκόσμιας προσέγγισης (universal approximation): ένα MLP με τουλάχιστον ένα κρυμμένο με μη γραμμικούς νευρώνες μπορεί να προσεγγίσει οποιαδήποτε συνάρτηση με οποιαδήποτε ακρίβεια, αυξάνοντας επαρκώς τον αριθμό των κρυμμένων νευρώνων. Η ιδιότητα αυτή είναι θεωρητικά μόνο σημαντική, αλλά δεν είναι πρακτικά χρήσιμη. Το πρόβλημα του καθορισμού του αριθμού των κρυμμένων νευρώνων για ένα δεδομένο σύνολο εκπαίδευσης αποτελεί σήμερα βασικό ερευνητικό ζήτημα: πρόβλημα επιλογής μοντέλου (model selection).

Υπολογιστικές Δυνατότητες του MLP H ύπαρξη των μη γραμμικών κρυμμένων νευρώνων προσδίδει στο MLP τις αυξημένες υπολογιστικές δυνατότητες. Το MLP μπορεί να επιλύσει προβλήματα ταξινόμησης που είναι μη γραμμικά διαχωρίσιμα. Θεωρητικά μπορεί να υλοποιήσει οποιαδήποτε επιφάνεια διαχωρισμού όσο πολύπλοκη και εάν είναι. Ενα MLP με σιγμοειδή συνάρτηση ενεργοποίησης των νευρώνων ορίζει υπερεπίπεδα στο χώρο των δεδομένων και δημιουργεί περιοχές απόφασης που αντιστοιχούν σε τομές υπερεπιπέδων. Συνήθως 1 ή 2 κρυμμένα επίπεδα τα τελευταία χρόνια χρησιμοποιούνται και περισσότερα (deep neural networks)

Ασκηση Δίνεται το ΤΝΔ του Σχήματος του οποίου τόσο οι κρυμμένοι νευρώνες όσο και οι νευρώνες εξόδου έχουν λογιστική. Να δείξετε ότι επιλύει το πρόβλημα ΧΟR. Για διευκόλυνση θεωρείστε ότι: i) σ(z)=0 αν z<-4, ii) σ(z)=1 αν z>4 x 0 =1 x 1 x 2 10 10 10 10-15 -20 10 x 0 =1-5 o -5 x 0 =1

Eκπαίδευση του MLP Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T (πρόβλημα συναρτησιακής προσέγγισης). Θα πρέπει το MLP να έχει d νευρώνες στο εισόδου και p νευρώνες στο εξόδου. Θα πρέπει ο χρήστης να καθοριστεί η υπόλοιπη αρχιτεκτονική: κρυμμένα επίπεδα, αριθμός κρυμμένων νευρώνων ανά, είδος συναρτήσεων ενεργοποίησης. ο(x n ; w): το διάνυσμα εξόδου του MLP όταν το διάνυσμα εισόδου είναι το x n, και w=(w 1,w 2,,w L ) T είναι ένα διάνυσμα στο οποίο συγκεντρώνουμε όλα τα βάρη και τις πολώσεις. Εκπαίδευση: καθορισμός του διανύσματος w.

Eκπαίδευση του MLP Στην περίπτωση που για κάποιο διάνυσμα βαρών w η εκπαίδευση είναι τέλεια θα ισχύει ότι (διανυσματική ισότητα): ο(x n ; w)=t n για κάθε n=1,,n ή ισοδύναμα ο m (x n ; w)=t nm για κάθε n=1,,n, m=1,,p Σε αναλογία με τον απλό νευρώνα ορίζουμε την τετραγωνική συνάρτηση σφάλματος 1 1 E(w)= t -o(x ;w) (t -o (x ;w)) 2 2 N N p n n 2 n 2 nm m n=1 n=1 m=1 1 1 E(w)= E (w), E (w) t -o(x ;w) (t -o (x ;w)) N p n n n n 2 n 2 nm m n=1 2 2 m=1

Eκπαίδευση του MLP 1 1 E(w)= E (w), E (w) t -o(x ;w) (t -o (x ;w)) N p n n n n 2 n 2 nm m n=1 2 2 m=1 Το Ε(w) ως άθροισμα τετραγώνων των σφαλμάτων ανά παράδειγμα (x n, t n ) έχει κάτω φράγμα την τιμή μηδέν η οποία προκύπτει όταν έχουμε τέλεια εκπαίδευση. Eκπαίδευση του MLP: ενημέρωση του διανύσματος των βαρών w με σκοπό την ελαχιστοποίηση του τετραγωνικού σφάλματος Ε(w). Όπως και στον απλό νευρώνα η μέθοδος ελαχιστοποίησης που έχει ευρύτερα χρησιμοποιηθεί είναι η μέθοδος της gradient descent. Xρειάζεται ο υπολογισμός των μερικών παραγώγων του σφάλματος Ε n ως προς τα βάρη w i : κανόνας οπισθοδιάδοσης σφάλματος (error backpropagation)

Mέθοδος backpropagation Τεχνική υπολογισμού των μερικών παραγώγων του σφάλματος για ένα παράδειγμα (x,t) ως προς τα βάρη σε ένα δίκτυο πρόσθιας τροφοδότησης με νευρώνες εσωτερικού γινομένου και παραγωγίσιμες συναρτήσεις ενεργοποίησης (MLP). Πήρε το όνομά της από το γεγονός ότι βασίζεται στην προς τα πίσω διάδοση διαμέσου του δικτύου των σφαλμάτων που προκύπτουν στις εξόδους του δικτύου. Για τον υπολογισμό των σφαλμάτων η ροή των υπολογισμών είναι από την έξοδο προς την είσοδο. Υπολογίζονται επιμέρους τιμές σφαλμάτων για τους κρυμμένους νευρώνες του δικτύου.

Mέθοδος backpropagation Έστω το παράδειγμα (x n, t n ) και θέλουμε να υπολογίσουμε τις μερικές παραγώγους του σφάλματος Ε n ως προς τα βάρη του MLP. Aλγόριθμος back-propagation: δύο περάσματα κατά την εκτέλεση των υπολογισμών: ευθύ πέρασμα (forward pass), και το αντίστροφο πέρασμα (reverse pass). είσοδου 1 ο κρυμμένο 2 ο κρυμμένο εξόδου

Mέθοδος backpropagation Ευθύ πέρασμα: Για διάνυσμα εισόδου x n υπολογίζεται η έξοδος y κάθε νευρώνα του δικτύου. Αντίστροφο πέρασμα (υπολογισμός σφάλματος δ κάθε νευρώνα) αρχίζει από το εξόδου (Η+1), όπου συγκρίνονται οι τελικές έξοδοι o i του δικτύου με τις επιθυμητές t ni παράγοντας το σφάλμα στις εξόδους του MLP. Κατόπιν τα σήματα σφάλματος διαδίδονται προς τα πίσω στο δίκτυο και υπολογίζεται σταδιακά το σφάλμα για τους νευρώνες κάθε επιπέδου από το τελευταίο κρυμμένο έως το πρώτο κρυμμένο. Μερική παράγωγος βάρους σύνδεσης: σφάλμα προορισμού x έξοδος πηγής

Mέθοδος backpropagation Υπολογισμός σφαλμάτων (αντίστροφο πέρασμα) Nευρώνες εξόδου ( Η+1) (συν. ενεργοποίησης g H+1 ) (Η+1) i i ni (Η+1) i i i i ni δ g (u )(o t ), i=1,...,p (Η+1) (Η+1) i H+1 i i ni δ (o t ), i=1,...,p (γραμμική συν. ενεργοποίησης) δ o (1-o )(o t ), i=1,...,p (λογιστική συν. ενεργοποίησης) Nευρώνες κρυμμένων επιπέδων: για h=h,,1 (συν. ενεργοποίησης g h ) d h+1 δ g (u ) w δ, i=1,...,d h (h) (h) (h+1) (h+1) i h i ji j j=1 d h+1 δ y (1 y ) w δ, i=1,...,d (λογιστική συν. ενεργοποίησης) (h) (h) (h) (h+1) (h+1) i i i ji j h j=1

Mέθοδος backpropagation Μερική παράγωγος βάρους σύνδεσης: σφάλμα προορισμού x έξοδος πηγής E w n (h) ij δ y (h) i (h-1) j Μερική παράγωγος πόλωσης = σφάλμα του νευρώνα E w n (h) i0 δ (h) i

Εκπαίδευση MLP με gradient descent (ομαδική ενημέρωση) 1. Αρχικοποίηση: Θέτουμε t:=0, αρχικοποίηση βαρών w(0) (τυχαίες τιμές στο διάστημα (-1,1)) και ρυθμού μάθησης η. 2. Σε κάθε επανάληψη t (εποχή), έστω w(t) το διάνυσμα των βαρών Αρχικοποιούμε: Για n=1,,n E w εφαρμογή του κανόνα backpropagation για το (x n,t n ) n E και υπολογισμός των, i=1,...,l ενημέρωση του μερικού αθροίσματος: Ενημέρωση των βαρών: i 0, i=1,...,l Έλεγχος τερματισμού. Αν όχι, t:=t+1, goto 2 w i E w i(t+1)=w i(t)- w i E E E : w w w, i=1,..,l n i i i

Εκπαίδευση MLP με gradient descent (σειριακή ενημέρωση) 1. Θέτουμε t:=0, αρχικοποίηση βαρών w(0) (τυχαίες τιμές στο διάστημα (-1,1)) και ρυθμού μάθησης n. Αρχικοποίηση του μετρητή επαναλήψεων (τ:=0) και του μετρητή εποχών (t:=0). 2. Στην αρχή κάθε επανάληψης t (εποχή), έστω w(τ) το διάνυσμα των βαρών Έναρξη εποχής t, αποθήκευση του τρέχοντος διανύσματος βαρών w old =w(τ). Για n=1,,n εφαρμογή του κανόνα backpropagation για το (x n,t n ) και n E υπολογισμός των, i=1,...,l Ενημέρωση των βαρών: τ:=τ+1 w i E w(τ+1)=w i i(τ)-n w Tέλος εποχής t, έλεγχος τερματισμού. Αν όχι, t:=t+1, goto 2 n i, i=1,..,l

Εκπαίδευση MLP με gradient descent Κριτήρια τερματισμού της εκπαίδευσης (έλεγχος στο τέλος κάθε εποχής) Μικρή διαφορά στην τιμή του διανύσματος βαρών μεταξύ δύο εποχών. Μικρή διαφορά στην τιμή του ολικού σφάλματος Ε(w) μεταξύ δύο εποχών. Μείωση της τιμής του ολικού σφάλματος Ε(w) κάτω από μια επιθυμητή τιμή. Πρόωρο σταμάτημα (early stopping): χρήση συνόλου επικύρωσης.

MLP για προβλήματα ταξινόμησης (κωδικοποίηση κατηγοριών) Κωδικοποίηση των κατηγοριών: μετατροπή του προβλήματος ταξινόμησης σε πρόβλημα συναρτησιακής προσέγγισης, μέσω της αντιστοίχισης κάθε κατηγορίας σε κάποιο διάνυσμα (ή τιμή) εξόδου. Tο αρχικό σύνολο εκπαίδευσης με ζεύγη της μορφής (δεδομένο, κατηγορία) μετασχηματίζεται ώστε να περιέχει ζεύγη της μορφής (δεδομένο, διάνυσμα στόχος). Κωδικοποίηση 1-από-p (1-out of-p) για πρόβλημα p κατηγοριών C 1,,C p Κάθε διάνυσμα-στόχος έχει p συνιστώσες (t 1,,t p ) και η κατηγορία C k κωδικοποιείται θέτοντας t k =1 και t i =0 για i k.

MLP για προβλήματα ταξινόμησης (κωδικοποίηση κατηγοριών) Παράδειγμα: σε ένα πρόβλημα με τρεις κατηγορίες, τα αντίστοιχα τρία διανύσματα εξόδου είναι τα (1,0,0), (0,1,0), (0,0,1) Απαιτείται ένα MLP με τρεις εξόδους. Η ταξινόμηση ενός προτύπου γίνεται εφαρμόζοντας το πρότυπο ως είσοδο στο δίκτυο και επιλέγοντας την κατηγορία που αντιστοιχεί στην έξοδο με τη μεγαλύτερη τιμή. Όσο πιο κοντά στο 1 είναι αυτή η έξοδος και κοντά στο μηδέν οι υπόλοιπες έξοδοι, τόσο πιο αξιόπιστη είναι η ταξινόμηση.

MLP για προβλήματα ταξινόμησης (κωδικοποίηση κατηγοριών) Ειδικά για την περίπτωση δύο κατηγοριών, μπορεί να χρησιμοποιηθεί και κωδικοποίηση με μία έξοδο: αντιστοιχίζουμε την έξοδο t=1 στην μια κατηγορία (C 1 ) και την έξοδο t=0 στην άλλη κατηγορία (C 2 ). Στην περίπτωση αυτή, η ταξινόμηση ενός δεδομένου εισόδου γίνεται ως εξής: αν η έξοδος είναι μεγαλύτερη του 0.5 τότε το πρότυπο ταξινομείται στην κατηγορία C 1, αλλιώς στην κατηγορία C 2.