Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων



Σχετικά έγγραφα
Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

HMY 795: Αναγνώριση Προτύπων

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Αναγνώριση Προτύπων Ι

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μάθηση με παραδείγματα Δέντρα Απόφασης

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

4.3. Γραµµικοί ταξινοµητές

Συμπίεση Δεδομένων

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Αναγνώριση Προτύπων Ι

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Υπερπροσαρμογή (Overfitting) (1)

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

ΕΛΛΗΝΙΚΗ ΕΤΑΙΡΕΙΑ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΕΠΙΣΤΗΜΗΣ ERSA

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

ΕΡΩΤΗΜΑΤΑ σε ΝΕΥΡΩΝΙΚΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Το μοντέλο Perceptron

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

Pr(10 X 15) = Pr(15 X 20) = 1/2, (10.2)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

E [ -x ^2 z] = E[x z]

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Αριθμητική Ανάλυση και Εφαρμογές

Πληροφοριακά Συστήματα Διοίκησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Νευρωνικά ίκτυα και Εξελικτικός. Σηµερινό Μάθηµα. επανάληψη Γενετικών Αλγορίθµων 1 η εργασία Επανάληψη νευρωνικών δικτύων Ασκήσεις εφαρµογές

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Σκοπός μας είναι να εκπαιδεύσουμε το ΝΝ ώστε να πάρει από τα δεδομένα μόνο την «σοφία» που υπάρχει μέσα τους. Αυτή είναι η έννοια της γενίκευσης.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ασκήσεις μελέτης της 19 ης διάλεξης

Αριθμητική Ανάλυση & Εφαρμογές

x 2,, x Ν τον οποίον το αποτέλεσμα επηρεάζεται από

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

Γραµµικοί Ταξινοµητές

Θεωρία Υπολογισμού και Πολυπλοκότητα Κανονικές Γλώσσες (2)

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

MATLAB. Εισαγωγή στο SIMULINK. Μονάδα Αυτόματης Ρύθμισης και Πληροφορικής

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΔΙΑΓΩΝΙΣΜΑ: ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ:- Γ ΛΥΚΕΙΟΥ ΤΜΗΜΑΤΑ: ΓΟ4 ΓΟ7 (ΖΩΓΡΑΦΟΥ) ΓΟ5 ΓΟ6 (ΧΟΛΑΡΓΟΣ) HM/NIA: 15/1/2017

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

E[ (x- ) ]= trace[(x-x)(x- ) ]

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Εργαστήριο Τεχνολογίας Πολυμέσων & Γραφικών, Τ.Ε.Π Π.Μ, Μάθημα: Γραφικά με Η/Υ

ΕΠΙΛΥΣΗ ΕΚΦΥΛΙΣΜΕΝΩΝ ΚΑΙ ΓΕΝΙΚΩΝ ΓΡΑΜΜΙΚΩΝ ΠΡΟΒΛΗΜΑΤΩΝ. 4.1 Επίλυση Εκφυλισμένων Γραμμικών Προβλημάτων

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Δομές Δεδομένων και Αλγόριθμοι

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Θεώρημα κωδικοποίησης πηγής

Κατανεμημένα Συστήματα Ι

Αναγνώριση Προτύπων Ι

Δ10. Συμπίεση Δεδομένων

Εισαγωγή στη Διαδικασία Ιεραρχικής Ανάλυσης. Ρόκου Έλενα Μεταδιδακτορική Ερευνήτρια ΕΜΠ Κηρυττόπουλος Κωνσταντίνος Επ.

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Transcript:

Μάθηση και Γενίκευση

Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες στο επίπεδο εισόδου και p νευρώνες στο επίπεδο εξόδου. O χρήστης καθορίζει: κρυμμένα επίπεδα, αριθμός κρυμμένων νευρώνων ανά επίπεδο, είδος συναρτήσεων ενεργοποίησης. επίπεδο είσοδου 1 ο κρυμμένο επίπεδο 2 ο κρυμμένο επίπεδο επίπεδο εξόδου

Ικανότητα Γενίκευσης Απώτερο στόχος της εκπαίδευσης είναι η η κατασκευή συστημάτων που να παρέχουν σωστές αποφάσεις για παραδείγματα που δεν έχουν χρησιμοποιηθεί κατά την εκπαίδευση: ικανότητα γενίκευσης (generalization). Επιλογή αρχιτεκτονικής στο MLP: με μεγάλο αριθμό κρυμμένων νευρώνων, ένα MLP μπορεί να εκπαιδευτεί ώστε να απεικονίζει με μεγάλη ακρίβεια όλα τα παραδείγματα του συνόλου εκπαίδευσης. Μεγάλο MLP συνήθως μικρή ικανότητα γενίκευσης: `απομνημονεύει' τα δεδομένα εκπαίδευσης και δεν παρουσιάζει καλές επιδόσεις σε νέα δεδομένα διότι, λόγω της μεγάλης ευελιξίας του, δημιουργεί απεικονίσεις οι οποίες είναι συνήθως περισσότερο πολύπλοκες απ ότι χρειάζεται.

Ικανότητα Γενίκευσης (Παράδειγμα) Μονοδιάστατο πρόβλημα απεικόνισης: τα δεδομένα εκπαίδευσης αναπαρίστανται με τις μαύρες κουκίδες. Η συνάρτηση που αναπαρίσταται με συνεχή γραμμή, παρότι έχει μηδενικό σφάλμα εκπαίδευσης, είναι περισσότερο πολύπλοκη απότι χρειάζεται (υπερεκπαίδευση). Η συνάρτηση που αναπαρίσταται με διακεκομμένη γραμμή είναι πιο ομαλή και προτιμότερη ως λύση. t x

Ικανότητα Γενίκευσης (Παράδειγμα) Η πραγματική λύση από την οποία προέκυψαν τα δεδομένα εκπαίδευσης θα μπορούσε να είναι και η πολύπλοκη συνάρτηση. Αν ίσχυε κάτι τέτοιο τα παραδείγματα εκπαίδευσης που έχουμε στη διάθεσή μας δεν είναι αντιπροσωπευτικά. Για το συγκεκριμένο παράδειγμα, αφού και οι δύο συναρτήσεις ταιριάζουν επαρκώς στα δεδομένα, η προτιμότερη λύση είναι η ομαλότερη συνάρτηση (διακεκομμένη γραμμή). t x

Occam s razor Ενα δίκτυο MLP με πολύ λίγους κρυμμένους νευρώνες πιθανόν να μην έχει την απαιτούμενη ευελιξία ώστε να μπορεί να ορίσει πολύπλοκες περιοχές απόφασης ή να προσεγγίσει συναρτήσεις με πολύπλοκη γραφική παράσταση (υποεκπαίδευση). Γενικά υπάρχει μια βέλτιστη αρχιτεκτονική ενός MLP, για την παρουσιάζει τις καλύτερες επιδόσεις γενίκευσης. Η βέλτιστη αυτή αρχιτεκτονική έχει το χαρακτηριστικό ότι είναι τόσο πολύπλοκη (π.χ. σε αριθμό βαρών) όσο πολύπλοκο είναι και το πρόβλημα μάθησης. Βασική εμπειρική αρχή μηχανικής μάθησης (occam s razor) Προτιμούμε το απλούστερο μοντέλο που μπορεί να μάθει επαρκώς τα παραδείγματα εκπαίδευσης.

Εκτίμηση της Γενικευτικής Ικανότητας Δεν έχει αντιμετωπιστεί επαρκώς με τη χρήση μαθηματικών μεθόδων. Καταφεύγουμε σε εμπειρικές προσεγγίσεις: χρήση συνόλου παραδειγμάτων ελέγχου (test set). Σύνολο ελέγχου: υποσύνολο των παραδειγμάτων που έχουμε στη διάθεσή μας, τα οποία δεν τα χρησιμοποιούμε κατά την εκπαίδευση του ΤΝΔ, η οποία γίνεται χρησιμοποιώντας τα υπόλοιπα παραδείγματα. Μετά την εκπαίδευση, εφαρμόζουμε τα παραδείγματα του συνόλου ελέγχου ως εισόδους στο ΤΝΔ και υπολογίζουμε τα αντίστοιχα σφάλματα στις εξόδους του. Σφάλμα γενίκευσης: Η μέση τιμή (ή το ποσοστό) των σφαλμάτων ενός ΤΝΔ για τα παραδείγματα του συνόλου ελέγχου.

Εκτίμηση της Γενικευτικής Ικανότητας Μικρό σφάλμα γενίκευσης συνεπάγεται υψηλή ικανότητα γενίκευσης και αντίστροφα. Για την αξιολόγηση της ικανότητας γενίκευσης απαιτείται ο χωρισμός του συνόλου των διαθέσιμων παραδειγμάτων σε δύο (ξένα μεταξύ τους) υποσύνολα: το σύνολο εκπαίδευσης (training set) που το χρησιμοποιούμε για τον καθορισμό των βαρών του ΤΝΔ το σύνολο ελέγχου (test set) που χρησιμοποιείται για τον υπολογισμό του σφάλματος γενίκευσης του δικτύου που προκύπτει από την εκπαίδευση. Πώς θα γίνει ο χωρισμός; Ποια παραδείγματα θα χρησιμοποιηθούν για εκπαίδευση και ποια για έλεγχο;

Hold-out Εάν τα παραδείγματα είναι πολλά δεν έχουμε ιδιαίτερο πρόβλημα (π.χ. τα χωρίζουμε τυχαία σε ποσοστό 70-30%) (μέθοδος hold-out). Εάν τα παραδείγματα δεν είναι πολλά χρειάζονται πιο πολύπλοκες προσεγγίσεις. Πολλαπλό hold-out: Μπορούμε να επαναλάβουμε αρκετές φορές τη διαδικασία hold-out: τυχαία διάσπαση σε σύνολα εκπαίδευσης και ελέγχου, εκπαίδευση του ΤΝΔ και υπολογισμός του σφάλματος γενίκευσης. H τελική εκτίμηση για το σφάλμα γενίκευσης προκύπτει ως ο μέσος όρος των επιμέρους σφαλμάτων που υπολογίσαμε.

Cross-Validation Διασταυρωμένη επικύρωση K-τμημάτων (K-fold cross-validation (K-CV): διαίρεση του συνόλου παραδειγμάτων D σε Κ ξένα μεταξύ τους υποσύνολα (folds) D 1,, D Κ (συνήθως Κ=10). Για κάθε υποσύνολο D i (i=1,, K), εκπαιδεύουμε ένα ΤΝΔ θεωρώντας ως σύνολο εκπαίδευσης τα παραδείγματα των υπολοίπων Κ-1 υποσυνόλων (D-D i ) και υπολογίζουμε το σφάλμα γενίκευσης ge i χρησιμοποιώντας ως σύνολο ελέγχου τα παραδείγματα του υποσυνόλου D i. Eκτιμούμε το σφάλμα γενίκευσης (ge) ως το μέσο όρο των επιμέρους σφαλμάτων ge i Eίναι πιο συστηματική, χρησιμοποιείται πολύ συχνά.

Leave-one-out Ένα παράδειγμα ελέγχου κάθε φορά (Leave-one-out) (LOT) Eιδική περίπτωση της διασταυρωμένης επικύρωσης K τμημάτων όταν θέσουμε K=N, όπου Ν ο αριθμός όλων των παραδειγμάτων του συνόλου D που έχουμε στη διάθεσή μας. Για κάθε (x i,t i ) του συνόλου D κατασκευάζουμε ένα ΤΝΔ θεωρώντας ως σύνολο εκπαίδευσης ολόκληρο το D εκτός από το συγκεκριμένο παράδειγμα. Στη συνέχεια εκτιμούμε το σφάλμα γενίκευσης ge i υπολογίζοντας το σφάλμα του ΤΝΔ για το συγκεκριμένο παράδειγμα που αγνοήσαμε κατά την εκπαίδευση. Επαναλαμβάνοντας τη διαδικασία για όλα τα (x i,t i ), (i=1,,ν) εκτιμούμε το σφάλμα γενίκευσης ως το μέσο όρο των ge i. Πιο αξιόπιστη (δεν έχει τυχαιότητα), αλλά αυξημένη πολυπλοκότητα.

Εκτίμηση της Γενικευτικής Ικανότητας Δύο ερωτήματα: αν εκπαιδεύσουμε πολλά ΤΝΔ (π.χ. 10-fold CV) για να εκτιμήσουμε την ικανότητα γενίκευσης και να επιλέξουμε τη βέλτιστη αρχιτεκτονική δικτύου: α) πώς θα κατασκευάσουμε το τελικό ΤΝΔ που θα αποτελεί τη λύση στο πρόβλημά μας; β) ποια θα είναι η ικανότητα γενίκευσης της τελικής αυτής λύσης; Απαντήσεις: α) κατασκευάζουμε το τελικό ΤΝΔ χρησιμοποιώντας την βέλτιστη αρχιτεκτονική που έχουμε βρεί και όλα τα διαθέσιμα παραδείγματα εκπαίδευσης. β) Η ικανότητα γενίκευσης του τελικού ΤΝΔ έχει ήδη υπολογιστεί από την μέθοδο εκτίμησης της ικανότητας γενίκευσης για τη βέλτιστη αρχιτεκτονική.

Εκτίμηση της Γενικευτικής Ικανότητας Άσκηση: Έστω ότι χρησιμοποιώντας τη μέθοδο 10-CV εξετάσαμε δύο αρχιτεκτονικές MLP για ένα πρόβλημα ταξινόμησης. H πρώτη έχει σφάλμα γενίκευσης 5% και η δεύτερη 8%. α) Ποια από τις δύο αρχιτεκτονικές θα χρησιμοποιήσουμε για να κατασκευάσουμε την τελική λύση; β) Ποια θα είναι η ικανότητα γενίκευσης της τελικής λύσης;

Υπερεκπαίδευση (overtraining) Στην περίπτωση που η αρχιτεκτονική του MLP είναι μεγαλύτερη (πιο ευέλικτο δίκτυο) από την απαιτούμενη, τότε η διαδικασία ελαχιστοποίησης του τετραγωνικού σφάλματος είναι πολύ πιθανό να οδηγήσει στην εμφάνιση του φαινομένου της υπερεκπαίδευσης: Υπερεκπαίδευση (overtraining) ονομάζουμε το φαινόμενο κατά το οποίο ένα ΤΝΔ έχει απομνημονεύσει τα παραδείγματα εκπαίδευσης, (δηλαδή παρέχει ακριβείς τιμές εξόδου για τα παραδείγματα εκπαίδευσης), αλλά παρουσιάζει μειωμένη ικανότητα γενίκευσης. Eχουν προταθεί κάποιες απλές τεχνικές για την αποφυγή (σε κάποιο βαθμό) του φαινομένου της υπερεκπαίδευσης κατά την εκπαίδευση ενός MLP.

H μέθοδος της φθοράς των βαρών Ενας τρόπος για να περιορίσουμε την ευελιξία ενός MLP είναι περιορίζοντας την αρχιτεκτονική του, δηλαδή ουσιαστικά των αριθμό των βαρών του δικτύου. Ένας εναλλακτικός τρόπος περιορισμού της ευελιξίας ενός ΜLP είναι περιορίζοντας τις τιμές που μπορούν να πάρουν τα βάρη κατά τη διάρκεια της εκπαίδευσης. Η ιδέα αυτή ονομάζεται κανονικοποίηση (regularization). Ο πιο απλός τρόπος για να επιτύχουμε κανονικοποίηση βασίζεται στην προσθήκη ενός όρου τιμωρίας (penalty term) στη συνάρτηση τετραγωνικού σφάλματος που ελαχιστοποιούμε κατά την εκπαίδευση του δικτύου.

H μέθοδος της φθοράς των βαρών Πιο συγκεκριμένα, ένας όρος κανονικοποίησης που χρησιμοποιείται συχνότερα είναι το άθροισμα των τετραγώνων των τιμών των βαρών (όπου L ο αριθμός των βαρών) R(w)= Η συνάρτηση που ελαχιστοποιείται κατά την εκπαίδευση γίνεται: E(w) είναι η συνάρτηση τετραγωνικού σφάλματος εκπαίδευσης. Η παράμετρος r καθορίζει το σχετικό βάρος των δύο στόχων της εκπαίδευσης: αφενός ελαχιστοποίηση του E(w), αφετέρου διατήρηση μικρών απόλυτων τιμών των βαρών του δικτύου. L i=1 w E (w)=e(w)+rr(w)=e(w)+r R 2 i L i=1 w 2 i

H μέθοδος της φθοράς των βαρών Η προσθήκη του όρου κανονικοποίησης στην ουσία παρεμποδίζει τα βάρη να λάβουν υψηλές (κατ απόλυτη τιμή) τιμές κατά την εκπαίδευση. Μερικές φορές οδηγεί κάποιες τιμές των βαρών να γίνουν σχεδόν μηδέν, δηλαδή στην ουσία είναι σαν οι αντίστοιχες συνδέσεις να αφαιρούνται από το δίκτυο. Μπορούμε δηλαδή να θεωρήσουμε ότι οι τιμές των βαρών φθείρονται κατά τη διάρκεια της εκπαίδευσης, για το λόγο αυτό η μέθοδος ονομάζεται εκπαίδευση με φθορά βαρών (weight decay). E Ενημέρωση των βαρών: R w (t+1)=w (t)-η i i w i w (t+1)=w (t)-η E 2rw (t) i i i wi

H μέθοδος της φθοράς των βαρών Εάν η παράμετρος r έχει καθοριστεί σωστά και το μέγεθος του δικτύου είναι μεγαλύτερο απ ότι απαιτείται, στο τέλος της εκπαίδευσης προκύπτουν συνήθως δίκτυα με καλύτερες δυνατότητες γενίκευσης. Εάν η παράμετρος r είναι μεγάλη τότε παρεμποδίζεται η προσαρμογή του δικτύου στα παραδείγματα εκπαίδευσης. Εάν η παράμετρος r τείνει στο μηδέν τότε είναι σαν να εκπαιδεύουμε το δίκτυο χωρίς κανονικοποίηση. Η σωστή ρύθμιση της παραμέτρου r αποτελεί το βασικό πρόβλημα αυτής της μεθόδου.

H μέθοδος της φθοράς των βαρών MLP με 1 κρυμμένο επίπεδο με 20 νευρώνες

Πρόωρο Σταμάτημα (early stopping) Eκπαιδεύουμε το MLP (ενημερώνουμε τα βάρη του) μέσω της ελαχιστοποίησης του σφάλματος εκπαίδευσης. Σε τακτά χρονικά διαστήματα (π.χ. κάθε 10 εποχές) παγώνουμε τη διαδικασία εκπαίδευσης και με τις τρέχουσες τιμές των βαρών υπολογίζουμε μια εκτίμηση του σφάλματος γενίκευσης σε ένα ανεξάρτητο σύνολο παραδειγμάτων (διαφορετικό από το σύνολο εκπαίδευσης και το σύνολο ελέγχου). Το τρίτο αυτό σύνολο παραδειγμάτων που χρησιμοποιούμε ονομάζεται σύνολο επικύρωσης (validation set) και το αντίστοιχο σφάλμα ονομάζεται σφάλμα επικύρωσης. Κατόπιν συνεχίζουμε τη διαδικασία εκπαίδευσης και της ενημέρωσης των βαρών μέχρι το επόμενο χρονικό σημείο υπολογισμού του σφάλματος επικύρωσης.

Πρόωρο Σταμάτημα (early stopping) Στις αρχικές επαναλήψεις της εκπαίδευσης και όσο προχωρεί η εκπαίδευση, μειώνεται το σφάλμα εκπαίδευσης και συγχρόνως μειώνεται και το σφάλμα επικύρωσης. Υπάρχει συνήθως ένα χρονικό σημείο (ειδικά στις περιπτώσεις μεγάλων δικτύων) πέρα από το οποίο περαιτέρω μείωση του σφάλματος εκπαίδευσης οδηγεί σε αύξηση του σφάλματος επικύρωσης, διότι αρχίζει να εμφανίζεται το φαινόμενο της υπερεκπαίδευσης. Στο σημείο αυτό μπορούμε να σταματήσουμε την εκπαίδευση του δικτύου (πρόωρο σταμάτημα).

Πρόωρο Σταμάτημα (early stopping) Σφάλμα εκπαίδευσης Σφάλμα επικύρωσης Πρόωρο σταμάτημα επικύρωσης Ολικό ελάχιστο σφάλματος επικύρωσης εποχές

Πρόωρο Σταμάτημα (early stopping) Εναλλακτικά, μπορούμε, αντί να σταματήσουμε πρόωρα, να εκτελέσουμε τον αλγόριθμο εκπαίδευσης μέχρι να τερματίσουμε σε τοπικό ελάχιστο, φροντίζοντας όμως να αποθηκεύουμε κάθε φορά το διάνυσμα βαρών w val που παρέχει το μικρότερο σφάλμα επικύρωσης που έχουμε υπολογίσει μέχρι στιγμής κατά τη διάρκεια της εκπαίδευσης. H τιμή των βαρών w val στο τέλος της εκπαίδευσης αποτελεί και τo τελικό διάνυσμα βαρών για το MLP, διότι παρέχει την ελάχιστη τιμή του σφάλματος επικύρωσης.

Πρόωρο Σταμάτημα (early stopping) Συνοψίζοντας, στη μέθοδο του πρόωρου σταματήματος: α) Το MLP πρέπει να είναι σχετικά μεγάλο. β) ενημερώνουμε τα βάρη χρησιμοποιώντας τα παραδείγματα του συνόλου εκπαίδευσης γ) επιλέγουμε ως τελική λύση για τα βάρη αυτή με την μικρότερη τιμή του σφάλματος που υπολογίζουμε χρησιμοποιώντας τα παραδείγματα του συνόλου επικύρωσης. Tίμημα: θα πρέπει να αφαιρέσουμε ένα ποσοστό των παραδειγμάτων από το σύνολο εκπαίδευσης και να τα βάλουμε στο σύνολο επικύρωσης. Πρόβλημα εάν τα παραδείγματα είναι λίγα. Εξάρτηση από τον διαμερισμό. Δεν επιτρέπεται τα σύνολα εκπαίδευσης, επικύρωσης και ελέγχου να έχουν κοινά παραδείγματα.

Επιλογή MLP με ελαχιστοποίηση σφάλματος επικύρωσης Εστω ότι θεωρούμε MLPs με ένα κρυμμένο επίπεδο. Εστω ότι το σφάλμα γενίκευσης εκτιμάται από το σφάλμα επικύρωσης. 1. Καθορισμός αρχικού αριθμού κρυμμένων νευρώνων Μ (π.χ. Μ=2), μέγιστου αριθμού κρυμμένων νευρώνων Μ max και παραμέτρων εκπαίδευσης (π.χ. ρυθμός μάθησης). 2. Διαίρεση του συνόλου παραδειγμάτων στα τρία σύνολα εκπαίδευσης, επικύρωσης και ελέγχου. 3. Εκπαίδευση του δικτύου MLP με Μ κρυμμένους νευρώνες με ελαχιστοποίηση του σφάλματος επικύρωσης και εύρεση της λύσης MLP(M) της οποία το σφάλμα επικύρωσης είναι ge(m). 4. Αύξηση του αριθμού των κρυμμένων νευρώνων, π.χ. M:=M+1 και επιστροφή στο βήμα 3 εάν Μ Μ max.

Επιλογή MLP με ελαχιστοποίηση σφάλματος επικύρωσης 5. Επιλογή ως τελικής λύσης εκείνου του δικτύου MLP(M * ) με το μικρότερο σφάλμα επικύρωσης: ge(m * ) ge(m) 6. Υπολογισμός του σφάλματος γενίκευσης του τελικού δικτύου χρησιμοποιώντας τα παραδείγματα του συνόλου ελέγχου. Εξάρτηση από το συγκεκριμένο διαχωρισμό των παραδειγμάτων στα τρία επιμέρους σύνολα. Συνήθως δεν χρειάζεται να φτάσουμε μέχρι την τιμή M max. Ενώ αρχικά το εκτιμώμενο σφάλμα γενίκευσης μειώνεται αυξάνοντας το Μ, υπάρχει κάποια τιμή του M πέρα από την οποία το σφάλμα γενίκευσης αρχίζει να αυξάνεται. Μπορούμε τότε να σταματήσουμε να αυξάνουμε το Μ υποθέτοντας ότι εντοπίσαμε την κατάλληλη αρχιτεκτονική.

Επιλογή MLP με cross-validation (Κ-CV) 1. Καθορισμός αρχικού Μ (π.χ. Μ=2), Μ max, αριθμού folds K (π.χ. Κ=10) και παραμέτρων εκπαίδευσης (π.χ. ρυθμός μάθησης). 2. Διαμερισμός του συνόλου παραδειγμάτων D σε υποσύνολα D 1,, D Κ για την εφαρμογή της τεχνικής Κ-CV. 3. Υπολογισμός με (Κ-CV) του σφάλματος γενίκευσης ge(m) για Μ κρυμμένους νευρώνες. 4. Αύξηση του αριθμού των κρυμμένων νευρώνων, π.χ. M:=M+1 και επιστροφή στο βήμα 3 εάν Μ Μ max. 5. Επιλογή ως βέλτιστης αρχιτεκτονικής εκείνης με το μικρότερο σφάλμα γενίκευσης: ge(m * ) ge(m) 6. Εκπαίδευση του MLP με Μ * κρυμμένους νευρώνες σε όλο το σύνολο παραδειγμάτων και εύρεση της τελικής λύσης.

Παράδειγμα Εκπαίδευσης Σύνολο εκπαίδευσης (μέγιστη γενίκευση: 89%)

Παράδειγμα Εκπαίδευσης Βέλτιστο Μ=5, gen=100-12=88% Σφάλμα Μ Γενίκευσης (10-CV) 2 28% 3 18% 4 13% 5 12% 6 15% 7 15%

Παράδειγμα Εκπαίδευσης

Παράδειγμα Εκπαίδευσης

Παράδειγμα Εκπαίδευσης

Παράδειγμα Εκπαίδευσης