Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σχετικά έγγραφα
Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Το μοντέλο Perceptron

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μη γραµµικοί ταξινοµητές Νευρωνικά ίκτυα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Γραµµικοί Ταξινοµητές

Αναγνώριση Προτύπων Ι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Ασκήσεις μελέτης της 19 ης διάλεξης

4.3. Γραµµικοί ταξινοµητές

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

Αναγνώριση Προτύπων Ι

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 11

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 3ο Φροντιστήριο

HMY 795: Αναγνώριση Προτύπων

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

HMY 795: Αναγνώριση Προτύπων

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Θεωρία Λήψης Αποφάσεων

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

HMY 795: Αναγνώριση Προτύπων

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

E[ (x- ) ]= trace[(x-x)(x- ) ]

Ψηφιακός Έλεγχος. 6 η διάλεξη Σχεδίαση στο χώρο κατάστασης. Ψηφιακός Έλεγχος 1

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

Βιομηχανικοί Ελεγκτές

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

HMY 795: Αναγνώριση Προτύπων

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

6. Στατιστικές μέθοδοι εκπαίδευσης

HMY 795: Αναγνώριση Προτύπων

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Κεφάλαιο 5: Γραμμικές Διακρίνουσες Συναρτήσεις 5.1 Εισαγωγή

Υπολογιστική Νοημοσύνη. Μάθημα 12: Παραδείγματα Ασκήσεων 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

HMY 795: Αναγνώριση Προτύπων

Project 1: Principle Component Analysis

Αναγνώριση Προτύπων Ι

HMY 795: Αναγνώριση Προτύπων

ΕΡΩΤΗΜΑΤΑ σε ΝΕΥΡΩΝΙΚΑ

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ

A Τελική Εξέταση του μαθήματος «Αριθμητική Ανάλυση» Σχολή Θετικών Επιστημών, Τμήμα Μαθηματικών, Πανεπιστήμιο Αιγαίου

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Επαναληπτικές μέθοδοι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Εισόδημα Κατανάλωση

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

Transcript:

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Η παραπάνω ανάλυση ήταν χρήσιμη προκειμένου να κατανοήσουμε τη λογική των δικτύων perceptrons πολλών επιπέδων καθώς επίσης και τις δυνατότητές τους. Ωστόσο, στην πράξη το μόνο που έχουμε στη διάθεσή μας είναι ένα σύνολο δεδομένων X και το πρόβλημά μας είναι το ακόλουθο: Ορισμός προβλήματος:. Υιοθέτησε/καθόρισε δίκτυο perceptron πολλαπλών επιπέδων συγκεκριμένης δομής. Εκτίμησε το διάνυσμα παραμέτρων του το οποίο περιέχει όλες τις παραμέτρους των νευρώνων του δικτύου, ώστε να επιτευχθεί ο βέλτιστος δυνατός διαχωρισμός των κλάσεων, με βάση το X. Δύο κύριες κατευθύνσεις: Ανέπτυξε μια δομή η οποία ταξινομεί σωστά όλα τα διανύσματα εκπαίδευσης. Υιοθέτησε μια σταθερή δομή και υπολόγισε τις τιμές των παραμέτρων της μέσω της βελτιστοποίησης μιας κατάλληλα επιλεγμένης συνάρτησης κόστους.

Θεωρείστε το ακόλουθο δίκτυο δύο επιπέδων με - νευρώνες εισόδου διάσταση χώρου εισόδου - νευρώνες πρώτου επιπέδου - νευρώνας εξόδου δευτέρου επιπέδου. Το δίκτυο αυτό περιγράφεται από τη συνάρτηση όπου =[,, 0 ] T, =[,, 0 ] T, 3 =[ 3, 3, 30 ] T, x=[x, x, ] T και f. η συνάρτηση μοναδιαίου βήματος. Το διάνυσμα παραμέτρων του δικτύου είναι =[ T, T, 3T ] = [,, 0,,, 0, 3, 3, 30 ] T ˆ 30 3 30 0 3 30 0 3 0 3 x f f x f f x x f x x f f y j T j j j ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος οπισθοδρομικής διάδοσης Backpropagaton BP Algorthm Είναι μια αλγοριθμική διαδικασία στη λογική της οξύτερης καθόδου gradent descent που υπολογίζει αναδρομικά τα συναπτικά βάρη παράμετροι του δικτύου, έτσι ώστε να επιτυγχάνεται η ελαχιστοποίηση της επιλεγμένης συνάρτησης κόστους. Σε ένα μεγάλο αριθμό διαδικασιών βελτιστοποίησης, απαιτείται ο υπολογισμός παραγώγων. Έτσι, ασυνεχείς συναρτήσεις ενεργοποίησης δημιουργούν προβλήματα δηλ., x 0 f x 0 x 0 Παρόλα αυτά, υπάρχουν δίοδοι διαφυγής!!! Η logstc συνάρτηση και η συνάρτηση υπερβολικής εφαπτομένης αποτελούν τέτοια παραδείγματα. f x exp ax f x exp ax exp ax

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος οπισθοδρομικής διάδοσης BP Η συνάρτηση logstc

Ο αλγόριθμος οπισθοδρομικής διάδοσης BP Τα βήματα: ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Υιοθέτησε μία κατάλληλη συνάρτηση κόστους J, π.χ., Σφάλμα ελαχίστων τετραγώνων Least Squares Error, Σχετική εντροπία Relatve Entropy που ορίζεται λαμβάνοντας υπ όψιν τις επιθυμητές αποκρίσεις και τις πραγματικές αποκρίσεις του δικτύου για τα διαθέσιμα διανύσματα εκπαίδευσης. Αυτό υπονοεί ότι από εδώ και στο εξής αποδεχόμαστε την ύπαρξη λαθών. Προσπαθούμε μόνο να τα ελαχιστοποιήσουμε, χρησιμοποιώντας συγκεκριμένα κριτήρια. Υιοθέτησε έναν αλγόριθμο για τη βελτιστοποίηση της συνάρτησης κόστους ως προς τα συναπτικά βάρη π.χ., Αλγόριθμος οξύτερης καθόδου Gradent descent Αλγόριθμος Neton Αλγόριθμος συζυγών διευθύνσεων Conjugate gradent

Ο αλγόριθμος οπισθοδρομικής διάδοσης BP Για την περίπτωση της οξύτερης καθόδου έχουμε Για τα διανύσματα όλων των νευρώνων του δικτύου. Παράδειγμα: Η συν. κόστους ελαχίστων τετραγώνων για το παραπάνω δίκτυο είναι t t t J t t N n nj j j n N n n T n N n n n x f f d x f f d y d J 30 0 3 30 3 ˆ 30 3 ˆ x f f d y d J n j T n n n Batch mode Pattern onlne mode ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος οπισθοδρομικής διάδοσης BP Η διαδικασία:. Αρχικοποίησε τα άγνωστα βάρη σε τυχαίες μικρές τιμές.. Υπολόγισε τους όρους βαθμίδας gradent terms προς τα πίσω, ξεκινώντας με τα βάρη των νευρώνων του τελευταίου επιπέδου και κινούμενος προς αυτά των νευρώνων του πρώτου 3. Ενημέρωσε τα βάρη 4. Επανέλαβε τα βήματα και 3 μέχρις ότου ικανοποιηθεί ένα κριτήριο τερματισμού. Δύο κύριες φιλοσοφίες: Επεξεργασία κατά συρροή Batch mode: Οι όροι βαθμίδας του τελευταίου επιπέδου υπολογίζονται αφού πρώτα υποστούν επεξεργασία ΌΛΑ τα διανύσματα εκπαίδευσης δηλ.,, θεωρώντας το άθροισμα των λαθών για όλα τα διανύσματα. Επεξεργασία κατά μόνας Pattern mode: Οι όροι βαθμίδα υπολογίζονται για κάθε νέο διάνυσμα εκπαίδευσης. Έτσι, οι όροι αυτοί βασίζονται σε διαδοχικά μεμονωμένα λάθη.

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος οπισθοδρομικής διάδοσης BP Ένα σημαντικό πρόβλημα: Ο αλγόριθμος μπορεί να συγκλίνει σε ένα τοπικό ελάχιστο.

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος οπισθοδρομικής διάδοσης BP Επιλογή συνάρτησης κόστους Παραδείγματα: Η συνάρτηση ελαχίστων τετραγώνων Least Squares y m ˆ y m για το διάστημα J N E E e,,..., N Επιθυμητή απόκριση του m-στου νευρώνα εξόδου or 0 Πραγματική απόκριση του m-στου νευρώνα εξόδου, στο [0, ], για είσοδο k k m m m x y m yˆ m x

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος οπισθοδρομικής διάδοσης BP Επιλογή συνάρτησης κόστους Η συνάρτηση cross-entropy J N E E k ym ln yˆ m ym ln yˆ m m Αυτή προϋποθέτει την ερμηνεία των y and ŷ ως πιθανότητες. Σφάλμα ταξινόμησης Classfcaton error rate. Οι περισσότερες από τις σχετικές τεχνικές χρησιμοποιούν μία εξομαλυσμένη έκδοση του σφάλματος ταξινόμησης και όλες μαζί αποτελούν την κατηγορία αλγορίθμων διακριτικής μάθησης dscrmnatve learnng.

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος οπισθοδρομικής διάδοσης BP Επιλογή συνάρτησης κόστους Σχόλιο : Ένα κοινό χαρακτηριστικό των παραπάνω συναρτήσεων είναι ο κίνδυνος σύγκλισης σε κάποιο τοπικό ελάχιστο. Οι καλώς ορισμένες Well formed συναρτήσεις κόστους εγγυώνται σύγκλιση σε μία καλή λύση, δηλαδή σε μία λύση που να ταξινομεί σωστά ΟΛΑ τα δεδομένα εκπαίδευσης, υπό την προϋπόθεση ότι υπάρχει μία τέτοια λύση. Η cross-entropy συνάρτηση κόστους είναι καλώς ορισμένη. Η συνάρτηση ελαχίστων τετραγώνων δεν είναι. Σχόλιο : Αμφότερες οι συναρτήσεις κόστους ελαχίστων τετραγώνων και cross entropy οδηγούν σε τιμές εξόδου yˆ m που προσεγγίζουν κατά βέλτιστο τρόπο τις εκ των υστέρων πιθανότητες για κάθε κλάση Optmally class a- posteror probabltes!!! yˆ m P x Δηλ., την πιθανότητα της κλάσης δοθέντος του. m Πρόκειται για ένα πολύ ενδιαφέρον αποτέλεσμα. Δεν εξαρτάται από τις κατανομές των κλάσεων. Είναι ένα χαρακτηριστικό ορισμένων συναρτήσεων κόστους. Η ποιότητα της προσέγγισης εξαρτάται από το μοντέλο που υιοθετήθηκε. Επιπλέον, ισχύει μόνο στο ολικό ελάχιστο. m x

Αλγόριθμος backpropagaton με όρο ορμής momentum term Προστατεύει τον αλγόριθμο από περιπτώσεις ταλάντωσης γύρω από το ελάχιστο και, κατά συνέπεια, αργής σύγκλισης Εξισώσεις Παραλλαγές του αλγόριθμου οπισθοδρομικής διάδοσης BP ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ t t t r r r r r r r r J t a t t

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Παραλλαγές του αλγόριθμου οπισθοδρομικής διάδοσης BP Προσαρμοστικός adaptve αλγόριθμος backpropagaton Επιταχύνει ή επιβραδύνει ανάλογα με το είδος της περιοχής του landscape της συνάρτησης κόστους που βρίσκεται η τρέχουσα εκτίμηση Εξισώσεις

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Μέγεθος αρχιτεκτονική δικτύου Ένα σημαντικό ζήτημα: Πώς αποφασίζουμε για το μέγεθος και τη δομή του δικτύου; Δύο κύριες κατευθύνσεις: - Σταθερή δομή δικτύου: Υιοθέτησε ένα δίκτυο συγκεκριμένης σταθερής δομής και εφάρμοσε το αλγόριθμο BP. Αν ή απόδοση του δικτύου μετά την εκπαίδευση δεν είναι ικανοποιητική, υιοθέτησε μια άλλη αρχιτεκτονική και επανέλαβε την εκπαίδευση. - Μεταβλητή δομή δικτύου: Στην περίπτωση αυτή η δομή του δικτύου μεταβάλλεται κατά την διάρκεια της εκπαίδευσης του δικτύου. Υπάρχουν δύο βασικές φιλοσοφίες: Φιλοσοφία κλαδέματος prunng: Ξεκίνα με ένα δίκτυο μεγάλου μεγέθους και «κλάδευέ το» σταδιακά αφαιρώντας συναπτικά βάρη και/ή νευρώνες σύμφωνα με κάποια κρίτήρια. Φιλοσοφία κατασκευής Constructve phlosophy: Ξεκίνα με ένα δίκτυο μικρού μεγέθους ανίκανο να λύσει το υπό μελέτη πρόβλημα και σταδιακά πρόσθετε νευρώνες έως ότου το δίκτυο μάθει τη διαδικασία ταξινόμησης.

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Μέγεθος αρχιτεκτονική δικτύου Παράδειγμα φιλοσοφίας κλαδέματος: Μέθοδοι που βασίζονται στην κανονικοποίηση συνάρτησης functon regularzaton N J E ae p Ο δεύτερος όρος ευνοεί μικρές τιμές για τα βάρη, π.χ., 0 E p h k k h k 0 k k όπου Μετά από μερικά βήματα εκπαίδευσης, τα βάρη με μικρές τιμές απομακρύνονται.

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος Backpropagaton θέματα ικανότητας γενίκευσης Generalzaton Γιατί να μην ξεκινήσουμε με ένα δίκτυο μεγάλου μεγέθους και να αφήσουμε τον αλγόριθμο να αποφασίσει ποια βάρη είναι μικρά;; Η προσέγγιση αυτή είναι απλοϊκή. Παραβλέπει το γεγονός ότι οι ταξινομητές πρέπει να έχουν καλή δυνατότητα γενίκευσης generalzaton. Ένα μεγάλο δίκτυο μπορεί να δώσει μικρά σφάλματα για το σύνολο εκπαίδευσης, αφού μπορεί να μάθει τις συγκεκριμένες λεπτομέρειές του. Από την άλλη μεριά, δεν αναμένεται να παρουσιάζει καλή απόδοση για δεδομένα στα οποία δεν εκπαιδεύτηκε. Γενικά, το μέγεθος του δικτύου πρέπει να είναι: Αρκούντως μεγάλο για να μπορεί να μάθει τι κάνει όμοια τα δεδομένα της ίδιας κλάσης και τι κάνει ανόμοια τα δεδομένα διαφορετικών κλάσεων. Αρκούντως μικρό για να μην μπορεί να μάθει τις διαφορές μεταξύ δεδομένων της ίδιας κλάσης. Το τελευταίο οδηγεί στο λεγόμενο υπερ-ταίριασμα overfttng. 7

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος Backpropagaton θέματα ικανότητας γενίκευσης Παράδειγμα:

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ο αλγόριθμος Backpropagaton Υπερεκπαίδευση Overtranng είναι μία άλλη όψη του ίδιου νομίσματος. Εμφανίζεται όταν ένα μεγάλου μεγέθους δίκτυο αρχίζει να προσαρμόζεται στις ιδιαιτερότητες του συνόλου δεδομένων. Αντιμετώπιση: Διακοπή εκπαίδευσης όταν το λάθος ταξινόμησης αρχίζει να αυξάνει για το σύνολο δοκιμής.

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Ένα παράδειγμα: 8 0 6 5 4 0 0 5-0 -4-6 -5-8 -0-5 0 5 0 5 0-0 -0-5 0 5 0 5 0 Όπως αναμενόταν, η επιφάνεια απόφασης δεν ορίζεται μέσω υπερεπιπέδων.

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ Στο πρόβλημα XOR προηγουμένως, ουσιαστικά μετασχηματίσαμε τον αρχικό χώρο όπου η διαδικασία ταξινόμησης ήταν μη γραμμική σε ένα νέο χώρο όπου η ταξινόμηση έγινε γραμμική. Διατύπωση προβλήματος: Έστω ένα μη γραμμικώς διαχωρίσιμο πρόβλημα ταξινόμησης στο χώρο R l. Υπάρχουν k συναρτήσεις f. μέσω των οποίων ο αρχικός χώρος μπορεί να απεικονιστεί σε ένα νέο k-διάστατο χώρο, όπου το πρόβλημα να είναι γραμμικώς διαχωρίσιμο; x f x y... f x k Αν συμβαίνει αυτό, η μη γραμμική επιφάνεια-σύνορο στον αρχικό χώρο x μπορεί να γραφεί ως γραμμική στο μετασχηματισμένο χώρο y. g x k 0 f x 0

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ ΣΗΜ.: Η παραπάνω απεικόνιση xy μπορεί να υλοποιηθεί από ένα δίκτυο δύο επιπέδων, όπου οι νευρώνες του πρώτου επιπέδου υλοποιούν τις συναρτήσεις f. ενώ ο νευρώνας του δευτέρου επιπέδου πραγματοποιεί γραμμικό διαχωρισμό στο μετασχηματισμένο χώρο.

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ Παράδειγμα : Έστω x =,, x =,, x 3 =0,, x 4 =,0, x 5 =3,, x 6 =,3, x 7 =-,, x 8 =,-. Τα πρώτα 4 διανύσματα ανήκουν στην κλάση + ενώ τα υπόλοιπα στην κλάση -. x x Έστω ο μετασχηματισμός x Στο νέο χώρο η διαδικασία x xx ταξινόμησης γίνεται γραμμική

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ Παράδειγμα : Έστω x =,0, x =0,, x 3 =-,0, x 4 =0,-, x 5 =,0, x 6 =0,, x 7 =-,0, x 8 =0,-. Τα πρώτα 4 διανύσματα ανήκουν στην κλάση + ενώ τα υπόλοιπα στην κλάση -. x x Έστω ο μετασχηματισμός x Στο νέο χώρο η διαδικασία x xx ταξινόμησης γίνεται γραμμική

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ Χωρητικότητα του l-διάστατου χώρου σε γραμμικές διχοτομήσεις Έστω N σημεία στον δηλαδή: R l χώρο που υποθέτουμε ότι βρίσκονται σε γενική θέση, Καμία ομάδα τέτοιων σημείων δεν βρίσκεται σε έναν διάστατο χώρο.

Χωρητικότητα του l-διάστατου χώρου σε γραμμικές διχοτομήσεις Θεώρημα Cover: Ο αριθμός των ομαδοποιήσεων που μπορούν να υλοποιηθούν από l--διάστατα υπερεπίπεδα προκειμένου να διαχωριστούν N σημεία σε δύο κλάσεις είναι,, 0 l N l N O!!! N N N ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ Παράδειγμα: Για N=4, l=, είναι O4,=4 Σημείωση:Ο συνολικός αριθμός δυνατών ομαδοποιήσεων είναι 4 =6 3 4 5 6 7 8 9 0 3 4 5 6 Α 0 0 0 0 0 0 0 0 Β 0 0 0 0 0 0 0 0 C 0 0 0 0 0 0 0 0 D 0 0 0 0 0 0 0 0 X X

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ Χωρητικότητα του l-διάστατου χώρου σε γραμμικές διχοτομήσεις Η πιθανότητα ομαδοποίησης N σημείων σε δύο γραμμικώς διαχωρίσιμες κλάσεις είναι O N, l l P N N N r l 8

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ Χωρητικότητα του l-διάστατου χώρου σε γραμμικές διχοτομήσεις Έτσι, η πιθανότητα να έχουμε N σημεία σε γραμμικώς διαχωρίσιμες κλάσεις τείνει στο, για μεγάλο l, υπό την προϋπόθεση ότι N<l + Συνεπώς, απεικονίζοντας σε χώρο υψηλότερης διάστασης, αυξάνουμε την πιθανότητα γραμμικού διαχωρισμού, υπό την προϋπόθεση ότι ο χώρος δεν παρουσιάζει μεγάλη πυκνότητα σε σημεία δεδομένων. 9

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ Συναρτήσεις ακτινωτής βάσης Radal bass functons -RBFs Στην περίπτωση αυτή, οι f. επιλέγονται ως Έχουν σχήμα «καμπάνας», είναι κεντραρισμένες στο c και το πλάτος τους εξαρτάται από το σ. f x exp x c Η παραπάνω απεικόνιση xy μπορεί να υλοποιηθεί από ένα δίκτυο δύο επιπέδων, όπου οι νευρώνες του πρώτου επιπέδου υλοποιούν τις συναρτήσεις f. ενώ ο νευρώνας του δευτέρου επιπέδου πραγματοποιεί γραμμικό διαχωρισμό στο μετασχηματισμένο χώρο.

Συναρτήσεις ακτινωτής βάσης Radal bass functons-rbfs Παράδειγμα: Το πρόβλημα XOR. Έστω Χρησιμοποιώντας συναρτήσεις RBF με τις παραπάνω παραμέτρους επιτυγχάνουμε την απεικόνιση του αρχικού -διάστατου χώρου σε ένα νέο μετασχηματισμένο χώρο ἰδιας διάστασης. Μέσω αυτού του μετασχηματισμού έχουμε, 0 0, c c exp exp c x c x y x 0.368 0.368 0, 0.368 0.368 0, 0.35, 0.35 0 0 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ

Συναρτήσεις ακτινωτής βάσης Radal bass functons-rbfs Παράδειγμα: Το πρόβλημα XOR. 0 exp exp c x c x x g 0 y y y g ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ

ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΓΕΝΙΚΕΥΜΕΝΟΙ ΓΡΑΜ. ΤΑΞΙΝΟΜΗΤΕΣ Συναρτήσεις ακτινωτής βάσης - ζητήματα εκπαίδευσης Οι εμπλεκόμενες παράμετροι είναι τα c, τα σ και τα. -σ : Συνήθως τίθενται εκ των προτέρων σε σταθερές τιμές υπάρχουν όμως και άλλες εναλλακτικές. -c : Μπορεί είτε να τεθούν ίσα με τυχαία επιλεγμένα διανύσματα εκπαίδευσης ή είτε να τεθούν ίσα με τα κέντρα των ομάδων clusters που παράγονται μετά την εφαρμογή ενός αλγόριθμου ομαδοποίησης στα σημεία κάθε κλάσης. - : Υπό την προϋπόθεση ότι τα c και σ έχουν εκτιμηθεί, η εκτίμηση των είναι μία γραμμική διαδικασία μπορεί π.χ. να χρησιμοποιηθεί μια μέθοδος ελαχίστων τετραγώνων.