Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σχετικά έγγραφα
Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΣΥΝΕΛΙΚΤΙΚΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Τηλεπικοινωνιακά Συστήματα ΙΙ

Υπολογιστική Νοημοσύνη. Μάθημα 13: Αναδρομικά Δίκτυα - Recurrent Networks

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Τεχνητά Νευρωνικά Δίκτυα. Τσιριγώτης Γεώργιος Τμήμα Μηχανικών Πληροφορικής ΤΕΙ Ανατολικής Μακεδονίας & Θράκης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αριθμητική Ανάλυση και Εφαρμογές

6-Aνίχνευση. Ακμών - Περιγράμματος

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ε ΘΝΙΚΟ Μ ΕΤΣΟΒΙΟ Π ΟΛΥΤΕΧΝΕΙΟ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Νευρωνικά ίκτυα και Εξελικτικός

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

Πληροφοριακά Συστήματα & Περιβάλλον

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Αναγνώριση Προτύπων Ι

Ανάλυση αλγορίθμων. Χρόνος εκτέλεσης: Αναμενόμενη περίπτωση. - απαιτεί γνώση της κατανομής εισόδου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Ψηφιακή Επεξεργασία Σημάτων

4.3. Γραµµικοί ταξινοµητές

Θεωρία Πληροφορίας. Διάλεξη 10: Κωδικοποίηση καναλιού με συνελικτικούς κώδικες. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αναγνώριση Προτύπων Ι

ΕΡΓΑΣΤΗΡΙΟ ΗΛΕΚΤΡΟΝΙΚΩΝ ΕΦΑΡΜΟΓΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Τσαντεκίδης Αβραάμ. Αρχιτεκτονικές και Εκπαίδευση Βαθιών Νευρωνικών Δικτύων. Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής

Η δυαδική σχέση M ( «παράγει σε ένα βήμα» ) ορίζεται ως εξής: (q, w) M (q, w ), αν και μόνο αν w = σw, για κάποιο σ Σ

ΚΙΝΔΥΝΟΥ ΤΩΝ ΚΑΤΟΛΙΣΘΗΣΕΩΝ ΜΕ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΣΕ ΠΕΡΙΒΑΛΛΟΝ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΕΚΤΙΜΗΣΗ ΔΙΑΤΡΙΒΗ

Τεχνικές Βαθιάς Μηχανικής Μάθησης και Γνώσης για Ανάλυση Συναισθήματος στην Αλληλεπίδραση Ανθρώπου Μηχανής ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Εισαγωγή στους Νευρώνες. Κυριακίδης Ιωάννης 2013

Ανδρέας Παπαζώης. Τμ. Διοίκησης Επιχειρήσεων

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Γενικά. PDF created with pdffactory trial version

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Εισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι

Σέργιου Καραγιαννάκου του Γεωργίου

Στοιχειώδης προγραμματισμός σε C++

Νευρωνικά ίκτυα και Εξελικτικός. Σηµερινό Μάθηµα. επανάληψη Γενετικών Αλγορίθµων 1 η εργασία Επανάληψη νευρωνικών δικτύων Ασκήσεις εφαρµογές

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

Το μοντέλο Perceptron

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Νευρωνικά ίκτυα. Σηµερινό Μάθηµα

Πληροφορική 2. Αλγόριθμοι

(Γραμμικές) Αναδρομικές Σχέσεις

HEAD INPUT. q0 q1 CONTROL UNIT

Δομές Δεδομένων και Αλγόριθμοι

Περιεχόμενα ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Πρόλογος 15

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις

Εισαγωγή στα Συστήματα Ψηφιακής Επεξεργασίας Σήματος

Αριθμητική Ανάλυση & Εφαρμογές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Διακριτικές Συναρτήσεις

E[ (x- ) ]= trace[(x-x)(x- ) ]

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

(Computed Tomography, CT)

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ

Εφαρμογές μεθοδολογιών μηχανικής εκμάθησης στο χώρο της παραγωγής υδρογονανθράκων. Βασίλης Γαγάνης

Κεφάλαιο 8. Αριθμητική Λογική μονάδα

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

Προσομοίωση Νευρωνικού Δικτύου στο MATLAB. Κυριακίδης Ιωάννης 2013

Συσχετιστικές Μνήμες Δίκτυο Hopfield. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Digital Image Processing

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μαθηματικά των Υπολογιστών και των Αποφάσεων Τεχνητή Νοημοσύνη 1η Σειρά Ασκήσεων

Transcript:

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1

Άλλοι τύποι νευρωνικών δικτύων Αυτοοργανούμενοι χάρτες (Self-organizing maps - SOMs) Αναδρομικά νευρωνικά δίκτυα (Recurrent Neural Networks): γενικής δομής, δίκτυα Hopfield, δίκτυα Hamming) Long short-term memory (LSTM) networks Convolutional neural networks (CNNs)

Θεωρητικά αποτελέσματα - Έστω ένα ΝΔ δύο επιπέδων (ένα «κρυμμένο» επίπεδο νευρώνων και το επίπεδο εξόδου με ένα νευρώνα γραμμικής συνάρτησης εξόδου) K ˆ ( ) = T x θ K + 1, i f ( θi x) + θ K + 1,0 i= 1 g K νευρ. 1ου επιπέδου 1 γραμ. νευρ. εξόδου (K+1) Θεώρημα (Cybenko,1989): Παρόμοιο αποτέλεσμα Έστω ισχύει για τα δίκτυα RBF. (a) g(x) μια συνεχής συνάρτηση πάνω σε συμπαγές σύνολο S R l και (b) ε>0. Τότε υπάρχει Κ(ε) και δίκτυο δύο επιπέδων ώστε g( x ) gˆ( x) < ε, x S Δεν εμφανίζεται το l Παρατηρήσεις: Το σφάλμα προσέγγισης μειώνεται με ρυθμό O(1/K). Το θεώρημα δε λέει πόσο μεγάλο πρέπει να είναι το K. Μπορεί να απαιτείται πολύ μεγάλος αριθμός νευρώνων K (ρηχό (shallow) ή παχύ ( fat ) δίκτυο). Μία λύση: Η χρήση δικτύων περισσότερων επιπέδων με λιγότερους κόμβους

Η λογική πίσω από τη χρήση πολλαπλών επιπέδων νευρώνων: Τα διαδοχικά επίπεδα παράγουν όλο και πιο αφηρημένες αναπαραστάσεις του προτύπου εισόδου. 1 ο επ.: Υπερεπιπεδα 2 ο επ.: περιοχές 3 ο επ.: κλάσεις Γιατί η προσέγγιση αυτή είναι λογική? Διότι μιμείται τον τρόπο με τον οποίο είναι δομημένος ο εγκέφαλος των θηλαστικών. Έχει κάθε «βαθιά» αρχιτεκτονική μια ισοδύναμη «ρηχή» αρχιτεκτονική (με <3 επίπεδα)? Ναι, αλλά μια «ρηχή» αρχ. μπορεί να περιλαμβάνει υπερβολικά μεγαλύτερο αριθμό νευρώνων στα (συνολικά λιγότερα) επίπεδά του, σε σχέση με την αντίστοιχη «βαθιά» αρχιτεκτονική Ένα δίκτυο είναι συμπαγές αν περιλαμβάνει σχετικά λίγες παραμέτρους, προς εκπαίδευση. Οι «βαθιές» αρχ. περιλαμβάνουν σημαντικά λιγότερες παραμέτρους από τις ατίστοιχες «ρηχές» Αναμένεται οι «βαθιές» αρχ. να έχουν καλύτερη ικανότητα γενίκευσης. (δεδομένου ότι θα είναι αρκετά μεγάλες ώστε να δύνανται να λύσουν το πρόβλημα)

Σχόλια πάνω στην εκπαίδευση των νευρωνικών δικτύων Η εκπαίδευσή τους μπορεί να γίνει δύσκολη, ειδικά για 2 επίπεδα. Για αρκετό καιρό υπήρχε η πεποίθηση ότι η δυσκολία ήταν συνέπεια της σύγκλισης σε ένα «ρηχό» τοπικό ελάχιστο. Νέα αποτελέσματα δείχνουν ότι το πρόβλημα είναι τα saddle points. Σε χώρους υψηλής διάστασης ο αριθμός των saddle points πολ/ζεται. Αυτό μπορεί να επιβραδύνει δραματικά τη σύγκλιση. Υπό προϋποθέσεις, σε δίκτυα μεγάλου μεγέθους, τα περισσότερα τοπικά ελάχιστα δίνουν μικρές τιμές για τη συνάρτηση κόστους Σε δίκτυο με ένα κρυφό επίπεδο νευρώνων, με ReLU συν. εξόδου, το σφάλμα γενίκευσης φράσσεται από O(ε+1/ N) Περισσότερα σημεία οδηγούν σε αυξημένη ικανότητα γενίκευσης. ε: bound of the sq. norm of the gradient mat. Η επιτυχία των νευρ. δικτ. «βαθίας» αρχ. οφείλεται: (a) στη διαθεσιμότητα συν. δεδομένων μεγ. μεγέθους (b) στη διαθεσιμότητα αυξημένης υπολογιστικής ισχύος.

Πολύ αποδοτικές τεχνικές σε προβλήματα αναγνώρισης και ταξινόμησης εικόνας. Τα συστατικά μέρη τους είναι (a) Ο τελεστής συνέλιξης (convolution operation) (b) Μη γραμμικότητα (συνάρτηση ReLU) (c) Ο τελεστής «συγκέντρωσης» (pooling - downsampling) Περιγράφουμε πρώτα τα συστατικά και μετά τα συνδυάζουμε ώστε να πάρουμε ένα CNN. (*)Most of the material for CNNs is from the data science blog

(a) Ο τελεστής συνέλιξης Πρόκειται για ένα είδος φιλτραρίσματος, που αναδεικνύει τοπικές σχέσεις μεταξύ εικονοστοιχείων. Διαφορετικά φίλτρα αποκαλύπτουν διαφορετικά είδη πληροφορίων. Ένα φίλτρο ή πυρήνας (kernel) ή ανιχνευτής χαρακτ. (feature detector), είναι ένας μικρός πίνακας (συνήθως 3x3). Παράγει μια νέα εικόνα που ονομάζεται χάρτης χαρακτηριστικού (feature map) (convolved feature) Πώς δουλεύει: Ένα φίλτρο πίνακας «ολισθαίνει» πάνω στην υπό μελέτη εικόνα. Σε κάθε θέση, πραγματοποιείται ένας στοιχείο-προς-στοιχείο πολ/σμός ανάμεσα στο φίλτρο πίνακα και το τμήμα της εικόνας με το οποίο αυτό επικαλύπτεται. Τα αποτελέσματα του πολ/σμού αθροίζονται προκειμένου να υπολογιστεί η τιμή του εικονοστοιχείου στο χάρτη χαρακτηριστικού (convolved feature)

(a) Ο τελεστής συνέλιξης Παράδειγμα: Θεωρείστε την 5x5 πράσινη (δυαδική) εικόνα και το παρακάτω 3x3 φίλτρο. Πιο κάτω επιδεικνύεται γραφικά η διαδικασία συνέλιξης. Διαφορετικά φίλτρα, με την αντίστοιχη δράση τους εκτίθενται στα δεξιά.

(a) Ο τελεστής συνέλιξης Παράδειγμα: Διαφορετικά φίλτρα δίνουν διαφορετικούς χάρτες χαρακτηριστικών. Stride: Αριθμός εικονοστοιχείων που προσπέρνα ο πίνακας φίλτρου καθώς ολισθαίνει πάνω στην εικόνα (στο παραπάνω παράδειγμα stride=1) Όσο μεγαλύτερο είναι το stride, τόσο μικρότεροι είναι οι παραγόμενοι χάρτες χαρακτ. Γέμισμα με μηδενικά (Zero padding): Το γέμισμα της εικόνας εισόδου με 0 s γύρω από τα όριά της, επιτρέπει την εφαρμογή του φίλτρου και στα εικονοστοιχεία που βρίσκονται στα όρια της εικόνας.

(b) Μη γραμμικότητα (συνάρτηση ReLU) Εφαρμόζεται χωριστά σε κάθε εικονοστοιχείο του χάρτη χαράκτ. που παράχθηκε από το βήμα (a). Στην πραγματικότητα η ReLU θέτει όλες τις αρνητικές τιμές ίσες με 0. (επιδιορθώνει ( rectifies ) τον πίνακα χαρακτηριστικών). Μπορούν επίσης να χρησιμοποιηθούν και άλλοι τύποι μη γραμμικότητας (π.χ. σιγμοειδείς) παρότι αυτό δε γίνεται συχνά. Παράδειγμα: Η επίδραση της ReLU f(.): Rectified Linear Unit (ReLU) f(t)=t(0), if t (<)0

(c) Η λειτουργία συγκέντρωσης (pooling - downsampling) Εφαρμόζεται πάνω στους επιδιορθωμένους χάρτες χαρακτηριστικών. Μειώνει τη διάστασή τους διατηρώντας την πιο σημαντική πληροφορία. Οι τελεστές που εφαρμόζονται μπορεί να είναι άθροισμα (sum), μέγιστο (max), μέσος όρος (average), etc. Η λειτουργία αυτή φαίνεται μέσω του ακόλουθου παραδείγματος.

Στη συνέχεια συζητάμε πώς συνδυάζονται τα παραπάνω χαρακτηριστικά Το πρώτο στάδιο επεξεργασίας σε ένα CNN (a) εφαρμόζει έναν αριθμό διαφορετικών φίλτρων στην εικόνα εισόδου και παράγει τους αντίστοιχους χάρτες χαρακτηριστικών. (b) εφαρμόζει τη συνάρτηση ReLU στους παραγόμενους πίνακες χαρακτηριστικών (τις επιδιορθώνει ) (c) εφαρμόζει τη λειτουργία συγκέντρωσης σε καθένα από τους επιδιορθωμένους χάρτες χαρακτηριστικών, χωριστά.

Στη συνέχεια συζητάμε πώς συνδυάζονται τα παραπάνω χαρακτηριστικά Το πρώτο στάδιο επεξεργασίας σε ένα CNN: (a) εφαρμόζει έναν αριθμό διαφορετικών φίλτρων στην εικόνα εισόδου και παράγει τους αντίστοιχους χάρτες χαρακτηριστικών. (b) εφαρμόζει τη συνάρτηση ReLU στους παραγόμενους πίνακες χαρακτηριστικών (τις επιδιορθώνει ) (c) εφαρμόζει τη λειτουργία συγκέντρωσης σε καθένα από τους επιδιορθωμένους χάρτες χαρακτηριστικών, χωριστά.

Κατά τo δεύτερο στάδιο επεξεργασίας σ ένα CNN εφαρμόζεται ακριβώς η ίδια επεξεργασία πάνω στα αποτελέσματα του πρώτου σταδίου. Η μόνη διαφορά είναι ότι η συνέλιξη εφαρμόζεται τώρα πάνω σε όλους τους (μειωμένου μεγέθους) χάρτες χαρακτηριστικών που παρήχθησαν από το 1 ο στάδιο επεξεργασίας. Μπορούν να εισαχθούν και επιπλέον στάδια επεξεργασίας, καθένα από τα οποία εφαρμόζεται στα αποτελέσματα του προηγούμενου.

To τελικό στάδιο επεξεργασίας ενός CNN πραγματοποιείται από ένα δίκτυο 2 ή 3 επιπέδων, όπου κάθε νευρώνας εξόδου αντιστοιχεί σε μια κλάση. Παρατηρήσεις: Στην πράξη, οι συντελεστές του φίλτρου δεν προεπιλέγονται, αλλά εκτιμούνται κατά τη φάση της εκπαίδευσης. Η εκπαίδευση ακολουθεί τη στρατηγική οπίσθιας διάδοσης (Back propagation), λαμβάνοντας υπόψιν τα κοινά βάρη στα συνελικτικά επίπεδα. Οι νευρώνες εξόδου του δικτύου χρησιμοποιούν την softmax ως συνάρτηση εξόδου. Αυτό, εγγυάται ότι τα αποτελέσματα θα βρίσκονται στο διάστημα (0,1).

Συνάρτηση softmax: Έστω s=[s 1, s 2,,s M ] T οι έξοδοι της ReLU στο δίκτυο εξόδου. Το τελικό αποτέλεσμα των νευρώνων του επιπέδου αυτού θα είναι yˆ = [ yˆ 1, yˆ 2,..., yˆ M ] T = [ e s M s s M j M e,..., e / j= 1 j= 1 1 / e s j ] T Θυμηθείτε ότι κάθε επίπεδο ανιχνεύει χαρακτηριστικά υψηλότερου επιπέδου από το προηγούμενό του.

Example:

Εκπ/ση δικτύων «βαθιάς» αρχιτεκτονικής Γενική στρατηγική Προ-εκπαίδευσε τα βάρη που σχετίζονται με κάθε κρυφό επίπεδο ακολουθιακά με χρήση μη επιβλεπόμενων τεχνικών, ξεκινώντας από το πρώτο. Προ-εκπαίδευσε τα βάρη που σχετίζονται με επίπεδο εξόδου με χρήση επιβλεπόμενων τεχνικών. Χρησιμοποίησε τις παραπάνω τιμές των βαρών ως αρχικές τιμές και εφάρμοσε τον αλγόριθμο BP algorithm ώστε να προκύψουν οι τελικές εκτιμήσεις όλων των βαρών του δικτύου. Δημοφιλής επιλογή για προ-εκπαίδευση: Restricted Boltzmann Machines (RBMs).