HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Σχετικά έγγραφα
HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 17-18

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τεχνητή Νοημοσύνη. 19η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ασκήσεις μελέτης της 19 ης διάλεξης

HMY 795: Αναγνώριση Προτύπων

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 3ο Φροντιστήριο

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

HMY 795: Αναγνώριση Προτύπων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Μη γραµµικοί ταξινοµητές Νευρωνικά ίκτυα

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Νευρωνικά Δίκτυα στο Matlab

HMY 795: Αναγνώριση Προτύπων

Πολλαπλή παλινδρόμηση (Multivariate regression)

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

4.3. Γραµµικοί ταξινοµητές

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Το μοντέλο Perceptron

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ. Καραγιώργου Σοφία

HMY 795: Αναγνώριση Προτύπων

Νευρωνικά ίκτυα και Εξελικτικός. Σηµερινό Μάθηµα. επανάληψη Γενετικών Αλγορίθµων 1 η εργασία Επανάληψη νευρωνικών δικτύων Ασκήσεις εφαρµογές

Αναγνώριση Προτύπων Ι

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Αναγνώριση Προτύπων Ι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

HMY 799 1: Αναγνώριση Συστημάτων

Υπολογιστική Νοημοσύνη. Μάθημα 6: Μάθηση με Οπισθοδιάδοση Σφάλματος Backpropagation Learning

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017

HMY 220: Σήματα και Συστήματα Ι

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

HMY 795: Αναγνώριση Προτύπων

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Υπολογιστική Νοημοσύνη. Μάθημα 13: Αναδρομικά Δίκτυα - Recurrent Networks

HMY 795: Αναγνώριση Προτύπων

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

HMY 220: Σήματα και Συστήματα Ι

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 9-10

Υπολογιστική Νοημοσύνη. Μάθημα 12: Παραδείγματα Ασκήσεων 2

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Εισαγωγικές έννοιες. Κατηγορίες προβλημάτων (σε μια διάσταση) Προβλήματα εύρεσης μεγίστου. Συμβολισμοί

Εισόδημα Κατανάλωση

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Πληροφοριακά Συστήματα & Περιβάλλον

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT)

Πληροφοριακά Συστήματα Διοίκησης

1. Τετραγωνικές μορφές. x y 0. 0x y 0 1α 1β 2α 2β 3. 0x + y 0

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Διακριτικές Συναρτήσεις

(1) L{a 1 x 1 + a 2 x 2 } = a 1 L{x 1 } + a 2 L{x 2 } (2) x(t) = δ(t t ) x(t ) dt x[i] = δ[i i ] x[i ] (3) h[i, i ] x[i ] (4)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

Εφαρμογές μεθοδολογιών μηχανικής εκμάθησης στο χώρο της παραγωγής υδρογονανθράκων. Βασίλης Γαγάνης

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΣΤΟΙΧΕΙΑ ΔΙΑΦΟΡΙΚΟΥ ΛΟΓΙΣΜΟΥ ΣΥΝΑΡΤΗΣΕΩΝ ΠΟΛΛΩΝ ΜΕΤΑΒΛΗΤΩΝ 15

ΣΥΝΕΛΙΚΤΙΚΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Τεχνητή Νοημοσύνη ( )

HMY 795: Αναγνώριση Προτύπων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Θεωρία Λήψης Αποφάσεων

Υλοποιώντας λογικές πύλες χρησιμοποιώντας perceptrons

Γραµµικοί Ταξινοµητές

Transcript:

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 15-16 Νευρωνικά Δίκτυα(Neural Networks)

Fisher s linear discriminant: Μείωση διαστάσεων (dimensionality reduction) y Τ =w x s + s =w S w 2 2 Τ 1 2 W ( ) 2 2 ( ) m2 m1 = Τ 2 Τ Τ 1 = S B w m w m w w

Fisher s linear discriminant- Πολλαπλές κλάσεις Ck (k>2): T y =w x (k=1,2,,d ) k k T y= W x Within-class scatter Between-class scatter S Κ N ( m m)( m m) T B k k k k= 1 s s W B Τ = W S W W Τ = W S W B Τ s S B B J ( W) = = W W Τ s W S W W W W: ιδιοδιανύσματα του 1 S S W B που αντιστοιχούν στις D μεγαλύτερες ιδιοτιμές

Γραμμικά διαχωρίσιμα δεδομένα -2 κλάσεις wτ.ω. αν w T x>0όταν xανήκει στην κλάση C 1,w T x<0αν ανήκει στην C 2 Μετ/σμός: -xγια κάθε xστην C 2 : wτ.ω. w T x>0για κάθε x Γενικά: w T x>b(b: margin) w( k+ 1) = w( k) nk ( ) J ( w) Βέλτιστη σταθερά μάθησης: J nk ( ) = T J H J 2 Hessian H = J, Hij Newton-Raphsonupdate: 2 J = wi w j w = w( k ) 1 w( k+ 1) = w( k) H J

Perceptronalgorithm: μόνο τα λάθος ταξινομημένα δείγματα αλλάζουν τις τιμές του w T Criterion function JP ( w) = ( w xn) n M Batch training w( k+ 1) = w( k) + nk ( ) xn Single sample training w (1) = αυθαίρετο Για περιθώριο b n M w( k+ 1) = w( k) + x k, k 1 w(1) = αυθαίρετο k w( k+ 1) = w( k) + nk ( ) x, k 1 Τ k όπου w ( k) x b Εναλλακτικές συναρτήσεις κριτηρίου (μη μηδενική Hessian) J q = T ( w) ( w x ) n M n 2 J r T 2 1 ( n b) T ( w) = w x M: w x 2 n b 2n M x n

Νευρωνικά Δίκτυα Στα προηγούμενα (παλινδρόμηση και γραμμική ταξινόμηση) είδαμε μοντέλα όπου οι συναρτήσεις βάσης ήταν σταθερές (συγκεκριμένης μορφής) και επίσης ο αριθμός τους ήταν προαποφασισμένος Για προβλήματα με πολλές διαστάσεις μεγάλη αύξηση πολυπλοκότητας Υπάρχουν 2 τρόποι βελτίωσης Επιλογή συναρτήσεων βάσης από τα δεδομένα Χρήση συγκεκριμένου αριθμού συναρτήσεων βάσης, των οποίων οι παράμετροι καθορίζονται από τα δεδομένα εκπαίδευσης προσαρμοστικά (1) Επίσης στα προηγούμενα είδαμε γραμμικές διαχωριστικές συναρτήσεις πολλές φορές δεν είναι ικανοποιητικές για δεδομένα που δεν είναι γραμμικά διαχωρίσιμα (2) Μια προσέγγιση που υλοποιεί τις (1), (2) είναι αυτή των νευρωνικών δικτύων (neural networks) Το όνομα προέρχεται από τις (περιορισμένες) ομοιότητες αυτών των αρχιτεκτονικών με δίκτυα νευρώνων (κύτταρα νευρικού συστήματος) Διαλέγουμε τόσο τις συναρτήσεις βάσης όσο και κατάλληλες μη γραμμικότητες για το δίκτυο και «εκπαιδεύουμε» τις παραμέτρους των κατά τη φάση εκπαίδευσης με βάση παρόμοιες τεχνικές που είδαμε στον αλγόριθμο perceptron (gradient descent)

Νευρωνικά Δίκτυα Στο προηγούμενο κεφάλαιο εξετάσαμε μεθόδους σχεδίασης γραμμικών ταξινομητών που μπορούν να υλοποιηθούν με την αρχιτεκτονική δικτύου με ένα στρώμα (singlelayer network) του σχήματος Γενικώς θα δούμε πως μπορούμε να σχεδιάσουμε μοντέλα της μορφής όπου f(.) μια μη γραμμική συνάρτηση ενεργοποίησης (activation function) για προβλήματα ταξινόμησης και παλινδρόμησης. Θέλουμε να είμαστε σε θέση να «μάθουμε» από τα δεδομένα εκπαίδευσης τόσο τις τιμές των συντελεστών w j, όσο και την ακριβή μορφή των συναρτήσεων βάσης φ j (x) καθώς και τη συνάρτηση f(.) Μέχρι στιγμής είδαμε περιπτώσεις όπου η συνάρτηση fείναι η μοναδιαία συνάρτηση (παλινδρόμηση) ή κάποια μη γραμμική συνάρτηση (ταξινόμηση)

Νευρωνικά Δίκτυα Ένα απλό πρόβλημα γραμμικής ταξινόμησης το πρόβλημα OR Μπορούμε να σχεδιάσουμε έναν απλόγραμμικό ταξινομητή με ένα στρώμα με w 1 =w 2 =1και w 0 =3/2 Ένα απλό πρόβλημα μη γραμμικής ταξινόμησης το πρόβλημα XOR Μπορούμε να χρησιμοποιήσουμε ένα δίκτυο με δύοστρώματα, όπου η συνάρτηση ενεργοποίησης f είναι:

Νευρωνικά Δίκτυα Η βασική αρχιτεκτονική νευρωνικού δικτύου της προηγούμενης διαφάνειας είναι παράδειγμα δίκτυου δύο στρωμάτων(two-layer network) και μπορεί να υλοποιήσει μοντέλα της μορφής Feed-forward network (δίκτυο πρόσω τροφοδότησης), multi-layer perceptron(αναγνωριστής πολλαπλών στρωμάτων) Πρώτο στρώμα/ Στρώμα εισόδου j=1,2,,m(μ αριθμός κρυμμένων μονάδων) weights biases Είσοδοι των κρυμμένων μονάδων a j : activations Συναρτήσεις ενεργοποίησης h(.) (hidden units/hidden layer). Συνηθισμένη επιλογή για προβλήματα ταξινόμησης(όχι η μοναδική όμως): sigmoidal functions

Νευρωνικά Δίκτυα Δεύτερο στρώμα Έξοδος: yk = g( ak ) k = 1, 2,..., K K: αριθμός εξόδων Τελικά λοιπόν ο συνολικός μετ/σμός είναι: M D (2) (1) yk = g wkj h wjixi k = 1, 2,..., K j= 0 i= 0 όπου θεωρούμε x 0 =1και z 0 =1, η οποία είναι ίδιας μορφής με την: Παρατήρηση: Αν οι συναρτήσεις ενεργοποίησης των κρυμμένων μονάδων είναι γραμμικές, τότε μπορούμε να βρούμε ένα ισοδύναμο δίκτυο χωρίς το κρυμμένο στρώμα καθώς η αλληλουχία γραμμικών μετασχηματισμών είναι επίσης γραμμικός μετασχηματισμός. Στην περίπτωση αυτή, αν ο αριθμός των κρυμμένων μονάδων Μ είναι μικρότερος από τον αριθμό των εισόδων D ή/και εξόδων Κ τότε ο γραμμικός μετ/σμος δε θα είναι ο γενικότερος δυνατός (απώλεια πληροφορίας λόγω μείωσης των διαστάσεων)

Νευρωνικά Δίκτυα Kolmogorov stheorem: Κάθε συνεχής συνάρτηση πολλών μεταβλητών μπορεί να αναπαρασταθεί ως υπέρθεση ενός πεπερασμένου αριθμού συναρτήσεων μιας μεταβλητής στην περίπτωση που το πεδίο τιμών των εισόδων είναι κλειστό και φραγμένο Εφαρμογή στα νευρωνικά δίκτυα: Οποιαδήποτε συνεχής απεικόνιση y(x),όπου το xέχει διάσταση D μπορεί να αναπαρασταθεί ακριβώς από ένα δίκτυο τριών στρωμάτωνμε D(2D+1)μονάδες στο πρώτο στρώμα και 2D+1 στο δεύτερο, όπου οι συναρτήσεις ενεργοποίησης του πρώτου στρώματος h i είναι αυστηρά μονοτονικές και: D 2D+ 1 k = i j i j i= 1 j= 1 z λ h ( x ) y= g( z ) όπου gπραγματική και συνεχής συνάρτηση. Με άλλα λόγια μπορούμε να προσεγγίσουμε κάθε (μη γραμμική) συνεχή συνάρτηση για την οποία το πεδίο τιμών της εισόδου είναι κλειστό και φραγμένο αν το δίκτυο έχει ικανό αριθμό κρυμμένων μονάδων -Universal approximation property of neural networks Το ίδιο ισχύει και για σύνορα αποφάσεων, δηλ. ένα νευρωνικό δίκτυο με τρία στρώματα και συναρτήσεις ενεργοποίησης κατωφλίου ή σιγμοειδείς μπορεί να αναπαραστήσει σύνορα οποιασδήποτε μορφής με αυθαίρετη ακρίβεια (Bishop NN book sections 4.2-4.4)

Παράδειγμα Νευρωνικά Δίκτυα

Νευρωνικά Δίκτυα Παράδειγμα: NN με 2 στρώματα 3 μονάδων, σιγμοειδείς συναρτήσεις ενεργοποίησης στο πρώτο στρώμα, γραμμικές συναρτήσεις ενεργοποίησης στο στρώμα εξόδου, x ομοιόμορφο μεταξύ -1 και 1, Ν=50

Νευρωνικά Δίκτυα Συμμετρία ως προς τους συντελεστές w j Αν π.χ. οι συναρτήσεις ενεργοποίησης είναι: ha ( ) = tanh( a ) j j η οποία είναι περιττή συνάρτηση (tanh(-a)= -tanh(a)), μπορούμε να αλλάξουμε το πρόσημο όλων των συντελεστών που συνδέονται με την είσοδο των κρυφών μονάδων και να αλλάξουμε ταυτόχρονα το πρόσημο όλων των συντελεστών που «βγαίνουν» από τις μονάδες και να πάρουμε ακριβώς την ίδια απεικόνιση εισόδου/εξόδου Για Μκρυμμένες μονάδες: 2 Μ επιλογές. Γενικά, πολλαπλές επιλογές για τους συντελεστές μπορεί να δίνουν ακριβώς την ίδια απεικόνιση

Συναρτήσεις ενεργοποίησης Συναρτήσεις ενεργοποίησης: Μια συνηθισμένη επιλογή είναι η λογιστική σιγμοειδής συνάρτηση(logistic sigmoidal) ειδικά για προβλήματα ταξινόμησης Γιατί? Είδαμε ότι μπορούμε να ερμηνεύσουμε αυτή τη συνάρτηση στο πλαίσιο ενός προβλήματος ταξινόμησης με 2 κλάσεις. Συχνά χρησιμοποιείται και η ισοδύναμη συνάρτηση: a a e e tanh( a) = = 2 σ ( a) 1 a a e + e η οποία μπορεί να δώσει γρηγορότερη σύγκλιση Άλλες πιθανές συναρτήσεις ενεργοποίησης: συνάρτηση κατωφλίου (threshold function) 0, a< 0 g( a) = 1, a 0

Συναρτήσεις ενεργοποίησης Softmax function προβλήματα ταξινόμησης Κ κλάσεων:

Εκπαίδευση δικτύου Πως μπορούμε να εκτιμήσουμε τις παραμέτρους του δικτύου? Ας υποθέσουμε ότι έχουμε μια συνεχή μεταβλητή στόχου t. Τότε, όπως και στην περίπτωση της γραμμικής παλινδρόμησης μπορούμε να θεωρήσουμε ότι αν έχουμε Γκαουσιανό θόρυβο, η κατανομή του t είναι: Σε αυτή την περίπτωση μπορούμε να πάρουμε μοναδιαία συνάρτηση ενεργοποίησης στην έξοδο (δηλ g(.)). Η αντίστοιχη πιθανοφάνεια είναι: Παίρνοντας αρνητικό λογάριθμο: Μπορούμε να πάρουμε την εκτίμηση μέγιστης πιθανοφάνειας η οποία είναι ισοδύναμη με την ελαχιστοποίηση της συνάρτησης σφάλματος του αθροίσματος των τετραγώνων, δηλ. της:

Εκπαίδευση δικτύου Διαφορά με την απλή περίπτωση γραμμικής παλινδρόμησης δεν έχουμε κυρτή συνάρτηση κόστους (nonconvex), μπορεί να έχουμε τοπικά ελάχιστα Αφού υπολογίσουμε το w ML, η ακρίβεια του θορύβου υπολογίζεται όπως και πριν: Αν η συνάρτηση ενεργοποίησης εξόδου είναι μοναδιαία: E yk = ak =yk tk a k Έστω τώρα ότι έχουμε πρόβλημα ταξινόμησης με 2 κλάσεις οπότε η μεταβλητή στόχου tείναι 1 (C 1 )ή 0 (C 2 ). Μπορούμε να θεωρήσουμε ένα δίκτυο με συνάρτηση ενεργοποίησης εξόδου: Η έξοδος μπορεί να ερμηνευθεί ως η εκ των υστέρων πιθανότητα p(c 1 x)άρα p(c 2 x)=1-y=1-y(x,w) Η υπό συνθήκη κατανομή της μεταβλητής στόχου είναι Bernoulli:

Εκπαίδευση δικτύου Για Ν ανεξάρτητες παρατηρήσεις, η πιθανοφάνεια είναι: N tn p( t x,w) = y( x,w) {1 y( x,w)} n= 1 n n 1 t n Παίρνοντας αρνητικό λογάριθμο, η συνάρτηση σφάλματος είναι (cross-entropy error function) N n= 1 { } E( w) = t ln y + (1 t )ln(1 y ) n n n n Αν θέλουμε να λύσουμε Κ προβλήματα 2 κλάσεων ταυτόχρονα -> Κ έξοδοι στο δίκτυο με σιγμοειδείς συναρτήσεις ενεργοποίησης. Η κατανομή του διανύσματος στόχου t είναι και η αντίστοιχη συνάρτηση σφάλματος: Και σε αυτή την περίπτωση: E a k =y k t k

Για πρόβλημα Κ κλάσεων έχουμε διάνυσμα στόχουt με Κ στοιχεία εκ των οποίων μόνο ένα μπορεί να ισούται με 1. Δίκτυο με Κ εξόδους κάθε έξοδος αντιστοιχεί στην πιθανότητα: t y ( x,w) = pt ( = 1 x) = y ( x,w) k k k k k= 1 Η πιθανοφάνεια είναι: N K = n = 1 k = 1 tnk p( T w) y nk K Εκπαίδευση δικτύου Η συνάρτηση σφάλματος είναι (αρνητικός λογάριθμος της (1)): multi-class cross entropy error function Σε αυτή την περίπτωση, οι συναρτήσεις ενεργοποίησης αντιστοιχούν στη συνάρτηση softmax: Ακόμη και σε αυτή την περίπτωση: E a k =y k t k

Εκπαίδευση δικτύου Ανακεφαλαιώνοντας, ανάλογα με το πρόβλημα επιλέγουμε τις συναρτήσεις ενεργοποίησης εξόδου καθώς και τη συνάρτηση σφάλματος t συνεχής (regression) sum-of-squares, γραμμικές συναρτήσεις ενεργοποίησης στο στρώμα εξόδου Ταξινόμηση 2 κλάσεων (μια ή περισσότερες) σιγμοειδείς συναρτήσεις, cross entropy error function Ταξινόμηση Κ κλάσεων softmax functions, multi-class cross-entropy error

Εκπαίδευση δικτύου Ελαχιστοποίηση της συνάρτησης σφάλματος: Επαναληπτική Δεν έχουμε μοναδική λύση! Υπάρχουν ολικά και τοπικά ελάχιστα (global/local minima) δεν υπάρχει εγγύηση ότι μπορεί να βρεθεί το ολικό ελάχιστο Γενικά, οι τεχνικές βελτιστοποίησης για ΝΝ βασίζονται στη μέθοδο καθοδικής κλίσης Μπορούμε να έχουμε εκπαίδευση σε παρτίδες (batch) ή ανά δείγμα (single-sample/stochastic/ sequential gradient descent) Πως μπορεί να υλοποιηθεί η ελαχιστοποίηση σε δίκτυα πολλαπλών στρωμάτων? Backpropagation