HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 15-16 Νευρωνικά Δίκτυα(Neural Networks)

Fisher s linear discriminant: Μείωση διαστάσεων (dimensionality reduction) y Τ =w x s + s =w S w 2 2 Τ 1 2 W ( ) 2 2 ( ) m2 m1 = Τ 2 Τ Τ 1 = S B w m w m w w

Fisher s linear discriminant- Πολλαπλές κλάσεις Ck (k>2): T y =w x (k=1,2,,d ) k k T y= W x Within-class scatter Between-class scatter S Κ N ( m m)( m m) T B k k k k= 1 s s W B Τ = W S W W Τ = W S W B Τ s S B B J ( W) = = W W Τ s W S W W W W: ιδιοδιανύσματα του 1 S S W B που αντιστοιχούν στις D μεγαλύτερες ιδιοτιμές

Γραμμικά διαχωρίσιμα δεδομένα -2 κλάσεις wτ.ω. αν w T x>0όταν xανήκει στην κλάση C 1,w T x<0αν ανήκει στην C 2 Μετ/σμός: -xγια κάθε xστην C 2 : wτ.ω. w T x>0για κάθε x Γενικά: w T x>b(b: margin) w( k+ 1) = w( k) nk ( ) J ( w) Βέλτιστη σταθερά μάθησης: J nk ( ) = T J H J 2 Hessian H = J, Hij Newton-Raphsonupdate: 2 J = wi w j w = w( k ) 1 w( k+ 1) = w( k) H J

Perceptronalgorithm: μόνο τα λάθος ταξινομημένα δείγματα αλλάζουν τις τιμές του w T Criterion function JP ( w) = ( w xn) n M Batch training w( k+ 1) = w( k) + nk ( ) xn Single sample training w (1) = αυθαίρετο Για περιθώριο b n M w( k+ 1) = w( k) + x k, k 1 w(1) = αυθαίρετο k w( k+ 1) = w( k) + nk ( ) x, k 1 Τ k όπου w ( k) x b Εναλλακτικές συναρτήσεις κριτηρίου (μη μηδενική Hessian) J q = T ( w) ( w x ) n M n 2 J r T 2 1 ( n b) T ( w) = w x M: w x 2 n b 2n M x n

Νευρωνικά Δίκτυα Στα προηγούμενα (παλινδρόμηση και γραμμική ταξινόμηση) είδαμε μοντέλα όπου οι συναρτήσεις βάσης ήταν σταθερές (συγκεκριμένης μορφής) και επίσης ο αριθμός τους ήταν προαποφασισμένος Για προβλήματα με πολλές διαστάσεις μεγάλη αύξηση πολυπλοκότητας Υπάρχουν 2 τρόποι βελτίωσης Επιλογή συναρτήσεων βάσης από τα δεδομένα Χρήση συγκεκριμένου αριθμού συναρτήσεων βάσης, των οποίων οι παράμετροι καθορίζονται από τα δεδομένα εκπαίδευσης προσαρμοστικά (1) Επίσης στα προηγούμενα είδαμε γραμμικές διαχωριστικές συναρτήσεις πολλές φορές δεν είναι ικανοποιητικές για δεδομένα που δεν είναι γραμμικά διαχωρίσιμα (2) Μια προσέγγιση που υλοποιεί τις (1), (2) είναι αυτή των νευρωνικών δικτύων (neural networks) Το όνομα προέρχεται από τις (περιορισμένες) ομοιότητες αυτών των αρχιτεκτονικών με δίκτυα νευρώνων (κύτταρα νευρικού συστήματος) Διαλέγουμε τόσο τις συναρτήσεις βάσης όσο και κατάλληλες μη γραμμικότητες για το δίκτυο και «εκπαιδεύουμε» τις παραμέτρους των κατά τη φάση εκπαίδευσης με βάση παρόμοιες τεχνικές που είδαμε στον αλγόριθμο perceptron (gradient descent)

Νευρωνικά Δίκτυα Στο προηγούμενο κεφάλαιο εξετάσαμε μεθόδους σχεδίασης γραμμικών ταξινομητών που μπορούν να υλοποιηθούν με την αρχιτεκτονική δικτύου με ένα στρώμα (singlelayer network) του σχήματος Γενικώς θα δούμε πως μπορούμε να σχεδιάσουμε μοντέλα της μορφής όπου f(.) μια μη γραμμική συνάρτηση ενεργοποίησης (activation function) για προβλήματα ταξινόμησης και παλινδρόμησης. Θέλουμε να είμαστε σε θέση να «μάθουμε» από τα δεδομένα εκπαίδευσης τόσο τις τιμές των συντελεστών w j, όσο και την ακριβή μορφή των συναρτήσεων βάσης φ j (x) καθώς και τη συνάρτηση f(.) Μέχρι στιγμής είδαμε περιπτώσεις όπου η συνάρτηση fείναι η μοναδιαία συνάρτηση (παλινδρόμηση) ή κάποια μη γραμμική συνάρτηση (ταξινόμηση)

Νευρωνικά Δίκτυα Ένα απλό πρόβλημα γραμμικής ταξινόμησης το πρόβλημα OR Μπορούμε να σχεδιάσουμε έναν απλόγραμμικό ταξινομητή με ένα στρώμα με w 1 =w 2 =1και w 0 =3/2 Ένα απλό πρόβλημα μη γραμμικής ταξινόμησης το πρόβλημα XOR Μπορούμε να χρησιμοποιήσουμε ένα δίκτυο με δύοστρώματα, όπου η συνάρτηση ενεργοποίησης f είναι:

Νευρωνικά Δίκτυα Η βασική αρχιτεκτονική νευρωνικού δικτύου της προηγούμενης διαφάνειας είναι παράδειγμα δίκτυου δύο στρωμάτων(two-layer network) και μπορεί να υλοποιήσει μοντέλα της μορφής Feed-forward network (δίκτυο πρόσω τροφοδότησης), multi-layer perceptron(αναγνωριστής πολλαπλών στρωμάτων) Πρώτο στρώμα/ Στρώμα εισόδου j=1,2,,m(μ αριθμός κρυμμένων μονάδων) weights biases Είσοδοι των κρυμμένων μονάδων a j : activations Συναρτήσεις ενεργοποίησης h(.) (hidden units/hidden layer). Συνηθισμένη επιλογή για προβλήματα ταξινόμησης(όχι η μοναδική όμως): sigmoidal functions

Νευρωνικά Δίκτυα Δεύτερο στρώμα Έξοδος: yk = g( ak ) k = 1, 2,..., K K: αριθμός εξόδων Τελικά λοιπόν ο συνολικός μετ/σμός είναι: M D (2) (1) yk = g wkj h wjixi k = 1, 2,..., K j= 0 i= 0 όπου θεωρούμε x 0 =1και z 0 =1, η οποία είναι ίδιας μορφής με την: Παρατήρηση: Αν οι συναρτήσεις ενεργοποίησης των κρυμμένων μονάδων είναι γραμμικές, τότε μπορούμε να βρούμε ένα ισοδύναμο δίκτυο χωρίς το κρυμμένο στρώμα καθώς η αλληλουχία γραμμικών μετασχηματισμών είναι επίσης γραμμικός μετασχηματισμός. Στην περίπτωση αυτή, αν ο αριθμός των κρυμμένων μονάδων Μ είναι μικρότερος από τον αριθμό των εισόδων D ή/και εξόδων Κ τότε ο γραμμικός μετ/σμος δε θα είναι ο γενικότερος δυνατός (απώλεια πληροφορίας λόγω μείωσης των διαστάσεων)

Νευρωνικά Δίκτυα Kolmogorov stheorem: Κάθε συνεχής συνάρτηση πολλών μεταβλητών μπορεί να αναπαρασταθεί ως υπέρθεση ενός πεπερασμένου αριθμού συναρτήσεων μιας μεταβλητής στην περίπτωση που το πεδίο τιμών των εισόδων είναι κλειστό και φραγμένο Εφαρμογή στα νευρωνικά δίκτυα: Οποιαδήποτε συνεχής απεικόνιση y(x),όπου το xέχει διάσταση D μπορεί να αναπαρασταθεί ακριβώς από ένα δίκτυο τριών στρωμάτωνμε D(2D+1)μονάδες στο πρώτο στρώμα και 2D+1 στο δεύτερο, όπου οι συναρτήσεις ενεργοποίησης του πρώτου στρώματος h i είναι αυστηρά μονοτονικές και: D 2D+ 1 k = i j i j i= 1 j= 1 z λ h ( x ) y= g( z ) όπου gπραγματική και συνεχής συνάρτηση. Με άλλα λόγια μπορούμε να προσεγγίσουμε κάθε (μη γραμμική) συνεχή συνάρτηση για την οποία το πεδίο τιμών της εισόδου είναι κλειστό και φραγμένο αν το δίκτυο έχει ικανό αριθμό κρυμμένων μονάδων -Universal approximation property of neural networks Το ίδιο ισχύει και για σύνορα αποφάσεων, δηλ. ένα νευρωνικό δίκτυο με τρία στρώματα και συναρτήσεις ενεργοποίησης κατωφλίου ή σιγμοειδείς μπορεί να αναπαραστήσει σύνορα οποιασδήποτε μορφής με αυθαίρετη ακρίβεια (Bishop NN book sections 4.2-4.4)

Παράδειγμα Νευρωνικά Δίκτυα

Νευρωνικά Δίκτυα Παράδειγμα: NN με 2 στρώματα 3 μονάδων, σιγμοειδείς συναρτήσεις ενεργοποίησης στο πρώτο στρώμα, γραμμικές συναρτήσεις ενεργοποίησης στο στρώμα εξόδου, x ομοιόμορφο μεταξύ -1 και 1, Ν=50

Νευρωνικά Δίκτυα Συμμετρία ως προς τους συντελεστές w j Αν π.χ. οι συναρτήσεις ενεργοποίησης είναι: ha ( ) = tanh( a ) j j η οποία είναι περιττή συνάρτηση (tanh(-a)= -tanh(a)), μπορούμε να αλλάξουμε το πρόσημο όλων των συντελεστών που συνδέονται με την είσοδο των κρυφών μονάδων και να αλλάξουμε ταυτόχρονα το πρόσημο όλων των συντελεστών που «βγαίνουν» από τις μονάδες και να πάρουμε ακριβώς την ίδια απεικόνιση εισόδου/εξόδου Για Μκρυμμένες μονάδες: 2 Μ επιλογές. Γενικά, πολλαπλές επιλογές για τους συντελεστές μπορεί να δίνουν ακριβώς την ίδια απεικόνιση

Συναρτήσεις ενεργοποίησης Συναρτήσεις ενεργοποίησης: Μια συνηθισμένη επιλογή είναι η λογιστική σιγμοειδής συνάρτηση(logistic sigmoidal) ειδικά για προβλήματα ταξινόμησης Γιατί? Είδαμε ότι μπορούμε να ερμηνεύσουμε αυτή τη συνάρτηση στο πλαίσιο ενός προβλήματος ταξινόμησης με 2 κλάσεις. Συχνά χρησιμοποιείται και η ισοδύναμη συνάρτηση: a a e e tanh( a) = = 2 σ ( a) 1 a a e + e η οποία μπορεί να δώσει γρηγορότερη σύγκλιση Άλλες πιθανές συναρτήσεις ενεργοποίησης: συνάρτηση κατωφλίου (threshold function) 0, a< 0 g( a) = 1, a 0

Συναρτήσεις ενεργοποίησης Softmax function προβλήματα ταξινόμησης Κ κλάσεων:

Εκπαίδευση δικτύου Πως μπορούμε να εκτιμήσουμε τις παραμέτρους του δικτύου? Ας υποθέσουμε ότι έχουμε μια συνεχή μεταβλητή στόχου t. Τότε, όπως και στην περίπτωση της γραμμικής παλινδρόμησης μπορούμε να θεωρήσουμε ότι αν έχουμε Γκαουσιανό θόρυβο, η κατανομή του t είναι: Σε αυτή την περίπτωση μπορούμε να πάρουμε μοναδιαία συνάρτηση ενεργοποίησης στην έξοδο (δηλ g(.)). Η αντίστοιχη πιθανοφάνεια είναι: Παίρνοντας αρνητικό λογάριθμο: Μπορούμε να πάρουμε την εκτίμηση μέγιστης πιθανοφάνειας η οποία είναι ισοδύναμη με την ελαχιστοποίηση της συνάρτησης σφάλματος του αθροίσματος των τετραγώνων, δηλ. της:

Εκπαίδευση δικτύου Διαφορά με την απλή περίπτωση γραμμικής παλινδρόμησης δεν έχουμε κυρτή συνάρτηση κόστους (nonconvex), μπορεί να έχουμε τοπικά ελάχιστα Αφού υπολογίσουμε το w ML, η ακρίβεια του θορύβου υπολογίζεται όπως και πριν: Αν η συνάρτηση ενεργοποίησης εξόδου είναι μοναδιαία: E yk = ak =yk tk a k Έστω τώρα ότι έχουμε πρόβλημα ταξινόμησης με 2 κλάσεις οπότε η μεταβλητή στόχου tείναι 1 (C 1 )ή 0 (C 2 ). Μπορούμε να θεωρήσουμε ένα δίκτυο με συνάρτηση ενεργοποίησης εξόδου: Η έξοδος μπορεί να ερμηνευθεί ως η εκ των υστέρων πιθανότητα p(c 1 x)άρα p(c 2 x)=1-y=1-y(x,w) Η υπό συνθήκη κατανομή της μεταβλητής στόχου είναι Bernoulli:

Εκπαίδευση δικτύου Για Ν ανεξάρτητες παρατηρήσεις, η πιθανοφάνεια είναι: N tn p( t x,w) = y( x,w) {1 y( x,w)} n= 1 n n 1 t n Παίρνοντας αρνητικό λογάριθμο, η συνάρτηση σφάλματος είναι (cross-entropy error function) N n= 1 { } E( w) = t ln y + (1 t )ln(1 y ) n n n n Αν θέλουμε να λύσουμε Κ προβλήματα 2 κλάσεων ταυτόχρονα -> Κ έξοδοι στο δίκτυο με σιγμοειδείς συναρτήσεις ενεργοποίησης. Η κατανομή του διανύσματος στόχου t είναι και η αντίστοιχη συνάρτηση σφάλματος: Και σε αυτή την περίπτωση: E a k =y k t k

Για πρόβλημα Κ κλάσεων έχουμε διάνυσμα στόχουt με Κ στοιχεία εκ των οποίων μόνο ένα μπορεί να ισούται με 1. Δίκτυο με Κ εξόδους κάθε έξοδος αντιστοιχεί στην πιθανότητα: t y ( x,w) = pt ( = 1 x) = y ( x,w) k k k k k= 1 Η πιθανοφάνεια είναι: N K = n = 1 k = 1 tnk p( T w) y nk K Εκπαίδευση δικτύου Η συνάρτηση σφάλματος είναι (αρνητικός λογάριθμος της (1)): multi-class cross entropy error function Σε αυτή την περίπτωση, οι συναρτήσεις ενεργοποίησης αντιστοιχούν στη συνάρτηση softmax: Ακόμη και σε αυτή την περίπτωση: E a k =y k t k

Εκπαίδευση δικτύου Ανακεφαλαιώνοντας, ανάλογα με το πρόβλημα επιλέγουμε τις συναρτήσεις ενεργοποίησης εξόδου καθώς και τη συνάρτηση σφάλματος t συνεχής (regression) sum-of-squares, γραμμικές συναρτήσεις ενεργοποίησης στο στρώμα εξόδου Ταξινόμηση 2 κλάσεων (μια ή περισσότερες) σιγμοειδείς συναρτήσεις, cross entropy error function Ταξινόμηση Κ κλάσεων softmax functions, multi-class cross-entropy error

Εκπαίδευση δικτύου Ελαχιστοποίηση της συνάρτησης σφάλματος: Επαναληπτική Δεν έχουμε μοναδική λύση! Υπάρχουν ολικά και τοπικά ελάχιστα (global/local minima) δεν υπάρχει εγγύηση ότι μπορεί να βρεθεί το ολικό ελάχιστο Γενικά, οι τεχνικές βελτιστοποίησης για ΝΝ βασίζονται στη μέθοδο καθοδικής κλίσης Μπορούμε να έχουμε εκπαίδευση σε παρτίδες (batch) ή ανά δείγμα (single-sample/stochastic/ sequential gradient descent) Πως μπορεί να υλοποιηθεί η ελαχιστοποίηση σε δίκτυα πολλαπλών στρωμάτων? Backpropagation