HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 17 18 Νευρωνικά Δίκτυα (Neural Networks) συνέχεια

Minimum squared error procedure for classification 1 ( T T wls = X X) X b= X b Xw = b Logistic sigmoidal function Softmax function T Logistic regression 2 classes y = g( wx+ w0 ) p ( C ) p ( C T x ) σ( wx+ w ) = p( C x) = σ( a) wx T + w = a = K classes 0 1 T g ( wx w ) p( C ) k + 0 = k x= j 0 ln 1 1 p ( x C 2) p( C2) exp( αk ) exp( α ) j

Generalized logistic regression 2 classes Likelihood Cross entropy error function ελαχιστοποίηση Επαναληπτικός αληπτι υπολογισμός του w

Νευρωνικά δίκτυα (Neural networks): Αρχιτεκτονικές που μας προσφέρουν ευελιξία στην αναπαράσταση μη γραμμικών απεικονίσεων σε προβλήματα παλινδρόμησης/ ταξινόμησης της μορφής Δίκτυο πρόσω τροφοδότησης (feed forward) 2 στρωμάτων weights biases y = g( a ) k = 1, 2,..., K k k M D (2) (1) yk = g wkj h wji xi k = 1, 2,..., K j= 0 i= 0

Kolmogorov s theorem neural nets: Οποιαδήποτε συνεχής απεικόνιση y(x), όπου το x έχει διάσταση D μπορεί να αναπαρασταθεί ακριβώς από ένα δίκτυο τριών στρωμάτων με D(2D+1) μονάδες στο πρώτο στρώμα και 2D+1 στο δεύτερο Universal approximation property of neural networks Επίσης ένα νευρωνικό δίκτυο με τρία στρώματα και συναρτήσεις ενεργοποίησης κατωφλίου ή σιγμοειδείς μπορεί να αναπαραστήσει σύνορα οποιασδήποτε μορφής με αυθαίρετη ακρίβεια Οι τιμές των συντελεστών w που αντιστοιχούν σε μια συγκεκριμένη απεικόνιση δεν είναι μοναδικές Συναρτήσεις ενεργοποίησης a a e e tanh( a) = = 2 σ ( a) 1 a a e + e 0, a < 0 ga ( ) = 1, a 0

Συναρτήσεις σφάλματος Συνεχής έξοδος/έξοδοι Μοναδιαία συνάρτηση ενεργοποίησης στην έξοδο g(.) Πιθανοφάνεια Συνάρτηση σφάλματος E y = a =y t a k k k k k Ταξινόμηση 2 κλάσεις Συνάρτηση ενεργοποίησης Πιθανοφάνεια Συνάρτηση σφάλματος E a k t =y k k N tn p( t x,w) = y( x,w) {1 y( x,w)} n= 1 n N n 1 t { } E( w) = t ln y + (1 t )ln(1 y ) n= 1 n n n n n

Ταξινόμηση Κ κλάσεις Συναρτήσεις ενεργοποίησης Πιθανοφάνεια Συνάρτηση σφάλματος p E y = a =y t a k k k k k N K tnk ( T w) = ynk n= 1 k= 1

Εκπαίδευση δικτύου Ελαχιστοποίηση της συνάρτησης σφάλματος: Επαναληπτική Δεν έχουμε μοναδική λύση! Υπάρχουν ολικά και τοπικά ελάχιστα (global/local minima) δεν υπάρχει εγγύηση ότι μπορεί να βρεθεί το ολικό ελάχιστο genetic algorithms Οι τεχνικές βελτιστοποίησης για ΝΝ βασίζονται στη μέθοδο καθοδικής κλίσης Μπορούμε να έχουμε εκπαίδευση σε παρτίδες (batch) ήανάδείγμα(single sample/stochastic/ sequential gradient descent) Πως μπορεί να υλοποιηθεί η ελαχιστοποίηση σε δίκτυα πολλαπλών στρωμάτων?? Backpropagation

Εκπαίδευση δικτύου Error backpropagation Error backpropagation algorithm: Πρώτη αναφορά το 1969, όμως εκτεταμένη εφαρμογή μετά το 1986 (Rumelhart, Hinton, Williams) Ο όρος προέρχεται από το ότι έχουμε διάδοση «σφαλμάτων» προς τα πίσω σε ένα δίκτυο σύμφωνα με τον αλγόριθμο Επαναληπτική διαδικασία με τρία βασικά διακριτά στάδια σε κάθε βήμα 1. Οι τιμές όλων των z k, y k του δικτύου υπολογίζονται από τις «τρέχουσες» τιμές των παραμέτρων w 2. Οι παράγωγοι της συνάρτησης σφάλματος ως προς w υπολογίζονται με βάση τις τρέχουσες τιμές του w 3. Οι παράγωγοι αυτές χρησιμοποιούνται για να ενημερωθούν οι τιμές των βαρών w (gradient descent) Όπως θα δούμε η «διάδοση» των σφαλμάτων γίνεται στο στάδιο 2

Εκπαίδευση δικτύου Error backpropagation Στη γενική περίπτωση, έστω ότι έχουμε ένα δίκτυο πρόσω τροφοδότησης με (οποιεσδήποτε) συναρτήσεις ενεργοποίησης οι οποίες είναι διαφορίσιμες και με συνάρτηση σφάλματος Ε(w) αυτή μπορεί να είναι π.χ. κάποια από αυτές που ήδη είδαμε Ο αλγόριθμος χρησιμοποιεί επανειλημμένα τον κανόνα αλυσίδας (chain rule) f ( nw ( )) f nw ( ) = w n w Σε μια γενική αρχιτεκτονική πρόσω τροφοδότησης, κάθε μονάδα υπολογίζει το γραμμικό συνδυασμό: και στη συνέχεια τον (στη γενική περίπτωση μη γραμμικό) μετασχηματισμό h της παραπάνω: Σημ: αν z 0 =1 περιλαμβάνονται και biases

Error backpropagation Ξεκινάμε από την έξοδο του δικτύου. Η συνάρτηση σφάλματος είναι: Θέλουμε να υπολογίσουμε την παράγωγο του E n ως προς τον συντελεστή w ji (2) (δεύτερο στρώμα). Από τον κανόνα αλυσίδας: (1) Ορίζοντας το σφάλμα δ j ως και επειδή η (1) γράφεται: Για το στρώμα εξόδου όμως, είδαμε ότι και στις 3 περιπτώσεις συναρτήσεων κόστους (sum ofsquares, cosse cross entropy, opy, multi class ut cassentropy) που εξετάσαμε έχουμε: δ = y t j j j

Error backpropagation Πηγαίνουμε ένα στρώμα πίσω. Το σφάλμα για τις κρυμμένες μονάδες είναι: Το σφάλμα εξαρτάται μόνο τις μονάδες του επόμενου στρώματος με τις οποίες υπάρχει σύνδεση. Τελικά: ak a z k j δ j = δk = δk = h'( aj) δkwkj a z a k j k j j k αφού και Και πάλι: Πηγαίνοντας προς τα πίσω με τον ίδιο τρόπο μπορούμε να φτάσουμε μέχρι το στρώμα εισόδου και να υπολογίσουμε επαναληπτικά όλους τους συντελεστές

Error backpropagation Ο αλγόριθμος λοιπόν λειτουργεί ως εξής: 1. Αρχικοποίηση w (συνήθως τυχαίοι αριθμοί κοντά στο μηδέν) 2. Για οποιοδήποτε διάνυσμα εκπαίδευσης x n πηγαίνουμε προς τα μπροστά και υπολογίζουμε όλα τα z και a του δικτύου: Βήμα 2 3. Υπολογίζουμε τα σφάλματα εξόδου από την: 4. Πηγαίνουμε προς τα πίσω και υπολογίζουμε τα σφάλματα δ j = h '( aj ) δkwkj k 5. Υπολογίζουμε τις παραγώγους και ενημερώνουμε τις τιμές των συντελεστών Βήμα 4 w( k+ 1) = w( k) n( k) J( w) Σημ: Οι συναρτήσεις ενεργοποίησης μπορεί να είναι διαφορετικές σε κάθε στρώμα/μονάδα

Error backpropagation Παράδειγμα: Δίκτυο 2 στρωμάτων, τετραγωνικό σφάλμα, μοναδιαίες συναρτήσεις ενεργοποίησης στην έξοδο (y k =α k ) και συναρτήσεις ενεργοποίησης για τις κρυμμένες μονάδες: Βήμα 2 για την οποία ισχύει: Συνάρτηση σφάλματος: 1. Αρχικοποίηση 2. Forward dpopagato propagation

Error backpropagation 3. Σφάλμα εξόδου 4. Backpropagation για τις κρυμμένες μονάδες τα σφάλματα είναι: 5. Υπολογισμός παραγώγων και ενημέρωση Βήμα 4

Error backpropagation Και εδώ μπορούμε να έχουμε εκπαίδευση single sample sample ή batch Τυπικά τα δεδομένα εκπαίδευσης πρέπει να χρησιμοποιηθούν περισσότερες από μια φορές Ένα πέρασμα όλων των δεδομένων: epoch Single sample/stochastic: τυχαία παρουσίαση αρχικοποίηση w(1), n(1), θ επιλογή τυχαίου δείγματος x E wji ( k+ 1) = wji ( k) n( k) w μέχρι J ( w) θ Online: παρουσίαση δειγμάτων με τη σειρά Bth Batch k=1, αρχικοποίηση w (1), n(1), θ k=k+1 ji k x k E m = 1: N, Δ w = Δw n ( k ), w ( k + 1) = w ( k ) +Δ w w μέχρι J ( w) ji ji ji ji ji ji m x θ

Ορίζεται ως: The Jacobian matrix Τα στοιχεία του πίνακα αυτού μας δίνουν μια εικόνα της «ευαισθησίας» του δικτύου σε (μικρές) μεταβολές κάθε εισόδου x i Και αυτή η παράγωγος μπορεί να υπολογιστεί με backpropagation ως εξής: όπου το j περιλαμβάνει όλες τις μονάδες με τις οποίες συνδέεται η είσοδος x i Επιπλέον: όπου l όλες οι μονάδες που συνδέονται με τη μονάδα j

The Jacobian matrix Για σιγμοειδείς συναρτήσεις εξόδου: Για συναρτήσεις softmax: δ: Kronecker delta

Hessian matrix Hessian: πίνακας των δεύτερων παραγώγων της συνάρτησης σφάλματος ως προς τις παραμέτρους ενός δικτύου 2 E H = ij w ji wlk Επιτάχυνση εκπαίδευσης Κανονικοποίηση Bayesian networks Για W συνολικά βάρη και biases Ο(W 2 ) υπολογισμοί Σε κάποιες περιπτώσεις απαιτείται η αντιστροφή της Hessian προσέγγιση με διαγώνιο πίνακα (Bishop 5.4.1). Αν έχουμε Ν δείγματα το συνολικό σφάλμα είναι: N E = En n= 1 και μπορούμε να υπολογίσουμε την Hessian σε κάθε σημείο και να αθροίσουμε. Για το δίκτυο δύο στρωμάτων, τα στοιχεία του πίνακα μπορούν να υπολογιστούν με τον ίδιο τρόπο που είδαμε για τις πρώτες παραγώγους (backpropagation chain rule)

Τελικά προκύπτει Βάρη δεύτερου στρώματος Βάρη πρώτου στρώματος Hessian matrix Βάρη πρώτου και δεύτερου στρώματος όπου: και Ι jj τo στοιχείo (j,j j ) του μοναδιαίου πίνακα Εκτός από την προσέγγιση με διαγώνιο πίνακα, χρησιμοποιούνται και άλλες προσεγγίσεις (outer product approximation Bishop 5.4.2)

Κανονικοποίηση Αριθμός εισόδων/εξόδων: καθορίζεται από το πρόβλημα Αριθμός κρυμμένων μονάδων: καθορίζεται από το χρήστη με τη σειρά του καθορίζει την ικανότητα γενίκευσης του δικτύου Δυσκολία: Ύπαρξη τοπικών ελάχιστων

Κανονικοποίηση Όπως και στην παλινδρόμηση μπορούμε να θεωρήσουμε συνάρτηση σφάλματος της μορφής Έστω το δίκτυο 2 στρωμάτων με γραμμικές συναρτήσεις ενεργοποίησης εξόδου. Τι γίνεται αν εφαρμόσουμε γραμμικό μετ/σμό στην είσοδο ή/και στην έξοδο? Αν, μπορούμε να κρατήσουμε την απεικόνιση σταθερή αν

Παρομοίως, αν : Κανονικοποίηση Θα θέλαμε όταν το δίκτυο εκπαιδευτεί με τα αρχικά και τα μετ/σμένα δεδομένα, η απεικόνιση που προκύπτει να είναι συμβατή με τα παραπάνω Η απλή κανονικοποίηση ( ) δεν πληροί αυτή την προϋπόθεση. Όμως η: όπου W 1, W 2 τα σύνολα των βαρών του πρώτου και δεύτερου στρώματος (εκτός των biases) αν οι σταθερές λ 1 και λ 2 μετασχηματιστούν σύμφωνα με: 1/2 λ a λ λ 1 1 1/2 2 c 2 λ είναι αμετάβλητη ως προς το γραμμικό μετασχηματισμό (όχι όμως και τη μετατόπιση) Invariant regularizer under linear transformation

Κανονικοποίηση Η κανονικοποίηση αυτής της μορφής είναι ισοδύναμη με το να χρησιμοποιήσουμε εκ των προτέρων κατανομή για τα βάρη και να πάρουμε εκτίμηση MAP: Σημ: Η προηγούμενη σχέση δεν περιλαμβάνει τους συντελεστές bias, για τους οποίους μπορούμε να διαλέξουμε ξεχωριστές εκ των προτέρων κατανομές.

Τερματισμός εκπαίδευσης Άλλος ένας τρόπος ελέγχου της ισοδύναμης πολυπλοκότητας (effective complexity) ενός δικτύου είναι ο τερματισμός της εκπαίδευσης με βάση ένα σύνολο επικύρωσης (validation set) και η χρήση ενός τρίτου συνόλου (testing set) για τον υπολογισμό της απόδοσης Καμπύλες μάθησης (learning curves) Για τα δεδομένα εκπαίδευσης: μονοτονική μείωση, όχι όμως και για τα δεδομένα δ επικύρωσης Μάλιστα αν σταματήσουμε μετά από τ επαναλήψεις και η σταθερά μάθησης είναι n, η ποσότητα nτ είναι αντιστρόφως ανάλογη με την σταθερά κανονικοποίησης λ

Πρακτικά ζητήματα Συναρτήσεις ενεργοποίησης Μη γραμμικές, συνεχείς h και h Για προβλήματα ταξινόμησης, μοντέλα βιολογικών νευρωνικών δικτύων saturated h (πχ σιγμοειδής) Για προβλήματα παλινδρόμησης μη γραμμικότητες με μεγαλύτερο δυναμικό εύρος (π.χ. πολυωνυμικές ιστοσελίδα) Μονοτονικότητα επίσης μπορεί να είναι επιθυμητή καλύτερη συμπεριφορά της συνάρτησης σφάλματος ως προς τοπικά/ολικά ελάχιστα Γραμμικότητα για μικρές τιμές του ορίσματος Ησιγμοειδήςσ(α) σ(α) (ή ισοδύναμαηtanh(α)) πληροί αρκετές από τις παραπάνω και έχει χρησιμοποιηθεί αρκετά Αν οι συναρτήσεις ενεργοποίησης είναι π.χ. σιγμοειδείς ή πολυωνυμικές, κάθε δείγμα x μπορεί να επηρεάσει περισσότερες από μια μονάδες (global representation), αν όμως οι συναρτήσεις είναι τοπικές (π.χ. Γκαουσιανές radial basis function networks), λιγότερες μονάδες θα είναι ενεργές για κάθε δείγμα για λίγα δεδομένα εκπαίδευσης πιθανόν καλύτερα αποτελέσματα

Πρακτικά ζητήματα Κανονικοποίηση δεδομένων: Τα χαρακτηριστικά με μεγαλύτερες τιμές θα επηρεάζουν την επαναληπτική διαδικασία πολύ περισσότερο, δηλ. τα αντίστοιχα βάρη θα αλλάζουν πολύ πιο γρήγορα! Συνήθης πρακτική: κανονικοποίηση δεδομένων εισόδου ώστε να έχουν μηδενική μέση τιμή και μοναδιαία τυπική απόκλιση (data standardization) Αρχικοποίηση βαρών: Δεν μπορούμε να διαλέξουμε w(0)=0! Γενικά θέλουμε να έχουμε ομοιόμορφη μάθηση, δηλ. όλα τα βάρη να συγκλίνουν περίπου μετά τον ίδιο αριθμό επαναλήψεων. Αν εφαρμόσουμε και κανονικοποίηση, οπότε έχουμε θετικές και αρνητικές τιμές χαρακτηριστικών συνήθως επιλέγουμε αρχικές τιμές μεταξύ W W και W (πχ από μια ομοιόμορφη κατανομή), όπου το W δεν πρέπει να είναι πολύ μικρό ή μεγάλο (αργή μάθηση/κορεσμός για σιγμοειδείς). Π.χ. αν έχουμε σιγμοειδείς συν. ενεργοποίησης μπορούμε να διαλέξουμε το W ώστε να βρισκόμαστε στη γραμμική περιοχή τους

Πρακτικά ζητήματα Σταθερές μάθησης: Εφόσον η σύγκλιση σε ολικό ελάχιστο δεν είναι εγγυημένη, η επιλογή μπορεί να επηρεάσει την ποιότητα της τελικής λύσης. Είδαμε ότι αν η συνάρτηση κόστους προσεγγιστεί από τετραγωνική μορφή, η βέλτιστη επιλογή είναι η αντίστροφη της Hessian (μέθοδος Newton), δηλ. για κάθε βάρος μπορούμε να χρησιμοποιήσουμε: 2 1 E n = opt 2 w ji Momentum: Επιταχύνει τη μάθηση σε περιοχές με μικρή κλίση της de/dw w( k+ 1) = w( k) + (1 a) Δ w ( k ) + aδw( k 1) E όπου Δ wbp ( k) = n( k) w ij bp x k Συνήθως α γύρω στο 0.9. Γενικά πιο ομαλή σύγκλιση Αριθμός στρωμάτων: Τρία στρώματα επιτυγχάνουν καθολική προσέγγιση, άρα στις περισσότερες ρ περιπτώσεις δεν υπάρχει ανάγκη για παραπάνω, εκτός από ειδικές συνθήκες (π.χ. αν θέλουμε αμεταβλητότητα ως προς θέσηστη συνέχεια)

Αμεταβλητότητα (invariance) Σε πολλά προβλήματα αναγνώρισης προτύπων είναι επιθυμητό η πρόβλεψη του δικτύου να παραμένει αμετάβλητη όταν οι μεταβλητές εισόδου (features) μετασχηματίζονται είτε κατά πλάτος ή κατά θέση (scale/translation invariant) Ένας τρόπος είναι να έχουμε μεγάλο πλήθος δεδομένων εκπαίδευσης που καλύπτουν όλες τις περιπτώσεις (όχι πάντα εφικτό) Εναλλακτικά: Μπορούμε να δημιουργήσουμε «τεχνητά» ά πρότυπα ξεκινώντας από τα αρχικά δεδομένα εκπαίδευσης και εφαρμόζοντας μετασχηματισμούς που αντιστοιχούν στη ζητούμενη αμεταβλητότητα (π.χ. μετατόπιση, περιστροφή)

Αμεταβλητότητα (invariance) Εναλλακτικά: Κανονικοποίηση (tangent propagation 5.5.4 Bishop) Προεπεξεργασία δεδομένων (pre processing): Επιλέγουμε χαρακτηριστικά των δεδομένων μας που παραμένουν αμετάβλητα υπό τους μετασχηματισμούς που μας ενδιαφέρουν πχ ροπές, principal component analysis Ενσωμάτωση της αμεταβλητότητας στη δομή του δικτύου π.χ. στην περίπτωση εικόνων, τα γειτονικά pixels είναι περισσότερο συσχετισμένα. Μπορούμε να έχουμε ένα στρώμα που εξάγει τοπικά χαρακτηριστικά (από μικρές περιοχές της αρχικής εικόνας) και τα ενσωματώνει στα επόμενα στρώματα.

Αμεταβλητότητα (invariance) Convolutional neural networks: Οι μονάδες στο στρώμα συνέλιξης λαμβάνουν πληροφορία από μικρές «γειτονιές» της αρχικής εικόνας, π.χ. 5x5 pixels. Όλες οι μονάδες συνδέονται με βάρη ίδιων τιμών με τις γειτονιές αυτές (weight sharing), άρα έχουμε 25 βάρη (+1 bias) και στην ουσία οι μονάδες «ανιχνεύουν» τα ίδια χαρακτηριστικά αλλά από άλλες περιοχές της εικόνας. Αν η εικόνα μετατοπιστεί, το χαρακτηριστικό θα μετατοπιστεί επίσης. Για περισσότερα χαρακτηριστικά περισσότερα στρώματα συνέλιξης. Subsampling layer: περαιτέρω αμεταβλητότητα Παρόμοια εκπαίδευση (backpropagation) Εφαρμογές σε αναγνώριση χειρόγραφων χαρακτήρων, προσώπων κλπ

Bayesian neural networks Μέχρι στιγμής χρησιμοποιήσαμε μέγιστη πιθανοφάνεια για την εκπαίδευση ενός δικτύου Κανονικοποίηση: ισοδύναμη με εκτίμηση MAP Μπορούμε να χρησιμοποιήσουμε και την Μπεϋζιανή θεώρηση Στην περίπτωση της γραμμικής παλινδρόμησης με Γκαουσιανό θόρυβο πήραμε αναλυτικά αποτελέσματα για τις εκ των υστέρων κατανομές των συντελεστών w και την προγνωστική κατανομή ή( (predictive distribution) Εδώ δεν μπορεί να γίνει το ίδιο: προσεγγίσεις (variational inference/laplace approximation) Στην περίπτωση συνεχούς μεταβλητής στόχου t η πιθανοφάνεια είναι: Κανονική εκ των προτέρων κατανομή για τα βάρη: Πιθανοφάνεια για Ν ανεξάρτητες παρατηρήσεις D={t 1,t 2,,t N }:

Εκ των υστέρων κατανομή: Bayesian neural networks Η κατανομή αυτή, λόγω της μη γραμμικής εξάρτησης του y(x,w) ως προς w δεν είναι κανονική ως προς w Ένας τρόπος (Laplace approximation) είναι να προσεγγίσουμε αυτή την κατανομή με κανονική, γύρω από το μέγιστο της εκ των υστέρων κατανομής (δηλ. της εκτίμησης MAP). Αυτό γίνεται ελαχιστοποιώντας την: Ισοδυναμία με κανονικοποίηση οι μερικές παράγωγοι υπολογίζονται με backpropagation. Η κανονική προσέγγιση της posterior δίνεται τότε από (Laplace approximation): όπου Η: Hessian Μπορούμε προσεγγιστικά να πάρουμε αποτελέσματα επίσης για την προγνωστική κατανομή και τις υπερπαραμέτρους α,β (generalized likelihood Bishop 5.7.1)

Bayesian neural networks Για δίκτυο ταξινόμησης σε 2 κλάσεις με σιγμοειδή συνάρτηση ενεργοποίησης εξόδου η πιθανοφάνεια είναι: Και πάλι θεωρούμε κανονική εκ των προτέρων κατανομή για τα βάρη με ακρίβεια α. Όπως και στην περίπτωση συνεχούς t υπολογίζουμε το w MAP ελαχιστοποιώντας (backpropagation) την: Κατόπιν, υπολογίζουμε την Hessian και η εκ των υστέρων κατανομή παίρνει και πάλι τη μορφή Το α μπορεί να υπολογιστεί μεγιστοποιώντας την περιθωριακή πιθανοφάνεια