HMY 795: Αναγνώριση Προτύπων

Σχετικά έγγραφα
HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ

Το μοντέλο Perceptron

Ορίζουμε την τυπική πολυδιάστατη κανονική, σαν την κατανομή του τυχαίου (,, T ( ) μεταξύ τους ανεξάρτητα. Τότε

Χαρακτηριστική Εξίσωση Πίνακα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

HMY 795: Αναγνώριση Προτύπων

Λυμένες ασκήσεις στροφορμής

Αναγνώριση Προτύπων Ι

Kεφάλαιο 4. Συστήματα διαφορικών εξισώσεων. F : : F = F r, όπου r xy

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

Σπιν 1 2. Γενικά. Ŝ και S ˆz γράφονται. ιδιοκαταστάσεις αποτελούν ορθοκανονική βάση στον χώρο των καταστάσεων του σπιν 1 2.

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

, που, χωρίς βλάβη της γενικότητας, μπορούμε να θεωρήσουμε χρονική στιγμή μηδέν, δηλαδή

HMY 799 1: Αναγνώριση Συστημάτων

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

HMY 799 1: Αναγνώριση Συστημάτων

ΕΠΑΝΑΛΗΠΤΙΚΗ ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ 3 Ιουλίου 2010

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 9-10

X 1 X 2. X d X = 2 Y (x) = e x 2. f X+Y (x) = f X f Y (x) = f X (y)f Y (x y)dy. exp. exp. dy, (1) f X+Y (x) = j= σ2 2) exp x 2 )

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 1. Σταύρος Παπαϊωάννου

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

μαγνητικό πεδίο τυχαίας κατεύθυνσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

(p 1) (p m) (m 1) (p 1)

Ταξινόμηση καμπυλών και επιφανειών με τη βοήθεια των τετραγωνικών μορφών.

Εφαρμοσμένη Στατιστική

Εισαγωγικές έννοιες. Κατηγορίες προβλημάτων (σε μια διάσταση) Προβλήματα εύρεσης μεγίστου. Συμβολισμοί

Αναγνώριση Προτύπων Ι

είναι πρόβλημα μεγιστοποίησης όλοι οι περιορισμοί είναι εξισώσεις με μη αρνητικούς του σταθερούς όρους όλες οι μεταβλητές είναι μη αρνητικές

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

3. Μια πρώτη προσέγγιση στην επίλυση των κανονικών μορφών Δ. Ε.

HMY 795: Αναγνώριση Προτύπων

Δίνεται το σύστημα μιας εισόδου και μιας εξόδου, το οποίο περιγράφεται από τις κάτωθι εξισώσεις:,, πίνακας,

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ζητήματα ηήμ με τα δεδομένα

Σφαίρα σε ράγες: Η συνάρτηση Lagrange. Ν. Παναγιωτίδης

Εφαρμοσμένα Μαθηματικά ΙΙ Εξέταση Σεπτεμβρίου Διδάσκων: Ι. Λυχναρόπουλος

Συστήµατα Μη-Γραµµικών Εξισώσεων Μέθοδος Newton-Raphson

Αναγνώριση Προτύπων Ι

Παραδείγματα Ιδιοτιμές Ιδιοδιανύσματα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

ΠΛΗ 12 - Ιδιοτιμές και ιδιοδιανύσματα

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Δηλαδή η ρητή συνάρτηση είναι πηλίκο δύο ακέραιων πολυωνύμων. Επομένως, το ζητούμενο ολοκλήρωμα είναι της μορφής

E[ (x- ) ]= trace[(x-x)(x- ) ]

Συζευγμένα ταλαντώσεις - Ένα άλλο σύστημα

= 7. Στο σημείο αυτό θα υπενθυμίσουμε κάποιες βασικές ιδιότητες του μετασχηματισμού Laplace, δηλαδή τις

Δυναμική Μηχανών I. Διάλεξη 13. Χειμερινό Εξάμηνο 2013 Τμήμα Μηχανολόγων Μηχ., ΕΜΠ

Κεφάλαιο 8 Συνεχείς Κατανομές Πιθανοτήτων

ΚΒΑΝΤΟΜΗΧΑΝΙΚΗ. Ασκήσεις Κεφαλαίου Ι

E [ -x ^2 z] = E[x z]

Η μέθοδος PCA -Ανάλυση Κύριων Συνιστωσών

Αριθμητική Ανάλυση και Εφαρμογές

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Σφαίρα σε ράγες: Η συνάρτηση Lagrange. Ν. Παναγιωτίδης

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

y 1 (x) f(x) W (y 1, y 2 )(x) dx,

Δυναμική Μηχανών I. Διάλεξη 12. Χειμερινό Εξάμηνο 2013 Τμήμα Μηχανολόγων Μηχ., ΕΜΠ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων

Transcript:

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 23-24 Μη επιβλεπόμενη μάθηση (συνέχεια): Μη επιβλεπόμενη μάθηση (συνέχεια): Gaussian mixtures and expectation maximization Feature selection/generation: Ανάλυση κύριων συνιστωσών (Principal component analysis)

Support vector machines -Μη γραμμικά διαχωρίσιμα δεδομένα: ξ n 0(n=,2,,) 0 αν το σηµείο n είναι σωστά ταξινοµηµένο ξn = tn y( xn ) ειδάλλως Τ Περιορισμοί tn( w xn+ b) ξn n=,2,..., Ελαχιστοποίηση της 2 Cξn+ w n= 2 2 L( w, b, a) = w + Cξn an( tny( xn ) + ξ n) µ nξn 2 KK conditions n= n= n=

Δυαδική Lagrangian: Lɶ ( a) = a aa tt ( x, x ) n n m n m n m n= 2 n= m= Support vectors: tn( w Τ xn+ b) = ξn a n <C µ n >0, ξ n =0, πάνω στο περιθώριο a n =C εντός περιθωρίου ξ n σωστάταξινομημένα ξ n > λάθοςταξινομημένα Bias estimation tn amtm( xn, xm) + b = m S Multiclass SVMs one-vs-the-rest: K- 2 class classifiers one-versus-one: (K(K-)/2) 2 class SVMs

0 αν y( x) t < ε SVMs for regression Eε ( y( x) t) = y( x) t - ε αλλιώς Συνάρτηση σφάλματος: n n n CEε ( y( xn) tn) + 2 n= ξ > 0 αν t > y( x ) + ε ˆ ξ > 0 αν t < y ( x ) ε n n n Πρόβλημα βελτιστοποίησης: 2 minimize C ( ˆ ) s.t., ˆ ξn+ ξn + w ξn ξn 0 and 2 Lagrangian n= w t y( x ) + ε+ ξ n n n t ( ) ˆ n y xn ε ξn 2 L= C ( ξ + ˆ ξ ) + w ( µ ξ + ˆ µ ˆ ξ ) n n n n n n n= 2 n= ( ε ξ ( x ) ) ˆ ( ˆ ε ξ ( x ) ) a + + y t a + y + t n n n n n n n n n= n= 2

Συνθήκες: Δυαδική Lagrangian L( aa, ˆ) = ( a aˆ )( a aˆ ) ( x, x ) ε( a + aˆ ) + ( a aˆ ) t 2 KK conditions n n m m n m n n n n n n= m= n= n= a n > 0 ε+ ξn+ y( xn) tn = 0 a ˆ > 0 ε+ ˆ ξ y( x ) + t = 0 n n n n

Unsupervised learning: clustering Εύρεση συνόλου διανυσμάτων µ όπου=,2,,k και την αντιστοιχία κάθε προτύπου σε μια από τις ομάδες r n ={0,}(r n =αν το σημείο x n ανατεθεί στην κλάση ):. Αρχικοποίηση µ 2. Ελαχιστοποίηση J ως προς r n 3. ΕλαχιστοποίησηJ ως προς µ Mixture models: component densities K p( x θ) = p( x C, θ ). pc ( ) = όπου θ= ( θ, θ,..., θ ) 2 mixing parameters

Ορισμός:Μια κατανομή λέγεται αναγνωρίσιμη αν για θ θ τότε υπάρχει xτέτοιο ώστε p(x θ) p(x θ ) K ML estimation: p( x θ) p( x C, θ ) pc ( ) Lielihood: Συνθήκες: = j= = n= j j p( D θ) p( x θ) n== Gaussian mixtures: Άγνωστες μέσες τιμές: Άρα πρέπει: n j pc ( x, θ) ln p( x C, θ ) = 0 =,2,..., K n µ x µ x µ n= K θ = ln p( C, ) ( ) =Σ pc x µ x µ ( n, ) Σ ( n ) = 0 µ = ( µ,..., µ ) n p( x θ) = π ( x µ, Σ ) ( π = pc ( ), p( x C, θ ) = ( x µ, Σ ))

Expectation maximization for Gaussian mixtures K = Επιστρέφουμε στην: p( x θ) π ( x µ, Σ ) = Έστω ότι τα µ, Σ, π είναι άγνωστα. Ορίζουμε το τυχαίο διάνυσμα z(διάσταση Κ) ώστε Η κατανομή για το διάνυσμα είναι επομένως και ισχύει: Η υπό συνθήκη κατανομή του xδεδομένης της τιμής του zείναι: ή ισοδύναμα: Η συνδυασμένη πιθανότητα είναι τότε: p( xz, ) = p( x z) p( z) Επομένως η περιθωριακή πιθανότητα p(x) είναι η αρχική μείξη Γκαουσιανών: p( x) = p( xz, ) = p( x z) p( z) = π ( x µ, Σ ) z z K =

Expectation maximization for Gaussian mixtures Ας υποθέσουμε ότι έχουμε το σύνολο παρατηρήσεων{x,x 2,,x } Για κάθε παρατήρηση x n έχουμε και μια αντίστοιχη τιμή για το τυχαίο διάνυσμα z n Η χρήση των βοηθητικών μεταβλητών z n μπορεί να μας βοηθήσει πως? Μπορούμε να υπολογίσουμε την εκ των υστέρων πιθανότητα p(z = x) από τον κανόνα του Bayes Συγκεκριμένα, η πιθανότητα αυτή αφού πάρουμε μια παρατήρηση x είναι: Prior Posterior (responsibility)

Expectation maximization for Gaussian mixtures Ξαναγράφουμε τις συνθήκες για τις μέσες τιμές των συνιστωσών (μεγιστοποίηση ML): (, ) π x µ Σ n pc ( x n, µ ) Σ ( x n µ ) = 0 Σ ( x n µ ) = 0 K n= n= ( x n µ j, Σj ) πj j= Ισοδύναμα: µ = γ ( z ) x () n= n n όπου = γ ( z ) n= n effective number of points assigned to class Θέτοντας την παράγωγο της πιθανοφάνειας ως προς Σ ίση με μηδέν: (2) Τέλος, πρέπει να μεγιστοποιήσουμε την πιθανοφάνεια ως προς π υπό τη συνθήκη Lagrange multipliers: όπου

Expectation maximization for Gaussian mixtures Παραγωγίζοντας ως προς π : Πολλαπλασιάζοντας επί π και αθροίζοντας ως προς, καθώς παίρνουμε λ=-ν. Κατόπιν πολλαπλασιάζοντας επί π παίρνουμε (αντικαθιστώντας λ=-ν): π( x n µ, Σ ) π( x n µ, Σ ) 0= π K π = K n= n= π ( x µ, Σ ) π ( x µ, Σ ) j= n n= j n j j π = γ ( z ) = Οι εξισώσεις (),(2),(3) είναι συζευγμένες: επαναληπτική λύση j= j n j j (3)

Expectation maximization for Gaussian mixtures. Αρχικοποιούμε τις άγνωστες παραμέτρους µ, Σ και π 2. Υπολογίζουμε τις παραμέτρους γ(z n ) οι οποίες αντιστοιχούν στην τρέχουσα εκτίμηση της εκ των υστέρων πιθανότητας για κάθε κλάση για το σημείο n (responsibilities) γ ( z ) = n π ( x µ ˆ, Σˆ ) K j= n π ( x µ ˆ, Σˆ ) j n j j E- step 3. Υπολογίζουμε τις νέες τιμές των παραμέτρων από τις σχέσεις: µ ( ) x όπου ( ) new = γ zn n = γ zn n= n= Σ = new new new γ ( zn )( x n µ )( x n µ ) n= new π = 4. Υπολογίζουμε το log-lielihood Μ-step 5. Ελέγχουμε αν το log-lielihood ή οι παράμετροι έχουν συγκλίνει

Expectation maximization for Gaussian mixtures Παράδειγμα: Μείξη δύο Γκαουσιανών

Expectation maximization for Gaussian mixtures Γενικώς η σύγκλιση του αλγορίθμου είναι πιο αργή από τον αλγόριθμο K-means και περισσότερο απαιτητική υπολογιστικά Συνήθως αρχικοποιούμε τον αλγόριθμο ΕΜ αφού πρώτα τρέξουμε τον Κ-means (means, sample covariances, prior probabilities) Οι συντελεστές μείξης μπορούν να αρχικοποιηθούν από το κλάσμα των σημείων που ανατίθενται στην αντίστοιχη κλάση Δεν έχουμε εγγυημένη σύγκλιση σε ολικό ελάχιστο

Expectation maximization Στη γενική περίπτωση ο αλγόριθμος expectation maximizationείναι μια γενίκευση της εκτίμησης μέγιστης πιθανοφάνειας (ML) σε περιπτώσεις στις οποίες μπορεί να μας λείπουν κάποια δεδομένα ή σε αυτές όπου δεν είναι δυνατή η αναλυτική βελτιστοποίηση της πιθανοφάνειας ως προς τις παραμέτρους του μοντέλου μας Στην τελευταία περίπτωση μπορούμε να χρησιμοποιήσουμε ένα σύνολο βοηθητικών μεταβλητών(latent variables)για να απλοποιήσουμε την πιθανοφάνεια Έτσι, αν: p( X θ) p( x θ) = n= n ορίζοντας ένα σύνολο βοηθητικών μεταβλητών Ζ, τότε αν οι τελευταίες είναι διακριτές, η περιθωριακή λογαριθμική πιθανοφάνεια είναι: ln p( X θ) = ln p( X,Z θ) Z Στη γενική περίπτωση είναι δύσκολο να βρεθεί η λύση μέγιστης πιθανοφάνειας της παραπάνω Αν για κάθε παρατήρηση που ανήκει στο Χγνωρίζουμε και την αντίστοιχη τιμή του Zδηλ. το {X,Z}: complete set {X}(σύνολο παρατηρήσεων): incomplete set

Expectation maximization Λογαριθμική πιθανοφάνεια για το σύνολο {X,Z}: ln p( XZ, θ) Υποθέτουμε ότι η μεγιστοποίηση της συνολικής πιθανοφάνειας είναι δυνατή Στην πράξη μόνο το Χείναι γνωστό και η μόνη γνώση που έχουμε για το Ζ προέρχεται από την εκ των υστέρων πιθανότητα p(z X,θ) Καθώς η συνολική πιθανοφάνεια είναι άγνωστη, θεωρούμε την αναμενόμενη τιμή τηςυπό την ανωτέρω εκ των υστέρων πιθανότητα (E step) και Μεγιστοποιούμε αυτή την αναμενόμενη τιμή (Μ step) Η διαδικασία είναι επαναληπτική και μας δίνει μια νέα εκτίμηση θ new, ανανεώνοντας την προηγούμενη θ old Για να υπολογίσουμε την αναμενόμενη τιμή υπολογίζουμε αρχικά την εκ των υστέρων p(z X,θ old ) και κατόπιν την (υπό συνθήκη) αναμενόμενη τιμή: Η νέα εκτίμηση δίνεται επομένως από την:

Expectation maximization Άρα ο αλγόριθμος στη γενική του μορφή είναι: Αρχικοποίηση θ 0 Υπολογισμός και (Ε step expectation) Ενημέρωση των παραμέτρων από την (M step maximization) Έλεγχος σύγκλισης για τη λογαριθμική πιθανοφάνεια ή τις παραμέτρους Σε κάθε βήμα έχουμε αύξηση της μερικής πιθανοφάνειας p(x θ). Επίσης, η σύγκλιση σε τοπικό μέγιστο είναι εγγυημένη Μπορούμε να ενσωματώσουμε και μια εκ των προτέρων πιθανότητα για τις παραμέτρους p(θ) μεγιστοποίηση της στο βήμα Μ Μπορούμε να χρησιμοποιήσουμε τον αλγόριθμο ΕΜ και στην περίπτωση που οι βοηθητικές μεταβλητές αντιστοιχούν σε χαμένα δεδομένα (όπου αυτά αντιστοιχούν στο Ζ). Επίσης οι βοηθητικές μεταβλητές μπορεί να είναι συνεχείς (ολοκλήρωμα αντί για άθροισμα στην αναμενόμενη τιμή)

Expectation maximization Επιστρέφουμε στο πρόβλημα της μείξης Γκαουσιανών κατανομών. Η λογαριθμική πιθανοφάνεια είναι: Εδώ οι βοηθητικές μεταβλητές Ζείναι οι συντελεστές π. Η συνολική πιθανοφάνεια είναι: Log-lielihood: Η μορφή αυτή, όπου τα z n θεωρούνται γνωστάείναι απλούστερη στη λύση της με μέγιστη πιθανοφάνεια Επειδή το z n είναι μόνο αν το σημείο n ανατίθεται στην κλάση, η μεγιστοποίηση ως προς µ ή Σ είναι παρόμοια με την περίπτωση κλάσης αλλά απλά περιλαμβάνει μόνο τα σημεία που ανατίθενται στην κλάση Για τους συντελεστές μείξης π χρησιμοποιούμε πολλ/στεςlagrangeοπότε παίρνουμε:

Expectation maximization Οι τιμές των z n όμως δεν είναι γνωστές, άρα πρέπει να εκτιμηθούν (Ε step). Η εκ των υστέρων πιθανότητα για το Ζ είναι (κανόνας Bayes): καθώς και Η αναμενόμενη τιμή της μεταβλητής z n είναι: n Hαναμενόμενη τιμή της λογαριθμικής πιθανοφάνειας ως προς z n είναι: Καταλήξαμε επομένως στο ίδιο αποτέλεσμα με πριν

Επιλογή/ δημιουργία χαρακτηριστικών (Feature selection/ generation) Όπως έχουμε δει ήδη, η επιλογή των χαρακτηριστικών (features) σε ένα πρόβλημα είναι ιδιαίτερα σημαντική Η επιλογή αυτή επηρεάζει τις διαστάσεις του προβλήματος, άρα και την υπολογιστική του πολυπλοκότητα Μπορεί να επηρεάσει επίσης και την ικανότητα γενίκευσης της λύσης πολλά χαρακτηριστικά μεγαλύτερος αριθμός άγνωστων παραμέτρων Γενικά θέλουμε να επιλέξουμε τον μικρότερο δυνατό αριθμό χαρακτηριστικών χωρίς να χάνουμε σημαντική πληροφορία, καθώς έχουμε πεπερασμένο αριθμό παρατηρήσεων π.χ. αν έχουμε χαρακτηριστικά που είναι ισχυρά συσχετισμένα μεταξύ τους δεν είναι αναγκαίο να τα χρησιμοποιήσουμε όλα στον αλγόριθμό μας Πως μπορούμε να επιλέξουμε τα πιο σημαντικά χαρακτηριστικά από ένα σύνολο πιθανών χαρακτηριστικών? Feature selection Έχουμε ήδη εξετάσει αυτό το πρόβλημα από τη σκοπιά της επιλογής μοντέλου Εναλλακτικά, πως μπορούμε να δημιουργήσουμε ένα (πιθανόν) νέο σύνολο χαρακτηριστικών με βάση το αρχικό μας σύνολο? Feature generation Fisher s linear discriminant

Principal component analysis Feature generation: Σκοπός ο μετασχηματισμός των αρχικών μας χαρακτηριστικών σε ένα νέο σύνολο που απλοποιεί το πρόβλημά μας Μια πολύ δημοφιλής τεχνική αυτού του τύπου είναι η ανάλυση κύριων συνιστωσών (principal component analysis) Σε πολλές περιπτώσεις, οι βαθμοί ελευθερίας σε ένα πρόβλημα είναι πολύ λιγότεροι από τις διαστάσεις στο χώρο εισόδου Π.χ. χαρακτήρες ίδιου τύπου οριζόντια/κάθετη μετατόπιση και περιστροφή σε μια εικόνα 00x00: 0,000-διάστατος χώρος εισόδου Βαθμοί ελευθερίας: 3! (intrinsic dimensionality) Ακόμη και για πιο περίπλοκους μετασχηματισμoύς, οι βαθμοί ελευθερίας είναι (συνήθως) κατά πολύ λιγότεροι από τη διάσταση του χώρου εισόδου

Principal component analysis Principal component analysis (Ανάλυση κύριων συνιστωσών)/ Karhuenen-Loeve transform: τεχνική που χρησιμοποιείται ευρέως για τη μείωση των διαστάσεων ενός προβλήματος, δημιουργία χαρακτηριστικών (feature generation) Η μέθοδος PCA αναζητάει έναν χώρο χαμηλότερης διάστασης (principal subspace) ώστε η ορθογώνια προβολή των δεδομένωνσε αυτόν τον χώρο να μεγιστοποιεί τη διασπορά των προβαλλόμενων σημείων Έστω ότι έχουμε ένα σύνολο Ν παρατηρήσεων {x n} με διάσταση D και θέλουμε να προβάλλουμε σε χώρο διάστασης Μ<D Έστω ότι Μ=. Η κατεύθυνση αυτού του χώρου ορίζεται από την κατεύθυνση ενός (άγνωστου) διανύσματος διάστασης D u το οποίο μπορούμε να διαλέξουμε ώστε uu = Προβολές των αρχικών σημείων: x ɶn =uxn Μέση τιμή των προβαλλόμενων δεδομένων ux= u x n = n

Principal component analysis Διασπορά των προβαλλόμενων δεδομένων ( n ) n= 2 = u x u x u Su S= n n n= ( x x)( x x) t Μεγιστοποίηση της διασποράς ως προς u υπό τον περιορισμό u u = Lagrange multiplier λ μεγιστοποίηση της usu + λ ( uu ) Παραγωγίζοντας ως προς u Su =λ u Άρα το u είναι ιδιοδιάνυσματου S!Η αντίστοιχη διασπορά είναι: Τ usu = λ και είναι μέγιστη για το ιδιοδιάνυσμα που αντιστοιχεί στη μέγιστη ιδιοτιμή Μπορούμε να ορίσουμε επιπρόσθετες συνιστώσες ( umx ) επιλέγοντας τα Μ ιδιοδιανύσματα u,,u Μ που αντιστοιχούν στις Μ μεγαλύτερες ιδιοτιμές του πίνακα S.

Principal component analysis Εναλλακτική διατύπωση έστω η πλήρης ορθοκανονικήβάση {u i }στο χώρο D R (άρα uiuj =δij ) Εφόσον έχουμε πλήρη βάση, υπάρχουν συντελεστές a ni τέτοιοι ώστε για κάθε x R D D : n xn =aniui i= () Άρα έχουμε ένα νέο σύστημα συντεταγμένων που ορίζεται από τα διανύσματα {u i }και τους συντελεστές (i=,2,,d). Από την (): D D n = ani i n j = ani i j anj = n j i= i= x u x u u u x u x n = D ( ) i= x u u n i i a ni Έστω τώρα ότι θέλουμε να προσεγγίσουμε το σημείο x n χρησιμοποιώντας Μ<D διανύσματα από τη βάση. Μπορούμε να προσεγγίσουμε κάθε σημείο ως: M x ɶ = z u + b u n ni i i i i= i= M+ D όπου οι συντελεστές b i δεν εξαρτώνται από το σημείο αλλά είναι οι ίδιοι για όλα τα σημεία.

Principal component analysis Ποια είναι τα {u i }, {z ni }, {b i } που ελαχιστοποιούν το σφάλμα προσέγγισης? Ελαχιστοποίηση της J n n = x xɶ n = 2 Ως προς z nj : z nj =xnuj j=,2,,m x= x Ως προς b j : b j=m+,,d j =x u n = j Αντικαθιστώντας: D M D ( ) z x x ɶ = x u u u b u = n n n i i ni i i i i= i= i= M+ D i= M+ {( n ) } = x x u u i i n Άρα η διαφορά μεταξύ των δύο διανυσμάτων βρίσκεται σε ένα χώρο ορθογώνιο στον κύριο υποχώρο. Τελικά: J ( x u x u ) 2 D D n i i uisui n= i= M+ i= M+ = = Ελαχιστοποίηση ως προς u i : Πχ για D=2, M= πρέπει να διαλέξουμε το u 2 ώστε το ελάχιστο υπό τον περιορισμό u u = 2 2 J =u2su2 να είναι

Principal component analysis Παρόμοια με πριν Lagrange multipliers, ελαχιστοποίηση της Su = λ u J = λ 2 2 2 2 u Su + λ ( u u ) 2 2 2 2 2 Άρα πρέπει να διαλέξουμε το ιδιοδιάνυσμα u 2 που αντιστοιχεί στη μικρότερη ιδιοτιμήτου S(οπότε αυτομάτως το u είναι το ιδιοδιάνυσμα που αντιστοιχεί στη μεγαλύτερη ιδιοτιμή) Στη γενική περίπτωση Μ<D έχουμε D J = λi i= M+ επομένως παίρνουμε ακριβώς το ίδιο αποτέλεσμα (principal subspace: ιδιοδιανύσματα που αντιστοιχούν στις Μ μεγαλύτερες ιδιοτιμές του πίνακα S)

Παράδειγμα Principal component analysis Eigenvalue spectrum J D = i= M+ λ i

Η προσέγγιση μπορεί να γραφτεί: καθώς: M xɶ = z u + bu = n ni i i i i= i= M+ M D ( xnui ) ui i= i= M+ M = x+ ( x u x u ) u i= n i D Principal component analysis ( ) = + x u u = x D = i= ( x u ) u i i i i i i Η παραπάνω σχέση μπορεί να ερμηνευθεί ως συμπίεση (compression) των αρχικών μας δεδομένων

Principal component analysis Data pre-processing (προ-επεξεργασία) Είδαμε ότι σε εφαρμογές όπου διαφορετικές μεταβλητές χαρακτηρίζονται από μεγάλες διαφορές στις τιμές μπορούμε να εφαρμόσουμε κανονικοποίηση Π.χ. μπορούμε να κανονικοποιήσουμε αφαιρώντας τη μέση τιμή και διαιρώντας με την τυπική απόκλιση, ώστε οι νέες μεταβλητές να έχουν μηδενική μέση τιμή και μοναδιαία τυπική απόκλιση Τι σημαίνει αυτό για ένα πρόβλημα δύο διαστάσεων? Ο πίνακας συνδιακύμανσης των κανονικοποιημένων δεδομένων(χαρακτηριστικών) είναι: ( x ) ( nj j ) ni x x x i ρij = σ σ n= i j H μέγιστη τιμή του στοιχείου ijείναι, όταν τα αντίστοιχα χαρακτηριστικάx i και x j είναι πλήρως συσχετισμένα Μπορούμε να πάμε ένα βήμα παραπέρα χρησιμοποιώντας PCA,και να κανονικοποιήσουμετα δεδομένα έτσι ώστε ο πίνακας συνδιακύμανσης να γίνει επιπλέον και λευκός (αποσυσχετίζουμε τα δεδομένα whitening transform) Μετασχηματισμός ιδιοτιμών για τον S: SU= UL L=diag( λ,..., λ D )

Principal component analysis Αν μετασχηματίσουμε τα αρχικά δεδομένα μας σύμφωνα με την: y L U ( x x) 2 n = n τότε η μέση τιμή του συνόλου {y n } είναι μηδενική και ο πίνακας συνδιακύμανσης είναι: Σ = y y = L U x x x x UL = 2 2 y n n ( n )( n ) n= n= 2 2 2 2 2 2 = = = = L U SUL L U ULL L LL I

Principal component analysis Σύγκριση με Fisher s LDA: PCA μη επιβλεπόμενη, Fisher s LDA - επιβλεπόμενη

Principal component analysis Σε πολλές εφαρμογές (π.χ. εικόνες), ο αριθμός των προτύπων εκπαίδευσης (δεκάδες εκατοντάδες) μπορεί να είναι αρκετά μικρότερος από τη διάσταση του χώρου εισόδου (χιλιάδες εκατομμύρια) Σε αυτές τις περιπτώσεις, ο αριθμός των παρατηρήσεων Ν(<D) ορίζει έναν υποχώροτου οποίου η διάσταση είναι το πολύ Ν- (ισοδύναμα αν εφαρμόσουμε PCA στον αρχικό χώρο θα βρούμε ότι τουλάχιστον D-+ ιδιοτιμές θα είναι μηδενικές) Άρα η εφαρμογή PCA είναι υπολογιστικά απαιτητική (και περιέχει άχρηστη πληροφορία) X X Ορίζουμε τον πίνακα Χώστε η γραμμή nνα είναι ( x x ) n, άρα: S= με εξίσωση ιδιοτιμών: X Sui = λiui X ui = λiui XX X ui = λi ( Xui ) XX vi = λivi Εξίσωση ιδιοτιμών για τον πίνακα (/Ν)ΧΧ Τ ο οποίος είναι διαστάσεων Νxκαι έχει τις ίδιες Ν- ιδιοτιμές με το αρχικό πρόβλημα

Τα ιδιοδιανύσματα είναι: X X X X i ( )( v ) ( i =λ vi) Principal component analysis τα οποία όμως δεν είναι κανονικοποιημένα. Για να κανονικοποιήσουμε u i = ( λ i ) /2 X v i