Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για ένα μονοδιάστατο πρόβλημα δύο κλάσεων οι υπό συνθήκη πιθανότητες p(x C 1 ) και p(x C 2 ) ορίζονται ως εξής: 1 x 2 /2 pxc ( 1) = e, x 2π 1 pxc ( 2) =,-2 < x< 2 4 (a) Βρείτε τον κανόνα απόφασης με το ελάχιστο σφάλμα λάθος ταξινόμησης για αυτό το πρόβλημα ταξινόμησης δύο κλάσεων, υποθέτοντας ότι: p(c 1 ) = p(c 2 ) = 0.5. (b) Υπάρχει μια εκ των προτέρων πιθανότητα για την κλάση C 1, έστω π 1 * τέτοια ώστε αν p(c 1 )> π 1 * η απόφαση που ελαχιστοποιεί το σφάλμα λάθος ταξινόμησης να είναι πάντα υπέρ της κλάσης C 1, ανεξάρτητα από την τιμή του x. Βρείτε την τιμή του π 1 *. (c) Υπάρχει αντίστοιχο π 2 * τέτοιο ώστε αν p(c 1 )> π 2 * να αποφασίζουμε πάντα υπέρ της κλάσης C2 ανεξάρτητα της τιμής του x και γιατί? 2. (i) Υποθέστε ότι Ν ανεξάρτητα δείγματα x 1,,x N παίρνονται από την κατανομή Erlang με την ακόλουθη συνάρτηση πυκνότητας πιθανότητας: px xe x 2 θ x ( θ) = θ, > 0 Βρείτε την εκτίμηση μέγιστης πιθανοφάνειας για την παράμετρο θ. (ii) Έστω ότι παίρνουμε n ανεξάρτητα δείγματα από διαδοχικά γεγονότα τα οποία συμβαίνουν με πιθανότητες p(w i ). Έστω ότι z ik = 1 αν για το k-οστό δείγμα συμβαίνει το w i και z ik =0 σε αντίθετη περίπτωση. (α) Δείξτε ότι: (β) Δεδομένης της παραπάνω εξίσωσης, δείξτε ότι η εκτίμηση μέγιστης πιθανοφάνειας για το p(w i ) είναι: (γ) Ερμηνεύστε το παραπάνω αποτέλεσμα με λόγια.
3. Έστω ένα μονοδιάστατο πρόβλημα ταξινόμησης δύο κλάσεων με κανονικές κατανομές p(x C i ) ~ N(μ i, σ 2 ), i = 1, 2 (δηλ. με ίδια διασπορά και διαφορετικές μέσες τιμές), όπου μ 1 =-1, μ 2 =4 και σ 2 =4. (a) Σχεδιάστε τις κατανομές p(x C 1 ) and p(x C 2 ). (b) Σχεδιάστε τις εκ των υστέρων πιθανότητες p(c 1 x) και P(C 2 x) υποθέτοντας ίσες εκ των προτέρων πιθανότητες για τις δύο κλάσεις. (c) Έχετε πρόσβαση σε οποιαδήποτε μέθοδο ταξινόμησης θέλετε καθώς και σε άπειρα δεδομένα. Ποιο είναι το βέλτιστο σφάλμα ταξινόμησης που μπορείτε να επιτύχετε? (i) 0% (ii) από 0 μέχρι 10% (iii) περισσότερο από 20% (iv) δεν μπορούμε να βγάλουμε συμπέρασμα από τις δοθείσες πληροφορίες. 4. Σας δίνονται τα παρακάτω δεδομένα από δύο κλάσεις: C1 = [(1, 1), (1, 2), (1, 4), (2, 1), (3, 1), (3, 3)] και C2 = [(2, 2), (3, 2), (3, 4), (5, 1), (5, 4), (5, 5)] όπως φαίνονται παρακάτω: i. (10pts) Προσδιορίστε τη βέλτιστη κατεύθυνση προβολής σε μια διάσταση. ii. (10pts) Δείξτε την απεικόνιση (προβολή) των σημείων σε αυτή την κατεύθυνση και προσδιορίστε το κατώφλι απόφασης υποθέτοντας μονοδιάστατες κανονικές κατανομές για τα προβαλλόμενα δεδομενα. 5. Έστω η ακόλουθη κανονικοποιημένη τριγωνική κατανομή με κέντρο μ και ημιεύρος (half-width) 1, η οποία φαίνεται παρακάτω και ορίζεται ως: 1 x μ x μ 1 px ( μ) = 0 αλλιώς Θέλουμε να προσδιορίσουμε την τιμή του μ χρησιμοποιώντας Μπεϋζιανή εκτίμηση. Για την εκ των προτέρων πιθανότητα του μ, γνωρίζουμε ότι είναι το ίδιο πιθανό να προέρχεται από οποιαδήποτε από τις τιμές -1,0,1. Μαθηματικά, η εκ των προτέρων συνάρτηση πυκνότητας πιθανότητας είναι: 1 p( μ) = [ δ( x 1) + δ( x) + δ( x+ 1) ] 3
και φαίνεται επίσης στο σχήμα παρακάτω. (i) Αναπαραστήστε γραφικά την πυκνότητα πιθανότητας p(x D 0 ) όπου D 0 ={}, δηλαδή πριν τη συλλογή δεδομένων. (ii) Έστω ότι η πρώτη μας παρατήρηση για την τυχαία μεταβλητή x είναι 0.25, άρα D 1 ={0.25}. Αναπαραστήστε γραφικά την πυκνότητα πιθανότητας p(x D 1 ) (iii) Έστω ότι η δεύτερη παρατήρηση για το x είναι 0.75, άρα D 1 ={0.25, 0.75}. Αναπαραστήστε γραφικά την πυκνότητα p(x D 2 ). 6. Έστω ότι θέλουμε να διαχωρίσουμε τα ακόλουθα δεδομένα εκπαίδευσης με τη μέθοδο SVM: C1: (1, 1) T, (2, 2) T, (2, 0) T και C2: (0, 0) T, (1, 0) T, (0, 1) T (i) Αναπαραστήστε γραφικά τα δεδομένα και προσδιορίστε προσεγγιστικά το διάνυσμα για το βέλτιστο υπερεπίπεδο διαχωρισμού καθώς και το βέλτιστο περιθώριο. (ii) Ποια είναι τα διανύσματα υποστήριξης? (iii) Δώστε τις εξισώσεις του δυϊκού προβλήματος βελτιστοποίησης (δηλ. ως προς τους πολλαπλασιαστές Lagrange α i ). 7. Σύντομες ερωτήσεις και απαντήσεις. Απαντήστε στις παρακάτω ερωτήσεις, δικαιολογώντας σύντομα τις απαντήσεις σας. (i) Περιγράψτε σύντομα το συμβιβασμό μεταξύ απόκλισης και μεταβλητότητας για μοντέλα διαφορετικής πολυπλοκότητας (bias-variance tradeoff). (ii) Περιγράψτε σύντομα την μέθοδο εκπαίδευσης ενός νευρωνικού δικτύου με όρο αδράνειας (momentum) (iii) Σωστό ή λάθος? Πάντα θα υπάρχουν κάποιες τιμές των εκ των προτέρων πιθανοτήτων για τις κλάσεις Ci ώστε οι εκτιμήσεις MAP και ML να δίνουν το ίδιο αποτέλεσμα. (iv) Περιγράψτε σύντομα τη συνάρτηση κόστους στον αλγόριθμο perceptron. Συγκλίνει πάντα ο αλγόριθμος? (v) Υποθέστε ότι το σφάλμα ταξινόμησης Bayes για ένα πρόβλημα ταξινόμησης με 3 κλάσεις είναι 5%. Τι μπορείτε να υποστηρίξετε για το σφάλμα ενός ταξινομητή κοντινότερου γείτονα (nearest neighbor) όταν το σύνολο δεδομένων εκπαίδευσης είναι άπειρο?