Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010, 16.30 19.30 Ονοµατεπώνυµο Υπογραφή Καλή Επιτυχία!
1. Classification of normal random variables, Fisher s Linear Discriminant. (15 points) Έστω ένα πρόβληµα ταξινόµησης 2 κλάσεων µε ίσες εκ των προτέρων πιθανότητες, για το οποίο οι υπό συνθήκη πιθανότητες για κάθε κλάση είναι: 0 a c p C N 0 c b 2 ( x 1) ~,,όπου ab c = 1 d 1 0 ( ) ~, 0 1 p x C2 N e (α) (6 points) Βρείτε την εξίσωση του συνόρου αποφάσεως µεταξύ των 2 κλάσεων ως συνάρτηση των παραµέτρων που δίνονται στο πρόβληµα. (β) (3 points) Προσδιορίστε τους περιορισµούς που πρέπει να ισχύουν για τις τιµές των a,b,c,d,e ώστε το διαχωριστικό σύνορο που προκύπτει να είναι γραµµικό. (γ) (6 points) Έστω a=2, b=1, c=0, d=4, e=4. Σχεδιάστε τυπικές ισοπίθανες γραµµές (contours) για τις 2 κατανοµές. Προσδιορίστε και σχεδιάστε την κατεύθυνση προβολής για τη γραµµική διαχωριστική Fisher, η οποία διαχωρίζει τις 2 κατανοµές βέλτιστα σε 1 διάσταση.
2. Maximum Likelihood estimation (20 points) Έστω ένα µονοδιάστατο πρόβληµα ταξινόµησης δύο κλάσεων µε άνισες εκ των προτέρων πιθανότητες p(c 1 )=0.7 και p(c 2 )=0.3, όπου οι υπό συνθήκη πιθανότητες για τα δεδοµένα κάθε κλάσης έχουν τη µορφή «µισής» κανονικής (Γκαουσιανής) κατανοµής µε κέντρο στο 0, δηλαδή: p( x Ci ) = e x θ i 2 2 /2σi 0, x<0, x 0 (i) (3 points) Προσδιορίστε τις σταθερές κανονικοποίησης θ i ως συνάρτηση των σ i. (ii) (7 points) Υποθέστε ότι συλλέγονται τα ακόλουθα δεδοµένα: D 1 ={1,4} και D 2 ={2,8} από τις κλάσεις C 1 και C 2 αντίστοιχα, όπου τα δείγµατα είναι ανεξάρτητα. Βρείτε τις εκτιµήσεις µέγιστης πιθανοφάνειας για τα σ 1 και σ 2 (iii) (5 points) Με βάση την απάντηση του (ii), προσδιορίστε το σύνορο απόφασης που αντιστοιχεί στο ελάχιστο σφάλµα λάθος ταξινόµησης. (iv) (5 points) Αναπαραστήστε γραφικά (κατά προσέγγιση) τις εκ των υστέρων πιθανότητες για τις 2 κλάσεις και δείξτε πάνω στη γραφική παράσταση την περιοχή που αντιστοιχεί στο αναµενόµενο σφάλµα του ταξινοµητή του ερωτήµατος (iii). Γράψτε την έκφραση για το σφάλµα αυτό. Μπορείτε να αφήσετε το αποτέλεσµα σε µορφή ολοκληρώµατος.
3. Multilayer Neural Network (10 points) Έστω ένα νευρωνικό δίκτυο δύο στρωµάτων (ένα κρυµµένο στρώµα και ένα στρώµα εξόδου) µε d µονάδες εισόδου και c µονάδες εξόδου, το οποίο είναι πλήρως συνδεδεµένο (fully connected). Υποθέστε ότι το δίκτυο εκπαιδεύεται σύµφωνα µε την ακόλουθη συνάρτηση κριτηρίου: c 1 6 J = ( tk yk ) 6 k= 1 Γράψτε τον κανόνα µάθησης για τα βάρη από το κρυµµένο στρώµα προς τις µονάδες εξόδου, δηλ προδιορίστε τα (2) w kj όταν οι συναρτήσεις ενεργοποίησης του στρώµατος εξόδου είναι (i) γραµµικές και (ii) σιγµοειδείς.
4. Bayesian estimation (15 points) Έστω η ακόλουθη κανονικοποιηµένη ηµικυκλική κατανοµή µε κέντρο µ και ηµιεύρος (half-width) 1, η οποία φαίνεται παρακάτω και ορίζεται ως: 2 1 ( x µ ) 2 x µ p( x µ ) = π 1 0 αλλιώς Θέλουµε να χρησιµοποιήσουµε Μπεϋζιανές µεθόδους για την παραπάνω κατανοµή. Για την εκ των προτέρων πιθανότητα του µ, γνωρίζουµε ότι είναι το ίδιο πιθανό να προέρχεται από οποιαδήποτε από τις τιµές -0.5 και 0.5. Μαθηµατικά, η εκ των προτέρων συνάρτηση πυκνότητας πιθανότητας εκφράζεται: 1 p ( µ ) = [ δ ( µ 0.5) + δ ( µ + 0.5) ] 2 και φαίνεται επίσης στο σχήµα παρακάτω. (i) (8 points) Αναπαραστήστε γραφικά την πυκνότητα πιθανότητας p(x D 0 ) όπου D 0 ={}, δηλαδή πριν τη συλλογή δεδοµένων. (ii) (7 points) Έστω ότι η πρώτη µας παρατήρηση για την τυχαία µεταβλητή x είναι 0.25, άρα D 1 ={0.25}. Ποια θα είναι η µορφή της πυκνότητας πιθανότητας p(x D 1 )? Σηµ: εν είναι αναγκαίο να κανονικοποιήσετε την εν λόγω πιθανότητα. Σχεδιάστε την και συγκρίνετε µε αυτή του ερωτήµατος (i). Τι παρατηρείτε?
5. Support vector machines (15 points) Έστω ένα σύνολο δεδοµένων {x 1,,x N }. Ο αλγόριθµος SVM µιας κλάσης (one-class SVM) προσδιορίζει την κατεύθυνση w του υπερεπιπέδου το οποίο µεγιστοποιεί την απόσταση των διανυσµάτων υποστήριξης από την αρχή των αξόνων. Με άλλα λόγια χωρίζει το χώρο εισόδου σε δύο περιοχές, µια «κοντά» στην αρχή των αξόνων (class label: +1) και µια «µακριά» από αυτή (class label: -1) και ταξινοµεί ένα καινούριο δείγµα x σύµφωνα µε την διαχωριστική συνάρτηση: T f ( x) = sgn( w x 1) όπου η συνάρτηση προσήµου sgn(.) ορίζεται έτσι ώστε sgn(a)=1 αν a 0 και sgn(a)=-1 αν a<0. Ισοδύναµα, ένα νέο σηµείο ταξινοµείται στην κλάση +1 αν T w x> 1 και στην κλάση -1 σε αντίθετη περίπτωση. Το πρόβληµα βελτιστοποίησης που προκύπτει γράφεται: 1 T min w w w 2 T subject to w x n 1 n= 1, 2,..., N (i) (10 points) Γράψτε το αντίστοιχο δυϊκό (dual) πρόβληµα βελτιστοποίησης σε όσο πιο απλή µορφή γίνεται, δηλ. απαλείψτε το w όπως κάναµε και στην περίπτωση του SVM δύο κλάσεων και γράψτε τις αντίστοιχες συνθήκες Kanush-Kuhn-Tucker που προκύπτουν. (ii) (5 points) Μπορούµε να εφαρµόσουµε συναρτήσεις πυρήνα (kernel trick) στη µέθοδο SVM µιας κλάσης τόσο για την εκπαίδευση όσο και για την επικύρωση? Γιατί?
6. Unsupervised Learning (10 points) Έστω ότι εφαρµόζουµε τον αλγόριθµο k-means clustering στα δισδιάστατα δεδοµένα του παρακάτω σχήµατος για Κ=2 κλάσεις. Έστω επίσης ότι οι αρχικές τιµές για τις µέσες τιµές των 2 κλάσεων είναι µ 1 (0) = (0, 0) και µ 2 (0) = (3, 3). (i) (5 points) Ποια θα είναι τα διανύσµατα µέσων τιµών και οι αναθέσεις σε κάθε κλάση µετά την πρώτη επανάληψη του αλγορίθµου? (ii) (5 points) Ποια θα είναι τα τελικά διανύσµατα µέσων τιµών και οι αναθέσεις στις 2 κλάσεις?
7. Σύντοµες ερωτήσεις-απαντήσεις. (20 points) Απαντήστε στις παρακάτω ερωτήσεις, δικαιολογώντας σύντοµα τις απαντήσεις σας. Κάθε ερώτηση αντιστοιχεί σε 4 πόντους. (i) Έστω ένα µονοδιάστατο πρόβληµα ταξινόµησης δύο κλάσεων µε κανονικές κατανοµές p(x C i ) ~ N(µ i, σ 2 ), i = 1, 2, όπου µ 1 =-2, µ 2 =4 και σ 2 =4. Ποιο είναι το βέλτιστο σφάλµα ταξινόµησης που µπορεί να επιτευχθεί? (α) 0% (β) από 0 µέχρι 5 % (iii) περισσότερο από 5 % (iv) δεν µπορούµε να βγάλουµε συµπέρασµα από τις δοθείσες πληροφορίες. (ii) Περιγράψτε πως τα δεδοµένα επικύρωσης και ελέγχου (validation and testing) χρησιµοποιούνται στην εκπαίδευση νευρωνικών δικτύων. Ποιος είναι ο σκοπός της χρήσης δύο διαφορετικών συνόλων δεδοµένων εκτός από τα δεδοµένα εκπαίδευσης? (iii) Πότε είναι η εκτίµηση µεγιστοποίησης της εκ των υστέρων πιθανότητας (maximum a posteriori MAP) ισοδύναµη µε την εκτίµηση µέγιστης πιθανοφάνειας (ML)? (iv) Περιγράψτε πως ορίζονται τα διανύσµατα υποστήριξης στην περίπτωση των διανυσµατικών µηχανών υποστήριξης για παλινδρόµηση. Ποια είναι η αναλογία µε την περίπτωση ταξινόµησης? (v) Έστω ένα δισδιάστατο πρόβληµα επιβλεπόµενης ταξινόµησης δύο κλάσεων. Θέλουµε να µετασχηµατίσουµε το πρόβληµα σε µια διάσταση και χρησιµοποιούµε τόσο τη µέθοδο ανάλυσης σε κύριες συνιστώσες (Principal Component Analysis) όσο και τη µέθοδο της γραµµικής διαχωριστικής Fisher. Πως περιµένετε ότι θα σχετίζονται τα αποτελέσµατα του προβλήµατος ταξινόµησης που προκύπτει σε µια διάσταση για τις δύο µεθόδους?