HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων
Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ. γραμμικό/ μη γραμμικό) καθώς και της πολυπλοκότητάς του (αριθμός ελεύθερων παραμέτρων π.χ. τάξη πολυωνύμου στο πρόβλημα προσαρμογής καμπύλης) είναι εξαιρετικά σημαντική. Ο έλεγχος της απόδοσης ενός μοντέλου μόνο στο σύνολο εκπαίδευσης δεν είναι επαρκής Μια λύση: κανονικοποίηση έλεγχος της «αληθινής» πολυπλοκότητας (effective complexity) Αν έχουμε αρκετά μεγάλο όγκο δεδομένων, μπορούμε να κρατήσουμε ένα μέρος αυτών ως σύνολο επικύρωσης και να διαλέξουμε το μοντέλο με το βέλτιστο σφάλμα επικύρωσης Σε περιπτώσεις όπου είναι αναγκαία η επαναληπτική εκπαίδευση(π.χ. Νευρωνικά δίκτυα) μπορούμε να χρησιμοποιήσουμε ακόμη και 3 σύνολα δεδομένων (εκπαίδευσης, επικύρωσης, ελέγχου) Συλλογή δεδομένων Προεπεξεργασία δεδομένων Επιλογή χαρακτηριστικών Επιλογή μοντέλου/ ταξινομητή Εκπαίδευση μοντέλου/ταξινομητή Επικύρωση μοντέλου/ταξινομητή
Επιλογή μοντέλου δεδομένα επικύρωσης Πολλές φορές δεν έχουμε μεγάλο πλήθος δεδομένων Cross-validation: χωρίζουμε τα δεδομένα μας σε S κομμάτια (S-fold crossvalidation) και διαλέγουμε το μοντέλο με την καλύτερη μέση απόδοση Αν το δείγμα επικύρωσης είναι μικρό 1 μόνο δείγμα επικύρωσης μπορεί να δώσει θορυβώδη αποτελέσματα Για S=N, όπου Ν ο συνολικός αριθμός δεδομένων: leave-one-out Πιο απαιτητική υπολογιστικά προσέγγιση Εναλλακτικά: χρήση κάποιου στατιστικού κριτηρίου που χρησιμοποιεί μόνο τα δεδομένα εκπαίδευσης και περιλαμβάνει όρο ποινής γιαπιο πολύπλοκα μοντέλα (Akaike, Bayesian Information Criteria, Bayesian model evidence)
Προβλήματα πολλών διαστάσεων Δυσκολίες όταν τα χαρακτηριστικά (features) αυξάνουν σε αριθμό Curse of dimensionality
Curse of dimensionality Για προβλήματα πολλών διαστάσεων, εκθετική αύξηση πολυπλοκότητας Πρόβλημα προσαρμογής καμπύληςμε D εισόδους και πολυώνυμο τάξης Μ: D M συντελεστές
Curse of dimensionality Για προβλήματα πολλών διαστάσεων, εκθετική αύξηση πολυπλοκότητας Πρόβλημα προσαρμογής καμπύληςμε D εισόδους και πολυώνυμο τάξης Μ: D M συντελεστές
Curse of dimensionality Ευτυχώς στην πράξη αρκετές φορές τα δεδομένα στον πολυδιάστατο χώρο των χαρακτηριστικών (feature space) συχνά περιορίζονται σε μικρότερη περιοχή του χώρου ισοδύναμα έχουμε μικρότερη ενεργή διαστατικότητα (effective dimensionality) Επίσης, συχνά τα δεδομένα χαρακτηρίζονται από (τοπικές) ιδιότητες ομαλότητας (smoothness), οπότε μπορούμε να χρησιμοποιήσουμε τεχνικές παρεμβολής (interpolation) Πολλές επιτυχημένες μέθοδοι αναγώρισης προτύπων εκμεταλλεύονται τις παραπάνω ιδιότητες
Θεωρία αποφάσεων Η θεωρία αποφάσεων βασίζεται στη θεωρία πιθανοτήτων και μας προσφέρει τρόπους για να πάρουμε «βέλτιστες» αποφάσεις σε περιπτώσεις όπου υπάρχει αβεβαιότητα στο πρόβλημά μας Ένας πολύ γενικός τρόπος για να πάρουμε τέτοιες αποφάσεις προκύπτει άμεσα από τον κανόνα του Bayes Μπεϋζιανή θεωρία αποφάσεων (Bayesian decision theory) Ο κανόνας του Bayesμπορεί να χρησιμοποιηθεί σε μια πληθώρα περιπτώσεων, π.χ. για τον υπολογισμό της πιθανότητας ενός γεγονότος (παράδειγμα στη Διάλεξη 2), τον υπολογισμό της σππ μιας συνεχούς τυχαίας μεταβλητής (προσαρμογή καμπύλης, γραμμική παλινδρόμηση στη συνέχεια) Εδώ θα δούμε πως μπορεί να χρησιμοποιηθεί για να επιλέξουμε μεταξύ πιθανών κατηγοριών σε ένα πρόβλημα ταξινόμησης
Επαγωγή και απόφαση Γενικά θα έχουμε ένα διάνυσμα εισόδου x και ένα διάνυσμα στόχου t για παλινδρόμηση το t μπορεί να περιλαμβάνει συνεχείς μεταβλητές, για ταξινόμηση (διακριτές) κατηγορίες Γενικός στόχος: Σωστή πρόβλεψη του t για καινούριες τιμές του x Η διαδικασία μπορεί να λάβει δύο μορφές: Επαγωγή (inference): Προσδιορισμός των πιθανοτήτων ή : γενικά δύσκολο πρόβλημα Απόφαση (decision): Για δεδομένο x προσδιορισμός του «βέλτιστου» t Π.χ. σε ένα πρόβλημα ταξινόμησης με 2 κατηγορίες C 1 και C 2 :t=0,1 Συλλογή δεδομένων Προεπεξεργασία δεδομένων Επιλογή χαρακτηριστικών Επιλογή μοντέλου/ ταξινομητή Εκπαίδευση μοντέλου/ταξινομητή Επικύρωση μοντέλου/ταξινομητή Ποια κατηγορία θα μπορούσαμε να διαλέξουμε για καινούρια δεδομένα?
Θεωρία αποφάσεων Το πρόβλημα της απόφασης απλοποιείται πολύ εάν λυθεί το πρόβλημα της επαγωγής, δηλ. προσδιοριστούν τα ή p(x,c k ) Ακόμη και αν αυτό δεν είναι δυνατόν, μπορούμε να λάβουμε μια απόφαση με βάση την τιμή των εκ των υστέρων πιθανοτήτων (posterior probabilities) για το συγκεκριμένο x Παράδειγμα: Ιατρική απεικόνιση. Έστω ότι θέλουμε να πάρουμε μια απόφαση εάν ένα άτομο είναι ασθενής ή όχι με βάση μια εικόνα ακτίνων Χ ή MRI. Πόσες κατηγορίες έχουμε? Ποιο θα μπορούσε να είναι το διάνυσμα εισόδου x? Ποια είναι η απόφαση που πρέπει να πάρουμε στην προκειμένη περίπτωση? Τι συμβολίζουν οι ποσότητες στον κανόνα του Bayes? Ποια κατηγορία θα επιλέγαμε?
Minimum misclassification rate decision R k : decision regions(περιοχές αποφάσεων-πιθανώς ασυνεχείς) Τα όρια μεταξύ των περιοχώνονομάζονται σύνορα ή επιφάνειες αποφάσεων(decision boundaries/ surfaces) Έχουμε δύο περιπτώσεις σφαλμάτων Ελαχιστοποίηση σφάλματος: Όμως: Άρα ισοδύναμα επιλογή του C k που μεγιστοποιεί την πιθανότητα Ισχύει και για k κατηγορίες
Minimum misclassification rate decision Πχ για το πρόβλημα ταξινόμησης ψαριών Prior probability: Πόσο πιθανό είναι να πιαστεί σολωμός/ λαβράκι? Αν δεν έχουμε άλλη πληροφορία: Επιλογή της C k (k=1,2) για την οποία η P(C k ) είναι μέγιστη Αν έχουμε πληροφορία, π.χ. φωτεινότητα τότε μπορούμε να υπολογίσουμε/ εκτιμήσουμε τις υπό συνθήκη πιθανότητες P(x C 1 ) και P(x C 2 ) Εκ των υστέρων πιθανότητα (posterior) 2 p(x)= p(x C k ) p(c k ) k=1
Minimum misclassification rate decision Για P(C 1 )=2/3και P(C 2 )=1/3
Ελαχιστοποίηση απώλειας Σε κάποιες περιπτώσεις τα σφάλματα διαφορετικού τύπου πιθανόν να μην είναι ισοδύναμα πχ στην περίπτωση διάγνωσης από ιατρικές εικόνες το σφάλμα μη διάγνωσης της ασθένειας μπορεί να έχει πολύ πιο δραματικές συνέπειες! Μπορούμε να ορίσουμε μια πιο γενικευμένη συνάρτηση ρίσκου Εξαρτημένη συνάρτηση ρίσκου/ απώλειας (loss/risk function) C R(α k x)= λ kj p(c j x) j=1 λ kj : συντελεστής απώλειας όταν παίρνουμε την απόφαση k όταν η σωστή απόφαση (κατηγορία) είναι j Σε αυτή την περίπτωση επιλέγουμε την κατηγορία που ελαχιστοποιεί την ποσότητα: C j=1 λ kj p(c j x) Αν υπολογίσουμε τις εκ των υστέρων πιθανότητες της παραπάνω γίνεται εύκολη Truth p(c j x) Decision η ελαχιστοποίηση
Ελαχιστοποίηση απώλειας πχ για 2 κατηγορίες και 2 πιθανές αποφάσεις που αντιστοιχούν στις κατηγορίες αυτές: R( α x) = λ p( C x) + λ p( C x) 1 11 1 12 2 R( α x) = λ p( C x) + λ p( C x) 2 21 1 22 2 Απόφαση C 1 αν R( α x) < R( α x) 1 2 ( λ λ ) p ( C x ) > ( λ λ ) p ( C x ) 21 11 1 12 22 2 Συνήθως λ 21 >λ 11 και λ 12 >λ 22 (οι σωστές αποφάσεις έχουν μικρότερη απώλεια από τις λάθος) Άρα αν η ποσότητα (λόγος πιθανοφανειών- likelihood ratio): Truth ( λ λ ) p( x C ) p( C ) > ( λ λ ) p( x C ) p( C ) 21 11 1 1 12 22 2 2 Decision p(x C 1 ) p(x C 2 ) > λ λ 12 22. p(c ) 2 λ 21 λ 11 p(c 1 ) ικανοποιεί την παραπάνω συνθήκη αποφασίζουμε ότι το xανήκει στην κατηγορία C1, αλλιώς ότι ανήκει στην C2
Η επιλογή της απόρριψης Αν οι εκ των υστέρων πιθανότητες είναι αρκετά μικρότερες του 1, μια επιλογή είναι να μη ληφθεί απόφαση
Επαγωγή και απόφαση Γενικά, μπορούμε να διακρίνουμε τους τρεις παρακάτω τρόπους αντιμετώπισης ενός προβλήματος ταξινόμησης: Εύρεση των εξαρτημένων σππ p(x C k ) για κάθε κατηγορία ξεχωριστά καθώς και των εκ των προτέρων πιθανοτήτων p(c k ). Έπειτα, χρησιμοποιώντας τον κανόνα του Bayes όπου p(x)= p(x C k ) p(c k ) εύρεση των εκ των υστέρων πιθανοτήτων p(c k x) και λήψη της απόφασης βάσει αυτών. Ισοδύναμα, μπορούμε να βρούμε την συνδυασμένη σππ p(x,c k ) και να χρησιμοποιήσουμε αυτή για να πάρουμε την απόφαση. Εύρεση των εκ των υστέρων σππ p(c k x) ευθέως και ταξινόμηση μέσω αυτών Εύρεση μιας συνάρτησης f(x) διαχωριστική συνάρτηση/ discriminantfunction η οποία απεικονίζει απευθείας ένα διάνυσμα εισόδου σε κάποια κατηγορία, π.χ. Για πρόβλημα δύο κατηγοριών μπορεί f=0 να αντιστοιχεί στην κατηγορία 1 και f=1 στην κατηγορία 2. Ο πρώτος τρόπος είναι ο πιο απαιτητικός, ειδικά για δεδομένα με πολλές διαστάσεις, αλλά προσφέρει την πιο πλήρη εικόνα για το πρόβλημα μπορεί ακόμη και να χρησιμοποιηθεί για την εύρεση δεδομένων με χαμηλή πιθανότητα εμφάνισης (outlier detection - μέσω της p(x)). k