Αναγνώριση Προτύπων (Pattern Recognton Μπεϋζιανή Θεωρία Αποφάσεων (Bayesan Decson Theory Π. Τσακαλίδης ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ
Μπεϋζιανή Θεωρία Αποφάσεων (Bayes Decson theory Στατιστικά βέλτιστη ταξινόµηση. Βασίζεται στην περιγραφή του προβλήµατος ταξινόµησης µε πιθανοτικούς όρους. Η θεωρία υποθέτει: Το πρόβληµα απόφασης µπορεί να τεθεί µε όρους πιθανοτήτων Είναι γνωστές όλες οι απαραίτητες τιµές και συναρτήσεις πιθανότητας (στην πράξη αυτό δεν ισχύει.
εσµευµένες Πιθανότητες (Class Condtonal Probabltes ω 1 : Λαβράκι ω : Σολοµός p(x ω : εσµευµένη συνάρτηση πυκνότητας πιθανότητας (ΣΠΠ της µεταβλητής x δεδοµένης της κατάστασης της φύσης. Πιθανοφάνεια: εδοµένου ότι παρατηρείται σολοµός, ποιά είναι η πιθανότητα, το βάρος του να είναι µεταξύ 11 και 1? βάρος
Ορισµοί και Κανόνας Απόφασης Bayes Κατάσταση της φύσης (state of nature Εκ των προτέρων πιθανότητα (pror Εκ των υστέρων πιθανότητα (posteror Πιθανοφάνεια (Lkelhood Evdence ( ( ( ( ( ( ( ( x p P x p P x p P x p x P X x ω ω ω ω ω ω ω = =
Εκ των Υστέρων Πιθανότητες (Posteror Probabltes Ο κανόνας Bayes επιτρέπει τον υπολογισµό της εκ των υστέρων πιθανότητας (δύσκολο να καθοριστεί από την εκ των προτέρων πιθανότητα, την πιθανοφάνεια, και τις αποδείξεις (υπολογίζονται ευκολότερα. Εκ των υστέρων πιθανότητες όταν P(ω 1 = /3 και P(ω = 1/3. Για παράδειγµα, δεδοµένου ότι ένα πρότυπο µετριέται µε τιµή χαρακτηριστικού (feature x =14, η πιθανότητα να βρίσκεται στην τάξη ω είναι περίπου 0.08, ενώ η πιθανότητα να βρίσκεται στην ω 1 είναι 0.9. Για κάθε x, οι εκ των υστέρων πιθανότητες αθροίζονται στο 1.0.
Κανόνας Απόφασης Bayes (Bayes Decson Rule Επιλογή της κλάσης που έχει τη µεγαλύτερη εκ των υστέρων πιθανότητα!! Επιλογή της ω εάν P(ω x > P(ω x for all =1,,,c P(error = mn [ P(ω 1 x, P(ω x,, P(ω c x ] Εάν υπάρχουν πολλά χαρακτηριστικά, x={x 1, x,, x d } Επιλογή της ω εάν P(ω x > P(ω x for all =1,,,c P(error = mn [ P(ω 1 x, P(ω x,, P(ω c x ]
Συνάρτηση Κόστους (The Loss Functon Μαθηµατική περιγραφή του κόστους κάθε επιλογής. Είναι κάποιες επιλογές περισσότερο «ακριβές» από άλλες? {ω 1, ω,, ω c }: Σύνολο φυσικών καταστάσεων (κλάσεις - classes x = [x 1,, x d ] T : ιάνυσµα χαρακτηριστικών (feature vector {α 1, α, α a }: Σύνολο δυνατών δράσεων (actons. Προσέξτε ότι το a δεν χρειάζεται να είναι το ίδιο µε τοc, καθώς µπορούµεναπραγµατοποιούµε περισσότερες ή λιγότερες δράσεις από το πλήθος των τάξεων. Για παράδειγµα, η απόρριψη είναι επίσης µια δυνατή δράση. λ(α ω }: Κόστος (cost της δράσης α όταν η πραγµατική κατάσταση της φύσης είναι ω. R(α x: εσµευµένο ρίσκο (condtonal rsk Αναµενόµενη απώλεια για την δράση α. R( α x c = λ( α ω P( ω = 1 x Ηαπόφαση κατά Bayes επιλέγει τη δράση που ελαχιστοποιεί το δεσµευµένο ρίσκο!
Απόφαση κατά Bayes µε Βάση το εσµευµένο Ρίσκο 1. Υπολογισµός δεσµευµένου ρίσκου R(α x για κάθε δράση.. Επιλογή δράσης µε τοελάχιστοδεσµευµένο ρίσκο. Έστω ότι είναι ηδράσηk. 3. Το συνολικό ρίσκο είναι: 4. Αυτό είναι το ρίσκο του Bayes, το ελάχιστο δυνατό ρίσκο που µπορεί να έχει ένας οποιοσδήποτε ταξινοµητής! R = x X R(α k x p( x dx 5. Π.χ. ταξινόµηση σε µία από δύο κλάσεις: p p ( x / ω 1 ( x / ω ω 1 λ λ 1 1 λ λ 11 P P ( ω ( ω 1
Ταξινόµηση Ελάχιστης Πιθανότητας Λάθους (Mnmum Error Rate Classfcaton Εάν ως δράση α επιλέξουµε την ταξινόµηση στην κλάση ω, και εάν όλα τα κόστη λάθος ταξινόµησης είναι ίσα µε µονάδα, έχουµετη λεγόµενη συµµετρική ή 0-1 επιλογή: ( ω λ α 0, = 1, Αυτή η συνάρτηση κόστους προβλέπει µηδενική απώλεια για σωστή ταξινόµηση, και µοναδιαία απώλεια για λάθος ταξινόµηση. Το αντίστοιχο δεσµευµένο ρίσκο που αντιστοιχεί σε αυτή τη συνάρτηση κόστους είναι R( α x = P P( ω x το οποίο είναι ακριβώς η πιθανότητα λάθους. Προφανώς, για να ελαχιστοποιήσουµε το ρίσκο, θα πρέπει να επιλέξουµε την κλάση που µεγιστοποιεί την εκ των υστέρων πιθανότητα!!! f f ( ω x = 1 = 1,..., c =
Ταξινόµηση Βάσει Συναρτήσεων ιάκρισης (Dscrmnant Based Classfcaton Ησυνάρτηση διάκρισης g(x, διαχωρίζει τις κλάσεις µεταξύ τους. Αυτή η συνάρτηση αντιστοιχεί το διάνυσµα εισόδου σε µια κλάση σύµφωνα µε τον ορισµό: Επέλεξε την τάξη εάν g ( x > g ( x,, = 1,,..., c Ο κανόνας Bayes µπορεί να υλοποιηθεί µε τη µορφή συναρτήσεων διάκρισης g( x = P( ω x Κάθε συνάρτηση διάκρισης δηµιουργεί c περιοχές απόφασης, R 1,,R c, οι οποίες χωρίζονται από τις επιφάνειες απόφασης. Οι περιοχές απόφασης δεν απαιτείται να είναι συνεχείς. Οι επιφάνειες απόφασης ικανοποιούν την g ( x = g ( x
Γκαουσιανές ΣΠΠ Εάν οι συναρτήσεις πιθανοφάνειας ακολουθούν την πολυδιάστατη Γκαουσιανή, τότε η συνάρτηση διάκρισης παίρνει την µορφή g ( x = 1 d [( ( ] T 1 x µ Σ x µ ln π ln Σ + ln P( ω 1 Υπάρχουν 3 περιπτώσεις ανάλογα µε τη µορφή του πίνακα συνδιασποράς
Περίπτωση 1: Σ = σ I Τα χαρακτηριστικά είναι στατιστικώς ανεξάρτητα, και έχουν όλα την ίδια διασπορά: Τα δείγµατα βρίσκονται σε υπερ-σφαίρες ίσου µεγέθους, και οι επιφάνειες απόφασης είναι υπερεπίπεδα διάστασης d-1. d=1 d=
Περίπτωση 1: Σ = σ I Όταν d=3, τα δείγµατα βρίσκονται σε σφαίρες ίσου µεγέθους, και οι επιφάνειες απόφασης είναι επίπεδα. d=3
Προσέξτε πως οι εκ των προτέρων πιθανότητες αποµακρύνουν το σηµείο κατωφλίου από τον πιο πιθανό µέσο. Περίπτωση 1: Σ = σ I Αυτή η περίπτωση δηµιουργεί γραµµικές συναρτήσεις διάκρισης: T g x = w x + w w ( 0 1 1 T = µ, 0 ln ( w = µ µ + P ω σ σ 1-D case
Προσέξτε πως οι εκ των προτέρων πιθανότητες αποµακρύνουν την ευθεία απόφασης από τον πιο πιθανό µέσο. Περίπτωση 1: Σ = σ I Αυτή η περίπτωση δηµιουργεί γραµµικές συναρτήσεις διάκρισης: T g x = w x + w w ( 0 1 1 T = µ, 0 ln ( w = µ µ + P ω σ σ -D case
Προσέξτε πως οι εκ των προτέρων πιθανότητες αποµακρύνουν το επίπεδο απόφασης από τον πιο πιθανό µέσο. Περίπτωση 1: Σ = σ I Αυτή η περίπτωση δηµιουργεί γραµµικές συναρτήσεις διάκρισης: T g x = w x + w w ( 0 1 1 T = µ, 0 ln ( w = µ µ + P ω σ σ 3-D case
Περίπτωση 1: Σ = σ I Οι επιφάνειες απόφασης είναι υπερ-επίπεδα που ορίζονται από τις γραµµικές εξισώσεις g (x = g (x, που γράφονται ως όπου: w = µ µ x 1 w T σ P ( µ µ ( ω + ln ( µ µ, 0 = µ ( x x 0 = 0 µ P ( ω Επιφάνεια απόφασης: Υπερ-επίπεδo που περνά από το σηµείο x 0 και είναι κάθετο στο διάνυσµα w που ενώνει τις µέσες τιµές µ και µ.
Περίπτωση : Σ = Σ Οι πίνακες συνδιασποράς είναι αυθαίρετοι, αλλά ίδιοι για όλες τις κλάσεις. Τα χαρακτηριστικά δηµιουργούν υπερελλειψοειδείς οµάδες ίδιου µεγέθους και σχήµατος µε κέντρα τα µ. Γραµµικές συναρτήσεις απόφασης Υπερεπίπεδα ως επιφάνειες απόφασης g x = w x + T ( w 0 w = Σ 1 µ, 1 T 1 w 0 = µ Σ µ + ln P( ω -D Case
Περίπτωση : Σ = Σ Οι πίνακες συνδιασποράς είναι αυθαίρετοι, αλλά ίδιοι για όλες τις κλάσεις. Τα χαρακτηριστικά δηµιουργούν υπερελλειψοειδείς οµάδες ίδιου µεγέθους και σχήµατος µε κέντρα τα µ. Γραµµικές συναρτήσεις απόφασης Υπερεπίπεδα ως επιφάνειες απόφασης 3-D Case
Περίπτωση : Σ = Σ Επιφάνειες απόφασης w w T ( x x 0 = 0 όπου: ln( P( ω P( ω ( ( ( µ T µ 1 µ µ Σ µ µ 1 ( 1 ( = Σ µ µ, x0 = µ + µ ( Εφόσον w = Σ 1 µ µ το υπερεπίπεδo απόφασης δεν είναι κάθετο στο διάνυσµα w που ενώνει τις µέσες τιµές µ και µ.
Περίπτωση 3: Σ = οποιoδή ποτε Μη γραµµικές αλλά τετραγωνικές συναρτήσεις απόφασης. Επιφάνιες απόφασης hyperquadratcs (υπερελλειψοειδή, υπερπαραβολοειδή κτλ. T T 1 1 1 g ( x = x W x + w x + w 0 W = Σ, w = Σ µ 1 T 1 1 w 0 = µ Σ µ ln Σ + ln P( ω
Περίπτωση 3: Σ = οποιoδή ποτε Μη γραµµικές αλλά τετραγωνικές συναρτήσεις απόφασης. Επιφάνειες απόφασης hyperquadratcs (υπερελλειψοειδή, υπερπαραβολοειδή κτλ. T T 1 1 1 g ( x = x W x + w x + w 0 W = Σ, w = Σ µ 1 T 1 1 w 0 = µ Σ µ ln Σ + ln P( ω
Περίπτωση 3: Σ = οποιoδήποτε
Περίπτωση 3: Σ = οποι δ ποτε o ή Στην περίπτωση των πολλών τάξεων, τα όρια είναι ακόµα περισσότερο περίπλοκα: Σύνορα Απόφασης
Περίπτωση 3: Σ = οποι δή ποτε o 3-D
Πιθανότητες Σφάλµατος (Error Probabltes Στην περίπτωση δυο κλάσεων, υπάρχουν δυο περιπτώσεις λάθους: x είναι στο R 1 ενώ ΚτΦ είναι w, και το αντίστροφο. x B : Optmal Bayes soluton x*: Non-optmal soluton P(error = + P( x R1, ω = P( x R1 ω P( ω P( x R, ω1 = P( x R ω1 P( ω1