Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων (DETECTION)

Αναγνώριση Προτύπων Baysian Θεωρία Αποφάσεων (DETECTION) Χριστόδουλος Χαμζάς Τα περιεχόμενα των παρουσιάσεων προέρχονται από τις παρουσιάσεις του αντίστοιχου διδακτέου μαθήματος του καθ. Παναγιώτη Τσακαλίδη, Τμ. Επιστήμης Υπολογιστών, Παν. Κρήτης. Το πρωτογενές υλικό βρίσκεται στην σελίδα http://www.csd.uoc.gr/~hy473/ και βασίζεται στο βιβλίο: Pattern Classification, R.O. Duda, P.E. Hart, D.G. Stork, Wiley, nd Ed., 00

Μπευζιανή θεωρία αποφάσεων

Προβλημα Εκτίμησης Λαμβάνουμε το σήμα (μέτρηση) ( t ) n( t) s ( t ) n ( t ) n(t) () είναι ο θόρυβος και s(t) () είναι το σήμα

εσμευμένες πιθανότητες

Ορισμοί και κανόνας απόφασης Bayes

Εάν έχουμε κατηγορίες ω και ω τότε επιλέγουμε ω εάν p( / ) p( ) p( ) / ) ( ) ( ) p( p p

Εκ των υστέρων πιθανότητες

Κανόνας απόφασης Bayes Επιλογή της κλάσης που έχει τη μεγαλύτερη εκ των υστέρων πιθανότητα!!! Επιλογή της ω i εάν P(ω i ) P(ω j ) για όλα τα j=,,,c ηλαδή P(ω i )=ma [P(ω ), P(ω ),, P(ω c )] και P e =P(error)= - ma [P(ω ), P(ω ),, P(ω c )] Εάν υπάρχουν πολλά χαρακτηριστικά, ={{,,, d } τότε Επιλογή της ω i εάν P(ω i ) P(ω j ) για όλα τα j=,,,c P e =P(error)= - ma [P(ω ), P(ω ),,, P(ω c )] και p( ) Pe ( ) d Pe, total ma( p( k, ) d και για διακριτά χαρακτηριστικά P( i ) Pe ( i ) ma( P( k, i P )) e, total k i i k

Συνάρτηση Κόστους

Απόφαση κατά Bayes με βάση το δεσμευμένο ρίσκο

Ταξινόμηση ελάχιστης πιθανότητας λάθους

Ταξινόμηση βάσει συναρτήσεων διάκρισης

Γκαουσιανές συναρτήσεις ΠΠ Εάν οι συναρτήσεις πιθανοφάνειας ακλουθούν την πολυδιάστατη Γκαουσιανή κατανομή p( ) ep ( ) ( ) d - Σ - ( ) τότε η συνάρτηση διάκρισης παίρνει την μορφή g d i( ) ( -i) i ( -i) ln( ) ln i ln P( i) Υπάρχουν 3 περιπτώσεις ανάλογα με τον πίνακα συνδιασποράς Σ

Παράδειγμα: Πρόβλημα Εκτίμησης Σήματος σε Θόρυβο Λαμβάνουμε το σήμα (μέτρηση) ( t ) n( t) s ( t ) n ( t ) n(t) () είναι ο θόρυβος και s(t) () είναι το σήμα

Πιθανότητες Σφάλματος

ΈΝΑ Πρόβλημα Εκτίμησης Λαμβάνουμε το σήμα (μέτρηση) ( t ) n( t) s ( t ) n ( t ) n(t) () είναι ο θόρυβος και s(t) () είναι το σήμα ω 0 Υπόθεση H0 : εν υπάρχει το σήμα και (t) είναι μόνο θόρυβος ω Υπόθεση H : υπάρχει το σήμα και (t)=s(t)+n(t)

Τι ξέρουμε; The signal s(t) is known and we want to know if it is present or not. n(t) is a stochastic process with known statistics. The observer must base its decision on Samples of (t) (digital (nt)) The entire (t) (analog) We shall address the digital problem: We assume that (a) s(t) and n(t) are independent (b) The samples of n(t) are uncorrelated

Στόχος; Design the optimum system: The system can be linear or nonlinear System means Hardware device Software program Criteria:. The system must be optimum with respect to a criterion which depends on the particular problem.. Sometimes we are satisfied with a sub optimum system because it is much simpler than the optimum.

Πιθανότητες Σφάλματος

ΕΙ Η ΛΑΘΩΝ Due to the presence of noise we can perform errors in our decisions (). Error of the first kind: P e0. It is the probability to decide that the signal is present when it is not or choose H when H 0 is true. (). Error of the second kind: P e. When the signal is present you decide that t it is not or choose H 0 when H is true. P e =P(error)= (-p )P e0 + p P e

Περιπτώσεις s(t) είναι γνωστό A. s(t)=a, λαμβάνουμε μία μέτρηση. Ελάχιστη πιθανότητα λάθους. Ελάχιστο κόστος 3. Minima ( P είναι άγνωστη) 4. Newman-Pearson (Το συνολικό κόστος για λάθος εκτίμηση μία κατάστασης είναι δεδομένο) B. Λαμβάνουμε πολλές μετρήσεις C. s(t) είναι γνωστή κυματομορφή s(t) είναι στοχαστική διεργασία (random process) s(t) είναι γνωστό, αλλά P και θόρυβος είναι άγνωστα(matched filter)

ΠΡΟΒΛΗΜΑ (Τηλεπικοινωνίες) Detection of a pulse (PCM or radar etc) e.t.c) Case A Assumption:. s(t) = {A or 0}. Probability of s(t) = A = P 3. Probability of s(t) = 0 = -P 4. Probability density function of n(t) is known 5. We must base our decision on one sample Criterion: Minimize the probability of error: P e = P P e +(-P )P e0

Λύση Decision will be based on [n]=.if is in one Range R then we decide that H is true and our problem is to find R. Pe0 { is in R but s(t) is not present} R f ( / s( t) 0) d Pe f ( / s ( t ) A ) d f ( / s ( t ) A ) d R R Pe ( p) f ( / s( t) 0) d p f ( / s( t) A) d R R p [( p) f ( / 0) p f ( / A)] d R

Λύση (συνέχεια) έ ιάλεξε το R έτσι ώστε η πιθανότητα λάθους να είναι ελάχιστη ΑΡΑ ΠΡΕΠΕΙ [( P ) f ( / 0)] P ( / )] 0 f A f ( / A) P l( ) f ( / 0) P Το l() πιθανοφάνεια (likelihood) Μερικές φορές είναι καλύτερα να παίρνουμε τον λογάριθμο lnl( P ) ln P

ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Παράδειγμα Παράδειγμα Ο θόρυβος έχει κατανομή Gaussian με μέση τιμή μηδέν Ο θόρυβος έχει κατανομή Gaussian με μέση τιμή μηδέν και διασπορά σ. ) ( A ln ln ) ( P P A A P P A P P e e e D P P A A ln P A D D A e D erf p D A p erf P ) (

Χ Pe0 Pe Α

Αριθμητική εφαρμογή Computer transmits 0,, Each pulse occupies T sec and we sample every T sec with P =P =/, =, =0-5 σ choose A such that P e A A A D Pe erf erf 4 4 A erf 4 Pe A 0.99998 4 3 A Let T=μs on the average we are going to perform 0 errors every second!

Παράδειγμα Τι γίνεται εάν ο θόρυβος έχει ομοιόμορφη κατανομή στο [-α,α] f() /α -α 0 Α-α α Α Α+α χ Εάν Α-α α τότε P e =0 και R = Α-α Εάν Α-α<α (Α<α) τότε?

AΕλάχιστο A. Κόστος Σε αυτή την περίπτωση κάνουμε τις ίδιες υποθέσεις με την περίπτωση Α., αλλά το κριτήριο θα είναι η ελαχιστοποίηση του συνολικού κόστους και όχι της συνολικής πιθανότητας λάθους. Με λ ij = κόστος εάν επιλέξουμε H i ενώ είναι το H j σωστό έχουμε Bayes Criterion i : Ελαχιστοποίηση συνολικού κόστους C, με C P f / H) d 0 f ( / ) ( / ) H d P 00 f H 0 d 0 f R R0 R0 R ( ( / ) H 0 d και όπως στην περίπτωση Α.. έχουμε τελικά, ότι επιλέγουμε το Η εάν l( ) f f ( / A) ( / 0) P P

A.3 Minima ( P είναι άγνωστη) Σε αυτή την περίπτωση σχεδιάζουμε το σύστημα ώστε να ελαχιστοποιεί την χειρότερη περίπτωση κόστους P ( P) P f ( / H ) d f ( / H ) d P f ( / H ) d f ( / H d error 0 00 0 0 0 R R R R ) 0 0 f H d P f H d f H d 00 ( 0 00) ( / 0) ( 000) ( 0) ( / ) ( 0 00) ( / 0) R R R APB Άρα θέλουμε Α=0 και P error,min =B P

A.4 Newman-Pearson Criterion Σε αυτή την περίπτωση σχεδιάζουμε το σύστημα ώστε tο συνολικό κόστος για λάθος εκτίμηση μία κατάστασης είναι δεδομένο Με false alarm P e0 = k (δεδομένο), ελαχιστοποίησε P e = min Το παραπάνω πρόβλημα ελαχιστοποίησης μπορεί να λυθεί μέσω του δυαδικού του προβλήματος Lagrange. Σε πρώτο στάδιο γράφεται η Lagrangian συνάρτηση που του αντιστοιχεί LR (, ) P P f( H ) f ( H ) d e e0 0 R όπου λ ο πολλαπλασιαστής Lagrange που αντιστοιχεί στον περιορισμό ισότητας P e0 = k. Συνεπώς R και το λ το υπολογίζουμε f( H) f( H0) 0 από την σχέση f ( H ) d k R ( ) 0

Αριθμητικό Παράδειγμα Ο θόρυβος έχει κατανομή Gaussian με μέση τιμή μηδέν και διασπορά σ n και το σήμα παίρνει τις τιμές 0 και Α Άρα Όμως A n ln( ) D A και R D D D Pe 0 f( H0) dk erf k erf k D n n Εάν k=0-5 τότε προκύπτει ότι D 3 n

Β. Λαμβάνουμε πολλές μετρήσεις και s(t) είναι γνωστή κυματομορφή Εάν s(t) = {s(t) or 0} και λαμβάνουμε πάνω από Ν δείγματα για κάθε σύμβολο, τότε ={,,, N } και μ ={s =s(t ), s =s(t ),, s N =s(t N )} και μ 0 =0 μπορούμε να χρησιμοποιήσουμε τις συναρτήσεις διάκρισης για Γκαουσιανές κατανομές ΠΠ με Σ=σ n Ι περίπτωση, δηλαδή και επιλέγουμε το ω gi( ) -μ i ln( Pi) n εάν g () g 0 (), μετά από πράξεις i si i P i i n ln s P D

Τι κάνουμε? Λείπουν χαρακτηριστικά. Μερικά χαρακτηριστικά έχουν πολύ θόρυβο. Σε μία μέτρηση των χαρακτηριστικών των ψαριών με χαρακτηριστικά (, ) (μήκος, φωτεινότητα) δεν μπορούμε να δούμε το, τότε αντιμετωπίζουμε το πρόβλημα σαν πρόβλημα ενός χαρακτηριστικού και υπολογίζουμε τα pdf χρησιμοποιώντας την σχέση (marginal pdf) f p ( ) f y (, y) dy ( i ) py ( i, y j j Εάν αντί για κάποιες μεταβλητές έχουν και θόρυβο και εμείς παρατηρούμε τις b, τότε γνωρίζοντας ρζ το p( b ) υπολογίζουμε γζ το P(ω ι,, b ) )

Εάν έχουμε μόνο το και σαν πάρουμε την μέση τιμή του τότε οδηγούμεθα στο ω 3, ενώ εάν λάβουμε υπ όψιν μόνο το τότε επιλέγουμε το ω (σωστό) διότι το p( ω ) είναι μεγαλύτερο

Bayesian Belief ίκτυα Υπάρχουν πολλές περιπτώσεις όπου γνωρίζουμε ή μπορούμε να προβλέψουμε με ββ βεβαιότητα ποιες μεταβλητές είναι ή δεν είναι ανεξάρτητα, ακόμη και χωρίς δείγμα δεδομένων. Ας υποθέσουμε, για παράδειγμα, ότι περιγράφουμε την κατάσταση ενός αυτοκινήτου - θερμοκρασία του κινητήρα, οι πιέσεις στα υγρά και τα ελαστικά, οι τάσεις στα καλώδια, και ούτω καθεξής. Είναι γνωστό ότι η πίεση λαδιού στον κινητήρα και η πίεση του αέρα σε ένα τροχό δεν σχετίζονται λειτουργικά, και ως εκ τούτου μπορούμε με ασφάλεια να υποθέσουμε ότι είναι στατιστικά ανεξάρτητα. Ωστόσο, η θερμοκρασία του λαδιού και η θερμοκρασία του κινητήρα δεν είναι ανεξάρτητα (αλλά θα μπορούσε να είναι ανεξάρτητα υπό όρους). Επίσης μπορούμε να γνωρίζουμε πολλές μεταβλητές που ενδέχεται να επηρεάζουν η μία την άλλη: η θερμοκρασία του ψυκτικού υγρού επηρεάζεται από τη θερμοκρασία του κινητήρα, την ταχύτητα του ανεμιστήρα του ψυγείου και ούτω καθεξής. Εμείς θα εκπροσωπούμε αυτές τις εξαρτήσεις γραφικά, μέσω των Bayesian Belief ίκτυα, ονομάζονται επίσης αιτιατά δίκτυα, ή απλά δίκτυα

Bayesian Belief ίκτυα Παράδειγμα με το σολομό και το λαυράκι: Εποχή Α={α{,α,α 3,α 4 }={Χειμώνας, ώ Άνοιξη, Καλοκαίρι, Φθινόπωρο}, } Περιοχή Β={β,β }={Βόρειος, Νότιος Ατλαντικός}, Ψάρι Χ={χ,χ }= {σολομός, λαυράκι} Φωτεινότητα C={c,c,c 3 }={φωτεινό, μέτριο, σκοτεινό}, Πλάτος D={d,d }={πλατύ, στενό} P( a 3 P( a, b, 3, c, d ) P( b ) P( 3 ) a, b ) P( c 0.50.60.60.50.4 0.08 3 3 ) P( d )