Θεωρία Λήψης Αποφάσεων Ενότητα 2: Θεωρία Απόφασης του Bayes Μπεληγιάννης Γρηγόριος Σχολή Οργάνωσης και Διοίκησης Επιχειρήσεων Τμήμα Διοίκησης Επιχειρήσεων Αγροτικών Προϊόντων & Τροφίμων (Δ.Ε.Α.Π.Τ.)
Θεωρία Απόφασης του Bayes Υποενότητα 1
Σκοποί 1 ης υποενότητας Να γνωρίσουν οι φοιτητές τη μορφή και τη χρησιμότητα του κανόνα απόφασης του Bayes Να μάθουν οι φοιτητές τις περιπτώσεις ταξινόμησης δύο κατηγοριών και ταξινόμησης ελάχιστου ρυθμού λάθους Να μπορέσουν οι φοιτητές να βρίσκουν και να καθορίζουν τις διακρίνουσες συναρτήσεις, τις επιφάνειες απόφασης, τις πιθανότητες λάθους και τα διαστήματα ταξινόμησης 3
Περιεχόμενα 1 ης υποενότητας Κανόνας Απόφασης του Bayes Ταξινόμηση Δύο Κατηγοριών Ταξινόμηση Ελάχιστου Ρυθμού Λάθους Διακρίνουσες Συναρτήσεις και Επιφάνειες Απόφασης Πιθανότητες Λάθους και Διαστήματα Η κανονική συνάρτηση πυκνότητας πιθανότητας 4
Κανόνας Απόφασης του Bayes (1/21) Έστω ότι είναι γνωστές τόσο οι εκ των προτέρων πιθανότητες Ρ(ω j ) όσο και οι υπό συνθήκη συναρτήσεις πυκνότητας πιθανότητας (πιθανοφάνειες) p(x/ω j ), j=1,,n. Ο κανόνας απόφασης του Bayes είναι: P j / x p x / P j px j 5
Κανόνας Απόφασης του Bayes (2/21) όπου στην περίπτωση n κατηγοριών: n / j j px px P j1 6
Κανόνας Απόφασης του Bayes (3/21) Ο τύπος απόφασης του Bayes μπορεί να περιγραφεί με λόγια ως εξής: a posteriori πιθανοφάνεια a γεγονός priori 7
Κανόνας Απόφασης του Bayes (4/21) Ο τύπος απόφασης του Bayes δηλώνει ότι με την βοήθεια της παρατήρησης της τιμής του x είναι δυνατόν να μετατραπεί η εκ των προτέρων πιθανότητα Ρ(ω j ) στην εκ των υστέρων πιθανότητα Ρ(ω j /x), δηλαδή την πιθανότητα η κατάσταση της φύσης (το ενδεχόμενο) να είναι το ω j δεδομένου ότι έχει μετρηθεί η τιμή x για το χαρακτηριστικό 8
Κανόνας Απόφασης του Bayes (5/21) Η p(x/ω j ) καλείται συνάρτηση πιθανοφάνειας της ω j σε σχέση με το x και χρησιμοποιείται για να δηλώσει ότι, εάν όλες οι υπόλοιποι παράμετροι είναι ίσες, η κατηγορία ω j για την οποία η p(x/ω j ) έχει μεγάλη τιμή έχει μεγαλύτερη πιθανότητα να είναι η σωστή κατηγορία 9
Κανόνας Απόφασης του Bayes (6/21) Να σημειωθεί ότι το γινόμενο της πιθανοφάνειας και της εκ των προτέρων πιθανότητας είναι αυτό που καθορίζει την τιμή της εκ των υστέρων πιθανότητας 10
Κανόνας Απόφασης του Bayes (7/21) Ο παράγοντας p(x), μπορεί να θεωρηθεί περισσότερο ως ένας παράγοντας κανονικοποίησης που εγγυάται ότι το άθροισμα των εκ των υστέρων πιθανοτήτων θα ισούται με τη μονάδα 11
Κανόνας Απόφασης του Bayes (8/21) Οποτεδήποτε μετριέται μία συγκεκριμένη τιμή του x, η πιθανότητα λάθους ισούται με: P λάθος / x P 1 / x P 2 / x,, εάν αποφασίζουμε ω εάν αποφασίζουμε ω 2 1 Η μέση πιθανότητα λάθους ισούται με: P λάθος Pλάθος, xdx Pλάθος/ x px dx 12
Κανόνας Απόφασης του Bayes (9/21) Εάν για κάθε x εγγυηθούμε ότι η Ρ(λάθος/x) είναι μικρότερη δυνατή, τότε το διάστημα ολοκλήρωσης θα είναι όσο το δυνατόν μικρότερο 13
Κανόνας Απόφασης του Bayes (10/21) O ακόλουθος κανόνας απόφασης του Bayes είναι αυτός που ελαχιστοποιεί την πιθανότητα λάθους: Αποφάσισε ω 1 εάν Ρ(ω 1 /x)> Ρ(ω 2 /x) διαφορετικά αποφάσισε ω 2 Άρα: P / x minp / x, P / x 1 λάθος 2 14
Κανόνας Απόφασης του Bayes (11/21) O κανόνας απόφασης του Bayes που ελαχιστοποιεί την πιθανότητα λάθους μπορεί να γραφεί και με την παρακάτω μορφή: Αποφάσισε ω 1 εάν p(x/ω 1 )Ρ(ω 1 ) > p(x/ω 2 )Ρ(ω 2 ) διαφορετικά αποφάσισε ω 2 15
Κανόνας Απόφασης του Bayes Παρατηρήσεις (12/21) Εάν για κάποια τιμή του x οι πιθανοφάνειες είναι ίσες: p(x/ω 1 )=p(x/ω 2 ), τότε η συγκεκριμένη παρατήρηση δεν παρέχει κάποια χρήσιμη πληροφορία για την πραγματική κατάσταση της φύσης Σε αυτήν την περίπτωση η απόφαση εξαρτάται αποκλειστικά από τις εκ των προτέρων πιθανότητες 16
Κανόνας Απόφασης του Bayes Παρατηρήσεις (13/21) Εάν οι εκ των προτέρων πιθανότητες είναι ίσες: p(ω 1 )=p(ω 2 ), τότε οι καταστάσεις τις φύσης είναι ισοπίθανες Σε αυτήν την περίπτωση η απόφαση εξαρτάται αποκλειστικά από τις συναρτήσεις πιθανοφάνειας 17
Κανόνας Απόφασης του Bayes (14/21) Έστω {ω 1,, ω c } το πεπερασμένο σύνολο c διαφορετικών καταστάσεων της φύσης (ενδεχομένων) και α 1,,α α το πεπερασμένο σύνολο των α πιθανών ενεργειών (αποφάσεων) Η συνάρτηση κόστους λ(α i /ω j ) περιγράφει το κόστος που αντιστοιχεί στην ενέργεια (απόφαση) α i, όταν η κατάσταση της φύσης είναι η ω j 18
Κανόνας Απόφασης του Bayes (15/21) Έστω ότι το διάνυσμα των χαρακτηριστικών γνωρισμάτων x είναι μια d διάστατη τυχαία μεταβλητή και p(x/ω j ) είναι η πιθανοφάνεια για το x, δηλαδή η συνάρτηση πυκνότητας πιθανότητας για το x υπό τη συνθήκη ότι η ω j είναι η πραγματική κατάσταση της φύσης Φυσικά, με P(ω j ) παριστάνεται η εκ των προτέρων πιθανότητα ότι η κατάσταση της φύσης είναι η ω j 19
Κανόνας Απόφασης του Bayes (16/21) Επομένως, η εκ των υστέρων πιθανότητα μπορεί να υπολογιστεί από την με βάση τον τύπο του Bayes: P j / x p x/ P j p x j όπου p c x px / j P j j1 20
Κανόνας Απόφασης του Bayes (17/21) Έστω ότι παρατηρείται ένα συγκεκριμένο x και λαμβάνεται η ενέργεια α i Εάν η πραγματική κατάσταση της φύσης είναι η ω j εξ ορισμού θα έχουμε κόστος ίσο με λ(α i /ω j ) 21
Κανόνας Απόφασης του Bayes (18/21) Αφού η P(ω j )/x) είναι η πιθανότητα η πραγματική κατάσταση της φύσης να είναι η ω j, το αναμενόμενο κόστος που σχετίζεται με την ενέργεια α i θα είναι: R c i / x i / j P j / x j 1 22
Κανόνας Απόφασης του Bayes (19/21) Στην ορολογία της Θεωρίας Αποφάσεων το αναμενόμενο κόστος καλείται ρίσκο και το R(α i /x) υπό συνθήκη ρίσκο Οποτεδήποτε παρατηρηθεί ένα συγκεκριμένο δείγμα x το αναμενόμενο κόστος μπορεί να ελαχιστοποιηθεί επιλέγοντας την ενέργεια εκείνη που ελαχιστοποιεί το υπό συνθήκη ρίσκο 23
Κανόνας Απόφασης του Bayes (20/21) Για να ελαχιστοποιηθεί το συνολικό ρίσκο, υπολογίζουμε το υπό συνθήκη ρίσκο: R c i / x i / j P j / x j1 για i= 1,, α και στη συνέχεια επιλέγουμε την ενέργεια α i για την οποία το R(α i /x) είναι ελάχιστο 24
Κανόνας Απόφασης του Bayes (21/21) Το ελάχιστο συνολικό ρίσκο που προκύπτει καλείται ρίσκο κατά Bayes, συμβολίζεται με R *, και είναι η βέλτιστη απόδοση που μπορεί να επιτευχθεί 25
Ταξινόμηση Δύο Κατηγοριών (1/4) Στην περίπτωση αυτή η ενέργεια α 1 αντιστοιχεί στην απόφαση ότι η πραγματική κατάσταση της φύσης είναι η ω 1 και η ενέργεια α 2 στην απόφαση ότι είναι η ω 2 Έστω ότι λ ij =λ(α i /ω j ) είναι το κόστος που υπάρχει όταν αποφασίζουμε υπέρ της ω i ενώ η πραγματική κατάσταση της φύσης είναι η ω j 26
Ταξινόμηση Δύο Κατηγοριών (2/4) Χρησιμοποιώντας την εξίσωση για το υπό συνθήκη ρίσκο έχουμε: R 1 / x 11 P 1 / x 12 P 2 / x R x P / x P / x 2 / 21 1 22 2 Ο βασικός κανόνας απόφασης ελάχιστου ρίσκου είναι να αποφασίσουμε ω 1 εάν: R 1 / x R 2 / x 21 11 P 1 / x 12 22 P 2 / x px/ P px P 21 11 1 1 12 22 / 2 2 27
Ταξινόμηση Δύο Κατηγοριών (3/4) Μια άλλη εναλλακτική μορφή, η οποία προκύπτει από το λογικό συλλογισμό ότι λ 21 >λ 11 είναι να αποφασίζουμε ω 1 εάν p p x / x / 1 2 12 21 22 11 P P 2 1 28
Ταξινόμηση Δύο Κατηγοριών (4/4) Επομένως, ο κανόνας απόφασης του Bayes μπορεί να ερμηνευθεί ως απόφαση για ω 1 εάν ο λόγος πιθανοφάνειας είναι μεγαλύτερος από μία τιμή κατωφλίου, η οποία είναι ανεξάρτητη από το διάνυσμα παρατήρησης x, είναι δηλαδή σταθερή 29
Ταξινόμηση Ελάχιστου Ρυθμού Λάθους (1/6) Στα προβλήματα ταξινόμησης, κάθε κατάσταση της φύσης συσχετίζεται συνήθως με μία από τις c διαφορετικές κατηγορίες, και κάθε ενέργεια α i ερμηνεύεται συνήθως ως η απόφαση ότι η πραγματική κατάσταση της φύσης είναι η ω i Εάν εκτελεστεί η ενέργεια α i και η πραγματική κατάσταση της φύσης είναι η ω j, τότε η απόφαση είναι σωστή εάν i=j και λάθος εάν ij 30
Ταξινόμηση Ελάχιστου Ρυθμού Λάθους (2/6) Εάν, όπως είναι το φυσιολογικό, επιθυμούμε να αποφεύγονται τα λάθη, πρέπει να βρεθεί ένας κανόνας απόφασης ο οποίος να ελαχιστοποιεί την πιθανότητα λάθους, δηλαδή το ρυθμό λάθους 31
Ταξινόμηση Ελάχιστου Ρυθμού Λάθους (3/6) Η συνάρτηση κόστους για αυτήν την περίπτωση είναι η συμμετρική ή μηδέν ένα συνάρτηση κόστους: i / j 0 1 i i j j i, j 1,..., c 32
Ταξινόμηση Ελάχιστου Ρυθμού Λάθους (4/6) Αυτή η συνάρτηση κόστους δεν αντιστοιχεί κανένα κόστος στις σωστές αποφάσεις, ενώ αντιστοιχεί μοναδιαίο κόστος σε κάθε λανθασμένη απόφαση Έτσι, όλα τα λάθη είναι ισοδύναμα από πλευράς κόστους 33
34 Ταξινόμηση Ελάχιστου Ρυθμού Λάθους (5/6) Το ρίσκο που αντιστοιχεί σε αυτή τη συνάρτηση κόστους είναι ακριβώς ίδιο με τη μέση πιθανότητα λάθους διότι το υπό συνθήκη ρίσκο ισούται με x x x x / 1 / / / / 1 i i j j c j j j i i P P P R
Ταξινόμηση Ελάχιστου Ρυθμού Λάθους (6/6) Με άλλα λόγια, ο κανόνας απόφασης για ελάχιστο ρυθμό λάθους είναι ο εξής: Αποφάσισε ω i εάν P(ω i /x) > P(ω j /x) για κάθε j i 35
Διακρίνουσες Συναρτήσεις και Επιφάνειες Απόφασης (1/4) Υπάρχουν πολλοί διαφορετικοί τρόποι για την αναπαράσταση ταξινομητών προτύπων Ένας από τους πιο χρήσιμους είναι η χρήση ενός συνόλου από διακρίνουσες συναρτήσεις g i (x), i= 1,, c 36
Διακρίνουσες Συναρτήσεις και Επιφάνειες Απόφασης (2/4) Ο ταξινομητής αναθέτει ένα διάνυσμα χαρακτηριστικών x στην κατηγορία ω i εάν g i (x)>g j (x) για όλα τα ij H επιλογή διακρινουσών συναρτήσεων δεν είναι μοναδική, μπορούμε δηλαδή να έχουμε διάφορες διακρίνουσες συναρτήσεις 37
Διακρίνουσες Συναρτήσεις και Επιφάνειες Απόφασης (3/4) Εάν κάθε διακρίνουσα συνάρτηση g i (x) αντικατασταθεί από την f(g i (x)), όπου η f() είναι μια μονότονη αύξουσα συνάρτηση, η ταξινόμηση θα παραμείνει ανεπηρέαστη 38
Διακρίνουσες Συναρτήσεις και Επιφάνειες Απόφασης (4/4) g i x P / x i c p j1 x/ P p i x / P j i j g g i i x px / P i x ln px / ln P i i i 39
Πιθανότητες Λάθους και Διαστήματα (1/4) Έστω η περίπτωση των δύο κατηγοριών όπου ο ταξινομητής έχει χωρίσει το χώρο των χαρακτηριστικών σε δύο περιοχές απόφασης R 1 και R 2 με έναν πιθανό μη βέλτιστο τρόπο Οι περιπτώσεις για τις οποίες μπορεί να συμβεί κάποιο λάθος ταξινόμησης είναι δύο 40
Πιθανότητες Λάθους και Διαστήματα (2/4) Είτε ένα δείγμα x βρίσκεται στην περιοχή R 2, ενώ η πραγματική κατάσταση της φύσης είναι η ω 1, είτε βρίσκεται στην περιοχή R 1, ενώ η πραγματική κατάσταση της φύσης είναι η ω 2 41
42 Πιθανότητες Λάθους και Διαστήματα (3/4) Επειδή οι δύο αυτές περιπτώσεις είναι αμοιβαία αποκλειόμενες και εξουδετερωμένες, η πιθανότητα του λάθους ισούται με: 1 2 2 2 1 1 2 2 1 1 1 2 2 1 1 2 / / / /,, λάθους R R d P p d P p P R P P R P R P R P P x x x x x x x x
Η κανονική συνάρτηση πυκνότητας πιθανότητας (1/2) Συνάρτηση Πυκνότητας Πιθανότητας Μιας Μεταβλητής p x 1 exp 2 1 2 x 2 43
Η κανονική συνάρτηση πυκνότητας πιθανότητας (2/2) Μία κανονική κατανομή μιας μεταβλητής έχει το 95% των τιμών της στο διάστημα: x μ 2σ Η κορυφή της κατανομής έχει τιμή: 44
Τέλος Υποενότητας 1
Ασκήσεις Θεωρίας Απόφασης του Bayes Υποενότητα 2
Σκοποί 2 ης υποενότητας Να μάθουν οι φοιτητές να επιλύουν ασκήσεις σχετικά με τους κατά Bayes ταξινομητές. Να μπορούν οι φοιτητές να υπολογίζουν τις διακρίνουσες συναρτήσεις, τις περιοχές απόφασης και την πιθανότητα λάθους ταξινόμησης 47
Περιεχόμενα 2 ης υποενότητας 1 η Άσκηση: Ομοιόμορφη κατανομή 2 η Άσκηση: Κατά Bayes ταξινομητής με ίσες εκ των προτέρων πιθανότητες 3 η Άσκηση: Κατά Bayes ταξινομητής 4 η Άσκηση: Διακρίνουσες συναρτήσεις και περιοχές απόφασης 48
1 η Άσκηση (1/2) Η κατανομή unif(a,b) ορίζεται ως εξής: 49
1 η Άσκηση (2/2) Θεωρείστε ένα πρόβλημα δύο κατηγοριών/ενδεχομένων (ω 1 και ω 2 ) και επιλύστε το ακόλουθο ερώτημα: Εάν οι εκ των προτέρων πιθανότητες είναι ίσες, βρείτε το όριο απόφασης αν το ενδεχόμενο ω 1 έχει συνάρτηση πυκνότητας πιθανότητας unif(0,2) και το ενδεχόμενο ω 2 έχει συνάρτηση πυκνότητας πιθανότητας unif(1,4) χρησιμοποιώντας ένα «κατά Bayes» σύστημα λήψης απόφασης 50
2 η Άσκηση (1/2) Έστω οι δύο παρακάτω μονοδιάστατες κατανομές πυκνότητας πιθανότητας που αντιστοιχούν σε δύο κατηγορίες (πιθανές εκδοχές) ω 1 και ω 2, αντίστοιχα: 51
2 η Άσκηση (2/2) Θεωρείστε ότι P(ω 1 )= P(ω 2 ) Βρείτε τις περιοχές απόφασης και την πιθανότητα λάθους αν εφαρμοστεί ένα «κατά Bayes» σύστημα λήψης απόφασης 52
3 η Άσκηση (1/2) Έστω οι δύο παρακάτω μονοδιάστατες κατανομές πυκνότητας πιθανότητας που αντιστοιχούν σε δύο κατηγορίες (πιθανές εκδοχές) ω 1 και ω 2, αντίστοιχα: 53
3 η Άσκηση (2/2) Θεωρείστε ότι P(ω 1 )= 2P(ω 2 ) Βρείτε τις περιοχές απόφασης και την πιθανότητα λάθους αν εφαρμοστεί ένα «κατά Bayes» σύστημα λήψης απόφασης 54
4 η Άσκηση (1/2) Υποθέστε ότι έχουμε ένα δισδιάστατο χώρο χαρακτηριστικών x=[x 1, x 2 ], δύο κατηγορίες/ενδεχόμενα ω 1 και ω 2 και ότι οι p(x 1,x 2 ω 1 ) και p(x 1,x 2 ω 2 ) ακολουθούν Κανονική κατανοµή µε τις ίδιες διασπορές σ 2 =4 και µέση τιµή μ 1 =[2,8] και μ 2 =[8,2], αντίστοιχα. Έστω επίσης ότι P(ω1)=4P(ω 2 ) 55
4 η Άσκηση (2/2) Αν χρησιµοποιήσουµε ένα «κατά Bayes» σύστημα λήψης απόφασης: 1. Ποιες είναι οι δύο συναρτήσεις απόφασης g 1 (x 1,x 2 ) και g 2 (x 1,x 2 ); 2. Ποιο είναι το σύνορο (όριο) απόφασης και τι μορφή έχει; 56
Τέλος Υποενότητας 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Πατρών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 58
Σημειώματα
Σημείωμα Ιστορικού Εκδόσεων Έργου Το παρόν έργο αποτελεί την έκδοση 1.0. Έχουν προηγηθεί οι κάτωθι εκδόσεις: 60
Σημείωμα Αναφοράς Copyright Πανεπιστήμιο Πατρών, Γρηγόριος Μπεληγιάννης. «Θεωρία Λήψης Αποφάσεων. Θεωρία Απόφασης του Bayes». Έκδοση: 1.0. Πάτρα 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: https://eclass.upatras.gr/modules/document/document.php?course=deapt1 12. 61
Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by nc sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. 62