Στατιστική λήψη αποφάσεων Εποπτευόμενη Μάθηση: Χρησιμοποιώντας ένα σετ κατάρτισης (training set) για τον σχεδιασμό του ταξινομητή -> Χρησιμοποιώντας ένα ξεχωριστό σύνολο δοκιμών (test set ) για ακρίβεια. Μη εποπτευόμενη μάθηση: ομαδοποίηση Παραμετρική λήψη αποφάσεων: η συνάρτηση πυκνότητας πιθανοτήτων είναι γνωστή για κάθε κατηγορία και όχι οι παράμετροι (μέσος όρος, διακύμανση) - πρέπει να εκτιμηθούν. 1
Πιθανότητα Technological Educational Institute Of Crete Βασικές Έννοιες Πιθανοτήτων Οι πιθανότητες είναι αριθμοί που αντιστοιχούν σε γεγονότα και δείχνουν ποσό πιθανό είναι να συμβει το γεγονμός εαυτό σε ένα τυχαίο πειράμα. Ένας νόμος πιθανοτήτων για ένα τυχαίο πείραμα είναι ο κανόνας που αναθέτει πιθανότητες στα γεγονότα του πειράμταος Ο Χώρος Πιθανοτήτων S ενός τυχαίου πειράματος είναι το σύνολο από όλα τα πιθανα αποτελέσματα. Χώρος Πιθανοτήτων νόμος πιθανοτήτων Γεγονός Αξιόματα Πιθανοτήτων 2
Ιδιότητες Πιθανοτήτων 3
Υπο συνθήκη Πιθανοτήτα Αν Α και Β είναι δύο γεγονότα, η πιθανότητα του Α αν ήδη το Β έχει συμβεί δίνεται απο τη σχέση: Η υπο συνθήκη πιθανότητα του Α αν ήδη το Β έχει συμβεί διαβάζεται και ως η «πιθανότητα του Α δεδομένου του Β»: Το Β έχει Συμβεί Η Ερμηνεία είναι ότι αφού το Β έχει συμβεί, ο αρχικός χώρος πιθανοτήτων (όσο το τετράγωνο): Ο αρχικός χώρος πιθανοτήτων περιορίζεται πλέον και ταυτίζεται με το Β Το γεγονός Α περιορίζεται πλέον στο Α Β Στη σχέση της υπό συνθήκης πιθανότητας η διαίρεση με το P[B] επανα-κανονικοποιεί την πιθανότητα P[Α Β] δηλαδή γεγονότων που θα γίνουν σε συνδυασμό με το Β 4
5
Θεώρημα Ολικής Πιθανότητας Η Πιθανότητα του Α υπολογίζεται με τις υπο συνθήκη πιθανότητες των στοιχείων Bi της διαμέρισης του S. 6
Θεώρημα Bayes Technological Educational Institute Of Crete Αυτό είναι γνωστό βς το θεώρημα Bayes, μια από τις πιο θεμελιώδης σχέσεις στην στατιστική αλλά και στην Αναγνώριση Προτύπων. 7
Β: Μαύροι W: Ασπροι S: Xωρίς κουκίδα D: Με κουκίδα Παράδειγμα με Συνδυαστικές Πιθανότητες Μαύρο (Β) ή Άσπρο (W) Με κουκίδα (D) ή χωρίς (S) Λευκό με κουκίδα 8
Β: Μαύροι W: Ασπροι S: Xωρίς κουκίδα D: Με κουκίδα Υπο συνθήκη Πιθανοτήτα P(B D) Ποια η πιθανότατα να είναι μαύρο (Β) με δεδομένο ότι έχει κουκίδα (D)? Πρέπει να βρούμε το P(B D) Αφού το γεγονός ότι έχει κουκίδα έχει συμβεί (D) κρύβουμε όλα όσα δεν έχουν κουκίδα και μένουν συνολικά 5 Από αυτά τα δύο είναι μαύρα (B) 9
Β: Μαύροι W: Ασπροι S: Xωρίς κουκίδα D: Με κουκίδα Αφού το γεγονός ότι είναι μαύρο έχει συμβεί (Β) Από τα 6 συνολικά μαυρα η πιθανότητα να έχουν κουκίδα δηλ. P(D B) είναι 2 στα 6 Κανόνας Μπέυζ =0.4 10
Η Μπεϋζιανή λήψη αποφάσεων αναφέρεται στην επιλογή της πιο πιθανής κατηγορίας, δεδομένης της τιμής του (των) χαρακτηριστικού (ων) P(C/x) είναι η υπό συνθήκη πιθανότητα λήψης του χαρακτηριστικού x δεδομένου ότι το δείγμα προέρχεται από την κατηγορία C και σύμφωνα με τον νόμο του Bayes: P(C/x) = P(C) P(x/C) P(x) 11
P(C/x) = P(C) P(x/C) P(x) Παράδειγμα: Ποια είναι η πιθανότητα ότι ένα άτομο έχει κρυολόγημα (C) δεδομένου ότι έχει πυρετό (f) Δίνεται: P(C) =0.01, P(f)=0.02, P(f/C)=0.04 Εφαρμόζοντας τον νόμο του Bayes έχουμε: P(C/f) = P(C) P(f/C) = (0.01)(0.04) = 0.02 P(f) 0.02 12
Θεώρημα Bayes και Στατιστική Αναγνώριση Προτύπων Αρχική πιθανότητα (Prior probability) της κατηγορίας ω j Εκ των υστέρων πιθανότητα (Posterior probability) της ω j δεδομένου της παρατήρησης x Υπο συνθήκη πιθανότητα της παρατήρησης x δεδομένου ότι της κατηγορίας ω j Μια σταθερά κανονικοποίησης που δεν επηρεάζει την απόφαση 13
14
Αναλυτικό Παράδειγμα Στο παρακάτω παράδειγμα χρειάζεται να υπολογίσουμε αν ένας ασθενής έχει ένα νόσημα (condition-cond) με βάση μια εξέταση (test) που δεν είναι τέλειο. Ορίζουμε τα παρακάτω: Ψευδώς αρνητικό (False Negative): Κάποιος έχει το νόσημα (COND)και το test είναι αρνητικό. Ψευδώς Θετικό (False Positive): Κάποιος ΔΕΝ έχει το νόσημα (NCOND) και το test είναι θετικό. Εξειδίκευση: Το ποσοστό αληθώς αρνητικών P(Neg NCOND) του test. Ευαισθησία: Το ποσοστό αληθώς θετικών P(Pos COND) του test. Πρόβλημα: Σε έναν πληθυσμό 10.000 γνωρίζουμε ότι 1 στους 100 έχει το νόσημα. Το διαθέσιμο test έχει 98% εξειδίκευση και 90% ευαισθησία. Αν κάποιος κάνει το test και βγει Θετικό (POS), ποια η πιθανότητα πραγματικά να έχει το νόσημα? 15
Αναλυτικό Παράδειγμα Πρόβλημα: Σε έναν πληθυσμό 10.000 γνωρίζουμε ότι 1 στους 100 έχει το νόσημα. Το διαθέσιμο test έχει 98% εξειδίκευση και 90% ευαισθησία. Αν κάποιος κάνει το test και βγει Θετικό (POS), ποια η πιθανότητα πραγματικά να έχει το νόσημα? Ας ξεκινήσουμε συμπληρώνοντας τον παρακάτω πίνακα: Έχουν το Νόσημα Δεν έχουν το Νόσημα Θετικό Test Αρνητικό Test Σύνολο 16
Αναλυτικό Παράδειγμα Πρόβλημα: Σε έναν πληθυσμό 10.000 γνωρίζουμε ότι 1 στους 100 έχει το νόσημα. Το διαθέσιμο test έχει 98% εξειδίκευση και 90% ευαισθησία. Αν κάποιος κάνει το test και βγει Θετικό (POS), ποια η πιθανότητα πραγματικά να έχει το νόσημα? Ας ξεκινήσουμε συμπληρώνοντας τον παρακάτω πίνακα συνδυαστικής συχνότητας: Θετικό Test Αρνητικό Test Σύνολο Έχουν το Νόσημα P(POS COND)=0.9 P(NEG COND)=0.1 0.9x100=90 (1-0.9)x100=10 100 Δεν έχουν το Νόσημα P(POS NCOND)=0.02 P(NEG NCOND)=0.98 (1-0.98)x9900=198 0.98x9900=9702 9900 Σύνολο 288 9712 10000 Ατελές test! 17
Αναλυτικό Παράδειγμα COND POS test NCOND 18
Αναλυτικό Παράδειγμα 19
O Λόγος πιθανοφανειών (Likelihood Ratio) για την κατάταξη προτύπων O Λόγος πιθανοφανειών (Likelihood Ratio) ανάμεσα στις κατηγορίες A και B ορίζεται ως: R = P(A /x) = P(A) P(x/A) P(B/x) P(B) P(x/B) Αν R>1 το πρότυπο x κατατάσσεται στην κατηγορία A If R<1 το πρότυπο x κατατάσσεται στην κατηγορία B 20
O Λόγος πιθανοφανειών (Likelihood Ratio) για την κατάταξη προτύπων Παράδειγμα: Ανίχνευση του ιού HIVμε το ELISA test H Ο ασθενής έχει τον ιό HIV H Ο ασθενής ΔΕΝ έχει τον ιό HIV POS To test του ασθενή βγαίνει θετικό NEG To test του ασθενή βγαίνει αρνητικό Δίνεται ότι P(H)=0.15 P(H )=0.85 Επίσης P(POS/H) = 0.95 και P(POS/H )=0.02 (το συμπληρωματικό της εξειδίκευσης) Σε ποια κατηγορία θα κατατάσσαμε τον ασθενή με θετικό test χρησιμοποιώντας Λόγο Πιθανοφανειών? 21
O Λόγος πιθανοφανειών (Likelihood Ratio) για την κατάταξη προτύπων Bayes Theorem P(H/POS) = P(H) P(POS/H) = P(POS/H) P(H)+P(POS/H ) P(H ) = (0.15)(0.95) = 0,893 (0.95) (0.15) + (0.02) (0.85) P(H/POS)>0.5 Likelihood Ratio R = P(H/POS) = P(H) P(Pos/H) = (0.15)(0.95) = 8.382 P(H /POS) P(H ) P(Pos/H ) (0.85)(0.02) R>1 22