ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ ΑΣΚΗΣΗ Σύμφωνα με στοιχεία από το Πανεπιστήμιο της Οξφόρδης η πιθανότητα ένας φοιτητής να αποφοιτήσει μέσα σε 5 χρόνια από την ημέρα εγγραφής του στο Πανεπιστήμιο είναι 0.8. Το Oxford Uiversiy Tesig Service score (OUT score) όσων φοιτητών αποφοιτούν μέσα σε 5 χρόνια ακολουθεί κανονική κατανομή με μέση τιμή 26 και τυπική απόκλιση 2. Τα scores όσων δεν αποφοιτούν μέσα σε 5 χρόνια ακολουθούν επίσης κανονική κατανομή, αλλά με μέση τιμή 22 και τυπική απόκλιση 3. Στο Πανεπιστήμιο για την ταξινόμηση των φοιτητών χρησιμοποιείται επιπροσθέτως ο βαθμός τάξης (παράμετρος y) (η βαθμολογία που παίρνει ένας φοιτητής σε κάποιο τεστ σε σύγκριση με τη βαθμολογία των συμφοιτητών του). Έστω το γεγονός κατά το οποίο ένας φοιτητής ολοκληρώνει τη φοίτησή του στα 5 έτη και το γεγονός κατά το οποίο ένας φοιτητής δεν ολοκληρώνει τη φοίτησή του στα 5 έτη. Θεωρούμε μία τυχαία τιμή x του OUT score. Υποθέτουμε ότι οι υπό συνθήκη πιθανοφάνειες τόσο του x όσο και του y είναι κανονικές, δύο μεταβλητών. 4 6 P(x,y )=N(μ Σ ) με μ = [26,85] και Σ = 6 40 9 2 P(x,y )=N(μ Σ ) με μ = [26,85] και Σ = 2 58 A) Ποια είναι η πιθανότητα ένας φοιτητής με OUT score 2.5 και βαθμό τάξης 72 να αποφοιτήσει μέσα σε 5 έτη; B) Να βρείτε την εξίσωση του βέλτιστου ορίου απόφασης για τις δύο κατηγορίες και. ΛΥΣΗ A) Αναζητούμε την πιθανότητα P( x=2.5, y=72). Σύμφωνα με τον κανόνα του Bayes ισχύει : P ( ) P ( xy, ) = Pxy (, ) Pxy (, ) Σύμφωνα με τον τύπο της συνάρτησης πυκνότητας πιθανότητας πολλών μεταβλητών ισχύει : Pxy (, ) = exp[ / 2( x μ) ( x )] d /2 /2 μ, όπου d = 2. (2 π ) Σ Υπολογίζουμε τον αντίστροφο του πίνακα συνδιασποράς Σ : 0.3226 0.0484 = 24 και Σ = 0.0484 0.0323 Αντικαθιστώντας στον τύπο της συνάρτησης πυκνότητας πιθανότητας προκύπτει :
Pxy (, ) = 0.043exp[ / 2( x μ ) ( x μ )] P( 2.5, 72 ) = 6.059*0-4 Σύμφωνα με το Θεώρημα Ολικής Πιθανότητας : P(x,y) = P(x,y ) * P() + P(x,y ) * P() Υπολογίζουμε τον αντίστροφο του πίνακα συνδιασποράς Σ : 0.534 0.037 = 0.037 0.0238 και Σ = 378 Αντικαθιστώντας στον τύπο της συνάρτησης πυκνότητας πιθανότητας προκύπτει : Pxy (, ) = exp[ / 2( x μ ) ( )] d /2 /2 x μ όπου d = 2 (2 π ) Σ Pxy (, ) = 0.0082exp[ / 2( x μ ) ( x μ )] P( 2.5, 72 ) = 0.0074 Αντικαθιστώντας στο Θεώρημα Ολικής Πιθανότητας προκύπτει : P( 2.5, 72 ) = 0.0020 η πιθανότητα να αποφοιτήσει ο φοιτητής στα 5 έτη είναι : P( x=2.5, y=72) = 0.2460 B) Η εξίσωση απόφασης πρέπει να ικανοποιεί την παρακάτω εξίσωση: P ( xy, ) = P ( xy, ) PxyP (, ) ( ) Pxy (, P ) ( ) = Pxy (, ) Pxy (, ) 0.043exp[ / 2( x μ ) ( x μ )]0.8 = 0.0082exp[ / 2( x μ ) ( x μ )]0.2 0.0082 exp[ / 2( x ) ( x ) / 2( x μ μ + μ) ( x μ)] 0.434 = = 0.043*4 ( / 2)( x μ ) ( x μ ) + / 2( x μ ) ( x μ ) = log(0.434) ( x μ ) ( x μ ) + ( x μ ) ( x μ ) + 3.8848 = 0 Έστω το διάνυσμα x = [x y]. Τότε : -( [x-26 y-85] ) ( [x-26 y-85] ) + ( [x-22 y-70]) ( [x-22 y-70] ) + 3.8848 = 0 από το οποίο προκύπτει η ζητούμενη εξίσωση : 0.476x 2 + 0.056y 2 0.602xy 0.588x 4.94y + 334.6539 = 0
ΑΣΚΗΣΗ 2 Ταξινομητής ελάχιστης απόστασης Θεωρούμε ένα πρόβλημα classificaio σε δύο διαστάσεις, με 3 classes, όπου: p(x ω i )=N(μ i Σ i ), με i=,2,3 0 με μ =[ 0 2 ], μ 2 =[ 3 ] και μ 3 =[ 0 ] και Σ i =Σ= 0 /3 και στο οποίο υποθέτουμε ίσες εκ των προτέρων πιθανότητες: Ρ(ω )= Ρ(ω 2 )= Ρ(ω 3 ). Α) Να υπολογίσετε τη διακρίνουσα συνάρτηση g i (x) για κάθε μία class. Β) Να καθορίσετε τα όρια απόφασης. Πόσα είναι; Να αναφέρετε πώς πιστεύετε ότι θα είναι η γεωμετρική τους μορφή. ΛΥΣΗ 0 0 Α) Υπολογίζουμε =, και Σ = /3, όπου d = 2. 0 /3 = 0 3 Εφόσον Sum( P ) = ισχύει P(ω ) = P(ω 2 ) = P(ω 3 ). Επιπλέον, αφού p(x ω i ) ~ N(μ i Σ i ), οι συναρτήσεις πυκνότητας πιθανότητας είναι κανονικής κατανομής συναρτήσεις πολλών μεταβλητών και η διακρίνουσα συνάρτηση θα είναι της μορφής : d g i (x) = ( x μi) ( x μi) log2π log log P( ) i + ω i 2 2 2 g i (x) = ( ) x μi i ( x μi ) 2.3872 2 Έστω το διάνυσμα x = [x y]. Τότε : g i (x) = 0.5 ( [x y] - μ i ) Σ - ( [x y] - μ i ) 2.3872 Για i= έχουμε: μ =[ 0 2 ] g x = 0.5 ( [x (y-2)]) Σ ( [x (y-2)]) 2.3872 ( ) 0 g ( x ) = 0.5 ( [x (y-2)]) ( [x (y-2)]) 2.3872 0 3 2 3 2 g ( x) = x + y 6y+ 3.628 2 2 Για i=2 έχουμε: μ 2 =[ 3 ] g x = 0.5 ( [x-3 y-]) Σ ( [x-3 y-]) 2.3872 2 ( ) 0 g2 ( x ) = 0.5 ( [x-3 y-]) ( [x-3 y-]) 2.3872 0 3 2 3 2 g2 ( x) = x 3x+ y 3y+ 3.628 2 2 Για i=3 έχουμε: μ 3 =[ 0 ] g x = 0.5 ( [x- y]) Σ ( [x- y]) 2.3872 3 ( )
2 3 2 g3 ( x) = x x+ y.8872 2 2 Β) Οι επιφάνειες απόφασης θα είναι υπερεπίπεδα επειδή οι τρεις συναρτήσεις πυκνότητας πιθανότητας έχουν τους ίδιους πίνακες συνδιασποράς (οι οποίοι είναι ίσοι και ανάλογοι του ταυτοτικού πίνακα). Είμαστε στις d=2 διαστάσεις άρα τα όρια είναι γενικευμένα υπερεπίπεδα των (d-)= διαστάσεων (κάθετα στις γραμμές που χωρίζουν τα μέσα των κατανομών). έχουμε γραμμές (ευθείες) ως επιφάνειες των ορίων. Οι επιφάνειες απόφασης ορίζονται από τις γραμμικές εξισώσεις g i (x) = g j (x), με i j, i,j є {,2,3} (Προσοχή! Εάν είχαμε P(ω ) P(ω 2 ) P(ω 3 ) θα διαλέγαμε για την παραπάνω εξίσωση τις δύο κατηγορίες με τις μεγαλύτερες εκ των υστέρων πιθανότητες.) Θέλουμε να βρούμε 3 ημιευθείες και 3 σημεία ελέγχου. Έχουμε: g i (x) = g j (x) wx i + wi0 = gj( x) όπου wi = μ 2 i και wi0 = ( ) μμ l ( 2 i i + P w i )(Το κατώφλι της i-οστής σ 2σ κατηγορίας). Αφού οι περιοχές απόφασης είναι γειτονικές τα όρια απόφασης μεταξύ τους έχουν την εξίσωση: W ( x X ) = 0 ij W =Σ ( μ μ ) και ij ij i j
x ( μ μ )log[ Pw ( ) / Pw ( )] = 0.5( μ + μ ) i j i j ij i j ( μj μi) Σ ( μj μi) Επειδή P(W i )= P(W j ) ο δεύτερος όρος ισούται με μηδέν και έχουμε x = 0.5( μ + μ ). ij i j Ορίσαμε λοιπόν ένα υπερεπίπεδο που περνάει από το σημείο x 0 και είναι ορθογώνιο στο διάνυσμα W. Έχουμε: W ( X X ) =0 και W + ( X X + ) = 0 ij C ij ij C ij Υπολογίζουμε με τη βοήθεια της Malab: έχουμε 3 ημιευθείες που περνούν από το ίδιο σημείο [..], αφού τα σημεία ελέγχου συμπίπτουν.
ΑΣΚΗΣΗ 3 Έστω ότι η τυχαία μεταβλητή x έχει εκθετική πυκνότητα πιθανότητας θ θ e x x 0 p(x θ) = με θ>0 0 αλλού Υποθέστε ότι τα δείγματα x, x 2,..., x σχηματίζονται ανεξάρτητα σύμφωνα με το p(x θ). Να δείξετε ότι η εκτίμηση μέγιστης πιθανοφάνειας του θ δίνεται από το ˆ θ = x ΛΥΣΗ Έστω τα δείγματα που σχηματίζονται ανεξάρτητα, D={x, x 2,..., x }. Η εκτίμηση της μέγιστης πιθανοφάνειας του θ είναι εξ ορισμού η τιμή ˆ θ που μεγιστοποιεί το p( D θ ), με p( D θ ) = log-συνάρτηση πιθανοφάνειας είναι: l = l(p(d θ)) = l( px ( θ )) = = * lθ - θ = x = = = px ( θ ). = x l( px ( θ )) = l( θe θ ) = = = (l θ θx ) Το ˆ θ μπορεί να βρεθεί με μεθόδους διαφορικής λογικής. Παίρνοντας το ανάδελτα ως προς θ προκύπτει : l = ( l θ θ x) = x θ = θ. = Για να βρούμε τη εκτίμηση μέγιστης πιθανοφάνειας εξισώνουμε το παραπάνω με μηδέν και προκύπτει :
0 0 ˆ l = x = θ = = MLE ˆ θ MLE = x = = x Μία λύση ˆMLE θ της παραπάνω εξίσωσης μπορεί να αντιπροσωπεύει ένα αληθινό, ολικό μέγιστο, ένα τοπικό μέγιστο ή ελάχιστο ή σπανιότερα ένα σημείο του l(θ). ΑΣΚΗΣΗ 4 Έστω ότι το θ αναπαριστά την πιθανότητα να έρθει κορώνα σε ένα πρόβλημα ρίψης ενός κέρματος. Έχουμε διαθέσιμο ένα σύνολο από ανεξάρτητες και ομοιόμορφα κατανεμημένες τυχαίες παρατηρήσεις για να υπολογίσουμε το θ. A) Να βρείτε την Bayes εκτίμηση του θ για την εκ των προτέρων πυκνότητα εάν p(θ) =, 0 θ (Δηλαδή όλες οι τιμές του θ μεταξύ 0 και είναι εξίσου πιθανές). B) Ποια είναι η MLE του θ? Πώς διαφέρει από την Bayes εκτίμηση του πρώτου ερωτήματος?!! Δίνεται θ p ( θ) pq q dθ = και να υποθέσετε συνάρτηση τετραγωνικού 0 ( p+ q+ )! σφάλματος για το θ. ΛΥΣΗ A) Έστω θ η πιθανότητα να έρθει κορώνα σε ένα πρόβλημα ρίψης κέρματος. Έστω το πλήθος των φορών που εμφανίστηκε κορώνα σε ρίψεις του νομίσματος. Η πιθανότητα να πάρουμε ακριβώς επιτυχίες σε προσπάθειες δίνεται από την probabiliy mass fucio : p ( ω) p ( θ) θ ( θ) = = Η εκ των υστέρων πιθανότητα του θ δεδομένου ότι φορές έχει έρθει κορώνα είναι σύμφωνα με τον κανόνα του Bayes: p ( θ ) p( θ ) p( θ ) = p ( θ ) p ( θ ) 0 Οπότε προκύπτει p ( ) ( ) ( ) 0 θ pθ = θ θ = 0!( )!!! = = = = ( + )! ( + )!!( + ) + p( θ ) = ( + ) θ ( θ )
Για συνάρτηση κόστους τετραγωνικού σφάλματος αναζητούμε την τιμή του ˆ θ η 2 οποία ελαχιστοποιεί την ποσότητα ( θ ˆ θ ). Επομένως: ˆ θ = E [ θ ] = θp ( θ ) dθ Bayes θ θ θ θ + + 2 ˆ + Bayes = ( + ) ( ) dθ = 0 B) Η log-συνάρτηση πιθανοφάνειας είναι: l(θ) = log p(θ ) l( θ ) log = + ( )log( θ) + ( + )logθ όπου C = σταθερά ανεξάρτητη του θ. Η MLE του θ δίνεται αν μεγιστοποιήσουμε το l(θ). Διαφορίζοντας το l(θ) ως προς θ και εξισώνοντας με μηδέν την παράγωγο έχουμε: l( θ ) + ( ) = = 0 θ θ ( θ) θ = ˆ θ MLE =. εκτίμηση Bayes στο πρώτο ερώτημα λαμβάνει υπόψη την εκ των προτέρων πληροφορία σχετικά με το θ. Κατά συνέπεια, η εκτίμηση Bayes υπάρχει ακόμα και όταν δεν έχουμε διαθέσιμα δείγματα εκπαίδευσης δηλαδή όταν = 0. Η Bayes εκτίμηση είναι σχεδόν ίση με την MLE όταν η εκ των προτέρων πιθανότητα είναι fla και η p( θ) έχει peas (αυτό συνήθως συμβαίνει όταν )