Μάθηµα 3 ο b Από Κοινού Κατανοµή Τυχαίων Μεταβλητών Έχουµε δύο, ή περισσότερες, τυχαίες µεταβλητές έστω Χ και Υ. Η σκπ των ζευγών ( x, y ) λέγεται από κοινού κατανοµή του ζεύγους ή του διανύσµατος ( X,Y ) Ross, Κεφ 6, 6.1-5,6.7 Μπερτσεκάς-Τσιτσικλής, Κεφ 2, σ 105 http://compus.uom.gr/inf267/index.php 1
Από Κοινού Κατανοµή Ζεύγους Τυχαίων Μεταβλητών Παράδειγµα 1 : Ο πίνακας µας δίνει την από κοινού κατανοµή των διακριτών τυχαίων µεταβλητών Χ και Υ, όπου Χ είναι το επίπεδο εκπαίδευσης του πατέρα και Υ ο αριθµός των παιδιών στην οικογένεια, πχ ({ } { }) { } ( ) ({ }) P 1-βαθµ 1 = 0.03= 0.10 0.30= P 1-β P 1 Σηµείωση: Παρατηρούµε ότι εδώ ισχύει η ισότητα, αλλά στη συνέχεια θα δούµε ότι δεν είναι πάντα έτσι, βλ ορισµό ανεξαρτησίας http://compus.uom.gr/inf267/index.php 2
ενδεχόµενο αριθµός παιδιών 1 1< επίπεδο εκπαίδευσης 1-βάθµια 1 0.03 0.07 0.10 X\Y 1 2 p( x ) 2-βάθµια 2 0.18 0.42 0.60 3-βάθµια 3 0.09 0.21 0.30 p( y ) 0.30 0.70 1.00 Οι p( x ) και p( y ) λέγονται περιθωριακές ή περιθώριες κατανοµές. http://compus.uom.gr/inf267/index.php 3
Ορισµός : Έστω X και Y διακριτές τυχαίες µεταβλητές. Το ζεύγος ( X, Y ) ονοµάζεται τυχαίο διάνυσµα. Η σκπ των ζευγών ( X,Y ) ονοµάζεται από κοινού κατανοµή, (joint distribution), των X και Y ή του τυχαίου διανύσµατος ( X,Y ) X,Y ( ) ( ) ( ) = ( = = ) = { = } { = } p x, y p x, y P X x, Y y P X x Y y Επειδή οι τιµές ( x, y ) αποτελούν διαµερισµό, ισχύει x,y ( ) p x, y = 1 http://compus.uom.gr/inf267/index.php 4
Ορισµός : Περιθώρια ή περιθωριακή, (marginal), κατανοµή της Y λέµε p y = p x,y, δηλαδή την κατανοµή της Yόταν η X διατρέχει την ( ) ( ) όλες τις τιµές της. x Το ίδιο ισχύει για την περιθώρια της X, p( x) = p( x, y), όταν η Y διατρέχει όλες τις τιµές της y http://compus.uom.gr/inf267/index.php 5
Ορίσαµε την δεσµευµένη πιθανότητα δύο ενδεχοµένων ως P( A / B) = P( A B) P( B). Έστω τα ενδεχόµενα A { x} = Χ= και B= { Y= y}. Αντίστοιχα ορίζουµε τη δεσµευµένη κατανοµή δύο τυχαίων µεταβλητών. Ορισµός : Έστω X και Y διακριτές τυχαίες µεταβλητές µε από κοινού σκπ p (, ) X,Y. Η δεσµευµένη σκπ, (conditional df), της Y, δεδοµένης της X = x, δίνεται από ( ) = ( ) ( ) p y / x p y,x p x Y/X X,Y X http://compus.uom.gr/inf267/index.php 6
Ορισµός : Έστω X και Y διακριτές τυχαίες µεταβλητές µε από κοινού σκπ p (, ) X,Y. Η δεσµευµένη µέση τιµή της Y, δεδοµένης της X είναι µια τυχαία µεταβλητή και δίνεται, για όλα τα x, από E( Y X= x) = yp( y x) y = x, Ισχύει ( ) ( ) = E E( Y X) E Y http://compus.uom.gr/inf267/index.php 7
=. Ορίσαµε την ανεξαρτησία δύο ενδεχοµένων ως P( AB) P( A) P( B) Έστω A= { Χ= x}, B { Y y} = =. Αν για κάθε ζεύγος τιµών ισχύει ο ορισµός της ανεξαρτησίας ενδεχοµένων, λέµε ότι οι τυχαίες µεταβλητές Χ και Υ είναι ανεξάρτητες. Ορισµός : Έστω X και Y διακριτές τυχαίες µεταβλητές. Αν για κάθε ζεύγος τιµών ( x, y ) ισχύει ( ) = ( ) ( ) p x, y p x p y X,Y X Y λέµε ότι οι τυχαίες µεταβλητές Χ και Υ είναι ανεξάρτητες. Επισήµανση : Αν έστω και για ένα ζεύγος τιµών ( x, y ), ισχύει ( ) ( ) ( ) p x, y p x p y, τότε υπάρχει σχέση µεταξύ των τµ X και Y. X,Y X Y http://compus.uom.gr/inf267/index.php 8
Ορισµός : Έστω X και Y διακριτές τυχαίες µεταβλητές µε από κοινού συνάρτηση κατανοµής px,y( x, y ). Έστω Z g( X,Y) συνάρτηση των X και Y. Ο µέσος της Z ορίζεται ως ( ) ( ) = E g( X,Y) = g( x, y) p( x, y) E Z x,y = µια τυχαία Ισχύει Αν Χ και Υ ανεξάρτητες τµ, τότε ( ) = E( X) E( Y) και ( ) ( ) E XY ( 1 2 ) = ( 1( )) ( 2( )) E g X g Y E g X E g Y Παράδειγµα 2 : (συνέχεια στο Παράδειγµα 1) Να εξετασθεί αν οι τµ Χ και Υ στο Παράδειγµα 1 είναι ανεξάρτητες. http://compus.uom.gr/inf267/index.php 9
Ορισµός : Ορίζουµε ως συνδιακύµανση, (covariance), των Χ και Υ την όπου µ = E( X), E( Y) X ( X Y ) ( ) = ( µ )( µ ) cov X, Y E X Y µ =. Y Όταν οι Χ και Υ ανεξάρτητες cov( X,Y) = 0 Επισήµανση : Αν cov( X,Y) = 0, δεν σηµαίνει ότι οι Χ και Υ είναι ανεξάρτητες. Αν cov( X,Y) 0, τότε οι Χ και Υ δεν είναι ανεξάρτητες. http://compus.uom.gr/inf267/index.php 10
Ορισµός : Ορίζουµε ως συντελεστή γραµµικής συσχέτισης (του Pearson), (linear correlation coefficient, ή Pearson s correlation coefficient), των Χ και Υ την ( ) ρ= corr X,Y = όπου σ = var( X), σ = var( Y) X Y ( ) cov X, Y σ σ X Y Ισχύει ότι ρ 1 Θυµίζουµε, όταν Χ και Υ ανεξάρτητες, τότε ρ= 0. http://compus.uom.gr/inf267/index.php 11
Χρήσιµοι Υπολογισµοί για Αναµενόµενες Τιµές Για την τυχαία µεταβλητή Χ, και a, b σταθερές, ισχύει ( ) = E( XY) µ Xµ Y, όπου µ X = E( X) και µ Y = E( Y) cov X,Y ( ) = abcov( X,Y) cov ax,by cov( X± a,y± b) = cov( X,Y) E( ax+ by) = ae( X) + be( Y) ( + ) = 2 ( ) + 2 ( ) + ( ) var ax by a var X b var Y 2ab cov X, Y http://compus.uom.gr/inf267/index.php 12
Παράδειγµα 3 : Ο Πίνακας 1 δίνει την από κοινού κατανοµή των τυχαίων µεταβλητών Χ και Υ, που παριστούν τον κυβισµό και την κατανάλωση επιβατικών αυτοκινήτων. Η κωδικοποίηση που ακολουθείται φαίνεται στον Πίνακα 1. http://compus.uom.gr/inf267/index.php 13
Πίνακας 1: και περιθώριες της κατανάλωσης, Υ, µε τον κυβισµό, Χ Y X κυβισµός <=2000 2000< κυβισµός 0 1 py( y ) κατανάλωση<=5 λιτ/100χιλ 4 0.05 0.00 0.05 5<κατανάλωση<=7 λιτ/100χιλ 6 0.20 0.00 0.20 7<κατανάλωση<=9 λιτ/100χιλ 8 0.19 0.01 0.20 9<κατανάλωση<=11 λιτ/100χιλ 10 0.34 0.11 0.45 11<κατανάλωση 13 λιτ/100χιλ 13 0.01 0.08 0.10 px( x ) 0.79 0.21 1.00 βλ LECTURE_3_CalcRVs, ## Παράδειγµα 3, για την εκχώρηση του Πίνακα 1 και υπολογισµούς µε R. > x.v=c(0,1) > y.v=c(4,6,8,10,13) > j.p.d.f=c(0.05,0.20,0.19,0.34,0.01,0.0,0.0,0.01,0.11,0.09) > j.p.d.f=matrix(j.p.d.f,5,2,dimnames=list(y=my.names.y,x=my.names.x)) http://compus.uom.gr/inf267/index.php 14
Να υπολογισθεί η µέση τιµή και η τυπική απόκλιση της κατανάλωσης, Υ Για να υπολογίσουµε τη µέση τιµή της Υ χρειαζόµαστε την περιθώρια p y = p x, y, που εµφανίζεται στην τελευταία κατανοµή της Υ, ( ) ( ) Y στήλη του Πίνακα 1. x > Marg.Y=apply(j.p.d.f,1,sum);Marg.Y y<=5:4 5<y<=7:6 7<y<=9:8 9<y<=11:10 11<y:13 0.05 0.20 0.20 0.45 0.10 http://compus.uom.gr/inf267/index.php 15
Εφαρµόζουµε τον ορισµό του µέσου, E( X) x p ( x ) > E.Y=sum(y.v*Marg.Y);E.Y [1] 8.8 k =, και έχουµε i= 1 i X i Οµοίως, για την τυπική απόκλιση, εφαρµόζοντας τις σ = E( X ) 2 σ= σ, έχουµε > E.Y.2=sum(y.v^2*Marg.Y);E.Y.2 [1] 82.7 > var.y=e.y.2-e.y^2;var.y [1] 5.26 > sd.y=sqrt(var.y);sd.y [1] 2.293469 2 2 2 µ και http://compus.uom.gr/inf267/index.php 16
Να υπολογισθεί η δεσµευµένη µέση τιµή Ε(Υ/Χ) Για να υπολογίσουµε τη δεσµευµένη µέση τιµή, πρέπει να υπολογίσουµε πρώτα τη δεσµευµένη σκπ. Από τη σχέση ( ) = ( ) ( ) p y / x p y,x p x Y/X X,Y X έχουµε ( ) p y X= 0 = ( = ) ( = ) p y,x 0 p X 0 και p( y X 1) = = ( = ) ( = ) p y,x 1 p X 1 http://compus.uom.gr/inf267/index.php 17
Οι υπολογισµοί δίνουν τη δεσµευµένη σκπ > p.y_0=j.p.d.f[,1]/marg.x[1] > p.y_1=j.p.d.f[,2]/marg.x[2] > cbind(p.y_0,p.y_1) p.y_0 p.y_1 y<=5:4 0.06329114 0.00000000 5<y<=7:6 0.25316456 0.00000000 7<y<=9:8 0.24050633 0.04761905 9<y<=11:10 0.43037975 0.52380952 11<y:13 0.01265823 0.42857143 Η πρώτη στήλη είναι η p( y X= 0), η δεύτερη η p( y X 1) =. http://compus.uom.gr/inf267/index.php 18
Εφαρµόζουµε τον ορισµό του µέσου και οι υπολογισµοί δίνουν τον δεσµευµένο µέσο/ους ( = ) = ( = ) E Y X 0 y p y X 0 y ( = ) = ( = ) E Y X 1 y p y X 1 y i i i i > E.Y_0=sum(y.v*p.y_0);E.Y_0 [1] 8.164557 > E.Y_1=sum(y.v*p.y_1);E.Y_1 [1] 11.19048 http://compus.uom.gr/inf267/index.php 19
Σχολιάστε τη δεσµευµένη µέση τιµή Παρατηρούµε ότι η δεσµευµένη µέση τιµή είναι µια τυχαία µεταβλητή. Μας δίνει δύο µέσες τιµές κατανάλωσης, µία για αυτοκίνητα µικρού και µία για τα µεγάλου κυβισµού. Παίρνει τις προηγούµενες τιµές, µε τη σκπ της δεσµεύουσας τµ. Πίνακας 2: Μέση κατανάλωση κατά κατηγορία Z 1 ( ) z = E Y X= 0 ( ) z = E Y X= 1 8.1646 11.1905 p( z ) p( X= 0) = 0.79 ( ) 2 p X= 1 = 0.21 http://compus.uom.gr/inf267/index.php 20
Η µέση τιµή της Υ, είναι ( ) ( ) ( ) ( ) E Y = E E Y X = E Z και εφαρµόζοντας τη σχέση καταλήγουµε στη τιµή 8.8, που βρήκαµε αρχικά. > sum(c(e.y_0,e.y_1)*marg.x) [1] 8.8 http://compus.uom.gr/inf267/index.php 21
Να υπολογισθεί η συνδιακύµανση και ο συντελεστής γραµµικής συσχετίσεως των Χ και Υ, και να σχολιασθούν Από τις έχουµε ( X Y ) ( ) = ( µ )( µ ), ρ= cov( X, Y) σxσ Y cov X, Y E X Y > ## Υπολογισµός συνδιακύµανσης > ## διασταυρούµενα γινόµενα > aux=as.matrix(y.v-e.y)%*%as.matrix(t(x.v-e.x)) > ## από κοινού σκπ*γινόµενα και άθροιση > cov.xy=sum(j.p.d.f*aux);cov.xy [1] 0.502 > corr.xy=cov.xy/(sd.x*sd.y);corr.xy [1] 0.5373876 Έχουµε cov( X,Y) = 0.5020 και co rr( X, Y) 0.5374 http://compus.uom.gr/inf267/index.php 22
Παρατηρούµε ότι ο συντελεστής γραµµικής συσχετίσεως είναι ρ= 0.5374, που σηµαίνει ότι έχουµε αρκετά ισχυρή θετική συσχέτιση. Το επόµενο σχήµα δίνει µια εικόνα για τη σχέση µεταξύ Υ και Χ. Sunflowerplot Plot: Κυβισµός έναντι Κατανάλωσης Y.κατ 4 6 8 10 12 0.0 0.2 0.4 0.6 0.8 1.0 X.κυβ http://compus.uom.gr/inf267/index.php 23
Είναι οι Χ και Υ ανεξάρτητες; Εφόσον ο συντελεστής γραµµικής συσχετίσεως είναι διάφορος του µηδενός, δεν µπορεί να είναι ανεξάρτητες. http://compus.uom.gr/inf267/index.php 24
Πρόσθετη Βιβλιογραφία Μαθήµατος Βιβλιογραφία [1] Baron, M., Probability and Statistics for Computer Scientists, Chapman & Hall/CRC, 2007 [2] Grimmett, G. R. and D. R. Stirzaker, Probability and Random Processes, Oxford University Press, 1985 http://compus.uom.gr/inf267/index.php 25