Για παράδειγμα όπου χρησιμοποιούνται στοχαστικοί αλγόριθμοι:

Μέθοδοι Monte Carlo Οι μέθοδοι Monte Carlo (MC) είναι κλάση υπολογιστικών αλγορίθμων που βασίζονται στην επαναλαμβανόμενη τυχαία δειγματοληψία και συχνά χρησιμοποιούντα στην προσομοίωση φυσικών και μαθηματικών συστημάτων και προβλημάτων. Προσομοίωση είναι η διαδικασία δόμησης ενός Μαθηματικού είτε λογικού μοντέλου ενός συστήματος ή προβλήματος λήψης αποφάσεων και ο πειραματισμός με αυτό το μοντέλο με σκοπό την δημιουργία εκτιμήσεων των παραμέτρων και των επιδόσεων του συστήματος. Οι αλγόριθμοι MC εξαρτώνται από την χρήση τυχαίων αριθμών (στην ουσία ψευδοτυχαίων αριθμών) που παράγονται από κώδικα που εκτελείται σε υπολογιστή. Οι αλγόριθμοι MC ονομάζονται και στοχαστικοί αλγόριθμοι (stochastic algorithms) και συνήθως χρησιμοποιούνται σε περιπτώσεις που το μοντέλο μας για κάποιο σύστημα, είναι τόσο πολύπλοκο, που η παραγωγή αναλυτικών λύσεων, είτε ακόμα και η χρήση αιτιοκρατικών αλγορίθμων, δεν είναι δυνατή είτε έχει πολύ μεγάλο κόστος σε πόρους. Στην ουσία με την χρήση στοχαστικών αλγορίθμων θέλουμε να αναπαραστήσουμε ένα στοχαστικό φαινόμενο στον υπολογιστή όσο πολύπλοκο και αν είναι χρησιμοποιώντας τον μικρότερο δυνατό αριθμό απλουστεύσεων, δημιουργώντας έτσι ρεαλιστικά μοντέλα. Εάν λοιπόν καταφέρουμε να δημιουργήσουμε ένα υπολογιστικό μοντέλο που είναι πολύ κοντά στο αντίστοιχο φυσικό σύστημα (να προσομοιώσουμε δηλαδή το φυσικό σύστημα), δεν χρειάζεται να περιμένουμε το φαινόμενο να πραγματοποιηθεί με φυσικό τρόπο γιατί ίσως χρειάζεται μεγάλο χρονικό διάστημα για την επανάληψη του είτε λόγω κόστους δεν μπορούμε να έχουμε μεγάλο αριθμό από πραγματικές εργαστηριακές πραγματοποιήσεις. Για παράδειγμα όπου χρησιμοποιούνται στοχαστικοί αλγόριθμοι:. Πολυδιάστατη ολοκλήρωση. Στατιστική εκτίμηση κατά Bayes με τη χρήση μη συζυγών a-priori κατανομών. Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α

Παράδειγμα d Έστω ότι σε κάθε ανεξάρτητη πραγματοποίηση X j : Ω, j του υπολογιστικού μοντέλου X, με χώρο πιθανότητας ( Ω,,P) όπου iid ~ X j f X, ενώ X j d = X για κάθε j, ενδιαφερόμαστε για την πραγματοποίηση κάποιου ενδεχομένου B = { X A, δηλαδή θέλουμε να εκτιμήσουμε την παράμετρο ϑ : = P( B) = P{ X A. Θεωρούμε τις δίτιμες τυχαίες μεταβλητές Yj : = ( X j A) = X A j X j A και Y : ( X A ) X A = = X A. Τότε, ισχυρός νόμος των μεγάλων αριθμών, μας εξασφαλίζει ότι: εφόσον (αμεροληψία) ( X j A) = ( x A) f X ( x) dx = f X ( x) dx = P{ X j A = P{ X A [ T ] = P{ X A n Εμφανώς ισχύει ότι { Yj = = { ( X j A) = = { X j A { Yj = = { ( X j A) = = { X j A = { X j A = { X j A Yj iid Bin(, ϑ) και j { j { j { j { j Y = PY = + PY = = PY = = P X A= ϑ Έτσι από τον ισχυρό νόμο των μεγάλων αριθμών έχουμε ότι A ~. T n wp.. ϑ, n, και από το κεντρικό οριακό θεώρημα ότι Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α

( T ) ( ϑ) ( ϑ) Tn Tn lim d n Tn (,) lim d = = (, ). n n ϑ n Παρατηρώντας λοιπόν έναν μεγάλο αριθμό από πραγματοποιήσεις ( X,, X ), μπορούμε να εξάγουμε προσεγγιστικά συμπεράσματα για το πραγματικό σύστημα, δηλαδή για θα έχουμε την προσέγγιση d T ϑ, ϑ( ϑ). Η παραγωγή ψευδοτυχαίων αριθμών iid Έστω ότι ui ~ (,), τότε μια πραγματοποίηση της ακολουθίας { u,, un στο διάστημα (, ) για n <, λέμε ότι είναι μια πεπερασμένη ακολουθία τυχαίων αριθμών. Στην πραγματικότητα όμως στον υπολογιστή μόνο να προσομοιώσουμε μπορούμε μια τέτοια ακολουθία, έτσι: Με έναν υπολογιστή μπορούμε να παράγουμε ακολουθίες ψευδοτυχαίων αριθμών που όμως έχουν κοινά χαρακτηριστικά με τις ακολουθίες των πραγματικά τυχαίων αριθμών. Ψευδοτυχαίες ακολουθίες { u j συνήθως παράγονται με την χρήση μη στοχαστικών (αιτιοκρατικών), γραμμικών αναδρομικών σχέσεων (Linear Congruence Random umber Generator) της μορφής T : {,,, M {,,, M, έτσι ώστε y y xi ( axόi + b) y( mod M), Mi που mod : = M M, = Tx i για δοθέν x {,,, M, το x είναι η αρχική συνθήκη της γραμμικής αναδρομικής σχέσης (seed). Ορίζουμε Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 3

xi < u i <, ui : =, i. M Λέμε ότι η τριάδα ( abm,, ) παράγει ένα γεννήτορα τυχαίων αριθμών όταν τα abm,, είναι τέτοια ώστε:. Να υπάρχει x, με περίοδο Per ( x ) της τάξης μεγέθους του M, όπου { και ( ) ( ( )) Per x : = min : T x = x T x : = T T x = T T T x έ ϕορ ς. Η ψευδοτυχαίες ακολουθίες περνάνε αρκετούς από τους γνωστούς ελέγχους τυχαιότητας (tests for randomness). Για παράδειγμα τα test information-entropy, autocorrelation, Kolmogorov-Smirnov, κλπ. Παρατήρηση Η R χρησιμοποιεί τον αλγόριθμο Mersenne-Twister για προσομοίωση δειγματοληψίας από την (,). Η μέθοδος Mersenne-Twister βασίζεται σε matrix linear congruence (MLCRG) και Mersenne πρώτους αριθμούς M. n Οι Mersenne είναι πρώτοι αριθμοί της μορφής M =, όπου φυσικά και το n είναι πρώτος (αλλιώς το M θα ήταν σύνθετος). Έως τον Σεπτέμβριο του 5 γνωρίζαμε μόνο τους πρώτους 49 Mersenne primes. Ο μεγαλύτερος 74,7,8 γνωστός πρώτος αριθμός είναι ο M 49 = που έχει,338,68ψηφία. Σημειώστε επίσης ότι δεν υπάρχει ακόμα απόδειξη για την απειρία των Mersenne primes. Παράδειγμα Εάν θέλουμε να θέσουμε καινούργια αρχική τιμή στη γεννήτρια τυχαίων αριθμών της R, χρησιμοποιούμε την εντολή set.seed( ) > set.seed(); x <- runif(); x [].655866.3739.5785336.98779.6893.89838968 [7].9446757.6679779.6944.67867 > y <- runif(); y [].934753.45.6567377.5555.6767.38649 [7].33933.3838796.8696985.34349 Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 4

Εάν στην συνέχεια θέσουμε και πάλι το ίδιο seed, η προσομοιωμένη ακολουθία του δείγματος από την ομοιόμορφη κατανομή στο (,) επαναλαμβάνεται: > set.seed(); z <- runif(); z [].655866.3739.5785336.98779.6893.89838968 [7].9446757.6679779.6944.67867 R script για τη δημιουργία ψευδοτυχαίας ακολουθίας αριθμών στο (,), για δοθείσα τριάδα ( abm,, ) και αρχική συνθήκη x. myrandgen <- function(x=4, SS=4, a=5, b=7, M=){ x <- x; v <- ULL for(i in :SS){ x <- (a*x+b) %% M v <- append(v, x/m) return(v) Παρατηρήσεις. Η εντολή v < ULL έχει την εναλλακτική μορφή v < c. Η εντολή v < append ( v, x / M) εναλλακτικά είναι v < c( v, x / M) 3. Το ( a * x + b ) %% M είναι το υπόλοιπο της διαίρεσης του a*x+ b με το Μ. Ας δούμε μια περίπτωση που η περίοδος είναι μικρή, για τις τιμές των παραμέτρων LCG ( 5,7, ) και x = 4. Πιο συγκεκριμένα παίρνουμε Per ( 4) = 8 v<- myrandgen(); v [].85.46.335.7.585.96.835. [9].85.46.335.7.585.96.835. [7].85.46.335.7.585.96.835. [5].85.46.335.7.585.96.835. [33].85.46.335.7.585.96.835. hist(v, breas=, main="a=5, b=7, m=", col="blac") Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 5

6 3 Η τριάδα ( 3,, ) + χρησιμοποιήθηκε από την IBM στις αρχές τις δεκαετίας του 7. Το 963 όμως ανακαλύφθηκε ότι xi εάν n : = un+ 6un+ + 9un, για ui : =, xi {,, M, τότε M Κ = { 5, 4,,9. n Αυτό σημαίνει ότι συνεχόμενες τριάδες τυχαίων αριθμών ( un, un+, un+ ) βρίσκονται αποκλειστικά, στην τομή 5 παράλληλων επιπέδων στο εσωτερικό του μοναδιαίου κύβου, δηλαδή n n n 3 { 3 u, u +, u + xyz,, : z 6 y+ 9 x= r, r Κ,, Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 6

Έτσι η συσχέτιση μεταξύ των ( un, un+, un+ ) είναι πολύ μεγάλη και η τιμή 6 3 abm,, = + 3,, δεν μπορεί να χρησιμοποιηθεί για την παραγωγή ψευδοτυχαίων αριθμών. Παράδειγμα Καλές επιλογές είναι οι και 7 5,, 3 8 5 3 ( 7,, ) v <- myrandgen(x=3, SS=, a=7^5-, b=, M=^3-) hist(v, breas=, freq=false, main="a=7^5-, b=, m=^3-", col="blac") # To variance της X~ ( ab, ) είναι ( X) = ( b a) / 4 πράγματι το δείγμα μεγέθους έχει variance: > var(v) [].8357 εδώ / =.8333, Με χρήση του random number generator της R έχουμε: Par, S.K. and K.W.Miller, Random umber Generators: Good ones are hard to _nd, Comm. A.C.M., vol. 3, n., Oct. 988, pg. 9- Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 7

set.seed(); v <- runif(, min=, max=) hist(v, breas=,main=" Mersenne Twister ", col="gray97") var(v) [].84773 v <- runif(, min=, max=) v3 <- runif(, min=, max=) myframe <- data.frame(v,v,v3) cov(myframe) v v v3 v.847736.676.43459 v.676.833479 -.9963 v3.43459 -.9963.8646939 cor(myframe) v v v3 v..7466.33843 v.7466. -.398447 v3.3384 -.398447. Άσκηση Να δειχθεί ότι εάν 6 3 (,, ) ( 3,, ) abm = + τότε un+ 6un+ + 9un = n για n. 6 3 ( 3) ( mod ) 6 3 T ( xn) ( 3) xn ( mod ) 3 6 3 ( 6 9) xn ( mod ) x = T x + x n+ n+ n+ = + + + Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 8

επειδή Άσκηση Δείξτε με προσομοίωση, ότι n { 5, 4,,9. # The randu generator # From the sequence ( u n ) create the sequence ( n ) randudecode <- function(v){ K <- c() for(i in :(length(v)-)){ <- v[i+]-6*v[i+]+9*v[i] K <- c(k, ) return(k) getdistr <- function(sample){ D <- c(); P <- c(); L <- sample #Find distinct occurrences. while(length(l)!=){ D <- c(d, L[]) L <- L[L!= L[]] #Find relative frequencies. for(i in :length(d)){ x <- D[i]; counter <- for(j in :length(sample)){ if(x == sample[j]) counter <- counter + P <- c(p, counter/length(sample)) v <- c(d, P) return(v) > u<- myrandgen(x=3, SS=, a=^6+3, b=, M=^3); u [] 9.55693e-5 5.4939e-4.4796e-3 9.88788e-3 3.779e- [6].334849e- 4.67967e- 6.858e- 4.649e-.47e- [] 4.6739e- 6.493e- 5.5645e- 5.535e- 4.849e- [6] 9.668739e- 9.45635e- 9.79453e- 3.9567e-.7835e- [].8785e- 4.8685e-.566444e-.4995e- 9.759979e- [6] 9.798e- 7.797698e- 3.3993e- 9.854e- 8.839e- [3] 4.799e- 9.565e-.47968e-.963e- 5.4566e- [36].8873e-.45785e- 6.534e- 8.968783e- 5.449e- [4] 9.59468e-.844e- 5.5935e- 4.784e- 9.7577e- [46] 7.993796e- 5.389e- 3.4398e- 3.68e- 8.6839e- [5] 9.483e- 8.445747e- 5.8555e- 8.9768e-.65e- [56] 6.446e- 8.4637e- 3.7943e-.3349e- 6.489e- [6] 5.8969e- 4.434e- 9.576336e- 3.494939e- 4.7866e- [66] 7.49e- 4.3687e- 7.546e- 9.8755e- 3.988847e- [7] 5.55836e- 4.43539e-.984e- 6.744e- 4.54e- Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 9

[76].6884e- 8.7894e-.89e-.65e- 3.695e- [8] 9.59865e- 7.8363e-.4953e- 6.84e- 9.958e- [86] 8.373498e- 6.9574e- 8.786e- 6.46854e- 9.787768e- [9] 5.43e- 4.99487e- 5.3483e- 7.975e- 4.5884e- [96] 3.7585e- 8.47784e-.5436e- 7.786e- 3.38639e- > mysample <- randudecode(u); mysample [] - 3 4-3 3-4 3 7-3 -3 4 [6] 4 6-4 6-7 - 4-6 - 8-3 - 4 4 5 - - 3 [5] 4 5 8-6 - 6-5 7 7-3 7 4-3 6 [76] -3 7-4 7-4 8-4 5 9-4 3-7 - > v<-getdistr(mysample); v []. -.. 3. 4. -. [7]. 7. -3. 6. 8. 5. [3] -5. -4. 9..48.449.44898 [9].86365.36536.983673.86365.86365.48633 [5].6449.364.364.48.48.48 > D<-v[:(length(v)/)]; P <- v[(length(v)/+):length(v)]; D; P [] - 3 4-7 -3 6 8 5-5 -4 9 [].48.449.44898.86365.36536.983673.86365.86365.48633.6449 [].364.364.48.48.48 > plot(d, P, type="h", lwd=, col="red", ylim=c(,.3)) > points(d, P, pch=6, cex=, col="blac") Ολοκλήρωση Monte-Carlo Μονοδιάστατη περίπτωση Έστω ότι θέλουμε να υπολογίσουμε το ολοκλήρωμα Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α

J = g ( x) dx. x= Συμβολίζουμε την χαρακτηριστική συνάρτηση του διαστήματος ( ab, ) με ( a< x< b) που είναι όταν x ( ab, ) και όταν x ( ab, ), για παράδειγμα η ομοιόμορφη πυκνότητα στο ( ab, ) είναι a < x< b ( x ab, ) = ( a< x< b) = b a b a αλλού. Τότε το ολοκλήρωμα, μπορεί να αναπαρασταθεί με τον εξής τρόπο: { J = g x < x < dx = g x x, dx = g U, U ~,. iid Από τον ισχυρό νόμο των μεγάλων αριθμών έχουμε ότι εάν ui ~ (,) και gu <, τότε lim n i= n n gu ( i ) = gu = J, με πιθανότητα. Μια εκτίμηση T = T ( u u ) του I θα είναι T i=,, = g( ui), iid u ~ (, ) i, ( T ) = gu, U~ (,) ( T) = g( ui) όταν. Χρησιμοποιώντας το Κεντρικό Οριακό Θεώρημα κατά Lindeberg-Levy έχουμε: T ( T) ( T ) d (, d ) T ( ( T), ( T) ) = { gu, { gu d T g ( x) dx, { g ( U ) όπου { { { gu = gu gu = g x dx g xdx. Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α

b. Για να υπολογίσουμε ολοκληρώματα της μορφής g ( x ) dx θα a iid χρησιμοποιήσουμε ui ~ ( ab, ) b = ( ) ( < < ) = ( ) (, ) g x dx b a g x a x b dx b a g x x a b dx a b a u a = ( b a) g ( u), u~ ( ab, ) ~ (,). b a x a x = a+ b a y y = b a g x dx = b a g a + b a y dy Εναλλακτικά θέτοντας b y (,) ( ) x= a = + ( ) = b a g a+ b a y y d = y b a g a+ b a y y~, a b a y~ ab,. Για ολοκληρώματα της μορφής θέτουμε g x dx = ( ) ( ) (,) x= = y= + = u g( u ), u ~ (,). g x dx y g y dy y g y y dy x = y y = x + 3. Για ολοκληρώματα της μορφής g ( x ) dx και για a > θέτουμε a a x = y y = x a a a a g ( x) dx = g dy g ( y,) dy x= a y= + = ( y) y ( y) y a a = g, u ~ (,). ( u) u 4. Για ολοκληρώματα της μορφής και για a > έχουμε a I = g x dx = g x dx + g x dx a a a g x dx Για το πρώτο ολοκλήρωμα θέτουμε x x = ay y = a Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α

= ( ) = ( ) (,) x= a y= g x dx a g ay dy a g ay y dy και τελικά, ~ (,) = ag au u ( ) ( ), ~ (,) I = ag au + u g u = ag au + u g u u b Παράδειγμα Δίνεται ότι (, ) = exp( ) J a b ax dx x>. Δείξτε ότι για a > και b > ισχύει J( ab, ) = Γ / b ba b.. Ποιος είναι ο αντίστοιχος εργοδικός μέσος για τον υπολογισμό του J( ab, ) κατά Monte-Carlo ; 3. Προσεγγίστε κατά Monte-Carlo, τα ολοκληρώματα J (.5, ), J (.5,4) και J (, 7). b v. Θέτοντας v = ax, για a > έχουμε ότι x = από όπου και a / / b / (, ) b v dx = v dv J a b = v e dv b / b / b ba ba = Γ ba b. v>. Στο ολοκλήρωμα J( ab, ) ( ;, ) x> /b b = g xab dx, όπου g ( x; a, b) = exp( ax ), θέτουμε x = από όπου και y J( ab, ) = g ; ab, ( y,) dy g ; ab,, U~ (,) y = y U U. Παρατήρηση Για = για το J( ab, ) είναι η σταθερά κανονικοποίησης. Ειδικά για = έχουμε ότι a > και b f x exp ax f ( x) = x,. a της πυκνότητας Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 3

Η πολυδιάστατη περίπτωση Για πολλαπλά ολοκληρώματα της μορφής I = g ( x) dx dx όπου x = ( x,, x ) θα έχουμε { i i= {, i i = ( ) I = g x < x < dx dx = g x x dx dx { = g x x, dx dx = g u, όπου = ( ) lim n i= n u u,, ~, u n i = = g u g u g u d u d u. u (,). Τότε με πιθανότητα θα έχουμε ότι Ένας αμερόληπτος εκτιμητής για το ολοκλήρωμα I θα είναι: i T = T ( u,, u ) = g( u ) i= i ( T ) = { g( u ) = g( u) = I i= ( T ) = { g( u) i iid, όπου ~ (,) u για i. Χρησιμοποιώντας το Κεντρικό Οριακό Θεώρημα έχουμε: T ( T) ( T ) d (, d ) T ( ( T), ( T) ) = ( g( u) ), ( g( u) ) T d g ( u) du du, { g ( u), u (,) όπου ( g ( u) ) ( g ( u) ) ( g ( u) ) g ( x) dx dx g ( x) dx dx = = x (,) x (,). Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 4

# R-script για τον υπολογισμό του εκτιμητή T = T( u u ) για το I = g ( x) dx. MCIntegral <- function(, g){ s <- for(i in :) s <- s + g(runif()) return(s/) # Για το ολοκλήρωμα του g( x) = log ( x) μέσα στο,,,. MCIntegral(, log) [] -.577 # 5 x Exp x 5 dx = 5e dx = 5x exp 5 / x dx = Myfun <- function(x) return(5*x^(-)*exp(-5*(x^(-)-))) MCIntegral(, Myfun) [].9865 # The distribution of the estimator T = T( u u ),, # TSS = the number of sampled values from the estimator. MCIntegral <- function(τss=, =5, g){ v <- c() for(j in : ΤSS){ s <- for(i in :){ s <- s + g(runif()) x <- s/; v <- c(v, x); cat("j=",j, "Τ=",x, "\n") return(v) set.seed() v <- MCIntegral(g=log) myfun <- function(x) return(dnorm(x, mean=-,sd=/5^.5)) mybreas <- seq(from = -., to = -.98, by =.) hist(v, breas=mybreas, freq=false, xlim = c(-., -.98), ylim=c(,), main="the distribution of the estimator", col="gray96", ylab="", xlab="") Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 5

curve(myfun(x), xlim = c(-., -.98), ylim=c(,), col="red", lwd=, add=true) d T log ( x) dx, { log ( U ) log ( x) dx = x log ( x) x = T, log ( x) dx = x log ( x) x log ( x) + x = Σημείωση: Το sript MCIntegral3 είναι μια vectorized έκδοση του MCIntegral. MCIntegral3 <- function(τss=, =5, g){ v <- c() for(j in : ΤSS){ x <- sum(g(runif()))/ v <- c(v, x); cat("j=",j, "I=",x, "\n") return(v) # Υπολογισμός του εκτιμητή T για το J = exp ( x + y ) dxdy 4.899 <- ; s <- for(i in :) { x <- runif(); s <- s + exp((x[]+x[])^) s <- s/ > s [] 4.78835 Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 6

# compute the ergodic average vector v. <- ; s=; v <- ULL for(i in :) { x <- runif(); s <- s + exp((x[]+x[])^) if(i>) v <- c(v, s/i) s <- s/ > s [] 4.8864 # plot the ergodic average of the MC integration. plot(v, type='l', pch=".") # add the line y = 4.9 abline(4.9,, ylim = c(, )) Παράδειγμα Να μετατραπεί η μη αρνητική συνάρτηση hxy πυκνότητα. (, ) y (, ) = ( < < < ) = y= { x= h x y dxdy xy x y dxdy xydx dy 3 y dy = = y= 8 Για το R script έχουμε xy < x < y < = σε αλλού Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 7

( < < < ) = ( < ) xy x y dxdy xy x y dxdy = xy x < y x, y, dxdy = g X, Y, όπου g ( X, Y ) = XY ( X < Y ) και XY, ανεξάρτητες (,) τυχαίες μεταβλητές, ισοδύναμα ( XY, ) ~ (,) με fxy, xy, = xy,, = x, y, iid Από τον ισχυρό νόμο των μεγάλων αριθμών έχουμε ότι εάν u ji ~ (,) τότε με πιθανότητα ένα lim gu ( j, uj) = g( XY, ), j= ή ότι για θα έχουμε ότι ( j, j, ) ( < < < ) j= <- ;s <- for(i in :) { x <- runif();y <- runif() if(x<y) s <- s + x*y s <- s/ g u u xy x y dxdy. > s [].68686 Άσκηση Να υπολογιστεί το εμβαδόν του μοναδιαίου δίσκου με ολοκλήρωση κατά Monte Carlo. Εάν {, : D= xy x + y τότε D x dxdy = dy 4 dx = x dx = x dx x= y= x π d π/ / = 4 cos ϑ ϑ = + cos ϑ dϑ π / π / = ϑ + sin ( ϑ) = ( ϑ + sin ( ϑ) cos ( ϑ) ) = π. Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 8

Για την ολοκλήρωση Monte Carlo θα έχουμε. = ( + ) D dxdy x y dxdy, ή εναλλακτικά. dxdy = 4 x dx. D. Επειδή D [,] D dxdy = 4 ( x + y ) ( < x < ) ( < y < ) dxdy = 4 x + y x, y, dxdy = 4 x + y x, y, dxdy ( x y ) = 4 + όπου ( xy, ) ~ (,), με Έτσι ο εργοδικός μέσος όρος γίνεται: j= fxy, xy, = xy,, = x, y,. ( iid j, j,,, = + ), ji (,) gu u g XY g XY X Y u ~. Το αντίστοιχο R script θα είναι: <-; s<- for(i in :){ x<- -+*runif(); y<- -+*runif() if(x^+y^<) s<-s+ s <- s/ > 4*s [] 3.34 Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 9

Παρατήρηση Το συγκεκριμένο ολοκλήρωμα δίνει εκτίμηση του π = 3.459, δηλαδή 4 ( ) iid ˆ π = u, (,) j j + uj < u = ji ~. Άσκηση Να υπολογιστεί το ολοκλήρωμα Carlo. x exp ( ) y κατά Monte J = x + y dydx x= = Γράφουμε το J σαν ολοκλήρωμα πάνω στο + exp( ), J = y < x x + y dydx x= y= και θέτουμε R : (, ) (,) με R( xy) ( uv) ( xy, ) = R ( uv, ), = u v παίρνουμε < u< v< και (,) με J = ( u < v) exp dvdu + uv u v, =, =, x+ y+ ή ισοδύναμα Jac R = ενώ επειδή < y < x uv = ( u < v) exp ( v, ) ( u,) dvdu uv + u v = ( u< v) exp, + ( uv, ) ~ ((,) ) uv u v MCDouble <- function(=, myseed=){ set.seed(myseed); s <- for(i in :){ v <- runif() if(v[] > v[]) s <- s + exp(-/v[]-/v[]+)/(v[]^*v[]^) return(s/) > r <- MCDouble(=);r [].47864 > r <- MCDouble(=);r [].48987 > r <- MCDouble(=);r Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α

[].4978697 Αναλυτικά έχουμε I = e dydx = e e dydx = e e dx = x= y= x= y= x= x x x y x y x x ( ). Χρησιμοποιώντας τη Maple 7. για το διπλό ολοκλήρωμα έχουμε: Η βελόνα του Buffon Χωρίζουμε το επίπεδο με παράλληλες ευθείες που έχουν απόσταση t και πετάμε με τυχαίο τρόπο βελόνες μήκους l < t. Η θέση κάθε βελόνας καθορίζεται από την απόσταση του κέντρου της βελόνας από την κοντινότερη σε αυτήν ευθεία και από την γωνία που σχηματίζει η βελόνα με την ευθεία σύμφωνα με το σχήμα: Έστω ότι πετάμε n βελόνες και m από αυτές τέμνουν κάποια από τις l n ευθείες τότε μια εκτίμηση για το θα π είναι ˆn π = t m l Πράγματι, η βελόνα τέμνει την ευθεία όταν x sin ( ϑ ). Εμφανώς PX ( dx) = ( x, t /) dx και PΘ ( dϑ) = ( ϑ, π /) dϑ ενώ οι τ.μ. X και Θ είναι ανεξάρτητες. Το από κοινού μέτρο λοιπόν θα είναι: Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α

PX, Θ dx, dϑ = PX dx PΘ dϑ = x, t / ϑ, π / dxdϑ, και θέλουμε να βρούμε την πιθανότητα του ενδεχομένου l l A= X sin Θ = ω Ω: X ( ω) sin ( Θ( ω) ). l P A P X PX, Θ dx d = sin Θ = (, ϑ) l x sinϑ l = x sin ϑ ( x, t / ) ( ϑ, π / ) dxdϑ l = X sin Θ όπου X ~ (, t/ ) και Θ ~ (, π / ) και π/ sin / (, ) ϑ l π l P A = P dx dϑ = dx dϑ = sin ( ϑ) dϑ = t π tπ tπ έτσι l t l X, Θ ϑ= x= ϑ= l x sinϑ l sin,, /,, / iid iid ( ϑ ) ~ ϑ ~ ( π ) = x i i x i i t = i ˆ < π # R-script for the Buffon needle. estpi <- function(ss, l=, t=){ m <- for (i in :SS){ x <- runif() theta <- runif(, min=, max=pi/) if (x < l/ * sin(theta)) m <- m + return(*l*ss/(t*m)) > estpi() [] 3.35575 > estpi() [] 3.8674 > estpi() [] 3.387 > estpi() Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α

[] 3.479 > estpi() [] 3.436 Buffon s needle animation Πρώτα θα πρέπει να κάνουμε download το R pacage animation και στην συνέχεια να δώσουμε τον αριθμό των επαναλήψεων nmax για την ολοκλήρωση Monte Carlo. Το option interval= δίνει μέγιστη ταχύτητα στο animation > ani.options(nmax =, interval = ) animation option 'nmax' changed: --> Στην συνέχεια καλούμε την συνάρτηση buffon.needle() όπου l =.8 είναι το μήκος της βελόνας και d = η απόσταση των παράλληλων ευθειών buffon.needle(l =.8, d =, redraw = TRUE, mat = matrix(c(, 3,, 3), ), heights = c(3, ), col = c("lightgray", "red", "gray", "red", "blue", "blac", "red"), expand =.4, type = "l") το αποτέλεσμα είναι: Για να βρούμε περισσότερες πληροφορίες για την συνάρτηση buffon.needle() χρησιμοποιούμε το query >?ani.options starting httpd help server... done Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 3

Παράδειγμα Να γραφτεί R-script που να υπολογίζει τους εργοδικούς μέσους κατά U Monte-Carlo της ποσότητα Cov ( X, Y ) εάν γνωρίζουμε ότι ( XY, U) = ( Ue, ), όπου U ~ (,). Συγκρίνετε με την ακριβή τιμή. Έχουμε ότι: { ( ) (,) XY = XY U = XY U = u u du u ( XY ) = ue du =. u ( XY U = u u ) = ue = Επίσης { ( ) (,) X = X U = X U = u u d u ( X ) = u du = ( X U = u) = u u= { ( ) (,) Y = Y U = Y U = u u d u u ( Y ) = e du = e u ( Y U = u u ) = e = οπότε Cov ( X Y ) ( e), = 3 /.4859 covtest <- function(ss=4){ s <- rep(, times=3); v <- ULL for(i in :SS){ u <- runif() s[] <- s[] + u*exp(u) s[] <- s[] + u s[3] <- s[3] + exp(u) v <- c(v, (s[]/i-s[]*s[3]/i^)) return(v) set.seed() n <- 4; v <- covtest(ss=n) #plot the running average of the MC integration. plot(v, type='l', pch=".", ylim=c(-.5,.5), xlab="n", ylab="rav") Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 4

# Add the line y = (3-exp())/. abline((3-exp())/, ) Παράδειγμα n Δίνεται η στοχαστική διαδικασία X : = { Xt : t με Xt : = inf { n: U i i > t =, iid έτσι ώστε Ui ~ (, ), i. t Δείξτε αναλυτικά ότι ( Xt ) = e. Γράψτε R-script για την εκτίμηση της μέσης τιμής ( X t ). Γράψτε R-script που να προσομοιώνει τις ω τροχιές ω X t ( ω) της διαδικασίας X. = ( t) = { [ t ] = [ t = ] (, ) = [ t = ] m t X X U X U u u d y X U u d. u Εάν u t τότε ( Xt U = u) = ( U = u) =, ενώ εάν u< t τότε ( Xt U = u) = + ( Xt u) και έτσι ( ) + Xt u u< t Xt U = u = u t + { + Xt u ( u< t) = u t, θα έχουμε { t u m t = u t du + + X u < t du t t t t t u = du + du + X du = + X du, t u Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 5

t και έτσι = + ( ) m t m t u d u. Παραγωγίζοντας και τα δύο μέλη της προηγούμενης σχέσης παίρνουμε: t = ( ) + ( ) m t m m t u d. Θέτοντας στο ολοκλήρωμα v = t u παίρνουμε = ( ) + t = ( ) + ( ) = m t m m v d v m m t m m t, όπου χρησιμοποιήσαμε ότι t bt = ( ) + at bt f t, u d u b t f b t, u a t f ( a t, u) f ( t, u) d. u at t με (, ),, f tu = m t u a t = bt = t. Ολοκληρώνοντας την προηγούμενη εξίσωση έχουμε t t dm ( v) m( v) v= v= m t = m t = dv t log m t log m = t m t = m e, { { i= όμως X n ( ω) = inf n : U i ( ω) > =, ω Ω P X = =. Από όπου και ( ) ( ) m = X = = m t = e t. ΕΧt <- function(t=, =){ est <- for(i in :){ s <- ; counter <- while(s<t){ s <-s + runif(); counter <- counter + est <- est + counter return(est/) > ΕΧt() [].69 > ΕΧt(=) [].775 Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 6

> ΕΧt(=) [].75 > ΕΧt(t=) [] 4.65 > ΕΧt(t=, =) [] 4.6596 # Plot realization orbit <- function(dx=., M=){ orbit <- c(); X <- c(); x<- for(j in :M){ x <- x+dx; X <- c(x, x) s <- ; counter <- while(s < x){ s <- s+runif(); counter <- counter + orbit <- c(orbit, counter) plot(x, orbit, type='l', pch=".") orbit(dx=., M=5) Σπύρος Ι. Χατζησπύρος Σημειώσεις στην Υπολογιστική Στατιστική μέρος Α 7