Δειγματοληψία με την μέθοδο του αντίστροφου μετασχηματισμού (Inverse Transform Method) αντιστρέφεται αναλυτικά (γνωρίζουμε ότι η F

Σχετικά έγγραφα
{ } ( ) Δειγματοληψία. Έστω διακριτή τυχαία μεταβλητή X : Ω με χώρο καταστάσεων. p i = P X = j = π για 1 j m ενώ

X = συνεχης. Είναι εμφανές ότι αναγκαία προϋπόθεση για την ύπαρξη της ροπογεννήτριας

Ορισμός : Η συνάρτηση X : Ω είναι μετρήσιμη εάν 1. της τυχαίας μεταβλητής X : Ω, είναι το πεδίο τιμών της X. Δηλαδή είναι το υποσύνολο του { }

Ορισμός : Η συνάρτηση X : Ω είναι μετρήσιμη εάν 1. της τυχαίας μεταβλητής X : Ω, είναι το πεδίο τιμών της X. Δηλαδή είναι το υποσύνολο του { }

( ) Δειγματοληψία από discrete uniform. Έστω τυχαία µεταβλητή Θ που ακολουθεί την διακριτή κατανοµή ( ) = 1, σχηµατικά. 1 2 i i.

ΚΕΦΑΛΑΙΟ 4ο ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΑΠΟ ΣΥΝΕΧΕΙΣ ΚΑΙ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ

3. Κατανομές πιθανότητας

Για παράδειγµα έστω ότι σε κάθε ανεξάρτητη πραγµατοποίηση

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Για παράδειγμα όπου χρησιμοποιούνται στοχαστικοί αλγόριθμοι:

Για παράδειγμα όπου χρησιμοποιούνται στοχαστικοί αλγόριθμοι:

Λύσεις Εξετάσεων Φεβρουαρίου Ακ. Έτους

{ } } ( ) (, ) (, ) (, ) ( x) ( ) ( ) ( ) Άσκηση 21. Άσκηση 22. π π π. Δείξτε ότι εάν xi x. για i = 1, 2 τότε έχουμε ότι οι τ.μ u = x1+ x2.

Εδώ θα θέσουμε τα θεμέλια της εκτίμησης κατά Bayes αρχίζοντας με τα μονοπαραμετρικά μοντέλα δηλαδή όταν ϑ : Ω Θ.

Εδώ θα θέσουμε τα θεμέλια της εκτίμησης κατά Bayes αρχίζοντας με τα μονοπαραμετρικά μοντέλα δηλαδή όταν ϑ : Ω Θ.

ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ - ΠΡΟΣΟΜΟΙΩΣΗ

Ορίζουμε την τυπική πολυδιάστατη κανονική, σαν την κατανομή του τυχαίου (,, T ( ) μεταξύ τους ανεξάρτητα. Τότε

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ορίζουμε την τυπική πολυδιάστατη κανονική, σαν την κατανομή του τυχαίου (,, T ( ) μεταξύ τους ανεξάρτητα. Τότε

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Τυχαίες Μεταβλητές (τ.µ.)

Τυχαία Διανύσματα και Ανεξαρτησία

ιωνυµική Κατανοµή(Binomial)

ΜΑΘΗΜΑΤΙΚΑ ΙΙ ΠΑΡΑΔΕΙΓΜΑΤΑ Συναρτήσεις Πολλών Μεταβλητών

ΜΕΡΙΚΕΣ ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 )

2. Η πιθανότητα της αριθμήσιμης ένωσης ξένων μεταξύ τους ενδεχομένων είναι το άθροισμα των πιθανοτήτων των ενδεχομένων.

f(y) dy = b a dy = b a x f(x) dx = b a dx = x 2 = b2 a 2 2(b a) b a dx = = (a2 + ab + b 2 )(b a) 3(b a)

Θεωρία Πιθανοτήτων, εαρινό εξάμηνο Λύσεις του έβδομου φυλλαδίου ασκήσεων. f X (t) dt για κάθε x. F Y (y) = P (Y y) = P X y b ) a.

ΦΡΟΝΤΙΣΤΗΡΙΟ 11. β) τον εκτιμητή μέγιστης πιθανοφάνειας για την άγνωστη παράμετρο λ 0.

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα

Πανεπιστήμιο Πελοποννήσου

Θεωρητικές Κατανομές Πιθανότητας

Pr(10 X 15) = Pr(15 X 20) = 1/2, (10.2)

Εφαρμοσμένα Μαθηματικά ΙΙ Εξέταση Σεπτεμβρίου Διδάσκων: Ι. Λυχναρόπουλος

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Διαφορικές Εξισώσεις.

X 1 X 2. X d X = 2 Y (x) = e x 2. f X+Y (x) = f X f Y (x) = f X (y)f Y (x y)dy. exp. exp. dy, (1) f X+Y (x) = j= σ2 2) exp x 2 )

2. Η πιθανότητα της αριθμήσιμης ένωσης ξένων μεταξύ τους ενδεχομένων είναι το άθροισμα των πιθανοτήτων των ενδεχομένων.

HMY 795: Αναγνώριση Προτύπων

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

Για να εκφράσουμε τη διαδικασία αυτή, γράφουμε: :

ΤΥΧΑΙΕΣ ΜΕΤΑΒΛΗΤΕΣ ΚΑΙ ΚΑΤΑΝΟΜΕΣ ΠΙΘΑΝΟΤΗΤΩΝ - ΑΣΚΗΣΕΙΣ. αλλού

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

HMY 795: Αναγνώριση Προτύπων

Κεφάλαιο 3 Πολλαπλά Ολοκληρώματα

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ολοκληρώματα. ΗΥ111 Απειροστικός Λογισμός ΙΙ

Η Θεωρία στα Μαθηματικά κατεύθυνσης της Γ Λυκείου

Η παρουσίαση που ακολουθεί, αφορά την κανονική κατανομή και σκοπό έχει τη διευκόλυνση των φοιτητών του τμήματος Ηλεκτρολόγων Μηχανικών & Μηχανικών

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΠΑΝΑΛΗΠΤΙΚΗ ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ 5 Ιουλίου 2009

Θέμα 1. με επαυξημένο 0 1 1/ 2. πίνακα. και κλιμακωτή μορφή αυτού

Εφαρμοσμένα Μαθηματικά ΙΙ Πρόοδος Ι. Λυχναρόπουλος

ΕΡΓΑΣΤΗΡΙΟ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΓΡΑΦΙΚΩΝ

Κατανομές Πιθανοτήτων. Γεωργία Φουτσιτζή, Καθηγήτρια, Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πανεπιστήμιο Ιωαννίνων Ακαδ.

Εφαρμοσμένα Μαθηματικά ΙΙ Πρόοδος (Λύσεις) Ι. Λυχναρόπουλος

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

Εφαρμοσμένα Μαθηματικά ΙΙ

( 1)( 3) ( ) det( ) (1 )( 1 ) ( 2)( 2) pl( ) det( L ) (5 )( 7 ) ( 1) ( ) det( M ) (1 )(1 )

Στατιστική Συμπερασματολογία

3 ο Μέρος Χαρακτηριστικά τυχαίων μεταβλητών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΟ ΑΝΟΙKΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΣΤΙΣ ΣΥΝΑΡΤΗΣΕΙΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

ΑΠΑΝΤΗΣΕΙΣ , Β= 1 y, όπου y 0. , όπου y 0.

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Κεφάλαιο 9 Κατανομές Δειγματοληψίας

ΘΕΜΑ 151 ο. x -f(t) 2f(x)+f (x)= 2 e dt και f(0) = 0.

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

( ) S( x ) 2 ( ) = ( ) ( ) = ( ) ( )

n = r J n,r J n,s = J

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

< F ( σ(h(t))), σ (h(t)) > h (t)dt.

EukleÐdeiec emfuteôseic: ˆnw frˆgmata

Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ. M. Kούτρας

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα

ΑΠΕΙΡΟΣΤΙΚΟΣ ΛΟΓΙΣΜΟΣ ΙΙΙ Χειμερινό εξάμηνο Ασκήσεις 1.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟΔΟΣ ΔΕΚΕΜΒΡΙΟΥ 2011 ΛΥΣΕΙΣ ΤΩΝ ΘΕΜΑΤΩΝ

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΓΕΝΙΚΑ ΘΕΜΑ Α. , έχει κατακόρυφη ασύμπτωτη την x 0.

6. Ορισμένο Ολοκλήρωμα

( t) ( ) ( 0,1) ( ) ( ) ( ) ( ) Κεντρικό Οριακό Θεώρημα (Central Limit Theorem Lindeberg Levy) τότε η τ.μ. Sn

Τυχαία μεταβλητή (τ.μ.)

και Y εάν και 4. Να βρεθούν οι κατανομές των υπό συνθήκη τ.μ. [ Y Y ] και [ ] p x x p x p x Po x Po x e

f(x) = lim f n (t) = d(t, x n ) d(t, x) = f(t)

ln 1. ( ) vii. Να βρείτε το εμβαδόν του χωρίου που περικλείεται από τη C f, τον άξονα η οποία είναι συνεχής στο και για την οποία ισχύει

Κεφάλαιο 1. Εισαγωγή: Βασικά Στοιχεία Θεωρίας Πιθανοτήτων και Εκτιμητικής

Βιομαθηματικά BIO-156

ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

Ολοκληρώματα. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. Ασκήσεις για ΑΕΙ και ΤΕΙ. Kglykos.gr. σε Ολοκληρώματα. τεχνικές. 108 ασκήσεις. εκδόσεις.

Στατιστική. Ενότητα 4 η : Θεωρητικές Κατανομές Πιθανότητας Διακριτής και Συνεχούς Τυχαίας Μεταβλητής. Γεώργιος Ζιούτας Τμήμα Χημικών Μηχανικών Α.Π.Θ.

, όπου D. το πεδίο ορισμού της y f ( x). Τότε θα έχουμε ( ) ( ) ( ) i i i. ανήκουν στην καμπύλη 2 και καθορίζουν τα ύψη των παραλληλογράμμων

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Στατιστική Συμπερασματολογία

Transcript:

Δειγματοληψία από τυχαίες μεταβλητές Δειγματοληψία με την μέθοδο του αντίστροφου μετασχηματισμού (Inverse Trnsform Method) Η συνεχής περίπτωση Εάν ~ f και η αθροιστική συνάρτηση κατανομής F αντιστρέφεται αναλυτικά (γνωρίζουμε ότι η F είναι μονότονη και άρα έχει μοναδικό αντίστροφο, αλλά θέλουμε την F σε κλειστή μορφή), τότε U ~ 0, F U ~ f Το παραπάνω ισχύει διότι εάν θέσουμε = F ( U) = { = { = { F P P F U P U F F F u= u= 0 = 0, du = du = F εφόσον F παίρνουμε 0 Δηλαδή οι τμ και είναι ισόνομες, συμβολικά F = F =, έτσι μπορούμε να μετασχηματίσουμε μια ( 0,) iid ακολουθία { Uk : k N f iid ακολουθία = F ( U ) : k N αντίστοιχη ~ { k k στην Πρόταση Ισχύει και το αντίστροφο Δηλαδή όταν U ~ ( 0,) έχουμε και ότι F U U = = F Έστω ότι T : y F T : F ( y) = = τότε Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

f y = f F y F y,0 y Y Επειδή F : [ 0,] είναι γνησίως αύξουσα στη συνεχή περίπτωση, έχουμε: ( F F ) ( ) ( ) ( y F F y F y f F ( y) ) ( F ) ( y) = = =, από όπου και ( F ) ( y) Y, 0 f y y = > 0, που δίνει f F y ( ) = ή ότι f ( y) ( y 0,) Y = Δειγματοληψία από την εκθετική κατανομή Ep ( ) λ λ λ λ = = ( > 0 ), λ > 0 = ( ) ( > 0) f e F e F = log, 0 < < λ iid iid θα έχουμε ότι Επειδή Ui ~ ( 0,) Ui ~ ( 0,) i = log ( U i) log iid = ( Ui) ~ Ep ( λ ) λ λ Παράδειγμα # Smple n-reliztion from the eponentil distribution SmpleEp <- function(n,lmbd,reliztion=){ setseed(reliztion); return((-/lmbd)*log(runif(n))) # here n=0000, nd lmbd= v<- SmpleEp(n=0^4, lmbd=) # plot the probbility histogrm of v hist(v, breks=50, freq=false, ylim=c(0, ), lim=c(0, 8), min="n=0000, lmbd=", col="red") curve(dep(, rte=),col="blue",lwd=3,dd=true) Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Δειγματοληψία από την Weibull ρ ρ ( λ) > λρ λ e 0 f = ei ( λρ, ) = 0 αλλού Τότε ασκ ( λ) y = F = e για > 0, που αντιστρέφεται σε κλειστή μορφή λ { / = F y = log y, 0 < y < / ρ ~ = λ ~ ρ ρ iid { ( λρ) U iid 0, log U ei, i i i / ρ ~ Ep Y λ ~ ei ( λρ, ) = d ρ ρ ρ ( λ) fy y = Ep λy λy = λρ λ e = ei y λ, ρ dy ρ Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β 3

Δειγματοληψία από την Preto λ λ c f λ c c λ+ = (, ) = ( > ) λ c λ y = F = > c = F y = c y,0< y < / U iid U iid c 0, / λ ~ = λ ~ ( λ, ) i i i / ~ Ep( ) Y = ce λ ~ ( λ, c) d λ λ log ( yc / ) fy ( y) = Ep ( λlog ( y/ c) ) ( λlog ( y/ c) ) = e λlog y/ c > 0 dy y ( λ ) λ + = λc y y > c ( ) Δειγματοληψία από την Logistic µ s e f = o( µ, s) =, µ s s + e µ F = + e F = slog, 0 < < s µ U iid s u iid o s i ( 0,) µ log ( ) ( µ, ) ~ ~ = Y Εάν ~ Ep και Y ~ Ep ανεξάρτητες, τότε Z µ slog ~ ( µ, s) Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β 4

Επειδή u ~ ( 0,) µ slog ( u ) ~ ( µ, s), αρκεί να δείξουμε ότι u u = = = = = y z z Θέτουμε T : z, u T : u, y Jc ( T ) u u f ( zu, ) = f ( y, ) = ep u + z z z ZU, Y, u f ep ( ) z z = u + du = z +, z > 0 z z u= 0 Ενώ εάν u ~ ( 0,) και z u = τότε f z = z+ για z > 0 z Y = u smplelogistic <- function(n, reliztion=){ setseed(reliztion); return(-log(/runif(n)-))) v <- smplelogistic(n=0000); b<-7; inf <- -b; sup <- b mybreks <- seq(from=inf,to=sup, by=(sup-inf)/50) v <- v[bs(v) < b] hist(v, breks=mybreks, freq=false, ylim=c(0, 03), lim=c(inf, sup)) curve(dlogis(, loction = 0, scle = ), col="blue", lwd=, dd=true) Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β 5

Δειγματοληψία με την μέθοδο του αντίστροφου μετασχηματισμού Η διακριτή περίπτωση Εάν π δ όπου P( j) π j ~ j j j= Π = = =, και π j = και F η αντίστοιχη αθροιστική συνάρτηση κατανομής, ορίζουμε σαν την γενικευμένη αντίστροφη (generlized inverse) την συνάρτηση F { : inf : F u = Ω u F Παρατηρούμε ότι εάν η πράγματι j= F αντιστρέφεται (συνεχής περίπτωση), τότε { { F u = inf Ω : u F = inf Ω : F u = F u Ισχύει ότι { u ~ 0, F u = inf Ω : u F ~ f Το παραπάνω ισχύει διότι θέτοντας : = F ( U) θα έχουμε: { = = { = = { ( ) < P j P F U j P F j U F j F ( j) ( j ) = u 0, d = uf j F j = π F j F = F, Παράδειγμα Έστω διακριτή τυχαία μεταβλητή { : 0 {,, S = i p i > = m, : Ω με χώρο καταστάσεων που ακολουθεί την διακριτή κατανομή { p i = P = j = π για j m με συμβολικά ~ {,, m είτε χρησιμοποιώντας το μέτρο Dirc ~ πδ ( ) j m π j =, j= m k k k= Θέλουμε να παράγουμε τυχαίο δείγμα από την Το σχήμα δειγματοληψίας θα είναι: Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β 6

smple u ~ 0, if u π = end if ή ότι F else if u π+ π = F else if u π + π + + π = i i Fi else if u π+ π + + πm = m else = m Fm = F U F U F F U F m F U F, F 0 = 0 + + + m m 0 = Πράγματι, σύμφωνα με το παραπάνω σχήμα δειγματοληψίας έχουμε { = = { < = ( 0,) P i P F U F u d Fi u= Fi i i i i u= Fi { = du = F F = π, i,, m Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β i Fi Έτσι μπορούμε να μετασχηματίσουμε μια ( 0,) iid ακολουθία { Uk : k N iid ακολουθία { : k N από την τμ Επίσης έχουμε ότι ˆ π k = = = = N N wp ( i) P N { i π, in, k= k i και επειδή ( = i) ~ Bin (, π ) N k ( ˆ in ) i, παίρνουμε: ( 0, ) ˆ in, ( ) π, π i π π π i i, π π π i i i N 7 στην

# Plot the specific discrete distribution (stte, probs) stte <- c(,,3,4,5); probs <- c(0,0,0,0,04) plot(stte, probs, type="h", lwd=, col="red", ylim=c(0,05)) points(stte, probs, pch=6, ce=, col="blck") #Smple from the Generl Discrete rndom Vrible with finite stte spce SmpleVr <- function(n=00, probs, stte){ smple <- c() for(i in :N) { F <- 0 u <- runif() for(j in :length(probs)){ F <- F + probs[j] if(u<f){ smple <- c(smple, stte[j]) brek return(smple) Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β 8

#Get the Reltive Frequencies of the smple-vector GetRF <- function(smple){ sttes <- c(); probs <- c(); L <- smple; N <- length(smple) while(length(l)!= 0){ sttes <- c(sttes, L[]); L <- L[L!=L[]] for(i in :length(sttes)){ <- sttes [i]; counter <- 0 for(j in :N) if( == smple[j]) counter <- counter+ probs <- c(probs, counter/n) v<-c(sttes, probs) return(v) ΕΚΤΕΛΕΣΗ > setseed() > mysmple <- SmpleVr(N=00, p=c(0, 0, 0, 0, 04), stte=c(,,3,4,5)) > mysmple [] 3 5 5 5 3 3 4 5 5 4 3 4 5 3 5 4 3 5 4 4 5 4 5 5 5 3 4 5 5 3 [38] 5 5 4 5 3 4 3 5 3 5 5 5 5 5 4 5 5 5 5 5 5 5 3 4 [75] 4 3 5 5 5 5 3 4 3 5 5 3 5 5 5 5 > v <- GetRF(mysmple); v [] 300 400 500 00 00 05 09 043 007 006 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β 9

#Ισοδύναμα με την built-in συνάρτηση της R > tble(v) 3 4 5 7 6 5 9 43 > tble(v)/length(v) 3 4 5 007 006 05 09 043 Δειγματοληψία από την τμ ~ eo( p) ~ bnp (, ) 3 ~ Bernoulli ( p ) 4 ~ Bin( n, p ) με την μέθοδο της αντιστροφής στις εξής περιπτώσεις: Θεωρούμε την γεωμετρική κατανομή με στήριγμα το ( Ω ) = Εάν = k είναι ο αριθμός των ανεξάρτητων δοκιμών Bernoulli με πιθανότητα επιτυχίας p, έως την πρώτη επιτυχία, τότε k = { = = ( ) = ( ) ( ) f k P k eo k p p p k, με αθροιστική συνάρτηση κατανομής: k = { = { = = ( ) F k P k P j p p Τότε j= j= k ( p) ( p) j k l k = p ( p) = p = ( p) l= 0 k 0 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

{ ( u) ( p) { F u = inf Ω : u F = inf Ω : u p όπου ( u) ( p) log log = inf ( Ω) : =, log log η συνάρτηση ceiling του Έτσι μία παρατήρηση k από την γεωμετρική με παράμετρο p θα είναι η log u k = ~ log ( p) eo( p), όπου ~ ( 0,) u Γνωρίζουμε ότι k n k n p ( k) = P{ = k = bk ( n, p) = p ( p) ( k n) n, και ότι ~ iid n ( p) eo( p), i n ( p) ~ b( n, p) i = i Έτσι μία παρατήρηση 0 ( np,, ) θα είναι η i k Ω = + n από την αρνητική διωνυμική με παράμετρο ( ui ) ( p) n iid log ui ~ ( 0, ), i n k= ~ bnp (, ) i= log 3 4 Γνωρίζουμε ότι: ~ iid n ( p) Beroulli ( p), i n ( p) ~ Bin ( n, p) i Μία παρατήρηση { 0, ~ iid i i= i k από την Bernoulli με παράμετρο p θα είναι η ( 0, ) = ( ) ~ u k p u Bernoulli p i i i έτσι μία παρατήρηση k { 0,,, n από την διωνυμική με παράμετρο (, ) n n iid i ~ i i i= i= ( 0, ), = = ( ) ~ (, ) u i n k k p u Bin n p np θα είναι η Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Πρόταση Ισχύει ότι εάν ( ( p) ) τότε ~ Geo( p) ~ Ep log Δίνεται ότι ~ Ep( λ ), τότε U~ ( 0,) log ( U) ~ Ep ( λ ) αντικατάσταση log ( p) log log ( U ) ( p) log ( U) ( p) λ = έχουμε ότι ( ( p) ) ~ Ep log λ = log ( u) ( p) ( p) = = Ep ( log ) Geo( p) log log Κάνοντας την Παρατήρηση Εάν ~ ( ( )) = ( ) iid Ep log p, log p για i n για i n i n από όπου και τότε και ~ Geo( p) i ( ) i ~ n, log p ~ bnp, i i= i= n Παράδειγμα Να γίνει δειγματοληψία από με την μέθοδο της αντιστροφής από τις εξής περικομμένες (truncted) κατανομές: p ( y) Geo( p) ( y) Y με y f ( y) Ep ( λ ) ( > y) με y ( 0, ) Y 3 f ( y) Ep ( λ ) ( A) με A ( 0, ) A p ( y) Geo( p) ( y) ( p) ( y), Y έτσι εάν = ( ) ( ) = = ( ) py y c p y f y c p, y y Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

από όπου και y ( p) ( p) y c = p = p = = p p οπότε y = y y y = ( ) ( ) = ( ) ( ) p y p p p y p p y, Y με αθροιστική συνάρτηση κατανομής: ( ) = ( ) = ( ) F y p l y p p Y Y l= y l= y ( p) ( p) y y+ r y+ = p ( p) = p = ( p) r= 0 Τότε για κάθε y θα έχουμε: Y l y y+ { { F u y = inf : F y u = inf : p u ( u) ( p) ( u) ( p) log log = inf : y+ = + y log log Έτσι μία παρατήρηση από την περικομμένη γεωμετρική p θα είναι η Y y, με παράμετρο p ( u) ( p) log = + y log όπου u ~ ( 0,) λ f ( y) ( λ ) ( > y) e ( > y) Y Ep λ λ λy λy c f Y ( y) = ce ( y) = ce d = e c = λe λ από όπου Y λ( y) f y = λe y, και = y 3 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

λ( t y) λ( y) λ F y = f t y dt = e dt = e Y t= y t= y Θέτοντας u = FY ( y) = log ( u) + y λ Έτσι μία παρατήρηση από την περικομμένη εκθετική f είναι log u y λ = ( ) + όπου ~ ( 0,) u Y y, με παράμετρο λ θα λ 3 f ( A) Ep ( λ ) ( A) f ( A) Ce ( A) = λ λ = f A d = C e d C = e d Εάν A ( b, ) = έτσι ώστε 0 b A A λ λb < < θα έχουμε C = ( e e ) λt C λ λ λ u = F ( A) = C e dt = ( e e ) = log ( e λuc ), λ λ οπότε t= λ λ λb = ( ( )) ( λ ) ( < < ) u~ 0, log e u e e ~ Ep b λ λ Παράδειγμα Να γραφτεί R script που να προσομοιώνει δείγμα μεγέθους την διωνυμική κατανομή N από την γεωμετρική και setseed() mygeosmple<-function(ss=0, p=05){ v<-c() 4 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

for(i in :SS) v<-c(v, ceiling(log(runif())/log(-p))) return(v) getsmpledistr<-function(smple){ D<-c();P<-c();L<-smple while(length(l)!= 0){D <- ppend(d, L[]); L <- L[L!=L[]] for(i in :length(d)){ <-D[i];counter<-0 for(j in :length(smple)) if(==smple[j]) counter<-counter+ P<-c(P, counter/length(smple)) return(list(d, P)) v<-mygeosmple(ss=5000, p=03); mysmple<-getsmpledistr(v) plot(mysmple[[]], mysmple[[]], type="h", lwd=, col="red", ylim=c(0,04)) points(mysmple[[]], mysmple[[]], pch=6, ce=08, col="blck") 5 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

# Smpling vector of independent Bernoulli rndom devites BerSmpler <- function(p=05, N=00){ v<-c() for(i in :N) if(runif()<p) v <- c(v, ) else v <- c(v, 0) return(v) # Here we smple vector of independent binomil rndom devites BinSmpler <- function(p=05, n=0, N=0000){ v <- c() for(i in :N) { sum<-0 for(j in :n) sum<-sum+bersmpler(p=p, N=) v<-ppend(v, sum) return(v) getsmpledistr<-function(smple){ D<-c();P<-c();L<-smple while(length(l)!=0){d<-ppend(d, L[]); L<-L[L!=L[]] for(i in :length(d)){ <-D[i];counter<-0 for(j in :length(smple)) if(==smple[j]) counter<-counter+ P<-ppend(P, counter/length(smple)) print(d);print(p) plot(d, P, type="h", lwd=, col="red", ylim=c(0,00), lim=c(0,0)) points(d, P, pch=6, ce=, col="blck") > w<-binsmpler(p=05, n=0, N=40000); getsmpledistr(w) 6 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

> w<-binsmpler(p=075, n=0, N=40000); getsmpledistr(w) Δειγματοληψία από διακριτές μίξεις κατανομών χρησιμοποιώντας την μέθοδο της αντιστροφής Θέλουμε να κάνουμε δειγματοληψία από την τμ με πυκνότητα n j ( ) j j > j =, ~ p f, p 0, p j= j= n όπου f j για j n είναι πυκνότητες με αθροιστικές συναρτήσεις κατανομής F j Πρώτα κάνουμε δειγματοληψία από την τμ J ~ pjδ j( ) έτσι ώστε P{ J j pj μέτρο μίξης) για j n και ώστε: j= 7 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β n n j= = = (το p j =, και στην συνέχεια από την τμ [ J = j ] έτσι [ J j] ~ f ( j) f = = J j

Από όπου και n n n = (, ) = { = ( ) = f f j P J j f j p f, J J j j j= j= j= Παράδειγμα Θέλουμε να κάνουμε δειγματοληψία από την πυκνότητα λ λ 0 = λ < + λ 0 f p e p e, όπου λ και λ θετικοί παράμετροι Η πυκνότητα f f = είναι μίξη των πυκνοτήτων λ = = λ ( < ) και f = f = λ e λ ( ) f f e 0 με μέτρο μίξης P{ J = = p, P{ J έχει τρείς παραμέτρους p, λ και eponentil), 0 = = p Μπορούμε να θεωρήσουμε ότι έχουμε λ, συμβολικά ~ e( p, λ, λ ) (Generlized Double Η αθροιστική συνάρτηση κατανομής της θα είναι: λt λt = λ ( < 0) + ( ) λ ( 0) F p e t dt p e t dt t= t= λt p λe dt = 0 λt λt p λe dt + ( p) λe dt 0 0 λ e 0 0 0 = p + ( p) λ 0 e 0 0 Το σχήμα δειγματοληψίας λοιπόν θα είναι: 8 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

iid u, u 0, log u u p log u u p ~ f ~ ( ) ( > ) λ λ Παρατήρηση Είδαμε ότι εάν f με 0 f p e λ λ = λ < + p λ e 0 ~ τότε = log ( U ) ( U p) log ( U ) ( U > p) λ λ iid Εμφανώς εάν U, U ~ ( 0,) τότε = ( Y) ενώ εάν PU { U στο άτοπο Y = + + plog p λ λ = = καταλήγουμε, Πράγματι { λ λ = λ ( < 0) + ( ) λ ( 0) p e p e d λ ( 0) ( ) λ ( 0) = p λe < d + p e d λ λ = p e d + ( p) λ e d = p + ( p) λ λ 0 λ λ = = 0 ( u ) ( u < p) = log ( u ) ( u < p) log ( u ) du ( u p) du ( p) = log < = u= 0 u= 0 ( u ) ( u p) = log ( u ) ( u p) log ( u ) du ( u p) du ( p) = log = u= 0 u= 0 9 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

από όπου και ( Y ) Ενώ εάν PU { U p p = + λ λ, = = θα έχουμε: log U U p = log u du = p log p p p u= 0 log U U > p = log u du = p log p + p u= p ( Y) = ( plog p p) ( plog p+ p ) = + + plog p λ λ λ λ Παρατήρηση Όταν p = / και λ λ λ f = e λ για ~ e λ = e /, λλ, η κατανομή Lplce ή Double = = η πυκνότητα της παίρνει την μορφή που είναι η κατανομή eponentil λ # smple from the generlized Double eponentil distribution GDe(05,, ) Deponentil <- function(ss=0000, p=05, lm=, lm=) { v <- NULL for(i in :SS) { u<-runif();u<-runif() if(u<p) v <- ppend(v, (/lm)*log(u)) else v <- ppend(v, (-/lm)*log(u)) return(v) # Plot the density function of the generlized double eponentil distribution DDEP<-function(, p=05, lmbd=, lmbd=) { 0 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

v <- c() for(i in :length()) { if([i] < 0) brnch <- p*lmbd*ep(lmbd*[i]) else brnch <- (-p)*lmbd*ep(-lmbd*[i]) v <- ppend(v, brnch) return(v) #EPERIMENT # Tke n independent smple of size SS=0000, from the Double Eponentil distribution # GDe(05,,) v <- Deponentil(SS=0000, p=05, lmbd=, lmbd=) # plot the probbility histogrm of v hist(v, breks=00, freq=false, ylim=c(0, 05), lim=c(-8, 8), min="ss=0000, De(05,, )", col="red") # Add the grph of the Double Eponentil density to the probbility histogrm curve(ddep(), from=-8,to=8, col="blue", lwd=, dd=true) # EPERIMENT v <- Deponentil(SS=0000, p=/3, lmbd=, lmbd=3) hist(v, breks=00, freq=false, ylim=c(0, ), lim=c(-5, 5), min="ss=0000, De(/3,, 3)", col="red") Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

curve(ddep(, p=/3, lmbd=3), from=-5, to=5, col="blue", lwd=, dd=true) Δειγματοληψία από την πυκνότητα g( ) με αποδοχή-απόρριψη (ccept-reject), όταν το στήριγμα της g( ) έχει πεπερασμένο μήκος Θέλουμε να κάνουμε δειγματοληψία από την πυκνότητα g που έχει στήριγμα Sg = { : g > 0 πεπερασμένου μήκους, και γνωρίζουμε ότι για κάθε S g m m = sup g < είτε (ισχυρότερα), g, S g Έστω u και u ανεξάρτητα δείγματα από τις ομοιόμορφες με στήριγμα τα σύνολα S g και ( 0, m ) αντιστοίχως Τότε το u δοθέντος ότι u < g( u), προέρχεται από την g, δηλαδή: u u < g u ~ g <, είναι δειγματοληψία από την ομοιόμορφη που ορίζεται στο δισδιάστατο χωρίο Γ g μεταξύ του γραφήματος της g και Στην ουσία, αυτό που κάνουμε όταν ισχύει ότι u g( u) του S g Δηλαδή έχουμε ότι: ( ( ) ( g )) u < g u Γ u, u ~ < u u g u ~ g Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Το ccept reject σχήμα δειγματοληψίας λοιπόν είναι: Όταν g m, Sg u ~ S g u ~ ( 0, m) [ u u < gu ] ~ g ( AR) Θα χρειαστούμε το παρακάτω αποτέλεσμα: { = ( ) = ( ) { Ph Y, A h Y, A h Y, A = h, Y A = f d = P h, Y A = f d, και εάν και Y είναι ανεξάρτητες τμ { { P h, Y A = P h, Y A f d όπου {, Y P h Y A = f y dy (, ) hy A Ας συμβολίζουμε το ενδεχόμενο της αποδοχής (cceptnce region) με { ω : u ( ω) g( u( ω) ) u g( u) 3 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β { = Ω < = <, η πιθανότητα αποδοχής όταν S ( b, ) ( ) g = θα είναι: { { ( g ) P = Pu< gu = Pu< gu u= S d b Sg = P{ u < g ( u) u = (, b) d = P{ u < g u = d b, = = και επειδή οι u και u είναι ανεξάρτητες τμ παίρνουμε b P ( ) = P{ u < g d b, = αλλά u ~ ( 0, m) και u < g m εφόσον sup g b S m, που δίνει:

g u = 0 g P{ u < g = ( u 0, m) du = m, και έτσι P = g d m b = m b ( ) S g ( ) Για να δείξουμε ότι u ~ g αθροιστική συνάρτηση κατανομής της g { ( ) ( ) ( ) ( ) ( b ) P( ) G, αρκεί να δείξουμε ότι P{ u = G ({ ) P( ) {, P( ) P u P u u < g u P u = = = P{ u, u < g ( u) u = y ( y, b) dy P = P{ y, u < g ( y) u = y ( y, b) dy P = P{ y, u < g ( y) ( y, b) dy P = P{ y u < g( y) P{ u < g( y) ( y, b) d y P = y P u < g y dy g y = dy ( b ) P( ) m y= = g y dy = y= b y= {, όπου G η Εναλλακτικά με τη χρήση διδιάστατης ομοιόμορφης Εάν γνωρίζουμε ότι g m < για κάθε Sg, Sg = ( b, ) και ότι η G( ) είναι η αθροιστική συνάρτηση κατανομής που αντιστοιχεί στην g( ), θέτουμε σαν από κοινού πυκνότητα των τμ και Y την ομοιόμορφη στο ( b, ) ( 0, m) 4 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

f Y, < < b, 0< y < m = ( y, ) m( b ) 0 αλλού Εμφανώς f ( y) = ( S) ( y m) = f f ( y),, 0,, Y g Y δηλαδή και Y είναι ανεξάρτητες με f ( Sg) Τότε η πιθανότητα αποδοχής θα είναι: { Y, (, ) ( ) P = P Y < g = f y d dy b g = y= 0 y< g = dy d = g d = m b m b m b, ενώ ισχύει ότι < { (, ) u v< gu Sg Y g ~ g εφόσον gu u= v= 0 Y, = m ( b ) dv du m b u= G ( ) {, < PY< g P Y g P Y < g = = m b f u v dudv = g u du = { = και f ( y) ( y 0, m) Y =, Παράδειγμα Να δοθεί το σχήμα δειγματοληψίας ccept-reject για την πυκνότητα γνωρίζουμε ότι έχει στήριγμα Sg ( b, ) ( cd, ) λ S = b c d και ότι ( g ) Θέτουμε g( y, ), εάν = με πεπερασμένο μέτρο Lebesgue g y, m<, y, Sg 5 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

f, Y, Z ( yz,, ) mλ ( Sg ) ( y, ) S, z ( 0, m) = 0 αλλού Τότε η πιθανότητα αποδοχής είναι: { ( ) = < (, ) P PZ g Y = (, ) z< gy ( Sg ) S ( Sg ) YZ,, (,, ) (, ) gy = dz d dy mλ ( Sg ) ( y, ) Sg z= 0 = g (, y) d dy mλ = mλ f g y z d dy dz g Ισχύει ότι < Y, Z g Y, ~ g, πράγματι {, (, ) (, ) t< guv (,, ) G ( y) = g u, v dudv =, u v y {,, < (, ) PZ< g( Y, ) P Y y Z g Y P Y y Z< g Y = { f YZ,, u v t dudvdt guv (, ) u, v y, t< g( u, v) dt = = mλ ( Sg ) dudv f YZ,, ( u, v, t) dudvdt mλ ( Sg ) u t= 0 v y 3 Δειγματοληψία από την Δειγματοληψία από την e( b, ) f = e 4,3 = 60 για >, b> smpledensity <- function(ss=00, =4, b=3) { smple <- NULL m <- dbet(=(-)/(+b-), shpe=, shpe=b) 6 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

for(i in :SS) { repet{ u <- runif(); uprime <- m*runif() if(uprime < dbet(=u, shpe=, shpe=b)) brek smple <- c(smple, u) return(smple) cretesmple <- function(mysize=00){ <-smpledensity(ss=mysize) mymbreks <- seq(from=0, to=, by=/50) hist(, freq=false, breks=mymbreks) curve(dbet(, shpe=3, shpe=4), dd=true, lim=c(0, ), col="red") return() setseed() cretesmple(000) #Δειγματοληψία από την (, ) Be p q για p>, q> g <- function(, p, q) return(dbet(, shpe=p, shpe=q)) 7 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

smpledensity <- function(ss,, b){ smple <- NULL m <- g(=(-)/(+b-), p=, q=b) for(i in :SS) { repet{ u <- runif(); uprime <- m*runif() if(uprime < g(=u, p=, q=b)) brek smple <- c(smple, u) return(smple) cretesmple <- function(mysize, myshpe=3, myshpe=4){ u <- smpledensity(ss=mysize, =myshpe, b=myshpe) mymbreks <- seq(from=0, to=, by=/50) hist(u, freq=false, breks=mymbreks) curve(g(, p=myshpe, q=myshpe), dd=true, lim=c(0, ), col="red") return() setseed() cretesmple(mysize=0000, myshpe=0, myshpe=) #Δειγματοληψία από την μίξη πbe( p, q ) + ( π) Be( p, q ) gmi <- function(, pr, p, q) 8 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

return(pr* dbet(, shpe=p[], shpe=q[]) +(-pr)* dbet(, shpe=p[], shpe=q[])) g <- function(, r, s) return(dbet(, shpe=r, shpe=s)) smpledensity <- function(ss,, b) { smple <- NULL m <- g(=(-)/(+b-), r=, s=b) for(i in :SS) { repet{ u <- runif(); uprime <- m*runif() if(uprime < g(=u, r=, s=b)) brek smple <- c(smple, u) return(smple) cretesmple <- function(mysize, p, q, pr){ setseed(); u <- NULL for(i in :mysize){ if(runif()<=pr) <- smpledensity(ss=, =p[], b=q[]) else <- smpledensity(ss=, =p[], b=q[]) u <- c(u, ) mymbreks <- seq(from=0, to=, by=/50) hist(u, freq=false, breks=mymbreks) curve(gmi(, pr=pr, p=p, q=q), dd=true, lim=c(0, ), col="red") return(u) 9 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

cretesmple(mysize=0000, p=c(,0), q=c(0,), pr=/) Άσκηση Να γίνει δειγματοληψία από την πυκνότητα: g = Be(,0 ) + Be( 0,0 ) + Be( 0, ) 3 3 3 Άσκηση Έστω ότι στο διωνυμικό μοντέλο έχουμε i { 0, και αντίστοιχη διωνυμική παρατήρηση { = 34 = Be( ϑ p, q ), p = 44, q = 66 π ϑ 0 0 0 0 n = 75 Bernoulli παρατηρήσεις { : i n με Εάν -priori γνωρίζουμε ότι Να βρεθεί η εκτίμηση του ϑ κάτω από τετραγωνική συνάρτηση απώλειας, καθώς και το posterior vrince προσομοιώνοντας δείγμα από την posterior ( 34) π ϑ = (από την θεωρία γνωρίζουμε ότι και αυτή είναι bet) Να προσομοιωθεί δείγμα από την prior predictive (από την θεωρία γνωρίζουμε ότι εάν ϑ ~ π ( ) = Be( p, q ) και ϑ ~ Bin ( 75, ϑ) 0 0 ( ϑ) ( ϑ 0 0) ϑ) ϑ= 0 ~ Bin 75, Be p, q d τότε i 30 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

3 Εάν y ϑ ~ Bin ( 0, ) Παράδειγμα Δίνεται ότι ϑ, να προσομοιωθεί δείγμα από την posterior predictive (από την θεωρία γνωρίζουμε ότι εάν ϑ ~ π ( = 34) και y ϑ ~ Bin ( 75, ϑ) ( ϑ) ( ϑ 0 0) ϑ) ϑ= 0 ~ Bin 75, Be p, q d τότε είναι ο αριθμός των δοκιμών σε σχήμα δειγματοληψίας ccept reject P Να βρεθεί η έως ότου επιτευχθεί αποδοχή και ότι η πιθανότητα αποδοχής είναι μέση τιμή της τμ Πότε το σχήμα αποδοχής-απόρριψης γίνεται βέλτιστο; Το ενδεχόμενο { k { = = έχουμε αποδοχή μετά από k δοκιμές = { γίνονται k απορρίψεις και τελικά αποδοχή στην k δοκιμή, έχει πιθανότητα k { = = ( ) ( ), από όπου και ~ Geo P ( ) P k P P k και = m b P = ( ) Tο σχήμα αποδοχής-απόρριψης γίνεται βέλτιστο όταν m sup g Παρατήρηση: k= k= = k k k tp Π Χ ( t) = ( t ) = t P( ) ( P( ) ) = tp( ) { t( P( ) ) = t S ( ) P( ) από όπου και ( ) = Π Χ = P 3 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Δειγματοληψία από την πυκνότητα g( ) με ccept reject, όταν το στήριγμα S g της πυκνότητας g( ) δεν έχει γενικά πεπερασμένο μήκος Έστω ότι γνωρίζουμε πώς να κάνουμε δειγματοληψία από την πυκνότητα f αλλά είναι δύσκολο να κάνουμε δειγματοληψία από την πυκνότητα g Υποθέτουμε ότι: Οι δύο πυκνότητες f και g, έχουν το ίδιο στήριγμα S = Sf = Sg που μπορεί όμως να μην είναι πεπερασμένο Μπορούμε να βρούμε θετική σταθερά S g, είτε ότι (ισχυρότερα) ότι ικανοποιεί Τότε εάν πάρουμε δείγμα y από την f, δηλαδή y ~ τέτοια ώστε g f g = sup S f y, δείγμα u από την ομοιόμορφη με στήριγμα το ( ) u y~ ( 0, f( y) ) και ισχύει ότι u g( y) <, για f, και στην συνέχεια δοθέντος του 0, f y δηλαδή <, αποδεχόμαστε το y σαν δείγμα από την g Ουσιαστικά αυτό που κάνουμε είναι δειγματοληψία από την ομοιόμορφη που ορίζεται στο χωρίο f που όμως σε αυτήν την περίπτωση Γ κάτω από το γράφημα της f μπορεί να έχει στήριγμα με άπειρο μήκος Εάν ( y, u ) ~ ( Γg ) θα έχουμε και y ~ g Το ccept reject σχήμα δειγματοληψίας είναι: y ~ f u y~ ( 0, f( y) ) { Ορίζουμε το cceptnce region = u < g( y) { { ( ) P = Pu< g y = Pu< g y y= f d S { S = P u < g y = f d g dt = f d = g d f S t 0 = = S 3 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β ( ) y u < g( y) ~ g Τότε πιθανότητα αποδοχής θα είναι

εφόσον 0 u g f < < < Θα δείξουμε τώρα ότι y ~ g Πράγματι { t S S S S {, < P ( ) P y tu g y P y = {, = P y t u < g y y = f d {, = P t u < g y = f d { { = P t P u < g y = f d { = t P u < g y = f d Εάν S ( S, S) = είναι υποσύνολο του (πιθανώς απείρου μήκους), και επειδή g dt Pu { < g y= =, το προηγούμενο ολοκλήρωμα γίνεται f t = 0 t t g P{ y t = f d = g d = G ( t) f S S Εναλλακτικά με τη χρήση δισδιάστατης ομοιόμορφης Εάν γνωρίζουμε ότι υπάρχει θετική σταθερά > τέτοια ώστε g f, S, και ότι η G είναι η αθροιστική συνάρτηση κατανομής της g, θέτουμε σαν από κοινού πυκνότητα των τμ και Y την ομοιόμορφη στο χωρίο κάτω από την y= f, δηλαδή f Y, ( y, ) C S, y< f = 0, elsewhere S, y< f S y= 0 S f, = C dy d = C dy d = C f d = C από όπου και 33 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

S, y< f fy, (, y) = = ( S, y< f ), 0 αλλού με περιθώριες πυκνότητες: f = f, y dy = dy = f, S f Y, y< f y= 0 fy, y fy ( y ) = = = ( y 0, f ), S f f (, ) ( y< f ) Η πιθανότητα αποδοχής P ( ) είναι: P ( ) = P{ Y < g ( ) = ( y < f, S ) dy d g S y = 0 y< g = dy d, εφόσον g f, για S = g d = S { Ενώ G P Y g = < εφόσον { {, < PY< g P Y g P Y < g = = f u, v dudv gu { u= v= 0 u= u v< gu Y, = ( v < f ( u), u S ) dv du = g u du = G επειδή g( u) f( u), για u S Χρησιμοποιώντας την δισδιάστατη ομοιόμορφη έχουμε ότι: Όταν g < f, S 34 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

~ f = f < y ~ fy ( ) = ( 0, f ) ( y g ) ~ g Παρατήρηση : αντικαθιστώντας y και y u παίρνουμε το σχήμα δειγματοληψίας y ~ f ( ) u y~ 0, f y y u< g y ~ g Παρατήρηση : Παρατηρήστε ότι για λ ( ) g m S S f ( ) = ( ) = ( ) ~ f f S Y g m, S με λ ( S) y ~ f = 0, f = 0, m y d = y ~ ( 0, m) y < g ~ g αντικαθιστώντας Όταν g m, S ( S) u ~ u και y u u ~ 0, m u u < gu ~ g <, έχουμε παίρνουμε το σχήμα δειγματοληψίας AR : 35 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Παρατήρηση 3: fy ( y) = ( y < f, S ) d = ( y f ) d < S = d = ( S { : y f ) λ < { : y f S < Για παράδειγμα, εάν η f είναι μονοκόρυφη θα έχουμε ότι y : f > = ( ( y), ( y) ), όπου ( y ) και ( y ) είναι οι ρίζες της εξίσωσης f ισχύει ότι 0 < y f, έτσι έχουμε fy ( y) = ( ( y) ( y) ) d S ( ( y) ( y) ) y f < < = λ < S ( ) y =, ενώ για το y θα πρέπει να (, ), ( ) και επειδή ( y), ( y ) υποσύνολο του S, f ( y) = ( y) ( y) Y Υπό-συνθήκη πυκνότητα f ( y) Y = S y f > y f > d #============================================================================================ Παράδειγμα Εάν e π g = ( 0,) και f = e για κάθε, τότε g f Αναπαριστούμε τις πυκνότητες g και f σαν διακριτές μίξεις με στηρίγματα 0 και / / g = e < < = e ( < 0) + e / ( 0 < < ), π π π f = e ( < < ) = e ( < 0) + e ( 0 < < ) >0 36 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Για < 0 έχουμε: g ep e = + = ep e f π π π Για 0 < < έχουμε: g ep e = = ep ( + + ) e f π π π επειδή + + > 0 για κάθε πραγματικό e π Έτσι για κάθε, έχουμε g f f <- function() return(05*ep(-bs())) # GDE( p=05, λ=, λ=)=(/)ep(- ) g <- function() return(dnorm(,men=0,sd=)) curve(g(), from=-4, to=4, n=300, lb="", ylb="y", lwd=, col="red", lim=c(-4,4), ylim=c(0,07)) curve((*ep()/pi)^05*f(), from=-4, to=4, n=300, lb="", ylb="y", lwd=, col="blck", lim=c(-4,4), dd=t) #================================================================================== # smple from the generlized Double eponentil distribution GDE(p, λ, λ) # GDE( p=05, λ=λ, λ=λ)=(λ/)ep(-λ ) #---------------------------------------------------------------------------- SmpleDGEp<-function(SS, p=05, lmbd=, lmbd=){ v<-c(:ss) for(i in :SS){ u<-runif();u<-runif() if(u<p){ v[i] <- (/lmbd)*log(u) else{ v[i] <-(-/lmbd)*log(u) 37 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

return(v) ## The density of the generlized Double eponentil distribution #------------------------------------------------------------------ GDEP<-function(, p=05, lmbd=, lmbd=){ v <- c() for(i in :length()) { if([i] < 0) brnch <- p*lmbd*ep(lmbd*[i]) else brnch <- (-p)*lmbd*ep(-lmbd*[i]) v <- ppend(v, brnch) return(v) setseed() v <- SmpleDGEp(SS=000, p=05, lmbd=, lmbd=) hist(v, breks=00, freq=false, ylim=c(0, 06), lim=c(-6, 6), min="ss=0000, De(05,, )", col="red") curve(gdep(,p=05,lmbd=,lmbd=), from=-6,to=6, col="blue", lwd=, dd=true) #=============================================================================== # Smple from the unit norml distribution N(0,) using GDE(05,,) #------------------------------------------------------------------------------- # Define g s the unit norml distribution N(0,) #--------------------------------------------------------- g <- function() return(dnorm(,men=0,sd=)) # Smple from the unit norml distribution N(0,) using # the Double Eponentil distribution #--------------------------------------------------------- smpleunitnorml <- function(ss){ v<-c(:ss) for(i in :SS){ repet{ y <- SmpleDGEp(SS=, p=05, lmbd=, lmbd=) #ct("y=",y,"\n") uprime <- (*ep()/pi)^05*gdep(y,p=05,lmbd=,lmbd=)*runif() if (uprime < g(y)) brek v[i] <- y return(v) 38 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

setseed() v<-smpleunitnorml(5000) hist(v, breks=50, freq=false, ylim=c(0, 06), lim=c(-6, 6)) curve(g(), from=-6,to=6, col="blue", lwd=, dd=true) #================================================================================== Το σχήμα δειγματοληψίας ccept-reject για συνάρτηση μάζας πιθανότητας Εάν και Y διακριτές τ μ με κοινό στήριγμα το S = SY = 0, και συναρτήσεις μάζας πιθανότητας p ( ) = P{ = και p( ) = PY { =, αντιστοίχως, τότε ισχύει Y ( Y ) y ~ py y < p y ~ p y~ 0, p y { Το ενδεχόμενο = < p ( Y) αποδοχής έχει πιθανότητα { { ( ) { ( y) { P = P < p Y = P < p Y Y = P < p Y Y = y p y Y y 0 p du = P{ < p ( y) Y = y py ( y) = py ( y) = p ( y) = y 0 y p 0 u 0 Y y y = 0 ενώ 39 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

{ { { { {, Y {, Y PY t < p Y = PY t, < p Y = PY t, < p Y Y = PY t< p Y Y= y p y = P y t< p y Y= y p y y 0 y 0 p du = P{ < p ( y) Y = y py ( y) = py ( y) = p ( y) = P{ t y t y t p u 0 Y ( y = ) y t Δηλαδή έχουμε ότι { < = { οπότε και < PY t p Y P t ( y) Y p Y = Accept-Reject με άγνωστη σταθερά κανονικοποίησης Δειγματοληψία από την πυκνότητα g με ccept reject, όταν το στήριγμα S της πυκνότητας g δεν έχει γενικά πεπερασμένο μήκος, και η σταθερά κανονικοποίησης της g είναι άγνωστη Έστω ότι,, και g C g g g f S =, g για κάποια γενικά άγνωστη θετική σταθερά C Όπου g g d C =, και C g g S Το ολοκλήρωμα S διάσταση του είναι μεγάλη) Τότε g d μπορεί να είναι δύσκολο να υπολογιστεί (ειδικότερα όταν η ( ) = ( ) ~ f f y ~ fy = 0, f y < g ~ g AR3 ( ) Απόδειξη Θέτουμε Y, (, ), όπου g f ) από όπου και f y y< f S (όπως και στην προηγούμενη περίπτωση S,0< y< f fy, (, y) = ( 0 < y< f, S) =, 0 αλλού 40 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

με f 0,,, f = ( < y < f S ) dy = dy = f S f Y ( y ) y y= 0 = ( 0 < y< f, S) f = ( 0 < y< f ) ( S) = ( y 0, f ), S f Η πιθανότητα αποδοχής είναι: P{ Y < g ( ) = ( 0 < y < f, S ) dy d g y< g = dy d = = C S y= 0 S Έτσι τελικά παίρνουμε PY { < g = C g g d, εφόσον g f g, για S Δηλαδή σε αυτή την περίπτωση δεν γνωρίζουμε ακριβώς την πιθανότητα αποδοχής Γνωρίζουμε όμως ότι PY { < g { gu g u= v= 0 {, < PY< g P Y g P Y < g = { = C ( 0 < v < f ( u), u S ) dv du u= g, εφόσον g( u) f( u) = C g u du = g u du = G u= που δίνει το σχήμα δειγματοληψίας ( AR 3), για u S, 4 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Δειγματοληψία με mjoriztion Θέλουμε να κάνουμε δειγματοληψία από την πυκνότητα ισχύει g( ) g < f με f ( ) πυκνότητα (που δίνει > ) Ισοδύναμα θέσουμε h = g f, έχουμε εκφράσει την πυκνότητα σαν: g = h f για > και κάποια συνάρτηση h g και για κάθε S 0< g f < Εάν 0< <, S Πρόταση Εάν για την πυκνότητα g( ) ισχύει g < f με f πυκνότητα, για S, όπου S το κοινό στήριγμα των πυκνοτήτων g και f Τότε ισοδύναμα έχουμε ότι g = h f με h σχήμα δειγματοληψίας 0< < για κάθε S και h ~ f y ~ ( 0, ) ~ g AR4 = { y < h ( ) = g f, που οδηγεί στο Πράγματι, εάν ορίσουμε την από κοινού f Y, f, 0 < y <, S fy, ( y, ) = f ( y 0,) =, 0, elsewhere οι τμ και Y είναι ανεξάρτητες και h = { < = ( ) επειδή h P P Y h f dy d S y= 0 f h d g d S S = = = 0< < 4 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Θέτοντας σαν αθροιστική συνάρτηση κατανομής της g την G, δεν είναι δύσκολο να δείξουμε ότι Πράγματι {, { G = P Y < h < = { < = P Y h P Y h f s dt ds = g s ds = g s ds = G s= s= hs s= t= 0 { Δηλαδή έχουμε Y < h ~ g με πιθανότητα αποδοχής PY< h = Πρόταση (mjoriztion με άγνωστη σταθερά κανονικοποίησης) Εάν για την πυκνότητα g( ) ισχύει g g < f με f πυκνότητα, για S, όπου S το κοινό στήριγμα των πυκνοτήτων g και f Τότε ισοδύναμα έχουμε ότι g = h f με 0< h < για κάθε S g και h =, που οδηγεί στο f σχήμα δειγματοληψίας ~ f y ~ ( 0, ) ~ g AR5 = { y < h ( ) Πράγματι εάν ορίσουμε την από κοινού f Y, f, 0 < y <, S fy, ( y, ) = f ( y 0,) =, 0, elsewhere οι τμ και y είναι ανεξάρτητες και h = { < = ( ) επειδή h P P Y h f dy d S y= 0 0< < 43 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

= f h d = g d = C S g S Θέτοντας σαν αθροιστική συνάρτηση κατανομής της g την G, δεν είναι δύσκολο να δείξουμε ότι Πράγματι {, { G = P Y < h < = { < = P Y h P Y h f s dt ds g g s= s= s= hs s= t= 0 = C g s ds = C g s ds = g s ds = G Δηλαδή έχουμε Y < h ~ g με πιθανότητα αποδοχής { < = g PY h C Adptive Rejection Smpling (με mjoriztion και άγνωστη σταθερά κανονικοποίησης) Έχουμε διαπιστώσει ότι εάν θέλουμε να κάνουμε δειγματοληψία από την ισχύει: < με g g f f πυκνότητα, για S, όπου S το κοινό στήριγμα των πυκνοτήτων g και f, τότε θέτοντας g = h f με 0 < h <, S και h ( ) παίρνουμε το γνωστό σχήμα δειγματοληψίας ( AR 5) ~ f y ~ ( 0, ) ( y < h ) ~ g 44 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β g =, f, με πιθανότητα αποδοχής Όταν η g είναι logconcve δηλαδή έχουμε ότι η log g ισοδύναμα ότι g( ) και { < = g P y h C είναι μονοκόρυφη, ή

= log g και 0, r r < S, μπορούμε να προσδιορίσουμε κατά τόπους γραμμική (piecewise liner) συνάρτηση u (στο log spce) με την ιδιότητα: k k ( ) ( k) r = log g u, S g = ep r ep u, S, ή ισοδύναμα ότι η mjorizing συνάρτηση είναι g = ep( r ) ( Ckep ( uk )), S C uk f ( k ) με ep C = u t dt, uk t S τότε ( r ) g ep h = = = ep( r uk ) f ep u ( k ) Από τα προηγούμενα και το σχήμα δειγματοληψίας ( AR 5) παίρνουμε ( ) k k < ~ Cu ep u, y ~ 0, ( y ep ( r uk )) ~ g με πιθανότητα αποδοχής ανάλογη του { Cu k P y< h = C g = Cu k C g C u k εφόσον Adptive Rejection Smpling (with mjoriztion, minoriztion nd unknown normlizing constnt) Εάν η g = ep( r ) είναι πολύπλοκη (για παράδειγμα περιέχει την μεταβλητή της σε gmm συνάρτηση) για να επιταχύνουμε την διαδικασία μπορούμε να ορίσουμε και l στο log spce, δηλαδή minorizing συνάρτηση k k l r = log g u, S k ( k) k ep l g ep u, S Τότε θα έχουμε 45 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

ep ( l k ) g ( k) ( k) ( k ) ep l ep l g = = ep( lk uk ) = h = r uk f ep u f ( k) ( k ) ep l ep u y < y < f f ep Δηλαδή το ενδεχόμενο αποδοχής έχει σαν υποσύνολο του το ενδεχόμενο ep( l k ) y < που σημαίνει ότι εάν ~ Cu ep( u ) k k και y ~ ( 0,), και ισχύει ότι f ep( l k ) y f εάν ισχύει y h < τότε y ~ g Εάν όμως έχουμε ότι ( l k ) < Στην καταφατική περίπτωση θα έχουμε ~ y απορρίπτεται Το σχήμα δειγματοληψίας με squeeze γίνεται: ( ) k k < ~ Cu ep u y ~ 0, If ( y ep ( lk uk )) then ~ g else if ( y < ep ( r uk )) then ~ g else reject ep y f θα πρέπει να ελέγξουμε y g, ενώ εάν y h Παρατηρήστε ότι η πιθανότητα αποδοχής από τον προκαταρκτικό έλεγχο, είναι ( k) ( k ) ep l ep l P{ y < ep( lk uk ) = P y < = P y < ep( uk ) f ep ( lk ) f C = f dy d = ep( lk ) d = C uk S y= 0 S lk το 46 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Κατασκευή της enveloping συνάρτησης u ( ) Έστω {,,,, k 0 k k+ k S = S με i < i + για 0 i k και 0 = inf S, και = k+ sup S {(,log ( g( ))), (,log ( g( ) )),, (,log ( g( ))) { P,,, P P = = k k k k Τότε = ( ; ) ( 0, <, ) + ( ; ) (, <,3 ) + + ( ; ) (, <, + ) u T T T k i i i ii ( ; k ) ( k, k k, k) ( ; k) ( k, k k, k+ ) + + T < + T < k i= ( ; i) ( i, i ii, + ) = T < όπου T = r+ ( ) r με r = r( ) και ; i i i i i i r = r i r Εάν η άγνωστη πυκνότητα έχει στήριγμα το, τότε 0, = είναι η συντεταγμένη ri r r της τομής της ( l ) με τον άξονα όταν > 0 και r 0, = 0 όταν 0 r 0, r r, > 0 ri r i = r 0, < 0 ri i i 47 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Παράδειγμα Να γίνει δειγματοληψία με mjoriztion από την πυκνότητα g = Be( 4,3) 3 Εδώ έχουμε g = 60 ( ) ( 0 < < ), S = ( 0,) και g = 60 ( 5 8+ 3) = 60 ( 06)( ) Επειδή g ( 06) = 0 με m g = g( 06) S Έτσι η g έχει την mjoriztion αναπαράσταση: ( 4,3) ( 06) Be g = g( 06) 0 < < g με Be( 4,3) < < για κάθε ( 0,) g ( 06) 0 Be( 4,3) με = g( 06) >, h = και f ( 0,) g ( 06) Το σχήμα δειγματοληψίας λοιπόν είναι: = h ~ f = 0, y ~ 0, ~ g = { y < #R Script για δειγματοληψία με mjoriztion από την bet ( 4,3) mydensity <- function() return(60*^3*(-)^) g 06 < 0 έχουμε, smpledensity <- function(ss=00) { smple <- NULL for(i in :SS) { repet { y<-runif(); u<-runif() if(u <= mydensity(y)/mydensity(06)) { brek smple <- c(smple, y) return(smple) 48 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

# Eperiment w <- smpledensity(ss=000) hist(w, freq=false, breks=30) curve(mydensity(), dd=true, lim=c(0, ), col="red") Άσκηση Να γίνει δειγματοληψία με mjoriztion από την (για p > και q > το mode της bet ορίζεται) Be( p, q) g = όταν p > και q > Δεν είναι δύσκολο να δείξουμε ότι το mode της g υπάρχει και είναι όταν p > και q > Τότε η f έχει την mjoriztion αναπαράσταση Mode = p p+ q, (, ) Be p q g = g( Mode ) 0< < g Mode ισοδύναμα με g = h f με = >, h g Mode Be( p, q) < < για κάθε ( 0,) g( ) 0 Mode Be( p, q) = και f ( 0,) g( ) Mode = Η δειγματοληψία γίνεται ακριβώς όπως και στο προηγούμενο παράδειγμα Όταν 0< p < και 0< q <, για να κάνουμε δειγματοληψία από την bet κατανομή, μπορούμε να χρησιμοποιήσουμε (όπως θα δούμε στα επόμενα) την gmm κατανομή Στο επόμενο παράδειγμα δείχνουμε πώς να κάνουμε δειγματοληψία από την gmm με mjoriztion, ή 49 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Δειγματοληψία από την gmm κατανομή Να γίνει AR δειγματοληψία από την οικογένεια πυκνοτήτων f = G ( shpe =, rte = λ ) όπου scle = rte Πρώτα θα κάνουμε δειγματοληψία από την frctionl gmm κατανομή ~ G ( shpe = α, rte = ) με 0< α = { = < Όπου η συνάρτηση floor στο, δηλαδή α = { είναι το δεκαδικό κομμάτι του α Τότε g e για 0< < έχουμε:, και παρατηρούμε ότι επειδή: α α α e < sup e =, 0< < και για και επειδή 0< α < έχουμε: η πυκνότητα g = G ( α,) φράσσεται με τον εξής τρόπο: α,0 α < < g = e <, Γ( α) Γ( α) e, α = 0 ( < < ) + e ( ) Γ ( α ) Θέλουμε να βρούμε πυκνότητα f, τέτοια ώστε 0 ( < < ) + ( ) Γ α f e ( α ), α α e e Εάν λοιπόν K > 0 είναι η σταθερά κανονικοποίησης θα έχουμε: = 0 ( < < ) + ( ) Γ, α f K e ή ισοδύναμα ( α ) α { 0 K = < < + e d Γ α +, από όπου και ( α) αe Γ K = α + e, που δίνει α e f e α + e α = 0 ( < < ) + ( ) 50 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Για το αντίστοιχο mjoriztion σχήμα δειγματοληψίας έχουμε f < ch, ή ότι: f = cg h για κάθε S ( 0, ) = όπου c = K α e h = = e 0< < + α 0 e ( < < ) + ( ) α με g 0< < και α e f e α + e α = 0 ( < < ) + ( ) από όπου, ~ f y < h ~ g y ~ ( 0,) Για να κάνουμε δειγματοληψία από την πυκνότητα f, την γράφουμε σαν μίξη των πυκνοτήτων: α α ( α ) f = 0 < < = Be,, f = e Ep, e α α + e α + e δηλαδή f = f + f α e, με αθροιστική συνάρτηση κατανομής e α e F = f ( u) du + f ( u) du F F α + e + = α α + e + α + e 0 0 e α 0< < = α + e, e α + ( e ) α + e α + e όπου 0 0 α F = 0< < και F 0 = e, ενώ έχουμε ότι 5 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

/ = και F ( y) ( y) F y y α = log Τελικά λοιπόν παίρνουμε το σχήμα: e α y ~ f f f α + e α + e u ~ ( 0,) ( ) = ( ) + ( ) α ( α ) y < e 0 < < + ~ G, # smple (eplicit looping) from gmm(shpe=, rte=) when 0<< gmmfrctionl <- function(ss=000, =05) { smple <- NULL for(i in :SS){ while(true){ u <- runif(3); e <- ep() if(u[] < e/(+e)) =u[]^(/) else =-log(u[]) if((( < ) & u[3] < ep(-)) (( >= ) & u[3] < ^(-))) brek smple <- c(smple, ) return(v) Για την γενική περίπτωση, δηλαδή για να κάνουμε δειγματοληψία από την πυκνότητα g = G (, λ ) για γενικά > 0 και λ > 0, παρατηρούμε ότι εάν n= και α = n τότε ( α ) = λ ( αλ) ~ G, Y ~ G, n ~, iid Y + Z G + n Zi ~ G (, λ) = Ep ( λ) Z = Zi ~ G ( n, λ) i= # Smple SS vector of Ep ( λ ) rndom devites ( α λ) 5 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

myepsmple <- function(ss=00, lmbd=) return((-/lmbd)*log(runif(ss))) # Smple from gmm(shpe=, rte=b) for generl >0, b>0 mygmmsmple <- function(ss=00, =5, lmbd=) { n <- floor(); v <- gmmfrctionl(ss=ss, =-n)/lmbd if(n==0) return(v) else { w<-rep(0, SS) for(i in :n) w <- w + myepsmple (SS=SS, lmbd=lmbd) return(v + w) # Eperiment I w <- mygmmsmple(ss=0000, =5, lmbd=5) hist(w, breks=00, freq=false, ylim=c(0, ), lim=c(0, 5)) curve(dgmm(, shpe=5, scle=/5), from=0, to=5, col="blue", lwd=, dd=true) # Eperiment II 53 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

w <- mygmmsmple(ss=0000, =05, lmbd=05) hist(w, breks=00, freq=false, ylim=c(0, 3), lim=c(0, 4)) curve(dgmm(, shpe=05, scle=/05), from=0, to=4, col="blue", lwd=, dd=true) Δειγματοληψία από την bet κατανομή g bet ( shpe, shpe ) > 0 και > 0 με την χρήση της gmm κατανομής ind Θα δείξουμε ότι εάν i ~ ( i, ) G b για i =, τότε = = = για γενικά u = + ~ G +, b v = ~ Be(, ) + και τα u και v είναι ανεξάρτητα Πράγματι T u = + = uv v = = u( v) + : T : ενώ 0 < u = + < 0< v = < + v u J ct u e e e v u ( ) ( b )( b ) b+ = = π, = από όπου και 54 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

bu ( + bu ) ( ) f u, v uv u v e Jc T = u e v v (, ) (, ) G u + b Be v Δηλαδή για να πάρουμε ένα δείγμα από την ~ (, ) > 0 αρκεί να προσομοιώσουμε ανεξάρτητα ~ G (, b ) και ~, συνήθως θέτουμε το rte + b = ) Τότε v = Be( ) v Be για οποιοδήποτε > 0 και ~, G b, (όπου Δειγματοληψία από (, ) Αρχικά θέτουμε g N( 0,) N µσ με mjoriztion = και αναπαριστούμε την f σαν διακριτή μίξη g e e e π π π / / = < < = ( 0) + / ( > 0) / / = e ( 0) + e ( > 0), π π + ( 0,) ( 0,) + όπου ( 0,) η τυπική hlf norml πυκνότητα και ( 0,) norml κατανομή Παρατηρούμε ότι g e e π π / = ( 0) + / ( > 0) e e e + e > π π ( 0) ( 0) εφόσον / e / + / e e e e ( + ) 0, όταν 0, π π / e / + / e e e e ( ) 0, όταν > 0 π π Ισοδύναμα έχουμε ότι 55 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β η τυπική αρνητική hlf

e e g = N ( 0,) e = h, όπου π π e 355 π με g = e = GDe,,, όπου,, 0 GDe p p e λ λ λ λ = λ + p λ e > 0 Έχουμε ότι h / / e ( 0) + e ( > 0) g π π = = cf e e ( 0) + e ( > 0) π / / e e = + / + / e e ( 0) + ( 0) ( 0) + ( 0) ( 0) ( 0) / / /+ / = e + e ( + ) ( ) ( ) = e 0 + e 0 = e π = = 0760 Ουσιαστικά λοιπόν έχουμε την e mjoriztion αναπαράσταση για την τυπική κανονική: με πιθανότητα αποδοχής P ( ) ( ) 0, = e/ π e e / h f N Το σχήμα δειγματοληψίας λοιπόν είναι: ~ GDe,, y ~ ( 0,) = y < ep ( ) ~ 0, Εάν έχουμε δείγμα y από την N ( 0,), το μετατρέπουμε σε δείγμα από την N ( µσ, ) μέσω του μετασχηματισμού z = µ + σ y ~ N( µσ, ) και συνολικά έχουμε: 56 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

~ De,, y ~ ( 0, ) µ + σ ~ N( µσ, ) = y < ep ( ) # smple from the generlized Double eponentil distribution De(05,, ) SmpleDe <- function(ss=0000, p=05, lmbd=, lmbd=) { v <- NULL for(i in :SS) { u<-runif(); u<-runif() if(u<p) v <- c(v, (/lmbd)*log(u)) else v <- c(v, (-/lmbd)*log(u)) return(v) # Define the generlized Double eponentil density De(p,l,l) DEP <- function(, p=05, lmbd=, lmbd=){ v <- c() for(i in :length()) { if([i]<0) brnch <- p*lmbd*ep(lmbd*[i]) else brnch <- (-p)*lmbd*ep(-lmbd*[i]) v <- c(v, brnch) return(v) # Eperiment 57 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

v <- SmpleDe(SS=5000) <- 04; h <- 05 L <- 0; mybreks <- seq(from = -L, to = L, by = ) hist(v, breks=mybreks, freq=false, ylim=c(0, h), min="gde(05,,):ss=5000", col="gry93", lb="") curve(dep(), lim=c(-l,l), col=, lwd=5, dd=true) # Smple from the stndrd norml N(0,) by mjoriztion SmpleStdNorml <- function(ss=00){ smple <- c() for(i in :SS){ repet { y <- SmpleDe(SS=, p=05, lmbd=, lmbd=) u<-runif() if(u <= ep(-05*(bs(y)-)^)) brek smple <- c(smple, y) 58 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

return(smple) # Eperiment v <- SmpleStdNorml(SS=5000) <- 03; h <- 05 L <- 0; mybreks <- seq(from = -L, to = L, by = ) hist(v, breks=mybreks, freq=false, ylim=c(0, h), min="n(0,):ss=5000", col="gry93", lb="") curve(dnorm(), lim=c(-l,l), col=, lwd=5, dd=true) 59 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Δειγματοληψία από ( 0,) με την πολική μέθοδο (μετασχηματισμός των Bo Muller) iid, 0, ~ ( 0, ) ~ ϑ π = rcosϑ r ~ Ep r ~ r, = rsinϑ iid Εάν υποθέσουμε ότι, ~ ( 0,) y N έχουμε ότι fy, ( y, ) = ( 0, ) ( y 0,) = ep ( + y) και θέτοντας π = rcosϑ : = sinϑ, 0 < r <,0 < ϑ < π T y r παίρνουμε (, ϑ) Y(, ) f r f y Jc T R, Θ =, = cosϑ r sinϑ fy, ( rcos ϑ, rsin ϑ) sinϑ r cosϑ ( ϑ π) R Θ ( ϑ) = rep r / r > 0 0 < < = f r f, π και επειδή ( λ ρ ) λρ ( λ ) ρ ( λr) r, = r e r > 0 έχουμε fr ( r) = rep ( r / ) ( r > 0 ) = r,, fθ ( ϑ) = ( 0 < ϑ < π) = ( ϑ 0, π) π ρ r ~ fr r ~ Ep Έχουμε ότι 60 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Θέτοντας y T( r) r d fy y = fr y y = e = Ep y dy y/ = = παίρνουμε Το σχήμα δειγματοληψίας λοιπόν γίνεται: u ~ ( 0, ) r ~ log u = Ep r ~ log u, u ~ 0, ~ 0,, ϑ πu = ( π) και το ανεξάρτητο ζεύγος u ~ ( 0, ) και ~ ( 0,) ~ N ( 0, ) και ~ ( 0,) u, δίνει το ανεξάρτητο ζεύγος N σύμφωνα με τον μετασχηματισμό: ( π ) ( π ) = log u cos u ~ 0, = log u sin u ~ 0, # Define g s the unit norml distribution N(0,) #--------------------------------------------------------- g <- function() return(dnorm(,men=0,sd=)) #The Polr method (Bo-Muller) Ver #-------------------------------------------------- smplenorml<-function(mu=0, sigm=, SS=000){ smple<-c(:ss) for(i in :(SS/)){ thet <- runif() u <- runif() z <- -*log(u) <- z^(05)*cos(*pi*thet) <- z^(05)*sin(*pi*thet) smple[*i-] <- mu+sigm* smple[*i] <- mu+sigm* return(smple) setseed(0) inf <- -4; sup <- 4 w<-smplenorml(sigm=, SS=0000) w <- w[(w>inf) & (w<sup)] w <- w[(w<inf) (w>sup)] # equivlent to: w <- c(w[w<=inf],w[w>=sup]) mybreks <- seq(from=inf, to=sup, by=(sup-inf)/00) hist(w, freq=false, breks=mybreks) curve(dnorm(,men=0,sd=), dd=t, col="red") > w [] -40760 4889 6 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Προσεγγιστική δειγματοληψία από την τυπική κανονική κάνοντας χρήση του Κεντρικού Οριακού Θεωρήματος n Γνωρίζουμε ότι Z = Z ~ ( 0,) όπου S n n i= i n S σ nµ n n = και iid f ( ) για Vr = Vr = σ i iid i ~ i με = = µ και Θέτοντας i ~ ( 0,) έχουμε Z = = S S i 6 0, # Define g s the unit norml distribution N(0,) #--------------------------------------------------------- g <- function() return(dnorm(,men=0,sd=)) smpleunitnorml <- function(ss){ Ζ<-c(:SS) for(i in :SS) Ζ[i]=sum(runif())-6 return(ζ) setseed() v<-smpleunitnorml(5000) hist(v, breks=50, freq=false, ylim=c(0, 06), lim=c(-6, 6)) curve(g(), from=-6,to=6, col="blue", lwd=, dd=true) 6 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Δειγματοληψία σπουδαιότητας (importnce smpling) Αυτή η μέθοδος υπολογισμού ολοκληρωμάτων και πιθανοτήτων γενικεύει την μέθοδο Monte Crlo κατά την έννοια του ότι μπορούμε να χρησιμοποιήσουμε στη θέση της ομοιόμορφης κατανομής, οιαδήποτε κατανομή που ικανοποιεί συγκεκριμένες συνθήκες Για παράδειγμα εάν θέλουμε να υπολογίσουμε το ολοκλήρωμα I = g d και f είναι A η προτεινόμενη πυκνότητα (proposl density) με στήριγμα το A, θα έχουμε: g g I = g d = f d, ~ f A = A f f Δηλαδή εάν γνωρίζουμε τρόπο δειγματοληψίας για την f και μπορούμε να παράγουμε iid ~ δείγμα i f, i n τότε μια εκτίμηση I ˆf, n για το I θα είναι, σύμφωνα με τον ισχυρό νόμο των μεγάλων αριθμών i= ( i ) n ˆ g iid I f, n=, i ~ f, i n n f Πιο γενικά, θα πρέπει, το σύνολο θετικότητας της g να είναι υποσύνολο του στηρίγματος της πυκνότητας f A A, όπου w A I = g d = w f d = w P d i = g f Παράδειγμα 63 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Εάν Z ~ N ( 0,) θέλουμε να υπολογίσουμε την πιθανότητα { 3 ( 0,) Μια απλοϊκή μέθοδος θα ήταν η εξής I = z > 3 N z 0, dz = z > 3 PZ dz = Z > 3 έτσι θα είχαμε την εκτίμηση ˆ I = z > 3, z N 0, n iid ~ με P{ I ˆ n I n i i n i = lim = = n I = P Z > = N z dz Μια λύση χρησιμοποιώντας importnce smpling και proposl density ~ N( 4,) θα ήταν: ( 0,) ( 4,) N z I = ( z > 3 ) N ( z 4,) dz = ( z > 3) w( z) P dz N z όπου w( z) Έτσι ( 0,) ( 4,) N z = = ep( 8 4z) N z { n I = > w = > w N n n iid { ( 3) lim { ( i 3 ) ( i), i ~ ( 4,) i= z= 3 Τα R Scripts είναι: ImportnceSmpling <- function(mu=4, sigm=, SS=000){ <- rnorm(ss, men=mu, sd=sigm) <- [>3] w <- dnorm(, men=0, sd=)/dnorm(, men=mu, sd=sigm) return(sum(w)/ss) EstimtorDistribution <- function(ssestimtor=300, mu=4, sigm=, SSImportnce=000){ 64 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

smple <- c() for(i in :SSEstimtor) smple <- c(smple, ImportnceSmpling(mu=mu, sigm=sigm, SS=SSImportnce)) return(smple) w<-estimtordistribution() hist(w, freq=false, breks=0, lim=c(0,0003)) men(w);vr(w) [] 000348459 [] 8988e-09 Στο προηγούμενο R script έχουμε χρησιμοποιήσει την ικανότητα της R για πράξεις με διανύσματα Εναλλακτικά η συνάρτηση ImportnceSmpling() θα μπορούσε να δοθεί με την πιο παραδοσιακή μορφή ImportnceSmpling<-function(SS=000){ sum<-0 for(i in :SS){ 65 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

<-rnorm(, men=4, sd=) if(>3) sum<sum+ep(8-4*) return(sum/ss) Παράδειγμα Δίνεται ότι Y ~ f με f ( y) N( y 0, λ ) ( 3 y 4) < < Να βρεθεί εκτίμηση της [ Y ] Πρώτα εκτιμούμε την σταθερά c κανονικοποίησης της f = ( 0, λ ) ( 3 < < 4) = ( 3 < < 4 ) ( 0, λ ) f y c N y y c y N y d y Χρησιμοποιώντας σαν proposl density ~ ( 35, ) ( λ ) c = 3 < y < 4 w y N y 35, dy n = lim 3 < < 4, ~ 35, n n i= iid ( yi ) w( yi) yi N( λ ) Y N λ, έχουμε και w( yi ) ( i 0, λ ) ( i 35, λ ) N y = N y Ενώ για την [ Y ] έχουμε: [ ] = ( 3 < < 4 ) ( 0, λ ) = ( 3 < < 4 ) ( 35, λ ) Y c y y N y dy c y y w y N y dy ( < y < ) yw( y) 3 4 = c < y < yw y = y N n ( λ ) n i i i i= iid lim ( 3 i 4) i ( i) lim, i ~ 35, n n n n i= 3 ( < yi < 4) w( yi) i= 66 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

Παράδειγμα Εάν f Y ~ N ( 0,) και ( y) Y = T = σ + µ, δείξτε ότι ep ( y ) µ, y > µ 0, otherwise = σ π σ Επίσης δείξτε ότι σε αυτή περίπτωση έχουμε f ( y) N( y µσ, ) ( y µ ) Y > Δηλαδή η τμ Y είναι η περικομμένη (truncted) κανονική κατανομή στο διάστημα ( µ, ) y = T = σ + µ, έχουμε Επειδή, έτσι παίρνουμε: y µ > = = σ y µ < 0 = = σ 0 + T+ y T y, και y = σ + µ > µ, d d fy ( y) = f T ( y) T y + f T y T y dy dy ( + ) + ( ) y µ y µ = N 0, + N 0, σ σ σ σ ep y µ y µ, y > µ N 0, σ σ 0, otherwise = = σ π σ Έστω ότι f ( y) N( y µσ, ) ( y µ ) Y Y >, τότε υπάρχει C > 0, τέτοιο ώστε ( µσ, ) ( µ ) f y = CN y y> Ολοκληρώνοντας στο έχουμε: ( µσ ) ( µ ) = f y dy = C N y, y > dy Y C = C N ( y µσ, ) dy = C =, από όπου και y= µ 67 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β

ep y µ, y > µ fy y = N y µσ, ( y > µ ) = σ π σ 0, otherwise 68 Σπύρος Ι Χατζησπύρος Υπολογιστική Στατιστική μέρος Β