1 Ο Ισχυρός Νόμος των Μεγάλων Αριθμών Στο κεφάλαιο αυτό παρουσιάζουμε ένα από τα σημαντικότερα αποτελέσματα της Θεωρίας Πιθανοτήτων, τον ισχυρό νόμο των μεγάλων αριθμών. Η διατύπωση που θα αποδείξουμε δεν είναι η ισχυρότερη μορφή του νόμου, όμως η απόδειξή της είναι ευκολότερη τεχνικά και διατηρεί αρκετά από τα στοιχεία της απόδειξης της ισχυρής μορφής. 1.1 Το θεώρημα Θεώρημα 1.1 (Ισχυρός Νόμος των Μεγάλων Αριθμών). Εστω (X ) 1 ανεξάρτητες και ισόνομες τυχαίες μεταβλητές στον (Ω, F, P) με τιμές στο R έτσι ώστε E ( X 1) <. Θέτουμε µ = E(X1 ) και S = k=1 X k για κάθε 1. Τότε S = µ με πιθανότητα 1. Απόδειξη. Εστω σ = Var(X 1 ). Πρώτα θα αποδείξουμε το ζητούμενο για (X ) N με τιμές στο [0, ]. Για 1, θέτουμε Y = S µ. Τότε E(Y ) = 1 E(S ) µ = 1 E(X 1) µ = 0, και E ( ( Y) = Var(Y S ) ) = Var = 1 Var(S ). Ομως Var(S ) = Var(X 1 ) εφόσον οι (X ) 1 είναι ανεξάρτητες. Επομένως, Ετσι, για την υπακολουθία (Y ) 1, έχουμε ότι E ( Y ) σ =. { } E Y = =1 =1 σ <. Αρα, με πιθανότητα 1, =1 Y <, συνεπώς Y = 0. Τώρα, από το Y = 0, θέλουμε να περάσουμε στο Y = 0. Εστω k 1. Θέτουμε (k) = [ k]. Τότε S (k) ((k) + 1) S k k S ((k)+1) (k) εφόσον (k) k (k) + 1 και η S είναι άθροισμα θετικών όρων. Ομως, για, με πιθανότητα 1, S (k) ((k) + 1) = S ( (k) ) (k) µ (k) (k) + 1 7
1.1 Το θεώρημα 73 και S ((k)+1) = S ( (k) + 1 ) ((k)+1) µ. (k) ((k) + 1) (k) S k Αρα, με πιθανότητα 1, έχουμε ότι k k = µ. Στην περίπτωση που οι (X ) 1 παίρνουν τιμές στο [, ], έχουμε S = X 1 + X +... + X = X+ 1 + X+ +... + X+ X 1 + X +... + X Οι (X + ) N, όπως και οι (X ) N, είναι ανεξάρτητες και ισόνομες και E ( (X 1 + )) <, E ( (X1 )) < εφόσον (X 1 + ) X1, (X 1 ) X1. Από τα προηγούμενα, έχουμε ότι X 1 + + X+ +... + X+ και X1 + X +... + X με πιθανότητα 1. Συνεπώς, με πιθανότητα 1, = E(X + 1 ), = E(X + 1 ). S = E(X+ 1 ) E(X 1 ) = µ. Το συμπέρασμα του θεωρήματος ισχύει και αν αντί της E(X1 ) < υποθέσουμε ότι E X 1 <, δηλαδή κάτι λιγότερο. Αυτή είναι η γενική μορφή του νόμου των μεγάλων αριθμών και στο εξής θα τον θεωρούμε δεδομένο με αυτή, την ισχυρότερη μορφή. Στην Ασκηση 1.3 διατυπώνεται ένα είδος αντίστροφου του νόμου των μεγάλων αριθμών. Δηλαδή, αν ο μέσος όρος ανεξάρτητων και ισόνομων τυχαίων μεταβλητών συγκλίνει με πιθανότητα 1 σε πεπερασμένο αριθμό, τότε αναγκαστικά E X 1 <. Αρα η υπόθεση E X 1 < στο θεώρημα είναι απαραίτητη για την ισχύ του συμπεράσματος. Επίσης, στην Ασκηση 1. δείχνουμε ότι το συμπέρασμα του νόμου των μεγάλων αριθμών ισχύει ακόμα και όταν η μέση τιμή µ := E(X 1 ) είναι ή. Αρα το συμπέρασμα ισχύει πάντοτε όταν η E(X 1 ) μπορεί να οριστεί. Οταν η E(X 1 ) δεν μπορεί να οριστεί, δηλαδή όταν E(X 1 + ) = E(X 1 ) =, τότε ισχύει ακριβώς ένα από τα εξής (i) S (ii) S (iii) S = με πιθανότητα 1. = με πιθανότητα 1. =, S = με πιθανότητα 1. Ποιο από τα σενάρια συμβαίνει εξαρτάται από την κατανομή της X 1 και υπάρχει μάλιστα κριτήριο που το καθορίζει αλλά δεν θα το διατυπώσουμε [δες Erickso (1973)]. Σύμβαση: Αν (X ) 1 είναι ακολουθία τυχαίων μεταβλητών με τιμές στο R, στο εξής θα συμβολίζουμε με S το -οστό μερικό άθροισμά τους. Πόρισμα 1.. (Ο Ασθενής Νόμος των Μεγάλων Αριθμών) Εστω (X ) 1 ανεξάρτητες και ισόνομες τυχαίες μεταβλητές με τιμές στο R έτσι ώστε µ := E ( X 1 ) R. Τότε S = µ κατά πιθανότητα.
74 Ο Ισχυρός Νόμος των Μεγάλων Αριθμών Απόδειξη. Επεται από τον ισχυρό νόμο των μεγάλων αριθμών (ισχυρή μορφή) και το ότι η σχεδόν βέβαιη σύγκλιση συνεπάγεται την κατά πιθανότητα [Θεώρημα 8.(ii))]. Παρατήρηση 1.3 (Η μέθοδος Mote Carlo). Ο νόμος των μεγάλων αριθμών δικαιολογεί την εξής μέθοδο για τον προσεγγιστικό υπολογισμό μέσης τιμής μιας δεδομένης τυχαίας μεταβλητής X. Παράγουμε με κάποιο τρόπο έναν μεγάλο αριθμό ανεξάρτητων πραγματοποιήσεων της τ.μ. X, έστω x 1, x,..., x, και υπολογίζουμε τον μέσο τους όρο (x 1 + x +... + x )/. Αυτός ο μέσος όρος είναι η ζητούμενη προσέγγιση. Με αυτή τη μέθοδο μπορούμε να βρούμε προσεγγίσεις για οποιαδήποτε ποσότητα μπορεί να παρασταθεί ως μέση τιμή κάποιας τ.μ. Η ποσότητα ενδέχεται να εμφανίζεται φυσιολογικά ως μέση τιμή σε κάποιο πρόβλημα πιθανοτήτων και να μην μπορεί να υπολογιστεί με κλειστό τύπο. Επίσης μπορεί να μην έχει καμία σχέση με πιθανότητες. Για παράδειγμα, για τον αριθμό π έχουμε την αναπαράσταση π = 4 E(1 U +V <1) όπου οι U, V είναι ανεξάρτητες ομοιόμορφες τυχαίες μεταβλητές στο ( 1, 1). Η τ.μ. (U, V) είναι ομοιόμορφη στο τετράγωνο ( 1, 1) ( 1, 1) και η μέθοδος Mote Carlo για την προσέγγιση της E(1 U +V <1) παίρνει πολλές πραγματοποιήσεις της (U, V) και υπολογίζει το ποσοστό αυτών που πέφτουν μέσα στον μοναδιαίο δίσκο. 1. Δύο εφαρμογές Ανανεωτική θεωρία. Εστω (X ) 1 ανεξάρτητες και ισόνομες τυχαίες μεταβλητές με τιμές στο [0, ). Θέτουμε T 0 := 0, T := X 1 + X + + X για κάθε 1. Η ερμηνεία που σκεφτόμαστε για τις ακολουθίες (X ) 1, (T ) 1 είναι η εξής. Για το φωτισμό ενός δωματίου, έχουμε άπειρο πλήθος λαμπών, κάθε μία από τις οποίες έχει τυχαίο χρόνο ζωής. X είναι ο χρόνος ζωής της λάμπας. Τη χρονική στιγμή 0 τοποθετούμε τη λάμπα 1. Μόλις αυτή καεί, τοποθετούμε τη λάμπα και συνεχίζουμε όμοια. T είναι ο χρόνος που καίγεται η λάμπα. Τώρα για t 0, θέτουμε N t := sup{ 0 : T t}. Η τυχαία μεταβλητή N t μετράει πόσες λάμπες κάηκαν κατά το χρονικό διάστημα [0, t]. Εστω ότι µ := E(X 1 ). Αφού κάθε λάμπα ζει περίπου χρόνο µ, για το χρονικό διάστημα [0, t] αναμένουμε να χρειάζονται t/µ λάμπες περίπου. Δηλαδή N t t/µ. Θεώρημα 1.4. Με πιθανότητα 1 ισχύει N t t t Απόδειξη. Από το νόμο των μεγάλων αριθμών, υπάρχει ένα μετρήσιμο σύνολο A Ω με P(A) = 1 ώστε για κάθε ω A να ισχύει T = µ. (1.1) Από τον ορισμό του N t έχουμε T Nt t T Nt +1, και άρα Ισχυρισμος: Για κάθε ω Ω ισχύει N t. = 1 µ. T Nt t T N t +1 = T N t +1 N t + 1. (1.) N t N t N t N t + 1 N t
1. Δύο εφαρμογές 75 Πράγματι, επειδή η N t είναι αύξουσα συνάρτηση του t, αν δεν ισχύει ο ισχυρισμός, τότε η N t θα ήταν φραγμένη. Δηλαδή θα υπάρχει φυσικός l 1 ώστε N t l για κάθε t 0. Αρα X 1 + X + + X l t για κάθε t 0, το οποίο δεν μπορεί να ισχύει γιατί οι X 1, X,.., X l παίρνουν πραγματικές τιμές (και όχι την τιμή ). Για ω A, και χρησιμοποιώντας τον ισχυρισμό και την (1.1), έχουμε T Nt t N t = t T Nt +1 N t + 1 = µ. Αρα για t, η (1.) δίνει t t/n t = µ που είναι το ζητούμενο. Εντροπία. Εστω X διακριτή τυχαία μεταβλητή, S το (αριθμήσιμο) σύνολο τιμών της, και f (x) = P(X = x) η συνάρτηση πιθανότητας της. Εντροπία της X ονομάζουμε τον αριθμό H(X) := f (x) log f (x) (1.3) x S με τη σύμβαση 0 log 0 = 0. Ισχύει H(X) 0 γιατί f (x) [0, 1]. Επίσης, H(X) = E{log f (X)}. Η εντροπία της X εκφράζει το μέγεθος της αβεβαιότητας που έχουμε για την τιμή που θα πάρει η X αν επιχειρήσουμε να παραγάγουμε μια πραγματοποίηση της. Ας πούμε ότι η X παίρνει τιμές στο {x 1, x,..., x k } με αντίστοιχες πιθανότητες p j := P(X = x j ). Αν p 1 = 1 και p = = p k = 0, τότε H(X) = 0, και βέβαια δεν υπάρχει καμία αβεβαιότητα για την πραγματοποίηση της X, θα είναι x 1. Η εντροπία μεγιστοποιείται όταν p 1 = p = = p k = 1/k ( Ασκηση 1.8). Τότε όλα τα ενδεχόμενα είναι το ίδιο πιθανά και η αβεβαιότητα μας μέγιστη. Σε περίπτωση άνισων πιθανοτήτων, η αβεβαιότητα είναι μικρότερη γιατί περιμένουμε η X να πάρει μία από τις τιμές που έχουν μεγαλύτερη πιθανότητα. Τον Ορισμό (1.3) υπαγορεύει ένας υπολογισμός που θα δούμε αμέσως τώρα. Ο ίδιος υπολογισμός δίνει και την εμπειρική σημασία της εντροπίας. Εστω (X k ) k 1 ακολουθία ανεξάρτητων και ισόνομων διακριτών τυχαίων μεταβλητών, καθεμία ισόνομη με τη X. Για 1 σταθερό και δεδομένα x 1, x,..., x S, υπολογίζουμε την πιθανότητα οι πραγματοποιήσεις (X 1, X,..., X ) της X να ταυτιστούν με το διάνυσμα (x 1, x,..., x ). Αυτή ισούται με p (x 1, x,..., x ) := P(X 1 = x 1, X = x,..., X = x ) = f (x 1 ) f (x ) f (x ). (1.4) Για παράδειγμα, όταν η X παίρνει τις τιμές 1 και 0 με πιθανότητες p := 1/3 και /3 αντίστοιχα, τότε f (x) = p x (1 p) 1 x 1 x {0,1} και η πιθανότητα εμφάνισης της -άδας (x 1, x,..., x ) {0, 1} είναι ( ) x1 + +x 1 ( ) x1 x 3 3 Αυτή η πιθανότητα παίρνει τιμές από (1/3) ως και (/3). Δεν είναι σταθερή, η τιμή της εξαρτάται από την επιλογή της -άδας (x 1, x,..., x ). Ομως η πιθανότητα πραγματοποίησης μιας τυχαίας -άδας (X 1, X,..., X ) είναι περίπου η ίδια σχεδόν για κάθε πραγματοποίηση της (X 1, X,..., X ). Πιο συγκεκριμένα, στη γενική περίπτωση θέλουμε να εκτιμήσουμε την p (X 1, X,..., X ). Αυτή η πιθανότητα είναι μια τυχαία μεταβλητή (εξαρτάται από τις X 1, X,..., X ), φθίνει εκθετικά με το και από το νόμο των μεγάλων αριθμών έχουμε 1 log p (X 1, X,..., X ) = 1 log f (X 1) f (X ) f (X ) = log f (X 1) + log f (X ) + + log f (X ) με πιθανότητα 1 καθώς. Δηλαδή, με πιθανότητα 1, για μεγάλο, ισχύει p (X 1, X,..., X ) e H(X). E(log f (X 1 )) = H(X) (1.5)
76 Ο Ισχυρός Νόμος των Μεγάλων Αριθμών Στο παράδειγμα πιο πάνω, H(X) = (1/3) log(1/3) (/3) log(/3) και η e H(X) είναι μια πιθανότητα ανάμεσα στις (1/3), (/3). Ας υποθέσουμε ότι το S είναι πεπερασμένο. Αν ορίσουμε A ε = {(x 1, x,..., x ) S : e (H(X)+ε) < p (x 1, x,..., x ) < e (H(X) ε) }, τότε P(A ε ) 1 λόγω της (1.5). Ακολουθίες στο A ε τις λέμε ε-τυπικές. Αφού όλες τους έχουν πιθανότητα περίπου e H(X) και το άθροισμα των πιθανοτήτων τους είναι σχεδόν 1, το A ε έχει πληθικότητα περίπου e H(X). Στη γενική περίπτωση ισχύει H(X) < log S ( Ασκηση 1.8), οπότε το A ε είναι (από πλευράς πληθικότητας) ένα πολύ μικρό κομμάτι του S αφού το S έχει πληθικότητα S = e log S. Παρ όλα αυτά, το A ε συγκεντρώνει σχεδόν όλη την πιθανότητα. Η έννοια της εντροπίας είναι κεντρικής σημασίας στη Θεωρία Πληροφορίας και έχει πολλές εφαρμογές (δες Cover ad Thomas (014)). Ασκήσεις 1.1 (Ασθενής Νόμος των Μεγάλων Αριθμών. Ασθενής έκδοση.) Εστω (X ) N ανεξάρτητες και ισόνομες τυχαίες μεταβλητές με τιμές στο R έτσι ώστε E ( X1) <. Θέτουμε µ = E(X1 ). Χωρίς χρήση του ισχυρού νόμου των μεγάλων αριθμών να δειχθεί ότι Δηλαδή η ακολουθία S ( P S µ συγκλίνει στο µ κατά πιθανότητα. ) > ɛ = 0 για κάθε ɛ > 0. 1.* Εστω (X ) N ανεξάρτητες και ισόνομες τυχαίες μεταβλητές με τιμές στο R έτσι ώστε E(X 1 + ) = και E(X 1 ) <. Να δείξετε ότι S = με πιθανότητα 1. 1.3* (Αντίστροφο του Νόμου των Μεγάλων Αριθμών) Εστω (X ) 1 ανεξάρτητες και ισόνομες τυχαίες μεταβλητές S με τιμές στο R έτσι ώστε = µ σχεδόν βεβαίως με µ R. Να δείξετε ότι E X 1 < και E(X 1 ) = µ. [Υπόδειξη: Χρήσιμη είναι η Ασκηση 11.11.] 1.4 Εστω (X ) 1 ανεξάρτητες και ισόνομες τυχαίες μεταβλητές με X 1 N(1, 3). Να δείξετε ότι με πιθανότητα 1. X 1 + X +... + X (X 1 ) + (X ) +... + (X ) = 1 4 1.5 Εστω (X ) N ανεξάρτητες και ισόνομες τυχαίες μεταβλητές με τιμές στο R έτσι ώστε E( X 1 ) < και E(X 1 ) > 0. Να δείξετε ότι S = με πιθανότητα 1. 1.6 Εστω (U i ) i 1 ακολουθία ανεξάρτητων και ισόνομων τυχαίων μεταβλητών, καθεμία με κατανομή U(0, 1), δηλαδή ομοιόμορφη στο (0, 1). Να δειχθεί ότι (α) (U 1 U U ) 1/ = e 1 με πιθανότητα 1. (β) U 1 U U = 0 με πιθανότητα 1. U1 (γ) a 1 + +Ua 1+a με πιθανότητα 1 αν a > 1, = με πιθανότητα 1 αν a 1. 1.7 Εστω (X i ) i 1 ακολουθία ανεξάρτητων και ισόνομων τυχαίων μεταβλητών με µ = E(X 1 ) R και σ = V(X 1 ) <. Να δειχθεί ότι 1 (X k µ) = σ με πιθανότητα 1. k=1
1. Δύο εφαρμογές 77 1.8 Εστω k, S = {x 1,..., x k } σύνολο με k στοιχεία, και X τυχαία μεταβλητή με τιμές στο S. Να δειχθεί ότι H(X) log k και η ισότητα ισχύει αν και μόνο αν P(X = x j ) = 1/k για κάθε 1 j k. [Υπόδειξη: Εφαρμόστε κατάλληλα την ανισότητα Jese.] 1.9 Εστω (X k ) k 1 ακολουθία ανεξάρτητων και ισόνομων τυχαίων μεταβλητών με τιμές στο S = {1,,..., r} και f η συνάρτηση πιθανότητας της X 1. Εστω επίσης (Y k ) k 1 ακολουθία ανεξάρτητων και ισόνομων τυχαίων μεταβλητών με τιμές στο S και g η συνάρτηση πιθανότητας της Y 1. Υποθέτουμε ότι για k S ισχύει f (k) = 0 g(k) = 0. Ορίζουμε την p όπως στην (1.4). Δείξτε ότι η πιθανότητα p (Y 1, Y,..., Y ) φθίνει εκθετικά και υπολογίστε το ρυθμό μείωσης. Αυτή είναι η πιθανότητα στις πρώτες συντετεγμένες η ακολουθία X να μοιάζει με δείγμα παρμένο από την Y.