ΜΕΡΙΚΕΣ ΕΙΔΙΚΕΣ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ



Σχετικά έγγραφα
pdf: X = 0, 1 - p = q E(X) = 1 p + 0 (1 p) = p V ar(x) = E[(X µ) 2 ] = (1 p) 2 p + (0 p) 2 (1 p) = p (1 p) [1 p + p] = p (1 p) = p q

07/11/2016. Στατιστική Ι. 6 η Διάλεξη (Βασικές διακριτές κατανομές)

pdf: X = 0, 1 - p = q E(X) = 1 p + 0 (1 p) = p V ar(x) = E[(X µ) 2 ] = (1 p) 2 p + (0 p) 2 (1 p) = p (1 p) [1 p + p] = p (1 p) = p q

ΒΑΣΙΚΕΣ ΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ (Συνέχεια)

Διωνυμική Κατανομή. x Αποδεικνύεται ότι για την διωνυμική κατανομή ισχύει: Ε(Χ)=np και V(X)=np(1-p).

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

Στατιστική Επιχειρήσεων Ι. Βασικές διακριτές κατανομές

Ασκήσεις στις κατανομές και ειδικά στην διωνυμική κατανομή και κανονική κατανομή

Η διακριτή συνάρτηση μάζας πιθανότητας δίνεται από την

Ασκήσεις στην διωνυμική κατανομή

Η Διωνυμική Κατανομή. μαθηματικών. 2 Ο γονότυπος μπορεί να είναι ΑΑ, Αα ή αα.

Θεωρητικές Κατανομές Πιθανότητας

ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ - ΠΡΟΣΟΜΟΙΩΣΗ

Στατιστική Ι. Ενότητα 5: Θεωρητικές Κατανομές Πιθανότητας. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές

Θεωρία Πιθανοτήτων, εαρινό εξάμηνο Λύσεις του πέμπτου φυλλαδίου ασκήσεων.. Δηλαδή:

ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Π

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

ΒΑΣΙΚΕΣ ΜΕΘΟΔΟΙ ΑΠΑΡΙΘΜΗΣΗΣ

ΔΕΣΜΕΥΜΕΝΕΣ Ή ΥΠΟ ΣΥΝΘΗΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Υπολογιστικά & Διακριτά Μαθηματικά

Τυχαία μεταβλητή (τ.μ.)

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Στοχαστικές Στρατηγικές

Διακριτές Κατανομές. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. Ασκήσεις για ΑΕΙ και ΤΕΙ. Kglykos.gr. σε Διακριτές Κατανομές. τεχνικές. 42 άλυτες ασκήσεις.

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΡΓΑΣΙΑ 6 η Ημερομηνία Αποστολής στο Φοιτητή: 23 Απριλίου 2012

Εισαγωγή Η Θεωρία Πιθανοτήτων παίζει μεγάλο ρόλο στη μοντελοποίηση και μελέτη συστημάτων των οποίων δεν μπορούμε να προβλέψουμε ή να παρατηρήσουμε την

ΚΕΦΑΛΑΙΟ 4ο ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΑΠΟ ΣΥΝΕΧΕΙΣ ΚΑΙ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ

ΚΕΦΑΛΑΙΟ 3 ΤΟ ΔΙΩΝΥΜΙΚΟ ΘΕΩΡΗΜΑ

ΚΕΦΑΛΑΙΟ 2 ΔΙΑΤΑΞΕΙΣ, ΜΕΤΑΘΕΣΕΙΣ, ΣΥΝΔΥΑΣΜΟΙ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

II. Τυχαίες Μεταβλητές

Θεωρία Πιθανοτήτων και Στατιστική

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΗΥ-217-ΠΙΘΑΝΟΤΗΤΕΣ-ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2016 ΔΙΔΑΣΚΩΝ: ΠΑΝΑΓΙΩΤΗΣ ΤΣΑΚΑΛΙΔΗΣ

ΠΙΘΑΝΟΤΗΤΕΣ Δειγματικός Χώρος. Ενδεχόμενα {,,..., }.

ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Π

Τμήμα Λογιστικής και Χρηματοοικονομικής. Θεωρία Πιθανοτήτων. Δρ. Αγγελίδης Π. Βασίλειος

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ I Παντελής Δημήτριος Τμήμα Μηχανολόγων Μηχανικών

Περίληψη ϐασικών εννοιών στην ϑεωρία πιθανοτήτων

ΘΕΩΡΙΑ ΠΙΘΑΝΟΤΗΤΩΝ Ι Φεβρουάριος 2018 Σειρά Α Θέματα 3 ως 7 και αναλυτικές (ή σύντομες) απαντήσεις

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

3. Κατανομές πιθανότητας

ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Σ. ΖΗΜΕΡΑΣ Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικών- Χρηματοοικονομικών Μαθηματικών Σάμος

1.1 Πείραμα Τύχης - δειγματικός χώρος

Τ Ε Ι Ιονίων Νήσων Τμήμα Εφαρμογών Πληροφορικής στη Διοίκηση και την Οικονομία. Υπεύθυνος: Δρ. Κολιός Σταύρος

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

. Τι πρακτική αξία έχουν αυτές οι πιθανότητες; (5 Μονάδες)

Κεφάλαιο 7 Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

Μέση τιμή, διασπορά, τυπική απόκλιση. 1) Για την τυχαία διακριτή μεταβλητή Χ ισχύει Ρ(Χ=x i)=

Θεωρία Πιθανοτήτων, εαρινό εξάμηνο Λύσεις του φυλλαδίου ασκήσεων επανάληψης. P (B) P (A B) = 3/4.

Τυχαίες Μεταβλητές. Ορισμός

ΒΑΣΙΚΕΣ ΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ (Συνέχεια)

1.1 ΔΕΙΓΜΑΤΙΚΟΙ ΧΩΡΟΙ ΕΝΔΕΧΟΜΕΝΑ

Θεωρία Πιθανοτήτων & Στατιστική

Η ΚΑΝΟΝΙΚΗ ΚΑΤΑΝΟΜΗ ΚΕΦΑΛΑΙΟ 9

ιωνυµική Κατανοµή(Binomial)

P (A B) = P (AB) P (B) P (A B) = P (A) P (A B) = P (A) P (B)

ΣΗΜΕΙΩΣΕΙΣ ΜΕΛΕΤΗΣ ΙΟΥΝΙΟΥ 2016 (version ) είναι: ( ) f =

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΟΧΑΣΤΙΚΑ ΜΟΝΤΕΛΑ

Θέμα: ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΓΙΑ ΤΙΣ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ ΠΙΘΑΝΟΤΗΤΩΝ ΚΕΦΑΛΑΙΟ 7 ΒΙΒΛΙΟ KELLER

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

Συνδυαστική Ανάλυση. Υπολογισμός της πιθανότητας σε διακριτούς χώρους με ισοπίθανα αποτελέσματα:

Λύσεις 4ης Ομάδας Ασκήσεων

Το Κεντρικό Οριακό Θεώρημα

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

ΜΕΡΙΚΕΣ ΕΙΔΙΚΕΣ ΣΥΝΕΧΕΙΣ ΚΑΤΑΝΟΜΕΣ

ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Π

3.1 ΔΕΙΓΜΑΤΙΚΟΙ ΧΩΡΟΙ ΕΝΔΕΧΟΜΕΝΑ

Έντυπο Yποβολής Αξιολόγησης ΓΕ

Λύσεις 1ης Ομάδας Ασκήσεων

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 6. Πιθανότητες

, όπου x = 0,1,..., Έτσι, για την πιθανότητα σε ένα έτος να μην υπάρξουν θάνατοι ζώων από τον εμβολιασμό έχουμε, 2! !

3 ΠΙΘΑΝΟΤΗΤΕΣ. ο δειγματικός χώρος του πειράματος θα είναι το σύνολο: Ω = ω, ω,..., ω }.

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014

ΕΠΑΝΑΛΗΨΗ ΒΑΣΙΚΩΝ ΕΝΝΟΙΩΝ ΣΤΑΤΙΣΤΙΚΗΣ

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

#(A B) = (#A)(#B). = 2 6 = 1/3,

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 9. Κατανομές Δειγματοληψίας

Μαθηματικά Πληροφορικής Πιθανοτικά Εργαλεία. Υποπροσθετικότητα. Η Πιθανοτική Μέθοδος (The Probabilistic Method)

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

B A B A A 1 A 2 A N = A i, i=1. i=1

Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ. M. Kούτρας

Περιεχόµενα. Πρόλογος Ιστορική εξέλιξη της πιθανοκρατικής αντίληψης... 13

Όταν η s n δεν συγκλίνει λέμε ότι η σειρά αποκλίνει.

ΕΞEΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ ΠΙΘΑΝΟΤΗΤΕΣ-ΣΤΑΤΙΣΤΙΚΗ ΜΑΡΤΙΟΣ 2003 Λ Υ Σ Ε Ι Σ Τ Ω Ν Α Σ Κ Η Σ Ε Ω Ν ΜΕΡΟΣ Α

X i = Y = X 1 + X X N.

ΕΠΑΝΑΛΗΨΗ ΕΦΑΡΜΟΣΜΕΝΑ ΜΑΘΗΜΑΤΙΚΑ 11/01/2018

ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Σ

Επισκόπηση ύλης Πιθανοτήτων Μέρος ΙΙ. M. Kούτρας

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Πανεπιστήμιο Πελοποννήσου

Α ΕΝΟΤΗΤΑ. Πιθανότητες. Α.1 (1.1 παρ/φος σχολικού βιβλίου) Α.2 (1.2 παρ/φος σχολικού βιβλίου) Δειγματικός χώρος - Ενδεχόμενα. Η έννοια της πιθανότητας

Περιεχόμενα 2ης Διάλεξης 1 Σύνοψη προηγούμενου μαθήματος 2 Αξιωματικός ορισμός και απαρίθμηση 3 Διατάξεις - Συνδυασμοί 4 Παραδείγματα υπολογισμού πιθα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

x P (x) c P (x) = c P (x), x S : x c

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

Transcript:

ΚΕΦΑΛΑΙΟ 7 ΜΕΡΙΚΕΣ ΕΙΔΙΚΕΣ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ Στο κεφάλαιο αυτό, θα μελετήσουμε μερικές ειδικές διακριτές κατανομές που παρουσιάζουν ιδιαίτερο ενδιαφέρον λόγω, κυρίως των πολλών εφαρμογών τους. Πριν όμως ορίσουμε και μελετήσουμε τις κατανομές αυτές, θα ορίσουμε μια μορφή πειράματος που έχει άμεση σχέση με πολλές από αυτές. Ορισμός: Ένα τυχαίο πείραμα θα λέγεται πείραμα Beroulli αν είναι δυνατόν να καταλήξει σε ένα από δύο μόνο, ξένα μεταξύ τουs, ενδεχόμενα που η ένωσή τους αποτελεί τον δειγματικό χώρο. Συνήθως χρησιμοποιούμε τους όρους επιτυχία (success) (S) και αποτυχία (failure) (F) για τα ενδεχόμενα αυτά και συμβολίζουμε με p P(S) και q -p P(F), 0 p Ο δειγματικός χώρος, δηλαδή, σ ένα πείραμα Beroulli αποτελείται από δύο μόνο σημεία, τα S και F. Παραδείγματα πειραμάτων Beroulli αποτελούν το στρίψιμο ενός νομίσματος (κεφάλι-γράμματα), η ποιότητα ενός βιομηχανικού προϊόντος (ελαττωματικό-μη ελαττωματικό), η γέννηση ενός παιδιού (αγόρι - κορίτσι) κ.λ.π. Ορισμός: Θα λέμε ότι έχουμε μια ακολουθία δοκιμών Beroulli όταν έχουμε ανεξάρτητες επαναλήψεις ενός πειράματος Beroulli με τέτοιο τρόπο ώστε η πιθανότητα επιτυχίας p να μένει ίδια από δοκιμή σε δοκιμή. Ο δειγματικός χώρος σε μια ακολουθία δοκιμών Beroulli αποτελειται από σημεία της μορφής S και F. Παραδείγματα ακολουθίας δοκιμών Beroulli έχουμε στο στρίψιμο ενός νομίσματος φορές, στο ρίξιμο ενός ζαριού φορές κ.λ.π. Στην περίπτωση ακολουθίας δοκιμών Beroulli, επειδή οι δοκιμές είναι ανεξάρτητες, οι πιθανότητες πολλαπλασιάζονται. Με άλλα λόγια, η πιθανότητα οποιασδήποτε συγκεκριμένης ακολουθίας 8

είναι το γινόμενο που παίρνουμε αντικαθιστώντας τα σύμβολα S και F με p και q αντίστοιχα. Έτσι P(SSFFS...SFS) ppqqp...pqp Η ΚΑΤΑΝΟΜΗ BERNOULLI Ορισμός: Έστω X μια τυχαία μεταβλητή με πεδίο τιμών το {0, } και κατανομή πιθανότητας P(X) p αν, 0 p p αν 0 Η τυχαία μεταβλητή X λέγεται τυχαία μεταβλητή Beroulli (Beroulli radom variable) και η κατανομή πιθανότητας της X λέγεται κατανομή Beroulli (Beroulli distributio). Είναι προφανές ότι η κατανομή Beroulli είναι μια καλώς ορισμένη κατανομή ( P(), P() 0). Μοντέλα που οδηγούν στην κατανομή Beroulli Αν έχουμε ένα πείραμα Beroulli και ορίσουμε την τυχαία μεταβλητή X με τιμές X(S) και X(F)0 και κατανομή πιθανότητας P(X) p αν, 0 p, q -p p αν 0 λέμε ότι η X ακολουθεί την κατανομή Beroulli. Πρόταση: Αν X ακολουθεί την κατανομή Beroulli, τότε E(X) p, Δ(X) pq Απόδειξη: Προφανής. Η ΔΙΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ Ορισμός: Έστω X μια διακριτή τυχαία μεταβλητή με P(X) p q 0,,...,,,,..., 0 p, q -p 9

Θα λέμε ότι η τυχαία μεταβλητή X ακολουθεί την διωνυμική κατανομή (Biomial distributio) με παραμέτρους και p και θα συμβολίζουμε X b(;,p). Παρατήρηση: Η διωνυμική κατανομή είναι μια καλά ορισμένη κατανομή γιατί P() 0 και από το διωνυμικό ανάπτυγμα έχουμε ότι P() p q (p + q) 0 0 Μοντέλα που οδηγούν στην διωνυμική κατανομή i) Έστω X ο αριθμός των επιτυχιών σε μια ακολουθία δοκιμών Beroulli. Τότε X b(;,p). Απόδειξη: Το ενδεχόμενο { επιτυχίες σε δοκιμές} είναι η ένωση ενδεχομένων που αποτελούν αποτελέσματα δοκιμών Beroulli, από τις οποίες έχουν καταλήξει σε επιτυχία και - σε αποτυχία (μια και μας ενδιαφέρει ο αριθμός των επιτυχιών στις δοκιμές και όχι η σειρά με την οποία εμφανίζονται). Δηλαδή { επιτυχίες σε δοκιμές} X A i όπου Α i είναι μια ακολουθία δοκιμών Beroulli από S i και - F. Τα Α i, όμως είναι ξένα μεταξύ τους και ισοπίθανα αφού P(A i ) p q -, i,,..., Ο αριθμός των Α i είναι (όσοι και οι δυνατοί συνδυασμοί των επιτυχιών στις δοκιμές). Επομένως P(X ) P(A ) p q i, 0,,..., i ii) Αν X,X,..., X είναι μια ακολoυθία ανεξάρτητων τυχαίων μεταβλητών Beroulli με παράμετρο p, τότε μπορεί να αποδειχθεί ότι η τυχαία μεταβλητή X X +X +...+ X ακολουθεί την διωνυμική κατανομή με παραμέτρους και p. 0

Δηλαδή, X b(;,p). Παρατήρηση: Είναι προφανές ότι η κατανομή Beroulli μπορεί να θεωρηθεί ως ειδική περίπτωση της διωνυμικής κατανομής για. Πρόταση: Αν X b(;,p) τότε E(X) p και Δ(X) pq Απόδειξη: Κάνοντας χρήση του μοντέλου (ii) που οδηγεί στη διωνυμική κατανομή έχουμε ότι E(X) E Xi E(X i ) p p i i i και Δ(X) Δ(ΣX i ) (μια και οι X i είναι ανεξάρτητες). Δ (X ) i i i pq pq Σημείωση: Αν X b(;,p), η συνάρτηση κατανομής του X στο σημείο δίνεται από τον τύπο P(X ) pq i i. i 0 i Τιμές της συνάρτησης κατανομής της διωνυμικής κατανομής για διάφορες του και του p δίνονται στον πίνακα του παραρτήματος. Παράδειγμα: Ένα διαγώνισμα πολλαπλής επιλογής αποτελείται από 5 ερωτήσεις. Για κάθε ερώτηση, υπάρχουν 5 πιθανές απαντήσεις μια μόνο από τις οποίες είναι σωστή. Η βαθμολογία είναι για κάθε σωστή απάντηση και 0 για κάθε λάθος απάντηση. Ένας φοιτητής διαλέγει την απάντηση σε κάθε ερώτηση στην τύχη. Να υπολογισθεί η πιθανότητα α) Ο παραπάνω φοιτητής να πάρει το πολύ οκτώ. β) Ο φοιτητής αυτός να βαθμολογηθεί με οκτώ. γ) Να πάρει βαθμό μεγαλύτερο από 3 και μικρότερο από οκτώ. Λύση: Έστω X η βαθμολογία του φοιτητή και p η πιθανότητα σωστής απάντησης. Είναι p/50. και 5.

Επομένως κάνοντας χρήση των πινάκων α) P(X 8 5, p0.) β) P(X8) 8 0 8 0 b(;5, 0.) - b(;5, 0.) 0.999 8 0 b(;5, 0.) 0.999-0.9958 0.0034 γ) P(3<X<8) P(4 X 7) 0.9958-0.648 0.3476 Παράδειγμα: Στο προηγούμενο παράδειγμα, να βρεθεί α) ο μέσος αναμενόμενος βαθμός των φοιτητών που απαντούν στην τύχη. β) Ποιά θα είναι η βάση που θα πρέπει να καθορίσει ο καθηγητής έτσι ώστε ένας φοιτητής που απαντά μόνο στην τύχη να έχει πιθανότητα το πολύ ίση με 0.05 να περάσει; Λύση: α) E(X) p 3. β) Έστω α η ζητούμενη βάση. Τότε θα πρέπει P(X α) 0.05 ή ισοδύναμα -P(X α-) 0.05 P(X α-) -0.05 P(X α-) 0.95. Από τους πίνακες, βρίσκουμε ότι α- 6 α7. Παράδειγμα: Αυτοκίνητα φθάνουν σε μια διασταύρωση όπου θα πρέπει υποχρεωτικά να στρίψουν δεξιά ή αριστερά. Έστω ότι τα αυτοκίνητα που φθάνουν στην διασταύρωση διαλέγουν την κατεύθυνση που θα στρίψουν ανεξάρτητα το ένα απο το άλλο. Έστω ότι η πιθανότητα p να στρίψει ένα αυτοκίνητο αριστερά είναι 0.7. Να υπολογισθεί η πιθανότητα α) Τουλάχιστον 0 από τα επόμενα 5 αυτοκίνητα να στρίψουν αριστερά.

β) Μέσα στα επόμενα 5 αυτοκίνητα τουλάχιστον 0 να στρίψουν στην ίδια κατεύθυνση. Λύση: Έστω X ο αριθμός των αυτοκινήτων, μεταξύ των 5, που στρίβουν αριστερά και Y ο αριθμός αυτών που στρίβουν δεξιά. Προφανώς, X b(;5, 0.7) και Y b(y;5, 0.3). Επομένως α) P(τουλάχιστον 0 στρίβουν αριστερά) P(X 0) P(X0)+P(X)+P(X)+P(X3)+P(X4)+P(X5) P(Y5)+P(Y4)+P(Y3)+P(Y)+P(Y)+P(Y0) 5 y 0 b(y;5, 0.3) 0.76. β) P(τουλάχιστον 0 στρίβουν στην ίδια κατεύθυνση) P(τουλάχιστον 0 στρίβουν δεξιά ή τουλάχιστον 0 στρίβουν αριστερά) P(X 0)+P(Y 0) P(X 0)+-P(Y 9) 5 y 0 (y;5, 0.3) + - 9 y 0 (y;5, 0.3) 0.76 + - 0.9963 0.76. Σημείωση: Η λύση της άσκησης βασίσθηκε σε μια τεχνική που δίνει τη δυνατότητα χρησιμοποίησης των πινάκων της συνάρτησης κατανομής της διωνυμικής κατανομής για p>0.5. Συγκεκριμένα, στηρίζεται στην ιδιότητα που εύκολα μπορεί να αποδείξει κανείς ότι b(;,p) b(-;,-p) Σημείωση: Πολλά βιβλία δίνουν πίνακες της κατανομής πιθανότητας και όχι της συνάρτησης κατανομής της διωνυμικής. Οι πίνακες αυτοί απαιτούν συνήθως περισσότερο χρόνο για τον υπολογισμό πιθανοτήτων. 3

Παράδειγμα: Ρίχνουμε ένα αμερόληπτο ζάρι 300 φορές. Να υπολογισθεί η πιθανότητα του ενδεχομένου να εμφανισθεί ή λιγότερες από 70 φορές. Λύση: Στην προηγούμενη ενότητα βρήκαμε ένα άνω φράγμα της πιθανότητας αυτής. Με την χρήση της διωνυμικής κατανομής μπορούμε να την υπολογίσουμε ακριβώς. Είχαμε δει εκεί ότι αν X είναι ο αριθμός των και στις 300 δοκιμές τότε X X +X +...+ X 300 όπου X i, i,,...,300 είναι τυχαίες μεταβλητές Beroulli με p/3. Επομένως, X b(;300,/3) και P(το και το εμφανίζονται λιγότερες από 70 φορές) P(X<70) 69 0 b(;300,/3). Παράδειγμα: (Συνέχεια του παραδείγματος της δίκης του Collis). Στο παράδειγμα εκείνο, είχαμε δει ότι το ζευγάρι που είχε κατηγορηθεί για τη ληστεία καταδικάσθηκε γιατί είχε όλα τα χαρακτηριστικά των ληστών και η πιθανότητα ένα ζευγάρι να είχε όλα αυτά τα χαρακτηριστικά ήταν στα εκατομμύρια. Το ζευγάρι έκανε έφεση και αθωώθηκε, χρησιμοποιώντας τον εξής μαθηματικό συλλογισμό: Έστω ότι η πιθανότητα να έχει ένα ζευγάρι όλα τα χαρακτηριστικά των ληστών είναι πραγματικά p/.000.000 (μία παραδοχή που δεν την έκαναν και τόσο εύκολα). Έστω ότι υπάρχει ένα τέτοιο ζευγάρι σε ένα πληθυσμό N ζευγαριών. Ποιά είναι η πιθανότητα να υπάρχουν και άλλα τέτοια ζευγάρια; Θεωρούμε κάθε ένα από τα N ζευγάρια του πληθυσμού σαν μια δοκιμή Beroulli με επιτυχία το ενδεχόμενο το ζευγάρι να έχει τα χαρακτηριστικά των ληστών. Είναι p/.000.000. Έστω X ο αριθμός των ζευγαριών που έχουν τα χαρακτηριστικά αυτά. Χρησιμοποιώντας τη διωνυμική κατανομή και τις ιδιότητες της δεσμευμένης πιθανότητας βλέπουμε ότι P(να υπάρχουν περισσότερα από ένα τέτοια ζευγάρια υπάρχει τουλάχιστον ένα τέτοιο ζευγάρι) P(X X ) 4

P(X, X ) P(X ) b(0, N, p) b(0, N, p) P(X P(X b(, N, p) ) ) P(X < ) P(X < ) N ( p) Np( p) N ( p) N Ο πίνακας που ακολουθεί δίνει την πιθανότητα αυτή για διάφορες τιμές του N. Πίνακας Αριθμός ζευγαριών Ν Πιθανότητες ύπαρξης ζευγαριού με (Σε εκατομμύρια) 3 4 5 6 7 8 9 0 5 0 5 30 40 50 75 00 τα συγκεκριμένα χαρακτηριστικά 0.040 0.0786 0.60 0.5 0.875 0.6 0.547 0.868 0.379 0.3479 0.4835 0.5959 0.6875 0.760 0.8644 0.956 0.985 0.9973 Η υπεράσπιση χρησιμοποίησε την τιμή N.000.000 και κατέληξε στο συμπέρασμα ότι η πιθανότητα να υπάρχουν και άλλα ζευγάρια με τα χαρακτηριστικά των ληστών είναι περίπου 0.40. Το δικαστήριο δέχθηκε το επιχείρημα και έκανε δεκτή την προσφυγή. (Περισσότερες πληροφορίες για τη δίκη αυτή μπορεί να βρει κανείς στο περιοδικό TIME, της 6/4/68 σε άρθρο με τίτλο Δίκη με την 5

χρήση μαθηματικών (Trial by Mathematics). Επίσης, βλέπε Fairly & Mosteller (974). Παράδειγμα: Διαγωνίσματα πολλαπλής επιλογής. Μια πρακτική εφαρμογή των δοκιμών Beroulli και της διωνυμικής κατανομής συναντάται στα διαγωνίσματα πολλαπλής επιλογής (multiple choice). Συνήθως, στα διαγωνίσματα αυτά, υπάρχουν τέσσερις δυνατές απαντήσεις (Α, Β, Γ, Δ), από τις οποίες μία μόνο είναι σωστή. Κάποιος που επιλέγει απάντηση στην τύχη έχει πιθανότητα p 0.5 επιλογής της σωστής απάντησης. Αν υπάρχουν 0 ερωτήσεις σε κάποιο τέστ, τότε, σύμφωνα με την μέση τιμή της διωνυμικής κατανομής, ο αναμενόμενος αριθμός των σωστών απαντήσεων που θα βασίζονται σε τυχαίες επιλογές θα είναι p (0.5)(0) 5. Επομένως, σε επανάληψη τέτοιας μορφής διαγωνισμάτων ένας φοιτητής που απαντατά πάντοτε στην τύχη θα έχει κατά μέσο όρο πέντε σωστές απαντήσεις ανά διαγώνισμα. Είναι προφανές ότι, σε ένα συγκεκριμένο διαγώνισμα αυτής της μορφής, ο φοιτητής που επιλέγει τυχαία τις απαντήσεις μπορεί να μαντέψει λιγότερες ή περισσότερες από πέντε σωστές απαντήσεις. Οι ακριβείς πιθανότητες δίνονται από την διωνυμική κατανομή για p0.5 και 0. Ο πίνακας που ακολουθεί δείχνει τις πιθανότητες που αντιστοιχούν σε μια σειρά από σωστές απαντήσεις. Αριθμός Πιθανότητα ορθών απαντήσεων < 3 0.093 3 0.339 4 0.896 5 0.04 6 0.686 7 0.4 > 7 0.08 Πολλά διαγωνίσματα πολλαπλής επιλογής βαθμολογούνται με τέτοιο τρόπο, ώστε αυτός που απαντά στην τύχη να έχει αναμενόμενο βαθμό μηδέν, τον ίδιο βαθμό, δηλαδή, με κάποιο που δεν γνωρίζει τις ερωτήσεις και δεν τις απαντά. Δεδομένου ότι κάποιος που απαντά 6

στην τύχη είναι δυνατόν να επιλέξει σωστές απαντήσεις - και προκειμένου η αναμενόμενη βαθμολογία να είναι μηδέν - θα πρέπει να αφαιρούνται βαθμοί για τις λανθασμένες απαντήσεις. Όπως προαναφέρθηκε, σε ένα διαγώνισμα 0 ερωτήσεων, ο αναμενόμενος αριθμός σωστών απαντήσεων για κάποιον που απαντά στην τύχη είναι 5 και, επομένως, ο αναμενόμενος αριθμός λανθασμένων απαντήσεων για το άτομο αυτό είναι 5. Είναι προφανές ότι για να έχει ένας τέτοιος φοιτητής μέσο αναμενόμενο βαθμό μηδέν, θα πρέπει από κάθε λανθασμένη απάντηση να αφαιρείται /3 του βαθμού για κάθε λανθασμένη απάντηση. Γενικότερα, αν Χ είναι ο αριθμός των σωστών απαντήσεων σε ένα διαγώνισμα ερωτήσεων όπου ο υποψήφιος απαντά με τυχαίο τρόπο και δίνεται ένας βαθμός για κάθε σωστή ερώτηση, τότε, αν ω είναι οι βαθμοί που αφαιρούνται για κάθε λανθασμένη απάντηση, θα πρέπει, χρησιμοποιώντας τις ιδιότητες της μέσης τιμής, να έχουμε ότι {(X)() + ( - X)(-ω) } Ε{ ( ω)() + (+ ω)(χ) } ( ω)() + ( ω)p E + Προκειμένου ο μέσος βαθμός σε τέτοια διαγωνίσματα για κάποιον που απαντά στην τύχη να είναι μηδέν, θα πρέπει να έχουμε ωp/(-p). Έτσι, με τέσσερις δυνατές απαντήσεις για κάθε ερώτηση όπου p 0.5, η ποινή για κάθε λάθος απάντηση θα πρέπει να είναι 0.5 ω. Με πέντε δυνατές απαντήσεις, p 0. και η τιμή θα 0.75 3 πρέπει να είναι 0. ω 0.8 4. (Αυτές είναι και οι ποινές που χρησιμοποιούνται στο SAT τέστ και στο GMAT τέστ σε άλλες γνωστές διεθνείς εξετάσεις πολλαπλής επιλογής). Για ένα διαγώνισμα της μορφής αυτής τίθεται το ερώτημα αν συμφέρει ένα φοιτητή που δεν γνωρίζει την σωστή απάντηση να απαντά στην τύχη ή όχι. Στις περίπτωσεις αυτές, είναι φυσικά προτιμότερο να χρησιμοποιεί κανείς την κρίση του. Αν μπορεί να αποκλείσει μία από τις δυνατές απαντήσεις, η τυχαία επιλογή θα αυξήσει τον αναμενόμενο βαθμό που είναι καλύτερος από το μηδέν 7

που θα πάρει, αν αφήσει την ερώτηση αναπάντητη. Για παράδειγμα, ας υποθέσουμε ότι υπάρχει μια δύσκολη ερώτηση με τέσερις δυνατές απαντήσεις (Α, Β, Γ, Δ). Ας υποθέσουμε ότι ο υποψήφιος μπορεί να αποκλείσει μία από τις απαντήσεις, έστω την Α, αλλά δεν έχει ιδέα για το ποιά από τις υπόλοιπες είναι σωστή. Αν επιλέξει στην τύχη έχει πιθανότητα /3 να επιλέξει την σωστή απάντηση (και να κερδίσει τον ένα βαθμό) και /3 να επιλέξει λανθασμένη απάντηση (και να τιμωρηθεί με /3 βαθμού). Η αναμενόμενη βαθμολογία σε αυτή την ερώτηση θα είναι ()(/3) + (-/3)(/3) /9 η οποία, έστω και αν είναι μικρή, είναι θετική. Κατά μέσο όρο, μακροπρόθεσμα, αυτή η στρατηγική που στηρίζεται στην κριτική επιλογή με τυχαίο τρόπο θα αυξήσει την βαθμολογία του φοιτητή κατά /9 βαθμών ανά ερώτηση. Τί συμβαίνει στην περίπτωση που οι απαντήσεις δίνονται με εντελώς τυχαίο τρόπο επειδή ο υποψήφιος δεν έχει την δυνατότητα να επιλέξει με κριτικό τρόπο; Αν για παράδειγμα κάποιος δεν έχει χρόνο και του έχουν μείνει μια σειρά από αναπάντητες ερωτήσεις, είναι καλύτερα να τις απαντήσει στην τύχη ή να τις αφήσει αναπάντητες; Συνήθως, οι οδηγίες τέτοιων διαγωνισμάτων πολλαπλής επιλογής αναφέρουν ότι η τυχαία επιλογή είναι πιθανόν να οδηγήσει σε μηδενική βαθμολογία και, επομένως, δεν αποτελεί μια σωστή στρατηγική. Είναι βέβαια σωστό ότι απαντήσεις στην τύχη θα έχουν ένα αναμενόμενο μέσο βαθμό μηδέν και, επομένως, μια τέτοια στρατηγική κατά μέσο όρο δεν θα αποδώσει μακροπρόθεσμα. Δεδομένου όμως ότι αυτός που παίρνει το διαγώνισμα ενδιαφέρεται για το συγκεκριμένο διαγώνισμα, ο υποθετικός μακροχρόνιος μέσος δεν έχει σημασία για αυτόν. Σε ένα συγκεκριμένο διαγώνισμα, η τυχαία επιλογή απαντήσεων σε κάποιες ερωτήσεις ίσως αυξήσει αλλά ίσως και μειώσει την συνολική βαθμολογία. Όπως έχουμε ήδη δει, εάν απαντήσει κανείς τυχαία σε ένα διαγώνισμα 0 ερωτήσεων, υπάρχει πιθανότητα μόνο 0. σωστής επιλογής. Επομένως, υπάρχει πιθανότητα 0.8 ότι αυτός που απαντά στην τύχη θα απαντήσει περισσότερες ή λιγότερες από τον αναμενόμενο αριθμό των σωστών απαντήσεων. Επομένως, σε ένα 8

δεδομένο διαγώνισμα όπου ο υποψήφιος απαντά στην τύχη, η πιθανότητα ότι θα πάρει βαθμό μεγαλύτερο ή μικρότερο από τον αναμενόμενο βαθμό είναι 0.8. Μια από τις πιο γνωστές περιπτώσεις όπου χρησιμοποιούνται οι εξετάσεις πολλαπλής επιλογής είναι το Graduate Maagemet Admissio Test (GMAT) που χρησιμοποιείται από πολλά πανεπιστήμια του εξωτερικού, αλλά και από το Οικονομικό Πανεπιστήμιο Αθηνών, προκειμένου να επιλεγούν μεταπτυχιακοί φοιτητές για σπουδές στην Διοίκηση Επιχειρήσεων. Το διαγώνισμα αυτό διαρκεί 3 ½ ώρες και αποτελείται από περίπου 00 ερωτήσεις πολλαπλής επιλογής που καλύπτουν την ικανότητα χρήσης πληροφοριών από κείμενο που έχει αναγνωσθεί (readig recall), προφορική ικανότητα (verbal aptitude), μαθηματικά (mathematics), ικανότητα διαχείρισης δεδομένων (data sufficiecy) και επιχειρηματική κρίση (busiess judgemet). Κάθε ερώτηση έχει πέντε δυνατές απαντήσεις και για κάθε σωστή απάντηση δίνεται ένας βαθμός, ενώ για κάθε λανθασμένη απάντηση αφαιρείται /4 του βαθμού. Η ΥΠΕΡΓΕΩΜΕΤΡΙΚΗ ΚΑΤΑΝΟΜΗ Ορισμός: Έστω Χ μια διακριτή τυχαία μεταβλητή με m N m P(X) N,,..., N,,..., m0,,,...,n, 0,,,...,mi(m,). Η τυχαία μεταβλητή Χ λέγεται ότι ακολουθεί την υπεργεωμετρική κατανομή με παραμέτρους Ν, και m. (Συμβολικά Χ h(;n,,m)). Παρατήρηση: Η υπεργεωμετρική κατανομή είναι μια καλά ορισμένη κατανομή γιατί P() 0 και mi(m,) m N m N 0 9

Μοντέλα που οδηγούν στην υπεργεωμετρική κατανομή ) Δειγματοληψία απο υδρία. Σε ένα δοχείο υπάρχουν Ν σφαιρίδια. Από αυτά m είναι μαύρα και τα υπόλοιπα N-m άσπρα. Διαλέγουμε στην τύχη ένα σύνολο από σφαιρίδια. Εστω Χ ο αριθμός των μαύρων σφαιριδίων στο σύνολο αυτό. Με τις προϋποθέσεις αυτές X h (;N,,m) Απόδειξη: Το σύνολο των δυνατών περιπτώσεων του πειράματος N είναι. Για τον καθορισμό των ευνοϊκών περιπτώσεων παρατηρούμε ότι στο σύνολο των σφαιριδίων πρέπει να έχουμε m μαύρα και - άσπρα. Τα μαύρα μπορούν να επιλεγούν με N m τρόπους και τα - άσπρα με τρόπους. Κάθε όμως επιλογή μαύρων μπορεί να συνδυασθεί με οποιαδήποτε από τις επιλογές - άσπρων. Επομένως, κάτω από την υπόθεση ότι όλα τα υποσύνολα μεγέθους έχουν την ίδια πιθανότητα να επιλεγούν, καταλήγουμε στο ζητούμενο. Σημείωση: Οι πιθανότητες P ορίζονται, προφανώς, για mi(m,). α Επειδή όμως 0 για κάθε β>α ο τύπος της υπεργεωμετρικής β κατανομής ισχύει για όλα τα 0 με την προϋπόθεση ότι P 0 υποδηλώνει ότι η τιμή είναι ανέφικτη για την τυχαία μεταβλητή X. Από την παρατήρηση αυτή προκύπτει ότι η υπεργεωμετρική κατανομή είναι μια πεπερασμένη κατανομή (Υπάρχει δηλαδή ένα πεπερασμένο πλήθος τιμών της τυχαίας μεταβλητής με μη μηδενική πιθανότητα). Σημείωση: Το προηγούμενο πρόβλημα μπορεί να παρουσιασθεί εναλλακτικά ως εξής: Έστω ότι η επιλογή των σφαιριδίων του προηγούμενου παραδείγματος γίνεται ένα προς ένα με τρόπο ώστε σε κάθε επιλογή σημειώνουμε το χρώμα του σφαιριδίου και το απομακρύνουμε από το δοχείο. (Δειγματοληψία χωρίς επανάθεση). Έστω Α i το ενδεχόμενο ότι το i σφαιρίδιο είναι μαύρο και έστω 30

ΧA i ( i) Xi η αντίστοιχη μεταβλητή-δείκτης (μεταβλητή Βeroulli) του ενδεχομένου Α i (i,,...,). (Χ i αν το i σφαιρίδιο είναι μαύρο και Χ i 0 αν το i σφαιρίδιο είναι λευκό). Ο συνολικός αριθμός X των μαύρων σφαιριδίων σε ένα σύνολο δοκιμών της μορφής αυτής είναι, προφανώς X X + X +... + X Η τυχαία μεταβλητή Χ ακολουθεί την υπεργεωμετρική κατανομή με παραμέτρους N,, m. Πριν αποδείξουμε τον παραπάνω ισχυρισμό αποδεικνύουμε το ακόλουθο λήμμα. m Λήμμα: P(X k ) p για κάθε k,,...,. (Δηλαδή η πιθανότητα επιτυχίας (μαύρου σφαιριδίου) στην i δοκιμή είναι σταθερή (ανεξάρτητη από την σειρά της δοκιμής). Απόδειξη: Ας υποθέσουμε προς στιγμήν ότι τα m μαύρα σφαιρίδια είναι σημειωμένα με τα στοιχεία,,...,m και έστω S jk το ενδεχόμενο της επιλογής του j μαύρου σφαιριδίου στην k δοκιμή. Το ενδεχόμενο {X k } {A k } ισοδυναμεί με το ενδεχόμενο [S k S k... S mk ] (μια και οποιαδήποτε επιλογή από τα m μαύρα σφαιρίδια στην k δοκιμή συνεπάγεται πραγματοποίηση του ενδεχομένου {A k }). Τα ενδεχόμενα S jk, j,,...,m είναι προφανώς ξένα μεταξύ τους. Επομένως, P(X k ) P(S k S k... S mk ) P(S k )+P(S k )+...+P(S mk ) Ομοίως, N N N (k ) P(S ik )... N N N (k ) N (k ) N που δεν είναι τίποτε άλλο από το γινόμενο των πιθανοτήτων της μη επιλογής του συγκεκριμένου αυτού σφαιριδίου στις πρώτες k- δοκιμές και της πιθανότητας της επιλογής αυτού του συγκεκριμένου σφαιριδίου στην k δοκιμή. Δηλαδή, τελικά m P(X k ) m N N 3

Προσδιορισμός της κατανομής του X. Μια και η επιλογή των σφαιριδίων γίνεται χωρίς επανάθεση, ο συνολικός αριθμός των διαφορετικών διατεταγμένων υποσυνόλων μεγέθους των Ν σφαιριδίων είναι ο αριθμός των διατάξεων των Ν ανά δηλαδή N(N-)... (N-+) N (). Ευνοϊκές περιπτώσεις είναι τα διατεταγμένα σύνολα μεγέθους στα οποία κανένα σφαιρίδιο δεν εμφανίζεται περισσότερο από μια φορά (δειγματοληψία χωρίς επανάθεση) και στα οποία υπάρχουν μαύρα και - άσπρα σφαιρίδια. Σύνολα της μορφής αυτής μπορούν να κατασκευασθούν σε 3 βήματα. i) Επιλογή, χωρίς επανάθεση και χωρίς να ενδιαφέρει η διάταξη, των μαύρων από τα m μαύρα σφαιρίδια (αυτό μπορεί να m γίνει με τρόπους). ii) Επιλογή, χωρίς επανάθεση και χωρίς να ενδιαφέρει η διάταξη, των - άσπρων από τα N-m άσπρα σφαιρίδια. (αυτό μπορεί N m να γίνει με τρόπους). iii) Συνδυασμός των παραπάνω επιλογών και επιλογή ενός από m N m τα! δυνατά διατεταγμένα σύνολα με μαύρα και - άσπρα σφαιρίδια. Επομένως, δηλαδή X h(;n,,m). m N m! P(X ) N () m N m N Παρατήρηση: Το προηγούμενο μοντέλο της υπεργεωμετρικής κατανομής οδηγεί στο συμπέρασμα ότι μια τυχαία μεταβλητή που ακολουθεί την υπεργεωμετρική κατανομή μπορεί να παρασταθεί σαν άθροισμα m ισόνομων τυχαίων μεταβλητών Beroulli κάθε μια από τις οποίες παίρνει τις τιμές και 0 με πιθανότητες 3

m N m p και q N N αντίστοιχα. Πράγματι, για i j ισχύει P(X i, X j ) P(X i X j ) P(X j ) ενώ m P(X i ) P(X j ) N m N m N Είναι χρήσιμο να παρατηρήσει κανείς την διαφορά της υπεργεωμετρικής κατανομής από την διωνυμική κατανομή όπου, όπως είδαμε στο μοντέλο (ii) της διωνυμικής κατανομής τα X i είναι ανεξάρτητες και ισόνομες τυχαίες μεταβλητές Beroulli. Στην θεώρηση αυτών των δύο κατανομών ως αποτελέσματος τυχαίας δειγματοληψίας, η παρατήρηση αυτή συνεπάγεται ότι η δειγματοληψία χωρίς επανάθεση έχει σαν αποτέλεσμα οι παρατηρήσεις (τυχαίες μεταβλητές) να είναι εξαρτημένες. Το γεγονός αυτό καθιστά αδύνατη την χρησιμοποίηση της μεθόδου των γεννητριών συναρτήσεων πιθανοτήτων για τον καθορισμό της κατανομής πιθανότητας μιας υπεργεωμετρικής τυχαίας μεταβλητής ως αθροίσματος τυχαίων μεταβλητών Beroulli. Παρατήρηση: Εκ πρώτης όψεως ίσως φαίνεται παράδοξο το γεγονός ότι στην υπεργεωμετρική κατανομή η πιθανότητα επιτυχίας (μαύρου σφαιριδίου) σε μια δοκιμή είναι σταθερή (ανεξάρτητη από την συγκεκριμένη δοκιμή). Αυτό οφείλεται στο γεγονός ότι αναφερόμαστε στην περιθώρια πιθανότητα επιτυχίας στην k δοκιμή και όχι στην δεσμευμένη πιθανότητα. Δεν μας ενδιαφέρει δηλαδή τι έγινε στις προηγούμενες k- δοκιμές. Αν μας ενδιέφερε η πιθανότητα επιτυχίας στην k δοκιμή δοθέντων των αποτελεσμάτων των προηγουμένων k- δοκιμών η κατάσταστη θα ήταν, όπως είναι φυσικό, διαφορετική. Εφαρμογές της Υπεργεωμετρικής Κατανομής Στατιστικός Έλεγχος Ποιότητας (Statistical Quality Cotrol) 33

Στην βιομηχανία, όπως είναι γνωστό, ενδιαφέρει ο καθορισμός του ποσοστού των ελαττωματικών αντικειμένων που φθάνουν στην αγορά, και ο περιορισμός του σε προκαθορισμένα ανεκτά επίπεδα. Σε πολλές περιπτώσεις δεν είναι δυνατόν να ελεγχθεί κάθε αντικείμενο που παράγεται, είτε διότι ο έλεγχος είναι πολύ δαπανηρός, είτε διότι συνεπάγεται καταστροφή του ελεγχόμενου προϊόντος. Σε τέτοιες περιπτώσεις χρησιμοποιείται μια μέθοδος δειγματικού ελέγχου που χρησιμοποιεί την έννοια της υπεργεωμετρικής κατανομής. Έστω ότι τα παραγόμενα αντικείμενα είναι ή ελαττωματικά ή μη ελαττωματικά και ότι φθάνουν στο τμήμα ελέγχου σε πακέτα μεγέθους Ν αντικειμένων. Από κάθε πακέτο επιλέγεται τυχαία για έλεγχο ένα δείγμα μεγέθους. Έστω Χ ο αριθμός των ελαττωματικών αντικειμένων στο δείγμα. Εάν το Χ είναι μεγάλο, είναι πιθανόν το πακέτο να περιέχει πολλά ελαττωματικά οπότε θα πρέπει να απορριφθεί. Αντίστροφα, αν το Χ ειναι μικρό, είναι πιθανόν το πακέτο να περιέχει λίγα ελαττωματικά οπότε θα πρέπει να θεωρηθεί αποδεκτό. Αυτό οδηγεί σε ένα κανόνα δεκτό το πακέτο αν Χ<c, απορριπτέο αν Χ c (ή ανάγκη για παραπέρα έλεγχο). Ο καθορισμός του και του c εξαρτάται από το ανεκτό περιθώριο λαθών και το κόστος ελέγχου. Παράδειγμα: Έστω ότι τα νέα πρϊόντα μιας παραγωγής φθάνουν για έλεγχο σε πακέτα των N50 αντικειμένων και ότι ένα τυχαίο δείγμα 0 από αυτά περνά από έλεγχο. Το πακέτο θεωρείται αποδεκτό αν το δείγμα περιέχει το πολύ ένα ελαττωματικό αντικείμενο. Να καθορισθούν οι πιθανότητες αποδοχής του πακέτου ως συναρτήσεις του αριθμού m των ελαττωματικών αντικειμένων σ' αυτό. Λύση: Η πιθανότητα ότι ένα τυχαίο δείγμα μεγέθους 0 περιέχει ακριβώς ελαττωματικά δίνεται από τον τύπο της υπεργεωμετρικής κατανομής 34

m 50 m 0 P(X) 50, 0,,,... 0 (μια και φυσικά πρόκειται για δειγματοληψία χωρίς επανάθεση). Η πιθανότητα αποδοχής του πακέτου είναι 50 m m 50 m 50 P(X ) P(X0) + P(X) + 0 9 0 Η πιθανότητα αποδοχής του πακέτου είναι για m0 και m ενώ είναι δυνατόν να προσδιορισθεί επαγωγικά για m>. Ο πίνακας που ακολουθεί δίνει τις πιθανότητες αποδοχής p για διαφορετικές τιμές του m. Πίνακας Πιθανότητες αποδοχής ως συναρτήσεις του m m 4 8 6 0 4 p 0.86 0.49 0.36 0.094 0.03 0.008 Σε πολλά προβλήματα, όπως αυτό του προηγούμενου παραδείγματος, είναι αναγκαίο να υπολογισθεί η P() για αρκετές διαδοχικές τιμές του. Μια απλή μέθοδος για τον υπολογισμό των πιθανοτήτων αυτών συνίσταται στον υπολογισμό της P() από τον τύπο για την μικρότερη από τις τιμές του που μας ενδιαφέρει και κατόπιν στον υπολογισμό των υπολοίπων πιθανοτήτων μέσω του αναγωγικού τύπου P() r() P(-) όπου r() είναι ο λόγος δύο διαδοχικών όρων: P() (m + )( + ) r() P( ) (N m + ) Μέθοδος Σύλληψης και Επανασύλληψης (Capture-recapture method) Η διαδικασία που ακολουθεί χρησιμοποιείται αρκετές φορές για τον κατα προσέγγιση υπολογισμό (εκτίμηση) του μεγέθους ενός πληθυσμού ζώων όπως για παράδειγμα τον αριθμό Ν των ψαριών σε 35

μια λίμνη. Αρχικά, ψαρεύονται μερικά ψάρια, έστω m, σημειώνονται, έτσι ώστε να είναι δυνατόν να αναγνωρισθούν στο μέλλον, και επιστρέφονται στην λίμνη. Η λίμνη τότε περιέχει m σημειωμένα ψάρια και Ν-m μη σημειωμένα. Στην συνέχεια, συγκεντρώνεται ένα δεύτερο δείγμα απο ψάρια. Υποθέτοντας ότι το δείγμα αυτό είναι τυχαίο, έχουμε ότι η πιθανότητα να περιέχει σημειωμένα ψάρια θα δίνεται από την υπεργεωμετρική κατανομή. Μια λογική εκτίμηση για τον συνολικό αριθμό ψαριών στην λίμνη είναι στην περίπτωση αυτή m η τιμή. Πρόταση: Αν X h(;n,,m), τότε N m E(X) p, Δ(X) p(-p) όπου p N N Απόδειξη: Έχουμε ήδη δει ότι ΧX +X +...+X m όπου Χ i, i,,...,m είναι τυχαίες μεταβλητές Beroulli. Ισχύει ότι E(Χ i ) E( Χ i ) p και Δ(Χ i ) p(-p) Επομένως, E(X) E(Χ i ) p i Για τον υπολογισμό της Δ(X) απαιτείται προηγουμένως ο καθορισμός της Cov(Χ i,x j ) μια και οι τυχαίες μεταβλητές X, X,..., X m είναι εξαρτημένες. Επειδή m(m ) P(X i, X j ) N(N ) έχουμε m(m E(X i X j ) P( i, j ) i j P(X i, X j ) N(N Επομένως, m(m ) m Cov(X i,x j ) E(X i X j ) - E(X i ) E(X j ) N(N ) N ) ) 36

m N m N m(m N) N (N ) p( N p) m N m Nm N 37 N Nm + (N )N m (Το αρνητικό πρόσημο της συνδιασποράς εξηγείται από το γεγονός ότι εκλογή μαύρου σφαιριδίου στην j δοκιμή ελαττώνει την πιθανότητα επιλογής μαύρου σφαιριδίου στην i επιλογή). Τελικά Δ ( X ) Δ ( X i ) Δ ( X i ) + Cov ( X i X j ) p( - p) + N p( p) N p ( p) N j< i Παρατήρηση: Σύγκριση της ιδιότητας αυτής της υπεργεωμετρικής κατανομής με την αντίστοιχη ιδιότητα της διωνυμικής κατανομής οδηγεί στο συμπέρασμα ότι η διωνυμική και η υπεργεωμετρική κατανομή έχουν την ίδια μέση τιμή ενώ η διασπορά της υπεργεωμετρικής είναι μικρότερη της αντίστοιχης διασποράς της N διωνυμικής κατά ένα παράγοντα. Ο παράγοντας αυτός λέγεται N παράγοντας διόρθωσης (correctio factor) ή διόρθωση πεπερασμένου πληθυσμού (fiite populatio correctio). N Επειδή N είναι προφανές ότι η διασπορά της N υπεργεωμετρικής κατανομής συγκλίνει στην διασπορά της διωνυμικής κατανομής όταν το Ν αυξάνει. Αναμένεται λοιπόν να υπάρχει κάποια προσέγγιση της υπεργεωμετρικής κατανομής από την διωνυμική κατανομή στην περίπτωση αυτή. Πράγματι, ισχύει το παρακάτω θεώρημα.

Θεώρημα: h(;n,,m) b(;,p) N για σταθερά, και σταθερό N m p. Απόδειξη: m N m h(;n,,m) P(X) N (m(m )...(m + )(N m)(n m )...(N m + + )! N(N )...(N + )(N )(N )...(N + )!( )! Αλλά, για σταθερό m k N k Επίσης, N m k N k Επομένως, N m N p, -pq, N h(;n,,m) N k σταθερό, k0,,,...,- p q - k σταθερό, k0,,,...,-- b (;,p) r Το προηγούμενο θεώρημα αποδεικνύει ότι, για αρκετά μεγάλο Ν και m, η υπεργεωμετρική κατανομή μπορεί να προσεγγισθεί από την διωνυμική κατανομή. Αυτό είναι λογικό μια και στα μοντέλα δειγματοληψίας, όταν η δειγματοληψία γίνεται χωρίς επανάθεση και το Ν είναι αρκετά μεγάλο, δεν περιμένει κανείς σημαντική διαφοροποίηση αν κάθε στοιχείο που επιλέγεται επανατοποθετείται πριν την επόμενη επιλογή. Είναι επίσης ενδιαφέρον να παρατηρηθεί ότι η σχέση της διασποράς της υπεργεωμετρικής με την διασπορά της διωνυμικής κατανομής οδηγεί στο συμπέρασμα ότι η δειγματοληψία χωρίς 38

επανάθεση δίνει ακριβέστερα αποτελέσματα (μικρότερη διασπορά) από ότι η δειγματοληψία με επανάθεση. Παράδειγμα: Ο αριθμός των ενηλίκων κατοίκων μιας πόλης είναι 75.000, από τους οποίους 500 είναι οικονομολόγοι. Σε μια δειγματοληπτική έρευνα γίνεται μια τυχαία επιλογή 5 ενηλίκων χωρίς επανάθεση. Να υπολογισθεί η πιθανότητα το δείγμα αυτό να περιλαμβάνει το πολύ ένα οικονομολόγο. Λύση: Έστω Χ ο αριθμός των οικονομολόγων στο δείγμα. Τότε X h(;75000, 5,,500) Επομένως, 500 74500 75000 P(X), 0,,,... 5 5 Η ζητούμενη πιθανότητα είναι 74500 P(X ) P(X0)+P(X) 500 74500 74500 + 5 4 5 0.98798 Επειδή η τιμή του Ν είναι πολύ μεγάλη σε σχέση με την τιμή του μπορούμε να χρησιμοποίησουμε και την διωνυμική προσέγγιση της υπεργεωμετρικής κατανομής. m 500 Έτσι p και επομένως N 75000 50 39

και 5 P(X) 50 P(X ) b 0; 49 50 5; 50 5 + b ;, 0,,,... 5; 50 49 50 5 4 5 49 + 50 50 0.98796 Παρατηρούμε δηλαδή ότι η προσέγγιση είναι πάρα πολύ ικανοποιητική. Η ΚΑΤΑΝΟΜΗ POISSON Ορισμός: Έστω Χ μία διακριτή τυχαία μεταβλητή με τιμές 0,,,... θα λέμε ότι η τυχαία μεταβλητή Χ ακολουθεί την κατανομή Poisso με παράμετρο λ και θα γράφουμε X P(;λ) αν λ P(X) e -λ, 0,,,..., λ>0! Παρατήρηση: Η κατανομή Poisso είναι μία καλά ορισμένη κατανομή μια και P() 0 και λ λ λ λ P( ) e e e 0 0! Ιδιότητες: α) Ε(X) λ β) Δ(X) λ Μοντέλα που οδηγούν στην κατανομή Poisso Η κατανομή Poisso ως νόμος των σπανίων γεγονότων Η κατανομή Poisso είναι η πιο συχνά χρησιμοποιούμενη κατανομή για την περιγραφή του αριθμού των γεγονότων ή σημείων για κάποια περιοχή χώρου ή χρόνου όταν η κατανομή και η εμφάνιση τέτοιων γεγονότων γίνεται με τυχαίο τρόπο. Για 40

παράδειγμα, ας πάρουμε την απλούστερη περίπτωση όπου τα γεγονότα κατανέμονται τυχαία στο διάστημα (, + ) με τρόπο ώστε: ) Οι αριθμοί των γεγονότων που συμβαίνουν σε δύο ξένα μεταξύ τους διαστήματα κατανέμονται ανεξάρτητα ο ένας από τον άλλο. ) Ο αναμενόμενος αριθμός γεγονότων σε ένα πεπερασμένο διάστημα I είναι πεπερασμένος και ανάλογος του μήκους του διαστήματος (έστω λ I, λ>0). 3) Η πιθανότητα να συμβούν περισσότερα από ένα γεγονότα στο I τείνει στο 0 ταχύτερα από ότι το I όταν I 0. (Εναλλακτικά, η συνθήκη αυτή καθορίζει ότι η πιθανότητα περισσότερων από ένα γεγονότων σε κάποιο διάστημα που το μήκος του τείνει στο μηδέν είναι μηδέν). Όταν οι παραπάνω συνθήκες ικανοποιούνται λέμε ότι το υπό συζήτηση φαινόμενο ακολουθεί την στοχαστική ανέλιξη Poisso με παράμετρο λ. Έστω Χ ο αριθμός των γεγονότων στο διάστημα (0,t). Για να βρούμε την κατανομή του Χ διαιρούμε το διάστημα (0,t) σε υποδιαστήματα ίσου μήκους m t. Σύμφωνα με τα προηγούμενα, P(ένα γεγονός στο διάστημα t λ t P(X> στο διάστημα t ) 0 ) Προφανώς ένα γεγονός ή συμβαίνει ή δεν συμβαίνει στο t διάστημα. Επομένως, η πραγματοποίηση ενός γεγονότος σε ένα υποδιάστημα μπορεί να χαρακτηρισθεί σαν μία δοκιμή Beroulli. Λόγω δε της συνθήκης () έχουμε μία ακολουθία δοκιμών Beroulli με πιθανότητα επιτυχίας λt. Μας ενδιαφέρει ο καθορισμός της πιθανότητας επιτυχιών. Επομένως, 4

Αν έχουμε lim lim P ( X ) λt - Για καθορισμένο έχουμε ( )...( + ) λt ( )...( + )( λt ) λt lim - lim... -! - λt λt - λt Επίσης, λ λ λ lim e και lim Επομένως, ( X ) ( λt) λt lim P e, 0,,,...! Αν πάρουμε t (δηλαδή θεωρήσουμε ένα διάστημα μήκους ) τότε P λ! λ ( X ) e, 0,,,... Παρατήρηση: Από την προηγούμενη συζήτηση προκύπτει ότι η παράμετρος λ της κατανομής Poisso εκφράζει τον μέσο αριθμό των γεγονότων στην μονάδα του χρόνου. Το προηγούμενο μοντέλο που οδηγεί στην κατανομή Poisso δίνει την δυνατότητα διατύπωσης και του παρακάτω θεωρήματος που αναφέρεται στην χρησιμοποίηση της κατανομής Poisso ως ορίου της διωνυμικής κατανομής. 4

Θεώρημα: (Η κατανομή Poisso ως προσέγγιση της διωνυμικής κατανομής). Έστω Χ b(;,p). Αν και p 0 έτσι ώστε pλ, όπου λ σταθερά, τότε λ λ P ( X ) e, 0,,,...! Απόδειξη: Η απόδειξη προκύπτει από τα προηγούμενα. Σημείωση: Για τον υπολογισμό διαδοχικών πιθανοτήτων από την κατανομή Poisso μπορεί να χρησιμοποιηθεί ο αναγωγικός τύπος P( ) λ P ( ) Παραδείγματα: Η κατανομή Poisso έχει πάρα πολλές εφαρμογές. Ενδεικτικά αναφέρονται τομείς όπου η κατανομή έχει εφαρμοσθεί με επιτυχία. ) Αριθμός ατυχημάτων σε ένα ορισμένο χρονικό διάστημα σε μία συγκεκριμένη περιοχή. ) Αριθμός αιτήσεων αποζημίωσης σε ασφαλιστική εταιρία σε κάποιο χρονικό διάστημα. 3) Αριθμός μειοδοτών σε κάποιο μειοδοτικό διαγωνισμό. 4) Αριθμός τηλεφωνημάτων που φθάνουν σε ένα τηλεφωνικό κέντρο σε μία ορισμένη χρονική περίοδο της ημέρας. 5) Αριθμός διασπάσεων χρωμοσωμάτων στα κύτταρα που δημιουργούν οι ακτίνες Χ. 6) Αριθμός των τυπογραφικών λαθών σε μία σελίδα βιβλίου. Η κατανομή Poisso δεν αναφέρεται μόνο σε αριθμό γεγονότων στον χρόνο. Μία άλλη εφαρμογή της είναι στην κατανομή αντικειμένων στο χώρο. Έστω, για παράδειγμα, ότι οι οργανισμοί κατανέμονται τυχαία μέσα σε ένα υγρό όγκο V, έτσι ώστε η πιθανότητα κάποιος οργανισμός να βρίσκεται σε μία συγκεκριμένη σταγόνα όγκου D είναι D/V. Η παρουσία των οργανισμών μέσα ή έξω από την σταγόνα μπορεί να θεωρηθεί σαν 43

μία ακολουθία ανεξάρτητων δοκιμών με σταθερή πιθανότητα επιτυχίας D/V σε κάθε δοκιμή. Στην πράξη το είναι συνήθως πολύ μεγάλο ενώ το D/V είναι πολύ μικρό. Επομένως, η κατανομή του αριθμού Χ των οργανισμών σε μία σταγόνα όγκου D μπορεί να προσεγγισθεί με την κατανομή Poisso με μέση τιμή λd όπου λ V είναι ο μέσος αριθμός οργανισμών ανά μονάδα όγκου του διαλύματος λd (λd) P() e, 0,,,! Παράδειγμα: Τα ελαττώματα κατασκευής σε μεγάλα φύλλα ενός μετάλλου εμφανίζονται τυχαία και με συχνότητα, κατά μέσο όρο,.56 ανά 00 τετραγωνικά μέτρα. (α) Να υπολογισθεί η πιθανότητα ανά φύλλο διαστάσεων 4μ 8μ να μην υπάρχουν καθόλου ελαττώματα. (β) Πόσα φύλλα της μορφής αυτής από μία παρτίδα των 00 αναμένεται να έχουν δύο ή περισσότερα ελαττώματα; Λύση: Έστω Χ ο αριθμός των ελαττωμάτων ανά φύλλο διαστάσεων 4μ 8μ. Μπορεί να θεωρηθεί ότι το Χ ακολουθεί την κατανομή Poisso με παράμετρο λ.56 0.3 0.89. Επομένως, α) P(X0) e -0.89 0.4408 β) P(X ) -P(X0) - P(X) - e -0.89-0.89 e -0.89. Επομένως ο αναμενόμενος αριθμός είναι 9.8. Η ΓΕΩΜΕΤΡΙΚΗ ΚΑΤΑΝΟΜΗ Στον ορισμό της διωνυμικής κατανομής είδαμε ότι η κατανομή αυτή μπορεί να προέλθει από μια ακολουθία δοκιμών Beroulli όπου ο αριθμός των δοκιμών είναι σταθερός και μας ενδιαφέρει ο αριθμός Χ των επιτυχιών στις αυτές δοκιμές. Θα ασχοληθούμε τώρα με μια διαφορετική θεώρηση ακολουθίας δοκιμών Beroulli. Στην θεώρηση αυτή ο αριθμός των δοκιμών Beroulli δεν είναι προκαθορισμένος. Αυτό γιατί μας ενδιαφέρει να μελετήσουμε όχι τον αριθμό των επιτυχιών, αλλά τον αριθμό των αποτυχιών Χ που θα συναντήσουμε μέχρις ότου 44

φθάσουμε στην k επιτυχία. Η θεώρηση αυτή οδηγεί στην γεωμετρική κατανομή και στην γενίκευσή της, την αρνητική διωνυμική κατανομή. Ορισμός: Έστω Χ μια διακριτή τυχαία μεταβλητή. Θα λέμε ότι η Χ ακολουθεί την γεωμετρική κατανομή (geometric distributio) με παράμετρο p και θα συμβολίζουμε με Χ~G(;p) αν P(X)pq, 0,,,, 0<p<, q-p Παρατήρηση: Η γεωμετρική κατανομή είναι μια καλά ορισμένη κατανομή γιατί P() 0 και P() pq q q Πρόταση: E(X) Δ (X). p p Απόδειξη: Η απόδειξη είναι εύκολη αν κανείς κάνει χρήση του ορισμού της Ε(Χ) και στην συνέχεια της Ε(Χ ) και του γεγονότος ότι Δ(Χ)Ε(Χ )-{Ε(Χ)}. Παρατήρηση: Ο όρος γεωμετρική κατανομή προέρχεται από το γεγονός ότι οι πιθανότητές της αποτελούν τους όρους μιας γεωμετρικής σειράς με λόγο q-p. Μοντέλα που οδηγούν στην γεωμετρική κατανομή i) Θεωρούμε μία ακολουθία δοκιμών Beoulli. Έστω Χ ο αριθμός των αποτυχιών πριν εμφανισθεί η πρώτη επιτυχία. Τότε P(X) p (-p), 0,,, Απόδειξη: Προφανής αφού μιλάμε για ακολουθία δοκιμών Beroulli. ii) Μία εναλλακτική παρουσίαση στην βιβλιογραφία της γεωμετρικής κατανομής είναι ως κατανομή του αριθμού Υ των δοκιμών που απαιτούνται για να επιτευχθεί η πρώτη επιτυχία σε μία ακολουθία δοκιμών Beroulli. Στην περίπτωση αυτή P(Yy) p (-p) y-, y,, Η ισοδυναμία των μοντέλων (i) και (ii) είναι προφανής μια και YX+. 45

iii) Δειγματοληψία από υδρία: Σε μία υδρία υπάρχουν άσπρα και μαύρα σφαιρίδια σε αναλογία p μαύρα και -p άσπρα. Επιλέγουμε στην τύχη σφαιρίδια από την υδρία με επανάθεση. (Σε κάθε επιλογή σημειώνουμε το χρώμα του σφαιριδίου και το επανατοποθετούμε στην υδρία πριν από την επόμενη επιλογή). Ο αριθμός των άσπρων σφαιριδίων που θα επιλεγούν πριν επιλεγεί το πρώτο μαύρο σφαιρίδιο ακολουθεί την γεωμετρική κατανομή με παράμετρο p. Για την γεωμετρική κατανομή έχουμε, για κάθε θετικό ακέραιο α α α α pq α P(X < α) P() pq pq q 0 0 α q Επίσης, P(X α ) - P(X < α) q α Παράδειγμα. (Ρωσική ρουλέτα): Έστω ότι έχουμε ένα εξάσφαιρο περίστροφο το οποίο έχει μόνο μία σφαίρα. i) Να βρεθεί η πιθανότητα να εκπυρσοκροτήσει το περίστροφο με την πρώτη δοκιμή. ii) Να βρεθεί η πιθανότητα να εκπυρσοκροτήσει το περίστροφο πριν την τέταρτη δοκιμή. iii) Να βρεθεί οαριθμός των δοκιμών που απαιτούνται για να εκπυρσοκροτήσει το περίστροφο. Λύση: Έστω Χ ο αριθμός των δοκιμών (αποτυχίων) πριν εκπυρσοκροτήσει (επιτυχία) το περίστροφο. Είναι i) P(X 0) p( p) 0. 6 3 3 5 ii) P(X < 3) p. 6 q 5 6 iii) E(X + ) E(X) + + + 6. p 6 Άλλα παραδείγματα 46

) Ιατρική. Μία τράπεζα αίματος χρειάζεται αίμα ομάδας Β ρέζους αρνητικού και συνεχίζει να αγοράζει αίμα από ιδιώτες μέχρις ότου εμφανισθεί κάποιος με αυτή την ομάδα αίματος. Αν οι αγορές αίματος γίνονται ανεξάρτητα η μία από την άλλη, ο αριθμός Χ των αγορών που θα γίνουν πριν εμφανισθεί κάποιος με την συγκεκριμένη ομάδα αίματος ακολουθεί την γεωμετρική κατανομή. ) Τυχερά παιχνίδια. Ενας παίκτης ρουλέτας στοιχηματίζει το ίδιο ποσόν α στον ίδιο αριθμό μέχρις ότου κερδίσει για πρώτη φορά. Αν οι στροφές της ρουλέτας γίνονται ανεξάρτητα η μία από την άλλη, ο αριθμός Χ των φορών που ο παίκτης θα χάσει πριν κερδίσει για πρώτη φορά ακολουθεί την γεωμετρική κατανομή. Σημείωση: Στο κεφάλαιο 4 δόθηκε ο ορισμός της μέσης τιμής. Στον ορισμό αυτό τονίστηκε ότι ο ορισμός έχει έννοια εφόσον η σειρά που ορίζει την μέση τιμή συγκλίνει. Η γεωμετρική κατανομή μας δίνει την δυνατότητα παρουσίασης του εξής παραδείγματος όπου η μέση τιμή δεν υπάρχει. Παράδειγμα: Έστω ότι σε ένα τυχερό παιχνίδι ο παίκτης έχει πιθανότητα p να κερδίσει μία παρτίδα του παιχνιδιού. Έστω ότι ο παίκτης ακολουθεί ένα σύστημα σύμφωνα με το οποίο διπλασιάζει το ποσόν το οποίον στοιχηματίζει μέχρις ότου κερδίσει για πρώτη φορά, ενώ ξεκινά με στοίχημα μιας δραχμής. (Έτσι αν χάσει την πρώτη φορά, την δεύτερη στοιχηματίζει δύο δραχμές, την τρίτη 4 δραχμές κ.ο.κ.). Το σύστημα αυτό δίνει μια σίγουρη μέθοδο για να πάρει ο παίκτης πίσω ότι έχει χάσει και επιπλέον να κερδισει μία δραχμή. Να βρεθεί το ποσόν που ο παίκτης πρέπει να έχει διαθέσιμο ώστε μα είναι σε θέση να διατηρήσει το σύστημα με το οποίο στοιχηματίζει. Λύση: Η πιθανότητα να κερδίσει για πρώτη φορά ο παίκτης στην k δοκιμή είναι k P(X k ), k,, 47

Έστω Ζ το ποσόν που ο παίκτης χρειάζεται για να είναι σε θέση να συνεχίσει το παιχνίδι μέχρις ότου κερδίσει για πρώτη φορά. Το ποσόν που χρειάζεται για να είναι σε θέση να παίξει μέχρι και την k παρτίδα είναι ++4+ + k- k -. Επομένως, η Ζ είναι μια τυχαία μεταβλητή που παίρνει τις τιμές k -, k,,. Η πιθανότητα να χρειασθεί ο παίκτης k - δραχμές για να κερδίσει για πρώτη φορά είναι η ίδια με την πιθανότητα να κερδίσει για πρώτη φορά στην k δοκιμή. Δηλαδή, k k ) P(X k ), k,, P(Z Επομένως, το ποσόν που πρέπει, κατά μέσο όρο, να έχει ο παίκτης στην διάθεση του για να είναι σε θέση να συνεχίσει να παίζει μέχρις ότου κερδίσει είναι k 3 7 5 E(Z) ( ) + + + +... k k 4 8 6 Δηλαδή, κατά μέσο όρο, δεν υπάρχει πεπερασμένο ποσό χρημάτων αρκετό να υποστηρίξει το σύστημα αυτού του παιχνιδιού. Η ΑΡΝΗΤΙΚΗ ΔΙΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ Έστω Χ μια διακριτή τυχαία μεταβλητή. Θα λέμε ότι η Χ ακολουθεί την αρνητική διωνυμική κατανομή (η αλλιώς την κατανομή Pascal) με παραμέτρους p και r και θα συμβολίζουμε με X NB(;r,p), αν + r r + r r P(X ) p q p q 0,,, r r,, 0<p<, q-p Παρατήρηση: Ο ορισμός αυτός είναι ο κλασσικός ορισμός της αρνητικής διωνυμικής κατανομής. Είναι όμως δυνατόν να επεκταθεί έτσι ώστε να περιλαμβάνει και μη ακέραιες τιμές της παραμέτρου r. Αυτό γίνεται με την χρήση του γενικευμένου ορισμού του διωνυμικού συντελεστή σύμφωνα με τον οποίο για κάθε πραγματικό αριθμό α και για κάθε μη αρνητικό ακέραιο 48

α α () α(α )...(α + )!! Είναι εύκολο να διαπιστωθεί ότι η αρνητική διωνυμική κατανομή είναι μία καλά ορισμένη κατανομή. Αυτό γιατί P() 0, 0,,, και 0 P() 0 + r p r q p r 0 + r q r p ( q) r Ο παραπάνω τύπος είναι αποτέλεσμα της γενίκευσης του διωνυμικού θεωρήματος όπου για 0 < q < r - r + r ( q) ( q) q 0 0 μια και από την την γενίκευση του διωνυμικού συντελεστή έχουμε για κάθε πραγματικό r r ( r)( r )...( r ) ( ) r(r + )...(r + )!! ( ) (r -)!r(r + )...(r!(r -)! + ) ( ) (r + )!!(r -)! ( ) r + 49

Μοντέλα που οδηγούν στην αρνητική διωνυμική κατανομή i) Έστω Χ ο αριθμός των αποτυχιών μέχρις ότου εμφανισθούν r επιτυχίες σε μια ακολουθία δοκιμών Beroulli. Τότε το Χ ακολουθεί την αρνητική διωνυμική κατανομή με παραμέτρους r και p. Απόδειξη: Το ενδεχόμενο {Χ} είναι ισοδύναμο με το ενδεχόμενο {σε +r δοκιμές r επιτυχίες με τρόπο ώστε η τελευταία επιτυχία να πραγματοποιηθεί στην +r δοκιμή}. Το ενδεχόμενο αυτό είναι ισοδύναμο με το ενδεχόμενο {r+ επιτυχίες και αποτυχίες με οποιαδήποτε σειρά στις πρώτες +r- δοκιμές και επιτυχία στην +r δοκιμή}. Επειδή οι δοκιμές είναι ανεξάρτητες + r P(X ) p r r q + r p p r Σημείωση: Από τον τύπο της αρνητικής διωνυμικής κατανομής, αλλά και από το προηγούμενο μοντέλο προκύπτει ότι για r η αρνητική διωνυμική είναι η γεωμετρική κατανομή. ii) Δειγματοληψία από υδρία: Σε μία υδρία υπάρχουν άσπρα και μαύρα σφαρίδια σε αναλογία (ποσοστό) p μαύρα και -pq άσπρα. Ο αριθμός των άσπρων ασφαιριδίων που θα επιλεγούν μέχρις ότου επιλεγούν μαύρα σφαρίδια ακολουθεί την αρνητική διωνυμική κατανομή με παραμέτρους p και r. Το μοντέλο αυτό δικαιολογεί και την ονομασία της κατανομής ως αρνητική διωνυμική. Αυτό γιατί όπως η διωνυμική έτσι και η αρνητική διωνυμική κατανομή προκύπτει από δειγματοληψία με επανάθεση (ακολουθία δοκιμών Beroulli). Στην διωνυμική όμως ο αριθμός των δοκιμών είναι καθορισμένος ενώ ο αριθμός r των επιτυχιών είναι τυχαία μεταβλητή, ενώ αντίθετα στην αρνητική διωνυμική ο αριθμός r των επιτυχιών είναι καθορισμένος ενώ ο αριθμός των αποτυχιών (ισοδύναμα των δοκιμών) είναι τυχαία μεταβλητή. Μια ισοδύναμη παρουσίαση της αρνητική διωνυμικής μπορεί να γίνει μέσω του αριθμού των δοκιμών που απαιτούνται σε μια ακολουθία Beroulli για να παρατηρηθούν r επιτυχίες. Έστω Υ ο αριθμός αυτός. Τότε r q 50

P(Y Προφανώς ΥΧ+r. y r r r y) p q y, yr, r+, r,, 0<p<, q-p iii) Η αρνητική διωνυμική ως άθροισμα γεωμετρικών τυχαίων μεταβλητών. Έστω, Χ, Χ,, Χ r μια ακολουθία ανεξάρτητων και ισόνομων τυχαίων μεταβλητών που ακολουθούν την γεωμετρική κατανομή με παράμετρο p. Θεωρούμε την τυχαία μεταβλητή Χ Χ +Χ + + Χ r. Η τυχαία μεταβλητή Χ ακολουθεί την αρνητική διωνυμική κατανομή με παραμέτρους r και p. Απόδειξη: Η απόδειξη μπορεί να στηριχθεί στον συλλογισμό ότι ο αριθμός των αποτυχιών Χ μέχρι την πρώτη αποτυχία ακολουθεί την γεωμετρική κατανομή. Το ίδιο συμβαίνει και με τον αριθμό των αποτυχιών Χ που μεσολαβούν από την πρώτη μέχρι την δεύτερη επιτυχία και γενικά τον αριθμό των αποτυχιών Χ i που μεσολαβούν από την i- έως την i επιτυχία (i,,,r). Επομένως, Χ +Χ + + Χ r είναι ο συνολικός αριθμός των αποτυχιών μέχρις ότου εμφανισθεί η r επιτυχία. Πρόταση: Αν η τυχαία μεταβλητή Χ ακολουθεί την αρνητική διωνυμική κατανομή, τότε rq rq E(X) Δ (X) p p Απόδειξη: Η απόδειξη είναι εύκολη αν κάνει κανείς χρήση της έκφρασης της Χ ως Χ +Χ + + Χ r, όπου Χ i, i,,,r ανεξάρτητες και ισόνομες γεωμετρικές τυχαίες μεταβλητές. Παράδειγμα: Μια γραμματέας κάνει, κατά μέσο όρο, δύο τυπογραφικά λάθη ανά σελίδα. Σελίδες με περισσότερα από δύο τυπογραφικά λάθη πρέπει να ξαναγραφούν. Πόσες σελίδες συνολικά αναμένεται να δακτυλογραφήσει ώστε ένα κείμενο 00 σελίδων, να είναι αποδεκτό; 5

Λύση: Έστω Ζ ο αριθμός των σελίδων, Χ ο αριθμός των αποτυχιών πριν την 00στη αποδεκτή σελίδα και Υ ο αριθμός των λαθών ανά σελίδα. Είναι λογικό από τις συνθήκες του προβλήματος να υποθέσει κανείς ότι το Χ ακολουθεί την κατανομή Poisso με λ και το Υ την αρνητική διωνυμική κατανομή με r00. Έτσι p P(Y ) P(Y0) + P(Y) + P(Y) e + e + e 5e! Άρα ο αριθμός των σελίδων που αναμένεται να δακτυλογραφηθούν είναι 00( 5e ) Ε(Ζ) Ε(Χ+00) Ε(Χ)+00 47.8+00 47.8. 5e Η ΠΟΛΥΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ Ορισμός: Έστω Χ, Χ,, Χ k μια ακολουθία διακριτών τυχαίων μεταβλητών. Θα λέμε ότι το διάνυσμα X ~ (Χ, Χ,, Χ k ) ακολουθεί την πολυωνυμική κατανομή με παραμέτρους p, p,, p k και, αν P(X, X,, X k k )! p!!...! k p k...p k με k i i, 0<p i <, i,, k, p, 0,,, k i i Παρατήρηση: Η πολυωνυμική κατανομή είναι μια καλά ορισμένη κατανομή μια και P( ~ X ~ )>0 και i i... k... P(X, X,,..., k ( p +p + +p k ). k,..., X p p k...p k k k ) 5

Μοντέλα που οδηγούν στην πολυωνυμική κατανομή Η πολυωνυμική κατανομή είναι φυσιολογική επέκταση της διωνυμικής κατανομής. Έτσι όλα τα μοντέλα της διωνυμικής μπορούν να επεκταθούν και να δώσουν την πολυωνυμική κατανομή. Για παράδειγμα, έστω ότι έχουμε μια ακολουθία ανεξάρτητων δοκιμών, κάθε μια από τις οποίες μπορεί να καταλήξει σε ένα από k δυνατά ενδεχόμενα Α,Α,, Α k αμοιβαία ξένα μεταξύ τους όπου Α, Α,, Α k μια διαμέριση του δειγματικού χώρου. Έστω p i P(A i ), i,, k η πιθανότητα του ενδεχομένου Α i και έστω ότι το p i παραμένει σταθερό από δοκιμή σε δοκιμή και p. Αν Χ i είναι ο αριθμός i εμφανίσεων του ενδεχομένου Α i σε δοκιμές, η από κοινού συνάρτηση κατανομής των Χ, Χ,, Χ k είναι η πολυωνυμική με παραμέτρους p, p,, p k και. Στα πλαίσια μοντέλων δειγματοληψίας, η πολυωνυμική κατανομή προκύπτει από δειγματοληψία με επανάθεση από υδρία που περιέχει σφαιρίδια k χρωμάτων σε αναλογία p, p,, p k. Περιθώριες κατανομές: Αν στην πολυωνυμική κατανομή ενδιαφερόμαστε μόνο για την πραγματοποίηση ή όχι του ενδεχομένου Α i, μπορούμε να θέσουμε p i P(A i ) και q i -p i - P(A ). Στην j j περίπτωση αυτή έχουμε ακολουθία δοκιμών Beroulli οπότε η πιθανότητα i επιτυχιών δίνεται από τον τύπο P(X i i ) p ( p i, i,,,k, 0,,,, i i i i ) i Επομένως, η περιθώρια κατανομή μιας μόνο μεταβλητής Χ i είναι διωνυμική με παραμέτρους και p i. Στο αποτέλεσμα αυτό μπορούμε να φθάσουμε και με αλγεβρικές μεθόδους αθροίζοντας την από κοινού συνάρτηση πιθανότητας ως προς όλες τις άλλες μεταβλητές εκτός της Χ i. 53

Παράδειγμα. (Νόμος των Hardy-Weiberg): Στον νόμο των Hardy- Weiberg (παράδειγμα κεφ. 4) είχαμε υπολογίσει ότι οι πιθανότητες (ποσοστά) με τις οποίες τα τρία είδη γονοτύπων ΑΑ, Αα και αα συναντώνται σε ένα πληθυσμό είναι P(AA)p, P(Αα)p(-p) και P(αα)(-p) όπου p είναι η πιθανότητα μεταφοράς του γονιδίου Α στον απόγονο. Έστω ότι επιλέγουμε τυχαία οκτώ άτομα από ένα πληθυσμό θέλοντας να καθορίσουμε τα γονότυπά τους. Να υπολογισθούν, συναρτήσει του p, οι πιθανότητες ότι (α) Δεν υπάρχουν γονότυπα της μορφής ΑΑ στο δείγμα. (β) Υπάρχουν δύο ΑΑ, τέσσερα Αα και δύο αα. (γ) Ποιά είναι η τιμή του p που δίνει την μέγιστη τιμή στην πιθανότητα του ερωτήματος (β); Λύση: Έστω Χ ο αριθμός των ΑΑ, Χ των Αα και Χ 3 των αα στο δείγμα. Τότε το τυχαίο διάνυσμα (Χ, Χ, Χ 3 ) ακολουθεί την πολυωνυμική κατανομή. 8 0 8 8 (α) P(μηδέν ΑΑ στο δείγμα)p(x 0) (p ) ( p ) ( p ) 0 8! 4 (β) P(X, X 4, X 3 ) (p ) (p( p)) (( p) )!4!! 670p 8 (-p) 8 (γ) P(X,X 4,X3 p ) 0 p. 54