Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 8 ου Πανελληνίου Συνεδρίου Στατιστικής (5) σελ.97-33 ΧΡΟΝΟΙ ΑΝΑΜΟΝΗΣ ΜΕΧΡΙ ΤΗΝ ΠΡΩΤΗ ΕΜΦΑΝΙΣΗ ΣΧΗΜΑΤΙΣΜΩΝ ΣΕ ΜΙΑ ΔΙΔΙΑΣΤΑΤΗ ΑΚΟΛΟΥΘΙΑ ΤΡΙΤΙΜΩΝ ΔΟΚΙΜΩΝ Σ. Μπερσίμης Π.Ε. Μαραβελάκης και Μ. Β. Κούτρας Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης Πανεπιστήμιο Πειραιώς ΠΕΡΙΛΗΨΗ Στην παρούσα εργασία μελετάμε μια οικογένεια προβλημάτων που σχετίζονται με τον χρόνο αναμονής T μέχρι την πρώτη εμφάνιση σε μια διδιάστατη ακολουθία τρίτιμων δοκιμών ενός σχηματισμού ε μέλους ενός συνόλου m σχηματισμών I m ε. Η μελέτη της τυχαίας μεταβλητής T επιτυγχάνεται με την τεχνική της εμφύτευσης σε Μαρκοβιανή αλυσίδα. Το σύνολο I μπορεί να χαρακτηριστεί ως ένα σύνολο διακοπής της διαδικασίας που περιγράφει η διδιάστατη ακολουθία τρίτιμων δοκιμών. Σύνολα διακοπής αυτής της μορφής προκύπτουν συχνά τόσο στο πεδίο του στατιστικού έλεγχου διεργασιών και της δειγματοληψίας αποδοχής όσο και στο πεδίο της ψυχομετρίας.. ΕΙΣΑΓΩΓΗ Στην εργασία αυτή μελετάμε ένα σύνολο μοντέλων που σχετίζονται με τον χρόνο αναμονής T μέχρι την πρώτη εμφάνιση σε μια διδιάστατη ακολουθία τρίτιμων δοκιμών ενός συγκεκριμένου σχηματισμού ε μέλους ενός ευρύτερου συνόλου σχηματισμών I. Το σύνολο I μπορεί να χαρακτηριστεί ως ένα σύνολο διακοπής της διδιάστατης ακολουθίας τρίτιμων δοκιμών. Τέτοια σύνολα διακοπής προκύπτουν συχνά στα πεδία του έλεγχου ποιότητας και της ψυχομετρίας. Συγκεκριμένα στον τομέα της ψυχομετρίας και ιδιαίτερα στις μελέτες εκμάθησης και μνήμης οι ψυχολόγοι επιδιώκουν συνήθως τον ορισμό ενός λογικού κριτηρίου βάσει του οποίου ένα test διακόπτεται και το άτομο που υποβάλλεται σε αυτό το test χαρακτηρίζεται ως επιτυχόν ή αποτυχόν. Στην περίπτωση που το test Η έρευνα υποστηρίχθηκε από την Γενική Γραμματεία Έρευνας και Τεχνολογίας ΠΕΝΕΔ - 97 -
αποτελείται από διαδοχικές ερωτήσεις στις οποίες το άτομο μπορεί να απαντήσει σωστά () ή λανθασμένα () ένα από τα παλαιότερα και πιο γνωστά κριτήρια στη ψυχολογία είναι το κριτήριο των ροών του Grad (946). Το θεωρητικό μοντέλο που αναπτύσσεται στην εργασία αυτή δίνει τη δυνατότητα διερεύνησης κριτηρίων διακοπής για την περίπτωση που το άτομο υποβάλλεται σε ένα test με το οποίο σε κάθε μια από τις διαδοχικές ερωτήσεις βαθμολογείται σε δύο εξαρτημένες τρίτιμες κλίμακες. Για παράδειγμα η περίπτωση που ένα άτομο υποβάλλεται σε ένα γλωσσικό test αποτελούμενο από διαδοχικές ερωτήσεις με τις οποίες διερευνάται «το επίπεδο γλωσσικής κατανόησης» ( X ) και «το επίπεδο γλωσσικής έκφρασης» (Y ). Σε κάθε ένα από τα δύο υπό μελέτη χαρακτηριστικά το άτομο βαθμολογείται ως προς το επίπεδό του σε μια κλίμακα με τρία επίπεδα: «χαμηλό» () «μέσο» () και «υψηλό» (). Περιπτώσεις σαν το παράδειγμα αυτό συναντώνται με μεγάλη συχνότητα στην περιοχή των Adaptve Tests (Lord (97)). Μια άλλη εφαρμογή της μελέτης της εργασίας αυτής προέρχεται από τον στατιστικό έλεγχο ποιότητας. Ας υποθέσουμε ότι μια παραγωγική διεργασία παράγει προϊόντα τα οποία εξετάζονται με βάση δύο χαρακτηριστικά ποιότητας ( X Y ) που μπορούν να πάρουν τις τιμές: αποδεκτό () μη αποδεκτό () και μέσου επιπέδου (). Τότε η παραγωγική διεργασία μπορεί να παρασταθεί με μία ακολουθία της μορφής ( X Y ) ( X Y )... όπου ( X Y ) { } { }. Σε αυτή την περίπτωση μπορούμε να ελέγξουμε είτε την παραγωγική διεργασία ως προς την σταθερότητά της είτε το τελικό προϊόν ως προς την ποιότητά του με χρήση ενός σύνθετου κανόνα διακοπής όπως για παράδειγμα αυτού που περιγράφεται από το σύνολο διακοπής I 4 ε όπου ε : κατά την t δοκιμή είχαμε X t ε : κατά την t δοκιμή είχαμε Y t ε 3 : κατά τις τελευταίες k δοκιμές είχαμε X t...x t-k και ε 4 : κατά τις τελευταίες r δοκιμές είχαμε Y t Y t-...y t-r.. ΜΕΤΑΒΛΗΤΕΣ ΕΜΦΥΤΕΥΣΙΜΕΣ ΣΕ ΜΑΡΚΟΒΙΑΝΗ ΑΛΥΣΙΔΑ Οι Fu ad Koutras (994) παρουσίασαν την μέθοδο της Μαρκοβιανής εμφύτευσης η οποία μπορεί να χρησιμοποιηθεί για τη μελέτη τυχαίων μεταβλητών που απαριθμούν σχηματισμούς καθορισμένου μήκους (π.χ. ροών επιτυχιών) σε ακολουθίες δοκιμών. Συγκεκριμένα έδωσαν τον ακόλουθο ορισμό Ορισμός : Μια θετική ακέραια τυχαία μεταβλητή X με σύνολο τιμών {... } ( N max{ x : X x) > } ) θα λέγεται «εμφυτεύσιμη σε Μαρκοβιανή αλυσίδα» αν Υπάρχει μια Μαρκοβιανή αλυσίδα διακριτού χρόνου { Y t : t } ορισμένη στο χώρο καταστάσεων Ω { a a...} Υπάρχει μια διαμέριση { C x x...} του Ω τέτοια ώστε για κάθε x... } να ισχύει P X x) Y C ). { ( t x - 98 -
Ενώ με χρήση του επόμενου θεωρήματος υπολογίζουμε την συνάρτηση πιθανότητας της X. Θεώρημα : Αν η τυχαία μεταβλητή X είναι εμφυτεύσιμη σε Μαρκοβιανή αλυσίδα { Y t : t } ορισμένη στο χώρο καταστάσεων Ω τότε ( Λt ) X x) π e t r: a r C r x όπου π ( P ( Y a) Y a )...) είναι το διάνυσμα των αρχικών πιθανοτήτων της αλυσίδας Λ t ο πίνακας των πιθανοτήτων μετάβασης πρώτης τάξης της αλυσίδας και e r το μοναδιαίο διάνυσμα γραμμή (με όλες τις συνιστώσες ίσες με εκτός της συνιστώσας r που είναι ίση με ). Εδώ θα πρέπει να σημειώσουμε ότι στις περισσότερες εφαρμογές έχουμε Λ t Λ. Συνεχίζοντας ας υποθέσουμε ότι η τυχαία μεταβλητή X απαριθμεί τον αριθμό των εμφανίσεων ενός απλού ή σύνθετου σχηματισμού I και ότι η τυχαία μεταβλητή T περιγράφει τον χρόνο αναμονής μέχρι την εμφάνιση του ιδίου σχηματισμού. Σε αυτήν την περίπτωση έχουμε P ( T ) T > ) T > ) X ) X ) και η κατανομή της T προκύπτει συνδυάζοντας την τελευταία σχέση και το αποτέλεσμα του Θεωρήματος. Επιστρέφοντας στην μελέτη της κατανομής του χρόνου αναμονής που μας ενδιαφέρει προκύπτει η επιλογή αντί να κάνουμε χρήση του πίνακα Λ t (ή του Λ ) στην παραπάνω μορφή του να κατασκευάσουμε μια Μαρκοβιανή αλυσίδα κάνοντας χρήση εκείνων των καταστάσεων που οδηγούν σε κάποιον σχηματισμό από αυτούς που συνθέτουν το σύνολο διακοπής I και να συνοψίσουμε όλους τους σχηματισμούς που ανήκουν στο σύνολο διακοπής σε μία απορροφητική κατάσταση. Έτσι προκύπτει ένας νέος και συνοπτικός πίνακας μεταπηδήσεων Λ t διαστάσεων m m με χρήση του οποίου έχουμε το επόμενο θεώρημα. Θεώρημα : Έστω T η τυχαία μεταβλητή που συμβολίζει τον χρόνο αναμονής μέχρι την πρώτη εμφάνιση του σχηματισμού υπό μελέτη τότε T ) π ( Λ Λ ) e m όπου π είναι το διάνυσμα των αρχικών πιθανοτήτων της αλυσίδας Λ ο πίνακας των πιθανοτήτων μετάβασης πρώτης τάξης της αλυσίδας και e m ένα διάνυσμα στήλη με όλα τα στοιχεία πλην του τελευταίου που είναι. - 99 -
3. Η ΚΑΤΑΝΟΜΗ ΤΟΥ ΧΡΟΝΟΥ ΑΝΑΜΟΝΗΣ ΣΧΗΜΑΤΙΣΜΩΝ ΣΕ ΔΙΔΙΑΣΤΑΤΕΣ ΤΡΙΤΙΜΕΣ ΑΚΟΛΟΥΘΙΕΣ Στην παρούσα παράγραφο θεωρούμε δύο εξαρτημένες ακολουθίες δοκιμών με 3 δυνατές τιμές () και εξετάζουμε την κατανομή της τυχαίας μεταβλητής T η οποία συμβολίζει τον χρόνο αναμονής μέχρι την πρώτη εμφάνιση ενός εκ των σχηματισμών της μορφής: α) η εμφάνιση της τιμής σε οποιαδήποτε από τις εξαρτημένες ακολουθίες β) η εμφάνιση μιας ροής μήκους k της τιμής στην πρώτη συνιστώσα (X ) γ) η εμφάνιση μιας ροής μήκους r της τιμής στην δεύτερη συνιστώσα (Y ). Στο παράδειγμα του Σχήματος περιγράφονται οι κανόνες διακοπής για k 3 και για r 4. X : Y : X : Y : X : Y : T 4 T T 6 Σχήμα : Σχηματική παρουσίαση των κανόνων διακοπής υπό μελέτη Ας συμβολίσουμε με p j για j τις πιθανότητες εμφάνισης του ενδεχόμενου P ( X Y j). Θα εξετάσουμε στην συνέχεια εάν μπορούμε να υπολογίσουμε την κατανομή της τυχαίας μεταβλητής T εμφυτεύοντας την σε μια κατάλληλα ορισμένη Μαρκοβιανή αλυσίδα. Η τυχαία μεταβλητή T εμφυτεύεται σε Μαρκοβιανή αλυσίδα. Στην περίπτωση αυτή όπως προαναφέρθηκε η κατανομή της δίνεται από την σχέση: T ) π Λ Λ e. () ( ) m Για την χρήση της σχέσεως () είναι απαραίτητος ο πίνακας μεταπήδησης Λ διαστάσεων m m καθώς και η γνώση του διανύσματος αρχικών πιθανοτήτων. Στην συνέχεια θα μελετήσουμε την ειδική περίπτωση για k r. Δηλαδή θα μελετήσουμε την τυχαία μεταβλητή T που συμβολίζει τον χρόνο αναμονής μέχρι την πρώτη εμφάνιση ενός εκ των σχηματισμών του συνόλου I. Σε αυτήν την περίπτωση οι διακριτές καταστάσεις που μπορεί να λάβει η * Μαρκοβιανή αλυσίδα είναι οι καθώς και η με την οποία * συμβολίζουμε την απορροφητική κατάσταση ( m 5 ). Η απορροφητική κατάσταση δηλαδή καταγράφει την εμφάνιση ενός εκ των σχηματισμών του συνόλου διακοπής. Σε αυτήν λοιπόν την περίπτωση ο πίνακας μεταπήδησης Λ λαμβάνει την ακόλουθη μορφή: - 3 -
* ( ) ( ) ( ) ( ) ( ) * () p p p p p p p p () p p p p Λ () p p p p p p * () * ενώ το διάνυσμα των αρχικών πιθανοτήτων έχει την μορφή [ ] π. Τέλος το διάνυσμα e 5 είναι ένα διάνυσμα στήλη με όλα τα στοιχεία εκτός του τελευταίου που είναι ίσο με. Στο σημείο αυτό θα πρέπει να τονίσουμε ότι ο πίνακας Λ γενικά για κάθε k r μπορεί να γραφεί ως: P h Λ ' με h' p p p p p p P p p p [ ] ' και [ p p p p p p p p ] Από τα παραπάνω προκύπτει εύκολα ότι ισχύει P + h δηλαδή h P. Για τον υπολογισμό της κατανομής της τυχαίας μεταβλητής T μπορούμε να χρησιμοποιήσουμε το επόμενο αποτέλεσμα. Θεώρημα 3: Η συνάρτηση πιθανότητας της T δίνεται από την σχέση: P ( T ) e P h. (). - 3 -
Απόδειξη: Επιστρέφοντας στην σχέση () παρατηρούμε ότι χρειαζόμαστε τον όρο ( Λ Λ ). Οι πίνακες Λ και γραφτούν αντίστοιχα στην μορφή Λ Λ Λ αποδεικνύεται επαγωγικά ότι μπορούν να ( I + P +... P ) h P + ' και ( I + P +... P ) h P + ' Συνεπώς η σχέση () μπορεί να ξαναγραφτεί στην ακόλουθη μορφή T ) π P ( P I) '. P h e π στην μορφή [ ] m π e με e Γράφοντας το διάνυσμα αρχικών πιθανοτήτων ένα διάνυσμα με όλα τα στοιχεία ίσα με πλην του πρώτου στοιχείου που είναι ίσο με καθώς και το e 5 στην μορφή e 5 προκύπτει το ζητούμενο ύστερα από απλές αλγεβρικές πράξεις. Η γεννήτρια συνάρτηση της T δίνεται από το επόμενο θεώρημα. Θεώρημα 4: Η γεννήτρια συνάρτηση πιθανοτήτων της T δίνεται από την σχέση: Q ( ) + T Q ( ) PT ( ) E( ) Q ( ) όπου ( p p p p) + ( p( p p) + p( p p) + p( p) ) 3 4 ( p p ( p + p )) p p p ( p ) Q + και 3 4 ( ) p ( p p + p p + p p + p p) p pp p pp p Απόδειξη: Για την γεννήτρια πιθανοτήτων της T ισχύει ότι - 3 -
T E( ) και κάνοντας χρήση της () λαμβάνουμε E( T επομένως έχουμε T ) ( ep h) e ( P) h e( I P) h ) ( I P) h T PT ( ) E( ) e (3) Εφαρμόζοντας την (3) και ύστερα από πράξεις προκύπτει το ζητούμενο. Εκμεταλλευόμενοι τη μορφή της πιθανογεννήτριας μπορούμε να αποδείξουμε μια σειρά από αναδρομικά σχήματα για την συνάρτηση πιθανότητας της T για την ουρά της κατανομής αλλά και τη μέση τιμή και διακύμανση. ABSTRACT I the preset work we study a famly of problems that s related to the watg tme (T ) up to the frst appearace of a patter ε member of a set of m patters I m ε a sequece of tromal trals. The study of the radom varable R t s acheved by the ad of a approprate Markov cha embeddg techque. The set I ca be charactered as a set of stoppg rules of the sequece of tromal trals. Stoppg rules of ths form ofte result the feld of statstcal process cotrol the feld of acceptace samplg as well as the feld of kowledge testg. ΑΝΑΦΟΡΕΣ Fu J. C. ad Koutras M. V. (994). Dstrbuto theory of rus: a Markov cha approach Joural of the Amerca Statstcal Assocato 89 5-58. Grad D. (946). New statstcal crtera for learg ad problem soluto expermets volvg repeated trals Phycologka Bullet 43 7-8. Lord F. (97). Talored testg a applcato of stochastc approxmato Joural of the Amerca Statstcal Assocato 66 77-7. - 33 -