Σχετικά έγγραφα
ΧΡΟΝΟΣ ΑΝΑΜΟΝΗΣ ΓΙΑ ΕΜΦΑΝΙΣΗ ΡΟΩΝ ΣΕ ΔΥΑΔΙΚΕΣ ΑΚΟΛΟΥΘΙΕΣ. Μενύχτα Δήμητρα, Α.Μ. 333

ΣΤΑΤΙΣΤΙΚΕΣ ΣΥΝΑΡΤΗΣΕΙΣ ΣΑΡΩΣΗΣ ΚΑΙ ΑΞΙΟΠΙΣΤΙΑ ΣΥΣΤΗΜΑΤΩΝ

Ροές Επιτυχιών Συγκεκριμένου Μήκους σε Δυαδικές Ακολουθίες

ΧΡΟΝΟΙ ΑΝΑΜΟΝΗΣ ΜΕΧΡΙ ΤΗΝ ΠΡΩΤΗ ΕΜΦΑΝΙΣΗ ΣΧΗΜΑΤΙΣΜΩΝ ΣΕ ΜΙΑ ΔΙΔΙΑΣΤΑΤΗ ΑΚΟΛΟΥΘΙΑ ΤΡΙΤΙΜΩΝ ΔΟΚΙΜΩΝ

Ροές Επιτυχιών σε Μαρκοβιανές Αλυσίδες

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 )

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές

Τυχαία μεταβλητή (τ.μ.)

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Τυχαίες Μεταβλητές. Ορισμός

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Αναγνώριση Προτύπων Ι

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Υπολογιστικά & Διακριτά Μαθηματικά

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

Τηλεπικοινωνιακά Συστήματα ΙΙ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Η Διωνυμική Κατανομή. μαθηματικών. 2 Ο γονότυπος μπορεί να είναι ΑΑ, Αα ή αα.

Πρόλογος 1. 1 Μαθηµατικό υπόβαθρο 9

Ι ΙΑΣΤΑΤΕΣ ΜΕΤΑΒΛΗΤΕΣ ΠΟΛΥΩΜΙΚΟΥ ΤΥΠΟΥ ΕΜΦΥΤΕΥΣΙΜΕΣ ΣΕ ΜΑΡΚΟΒΙΑΝΗ ΑΛΥΣΙ Α

Το Κεντρικό Οριακό Θεώρημα

ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ - ΠΡΟΣΟΜΟΙΩΣΗ

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Δισδιάστατη ανάλυση. Για παράδειγμα, έστω ότι 11 άτομα δήλωσαν ότι είναι άγαμοι (Α), 26 έγγαμοι (Ε), 12 χήροι (Χ) και 9 διαζευγμένοι (Δ).

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

07/11/2016. Στατιστική Ι. 6 η Διάλεξη (Βασικές διακριτές κατανομές)

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ

II. Τυχαίες Μεταβλητές

ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ. Για την Γ Τάξη Γενικού Λυκείου Μάθημα Επιλογής ΟΡΓΑΝΙΣΜΟΣ ΕΚΔΟΣΕΩΣ ΔΙΔΑΚΤΙΚΩΝ ΒΙΒΛΙΩΝ ΑΘΗΝΑ

Υπολογιστικά & Διακριτά Μαθηματικά

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΡΓΑΣΙΑ 6 η Ημερομηνία Αποστολής στο Φοιτητή: 23 Απριλίου 2012

viii 20 Δένδρα van Emde Boas 543

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

pdf: X = 0, 1 - p = q E(X) = 1 p + 0 (1 p) = p V ar(x) = E[(X µ) 2 ] = (1 p) 2 p + (0 p) 2 (1 p) = p (1 p) [1 p + p] = p (1 p) = p q

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Το Κεντρικό Οριακό Θεώρημα

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

Το Κεντρικό Οριακό Θεώρημα

Στατιστική. Εκτιμητική

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Στατιστική Επιχειρήσεων Ι. Βασικές διακριτές κατανομές

ΚΑΤΑΣΤΡΩΣΗ ΔΙΑΦΟΡΙΚΩΝ ΕΞΙΣΩΣΕΩΝ ΠΟΛΥΒΑΘΜΙΩΝ ΣΥΣΤΗΜΑΤΩΝ 55

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Σ. ΖΗΜΕΡΑΣ Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικών- Χρηματοοικονομικών Μαθηματικών Σάμος

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

Θεωρία Τηλεπικοινωνιακής Κίνησης Ενότητα 8: Αναδρομικός τύπος Kaufman Roberts

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Διαδικασιακός Προγραμματισμός

Συνδυαστικά Λογικά Κυκλώματα

pdf: X = 0, 1 - p = q E(X) = 1 p + 0 (1 p) = p V ar(x) = E[(X µ) 2 ] = (1 p) 2 p + (0 p) 2 (1 p) = p (1 p) [1 p + p] = p (1 p) = p q

Αριθμητική Ανάλυση & Εφαρμογές

4 Πιθανότητες και Στοιχεία Στατιστικής για Μηχανικούς

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Θεωρητικές Κατανομές Πιθανότητας

Ο πρώτος ηλικιακός κύκλος αφορά μαθητές του νηπιαγωγείου (5-6 χρονών), της Α Δημοτικού (6-7 χρονών) και της Β Δημοτικού (7-8 χρονών).

Θέματα Συστημάτων Πολυμέσων

Ισότητα, Αλγεβρικές και Αναλυτικές Ιδιότητες Πραγματικών Ακολουθιών

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

3. Κατανομές πιθανότητας

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Δειγματοληψία στην Ερευνα. Ετος

ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Π

3.4.1 Ο Συντελεστής ρ του Spearman

ΣΤΑΤΙΚΗ ΜΗ ΓΡΑΜΜΙΚΗ ΑΝΑΛΥΣΗ ΚΑΛΩ ΙΩΤΩΝ ΚΑΤΑΣΚΕΥΩΝ

þÿ¼ ½ ±Â : ÁÌ» Â Ä Å ÃÄ ²µ þÿä Å ÃÇ»¹º Í Á³ Å

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

O n+2 = O n+1 + N n+1 = α n+1 N n+2 = O n+1. α n+2 = O n+2 + N n+2 = (O n+1 + N n+1 ) + (O n + N n ) = α n+1 + α n

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Είδη Μεταβλητών. κλίµακα µέτρησης

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ I Παντελής Δημήτριος Τμήμα Μηχανολόγων Μηχανικών

Υπολογιστικό Πρόβληµα

ΗΥ-217-ΠΙΘΑΝΟΤΗΤΕΣ-ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2016 ΔΙΔΑΣΚΩΝ: ΠΑΝΑΓΙΩΤΗΣ ΤΣΑΚΑΛΙΔΗΣ

ΕΤΑΙΡΙΚΗ ΚΟΙΝΩΝΙΚΗ ΕΥΘΥΝΗ ΣΤΗΝ ΝΑΥΤΙΛΙΑΚΗ ΒΙΟΜΗΧΑΜΙΑ

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

ΑΡΙΘΜΟΙ FIBONACCI ΚΑΙ ΜΑΡΚΟΒΙΑΝΕΣ ΑΛΥΣΙΔΕΣ ΣΕ ΡΟΕΣ ΔΙΑΔΟΧΙΚΩΝ ΕΠΙΤΥΧΙΩΝ Ή ΑΠΟΤΥΧΙΩΝ

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

«Χρήσεις γης, αξίες γης και κυκλοφοριακές ρυθμίσεις στο Δήμο Χαλκιδέων. Η μεταξύ τους σχέση και εξέλιξη.»

Στατιστική Συμπερασματολογία

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

Ανάκτηση Πληροφορίας

(Γραμμικές) Αναδρομικές Σχέσεις

ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ

Τμήμα Μηχανικών Παραγωγής και Διοίκησης Χειμερινό Διδάσκων: Καθηγητής Παντελής Ν. Μπότσαρης Εργαστήρια/Ασκήσεις: Δρ.

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Transcript:

Πιθανοτική μελέτη του τμήματος συγκέντρωσης ροών σε δυαδικές ακολουθίες ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΑΝΑΣΤΑΣΙΟΣ Ν. ΑΡΑΠΗΣ Επιβλέπουσα: Ευφροσύνη Σ. Μακρή ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΤΡΑ 2017

Πανεπιστήμιο Πατρών, Τμήμα Μαθηματικών, Αναστάσιος Αράπης c 2017 Με την επιφύλαξη παντός δικαιώματος

Τριμελής Συμβουλευτική Επιτροπή Επιβλέπουσα: Ευφροσύνη Σ. Μακρή, Αναπληρώτρια Καθηγήτρια, Τμήμα Μαθηματικών Μέλος Επιτροπής: Ανδρέας Ν. Φιλίππου, Ομότιμος Καθηγητής, Τμήμα Μαθηματικών Μέλος Επιτροπής: Ζαχαρίας Μ. Ψυλλάκης, Επίκουρος Καθηγητής, Τμήμα Φυσικής

Θα ήθελα να αφιερώσω τη διδακτορική μου διατριβή στην οικογένειά μου και στους ανθρώπους που ήταν δίπλα μου και με στήριξαν πρακτικά, αλλά πάνω απ όλα ηθικά...

Ευχαριστίες Κατά τη διάρκεια της εκπόνησης της παρούσας διατριβής είχα την αμέριστη υποστήριξη πολλών ανθρώπων τους οποίους ειλικρινά ευχαριστώ. Αυτοί οι άνθρωποι στήριξαν και ενθάρρυναν την προσπάθειά μου ώστε να κατορθώσω να φέρω εις πέρας τη διδακτορική μου μελέτη. Πρώτα απ όλα, επιθυμώ να εκφράσω τις ευχαριστίες μου στην επιβλέπουσα καθηγήτριά μου κ. Ευφροσύνη Μακρή τόσο για την πολύτιμη συνεργασία και την ειλικρινή σχέση όσο και για τις ουσιαστικές μεθοδολογικές και επιστημονικές της υποδείξεις. Αποτέλεσε τον άνθρωπο που με μύησε στον κόσμο των πιθανοτήτων, αφού η διδασκαλία και οι συμβουλές της ήδη από την περίοδο των προπτυχιακών μου σπουδών και η αστείρευτη ενέργεια και επιμονή της για μετάδοση γνώσεων καθ όλη τη διάρκεια των διδακτορικών μου σπουδών, είναι αρκετά για να την ευχαριστήσω ολόψυχα για το αποτέλεσμα αυτής της προσπάθειας. Επίσης, θα ήθελα να ευχαριστήσω ιδιαιτέρως τον κ. Ζαχαρία Ψυλλάκη για το αδιάκοπο ενδιαφέρον, την πολύτιμη βοήθειά του σε όλη την πορεία της μελέτης μου καθώς και για τις γόνιμες επιστημονικές συζητήσεις που συνέβαλαν κομβικά στην ολοκλήρωση της διδακτορικής μου διατριβής. Ευχαριστώ θερμά ακόμη τον κ. Ανδρέα Φιλίππου που με το κύρος ενός πεπειραμένου καθηγητή και ως μέλος της τριμελούς συμβουλευτικής επιτροπής, εμπιστεύτηκε και υποστήριξε αδιάλειπτα την προσπάθεια αποπεράτωσης αυτού του πονήματος. Θέλω να ευχαριστήσω και τον κ. Σταύρο Κουρούκλη, τον κ. Νικόλαο Τσάντα, τον κ. Φίλιππο Αλεβίζο και την κ. Βιολέττα Πιπερίγκου, οι οποίοι από την έναρξη των προπτυχιακών μου σπουδών υπήρξαν οι άνθρωποι που με τις γνώσεις και το ήθος τους συνέβαλαν στην ολοκλήρωση αυτής της πορείας. Από τότε ως καθηγητές μου και τώρα ως μέλη της εξεταστικής επιτροπής, αποτέλεσαν ιδανικά πρότυπα. Τους ευχαριστώ για την αμοιβαία εκτίμηση. Τέλος, θέλω να ευχαριστήσω την οικογένειά μου και τους ανθρώπους που ήταν δίπλα μου όλα αυτά τα χρόνια και ο καθένας με το δικό του τρόπο βοήθησε στο να ολοκληρωθεί η εργασία αυτή, για την αγάπη και το αδιάπτωτο ενδιαφέρον τους.

ΠΕΡΙΛΗΨΗ Θεωρούμε μια πεπερασμένου μήκους ακολουθία δυαδικών (αποτυχία - επιτυχία) τυχαίων μεταβλητών. Τα στοιχεία της ακολουθίας θεωρούνται ανεξάρτητα (ισόνομα ή μη) ή εξαρτημένα (ανταλλάξιμα ή με ομογενή/μη ομογενή Μαρκοβιανή εξάρτηση) μεταξύ τους. Αντικείμενο της διατριβής είναι η πιθανοτική μελέτη του μικρότερου τμήματος της δυαδικής ακολουθίας στο οποίο συγκεντρώνονται όλες οι ροές επιτυχιών με μήκος που υπερβαίνει ένα συγκεκριμένο μέγεθος (κατώφλι). Για την περιγραφή του τμήματος συγκέντρωσης ορίζονται τυχαίες μεταβλητές, οι οποίες παριστάνουν τον αριθμό των ροών επιτυχιών, τον αριθμό των επιτυχιών στις ροές αυτές, το μήκος της μεγαλύτερης ροής επιτυχιών, το μήκος και τη θέση (αρχή και τέλος) του τμήματος συγκέντρωσης των ροών καθώς και την πολυδιάστατη τυχαία μεταβλητή με συνιστώσες τις τυχαίες μεταβλητές απαρίθμησης επιτυχιών και ροών επιτυχιών και εκείνης που παριστά το μήκος του τμήματος συγκέντρωσης. Υπό τη συνθήκη ότι υπάρχουν τουλάχιστον δύο ροές επιτυχιών στην ακολουθία, προσδιορίζονται οι δεσμευμένες συναρτήσεις πιθανότητας των τριών τελευταίων τυχαίων μεταβλητών που προαναφέρθησαν. Εκφράσεις πιθανοτήτων και συναρτήσεων πιθανότητας βρίσκονται μέσω συνδυαστικής ανάλυσης και αναδρομικών σχέσεων, αξιοποιώντας τον ορισμό των τυχαίων μεταβλητών και τη δομή των ακολουθιών που εξετάζουμε. Η διατριβή χωρίζεται σε έξι κεφάλαια τα οποία ομαδοποιούνται σε τρεις ενότητες. Προκαταρκτικές έννοιες και ορισμοί αναφορικά με τα πιθανοτικά πρότυπα, ανεξαρτησίας ή εξάρτησης, ακολουθιών δυαδικών τυχαίων μεταβλητών καθώς και τις σχέσεις μεταξύ τους περιγράφονται στο Κεφάλαιο 1. Στο Κεφάλαιο 2 ορίζονται και σχολιάζονται στατιστικές συναρτήσεις απαρίθμησης και συγκέντρωσης επιτυχιών και ροών επιτυχιών σε ακολουθίες δυαδικών τυχαίων μεταβλητών. Τα δύο αυτά κεφάλαια αποτελούν την Ενότητα Α. Η πιθανοτική μελέτη της απαρίθμησης και της συγκέντρωσης ροών επιτυχιών σε ακολουθίες δυαδικών τυχαίων μεταβλητών, με διάφορες εσωτερικές δομές, αναπτύσσεται στην Ενότητα Β. Η ενότητα αυτή χωρίζεται στο Κεφάλαιο 3, όπου εξετάζεται η απαρίθμηση των ροών επιτυχιών με μήκος το οποίο υπερβαίνει ένα συγκεκριμένο μέγεθος και το Κεφάλαιο 4, όπου μελετάται το τμήμα συγκέντρωσης των ροών αυτών. Αποτελέσματα που αφορούν το μήκος του τμήματος συγκέντρωσης, την (τυχαία) θέση του στη δυαδική ακολουθία και την από κοινού περιγραφή του αριθμού των επιτυχιών, του αριθμού των ροών επιτυχιών και του μήκους του τμήματος συγκέντρωσης, παρουσιάζονται στις παραγράφους 4.1, 4.2 και 4.3, αντίστοιχα. Τα αποτελέσματα αυτά συνοδεύονται με βοηθητικά - ενδεικτικά αριθμητικά παραδείγματα. Η Ενότητα Γ αποτελείται από τα Κεφάλαια 5 και 6. Στο Κεφάλαιο 5 γίνεται μια λεπτομερής μελέτη και σχολιασμός αριθμητικών αποτελεσμάτων σχετικών με τη συμπεριφορά των πιθανοτήτων και των συναρτήσεων πιθανότητας που προσδιορίσθηκαν στην Ενότητα Β. Δυνητικές εφαρμογές, - i -

σε διάφορα επιστημονικά πεδία, για ενδεικτικά πρότυπα ακολουθιών ανεξάρτητης και εξαρτημένης δομής, προτείνονται στο Κεφάλαιο 6. Οι εφαρμογές αυτές αξιοποιούν τα θεωρητικά αποτελέσματα των Ενοτήτων Α και Β. Η πλειοψηφία των αποτελεσμάτων που παρουσιάζονται στη διατριβή είναι νέα και έχουν συμπεριληφθεί σε δημοσιευμένες ή υπό δημοσίευση ή σε υποβληθείσες προς δημοσίευση εργασίες, σε διεθνή περιοδικά και σε πρακτικά συνεδρίων. Ενδεικτικά αναφέρουμε τις εργασίες: Makri et al. (2015) και Arapis et al. (2016a, 2017a, 2017b). - ii -

PROBABILISTIC STUDY OF THE CONCENTRATION SEGMENT OF RUNS IN BINARY SEQUENCES SUMMARY We consider a finite sequence of binary (failure - success) random variables (RVs). The sequence s elements (RVs) are assumed to be independent (identical/nonidentical) or dependent (exchangeable or homogeneous/nonhomogeneous Markov dependent). The aim of the present Ph.D. thesis is the probabilistic study of the minimum sequence s segment in which all runs of successes with length greater than or equal to a fixed size (i.e. a threashold length) are concentrated. In order to probabilisticaly locate and describe the concentration segment, we define run statistics (RVs) relative to it. The statistics represent the number of success runs, the number of successes in the success runs, the length of the longest success run, and the length of the segment and the position (starting/ending) of it in the sequence. The first four RVs are univariate and the fifth is a bivariate one. In addition, we define a trivariate RV having as its components the counting successes and runs of successes RVs and the length of the concentration segment. In the thesis, the conditional probability mass functions of the last three RVs are established, for the first time, given that the number of success runs in the sequence is at least two. This treatment involves all the prementioned RVs. Exact expressions for probabilities and probability functions are obtained in the form of recursive schemes and sums involving binomial coefficients. In deriving the expressions we take into account the particular characteristics of the internal structure of the examined binary sequences as well as the definition of the RVs on such sequences. The thesis contains six chapters which are classified into three parts (A, B and Γ). Each part consists of two chapters having a common feature. More specifically, the thesis is organized as follows. Part A comprises Chapters 1 and 2. Chapter 1 mainly concerns with preliminary concepts and definitions. They refer to probability models (random sources), along with their interrelations, appropriate for describing the internal structure of a sequence of independent or dependent binary RVs. Statistics, relevant to the subject matter of the thesis, are formally defined in Chapter 2. A motivation for their usefulness is also discussed. As it was mentioned above, the statistics enumerate successes and success runs in the sequence, denote the length and the position of the sequence s segment containing runs of successes and they jointly describe the number of success runs, the number of successes in these runs and the length of the concentration segment of the success runs in the sequence. - iii -

The probabilistic treatment of the statistics presented in Chapter 2 and defined on binary sequences discussed in Chapter 1 is the subject of Part B comprising Chapters 3 and 4. In Chapter 3, the number of success runs of length greater than or equal to a fixed length is examined. Chapter 4 deals with the segment of the concentration of such success runs in the sequence. More specifically, in Sections 4.1, 4.2 and 4.3, we obtain results referring to the length of the concentration segment, the position of this segment in the sequence and how the number of success runs, the number of successes in these runs and the length of their concentration segment in the sequence are jointly distributed, respectively. The theoretical results are further illustrated via indicative numerical examples. The applicability of the material developed in Parts A and B is clarified in Part Γ. The latter part comprises Chapters 5 and 6. Chapter 5 provides a detailed numerical study, accompanied by a discussion on its findings, of the probabilities and probability functions derived in Part B. Potential applications along with extensive and illustrative numerics are presented in Chapter 6. The vast majority of the thesis results are new. Part of these is published (is under publication) in the papers of Makri et al. (2015) and Arapis et al. (2016a, 2017a, 2017b). - iv -

ΠΕΡΙΕΧΟΜΕΝΑ Εισαγωγή - Ιστορική Αναδρομή................................. 1 ΕΝΟΤΗΤΑ Α. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ........................ 7 Εισαγωγή.................................................. 7 Κεφάλαιο 1. Είδη ακολουθιών δυαδικών τυχαίων μεταβλητών και σχέσεις μεταξύ τους........................................ 8 1.0. Εισαγωγή............................................... 8 1.1. Ακολουθίες ανεξάρτητων δυαδικών τυχαίων μεταβλητών....................9 1.2. Ακολουθίες ανταλλάξιμων δυαδικών τυχαίων μεταβλητών.................. 10 1.3. Ακολουθίες Μαρκοβιανά εξαρτημένων δυαδικών τυχαίων μεταβλητών........... 11 Κεφάλαιο 2. Στατιστικές συναρτήσεις απαρίθμησης και συγκέντρωσης επιτυχιών και ροών επιτυχιών σε ακολουθίες δυαδικών τυχαίων μεταβλητών............................................. 15 2.0. Εισαγωγή.............................................. 15 2.1. Ορισμοί στατιστικών συναρτήσεων............................... 17 2.2. Ποιοτική ερμηνεία των στατιστικών συναρτήσεων....................... 18 2.3. Τυπικοί ορισμοί των στατιστικών συναρτήσεων........................ 19 ΕΝΟΤΗΤΑ Β. ΠΙΘΑΝΟΤΙΚΗ ΜΕΛΕΤΗ ΑΠΑΡΙΘΜΗΣΗΣ ΚΑΙ ΣΥΓΚΕΝΤΡΩΣΗΣ ΡΟΩΝ ΕΠΙΤΥΧΙΩΝ ΣΕ ΑΚΟΛΟΥΘΙΕΣ ΔΥΑΔΙΚΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ.......................... 21 Εισαγωγή - Βοηθητικό υλικό...................................... 21 Κεφάλαιο 3. Απαρίθμηση ροών επιτυχιών με μήκος που υπερβαίνει ένα συγκεκριμένο μέγεθος...................................... 25 3.0. Εισαγωγή.............................................. 25 3.1. Ακολουθίες ανεξάρτητων και ισόνομων δυαδικών τυχαίων μεταβλητών........................................ 25 3.2. Ακολουθίες ανεξάρτητων, όχι κατ ανάγκην ισόνομων, δυαδικών τυχαίων μεταβλητών........................................ 28 - v -

3.3. Ομογενής αλυσίδα Markov δύο καταστάσεων......................... 29 3.4. Μη ομογενής αλυσίδα Markov δύο καταστάσεων....................... 35 3.5. Επαγόμενα αποτελέσματα για ακολουθίες ανταλλάξιμων, ομογενώς Μαρκοβιανά εξαρτημένων και ανεξάρτητων και ισόνομων δυαδικών τυχαίων μεταβλητών............................................. 38 Κεφάλαιο 4. Συγκέντρωση ροών επιτυχιών με μήκος που υπερβαίνει ένα συγκεκριμένο μέγεθος (κατώφλι)................................ 41 4.0. Εισαγωγή.............................................. 41 4.1. Μήκος του τμήματος συγκέντρωσης ροών επιτυχιών..................... 41 4.1.1. Ακολουθίες ανεξάρτητων και ισόνομων δυαδικών τυχαίων μεταβλητών.......... 41 4.1.2. Ακολουθίες ανεξάρτητων όχι κατ ανάγκην ισόνομων δυαδικών τυχαίων μεταβλητών....................................... 44 4.1.3. Ακολουθίες που προκύπτουν από ομογενείς και μη ομογενείς αλυσίδες Markov δύο καταστάσεων.............................. 47 4.1.4. Επαγόμενα αποτελέσματα για ακολουθίες ανταλλάξιμων, ανεξάρτητων και όχι κατ ανάγκην ισόνομων, ομογενώς Μαρκοβιανά εξαρτημένων και ανεξάρτητων και ισόνομων δυαδικών τυχαίων μεταβλητών.................................. 55 4.1.5. Αριθμητικά παραδείγματα..................................... 60 4.2. Θέση του τμήματος συγκέντρωσης ροών επιτυχιών...................... 62 4.2.1. Ακολουθίες ανεξάρτητων και ισόνομων δυαδικών τυχαίων μεταβλητών....................................... 62 4.2.2. Ακολουθίες που προκύπτουν από ομογενείς και μη ομογενείς αλυσίδες Markov δύο καταστάσεων.............................. 64 4.2.3. Επαγόμενα αποτελέσματα για ακολουθίες ανεξάρτητων, όχι κατ ανάγκην ισόνομων, ομογενώς Μαρκοβιανά εξαρτημένων και ανεξάρτητων και ισόνομων δυαδικών τυχαίων μεταβλητών............... 68 4.2.4. Πρόσθετα αποτελέσματα..................................... 69 4.2.5. Αριθμητικά παραδείγματα..................................... 70 - vi -

4.3. Από κοινού συμπεριφορά του αριθμού των ροών επιτυχιών, του αριθμού των επιτυχιών στις ροές αυτές και του μήκους του τμήματος συγκέντρωσης των ροών επιτυχιών............................... 73 4.3.1. Ακολουθίες ανεξάρτητων και ισόνομων δυαδικών τυχαίων μεταβλητών.......... 73 4.3.2. Ομογενής αλυσίδα Markov δύο καταστάσεων......................... 74 4.3.3. Επαγόμενα αποτελέσματα για ακολουθίες ανταλλάξιμων και ανεξάρτητων και ισόνομων δυαδικών τυχαίων μεταβλητών................. 77 4.3.4. Πρόσθετα αποτελέσματα..................................... 78 4.3.5. Αριθμητικά παραδείγματα..................................... 78 ΕΝΟΤΗΤΑ Γ. ΑΡΙΘΜΗΤΙΚΗ ΜΕΛΕΤΗ ΚΑΙ ΕΦΑΡΜΟΓΕΣ............... 83 Εισαγωγή.................................................. 83 Κεφάλαιο 5. Αριθμητική μελέτη.................................. 85 5.1. Ακολουθίες ανεξάρτητων και ισόνομων δοκιμών........................ 85 5.2. Ομογενής αλυσίδα Markov.................................... 90 Κεφάλαιο 6. Εφαρμογές....................................... 92 6.0. Εισαγωγή.............................................. 92 6.1. Ψυχολογία, Μελέτη εκμάθησης, Ανάλυση αγορών.......................93 6.2. Ακολουθίες DNA.......................................... 96 Προκαταρκτικό υλικό Ι.......................................96 6.2.1. Προσομοίωση - αναπαραγωγή ακολουθίας DNA........................97 6.2.2. Επεξεργασία ακολουθίας DNA................................. 100 Προκαταρκτικό υλικό ΙΙ..................................... 100 Διατύπωση του προβλήματος.................................. 101 Τυπική επεξεργασία (Αλγόριθμος)...............................101 Ανίχνευση επαναλαμβανόμενων προτύπων αλληλουχιών.................. 103 Βιβλιογραφία............................................ 107 - vii -

- viii -

Εισαγωγή - Ιστορική αναδρομή Η θεωρία των ροών και των σχηματισμών έχει μια πλούσια και ζωντανή ιστορία. Ως ροή αναφέρεται μια ακολουθία συνεχόμενων όμοιων συμβόλων και σχηματισμός μια συμβολοσειρά συγκεκριμένης σύνθεσης και δομής. Ο αριθμός των συμβόλων σε μια ροή ή σχηματισμό αποτελεί το μήκος τους. Η εμφάνιση ροής επιτυχιών μήκους τουλάχιστον k σε n επαναλήψεις είναι ένα πρόβλημα που απασχόλησε ήδη από τον 18ο αιώνα τους De Moivre (1738) και Simpson (1740). Αναφορά στον μέγιστο αριθμό συνεχόμενων επιτυχιών σε `τυχαία πειράματα συναντάται επίσης το 1916 στην εργασία του Γερμανού φιλοσόφου Karl Marbe και αφορά τον μέγιστο αριθμό συνεχόμενων γεννήσεων παιδιών του ίδιου φύλου όπως είχαν καταγραφεί στο μητρώο γεννήσεων μιας Βαυαρικής πόλης. Οι Wald and Wolfowitz (1940) απέδειξαν ότι ο αριθμός των τρόπων που μπορεί να εμφανισθεί συγκεκριμένος αριθμός ροών επιτυχιών σε δυαδική ακολουθία, έχει ασυμπτωτικά την κανονική κατανομή. Πρότειναν έναν έλεγχο βασιζόμενοι στη δεσμευμένη κατανομή του συνολικού αριθμού των ροών, δοθέντος του συνολικού αριθμού των επιτυχιών. Ο Mosteller (1941) χρησιμοποίησε τις ροές σε προβλήματα ελέγχου ποιότητας και ο Mood (1940) στον έλεγχο υποθέσεων. Στις αρχές της δεκαετίας του 1980 αρχίζει μια συστηματική μελέτη τυχαίων μεταβλητών άμεσα σχετιζομένων με την εμφάνιση ροών σε μια ακολουθία πειραμάτων με δύο δυνατά αποτελέσματα. Οι κατανομές των τυχαίων αυτών μεταβλητών ονομάζονται κατανομές τάξης k, όπου η παράμετρος k (θετικός ακέραιος) αναφέρεται στο μήκος των εμφανιζομένων ροών. Η ονομασία οφείλεται στους Philippou, Georgiou and Philippou (1983) καθώς και η απαρχή μιας συστηματικής μελέτης των κατανομών αυτών (βλ. επίσης Philippou and Muwafi (1982), Philippou (1983, 1984)). Στις εργασίες αυτές οι γενικευμένες κατανομές που εισήχθησαν ήταν η γεωμετρική και η αρνητική διωνυμική τάξης k, οι οποίες γενίκευσαν τις γνωστές αντίστοιχες κατανομές χρόνου αναμονής (αριθμός πειραμάτων) μέχρι την εμφάνιση μιας και r (θετικός ακέραιος) επιτυχιών, αντίστοιχα. Η γενίκευση της διωνυμικής κατανομής, μέσω της έννοιας της ροής, αφορά την κατανομή του αριθμού των ροών επιτυχιών μήκους k σε μια δυαδική ακολουθία μήκους n. Η ασυμπτωτική κανονικότητα μιας κανονικοποιημένης έκφρασης της μεταβλητής διαπιστώθηκε από τον Von Mises. Απόδειξη του αποτελέσματος αυτού δίνεται στο βιβλίο Feller (1968). Οι Philippou and Makri (1986) ονόμασαν την κατανομή αυτή διωνυμική τάξης k και έδωσαν την ακριβή συνάρτηση πιθανότητας η οποία δόθηκε επίσης, ανεξάρτητα, και από τον Hirano (1986). Για k = 1 προκύπτει η γνωστή διωνυμική κατανομή της τυχαίας μεταβλητής καταμέτρησης όλων των επιτυχιών σε μια δυαδική ακολουθία μήκους n. Είναι σαφές ότι ο τρόπος απαρίθμησης των ροών στην ακολουθία είναι σημαντικός. Στην διαδικασία γενίκευσης των γνωστών κατανομών που προαναφέραμε, ακολουθήθηκε ο τρόπος - 1 -

Εισαγωγή - Ιστορική αναδρομή απαρίθμησης ροών επιτυχιών κατά Feller (1968) σύμφωνα με τον οποίο ξεκινάμε να μετράμε από την αρχή κάθε φορά που ολοκληρώνεται μια ροή μήκους k. Ο τρόπος καταμέτρησης είναι μη επικαλυπτόμενος (μια επιτυχία μπορεί να ανήκει σε μια μόνο ροή). Στην εργασία Ling (1988) προτείνεται ο επικαλυπτόμενος τρόπος καταμέτρησης ροών επιτυχιών μήκους k, σύμφωνα με τον οποίο διαδοχικές ροές μπορούν να επικαλύπτονται. Μια επιτυχία σε αυτήν την περίπτωση μπορεί να ανήκει σε περισσότερες από μια ροή. Οι Aki και Hirano (2000) πρότειναν έναν γενικευμένο τρόπο καταμέτρησης ροών επιτυχιών, ο οποίος περιλαμβάνει σαν ειδικές περιπτώσεις τον μη επικαλυπτόμενο και τον επικαλυπτόμενο που προαναφέραμε και τον ονόμασαν l-επικαλυπτόμενο, όπου l είναι μη αρνητικός ακέραιος μικρότερος του μήκους της ροής k. Σε αυτή την περίπτωση, ο αριθμός των l-επικαλυπτόμενων ροών επιτυχιών μήκους k είναι ο αριθμός των ροών επιτυχιών μήκους k, κάθε μια από τις οποίες μπορεί να έχει επικαλυπτόμενο τμήμα με την προηγούμενη ροή επιτυχιών μήκους k, που έχει καταμετρηθεί, το πολύ l. Για l = 0 και για l = k 1 προκύπτει, αντίστοιχα, ο τρόπος καταμέτρησης κατά Feller (1968) και κατά Ling (1988). Ο αριθμός των ροών επιτυχιών με μήκος ακριβώς ίσο με k είναι ένας άλλος τρόπος απαρίθμησης ροών, ο οποίος προτάθηκε από τον Mood (1940). Για k = 1 είναι σαφές ότι μετράει μόνο τις μεμονωμένες επιτυχίες στην ακολουθία. Ο τρόπος καταμέτρησης κατά τον οποίο μια ροή μετράται αν έχει μήκος k ή μεγαλύτερο προτάθηκε από τον Mood (1940) (βλ. επίσης και Goldstein (1990) ). Σε αυτήν την περίπτωση για k = 1 απαριθμούνται όλες οι ροές επιτυχιών στην ακολουθία. Με τον αριθμό G n,k των ροών αυτών συνδέεται άμεσα η τυχαία μεταβλητή S n,k καταμέτρησης όλων των επιτυχιών που περιέχονται στις ροές αυτές. Για k = 1 απαριθμούνται όλες οι επιτυχίες στην ακολουθία και η αντίστοιχη κατανομή είναι η γνωστή διωνυμική κατανομή. Για τους τρόπους απαρίθμησης ροών επιτυχιών μήκους k, όλες οι κατανομές που αναφέρονται σε αριθμό πειραμάτων μέχρι την εμφάνιση της πρώτης ή της r-οστής ροής ονομάζονται γεωμετρικές ή αρνητικές διωνυμικές τάξης k, ενώ οι κατανομές που αναφέρονται σε απαρίθμηση των ροών που εμφανίζονται σε μια ακολουθία n δοκιμών έχουν ονομαστεί διωνυμικές κατανομές τάξης k. Εκτός από τις τυχαίες μεταβλητές που προαναφέραμε οι οποίες ασχολούνται με τον αριθμό εμφάνισης των ροών και τον χρόνο αναμονής μέχρι την εμφάνιση ενός αριθμού εξ αυτών, σημαντικό ρόλο στη θεωρία των ροών έχουν και μεταβλητές που αναφέρονται στο μήκος των ροών. Η τυχαία μεταβλητή που παριστάνει το μέγιστο μήκος ροής επιτυχιών έχει ιδιαίτερη σημασία, μεταξύ άλλων, στον έλεγχο τυχαιότητας μιας δυαδικής ακολουθίας. Το μικρότερο μήκος ροής επιτυχιών, η μέγιστη ροή μεταξύ όλων των ροών επιτυχιών και αποτυχιών, η διαφορά μεταξύ του αριθμού των ροών επιτυχιών και του αριθμού αποτυχιών είναι επίσης τυχαίες μεταβλητές ενδιαφέροντος στη θεωρία των ροών. - 2 -

Εισαγωγή - Ιστορική αναδρομή Η μελέτη των κατανομών των ροών και των σχηματισμών οδήγησε σε μια σειρά δημοσιεύσεων αναφερομένων σε διακριτές κατανομές και των χαρακτηριστικών τους και σε εφαρμογές τους. Ενδεικτικά αναφέρουμε τις ακόλουθες από την πρόσφατη αρθρογραφία: Fu and Koutras (1994), Koutras, Alexandrou (1997), Koutras (2003), Kong (2006), Sen, Agarwal, Bhattacharya (2006), Tripsiannis, Philippou, Papathanasiou (2003), Sarkar, Sen, Anuradha (2004), Eryilmaz (2005, 2016), Makri, Philippou, Psillakis (2007b), Holst (2007,2008), Sinha and Sinha (2009), Dafnis, Antzoulakos, Philippou (2010), Demir, Eryilmaz (2010), Eryilmaz, Yalcin (2011), Makri (2011), Godbole, Koutras, Milienos (2011), Makri, Psillakis (2011a), Mytalas, Zazanis (2013), Makri, Psillakis, Arapis (2013), Makri, Psillakis (2015). Για διευκρίνηση του τρόπου καταμέτρησης των ροών αλλά και του ορισμού των αντιστοίχων τυχαίων μεταβλητών δίνουμε το ακόλουθο παράδειγμα. Εστω ότι εκτελούμε ένα πείραμα τύχης με δύο δυνατά αποτελέσματα, επιτυχία (1) - αποτυχία (0). Επαναλαμβάνουμε το πείραμα n = 20 διαδοχικές φορές και θεωρούμε k = 3. Εστω ότι προκύπτει η δυαδική ακολουθία 01110101111101111110. Τότε ο αριθμός των μη επικαλυπτόμενων ροών επιτυχιών μήκους k (μέτρηση κατά Feller) είναι N 20,3 = 4 και ο χρόνος αναμονής μέχρι την 2η (r = 2) εμφάνιση τέτοιας ροής είναι T (I) 2,3 = 10. Ο αριθμός των επικαλυπτόμενων ροών επιτυχιών μήκους k (μέτρηση κατά Ling) είναι M 20,3 = 8 και ο χρόνος αναμονής μέχρι την 3η (r = 3) T (III) 3,3 = 11. Ο αριθμός των 1-επικαλυπτόμενων ροών επιτυχιών μήκους k (μέτρηση κατά Aki και Hirano) είναι N 20;3,1 = 5 και ο χρόνος αναμονής μέχρι την 3η (r = 3) εμφάνιση τέτοιας ροής είναι T (IV ) 3,3,1 = 12. Ο αριθμός των ροών επιτυχιών μήκους τουλάχιστον k είναι G 20,3 = 3 και ο χρόνος αναμονής μέχρι την 3η εμφάνιση ροής μήκους τουλάχιστον 3 είναι T (II) 3,3 = 16. Ο συνολικός αριθμός επιτυχιών που περιέχονται στις G 20,3 ροές είναι S 20,3 = 14. Το μέγιστο μήκος ροής επιτυχιών στην ακολουθία είναι L 20 M 20 = 1. = 6 και το ελάχιστο μήκος Οι μέθοδοι που έχουν χρησιμοποιηθεί για τον προσδιορισμό των κατανομών και των χαρακτηριστικών τους περιλαμβάνουν συνδυαστικές μεθόδους, εύρεση γεννητριών συναρτήσεων, προσδιορισμό αναδρομικών σχέσεων και τη μέθοδο εμφύτευσης διακριτής τυχαίας μεταβλητής ακεραίων τιμών σε Μαρκοβιανή αλυσίδα. Η θεωρία των ροών οφείλει τη σπουδαιότητά της στις ποικίλες εφαρμογές της που εμφανίζονται σε διάφορους επιστημονικούς κλάδους. Στη μελέτη αξιοπιστίας συστημάτων, ένα σύστημα που αποτελείται από n μονάδες παύει να λειτουργεί, αν τουλάχιστον k διαδοχικές μονάδες του δεν λειτουργούν. Συνεπώς, εάν θεωρήσουμε ως επιτυχία την εμφάνιση μιας μονάδας η οποία δεν λειτουργεί και ως αποτυχία την εμφάνιση - 3 -

Εισαγωγή - Ιστορική αναδρομή μονάδας που λειτουργεί, μπορούμε να εκφράσουμε την αξιοπιστία ενός τέτοιου συστήματος (πιθανότητα λειτουργίας) με τη βοήθεια μιας διωνυμικής κατανομής τάξης k ή της κατανομής της μέγιστης ροής επιτυχιών. Στον τομέα της βιομηχανίας και συγκεκριμένα στη διαδικασία του στατιστικού ελέγχου ποιότητας, η ιδέα χρησιμοποίησης εμφάνισης ροής ως ένα κριτήριο τερματισμού μιας διαδικασίας σε ένα δείγμα παρατηρήσεων πρωτοαναφέρθηκε ήδη από τους Mosteller (1941) και Wolfowitz (1943). Στη συνέχεια, προτάθηκαν πολλές μελέτες βασισμένες στις ροές επιτυχιών που εμφανίζονται στη βιβλιογραφία του στατιστικού ελέγχου ποιότητας. Η θεωρία ροών επιτυχιών βρίσκει επίσης μεγάλη χρήση στους τομείς της ψυχολογίας, των αθλητικών διαγωνισμών καθώς και στις μελέτες εκμάθησης. Για παράδειγμα, η λογική αυτή ακολουθείται από τους ψυχολόγους οι οποίοι χρησιμοποιούν διάφορα κριτήρια ώστε να προσδιορίσουν πότε πρέπει να τερματίσουν μια θεραπεία. Ενα από τα πιο γνωστά κριτήρια στην κοινότητα της επιστήμης της Ψυχολογίας είναι το κριτήριο ροών του Grant (1947). Ενας επιστημονικός τομέας που βρίσκει άμεση εφαρμογή η θεωρία ροών είναι ο τομέας της Βιολογίας. Συγκεκριμένα, επικεντρώνουμε το ενδιαφέρον μας στη μελέτη τμημάτων ακολουθιών γενετικού υλικού (DNA) οι οποίες αποτελούνται από 4 είδη βάσεων, Αδενίνη (A), Γουανίνη (G), Κυτοσίνη (C), Θυμίνη (T ) όπου ανάλογα με την περιεκτικότητα και την τυχαιότητα αυτών των βάσεων στις αλυσίδες DNA μπορούν να εξαχθούν χρήσιμα συμπεράσματα. Η εξαγωγή των αποτελεσμάτων μπορεί να γίνει και μέσω της μετατροπής των ακολουθιών DNA σε δυαδικές ακολουθίες των οποίων η μελέτη συνδέεται με την εμφάνιση ροών. Εφαρμογές των ροών και των κατανομών τους συναντάμε επίσης στη στατιστική συμπερασματολογία, την επιστήμη των υπολογιστών, την οικονομία, τη μετεωρολογία και την υδρολογία. Επιπλέον εφαρμογές και ανάλυσή τους αναφέρονται στα βιβλία Balakrishnan and Koutras (2002) και Fu and Lou (2003). Στη διατριβή αυτή, μελετάμε τη θέση, (U (1) n,k, U (2) n,k ) και το μήκος, D n,k, του τμήματος εκείνου μιας ακολουθίας δυαδικών πειραμάτων, στο οποίο περιορίζονται οι ροές επιτυχιών των οποίων το μήκος υπερβαίνει ένα συγκεκριμένο μέγεθος (κατώφλι), k 1, k 1. Η έννοια της απόστασης μεταξύ της πρώτης και της τελευταίας ροής μήκους τουλάχιστον k έχει χρησιμοποηθεί, μέσω προσομοίωσης, στην εργασία Benson (1999) για την ανίχνευση επαναλαμβανόμενων αλληλουχιών νουκλεοτιδίων σε ακολουθίες DNA, ενώ η θέση του τμήματος μέσα στην ακολουθία εισάγεται στη διατριβή αυτή. Δίνονται νέα αποτελέσματα για την κατανομή της G n,k, άμεσα σχετιζόμενης με τις υπό μελέτη τυχαίες μεταβλητές, και στη συνέχεια προσδιορίζονται οι ακριβείς κατανομές των D n,k και (U (1) n,k, U (2) n,k ). Η μελέτη γίνεται για τις τυχαίες μεταβλητές ορισμένες σε ακολουθίες ανεξάρτητων και ισόνομων δυαδικών τυχαίων μεταβλητών, σε ακολουθίες ανεξάρτητων όχι κατ ανάγκην ισόνομων δυαδικών τυχαίων μεταβλητών, σε δυαδικές ανταλλάξιμες τυχαίες μεταβλητές, - 4 -

Εισαγωγή - Ιστορική αναδρομή σε ομογενείς αλυσίδες Markov και σε μη ομογενείς αλυσίδες Markov δύο καταστάσεων. Η α- κριβής από κοινού κατανομή των τυχαίων μεταβλητών απαρίθμησης των ροών επιτυχιών μήκους τουλάχιστον k, του συνολικού αριθμού των επιτυχιών σε αυτές και της απόστασης μεταξύ της πρώτης και της τελευταίας τέτοιας ροής, δηλ. της τυχαίας μεταβλητής (D n,k, G n,k, S n,k ) βρίσκεται επίσης για ανεξάρτητες και ισόνομες δοκιμές καθώς και για ομογενείς Μαρκοβιανές αλυσίδες. Οι μέθοδοι που χρησιμοποιήθηκαν στηρίχθηκαν στη συνδυαστική ανάλυση και στην εύρεση αναδρομικών σχημάτων, ανάλογα με τη δομή της υπό μελέτη ακολουθίας. Η διατριβή χωρίζεται σε τρεις ενότητες. Η πρώτη περιλαμβάνει προκαταρκτικές έννοιες και ορισμούς. Τα κύρια αποτελέσματα της διατριβής παρουσιάζονται στη δεύτερη ενότητα. Δυνητικές εφαρμογές συνοδευόμενες από ανάλυση και αριθμητικά παραδείγματα αποτελούν την τελευταία ενότητα της διατριβής. - 5 -

- 6 -

Ενότητα Α. Προκαταρκτικές έννοιες Εισαγωγή Στην ενότητα αυτή θα παρουσιάσουμε κάποιες προκαταρκτικές έννοιες και ορισμούς αναφορικά τόσο με το είδος των ακολουθιών δυαδικών τυχαίων μεταβλητών (Κεφάλαιο 1) όσο και με τις στατιστικές συναρτήσεις (Κεφάλαιο 2), με την πιθανοτική συμπεριφορά των οποίων θα ασχοληθούμε στη διατριβή. - 7 -

Κεφάλαιο 1. Είδη ακολουθιών δυαδικών τυχαίων μεταβλητών και σχέσεις μεταξύ τους 1.0. Εισαγωγή Θεωρούμε μια ακολουθία {X t } t 1 από δυαδικές [Αποτυχία (F ή 0) - Επιτυχία (S ή 1)] τυχαίες μεταβλητές (ΤΜ) διατεταγμένες σε μια γραμμή. Για τα στοιχεία (ή συνιστώσες) της δυαδικής ή 0 1 ακολουθίας {X t } t 1 ισχύει ότι X t = x t A = {0, 1}, t 1. (1) Στη διεθνή βιβλιογραφία είναι κοινή πρακτική η υπόθεση ότι οι ΤΜ X t ακολουθούν ένα πιθανοτικό πρότυπο ή ισοδύναμα οι τιμές τους παράγονται από μια συγκεκριμένη τυχαία πηγή, δηλαδή η εσωτερική δομή της ακολουθίας {X t } t 1 περιγράφεται από κάποιο συγκεκριμένο πιθανοτικό πρότυπο. Η (κατάλληλη) μορφή των χρησιμοποιούμενων προτύπων καθορίζεται τόσο από το θεωρητικό ενδιαφέρον ανάπτυξης γενικών αποτελεσμάτων όσο και από τις επιθυμούμενες εφαρμογές των αποτελεσμάτων σε συγκεκριμένους επιστημονικούς κλάδους. Τελικά, οι πιθανοτικές υποθέσεις για τη δομή μιας δυαδικής ακολουθίας πρέπει να αποτελούν ένα κατάλληλο ισοζύγιο μεταξύ των δύο προηγούμενων κατευθύνσεων. Συνήθως, μια πηγή τυχαιότητας γεννά μια ακολουθία με στοιχεία από το A τα οποία εμφανίζονται ανεξάρτητα το ένα από το άλλο (πηγή χωρίς μνήμη) ή τα στοιχεία της δυαδικής ακολουθίας έχουν κάποιο είδος εξάρτησης μεταξύ τους (πηγή με εξάρτηση). Τα πλέον συνήθη πρότυπα ε- ξάρτησης (ή μνήμης) είναι μια (ομογενής/μη ομογενής) Μαρκοβιανή αλυσίδα δύο καταστάσεων κάποιας τάξης (συνήθως πρώτης), η οποία καθορίζει Μαρκοβιανή εξάρτηση μεταξύ ενός αριθμού (ίσου με την τάξη της αλυσίδας) διαδοχικών στοιχείων της δυαδικής ακολουθίας (Μαρκοβιανή πηγή) και η υπόθεση ότι η δυαδική ακολουθία έχει την ιδιότητα της ανταλλαξιμότητας (ανταλλάξιμη πηγή) η οποία εκφράζει κάποιο είδος συμμετρικής εξάρτησης μεταξύ των στοιχείων της δυαδικής ακολουθίας. Ειδικό ενδιαφέρον στη μελέτη δυαδικών ακολουθιών έχει η περίπτωση κατά την οποία οι ΤΜ είναι ανεξάρτητες και ισόνομες. Αυτό οφείλεται τόσο στην ίδια αξία της περίπτωσης αυτής στις διάφορες μελέτες δυαδικών ακολουθιών στην εφαρμοσμένη πιθανότητα, όσο και στο γεγονός ότι η περίπτωση αυτή μπορεί να θεωρηθεί ως μερική (ειδική) περίπτωση και των τριών προαναφερθέντων πηγών τυχαιότητας. Λόγω του τελευταίου γεγονότος μια δυαδική ακολουθία από ανεξάρτητες και ισόνομες ΤΜ χρησιμοποιείται συχνά στις διάφορες μελέτες ως μια αξιόπιστη διασταύρωση αποτελεσμάτων τα οποία αναφέρονται σε διάφορες πηγές τυχαιότητας και έχουν προσδιορισθεί με τη χρήση διαφόρων μεθόδων. - 8 -

1. Είδη ακολουθιών δυαδικών τυχαίων μεταβλητών και σχέσεις μεταξύ τους Στη συνέχεια θα δώσουμε τους (τυπικούς) ορισμούς καθώς και τις μεταξύ τους σχέσεις για τα διάφορα είδη δυαδικών ακολουθιών που προαναφέραμε και που θα χρησιμοποιηθούν στη διατριβή. Για τον σκοπό αυτόν μπορούμε είτε να ξεκινήσουμε από το πλέον ειδικό πρότυπο μιας δυαδικής α- κολουθίας από ανεξάρτητες και ισόνομες ΤΜ και να προχωρήσουμε γενικεύοντας προς τα πρότυπα των ανταλλάξιμων και Μαρκοβιανά εξαρτημένων ΤΜ είτε να ακολουθήσουμε την αντίστροφη οδό από το γενικό (δυαδική ακολουθία με εξάρτηση) πρότυπο και να καταλήξουμε στο πλέον ειδικό πρότυπο (δυαδική ακολουθία από ανεξάρτητες και ισόνομες συνιστώσες). Χάριν ευκολίας τόσο στη διατύπωση όσο και στην παρουσίαση των αποτελεσμάτων, θα ακολουθήσουμε μια ενδιάμεση οδό αυτήν που υποδεικνύει η διάκριση των πηγών τυχαιότητας σε αυτές με ή χωρίς εξάρτηση. Αρχικά θα δώσουμε τους ορισμούς δυαδικών ακολουθιών των οποίων τα στοιχεία δεν παρουσιάζουν πιθανοτική εξάρτηση μεταξύ τους, δηλ. είναι ανεξάρτητες ΤΜ και έπειτα θα δώσουμε τους ορισμούς για δυαδικές ακολουθίες με ανταλλάξιμες και Μαρκοβιανά εξαρτημένες ΤΜ. 1.1. Ακολουθίες ανεξάρτητων δυαδικών τυχαίων μεταβλητών Οι δυαδικές ΤΜ X t, t = 1, 2,... n, με σύνολο τιμών R(X t ) = A είναι ανεξάρτητες εάν και μόνο εάν n P (X t = x t, t = 1, 2,..., n) = P (X t = x t ), x t A, n > 1. (2) t=1 Οι ΤΜ X t, t = 1, 2,..., είναι ανεξάρτητες εάν κάθε πεπερασμένη υποσυλλογή από αυτές είναι μια συλλογή από ανεξάρτητες ΤΜ. Σε μια δυαδική ακολουθία {X t } t 1 από ανεξάρτητες ΤΜ, θέτουμε p t = P (X t = 1) = 1 P (X t = 0) = 1 q t, t 1. (3) Αν P (X t = 1) = p = 1 q = 1 P (X t = 0), t 1, (4) δηλαδή, όλα τα στοιχεία της δυαδικής ακολουθίας έχουν την ίδια πιθανότητα επιτυχίας p, άρα και αποτυχίας q = 1 p, τότε η {X t } t 1 είναι μια δυαδική ακολουθία από ανεξάρτητες και ισόνομες ΤΜ. Σε διαφορετική περίπτωση, δηλ. όταν κάθε συνιστώσα της δυαδικής ακολουθίας μπορεί να έχει διαφορετική πιθανότητα επιτυχίας από κάποια άλλη, η δυαδική ακολουθία {X t } t 1 είναι μια δυαδική ακολουθία από ανεξάρτητες όχι κατ ανάγκην ισόνομες ΤΜ. Παρατήρηση 1.1.1. Είναι προφανές ότι μια δυαδική ακολουθία {X t } t 1 ανεξάρτητων και ισόνομων ΤΜ είναι μια ειδική περίπτωση ακολουθίας ανεξάρτητων ΤΜ με p t = p, t 1. (5) - 9 -

1. Είδη ακολουθιών δυαδικών τυχαίων μεταβλητών και σχέσεις μεταξύ τους Παρατήρηση 1.1.2. Εάν θεωρήσουμε μια ακολουθία {X t } n t=1 ανεξάρτητων και ισόνομων δυαδικών ΤΜ με σύνθεση από y, 0 y n, 0 (αποτυχίες) και n y 1 (επιτυχίες), τότε ισχύει π n (y) = P (X 1 = x 1, X 2 = x 2,..., X n = x n ) = p n y q y, 0 y n, n > 0, (6) όπου p(q) είναι η κοινή πιθανότητα επιτυχίας (αποτυχίας) στη δυαδική ακολουθία {X t } n t=1. 1.2. Ακολουθίες ανταλλάξιμων δυαδικών τυχαίων μεταβλητών Μια ακολουθία {X t } t 1, 0 1 ΤΜ ονομάζεται ανταλλάξιμη ή συμμετρικά εξαρτημένη, αν για κάθε n > 0 και κάθε διάνυσμα (x 1, x 2,..., x n ), x t A ισχύει ότι P (X τt = x t, t = 1, 2,..., n) = P (X t = x t, t = 1, 2,..., n), (7) για κάθε μετάθεση (τ 1, τ 2,..., τ n ) του συνόλου {1, 2,..., n}, δηλ. η από κοινού κατανομή των ΤΜ X 1, X 2,..., X n είναι αναλλοίωτη (αμετάβλητη) για κάθε μετάθεση των δεικτών τους. Ο όρος ανταλλαξιμότητα έχει εισαχθεί από τον de Finetti (1931) προκειμένου να περιγράψει μια έννοια ομοιότητας μεταξύ τυχαίων ποσοτήτων. Αν για δεδομένο n > 0 υποθέσουμε μια σύνθεση από 0 και 1 στην {X t } n t=1, τότε λόγω της ανταλλαξιμότητας κάθε δυαδική ακολουθία {X t } n t=1 με y, 0 y n, 0 και s = n y 1, έχει την ίδια πιθανότητα εμφάνισης p n (y) = P (X 1 = x 1, X 2 = x 2,..., X n = x n ) = P (X 1 = X 2 =... = X n y = 1, X n y+1 = X n y+2 =... = X n = 0). (8) Οι George and Bowman (1995) απέδειξαν ότι η p n (y) μπορεί να δοθεί από την p n (y) = y ( ) y ( 1) i λ n y+i, 0 y n, n > 0, (9) i i=0 όπου λ j = P (X i = 1, i = 1, 2,..., j), 1 j n; λ j = 1, j = 0, (10) με τα λ j να καθορίζονται πλήρως από τη δομή της {X t } n t=1. Εδωσαν επίσης, συναρτήσει των λ j, την ακόλουθη έκφραση για τη συνάρτηση πιθανότητας του συνολικού αριθμού S n των 1 στην ακολουθία των n ανταλλάξιμων δυαδικών ΤΜ X 1, X 2,..., X n, ( ) n n r ( ) n r P (S n = r) = ( 1) i λ r+i, r = 0, 1,..., n, (11) r i όπου S n = n i=1 X i και r = n i=1 x i. i=0-10 -

1. Είδη ακολουθιών δυαδικών τυχαίων μεταβλητών και σχέσεις μεταξύ τους Παρατήρηση 1.2.1. Στην περίπτωση μιας {X t } n t=1 ανεξάρτητων και ισόνομων ΤΜ με y, 0 y n, αποτυχίες (0) και n y επιτυχίες (1), ισχύει ότι λ j = p j, 0 j n, p = P (X t = 1), 1 t n (12) και επομένως p n (y) = π n (y) = p n y q y, 0 y n, n > 0. (13) Οι σχέσεις (10) και (11) γενικεύουν τη (γνωστή) διωνυμική κατανομή, αφού στην περίπτωση που οι ΤΜ X i είναι ανεξάρτητες με κοινή πιθανότητα επιτυχίας p, η S n γίνεται μια διωνυμική ΤΜ με παραμέτρους n και p. Παρατήρηση 1.2.2. Αν με U (e) n και U n συμβολίσουμε τις ΤΜ οι οποίες ορίζονται με τον ίδιο κανόνα σε μια ακολουθία {X (e) t } n t=1 ανταλλάξιμων δυαδικών ΤΜ και σε μια ακολουθία {X t } n t=1 ανεξάρτητων και ισόνομων δυαδικών ΤΜ και με Y n (e), Y n τις ΤΜ που παριστάνουν τον αριθμό των 0 στις αντίστοιχες ακολουθίες, τότε ισχύει ότι και P (U (e) n = x) = y P (U (e) n = x Y (e) n = y) = P (U n = x Y n = y), (14) P (U n = x Y n = y)p (Y (e) n = y), P (Y (e) n = y) = ( ) n p n (y). (15) y Επομένως, η περιθώρια συνάρτηση πιθανότητας της U (e) n ορισμένης σε μια ανταλλάξιμη ακολουθία δυαδικών ΤΜ μπορεί να προσδιορισθεί από τη συνάρτηση πιθανότητας της U n με απλό τρόπο. 1.3. Ακολουθίες Μαρκοβιανά εξαρτημένων δυαδικών τυχαίων μεταβλητών Ενα αρκετά γενικό πρότυπο εξάρτησης μεταξύ των στοιχείων X t μιας δυαδικής ακολουθίας {X t } t 1 είναι το πρότυπο μιας μη ομογενούς αλυσίδας Markov δύο καταστάσεων πρώτης τάξης. Εστω {X t } t 1 μια μη ομογενής αλυσίδα Markov πρώτης τάξης με χώρο καταστάσεων A, X t A, πίνακα πιθανοτήτων μετάβασης ( ) (t) p P (t) = (p (t) ij ) = 00 p (t) 01, p (t) 10 p (t) 11 t 2, (16) όπου p (t) ij = P (X t = j X t 1 = i), i, j A, - 11 - j A p (t) ij = 1, i A, t 2 (17)

1. Είδη ακολουθιών δυαδικών τυχαίων μεταβλητών και σχέσεις μεταξύ τους και διάνυσμα κατανομής πιθανότητας p (t) = (p (t) 0, p (t) 1 ), (18) με p (t) i = P (X t = i), i A, Μεταξύ των p (t) και P (t) ισχύει ότι i A p (t) i = 1, t 1. (19) με p (t) = p (t 1) P (t) = p (1) t P (m), t 2; p (1), t = 1, (20) m=2 p (t) i = p (t) e i, i A, t 1, (21) p (t) ij = e i P (t) e j, i, j A, t 2, (22) όπου e i είναι το ανάστροφο (διάνυσμα στήλη) του διανύσματος (διάνυσμα γραμμή) e i, με e 0 = (1, 0) και e 1 = (0, 1). Με άλλα λόγια, για δοθέντα p (1) j, j A και p (t) ij, i, j A, t 2, η κατανομή πιθανότητας p (t), t 2, υπολογίζεται από την j p (t) j = 1 i=0 p (t 1) i p (t) ij, j A. (23) Παρατήρηση 1.3.1. Για μια ομογενή αλυσίδα Markov πρώτης τάξης {X t } t 1, X t A, οι πιθανότητες p (t) ij Οπότε, και δεν εξαρτώνται από τον χρόνο (θέση) t και ισχύει ότι p (t) ij = p ij = P (X t = j X t 1 = i), i, j A, t 2, P = (p ij ). (24) p (t) = p (t 1) P = p (1) P t 1, t 2; p (1), t = 1, (25) t t P (m) = P P t 1, t 2 (26) m=2 m=2 p [t 1] ij = P (X t 1+m = j X m = i) = e i P t 1 e j, i, j A, t 2, m 1. (27) Ειδικά δε, εάν p 01 + p 10 0, δηλ. P I, ισχύει ότι ) P t 1 = (p 01 + p 10 ) 1 { ( p 10 p 01 p 10 p 01 + (1 p 01 p 10 ) t 1 ( p01 p 01 p 10 p 10 ) }, t 2, (28) p (t) 0 = p (1) 0 (1 p 01 p 10 ) t 1 + p 10 (p 01 + p 10 ) 1 [1 (1 p 01 p 10 ) t 1 ], t 1. (29) - 12 -

1. Είδη ακολουθιών δυαδικών τυχαίων μεταβλητών και σχέσεις μεταξύ τους Παρατήρηση 1.3.2. Θεωρούμε τα n, n 2, πρώτα πειράματα {X t } n t=1 μιας ομογενούς Μαρκοβιανής αλυσίδας δύο καταστάσεων, πρώτης τάξης, {X t } t 1. Εστω Y n και R n ΤΜ που παριστάνουν, αντίστοιχα, τον συνολικό αριθμό των αποτυχιών (0) και τον συνολικό αριθμό των επιτυχιών (1) στα n αυτά πειράματα (για λεπτομέρειες βλέπε τους Ορισμούς 2.1.2 και 2.1.3). Τότε ένα στοιχείο του ενδεχομένου {Y n = y, R n = r}, 0 y n, 0 r (n + 1)/2, (30) είναι μια 0 1 ακολουθία μήκους n η οποία είναι δυνατόν να εμφανισθεί με μια από τις ακόλουθες μορφές: με πιθανότητα p (1) 0 p y r 1 00 p r 01p r 10p n y r 11, (0, 0) : } 00 {{... 0} 11 }{{... 1} 00 }{{... 0}... 11 }{{... 1} 00 }{{... 0}, (31) y 1 z 1 y 2 z r y r+1 με πιθανότητα p (1) 0 p y r 00 p r 01p r 1 10 p n y r 11, (0, 1) : } 00 {{... 0} 11 }{{... 1} 00 }{{... 0}... 00 }{{... 0} 11 }{{... 1}, (32) y 1 z 1 y 2 y r z r με πιθανότητα p (1) 1 p y r 00 p r 1 01 p r 10p n y r 11 και (1, 0) : } 11 {{... 1}} 00 {{... 0} 11 }{{... 1}... 11 }{{... 1} 00 }{{... 0}, (33) z 1 y 1 z 2 z r y r με πιθανότητα p (1) 1 p y r+1 00 p r 1 01 p r 1 10 p n y r 11. Για (i, j) {0, 1} 2 ορίζουμε και (1, 1) : } 11 {{... 1}} 00 {{... 0} 11 }{{... 1}... 00 }{{... 0} 11 }{{... 1}, (34) z 1 y 1 z 2 y r 1 z r B (i,j) n (y, r) = {X 1 = i, X n = j, Y n = y, R n = r} (35) π (i,j) n (y, r) = P (B n (i,j) (y, r))/ B n (i,j) (y, r). (36) Τότε, ενοποιώντας τις εκφράσεις των πιθανοτήτων, για 2 (i + j) y n (i + j), 1 δ y,0 δ y,n + δ i+j,2 r min{n y, y 1 + (i + j)} έχουμε ότι, π (i,j) n (y, r) = (p (1) 1 ) i (p (1) 0 ) 1 i p y r 1+(i+j) 00 p r i 01 p r j 10 p n y r 11, ή αφού p (1) 0 = 1 p (1) 1 και p 01 = 1 p 00, p 10 = 1 p 11, π (i,j) n (y, r) = (p (1) 1 ) i (1 p (1) 1 ) 1 i p y r 1+(i+j) 00 (1 p 00 ) r i (1 p 11 ) r j p n y r 11 (37) - 13 -

1. Είδη ακολουθιών δυαδικών τυχαίων μεταβλητών και σχέσεις μεταξύ τους και π (i,j) n (y, r) = 0, αλλού. Παρατήρηση 1.3.3. Μια ακολουθία ανεξάρτητων, όχι κατ ανάγκην ισόνομων δυαδικών ΤΜ {X t } t 1 με πιθανότητες επιτυχίας p t = P (X t = 1), t 1, (38) είναι μια ειδική περίπτωση μη ομογενούς Μαρκοβιανής αλυσίδας δύο καταστάσεων πρώτης τάξης με p (t) ij = 1 p t, j = 0; p t, j = 1, i A, t 2 (39) και p (t) 0 = 1 p t = 1 p (t) 1, t 1. (40) Παρατήρηση 1.3.4. κοινή πιθανότητα επιτυχίας Μια ακολουθία ανεξάρτητων και ισόνομων δυαδικών ΤΜ {X t } t 1 με p = P (X t = 1) = p 1, t 1, είναι ταυτόχρονα μια ειδική περίπτωση μιας ακολουθίας ανεξάρτητων δυαδικών ΤΜ {X t } t 1 και μιας ομογενούς 0 1 Μαρκοβιανής αλυσίδας πρώτης τάξης {X t } t 1, οπότε ισχύει ότι p [t 1] ij p (t) ij = p ij = 1 p 1, j = 0; p 1, j = 1, i A, t 2, (41) = p ij, i, j A, t 2, p (t) 0 = 1 p (1) 1 = 1 p 1, t 1, p 1 p. (42) Επίσης, η πιθανότητα π n (i,j) (y, r) μετατρέπεται στην π n (y) δηλ. π n (i,j) (y, r) = π n (y) = p n y 1 (1 p 1 ) y, 0 y n, n > 0. (43) Παρατήρηση 1.3.5. Σημειώνουμε ότι σε όλη τη διατριβή, για ακεραίους n και m, ( n m) είναι ο γενικευμένος διωνυμικός συντελεστής (βλ. Feller 1968, σελ. 50, 63), x είναι το ακέραιο μέρος του x (ο μεγαλύτερος ακέραιος μικρότερος ή ίσος του x) και I(A) = 1, αν πραγματοτοποιείται το γεγονός A και I(A) = 0, διαφορετικά. Επίσης, για α > β, γίνονται οι παραδοχές β i=α y i = 0, β i=α y i = 1, ( ) β i=α Y(i) 0 0 = O, ( ) β i=α Y(i) 1 0 = I, όπου τα y i και Y (i) 0 0 0 1 θεωρούνται ως βαθμωτά μεγέθη (αριθμοί) και 2 2 πίνακες, αντίστοιχα. - 14 -

Κεφάλαιο 2. Στατιστικές συναρτήσεις απαρίθμησης και συγκέντρωσης επιτυχιών και ροών επιτυχιών σε ακολουθίες δυαδικών τυχαίων μεταβλητών 2.0. Εισαγωγή Στατιστικές συναρτήσεις απαρίθμησης ροών ή προτύπων (συμβολοσειρών) οι οποίες ορίζονται σε ακολουθίες δυαδικών (0 1) ΤΜ καθώς και ο προσδιορισμός ακριβών ή προσεγγιστικών εκφράσεων για τις κατανομές τους έχουν εκτεταμένα μελετηθεί στη διεθνή βιβλιογραφία. δημοτικότητά τους οφείλεται στο γεγονός ότι οι στατιστικές αυτές εμφανίζονται ως χρήσιμα θεωρητικά πρότυπα σε πολλές ερευνητικές περιοχές οι οποίες περιλαμβάνουν μεταξύ άλλων, τη στατιστική (π.χ. έλεγχος υποθέσεων), τη μηχανική (π.χ. αξιοπιστία συστημάτων και θεωρία ελέγχου), τη βιολογία (π.χ. πληθυσμιακή γενετική και ανάλυση ακολουθιών DNA), την επιστήμη των υπολογιστών (π.χ. κωδικοποίηση, μεταφορά, αποκωδικοποίηση ψηφιακής πληροφορίας) και την οικονομική μηχανική (π.χ. αναλογιστική και ανάλυση κινδύνου). Σε εφαρμογές του τύπου αυτού, ένας από τους βασικούς στόχους είναι η κατανόηση του τρόπου με τον οποίον τα σύμβολα 0 και 1 κατανέμονται και συνδυάζονται μεταξύ τους δημιουργώντας πρότυπα σε 0 1 ακολουθίες (πεπερασμένες ή άπειρες με μνήμη ή χωρίς μνήμη) και τελικά δημιουργούν ροές ή γενικά συμβολοσειρές από 0 και 1 οι οποίες απαριθμούνται σύμφωνα με ορισμένους κανόνες (σχήματα) απαρίθμησής τους. Κάθε σχήμα απαρίθμησης καθορίζει τον τρόπο σύμφωνα με τον οποίο ροές ίδιων συμβόλων ή συμβολοσειρές και των δύο συμβόλων δημιουργούνται και στη συνέχεια καταμετρώνται. Ενα σχήμα (κανόνας) απαρίθμησης μπορεί να εξαρτάται, μεταξύ άλλων θεωρήσεων, από το εάν μετράει (παίζει ρόλο) στην απαρίθμηση η τυχούσα υπερκάλυψη γειτονικών συμβόλων καθώς και εάν η απαρίθμηση ξεκινάει από την αρχή όταν μια ροή ή συμβολοσειρά ορισμένου μεγέθους και μορφής έχει καταμετρηθεί προηγουμένως. Ενα σχήμα απαρίθμησης όπως επίσης και ένα πρότυπο για την εσωτερική (συμφυή) αβεβαιότητα μιας 0 1 ακολουθίας, υποδεικνύεται (προτείνεται) συνήθως από τις εφαρμογές. Πιθανοτικά πρότυπα σε κοινή χρήση για την εσωτερική δομή μιας 0 1 ακολουθίας περιλαμβάνουν το πρότυπο μιας ακολουθίας με ανεξάρτητα στοιχεία μεταξύ τους ή το πρότυπο μιας ακολουθίας της οποίας τα στοιχεία παρουσιάζουν κάποιο είδος εξάρτησης μεταξύ τους. Η Οι μέθοδοι οι οποίες χρησιμοποιούνται για να εξαχθούν ακριβείς ή προσεγγιστικές, περιθώριες ή από κοινού κατανομές, περιλαμβάνουν μεταξύ άλλων, συνδυαστική ανάλυση, γεννήτριες συναρτήσεις, τεχνικές εμφύτευσης σε Μαρκοβιανές αλυσίδες, αναδρομικές σχέσεις, εύρεση προσεγγιστικών κατανομών των εμπλεκομένων στατιστικών συναρτήσεων μέσω προσομοίωσής τους ή με χρήση αριθμητικών μεθόδων καθώς επίσης αναγωγής των κατανομών τους σε κανονικές, Poisson και άλλα πρότυπα - 15 -

2. Στατιστικές συναρτήσεις απαρίθμησης και συγκέντρωσης επιτυχιών και ροών επιτυχιών κατανομών. Γενικά, η θεωρία καθώς και τα προβλήματα που αναφέρονται σε ροές ή συμβολοσειρές μπορούν να διατυπωθούν χωρίς ιδιαίτερα δύσκολες έννοιες ή εμπλεκόμενους τεχνικούς όρους. Η λύση όμως των προβλημάτων, τα περισσότερα από τα οποία συνδέονται άμεσα με εφαρμογές, δεν είναι εύκολη και η προσπάθεια για την επίλυσή τους βοηθά στην κατανόηση της έννοιας της τυχαιότητας. Μια εξαιρετική και σχετικά πρόσφατη παρουσίαση και αξιολόγηση της τρέχουσας βιβλιογραφίας αναφερόμενης σε ροές και συναφή με αυτές θέματα και εφαρμογές γίνεται στα βιβλία Balakrishnan and Koutras (2002) και Fu and Lou (2003). Δύο ενδεικτικές εφαρμογές των ροών είναι και οι ακόλουθες. Η κωδικοποίηση, συμπίεση και μετάδοση ψηφιακής πληροφορίας απαιτεί την κατανόηση του τρόπου με τον οποίον τα ψηφία 0 και 1 κατανέμονται σε μια 0 1 ακολουθία. Η γνώση αυτή βοηθάει στην ανάλυση καθώς και στη σύγκριση διαφόρων τεχνικών οι οποίες χρησιμοποιούνται στα δίκτυα επικοινωνίας και υπολογιστών. Σε ένα τέτοιο δίκτυο, ψηφιακά δεδομένα με μέγεθος το οποίο κυμαίνεται, από λίγα bytes ή kbytes (π.χ. μηνύματα ηλεκτρονικού ταχυδρομείου) έως πολλά (εκατοντάδες) gbytes άπλειστων (greedy) εφαρμογών πολυμέσων (π.χ. κατέβασμα video ή ταινιών) κωδικοποιούνται, αποκωδικοποιούνται, μεταφέρονται και επεξεργάζονται με ασφαλείς τρόπους. Λεπτομέρειες για τους τρόπους αυτούς καθώς και για τη σημασία της γνώσης των κατανομών ΤΜ που σχετίζονται με αυτούς, αναφέρονται στις εργασίες Sinha and Sinha (2009), Makri and Psillakis (2011a) και Tabatabaei and Zivic (2015). Μια άλλη επιστημονική περιοχή όπου η μελέτη των ροών από 0 και 1 έχει σημειώσει μεγάλη άνθηση είναι η βιοπληροφορική ή η υπολογιστική βιολογία. Για παράδειγμα, οι μοριακοί βιολόγοι σχεδιάζουν και αναλύουν ελέγχους ομοιότητας μεταξύ δύο ακολουθιών (ή τμημάτων μιας ακολουθίας) DNA. Στους ελέγχους αυτούς, οι οποίοι γίνονται με τη μετατροπή των ακολουθιών DNA σε 0 1 ακολουθίες, μια 1 (επιτυχία) ερμηνεύεται ως μια ταύτιση των ακολουθιών σε μια θέση και οτιδήποτε άλλο ως 0 (αποτυχία). Η πιθανοτική ανάλυση της προκύπτουσας κατ αυτόν τον τρόπο ακολουθίας, ως προς τη μορφή, το μήκος και τον αριθμό των ανιχνευομένων προτύπων καθώς επίσης και όσον αφορά τη θέση και το μήκος των τμημάτων εκείνων στα οποία τα πρότυπα αυτά συγκεντρώνονται, υποδεικνύει κάποια πιθανώς λειτουργική αιτία σχετιζόμενη με την εσωτερική δομή της υπό εξέταση ακολουθίας. Τα ευρήματα αυτά είναι πιθανώς χρήσιμα στο να υποδείξουν μια πρόσθετη διερεύνηση της ακολουθίας από τους μοριακούς βιολόγους. Τέτοιες μελέτες εμφανίζονται στις εργασίες Avery and Henderson (1999), Benson (1999) και Nuel, Regat, Martin, Camproux (2010). Στην Ενότητα Γ, θα προτείνουμε επίσης μια νέα πιθανοτική μέθοδο επεξεργασίας ακολουθιών DNA και συνεπακόλουθα ανίχνευσης προτύπων σε αυτές. Οπως προαναφέραμε, βασικό ρόλο στη διατύπωση και μετέπειτα επίλυση προβλημάτων που αναφέρονται σε ροές σε 0 1 ακολουθίες ΤΜ, είναι ο ορισμός του τι θεωρείται ροή επιτυχιών και - 16 -

2. Στατιστικές συναρτήσεις απαρίθμησης και συγκέντρωσης επιτυχιών και ροών επιτυχιών συνεπακόλουθα πως αυτή καταμετράται σύμφωνα με κάποιο σχήμα απαρίθμησης. Στη διατριβή θα χρησιμοποιήσουμε το σχήμα απαρίθμησης που εισήχθη από τον Mood (1940) και σύμφωνα με αυτό θα ορίσουμε τις στατιστικές συναρτήσεις με τις οποίες θα ασχοληθούμε στη διατριβή. Οι στατιστικές συναρτήσεις αυτές θα αποτελέσουν τη βάση ανάπτυξης των αποτελεσμάτων μας. 2.1. Ορισμοί στατιστικών συναρτήσεων Θεωρούμε τα n (n πεπερασμένος αλλά αυθαίρετος φυσικός αριθμός) πρώτα στοιχεία (συνιστώσες) X t, t = 1, 2,..., n, μιας ακολουθίας ΤΜ {X t } n t=1, n N = {1, 2,..., }, X t A = {0, 1} (44) και ενδιαφερόμαστε για τον σχηματισμό ροών από μονάδες (1) στην ακολουθία {X t } n t=1. Ορισμός 2.1.0. Ως ροή από 1 ορίζεται μια υπακολουθία της {X t } n t=1, η οποία αποτελείται από συνεχόμενες 1 των οποίων προηγούνται ή έπονται 0 ή τίποτε (αν η ροή βρίσκεται στην αρχή ή στο τέλος της ακολουθίας). Ο αριθμός των 1 σε μια ροή από 1 αναφέρεται ως μήκος (μέγεθος) της ροής. Ορισμός 2.1.1. Το μήκος της μεγαλύτερης ροής από 1 στην {X t } n t=1 είναι μια ΤΜ η οποία συμβολίζεται με L n. Στη συνέχεια, θεωρώντας έναν θετικό ακέραιο αριθμό k, 1 k n, ενδιαφερόμαστε ιδιαίτερα για την εμφάνιση στην {X t } n t=1 ροών από 1 μήκους k ή μεγαλύτερου. Οι ροές αυτές θα ονομάζονται στο εξής k-ροές από 1. Για τη μελέτη των ροών αυτών ορίζουμε: Ορισμός 2.1.2. Την ΤΜ G n,k, 1 k n, η οποία παριστάνει τον αριθμό των k-ροών από 1 στην {X t } n t=1. Ειδικά, η G n,1 εκφράζει τον (συνολικό) αριθμό R n G n,1, των ροών από 1 στην {X t } n t=1. Ισχύει ότι: L n < k ανν G n,k < 1. Ορισμός 2.1.3. Την ΤΜ S n,k, 1 k n, η οποία εκφράζει τον αριθμό των 1 στις G n,k k-ροές από 1, δηλαδή παριστάνει το άθροισμα των μηκών (όλων) των G n,k k-ροών από 1 στην {X t } n t=1. Ειδικά, η S n,1 εκφράζει τον αριθμό (όλων) των 1 στην ακολουθία και η ΤΜ Y n = n S n,1 δίνει τον αριθμό των 0 στην {X t } n t=1. Ισχύει ότι: kg n,k S n,k. Ορισμός 2.1.4. Για G n,k 1, την ΤΜ U n,k = (U (1) n,k, U (2) (1) (2) n,k ), με τη συνιστώσα ΤΜ U n,k (U n,k ) να παριστάνει τη θέση της πρώτης (τελευταίας) 1 της πρώτης (τελευταίας) k-ροής από 1 στην {X t } n t=1. Εάν υπάρχει μία μόνο k-ροή από 1 στην ακολουθία τότε η U (1) n,k - 17 - (2) (U n,k ) δίνει τη θέση της

2. Στατιστικές συναρτήσεις απαρίθμησης και συγκέντρωσης επιτυχιών και ροών επιτυχιών πρώτης (τελευταίας) 1 της k-ροής από 1 στην {X t } n t=1. Ορισμός 2.1.5. Για G n,k 1, την ΤΜ D n,k, η οποία συμβολίζει την απόσταση (αριθμό πειραμάτων), μεταξύ και συμπεριλαμβανομένων, της πρώτης 1 της πρώτης k-ροής από 1 και της τελευταίας 1 της τελευταίας k-ροής από 1 στην {X t } n t=1. Εάν υπάρχει μια μόνο k-ροή από 1 στην ακολουθία τότε η D n,k εκφράζει το μήκος της ροής αυτής. Ισχύει ότι: D n,k = U (2) n,k U (1) n,k + 1 για G n,k 1 και D n,k = S n,k = L n εάν G n,k = 1, D n,k > S n,k > L n εάν G n,k > 1. Ορισμός 2.1.6. Για G n,k 1, την ΤΜ V n,k = (D n,k, G n,k, S n,k ), με συνιστώσες τις ΤΜ G n,k, S n,k και D n,k όπως αυτές ορίστηκαν προηγουμένως. Παράδειγμα 2.1.1. Ως διευκρίνιση των Ορισμών 2.1.1-2.1.6 θεωρούμε τις δυαδικές δοκιμές 1110001100010001010011101111001001001001 αριθμημένες από 1 έως 40. Τότε έχουμε ότι L 40 = 4 και G 40,1 = 11, S 40,1 = 19, D 40,1 = 40, U 40,1 = (1, 40), V 40,1 = (40, 11, 19), G 40,2 = 4, S 40,2 = 12, D 40,2 = 28, U 40,2 = (1, 28), V 40,2 = (28, 4, 12), G 40,3 = 3, S 40,3 = 10, D 40,3 = 28, U 40,3 = (1, 28), V 40,3 = (28, 3, 10), G 40,4 = 1, S 40,4 = 4, D 40,4 = 4, U 40,4 = (25, 28), V 40,4 = (4, 1, 4). 2.2. Ποιοτική ερμηνεία των στατιστικών συναρτήσεων Οι ΤΜ L n, G n,k, S n,k, D n,k, U n,k και V n,k είναι χρήσιμες για την εξαγωγή πληροφοριών σχετικά με την (εσωτερική) δομή μιας 0 1 ακολουθίας {X t } n t=1. Οι ΤΜ U n,k και D n,k προσδιορίζουν τη θέση και το μέγεθος (μήκος), αντίστοιχα, του (μικρότερου) τμήματος {X t } U (2) n,k, της ακολουθίας {X t } n t=1, στο οποίο (όλες) οι G n,k k-ροές από 1 t=u (1) n,k μεγέθους το πολύ L n είναι συγκεντρωμένες. Ειδικά, η D n,1 εκφράζει το μήκος της υπακολουθίας {X t } U (2) n,1 της {X t=u (1) t } n t=1 η οποία περιέχει όλες τις R n ροές από 1, δηλαδή όλες τις S n,1 το πλήθος 1 n,1 που εμφανίζονται στην ακολουθία. Μεγάλες τιμές της D n,k, δηλαδή μικρή τιμή της U (1) n,k και μεγάλη τιμή της U (2) n,k, αποτελούν ένδειξη ότι οι G n,k k-ροές από 1 διασπείρονται κατά μήκος μεγάλου τμήματος του διαστήματος μεταξύ της αριστερής και της δεξιάς πλευράς της {X t } n t=1. Αντίθετα, μικρές τιμές της D n,k, δηλαδή τιμές των U (1) n,k και U (2) n,k κοντά η μια στην άλλη, υποδεικνύουν ότι οι G n,k k-ροές από 1 είναι συγκεντρωμένες σε μια υπακολουθία (τμήμα) {X t } U (2) n,k t=u (1) n,k, της {X t } n t=1, μικρού μεγέθους (μήκους) αφήνοντας έτσι τα υπόλοιπα τμήματα της ακολουθίας χωρίς τέτοιες ροές. Επιπλέον, θεωρώντας ότι η περιεκτικότητα (πυκνότητα) από 1 των G n,k k-ροών από 1, στο - 18 -