REVERSIBLE JUMP MCMC ΣΕ ΜΕΙΞΕΙΣ ΚΑΝΟΝΙΚΩΝ ΚΑΤΑΝΟΜΩΝ ΜΕ ΚΟΙΝΕΣ ΜΕΣΕΣ ΤΙΜΕΣ

Σχετικά έγγραφα
Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

HMY 795: Αναγνώριση Προτύπων

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες

Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ. M. Kούτρας

Επισκόπηση ύλης Πιθανοτήτων Μέρος ΙΙ. M. Kούτρας

Στατιστική Συμπερασματολογία

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Πανεπιστήμιο Πελοποννήσου

Στατιστική. Εκτιμητική

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

: Monte Carlo EM 313, Louis (1982) EM, EM Newton-Raphson, /. EM, 2 Monte Carlo EM Newton-Raphson, Monte Carlo EM, Monte Carlo EM, /. 3, Monte Carlo EM

Παράδειγμα. Στις χρονοσειρές σημαντικό ρόλο παίζει η αυτοσυσχέτιση: η αυτοσυσχέτιση. (lag k) ισούται με όπου γ

HMY 795: Αναγνώριση Προτύπων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

HMY 795: Αναγνώριση Προτύπων

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

conditional posterior distributions είναι standard δηλαδή ξέρουμε να κάνουμε δειγματοληψία από τις κατανομές π ( µτ,x) (, x) (, x) ( )

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

3. Κατανομές πιθανότητας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

HMY 795: Αναγνώριση Προτύπων

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Η παρουσίαση που ακολουθεί, αφορά την κανονική κατανομή και σκοπό έχει τη διευκόλυνση των φοιτητών του τμήματος Ηλεκτρολόγων Μηχανικών & Μηχανικών

HMY 795: Αναγνώριση Προτύπων

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΚΕΦΑΛΑΙΟ 4ο ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΑΠΟ ΣΥΝΕΧΕΙΣ ΚΑΙ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ

Στατιστική Συμπερασματολογία

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Μαρκοβιανές Αλυσίδες

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Επίλυση του Προβλήµατος Εναλλαγής Ετικεττών στην Μπεϋζιανή Ανάλυση Μείξεων Κατανοµών

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

3 ο Μέρος Χαρακτηριστικά τυχαίων μεταβλητών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ. Ενότητα 4: Δειγματοληψία και Κβάντιση Εικόνας

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Στατιστική Ι-Θεωρητικές Κατανομές ΙΙ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

X 1 X 2. X d X = 2 Y (x) = e x 2. f X+Y (x) = f X f Y (x) = f X (y)f Y (x y)dy. exp. exp. dy, (1) f X+Y (x) = j= σ2 2) exp x 2 )

ΘΕΩΡΙΑ ΠΙΘΑΝΟΤΗΤΩΝ Ι Φεβρουάριος 2018 Σειρά Α Θέματα 3 ως 7 και αναλυτικές (ή σύντομες) απαντήσεις

ΕΝΤΥΠΟ ΘΕΜΑΤΩΝ ΕΞΕΤΑΣΕΩΝ

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Τυχαία μεταβλητή (τ.μ.)

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Οι παρατηρήσεις του δείγματος, μεγέθους n = 40, δίνονται ομαδοποιημένες κατά συνέπεια ο δειγματικός μέσος υπολογίζεται από τον τύπο:

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Q- ΔΙΑΓΡΑΜΜΑΤΑ ΓΙΑ ΤΗΝ ΠΑΡΑΜΕΤΡΟ p ΤΗΣ ΔΙΩΝΥΜΙΚΗΣ ΚΑΤΑΝΟΜΗΣ

Στατιστική Συμπερασματολογία

Βιομαθηματικά BIO-156

Εισαγωγή στη Στατιστική

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Σ. ΖΗΜΕΡΑΣ Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικών- Χρηματοοικονομικών Μαθηματικών Σάμος

Εκτιμήτριες. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. Ασκήσεις για ΑΕΙ και ΤΕΙ. Kglykos.gr. σε Εκτιμήτριες. μέθοδος ροπών και μέγιστης πιθανοφάνειας

(p 1) (p m) (m 1) (p 1)

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

Στατιστική Επιχειρήσεων Ι

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης

Παραμετρική ανάλυση του συντελεστή ανάκλασης από στρωματοποιημένο πυθμένα δύο στρωμάτων με επικλινή διεπιφάνεια 1

Στατιστική Επιχειρήσεων ΙΙ

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΡΓΑΣΤΗΡΙΟ ΠΙΘΑΝΟΤΗΤΩΝ

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

E[ (x- ) ]= trace[(x-x)(x- ) ]

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 9. Κατανομές Δειγματοληψίας

Transcript:

Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά ου Πανελληνίου Συνεδρίου Στατιστικής (7), σελ 337-344 REVERSIBLE JUMP MCMC ΣΕ ΜΕΙΞΕΙΣ ΚΑΝΟΝΙΚΩΝ ΚΑΤΑΝΟΜΩΝ ΜΕ ΚΟΙΝΕΣ ΜΕΣΕΣ ΤΙΜΕΣ Π. Παπασταμούλης και Γ. Ηλιόπουλος Τμήμα Στατιστικής & Ασφαλιστικής Επιστήμης, Πανεπιστήμιο Πειραιά papapast@yahoo.gr, geh@unipi.gr ΠΕΡΙΛΗΨΗ Σκοπός αυτής της εργασίας είναι η Μπεϋζιανή εκτίμηση μιας ειδικής κατηγορίας μείξεων κανονικών κατανομών με άγνωστο αριθμό συνιστωσών. Συγκεκριμένα, ασχολούμαστε με την περίπτωση όπου κάποιες συνιστώσες της μείξης είναι δυνατόν να έχουν κοινές μέσες τιμές. Ο αλγόριθμος reversible ump των Rihardson and Green (997) για την εκτίμηση του αριθμού των συνιστωσών και των παραμέτρων μιας μείξης κανονικών κατανομών αποτυγχάνει να δώσει ακριβή αποτελέσματα στην περίπτωση όπου (τουλάχιστον) δύο από τις συνιστώσες αυτής έχουν ίδια μέση τιμή. Αυτό μπορεί να αντιμετωπιστεί ορίζοντας για κάθε αριθμό συνιστωσών μοντέλα με διαφορετικό πλήθος παραμέτρων και εισάγοντας ένα νέο τύπο μετάβασης ανάμεσά τους. Η νέα κίνηση είναι τύπου διαχωρισμού-συνδυασμού και το κύριο χαρακτηριστικό της είναι ότι επιτρέπεται η αλλαγή μοντέλου παραμένοντας στον ίδιο αριθμό συνιστωσών. Η προτεινόμενη μέθοδος συνδυάζεται με κατάλληλες τροποποιήσεις των κινήσεων των Rihardson and Green (997), οι οποίες γεφυρώνουν μοντέλα διαφορετικού αριθμού συνιστωσών. Τέλος, παρουσιάζονται εφαρμογές της μεθόδου σε ένα προσομοιωμένο σύνολο δεδομένων και στο γαλαξιακό σύνολο δεδομένων (Roeder, 99).. ΕΙΣΑΓΩΓΗ Έστω ότι διαθέτουμε ένα τυχαίο δείγμα n παρατηρήσεων x ( x,..., x n ) από μία μείξη k κανονικών κατανομών (με φ( μ, σ ) συμβολίζουμε την σ.π.π. της κανονικής κατανομής N ( μ, σ )): X p i n () k i ~ (, ),,..., ϕ μ σ Θεωρούμε ότι τόσο τα βάρη pi της μείξης, όσο και οι παράμετροι μi, σ i, i,..., k, αλλά και ο αριθμός των συνιστωσών k είναι άγνωστα. Στην περίπτωση όπου ο αριθμός συνιστωσών θεωρείται γνωστός, το πρόβλημα εκτίμησης των παραπάνω ποσοτήτων είναι μια εύκολη διαδικασία, τόσο για την Μπεϋζιανή (Gibbs Sampler, Ο πρώτος εκ των συγγραφέων εκφράζει τις ευχαριστίες του στο Ίδρυμα Κρατικών Υποτροφιών Ελλάδος (Ι.Κ.Υ.), του οποίου είναι υπότροφος από το Νοέμβρη του 5. - 337 -

αλγόριθμος Metropolis - Hastings, Population Monte Carlo) αλλά και την Κλασσική Στατιστική (αλγόριθμος EM). Για την εκτίμηση αυτών των ποσοτήτων στην περίπτωση άγνωστου k, στα πλαίσια μίας Μπεϋζιανής προσέγγισης, οι Rihardson & Green (997) εφάρμοσαν την μεθοδολογία Reversible Jump MCMC (Green, 995). Στην μέθοδο αυτή τα μοντέλα που συγκρίνονται καθορίζονται βάσει του αριθμού των συνιστωσών k της μείξης. Αυτή η προσέγγιση δεν αποδίδει στην ειδική περίπτωση που μελετάμε εδώ όπου κάποιες συνιστώσες της μείξης έχουν ίδιο μέσο. Έστω για παράδειγμα η κατανομή:.3 N (,) +.3 N (5,4) +.4 N (9,3), που περιγράφεται ως ένα μοντέλο με 3 συνιστώσες. Τι γίνεται όμως αν θεωρήσουμε την κατανομή.3 N (,) +.3 N (,4) +.4 N (9,3) ; Από πλευράς συνιστωσών θα λέγαμε ότι είναι και αυτό ένα μοντέλο με τρεις συνιστώσες. Παρόλα αυτά, στο πρώτο μοντέλο έχουμε περισσότερες παραμέτρους από ότι στο δεύτερο. Η ουσιαστική διαφορά μεταξύ της μεθόδου των Rihardson & Green με αυτή που θα παρουσιάσουμε, είναι ότι ενώ στην πρώτη το πλήθος των μέσων των συνιστωσών ισούται με την διάσταση του μοντέλου, εμείς θεωρούμε ότι ο αριθμός αυτός ισούται με τον αριθμό των διαφορετικών μέσων. Λαμβάνοντας υπ όψιν αυτό το γεγονός μπορούμε να βελτιώσουμε αισθητά την διαδικασία των εκτιμήσεων. Θα καθορίζουμε τα μοντέλα χρησιμοποιώντας ένα διάνυσμα κατάστασης. Ας επανέλθουμε στα δύο προηγούμενα παραδείγματα. Ένας τρόπος να αναφερθούμε στο πρώτο μοντέλο είναι να πούμε ότι έχει τρεις διαφορετικές συνιστώσες. Αντίστοιχα μπορούμε να αναφερθούμε στο δεύτερο λέγοντας ότι έχει τρεις συνιστώσες με τις δύο πρώτες να μοιράζονται τον ίδιο μέσο. Ο όρος πρώτη αναφέρεται στην διάταξη των μέσων κατά αύξουσα τάξη. Συμβολικά λοιπόν, μπορούμε να γράψουμε ότι το πρώτο μοντέλο είναι το (,,), ενώ το δεύτερο είναι το (,). Έτσι, δίνουμε τον επόμενο ορισμό: Ορισμός: Έστω το μοντέλο μείξης k κανονικών κατανομών () και έστω ότι k είναι το πλήθος των διαφορετικών μέσων ( k k ). Ορίζουμε το διάνυσμα κατάστασης (,..., ) {, } k ως εξής: αν μ μ h + ενώ διαφορετικά, όπου k i h +, i,..., k. i i h i i Τα ζευγάρια συνιστωσών με κοινό μέσο θα λέγονται σύνθετες συνιστώσες, ενώ οι υπόλοιπες απλές. Έτσι, ένα μοντέλο θα καθορίζεται βάσει του αριθμού συνιστωσών, του αριθμού διαφορετικών μέσων k και του διανύσματος κατάστασης. k. ΕΚ ΤΩΝ ΠΡΟΤΕΡΩΝ ΥΠΟΘΕΣΕΙΣ & ΤΟ ΙΕΡΑΡΧΙΚΟ ΜΟΝΤΕΛΟ Ας συμβολίσουμε με: N k ; k το πλήθος μοντέλων για δοθέντα αριθμό συνιστωσών και δοθέντα αριθμό διαφορετικών μέσων k, N το πλήθος μοντέλων για δοθέντα αριθμό συνιστωσών k και N το συνολικό πλήθος μοντέλων, N N. Οι k k παράμετροι του μοντέλου (), με τις αντίστοιχες priors είναι οι εξής: k, ο αριθμός των συνιστωσών: pk N / N, k {,..., K}. k - 338 - k i K

k, ο αριθμός των διαφορετικών μέσων: - 339 - p( k k) N / N. k ; k k, το διάνυσμα κατάστασης του μοντέλου: p ( k, k) / N, {,} k. k ; k p, το διάνυσμα βαρών: p k ~ D ( δ,..., δ), όπου με D ( δ,..., δ) συμβολίζουμε την (k-)-διάστατη κατανομή Dirihlet. σ, το διάνυσμα διασπορών: σ k ~ G( αβ, ),,..., k, όπου με G( αβ, ) συμβολίζουμε την κατανομή Γάμμα με μέσο α/β. μ, το διάνυσμα διαφορετικών μέσων: iid iid μ k ~ N ( ξκ, ),,..., k. Για τις παραμέτρους των παραπάνω κατανομών ακολουθούμε τους Rihardson & Green, οι οποίοι έθεσαν το ξ ίσο με τη δειγματική διάμεσο, κ / R όπου R το δειγματικό εύρος, α και δ. Τέλος, το β είναι υπέρ-παράμετρος, η οποία υποθέτουμε ότι: β ~ G ( gh, ), με g. και h / R. Σημειώνουμε ότι σύμφωνα με τις παραπάνω υποθέσεις, παίρνουμε ότι η εκ των προτέρων πιθανότητα σε κάθε μοντέλο (, k, k) είναι ίδια, πρόκειται δηλαδή για την διακριτή ομοιόμορφη κατανομή στο {,..., N }. Στα παραπάνω ενσωματώνουμε και το διάνυσμα z ( z,..., z n ) των φανταστικών τυχαίων μεταβλητών που δείχνουν σε ποια συνιστώσα ανήκει κάθε παρατήρηση, έτσι ώστε Pz ( i ),,..., k, i,..., n. Έτσι η από κοινού κατανομή όλων των μεταβλητών, μπορεί να γραφεί ως: p( β, kk,,, p, σ, μ, zx, Kδαξκg,,,,,, h) p( k K) p( k k) p( k, k, K) p( p k, δ) p z p k p μ k ξκp σ k αβp x μσ z p β gh (, ) (,, ) (,, ) (,, ) (, ). Το μοντέλο αυτό μπορεί να αναπαρασταθεί ως ένα κατευθυνόμενο ακυκλικό γράφημα, στο οποίο τα τετράγωνα αναπαριστούν σταθερές ή παρατηρούμενες ποσότητες και οι κύκλοι άγνωστες, όπως φαίνεται παρακάτω στην Εικόνα. 3. ΤΥΠΟΙ ΚΙΝΗΣΕΩΝ Για να εκτιμήσουμε τις παραμέτρους του μοντέλου () δοθέντος ενός τυχαίου δείγματος μεγέθους n, θα χρησιμοποιήσουμε την μέθοδο reversible ump στο ιεραρχικό μοντέλο (), στο οποίο προτείνονται οι εξής τύποι κινήσεων:. Αναβάθμιση των βαρών.. Αναβάθμιση των k διαφορετικών μέσων και κατάταξη αυτών στις k συνιστώσες σύμφωνα με το διάνυσμα. 3. Αναβάθμιση των διασπορών. 4. Αναβάθμιση του διανύσματος κατατάξεων z. 5. Αναβάθμιση της υπέρ-παραμέτρου β. 6. Inner split - ombine: Διαχωρισμός μιας σύνθετης συνιστώσας (δύο συνιστωσών με ίδιο μέσο) σε δύο απλές (σε δύο συνιστώσες με διαφορετικούς μέσους), ή συνδυασμός δύο (διαδοχικών) απλών σε μία σύνθετη. 7. Αναβάθμιση του αριθμού συνιστωσών k.

Η κίνηση 6 αλλάζει τον αριθμό των διαφορετικών μέσων κατά και κάνει κατάλληλες μετατροπές στις υπόλοιπες παραμέτρους οι οποίες θα περιγραφούν παρακάτω. Η κίνηση 7 αλλάζει τον αριθμό των συνιστωσών κατά, και πρόκειται για τις κινήσεις split - ombine και birth - death των Rihardson & Green με κάποιες τροποποιήσεις. Οι υπόλοιπες κινήσεις (-5) δεν αλλάζουν το μοντέλο και για αυτές χρησιμοποιούμε έναν δειγματολήπτη Gibbs, στον οποίο οι πλήρεις δεσμευμένες εκ των υστέρων κατανομές είναι: n. p ~ D ( δ + n,..., δ + n k ), n I z i i,,..., k. u u u. ( ) l l + l l l l + l l l l + l l μ ~ N ( σ s κξ) ( σ n κ),( σ n κ),,..., k, ανεξάρτητα, n s I z i i x i, l 3. 4. { } 5., t t u t t +. σ ~ G( α + n /, β + ( x μ ) / ),,..., k, ανεξάρτητα. iz : i i Pz ( ) pexp ( x μ ) / / σ,,..., k. i i k ~ G (, ) β g + κα h + σ. Εικόνα. Το ιεραρχικό μοντέλο ως κατευθυνόμενο ακυκλικό γράφημα. Στα παραπάνω με Y συμβολίζουμε την εκ των υστέρων κατανομή της Υ, δεσμεύοντας στις ποσότητες από τις οποίες εξαρτάται, έτσι όπως προκύπτει βάσει του μοντέλου (). Προσθέτουμε επίσης, ότι για την διατήρηση της διάταξης των μέσων, η δεσμευμένη κατανομή των μ χρησιμοποιείται μόνο για να προτείνει μία καινούρια τιμή, και αυτή γίνεται αποδεκτή μόνο στην περίπτωση που δεν παραβιάζεται η διάταξη. Σε διαφορετική περίπτωση κρατάμε την προηγούμενη τιμή. Για την κίνηση 7 παραπέμπουμε στην εργασία των Rihardson & Green (997). 3. ΚΙΝΗΣΗ ΤΥΠΟΥ INNER SPLIT - COMBINE Έστω ότι η παρούσα κατάσταση της Μαρκοβιανής αλυσίδας αντιστοιχεί στο μοντέλο (, kk, ). Κατ αρχάς, γίνεται μία τυχαία επιλογή μεταξύ διαχωρισμού ή συνδυασμού με πιθανότητα s και m αντίστοιχα. Ας υποθέσουμε ότι επιλέξαμε διαχωρισμό των σύνθετων συνιστωσών - 34 - s, όπου μ * μ μ *, όπου * *

για απλότητα ας συμβολίσουμε με ( q, μ, s),( q, μ, s ) τις παραμέτρους αυτών και ότι προτείνεται να πάμε στο μοντέλο (, k, k + ). Επειδή οι παράμετροι των υπόλοιπων συνιστωσών παραμένουν ίδιες, προτείνουμε να πάμε μέσω διαχωρισμού από την κατάσταση ( q, q, μ, s, s ) στην ( p, p, μ, μ, σ, σ ). Η dimension mathing assumption (Green, 995), υπαγορεύει ότι αυτό είναι συνεπές, όταν από την πρώτη κατάσταση πάμε στην δεύτερη με κατάλληλους αντιστρέψιμους μετασχηματισμούς μέσω της παραγωγής μίας επί πλέον τυχαίας μεταβλητής απ ό,τι στην αντίστροφη κίνηση. Οδηγός για αυτούς τους μετασχηματισμούς είναι η διατήρηση της μηδενικής, πρώτης και δεύτερης ροπής της κατανομής των δεδομένων (μείξης): q + q p + p, qμ + qμ pμ + pμ και q( μ + s) + q( μ + s) p( μ+ σ) + p( μ + σ ). Το πιο απλό θα ήταν να παραγάγουμε μόνο μία τ.μ., αλλά δυστυχώς σε αυτή την περίπτωση δεν είναι δυνατή η διατήρηση των παραπάνω ροπών. Έτσι πάμε από το ( q, q, μ, s, s ) στο ( p, p, μ, μ, σ, σ ) μέσω της παραγωγής δύο τ.μ. ( u, u) και κατά την αντίστροφη κίνηση μέσω της τ.μ. u. Στην συνέχεια περιγράφουμε τους εμπλεκόμενους μετασχηματισμούς και τις συνθήκες αντιστρεψιμότητας αυτών. Βάρη:Προτείνουμε τον μετασχηματισμό ( p, p) h + ( q, q, u), όπου ( p, p ) ( q + q ) u,( q + q )( u ), με u ~ B(,). Στην αντίστροφη κίνηση (συνδυασμός) προτείνουμε τον μετασχηματισμό ( q, q ) h ( p, p, u ), όπου ( q, q ) ( p + p ) u,( p + p )( u ), με u ~ B(,). Η απεικόνιση ( q, q, u) ( p, p, u ) είναι ένας διαφορίσιμος και αντιστρέψιμος μετασχηματισμός αν και μόνον αν u q /( q + q ). Μέσοι: Προτείνουμε τον μετασχηματισμό ( μ, μ) h + ( μ, u, σ, σ, p, p), όπου ( μ, μ) μ uσσ p/ p, μ + uσσ p/ p, με u ~ B(,). Στην αντίστροφη κίνηση (συνδυασμός) προτείνουμε τον μετασχηματισμό μ h( μ, μ, p, p), όπου μ ( pμ + pμ)/( p + p). Η απεικόνιση ( μ, u) ( μ, μ ) είναι ένας διαφορίσιμος και αντιστρέψιμος μετασχηματισμός αν και μόνον αν u ( μ μ) pp /( σσ ( p + p)). Διασπορές: Προτείνουμε τον (ντετερμινιστικό) μετασχηματισμό: p q s u p ( p + q s u ) + D ( ), pq s u p p + q s u + σ σ D ppu ppu με D 4 p pqsu + ( pp + ( pqs pqs) u ). Στην αντίστροφη κίνηση προτείνουμε τον αντίστροφο μετασχηματισμό s p s ( + u σ ) / q s ps ( + u σ ) / q,. Η απεικόνιση ( s, s ) ( σ, σ ) είναι πάντα διαφορίσιμη - 34 -

και αντιστρέψιμη. Τέλος, η ιακωβιανή ορίζουσα του μετασχηματισμού ( q, q, μ, s, s, u, u ) ( p, p, μ, μ, σ, σ, u ) ισούται με 3/ pp ( p + p) σσ + pp ( σσ + ( σ + σ)( μ μ) ) J. 5 σσ ( p + p) ( u ) u Στην συνέχεια ανακατατάσσουμε τις παρατηρήσεις που αρχικά ανήκαν στις δύο παλιές συνιστώσες μεταξύ των δύο καινούριων. Λήμμα: Η πιθανότητα αποδοχής για την κίνηση τύπου inner split ισούται με ayy (, ) min{, A}, όπου α allo ( ) p k + k p k + p p A (likelihood ratio) ( + ) p k k p k q q { } δ + l δ + l k * * δ + l δ + l κ exp κ μ ξ μ ξ μ ξ π + σσ exp β{ σ σ s s } ss + mn t P allo pu ( ) J sn P p( u ) p( u ) s Στα παραπάνω με l, l συμβολίζουμε το πλήθος των παρατηρήσεων που προτείνεται να ανακαταταχθούν στις νέες συνιστώσες και P allo είναι η πιθανότητα της συγκεκριμένης ανακατάταξης και υπολογίζεται εύκολα από το αντίστοιχο βήμα * * Gibbs. Όμοια, με l, l συμβολίζουμε το πλήθος των παρατηρήσεων που αρχικά ανήκαν στις συνιστώσες και * *, (με τον ίδιο μέσο) και allo * * l l l l P είναι η πιθανότητα της (αντίστροφης) ανακατάταξης (προφανώς + + ). Επίσης s, m είναι οι πιθανότητές επιλογής διαχωρισμού για το μοντέλο και συνδυασμού για το μοντέλο αντίστοιχα. Με nt συμβολίζουμε το πλήθος σύνθετων συνιστωσών του και με n s συμβολίζουμε το πλήθος των διαδοχικών και απλών συνιστωσών του. Τέλος, με (likelihood ratio) συμβολίζουμε τον λόγο πιθανοφάνειας του (προτεινόμενου) μοντέλου προς αυτή του παλιού μοντέλου. Η πιθανότητα αποδοχής της αντίστροφης κίνησης (συνδυασμού) ισούται με a( y, y) min{, A }, με τις προφανείς αλλαγές στην παραπάνω έκφραση για το Α (από k διαφορετικούς μέσους πάμε σε ( k ) ). 4. ΕΦΑΡΜΟΓΕΣ 4. ΠΡΟΣΟΜΟΙΩΜΕΝΟ ΣΥΝΟΛΟ ΔΕΔΟΜΕΝΩΝ Για αρχή επιδεικνύουμε τη νέα μέθοδο σε μία «γνωστή» κατάσταση. Πρόκειται για ένα προσομοιωμένο σύνολο 3 παρατηρήσεων από την κατανομή.3 N (8,) +.5 N (8,6) +. N (9.5, ). - 34 -

Εικόνα. Αριστερά: το ιστόγραμμα των δεδομένων, κέντρο: η εκ των υστέρων κατανομή του k με τον κλασσικό αλγόριθμο, δεξιά: η εκ των υστέρων κατανομή των μοντέλων με την προτεινόμενη μέθοδο (3 επαναλήψεις). Αρχικά, παρατηρούμε το «ξεγέλασμα» του αλγορίθμου των Rihardson & Green, αφού έχει κορυφή σε μοντέλο με δύο συνιστώσες. Επίσης σημειώνουμε ότι και οι εκτιμήσεις των παραμέτρων που πήραμε είναι αρκετά εσφαλμένες. Αντίθετα, στην εικόνα 3 παρατηρούμε ότι με την νέα μέθοδο, ο αλγόριθμος επιλέγει το σωστό μοντέλο, διότι η εκ των υστέρων κατανομή των μοντέλων έχει κορυφή στο (,) που είναι αυτό που χρησιμοποιήθηκε για την προσομοίωση των δεδομένων. Τέλος, προσθέτουμε ότι και οι εκτιμήσεις των παραμέτρων είναι αρκετά κοντά στις πραγματικές τιμές τους. Εδώ σημειώνουμε ότι εμφανίζεται το φαινόμενο label swithing στις διασπορές και στα βάρη των συνιστωσών με ίδια μέση τιμή και εφαρμόσαμε τον Pivotal Reordering Algorithm (Marin and Robert, 7). 4. ΤΟ ΓΑΛΑΞΙΑΚΟ ΣΥΝΟΛΟ ΔΕΔΟΜΕΝΩΝ 3 Το συγκεκριμένο σύνολο δεδομένων καταγράφει τις ταχύτητες (σε km / se ) 8 γαλαξιών από τις κωνικές τομές του Corona Borealis. Με μια πρώτη ματιά στο ιστόγραμμα (εικ.4) είναι ξεκάθαρο ότι είναι αναμενόμενο να βρούμε τουλάχιστον τρεις συνιστώσες στα δεδομένα. Αυτό είναι και το μόνο κοινό σημείο όσων ερευνών έχουν καταπιαστεί με αυτά τα δεδομένα, όπου ποικίλουν από 3 έως 9. Εφαρμόσαμε την μέθοδό μας για αριθμό συνιστωσών k 9. Συνολικά συγκρίνονται 4 μοντέλα, όσα δηλαδή αντιστοιχούν στο συγκεκριμένο εύρος τιμών του k. Λόγω του μεγάλου πλήθους των μοντέλων και του μικρού μεγέθους δείγματος, τρέξαμε τον αλγόριθμο για 6 επαναλήψεις, μετά από burn in period (εικ. 3). Από την μορφή της κατανομής βγαίνουν κάποια ενδιαφέροντα συμπεράσματα. Για 5 k 9 προτιμούνται μοντέλα με αρκετά μικρότερο αριθμό διαφορετικών μέσων από το πλήθος των συνιστωσών. Από την άλλη, για 3 k 4 παρατηρούμε ότι υπερισχύουν τα μοντέλα που έχουν διαφορετικούς όλους τους μέσους. Η κορυφή της εκ των υστέρων κατανομής αντιστοιχεί στο μοντέλο (,,,). Έτσι, συμπεραίνουμε από την μία ότι οι γαλαξιακές ταχύτητες ομαδοποιούνται ως προς την μέση τους τιμή με μεγάλη πιθανότητα σε μικρό αριθμό ομάδων, ενώ εντός κάθε τέτοιας ομάδας είναι δυνατόν να υπάρχουν bloks παρατηρήσεων που διαφέρουν ως προς τις διασπορές τους. Το γεγονός αυτό μάλιστα ίσως να εξηγεί και την προτίμηση της εκ των υστέρων κατανομής του k σε μεγάλο αριθμό συνιστωσών με αρκετά «κοντινούς» μέσους, των προαναφερθέντων ερευνών. - 343 -

Εικόνα 3. Η εκ των υστέρων κατανομή των μοντέλων (αριστερά) και το ιστόγραμμα των δεδομένων (δεξιά) με την plug in εκτίμηση της πυκνότητας δεσμεύοντας στο μοντέλο (,,,). ABSTRACT The purpose of this paper is the Bayesian estimation of the number of omponents and parameters in a speial ase of mixture of Normal distributions. The Reversible Jump MCMC algorithm introdued by Rihardson and Green (997) for the estimation of a normal mixture model, fails to give preise results in the ase where (at least) two of the mixture omponents happens to have equal means. We overome this problem defining a wider set of ompeting models and introduing a new split - ombine move type that bridges the ompared models. Its main harateristi is that it is allowed the ump between different models with the same number of omponents. The proposed method is ombined with a modifiation of the standard Rihardson and Green s moves that are used for the transition between models with different number of omponents. Finally, we illustrate the method using a simulated data set and the galaxy data set. ΑΝΑΦΟΡΕΣ Green P. (995). Reversible ump Markov Chain Monte Carlo omputation and Bayesian model determination. Biometria, Vol. 8, No.4: 7-7. Marin J.M. and Robert C.P. (7). Bayesian Core: A pratial Approah to Computational Bayesian Statistis. Springer-Verlag, New York. Rihardson S. and Green P. (997). On Bayesian analysis of mixtures of distributions with an unknown number of omponents (with disussion). Journal of the Royal Statistial Soiety B, Vol. 59, No.4: 73-79. Roeder K. (99). Density estimation with onfidene sets exemplified by super - lusters and voids in galaxies. Journal of the Amerian Statistial Assoiation, Vol. 85: 67-64. - 344 -