REVERSIBLE JUMP MCMC ΣΕ ΜΕΙΞΕΙΣ ΚΑΝΟΝΙΚΩΝ ΚΑΤΑΝΟΜΩΝ ΜΕ ΚΟΙΝΕΣ ΜΕΣΕΣ ΤΙΜΕΣ

Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά ου Πανελληνίου Συνεδρίου Στατιστικής (7), σελ 337-344 REVERSIBLE JUMP MCMC ΣΕ ΜΕΙΞΕΙΣ ΚΑΝΟΝΙΚΩΝ ΚΑΤΑΝΟΜΩΝ ΜΕ ΚΟΙΝΕΣ ΜΕΣΕΣ ΤΙΜΕΣ Π. Παπασταμούλης και Γ. Ηλιόπουλος Τμήμα Στατιστικής & Ασφαλιστικής Επιστήμης, Πανεπιστήμιο Πειραιά papapast@yahoo.gr, geh@unipi.gr ΠΕΡΙΛΗΨΗ Σκοπός αυτής της εργασίας είναι η Μπεϋζιανή εκτίμηση μιας ειδικής κατηγορίας μείξεων κανονικών κατανομών με άγνωστο αριθμό συνιστωσών. Συγκεκριμένα, ασχολούμαστε με την περίπτωση όπου κάποιες συνιστώσες της μείξης είναι δυνατόν να έχουν κοινές μέσες τιμές. Ο αλγόριθμος reversible ump των Rihardson and Green (997) για την εκτίμηση του αριθμού των συνιστωσών και των παραμέτρων μιας μείξης κανονικών κατανομών αποτυγχάνει να δώσει ακριβή αποτελέσματα στην περίπτωση όπου (τουλάχιστον) δύο από τις συνιστώσες αυτής έχουν ίδια μέση τιμή. Αυτό μπορεί να αντιμετωπιστεί ορίζοντας για κάθε αριθμό συνιστωσών μοντέλα με διαφορετικό πλήθος παραμέτρων και εισάγοντας ένα νέο τύπο μετάβασης ανάμεσά τους. Η νέα κίνηση είναι τύπου διαχωρισμού-συνδυασμού και το κύριο χαρακτηριστικό της είναι ότι επιτρέπεται η αλλαγή μοντέλου παραμένοντας στον ίδιο αριθμό συνιστωσών. Η προτεινόμενη μέθοδος συνδυάζεται με κατάλληλες τροποποιήσεις των κινήσεων των Rihardson and Green (997), οι οποίες γεφυρώνουν μοντέλα διαφορετικού αριθμού συνιστωσών. Τέλος, παρουσιάζονται εφαρμογές της μεθόδου σε ένα προσομοιωμένο σύνολο δεδομένων και στο γαλαξιακό σύνολο δεδομένων (Roeder, 99).. ΕΙΣΑΓΩΓΗ Έστω ότι διαθέτουμε ένα τυχαίο δείγμα n παρατηρήσεων x ( x,..., x n ) από μία μείξη k κανονικών κατανομών (με φ( μ, σ ) συμβολίζουμε την σ.π.π. της κανονικής κατανομής N ( μ, σ )): X p i n () k i ~ (, ),,..., ϕ μ σ Θεωρούμε ότι τόσο τα βάρη pi της μείξης, όσο και οι παράμετροι μi, σ i, i,..., k, αλλά και ο αριθμός των συνιστωσών k είναι άγνωστα. Στην περίπτωση όπου ο αριθμός συνιστωσών θεωρείται γνωστός, το πρόβλημα εκτίμησης των παραπάνω ποσοτήτων είναι μια εύκολη διαδικασία, τόσο για την Μπεϋζιανή (Gibbs Sampler, Ο πρώτος εκ των συγγραφέων εκφράζει τις ευχαριστίες του στο Ίδρυμα Κρατικών Υποτροφιών Ελλάδος (Ι.Κ.Υ.), του οποίου είναι υπότροφος από το Νοέμβρη του 5. - 337 -

αλγόριθμος Metropolis - Hastings, Population Monte Carlo) αλλά και την Κλασσική Στατιστική (αλγόριθμος EM). Για την εκτίμηση αυτών των ποσοτήτων στην περίπτωση άγνωστου k, στα πλαίσια μίας Μπεϋζιανής προσέγγισης, οι Rihardson & Green (997) εφάρμοσαν την μεθοδολογία Reversible Jump MCMC (Green, 995). Στην μέθοδο αυτή τα μοντέλα που συγκρίνονται καθορίζονται βάσει του αριθμού των συνιστωσών k της μείξης. Αυτή η προσέγγιση δεν αποδίδει στην ειδική περίπτωση που μελετάμε εδώ όπου κάποιες συνιστώσες της μείξης έχουν ίδιο μέσο. Έστω για παράδειγμα η κατανομή:.3 N (,) +.3 N (5,4) +.4 N (9,3), που περιγράφεται ως ένα μοντέλο με 3 συνιστώσες. Τι γίνεται όμως αν θεωρήσουμε την κατανομή.3 N (,) +.3 N (,4) +.4 N (9,3) ; Από πλευράς συνιστωσών θα λέγαμε ότι είναι και αυτό ένα μοντέλο με τρεις συνιστώσες. Παρόλα αυτά, στο πρώτο μοντέλο έχουμε περισσότερες παραμέτρους από ότι στο δεύτερο. Η ουσιαστική διαφορά μεταξύ της μεθόδου των Rihardson & Green με αυτή που θα παρουσιάσουμε, είναι ότι ενώ στην πρώτη το πλήθος των μέσων των συνιστωσών ισούται με την διάσταση του μοντέλου, εμείς θεωρούμε ότι ο αριθμός αυτός ισούται με τον αριθμό των διαφορετικών μέσων. Λαμβάνοντας υπ όψιν αυτό το γεγονός μπορούμε να βελτιώσουμε αισθητά την διαδικασία των εκτιμήσεων. Θα καθορίζουμε τα μοντέλα χρησιμοποιώντας ένα διάνυσμα κατάστασης. Ας επανέλθουμε στα δύο προηγούμενα παραδείγματα. Ένας τρόπος να αναφερθούμε στο πρώτο μοντέλο είναι να πούμε ότι έχει τρεις διαφορετικές συνιστώσες. Αντίστοιχα μπορούμε να αναφερθούμε στο δεύτερο λέγοντας ότι έχει τρεις συνιστώσες με τις δύο πρώτες να μοιράζονται τον ίδιο μέσο. Ο όρος πρώτη αναφέρεται στην διάταξη των μέσων κατά αύξουσα τάξη. Συμβολικά λοιπόν, μπορούμε να γράψουμε ότι το πρώτο μοντέλο είναι το (,,), ενώ το δεύτερο είναι το (,). Έτσι, δίνουμε τον επόμενο ορισμό: Ορισμός: Έστω το μοντέλο μείξης k κανονικών κατανομών () και έστω ότι k είναι το πλήθος των διαφορετικών μέσων ( k k ). Ορίζουμε το διάνυσμα κατάστασης (,..., ) {, } k ως εξής: αν μ μ h + ενώ διαφορετικά, όπου k i h +, i,..., k. i i h i i Τα ζευγάρια συνιστωσών με κοινό μέσο θα λέγονται σύνθετες συνιστώσες, ενώ οι υπόλοιπες απλές. Έτσι, ένα μοντέλο θα καθορίζεται βάσει του αριθμού συνιστωσών, του αριθμού διαφορετικών μέσων k και του διανύσματος κατάστασης. k. ΕΚ ΤΩΝ ΠΡΟΤΕΡΩΝ ΥΠΟΘΕΣΕΙΣ & ΤΟ ΙΕΡΑΡΧΙΚΟ ΜΟΝΤΕΛΟ Ας συμβολίσουμε με: N k ; k το πλήθος μοντέλων για δοθέντα αριθμό συνιστωσών και δοθέντα αριθμό διαφορετικών μέσων k, N το πλήθος μοντέλων για δοθέντα αριθμό συνιστωσών k και N το συνολικό πλήθος μοντέλων, N N. Οι k k παράμετροι του μοντέλου (), με τις αντίστοιχες priors είναι οι εξής: k, ο αριθμός των συνιστωσών: pk N / N, k {,..., K}. k - 338 - k i K

k, ο αριθμός των διαφορετικών μέσων: - 339 - p( k k) N / N. k ; k k, το διάνυσμα κατάστασης του μοντέλου: p ( k, k) / N, {,} k. k ; k p, το διάνυσμα βαρών: p k ~ D ( δ,..., δ), όπου με D ( δ,..., δ) συμβολίζουμε την (k-)-διάστατη κατανομή Dirihlet. σ, το διάνυσμα διασπορών: σ k ~ G( αβ, ),,..., k, όπου με G( αβ, ) συμβολίζουμε την κατανομή Γάμμα με μέσο α/β. μ, το διάνυσμα διαφορετικών μέσων: iid iid μ k ~ N ( ξκ, ),,..., k. Για τις παραμέτρους των παραπάνω κατανομών ακολουθούμε τους Rihardson & Green, οι οποίοι έθεσαν το ξ ίσο με τη δειγματική διάμεσο, κ / R όπου R το δειγματικό εύρος, α και δ. Τέλος, το β είναι υπέρ-παράμετρος, η οποία υποθέτουμε ότι: β ~ G ( gh, ), με g. και h / R. Σημειώνουμε ότι σύμφωνα με τις παραπάνω υποθέσεις, παίρνουμε ότι η εκ των προτέρων πιθανότητα σε κάθε μοντέλο (, k, k) είναι ίδια, πρόκειται δηλαδή για την διακριτή ομοιόμορφη κατανομή στο {,..., N }. Στα παραπάνω ενσωματώνουμε και το διάνυσμα z ( z,..., z n ) των φανταστικών τυχαίων μεταβλητών που δείχνουν σε ποια συνιστώσα ανήκει κάθε παρατήρηση, έτσι ώστε Pz ( i ),,..., k, i,..., n. Έτσι η από κοινού κατανομή όλων των μεταβλητών, μπορεί να γραφεί ως: p( β, kk,,, p, σ, μ, zx, Kδαξκg,,,,,, h) p( k K) p( k k) p( k, k, K) p( p k, δ) p z p k p μ k ξκp σ k αβp x μσ z p β gh (, ) (,, ) (,, ) (,, ) (, ). Το μοντέλο αυτό μπορεί να αναπαρασταθεί ως ένα κατευθυνόμενο ακυκλικό γράφημα, στο οποίο τα τετράγωνα αναπαριστούν σταθερές ή παρατηρούμενες ποσότητες και οι κύκλοι άγνωστες, όπως φαίνεται παρακάτω στην Εικόνα. 3. ΤΥΠΟΙ ΚΙΝΗΣΕΩΝ Για να εκτιμήσουμε τις παραμέτρους του μοντέλου () δοθέντος ενός τυχαίου δείγματος μεγέθους n, θα χρησιμοποιήσουμε την μέθοδο reversible ump στο ιεραρχικό μοντέλο (), στο οποίο προτείνονται οι εξής τύποι κινήσεων:. Αναβάθμιση των βαρών.. Αναβάθμιση των k διαφορετικών μέσων και κατάταξη αυτών στις k συνιστώσες σύμφωνα με το διάνυσμα. 3. Αναβάθμιση των διασπορών. 4. Αναβάθμιση του διανύσματος κατατάξεων z. 5. Αναβάθμιση της υπέρ-παραμέτρου β. 6. Inner split - ombine: Διαχωρισμός μιας σύνθετης συνιστώσας (δύο συνιστωσών με ίδιο μέσο) σε δύο απλές (σε δύο συνιστώσες με διαφορετικούς μέσους), ή συνδυασμός δύο (διαδοχικών) απλών σε μία σύνθετη. 7. Αναβάθμιση του αριθμού συνιστωσών k.

Η κίνηση 6 αλλάζει τον αριθμό των διαφορετικών μέσων κατά και κάνει κατάλληλες μετατροπές στις υπόλοιπες παραμέτρους οι οποίες θα περιγραφούν παρακάτω. Η κίνηση 7 αλλάζει τον αριθμό των συνιστωσών κατά, και πρόκειται για τις κινήσεις split - ombine και birth - death των Rihardson & Green με κάποιες τροποποιήσεις. Οι υπόλοιπες κινήσεις (-5) δεν αλλάζουν το μοντέλο και για αυτές χρησιμοποιούμε έναν δειγματολήπτη Gibbs, στον οποίο οι πλήρεις δεσμευμένες εκ των υστέρων κατανομές είναι: n. p ~ D ( δ + n,..., δ + n k ), n I z i i,,..., k. u u u. ( ) l l + l l l l + l l l l + l l μ ~ N ( σ s κξ) ( σ n κ),( σ n κ),,..., k, ανεξάρτητα, n s I z i i x i, l 3. 4. { } 5., t t u t t +. σ ~ G( α + n /, β + ( x μ ) / ),,..., k, ανεξάρτητα. iz : i i Pz ( ) pexp ( x μ ) / / σ,,..., k. i i k ~ G (, ) β g + κα h + σ. Εικόνα. Το ιεραρχικό μοντέλο ως κατευθυνόμενο ακυκλικό γράφημα. Στα παραπάνω με Y συμβολίζουμε την εκ των υστέρων κατανομή της Υ, δεσμεύοντας στις ποσότητες από τις οποίες εξαρτάται, έτσι όπως προκύπτει βάσει του μοντέλου (). Προσθέτουμε επίσης, ότι για την διατήρηση της διάταξης των μέσων, η δεσμευμένη κατανομή των μ χρησιμοποιείται μόνο για να προτείνει μία καινούρια τιμή, και αυτή γίνεται αποδεκτή μόνο στην περίπτωση που δεν παραβιάζεται η διάταξη. Σε διαφορετική περίπτωση κρατάμε την προηγούμενη τιμή. Για την κίνηση 7 παραπέμπουμε στην εργασία των Rihardson & Green (997). 3. ΚΙΝΗΣΗ ΤΥΠΟΥ INNER SPLIT - COMBINE Έστω ότι η παρούσα κατάσταση της Μαρκοβιανής αλυσίδας αντιστοιχεί στο μοντέλο (, kk, ). Κατ αρχάς, γίνεται μία τυχαία επιλογή μεταξύ διαχωρισμού ή συνδυασμού με πιθανότητα s και m αντίστοιχα. Ας υποθέσουμε ότι επιλέξαμε διαχωρισμό των σύνθετων συνιστωσών - 34 - s, όπου μ * μ μ *, όπου * *

για απλότητα ας συμβολίσουμε με ( q, μ, s),( q, μ, s ) τις παραμέτρους αυτών και ότι προτείνεται να πάμε στο μοντέλο (, k, k + ). Επειδή οι παράμετροι των υπόλοιπων συνιστωσών παραμένουν ίδιες, προτείνουμε να πάμε μέσω διαχωρισμού από την κατάσταση ( q, q, μ, s, s ) στην ( p, p, μ, μ, σ, σ ). Η dimension mathing assumption (Green, 995), υπαγορεύει ότι αυτό είναι συνεπές, όταν από την πρώτη κατάσταση πάμε στην δεύτερη με κατάλληλους αντιστρέψιμους μετασχηματισμούς μέσω της παραγωγής μίας επί πλέον τυχαίας μεταβλητής απ ό,τι στην αντίστροφη κίνηση. Οδηγός για αυτούς τους μετασχηματισμούς είναι η διατήρηση της μηδενικής, πρώτης και δεύτερης ροπής της κατανομής των δεδομένων (μείξης): q + q p + p, qμ + qμ pμ + pμ και q( μ + s) + q( μ + s) p( μ+ σ) + p( μ + σ ). Το πιο απλό θα ήταν να παραγάγουμε μόνο μία τ.μ., αλλά δυστυχώς σε αυτή την περίπτωση δεν είναι δυνατή η διατήρηση των παραπάνω ροπών. Έτσι πάμε από το ( q, q, μ, s, s ) στο ( p, p, μ, μ, σ, σ ) μέσω της παραγωγής δύο τ.μ. ( u, u) και κατά την αντίστροφη κίνηση μέσω της τ.μ. u. Στην συνέχεια περιγράφουμε τους εμπλεκόμενους μετασχηματισμούς και τις συνθήκες αντιστρεψιμότητας αυτών. Βάρη:Προτείνουμε τον μετασχηματισμό ( p, p) h + ( q, q, u), όπου ( p, p ) ( q + q ) u,( q + q )( u ), με u ~ B(,). Στην αντίστροφη κίνηση (συνδυασμός) προτείνουμε τον μετασχηματισμό ( q, q ) h ( p, p, u ), όπου ( q, q ) ( p + p ) u,( p + p )( u ), με u ~ B(,). Η απεικόνιση ( q, q, u) ( p, p, u ) είναι ένας διαφορίσιμος και αντιστρέψιμος μετασχηματισμός αν και μόνον αν u q /( q + q ). Μέσοι: Προτείνουμε τον μετασχηματισμό ( μ, μ) h + ( μ, u, σ, σ, p, p), όπου ( μ, μ) μ uσσ p/ p, μ + uσσ p/ p, με u ~ B(,). Στην αντίστροφη κίνηση (συνδυασμός) προτείνουμε τον μετασχηματισμό μ h( μ, μ, p, p), όπου μ ( pμ + pμ)/( p + p). Η απεικόνιση ( μ, u) ( μ, μ ) είναι ένας διαφορίσιμος και αντιστρέψιμος μετασχηματισμός αν και μόνον αν u ( μ μ) pp /( σσ ( p + p)). Διασπορές: Προτείνουμε τον (ντετερμινιστικό) μετασχηματισμό: p q s u p ( p + q s u ) + D ( ), pq s u p p + q s u + σ σ D ppu ppu με D 4 p pqsu + ( pp + ( pqs pqs) u ). Στην αντίστροφη κίνηση προτείνουμε τον αντίστροφο μετασχηματισμό s p s ( + u σ ) / q s ps ( + u σ ) / q,. Η απεικόνιση ( s, s ) ( σ, σ ) είναι πάντα διαφορίσιμη - 34 -

και αντιστρέψιμη. Τέλος, η ιακωβιανή ορίζουσα του μετασχηματισμού ( q, q, μ, s, s, u, u ) ( p, p, μ, μ, σ, σ, u ) ισούται με 3/ pp ( p + p) σσ + pp ( σσ + ( σ + σ)( μ μ) ) J. 5 σσ ( p + p) ( u ) u Στην συνέχεια ανακατατάσσουμε τις παρατηρήσεις που αρχικά ανήκαν στις δύο παλιές συνιστώσες μεταξύ των δύο καινούριων. Λήμμα: Η πιθανότητα αποδοχής για την κίνηση τύπου inner split ισούται με ayy (, ) min{, A}, όπου α allo ( ) p k + k p k + p p A (likelihood ratio) ( + ) p k k p k q q { } δ + l δ + l k * * δ + l δ + l κ exp κ μ ξ μ ξ μ ξ π + σσ exp β{ σ σ s s } ss + mn t P allo pu ( ) J sn P p( u ) p( u ) s Στα παραπάνω με l, l συμβολίζουμε το πλήθος των παρατηρήσεων που προτείνεται να ανακαταταχθούν στις νέες συνιστώσες και P allo είναι η πιθανότητα της συγκεκριμένης ανακατάταξης και υπολογίζεται εύκολα από το αντίστοιχο βήμα * * Gibbs. Όμοια, με l, l συμβολίζουμε το πλήθος των παρατηρήσεων που αρχικά ανήκαν στις συνιστώσες και * *, (με τον ίδιο μέσο) και allo * * l l l l P είναι η πιθανότητα της (αντίστροφης) ανακατάταξης (προφανώς + + ). Επίσης s, m είναι οι πιθανότητές επιλογής διαχωρισμού για το μοντέλο και συνδυασμού για το μοντέλο αντίστοιχα. Με nt συμβολίζουμε το πλήθος σύνθετων συνιστωσών του και με n s συμβολίζουμε το πλήθος των διαδοχικών και απλών συνιστωσών του. Τέλος, με (likelihood ratio) συμβολίζουμε τον λόγο πιθανοφάνειας του (προτεινόμενου) μοντέλου προς αυτή του παλιού μοντέλου. Η πιθανότητα αποδοχής της αντίστροφης κίνησης (συνδυασμού) ισούται με a( y, y) min{, A }, με τις προφανείς αλλαγές στην παραπάνω έκφραση για το Α (από k διαφορετικούς μέσους πάμε σε ( k ) ). 4. ΕΦΑΡΜΟΓΕΣ 4. ΠΡΟΣΟΜΟΙΩΜΕΝΟ ΣΥΝΟΛΟ ΔΕΔΟΜΕΝΩΝ Για αρχή επιδεικνύουμε τη νέα μέθοδο σε μία «γνωστή» κατάσταση. Πρόκειται για ένα προσομοιωμένο σύνολο 3 παρατηρήσεων από την κατανομή.3 N (8,) +.5 N (8,6) +. N (9.5, ). - 34 -

Εικόνα. Αριστερά: το ιστόγραμμα των δεδομένων, κέντρο: η εκ των υστέρων κατανομή του k με τον κλασσικό αλγόριθμο, δεξιά: η εκ των υστέρων κατανομή των μοντέλων με την προτεινόμενη μέθοδο (3 επαναλήψεις). Αρχικά, παρατηρούμε το «ξεγέλασμα» του αλγορίθμου των Rihardson & Green, αφού έχει κορυφή σε μοντέλο με δύο συνιστώσες. Επίσης σημειώνουμε ότι και οι εκτιμήσεις των παραμέτρων που πήραμε είναι αρκετά εσφαλμένες. Αντίθετα, στην εικόνα 3 παρατηρούμε ότι με την νέα μέθοδο, ο αλγόριθμος επιλέγει το σωστό μοντέλο, διότι η εκ των υστέρων κατανομή των μοντέλων έχει κορυφή στο (,) που είναι αυτό που χρησιμοποιήθηκε για την προσομοίωση των δεδομένων. Τέλος, προσθέτουμε ότι και οι εκτιμήσεις των παραμέτρων είναι αρκετά κοντά στις πραγματικές τιμές τους. Εδώ σημειώνουμε ότι εμφανίζεται το φαινόμενο label swithing στις διασπορές και στα βάρη των συνιστωσών με ίδια μέση τιμή και εφαρμόσαμε τον Pivotal Reordering Algorithm (Marin and Robert, 7). 4. ΤΟ ΓΑΛΑΞΙΑΚΟ ΣΥΝΟΛΟ ΔΕΔΟΜΕΝΩΝ 3 Το συγκεκριμένο σύνολο δεδομένων καταγράφει τις ταχύτητες (σε km / se ) 8 γαλαξιών από τις κωνικές τομές του Corona Borealis. Με μια πρώτη ματιά στο ιστόγραμμα (εικ.4) είναι ξεκάθαρο ότι είναι αναμενόμενο να βρούμε τουλάχιστον τρεις συνιστώσες στα δεδομένα. Αυτό είναι και το μόνο κοινό σημείο όσων ερευνών έχουν καταπιαστεί με αυτά τα δεδομένα, όπου ποικίλουν από 3 έως 9. Εφαρμόσαμε την μέθοδό μας για αριθμό συνιστωσών k 9. Συνολικά συγκρίνονται 4 μοντέλα, όσα δηλαδή αντιστοιχούν στο συγκεκριμένο εύρος τιμών του k. Λόγω του μεγάλου πλήθους των μοντέλων και του μικρού μεγέθους δείγματος, τρέξαμε τον αλγόριθμο για 6 επαναλήψεις, μετά από burn in period (εικ. 3). Από την μορφή της κατανομής βγαίνουν κάποια ενδιαφέροντα συμπεράσματα. Για 5 k 9 προτιμούνται μοντέλα με αρκετά μικρότερο αριθμό διαφορετικών μέσων από το πλήθος των συνιστωσών. Από την άλλη, για 3 k 4 παρατηρούμε ότι υπερισχύουν τα μοντέλα που έχουν διαφορετικούς όλους τους μέσους. Η κορυφή της εκ των υστέρων κατανομής αντιστοιχεί στο μοντέλο (,,,). Έτσι, συμπεραίνουμε από την μία ότι οι γαλαξιακές ταχύτητες ομαδοποιούνται ως προς την μέση τους τιμή με μεγάλη πιθανότητα σε μικρό αριθμό ομάδων, ενώ εντός κάθε τέτοιας ομάδας είναι δυνατόν να υπάρχουν bloks παρατηρήσεων που διαφέρουν ως προς τις διασπορές τους. Το γεγονός αυτό μάλιστα ίσως να εξηγεί και την προτίμηση της εκ των υστέρων κατανομής του k σε μεγάλο αριθμό συνιστωσών με αρκετά «κοντινούς» μέσους, των προαναφερθέντων ερευνών. - 343 -

Εικόνα 3. Η εκ των υστέρων κατανομή των μοντέλων (αριστερά) και το ιστόγραμμα των δεδομένων (δεξιά) με την plug in εκτίμηση της πυκνότητας δεσμεύοντας στο μοντέλο (,,,). ABSTRACT The purpose of this paper is the Bayesian estimation of the number of omponents and parameters in a speial ase of mixture of Normal distributions. The Reversible Jump MCMC algorithm introdued by Rihardson and Green (997) for the estimation of a normal mixture model, fails to give preise results in the ase where (at least) two of the mixture omponents happens to have equal means. We overome this problem defining a wider set of ompeting models and introduing a new split - ombine move type that bridges the ompared models. Its main harateristi is that it is allowed the ump between different models with the same number of omponents. The proposed method is ombined with a modifiation of the standard Rihardson and Green s moves that are used for the transition between models with different number of omponents. Finally, we illustrate the method using a simulated data set and the galaxy data set. ΑΝΑΦΟΡΕΣ Green P. (995). Reversible ump Markov Chain Monte Carlo omputation and Bayesian model determination. Biometria, Vol. 8, No.4: 7-7. Marin J.M. and Robert C.P. (7). Bayesian Core: A pratial Approah to Computational Bayesian Statistis. Springer-Verlag, New York. Rihardson S. and Green P. (997). On Bayesian analysis of mixtures of distributions with an unknown number of omponents (with disussion). Journal of the Royal Statistial Soiety B, Vol. 59, No.4: 73-79. Roeder K. (99). Density estimation with onfidene sets exemplified by super - lusters and voids in galaxies. Journal of the Amerian Statistial Assoiation, Vol. 85: 67-64. - 344 -