Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 7 ου Πανελληνίου Συνεδρίου Στατιστικής (004) σελ. 37-34 ΤΑΞΙΝΟΜΙΚΟΙ ΚΑΝΟΝΕΣ ΓΙΑ ΕΛΛΕΙΠΤΙΚΟΥΣ ΠΛΗΘΥΣΜΟΥΣ ΜΕ ΜΟΝΟΤΟΝΑ ΕΛΛΙΠΗ Ε ΟΜΕΝΑ Απόστολος Μπατσίδης Κων/νος Ζωγράφος Πανεπιστήµιο Ιωαννίνων Τµήµα Μαθηµατικών 45 0 Ιωάννινα ΠΕΡΙΛΗΨΗ Στην εργασία αυτή το ενδιαφέρον επικεντρώνεται στην κατασκευή κανόνων για την ταξινόµηση µιας νέας παρατήρησης σε έναν από δύο ελλειπτικούς πληθυσµούς υπό την πρόσθετη υπόθεση ότι τα διαθέσιµα πιλοτικά δείγµατα από τους προαναφερθέντες πληθυσµούς είναι µονότονα ελλιπή. Σε αυτό το πλαίσιο δύο ταξινοµικοί κανόνες προτείνονται µελετώνται συγκρίνονται. Συγκεκριµένα η lug in µέθοδος ο γραµµικός συνδυασµός ταξινοµικών κανόνων.. ΕΙΣΑΓΩΓΗ Η κλασική διαχωριστική ανάλυση πραγµατεύεται το πρόβληµα της ταξινόµησης µιας νέας -διάστατης παρατήρησης σε έναν από δύο ή περισσότερους κανονικούς πληθυσµούς. Αν οι παράµετροι των πληθυσµών αυτών είναι άγνωστοι για να καθορίσουµε τον ταξινοµικό κανόνα πρέπει να τις εκτιµήσουµε χρησιµοποιώντας πιλοτικά (πλήρη) δείγµατα από αυτούς. Στη βιβλιογραφία έχουν εµφανιστεί δύο τύποι επεκτάσεων του συγκεκριµένου προβλήµατος. Ο πρώτος παρουσιάζει µελετά προβλήµατα ταξινόµησης µιας νέας παρατήρησης σε έναν ή περισσότερους µη κανονικούς ειδικότερα ελλειπτικούς πληθυσµούς. Ο δεύτερος επεκτείνει τα αποτελέσµατα της κλασικής διαχωριστικής ανάλυσης σε περιπτώσεις που τα διαθέσιµα πιλοτικά δείγµατα είναι ελλιπή. Οι ταξινοµικές διαδικασίες που προτάθηκαν σε αυτή την περίπτωση βασίζονται κυρίως σε διαφορετικές µεθόδους χειρισµού των ελλιπών τιµών όπως για παράδειγµα η συµπλήρωσή τους (imuaion). Σκοπός της εργασίας είναι η µελέτη του προβλήµατος της ταξινόµησης µίας νέας παρατήρησης σε έναν από δύο ελλειπτικούς πληθυσµούς όταν τα διαθέσιµα πιλοτικά δείγµατα είναι µονότονα ελλιπή. Τα µονότονα ελλιπή είναι ένας ελκυστικός 37
τύπος ελλιπών δεδοµένων αφενός µεν γιατί συναντώνται συχνά στην πράξη (Hao and Krishnamoorhy (00)) αφετέρου γιατί διάφορες µορφές τύποι ελλιπών δεδοµένων µπορούν να µετατραπούν σε µονότονα ελλιπή ή περίπου τέτοια (Schafer (997)). Στο πλαίσιο αυτό στο επόµενο εδάφιο παρουσιάζονται εισαγωγικές έννοιες που συνδέονται τόσο µε την ελλειπτική οικογένεια κατανοµών όσο µε τα µονότονα ελλιπή δεδοµένα. Στο Εδάφιο 3 δίνεται η αναλυτική έκφραση των Εκτιµητών Μέγιστης Πιθανοφάνειας (ε.µ.π.) των παραµέτρων θέσης κλίµακας βασιζόµενοι στα διαθέσιµα µονότονα ελλιπή δείγµατα. Αν στο συνήθη διαχωριστικό κανόνα αντικαταστήσουµε τις άγνωστες παραµέτρους µε τους εκτιµητές αυτούς τότε προκύπτει ο πρώτος ταξινοµικός κανόνας που προτείνεται (lug-in µέθοδος). Στο Εδάφιο 4 παρουσιάζεται ο δεύτερος ταξινοµικός κανόνας που είναι γραµµικός συνδυασµός διαχωριστικών κανόνων στηρίζεται σε µία ιδέα που πρόσφατα προτάθηκε από τους Chung and Han (000). Τέλος στο Εδάφιο 5 παρατίθενται τα αποτελέσµατα των συγκρίσεων µε χρήση προσοµοιωµένων δεδοµένων. Τα αποτελέσµατα της εργασίας παρατίθενται για -βηµατικά µονότονα ελλιπή δείγµατα για λόγους ευκολότερης κατανόησης αποφυγής πολύπλοκων συµβολισµών.. ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ-ΣΥΜΒΟΛΙΣΜΟΙ Έστω ένα -διάστατο τυχαίο διάνυσµα X από µία ελλειπτική κατανοµή µε άγνωστες παραµέτρους θέσης κλίµακας µ Σ αντίστοιχα µε Σ θετικά ορισµένο πίνακα τάξης. Επιπλέον ας είναι X ( X X ) όπου X i είναι i - διάστατο διάνυσµα i +. Τότε το διάνυσµα X έχει χαρακτηριστική συνάρτηση πυκνότητα αν υπάρχει iωµ -/ - e φ( ωσω ) Σ f ( - µ ) Σ ( µ ) () αντίστοιχα για κάποια συνάρτηση φ f µία πραγµατική συνάρτηση µω R Σ θετικά ορισµένο πίνακα τάξης. Γράφουµε τότε X ~ EC ( µ Σ φ) καλούµε την f ( ) γεννήτορα της συνάρτησης πυκνότητας πιθανότητας (σ.π.π.). ( ) Έστω τώρα δύο ελλειπτικοί πληθυσµοί Π : ( v v EC µ Σ f ) v. Τότε χρησιµοποιώντας το γενικό διαχωριστικό κανόνα την επιπλέον υπόθεση ότι η f είναι µη αύξουσα συνάρτηση κατατάσσουµε την παρατήρηση στον Π αν () () () () () () ( µ µ ) Σ ( µ µ ) Σ ( µ + µ ) () στον Π διαφορετικά. Ακολουθώντας τους Kanda and Fujikoshi (998) έστω η ακόλουθη διαµέριση των µ Σ ανάλογη µε αυτή του X ( X X ) : Σ µ ( µ µ ) Σ Σ (3) Σ Σ 38
όπου µ j είναι j -διάστατο διάνυσµα Σ jl είναι l j πίνακες µε Σ jj θετικά ορισµένους για j l. Τότε είναι γνωστό (Fang and Zhang (990)) ότι κάθε Xi ακολουθεί ελλειπτική κατανοµή EC i ( µ i Σii φ) i... k. Έστω ο µετασχηµατισµός των αρχικών παραµέτρων µ Σ στο διάνυσµα η στον πίνακα ( ) που ορίζονται αντίστοιχα από τις σχέσεις: ij η µ η µ - µ Σ Σ Σ Σ - Σ Σ Σ. (4) - - Με βάση αυτόν το συµβολισµό προκύπτει ότι η δεσµευµένη κατανοµή του X X * * είναι ελλειπτική EC ( η Σ φ ( ) ) q µε µέσο διάνυσµα η η + X - - Σ Σ - Σ Σ Σ q ( X ) ( X - µ ) Σ ( X - µ ) ενώ - - Cov( X X ) { h[( X - η) ( X- η)]} Σ { h[( X - µ ) Σ( X - µ )]} (5) για κάποια συνάρτηση h (βλέπε Fang e al. (990. 45 67)). Η συναρτησιακή µορφή της h για συγκεκριµένα ελλειπτικά µοντέλα όπως η Pearson τύπου VII κ.ά. είναι διαθέσιµη. Θεωρούµε το -διάστατο τυχαίο διάνυσµα X από µία ελλειπτική κατανοµή ( v) µε άγνωστες παραµέτρους θέσης κλίµακας µ Σ αντίστοιχα µε Σ θετικά ορισµένο πίνακα τάξης. Επιπλέον ας είναι X ( X X ) όπου X i είναι i - διάστατο διάνυσµα i +. Θεωρούµε τώρα ένα δείγµα µεγέθους N v από την ελλειπτική κατανοµή που αναφέρθηκε της ακόλουθης µορφής: v... v Nv...... k v N v vnv (6) v... vnv... k vnv δηλαδή Nv Nv παρατηρήσεις είναι διαθέσιµες στις + συνιστώσες αντίστοιχα µε N v > N v. Ένα τέτοιο δείγµα καλείται -βηµατικό µονότονα ελλιπές δείγµα (παραπέµπουµε στους Kanda and Fujikoshi (998)). Στη συνέχεια ορίζουµε τα ακόλουθα δειγµατικά µέσα διανύσµατα Nv v v j N v j N v i. vi N v j Επιπλέον µε παρόµοιο τρόπο ορίζουµε τους ακόλουθους δειγµατικούς πίνακες διακυµάνσεων-συνδιακυµάνσεων vij µε N v v ( vl v)( vl v) j S S ( v) S vij 39
N v S ( )( ) i j vij vil vi vjl vj l S v v S N ( v) S () v S N όπου S Sv Sv Sv S v v v v v v N N v Nv N. v 3. PLUG-IN ΜΕΘΟ ΟΣ Στη παράγραφο αυτή θα δοθεί η αναλυτική έκφραση των ε.µ.π. των παραµέτρων θέσης κλίµακας της ελλειπτικής οικογένειας κατανοµών βασιζόµενοι στους εκτιµητές αυτούς θα δοθεί ο ταξινοµικός κανόνας οι πιθανότητες εσφαλµένης ταξινόµησης. Χρησιµοποιώντας την προσέγγιση που αρχικά παρουσιάστηκε από τον Anderson (957) αποκτούµε τους ε.µ.π. των παραµέτρων θέσης κλίµακας της ελλειπτικής οικογένειας κατανοµών θεωρώντας χρησιµοποιώντας δύο - βηµατικά µονότονα ελλιπή δείγµατα. Σύµφωνα µε την προσέγγιση αυτή εκφράζουµε την από κοινού πυκνότητα ως το γινόµενο της περιθώριας της δεσµευµένης σ.π.π. (condiional likelihood aroach) λαµβάνοντας υπόψη την αναπαραµέτρηση (4). Ειδικότερα οι ε.µ.π. δίνονται από το Θεώρηµα που ακολουθεί. Θεώρηµα Στη βάση δύο -βηµατικών µονότονα ελλιπών δειγµάτων οι ε.µ.π. των ( v µ ) Σ είναι αντίστοιχα ( v) µ v v µ µ v v + ( v v) Σ Σ Σ Σ Σ όπου S v v v S v Σ λ ( ) ma g S v v ( ) Σ λma g S v S v S v v v v Σ Σ + Σ Σ Σ 30
N v Σ ma S h h ( vj µ ) Σ ( vj µ ) v j όπου h η συνάρτηση που συνδέεται µε τον Cov( X / X ). Επιπρόσθετα g g είναι οι µη αύξουσες από υπόθεση γεννήτορες συναρτήσεις της περιθώριας δεσµευµένης πυκνότητας των X X X αντίστοιχα ενώ µε λ ( ) ma g -N συµβολίζεται το σηµείο που λαµβάνει µέγιστο η συνάρτηση λ g / λ ) µε µε ( ξ ( g )/ h ) ( -N g ( / ξ. ξ ma ( g ) το σηµείο που λαµβάνει µέγιστο η συνάρτηση ξ ) Στηριζόµενοι τώρα στην lug-in µέθοδο στο Θεώρηµα στη σχέση () προκύπτει ο ακόλουθος ταξινοµικός κανόνας : Κατατάσσουµε την νέα παρατήρηση στον πληθυσµό Π αν ( () () ) ( () () ) d( ) µ µ Σ µ µ Σ ( µ () + µ () ) 0 στον Π διαφορετικά. Οι δεσµευµένες πιθανότητες εσφαλµένης ταξινόµησης µίας παρατήρησης του Π στον Π αντίστροφα χρησιµοποιώντας τον d( ) δίνονται από τις ακόλουθες σχέσεις () () γ Pd ( ( X) < 0 / X Π µ µ Σ σταθεροποιήµενα) () () ( ) () () () () () ( ) ( ) µ µ Σ µ + µ µ µ Σ µ F () () () () ( ) µ µ Σ ΣΣ ( µ µ ) () () γ Pd ( ( X) 0 / X Π µ µ Σ σταθεροποιηµένα) () () () () () () () ( ) ( ) ( ) µ µ Σ µ + µ µ µ Σ µ F () () () () ( ) µ µ Σ ΣΣ ( µ µ ) όπου F είναι η α.σ.κ της Z ~ EC (0) δηλαδή ελλειπτικής. Εποµένως η πιθανότητα µη ορθής ταξινόµηση είναι γ+ γ γ. 4. ΓΡΑΜΜΙΚΟΣ ΣΥΝ ΥΑΣΜΟΣ ΙΑΧΩΡΙΣΤΙΚΩΝ ΚΑΝΟΝΩΝ Ας θεωρήσουµε τα ακόλουθα -βηµατικά µονότονα ελλιπή πιλοτικά δείγµατα v... v Nv...... k v N v vnv....... v vnvk vnv 3
Στη βιβλιογραφία των ελλιπών δεδοµένων (βλέπε Schafer (997)) υπάρχουν οι ακόλουθοι τρόποι χειρισµού τους α) να στηριχθούµε σε εκείνες τις παρατηρήσεις που είναι διαθέσιµες σε όλες τις συνιστώσες (γνωστή ως case-wise deleion mehod ή comlee cases analysis ή liswise deleion) b) να στηριχθούµε στις µεταβλητές στις οποίες δεν έχουµε ελλιπείς τιµές (γνωστή ως variable-wise deleion mehod) Ακολουθώντας τις επιλογές a) b) θεωρούµε τα ακόλουθα σύνολα δεδοµένων v... v Nv... k vnv (7) v... vnv... k vnv v... v Nv...... k v N v vn (8) v αντίστοιχα. Εποµένως στηριζόµενοι στα παραπάνω σύνολα µπορούµε να κατασκευάσουµε δύο γραµµικούς διαχωριστικούς κανόνες για την ταξινόµηση της ( ) όπου i είναι i -διάστατο τυχαίο διάνυσµα +. Βασιζόµενοι στο σύνολο παρατηρήσεων (7) τον κλασικό lug-in ταξινοµικό κανόνα έχουµε την ακόλουθη διαχωριστική συνάρτηση ( a) () () () () W ( µ µ ) Σ ( µ + µ ) (9) ( v) ( v) όπου µ ( v v) Σ λma ( f ) S. v Ο δεύτερος δειγµατικός διαχωριστικός κανόνας που στηρίζεται στο σύνολο δεδοµένων (8) είναι ( b) () () () () W ( µ µ ) Σ ( µ + µ ) (0) ( v) όπου µ v Σ λma ( g) S. v v Ακολουθώντας τους Chung and Han (000) συνδυάζουµε τις (9) (0) κατασκευάζουµε έναν ταξινοµικό κανόνα που είναι γραµµικός συνδυασµός των δύο µεθόδων χειρισµού των ελλιπών τιµών. Η παρατήρηση ταξινοµείται στον Π αν ( a) ( b) W cw + ( c) W 0 0 c διαφορετικά στον Π. Παρατηρούµε ότι αυτός ο ταξινοµικός κανόνας εξαρτάται από την επιλογή της σταθεράς c. Υπάρχουν διάφοροι τρόποι προσδιορισµού της. Οι Chung and Han (000) πρότειναν (εµπειρικά) τη χρήση του + Da N N c + Da + + Db N N N N 3
όπου D a D b οι δειγµατικές Mahalanobis αποστάσεις των δύο πληθυσµών βασιζόµενες στα σύνολα δεδοµένων (7) (8) αντίστοιχα. Ένας άλλος τρόπος για παράδειγµα είναι να προσδιοριστεί η σταθερά c έτσι ώστε να ελαχιστοποιείται ο boosra εκτιµητής του σφάλµατος ταξινόµησης. Με σκοπό την εύρεση των πιθανοτήτων εσφαλµένης ταξινόµησης γράφουµε A το διαχωριστικό κανόνα στην ακόλουθη µορφή W H + F µε H όπου A B B διάνυσµα αντίστοιχα F ένας αριθµός που δίνονται από τις ακόλουθες σχέσεις A ca + ( c) d B ca F cb+ ( c) e () () a ( a a) ( ) Σ () () () () b ( ) Σ ( ) µε d Σ ( ) e ( ) Σ ( ). Εποµένως η δεσµευµένη πιθανότητα εσφαλµένης ταξινόµησης µιας παρατήρησης του Π στον Π αντίστροφα είναι β PW ( < 0/ X Π) () Hµ + Ε F HΣΗ β PW ( 0/ X Π) () Hµ + Ε F HΣΗ αντίστοιχα µε F να είναι η α.σ.κ. της Z ~ EC (0). Εποµένως η πιθανότητα εσφαλµένης ταξινόµησης είναι β β + β. 5. ΣΥΓΚΡΙΣΗ ΤΩΝ ΣΦΑΛΜΑΤΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΗΝ ΠΟΛΥ ΙΑΣΤΑΤΗ -ΚΑΤΑΝΟΜΗ Η συµπεριφορά ενός ταξινοµικού κανόνα αξιολογείται από τη δεσµευµένη πιθανότητα εσφαλµένης ταξινόµησης. Με σκοπό να συγκρίνουµε τις δύο ταξινοµικές διαδικασίες που πρωτύτερα προτάθηκαν κάνουµε µια Mone Carlo µελέτη 33
προσοµοιώνοντας τα σφάλµατα ταξινόµησης στην περίπτωση που έχουµε -βηµατικά πιλοτικά δείγµατα µε δειγµατικά µεγέθη N N N N. Υποθέτουµε επιπλέον ότι τα πιλοτικά δείγµατα προέρχονται από δύο πληθυσµούς που περιγράφονται από την πολυδιάστατη -κατανοµή µε m γνωστούς βαθµούς ελευθερίας. Από τη µελέτη αυτή προκύπτει ότι ο γραµµικός διαχωριστικός ταξινοµικός κανόνας γίνεται καλύτερος σε σύγκριση µε την lug-in µέθοδο καθώς το ποσοστό των ελλιπών δεδοµένων µεγαλώνει. ABSTRACT In his aer we deal wih he roblem of classifying a -dimensional random vecor ino one of wo elliically conoured oulaions wih unknown and disinc mean vecors and a common bu unknown scale mari. Ιn order o deermine he classificaion rule we have o esimae he unknown arameers using -se monoone raining samles one from each oulaion wih he same monoone aern. The main idea of his aer is o eend he classificaion rocedure roosed recenly by Chung and Han (000). This rocedure is a linear combinaion of wo discriminan funcions one based on he comlee samles and he oher on he incomlee samles. The erformance of he roosed classificaion rule is comared wih he lug-in mehod ha is wih he classificaion rule which arises if he unknown arameers are subsiued ino he usual classificaion rule by heir esimaors. ΑΝΑΦΟΡΕΣ Anderson T. W. (957): Maimum likelihood esimaes for mulivariae normal disribuion when some observaions are missing. JASA 5 00-03. Chung H. & Han C. (000): Discriminan analysis when a block of observaions is missing. Ann. Ins. Sais. Mah. 5 544-556. Fang K. T. & Zhang Y. T. (990): Generalized Mulivariae Analysis. Science Press Beijing and Sringer- Verlang Berlin Fang K. T. Koz S. & Ng K. W. (990): Symmeric Mulivariae and Relaed Disribuions. Chaman and Hall London New York. Hao J. & Krishnamoorhy K. (00): Inference on a normal covariance mari and generalized variance wih monoone missing daa. J. Muliv. Analysis 78 6-8. Kanda T. & Fujikoshi Y. (998): Some basic roeries of he MLE S for a mulivariae normal disribuion wih monoone missing daa. American Journal of Mahemaical and Managemen Sciences 6 3-65. Schafer J. L. (997)). Analysis of Incomlee Mulivariae Daa. Chaman and Hall. 34