Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 7 ου Πανελληνίου Συνεδρίου Στατιστικής (004), σελ. 03-08 ΤΑΞΙΝΟΜΙΚΗ ΑΝΑΛΥΣΗ ΓΙΑ ΕΞΑ ΙΑΣΤΑΤΗ ΙΩΝΥΜΙΚΗ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΚΤΙΝΟ ΙΑΓΝΩΣΤΙΚΗ ΤΗΣ ΠΝΕΥΜΟΝΟΚΟΝΙΑΣΗΣ Θεόφιλος Κάκουλλος Τµήµα Μαθηµατικών, Πανεπιστήµιο Αθηνών ΠEΡΙΛΗΨΗ Προτείνονται απλοί ταξινοµικοί κανόνες, βασιζόµενοι σε αθροίσµατα έξι εξαρτηµένων µεταβλητών Bernoull, για την ταξινόµηση ακτινογραφιών από ν = 47 άτοµα, πάσχοντα από πνευµονοκονίαση και ανήκοντα στις τάξεις q 0, q, q. Υποδεικνύεται µία απλοποίηση µε προσφυγή στην κανονική κατανοµή. Εξετάζεται επίσης η συµµετρία δεξιού και αριστερού πνεύµονα.. ΕΙΣΑΓΩΓΗ Το στατιστικό ταξινοµικό πρόβληµα που προτείνεται ξεκινά από ταξινοµικό πρόβληµα µε δεδοµένα ένα εκπαιδευτικό (tranng) δείγµα ταξινοµηµένων ακτινογραφιών του πνεύµονα, ενός αριθµού ν µεταλλωρύχων µε διάγνωση (ακτινολόγου) στα πρώτα στάδια πνευµονοκονίασης στην κατηγορία q (από τις p, q, r, s), σύµφωνα µε την ταξινόµηση του ILO (Internatonal Labour Offce). Πιο συγκεκριµένα έγινε διάγνωση τοποθέτηση σε µία από τις υποκατηγορίες q, q του q, από πνευµονολόγο ακτινολόγο ο οποίος, κοιτάζοντας µία 0 q, ακτινογραφία, σηµειώνει την παρουσία ή απουσία µιας ατυπίας σε καθένα από τα 6 µέρη (περιοχές R ) στα οποία διαιρέθηκαν (παρατηρησιακά) οι δύο πνεύµονες, Περίπτωση του Νέου Μεξικού, µε χιλιάδες ακτινογραφίες σε διάφορα στάδια πνευµονοκονίασης. 03
3 ο δεξιός ( ) και 3 ο αριστερός πνεύµονας (Α). Έτσι τα κελλιά R, R 4 είναι οι άνω περιοχές, R, R5 οι µεσαίες και R 3, R 6 οι κάτω περιοχές των πνευµόνων. Στην ατυπίας. R αντιστοιχούµε την x = ή 0, ανάλογα µε την παρουσία ή απουσία εξιός Αριστερός Άνω R R4 Μέση R R5 Κάτω R3 R6 Προφανώς, οι παρατηρήσεις, ή 0, σε καθεµιά από τις περιοχές R,..., R 6 είναι συσχετισµένες ώστε η συνεπαγόµενη κατανοµή να είναι µια εξαδιάστατη Bernoull, δηλ. κάθε ακτινογραφία (εργάτης) δίνει µία εξάδα (διάνυσµα µε συνιστώσες) ή 0, δηλ. την τυχαία µεταβλητή x = ( x,..., x6 ) µε x συσχετισµένες Bernoull (µε τιµές ή 0). Έτσι από ν ακτινογραφίες ενός εκπαιδευτικού δείγµατος, προσθέτοντας τα αντίστοιχα x, οδηγούµεθα στο ταξινοµικό πρόβληµα µιας (µελλοντικής ή αταξινόµητης) ακτινογραφίας x = x,..., x ), µε βάση την προκύπτουσα εξαδιάστατη διωνυµική κατανοµή του ( 6 Y = ( Y,..., Y6 ), Y X j = ν j=, =,..., 6.. ΤΑΞΙΝΟΜΙΚΟΙ ΚΑΝΟΝΕΣ ΒΑΣΕΙ ΑΘΡΟΙΣΜΑΤΩΝ Όπως αναφέραµε, το ταξινοµικό πρόβληµα για πολυµεταβλητή Bernoull (διωνυµική) δεν έχει αντιµετωπισθεί. Αυτό οφείλεται: α) στην πολυπλοκότητα της µορφής της από κοινού συνάρτησης πιθανότητας (σπ) (δεν υπάρχει συµπαγής κατ ευθείαν (explct) έκφρασή της), β) στον µεγάλο αριθµό ( 6 = 64 στην εξαδιάστατη) των άγνωστων πιθανοτήτων των δυνατών εξάδων x,..., ) και την ανεπάρκεια των αντίστοιχων συχνοτήτων ( x6 τους στο συνολικό µικρό δείγµα ν = 47 ακτινογραφιών. Κατά µείζονα λόγο, η ανεπάρκεια αυτή είναι εντονότερη αν λάβουµε υπόψη ότι οι συχνότητες στις 3 επί 04
µέρους τάξεις q 0, q, q είναι περίπου 00 στην q 0, 40 στην q και οι υπόλοιπες από τις 47 στην q. γ) Οι λόγοι των πιθανοτήτων για 3 κλάσεις (τις q 0, q, q στην προκειµένη περίπτωση), δεν επιδέχονται απλοποιηµένη συνάρτηση της υπό ταξινόµηση εξαδιάστατης Bernoull x = x,..., x ), ώστε να µην είναι δυνατή η διατύπωση, ( 6 έστω και υπό εκτιµηµένες παραµέτρους πιθανότητες, βέλτιστου ταξινοµικού κανόνα Bayes. Οι προηγούµενες παρατηρήσεις υποδεικνύουν την προσφυγή σε µία ad hoc (επί τούτο) λύση, την οποία εισηγείται και η εµπειρική κατανοµή στα 6 µέρη των πνευµόνων. Συγκεκριµένα, τα θετικά (σηµάδια) δηλ. τα x = φθίνουν όσο προχωρούµε προς το κάτω (µεσαία και κατώτερα). Η παρουσία θετικού σηµαδιού στα πάνω µέρη αντιστοιχεί στο πρώτο στάδιο, q 0, της πνευµονοκονίασης. Η παρουσία ατυπιών και στο µεσαίο οδηγεί στην κατηγορία q, ενώ η εµφάνιση ατυπιών και στο κάτω µέρος οδηγεί στο σοβαρότερο στάδιο (κατηγορία q ). Με βάση την παρατήρηση αυτή, εξετάσθηκε η διακριτική ισχύς (dscrmnatory power) του απλού ταξινοµικού κανόνα που βασίζεται στο άθροισµα s = x + + x 6, s = 0,,..., 6. () Για κάθε δεδοµένη παρατήρηση (ακτινογραφία) x = x,..., x ), για παράδειγµα, ( 6 τέτοιος «λογικός» ταξινοµικός κανόνας είναι: Βάλε το x: στην q 0 αν s, στην q αν s 4 και στην q 3 αν s > 4. Μια λεπτότερη διαµέριση του δειγµατοχώρου των x µπορεί να βασιστεί σε µετασχηµατισµένες µονοδιάστατες παρατηρήσεις ξ + = ξ( x, x4 ) = + x x4, ξ ξ ( x, x5 ) = + x + x5 3 ξ3 x3, x6 ) = + x3 6 =, ξ = ( + x, () όπου κάθε ξ παίρνει τις τιµές,,3, 4 και άρα το άθροισµα w = ξ +, µε τιµές 3,4,...,, (3) + ξ ξ3 παρέχει λεπτοµερέστερη (λεπτότερη) διαµέριση των τιµών των x, και κανόνες µε καλύτερες πιθανότητες ορθής ταξινόµησης, όπως ο κανόνας: q 0 : αν 3 w 5, q : αν 6 w 9, και q 3 : αν 0 w. (4) 05
Οι προτεινόµενες µετασχηµατισµένες µεταβλητές ξ της () έχουν επιλεγεί από ένα γενικότερο αµφιµονοσήµαντο µετασχηµατισµό µιας k-διάστατης (εδώ k = 6 ) Bernoull X = ( X,..., ) µε σπ X k p ( x) = P[ X = x,..., X k = x k ], x = 0,, =,..., k, σε µονοδιάστατη τ.µ. ξ ( x), όπως την όρισε ο Teugels (990): k = ξ = ξ( x) = + x. Για παράδειγµα, στη διδιάστατη Bernoull (όπως οι ξ της ()) έχουµε ξ ( 0,0) =, ξ (,0) =, ξ ( 0,) = 3, ξ (,) = 4. Είναι σαφές το πλεονέκτηµα χρήσης µετασχηµατισµένων Bernoull διαστάσεως s < k, όπως στην () όπου s = και k = 6 που οδήγησε στο w της (3) µε 0 τιµές, 3, αντί 7 της s στην (). Με τη χρήση ενός ταξινοµικού κανόνα µε λεπτότερη διαµέριση, όπως ο (4), αναµένεται βελτίωση των πιθανοτήτων ορθής ταξινόµησης (ΠΟΤ). Η ολική ΠΟΤ έστω P ολ, για 3 κλάσεις q 0, q, q στην προκειµένη περίπτωση, µπορεί να υπολογισθεί από τον τύπο 0P0 + pp pp P ολ p +, (5) όπου P είναι οι πληθυσµιακές (a pror) πιθανότητα της q και p η πιθανότητα ορθής ταξινόµησης στην q, = 0,,. Στο παράδειγµά µας, τα µεν P θα εκτιµηθούν από τα αντίστοιχα ποσοστά των q στο εκπαιδευτικό δείγµα (tranng sample) των 47 ακτινογραφιών, τα δε p από τα αντίστοιχα ποσοστά ορθής ταξινόµησης (δεδοµένου ταξινοµικού κανόνα) στην q. Έτσι η εµπειρική ή φαινοµενική ΠΟΤ ολ υπολογίζεται από τη σχέση ολ = + +. (6) 0 Ο κανόνας βάσει του s έδωσε P ˆ = 65 %, δηλ. φαινοµενική ολική πιθανότητα ολ εσφαλµένης ταξινόµησης P ˆ = 35%. Οι εκτιµήσεις των πιθανοτήτων αυτών ολ βάσει του ταξινοµικού κανόνα (4) αναµένεται να δώσουν µεγαλύτερο ολ. 06
Είναι προφανές ότι υπάρχουν διάφοροι κανόνες που µπορούν να βασισθούν στις τιµές του s ή του w και καθένας τους θα δώσει διαφορετική ολ, καθώς και δεσµευµένες πιθανότητες εσφαλµένης ταξινόµησης p ( j) = P[ ταξινόµησης στην q αληθεύει η q ], j. Οι p( ) =, όποως ορίστηκε στην (5). Κατά συνέπεια, µεταξύ των ταξινοµικών κανόνων που βασίζονται στο s ή στο w µπορεί να επιλεγεί εκείνος που µεγιστοποιεί την ολ, δηλ. µπορούν να επιλεγούν τα s < s και w < w, έται ώστε οι κανόνες και οι κανόνες q 0 : s s, q : s < s s, q 3 : s > s (7) q 0 : w w, q : w < w w, q 3 : w > w (8) να µεγιστοποιούν τις αντίστοιχες ολ. Η ολ δεν έχει υπολογισθεί για τον κανόνα (4). 3. ΕΛΕΓΧΟΣ ΣΥΜΜΕΤΡΙΑΣ Στο συγκεκριµένο πρόβληµα της πνευµονοκονίασης, πέρα από την ταξινόµηση των ακτινογραφιών, ενδιαφέρον παρουσιάζει και ο έλεγχος της συµµετρίας δεξιού και αριστερού πνεύµονα ως προς το επίπεδο πνευµονοκονίασης. Προφανώς, ένας κατάλληλος απλός έλεγχος µπορεί να βασισθεί στους µετασχηµατισµούς στηλών, 3 = η x, x, x3) = + = η ( x, η =,,..., 8, (9) των 3 Bernoull του δεξιού πνεύµονα, και οµοίως του αριστερού, 3 = η ( x4, x5, x6 ) = + x+ 3 = η, η =,..., 8. (0) Η υπόθεση της συµµετρίας δεξιού και αριστερού πνεύµονα απορρίπτεται, αν η διαφορά η ηα είναι µεγάλη, όπου η το άθροισµα των η των ν ακτινογραφιών και η Α το άθροισµα των η των ν ακτινογραφιών. Στο συγκεκριµένο παράδειγµα µε τον έλεγχο αυτό, διαπιστώνεται η αναµενόµενη 07
συµµετρία των πνευµόνων. Αυτό επιτυγχάνεται και µε τη χρήση των αθροισµάτων των x του δεξιού και των x του αριστερού πνεύµονα. 4. ΜΙΑ ΚΑΝΟΝΙΚΗ ΠΡΟΣΕΓΓΙΣΗ Για µεγάλα δείγµατα ακτινογραφιών ανά κατηγορία, είναι δυνατό να γίνει χρήση της αντίστοιχης κανονικής προσέγγισης (σύµφωνα µε το κεντρικό οριακό θεώρηµα) των σχετικών αθροισµάτων, π.χ., των S στην (), των W στην (3), και των η και η στις (9) και (0), δηλ. των ανά κατηγορία αθροισµάτων S X + X + + X 6 και οµοίως των αθροισµάτων των =, W = ξ + ξ + ξ3 η ι και η. Μια τέτοια κανονική προσέγγιση ανάγει το ταξινοµικό πρόβληµα στο απλούστερο ταξινοµικό πρόβληµα µε µονοδιάστατες εναλλακτικές κανονικές κατανοµές, ιδιαίτερα αν διαπιστωθεί η οµοσκεδαστικότητα των πληθυσµών. Αυτό όµως ξεφεύγει από τα όρια του παρόντος σύντοµου σηµειώµατος. AΒSTRACT Smple classfcaton rules, based on sums of sx dependent Bernoull varables, are gven for the classfcaton of chest radographs of n = 47 subjects, sufferng from pneumonoconass and belongng to one of the classes q 0, q, q. A smplfcaton s ndcated by resortng to the normal approxmaton. The symmetry of the rght and left lung s also tested. ΑΝΑΦΟΡΕΣ Teugels, J. L. (990). Some representatons of the multvarate Bernoull and bnomal dstrbutons, Journal of Multvarate Analyss (3) 56-68. 08