Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version
Στη συνέεια θα μιλήσουμε μόνο για στατιστικές μεθόδους ταξινόμησης προτύπων statistical attern classification. Υπόθεση: Σε μια μεγάλη αίθουσα γυμναστηρίου βρίσκονται ορευτές και καλαθοσφαιριστές Ερώτηση : «Αν επιλέξουμε κάποιον από την αίθουσα, μαντέψτε αν είναι ή.» Απάντηση: Για ορευτή: +. Για καλαθοσφαιριστή: + Άρα επιλέγεται η απάντηση Β
Επιπλέον δεδομένα: Οι κατανομές πυκνότητας πιθανότητας των βαρών των δύο κατηγοριών: e π 5 9 e π. Ερώτηση : «Αν επιλέξουμε κάποιον από την αίθουσα, μαντέψτε αν είναι ή.» Απάντηση: Ίδια με την ερώτηση. Ερώτηση : ««Αν επιλέξουμε κάποιον από την αίθουσα, μαντέψτε αν είναι ή, δοθέντος ότι το ύψος του είναι 55 εκ;» Απάντηση: Ίδια με την ερώτηση.
Ερώτηση 4: ««Αν επιλέξουμε κάποιον από την αίθουσα, μαντέψτε αν είναι ή, δοθέντος ότι το βάρος του είναι 6 κιλά;» Απάντηση: β 6 6 6 + 6.878 κ β 6 6 κ κ. 6 α α + 6 κ κ. Προβληματισμός: Γιατί η κατάσταση άλλαξε τόσο δραματικά με την επιπλέον πληροφορία; Εξήγηση: Οι τιμές του βάρους διαφοροποιούνται πολύ στις δύο κατηγορίες. 4
5 4 6 8 4.5..5..5 βάρος Υπόθεση: Ας θεωρήσουμε ότι το επιπλέον αρακτηριστικό είναι η απόρωση των μαλλιών η ίδια ομοιόμορφη κατανομή και για τις δύο κατηγορίες ], [ ], [,. ], [ ], [,
6 Ερώτηση 5: ««Αν επιλέξουμε κάποιον από την αίθουσα, μαντέψτε αν είναι ή, δοθέντος ότι η απόρωση των μαλλιών του είναι y [,]». Απάντηση: y y y y + +. y y y y + + Συμπέρασμα: Αν έουμε τη δυνατότητα να επιλέξουμε αρακτηριστικά ας διαλέγουμε εκείνα που διαφοροποιούνται όσο το δυνατόν περισσότερο στις υπό εξέταση κατηγορίες τα καταλληλότερα αρακτηριστικά επιλέγονται με τη βοήθεια ενός ειδικού στην υπό μελέτη εφαρμογή.
7 Ερώτηση 6: «Αν επιλέξω κάποιον αθλητή από την αίθουσα, τι είδους αθλητής είναι αυτός, δεδομένου ότι το βάρος του είναι κιλά;» Έστω και πάλι ότι το επιπλέον αρακτηριστικό είναι το βάρος Καλύτερη δυνατή απάντηση: Είναι αθλητής από την κατηγορία με τη μεγαλύτερη εκ των υστέρων a osteriori πιθανότητα. Κανόνας του ayes : Aν > τότε καταώρησε τον αθλητή στην κατηγορία. Διαφορετικά καταώρησε τον αθλητή στην κατηγορία. + + Λαμβανομένου υπόψη ότι
Κανόνας του ayes : Aν > τότε καταώρησε τον αθλητή στην κατηγορία «ορευτής» Διαφορετικά καταώρησε τον αθλητή στην κατηγορία «καλαθοσφαιριστής». Υπόθεση: Οι a riori πιθανότητες των κατηγοριών είναι ίσες. Κανόνας του ayes ειδ: Aν > τότε καταώρησε τον αθλητή στην κατηγορία «ορευτής» Διαφορετικά καταώρησε τον αθλητή στην κατηγορία «καλαθοσφαιριστής». Σημαντική παρατήρηση: ΠΑΝΤΑ υπάρει και η πιθανότητα λάθους ένας «αφύσικα» αδύνατος καλαθοσφαιριστής η ένας «αφύσικα» παουλός ορευτής μπορούν να ταξινομηθούν λάθος. 8
Ταξινόμηση κατά ayes και γεωμετρική ταξινόμηση Τα σημεία όπου οριοθετούν τις περιοές του ώρου των αρακτηριστικών βάρος που αντιστοιούν στις δύο κατηγορίες Ταξινόμηση οντότητας με συγκεκριμένη τιμή βάρους ανάλογα με την περιοή στην οποία αυτή ανήκει. Ορισμός περιοών: Λύνοντας την εξίσωση e π 5 e π 9 5 9 + ln 67.4 9
.5. κ κ.5. α α Χορευτής: R {: <67.4} Καλαθοσφ.: R {: >67.4}.5 Α Β 4 6 8 4 βάρος Ερώτηση: Ποιά είναι η πιθανότητα λάθους; Απάντηση: λ Εµβ Α + Εµβ Β d + d. R R Για το παράδειγμά μας: λ.778 +..474.
.6.4...8.6.4. -8-6 -4-4 6 8 6 4 - -4-6 -8 Παράδειγμα δύο κατηγοριών στον -διάστατο ώρο.
Σεδιασμός ταξινομητή Συμβολισμός: ω,ω,,ω c οι κατηγορίες στις οποίες θα ταξινομηθεί μια οντότητα l το πλήθος των αρακτηριστικών που αναπαριστούν μια οντότητα διάσταση του ώρου των αρακτηριστικών [,, l ] T Διάνυσμα αναπαράστασης οντότητας i η τιμή του i αρακτηριστικού γι αυτήν την οντότητα ω i η a riori πιθανότητα η υπό εξέταση οντότητα να ανήκει στην i κατηγορία ω i η a osteriori πιθανότητα η υπό εξέταση οντότητα να ανήκει στην i κατηγορία δοθέντος του διανύσματος μετρήσεων ω i η συνάρτηση πυκνότητας πιθανότητας που περιγράφει την κατανομή των αρακτηριστικών διανυσμάτων για την κατηγορία ω i.
Ερώτηση 7: «Δοθέντος ενός διανύσματος μετρήσεων μιας υπό εξέταση οντότητας να προσδιοριστεί η κατηγορία ω i στην οποία ανήκει η οντότητα» ayes : «καταώρησε την υπό εξέταση οντότητα στην κατηγορία ω i για την οποία ω i ma j,,c ω j.» Δεδομένου ότι: ω i c j ω ω i ω ω j i j ayes : «καταώρησε την υπό εξέταση οντότητα στην κατηγορία ω i για την οποία ω i ω i ma j,,c ω j ω j.» ayes ειδ: «Αν οι κατηγορίες είναι ισοπίθανες, καταώρησε την υπό εξέταση οντότητα στην κατηγορία ωi για την οποία ω i ma j,,c ω j.»
Παράδειγμα: Σ ένα πρόβλημα τριών κλάσεων, ρησιμοποιείται μόνο ένα αρακτηριστικό για την ταξινόμηση των δειγμάτων. Οι αντίστοιες πυκνότητες πιθανότητας και οι a riori πιθανότητες για τις κλάσεις είναι: ω: ω, ω π*e- ω: ω, ω π*e-- ω: ω6, ω π*e-- Ταξινομήστε σε μία από τις παραπάνω κατηγορίες άγνωστο δείγμα με τιμή αρακτηριστικού.6. Είναι: ω ω.555, ω ω., ω ω.64 Συνεπώς το δείγμα καταωρείται στην κατηγορία ω. 4
Παράδειγμα τριών κατανομών.5..5..5 4 6 8 4 R R R R R R R Πιθανότητα λάθους: λ c c i R k, k i i ω k ωk d 5
Ερώτηση: Γιατί τόση επιμονή στον ταξινομητή ayes; Απάντηση: γιατί η λογική του δεν έρεται σε αντίθεση με την διαίσθησή μας. Γιατί περιλαμβάνει ως ειδικές περιπτώσεις πολλούς ταξινομητές που ρησιμοποιούνται στην πράξη. Ο κανόνας ταξινόμησης κατά ayes είναι βέλτιστος με την έννοια ότι ελαιστοποιεί την πιθανότητα λάθους. 6
Παρατήρηση: οι πυκνότητες πιθανότητας των κατηγοριών μαζί με τις a riori πιθανότητές τους ορίζουν μονοσήμαντα μια διαμέριση του ώρου του l-διάστατου ώρου των αρακτηριστικών, σε όι απαραίτητα ενιαίες περιοές R i όπου κάθε μια αντιστοιεί και σε μια κατηγορία ω i. Έτσι, η ταξινόμηση ενός διανύσματος μπορεί να γίνει α είτε με ρήση του κανόνα του ayes όπως αυτός διατυπώνεται στον ayes ή ayes β είτε με προσδιορισμό των περιοών των ώρου των αρακτηριστικών που αντιστοιούν στις υπό εξέταση κατηγορίες και για κάθε νέο διάνυσμα αρακτηριστικών να εξετάζει απλώς σε ποια περιοή ανήκει. 7
.6.4...8.6.4. -8-6 -4-4 6 8 6 4 - -4-6 -8 Παράδειγμα δύο κατηγοριών στον -διάστατο ώρο. 8