Αναγνώριση Προτύπων 1 Σημερινό Μάθημα Βασικό σύστημα αναγνώρισης προτύπων Προβλήματα Πρόβλεψης Χαρακτηριστικά και Πρότυπα Ταξινομητές Classifiers Προσεγγίσεις Αναγνώρισης Προτύπων Κύκλος σχεδίασης Συστήματος Αναγνώρισης Προτύπων Πιθανότητες και Στατιστικά 2 1
Ένα βασικό σύστημα αναγνώρισης προτύπων συμπεριλαμβάνει: Έναν αισθητήρα Μια διαδικασία προεπεξεργασίας Ένα μηχανισμό Εξαγωγής Χαρακτηριστικών Έναν αλγόριθμο Ταξινόμησης Ένα σετ εκπαίδευσης συσκευές μετρήσεων προεπεξεργασία διαστάσεων πρόβλεψη επιλογή μείωση μοντέλου πραγματικός κόσμος αποτελέσματα Κάμερες Βάσεις δεδομένων Επιλογή χαρ. Προβολή χαρ. Αφαίρεση θορύβου Εξαγωγή χαρακτηριστικών Crossvalidation Classification Clustering 3 Αισθητήρες Η είσοδος σε ένα ΣΑΠ (Σύστημα Αναγνώρισης Προτύπων) ) είναι αρκετά συχνά κάποιος αναμεταδότης, όπως μια κάμερα ή μια συστοιχία μικροφώνων Η δυσκολία του προβλήματος εξαρτάται από τα χαρακτηριστικά αυτών των αισθητήρων π.χ. το εύρος συχνοτήτων, η ανάλυση της εικόνας, η ευαισθησία, η παραμόρφωση, η αναλογία σήματος προς θόρυβο, η καθυστέρηση του σήματος κ.ά. 4 2
Προβλήματα πρόβλεψης Ταξινόμηση (Classification) Το πρόβλημα κατάταξης του αντικειμένου σε μία κατηγορία (class) Η έξοδος του ΣΑΠ είναι μία ετικέτα (label) π.χ. «καλό» ή «κακό» σε έλεγχο ποιότητας Παλινδρόμηση (Regression) Γενίκευση της ταξινόμησης Η έξοδος του ΣΑΠ είναι πραγματική τιμή π.χ. πρόβλεψη της τιμής μετοχής μιας εταιρείας 5 Προβλήματα πρόβλεψης Ομαδοποίηση (clustering) Η οργάνωση αντικειμένων σε ομάδες με νόημα Το σύστημα επιστρέφει ομάδες αντικειμένων π.χ. ταξινόμηση ειδών Περιγραφή (description) Η αναπαράσταση αντικειμένου με πρωταρχικά στοιχεία Το σύστημα παρέχει δομημένη η λεκτική περιγραφή π.χ. περιγραφή ενός σήματος με πλάτος και συχνότητα 6 3
Χαρακτηριστικά (features) Τα χαρακτηριστικά μπορεί να είναι συμβολικά (π.χ. χρώμα) ή αριθμητικά (π.χ. ύψος) Ο συνδυασμός κάποιων χαρακτηριστικών αποτελεί το διάνυσμα χαρακτηριστικών (feature vector) Ο ν διάστατος χώρος που ορίζεται από το feature vector ονομάζεται χώρος χαρακτηριστικών (feature space) 7 Πρότυπα Πρότυπο είναι μία σύνθεση χαρακτηριστικών Κατά την ταξινόμηση το πρότυπο είναι ένα ζεύγος μεταβλητών {x,ω} όπου x είναι μια συλλογή χαρακτηριστικών (feature vector) ω είναι η έννοια της παρατήρησης (label) 8 4
Χαρακτηριστικά (feature) Τι κάνει ένα διάνυσμα χαρακτηριστικών «καλό»; Η ποιότητα του σχετίζεται με την ικανότητα του να διακρίνει παραδείγματα διαφορετικών κλάσεων Παραδείγματα της ίδιας κλάσης πρέπει να έχουν παρόμοιες τιμές Διαφορετικών κλάσεων διαφορετικές τιμές 9 Διαχωρισμός Χαρακτηριστικών Γραμμικός διαχωρισμός Μη-γραμμικός διαχωρισμός Υψηλός συσχετισμός Πολυτροπικός 10 5
Ταξινομητές Classifiers Το έργο ενός classifier είναι να χωρίσει το χώρο των χαρακτηριστικών σε συγκεκριμένες περιοχές απόφασης (classes) Οι classes χωρίζονται με όρια απόφασης. 11 Ταξινομητές Classifiers Ένας classifier αντιπροσωπεύεται με ένα σύνολο διακριτών συναρτήσεων Ένα διάνυσμα χαρακτηριστικών x καταχωρείται σε μια κλάση ω i αν g i (x)>g j (x) κλάση συναρτήσεις χαρακτηριστικά 12 6
Προσεγγίσεις Αναγνώρισης Προτύπων Στατιστική Αναγνώριση Προτύπων Αναγνώριση Προτύπων με Νευρωνικά Δίκτυα Συντακτική Αναγνώριση Προτύπων 13 Στατιστική Αναγνώριση Προτύπων Τα πρότυπα ταξινομούνται βάσει ενός στατιστικού μοντέλου των χαρακτηριστικών Το στατιστικό μοντέλο ορίζεται από μία οικογένεια υπό συνθήκη συναρτήσεων Pr(x/c i ) 14 7
Αναγνώριση Προτύπων με Νευρωνικά Δίκτυα Η ταξινόμηση βασίζεται στην ανταπόκριση ενός δικτύου νευρώνων στην εισαγωγή ενός προτύπου Η γνώση αποθηκεύεται στα βάρη των συνάψεων Τα νευρωνικά δίκτυα εκπαιδεύονται Με αρκετά επίπεδα και νευρώνες μπορεί να δημιουργηθεί περιοχή κάθε πολυπλοκότητας 15 Συντακτική Αναγνώριση Προτύπων Η ταξινόμηση βασίζεται σε μέτρα συντακτικής ομοιότητας Χρησιμοποιείται για ταξινόμηση (classification) και περιγραφή (description) 16 8
17 Ένα απλό πρόβλημα αναγνώρισης Θεωρήστε το πρόβλημα αναγνώρισης των χαρακτήρων L,P,O,E,Q Ορίζουμε κατάλληλο σετ χαρακτηριστικών Σχεδιάζουμε classifier δομημένου δέντρου 18 9
Κύκλος σχεδίασης Συστήματος Αναγνώρισης Προτύπων Συλλογή Δεδομένων Πόσα παραδείγματα απαιτούνται; Επιλογή Χαρακτηριστικών Κρίσιμο, απαιτεί προηγούμενη γνώση Επιλογή Μοντέλου Στατιστικό, νευρωνικό ή συντακτικό Εκπαίδευση Επιβλεπόμενη, μη επιβλεπόμενη, ενισχυμένη Αξιολόγηση Εκτίμηση απόδοσης Overfitting Γενίκευση 19 Πιθανότητες και Στατιστικά Πιθανότητες Ορισμός Αξιώματα και ιδιότητες Πιθανότητα υπό συνθήκη Θεώρημα Bayes 20 10
Πιθανότητες Ορισμός Οι πιθανότητες είναι νούμερα που σχετίζονται με κάποιο γεγονός και δείχνουν «πόσο πιθανό» είναι να συμβεί Ένας πιθανοτικός κανόνας αποδίδει πιθανότητες στα γεγονότα ενός πειράματος Ο χώρος δειγμάτων S για ένα πείραμα είναι το σύνολο όλων των πιθανών αποτελεσμάτων 21 Πιθανότητες Αξιώματα Αξίωμα I: 0 P[A[ i i] Aξίωμα ΙΙ: P[S]=1 Αξίωμα ΙΙΙ: if A i A j =ø, then P[A i A j ]=P[A i ]+P[A j ] 22 11
Ιδιότητα 1 Ιδιότητα 2 Ιδιότητα 3 Ιδιότητα 4 Ιδιότητα 5 Ιδιότητα 6 Ιδιότητα 7 Πιθανότητες Ιδιότητες 23 Πιθανότητα υπό συνθήκη Αν Α και Β είναι δύο γεγονότα, η πιθανότητα του Αό όταν ξέρουμε ότι το Β έχει ήδη συμβεί είναι: P [ A B ] = P[ A B] P[ B] 24 12
Πιθανότητα υπό συνθήκη ερμηνεία Το στοιχείο «το Β έχει συμβεί» σημαίνει: Ο αρχικός χώρος δειγμάτων S γίνεται Β Το Α γίνεται Α Β Το P[B] κανονικοποιεί την πιθανότητα έχει συμβεί το Β 25 Θεώρημα ολικής πιθανότητας Έστω Β1,Β 2,,Β Ν γεγονότα, χωρίς κοινά στοιχεία που η ένωση τους συμπίπτει με το χώρο δειγματοληψίας S, ονομάζονται διαμερισμός του S. Ένα γεγονός Α μπορεί να εκφραστεί ως: 26 13
Θεώρημα ολικής πιθανότητας Αφού τα Β 1,Β 2,,Β Ν είναι αλληλοαποκλειώμενα: λ λ Για αυτό 27 Θεώρημα Bayes ή κανόνας Bayes Δεδομένου του προηγούμενου διαμερισμού ύβ1,β2,,ββ2 Β Ν του χώρου S, αν συμβεί το Α, ποια είναι η πιθανότητα να συμβεί το Β j ; 28 14
Θεώρημα Bayes & Στατιστική Αναγνώριση Προτύπων Εξαιτίας της Ταξινόμηση προτύπων το θεώρημα Bayes εκφράζεται ως: όπου ω j η κλάση j και x το διάνυσμα χαρακτηριστικών Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ω j x] P[ω j ] εκ των προτέρων πιθανότητα P[ω j x] εκ των υστέρων πιθανότητα P[x ω j ] πιθανοφάνεια P[x] σταθερά κανονικοποίησης 29 Άσκηση Θεωρήστε ένα ιατρικό πρόβλημα όπου πρέπει να αποφασίσουμε αν ένας ασθενής έχει μία ασθένεια βασισμένοι σε ένα μη τέλειο τεστ: Κάποιος με την ασθένεια μπορεί να μην διαγνωσθεί (falseneg) Κάποιος χωρίς την ασθένεια δίνει θετικό (false pos) Έστω πληθυσμός 10000 όπου 1 στους 100 ασθενεί Το τεστ έχει 98% να δώσει ορθώς αρνητικό Το τεστ έχει 90% να δώσει ορθώς θετικό Κάποιος που παίρνει θετικό από το τεστ, τι πιθανότητα έχει να είναι ασθενής; 30 15
Λύση Έστω πληθυσμός 10000 όπου 1 στους 100 ασθενεί Το τεστ έχει 98% να δώσει ορθώς αρνητικό Το τεστ έχει 90% να δώσει ορθώς θετικό Κάποιος που παίρνει θετικό από το τεστ, τι πιθανότητα έχει να είναι ασθενής; σύνολο ασθενής Μη-ασθενής σύνολο 31 16