Απλοί Ταξινομητές Δύο προσεγγίσεις για το σχεδιασμό ενός ταξινομητή. 1. Θεωρητική: Αρχικά, δημιουργείται μαθηματικό μοντέλο του προβλήματος, μετά, βάση του μοντέλου, σχεδιάζεται βέλτιστος ταξινομητής. 2. Πρακτική εφαρμογή: Αρχικά, υπόθεση μιας πιθανής λύσης, από δείγματα των κατηγοριών, μετά, από πραγματικά δεδομένα, βέλτιστη αναπροσαρμογή Εμπειρική μέθοδος, πρακτικές εφαρμογές, Απλή λύση του προβλήματος, ανάλυση χαρακτηριστικών, εντοπισμός αδυναμιών, σταδιακά όσο πολύπλοκη χρειαστεί (Πρακτική εφαρμογή) Πιο απλή και εμπειρική προσέγγιση: ταξινόμηση με τη χρήση συναρτήσεων απόστασης. ΝΑΙ ΟΧΙ Slide 1
Ταξινομητές Ελάχιστης Απόστασης Είναι αποτελεσματικός για κατηγορίες καλά διαχωρίσιμες. Κάθε κατηγορία C i έχει ένα χαρακτηριστικό διάνυσμα z i Συνήθως z i το μέσο διάνυσμα των προτύπων της C i Ευκλείδεια απόσταση προτύπου x με z i το x κατατάσσεται στην κατηγορία C i εάν ισχύει: Αντί για το μικρότερο D i το μεγαλύτερο d i To x T x δεν έχει πληροφορίες, οπότε Μ d i Slide 2
Ταξινομητές Ελάχιστης Απόστασης Slide 3
Μέτρα Απόστασης Ευκλείδεια απόσταση προτύπου x με z διάστασης n Ακέραιες τιμές: Μήνας (1..12), Δυαδικά στοιχεία, κτλ. Ιπποδάμεια μετρική (Ιππόδαμος Μιλήσιος 5ος π.χ.) ή μετρική πρώτης τάξης, Manhatan distance, city block Slide 4
Μέτρα Απόστασης Slide 5
Μέτρα Απόστασης Ποιοτικά δεδομένα - δυαδική μορφή: ΝΑΙ-ΟΧΙ, 1-0 Απόσταση Hamming - δυαδικό μέτρο απόστασης EXOR Απόσταση Hamming Είναι υποπερίπτωση Ιπποδάμειας ταυτίζονται για δυαδικά διανύσματα. Οι μετρικές, ειδικές περιπτώσεις απόστασης Minkowsky s=2 Ευκλείδεια, s=1 - Ιπποδάμεια. s=infinity - απόσταση Chebysher Slide 6
Μέτρα Απόστασης Χρήσιμες ιδιότητες απόστασης Minkowsky απόσταση του Mahalanobis: στατιστικούς δείκτες C: πίνακας συνδιακύμανσης, z: μέσο χαρακτηριστικο διάνυσμα κατηγορίας C=I Mahalanobis=Ευκλείδια Slide 7
Μέτρα Ομοιότητας Μέτρα ομοιότητας: πόσο όμοια δύο πρότυπα μέτρο ομοιότητας μεγάλο, τότε απόσταση μικρή Εσωτερικό γινόμενο δύο διανυσμάτων: χρησιμοποιείται x, z κανονικοποιημένα, μήκος 1. Eσωτερικό γινόμενο εξαρτάται από την γωνία. Όρια: Όταν x, z μη κανονικοποιημένα, συνημίτονο της γωνίας: Εσωτερικό γινόμενο εκφράζει συσχέτιση μέγιστη τιμή ίδια κατεύθυνση Είναι χρήσιμο όταν υπάρχουν ομάδες οι οποίες αναπτύσσονται κατά μήκος των πρωταρχικών αξόνων. Slide 8
Μέτρα Ομοιότητας z 1 =[5,2] T z 2 =[1.5,2] T Άγνωστο πρότυπο x=[2,5] T Slide 9
Μέτρα Ομοιότητας Μετρική Tanimoto: πραγματικές και διακριτές τιμές z 1 =[5,2] T z 2 =[1.5,2] T Άγνωστο πρότυπο x=[2,5] T Μετρική Tanimoto χρησιμοποιείται κυρίως διακριτές τιμές βασίζεται στην σύγκριση δύο συνόλων. Αριθμός κοινών στοιχείων δύο διανυσμάτων δια αριθμός στοιχείων που διαφέρουν. Slide 10
ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΦΑΣΗΣ Ταίριασμα με υποδείγματα Ταίριασμα με υποδείγματα: φυσική προσέγγιση για αναγνώριση προτύπων Υποδείγματα: αντιπροσωπευτικά διανύσματα Απόσταση Hamming (δυαδικά στοιχεία) χρησιμοποιείται όταν παραλλακτικότητα κατηγοριών οφείλεται σε θόρυβο: αναγνώριση ομιλίας, απλά προβλήματα αναγνώρισης πρ. Slide 11
ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΦΑΣΗΣ Σύστημα αναγνώρισης δορυφορικής εικόνας Εφαρμογές - πολλούς κλάδους: πρόβλεψη καιρού ανίχνευση ασθενειών σε καλλιέργειες κατάστρωση Εθνικού Κτηματολογίου στρατιωτικές εφαρμογές Σύστημα προσδιορίζει τις υπάρχουσες χρήσεις γης Η διαδικασία βασίζεται στον τρόπο απορρόφησης και αντανάκλασης του ηλιακού φωτός από το έδαφος, σε διάφορες περιοχές φάσματος Χαρακτηριστικές τιμές - αντανακλώμενο φως, δύο χρωματικές μπάντες: x 1 - Υπέρυθρο: μεγάλη αντανάκλαση, περιοχές με νερό. x 2 - Κόκκινο: μεγάλη απορρόφηση, περιοχές με βλάστηση. Ζητούμενες κατηγορίες: S - Αμμώδης περιοχή H - Καλλιέργειες σανού W - Νερό (ποτάμια, λίμνες) U - Αστική περιοχή C - Καλλιέργειες καλαμποκιού F - Δασική περιοχή Slide 12
ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΦΑΣΗΣ Σύστημα αναγνώρισης δορυφορικής εικόνας W νερό τελείως διαχωρίσιμη H σανός, F δάση όχι καλά διαχωρίσιμες Ταξινομητής ελάχιστης απόστασης Σημείο 1: C Καλλιέργειες καλαμποκιού Σημείο 2: S Αμμώδης περιοχή Από Σχήμα, μάλλον, U - Αστική περιοχή Slide 13
ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΦΑΣΗΣ Σύστημα αναγνώρισης δορυφορικής εικόνας Ταξινομητής ελάχιστης απόστασης απλή προσέγγιση, χωρίς πολύπλοκους υπολογισμούς. Όμως, δεν λαμβάνονται υπόψη ιδιότητες της στατιστικής κατανομής των προτύπων. Slide 14