Αναγνώριση Προτύπων (Patter Recogitio) Μη Παραµετρικές Τεχνικές (Noparametric Techiques) Π. Τσακαλίδης ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ
Μη-Παραµετρικές Τεχνικές Προβλήµατα παραµετρικών τεχνικών: Συνήθως δεν είναι γνωστή η µορφή της κατανοµής. Στην πράξη οι περισσότερες κατανοµές είναι multimodal (περισσότερα από ένα µέγιστα), ενώ τα µοντέλα που χρησιµοποιούνται είναι uimodal. Η προσέγγιση των πολυδιάστατων κατανοµών σαν γινόµενο µονοδιάστατων δεν δουλεύει τόσο καλά στην πράξη. Μη παραµετρικές τεχνικές: Εκτίµηση της συνάρτησης κατανοµής από το µηδέν. Εκτίµηση των δεσµευµένων σ.π.π. p(x/ω i ) από τα δεδοµένα µέσω γενίκευσης του πολυδιάστατου ιστογράµµατος. Απευθείας εκτίµηση των εκ των υστέρων πιθανοτήτων P(ω i /x) και των συναρτήσεων διάκρισης.
Εκτίµηση Κατανοµών Βασίζονται στο ότι η πιθανότητα ένα δείγµα x να βρίσκεται εντός της περιοχής R δίνεται από τη σχέση P = P ( R) = x p( x ) dx x R Αυτό το ολοκλήρωµα µπορεί να προσεγγισθεί είτε από το γινόµενο της τιµής p(x) µε το εµβαδόν της περιοχής, είτε από το πλήθος των δειγµάτων που βρίσκονται εντός της περιοχής p(x*) P~k/~ P = p( x ) dx p( x*) V x R k / x* R V: Εµβαδό της περιοχής R. Στην µονοδιάστατη περίπτωση, V= µήκος του R k: Πλήθος δειγµάτων που βρίσκονται εντός της περιοχής R : Συνολικό πλήθος δειγµάτων
Εκτίµηση Κατανοµών Για την εκτίµηση της κατανοµής στο x, επιλέγουµε µια σειρά περιοχών R 1, R 2,,R, που περιέχουν το x, όπου η R i χρησιµοποιείται για i δείγµατα. Έστω V ο όγκος της R, k το πλήθος των δειγµάτων πού βρίσκονται εντός της -στής περιοχής, και p (x) η -στή εκτίµηση της p(x). Τότε, p k ( x) = p( x) V Για να είναι το k/ µια καλή εκτίµηση του P, και άρα το p (x) µια καλή εκτίµηση του p(x), θα πρέπει να ικανοποιούνται τα εξής: limv lim k lim k = 0 = = 0 p(x* w 2 ) x* R P
Εκτίµηση Κατανοµών Υπάρχουν δύο τρόποι για τη δηµιουργία ακολουθιών περιοχών R i ώστε να συγκλίνει η p (x) στην p(x): Μειώνουµε τον όγκο µιας αρχικής περιοχής ορίζοντας µια ακολουθία όγκων V ως συναρτήσεων του, π.χ. V = V1 / Εκτίµηση πυκνότητας µε τηµέθοδο των Παραθύρων Parze (Parze Widows) Ορίζουµε τοk σαν συνάρτηση του, k = οπότε το V αυξάνει έως ότου περιλάβει k δείγµατα. Εκτίµηση πυκνότητας µε τηµέθοδο των k Πλεισιέστερων Γειτόνων (k -Nearest Neighbor)
ύο Προσεγγίσεις
Παράθυρα Parze Βασίζεται στην απαρίθµηση του πλήθους δειγµάτων που βρίσκονται µέσα σε µια δεδοµένη περιοχή, µε την περιοχή να µικραίνει καθώς το πλήθος δειγµάτων αυξάνει. Το πλήθος των δειγµάτων εντός της περιοχής υπολογίζεται µε τη βοήθεια µιας συνάρτησης παραθύρου, του παραθύρου Parze. ϕ(x) 1 1 x x i p = ( x) ϕ 1/2 i= 1 V h 1/2 k 1/2 x x = ϕ h i= 1 Οόγκοςτης συνάρτησης, V =(h ) d i Συνάρτηση παραθύρου Το πλάτος της συνάρτησης Πλήθος δειγµάτων εντός της R, όπου η R έχει κέντρο x και πλάτος h
Παράθυρα Parze p ( x) 1 1 x x i 1 = ϕ = δ i 1 V h i= 1 ( x x ) ( ) = i όπου δ x ϕ V h = 1 x Το παράθυρο ϕ(.) µπορεί να είναι µια γενική συνάρτηση, όχι απαραίτητα υπερκύβος. Γιαναείναιηp (x) µια έγκυρη σ.π.π. για κάθε, θα πρέπει ϕ ( u) 0 και ϕ( u) du = 1 H p (x) είναι ένας γραµµικός συνδυασµός των ϕ(.), όπου κάθε δείγµα x i συµβάλει στην εκτίµηση της p(x) σύµφωνα µε την απόστασή του από το x. Εάν η ϕ(.) είναι η ίδια µια έγκυρη σ.π.π., τότε η p (x) θα συγκλίνει στην p(x) καθώς το αυξάνει. Μια τυπική επιλογή της ϕ(.) είναι σωστά µαντέψατε η Γκαουσσιανή! Η p(x) υπολογίζεται απλά σαν µία υπέρθεση Γκαουσσιανών, όπου κάθε Γκαουσσιανή είναι επικεντρωµένη στο αντίστοιχο δείγµαεκπαίδευσης. Η παράµετρος h είναι η διακύµανση της Γκαουσσιανής!!! u
Παράθυρα Parze Κατανοµή που πρέπει να εκτιµηθεί Gaussias µε κέντρα τα δεδοµένα εκπαίδευσης σ = h x 1 x 2 x 3 Τιµές δεδοµένων εκπαίδευσης
δ 1 x V h d ( x) = ϕ, V = h Επίδραση του Πλάτους Παραθύρου, h Η παράµετρος h επιδρά και στο πλάτος του παραθύρου αλλά και στο µέτρο του: Όταν το h είναι µεγάλο (µικρό), το παράθυρο είναι πλατύ (στενό), το µέτρο του παραθύρου είναι µικρό (µεγάλο) και το x πρέπει να είναι µακρυά (κοντά) από το x i πρίν η τιµή της συνάρτησης δ (x-x i ) αλλάξει αρκετά από την µέγιστη τιµή της δ (0).
Επίδραση του Πλάτους Παραθύρου, h Πώς το πλάτος του παραθύρου επιδρά στην εκτίµηση της σ.π.π. p(x) : Όταν το h είναι µεγάλο, η εκτιµήτρια p (x) είναι η υπέρθεση πλατιών συναρτήσεων επικεντρωµένων στα δείγµατα εκπαίδευσης και αποτελεί µία οµαλή, out-of-focus εκτίµηση του p(x), χωρίς µεγάλη ανάλυση. Όταν το h είναι µικρό, η p (x) είναι η υπέρθεση στενών συναρτήσεων, µία θορυβώδης, erratic or oisy εκτίµηση του p(x).
Μέση τιµή της τ.µ. p (x): Ιδιότητες Σύγκλισης της p (x) είναι η συνέλιξη της p(x) µε τη συνάρτηση παραθύρου, δηλαδή είναι µία «θαµπή» (blurred) παραλλαγή της p(x). Ισχύει ότι, δ ιασπορά της τ.µ. p (x): var ( x) = E[ p ( x) ] = δ ( x v) p( v) dv p ( x v) ( x v) οπότε p ( x) p( x) V δ 0 2 2 ( p ( x) ) ϕ p( v) dv p ( x) 1 1 = V V x v h Εποµένως παίρνουµε µικρή διασπορά για µεγάλα V! Αλλά στο όριο, καθώς το if, µπορούµε να µειώσουµε το V πρός το 0 και η διασπορά να πηγαίνει και αυτή στο 0, αρκείναισχύειότιv if. υνατές επιλογές: V = V1 ή V = V1 1 l sup ( ϕ( ) ) p ( x) V
Παράδειγµα Παραθύρων Parze ( ) 2 1 2 2 1 ; 1 1 ) ( u i i e u h x x h x p = = = π ϕ ϕ Καθώς το τείνει στο άπειρο, η εκτίµηση γίνεται ακριβής, ανεξάρτητα από το µήκος του παραθύρου.
Παράδειγµα Παραθύρων Parze ( ) 2 1 2 2 1 ; 1 1 ) ( u u u x x T e h h x p i i = = = π ϕ ϕ
Καθώς το τείνει στο άπειρο, η εκτίµηση γίνεται ακριβής, ανεξάρτητα από το µήκος του παραθύρου. Παράδειγµα Παραθύρων Parze
Ταξινόµηση µε Χρήση Παραθύρων Parze Εκτίµηση της πιθανοφάνειας p(x ω i ) από τα δεδοµένα, χρησιµοποιώντας τη µέθοδο παραθύρων Parze, και χρήση του κανόνα του Bayes για την ταξινόµηση, δηλ. υπολογισµός των εκ των υστέρων πιθανοτήτων, και επιλογή της κλάσης µε την µεγαλύτερη πιθανότητα. Πλεονεκτήµατα: εν προϋποθέτει καµία γνώση για το πρόβληµα, εκτός από την ύπαρξη του συνόλου δειγµάτων εκπαίδευσης! Μειονεκτήµατα: Απαιτεί (πολλά) d δεδοµένα για να εξασφαλίσει ότι η εκτίµηση συγκλίνει στην πραγµατική κατανοµή. Επιπλέον, καθώς η διάσταση αυξάνει, η απαίτηση για (πολλά) d δεδοµένα γίνεται ( (πολλά) πολλά () )!!!! Πρόβληµα διάστασης(curse of dimesioality)! Ο µόνος τρόπος για την αντιµετώπιση του είναι η ύπαρξη εκ των προτέρων, σωστής πληροφορίας για τα δεδοµένα! Το λάθος εκπαίδευσης µπορεί να γίνει αρκούντως µικρό (ακόµα και µηδέν), επιλέγοντας αρκετά µικρά παράθυρα! Παρ όλα αυτά, δεν είναι επιθυµητό, επειδή σίγουρα θα προκαλέσει overfittig (υπερταίριασµα) και θα µειώσει την απόδοση στα νέα αταξινόµητα δεδοµένα ελέγχου (test data).
Ταξινόµηση µε Χρήση Παραθύρων Parze Πολύ µικρό παράθυρο Πολύ µικρή διαµέριση του χώρου χαρακτηριστικών, πράγµα µη επιθυµητό! Μεγαλύτερο παράθυρο Υψηλότερο λάθος κατά την εκπαίδευση, αλλά καλύτερη απόδοση γενίκευσης! Καλύτερη απόδοση γενίκευσης: Επιθυµητή ιδιότητα. Στην πράξη, αυτό που θα θέλαµε είναι παράθυρα µικρού πλάτους στις περιοχές µε υψηλή πυκνότητα δεδοµένων, και παράθυρα µεγάλου πλάτους στις περιοχές όπου τα δεδοµένα είναι αραιά! Πώς µπορεί να επιτευχθεί αυτό?
Πιθανοτικά Νευρωνικά ίκτυα Probabilistic Neural Networks (PNN) Είσοδος: {x k ; k=1,,d} d κόµβοι, καθένας αντιστοιχεί σε ένα χαρακτηριστικό. w jk : βάρη που συνδέουν την k στή είσοδο µε τον j στό κόµβο κρυφού επιπέδου (κόµβο προτύπου). Κρυφό επίπεδο: κόµβοι, καθένας αντιστοιχεί σε ένα πρότυπο, δηλαδή δείγµαεκπαίδευσης, j=1,2,,. Επίπεδο εξόδου: c κόµβοι, καθένας παριστά µια κλάση. a ji w jk Αραιή σύνδεση Πλήρης σύνδεση a ji : βάρη που συνδέουν j στό κρυφό κόµβο µε τον i στό κόµβο εξόδου, i=1,2,,c k=1,2,,d d-διάστατο διάνυσµα εισόδου x
PNN-Εκπαίδευση Εκπαίδευση Το j-στό δείγµα εκπαίδευσης (πρότυπο) κανονικοποιείται να έχει µέτρο µονάδα. Τοποθετείται στους κόµβους εισόδου. Τα βάρη w jk ορίζονται ως w jk =x jk. Μία µοναδική σύνδεση µε βάρος a ji =1 γίνεται από τον πρώτο κρυφό κόµβο σε εκείνο τον κόµβο του επιπέδου εξόδου που αντιστοιχεί στην (γνωστή) κλάση του x j. a ji w jk j=0, a ji =0 for j=1,,; i=1,,c k=1,2,,d d-διάστατο διάνυσµα εισόδου x a ji 1
PNN-Ταξινόµηση Κάθε κόµβος προτύπου δηµιουργεί το εσωτερικό γινόµενο του διανύσµατος βαρών του και της κανονικοποιηµένης εισόδου x για να υπολογίσει το et J =w t x, και να αποδώσει e [(etj 1) /σ2]. x 1 x d w jk J ( et e J ) ( 2 ) 1 σ Πλάτος Γκαουσσιανού παραθύρου Parze Συνάρτηση ενεργοποίησης Κάθε κόµβος κλάσης αθροίζει τα αποτελέσµατα των κόµβων προτύπων που συνδέονται µε αυτόν. Αυτό εξασφαλίζει ότι η ενεργοποίηση κάθε κλάσης παριστά την εκτίµηση σ.π.π. µε κυκλικά συµµετρικό Gaussia παράθυρο Parze µε πίνακα συνδιασποράς σ 2 I d d, όπου I είναι ο µοναδιαίος πίνακας. et 1 a jc C et a ki g i g i
Εκτίµηση k -Πλησιέστερων Γειτόνων k -Nearest Neighbor (ΚΝΝ) Αντί να επιλέγουµετο πλάτος του παραθύρου σαν συνάρτηση του πλήθους δειγµάτων ( V = V1 / ), γιατί να µην το επιλέγουµε ως µία συνάρτηση των δεδοµένων εκπαίδευσης; Θυµηθείτε ότι θα θέλαµε ένα µεγάλο παράθυρο στις περιοχές µε λίγα δεδοµένα, και ένα πιο στενό παράθυρο όπου είναι πυκνή η παρουσία δεδοµένων! Αλγόριθµος εκτίµησης k-πλησιέστερων γειτόνων: Επιλέγουµε µια αρχική περιοχή γύρω από το x όπου θα θέλαµε να υπολογίσουµε την p(x) Αυξάνουµε το παράθυρο µέχρι ένα προκαθορισµένο πλήθος k δειγµάτων να περιληφθεί εντός του παραθύρου. Αυτοί είναι οι k πλησιέστεροι γείτονες του x. k Υπολογίζουµε την πυκνότητα µε βάση την τιµή V Αναγκαίες και ικανές συνθήκες για τη σύγκλιση της p (x): lim k = ; lim k = 0
KNN Αν επιλέξουµε k = και υποθέσουµε ότι η p (x) αποτελεί µία αρκετά καλή προσέγγιση της p(x), τότε V 1 ( p( x) ). Εποµένως, η περιοχή V έχει πάλι τη µορφή V 1 όπου όµως η αρχική περιοχή V 1 καθορίζεται από την σ.π.π. p(x) των δεδοµένων και δεν αποτελεί µια αυθαίρετη επιλογή. Επίσης, για κάθε, το µέγεθος της περιοχής V είναι συνάρτηση του x, δηλ. V = V (x).
Πώς να επιλέξουµε το k Προσέξτε ότι καθώς το k αυξάνει, αυξάνει και η ακρίβεια της εκτίµησης! Συνήθως στα προβλήµατα ταξινόµησης, προσαρµόζουµε το k (ή το h για τα Parze widows), µέχρι ο ταξινοµητής να δώσει το χαµηλότερο λάθος για το σύνολο αξιολόγησης (validatio test dataset).
Ταξινόµηση µε Βάση τον KNN Ο KNN µπορεί να χρησιµοποιηθεί για να εκτιµήσει τις εκ των υστέρων πιθανότητες: Στην πραγµατικότητα, οι εκ των υστέρων πιθανότητες σε κάθε µικρή περιοχή του x είναι το ποσοστό των δειγµάτων εντός της περιοχής που έχουν ετικέτα ω i. : συνολικός αριθµός προτύπων όλων των κλάσεων k i : αριθµός προτύπων της κλάσης i στην περιοχή γύρω από το x k: συνολικός αριθµός προτύπων όλων των κλάσεων στην περιοχή γύρω από το x k k p p P V k p i c j j i i i i = = = =1 ), ( ), ( ) ( ), ( ω ω ω ω x x x x
Ταξινοµητής KNN Για την ταξινόµηση ενός δεδοµένου δείγµατος x, Μεταξύ των διανυσµάτων εκπαίδευσης, προσδιορίζουµε τους k πλησιέστερους γείτονες του ανεξάρτητα από την κλάση στην οποία ανήκουν, (όπου το k είναι περιττός για ταξινόµηση σε µία από δύο κλάσεις). Προσδιορίζουµε πόσα από δείγµατα (έστω k i ) ανήκουν στην τάξη i, k k i i = Ταξινοµούµε το x στην κλάση µε το µεγαλύτερο πλήθος k i δειγµάτων!
Ταξινοµητής Πλησιέστερου Γείτονα Οπιοαπλός ταξινοµητής KNN είναι αυτός µε k=1! Αυτός ο ταξινοµητής αντιστοιχίζει το x στην τάξη του πλησιέστερου γείτονά του. Είναι καλός αυτός ο ταξινοµητής? Ο ΝΝ ταξινοµητής οδηγεί στο διαχωρισµό του χώρου ως ενός µωσαϊκού Vorooi, όπου κάθε κελί παίρνει την ετικέτα της κλάσης την οποία περιέχει. εδοµένου απείρου αριθµού δειγµάτων εκπαίδευσης, η πιθανότητα λάθους ταξινόµησης έχει ως πάνω όριο, το διπλάσιο της πιθανότητας σφάλµατος του Μπεϋζιανού ταξινοµητή (ισχύει για µικρές πιθανότητες λάθους).
Μείωση Υπολογιστικού Φόρτου Υπολογισµός µερικών αποστάσεων (partial distace) Χρήση ενός υποσυνόλου r από τις d διαστάσεις, για τον υπολογισµό της απόστασης του δείγµατος προς ταξινόµηση από τα δείγµατα εκπαίδευσης: D r r = k = 1 ( a, b) ( a b ) Χρήση δένδρων (search tree) ηµιουργία δένδρων όπου τα δείγµατα εκπαίδευσης (πρότυπα) συνδέονται επιλεκτικά έτσι ώστε για την ταξινόµηση νέου δείγµατος, να απαιτείται ο υπολογισµός της απόστασής του από ορισµένα κοµβικά πρότυπα (etry or root) και τα συνδεδεµένα πρότυπα αυτών. ιαγραφή ή περικοπή (editig, pruig, or codesig) ιαγραφή προτύπων που περιβάλλονται από πρότυπα της ίδιας κλάσης. 1. Κατασκεύασε το διάγραµµα Vorooi των αρχικών προτύπων 2. Για κάθε πρότυπο, αν κάποιος γείτονάς του δεν ανήκει στην ίδια κλάση µε αυτό, τσέκαρέ το. 3. ιέγραψε τα µή τσεκαρισµένα πρότυπα και κατασκεύασε το νέο διάγραµµα Vorooi k k 2 1/ 2
Μετρικές και ΚΝΝ Ταξινόµηση Ιδιότητες: Noegativity: reflexivity: symmetry: triagle iequality: Ευκλείδια Απόσταση: D ( a,b) 0 D( ( a, b) = 0 iff a = b D a, b) = D( b, a) D( a, b) + D( b, c) D( a,c) L d 2 2( a, b) ( ) = a k b k k = 1 1/ 2 Mikowski Μετρική: L p ( a,b) d = k = 1 a k b k p 1/ p Mahata Απόσταση: Chess-board Απόσταση: L L d ( a, ) = 1 b k = 1 a k b k ( a,b) = max ( a b ) k = 1,..., d k k Απόσταση 1 από το κέντρο χρησιµοποιώντας κάθε µία από τις µετρικές L p.
Μετρικές και ΚΝΝ Ταξινόµηση Όταν ο χώρος των προτύπων µετασχηµατίζεται πολλαπλασιάζοντας κάθε χαρακτηριστικό µε κάποια σταθερά, οι αποστάσεις στο µετασχηµατισµένο χώρο µπορεί να είναι σηµαντικά διαφορετικές από τις αρχικές αποστάσεις. Προφανώς αυτό επηρεάζει την απόδοση του ΚΝΝ ταξινοµητή. Είναι σηµαντική η εύρεση µετρικών που να µην επηρεάζονται από κάποιους βασικούς µετασχηµατισµούς όπως µετατόπιση (shift), κλιµάκωση (scalig), περιστροφή (rotatio), πάχος γραµµής (lie thickess), στρέβλωση (shear). Παράδειγµα: oπτική αναγνώριση χαρακτήρων (optical character recogitio OCR). ΗΕυκλείδια απόσταση µεταξύ ενός 5 και ενός µετατοπισµένου 5 κατά s pixels. Για µετατοπίσεις µεγαλύτερες από 1 pixel, η απόσταση µεταξύ του αρχικού 5 και του µετατοπισµένου 5 είναι µεγαλύτερη από αυτήν του αρχικού 5 και ενός 8, και εποµένως ο NN ταξινοµητής που βασίζεται στην Ευκλείδια απόσταση πραγµατοποιεί λάθος ταξινόµηση.
Εφαπτοµένη Απόσταση (Taget Distace) Έστω r µετασχηµατισµοί, α i. Έστω x ένα από τα πρότυπα. Μετασχηµατισµένο πρότυπο, F i (x ;α i ). Εφαπτόµενο ιάνυσµα (taget vector): TV i =F i (x ;α i )-x. Πίνακας εφαπτοµένων (taget matrix): Τ dxr =[TV 1,..., TV r ]. Χώρος εφαπτοµένων (taget space): Ο χώρος που ορίζεται από τα r γραµµικά ανεξάρτητα εφαπτόµενα διανύσµατα TV i που περνούν από το x. Αποτελεί µία γραµµική προσέγγιση του χώρου των µετασχηµατισµένων x. Εφαπτοµένη απόσταση (taget distace): D ta ( x, x) = mi ( x + Τw) w [ x ] Είναι η ευκλείδια απόσταση του x από το χώρο εφαπτοµένων του x
ίκτυα Μειωµένης Ενέργειας Coulomb Reduced Coulomb Eergy (RCE) Networks To RCE δίκτυο ρυθµίζει κατά την εκπαίδευση το πλάτος του παραθύρου γύρω από κάθε πρότυπο σύµφωνα µε την απόσταση του από το πλησιέστερο πρότυπο µιας διαφορετικής κλάσης. Κατά την εκπαίδευση, κάθε πρότυπο εισάγει ένα νέο κύκλο και οι ακτίνες των κύκλων προσαρµόζονται ώστε να µην περιέχουν πρότυπα διαφορετικών κλάσεων. Οι µαύροι κύκλοι παριστούν την κλάση 1, οι ροζ κύκλοι την τάξη 2, ενώ οι σκούρες κόκκινες περιοχές παριστούν ασαφείς περιοχές όπου δεν µπορεί να ληφθεί απόφαση.