Β. Γάτος, Ψηφιακή Επεξεργασία και Αναγνώριση Εγγράφων

Μάθηµα 8 Ταξινόµηση Το στάδιο της ταξινόµησης αφορά την τελική αναγνώριση των χαρακτήρων και αντιστοίχισή τους σε κάποια ASCII κωδικοποίηση. Αποτελείται από: την φάση της εκπαίδευσης όπου ένα σύνολο χαρακτήρων κανονικοποιείται ως προς το µέγεθος, µετατρέπεται σε διανύσµατα χαρακτηριστικών και συνδυάζεται µε την αντίστοιχη ASCII κωδικοποίησή του για την εκπαίδευση του ταξινοµητή αναγνώρισης (σχήµα 8.1α) και από την φάση της αναγνώρισης, όπου κάθε περιοχή της εικόνας που έχει εντοπιστεί ότι περιέχει χαρακτήρα, κανονικοποιείται, µετατρέπεται σε διάνυσµα χαρακτηριστικών και στη συνέχεια αντιστοιχίζεται σε ένα από τους γνωστούς χαρακτήρες µε τη βοήθεια του ταξινοµητή αναγνώρισης (σχήµα 8.1β). (α) (β) Σχήµα 8.1. Οπτική αναγνώριση χαρακτήρων. (α) Στάδιο εκπαίδευσης. (β) Στάδιο αναγνώρισης. Παραδείγµατα ταξινοµητών που χρησιµοποιούνται για την οπτική αναγνώριση των χαρακτήρων είναι τα δυαδικά δένδρα απόφασης, ο ταξινοµητής Κ πλησιέστερων γειτόνων (ΚΝΝ) και τα νευρωνικά δίκτυα. Ιδιαίτερο ενδιαφέρον έχει και ο συνδυασµός διαφόρων ταξινοµητών για την βελτίωση του τελικού ποσοστού αναγνώρισης.

8.1 υαδικά δένδρα απόφασης Τα δυαδικά δένδρα απόφασης έχουν την δοµή δένδρου απόφασης όπου κάθε κόµβος έχει δύο διακλαδώσεις (σχήµα 8.2). Ένα πρότυπο P µε διάνυσµα χαρακτηριστικών F(f 1,f 2,,f ), f є{0,1} οδηγείται στην είσοδο του ταξινοµητή και κατευθύνεται σε κόµβο τερµατισµού, ανάλογα µε τα δυαδικά χαρακτηριστικά f, όπου αναγνωρίζεται στην κλάση c. Για την δηµιουργία του δυαδικού δένδρου θα πρέπει να επιλέξουµε τα δυαδικά χαρακτηριστικά που θα εξάγουµε από κάθε χαρακτήρα και να αποφασίσουµε πιο δυαδικό χαρακτηριστικό θα χρησιµοποιηθεί σε κάθε κόµβο ώστε να γίνει βέλτιστη κατάστρωση του δένδρου. Σχήµα 8.2. υαδικό δένδρο απόφασης. υαδικά χαρακτηριστικά Τα δυαδικά χαρακτηριστικά που χρησιµοποιούνται συνήθως για την δηµιουργία του δυαδικού δένδρου απόφασης είναι τα παρακάτω: Σηµεία τοµής µε ευθείες. Αν µετρήσουµε τις εναλλαγές 01 και 10 στις οριζόντιες και κάθετες µεσοκάθετους στο κανονικοποιηµένο παράθυρο του χαρακτήρα τότε τα σηµεία τοµής µε τις δύο µεσοκάθετους προκύπτουν αν διαιρέσουµε τις εναλλαγές δια 2 (σχήµα 8.3). Ο αριθµό των σηµείων τοµής µε τις µεσοκάθετους χρησιµοποιείται σαν χαρακτηριστικό (Impedovo 1991) το οποίο είναι αναλλοίωτο κυρίως ως προς τον θόρυβο, την µετατόπιση, το µέγεθος και την παραµόρφωση. Συνήθως, τα δυαδικά χαρακτηριστικά που µπορούν να προκύψουν είναι: Αριθµός σηµείων τοµής = 1 ή 2 ή >2. Σχήµα 8.3 Υπολογισµός των σηµείων τοµής µε τις οριζόντιες και κάθετες µεσοκάθετους.

Ύπαρξη οπών. Ο αριθµό των οπών χρησιµοποιείται σαν χαρακτηριστικό το οποίο είναι αναλλοίωτο ως προς τους περισσότερους δυνατούς µετασχηµατισµούς του χαρακτήρα. Συνήθως, τα δυαδικά χαρακτηριστικά που µπορούν να προκύψουν είναι: Αριθµός οπών = 0 ή 1 ή >1. Θέση στην γραµµή κειµένου. Αφού εντοπιστούν οι τρεις ζώνες (πάνω, µεσαία, κάτω) από τις οποίες αποτελείται η γραµµή του κειµένου (σχήµα 8.4), υπολογίζουµε αν ο χαρακτήρας έχει τµήµα του σε κάθε µία από αυτές τις ζώνες (Gatos 1997). Τα όρια των τριών ζωνών των γραµµών κειµένου αντιστοιχούν στα τοπικά ελάχιστα της οριζόντιας προβολής της γραµµής κειµένου. Η θέση του χαρακτήρα ως προς την γραµµή κειµένου χρησιµοποιείται σαν χαρακτηριστικό το οποίο είναι αναλλοίωτο ως προς τους περισσότερους δυνατούς µετασχηµατισµούς του χαρακτήρα. Σχήµα 8.4 Οι τρεις ζώνες από τις οποίες αποτελείται η γραµµή κειµένου. Μήκος περιγράµµατος. ηµιουργούνται δυαδικά χαρακτηριστικά αφού εντοπιστούν οι επικρατέστερες τιµές των περιγραµµάτων των χαρακτήρων εκπαίδευσης. Θέση και αριθµός σηµείων σκελετού. Η θέση και ο αριθµός των τελικών σηµείων και των σηµείων διακλάδωσης του σκελετού του χαρακτήρα (Cho 2003) (σχήµα 8.5) χρησιµοποιούνται σαν δυαδικά χαρακτηριστικά (Gatos 1997). Συνήθως χρησιµοποιείται η ύπαρξη των σηµείων αυτών στα 4 τεταρτηµόρια του χαρακτήρα. Εναλλακτικά, βρίσκουµε τις επικρατέστερες θέσεις των σηµείων αυτών για το σύνολο των χαρακτήρων εκπαίδευσης και στη συνέχεια υπολογίζουµε αν υπάρχει αντίστοιχο σηµείο σε µικρή απόσταση από αυτές. Για να υπολογίσουµε τις επικρατέστερες θέσεις των σηµείων, δηµιουργούµε έναν πίνακα συσσώρευσης για τις τιµές που προκύπτουν από το σύνολο των χαρακτήρων εκπαίδευσης και στη συνέχεια εντοπίζουµε τα τοπικά ελάχιστα του πίνακα συσσώρευσης (σχήµα 8.6). Σχήµα 8.5 Εντοπισµός τελικών σηµείων και σηµείων διακλάδωσης στον σκελετό των χαρακτήρων.

(α) (β) Σχήµα 8.6 Εντοπισµός των επικρατέστερων θέσεων των τελικών σηµείων του σκελετού των χαρακτήρων. (α) Πίνακας συσσώρευσης για τα τελικά σηµεία. (β) Οι επικρατέστερες θέσεις των τελικών σηµείων. Βέλτιστη κατάστρωση του δυαδικού δένδρου απόφασης Για τη βέλτιστη κατάστρωση του δυαδικού δένδρου χρειαζόµαστε ένα κριτήριο για να διαλέξουµε σε κάθε κόµβο το δυαδικό χαρακτηριστικό µε τη µέγιστη διακριτική ικανότητα των διαφορετικών κλάσεων του συνόλου εκπαίδευσης, καθώς επίσης και ένα κριτήριο για να αποφασίσουµε αν ένας κόµβος είναι τελικός ή θα πρέπει να επεκτείνουµε το δένδρο σε επόµενο επίπεδο (Shlen 1988). Το χαρακτηριστικό που επιλέγουµε σε κάθε κόµβο είναι αυτό που µεγιστοποιεί την πληροφορία για την διάκριση των διαφόρων κλάσεων του συνόλου εκπαίδευσης. Έναν κόµβο µπορούµε να τον ορίσουµε σαν κόµβο τερµατισµού όταν κανένα χαρακτηριστικό δεν έχει διακριτική ικανότητα στον συγκεκριµένο κόµβο. Η πληροφορία που κερδίζουµε για την διάκριση των κλάσεων λόγω της τοποθέτησης ενός χαρακτηριστικού σε έναν κόµβο, ορίζεται από την µείωση της εντροπίας η οποία υπολογίζεται από τη συχνότητα συνεισφοράς των διάφορων κλάσεων των προτύπων που φτάνουν στο συγκεκριµένο κόµβο.

Αν n k ο αριθµός των προτύπων της κλάσης k του συνόλου εκπαίδευσης σε ένα κόµβο, τότε η υπολογιζόµενη εντροπία είναι: E = K k = 1 nk nk log 2 ( ) (8.1) N N όπου Ν=n 1 +n 2 + +n k και Κ ο αριθµός των κλάσεων. Αν Ε 1 και Ε 2 είναι η υπολογιζόµενη εντροπία των δύο οµάδων προτύπων M και Ν-Μ οι οποίες δηµιουργούνται λόγω της τοποθέτησης ενός χαρακτηριστικού σε ένα κόµβο, τότε η κερδισµένη πληροφορία λόγω του συγκεκριµένου χαρακτηριστικού είναι: ME1 ( N M ) E = E N N L 2 (8.2) Για να βρούµε το βέλτιστο χαρακτηριστικό σε έναν κόµβο, υπολογίζουµε τη συνάρτηση συχνότητας συνεισφοράς των προτύπων εκπαίδευσης για όλα τα δυνατά χαρακτηριστικά και για τις Κ δυνατές κλάσεις. Στο παράδειγµα του σχήµατος 8.7 έχουµε ένα σύνολο εκπαίδευσης το οποίο αποτελείται από 9 πρότυπα τα οποία ανήκουν σε 3 κλάσεις και έχουν από 3 δυαδικά χαρακτηριστικά (αριθµός οπών = 1, αριθµός οπών =2, ύπαρξη τελικού σηµείου στο κάτω αριστερό τεταρτηµόριο). Η εντροπία στον αρχικό κόµβο του δένδρου είναι: 3 3 2 2 4 4 E = log2 ( ) = 1,53 9 9 9 9 9 9 (8.3) Αν τοποθετήσω στον πρώτο κόµβο το πρώτο δυαδικό χαρακτηριστικό (αριθµός οπών = 1), τότε έχω: 2 2 1 1 E 1 = log2( ) = 0,92 3 3 3 3 E 1 1 1 1 4 4 = log2( ) 1,25 6 6 6 6 6 6 2 = (8.4) 3* 0,92 6*1,25 L = 1,53 = 0,39 9 9 Σχήµα 8.7 Σύνολο εκπαίδευσης από 9 πρότυπα τα οποία ανήκουν σε 3 κλάσεις και έχουν από 3 δυαδικά χαρακτηριστικά. Αν τοποθετήσω στον πρώτο κόµβο το δεύτερο δυαδικό χαρακτηριστικό (αριθµός οπών = 2), τότε έχω:

1 1 E = log2( ) 1 1 1 = 0 E 3 3 1 1 4 4 = log2( ) 1,41 8 8 8 8 8 8 2 = (8.5) 1*0 8*1,41 L = 1,53 = 0,27 9 9 Ενώ, αν τοποθετήσω στον πρώτο κόµβο το τρίτο δυαδικό χαρακτηριστικό (ύπαρξη τελικού σηµείου στο κάτω αριστερό τεταρτηµόριο), τότε έχω: 3 3 1 1 2 2 E 1 = log2( ) = 1,46 6 6 6 6 6 6 E 1 1 2 2 = log2( ) 3 3 3 3 2 = 0,92 (8.6) 6*1,46 3* 0,92 L = 1,53 = 0,25 9 9 Άρα για τον πρώτο κόµβο επιλέγω το πρώτο δυαδικό χαρακτηριστικό (αριθµός οπών = 1) το οποίο δίνει την µεγαλύτερη κερδισµένη πληροφορία L. Το δυαδικό δένδρο που δηµιουργείται φαίνεται στο σχήµα 8.8. Σχήµα 8.8 Το δυαδικό δένδρο µετά την επιλογή του δυαδικού χαρακτηριστικού για τον αρχικό κόµβο. Για να επιλέξω το επόµενο δυαδικό χαρακτηριστικό στον δεξί κόµβο ώστε να διαχωριστούν οι χαρακτήρες Α 1, Α 2 και Β 2, υπολογίζω την εντροπία στον συγκεκριµένο κόµβο: 2 2 1 1 E = log ( ) 3 3 3 3 2 = 0,92 (8.7) Αν τοποθετήσω στον κόµβο αυτόν το δυαδικό χαρακτηριστικό «αριθµός οπών = 2», τότε έχω: E 1 = 0 2 2 1 1 E 2 = log2( ) = 0,92 3 3 3 3

L = 0 3* 0,92 0,92 = 0 3 3 (8.8) Αν τοποθετήσω στον κόµβο αυτόν το δυαδικό χαρακτηριστικό «ύπαρξη τελικού σηµείου στο κάτω αριστερό τεταρτηµόριο», τότε έχω: 2 2 E = log2( ) 2 2 1 = 0 E 1 1 = log2( ) 1 1 2 = 0 (8.9) L = 2*0 3*0 0,92 = 0,92 3 3 Άρα για τον κόµβο αυτόν επιλέγω το δυαδικό χαρακτηριστικό «ύπαρξη τελικού σηµείου στο κάτω αριστερό τεταρτηµόριο» το οποίο δίνει την µεγαλύτερη κερδισµένη πληροφορία L. Το δυαδικό δένδρο που δηµιουργείται φαίνεται στο σχήµα 8.9. Σχήµα 8.9 Το δυαδικό δένδρο µετά την επιλογή των δύο δυαδικών χαρακτηριστικών για τους δύο πρώτους κόµβους. 8.2 Κ κοντινότεροι γείτονες (ΚΝΝ) Ο ταξινοµητής Κ - κοντινότερων γειτόνων (ΚNN) βασίζεται στον υπολογισµό των Κ κοντινότερων προτύπων και στην αναζήτηση της συχνότερα εµφανιζόµενης κλάσης των Κ αυτών προτύπων (Theodords 1997). Πιο συγκεκριµένα, για να αναγνωρίσω το πρότυπο Τ: BHMA 1: Υπολογίζω τα K κοντινότερα στο Τ πρότυπα ανεξάρτητα από την κλάση που ανήκουν (K: µονός αριθµός). ΒΗΜΑ 2: Βρίσκω τον αριθµό των προτύπων k που ανήκουν στην κλάση. ( k = K ) BHMA 3: Το πρότυπο Τ ταξινοµείται στην κλάση µε τον µεγαλύτερο αριθµό προτύπων κ.

Στο παράδειγµα του σχήµατος 8.10, ο ΚΝΝ µε κ=5 ταξινοµεί τον χαρακτήρα x σαν Β αν και το κοντινότερο πρότυπο του είναι το Α. Αυτό συµβαίνει γιατί από τους 5 κοντινότερους γείτονες, οι 3 είναι Β (κ Β =3) και οι δύο Α (κ Α =2). Σχήµα 8.10 ΚΝΝ ταξινοµητής µε κ=5. κ Α =2, κ Β =3, άρα ο χαρακτήρας x ταξινοµείται σαν Β. Για την µέτρηση της απόστασης συνήθως χρησιµοποιείται η Lk norm: d L ( a, b) = ( a b ) (8.10) k = 1 k 1/ k Ανάλογα µε την τιµή του κ, η Lk norm γίνεται η Manhattan CtyBlock απόσταση: η ευκλείδεια απόσταση: d L1 ( a, b) = a b (8.11) = 1 η µέγιστη απόσταση: d L2 ( a, b) = a b (8.12) = 1 2 L ( a, b) = max a b (8.13) Η πιο συνηθισµένη απόσταση για την ταξινόµηση των χαρακτήρων είναι η ευκλείδεια απόσταση. 8.3 Νευρωνικά ίκτυα Τα νευρωνικά δίκτυα είναι συστήµατα επεξεργασίας πληροφοριών (υπολογιστικά συστήµατα), που η δοµή τους και η λειτουργία τους εµπνέονται από τις τρέχουσες γνώσεις µας για τα βιολογικά νευρικά συστήµατα. Τα βασικά χαρακτηριστικά των βιολογικών νευρωνικών δικτύων είναι τα ακόλουθα:

Αποτελούνται από κύτταρα (νευρώνες) 10 11 νευρώνες στον ανθρώπινο εγκέφαλο Κάθε νευρώνας συνδέεται µε άλλους µε τη βοήθεια µερικών χιλιάδων συνάψεων 10 15 συνάψεις στον ανθρώπινο εγκέφαλο Η µετάδοση σηµάτων µεταξύ των νευρώνων (που ισοδυναµεί µε την µετάδοση πληροφορίας) είναι χηµικής φύσεως Χηµικές ουσίες (µεταδότες) εκλύονται από τη µια πλευρά της σύναψης Αυτό συµβάλλει στην αύξηση ή µείωση του ηλεκτρικού δυναµικού µέσα στον νευρώνα που δέχεται την πληροφορία Αν το δυναµικό αυξηθεί πέρα από ένα όριο, ο νευρώνας ενεργοποιείται: Παράγεται παλµός περιορισµένης διάρκειας, που µε τη σειρά του µεταδίδεται µέσω των συνάψεων σε άλλους νευρώνες Πλαστικότητα: Κατά τις περιόδους της µάθησης τροποποιείται η ισχύς των συνάψεων (η ικανότητά τους να µεταδίδουν σήµατα) και επιπλέον δηµιουργούνται νέες συνάψεις Μεγάλο πλήθος νευρώνων + υψηλή παραλληλία = Μεγάλη ταχύτητα επεξεργασίας Στο σχήµα 8.11 δίδεται παράδειγµα βιολογικού νευρωνικού δικτύου όπου φαίνονται τα βασικά µέρη του νευρώνα καθώς και η τροποποίηση της ισχύς των συνάψεων. (α) (β) (γ) Σχήµα 8.11 Βιολογικά νευρωνικά δίκτυα. (α) Νευρώνες. (β) Τα τµήµατα του νευρώνα. (γ) Τροποποίηση της ισχύς των συνάψεων. Τα αρχικά βήµατα για την ανάπτυξη των τεχνιτών νευρωνικών δικτύων έγιναν στις αρχές της δεκαετίας του 1940 µε µία εργασία των McCulloch και Ptts, οι οποίοι ασχολήθηκαν µε θέµατα υπολογισµών και αναπαράστασης. Η µεγάλη συνεισφορά της λειτουργίας των βιολογικών νευρωνικών δικτύων έγινε από τον Hebb, ο οποίος πρότεινε ότι η µάθηση σε τέτοια δίκτυα είναι αποτέλεσµα του σχηµατισµού πολλών οµάδων νευρώνων και βασίζεται στην ισχύ των συνδέσµων µεταξύ νευρώνων οι οποίοι ενεργοποιούνται αυτόµατα. Πρωτοπόρα εργασία για την µάθηση των νευρωνικών δικτύων έγινε από τον Rosenblatt στα τέλη της δεκαετίας του 50, ο οποίος εισήγαγε τα Perceptrons µοντέλα και έδειξε πειραµατικές µελέτες ότι έχουν την ικανότητα µάθησης. Η βασική επεξεργαστική µονάδα ενός νευρωνικού δικτύου είναι ο τεχνητός νευρώνας (σχήµα 8.12). Κάθε τεχνητός νευρώνας δέχεται εισόδους από άλλους νευρώνες µε τους οποίους συνδέεται και υπολογίζει µία τιµή εξόδου σαν συνάρτηση των εισόδων του, την οποία διοχετεύει µε την σειρά του σε άλλους νευρώνες µε τους οποίους επικοινωνεί. Οι υπολογισµοί που πραγµατοποιούνται σε κάθε µονάδα είναι µη γραµµικοί. Υπάρχουν µονάδες του δικτύου οι οποίες είναι µονάδες «εισόδου» (στρώµα εισόδου) οι οποίες λαµβάνουν τα δεδοµένα εισόδου, µονάδες «εξόδου» (στρώµα εξόδου) οι

οποίες στέλνουν τα αποτελέσµατα εκτός συστήµατος και «κρυµµένες» µονάδες (κρυµµένο στρώµα) οι οποίες δεν είναι ορατές στον εξωτερικό κόσµο καθώς οι είσοδοι και οι έξοδοί τους βρίσκονται εντός του τεχνητού νευρωνικού δικτύου (σχήµα 8.13). Σχήµα 8.12 Τεχνητός νευρώνας Σχήµα 8.13 Τα στρωµατά του νευρωνικού δικτύου. Τα βασικά χαρακτηριστικά ενός τεχνητού νευρωνικού δικτύου είναι τα ακόλουθα: Κατανεµηµένη επεξεργασία: Κάθε πληροφορία δεν αποθηκεύονται τοπικά, αλλά κατανέµεται σε µια µεγάλη περιοχή του δικτύου Εύρωστη επεξεργασία: Αφαίρεση ή διαστρέβλωση µικρού αριθµού συναπτικών βαρών δεν οδηγεί σε αισθητή πτώση της ικανότητας του δικτύου για αξιόπιστη επεξεργασία πληροφορίας Υψηλός βαθµός παραλληλίας: Η εκτέλεση πράξεων σε ένα νευρώνα είναι ανεξάρτητη της εκτέλεσης πράξεων σε πολλούς άλλους νευρώνες

Μη γραµµικότητα: Αποτελούνται από ένα µεγάλο πλήθος µη γραµµικών επεξεργαστών. Ορισµένοι τύποι υλοποιούν αυθαίρετα πολύπλοκες συναρτήσεις. Επιλύουν δύσκολα µη γραµµικά προβλήµατα Ικανότητα εκµάθησης: Τα ΤΝ έχουν την ικανότητα εκµάθησης µε χρήση παραδειγµάτων Εκµάθηση άµεσα συνδεδεµένη µε την αλγοριθµική τροποποίηση των συναπτικών βαρών. Όχι χρήση συγκεκριµένων προγραµµατιστικών κανόνων για κάθε είδος προβλήµατος Ικανότητα γενίκευσης: Σωστή απόκριση σε παραδείγµατα που δεν έχουν δοθεί στο τεχνητό νευρωνικό δίκτυο κατά την εκµάθηση Η εκµάθηση ενός τεχνητού νευρωνικού δικτύου µπορεί να είναι: Εκµάθηση υπό επίβλεψη: Άµεση σύγκριση των αποκρίσεων του τεχνητού νευρωνικού δικτύου µε συγκεκριµένες γνωστές αποκρίσεις που θεωρούνται σωστές. Η µάθηση αποσκοπεί στην ταύτιση των αποκρίσεων του δικτύου µε τις σωστές αποκρίσεις (σχήµα 8.14). Εκµάθηση χωρίς επίβλεψη: εν υπάρχουν a pror σωστές αποκρίσεις. Το δίκτυο καλείται να οµαδοποιήσει τα δεδοµένα που του δίνονται βάσει των µεταξύ τους συσχετίσεων. Σχήµα 8.14 Εκπαίδευση νευρωνικού δικτύου υπό επίβλεψη. Μονοστρωµατικό δίκτυο (απλό Perceptron) Η κεντρική ιδέα του µοντέλου του Perceptron είναι η ενσωµάτωση ενός µηχανισµού µάθησης από τον Rosenblatt, στο µοντέλο που εισήγαγαν οι McCulloch Ptts, περίπου το 1943. Το µοντέλο αποτελείται από ένα στρώµα όπου κάθε είσοδος συνδέεται µε µία µονάδα (σχήµα 8.15). Οι τιµές εισόδου είναι συνεχείς και η µάθηση γίνεται µε επίβλεψη. Με το απλό Perceptron µοντέλο επιτυγχάνεται γραµµικός διαχωρισµός των διαφόρων κλάσεων (σχήµα 8.16). Ο Rosenblatt έχει αποδείξει ότι αν οι κλάσεις προτύπων είναι γραµµικά διαχωρίσιµες (υπάρχουν υπερεπίπεδα τα οποία µπορούν να διαχωρίσουν όλα τα ζεύγη των κλάσεων προτύπων), τότε ο αλγόριθµος εκπαίδευσης του απλού Perceptron µοντέλου συγκλίνει σε ένα πεπερασµένο αριθµό επαναλήψεων. ιαφορετικά, σε µη διαχωρίσιµες περιπτώσεις, οι τιµές των συντελεστών βάρους µπορεί να µεταβάλλονται καθ όλη την διάρκεια της εκτέλεσης του αλγορίθµου.

Σχήµα 8.15 Απλό Perceptron µοντέλο. Σχήµα 8.16 Γραµµικός διαχωρισµός των διαφόρων κλάσεων µε χρήση του απλού Perceptron µοντέλου. Οι συντελεστές βάρους w αναπροσαρµόζονται σύµφωνα µε το βαθµό οµοιότητας της πραγµατικής εξόδου o και της επιθυµητής εξόδου t m του συστήµατος. Η διαφορά µεταξύ της πραγµατικής και της επιθυµητής εξόδου ορίζεται σαν το σφάλµα µάθησης, το οποίο τροφοδοτείται προς τα πίσω για την αναπροσαρµογή των συντελεστών βάρους, σύµφωνα µε τον κανόνα µάθησης. Τα βασικά στάδια του αλγορίθµου είναι τα ακόλουθα: BHMA 1: Τα αρχικά βάρη w και τα εσωτερικά όρια θ παίρνουν µικρές τυχαίες τιµές. BHMA 2: Παρουσιάζεται τυχαία κάποιο πρότυπο (x 0,x 1,,x N-1 ) από το σύνολο προτύπων εκπαίδευσης στην είσοδο του δικτύου. BHMA 3: Υπολογίζεται το αποτέλεσµα εξόδου: N 1 h = 0 o ( t) = f ( w ( t) x ( t) + θ ) (8.14) όπου θ είναι το εσωτερικό όριο της µονάδας και f h η συνάρτηση εξόδου η οποία είναι η οριακή συνάρτηση (σχήµα 8.17). BHMA 4: Οι συντελεστές βάρους των συνδέσµων αναπροσαρµόζονται ως εξής:

m w ( t) = w ( t + 1) + n( t o ( t)) x ( t) (8.15) όπου n είναι ο ρυθµός µάθησης ο οποίος είναι αριθµός µεταξύ 0 και 1 και κανονίζει τον ρυθµό αναπροσαρµογής των συντελεστών βάρους. BHMA 5: Επανάληψη πηγαίνοντας στο βήµα 2 µέχρι να εκπαιδευτούν όλα τα πρότυπα εκπαίδευσης Σχήµα 8.17 Η οριακή συνάρτηση f h. Πολυστρωµατικό δίκτυο (πολυστρωµατικό Perceptron) Μία επέκταση του απλού Perceptron είναι το Perceptron µοντέλο µε πολλά στρώµατα (σχήµα 8.18). Με το πολυστρωµατικό Perceptron επιτυγχάνεται καλύτερος διαχωρισµός των διαφόρων κλάσεων (σχήµα 8.19). Σχήµα 8.18 Πολυστρωµατικό Perceptron µοντέλο.

Σχήµα 8.19 ιαχωρισµός των διαφόρων κλάσεων µε χρήση του πολυστρωµατικού Perceptron µοντέλου. Ο πιο διαδεδοµένος αλγόριθµος εκπαίδευσης που χρησιµοποιείται στο πολυστρωµατικό µοντέλο Perceptron είναι ο Back Propagaton: BHMA 1: Τα αρχικά βάρη w και τα εσωτερικά όρια θ παίρνουν µικρές τυχαίες τιµές. BHMA 2: Παρουσιάζεται τυχαία κάποιο πρότυπο (x 0,x 1,,x N-1 ) από το σύνολο προτύπων εκπαίδευσης στην είσοδο του δικτύου. BHMA 3: Υπολογίζονται τα αποτελέσµατα εξόδου σε κάθε στρώµα: (1) N 0 a ( t) = w ( t) o ( t) + θ = 1 (1) (0) (1) o (1) 2) (1) ( t) = f ( a )( t), 1 N N 1 a ( t) = w ( t) o ( t) + θ = 1 (2) (1) 1 (2) (8.16) o (2) (2) ( t) = f ( a )( t), 1 N 2 όπου f η µη γραµµική συνάρτηση εξόδου (σχήµα 8.20). Σχήµα 8.20 Η σιγµοειδής συνάρτηση f.

BHMA 4: Φάση µάθησης: w δ ( l) ( L) ( l) ( t + 1) = w ( t) + nδ ( t) = ( t m L o ( t)) o ( L) ( l) ( t) o ( t)(1 o ( l 1) ( L) ( t) ( t)) δ ( l) ( L) ( L) ( l + 1) ( l + 1) ( t ) = o ( t)(1 o ( t)) δ ( t) w ( t) (8.17) l θ ( t + 1) = θ ( t) + nδ BHMA 5: Επανάληψη πηγαίνοντας στο βήµα 2 µέχρι να εκπαιδευτούν όλα τα πρότυπα εκπαίδευσης ( l) ( t) 8.4 Σειριακός πολυταξινοµητής Όταν αντιστοιχίζουµε έναν χαρακτήρα σε ένα διάνυσµα χαρακτηριστικών, χρησιµοποιούµε σηµαντικές πληροφορίες του χαρακτήρα για να επιτύχουµε σωστή ταξινόµηση και αναγνώριση. Επειδή οι πληροφορίες αυτές έχουν σχέση µε το είδος των χαρακτηριστικών που εξάγουµε, µπορούµε να πούµε ότι ο συνδυασµός περισσότερων του ενός ταξινοµητών, που ο καθένας τους χρησιµοποιεί διαφορετικό διάνυσµα χαρακτηριστικών, µπορεί να οδηγήσει σε υψηλά ποσοστά αναγνώρισης ακόµα και στις περιπτώσει όπου ο κάθε ταξινοµητής από µόνος του αποτυγχάνει. Με σκοπό να έχουµε υψηλή ταχύτητα επεξεργασίας µπορούµε να χρησιµοποιήσουµε ένα µοντέλου σειριακού πολυταξινοµητή (Gatos1 1997). Ένας σειριακός πολυταξινοµητής έχει υψηλή ταχύτητα επεξεργασίας διότι στις περισσότερες περιπτώσεις αρκεί η χρήση του πρώτου ταξινοµητή για την αναγνώριση και δεν καταναλίσκεται πρόσθετος χρόνος από την χρήση των άλλων ταξινοµητών όπως συµβαίνει σε έναν παράλληλου τύπου πολυταξινοµητή. Η κύρια µορφή ενός σειριακού πολυταξινοµητή φαίνεται στο σχήµα 8.21α. Στο παράδειγµα του σχήµατος χρησιµοποιούνται τρεις ανεξάρτητοι ταξινοµητές ενώ καθένας από αυτούς τροφοδοτείται από διαφορετικό διάνυσµα χαρακτηριστικών. Αρχικά, το πρώτο διάνυσµα χαρακτηριστικών οδηγείται στον πρώτο ταξινοµητή. Αν ο ταξινοµητής αυτός δεν µπορεί να αποφασίσει µε βεβαιότητα τότε καλείται ο επόµενος ταξινοµητής µε το δικό του σύνολο χαρακτηριστικών. Η διαδικασία αυτή συνεχίζεται µέχρι να εξαντληθούν όλοι οι ταξινοµητές. Αν όλοι οι ταξινοµητές δεν µπορούν να αποφασίσουν µε βεβαιότητα, τότε προχωράµε στη φάση της µάθησης. Αν δεν θέλουµε να χρησιµοποιήσουµε φάση µάθησης, µπορούµε να χρησιµοποιήσουµε την µορφή του σειριακού πολυταξινοµητή του σχήµατος 8.21β ο οποίος αποτελείται από δύο στάδια. Στο πρώτο στάδιο, καλούµε σειριακά τους ταξινοµητές µέχρι να πάρουµε κάποιο ασφαλές αποτέλεσµα. Το δεύτερο στάδιο καλείται αν δεν έχουµε ασφαλές αποτέλεσµα από το πρώτο στάδιο. Σε αυτό το στάδιο λαµβάνεται η απόφαση ταξινόµησης του χαρακτήρα µε την αξιοποίηση των αποτελεσµάτων που έδωσαν κατά το πρώτο στάδιο οι επιµέρους ταξινοµητές. Ο σχεδιασµός του σειριακού πολυταξινοµητή έγκειται στον εντοπισµό της συνθήκης που θα µας βοηθήσει να αποφασίσουµε αν ένας ταξινοµητής µπορεί να αποφασίσει µε ασφάλεια για έναν χαρακτήρα ή εναλλακτικά θα πρέπει να χρησιµοποιήσουµε άλλον ταξινοµητή. Για τον σκοπό αυτό χρησιµοποιούµε ένα σύνολο χαρακτήρων επικύρωσης. Η µέθοδος έχει ως εξής: Ένας ταξινοµητής εκπαιδεύεται µε ένα σύνολο από FMAX πρότυπα, καθένα από τα οποία έχει PMAX χαρακτηριστικά. Κάθε πρότυπο του συνόλου εκπαίδευσης έχει το ακόλουθο διάνυσµα χαρακτηριστικών: και ανήκει στην κλάση FP. F =[f 1,, f 2,,, f PMAX, ] T, =1..FMAX (8.18)

(α) (β) Σχήµα 8.21 Σειριακός πολυταξινοµητής. (α) Με εκπαίδευση. (β) Χωρίς εκπαίδευση. Χρησιµοποιούµε ένα σύνολο χαρακτήρων επικύρωσης το οποίο έχει VMAX πρότυπα έτσι ώστε να εξάγουµε στατιστικές πληροφορίες σχετικά µε την αποτελεσµατικότητα του ταξινοµητή. Κάθε πρότυπο του συνόλου επικύρωσης έχει το διάνυσµα χαρακτηριστικών: V =[v 1,, v 2,,, v PMAX, ] T, =1..VMAX (8.19) και ανήκει στην κλάση VP. Η απόσταση του προτύπου V από το πρότυπο µάθησης F είναι: PMAX D( V, F ) = v f (8.20) k = 1 Ένα πρότυπο του συνόλου επικύρωσης ταξινοµείται στην κλάση R(V ) σύµφωνα µε τη σχέση: k, k, R(V )=p: D(V,F )=mnmum για =m όπου FP m =p (8.21) Ορίζουµε την συνάρτηση σωστής ταξινόµησης ως εξής: 1, αν R(V ) = VP COR ( V ) = 0, διαφορετικά (8.22) Ο ταξινοµητής µπορεί να αποφασίσει για τη ταξινόµηση του προτύπου V µόνο όταν υπάρχει ένα πρότυπο µάθησης πολύ κοντά σε αυτό. Χρησιµοποιούµε ένα κατώφλι Th και καθορίζουµε ότι ο ταξινοµητής µπορεί να αποφασίζει για το V µόνο αν η συνάρτηση THR(V,Th) ισούται µε 1:

1, αν mn { D( V, F )} < Th THR( V, Th) = = 1...FMAX (8.23) 0, διαφορετικά Σύµφωνα µε το κατώφλι Th, ο ταξινοµητής µπορεί να αποφασίσει για ένα τµήµα του συνόλου επικύρωσης που καθορίζεται από τη συνάρτηση PC(Th) (Processed Characters): PC( Th) = 100 VMAX = 1 THR( V, Th) % VMAX (8.24) Το ποσοστό αναγνώρισης δίδεται από την συνάρτηση RR(Th) ως εξής: RR ( Th) = 100 VMAX THR( V, Th) COR( V = 1 VMAX = 1 THR( V, Th) ) % (8.25) Ορίζουµε ως Th opt την τιµή του βέλτιστου κατωφλιού µε το οποίο καθορίζεται αν ένας χαρακτήρας θα ταξινοµηθεί µε τον συγκεκριµένο ταξινοµητή ή θα οδηγηθεί στον επόµενο. Η τιµή του Th opt υπολογίζεται ώστε να έχουµε 100% αναγνώριση για τον µέγιστο δυνατό αριθµό του συνόλου των χαρακτήρων επικύρωσης: Th opt = Th : RR( Th) = 100% PC( Th) = maxmum (8.26) Άρα, ο χαρακτήρας µε διάνυσµα χαρακτηριστικών Τ ταξινοµείται από τον συγκεκριµένο ταξινοµητή µόνο αν ισχύει: mn = 1.. FMAX { D ( T, F } < Th opt (8.27) Στο σχήµα 8.22 µπορούµε να δούµε τη µορφή των συναρτήσεων PC(Th) και RR(Th) για ένα συγκεκριµένο σύνολο επικύρωσης. Για το συγκεκριµένο παράδειγµα, η βέλτιστη τιµή του Th είναι 140 και η τιµή αυτή αντιστοιχεί στο 19.04% του συνόλου των χαρακτήρων επικύρωσης. Στα παραδείγµατα του σχήµατος 8.23, φαίνεται πως η χρήση σειριακού συστήµατος πολλών ταξινοµητών βελτιώνει το τελικό ποσοστό αναγνώρισης. Συγκεκριµένα, στο πρώτο παράδειγµα, το ποσοστό αναγνώρισης µε χρήση του σειριακού πολυταξινοµητή φτάνει το 90.41% ενώ το µέγιστο ποσοστό αναγνώρισης χρησιµοποιώντας καθένα από τους ταξινοµητές είναι 85.82%. Στο δεύτερο παράδειγµα, το ποσοστό αναγνώρισης µε χρήση του σειριακού πολυταξινοµητή φτάνει το 99.75% ενώ το µέγιστο ποσοστό αναγνώρισης χρησιµοποιώντας καθένα από τους ταξινοµητές είναι 99.54%.

Σχήµα 8.22 Υπολογισµός του ορίου Th opt. (α) Η συνάρτηση PC(Th). (β) Η συνάρτηση RR(Th). H βέλτιστη τιµή του Th είναι 140 και η τιµή αυτή αντιστοιχεί στο µεγαλύτερο ποσοστό του συνόλου των χαρακτήρων επικύρωσης για το οποίο RR(Th)=100%.

Σχήµα 8.23 Παραδείγµατα αύξησης του ποσοστού αναγνώρισης µε χρήση σειριακού πολυταξινοµητή. Βιβλιογραφία (Cho 2003) Cho, W., Lam, K., Su, W.: Extracton of the Eucldean skeleton based on a connectvty crteron. Pattern Recognton 36 (2003) 721-729 (Gatos 1997) Gatos, B., Papamarkos N., Chamzas, C.: A bnary tree based OCR technque for machne prnted characters", Engneerng Applcatons of Artfcal Intellgence, vol. 10, No. 4 (1997) 403-412 (Gatos1 1997) B. Gatos, N. Papamarkos and C. Chamzas, "Usng curvature features n a multclassfer OCR system", Engneerng Applcatons of Artfcal Intellgence, vol. 10, No. 2, (1997) 213-224 (Impedovo 1991) Impedovo, S., Ottavano, L., Occhnegro, S.: Optcal Character Recognton A survey. Internatonal Journal of Pattern Recognton and Artfcal Intellgence, Vol. 5 (1991) 1-23 (Theodords 1997) Theodords S. and Koutroumbas K. Pattern Recognton, Academc Press, 1997. (Shlen 1988) Shlen A.: Multfont character recognton for typeset documents. Internatonal Journal of Pattern Recognton and Artfcal Intellgence, 2 (1988) 603-620