Επεξεργασία και Αναγνώριση Χειρόγραφων Κειμένων

Σχετικά έγγραφα
Εργασίες στο µάθηµα Ψηφιακής Επεξεργασίας και Αναγνώρισης Εγγράφων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

Β. Γάτος, Ψηφιακή Επεξεργασία και Αναγνώριση Εγγράφων. 3.1 Προβλήµατα στην ποιότητα των δυαδικών εικόνων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων:

Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

DIP_05 Τµηµατοποίηση εικόνας. ΤΕΙ Κρήτης

Ανάκτηση πολυμεσικού περιεχομένου

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Οπτική Επεξεργασία και Ανάλυση Ιστορικών Εγγράφων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΑΝΤΩΝΙΟΣ ΛΥΡΩΝΗΣ ΧΑΝΙΑ Σκοπός Εργασίας Εντοπισμός πλίνθων σε σειρά ορθοφωτογραφιών και εξαγωγή δισδιάστατης αποτύπωσης των τειχών.

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

Αναγνώριση Προτύπων Ι


Digital Image Processing

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Τηλεπισκόπηση - Φωτοερμηνεία

Digital Image Processing

Συμπίεση Πολυμεσικών Δεδομένων

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΤΙΤΛΟΣ Συμπληρώστε τον πρωτότυπο τίτλο της Διδακτορικής διατριβής ΑΡ. ΣΕΛΙΔΩΝ ΕΙΚΟΝΟΓΡΑΦΗΜΕΝΗ

Ραδιομετρική Ενίσχυση - Χωρική Επεξεργασία Δορυφορικών Εικόνων

Ευφυής Προγραμματισμός

Πληροφοριακά Συστήματα Διοίκησης

E[ (x- ) ]= trace[(x-x)(x- ) ]

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Προσδιορισμός Σημαντικών Χαρακτηριστικών της Αυθόρμητης Δραστηριότητας Απομονωμένου Εγκεφαλικού Φλοιού in vitro

DIP_01 Εισαγωγή στην ψηφιακή εικόνα. ΤΕΙ Κρήτης

Advances in Digital Imaging and Computer Vision

Πανεπιστήμιο Θεσσαλίας. Πολυτεχνική Σχολή ΘΕΜΑΤΙΚΗ : ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

710 -Μάθηση - Απόδοση. Κινητικής Συμπεριφοράς: Προετοιμασία

DIP_04 Σημειακή επεξεργασία. ΤΕΙ Κρήτης

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

> μεγαλύτερο <= μικρότερο ή ίσο < μικρότερο == ισότητα >= μεγαλύτερο ή ίσο!= διαφορετικό

E [ -x ^2 z] = E[x z]

Digital Image Processing

Εισαγωγή στην επιστήμη των υπολογιστών

Γραφικά με Η/Υ Αλγόριθμοι σχεδίασης βασικών 22D D σχημάτων (ευθεία

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ

Επεξεργασία Χαρτογραφικής Εικόνας

Ψηφιακή Επεξεργασία Εικόνας

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Συμπίεση Δεδομένων

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

ΒΕΣ 04: Συµπίεση και Μετάδοση Πολυµέσων. Περιεχόµενα. Βιβλιογραφία. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB )

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Εισαγωγή. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Εκπαιδευτική Μονάδα 10.2: Εργαλεία χρονοπρογραμματισμού των δραστηριοτήτων.

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα

Τίτλος Πακέτου Certified Computer Expert-ACTA

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Οδηγίες Συγγραφής Εργασιών για το 7 ο Διεθνές Συνέδριο για την Έρευνα των Μεταφορών

Αλγόριθμος Ομαδοποίησης

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

1 ο Εργαστήριο Συντεταγμένες, Χρώματα, Σχήματα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΑΡΑΡΤΗΜΑ Γ. Οδηγίες για τη συγγραφή της μεταπτυχιακής Διπλωματικής Εργασίας (ΔΕ)

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Γεωµετρικές έννοιες και µετρήσεις µεγεθών. (ή, διαφορετικά, αντίληψη του χώρου)

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Μέθοδοι Αναπαράστασης Περιοχών

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΜΗΧΑΝΟΥΡΓΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Ι

6-Aνίχνευση. Ακμών - Περιγράμματος

Transcript:

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Επεξεργασία και Αναγνώριση Χειρόγραφων Κειμένων Γεώργιος Π. Βαμβακάς ΑΘΗΝΑ ΙΟΥΛΙΟΣ 2010

(Η σελίδα έμεινε κενή προκειμένου η επόμενη σελίδα να αρχίζει από τη δεξιά σελίδα του τόμου μονή σελίδα-. Στην εργασία σας διαγράψτε το παρόν κείμενο)

ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Επεξεργασία και Αναγνώριση Χειρόγραφων Κειμένων Γεώργιος Π. Βαμβακάς ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Σέργιος Θεοδωρίδης, Καθηγητής ΕΚΠΑ ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ: Σέργιος Θεοδωρίδης, Καθηγητής ΕΚΠΑ Βασίλειος Γάτος, Ερευνητής ΕΚΕΦΕ «Δημόκριτος» Νικόλαος Παπαμάρκος, Καθηγητής Πανεπιστημίου Θράκης ΕΠΤΑΜΕΛΗΣ ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ Σέργιος Θεοδωρίδης, Καθηγητής ΕΚΠΑ Βασίλειος Γάτος, Ερευνητής ΕΚΕΦΕ «Δημόκριτος» Νικόλαος Παπαμάρκος, Καθηγητής Πανεπιστημίου Θράκης Θεοχάρης Θεοχάρης, Αναπληρωτής Καθηγητής ΕΚΠΑ Ηλίας Μανωλάκος, Αναπληρωτής Καθηγητής ΕΚΠΑ Σταύρος Περαντώνης, Ερευνητής ΕΚΕΦΕ «Δημόκριτος» Εμμανουήλ Σαγκριώτης, Αναπληρωτής Καθηγητής ΕΚΠΑ

(Η σελίδα έμεινε κενή, προκειμένου η επόμενη σελίδα να αρχίζει από τη δεξιά σελίδα του τόμου μονή σελίδα-. Στην εργασία σας διαγράψτε το παρόν κείμενο)

ΠΕΡΙΛΗΨΗ Στην εποχή μας, η επεξεργασία και η αναγνώριση σύγχρονων τυπωμένων κειμένων γίνεται με μεγάλα ποσοστά επιτυχίας, γεγονός που αποδεικνύεται και από την ύπαρξη πληθώρας επιτυχημένων εμπορικών προϊόντων προς αυτή την κατεύθυνση. Όμως το θέμα της αναγνώρισης των χειρόγραφων κειμένων εξακολουθεί να είναι ένα «ανοικτό» ερευνητικό ζήτημα. Τα χειρόγραφα κείμενα λόγω της ποικιλομορφίας της γραφής, της ύπαρξης αλληλεπικαλυπτόμενων γραμμάτων, της συνεχόμενης γραφής που έχει ως πιθανό αποτέλεσμα ένωση γειτονικών λέξεων και ενδεχόμενης κλίσης είναι αρκετά πιο δύσκολα στην επεξεργασία και την αναγνώρισή τους. Σε αυτή τη διατριβή μελετήσαμε τα στάδια επεξεργασίας και κυρίως της αναγνώρισης χειρόγραφων κειμένων. Στο στάδιο της αναγνώρισης γίνεται η εξαγωγή χαρακτηριστικών (διάνυσμα χαρακτηριστικών) για τους χαρακτήρες που έχουν εξαχθεί και η ταξινόμησή τους σε προκαθορισμένες κλάσεις, με χρήση τεχνικών μηχανικής μάθησης. Πιο συγκεκριμένα, μελετήθηκαν αλγόριθμοι εξαγωγής χαρακτηριστικών και αναπτύχθηκαν καινούργιες μεθοδολογίες που στηρίζονται στον κατάλληλο συνδυασμό διαφόρων τύπων χαρακτηριστικών. Παράλληλα, αναπτύχθηκε και μια πρωτότυπη μεθοδολογία που βασίζεται στην ιεραρχική εξαγωγή χαρακτηριστικών και ταξινόμησης των εικόνων χαρακτήρα. Η μεθοδολογία αυτή, μετά από πειράματα με γνωστές βάσεις χαρακτήρων, αλλά και σε βάσεις χαρακτήρων που προέρχονται από ιστορικά κείμενα και σε μια βάση σύγχρονων ελληνικών χειρογράφων χαρακτήρων που δημιουργήθηκαν στα πλαίσια αυτής της διατριβής, αποδείχτηκε αρκετά αποτελεσματική και συγκαταλέγεται ανάμεσα στις καλύτερες που υπάρχουν σήμερα στη βιβλιογραφία. Η εφαρμογή της σε χειρόγραφα ψηφία, χειρόγραφες λέξεις έδωσε εξίσου υψηλά ποσοστά αναγνώρισης. Επιπλέον, αναπτύχθηκε και ένας αλγόριθμος με σκοπό την αυτόματη εκτίμηση των παραμέτρων που χρησιμοποιούνται στην κατάτμηση χαρακτήρων. Η κατάτμηση είναι αρκετά σημαντική, αφού επηρεάζει άμεσα το ποσοστό της τελικής αναγνώρισης. Όποτε, η βέλτιστη κατάτμηση είναι απαραίτητη για την επιτυχή αναγνώριση. Τέλος, δημιουργήθηκε ένα εργαλείο αναγνώρισης ιστορικών εγγράφων που ενσωματώνει τις περισσότερες από τις παραπάνω μεθοδολογίες. Το εργαλείο αυτό προσαρμόζεται εύκολα στον τύπο βιβλίου που ο χρήστης επεξεργάζεται, χωρίς εκ των προτέρων γνώση της γλώσσας ή ακόμα και του τύπου της γραμματοσειράς. Του παρέχει την δυνατότητα να δημιουργήσει, σχετικά εύκολα, τη δική του βάση, από ένα μικρό δείγμα

εικόνων κειμένου, η οποία μετέπειτα χρησιμοποιείται για την αναγνώριση ολόκληρου του βιβλίου. ΘΕΜΑΤΙΚΗ ΠΕΡΙΟΧΗ: Οπτική Αναγνώριση Χαρακτήρων ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: αναγνώριση χειρόγραφων χαρακτήρων, εξαγωγή και συνδυασμός χαρακτηριστικών, ιεραρχική ταξινόμηση, τεχνικές μηχανικής μάθησης, βάσεις χαρακτήρων

ABSTRACT Nowadays, the accurate recognition of machine printed characters is considered largely a solved problem. A lot of commercial products are focused towards that direction, achieving high recognition rates. However, handwritten character recognition is comparatively difficult, due to different handwriting styles, cursive handwriting and possible skew. So, the recognition of handwritten documents is still a subject of active research. In this thesis we studied the processing and focused on the recognition stages for handwritten optical character recognition. At the recognition stage a feature vector is extracted for all extracted characters in order to classify them to predefined classes using machine learning techniques. We studied several feature extraction techniques and developed methodologies that efficiently combine different types of features. Furthermore, a novel methodology that extracts features and classifies characters using a hierarchical scheme is proposed. This methodology, after being tested on well-known character databases, as well as on databases consisting of characters from historical documents and a database consisting of Greek contemporary handwritten characters, that were particularly created in this thesis, achieved recognition rates that are among the best one can find in the literature. This methodology was also applied to handwritten digits and cursive handwritten words. The recognition rates in these experiments were also very high. Moreover, an algorithm that automatically estimates the free parameters involved in character segmentation is also suggested. Character segmentation is very important because its result affects directly the recognition rates. Thus, the optimal segmentation is essential for a successful recognition. Finally, a complete Optical Character Recognition (OCR) tool that integrates all the above stages in order to assist the recognition of either contemporary or historical documents with, neither a priori knowledge of the language or the fonts nor the existence of a standard database was developed. This tool enables the user to create his own character database, thus converting document images to ASCII format. SUBJECT AREA: Optical Character Recognition KEYWORDS: handwritten character recognition, feature extraction, hierarchical classification, machine learning techniques, character databases

ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω όλους εκείνους, οι οποίοι βοήθησαν στην ολοκλήρωση της παρούσας διδακτορικής διατριβής. Ιδιαίτερα θα ήθελα να ευχαριστήσω τον ερευνητή του Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Β. Γάτο για τη σημαντική βοήθειά του και τη καθοριστική συμβολή του στην ολοκλήρωση του έργου. Επίσης, τον διευθυντή του Εργαστηρίου Υπολογιστικής Ευφυΐας (Computational Intelligence Laboratory CIL) του Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Σ. Περαντώνη και τον Καθηγητή Σ. Θεοδωρίδη για τον ιδιαίτερα σημαντικό χρόνο που αφιέρωσαν και τις πολύτιμες συμβουλές τους, καθώς και τον Καθηγητή Ν. Παπαμάρκο Τέλος, τον υποψήφιο διδάκτορα Ν. Σταματόπουλο, για την εποικοδομητική συνεργασία μας σε θέματα κοινού επιστημονικού ενδιαφέροντος.-

. Στην εργασία σας διαγράψτε το παρόν κείμενο)

ΠΕΡΙΕΧΟΜΕΝΑ 1. ΕΙΣΑΓΩΓΗ... 17 1.1 Εισαγωγή στην Επεξεργασία και Αναγνώριση Εγγράφων... 17 1.2 Στόχοι και Προτάσεις της Διδακτορικής Διατριβής... 19 2. ΣΤΑΔΙΑ ΣΥΣΤΗΜΑΤΟΣ ΟΠΤΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΧΑΡΑΚΤΗΡΩΝ... 23 2.1 Προ επεξεργασία... 23 2.1.1 Δυαδική Μετατροπή...23 2.1.2 Βελτίωση Ποιότητας...24 2.1.3 Διόρθωση Στροφής και Τοπικής Καμπυλότητας... 27 2.1.4 Διόρθωση Κλίσης Γραμμάτων... 28 2.1.5 Κανονικοποίηση Πάχους Χαρακτήρα... 29 2.2 Κατάτμηση... 30 2.2.1 Κατάτμηση Σελίδας Εγγράφου... 30 2.2.2 Εντοπισμός Γραμμών Κειμένου... 34 2.2.3 Εξαγωγή Λέξεων... 35 2.2.4 Κατάτμηση σε Επίπεδο Χαρακτήρα... 36 2.3 Εξαγωγή Χαρακτηριστικών... 37 2.3.1 Στατιστικά Χαρακτηριστικά... 38 2.3.2 Δομικά Χαρακτηριστικά... 41 2.3.3 Χαρακτηριστικά που βασίζονται σε Μετασχηματισμούς... 43 2.4 Ταξινόμηση... 47 2.4.1 Ταξινομητής Ελάχιστης Απόστασης... 48 2.4.2 Κ Κοντινότεροι Γείτονες... 48 2.4.3 Γραφικές Μέθοδοι... 49 2.4.4 Νευρωνικά Δίκτυα... 50 2.4.5 Μηχανές Διανυσμάτων Υποστήριξης... 52 2.4.6 Hidden Markov Models... 55 2.5 Μετά επεξεργασία... 57 3. ΒΑΣΕΙΣ ΧΑΡΑΚΤΗΡΩΝ... 61 3.1 Εισαγωγή... 61

3.2 CEDAR και MNIST Databases... 61 3.3 CIL Database... 61 3.4 Βάσεις Χαρακτήρων από Ιστορικά Κείμενα.... 66 4. ΑΝΑΓΝΩΡΙΣΗ ΧΑΡΑΚΤΗΡΩΝ ΜΕ ΒΑΣΗ ΤΟ ΣΥΝΔΥΑΣΜΟ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ... 71 4.1 Εισαγωγή... 71 4.2 Υβριδικά Χαρακτηριστικά... 72 4.3 Συνδυασμός Χαρακτηριστικών Επιλογή του Καλύτερου Συνδυασμού... 76 4.4 Πειραματικά Αποτελέσματα... 79 5. ΙΕΡΑΡΧΙΚΗ ΑΝΑΓΝΩΡΙΣΗ ΧΕΙΡΟΓΡΑΦΩΝ ΧΑΡΑΚΤΗΡΩΝ ΨΗΦΙΩΝ... 83 5.1 Εισαγωγή... 83 5.2 Ιεραρχική Αναγνώριση Χαρακτήρων (ΙΕΡ v.1)... 85 5.2.1 Εξαγωγή Χαρακτηριστικών... 85 5.2.2 Ταξινόμηση... 87 5.3 Βελτιώσεις Προτεινόμενης Μεθοδολογίας Ιεραρχικής Αναγνώρισης... 89 5.3.1 Βελτίωση 1 Εξαγωγή Χαρακτηριστικών (ΙΕΡ v.2)... 89 5.3.2 Βελτίωση 2 Ιεραρχικό Σχήμα Ταξινόμησης (ΙΕΡ v.3)... 90 5.4 Πειραματικά Αποτελέσματα... 92 6. ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΙΕΡΑΡΧΙΚΟΥ ΣΧΗΜΑΤΟΣ ΑΝΑΓΝΩΡΙΣΗΣ...103 6.1 Αναγνώριση Ιστορικών Χαρακτήρων... 103 6.1.1 Εισαγωγή... 103 6.1.2 Πειραματικά Αποτελέσματα... 103 6.2 Αναγνώριση Χειρόγραφων Λέξεων... 104 6.2.1 Εισαγωγή... 105 6.2.2 Προσαρμογή του Ιεραρχικού Σχήματος Αναγνώρισης για Λέξεις... 106 6.2.3 Πειραματικά Αποτελέσματα... 107 6.3 Εντοπισμός Λέξεων Κλειδιών σε Εικόνες Εγγράφου... 108 6.3.1 Εισαγωγή... 108

6.3.2 Word Spotting... 111 6.3.3 Πειραματικά Αποτελέσματα... 111 7. ΑΥΤΟΜΑΤΗ ΕΚΤΙΜΗΣΗ ΕΛΕΥΘΕΡΩΝ ΠΑΡΑΜΕΤΡΩΝ ΧΩΡΙΣ ΕΠΙΒΛΕΨΗ ΓΙΑ ΚΑΤΑΤΜΗΣΗ ΧΑΡΑΚΤΗΡΩΝ...115 7.1 Εισαγωγή... 115 7.2 Εκτίμηση Παραμέτρων Χωρίς Επίβλεψη... 116 7.3 Αλγόριθμοι Κατάτμησης Χαρακτήρων και οι Παράμετροι τους... 118 7.4 Πειραματικά Αποτελέσματα... 119 8. ΟΛΟΚΛΗΡΩΜΕΝΟ ΣΥΣΤΗΜΑ ΟΠΤΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΙΣΤΟΡΙΚΩΝ ΚΕΙΜΕΝΩΝ...125 8.1 Εισαγωγή... 125 8.2 Σύστημα Οπτικής Αναγνώρισης Εγγράφων... 126 8.2.1 Δυαδική Μετατροπή... 126 8.2.2 Κατάτμηση... 127 8.2.3 Επιλογή των Βέλτιστων Παραμέτρων για Κατάτμηση Χαρακτήρων... 127 8.2.4 Δημιουργία Βάσης Χαρακτήρων... 128 8.2.5 Εκπαίδευση... 128 8.2.6 Αναγνώριση... 128 8.2.7 Αποτίμηση Αποτελέσματος... 128 8.3 Πειραματικά Αποτελέσματα... 129 9. ΣΥΜΠΕΡΑΣΜΑΤΑ ΣΥΖΗΤΗΣΗ...133 ΔΗΜΟΣΙΕΥΣΕΙΣ...137 ΠΙΝΑΚΑΣ ΟΡΟΛΟΓΙΑΣ...139 ΣΥΝΤΜΗΣΕΙΣ ΑΡΚΤΙΚΟΛΕΞΑ ΑΚΡΩΝΥΜΙΑ...143 ΠΑΡΑΡΤΗΜΑ...145

ΑΝΑΦΟΡΕΣ...155

ΠΡΟΛΟΓΟΣ Ο απεφοίτησε από το Τμήμα Πληροφορικής και Τηλεπικοινωνιών του ΕΚΠΑ το Σεπτέμβριο του 2005, ενώ το Μάρτιο του 2006 ανακηρύχτηκε υποψήφιος διδάκτορας στο εν λόγω τμήμα. Η διδακτορική του διατριβή εκπονήθηκε στο Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών του ΕΚΕΦΕ «Δημόκριτος» με υποτροφία για την οποία κρίθηκε άξιος να του χορηγηθεί από το συγκεκριμένο ερευνητικό κέντρο. Παράλληλα με τη ερευνητική του δραστηριότητα στον τομέα της Οπτικής Αναγνώρισης Χαρακτήρων, συμμετείχε και σε δυο ερευνητικά έργα χρηματοδοτούμενα από τη Γενική Γραμματεία Έρευνας και Τεχνολογίας (έργο «Πολύτιμο») * 1 και από την Ευρωπαϊκή Ένωση (έργο «IMPACT») * 2, αντίστοιχα. (Η σελίδα έμεινε κενή προκειμένου η επόμενη σελίδα να αρχίζει από τη δεξιά σελίδα του τόμου μονή σελίδα-. Στην εργασία σας διαγράψτε το παρόν κείμενο) ( * 1) Υπουργείο Ανάπτυξης, Γενική Γραμματείας Έρευνας και Τεχνολογίας (Γ.Γ.Ε.Τ.), Επιχειρησιακό Πρόγραμμα Επεξεργασίας Εικόνων, Ήχου & Γλώσσας., Σύστημα Επεξεργασίας, Διαχείρισης και Παροχής Πρόσβασης στο Περιεχόμενο Πολύτιμων Βιβλίων & Χειρογράφων («Πολύτιμο»). ( * 2) IMProving ACess to Text (IMPACT), FP7-ICT-2007-1, Digital libraries and technologyenhanced learning, Large-scale integrating project IP. - http://www.impact-project.eu/.

1. ΕΙΣΑΓΩΓΗ 1.1 Εισαγωγή στην Επεξεργασία και Αναγνώριση Εγγράφων Τα έγγραφα αποτελούν το μέσο μεταφοράς της γνώσης που περιέχουν. Η εξαγωγή της γνώσης από ένα έγγραφο είναι το πιο κρίσιμο σημείο ενός πληροφοριακού συστήματος. Η εξαγωγή της γνώσης από το έγγραφο απαιτεί χρόνο και προσπάθεια, στοιχεία τα οποία περιορίζουν τις δυνατότητες του πληροφοριακού συστήματος. Έτσι, η αυτοματοποίηση της εξαγωγής της γνώσης από τα έγγραφα αποτελεί ένα σημαντικό ερευνητικό τομέα µε πολλές εφαρμογές. Ήδη από την δεκαετία του 1960 η έρευνα σχετικά µε την αυτόματη επεξεργασία των εγγράφων ξεκίνησε µε την εφαρμογή της θεωρίας της αναγνώρισης προτύπων (Pattern Recognition). Η αναγνώριση προτύπων αποτελεί ένα συνεχώς αναπτυσσόμενο τομέα έρευνας. Σε αυτό συμβάλλει η αλματώδης ανάπτυξη των ηλεκτρονικών υπολογιστών, καθώς με τις μεγάλες ταχύτητες είναι δυνατή η εκτέλεση προγραμμάτων με μεγάλη υπολογιστική πολυπλοκότητα, όπως αυτά του τομέα της οπτικής αναγνώρισης χαρακτήρων. Οι μέθοδοι που χρησιμοποιούνται για την αναγνώριση χαρακτήρων βασίζονται κυρίως σε δύο κριτήρια: 1) τον τρόπο εισαγωγής των δεδομένων (on-line ή offline) και 2) την μορφή των δεδομένων (τυπωμένο ή χειρόγραφο κείμενο). Η online αναγνώριση πραγματοποιείται τη στιγμή που γράφεται το κείμενο, καταγράφοντας τη τροχιά του στυλό εισαγωγής. Έτσι, η πληροφορία για τα δεδομένα εμπεριέχει την χρονική σειρά εισαγωγής τους μέσω ενός συστήματος, όπως, για παράδειγμα μιας οθόνης επαφής. Αντίθετα, η off-line αναγνώριση πραγματοποιείται μετά την εγγραφή του κειμένου, ψηφιοποιώντας τα δεδομένα ως εικόνα με τη χρήση σαρωτή. Ωστόσο, υπάρχει η δυνατότητα μετατροπής σε εικόνα των δεδομένων που προέρχονται από την on-line εισαγωγή και επεξεργασίας τους μέσω μεθόδων off-line αναγνώρισης. Στις μέρες μας, ένα σύστημα Οπτικής Αναγνώρισης Χαρακτήρων (Optical Character Recognition OCR) σύστημα μπορεί να αναγνωρίσει με μεγάλη επιτυχία τυπωμένα κείμενα χωρίς θόρυβο και με απλή δομή. Από την άλλη όμως, στην περίπτωση των χειρόγραφων κειμένων τα ποσοστά αναγνώρισης δεν είναι το ίδιο επιτυχή. Παρά την εκτεταμένη έρευνα που έχει γίνει στο θέμα αυτό τα τελευταία 30 χρόνια, παραμένει ακόμα «ανοικτό» στον επιστημονικό χώρο. Υπάρχουν αντικειμενικά προβλήματα που δυσκολεύουν την αυτόματη αναγνώριση χειρόγραφων κειμένων. Εκτός από τη διαφορετικό τρόπο γραφής 17

ακόμα και σε κείμενα του ίδιου συγγραφέα, υπάρχουν επιπλέον περιπτώσεις όπως οι αλληλοεπικαλύψεις μεταξύ χαρακτήρων τις ίδιας λέξης ή συνενώσεις μεταξύ γειτονικών χαρακτήρων που ανήκουν σε διαφορετικές λέξεις, που καθιστούν πολύ δύσκολη (αν όχι αδύνατη) την απομόνωσής τους. Επίσης, λόγω της «χαλαρής» γραφής μη παράλληλες γραμμές ή λέξεις με κάποια κλίση είναι πολύ πιθανό να εμφανιστούν σε τέτοια κείμενα. Ανεξάρτητα από την μορφή του προβλήματος που έχουμε να αντιμετωπίσουμε, η διαδικασία αναγνώρισης χωρίζεται σε πέντε βασικά στάδια (Εικόνα 1.1): 1. Προ-επεξεργασία (Pre-processing) 2. Κατάτμηση (Segmentation) 3. Εξαγωγή Χαρακτηριστικών (Feature Extraction) 4. Ταξινόμηση (Classification) 5. Μετά-επεξεργασία (Post-processing) Το στάδιο της προ-επεξεργασίας περιλαμβάνει τη δυαδική μετατροπή (μετατροπή της gray scale εικόνας σε ασπρόμαυρη), τη βελτίωση της ποιότητας (εξάλειψη θορύβου, βελτίωση της ποιότητας του κειμένου) και την διόρθωση της στροφής της εικόνας (διόρθωση στροφής της εικόνας η οποία έχει προκύψει λόγω της µη ευθυγραμμισμένης τοποθέτησης του εγγράφου στο σαρωτή). Στο στάδιο της κατάτμησης γίνεται ο εντοπισμός των βασικών συστατικών του εγγράφου (εικόνες, γραφικά, τμήματα κειμένου, παράγραφοι, γραμμές κειμένου, λέξεις, γράμματα). Το στάδιο της εξαγωγής χαρακτηριστικών περιλαμβάνει τη προσπάθεια αντιστοίχησης των συστατικών του εγγράφου (λέξεις ή χαρακτήρες) με κάποια διανύσματα, τα οποία αντιπροσωπεύουν τα συστατικά. Τα διανύσματα αυτά προκύπτουν από την ανάλυση των τοπολογιών, των γεωμετρικών, των στατιστικών ή των δομικών στοιχείων των συστατικών του εγγράφου. Το στάδιο της αναγνώρισης ή ταξινόμησης περιλαμβάνει τη κατάστρωση ενός ταξινομητή για τη κατάταξη του κάθε διανύσματος χαρακτηριστικών και του αντίστοιχου χαρακτήρα σε γνωστή κλάση γράμματος. Τέλος, το στάδιο της τελικής επεξεργασίας συνήθως περιλαμβάνει τον έλεγχο και τη διόρθωση του τελικού αποτελέσματος µε την χρήση λεξικού. 18

Χειρόγραφο Έγγραφο Ψηφιακή Δυαδική Εικόνα Μεμονωμένοι Χαρακτήρες Διανύσματα Εκπαίδευσης Ταξινομημένοι Χαρακτήρες Αναγνωρισμένο Κείμενο Σάρωμα Προεπεξεργασία Κατάτμηση Εξαγωγή Χαρακτηριστικών Αναγνώριση Τελική Επεξεργασία α) β) Εικόνα 1.1: α) Τα βασικά στάδια αναγνώρισης κειμένου, από το επίπεδο του κειμένου στο χαρτί έως το ψηφιακό κείμενο, β) Παράδειγμα σαρωμένου χειρόγραφου κειμένου προς αναγνώριση. Η αναγνώριση χειρόγραφων κειμένων βρίσκει αρκετές πρακτικές εφαρμογές, όπως επεξεργασία και αναγνώριση τραπεζικών επιταγών, αιτήσεων και διευθύνσεων σε ταχυδρομικά εμβάσματα. Οι τραπεζικές επιταγές εξακολουθούν να αποτελούν το κύριο μέσο τραπεζικών συναλλαγών, παρά την αύξηση στη χρήση πιστωτικών ή προπληρωμένων καρτών. Από τη στιγμή επομένως που τα σημαντικότερα μέρη μιας επιταγής, όπως όνομα παραλήπτη, ημερομηνία, χρηματικό ποσό και υπογραφή, είναι χειρόγραφα, το τραπεζικό σύστημα σαφώς και ενδιαφέρεται για νέες μεθοδολογίες αυτοματοποίησης της διαδικασίας. Πιο εύκολη διαδικασία είναι η επεξεργασία αιτήσεων, αφού στις περισσότερες περιπτώσεις τα «κουτιά» που αφήνονται κενά προς συμπλήρωση, ουσιαστικά διευκολύνουν τον εντοπισμό των περιοχών χειρόγραφου κειμένου. Από την άλλη, η αναγνώρισης ταχυδρομικών διευθύνσεων είναι αρκετά πιο δύσκολη, αφού η περιοχή ενδιαφέροντος μπορεί να περιέχει χειρόγραφο κείμενο από διαφορετικούς συγγραφείς ακόμα και χειρόγραφο και τυπωμένο κείμενο μαζί. 1.2 Στόχοι και Προτάσεις της Διδακτορικής Διατριβής Η παρούσα διδακτορική διατριβή επικεντρώνεται στην off-line αναγνώριση χειρόγραφων κειμένων και ειδικότερα στα στάδια εξαγωγής χαρακτηριστικών και αναγνώρισης χαρακτήρων. Το στάδιο της εξαγωγής χαρακτηριστικών είναι πολύ σημαντικό, αφού επηρεάζει άμεσα το αποτέλεσμα της αναγνώρισης. Τα διανύσματα χαρακτηριστικών που εξάγονται θα πρέπει να είναι 19

αντιπροσωπευτικά και ταυτόχρονα ανεξάρτητα από θόρυβο, στροφή, μετατόπιση, κλίμακα, κλίση και παραμόρφωση, ούτως ώστε να διευκολύνουν τη διαδικασία της αναγνώρισης. Από την άλλη και η επιλογή του ταξινομητή δεν είναι μια εύκολη διαδικασία αφού εξαρτάται από διάφορους παράγοντες όπως το διαθέσιμο σύνολο εκπαίδευσης (training set) ή την ύπαρξη (εκτίμηση) των ελευθέρων παραμέτρων κ.τ.λ. Οι στόχοι που προσπαθήσαμε να επιτύχουμε είναι: Εξαγωγή αξιόπιστων χαρακτηριστικών τα οποία μπορούν να οδηγήσουν σε υψηλά ποσοστά αναγνώρισης. Ανάπτυξη κατάλληλου ταξινομητή για την επίτευξη του παραπάνω στόχου. Δημιουργία κατάλληλου περιβάλλοντος αποτίμησης των νέων τεχνικών, που περιλαμβάνει και την δημιουργία νέων βάσεων χαρακτήρων. Ολοκληρωμένο σύστημα αναγνώρισης χειρόγραφων κειμένων Μελέτη της επίδρασης των υπολοίπων σταδίων ενός συστήματος αναγνώρισης χειρογράφων, με έμφαση στην διαδικασία κατάτμησης. Για την επίτευξή τους προτείνονται: Δύο νέες μεθοδολογίες αναγνώρισης χειρόγραφων χαρακτήρων που βασίζονται στο συνδυασμό διαφόρων χαρακτηριστικών. Στην πρώτη μεθοδολογία χρησιμοποιούνται χαρακτηριστικά που εξάγονται μετά τη διαίρεση της εικόνας του χαρακτήρα σε ζώνες και σε χαρακτηριστικά που στηρίζονται στις προβολές. Στη δεύτερη μεθοδολογία το διάνυσμα χαρακτηριστικών προκύπτει από συνδυασμό διαφόρων τεχνικών εξαγωγής χαρακτηριστικών συμπεριλαμβανομένων και των χαρακτηριστικών της πρώτης μεθοδολογίας. Λόγω του μεγάλου μεγέθους του διανύσματος χαρακτηριστικών που προκύπτει υιοθετήθηκε και ένα σχήμα μείωσης της διάστασης (dimensionality reduction scheme) με χρήση της LDA (linear discriminant analysis). Από τα πειραματικά αποτελέσματα προκύπτει ότι η δεύτερη μεθοδολογία έχει καλύτερα αποτελέσματα από την πρώτη, ενώ και οι δυο ξεπερνούν σε απόδοση υπάρχουσες state-of-the-art μεθοδολογίες αναγνώρισης ελληνικών χειρόγραφων χαρακτήρων. Μια πρωτότυπη μεθοδολογία αναγνώρισης χειρόγραφων χαρακτήρων. Η μεθοδολογία αυτή βασίζεται σε μια νέα τεχνική εξαγωγής χαρακτηριστικών σε 20

συνδυασμό με ένα ιεραρχικό σχήμα ταξινόμησης. Τα χαρακτηριστικά που εξάγονται, στηρίζονται στην αναδρομική διαίρεση της εικόνας χαρακτήρα με βάση το προτεινόμενο division point (DP) σε κάθε επίπεδο υπό-διαίρεσης. To DP είναι το σημείο αυτό που διαχωρίζει το χαρακτήρα σε τέσσερεις υπόεικόνες με τέτοιο τρόπο ώστε ο αριθμός των pixels εικόνας να είναι ίδιος (όσο το δυνατό είναι αυτό εφικτό) σε κάθε μία. Αρχικά, με βάση το σύνολο εκπαίδευσης, εντοπίζεται το επίπεδο υπό-διαίρεσης όπου έχουμε το καλύτερο ποσοστό αναγνώρισης. Σε αυτό το επίπεδο (αρχικό επίπεδο), σαρώνεται το αντίστοιχο confusion matrix, εντοπίζονται τα groups των κλάσεων που αλληλοαποκλείονται και συγχωνεύονται. Επίσης, αυτό είναι και το επίπεδο με χαρακτηριστικά του οποίου εκπαιδεύεται ο αρχικός ταξινομητής. Αν στη συνέχεια ο ταξινομητής αποφασίσει πως κάποιο πρότυπο του συνόλου προς αναγνώριση (test set) ανήκει σε ένα από τα εντοπισμένα groups κλάσεων, τότε για το group που αντιστοιχίζεται, ένας καινούργιος ταξινομητής εκπαιδεύεται, με χαρακτηριστικά από το επίπεδο που διαχωρίζονται καλύτερα οι κλάσεις του, και αυτός παίρνει την τελική απόφαση. Επίσης, η μεθοδολογία αυτή χρησιμοποιήθηκε και για την αναγνώριση χειρόγραφων ψηφίων, χαρακτήρων που προέρχονται από ιστορικά κείμενα καθώς και για την αναγνώριση(ή τον εντοπισμό) λέξεων. Επιπλέον προτείνονται: Η δημιουργία μίας βάσης ελληνικών χειρόγραφων χαρακτήρων. Ένα εργαλείο για τη δημιουργία βάσης χαρακτήρων από ιστορικά κείμενα χωρίς a priori γνώση της γραμματοσειράς ή των συμπλεγμάτων που υπάρχουν. Η δημιουργία της βάσης στηρίζεται σε μια ημιαυτόματη διαδικασία που έχει ως αφετηρία το clustering πάνω στα αποτελέσματα της κατάτμησης χαρακτήρων. Μια πρωτότυπη μεθοδολογία εκτίμησης του βέλτιστου συνόλου των ελεύθερων παραμέτρων για την κατάτμηση χαρακτήρων, με στόχο την βελτίωση του ποσοστού αναγνώρισης. Σύμφωνα με αυτή τη μεθοδολογία το αποτέλεσμα της κατάτμησης αποτιμάται με βάση το clustering, έχοντας ως αρχική ιδέα πως η καλύτερη κατάτμηση θα δώσει και το καλύτερο clustering. Έτσι, το βέλτιστο clustering προέρχεται από κατάτμηση που έχει προκύψει από το βέλτιστο σύνολο παραμέτρων. Ταυτόχρονα εντοπίζεται και ο βέλτιστος αριθμός clusters. 21

Ένα ολοκληρωμένο σύστημα Οπτικής Αναγνώρισης Ιστορικών Κειμένων που ενσωματώνει τις περισσότερες από τις παραπάνω μεθοδολογίες. Τα πειραματικά αποτελέσματα πάνω σε γνωστές βάσεις, αλλά και πάνω στις βάσεις που δημιουργήθηκαν στα πλαίσια αυτής της διατριβής, καταδεικνύουν την αποτελεσματικότητα των μεθοδολογιών που αναπτύχθηκαν. Η δομή της υπόλοιπης διατριβής έχει ως εξής: στο Κεφάλαιο 2 γίνεται μια αναλυτική περιγραφή των σταδίων ενός συστήματος οπτικής αναγνώρισης χαρακτήρων παραθέτοντας πληθώρα μεθοδολογιών που αυτή τη στιγμή υπάρχουν στην βιβλιογραφία. Στο Κεφάλαιο 3 παρουσιάζονται οι βάσεις χαρακτήρων που χρησιμοποιήθηκαν στα πειράματα που έγιναν, ενώ στο Κεφάλαιο 4 περιγράφονται οι δυο μεθοδολογίες αναγνώρισης χειρόγραφων χαρακτήρων με βάση τον συνδυασμό χαρακτηριστικών. Στο Κεφάλαιο 5 αναλύεται διεξοδικά η μεθοδολογία αναγνώρισης χειρόγραφων χαρακτήρων και ψηφίων που βασίζεται στον πρωτότυπο αλγόριθμο εξαγωγής χαρακτηριστικών και το ιεραρχικό σχήμα ταξινόμησης. Στο Κεφάλαιο 6 η παραπάνω μεθοδολογία εφαρμόζεται, με διάφορες παραλλαγές, τόσο για την αναγνώριση ιστορικών χαρακτήρων είτε χειρόγραφων ή τυπωμένων, όσο και την αναγνώριση χειρόγραφων λέξεων. Επίσης στο ίδιο κεφάλαιο γίνεται περιγραφή ενός αλγορίθμου για τον εντοπισμό λέξεων κλειδιών (keywords) σε εικόνες εγγράφων. Στο Κεφάλαιο 7 προτείνεται μια προσέγγιση για την αποτίμηση και εν γένει την βελτίωση της κατάτμησης σε επίπεδο χαρακτήρων με χρήση τεχνικών μηχανικής μάθησης χωρίς επίβλεψη, ενώ στο Κεφάλαιο 8 παρουσιάζεται ένα ολοκληρωμένο σύστημα οπτικής αναγνώρισης χαρακτήρων, που ενσωματώνει όλα τα προηγούμενα στάδια, για την μετατροπή εικόνων εγγράφου (π.χ..tiff,.jpeg κ.τ.λ.) σε ASCII κωδικοποίηση. Τέλος, συζήτηση για τα συμπεράσματα γίνεται στο Κεφάλαιο 9. 22

2. ΣΤΑΔΙΑ ΣΥΣΤΗΜΑΤΟΣ ΟΠΤΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΧΑΡΑΚΤΗΡΩΝ 2.1 Προ-επεξεργασία Τα δεδομένα, πριν υποστούν οποιαδήποτε επεξεργασία, ανάλογα με το τρόπο που αποκτήθηκαν, υποβάλλονται σε διάφορα βήματα προκαταρκτικής επεξεργασίας για τη βελτίωσή τους. Η προ-επεξεργασία αυτή στοχεύει στο να παράγει δεδομένα που θα είναι πιο εύκολο να χρησιμοποιηθούν στα διάφορα στάδια της OCR ώστε να έχουμε καλύτερα αποτελέσματα. Οι κύριοι στόχοι της προ-επεξεργασίας είναι: 1. Δυαδική Μετατροπή (Binarization) 2. Βελτίωση Ποιότητας (Enhancement) 3. Διόρθωση Στροφής (Skew Correction) και Τοπικής Καμπυλότητας (Dewarping) 4. Διόρθωση Κλίσης Γραμμάτων (Slant Correction) 5. Κανονικοποίηση Πάχους Χαρακτήρα (Stroke Width Normalization) Για να επιτευχθούν αυτοί οι στόχοι χρησιμοποιούμε τις παρακάτω μεθόδους: 2.1.1 Δυαδική Μετατροπή Η δυαδική μετατροπή μιας εικόνας αναφέρεται στην μετατροπή μίας gray-scale εικόνας σε δυαδική, δηλαδή ασπρόμαυρη (Εικόνα 2.1). Είναι το αρχικό βήμα στα περισσότερα συστήματα επεξεργασίας εικόνων εγγράφου. Συνήθως, διαχωρίζει περιοχές κειμένου από περιοχές υποβάθρου, επομένως χρησιμοποιείται και σαν τεχνική εντοπισμού κειμένου. Η δυαδική μετατροπή παίζει σημαντικό ρόλο στην επεξεργασία κειμένων διότι το αποτέλεσμά της επηρεάζει και τα μετέπειτα στάδια της κατάτμησης και της αναγνώρισης. Οι τεχνικές δυαδικής μετατροπής χωρίζονται σε δύο μεγάλες κατηγορίες: καθολικές και τοπικές. Στις μεθόδους καθολικής κατωφλίωσης επιλέγεται μια τιμή ως κατώφλι και στη συνέχεια όλες οι στάθμες κάτω από αυτό μετατρέπονται σε κείμενο και εκείνες που είναι πάνω από το κατώφλι μετατρέπονται σε υπόβαθρο [1]. Η σωστή επιλογή του κατωφλίου είναι σημαντική τόσο για το περιορισμό του θορύβου όσο και για τη ποιότητα και το πάχος των χαρακτήρων της τελικής εικόνας. Το ιστόγραμμα μιας gray-scale εικόνας εκφράζει την κατανομή των αποχρώσεων του γκρι της εικόνας και σε περιπτώσεις καθαρών εγγράφων εμφανίζει δύο βασικές 23

κατανομές που αντιστοιχούν στις περιοχές του υποβάθρου και του κειμένου. Στο [2] η επιλογή του κατωφλίου γίνεται με χρήση σημείων ακμών, ενώ στο [3] η κατωφλίωση επιτυγχάνεται χρησιμοποιώντας μια επαναληπτική μέθοδο που λαμβάνει υπόψη τις περιοχές κειμένου και τις περιοχές υποβάθρου που εμφανίζονται σε κάθε βήμα επανάληψης. (α) (β) Εικόνα 2.1: Δυαδική μετατροπή. α) Αρχική Εικόνα, β) Ασπρόμαυρη Εικόνα. Στις μεθόδους τοπικής κατωφλίωσης αναζητούνται πολλές τιμές κατωφλίων ανάλογα με την τοπική πληροφορία της εικόνας. Σε αντίθεση με τις μεθόδους καθολικής κατωφλίωσης που μπορούν να εφαρμοστούν μόνο στις περιπτώσεις όπου υπάρχει σαφής διάκριση των περιοχών του κειμένου από το υπόβαθρο, οι μέθοδοι τοπικής κατωφλίωσης επιτυγχάνουν τη βέλτιστη δυαδική μετατροπή ακόμα και σε περιπτώσεις που δεν πληρούν αυτές τις προϋποθέσεις. Έτσι μπορούν να αντιμετωπίσουν με επιτυχία ακόμα και παλιά έγγραφα όπου έχουμε χαμηλή ποιότητα χαρακτήρων, σκιές, μη ομοιόμορφη φωτεινότητα υποβάθρου, έντονο θόρυβο κτλ. Στις εργασίες [4],[5] το κατώφλι επιλέγεται για κάθε pixel μετακινώντας ένα ορθογώνιο παράθυρο μέσα στην εικόνα. Μία τεχνική τοπικής κατωφλίωσης που χρησιμοποιεί την πληροφορία από το υπόβαθρο παρουσιάζεται στο [6]. 2.1.2 Βελτίωση Ποιότητας Ο θόρυβος είναι αποτέλεσμα της κακής ψηφιοποίησης, της χαμηλής ποιότητας του αρχικού εγγράφου, της παλαιότητας του εγγράφου κτλ. Μερικά από τα προβλήματα, που προκαλεί ο θόρυβος στη ποιότητα των δεδομένων και πρέπει να αντιμετωπιστούν, είναι οι ασυνέχειες και οι οπές στο σώμα των χαρακτήρων, το μη ομαλό περίγραμμα των χαρακτήρων, η επικάλυψη συμβόλων του υποβάθρου με το κείμενο, κ.α. Η παραμόρφωση, συμπεριλαμβανομένων των τοπικών παραλλαγών, όπως η στρογγυλοποίηση των γωνιών, η διαστολή και η διάβρωση, είναι επίσης ένα συνηθισμένο πρόβλημα. Στην Εικόνα 2.2 παρουσιάζονται μερικά παραδείγματα θορύβου. 24

(α) (β) (γ) (δ) (ε) (ζ) Εικόνα 2.2: Παραδείγματα θορύβου (α) θόρυβος αλατοπίπερου, (β) θόρυβος που αποτελείται από τμήματα εικόνας μικρού μεγέθους, (γ) οπές, (δ) ασυνέχειες στο σώμα των χαρακτήρων, (ε) ενωμένα γράμματα. (ζ) μη ομαλή περίμετρος των χαρακτήρων. Συνεπώς, πριν την διαδικασία της αναγνώρισης των χαρακτήρων, είναι απαραίτητο να εξαλειφθούν όλες αυτές οι ατέλειες. Οι μέθοδοι που χρησιμοποιούνται για την αντιμετώπιση των παραπάνω προβλημάτων μπορούν να ταξινομηθούν στις παρακάτω βασικές κατηγορίες: φίλτρα και μαθηματική μορφολογία. Η χρήση φίλτρων στοχεύει στο να αφαιρεθεί ο θόρυβος και να ελαττωθούν τα μαύρα σημεία, που εισάγονται συνήθως από την ανώμαλη επιφάνεια γραψίματος ή τον χαμηλό ρυθμό δειγματοληψίας της συσκευής ανάκτησης των δεδομένων (π.χ. σαρωτής). Για αυτό το σκοπό έχει σχεδιαστεί ένα πλήθος φίλτρων, τόσο στο πεδίο του χώρου, όσο και στο πεδίο των συχνοτήτων. Η βασική ιδέα απαιτεί μια προκαθορισμένη μάσκα (παράθυρο) να διατρέχει ολόκληρη την εικόνα και η τιμή κάθε pixel να καθορίζεται συναρτήσει των τιμών των γειτονικών του pixels [7]. Φίλτρα μπορούν να αναπτυχθούν για την εξομάλυνση της εικόνας (smoothing), για την αύξηση της οξύτητας (sharpening), για τη κατωφλίωση (thresholding), για την αφαίρεση αχνών σημείων κειμένου ή υπόβαθρου και για τη βελτίωση της αντίθεσης φωτεινότητας (contrast) [8]. Η μαθηματική μορφολογία αναφέρεται στην μελέτη της γεωμετρίας, της τοπολογίας και της μορφής των αντικειμένων. Αφορά συγκεκριμένες πράξεις, όπου μια εικόνα αλληλεπιδρά με ένα δομικό στοιχείο και μετατρέπεται σε μια απλοποιημένη και λειτουργική μορφή, κρατώντας τα βασικά χαρακτηριστικά της μορφής της. Στοχεύει, κυρίως, στην βελτίωση της δομής των αντικειμένων 25

(φιλτράρισμα θορύβου, βελτίωση της ποιότητας και απλοποίηση των αντικειμένων, σκελετός, λέπτυνση, πάχυνση της εικόνας, λείανση των περιγραμμάτων) και στην ποσοτική περιγραφή των αντικειμένων (χαρακτηριστικά εμβαδού, περιμέτρου, προβολών). Οι περισσότερες μορφολογικές πράξεις μπορούν να οριστούν χρησιμοποιώντας τις δύο βασικές μορφολογικές πράξεις οι οποίες είναι η διάβρωση (erosion) και η διαστολή (dilation). Έστω το αντικείμενο A και το δομικό στοιχείο B. Τότε Bx είναι η μετατροπή του B ώστε η αρχή του είναι το x. Το erosion της εικόνας A µε δομικό στοιχείο B ορίζεται σαν το σύνολο των σημείων x τέτοια ώστε το Bx περιλαμβάνεται στην εικόνα A: Α Ө Β={ x : B A}. Αντίστοιχα, το dilation της εικόνας A µε δομικό στοιχείο B ορίζεται σαν το σύνολο των σημείων x τέτοια ώστε το Bx και η εικόνα A έχουν µη κενή τομή: Α Β={ x: B A }. Στην Εικόνα 2.3 φαίνεται µία αναπαράσταση του dilation και του erosion μιας εικόνας A µε δομικό στοιχείο B. Η αρχική εικόνα A έχει συνεχόμενη γραμμή, ενώ µε διακεκομμένη γραμμή αναπαρίσταται η τελική εικόνα μετά τον μετασχηματισμό. Άλλες δύο σημαντικές πράξεις της μαθηματικής μορφολογίας είναι το άνοιγμα (opening) και το κλείσιμο (closing). Το opening είναι ένα erosion, το οποίο ακολουθείται από ένα dilation (Αo B= (Α Ө Β) Β), ενώ το closing είναι ένα dilation το οποίο ακολουθείται από ένα erosion (Α B= (Α Β) Ө Β). Στην Εικόνα 2.4 φαίνεται µία αναπαράσταση του opening και closing της εικόνας A µε δομικό στοιχείο B. Η αρχική εικόνα A έχει συνεχόμενη γραμμή ενώ µε έντονη διακεκομμένη γραμμή αναπαρίσταται η τελική εικόνα μετά το μετασχηματισμό. Επίσης, με απλή διακεκομμένη γραμμή αναπαρίσταται ο ενδιάμεσος μετασχηματισμός (erosion ή dilation). Στο στάδιο της βελτίωσης της ποιότητας του εγγράφου συμπεριλαμβάνονται και προσεγγίσεις που στοχεύουν στην απομάκρυνση των μαύρων περιοχών που εμφανίζονται λόγω κακής ψηφιοποίησης του εγγράφου ή λόγω της δυαδικής μετατροπής. Στην βιβλιογραφία έχουν προταθεί διάφοροι μέθοδοι για την αντιμετώπιση του προβλήματος, όπως η μέθοδος των Avila et al. [21] όπου ορίζονται διάφοροι κανόνες ώστε να αφαιρείται το μαύρο περιθώριο χωρίς να x x 26