ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΥΠΟΕΡΓΟ 3 ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΥΠΕΥΘΥΝΟΣ ΧΑΡΑΛΑΜΠΟΣ ΣΤΡΟΥΘΟΠΟΥΛΟΣ - ΚΑΘΗΓΗΤΗΣ ΜΕΘΟΔΟΙ ΑΝΑΛΥΣΗΣ ΤΗΣ ΔΟΜΗΣ ΣΕΛΙΔΑΣ ΠΑΚΕΤΟ ΕΡΓΑΣΙΑΣ 2
Διερεύνηση της χρησιμότητας του διακριτού μετασχηματισμού κυματιδίου (DWT) στον εντοπισμό περιοχών κειμένου σε έγγραφα μικτού περιεχόμενου (ΤΕΧΝΙΚΗ ΑΝΑΦΟΡΑ) Στα πλαίσια της έρευνάς μας ασχοληθήκαμε με την ανάπτυξη μεθόδων που αποσκοπούσαν στον εντοπισμό και στην εξαγωγή περιοχών κειμένου από έγγραφα με μικτό περιεχόμενο, δηλαδή έγγραφα που περιέχουν κείμενο, εικόνες και γραμμικά σχέδια. Πολλές από τις μεθόδους που έχουν προταθεί έως σήμερα αναλύουν τη δομή των εγγράφων όχι στο πεδίο της εικόνας, αλλά σε κάποιο πεδίο μετασχηματισμού όπως ο διακριτός μετασχηματισμός συνημιτόνου (DCT) ή ο διακριτός μετασχηματισμός Fourier (DFT). Η προσέγγιση αυτή έχει το πλεονέκτημα της αναπαράστασης της πληροφορίας σε σχέση με το συχνοτικό της περιεχόμενο, το οποίο μπορεί να αποκαλύψει ευκολότερα ποιες περιοχές της εικόνας έχουν συγκεκριμένη υφή. Οι Li et al [1] πρότειναν τη χρήση του διακριτού μετασχηματισμού κυματιδίου (DWT) προκειμένου να προκύψουν εκδόσεις της αρχικής εικόνας σε πολλαπλές αναλύσεις και να εξάγουν στη συνέχεια χαρακτηριστικά των υψηλοσυχνοτικών περιοχών σε κάθε επίπεδο. Στη συνέχεια, και αφού γίνει επιλογή των ισχυρότερων χαρακτηριστικών, το διάνυσμα χαρακτηριστικών εισάγεται σε ένα νευρωνικό δίκτυο τριών επιπέδων για εκπαίδευση. Τέλος, σαρώνεται η εικόνα με ένα παράθυρο κατάλληλου μεγέθους και αποφασίζεται, αναλόγως της εξόδου του νευρωνικού δικτύου, αν το παράθυρο περιέχει κείμενο ή όχι. Οι Ye et al [2] επίσης χρησιμοποίησαν τον DWT σε ένα αρχικό στάδιο της μεθόδου τους προκειμένου να εντοπίσουν στη συνέχεια υποψήφιες γραμμές κειμένου. Με τη βοήθεια ενός εκπαιδευμένου μοντέλου SVM (Support Vector Machine) και με χρήση χαρακτηριστικών υφής, αναγνωρίζουν τις περιοχές κειμένου. Τα αποτελέσματα για κάθε επίπεδο ανάλυσης συγχωνεύονται για να δώσουν τις τελικώς ανιχνευμένες γραμμές κειμένου. Αυτές με τη σειρά τους αποτελούν νέο σύνολο εκπαίδευσης για το μοντέλο SVM. 2
Οι Jiménez και Martí [3] έδειξαν ότι είναι δυνατό να εντοπιστούν οι περιοχές κειμένου που έχει υπερτεθεί σε φυσικές εικόνες, χρησιμοποιώντας και πάλι τον DWT ακολουθούμενο από μια ανάλυση της κατανομής των στατιστικών δεύτερης τάξης στις ζώνες υψηλών συχνοτήτων του μετασχηματισμού. Μια αντίστοιχη προσέγγιση επιχειρήσαμε να ακολουθήσουμε κι εμείς στα πειράματά μας με εικόνες μικτού περιεχόμενου. Έτσι εφαρμόσαμε τον διακριτό μετασχηματισμό κυματιδίου (DWT) με χρήση της συνάρτησης βάσης του Haar. Ο μετασχηματισμός αυτός ουσιαστικά εφαρμόζει ένα υψηλοπερατό και ένα χαμηλοπερατό μονοδιάστατο φίλτρο στην αρχική εικόνα, ακολουθούμενα από υποδειγματοληψία κατά 2. Αυτό γίνεται και κατά τις δύο διαστάσεις της εικόνας, σε όλους τους συνδυασμούς, με αποτέλεσμα την παραγωγή τεσσάρων εικόνων, της εικόνας προσέγγισης LL και των τριών εικόνων λεπτομέρειας HL, LH και HH. Ένα παράδειγμα αποσύνθεσης μιας εικόνας που περιέχει και κείμενο με χρήση του μετασχηματισμού DWT φαίνεται στη Εικόνα 1. Πάνω αριστερά διακρίνεται η εικόνα προσέγγισης, πάνω δεξιά η εικόνα λεπτομέρειας HL, κάτω αριστερά η LH και κάτω δεξιά η HH. Είναι προφανές ότι οι εικόνες λεπτομέρειας μας παρέχουν πληροφορία για τις τοπικές ασυνέχειες της εικόνας, ενώ ταυτόχρονα είναι και χωρικά προσανατολισμένες. Με άλλα λόγια, η μία εικόνα λεπτομέρειας μας δίνει τις οριζόντιες ακμές της αρχικής εικόνας, η άλλη τις κάθετες και η τρίτη τις διαγώνιες. Η 3
Εικόνα 1: Αποσύνθεση εικόνας με τον διακριτό μετασχηματισμό κυματιδίου (DWT) ενέργεια σε κάθε μια από αυτές τις χωροσυχνοτικές μπάντες, δείχνει ουσιαστικά το πόσο έντονη είναι η αντίστοιχη ακμή της αρχικής εικόνας. Η διαδικασία του μετασχηματισμού μπορεί να συνεχιστεί με την εικόνα προσέγγισης, η οποία είναι ουσιαστικά μια χονδρική εκδοχή της αρχικής εικόνας. Μπορούμε δηλαδή να εφαρμόσουμε και πάλι τον DWT στην εικόνα LL ώστε να 4
πάρουμε πληροφορία για το περιεχόμενο της εικόνας σε ένα χαμηλότερο επίπεδο ανάλυσης. Ωστόσο η εφαρμογή του μετασχηματισμού, έστω και στο αρχικό μόνο επίπεδο ανάλυσης, είναι εξαιρετικά χρονοβόρα διαδικασία, καθώς απαιτεί συνέλιξη της εικόνας με τα κατάλληλα φίλτρα. Αυτό, ακόμα και με τις πιο βελτιστοποιημένες μεθόδους υπολογισμού όπως είναι το lifting, έχει πολυπλοκότητα Ο(Ν 2 ), όπου Ν το πλήθος των σημείων της εικόνας. Είναι προφανές ότι, ιδιαίτερα για εικόνες υψηλής ανάλυσης, ο υπολογισμός του DWT είναι ασύμφορος. Στην δική μας περίπτωση, που επιθυμούμε να υλοποιήσουμε μια εφαρμογή πραγματικού χρόνου και, μάλιστα, ο χρόνος διεκπεραίωσης να είναι ανταγωνιστικός σε σχέση με αυτόν ενός καλού αλγόριθμου οπτικής αναγνώρισης χαρακτήρων (OCR), καταλήξαμε ότι η χρήση του DWT, καθώς και οποιουδήποτε άλλου μετασχηματισμού σε υποζώνες συχνοτήτων, δεν είναι αποδεκτή. Επιπλέον, για την περίπτωση της δικής μας έρευνας, όπου επιθυμούμε τελικά την εξαγωγή των περιοχών κειμένου, οπωσδήποτε απαιτείται περαιτέρω ανάλυση των εικόνων λεπτομέρειας. Αυτό θα μπορούσε να γίνει με χρήση χαρακτηριστικών υφής που θα ήταν μονοσήμαντα για χαρακτήρες, αλλά αφού πρώτα θα είχαν προσαρμοστεί κατάλληλα σε μια συχνοτική αναπαράσταση. Αντί για αυτό, μπορούμε να χρησιμοποιήσουμε απευθείας αυτά τα ίδια χαρακτηριστικά, για τον εντοπισμό του κειμένου στο πεδίο της εικόνας. [1] H. Li, D. Doermann and O. Kia, Automatic Text Detection and Tracking in Digital Video, IEEE Transactions on Image Processing, vol. 9(1), January 2000, pp. 147-156. [2] Q. Ye, Q. Huang, W. Gao and D. Zhao, Fast and Robust Text Detection in Images and Video Frames, Image and Vision Computing, vol. 23(6), June 2005, pp. 565-576. [3] J. Jiménez and E. Martí, Localization of Caption Texts in Natural Scenes 5
Using a Wavelet Transformation, 9 th Iberoamerican Congress on Pattern Recognition (CIARP 2004), Puebla, Mexico, October 26-29, 2004, pp. 100-107. Μετά από τα συμπεράσματα που προέκυψαν από την παραπάνω μελέτη σχετικά με την αντιμετώπιση του προβλήματος της ανάλυσης δομής σελίδας στο πεδίο της συχνότητας οδηγηθήκαμε στην επιλογή αντιμετώπισης του προβλήματος στο πεδίο του χώρου. Υπάρχει πληθώρα δημοσιευμένων μεθόδων που ασχολούνται με την ανάλυση δομής σελίδας στο πεδίο του χώρου. Οι μέθοδοι αυτές προϋποθέτουν ότι οι χαρακτήρες του κειμένου έχουν κοινό προσανατολισμό και μέγεθος μέσα στην σελίδα, πολλές δε από αυτές προϋποθέτουν ότι τα blocks κειμένου είναι οριζόντια. Η έρευνα μας εστιάσθηκε στην εύρεση μιας αποδοτικής τεχνικής ανεξάρτητης από τον προσανατολισμό και το μέγεθος των χαρακτήρων. Το αποτέλεσμα της ερευνητικής προσπάθειας ήταν η δημιουργία μιας της τεχνικής που περιγράφεται συνοπτικά ακολούθως. Αρχικά προσδιορίζονται τα συνεκτικά χωρία στο δυαδικό έγγραφο. Με ανάλυση των κύριων αξόνων κάθε συνεκτικού χωρίου βρίσκουμε τις διαστάσεις (ύψος και πλάτος) κάθε χωρίου κατά την διεύθυνση κάθε άξονα.. Υπολογίζεται ακολούθως η απόσταση κάθε χωρίου με το γειτονικότερό του. Με χαρακτηριστικά τις διαστάσεις κάθε χωρίου τροφοδοτείται ένας αυτό-οργανούμενος πίνακας απεικόνισης χαρακτηριστικών (νευρωνικό δίκτυο Kohonen) και προσδιορίζονται οι συγκεντρώσεις ομοιογενών χωρίων του εγγράφου. Τα πρωτότυπα που βρίσκονται χρησιμοποιούνται στην υλοποίηση ενός ασαφούς ταξινομητού που διακρίνει τα χωρία των χαρακτήρων. Η τεχνική αυτή εστάλη προς κρίση και δημοσίευση με τον ακόλουθο τίτλο: Rotation and scale invariant text extraction in binary document images, C.Strouthopoulos and A.Nikolaidis. 6