ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα πολυδιάστατου ψηφιακού σήµατος (Εικόνες Εικονοσειρές)» Πακέτο Εργασίας 2: Ανάκτηση εικόνων / εγγράφων ΠΑΡΑ ΟΤΕΟ Π6 Παρουσίαση των αποτελεσµάτων της έρευνας στην ιστοσελίδα του έργου Επιστηµονικός υπεύθυνος: ρ Βασίλειος Χατζής Οµάδα εργασίας: Παπαµάρκος Νικόλαος Ηλεκτρολόγος Μηχανικός / Καθηγητής.Π.Θ Μπαντέκας Ευθύµιος ΜΦ-Υποψήφιος ιδάκτορας.π.θ. Νικολάου Νικόλαος ΜΦ-Υποψήφιος ιδάκτορας.π.θ.
1. Εισαγωγή Η µεθοδολογία που επιλέχθηκε για το σκοπό της ανάκτησης έγχρωµων εγγράφων (σύµφωνα µε τα απαιτούµενα του πακέτου εργασίας 2) αφορά την τεχνική του word spottng (εντοπισµός λέξης) [1]. Στην περίπτωση αυτή ο χρήστης δίνει σαν ερώτηµα αναζήτησης µία λέξη κλειδί (query word) που επιθυµεί να υπάρχει µέσα στα έγγραφα. Με βάση τη λέξη κλειδί, το σύστηµα εξάγει κατάλληλα χαρακτηριστικά τα οποία συγκρίνονται µε τα ήδη υπάρχοντα µέσα στη βάση δεδοµένων. Για τα χαρακτηριστικά που εξάγονται χρησιµοποιούνται οι ιδιότητες της εικόνας της λέξης. Το γεγονός αυτό δίνει το πλεονέκτηµα της αναζήτησης µε ανεξαρτησία ως προς τη γλώσσα. Επίσης, είναι επιθυµητό τα χαρακτηριστικά να παρέχουν ανεξαρτησία ως προς τη γραµµατοσειρά και το στυλ γραφής. Η ίδια µεθοδολογία που χρησιµοποιείται για τη λέξη κλειδί, ακολουθείται και κατά τη διαδικασία αποθήκευσης των χαρακτηριστικών στη βάση δεδοµένων µε τη διαφορά ότι η εργασία αυτή εκτελείται offlne. Για να είναι εφικτή η εξαγωγή των λέξεων ως εικόνες από ένα έγχρωµο έγγραφο θα πρέπει αρχικά να εντοπιστούν οι περιοχές κειµένου και στη συνέχεια να τµηµατοποιηθούν σε επίπεδο λέξεων. Το σύστηµα εντοπισµού των περιοχών κειµένου περιλαµβάνει τη µείωση των χρωµάτων της αρχικής εικόνας, τη διάσπασή της σε δυαδικά επίπεδα, τον εντοπισµό των αντικειµένων του κειµένου σε κάθε επίπεδο ξεχωριστά και τέλος τη σύνθεση των δυαδικών επιπέδων στην τελική εικόνα που θα περιλαµβάνει τις χαρακτηρισµένες ως κείµενο περιοχές από κάθε επίπεδο. Όλο το σύστηµα ανάκτησης έγχρωµων εγγράφων δίνεται στο διάγραµµα του Σχήµατος 1. Σχήµα 1. ιάγραµµα µεθοδολογίας για την αυτόµατη ανάκτηση έγχρωµων εγγράφων από βάσεις δεδοµένων µε βάση την τεχνική του word spottng. Σε ένα πολύ µεγάλο ποσοστό, η ορθή εξαγωγή των περιοχών του κειµένου εξαρτάται από το πόσο καλά έχει τµηµατοποιηθεί η έγχρωµη εικόνα, δηλαδή από την απόδοση
της τεχνικής µείωσης χρωµάτων. Είναι πολύ σηµαντικό οι χαρακτήρες να µην ενωθούν µε το υπόβαθρο ή να διασπαστούν σε επιµέρους αντικείµενα. Ένα παράδειγµα ορθής µείωσης χρωµάτων δίνεται στο Σχήµα 2. Το αποτέλεσµα αυτό επιτρέπει τη χρήση ανάλυσης συνδεδεµένων στοιχείων πάνω στα δυαδικά επίπεδα και την εξαγωγή των περιοχών κειµένου καθώς οι χαρακτήρες έχουν µετατραπεί σε οµοιογενή αντικείµενα, έχουν δηλαδή το ίδιο χρώµα. (α) Αρχικό έγγραφο (34763 χρώµατα) (β) Μείωση χρωµάτων (3 χρώµατα) (γ) 1ο δυαδικό επίπεδο (δ) 2ο δυαδικό επίπεδο (ε) 3ο δυαδικό επίπεδο Σχήµα 2. Παράδειγµα µείωσης χρωµάτων και εξαγωγής των δυαδικών επιπέδων. Στα πλαίσια του παρόντος ερευνητικού προγράµµατος έχει υλοποιηθεί µία νέα µέθοδος για το σκοπό της µείωσης των χρωµάτων στα έγγραφα. Η συγκεκριµένη εργασία έχει δηµοσιευτεί σε διεθνές συνέδριο [2] και αναλύεται λεπτοµερώς στην επόµενη ενότητα. Επίσης, η εργασία αυτή έχει επιλεγεί για δηµοσίευση στο βιβλίο Computer Graphcs and Vson Theory and Applcatons I το οποίο εκδίδεται από την Sprnger. Επίσης, σχεδιάστηκε και υλοποιήθηκε ένα σύστηµα ανάκτησης ψηφιακών εγγράφων. 2. Μέθοδος µείωσης χρωµάτων Η παρούσα µέθοδος µείωσης χρωµάτων εκµεταλλεύεται µία σηµαντική ιδιότητα των ακµών µίας εικόνας για να προσεγγίσει την τρισδιάστατη κατανοµή του χρωµατικού χώρου RGB. Συγκεκριµένα, γίνεται δειγµατοληψία λαµβάνοντας ως δείγµατα τα εικονστοιχεία εκείνα που έχουν την ιδιότητα του τοπικού ελάχιστου στην εικόνα ακµών. Αυτό εξασφαλίζει τη λήψη δειγµάτων τα οποία χωρικά βρίσκονται στο εσωτερικό των αντικειµένων αποφεύγοντας έτσι τις περιοχές µετάβασης µεταξύ των αντικειµένων στις οποίες παρουσιάζεται µεγάλη ασάφεια. Επιπλέον, µε τη συγκεκριµένη φιλοσοφία τα χρώµατα από όλα τα αντικείµενα της εικόνας αντιπροσωπεύονται µέσα στο σύνολο των δειγµάτων. Στη συνέχεια, µε βάση το εξαγόµενο σύνολο δειγµάτων, πραγµατοποιείται µία αρχική µείωση των χρωµάτων ο αριθµός των οποίων είναι σχετικά µεγάλος, συνήθως όχι περισσότερα από 100. Στη φάση αυτή η εικόνα που προκύπτει είναι υπερτηµατοποιηµένη (oversegmented), τα κύρια συστατικά (π.χ. χαρακτήρες) δηλαδή αποτελούνται από ένα ή περισσότερα επιµέρους αντικείµενα. Τα κέντρα των κλάσεων από το προηγούµενο βήµα, χρησιµοποιούνται ακολούθως από µία διαδικασία µετατόπισης της µέσης τιµής (mean shft) [4] ώστε να εντοπιστούν τα τελικά σηµεία µέσα στο χρωµατικό χώρο RGB. Το τελικό αποτέλεσµα εξάγεται µε βάση τα σηµεία αυτά.
Για να αντιµετωπιστούν οι περιπτώσεις εικόνων µε θόρυβο καθώς επίσης και για να βελτιωθεί η αποδοτικότητα της όλης µεθόδου, γίνεται χρήση ενός προτεινόµενου φίλτρου εξοµάλυνσης το οποίο έχει την ιδιότητα να διατηρεί την πληροφορία των ακµών (Edge Preservng Smoothng Flter - EPSF). Το φίλτρο εφαρµόζεται ως µία διαδικασία προεπεξεργασίας. Συνοπτικά, η προτεινόµενη µέθοδος µείωσης χρωµάτων περιλαµβάνει τα παρακάτω βήµατα: 1. Φιλτράρισµα εξοµάλυνσης µε ταυτόχρονη διατήρηση των ακµών. 2. Ανίχνευση ακµών έγχρωµης εικόνας. 3. ειγµατοληψία του τρισδιάστατου χρωµατικού χώρου RGB. 4. Αρχική µείωση χρωµάτων. 5. Μετατόπιση µέσης τιµής. 2.1 Edge preservng smoothng flter Στις συνήθεις τεχνικές µείωσης του θορύβου γίνεται εξοµάλυνση της εικόνας αντικαθιστώντας το κεντρικό εικονοστοιχείο σε ένα παράθυρο n n µε τη µέση ή την προσαρµοσµένη µέση τιµή των εικονοστοιχείων που ανήκουν µέσα στο παράθυρο. Αν και ο θόρυβος καταστέλλεται µερικώς, αυτές οι τεχνικές δηµιουργούν πρόβληµα όσον αφορά τα περιγράµµατα των αντικειµένων στα οποία παρατηρούνται παραµορφώσεις λόγω εξοµάλυνσης. Για να αντιµετωπιστεί το ανεπιθύµητο αυτό φαινόµενο χρησιµοποιείται η τεχνική της εξοµάλυνσης µε ταυτόχρονη διατήρηση της πληροφορίας των ακµών. Η υλοποίηση αυτής της τεχνικής γίνεται µέσω ειδικών φίλτρων τα οποία είναι γνωστά στη βιβλιογραφία ως Edge preservng smoothng flters ή σε συντοµογραφία EPSF. Το EPSF που προτείνεται στην παρούσα εργασία βασίζεται στη µέτρηση των χρωµατικών αποστάσεων Manhattan d µεταξύ του κεντρικού εικονοστοιχείου a και των εικονοστοιχείων a µέσα σε ένα παράθυρο διαστάσεων 3 3. Οι τιµές των παραµέτρων που αναφέρονται παρακάτω είναι κανονικοποιηµένες στο διάστηµα [0,1]. c d = R R + G G + B B a (1) a a a a a c c c Για την εξαγωγή των συντελεστών χρησιµοποιείται η ακόλουθη σχέση: c της µάσκας συνέλιξης που υλοποιεί το φίλτρο, c = (1 d ) p (2) Οι συντελεστές αποστάσεων d c λαµβάνουν µεγάλες τιµές για µικρές τιµές των χρωµατικών. Συνεπώς, η µάσκα συνέλιξης διαµορφώνεται ως εξής:
c1 c2 c3 1 c4 0 c 5 c c6 c7 c8 8 = 1 (3) Ο συντελεστής p κλιµακώνει εκθετικά τις χρωµατικές αποστάσεις. Πρακτικά αυτό σηµαίνει ότι ελέγχει το βαθµό εξοµάλυνσης της εικόνας. Όσο µεγαλώνει, οι συντελεστές που αντιστοιχούν σε µικρή χρωµατική απόσταση αυξάνονται σε c c σχέση µε τους συντελεστές που αντιστοιχούν σε µεγάλη χρωµατική απόσταση µε συνέπεια τη µείωση του βαθµού εξοµάλυνσης. Η τιµή που χρησιµοποιείται για το συντελεστή p είναι 10. Στο Σχήµα 3 επιδεικνύεται το αποτέλεσµα της εφαρµογής του φίλτρου σε ένα έγχρωµο έγγραφο. Όπως φαίνεται, ο θόρυβος αποµακρύνεται χωρίς να επηρεάζονται τα σηµεία των ακµών. Το κύριο όφελος που αποκοµίζεται από την προεπεξεργασία των εγγράφων µε το EPSF είναι η σηµαντική µείωση των σφαλµάτων τµηµατοποίησης στην τελική εικόνα. (α) (β) (γ) (δ) Σχήµα 3. Το αποτέλεσµα της εφαρµογής του EPSF σε έγχρωµο έγγραφο. (α)αρχικό έγγραφο, (β)υπογραφή (pxel profle) εικονοστοιχείων της γραµµής y=44 του αρχικού εγγράφου, (γ)-(δ)αποτέλεσµα φιλτραρίσµατος ( p = 10) και η υπογραφή εικονοστοιχείων για την ίδια γραµµή. 2.2 ειγµατοληψία Κάνοντας χρήση του τελεστή ανίχνευσης ακµών Sobel, εξάγεται το µέτρο των ακµών για κάθε µία από τις τρεις χρωµατικές συνιστώσες RGB.
r r 2 r 2 row col G ( x, y) = ( G ( x, y)) + ( G ( x, y)) (4) g g 2 g 2 row col G ( x, y) = ( G ( x, y)) + ( G ( x, y)) (5) b b 2 b 2 row col G ( x, y) = ( G ( x, y)) + ( G ( x, y)) (6) r g b όπου G ( x, y ), G ( x, y ) και G ( x, y) τα µέτρα των ακµών για την κόκκινη, πράσινη και µπλε συνιστώσα, αντίστοιχα. Η τελική τιµή του µέτρου των ακµών λαµβάνεται ως εξής: r g b { } Gxy (, ) = max G( xy, ), G( xy, ), G( xy, ) (7) Θεωρώντας τη µετασχηµατισµένη gray scale εικόνα Gxy (, ), λαµβάνονται ως δείγµατα τα εικονοστοιχεία που ικανοποιούν την παρακάτω σχέση: Gx ( + ny, + m) Gx (, y) όπου n= [ 1,1], m= [ 1,1] (8) (α) 87361 χρώµατα (γ) 15959 χρώµατα (β) 602640 εικονοστοιχεία (1620x372) (δ) 81123 εικονοστοιχεία (13%) Σχήµα 4. Παράδειγµα δειγµατοληψίας. (α)αρχικό έγγραφο, (β)rgb κατανοµή για το (α), (γ)τοπικά ελάχιστα, (δ) RGB κατανοµή των τοπικών ελαχίστων.
Τα σηµεία αυτά αποτελούν το σύνολο των τοπικών ελαχίστων το οποίο παρουσιάζει τις παρακάτω ενδιαφέρουσες ιδιότητες: Τα σηµεία των ακµών δεν αντιπροσωπεύονται στο σύνολο αυτό. Τα δείγµατα ανήκουν χωρικά σε αντικείµενα της εικόνας και όχι σε περιοχές µετάβασης µεταξύ αντικειµένων. Όλα τα χρώµατα των αντικειµένων, ανεξάρτητα από το µέγεθος, αντιπροσωπεύονται µέσα στο σύνολο των τοπικών ελαχίστων. Με βάση τα παραπάνω, γίνεται η υπόθεση ότι κάθε µέλος του συνόλου των τοπικών ελαχίστων µπορεί να θεωρηθεί ως υποψήφιο κέντρο κλάσης. Σε αυτή την υπόθεση βασίζεται το επόµενο βήµα της µεθόδου όπου µειώνονται αρχικά τα χρώµατα της εικόνας. Στο Σχήµα 4 φαίνεται ένα παράδειγµα προσέγγισης του αρχικού χρωµατικού χώρου σε ένα έγχρωµο έγγραφο σύµφωνα µε την παρούσα τεχνική δειγµατοληψίας. Από τις αναπαραστάσεις των δειγµάτων στο τρισδιάστατο χώρο, φαίνεται ξεκάθαρα ότι τα επιλεγµένα εικονοστοιχεία βρίσκονται κοντά στα κέντρα των κλάσεων της αρχική κατανοµής. 2.3 Αρχική µείωση χρωµάτων Έστω ότι το S συµβολίζει το σύνολο των δειγµάτων που επιλέχθηκαν σύµφωνα µε τη µεθοδολογία που έχει περιγραφεί στην προηγούµενη ενότητα. Επίσης, έστω ότι το p(, rgb, )( rg,, b= [0,255] ) αποτελεί το τρισδιάστατο ιστόγραµµα του συνόλου S. Θεωρώντας ότι κάθε µέλος s S αποτελεί υποψήφιο κέντρο κλάσης εφαρµόζεται ο παρακάτω αλγόριθµος: Βήµα 1: Ορίζουµε ένα κύβο µε µήκος πλευράς 2h. Θεωρώντας το s = ( r, g, b) ως το κέντρου του κύβου, υπολογίζεται ένα νέο σηµείο του κύβου όπου r, g, b m m m s ( r, g, b οι µέσες τιµές της κόκκινης, πράσινης και µπλε συνιστώσας, αντίστοιχα. Οι τιµές αυτές υπολογίζονται σύµφωνα µε τις παρακάτω σχέσεις: 1 m = m m m ) r = h h h 1 1 1 r= h g= h b= h 1 1 1 m h1 h1 h1 r= h g= h b= h 1 1 1 r p(, r g, b) p(, rgb, ) (9) g = h h h 1 1 1 r= h g= h b= h 1 1 1 m h1 h1 h1 r= h g= h b= h 1 1 1 g p(, r g, b) p(, rgb, ) (10)
b = h h h 1 1 1 r= h g= h b= h 1 1 1 m h1 h1 h1 r= h g= h b= h 1 1 1 b p(, r g, b) p(, rgb, ) (11) Βήµα 2: Ονοµατίζουµε (labelng) όλα τα σηµεία που ανήκουν µέσα στον όγκο που ορίζει ο κύβος. Βήµα 3: Επιλέγουµε ένα µη ονοµατισµένο σηµείο του κύβου και επαναλαµβάνουµε τη διαδικασία, ξεκινώντας από το βήµα 1. Αν δεν υπάρχει κάποιο µη ονοµατισµένο σηµείο τότε ο αλγόριθµος σταµατά. Το αποτέλεσµα του παραπάνω αλγορίθµου είναι η δηµιουργία ενός συνόλου σηµείων, του S m. Τα σηµεία αυτά χρησιµοποιούνται για να γίνει η αρχική µείωση των χρωµάτων της εικόνας µε την αντιστοίχηση κάθε εικονοστοιχείου της αρχικής εικόνας µε το κοντινότερο (σύµφωνα µε την Ευκλείδεια απόσταση) σηµείο του συνόλου S. Το πλήθος των στοιχείων του S εξαρτάται από το µήκος της πλευράς m του κύβου, δηλαδή το h. Τα καλύτερα αποτελέσµατα πάρθηκαν όταν το h λαµβάνει την τιµή 32. Σε αυτή την περίπτωση, το πλήθος των στοιχείων του συνόλου Sm δεν ξεπερνά συνήθως τα 100. Η εξαγόµενη εικόνα σε αυτή τη φάση είναι υπερτµηµατοποιηµένη. m 1 1 Ο σκοπός της παραπάνω µεθοδολογίας είναι η προσέγγιση των κλάσεων (clusters) µε αντιπροσωπευτικά σηµεία ώστε να είναι δυνατή η ταξινόµηση (clusterng) των χρωµάτων σε κλάσεις όπου το σχήµα τους δεν είναι σφαιρικό. Αυτό θα γίνει µε τη βοήθεια της διαδικασία της µετατόπισης της µέσης τιµής όπως περιγράφεται στην επόµενη ενότητα. 2.4 Μετατόπιση µέσης τιµής Η µετατόπιση µέσης τιµής (mean shft) είναι µία µη παραµετρική και επαναληπτική διαδικασία εκτίµησης της συνάρτησης πυκνότητας πιθανότητας. Προτάθηκε από τον Fukunaga [3] και αναλύθηκε διεξοδικά από τον Cheng [4]. Στην εργασία του Comancu [5] χρησιµοποιήθηκε µε σκοπό την ανάλυση πολύπλοκων κατανοµών χαρακτηριστικών. Η λειτουργία του βασίζεται στην επαναληπτική µετατόπιση ενός σηµείου προς την µέση τιµή των σηµείων που ανήκουν µέσα σε µία καθορισµένη γειτονιά. Όπως φαίνεται στο Σχήµα 5, εκκινώντας από κάποιο σηµείο x, υπολογίζεται η µέση τιµή των σηµείων που ανήκουν µέσα στο τετράγωνο µήκους πλευράς 2h, θεωρώντας ως κέντρο το σηµείο x. Η εξαγόµενη τιµή, έστω το σηµείο x, χρησιµοποιείται µε τον ίδιο τρόπο ώστε να εντοπιστεί εκ νέου ένα άλλο σηµείο. Το διάνυσµα που ορίζουν δύο διαδοχικά σηµεία ( x, x j ) καλείται διάνυσµα µετατόπισης µέσης τιµής (mean shft vector). Η διαδικασία συνεχίζεται µέχρι το µέτρο του διανύσµατος µέσης τιµής να πάρει τιµή µικρότερη από κάποιο προκαθορισµένο κατώφλι (συνθήκη σύγκλισης). j
Στην προκειµένη περίπτωση, ως σηµεία εκκίνησης της διαδικασίας µετατόπισης της µέσης τιµής θεωρούνται τα σηµεία του συνόλου Sm. Για κάθε s S m ορίζεται ένας κύβος µε µήκος πλευράς 2h 2, µέσα στο χώρο που ορίζει η συνάρτηση p(, rgb, ), µε κέντρο το σηµείο s. Εφαρµόζεται η διαδικασία της µετατόπισης µέσης τιµής και στο τέλος προκύπτουν τα τελικά κέντρα των κλάσεων. Η τιµή του h 2 που προέκυψε µε βάση πειραµατικά αποτελέσµατα είναι 32. Σχήµα 5. Σχηµατική αναπαράσταση για τον τρόπο λειτουργίας της µετατόπισης της µέσης τιµής (mean shft) στον δυσδιάστατο χώρο. 3. Πειραµατικά αποτελέσµατα Η δοκιµή της µεθόδου µείωσης χρωµάτων έγινε σε µία συλλογή εγγράφων που περιλαµβάνει περίπου 1000 έγχρωµα έγγραφα. Ένα µέρος αυτών έχουν ψηφιοποιηθεί από εξώφυλλα βιβλίων και περιοδικών ενώ τα υπόλοιπα έχουν ληφθεί από το διαδίκτυο. Σε όλα τα διεξαχθέντα πειράµατα χρησιµοποιήθηκαν οι παρακάτω παράµετροι του συστήµατος: Συντελεστής εξοµάλυνσης p 10 Αρχική µείωση χρωµάτων, συντελεστής h1 32 Mean Shft, συντελεστής h2 32 Στα Σχήµατα 6 και 7 δίνονται δύο ενδεικτικά παραδείγµατα µείωσης χρωµάτων για σύνθετα έγχρωµα έγγραφα όπου φαίνεται η ορθή τµηµατοποίηση των αντικειµένων καθώς και η δηµιουργία µεγάλων οµοιογενών περιοχών. Τα αποτελέσµατα αυτά είναι τα επιθυµητά για περιπτώσεις όπου θα ακολουθήσει η διαδικασία ανάλυσης συνδεδεµένων αντικειµένων µε σκοπό της εξαγωγή των χαρακτήρων και κατ επέκταση τον εντοπισµό των περιοχών κειµένου.
(α) 61201 χρώµατα (β) 4 χρώµατα Σχήµα 6. Παράδειγµα µείωσης χρωµάτων σύνθετου έγχρωµου εγγράφου. (α) 47267 χρώµατα (β) 4 χρώµατα Σχήµα 7. Παράδειγµα µείωσης χρωµάτων σύνθετου έγχρωµου εγγράφου.
4. Τεχνική ανάκτησης εγγράφων Ως είσοδος για το σύστηµα ανάκτησης θεωρούνται δυαδικές εικόνες των οποίων το περιεχόµενο είναι µόνο κείµενο. Οι εικόνες αυτές έχουν προκύψει µετά από επεξεργασία έγχρωµων εγγράφων οι οποίες αποτελούνται κυρίως από εξώφυλλα περιοδικών ή βιβλίων. Η επιλογή αυτών των εικόνων έγινε λόγω του γεγονότος ότι το κείµενο που περιέχουν είναι εντελώς ανοµοιογενές, χωρίς κανένα περιορισµό όσον αφορά το µέγεθος, τη γραµµατοσειρά και το στυλ γραφής. Συνεπώς, τόσο η διαδικασία εντοπισµού των λέξεων όσο και η διαδικασία ανάκτησης θα πρέπει να είναι σε θέση να ξεπεράσει τα συγκεκριµένα προβλήµατα ανοµοιογένειας. Ένα παράδειγµα τέτοιου τύπου εικόνας φαίνεται στο Σχήµα 8. (α) (β) Σχήµα 8. Παράδειγµα τύπου εικόνας που χρησιµοποιήθηκε για το σύστηµα ανάκτησης. (α)αρχικό έγχρωµο έγγραφο, (β) αντίστοιχο δυαδικό έγγραφο µε τα αντικείµενα του κειµένου από το αρχικό έγγραφο. Η τεχνική της ανάκτησης περιλαµβάνει τα ακόλουθα γενικά βήµατα Τµηµατοποίηση λέξεων Εξαγωγή χαρακτηριστικών ηµιουργία τεχνητής εικόνας λέξης (query word) και αναζήτηση Στο Σχήµα 9 φαίνεται το διάγραµµα µε τα βήµατα της παρούσας µεθόδου ανάκτησης εγγράφων βάσει της τεχνικής του word spottng.
(α) Σχήµα 9. ιάγραµµα µεθόδου ανάκτησης εγγράφων βάσει της τεχνικής του word spottng. Σε γενικές γραµµές, η τεχνική αρχικά εξάγει από το δυαδικό έγγραφο τα τµήµατα των λέξεων. Αυτά επεξεργάζονται ανεξάρτητα εξάγοντας από κάθε λέξη διανύσµατα χαρακτηριστικών. Εδώ χρησιµοποιούνται οι 20 πρώτοι όροι του µετασχηµατισµού συνηµίτονου (DCT Dscrete Cosne Transform) από το κανονικοποιηµένο οριζόντιο διάγραµµα προβολών (horzontal projecton profle). Τα διανύσµατα χαρακτηριστικών αποθηκεύονται µε κατάλληλο τρόπο στη βάση δεδοµένων του συστήµατος ώστε να είναι εφικτή η σύγκρισή τους µε την εικόνα ερώτηµα (query mage). Αυτή ουσιαστικά δηµιουργείται µετά από αλληλεπίδραση του χρήστη µε το σύστηµα. ηλαδή, ο χρήστης πληκτρολογεί τη λέξη την οποία αναζητά στα έγγραφα της βάσης και το σύστηµα δηµιουργεί µία τεχνητή εικόνα (query word). Από αυτήν εξάγονται τα ίδια διανύσµατα χαρακτηριστικών µε τα αντίστοιχα των λέξεων της βάσης και συγκρίνονται χρησιµοποιώντας την απόσταση Manhattan ώστε να δοθεί το τελικό αποτέλεσµα. 4.1 Τµηµατοποίηση λέξεων Όπως αναφέρθηκε και πιο πριν, το κείµενο των εικόνων των οποίων θέλουµε να τµηµατοποιήσουµε σε επίπεδο λέξεων είναι ανοµοιογενές και καµία παραδοχή δεν γίνεται όσον αφορά τη γραµµατοσειρά, το στυλ και το µέγεθος γραφής. Συνεπώς, απαιτείται ιδιαίτερη προσοχή στη δηµιουργία των τµηµάτων των λέξεων. Για να αντιµετωπιστεί το πρόβληµα της ανοµοιογένειας, κατά τη διαδικασία της τµηµατοποίησης και συγκεκριµένα στη φάση της οµαδοποίησης των αντικειµένων, η µέθοδος βασίζεται στη χρήση ενός τροποποιηµένου αλγόριθµου εξοµάλυνσης διαδροµής RLSA [6], του ARLSA (Adaptve Run Length Smoothng Algorthm). Η εξοµάλυνση κατά µήκος διαδροµής αποτελεί έναν από τους πιο γνωστούς και χρησιµοποιούµενους αλγόριθµους στις τεχνικές ανάλυσης δοµής σελίδας.
Εφαρµόζεται σε δυαδικές εικόνες σε µία προκαθορισµένη διεύθυνση (συνήθως οριζόντια ή κάθετη), αντικαθιστώντας τις ακολουθίες των συνεχών λευκών εικονοστοιχείων (φόντο) µε µαύρα εικονοστοιχεία (προσκήνιο) όταν αυτές έχουν µήκος µεγαλύτερο από κάποιο κατώφλι T max. Η εφαρµογή του όµως προϋποθέτει ότι οι χαρακτήρες του εγγράφου είναι ιδίου µεγέθους και συνεπώς δεν είναι κατάλληλος για το συγκεκριµένο τύπο εγγράφων που χρησιµοποιούµε οπότε είναι αναγκαία η τροποποίησή του. Ας υποθέσουµε ότι έχουµε δύο συνδεδεµένα αντικείµενα CC και CC j, j και µία µεταξύ τους ακολουθία λευκών εικονοστοιχείων (φόντο), την S (, j). Για να αντικατασταθούν τα λευκά εικονοστοιχεία της S (, j) µε µαύρα θα πρέπει να ικανοποιούνται οι παρακάτω συνθήκες: 1. Το µήκος της ακολουθίας δεν µπορεί να είναι µεγαλύτερο από το κατώφλι Tl. Το Tl είναι εξαρτηµένο από το ύψος h των αντικειµένων CC και CC j σύµφωνα µε την εξής σχέση T = a mn{ h, h } (12) l j Η τιµή του συντελεστή a λαµβάνει συνήθως τιµές 0.5-1.5. 2. Η τιµή του λόγου του αντικείµενου µε το µεγαλύτερο ύψος προς αυτό µε το µικρότερο ύψος H δε θα πρέπει να υπερβαίνει την τιµή του T. ηλαδή R h H R max{ h, hj} = Th (13) mn{ h, h } j Το T λαµβάνει τιµές µεταξύ 2-5. h 3. Το ποσοστό της οριζόντιας επικάλυψης του αντικειµένου µε το µικρότερο ύψος από αυτό µε το µεγαλύτερο ύψος θα πρέπει να ξεπερνά το 50%. 4. Στη 3x3 γειτονιά κάθε εικονοστοιχείου της ακολουθίας S (, j) δε θα πρέπει να παρεµβάλλεται εικονοστοιχείο κάποιου τρίτου αντικειµένου CC k, k, j. Ο πιο πάνω αλγόριθµος αναφέρεται ως προσαρµοστική εξοµάλυνση κατά µήκος διαδροµής ή ARLSA (Adaptve Run Length Smoothng Algorthm). Τα βασικά του πλεονεκτήµατά του σε σχέση µε τον πρωτότυπο αλγόριθµο είναι ηµιουργία οµοιογενών οµάδων αντικειµένων. Ανοχή στην οριζόντια επικάλυψη µεταξύ δύο γειτονικών γραµµών κειµένου. Στο Σχήµα 10 δίνεται ένα παράδειγµα εφαρµογής του ARLSA σε ένα τµήµα εγγράφου όπου υπάρχουν δύο οριζόντια επικαλυπτόµενες λέξεις µε διαφορετικό µέγεθος χαρακτήρων. Σε αυτή τη περίπτωση το αποτέλεσµα είναι η ορθή οµαδοποίηση των
χαρακτήρων. Με τη χρήση του κανονικού RLSA δεν είναι δυνατή η ορθή τµηµατοποίηση του εγγράφου, για οποιαδήποτε τιµή του T. max (α) (β) Σχήµα 10. Παράδειγµα εφαρµογής του ARLSA σε ανοµοιογενές κείµενο µε επικαλυπτόµενες γραµµές κειµένου. Μετά την εφαρµογή του ARLSA, οι οµάδες αντικειµένων που σχηµατίζονται είναι υπερσύνολα των λέξεων. Συνεπώς, η επόµενη διαδικασία αφορά την επεξεργασία της κάθε οµάδας ξεχωριστά ώστε να εξαχθούν τα τελικά τµήµατα των λέξεων των οποίων τα χαρακτηριστικά θα εισαχθούν στη βάση δεδοµένων. Έτσι, για κάθε οµάδα αντικειµένων που προέκυψε από την αρχική φάση της οµαδοποίησης ακολουθούνται τα παρακάτω βήµατα: Ταξινόµηση των αντικειµένων µε βάση τη συντεταγµένη x της αριστερής πλευράς του ορθογωνίου παραλληλογράµµου (Boundng Box) που τα περικλείει. Υπολογισµός της µέσης τιµής m g των κενών διαστηµάτων (gaps) µεταξύ των διαδοχικών χαρακτήρων κάθε οµάδας. ηµιουργία διαχωριστικού σηµείου όπου το κενό µεταξύ διαδοχικών χαρακτήρων ξεπερνά την τιµή b m. Οι τιµές που λαµβάνει ο σταθερός συντελεστής b είναι µεταξύ 1-3. Αφού έχουν εντοπιστεί όλα τα σηµεία διαχωρισµού, δηµιουργούνται τα νέα σύνολα αντικειµένων. Όσα έχουν αριθµό αντικειµένων µικρότερο από κάποια προκαθορισµένη τιµή N c δεν θα ληφθούν υπόψη κατά τη διαδικασία εξαγωγής των χαρακτηριστικών. Αυτό γίνεται κυρίως για την αποφυγή εισαγωγής στη βάση δεδοµένων, λέξεων µε ένα ή δύο χαρακτήρες καθώς επίσης και σηµείων στίξης που αποµονώθηκαν κατά την επεξεργασία των συνόλων των χαρακτήρων. Στο Σχήµα 11, φαίνεται ένα παράδειγµα τµηµατοποίησης λέξεων για το έγγραφο του Σχήµατος 8(β). g
(α) (β) Σχήµα 11. Παράδειγµα τµηµατοποίησης λέξεων. (α) Αποτέλεσµα εφαρµογής του ARLSA, (β) τα τµήµατα λέξεων που έχουν ανιχνευθεί. 4.2 Εξαγωγή χαρακτηριστικών Για κάθε λέξη που ανιχνεύεται, το σύστηµα εξάγει τα χαρακτηριστικά βάσει των οποίων αναπαρίσταται η εικόνα της λέξης µέσα στη βάση δεδοµένων. Στο παρόν σύστηµα ανάκτησης όλα τα χαρακτηριστικά εξάγονται από το οριζόντιο διάγραµµα προβολών (κάθετη προβολή). Το διάγραµµα αυτό εξάγεται λαµβάνοντας το άθροισµα των εικονοστοιχείων των αντικειµένων (µαύρα εικονοστοιχεία) σε κάθε στήλη της εικόνας. Αρχικά, διαγράφονται από το διάγραµµα όλα τα µηδενικά, τα κενά δηλαδή µεταξύ των χαρακτήρων. Ακολούθως, έχοντας σκοπό την ανεξαρτησία από την κλιµάκωση της εικόνας λόγω της ανοµοιογένειας του µεγέθους των χαρακτήρων, το διάγραµµα προβολής κανονικοποιείται σε ένα σταθερό αριθµό δειγµάτων Ns. Η διαδικασία της κανονικοποίησης είναι η αντίστοιχη που ακολουθείται όταν θέλουµε να εκτελέσουµε επέκταση του ιστογράµµατος (Hstogram Stretchng). Τέλος, η προβολή εξοµαλύνεται µε χωρικό φίλτρο 1 n ώστε να αφαιρεθεί ο θόρυβος και να είναι δυνατός ο εντοπισµός των τοπικών ακροτάτων µε µεγαλύτερη ακρίβεια και αξιοπιστία. Στο Σχήµα 12 φαίνεται ένα παράδειγµα εξαγωγής του οριζόντιου διαγράµµατος προβολής καθώς και η επεξεργασία του.
(α) (β) (γ) Σχήµα 12. Παράδειγµα εξαγωγής και επεξεργασία κάθετης προβολής. (α)εικόνα λέξης, (β) αρχική κάθετη προβολή µε N s = 334 (πλάτος εικόνας), (γ) τελικό διάγραµµα προβολής µετά την αφαίρεση των κενών, την κανονικοποίηση σε N s = 150 και το φιλτράρισµα µε χωρικό φίλτρο 1 7. Από το κάθε κανονικοποιηµένο διάγραµµα κάθετης προβολής, εξάγονται οι 20 πρώτοι όροι του µονοδιάστατου µετασχηµατισµού συνηµίτονου (DCT) χρησιµοποιώντας την παρακάτω σχέση. N s 1 (2n+ 1) kπ yk ( ) = ak ( ) xn ( )cos, k= 0,1,..., Ns 1 n= 0 2Ns 1, k = 0 Ns ak ( ) = 2, k 0 Ns (14) όπου x( n ) οι τιµές της καµπύλης της προβολής. Ο λόγος της χρήσης του DCT για την περιγραφή του διαγράµµατος της προβολής είναι η εξαιρετική του ικανότητα να συγκεντρώνει το µεγαλύτερο µέρος της πληροφορίας που µετασχηµατίζει στους πρώτους όρους. Πέραν από τους συντελεστές του DCT, ως χαρακτηριστικό χρησιµοποιείται και το πλήθος των τοπικών ελαχίστων Nmn και µεγίστων N max. Σκοπός της χρήσης αυτού του χαρακτηριστικού είναι η απόδοση συντελεστή βάρους στο µήκος της κάθε λέξης. 4.3 ηµιουργία τεχνητής εικόνας και αναζήτηση Για να είναι δυνατή η αναζήτηση µίας λέξης µέσα στη βάση δεδοµένων θα πρέπει η λέξη που εισάγεται ως ερώτηµα από το χρήστη να µετατρέπεται σε εικόνα. Αυτό είναι αναγκαίο καθώς ο χρήστης εισάγει τη λέξη µε τη µορφή ASCII χαρακτήρων. Θα πρέπει λοιπόν να επιλεγούν κατάλληλοι παράµετροι γραφής (στυλ, γραµµατοσειρά) ώστε να έχουµε τα καλύτερα δυνατά αποτελέσµατα ανάκτησης. Η διαδικασία που ακολουθείται αµέσως µετά τη δηµιουργία της τεχνητής εικόνας είναι η εξαγωγή των χαρακτηριστικών, που θα πρέπει βεβαίως να είναι ακριβώς τα ίδια µε τα αντίστοιχα της βάσης δεδοµένων. Συνεπώς, αυτό που γίνεται είναι η εξαγωγή του οριζόντιου διαγράµµατος προβολής, η επεξεργασία του και ακολούθως ο υπολογισµός των 20 πρώτων όρων του DCT καθώς και του πλήθους των τοπικών ελαχίστων και µεγίστων.
Η µέτρηση ανοµοιότητας µεταξύ της εικόνας του ερωτήµατος και των εικόνων της βάσης γίνεται υπολογίζοντας τρεις αποστάσεις, τις D 1, D 2 και D3. 20 D1 = yq ( k ) y ( k ) k= 1 q 2 max ma D = N N x (15) q 3 = mn mn D N N όπου yq ( k) οι συντελεστές DCT της εικόνας ερωτήµατος, και Nmax, Nmn το πλήθος των τοπικών µεγίστων και ελαχίστων του διαγράµµατος της εικόνας ερωτήµατος, αντίστοιχα. Η τελική απόσταση υπολογίζεται µε τη βοήθεια της επόµενης σχέσης. q q D= a D + a D + a D, a + a + a = 1 (16) 1 1 2 2 3 3 1 2 3 Σκοπός των συντελεστών a1, a 2,a3 είναι η απόδοση βάρους για κάθε χαρακτηριστικό. Τα τελικά αποτελέσµατα ανάκτησης δίνονται ταξινοµηµένα αρχίζοντας µε την εικόνα που αντιστοιχεί στο µικρότερο D (rank=1).
5. Αναφορές [1] D. Doermann, The Indexng and Retreval of Document Images: A Survey, Computer Vson and Image Understandng, vol. 70, no. 3, pp. 287-298, 1998. [2] N. Nkolaou, N. Papamarkos, Color segmentaton of complex document mages, Internatonal Conference on Computer Vson Theory and Applcatons, Setúbal, Portugal, pp. 220-227, 2006. * Η εργασία αυτή έχει επιλεγεί για δηµοσίευση στο βιβλίο Computer Graphcs and Vson Theory and Applcatons I το οποίο εκδίδεται από την Sprnger. [3] Κ. Fukunaga, L.D. Hostetler, The Estmaton of the Gradent of a Densty Functon, wth Applcatons n Pattern Recognton, IEEE Trans. Informaton Theory, vol. 21, pp. 32-40, 1975. [4] Y. Cheng, Mean Shft, Mode Seekng, and Clusterng, IEEE Trans. Pattern Analyss and Machne Intellgence, vol. 17, no. 8, pp. 790-799, 1995. [5] D. Comancu, P. Meer, Mean Shft: A Robust Approach Toward Feature Space Analyss, IEEE Trans. Pattern Analyss and Machne Intellgence, vol. 24, no. 5, pp. 603-619, 2002. [6] F.M. Wahl, K.Y. Wong, R.G Casey. Block Segmentaton and Text Extracton n Mxed Text/Image Documents, Computer Graphcs and Image Processng (20), 375-390, 1982.