ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα πολυδιάστατου ψηφιακού σήµατος (Εικόνες Εικονοσειρές)» Πακέτο Εργασίας 2: Ανάκτηση εικόνων / εγγράφων ΠΑΡΑ ΟΤΕΟ Π7 Έκθεση εφαρµογής των µεθόδων σε πραγµατική βάση δεδοµένων εικόνων Επιστηµονικός υπεύθυνος: ρ Βασίλειος Χατζής Οµάδα εργασίας: Παπαµάρκος Νικόλαος Ηλεκτρολόγος Μηχανικός / Καθηγητής.Π.Θ Μπαντέκας Ευθύµιος ΜΦ-Υποψήφιος ιδάκτορας.π.θ. Νικολάου Νικόλαος ΜΦ-Υποψήφιος ιδάκτορας.π.θ.
1. Εισαγωγή Στα πλαίσια του παρόντος ερευνητικού έργου και σύµφωνα µε το ΠΕ2, σχεδιάστηκε και υλοποιήθηκε ένα σύστηµα ανάκτησης ψηφιακών εγγράφων. Στην παρούσα έκθεση γίνεται περιγραφή της τεχνικής που χρησιµοποιήθηκε για την ανάκτηση των εγγράφων, του λογισµικού που την υλοποιεί καθώς επίσης και των πειραµατικών αποτελεσµάτων. 2. Τεχνική ανάκτησης εγγράφων Η µεθοδολογία που επιλέχθηκε για το σκοπό της ανάκτησης έγχρωµων εγγράφων αφορά την τεχνική του word spotting (εντοπισµός λέξης) [1]. Στην περίπτωση αυτή ο χρήστης δίνει σαν ερώτηµα αναζήτησης µία λέξη κλειδί (query word) που επιθυµεί να υπάρχει µέσα στα έγγραφα. Με βάση τη λέξη κλειδί, το σύστηµα εξάγει κατάλληλα χαρακτηριστικά τα οποία συγκρίνονται µε τα ήδη υπάρχοντα µέσα στη βάση δεδοµένων. Για τα χαρακτηριστικά που εξάγονται χρησιµοποιούνται οι ιδιότητες της εικόνας της λέξης και το γεγονός αυτό δίνει το πλεονέκτηµα της αναζήτησης µε ανεξαρτησία ως προς τη γλώσσα. Επίσης, είναι επιθυµητό τα χαρακτηριστικά να παρέχουν ανεξαρτησία ως προς τη γραµµατοσειρά και το στυλ γραφής. Ως είσοδος για το σύστηµα ανάκτησης θεωρούνται δυαδικές εικόνες των οποίων το περιεχόµενο είναι µόνο κείµενο. Οι εικόνες αυτές έχουν προκύψει µετά από επεξεργασία έγχρωµων εγγράφων [4] οι οποίες αποτελούνται κυρίως από εξώφυλλα περιοδικών ή βιβλίων. Η επιλογή αυτών των εικόνων έγινε λόγω του γεγονότος ότι το κείµενο που περιέχουν είναι εντελώς ανοµοιογενές, χωρίς κανένα περιορισµό όσον αφορά το µέγεθος, τη γραµµατοσειρά και το στυλ γραφής. Συνεπώς, τόσο η διαδικασία εντοπισµού των λέξεων όσο και η διαδικασία ανάκτησης θα πρέπει να είναι σε θέση να ξεπεράσει τα συγκεκριµένα προβλήµατα ανοµοιογένειας. Ένα παράδειγµα τέτοιου τύπου εικόνας φαίνεται στο Σχήµα 1. (α) (β) Σχήµα 1. Παράδειγµα τύπου εικόνας που χρησιµοποιήθηκε για το σύστηµα ανάκτησης. (α)αρχικό έγχρωµο έγγραφο, (β) αντίστοιχο δυαδικό έγγραφο µε τα αντικείµενα του κειµένου από το αρχικό έγγραφο.
Η τεχνική της ανάκτησης περιλαµβάνει τα ακόλουθα γενικά βήµατα Τµηµατοποίηση λέξεων Εξαγωγή χαρακτηριστικών ηµιουργία τεχνητής εικόνας λέξης (query word) και αναζήτηση Στο Σχήµα 2 φαίνεται το διάγραµµα µε τα βήµατα της παρούσας µεθόδου ανάκτησης εγγράφων βάσει της τεχνικής του word spotting. (α) Σχήµα 2. ιάγραµµα µεθόδου ανάκτησης εγγράφων βάσει της τεχνικής του word spotting. Σε γενικές γραµµές, η τεχνική αρχικά εξάγει από το δυαδικό έγγραφο τα τµήµατα των λέξεων. Αυτά επεξεργάζονται ανεξάρτητα εξάγοντας από κάθε λέξη διανύσµατα χαρακτηριστικών. Εδώ χρησιµοποιούνται οι 20 πρώτοι όροι του µετασχηµατισµού συνηµίτονου (DCT Discrete Cosine Transform) από το κανονικοποιηµένο οριζόντιο διάγραµµα προβολών (horizontal projection profile) [2]. Τα διανύσµατα χαρακτηριστικών αποθηκεύονται µε κατάλληλο τρόπο στη βάση δεδοµένων του συστήµατος ώστε να είναι εφικτή η σύγκρισή τους µε την εικόνα ερώτηµα (query image). Αυτή ουσιαστικά δηµιουργείται µετά από αλληλεπίδραση του χρήστη µε το σύστηµα. ηλαδή, ο χρήστης πληκτρολογεί τη λέξη την οποία αναζητά στα έγγραφα της βάσης και το σύστηµα δηµιουργεί µία τεχνητή εικόνα (query word). Από αυτήν εξάγονται τα ίδια διανύσµατα χαρακτηριστικών µε τα αντίστοιχα των λέξεων της βάσης και συγκρίνονται χρησιµοποιώντας την απόσταση Manhattan [2] ώστε να δοθεί το τελικό αποτέλεσµα.
2.1 Τµηµατοποίηση λέξεων Όπως αναφέρθηκε και πιο πριν, το κείµενο των εικόνων των οποίων θέλουµε να τµηµατοποιήσουµε σε επίπεδο λέξεων είναι ανοµοιογενές και καµία παραδοχή δεν γίνεται όσον αφορά τη γραµµατοσειρά, το στυλ και το µέγεθος γραφής. Συνεπώς, απαιτείται ιδιαίτερη προσοχή στη δηµιουργία των τµηµάτων των λέξεων. Για να αντιµετωπιστεί το πρόβληµα της ανοµοιογένειας, κατά τη διαδικασία της τµηµατοποίησης και συγκεκριµένα στη φάση της οµαδοποίησης των αντικειµένων, η µέθοδος βασίζεται στη χρήση ενός τροποποιηµένου αλγόριθµου εξοµάλυνσης διαδροµής [3], του ARLSA (Adaptive Run Length Smoothing Algorithm). Η εξοµάλυνση κατά µήκος διαδροµής [3] αποτελεί έναν από τους πιο γνωστούς και χρησιµοποιούµενους αλγόριθµους στις τεχνικές ανάλυσης δοµής σελίδας. Εφαρµόζεται σε δυαδικές εικόνες σε µία προκαθορισµένη διεύθυνση (συνήθως οριζόντια ή κάθετη), αντικαθιστώντας τις ακολουθίες των συνεχών λευκών εικονοστοιχείων (φόντο) µε µαύρα εικονοστοιχεία (προσκήνιο) όταν αυτές έχουν µήκος µεγαλύτερο από κάποιο κατώφλι T max. Η εφαρµογή του όµως προϋποθέτει ότι οι χαρακτήρες του εγγράφου είναι ιδίου µεγέθους και συνεπώς δεν είναι κατάλληλος για το συγκεκριµένο τύπο εγγράφων που χρησιµοποιούµε οπότε είναι αναγκαία η τροποποίησή του. Ας υποθέσουµε ότι έχουµε δύο συνδεδεµένα αντικείµενα CC i και CC j, i j και µία µεταξύ τους ακολουθία λευκών εικονοστοιχείων (φόντο), την Si (, j). Για να αντικατασταθούν τα λευκά εικονοστοιχεία της Si (, j) µε µαύρα θα πρέπει να ικανοποιούνται οι παρακάτω συνθήκες: 1. Το µήκος της ακολουθίας δεν µπορεί να είναι µεγαλύτερο από το κατώφλι Tl. Το Tl είναι εξαρτηµένο από το ύψος h των αντικειµένων CCi και CC j σύµφωνα µε την εξής σχέση T = a min{ h, h } (1) l i j Η τιµή του συντελεστή a λαµβάνει συνήθως τιµές 0.5-1.5. 2. Η τιµή του λόγου του αντικείµενου µε το µεγαλύτερο ύψος προς αυτό µε το µικρότερο ύψος H δε θα πρέπει να υπερβαίνει την τιµή του T. ηλαδή R h H R max{ hi, hj} = Th (2) min{ h, h } i j Το T λαµβάνει τιµές µεταξύ 2-5. h 3. Το ποσοστό της οριζόντιας επικάλυψης του αντικειµένου µε το µικρότερο ύψος από αυτό µε το µεγαλύτερο ύψος θα πρέπει να ξεπερνά το 50%.
4. Στη 3x3 γειτονιά κάθε εικονοστοιχείου της ακολουθίας Si (, j) δε θα πρέπει να παρεµβάλλεται εικονοστοιχείο κάποιου τρίτου αντικειµένου CC k, k i, j. Ο πιο πάνω αλγόριθµος αναφέρεται ως προσαρµοστική εξοµάλυνση κατά µήκος διαδροµής ή ARLSA (Adaptive Run Length Smoothing Algorithm). Τα βασικά του πλεονεκτήµατά του σε σχέση µε τον πρωτότυπο αλγόριθµο είναι ηµιουργία οµοιογενών οµάδων αντικειµένων. Ανοχή στην οριζόντια επικάλυψη µεταξύ δύο γειτονικών γραµµών κειµένου. Στο Σχήµα 3 δίνεται ένα παράδειγµα εφαρµογής του ARLSA σε ένα τµήµα εγγράφου όπου υπάρχουν δύο οριζόντια επικαλυπτόµενες λέξεις µε διαφορετικό µέγεθος χαρακτήρων. Σε αυτή τη περίπτωση το αποτέλεσµα είναι η ορθή οµαδοποίηση των χαρακτήρων. Με τη χρήση του κανονικού RLSA δεν είναι δυνατή η ορθή τµηµατοποίηση του εγγράφου, για οποιαδήποτε τιµή του T. max (α) (β) Σχήµα 3. Παράδειγµα εφαρµογής του ARLSA σε ανοµοιογενές κείµενο µε επικαλυπτόµενες γραµµές κειµένου. Μετά την εφαρµογή του ARLSA, οι οµάδες αντικειµένων που σχηµατίζονται είναι υπερσύνολα των λέξεων. Συνεπώς, η επόµενη διαδικασία αφορά την επεξεργασία της κάθε οµάδας ξεχωριστά ώστε να εξαχθούν τα τελικά τµήµατα των λέξεων των οποίων τα χαρακτηριστικά θα εισαχθούν στη βάση δεδοµένων. Έτσι, για κάθε οµάδα αντικειµένων που προέκυψε από την αρχική φάση της οµαδοποίησης ακολουθούνται τα παρακάτω βήµατα: Ταξινόµηση των αντικειµένων µε βάση τη συντεταγµένη x της αριστερής πλευράς του ορθογωνίου παραλληλογράµµου (Bounding Box) που τα περικλείει. Υπολογισµός της µέσης τιµής m g των κενών διαστηµάτων (gaps) µεταξύ των διαδοχικών χαρακτήρων κάθε οµάδας. ηµιουργία διαχωριστικού σηµείου όπου το κενό µεταξύ διαδοχικών χαρακτήρων ξεπερνά την τιµή b m. Οι τιµές που λαµβάνει ο σταθερός συντελεστής b είναι µεταξύ 1-3. Αφού έχουν εντοπιστεί όλα τα σηµεία διαχωρισµού, δηµιουργούνται τα νέα σύνολα αντικειµένων. Όσα έχουν αριθµό αντικειµένων µικρότερο από κάποια προκαθορισµένη τιµή N c δεν θα ληφθούν υπόψη κατά τη διαδικασία εξαγωγής των χαρακτηριστικών. Αυτό γίνεται κυρίως για την αποφυγή εισαγωγής στη βάση g
δεδοµένων, λέξεων µε ένα ή δύο χαρακτήρες καθώς επίσης και σηµείων στίξης που αποµονώθηκαν κατά την επεξεργασία των συνόλων των χαρακτήρων. Στο Σχήµα 4, φαίνεται ένα παράδειγµα τµηµατοποίησης λέξεων για το έγγραφο του Σχήµατος 1(β). (α) (β) Σχήµα 4. Παράδειγµα τµηµατοποίησης λέξεων. (α) Αποτέλεσµα εφαρµογής του ARLSA, (β) τα τµήµατα λέξεων που έχουν ανιχνευθεί. 2.2 Εξαγωγή χαρακτηριστικών Για κάθε λέξη που ανιχνεύεται, το σύστηµα εξάγει τα χαρακτηριστικά βάσει των οποίων αναπαρίσταται η εικόνα της λέξης µέσα στη βάση δεδοµένων. Στο παρόν σύστηµα ανάκτησης όλα τα χαρακτηριστικά εξάγονται από το οριζόντιο διάγραµµα προβολών (κάθετη προβολή). Το διάγραµµα αυτό εξάγεται λαµβάνοντας το άθροισµα των εικονοστοιχείων των αντικειµένων (µαύρα εικονοστοιχεία) σε κάθε στήλη της εικόνας. Αρχικά, διαγράφονται από το διάγραµµα όλα τα µηδενικά, τα κενά δηλαδή µεταξύ των χαρακτήρων. Ακολούθως, έχοντας σκοπό την ανεξαρτησία από την κλιµάκωση της εικόνας λόγω της ανοµοιογένειας του µεγέθους των χαρακτήρων, το διάγραµµα προβολής κανονικοποιείται σε ένα σταθερό αριθµό δειγµάτων N s. Η διαδικασία της κανονικοποίησης είναι η αντίστοιχη που ακολουθείται όταν θέλουµε να εκτελέσουµε επέκταση του ιστογράµµατος (Histogram Stretching) [2]. Τέλος, η προβολή εξοµαλύνεται µε χωρικό φίλτρο 1 n ώστε να αφαιρεθεί ο θόρυβος και να είναι δυνατός ο εντοπισµός των τοπικών ακροτάτων µε µεγαλύτερη ακρίβεια και αξιοπιστία. Στο Σχήµα 5 φαίνεται ένα παράδειγµα εξαγωγής του οριζόντιου διαγράµµατος προβολής καθώς και η επεξεργασία του.
(α) (β) (γ) Σχήµα 5. Παράδειγµα εξαγωγής και επεξεργασία κάθετης προβολής. (α)εικόνα λέξης, (β) αρχική κάθετη προβολή µε N s = 334 (πλάτος εικόνας), (γ) τελικό διάγραµµα προβολής µετά την αφαίρεση των κενών, την κανονικοποίηση σε N s = 150 και το φιλτράρισµα µε χωρικό φίλτρο 1 7. Από το κάθε κανονικοποιηµένο διάγραµµα κάθετης προβολής, εξάγονται οι 20 πρώτοι όροι του µονοδιάστατου µετασχηµατισµού συνηµίτονου (DCT) χρησιµοποιώντας την παρακάτω σχέση. N s 1 (2n+ 1) kπ yk ( ) = ak ( ) xn ( )cos, k= 0,1,..., Ns 1 n= 0 2Ns 1, k = 0 Ns ak ( ) = 2, k 0 Ns (3) όπου x( n ) οι τιµές της καµπύλης της προβολής. Ο λόγος της χρήσης του DCT για την περιγραφή του διαγράµµατος της προβολής είναι η εξαιρετική του ικανότητα να συγκεντρώνει το µεγαλύτερο µέρος της πληροφορίας που µετασχηµατίζει στους πρώτους όρους. Πέραν από τους συντελεστές του DCT, ως χαρακτηριστικό χρησιµοποιείται και το πλήθος των τοπικών ελαχίστων Nmin και µεγίστων Nmax. Σκοπός της χρήσης αυτού του χαρακτηριστικού είναι η απόδοση συντελεστή βάρους στο µήκος της κάθε λέξης. 2.3 ηµιουργία τεχνητής εικόνας και αναζήτηση Για να είναι δυνατή η αναζήτηση µίας λέξης µέσα στη βάση δεδοµένων θα πρέπει η λέξη που εισάγεται ως ερώτηµα από το χρήστη να µετατρέπεται σε εικόνα. Αυτό είναι αναγκαίο καθώς ο χρήστης εισάγει τη λέξη µε τη µορφή ASCII χαρακτήρων. Θα πρέπει λοιπόν να επιλεγούν κατάλληλοι παράµετροι γραφής (στυλ, γραµµατοσειρά) ώστε να έχουµε τα καλύτερα δυνατά αποτελέσµατα ανάκτησης. Η διαδικασία που ακολουθείται αµέσως µετά τη δηµιουργία της τεχνητής εικόνας είναι η εξαγωγή των χαρακτηριστικών, που θα πρέπει βεβαίως να είναι ακριβώς τα ίδια µε τα αντίστοιχα της βάσης δεδοµένων. Συνεπώς, αυτό που γίνεται είναι η εξαγωγή του οριζόντιου διαγράµµατος προβολής, η επεξεργασία του και ακολούθως ο υπολογισµός των 20 πρώτων όρων του DCT καθώς και του πλήθους των τοπικών ελαχίστων και µεγίστων.
Η µέτρηση ανοµοιότητας µεταξύ της εικόνας του ερωτήµατος και των εικόνων της βάσης γίνεται υπολογίζοντας τρεις αποστάσεις, τις D 1, D 2 και D3. 20 D1 = yq ( k ) y ( k ) k= 1 q 2 max ma D = N N x (4) q 3 = min min D N N όπου yq ( k) οι συντελεστές DCT της εικόνας ερωτήµατος, και Nmax, Nmin το πλήθος των τοπικών µεγίστων και ελαχίστων του διαγράµµατος της εικόνας ερωτήµατος, αντίστοιχα. Η τελική απόσταση υπολογίζεται µε τη βοήθεια της επόµενης σχέσης. q q D= a D + a D + a D, a + a + a = 1 (5) 1 1 2 2 3 3 1 2 3 Σκοπός των συντελεστών a1, a 2,a3 είναι η απόδοση βάρους για κάθε χαρακτηριστικό. Τα τελικά αποτελέσµατα ανάκτησης δίνονται ταξινοµηµένα αρχίζοντας µε την εικόνα που αντιστοιχεί στο µικρότερο D (rank=1).
3. Υλοποίηση της τεχνικής Η παρούσα τεχνική της ανάκτησης εγγράφων µε βάση το περιεχόµενο τους, βασισµένη στη φιλοσοφία του word spotting, υλοποιήθηκε σε γραφικό περιβάλλον µε τη βοήθεια του περιβάλλοντος ανάπτυξης εφαρµογών DELPHI. Στις επόµενες ενότητες θα περιγράψουµε συνοπτικά τον τρόπο λειτουργίας της εφαρµογής. 3.1 Το περιβάλλον του προγράµµατος Το περιβάλλον του προγράµµατος υλοποίησης της τεχνικής ανάκτησης εγγράφων αποτελείται από τρία τµήµατα: το τµήµα ανάλυσης της εικόνας το τµήµα διαχείρισης της βάσης δεδοµένων το τµήµα αναζήτησης στη βάση δεδοµένων 3.1.1 Ανάλυση εικόνας Το τµήµα ανάλυσης εικόνας του προγράµµατος αναφέρεται ουσιαστικά σε αυτό που αντικρίζει ο χρήστης αφού τρέξει το πρόγραµµα και ανοίξει ένα δυαδικό έγγραφο. Να σηµειώσουµε ότι αν η εικόνα που εισαχθεί στο πρόγραµµα δεν είναι δυαδική τότε δεν ενεργοποιούνται οι λειτουργίες του. Αφού λοιπόν ανοιχτεί ένα δυαδικό έγγραφο, το πρόγραµµα έχει τη µορφή του Σχήµατος 6(α). Για να γίνει η ανάλυση της εικόνας θα πρέπει να πατηθεί το κουµπί Analyze Image. Αυτό που γίνεται κατά τη διάρκεια της ανάλυσης της εικόνας είναι η διαδικασία της τµηµατοποίησης του εγγράφου σε λέξεις. Οι παράµετροι βάσει των οποίων θα γίνει η τµηµατοποίηση ρυθµίζονται από τα τµήµατα ARLSA parameters και Word Segmentation Parameters. Από τα δύο πεδία, Components Groups και Word Groups, είναι δυνατή η παρατήρηση των εξαγόµενων οµάδων αντικειµένων κατά την πρώτη και δεύτερη φάση της τµηµατοποίησης αντίστοιχα. Αυτό γίνεται κάνοντας απλό ή διπλό αριστερό κλικ πάνω στο τµήµα που µας ενδιαφέρει να παρατηρήσουµε. Για να παρατηρήσουµε συνολικά τα εξαγόµενα τµήµατα κάνουµε κλικ στο κουµπί Paint All Groups ή Paint All Words ανάλογα µε το τι επιθυµούµε να επιθεωρήσουµε. Τέλος, για να υπολογιστούν τα χαρακτηριστικά και να εισαχθούν στη βάση δεδοµένων θα πρέπει να πατηθεί το κουµπί Add Words To Database. Στο Σχήµα 6 δίνονται δύο ενδεικτικές οθόνες που αφορούν το περιβάλλον της εφαρµογής πριν και µετά την ανάλυση της εικόνας.
(α) (β) Σχήµα 6. Το περιβάλλον του προγράµµατος για την ανάλυση της εικόνας. (α) Το περιβάλλον πριν από την ανάλυση της εικόνας και (β) µετά από τη διαδικασία ανάλυσης. 3.1.2 ιαχείριση βάσης δεδοµένων Για να εµφανιστεί το πλαίσιο διαλόγου της διαχείρισης της βάσης δεδοµένων επιλέγουµε από το µενού της εφαρµογής την εντολή Database View Database. Στο Σχήµα 7 φαίνεται η µορφή του συγκεκριµένου πλαισίου διαλόγου. Πέραν της παρατήρησης των εικόνων που είναι αποθηκευµένες στη βάση, υπάρχει η δυνατότητα διαγραφής, τόσο µίας µεµονωµένης εικόνας λέξης ( Delete Word ) όσο και ολόκληρο το σύνολο λέξεων µίας εικόνας ( Delete Image ). Επιπλέον, υπάρχει η δυνατότητα εύρεσης µίας λέξης εικόνας µε βάση τον αριθµό ID που ανατίθεται στην κάθε µία. Σχήµα 7. Η φόρµα του προγράµµατος για τη διαχείριση της βάσης δεδοµένων.
3.1.3 Αναζήτηση Το τµήµα του προγράµµατος που αναφέρεται ουσιαστικά στην τεχνική ανάκτησης είναι το πλαίσιο διαλόγου της αναζήτησης, της αλληλεπίδρασης δηλαδή χρήστη και συστήµατος. Για να εµφανιστεί θα πρέπει να επιλεγεί η εντολή Database Search. Το ερώτηµα δίνεται µε τη µορφή ASCII χαρακτήρων στο σχετικό πεδίο του πλαισίου. Για να εκτελεστεί η αναζήτηση πατάµε το κουµπί Search ή Enter. Το πρόγραµµα δηµιουργεί την τεχνητή εικόνα σύµφωνα µε τις παραµέτρους που ορίζονται από το πλαίσιο διαλόγου που εµφανίζεται µε το κουµπί Font. Για να δούµε την εικόνα που δηµιουργείται θα πρέπει να πιέσουµε το κουµπί View Synthetic Image. Τα αποτελέσµατα της αναζήτησης εµφανίζονται στο κέντρο του πλαισίου σε τετράδες όπου πάνω από κάθε εικόνα-αποτέλεσµα αναγράφεται η θέση της µέσα στην ταξινοµηµένη σειρά αποτελεσµάτων (Ranking). Για την πλοήγηση στα αποτελέσµατα χρησιµοποιούµε τα σχετικά κουµπιά που βρίσκονται στο πάνω µέρος της φόρµας ή τα πλήκτρα Page Up και Page Down. Σχήµα 8. Η φόρµα του προγράµµατος για την αναζήτηση στη βάση δεδοµένων.
4. Πειραµατικά αποτελέσµατα Για τη δοκιµή του συστήµατος χρησιµοποιήθηκαν συνολικά 21 δυαδικά έγγραφα. Μετά την τµηµατοποίησή τους σε λέξεις εισήχθησαν συνολικά 342 εικόνες λέξεων στη βάση δεδοµένων. Οι 21 εικόνες δυαδικών εγγράφων της βάσης δίνονται στον Πίνακα 1. Μπορεί εύκολα να παρατηρηθεί η ανοµοιογένεια του κειµένου των εγγράφων καθώς επίσης και το γεγονός ότι περιέχονται εικόνες τόσο µε αγγλικούς όσο και ελληνικούς χαρακτήρες. Αυτό αποτελεί ένα από τα βασικά πλεονεκτήµατα των συστηµάτων ανάκτησης εγγράφων µε βάση το περιεχόµενό καθώς είναι δυνατή η χρήση εγγράφων που περιέχουν κείµενο οποιασδήποτε γλώσσας. Στη παρούσα εφαρµογή είναι δυνατή η χρήση εγγράφων µε γλώσσες που χρησιµοποιούν λατινικούς χαρακτήρες. Αυτός ο περιορισµός οφείλεται στο σύστηµα τµηµατοποίησής τους σε λέξεις καθώς στηρίζεται στη χρήση συνδεδεµένων αντικειµένων. Πίνακας 1. Τα 21 δυαδικά έγγραφα για τη δοκιµή του συστήµατος ανάκτησης.
Για την αξιολόγηση της αποδοτικότητας του συστήµατος ανάκτησης επιλέχθηκαν µε τυχαίο τρόπο 20 λέξεις, ήδη εισηγµένες στη βάση δεδοµένων και µετρήθηκε η σειρά µε την οποία το σύστηµα έδωσε το ορθό αποτέλεσµα. Οι λέξεις που επιλέχθηκαν καθώς και τα αποτελέσµατα για την κάθε µία δίνονται στον Πίνακα 2. Πίνακας 2. Αποτελέσµατα ανάκτησης. Λέξη Rank Λέξη Rank Beetle 1 Angels 11 Structured 1 FALLACY 17 INTERESTING 1 NELSON 1 POLYMER 12 Word 1 and 1 εκτυπώστε 21 BSD 29 Αποκτήστε 1 SAVITCH 44 απλά 6 With 1 αντικειµένων 1 mix 3 KIND 111 Image 2 music 1 Συνεπώς, το µέσο ranking είναι ίσο µε 13,3 ενώ θεωρώντας ότι ορθό είναι ένα αποτέλεσµα που περιέχεται µέσα στις 20 πρώτες θέσεις, τότε έχουµε ποσοστό επιτυχίας ανάκτησης ίσο µε 80%. 5. Συµπεράσµατα Το σύστηµα ανάκτησης εγγράφων που παρουσιάσαµε στην παρούσα αναφορά στηρίζεται στη φιλοσοφία των µεθόδων της ανάκτησης µε βάση το περιεχόµενο (Content Based Image Retrieval). Αυτό που χρησιµοποιείται ως περιεχόµενο είναι οι λέξεις του κειµένου οι οποίες τµηµατοποιούνται µε τη χρήση ενός τροποποιηµένου αλγόριθµου εξοµάλυνσης διαδροµής, RLSA. Λαµβάνοντας υπόψη το γεγονός ότι το κείµενο των εγγράφων που χρησιµοποιήθηκαν για τη δοκιµή του συστήµατος ανάκτησης είναι εντελώς ανοµοιογενές, τότε τα αποτελέσµατα που έδωσε κρίνονται ικανοποιητικά.
6. Αναφορές [1] Doermann, D. The Indexing and Retrieval of Document Images: A Survey, Computer Vision and Image Understanding, vol. 70, no. 3, pp. 287-298, 1998. [2] Papamarkos, N. Digital Image Processing & Analysis, Xanthi 2006. [3] Wahl, F.M., Wong, K.Y., Casey R.G. Block Segmentation and Text Extraction in Mixed Text/Image Documents, Computer Graphics and Image Processing (20), 375-390, 1982. [4] Nikolaou, N., Papamarkos, N. Color segmentation of complex document images, International Conference on Computer Vision Theory and Applications, Setúbal, Portugal, pp. 220-227, 2006.