Ανάκτηςη εγγράφων βάςει περιεχομένου και MPEG-7 μεταδεδομένων

Σχετικά έγγραφα
Θέματα διπλωματικών εργαςιών ςτην ανάλυςη εικόνασ

ΕΝΟΤΗΤΑ 2: ΤΟ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ. ΚΕΦΑΛΑΙΟ 5: Γνωριμία με το λογιςμικό του υπολογιςτι

ΕΝΟΤΗΤΑ 2: ΕΠΙΚΟΙΝΩΝΩ ΜΕ ΤΟΝ ΥΠΟΛΟΓΙΣΤΗ. ΚΕΦΑΛΑΙΟ 5: Αρχεία - Φάκελοι

ΛΕΙΣΟΤΡΓΙΚΆ ΤΣΉΜΑΣΑ. 7 θ Διάλεξθ Διαχείριςθ Μνιμθσ Μζροσ Γ

Περιεχόμενα. χολι Χοροφ Αντιγόνθ Βοφτου - Πολιτικι Διαχείριςθσ Cookie 1

Ειδικά Θζματα Βάςεων Δεδομζνων

Δείκτεσ Διαχείριςθ Μνιμθσ. Βαγγζλθσ Οικονόμου Διάλεξθ 8

Ειςαγωγι ςτο Δομθμζνο Προγραμματιςμό. Βαγγζλθσ Οικονόμου

Περίληψη Διδακτορικής Διατριβής του Μ.Φ. Κωνσταντίνου Ζαγόρη

Διδάςκων: Κωνςταντίνοσ τεφανίδθσ

Ειδικά Θζματα Βάςεων Δεδομζνων

Δομζσ Δεδομζνων Πίνακεσ

ΧΡΗΙΜΟΠΟΙΩΝΣΑ ΣΟ VISUAL HISTORY ARCHIVE

ΘΥ101: Ειςαγωγι ςτθν Πλθροφορικι

ςυςτιματα γραμμικϊν εξιςϊςεων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium V

Συγγραφι επιςτθμονικισ εργαςίασ. Η κορφφωςθ τθσ προςπάκειάσ μασ

ΗΛΕΚΣΡΟΝΙΚΗ ΤΠΗΡΕΙΑ ΑΠΟΚΣΗΗ ΑΚΑΔΗΜΑΪΚΗ ΣΑΤΣΟΣΗΣΑ

Αςφάλεια και Προςταςία Δεδομζνων

Ιδιότθτεσ πεδίων Γενικζσ.

TIM Εικονικό Περιβάλλον Συνεργασίας Οδθγίεσ Χριςθσ

ΕΝΟΣΗΣΑ 1: ΓΝΩΡIΖΩ ΣΟΝ ΤΠΟΛΟΓΙΣΗ. ΚΕΦΑΛΑΙΟ 2: Σο Τλικό του Τπολογιςτι

Εισαγωγικές έννοιες. Αντώνησ Κ Μαώργιώτησ

ΒΙΟΛΟΓΟΙ ΓΙΑ ΦΥΣΙΚΟΥΣ

τατιςτικά ςτοιχεία ιςτότοπου Κ.Ε.Π.Α. Α.Ν.Ε.Μ, για τθν περίοδο 1/1/ /12/2014

ΕΦΑΡΜΟΓΕ ΒΑΕΩΝ ΔΕΔΟΜΕΝΩΝ ΣΗ ΝΟΗΛΕΤΣΙΚΗ. Φιλιοποφλου Ειρινθ

ΕΝΟΤΗΤΑ 2: ΤΟ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ. ΚΕΦΑΛΑΙΟ 6: Το γραφικό περιβάλλον Επικοινωνίασ (Γ.Π.Ε)

Διαχείριςη Αριθμοδεικτών (v.1.0.7)

Περιφερειακό Ψθφιακό Αποκετιριο: Ανοικτά Δεδομζνα και Επιχειρθματικότθτα. Γ. Φραγκιαδάκθσ Κζντρο Επικοινωνιϊν και Δικτφων Πανεπιςτιμιο Κριτθσ

Εγχειρίδιο Χριςθσ τθσ διαδικτυακισ εφαρμογισ «Υποβολι και παρακολοφκθςθ τθσ ζγκριςθσ Εκπαιδευτικών Πακζτων»

ΧΕΔΙΑΜΟ ΠΡΟΪΟΝΣΩΝ ΜΕ Η/Τ

ΕΦΑΡΜΟΓΖσ ΒΆΕΩΝ ΔΕΔΟΜΖΝΩΝ ΚΑΙ ΔΙΑΔΙΚΣΥΟΤ. Ειρινθ Φιλιοποφλου

Τυπικζσ Γλϊςςεσ Περιγραφισ Υλικοφ Εργαςτιριο 1

Μετατροπι Αναλογικοφ Σιματοσ ςε Ψθφιακό. Διάλεξθ 10

Πόςο εκτατό μπορεί να είναι ζνα μη εκτατό νήμα και πόςο φυςικό. μπορεί να είναι ζνα μηχανικό ςτερεό. Συνιςταμζνη δφναμη versus «κατανεμημζνησ» δφναμησ

Ένα πρόβλθμα γραμμικοφ προγραμματιςμοφ βρίςκεται ςτθν κανονικι μορφι όταν:

Ανάπτυξη Εφαρμογών με Σχεςιακέσ Βάςεισ Δεδομένων

1η Ενδιάμεση Τεχνική Έκθεση

ελ. 11/235, Περιεχόμενα Φακζλου "Σεχνικι Προςφορά"

Μάθημα 9 ο ΤΕΧΝΙΚΕΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΙΚΟΝΙΚΗΣ ΜΝΗΜΗΣ

ΕΝΟΤΗΤΑ 3: Χριςθ εργαλείων ζκφραςθσ, επικοινωνίασ, ανακάλυψθσ και δθμιουργίασ. ΚΕΦΑΛΑΙΟ 7: Υπθρεςίεσ Αναηιτθςθσ ςτον Παγκόςμιο Ιςτό

Οδηγός χρήσης Blackboard Learning System για φοιτητές

Αςφάλεια και Προςταςία Δεδομζνων

Ειδικά Θζματα Βάςεων Δεδομζνων

ΛΕΙΣΟΤΡΓΙΚΆ ΤΣΉΜΑΣΑ. 2 ο Εργαςτιριο Διαχείριςθ Διεργαςιϊν

ΕΝΟΣΗΣΑ 1: ΓΝΩΡIΖΩ ΣΟΝ ΤΠΟΛΟΓΙΣΗ. ΚΕΦΑΛΑΙΟ 3: Εργονομία

ΟΔΗΓΙΕ ΓΙΑ ΣΗΝ ΕΙΑΓΩΓΗ ΕΚΔΡΟΜΩΝ & ΝΕΩΝ - ΑΝΑΚΟΙΝΩΕΩΝ ΣΗΝ ΙΣΟΕΛΙΔΑ ΣΗ Δ.Δ.Ε. ΘΕΠΡΩΣΙΑ

Η θεωρία τησ ςτατιςτικήσ ςε ερωτήςεισ-απαντήςεισ Μέροσ 1 ον (έωσ ομαδοποίηςη δεδομένων)

ΛΕΙΣΟΤΡΓΙΚΆ ΤΣΉΜΑΣΑ. 3 ο Εργαςτιριο υγχρονιςμόσ Διεργαςιϊν

Εγκατάσταση & Διαχείριση Joomla ΤΜΒΟΤΛΟ ΠΛΗΡΟΦΟΡΙΚΗ Ν. ΕΡΡΩΝ & ΚΕ.ΠΛΗ.ΝΕ.Σ. Ν. ΕΡΡΩΝ

Διαχείριςθ του φακζλου "public_html" ςτο ΠΣΔ

Βάςεισ Δεδομζνων Ι. Ενότητα 12: Κανονικοποίηςη. Δρ. Τςιμπίρθσ Αλκιβιάδθσ Τμιμα Μθχανικών Πλθροφορικισ ΤΕ

ΠΡΟΓΡΑΜΜΑΣΙΜΌ ΤΠΟΛΟΓΙΣΏΝ. Κεφάλαιο 8 Η γλϊςςα Pascal

ΕΝΟΤΘΤΑ 2: ΕΠΙΚΟΙΝΩΝΩ ΜΕ ΤΟΝ ΥΠΟΛΟΓΙΣΤΘ. ΚΕΦΑΛΑΙΟ 6: Θ «Βοικεια» ςτον Υπολογιςτι

Διαχείριςη Κοςτολόγηςησ

Διαδικαςία Διαχείριςθσ Στθλϊν Βιβλίου Εςόδων - Εξόδων. (v.1.0.7)

Πειραματικι Ψυχολογία (ΨΧ66)

Εργαςτιριο Βάςεων Δεδομζνων

ΕΦΑΡΜΟΓΕ ΒΑΕΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΔΙΑΔΙΚΣΤΟΤ. Φιλιοποφλου Ειρινθ

Ανάκτηση Εικόνας βάσει Υφής με χρήση Eye Tracker

ΛΕΙΤΟΥΓΙΚΆ ΣΥΣΤΉΜΑΤΑ. 5 ο Εργαςτιριο Ειςαγωγι ςτθ Γραμμι Εντολϊν

Σφντομεσ Οδθγίεσ Χριςθσ

ΜΑΘΗΜΑΤΙΚΑ Α Γυμνασίου

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο του Άβακα

Μάρκετινγκ V Κοινωνικό Μάρκετινγκ. Πόπη Σουρμαΐδου. Σεμινάριο: Αναπτφςςοντασ μια κοινωνική επιχείρηςη

ΣΑΞΗ: Το ςενάριο απευκφνεται ςε παιδιά προςχολικισ θλικίασ. ΤΜΒΑΣΟΣΗΣΑ ΜΕ ΣΟ ΔΕΠΠ ΚΑΙ ΑΠ ΜΑΘΗΜΑΣΙΚΩΝ

Δομζσ Αφαιρετικότθτα ςτα Δεδομζνα

Εγκατάσταση & Διαχείριση Joomla στο Π.Σ.Δ. ΣΥΜΒΟΥΛΟ ΡΛΗΟΦΟΙΚΗΣ Ν. ΣΕΩΝ & ΚΕ.ΡΛΗ.ΝΕ.Τ. Ν. ΣΕΩΝ

Προχωρθμζνα Θζματα Συςτθμάτων Ελζγχου

Αυτόματη δημιουργία στηλών Αντιστοίχηση νέων λογαριασμών ΦΠΑ

Virtualization. Στο ςυγκεκριμζνο οδηγό, θα παρουςιαςτεί η ικανότητα δοκιμήσ τησ διανομήσ Ubuntu 9.04, χωρίσ την ανάγκη του format.

Facebook Μία ειςαγωγι

ΙΝΣΙΣΟΤΣΟ ΕΚΠΑΙΔΕΤΣΙΚΗ ΠΟΛΙΣΙΚΗ

Γεωργικός Πειραματισμός ΙΙ

Μθχανικι Μάκθςθ Μάκθμα 1 Βαςικζσ ζννοιεσ

Clinical trials have gone global: Is this a good thing? Επιλεγόμενο μάκθμα «Λευχαιμίεσ» Σταυροφλα Μπεροποφλθ Κωνςταντίνοσ Φωτιάδθσ

Τυπικζσ Γλϊςςεσ Περιγραφισ Υλικοφ Διάλεξθ 4

Δίκτυα Μεταγωγισ Δεδομζνων

Διαχείριση Επιλογών Διαμόρφωσης

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο τησ Αριθμογραμμήσ

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Εθνικό Τυπογραφείο)

Διαγωνιςμόσ "Μακθτζσ ςτθν Ζρευνα (ΜΕΡΑ) "

Ραραμετροποίθςθ ειςαγωγισ δεδομζνων περιόδων

Ο ήχοσ ωσ φυςικό φαινόμενο

Ειδικά Θζματα Βάςεων Δεδομζνων

Ιςοηυγιςμζνα δζντρα και Β- δζντρα. Δομζσ Δεδομζνων

ΕΠΙΜΟΡΦΩΗ ΕΚΠΑΙΔΕΤΣΙΚΩΝ ΣΗΝ ΧΡΗΗ ΚΑΙ ΑΞΙΟΠΟΙΗΗ ΣΩΝ ΣΠΕ ΣΗΝ ΕΚΠΑΙΔΕΤΣΙΚΗ ΔΙΔΑΚΣΙΚΗ ΔΙΑΔΙΚΑΙΑ

Τεχνικζσ Ανάλυςησ Διοικητικών Αποφάςεων

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Εθνικό Τυπογραφείο)

Διαδικαζία Διατείριζης Εκηύπωζης Ιζοζσγίοσ Γενικού - Αναλσηικών Καθολικών. (v )

Τεχνικι Παρουςιάςεων με PowerPoint

Ειδικά Θζματα Βάςεων Δεδομζνων

ΕΡΓΑΣΗΡΙΟ ΕΦΑΡΜΟΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Δείκτησ Αξιολόγηςησ 1.1: χολικόσ χώροσ, υλικοτεχνική υποδομή και οικονομικοί πόροι

Διαδικασία Δημιοσργίας Ειδικών Λογαριασμών. (v.1.0.7)

ΟΝΟΜΑΣΟΛΟΓΙΑ ΠΑΡΑΜΕΣΡΩΝ ΓΙΑ ΠΡΟΑΡΜΟΜΕΝΕ ΑΝΑΦΟΡΕ. παραμζτρου> (Εμφανίηεται ςαν Caption ςτθν φόρμα των φίλτρων).

Συςκευζσ τθλεπικοινωνιϊν και δικτφωςθσ:

Το Δίκτυο Multi-Layer Perceptron και ο Κανόνασ Back-Propagation. Κϊςτασ Διαμαντάρασ Τμιμα Πλθροφορικισ ΤΕΙ Θεςςαλονίκθσ

Epsilon Cloud Services

Προώθησε το site σου στις μηχανε ς αναζη τησης

Transcript:

ΔΗΜΟΚΡΙΣΕΙΟ ΠΑΝΕΠΙΣΗΜΙΟ ΘΡΑΚΗ ΤΜΘΜΑ ΘΛΕΚΤΟΛΟΓΩΝ ΜΘΧΑΝΛΚΩΝ ΚΑΛ ΜΘΧΑΝΛΚΩΝ ΥΡΟΛΟΓΛΣΤΩΝ ΕΓΑΣΤΘΛΟ ΑΝΑΛΥΣΘΣ ΘΛΕΚΤΛΚΩΝ ΚΥΚΛΩΜΑΤΩΝ Ανάκτηςη εγγράφων βάςει περιεχομένου και MPEG-7 μεταδεδομένων Διδακτορική Διατριβή ΚΩΝΣΤΑΝΤΙΝΟΣ ΖΑΓΟΡΗΣ 2009 I kzagoris *Ρλθκτρολογιςτε το όνομα τθσ εταιρείασ+ Μαΐου 2009

Η ΕΡΤΑΜΕΛΗΣ ΕΡΙΤΟΡΗ ΕΞΕΤΑΣΗΣ ΤΗΣ ΔΙΔΑΚΤΟΙΚΗΣ ΔΙΑΤΙΒΗΣ Ο Επιβλζπων Τα Μζλη Νικόλαοσ Ραπαμάρκοσ Κακθγθτισ Δ.Ρ.Θ. Ιωάννθσ Ανδρεάδθσ Κακθγθτισ Δ.Ρ.Θ. Ακανάςιοσ Στουραΐτθσ Κακθγθτισ Ρανεπιςτθμίου Ρατρϊν Χριςτόδουλοσ Χαμηάσ Κακθγθτισ Δ.Ρ.Θ. Αλζξανδροσ Καράκοσ Αν. Κακθγθτισ Δ.Ρ.Θ. Γεϊργιοσ Συρακοφλθσ Επ. Κακθγθτισ Δ.Ρ.Θ. Χριςτοσ Εμμανουθλίδθσ Ερευνθτισ Β Βακμίδασ του ΙΡΕΤ

ΔΗΜΟΚΡΙΣΕΙΟ ΠΑΝΕΠΙΣΗΜΙΟ ΘΡΑΚΗ ΤΜΘΜΑ ΘΛΕΚΤΟΛΟΓΩΝ ΜΘΧΑΝΛΚΩΝ ΚΑΛ ΜΘΧΑΝΛΚΩΝ ΥΡΟΛΟΓΛΣΤΩΝ ΕΓΑΣΤΘΛΟ ΑΝΑΛΥΣΘΣ ΘΛΕΚΤΛΚΩΝ ΚΥΚΛΩΜΑΤΩΝ ΑΝΑΚΤΘΣΘ ΕΓΓΑΦΩΝ ΒΑΣΕΛ ΡΕΛΕΧΟΜΕΝΟΥ ΚΑΛ MPEG-7 ΜΕΤΑΔΕΔΟΜΕΝΩΝ ΔΛΔΑΚΤΟΛΚΘ ΔΛΑΤΛΒΘ ΤΟΥ ΚΩΝΣΤΑΝΤΛΝΟΥ ΗΑΓΟΘ Ξάνκθ, 2009

ΠΕΡΙΛΗΨΗ Στα τελευταία χρόνια υπάρχει ταχεία ανάπτυξθ του μεγζκουσ των πολυμεςικϊν δεδομζνων λόγω τθσ ευκολίασ δθμιουργίασ τουσ. Ζνα από τα κυριότερα ςυςτατικά των πολυμεςικϊν δεδομζνων είναι οι ψθφιακζσ εικόνεσ. Κακθμερινά, παράγονται giga-bytes εικόνων, με αποτζλεςμα, να δθμιουργοφνται τεράςτια μεγζκθ πλθροφορίασ. Θ αποτελεςματικι εκμετάλλευςθ όλθσ αυτισ τθσ πλθροφορίασ απαιτεί ζξυπνεσ τεχνικζσ και νζα τεχνολογία. Για το ςκοπό αυτό, θ αποκικευςθ των πολυμεςικϊν πλθροφοριϊν πρζπει να οργανωκεί με τζτοιον τρόπο ϊςτε να επιτρζπει τθν αποδοτικι πλοιγθςθ, αναηιτθςθ και ανάκτθςι τουσ. Θ παροφςα διατριβι παρουςιάηει πζντε τεχνικζσ που βελτιϊνουν τα ςυςτιματα ανάκτθςθσ εικόνων με βάςθ το περιεχόμενό τουσ. Θ πρϊτθ τεχνικι μειϊνει τισ χρωματικζσ αποχρϊςεισ μιασ εικόνασ με τθν χρθςιμοποίθςθ ςτατιςτικϊν ςυςτάδων (Clustering) ςυνδυάηοντασ το νευρωνικό ταξινομθτι Kohonen Self-Organized Feature Map (KSOFM) και τον αςαφι ταξινομθτι Gustafson Kessel (GK). Αρχικά, οι χρωματικζσ αποχρϊςεισ μειϊνονται με τον KSOFM και οι εξαγόμενεσ χρωματικζσ κλάςεισ του αρχικοποιοφν τον αςαφι αλγόρικμο GK. Τα τελικά αποτελζςματα του GK ορίηουν και τθ χρωματικι παλζτα τθσ τελικισ εικόνασ. Θ προτεινόμενθ τεχνικι ζχει τθν ικανότθτα να διατθρεί τα κφρια χρϊματα μιασ εικόνασ ακόμα και αν το πλικοσ αυτϊν είναι πολφ μικρό. Επίςθσ ενοποιεί περιοχζσ που ζχουν παρόμοια χρϊματα. Με βάςθ τα παραπάνω, μπορεί να κεωρθκεί ωσ μία ιςχυρι τεχνικι κατάτμθςθσ ζγχρωμθσ ψθφιακισ εικόνασ. Θ δεφτερθ μζκοδοσ που προτείνεται αςχολείται με τθν ανάδραςθ με βάςθ τθ ςυνάφεια, θ οποία ςτθρίηεται ςε τζςςερισ περιγραφείσ όμοιουσ με αυτοφσ του MPEG-7. Ρολλζσ φορζσ ο χριςτθσ δεν ξζρει τι εικόνα ψάχνει ακριβϊσ αλλά ζχει μία γενικι ιδζα. Οπότε κα πρζπει το ςφςτθμα να παρζχει ςτον χριςτθ ζνα τρόπο αλλθλοεπίδραςθσ με αυτό. Αρχικά παρζχονται ςτο χριςτθ το αρχικό ςφνολο των αποτελεςμάτων τθσ ανάκτθςθσ και ςτθ ςυνζχεια ο χριςτθσ μπορεί να επιλζξει από αυτά εκείνα που τον ενδιαφζρουν. Το Σφςτθμα Ανάκτθςθσ χρθςιμοποιεί αυτιν τθν πλθροφορία ϊςτε να βελτιϊςει τα αρχικά αποτελζςματα. Αυτό πραγματοποιείται με τον μεταςχθματιςμό του διανφςματοσ του περιγραφζα των εικόνων ςε ζνα άλλο διάνυςμα με βάςθ τα εςωτερικά χαρακτθριςτικά του. Σε αυτόν κα αποκθκεφεται θ πλθροφορία που κα δίνεται από τον χριςτθ ενϊ οι αρχικζσ τιμζσ που περιζχει είναι οι τιμζσ του περιγραφζα τθσ εικόνασ ερϊτθμα. Πταν ο χριςτθσ επιλζγει μία εικόνα από τα αποτελζςματα τθσ αρχικισ ανάκτθςθσ, το διάνυςμα του περιγραφζα τθσ αλλάηει τισ τιμζσ του μεταςχθματιςμζνου διανφςματοσ. Τα καινοφργια αποτελζςματα ανάκτθςθσ εικόνων δθμιουργοφνται κεωρϊντασ ωσ περιγραφζα-ερϊτθμα αυτόν που είναι αποκθκευμζνοσ ςτο μεταςχθματιςμζνο διάνυςμα. Θ προτεινόμενθ τεχνικι βελτιϊνει τα αποτελζςματα τθσ αρχικισ ανάκτθςθσ με μικρό i

υπολογιςτικό κόςτοσ. Θ τρίτθ τεχνικι αςχολείται με τον εντοπιςμό του κειμζνου ςε εικόνεσ ζγγραφα. Δθλαδι, προτείνεται μία μζκοδοσ εντοπιςμοφ ομοιόμορφου κειμζνου, θ οποία ςτθρίηεται ςτα ςυνδεδεμζνα ςτοιχεία για τον εντοπιςμό των αντικειμζνων, ςτα δομικά ςυςτατικά των εγγράφων για τθ δθμιουργία του περιγραφζα των αντικειμζνων και ςτα Support Vector Machines για τθν επιλογι αυτϊν που κεωροφνται ωσ κείμενο. Επιπλζον ζχει τθν ικανότθτα να προςαρμόηεται ςτισ ιδιαιτερότθτεσ τθσ κάκε βάςθσ εγγράφων εικόνων. Αρχικά εντοπίηονται τα πλαίςια των αντικειμζνων που περιζχονται ςε μία εικόνα με τθν τεχνικι των ςυνδεδεμζνων αντικειμζνων. Από κάκε τζτοιο πλαίςιο εξάγεται ζνασ περιγραφζασ, ο οποίοσ αποτελείται από ζνα ςφνολο δομθμζνων ςτοιχείων του εγγράφου. Εφόςον το μζγεκόσ του είναι αρχικά ίςο με 510, εφαρμόηεται μία τεχνικι μείωςισ του με ςκοπό να επιλεγοφν αυτά τα δομθμζνα ςυςτατικά που αυξάνουν τθ διαχωριςτικότθτα μεταξφ πλαιςίων που περιζχουν κείμενο και αυτϊν που δεν περιζχουν. Θ τεχνικι αυτι ονομάηεται Feature Standard Deviation Analysis of Structure Elements (FSDASE). Τζλοσ, με τθ βοικεια των Support Vector Machines αποφαςίηεται αν ο περιγραφζασ αντιπροςωπεφει κείμενο ι όχι. Θ προτεινόμενθ μζκοδοσ ζχει τθν ικανότθτα να προςαρμόηεται ςτισ ιδιαιτερότθτεσ τθσ κάκε βάςθσ εγγράφων εικόνων. Επίςθσ, λόγω τθσ ικανότθτασ του περιγραφζα των πλαιςίων να αυξομειϊνει το μζγεκόσ του, μπορεί να αυξομειωκεί και το υπολογιςτικό κόςτοσ τθσ προτεινόμενθσ τεχνικισ. Θ τζταρτθ τεχνικι περιγράφει ζνα ςφςτθμα ανάκτθςθσ εγγράφων εικόνων με τθν τεχνικι εντοπιςμοφ των λζξεων. Θ μζκοδοσ αποτελείται από τα online και τα offline ςτάδια τθσ. Το offline ςτάδιο πραγματοποιείται μία φορά. Σε αυτιν, ζνα ςφνολο εγγράφων αρχικά περνάει το ςτάδιο τθσ προ-επεξεργαςίασ, το οποίο αποτελείται από ζνα φίλτρο μεςαίασ τιμισ και μία τεχνικι δυαδικοποίθςθσ. Ο εντοπιςμόσ των λζξεων που περιζχονται ςτο κείμενο γίνονται χρθςιμοποιϊντασ τθν τεχνικι των ςυνδεδεμζνων αντικειμζνων. Από τθ λζξθ εξάγονται εννζα χαρακτθριςτικά που περιγράφουν το ςχιμα τθσ λζξθσ ικανοποιθτικά ενϊ εξομαλφνουν τισ διαφορζσ που προκφπτουν από το μζγεκόσ τθσ ι τθν γραμματοςειρά με τθν οποία απεικονίηεται θ λζξθ. Τα χαρακτθριςτικά αυτά είναι: Width to Height Ratio, Word Area Density, Center of Gravity, Vertical Projection, Top Bottom Shape Projections, Upper Grid Features, Down Grid Features. Τζλοσ όλα τα παραπάνω χαρακτθριςτικά ςχθματίηουν ζνα διάνυςμα 93 διαςτάςεων που αποτελεί τον περιγραφζα τθσ λζξθσ, ο οποίοσ αποκθκεφεται ςτθ βάςθ. Το online ςτάδιο είναι αυτό που αλλθλοεπιδρά με τον χριςτθ, ο οποίοσ αρχικά πλθκτρολογεί μία λζξθ ερϊτθμα. Το προτεινόμενο ςφςτθμα δθμιουργεί μία εικόνα τθσ παραπάνω λζξθσ με φψοσ ίςο με το μζςο φψοσ όλων των λζξεων-πλαιςίων που υπολογίςτθκαν ςτθν Offline διεργαςία και υπολογίηει τον περιγραφζα τθσ. Στο τζλοσ, χρθςιμοποιϊντασ τθν Minkowski L 1 απόςταςθ, παρουςιάηονται ςτον χριςτθ όλα τα ζγγραφα που περιζχουν τισ λζξεισ που ο περιγραφζασ τουσ είναι πιο κοντά ςε αυτόν τθσ λζξθσ ερϊτθμα. Τα πειραματικά αποτελζςματα ζδειξαν ότι το προτεινόμενο ςφςτθμα αποδίδει καλφτερα από ζνα εμπορικό OCR πακζτο. ii

Θ τελευταία μζκοδοσ είναι ζνασ ςυνεπτυγμζνοσ περιγραφζασ ςχιματοσ ςτα πρότυπα των περιγραφζων ςχιματοσ του MPEG-7, ο οποίοσ ονομάηεται Compact Shape Portrayal Descriptor. Ο υπολογιςμόσ του μπορεί πολφ εφκολα να παραλλθλιςτεί κακϊσ κάκε χαρακτθριςτικό υπολογίηεται ξεχωριςτά. Τα χαρακτθριςτικά αυτά είναι τα Width To Height Ratio, Vertical Horizontal Projections, Top Bottom Shape Projections τα οποία τελικά ςχθματίηουν ζναν 41-διαςτάςεων περιγραφζα. Ζπειτα οι τιμζσ του περιγραφζα κβαντοποιοφνται με ςκοπό τθ μείωςθ του μεγζκουσ του χωρίσ να επθρεάηονται τα αποτελζςματα του. Επιπλζον, το MPEG-7 κβαντίηει αρκετοφσ από τουσ περιγραφείσ που περιζχει. Επειδι οι τιμζσ ςυγκεντρϊνονται ςε μικρζσ περιοχζσ κα πρζπει να κβαντιςτοφν μθ γραμμικά ενϊ κάκε χαρακτθριςτικό κα πρζπει να κβαντιςτεί ξεχωριςτά κακϊσ δεν ςχετίηονται μεταξφ τουσ. Στθν διδακτορικι διατριβι θ κβαντοποίθςθ πραγματοποιικθκε με τον αςαφι ταξινομθτι GK ενϊ κάκε διάςταςθ του περιγραφζα αντιπροςωπεφεται με 3bits οπότε το ςυνολικό του μζγεκοσ είναι 3x41 = 123 bits. O αςαφισ ταξινομθτισ GK δίνει 8 κζντρα κλάςεων και τουσ αντίςτοιχουσ πίνακεσ διαςπορϊν (covariance matrix) με τουσ οποίουσ είναι εφκολθ θ μετατροπι των ςυνεχϊν τιμϊν του περιγραφζα ςε δυαδικζσ τιμζσ εφρουσ *000, 1111+ ι ςε ακζραιεσ τιμζσ εφρουσ *0,7+. Επιπλζον, υλοποιικθκε ζνασ αλγόρικμοσ Ανάδραςθσ Συνάφειασ που ςτθρίηεται ςτα Support Vector Machines. Αρχικά το ςφςτθμα παρουςιάηει τα αποτελζςματα αναηιτθςθσ με βάςθ τον μετρθτι ομοιότθτασ. Ο χριςτθσ επιλζγει ποια κεωρεί ςωςτά και ποια όχι. Οι περιγραφείσ των ςχθμάτων που επζλεξε ο χριςτθσ χρθςιμοποιοφνται ωσ δεδομζνα εκπαίδευςθσ και ωσ μζγεκοσ απόςταςθσ θ κανονικοποιθμζνθ ςυνάρτθςθ απόφαςθσ των Support Vector Machines. Ο Compact Shape Portrayal Descriptor είναι ζνασ περιγραφζασ ςχιματοσ ο οποίοσ ζχει πολφ μικρό μζγεκοσ (μόνο 123 bits), ζχει πολφ μικρό υπολογιςτικό κόςτοσ και ζχει ευρεία εφαρμογι χωρίσ να μειϊνεται θ ακρίβεια τθσ ανάκτθςθσ. Συμπεραςματικά, θ παροφςα διδακτορικι διατριβι παρουςιάηει λφςεισ ςε υπάρχοντα προβλιματα ανάκτθςθσ εικόνων με βάςει το περιεχόμενο όπωσ κατάτμθςθ εικόνων, εντοπιςμόσ κειμζνου, βελτίωςθ των αποτελεςμάτων ανάκτθςθσ με τθν τεχνικι τθσ ανάδραςθσ με βάςθ τθ ςυνάφεια και περιγραφείσ ςχθμάτων και λζξεων. Πλεσ οι προτεινόμενεσ τεχνικζσ μποροφν να ςυνδυαςτοφν με ςκοπό τθ δθμιουργία ενόσ γενικισ χριςθσ, γριγορου και ταυτόχρονα ςυμβατό με το MPEG-7 ςφςτθμα ανάκτθςθσ εικόνων με βάςθ το περιεχόμενο. iii

ABSTRACT In the last years, the world has experienced a significant growth of the size of multimedia data without any indexing information, which have been increased thanks to the easiness to create such images using scanners or digital cameras. In order to satisfactorily exploit these quantities of images, it is necessary to develop effective techniques to browse, store and retrieve them. The present PhD Thesis introduces five methods that improve the content-based image retrieval systems. The first technique proposes a new color clustering technique which is based on a combination of a neural network and a fuzzy classifier. Initially, the colors are reduced by using the Kohonen Self Organized Feature Map (KSOFM). After this, each initial color is classified to one of the output KSOFM classes. In the final stage, the KSOFM results initialize the Gustafson Kessel Fuzzy Classifier (GTFC). The final clustering results obtained by the GTFC are the color palette of the final image. The experimental results have shown the ability to retain the image s dominant colors. Also, it can merge areas of the image with similar colors producing uniform color areas. In this point of view the proposed technique can be used for color segmentation. The second method introduces a relevance feedback technique based on four MPEG- 7- like descriptors. The user searching for a subset of images, sometimes has not a clearly and accurate vision of these images. He/she has a general notion of the image in quest but not the exact visual depiction of it. Also, sometimes there is not an appropriate query image to use for retrieval. So, the system must provide a mechanism to fine tune the retrieval results. Primarily, the initial image query one-dimensional descriptor is transformed to a three-dimensional vector based on the inner features of the descriptor which stores the user history search information and it is initialized by the original query descriptor. When the user selects a relevant image from the retrieval results, each bin of that selected image's descriptor updates the corresponding value of the three-dimensional vector. The final descriptor to query the image database is formed by the values of the three-dimension vector and the new results are presented to the user. The proposed relevance feedback technique improves the original retrieval results, it is simple to implement and has low computational cost. The third method detects and extracts homogeneous text in document images indifferent to font types and size by using connected components analysis to detect the objects, Document Structure Elements (DSE) to construct a descriptor and Support Vector Machines to tag the appropriate objects as text. Also, it has the ability to adapt to the peculiarities of each document images database since the features adjust to it. Primarily, the connected components detect and extract the object blocks that reside iv

inside the image. From every such block a descriptor is extracted which it is constructed from a set of document structures elements. Also, the length of the descriptor can be reduced from the 510 initial DSEs to any number using an algorithm called Feature Standard Deviation Analysis of Structure Elements (FSDASE). Finally, the output of the SVM is using the descriptors to classify each block as text or not and extract those blocks from the original image or locate them on it. The proposed technique has the ability to adapt to the peculiarities of each document images database since the features adjust to it. It provides, also, the ability to increase or decrease text localization speed by the manipulation of the block descriptor length. The fourth technique encounters the document retrieval problem using a word matching procedure. This technique performs the word matching directly in the document images bypassing OCR and using word-images as queries. The entire system consists of the Offline and the Online procedures. In the Offline procedure which it is transparent to the user, the document images are analyzed and the results are stored in a database. This procedure consists of three main stages. Initially, the document images pass the preprocessing stage which consists of a Median filter, in order to face the existence of noise e.g in case of historical or badly maintained documents, and the Otsu binarization method. The word segmentation stage follows the preprocessing stage. Its primary goal is to detect the word limits. This is accomplished by using the Connected Components Labeling and Filtering method. A set of features, capable of capturing the word shape and discard detailed differences due to noise or font differences are used for the word-matching process. These features are: Width to Height Ratio, Word Area Density, Center of Gravity, Vertical Projection, Top Bottom Shape Projections, Upper Grid Features, Down Grid Features. Finally, these features create a 93- dimention vector that is the word descriptor and it is stored in a database. In the Online procedure, the user enters a query word and the proposed system creates an image from it with font height equal to the average height of all the word-boxes obtained through Offline operation. Then, the system calculates the descriptor of the query word image. Finally, the system using the Minkowski L 1 distance presents the documents that contain the words which their descriptors are closest to the query descriptor. The experimental results show that the proposed system performs better than a commercial OCR package. The last method involves a MPEG-like compact shape descriptor that contains conventional contour and region shape features with a wide applicability from any arbitrary shape to document retrieval through word spotting. It is called Compact Shape Portrayal Descriptor and its computation can be easily parallize as each feature can be calculated separately. These features are the Width to Height Ratio, Vertical Horizontal Projections, Top Bottom Shape Projections which construct a 41 dimension descriptor. In order to compress the descriptor even more, the values of the feature vectors are quantized for binary representation in three bits for each element of the descriptor. So the storage requirement is equal to 3x41=123 bits. The values of the descriptor are v

concentrated within small ranges so they must be non-linearly quantized in order to minimize the overall number of bits. Also, each feature is not related to each other so they must have differing quantization values. Finally, the MPEG-7 quantizes its compact descriptors, too. The quantization is achieved by the Gustafson-Kessel Fuzzy Classifier (GKFC) which it produces eight clusters defined by a center and a positive-define matrix adapted according to the topological structure of the data inside the cluster. So, the output of GKFC maps the descriptor values for the decimal area [0,1] into the integer area [0,7] or into the binary area [000,111]. In addition to the descriptor, a Relevance Feedback technique is provided that employs the above descriptor with the purpose to measure how well it performs with it. It is based on the Support Vector Machines (SVMs). When the system presents the initial retrieval results to the user, he/she is able to tag one or more images as wrongly or rightly retrieved. The system utilizes this information by grouping the descriptor of those wordimages (including the original query descriptor) as training data for the SVMs. Then, all the words-images are presented to the user with respect to the normalized SVMs decision function. The Compact Shape Portrayal Descriptor main advantages are the very small size (only 123bits); its low computation cost and its general applicability without compromise its retrieval accuracy. In the bottom line, the present thesis presents solutions to real problems of the content-based image retrieval systems as image segmentation, text localization, relevance feedback algorithms and shape/word descriptors. All the proposed methods can be combined in order to create a fast and modern MPEG-7 compatible content-based retrieval image system. vi

ΕΤΧΑΡΙΣΙΕ Κα ικελα να ευχαριςτιςω τον Επιβλζποντα τθσ παροφςασ διδακτορικισ διατριβισ Κακθγθτι κ. Νικόλαο Ραπαμάρκο για τθν εμπιςτοςφνθ που μου ζδειξε ανακζτοντασ μου το παρόν κζμα. Θ κακοδιγθςι του ωσ ενόσ πνευματικοφ πατζρα ιταν ουςιαςτικι ςε όλθ τθ διάρκεια τθσ εκπόνθςθσ τθσ διδακτορικισ διατριβισ και κακοριςτικι για το αποτζλεςμα που αυτι είχε. Επίςθσ κα ικελα να ευχαριςτιςω τα κοντινά αγαπθμζνα μου πρόςωπα που με ποικίλουσ τρόπουσ με βοικθςαν να ξεπεράςω τισ οποιεςδιποτε δυςκολίεσ ςυνάντθςα. Τζλοσ, κα ικελα να ευχαριςτιςω τον Κακθγθτι κ. Χριςτόδουλο Χαμηά για τθν αμζριςτθ βοικειά του ωσ υπεφκυνοσ του προγράμματοσ Ρ.Ε.Ν.Ε.Δ. 03ΕΔ679. Θ παροφςα διδακτορικι διατριβι ςυγχρθματοδοτικθκε κατά: 75% τθσ Δθμόςιασ Δαπάνθσ από τθν Ευρωπαϊκι Ζνωςθ Ευρωπαϊκό Κοινωνικό Ταμείο 25% τθσ Δθμόςιασ Δαπάνθσ από το Ελλθνικό Δθμόςιο Υπουργείο Ανάπτυξθσ Γενικι Γραμματεία Ζρευνασ και Τεχνολογίασ Και από τον Λδιωτικό Τομζα ςτο πλαίςιο του Μζτρου 8.3 του Ε.Ρ. Ανταγωνιςτικότθτα Γϋ Κοινοτικό Ρλαίςιο Στιριξθσ. Συγκεκριμζνα χρθματοδοτικθκε ςτα πλαίςια του παρακάτω ζργου : ΑΡΧΕΙΟΘΕΣΗΗ ΚΑΙ ΑΝΑΚΣΗΗ ΠΟΛΤΜΕΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΒΑΕΙ ΠΕΡΙΕΧΟΜΕΝΟΤ ΚΑΙ MPEG-7 ΜΕΣΑΠΛΗΡΟΦΟΡΙΑ Κωδικόσ ζργου : 03ΕΔ679 Ανάδοχοσ : Δθμοκρίτειο Ρανεπιςτιμιο Κράκθσ ΝΡΔΔ Επιςτθμονικόσ Υπεφκυνοσ : Χριςτόδουλοσ Χαμηάσ Μζτρο : 8.3 Δράςθ : 8.3.1 Κεματικόσ Τομζασ : Τεχνολογίεσ πλθροφορίασ και επικοινωνίασ Αρμόδια Διεφκυνςθ ΓΓΕΤ : Υποςτιριξθσ Ερευνθτικϊν Ρρογραμμάτων vii

ΠΕΡΙΕΧΟΜΕΝΑ Περίλθψθ... i Abstract... iv Ευχαριςτίεσ... vii Περιεχόμενα... viii 1 Ειςαγωγι... 1 1.1 Ανάλυςθ Εγγράφου... 2 1.2 Ανάκτθςθ Εικόνων... 3 1.2.1 Εξαγωγι χαρακτθριςτικϊν... 4 1.2.2 Υψθλϊν Διαςτάςεων Δεικτοδότθςθ... 5 1.2.3 Συςτιματα Ανάκτθςθσ Εικόνασ... 5 1.3 Ανάκτθςθ Εικόνων - Εγγράφων... 6 1.4 Ρροτεινόμενεσ Τεχνικζσ... 7 2 Moving Pictures Expert Group (MPEG-7)... 9 2.1 Ειςαγωγι... 10 2.2 Οι Βαςικζσ Αρχζσ του MPEG-7... 10 2.3 Η Δομι του MPEG-7... 11 2.4 Η Οργάνωςθ των Ρεριγραφζων του MPEG-7... 13 2.5 Οι Ρεριγραφείσ Χρϊματοσ... 14 2.5.1 Dominant Color Descriptor (DCD)... 14 2.5.2 Scalable Color Descriptor (SCD)... 14 2.5.3 Color Structure Descriptor (CSD)... 15 2.5.4 Color Layout Descriptor (CLD)... 16 2.6 Οι Ρεριγραφείσ Σχιματοσ... 16 2.6.1 Region-Based Shape Descriptor (RBSD)... 16 2.6.2 Contour Based Shape Descriptor (CBSD)... 16 3 Μακθματικά Εργαλεία... 17 3.1 Kohonen Self Organized Feature Map (KSOFM)... 18 3.2 Ο αςαφισ αλγόρικμοσ Gustafson Kessel... 19 3.2.1 Γενικι Επιςκόπθςθ... 19 3.2.2 Τα βαςικά βιματα εκτζλεςθσ... 20 3.3 Support Vector Machines... 21 3.4 Μετρικά Μεγζκθ Αξιολόγθςθσ... 25 3.4.1 Precision και Recall... 25 3.4.2 Averaged Normalized Modified Retrieval Rank (ANMMRR)... 26 viii

4 Μείωςθ των Χρωματικϊν Αποχρϊςεων... 29 4.1 Ειςαγωγι... 30 4.2 Αναςκόπθςθ τθσ Ρροτεινόμενθσ Τεχνικισ... 31 4.3 Υλοποίθςθ... 32 4.4 Ρειραματικά Αποτελζςματα... 33 4.5 Συμπεράςματα... 37 5 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ υνάφεια... 39 5.1 Ειςαγωγι... 40 5.2 Ρεριγραφείσ ςτα Ρρότυπα του MPEG-7... 40 5.2.1 Color and Edge Directivity Descriptor (CEDD)... 41 5.2.2 Compact Color and Edge Directivity Descriptor (C.CEDD)... 42 5.2.3 Fuzzy Color and Texture Histogram (FCTH)... 43 5.2.4 Compact Fuzzy Color and Texture Histogram (C.FCTH)... 45 5.3 Ο Ρροτεινόμενοσ Αλγόρικμοσ Ανάδραςθσ με Βάςθ τθ ςυνάφεια... 45 5.4 Υλοποίθςθ... 48 5.5 Ρειραματικά Αποτελζςματα... 49 5.6 Συμπεράςματα... 50 6 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα... 51 6.1 Ειςαγωγι... 52 6.2 Δομι τθσ Ρροτεινόμενθσ Τεχνικισ... 53 6.3 Η Δθμιουργία Ρλαιςίων... 53 6.4 Δθμιουργία του Ρεριγραφζα Ρλαιςίου... 55 6.5 Εντοπιςμόσ των Ρλαιςίων Κειμζνου... 57 6.6 Υλοποίθςθ... 57 6.7 Ρειραματικά Αποτελζςματα... 60 6.8 Συμπεράςματα... 62 7 Ανάκτθςθ Εγγράφων με τθν Σεχνικι Εντοπιςμοφ των Λζξεων... 65 7.1 Ειςαγωγι... 66 7.2 Το Σφςτθμα Ανάκτθςθσ Εικόνων Εγγράφων (ΣΑΕΕ)... 67 7.2.1 Το Στάδιο τθσ Ρρο-Επεξεργαςίασ... 67 7.2.2 Κατάτμθςθ Λζξεων... 67 7.2.3 Εξαγωγι των Χαρακτθριςτικϊν... 68 7.3 Texture and Shape Representation Descriptor (TSRD)... 72 7.4 Ανάκτθςθ Πμοιων Εγγράφων... 72 7.5 Υλοποίθςθ... 74 7.6 Αξιολόγθςθ... 75 ix

7.7 Συμπεράςματα... 77 8 υνεπτυγμζνοσ Περιγραφζασ χιματοσ... 79 8.1 Ειςαγωγι... 80 8.2 Compact Shape Portrayal Descriptor (CSPD)... 80 8.2.1 Γενικι Επιςκόπθςθ... 80 8.2.2 Εξαγωγι Χαρακτθριςτικϊν... 80 8.2.3 Κβαντοποίθςθ... 84 8.3 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ ςυνάφεια... 86 8.4 Μζτρο Ομοιότθτασ... 87 8.5 Αξιολόγθςθ... 88 8.5.1 Ειςαγωγι... 88 8.5.2 Θ Δομι του Συςτιματοσ Ανάκτθςθσ... 88 8.5.3 Υλοποίθςθ Συςτιματοσ Ανάκτθςθσ... 89 8.5.4 Ρειραματικά Αποτελζςματα... 89 8.6 Συμπεράςματα... 95 9 Σελικά υμπεράςματα... 97 10 Δθμοςιεφςεισ... 99 10.1 Συνζδρια... 99 10.2 Ρεριοδικά... 99 11 Βιβλιογραφία... 100 x

xi

1 ΕΙΑΓΩΓΗ Περιεχόμενα Ανάλυςθ Εγγράφου 2 ΠΕΡΙΛΗΨΗ Ανάκτθςθ Εγγράφων Εικόνων 3 Εξαγωγι χαρακτθριςτικϊν 4 Υψθλϊν Διαςτάςεων Δεικτοδότθςθ 5 Συςτιματα Ανάκτθςθσ Εικόνασ 5 Ανάκτθςθ Εικόνων - Εγγράφων 6 Ρροτεινόμενεσ Τεχνικζσ 7 Σε αυτό το κεφάλαιο παρουςιάηονται οι βαςικζσ ζννοιεσ που ςυναντοφνται τόςο ςτθν επεξεργαςία εικόνων όςο και ςτθν ανάκτθςι τουσ. Αρχικά, παρουςιάηονται οι διαφορετικζσ μορφζσ απεικόνιςθσ των ψθφιακϊν εγγράφων κακϊσ και τα πλεονεκτιματα / μειονεκτιματά τουσ. Δθλαδι, περιγράφεται περιλθπτικά θ τεχνικι τθσ ανάκτθςθσ εικόνων και παρουςιάηονται τα βαςικά ςυςτατικά ενόσ τζτοιου ςυςτιματοσ. Αυτά είναι θ εξαγωγι των χαρακτθριςτικϊν (όπωσ χρϊμα ι υφι) και θ δεικτοδότθςι τουσ. Ζπειτα, παρουςιάηεται μία ςυνοπτικι αναςκόπθςθ των τεχνικϊν ανάκτθςθσ εγγράφων που παρουςιάηονται ςτθν βιβλιογραφία. Τζλοσ παρουςιάηονται οι προτεινόμενεσ τεχνικζσ και ο ρόλοσ τουσ ςε ζνα γενικό ςφςτθμα ανάκτθςθσ εικόνων.

Κεφάλαιο 1 Ειςαγωγι 2 1.1 Ανάλυςη Εγγράφου Ο όροσ «ζγγραφο» χρθςιμοποιείται με πάρα πολλζσ διαφορετικζσ ερμθνείεσ ςτθ ςθμερινι εποχι, τόςο ςτθν κακθμερινι ηωι όςο και ςτθν επιςτιμθ τθσ πλθροφορικισ. Πμωσ γενικά αναφζρεται ωσ ζνα ςφνολο πλθροφορίασ ικανι να διαβαςτεί από τουσ ανκρϊπουσ. Ραραδοςιακά, τα καταςκευαςμζνα από χαρτί ζγγραφα αποτελοφνται από μία μίξθ εικόνων και κειμζνων ςε ζνα ςφνολο εκτυπωμζνων χαρτιϊν. Πμωσ τα θλεκτρονικά ζγγραφα εμφανίηονται με πολλζσ και διαφορετικζσ μορφζσ. Δφο από τισ πιο ςθμαντικζσ και ερευνθτικά ενδιαφζρουςεσ κατθγορίεσ εγγράφων είναι τα δομθμζνα θλεκτρονικά ζγγραφα (structured electronic documents) και τα θλεκτρονικά ζγγραφα-εικόνεσ (image-based electronic documents) [BRE05]. Χαρακτθριςτικά δείγματα δομθμζνων θλεκτρονικϊν εγγράφων είναι τα HTML, XHTML, XML, LaTex και τα Microsoft Word s.doc αρχεία κειμζνου. Χρθςιμοποιοφνται από επεξεργαςτζσ κειμζνου, web broswers, προγράμματα παρουςιάςεων κακϊσ από πολλά άλλα πακζτα λογιςμικοφ. Συνικωσ τα δομθμζνα ζγγραφα περιζχουν κωδικοποιθμζνο κείμενο με ροι παρόμοια με αυτιν που διαβάηονται χρθςιμοποιϊντασ απλοφσ κϊδικεσ που αντιπροςωπεφουν χαρακτιρεσ ι λογότυπα. Οι λογικζσ λειτουργίεσ των διαφορετικϊν μερϊν του κειμζνου, όπωσ επικεφαλίδεσ, αρικμόσ ςελίδασ, τίτλοσ, ςυγγραφείσ κ.τ.λ., περιζχονται ςε υπομνθματιςμοφσ ι περιγράφονται με μία γλϊςςα «ςιμανςθσ». Επιπλζον, αυτοφ του είδουσ τα θλεκτρονικά ζγγραφα περιζχουν υπομνθματιςμοφσ για τον τρόπο εμφάνιςθσ του κειμζνου όπωσ το όνομα, το μζγεκοσ, το ςτυλ και το χρϊμα τθσ γραμματοςειράσ. Τζλοσ, μποροφν να περιζχουν ςχζδια ι θλεκτρονικζσ φωτογραφικζσ εικόνεσ. Τα δομθμζνα θλεκτρονικά ζγγραφα ςυνικωσ περιζχουν εννοιολογικά και ςυντακτικά χαρακτθριςτικά, που κακιςτοφν αυτό το είδοσ εγγράφων ιδανικό για περαιτζρω επεξεργαςία αλλά και για το μεταςχθματιςμό τουσ ςε άλλθσ μορφισ δομθμζνων εγγράφων. Δυςτυχϊσ όμωσ ζχουν αρκετοφσ περιοριςμοφσ ωσ προσ τισ δυνατότθτεσ απεικόνιςθσ ενόσ εγγράφου. Για παράδειγμα, το XHTML είναι ζνα πολφ καλά οριςμζνο πρότυπο δομθμζνου εγγράφου που χρθςιμοποιείται ςε εκδοτικά εργαλεία αλλά υςτερεί ωσ προσ τθ ςφνταξθ και ςθμαςιολογικι απεικόνιςθ μακθματικϊν ςυμβόλων και εικόνων. Δθλαδι χωρίσ τθ χριςθ επιπλζον προτφπων όπωσ το MathML ι το SVG, ζνα XHTML ζγγραφο δεν μπορεί να απεικονίςει μακθματικζσ ςυναρτιςεισ ι διανυςματικζσ εικόνεσ. Αντίκετα, τα ζγγραφα-εικόνεσ είναι μία ακριβι απεικόνιςθ ενόσ εγγράφου, εικονοςτοιχείο προσ εικονοςτοιχείο αλλά περιζχουν ελάχιςτεσ πλθροφορίεσ για τθ ροι του κειμζνου ι για τον τρόπο παρουςίαςθσ των διάφορων μερϊν του εγγράφου (επικεφαλίδεσ, τίτλοι). Ραρόλο που υπάρχει θ δυνατότθτα υπομνθματιςμοφ του κάκε εγγράφου με ζνα ςφνολο μεταπλθροφοριϊν ϊςτε να διευκολφνεται θ ανάκτθςι του, το κακεαυτό ζγγραφο δεν προςφζρει καμία επιπλζον πλθροφορία από αυτιν που βλζπει και αλλθλεπιδρά ο χριςτθσ ωσ εικόνα. Τζτοιου είδουσ ζγγραφα δθμιουργοφνται κυρίωσ από θλεκτρονικοφσ ςαρωτζσ (scanners) που υπάρχουν πλζον ςε όλα τα ςφγχρονα γραφεία. Τα ζγγραφα-εικόνεσ μποροφν να απεικονιςτοφν με τα διάφορα format εικόνων όπωσ τα JPEG, GIF, TIFF κ.τ.λ. 2 Ειςαγωγι

3 Ειςαγωγι Κεφάλαιο 1 Επιπλζον, τα ζγγραφα-εικόνεσ δεν διακζτουν καμία πλθροφορία για τα εννοιολογικά και ςυντακτικά χαρακτθριςτικά του κειμζνου που περιζχουν εκτόσ από το πωσ κατανζμονται τα ίδια τα εικονοςτοιχεία (ακριβϊσ ότι προςφζρει μια οποιαδιποτε εικόνα). Πμωσ, το μεγάλο πλεονζκτθμά τουσ είναι ότι προςφζρουν ζνα ακριβζσ αντίγραφο του εγγράφου ανεξάρτθτα από το περιεχόμενο του. Δθλαδι ζνα ζγγραφο-εικόνα μπορεί εφκολα να αναπαραςτιςει κείμενο, γραφικά, μακθματικά ςφμβολα, χθμικζσ εξιςϊςεισ, φωτογραφίεσ, ςχεδιαγράμματα κ.τ.λ. Οι μόνοι περιοριςμοί των εγγράφων-εικόνων που επιβάλλονται προζρχονται από τα διάφορα format των εικόνων (JPEG, BMP κ.τ.λ.). Ραραδείγματα τζτοιων περιοριςμϊν είναι θ ανάλυςθ και το βάκοσ του χρϊματοσ. Ο διαχωριςμόσ μεταξφ των δομθμζνων θλεκτρονικϊν εγγράφων και των εγγράφωνεικόνων δεν είναι τόςο αυςτθρόσ όπωσ περιγράφεται παραπάνω. Στθν πραγματικότθτα υπάρχει μία ιεραρχία των υπαρχόντων formats και των προςφερόμενων δυνατοτιτων τουσ όπωσ φαίνεται ςτθν Εικόνα 1. Θ παροφςα ερευνθτικι προςπάκεια αςχολείται κυρίωσ με τθν εξόρυξθ πλθροφοριϊν από τα ζγγραφα-εικόνεσ ϊςτε να διευκολφνεται θ ανάκτθςι τουσ. Ζτςι θ παροφςα διδακτορικι διατριβι όταν αναφζρεται ςε θλεκτρονικά ζγγραφα κα εννοεί αυτά που παρουςιάηονται ωσ εικόνεσ και όχι τα δομθμζνα ζγγραφα. Εικόνα 1 Σα επίπεδα διακφμανςθσ των διάφορων πικανϊν θλεκτρονικϊν απεικονίςεων των εγγράφων. 1.2 Ανάκτηςη Εικόνων Στα τελευταία χρόνια υπάρχει ταχεία ανάπτυξθ του μεγζκουσ των πολυμεςικϊν δεδομζνων που είναι αναγκαία για τθ μετάδοςθ και αποκικευςθ ςχετικϊν πλθροφοριϊν ςτο διαδίκτυο και ςε βάςεισ δεδομζνων. Ζνα από τα κυριότερα ςυςτατικά των πολυμεςικϊν Ειςαγωγι 3

Κεφάλαιο 1 Ειςαγωγι 4 δεδομζνων είναι οι ψθφιακζσ εικόνεσ. Κακθμερινά, οι πολίτεσ παράγουν giga-bytes εικόνων, με αποτζλεςμα, να δθμιουργοφνται τεράςτια μεγζκθ πλθροφορίασ. Θ αποτελεςματικι εκμετάλλευςθ όλθσ αυτισ τθσ πλθροφορίασ απαιτεί ζξυπνεσ τεχνικζσ και νζα τεχνολογία. Για το ςκοπό αυτό, θ αποκικευςθ των πολυμεςικϊν πλθροφοριϊν πρζπει να οργανωκεί με τζτοιον τρόπο ϊςτε να επιτρζπει τθν αποδοτικι πλοιγθςθ, αναηιτθςθ και ανάκτθςι τουσ. Από το 1970, θ ανάκτθςθ εικόνων είναι το επίκεντρο μίασ ςυνεχιηόμενθσ και αναπτυςςόμενθσ ερευνθτικισ προςπάκειασ πολλϊν επιςτθμόνων από όλον το κόςμο. Θ αρχικι προςπάκεια ανάκτθςθσ εικόνων βαςίηονταν ςτθ χριςθ πλθροφορίασ κειμζνου [CHA92;TAM84]. Οι τεχνικζσ τθσ κατθγορίασ αυτισ, ςτθριηόταν ςτθν περιγραφι τθσ εικόνασ με ζνα ςφνολο λζξεων-κλειδιϊν ι ακόμα και ενόσ περιγραφικοφ κειμζνου. Ζτςι, θ ανάκτθςθ μιασ ςυγκεκριμζνθσ εικόνασ επιτυγχάνονταν με τθ βοικεια αλγορίκμων αναηιτθςθσ οι οποίοι αναηθτοφςαν μεμονωμζνεσ λζξεισ κλειδιά ι ακόμα και ςυγκεκριμζνο κείμενο. Δυςτυχϊσ όμωσ, αυτι θ προςζγγιςθ είχε κυρίωσ δφο προβλιματα, ιδίωσ όταν θ βάςθ δεδομζνων των εικόνων ιταν μεγάλθ (πάνω από εκατοντάδεσ χιλιάδεσ εικόνεσ). Το ζνα πρόβλθμα προζκυπτε από τον τεράςτιο όγκο εργαςίασ που απαιτοφνταν ϊςτε χειρωνακτικά να περιγραφοφν με κείμενο όλεσ αυτζσ οι εικόνεσ. Πμωσ, θ πιο ςθμαντικι δυςκολία τθσ προςζγγιςθσ αυτισ πιγαηε από το ποικίλο περιεχόμενο των εικόνων και τθν υποκειμενικότθτα τθσ ανκρϊπινθσ αντίλθψθσ. Δθλαδι, το ίδιο περιεχόμενο μίασ εικόνασ, διαφορετικοί άνκρωποι μποροφν να το αντιλθφκοφν και να το περιγράψουν διαφορετικά. Αυτό ζχει τθ δυνατότθτα να προκαλζςει ανυπζρβλθτεσ δυςκολίεσ κατά τθ διαδικαςία τθσ αναηιτθςθσ και τθσ ανάκτθςθσ αυτισ τθσ εικόνασ. Για να ξεπεραςτοφν οι δυςκολίεσ που προκαλοφςε θ παραπάνω προςζγγιςθ, ςτισ αρχζσ του 1990, αναπτφχκθκαν τεχνικζσ ανάκτθςθσ εικόνασ με βάςθ το περιεχόμενό τουσ. Δθλαδι, αντί οι εικόνεσ να χαρακτθρίηονται και να ςυνδζονται με κείμενο, δεικτοδοτοφνται και κατθγοριοποιοφνται πλζον με βάςθ το οπτικό τουσ περιεχόμενο, όπωσ το χρϊμα ι θ υφι. Θ ανάκτθςθ και ανάλυςθ εικόνασ με βάςθ το περιεχόμενο ςτθρίηεται ςτθν οπτικι εξαγωγι χαρακτθριςτικϊν γνωριςμάτων [MCC76;MIY88;WAN97] και ςτθν πολυδιάςτατθ δεικτοδότθςθ [WHI96;WHI96A;GUT84;RUI97;SEL87;BEC90;GRE89] τουσ. Οπότε ζχουν προτακεί από τθν επιςτθμονικι κοινότθτα ολοκλθρωμζνα ςυςτιματα ανάκτθςθσ εικόνων [NIB93;PEN96;HUA96;SMI97] που χρθςιμοποιοφν τισ παραπάνω τεχνικζσ. 1.2.1 Εξαγωγή χαρακτηριςτικϊν Θ εξαγωγι χαρακτθριςτικϊν αποτελεί το βαςικό εργαλείο για το ςφνολο των ςυςτθμάτων ανάκτθςθσ εικόνασ με βάςθ το περιεχόμενό τουσ. Μερικά χαρακτθριςτικά, τα οποία χρθςιμοποιοφνται ςτισ περιςςότερεσ εφαρμογζσ είναι το χρϊμα, θ υφι, γεωμετρικά χαρακτθριςτικά και γενικά χωρικά χαρακτθριςτικά ι χαρακτθριςτικά μεταςχθματιςμϊν. Το χρϊμα [MCC76;MIY88;WAN97] είναι ζνα από τα περιςςότερο διαδεδομζνα και ευρζωσ χρθςιμοποιθμζνα χαρακτθριςτικά ςτθν ανάκτθςθ εικόνων. Είναι αρκετά ςχετικό με το περιεχόμενο τθσ εικόνασ και ανεξάρτθτο από διάφορεσ παραμορφϊςεισ όπωσ είναι θ κλιμάκωςθ και θ περιςτροφι. Θ υφι των εικόνων μπορεί να περιγραφεί με διάφορα ιςχυρά χαρακτθριςτικά υφισ. Τα 4 Ειςαγωγι

5 Ειςαγωγι Κεφάλαιο 1 χαρακτθριςτικά υφισ αναφζρονται ςτα οπτικά πρότυπα, τα οποία αποτυπϊνουν ιδιότθτεσ ομοιογζνειασ που δεν προκαλοφνται από τθν παρουςία χρωμάτων ι μεταβολι τθσ ζνταςθσ τθσ φωτεινότθτασ. Επιπλζον, θ υφι είναι εγγενισ ιδιότθτα ςχεδόν όλων των επιφανειϊν, όπωσ ςφννεφα, κάλαςςα, άμμοσ, δζντρα και υφάςματα. Μία επιπλζον ςθμαντικι ιδιότθτα τθσ υφισ είναι ότι περιζχει ςθμαντικζσ πλθροφορίεσ για τθ δομικι μορφι των επιφανειϊν και τισ ςχζςεισ αυτϊν με το περιβάλλον τουσ [HAR73]. 1.2.2 Υψηλϊν Διαςτάςεων Δεικτοδότηςη Υπάρχουν δφο μεγάλα προβλιματα κατά τθν ανάκτθςθ εικόνασ με βάςθ το περιεχόμενο ςε πολφ μεγάλεσ ςυλλογζσ εικόνων. Αυτά τα προβλιματα είναι: Μεγάλοσ αρικμόσ διαςτάςεων. Το μζγεκοσ των διαςτάςεων των χαρακτθριςτικϊν διανυςμάτων είναι ςυνικωσ μεγζκουσ 10 2. Μθ Ευκλείδειο μζτρο ομοιότθτασ. Επειδι θ Ευκλείδεια μζτρθςθ δεν ανταποκρίνεται ικανοποιθτικά ςτθν ανκρϊπινθ αντίλθψθ για ζνα ςυγκεκριμζνο οπτικό περιεχόμενο, χρθςιμοποιοφνται άλλεσ μετριςεισ ομοιότθτασ όπωσ θ ςυςχζτιςθ, το ςυνθμίτονο κ.τ.λ. Οι πρόςφατεσ ερευνθτικζσ προςπάκειεσ για τθν λφςθ αυτϊν των προβλθμάτων χρθςιμοποιοφν κυρίωσ δφο τεχνικζσ. Θ πρϊτθ είναι θ μείωςθ των διαςτάςεων των διανυςμάτων και θ δεφτερθ θ χριςθ αλγορίκμων πολυδιάςτατθσ δεικτοδότθςθσ, οι οποίεσ ζχουν τθ δυνατότθτα να υποςτθρίξουν μθ Ευκλείδειεσ μετριςεισ ομοιότθτασ. Ραρόλο που οι διαςτάςεισ των χαρακτθριςτικϊν διανυςμάτων που χρθςιμοποιοφνται ςτθν Ανάκτθςθ Εικόνασ με βάςθ το περιεχόμενο είναι ςυνικωσ πολλζσ, θ τεχνικι «ενςωματωμζνθ διάςταςθ» [WHI96;WHI96A] ζχει τθ δυνατότθτα να τισ μειϊςει ςε ικανοποιθτικό βακμό. Συνικωσ πριν τθν εφαρμογι διαφόρων τεχνικϊν πολυδιάςτατθσ δεικτοδότθςθσ είναι ωφζλιμο να εφαρμοςτεί μία τεχνικι μείωςθσ των διαςτάςεων (dimension reduction). H πιο γνωςτι τεχνικι μείωςθσ των διαςτάςεων ςτθ βιβλιογραφία είναι θ Karhunen- Loeve Transform (KLT) ι όπωσ αλλιϊσ λζγεται Principal Clustering Analysis [HOT33]. Ραρόλο που μειϊνονται οι διαςτάςεισ των χαρακτθριςτικϊν διανυςμάτων, μετά τθ χριςθ των παραπάνω τεχνικϊν, ο αρικμόσ των διαςτάςεων αυτϊν παραμζνει μεγάλοσ. Ζτςι, χρθςιμοποιοφνται διάφοροι αλγόρικμοι πολυδιάςτατθσ δεικτοδότθςθσ. Υπάρχουν τρεισ μείηονεσ επιςτθμονικοί κλάδοι που ςυνειςφζρουν ςε αυτιν τθν ερευνθτικι περιοχι. Αυτοί είναι: θ Υπολογιςτικι Γεωμετρία (Computational Geometry), θ Διαχείριςθ Βάςεων Δεδομζνων (Database Management) και θ Αναγνϊριςθ Ρροτφπων (Pattern Recognition). Οι υπάρχουςεσ δθμοφιλζςτερεσ τεχνικζσ πολυδιάςτατθσ δεικτοδότθςθσ είναι: ο αλγόρικμοσ Bucketing, k-d tree, priority k-d tree [WHI96A], quad-tree, K-D-B tree, hb-tree, R-tree και οι παραλλαγζσ του, R+-tree και R*-tree [GUT84;RUI97;SEL87;BEC90;GRE89]. Επιπλζον, ςυμπλθρωματικά, χρθςιμοποιοφνται clustering τεχνικζσ και νευρωνικά δίκτυα. 1.2.3 Συςτήματα Ανάκτηςησ Εικόνασ Από τισ απαρχζσ τθσ δεκαετίασ του 90, θ ανάκτθςθ εικόνων με βάςθ το περιεχόμενο είχε γίνει μία πολφ ενεργισ ερευνθτικι περιοχι. Από τότε πολλά ςυςτιματα Ανάκτθςθσ Εικόνασ, Ειςαγωγι 5

Κεφάλαιο 1 Ειςαγωγι 6 εμπορικά και ερευνθτικά, ζχουνε εμφανιςτεί. Τα περιςςότερα ςυςτιματα Ανάκτθςθσ Εικόνασ περιζχουν τισ παρακάτω επιλογζσ [CHA98]: Τυχαία αναηιτθςθ Αναηιτθςθ από παράδειγμα Αναηιτθςθ με ςκαρίφθμα Αναηιτθςθ με κείμενο Ρλοιγθςθ ςε προςαρμοςμζνεσ κατθγορίεσ εικόνων 1.3 Ανάκτηςη Εικόνων - Εγγράφων Λςτορικά, θ πρϊτθ προςζγγιςθ ςτθν ανάκτθςθ εγγράφων εικόνων ιταν με τθ χριςθ δεικτοδότθςθ περιγραφζων για κάκε ζγγραφο χειροκίνθτα από ζνα ςφνολο ειδθμόνων όπωσ ζχει αναφερκεί [SAL89]. Ζπειτα, με τθ βελτίωςθ ςτθν ερευνθτικι περιοχι τθσ αναγνϊριςθσ χαρακτιρων, εφαρμόηονταν τεχνικζσ οπτικισ αναγνϊριςθσ χαρακτιρων με ςκοπό να μετατρζψουν τισ εικόνεσ ζγγραφα ςε κείμενο. Ζτςι, ο Edwards [EDW04] περιζγραψε μια προςζγγιςθ με τθν οποία αντζγραψε και ανζκτθςε μεςαιωνικά λατινικά χειρόγραφα με γενικά Hidden Markov Models. Οι κρυφζσ τουσ καταςτάςεισ αντιςτοιχοφςαν ςε χαρακτιρεσ και ςτα κενά ανάμεςά τουσ. Το αποτζλεςμα τθσ προςζγγιςισ τουσ αντζγραφε το κείμενο τθσ εικόνασ με ακρίβεια 75%. Επιπλζον, επειδι οι τεχνικζσ αναγνϊριςθσ χαρακτιρων για ανάκτθςθ πλθροφορίασ αποδίδανε πολφ άςχθμα, αναπτφχκθκαν μζκοδοι ανάκτθςθσ με τθν ικανότθτα να ανζχονται λάκθ αναγνϊριςθσ από τζτοιεσ τεχνικζσ [ISH01]. Οι Tan et al. [TAN02] περιζγραψαν μία προςζγγιςθ ςτθν ανάκτθςθ δακτυλογραφθμζνων εγγράφων εικόνων χρθςιμοποιϊντασ κείμενο ωσ ερϊτθμα όχι απαραίτθτα με τθ ςθμειογραφία του ASCII. Σφμφωνα με τθν τεχνικι αυτι, τόςο το ερϊτθμα όςο και οι λζξεισ που περιζχονται μζςα ςτο ζγγραφο περιγράφονται με κείμενο χαρακτθριςτικά με τθ βοικεια των οποίων βρίςκονται όμοιεσ με το ερϊτθμα λζξεισ. Ρρόςφατα, με τισ βελτιϊςεισ ςτον τομζα τθσ επεξεργαςίασ των εικόνων εγγράφων, προζκυψαν τεχνικζσ που χρθςιμοποιοφν εικόνεσ. Οι Leydier et al. [LEY05] χρθςιμοποιοφν τεχνικζσ επεξεργαςίασ εγγράφων εικόνων για τθ δθμιουργία ενόσ λεξικοφ προτφπου για κάκε ζγγραφο και ζπειτα προςπακοφν να εντοπίςουν λζξεισ επιλζγοντασ το χαρακτθριςτικό τθσ γωνίασ τθσ κλίςθσ και ενόσ αλγόρικμου ταιριάςματοσ. Συγκεκριμζνα θ τεχνικι ανάκτθςθ εγγράφων με εντοπιςμό των λζξεων που περιζχονται ςε αυτά τθν ειςάγαγε ο Manmatha [RAT03] ο οποίοσ τθ δανείςκθκε από τθν ερευνθτικι περιοχι τθσ αναγνϊριςθσ φωνισ. Θ μζκοδοσ αυτι αςχολείται με τον εντοπιςμό μζροσ των κειμζνων χρθςιμοποιϊντασ λζξεισ εικόνεσ ωσ ερωτιματα. Είναι μία γενικι προςζγγιςθ θ οποία μπορεί να εφαρμοςκεί ςε οποιοδιποτε ζγγραφο ανεξάρτθτα το αλφάβθτο ι ιδεόγραμμα που περιζχει. Οι Kolcz et al. [KOL00] περιγράφουν μία προςζγγιςθ για τθν ανάκτθςθ χειρόγραφων εγγράφων χρθςιμοποιϊντασ πρότυπα εικόνων λζξεων. Ο αλγόρικμόσ τουσ για το ταίριαςμα των 6 Ειςαγωγι

7 Ειςαγωγι Κεφάλαιο 1 εικόνων λζξεων βαςίηεται ςτο ταίριαςμα των παρεχόμενων προτφπων με ςκοπό να υπολογιςτεί θ κατάτμθςθ των γραμμϊν των χειρόγραφων από το Archive of the Indies Collection. Οι Konidaris et al. [KON07] πρότειναν μία τεχνικι για λζξεισ κλειδιά για μία κακοδθγοφμενθ μζκοδο εντοπιςμοφ των λζξεων ςε ιςτορικά εκτυπωμζνα ζγγραφα - εικόνεσ. Δθμιοφργθςαν ςυνκετικζσ εικόνεσ λζξεων ωσ ερωτιματα και πραγματοποίθςαν κατάτμθςθ λζξεων χρθςιμοποιϊντασ δυναμικοφσ παραμζτρουσ και υβριδικι εξαγωγι χαρακτιρων. Τζλοσ, χρθςιμοποίθςαν μία τεχνικι ανάδραςθσ με βάςθ τθ ςυνάφεια ϊςτε να βελτιϊςει τα αποτελζςματα ανάκτθςθσ. Μζκοδοσ ταιριάςματοσ ολόκλθρων λζξεων ςε δακτυλογραφθμζνα ζγγραφα επίςθσ αναπτφχκθκε από τουσ Balasubramanian et al. [BAL06]. Με βάςθ αυτιν τθν προςζγγιςθ, ζνασ αλγόρικμοσ ταιριάςματοσ που βαςίηεται ςτο Dynamic Time Warping (DTW) χρθςιμοποιείται για ξεπεράςει τισ μορφολογικζσ διαφορζσ μεταξφ των λζξεων. Ο Lu και ο Tan [LUY04] παρουςίαςαν μία μζκοδο με τθν ικανότθτα να αναηθτά ζνα μζροσ μίασ λζξθσ ςε εικόνεσ εγγράφων ςυνκζτοντασ ζνα αλφαρικμθτικό χαρακτθριςτικό ςφμφωνα με ακολουκία των χαρακτιρων ςτθν λζξθ ερϊτθμα. Επίςθσ, με τον ίδιο τρόπο εξάγεται αυτό το χαρακτθριςτικό και από όλεσ τισ λζξεισ που υπάρχουν μζςα ςτισ εικόνεσ εγγράφων. Ζπειτα, χρθςιμοποιείται μία τεχνολογία μθ ακριβοφσ ταιριάςματοσ μεταξφ των αλφαρικμθτικϊν χαρακτθριςτικϊν με ςκοπό να εντοπιςκοφν τα μεταξφ τουσ όμοια. Τζλοσ οι Adamek et al. [ADA07] πρότειναν μία νζα προςζγγιςθ ςτθν αναγνϊριςθ λζξεων για ιςτορικά χειρόγραφα κείμενα βαςιςμζνθ ςτο ταίριαςμα του εξωτερικοφ περιγράμματοσ τθσ λζξθσ αντί για όλθ τθ λζξθ. Θ νζα αυτι μζκοδοσ αποτελείται από τθν εξαγωγι των κλειςτϊν καμπφλων των λζξεων και τθν εφαρμογι μίασ τεχνικισ ελαςτικοφ ταιριάςματοσ των καμπφλων θ οποία είχε προτακεί αρχικά για ςχιματα [BHA08]. Στθν ουςία απζδειξαν ότι οι περιγραφείσ περιγράμματοσ μποροφν να περιγράψουν τισ ιδιομορφίεσ των ςχθμάτων των λζξεων. 1.4 Ρροτεινόμενεσ Τεχνικζσ Στθν παροφςα διδακτορικι διατριβι προτείνονται πζντε τεχνικζσ οι οποίεσ μποροφν να χρθςιμοποιθκοφν για τθ βελτίωςθ των ςυςτθμάτων ανάκτθςθσ εικόνων. Αυτζσ είναι: Μείωςθ των Χρωματικϊν Αποχρϊςεων Συνδυάηοντασ το Kohonen Self-Organized Feature Map και τον Αςαφι Αλγόρικμο Gustafson Kessel. Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια. Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγραφα Χρθςιμοποιϊντασ τα Δομικά Συςτατικά των Εγγράφων και Support Vector Machines. Ανάκτθςθ Εγγράφων - Εικόνων Με τθν Τεχνικι Εντοπιςμοφ των Λζξεων. Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ ςτα πρότυπα των Ρεριγραφζων Σχιματοσ του MPEG-7. Θ Εικόνα 2 απεικονίηει ζνα γενικό ςφςτθμα ανάκτθςθσ εικόνων. Με κόκκινο χρϊμα παρουςιάηονται εποπτικά οι προτεινόμενεσ τεχνικζσ και ο ρόλοσ τουσ ςτο ςφςτθμα ανάκτθςθσ εικόνων. Ειςαγωγι 7

Κεφάλαιο 1 Ειςαγωγι 8 OFFLINE Αρχικι Εικόνα Προεπεξεργαςία Φίλτρο Αφαίρεςθσ Κορφβου ONLINE Εικόνα - Ερϊτθμα Δυαδικοποίθςθ Ρεριγραφζασ τθσ Εικόνασ Ερϊτθμα Μείωςθ Χρωματικϊν Αποχρϊςεων Υπολογιςμόσ των Αποτελεςμάτων Ανάκτθςθσ Ρροβολι των Αποτελεςμάτων ςτον Χριςτθ Επεξεργαςία Εγγραφου Εφρεςθ Κειμζνου Κατάτμθςθ ςε Λζξεισ Ο Χριςτθσ Επιλζγει Ροια Αποτελζςματα είναι Σωςτά και Ροια Πχι Υπολογιςμόσ των Καινοφργιων Αποτελεςμάτων Ανάκτθςθσ Εξαγωγι Χαρακτθριςτικϊν Δθμιουργία Ρεριγράφεα ΒΑΗ ΔΕΔΟΜΕΝΩΝ Εικόνα 2 Η δομι ενόσ γενικοφ ςυςτιματοσ ανάκτθςθσ εικόνων. Με κόκκινο χρϊμα τονίηονται οι διαδικαςίεσ οι οποίεσ προτείνονται ςτθν παροφςα διδακτορικι διατριβι. 8 Ειςαγωγι

2 MOVING PICTURES EXPERT GROUP (MPEG-7) Περιεχόμενα Ειςαγωγι 10 ΠΕΡΙΛΗΨΗ Οι Βαςικζσ Αρχζσ του MPEG-7 10 Η Δομι του MPEG-7 11 Η Οργάνωςθ των MPEG-7 Ρεριγραφϊν 13 Οι Ρεριγραφείσ Χρϊματοσ 14 Dominant Color Descriptor (DCD) 14 Scalable Color Descriptor (SCD) 14 Color Structure Descriptor (CSD) 15 Color Layout Descriptor (CLD) 16 Οι Ρεριγραφείσ Σχιματοσ 16 Region-Based Shape Descriptor (RBSD) 16 Contour Based Shape Descriptor (CBSD) 16 Σε αυτό το κεφάλαιο παρουςιάηεται ςυνοπτικά το πρότυπο MPEG 7 ι το «Moving Pictures Expert Group Multimedia Content Description Interface» το οποίο ζχει ωσ αντικείμενο να κακορίςει ζνα πρότυπο τρόπο περιγραφισ διαφόρων τφπων πολυμεςικισ πλθροφορίασ. Επιπλζον, κακορίηει ζνα περιβάλλον, ςτο οποίο εργαλεία από διαφορετικά ςυςτιματα μποροφν να ςυνεργάηονται μεταξφ τουσ ϊςτε να δθμιουργιςουν μία πλατφόρμα για τθ διαχείριςθ τθσ πολυμεςικισ πλθροφορίασ. Στο κεφάλαιο λοιπόν αυτό παρουςιάηονται οι αρχζσ του, θ δομι του και θ οργάνωςθ των περιγραφζων του. Τζλοσ, περιγράφονται ςυνοπτικά οι περιγραφείσ χρϊματοσ και ςχιματοσ που περιζχει κακϊσ με αυτοφσ αςχολείται ωσ ζνα βακμό θ παροφςα διδακτορικι διατριβι.

Κεφάλαιο 2 Moving Pictures Expert Group (MPEG-7) 10 2.1 Ειςαγωγή Μ ζχρι πρόςφατα δεν υπιρχαν ευρζωσ αποδεκτά πρότυπα για τθν περιγραφι των οπτικϊν περιεχομζνων των εικόνων. Το MPEG-7 ι όπωσ αλλιϊσ λζγεται «Moving Pictures Expert Group Multimedia Content Description Interface» [ISO97;ISO97A;ISO97B;RUI92] είναι θ πρϊτθ ςοβαρι προςπάκεια προσ αυτιν τθν κατεφκυνςθ. Το MPEG-7 ζχεισ ωσ αντικείμενο να κακορίςει ζνα πρότυπο τρόπο περιγραφισ διαφόρων τφπων πολυμεςικισ πλθροφορίασ. Ο αντικειμενικόσ του ςκοπόσ είναι να διευκολφνει τθ γριγορθ και τθν αποδοτικι αναγνϊριςθ τθσ ανάλογθσ και ενδιαφζρουςασ πλθροφορίασ, που υπάρχει ςτο πολυμεςικό μζςο κακϊσ και τθ διαχείριςι τθσ. Οι περιγραφείσ αυτοί βαςίηονται και ςε κείμενο αλλά και ςε μθ κείμενο, όπωσ είναι οριςμζνα ςτατιςτικά χαρακτθριςτικά. Ππωσ τα υπόλοιπα μζρθ τθσ MPEG οικογζνειασ, ζτςι και το MPEG-7 κακορίηει ζνα πρότυπο παρουςίαςθσ τθσ πολυμεςικισ πλθροφορίασ, ικανοποιϊντασ ζνα ςφνολο από κακοριςμζνεσ απαιτιςεισ. Πμωσ, το MPEG-7 είναι ζνα αρκετά διαφορετικό πρότυπο από ότι οι πρόγονοί του. Δθλαδι, ενϊ το MPEG-1, MPEG-2 κακϊσ και το MPEG-4 αντιπροςωπεφουν το περιεχόμενο (the bits), το MPEG-7 αντιπροςωπεφει τθν πλθροφορία που διαχζεται ςτο περιεχόμενο (the bits about the bits). Ενϊ τα πρϊτα αναπαράγουν το περιεχόμενο, το τελευταίο πρότυπο περιγράφει το περιεχόμενο. Ακόμα και χωρίσ το MPEG-7, υπάρχουν πολφ τρόποι να περιγραφεί το οπτικό περιεχόμενο μιασ εικόνασ. Αρκετοί από αυτοφσ χρθςιμοποιοφνται ςιμερα ςε διάφορα εμπορικά και ερευνθτικά ψθφιακά ςυςτιματα διαχείριςθσ εικόνων. Πμωσ, αυτά τα ςυςτιματα δεν επιτρζπουν αναηιτθςθ ςε πολλαπλζσ αποκικεσ πλθροφοριϊν και δε διευκολφνουν τθν ανταλλαγι περιεχομζνου μεταξφ των διαφορετικϊν βάςεων δεδομζνων που χρθςιμοποιοφν διαφορετικά ςυςτιματα περιγραφισ. Πλα αυτά τα προβλιματα αςυμβατότθτασ λφνονται με τθ δθμιουργία ενόσ προτφπου. Ζνασ πρότυποσ τρόποσ περιγραφισ τθσ πολυμεςικισ πλθροφορίασ επιτρζπει όχι μόνο το περιεχόμενο αλλά και θ περιγραφι του να ανταλλάςςεται μεταξφ διαφορετικϊν ςυςτθμάτων. Επιπλζον, κακορίηει ζνα περιβάλλον, ςτο οποίο εργαλεία από διαφορετικά ςυςτιματα να ςυνεργάηονται μεταξφ τουσ ϊςτε να δθμιουργιςουν μία πλατφόρμα για διαφανι διαχείριςθ τθσ πολυμεςικισ πλθροφορίασ. Το κφριο αποτζλεςμα του MPEG-7 είναι θ αυξανόμενθ διαλειτουργικότθτα, θ προοπτικι να προςφζρει χαμθλοφ κόςτουσ προϊόντα μζςω τθσ δθμιουργία μίασ αγοράσ από υπθρεςίεσ που κα ςτθρίηονται ςε ζνα κοινό πρότυπο κακϊσ και μία αυξανόμενθ βάςθ χρθςτϊν που κα χρθςιμοποιοφν αυτό το πρότυπο. Αυτι θ ςυμφωνία (ζνα πρότυπο βαςικά είναι μία ςυμφωνία) μεταξφ των χρθςτϊν, ζχει τθ δυνατότθτα να απλοποιιςει ολόκλθρθ τθ διαδικαςία αναγνϊριςθσ του περιεχόμενου. Φυςικά το πρότυπο αυτό κα πρζπει να είναι τεχνολογικά ιςχυρό και ςωςτό αλλιϊσ κα επικρατιςουν διάφορα εμπορικά πρότυπα, με ςυνζπεια να διαταράξουν τθ διαλειτουργικότθτα. Το MPEG-7 ικανοποιεί αυτζσ τισ προχποκζςεισ με βάςθ τισ ςθμερινζσ απαιτιςεισ, δθλαδι ςυμβιβάηει το εφικτό με το χριςιμο. 2.2 Οι Βαςικζσ Αρχζσ του MPEG-7 Θ διαδικαςία τθσ διερεφνθςθσ που προχπιρξε τθσ δθμιουργίασ του προτφπου MPEG-7, προκάλεςε τθν εμφάνιςθ ενόσ ςυνόλου κεμελιωδϊν αρχϊν. Τα ςυμβαλλόμενα μζρθ που ςυμμετείχαν ςτθν δθμιουργία του MPEG -7 ακολοφκθςαν πιςτά αυτζσ τισ κεμελιϊδεισ αρχζσ, οι 10 Moving Pictures Expert Group (MPEG-7)

11 Moving Pictures Expert Group (MPEG-7) Κεφάλαιο 2 οποίεσ είναι κάτι περιςςότερο από υψθλοφ επιπζδου απαιτιςεισ και εκφράηουν το όραμα πίςω από το MPEG-7. Μερικζσ από τισ βαςικζσ αρχζσ, που ζκεςαν τισ βάςεισ του προτφπου MPEG-7 είναι: 1. Ευρεία Βάςθ Εφαρμογισ. Το MPEG-7 κα πρζπει να μπορεί να χρθςιμοποιθκεί ςε οποιαδιποτε εφαρμογι. Δθλαδι το MPEG-7 δεν πρζπει να «κλειδωκεί» ςε μία ςυγκεκριμζνθ μορφι εφαρμογισ. 2. Με βάςθ το περιεχόμενο. Το MPEG-7 κα πρζπει να επιτρζπει τθ δθμιουργία διάφορων περιγραφζων ϊςτε αυτοί να μποροφν να χρθςιμοποιθκοφν : I. Μόνοι τουσ, για παράδειγμα, για τθν περίλθψθ του περιεχομζνου μιασ εικόνασ. II. Ρολυςφνκετα με το περιεχόμενο, για παράδειγμα, για τθ μετάδοςθ μαηί με το περιεχόμενο. III. Συνδεδεμζνο παραπάνω από μία φορά με το περιεχόμενο, για παράδειγμα, ςε ζνα μζςο που βαςίηεται ςτο διαδίκτυο. 3. Ευρφ ςφνολο μορφϊν δεδομζνων. Το MPEG-7 κα πρζπει να υποςτθρίηει μία μεγάλθ ποικιλία μορφϊν δεδομζνων όπωσ ιχοσ, ομιλία, εικόνεσ, γραφικά, 3D μοντζλα, ςυνκετικό ιχο, βίντεο κ.τ.λ. 4. Ανεξάρτθτο από το μζςο. Το MPEG-7 κα πρζπει να είναι ανεξάρτθτο από το μζςο, το οποίο μεταφζρει το περιεχόμενο. Αυτό ο μζςο μπορεί να είναι χαρτί, φιλμ, καςζτα, CD, ςκλθρόσ δίςκοσ, ψθφιακι μετάδοςθ, διαδίκτυο κ.τ.λ. 5. Αντικειμενοςτρζφεια. Το MPEG-7 κα πρζπει να επιτρζπει τθν αντικειμενοςτραφι περιγραφι του περιεχομζνου μιασ εικόνασ. Δθλαδι, το περιεχόμενο να μπορεί να περιγραφεί ωσ μία ςφνκεςθ από πολυμεςικά αντικείμενα. Επιπλζον, κα πρζπει να υπάρχει θ δυνατότθτα τθσ ανεξάρτθτθσ πρόςβαςθσ ςτα περιγραφικά δεδομζνα των ςυγκεκριμζνων αντικειμζνων. 6. Επεκταςιμότθτα. Το MPEG-7 κα πρζπει να επιτρζπει τθν επζκταςθ του ςυνόλου των βαςικϊν εργαλείων περιγραφισ του περιεχομζνου, με ζνα ςυγκεκριμζνο τρόπο. Ζνα πρότυπο όπωσ το MPEG-7, δεν μπορεί να περιζχει όλεσ τισ δομζσ που απαιτοφνται από οποιαδιποτε εφαρμογι. Οπότε κα πρζπει να επιτρζπει και να περιγράφει τθν επζκταςθ του προτφπου, ϊςτε να είναι δυνατι, όςο είναι επιτρεπτό, θ διαλειτουργικότθτα. Αυτζσ οι βαςικζσ αρχζσ, δεν χαρακτθρίηουνε μόνο το όραμα του MPEG-7 αλλά και επιςθμαίνουν τισ διαφορζσ αυτοφ του προτφπου ςε ςχζςθ με όλα τα άλλα. 2.3 Η Δομή του MPEG-7 Το MPEG-7 αποτελείται από εφτά (7) μζρθ. Κάκε ζνα από αυτά τα μζρθ αςχολείται με διαφορετικά κζματα και ζτςι ανάλογα με τισ εκάςτοτε ανάγκεσ υπάρχει θ δυνατότθτα να χρθςιμοποιοφνται ξεχωριςτά. Επίςθμα, το πρότυπο του MPEG-7 αναφζρεται ςαν ISO 15938 και αποτελείται από: 1. ISO/IEC 15 938-1: MPEG-7 Systems, MPEG-7 Συςτιματα. Το πρϊτο μζροσ του προτφπου, προςδιορίηει τισ λειτουργίεσ του προτφπου ςτο επίπεδο του ςυςτιματοσ. Οι λειτουργίεσ αυτζσ είναι θ προετοιμαςία των περιγραφζων για το ΜPEG-7 για τθν Moving Pictures Expert Group (MPEG-7) 11

Κεφάλαιο 2 Moving Pictures Expert Group (MPEG-7) 12 ικανοποιθτικι αποκικευςθ και διάδοςι τουσ, ο ςυγχρονιςμόσ του περιεχομζνου και των περιγραφζων και θ ανάπτυξθ των ανάλογων προςαρμοςμζνων αποκωδικοποιθτϊν. 2. ISO/IEC 15 938-2: MPEG-7 Description Definition Language, Ρεριγραφικι Γλϊςςα Ρροςδιοριςμοφ. Θ γλϊςςα αυτι είναι μία τυποποιθμζνθ γλϊςςα για τθ δθμιουργία νζων περιγραφζων ι ςχθμάτων περιγραφισ, όπωσ επίςθσ και για τθν επζκταςθ των ιδθ υπαρχόντων ςχθμάτων περιγραφισ και περιγραφζων. 3. ISO/IEC 15 938-3: MPEG-7 Visual, ΜPEG-7 Ρεριγραφι οπτικοφ περιεχομζνου. Αυτό το μζροσ προδιαγράφει ζνα ςφνολο από τυποποιθμζνουσ περιγραφείσ και ςχιματα περιγραφζων. Οι Ρεριγραφείσ οπτικοφ περιεχομζνου πραγματεφονται ςυνικωσ εξειδικευμζνα χαρακτθριςτικά όπωσ το χρϊμα, τθν υφι, το μζγεκοσ και τθν κίνθςθ τθσ εικόνασ. Τα ςχιματα περιγραφισ για το οπτικό περιεχόμενο απαιτοφν ςυχνά τθ χριςθ άλλων περιγραφζων χαμθλοφ επιπζδου ι βοθκθτικϊν ςτοιχείων, όπωσ τθ δομι (τθ χωρικι διάταξθ, τθν εμφάνιςθ), τθν οπτικι γωνία (πολλαπλζσ πλευρζσ), τον εντοπιςμό (εντοπιςμό τθσ εικόνασ), και τον χρόνο (χρονικι διαδοχι). Ζχει τυποποιθκεί ζνασ αρικμόσ περιγραφζων για κάκε χαρακτθριςτικό, όπωσ αυτοί για τα χρϊματα, για τθν πυκνότθτα, για τθ μορφι, τθν κίνθςθ κ.α. Αυτοί οι περιγραφείσ μπορεί να είναι θ κλιμάκωςθ του χρϊματοσ, θ μορφι τθσ εικόνασ, θ τροχιά τθσ κίνθςθσ και θ αναγνϊριςθ του προςϊπου. Επίςθσ ζχει προςδιοριςτεί και ζνα ςχιμα περιγραφισ για τον εντοπιςμό τθσ πλθροφορίασ, που ονομάηεται Spatio Temporal Locator θ οποία αποτελείται από άλλα ςχιματα περιγραφζων, όπωσ το Figure Tranjectory Description Scheme και το Parameter Trajectory Description Scheme. 4. ISO/IEC 15 938-4: MPEG-7 Audio, Ρεριγραφι Ακουςτικοφ Ρεριεχομζνου. Σε αυτό το μζροσ προςδιορίηεται ζνα τυποποιθμζνο ςφνολο περιγραφζων και ςχθμάτων περιγραφζων. Οι Ρεριγραφείσ του ιχου ςτο ΜPEG-7 πραγματεφονται τζςςερισ κλάςεισ θχθτικϊν ςθμάτων, που είναι: θ κακαρι ομιλία, θ κακαρι μουςικι, pure sound effects και arbitrary soundtracks. Οι περιγραφείσ και τα Σχιματα περιγραφζων πραγματεφονται χαρακτθριςτικά του ιχου, όπωσ τθ ςιωπι, το περιεχόμενο του προφορικοφ λόγου, το θχόχρωμα, τθ μελωδία. Αντίςτοιχα με τουσ περιγραφείσ για το οπτικό υλικό, ζτςι και οι περιγραφείσ για το ακουςτικό περιεχόμενο απαιτοφν ςυχνά τθ χριςθ άλλων χαμθλοφ επιπζδου Ρεριγραφζων όπωσ scalable series και ζνα πλαίςιο περιγραφζων του Ιχου. Ραραδείγματα τυποποιθμζνων περιγραφζων για τα ποικίλα χαρακτθριςτικά του ιχου, μποροφν να είναι τα εξισ: Ρεριγραφείσ για τθ ςιωπι, για το περιεχόμενο του προφορικοφ λόγου, για το θχόχρωμα, για τθν επίδραςθ του ιχου και για τον τφπο τθσ μελωδίασ. 5. ISO/IEC 15 938-5: MPEG-7 Multimedia Description Schemes, Σχιματα Ρεριγραφζων Ρολυμζςων. Τα ςχιματα περιγραφζων πολυμζςων ςτο ΜPEG-7, προδιαγράφουν ζνα πλαίςιο εργαςίασ υψθλοφ επιπζδου, που επιτρζπει τθν γενικι περιγραφι όλων των ειδϊν των πολυμζςων, περιλαμβάνοντασ δεδομζνα ιχου, εικόνασ και κειμζνου. 6. ISO/IEC 15 938-6: MPEG-7 Reference Software, Σχετικό Λογιςμικό. Αυτό το μζροσ ζχει ςκοπό να παρζχει τισ εφαρμογζσ των ςχετικϊν μερϊν του ΜPEG-7 και είναι γνωςτό ςαν experimentation software (XM). Σε αυτό το μζροσ περιγράφονται το απαραίτθτο λογιςμικό, το λειτουργικό περιβάλλον του ΜPEG-7 και οι περιοριςμοί του copyright. Ραρόλο που περιλαμβάνεται ςε αυτό κάποιο λογιςμικό για τθν εξαγωγι των Ρεριγραφζων, θ εςτίαςθ γίνεται πιο πολφ ςτθν δθμιουργία των bitstream των Ρεριγραφζων και των Σχθμάτων περιγραφζων με μία ρυκμιςτικι ςφνταξθ, παρά ςτθν 12 Moving Pictures Expert Group (MPEG-7)

13 Moving Pictures Expert Group (MPEG-7) Κεφάλαιο 2 απόδοςθ των εργαλείων. Μζχρι ςτιγμισ, τα ςυςτατικά που περιλαμβάνει ανικουν ςε τζςςερισ κατθγορίεσ: Στον αναλυτι (parser) τθσ DDL, ςτον αναλυτι τθσ εγκυρότθτασ τθσ DDL ( validation parser), ςτουσ περιγραφείσ για οπτικό περιεχόμενο, ςτουσ περιγραφείσ για ακουςτικό περιεχόμενο και ςτα ςχιματα περιγραφζων πολυμζςων 7. ISO/IEC 15 938-7: MPEG-7 Conformance, ςτοχεφει να παρζχει τισ κατευκυντιριεσ γραμμζσ και διαδικαςίεσ για να δοκιμάςει τθ ςυμβατότθτα των εφαρμογϊν του MPEG- 7. 2.4 Η Οργάνωςη των Ρεριγραφζων του MPEG-7 Ράνω από εκατό περιγραφείσ ζχουν αναπτυχκεί. Οι ςχζςεισ μεταξφ των περιγραφζων ςτο MPEG-7 ςκιαγραφοφνται ςτθν Εικόνα 3. Εικόνα 3 φαιρικι κεϊρθςθ των MPEG-7 Πολυμεςικϊν χθματικϊν Περιγραφζων (Multimedia Description Schemes). Τα βαςικά ςυςτατικά που βρίςκονται ςτο χαμθλό επίπεδο αςχολοφνται με τισ βαςικζσ μορφζσ δεδομζνων, τισ μακθματικζσ δομζσ, τα εργαλεία ςχθματικισ αποτφπωςθσ (schema tools), τα εργαλεία για link και media localization, κακϊσ και τα βαςικά περιγραφικά ςχζδια (Description Scheme), τα οποία είναι τα ςτοιχειϊδθ ςυςτατικά των πιο περίπλοκων περιγραφικϊν ςχεδίων (DS). Το τμιμα των εργαλείων ςχθματικισ αποτφπωςθσ ορίηουν τα ςυςτατικά που απαιτοφνται για τθ δθμιουργία ζγκυρων MPEG-7 schema instance εγγράφων και κομμάτια των περιγραφϊν. Επιπλζον, ςε αυτό το επίπεδο ορίηονται τα εργαλεία για τθ διαχείριςθ και οργάνωςθ των ςτοιχείων και των τφπων των δομϊν του schema. Με βάςθ το χαμθλό επίπεδο, ορίηονται οι περιγραφείσ του περιεχομζνου και τα ςυςτατικά τθσ διαχείριςθσ. Αυτά τα ςτοιχεία περιγράφουν το περιεχόμενο από διαφορετικζσ οπτικζσ γωνίεσ. Αυτιν τθ ςτιγμι ζχουν οριςτεί πζντε οπτικζσ γωνίεσ: δθμιουργία και παραγωγι, πολυμζςα, μεταχείριςθ, δομικζσ διαςτάςεισ Moving Pictures Expert Group (MPEG-7) 13

Κεφάλαιο 2 Moving Pictures Expert Group (MPEG-7) 14 και εννοιολογικζσ διαςτάςεισ. Τα τρία πρϊτα διαχειρίηονται τθν πλθροφορία που ςχετίηεται με τθ διαχείριςθ του περιεχομζνου (content management) ενϊ τα δφο τελευταία κυρίωσ αςχολοφνται με τθν περιγραφι τθσ αντιλαμβανόμενθσ πλθροφορίασ (content description). Στισ επόμενεσ ενότθτεσ κα περιγραφοφν ςυνοπτικά οι περιγραφείσ του MPEG-7 που ζχουν ςχζςθ με τθν παροφςα διδακτορικι διατριβι. Δθλαδι κα περιγραφοφν οι περιγραφείσ χρϊματοσ και ςχιματοσ. 2.5 Οι Ρεριγραφείσ Χρϊματοσ 2.5.1 Dominant Color Descriptor (DCD) Ο DCD παρζχει μια ςυνεπτυγμζνθ περιγραφι των αντιπροςωπευτικϊν χρωμάτων μιασ εικόνασ ι μιασ χρωματικισ περιοχισ. Οι βαςικζσ του εφαρμογζσ είναι θ χριςθ του ωσ περιγραφζασ ςε ςυςτιματα ανάκτθςθσ εικόνων ι θ πλοιγθςθ ςε ζνα ςφνολο εικόνων με βάςθ μίασ ι περιςςοτζρων χρωματικϊν τιμϊν. Σε αντίκεςθ με τουσ παραδοςιακοφσ περιγραφείσ που βαςίηονται ςτο ιςτόγραμμα, τα αντιπροςωπευτικά χρϊματα υπολογίηονται από κάκε εικόνα, αντί να είναι κακοριςμζνα ςτο χρωματικό χϊρο οπότε θ αναπαράςταςθ των χρωμάτων είναι ακριβισ και ςυμπαγισ. Ζνα επιπλζον πλεονζκτθμα του DCD είναι θ δεικτοδότθςθ μεγάλων βάςεων, αφοφ μζςου αυτοφ είναι δυνατόν ο αλγόρικμοσ εφρεςθσ των όμοιων εικόνων να χρθςιμοποιθκεί ςε μικρότερο ςφνολο εικόνων από το πραγματικό. Ο DCD ορίηεται ωσ: *( ) + ( ) (2.1) Το είναι ο αρικμόσ των κυρίων χρωμάτων ενϊ θ ονομάηεται κφρια χρωματικι τιμι και είναι ζνα διάνυςμα των αντίςτοιχων του χρωματικοφ χϊρου τιμϊν, (για παράδειγμα ζνα τριςδιάςτατο διάνυςμα ςτον RGB χρωματικό χϊρο). Το είναι ζνα εκατοςτιαίο ποςοςτό ( κανονικοποιθμζνο ςε μια τιμι μεταξφ 0 και 1) και δθλϊνει το ποςοςτό των εικονοςτοιχείων τθσ εικόνασ που αντιςτοιχεί ςτο χρϊμα. Οπότε είναι προφανζσ ότι ιςχφει. Θ χρωματικι απόκλιςθ είναι προαιρετικι και περιγράφει τθν απόκλιςθ των χρωματικϊν τιμϊν των εικονοςτοιχείων που ανικουν ςτθν κλάςθ που αντιπροςωπεφει το κφριο χρϊμα. Τζλοσ θ χωρικι ςυνάφεια είναι ζνασ αρικμόσ και παρουςιάηει τθ ςυνολικι χωρικι ομοιογζνεια των κφριων χρωμάτων ςτθν εικόνα. Ο αρικμόσ των κυρίων χρωμάτων μπορεί να ποικίλει από εικόνα ςε εικόνα αλλά βρζκθκε ότι ζνα μζγιςτο όριο οχτϊ κφριων χρωμάτων είναι ικανοποιθτικό για να αντιπροςωπεφςει μια εικόνα ι μια χρωματικι περιοχι. 2.5.2 Scalable Color Descriptor (SCD) Ο SCD μπορεί να ερμθνευτεί ωσ μία μζκοδοσ κωδικοποίθςθσ βαςιςμζνθ ςτον μεταςχθματιςμό Haar των τιμϊν ενόσ ιςτογράμματοσ, ςτον HSV χρωματικό χϊρο. Οι τιμζσ του ιςτογράμματοσ εξάγονται, κανονικοποιοφνται και κβαντίηονται μθ γραμμικά ςε 4 bits ανά κζςθ του ιςτογράμματοσ, δίνοντασ μεγαλφτερθ ςθμαςία ςτισ μικρζσ τιμζσ. Ο μεταςχθματιςμόσ Haar εφαρμόηεται ςε αυτζσ τισ τιμζσ. Θ βαςικι μονάδα τθσ μετατροπισ αποτελείται από μία 14 Moving Pictures Expert Group (MPEG-7)

15 Moving Pictures Expert Group (MPEG-7) Κεφάλαιο 2 διαδικαςία ακροίςματοσ και μία αφαιρζςεωσ, οι οποίεσ είναι αντίςτοιχεσ με τα βαςικά χαμθλοπερατά και υψθπερατά φίλτρα. Τα ακροίςματα των δφο γειτονικϊν κζςεων είναι ιςοδφναμα με τον υπολογιςμό ενόσ ιςτογράμματοσ με το μιςό αρικμό κζςεων. Από τα ακροίςματα των κάκε δφο τιμϊν από τισ γειτονικζσ Hue κζςεισ από το 256 κζςεων ιςτόγραμμα, παίρνουμε μια αναπαράςταςθ του 128 κζςεων ιςτογράμματοσ με 8 επίπεδα ςτο H, 4 επίπεδα ςτο S και 4 επίπεδα ςτο V. Αν επαναλάβουμε τθ διαδικαςία, οι 64, 32 ι 16 ςυντελεςτζσ ακροίςματοσ που προκφπτουν από τον μεταςχθματιςμό Haar είναι ιςοδφναμοι με ιςτογράμματα 64, 32 ι 16 κζςεων. Αν μια εφαρμογι δεν απαιτεί τθν πλιρθ λφςθ, ζνασ περιοριςμζνοσ αρικμόσ ςυντελεςτϊν μπορεί απλά να εξαχκεί από ζνα από τα 128, 64 ι 32 κζςεων ιςτογράμματα. Αυτό μπορεί ακόμα να εγγυθκεί τθν ενδοτμθματικότθτα με μια άλλθ αναπαράςταςθ ςτθν οποία όλοι οι ςυντελεςτζσ εξιχκθκαν, αλλά μόνο ωσ προσ τθν ακρίβεια των ςυντελεςτϊν που είναι διακζςιμεσ και ςτισ δφο αναπαραςτάςεισ. 2.5.3 Color Structure Descriptor (CSD) Ο CSD αναπαριςτά μια εικόνα χρθςιμοποιϊντασ τθν κατανομι του χρϊματοσ τθσ εικόνασ (όμοια με το χρωματικό ιςτόγραμμα) και τθν τοπικι χωρικι δομι του χρϊματοσ. Θ επιπλζον πλθροφορία ςχετικά με τθ χρωματικι χωρικι δομι κάνει τον περιγραφζα ευαίςκθτο ςε οριςμζνα χαρακτθριςτικά εικόνων ςτα οποία το χρωματικό ιςτόγραμμα είναι αδφνατον να περιγράψει. Το CSD είναι πανομοιότυπο ςτθ μορφι με ζνα χρωματικό ιςτόγραμμα, αλλά είναι ςθμαςιολογικά διαφορετικό. Ειδικότερα, το CSD είναι ζνασ μονοδιάςτατοσ πίνακασ και περιζχει τιμζσ οι οποίοι είναι κβαντοποιθμζνοι ςε οχτϊ bits: ( ) * + (2.2) Το επιλζγεται από ζνα ςφνολο * + ενϊ το είναι θ κλίμακα του ςχετιηόμενου τετραγωνικοφ δομικοφ ςτοιχείου. Οι κζςεισ του πίνακα ςχετίηονται με αμφιμονοςιμαντο τρόπο με τα κελιά του μθ ομοιόμορφου κβαντοποιθμζνου χρωματικοφ χϊρου HMMD (Hue-Max-Min-Diff). Ο χρωματικόσ χϊροσ HMMD, ο οποίοσ προτάκθκε αρχικά από το πρότυπο MPEG-7 είναι πιο κοντά ςτθν ανκρϊπινθ χρωματικι αντίλθψθ. Ενϊ το Θ αντιπροςωπεφει το Hue όπωσ αυτό ορίηεται ςτο χρωματικό χϊρο HSV oι εξιςϊςεισ υπολογιςμοφ των υπόλοιπων παραμζτρων του χρωματικοφ χϊρου HMMD από αυτόν του RGB είναι: ( ) (2.3) ( ) (2.4) (2.5) Συγκεκριμζνα ο CSD περιγραφζασ είναι ζνα Color Structure ιςτόγραμμα (με μζγιςτο αρικμό κζςεων 256) που δθμιουργείται από μία εικόνα που αντιπροςωπεφεται από ζναν αρικμό κελιϊν (μζγιςτο 256) του κβαντιςμζνου χρωματικοφ χϊρου HMMD. Εάν μία εικόνα βρίςκεται ςε άλλον χρωματικό χϊρο κα πρζπει να μετατραπεί ςτον HMMD και να κβαντιςτεί. Moving Pictures Expert Group (MPEG-7) 15

Κεφάλαιο 2 Moving Pictures Expert Group (MPEG-7) 16 2.5.4 Color Layout Descriptor (CLD) Ο CLD είναι μία ςυνεπτυγμζνθ και ανεξάρτθτθ τθσ ανάλυςθσ περιγραφι του χρϊματοσ τθσ εικόνασ κατάλλθλθ για ςυςτιματα ανάκτθςθσ εικόνασ υψθλϊν ταχυτιτων. Είναι ςχεδιαςμζνοσ για να αναπαραςτιςει αποτελεςματικά τθ χωρικι κατανομι των χρωμάτων. Αυτό το χαρακτθριςτικό μπορεί να χρθςιμοποιθκεί για μια ευρεία ποικιλία ειδϊν ανάκτθςθσ εικόνων. Είναι ειδικά χριςιμο για τισ χωρικζσ εφαρμογζσ ανάκτθςθσ που είναι βαςιςμζνεσ ςτθ δομι, για παράδειγμα για τθν ανάκτθςθ που είναι βαςιςμζνθ ςτο ςχεδιάγραμμα (ςκίτςο) και ςτθ βίντεο αναγνϊριςθ. Συγκεκριμζνα θ ανάκτθςθ χρθςιμοποιϊντασ ωσ ερϊτθμα ζνα ςκίτςο κεωρείτε ότι είναι ζνα ςθμαντικό προςόν του περιγραφζα αφοφ μπορεί να προςφζρει μια πολφ φιλικι προσ το χριςτθ αλλθλοεπίδραςθ, ειδικά όταν θ αναηιτθςθ είναι αρκετά γριγορθ. Οι λειτουργίεσ αυτοφ του περιγραφζα είναι θ εφρεςθ όμοιων εικόνων, βίντεο και ςχεδιαγραμμάτων ςε ζνα ςφνολο που μπορεί να περιζχει και τα τρία είδθ οπτικϊν μζςων. Συνοπτικά, υπολογίηεται εφαρμόηοντασ το Διακριτό Μεταςχθματιςμό Συνθμίτονου ςε ζνα διςδιάςτατο πίνακα των τοπικϊν αντιπροςωπευτικϊν χρωμάτων ςτο Y ι ςτο Cb ι ςτο Cr χρωματικό χϊρο. Αποτελείται από τζςςερα ςτάδια: κατακερματιςμόσ τθσ εικόνασ, υπολογιςμόσ των αντιπροςωπευτικϊν χρωμάτων, Διακριτόσ Μεταςχθματιςμόσ Συνθμίτονου και μθ γραμμικι κβαντοποίθςθ των ςυντελεςτϊν. Το τελικό μζγεκοσ του CLD είναι μόλισ 64bits. Αυτόσ ο περιγραφζασ είναι ο πιο ςυνεπτυγμζνοσ του MPEG-7 και είναι κατάλλθλοσ για εφαρμογζσ που ζχουνε αποκθκευτικοφσ περιοριςμοφσ. 2.6 Οι Ρεριγραφείσ Σχήματοσ 2.6.1 Region-Based Shape Descriptor (RBSD) Ο RBSD αντιπροςωπεφει τθν κατανομι των εικονοςτοιχείων μζςα ςε ζνα διςδιάςτατο αντικείμενο ι περιοχι και μπορεί να περιγράψει τόςο περίπλοκα αντικείμενα που αποτελοφνται από πολλαπλζσ μθ ςυνδεδεμζνεσ περιοχζσ όςο και απλά αντικείμενα που περιζχουν τρφπεσ ι που είναι απλά ςυμπαγι. Ο τρόποσ εξαγωγισ του αποτελείται αρχικά από τθν «αποςφνκεςθ» του ςχιματοσ ςε ζνα πλικοσ από ορκοκανονικζσ διςδιάςτατεσ βαςικζσ ςυναρτιςεισ (με μιγαδικζσ τιμζσ), οι οποίεσ ορίηονται από τον μεταςχθματιςμό Angular Radial Transform (ART). Τζλοσ, οι κανονικοποιθμζνοι και κβαντοποιθμζνοι ςε μζγεκοσ ςυντελεςτζσ αποτελοφν τον περιγραφζα του ςχιματοσ, ο οποίοσ ζχει μζγεκοσ 17,5 bytes. 2.6.2 Contour Based Shape Descriptor (CBSD) Ο CBSD βαςίηεται ςτθν τεχνικι Curvature Scale-Space (CSS) για τθν περιγραφι του περιγράμματοσ του ςχιματοσ. Θ φιλοςοφία του είναι ότι προςπακεί να μιμθκεί τθν ομοιότθτα των ςχιματοσ όπωσ τθν αντιλαμβάνεται το οπτικό ςφςτθμα του ανκρϊπου. Δθλαδι, ο άνκρωποσ τείνει να αποςυνκζτει ζνα ςχιμα με βάςθ τισ κοιλότθτεσ και κυρτότθτεσ που περιζχει. Οπότε και ο CBSD αποςυνκζτει το ςχιμα ςε περιοχζσ κοιλοτιτων και κυρτοτιτων, οι οποίεσ κακορίηονται από τα ςθμεία κλίςθσ (inflection points). Δεν ζχει ςτακερό μζγεκοσ αφοφ προςαρμόηεται ςτθν περιπλοκότθτα του περιγράμματοσ (το μζςο μζγεκόσ του είναι 14 bytes). 16 Moving Pictures Expert Group (MPEG-7)

3 ΜΑΘΗΜΑΣΙΚΑ ΕΡΓΑΛΕΙΑ Περιεχόμενα Kohonen Self Organized Feature Map (KSOFM) 18 ΠΕΡΙΛΗΨΗ Ο αςαφισ αλγόρικμοσ Gustafson Kessel 19 Support Vector Machines 21 Μετρικά Μεγζκθ Αξιολόγθςθσ 25 Precision και Recall 25 Averaged Normalized Modified Retrieval Rank (ANMMRR) 26 Σε αυτό το κεφάλαιο παρουςιάηονται ζνα ςφνολο μακθματικϊν εργαλείων που χρθςιμοποιοφνται από τισ προτεινόμενεσ τεχνικζσ. Αρχικά περιγράφεται το αυτό-οργανωμζνο νευρωνικό Kohonen Self Organized Feature Map και ο αςαφισ αλγόρικμοσ Gustfason Kessel, ο οποίοσ ζχει τθν ικανότθτα δθμιουργίασ ελλειψοειδϊν κλάςεων. Ζπειτα παρουςιάηονται τα Support Vector Machines, ο τρόποσ λειτουργίασ τουσ και τα προβλιματα εκπαίδευςισ τουσ. Τζλοσ, παρουςιάηονται δφο μεγζκθ αξιολόγθςθσ των αποτελεςμάτων ανάκτθςθσ. Αυτά είναι τα Precision και Recall κακϊσ και τα μεγζκθ που απορρζουν από αυτά.to δεφτερο μζγεκοσ είναι το Averaged Normalized Modified Retrieval Rank το οποίο χρθςιμοποιεί το πρότυπο MPEG-7.

Κεφάλαιο 3 Μακθματικά Εργαλεία 18 3.1 Kohonen Self Organized Feature Map (KSOFM) Μ ία από τισ μεγαλφτερεσ κατθγορίεσ νευρωνικϊν δικτφων είναι τα αυτόοργανοφμενα δίκτυα, τα οποία δεν απαιτοφν επίβλεψθ κατά τθ διάρκεια τθσ εκπαίδευςισ τουσ. Ο ςτόχοσ τουσ είναι να διαχωρίςουν τα επαναλαμβανόμενα μοτίβα ςτα δεδομζνα εκπαίδευςθσ και να τα διαχωρίςουν ςε ομάδεσ. Το Kohonen Self Organized Feature Map (KSOFM) [KOH90;KOH97] επινοικθκε από τον κακθγθτι Teuvo Kohonen και είναι το πιο γνωςτό και ευρζωσ χρθςιμοποιοφμενο αυτό-οργανοφμενο νευρωνικό δίκτυο. Αποτελείται από ζνα επιπζδου feedforward δίκτυο, το οποίο διαφζρει ωσ προσ τον τρόπο εκπαίδευςισ του και ωσ προσ τον τρόπο που ανακαλεί ζνα πρότυπο. Αναλυτικότερα, το νευρωνικό δίκτυο Kohonen αποτελείται από δφο επίπεδα: το επίπεδο ειςόδου (input layer) και το επίπεδο ανταγωνιςμοφ (competitive layer), ςτο οποίο οι μονάδεσ εξόδου είναι οργανωμζνεσ ςε μίασ, δφο ι περιςςοτζρων διαςτάςεων πλζγμα. Ππωσ προκφπτει από τθν αρχιτεκτονικι του KSOFM, όπου απεικονίηεται ςτθν Εικόνα 4, κάκε νευρϊνασ ειςόδου ζχει μία feedforward ςφνδεςθ με κάκε νευρϊνα εξόδου. Οπότε, το νευρωνικό δίκτυο ενϊνει ζνα ςφνολο διανυςμάτων ειςόδου με ζνα ςφνολο διανυςμάτων εξόδων χωρίσ επίβλεψθ. Θ γνϊςθ του δικτφου που αποκτάει κατά τθ διάρκεια τθσ εκπαίδευςθσ αποκθκεφεται ςτα βάρθ. Αυτά τα βάρθ αντιπροςωπεφουν τθ ςθμαντικότθτα τθσ ςφνδεςθσ του διανφςματοσ με τον νευρϊνα εξόδου. X 1 Y 1 X 2 Y 2 X 3 Y 3... W j1... W j2 W j3 X k W jk Y j Input Layer Competitive Layer Εικόνα 4 Η αρχιτεκτονικι του νευρωνικοφ δικτφου Kohonen Self-Organizing Feature Map. Ο αλγόρικμοσ εκπαίδευςθσ του KSOFM βαςίηεται ςτθν ανταγωνιςτικι εκμάκθςθ. Κάκε φορά που ζνα διάνυςμα ειςόδου εμφανίηεται, ζνασ νευρϊνασ εξόδου επιλζγεται ωσ νικθτισ με βάςθ ςυνικωσ τθν Ευκλείδεια Απόςταςθ: 18 Μακθματικά Εργαλεία

19 Μακθματικά Εργαλεία Κεφάλαιο 3 (3.1) Ο νικθτισ νευρϊνασ εξόδου μεταβάλλει τα βάρθ των ςυνδζςεϊν του ωσ: ( ) (3.2) Το είναι μία μεταβλθτι όπου ορίηει τθν ταχφτθτα εκμάκθςθσ τθσ εκπαίδευςθσ και δεν είναι ςτακερι αλλά αλλάηει κάκε φορά που ειςάγεται ζνα καινοφργιο διάνυςμα ειςόδου. Μετά το τζλοσ τθσ φάςθσ εκπαίδευςθσ, το KSOFM ςυςχετίηει τα καινοφργια δεδομζνα ειςόδου με τα κζντρα των κλάςεων, ςτα οποία ςφγκλινε κατά τθ διάρκεια τθσ εκπαίδευςθσ. 3.2 Ο αςαφήσ αλγόριθμοσ Gustafson Kessel 3.2.1 Γενική Επιςκόπηςη Ο αςαφισ αλγόρικμοσ Gustafson Kessel (GK) [GUS79] είναι μια προζκταςθ του αςαφι C-Mean αλγορίκμου. Το πλεονζκτθμά του είναι ότι δθμιουργεί ελλειψοειδείσ κλάςεισ χρθςιμοποιϊντασ ζναν πίνακα ςυνδιακφμανςθσ αντί των ςφαιρικϊν κλάςεων που δθμιουργοφν πολλοί άλλοι παρόμοιοι αλγόρικμοι (Fuzzy C-Means, Kohonen Self Organized Featured Map). Ζνα τζτοιο παράδειγμα παρουςιάηεται ςτθν Εικόνα 5. α) β) γ) Εικόνα 5. Η ικανότθτα του αλγόρικμου Gustafson Kessel να παράγει ελλειψοειδζσ κλάςεισ: (α) θμεία ςτο διςδιάςτατο χϊρο, τα οποία πρζπει να χωριςτοφν ςε 4 κλάςεισ. (β) Οι τζςςερισ κλάςεισ που δθμιουργικθκαν με τον αλγόρικμο Fuzzy C-Mean. (γ) Οι τζςςερισ κλάςεισ που υπολογίςτθκαν με τον αςαφι αλγόρικμο Gustafson Kessel. Κάκε κλάςθ ορίηεται από το κζντρο τθσ και ζναν πίνακα που τθ χαρακτθρίηει. Οπότε θ απόςταςθ ενόσ διανφςματοσ δεδομζνου με τθν κάκε κλάςθ είναι: ( ) ( ) (3.3) Τα, - είναι τα διανφςματα δεδομζνων και τα, - τα κζντρα των κλάςεων. Ο είναι ζνασ κετικά οριςμζνοσ πίνακασ που προςαρμόηεται ςτθν κατανομι των δεδομζνων μζςα ςε μία κλάςθ. Θ επόμενθ εξίςωςθ (Εξ. (3.4)) ορίηει ότι θ αντικειμενικι ςυνάρτθςθ του Gustafson Kessel αλγορίκμου είναι γραμμικι ςε ςχζςθ με τον, οπότε δεν μπορεί να ελαχιςτοποιθκεί ςε ςχζςθ με αυτιν. Μακθματικά Εργαλεία 19

Κεφάλαιο 3 Μακθματικά Εργαλεία 20 ( ) (3.4) του. Άρα, ο πρζπει να περιοριςτεί. Αυτό επιτυγχάνεται με τον περιοριςμό τθσ ορίηουςάσ (3.5) Χωρίσ προθγοφμενθ γνϊςθ για τθν κατανομι των δεδομζνων, το κάκε κλάςθ. Τζλοσ, το υπολογίηεται με τθν παρακάτω εξίςωςθ: είναι ίςον με 1 για ( ), - (3.6) Το αντιπροςωπεφει τον αρικμό των διαςτάςεων του χϊρου ςτον οποίο ανικουν τα δεδομζνα. Ο είναι ζνασ πίνακασ ςυνδιακφμανςθσ τθσ κλάςθσ ο οποίοσ αντιπροςωπεφει τθν κατανομι των δειγμάτων μζςα ςτθν κλάςθ. ( ) ( )( ) ( ), - (3.7) Θ παράμετροσ βάρουσ, ( ) επθρεάηει τθν αςάφεια με τθν οποία τελικά κα διαχωριςτοφν μεταξφ τουσ οι κλάςεισ. Αξίηει να τονιςτεί ότι εάν θ Εξ. (3.6) και θ Εξ. (3.7) αντικαταςτακεί ςτθν Εξ. (3.3) το αποτζλεςμα είναι μία τετραγωνιςμζνθ απόςταςθ Mahalanobis. Tζλοσ, το, - ονομάηεται πίνακασ διαχωριςμοφ και αποτελείται από τον βακμό ςυμμετοχισ του ςτθν κλάςθ και πρζπει να υπακοφει τουσ παρακάτω περιοριςμοφσ:, -, - (3.8), - (3.9), - (3.10) 3.2.2 Τα βαςικά βήματα εκτζλεςησ Ο αςαφισ αλγόρικμοσ Gustafson Kessel αποτελείται από τα παρακάτω βαςικά βιματα: Βιμα 1. Οριςμόσ του πλικουσ των κλάςεων και τθσ παραμζτρου βάρουσ. Βιμα 2. Οριςμόσ τθσ ανοχισ τερματιςμοφ (termination tolerance) και του αρικμοφ επαναλιψεων. Οριςμόσ του μετρθτι ίςον με ζνα ( ) Βιμα 3. Αρχικοποίθςθ τυχαία των τιμϊν του πίνακα διαχωριςμοφ, -. Βιμα 4. Υπολογιςμόσ των κζντρων των κλάςεων ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ) ( ), -, - (3.11) Βιμα 5. Υπολογιςμόσ του πίνακα ςυνδιακφμανςθσ για κάκε κλάςθ ςφμφωνα με τθν Εξ. 20 Μακθματικά Εργαλεία

21 Μακθματικά Εργαλεία Κεφάλαιο 3 (3.7). Βιμα 6. Υπολογιςμόσ του πίνακα για κάκε κλάςθ ςφμφωνα με τθν Εξ. (3.6). Βιμα 7. Υπολογιςμόσ τθσ απόςταςθσ για κάκε δείγμα από το κζντρο τθσ κάκε κλάςθσ ςφμφωνα με τθν Εξ. (3.3). Βιμα 8. Ανανζωςθ των τιμϊν του πίνακα διαχωριςμοφ, - για κάκε δείγμα ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ), -, - (3.12) Στθ ςπάνια περίπτωςθ που μεταξφ κάποιου δείγματοσ και ενόσ ι περιςςοτζρων κλάςεων, θ νζα τιμι δεν μπορεί να υπολογιςτεί. Σε αυτιν τθν περίπτωςθ, το ςυγκεκριμζνο αποκτάει τιμι ίςον με μονάδα και οι υπόλοιπεσ τιμζσ του αυτοφ του δείγματοσ ορίηονται ίςον με το μθδζν. Εάν το ( ) ( ) ι τότε θ εκτζλεςθ του αλγόρικμου ςταματάει αλλιϊσ το αυξάνει τθν τιμι του κατά 1 ( ) και ο αλγόρικμοσ ςυνεχίηει από το Βιμα 4. Τα κζντρα των κλάςεων κακορίηονται από τθν Εξ. (3.11) κατά τθν τελευταία επανάλθψθ εκτζλεςθσ του αλγόρικμου. Ππωσ προκφπτει από τα βιματα εκτζλεςθσ του αλγορίκμου, ο αςαφισ ταξινομθτισ Gustafon - Kessel ζχει μεγάλο υπολογιςτικό κόςτοσ κακϊσ απαιτεί πολλζσ μακθματικζσ πράξεισ με πίνακεσ μεγάλων διαςτάςεων. Επίςθσ, οι τελικζσ τιμζσ των κζντρων κλάςεων κακϊσ και ο χρόνοσ ςφγκλιςθσ ςε αυτζσ εξαρτάται από τισ αρχικζσ τιμζσ του πίνακα διαχωριςμοφ, - (βλζπε Βιμα 3). 3.3 Support Vector Machines Τα Support Vector Machines [BOS92;COR95] που πρωτοεμφανίςτθκαν το 1992 βαςίηονται ςτθ ςτατιςτικι κεωρία μάκθςθσ και πρόςφατα ξεκίνθςαν να εφαρμόηονται ςε αρκετά προβλιματα ταξινόμθςθσ. Τα SVMs χωρίηουν τον χϊρο που βρίςκονται τα δεδομζνα εκπαίδευςθσ ςε δφο τμιματα κλάςεισ (Εικόνα 6). Οπότε αναλόγωσ ςε ποιο τμιμα του χϊρου βρίςκεται ζνα καινοφργιο δεδομζνο κατατάςςεται ςτθν ανάλογθ κλάςθ. Εάν είναι ζνα δεδομζνο ςφνολο εκπαίδευςθσ *( )+,, -,, - και * +, όπου είναι το o διάνυςμα ειςόδου και είναι θ ετικζτα που αντιςτοιχεί ςτο. Ο αρχικόσ γραμμικόσ SVM ταξινομθτισ ικανοποιεί τισ παρακάτω ςυνκικεσ (Εικόνα 7(α)): }, - (3.13) Εάν τα δεδομζνα ειςόδου δεν είναι γραμμικά διαχωρίςιμα τότε μεταςχθματίηονται από τον αρχικό χϊρο ςε ζναν άλλο, ςτον οποίο είναι γραμμικά διαχωρίςιμα χρθςιμοποιϊντασ τθ μζκοδο του kernel. Μακθματικά Εργαλεία 21

Κεφάλαιο 3 Μακθματικά Εργαλεία 22 α) β) Εικόνα 6 (α) Τπάρχουν πολλοί τρόποι διαχωριςμοφ του επιπζδου ςε δφο κλάςεισ (β) Με βάςθ τθν κεωρία των SVMs ζνασ είναι ο ςωςτόσ. O kernel ορίηεται ωσ: ( ) ( ) ( ) (3.14) Ππου ( ) είναι μία ςυνάρτθςθ που μεταςχθματίηει ζναν χϊρο ςε ζναν άλλο πολλαπλϊν διαςτάςεων από τον αρχικό. Οπότε τα δεδομζνα μασ γίνονται γραμμικά διαχωρίςιμα όπωσ απεικονίηεται ςτθν Εικόνα 8. Οι πιο κοινοί kernels παρουςιάηονται ςτον Ρίνακασ 1. Στισ προτεινόμενεσ τεχνικζσ χρθςιμοποιείται ο Radial Basis Function κακϊσ τα πειραματικά αποτελζςματα ζδειξαν ότι είναι ο πιο κατάλλθλοσ. α) β) Εικόνα 7 (α) Ο γραμμικόσ SVM ταξινομθτισ (β) Ο γραμμικόσ SVM ταξινομθτισ χρθςιμοποιϊντασ μεταβλθτζσ «χαλαρότθτασ». Πίνακασ 1. Οι πιο κοινοί Kernels Polynomial ( ) Radial Basis Function (Gaussians) * + Sigmoid ( ) Αν οι ςυνκικεσ τθσ Εξ. (3.13) μεταςχθματίηονται ωσ:, ( ) - (3.15) 22 Μακθματικά Εργαλεία

23 Μακθματικά Εργαλεία Κεφάλαιο 3 Σε πραγματικζσ ςυνκικεσ μερικζσ φορζσ είναι επικυμθτό ο ταξινομθτισ να αγνοεί μερικά δεδομζνα ειςόδου (π.χ. για να αντιμετωπιςτεί το over fitting πρόβλθμα ι επειδι υπάρχει κόρυβοσ). Αυτό γίνεται χρθςιμοποιϊντασ κάποιεσ μεταβλθτζσ «χαλαρότθτασ» (Εικόνα 7(β)). Οπότε θ Εξ. (3.15) μετατρζπεται ςε:, ( ) - (3.16) Τελικά, ο μζγιςτου περικωρίου ταξινομθτισ (maximum margin classifier) υπολογίηεται λφνοντασ το παρακάτω πρόβλθμα βελτιςτοποίθςθσ βάςει περιοριςμοφ, το οποίο εκφράηεται ςε αντιςτοιχία προσ τισ μεταβλθτζσ : (3.17) Θ μεταβλθτι ορίηει τθ ςχζςθ μεταξφ του λάκουσ εκπαίδευςθσ (αγνόθςθ δεδομζνων ειςόδου) και του περικωρίου. Τα δεδομζνα εκπαίδευςθσ για τα οποία ονομάηονται Support Vectors. Εικόνα 8 Η λειτουργία του Kernel ςτο μεταςχθματιςμό των δεδομζνων ζτςι ϊςτε να είναι γραμμικά διαχωρίςιμα. Τζλοσ, ςτα SVMs θ ςυνάρτθςθ που ορίηει τθν ταξινόμθςθ του δεδομζνου δφο κλάςεισ είναι: ςε μία από τισ ( ) ( ( ( ) ( )) ) (3.18) Εάν ( ) τότε το δεδομζνο ταξινομείται ςτθν κλάςθ 1 αλλιϊσ ταξινομείται ςτθν κλάςθ 0. Μία από τισ δυςκολίεσ, αν όχι θ μεγαλφτερθ, ςυνίςταται ςτθν εφρεςθ των ςωςτϊν Μακθματικά Εργαλεία 23

Κεφάλαιο 3 Μακθματικά Εργαλεία 24 παραμζτρων εκπαίδευςθσ. Στθν προκειμζνθ περίπτωςθ υπάρχουν δφο παράμετροι: H παράμετροσ από τον ταξινομθτι μζγιςτου περικωρίου και θ παράμετροσ από τον Radial Basis Function kernel. Ο ςτόχοσ είναι να βρεκοφν οι καλφτερεσ τιμζσ των παραπάνω παραμζτρων ζτςι ϊςτε να ταξινομοφνται τα άγνωςτα δεδομζνα ειςόδου με τον βζλτιςτο δυνατόν τρόπο. Ρολφ ςυχνά αυτό πετυχαίνεται εκτελϊντασ μία αναηιτθςθ πλζγματοσ (grid search) των δφο παραμζτρων. Δθλαδι δοκιμάηονται μία-μία όλεσ οι πικανζσ τιμζσ και αναλόγωσ το αποτζλεςμα τθσ -fold cross validation επιλζγεται ζνα ηευγάρι. H -fold cross validation είναι μία τεχνικι όπου τo αρχικό ςφνολο δεδομζνων εκπαίδευςθσ διαχωρίηεται ςε υποςφνολα ίδιου μεγζκουσ. Ζπειτα ςειριακά, ζνα υποςφνολο δοκιμάηεται με ζνα SVM που ζχει εκπαιδευτεί από τα υπόλοιπα υποςφνολα. Το τελικό αποτζλεςμα είναι ο μζςοσ όροσ του ποςοςτοφ επιτυχίασ του κάκε υποςυνόλου που δοκιμάηεται. Στισ προτεινόμενεσ τεχνικζσ τθσ παροφςασ διδακτορικισ διατριβι που χρθςιμοποιοφν τα SVMs, οι τιμζσ των παραμζτρων βρζκθκαν χρθςιμοποιϊντασ ζναν αλγόρικμο που ονομάηεται Parameter Estimation Algorithm [BAD05] ο οποίοσ εφαρμόηεται για τθν εφρεςθ των τιμϊν των παραμζτρων ςτισ μεκόδουσ δυαδικοποίθςθσ. Τα ςτάδια του αλγορίκμου για τθν εφρεςθ των καλφτερων τιμϊν των παραμζτρων του SVM είναι: τάδιο 1. Οριςμόσ του αρχικοφ εφροσ των τιμϊν των παραμζτρων. Κεωρείται ότι το εφροσ τιμϊν για τθν παράμετρο είναι, - ενϊ το εφροσ τιμϊν για τθν παράμετρο είναι, -. Στισ προτεινόμενεσ τεχνικζσ χρθςιμοποιικθκαν οι τιμζσ:,, και. τάδιο 2. Οριςμόσ του αρχικοφ αρικμοφ των βθμάτων για κάκε παράμετροσ. Στισ προτεινόμενεσ τεχνικζσ χρθςιμοποιικθκαν οι τιμζσ: ( παράμετροσ) και ( παράμετροσ). τάδιο 3. Υπολογιςμόσ του μεγζκουσ κάκε βιματοσ ςφμφωνα με τισ παρακάτω εξιςϊςεισ: (για τθν παράμετρο ) (3.19) (για τθν παράμετρο ) (3.20) τάδιο 4. Υπολογιςμόσ όλων των τιμϊν των παραμζτρων και για κάκε βιμα ςφμφωνα με τισ παρακάτω εξιςϊςεισ: ( ) (3.21) ( ) (3.22) τάδιο 5. Εφρεςθ δφο ηευγάρια τιμϊν των παραμζτρων, οι οποίεσ δίνουν τα καλφτερα και τα δεφτερα καλφτερα αποτελζςματα με τθν cross-validation τεχνικι. Κεωρείται ότι ( ) και ( ) είναι αυτά τα δφο ηευγάρια αντίςτοιχα. τάδιο 6. Επαναπροςδιόριςε το εφροσ τιμϊν των δφο παραμζτρων για τθν επόμενθ επανάλθψθ ςφμφωνα με τισ παρακάτω εξιςϊςεισ: 24 Μακθματικά Εργαλεία

25 Μακθματικά Εργαλεία Κεφάλαιο 3, -, - {[ ] (3.23), -, -, - {[ ] (3.24), - τάδιο 7. Επαναπροςδιόριςε τα βιματα των καινοφργιων παραπάνω εφρων τιμϊν για τθν επόμενθ επανάλθψθ ςφμφωνα με τισ παρακάτω εξιςϊςεισ: { (3.25) { (3.26) τάδιο 8. Εάν ι ο αλγόρικμοσ ςυνεχίηει από το Στάδιο 3 και επαναλαμβάνει όλα τα ςτάδια ξανά με τα νζα εφρθ τιμϊν και βιματα. Εάν και τότε ολοκλθρϊνεται θ διαδικαςία και οι καλφτερεσ τιμζσ των παραμζτρων είναι αυτζσ που υπολογίςτθκαν ςτο Στάδιο 6 κατά τθν τελευταία επανάλθψθ. 3.4 Μετρικά Μεγζθη Αξιολόγηςησ Για τθν αξιολόγθςθ τθσ επίδοςθσ των ςυςτθμάτων ανάκτθςθσ κακϊσ και τθν ποιότθτα των ανακτϊμενων αποτελεςμάτων τουσ χρθςιμοποιοφνται κυρίωσ δφο κατθγορίεσ μετρικϊν μεγεκϊν. Θ πρϊτθ αφορά τα μετρικά μεγζκθ Recall (Ανάκλθςθ) και Precision (Ακρίβεια) και οποιαδιποτε άλλα απορρζουν από αυτά. Θ δεφτερθ ςχετίηεται με το μετρικό μζγεκοσ Average Normalized Modified Retrieval Rank (ANMRR) [MAN01] και χρθςιμοποιείται από το πρότυπο MPEG-7 για να αξιολογιςει τουσ δικοφσ του περιγραφείσ. 3.4.1 Precision και Recall Τα μετρικά μεγζκθ Precision (Ακρίβεια) και Recall (Ανάκλθςθ) χρθςιμοποιοφνται ευρζωσ για τθν αξιολόγθςθ ςυςτθμάτων ανάκτθςθσ τθσ πλθροφορίασ. Recall είναι ο λόγοσ του αρικμοφ των ςυναφϊν εικόνων που ζχουν ανακτθκεί, προσ τον ολικό αρικμό ςυναφϊν εικόνων που υπάρχουν ςτθ βάςθ δεδομζνων όπωσ φαίνεται και από τθν παρακάτω εξίςωςθ: * + * + * + (3.27) Ενϊ Precision είναι ο λόγοσ του αρικμοφ των ςυναφϊν εικόνων που ζχουν ανακτθκεί, προσ τον ολικό αρικμό εικόνων που ζχουν ανακτθκεί (ςχετικϊν και μθ): Μακθματικά Εργαλεία 25

Κεφάλαιο 3 Μακθματικά Εργαλεία 26 * + * + * + (3.28) Στισ παραπάνω εξιςϊςεισ * + είναι το ςφνολο των ςυναφϊν με το ερϊτθμα εικόνων που υπάρχουν ςτθ βάςθ δεδομζνων. Δθλαδι είναι οι ground truth εικόνεσ τθσ εικόνασ ερϊτθμα. Ενϊ οι * + είναι το ςφνολο των ανακτϊμενων εικόνων δθλαδι τα αποτελζςματα του ςυςτιματοσ ανάκτθςθσ. Ππωσ φαίνεται και από τισ παραπάνω εξιςϊςεισ θ τζλεια ανάκλθςθ (Recall) είναι ο αρικμόσ 1,0 και δείχνει ότι ζχουν ανακτθκεί όλεσ οι ςυναφείσ εικόνεσ. Πμωσ αυτό δεν δείχνει πόςεσ μθ ςυναφείσ εικόνεσ ζχουν επίςθσ ανακτθκεί. Αυτό φαίνεται από τθν ακρίβεια (Precision), θ οποία ςτθν τζλειά τθσ κατάςταςθ ζχει τον αρικμό 1,0 και δθλϊνει ότι όλεσ οι εικόνεσ που ζχουν ανακτθκεί είναι ςυναφείσ, το οποίο όμωσ δεν δείχνει πόςεσ ςυναφείσ εικόνεσ δεν ζχουν ανακτθκεί. Ζτςι θ ςχζςθ μεταξφ αυτϊν των δφο μεγεκϊν είναι αντίςτροφθ. Για να αυξθκεί το ζνα, ςυνικωσ μειϊνεται το άλλο αλλά χρειάηονται και τα δφο για να παρουςιαςτεί μία ολοκλθρωμζνθ εικόνα αξιολόγθςθσ των αποτελεςμάτων ανάκτθςθσ ενόσ ςυςτιματοσ. Για να αντιμετωπιςτεί αυτό το πρόβλθμα, δθμιουργικθκαν οι καμπφλεσ Precision/Recall. Αυτζσ οι καμπφλεσ ςχεδιάηονται υπολογίηοντασ το Precision κάκε φορά που ςυναντάται μία ςυναφισ εικόνα ςτα ανακτϊμενα αποτελζςματα αλλά κεωρϊντασ ωσ ςφνολο των ανακτϊμενων εικόνων το ςφνολο των εικόνων μζχρι αυτιν τθ ςυναφι εικόνα. Οπότε τότε μποροφμε να ορίςουμε ωσ μζγεκοσ τθ μζςθ τιμι των Precision τιμϊν που ονομάηεται Average Precision και ορίηεται για ζνα ερϊτθμα ωσ: ( ) ( ) (3.29) Το είναι θ τιμι του μεγζκουσ Recall ςε ανακτϊμενο ςφνολο εικόνων που περιζχει ςυναφζσ εικόνεσ ενϊ είναι το πλικοσ των ςυναφϊν εγγράφων. Τζλοσ ορίηεται το μζγεκοσ Mean Average Precision ( ) ςε ζνα ςφνολο από ερωτιματα και ορίηεται ωσ:, το οποίο είναι θ μζςθ τιμι των ( ) (3.30) Το πλεονζκτθμα είναι ότι το Mean Average Precision δεν περιζχει πλθροφορία μόνο για τθν ακρίβεια τθν ανάκτθςθσ αλλά και για τθν ανάκλθςι τθσ. 3.4.2 Averaged Normalized Modified Retrieval Rank (ANMMRR) Το μετρικό μζγεκοσ Average Normalized Modified Retrieval Rank (ANMRR) προτείνεται από το πρότυπο MPEG-7 για τθν αξιολόγθςθ των αποτελεςμάτων ανάκτθςθσ. Το πλεονζκτθμα του ANMRR είναι ότι με ζνα μόνον αρικμό περιγράφει τθν ακρίβεια και τθν ποιότθτα των ανακτϊμενων αποτελεςμάτων και ζχει αποδειχκεί ότι περίπου ςυμπίπτει με τθν υποκειμενικι 26 Μακθματικά Εργαλεία

27 Μακθματικά Εργαλεία Κεφάλαιο 3 αξιολόγθςθ από κριτζσ [MAN01]. Για να υπολογιςτεί το μετρικό μζγεκοσ ANMRR, πρϊτα πρζπει να υπολογιςτεί το Average Rank ( ) για το ερϊτθμα ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ) ( ) ( ) ( ) (3.31) Το ςφμβολο ( ) αντιπροςωπεφει το πλικοσ των ground truth εικόνων που υπάρχουν για το ερϊτθμα ενϊ το ( ) είναι ο βακμόσ ανάκτθςθσ για τθν ground truth εικόνα ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ) { (3.32) Το είναι θ κζςθ που ζχει θ ground truth εικόνα ςτα αποτελζςματα του ερωτιματοσ ενϊ το L ορίηεται από τθν παρακάτω εξίςωςθ: { ( ) * +} (3.33) Ππου το είναι μία ςτακερά που εξαρτάται από τον αρικμό των ground truth εικόνων ςφμφωνα με τθν παρακάτω εξίςωςθ: { ( ) ( ) (3.34) Εφόςον υπολογιςτεί το Average Rank, το επόμενο βιμα αποτελείται από τον υπολογιςμό του Modified Retrieval Rank ( ) του ερωτιματοσ q ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ) ( ), ( )- (3.35) Το ( ) ςε περίπτωςθ του τζλειου αποτελζςματοσ ανάκτθςθσ αποκτάει τθν τιμι 0. Θ κανονικοποιθμζνθ τιμι του παραπάνω μεγζκουσ ονομάηεται Normalized Modified Retrieval Rank ( ) και υπολογίηεται: ( ) ( ), ( )- (3.36) Τζλοσ θ μζςθ τιμι του και ορίηεται: ( ) ονομάηεται Average Normalized Modified Retrieval Rank ( ) ( ) (3.37) Το αντιπροςωπεφει το ςυνολικό αρικμό των ερωτθμάτων. Το τελικό αποτζλεςμα είναι ζνασ πραγματικόσ αρικμόσ από 0 ζωσ 1 με το 0 να κεωρείται ότι αντιπροςωπεφει το τζλειο επικυμθτό ανακτϊμενο αποτζλεςμα. Μακθματικά Εργαλεία 27

Κεφάλαιο 3 Μακθματικά Εργαλεία 28 28 Μακθματικά Εργαλεία

4 ΜΕΙΩΗ ΣΩΝ ΧΡΩΜΑΣΙΚΩΝ ΑΠΟΧΡΩΕΩΝ Περιεχόμενα Ειςαγωγι 30 Αναςκόπθςθ τθσ Ρροτεινόμενθσ Τεχνικισ 31 Υλοποίθςθ 32 Ρειραματικά Αποτελζςματα 33 Συμπεράςματα 37 ΠΕΡΙΛΗΨΗ Το χρϊμα των ψθφιακϊν εικόνων είναι από τισ ςθμαντικότερεσ πλθροφορίεσ που χρθςιμοποιοφνται ςτθν ψθφιακι επεξεργαςία εικόνασ. Πμωσ, ςε πολλζσ εφαρμογζσ όπωσ θ κατάτμθςθ, θ ανάλυςθ, θ ςυμπίεςθ και μετάδοςθ εικόνων είναι επικυμθτι θ μείωςθ των χρωματικϊν αποχρϊςεων. Στθν παροφςα διατριβι προτείνεται μία τεχνικι μείωςθσ των χρωματικϊν αποχρϊςεων μιασ εικόνασ που βαςίηεται ςτθν ανάλυςθ ςτατιςτικϊν ςυςτάδων ςυνδυάηοντασ το νευρωνικό ταξινομθτι KSOFM και τον αςαφι αλγόρικμο GK. Αρχικά, οι χρωματικζσ αποχρϊςεισ μειϊνονται με τον KSOFM και οι εξαγόμενεσ χρωματικζσ κλάςεισ του αρχικοποιοφν τον αςαφι αλγόρικμο GK. Τα τελικά αποτελζςματα του GK ορίηουν και τθν χρωματικι παλζτα τθσ τελικισ εικόνασ.

Κεφάλαιο 4 Μείωςθ των Χρωματικϊν Αποχρϊςεων 30 4.1 Ειςαγωγή Τ ο χρϊμα των ψθφιακϊν εικόνων είναι από τισ ςθμαντικότερεσ πλθροφορίεσ που χρθςιμοποιοφνται ςτθν ψθφιακι επεξεργαςία εικόνασ. Οι ψθφιακζσ εικόνεσ ςυνικωσ περιγράφονται από ζνα ςφνολο ομοιόμορφων κατανεμθμζνων εικονοςτοιχείων ςε ζνα διςδιάςτατο πλζγμα. Συγκεκριμζνα, ςτισ ζγχρωμεσ εικόνεσ κάκε χρϊμα εκφράηεται από ζνα διάνυςμα τριϊν διαςτάςεων, οπότε ςυνικωσ ο ολικόσ αρικμόσ των διαφορετικϊν χρωμάτων μπορεί να ξεπεράςει τα 16 εκατομμφρια. Πμωσ, ςε πολλζσ εφαρμογζσ όπωσ θ κατάτμθςθ, θ ανάλυςθ, θ ςυμπίεςθ και μετάδοςθ εικόνων είναι επικυμθτι θ μείωςθ των χρωματικϊν αποχρϊςεων. Ο ςτόχοσ τθσ μείωςθσ των χρωματικϊν αποχρϊςεων είναι θ ομαδοποίθςθ χρωμάτων που περιζχονται ςε μία εικόνα ςε ομάδεσ χρωμάτων όπου. Στθ βιβλιογραφία ζχουν προτακεί αρκετζσ τεχνικζσ μείωςθσ των χρωματικϊν αποχρϊςεων μίασ εικόνασ. Αρχικά, υπάρχει μια κατθγορία τεχνικϊν, οι οποίεσ διαιροφν τθν τριςδιάςτατθ χρωματικι κατανομι ςε ξεχωριςτζσ περιοχζσ [SCH97]. Οι μζκοδοι Octree [ASH94;GER90], media-cut [HEC82] and variance-based algorithm [WAN90] ανικουν ςτθν παραπάνω κατθγόρια. Θ δεφτερθ μεγάλθ κατθγορία αλγορίκμων βαςίηονται ςτθν ανάλυςθ ςτατιςτικϊν ςυςτάδων (Clustering Analysis) του χρωματικοφ χϊρου. Οι τεχνικζσ αυτζσ προςπακοφν να ορίςουν μία βζλτιςτθ παλζτα χρωμάτων χρθςιμοποιϊντασ διανυςματικοφσ ταξινομθτζσ όπωσ το Growing Neural Gas (GNG) [FRI95], Adaptive Color Reduction [PAP02], FOSART [BAR99;BAR99A;BAR97;BAR98], Fuzzy ART [CAR91;CAR92] και FCM [BEZ81]. Μζκοδοι που ανικουν ςε τρίτθ κατθγορία είναι γενικζσ τεχνικζσ χρωματικισ κατάτμθςθσ που μποροφν να κεωροφν ωσ τεχνικζσ μείωςθσ χρωμάτων. Ραραδείγματοσ χάριν οι mean-shift αλγόρικμοι που χρθςιμοποιοφνται για τθν ανάλυςθ του χαρακτθριςτικοφ χϊρου μποροφν να χρθςιμοποιοφν και ςτθ μείωςθ των χρωματικϊν αποχρϊςεων μίασ εικόνασ [COM02;NIK06]. Οι περιςςότερεσ από τισ παραπάνω τεχνικζσ μείωςθσ των χρωματικϊν αποχρϊςεων που ςτθρίηονται ςτθν ανάλυςθ ςτατιςτικϊν ςυςτάδων παράγουν ςφαιρικζσ κλάςεισ. Αυτόσ ο περιοριςμόσ είναι αρκετά ςθμαντικόσ ςε περιπτϊςεισ όπου τα ιςχυρά χρϊματα κατανζμονται ςτθν εικόνα με μθ-ςφαιρικό τρόπο. Ζνασ τρόποσ να αντιμετωπιςκεί αυτό το πρόβλθμα είναι με τθ χρθςιμοποίθςθ ταξινομθτι που δεν χρθςιμοποιεί Ευκλείδεια απόςταςθ, όπωσ ο αςαφισ ταξινομθτισ Gustafson Kessel (GK) [GUS79]. Πμωσ, αυτόσ ο ταξινομθτισ ζχει δφο κφρια μειονεκτιματα. Το πρϊτο μειονζκτθμά του είναι ότι εξαρτάται από τα αρχικά κζντρα κλάςεων όπου επιλζγονται ψευδοτυχαία. Το δεφτερο μειονζκτθμά του είναι ότι λόγω του μεγάλου υπολογιςτικοφ κόςτουσ που ζχει και ανάλογα με τισ αρχικζσ τιμζσ των κζντρων των κλάςεων μπορεί να οδθγιςει ςε κατανάλωςθ μεγάλου χρονικοφ διαςτιματοσ μζχρι να ςυγκλίνει ςε τιμζσ που να είναι ικανοποιθτικζσ. Για να ξεπεραςτοφν όλεσ οι παραπάνω δυςκολίεσ προτείνουμε μία τεχνικι μείωςθσ των χρωματικϊν αποχρϊςεων μιασ εικόνασ που βαςίηεται ςτθν ανάλυςθ ςτατιςτικϊν ςυςτάδων ςυνδυάηοντασ το νευρωνικό ταξινομθτι KSOFM και τον αςαφι αλγόρικμο GK. Αρχικά, οι χρωματικζσ αποχρϊςεισ μειϊνονται με τον KSOFM και οι εξαγόμενεσ χρωματικζσ κλάςεισ του αρχικοποιοφν τον αςαφι αλγόρικμο GK. Τα τελικά αποτελζςματα του GK ορίηουν και τθ 30 Μείωςθ των Χρωματικϊν Αποχρϊςεων

31 Μείωςθ των Χρωματικϊν Αποχρϊςεων Κεφάλαιο 4 χρωματικι παλζτα τθσ τελικισ εικόνασ. 4.2 Αναςκόπηςη τησ Ρροτεινόμενησ Τεχνικήσ Θ Εικόνα 9 περιγράφει ολόκλθρθ τθ διαδικαςία τθσ προτεινόμενθσ μεκόδου, θ οποία εφόςον βαςίηεται ςτον ςυνδυαςμό ενόσ νευρωνικοφ δικτφου και ενόσ αςαφοφσ αλγορίκμου χαρακτθρίηεται ωσ υβριδικι. Αρχικι Εικόνα Δειγματολθψία Οριςμόσ του Πλικοσ των Σελικϊν Χρωμάτων Aρχικοποίθςθ του GK με τα εξαγόμενα αποτελζςματα του KSOFM Σαξινόμθςθ με τον KSOFM Εκπαίδευςθ του KSOFM Εκτζλεςθ του GK Tελικι Σαξινόμθςθ με τον GK Σελικι Εικόνα Εικόνα 9 H διαδικαςία τθσ προτεινόμενθσ τεχνικισ μείωςθσ χρωματικϊν αποχρϊςεων. Αρχικά, επιλζγεται ζνα ςφνολο αντί όλα τα εικονοςτοιχεία από τθν αρχικι εικόνα ωσ δεδομζνα εκπαίδευςθσ του νευρωνικοφ δικτφου KSOFM με ςκοπό τθ μείωςθ του υπολογιςτικοφ κόςτουσ. Επειδι το πιο ςθμαντικό τμιμα τθσ διαδικαςίασ εκπαίδευςθσ είναι θ επιλογι των κατάλλθλων δειγμάτων εκπαίδευςθσ, αυτι πραγματοποιείται από τισ κορυφζσ τθσ καμπφλθσ του Hilbert [SAG94] όπωσ παρουςιάηεται ςτθν Adaptive Color Reduction τεχνικι [PAP02]. Θ καμπφλθ του Hilbert είναι μία μονοδιάςτατθ καμπφλθ που διατρζχει όλα τα πικανά εικονοςτοιχεία τα οποία κατανζμονται ςε ζνα διςδιάςτατο χϊρο. Αυτι θ μορφοκλαςματικι (fractal) τεχνικι ςάρωςθσ διατθρεί τα ιδιαίτερα χαρακτθριςτικά μιασ εικόνασ καλφτερα από μια τεχνικι ςάρωςθσ ψθφιδοπλζγματοσ (raster) γιατί θ ςχζςθ των γειτονικϊν εικονοςτοιχείων διατθρείται. Θ Εικόνα 10 παρουςιάηει ζνα παράδειγμα δειγματολθψίασ εικονοςτοιχείων από μία εικόνα χρθςιμοποιϊντασ τισ κορυφζσ τθσ καμπφλθσ του Hilbert. Το επόμενο βιμα αποτελείται από τον οριςμό των τελικϊν χρωματικϊν αποχρϊςεων που είναι επικυμθτό να περιζχονται ςτθν τελικι εικόνα. Ο αρικμόσ αυτόσ δεν ορίηει επιπλζον μόνο το πλικοσ των κζντρων των κλάςεων εξόδου του KSOFM αλλά και το πλικοσ των κλάςεων του GK. Μείωςθ των Χρωματικϊν Αποχρϊςεων 31

Κεφάλαιο 4 Μείωςθ των Χρωματικϊν Αποχρϊςεων 32 Εικόνα 10 H δειγματολθψία τθσ εικόνασ χρθςιμοποιϊντασ τισ ακμζσ τθσ καμπφλθσ του Hilbert. Ζπειτα το KSOFM εκπαιδεφεται με τα χρϊματα που χαρακτθρίηουν τα εικονοςτοιχεία που επιλεχτικαν από τθν καμπφλθ του Hilbert. Χαρακτθριςτικά ειςόδου του KSOFM κεωροφνται τα τρία ςυςτατικά του RGB χρωματικοφ χϊρου και το κάκε κζντρο μίασ κλάςθσ εξόδου ορίηει το αντίςτοιχο κφριο χρϊμα. Οπότε, ο αρικμόσ των κλάςεων εξόδου είναι ίςοσ με το πλικοσ των τελικϊν χρωμάτων που κα πρζπει να περιζχονται ςτθν τελικι εικόνα. Χρθςιμοποιϊντασ το εκπαιδευμζνο KSFOM, κάκε εικονοςτοιχείο τθσ αρχικισ εικόνασ ταξινομείται ςε μία κλάςθ εξόδου και τελικϊσ ςε ζνα από τα μειωμζνα χρϊματα. Το αποτζλεςμα τθσ παραπάνω ταξινόμθςθσ χρθςιμοποιείται για τθν αρχικοποίθςθ του αςαφι ταξινομθτι GK. Ειδικότερα, οι τιμζσ του πίνακασ διαχωριςμοφ ορίηονται από τα βάρθ ςφνδεςθσ τθσ κάκε κλάςθσ του νευρωνικοφ δικτφου KSOFM. Με αυτζσ τισ τιμζσ εκτελείται ο αςαφισ αλγόρικμοσ GK και υπολογίηονται τα καινοφργια κζντρα των κλάςεων κακϊσ και οι τελικζσ τιμζσ του πίνακα διαχωριςμοφ. Τελικά, χρθςιμοποιϊντασ τθν απόςταςθ που περιγράφει θ Εξ. (3.3) μειϊνονται όλεσ οι χρωματικζσ αποχρϊςεισ που χαρακτθρίηουν κάκε εικονοςτοιχείο τθσ εικόνασ ςε ζνα ςυγκεκριμζνο προκακοριςμζνο αρικμό. 4.3 Υλοποίηςη Θ μζκοδοσ που προτείνεται υλοποιικθκε με τθ βοικεια ενόσ οπτικοφ περιβάλλοντοσ προγραμματιςμοφ για τθ γριγορθ ανάπτυξθ εφαρμογϊν (Borland Delphi). Στθν Εικόνα 11 παρουςιάηεται μία φωτογραφία τθσ εφαρμογισ που υλοποιικθκε. 32 Μείωςθ των Χρωματικϊν Αποχρϊςεων

33 Μείωςθ των Χρωματικϊν Αποχρϊςεων Κεφάλαιο 4 Εικόνα 11 Οπτικι απεικόνιςθ τθσ εφαρμογισ που υλοποιικθκε. Στο παραπάνω πρόγραμμα εκτόσ από τθν προτεινόμενθ μζκοδο ζχουν υλοποιθκεί και οι παρακάτω τεχνικζσ μείωςθσ χρωματικϊν αποχρϊςεων μίασ εικόνασ: Με το νευρωνικό δίκτυο Line Kohonen. Με το νευρωνικό δίκτυο Grid Kohonen. Με το νευρωνικό δίκτυο Growing Neural Gas. Με το νευρωνικό δίκτυο Self-Growing and Self-Organized Neural Network [ATS06;ATS05;ATS05A]. Με τον αςαφι αλγόρικμο Fuzzy C-Mean. Με τον αςαφι αλγόρικμο Gustafson Kessel. Επιπλζον, υλοποιικθκαν κάποιεσ επιπλζον λειτουργίεσ που βοικθςαν κατά τθν υλοποίθςθ των παραπάνω αλγορίκμων. Αυτζσ είναι: Οι Sobel και Prewitt αλγόρικμοι εφρεςθσ ακμϊν ςε μία εικόνα. Ζνα ςφνολο από κριτιρια μζτρθςθσ ςφάλματοσ λόγω χρωματικισ κβάντωςθσ. 4.4 Ρειραματικά Αποτελζςματα Είναι προφανζσ ότι δεν είναι δυνατόν για τθν αξιολόγθςθ τθσ προτεινόμενθσ τεχνικισ να χρθςιμοποιθκοφν κριτιρια όπωσ SNR, PSNR κ.τ.λ. Θ χριςθ του αςαφι ταξινομθτι Gustafson Kessel οδθγεί ςε ομοιογενείσ περιοχζσ χρωμάτων οι οποίεσ ζχουν καλά οριςμζνα όρια με τισ Μείωςθ των Χρωματικϊν Αποχρϊςεων 33

Κεφάλαιο 4 Μείωςθ των Χρωματικϊν Αποχρϊςεων 34 γειτονικζσ κλάςεισ. Μάλιςτα για αυτόν τον ςυγκεκριμζνο λόγο αποφαςίςτθκε θ χρθςιμοποίθςθ αυτοφ του ταξινομθτι. Οπότε, θ αξιολόγθςθ τθσ προτεινόμενθσ τεχνικισ δεν μπορεί να προςεγγιςτεί με ςτατιςτικά κριτιρια αλλά μόνο με τθν οπτικι αντίλθψθ. α) β) γ) δ) ε) η) θ) κ) Εικόνα 12 α) Η αρχικι εικόνα ζχοντασ ςυνολικά 22410 χρϊματα. Σελικι εικόνα ζχοντασ μόνο 4 χρϊματα χρθςιμοποιϊντασ: β) KSOFM, γ) FCM, δ) GNG, ε) Median - Cut, η) Wu Quantization, θ) Variance Quantization και κ) θ προτεινόμενθ τεχνικι (KSOFM-GK). Θ προτεινόμενθ τεχνικι εφαρμόςτθκε ςε αρκετζσ εικόνεσ με ικανοποιθτικά αποτελζςματα. Οι Εικόνεσ 12 ζωσ 16 ςυγκρίνουν τθ μείωςθ των χρωματικϊν αποχρϊςεων τθσ προτεινόμενθσ τεχνικισ με άλλεσ γνωςτζσ μεκόδουσ όπωσ : KSOFM, FCM, GNG, Median Cut, Wu Quantization, Variance Quantization. O Ρίνακασ 2 παρουςιάηει τισ παραμζτρουσ των αλγορίκμων που χρθςιμοποιικθκαν ςτθν αξιολόγθςθ. 34 Μείωςθ των Χρωματικϊν Αποχρϊςεων

35 Μείωςθ των Χρωματικϊν Αποχρϊςεων Κεφάλαιο 4 α) β) γ) δ) ε) η) θ) κ) Εικόνα 13 α) Η αρχικι εικόνα ζχοντασ ςυνολικά 99760 χρϊματα. Σελικι εικόνα ζχοντασ μόνο 7 χρϊματα χρθςιμοποιϊντασ: β) KSOFM, γ) FCM, δ) GNG, ε) Median - Cut, η) Wu Quantization, θ) Variance Quantization και κ) θ προτεινόμενθ τεχνικι (KSOFM-GK). Τα πειραματικά αποτελζςματα ςτθν Εικόνα 12 παρουςιάηουν τθν ιδιότθτα τθσ προτεινόμενθσ τεχνικισ να ςυγχωνεφει παραπλιςια χρϊματα ςχθματίηοντασ ομοιόμορφεσ περιοχζσ. Συγκεκριμζνα τα χρϊματα των ροφχων, του δζρματοσ και του παραςκθνίου ενϊκθκαν καλφτερα από τισ άλλεσ τεχνικζσ. Το δεφτερο πείραμα που παρουςιάηεται ςτθν Εικόνα 13 καταδεικνφει ότι θ τεχνικι KSOFM-GK διατιρθςε το βαςικό χρϊμα κάκε λιβαδιοφ και ενοποίθςε καλφτερα τισ μικρζσ χρωματικζσ διακυμάνςεισ τουσ. Τα πειράματα των Εικόνων 14 ζωσ 16 αποδεικνφουν τθν ικανότθτα τθσ προτεινόμενθσ μεκόδου να διατθρεί τα κφρια χρϊματα τθσ εικόνασ: τα χρϊματα των ποτθριϊν (Εικόνα 14), τα χρϊματα των ςφαιρϊν (Εικόνα 15) και τα χρϊματα των φτερϊν τθσ πεταλοφδασ (Εικόνα 16). Γενικά, θ αξιολόγθςθ τθσ τεχνικισ μείωςθσ χρωματικϊν αποχρϊςεων μια εικόνασ μζςω του υβριδικοφ ςυςτιματοσ KSOFM GK απζδειξε τθν ικανότθτα τθσ να διατθρεί τα κφρια χρϊματα μια εικόνασ ακόμα και αν το πλικοσ αυτϊν είναι πολφ μικρό. Επίςθσ, μπορεί να ενοποιιςει περιοχζσ που ζχουν παρόμοια χρϊματα. Οπότε, με βάςθ τα παραπάνω μπορεί να κεωρεί μία ιςχυρι χρωματικι τεχνικι κατάτμθςθσ ψθφιακισ εικόνασ. Μείωςθ των Χρωματικϊν Αποχρϊςεων 35

Κεφάλαιο 4 Μείωςθ των Χρωματικϊν Αποχρϊςεων 36 α) β) γ) δ) ε) η) θ) κ) Εικόνα 14 α) Η αρχικι εικόνα ζχοντασ ςυνολικά 33784 χρϊματα. Σελικι εικόνα ζχοντασ μόνο 5 χρϊματα χρθςιμοποιϊντασ: β) KSOFM, γ) FCM, δ) GNG, ε) Median - Cut, η) Wu Quantization, θ) Variance Quantization και κ) θ προτεινόμενθ τεχνικι (KSOFM-GK). α) β) γ) δ) ε) η) θ) κ) Εικόνα 15 α) Η αρχικι εικόνα ζχοντασ ςυνολικά 31655 χρϊματα. Σελικι εικόνα ζχοντασ μόνο 4 χρϊματα χρθςιμοποιϊντασ: β) KSOFM, γ) FCM, δ) GNG, ε) Median - Cut, η) Wu Quantization, θ) Variance Quantization και κ) θ προτεινόμενθ τεχνικι (KSOFM- GK). 36 Μείωςθ των Χρωματικϊν Αποχρϊςεων

37 Μείωςθ των Χρωματικϊν Αποχρϊςεων Κεφάλαιο 4 α) β) γ) δ) ε) η) θ) κ) Εικόνα 16 α) Η αρχικι εικόνα ζχοντασ ςυνολικά 69656 χρϊματα. Σελικι εικόνα ζχοντασ μόνο 8 χρϊματα χρθςιμοποιϊντασ: β) KSOFM, γ) FCM, δ) GNG, ε) Median - Cut, η) Wu Quantization, θ) Variance Quantization και κ) θ προτεινόμενθ τεχνικι (KSOFM-GK). Πίνακασ 2. Οι παράμετροι των αλγορίκμων κατά τθν εκτζλεςθ των πειραμάτων. KSOFM Fuzzy C-Mean GNG KSOFM -s GK Initially Learning Rate: ALPHA = 0.5 Initially Learning Rate: Final Learning Rate: Epochs = 2000 Final Learning Rate: Step of the Learning Rate: Termination Tolerance: Maximum Connection Age = 300 Step of the Learning Rate: Learning Rate for the Winner Neuron: KSOFM Termination Tolerance: Learning Rate for the Neighboring Neuron: GKFC termination Tolerance: Epochs = 2000 Iterations: 4.5 Συμπεράςματα Σε αυτό το κεφάλαιο παρουςιάςτθκε μία υβριδικι τεχνικι μείωςθσ χρωμάτων θ οποία ςτθρίηεται ςτον ςυνδυαςμό του αυτό-οργανωμζνου νευρωνικοφ δικτφου KSOFM και του αςαφι αλγόρικμου Gustafson Kessel. Αρχικά, ο KSOFM εφαρμόηεται ςτθν αρχικι εικόνα και παράγει ζνα προκακοριςμζνο Μείωςθ των Χρωματικϊν Αποχρϊςεων 37

Κεφάλαιο 4 Μείωςθ των Χρωματικϊν Αποχρϊςεων 38 αρικμό χρωματικϊν κλάςεων. Ζπειτα, θ τελικι μείωςθ χρωμάτων πραγματοποιείται από τον αςαφι αλγόρικμο Gustafson Kessel κεωρϊντασ τα αποτελζςματα του KSOFM ωσ αρχικζσ τιμζσ. Οπότε ολόκλθρθ θ διαδικαςία αυτι μπορεί να κεωρθκεί ωσ υβριδικι. Λόγω του υψθλοφ υπολογιςτικοφ κόςτουσ που προκαλεί θ εφρεςθ τθσ Mahalanobis απόςταςθ ο χρόνοσ ολοκλιρωςθσ τθσ προτεινόμενθσ τεχνικισ είναι αρκετά μεγαλφτεροσ από των άλλων τεχνικϊν. Για να μειωκεί ο χρόνοσ χρθςιμοποιικθκε θ μορφοκλαςματικι (fractal) τεχνικι ςάρωςθσ τθσ καμπφλθσ του Hilbert. Θ προτεινόμενθ τεχνικι εφαρμόςτθκε ςε ζνα ςφνολο εικόνων ενϊ ςυγκρίκθκε με τισ άλλεσ τεχνικζσ μείωςθσ χρωμάτων. Τα πειραματικά αποτελζςματα ζδειξαν τθν ικανότθτα τθσ να διατθρεί τα βαςικά χρϊματα. Επίςθσ, μπορεί να ςυγχωνεφει περιοχζσ με παρόμοια χρϊματα παράγοντασ ομοιόμορφεσ περιοχζσ. Από αυτιν τθν άποψθ θ προτεινόμενθ τεχνικι μπορεί να χρθςιμοποιεί για χρωματικι κατάτμθςθ. 38 Μείωςθ των Χρωματικϊν Αποχρϊςεων

5 ΑΛΓΟΡΙΘΜΟ ΑΝΑΔΡΑΗ ΜΕ ΒΑΗ ΣΗ ΤΝΑΦΕΙΑ Περιεχόμενα ΠΕΡΙΛΗΨΗ Ειςαγωγι 40 Ρεριγραφείσ ςτα Ρρότυπα του MPEG-7 40 Color and Edge Directivity Descriptor (CEDD) 41 Compact Color and Edge Directivity Descriptor (C.CEDD) 42 Fuzzy Color and Texture Histogram (FCTH) 43 Compact Fuzzy Color and Texture Histogram (C.FCTH) 45 Ρροτεινόμενοσ Αλγόρικμοσ Ανάδραςθσ με Βάςθ τθ ςυνάφεια 45 Υλοποίθςθ 48 Ρειραματικά Αποτελζςματα 49 Συμπεράςματα 50 Υψθλισ ποιότθτασ αποτελζςματα ςε ςυςτιματα ανάκτθςθσ εικόνων με βάςθ το περιεχόμενο μποροφν να επιτευχκοφν χρθςιμοποιϊντασ μθχανιςμοφσ ανάδραςθσ με βάςθ τθ ςυνάφεια. Σε αυτό το κεφάλαιο παρουςιάηεται ζνασ τζτοιοσ εφκολοσ ςτθν υλοποίθςθ και με μικρό υπολογιςτικό κόςτοσ μθχανιςμόσ ο οποίοσ χρθςιμοποιείται για τθν βελτίωςθ των ανακτϊμενων αποτελεςμάτων τεςςάρων περιγραφζων ςτα πρότυπα του MPEG-7. Επιπλζον, παρουςιάηεται θ υλοποίθςθ τθσ προτεινόμενθσ τεχνικισ ανάδραςθσ με βάςθ τθ ςυνάφεια κακϊσ και τα πειραματικά αποτελζςματα ςε δφο βάςεισ εικόνων. Αυτζσ είναι θ Wang και θ MPEG-7 CCD. Tα πειράματα ζδειξαν ςθμαντικι βελτίωςθ των ανακτϊμενων αποτελεςμάτων.

Κεφάλαιο 5 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 40 5.1 Ειςαγωγή Υ ψθλισ ποιότθτασ αποτελζςματα ςε ςυςτιματα ανάκτθςθσ εικόνων με βάςθ το περιεχόμενο μποροφν να επιτευχκοφν χρθςιμοποιϊντασ μθχανιςμοφσ ανάδραςθσ με βάςθ τθ ςυνάφεια. Αυτοί οι μθχανιςμοί απαιτοφν από τον χριςτθ να βακμολογιςει τθν ποιότθτα των αποτελεςμάτων ςθμειϊνοντασ τισ ανακτθμζνεσ εικόνεσ ωσ ςυναφείσ ι όχι. Ζπειτα, το ςφςτθμα ανάκτθςθσ χρθςιμοποιεί αυτιν τθν πλθροφορία ϊςτε να βελτιϊςει τα αρχικά αποτελζςματα με ςκοπό να ικανοποιιςει καλφτερα τισ ανάγκεσ του χριςτθ. Ραρόλο που οι αλγόρικμοι ανάδραςθσ με βάςθ τθ ςυνάφεια ειςιχκθςαν αρχικά ςτο πεδίο τθσ ανάκτθςθσ τθσ πλθροφορίασ [SAL86], πρόςφατα δζχονται ςθμαντικι προςοχι ςτο πεδίο τθσ ανάκτθςθσ εικόνασ με βάςει το περιεχόμενο. Θ πλειοψθφία των αλγορίκμων ανάδραςθσ με βάςθ τθ ςυνάφεια που προτείνονται ςτθ βιβλιογραφία βαςίηονται ςτθ μεταβολι των παραμζτρων τθσ αναηιτθςθσ αναλόγωσ των επιλογϊν του χριςτθ ζτςι ϊςτε να αντιπροςωπεφεται καλφτερα τθν ζννοια που αναηθτά. Οι παράμετροι αναηιτθςθσ υπολογίηονται ςυναρτιςει όλων των τιμϊν ςυνάφειασ που ανατζκθκαν από το χριςτθ ςτισ ανακτϊμενεσ εικόνεσ. Μερικοί τζτοιοι αλγόρικμοι ςυχνά μεταβάλουν το διάνυςμα ερϊτθμα και/ι χρθςιμοποιοφν προςαρμοςμζνα μετρικά ςυςτιματα ομοιότθτασ. Επιπλζον, ωσ αλγόρικμοι ανάδραςθσ με βάςθ τθ ςυνάφεια ζχουν χρθςιμοποιθκεί και οι ταξινομθτζσ προτφπων όπωσ τα Support Vector Machines [ZHO03]. Επιπλζον, ο χριςτθσ όταν ψάχνει για ζνα ςφνολο εικόνων χρθςιμοποιϊντασ μία εικόνα ερϊτθμα μερικζσ φορζσ δεν ζχει μία ξεκάκαρθ αντίλθψθ για το τι ακριβϊσ αναηθτεί. Δθλαδι, ζχει μία γενικι ιδζα τθσ αναηθτοφμενθσ εικόνασ αλλά όχι τθν πλιρθ οπτικι απεικόνιςι τθσ. Επίςθσ, πολλζσ φορζσ δεν υπάρχει κατάλλθλθ εικόνα ερϊτθμα για ανάκτθςθ. Το προτεινόμενο ςφςτθμα ανάδραςθσ με βάςθ τθ ςυνάφεια προςπακεί να λφςει τα παραπάνω προβλιματα παρζχοντασ ζναν μθχανιςμό βελτίωςθσ των αποτελεςμάτων τθσ ανάκτθςθσ χρθςιμοποιϊντασ ζνα ςφνολο από εικόνεσ ερωτιματα αντί για ζνα. Τα παραπάνω πετυχαίνονται παραποιϊντασ τον αρχικό περιγραφζα ερϊτθμα με βάςθ τισ επακόλουκεσ επιλεγμζνεσ από τον χριςτθ εικόνεσ ερωτιματα με ςκοπό τθν καταςκευι του ιδανικοφ περιγραφζα ερϊτθμα. 5.2 Ρεριγραφείσ ςτα Ρρότυπα του MPEG-7 Ο προτεινόμενοσ αλγόρικμοσ χρθςιμοποιείται για τθ βελτίωςθ των ανακτϊμενων αποτελεςμάτων τεςςάρων περιγραφζων που παρουςιάηονται ςτο επιςτθμονικό άρκρο: «Accurate Image Retrieval based on Compact Composite Descriptors and Relevance Feedback Information» [CHA09]. Αυτοί είναι οι Color and Edge Directivity Descriptor (CEDD), Fuzzy Color and Texture Histogram (FCTH) και οι ςυμπαγείσ (Compact) εκδοχζσ τουσ (C.CEDD, C.FCTH). Οι περιγραφείσ αυτοί ζχουν ςχεδιαςτεί με βάςθ τα πρότυπα του MPEG-7 ενϊ επίςθσ ζχει προςεχκεί το μζγεκόσ τουσ ζτςι ϊςτε να ζχουν τισ μικρότερεσ δυνατόν απαιτιςεισ αποκικευςθσ χωρίσ να μειϊνεται θ ικανότθτά τουσ ωσ προσ τθν ανάκτθςθ εικόνων. Επιπλζον, ενςωματϊνουν πλθροφορία χρϊματοσ και υφισ ςε ζνα ιςτόγραμμα ενϊ το μζγεκόσ τουσ περιορίηεται μεταξφ 23 και 74 bytes ανά εικόνα. 40 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια

41 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια Κεφάλαιο 5 Για να υπολογιςτοφν οι παραπάνω περιγραφείσ αρχικά θ εικόνα χωρίηεται ςε 1600 Κομμάτια Εικόνων (Image Blocks). Το νοφμερο αυτό επιλζχκθκε ωσ ςυμβιβαςμόσ μεταξφ τθσ λεπτομερισ περιγραφισ τθσ εικόνασ και το ανάλογο υπολογιςτικό κόςτοσ. Εφόςον το ελάχιςτο μζγεκοσ του κάκε κομματιοφ τθσ εικόνασ πρζπει να είναι εικονοςτοιχεία (περιοριςμόσ που υπάρχει από τισ μονάδεσ υφισ), οι παραπάνω περιγραφείσ κα πρζπει να χρθςιμοποιοφνται ςε εικόνεσ μεγαλφτερεσ από εικονοςτοιχεία. Επίςθσ, θ μονάδα που ςχετίηεται με τθν εξαγωγι τθσ χρωματικισ πλθροφορίασ ςε κάκε περιγραφζα ονομάηεται Χρωματικι Μονάδα (Color Unit) ενϊ Μονάδα Υφισ (Texture Unit) ονομάηεται θ μονάδα που ςχετίηεται με τθν εξαγωγι τθσ πλθροφορίασ υφισ. Κάκε περιγραφζασ ζχει περιοχζσ που κακορίηονται από τθ μονάδα Υφισ, οι οποίεσ περιζχουν ξεχωριςτζσ περιοχζσ που κακορίηονται από τθν Χρωματικι Μονάδα. Γενικά κάκε περιγραφζασ περιζχει κζςεισ. Τζλοσ κάκε ιςτόγραμμα περιγραφζα κανονικοποιείται ςτο εφροσ τιμϊν [0,1] και μετά κβαντοποιείται ςε τρία bits/ κζςθ με τθ βοικεια του αςαφοφσ ταξινομθτι Gustafson Kessel [GUS79]. Οι τιμζσ κβαντοποιικθκαν μθ γραμμικά και επιπλζον κάκε περιοχι υφισ ζχει και διαφορετικζσ τιμζσ κβαντοποίθςθσ. Ο Ρίνακασ 3 παρουςιάηει τισ τιμζσ κβαντοποίθςθσ των CEDD και C.CEDD ενϊ ο Ρίνακασ 4 τισ αντίςτοιχεσ τιμζσ των FCTH και C. FCTH. Στισ επόμενεσ ενότθτεσ παρουςιάηονται ςυνοπτικά οι παραπάνω περιγραφείσ. Πίνακασ 3. Ο Πίνακασ Κβαντοποίθςθσ του CEDD και C.CEDD CEDD Θζςθ: 0-23 / C.CEDD Θζςθ: 0-9 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 0,00018 0,0237 0,0614 0,1139 0,1791 0,2609 0,3417 0,5547 CEDD Θζςθ: 24-47 / C.CEDD Θζςθ: 10-19 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 0,0002 0,0224 0,0602 0,1207 0,1811 0,2341 0,3256 0,5207 CEDD Θζςθ: 48-95 / C.CEDD Θζςθ: 20-39 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 0,0004 0,0048 0,0108 0,0181 0,027 0,0381 0,0526 0,0795 CEDD Θζςθ: 96-143 / C.CEDD Θζςθ: 40-49 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 0,00096 0,0107 0,0241 0,0415 0,0628 0,0930 0,1369 0,2628 5.2.1 Color and Edge Directivity Descriptor (CEDD) Ο CEDD περιζχει πλθροφορία υφισ που υπολογίηεται από ζνα 6 κζςεων ιςτόγραμμα ενόσ αςαφοφσ ςυςτιματοσ, το οποίο χρθςιμοποιεί τα πζντε ψθφιακά φίλτρα που προτείνονται από το MPEG-7 Edge Histogram Descriptor (EHD). Επιπλζον, για χρωματικι πλθροφορία ο CEDD χρθςιμοποιεί ζνα 24 κζςεων χρωματικό ιςτόγραμμα που υπολογίηεται από ζνα αςαφι Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 41

Κεφάλαιο 5 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 42 διαςυνδεδεμζνο (fuzzy-linking) ςφςτθμα. Συνολικά, το τελικό ιςτόγραμμα περιζχει περιοχζσ. Πίνακασ 4. Ο Πίνακασ Κβαντοποίθςθσ του FCTH και C.FCTH FCTH Θζςθ: 0-47 / C.FCTH Θζςθ: 0-19 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 0,00013 0,0093 0,0224 0,0431 0,0831 0,1014 0,1748 0,224 FCTH Θζςθ: 48-143 / C.FCTH Θζςθ: 20-59 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 0,00023 0,0173 0,0391 0,0693 0,0791 0,0910 0,1618 0,185 FCTH Θζςθ: 144-191 / C.FCTH Θζςθ: 60-79 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 0,00018 0,0273 0,0414 0,0539 0,0691 0,0820 0,0918 0,128 Κάκε Κομμάτι Εικόνασ (Image Block) αλλθλεπιδρά διαδοχικά με όλα τα αςαφι ςυςτιματα. Εάν ορίηεται θ κζςθ τθσ τιμισ που δθμιουργείται από το αςαφζσ ςφςτθμα πλθροφορίασ υφισ και ορίηεται ωσ θ κζςθ τθσ τιμισ που δθμιουργείται από το 24 κζςεων αςαφι διαςυνδεδεμζνο ςφςτθμα, τότε κάκε κομμάτι εικόνασ τοποκετείται ςτθ κζςθ του τελικοφ ιςτoγράμματοσ:. Στθν Εικόνα 17(α) απεικονίηεται το διάγραμμα ροισ τθσ διαδικαςίασ δθμιουργίασ του περιγραφζα. Στθ μονάδα Υφισ, το κομμάτι εικόνασ διαχωρίηεται ςε 4 περιοχζσ που ονομάηονται Υπό-Κομμάτια. Θ τιμι του κάκε Υπό-Κομματιοφ είναι θ μζςθ τιμι τθσ φωτεινότθτασ (luminosity) των εικονοςτοιχείων που περιζχει. Οι τιμζσ των φωτεινοτιτων προζρχονται από τον μεταςχθματιςμό του χρωματικοφ χϊρου ςτον YIQ χϊρο. Κάκε κομμάτι εικόνασ αλλθλεπιδρά με τα πζντε ψθφιακά φίλτρα που προτάκθκαν από τον EHD περιγραφζα του MPEG-7 ϊςτε να ταξινομθκεί ςε μία ι και περιςςότερεσ κατθγορίεσ υφισ. Ζπειτα, ςτθ Μονάδα Χρϊματοσ, κάκε κομμάτι τθσ εικόνασ μετατρζπεται ςτο χρωματικό χϊρο HSV. Οι μζςεσ τιμζσ του H, S και V υπολογίηονται και χρθςιμοποιοφνται ωσ είςοδοι ςε ζνα αςαφι ςφςτθμα το οποίο παράγει ζνα 10 κζςεων ιςτόγραμμα. Στθ ςυνζχεια, ζνα δεφτερο αςαφζσ διαςυνδεδεμζνο ςφςτθμα, χρθςιμοποιϊντασ τισ μζςεσ τιμζσ των S και V κακϊσ και τθν ζξοδο από το προθγοφμενο αςαφζσ ςφςτθμα υπολογίηει τον χρωματικό τόνο εξάγοντασ ζνα 24 κζςεων ιςτόγραμμα. Θ διαδικαςία αυτι επαναλαμβάνεται για όλα κομμάτια τθσ εικόνασ. Κατά τον τερματιςμό τθσ παραπάνω διαδικαςίασ, το ιςτόγραμμα κανονικοποιείται ςτο εφροσ τιμϊν, - και κβαντοποιείται ςε 3bits ανά κζςθ ιςτογράμματοσ. Οπότε το μζγεκοσ του CEDD είναι bits ι 54 bytes. H Εικόνα 17(β) απεικονίηει τθ δομι του CEDD. 5.2.2 Compact Color and Edge Directivity Descriptor (C.CEDD) Θ μζκοδοσ υπολογιςμοφ του C.CEDD διαφζρει από τον CEDD μόνο ςτθ μονάδα Χρϊματοσ. Ο C.CEDD χρθςιμοποιεί ζνα μόνο αςαφι διαςυνδεμζνο ςφςτθμα που δθμιουργεί 42 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια

43 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια Κεφάλαιο 5 ζνα 10 κζςεων ιςτόγραμμα. Οπότε ςυνολικά, το τελικό ιςτόγραμμα ζχει μόνο κζςεισ. Είναι ο μικρότεροσ ςε μζγεκοσ περιγραφζασ από τουσ ςυνολικά τζςςερισ με μζγεκοσ bits ι 22,5 bytes. Το διάγραμμα ροισ τθσ Εικόνα 18(α) περιγράφει τθ διαδικαςία υπολογιςμοφ του C.CEDD ενϊ θ Εικόνα 18(β) απεικονίηει τθ δομι του. α) β) Εικόνα 17 (α) Σο Διάγραμμα Ροισ Τπολογιςμοφ του CEDD (β) Η Δομι του CEDD 5.2.3 Fuzzy Color and Texture Histogram (FCTH) O περιγραφζασ FCTH περιζχει πλθροφορία υφισ που αντιπροςωπεφεται από ζνα 8 κζςεων ιςτόγραμμα το οποίο είναι θ ζξοδοσ ενόσ αςαφι ςυςτιματοσ που χρθςιμοποιεί τθν υψθλι ςυχνότθτα του κυματιδικοφ (wavelet) μεταςχθματιςμοφ Haar. Για τον υπολογιςμό τθσ χρωματικισ πλθροφορίασ, ο περιγραφζασ χρθςιμοποιεί ζνα 24 κζςεων χρωματικό ιςτόγραμμα παραγόμενο από ζνα αςαφι διαςυνδεδεμζνο ςφςτθμα. Συνολικά, το τελικό ιςτόγραμμα περιζχει 192 κζςεισ. α) β) Εικόνα 18 (α) Σο Διάγραμμα Ροισ Τπολογιςμοφ του C.CEDD (β) Η Δομι του C.CEDD Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 43

Κεφάλαιο 5 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 44 Για τον υπολογιςμό του FCTH κάκε Κομμάτι Εικόνασ αλλθλεπιδρά διαδοχικά με όλα τα αςαφι ςυςτιματα με ανάλογο τρόπο όπωσ με τον περιγραφζα CEDD. Στθν Εικόνα 19(α) απεικονίηεται το διάγραμμα ροισ του FCTH. α) β) Εικόνα 19 (α) Σο Διάγραμμα Ροισ Τπολογιςμοφ του FCTH (β) Η Δομι του FCTH Το κάκε Κομμάτι Εικόνασ μετατρζπεται ςτον χρωματικό χϊρο YIQ και εφαρμόηεται ςε αυτό ο κυματιδικόσ (wavelet) μεταςχθματιςμόσ Haar και υπολογίηονται οι τιμζσ των, και. Με τθ χριςθ ενόσ αςαφοφσ ςυςτιματοσ που ταξινομεί τα βάρθ, το κομμάτι εικόνασ ταξινομείται ςε μια από τισ 8 κζςεισ εξόδου του. α) β) Εικόνα 20 (α) Σο Διάγραμμα Ροισ Τπολογιςμοφ του C.FCTH (β) Η Δομι του C.FCTH Επίςθσ, το ίδιο κομμάτι εικόνασ μετατρζπεται ςτον χρωματικό χϊρο HSV και οι μζςεσ τιμζσ των H,S και V υπολογίηονται και χρθςιμοποιοφνται ωσ δεδομζνα ειςόδου ςε ζνα αςαφι ςφςτθμα, το οποίο ςχθματίηει ζνα 10 κζςεων χρωματικό ιςτόγραμμα. Ζπειτα, το επόμενο 44 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια

45 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια Κεφάλαιο 5 αςαφι ςφςτθμα χρθςιμοποιεί τισ μζςεσ τιμζσ των S και V κακϊσ και τθν ζξοδο του προθγοφμενου ςυςτιματοσ και υπολογίηει τον χρωματικό τόνο (hue) δθμιουργϊντασ ζνα 24 κζςεων ιςτόγραμμα. Μετά το τζλοσ τθσ παραπάνω διεργαςίασ, όπωσ και ςτον CEDD το τελικό ιςτόγραμμα κανονικοποιείται ςτο εφροσ τιμϊν, - και κβαντοποιείται ςε 3 bits ανά κζςθ ιςτογράμματοσ. Οπότε το μζγεκοσ του FCTH είναι bits. Θ Εικόνα 19(β) απεικονίηει τθ δομι του. 5.2.4 Compact Fuzzy Color and Texture Histogram (C.FCTH) Ο υπολογιςμόσ του C.FCTH διαφζρει από αυτόν του FCTH μόνο ςτθ Χρωματικι Μονάδα. Ππωσ και ςτθν αντίςτοιχθ περίπτωςθ του C.CEDD, χρθςιμοποιείται ζνα αςαφι διαςυνδεδεμζνο ςφςτθμα που παράγει 10 κζςεων ιςτόγραμμα αντί αυτοφ που παράγει 24 κζςεισ ιςτόγραμμα. Τελικά, το τελικό ιςτόγραμμα του C.FCTH περιζχει κζςεισ ενϊ το μζγεκόσ του είναι bits ι 30 bytes. Θ Εικόνα 20(α) δείχνει το διάγραμμα ροισ υπολογιςμοφ του ενϊ θ Εικόνα 20(β) απεικονίηει τθ δομι του. 5.3 Ο Ρροτεινόμενοσ Αλγόριθμοσ Ανάδραςησ με Βάςη τη ςυνάφεια Ο ςτόχοσ του προτεινόμενου αλγόρικμου ανάδραςθσ με βάςθ τθ ςυνάφεια είναι να αναπροςαρμόςει καλφτερα ι ακόμα και να αλλάξει τα αρχικά αποτελζςματα τθσ ανάκτθςθσ με βάςθ τισ προτιμιςεισ του χριςτθ. Κατά τθ διάρκεια τθσ διαδικαςίασ αυτισ, ο χριςτθσ επιλζγει από τα ανακτϊμενα αποτελζςματα, εικόνεσ που είναι ςυναφείσ με το δικό του προςδοκϊμενο αποτζλεςμα. Οπότε, από αυτζσ τισ εικόνεσ εξάγεται πλθροφορία ικανι να αλλάξει τον περιγραφζα τθσ αρχικισ εικόνασ ερϊτθμα. Ρρωτίςτωσ, το αρχικό μονοδιάςτατο ιςτόγραμμα τθσ εικόνασ ερϊτθμα μεταςχθματίηεται ςε ζνα τριϊν διαςτάςεων ( ) διάνυςμα με βάςθ τα εςωτερικά χαρακτθριςτικά των παραπάνω περιγραφζων. Θ, - διάςταςθ αντιπροςωπεφει τθν υφι ενϊ το είναι ίςο με το μζγιςτο αρικμό περιοχϊν υφισ που περιζχονται ςτον περιγραφζα. Θ, - διάςταςθ αντιπροςωπεφει τα κφρια χρϊματα ενϊ το είναι ίςο με το μζγιςτο αρικμό κφριων χρωμάτων που περιζχονται ςε κάκε περιοχι υφισ. Τζλοσ θ, - διάςταςθ αντιπροςωπεφει τισ παραλλαγζσ των κυρίων χρωμάτων ενϊ το είναι ίςο με το μζγιςτο αρικμό παραλλαγϊν που κάκε κφριο χρϊμα περιζχει. Ο Ρίνακασ 5 παρουςιάηει τισ τιμζσ των, και για κάκε περιγραφζα που παρουςιάςτθκε παραπάνω ενϊ θ Εικόνα 21(α) απεικονίηει το διάνυςμα. Πίνακασ 5. Οι τιμζσ των, και για κάκε ζνα περιγραφζα. CEDD FCTH C.CEDD C.FCTH 6 8 6 8 8 8 10 10 3 3 1 1 Το πλεονζκτθμα του παραπάνω μεταςχθματιςμοφ είναι θ ευκολότερθ πρόςβαςθ ςτθν εςωτερικι πλθροφορία που περιζχει ο περιγραφζασ μζςω των, και διαςτάςεων. Για παράδειγμα, για τθν εξαγωγι των τιμϊν του περιγραφζα που αντιςτοιχοφν ςτθν ίδια Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 45

Κεφάλαιο 5 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 46 παραλλαγι ( άξονασ) ενόσ ςυγκεκριμζνου κφριου χρϊματοσ ( άξονασ) για κάκε περιοχι υφισ ( άξονασ) απλϊσ κρατιοφνται ςτακερζσ οι δφο διαςτάςεισ ( ) ενϊ θ διάςταςθ αποκτά όλεσ τισ επιτρεπτζσ τιμζσ ςτο εφροσ, -. Ο μεταςχθματιςμόσ του περιγραφζα ςτο τριϊν διαςτάςεων διάνυςμα βαςίηεται ςτισ παρακάτω εξιςϊςεισ: ( ) (5.1) (5.2) ( ) (5.3) ι ( ) (5.4) ( ) ( ) (5.5) ι ( ) (5.6) Το είναι θ κζςθ του ιςτογράμματοσ του περιγραφζα και ( ) είναι θ νζα κζςθ τθσ τιμισ του ςτο τριϊν διαςτάςεων διάνυςμα. Αρχικά, οι τιμζσ του διανφςματοσ είναι ίςεσ με τισ τιμζσ των αντίςτοιχων κζςεων του περιγραφζα τθσ εικόνασ ερϊτθμα. α) β) Εικόνα 21 α) Σο τριϊν διαςτάςεων διάνυςμα β) Οι μεταβολζσ των τιμϊν του ςτοιχείου και των ςχετιηομζνων με αυτό ςτοιχείων. Πταν ο χριςτθσ επιλζγει μία ςυναφι εικόνα από τα αποτελζςματα ανάκτθςθσ, θ τιμι τθσ κάκε κζςθσ του ιςτογράμματοσ του περιγραφζα τθσ επιλεγόμενθσ εικόνασ μεταβάλλει τθν αντίςτοιχθ τιμι του διανφςματοσ με παρόμοιο τρόπο όπωσ πραγματοποιείται θ διαδικαςία εκπαίδευςθσ του αυτό-οργανωμζνου νευρωνικοφ Kohonen Self Organized Featured Map (KSOFM) [KOH97;KOH90] : 46 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια

47 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια Κεφάλαιο 5 ( ) ( ) ( ). ( )/ (5.7) Ππου είναι το μεταςχθματιςμζνο ιςτόγραμμα του περιγραφζα τθσ επιλεγόμενθσ λζξθσ από τον χριςτθ ςε ζνα τριϊν διαςτάςεων διάνυςμα με βάςθ τθν Εξ. (5.1). Ζτςι οι τιμζσ του «πλθςιάηουν» τισ νζεσ τιμζσ που προκφπτουν από το διάνυςμα. Κάκε φορά που ζνασ χριςτθσ επιλζξει μία ςυναφι εικόνα, μια εποχι ξεκινά. Αυτι θ εποχι τελειϊνει όταν όλα τα ςτοιχεία του διανφςματοσ τθσ επιλεγόμενθσ ςυναφισ εικόνασ χρθςιμοποιθκοφν για τθ μεταβολι των αντίςτοιχων τιμϊν του διανφςματοσ ςφμφωνα με τθν εξίςωςθ (5.7). Θ ςυνάρτθςθ ( ) διαδραματίηει τον αντίςτοιχο ρόλο τθσ ςυνάρτθςθσ μάκθςθσ του KSOFM και ορίηει τον ρυκμό των μεταβολϊν των ςτοιχείων του διανφςματοσ. Επιπλζον, θ ςυνάρτθςθ αυτι δεν είναι ςτακερι αλλά μειϊνεται κάκε φορά που ο χριςτθσ επιλζγει μία καινοφργια ςυναφι εικόνα ςφμφωνα με τθν εξίςωςθ: ( ) ( ) (5.8) Στθν παροφςα διδακτορικι διατριβι:,,, -,. Με βάςθ τθν εξ, (5.8), θ ( ) είναι μία ςυνάρτθςθ μείωςθσ, θ οποία παίρνει τιμζσ ςτο διάςτθμα με. Επιπλζον, κάκε άλλο ςτοιχείο του διανφςματοσ (εκτόσ του ) μεταβάλει επίςθσ τισ τιμζσ του ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ) ( ) ( ) ( ). ( )/ (5.9), -, -, - Θ ςυνάρτθςθ ( ) διαδραματίηει τον αντίςτοιχο ρόλο τθσ ςυνάρτθςθσ γειτονίασ του KSOFM και ορίηει το ρυκμό αναπροςαρμογισ των τιμϊν των ςχετιηόμενων ςτοιχείων ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ) { (5.10) Θ Εξ. (5.9) προςπακεί να διορκϊςει τα λάκθ του περιγραφζα (π.χ. λόγω κβαντοποίθςθσ) κακϊσ αναπροςαρμόηει τισ τιμζσ των κζςεων του ίδιου χρϊματοσ που κακορίηεται από το αλλά ςτισ υπόλοιπεσ περιοχζσ υφισ (μζςου του άξονα ) κακϊσ και τισ άλλεσ παραλλαγζσ του ίδιου χρϊματοσ οι οποίεσ ςυναντάται ςτθν ίδια περιοχι υφισ (μζςου του άξονα ). Οι μεταβολζσ των παραπάνω τιμϊν γίνεται με τζτοιο τρόπο ϊςτε να προςεγγίηουν τισ Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 47

Κεφάλαιο 5 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 48 τιμζσ του τθσ επιλεγόμενθσ ςυναφισ εικόνασ. Θ Εικόνα 21(β) απεικονίηει τισ μεταβολζσ των τιμϊν των ςχετιηόμενων ςτοιχείων. Ο ρυκμόσ αναπροςαρμογισ των χρωμάτων που ανικουν ςτισ υπόλοιπεσ περιοχζσ υφισ είναι ςτακερόσ και εξαρτάται από τον αρικμό των χρωμάτων ( ) που περιζχονται ςε αυτζσ. Ο ρυκμόσ αναπροςαρμογισ των παρόμοιων παραλλαγϊν ενόσ βαςικοφ χρϊματοσ δεν είναι ςτακερόσ αλλά μειϊνεται αντιςτρόφωσ ανάλογα με τθν απόςταςθ των κζςεων ςτο διάνυςμα του βαςικοφ χρϊματοσ και τθσ παραλλαγισ του ( ). Επιπλζον, ο ρυκμόσ εξαρτάται και από το πλικοσ των βαςικϊν χρωμάτων ( ) που περιζχονται ςε μία περιοχι υφισ. Ο τελικόσ περιγραφζασ που ερωτά τθ βάςθ των εικόνων ςχθματίηεται από τισ τιμζσ των τριϊν διαςτάςεων διάνυςμα ςφμφωνα με τθν Εξ. (5.1). Θ παραπάνω διαδικαςία επαναλαμβάνεται κάκε φορά που ο χριςτθσ επιλζγει μία ςυναφι εικόνα. Θ Εικόνα 22 απεικονίηει ολόκλθρθ τθ διαδικαςία του προτεινόμενου αλγόρικμου ανάδραςθσ με βάςθ τθ ςυνάφεια. Ο Χρήςτησ Επιλέγει την Εικόνα Ερώτημα Ο Περιγραφέασ τησ Εικόνασ Ερώτημα Αρχικοποίηςη του διανύςματοσ W Δημιουργία του Νέου Περιγραφέα Ερώτημα από το Διάνυςμα W Εμφάνιςη των Αποτελεςμάτων Ανάκτηςησ ςτον Χρήςτη Μεταβολή των Τιμών του διανύςματοσ W Ο Χρήςτησ Επιλέγει Συναφή Εικόνα από τα Αποτελέςματα Μεταςχηματιςμόσ ςτο διάνυςμα X Εικόνα 22 Σο διάγραμμα ροισ τθσ προτεινόμενθσ τεχνικισ ανάδραςθσ με βάςθ τθ ςυνάφεια. 5.4 Υλοποίηςη Υλοποιικθκε ζνα ολοκλθρωμζνο ςφςτθμα ανάκτθςθσ εικόνων για το διαδίκτυο που χρθςιμοποιεί τουσ περιγραφείσ που παρουςιάςτθκαν κακϊσ και τθν προτεινόμενθ τεχνικι ανάδραςθσ με βάςθ τθ ςυνάφεια. Θ θλεκτρονικι διεφκυνςθ τθσ εφαρμογισ είναι: http://www.anaktisi.net θ οποία απεικονίηεται ςτθν Εικόνα 23(α). Θ Εικόνα 23(β) παρουςιάηει τθ δομι τθσ υλοποιθμζνθσ εφαρμογισ. Ο χριςτθσ ζχει τθ δυνατότθτα να επιλζξει τθν εικόνα - ερϊτθμα είτε από τθν περιοχι που προβάλλονται οι εικόνεσ των βάςεων είτε να χρθςιμοποιιςει μία δικιά του μζςω του ανάλογου εργαλείου. Επιπλζον, προςφζρονται δφο επιπλζον τρόποι περιγραφισ τθσ εικόνασ ερϊτθμα (ςχεδιάηοντάσ τθν ι περιγράφοντάσ τθ με λζξεισ κλειδιά), οι οποίεσ ακόμα βρίςκονται ςε ερευνθτικό ςτάδιο. 48 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια

49 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια Κεφάλαιο 5 Στθν εφαρμογι ζχουν ειςαχκεί δϊδεκα βάςεισ εικόνων για τθν αξιολόγθςθ των περιγραφζων και τθσ προτεινόμενθσ τεχνικισ τθσ ανάδραςθσ με βάςθ τθ ςυνάφεια. Αυτζσ είναι οι: Wang [WAN01] (1000 εικόνεσ), MIR flickr [HUI08] (25.000 εικόνεσ), flickr (103746 εικόνεσ), MPEG-7 CCD (5473 εικόνεσ), UCID [SCH04] (1338 εικόνεσ), Nister [NIS06](10200 εικόνεσ), Television (3520 εικόνεσ), Rummager (9680 εικόνεσ), Paintings (1771 εικόνεσ), Chinese Art (3646 εικόνεσ), Textures Collection (2862 εικόνεσ), Cars (1051 εικόνεσ). α) β) Εικόνα από τον Χριςτθ Σκίτςο Δείγμα από Βάςθ Δεδομζνων Λζξεισ - Κλειδιά Υπολογιςμόσ των Αποτελεςμάτων Ανάκτθςθσ ΚΥΦΘ ΜΝΘΜΘ Ραρουςίαςθ των Αποτελεςμάτων Ανάκτθςθσ ςτον Χριςτθ ΒΑΗ ΕΙΚΟΝΩΝ Επιλογι Συναφισ Εικόνασ από τον Χριςτθ Υπολογιςμόσ Καινοφργιων Αποτελεςμάτων Ανάκτθςθσ Εικόνα 23 α) Η οπτικι απεικόνιςθ τθσ υλοποιθμζνθσ εφαρμογισ β) Η δομι τθσ εφαρμογισ. Άξια αναφοράσ είναι θ υλοποίθςθ μίασ κρυφισ μνιμθσ (cache) μεταξφ τθσ εφαρμογισ και τθσ βάςθσ δεδομζνων ϊςτε να αυξθκεί θ ταχφτθτα τθσ ανάκτθςθσ εικόνων. Το περιεχόμενο τθσ κρυφισ μνιμθσ κακορίηεται από τθ ςυχνότθτα χριςθσ τθσ κάκε βάςθσ εικόνων. Τζλοσ θ εφαρμογι αναπτφχκθκε ςτα πλαίςια τθσ πλατφόρμασ Microsoft.NET 3.5 με γλϊςςα προγραμματιςμοφ τθν C# και απαιτεί ζναν ςχετικά πρόςφατο φυλλομετρθτι (browser) για τθ χριςθ τθσ (Mozilla Firefox 2+, Microsoft Internet Explorer 7+). Επίςθσ χρθςιμοποιεί τισ τεχνολογίεσ AJAX, Adobe Flash και Microsoft Silverlight για τθν αλλθλεπίδραςθ με τον χριςτθ. 5.5 Ρειραματικά Αποτελζςματα Για τθν αξιολόγθςθ του προτεινόμενου αλγόρικμου ανάδραςθσ με βάςθ τθ ςυνάφεια χρθςιμοποιικθκαν δφο γνωςτζσ βάςεισ εικόνων: θ WANG [WAN97] και θ MPEG-7 CCD. H WANG είναι ζνα υποςφνολο 1000 επιλεγόμενων εικόνων από τθ βάςθ εικόνων τθσ Corel και είναι χωριςμζνθ ςε 10 κλάςεισ των 100 εικόνων θ κακεμία. Θ Common Color Dataset (MPEG-7 CCD) περιζχει 5000 εικόνεσ και ζνα ςφνολο 50 κοινϊν ερωτθμάτων, τα οποία ορίηονται από ζνα ςφνολο από ground truth εικόνων. Θ CCD δθμιουργικθκε ςτα πλαίςια του MPEG-7 με ςκοπό τθν αξιολόγθςθ των δικϊν τουσ περιγραφζων και περιζχει τθλεοπτικζσ και ακλθτικζσ εκπομπζσ κακϊσ και δελτία ειδιςεων. Θ Εικόνα 24(α) απεικονίηει τισ βελτιϊςεισ που επιτυγχάνονται με τθν προτεινόμενθ τεχνικι ανάδραςθσ με βάςθ τθ ςυνάφεια ςτθ βάςθ WANG μετά από μία, δφο και τρεισ Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 49

Κεφάλαιο 5 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια 50 επαναλιψεισ. Θ Εικόνα 24(β) απεικονίηει τισ βελτιϊςεισ των αποτελεςμάτων ανάκτθςθσ ςτθ βάςθ MPEG-7 CCD. Ππωσ φαίνεται και από τα πειραματικά αποτελζςματα, θ προτεινόμενθ τεχνικι βελτιϊνει το ανακτϊμενο αποτζλεςμα ςθμαντικά. α) 0,35 0,3 0,25 0,2 0,15 CEDD FCTH C.CEDD C.FCTH 0,1 Αρχικά Αποτελζςματα 1θ Επανάλθψθ 2θ Επανάλθψθ 3θ Επανάλθψθ β) 0,2 0,16 0,12 0,08 0,04 CEDD FCTH C.CEDD C.FCTH 0 Αρχικά Αποτελζςματα 1θ Επανάλθψθ 2θ Επανάλθψθ 3θ Επανάλθψθ Εικόνα 24 Η βελτίωςθ των αρχικϊν αποτελεςμάτων για κάκε περιγραφζα με βάςθ το μετρικό μζγεκοσ ANMRR χρθςιμοποιϊντασ τον προτεινόμενο αλγόρικμο ανάδραςθσ με βάςθ τθ ςυνάφεια ςτθ βάςθ: (α) Wang (β) MPEG 7 CCD 5.6 Συμπεράςματα Ραρουςιάςτθκε μία τεχνικι ανάδραςθσ με βάςθ τθ ςυνάφεια, θ οποία ςτθρίηεται ςε τζςςερισ περιγραφείσ όμοιουσ με αυτοφσ του MPEG-7. Πταν ο χριςτθσ επιλζγει μία εικόνα από τα αποτελζςματα τθσ αρχικισ ανάκτθςθσ, το διάνυςμα του περιγραφζα τθσ αλλάηει τισ τιμζσ ενόσ μεταςχθματιςμζνου διανφςματοσ ςτο οποίο ςτθν ουςία αποκθκεφονται οι επιλογζσ του χριςτθ. Τα καινοφργια αποτελζςματα ανάκτθςθσ εικόνων δθμιουργοφνται κεωρϊντασ ωσ περιγραφζα-ερϊτθμα αυτόν που είναι αποκθκευμζνοσ ςτο μεταςχθματιςμζνο διάνυςμα. Θ προτεινόμενθ τεχνικι βελτιϊνει τα αποτελζςματα τθσ αρχικισ ανάκτθςθσ ενϊ ταυτόχρονα είναι εφκολθ ςτθν υλοποίθςθ με μικρό υπολογιςτικό κόςτοσ. 50 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ Συνάφεια

6 ΕΝΣΟΠΙΜΟ ΚΕΙΜΕΝΟΤ Ε ΕΙΚΟΝΕ ΖΓΓΡΑΦΑ Περιεχόμενα ΠΕΡΙΛΗΨΗ Ειςαγωγι 52 Δομι τθσ Ρροτεινόμενθσ Τεχνικισ 53 Η Δθμιουργία Ρλαιςίων 53 Δθμιουργία του Ρεριγραφζα Ρλαιςίου 55 Εντοπιςμόσ των Ρλαιςίων Κειμζνου 57 Υλοποίθςθ 57 Ρειραματικά Αποτελζςματα 60 Συμπεράςματα 62 Στο κεφάλαιο αυτό παρουςιάηεται μία μζκοδοσ εντοπιςμοφ ομοιόμορφου κειμζνου, θ οποία ςτθρίηεται ςτα δομικά ςυςτατικά των εγγράφων και ςτα Support Vector Machines. Αρχικά περιγράφεται θ δθμιουργία των πλαιςίων με τθ χριςθ των Συνδεμζνων Αντικειμζνων. Ζπειτα παρουςιάηεται θ δθμιουργία του περιγραφζα πλαιςίου και θ τεχνικι μείωςθσ του μεγζκουσ του. Η εφρεςθ του κειμζνου ολοκλθρϊνεται με τθν χριςθ των Support Vector Machines, τα οποία διαχωρίηουν ποια πλαίςια περιζχουν κείμενο και ποια όχι. Τζλοσ περιγράφεται θ υλοποίθςθ τθσ προτεινόμενθσ τεχνικισ και τα αποτελζςματα των πειραμάτων.

Κεφάλαιο 6 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 52 6.1 Ειςαγωγή Σ τθ ςθμερινι θλεκτρονικι εποχι παράγονται τεράςτιεσ ποςότθτεσ ψθφιακϊν εγγράφων. Για να μπορζςουν να αξιοποιθκοφν αποτελεςματικά από ςυςτιματα όπωσ θ Οπτικι Αναγνϊριςθ Χαρακτιρων (OCR) ι ανάκτθςθ εγγράφων με τθν τεχνικι του εντοπιςμοφ των λζξεων, κα πρζπει να εντοπιςτεί το κείμενο που περιζχουν. Θ ερευνθτικι κοινότθτα προςπακεί ςυνεχϊσ να αντιμετωπίςει αυτό το πρόβλθμα με ποικίλουσ και διαφορετικοφσ τρόπουσ. Υπάρχουν οι από Ράνω προσ τα Κάτω τεχνικζσ [ING91;CHE91;HAJ95;HAJ95A] οι οποίεσ χρθςιμοποιοφν επαναλθπτικοφσ αλγόρικμουσ για να τμθματοποιιςουν ολόκλθρθ τθν εικόνα ςε μικρζσ περιοχζσ. Το πλεονζκτθμα αυτϊν των μεκόδων είναι θ ταχφτθτά τουσ αφοφ δεν περιζχουν περίπλοκεσ διεργαςίεσ όμωσ δεν μποροφν να χειριςτοφν ςωςτά ζγγραφα που ζχουν περίπλοκεσ διαρρυκμίςεισ (layout). Άλλεσ τεχνικζσ, οι οποίεσ ονομάηονται τεχνικζσ από Κάτω προσ τα Ράνω [STR02;JAI98] τμθματοποιοφν τθν εικόνα ςε μικρζσ περιοχζσ και μετά τισ ενϊνουν βάςει κάποιων κριτθρίων. Αυτζσ οι τεχνικζσ ζχουν τθν ικανότθτα να εντοπίςουν το κείμενο ςε εικόνεσ με περίπλοκεσ διαρρυκμίςεισ αλλά είναι αρκετά πιο αργζσ από τθν προθγοφμενθ κατθγορία μεκόδων. Εφαρμογι ενόσ φίλτρου Μεςαίασ Σιμισ και μίασ μεκόδου δυαδικοποίθςθσ Εντοπιςμόσ, Ενοποίθςθ και Εξαγωγι Πλαιςίων Eξαγωγι ι Εντοπιςμόσ των Πλαιςίων τθσ Εικόνασ που περιζχουν Κείμενο και Εμφάνιςισ τουσ ςτον Χριςτθ Δθμιουργία Περιγραφζα για κάκε Πλαίςιο Εντοπιςμόσ των Πλαιςίων που περιζχουν Κείμενο με τα Support Vector Machines Εικόνα 25 Σο διάγραμμα ροισ τθσ προτεινόμενθσ τεχνικισ εντοπιςμοφ κειμζνου ςε εικόνεσ - ζγγραφα. Θ προτεινόμενθ μζκοδοσ εντοπίηει και εξάγει ομοιόμορφο κείμενο ςε ζγγραφα εικόνεσ χρθςιμοποιϊντασ τθν τεχνικι τθσ ανάλυςθσ των ςυνδεμζνων αντικειμζνων για τθν εξαγωγι των αντικειμζνων, Δομθμζνα Συςτατικά Εγγράφων (Document Structure Elements) για τθ δθμιουργία ενόσ περιγραφζα των αντικειμζνων και Support Vector Machines (SVMs) για τον εντοπιςμό αυτϊν που αντιπροςωπεφουν κείμενο. Θ τεχνικι που προτείνεται ζχει τθν ικανότθτα να προςαρμόηεται ςτισ ιδιαιτερότθτεσ τθσ κάκε βάςθσ εγγράφων εικόνων κακϊσ τα χαρακτθριςτικά που απαρτίηουν τον περιγραφζα ρυκμίηονται ανάλογα. Ρροςφζρει τθ δυνατότθτα τθσ αφξθςθσ ι τθσ μείωςθσ τθσ ταχφτθτασ εκτζλεςθσ τθσ τεχνικισ εντοπιςμοφ 52 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα

53 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα Κεφάλαιο 6 κειμζνου μζςω τθσ μεταβολισ του μεγζκουσ του περιγραφζα. 6.2 Δομή τησ Ρροτεινόμενησ Τεχνικήσ Θ Εικόνα 25 απεικονίηει το διάγραμμα ροισ τθσ προτεινόμενθσ τεχνικισ. Εφόςον εφαρμοςτοφν ζνα ςφνολο μεκόδων προ-επεξεργαςίασ (φίλτρο μζςθσ τιμισ, δυαδικοποίθςθ), τα αρχικά πλαίςια αντικειμζνων εντοπίηονται χρθςιμοποιϊντασ τθ μζκοδο τθσ Ανάλυςθσ των Συνδεδεμζνων Αντικειμζνων (Connected Component Analysis). Ζπειτα αυτά τα πλαίςια διευρφνονται και ενϊνονται αναπαριςτϊντασ γραμμζσ κειμζνου. Το επόμενο βιμα αποτελείται από τθ δθμιουργία ενόσ περιγραφζα από ζνα ςφνολο δομθμζνων χαρακτθριςτικϊν (κακορίηονται από μία διαδικαςία που ονομάηεται Feature Standard Deviation Analysis of Structure Elements) τα οποία εξάγονται από τα παραπάνω ενωμζνα πλαίςια. Ο παραπάνω περιγραφζασ ειςάγεται ςε ζνα εκπαιδευμζνο ςφςτθμα Support Vector Machines (SVM), το οποίο ορίηει αν το αντίςτοιχο πλαίςιο περιζχει κείμενο ι όχι. 6.3 Η Δημιουργία Ρλαιςίων Ο πρωταρχικόσ ςτόχοσ τθσ δθμιουργίασ των πλαιςίων είναι ο εντοπιςμόσ και εξαγωγι όλων των αντικειμζνων που περιζχονται ςε μία εικόνα - ζγγραφο. Αυτό πετυχαίνεται χρθςιμοποιϊντασ τθν τεχνικι των Συνδεμζνων Αντικειμζνων. Αρχικά εφαρμόηεται ζνα ςτάδιο προ-επεξεργαςίασ, το οποίο αποτελείται από ζνα φίλτρο Μεςαίασ Τιμισ για μειωκεί ο κόρυβοσ (π.χ. για μθ ςωςτά ςυντθρθμζνα ζγγραφα) και μία μζκοδοσ δυαδικοποίθςθσ (Εικόνα 26(β)). Το φίλτρο Μεςαίασ Τιμισ είναι μία μζκοδοσ επεξεργαςίασ μθ γραμμικοφ ςιματοσ που αναπτφχκθκε από τον Tukey [TUK77] και είναι χριςιμο για τθ μείωςθ κορφβου ςτισ εικόνεσ [PRA07]. Θ δυαδικοποίθςθ πραγματοποιικθκε με τθν γνωςτι μζκοδο του Otsu [OTS79] θ οποία λειτουργεί μζςου του ιςτογράμματοσ τθσ εικόνασ ελαχιςτοποιϊντασ τθ διακφμανςθ μεταξφ των κλάςεων που αντιςτοιχοφν ςτο φόντο και ςτο προςκινιο. α) β) γ) δ) ε) Εικόνα 26 Σα βιματα δθμιουργίασ των πλαιςίων: (α) Σο αρχικό ζγγραφο (β) Μετά τθν προεπεξεργαςία του (γ) Σα υνδεδεμζνα Αντικείμενα (δ) Σα διευρυμζνα υνδεδεμζνα Αντικείμενα (ε) Σα τελικά πλαίςια μετά τθ ςυνζνωςθ των επικαλυπτόμενων υνδεδεμζνων Αντικειμζνων Ζπειτα, όλα τα αντικείμενα τισ εικόνασ εγγράφου εντοπίηονται με τθν τεχνικι των Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 53

Κεφάλαιο 6 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 54 Συνδεμζνων Αντικειμζνων (Εικόνα 27(γ)). Τα αντικείμενα αυτά ονομάηονται Συνδεμζνα Αντικείμενα (ΣΑ). Τα βιματα του αλγορίκμου δθμιουργίασ των κατάλλθλων πλαιςίων για το επόμενο ςτάδιο τθσ προτεινόμενθσ μεκόδου είναι: Βιμα 1. Τα πολφ μεγάλα και πολφ μικρά ΣΑ (εάν υπάρχουν) απορρίπτονται ϊςτε να αυξθκεί θ ταχφτθτα εξαγωγισ των χαρακτθριςτικϊν που λαμβάνει ςτο επόμενο ςτάδιο. Αυτό επιτυγχάνεται με τθν απόρριψθ των ΣΑ που ικανοποιοφν τισ παρακάτω ςυνκικεσ: Ππου το φψοσ του ΣΑ και το φψοσ τθσ εικόνασ του εγγράφου. (6.1) Βιμα 2. Δθμιουργία ιςτογράμματοσ των υψϊν των ΣΑ όπωσ θ Εικόνα 27(α) απεικονίηει. Βιμα 3. Εφαρμόηεται ζνα φίλτρο μζςθσ τιμισ για να εξομαλυνκεί το ιςτόγραμμα (Εικόνα 27(β)). Βιμα 4. Εφρεςθ των κορυφϊν ( ) του ιςτογράμματοσ. Βιμα 5. Εφρεςθ τθσ μζςθσ τιμισ των τιμϊν των κορυφϊν: πλικοσ των κορυφϊν. ( ) όπου είναι το α) 1200 1000 800 600 400 Λςτόγραμμα Φψουσ των ΣΑ 200 0 1 11 21 31 41 51 61 β) 1000 800 600 400 200 Εξομαλυμζνο Λςτόγραμμα Φψουσ των ΣΑ Μζςθ Τιμι των Κορυφϊν 0 1 11 21 31 41 51 61 Εικόνα 27 (α) Σο ιςτόγραμμα φψουσ των Α (β) Σο εξομαλυμζνο ιςτόγραμμα φψουσ των Α και θ μζςθ τιμι των κορυφϊν του ιςτογράμματοσ. Εδϊ οπότε Βιμα 6. Εφρεςθ του μζγιςτου φψουσ ΣΑ μεγαλφτερο από τθ μζςθ τιμι το οποίο ορίηουν οι κορυφζσ που ζχουν πλικοσ ςφμφωνα με: * + * ( ) + (6.2) 54 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα

55 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα Κεφάλαιο 6 Για παράδειγμα, ςτθν Εικόνα 27(β) το φψοσ είναι., οπότε το μζγιςτο Βιμα 7. Διεφρυνε αριςτερά και δεξιά τα αρχικά πλαίςια των ΣΑ κατά όπωσ απεικονίηεται ςτθν Εικόνα 26(δ). Βιμα 8. Ζχει αποδειχκεί [KAV03] ότι το φψοσ μίασ λζξθσ μπορεί να φτάςει το διπλάςιο του μζςου φψουσ των χαρακτιρων λόγο τθσ παρουςίασ των άνω και κάτω κονδυλιϊν των χαρακτιρων. Οπότε, ςτθ χειρότερθ περίπτωςθ το φψοσ αντιςτοιχεί ςτο φψοσ των χαρακτιρων που δεν ζχουν κονδφλια. Οπότε είναι αςφαλζσ να ςυγχωνευτοφν τα επικαλυπτόμενα ΣΑ τα οποία ικανοποιοφν τισ παρακάτω ςυνκικεσ ζτςι ϊςτε να αναπαριςτοφν γραμμζσ κειμζνου (Εικόνα 26(ε)): Ππου και είναι τα φψθ των δφο επικαλυπτόμενων διευρυμζνων ΣΑ. Οπότε, το τελικό αποτζλεςμα είναι θ δθμιουργία πλαιςίων που προςπακοφν να αναπαραςτιςουν γραμμζσ κειμζνου. 6.4 Δημιουργία του Ρεριγραφζα Ρλαιςίου Το επόμενο ςτάδιο αςχολείται με τθν εξαγωγι των χαρακτθριςτικϊν από τα πλαίςια τα οποία καταςκευάηουν ζναν περιγραφζα για κακζνα πλαίςιο με τζτοιο τρόπο ϊςτε να μεγιςτοποιείται θ διαχωριςτικότθτα μεταξφ αυτϊν που περιζχουν και αυτϊν που δεν περιζχουν κείμενο. Τα χωρικά αυτά χαρακτθριςτικά δθμιουργοφνται από το πλικοσ κατάλλθλων Δομθμζνων Συςτατικϊν Εγγράφου (ΔΣΕ) (Document Structure Elements) που περιζχονται ςε κάκε πλαίςιο. α) β) (6.3) Εικόνα 28 (α) Η ςειρά των εικονοςτοιχείων των ΔΕ (β) Η οπτικι απεικόνιςθ του ΔΕ: Αναλυτικότερα, ζνα ΔΣΕ είναι μία οποιοδιποτε δυαδικι μάςκα όπωσ απεικονίηεται ςτθν Εικόνα 28. Οπότε είναι φανερό ότι υπάρχουν ςυνολικά ΔΣΕ. Ζνασ ακζραιοσ αρικμόσ αντιςτοιχίηεται ςε κάκε ζνα ΔΣΕ ςφμφωνα με (Εικόνα 28(α)). Για ζνα πλαίςιο, εάν είναι ο αρικμόσ των ςτθλϊν και ο αρικμόσ των γραμμϊν τότε το πλαίςιο περιζχει ( )( ) ΔΣΕ. Ο αρχικόσ περιγραφζασ του πλαιςίου είναι το ιςτόγραμμα του πλικουσ των ΔΣΕ που περιζχονται ςε αυτό και υπολογίηεται ςφμφωνα με τθν παρακάτω εξίςωςθ: Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 55

Κεφάλαιο 6 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 56 ( ) { ( ) ( ), ( )( )-,, -,, - (6.4) Τα ΔΣΕ που αντιςτοιχοφν ςτα και αφαιροφνται γιατί ανταποκρίνονται ςε κακαρό φόντο και ςε αντικείμενα του εγγράφου, αντιςτοίχωσ. Ζπειτα το παραπάνω ιςτόγραμμα κανονικοποιείται ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ) ( ) ( ) (6.5) Το ( ) είναι ζνα διάνυςμα 510 διαςτάςεων και παίηει τον ρόλο του περιγραφζα του πλαιςίου Επειδι όμωσ το μζγεκοσ του περιγράφεα είναι πολφ μεγάλο, το οποίο ζχει επίπτωςθ ςτισ απαιτιςεισ τθσ μεκόδου ςε υπολογιςτικι ιςχφ και μνιμθ εφαρμόηεται μία μζκοδοσ μείωςισ του που ονομάηεται Feature Standard Deviation Analysis of Structure Elements (FSDASE). Εάν υπάρχουν πλαίςια κειμζνου και πλαίςια μθ κειμζνου τότε τα ςτάδια του FSDASE αλγορίκμου είναι: τάδιο 1. Εφρεςθ τθσ Τυπικισ Απόκλιςθσ ( ) του ( ) για τα πλαίςια για κάκε ΔΣΕ. τάδιο 2. Ρραγματοποιείται θ ίδια διαδικαςία για τα πλαίςια: Εφρεςθ τθσ Τυπικισ Απόκλιςθσ ( ) του ( ) για τα πλαίςια για κάκε ΔΣΕ. τάδιο 3. Κανονικοποίθςθ των ( ) και ( ): ( ) ( ) και ( ) ( ) (6.6) τάδιο 4. Οριςμόσ ενόσ διανφςματοσ ( ) ωσ: ( ) ( ) ( ) (6.7) τάδιο 5. Θ πρϊτθ κζςθ του νζου περιγραφζα πλαιςίου αντιςτοιχεί ςτο ΔΣΕ, το οποίο ζχει τθ μζγιςτθ τιμι ςτο διάνυςμα ( ). Θ δεφτερθ κζςθ αντιςτοιχεί ςτο ΔΣΕ, το οποίο ζχει τθ δεφτερθ μζγιςτθ τιμι ςτο διάνυςμα ( ). Ο ςτόχοσ του FSDASE είναι θ εφρεςθ αυτϊν των ΔΣΕ, τα οποία ζχουνε μζγιςτθ Τυπικι Απόκλιςθ ςτα πλαίςια κειμζνου και ελάχιςτθ Τυπικι Απόκλιςθ ςτα μθ πλαίςια κειμζνου κακϊσ και το αντίςτροφο. Οπότε ταξινομεί τα ΔΣΕ με τθν ικανότθτά τουσ να προςδιορίηουν ποια πλαίςια περιζχουν κείμενο και ποια όχι. Επιπλζον, προςφζρει τθ δυνατότθτα μείωςθσ των αρχικϊν 510 ΔΣΕ ςε οποιοδιποτε αρικμό. Με βάςθ τα αποτελζςματα αξιολόγθςθσ (Ενότθτα 6.7) προτείνεται ο αρικμόσ αυτόσ να είναι ο 128. Άξια αναφοράσ είναι θ δυνατότθτα του περιγραφζα να αλλάηει και να προςαρμόηεται ςτισ απαιτιςεισ τθσ κάκε βάςθσ εγγράφων εικόνων. Στθν ενότθτα 6.7 παρουςιάηεταιι ζνα ςφνολο πειραμάτων που δείχνουν τθν επίδραςθ 56 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα

57 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα Κεφάλαιο 6 του μεγζκουσ του περιγραφζα τόςο ςτθν ταχφτθτα όςο και ςτο ποςοςτό επιτυχίασ τθσ προτεινόμενθσ μεκόδου. Είναι φανερό ότι απαιτείται ζνα ςφνολο δεδομζνων εκπαίδευςθσ για να κακοριςτοφν τα κατάλλθλα ΔΣΕ. Πμωσ, αυτό δεν προκαλεί πρόβλθμα γιατί τζτοια δεδομζνα ιδθ απαιτοφνται για τθν εκπαίδευςθ των SVMs. Οπότε ο τελικόσ περιγραφζασ είναι ζνασ 128 (ι οποιοδιποτε άλλοσ αρικμόσ επιλεγεί) κζςεων ιςτόγραμμα που αντιςτοιχεί ςτο ( ) τθσ εξίςωςθσ (6.5) των 128 ΔΣΕ που περιζχει ςε ζνα πλαίςιο. 6.5 Εντοπιςμόσ των Ρλαιςίων Κειμζνου Το επόμενο ςτάδιο είναι ο εντοπιςμόσ των πλαιςίων που περιζχουν κείμενο από εκείνα που δεν περιζχουν με βάςθ τον περιγραφζα τουσ. Αυτό επιτυγχάνεται μζςω των Support Vector Machines (SVMs). Αρχικά από τθ βάςθ εγγράφων επιλζγεται ζνα αντιπροςωπευτικό ςφνολο εγγράφων και ςε αυτά εντοπίηονται τα πλαίςια τουσ από τα οποία εξάγονται οι περιγραφείσ. Ζπειτα, ορίηονται χειροκίνθτα ποια από τα παραπάνω πλαίςια περιζχουν κείμενο και ποια όχι. Οπότε, τα ιςτογράμματα των περιγραφζων των πλαιςίων χρθςιμοποιοφνται ωσ δεδομζνα εκπαίδευςθσ ςτα SVMs. Ππωσ παρουςιάςτθκε ςτθν Ενότθτα 3.3, θ δυςκολία των SVMs ζγκειται ςτθν εφρεςθ των κατάλλθλων τιμϊν των παραμζτρων. Ο Ρίνακασ 6 παρουςιάηει τισ τιμζσ των παραμζτρων που υπολογίςτθκαν με τον αλγόρικμο Parameter Estimation (Ενότθτα 3.3) για τισ δφο βάςεισ εγγράφων που χρθςιμοποιικθκαν κατά τθν αξιολόγθςθ τθσ προτεινόμενθσ μεκόδου. Πίνακασ 6. Οι τιμζσ των παραμζτρων των SVMs MediaTeam Document Database II 244,444 86,5 MediaTeam Document Database II με τεχνιτό κόρυβο 284,211 92,21 Τελικά, θ ζξοδοσ των εκπαιδευμζνων SVMs ταξινομεί κάκε καινοφργιο πλαίςιο ωσ κείμενο ι όχι. Το ςφςτθμα εξάγει αυτά τα πλαίςια από τθν αρχικι εικόνα ι τα εντοπίηει πάνω ςε αυτιν και παρουςιάηει το αποτζλεςμα ςτον χριςτθ. Θ Εικόνα 29 παρουςιάηει μερικά παραδείγματα εικόνων εγγράφων και το αποτζλεςμα τθσ προτεινόμενθσ μεκόδου εντοπιςμοφ κειμζνου ςε αυτζσ. 6.6 Υλοποίηςη Θ προτεινόμενθ τεχνικι εντοπιςμοφ κειμζνου ςε εικόνεσ ζγγραφα υλοποιικθκε με τθ χριςθ των Visual Studio 2008 και LibSVM [CHA09A]. Θ εφαρμογι που αναπτφχκθκε ςτθρίχκθκε ςτθν πλατφόρμα.νετ 3.5 τθσ Microsoft. Οι γλϊςςεσ προγραμματιςμοφ που χρθςιμοποιικθκαν ιτανε θ XAML/WPF (για τθν αλλθλεπίδραςθ με τον χριςτθ) και θ C#. Θ Εικόνα 30 παρουςιάηει τθν οπτικι απεικόνιςθ τθσ εφαρμογισ αυτισ. Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 57

Κεφάλαιο 6 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 58 (α) (β) (γ) (δ) 58 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα

59 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα Κεφάλαιο 6 Εικόνα 29 (ε) Παραδείγματα τθσ Προτεινόμενθσ Μεκόδου Εντοπιςμοφ Κειμζνου ςε Εικόνεσ Ζγγραφα (α) Σο αρχικό ζγγραφο (β) Σο εξαγόμενο αποτζλεςμα από τα SVMs (γ) Η αρχικι εικόνα (δ) Σο εξαγόμενα πλαίςια κειμζνου (ε) Η αρχικι εικόνα ζγγραφο (ςτ) Σα τελικά πλαίςια κειμζνου τονιςμζνα πάνω ςτθν αρχικι εικόνα ζγγραφο (ςτ) Εικόνα 30 Η οπτικι απεικόνιςθ τθσ υλοποιθμζνθσ εφαρμογισ. Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 59

(Δευτερόλεπτα) Κεφάλαιο 6 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 60 6.7 Ρειραματικά Αποτελζςματα Για τθν αξιολόγθςθ τθσ προτεινόμενθσ μεκόδου χρθςιμοποιικθκε θ βάςθ εγγράφων MediaTeam Oulu Document Database [SAU09;SAU99] θ οποία περιζχει 233 διαφόρων τφπων εγγράφων τα οποία περιζχουν ζνα μείγμα κειμζνου και εικόνων. Από αυτιν τθ βάςθ επιλζχκθκαν δζκα ζγγραφα ωσ δείγματα εκπαίδευςθσ για τα SVMs και τον αλγόρικμο FSDASE. Το πρϊτο πείραμα αξιολογεί τον αντίκτυπο του μεγζκουσ του περιγραφζα ςτο ποςοςτό επιτυχίασ. Το μζγεκοσ του περιγραφζα ( ) κακορίηεται από τα αντίςτοιχα ΔΣΕ των τιμϊν του διανφςματοσ ( ) που προκφπτει από τθν ζξοδο του αλγόρικμου FSDASE. Το ποςοςτό επιτυχίασ υπολογίηεται χρθςιμοποιϊντασ αρχικά ζναν περιγραφζα με μζγεκοσ ίςο με τθ μονάδα και ςυνεχίηει να αυξάνεται μζχρι το μζγιςτο 510. Θ Εικόνα 32(α) απεικονίηει το ποςοςτό επιτυχίασ τθσ προτεινόμενθσ μεκόδου ςε ςχζςθ με το μζγεκοσ του περιγραφζα πλαιςίου για τα ζγγραφα που χρθςιμοποιικθκαν ωσ δεδομζνα εκπαίδευςθσ. Θ Εικόνα 32(β) απεικονίηει το ίδιο αλλά για όλα τα ζγγραφα που περιζχονται ςτθ βάςθ. Τα αποτελζςματα δείχνουν ότι για μζγεκοσ περιγραφζα πλαιςίου πάνω από 128 κζςεων δεν προκαλείται μεγάλθ αλλαγι ςτο ποςοςτό επιτυχίασ κακϊσ θ ςχζςθ μεταξφ τουσ είναι λογαρικμικι. Το επόμενο πείραμα εκτιμάει τθ ςχζςθ μεταξφ του μεγζκουσ του περιγραφζα πλαιςίου και του χρόνου διαπεραίωςθσ τθσ προτεινόμενθσ τεχνικισ. Ο υπολογιςμόσ τθσ ςχζςθσ ζγινε με παρόμοιο τρόπο με το προθγοφμενο πείραμα. Θ Εικόνα 31 παρουςιάηει αυτιν τθ ςχζςθ θ οποία τείνει ςε γραμμικι. 12 11,6 11,2 10,8 10,4 10 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Μζγεκοσ Περιγραφζα Εικόνα 31 Ο χρόνοσ ολοκλιρωςθσ τθσ προτεινόμενθσ μεκόδου ςε ςχζςθ με το μζγεκοσ του περιγραφζα των πλαιςίων Επίςθσ, για να αξιολογθκεί θ προςαρμοςτικότθτα των ΔΣΕ ςτισ ιδιαιτερότθτεσ των βάςςεων εγγράφων, προςτζκθκε τεχνθτόσ κόρυβοσ ςε όλεσ τα ζγγραφα τθσ προθγοφμενθσ βάςθσ (MediaTeam Oulu Document Database). Με βάςθ δζκα εγγράφων εικόνων ωσ δεδομζνα εκπαίδευςθσ υπολογίηεται ξανά το διάνυςμα ( ) και εκπαιδεφονται τα SVMs. Θ Εικόνα 33(α) και θ Εικόνα 33(β) απεικονίηουν το ποςοςτό επιτυχίασ τθσ προτεινόμενθσ μεκόδου ςε ςχζςθ με το μζγεκοσ του περιγραφζα ςτα ζγγραφα εκπαίδευςθσ και ςε όλα τα ζγγραφα που 60 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα

Ποςοςτό Επιτυχίασ Ποςοςτό Επιτυχίασ 61 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα Κεφάλαιο 6 περιζχονται ςτθ βάςθ, αντίςτοιχα. Τα αποτελζςματα δείχνουν ότι είναι παρόμοια με αυτά τθσ κανονικισ βάςθσ MediaTeam Oulu Document Database. Τζλοσ θ Εικόνα 34 απεικονίηει μερικά παραδείγματα τθσ προτεινόμενθσ τεχνικισ εντοπιςμοφ κειμζνου για ζγγραφα που δθμιουργικθκαν από τθν Oulu Database προςκζτοντασ τεχνικό κόρυβο α) Ποςοςτό Επιτυχίασ ςτα Ζγγραφα Εκπαίδευςθσ 100 95 90 85 80 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Μζγεκοσ Περιγραφζα β) Ποςοςτό Επιτυχία ςε όλα τα Ζγγραφα 100 95 90 85 80 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Μζγεκοσ Περιγραφζα Εικόνα 32 Σο ποςοςτό επιτυχίασ του προτεινόμενου ςυςτιματοσ ςτθν MediaTeam Oulu Document Database ςε ςχζςθ με το μζγεκοσ του περιγραφζα των πλαιςίων: (α) για τα δεδομζνα/ζγγραφα εκπαίδευςθσ (β) για όλα τα ζγγραφα που περιζχονται ςτθ βάςθ δεδομζνων Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 61

Ποςοςτό Επιτυχίασ Ποςοςτό Επιτυχίασ Κεφάλαιο 6 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 62 α) Ποςοςτό Επιτυχίασ ςτα Ζγγραφα Εκπαίδευςθσ 100 95 90 85 80 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Μζγεκοσ Περιγραφζα β) Ποςοςτό Επιτυχία ςε όλα τα Ζγγραφα 100 95 90 85 80 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Μζγεκοσ Περιγραφζα Εικόνα 33 Σο ποςοςτό επιτυχίασ του προτεινόμενου ςυςτιματοσ ςτθν MediaTeam Oulu Document Database με τεχνθτό κόρυβο ςε ςχζςθ με το μζγεκοσ του περιγραφζα των πλαιςίων: (α) για τα δεδομζνα/ζγγραφα εκπαίδευςθσ (β) για όλα τα ζγγραφα που περιζχονται ςτθ βάςθ δεδομζνων 6.8 Συμπεράςματα Ραρουςιάςτθκε μία μζκοδο εντοπιςμοφ ομοιόμορφου κειμζνου, θ οποία ςτθρίηεται ςτα δομικά ςυςτατικά των εγγράφων και ςτα Support Vector Machines. Το κφριο πλεονζκτθμά τθσ είναι θ ικανότθτα τθσ να προςαρμόηεται ςτισ ιδιαιτερότθτεσ τθσ κάκε βάςθσ εγγράφων εικόνων χρθςιμοποιϊντασ μία τεχνικι μείωςθσ του μεγζκουσ του περιγραφζα με ςκοπό να επιλεχκοφν αυτά τα δομθμζνα ςυςτατικά που αυξάνουν τθ διαχωριςτικότθτα μεταξφ πλαιςίων που περιζχουν κείμενο και αυτϊν που δεν περιζχουν. Επίςθσ, παρουςιάςτθκε θ ςχζςθ του μεγζκουσ του περιγραφζα ςε ςχζςθ με το ποςοςτό επιτυχίασ αλλά και με τον χρόνο ολοκλιρωςθσ τθσ μεκόδου και παρατθρικθκε ότι θ ςχζςθ τουσ είναι λογαρικμικι και γραμμικι αντίςτοιχα. Τζλοσ, δθμιουργικθκε μία νζα βάςθ εικόνων προςκζτοντασ τεχνιτό κόρυβο ςτθν αρχικι βάςθ εικόνων με ςκοπό να αξιολογθκεί θ ικανότθτα τθσ FSDASE τεχνικισ να προςαρμόηει τα τθσ Δομθμζνα Συςτατικά Εγγράφου ςτισ ιδιαιτερότθτεσ τθσ βάςθ. Τα πειραματικά 62 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα

63 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα Κεφάλαιο 6 αποτελζςματα δείχνουν να το επιβεβαιϊνουν κακϊσ τα ποςοςτά επιτυχίασ ιτανε περίπου ίδια και ςτισ δφο βάςεισ. (α) (β) Εικόνα 34 (γ) Παραδείγματα τθσ Προτεινόμενθσ Μεκόδου Εντοπιςμοφ Κειμζνου ςε Εικόνεσ Ζγγραφα που ζχουν τεχνιτό κόρυβο (α) Σο αρχικό ζγγραφο (β) Σο εξαγόμενο αποτζλεςμα από τα SVMs (γ) Η αρχικι εικόνα (δ) Σο εξαγόμενα πλαίςια κειμζνου (δ) Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 63

Κεφάλαιο 6 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα 64 64 Εντοπιςμόσ Κειμζνου ςε Εικόνεσ Ζγγραφα

7 ΑΝΑΚΣΗΗ ΕΓΓΡΑΦΩΝ ΜΕ ΣΗΝ ΣΕΧΝΙΚΗ ΕΝΣΟΠΙΜΟΤ ΣΩΝ ΛΕΞΕΩΝ Περιεχόμενα ΠΕΡΙΛΗΨΗ Ειςαγωγι 66 Το Σφςτθμα Ανάκτθςθσ Εικόνων Εγγράφων (ΣΑΕΕ) 67 Το Στάδιο τθσ Ρρο-Επεξεργαςίασ 67 Κατάτμθςθ Λζξεων 67 Εξαγωγι των Χαρακτθριςτικϊν 68 Texture and Shape Representation Descriptor (TSRD) 72 Ανάκτθςθ Πμοιων Εγγράφων 72 Υλοποίθςθ 74 Αξιολόγθςθ 75 Συμπεράςματα 77 Σε αυτό το κεφάλαιο παρουςιάηεται ζνα ςφςτθμα ανάκτθςθσ εγγράφων εικόνων με τθν τεχνικι εντοπιςμοφ των λζξεων. Στθν Offline διαδικαςία, αφοφ τα ζγγραφα προ-επεξεργαςτοφν, εντοπίηονται τα όρια των λζξεων κα εξάγονται τα χαρακτθριςτικά από αυτζσ. Η Online διαδικαςία αποτελείται από τθ δθμιουργία τθσ εικόνασ λζξθσ ερϊτθμα, τθν προ-επεξεργαςία τθσ, τθν εξαγωγι των χαρακτθριςτικϊν και τζλοσ τθν εφρεςθ και προβολι εκείνων των εγγράφων που περιζχουν τισ πιο όμοιεσ λζξεισ ςε ςχζςθ με εκείνθ του ερωτιματοσ. Τα πειράματα που εκτελζςτθκαν ςε ζνα ςφνολο εγγράφων με κόρυβο ιταν ικανοποιθτικά. Το ίδιο πείραμα εκτελζςτθκε και ςε ζνα εμπορικό πακζτο Οπτικισ Αναγνϊριςθσ Χαρακτιρων και ζδωςε χαμθλότερα αποτελζςματα.

Κεφάλαιο 7 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 66 7.1 Ειςαγωγή Ό πωσ αναφζρκθκε και ςτο ειςαγωγικό κεφάλαιο, θ δθμιουργία μεγάλων αρχείων/βάςεων εγγράφων εικόνων χωρίσ οποιαδιποτε πλθροφορία δεικτοδότθςθσ δθμιοφργθςε τθν ανάγκθ ανάπτυξθσ ςυςτθμάτων και τεχνικϊν με ςκοπό τθν αναηιτθςθ και ανάκτθςι τουσ. Στθν παροφςα διδακτορικι διατριβι προτείνεται ζνα Σφςτθμα Ανάκτθςθσ Εγγράφων Εικόνων (ΣΑΕΕ) με τθν τεχνικι εντοπιςμοφ των λζξεων. Θ προτεινόμενθ τεχνικι αντιμετωπίηει το πρόβλθμα τθσ ανάκτθςθσ των εγγράφων χρθςιμοποιϊντασ μία διαδικαςία θ οποία προςπερνάει τθν Οπτικι Αναγνϊριςθ Χαρακτιρων (OAX) και χρθςιμοποιεί εικόνεσ λζξεων ωσ ερωτιματα. Θ Εικόνα 35 απεικονίηει τθ δομι του προτεινόμενου ςυςτιματοσ. Εικόνα 35 Η δομι του προτεινόμενου υςτιματοσ Ανάκτθςθσ Εικόνων Εγγράφων με τθν τεχνικι εντοπιςμοφ των λζξεων. Το ςφςτθμα αποτελείται από δφο διαδικαςίεσ: τθν Offline και τθν Online. Στθν Offline διαδικαςία, θ οποία είναι αδιαφανισ ςτον χριςτθ τα ζγγραφα αναλφονται και τα αποτελζςματα αποκθκεφονται ςτθ βάςθ δεδομζνων. Τα ςτάδια από τα οποία αποτελείται θ Offline διαδικαςία είναι αυτό τθσ προ-επεξεργαςίασ, τθσ κατάτμθςθσ των εγγράφων ςε λζξεισ και τζλοσ τθσ εξαγωγισ των χαρακτθριςτικϊν, τα οποία είναι ικανά να περιγράψουν το ςχιμα τθσ λζξθσ αλλά και να απορρίψουν τισ διαφορζσ που προκφπτουν από τον κόρυβο ι τθν γραμματοςειρά ςτθν οποία ανικουν οι χαρακτιρεσ που τθ ςχθματίηουν. Θ Online διαδικαςία, θ οποία είναι κφρια υπεφκυνθ για τθν αλλθλεπίδραςθ με τον χριςτθ αποτελείται από τζςςερα ςτάδια: Θ δθμιουργία τθσ εικόνασ λζξθσ ερϊτθμα που 66 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων

67 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων Κεφάλαιο 7 δόκθκε από τον χριςτθ, θ προ-επεξεργαςία τθσ, θ εξαγωγι των χαρακτθριςτικϊν και τζλοσ θ εφρεςθ και προβολι εκείνων των εγγράφων που περιζχουν τισ πιο όμοιεσ λζξεισ ςε ςχζςθ με εκείνθ του ερωτιματοσ. Τζλοσ, πρζπει να τονιςτεί ότι τα ζγγραφα εικόνεσ που χρθςιμοποιοφνται ςτο προτεινόμενο ςφςτθμα ζχουν αναλυκεί από τθν τεχνικι εντοπιςμοφ κειμζνου που προτάκθκε ςτο προθγοφμενο κεφάλαιο. Στισ επόμενεσ ενότθτεσ κα παρουςιαςτοφν αναλυτικά τα επιμζρουσ ςτάδια των δφο διαδικαςιϊν. 7.2 Το Σφςτημα Ανάκτηςησ Εικόνων Εγγράφων (ΣΑΕΕ) 7.2.1 Το Στάδιο τησ Ρρο-Επεξεργαςίασ Θ ζξοδοσ τθσ προτεινόμενθσ τεχνικισ του προθγοφμενου κεφαλαίου δεν είναι τα όρια των λζξεων αλλά απλϊσ εξάγει το κείμενο από το ζγγραφο εικόνα. Οπότε κα πρζπει το ζγγραφο να επεξεργαςτεί ξανά για να βρεκοφν οι λζξεισ. Συνεπϊσ, ο ςκοπόσ τθσ offline διαδικαςίασ είναι να εντοπιςκοφν τα όρια των λζξεων, να εξαχκεί από αυτά ζνασ καινοφργιοσ περιγραφζασ και να αποκθκευκεί ςε μία βάςθ δεδομζνων. Αυτι θ διαδικαςία αποτελείται από τρία ςτάδια. Αρχικά, τα ζγγραφα εικόνεσ περνοφν το ςτάδιο τθσ προ-επεξεργαςίασ, το οποίο είναι παρόμοιο με αυτό του προθγοφμενου κεφαλαίου (Ενότθτα 6.3). Δθλαδι αποτελείται από ζνα φίλτρο μεςαίασ τιμισ για μειωκεί ο κόρυβοσ (π.χ. για μθ ςωςτά ςυντθρθμζνα ζγγραφα) και μία μζκοδοσ δυαδικοποίθςθσ με τθ γνωςτι τεχνικι του Otsu. 7.2.2 Κατάτμηςη Λζξεων Ο κφριοσ ςκοπόσ του ςταδίου κατάτμθςθσ λζξεων είναι να εντοπίςει τα όρια τουσ ςτο κείμενο με τθ χριςθ τθσ τεχνικισ των Συνδεδεμζνων Αντικειμζνων όπωσ παρουςιάςτθκε ςτθν Ενότθτα 6.3. Εδϊ χρθςιμοποιοφνται διαφορετικά ζτςι ϊςτε να εντοπίςουν τισ λζξεισ. Αφοφ βρεκοφν όλα τα αρχικά ΣΑ (Εικόνα 36(α)), το πιο κοινό φψοσ των ΣΑ ( ) υπολογίηεται. Εφόςον ο κόρυβοσ κάποιων αντικειμζνων μπορεί να αλλάξει το ςχιμα των εξαγόμενων λζξεων, τα ΣΑ που ζχουν φψοσ κάτω από το 70% του απορρίπτονται (Εικόνα 36(β)). Επειδι το φψοσ τθσ λζξθσ μπορεί να φτάςει το διπλάςιο τθσ μζςθσ τιμισ του φψουσ των γραμμάτων [KAV03] λόγω τθσ παρουςίασ των άνω και κάτω τμθμάτων των χαρακτιρων απορρίπτονται κυρίωσ ςθμεία ςτίξθσ, κόρυβοσ κ.τ.λ. Ζπειτα, τα ΣΑ διευρφνονται αριςτερά και δεξιά κατά 20% του όπωσ απεικονίηεται ςτθν Εικόνα 36(γ). Τζλοσ, για τον εντοπιςμό των ορίων των λζξεων τα επικαλυπτόμενα ΣΑ ςυγχωνεφονται (Εικόνα 36(δ)) με αποτζλεςμα να αναπαριςτάνουν λζξεισ (ςε αντίκεςθ με τα επικαλυπτόμενα ΣΑ ςτθν Ενότθτα 6.3 που αναπαριςτοφςαν γραμμζσ). Επειδι τα ςθμεία ςτίξθσ και ο κόρυβοσ ζχουν εξαλειφτεί είναι ςπάνιο [KAV03] ζνασ χαρακτιρασ τθσ ίδιασ λζξθσ να ζχει απόςταςθ μεγαλφτερθ 20% του και διαφορετικζσ λζξεισ να είναι κοντφτερα από αυτιν τθν απόςταςθ. Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 67

Κεφάλαιο 7 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 68 (α) (β) (γ) (δ) Εικόνα 36 Ο εντοπιςμόσ των ορίων των λζξεων: (α) Σα αρχικά Α (β) Σα Α που απορρίφτθκαν (γ) Σα εναπομείναντα διευρυμζνα Α (δ) Σα όρια των λζξεων μετά τθν ζνωςθ των επικαλυπτόμενων Α 7.2.3 Εξαγωγή των Χαρακτηριςτικϊν Το προτεινόμενο ςφςτθμα ςτθρίηεται ςε ζξι ιςχυρά χαρακτθριςτικά που εξάγονται από κάκε λζξθ ικανά να αποτυπϊνουν τισ ομοιότθτεσ μεταξφ των λζξεων ενϊ παράλλθλα να αγνοοφν τισ μικρζσ διαφορζσ λόγου του εναπομείναντοσ κορφβου ι των διαφορετικϊν γραμματοςειρϊν. Τα χαρακτθριςτικά αυτά είναι: Width to Height Ratio: Ο λόγοσ του πλάτουσ προσ το φψοσ τθσ λζξθσ αποτελεί ςθμαντικι πλθροφορία για το ςχιμα τθσ λζξθσ. Word Area Density: Το χαρακτθριςτικό αυτό αντιπροςωπεφει το ποςοςτό των μαφρων εικονοςτοιχείων που περιζχονται ςτο πλαίςιο τθσ λζξθσ. Υπολογίηεται με βάςθ τθν παρακάτω εξίςωςθ: ( ) ( ) ( ) Το ( ) είναι ο αρικμόσ των μαφρων εικονοςτοιχείων τθσ λζξθσ, το ( τθσ ενϊ το ( ) το φψοσ τθσ. (7.1) ) είναι το πλάτοσ Center of Gravity: Ο αρικμόσ αυτόσ αντιπροςωπεφει τθν ευκλείδεια απόςταςθ από το κζντρο τθσ βαρφτθτασ τθσ λζξθσ μζχρι τθν αριςτερι γωνία του πλαιςίου τθσ λζξθσ. Αρχικά υπολογίηεται το κάκετο και οριηόντιο κζντρο τθσ βαρφτθτασ ςφμφωνα με τισ παρακάτω εξιςϊςεισ: ( ) ( ) ( ) ( ) (7.2) (7.3) Το είναι το οριηόντιο κζντρο και το είναι το κάκετο κζντρο τθσ βαρφτθτασ ενϊ τα είναι οι γεωμετρικζσ ςτιγμζσ βακμίδασ : 68 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων

69 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων Κεφάλαιο 7. / ( ) ( ) (7.4) Τα και ορίηουν τισ ςυντεταγμζνεσ του εικονοςτοιχείου μζςα ςτο πλαίςιο τθσ λζξθσ. Επίςθσ, θ εικόνα είναι δυαδικι, οπότε το ( ) κεωρείται 1 όταν το εικονοςτοιχείο ( ) είναι μαφρο και 0 όταν είναι άςπρο. Θ διαίρεςθ των και με το μικοσ και πλάτοσ του πλαιςίου τθσ λζξθσ εικόνασ κανονικοποιοφν τισ γεωμετρικζσ ςτιγμζσ και τισ κάνουν ανεξάρτθτεσ από το μζγεκοσ τθσ λζξθσ. Τελικά, το Center of Gravity χαρακτθριςτικό ορίηεται με τθν ευκλείδεια απόςταςθ από τθν αριςτερά πάνω γωνία του πλαιςίου τθσ εικόνασ λζξθσ ςφμφωνα με τθν παρακάτω εξίςωςθ: (7.5) Vertical Projection: Το χαρακτθριςτικό αυτό κακορίηεται από ζνα ιςτόγραμμα 20 κζςεων, εξαγόμενο από τθν εξομαλυμζνθ και κανονικοποιθμζνθ κάκετθ προβολι τθσ εικόνασ τθσ λζξθσ (Εικόνα 37). Αυτζσ οι κζςεισ αντιςτοιχοφν ςτουσ είκοςι πρϊτουσ ςυντελεςτζσ του Διακριτοφ Μεταςχθματιςμοφ Συνθμίτονου (Discrete Cosine Transform) τθσ εξομαλυμζνθσ και κανονικοποιθμζνθσ κάκετθσ προβολισ που ζχει κοινό φψοσ και πλάτοσ με όλεσ τισ εικόνεσ λζξεισ. Αυτι θ εξομαλυμζνθ και κανονικοποιθμζνθ κάκετθ προβολι υπολογίηεται με βάςθ τα παρακάτω βιματα: Βιμα 1. Από τθν παρακάτω εξίςωςθ μία νζα προβολι και μζγιςτο φψοσ :, - υπολογίηεται που ζχει πλάτοσ, - [ ] (7.6) Το είναι το αρχικό μικοσ τθσ αρχικι προβολισ, - (Εικόνα 37(β)) ενϊ το είναι το μζγιςτο φψοσ τθσ. Στο προτεινόμενο ςφςτθμα, τα και είναι ίςα με το μζςο πλάτοσ και φψοσ αντίςτοιχα όλων των πλαιςίων λζξεων που εντοπίςτθκαν ςε όλα τα ζγγραφα τθσ βάςθ κατά τθ διάρκεια τθσ Offline διαδικαςίασ. Για τθν πειραματικι βάςθ εγγράφων που χρθςιμοποιικθκε: και. Βιμα 2. Θ τελικι εξομαλυμζνθ και κανονικοποιθμζνθ κάκετθ προβολι που απεικονίηεται ςτθν Εικόνα 37(γ) δθμιουργείται μετά τθν εφαρμογι ενόσ φίλτρου μζςθσ τιμισ ςτθν προβολι, -. Ζτςι θ τελικι προβολι είναι περιςςότερο ανεξάρτθτθ των αλλαγϊν του μεγζκουσ και του τφπου τθσ γραμματοςειράσ τθσ λζξθσ. Top Bottom Shape Projections: Ππωσ απεικονίηεται ςτθν Εικόνα 38, οι Ρροβολζσ του Άνω και Κάτω Σχιματοσ μποροφν να κεωρθκοφν ωσ οι υπογραφζσ των ςχιματοσ τθσ λζξθσ. Αυτζσ οι υπογραφζσ οδθγοφν ςε ζνα ιςτόγραμμα 50 κζςεων, όπου οι 25 πρϊτεσ κζςεισ είναι οι 25 πρϊτοι ςυντελεςτζσ του Διακριτοφ Μεταςχθματιςμοφ Συνθμίτονου τθσ εξομαλυμζνθσ και κανονικοποιθμζνθσ Ράνω Σχιματοσ Ρροβολισ (Εικόνα 38(γ)) ενϊ οι υπόλοιπεσ 25 κζςεισ είναι οι 25 πρϊτεσ ςυντελεςτζσ του Διακριτοφ Μεταςχθματιςμοφ Συνθμίτονου τθσ εξομαλυμζνθσ και κανονικοποιθμζνθσ Κάτω Σχιματοσ Ρροβολισ (Εικόνα 38(ε)). Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 69

Κεφάλαιο 7 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 70 Για τον υπολογιςμό τθσ Ράνω Σχιματοσ Ρροβολισ, θ εικόνα τθσ λζξθσ διατρζχεται από τθν κορυφι ςτον πάτο. Ππωσ φαίνεται ςτθν Εικόνα 38(β), τθν πρϊτθ φορά που ζνα μαφρο εικονοςτοιχείο ςυναντάται τότε όλα τα υπόλοιπα εικονοςτοιχεία τθσ ίδιασ ςτιλθσ μετατρζπονται ςε μαφρα. α) β) γ) Εικόνα 37 Οπτικι απεικόνιςθ του υπολογιςμοφ του χαρακτθριςτικοφ Vertical Projection: (α) Η αρχικι εικόνα (β) Η κάκετθ προβολι τθσ αρχικι εικόνασ (γ) Η εξομαλυμζνθ και κανονικοποιθμζνθ κάκετθ προβολι. Θ Κάτω Σχιματοσ Ρροβολι υπολογίηεται με παρόμοιο τρόπο. Ππωσ απεικονίηεται ςτθν Εικόνα 38(δ), θ εικόνα τθσ λζξθσ διατρζχεται από τον πάτο μζχρι τθν κορυφι και όλα τα εικονοςτοιχεία μετατρζπονται ςε μαφρα μζχρι να βρεκεί ζνα εικονοςτοιχείο που είναι μαφρο. Οι εξομαλυμζνεσ και κανονικοποιθμζνεσ προβολζσ του Ράνω και Κάτω Σχιματοσ (Εικόνα 38(γ) και Εικόνα 38(ε)) υπολογίηονται με τον ίδιο τρόπο όπωσ υπολογίηεται θ εξομαλυμζνθ και κανονικοποιθμζνθ κάκετθ προβολι. α) β) γ) δ) ε) Εικόνα 38 Οπτικι απεικόνιςθ του υπολογιςμοφ του χαρακτθριςτικοφ Top Bottom Shape Projections: (α) Η αρχικι εικόνα (β) Η Πάνω χιματοσ Προβολι τθσ αρχικι εικόνασ (γ) Η εξομαλυμζνθ και κανονικοποιθμζνθ Πάνω χιματοσ Προβολι (δ) Η Κάτω χιματοσ Προβολι τθσ αρχικισ εικόνασ (ε) Η εξομαλυμζνθ και κανονικοποιθμζνθ Κάτω χιματοσ Προβολι Upper Grid Feature: Το χαρακτθριςτικό αυτό είναι ζνα δζκα κζςεων ιςτόγραμμα με δυαδικζσ τιμζσ οι οποίεσ εξάγονται από το πάνω μζροσ κάκε εικόνα λζξθσ. Για να υπολογιςτεί, αρχικά θ οριηόντια προβολι τθσ λζξθσ εξάγεται και από αυτιν κακορίηεται ποιο είναι το πάνω μζροσ τθσ λζξθσ ακολουκϊντασ τον παρακάτω αλγόρικμο: Βιμα 1. Εξομαλφνεται θ οριηόντια προβολι εφαρμόηοντασ ζνα φίλτρο μζςθσ τιμισ. Βιμα 2. Ξεκινϊντασ από πάνω, βρίςκεται θ κζςθ ςτθν οποία το ιςτόγραμμα ( ) τθσ οριηόντιασ προβολισ όπου ( ) όπωσ απεικονίηεται ςτθν Εικόνα 39(β). Το είναι το μζγιςτο φψοσ τθσ οριηόντιασ προβολισ ( * ( )+). Εάν θ κζςθ βρίςκεται κάτω από τθ μιςι λζξθ τότε θ λζξθ δεν ζχει πάνω μζροσ. Βιμα 3. Εφρεςθ τθσ κζςθσ, - ςτο ιςτόγραμμα ( ) τθσ οριηόντιασ προβολισ όπου 70 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων

71 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων Κεφάλαιο 7 ( ) ( ). Τότε το ορίηει το πάνω μζροσ τθσ λζξθσ. Εάν το ζχει πολφ μικρι τιμι (2 ι 3) θ λζξθ δεν ζχει πάνω μζροσ. Εφόςον εντοπιςκεί το πάνω μζροσ τθσ λζξθσ, διαιρείται ςε 10 όμοια μζρθ όπωσ απεικονίηεται ςτθν Εικόνα 39(γ) και υπολογίηονται τα μαφρα εικονοςτοιχεία που περιζχονται ςε κακζνα από αυτά τα μζρθ. Εάν το πλικοσ των μαφρων εικονοςτοιχείων είναι μεγαλφτερο από το φψοσ του εξαγόμενου πάνω μζρουσ τθσ λζξθσ, τότε θ αντίςτοιχθ κζςθ ςτο τελικό ιςτόγραμμα του χαρακτθριςτικοφ είναι 1 αλλιϊσ είναι 0. Για παράδειγμα, το φψοσ του εξαγόμενου πάνω μζρουσ τθσ λζξθσ ςτθν Εικόνα 39(γ) είναι 43, ενϊ το πλικοσ των μαφρων εικονοςτοιχείων για κάκε μζροσ δίνεται ςτθν Εικόνα 39(ε) ενϊ το τελικό χαρακτθριςτικό είναι αυτό ςτθν Εικόνα 39(η). α) β) γ) δ) ε), - ςτ), - η), - θ), - Εικόνα 39 Οπτικι απεικόνιςθ του υπολογιςμοφ των χαρακτθριςτικϊν Upper Grid και Down Grid: (α) Η αρχικι εικόνα (β) Η οριηόντια προβολι τθσ αρχικι εικόνασ (γ) Σο εξαγόμενο πάνω μζροσ τθσ λζξθσ και ο διαχωριςμόσ του ςε δζκα μζρθ (δ) Σο εξαγόμενο κάτω μζροσ τθσ λζξθσ και ο διαχωριςμόσ του ςε δζκα μζρθ (ε) Ο αρικμόσ των μαφρων εικονοςτοιχείων που περιζχονται ςε κάκε μζροσ του πάνω μζρουσ τθσ λζξθσ (ςτ) Ο αρικμόσ των μαφρων εικονοςτοιχείων που περιζχονται ςε κάκε μζροσ του κάτω μζρουσ τθσ λζξθσ (η) Σο τελικό ιςτόγραμμα του χαρακτθριςτικοφ Upper Grid Feature (θ) Σο τελικό ιςτόγραμμα του χαρακτθριςτικοφ Down Grid Feature Down Grid Feature: Ππωσ το όνομα υποδθλϊνει, το χαρακτθριςτικό αυτό είναι όμοιο με το Upper Grid Feature μόνο που αυτό εξάγεται από το κάτω μζροσ τθσ λζξθσ. Συγκεκριμζνα, το κάτω μζροσ τθσ λζξθσ υπολογίηεται με τον ίδιο ακριβϊσ τρόπο όπωσ και ςτο πάνω μζροσ τθσ λζξθσ μόνο που θ αναηιτθςθ ξεκινάει από τον πάτο του ιςτογράμματοσ ( ) τθσ οριηόντιασ προβολισ. Το Down Grid Feature χαρακτθριςτικό είναι και αυτό ζνα 10 κζςεων ιςτόγραμμα με δυαδικζσ τιμζσ. Για παράδειγμα το φψοσ του εξαγόμενου κάτω μζρουσ τθσ λζξθσ ςτθν Εικόνα 39(δ) είναι 50, ενϊ το πλικοσ των μαφρων εικονοςτοιχείων για κάκε μζροσ δίνεται ςτθν Εικόνα 39(ςτ) ενϊ το τελικό χαρακτθριςτικό είναι αυτό ςτθν Εικόνα 39(θ). Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 71

Κεφάλαιο 7 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 72 7.3 Texture and Shape Representation Descriptor (TSRD) Τα παραπάνω χαρακτθριςτικά ςχθματίηουν ζναν περιγραφζα που ονομάηεται Texture and Shape Representation Descriptor (TSRD). Στθν Εικόνα 40 απεικονίηεται θ κατανομι των χαρακτθριςτικϊν μζςα ςε αυτόν. Στθν πρϊτθ κζςθ είναι το χαρακτθριςτικό Weight to Height, ςτθν δεφτερθ κζςθ το Image Area Density, ςτθν τρίτθ κζςθ το Center of Gravity. Οι επόμενεσ είκοςι κζςεισ καταλαμβάνονται από το Vertical Projection χαρακτθριςτικό και οι πενιντα από το Top Bottom Shape Projection. Τζλοσ οι είκοςι κζςεισ καταλαμβάνονται από τα Upper Grid και Down Grid Features διαιρεμζνα με το 10 για να μθν επικαλφψουν τα υπόλοιπα χαρακτθριςτικά. Τα υπόλοιπα χαρακτθριςτικά κανονικοποιοφνται από το 0 μζχρι το 1 με βάςθ τισ ελάχιςτεσ και μζγιςτεσ τιμζσ του που βρίςκονται ςτθ βάςθ δεδομζνων. Στθν Εικόνα 41 δίνεται το schema του TSRD ωσ προζκταςθ του schema του MPEG-7 και των οπτικϊν περιγραφζων που περιζχει. Texture and Shape Representation Descriptor 4 θ 23 θ Κζςθ 1 θ Κζςθ 2 θ Κζςθ 3 θ Κζςθ Weight to Height Image Area Center of Gravity Vertical Projection 24 θ 48 θ Κζςθ Top Shape Projection 49 θ 73 θ Κζςθ Bottom Shape Projection 74 θ 83 θ Κζςθ 84 θ 93 θ Κζςθ Upper Grid Features Down Grid Features Εικόνα 40 Η δομι του Texture and Shape Representation Descriptor. 7.4 Ανάκτηςη Πμοιων Εγγράφων Σφμφωνα με τα παραπάνω, ςτθν Offline διαδικαςία όλα τα ζγγραφα αναλφονται, εντοπίηονται οι λζξεισ ςε αυτά και εξάγεται από αυτζσ ζνασ περιγραφζασ που αποκθκεφεται ςε μία βάςθ δεδομζνων. Στθν Online διαδικαςία ο χριςτθσ κάκε φορά που ειςάγει μία λζξθ ερϊτθμα, το προτεινόμενο ςφςτθμα δθμιουργεί μία εικόνα τθσ λζξθσ που δόκθκε από τον χριςτθ με φψοσ γραμματοςειράσ ίςο με το μζςο φψοσ των εικόνων λζξεων που εντοπίςκθκαν κατά τθν Offline διαδικαςία. Στο υλοποιθμζνο ΣΑΕΕ ςτο οποίο χρθςιμοποιείται ζνα πειραματικό ςφνολο εικόνων 72 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων

73 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων Κεφάλαιο 7 όπωσ περιγράφεται ςτθν Ενότθτα 7.6 το μζςο φψοσ υπολογίςτθκε ίςο με 50. Θ γραμματοςειρά τθσ εικόνασ ερϊτθμα είναι θ Arial, όμωσ θ εξομάλυνςθ και θ κανονικοποίθςθ των χαρακτθριςτικϊν όπωσ περιγράφτθκε ςτθν Ενότθτα 7.2.3 εξαλείφουν τισ μικρζσ διαφορζσ μεταξφ διαφόρων τφπων γραμματοςειρϊν. <?xml version="1.0" encoding="utf-8"?> <schema xmlns="http://www.w3.org/2001/xmlschema" xmlns:mpeg7="urn:mpeg:mpeg7:schema:2004" xmlns:tsrdns="tsrdns" targetnamespace="tsrdns"> <import namespace="urn:mpeg:mpeg7:schema:2004" schemalocation="mpeg7-2004.xsd"/> <complextype name="tsrdtype" final="#all"> <complexcontent> <extension base="mpeg7:visualdtype"> <sequence> <element name="value"> <simpletype> <restriction> <simpletype> <list itemtype="mpeg7:zerotoonetype" /> </simpletype> <length value="93" /> </restriction> </simpletype> </element> </sequence> </extension> </complexcontent> </complextype> </schema> Εικόνα 41 Σο schema του περιγραφζα TSRD ωσ προζκταςθ του schema των οπτικϊν περιγραφζων του MPEG-7. Ζπειτα θ τεχνικά δθμιουργθμζνθ εικόνα ερϊτθμα επεξεργάηεται με τον ίδιο τρόπο όπωσ και οι εικόνεσ λζξεισ των εγγράφων με αποτζλεςμα ςτο τζλοσ να υπολογίηεται ο περιγραφζασ τθσ. Για να βρεκοφν οι όμοιεσ λζξεισ που περιζχονται ςτθ βάςθ δεδομζνων με αυτιν τθσ λζξθσ ερϊτθμα του χριςτθ επιςτρατεφεται θ απόςταςθ ομοιότθτασ Minkowski ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ) ( ) ( ) (7.7) Το ςφμβολο ( ) είναι θ Minkowski απόςταςθ μεταξφ τθσ λζξθσ και τθσ λζξθσ ερϊτθμα, το ( ) είναι ο περιγραφζασ τθσ λζξθσ ερϊτθμα και το ( ) είναι ο περιγραφζασ τθσ λζξθσ. Το επόμενο βιμα αποτελείται από τον υπολογιςμό μίασ βακμολογίασ για κάκε λζξθ ξεχωριςτά ανάλογα με τθν απόςταςθ ομοιότθτασ από τθν λζξθ ερϊτθμα ςφμφωνα με τθν παρακάτω εξίςωςθ: Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 73

Κεφάλαιο 7 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 74 ( ( ) ( ) ) (7.8) Το ςφμβολο είναι ο βακμόσ τθσ λζξθσ, το ( ) είναι θ Minkowski απόςταςθ μεταξφ τθσ λζξθσ και τθσ λζξθσ ερϊτθμα που υπολογίςκθκε με τθν Εξ. ((7.7)) ενϊ το ( ) είναι θ μζγιςτθ απόςταςθ που υπολογίςκθκε. Στθν ουςία είναι μία κανονικοποίθςθ των τιμϊν των αποςτάςεων που υπολογίςτθκαν. Τζλοσ, το προτεινόμενο ΣΑΕΕ παρουςιάηει τα ζγγραφα που περιζχουν τισ ανάλογεσ λζξεισ με φκίνουςα ςειρά ςε ςχζςθ με τθ βακμολογία τουσ. 7.5 Υλοποίηςη Το προτεινόμενο ςφςτθμα υλοποιικθκε με τθ βοικεια του Visual Studio 2008 και βαςίηεται ςτθν.net 3.5 πλατφόρμα τθσ Microsoft. Θ γλϊςςα προγραμματιςμοφ που χρθςιμοποιικθκε είναι θ C# ενϊ για τθν επικοινωνία με τον χριςτθ εφαρμόηονται οι τεχνολογίεσ HTML/Javascript/AJAX. Τζλοσ, το υλοποιθμζνο ΣΑΕΕ χρθςιμοποιεί για βάςθ δεδομζνων τθν Microsoft SQL Server 2005. Θ Εικόνα 42 παρουςιάηει τθν οπτικι απεικόνιςθ τθσ εφαρμογισ. Εικόνα 42 Η οπτικι απεικόνιςθ τθσ υλοποίθςθσ του προτεινόμενου υςτιματοσ Ανάκτθςθσ Εικόνων Εγγράφων με βάςει τον εντοπιςμό των λζξεων. Οι εικόνεσ εγγράφων που αναλφκθκαν κατά τθν Offline διαδικαςία δθμιουργικθκαν τεχνικά από διάφορα κείμενα ϊςτε να εκτελείται ταυτόχρονα και μία παράλλθλθ αναηιτθςθ κειμζνου ϊςτε να είναι ευκολότερθ ο ζλεγχοσ και θ αξιολόγθςθ των αποτελεςμάτων ανάκτθςθσ 74 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων

75 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων Κεφάλαιο 7 των εγγράφων. Επίςθσ προςτζκθκε τεχνθτόσ κόρυβοσ ςτισ εικόνεσ με ςκοπό τθν αφξθςθ δυςκολίασ τθσ διαδικαςίασ τθσ ανάκτθςθσ και τθσ αξιολόγθςθσ τθσ αντίδραςθσ του προτεινόμενου ςυςτιματοσ ςτο κόρυβο. 7.6 Αξιολόγηςη Θ αξιολόγθςθ τθσ προτεινόμενου ΣΑΕΕ ςτθρίχκθκε ςε 100 εικόνεσ εγγράφων. Με ςκοπό τον υπολογιςμό των μετρικϊν μεγεκϊν Average Precision και NMRR που παρουςιάςτθκαν ςτθν Ενότθτα 3.4 ζγιναν 30 αναηθτιςεισ από τυχαίεσ λζξεισ. Ο Ρίνακασ 7 παρουςιάηει αυτζσ τισ τυχαίεσ λζξεισ. Οι τιμζσ των μετρικϊν μεγεκϊν για κάκε μία λζξθ παρουςιάηονται ςτθν Εικόνα 43. Οι μζςεσ τιμζσ των μεγεκϊν Average Precision και NMRR ςε αυτζσ τισ 30 αναηθτιςεισ είναι και αντίςτοιχα. Πίνακασ 7. Οι 30 λζξεισ που χρθςιμοποιικθκαν για τθν αξιολόγθςθ του προτεινόμενου ΑΕΕ 1. details 2. potential 3.religion 4. technology 5. advent 6. smoothing 7. culture 8. world 9. between 10. further 11. number 12. Greek 13. might 14. century 15. homage 16. period 17. taxes 18. living 19. growth 20. churches 21. neural 22. foreign 23. smaller 24. extensively 25. eventually 26. diplomatic 27. demands 28. political 29. region 30. break Ο ςυνολικόσ χρόνοσ ανάκτθςθσ των εγγράφων για τισ παραπάνω τριάντα αναηθτιςεισ ςε ζνα PC AMD Athlon 64 4200+ με 2GB μνιμθ ιτανε 11,53 δευτερόλεπτα με μζςθ τιμι για κάκε αναηιτθςθ να είναι περίπου 0,38 δευτερόλεπτα. Average Precision NMRR 100 1 95 0,8 90 0,6 85 0,4 80 0,2 75 1 5 9 13 17 21 25 29 Ανακτιςεισ 0 1 5 9 13 17 21 25 29 Ανακτιςεισ Εικόνα 43 (α) Οι διακυμάνςεισ των μετρικϊν μεγεκϊν για τισ τριάντα αναηθτιςεισ με προτεινόμενο ςφςτθμα ανάκτθςθσ: (α) Average Precision (β) NMRR (β) Επιπλζον, οι ίδιεσ 100 εικόνεσ εγγράφων ςαρϊκθκαν από το πρόγραμμα οπτικισ αναγνϊριςθσ χαρακτιρων FineReader 9.0 [ABB07] και ςτα αποτελζςματα αναηθτικθκαν οι Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 75

Κεφάλαιο 7 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 76 ίδιεσ τριάντα λζξεισ του Ρίνακασ 7. Οι τιμζσ των μετρικϊν μεγεκϊν παρουςιάηονται ςτθν Εικόνα 44. Οι μζςεσ τιμζσ των μεγεκϊν Average Precision και NMRR ςε αυτζσ τισ τριάντα αναηθτιςεισ είναι και αντίςτοιχα. Άρα τα αποτελζςματα είναι αρκετά χειρότερα από το προτεινόμενο ςφςτθμα. 100 Average Precision 1 NMRR 80 0,8 60 0,6 40 0,4 20 0,2 0 1 5 9 13 17 21 25 29 Ανακτιςεισ 0 1 5 9 13 17 21 25 29 Ανακτιςεισ Εικόνα 44 (α) Οι διακυμάνςεισ των μετρικϊν μεγεκϊν για τισ τριάντα αναηθτιςεισ με το πρόγραμμα FineReader 9.0: (α) Average Precision (β) NMRR (β) Επιπρόςκετα, με ςκοπό τθν αξιολόγθςθ του προτεινόμενου ςυςτιματοσ ςτθν κλιμάκωςθ τθσ λζξθσ το φψοσ των χαρακτιρων με το οποίο καταςκευάηεται θ εικόνα τθσ λζξθσ ερϊτθμα διπλαςιάηεται (100 pixels) από το φψοσ που καταςκευαηόταν αρχικά και ιταν ίςο με το μζςο φψοσ (50 pixels) όλων πλαιςίων λζξεων που εντοπίςτθκαν ςε όλα τα ζγγραφα τθσ βάςθ κατά τθ διάρκεια τθσ Offline διαδικαςίασ. Οι τιμζσ του Average Precision που υπολογίςτθκαν παρουςιάηονται ςτθν Εικόνα 45(α) ενϊ οι τιμζσ του NMRR ςτθν Εικόνα 45(β). Οι μζςεσ τιμζσ των μεγεκϊν Average Precision και NMRR ςε αυτζσ τισ τριάντα αναηθτιςεισ είναι και αντίςτοιχα και είναι παρόμοιεσ με αυτζσ του πρϊτου πειράματοσ αξιολόγθςθσ. 100 Average Precision 1 NMRR 95 90 85 0,8 0,6 0,4 0,2 80 1 5 9 13 17 21 25 29 Ανακτιςεισ 0 1 5 9 13 17 21 25 29 Ανακτιςεισ Εικόνα 45 (α) Οι διακυμάνςεισ των μετρικϊν μεγεκϊν για τισ τριάντα αναηθτιςεισ με το φψοσ των χαρακτιρων τθσ εικόνασ τθσ λζξθσ ερϊτθμα διπλάςια από το προτεινόμενο: (α) Precision και Recall (β) NMRR (β) Τζλοσ, για να μετρθκεί θ αποτελεςματικότθτα του προτεινόμενου ΣΑΕΕ ςτισ αλλαγζσ των γραμματοςειρϊν αλλάχκθκε θ γραμματοςειρά με τθν οποία δθμιουργείται θ εικόνα τθσ λζξθσ ερϊτθμα από «Arial» ςε «Tahoma» και εκτελζςτθκαν οι τριάντα αναηθτιςεισ του Ρίνακασ 7. Οι 76 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων

77 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων Κεφάλαιο 7 τιμζσ του μετρικοφ μεγζκουσ Average Precision που υπολογίςτθκαν παρουςιάηονται ςτθν Εικόνα 46(α) ενϊ οι τιμζσ του μετρικοφ μεγζκουσ NMRR ςτθν Εικόνα 46(β). Οι μζςεσ τιμζσ των μεγεκϊν Average Precision και NMRR είναι και αντίςτοιχα. Οι ίδιεσ τιμζσ παρατθροφνται και εδϊ. 7.7 Συμπεράςματα Ραρουςιάςτθκε ζνα ςφςτθμα ανάκτθςθσ εγγράφων, το οποίο χρθςιμοποιεί τεχνικζσ επεξεργαςίασ εικόνων εγγράφων ϊςτε να εξάγει ιςχυρά χαρακτθριςτικά για τθν περιγραφι των εικόνων λζξεων. Αυτά τα χαρακτθριςτικά ςχθματίηουν ζναν περιγραφζα 93 κζςεων. Τα πειράματα που εκτελζςτθκαν ςε ζνα ςφνολο εγγράφων με κόρυβο επζφεραν και. Το ίδιο πείραμα εκτελζςτθκε και ςε ζνα εμπορικό πακζτο Οπτικισ Αναγνϊριςθσ Χαρακτιρων και ζδωςε χαμθλότερα αποτελζςματα. Επίςθσ πειράματα χρθςιμοποιϊντασ διαφορετικό μζγεκοσ και τφπο γραμματοςειράσ για τθ δθμιουργία τθσ λζξθσ ερϊτθμα δεν παρουςίαςαν ςθμαντικζσ αλλαγζσ ςτθν απόδοςθ του προτεινόμενου ςυςτιματοσ. 100 Average Precision 1 NMRR 80 0,8 60 0,6 40 0,4 20 0,2 0 1 5 9 13 17 21 25 29 Αναηθτιςεισ 0 1 5 9 13 17 21 25 29 Αναηθτιςεισ Εικόνα 46 (α) Οι διακυμάνςεισ των μετρικϊν μεγεκϊν για τισ τριάντα αναηθτιςεισ με γραμματοςειρά τθσ εικόνασ τθσ λζξθσ ερϊτθμα τθν «Tahoma»: (α) Precision και Recall (β) NMRR (β) Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 77

Κεφάλαιο 7 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων 78 78 Ανάκτθςθ Εγγράφων με τθν Τεχνικι Εντοπιςμοφ των Λζξεων

8 ΤΝΕΠΣΤΓΜΕΝΟ ΠΕΡΙΓΡΑΦΕΑ ΧΗΜΑΣΟ Περιεχόμενα ΠΕΡΙΛΗΨΗ Ειςαγωγι 80 Compact Shape Portrayal Descriptor (CSPD) 80 Γενικι Επιςκόπθςθ 80 Εξαγωγι Χαρακτθριςτικϊν 80 Κβαντοποίθςθ 84 Αλγόρικμοσ Ανάδραςθσ με βάςθ τθ ςυνάφεια 86 Αξιολόγθςθ 88 Ειςαγωγι 88 Η Δομι του Συςτιματοσ Ανάκτθςθσ 88 Υλοποίθςθ Συςτιματοσ Ανάκτθςθσ 89 Ρειραματικά Αποτελζςματα 89 Συμπεράςματα 95 Σε αυτό το κεφάλαιο παρουςιάηεται ζνασ περιγραφζασ παρόμοιοσ με τουσ περιγραφείσ ςχιματοσ του MPEG-7, ο οποίοσ περιζχει χαρακτθριςτικά ςχιματοσ περιγράμματοσ (contour) και περιοχισ (region). Ο Compact Shape Portrayal Descriptor είναι ζνα ιςτόγραμμα 41 κζςεων, το οποίο δθμιουργείται από 5 διαφορετικά χαρακτθριςτικά τα οποία κβαντοποιοφνται ςε 3 bits ανά κζςθ οπότε οι αποκθκευτικζσ απαιτιςεισ του είναι 123 bits. Συμπλθρωματικά του περιγραφζα, παρουςιάηεται και μία τεχνικι ανάδραςθσ με βάςθ τθ ςυνάφεια που χρθςιμοποιεί τον παραπάνω περιγραφζα με ςκοπό τθν αξιολόγθςθ τθσ ςυμπεριφοράσ του ςε αυτιν. Τζλοσ, για τθν αξιολόγθςθ του χρθςιμοποιικθκαν 3 βάςεισ δεδομζνων.

Κεφάλαιο 8 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 80 8.1 Ειςαγωγή Τ ο ςχιμα είναι ζνα από τα πιο ςθμαντικά χαμθλοφ επιπζδου χαρακτθριςτικά που χρθςιμοποιοφνται ςε ςυςτιματα ανάκτθςθσ εικόνων με βάςει το περιεχόμενό τουσ. Ζνα τζτοιο ςφςτθμα είναι και τα Συςτιματα Ανάκτθςθσ Εικόνων Εγγράφων με εντοπιςμό των λζξεων που περιζχονται μζςα ςε αυτά. Σε αυτιν τθ διδακτορικι διατριβι προτείνεται ζνασ περιγραφζασ παρόμοιοσ με τουσ περιγραφείσ ςχιματοσ του MPEG-7, ο οποίοσ περιζχει χαρακτθριςτικά ςχιματοσ περιγράμματοσ (contour) και περιοχισ (region). Επίςθσ ζχει ζνα ευρφ πεδίο εφαρμογισ από τθν περιγραφι ενόσ αυκαίρετου ςχιματοσ μζχρι τθ χριςθ του ςε ζνα ςφςτθμα ανάκτθςθσ εγγράφων εικόνων με εντοπιςμό των λζξεων. Άλλα πλεονεκτιματά αποτελοφν το μικρό του μζγεκοσ (μικρότερο από 16 bytes) και θ χαμθλι απαίτθςι του ςε υπολογιςτικι ιςχφ. Συγκεκριμζνα, ζχει ςχεδιαςτεί προςζχοντασ ϊςτε το μζγεκόσ του και κατά ςυνζπεια οι αποκθκευτικζσ του απαιτιςεισ να είναι όςο μικρότερεσ είναι δυνατόν χωρίσ να μειϊνονται οι ανακτϊμενεσ αποδόςεισ του. Συμπλθρωματικά του περιγραφζα, παρουςιάηεται και μία τεχνικι ανάδραςθσ με βάςθ τθ ςυνάφεια που χρθςιμοποιεί τον παραπάνω περιγραφζα με ςκοπό τθν αξιολόγθςθ τθσ ςυμπεριφοράσ του ςε αυτιν. Για τθν αξιολόγθςθ του προτεινόμενου περιγραφζα ωσ προσ τθν ευρεία εφαρμογι του και τθν απόδοςι του ςτθν ανάκτθςθ ςχθμάτων χρθςιμοποιικθκαν τρεισ βάςεισ δεδομζνων: Μία βάςθ που περιζχει ελλθνικζσ χειρόγραφεσ λζξεισ, μια βάςθ που περιζχει χειρόγραφεσ λζξεισ από τα γραπτά του George Washington [LAV04] και θ MPEG-7 CE1 Set B [KIM00] βάςθ. 8.2 Compact Shape Portrayal Descriptor (CSPD) 8.2.1 Γενική Επιςκόπηςη Ο Compact Shape Portrayal Descriptor είναι ζνα ιςτόγραμμα 41 κζςεων, το οποίο δθμιουργείται από 5 διαφορετικά χαρακτθριςτικά που περιγράφουν ικανοποιθτικά το ςχιμα ενόσ αντικειμζνου. Επιπλζον, οι τιμζσ του ιςτογράμματοσ κβαντοποιοφνται ςε 3 bits ανά κζςθ οπότε οι αποκθκευτικζσ απαιτιςεισ του είναι 123 bits. Ππωσ φαίνεται και από το διάγραμμα ροισ του (Εικόνα 47), ο υπολογιςμόσ του μπορεί εφκολα να παραλλθλιςτεί κακϊσ κάκε χαρακτθριςτικό υπολογίηεται ξεχωριςτά. 8.2.2 Εξαγωγή Χαρακτηριςτικϊν Ο προτεινόμενοσ περιγραφζασ βαςίηεται ςε τρία ιςχυρά χαρακτθριςτικά τα οποία εξάγονται από κάκε ςχιμα (ι λζξθ). Τα χαρακτθριςτικά αυτά είναι: Width to Height Ratio. Το χαρακτθριςτικό αυτό είναι ζνασ αρικμόσ και υπολογίηεται ςφμφωνα με τθν παρακάτω εξίςωςθ: * + * + (8.1) 80 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ

81 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ Κεφάλαιο 8 Το είναι το πλάτοσ του ςχιματοσ και το φψοσ τθσ. Εικόνα - Σχιμα Width Height Ratio Vertical Projection Horizontal Projection Top Shape Projection Bottom Shape Projection Κβαντοποίθςθ Κανονικοποίθςθ Κανονικοποίθςθ Κανονικοποίθςθ Κανονικοποίθςθ DCT DCT DCT DCT Κανονικοποίθςθ των Συντελεςτϊν Κανονικοποίθςθ των Συντελεςτϊν Κανονικοποίθςθ των Συντελεςτϊν Κανονικοποίθςθ των Συντελεςτϊν Κβαντοποίθςθ Κβαντοποίθςθ Κβαντοποίθςθ Κβαντοποίθςθ 1 θ Κζςθ 2 θ - 11 θ Κζςθ 12 θ - 21 θ Κζςθ 22 θ 31 θ Κζςθ 32 θ - 41 θ Κζςθ Compact Shape Portrayal Descriptor Εικόνα 47 Σο διάγραμμα ροισ του Compact Shape Portrayal Descriptor Vertical Horizontal Projection. Το χαρακτθριςτικό αυτό αποτελείται από ζνα 20 κζςεων ιςτόγραμμα από τουσ κβαντοποιθμζνουσ και κανονικοποιθμζνουσ ςυντελεςτζσ του Διακριτοφ Μεταςχθματιςμοφ Συνθμίτονου (Discrete Cosine Transform) των εξομαλυμζνθσ και κανονικοποιθμζνθσ κάκετθσ και οριηόντιασ προβολισ (Εικόνα 48). Ο υπολογιςμόσ τθσ αποτελείται από τα παρακάτω βιματα: Βιμα 1. Από τθν παρακάτω εξίςωςθ μία νζα κανονικοποιθμζνθ κάκετθ προβολι, - δθμιουργείται που ζχει μζγιςτο φψοσ ίςο με 1., -, - * +, - (8.2) Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 81

Κεφάλαιο 8 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 82 Θ, - είναι θ αρχικι κάκετθ προβολι του ςχιματοσ, το * + είναι θ μζγιςτθ τιμι τθσ, - και είναι το πλάτοσ του ςχιματοσ. Το ίδιο ιςχφει και για τθν οριηόντια προβολι, -:, -, - * +, - (8.3) Θ, - είναι θ αρχικι οριηόντια προβολι του ςχιματοσ, το * + είναι θ μζγιςτθ τιμι τθσ, - και είναι το φψοσ του ςχιματοσ. α) β) γ) δ) ε) ςτ) η) θ) κ) ι) Εικόνα 48 Οπτικι απεικόνιςθ του υπολογιςμοφ τθσ Κάκετθσ και Οριηόντιασ Προβολισ για τθν εικόνα τθσ λζξθσ «Returns» και το ςχιμα μίασ καμιλασ: (α) Η αρχικι εικόνα τθσ λζξθσ (β) Η αρχικι κάκετθ προβολι τθσ λζξθσ (γ) Η εξομαλυμζνθ και κανονικοποιθμζνθ κάκετθ προβολι (δ) Η αρχικι οριηόντια προβολι τθσ λζξθσ (ε) Η εξομαλυμζνθ και κανονικοποιθμζνθ οριηόντια προβολι (ςτ) Εικόνα που περιζχει το ςχιμα τθσ καμιλασ (η) Η αρχικι κάκετθ προβολι του ςχιματοσ (θ) Η εξομαλυμζνθ και κανονικοποιθμζνθ κάκετθ προβολι του ςχιματοσ (κ) Η αρχικι οριηόντια προβολι του ςχιματοσ (ι) Η εξομαλυμζνθ και κανονικοποιθμζνθ οριηόντια προβολι του ςχιματοσ. Βιμα 2. Θ τελικι κανονικοποιθμζνθ και εξομαλυμζνθ οριηόντια και κάκετθ προβολι που απεικονίηεται ςτισ Εικόνα 48(γ), (ε),(θ),(ι) δθμιουργείται μετά τθν εφαρμογι ενόσ φίλτρου μζςθσ τιμισ ςτισ προβολζσ, - και, -. Με αυτόν τον τρόπο οι προβολζσ είναι πιο ςτακερζσ ςτον κόρυβο ι ςτισ διαφορετικζσ γραμματοςειρζσ 82 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ

83 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ Κεφάλαιο 8 κακϊσ οι μικρζσ διαφορζσ εξομαλφνονται. Βιμα 3. Εφαρμόηεται ο Διακριτόσ Μεταςχθματιςμόσ Συνθμίτονου ςτισ δφο παραπάνω εξομαλυμζνεσ και κανονικοποιθμζνεσ προβολζσ. Βιμα 4. Αυτό το βιμα αποτελείται από τθν κανονικοποίθςθ των ςυντελεςτϊν των παραπάνω ςυντελεςτϊν ςφμφωνα με τισ παρακάτω εξιςϊςεισ:, -, -, -, - (8.4) Οι είναι οι κανονικοποιθμζνοι ςυντελεςτζσ και οι είναι οι αρχικοί ςυντελεςτζσ τθσ, -., -, -, -, - (8.5) Οι είναι οι κανονικοποιθμζνοι ςυντελεςτζσ και οι είναι οι αρχικοί ςυντελεςτζσ τθσ, -. Αυτό το βιμα είναι αναγκαίο ϊςτε να εξαλειφκεί θ επιρροι του πλάτουσ και του φψουσ του ςχιματοσ ςτισ τελικζσ τιμζσ τθσ κάκετθσ και οριηόντιασ προβολισ αντίςτοιχα. Άξια αναφοράσ είναι ότι τα και είναι ιςτογράμματα δζκα κζςεων, οπότε οι πρϊτεσ 11 ςυντελεςτζσ είναι αναγκαίο να υπολογιςτοφν. Ο κβαντιςμόσ των κανονικοποιθμζνων ςυντελεςτϊν περιγράφεται ςτθν Ενότθτα 8.2.3. Επίςθσ, ο αρικμόσ των ςυντελεςτϊν που απαιτοφνται αποφαςίςτθκε μετά από εκτενι αξιολόγθςθ (Ενότθτα 8.5.4). Top Bottom Shape Projections. Ππωσ φαίνεται ςτθν Εικόνα 49, το χαρακτθριςτικό αυτό μπορεί να κεωρθκεί ωσ υπογραφι του ςχιματοσ τθσ λζξθσ. Αυτζσ οι υπογραφζσ οδθγοφν ςε ζνα ιςτόγραμμα 20 κζςεων, όπου οι 10 πρϊτεσ κζςεισ υπολογίηονται από τουσ κβαντιςμζνουσ κανονικοποιθμζνουσ ςυντελεςτζσ του Διακριτοφ Μεταςχθματιςμοφ Συνθμίτονου τθσ Άνω Σχιματοσ εξομαλυμζνθσ και κανονικοποιθμζνθσ προβολισ (Εικόνα 49(γ) και (θ)). Οι υπόλοιπεσ 10 κζςεισ υπολογίηονται από τουσ κβαντιςμζνουσ-κανονικοποιθμζνουσ ςυντελεςτζσ του Διακριτοφ Μεταςχθματιςμοφ Συνθμίτονου τθσ Κάτω Σχιματοσ εξομαλυμζνθσ και κανονικοποιθμζνθσ προβολισ (Εικόνα 49(ε) και (θ)). Για τον υπολογιςμό τθσ Ράνω Σχιματοσ Ρροβολισ, θ εικόνα διατρζχεται από τθν κορυφι ςτον πάτο. Ππωσ φαίνεται ςτθν Εικόνα 49(β) και (η), τθν πρϊτθ φορά που ζνα μαφρο εικονοςτοιχείο ςυναντάται τότε όλα τα υπόλοιπα εικονοςτοιχεία τθσ ίδιασ ςτιλθσ μετατρζπονται ςε μαφρα. Θ Κάτω Σχιματοσ Ρροβολι υπολογίηεται με παρόμοιο τρόπο. Ππωσ απεικονίηεται ςτθν Εικόνα 49(δ) και (κ), θ εικόνα διατρζχεται από τον πάτο μζχρι τθν κορυφι και όλα τα εικονοςτοιχεία μετατρζπονται ςε μαφρα μζχρι να βρεκεί ζνα εικονοςτοιχείο που είναι μαφρο. Οι εξομαλυμζνεσ και κανονικοποιθμζνεσ προβολζσ του Ράνω και Κάτω Σχιματοσ (Εικόνα 49(γ),(ε),(θ) και (ι)) υπολογίηονται με τον ίδιο τρόπο όπωσ υπολογίηεται θ εξομαλυμζνθ και κανονικοποιθμζνθ κάκετθ και οριηόντια προβολι. Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 83

Κεφάλαιο 8 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 84 α) β) γ) δ) ε) ςτ) η) θ) κ) ι) Εικόνα 49 Οπτικι απεικόνιςθ του υπολογιςμοφ τθσ Άνω και Κάτω χιματοσ Προβολισ για τθν εικόνα τθσ λζξθσ «Returns» και το ςχιμα μίασ καμιλασ: (α) Η αρχικι εικόνα τθσ λζξθσ (β) Η αρχικι Άνω χιματοσ προβολι τθσ λζξθσ (γ) Η εξομαλυμζνθ και κανονικοποιθμζνθ προβολι (δ) Η αρχικι Κάτω χιματοσ προβολι τθσ λζξθσ (ε) Η εξομαλυμζνθ και κανονικοποιθμζνθ προβολι (ςτ) Εικόνα που περιζχει το ςχιμα τθσ καμιλασ (η) Η αρχικι Άνω χιματοσ προβολι του ςχιματοσ (θ) Η εξομαλυμζνθ και κανονικοποιθμζνθ προβολι του ςχιματοσ (κ) Η αρχικι Κάτω χιματοσ προβολι του ςχιματοσ (ι) Η εξομαλυμζνθ και κανονικοποιθμζνθ προβολι του ςχιματοσ. 8.2.3 Κβαντοποίηςη Με ςκοπό τθν περαιτζρω ςυμπίεςθ του περιγραφζα, οι τιμζσ των χαρακτθριςτικϊν κβαντοποιοφνται ςε 3bits ανά κζςθ ιςτογράμματοσ οπότε το τελικό μζγεκοσ του είναι bits. Οι τιμζσ των χαρακτθριςτικϊν είναι ςυγκεντρωμζνεσ ςε μικρζσ περιοχζσ οπότε κα πρζπει να κβαντοποιθκοφνε μθ γραμμικά. Επιπλζον, κάκε χαρακτθριςτικό κα πρζπει να κβαντιςτεί ξεχωριςτά κακϊσ δεν ςχετίηονται μεταξφ τουσ. Θ κβαντοποίθςθ πραγματοποιικθκε χρθςιμοποιϊντασ τον αςαφι αλγόρικμο Gustafson Kessel (GK) [GUS79] ο οποίοσ ζχει περιγραφεί ςτθν Ενότθτα 3.2. Θ κβαντοποίθςθ με τον παραπάνω αλγόρικμο ζχει εφαρμοςκεί με επιτυχία και ςε άλλουσ περιγραφείσ [CHA09;CHA08;CHA08A] όπωσ περιγράφεται και ςτθν Ενότθτα 5.2. Επιπλζον, το MPEG-7 κβαντοποιεί και αυτό τουσ ςυνεπτυγμζνουσ του περιγραφείσ. Για να υπολογιςτεί ο πίνακασ κβαντιςμοφ του CSPD (Ρίνακασ 8), ςυγκεντρϊκθκε μία ςυλλογι από εικόνεσ ςχιματοσ και λζξεων από τισ βάςεισ αξιολόγθςθσ. Το πλικοσ των εικόνων επιλζχκθκε αυκαίρετα να είναι 1500 κακϊσ οι αλλαγζσ του αποτελζςματοσ που υπολογίηει ο 84 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ

85 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ Κεφάλαιο 8 αςαφισ αλγόρικμοσ GK είναι αμελθτζεσ για μεγαλφτερεσ ςυλλογζσ. Πίνακασ 8. O Πίνακασ Κβαντιςμοφ του CSPD Θζςθ: 0 (Width to Height) Τιμι 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 0,194 0,358 0,478 0,606 0,733 0,815 0,89 0,975 25,013 26,669 30,004 31,839 35,785 52,873 47,896 58,456 Θζςθ:2-11 (Vertical Projection) Τιμι 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 0,504-0,215-0,09-0,031 0,004 0,069 0,392 1,412 6,438 17,255 39,173 70,481 93,974 27,642 4,586 61,264 Θζςθ: 12 21 (Horizontal Projection) Τιμι 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7-0,456-0,194-0,09-0,035 0,003 0,064 0,252 1,414 9,781 21,917 47,372 76,465 90,791 38,51 9,305 6984,45 Θζςθ: 22 31 (Top Shape Projection) Τιμι 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7-0,438-0,126-0,049-0,014 0,003 0,054 0,505 1,413 4,204 24,39 66,304 133,712 162,913 31,417 3,587 94,665 Θζςθ: 32 41 (Bottom Shape Projection) Τιμι 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7-0,677-0,136-0,003 0,079 0,206 0,436 0,885 1,413 4,045 15,185 51,367 31,653 21,257 11,209 6,465 155,284 Από τθν παραπάνω ςυλλογι, δθμιουργικθκαν ςφνολα δειγμάτων για κάκε χαρακτθριςτικό. Οπότε υπολογίςκθκαν 1500 ( ) δείγματα για το Weight to Height Ratio, 15000 ( ) δείγματα για το Vertical Projection, 15000 ( ) δείγματα για το Horizontal Projection, 15000 ( ) για το Top Shape Projection και 15000 ( ) για το Bottom Shape Projection. Αυτά τα ςφνολα δειγμάτων ειςιχκθςαν ωσ δεδομζνα ειςόδου ςτον αςαφι αλγόρικμο GK, ο οποίοσ τα διαχωρίηει ςε περιοχζσ, μετατρζπει κάκε τιμι από τθν περιοχι των πραγματικϊν αρικμϊν ςτθν περιοχι των ακζραιων, - ι ςτθν περιοχι των δυαδικϊν αρικμϊν, -. Ο αςαφισ αλγόρικμοσ παράγει 8 κλάςεισ, οι οποίεσ ορίηονται από ζνα κζντρο και ζναν πίνακα που προςαρμόηεται ανάλογα με τθν κατανομι των δεδομζνων μζςα ςτθν κλάςθ. Κάκε τιμι μετατρζπεται ςτθν κοντινότερθ απόςταςθ με τθν αντίςτοιχθ ακζραια/δυαδικι τιμι ςφμφωνα με τθν Εξίςωςθ (3.3) ςτθν Ενότθτα 3.2. Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 85

Κεφάλαιο 8 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 86 Τζλοσ, οι ζξοδοι τθσ κβαντοποίθςθσ των χαρακτθριςτικϊν ςυγκεντρϊνονται ςε ζνα ιςτόγραμμα 41 κζςεων, ςτο οποίο τθν 1 θ κζςθ καταλαμβάνει το χαρακτθριςτικό Width to Height Ration, τισ 3 θ 11 θ κζςεισ το χαρακτθριςτικό Vertical Projection, τισ 12 θ 21 θ κζςεισ το χαρακτθριςτικό Horizontal Projection, τισ 22 θ 31 θ κζςεισ το χαρακτθριςτικό Top Shape Projection και τισ 32 θ -41 θ κζςεισ το χαρακτθριςτικό Bottom Shape Projection όπωσ απεικονίηεται ςτθν Εικόνα 47. Επιπλζον, το schema του προτεινόμενου CSPD περιγραφζασ ωσ επζκταςθ του schema των οπτικϊν περιγραφζων του MPEG-7 παρουςιάηεται ςτθν Εικόνα 50. <?xml version="1.0" encoding="utf-8"?> <schema xmlns="http://www.w3.org/2001/xmlschema" xmlns:mpeg7="urn:mpeg:mpeg7:schema:2004" xmlns:cspdns="cspdns" targetnamespace="cspdns"> <import namespace="urn:mpeg:mpeg7:schema:2004" schemalocation="mpeg7-2004.xsd"/> <complextype name="cspdtype" final="#all"> <complexcontent> <extension base="mpeg7:visualdtype"> <sequence> <element name="value"> <simpletype> <restriction> <simpletype> <list itemtype="mpeg7:unsigned3" /> </simpletype> <length value="41" /> </restriction> </simpletype> </element> </sequence> </extension> </complexcontent> </complextype> </schema> Εικόνα 50 Σο schema του περιγραφζα CSPD ωσ προζκταςθ του schema των οπτικϊν περιγραφζων του MPEG-7. 8.3 Αλγόριθμοσ Ανάδραςησ με βάςη τη ςυνάφεια Ππωσ ζχει περιγραφεί αναλυτικά ςτθν Ενότθτα 5.1 χρθςιμοποιϊντασ τεχνικζσ ανάδραςθσ με βάςθ τθ ςυνάφεια τα ςυςτιματα ανάκτθςθσ μποροφν να βελτιϊςουν τα ανακτϊμενα αποτελζςματα ςε μεγάλο βακμό. Αρχικά ο χριςτθσ ορίηει ποια από τα ανακτϊμενα ςχιματα είναι ςωςτά και ποια όχι. Ζπειτα ο περιγραφζασ τθσ αρχικισ εικόνασ ερϊτθμα κακϊσ και οι περιγραφείσ των ςχθμάτων που όριςε ο χριςτθσ χρθςιμοποιοφνται ωσ δεδομζνα εκπαίδευςθσ ςτα Support Vector Machines (SVMs). Τζλοσ, τα καινοφργια αποτελζςματα υπολογίηονται από τθ ςυνάρτθςθ απόφαςθσ των εκπαιδευμζνων SVMs μεταςχθματιςμζνθ να ςυμπεριφζρεται ωσ μζγεκοσ ομοιότθτασ. Υλοποιικθκε ο αλγόρικμοσ ανάδραςθσ με βάςθ τθ ςυνάφεια ϊςτε να αξιολογθκεί θ ςυμπεριφορά του προτεινόμενου περιγραφζα ςε παρόμοιεσ τεχνικζσ. Ππωσ παρουςιάςτθκε ςτθν Ενότθτα 3.3, θ δυςκολία των SVMs ζγκειται ςτθν εφρεςθ των κατάλλθλων τιμϊν των παραμζτρων. Οι τιμζσ των παραμζτρων του SVMs που χρθςιμοποιείται 86 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ

87 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ Κεφάλαιο 8 για τθ βελτίωςθ των ανακτϊμενων αποτελεςμάτων και υπολογίςτθκαν με τον αλγόρικμο Parameter Estimation (Ενότθτα 3.3) είναι και. Θ Εικόνα 51 απεικονίηει τθ δομι τθσ τεχνικισ ανάδραςθσ με βάςθ τθ ςυνάφεια. Πταν το ςφςτθμα παρουςιάηει τα αρχικά αποτελζςματα ανάκτθςθσ ςτον χριςτθ, αυτόσ/αυτι ζχει τθ δυνατότθτα οριςμοφ μιασ ι περιςςοτζρων εικόνων ωσ ςωςτά ι λάκοσ ανακτϊμενεσ. Το ςφςτθμα χρθςιμοποιεί τουσ περιγραφείσ αυτϊν των εικόνων και μαηί με τον περιγραφζα τθσ αρχικισ εικόνασ ερϊτθμα ωσ δεδομζνα εκπαίδευςθσ ενόσ SVMs. Ζπειτα, βακμολογεί όλα τα ςχιματα που υπάρχουν ςτθ βάςθ δεδομζνων ςφμφωνα με τθν παρακάτω εξίςωςθ: ( ) { } ( ) ( ) ( ) (8.6) { ( { }) ( ) ( ) ( ) Θ παραπάνω εξίςωςθ είναι ςτθν ουςία θ κανονικοποίθςθ τθσ ςυνάρτθςθσ απόφαςθσ των SVMs, θ οποία παρουςιάςτθκε ςτθν Ενότθτα 3.3 (Εξίςωςθ (3.18)). Θ ( ) παίρνει τιμζσ από 0 ζωσ 100 και αντιπροςωπεφει τθν τιμι ςυμμετοχισ του δεδομζνου ςτθν κλάςθ 1. Οπότε το ςφςτθμα παρουςιάηει όλα τα ςχιματα ςε φκίνουςα ςειρά ςε ςχζςθ με τθ βακμολογία τουσ. Στθ ςυνζχεια ο χριςτθσ μπορεί να ορίςει ξανά καινοφργιεσ εικόνεσ ωσ ςωςτζσ ι λάκοσ ανακτϊμενεσ. Αυτι θ διαδικαςία μπορεί να επαναλθφκεί μζχρι ο χριςτθσ να είναι ικανοποιθμζνοσ με τα αποτελζςματα ανάκτθςθσ. Στθν Ενότθτα 8.5.4 παρουςιάηεται θ επίπτωςθ του παραπάνω αλγορίκμου ανάδραςθσ με βάςθ τθ ςυνάφεια ςτα αρχικά αποτελζςματα ανάκτθςθσ ςε τρεισ διαφορετικζσ βάςεισ εικόνων ςχθμάτων. Ραρουςίαςθ των Αποτελεςμάτων ςτο Χριςτθ Υπολογιςμόσ των Πμοιων Σχθμάτων ΒΑΗ ΔΕΔΟΜΕΝΩΝ Ο Χριςτθσ Ορίηει τα Σχιματα ωσ Σωςτά ι Λάκοσ Δθμιουργία των Δεδομζνων Εκπαίδευςθσ Εκπαίδευςθ των SVMs Εικόνα 51 Η δομι τθσ τεχνικισ ανάδραςθσ με βάςθ τθ ςυνάφεια 8.4 Μζτρο Ομοιότητασ Για μζτρο ομοιότθτασ προτείνεται θ παρακάτω τροποποιθμζνθ Minkowski L 1 απόςταςθ θ οποία ςτθρίηεται ςτον προτεινόμενο περιγραφζα: Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 87

Κεφάλαιο 8 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 88 ( ) ( ) ( ).( ) ( ) ( ) / (8.7) Θ ( ) είναι θ απόςταςθ των περιγραφζων ( ) και ( ) ενϊ είναι θ κζςθ του ιςτογράμματοσ του περιγραφζα. Το πλεονζκτθμα τθσ παραπάνω τροποποιθμζνθσ Minkowski L 1 απόςταςθ είναι ότι εκμεταλλεφεται τθν ικανότθτα του Διακριτοφ Μεταςχθματιςμοφ Συνθμίτονου να αποκθκεφει περιςςότερθ πλθροφορία ςτουσ πρϊτουσ ςυντελεςτζσ. Για παράδειγμα, θ πλθροφορία τθσ ομοιότθτασ του δεφτερου ςυντελεςτι είναι ποιο ςθμαντικι από αυτιν του δζκατου ςυντελεςτι. Αυτι θ υπόκεςθ αποδεικνφεται ςωςτι και από τα πειραματικά αποτελζςματα όπωσ αυτά παρουςιάηονται ςτθν Ενότθτα 8.5.4. Το προτεινόμενο μζτρο ομοιότθτασ αποδείχκθκε προτιμθτζο από ότι οι αποςτάςεισ Minkowski L 1, L 2 (Ευκλείδεια Απόςταςθ), Bhattacharyya [KAI67] και non-binary Tanimoto coefficient [CHI96]. 8.5 Αξιολόγηςη 8.5.1 Ειςαγωγή Με ςκοπό τθν αξιολόγθςθ τθσ γενικισ εφαρμογισ του επιλζχκθκαν τρεισ διαφορετικζσ βάςεισ εικόνων ςχθμάτων. Θ πρϊτθ είναι θ MPEG-7 CE1 Set B [KIM00] βάςθ δεδομζνων. Αποτελείται από 1400 ςχιματα οργανωμζνα ςε 70 διαφορετικζσ ομάδεσ αντιπροςωπεφοντασ πραγματικά αντικείμενα τα οποία ζχουν φυςικζσ παραμορφϊςεισ ςτο ςχιμα τουσ. Δθμιουργικθκε από το MPEG-7 για τθν αξιολόγθςθ των αποτελεςμάτων ανάκτθςθ των περιγραφζων ςχιματοσ τουσ. Το πλεονζκτθμα χρθςιμοποιϊντασ μία πρότυπθ βάςθ δεδομζνων είναι θ ευκολία ςφγκριςθσ του CSPD με όλουσ τουσ υπόλοιπουσ περιγραφείσ ςχιματοσ που παρουςιάηονται ςτθ βιβλιογραφία. Θ δεφτερθ βάςθ αποτελείται από 20 ςελίδεσ από τθ ςυλλογι των γραπτϊν του George Washington [LAV04] που βρίςκονται ςτθν Βιβλιοκικθ του Κογκρζςου. Συνολικά αποτελείται από 4847 χειρόγραφεσ λζξεισ από τον George Washington. Θ Τρίτθ βάςθ αποτελείται από χειρόγραφα ζγγραφα γραμμζνα ςτθν ελλθνικι γλϊςςα. Συνολικά περιζχονται 173 λζξεισ από διάφορα άτομα ομαδοποιθμζνα ςε 29 διαφορετικζσ ομάδεσ λζξεων χρθςιμοποιϊντασ μικρά ι κεφαλαία γράμματα. Θ επόμενθ περιγράφει τθ δομι του ςυςτιματοσ ανάκτθςθσ που χρθςιμοποιικθκε για τθν αξιολόγθςθ του προτεινόμενου περιγραφζα, θ Ενότθτα 8.5.3 αναφζρεται ςτο τρόπο υλοποίθςθσ αυτοφ του ςυςτιματοσ και τζλοσ θ Ενότθτα 8.5.4 παρουςιάηει τα αποτελζςματα των πειραμάτων που διεξιχκθςαν. 8.5.2 Η Δομή του Συςτήματοσ Ανάκτηςησ Θ γενικι δομι του ςυςτιματοσ ανάκτθςθσ που χρθςιμοποιεί τον CSPD απεικονίηεται ςτθν Εικόνα 52 και δεν ζχει μεγάλθ διαφορά από αυτό που παρουςιάςτθκε ςτο προθγοφμενο 88 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ

89 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ Κεφάλαιο 8 κεφάλαιο. Αποτελείται από δφο διαφορετικζσ διαδικαςίεσ: τθν Οffline και τθν Online διαδικαςία. Στθν Offline διαδικαςία, οι εικόνεσ αναλφονται και ο προτεινόμενοσ περιγραφζασ υπολογίηεται για κάκε μία και αποκθκεφεται ςε μία βάςθ δεδομζνων. Ειδικά για τα χειρόγραφα αντικείμενα εφαρμόηεται μία τεχνικι δυαδικοποίθςθσ και θ τεχνικι των Συνδεδεμζνων Αντικειμζνων (ΣΑ) [GON02] ϊςτε να εντοπιςτοφν τα αρχικά όρια των λζξεων [KAV02]. Θ δυαδικοποίθςθ πετυχαίνεται με τθν εφαρμογι τθσ τεχνικισ Sauvola [SAU97] κακϊσ επιφζρει τα καλφτερα αποτελζςματα [BAD05]. OFFLINE Αρχικι Εικόνα ONLINE Ρεριγραφζασ Ερϊτθμα Δυαδικοποίθςθ Υπολογιςμόσ των Αποτελεςμάτων Ανάκτθςθσ Κατάτμθςθ Λζξεων Ραρουςίαςθ των Αποτελεςμάτων Ανάκτθςθσ ςτον Χριςτθ Εξαγωγι Χαρακτθριςτικϊν Δθμιουργία Ρεριγραφζα Ο Χριςτθσ Ορίηει ποια Σχιματα είναι Σωςτά ι Λάκοσ Υπολογιςμόσ των Καινοφργιων Αποτελεςμάτων ΒΑΗ ΔΕΔΟΜΕΝΩΝ Εικόνα 52 Η δομι του ςυςτιματοσ ανάκτθςθσ που χρθςιμοποιεί τον προτεινόμενο περιγραφζα. Σα κίτρινα πλαίςια υλοποιικθκαν μόνο για τα χειρόγραφα ζγγραφα. 8.5.3 Υλοποίηςη Συςτήματοσ Ανάκτηςησ Το ςφςτθμα ανάκτθςθσ υλοποιικθκε (Εικόνα 53) με τθ βοικεια του Visual Studio 2008 και βαςίηεται ςτθν ζκδοςθ 3.5 τθσ.νετ πλατφόρμασ τθσ Microsoft. Οι γλϊςςεσ προγραμματιςμοφ που χρθςιμοποιικθκαν ιτανε θ XAML/WPF (για τθν αλλθλεπίδραςθ με τον χριςτθ) και θ C#. Θ εφαρμογι είναι υλοποιθμζνθ ςτθν διεφκυνςθ http://orpheus.ee.duth.gr/cspd. 8.5.4 Ρειραματικά Αποτελζςματα Για να αξιολογιςουμε τον προτεινόμενο περιγραφζα χρθςιμοποιικθκαν δφο μετρικά μεγζκθ μζτρθςθσ τθσ ποιότθτασ των ανακτϊμενων αποτελεςμάτων. Αυτά είναι το Average Normalized Modified Retrieval Rank (ANMRR) και θ καμπφλθ Precision/Recall και κατά επζκταςθ το Mean Average Precision. Τα παραπάνω μεγζκθ παρουςιάςτθκαν ςτθν Ενότθτα 3.4. Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 89

Κεφάλαιο 8 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 90 (α) (β) Εικόνα 53 (γ) (α) Η οπτικι απεικόνιςθ του υλοποιθμζνου υςτιματοσ Ανάκτθςθσ (β) Σα αποτελζςματα ανάκτθςθσ χρθςιμοποιϊντασ τον προτεινόμενο αλγόρικμο ανάδραςθσ με βάςθ τθν ςυνάφεια (γ) Οι τιμζσ των μεγεκϊν Precision, Recall και NMRR για τριάντα αναηθτιςεισ χρθςιμοποιϊντασ τθ βάςθ Washington (δ) Η απεικόνιςθ των ςταδίων υπολογιςμοφ του χαρακτθριςτικοφ Top Shape ενεργοποιϊντασ το Debug Mode». (δ) Ρρϊτο Ρείραμα: Αρχικά αξιολογικθκε ο αντίκτυποσ του αρικμοφ των ςυντελεςτϊν του Διακριτοφ Μεταςχθματιςμοφ Συνθμίτονου (ΔΜΣ) που επιλζγονται κατά τθν εξαγωγι των χαρακτθριςτικϊν ςτα αποτελζςματα ανάκτθςθσ. Το πείραμα χρθςιμοποιεί τθ βάςθ MPEG-7 CE1 Set B και όλα τα ςχιματα που περιζχει χρθςιμοποιικθκαν ωσ ερωτιματα (ςυνολικά 1400 ερωτιματα). Κάκε χαρακτθριςτικό χρθςιμοποιικθκε μόνο του ωσ περιγραφζασ. Οι Εικόνα 54 και Εικόνα 55 απεικονίηουν το MAP και το ANMRR, αντίςτοιχα, των αποτελεςμάτων ανάκτθςθσ ςε ςχζςθ με τον αρικμό των ςυντελεςτϊν του Διακριτοφ Μεταςχθματιςμοφ Συνθμίτονου ξεκινϊντασ από το πρϊτο και αυξάνοντασ ςυνζχεια κατά ζνα ςε κάκε ζνα χαρακτθριςτικό. Τα αποτελζςματα του πειράματοσ δείχνουν ότι θ πλθροφορία που είναι αποκθκευμζνθ μετά το ενδζκατο ςυντελεςτι δεν ζχει μεγάλο αντίκτυπο ςτα αποτελζςματα ανάκτθςθσ και είναι αςφαλζσ να απορριφκοφν. 90 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ

91 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ Κεφάλαιο 8 100 80 Vertical Projection 100 80 Horizontal Projection 60 60 40 40 20 20 0 1 6 11 16 21 26 31 36 41 46 0 1 6 11 16 21 26 31 36 41 46 (α) (β) 100 80 Top Shape Projection 100 80 Bottom Shape Projection 60 60 40 40 20 0 1 6 11 16 21 26 31 36 41 46 20 0 1 6 11 16 21 26 31 36 41 46 Εικόνα 54 (γ) Σο Mean Average Precision ςε ςχζςθ με τον αρικμό ςυντελεςτϊν του ΔΜ που χρθςιμοποιοφνται για το χαρακτθριςτικό (α) Vertical Projection (β) Horizontal Projection (γ) Top Shape Projection (δ) Bottom Shape Projection (δ) 1 0,8 Vertical Projection 1 0,8 Horizontal Projection 0,6 0,6 0,4 0,4 0,2 0,2 0 1 6 11 16 21 26 31 36 41 46 0 1 6 11 16 21 26 31 36 41 46 (α) (β) 1 0,8 Top Shape Projection 1 0,8 Bottom Shape Projection 0,6 0,6 0,4 0,4 0,2 0,2 0 1 6 11 16 21 26 31 36 41 46 0 1 6 11 16 21 26 31 36 41 46 (γ) (δ) Εικόνα 55 Σο ANMRR ςε ςχζςθ με τον αρικμό ςυντελεςτϊν του ΔΜ που χρθςιμοποιοφνται για το χαρακτθριςτικό (α) Vertical Projection (β) Horizontal Projection (γ) Top Shape Projection (δ) Bottom Shape Projection Δεφτερο Ρείραμα: Το πείραμα αυτό ςχετίηεται με τθν κβαντοποίθςθ του περιγραφζα. Συγκεκριμζνα με το πλικοσ των bits που κβαντοποιείται κάκε κζςθ του περιγραφζα. Υπολογίςκθκε θ Precision/Recall καμπφλθ και το ANNMR των αποτελεςμάτων ανάκτθςθσ όταν Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 91

Κεφάλαιο 8 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 92 οι τιμζσ του περιγραφζα κβαντιςτοφν από 1 bits/κζςθ ςε 5bits/κζςθ. Το πείραμα χρθςιμοποιεί τθ βάςθ MPEG-7 CE1 Set B και όλα τα ςχιματα που περιζχει χρθςιμοποιικθκαν ωσ ερωτιματα (ςυνολικά 1400 ερωτιματα). Θ Εικόνα 56 απεικονίηει κακαρά ότι 3 bits/κζςθ είναι αρκετά χωρίσ να επιβαρφνονται τα αποτελζςματα ανάκτθςθσ. α) 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 1 bit 2 bits 3 bits 4 bits 5 bits β) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 1 bit 2 bits 3 bits 4 bits 5 bits Εικόνα 56 Ο αρικμόσ των bits που κβαντοποιείται ανά κζςθ περιγραφζα ςε ςχζςθ με (α) Precision/Recall καμπφλθ (β) ANMRR Τρίτο Ρείραμα. Θ Εικόνα 57 απεικονίηει τισ τιμζσ τθσ καμπφλθσ Precision/Recall και ANMRR ςε ςχζςθ με πζντε μεγζκθ ομοιότθτασ. Αυτά είναι θ προτεινόμενθ τροποποιθμζνθ απόςταςθ Minkowski L 1 και οι αποςτάςεισ Minkowski L 1, L 2 (Ευκλείδεια Απόςταςθ), Bhattacharyya και non-binary Tanimoto coefficient. Το πείραμα χρθςιμοποιεί τθ βάςθ MPEG-7 CE1 Set B και όλα τα ςχιματα που περιζχει χρθςιμοποιικθκαν ωσ ερωτιματα (ςυνολικά 1400 ερωτιματα). Τα πειραματικά αποτελζςματα αποδεικνφουν ότι το προτεινόμενο μζγεκοσ ομοιότθτασ αποδίδει καλφτερα αποτελζςματα ανάκτθςθσ. Τζταρτο Ρείραμα: Το τζταρτο πείραμα αςχολείται με τθν επίδραςθ του αλγόρικμου τθσ ανάδραςθσ με βάςθ τθ ςυνάφεια ςτα αποτελζςματα ανάκτθςθσ και για τισ τρεισ βάςεισ δεδομζνων. Αρχικά υπολογίηεται θ καμπφλθ Precision/Results και θ τιμι ANMRR των αρχικϊν αποτελεςμάτων ανάκτθςθσ. Μετά, ο χριςτθσ επιλζγει τισ πρϊτεσ δφο ςωςτζσ και δφο λάκοσ εικόνεσ από τα αποτελζςματα και υπολογίηονται ξανά θ καμπφλθ Precision/Results και θ τιμι ANMRR. Τζλοσ, μία δεφτερθ επανάλθψθ του αλγόρικμου τθσ ανάδραςθσ με βάςθ τθ ςυνάφεια αξιολογείτε. Σε αυτιν ο χριςτθσ επιλζγει τισ επόμενεσ δφο ςωςτζσ και λάκοσ εικόνεσ και τα 92 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ

93 Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ Κεφάλαιο 8 μετρικά μεγζκθ υπολογίηονται ξανά. α) 90 70 50 30 Weighted Minkowski L1 Minkowski L1 Minkowski L2 Bhattacharyya Tanimoto 10 0 10 20 30 40 50 60 70 80 90 100 β) 0,45 0,4 0,35 0,3 0,25 0,2 Weighted Minkowski L1 Minkowski L1 Minkowski L2 Bhattacharyya Tanimoto Εικόνα 57 (α) Η Precision/Recall καμπφλθ για τα πζντε μεγζκθ ομοιότθτασ (β) Οι ANMRR τιμζσ για τα πζντε μεγζκθ ομοιότθτασ. Στθν MPEG-7 CE1 Set B (Εικόνα 58(α) και Εικόνα 58(β)) βάςθ ζγιναν ςυνολικά 1400 ερωτιματα (όςα είναι ςυνολικά τα ςχιματα), ςτθ βάςθ με τισ χειρόγραφεσ λζξεισ του George Washington (Εικόνα 58(γ) και Εικόνα 58(δ)) ζγιναν 4847 ερωτιματα (όςα είναι ςυνολικά οι λζξεισ) και ςτισ ελλθνικζσ χειρόγραφεσ λζξεισ (Εικόνα 58(ε) και Εικόνα 58(ςτ)) ζγιναν 173 ερωτιματα (όςα είναι ςυνολικά οι λζξεισ). Ππωσ φαίνεται από τα αποτελζςματα που παρουςιάηονται ςτθν Εικόνα 58, ο προτεινόμενοσ περιγραφζασ αποδίδει πολφ καλά και ςτθν ανάκτθςθ χειρόγραφων λζξεων και ςχθμάτων. Επιπλζον, θ τεχνικι ανάδραςθ με βάςθ τθ ςυνάφεια για τον προτεινόμενο περιγραφζα αποδίδει πολφ ικανοποιθτικά. Μάλιςτα ςτθν δεφτερθ επανάλθψθ χρθςιμοποιϊντασ τθ βάςθ με τισ ελλθνικζσ χειρόγραφεσ λζξεισ κατάφερε να φζρει τα «τζλεια» με βάςθ το μζγεκοσ NMRR αποτελζςματα (Εικόνα 58(ςτ)). Συνεπτυγμζνοσ Ρεριγραφζασ Σχιματοσ 93