Περίληψη Διδακτορικής Διατριβής του Μ.Φ. Κωνσταντίνου Ζαγόρη

Σχετικά έγγραφα
DIP_06 Συμπίεση εικόνας - JPEG. ΤΕΙ Κρήτης

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακή Εικόνα. Χωρική ανάλυση Αρχεία εικόνων

MPEG7 Multimedia Content Description Interface

Ανάκτηση πολυμεσικού περιεχομένου

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

DIP_01 Εισαγωγή στην ψηφιακή εικόνα. ΤΕΙ Κρήτης

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Κεφ. 2 Θέματα Θεωρητικής Επιστήμης Υπολογιστών. Κοντογιάννης Βασίλειος ΠΕ19

Αναγνώριση Προτύπων Ι

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Πρόλογος... 7 ΕΙΔΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Συστήματα Πολυμέσων. Ενότητα 7: Συμπίεση Εικόνας κατά JPEG. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

[Υπόδειξη: Τα αγαθά που χάνουν την υλική τους υπόσταση και τις ιδιότητες τους μετά την πρώτη χρήση τους ονομάζονται καταναλωτά.]

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Τι είναι τα πολυμέσα;

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Συμπίεση Δεδομένων

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακό βίντεο. Αναλογικό βίντεο / ψηφιοποίηση Διεπαφές Εκτίμηση κίνησης μπλοκ

2.0 ΒΑΣΙΚΕΣ ΓΝΩΣΕΙΣ-ΟΡΟΛΟΓΙΕΣ

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

DIP_01 Εισαγωγήστην ψηφιακήεικόνα. ΤΕΙ Κρήτης

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

ΒΕΣ 04: Συµπίεση και Μετάδοση Πολυµέσων. Περιεχόµενα. Βιβλιογραφία. Εικόνες και Πολυµεσικές Εφαρµογές. Ψηφιακή Επεξεργασία Εικόνας.

MPEG-4 : Διαδραστικές εφαρμογές πολυμέσων

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

. Βάθος χρώματος: Πραγματικό χρώμα. . Βάθος χρώματος: Αποχρώσεις του γκρίζου 8bit. . Βάθος χρώματος: Αποχρώσεις του γκρίζου 1bit.

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Σύστημα. Αντώνης Μαϊργιώτης

ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014

Ερωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Γ ΚΟΙΝΟΤΙΚΟ ΠΛΑΙΣΙΟ ΣΤΗΡΙΞΗΣ

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Projects Στα Ειδικά Θέµατα Επεξεργασίας Σήµατος και Εικόνας

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εφαρμογές που συνδυάζουν ταυτόχρονα πολλαπλά μέσα : Κί Κείμενο, Εικόνα, Ήχος, Video, Animation. Στα υπερμέσα η πρόσπέλαση της πληροφορίας γίνεται

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης

Εφαρμογές Πληροφορικής

Ανάκτηση Πληροφορίας

Εισαγωγή στην επιστήμη των υπολογιστών

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

DIP_05 Τµηµατοποίηση εικόνας. ΤΕΙ Κρήτης

Δημιουργία μοντέλου αισθητικών κριτηρίων για αποτελεσματικό οπτικό σχεδιασμό εκπαιδευτικών ιστότοπων

Συστήματα Αυτόματου Ελέγχου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

Δ10. Συμπίεση Δεδομένων

Συστήματα Πολυμέσων. Ενότητα 8: Συμπίεση Εικόνας κατά JPEG Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 6 η : Συμπίεση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

Group (JPEG) το 1992.

Αλγόριθμος Ομαδοποίησης

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM).

Εισαγωγή. Τεχνολογία Πολυµέσων 01-1

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Ασκήσεις Επεξεργασίας Εικόνας

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Γραφικά & Οπτικοποίηση. Κεφάλαιο 1. Εισαγωγή. Γραφικά & Οπτικοπίηση: Αρχές & Αλγόριθμοι Κεφάλαιο 1

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

Εισαγωγή στην τεχνική της ψηφιοποίησης των διαφανειών και των μικροταινιών των χειρογράφων της συλλογής του Π.Ι.Π.Μ

Τεχνολογία Πολυμέσων. Ενότητα # 14: Κωδικοποίηση βίντεο: Η.264 Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Βάσεις δεδομένων και Microsoft Access

Εννοιολογική Ομοιογένεια

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Η Διωνυμική Κατανομή. μαθηματικών. 2 Ο γονότυπος μπορεί να είναι ΑΑ, Αα ή αα.

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

Οπτική αντίληψη. Μετά?..

ΠΕΡΙΕΧΟΜΕΝΑ. Μονοδιάστατοι πίνακες Πότε πρέπει να χρησιμοποιούνται πίνακες Πολυδιάστατοι πίνακες Τυπικές επεξεργασίες πινάκων

Ακέραιος Γραμμικός Προγραμματισμός

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Transcript:

Περίληψη Διδακτορικής Διατριβής του Μ.Φ. Κωνσταντίνου Ζαγόρη O όρος «έγγραφο» χρησιμοποιείται με πάρα πολλές διαφορετικές ερμηνείες στη σημερινή εποχή, τόσο στην καθημερινή ζωή όσο και στην επιστήμη της πληροφορικής. Όμως γενικά αναφέρεται ως ένα σύνολο πληροφορίας ικανή να διαβαστεί από τους ανθρώπους. Παραδοσιακά, τα κατασκευασμένα από χαρτί έγγραφα αποτελούνται από μία μίξη εικόνων και κειμένων σε ένα σύνολο εκτυπωμένων χαρτιών. Όμως τα ηλεκτρονικά έγγραφα εμφανίζονται με πολλές και διαφορετικές μορφές. Δύο από τις πιο σημαντικές και ερευνητικά ενδιαφέρουσες κατηγορίες εγγράφων είναι τα δομημένα ηλεκτρονικά έγγραφα (structured electronic documents) και τα ηλεκτρονικά έγγραφα-εικόνες (image-based electronic documents). Τα δομημένα ηλεκτρονικά έγγραφα συνήθως περιέχουν εννοιολογικά και συντακτικά χαρακτηριστικά, που καθιστούν αυτό το είδος εγγράφων ιδανικό για περαιτέρω επεξεργασία αλλά και για το μετασχηματισμό τους σε άλλης μορφής δομημένων εγγράφων. Δυστυχώς όμως έχουν αρκετούς περιορισμούς ως προς τις δυνατότητες απεικόνισης ενός εγγράφου. Αντίθετα, τα έγγραφα-εικόνες είναι μία ακριβή απεικόνιση ενός εγγράφου, εικονοστοιχείο προς εικονοστοιχείο αλλά περιέχουν ελάχιστες πληροφορίες για τη ροή του κειμένου ή για τον τρόπο παρουσίασης των διάφορων μερών του εγγράφου (επικεφαλίδες, τίτλοι). Παρόλο που υπάρχει η δυνατότητα υπομνηματισμού του κάθε εγγράφου με ένα σύνολο μεταπληροφοριών ώστε να διευκολύνεται η ανάκτησή του, το καθεαυτό έγγραφο δεν προσφέρει καμία επιπλέον πληροφορία από αυτήν που βλέπει και αλληλεπιδρά ο χρήστης ως εικόνα. Τέτοιου είδους έγγραφα δημιουργούνται κυρίως από ηλεκτρονικούς σαρωτές (scanners) που υπάρχουν πλέον σε όλα τα σύγχρονα γραφεία. Τα έγγραφαεικόνες μπορούν να απεικονιστούν με τα διάφορα format εικόνων όπως τα JPEG, GIF, TIFF κ.τ.λ. Επιπλέον, τα έγγραφα-εικόνες δεν διαθέτουν καμία πληροφορία για τα εννοιολογικά και συντακτικά χαρακτηριστικά του κειμένου που περιέχουν εκτός από το πως κατανέμονται τα ίδια τα εικονοστοιχεία (ακριβώς ότι προσφέρει μια οποιαδήποτε εικόνα). Όμως, το μεγάλο πλεονέκτημά τους είναι ότι προσφέρουν ένα ακριβές αντίγραφο του εγγράφου ανεξάρτητα από το περιεχόμενο του. Δηλαδή ένα έγγραφο-εικόνα μπορεί εύκολα να αναπαραστήσει κείμενο, γραφικά, μαθηματικά σύμβολα, χημικές εξισώσεις, φωτογραφίες, σχεδιαγράμματα κ.τ.λ. Οι μόνοι περιορισμοί των εγγράφων-εικόνων που επιβάλλονται προέρχονται από τα διάφορα format των εικόνων (JPEG, BMP κ.τ.λ.). Παραδείγματα τέτοιων περιορισμών είναι η ανάλυση και το βάθος του χρώματος. Στα τελευταία χρόνια υπάρχει ταχεία ανάπτυξη του μεγέθους των πολυμεσικών δεδομένων λόγω της ευκολίας δημιουργίας τους. Ένα από τα κυριότερα συστατικά των πολυμεσικών δεδομένων είναι οι ψηφιακές εικόνες. Καθημερινά, παράγονται giga-bytes εικόνων, με αποτέλεσμα, να δημιουργούνται τεράστια μεγέθη πληροφορίας. Η

αποτελεσματική εκμετάλλευση όλης αυτής της πληροφορίας απαιτεί έξυπνες τεχνικές και νέα τεχνολογία. Για το σκοπό αυτό, η αποθήκευση των πολυμεσικών πληροφοριών πρέπει να οργανωθεί με τέτοιον τρόπο ώστε να επιτρέπει την αποδοτική πλοήγηση, αναζήτηση και ανάκτησή τους. Μέχρι πρόσφατα δεν υπήρχαν ευρέως αποδεκτά πρότυπα για την περιγραφή των οπτικών περιεχομένων των εικόνων. Το MPEG-7 ή όπως αλλιώς λέγεται «Moving Pictures Expert Group Multimedia Content Description Interface» είναι η πρώτη σοβαρή προσπάθεια προς αυτήν την κατεύθυνση. Το MPEG-7 έχεις ως αντικείμενο να καθορίσει ένα πρότυπο τρόπο περιγραφής διαφόρων τύπων πολυμεσικής πληροφορίας. Ο αντικειμενικός του σκοπός είναι να διευκολύνει τη γρήγορη και την αποδοτική αναγνώριση της ανάλογης και ενδιαφέρουσας πληροφορίας, που υπάρχει στο πολυμεσικό μέσο καθώς και τη διαχείρισή της. Οι περιγραφείς αυτοί βασίζονται και σε κείμενο αλλά και σε μη κείμενο, όπως είναι ορισμένα στατιστικά χαρακτηριστικά. Όπως τα υπόλοιπα μέρη της MPEG οικογένειας, έτσι και το MPEG-7 καθορίζει ένα πρότυπο παρουσίασης της πολυμεσικής πληροφορίας, ικανοποιώντας ένα σύνολο από καθορισμένες απαιτήσεις. Όμως, το MPEG-7 είναι ένα αρκετά διαφορετικό πρότυπο από ότι οι πρόγονοί του. Δηλαδή, ενώ το MPEG-1, MPEG-2 καθώς και το MPEG-4 αντιπροσωπεύουν το περιεχόμενο (the bits), το MPEG-7 αντιπροσωπεύει την πληροφορία που διαχέεται στο περιεχόμενο (the bits about the bits). Ενώ τα πρώτα αναπαράγουν το περιεχόμενο, το τελευταίο πρότυπο περιγράφει το περιεχόμενο. Ακόμα και χωρίς το MPEG-7, υπάρχουν πολύ τρόποι να περιγραφεί το οπτικό περιεχόμενο μιας εικόνας. Αρκετοί από αυτούς χρησιμοποιούνται σήμερα σε διάφορα εμπορικά και ερευνητικά ψηφιακά συστήματα διαχείρισης εικόνων. Όμως, αυτά τα συστήματα δεν επιτρέπουν αναζήτηση σε πολλαπλές αποθήκες πληροφοριών και δε διευκολύνουν την ανταλλαγή περιεχομένου μεταξύ των διαφορετικών βάσεων δεδομένων που χρησιμοποιούν διαφορετικά συστήματα περιγραφής. Όλα αυτά τα προβλήματα ασυμβατότητας λύνονται με τη δημιουργία ενός προτύπου. Ένας πρότυπος τρόπος περιγραφής της πολυμεσικής πληροφορίας επιτρέπει όχι μόνο το περιεχόμενο αλλά και η περιγραφή του να ανταλλάσσεται μεταξύ διαφορετικών συστημάτων. Επιπλέον, καθορίζει ένα περιβάλλον, στο οποίο εργαλεία από διαφορετικά συστήματα να συνεργάζονται μεταξύ τους ώστε να δημιουργήσουν μία πλατφόρμα για διαφανή διαχείριση της πολυμεσικής πληροφορίας. Το κύριο αποτέλεσμα του MPEG-7 είναι η αυξανόμενη διαλειτουργικότητα, η προοπτική να προσφέρει χαμηλού κόστους προϊόντα μέσω της δημιουργία μίας αγοράς από υπηρεσίες που θα στηρίζονται σε ένα κοινό πρότυπο καθώς και μία αυξανόμενη βάση χρηστών που θα χρησιμοποιούν αυτό το πρότυπο. Αυτή η συμφωνία (ένα πρότυπο βασικά είναι μία συμφωνία) μεταξύ των χρηστών, έχει τη δυνατότητα να απλοποιήσει ολόκληρη τη διαδικασία αναγνώρισης του περιεχόμενου. Φυσικά το πρότυπο αυτό θα πρέπει να είναι τεχνολογικά ισχυρό και σωστό αλλιώς θα επικρατήσουν διάφορα εμπορικά πρότυπα, με συνέπεια να διαταράξουν τη διαλειτουργικότητα. Το MPEG-7 ικανοποιεί αυτές τις προϋποθέσεις με βάση τις σημερινές απαιτήσεις, δηλαδή συμβιβάζει το εφικτό με το χρήσιμο. Η παρούσα διατριβή παρουσιάζει πέντε τεχνικές που βελτιώνουν τα συστήματα ανάκτησης εικόνων με βάση το περιεχόμενό τους χρησιμοποιώντας ή επεκτείνοντας το

πρότυπο MPEG-7. Η πρώτη τεχνική μειώνει τις χρωματικές αποχρώσεις μιας εικόνας με την χρησιμοποίηση στατιστικών συστάδων (Clustering) συνδυάζοντας το νευρωνικό ταξινομητή Kohonen Self-Organized Feature Map (KSOFM) και τον ασαφή ταξινομητή Gustafson Kessel (GK). Το χρώμα των ψηφιακών εικόνων είναι από τις σημαντικότερες πληροφορίες που χρησιμοποιούνται στην ψηφιακή επεξεργασία εικόνας. Οι ψηφιακές εικόνες συνήθως περιγράφονται από ένα σύνολο ομοιόμορφων κατανεμημένων εικονοστοιχείων σε ένα δισδιάστατο πλέγμα. Συγκεκριμένα, στις έγχρωμες εικόνες κάθε χρώμα εκφράζεται από ένα διάνυσμα τριών διαστάσεων, οπότε συνήθως ο ολικός αριθμός των διαφορετικών χρωμάτων μπορεί να ξεπεράσει τα 16 εκατομμύρια. Όμως, σε πολλές εφαρμογές όπως η κατάτμηση, η ανάλυση, η συμπίεση και μετάδοση εικόνων είναι επιθυμητή η μείωση των χρωματικών αποχρώσεων. Ο στόχος της μείωσης των χρωματικών αποχρώσεων είναι η ομαδοποίηση N χρωμάτων που περιέχονται σε μία εικόνα σε c ομάδες χρωμάτων όπου c<<n. Στη βιβλιογραφία έχουν προταθεί αρκετές τεχνικές μείωσης των χρωματικών αποχρώσεων μίας εικόνας οι περισσότερες από τις οποίες στηρίζονται στην ανάλυση στατιστικών συστάδων και παράγουν σφαιρικές κλάσεις. Αυτός ο περιορισμός είναι αρκετά σημαντικός σε περιπτώσεις όπου τα ισχυρά χρώματα κατανέμονται στην εικόνα με μησφαιρικό τρόπο. Ένας τρόπος να αντιμετωπισθεί αυτό το πρόβλημα είναι με τη χρησιμοποίηση ταξινομητή που δεν χρησιμοποιεί Ευκλείδεια απόσταση, όπως ο ασαφής ταξινομητής Gustafson Kessel (GK). Όμως, αυτός ο ταξινομητής έχει δύο κύρια μειονεκτήματα. Το πρώτο μειονέκτημά του είναι ότι εξαρτάται από τα αρχικά κέντρα κλάσεων όπου επιλέγονται ψευδοτυχαία. Το δεύτερο μειονέκτημά του είναι ότι λόγω του μεγάλου υπολογιστικού κόστους που έχει και ανάλογα με τις αρχικές τιμές των κέντρων των κλάσεων μπορεί να οδηγήσει σε κατανάλωση μεγάλου χρονικού διαστήματος μέχρι να συγκλίνει σε τιμές που να είναι ικανοποιητικές. Για να ξεπεραστούν όλες οι παραπάνω δυσκολίες η προτεινόμενη τεχνική μείωσης των χρωματικών αποχρώσεων μιας εικόνας βασίζεται στην ανάλυση στατιστικών συστάδων συνδυάζοντας το νευρωνικό ταξινομητή KSOFM και τον ασαφή αλγόριθμο GK. Αρχικά, οι χρωματικές αποχρώσεις μειώνονται με τον KSOFM και οι εξαγόμενες χρωματικές κλάσεις του αρχικοποιούν τον ασαφή αλγόριθμο GK. Τα τελικά αποτελέσματα του GK ορίζουν και τη χρωματική παλέτα της τελικής εικόνας. Η προτεινόμενη τεχνική έχει την ικανότητα να διατηρεί τα κύρια χρώματα μιας εικόνας ακόμα και αν το πλήθος αυτών είναι πολύ μικρό. Επίσης ενοποιεί περιοχές που έχουν παρόμοια χρώματα. Με βάση τα παραπάνω, μπορεί να θεωρηθεί ως μία ισχυρή τεχνική κατάτμησης έγχρωμης ψηφιακής εικόνας. Η μέθοδος που προτείνεται υλοποιήθηκε 1 με τη βοήθεια ενός οπτικού περιβάλλοντος προγραμματισμού για τη γρήγορη ανάπτυξη εφαρμογών (Borland Delphi). 1 http://orpheus.ee.duth.gr/download/pythagoras.zip

Στο παραπάνω πρόγραμμα εκτός από την προτεινόμενη μέθοδο έχουν υλοποιηθεί και αρκετές άλλες τεχνικές μείωσης χρωματικών αποχρώσεων, αλγόριθμοι εύρεσης ακμών καθώς ένα σύνολο από κριτήρια μέτρησης σφάλματος λόγω χρωματικής κβάντωσης. Η δεύτερη μέθοδος που προτείνεται ασχολείται με την ανάδραση με βάση τη συνάφεια, η οποία στηρίζεται σε τέσσερις περιγραφείς όμοιους με αυτούς του MPEG-7. Πολλές φορές, ο χρήστης όταν ψάχνει για ένα σύνολο εικόνων χρησιμοποιώντας μία εικόνα ερώτημα δεν έχει μία ξεκάθαρη αντίληψη για το τι ακριβώς αναζητεί. Δηλαδή, έχει μία γενική ιδέα της αναζητούμενης εικόνας αλλά όχι την πλήρη οπτική απεικόνισή της. Επίσης, πολλές φορές δεν υπάρχει κατάλληλη εικόνα ερώτημα για ανάκτηση. Το προτεινόμενο σύστημα ανάδρασης με βάση τη συνάφεια προσπαθεί να λύσει τα παραπάνω προβλήματα παρέχοντας έναν μηχανισμό βελτίωσης των αποτελεσμάτων της ανάκτησης χρησιμοποιώντας ένα σύνολο από εικόνες ερωτήματα αντί για ένα. Τα παραπάνω πετυχαίνονται παραποιώντας τον αρχικό περιγραφέα ερώτημα με βάση τις επακόλουθες επιλεγμένες από τον χρήστη εικόνες ερωτήματα με σκοπό την κατασκευή του ιδανικού περιγραφέα ερώτημα. Αυτό πραγματοποιείται με τον μετασχηματισμό του διανύσματος του περιγραφέα των εικόνων σε ένα άλλο διάνυσμα με βάση τα εσωτερικά χαρακτηριστικά του. Σε αυτόν θα αποθηκεύεται η πληροφορία που θα δίνεται από τον χρήστη ενώ οι αρχικές τιμές που περιέχει είναι οι τιμές του περιγραφέα της εικόνας ερώτημα. Όταν ο χρήστης επιλέγει μία εικόνα από τα αποτελέσματα της αρχικής ανάκτησης, το διάνυσμα του περιγραφέα της αλλάζει τις τιμές του μετασχηματισμένου διανύσματος. Τα καινούργια αποτελέσματα ανάκτησης εικόνων δημιουργούνται θεωρώντας ως περιγραφέα-ερώτημα αυτόν που είναι αποθηκευμένος στο μετασχηματισμένο διάνυσμα. Για την αξιολόγηση του προτεινόμενου αλγόριθμου ανάδρασης με βάση τη συνάφεια χρησιμοποιήθηκαν δύο γνωστές βάσεις εικόνων: η WANG και η MPEG-7 CCD. H WANG είναι ένα υποσύνολο 1000 επιλεγόμενων εικόνων από τη βάση εικόνων της Corel και είναι χωρισμένη σε 10 κλάσεις των 100 εικόνων η καθεμία. Η Common Color Dataset (MPEG-7 CCD) περιέχει 5000 εικόνες και ένα σύνολο 50 κοινών ερωτημάτων, τα οποία ορίζονται από ένα σύνολο από ground truth εικόνων. Η CCD δημιουργήθηκε στα πλαίσια του MPEG-7 με σκοπό την αξιολόγηση των δικών τους περιγραφέων και περιέχει τηλεοπτικές και αθλητικές εκπομπές καθώς και δελτία ειδήσεων. Όπως φαίνεται και από τα πειραματικά αποτελέσματα, η προτεινόμενη τεχνική βελτιώνει τα αποτελέσματα της αρχικής ανάκτησης με μικρό υπολογιστικό κόστος. Υλοποιήθηκε ένα ολοκληρωμένο σύστημα ανάκτησης εικόνων 2 για το διαδίκτυο που χρησιμοποιεί περιγραφείς παρόμοιους του MPEG-7 καθώς και την προτεινόμενη τεχνική ανάδρασης με βάση τη συνάφεια. Η τρίτη τεχνική ασχολείται με τον εντοπισμό του κειμένου σε εικόνες έγγραφα. Όπως αναφέρθηκε στην σημερινή ηλεκτρονική εποχή παράγονται τεράστιες ποσότητες ψηφιακών εγγράφων. Για να μπορέσουν να αξιοποιηθούν αποτελεσματικά από συστήματα 2 http://www.anaktisi.net

όπως η Οπτική Αναγνώριση Χαρακτήρων (OCR) ή ανάκτηση εγγράφων με την τεχνική του εντοπισμού των λέξεων, θα πρέπει να εντοπιστεί το κείμενο. Η προτεινόμενη μέθοδος εντοπίζει και εξάγει ομοιόμορφο κείμενο σε έγγραφα εικόνες χρησιμοποιώντας την τεχνική της ανάλυσης των συνδεμένων αντικειμένων για την εξαγωγή των αντικειμένων, Δομημένα Συστατικά Εγγράφων (Document Structure Elements) για τη δημιουργία ενός περιγραφέα των αντικειμένων και Support Vector Machines (SVMs) για τον εντοπισμό αυτών που αντιπροσωπεύουν κείμενο. Η τεχνική που προτείνεται έχει την ικανότητα να προσαρμόζεται στις ιδιαιτερότητες της κάθε βάσης εγγράφων εικόνων καθώς τα χαρακτηριστικά που απαρτίζουν τον περιγραφέα ρυθμίζονται ανάλογα. Προσφέρει τη δυνατότητα της αύξησης ή της μείωσης της ταχύτητας εκτέλεσης της τεχνικής εντοπισμού κειμένου μέσω της μεταβολής του μεγέθους του περιγραφέα. Αρχικά εφαρμόζεται ένα στάδιο προ-επεξεργασίας, το οποίο αποτελείται από ένα 5x5 φίλτρο Μεσαίας Τιμής για μειωθεί ο θόρυβος (π.χ. για μη σωστά συντηρημένα έγγραφα) και μία μέθοδος δυαδικοποίησης. Το φίλτρο Μεσαίας Τιμής είναι μία μέθοδος επεξεργασίας μη γραμμικού σήματος και είναι χρήσιμο για τη μείωση θορύβου στις εικόνες. Η δυαδικοποίηση πραγματοποιήθηκε με την γνωστή μέθοδο του Otsu η οποία λειτουργεί μέσου του ιστογράμματος της εικόνας ελαχιστοποιώντας τη διακύμανση μεταξύ των κλάσεων που αντιστοιχούν στο φόντο και στο προσκήνιο. Έπειτα, όλα τα αντικείμενα τις εικόνας εγγράφου εντοπίζονται με την τεχνική των Συνδεμένων Αντικειμένων. Έπειτα αυτά τα πλαίσια διευρύνονται και ενώνονται αναπαριστώντας γραμμές κειμένου. Ο πρωταρχικός στόχος της δημιουργίας των πλαισίων είναι ο εντοπισμός και εξαγωγή όλων των αντικειμένων που περιέχονται σε μία εικόνα - έγγραφο. Το επόμενο στάδιο ασχολείται με την εξαγωγή των χαρακτηριστικών από τα πλαίσια τα οποία κατασκευάζουν έναν περιγραφέα για κάθε ένα από α υτά με τέτοιο τρόπο ώστε να μεγιστοποιείται η διαχωριστικότητα μεταξύ αυτών που περιέχουν και αυτών που δεν περιέχουν κείμενο. Τα χωρικά αυτά χαρακτηριστικά δημιουργούνται από το πλήθος κατάλληλων Δομημένων Συστατικών Εγγράφου (ΔΣΕ) (Document Structure Elements) που περιέχονται σε κάθε πλαίσιο. Αρχικά το περιγραφέας των πλαισίων είναι ένα διάνυσμα 510 διαστάσεων. Επειδή όμως το μέγεθος του περιγράφεα είναι πολύ μεγάλο, το οποίο έχει επίπτωση στις απαιτήσεις της μεθόδου σε υπολογιστική ισχύ και μνήμη εφαρμόζεται μία πρότυπη μέθοδος μείωσής του που ονομάζεται Feature Standard Deviation Analysis of Structure Elements (FSDASE). Ο στόχος του FSDASE είναι η εύρεση αυτών των ΔΣΕ, τα οποία έχουνε μέγιστη Τυπική Απόκλιση στα πλαίσια κειμένου και ελάχιστη Τυπική Απόκλιση στα μη πλαίσια κειμένου καθώς και το αντίστροφο. Οπότε ταξινομεί τα ΔΣΕ με την ικανότητά τους να προσδιορίζουν ποια πλαίσια περιέχουν κείμενο και ποια όχι. Επιπλέον, προσφέρει τη δυνατότητα μείωσης των αρχικών 510 ΔΣΕ σε οποιοδήποτε αριθμό. Με βάση τα αποτελέσματα αξιολόγησης προτείνεται ο αριθμός αυτός να είναι ο 128. Άξια αναφοράς είναι η δυνατότητα του περιγραφέα να αλλάζει και να προσαρμόζεται στις απαιτήσεις της κάθε βάσης εγγράφων εικόνων. Είναι φανερό ότι απαιτείται ένα σύνολο δεδομένων εκπαίδευσης για να καθοριστούν τα κατάλληλα ΔΣΕ. Όμως, αυτό δεν προκαλεί πρόβλημα γιατί τέτοια

δεδομένα ήδη απαιτούνται για την εκπαίδευση των SVMs. Το επόμενο στάδιο είναι ο εντοπισμός των πλαισίων που περιέχουν κείμενο από εκείνα που δεν περιέχουν με βάση τον περιγραφέα τους. Αυτό επιτυγχάνεται μέσω των Support Vector Machines (SVMs). Αρχικά από τη βάση εγγράφων επιλέγεται ένα αντιπροσωπευτικό σύνολο εγγράφων και σε αυτά εντοπίζονται τα πλαίσια τους από τα οποία εξάγονται οι περιγραφείς. Έπειτα, ορίζονται χειροκίνητα ποια από τα παραπάνω πλαίσια περιέχουν κείμενο και ποια όχι. Οπότε, τα ιστογράμματα των περιγραφέων των πλαισίων χρησιμοποιούνται ως δεδομένα εκπαίδευσης στα SVMs. Τελικά, η έξοδος των εκπαιδευμένων SVMs ταξινομεί κάθε καινούργιο πλαίσιο ως κείμενο ή όχι. Το σύστημα εξάγει αυτά τα πλαίσια από την αρχική εικόνα ή τα εντοπίζει πάνω σε αυτήν και παρουσιάζει το αποτέλεσμα στον χρήστη. Το κύριο πλεονέκτημά της προτεινόμενης μεθόδου είναι η ικανότητα της να προσαρμόζεται στις ιδιαιτερότητες της κάθε βάσης εγγράφων εικόνων χρησιμοποιώντας μία τεχνική μείωσης του μεγέθους του περιγραφέα με σκοπό να επιλεχθούν αυτά τα δομημένα συστατικά που αυξάνουν τη διαχωριστικότητα μεταξύ πλαισίων που περιέχουν κείμενο και αυτών που δεν περιέχουν. Επίσης, παρουσιάστηκε η σχέση του μεγέθους του περιγραφέα σε σχέση με το ποσοστό επιτυχίας αλλά και με τον χρόνο ολοκλήρωσης της μεθόδου και παρατηρήθηκε ότι η σχέση τους είναι λογαριθμική και γραμμική αντίστοιχα. Τέλος, δημιουργήθηκε μία νέα βάση εικόνων προσθέτοντας τεχνητό θόρυβο στην αρχική βάση εικόνων με σκοπό να αξιολογηθεί η ικανότητα της FSDASE τεχνικής να προσαρμόζει τα της Δομημένα Συστατικά Εγγράφου στις ιδιαιτερότητες της βάση. Τα πειραματικά αποτελέσματα δείχνουν να το επιβεβαιώνουν καθώς τα ποσοστά επιτυχίας ήτανε περίπου ίδια και στις δύο βάσεις. Η προτεινόμενη τεχνική εντοπισμού κειμένου σε εικόνες έγγραφα υλοποιήθηκε 3 με τη χρήση των Visual Studio 2008 και LibSVΜ. Η εφαρμογή που αναπτύχθηκε στηρίχθηκε στην πλατφόρμα.νετ 3.5 της Microsoft. Οι γλώσσες προγραμματισμού που χρησιμοποιήθηκαν ήτανε η XAML/WPF (για την αλληλεπίδραση με τον χρήστη) και η C#. Η τέταρτη τεχνική περιγράφει ένα Σύστημα Ανάκτησης Εγγράφων Εικόνων (ΣΑΕΕ) με την τεχνική εντοπισμού των λέξεων. Η προτεινόμενη τεχνική αντιμετωπίζει το πρόβλημα της ανάκτησης των εγγράφων χρησιμοποιώντας μία διαδικασία η οποία προσπερνάει την Οπτική Αναγνώριση Χαρακτήρων (OAX) και χρησιμοποιεί εικόνες λέξεων ως ερωτήματα. Πρέπει να τονιστεί ότι τα έγγραφα εικόνες που χρησιμοποιούνται στο προτεινόμενο σύστημα έχουν αναλυθεί από την τεχνική εντοπισμού κειμένου που παρουσιάστηκε πιο πάνω. Όμως, η έξοδος της προηγούμενης προτεινόμενης τεχνικής δεν είναι τα όρια των λέξεων αλλά απλώς εξάγει το κείμενο από το έγγραφο εικόνα. Οπότε θα πρέπει το έγγραφο να επεξεργαστεί ξανά για να βρεθούν οι λέξεις. Συνεπώς, ο σκοπός της offline διαδικασίας είναι να εντοπισθούν τα όρια των λέξεων, να εξαχθεί από αυτά ένας καινούργιος περιγραφέας και να αποθηκευθεί σε μία βάση δεδομένων. Αυτή η διαδικασία αποτελείται 3 http://orpheus.ee.duth.gr/download/textfinder_1.0.9.zip

από τρία στάδια. Αρχικά, τα έγγραφα εικόνες περνούν το στάδιο της προ-επεξεργασίας, το οποίο είναι παρόμοιο με αυτό της προηγούμενης τεχνικής. Δηλαδή αποτελείται από ένα φίλτρο μεσαίας τιμής για μειωθεί ο θόρυβος (π.χ. για μη σωστά συντηρημένα έγγραφα) και μία μέθοδος δυαδικοποίησης με τη γνωστή τεχνική του Otsu. Ο σκοπός του επόμενου σταδίου της μεθόδου είναι να κατατμηθεί η εικόνα στις λέξεις που την αποτελούν. Εφόσον εντοπιστούν τα όρια των λέξεων το προτεινόμενο στηρίζεται σε έξι ισχυρά χαρακτηριστικά που εξάγονται από κάθε λέξη ικανά να αποτυπώνουν τις ομοιότητες μεταξύ των λέξεων ενώ παράλληλα να αγνοούν τις μικρές διαφορές λόγου του εναπομείναντος θορύβου ή των διαφορετικών γραμματοσειρών. Τα χαρακτηριστικά αυτά είναι: Width to Height Ratio, Word Area Density, Center of Gravity, Vertical Projection, Top Bottom Shape Projections, Upper Grid Features, Down Grid Features. Τα παραπάνω χαρακτηριστικά σχηματίζουν έναν περιγραφέα ενενήντα τριών θέσεων που ονομάζεται Texture and Shape Representation Descriptor (TSRD). Στην πρώτη θέση είναι το χαρακτηριστικό Weight to Height, στην δεύτερη θέση το Image Area Density, στην τρίτη θέση το Center of Gravity. Οι επόμενες είκοσι θέσεις καταλαμβάνονται από το Vertical Projection χαρακτηριστικό και οι πενήντα από το Top Bottom Shape Projection. Τέλος οι είκοσι θέσεις καταλαμβάνονται από τα Upper Grid και Down Grid Features διαιρεμένα με το 10 για να μην επικαλύψουν τα υπόλοιπα χαρακτηριστικά. Τα υπόλοιπα χαρακτηριστικά κανονικοποιούνται από το 0 μέχρι το 1 με βάση τις ελάχιστες και μέγιστες τιμές του που βρίσκονται στη βάση δεδομένων. Στην Online διαδικασία ο χρήστης κάθε φορά που εισάγει μία λέξη ερώτημα, το προτεινόμενο σύστημα δημιουργεί μία εικόνα της λέξης που δόθηκε από τον χρήστη με ύψος γραμματοσειράς ίσο με το μέσο ύψος των εικόνων λέξεων που εντοπίσθηκαν κατά την Offline διαδικασία. Στο υλοποιημένο ΣΑΕΕ στο οποίο χρησιμοποιείται ένα πειραματικό σύνολο εικόνων το μέσο ύψος υπολογίστηκε ίσο με 50. Η γραμματοσειρά της εικόνας ερώτημα είναι η Arial, όμως η εξομάλυνση και η κανονικοποίηση των χαρακτηριστικών όπως περιγράφτηκε στην Ενότητα 7.2.3 εξαλείφουν τις μικρές διαφορές μεταξύ διαφόρων τύπων γραμματοσειρών. Έπειτα η τεχνικά δημιουργημένη εικόνα ερώτημα επεξεργάζεται με τον ίδιο τρόπο όπως και οι εικόνες λέξεις των εγγράφων με αποτέλεσμα στο τέλος να υπολογίζεται ο περιγραφέας της. Για να βρεθούν οι όμοιες λέξεις που περιέχονται στη βάση δεδομένων με αυτήν της λέξης ερώτημα του χρήστη επιστρατεύεται η απόσταση ομοιότητας Minkowski L 1. Τέλος, το προτεινόμενο ΣΑΕΕ παρουσιάζει τα έγγραφα που περιέχουν τις ανάλογες λέξεις με φθίνουσα σειρά σε σχέση με τη βαθμολογία τους. Το προτεινόμενο σύστημα υλοποιήθηκε 4 με τη βοήθεια του Visual Studio 2008 και βασίζεται στην.νet 3.5 πλατφόρμα της Microsoft. Η γλώσσα προγραμματισμού που χρησιμοποιήθηκε είναι η C# ενώ για την επικοινωνία με τον χρήστη εφαρμόζονται οι τεχνολογίες HTML/Javascript/AJAX. Τέλος, το υλοποιημένο ΣΑΕΕ χρησιμοποιεί για βάση δεδομένων την Microsoft SQL Server 2005. 4 http://orpheus.ee.duth.gr/irs2_5/

Τα πειράματα που εκτελέστηκαν σε ένα σύνολο εγγράφων με θόρυβο επέφεραν καλύτερα αποτελέσματα από ένα εμπορικό πακέτο Οπτικής Αναγνώρισης Χαρακτήρων. Επίσης πειράματα χρησιμοποιώντας διαφορετικό μέγεθος και τύπο γραμματοσειράς για τη δημιουργία της λέξης ερώτημα δεν παρουσίασαν σημαντικές αλλαγές στην απόδοση του προτεινόμενου συστήματος. Η τελευταία μέθοδος είναι ένας συνεπτυγμένος περιγραφέας σχήματος στα πρότυπα των περιγραφέων σχήματος του MPEG-7, ο οποίος ονομάζεται Compact Shape Portrayal Descriptor (CSPD). Το σχήμα είναι ένα από τα πιο σημαντικά χαμηλού επιπέδου χαρακτηριστικά που χρησιμοποιούνται σε συστήματα ανάκτησης εικόνων με βάσει το περιεχόμενό τους. Ένα τέτοιο σύστημα είναι και τα Συστήματα Ανάκτησης Εικόνων Εγγράφων με εντοπισμό των λέξεων που περιέχονται μέσα σε αυτά. Ο CSPD είναι ένα ιστόγραμμα 41 θέσεων, το οποίο δημιουργείται από 5 διαφορετικά χαρακτηριστικά που περιγράφουν ικανοποιητικά το σχήμα ενός αντικειμένου. Επιπλέον, οι τιμές του ιστογράμματος κβαντοποιούνται σε 3 bits ανά θέση οπότε οι αποθηκευτικές απαιτήσεις του είναι 123 bits. Ένα σημαντικό πλεονέκτημά του είναι ότι ο υπολογισμός του μπορεί εύκολα να παραλληλιστεί καθώς κάθε χαρακτηριστικό υπολογίζεται ξεχωριστά. Τα χαρακτηριστικά αυτά είναι τα Width To Height Ratio, Vertical Horizontal Projections, Top Bottom Shape Projections τα οποία τελικά σχηματίζουν το 41-διαστάσεων περιγραφέα. Με σκοπό την περαιτέρω συμπίεση του περιγραφέα, οι τιμές των χαρακτηριστικών κβαντοποιούνται σε 3bits ανά θέση ιστογράμματος οπότε το τελικό μέγεθος του είναι 3x41=123 bits. Οι τιμές των χαρακτηριστικών είναι συγκεντρωμένες σε μικρές περιοχές οπότε θα πρέπει να κβαντοποιηθούνε μη γραμμικά. Επιπλέον, κάθε χαρακτηριστικό θα πρέπει να κβαντιστεί ξεχωριστά καθώς δεν σχετίζονται μεταξύ τους. Η κβαντοποίηση πραγματοποιήθηκε χρησιμοποιώντας τον ασαφή αλγόριθμο Gustafson Kessel (GK). Η κβαντοποίηση με τον παραπάνω αλγόριθμο έχει εφαρμοσθεί με επιτυχία και σε άλλους περιγραφείς. Επιπλέον, το MPEG-7 κβαντοποιεί και αυτό τους συνεπτυγμένους του περιγραφείς. Για να υπολογιστεί ο πίνακας κβαντισμού του CSPD, συγκεντρώθηκε μία συλλογή από εικόνες σχήματος και λέξεων από τις βάσεις αξιολόγησης. Το πλήθος των εικόνων επιλέχθηκε αυθαίρετα να είναι 1500 καθώς οι αλλαγές του αποτελέσματος που υπολογίζει ο ασαφής αλγόριθμος GK είναι αμελητέες για μεγαλύτερες συλλογές. Από την παραπάνω συλλογή, δημιουργήθηκαν σύνολα δειγμάτων για κάθε χαρακτηριστικό. Οπότε υπολογίσθηκαν 1500 (1500x1) δείγματα για το Weight to Height Ratio, 15000 (1500x10) δείγματα για το Vertical Projection, 15000 (1500x10) δείγματα για το Horizontal Projection, 15000 (1500x10) για το Top Shape Projection και 15000 (1500x10) για το Bottom Shape Projection. Αυτά τα σύνολα δειγμάτων εισήχθησαν ως δεδομένα εισόδου στον ασαφή αλγόριθμο GK, ο οποίος τα διαχωρίζει σε 2 3 =8 περιοχές, μετατρέπει κάθε τιμή από την περιοχή των πραγματικών αριθμών στην περιοχή των ακέραιων [0,7] ή στην περιοχή των δυαδικών αριθμών [000,111].

Ο ασαφής αλγόριθμος παράγει 8 κλάσεις, οι οποίες ορίζονται από ένα κέντρο v και έναν πίνακα Α που προσαρμόζεται ανάλογα με την κατανομή των δεδομένων μέσα στην κλάση. Κάθε τιμή μετατρέπεται στην κοντινότερη απόσταση με την αντίστοιχη ακέραια/δυαδική τιμή. Τέλος, οι έξοδοι της κβαντοποίησης των χαρακτηριστικών συγκεντρώνονται σε ένα ιστόγραμμα 41 θέσεων, στο οποίο την 1η θέση καταλαμβάνει το χαρακτηριστικό Width to Height Ration, τις 3 η 11 η θέσεις το χαρακτηριστικό Vertical Projection, τις 12 η 21 η θέσεις το χαρακτηριστικό Horizontal Projection, τις 22 η 31 η θέσεις το χαρακτηριστικό Top Shape Projection και τις 32 η -41 η θέσεις το χαρακτηριστικό Bottom Shape Projection. Ως μέτρο ομοιότητας για τον προτεινόμενο περιγραφέα προτάθηκε μία τροποποιημένη Minkowski L 1 απόσταση. Το πλεονέκτημα της παραπάνω τροποποιημένης Minkowski L 1 απόσταση είναι ότι εκμεταλλεύεται την ικανότητα του Διακριτού Μετασχηματισμού Συνημίτονου να αποθηκεύει περισσότερη πληροφορία στους πρώτους συντελεστές. Για παράδειγμα, η πληροφορία της ομοιότητας του δεύτερου συντελεστή είναι ποιο σημαντική από αυτήν του δέκατου συντελεστή. Αυτή η υπόθεση αποδεικνύεται σωστή και από τα πειραματικά. Το προτεινόμενο μέτρο ομοιότητας αποδείχθηκε προτιμητέο από ότι οι αποστάσεις Minkowski L 1, L 2 (Ευκλείδεια Απόσταση), Bhattacharyya και non-binary Tanimoto coefficient. Επιπλέον, δημιουργήθηκε το schema του προτεινόμενου CSPD περιγραφέας ως επέκταση του schema των οπτικών περιγραφέων του MPEG-7. Επιπροσθέτως, υλοποιήθηκε ένας αλγόριθμος Ανάδρασης Συνάφειας που στηρίζεται στα Support Vector Machines. Αρχικά ο χρήστης ορίζει ποια από τα ανακτώμενα σχήματα είναι σωστά και ποια όχι. Έπειτα ο περιγραφέας της αρχικής εικόνας ερώτημα καθώς και οι περιγραφείς των σχημάτων που όρισε ο χρήστης χρησιμοποιούνται ως δεδομένα εκπαίδευσης στα Support Vector Machines (SVMs). Τέλος, τα καινούργια αποτελέσματα υπολογίζονται από τη συνάρτηση απόφασης των εκπαιδευμένων SVMs μετασχηματισμένη να συμπεριφέρεται ως μέγεθος ομοιότητας. Υλοποιήθηκε ο αλγόριθμος ανάδρασης με βάση τη συνάφεια ώστε να αξιολογηθεί η συμπεριφορά του προτεινόμενου περιγραφέα σε παρόμοιες τεχνικές. Το σύστημα ανάκτησης υλοποιήθηκε 5 με τη βοήθεια του Visual Studio 2008 και βασίζεται στην έκδοση 3.5 της.νετ πλατφόρμας της Microsoft. Οι γλώσσες προγραμματισμού που χρησιμοποιήθηκαν ήτανε η XAML/WPF (για την αλληλεπίδραση με τον χρήστη) και η C#. Με σκοπό την αξιολόγηση της γενικής εφαρμογής του επιλέχθηκαν τρεις διαφορετικές βάσεις εικόνων σχημάτων. Η πρώτη είναι η MPEG-7 CE1 Set B βάση δεδομένων. Αποτελείται από 1400 σχήματα οργανωμένα σε 70 διαφορετικές ομάδες αντιπροσωπεύοντας πραγματικά αντικείμενα τα οποία έχουν φυσικές παραμορφώσεις στο σχήμα τους. Δημιουργήθηκε από το MPEG-7 για την αξιολόγηση των αποτελεσμάτων ανάκτηση των περιγραφέων σχήματος τους. Το 5 http://orpheus.ee.duth.gr/cspd

πλεονέκτημα χρησιμοποιώντας μία πρότυπη βάση δεδομένων είναι η ευκολία σύγκρισης του CSPD με όλους τους υπόλοιπους περιγραφείς σχήματος που παρουσιάζονται στη βιβλιογραφία. Η δεύτερη βάση αποτελείται από 20 σελίδες από τη συλλογή των γραπτών του George Washington που βρίσκονται στην Βιβλιοθήκη του Κογκρέσου. Συνολικά αποτελείται από 4847 χειρόγραφες λέξεις από τον George Washington. Η Τρίτη βάση αποτελείται από χειρόγραφα έγγραφα γραμμένα στην ελληνική γλώσσα. Συνολικά περιέχονται 173 λέξεις από διάφορα άτομα ομαδοποιημένα σε 29 διαφορετικές ομάδες λέξεων χρησιμοποιώντας μικρά ή κεφαλαία γράμματα. Για να αξιολογηθεί ο προτεινόμενος περιγραφέας χρησιμοποιήθηκαν δύο μετρικά μεγέθη μέτρησης της ποιότητας των ανακτώμενων αποτελεσμάτων. Αυτά είναι το Average Normalized Modified Retrieval Rank (ANMRR) και η καμπύλη Precision/Recall και κατά επέκταση το Mean Average Precision. Τα πειραματικά αποτελέσματα έδειξαν ότι ο προτεινόμενος περιγραφέας αποδίδει πολύ καλά και στην ανάκτηση χειρόγραφων λέξεων και σχημάτων. Επιπλέον, η τεχνική ανάδραση με βάση τη συνάφεια για τον προτεινόμενο περιγραφέα αποδίδει πολύ ικανοποιητικά. Μάλιστα στην δεύτερη επανάληψη χρησιμοποιώντας τη βάση με τις ελληνικές χειρόγραφες λέξεις κατάφερε να φέρει τα «τέλεια» με βάση το μέγεθος NMRR αποτελέσματα Ο Compact Shape Portrayal Descriptor είναι ένας περιγραφέας σχήματος ο οποίος έχει πολύ μικρό μέγεθος (μόνο 123 bits), έχει πολύ μικρό υπολογιστικό κόστος και έχει ευρεία εφαρμογή χωρίς να μειώνεται η ακρίβεια της ανάκτησης. Συμπερασματικά, η παρούσα διδακτορική διατριβή παρουσιάζει λύσεις σε υπάρχοντα προβλήματα ανάκτησης εικόνων με βάσει το περιεχόμενο όπως κατάτμηση εικόνων, εντοπισμός κειμένου, βελτίωση των αποτελεσμάτων ανάκτησης με την τεχνική της ανάδρασης με βάση τη συνάφεια και περιγραφείς σχημάτων και λέξεων. Όλες οι προτεινόμενες τεχνικές μπορούν να συνδυαστούν με σκοπό τη δημιουργία ενός γενικής χρήσης, γρήγορου και ταυτόχρονα συμβατό με το MPEG-7 σύστημα ανάκτησης εικόνων με βάση το περιεχόμενο.