Ανάκτηση εικόνας με βάση το περιεχόμενό της και στοιχεία σημασιολογίας



Σχετικά έγγραφα
MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

MPEG7 Multimedia Content Description Interface

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

Ανάκτηση πολυμεσικού περιεχομένου

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΝΤUA. Τεχνολογία Πολυμέσων

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Εικόνας βάσει Υφής με χρήση Eye Tracker

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Συστήματα. βάση την εικόνα. Συγγραφέας: Κουταλά Ματίνα Καθηγητής: Στυλιαράς Γιώργος ΓΤΠ61 ΠΛΗΡΟΦΟΡΙΚΗ-ΠΟΛΥΜΕΣΑ ΕΑΠ

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

Ιατρική Πληροφορική. Δρ. Π. ΑΣΒΕΣΤΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΒΙΟΪΑΤΡΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ Τ.Ε.

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Ανάπτυξη διαδικτυακής διαδραστικής εκπαιδευτικής εφαρμογής σε λειτουργικό σύστημα Android

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

SilverPlatter WebSPIRS 4.1.


MPEG7 Multimedia Content Description Interface

Πλοήγηση και Αναζήτηση

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Τεχνολογία Πολυμέσων

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Ανάκτηση Πληροφορίας

Βάσεις δεδομένων και Microsoft Access

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή. Ονοματεπώνυμο: Αργυρώ Ιωάννου. Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

ΦΩΤΟΓΡΑΜΜΕΤΡΙΚΕΣ ΚΑΙ ΤΗΛΕΠΙΣΚΟΠΙΚΕΣ ΜΕΘΟΔΟΙ ΣΤΗ ΜΕΛΕΤΗ ΘΕΜΑΤΩΝ ΔΑΣΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ

substructure similarity search using features in graph databases

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

: ΗΥ-215, : ΗΥ-217, ΗΥ-370

Section 8.3 Trigonometric Equations

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

þÿ ÀÌ Ä º± µä À ¹ ¼ ½

Μέρος 3 ο : Βασικές Έννοιες για δυναμικές ιστοσελίδες

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Ευφυές Σύστημα Ανάλυσης Εικόνων Μικροσκοπίου για την Ανίχνευση Παθολογικών Κυττάρων σε Εικόνες Τεστ ΠΑΠ

Βάσεις εδοµένων & Πολυµέσα

ΚΒΑΝΤΙΚΟΙ ΥΠΟΛΟΓΙΣΤΕΣ

Πληροφοριακά Συστήματα Διοίκησης

Συστήματα Πολυμέσων. Ενότητα 7: Συμπίεση Εικόνας κατά JPEG. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακή Εικόνα. Αντίληψη χρωμάτων Συστήματα χρωμάτων Κβαντισμός χρωμάτων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΠΑΝΑΣΧΕΔΙΑΣΜΟΣ ΓΡΑΜΜΗΣ ΣΥΝΑΡΜΟΛΟΓΗΣΗΣ ΜΕ ΧΡΗΣΗ ΕΡΓΑΛΕΙΩΝ ΛΙΤΗΣ ΠΑΡΑΓΩΓΗΣ REDESIGNING AN ASSEMBLY LINE WITH LEAN PRODUCTION TOOLS

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

ΤΟ ΜΟΝΤΕΛΟ Οι Υποθέσεις Η Απλή Περίπτωση για λi = μi 25 = Η Γενική Περίπτωση για λi μi..35

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Web 論 文. Performance Evaluation and Renewal of Department s Official Web Site. Akira TAKAHASHI and Kenji KAMIMURA

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακό βίντεο. Αναλογικό βίντεο / ψηφιοποίηση Διεπαφές Εκτίμηση κίνησης μπλοκ

Ανάκτηση Πληροφορίας

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΑΓΧΟΣ ΚΑΙ ΚΑΤΑΘΛΙΨΗ ΣΕ ΓΥΝΑΙΚΕΣ ΜΕ ΚΑΡΚΙΝΟΥ ΤΟΥ ΜΑΣΤΟΥ ΜΕΤΑ ΑΠΟ ΜΑΣΤΕΚΤΟΜΗ

Κατάλογος Βιβλιοθήκης ΤΕΙ Ηπείρου Ιδρυματικό αποθετήριο ΤΕΙ Ηπείρου Ερευνητικό αποθετήριο ΤΕΙ Ηπείρου:

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Ταυτοποίηση ασθενούς μέσω ραδιοσυχνικής αναγνώρισης (RFID) με σκοπό τον έλεγχο της χορήγησης αναισθησίας κατά τη διάρκεια χειρουργικής επέμβασης

Βασικές Έννοιες Web Εφαρμογών

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Κάθε γνήσιο αντίγραφο φέρει υπογραφή του συγγραφέα. / Each genuine copy is signed by the author.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Η θέση ύπνου του βρέφους και η σχέση της με το Σύνδρομο του αιφνίδιου βρεφικού θανάτου. ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ

Ανάκτηση Δεδομένων (Information Retrieval)

References. Chapter 10 The Hough and Distance Transforms

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ "

ΤΕΧΝΙΚΕΣ ΔΙΑΓΝΩΣΗΣ ΤΗΣ ΝΟΣΟΥ ΑΛΤΣΧΑΙΜΕΡ ΜΕ FMRI

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Πολιτισμική Τεχνολογία. Πολυμέσα & Διαδίκτυο Παράμετροι Δικαίου Μέρος Α

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΤΙΤΛΟΣ Συμπληρώστε τον πρωτότυπο τίτλο της Διδακτορικής διατριβής ΑΡ. ΣΕΛΙΔΩΝ ΕΙΚΟΝΟΓΡΑΦΗΜΕΝΗ

Συστήματα Πολυμέσων. Ενότητα 8: Συμπίεση Εικόνας κατά JPEG Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Εξεταστέα Ύλη (Syllabus) Έκδοση 5.0

Ο νοσηλευτικός ρόλος στην πρόληψη του μελανώματος

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία Η ΚΑΤΑΘΛΙΨΗ ΣΕ ΕΦΗΒΟΥΣ ΜΕ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 1

Transcript:

Ανάκτηση εικόνας με βάση το περιεχόμενό της και στοιχεία σημασιολογίας ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Συγγραφέας: Γιάννης Μπούτσης (ΑΜ p3040145) Επιβλέπων: Θ. Καλαμπούκης Καθηγητής Πληροφορικής ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Αθήνα Ιούλιος 2009

Ανάκτηση εικόνας με βάση το περιεχόμενό της και στοιχεία σημασιολογίας Συγγραφέας: Γιάννης Μπούτσης (ΑΜ p3040145) Διπλωματική Εργασία Επιβλέπων: Θ. Καλαμπούκης Καθηγητής Πληροφορικής Υπογραφή Επιβλέποντος: ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Ιούλιος, 2009 i

ΠΕΡΙΛΗΨΗ Η συνδυασμένη ανάκτηση εικόνας με βάση την περιγραφή και το περιεχόμενο είναι ένα πρόβλημα που βρίσκετε ακόμη σε ερευνητικό επίπεδο. Το πρόβλημα αυτό βασίζεται στην εύρεση των κατάλληλων μεθόδων και τεχνικών, ώστε να αυτοματοποιηθεί η διαδικασία της ανάκτησης μίας εικόνας μέσα από μια βάση δεδομένων, συνδυάζοντας την κειμενική αναζήτηση που προκύπτει από την ανάλυση της περιγραφής της εικόνας και την αναζήτηση με βάση τα χαρακτηριστικά χαμηλού επιπέδου της. Το πρόβλημα αυτό είναι πολύ σημαντικό ιδιαίτερα στον ιατρικό τομέα όπου μία τέτοια εφαρμογή θα ήταν πολύ χρήσιμη τόσο στον τομέα της διάγνωσης, δεδομένης της ευκολίας αναζήτησης σε παρόμοια περιστατικά, όσο και της εκπαίδευσης των ιατρών σε θέματα που τους ενδιαφέρουν. Σκοπός αυτής της αναφοράς είναι η ανάλυση των θεμάτων που συσχετίζονται με την συνδυασμένη ανάκτηση εικόνας και η παρουσίαση των αποτελεσμάτων από την ενασχόλησής μας με το συγκεκριμένο πρόβλημα. Στην αναφορά αναλύονται η σημασία της συνδυασμένης ανάκτησης εικόνας και οι εφαρμογές της, τα χαρακτηριστικά χαμηλού επιπέδου του MPEG7 που χρησιμοποιούνται κατά την αναζήτηση, η βιβλιοθήκη Lire που έχουμε χρησιμοποιήσει στην εφαρμογή μας. Επίσης αναλύεται η εφαρμογή iscore που δημιουργήσαμε και έχει τη δυνατότητα συνδυασμένης ανάκτησης εικόνας, αναφέρονται κάποια θέματα σχετικά με τη συμμετοχή μας στο συνέδριο ImageCLEF2009 και υπάρχει και μία σύντομη τεχνική ανάλυση της λειτουργίας του συστήματος iscore. ii

ABSTRACT The combined image retrieval based on the semantic and visual content is a problem that still remains on a research level. This problem is based on finding suitable methods and techniques, so that the process of image retrieval through a database would become automated, by combining semantic search that results from the analysis of the image s description and the search that is based on its low level characteristics. This problem is very important particularly in the medical sector where such an application would be very useful as much in the sector of diagnosis, due to the fact that searching for similar incidents could become easy, as at the education of doctors in subjects that interest them. The purpose of this report is the analysis of subjects that are connected with the combined image retrieval and the presentation of results from our pastime with the particular problem. In the report we analyze the importance of combined image retrieval and its applications, the low level characteristics of MPEG7 that are used at searching, the library Lire that we have used in our application. Also, we analyze the application iscore that we created which has the ability of combined image retrieval, there are reported certain subjects with regard to our attendance in congress ImageCLEF2009 and there is also a short technical analysis of the operation of iscore system. iii

ΔΕΣΜΕΥΣΗ Πιστοποιώ ότι η έρευνα με τίτλο Ανάκτηση εικόνας με βάση το περιεχόμενό της και στοιχεία σημασιολογίας είναι δική μου εργασία. Η εργασία αυτή δεν έχει παρουσιαστεί αλλού για αξιολόγηση. Όποιο υλικό έχει χρησιμοποιηθεί από άλλες πηγές έχει υποδειχθεί στις αναφορες. Υπογραφή Φοιτητή Μπούτσης Ιωάννης 3040145 iv

ΠΕΡΙΕΧΟΜΕΝΑ Περίληψη......ii Abstract... iii Δέσμευση... iv Κεφάλαιο 1: Συνδυασμένη ανάκτηση εικόνας με βάση το περιεχόμενο και τη σημασιολογία της... 1 1.1: Εισαγωγή... 1 Κεφάλαιο 2: Overview Εξαγωγή χαμηλού επιπέδου χαρακτηριστικών μιας εικόνας και το πρότυπο MPEG7.......3 2.1: Εισαγωγή στο πρότυπο MPEG7... 3 2.2: Περιγραφείς του MPEG7... 3 2.2.1: Dominant Color... 4 2.2.2: Scalable Color... 4 2.2.3: Color Structure... 5 2.2.4: Color Layout... 5 2.2.5: Homogeneous Texture... 6 2.2.6: Texture Browsing... 7 2.2.7: Edge Histogram... 7 Κεφάλαιο 3: Το σύστημα Lire.......9 3.1: Indexing και Searching... 9 3.2: Βιβλιοθήκη Caliph... 9 Κεφάλαιο 4: Υλοποίηση Συστήματος συνδυασμένης ανάκτησης εικόνας με βάση το περιεχόμενο και τη σημασιολογία της....11 4.1: Δημιουργία Index... 11 4.2: Υλοποίηση Searcher... 11 4.3: Τεχνολογίες και Παρουσίαση Συστήματος... 12 Κεφάλαιο 5: Συμμετοχή στο συνέδριο ImageCLEF2009.. 17 5.1: Περιγραφή Βάσης Εικόνων... 17 5.2: Διαγωνισμός ImageCLEF2009 και topics... 17 Κεφάλαιο 6: Τεχνική Ανάλυση.......52 6.1: Indexing... 52 v

6.2: Searching... 52 6.3: Τεχνολογίες Υπόλοιπα αρχεία τύπου class... 52 6.4: Αρχεία τύπου jsp... 53 Συμπεράσματα και Προτεινόμενες επεκτάσεις...54 Αναφορές.......55 vi

ΚΕΦΑΛΑΙΟ 1 Συνδυασμένη ανάκτηση εικόνας με βάση το περιεχόμενο και τη σημασιολογία της 1.1 Εισαγωγή Η ανάκτηση εικόνας με βάση το περιεχόμενό της και τη σημασιολογία της είναι ένας πολύ σημαντικός και αναπτυσσόμενος τομέας της ανάκτησης πολυμεσικής Πληροφορίας. Η σημασία της ανάκτησης εικόνας μπορεί να προσδιοριστεί αρκετά εύκολα, εάν σκεφτούμε την ταχύτητα με την οποία αυξάνονται συνεχώς πλέον οι ψηφιακές εικόνες, λόγω της ραγδαίας τεχνολογικής ανάπτυξης, αφού με την ψηφιοποίηση των περισσότερων μέσων αποτύπωσης της εικόνας, η αποθήκευσή τους σε ψηφιακά μέσα έχει γίνει μια πολύ απλή διαδικασία. Αν αναλογιστούμε παράλληλα την δυσκολία που δημιουργείτε πολλές φορές ακόμη και όταν ψάχνουμε για κάποια εικόνα σε μικρούς αποθηκευτικούς χώρους, όπως τοπικά στον υπολογιστή μας, μπορούμε να φανταστούμε πόσο δύσκολη μπορεί να γίνει η αναζήτηση κάποιας εικόνας σε συστήματα με βάσεις δεδομένων πολύ μεγαλύτερου όγκου και σε τομείς όπου η ταχύτητα της αναζήτησης μπορεί να είναι σημαντικός παράγοντας, εάν δεν υπάρχει κάποιο τυποποιημένο εργαλείο για την αναζήτηση αυτών. Η ανάγκη για δημιουργία εργαλείων ανάκτησης της εικόνας μπορεί να γίνει ακόμα πιο εμφανής με την συνεχή ανάπτυξη μηχανών αναζήτησης για την εύρεση των εικόνων που υπάρχουν στο διαδίκτυο[6], έστω και αν το μεγαλύτερο μέρος των μηχανών αυτών εκτελεί τις αναζητήσεις με βάση μόνο τα σημασιολογικά μέρη κάθε εικόνας ή της σελίδας στην οποία βρίσκετε. Γενικά θα μπορούσαμε να πούμε ότι ο τομέας της ανάκτησης εικόνας αποσκοπεί στην αυτοματοποιημένη αναζήτηση, μέσα σε βάσεις δεδομένων, όπου λόγω του μεγέθους τους μπορεί να θεωρηθεί από δύσκολη έως αδύνατη η χειρονακτική αναζήτηση, δίνοντας ως είσοδο είτε μία εικόνα, είτε κάποιο κείμενο, είτε τον συνδυασμό και των δύο και λαμβάνοντας ως έξοδο εικόνες οι οποίες θα έχουν παρόμοιο περιεχόμενο, σημασιολογία ή κάποιο συνδυασμό και των δυο, ανάλογα βέβαια με την αναζήτηση που έχουμε επιλέξει να κάνουμε. Η ανάκτηση της εικόνας με βάση τις πληροφορίες που μπορούμε να εξάγουμε από το περιεχόμενό της είναι ένας ερευνητικός ακόμη τομέας της Μηχανικής Μάθησης, Τεχνητής δράσης και Αναγνώρισης Προτύπων και δεν έχει αναπτυχθεί ακόμα τόσο πολύ, όσο η ανάκτηση με βάση τα σημασιολογικά στοιχεία που μπορεί να περιέχει η εικόνα. Για κάθε κείμενο, η ανάλυση των μερών που το αποτελούν μπορεί να τυποποιηθεί εν μέρει με τη βοήθεια γλωσσολόγων, με τη βάση αυτής της ανάλυσης να στηρίζετε στο θέμα της κάθε λέξης του κειμένου. Η αντίστοιχη διαδικασία ανάλυσης για την εικόνα θα πρέπει να στηρίζετε κυρίως σε χαρακτηριστικά χαμηλού επιπέδου όπως είναι το χρωματικό ιστόγραμμα, η διασπορά των χρωμάτων και η υφή της εικόνας. Ο συνδυασμός όμως της πληροφορίας που μπορούμε να εξάγουμε τόσο από την εικόνα όσο και από το αντίστοιχη σημασιολογία της μπορεί να μας φέρει 1

πολύ καλά αποτελέσματα και να βρεθούμε αρκετά κοντά στις εικόνες που ψάχνουμε πολύ γρήγορα και με πολύ απλά βήματα. Άλλωστε η αναζήτηση μιας συγκεκριμένης εικόνας με βάση μόνο το ένα από τα δύο χαρακτηριστικά της είναι εξαιρετικά δύσκολο να μας επιστρέψει εξίσου καλά αποτελέσματα, αφού ο συνδυασμός των δύο θα κάνει μία πολύ πιο συγκεκριμένη αναζήτηση σε αυτό που ψάχνουμε, βρίσκοντας εικόνες που θα έχουν παρόμοια χαρακτηριστικά με την εικόνα εισόδου και κείμενο το οποίο θα ταιριάζει με αυτό που έχουμε δώσει ως είσοδο κατά την αναζήτηση μας. Είναι δεδομένο λοιπόν ότι η ανάκτηση εικόνας με βάση το περιεχόμενο της, θα ήταν πολύ χρήσιμη για διάφορους κλάδους στους οποίους είναι εκτεταμένη η χρήση ψηφιακών εικόνων. Για παράδειγμα, στη γεωλογία η εικόνα ενός πετρώματος θα μπορούσε να χρησιμοποιηθεί για την ανάκτηση εικόνων με μικρές διαφορές που ενδεχομένως να είναι παρόμοια πετρώματα. Αντίστοιχα, μπορούμε να εξετάσουμε τη σημασία της ανάκτησης εικόνων στον ιατρικό τομέα, όπου πολλές από τις εξετάσεις (ακτινογραφίες, υπέρηχοι, μαγνητικές εξετάσεις κτλ) μπορούν και αποθηκεύονται πλέον ψηφιακά, ενώ για κάθε μία από αυτές μπορούμε να έχουμε και σημασιολογικά δεδομένα όπως: θέμα, πληροφορίες και γνωμάτευση. Φυσικά, αυτές οι εξετάσεις πραγματοποιούνται καθημερινά και σε εκατοντάδες ασθενείς δημιουργώντας βάσεις δεδομένων τεράστιου εύρους στα νοσοκομεία. Για παράδειγμα το ραδιολογικό τμήμα του νοσοκομείου στο Πανεπιστήμιο της Γενεύης παρήγαγε 13000 εικόνες καθημερινά.[2] Αυτό το γεγονός καθιστά την καθιερωμένη σειριακή αναζήτηση αδύνατη, σε ένα κλάδο μάλιστα όπου η αναζήτηση σε παρόμοια περιστατικά θα ήταν πάρα πολύ χρήσιμη για την εξαγωγή συμπερασμάτων. Έτσι, ένα σύστημα ανάκτησης πληροφορίας που θα μπορεί να χρησιμοποιηθεί για την αναζήτηση εικόνων τόσο με βάση το περιεχόμενο τους όσο και με τη σημασιολογία τους, μπορεί να προσφέρει στον ιατρικό κλάδο μια ευρεία γκάμα νέων δυνατοτήτων, κάνοντας δυνατή την αναζήτηση σε περιστατικά που είναι αποθηκευμένα σε βάσεις δεδομένων πολύ μεγάλου όγκου. Έτσι με πολύ απλά και γρήγορα βήματα ακόμα και για μη πεπειραμένους χρήστες ένα τέτοιο σύστημα θα καθιστά δυνατή τη σύγκριση μεταξύ παλαιότερων και τωρινών ιατρικών γνωματεύσεων ή την αναζήτηση παρόμοιων περιστατικών. Προφανώς, αυτά τα εργαλεία σε έναν τέτοιο κλάδο όπως είναι η ιατρική, όπου διακυβεύονται ανθρώπινες ζωές μπορούν να αποβούν πολλές φορές καθοριστικά, αφού δίνοντας τη δυνατότητα σε γιατρούς να κάνουν άμεση διασταύρωση της γνωμάτευσης τους με βάση παρόμοια παλαιότερα περιστατικά ασθενών, καθώς και αναζήτηση σε σπάνια περιστατικά που δεν έχουν συναντήσει ξανά στην καριέρα τους θα τους δώσει την ευχέρεια να χορηγήσουν κάποια δοκιμασμένη αγωγή ή να αποφύγουν λάθη που μπορεί να προκληθούν από απειρία σε σπάνια περιστατικά ασθενών.[1] 2

ΚΕΦΑΛΑΙΟ 2 Εξαγωγή χαμηλού επιπέδου χαρακτηριστικών μιας εικόνας και το πρότυπο MPEG7 2.1 Εισαγωγή στο πρότυπο MPEG7 Το πρότυπο MPEG-7, γνωστό και ως Multimedia Content Description Interface [13] προσφέρει το πιο πλούσιο σύνολο τυποποιημένων μεθόδων για τη δημιουργία μεταδεδομένων που εξάγονται το περιεχόμενο πολυμέσων. Το πρότυπο αυτό δημιουργήθηκε από το Moving Pictures Expert Group(MPEG) το Σεπτέμβριο του 2001. Οι βασικοί σκοποί του προτύπου αυτού είναι οι εξής: Η παροχή μιας γρήγορης και αποδοτικής αναζήτησης, το φιλτράρισμα και ο προσδιορισμός του περιεχομένου μιας εικόνας. Η περιγραφή κεντρικών θεμάτων για το περιεχόμενο (χαμηλού επιπέδου χαρακτηριστικά, δομή, πρότυπα, συλλογές, κ.λπ.). Σύνταξη ευρετηρίου για μια μεγάλη σειρά εφαρμογών. Ενημέρωση για το πώς τα αντικείμενα συνδυάζονται σε μια σκηνή. Ανεξαρτησία μεταξύ της περιγραφής και των πληροφοριών. Οπτικοακουστικές πληροφορίες που το MPEG -7 πραγματεύεται είναι: Ήχος, φωνή, βίντεο, εικόνες, γραφικές παραστάσεις και τρισδιάστατα πρότυπα [16] 2.2 Περιγραφείς του MPEG7 Για την αποθήκευση και την επεξεργασία των χαρακτηριστικών χαμηλού επιπέδου, τα μεταδεδομένα του περιεχομένου του MPEG-7, βασικά παρέχουν τρεις διαφορετικούς τύπους δομικών χαρακτηριστικών γνωρισμάτων για την ανάλυση των εικόνων: Περιγραφείς χρώματος, υφής και μορφής. Οι περιγραφείς χρώματος του MPEG-7 παρέχουν τα μέσα ώστε να αναλυθούν οι εικόνες με βάση τη διανομή του χρώματός τους. Επιπλέον, το MPEG-7 προσφέρει τρεις περιγραφείς που στοχεύουν στην υφή και τρεις περιγραφείς μορφής. Εν προκειμένω, το MPEG-7 επιτρέπει την τυποποιημένη επεξεργασία επτά ευδιάκριτων χαρακτηριστικών γνωρισμάτων περιγραφέων χρώματος: Color Space (Χώρος Χρωμάτων) - Διευκρινίζει με ποιά μορφή εκφράζονται οι περιγραφείς χρώματος. Color Quantization (Κβαντοποίηση Χρώματος) Καθορίζει την κβαντοποίηση του χρωματικού φάσματος. Dominant Color (Κυρίαρχο Χρώμα) - Διευκρινίζει ένα ταξινομημένο σύνολο κυρίαρχων χρωμάτων σε μια αυθαίρετα διαμορφωμένη περιοχή καθώς επίσης και ένα μέτρο για τη συνοχή των χρωμάτων στο χώρο. Scalable Color - Καθορίζει ένα ιστόγραμμα χρώματος στο χρωματικό χώρο HSV. Color Layout - Περιγράφει τη διανομή των χρωμάτων στο χώρο, για αρκετά γρήγορη ανάκτηση, βασισμένο στα κυρίαρχα χρώματα που υπάρχουν σε καθορισμένες περιοχές. Color Structure - Διευκρινίζει το περιεχόμενο του χρώματος και τη χωρική ρύθμιση αυτού του περιεχομένου. 3

Group-of-Frame/Group-of-Picture - Περιγράφει τα χαρακτηριστικά γνωρίσματα χρώματος μιας συλλογής (των παρόμοιων) εικόνων ή των τηλεοπτικών πλαισίων με τη βοήθεια του Scalable Color. Επιπλέον, το πρότυπο MPEG-7 διαθέτει τρεις περιγραφείς για τα χαρακτηριστικά υφής μιας εικόνας: Homogeneous Texture - Χαρακτηρίζει την υφή για κάθε περιοχή χρησιμοποιώντας την ενέργεια και την ενεργειακή απόκλιση σε ένα σύνολο συχνοτήτων. Texture Browsing Ελέγχει σύντομα και αποφασίζει για τον αντιληπτικό χαρακτηρισμό μιας υφής. Edge Histogram - Διευκρινίζει τη διανομή στο χώρο πέντε τύπων ακμών στις τοπικές περιοχές της εικόνας. Η τρίτη και τελευταία ομάδα περιγραφέων σε MPEG-7 χρησιμοποιείται για να περιγράψει τα χαρακτηριστικά μορφής των οπτικών πληροφοριών: Region Shape - Διευκρινίζει την βασισμένη στην περιοχή, μορφή ενός αντικειμένου. Contour Shape - καθορίζει ένα κλειστό περίγραμμα ενός 2D αντικειμένου ή μιας περιοχής. Shape 3D - Διευκρινίζει μια εγγενή περιγραφή μορφής για τα τρισδιάστατα πρότυπα πλέγματος. [13] Από την τελευταία ομάδα περιγραφέων, μόνο το Region Shape μπορεί να χρησιμοποιηθεί για την ανάκτηση εικόνων αν και έχει αποδειχθεί ότι βασίζεται ιδιαίτερα στο Color Layout.[13] Επίσης, από την κατηγορία των περιγραφέων χρώματος εκείνα που χρησιμοποιούνται στην ανάκτηση πληροφορίας είναι συνήθως τα: Dominant Color, Scalable Color, Color Structure και Color Layout ενώ και οι τρείς περιγραφείς των χαρακτηριστικών υφής χρησιμοποιούνται συχνά. Έτσι, θεωρείται σκόπιμα να αναλύσουμε σε μεγαλύτερο βάθος αυτά τα χαρακτηριστικά. 2.2.1 Dominant Color Αντιπροσωπεύει τα τοπικά (στην περιοχή αντικειμένου ή της εικόνας) χαρακτηριστικά γνωρίσματα όπου ένας μικρός αριθμός χρωμάτων είναι αρκετός ώστε να χαρακτηρίσει τις χρωματικές πληροφορίες, στην περιοχή ενδιαφέροντος. Ολόκληρες οι εικόνες ισχύουν επίσης, παραδείγματος χάριν, εικόνες σημαιών ή εικόνες εμπορικών σημάτων. Η κβαντοποίηση χρώματος χρησιμοποιείται για να εξαγάγει έναν μικρό αριθμό αντιπροσωπευτικών χρωμάτων σε κάθε περιοχή. Το ποσοστό κάθε κβαντοποιημένου χρώματος στην περιοχή υπολογίζεται αντίστοιχα. Μια συνοχή του χώρου σε ολόκληρο τον περιγραφέα καθορίζεται επίσης και χρησιμοποιείται κατά την ανάκτηση όμοιων εικόνων. 2.2.2 Scalable Color Αυτός ο περιγραφέας χρώματος είναι ένα χρωματικό ιστόγραμμα στο χώρο HSV, το οποίο κωδικοποιείται από μια μετατροπή Haar, η οποία είναι μια τυποποιημένη ακολουθία εξισώσεων[17]. Η δυαδική του αναπαράσταση είναι κλιμακώσιμη, από την άποψη ότι υπάρχουν δοχεία με αριθμούς όπου η αναπαράσταση τους έχει ακρίβεια bit, σε μια ευρεία σειρά δεδομένων. Ο περιγραφέας αυτός είναι χρήσιμος για το ταίριασμα και την ανάκτηση εικόνας βασισμένης στο χαρακτηριστικό γνώρισμα χρώματος. Η ακρίβεια ανάκτησης αυξάνεται με τον αριθμό των bits που 4

χρησιμοποιούνται κατά την αναπαράσταση. Ένα παράδειγμα αναπαράστασης του περιγραφέα Scalable Color όπως δημιουργείται από τη βιβλιοθήκη Caliph θα ήταν: scalablecolor;0;64;-202 56 12 54-7 14 22 29-9 13 11 22 9 14 19 22-7 1 0 2-1 5 0 0-2 2 2 0-3 5 1-4 -3 0 0 1 0 0 1 2 1 1 1 3 1 2 4 5 1 0 2 2 2 3 3 0 0 0 0-2 1 0-3 -3 Η συνάρτηση της απόστασης για το συγκεκριμένο περιγραφέα όπως ορίζεται επίσης στη βιβλιοθήκη του Caliph είναι η εξής: (2.1) 2.2.3 Color Structure Είναι ένας περιγραφέας χαρακτηριστικών γνωρισμάτων χρώματος που συλλαμβάνει και το περιεχόμενο χρώματος (παρόμοιο με ένα ιστόγραμμα χρώματος) και τις πληροφορίες για τη δομή αυτού του περιεχομένου. Η κύρια λειτουργία της είναι το ταίριασμα εικόνων και η προοριζόμενη χρήση της είναι για την ανάκτηση σταθερής εικόνας(μη κινούμενης αφού το mpeg χρησιμοποιείται και για video), όπου μια εικόνα μπορεί να αποτελείται είτε από ένα ενιαίο ορθογώνιο πλαίσιο είτε από αυθαίρετου σχήματος περιοχές. Η μέθοδος εξαγωγής ενσωματώνει τις πληροφορίες δομών χρώματος στον περιγραφέα με το να λαμβάνει υπόψη όλα τα χρώματα σε ένα δομικό στοιχείο 8x8 pixels, αντί να εξετάσει κάθε pixel χωριστά. Αντίθετα από το ιστόγραμμα χρώματος, αυτός ο περιγραφέας μπορεί να διακρίνει μεταξύ δύο εικόνων στις οποίες ένα δεδομένο χρώμα είναι παρόν στα ίδια ποσά αλλά η δομή των ομάδων pixels που έχουν το χρώμα είναι διαφορετικό στις δύο εικόνες. Οι τιμές χρώματος αντιπροσωπεύονται από το χώρο χρώματος double-coned HMMD, ο οποίος κβαντοποιείται μη-ομοιόμορφα σε 32, 64, 128 ή 256 δοχεία. Κάθε αξία εύρους δοχείων αντιπροσωπεύεται από έναν κώδικα 8bit. Ο περιγραφέας παρέχει πρόσθετη λειτουργία και βελτιωμένη ομοιότητα, βασισμένη στην απόδοση ανάκτησης εικόνας για τις φυσικές εικόνες έναντι του συνηθισμένου ιστογράμματος χρώματος. 2.2.4 Color Layout Αυτός ο περιγραφέας αντιπροσωπεύει αποτελεσματικά τη χωρική διανομή του χρώματος των οπτικών σημάτων σε μια πολύ συμπαγή μορφή. Αυτή η πυκνότητα επιτρέπει στα οπτικά σήματα το ταίριασμα της λειτουργικότητας και της υψηλής αποδοτικότητας ανάκτησης με πολύ μικρές υπολογιστικές δαπάνες. Παρέχει το ταίριασμα εικόνας με εικόνα καθώς επίσης και το πολύ γρήγορο ταίριασμα ακολουθίας με ακολουθία, το οποίο απαιτεί πολλές επαναλήψεις των υπολογισμών ομοιότητας. Παρέχει επίσης μια πολύ φιλική διεπαφή με τον χρήστη χρησιμοποιώντας τις χειρόγραφες ερωτήσεις σκίτσων δεδομένου ότι αυτοί οι περιγραφείς συλλαμβάνουν τις πληροφορίες σχεδιαγράμματος του χαρακτηριστικού γνωρίσματος χρώματος. Οι ερωτήσεις σκίτσων δεν υποστηρίζονται σε άλλους περιγραφείς χρώματος. Η διαδικασία εξαγωγής του περιγραφέα είναι η εξής: Η εικόνας χωρίζεται σε κομμάτια μεγέθους 8x8. Τα αντιπροσωπευτικά χρώματα επιλέγονται και εκφράζονται στο διάστημα χρώματος YCbCr. Κάθε ένα από τα τρία συστατικά (Υ, Cb και Cr) μετασχηματίζεται από 8x8 DCT (Discrete Cosine Transform). Τα προκύπτοντα σύνολα συντελεστών DCT ανιχνεύονται και οι πρώτοι συντελεστές υπόκεινται σε μη γραμμική κβαντοποίηση για να διαμορφώσουν τον περιγραφέα. [14] 5

Ένα παράδειγμα αναπαράστασης του περιγραφέα Color Layout όπως δημιουργείται από τη βιβλιοθήκη Caliph θα ήταν: 10 23 22 12 22 16 15 15 15 13 13 14 16 15 14 16 14 16 17 16 16 16 16 16 15 15 14 17 15 16 15 18 15 15 15 15 15 15 16 17 16 15 15 16 15 16 15 16 15 17 15 16 16 16 16 16 15 15 15 16 16 15 16 15z32 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16z32 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 Η συνάρτηση της απόστασης για το συγκεκριμένο περιγραφέα όπως ορίζεται στη βιβλιοθήκη του Caliph είναι η εξής: (2.2) 2.2.5 Homogeneous Texture Ο περιγραφέας αυτός έχει προκύψει ως ένας σημαντικός οπτικός πρωτόγονος για την αναζήτηση και το ξεφύλλισμα μέσω μεγάλων συλλογών των παρόμοιων προτύπων κοιτάγματος. Μια εικόνα μπορεί να θεωρηθεί ως μωσαϊκό των ομοιογενών υφών έτσι ώστε αυτά τα γνωρίσματα υφής που συνδέονται με τις περιοχές να χρησιμοποιηθούν για να συντάξουν ευρετήριο των δεδομένων της εικόνας. Για παράδειγμα, ένας χρήστης που κοιτάζει βιαστικά μια εναέρια βάση δεδομένων εικόνας μπορεί να θελήσει να προσδιορίσει όλα τα μέρη χώρων στάθμευσης στη συλλογή εικόνας. Ένα μέρος χώρου στάθμευσης με τα αυτοκίνητα να σταθμεύουν σε τακτά χρονικά διαστήματα είναι ένα άριστο παράδειγμα ενός ομοιογενούς κατασκευασμένου σχεδίου όταν αντιμετωπίζεται από μια απόσταση, όπως σε μια εναέρια φωτογραφία. Ομοίως, οι γεωργικές περιοχές είναι άλλα παραδείγματα ομοιογενών υφών που βρίσκονται συνήθως στα εναέριες και δορυφορικές εικόνες. Τα παραδείγματα των ερωτήσεων που θα μπορούσαν να υποστηριχθούν σε αυτό το πλαίσιο θα μπορούσαν να περιλάβουν «ανάκτησε όλες τις δορυφορικές εικόνες της Θεσσαλίας που έχουν την κάλυψη σύννεφων λιγότερο από 20%» ή «βρείτε ένα χωράφι που μοιάζει με αυτήν την περιοχή». Για να υποστηριχτεί μία τέτοια ανάκτηση εικόνας, μια αποτελεσματική αντιπροσώπευση της υφής απαιτείται. Ο περιγραφέας παρέχει μια ποσοτική αντιπροσώπευση χρησιμοποιώντας 62 αριθμούς (που ποσολογούνται σε 8 bit κάθε ένας) που είναι χρήσιμη για την ανάκτηση. Η εξαγωγή γίνεται ως εξής: η εικόνα φιλτράρεται αρχικά από μια τράπεζα προσανατολισμού και φίλτρων συντονισμένης κλίμακας (διαμορφωμένων χρησιμοποιώντας τις λειτουργίες του Gabor). Οι πρώτες και δεύτερες στιγμές της ενέργειας στο πεδίο συχνότητας στις αντίστοιχες υποζώνες χρησιμοποιούνται έπειτα ως συστατικά του περιγραφέα υφής. Ο αριθμός φίλτρων χρησιμοποιούμενων είναι 5x6 = 30 όπου 5 είναι ο αριθμός «κλιμάκων» και 6 είναι ο αριθμός «κατευθύνσεων» που χρησιμοποιούνται κατά την αποσύνθεση όπου χρησιμοποιεί τη λειτουργία του Gabor. Μια αποδοτική εφαρμογή που χρησιμοποιεί τις προβολές και τις διαδικασίες φιλτραρίσματος 1-D υπάρχει για την εξαγωγή χαρακτηριστικών γνωρισμάτων. Ο περιγραφέας παρέχει μια ακριβή ποσοτική περιγραφή μιας υφής που μπορεί να χρησιμοποιηθεί για την αναζήτηση και την ανάκτηση. Ο υπολογισμός αυτού του περιγραφέα είναι βασισμένος στο φιλτράρισμα χρησιμοποιώντας εκλεκτικούς πυρήνες κλίμακας και προσανατολισμού φιλτραρίσματος. 6

2.2.6 Texture Browsing Ο περιγραφέας αυτός είναι χρήσιμος για την αναπαράσταση ομοιογενούς υφής και απαιτεί μόνο 12 bit(μέγιστο). Παρέχει έναν αντιληπτικό χαρακτηρισμό της υφής, παρόμοιο με μια ανθρώπινη κατηγοριοποίηση, από την άποψη της ομαλότητας, της τραχύτητας και της κατευθυντικότητας. Ο υπολογισμός αυτού του περιγραφέα προχωρά ομοίως με το Homogeneous Texture Descriptor. Κατ' αρχάς, η εικόνα φιλτράρεται από μια τράπεζα προσανατολισμού και κλιμάκωσης συντονισμένων φίλτρων (διαμορφωμένων χρησιμοποιώντας τις λειτουργίες του Gabor). Από τα φιλτραρισμένα αποτελέσματα, δύο κυρίαρχοι προσανατολισμοί σύστασης προσδιορίζονται. Τρία bit χρησιμοποιούνται για να αντιπροσωπεύσουν κάθε έναν από τους κυρίαρχους προσανατολισμούς. Αυτό ακολουθείται με την ανάλυση των φιλτραρισμένων προβολών εικόνας κατά μήκος των κυρίαρχων προσανατολισμών για να καθοριστεί η ομαλότητα (2 bit) και η τραχύτητα (2 bit Χ 2).Ο δεύτερος κυρίαρχος προσανατολισμός και το δεύτερο χαρακτηριστικό κλιμάκωσης είναι προαιρετικά. Αυτός ο περιγραφέας, συνδυασμένος με το Homogeneous Texture Descriptor, παρέχει μια εξελικτική λύση στην αντιπροσώπευση των ομοιογενών περιοχών υφής στις εικόνες. 2.2.7 Edge Histogram Ο περιγραφέας αυτός αντιπροσωπεύει τη χωρική διανομή πέντε τύπων ακμών, δηλαδή τέσσερις κατευθυντικές ακμές και μια μη κατευθυντική ακμή. Δεδομένου ότι οι ακμές διαδραματίζουν έναν σημαντικό ρόλο για την αντίληψη εικόνας, μπορεί να ανακτήσει τις εικόνες που έχουν παρόμοια σημασιολογική έννοια. Κατά συνέπεια, στοχεύει αρχικά στην αναζήτηση εικόνας από εικόνα, ειδικά για τις φυσικές εικόνες με ανομοιόμορφη διανομή ακμών. Σε αυτό το πλαίσιο, η απόδοση ανάκτησης εικόνας μπορεί να βελτιωθεί σημαντικά εάν ο περιγραφέας αυτός συνδυάζεται με άλλους περιγραφείς. Εκτός αυτού, οι καλύτερες αποδόσεις ανάκτησης λαμβάνονται με τη χρησιμοποίηση των ημι-σφαιρικών και σφαιρικών ιστογραμμάτων που παράγονται άμεσα από τον περιγραφέα Edge Histogram. Η διαδικασία εξαγωγής του περιγραφέα είναι η εξής: Η εικόνας διαιρείται σε υποεικόνες μεγέθους 4x4. Κάθε υποεικόνα χωρίζεται περαιτέρω στα μη-επικαλυπτόμενα τετραγωνικά blocks των οποίων μέγεθος εξαρτάται από την ανάλυση της εικόνας. Οι ακμές σε κάθε block είναι ταξινομημένες σε έναν από τους ακόλουθους έξι τύπους: κάθετες, οριζόντιες, 45± διαγώνιες, διαγώνιες, μη κατευθυντικές ακμές 135± και καμία-ακμή Τώρα ένα δοχείο μεγέθους 5 με το ιστόγραμμα ακμών μπορεί να ληφθεί για κάθε υποεικόνα Κάθε αξία δοχείων ομαλοποιείται από το συνολικό αριθμό των block στην υποεικόνα. Οι ομαλοποιημένες τιμές δοχείων κβαντοποιούνται μη γραμμικά. [14] Ένα παράδειγμα αναπαράστασης του περιγραφέα Edge Histogram όπως δημιουργείται από τη βιβλιοθήκη Caliph θα ήταν: edgehistogram;4 2 5 3 5 3 3 4 4 3 2 1 2 2 1 0 0 1 0 0 3 1 5 4 6 3 2 6 4 4 2 2 4 6 3 0 0 0 3 1 2 1 4 3 3 3 2 3 4 4 1 0 5 0 3 3 1 7 0 2 1 1 5 1 2 1 1 3 3 1 1 1 2 1 3 2 0 4 3 2 7

Η συνάρτηση της απόστασης για το συγκεκριμένο περιγραφέα όπως ορίζεται στη βιβλιοθήκη του Caliph είναι η εξής: (2.3) 8

ΚΕΦΑΛΑΙΟ 3 Το σύστημα Lire Το σύστημα Lire αποτελεί μία βιβλιοθήκη ανοιχτού κώδικα, που υλοποιεί την «Ανάκτηση εικόνας με βάση το περιεχόμενο» και ανήκει στα project της SemanticMetadata. Το Lire, που έχει δημιουργηθεί πλήρως σε Java, παρέχει αυτοματοποιημένες μεθόδους με σκοπό την ανάκτηση εικόνας, βασισμένο κυρίως στα χαρακτηριστικά χρώματος και υφής, με τα τρία από τα χαρακτηριστικά αυτά να περιγράφονται από το MPEG-7 και να είναι τα ScalableColor, ColorLayout και EdgeHistogram ενώ το τέταρτο, που είναι το AutoColorCorrelogram, είναι υλοποιημένο σύμφωνα με τα αποτελέσματα πρόσφατων ερευνών[18]. Η βιβλιοθήκη αυτή χρησιμοποιεί το εργαλείο Lucene, το οποίο είναι επίσης ανοιχτού κώδικα, για να δημιουργεί τα index με τους περιγραφείς που αναφέρθηκαν, για τη συλλογή των εικόνων που θέλουμε και για την ανάκτηση των χαρακτηριστικών αυτών. 3.1 Indexing και Searching Για να χρησιμοποιηθεί η βιβλιοθήκη Lire θα πρέπει πρώτα να δημιουργηθεί το index του οποίου ο χρόνος κατασκευής εξαρτάται αποκλειστικά από το μέγεθος της βάσης δεδομένων των εικόνων και τους περιγραφείς που θα επιλέξουμε να περιέχει το index. Σχετικά με αυτούς, το Lire προσφέρει τη δυνατότητα να διαλέξουμε μέσα από μια συλλογή πολλών analyzers ή να δημιουργήσουμε κάποιο δικό μας, ώστε να επιλέξουμε ποιά από τα χαρακτηριστικά του, θέλουμε να χρησιμοποιήσουμε. Έτσι εκτός από τα scalablecolor, colorlayout και edgehistogram έχουμε τη δυνατότητα να προσθέσουμε και τα AutoColorCorrelation, CEDD, FCTH, ColorHistogram, Tamura και Gabor ή να αφαιρέσουμε όποιο δεν θέλουμε. Όμως όταν θα κάνουμε την αναζήτηση θα πρέπει ο searcher που θα χρησιμοποιούμε να έχει τα αντίστοιχα χαρακτηριστικά με τον analyzer που θα έχουμε διαλέξει. Αντίστοιχα λοιπόν με τους analyzers το Lire παρέχει και αρκετούς searchers ώστε να επιλέξουμε, ενώ μας δίνει και τη δυνατότητα για αναζήτηση με βάρη ώστε να επιλέγουμε τι ποσοστό θα δίνουμε σε κάθε ένα από τα χαρακτηριστικά που έχουμε επιλέξει για κάθε αναζήτηση που εκτελούμε. Κατά την αναζήτηση, το Lire παίρνει τα χαρακτηριστικά της εικόνας εισόδου και ελέγχει με συναρτήσεις απόστασης, την απόσταση της εικόνας αυτής με κάθε μία από τις εικόνες της βάσης και επιστρέφει ταξινομημένα τα αποτελέσματα με την αναφορά τους και το αποτέλεσμα της συνάρτησης ομοιότητας. Οι συναρτήσεις ομοιότητας είναι αυτές που περιγράφονται παραπάνω στους περιγραφείς του MPEG- 7. 3.2 Βιβλιοθήκη Caliph Το Lire θεωρείται επίσης μέρος του project Caliph & Emir και είναι χαρακτηριστικό ότι για τους περιγραφείς του χρησιμοποιεί τις μεθόδους της βιβλιοθήκης Caliph. Το Caliph (Common And Light weight PHoto annotation) χρησιμοποιείται για την εξαγωγή δεδομένων από το περιεχόμενο των εικόνων, ενώ το Emir (Experimental Metadata-based Image Retrieval) ασχολείται κυρίως με την εξαγωγή των μεταδεδομένων περιγραφής των εικόνων. 9

Έτσι, όποτε το Lire χρειάζεται να εξάγει τους περιγραφείς μίας εικόνας καλεί τις μεθόδους του Caliph, το οποίο με τη σειρά αρχικά κάνει εξαγωγή των μεταδεδομένων IPTC και EXIF από τις εικόνες και κατόπιν τα μετατρέπει σε MPEG-7. Στη συνέχεια εξάγει τους περιγραφείς: ColorLayout, ScalableColor, EdgeHistogram και DominantColor. Εκτός από την εξαγωγή των υπαρχουσών πληροφοριών σε MPEG -7, το Caliph υποστηρίζει και τη δημιουργία σημασιολογικών εξαρτήσεων. Για αυτό τον σκοπό, οι περιγραφές στο Caliph περιλαμβάνουν την περιγραφή μεταδεδομένων, τις πληροφορίες δημιουργίας, την πληροφόρηση των μέσων ενημέρωσης, τον σχολιασμό κειμένου, τη σημασιολογία και τους οπτικούς περιγραφείς.[19] Συνοψίζοντας, θα λέγαμε ότι το Lire είναι μία αρκετά εύχρηστη, εύκολα τροποποιήσιμη στις ανάγκες μας και ελαφριά βιβλιοθήκη που μας δίνει τη δυνατότητα να κάνουμε ανάκτηση εικόνων με βάση το περιεχόμενο. Δυστυχώς οι αναζητήσεις της όμως είναι γραμμικές και αυτό δεν την κάνει κλιμακώσιμη σε μεγάλες βάσεις δεδομένων αν και θεωρείται ότι αρχίζει να καθυστερεί σε βάσεις μεγαλύτερες των 400,000 εικόνων. 10

ΚΕΦΑΛΑΙΟ 4 Υλοποίηση Συστήματος συνδυασμένης ανάκτησης εικόνας με βάση το περιεχόμενο και τη σημασιολογία της 4.1 Δημιουργία Index Το σύστημα συνδυασμένης ανάκτησης εικόνας με βάση το περιεχόμενο και τη σημασιολογία της αποτελείται από διάφορα κομμάτια. Ένα σημαντικό κομμάτι για τη λειτουργία του συστήματος, είναι το index που χρησιμοποιείται από το σύστημα κατά την αναζήτηση. Έτσι λοιπόν έχουμε δύο indexes, ένα για τη βάση των εικόνων και ένα για τις περιγραφές τους. Για τη βάση των εικόνων το σύστημά μας έχει δημιουργήσει το index χρησιμοποιώντας τον DefaultDocumentBuilder του Lire και ως Analyzer τον SimpleAnalyzer. Αυτό έχει ως αποτέλεσμα τα χαρακτηριστικά που κρατάμε από κάθε εικόνα να είναι τα ScalableColor, ColorLayout και EdgeHistogram όπως αυτά ορίζονται στο MPEG-7. Η δημιουργία της βάσης, με τις περιγραφές των εικόνων, έχει βασιστεί στο εργαλείο Lucene και για κάθε ένα από τα πεδία των περιγραφών των εικόνων που θέλουμε να μπορούμε να κάνουμε αναζήτηση γίνετε η εξής ανάλυση: Χρησιμοποιούμε το LowerCaseTokenizer ώστε να μετατρέψουμε όλους τους χαρακτήρες σε πεζούς και κάνουμε tokenize στα σημεία όπου ο χαρακτήρας δεν είναι γράμμα, κατόπιν αφαιρούμε τα Stop Words και για τους όρους που μας έχουν μείνει κάνουμε Stemming σύμφωνα με τον αλγόριθμο του Porter Stemmer. Τέλος χρησιμοποιούμε και το LengthFilter το οποίο αφαιρεί λέξεις που είναι πολύ μικρές ή πολύ μεγάλες για να εισέλθουν στο stream της java. 4.2 Υλοποίηση Searcher Έχοντας έτοιμο το index, το άλλο κομμάτι της υλοποίησης είναι η αναζήτηση με βάση κάποια εικόνα, κάποια σημασιολογική φράση ή με τον συνδυασμό και των δύο. Η μέθοδος της αναζήτησης με είσοδο μια εικόνα απαιτεί και τον προσδιορισμό των βαρών για τα ScalableColor (colorhistogramweight), ColorLayout (colordistributionweight) και EdgeHistogram (textureweight). Κατόπιν χρησιμοποιούμε τον WeightedSearcher του Lire ώστε να πάρουμε τα αποτελέσματα της αναζήτησης ενώ χρησιμοποιούμε και τη σημασιολογική βάση ώστε να εξάγουμε τα κείμενα για κάθε εικόνα που εμφανίζεται στα αποτελέσματα. Αντίστοιχα αποτελέσματα εξάγουμε και κατά την αναζήτηση με βάση τη σημασιολογία, όπου κάθε φράση είσοδος αναλύεται όπως οι περιγραφές κατά το indexing και κατόπιν μετατρέπονται σε ερώτημα για το Lucene το οποίο μας επιστρέφει τα αποτελέσματα σε αντίστοιχη μορφή με την ανάκτηση με βάση το περιεχόμενο των εικόνων. Επίσης, στα ερωτήματα έχουμε και τη δυνατότητα να χρησιμοποιήσουμε διάφορους 11

χαρακτήρες και τελεστές όπως τα wildcards? και *, οι σχεσιακοί τελεστές AND και OR και η αναζήτηση φράσεων σε. Τέλος κατά την συνδυασμένη ανάκτηση θα πρέπει να δοθούν τα βάρη που αφορούν την οπτική και κειμενική αναζήτηση καθώς και οι είσοδοι που απαιτούνταν στις αναζητήσεις που περιγράψαμε παραπάνω. Ύστερα εκτελούνται οι μέθοδοι των δύο αναζητήσεων ξεχωριστά και στην συνέχεια γίνετε η εξής διαδικασία: Για κάθε αποτέλεσμα που ανακτάται στην κειμενική αναζήτηση αν έχει ανακτηθεί και στην οπτική αναζήτηση δίνουμε ως score το textweight * textscore + imageweight * imagescore ενώ αν δεν έχει ανακτηθεί από την οπτική αναζήτηση θέτουμε απλά ως imagescore το 0 και στη συνέχεια ταξινομούμε τα αποτελέσματα. 4.3 Τεχνολογίες και Παρουσίαση Συστήματος Το σύστημα έχει υλοποιηθεί χρησιμοποιώντας τις τεχνολογίες java, java server pages, javascript, html καθώς και τις βιβλιοθήκες lire και lucene ενώ τρέχει σε unix server με τη βοήθεια του apache tomcat και μπορεί να χρησιμοποιηθεί από τη διεύθυνση http://195.251.235.8:8084/iscore/ Η αρχική σελίδα του συστήματος είναι η εξής: Εικ 4.1: Αρχική Σελίδα iscore Εκεί εκτός από τις αναζητήσεις που μπορούμε να κάνουμε, μπορούμε να επιλέξουμε το i ώστε να δούμε κάποιες πληροφορίες για τη σελίδα ή να πατήσουμε στο tuning ώστε να ρυθμίσουμε τα βάρη που αναφέρθηκαν παραπάνω σύμφωνα με τις ανάγκες μας. 12

Στη συνέχεια μπορούμε να κάνουμε τις αναζητήσεις. Πληκτρολογώντας το σημασιολογικό κείμενο που μας ενδιαφέρει και πατώντας Semantic Search μπορούμε να δούμε εικόνες των οποίων οι περιγραφές περιέχουν τους όρους που ψάχνουμε. Για παράδειγμα η αναζήτηση με βάση τη φράση lung cancer θα μας επέστρεφε τα εξής αποτελέσματα: Εικ 4.2: Παράδειγμα αναζήτησης με βάση τη φράση lung cancer 13