Σημασιολογική ανάλυση πολυμεσικού

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Σημασιολογική ανάλυση πολυμεσικού"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ ΠΑΠΑΔΟΠΟΥΛΟΥ Θ. ΓΕΩΡΓΙΟΥ Ηλεκτρολο γου Μηχανικου & Μηχανικου Υπολογιστω ν ΑΠΘ Σημασιολογική ανάλυση πολυμεσικού περιεχομένου με χρήση τεχνικών μηχανικής μάθησης ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Θεσσαλονίκη, Μάρτιος 2011

2

3 ΠΑΠΑΔΟΠΟΥΛΟΥ Θ. ΓΕΩΡΓΙΟΥ Σημασιολογική ανάλυση πολυμεσικού περιεχομένου με χρήση τεχνικών μηχανικής μάθησης ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Υποβλη θηκε στο Τμη μα Ηλεκτρολο γων Μηχανικω ν & Μηχανικω ν Υπολογιστω ν Τομε ας Ηλεκτρονικη ς και Υπολογιστω ν Ημερομηνι α Προφορικη ς Εξε τασης: 2 Μαρτι ου 2011 Εξεταστική Επιτροπή Καθηγητη ς Μιχαη λ-γερα σιμος Στρι ντζης, Επιβλε πων Καθηγητη ς Γεω ργιος Χασα πης, Με λος Τριμελου ς Συμβουλευτικη ς Επιτροπη ς Αν. Καθηγητη ς Λουκα ς Πε τρου, Με λος Τριμελου ς Συμβουλευτικη ς Επιτροπη ς Καθηγητη ς Περικλη ς Μη τκας, Εξεταστη ς Καθηγητη ς Βασι λειος Πετρι δης, Εξεταστη ς Επ. Καθηγητη ς Αναστα σιος Ντελο πουλος, Εξεταστη ς Λε κτορας Ανδρε ας Συμεωνι δης, Εξεταστη ς

4 Παπαδο πουλος Θ. Γεω ργιος ΑΠΘ Σημασιολογικη ανα λυση πολυμεσικου περιεχομε νου με χρη ση τεχνικω ν μηχανικη ς μα θησης <<Η ε γκριση της παρου σης Διδακτορικη ς Διατριβη ς απο το Τμη μα Ηλεκτρολο γων Μηχανικων & Μηχανικω ν Υπολογιστω ν του Αριστοτελει ου Πανεπιστημι ου Θεσσαλονι κης δεν υποδηλω νει αποδοχη των γνωμω ν του συγγραφε ως>> (Ν. 5343/1932, α ρθρο 202, παρ.2)

5 Στην οικογε νεια μου

6

7 Ευχαριστίες Η παρου σα διδακτορικη διατριβη αποτελει το επιστε γασμα μιας συνεχου ς και επι πονης, αλλα ταυτο χρονα και γεμα της θελκτικο τητα, προσπα θειας, η οποι α ε λαβε χω ρα τα τελευται α περι που πε ντε χρο νια. Στο σημει ο αυτο, θα η θελα να ευχαριστη σω τα α τομα τα οποι α αποτε λεσαν αρωγου ς αυτη ς της προσπα θειας. Καταρχη ν, θα η θελα να ευχαριστη σω τον επιβλε ποντα καθηγητη μου κ. Μ.Γ. Στρι ντζη, ο οποι ος με τη μεθοδικο τητα που τον διακατε χει και το αδιαμφισβη τητο ακαδημαι κο του κυ ρος μου κι νησε αρχικα το ενδιαφε ρον για την ε ρευνα και εν συνεχει α μου ε δωσε την ευκαιρι α να ασχοληθω ενεργα με αυτη ν στο επιστημονικο αντικει μενο που με ενδιε φερε, εξασφαλι ζοντα ς μου παρα λληλα ο λα εκει να τα υλικα και οικονομικα εχε γγυα προκειμε νου να επιδιω ξω απρο σκοπτα την υλοποι ηση των στο χων μου. Επι σης, θα η θελα να ευχαριστη σω τους Δρ. Ι. Κομπατσια ρη και Δρ. Β. Μεζα ρη για τη διαρκη καθοδη γηση και ενθα ρρυνση τους ο λο αυτο το χρονικο δια στημα, ο ρο λος των οποι ων η ταν καταλυτικο ς για την ολοκλη ρωση της παρου σας διατριβη ς. Επιπλε ον, θα η θελα να ευχαριστη σω ο λους τους κατα καιρου ς συναδε λφους και συνεργα τες μου στο Ινστιτου το Πληροφορικη ς και Τηλεματικη ς (Ι.Π.ΤΗΛ.), οι οποι οι συνε βαλαν στη διαμο ρφωση ενο ς φιλικου κλι ματος και ενο ς ευχα ριστου επαγγελματικου περιβα λλοντος, ο ρο λος του οποι ου η ταν σημαντικο ς κατα τη δια ρκεια της πολυετου ς αυτη ς προσπα θειας. Τε λος, θα η θελα πα νω απο ο λα να ευχαριστη σω την οικογε νεια μου, η οποι α μου μετε δωσε πολυ τιμες αξι ες, αλλα επιπλε ον με στη ριξε και με ενθα ρρυνε σε ο λες τις προσπα θειε ς μου με χρι ση μερα, και στην οποι α και αφιερω νω αυτη τη διατριβη. Θεσσαλονικη, Μα ρτιος 2011 Γεω ργιος Θ. Παπαδο πουλος

8

9 Περίληψη Στα πλαι σια της παρου σας διδακτορικη ς διατριβη ς μελετα ται το προ βλημα της σημασιολογικη ς ανα λυσης του πολυμεσικου περιεχομε νου με χρη ση τεχνικω ν μηχανικη ς μα θησης, και ειδικο τερα το ζη τημα της ανι χνευσης υψηλου επιπε δου σημασιολογικω ν εννοιω ν σε στατικε ς εικο νες και εικονοσειρε ς. Συγκεκριμε να, αρχικα προτει νεται μι α προσε γγιση για τη σημασιολογικη ανα λυση και την ταξινο μηση των εικο νων που στηρι ζεται στο συνδυασμο τοπικω ν και καθολικω ν χαρακτηριστικω ν της εικο νας με χρη ση προ τερης γνω σης για το πεδι ο εφαρμογη ς. Στη συνε χεια, παρουσια ζεται μι α με θοδος αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου, η οποι α στοχευ ει στη βελτι ωση των αποτελεσμα των ανα λυσης των εικο νων που ε χουν προκυ ψει με χρη ση αποκλειστικα οπτικη ς πληροφορι ας. Επιπρο σθετα, παρατι θεται μι α εκτενη ς συγκριτικη αξιολο γηση της προτεινο μενης μεθο δου με α λλες συ γχρονες τεχνικε ς της βιβλιογραφι ας, η οποι α ε χει ως σκοπο τη σε βα θος διερευ νηση των πλεονεκτημα των της κα θε τεχνικη ς και την απο κτηση μιας καλυ τερης και πιο ολοκληρωμε νης αντι ληψης αναφορικα με την χρη ση της χωρικη ς πληροφορι ας πλαισι ου. Επιπλε ον, προτει νεται μια νε α προσε γγιση για την ανι χνευση σημασιολογικω ν κατηγοριω ν σε εικονοσειρε ς με χρη ση κρυφω ν Μαρκοβιανω ν μοντε λων (Hidden Markov Models), η οποι α στηρι ζεται στη στατιστικη επεξεργασι α και την αναπαρα σταση του ση ματος κι νησης σε τοπικο επι πεδο. Παρα λληλα, παρουσια ζεται μια παραλλαγη της προτεινο μενης προσε γγισης, η οποι α ε χει ως σκοπο την υπολογιστικα αποτελεσματικη παροχη πληροφορι ας κι νησης σε μοντε λα HMMs με ποσοστα αναγνω ρισης συγκρι σιμα με αυτα της αυθεντικη ς μεθο δου. Τε λος, προτει νεται μι α προσε γγιση για τη σημασιολογικη ανα λυση των εικονοσειρω ν που πραγματοποιει ταυτο χρονα τις διαδικασι ες της συ ντηξης της πολυτροπικη ς πληροφορι ας και της αξιοποι ησης της χρονικη ς πληροφορι ας πλαισι ου.

10

11 Ph.D. Thesis: "Semantic multimedia content analysis using machine learning techniques" Summary In this thesis, the problem of the semantic analysis of the multimedia content using machine learning techniques, and in particular the issue of detecting high-level semantic concepts in static images and video sequences, is studied. Speci ically, an approach to semantic image analysis and classi ication is initially proposed that is based on the combination of global and local image features, making use of domain-speci ic prior knowledge. Subsequently, a spatial context exploitation technique is presented, which aims at improving the image analysis results that have been computed using only visual information. Additionally, an extensive comparative evaluation of the proposed method with other similar techniques of the literature is conducted. The aim of this study is the in-depth investigation of the advantages of each technique and the gain of a better insight on the use of spatial context. Moreover, a novel approach to Hidden Markov Model (HMM)- based semantic video analysis, which relies on the statistical analysis and representation of the motion signal at local level, is presented. In parallel, a variant of the proposed approach for providing motion information to HMMs is also introduced, which presents signi icantly reduced computational complexity, while maintaining a recognition performance similar to that of the original method. Finally, an approach to semantic video analysis is proposed for jointly performing modality fusion and temporal context exploitation. Thessaloniki, March 2011 Georgios Th. Papadopoulos

12

13 xiii Δημοσιεύσεις Άρθρα σε διεθνή επιστημονικά περιοδικά 1. G. Th. Papadopoulos, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "Joint Modality Fusion and Temporal Context Exploitation for Semantic Video Analysis", EURASIP Journal on Advances in Signal Processing, under review. 2. G. Th. Papadopoulos, C. Saathoff, H. J. Escalante, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "A Comparative Study of Spatial Context Techniques for Semantic Image Analysis", Computer Vision and Image Understanding, Elsevier, under major review. 3. V. Mezaris, S. Gidaros, G. Th. Papadopoulos, W. Kasper, J. Steffen, R. Ordelman, M. Huijbregts, F. de Jong, I. Kompatsiaris and M. G. Strintzis, "A System for the Semantic Multimodal Analysis of News Audio-Visual Content", EURASIP Journal on Advances in Signal Processing, vol (2010), Article ID G. Th. Papadopoulos, A. Briassouli, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "Statistical Motion Information Extraction and Representation for Semantic Video Analysis", IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), Vol. 19, No. 10, pp , October G. Th. Papadopoulos, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "Combining Global and Local Information for Knowledge-Assisted Image Analysis and Classi ication", EURASIP Journal on Advances in Signal Processing, Special Issue on Knowledge-Assisted Media Analysis for Interactive Multimedia Applications, vol (2007), Article ID

14 xiv Κεφάλαια βιβλίων 6. Th. Athanasiadis, Ph. Mylonas, G. Th. Papadopoulos, V. Mezaris, Y. Avrithis, I. Kompatsiaris, M. G. Strintzis, "Knowledge Driven Segmentation and Classi ication", in Multimedia Semantics: Metadata, Analysis and Interaction, R. Troncy, B. Huet, S. Schenk (Editors), Wiley, accepted for publication. 7. V. Mezaris, G. Th. Papadopoulos, A. Briassouli, I. Kompatsiaris, M. G. Strintzis, "Semantic Video Analysis and Understanding", in Encyclopedia of Information Science and Technology (2nd Edition), Mehdi Khosrow-Pour (Editor), vol. VII, pp , IGI Global, October Άρθρα σε διεθνή επιστημονικά συνέδρια 8. G. Th. Papadopoulos, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "Probabilistic Combination of Spatial Context with Visual and Co-occurrence Information for Semantic Image Analysis", IEEE International Conference on Image Processing (ICIP 2010), Hong Kong Convention and Exhibition Centre, Hong Kong, accepted for publication. 9. G. Th. Papadopoulos, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "A Statistical Learning Approach to Spatial Context Exploitation for Semantic Image Analysis", 20th International Conference on Pattern Recognition (ICPR 2010), pp , Istanbul, Turkey, August G. Th. Papadopoulos, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "Combining Multimodal and Temporal Contextual Information for Semantic Video Analysis", IEEE International Conference on Image Processing (ICIP 2009), pp , Cairo,

15 xv Egypt, November G. Th. Papadopoulos, C. Saathoff, M. Grzegorzek, V. Mezaris, I. Kompatsiaris, S. Staab and M. G. Strintzis, "Comparative Evaluation of Spatial Context Techniques for Semantic Image Analysis", 10th International Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS 2009), pp , London, UK, May G. Th. Papadopoulos, A. Briassouli, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "Semantic Video Analysis Based on Estimation and Representation of Higher-Order Motion Statistics", 3rd International Workshop on Semantic Media Adaptation and Personalization (SMAP '08), pp , Prague, Czech Republic, December G. Th. Papadopoulos, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "Estimation and Representation of Accumulated Motion Characteristics for Semantic Event Detection", IEEE International Conference on Image Processing, Workshop on Multimedia Information Retrieval (ICIP-MIR 2008), pp , San Diego, California, USA, October G. Th. Papadopoulos, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "Accumulated Motion Energy Fields Estimation and Representation for Semantic Event Detection", Proc. International Conference on Image and Video Retrieval (CIVR 2008), Niagara Falls, Canada, July G. Th. Papadopoulos, K. Chandramouli, V. Mezaris, I. Kompatsiaris, E. Izquierdo and M.G. Strintzis, "A Comparative Study of Classi ication Techniques for Knowledge- Assisted Image Analysis", 9th International Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS 2008), pp. 4-7, Klagenfurt, Austria, May G. Th. Papadopoulos, V. Mezaris, I. Kompatsiaris and M. G. Strintzis, "Ontology- Driven Semantic Video Analysis Using Visual Information Objects", Proc. Second

16 xvi International Conference on Semantics and Digital Media Technologies (SAMT 2007), pp , Genova, Italy, December G. Th. Papadopoulos, V. Mezaris, I. Kompatsiaris and M. G. Strintzis: "Combining Content and Context Information for Semantic Image Analysis and Classi ication", 15th European Signal Processing Conference (EUSIPCO 2007), special session on The Semantic Gap in Visual Information Retrieval, pp , Poznan, Poland, September P. Panagi, S. Dasiopoulou, G. Th. Papadopoulos, I. Kompatsiaris and M.G. Strintzis: "A Genetic Algorithm Approach to Ontology-Driven Semantic Image Analysis", 3rd IEE International Conference of Visual Information Engineering (VIE), K-Space Research on Semantic Multimedia Analysis for Annotation and Retrieval special session, Bangalore, India, 2006.

17 Περιεχόμενα 1 Εισαγωγή Περιγραφη του προβλη ματος Σημασιολογικη ανα λυση πολυμεσικου περιεχομε νου Στο χος της διατριβη ς Δια ρθρωση και συμβολη της διατριβη ς Βιβλιογραφική αναφορά Σημασιολογικη ανα λυση εικο νων Ταξινο μηση με χρη ση γνω σης Αξιοποι ηση χωρικη ς πληροφορι ας πλαισι ου Σημασιολογικη ανα λυση εικονοσειρω ν Ανι χνευση κατηγοριω ν Χρη ση τεχνικω ν μηχανικη ς μα θησης Ανι χνευση βασισμε νη στην πληροφορι α κι νησης Ανα λυση βασισμε νη στην πολυτροπικη πληροφορι α και την χρονικη πληροφορι α πλαισι ου Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Επεξεργασι α οπτικη ς πληροφορι ας xvii

18 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ Εξαγωγη καθολικω ν χαρακτηριστικω ν Κατα τμηση και εξαγωγη τοπικω ν χαρακτηριστικω ν Υποδομη γνω σης Σημασιολογικη ανα λυση και ταξινο μηση εικο νας Ταξινο μηση εικο νας με χρη ση καθολικω ν χαρακτηριστικω ν Ταξινο μηση εικο νας με χρη ση τοπικω ν χαρακτηριστικω ν και αρχικη συσχε τιση εννοιω ν με περιοχε ς Συ ντηξη πληροφορι ας για ταξινο μηση εικο νας και τελικη συσχε τιση εννοιω ν με περιοχε ς Πειραματικα αποτελε σματα Συμπερα σματα Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Αξιοποι ηση χωρικη ς πληροφορι ας πλαισι ου ως ε να προ βλημα καθολικη ς βελτιστοποι ησης Επεξεργασι α οπτικη ς πληροφορι ας Αξιοποι ηση πληροφορι ας πλαισι ου Συνδυασμο ς χωρικη ς, οπτικη ς και πληροφορι ας συν-εμφα νισης Πειραματικα αποτελε σματα Συγκριτικη αξιολο γηση τεχνικω ν αξιοποι ησης χωρικη ς πληροφορι ας πλαισι ου Οπτικη ανα λυση Απο κτηση χωρικη ς πληροφορι ας πλαισι ου Τεχνικε ς αξιοποι ησης χωρικη ς πληροφορι ας πλαισι ου Πειραματικη αξιολο γηση Συμπερα σματα xviii

19 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ 5 Εξαγωγή και αναπαράσταση πληροφορίας κίνησης για ανίχνευση σημασιολογικών κατηγοριών σε εικονοσειρές Σημασιολογικη ανα λυση εικονοσειρω ν στηριζο μενη στη στατιστικη επεξεργασι α του ση ματος κι νησης Στατιστικη ανα λυση ση ματος κι νησης Αναπαρα σταση της κι νησης Ταξινο μηση με χρη ση μοντε λων HMMs Πειραματικα αποτελε σματα Υπολογιστικα αποδοτικη με θοδος επεξεργασι ας του ση ματος κι νησης Κι νητρο ανα πτυξης μεθο δου Προτεινο μενη με θοδος Πειραματικα αποτελε σματα Συμπερα σματα Ταυτόχρονη σύντηξη πολυτροπικής πληροφορίας και αξιοποίηση χρονικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικονοσειρών Μονοτροπικη ανα λυση Ταυτο χρονη συ ντηξη πολυτροπικη ς πληροφορι ας και αξιοποι ηση χρονικη ς πληροφορι ας πλαισι ου Συ ντηξη πολυτροπικη ς πληροφορι ας Αξιοποι ηση χρονικη ς πληροφορι ας πλαισι ου Ενοποι ηση συ ντηξης πολυτροπικη ς πληροφορι ας και αξιοποι ησης χρονικη ς πληροφορι ας πλαισι ου Σχολιασμο ς Πειραματικα αποτελε σματα Συμπερα σματα Συμπεράσματα και μελλοντική έρευνα 197 xix

20 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ Αʹ Υπολογισμός βέλτιστων παραμέτρων αλγορίθμου ταξινόμησης εικόνων 205 Βιβλιογραφία 208 xx

21 Κατάλογος πινάκων 3.1 Λεζα ντα κυ ριων συμβο λων Ακρι βεια ανι χνευσης υπο -πεδι ων Ακρι βεια ανι χνευσης εννοιω ν Χρο νοι επεξεργασι ας για μι α εικο να 800x600 εικονοστοιχει ων Λεζα ντα κυ ριων συμβο λων Συ νολα δεδομε νων που ε χουν χρησιμοποιηθει Συνολικη ακρι βεια ταξινο μησης εννοιω ν Υπολογισθει σες τιμε ς του παρα γοντα SCF (c k ) Διαφορε ς στην απο δοση ανα μεσα στις τεχνικε ς αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου Αποτελε σματα συσχε τισης κατηγοριω ν στο πεδι ο του τε νις (e 1 : rally, e 2 : serve, e 3 : replay και e 4 : break) Αποτελε σματα συσχε τισης κατηγοριω ν στο πεδι ο των ειδη σεων (e 1 : anchor, e 2 : reporting, e 3 : reportage και e 4 : graphics) Αποτελε σματα συσχε τισης κατηγοριω ν στο πεδι ο του βο λει (e 1 : rally, e 2 : serve, e 3 : replay και e 4 : break) xxi

22 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ 5.4 Αποτελε σματα συσχε τισης κατηγοριω ν στο πεδι ο των ανθρω πινων δραστηριοτη των (e 1 : boxing, e 2 : handclapping, e 3 : handwaving, e 4 : jogging, e 5 : running και e 6 : walking) Αποτελε σματα συσχε τισης σημασιολογικω ν κατηγοριω ν για διαφορετικε ς τιμε ς της τα ξης T της πολυωνυμικη ς συνα ρτησης για τα πειρα ματα (1) και (2) (Συνολικη ακρι βεια) Συ νολα δεδομε νων που χρησιμοποιη θηκαν για πειραματισμο Αποτελε σματα συσχε τισης σημασιολογικω ν κατηγοριω ν στο πεδι ο του τε νις Αποτελε σματα συσχε τισης σημασιολογικω ν κατηγοριω ν στο πεδι ο των δελτι ων ειδη σεων Αποτελε σματα συσχε τισης σημασιολογικω ν κατηγοριω ν στο πεδι ο του βο λει -I (volleyball-i) Αποτελε σματα συσχε τισης σημασιολογικω ν κατηγοριω ν στο πεδι ο του βο λει -II (volleyball-ii) Αποτελε σματα συσχε τισης κατηγοριω ν με χρη ση πολυτροπικη ς πληροφορι ας και χρονικη ς πληροφορι ας πλαισι ου στο πεδι ο του τε νις Αποτελε σματα συσχε τισης κατηγοριω ν με χρη ση πολυτροπικη ς πληροφορι ας και χρονικη ς πληροφορι ας πλαισι ου στο πεδι ο των δελτι ων ειδη σεων Αποτελε σματα συσχε τισης κατηγοριω ν με χρη ση πολυτροπικη ς πληροφορι ας και χρονικη ς πληροφορι ας πλαισι ου στο πεδι ο του βο λει -I Αποτελε σματα συσχε τισης κατηγοριω ν με χρη ση πολυτροπικη ς πληροφορι ας και χρονικη ς πληροφορι ας πλαισι ου στο πεδι ο του βο λει -II. 192 xxii

23 Κατάλογος σχημάτων 1.1 Κυ ρια στα δια στη διαδικασι α της σημασιολογικη ς ανα λυσης πολυμεσικου περιεχομε νου Γενικη αρχιτεκτονικη της προτεινο μενης προσε γγισης Υπο -πεδι α και ε ννοιες της αναπτυγμε νης οντολογι ας για το πεδι ο της προσωπικη ς συλλογη ς Ενδεικτικα αποτελε σματα συσχε τισης εικο νων με υπο -πεδι α Ενδεικτικα αποτελε σματα συσχε τισης εικο νων με υπο -πεδι α Ενδεικτικα αποτελε σματα συσχε τισης περιοχω ν με ε ννοιες Ενδεικτικα αποτελε σματα συσχε τισης περιοχω ν με ε ννοιες Ορισμο ς βαθμωτω ν σχε σεων κατευ θυνσης Ανεπτυγμε νη δομη G kl δικτυ ου ΒΝ Αποτελε σματα ανι χνευσης εννοιω ν Ανεπτυγμε νο πλαι σιο αξιολο γησης Ανεπτυγμε νο μοντε λο EBM για την αξιοποι ηση της χωρικη ς πληροφορι ας πλαισι ου. Οι σκιασμε νοι κο μβοι υποδηλω νουν την ανα θεση εννοιω ν σε περιοχε ς χρησιμοποιω ντας αποκλειστικα οπτικη πληροφορι α, ενω οι μη-σκιασμε νοι κο μβοι αναπαριστου ν την ανα θεση εννοιω ν, αφου ε χει εκτελεστει η διαδικασι α συμπερασμου του μοντε λου EBM xxiii

24 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 4.6 Συχνο τητα συν-εμφα νισης σημασιολογικω ν εννοιω ν στα συ νολα δεδομε νων (α) D 1, (β) D 2, (γ) D 3 και (δ) D Αποτελε σματα ταξινο μησης σημασιολογικω ν εννοιω ν στο συ νολο δεδομε νων D Αποτελε σματα ταξινο μησης σημασιολογικω ν εννοιω ν στο συ νολο δεδομε νων D Αποτελε σματα ταξινο μησης σημασιολογικω ν εννοιω ν στο συ νολο δεδομε νων D Αποτελε σματα ταξινο μησης σημασιολογικω ν εννοιω ν στο συ νολο δεδομε νων D (α) Με σα αποτελε σματα ταξινο μησης εννοιω ν και (β) αριθμο ς εικο νων αναφορικα με το πλη θος των περιοχω ν που περιε χουν για ο λα τα συ νολα δεδομε νων Ακρι βεια ταξινο μησης εννοιω ν ο ταν χρησιμοποιει ται συ νολο εκπαι δευσης μειωμε νου μεγε θους (CB1: MPEG-7-SVM, CB2: MPEG-7-RF, CB3: MPEG-7- LB, CB4: SIFT-SVM, CB5: SIFT-RF, CB6: SIFT-LB) Παρα δειγμα υπολογισμου πεδι ου κυ ρτωσης και μα σκας περιοχη ς δραστηριο τητας για μια εικονοσειρα αναμετα δοσης δελτι ου ειδη σεων Τιμε ς κυ ρτωσης για τα ενεργα (α) και τα στατικα (β) εικονοστοιχει α του παραδει γματος του σχη ματος Παραδει γματα υπολογισμου πεδι ου κυ ρτωσης και μα σκας περιοχη ς δραστηριο τητας για επιπρο σθετες εικονοσειρε ς Υπολογισμο ς εικο νας MEI και περιοχη ς δραστηριο τητας για δεδομε να χωρι ς θο ρυβο (σειρε ς 2 και 4) και στην παρουσι α Γκαουσιανου προσθετικου θορυ βου (σειρε ς 3 και 5) Παραδει γματα υπολογισμου περιορισμε νου πεδι ου κυ ρτωσης και προσε γγισης απο πολυωνυμικη συνα ρτηση xxiv

25 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 5.6 Παραδει γματα υπολογισμου πεδι ου M acc (u, v, t, τ) για τη σημασιολογικη κατηγορι α break (1η σειρα ) και serve (2η σειρα ) σε μι α εικονοσειρα τε νις Αποτελε σματα συσχε τισης σημασιολογικω ν κατηγοριω ν για διαφορετικε ς τιμε ς της τα ξης T της πολυωνυμικη ς συνα ρτησης (συνολικη ακρι βεια) Προτεινο μενο πλαι σιο συ ντηξης και αξιοποι ησης χρονικη ς πληροφορι ας πλαισι ου Ανεπτυγμε νος γρα φος DAG G j για τη συ ντηξη της πολυτροπικη ς πληροφορι ας (α) και G c για τη μοντελοποι ηση της χρονικη ς πληροφορι ας πλαισι ου (β) Επι δραση της παραμε τρου T W (T W = 1, 2 και 3) στα αποτελε σματα του ανεπτυγμε νου δικτυ ου BN (πρω τη στη λη) και του ταξινομητη SVM (δευ τερη στη λη) Αποτελε σματα ταξινο μησης πλα νων του δικτυ ου BN για διαφορετικε ς τιμε ς της παραμε τρου Q για τα πεδι α (α) του τε νις, (β) των δελτι ων ειδη σεων, (γ) του βο λει -I και (δ) του βο λει -II xxv

26

27 Κεφάλαιο 1 Εισαγωγή 1.1 Περιγραφή του προβλήματος Η ραγδαι α προ οδος στην τεχνολογι α του υλικου τα τελευται α χρο νια ε χει οδηγη σει μεταξυ α λλων στην ανα πτυξη και την εκτεταμε νη δια δοση συσκευω ν λη ψης πολυμεσικου περιεχομε νου (κα μερες, κινητα τηλε φωνα, PDAs, κτλ.) με υψηλε ς δυνατο τητες αποθη κευσης δεδομε νων, ενω ε χει επι σης συμβα λει στην ευρει α και συνεχω ς αυξανο μενη διαθεσιμο τητα της προ σβασης στο διαδι κτυο (internet). Οι παρα γοντες αυτοι ει χαν ως αποτε λεσμα τη δημιουργι α τερα στιων βα σεων πολυμεσικου περιεχομε νου (multimedia content), οι οποι ες αποτελου ν αντικει μενο συνδιαλλαγη ς ανα μεσα στους χρη στες η κατασκευα στηκαν με σκοπο να γι νουν διαθε σιμες στο διαδι κτυο. Προκειμε νου να γι νει καλυ τερα αντιληπτο το πραγματικο με γεθος των βα σεων αυτω ν, παρατι θεται ενδεικτικα ο ο γκος των δεδομε νων που ε χει παρατηρηθει προ σφατα σε ορισμε νους απο τους πιο δημοφιλει ς ιστο τοπους (sites) του διαδικτυ ου που υποστηρι ζουν την χρη ση και το διαμοιρασμο πολυμεσικου περιεχομε νου: i) lickr¹: ¹http://www. lickr.com/ 1

28 Κεφάλαιο 1. Εισαγωγή Περιε χει πα νω απο 5 δισεκατομμυ ρια εικο νες² (Σεπτε μβριος 2010) Αποθηκευ ονται περισσο τερες απο 3000 νε ες εικο νες ανα λεπτο ii) ΥouΤube³: Παρακολουθου νται περισσο τερα απο 2 δισεκατομμυ ρια εικονοσειρε ς (videos) ημερησι ως Κα θε λεπτο αποθηκευ ονται νε ες εικονοσειρε ς συνολικη ς δια ρκειας μεγαλυ τερης απο 24 ω ρες (Οκτω βριος 2010) iii) facebook⁴: Περιε χει πα νω απο 10 δισεκατομμυ ρια εικο νες (Οκτω βριος 2008) Κα θε με ρα αποθηκευ ονται περισσο τερα απο 2-3 Terabytes περιεχομε νου εικο νων Παρα λληλα με την προαναφερθει σα αυ ξηση του ο γκου και της διαθεσιμο τητας του πολυμεσικου υλικου (εικο νες, εικονοσειρε ς), τυπικε ς διαδικασι ες, ο πως η δεικτοδο τηση (indexing), η αναζη τηση (search) και η ανα κτηση (retrieval) περιεχομε νου σε τε τοιες συλλογε ς, αποτελου ν ο λο και περισσο τερο αναπο σπαστο κομμα τι των καθημερινω ν δραστηριοτη των των χρηστω ν το σο σε προσωπικο ο σο και σε επαγγελματικο επι πεδο. Κατα συνε πεια, ε χουν προκυ ψει νε ες ανα γκες αναφορικα με την ανα πτυξη προηγμε νων και ευ χρηστων συστημα των για τον αποτελεσματικο χειρισμο του πολυμεσικου περιεχομε νου. Για το σκοπο αυτο, τα τελευται α χρο νια ε χουν επικεντρωθει ε ντονες ερευνητικε ς προσπα θειες στο σχεδιασμο και την ανα πτυξη εξελιγμε νων τεχνικω ν, οι οποι ες θα συμβα λουν καθοριστικα στην αποτελεσματικη εκτε λεση των προαναφερθε ντων διαδικασιω ν απο τους χρη στες. ²http://blog. lickr.net/en/2010/09/19/ / ³http://www.youtube.com/ ⁴http://www.facebook.com/ 2

29 Κεφάλαιο 1. Εισαγωγή Πιο προ σφατα, ε χει υιοθετηθει ευρε ως η θεμελιω δης αρχη της στροφη ς των τεχνικω ν χειρισμου του οπτικου περιεχομε νου προς ε να σημασιολογικο επι πεδο [123]. Η σημασιολογικη ανα λυση του πολυμεσικου περιεχομε νου αποτελει τον ακρογωνιαι ο λι θο αυτη ς της προσπα θειας για ευφυη χειρισμο του περιεχομε νου, η οποι α επιχειρει να γεφυρω σει το αποκαλου μενο "σημασιολογικο κενο " (semantic gap) [56] μεταξυ των χαρακτηριστικω ν χαμηλου επιπε δου (π.χ. χαρακτηριστικα χρω ματος, υφη ς, η χου, κι νησης) και των υψηλου επιπε δου σημασιολογικω ν εννοιω ν (semantic concepts). Οι τεχνικε ς αυτη ς της κατηγορι ας στοχευ ουν στην απο κτηση και τη μοντελοποι ηση της σημασιολογικη ς πληροφορι ας που υπα ρχει στο πολυμεσικο περιεχο μενο και η εφαρμογη τους σε μι α πλεια δα διαφορετικω ν εφαρμογω ν ε χει παρουσια σει πολλα υποσχο μενα αποτελε σματα. 1.2 Σημασιολογική ανάλυση πολυμεσικού περιεχομένου Με τον ο ρο σημασιολογικη ανα λυση πολυμε σων γενικα υποδηλω νονται οι διαφο ρων ειδω ν τεχνικε ς οι οποι ες στοχευ ουν στην πραγματικη κατανο ηση του σημασιολογικου περιεχομε νου του πολυμεσικου υλικου και την αυτο ματη εξαγωγη σημασιολογικω ν περιγραφω ν του [25]. Τα αποτελε σματα της σημασιολογικη ς ανα λυσης, δηλαδη η εξαγωγη των σημασιολογικω ν περιγραφω ν, αξιοποιου νται εν συνεχει α απο συστη ματα τα οποι α υλοποιου ν διαδικασι ες ο πως η αναζη τηση και η ανα κτηση πολυμεσικου υλικου. Κατα αυτο ν τον τρο πο, καθι σταται δυνατο ς ο ευφυη ς και αποτελεσματικο ς χειρισμο ς του πολυμεσικου περιεχομε νου απο τους χρη στες με βα ση την χρη ση σημασιολογικω ν κριτηρι ων. Ανεξα ρτητα απο το εκα στοτε πεδι ο εφαρμογη ς (π.χ. οργα νωση προσωπικη ς συλλογη ς δεδομε νων, δεικτοδο τηση πολυμεσικη ς βα σης δεδομε νων στο διαδι κτυο, κτλ.) και το συγκεκριμε νο στο χο (π.χ. ταξινο μηση εικο νων, αναγνω ριση γεγονο των, κτλ.), η διαδικασι α της σημασιολογικη ς ανα λυσης πολυμεσικου περιεχομε νου περιλαμβα νει γενικα 4 επιμε ρους στα δια, τα οποι α απεικονι ζονται και στο σχη μα 1.1: 3

30 Κεφάλαιο 1. Εισαγωγή Στάδια σημασιολογική ανάλυση πολυμεσικού περιεχομένου Χαμηλού επιπέδου επεξεργασία: κατάτμηση παρακολούθηση αντικειμένων εξαγωγή χαρακτηριστικού καρέ προσδιορισμό περιοχή ενδιαφέροντο αναγνώριση κειμένου διαχωρισμό προσκήνιου Εξαγωγή χαρακτηριστικών: χρώμα σχήμα υφή κίνηση ήχο κείμενο χωρικέ σχέσει Ανίχνευση εννοιών: μέθοδοι μηχανική συναρτήσει απόσταση μάθηση πιθανοτικέ ασαφή λογική προσεγγίσει κανόνε απόφαση μέθοδοι βελτιστοποίηση Συμπερασμό : αξιοποίηση πληροφορία πλαισίου εφαρμογή περιορισμών ανίχνευση εννοιών υψηλότερου επιπέδου αξιοποίηση πρότερη γνώση επίλυση αντιφάσεων προσαρμογή αποτελεσμάτων Σχη μα 1.1: Κυ ρια στα δια στη διαδικασι α της σημασιολογικη ς ανα λυσης πολυμεσικου περιεχομε νου 4

31 Κεφάλαιο 1. Εισαγωγή χαμηλού επιπέδου επεξεργασία (προαιρετικό) Στο στα διο αυτο περιλαμβα νονται ο λες εκει νες οι τεχνικε ς επεξεργασι ας σε επι πεδο ση ματος, οι οποι ες στοχευ ουν στο να υποβοηθη σουν τη σημασιολογικη ανα λυση του πολυμεσικου περιεχομε νου. Ανα μεσα στις πιο συχνα χρησιμοποιου μενες τεχνικε ς αυτη ς της κατηγορι ας ει ναι: α) η κατα τμηση (segmentation) -χωρικη, χρονικη, χω ρο-χρονικη -, β) η παρακολου θηση αντικειμε νων (object tracking), γ) η εξαγωγη χαρακτηριστικου καρε εικονοσειρα ς (key-frame extraction), δ) ο προσδιορισμο ς περιοχη ς ενδιαφε ροντος (region-ofinterest estimation), ε) ο διαχωρισμο ς προσκη νιου (foreground separation) και στ) η αναγνω ριση απεικονιζο μενου κειμε νου (Optical Character Recognition - OCR). Πρε πει να σημειωθει ο τι το αποτε λεσμα των τεχνικω ν αυτη ς της κατηγορι ας δεν περιε χει κανενο ς ει δους σημασιολογικη πληροφορι α. εξαγωγή χαρακτηριστικών Αντικει μενο των μεθο δων αυτη ς της κατηγορι ας ει ναι η εξαγωγη και η αναπαρα σταση εκει νων των χαρακτηριστικω ν χαμηλου επιπε δου, τα οποι α θα χρησιμοποιηθου ν για την ανι χνευση των σημασιολογικω ν εννοιω ν. Ανα λογα με το ει δος του πολυμεσικου περιεχομε νου (π.χ. εικο να, η χος, εικονοσειρα ), μπορει να γι νει χρη ση χαρακτηριστικω ν: α) χρω ματος, β) σχη ματος, γ) υφη ς, δ) κι νησης, ε) η χου, στ) κειμε νου, ζ) χωρικω ν σχε σεων, κτλ. Τα χαμηλου επιπε δου χαρακτηριστικα που εξα γονται σε αυτο το στα διο επι σης δεν περιε χουν κα ποιου ει δους σημασιολογικη πληροφορι α, αλλα στοχευ ουν στην κατα λληλη αναπαρα σταση εκει νων των ιδιοτη των του πολυμεσικου περιεχομε νου που ει ναι χρη σιμες στην υπο εξε ταση εφαρμογη. ανίχνευση εννοιών Σε αυτο το στα διο πραγματοποιει ται η αντιστοι χηση (mapping) των χαμηλου επιπε δου χαρακτηριστικω ν που ε χουν εξαχθει με τις υψηλου επιπε δου σημασιολογικε ς ε ννοιες που ε χουν οριστει για το εκα στοτε πεδι ο εφαρμογη ς. Ανα μεσα στις ποικι λες προσεγγι σεις που ε χουν προταθει στη βιβλιογραφι α για την πραγματοποι ηση αυτη ς της αντιστοι χησης, περιλαμβα νονται με θοδοι που στηρι ζονται στην χρη ση: α) τεχνικω ν μηχανικη ς μα θησης (machine learning), 5

32 Κεφάλαιο 1. Εισαγωγή β) κανο νων απο φασης (decision rules), γ) τεχνικω ν ασαφου ς λογικη ς (fuzzy logic), δ) πιθανοτικω ν προσεγγι σεων (probabilistic approaches), ε) μεθο δων βελτιστοποι ησης (optimization techniques) και στ) συναρτη σεων απο στασης (distance-measures) που ορι ζονται στον αντι στοιχο χω ρο των χαρακτηριστικω ν (feature space). συμπερασμός (προαιρετικό) Σε αυτο το στα διο λαμβα νουν χω ρα διαδικασι ες συμπερασμου, σκοπο ς των οποι ων ει ναι η παραγωγη ακριβε στερων και πιο λεπτομερω ν σημασιολογικω ν περιγραφω ν. Οι διαδικασι ες αυτε ς αξιοποιου ν τα αποτελε σματα της ανι χνευσης εννοιω ν του προηγου μενου σταδι ου και συνη θως δρουν σε ε να αμιγω ς σημασιολογικο επι πεδο. Ανα μεσα στις κυριο τερες κατηγορι ες μεθο δων, περιλαμβα νονται προσεγγι σεις που πραγματοποιου ν: α) την αξιοποι ηση πληροφορι ας πλαισι ου (context exploitation), β) ανι χνευση εννοιω ν υψηλο τερου σημασιολογικου επιπε δου (higher-level semantic concepts), γ) επι λυση αντιφα σεων ανα μεσα στα αρχικα αποτελε σματα της ανι χνευσης εννοιω ν (con lict resolution), δ) εφαρμογη περιορισμω ν (constraint enforcement), ε) αξιοποι ηση προ τερης γνω σης (prior knowledge), και στ) προσαρμογη (adaptation) των αποτελεσμα των της ανα λυσης. Οι μεθοδολογι ες που ακολουθου νται σε κα θε ε να απο τα προαναφερθε ντα στα δια της σημασιολογικη ς ανα λυσης βρι σκονται σε α μεση σχε ση με τις επιλογε ς που γι νονται στα υπο λοιπα. Για παρα δειγμα, ανα λογα με το ει δος των εννοιω ν που χρεια ζεται να ανιχνευθου ν σε μι α δεδομε νη εφαρμογη, πρε πει αντιστοι χως να επιλεγου ν και τα κατα λληλα χαμηλου επιπε δου χαρακτηριστικα που θα καταστη σουν εφικτο τον αποτελεσματικο εντοπισμο των εννοιω ν αυτω ν. Επιπρο σθετα, τα στα δια της σημασιολογικη ς ανα λυσης δεν ει ναι πα ντα ευκρινω ς διαχωρι σιμα μεταξυ τους, π.χ. ε χουν προταθει με θοδοι στη βιβλιογραφι α που πραγματοποιου ν ταυτο χρονα τις διαδικασι ες της χωρικη ς κατα τμησης και της εξαγωγη ς χαρακτηριστικω ν χαμηλου επιπε δου σε ακι νητες εικο νες. 6

33 Κεφάλαιο 1. Εισαγωγή 1.3 Στόχος της διατριβής Στα πλαι σια της παρου σας διδακτορικη ς διατριβη ς μελετω νται νε οι με θοδοι για τη σημασιολογικη ανα λυση του πολυμεσικου περιεχομε νου με χρη ση τεχνικω ν μηχανικη ς μα θησης, και ειδικο τερα τεχνικε ς που στοχευ ουν στην ανι χνευση σημασιολογικω ν εννοιω ν σε στατικε ς εικο νες και εικονοσειρε ς. Οι με θοδοι που αναπτυ σσονται εντα σσονται στο τελευται ο στα διο της σημασιολογικη ς ανα λυσης του πολυμεσικου περιεχομε νου, δηλαδη το στα διο του συμπερασμου που αναλυ θηκε στην προηγου μενη υπο -ενο τητα, και ε χουν ως στο χο την αξιοποι ηση προ τερης γνω σης σχετικα με το πεδι ο εφαρμογη ς για τη βελτι ωση των αποτελεσμα των της ανα λυσης. Συγκεκριμε να, οι προτεινο μενες με θοδοι στοχευ ουν στη βελτι ωση των αποτελεσμα των της ανι χνευσης και στην αντιμετω πιση των εγγενω ν αδυναμιω ν που πηγα ζουν απο την κλασσικη προσε γγιση της εξαγωγη ς χαρακτηριστικω ν χαμηλου επιπε δου και της χρη σης τυπικω ν ταξινομητω ν για την ανι χνευση των σημασιολογικω ν εννοιω ν. Ανα λογα με την εκα στοτε εφαρμογη, η διατριβη εστια ζει στην χρη ση γνω σης που ορι ζεται ρητα, αλλα και την αξιοποι ηση πληροφορι ας πλαισι ου που αποκτιε ται με σω μιας διαδικασι ας μα θησης. Η ερευνητικη δραστηριο τητα επικεντρω νεται αρχικα στο ζη τημα της σημασιολογικη ς ταξινο μησης των εικο νων. Η σχετικη βιβλιογραφι α αποτελει ται κυρι ως απο τεχνικε ς που στηρι ζονται στην χρη ση οπτικω ν χαρακτηριστικω ν καθολικου επιπε δου της εικο νας, με ελα χιστες απο αυτε ς να επιχειρου ν να συνδυα σουν τα καθολικα με τοπικα χαρακτηριστικα. Για τον ι διο σκοπο, ευρε ως διαδεδομε νες ει ναι και με θοδοι που κα νουν χρη ση μοντε λων αναπαρα στασης προ τερης γνω σης, προκειμε νου να διευκολυ νουν και να αυξη σουν την αποτελεσματικο τητα της διαδικασι ας συμπερασμου. Λαμβα νοντας υπο ψη τα παραπα νω, καταβλη θηκε ερευνητικη προσπα θεια προς την κατευ θυνση του σχεδιασμου μιας μεθο δου που να μπορει να επωφεληθει απο τα συγκριτικα πλεονεκτη ματα των δυ ο προαναφερθε ντων κατηγοριω ν. Αυτο οδη γησε στην ανα πτυξη μιας προσε γγισης για την ταξινο μηση των εικο νων, η οποι α συνδυα ζει προ τερη γνω ση για το πεδι ο εφαρμογη ς με σημασιολογικη πληροφορι α τοπικου και καθολικου επιπε δου. Η 7

34 Κεφάλαιο 1. Εισαγωγή προ τερη γνω ση που χρησιμοποιει ται περιλαμβα νει γνω ση που ορι ζεται ρητα (κατηγορι ες στις οποι ες μπορει να καταταγει μι α εικο να, αλλα και επιμε ρους ε ννοιες που αντιστοιχου ν σε αντικει μενα που σχετι ζονται με κα θε κατηγορι α) και πληροφορι α πλαισι ου (υπο τη μορφη της συχνο τητας εμφα νισης των εννοιω ν σε κα θε κατηγορι α). Παρα λληλα με τη διαδικασι α της ταξινο μησης των εικο νων, αντικει μενο μελε της αποτελει και το ζη τημα της αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου κατα τη διαδικασι α της σημασιολογικη ς ανα λυσης των εικο νων. Στο περιβα λλον της ανα λυσης των εικο νων, η χωρικη πληροφορι α πλαισι ου γενικα αναπαριστα την χωρικη δια ταξη των αντικειμε νων του πραγματικου κο σμου και η αξιοποι ηση της διευκολυ νει στη δια κριση μεταξυ των αντικειμε νων που εμφανι ζουν παρο μοια οπτικα χαρακτηριστικα. Παρα το γεγονο ς ο τι ε χει προταθει στη βιβλιογραφι α μια σειρα διαφορετικω ν προσεγγι σεων για την αξιοποι ηση της χωρικη ς πληροφορι ας, ει ναι ελα χιστη η ερευνητικη προσπα θεια που ε χει αφιερωθει προς την κατευ θυνση της ρυ θμισης της βαρυ τητα ς της στην ανι χνευση των εννοιω ν ε ναντι της οπτικη ς και της πληροφορι ας συν-εμφα νισης. Στην παρου σα διατριβη, προτει νεται μια καινοτο μα με θοδος που ακολουθει μια πιθανοτικη προσε γγιση για τη ρυ θμιση της βαρυ τητας της χωρικη ς, της οπτικη ς και της πληροφορι ας συνεμφα νισης για κα θε ξεχωριστη σημασιολογικη ε ννοια. Επιπλε ον, πραγματοποιει ται μια εκτενη ς συγκριτικη αξιολο γηση με α λλες συ γχρονες μεθο δους της βιβλιογραφι ας, προκειμε νου να προσδιοριστου ν τα πλεονεκτη ματα της κα θε μεθο δου, και να εξεταστει κα τω απο ποιες συνθη κες η χρη ση της χωρικη ς πληροφορι ας ει ναι επωφελη ς και πως επηρεα ζεται η απο δοση της απο μια σειρα τυπικω ν παραγο ντων. Για την περι πτωση της ανα λυσης των εικονοσειρω ν, εξετα ζεται το ζη τημα της αναγνω ρισης σημασιολογικω ν κατηγοριω ν, κα νοντας χρη ση πολυτροπικη ς πληροφορι ας και χρονικη ς πληροφορι ας πλαισι ου. Συγκεκριμε να, προτει νεται μι α με θοδος, η οποι α πραγματοποιει ταυτο χρονα τις διαδικασι ες της συ ντηξης της πολυτροπικη ς πληροφορι ας και της αξιοποι ησης της χρονικη ς πληροφορι ας πλαισι ου, λαμβα νοντας υπο ψη τις συσχετι σεις ανα μεσα στα αντι στοιχα αριθμητικα δεδομε να. Το χαρακτηριστικο αυτο 8

35 Κεφάλαιο 1. Εισαγωγή διαφοροποιει την προτεινο μενη με θοδο απο α λλες προσεγγι σεις της βιβλιογραφι ας, οι οποι ες πραγματοποιου ν τις δυ ο αυτε ς διαδικασι ες χωριστα. Αναφορικα με την χρησιμοποιου μενη πληροφορι α πλαισι ου, η προτεινο μενη προσε γγιση ενσωματω νει πιθανοτικε ς διαδικασι ες μα θησης που καθιστου ν εφικτη την απο κτηση συ νθετης πληροφορι ας σχετικα με τα μακροπρο θεσμα χρονικα προ τυπα που τει νουν να ακολουθου ν οι κατηγορι ες στο εκα στοτε πεδι ο εφαρμογη ς. Το τελευται ο χαρακτηριστικο επεκτει νει σημαντικα τη σχετικη βιβλιογραφι α, η οποι α στηρι ζεται κυρι ως στην εξε ταση και στη μοντελοποι ηση των χρονικω ν σχε σεων ανα μεσα σε ζευ γη κατηγοριω ν, και περιορι ζει σημαντικα την εμφα νιση αθροιστικω ν σφαλμα των και τις επιπτω σεις απο την παρουσι α θορυ βου στα δεδομε να. Εκτο ς απο τις προαναφερθει σες μεθο δους, οι οποι ες κα νουν χρη ση προ τερης γνω σης για να βελτιω σουν τα αποτελε σματα της ανα λυσης, στα πλαι σια της διατριβη ς εξετα ζεται επιπλε ον και το θε μα της ανι χνευσης των σημασιολογικω ν κατηγοριω ν σε εικονοσειρε ς βα σει πληροφορι ας κι νησης. Η επιλογη αυτη ε γινε διο τι διαπιστω θηκε ο τι υπα ρχουν σημαντικα περιθω ρια βελτι ωσης της αντι στοιχης βιβλιογραφι ας, πριν την εφαρμογη μιας πολυτροπικη ς προσε γγισης η μιας προσε γγισης που αξιοποιει την χρονικη πληροφορι α πλαισι ου. Για την πραγματοποι ηση της ανι χνευσης των κατηγοριω ν χρησιμοποιου νται κρυφα Μαρκοβιανα μοντε λα (Hidden Markov Models - HMMs), τα οποι α ε χουν χρησιμοποιηθει εκτεταμε να σε εφαρμογε ς σημασιολογικη ς ανα λυσης εικονοσειρω ν. Συγκεκριμε να, προτει νεται μια με θοδος που στηρι ζεται στη στατιστικη επεξεργασι α και την αναπαρα σταση του ση ματος κι νησης σε τοπικο επι πεδο. Αυτο το χαρακτηριστικο βρι σκεται σε αντιδιαστολη με την πλειονο τητα των αναπαραστα σεων κι νησης της σχετικη ς βιβλιογραφι ας που προορι ζονται για χρη ση μαζι με μοντε λα HMMs, οι οποι ες περιορι ζονται κυρι ως σε προσεγγι σεις επεξεργασι ας της κι νησης σε καθολικο επι πεδο η σε επι πεδο κα μερας. Η εξαγωγη των προτεινο μενων χαρακτηριστικω ν τοπικου επιπε δου οδηγει σε μια πιο λεπτομερη αναπαρα σταση των ιδιοτη των του ση ματος κι νησης και μπορει να συμβα λει καθοριστικα στην επι τευξη αυξημε νης απο δοσης 9

36 Κεφάλαιο 1. Εισαγωγή αναγνω ρισης, σε σχε ση με τις αντι στοιχες μεθο δους της βιβλιογραφι ας. Επιπλε ον, παρουσια ζεται μια παραλλαγη της προτεινο μενης προσε γγισης, η οποι α συνδυα ζει σημαντικα μειωμε νη υπολογιστικη πολυπλοκο τητα με ποσοστα αναγνω ρισης συγκρι σιμα με αυτα της αυθεντικη ς μεθο δου. 1.4 Διάρθρωση και συμβολή της διατριβής Στο κεφα λαιο 2, πραγματοποιει ται η επισκο πηση της βιβλιογραφι ας που σχετι ζεται με την αυτο ματη ανι χνευση σημασιολογικω ν εννοιω ν σε στατικε ς εικο νες και εικονοσειρε ς. Επιπρο σθετα, σημειω νονται οι αδυναμι ες και τα προβλη ματα που παρουσια ζουν οι με θοδοι της βιβλιογραφι ας, και τα οποι α αποτελου ν αντικει μενο μελε της της παρου σας διατριβη ς. Στο κεφα λαιο 3, παρουσια ζεται μι α προσε γγιση για τη σημασιολογικη ανα λυση και την ταξινο μηση των εικο νων που στηρι ζεται στην χρη ση τεχνικω ν γνω σης και την αξιοποι ηση διαδικασιω ν μα θησης. Βασικη καινοτομι α της προτεινο μενης μεθο δου αποτελει ο συνδυασμο ς τοπικω ν και καθολικω ν χαρακτηριστικω ν της εικο νας με χρη ση προ τερης γνω σης (prior knowledge) για το πεδι ο εφαρμογη ς. Ειδικο τερα, η προτεινο μενη προσε γγιση στηρι ζεται: α) στην χρη ση σημασιολογικη ς πληροφορι ας τοπικου και καθολικου επιπε δου, και β) στο συνδυασμο ρητη ς γνω σης (explicit knowledge) με πληροφορι α πλαισι ου (contextual information) και με γνω ση που προκυ πτει μετα την εφαρμογη μιας διαδικασι ας μα θησης. Η χρησιμοποιου μενη γνω ση αναπαρι σταται με τη μορφη μιας οντολογι ας, η οποι α καθορι ζει το πεδι ο (domain) ενδιαφε ροντος, τα επιμε ρους υπο -πεδι α του, τις σημασιολογικε ς ε ννοιες που σχετι ζονται με κα θε υπο -πεδι ο, καθω ς και πληροφορι α πλαισι ου. Η πληροφορι α πλαισι ου που αξιοποιει ται ει ναι υπο τη μορφη της συχνο τητας εμφα νισης της κα θε ε ννοιας σε κα θε ε να απο τα οριζο μενα υπο -πεδι α. Επιπλε ον, η βαρυ τητα που πρε πει να ε χει η πληροφορι α καθολικου και η πληροφορι α τοπικου επιπε δου στην ταξινο μηση των εικο νων προσδιορι ζεται ξεχωριστα για κα θε υπο -πεδι ο ακολουθω ντας μι α διαδικασι α βελτιστοποι ησης. Η εφαρμογη της 10

37 Κεφάλαιο 1. Εισαγωγή προτεινο μενης μεθο δου σε εικο νες ενο ς επιλεγμε νου πεδι ου ε χει ως αποτε λεσμα την ταξινο μηση τους (δηλαδη την ανα θεση τους σε ε να απο τα οριζο μενα υπο -πεδι α) και την παραγωγη μι ας λεπτομερου ς σημασιολογικη ς αναπαρα σταση ς τους (δηλαδη μι ας μα σκας κατα τμησης με σημασιολογικε ς ε ννοιες αντιστοιχισμε νες σε κα θε περιοχη της). Στο κεφα λαιο 4, προτει νεται μι α με θοδος αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου για εφαρμογε ς σημασιολογικη ς ανα λυσης εικο νων. Η με θοδος στοχευ ει στη βελτι ωση των αποτελεσμα των ανα λυσης που ε χουν προκυ ψει με χρη ση αποκλειστικα οπτικη ς πληροφορι ας, αξιοποιω ντας την χωρικη πληροφορι α και διατυπω νοντας το προ βλημα της ανα λυσης εικο νας ως ε να προ βλημα καθολικη ς βελτιστοποι ησης (global optimization problem). Η χρησιμοποιου μενη χωρικη πληροφορι α ει ναι υπο τη μορφη βαθμωτω ν χωρικω ν σχε σεων κατευ θυνσης (fuzzy directional spatial relations) μεταξυ των περιοχω ν της υπο εξε ταση εικο νας, οι οποι ες ε χουν προκυ ψει απο την εφαρμογη ενο ς αλγορι θμου χωρικη ς κατα τμησης (segmentation). Τα χαρακτηριστικα που διαφοροποιου ν και καθιστου ν επωφελη την προτεινο μενη με θοδο, ε ναντι παρο μοιων προσεγγι σεων της βιβλιογραφι ας, ει ναι: α) η αξιοποι ηση συ νθετης χωρικη ς πληροφορι ας πλαισι ου, η οποι α προκυ πτει απο την εφαρμογη μιας στατιστικη ς διαδικασι ας μα θησης, και β) η χρη ση μιας πιθανοτικη ς προσε γγισης για τον αποτελεσματικο συνδυασμο της χωρικη ς με την οπτικη και την πληροφορι α συν-εμφα νισης (co-occurrence). Το τελευται ο επιτυγχα νεται με την χρη ση μιας σειρα ς Μπαγεσιανω ν δικτυ ων (Bayesian Networks - BNs). Τα χρησιμοποιου μενα δι κτυα BNs ει ναι εφοδιασμε να με μι α κατα λληλη δικτυακη δομη, η οποι α τους επιτρε πει να προσαρμο ζουν τη βαρυ τητα που πρε πει να ε χει η χωρικη πληροφορι α πλαισι ου ε ναντι της οπτικη ς και της πληροφορι ας συν-εμφα νισης κατα τη διαδικασι α ανι χνευσης, ξεχωριστα για κα θε δυνατο ζευ γος αντικειμε νων. Επιπρο σθετα, στη δευ τερη ενο τητα του κεφαλαι ου, παρατι θεται μι α συγκριτικη αξιολο γηση της προτεινο μενης μεθο δου με α λλες δυ ο συ γχρονες τεχνικε ς για την αξιοποι ηση της χωρικη ς πληροφορι ας πλαισι ου. Η αξιολο γηση περιλαμβα νει την εφαρμογη των επιλεγμε νων τεχνικω ν, οι οποι ες καλυ πτουν τις κυριο τερες κατηγορι ες μεθο δων που ε χουν προταθει 11

38 Κεφάλαιο 1. Εισαγωγή στη βιβλιογραφι α, με πολλαπλου ς συνδυασμου ς χαρακτηριστικω ν χαμηλου επιπε δου (features) και ταξινομητω ν (classi iers) σε τε σσερα συ νολα δεδομε νων διαφορετικη ς πολυπλοκο τητας. Σκοπο ς της μελε της ει ναι η σε βα θος διερευ νηση των πλεονεκτημα των της κα θε τεχνικη ς και η απο κτηση μιας καλυ τερης και πιο ολοκληρωμε νης αντι ληψης αναφορικα με την χρη ση της χωρικη ς πληροφορι ας πλαισι ου. Συγκεκριμε να, ε χουν διεξαχθει εκτεταμε να πειρα ματα για τη διερευ νηση της επι δρασης στην απο δοση της κα θε τεχνικη ς μιας σειρα ς τυπικω ν παραγο ντων, ο πως τα χρησιμοποιου μενα οπτικα χαρακτηριστικα, οι επιλεγμε νοι ταξινομητε ς, ο αριθμο ς των υποστηριζο μενων αντικειμε νων, διαφορετικα συ νολα δεδομε νων μεταβλητη ς πολυπλοκο τητας, η ποσο τητα των δεδομε νων που χρησιμοποιει ται για την απο κτηση της χωρικη ς πληροφορι ας πλαισι ου και ο αριθμο ς των περιοχω ν που υπα ρχουν στην εικο να. Στο κεφα λαιο 5, παρουσια ζεται μια προσε γγιση για τη σημασιολογικη ανα λυση εικονοσειρω ν, η οποι α στηρι ζεται στη στατιστικη επεξεργασι α και την αναπαρα σταση του ση ματος κι νησης. Στο χος της προτεινο μενης μεθο δου ει ναι η συ νδεση του κα θε εκτιμω μενου πλα νου (shot) της υπο εξε ταση εικονοσειρα ς, τα οποι α προκυ πτουν απο την εφαρμογη ενο ς αλγορι θμου χρονικη ς κατα τμησης, με μι α απο τις προκαθορισμε νες σημασιολογικε ς κατηγορι ες (semantic classes). Η συ νδεση αυτη γι νεται με χρη ση των κρυφω ν Μαρκοβιανω ν μοντε λων (Hidden Markov Models - HMMs), τα οποι α λαμβα νουν ως ει σοδο τα προτεινο μενα χαρακτηριστικα κι νησης. Οι καινοτο μες συνεισφορε ς της προσε γγισης εντοπι ζονται στους τομει ς της επεξεργασι ας και της αναπαρα στασης της πληροφορι ας κι νησης. Αναφορικα με την επεξεργασι α του ση ματος κι νησης, εισα γεται το στατιστικο με γεθος υψηλο τερης τα ξης της κυ ρτωσης (kurtosis) για τον προσδιορισμο των εκτιμη σεων της οπτικη ς ροη ς (optical low) που προε ρχονται απο πραγματικη κι νηση και ο χι απο θο ρυβο με τρησης, οδηγω ντας στην ευ ρωστη (robust) εκτι μηση περιοχω ν δραστηριο τητας σε μια σειρα απο καρε (frames). Επιπλε ον, σε αντι θεση με την πλειοψηφι α των προσεγγι σεων της σχετικη ς βιβλιογραφι ας που περιορι ζονται κυρι ως σε αναπαραστα σεις επιπε δου καθολικη ς κι νησης (global motion) η κι νησης κα μερας (camera 12

39 Κεφάλαιο 1. Εισαγωγή motion), παρουσια ζεται μια νε α αναπαρα σταση που παρε χει πληροφορι α κι νησης τοπικου επιπε δου σε μοντε λα HMMs. Η προτεινο μενη αναπαρα σταση επικεντρω νεται μο νο σε εικονοστοιχει α (pixels) ο που παρατηρει ται αληθινη κι νηση. Για τα επιλεγμε να εικονοστοιχει α, εξα γεται πληροφορι α σχετικα με την κατανομη της ενε ργειας κι νησης, καθω ς και ε να συμπληρωματικο συ νολο χαρακτηριστικω ν που τονι ζουν συγκεκριμε νες χωρικε ς ιδιο τητες του ση ματος κι νησης. Επιπρο σθετα, στη δευ τερη ενο τητα του κεφαλαι ου, παρουσια ζεται μι α παραλλαγη της προτεινο μενης προσε γγισης, η οποι α ε χει σκοπο την υπολογιστικα αποτελεσματικη παροχη πληροφορι ας κατανομη ς της ενε ργειας κι νησης σε μοντε λα HMMs. Συγκεκριμε να, η τροποποιημε νη με θοδος παρουσια ζει τις ακο λουθες βασικε ς καινοτομι ες και επωφελη χαρακτηριστικα : α) υποστηρι ζει τη συνδυασμε νη χρη ση χαρακτηριστικω ν κι νησης απο το τρε χον και απο προηγου μενα καρε, προκειμε νου να χειριστει αποτελεσματικα τις περιπτω σεις σημασιολογικω ν κατηγοριω ν που παρουσια ζουν παρο μοια προ τυπα κι νησης για κα ποιο χρονικο δια στημα, β) εξακολουθει να υιοθετει μια πιο λεπτομερη αναπαρα σταση της κι νησης, ε ναντι των αντι στοιχων μεθο δων της βιβλιογραφι ας που περιορι ζονται π.χ. στην κυρι αρχη καθολικη κι νηση, και γ) παρουσια ζει ποσοστα αναγνω ρισης συγκρι σιμα με αυτα της αυθεντικη ς μεθο δου, ενω εμφανι ζει υπολογιστικη πολυπλοκο τητα πολυ χαμηλο τερη απο αυτη και παρο μοια με εκει νη σημαντικα απλου στερων και λιγο τερο αποτελεσματικω ν ως προς την απο δοση αναγνω ρισης μεθο δων της βιβλιογραφι ας. Στο κεφα λαιο 6, προτει νεται μι α προσε γγιση για τη σημασιολογικη ανα λυση εικονοσειρω ν που αξιοποιει πολυτροπικη πληροφορι α (multi-modal) και χρονικη πληροφορι α πλαισι ου. Στο χος της μεθο δου ει ναι η συ νδεση του κα θε πλα νου της εξεταζο μενης εικονοσειρα ς με μι α απο τις σημασιολογικε ς κατηγορι ες που παρουσια ζουν ενδιαφε ρον σε ε να δοσμε νο πεδι ο εφαρμογη ς, παρο μοια με τη με θοδο του κεφαλαι ου 5. Η πληροφορι α πλαισι ου που χρησιμοποιει ται ει ναι υπο τη μορφη των χρονικω ν σχε σεων ανα μεσα στις υποστηριζο μενες σημασιολογικε ς κατηγορι ες. Βασικο στοιχει ο της συνολικη ς προσε γγισης ει ναι η ανα πτυξη ενο ς μοντε λου γρα φου (graphical model) 13

40 Κεφάλαιο 1. Εισαγωγή που πραγματοποιει τη συ ντηξη (fusion) της πολυτροπικη ς πληροφορι ας και την αξιοποι ηση της χρονικη ς πληροφορι ας πλαισι ου. Συγκεκριμε να, κατασκευα ζεται ε να ενοποιημε νο δι κτυο BN που ενσωματω νει τα ακο λουθα καινοτο μα χαρακτηριστικα : α) χειρι ζεται ταυτο χρονα τα προβλη ματα της συ ντηξης της πολυτροπικη ς πληροφορι ας και της μοντελοποι ησης της χρονικη ς πληροφορι ας πλαισι ου, αξιοποιω ντας ο λες τις πιθανε ς συσχετι σεις μεταξυ των αντι στοιχων δεδομε νων. Αυτη η ιδιο τητα του δικτυ ου BN αποτελει μι α σημαντικη αντιδιαστολη προς την καθιερωμε νη πρακτικη της πραγματοποι ησης της κα θε διαδικασι ας χωριστα. β) περιλαμβα νει μια πιθανοτικη προσε γγιση για την απο κτηση και τη μοντελοποι ηση συ νθετης πληροφορι ας πλαισι ου σχετικα με τα μακροπρο θεσμα χρονικα προ τυπα που ακολουθου ν οι σημασιολογικε ς κατηγορι ες. γ) οι αποκτηθε ντες περιορισμοι εφαρμο ζονται εντο ς ενο ς περιορισμε νου χρονικου διαστη ματος, σε αντι θεση με την πλειοψηφι α των προσεγγι σεων της βιβλιογραφι ας που στηρι ζονται στην εφαρμογη μι ας διαδικασι ας που εξελι σσεται στο χρο νο (π.χ. μοντε λα HMMs, τεχνικε ς δυναμικου προγραμματισμου (dynamic programming techniques), κτλ.) και στην επεξεργασι α ολο κληρης της εικονοσειρα ς. Κατα αυτο ν τον τρο πο περιορι ζεται η εμφα νιση αθροιστικω ν σφαλμα των και οι επιπτω σεις απο την παρουσι α θορυ βου στα δεδομε να. Στο κεφα λαιο 7 γι νεται μι α ανακεφαλαι ωση των κυριο τερων συμπερασμα των που παρουσια στηκαν στα προηγου μενα κεφα λαια της διατριβη ς, συνοψι ζονται οι βασικε ς καινοτομι ες των προτεινο μενων μεθο δων και προτει νονται μελλοντικε ς επεκτα σεις της υπα ρχουσας ερευνητικη ς μελε της. Τε λος, στο παρα ρτημα Αʹ παρατι θεται η με θοδος υπολογισμου των βε λτιστων παραμε τρων του αλγορι θμου σημασιολογικη ς ταξινο μησης των εικο νων του κεφαλαι ου 3. 14

41 Κεφάλαιο 2 Βιβλιογραφική αναφορά Η σημασιολογικη ανα λυση του πολυμεσικου περιεχομε νου αποτελει ε ναν απο τους πιο νευραλγικου ς και ταυτο χρονα πιο σημαντικου ς παρα γοντες στη διαδικασι α του χειρισμου της πολυμεσικη ς πληροφορι ας κατα ε ναν ευφυη και αποτελεσματικο τρο πο. Στο κεφα λαιο αυτο, παρε χεται η επισκο πηση της ερευνητικη ς περιοχη ς μερικω ν απο τις πιο δημοφιλει ς κατηγορι ες μεθο δων που ε χουν ξεχωρι σει στη σχετικη βιβλιογραφι α. Στην παρου σα εργασι α, λαμβα νεται υπο ψη πολυμεσικη πληροφορι α υπο τη μορφη εικο νων και εικονοσειρω ν. Συγκεκριμε να, στο πρω το κομμα τι του κεφαλαι ου εξετα ζονται με θοδοι αναφορικα με την ταξινο μηση των εικο νων με χρη ση γνω σης και προσεγγι σεις για την αξιοποι ηση της χωρικη ς πληροφορι ας πλαισι ου. Αντι στοιχα, στο δευ τερο κομμα τι αναλυ εται το θε μα της σημασιολογικη ς ανα λυσης των εικονοσειρω ν, ο που δι νεται ιδιαι τερη ε μφαση στην ανι χνευση σημασιολογικω ν εννοιω ν με χρη ση χαρακτηριστικω ν κι νησης, πολυτροπικη ς πληροφορι ας και χρονικη ς πληροφορι ας πλαισι ου. 2.1 Σημασιολογική ανάλυση εικόνων Οι εικο νες αποτελου ν μι α απο τις πιο ευρε ως διαδεδομε νες κατηγορι ες πολυμεσικου περιεχομε νου λο γω της ευκολι ας στη διαδικασι α λη ψη τους, αλλα και του σχετικα 15

42 Κεφάλαιο 2. Βιβλιογραφική αναφορά μικρου μεγε θους μνη μης που απαιτου ν για την αποθη κευση τους. Επιπλε ον, εξαιτι ας του μικρου ο γκου των δεδομε νων που περιε χουν, αποτε λεσαν σημαντικο κομμα τι απο τις πρω τες κιο λας εφαρμογε ς αυτο ματης ανα λυσης [123, 12], ενω πολλα απο τα ερευνητικα επιτευ γματα της διαδικασι ας της σημασιολογικη ς ανα λυση ς τους επεκτα θηκαν η αποτε λεσαν τη βα ση και για α λλες εφαρμογε ς, ο πως η ανα λυση των εικονοσειρω ν. Στα πλαι σια της παρου σας διατριβη ς, εξετα στηκαν δυ ο κατηγορι ες μεθο δων: α) η σημασιολογικη ταξινο μηση των εικο νων με χρη ση προ τερης γνω σης, και β) η αξιοποι ηση της χωρικη ς πληροφορι ας πλαισι ου για τη βελτι ωση της απο δοσης ανι χνευσης των αντικειμε νων που περιε χονται στην εικο να. Στο υπο λοιπο της ενο τητας, δι δεται μι α αναλυτικη επισκο πηση των μεθο δων που ε χουν προταθει για τις δυ ο αυτε ς κατηγορι ες Ταξινόμηση με χρήση γνώσης Οι πρω τες προσπα θειες που πραγματοποιη θηκαν για να αντιμετωπιστει το ζη τημα του χειρισμου των εικο νων επικεντρω θηκαν στην εκτι μηση της οπτικη ς ομοιο τητας με σω του ορισμου κατα λληλων ποσοτικω ν περιγραφω ν των εικο νων, οι οποι ες θα μπορου σαν να εξαχθου ν κατα ε ναν αυτο ματο τρο πο, καθω ς και κατα λληλων μετρικω ν (metrics) στον προκυ πτοντα χω ρο των χαρακτηριστικω ν [123]. Αν και οι περιγραφει ς (descriptors) χαμηλου επιπε δου και οι οποιουδη ποτε ει δους μετρικε ς συνιστου ν αναπο σπαστα δομικα στοιχει α για οποιαδη ποτε τεχνικη χειρισμου των εικο νων, ωστο σο ε χει αποδειχθει ο τι αποτυγχα νουν στο να συλλα βουν πλη ρως και απο μο νες τους τις σημασιολογικε ς ε ννοιες που υπα ρχουν στο οπτικο με σο. Η πραγματοποι ηση του τελευται ου αποτελει πρου πο θεση για την επι τευξη του επιθυμητου επιπε δου αποτελεσματικο τητας σε πρακτικε ς εφαρμογε ς χειρισμου εικο νων. Για το σκοπο αυτο, οι ερευνητικε ς προσπα θειες επικεντρω θηκαν στη σημασιολογικη ανα λυση και ταξινο μηση των εικο νων, συχνα συνδυα ζοντας τις προαναφερθει σες τεχνικε ς με "προ τερη" (prior) γνω ση αναφορικα με τη συγκεκριμε νη εφαρμογη, ε τσι ω στε να οδηγη σουν σε μια υψηλου επιπε δου αναπαρα σταση τους [12]. Η γνω ση για ε να συγκεκριμε νο πεδι ο εφαρμογη ς (domain 16

43 Κεφάλαιο 2. Βιβλιογραφική αναφορά speci ic knowledge), ο ταν χρησιμοποιει ται, καθοδηγει την επιλογη και εξαγωγη των χαρακτηριστικω ν χαμηλου επιπε δου, την παραγωγη περιγραφω ν υψηλο τερου επιπε δου και τη διαδικασι α σημασιολογικου συμπερασμου. Η ταξινο μηση των εικο νων αποτελει ε να σημαντικο κομμα τι στην προσπα θεια του σημασιολογικου χειρισμου του περιεχομε νου εικο νας. Στη βιβλιογραφι α ε χουν προταθει πολλαπλε ς προσεγγι σεις αναφορικα με την εφαρμογη της ταξινο μησης εικο νων σε μια σειρα απο προκαθορισμε νες σημασιολογικε ς κατηγορι ες. Στην εργασι α [8], χρησιμοποιου νται ταξινομητε ς μηχανω ν διανυσμα των στη ριξης (Support Vector Machines - SVMs) για τη δια κριση ανα μεσα σε φωτογραφι ες εσωτερικου η εξωτερικου χω ρου, ενω μι α τεχνικη αποσυ νθεσης γρα φων και πιθανοτικα νευρωνικα δι κτυα (Probabilistic Neural Networks - PNN) ε χουν χρησιμοποιηθει για την εφαρμογη της επιβλεπο μενης (supervised) κατα ταξης εικο νων στην [131]. Στην εργασι α [130], υλοποιει ται η κατηγοριοποι ηση των εικο νων σε πολλαπλε ς κλα σεις με χρη ση ενο ς παραμετρικου μοντε λου μι ξης (Parametric Mixture Model - PMM), το οποι ο υιοθετη θηκε απο την αντι στοιχη εφαρμογη πολλαπλη ς ταξινο μησης κειμε νου και το οποι ο αξιοποιει ε να ιστο γραμμα χρω ματος της εικο νας. Στην [6], η ταξινο μηση των εικο νων πραγματοποιει ται στη βα ση των με γιστων εκτιμη σεων αμοιβαι ας συσχε τισης και της ανα κτησης εικο νων απο μι α υπα ρχουσα βα ση δεδομε νων δοθει σης μιας προς αναζη τηση εικο νας (query image). Οι παραπα νω με θοδοι βασι ζονται σε καθολικε ς οπτικε ς περιγραφε ς που εξα γονται αυτο ματα για κα θε εικο να. Ωστο σο, ο χειρισμο ς των εικο νων που βασι ζεται αποκλειστικα σε καθολικου ς περιγραφει ς δεν οδηγει πα ντα στα καλυ τερα αποτελε σματα [103]. Ερχο μενοι ε να βη μα πιο κοντα στην αντιμετω πιση των εικο νων κατα τον ι διο τρο πο που κα νει ο α νθρωπος, οι εφαρμογε ς ανα λυσης εικο νας (συμπεριλαμβανομε νης της ταξινο μησης) προσανατολι στηκαν προς την επεξεργασι α των εικο νων σε ε να πιο ακριβε ς επι πεδο λεπτομε ρειας, δηλαδη σε τοπικο επι πεδο η σε επι πεδο περιοχω ν, αξιοποιω ντας τεχνικε ς κατα τμησης εικο νας. Πιο συγκεκριμε να, στην εργασι α [135], προτει νεται μι α με θοδος ταξινο μησης εικο νων, η οποι α χρησιμοποιει ε να συ νολο απο υπολογιζο μενους 17

44 Κεφάλαιο 2. Βιβλιογραφική αναφορά κανο νες συσχε τισης πολλαπλω ν επιπε δων και βασι ζεται στα αντικει μενα της εικο νας που ε χουν ανιχνευθει. Στην [11], αποδεικνυ εται με σα απο πολλαπλε ς εφαρμογε ς πως οι με θοδοι που στηρι ζονται στην κατα τμηση και την επεξεργασι α σε επι πεδο αντικειμε νων βελτιω νουν αντι στοιχες προσεγγι σεις ανα λυσης/ταξινο μησης σε επι πεδο εικονοστοιχει ων, ενω στην [148], προτει νεται μι α αναπαρα σταση υπο τη μορφη δυαδικου δε νδρου σε επι πεδο περιοχω ν, η οποι α ενσωματω νει μεθο δους προσαρμοζο μενης επεξεργασι ας των δομω ν δεδομε νων, για την αντιμετω πιση του προβλη ματος της ταξινο μησης των εικο νων. Παρα λληλα με την χρη ση πληροφορι ας τοπικου επιπε δου, η ενσωμα τωση γνω σης σε τεχνικε ς ταξινο μησης αναδεικνυ εται ως μι α πολλα υποσχο μενη προσε γγιση για τη βελτι ωση της αποτελεσματικο τητας της κατα ταξης. Μια τε τοια προσε γγιση εμπεριε χει ε να συνεκτικο σημασιολογικο μοντε λο του πεδι ου εφαρμογη ς για να καταστη σει δυνατο το συμπερασμο με βα ση την οπτικη πληροφορι α στο καθορισμε νο πλαι σιο [35, 61]. Στην εργασι α [86], παρουσια ζεται μι α προσε γγιση για την εκμα θηση οπτικω ν περιγραφω ν μεσαι ου επιπε δου των αντικειμε νων, οι οποι ες οργανω νονται στα πλαι σια μι ας οντολογι ας για την πραγματοποι ηση της ανι χνευση ς τους. Στην [74], χρησιμοποιου νται μοντε λα αναπαρα στασης προ τερης γνω σης ως μι α βα ση γνω σης που βοηθα τη σημασιολογικη ταξινο μηση και ομαδοποι ηση (clustering). Επιπλε ον, στην [132], χρησιμοποιου νται σημασιολογικε ς οντο τητες, στο πλαι σιο του προτυ που MPEG-7, για την ανα λυση πολυμε σων με χρη ση γνω σης και την ανι χνευση αντικειμε νων, επιτρε ποντας ε τσι τη δεικτοδο τηση σε σημασιολογικο επι πεδο. Παρα το γεγονο ς ο τι ε χουν προταθει πολυα ριθμες προσεγγι σεις στη βιβλιογραφι α για τη σημασιολογικη ταξινο μηση των εικο νων που στηρι ζονται στην χρη ση ει τε πληροφορι ας τοπικου επιπε δου ει τε προ τερης γνω σης, ωστο σο το ενδεχο μενο του συνδυασμου αυτω ν των δυ ο μεθοδολογιω ν δεν ε χει διερευνηθει επαρκω ς. Μι α τε τοια συνδυαστικη προσε γγιση θα μπορου σε να επωφεληθει απο τα συγκριτικα πλεονεκτη ματα και των δυ ο κατηγοριω ν και θα μπορου σε να οδηγη σει σε αυξημε νη απο δοση ταξινο μησης. 18

45 Κεφάλαιο 2. Βιβλιογραφική αναφορά Αξιοποίηση χωρικής πληροφορίας πλαισίου Ανα μεσα στις προσεγγι σεις που αποσκοπου ν στον χειρισμο των εικο νων στηριζο μενες στην επεξεργασι α τους σε ε να σημασιολογικο επι πεδο, ε χουν λα βει ιδιαι τερο ενδιαφε ρον εκει νες οι τεχνικε ς σημασιολογικη ς ανα λυσης εικο νων που στοχευ ουν στον εντοπισμο και την αναγνω ριση των πραγματικω ν αντικειμε νων που απεικονι ζονται στην εικο να. Τα επιτευ γματα και τα αποτελε σματα τους ε χει αποδειχθει ο τι ενισχυ ουν σημαντικα α λλες εφαρμογε ς χειρισμου εικο νων, αφου μπορου ν να παρε χουν μια καλη θεμε λια βα ση για την ω θηση της ταξινο μησης εικο νων [94], τη δυνατο τητα πραγματοποι ησης πολυ πλοκων ερωτημα των αναζη τησης [21] η τη διευκο λυνση της περαιτε ρω διαδικασι ας συμπερασμου [87], προκειμε νου να αναφερθου ν μερικε ς. Ωστο σο, η αποτελεσματικο τητα των προσεγγι σεων για τη σημασιολογικη ανα λυση εικο νων που βασι ζονται στην χωρικη κατα τμηση και την αναγνω ριση των αντικειμε νων παρεμποδι ζεται σημαντικα απο την ασα φεια που ει ναι ε μφυτη στο οπτικο με σο, καθο τι ο εντοπισμο ς και η αναγνω ριση των αντικειμε νων του πραγματικου κο σμου σε ε να μη-περιορισμε νο περιβα λλον αποτελει ε να ανοιχτο και δυσεπι λυτο ερευνητικο προ βλημα. Προκειμε νου να ξεπεραστει αυτο ς ο περιορισμο ς, ανα μεσα σε α λλες λυ σεις, ε χει προταθει η χρη ση της πληροφορι ας πλαισι ου [84]. Η πληροφορι α πλαισι ου για την περι πτωση των εικο νων περιλαμβα νει ο λες τις πιθανε ς πηγε ς πληροφορι ας που μπορου ν να συμβα λλουν στην κατανο ηση του περιεχομε νου της εικο νας, συμπληρωματικα προς την χρη ση των οπτικω ν χαρακτηριστικω ν. Στο περιβα λλον της σημασιολογικη ς ανα λυσης, η πληροφορι α πλαισι ου περιλαμβα νει κα θε μορφη ς σχε σεις μεταξυ των σημασιολογικω ν οντοτη των που μπορει να υπα ρχουν σε μια εικο να (π.χ. χωρικε ς, σχε σεις συν-εμφα νισης, πληροφορι α τυ που σκηνη ς, κτλ.). Μετα τη διαδικασι α απο κτησης της πληροφορι ας πλαισι ου, η πληροφορι α αυτη μπορει να χρησιμοποιηθει για: α) τη βελτι ωση των αποτελεσμα των της ανα λυσης εικο νων που ε χουν υπολογιστει με χρη ση αποκλειστικα οπτικω ν χαρακτηριστικω ν, χρησιμευ οντας ως ε να συ νολο περιορισμω ν που τα αποτελε σματα 19

46 Κεφάλαιο 2. Βιβλιογραφική αναφορά πρε πει να ικανοποιου ν, και β) την παροχη της κατα λληλης προ τερης γνω σης που απαιτει ται για την πραγματοποι ηση της διαδικασι ας συμπερασμου και την παραγωγη πιο λεπτομερω ν σημασιολογικω ν περιγραφω ν. Απο τους διαθε σιμους τυ πους πληροφορι ας πλαισι ου, η χωρικη πληροφορι α ε χει αυξημε νη σημασι α στη σημασιολογικη ανα λυση των εικο νων. Η χωρικη πληροφορι α πλαισι ου αναπαριστα και μοντελοποιει την χωρικη δια ταξη των αντικειμε νων του πραγματικου κο σμου και διευκολυ νει στη δια κριση μεταξυ των αντικειμε νων που εμφανι ζουν παρο μοια οπτικα χαρακτηριστικα. Οι τεχνικε ς αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου μπορου ν κατα προσε γγιση να κατηγοριοποιηθου ν βα σει δυ ο κυ ριων κριτηρι ων: i) την πολυπλοκο τητα της χρησιμοποιου μενης πληροφορι ας και ii) τη μεθοδολογι α που ακολουθει ται για την εφαρμογη των αποκτηθε ντων χωρικω ν περιορισμω ν. Αναφορικα με την πολυπλοκο τητα της χωρικη ς πληροφορι ας, ε χουν προταθει οι ακο λουθες κατηγορι ες μεθο δων: α) με θοδοι που εξετα ζουν χαρακτηριστικα γειτνι ασης (adjacency): Στις εργασι ες [149, 20, 116], παρουσια ζεται μι α σειρα μεθο δων, οι οποι ες λαμβα νουν υπο ψη πληροφορι α σχετικα με τη γειτνι αση των περιοχω ν της εικο νας, προκειμε νου να αναθε σουν τις κατα λληλες σημασιολογικε ς ε ννοιες. Οι Gonza lez-dıáz κ.λπ [54] παρουσια ζουν ε να παραγωγικο (generative) μοντε λο που λαμβα νει υπο ψη το μη κος του κοινου συνο ρου μεταξυ ζευγω ν περιοχω ν. Η εξε ταση της γειτνι ασης μεταξυ των περιοχω ν της εικο νας ε χει ως αποτε λεσμα τη μειωμε νη εκφραστικο τητα της αποκτηθει σας πληροφορι ας πλαισι ου, η οποι α με τη σειρα της περιορι ζει τη χρη ση αυτη ς της κατηγορι ας των μεθο δων σε συγκεκριμε νες περιπτω σεις εφαρμογω ν. β) προσεγγι σεις που κα νουν χρη ση δυαδικω ν (binary) χωρικω ν σχε σεων: Οι με θοδοι των [161, 46, 14, 119] ακολουθου ν μι α μεθοδολογι α που στηρι ζεται στη με τρηση συχνοτη των (frequency counting) για τον υπολογισμο χωρικω ν περιορισμω ν μεταξυ των ζευγω ν αντικειμε νων. Οι Saathoff κ.λπ [113] χρησιμοποιου ν τη "στη ριξη" (support) και την "εμπιστοσυ νη" (con idence) ως κριτη ρια επιλογη ς για την απο κτηση ενο ς συνο λου δυαδικω ν περιορισμω ν. 20

47 Κεφάλαιο 2. Βιβλιογραφική αναφορά γ) με θοδοι που υποστηρι ζουν την χρη ση βαθμωτω ν (fuzzy) σχε σεων: Μια στατιστικη προσε γγιση μα θησης για την αξιοποι ηση χωρικη ς πληροφορι ας πλαισι ου περιγρα φεται στην [101], ο που λαμβα νονται υπο ψη βαθμωτε ς σχε σεις κατευ θυνσης και η βαρυ τητα του κα θε αποκτoυ μενου χωρικου περιορισμου ρυθμι ζεται προσαρμοστικα. Στην εργασι α [67], αναπτυ σσεται μι α οντολογι α βαθμωτω ν χωρικω ν σχε σεων για να καθοδηγη σει τη διαδικασι α ερμηνει ας της εικο νας και να διευκολυ νει την αναγνω ριση των σημασιολογικω ν εννοιω ν που περιε χει. Αναφορικα με τις μεθοδολογι ες που ακολουθου νται για την εφαρμογη των αποκτηθε ντων χωρικω ν περιορισμω ν, αυτε ς ε χουν κυριευθει απο την χρη ση τεχνικω ν μηχανικη ς μα θησης (Machine Learning - ML) και πιθανοτικω ν τεχνικω ν. Οι κυ ριες κατηγορι ες που ε χουν παρουσιαστει περιλαμβα νουν: α) μεθο δους που βασι ζονται στην χρη ση μοντε λων γρα φων (graphical models): Μι α προσε γγιση που βασι ζεται σε ε να υπο συνθη κη τυχαι ο πεδι ο (Conditional Random Field - CRF), το οποι ο ενσωματω νει το σο πληροφορι α συν-εμφα νισης ο σο και χωρικη πληροφορι α πλαισι ου, παρουσια ζεται στην εργασι α [46]. Οι Carbonetto κ.λπ προτει νουν ε να μοντε λο που βασι ζεται σε ε να Μαρκοβιανο τυχαι ο πεδι ο (Markov Random Field - MRF), το οποι ο συνδυα ζει διανυ σματα χαρακτηριστικω ν εικο νας με χωρικε ς σχε σεις για το ε ργο της αναγνω ρισης αντικειμε νων στην [20]. Επιπρο σθετα, δι κτυα BNs χρησιμοποιου νται στις εργασι ες των [119] και [100], για την εκμα θηση πιθανοτικω ν μοντε λων χωρικη ς πληροφορι ας πλαισι ου και για το συνδυασμο της χωρικη ς πληροφορι ας με την οπτικη και την πληροφορι α συνεμφα νισης, αντι στοιχα. Στην [161], οι Yuan κ.λπ χρησιμοποιου ν μοντε λα γρα φων με απλε ς δομε ς πλε γματος για να χαρακτηρι σουν τις χωρικε ς εξαρτη σεις μεταξυ των αντικειμε νων που απεικονι ζονται στην εικο να. β) στατιστικε ς προσεγγι σεις μα θησης: Μι α επε κταση της αρχικη ς τεχνικη ς της 21

48 Κεφάλαιο 2. Βιβλιογραφική αναφορά αφανου ς κατανομη ς Dirichlet (Latent Dirichlet Allocation - LDA), προκειμε νου να ενσωματω σει χωρικη πληροφορι α, προτει νεται στην [19] για την ταυτο χρονη κατα τμηση και ταξινο μηση των αντικειμε νων που υπα ρχουν στη εξεταζο μενη εικο να. Παρο μοια, επεκτα σεις της παραδοσιακη ς τεχνικη ς της πιθανοτικη ς αφανου ς σημασιολογικη ς ανα λυσης (probabilistic Latent Semantic Analysis - plsa) προτει νονται στις εργασι ες [121] και [54] για την ανι χνευση διαφο ρων κατηγοριω ν αντικειμε νων και της κατα προσε γγιση χωρικη ς δια ταξη ς τους, καθω ς και για το συνδυασμο τοπικη ς οπτικη ς πληροφορι ας με την καθολικη γεωμετρικη δια ταξη μι ας κατατμημε νης εικο νας, αντι στοιχα. γ) μεθο δους που βασι ζονται σε τεχνικε ς βελτιστοποι ησης, ο πως οι εξελικτικοι αλγο ριθμοι (evolutionary algorithms), και μεθο δους για την επι λυση συστημα των γραμμικω ν εξισω σεων: Οι Papadopoulos κ.λπ [101] κα νουν χρη ση ενο ς γενετικου αλγορι θμου για την αντιμετω πιση της ανα λυσης εικο νας ως ε να καθολικο προ βλημα βελτιστοποι ησης, λαμβα νοντας υπο ψη χωρικη πληροφορι α πλαισι ου. Στην [113], το προ βλημα της αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου διατυπω νεται ως ε να προ βλημα γραμμικου προγραμματισμου (linear programming). Επιπλε ον, μι α με θοδος βασισμε νη στη θεωρι α φασμα των προτει νεται στην [116] για την ενσωμα τωση χωρικη ς πληροφορι ας στη διαδικασι α χαρακτηρισμου (labeling) εικο νων. Πρε πει να σημειωθει ο τι πιο εξελιγμε νες προσεγγι σεις, οι οποι ες συνδυα ζουν χαρακτηριστικα περισσο τερων της μι ας απο τις προαναφερθει σες κατηγορι ες, ε χουν επι σης προταθει. Για παρα δειγμα, η με θοδος του γενετικου αλγορι θμου της εργασι ας [100] ακολουθει μια στατιστικη προσε γγιση μα θησης για την απο κτηση χωρικω ν περιορισμω ν, ενω κα νει χρη ση μιας σειρα ς δικτυ ων BNs για να συνδυα σει την χωρικη με την οπτικη και την πληροφορι α συν-εμφα νισης των αντικειμε νων. Παρα το γεγονο ς ο τι ε χει προταθει μι α σειρα διαφορετικω ν προσεγγι σεων με υψηλε ς αποδο σεις για την αξιοποι ηση της χωρικη ς πληροφορι ας πλαισι ου, δυ ο σημαντικε ς 22

49 Κεφάλαιο 2. Βιβλιογραφική αναφορά παρατηρη σεις μπορου ν να γι νουν: α) ελα χιστη ερευνητικη προσπα θεια ε χει αφιερωθει προς την κατευ θυνση της εξε τασης των συνθηκω ν κα τω απο τις οποι ες η χωρικη πληροφορι α πλαισι ου θα πρε πει να χρησιμοποιει ται, δηλαδη τον προσδιορισμο των αντικειμε νων για τα οποι α η χωρικη πληροφορι α μπορει να διευκολυ νει στη δια κριση τους και κατο πιν τη ρυ θμιση της βαρυ τητα της στην ανι χνευση των αντικειμε νων ε ναντι της οπτικη ς και της πληροφορι ας συν-εμφα νισης. Επιπρο σθετα, οι περισσο τερες απο τις υπα ρχουσες προσεγγι σεις θεωρου ν ο τι η χωρικη πληροφορι α πλαισι ου ε χει ι δια σημασι α για ο λα τα αντικει μενα. β) η πειραματικη αξιολο γηση της κα θε μι ας απο τις μεθο δους που ε χουν η δη προταθει ε χει ως επι το πλει στον περιοριστει σε πολυ λι γα συ νολα δεδομε νων (συνη θως ε να η δυ ο) η σε αρκετα συγκεκριμε νες περιπτω σεις εφαρμογη ς. Απο την α λλη πλευρα, μια εμπεριστατωμε νη μελε τη που να εξετα ζει κα τω απο ποιες συνθη κες η χρη ση της χωρικη ς πληροφορι ας πλαισι ου ει ναι επωφελη ς και πως επηρεα ζεται η προκυ πτουσα απο δοση της απο τυπικου ς παρα γοντες, ο πως τα χρησιμοποιου μενα οπτικα χαρακτηριστικα, οι επιλεγμε νοι ταξινομητε ς, ο αριθμο ς των υποστηριζο μενων αντικειμε νων, διαφορετικα συ νολα δεδομε νων μεταβλητη ς πολυπλοκο τητας, η ποσο τητα των δεδομε νων που χρησιμοποιει ται για την απο κτηση της χωρικη ς πληροφορι ας πλαισι ου η ο αριθμο ς των περιοχω ν που υπα ρχουν στην εικο να, δεν ε χει πραγματοποιηθει. 2.2 Σημασιολογική ανάλυση εικονοσειρών Η ραγδαι α προ οδος που ε χει παρατηρηθει τα τελευται α χρο νια στην τεχνολογι α του υλικου, και ειδικο τερα η εμφα νιση ηλεκτρονικω ν συστημα των με ιδιαι τερα αυξημε νη υπολογιστικη ισχυ σε συνδυασμο με διευρυμε νες δυνατο τητες αποθη κευσης δεδομε νων, ε χει δω σει ιδιαι τερη ω θηση στο πεδι ο της σημασιολογικη ς ανα λυσης των εικονοσειρω ν. Αυτο ει χε ως αποτε λεσμα σταδιακα να καταστει εφικτη η επε κταση των βασικω ν μεθοδολογιω ν που ε χουν προταθει για τη σημασιολογικη επεξεργασι α των εικο νων στην αντι στοιχη περι πτωση των εικονοσειρω ν, αλλα και την εμφα νιση νε ων τεχνικω ν 23

50 Κεφάλαιο 2. Βιβλιογραφική αναφορά προσαρμοσμε νων στην ανα λυση του μεγα λου ο γκου δεδομε νων που υπα ρχει στις εικονοσειρε ς. Αποτε λεσμα της ω θησης που ε χει δοθει στις δυνατο τητες ανα λυσης των εικονοσειρω ν ει ναι η εμφα νιση μιας μεγα λης ποικιλι ας προσεγγι σεων που εστια ζουν σε δια φορα επιμε ρους ζητη ματα που αφορου ν τη σημασιολογικη ανα λυση τους. Στην εργασι α [43], παρουσια ζεται ε να πλαι σιο που στηρι ζεται στην χρη ση οντολογιω ν, το οποι ο κα νει χρη ση ρητα οριζο μενων αξιωμα των, δεδομε νων και κανο νων, για την ανι χνευση γεγονο των σε εικονοσειρε ς. Το πλαι σιο αυτο βασι ζεται στην κεντρικη ιδε α ο τι συ νθετα γεγονο τα κατασκευα ζονται απο απλου στερα με χρη ση τελεστω ν ο πως η αλληλουχι α, η επανα ληψη και η εναλλαγη. Μι α μεγα λης κλι μακας οντολογι α εννοιω ν για πολυμε σα (Large-Scale Concept Ontology for Multimedia - LSCOM) σχεδια ζεται στην [91] για να καλυ ψει ταυτο χρονα ε να μεγα λο σημασιολογικο χω ρο και να αυξη σει τη δυνατο τητα παρατη ρησης σε ποικι λα συ νολα εικονοσειρω ν απο μεταδιδο μενα δελτι α ειδη σεων. Στην [114], χρησιμοποιου νται μηχανε ς SVMs, οι οποι ες εφαρμο ζονται πα νω απο συγκεκριμε νους ανιχνευτε ς χαρακτηριστικω ν, για τον εντοπισμο σημασιολογικα σημαντικω ν γεγονο των σε μεταδιδο μενες εικονοσειρε ς απο πολλαπλα αθλη ματα. Επιπρο σθετα, στην [5], χρησιμοποιου νται δι κτυα BNs για την ανι χνευση εννοιω ν ενο ς λεξιλογι ου, αξιοποιω ντας στοιχει α που προε ρχονται απο χαρακτηριστικα η χου, εικο νας και κειμε νου. Στην [30], ε χει αναπτυχθει ε να συ στημα που βασι ζεται στην χρη ση μοντε λων HMMs για την εξαγωγη στιγμιοτυ πων απο εικονοσειρε ς παιχνιδιω ν μπε ιζμπολ (baseball). Επιπλε ον, μια προσε γγιση που υποστηρι ζει την ανι χνευση γεγονο των, ο πως το "φα ουλ" και το "βολη στο καλα θι" σε εικονοσειρε ς μπα σκετ (basketball) παρουσια ζεται στην [80]. Στην παρου σα διατριβη, εξετα ζεται το θε μα της ανι χνευσης σημασιολογικω ν εννοιω ν (κατηγοριω ν) σε εικονοσειρε ς. Συγκεκριμε να, αντικει μενο μελε της αποτελει ο εντοπισμο ς σημασιολογικω ν κατηγοριω ν με χρη ση: α) τεχνικω ν μηχανικη ς μα θησης, β) πληροφορι ας κι νησης, και γ) πολυτροπικη ς πληροφορι ας και χρονικη ς πληροφορι ας πλαισι ου. Στο υπο λοιπο της ενο τητας, παρουσια ζεται μια εκτεταμε νη επισκο πηση των αντι στοιχων 24

51 Κεφάλαιο 2. Βιβλιογραφική αναφορά μεθο δων που ε χουν προταθει στη σχετικη βιβλιογραφι α Ανίχνευση κατηγοριών Ένας απο τους σημαντικο τερους στο χους των τεχνικω ν σημασιολογικη ς ανα λυσης εικονοσειρω ν ει ναι η συ νδεση τμημα των της εικονοσειρα ς (π.χ. πλα να) με υψηλου επιπε δου σημασιολογικε ς κατηγορι ες. Αν και ε χει λα βει ιδιαι τερο ενδιαφε ρον τα τελευται α χρο νια, η εφαρμογη αυτη παραμε νει ε να δυσεπι λυτο και ανοιχτο ερευνητικο προ βλημα με μεγα λες δυνατο τητες. Ο τυ πος των θεωρου μενων σημασιολογικω ν κατηγοριω ν εξαρτα ται σε μεγα λο βαθμο απο την εκα στοτε εφαρμογη και μπορει να συμπι πτει με π.χ. σημασιολογικα γεγονο τα η ει δη (genre) εικονοσειρω ν που υπα ρχουν στο εξεταζο μενο περιεχο μενο εικονοσειρα ς [153]. Ανα μεσα στα πιο κοινα πεδι α εφαρμογη ς για σημασιολογικη ανα λυση εικονοσειρω ν ει ναι πεδι α με ευρυ ενδιαφε ρον, ο πως οι μεταδιδο μενες εικονοσειρε ς αθλητικου περιεχομε νου [134, 157, 142] και δελτι ων ειδη σεων [117, 118]. Ένα σημασιολογικο πλαι σιο για την ταξινο μηση με βα ση το ει δος της εικονοσειρα ς παρουσια ζεται στην εργασι α [160]. Επιπρο σθετα, μια συστηματικη προσε γγιση για την κατασκευη μιας ταξονομι ας σημασιολογικω ν εννοιω ν σκηνοθεσι ας και στη συνε χεια συ νδεσης πλα νων ταινιω ν με αυτε ς τις σημασιολογικε ς ε ννοιες προτει νεται στην [141]. Στην εργασι α [156], αναπτυ σσεται ε να πλαι σιο που υποστηρι ζει το σημασιολογικο σχολιασμο των εικονοσειρω ν αθλητικου περιεχομε νου και την εξατομικευμε νη (personalized) ανα κτηση τους. Οι Zhu κ.λπ. [165] προτει νουν μια με θοδο για την εξαγωγη πληροφορι ας τακτικη ς απο τα συμβα ντα επι θεσης σε μεταδιδο μενες εικονοσειρε ς ποδοσφαι ρου και την παρουσι αση των γεγονο των σε επαγγελματι ες του αθλη ματος κατα ε ναν τρο πο συ μφωνο με την τακτικη που ακολουθει ται. Επιπλε ον, παρουσια ζεται μια προσε γγιση για την ανι χνευση και την ταξινο μηση πλα νων απο ταινι ες δρα σης σε μια σειρα απο διαφορετικα ει δη σκηνω ν δραστηριοτη των στην [145]. Οι Jiang κ.λπ. [70] προτει νουν μια με θοδο για την ανι χνευση συνη θων σημασιολογικω ν γεγονο των που μπορει να υπα ρχουν σε συλλογε ς εικονοσειρω ν των καταναλωτω ν. 25

52 Κεφάλαιο 2. Βιβλιογραφική αναφορά Χρήση τεχνικών μηχανικής μάθησης Η χρη ση αλγορι θμων μηχανικη ς μα θησης (Machine Learning - ML) αποτελει μι α αξιο πιστη μεθοδολογι α για τη μοντελοποι ηση των πολυ πλοκων σχε σεων και αλληλεξαρτη σεων μεταξυ των οπτικοακουστικω ν χαρακτηριστικω ν χαμηλου επιπε δου και των νοητικα υψηλο τερου επιπε δου σημασιολογικω ν εννοιω ν. Ανα μεσα στους αλγορι θμους της τελευται ας κατηγορι ας, τα μοντε λα HMMs και τα δι κτυα BNs ε χουν χρησιμοποιηθει εκτενω ς για εφαρμογε ς ανα λυσης εικονοσειρω ν. Συγκεκριμε να, τα μοντε λα HMMs ε χουν διακριθει λο γω της καταλληλο τητα ς τους για τη μοντελοποι ηση προβλημα των αναγνω ρισης προτυ πων που παρουσια ζουν μι α εγγενη χρονικο τητα [107]. Μεταξυ α λλων, ε χουν χρησιμοποιηθει για την πραγματοποι ηση χρονικη ς κατα τμησης εικονοσειρω ν, την ανι χνευση σημασιολογικω ν γεγονο των, την εξαγωγη στιγμιοτυ πων (highlights) και την ανα λυση της δομη ς των εικονοσειρω ν (π.χ. [66, 164, 59]). Απο την α λλη μερια, τα δι κτυα BNs αποτελου ν μια αποτελεσματικη μεθοδολογι α για την εκμα θηση σχε σεων αιτιο τητας και μι α αποδοτικη αναπαρα σταση για το συνδυασμο προ τερης γνω σης και δεδομε νων [92]. Επιπρο σθετα, η ικανο τητα τους να χειρι ζονται καταστα σεις ε λλειψης δεδομε νων ε χει επι σης σημειωθει [58]. Τα δι κτυα BNs ε χουν χρησιμοποιηθει σε εφαρμογε ς ανα λυσης εικονοσειρω ν ο πως η ανι χνευση σημασιολογικω ν εννοιω ν, η κατα τμηση εικονοσειρω ν και η ανι χνευση γεγονο των (π.χ. [5, 68]), προκειμε νου να αναφερθου ν μερικε ς. Μια ανασκο πηση μεθο δων που βασι ζονται σε τεχνικε ς μηχανικη ς μα θησης για δια φορες εφαρμογε ς επεξεργασι ας εικονοσειρω ν μπορου ν να βρεθου ν στην [52] Ανίχνευση βασισμένη στην πληροφορία κίνησης Απαραι τητη πρου πο θεση για την εφαρμογη οποιασδη ποτε τεχνικη ς σημασιολογικη ς ανα λυσης εικονοσειρω ν ει ναι η συμπαγη ς, κατα λληλη για την εκα στοτε εφαρμογη και τη μεθοδολογι α ανα λυσης που υιοθετει ται, αναπαρα σταση των ιδιοτη των χαμηλου επιπε δου του περιεχομε νου, ο πως το χρω μα, η κι νηση, κτλ. Στην ανα λυση εικονοσειρω ν, 26

53 Κεφάλαιο 2. Βιβλιογραφική αναφορά ιδιαι τερη βαρυ τητα ε χει η αναπαρα σταση της κι νησης, δεδομε νου ο τι το ση μα κι νησης εμπεριε χει ε να σημαντικο κομμα τι της σημασιολογικη ς πληροφορι ας που ενυπα ρχει στην εικονοσειρα. Ως εκ του του, ε χει προταθει μια σειρα προσεγγι σεων για την εξαγωγη και την αναπαρα σταση διακριτικω ν (discriminative) χαρακτηριστικω ν κι νησης απο το κανα λι της εικονοσειρα ς [124]. Χαρακτηριστικα δραστηριο τητας κι νησης απο τμη ματα της εικονοσειρα ς χρησιμοποιου νται για την εκτε λεση του σημασιολογικου χαρακτηρισμου του περιεχομε νου της εικονοσειρα ς στις εργασι ες [104, 128]. Αναπαραστα σεις κι νησης σε επι πεδο κα μερας προτει νονται στις [129, 37], για την πραγματοποι ηση του σημασιολογικου σχολιασμου των εικονοσειρω ν. Οι Leonardi κ.λπ. χρησιμοποιου ν δει κτες κι νησης, ο πως λειτουργι ες (operations) της κα μερας και η παρουσι α διακοπω ν πλα νων (shot cuts), για την πραγματοποι ηση σημασιολογικη ς δεικτοδο τησης των εικονοσειρω ν [77]. Επιπρο σθετα, η ε ννοια της "υφη ς κι νησης" (motion texture) ε χει εισαχθει στην [85] για τη μοντελοποι ηση των προτυ πων κι νησης ενο ς τμη ματος εικονοσειρα ς, ενω οι Adams κ.λπ. χρησιμοποιου ν χαρακτηριστικα της κι νησης και του μη κους του πλα νου για να ορι σουν και να υπολογι σουν το αποκαλου μενο με τρο "ρυθμου " (tempo) προκειμε νου να εντοπι σουν συγκεκριμε να σημασιολογικα γεγονο τα σε εικονοσειρε ς ταινιω ν [4]. Μετακινου μενοι σε ε να καλυ τερο επι πεδο λεπτομε ρειας, οι Dagtas κ.λπ. [34] χρησιμοποιου ν ημι -χειροκι νητους αλγορι θμους παρακολου θησης της πορει ας των αντικειμε νων (object tracking) για τον υπολογισμο της τροχια ς των κινου μενων αντικειμε νων στο προσκη νιο και κατο πιν χρησιμοποιου ν την πληροφορι α αυτη για την ανι χνευση των σημασιολογικω ν γεγονο των ενδιαφε ροντος. Οι Roach κ.λπ. [111] κα νουν χρη ση ενο ς ποσοτικου με τρου του ρυθμου μεταβολη ς της κι νησης των αντικειμε νων στο προσκη νιο μαζι με ε να απλο παραμετρικο μοντε λο κι νησης της κα μερας για την αναγνω ριση του ει δους (genre) της εικονοσειρα ς. Επιπλε ον, ε να κριτη ριο με βα ση την εντροπι α προτει νεται στην [27] για να χαρακτηρι σει το προ τυπο και την ε νταση της κι νησης των αντικειμε νων σε μι α εικονοσειρα ως μι α συνα ρτηση του χρο νου. Εκτο ς απο τις αναπαραστα σεις της κι νησης που ε χουν προταθει για τη σημασιολογικη 27

54 Κεφάλαιο 2. Βιβλιογραφική αναφορά ανα λυση εικονοσειρω ν στη γενικη περι πτωση, ε χουν επι σης προταθει μια σειρα απο προσεγγι σεις με υψηλε ς αποδο σεις για συγκεκριμε να πεδι α εφαρμογη ς, δηλαδη προσεγγι σεις που εκμεταλλευ ονται ειδικου ς παρα γοντες και χαρακτηριστικα του ση ματος κι νησης που υπα ρχουν μο νο στο εξεταζο μενο πεδι ο, για εφαρμογε ς ο πως η ανα λυση εικονοσειρω ν αθλητικου περιεχομε νου [96, 144, 109] και δελτι ων ειδη σεων [28, 22], και η αναγνω ριση ανθρω πινων δραστηριοτη των [136, 64, 33]. Άλλες εξελιγμε νες προσεγγι σεις για την αναγνω ριση με βα ση την κι νηση που χρησιμοποιου ν πολυ πλοκα στατιστικα μοντε λα περιλαμβα νουν την εξαγωγη χρονικω ν υφω ν [23], μοντελοποιη σεις Γκιμπς (Gibbs) [40] και Γκαουσιανε ς (Gaussian) [65], και πιο γενικευμε να χω ρο-χρονικα προ τυπα [112, 13]. Αναφορικα με πιο συγκεκριμε νες αναπαραστα σεις κι νησης για χρη ση σε συνδυασμο με μοντε λα HMMs, τα οποι α ε χουν χρησιμοποιηθει ευρε ως σε εφαρμογε ς σημασιολογικη ς ανα λυσης εικονοσειρω ν (ενο τητα 2.2.2), ε χει επι σης προταθει μια πλεια δα προσεγγι σεων. Στην εργασι α [9], χρησιμοποιει ται η κυρι αρχη κι νηση στο συ νολο του οπτικου πεδι ου για την ανι χνευση σημασιολογικω ν γεγονο των σε εικονοσειρε ς μεταδιδο μενων αγω νων ρα γκμπι (rugby). Οι You κ.λπ. [160] χρησιμοποιου ν καθολικα χαρακτηριστικα κι νησης για την πραγματοποι ηση της ταξινο μησης του ει δους της εικονοσειρα ς και την ανα λυση γεγονο των. Στην [158], υπολογι ζεται η ανακατανομη της ενε ργειας κι νησης για κα θε καρε και στη συνε χεια χρησιμοποιου νται μια σειρα απο φι λτρα για να προσδιορι σουν την κυρι αρχη κι νηση στο καρε, σε μια προσπα θεια να ανιχνευθου ν σημασιολογικα γεγονο τα σε δια φορες εικονοσειρε ς αθλητικου περιεχομε νου. Οι Huang κ.λπ. λαμβα νουν υπο ψη τα τε σσερα πρω τα κυρι αρχα διανυ σματα κι νησης και τη συχνο τητα εμφα νιση ς τους, μαζι με το με σο ο ρο και την τυπικη απο κλιση των διανυσμα των κι νησης στο καρε, για την πραγματοποι ηση της ταξινο μησης σκηνω ν [66]. Στην [36], χρησιμοποιου νται συγκεκριμε νοι τυ ποι κι νησης της κα μερας για την ανα λυση εικονοσειρω ν ποδοσφαι ρου. Επιπρο σθετα, καθολικα κινηματογραφικα χαρακτηριστικα της κι νησης, η τοι ο με σος ο ρος του με τρου, η εντροπι α, η κυρι αρχη κατευ θυνση και οι κινη σεις της κα μερας 28

55 Κεφάλαιο 2. Βιβλιογραφική αναφορά pan/tilt/zoom, χρησιμοποιου νται για τον προσδιορισμο του ει δους της εικονοσειρα ς αθλητικου περιεχομε νου στην [143]. Στην [57], η μεσαι α απο τις με σες τιμε ς του με τρου κι νησης των καρε υπολογι ζεται για κα θε δομη καρε "Group of Pictures" (GOP), για την πραγματοποι ηση της ταξινο μησης του ει δους της εικονοσειρα ς. Οι Wei κ.λπ. [150] κα νουν χρη ση χαρακτηριστικω ν κι νησης καθολικου επιπε δου, ο πως η θε ση του κε ντρου του καρε και η ε νταση της κι νησης, για την πραγματοποι ηση της ταξινο μησης εικονοσειρω ν απο μεταδιδο μενα δελτι α ειδη σεων. Επιπλε ον, οι Gibert κ.λπ. υπολογι ζουν την κυ ρια κατευ θυνση της κι νησης σε κα θε καρε [50], ενω οι Xie κ.λπ. προσδιορι ζουν την ε νταση της κι νησης σε επι πεδο καρε [154], για την πραγματοποι ηση της ταξινο μησης εικονοσειρω ν αθλητικου περιεχομε νου και την ανα λυση της δομη ς των εικονοσειρω ν ποδοσφαι ρου, αντι στοιχα. Παρο τι ε χουν αφιερωθει σημαντικε ς ερευνητικε ς προσπα θειες για την ανα πτυξη γενικω ν συστημα των σημασιολογικη ς ανα λυσης εικονοσειρω ν με βα ση την χρη ση μοντε λων HMMs, η πλειονο τητα των προτεινο μενων αναπαραστα σεων κι νησης περιορι ζεται κυρι ως σε προσεγγι σεις επεξεργασι ας της κι νησης σε καθολικο επι πεδο η σε επι πεδο κα μερας και η δυνατο τητα της ανα λυσης του ση ματος κι νησης σε τοπικο επι πεδο δεν ε χει ερευνηθει επαρκω ς Ανάλυση βασισμένη στην πολυτροπική πληροφορία και την χρονική πληροφορία πλαισίου Χρήση πολυτροπικής πληροφορίας Ένα σημαντικο ζη τημα στη διαδικασι α της σημασιολογικη ς ανα λυσης εικονοσειρω ν ει ναι ο αριθμο ς των πηγω ν πληροφορι ας που χρησιμοποιου νται. Μια σειρα απο μονοτροπικε ς (single-modality) προσεγγι σεις ε χουν προταθει, ο που η κατα λληλη μονοτροπικη πηγη πληροφορι ας επιλε γεται ανα λογα με τη συγκεκριμε νη εφαρμογη η τη μεθοδολογι α ανα λυσης που ακολουθει ται [166, 141]. Απο την α λλη μερια, προσεγγι σεις που κα νουν χρη ση δυ ο η περισσο τερων πηγω ν πληροφορι ας κατα ε να συνδυαστικο τρο πο αξιοποιου ν τις πιθανε ς συσχετι σεις και αλληλεξαρτη σεις μεταξυ 29

56 Κεφάλαιο 2. Βιβλιογραφική αναφορά των αντι στοιχων δεδομε νων τους [124]. Συνεπω ς, αυτε ς μοντελοποιου ν πληρε στερα τη σημασιολογικη πληροφορι α που περιε χεται στην εικονοσειρα, καθο τι οι σημασιολογικε ς ε ννοιες της τελευται ας ει ναι συνη θως κατανεμημε νες σε πολλαπλε ς μορφε ς που ει ναι συμπληρωματικε ς μεταξυ τους [146]. Ως εκ του του, η συ ντηξη (fusion) της πολυτροπικη ς πληροφορι ας επιτρε πει γενικα την ανι χνευση πιο συ νθετων και υψηλο τερου επιπε δου σημασιολογικω ν εννοιω ν και διευκολυ νει την αποτελεσματικη παραγωγη ακριβε στερων σημασιολογικω ν περιγραφω ν. Ανα μεσα στις προσεγγι σεις που ε χουν προταθει στη βιβλιογραφι α, οι οποι ες χρησιμοποιου ν πολυτροπικη πληροφορι α προκειμε νου να βελτιω σουν τα αποτελε σματα της μονοτροπικη ς ανα λυσης, ει ναι η με θοδος της [78], ο που χρησιμοποιου νται ελεγχο μενες αλυσι δες Markov για την πραγματοποι ηση της σημασιολογικη ς δεικτοδο τησης εικονοσειρω ν ποδοσφαι ρου με χρη ση οπτικο-ακουστικη ς πληροφορι ας. Επιπρο σθετα, οι Bruno κ.λπ. εισα γουν την ε ννοια των πολυτροπικω ν χω ρων ανομοιο τητας, οι οποι οι απορρε ουν απο τη θεω ρηση των ομοιοτη των που σχετι ζονται με τα πολυτροπικα χαρακτηριστικα μεταξυ των στοιχει ων, για τη διευκο λυνση της ανα κτησης εικονοσειρω ν [17]. Στην [118], παρουσια ζεται ε να πλαι σιο εξο ρυξης δεδομε νων σε πολυμεσικου ς υπο -χω ρους για τη σημασιολογικη ανα λυση εικονοσειρω ν, χρησιμοποιω ντας οπτικο-ακουστικη πληροφορι α. Επιπλε ον, οι Hoi κ.λπ. προτει νουν ε να πολυεπι πεδο και πολυτροπικο συ στημα ταξινο μησης για την πραγματοποι ηση της ανα κτησης εικονοσειρω ν μεγα λης κλι μακας [60]. Επιπρο σθετες προσεγγι σεις περιγρα φονται στις εργασι ες της [117], ο που παρουσια ζεται μι α τεχνικη επιλογη ς υπο -χω ρων για την ανι χνευση γεγονο των σε εικονοσειρε ς βα σει πολυτροπικη ς πληροφορι ας, και της [29], ο που προτει νεται μια με θοδος για την ευ ρεση των βε λτιστων χρονικω ν προτυ πων που ει ναι σημαντικα για τον χαρακτηρισμο των σημασιολογικω ν γεγονο των ενδιαφε ροντος. Απο την α λλη πλευρα, ε χουν επι σης προταθει με θοδοι που ακολουθου ν μια πιο ευριστικη (heuristic) μεθοδολογι α για την πραγματοποι ηση της συ ντηξης πολυτροπικη ς πληροφορι ας. Στην [5], ταξινομητε ς για υψηλου επιπε δου 30

57 Κεφάλαιο 2. Βιβλιογραφική αναφορά σημασιολογικα γεγονο τα ο πως η "εκτο ξευση πυραυ λου" κατασκευα ζονται συνδυα ζοντας τα αποτελε σματα ανιχνευτω ν μονοτροπικη ς πληροφορι ας που αντιστοιχου ν σε απλου στερες σημασιολογικε ς ε ννοιες. Οι Tjondronegoro κ.λπ. [134] προτει νουν μια υβριδικη προσε γγιση, η οποι α ενσωματω νει στατιστικα μεγε θη και γνω ση του πεδι ου εφαρμογη ς σε μοντε λα λογικη ς που βασι ζονται στην χρη ση κανο νων, για την εξαγωγη στιγμιοτυ πων σε εικονοσειρε ς αθλητικου περιεχομε νου βα σει οπτικο-ακουστικω ν χαρακτηριστικω ν. Επι σης, οι Xu κ.λπ. [156] ενσωματω νουν το απεικονιζο μενο κει μενο (web-casting text) στην ανα λυση εικονοσειρω ν αθλητικου περιεχομε νου χρησιμοποιω ντας ε να πλαι σιο αντιστοι χησης κειμε νου-εικονοσειρα ς, ενω οι Fan κ.λπ. [41] προτει νουν την χρη ση μι ας οντολογι ας εννοιω ν για την ενι σχυση της πολυτροπικη ς ιεραρχικη ς ταξινο μησης εικονοσειρω ν. Αξιοποίηση χρονικής πληροφορίας πλαισίου Εκτο ς απο τη συ ντηξη πολυτροπικη ς πληροφορι ας, η χρη ση πληροφορι ας πλαισι ου ε χει αποδειχθει ο τι διευκολυ νει περαιτε ρω τη σημασιολογικη ανα λυση των εικονοσειρω ν [84]. Συγκεκριμε να, η πληροφορι α πλαισι ου ε χει χρησιμοποιηθει ευρε ως για να ξεπεραστου ν ασα φειες στα οπτικο-ακουστικα δεδομε να η για την αντιμετω πιση αντιφα σεων στα υπολογιζο μενα αποτελε σματα ανα λυσης. Για το σκοπο αυτο, ε χουν αξιοποιηθει μια σειρα απο διαφορετικε ς πηγε ς πληροφορι ας πλαισι ου [137, 99]. Μεταξυ των διαθε σιμων τυ πων πληροφορι ας πλαισι ου, η χρονικη πληροφορι α ε χει ιδιαι τερη βαρυ τητα στην ανα λυση των εικονοσειρω ν, για τη μοντελοποι ηση χρονικω ν σχε σεων μεταξυ των σημασιολογικω ν στοιχει ων η χρονικω ν διακυμα νσεων συγκεκριμε νων χαρακτηριστικω ν [18]. Ανα μεσα στις προσεγγι σεις που ε χουν προταθει στη σχετικη βιβλιογραφι α για την αξιοποι ηση της χρονικη ς πληροφορι ας πλαισι ου ει ναι αυτη που παρουσια ζεται στην εργασι α [159], ο που η χρονικη συνε πεια καθορι ζεται αναφορικα με τις σημασιολογικε ς ε ννοιες και ερευνω νται οι επιπτω σεις της στην ανα λυση και την ανα κτηση εικονοσειρω ν. 31

58 Κεφάλαιο 2. Βιβλιογραφική αναφορά Επιπρο σθετα, στην [108], το εισαχθε ν πλαι σιο γρα φου παραγο ντων (factor graph) χρησιμοποιει ται για τη σημασιολογικη δεικτοδο τηση εικονοσειρω ν εφαρμο ζοντας χωρο-χρονικου ς περιορισμου ς. Οι Xu κ.λπ. [158] εισα γουν ε να πλαι σιο που στηρι ζεται στην χρη ση μοντε λων HMMs για τη μοντελοποι ηση χρονικω ν περιορισμω ν σε δια φορες σημασιολογικε ς κλι μακες. Επιπλε ον, στην [154] χρησιμοποιου νται τεχνικε ς δυναμικου προγραμματισμου για την απο κτηση της σημασιολογικη ς ερμηνει ας της εικονοσειρα ς με τη με γιστη πιθανοφα νεια. Στην [140], ο Kongwah χρησιμοποιει πληροφορι α πλαισι ου σε επι πεδο αφη γησης (story-level) για να διευρυ νει διαισθητικα την κα λυψη των ερωτημα των και να διευκολυ νει τη διαδικασι α της πολυτροπικη ς ανα κτησης περιεχομε νου. Επι σεις, οι Hsu κ.λπ. [63] μοντελοποιου ν αφηγη σεις εικονοσειρω ν, καθω ς και τις πολυτροπικε ς ομοιο τητες μεταξυ τους, προκειμε νου να αξιοποιη σουν τα επαναλαμβανο μενα προ τυπα και να βελτιω σουν την απο δοση αναζη τησης. Παρο τι ε χει η δη προταθει μια πληθω ρα προηγμε νων μεθο δων αναφορικα με τη συ ντηξη πολυτροπικη ς πληροφορι ας και τη μοντελοποι ηση της χρονικη ς πληροφορι ας πλαισι ου, η δυνατο τητα της ταυτο χρονης εκτε λεσης αυτω ν των δυ ο εργασιω ν δεν ε χει εξεταστει. Η τελευται α θα επε τρεπε την αξιοποι ηση ο λων των δυνατω ν συσχετι σεων και αλληλεξαρτη σεων μεταξυ των αντι στοιχων δεδομε νων και κατα συνε πεια θα μπορου σε να βελτιω σει περαιτε ρω την απο δοση της αναγνω ρισης. 32

59 Κεφάλαιο 3 Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Σε αυτο το κεφα λαιο, παρουσια ζεται μι α προσε γγιση για τη σημασιολογικη ανα λυση και την ταξινο μηση των εικο νων με χρη ση γνω σης και αξιοποι ηση διαδικασιω ν μα θησης. Η προτεινο μενη με θοδος συνδυα ζει πληροφορι α καθολικου και τοπικου επιπε δου με ρητα (explicitly) ορισμε νη γνω ση υπο τη μορφη μιας οντολογι ας. Η οντολογι α καθορι ζει το πεδι ο (domain) ενδιαφε ροντος, τα επιμε ρους υπο -πεδι α (sub-domains) του, τις σημασιολογικε ς ε ννοιες (concepts) που σχετι ζονται με κα θε υπο -πεδι ο, καθω ς και πληροφορι α πλαισι ου (contextual information). Αρχικα, γι νεται χρη ση μηχανω ν διανυσμα των στη ριξης (Support Vector Machines - SVMs), προκειμε νου να πραγματοποιηθει η ταξινο μηση της εικο νας στα υπο -πεδι α της οντολογι ας με βα ση καθολικε ς περιγραφε ς της εικο νας. Παρα λληλα, εφαρμο ζεται ε νας αλγο ριθμος 33

60 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου κατα τμησης για να χωρι σει την εικο να σε περιοχε ς και οι μηχανε ς SVMs χρησιμοποιου νται εκ νε ου, αυτη τη φορα για να πραγματοποιη σουν μι α αρχικη αντιστοι χιση μεταξυ των χαμηλου επιπε δου οπτικω ν χαρακτηριστικω ν περιοχη ς και των εννοιω ν της οντολογι ας. Στη συνε χεια, μι α "συνα ρτηση απο φασης", η οποι α λαμβα νει ως ει σοδο τις υπολογιζο μενες συσχετι σεις μεταξυ περιοχω ν και εννοιω ν μαζι με πληροφορι α πλαισι ου υπο τη μορφη της συχνο τητας εμφα νισης της κα θε ε ννοιας, πραγματοποιει την ταξινο μηση της εικο νας με χρη ση τοπικη ς πληροφορι ας. Ένας μηχανισμο ς συ ντηξης (fusion) συνδυα ζει τα ενδια μεσα αποτελε σματα της ταξινο μησης, τα οποι α ε χουν προκυ ψει απο την επεξεργασι α πληροφορι ας τοπικου και καθολικου επιπε δου, και αποφασι ζει αναφορικα με την τελικη ταξινο μηση. Έχοντας επιλε ξει το υπο -πεδι ο στο οποι ο ανη κει η εικο να, πραγματοποιει ται η τελικη αντιστοι χηση των περιοχω ν με ε ννοιες χρησιμοποιω ντας και πα λι μηχανε ς SVMs και λαμβα νοντας υπο ψη πληροφορι α πλαισι ου σχετικα με τη συσχε τιση των εννοιω ν με τα οριζο μενα υπο -πεδι α. Οι τιμε ς των παραμε τρων που χρησιμοποιου νται κατα τη διαδικασι α της τελικη ς ταξινο μησης των εικο νων υπολογι ζονται συ μφωνα με μι α διαδικασι α βελτιστοποι ησης παραμε τρων. Η γενικη αρχιτεκτονικη της προτεινο μενης προσε γγισης για τη σημασιολογικη ανα λυση και ταξινο μηση των εικο νων απεικονι ζεται στο σχη μα 3.1. Η εφαρμογη της προτεινο μενης μεθο δου σε εικο νες ενο ς επιλεγμε νου πεδι ου ε χει ως αποτε λεσμα την ταξινο μηση τους (δηλαδη την ανα θεση τους σε ε να απο τα οριζο μενα υπο -πεδι α) και την παραγωγη μι ας λεπτομερου ς σημασιολογικη ς αναπαρα σταση ς τους (δηλαδη μι α μα σκα κατα τμησης με σημασιολογικε ς ε ννοιες αντιστοιχισμε νες σε κα θε περιοχη ). Πειρα ματα με εικο νες απο το πεδι ο της προσωπικη ς συλλογη ς φωτογραφιω ν, καθω ς και συγκριτικη αξιολο γηση με α λλες προσεγγι σεις της βιβλιογραφι ας, καταδεικνυ ουν την αποτελεσματικο τητα της προτεινο μενης προσε γγισης. Τα κυ ρια συ μβολα που χρησιμοποιου νται στην παρου σα ενο τητα απεικονι ζονται στον πι νακα 3.1. Στο υπο λοιπο της ενο τητας περιγρα φονται τα επιμε ρους στα δια της προτεινο μενης προσε γγισης. 34

61 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Περιεχόμενο εικόνα Καθολικά χαρακτηριστικά Ταξινόμηση εικόνα Ταξινόμηση εικόνα χρήσει καθολικών χαρακτηριστικών Κατάτμηση Τοπικά χαρακτηριστικά Ταξινόμηση περιοχών Ταξινόμηση εικόνα χρήσει τοπικών χαρακτηριστικών Υποδομή γνώση Οντολογία πεδίου Πληροφορία πλαισίου (συχνότητα εμφάνιση εννοιών) Τοπικά χαρακτηριστικά Βελτιστοποίηση παραμέτρων Επαναταξινόμηση περιοχών Τελική ταξινόμηση εικόνα Σύντηξη πληροφορία Τελικό σημασιολογικό σχολιασμό περιοχών Σχη μα 3.1: Γενικη αρχιτεκτονικη της προτεινο μενης προσε γγισης 3.1 Επεξεργασία οπτικής πληροφορίας Εξαγωγή καθολικών χαρακτηριστικών Η διαδικασι α ταξινο μησης των εικο νων βα σει χαρακτηριστικω ν καθολικου επιπε δου πρου ποθε τει την εξαγωγη κατα λληλων περιγραφε ων (descriptors) χαμηλου επιπε δου στο επι πεδο της εικο νας και το σχηματισμο ενο ς "διανυ σματος χαρακτηριστικω ν εικο νας" για κα θε υπο εξε ταση εικο να. Το δια νυσμα χαρακτηριστικω ν εικο νας που χρησιμοποιει ται στην προτεινο μενη προσε γγιση αποτελει ται απο τρεις διαφορετικου ς περιγραφει ς του προτυ που MPEG-7, η τοι τους περιγραφει ς κλιμακωτο χρω μα (Scalable Color), ομοιογενη ς υφη (Homogeneous Texture) και ιστο γραμμα ακμω ν (Edge Histogram). Η εξαγωγη τους γι νεται συ μφωνα με τις κατευθυντη ριες γραμμε ς που παρε χονται απο το πειραματικο μοντε λο MPEG-7 experimentation Model (XM) [2]. Μετα την εξαγωγη τους, το δια νυσμα χαρακτηριστικω ν εικο νας σχηματι ζεται με την τοποθε τηση ο λων των υπολογισθε ντων 35

62 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Πι νακας 3.1: Λεζα ντα κυ ριων συμβο λων Συ μβολο s i, S = {s i, i [1, N]} c j, C = {c j, j [1, J]} D l, l [1, L] H D = {h D l, l [1, L]} Περιγραφη περιοχε ς της εικο νας μετα την κατα τμηση, συ νολο περιοχω ν μιας εικο νας ε ννοια οριζο μενη στην οντολογι α, συ νολο ο λων των εννοιω ν υπο -πεδι α οριζο μενα στην οντολογι α συ νολο υποθε σεων ταξινο μησης εικο νας βα σει καθολικω ν χαρακτηριστικω ν H C i = {h C ij, j [1, J]} συ νολο υποθε σεων ταξινο μησης της περιοχη ς s i g(d l ) G(D l ) freq(c j, D l ) area(s i ) αποτε λεσμα ταξινο μησης εικο νας βα σει τοπικω ν χαρακτηριστικω ν για το υπο -πεδι ο D l αποτε λεσμα τελικη ς ταξινο μησης εικο νας για το υπο -πεδι ο D l συχνο τητα εμφα νισης της ε ννοιας c j στο υπο -πεδι ο D l εμβαδο ν περιοχη ς s i περιγραφε ων MPEG-7 σε ε να ενιαι ο δια νυσμα. Το δια νυσμα αυτο αποτελει την ει σοδο στις μηχανε ς SVMs που πραγματοποιου ν την ταξινο μηση της εικο νας βα σει καθολικω ν χαρακτηριστικω ν, ο πως περιγρα φεται στην ενο τητα Κατάτμηση και εξαγωγή τοπικών χαρακτηριστικών Για την πραγματοποι ηση της διαδικασι ας της αρχικη ς ταξινο μησης των περιοχω ν, η εξεταζο μενη εικο να πρε πει να χωριστει σε περιοχε ς και κατα λληλες περιγραφε ς χαμηλου επιπε δου πρε πει να εξαχθου ν για κα θε προκυ πτουσα περιοχη. Στην παρου σα υλοποι ηση, ε χει χρησιμοποιηθει μι α επε κταση του αλγορι θμου του αναδρομικου δε νδρου κοντυ τερου αναπτυ γματος (Recursive Shortest Spanning Tree - RSST) για την κατα τμηση της εικο νας [3]. Αποτε λεσμα της εφαρμογη ς του αλγορι θμου κατα τμησης ει ναι μι α μα σκα κατα τμησης S, S = {s i, i [1, N]}, ο που με s i, i [1, N], συμβολι ζονται οι προκυ πτουσες χωρικε ς περιοχε ς, οι οποι ες ει ναι πιθανο να αναπαριστου ν σημαντικα σημασιολογικα αντικει μενα. Για κα θε σχηματιζο μενη περιοχη της εικο νας, εξα γονται οι ακο λουθοι MPEG- 7 περιγραφει ς, συ μφωνα με τις κατευθυντη ριες γραμμε ς που παρε χονται απο το πειραματικο μοντε λο MPEG-7 experimentation Model (XM) [2]: κλιμακωτο χρω μα (Scalable Color), ομοιογενη ς υφη (Homogeneous Texture), σχη μα περιοχη ς (Region 36

63 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Shape) και ιστο γραμμα ακμω ν (Edge Histogram). Οι παραπα νω περιγραφει ς στη συνε χεια συνδυα ζονται ω στε να σχηματι σουν ε να ενιαι ο "δια νυσμα χαρακτηριστικω ν περιοχη ς". Το δια νυσμα αυτο αποτελει την ει σοδο στις μηχανε ς SVMs που εκτελου ν την ταξινο μηση των περιοχω ν της εικο νας, ο πως περιγρα φεται στην ενο τητα Υποδομή γνώσης Ανα μεσα στις πιθανε ς αναπαραστα σεις γνω σης ενο ς πεδι ου εφαρμογη ς, οι οντολογι ες [127] παρουσια ζουν μια σειρα απο πλεονεκτη ματα, το σημαντικο τερο απο τα οποι α ει ναι ο τι παρε χουν ε να επι σημο (formal) πλαι σιο για την υποστη ριξη ρητω ν, επεξεργα σιμων απο μηχανε ς (machine-processable) σημασιολογικω ν ορισμω ν και επιτρε πουν την παραγωγη νε ας γνω σης με σω μι ας αυτοματοποιημε νης διαδικασι ας συμπερασμου. Ως εκ του του, οι οντολογι ες ει ναι κατα λληλες για την ε κφραση των σημασιολογικω ν εννοιω ν του πολυμεσικου περιεχομε νου και επιτρε πουν την αυτο ματη σημασιολογικη ανα λυση και την περαιτε ρω επεξεργασι α των εξαγο μενων σημασιολογικω ν περιγραφω ν [62]. Λαμβα νοντας υπο ψη τις προαναφερθει σες θεωρη σεις, αναπτυ χθηκε μι α οντολογι α για την αναπαρα σταση των στοιχει ων γνω σης που χρεια ζεται να οριστου ν ρητα συ μφωνα με την προτεινο μενη προσε γγιση. Πιο συγκεκριμε να, οι εικο νες ενδιαφε ροντος ανη κουν στο πεδι ο της προσωπικη ς συλλογη ς. Κατα συνε πεια, στην αναπτυγμε νη οντολογι α, ορι ζονται μια σειρα απο υπο -πεδι α (π.χ. Buildings, Rockyside, κτλ.), τα οποι α σχετι ζονται με το ευρυ τερο πεδι ο ενδιαφε ροντος και συμβολι ζονται με D l, l [1, L]. Κα θε εικο να προς επεξεργασι α μπορει να καταταγει σε ε να απο τα οριζο μενα υπο -πεδι α. Για κα θε υπο -πεδι ο, ορι ζονται επι σης στην οντολογι α του πεδι ου οι ειδικο τερες σημασιολογικε ς ε ννοιες ενδιαφε ροντος (π.χ. στο υπο -πεδι ο Seaside οι οριζο μενες ε ννοιες περιλαμβα νουν: Sea, Sand, Person, κτλ.), οι οποι ες συμβολι ζονται με c j, ο που με C = {c j, j [1, J]} υποδηλω νεται το συ νολο των εννοιω ν που ορι ζονται στην οντολογι α. Οι παραπα νω ε ννοιες αναπαριστου ν αντικει μενα ενδιαφε ροντος που μπορει να υπα ρχουν στις εικο νες του επιλεγμε νου πεδι ου και αντιστοιχι ζονται στις χωρικε ς περιοχε ς της εικο νας που 37

64 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Personal Collection Images Sub-domains Buildings Forest Rockyside Seaside Roadside Sports Concepts Building Roof Tree Stone Grass Ground Dried-plant Trunk Vegetation Rock Sky Person Road Road-line Car Boat Sand Sea Wave Court Court-line Net Board Gradin Σχη μα 3.2: Υπο -πεδι α και ε ννοιες της αναπτυγμε νης οντολογι ας για το πεδι ο της προσωπικη ς συλλογη ς ε χουν προκυ ψει μετα την εφαρμογη του αλγορι θμου κατα τμησης. Στην οντολογι α περιλαμβα νεται επι σης πληροφορι α πλαισι ου υπο τη μορφη της συχνο τητας εμφα νισης της κα θε ε ννοιας σε κα θε επιμε ρους υπο -πεδι ο. Τα υπο -πεδι α και οι σημασιολογικε ς ε ννοιες της οντολογι ας που χρησιμοποιου νται στην παρου σα εφαρμογη παρουσια ζονται στο σχη μα 3.2, ο που μπορει να φανει ο τι η ανεπτυγμε νη οντολογι α περιλαμβα νει 6 υπο - πεδι α και 24 επιμε ρους ε ννοιες. Πρε πει να σημειωθει ο τι η χρησιμοποιου μενη οντολογι α μπορει ευ κολα να επεκταθει ε τσι ω στε να περιλα βει προ σθετες ε ννοιες και υπο -πεδι α, καθω ς και οποιουδη ποτε ει δους προ σθετη πληροφορι α που θα μπορει να αξιοποιηθει για την ανα λυση. Όσον αφορα τη διαδικασι α απο κτησης της πληροφορι ας πλαισι ου υπο τη μορφη της συχνο τητας εμφα νισης, αρχικα σχηματι ζεται ε να συ νολο εικο νων, συ νολο εκπαι δευσης B tr, που ανη κουν στο πεδι ο ενδιαφε ροντος. Κα θε εικο να του προαναφερθε ντος συνο λου σχολια ζεται χειροκι νητα (δηλαδη ανατι θεται σε ε να απο τα υποστηριζο μενα υπο -πεδι α και, αφου ε χει εφαρμοστει ο αλγο ριθμος κατα τμησης, κα θε μι α απο τις προκυ πτουσες περιοχε ς της εικο νας συνδε εται με μια ε ννοια στην οντολογι α). Στη συνε χεια, η 38

65 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου αναφερο μενη συχνο τητα κα θε ε ννοιας c j σε σχε ση με το υπο -πεδι ο D l, freq(c j, D l ), ορι ζεται ως το κλα σμα του αριθμου των εμφανι σεων της ε ννοιας c j στις εικο νες του συνο λου εκπαι δευσης που ανη κουν στο υπο -πεδι ο D l προς το συνολικο αριθμο των εικο νων του προαναφερθε ντος συνο λου εκπαι δευσης που ανη κουν στο υπο -πεδι ο D l. 3.3 Σημασιολογική ανάλυση και ταξινόμηση εικόνας Ταξινόμηση εικόνας με χρήση καθολικών χαρακτηριστικών Προκειμε νου να πραγματοποιηθει η ταξινο μηση της εξεταζο μενης εικο νας σε ε να απο τα υπο -πεδι α που ορι ζονται στην οντολογι α χρησιμοποιω ντας καθολικε ς περιγραφε ς της εικο νας, σχηματι ζεται αρχικα ε να συ νθετο δια νυσμα χαρακτηριστικω ν εικο νας, ο πως περιγρα φεται στην ενο τητα Εν συνεχει α, χρησιμοποιει ται μι α δομη μηχανω ν SVMs για να προσδιορι σει την κατηγορι α στην οποι α ανη κει η υπο εξε ταση εικο να. Οι μηχανε ς SVMs επιλε χθηκαν για την προαναφερθει σα εργασι α κυρι ως λο γω της εγνωσμε νης τους ικανο τητας γενι κευσης και της αποτελεσματικο τητα ς τους στην επι λυση προβλημα των αναγνω ρισης προτυ πων υψηλη ς δια στασης [72, 26]. Η δομη των μηχανω ν SVMs περιλαμβα νει L μηχανε ς, μι α για κα θε οριζο μενο υπο -πεδι ο D l. Κα θε μι α απο αυτε ς εκπαιδευ εται ακολουθω ντας την προσε γγιση "ε ναςεναντι ον-ο λων" (one-against-all). Για το σκοπο της εκπαι δευσης των μηχανω ν SVMs, χρησιμοποιει ται η χειροκι νητη αντιστοι χηση της κα θε εικο νας του συνο λου εκπαι δευσης B tr (ενο τητα 3.2) με ε να απο τα οριζο μενα υπο -πεδι α. Το δια νυσμα χαρακτηριστικω ν εικο νας που περιγρα φηκε στην ενο τητα αποτελει την ει σοδο σε κα θε μηχανη SVM, η οποι α στο στα διο της αξιολο γησης προσδιορι ζει για κα θε εικο να μι α εκ των υστε ρων πιθανο τητα. Η πιθανο τητα αυτη υποδηλω νει το βαθμο εμπιστοσυ νης, ο οποι ος ανη κει στο δια στημα [0, 1] και με τον οποι ο η αντι στοιχη εικο να ε χει συνδεθει με το υπο -πεδι ο που σχετι ζεται με τη συγκεκριμε νη μηχανη SVM. Ο υπολογισμο ς της προαναφερθει σας πιθανο τητας πραγματοποιει ται ως εξη ς: Για κα θε δια νυσμα 39

66 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου χαρακτηριστικω ν εισο δου υπολογι ζεται αρχικα η απο σταση του z l απο το διαχωριστικο υπε ρ-επι πεδο της αντι στοιχης μηχανη ς SVM. Η απο σταση αυτη ει ναι θετικη σε περι πτωση σωστη ς ταξινο μησης και αρνητικη διαφορετικα. Στη συνε χεια, χρησιμοποιει ται μι α σιγμοειδη ς συνα ρτηση [133] για να υπολογιστει ο αντι στοιχος βαθμο ς εμπιστοσυ νης, h D l, ως εξη ς: h D l = e t z l, (3.1) ο που η παρα μετρος κλι σης t προσδιορι ζεται πειραματικα. Για κα θε εικο να, ο με γιστος απο τους L υπολογιζο μενους βαθμου ς εμπιστοσυ νης υποδηλω νει την ταξινο μηση της βα σει καθολικω ν χαρακτηριστικω ν, ενω ο λοι οι βαθμοι εμπιστοσυ νης, h D l, αποτελου ν το συ νολο υποθε σεων υπο -πεδι ων της H D, ο που H D = {h D l, l [1, L]}. Η δομη των μηχανω ν SVMs που χρησιμοποιου νται για την ταξινο μηση των εικο νων βα σει καθολικω ν χαρακτηριστικω ν, καθω ς και για τη διαδικασι α συσχε τισης εννοιω ν με περιοχε ς στις ακο λουθες ενο τητες, πραγματοποιη θηκε χρησιμοποιω ντας τη βιβλιοθη κη λογισμικου μηχανω ν SVMs της [24] Ταξινόμηση εικόνας με χρήση τοπικών χαρακτηριστικών και αρχική συσχέτιση εννοιών με περιοχές Όπως ε χει η δη περιγραφει, η δομη των μηχανω ν SVMs που χρησιμοποιη θηκαν στην προηγου μενη ενο τητα για την ταξινο μηση της εικο νας με χρη ση καθολικω ν χαρακτηριστικω ν χρησιμοποιου νται επι σης για να υπολογιστει μια αρχικη συ νδεση εννοιω ν με περιοχε ς για κα θε περιοχη της εικο νας. Παρο μοια με την περι πτωση της καθολικη ς ταξινο μησης, σε αυτο το πιο λεπτομερε ς σημασιολογικο επι πεδο μι α ξεχωριστη μηχανη SVM εισα γεται για κα θε ε ννοια c j της χρησιμοποιου μενης οντολογι ας, προκειμε νου να ανιχνευ σει τις αντι στοιχες συσχετι σεις. Κα θε μηχανη SVM εκπαιδευ εται και πα λι συ μφωνα με την προσε γγιση "ε νας-εναντι ον-ο λων". Για το σκοπο αυτο, το σχηματιζο μενο συ νολο εκπαι δευσης B tr χρησιμοποιει ται και πα λι και το δια νυσμα 40

67 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου χαρακτηριστικω ν περιοχη ς, ο πως ορι ζεται στην ενο τητα 3.1.2, αποτελει την ει σοδο σε κα θε μηχανη SVM. Για την εκτε λεση της αρχικη ς συσχε τισης εννοιω ν με περιοχε ς, κα θε μηχανη SVM επιστρε φει και πα λι μι α εκ των υστε ρων πιθανο τητα, η οποι α σε αυτη την περι πτωση υποδηλω νει το βαθμο εμπιστοσυ νης με τον οποι ο η αντι στοιχη περιοχη συνδε εται με την ε ννοια που σχετι ζεται με τη συγκεκριμε νη μηχανη SVM. Η διαδικασι α που ακολουθει ται για να υπολογιστει ο προαναφερθη ς βαθμο ς εμπιστοσυ νης ει ναι παρο μοια με εκει νη που χρησιμοποιη θηκε για την ταξινο μηση της εικο νας με χρη ση καθολικω ν χαρακτηριστικω ν, η οποι α ορι στηκε στην προηγου μενη ενο τητα. Συγκεκριμε να, ε στω ο τι ο συμβολισμο ς h C ij υποδηλω νει το βαθμο με τον οποι ο οι οπτικοι περιγραφει ς που εξα γονται για την περιοχη s i ταιρια ζουν με αυτου ς της ε ννοιας c j. Στη συνε χεια, ο βαθμο ς h C ij ορι ζεται ως εξη ς: h C ij = e t z ij, (3.2) ο που z ij ει ναι η απο σταση απο το διαχωριστικο υπε ρ-επι πεδο της αντι στοιχης μηχανη ς SVM για το δια νυσμα χαρακτηριστικω ν εισο δου που χρησιμοποιει ται για την αξιολο γηση της ανα θεσης της ε ννοιας c j στην περιοχη s i. Τα ζευ γη ο λων των υποστηριζο μενων εννοιω ν και οι αντι στοιχοι βαθμοι εμπιστοσυ νης τους h C ij που ε χουν υπολογισθει για την περιοχη s i αποτελου ν το συ νολο υποθε σεω ν της H C i, ο που HC i = {h C ij, j [1, J]}. Τα υπολογιζο μενα συ νολα υποθε σεων εννοιω ν, H C i, τα οποι α ε χουν παραχθει για κα θε περιοχη s i της εικο νας, μπορου ν να παρα σχουν πολυ τιμες ενδει ξεις για την πραγματοποι ηση της ταξινο μησης της εικο νας με χρη ση πληροφορι ας τοπικου επιπε δου. Ως εκ του του, ορι ζεται μι α συνα ρτηση απο φασης για τον υπολογισμο του βαθμου συμμετοχη ς της υπο εξε ταση εικο νας σε κα θε υποστηριζο μενο υπο -πεδι ο. Η συνα ρτηση αυτη αξιοποιει τα συ νολα υποθε σεων εννοιω ν των περιοχω ν της εικο νας και την παρεχο μενη απο την οντολογι α πληροφορι α πλαισι ου υπο τη μορφη της συχνο τητας εμφα νισης εννοιω ν (δηλαδη εκτελει την ταξινο μηση της υπο εξε ταση εικο νας με βα ση 41

68 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου πληροφορι α τοπικου επιπε δου) και ορι ζεται ως εξη ς: g(d l ) = s i h C ij (a l freq(c j, D l ) + (1 a l ) area(s i )) (3.3) ο που j = argmax j (h C ij c j D l ) (δηλαδη λαμβα νεται υπο ψη ο με γιστος απο τους βαθμου ς εμπιστοσυ νης h C ij που ε χουν υπολογιστει για την περιοχη s i και αντιστοιχει σε ε ννοια c j που συνδε εται με το υπο -πεδι ο D l στην χρησιμοποιου μενη οντολογι α), freq(c j, D l ) ει ναι η συχνο τητα εμφα νισης ε ννοιας που ορι ζεται στην ενο τητα 3.2 και area(s i ) ει ναι το ποσοστο του συνολικου εμβαδου της εικο νας που καταλαμβα νει η περιοχη s i. Οι παρα μετροι a l, ο που a l [0, 1], εισα γονται για να ρυθμι σουν τη βαρυ τητα των προαναφερθε ντων συχνοτη των ε ναντι του εμβαδου των περιοχω ν για κα θε υποστηριζο μενο υπο -πεδι ο. Οι τιμε ς τους υπολογι ζονται συ μφωνα με μι α διαδικασι α βελτιστοποι ησης παραμε τρων, η οποι α στηρι ζεται στην χρη ση ενο ς γενετικου αλγορι θμου και ενο ς συνο λου επικυ ρωσης (validation), και περιγρα φεται στο παρα ρτημα της διατριβη ς. Όπως μπορει να φανει απο τη σχε ση (3.3), η κατασκευασμε νη οντολογι α πεδι ου καθοδηγει τον υπολογισμο του βαθμου συμμετοχη ς στο αντι στοιχο υπο -πεδι ο για την υπο εξε ταση εικο να, ελε γχοντας ποιες ε ννοιες συνδε ονται με ε να συγκεκριμε νο υπο - πεδι ο και συνεπω ς μπορου ν να συμβα λουν στο α θροισμα της σχε σης (3.3). Το τελευται ο ει ναι ουσιαστικα ε να σταθμισμε νο α θροισμα βαθμω ν εμπιστοσυ νης συσχε τισης εννοιω ν με περιοχε ς, με τα βα ρη να καθορι ζονται ταυτο χρονα απο την πληροφορι α πλαισι ου (συχνο τητα εμφα νισης εννοιω ν) καθω ς και απο τη βαρυ τητα της περιοχη ς, η οποι α εδω προσεγγι ζεται απο το σχετικο εμβαδο ν της περιοχη ς Σύντηξη πληροφορίας για ταξινόμηση εικόνας και τελική συσχέτιση εννοιών με περιοχές Μετα την πραγματοποι ηση της διαδικασι ας ταξινο μησης της εικο νας χρησιμοποιω ντας μο νο καθολικου και μο νο τοπικου επιπε δου πληροφορι α αντι στοιχα, χρησιμοποιει ται ε νας μηχανισμο ς συ ντηξης για να αποφανθει αναφορικα με την τελικη 42

69 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου ταξινο μηση της εικο νας. Ο μηχανισμο ς συ ντηξης εισα γεται διο τι, ανα λογα με τη φυ ση του εξεταζο μενου υπο -πεδι ου, οι καθολικου επιπε δου περιγραφε ς μπορει να αναπαριστου ν πιο αποτελεσματικα τη σημασιολογικη πληροφορι α της εικο νας η οι περιγραφει ς τοπικου επιπε δου μπορου ν να ει ναι επωφελει ς. Συνεπω ς, η ρυ θμιση της βαρυ τητας των δυ ο αυτω ν αποτελεσμα των ταξινο μησης της εικο νας μπορει να οδηγη σει σε πιο ευ στοχες αποφα σεις τελικη ς ταξινο μησης. Πιο συγκεκριμε να, τα υπολογιζο μενα συ νολα υποθε σεων για τη συσχε τιση της εικο νας με υπο -πεδι α που βασι ζονται το σο σε καθολικου (h D l ) ο σο και σε τοπικου (g(d l )) επιπε δου πληροφορι α δι δονται ως ει σοδοι σε ε να μηχανισμο που ε χει τη μορφη ενο ς σταθμισμε νου αθροι σματος, συ μφωνα με την ακο λουθη σχε ση: G(D l ) = µ l g(d l ) + (1 µ l ) h D l (3.4) ο που µ l, l [1, L] και µ l [0, 1], ει ναι παρα μετροι κανονικοποι ησης για κα θε ξεχωριστο υπο -πεδι ο, οι οποι οι ρυθμι ζουν τη βαρυ τητα των καθολικω ν χαρακτηριστικω ν ε ναντι των τοπικω ν στο τελικο αποτε λεσμα και οι τιμε ς τους υπολογι ζονται βα σει της διαδικασι ας βελτιστοποι ησης παραμε τρων που περιγρα φεται στο παρα ρτημα. Το υπο -πεδι ο με την υψηλο τερη τιμη G(D l ) αποτελει την τελικη απο φαση ταξινο μησης της εικο νας. Έχοντας λα βει την τελικη απο φαση ταξινο μησης της εικο νας, εκτελει ται μι α διαδικασι α επαναπροσδιορισμου των συσχετι σεων μεταξυ περιοχω ν και εννοιω ν. Η διαδικασι α αυτη ει ναι παρο μοια με αυτη ν που περιγρα φεται στην ενο τητα 3.3.2, με τη διαφορα ο τι μο νο οι μηχανε ς SVMs που αντιστοιχου ν σε ε ννοιες που συνδε ονται με το υπολογισμε νο υπο -πεδι ο λαμβα νονται υπο ψη σε αυτο το στα διο. Κατα αυτο ν τον τρο πο υπολογι ζονται συ νολα υποθε σεων εννοιω ν για κα θε περιοχη της εικο νας, προσαρμοσμε να στο αντι στοιχα επιλεγμε νο υπο -πεδι ο. Αυτα αποτελου ν και την τελικη αντιστοι χηση των σημασιολογικω ν εννοιω ν με τις περιοχε ς της υπο εξε ταση εικο νας. 43

70 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου 3.4 Πειραματικά αποτελέσματα Στην ενο τητα αυτη, παρουσια ζονται πειραματικα αποτελε σματα απο την εφαρμογη της προτεινο μενης προσε γγισης σε εικο νες που ανη κουν στο πεδι ο της προσωπικη ς συλλογη ς φωτογραφιω ν, καθω ς και συγκριτικη αξιολο γηση με α λλες μεθο δους της βιβλιογραφι ας. Το πρω το βη μα για την πραγματοποι ηση της πειραματικη ς αξιολο γησης ει ναι η ανα πτυξη μι ας κατα λληλης οντολογι ας προκειμε νου να αναπαραστη σει το επιλεγμε νο πεδι ο, η τοι το πεδι ο της προσωπικη ς συλλογη ς φωτογραφιω ν, καθορι ζοντας τα υπο -πεδι α του, τις ε ννοιες ενδιαφε ροντος που σχετι ζονται με κα θε επιμε ρους υπο -πεδι ο και την υποστηριζο μενη πληροφορι α πλαισι ου. Η ανεπτυγμε νη οντολογι α περιγρα φηκε αναλυτικα στην ενο τητα 3.2 και τα υπο -πεδι α και οι ε ννοιες που περιλαμβα νει απεικονι ζονται στο σχη μα 3.2. Στη συνε χεια, ε να συ νολο απο 1800 εικο νες που ανη κουν στο επιλεγμε νο πεδι ο χρησιμοποιη θηκαν για να σχηματι σουν τη συλλογη φωτογραφιω ν που θα αξιοποιηθει για τον πειραματικο ε λεγχο. Κα θε εικο να σχολια στηκε χειροκι νητα ο πως ε χει περιγραφει στην ενο τητα 3.2 (δηλαδη πραγματοποιη θηκε χειροκι νητη ταξινο μηση της εικο νας και -μετα την εφαρμογη του αλγορι θμου κατα τμησης- αντιστοι χηση των περιοχω ν της με ε ννοιες), συ μφωνα με τους ορισμου ς της οντολογι ας. Το πολυμεσικο περιεχο μενο που χρησιμοποιη θηκε προη λθε κατα κυ ριο λο γο απο τη διαθε σιμη στο διαδι κτυο (online) εφαρμογη Flickr¹ για τη διαχει ριση και απο κοινου χρη ση φωτογραφιω ν και περιλαμβα νει εικο νες που απεικονι ζουν αστικα τοπι α, παραλι ες, βουνα, εικο νες δρο μων, δα ση και εικο νες απο αθλητικε ς δραστηριο τητες. Αναφορικα με τη διαδικασι α απο κτησης του περιεχομε νου εικο νας, χρησιμοποιη θηκε η υπηρεσι α αναζη τησης με χρη ση λε ξεων κλειδιω ν της εφαρμογη ς Flickr. Για κα θε οριζο μενο υπο -πεδι ο της οντολογι ας, σχηματι στηκε ε να αντι στοιχο συ νολο απο κατα λληλες λε ξεις κλειδια (για παρα δειγμα, για το υπο -πεδι ο Rockyside χρησιμοποιη θηκαν οι λε ξεις κλειδια Rock, Rockyside και Mountain) και το οποι ο στη συνε χεια χρησιμοποιη θηκε κατα τη διαδικασι α απο κτησης ¹http://www. lickr.com/ 44

71 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Εικονα εισοδου Ταξινομηση εικονας με χρηση καθολικων χαρακτηριστικων Ταξινομηση εικονας με χρηση τοπικων χαρακτηριστικων Buildings :0.44 Buildings :0.62 Buildings :0.22 Buildings :0.21 Rockyside:0.58 Rockyside:0.33 Rockyside:0.29 Rockyside:0.34 Forest Forest Forest Forest :0.56 :0.32 :0.84 :0.54 Seaside :0.30 Seaside :0.21 Seaside :0.31 Seaside :0.12 Roadside :0.51 Roadside :0.27 Roadside :0.27 Roadside :0.37 Sports Sports Sports Sports :0.22 :0.14 :0.05 :0.11 Buildings :0.64 Buildings :0.23 Buildings :0.32 Buildings :0.24 Rockyside:0.32 Rockyside:0.29 Rockyside:0.29 Rockyside:0.28 Forest :0.24 Forest :0.12 Forest :0.31 Forest :0.33 Seaside :0.18 Seaside :0.14 Seaside :0.39 Seaside :0.27 Roadside :0.34 Roadside :0.34 Roadside :0.24 Roadside :0.39 Sports :0.21 Sports :0.11 Sports :0.18 Sports :0.11 Τελικη ταξινομηση εικονας με Buildings Roadside Forest Forest χρηση συντηξης πληροφοριας Σχημα 3.3: Ενδεικτικα αποτελεσματα συσχετισης εικονων με υπο-πεδια του περιεχομενου εικονας. Συνεπως, οι εννοιες της ανεπτυγμενης οντολογιας ειναι συμβατες με εννοιες που καθοριζονται απο ενα μεγαλο αριθμο χρηστων, γεγονος που καθιστα ολοκληρο το πλαισιο αξιολογησης περισσοτερο ρεαλιστικο. Απο το προκυπτον συνολο, το 30% των εικονων χρησιμοποιηθηκε για να σχηματισει το συνολο εκπαιδευσης Btr και το υπολοιπο 70% για να δημιουργηθει το αντιστοιχο συνολο ελεγχου Bte. Το συνολο Btr χρησιμοποιηθηκε για την εκπαιδευση της δομης των μηχανων SVMs και την αποκτηση της αναγκαιας πληροφοριας πλαισιου. Απο την αλλη μερια, το συνολο Bte χρησιμοποιηθηκε για την αξιολογηση της αποδοσης της προτεινομενης προσεγγισης. Μετα τη δημιουργια του αναγκαιου περιεχομενου εικονας, πραγματοποιειται η διαδικασια εκπαιδευσης για την ταξινομηση εικονων με χρηση καθολικων 45

72 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Εικονα εισοδου Ταξινομηση εικονας με χρηση καθολικων χαρακτηριστικων Ταξινομηση εικονας με χρηση τοπικων χαρακτηριστικων Buildings :0.31 Buildings :0.17 Buildings :0.38 Buildings :0.12 Rockyside:0.84 Rockyside:0.32 Rockyside:0.18 Rockyside:0.21 Forest Forest Forest Forest :0.41 :0.56 :0.61 :0.25 Seaside :0.37 Seaside :0.45 Seaside :0.22 Seaside :0.28 Roadside :0.21 Roadside :0.31 Roadside :0.17 Roadside :0.21 Sports Sports Sports Sports :0.19 :0.22 :0.12 :0.91 Buildings :0.21 Buildings :0.22 Buildings :0.81 Buildings :0.14 Rockyside:0.19 Rockyside:0.19 Rockyside:0.19 Rockyside:0.12 Forest :0.22 Forest :0.27 Forest :0.29 Forest :0.12 Seaside :0.17 Seaside :0.52 Seaside :0.24 Seaside :0.21 Roadside :0.12 Roadside :0.19 Roadside :0.12 Roadside :0.11 Sports Sports Sports Sports :0.09 :0.17 :0.09 :0.37 Τελικη ταξινομηση εικονας με Rockyside Seaside Building Sports χρηση συντηξης πληροφοριας Σχημα 3.4: Ενδεικτικα αποτελεσματα συσχετισης εικονων με υπο-πεδια χαρακτηριστικων και την αντιστοιχηση περιοχων με εννοιες οπως περιγραφεται στις ενοτητες και Η Γκαουσιανη ακτινικη συναρτηση βασης (Gaussian radial basis function) χρησιμοποιειται ως συναρτηση πυρηνα (kernel function) απο καθε μηχανη SVM, προκειμενου να καταστει δυνατη η μη-γραμμικη διακριση των δειγματων. Το διανυσμα χαρακτηριστικων εικονας, που εχει περιγραφει λεπτομερως στην ενοτητα 3.1.1, αποτελειται απο 398 στοιχεια, ενω το διανυσμα χαρακτηριστικων περιοχης αποτελειται απο 433 στοιχεια, τα οποια υπολογιζονται οπως περιγραφεται στην ενοτητα Οι τιμες και των δυο διανυσματων κανονικοποιουνται στο διαστημα [ 1, 1]. Απο την αλλη πλευρα, για την αποκτηση της αναγκαιας πληροφοριας πλαισιου, η διαδικασια που περιγραφεται στην ενοτητα 3.2 ακολουθειται για καθε επιμερους υπο-πεδιο. 46

73 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Πι νακας 3.2: Ακρι βεια ανι χνευσης υπο -πεδι ων Ακρι βεια Με θοδος Buildings Rockyside Forest Seaside Roadside Sports Συνολικα Ταξινο μηση εικο νας με καθολικα χαρακτηριστικα Ταξινο μηση εικο νας με τοπικα χαρακτηριστικα Τελικη ταξινο μηση εικο νας με συ ντηξη πληροφορι ας Ταξινομητη ς SVM της εργασι ας [110] Ταξινομητη ς K-NN της εργασι ας [126] 38.00% 68.63% 76.67% 85.71% 68.42% 92.00% 71.91% 78.00% 50.98% 35.00% 60.71% 47.01% 94.00% 58.77% 84.00% 72.55% 70.00% 85.71% 68.15% 95.00% 78.70% 56.00% 72.05% 73.33% 82.14% 63.15% 98.50% 74.07% 62.00% 58.83% 81.67% 73.21% 42.85% 97.50% 69.13% Χρησιμοποιω ντας τη δομη των εκπαιδευμε νων μηχανω ν SVMs, η ταξινο μηση των εικο νων με χρη ση καθολικω ν χαρακτηριστικω ν πραγματοποιει ται ο πως περιγρα φεται στην ενο τητα Στη συνε χεια, μετα την εφαρμογη του αλγορι θμου κατα τμησης και τον υπολογισμο των αρχικω ν συνο λων υποθε σεων για κα θε προκυ πτουσα περιοχη της εικο νας, εισα γεται η συνα ρτηση απο φασης προκειμε νου να πραγματοποιη σει την ταξινο μηση των εικο νων με χρη ση πληροφορι ας τοπικου επιπε δου καθω ς και πληροφορι α πλαισι ου υπο τη μορφη της συχνο τητας εμφα νισης των εννοιω ν, ο πως περιγρα φεται στην ενο τητα Κατο πιν, γι νεται χρη ση του μηχανισμου συ ντηξης που υλοποιει το συνδυασμο των ενδια μεσων αποτελεσμα των ταξινο μησης που βασι ζονται αποκλειστικα σε πληροφορι α καθολικου επιπε δου και αποκλειστικα σε πληροφορι α τοπικου επιπε δου και υπολογι ζει την τελικη ταξινο μηση της εικο νας (ενο τητα 3.3.3). Στα σχη ματα 3.3 και 3.4 παρουσια ζονται ενδεικτικα αποτελε σματα ταξινο μησης, ο που δι δεται η εικο να εισο δου (γραμμη 1), η ταξινο μηση των εικο νων με χρη ση μο νο καθολικη ς (γραμμη 2) και μο νο τοπικη ς πληροφορι ας (γραμμη 3), ο πως υποδεικνυ εται απο το με γιστο των τιμω ν 47

74 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Εικονα εισοδου Αρχικη ταξινομηση Τελικη ταξινομηση εννοιων εννοιων Σχημα 3.5: Ενδεικτικα αποτελεσματα συσχετισης περιοχων με εννοιες hd l και g(dl ), l [1, L], αντιστοιχα, και η τελικη ταξινομηση μετα την εφαρμογη του μηχανισμου συντηξης (γραμμη 4), G(Dl ). Απο τα αποτελεσματα αυτα, μπορει να φανει οτι ο μηχανισμος συντηξης ρυθμιζει τη βαρυτητα των καθολικων χαρακτηριστικων εναντι των τοπικων (και αντιστροφα) για καθε υποστηριζομενο υπο-πεδιο. Ως εκ τουτου, το τελικο αποτελεσμα της ταξινομησης μπορει να διαφερει απο αυτο που υποδηλωνεται απο τη συνολικα μεγιστη τιμη των συνολων hd l και g(dl ) (π.χ. δευτερη εικονα στο σχημα 3.3). Στον πινακα 3.2, διδονται ποσοτικα αποτελεσματα της αποδοσης των αλγοριθμων 48

75 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Εικονα εισοδου Αρχικη ταξινομηση Τελικη ταξινομηση εννοιων εννοιων Σχημα 3.6: Ενδεικτικα αποτελεσματα συσχετισης περιοχων με εννοιες ταξινομησης εικονων υπο τη μορφη της ακριβειας ανιχνευσης για καθε υπο-πεδιο και συνολικα. Η ακριβεια ανιχνευσης οριζεται ως το ποσοστο των εικονων που ανηκουν σε ενα συγκεκριμενο υπο-πεδιο και εχουν ταξινομηθει σωστα. Απο τα προκυπτοντα αποτελεσματα, αποδεικνυεται οτι η μεθοδος ταξινομησης με χρηση καθολικης πληροφοριας οδηγει γενικα σε καλυτερα αποτελεσματα απο την αντιστοιχη με χρηση τοπικης πληροφοριας. Ωστοσο, θα πρεπει να σημειωθει οτι η αποδοση των δυο αλγοριθμων εξαρταται απο το εκαστοτε υπο-πεδιο, δηλαδη ορισμενα υπο-πεδια ειναι καταλληλοτερα για ταξινομηση με χρηση καθολικων χαρακτηριστικων (π.χ. Rockyside 49

76 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου και Forest), ενω για α λλα υπο -πεδι α η εφαρμογη μι ας προσε γγισης ταξινο μησης εικο νων που στηρι ζεται σε περιοχε ς ει ναι επωφελη ς. Για παρα δειγμα, στο υπο -πεδι ο Rockyside η παρατηρου μενη κατανομη του χρω ματος και τα χαρακτηριστικα υφη ς ει ναι παρο μοια ανα μεσα στις αντι στοιχες εικο νες. Συνεπω ς, η ταξινο μηση των εικο νων με βα ση τα καθολικα χαρακτηριστικα αποδι δει καλυ τερα για το συγκεκριμε νο υπο -πεδι ο σε σχε ση με την περι πτωση της χρη σης τοπικω ν χαρακτηριστικω ν. Απο την α λλη μερια, για υπο -πεδι α ο πως το Buildings, ο που το χρω μα και η υφη των εικονιζο μενων αντικειμε νων του πραγματικου κο σμου ενδε χεται να διαφε ρουν σημαντικα (δηλαδη τα κτι ρια ει ναι πιθανο να ε χουν πολλα διαφορετικα χρω ματα και σχη ματα), η ταξινο μηση των εικο νων με χρη ση πληροφορι ας τοπικου επιπε δου παρουσια ζει αυξημε να ποσοστα ανι χνευσης. Επιπρο σθετα, μπορει να επαληθευτει ο τι η προτεινο μενη προσε γγιση συ ντηξης καθολικη ς και τοπικη ς πληροφορι ας ταξινο μησης οδηγει σε σημαντικη βελτι ωση της απο δοσης. Επιπλε ον, στον πι νακα 3.2 η απο δοση της προτεινο μενης προσε γγισης συγκρι νεται με τους αλγορι θμους που παρουσια ζονται στις εργασι ες [110], ο που χρησιμοποιει ται ε νας ταξινομητη ς SVM πολλαπλω ν-κατηγοριω ν (multi-class) για την κατηγοριοποι ηση εικο νων με χρη ση καθολικω ν χαρακτηριστικω ν, και [126], ο που ε νας ταξινομητη ς τυ που Κ-κοντινο τερων γειτο νων (Κ-ΝΝ - K-Nearest Neighbours) συνδυα ζεται με ε να κατα λληλα εκπαιδευο μενο νευρωνικο δι κτυο προ σθιας τροφοδο τησης (feed-forward neural network) για την κατηγοριοποι ηση εικο νων βα σει καθολικω ν περιγραφω ν. Όπως μπορει να παρατηρηθει, η προτεινο μενη προσε γγιση, η οποι α συνδυα ζει καθολικα και τοπικα χαρακτηριστικα, υπερτερει ε ναντι και των δυ ο προαναφερθεισω ν μεθο δων για τα περισσο τερα υπο -πεδι α καθω ς και στη συνολικη ακρι βεια ταξινο μησης. Κα νοντας χρη ση της τελικη ς απο φασης κατηγοριοποι ησης των εικο νων, εκτελει ται μι α διαδικασι α επαναταξινο μησης των σημασιολογικω ν εννοιω ν (ενο τητα 3.3.3). Στα σχη ματα 3.5 και 3.6 απεικονι ζονται αντιπροσωπευτικα αποτελε σματα ανι χνευσης εννοιω ν ο που παρουσια ζεται η αρχικη εικο να (στη λη 1), ο σχολιασμο ς της που προκυ πτει απο την αρχικη διαδικασι α ταξινο μησης (στη λη 2), λαμβα νοντας υπο ψη για κα θε περιοχη 50

77 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου Πι νακας 3.3: Ακρι βεια ανι χνευσης εννοιω ν Στα διο Ακρι βεια αλγορι θμου Buildings Rockyside Forest Seaside Roadside Sports Συνολικα Αρχικη ταξινο μηση 48.55% 47.45% 47.66% 63.33% 50.18% 74.55% 55.05% εννοιω ν Τελικη ταξινο μηση εννοιω ν 50.92% 49.68% 51.46% 65.19% 50.18% 79.04% 57.60% Πι νακας 3.4: Χρο νοι επεξεργασι ας για μι α εικο να 800x600 εικονοστοιχει ων Ταξινο μηση με Ταξινο μηση με Στα διο Συ ντηξη πληροφορι ας και χρη ση καθολικω ν χρη ση τοπικω ν αλγορι θμου επαναταξινο μηση εννοιω ν χαρακτηριστικω ν χαρακτηριστικω ν Χρο νος (σε sec) s i την υπο θεση με τον υψηλο τερο βαθμο εμπιστοσυ νης h C ij, j [1, J], και η τελικη ερμηνει α της (στη λη 3). Στον πι νακα 3.3, δι δονται αποτελε σματα απο δοσης αναφορικα με τη διαδικασι α ανι χνευσης εννοιω ν στα διαδοχικα στα δια της προτεινο μενης προσε γγισης υπο τη μορφη της ακρι βειας ανι χνευσης, παρο μοια με αυτα που παρουσια ζονται στον πι νακα 3.2. Απο τα προκυ πτοντα αποτελε σματα, παρατηρει ται μι α αυ ξηση στην απο δοση ανι χνευσης εννοιω ν που εισα γεται απο την εφαρμογη της προτεινο μενης προσε γγισης. Πιο συγκεκριμε να, η συνολικη ακρι βεια ταξινο μησης καθω ς και η ακρι βεια ανι χνευσης για τα περισσο τερα απο τα υποστηριζο μενα υπο -πεδι α βελτιω νεται μετα την εφαρμογη της προτεινο μενης διαδικασι ας επαναταξινο μησης εννοιω ν, σε σχε ση με την απο δοση που αντιστοιχει στην αρχικη αντιστοι χηση εννοιω ν με περιοχε ς. Αυτη η αυ ξηση στην απο δοση επιβεβαιω νει την υπο θεση ο τι η μει ωση του συνολικου αριθμου των εννοιω ν που χρεια ζεται να ανιχνευθου ν, μετα την πραγματοποι ηση της διαδικασι ας ταξινο μησης των εικο νων, οδηγει σε καλυ τερα αποτελε σματα ανι χνευσης εννοιω ν. Αναφορικα με την υπολογιστικη πολυπλοκο τητα της προτεινο μενης προσε γγισης, 51

78 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου οι χρο νοι επεξεργασι ας για κα θε ε να απο τα διαδοχικα στα δια του αλγορι θμου για μι α εικο να 600x800 εικονοστοιχει ων απεικονι ζονται στον πι νακα 3.4. Για την πειραματικη αξιολο γηση χρησιμοποιη θηκε ε νας Η/Υ Pentium IV με επεξεργαστη 3 GHz και μνη μη RAM 1 GB. Πρε πει να σημειωθει ο τι κατα το στα διο της ταξινο μησης με χρη ση καθολικη ς πληροφορι ας, λη φθηκε υπο ψη ο χρο νος που απαιτει ται για την εξαγωγη των καθολικω ν περιγραφω ν. Παρο μοια, για την περι πτωση της ταξινο μησης βα σει τοπικω ν χαρακτηριστικω ν, προσμετρη θηκε ο χρο νος που απαιτει ται για την κατα τμηση της εικο νας και την εξαγωγη περιγραφε ων τοπικου επιπε δου. 3.5 Συμπεράσματα Στο κεφα λαιο αυτο, παρουσια στηκε μια προσε γγιση για τη σημασιολογικη ανα λυση και ταξινο μηση των εικο νων που συνδυα ζει πληροφορι α καθολικου και τοπικου επιπε δου με ρητα οριζο μενη γνω ση υπο τη μορφη μιας οντολογι ας. Η προτεινο μενη με θοδος αξιολογη θηκε στο πεδι ο της προσωπικη ς συλλογη ς εικο νων και παρουσι ασε πολλα υποσχο μενα αποτελε σματα σε αυτο το σχετικα ευρυ πεδι ο. Η επι δραση των διαφο ρων επιμε ρους στοιχει ων της προτεινο μενης προσε γγισης στην απο δοση ανι χνευσης υπο - πεδι ων και εννοιω ν εξετα στηκε λεπτομερω ς, τεκμηριω νοντας τη χρησιμο τητα τους σε ε να περιβα λλον σημασιολογικη ς ανα λυσης εικο νων. Όπως προκυ πτει απο την πειραματικη αξιολο γηση, η συνδυασμε νη χρη ση της πληροφορι ας καθολικου και τοπικου επιπε δου με προ τερη γνω ση, η τοι την ρητα οριζο μενη γνω ση που υπα ρχει στην οντολογι α και την πληροφορι α πλαισι ου, οδηγει σε βελτιωμε νη απο δοση ταξινο μησης των εικο νων, σε συ γκριση με την ταξινο μηση που βασι ζεται αποκλειστικα ει τε σε καθολικα ει τε σε τοπικα χαρακτηριστικα. Επιπλε ον, η προκυ πτουσα αντιστοι χηση της εικο νας με κα ποιο απο τα υποστηριζο μενα υπο -πεδι α χρησιμοποιει ται για την περαιτε ρω βελτι ωση της ακρι βειας συσχε τισης εννοιω ν με περιοχε ς, σε σχε ση με την περι πτωση της συσχε τισης των εννοιω ν χωρι ς τη γνω ση του υπο -πεδι ου στο οποι ο ταξινομει ται η εικο να. Η προτεινο μενη προσε γγιση δεν περιορι ζεται στο πεδι ο που χρησιμοποιει ται σε αυτη ν την ενο τητα για 52

79 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου τους σκοπου ς της αξιολο γησης, αλλα μπορει ευ κολα να επεκταθει με την προσθη κη επιπλε ον υπο -πεδι ων και εννοιω ν. Το τελευται ο μπορει να επιτευχθει με την πρου πο θεση ο τι η χρησιμοποιου μενη αναπαρα σταση γνω σης θα επεκταθει κατα λληλα ε τσι ω στε να λαμβα νονται υπο ψη τα επιπλε ον υπο -πεδι α και οι ε ννοιες, και ο τι το χρησιμοποιου μενο συ νολο εκπαι δευσης θα διευρυνθει αντιστοι χως με κατα λληλα δει γματα. 53

80 Κεφάλαιο 3. Ανάλυση και ταξινόμηση εικόνων με χρήση γνώσης και αξιοποίηση πληροφορίας καθολικού και τοπικού επιπέδου 54

81 Κεφάλαιο 4 Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Στο παρο ν κεφα λαιο εξετα ζεται το ζη τημα της αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου κατα τη διαδικασι α της σημασιολογικη ς ανα λυσης των εικο νων. Συγκεκριμε να, στην πρω τη ενο τητα παρουσια ζεται μι α καινοτο μα με θοδος για τον αποτελεσματικο συνδυασμο της χωρικη ς πληροφορι ας με την οπτικη και την πληροφορι α συνεμφα νισης. Επιπρο σθετα, στη δευ τερη ενο τητα παρε χονται τα αποτελε σματα μιας εκτεταμε νης πειραματικη ς αξιολο γησης της προτεινο μενης μεθο δου με α λλες παρο μοιες προσεγγι σεις της βιβλιογραφι ας και εξα γονται γενικο τερα συμπερα σματα αναφορικα με την αξιοποι ηση της χωρικη ς πληροφορι ας. 55

82 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων 4.1 Αξιοποίηση χωρικής πληροφορίας πλαισίου ως ένα πρόβλημα καθολικής βελτιστοποίησης Στην ενο τητα αυτη, παρουσια ζεται μι α με θοδος αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου για εφαρμογε ς σημασιολογικη ς ανα λυσης εικο νων. Βασικα χαρακτηριστικα και καινοτομι ες της προτεινο μενης προσε γγισης ει ναι η διατυ πωση του προβλη ματος της ανα λυσης εικο νας ως ε να προ βλημα καθολικη ς βελτιστοποι ησης (global optimization problem) και η χρη ση μιας πιθανοτικη ς προσε γγισης για τον αποτελεσματικο συνδυασμο της χωρικη ς με την οπτικη και την πληροφορι α συν-εμφα νισης. Στην υπο εξε ταση εικο να εφαρμο ζεται αρχικα ε νας αλγο ριθμος χωρικη ς κατα τμησης και για κα θε προκυ πτον ζευ γος περιοχω ν υπολογι ζεται ε να ζευ γος βαθμωτω ν χωρικω ν σχε σεων κατευ θυνσης (fuzzy directional spatial relations). Στη συνε χεια, πραγματοποιει ται μια αρχικη αντιστοι χιση των περιοχω ν της εικο νας με ε να συ νολο προκαθορισμε νων υψηλου -επιπε δου σημασιολογικω ν εννοιω ν (semantic concepts) χρησιμοποιω ντας μο νο οπτικα χαρακτηριστικα. Κατο πιν, εισα γεται ε νας γενετικο ς αλγο ριθμος (Genetic Algorithm - GA) για να προσδιορι σει τη βε λτιστη σημασιολογικη ερμηνει α της εικο νας. Ο γενετικο ς αλγο ριθμος κα νει χρη ση μιας σειρα ς Μπαγεσιανω ν δικτυ ων (Bayesian Networks - BNs) για την απο κτηση και την αξιοποι ηση συ νθετης πληροφορι ας πλαισι ου, ακολουθω ντας μια πιθανοτικη προσε γγιση. Τα δι κτυα BNs ει ναι εφοδιασμε να με μι α κατα λληλη δικτυακη δομη, η οποι α τους επιτρε πει να αναγνωρι σουν ζευ γη εννοιω ν για τα οποι α η χωρικη πληροφορι α πλαισι ου μπορει να βοηθη σει στον αποτελεσματικο εντοπισμο τους. Κατο πιν, προσαρμο ζουν τη βαρυ τητα που πρε πει να ε χει η χωρικη πληροφορι α πλαισι ου ε ναντι της οπτικη ς και της πληροφορι ας συν-εμφα νισης κατα τη διαδικασι α ανι χνευσης του κα θε δυνατου ζευ γους σημασιολογικω ν εννοιω ν, ακολουθω ντας μι α πιθανοτικη προσε γγιση. Στο υπο λοιπο της παρου σας ενο τητας, περιγρα φονται τα επιμε ρους στα δια της προτεινο μενης προσε γγισης. 56

83 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Επεξεργασία οπτικής πληροφορίας Προκειμε νου να πραγματοποιηθει η αρχικη συσχε τιση των περιοχω ν της εικο νας με ε ννοιες, η υπο εξε ταση εικο να πρε πει να κατατμηθει σε περιοχε ς και να εξαχθου ν κατα λληλες περιγραφε ς χαμηλου επιπε δου για κα θε προκυ πτουσα περιοχη. Συ μφωνα με την προτεινο μενη προσε γγιση, χρησιμοποιει ται ο αλγο ριθμος κατα τμησης της εργασι ας [88] και οι δημιουργου μενες χωρικε ς περιοχε ς, οι οποι ες ει ναι πιθανο ν να αναπαριστου ν σημαντικα σημασιολογικα αντικει μενα, συμβολι ζονται με s n, n [1, N]. Για κα θε περιοχη της εικο νας s n, υπολογι ζεται ε να αντι στοιχο δια νυσμα χαρακτηριστικω ν περιοχη ς v n ως εξη ς: Αρχικα, προσδιορι ζεται ε να συ νολο σημαντικω ν σημει ων (keypoints) για κα θε περιοχη χρησιμοποιω ντας ε ναν ανιχνευτη σημει ων ενδιαφε ροντος (point-ofinterest) και ε να προκαθορισμε νο πλε γμα εικο νας (image grid), και κατο πιν εξα γεται ε να δια νυσμα περιγραφε α SIFT (Scale-Invariant Feature Transform) με 128 στοιχει α σε κα θε σημαντικο σημει ο. Στη συνε χεια, ακολουθω ντας τη μεθοδολογι α "Bag of Words" (BoW) [32] σχηματι ζεται ε να 300-δια στατο δια νυσμα χαρακτηριστικω ν v n για την περιοχη s n βασισμε νο στα αρχικα διανυ σματα περιγραφε ων SIFT της περιοχη ς. Παρα λληλα με την εξαγωγη των οπτικω ν χαρακτηριστικω ν, υπολογι ζεται ε να συ νολο βαθμωτω ν χωρικω ν σχε σεων κατευ θυνσης για κα θε διατεταγμε νο ζευ γος περιοχω ν της εικο νας (s n, s m ), n m. Το συ νολο των σχε σεων κατευ θυνσης που χρησιμοποιου νται σε αυτη την εργασι α συμβολι ζεται με R = {r γ, γ [1, Γ]} και περιλαμβα νει τις ακο λουθες σχε σεις: Πα νω (Above - A), Δεξια (Right - R), Κα τω (Below - B), Αριστερα (Left - L), Κα τωδεξια (Below-right - BR), Κα τω-αριστερα (Below-left - BL), Πα νω-δεξια (Above-right - AR) και Πα νω-αριστερα (Above-left - AL). Η σχε ση r γ που ε χει υπολογιστει για το ζευ γος περιοχω ν (s n, s m ) συμβολι ζεται με r γ (s n, s m ) [0, 1]. Στην προτεινο μενη ανα λυση, η εξαγωγη των βαθμωτω ν σχε σεων κατευ θυνσης στηρι ζεται στις αρχε ς των μεθοδολογιω ν που βασι ζονται στη χρη ση προβολω ν [122] και γωνιω ν [147] και αποτελει ται απο τα ακο λουθα βη ματα. Αρχικα, υπολογι ζεται ε να "μειωμε νο κουτι " (reduced box) απο το ελα χιστο περιβα λλον ορθογω νιο (Minimum 57

84 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων AL A dx/4 AR dy L BL y x dx B R BR dy/4 Σχη μα 4.1: Ορισμο ς βαθμωτω ν σχε σεων κατευ θυνσης Bounding Rectangle - MBR) της περιοχη ς αναφορα ς (ground region), η οποι α ει ναι χρωματισμε νη με σκου ρο γκρι χρω μα στο σχη μα 4.1, ου τως ω στε να περιβα λει την περιοχη με ε να πιο αντιπροσωπευτικο τρο πο. Ο υπολογισμο ς αυτου του μειωμε νου κουτιου πραγματοποιει ται χρησιμοποιω ντας ως κριτη ριο την τιμη της πυκνο τητας (compactness) κουτιου v, η οποι α ορι ζεται ως το κλα σμα της επιφα νειας της περιοχη ς που περιε χεται στο μειωμε νο κουτι προς τη συνολικη επιφα νεια του κουτιου : Αν η αρχικα υπολογισθει σα τιμη v ει ναι μικρο τερη απο ε να κατω φλι T H, το κουτι MBR της περιοχη ς αναφορα ς μειω νεται διαδοχικα με χρι να επιτευχθει η επιθυμητη τιμη κατωφλι ου. Στη συνε χεια, σχηματι ζονται οκτω κωνικε ς περιοχε ς βα σει του υπολογισθε ντος μειωμε νου κουτιου, ο πως φαι νεται στο σχη μα 4.1, ο που η κα θε μι α αντιστοιχει σε μι α απο τις οριζο μενες σχε σεις κατευ θυνσης. Το ποσοστο των εικονοστοιχει ων της εξεταζο μενης περιοχη ς ( igure region), δηλαδη της περιοχη ς της οποι ας η σχετικη θε ση δυ ναται να προσδιοριστει σε σχε ση με την περιοχη αναφορα ς και η οποι α ει ναι χρωματισμε νη με ανοιχτο γκρι χρω μα στο σχη μα 4.1, που περιλαμβα νονται σε καθεμι α απο τις κωνικου σχη ματος περιοχε ς καθορι ζει το βαθμο με τον οποι ο ικανοποιει ται η αντι στοιχη σχε ση κατευ θυνσης. Μετα απο εκτενει ς πειραματισμου ς, η τιμη του κατωφλι ου T H τε θηκε ι ση με

85 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Χρησιμοποιω ντας μο νο τα οπτικα χαρακτηριστικα, πραγματοποιει ται μια αρχικη αντιστοι χηση των εννοιω ν με περιοχε ς κα νοντας χρη ση των ταξινομητω ν SVMs. Συγκεκριμε να, μια ξεχωριστη μηχανη SVM εισα γεται για κα θε οριζο μενη ε ννοια c k, k [1, K], για να ανιχνευ σει τα αντι στοιχα δει γματα, και εκπαιδευ εται ακολουθω ντας την προσε γγιση "ε νας-εναντι ον-ο λων" (one-against-all). Κα θε μηχανη SVM δε χεται ως ει σοδο το δια νυσμα χαρακτηριστικω ν περιοχη ς v n και υπολογι ζει για κα θε περιοχη μι α εκ των υστε ρων πιθανο τητα h nk P (c k v n ), η οποι α δηλω νει το βαθμο με τον οποι ο ε χει ανατεθει η ε ννοια c k στην περιοχη s n. Αυτη η πιθανο τητα υπολογι ζεται ως εξη ς (ενο τητα 3.3.1): h nk = 1 1+e η z nk, ο που z nk ει ναι η απο σταση του συγκεκριμε νου διανυ σματος χαρακτηριστικω ν εισο δου v n απο το αντι στοιχο διαχωριστικο υπε ρ-επι πεδο της μηχανη ς SVM και η ει ναι μι α παρα μετρος κλι σης που προσδιορι ζεται πειραματικα Αξιοποίηση πληροφορίας πλαισίου Γενετικός αλγόριθμος Οι γενετικοι αλγο ριθμοι ε χουν χρησιμοποιηθει εκτενω ς σε μια ευρει α ποικιλι α προβλημα των βελτιστοποι ησης, ο που ε χει αποδειχθει ο τι ξεπερνου ν α λλες παραδοσιακε ς μεθο δους. Στην προτεινο μενη προσε γγιση, ε νας γενετικο ς αλγο ριθμος εφαρμο ζεται, αφου ε χουν υπολογιστει τα αρχικα αποτελε σματα συσχε τισης εννοιω ν με περιοχε ς, για να προσδιορι σει τη βε λτιστη σημασιολογικη ερμηνει α της εικο νας, αντιμετωπι ζοντας το προ βλημα της ανα λυσης εικο νας ως ε να καθολικο προ βλημα βελτιστοποι ησης. Στην παρου σα εργασι α, ο γενετικο ς αλγο ριθμος κα νει χρη ση ενο ς αρχικου πληθυσμου χρωμοσωμα των που δημιουργου νται τυχαι α. Κα θε χρωμο σωμα T αντιπροσωπευ ει μια πιθανη λυ ση, δηλαδη κα θε γονι διο αναθε τει μι α απο τις οριζο μενες ε ννοιες c k σε μια περιοχη της εικο νας s n η ανα θεση αυτη συμβολι ζεται με g nk και συνεπω ς ισχυ ει T = {g nk, n [1, N]}. Μετα την αρχικοποι ηση του πληθυσμου, νε ες γενιε ς παρα γονται διαδοχικα με χρι να επιτευχθει η βε λτιστη λυ ση. Κα θε νε α γενια προκυ πτει απο την τρε χουσα μετα την εφαρμογη των ακο λουθων τελεστω ν εξε λιξης: 59

86 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων επιλογη (selection): ε να ζευγα ρι χρωμοσωμα των απο την τρε χουσα γενια επιλε γεται για να χρησιμοποιηθου ν ως γονει ς για την επο μενη γενια. Στην προτεινο μενη προσε γγιση χρησιμοποιει ται ο τελεστη ς επιλογη ς "τουρνουα " (Tournament Selection Operator) με αντικατα σταση [51]. διασταυ ρωση (crossover): δυ ο επιλεγμε να χρωμοσω ματα χρησιμευ ουν ως γονει ς για να προκυ ψουν δυ ο νε οι απο γονοι. Χρησιμοποιει ται ομοιο μορφη διασταυ ρωση με πιθανο τητα 0.7. μετα λλαξη (mutation): κα θε γονι διο του τροποποιημε νου χρωμοσω ματος απογο νου ει ναι πιθανο να υποστει μετα λλαξη με πιθανο τητα Αν παρουσιαστει μετα λλαξη σε ε να γονι διο, το τε η αντι στοιχη τιμη του τροποποιει ται, δηλαδη αντιστοιχι ζεται μι α νε α σημασιολογικη ε ννοια στην περιοχη της εικο νας που αντιστοιχει στο συγκεκριμε νο γονι διο. Ο γενετικο ς αλγο ριθμος κα νει χρη ση μι ας συνα ρτησης καταλληλο τητας ( itness function) για να υποδηλω νει το πο σο ευλογοφανη ς ει ναι κα θε πιθανη ερμηνει α της εικο νας, η οποι α ε χει τη μορφη : f(t ) = n,m V (g nk, g ml ), (4.1) N(N 1) ο που η συνα ρτηση V (g nk, g ml ) [0, 1] υποδεικνυ ει το βαθμο στον οποι ο οι αναθε σεις εννοιω ν σε περιοχε ς g nk, g ml ει ναι συνεπει ς με την πληροφορι α πλαισι ου που ε χει αποκτηθει και α λλου ει δους πληροφορι α (π.χ. οπτικη ), και ο ο ρος N(N 1) δηλω νει τον αριθμο των μεταθε σεων των N περιοχω ν της εικο νας ανα 2 (δηλαδη ο αριθμο ς των διατεταγμε νων ζευγω ν περιοχω ν που υπα ρχουν στην εικο να και τα οποι α συνεισφε ρουν στο α θροισμα στον αριθμητη ). Το αποτε λεσμα της εφαρμογη ς του γενετικου αλγορι θμου ει ναι μια τελικη ανα θεση εννοιω ν στις περιοχε ς της εικο νας, η οποι α αντιστοιχει στη λυ ση με την υψηλο τερη τιμη καταλληλο τητας ( itness value). Για να εξασφαλιστει ο τι χρωμοσω ματα με υψηλη τιμη καταλληλο τητας θα συνεισφε ρουν στην επο μενη γενια, υιοθετη θηκε η προσε γγιση των επικαλυπτο μενων 60

87 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων πληθυσμω ν (overlapping populations). Πιο συγκεκριμε να, θεωρω ντας ε να πληθυσμο M χρωμοσωμα των, συ μφωνα με την χρησιμοποιηθει σα με θοδο επιλογη ς διαχωρι ζονται M s χρωμοσω ματα, και απο την εφαρμογη των τελεστω ν διασταυ ρωσης και μετα λλαξης παρα γονται M s νε α χρωμοσω ματα. Απο τα προκυ πτοντα M + M s χρωμοσω ματα, ο τελεστη ς επιλογη ς εφαρμο ζεται για μια ακο μη φορα, προκειμε νου να επιλε ξει τα M χρωμοσω ματα που θα αποτελε σουν τη νε α γενια. Μετα απο πειραματισμο, αποδει χθηκε ο τι η επιλογη M s = 0.4M ει χε ως αποτε λεσμα υψηλο τερη απο δοση και ταχυ τερη συ γκλιση. Η παραπα νω επαναληπτικη διαδικασι α συνεχι ζεται με χρι η πολυμορφι α (diversity) της τρε χουσας γενια ς γι νει ι ση με/μικρο τερη απο η ο αριθμο ς των γενεω ν ξεπερα σει τις 50. Η ανωτε ρω προσε γγιση συσχε τισης σημασιολογικω ν εννοιω ν με περιοχε ς της εικο νας, στηρι χθηκε στην χρη ση της βιβλιοθη κης λογισμικου γενετικω ν αλγορι θμων της [139]. Τα κυ ρια ζητη ματα που σχετι ζονται με την χρη ση του γενετικου αλγορι θμου στο παρο ν πλαι σιο σημασιολογικη ς ανα λυσης εικο νας ει ναι τα εξη ς: i) η διαδικασι α απο κτησης της πληροφορι ας πλαισι ου, και ii) ο ορισμο ς της συνα ρτησης V (g nk, g ml ) που αξιοποιει αυτη ν την πληροφορι α, αλλα και α λλες πηγε ς πληροφορι ας, για να αξιολογη σει τη συνε πεια των αναθε σεων των εννοιω ν σε περιοχε ς. Σε αυτη την εργασι α, ακολουθει ται μι α πιθανοτικη προσε γγιση για τον αποτελεσματικο συνδυασμο της χωρικη ς πληροφορι ας πλαισι ου με την οπτικη και την πληροφορι α συν-εμφα νισης για κα θε δυνατο ζευ γος εννοιω ν. Απόκτηση και αξιολόγηση χωρικών περιορισμών Προκειμε νου να αποκτηθου ν οι κατα λληλοι χωρικοι περιορισμοι που θα διευκολυ νουν τη δια κριση μεταξυ εννοιω ν που εμφανι ζουν παρο μοια οπτικα χαρακτηριστικα, ακολουθει ται μια στατιστικη προσε γγιση μα θησης. Για το σκοπο αυτο, σχηματι ζεται ε να συ νολο απο χειροκι νητα σχολιασμε νες εικο νες, που συμβολι ζεται με Dtr, 1 και για το οποι ο ε χουν υπολογισθει οι βαθμωτε ς χωρικε ς σχε σεις κατευ θυνσης. Στη συνε χεια, για κα θε διατεταγμε νο ζευ γος εννοιω ν (c k, c l ) το με σο δια νυσμα r kl και ο αντι στοιχος πι νακας 61

88 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων συμμεταβλητο τητας cov(r kl ), αναφορικα με τις σχε σεις r γ, υπολογι ζονται ως εξη ς: r n,m = [r 1 (s n, s m ), r 2 (s n, s m )...r Γ (s n, s m )] T r kl = [r kl 1, r kl 2...r kl Γ ] T = E[r n,m ] cov(r kl ) = E[(r n,m r kl )(r n,m r kl ) T ], (4.2) ο που για τους υπολογισμου ς ε χουν ληφθει υπο ψη οι χωρικε ς σχε σεις r γ (s n, s m ) που ε χουν υπολογισθει για ο λα τα ζευ γη περιοχω ν (s n, s m ), n m, τα οποι α ε χουν συσχετισθει με τις ε ννοιες (c k, c l ), αντιστοι χως. Το συ νολο των τιμω ν r kl και cov(r kl ) που λαμβα νονται για το ζευ γος εννοιω ν (c k, c l ) ορι ζει ε ναν χωρικο περιορισμο, ο οποι ος συμβολι ζεται με u kl και αναπαριστα την "επιτρεπο μενη" χωρικη δια ταξη των εννοιω ν c k και c l. Για την αξιολο γηση της συμφωνι ας ενο ς δεδομε νου ζευ γους αντιστοιχι σεων εννοιω ν με περιοχε ς (g nk,g ml ) με τον χωρικο περιορισμο u kl, χρησιμοποιει ται η ακο λουθη ε κφραση που βασι ζεται στον υπολογισμο μιας απο στασης mahalanobis: Y u kl(g nk, g ml ) = 1, (4.3) 1 + p T n,m cov 1 (r kl )p n,m ο που p n,m = (r n,m r kl ). Ο ο ρος Y u kl(g nk, g ml ) [0, 1] δηλω νει το βαθμο στον οποι ο το ζευ γος αντιστοιχι σεων (g nk,g ml ) ει ναι συ μφωνο με την αποκτηθει σα χωρικη πληροφορι α πλαισι ου. Μεγαλυ τερες τιμε ς του ο ρου Y u kl(g nk, g ml ) υποδεικνυ ουν πιο πιθανε ς χωρικε ς διευθετη σεις Συνδυασμός χωρικής, οπτικής και πληροφορίας συν-εμφάνισης Τα δι κτυα BNs αποτελου ν μια αποτελεσματικη μεθοδολογι α για την εκμα θηση πολυ πλοκων πιθανοτικω ν σχε σεων ανα μεσα σε ε να συ νολο τυχαι ων μεταβλητω ν [92]. Συ μφωνα με την προτεινο μενη προσε γγιση, δι κτυα BNs χρησιμοποιου νται για να προσδιορι σουν αυτο ματα τη βαρυ τητα της διαθε σιμης χωρικη ς, οπτικη ς και πληροφορι ας πλαισι ου στην ανι χνευση κα θε ζευ γους εννοιω ν (c k, c l ). Συνδυα ζοντας αυτη ν την πληροφορι α, ε να δι κτυο BN υπολογι ζει την τιμη της συνα ρτησης V (g nk, g ml ) (σχε ση 62

89 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων (4.1)), η οποι α υποδεικνυ ει το πο σο ευ λογο ει ναι ε να δεδομε νο ζευ γος αντιστοιχι σεων εννοιω ν σε περιοχε ς (g nk, g ml ). Για το σκοπο αυτο, κατασκευα ζεται μια σειρα απο K 2 δι κτυα BNs, ο που ε να ξεχωριστο δι κτυο BN εισα γεται για κα θε δυνατο διατεταγμε νο ζευ γος εννοιω ν (c k, c l ) για να μοντελοποιη σει τις αντι στοιχες συσχετι σεις. Η γενικη δομη του κα θε δικτυ ου BN περιγρα φεται στη συνε χεια. Πρε πει να τονιστει ο τι στην παρου σα εργασι α χρησιμοποιου νται δι κτυα BNs διακριτου χω ρου, καθω ς αυτα ει ναι λιγο τερο επιρρεπη σε συμβα ντα υπο -εκπαι δευσης (under-training) σε σχε ση με τα αντι στοιχα δι κτυα συνεχου ς χω ρου [92]. Το πρω το βη μα για την ανα πτυξη οποιουδη ποτε δικτυ ου BN ει ναι ο ορισμο ς των τυχαι ων μεταβλητω ν που παρουσια ζουν ενδιαφε ρον για τη συγκεκριμε νη εφαρμογη. Για την παρου σα εφαρμογη, ορι ζονται οι ακο λουθες τυχαι ες μεταβλητε ς: α) μεταβλητε ς CA nk και CA ml, που αντιστοιχου ν στις συσχετι σεις g nk και g ml, αντι στοιχα. Η μεταβλητη CA nk υποδηλω νει το γεγονο ς της ανα θεσης της ε ννοιας c k στην περιοχη s n ομοι ως για τη μεταβλητη CA ml. β) μεταβλητη SC kl nm, η οποι α υποδεικνυ ει τη συνε πεια των προαναφερθε ντων συσχετι σεων σε σχε ση με την αποκτηθει σα χωρικη γνω ση (ενο τητα 4.1.2). Η μεταβλητη αυτη υποδηλω νει την τιμη του παρα γοντα επαλη θευσης χωρικου περιορισμου Y u kl(g nk, g ml ). γ) μεταβλητε ς V A nk και V A ml, οι οποι ες αντιπροσωπευ ουν τα αποτελε σματα της οπτικη ς ανα λυσης για τις ε ννοιες c k και c l (ενο τητα 4.1.1), αντι στοιχα. Η μεταβλητη V A nk υποδηλω νει το πο σο εφικτη ει ναι η αντιστοι χιση g nk με βα ση την οπτικη πληροφορι α, δηλαδη την τιμη της υπολογιζο μενης εκ των υστε ρων πιθανο τητας h nk ομοι ως για τη μεταβλητη V A ml. Στη συνε χεια, χρεια ζεται να οριστει ο χω ρος της κα θε τυχαι ας μεταβλητη ς που ε χει εισαχθει, δηλαδη το συ νολο των δυνατω ν τιμω ν που μπορει να λα βει. Ειδικο τερα, για τις μεταβλητε ς CA nk και CA ml το συ νολο των τιμω ν που μπορου ν να λα βουν επιλε γεται 63

90 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων να ει ναι ι σο με {ca nk1, ca nk2 } = {ca ml1, ca ml2 } = {T rue, F alse}, ο που η τιμη T rue υποδηλω νει την ανα θεση των εννοιω ν c k, c l στις περιοχε ς s n, s m, αντι στοιχα, και η τιμη F alse το αντι θετο. Απο την α λλη μερια, ε να βη μα διακριτοποι ησης εφαρμο ζεται στις τιμε ς Y u kl(g nk, g ml ), h nk και h ml για τον ορισμο των χω ρων των μεταβλητω ν SC kl nm, V A nk και V A ml, αντι στοιχα. Ο στο χος της επιλεγμε νης διαδικασι ας διακριτοποι ησης ει ναι να προσδιοριστει μια σχεδο ν ομοιο μορφη διακριτη κατανομη για κα θε μι α απο τις παραπα νω μεταβλητε ς, η οποι α ε χει φανει πειραματικα ο τι διευκολυ νει καλυ τερα τη διαδικασι α συμπερασμου των δικτυ ων BNs, σε σχε ση με τη διακριτοποι ηση με σταθερο βη μα η α λλες κοινε ς κατανομε ς ο πως η Γκαουσιανη (Gaussian) και η Poisson. Η διακριτοποι ηση ορι ζεται ως εξη ς: αρχικα δημιουργει ται ε να συ νολο σχολιασμε νου περιεχομε νου εικο νας (παρο μοια με το συ νολο D 1 tr που ε χει περιγραφει στην ενο τητα 4.1.2), το οποι ο συμβολι ζεται με D 2 tr. Στη συνε χεια, για κα θε πιθανο διατεταγμε νο ζευ γος περιοχω ν (s n, s m ) στο συ νολο D 2 tr, υπολογι ζονται οι εκ των υστε ρων πιθανο τητες h nk, h ml και ο παρα γοντας επαλη θευσης Y u kl(g nk, g ml ). Κατο πιν, οι προαναφερθει σες τιμε ς ομαδοποιου νται, σχηματι ζοντας τα συ νολα L 1 = {h nk } {λ 1i }, L 2 = {h ml } {λ 2i } και L 3 = {Y u kl(g nk, g ml )} {λ 3i } (για 1 i I), ο που η παρα μετρος I συμβολι ζει το συνολικο αριθμο των διατεταγμε νων ζευγω ν περιοχω ν στο συ νολο Dtr. 2 Εν συνεχει α, τα στοιχει α των προαναφερθε ντων συνο λων ταξινομου νται κατα αυ ξουσα σειρα, και τα προκυ πτοντα συ νολα συμβολι ζονται με L j (j = 1, 2, 3). Εα ν η παρα μετρος Q υποδηλω νει τον αριθμο των πιθανω ν διακριτω ν τιμω ν της κα θε αντι στοιχης τυχαι ας μεταβλητη ς, αυτε ς ορι ζονται συ μφωνα με τις ακο λουθες σχε σεις: b j1 if λ ji ϵ[0, L j (ϕ)) B j = b jq if λ ji ϵ[l j (ϕ (q 1)), L j (ϕ q)), qϵ[2, Q 1] b jq if λ ji ϵ[l j (ϕ (Q 1)), 1] (4.4) ο που ϕ = I Q, η παρα σταση L j(o) συμβολι ζει το o-οστο στοιχει ο του ταξινομημε νου κατα αυ ξουσα σειρα συνο λου L j, και τα συ μβολα b j1, b j2,...b jq υποδηλω νουν τις τιμε ς της μεταβλητη ς B j (B j {V A nk, V A ml, SC kl nm}). Απο τις παραπα νω σχε σεις, μπορει να φανει 64

91 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων CA nk True False VA nk (h nk ) va nk1... va nkq kl kl SC nm (Y u (g nk,g ml )) kl sc nm1... kl sc nmq CA ml True False VA ml (h ml ) va ml1... va mlq Σχη μα 4.2: Ανεπτυγμε νη δομη G kl δικτυ ου ΒΝ ο τι παρο λο που ο αριθμο ς των πιθανω ν τιμω ν για ο λες τις τυχαι ες μεταβλητε ς B j ει ναι ι σος με Q, τα αντι στοιχα διαστη ματα τιμω ν με τα οποι α σχετι ζονται ει ναι γενικω ς διαφορετικα. Το επο μενο βη μα στην ανα πτυξη μιας δομη ς δικτυ ου BN ει ναι να οριστει ε νας προσανατολισμε νος μη-κυκλικο ς γρα φος (Directed Acyclic Graph - DAG), ο οποι ος αντιπροσωπευ ει τις σχε σεις αιτιο τητας (causality) ανα μεσα στις εισαγο μενες τυχαι ες μεταβλητε ς. Για το παρο ν προ βλημα, κατασκευα ζεται ο αιτιατο ς γρα φος G kl, ο οποι ος παρουσια ζεται στο σχη μα 4.2. Η κατευ θυνση των το ξων στην προτεινο μενη δομη δικτυ ου BN ορι ζει ρητω ς τις σχε σεις αιτιο τητας/παραδοχε ς υπο συνθη κη ανεξαρτησι ας (conditional independence assumptions) ανα μεσα στις καθορισμε νες μεταβλητε ς. Συγκεκριμε να, θεωρει ται ο τι: α) οι μεταβλητε ς V A nk και V A ml ει ναι υπο συνθη κη εξαρτημε νες μο νο απο τις μεταβλητε ς CA nk και CA ml, αντι στοιχα (δηλαδη η σημασιολογικη ε ννοια που ει ναι παρου σα σε μια περιοχη της εικο νας καθορι ζει πλη ρως τα παρατηρου μενα οπτικα χαρακτηριστικα ), και β) η μεταβλητη CA nk ε χει μια αιτιατη επι δραση στη μεταβλητη CA ml το σο α μεσα (πληροφορι α συν-εμφα νισης) ο σο και μεταβατικα με σω της μεταβλητη ς SC kl nm (παρα γοντας επαλη θευσης χωρικου περιορισμου ). Απο την αιτιατη δομη δικτυ ου G kl που ε χει αναπτυχθει και τις παραδοχε ς υπο συνθη κη ανεξαρτησι ας που αυτο αναπαριστα, η απο κοινου συνα ρτηση πυκνο τητας πιθανο τητας (joint probability distribution) των τυχαι ων μεταβλητω ν που περιλαμβα νονται στο γρα φο 65

92 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων G kl, η οποι α συμβολι ζεται με P joint και ικανοποιει τη συνθη κη Markov [92] με το γρα φο G kl, ορι ζεται ως εξη ς: P joint (ca nk, ca ml, va nk, va ml, sc kl nm) = P 1 P 2 P 1 = P (ca nk ) P (ca ml ca nk, sc kl nm) P (sc kl nm ca nk ) P 2 = P (va nk ca nk ) P (va ml ca ml ), (4.5) ο που ca nk, ca ml, va nk, va ml, sc kl nm ει ναι οι τιμε ς των μεταβλητω ν CA nk, CA ml, V A nk, V A ml, SC kl nm, αντι στοιχα. Το ζευ γος (G kl, P joint ) αποτελει το αναπτυγμε νο δι κτυο BN. Απο τις παραπα νω σχε σεις, μπορει να διαπιστωθει ο τι το προτεινο μενο δι κτυο BN μαθαι νει πιθανοτικα τη βαρυ τητα που πρε πει να ε χει η χωρικη, η οπτικη και η πληροφορι α συνεμφα νισης στον υπολογισμο του βαθμου που υποδηλω νει την ευλογοφα νεια του ζευ γους αντιστοιχι σεων (g nk,g ml ). Πιο συγκεκριμε να, το δι κτυο ει ναι ικανο να μα θει τη σημασι α των οπτικω ν ενδει ξεων στην αντιστοι χιση των εννοιω ν c k και c l στις περιοχε ς s n και s m, αντι στοιχα, και ειδικο τερα προσθε τει διαφορετικη βαρυ τητα σε κα θε αντι στοιχη τιμη ανα λυσης (η τοι τις τιμε ς h nk και h ml ), υπολογι ζοντας τις υπο συνθη κη πιθανο τητες P (va nk ca nk ) και P (va ml ca ml ) στον ο ρο P 2, αντι στοιχα. Ομοι ως, το ανεπτυγμε νο δι κτυο BN κωδικοποιει επι σης τις πολυ πλοκες συσχετι σεις μεταξυ των αντιστοιχι σεων g nk και g ml, ρυθμι ζοντας προσαρμοστικα το βαθμο με τον οποι ο λαμβα νονται υπο ψη η χωρικη και η πληροφορι α συν-εμφα νισης εννοιω ν. Το τελευται ο πραγματοποιει ται με τον υπολογισμο των πιθανοτη των P (ca ml ca nk, sc kl nm) και P (sc kl nm ca nk ) στον ο ρο P 1. Αναφορικα με τη διαδικασι α εκπαι δευσης του αναπτυγμε νου δικτυ ου BN, το συ νολο ο λων των υπο συνθη κη πιθανοτη των ανα μεσα στις καθορισμε νες υπο συνθη κη εξαρτημε νες τυχαι ες μεταβλητε ς του γρα φου G kl (σχε ση (4.5)), υπολογι ζονται απο το συ νολο του σχολιασμε νου περιεχομε νου εικο νας D 2 tr, το οποι ο χρησιμοποιη θηκε επι σης για τη διακριτοποι ηση των μεταβλητω ν εισο δου. Κατα το στα διο της αξιολο γησης, το δι κτυο BN δε χεται ως ει σοδο τα αποτελε σματα της οπτικη ς ανα λυσης (η τοι τις εκ των υστε ρων πιθανο τητες h nk και h ml ) και τον αντι στοιχο παρα γοντα επαλη θευσης χωρικου 66

93 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων περιορισμου Y u kl(g nk, g ml ). Αυτα αποτελου ν τα λεγο μενα αποδεικτικα στοιχει α που ε να δι κτυο BN χρεια ζεται για να πραγματοποιη σει τη διαδικασι α συμπερασμου. Στη συνε χεια, το δι κτυο BN υπολογι ζει την ακο λουθη εκ των υστε ρων πιθανο τητα (βαθμο ς πι στης - degree of belief), κα νοντας χρη ση ο λων των πρου πολογισθε ντων υπο συνθη κη πιθανοτη των και των καθορισμε νων τοπικω ν συνθηκω ν ανεξαρτησι ας ανα μεσα στις τυχαι ες μεταβλητε ς του γρα φου G kl : P (ca nk = T rue, ca ml = T rue va nk, va ml, sc kl nm). Αυτη η πιθανο τητα αποτελει μια ποσοτικη ε νδειξη του πο σο ευ λογο ει ναι το ζευ γος αντιστοιχι σεων εννοιω ν σε περιοχε ς (g nk, g ml ), με βα ση την χωρικη, την οπτικη και την πληροφορι α συν-εμφα νισης η τιμη της συνα ρτησης V (g nk, g ml ) στη σχε ση (4.1) ορι ζεται ι ση με αυτη την πιθανο τητα Πειραματικά αποτελέσματα Στην ενο τητα αυτη, παρουσια ζονται πειραματικα αποτελε σματα απο την εφαρμογη της προτεινο μενης προσε γγισης σε δυ ο δημοσι ως διαθε σιμα συ νολα δεδομε νων, τα οποι α συμβολι ζονται με D 1 και D 2. Συγκεκριμε να, το συ νολο δεδομε νων SCEF¹, το οποι ο συμβολι ζεται με D 1 (922 εικο νες) και ειση χθη στην εργασι α [102], χρησιμοποιει ται για πειραματισμο. Για αυτο, ορι ζονται οι ακο λουθες 10 ε ννοιες: Building, Foliage, Mountain, Person, Road, Sailing-boat, Sand, Sea, Sky και Snow. Το προαναφερθε ν συ νολο εικο νων χωρι στηκε σε τρι α υπο -συ νολα, η τοι τα συ νολα D 1 tr (230 εικο νες), D 2 tr (230 εικο νες) και D te (462 εικο νες). Το πρω το συ νολο, D 1 tr, χρησιμοποιη θηκε για την εκπαι δευση του ταξινομητη μηχανω ν SVMs και την απο κτηση των χωρικω ν περιορισμω ν. Το συ νολο D 2 tr χρησιμοποιη θηκε για την εκπαι δευση των προτεινο μενων δικτυ ων BNs, ενω το D te χρησιμοποιη θηκε για την αξιολο γηση. Όσον αφορα το συ νολο δεδομε νων D 2 (591 εικο νες), ε γινε χρη ση του συνο λου MSRC² v2. Για το τελευται ο συ νολο, υποστηρι ζονται οι ακο λουθες 21 ε ννοιες: Building, Grass, Tree, Cow, Sheep, Sky, Aeroplane, Water, Face, Car, Bicycle, Flower, Sign, Bird, Book, Chair, Road, Cat, Dog, Body και Boat. Επιπλε ον, ¹http://mklab.iti.gr/project/scef ²http://research.microsoft.com/en-us/projects/objectclassrecognition/ 67

94 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων σχηματι στηκαν επι σης τα αντι στοιχα συ νολα D 1 tr, D 2 tr και D te, τα οποι α περιλαμβα νουν 148, 147 και 296 εικο νες, αντι στοιχα. Στο σχη μα 4.3, παρουσια ζονται ποσοτικε ς μετρη σεις απο δοσης απο την εφαρμογη της προτεινο μενης προσε γγισης στα χρησιμοποιου μενα συ νολα δεδομε νων υπο τη μορφη της διαφορα ς στην ακρι βεια εντοπισμου εννοιω ν. Η τελευται α υπολογι ζεται αφαιρω ντας την ακρι βεια εντοπισμου που ε χει επιτευχθει βα σει αποκλειστικα οπτικω ν χαρακτηριστικω ν απο την αντι στοιχη που ελη φθη μετα την εφαρμογη της προτεινο μενης προσε γγισης αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου. Τα αρχικα αποτελε σματα ταξινο μησης που ε χουν υπολογιστει βα σει της οπτικη ς πληροφορι ας απεικονι ζονται εντο ς παρενθε σεων. Έχει θεωρηθει ο τι για κα θε περιοχη s n, το ο ρισμα argmax k (h nk ) υποδεικνυ ει την ε ννοια που ε χει αντιστοιχηθει με χρη ση αποκλειστικα οπτικω ν χαρακτηριστικω ν. Η ακρι βεια ορι ζεται ως το ποσοστο των περιοχω ν εικο νας στις οποι ες ε χει ανατεθει η σωστη σημασιολογικη ε ννοια. Πρε πει να σημειωθει ο τι η τιμη της μεταβλητη ς Q στη σχε ση (6.1), η οποι α καθορι ζει τον αριθμο των πιθανω ν τιμω ν για τις μεταβλητε ς V A nk, V A ml και SC kl nm, ορι στηκε ι ση με 19 και 24 για τα συ νολα D 1 και D 2, αντι στοιχα ε χει παρατηρηθει ο τι τιμε ς της μεταβλητη ς Q μεγαλυ τερες απο 10, δηλαδη ο ταν η επιλεγμε νη διακριτοποι ηση δεν η ταν χονδροειδη ς (coarse), οδη γησε σε οριακε ς αλλαγε ς στη συνολικη ακρι βεια ανι χνευσης και για τα δυ ο συ νολα δεδομε νων. Απο τα αποτελε σματα που παρουσια ζονται, μπορει να διαπιστωθει ο τι η προτεινο μενη προσε γγιση επιτυγχα νει μια συνολικη βελτι ωση της απο δοσης κατα 7.94% και 5.21% στα συ νολα D 1 και D 2, αντι στοιχα, σε σχε ση με τα αρχικα αποτελε σματα της ταξινο μησης. Επιπλε ον, τα ποσοστα ανι χνευσης για τις περισσο τερες απο τις υποστηριζο μενες ε ννοιες αυξα νονται σημαντικα και στα δυ ο συ νολα δεδομε νων. Συγκεκριμε να, φαι νεται ο τι οι ε ννοιες που παρουσια ζουν καλυ τερα ορισμε νη χωρικη δια ταξη ευνοου νται αισθητα, ο πως ει ναι οι ε ννοιες Building, Person στο συ νολο D 1 και Tree, Road στο D 2. Η ε ννοια c k θεωρει ται ο τι ε χει καλω ς ορισμε νη χωρικη πληροφορι α πλαισι ου εα ν το κλα σμα λαμβα νει σχετικα χαμηλε ς τιμε ς (ο που το συ μβολο tr(.) l tr(cov(rkl ))+ l tr(cov(rlk )) 2K 68

95 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Difference in accuracy Difference in accuracy 60% 45% 30% 15% 7.5% 0% 7.5% 15% 45% 30% 15% 7.5% 0% 7.5% (29.94%) (46.57%) (69.84%) (58.63%) Concept detection results in D1 (46.53%) (16.07%) (11.86%) c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 overall (69.23%) (51.46%) (61.90%) (29.41%) 15% c1 c5 c10 c15 c20 overall (77.16%) (76.68%) Concept detection results in D2 (81.58%) (14.29%) (49.02%) (44.44%) (19.51%) (25.00%) (16.00%) (29.73%) (6.06%) (48.68%) (22.22%) (45.21%) (82.15%) (17.65%) (16.67%) (26.55%) (10.71%) (11.76%) (62.80%) (42.57%) Σχη μα 4.3: Αποτελε σματα ανι χνευσης εννοιω ν υποδηλω νει το ι χνος ενο ς πι νακα), δηλαδη οι χωρικε ς σχε σεις που συνδε ουν την ε ννοια c k με ο λες τις α λλες ε ννοιες c l του αντι στοιχου συνο λου δεδομε νων δεν παρουσια ζουν σημαντικε ς διακυμα νσεις στις τιμε ς τους. Απο την α λλη μερια, το ποσοστο ανι χνευσης των εννοιω ν που παρουσια ζουν λιγο τερο καλα ορισμε νη χωρικη πληροφορι α πλαισι ου ει ναι επι σης αυξημε νο (για παρα δειγμα οι ε ννοιες Snow, Foliage και Sheep, Chair στα συ νολα D 1 και D 2, αντι στοιχα). Για το τελευται ο συ νολο εννοιω ν, η παρουσιαζο μενη βελτι ωση της απο δοσης οφει λεται κυρι ως στην ενσωμα τωση της πληροφορι ας συν-εμφα νισης των εννοιω ν στα ανεπτυγμε να δι κτυα BNs. Επιπλε ον, μπορει να διαπιστωθει ο τι σημαντικη βελτι ωση της απο δοσης μπορει να ληφθει για ε ννοιες που παρουσια ζουν χαμηλο αρχικο ποσοστο ταξινο μησης (π.χ. ε ννοιες Road, Sailing-boat και Aeroplane, Car στα συ νολα D 1 και D 2, αντι στοιχα). Σημαντικη συμβολη σε αυτη τη βελτι ωση της απο δοσης ε χει η πιθανοτικη προσε γγιση που ακολουθει ται για τη ρυ θμιση της βαρυ τητας που πρε πει να ε χουν οι οπτικε ς ενδει ξεις στην ανι χνευση κα θε υποστηριζο μενης ε ννοιας. Αντιθε τως, 69

96 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων μικρη μει ωση στην απο δοση της ανι χνευσης μπορει να παρατηρηθει για μερικε ς ε ννοιες που ει τε: α) παρουσια ζουν σημαντικα αυξημε νο αρχικο ποσοστο σωστη ς ταξινο μησης (π.χ. ε ννοια Sky και στα δυ ο συ νολα δεδομε νων), η β) ε χουν λιγο τερο καλα ορισμε νη χωρικη πληροφορι α πλαισι ου και η οπτικη /πληροφορι α συν-εμφα νισης δε μπορει να βοηθη σει στη σωστη δια κριση τους (π.χ. οι ε ννοιες Water και Face στο συ νολο D 2 ). Αυτα τα αποτελε σματα καταδεικνυ ουν την αποτελεσματικο τητα της προτεινο μενης προσε γγισης στο να βελτιω νει τα αποτελε σματα ταξινο μησης περιοχω ν που ε χουν προκυ ψει βα σει αποκλειστικα οπτικη ς πληροφορι ας, συνδυα ζοντας πιθανοτικα την χωρικη πληροφορι α πλαισι ου με την οπτικη και την πληροφορι α συν-εμφα νισης των εννοιω ν. Η απο δοση της προτεινο μενης προσε γγισης συγκρι θηκε επι σης με τις τεχνικε ς αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου που ε χουν παρουσιαστει στην εργασι α [102]. Συγκεκριμε να, παρατηρη θηκε ο τι η προτεινο μενη με θοδος υπερτερει ε ναντι των μεθο δων στην [102] κατα περι που 5% και 3% στα συ νολα δεδομε νων D 1 και D 2, αντι στοιχα, ο σον αφορα τη συνολικη ακρι βεια ανι χνευσης εννοιω ν. Αυτη η διαφορα στην απο δοση οφει λεται στην πιο εξελιγμε νη προσε γγιση που ακολουθει ται απο την προτεινο μενη με θοδο για τον πιθανοτικο συνδυασμο της διαθε σιμης χωρικη ς, οπτικη ς και πληροφορι ας συν-εμφα νισης, σε αντι θεση με τις απλου στερες μεθοδολογι ες (η τοι ε να σταθμισμε νο α θροισμα και ε ναν τελεστη γινομε νου) που ε χουν υιοθετη σει οι με θοδοι στην [102]. 4.2 Συγκριτική αξιολόγηση τεχνικών αξιοποίησης χωρικής πληροφορίας πλαισίου Στην παρου σα ενο τητα, περιγρα φεται μι α συγκριτικη αξιολο γηση τριω ν τεχνικω ν αξιοποι ησης χωρικη ς πληροφορι ας πλαισι ου για σημασιολογικη ανα λυση εικο νων. Η αξιολο γηση περιλαμβα νει την εφαρμογη των τεχνικω ν με πολλαπλου ς συνδυασμου ς 70

97 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Σχη μα 4.4: Ανεπτυγμε νο πλαι σιο αξιολο γησης περιγραφε ων χαμηλου επιπε δου και ταξινομητω ν σε τε σσερα συ νολα δεδομε νων διαφορετικη ς πολυπλοκο τητας. Στο χος της μελε της ει ναι η σε βα θος διερευ νηση των πλεονεκτημα των της κα θε τεχνικη ς και η απο κτηση μιας καλυ τερης και πιο ολοκληρωμε νης αντι ληψης αναφορικα με την χρη ση της χωρικη ς πληροφορι ας πλαισι ου. Για το σκοπο αυτο, οι τρεις τεχνικε ς που εξετα ζονται, δηλαδη ο γενετικο ς αλγο ριθμος (Genetic Algorithm - GA), ο δυαδικο ς προγραμματισμο ς ακεραι ων (Binary Integer Programming - BIP) και το μοντε λο βασισμε νο στην ενε ργεια (Energy-Based Model - EBM), ε χουν επιλεγει ε τσι ω στε να καλυ πτονται οι κυριο τερες κατηγορι ες μεθο δων που ε χουν προταθει στη βιβλιογραφι α. Ένα κατα λληλο πλαι σιο αξιολο γησης, η γενικη δομη του οποι ου φαι νεται στο σχη μα 4.4, ε χει αναπτυχθει για την πραγματοποι ηση της μελε της. Όπως μπορει να φανει απο το σχη μα, στην προς ανα λυση εικο να εφαρμο ζεται αρχικα ε νας αλγο ριθμος χωρικη ς κατα τμησης και δυ ο διαφορετικα συ νολα οπτικω ν χαρακτηριστικω ν, δηλαδη περιγραφει ς του προτυ που MPEG-7 και χαρακτηριστικα βασισμε να στην τεχνολογι α SIFT, εξα γονται για κα θε περιοχη της εικο νας που ε χει δημιουργηθει. Παρα λληλα, για κα θε ζευγα ρι περιοχω ν της εικο νας υπολογι ζεται ε να αντι στοιχο συ νολο βαθμωτω ν χωρικω ν σχε σεων κατευ θυνσης. Κατο πιν, κα θε συ νολο περιγραφε ων χαμηλου επιπε δου παρε χεται διαδοχικα ως ει σοδος σε τρεις διαφορετικου ς αλγορι θμους ταξινο μησης, η τοι μι α μηχανη διανυσμα των στη ριξης (Support Vector Machine - SVM), ε να τυχαι ο δα σος (Random Forest 71

98 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων - RF) και ε νας ταξινομητη ς LogitBoost (LB), ε τσι ω στε να συσχετι σουν κα θε περιοχη με μι α απο τις προκαθορισμε νες υψηλου επιπε δου σημασιολογικε ς ε ννοιες βασισμε νοι μο νο σε οπτικη πληροφορι α. Ο ο ρος "σημασιολογικη ε ννοια" υποδηλω νει στην παρου σα εφαρμογη ε να αντικει μενο του πραγματικου κο σμου, το οποι ο μπορει να υπα ρχει στην προς εξε ταση εικο να. Εν συνεχει α, οι τρεις προαναφερθει σες τεχνικε ς αξιοποι ησης της χωρικη ς πληροφορι ας, οι οποι ες εκτελου νται πα νω απο τα αρχικα αποτελε σματα ταξινο μησης και ακολουθου ν διαφορετικε ς προσεγγι σεις για την απο κτηση της χωρικη ς πληροφορι ας πλαισι ου, εφαρμο ζονται για να εκτιμη σουν μι α βε λτιστη εκχω ρηση μιας σημασιολογικη ς ε ννοιας σε κα θε περιοχη της εικο νας. Επιπρο σθετα, ε να καινοτο μο ποσοτικο με τρο, αποκαλου μενο "συντελεστη ς χωρικη ς πληροφορι ας πλαισι ου" (Spatial Context Factor - SCF), εισα γεται για να υποδει ξει το βαθμο στον οποι ο η χωρικη δια ταξη ενο ς δοθε ντος αντικειμε νου ει ναι καλω ς ορισμε νη. Εκτεταμε να πειρα ματα ε χουν διεξαχθει για τη διερευ νηση της επι δρασης μιας σειρα ς τυπικω ν παραγο ντων (ο πως τα χρησιμοποιου μενα οπτικα χαρακτηριστικα, ο αλγο ριθμος ταξινο μησης, το πλη θος των υποστηριζο μενων σημασιολογικω ν εννοιω ν, κτλ.) στην απο δοση της κα θε τεχνικη ς, ενω επι σης παρε χεται μια λεπτομερη ς ανα λυση των αποτελεσμα των που ε χουν ληφθει. Τα κυ ρια συ μβολα που θα χρησιμοποιηθου ν στο υπο λοιπο της ενο τητας συνοψι ζονται στον πι νακα Οπτική ανάλυση Κατάτμηση και εξαγωγή οπτικών χαρακτηριστικών Προκειμε νου να πραγματοποιηθει η αρχικη αντιστοι χιση των εννοιω ν με περιοχε ς της εικο νας, η προς εξε ταση εικο να πρε πει να κατατμηθει σε περιοχε ς και κατα λληλες χαμηλου -επιπε δου περιγραφε ς πρε πει να εξαχθου ν για κα θε προκυ πτουσα περιοχη. Σε αυτη την εργασι α, ε νας τροποποιημε νος αλγο ριθμος Κ-με σων-με-περιορισμο - συνδεσιμο τητας ταξινο μησης εικονοστοιχει ων (pixel) ε χει χρησιμοποιηθει για την κατα τμηση της εικο νας [88]. Έξοδος του εν λο γω αλγορι θμου κατα τμησης ει ναι μι α 72

99 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Πι νακας 4.1: Λεζα ντα κυ ριων συμβο λων Συ μβολο s n, n [1, N] v n c k, k [1, K] Περιγραφη προκυ πτουσες περιοχε ς της εικο νας μετα την εφαρμογη του αλγορι θμου κατα τμησης δια νυσμα οπτικω ν χαρακτηριστικω ν που ε χει εξαχθει για την περιοχη s n οριζο μενες σημασιολογικε ς ε ννοιες h nk P (c k v n ) R = {r γ, γ [1, Γ]} r γ (s n, s m ) πιθανο τητα με την οποι α η ε ννοια c k συνδε εται με την περιοχη s n, χρησιμοποιω ντας μο νο οπτικα χαρακτηριστικα συ νολο υποστηριζο μενων σχε σεων κατευ θυνσης βαθμο ς ικανοποι ησης της σχε σης r γ απο το διατεταγμε νο ζευ γος περιοχω ν (s n, s m ) αυτο ς ανη κει στο συνεχε ς δια στημα [0, 1] g nk ανα θεση της ε ννοιας c k στην περιοχη s n, μετα την αξιοποι ηση της χωρικη ς πληροφορι ας πλαισι ου freq(c k ) συχνο τητα εμφα νισης ε ννοιας c k freq(c k, c l ) συχνο τητα συν-εμφα νισης του ζευ γους εννοιω ν (c k, c l ) μα σκα κατα τμησης, ο που οι δημιουργου μενες χωρικε ς περιοχε ς s n, n [1, N], ει ναι πιθανο ν να αναπαριστου ν σημαντικα σημασιολογικα αντικει μενα. Κα θε προκυ πτουσα περιοχη της εικο νας s n στη συνε χεια αναπαριστα ται με την χρη ση ενο ς διανυ σματος οπτικω ν χαρακτηριστικω ν v n. Δυ ο διαφορετικε ς με θοδοι για τον υπολογισμο του v n ε χουν θεωρηθει. Όσον αφορα την πρω τη με θοδο, οι ακο λουθοι περιγραφει ς του προτυ που MPEG-7 εξα γονται και συνδε ονται αλυσιδωτα για να σχηματι σουν το δια νυσμα χαρακτηριστικω ν περιοχη ς: κλιμακωτο χρω μα (Scalable Color), ομοιογενη ς υφη (Homogeneous Texture), σχη μα περιοχη ς (Region Shape) και ιστο γραμμα ακμω ν (Edge Histogram). Αυτο ε χει σαν αποτε λεσμα το σχηματισμο ενο ς 433-δια στατου 73

100 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων διανυ σματος χαρακτηριστικω ν χαμηλου επιπε δου. Η δευ τερη με θοδος βασι ζεται στο μετασχηματισμο χαρακτηριστικω ν αμετα βλητης κλι μακας (Scale-Invariant Feature Transform - SIFT) [81]. Συγκεκριμε να, ε να συ νολο σημαντικω ν σημει ων (keypoints) υπολογι ζεται αρχικα για κα θε περιοχη s n, χρησιμοποιω ντας ε να ανιχνευτη σημει ων ενδιαφε ροντος (points-of-interest) καθω ς και ε να προκαθορισμε νο πλε γμα της εικο νας (image grid), και ε να δια νυσμα περιγραφε α SIFT (με 128 στοιχει α) εξα γεται σε κα θε σημει ο. Κατο πιν, ακολουθω ντας τη μεθοδολογι α "Bag-of-Words" (BoW) [32], ε να "λεξιλο γιο" (vocabulary) 300 οπτικω ν λε ξεων κατασκευα ζεται πραγματοποιω ντας ομαδοποι ηση (clustering) στον 128-δια στατο χω ρο των χαρακτηριστικω ν. Στη συνε χεια, κα θε περιοχη αναπαριστα ται απο το ιστο γραμμα των οπτικω ν λε ξεων που περιε χει, δηλαδη το συ νολο των λε ξεων που αντιστοιχου ν στους αρχικου ς περιγραφει ς SIFT που ε χουν εξαχθει απο αυτη. Το ιστο γραμμα αυτο αποτελει στην περι πτωση αυτη το δια νυσμα χαρακτηριστικω ν περιοχη ς v n. Τα προαναφερθε ντα οπτικα χαρακτηριστικα χρησιμοποιου νται με τη σειρα τους απο τους αλγορι θμους ταξινο μησης, δηλαδη αποτελου ν ε να κοινο συ νολο δεδομε νων που χρησιμοποιου νται κατα τη διαδικασι α αντιστοι χησης των σημασιολογικω ν εννοιω ν με τις περιοχε ς της εικο νας. Οπτική ταξινόμηση Σε αυτη ν την ενο τητα, περιγρα φεται η διαδικασι α αρχικη ς συσχε τισης περιοχω ν με ε ννοιες, δηλαδη η εκχω ρηση υψηλου επιπε δου σημασιολογικω ν εννοιω ν σε περιοχε ς της εικο νας βασισμε νη αποκλειστικα σε οπτικη πληροφορι α. Στο ανεπτυγμε νο πλαι σιο αξιολο γησης, χρησιμοποιου νται τρεις επιμε ρους αλγο ριθμοι ταξινο μησης: μηχανη διανυσμα των στη ριξης (Support Vector Machine - SVM), τυχαι ο δα σος (Random Forest - RF) και ταξινομητη ς LogitBoost (LB). Κα θε ταξινομητη ς δε χεται ως ει σοδο οποιοδη ποτε απο τα δυ ο διανυ σματα χαρακτηριστικω ν περιοχη ς v n που ε χουν περιγραφει στην ενο τητα και υπολογι ζει για κα θε ε ννοια c k, k [1, K], που ε χει οριστει μι α εκ των υστε ρων πιθανο τητα h nk P (c k v n ), η οποι α υποδηλω νει το βαθμο με τον οποι ο η 74

101 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων ε ννοια c k ε χει εκχωρηθει στην περιοχη s n. Οι μηχανε ς SVM ε χουν χρησιμοποιηθει ευρε ως σε εφαρμογε ς σημασιολογικη ς ανα λυσης εικο νας λο γω της εγνωσμε νης δυνατο τητα ς τους γενι κευσης (generalization) και της καταλληλο τητα ς τους για χειρισμο δεδομε νων μεγα λης δια στασης (highdimensional data) [138]. Συ μφωνα με την προτεινο μενη προσε γγιση, μια ξεχωριστη μηχανη SVM εισα γεται για κα θε οριζο μενη σημασιολογικη ε ννοια c k για να ανιχνευ σει τα αντι στοιχα δει γματα (instances), και εκπαιδευ εται συ μφωνα με την προσε γγιση "one-against-all". Κα θε μηχανη SVM δε χεται ως ει σοδο το δια νυσμα χαρακτηριστικω ν περιοχη ς v n και υπολογι ζει την εκ των υστε ρων πιθανο τητα h nk ως εξη ς (ενο τητα 3.3.1): h nk = 1 1+e η z nk, ο που z nk ει ναι η απο σταση του συγκεκριμε νου διανυ σματος χαρακτηριστικω ν εισο δου v n απο το αντι στοιχο διαχωριστικο υπερ-επι πεδο της μηχανη ς SVM και η ει ναι μι α παρα μετρος κλι σης που καθορι ζεται πειραματικα. Η απο σταση αυτη ει ναι θετικη σε περι πτωση ορθη ς ταξινο μησης και αρνητικη διαφορετικα. Οι ταξινομητε ς RFs [16] ανη κουν στη γενικο τερη κατηγορι α των ταξινομητω ν συνο λου (ensemble classi iers), δηλαδη ταξινομητω ν που βασι ζονται στο συνδυασμο των αποτελεσμα των πολλαπλω ν ασθενω ς εκπαιδευο μενων (weak learners). Ειδικο τερα, η λειτουργι α των RFs στηρι ζεται στο συνδυασμο πολλαπλω ν ταξινομητω ν τυ που δε ντρων απο φασης (decision trees), καθε νας απο τους οποι ους εκπαιδευ εται σε διαφορετικα υπο - συ νολα των δειγμα των εκπαι δευσης η /και διαφορετικα υπο -συ νολα χαρακτηριστικω ν. Οι ταξινομητε ς RFs θεωρου νται ο τι ει ναι ανθεκτικοι σε ενθο ρυβα δεδομε να [16], ενω ει ναι ιδιαι τερα κατα λληλοι για δεδομε να υψηλη ς δια στασης η ο ταν ει ναι διαθε σιμος ε νας μικρο ς αριθμο ς δειγμα των εκπαι δευσης [125]. Στην παρου σα εργασι α, εισα γεται ε νας ξεχωριστο ς ταξινομητη ς RF για κα θε υποστηριζο μενη ε ννοια c k, ενω η προσε γγιση "one-against-all" ακολουθει ται για την εκπαι δευση. Κατα το στα διο της εκτι μησης, ο ταξινομητη ς RF υπολογι ζει την εκ των υστε ρων πιθανο τητα h nk που ορι στηκε ανωτε ρω, προσδιορι ζοντας το με σο ο ρο των εξο δων των ασθενω ς εκπαιδευο μενων που ε χουν δημιουργηθει. 75

102 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Οι με θοδοι που στηρι ζονται στην ενι σχυση (boosting methods) αποτελου ν μια οικογε νεια τεχνικω ν ταξινο μησης που λαμβα νουν αποφα σεις συνδυα ζοντας τα αποτελε σματα ασθενω ς εκπαιδευο μενων [44], παρο μοια με τους ταξινομητε ς συνο λου που περιγρα φηκαν παραπα νω. Το βασικο πλεονε κτημα των μεθο δων αυτω ν ει ναι ο τι ε χουν φανει να ει ναι λιγο τερο επιρρεπη ς στην εμφα νιση συμβα ντων υπε ρ-προσαρμογη ς (over itting) απο τους περισσο τερους αλγορι θμους εκμα θησης. Στο παρο ν πλαι σιο ανα λυσης, ε νας συγκεκριμε νος αλγο ριθμος ενι σχυσης ε χει επιλεγει, η τοι ο ταξινομητη ς LB, ο οποι ος κα νει χρη ση ενο ς μετασχηματισμου logit (log-odds ratio) για τη μετατροπη του σταθμισμε νου αθροι σματος των αποτελεσμα των των ασθενω ς εκπαιδευο μενων σε πιθανο τητα [44]. Όμοια με τα συστη ματα ταξινο μησης των SVM και RF, ε νας ξεχωριστο ς ταξινομητη ς LB κατασκευα ζεται για κα θε ε ννοια c k, ενω η προσε γγιση "one-againstall" ακολουθει ται και πα λι για την εκπαι δευση. Η εκ των υστε ρων πιθανο τητα h nk υπολογι ζεται αυτη τη φορα με την χρη ση του προαναφερθε ντος μετασχηματισμου logit. Ανα μεσα στις πολλε ς και διαφορετικε ς επιλογε ς των ασθενω ς εκπαιδευο μενων που ει ναι διαθε σιμες, χρησιμοποιη θηκαν δε ντρα παλινδρο μησης (regression trees) σε αυτη ν την εργασι α Απόκτηση χωρικής πληροφορίας πλαισίου Το πρω το βη μα για την εφαρμογη οποιασδη ποτε τεχνικη ς αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου ει ναι ο ορισμο ς ενο ς κατα λληλου συνο λου χωρικω ν σχε σεων. Στο παρο ν πλαι σιο ανα λυσης, χρησιμοποιου νται βαθμωτε ς χωρικε ς σχε σεις κατευ θυνσης για να υποδηλω σουν τη σχετικη δια ταξη των αντικειμε νων στο χω ρο. Το συ νολο των υποστηριζο μενων σχε σεων κατευ θυνσης, που συμβολι ζεται με R = {r γ, γ [1, Γ]}, περιλαμβα νει τις ακο λουθες σχε σεις: Πα νω, Δεξια, Κα τω, Αριστερα, Κα τω-δεξια, Κα τωαριστερα, Πα νω-δεξια και Πα νω-αριστερα. Οι σχε σεις αυτε ς υπολογι ζονται για κα θε διατεταγμε νο ζευ γος περιοχω ν της εικο νας (s n, s m ), n m, παρα λληλα με την εξαγωγη των οπτικω ν χαρακτηριστικω ν. Η σχε ση r γ που ε χει υπολογιστει για το ζευ γος περιοχω ν 76

103 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων (s n, s m ) συμβολι ζεται με r γ (s n, s m ) [0, 1]. Μια λεπτομερη ς περιγραφη της διαδικασι ας εξαγωγη ς τους ε χει δοθει στην ενο τητα Μετα την εξαγωγη των χωρικω ν σχε σεων, τυπικα ακολουθει ται μια διαδικασι α μα θησης απο κα θε τεχνικη για την απο κτηση της χωρικη ς πληροφορι ας πλαισι ου. Για το σκοπο αυτο χρησιμοποιει ται ε να συ νολο χειροκι νητα σχολιασμε νων (manually annotated) εικο νων, το οποι ο συμβολι ζεται με D 1 tr και για τις εικο νες που το απαρτι ζουν ε χουν υπολογισθει οι βαθμωτε ς χωρικε ς σχε σεις κατευ θυνσης. Για κα θε πιθανο διατεταγμε νο ζευ γος εννοιω ν (c k, c l ) σχηματι ζεται ε να αντι στοιχο συ νολο σχε σεων, που συμβολι ζεται με R c k,c l, το οποι ο περιλαμβα νει ο λες τις σχε σεις r γ (s n, s m ), n m, που ε χουν υπολογισθει για ο λα τα ζευ γη περιοχω ν του D 1 tr, ο που οι ε ννοιες c k και c l ε χουν αντιστοιχηθει χειροκι νητα στις περιοχε ς s n και s m, αντι στοιχα. Επιπλε ον, τα συ νολα R c k,c l γ R c k,c l, γ [1, Γ], δημιουργου νται επι σης, αναφορικα με κα θε επιμε ρους χωρικη σχε ση r γ. Εν συνεχει α, κα θε μι α απο τις επιλεγμε νες τεχνικε ς εφαρμο ζει τη δικη της διαδικασι α απο κτησης χωρικη ς πληροφορι ας πλαισι ου. Ειδικο τερα, η τεχνικη BIP προσδιορι ζει ε να δυαδικο περιορισμο (binary constraint) για κα θε ζευ γος εννοιω ν (c k, c l ) και κα θε υποστηριζο μενη χωρικη σχε ση r γ, ο οποι ος συμβολι ζεται με T γ (c k, c l ). Ο περιορισμο ς αυτο ς ορι ζεται ι σος με 1 εα ν οι ε ννοιες c k και c l "επιτρε πεται" να συνδε ονται με σω της σχε σης r γ, ενω ε χει οριστει ι σος με 0 διαφορετικα. Οι περιορισμοι T γ (c k, c l ) υπολογι ζονται χρησιμοποιω ντας τη στη ριξη (support) και την εμπιστοσυ νη (con idence) ως κριτη ρια επιλογη ς, και κα νοντας χρη ση των συνο λων R c k,c l γ. Απο την α λλη μερια, η τεχνικη EBM επιτρε πει την χρη ση βαθμωτω ν χωρικω ν περιορισμω ν (fuzzy spatial constraints). Αυτοι χρησιμοποιου νται για να υποδηλω σουν την "αναμενο μενη" χωρικη διευθε τηση των εννοιω ν και υπολογι ζονται ως ακολου θως: r n,m = [r 1 (s n, s m ), r 2 (s n, s m )...r Γ (s n, s m )] T r kl = [r kl 1, r kl 2...r kl Γ ] T = E[r n,m ], (s n, s m ) R c k,c l, (4.6) ο που ε να ξεχωριστο δια νυσμα με σων r kl υπολογι ζεται για κα θε διατεταγμε νο ζευ γος εννοιω ν (c k, c l ). Επιπλε ον, η τεχνικη GA ακολουθει μια πιο εμπεριστατωμε νη στατιστικη 77

104 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων προσε γγιση μα θησης που λαμβα νει υπο ψη, εκτο ς απο τις με σες τιμε ς, τη διακυ μανση (variance) και τις συσχετι σεις (correlations) μεταξυ των χωρικω ν σχε σεων. Αυτο επιτυγχα νεται με τον υπολογισμο του πι νακα συμμεταβλητο τητας (covariance matrix) cov(r kl ) για κα θε ζευ γος εννοιω ν (c k, c l ), συ μφωνα με την ακο λουθη σχε ση: cov(r kl ) = E[(r n,m r kl )(r n,m r kl ) T ], (s n, s m ) R c k,c l (4.7) Ο υπολογισμο ς του πι νακα συμμεταβλητο τητας cov(r kl ) συμβα λει σε μια πιο ολοκληρωμε νη αναπαρα σταση της χωρικη ς δια ταξης των εννοιω ν απο ο,τι χρησιμοποιω ντας μο νο το δια νυσμα με σων r kl. Έχοντας αποκτη σει τους κατα λληλους χωρικου ς περιορισμου ς, κα θε τεχνικη στοχευ ει στην εκτι μηση μιας βε λτιστης αντιστοι χησης μεταξυ των περιοχω ν της εικο νας και των σημασιολογικω ν εννοιω ν, δηλαδη τη συσχε τιση μιας τελικη ς ε ννοιας c k με κα θε περιοχη s n, λαμβα νοντας υπο ψη το σο την οπτικη ο σο και την χωρικη πληροφορι α. Αυτη η συσχε τιση της ε ννοιας c k με την περιοχη s n συμβολι ζεται g nk Τεχνικές αξιοποίησης χωρικής πληροφορίας πλαισίου Σε αυτη την ενο τητα, γι νεται αναφορα στις τεχνικε ς αξιοποι ησης της χωρικη ς πληροφορι ας που ε χουν χρησιμοποιηθει στο ανεπτυγμε νο πλαι σιο αξιολο γησης, η τοι οι τεχνικε ς GA, BIP και EBM. Απο τις προαναφερθει σες τεχνικε ς, η με θοδος GA αποτελει μι α απο τις προτεινο μενες προσεγγι σεις της διατριβη ς και ε χει περιγραφει αναλυτικα στην ενο τητα 4.1. Βασικα χαρακτηριστικα και σημαντικε ς διαφοροποιη σεις της μεθο δου GA απο τις υπο λοιπες ει ναι η αναγωγη της διαδικασι ας της σημασιολογικη ς ανα λυσης των εικο νων σε ε να προ βλημα καθολικη ς βελτιστοποι ησης και η χρη ση ενο ς συνο λου δικτυ ων BNs για το συνδυασμο της οπτικη ς, της χωρικη ς και της πληροφορι ας συν-εμφα νισης εννοιω ν. Στο υπο λοιπο της ενο τητας περιγρα φονται οι τεχνικε ς BIP και EBM. 78

105 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Τεχνική BIP Τα γραμμικα προγρα μματα (linear programs) αποτελου ν μι α διαδεδομε νη με θοδο για την επι λυση προβλημα των ικανοποι ησης περιορισμω ν (constraint satisfaction problems). Τα δυαδικα προγρα μματα ακεραι ων (Binary Integer Programs - BIPs) ει ναι ε νας ειδικο ς τυ πος γραμμικω ν προγραμμα των, τα οποι α επιτρε πουν τον ορισμο μο νο δυαδικω ν ακε ραιων μεταβλητω ν. Παρα το γεγονο ς ο τι η πολυπλοκο τητα των προγραμμα των BIPs ει ναι τα ξης "μη-ντετερμινιστικη ς πολυωνυμικου -χρο νου" (NP-hard), για ορισμε νες μορφε ς μπορου ν να επιλυθου ν σε πολυωνυμικο χρο νο [83]. Συ μφωνα με την προτεινο μενη προσε γγιση, το προ βλημα της αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου διατυπω νεται ως ε να προ γραμμα δυαδικω ν ακεραι ων. Για το σκοπο αυτο χρεια ζεται να υπολογιστει ε να συ νολο δυαδικω ν περιορισμω ν T γ (c k, c l ) (ο πως ε χει περιγραφει στην ενο τητα 4.2.2), οι οποι οι μοντελοποιου ν την αποδεκτη χωρικη δια ταξη των σημασιολογικω ν εννοιω ν. Στη συνε χεια, το ε ργο του υπολογισμου μι ας βε λτιστης αντιστοι χισης μεταξυ περιοχω ν και εννοιω ν εκφρα ζεται με τη μορφη ενο ς προγρα μματος δυαδικω ν ακεραι ων, το οποι ο μπορει να επιλυθει αποτελεσματικα και λαμβα νει υπο ψη τα αρχικα αποτελε σματα ταξινο μησης, καθω ς και τους χωρικου ς περιορισμου ς που ε χουν αποκτηθει. Για τον προσδιορισμο των δυαδικω ν χωρικω ν περιορισμω ν T γ (c k, c l ), πρε πει να καθοριστει το συ νολο των χωρικω ν σχε σεων που μπορου ν να συνδε σουν κα θε ε ννοια c k με οποιαδη ποτε α λλη ε ννοια c l. Αυτο πραγματοποιει ται με την χρη ση της στη ριξης και της εμπιστοσυ νης ως κριτη ρια επιλογη ς. Για το σκοπο αυτο, επιπρο σθετα συ νολα σχε σεων, εκτο ς απο τα συ νολα R c k,c l γ που ε χουν οριστει στην ενο τητα 4.2.2, πρε πει να δημιουργηθου ν απο το συ νολο εικο νων D 1 tr. Συγκεκριμε να, για κα θε χωρικη σχε ση r γ σχηματι ζεται ε να αντι στοιχο συ νολο σχε σεων R c k γ, το οποι ο περιλαμβα νει τις σχε σεις r γ (s n, s m ), n m, που ε χουν υπολογιστει για ο λα τα ζευ γη περιοχω ν στο D 1 tr, ο που η ε ννοια c k ε χει ανατεθει χειροκι νητα σε τουλα χιστον μι α απο τις περιοχε ς s n η s m. Ομοι ως, δημιουργει ται το συ νολο R,c l γ, το οποι ο περιε χει ο λες τις σχε σεις r γ (s n, s m ) 79

106 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων μεταξυ κα θε τυχου σας περιοχη ς s n και μιας περιοχη ς s m που ε χει συσχετιστει με την ε ννοια c l. Στη συνε χεια, η τιμη του κριτηρι ου της εμπιστοσυ νης, που συμβολι ζεται με conf γ (c k, c l ), για την χωρικη σχε ση r γ και το ζευ γος εννοιω ν (c k, c l ) υπολογι ζεται ως εξη ς: conf γ (c k, c l ) = Rc k,c l γ R,c l γ, ο που το συ μβολο. υποδηλω νει το πλη θος των στοιχει ων ενο ς συνο λου. Απο την α λλη μερια, η αντι στοιχη τιμη του κριτηρι ου της στη ριξης (sup γ (c k, c l )) υπολογι ζεται συ μφωνα με την ακο λουθη παρα σταση: sup γ (c k, c l ) = Rc k,c l γ R c k γ. Ο χωρικο ς περιορισμο ς T γ (c k, c l ) θεωρει ται ε γκυρος, δηλαδη η ποσο τητα T γ (c k, c l ) ισου ται με 1, εα ν conf γ (c k, c l ) > th conf και sup γ (c k, c l ) > th sup διαφορετικα, η ποσο τητα T γ (c k, c l ) ορι ζεται ι ση με 0. Οι τιμε ς των κατωφλι ων th conf και th sup προσδιορι ζονται μετα απο μι α διαδικασι α βελτιστοποι ησης, ο που ε να συ νολο εικο νων D 2 tr χρησιμευ ει ως συ νολο επικυ ρωσης (validation set). Το συ νολο D 2 tr σχηματι ζεται παρο μοια με το D 1 tr, ο πως ε χει περιγραφει στην ενο τητα Προκειμε νου να αναπαρασταθει το προ βλημα ενδιαφε ροντος, δηλαδη η αξιοποι ηση της χωρικη ς πληροφορι ας πλαισι ου, ως προ γραμμα δυαδικω ν ακεραι ων, χρεια ζεται να οριστει ε να συ νολο γραμμικω ν περιορισμω ν για κα θε χωρικη σχε ση [83]. Συγκεκριμε να, ε στω ο τι O n ει ναι το συ νολο ο λων των εξερχο μενων σχε σεων για την περιοχη s n, δηλαδη O n = {r γ (s n, s m ), m n}, και E n ει ναι το αντι στοιχο συ νολο των εισερχο μενων σχε σεων, δηλαδη E n = {r γ (s m, s n ), m n}. Κατο πιν, για κα θε υποστηριζο μενη χωρικη σχε ση r γ ορι ζεται μι α αντι στοιχη δυαδικη ακε ραια μεταβλητη b kl nγm, η οποι α αναπαριστα τις συσχετι σεις μεταξυ περιοχω ν και εννοιω ν g nk, g ml αναφορικα με τη σχε ση r γ (s n, s m ). Η συνθη κη b kl nγm ενω η συνθη κη b kl nγm = 1 δηλω νει ο τι οι αντιστοιχι σεις g nk, g ml ει ναι ε γκυρες, = 0 ο τι δεν ει ναι. Δεδομε νου ο τι κα θε δυαδικη μεταβλητη b kl nγm αναπαριστα τη συσχε τιση του ζευ γους εννοιω ν (c k, c l ) με το ζευ γος περιοχω ν (s n, s m ) αναφορικα με τη σχε ση r γ (s n, s m ), και μο νο μι α ε ννοια μπορει τελικα να αποδοθει σε κα θε περιοχη, αυτη η συνθη κη πρε πει να προστεθει ως ε να συ νολο γραμμικω ν περιορισμω ν: c k c l b kl nγm = 1, r γ (s n, s m ). Αυτοι οι περιορισμοι διασφαλι ζουν ο τι θα υπα ρχει μο νο ε να ζευγα ρι εννοιω ν που θα συσχετι ζεται με ε να ζευγα ρι περιοχω ν αναφορικα με κα θε 80

107 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων χωρικη σχε ση. Ωστο σο, οι προαναφερθε ντες περιορισμοι δεν εγγυω νται ο τι μια μοναδικη ε ννοια συνδε εται με κα θε περιοχη στην τελικη ερμηνει α της εικο νας, δεδομε νου ο τι ε να ζευγα ρι δυαδικω ν μεταβλητω ν για δυ ο χωρικε ς σχε σεις που περιλαμβα νουν την ι δια περιοχη θα μπορου σε να αντιστοιχι σει διαφορετικε ς ε ννοιες. Προκειμε νου να αποφευχθει αυτο το ενδεχο μενο, πρε πει να οριστου ν προ σθετοι περιορισμοι που να "συνδε ουν" τις δυαδικε ς μεταβλητε ς. Αυτο μπορει να επιτευχθει συνδε οντας ζευ γη απο σχε σεις. Για την περι πτωση των εξερχο μενων σχε σεων, αυτο γι νεται ως εξη ς: Μια σχε ση αναφορα ς r γ O n επιλε γεται αυθαι ρετα και εν συνεχει α ορι ζονται περιορισμοι που αφορου ν ο λες τις σχε σεις r ζ O n, ζ γ. Έστω r γ (s n, s m ) και r ζ (s n, s p ) οι δυ ο σχε σεις που προ κειται να συνδεθου ν. Κατο πιν, ορι ζονται οι ακο λουθοι περιορισμοι : c l b kl nγm c l b kl nζp = 0, c k. Το πρω το α θροισμα λαμβα νει την τιμη 1 εα ν η ε ννοια c k ανατι θεται στην περιοχη s n αναφορικα με τη σχε ση r γ. Το δευ τερο α θροισμα πρε πει να λα βει την ι δια τιμη, δεδομε νου ο τι αμφο τερα τα αθροι σματα αφαιρου νται και ολο κληρη η παρα σταση πρε πει να ισου ται με 0. Ως εκ του του, εα ν μι α απο τις σχε σεις αναθε τει την ε ννοια c k στην περιοχη s n, η α λλη πρε πει να κα νει το ι διο. Ακολουθω ντας την ι δια προσε γγιση, οι εισερχο μενες σχε σεις, καθω ς και οι εισερχο μενες με τις εξερχο μενες, μπορου ν επι σης να συνδεθου ν. Τελικα, ορι ζεται μια αντικειμενικη συνα ρτηση (objective function), η οποι α υποδηλω νει την αληθοφα νεια της κα θε τυχου σας ερμηνει ας της εικο νας: F = r γ (s n,s m ) min(h nk, h ml ) r γ (s n, s m ) T γ (c k, c l ) b kl nγm (4.8) c k c l Η συνα ρτηση αυτη επιβραβευ ει αναθε σεις εννοιω ν που ικανοποιου ν την αποκτηθει σα χωρικη πληροφορι α πλαισι ου και εμφανι ζουν υψηλε ς τιμε ς της αρχικη ς ανα λυσης (δηλαδη των εκ των υστε ρων πιθανοτη των h nk και h ml ). Η λυ ση με την υψηλο τερη τιμη της αντικειμενικη ς συνα ρτησης αντιστοιχει στο αποτε λεσμα της ο λης προσε γγισης. Λεπτομερη ς περιγραφη της μεθο δου αυτη ς μπορει να βρεθει στην εργασι α [113]. 81

108 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Τεχνική EBM Τα EBMs ει ναι δομημε να μοντε λα προ βλεψης (structured prediction models) που ενσωματω νουν τις εξαρτη σεις μεταξυ των τυχαι ων μεταβλητω ν που περιλαμβα νουν, ενω μπορου ν να υπολογι σουν μι α συνολικη τιμη ενε ργειας για κα θε πιθανο συνδυασμο των τιμω ν των τυχαι ων μεταβλητω ν τους [75]. Τα μοντε λα EBMs ορι ζονται κατα τε τοιο τρο πο ω στε πιο ευ λογα συ νολα τιμω ν για τις τυχαι ες μεταβλητε ς τους να οδηγου ν σε χαμηλο τερα επι πεδα ενε ργειας. Ο συμπερασμο ς (inference) στοχευ ει στην εκτι μηση των τιμω ν των οριζο μενων τυχαι ων μεταβλητω ν που ελαχιστοποιου ν τη συνολικη ενε ργεια του μοντε λου. Τα EBMs ει ναι επωφελη σε σχε ση με α λλα μη-προσανατολισμε να μοντε λα γρα φων (undirected graphical models) που χρησιμοποιου νται ευρε ως, ο πως τα τυχαι α πεδι α Markov (Markov Random Fields - MRFs). Αυτο οφει λεται κυρι ως στο γεγονο ς ο τι επιτρε πουν την χαλα ρωση των αυστηρω ν πιθανοτικω ν υποθε σεων και την αποφυγη δυσεπι λυτων συναρτη σεων διαμελισμου (partition functions), οι οποι ες συχνα συναντω νται στα πεδι α MRFs [7]. Στο παρο ν πλαι σιο ανα λυσης, περιλαμβα νεται μια βελτιωμε νη ε κδοση της προσε γγισης που προτει νεται στην εργασι α [39], η οποι α τω ρα χρησιμοποιει και πληροφορι α σχετικα με την χωρικη δια ταξη των περιοχω ν της εικο νας. Το ανεπτυγμε νο μοντε λο ΕΒΜ ανα γει το προ βλημα της σημασιολογικη ς επιση μανσης (region labeling) των περιοχω ν σε αυτο της ελαχιστοποι ησης μιας συνα ρτησης ενε ργειας, η οποι α λαμβα νει υπο ψη οπτικη, χωρικη και πληροφορι α συν-εμφα νισης εννοιω ν. Συγκεκριμε να, το μοντε λο EBM αναπαριστα ται με ε να γρα φο, ο που κα θε κο μβος αντιστοιχει σε μια περιοχη s n της προς εξε ταση εικο νας. Εξαρτη σεις μεταξυ των περιοχω ν συμβολι ζονται με ακμε ς. Συ μφωνα με την προτεινο μενη προσε γγιση, ο λες οι πιθανε ς συνδε σεις μεταξυ των κο μβων του μοντε λου λαμβα νονται υπο ψη και η γενικη δομη του απεικονι ζεται στο σχη μα 4.5. Κα θε κο μβος αναθε τει μι α απο τις υποστηριζο μενες ε ννοιες c k σε κα θε περιοχη s n η ανα θεση αυτη συμβολι ζεται με g nk, ο πως ε χει περιγραφει στην ενο τητα Επιπλε ον, η συνα ρτηση ενε ργειας του μοντε λου EBM για μια δοθει σα εικο να ορι ζεται συ μφωνα με 82

109 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων τις ακο λουθες σχε σεις: E = ( n t 1 (g nk ) + t 2 (g nk, g ml )) n,m t 1 (g nk ) = β h nk + δ freq(c k ) t 2 (g nk, g ml ) = µ freq(c k, c l ) h ml + ν ϕ(g nk, g ml ) (4.9) Ο ο ρος t 1 (g nk ) στις παραπα νω σχε σεις δηλω νει το βαθμο με τον οποι ο η περιοχη s n συσχετι ζεται με την ε ννοια c k, λαμβα νοντας υπο ψη την οπτικη πληροφορι α (εκ των υστε ρων πιθανο τητα h nk που ε χει οριστει στην ενο τητα 4.2.1), καθω ς και την εκ των προτε ρων πιθανο τητα εμφα νισης της ε ννοιας c k, freq(c k ). Η τελευται α αυτη πιθανο τητα ορι ζεται ως το ποσοστο (σχετικη συχνο τητα) των συνολικω ν περιοχω ν s n που υπα ρχουν στις εικο νες του συνο λου D 1 tr (ενο τητα 4.2.2) και αποτελου ν δει γμα της ε ννοιας c k. Οι παρα μετροι β και δ ρυθμι ζουν το βαθμο στον οποι ο οι ποσο τητες h nk και freq(c k ) θα πρε πει να επηρεα ζουν την τιμη του ο ρου t 1 (g nk ), αντιστοι χως. Απο την α λλη μερια, ο ο ρος t 2 (g nk, g ml ) υποδηλω νει τη συνε πεια των αντιστοιχι σεων εννοιω ν με περιοχε ς g nk, g ml, με βα ση την χωρικη (ϕ(g nk, g ml )) και την πληροφορι α συν-εμφα νισης των εννοιω ν (freq(c k, c l )). Η ποσο τητα freq(c k, c l ) ορι ζεται ι ση με το ποσοστο (σχετικη συχνο τητα) των ζευγω ν περιοχω ν (s n, s m ) που ε χουν συσχετιστει χειροκι νητα με τις ε ννοιες (c k, c l ) στις εικο νες του συνο λου D 1 tr. Επιπλε ον, ο παρα γοντας ϕ(g nk, g ml ) υπολογι ζεται χρησιμοποιω ντας μια παρα σταση που στηρι ζεται σε μια κανονικοποιημε νη Ευκλει δεια απο σταση: ϕ(g nk, g ml ) = 1 rkl r n,m Γ, ο που το συ μβολο. δηλω νει το με τρο ενο ς διανυ σματος και το δια νυσμα με σων r kl, το οποι ο υποδηλω νει τον χωρικο περιορισμο για το ζευ γος εννοιω ν (c k, c l ), υπολογι ζεται συ μφωνα με τη σχε ση (4.6). Η βαρυ τητα των παραγο ντων freq(c k, c l ) και ϕ(g nk, g ml ) στον υπολογισμο του ο ρου t 2 (g nk, g ml ) ρυθμι ζεται με σω των παραμε τρων µ και ν, αντιστοι χως. Πρε πει να σημειωθει ο τι για την επιλογη των βε λτιστων τιμω ν για τις παραμε τρους β, δ, µ και ν ακολουθει ται μια στρατηγικη αναζη τησης βασισμε νη στην χρη ση ενο ς πλε γματος (grid search), ο που το συ νολο εικο νων D 2 tr (ενο τητα 4.2.3) χρησιμοποιει ται ως συ νολο επικυ ρωσης. 83

110 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Σχη μα 4.5: Ανεπτυγμε νο μοντε λο EBM για την αξιοποι ηση της χωρικη ς πληροφορι ας πλαισι ου. Οι σκιασμε νοι κο μβοι υποδηλω νουν την ανα θεση εννοιω ν σε περιοχε ς χρησιμοποιω ντας αποκλειστικα οπτικη πληροφορι α, ενω οι μη-σκιασμε νοι κο μβοι αναπαριστου ν την ανα θεση εννοιω ν, αφου ε χει εκτελεστει η διαδικασι α συμπερασμου του μοντε λου EBM. Κατα το στα διο της εκτε λεσης, το μοντε λο EBM δε χεται ως ει σοδο τα αποτελε σματα της οπτικη ς ανα λυσης (δηλαδη τις εκ των υστε ρων πιθανο τητες h nk ), καθω ς και τις χωρικε ς σχε σεις r n,m που ε χουν υπολογισθει για κα θε δυνατο ζευ γος περιοχω ν (s n, s m ). Στη συνε χεια, αναθε τει μι α συγκεκριμε νη ε ννοια c k σε κα θε περιοχη s n, διασφαλι ζοντας ο τι η συνολικη τιμη της ενε ργειας E (σχε ση (4.9)) ελαχιστοποιει ται. Στην τρε χουσα υλοποι ηση, ο αλγο ριθμος των επαναλαμβανο μενων εξαρτημε νων μεθο δων (Iterated Conditioned Modes - ICM) [152], δηλαδη ε νας αλγο ριθμος που χρησιμοποιει ται ευρε ως σε συστη ματα που στηρι ζονται στην χρη ση μοντε λων EBMs, ε χει επιλεγει για την πραγματοποι ηση της διαδικασι ας συμπερασμου, δεδομε νου ο τι ε χει αποδειχθει πειραματικα ο τι υπερτερει ε ναντι α λλων επι σης ευρε ως χρησιμοποιου μενων μεθο δων, ο πως η προσομοιωμε νη ανο πτηση (simulated annealing) και η τομη γρα φων (graph cuts). 84

111 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Πι νακας 4.2: Συ νολα δεδομε νων που ε χουν χρησιμοποιηθει Συ νολο Πλη θος εικο νων δεδομε νων Dtr 1 Dtr 2 D te Υποστηριζο μενες ε ννοιες c 1 : sand c 2 : sea c 3 : boat D c 4 : vegetation c 5 : rock c 6 : person c 7 : sky c 1 : building c 2 : foliage c 3 : mountain D c 10 : snow c 4 : person c 5 : road c 6 : sailing-boat c 7 : sand c 8 : sea c 9 : sky c 1 : building c 2 : roof c 3 : grass c 4 : vegetation c 5 : dried-plant c 6 : ground D c 7 : person c 8 : sky c 9 : rock c 10 : tree c 11 : trunk c 12 : sand c 13 : sea c 14 : road c 15 : court c 16 : gradin c 17 : board c 1 : building c 2 : grass c 3 : tree c 4 : cow c 5 : sheep c 6 : sky c 7 : aeroplane c 8 : water c 9 : face D c 10 : car c 11 : bicycle c 12 : lower c 13 : sign c 14 : bird c 15 : book c 16 : chair c 17 : road c 18 : cat c 19 : dog c 20 : body c 21 : boat Πειραματική αξιολόγηση Σύνολα δεδομένων Στο ανεπτυγμε νο πλαι σιο αξιολο γησης χρησιμοποιου νται τε σσερα συ νολα δεδομε νων (datasets) διαφορετικη ς πολυπλοκο τητας που συμβολι ζονται με D 1 -D 4. Κα θε συ νολο δεδομε νων διαιρει ται σε τρι α υπο -συ νολα, η τοι τα Dtr, 1 Dtr 2 και D te. Το πρω το συ νολο, Dtr, 1 χρησιμοποιει ται απο τους αλγο ριθμους ταξινο μησης για εκπαι δευση και τις τεχνικε ς αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου για την απο κτηση των χωρικω ν περιορισμω ν μεταξυ των σημασιολογικω ν εννοιω ν. Το συ νολο Dtr 2 χρησιμοποιει ται για τη βελτιστοποι ηση των παραμε τρων των τεχνικω ν αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου, ενω το D te αξιοποιει ται για την αξιολο γηση των τεχνικω ν. Τα επιλεγμε να συ νολα δεδομε νων ει ναι τα εξη ς: 85

112 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων i) Το συ νολο D 1 αποτελει ται απο 535 εικο νες που απεικονι ζουν μο νο παρα κτιες σκηνε ς. Για αυτο ε χει οριστει ε να κατα λληλο συ νολο 7 εννοιω ν c k, οι οποι ες αντιστοιχου ν σε αντικει μενα του πραγματικου κο σμου που μπορου ν να βρεθου ν στις εικο νες του συνο λου δεδομε νων που ε χει σχηματιστει. Επιπλε ον, κα θε εικο να ε χει σχολιαστει χειροκι νητα, δηλαδη μετα την εφαρμογη του αλγορι θμου κατα τμησης που ε χει περιγραφει στην ενο τητα 4.2.1, μια μοναδικη ε ννοια ε χει αντιστοιχηθει σε κα θε προκυ πτουσα περιοχη της εικο νας. ii) Το συ νολο δεδομε νων SCEF³, το οποι ο συμβολι ζεται με D 2 και ε χει παρουσιαστει στην εργασι α [102] το D 2 (10 ε ννοιες) αποτελει ε να πιο ευρυ συ νολο δεδομε νων απο το D 1, συμπεριλαμβα νοντας εικο νες που ανη κουν σε διαφορετικε ς σημασιολογικε ς κατηγορι ες. iii) To D 3 αποτελει ται απο 648 εικο νες που ανη κουν στην κατηγορι α της προσωπικη ς συλλογη ς φωτογραφιω ν. Ένα κατα λληλο συ νολο 17 εννοιω ν ε χει οριστει για αυτο και ε χει εκτελεστει χειροκι νητος σχολιασμο ς των εικο νων σε επι πεδο περιοχη ς. iv) Τε λος, χρησιμοποιη θηκε επι σης το συ νολο δεδομε νων MSRC⁴ v2. Για αυτο το συ νολο (D 4 ) υποστηρι ζονται 21 σημασιολογικε ς ε ννοιες. Πρε πει να σημειωθει ο τι για το D 4 η ταν αρχικα διαθε σιμος χειροποι ητος (hand-made) σχολιασμο ς των εικο νων σε επι πεδο περιοχω ν, δηλαδη ο αριθμο ς και τα συ νορα των περιοχω ν της εικο νας ει χαν επι σης προσδιοριστει χειροκι νητα. Προκειμε νου να παραχθει σχολιασμο ς αναφορα ς (ground-truth annotation) των εικο νων μετα την εφαρμογη ενο ς αλγορι θμου αυτο ματης κατα τμησης, ακολουθη θηκε μια διαδικασι α παρο μοια με την προσε γγιση " igure-ground segmentation" που ε χει προταθει στην εργασι α [47]. Συγκεκριμε να, σε κα θε εικο να εφαρμο στηκε αρχικα ο αλγο ριθμος κατα τμησης του [88]. Στη συνε χεια, σε κα θε περιοχη της εικο νας s n που δημιουργη θηκε ανατε θηκε μι α απο τις υποστηριζο μενες ε ννοιες c k, εα ν το ποσοστο (%) της επιφα νεια ς της ³http://mklab.iti.gr/project/scef ⁴http://research.microsoft.com/en-us/projects/objectclassrecognition/ 86

113 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων (α) Dataset D1 c1 c2 c3 c4 c5 c6 c7 c1 c2 c3 c4 c5 c6 c7 12% 10% 8% 6% 4% 2% 0% (β) c2 c4 c6 c8 c10 Dataset D2 c2 c4 c6 c8 c10 15% 10% 5% 0% Dataset D3 Dataset D4 12% c4 10% c4 3% (γ) c8 c12 c16 c4 c8 c12 c16 8% 6% 4% 2% 0% (δ) c8 c12 c16 c20 c4 c8 c12 c16 c20 2% 1% 0% Σχη μα 4.6: Συχνο τητα συν-εμφα νισης σημασιολογικω ν εννοιω ν στα συ νολα δεδομε νων (α) D 1, (β) D 2, (γ) D 3 και (δ) D 4 που αντιστοιχει στην ε ννοια c k υπερβαι νει ε να προκαθορισμε νο κατω φλι, με βα ση τον παρεχο μενο χειροποι ητο σχολιασμο της εικο νας διαφορετικα, η περιοχη s n θεωρη θηκε μι α "α γνωστη" περιοχη. Η τιμη του εν λο γω ορι ου προσδιορι στηκε πειραματικα ι ση με 66%, ενω η αντι στοιχη τιμη στην εργασι α [47] η ταν 50%. Η διαι ρεση του κα θε χρησιμοποιου μενου συνο λου δεδομε νων στα υπο -συ νολα εικο νων Dtr, 1 Dtr 2 και D te, καθω ς και οι υποστηριζο μενες ε ννοιες για κα θε συ νολο δεδομε νων, απεικονι ζονται στον πι νακα 4.2. Προκειμε νου να εξεταστει ο τρο πος με τον οποι ο οι υποστηριζο μενες ε ννοιες κατανε μονται μεταξυ των εικο νων του κα θε συνο λου δεδομε νων, υπολογι ζεται η συχνο τητα συν-εμφα νιση ς τους freq(c k, c l ) (ενο τητα 4.2.3), λαμβα νοντας υπο ψη αυτη τη φορα ο λες τις εικο νες του αντι στοιχου συνο λου δεδομε νων. Οι τιμε ς που ε χουν υπολογιστει απεικονι ζονται στο σχη μα 4.6. Όπως μπορει να φανει απο αυτο το σχη μα, τα περισσο τερα ζευγα ρια εννοιω ν στο D 1 εμφανι ζουν σχετικα υψηλη συχνο τητα συν-εμφα νισης. Αυτο οφει λεται στο γεγονο ς ο τι οι εικο νες του D 1 απεικονι ζουν μο νο 87

114 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων παρα κτιες σκηνε ς. Απο την α λλη μερια, πολλε ς τιμε ς της συχνο τητας freq(c k, c l ) ει ναι κοντα η ι σες με μηδε ν στο D 2. Αυτο προκαλει ται απο το γεγονο ς ο τι οι εικο νες του D 2 ανη κουν σε διαφορετικε ς σημασιολογικε ς κατηγορι ες ως εκ του του, ορισμε να ζευγα ρια εννοιω ν ει ναι πιθανο ν να μη συνυπα ρχουν. Επιπλε ον, μπορει να διαπιστωθει ο τι οι πι νακες συχνοτη των συν-εμφα νισης του σχη ματος 4.6 καθι στανται πιο αραιοι για τα συ νολα D 3 και D 4, ως αποτε λεσμα της αυ ξησης του αριθμου των εννοιω ν που υποστηρι ζονται σε καθε να απο αυτα. Ειδικα για το συ νολο D 4, οι συχνο τητες συν-εμφα νισης των εννοιω ν ει ναι ιδιαι τερα χαμηλε ς (και πολλε ς απο αυτε ς ει ναι ι σες με μηδε ν). Αυτο οφει λεται κυρι ως στο ο τι κα θε εικο να του D 4 απεικονι ζει πολυ λι γα διαφορετικα ει δη αντικειμε νων (συνη θως ο χι περισσο τερα απο δυ ο η τρι α), και μο νο συγκεκριμε να ζευ γη εννοιω ν συνη θως συνυπα ρχουν. Ένα ακο μα σημαντικο χαρακτηριστικο που διαφοροποιει το D 4 απο τα υπο λοιπα αφορα το πλη θος των περιοχω ν που υπα ρχουν στην εικο να και δεν αντιστοιχου ν σε καμι α απο τις οριζο μενες ε ννοιες, δηλαδη οι περιοχε ς της εικο νας που ε χουν θεωρηθει ως "α γνωστες" παραπα νω. Το ποσοστο αυτω ν των περιοχω ν ως προς το συνολικο αριθμο των περιοχω ν του D 4 ει ναι περι που ι σο με 40%, ενω για τα συ νολα D 1 -D 3 το αντι στοιχο ποσοστο ει ναι χαμηλο τερο απο 10%. Αυτο προκαλει ται απο το σημαντικα μεγα λο αριθμο των εικονοστοιχει ων που ε χουν προσδιοριστει χειροκι νητα ως "α κυρα" (void), κατα τον αρχικο χειροποι ητο σχολιασμο των εικο νων του D 4. Ανάλυση συνολικών αποτελεσμάτων ανίχνευσης εννοιών Στον πι νακα 4.3 παρουσια ζονται ποσοτικε ς μετρη σεις της απο δοσης απο την εφαρμογη των τεχνικω ν αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου, ο σον αφορα τη συνολικη ακρι βεια (accuracy) ταξινο μησης των εννοιω ν για ο λους τους δυνατου ς συνδυασμου ς χαρακτηριστικω ν χαμηλου επιπε δου και αλγορι θμων ταξινο μησης για ο λα τα συ νολα δεδομε νων που χρησιμοποιου νται. Επιπρο σθετα, δι δεται επι σης η διαφορα στην ακρι βεια ταξινο μησης, η οποι α υπολογι ζεται αφαιρω ντας την ακρι βεια ανι χνευσης που ε χει επιτευχθει με χρη ση μο νο οπτικω ν χαρακτηριστικω ν απο την αντι στοιχη τιμη 88

115 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων που αποκτα ται μετα την αξιοποι ηση της χωρικη ς πληροφορι ας. Αυτη η διαφορα στην ακρι βεια απεικονι ζεται με σα σε παρενθε σεις. Η ακρι βεια ανι χνευσης ορι ζεται ως το ποσοστο των περιοχω ν που συσχετι ζονται με τη σωστη σημασιολογικη ε ννοια. Στα σχη ματα απεικονι ζονται τα αντι στοιχα λεπτομερη αποτελε σματα ανι χνευσης για κα θε ε ννοια. Θα πρε πει να σημειωθει ο τι για κα θε περιοχη s n, το ο ρισμα της παρα στασης argmax k (h nk ) θεωρει ται ο τι υποδηλω νει την ε ννοια που της ε χει εκχωρηθει με χρη ση μο νο οπτικω ν χαρακτηριστικω ν. Απο τα αποτελε σματα που παρουσια ζονται στον πι νακα 4.3, μπορει να διαπιστωθει ο τι η εφαρμογη ο λων των τεχνικω ν αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου οδηγει σε μι α σημαντικη βελτι ωση της συνολικη ς ακρι βειας ταξινο μησης των εννοιω ν για τους περισσο τερους συνδυασμου ς χαρακτηριστικω ν-ταξινομητω ν σε ο λα τα συ νολα δεδομε νων. Η υψηλο τερη βελτι ωση στην απο δοση επιτυγχα νεται απο την προσε γγιση BIP για το συνδυασμο SIFT-SVM στο συ νολο D 3, ο που παρατηρει ται μι α αυ ξηση της τα ξης του 9.25%, ενω η υψηλο τερη απο δοση σε απο λυτες τιμε ς επιτυγχα νεται απο το συνδυασμο των χαρακτηριστικω ν SIFT, του ταξινομητη RF και της μεθο δου GA για ο λα τα συ νολα δεδομε νων. Τα παραπα νω αποτελε σματα καταδεικνυ ουν την αποτελεσματικο τητα της αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου για τη βελτι ωση των αποτελεσμα των αντιστοι χησης εννοιω ν σε περιοχε ς που ε χουν προκυ ψει με χρη ση μο νο οπτικη ς πληροφορι ας. Μια ακο μα σημαντικη παρατη ρηση αφορα τη βελτι ωση στην απο δοση που εισα γουν οι τεχνικε ς αξιοποι ησης της χωρικη ς πληροφορι ας σε σχε ση με τα αρχικα αποτελε σματα της ταξινο μησης εννοιω ν. Συγκεκριμε να, για ε να δεδομε νο ταξινομητη σε ε να συγκεκριμε νο συ νολο δεδομε νων, τα χαρακτηριστικα χαμηλου επιπε δου που οδηγου ν σε υψηλο τερη αρχικη απο δοση ταξινο μησης επι σης οδηγου ν και σε μεγαλυ τερη βελτι ωση της απο δοσης. Η υψηλο τερη διαφορα τε τοιου ει δους παρατηρει ται για την τεχνικη GA στο D 2, ο που για το συνδυασμο MPEG-7-RF η συνολικη βελτι ωση της απο δοσης που επιτυγχα νεται ει ναι 4.02%, ενω για το συνδυασμο SIFT-RF η αντι στοιχη βελτι ωση ισου ται με 7.74%. 89

116 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Πι νακας 4.3: Συνολικη ακρι βεια ταξινο μησης εννοιω ν Συ νολο δεδομε νων D 1 Συ νολο δεδομε νων D 2 Χαρακτηριστικα Ταξινομητη ς Τεχνικη Ταξινομητη ς Τεχνικη GA: 79.25% (7.71%) GA: 63.68% (6.48%) SVM: 71.54% BIP: 76.85% (5.31%) SVM: 57.20% BIP: 59.39% (2.19%) EBM: 73.48% (1.94%) EBM: 58.58% (1.38%) GA: 76.03% (3.52%) GA: 63.38% (4.02%) MPEG-7 RF: 72.51% BIP: 73.78% (1.27%) RF: 59.36% BIP: 59.29% (-0.07%) EBM: 73.56% (1.05%) EBM: 60.51% (1.15%) GA: 75.43% (3.89%) GA: 62.33% (4.32%) LB: 71.54% BIP: 72.88% (1.34%) LB: 58.01% BIP: 59.76% (1.75%) EBM: 72.66% (1.12%) EBM: 59.32% (1.31%) GA: 83.00% (6.60%) GA: 70.74% (7.94%) SVM: 76.40% BIP: 80.00% (3.60%) SVM: 62.80% BIP: 65.78% (2.98%) EBM: 77.83% (1.43%) EBM: 65.57% (2.77%) GA: 83.15% (2.55%) GA: 74.49% (7.73%) SIFT RF: 80.60% BIP: 81.12% (0.52%) RF: 66.76% BIP: 70.07% (3.31%) EBM: 81.05% (0.45%) EBM: 69.66% (2.90%) GA: 82.55% (4.42%) GA: 73.58% (7.63%) LB: 78.13% BIP: 80.15% (2.02%) LB: 65.95% BIP: 67.74% (1.79%) EBM: 79.48% (1.35%) EBM: 68.28% (2.33%) Συ νολο δεδομε νων D 3 Συ νολο δεδομε νων D 4 Χαρακτηριστικα Ταξινομητη ς Τεχνικη Ταξινομητη ς Τεχνικη GA: 55.91% (5.10%) GA: 47.88% (5.89%) SVM: 50.81% BIP: 53.39% (2.58%) SVM: 41.99% BIP: 41.31% (-0.68%) EBM: 51.94% (1.13%) EBM: 43.24% (1.25%) GA: 54.78% (5.00%) GA: 45.37% (5.51%) MPEG-7 RF: 49.78% BIP: 49.57% (-0.21%) RF: 39.86% BIP: 37.64% (-2.22%) EBM: 51.34% (1.56%) EBM: 43.44% (3.58%) GA: 52.37% (4.84%) GA: 41.41% (5.50%) LB: 47.53% BIP: 50.11% (2.58%) LB: 35.91% BIP: 34.07% (-1.84%) EBM: 50.38% (2.85%) EBM: 38.13% (2.22%) GA: 64.89% (7.58%) GA: 47.78% (5.21%) SVM: 57.31% BIP: 66.56% (9.25%) SVM: 42.57% BIP: 45.46% (2.89%) EBM: 58.76% (1.45%) EBM: 44.31% (1.74%) GA: 67.53% (8.50%) GA: 48.46% (5.41%) SIFT RF: 59.03% BIP: 60.97% (1.94%) RF: 43.05% BIP: 46.72% (3.67%) EBM: 61.18% (2.15%) EBM: 47.01% (3.96%) GA: 64.89% (7.79%) GA: 42.18% (5.60%) LB: 57.10% BIP: 61.24% (4.14%) LB: 36.58% BIP: 33.98% (-2.60%) EBM: 60.54% (3.44%) EBM: 38.51% (1.93%) 90

117 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων Εξετα ζοντας την παραπα νω παρατη ρηση σε συνδυασμο με τα αποτελε σματα συσχε τισης εννοιω ν με περιοχε ς που απεικονι ζονται στα σχη ματα , μπορει να φανει ο τι η προαναφερθει σα διαφορα στην απο δοση παρουσια ζεται ο ταν τα αρχικα αποτελε σματα ταξινο μησης ει ναι καλα για τις περισσο τερες απο τις υποστηριζο μενες ε ννοιες σε κα θε συ νολο δεδομε νων και ο χι μο νο για ε να σχετικα μικρο υποσυ νολο απο αυτε ς. Η μο νη εξαι ρεση σε αυτη την παρατη ρηση ει ναι ορατη στο συ νολο D 1, ο που παρα τη σημαντικη διαφορα στην απο δοση μεταξυ της ταξινο μησης που βασι ζεται σε χαρακτηριστικα MPEG-7 και της ταξινο μησης που στηρι ζεται σε χαρακτηριστικα SIFT, δεν παρατηρει ται αντι στοιχη αυ ξηση στη βελτι ωση της απο δοσης που εισα γουν οι τεχνικε ς αξιοποι ησης της χωρικη ς πληροφορι ας. Για παρα δειγμα, για το συνδυασμο SIFT-RF, ο που η αρχικη ακρι βεια ταξινο μησης ει ναι ι ση με 80.60%, η αντι στοιχη βελτι ωση στην απο δοση που επιτυγχα νεται απο τις τεχνικε ς GA, BIP και EBM ει ναι 2.55%, 0.52% και 0.45%, αντι στοιχα (δηλαδη χαμηλο τερες απο τις αντι στοιχες βελτιω σεις που επιτευ χθηκαν για το συνδυασμο MPEG-7-RF). Αυτο υποδεικνυ ει ο τι ο ταν η αρχικη ακρι βεια ταξινο μησης υπερβαι νει ε να α νω ο ριο, το οποι ο φαι νεται απο τα διεξαγο μενα πειρα ματα να ει ναι κοντα στην τιμη 80% για το D 1, το τε η αποτελεσματικο τητα των τεχνικω ν αξιοποι ησης της χωρικη ς πληροφορι ας στο να εισα γουν περαιτε ρω βελτι ωση της ακρι βειας ταξινο μησης ει ναι μειωμε νη. Απο την α λλη μερια, ο ταν δεν υπερβαι νεται αυτο το α νω ο ριο, μπορει να διαπιστωθει ο τι η υψηλο τερη αρχικη απο δοση ταξινο μησης (που λαμβα νεται για οποιοδη ποτε πιθανο συνδυασμο χαρακτηριστικω ν-ταξινομητη ) οδηγει επι σης την κα θε τεχνικη αξιοποι ησης της χωρικη ς πληροφορι ας στη με γιστη παρατηρου μενη απο δοση της σε ο λα τα συ νολα δεδομε νων η μο νη εξαι ρεση ει ναι η προσε γγιση BIP στο συ νολο D 3. Συγκρι νοντας τις αποδο σεις των τεχνικω ν αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ου ανα μεσα στα χρησιμοποιου μενα συ νολα δεδομε νων, αποδεικνυ εται ο τι η συνολικη βελτι ωση στην ανι χνευση των εννοιω ν που επιτυγχα νουν σε σχε ση με τα αρχικα αποτελε σματα ταξινο μησης τει νει να αυξα νεται ο ταν το αντι στοιχο πλη θος των υποστηριζο μενων εννοιω ν μειω νεται. Ειδικο τερα, μπορει να φανει απο τον πι νακα

118 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων ο τι για τις περισσο τερες περιπτω σεις η βελτι ωση στην απο δοση αυξα νεται εα ν ληφθου ν υπο ψη μι α συγκεκριμε νη τεχνικη και ε νας δεδομε νος συνδυασμο ς χαρακτηριστικω ν- ταξινομητη, κατα τη μετακι νηση απο το συ νολο δεδομε νων D 4 στο D 1. Πιο συγκεκριμε να, περι που στο 33% των προαναφερθε ντων περιπτω σεων παρατηρει ται μια αυ ξηση μεγαλυ τερη του 1% στη συνολικη βελτι ωση της απο δοσης, ενω το αντι στοιχο ποσοστο των περιπτω σεων ο που καταγρα φεται μει ωση υψηλο τερη απο 1% ει ναι μο νο 15%. Θα πρε πει να σημειωθει ο τι τα αποτελε σματα ταξινο μησης βασισμε να στα χαρακτηριστικα SIFT του συνο λου D 1, ο που ε χει επιτευχθει το α νω ο ριο στην αρχικη απο δοση ταξινο μησης (ο πως αναφε ρθηκε παραπα νω), δεν ε χουν ληφθει υπο ψη κατα τον υπολογισμο των προαναφερθε ντων ποσοστω ν. Αυτη η αυ ξηση στη βελτι ωση της απο δοσης που εισα γει η χρη ση της χωρικη ς πληροφορι ας οφει λεται κυρι ως στους ακο λουθους λο γους: α) Θεωρω ντας τα συ νολα δεδομε νων απο το D 4 προς το D 1, ο αριθμο ς των εννοιω ν μειω νεται, γεγονο ς το οποι ο οδηγει σε αντι στοιχη μει ωση της πολυπλοκο τητας του προβλη ματος. Κατα συνε πεια, οι επιλεγμε νες τεχνικε ς αξιοποι ησης της χωρικη ς πληροφορι ας καθι στανται λιγο τερο πιθανο να κατευθυνθου ν λανθασμε να κατα την αναζη τηση της βε λτιστη ερμηνει ας της εικο νας, παρα γοντας που με τη σειρα του διευκολυ νει τις τεχνικε ς στο να διακρι νουν αποτελεσματικα τις οριζο μενες ε ννοιες. β) Αυ ξηση του συνολικου αριθμου των υποστηριζο μενων εννοιω ν καθιστα πιο πιθανο πολλα διαφορετικα ζευ γη εννοιω ν να παρουσια σουν παρο μοιες χωρικε ς διατα ξεις (π.χ., τα ζευ γη εννοιω ν road-building και sand-sea στο D 2 μοιρα ζονται πολυ παρο μοιες χωρικε ς διευθετη σεις, καθω ς η πρω τη ε ννοια συνη θως αντιστοιχει σε μια περιοχη της εικο νας που βρι σκεται κα τω απο μια α λλη περιοχη που αντιστοιχει στη δευ τερη ε ννοια σε κα θε επιμε ρους ζευ γος). Θα πρε πει να σημειωθει στο σημει ο αυτο ο τι η βελτι ωση στην απο δοση που επιτυγχα νεται απο κα θε τεχνικη για τα περισσο τερα ζευ γη χαρακτηριστικω ν- ταξινομητω ν ει ναι σημαντικα υψηλο τερη στο συ νολο D 3 απο την αντι στοιχη που επιτυγχα νεται στο D 4, παρο τι ο συνολικο ς αριθμο ς των υποστηριζο μενων εννοιω ν και 92

119 Κεφάλαιο 4. Αξιοποίηση χωρικής πληροφορίας πλαισίου για σημασιολογική ανάλυση εικόνων στα δυ ο συ νολα δεδομε νων ει ναι συγκρι σιμος (δηλαδη ορι ζονται 17 και 21 ε ννοιες στο D 3 και στο D 4, αντι στοιχα). Αυτο προκαλει ται κυρι ως απο τους ακο λουθους δυ ο παρα γοντες: α) Κα θε εικο να του συνο λου D 4 απεικονι ζει πολυ λι γα διαφορετικα ει δη αντικειμε νων και μο νο συγκεκριμε να ζευ γη εννοιω ν τει νουν να συνυπα ρχουν, ο πως συζητη θηκε στην ενο τητα Ως αποτε λεσμα, εα ν περιοχε ς συσχετισθου ν με μι α εσφαλμε νη ε ννοια με υψηλη εκ των υστε ρων πιθανο τητα h nk σε εικο νες του D 4, το τε ει ναι λιγο τερο πιθανο να αντιστοιχηθου ν τελικα με την ορθη ε ννοια με σω της αξιοποι ησης της χωρικη ς πληροφορι ας πλαισι ο