Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Τεχνολογία και Ανάλυση Εικόνων και Βίντεο Προχωρημένες Εργασίες Χειμερινό Εξάμηνο 2007-2008 1. Εισαγωγή Σε σχέση με τις εργαστηριακές ασκήσεις του μαθήματος που εξετάζουν ένα σύνολο από τεχνικές ανάλυσης/επεξεργασίας εικόνας και βίντεο, οι προχωρημένες εργασίες που ακολουθούν έχουν στόχο την ενασχόληση με ένα συγκεκριμένο αντικείμενο και τη μελέτη του σε μεγαλύτερο βάθος. Οι φοιτητές που θα επιλέξουν μία από τις προχωρημένες εργασίες μπορούν και πάλι να παρακολουθήσουν ή να πραγματοποιήσουν τις εργαστηριακές ασκήσεις αλλά σε καμία περίπτωση δε θα απαιτηθεί παρουσία σε αυτές, προφορική εξέταση ή παράδοση αναφοράς. Προτείνονται τρία διαφορετικά αντικείμενα που πολλές φορές αποτελούν τρία συνεχόμενα στάδια ανάλυσης ενός συστήματος: ανίχνευση αλλαγής πλάνων σε βίντεο, εξαγωγή χαρακτηριστικών καρέ από κάθε πλάνο, και αναζήτηση εικόνας με βάση το περιεχόμενο. Σε κάθε αντικείμενο, μετά από μία σύντομη παρουσίαση του γενικού προβλήματος, προτείνεται ένας αριθμός από διαφορετικές τεχνικές, μία από τις οποίες μπορεί να επιλεγεί σαν εργασία. Στη βιβλιογραφία δίνονται εργασίες που παρουσιάζουν συνολικά το κάθε αντικείμενο και τις συνηθισμένες τεχνικές που χρησιμοποιούνται, καθώς και πιο εξειδικευμένες που παρουσιάζουν την κάθε τεχνική σε μεγαλύτερη λεπτομέρεια ώστε να είναι δυνατή η υλοποίηση. Σε κάθε περίπτωση προτείνεται η επαρκής μελέτη της βιβλιογραφίας (και άλλων εργασιών αν χρειαστεί) για τη βαθύτερη κατανόηση του προβλήματος. Σε κάθε τεχνική δίνονται συγκεκριμένες οδηγίες για το τι να υλοποιηθεί και τι πειράματα να πραγματοποιηθούν. Είναι όμως γενική αρχή ότι θα πρέπει να πραγματοποιηθούν πειράματα για τη μελέτη της επίδρασης διαφόρων τιμών παραμέτρων των αλγορίθμων (όπως π.χ. μέγεθος block, τιμές κατωφλίων, πλήθος bins ιστογραμμάτων, μήκος διανυσμάτων κλπ.), και συγκρίσεις μεταξύ διαφορετικών παραλλαγών των τεχνικών. Τιμές παραμέτρων μπορούν σε κάποιες περιπτώσεις να υπολογίζονται και αυτόματα με βάση στατιστικές μετρήσεις στις εικόνες. Η υλοποίηση μπορεί να είναι σε Matlab ή οποιοδήποτε άλλο περιβάλλον, αλλά προτείνεται η Matlab. Οι αξιολογήσεις και οι συγκρίσεις σε κάποιες περιπτώσεις μπορούν να είναι ποιοτικές, όπως π.χ. στην εξαγωγή περίληψης όπου το «σωστό» αποτέλεσμα δεν είναι εκ των προτέρων γνωστό (γιατί είναι κυρίως υποκειμενικό), ενώ σε άλλες, όπως στην ανίχνευση αλλαγής πλάνων ή στην αναζήτηση, πρέπει να είναι και ποσοτικές. Στην περίπτωση αυτή απαιτείται, για το συγκεκριμένο σύνολο εικόνων ή ακολουθιών βίντεο που εξετάζονται, να είναι γνωστό και το σωστό αποτέλεσμα του αλγορίθμου. Οι μετρήσεις τότε πραγματοποιούνται με μετρικές που ορίζονται παρακάτω. Η αναφορά για την εργασία θα πρέπει παραδοθεί με την εξέταση του μαθήματος, να είναι σύντομη και να περιέχει μόνο όσα αποτελέσματα είναι χρήσιμα για εξαγωγή συμπερασμάτων. Ο κώδικας να περιέχεται σε παράρτημα με επαρκή σχόλια. 1
Θα βαθμολογηθούν: Η μελέτη και κατανόηση του προβλήματος Η ποιότητα της υλοποίησης Το πλήθος και η καταλληλότητα των πειραμάτων Η ποιότητα των αξιολογήσεων, συγκρίσεων και συμπερασμάτων Η ποιότητα της αναφοράς της εργασίας 2. Ανίχνευση αλλαγής πλάνων (shot boundary detection) Η ανάλυση μιας ακολουθίας βίντεο (video sequence) και η παραγωγή διανυσμάτων περιγραφής (feature vectors) για κάθε καρέ (frame) της ακολουθίας, είναι η απαραίτητη διαδικασία για την εξαγωγή περίληψης (video summarization), για την επισκόπηση (browsing), και την αναπαράσταση (representation) της ακολουθίας με σκοπό την αποτελεσματική ανάκληση με βάση το περιεχόμενο (content-based retrieval). Σχήμα 1: Ανίχνευση αλλαγής πλάνων. (a) ακολουθία βίντεο, (b) διάνυσμα χαρακτηριστικών, (c) μέτρο μεταβολής χαρακτηριστικών, (d) ανίχνευση ασυνέχειας. Tο πρώτο στάδιο στη διαδικασία αυτή είναι η ανίχνευση αλλαγής πλάνων (shot boundary detection). Ως πλάνο (shot) ορίζεται το τμήμα μιας ακολουθίας που αντιστοιχεί σε συνεχή λειτουργία μίας και μόνο κάμερας. Κάθε ακολουθία αποτελείται από ένα μεγάλο αριθμό πλάνων και το πρόβλημα είναι ο αυτόματος υπολογισμός των χρονικών στιγμών (δηλαδή των καρέ) αρχής και τέλους του κάθε πλάνου, με βάση το οπτικό περιεχόμενο της ακολουθίας. Σε γενικές γραμμές αυτό αντιμετωπίζεται με την εξαγωγή κάποιων χαρακτηριστικών από κάθε καρέ (ενδεχομένως σε σχέση με τα γειτονικά του) και στη συνέχεια με την ανίχνευση ασυνεχειών των χαρακτηριστικών αυτών (Σχήμα 1). Οι αλλαγές πλάνων είναι συνήθως απότομες (shot cuts) αλλά πολλές φορές μπορεί να είναι και βαθμιαίες ή συνεχείς (gradual shot transitions, π.χ. wipe ή dissolve). Στο πλαίσιο των εργασιών αυτών μελετούνται μόνο οι απότομες αλλαγές. Στη βιβλιογραφία έχουν προταθεί πολλοί αλγόριθμοι για αυτόματη ανίχνευση αλλαγής πλάνων [1][2][3][4]. Oι εργασίες που προτείνονται εδώ περιορίζονται στις απότομες αλλαγές πλάνων και έχουν στόχο τoν εντοπισμό με τρεις διαφορετικές μεθόδους, οι οποίες περιγράφονται περιληπτικά στη συνέχεια. Όλες περιέχονται στην αναφορά [3] σε ικανοποιητικό επίπεδο λεπτομέρειας ώστε να ξεκινήσει η υλοποίηση τους, όμως προτείνεται η περαιτέρω μελέτη των υπολοίπων αναφορών για τη βαθύτερη κατανόηση του προβλήματος. 2
Σε κάθε περίπτωση προτείνεται η μέτρηση της ακρίβειας του αντίστοιχου αλγορίθμου ως προς σωστές χρονικές στιγμές αλλαγής πλάνου σε μία ακολουθία βίντεο, που θα πρέπει να είναι εκ των προτέρων γνωστές. Για το σκοπό αυτό μπορούν να χρησιμοποιηθούν οι έννοιες της ακρίβειας και της ανάκλησης, όπως ορίζονται παρακάτω για το πρόβλημα της αναζήτησης. 2.1. Μεταβολή έντασης Ο πιο απλός τρόπος μέτρησης της ασυνέχειας μεταξύ δύο καρέ είναι ο υπολογισμός της μέσης απόλυτης διαφοράς (mean absolute difference) της έντασης μεταξύ των δύο καρέ και για όλα τα pixels των καρέ. Μία παραλλαγή αυτής της τεχνικής υπολογίζει μόνο τα pixels που μεταβάλλονται σημαντικά από το ένα καρέ στο άλλο. Στην περίπτωση αυτή, η διαφορά συγκρίνεται με ένα κατώφλι και υπολογίζεται μόνο εφόσον ξεπερνά το κατώφλι. Ένα σημαντικό πρόβλημα των δύο τεχνικών είναι η ευαισθησία των τιμών ασυνέχειας στην κίνηση της κάμερας ή των αντικειμένων. Για τη μείωση της επίδρασης της κίνησης, δύο άλλες παραλλαγές είναι η εφαρμογή ενός φίλτρου μέσου όρου 3 3 πριν τον υπολογισμό της διαφοράς, ή και ο υπολογισμός σε blocks αντί για pixels. Προκειμένου να επιτευχθεί μεγαλύτερη ανοχή σε φαινόμενα κίνησης αντικειμένων ή μεταβολών φωτεινότητας είναι καθοριστική η επιλογή του μεγέθους του block καθώς και η εφαρμογή των κατάλληλων κατωφλίων. Λεπτομέρειες υπάρχουν στις [2][3]. Προτείνεται η υλοποίηση όλων των παραπάνω τεχνικών, ο πειραματισμός με τις διάφορες τιμές παραμέτρων και κατωφλίων και η ποσοτική τους σύγκριση και αξιολόγηση. 2.2. Αντιστάθμιση κίνησης Ανεξαρτησία από τα προβλήματα της κίνησης μπορεί να επιτευχθεί με μεθόδους αντιστάθμισης κίνησης (motion compensation). Εδώ εφαρμόζεται μία διαδικασία ταιριάσματος block (block matching) κατά την οποία για κάθε block σε ένα καρέ αναζητείται ένα αντίστοιχο block σε ένα άλλο καρέ, το οποίο να ελαχιστοποιεί ένα κριτήριο απόστασης από το αρχικό. Ο υπολογισμός γίνεται σε μη επικαλυπτόμενα block. Εφόσον πρόκειται για δύο γειτονικά καρέ του ίδιου πλάνου, οι τιμές των αποστάσεων μπορούν να θεωρηθούν χαμηλές, αφού για κάθε block μπορεί να βρεθεί πάντα ένα άλλο με παρόμοιο περιεχόμενο στο γειτονικό καρέ. Αντίθετα, αν τα δύο καρέ ανήκουν σε διαφορετικά πλάνα, οι αποστάσεις θα είναι μεγάλες λόγω της ριζικής μεταβολής του περιεχομένου της εικόνας από το ένα πλάνο στο άλλο. Έτσι, οι αποστάσεις αυτές μπορούν να χρησιμοποιηθούν αποτελεσματικά για την ανίχνευση αλλαγής πλάνων. Οι τιμές των αποστάσεων των block μπορούν είτε με τον υπολογισμό ενός μέσου όρου είτε με ταξινόμηση και κατάλληλο γραμμικό συνδυασμό με βάρη (όπως περιγράφεται στην [3]) να δώσουν ένα συνολικό κριτήριο ασυνέχειας για ολόκληρο το καρέ. Και πάλι προτείνεται η υλοποίηση των δύο μεθόδων, ο πειραματισμός με το μέγεθος των block, τα βάρη και τις υπόλοιπες παραμέτρους, και η διεξαγωγή συγκρίσεων. 2.3. Ιστογράμματα έντασης ή χρώματος Μια εναλλακτική μέθοδος είναι η χρήση των ιστογραμμάτων σαν χαρακτηριστικά στα οποία μπορούν να ανιχνευθούν ασυνέχειες. Διαδοχικά καρέ σε ένα πλάνο με παρόμοιο οπτικό περιεχόμενο θα έχουν μικρές διαφορές στα ιστογράμματά τους, σε σχέση με δύο καρέ που ανήκουν σε δύο διαφορετικά πλάνα. Παρά το γεγονός ότι δύο καρέ με εντελώς διαφορετικό οπτικό περιεχόμενο μπορούν και πάλι να έχουν παρόμοια ιστογράμματα, η πιθανότητα ενός τέτοιου ενδεχομένου είναι μικρή. Τα ιστογράμματα αγνοούν τις χωρικές μεταβολές μέσα σε ένα καρέ, και επομένως σε σχέση με τις προηγούμενες τεχνικές οι διαφορές ιστογραμμάτων είναι 3
πολύ λιγότερο ευαίσθητες σε κίνηση αντικειμένων, παραμένουν όμως ευαίσθητες στην κίνηση της κάμερας. Μπορούν να χρησιμοποιηθούν είτε ιστογράμματα έντασης είτε χρώματος για το σκοπό αυτό, ενώ είναι δυνατή και η επιλογή διαφόρων χρωματικών χώρων και καναλιών. Στην περίπτωση που έχουμε πάνω από ένα χρωματικό κανάλι, μπούμε να χρησιμοποιήσουμε είτε αντίστοιχο πλήθος μονοδιάστατων ιστογραμμάτων, είτε ένα πολυδιάστατο. Επίσης είναι δυνατός ο υπολογισμός του ιστογράμματος είτε σε ολόκληρη την εικόνα του κάθε καρέ, είτε σε μη επικαλυπτόμενα blocks. Προτείνεται η υλοποίηση των παραπάνω παραλλαγών σύμφωνα με τις λεπτομέρειες των [2][3], η διεξαγωγή πειραμάτων με τις τιμές κατωφλίων, το μέγεθος των block, το πλήθος των bins κλπ., και η συγκριτική μελέτη τους. 3. Εξαγωγή χαρακτηριστικών καρέ (key frame extraction) Η εξαγωγή περίληψης από μια ακολουθία βίντεο (video summarization) είναι μια δεύτερη διαδικασία που συνήθως ακολουθεί την ανίχνευση αλλαγής πλάνων. Στόχο έχει την αυτόματη εξαγωγή, και πάλι με βάση το οπτικό περιεχόμενο της ακολουθίας, ενός μικρού υποσυνόλου της ακολουθίας, που διατηρεί μεγάλο μέρος της οπτικής πληροφορίας, ώστε να μπορεί να χρησιμοποιηθεί στη θέση της αρχικής ακολουθίας για γρήγορη επισκόπηση (browsing), κατηγοριοποίηση, ή αναζήτηση (retrieval). Σχήμα 2: Εξαγωγή χαρακτηριστικών καρέ. Η εξαγωγή περίληψης γενικά διακρίνεται σε εξαγωγή χαρακτηριστικών καρέ (keyframe extraction) και εξαγωγή αποσπασμάτων (skimming). Στην πρώτη περίπτωση, που αναφέρεται και ως highlight detection, η περίληψη έχει τη μορφή ενός κατάλληλα επιλεγμένου συνόλου από καρέ της ακολουθίας, ενώ στη δεύτερη αποτελείται από ένα σύνολο πλάνων της ακολουθίας που μπορεί κανείς να παρακολουθήσει και ως trailer. Και οι δύο μορφές μπορούν να είναι ιεραρχικές, δίνοντας διαφορετικό βαθμό λεπτομέρειας σε κάθε επίπεδο, ενώ η πρώτη μπορεί εκτός από το σύνολο των καρέ να δίνει και τη δομή της ακολουθίας, μέσω εναλλαγών μεταξύ των καρέ, με τη μορφή ενός storyboard, όπως φαίνεται στο Σχήμα 2. Μία πολύ καλή ανασκόπηση των τεχνικών που χρησιμοποιούνται για εξαγωγή περίληψης υπάρχει στην εργασία [5]. Oι εργασίες που προτείνονται εδώ περιορίζονται στην εξαγωγή χαρακτηριστικών καρέ από ένα πλάνο και έχουν στόχο την εξαγωγή με δύο διαφορετικές μεθόδους, οι οποίες περιγράφονται περιληπτικά στη συνέχεια. 4
3.1. Ομαδοποίηση (clustering) στο χώρο των χαρακτηριστικών Η επιλογή χαρακτηριστικών καρέ από ένα πλάνο δε μπορεί να είναι τυχαία ή σε ομοιόμορφα χρονικά διαστήματα, γιατί τότε ενδέχεται να περιλαμβάνει καρέ με παρόμοιο περιεχόμενο που επαναλαμβάνονται, ή να εμφανιστεί κάτι σημαντικό στην ακολουθία που να μη διατηρηθεί στην περίληψη. Και στις δύο περιπτώσεις το αποτέλεσμα είναι αντίθετο προς τη ιδέα της περίληψης που αναφέρθηκε παραπάνω. Ένας από τους πιο απλούς τρόπους επιλογής χαρακτηριστικών καρέ που περιγράφεται αναλυτικά στην εργασία [6] είναι η ομαδοποίηση (clustering) όσων καρέ έχουν παρόμοιο οπτικό περιεχόμενο και η επιλογή ενός μόνο αντιπροσώπου από κάθε ομάδα, ως χαρακτηριστικό καρέ. Το οπτικό περιεχόμενο ενός καρέ περιγράφεται μέσω ενός διανύσματος χαρακτηριστικών (feature vector), το οποίο στη συγκεκριμένη περίπτωση υπολογίζεται ως ένα συνολικό ιστόγραμμα χρωμάτων της εικόνας στο χρωματικό χώρο HSV. Το ιστόγραμμα είναι δύο διαστάσεων, περιλαμβάνει τα χρωματικά κανάλια H, S, και η ομοιότητα (similarity) μεταξύ δύο τέτοιων ιστογραμμάτων ορίζεται σε γενικές γραμμές ως το μέσο ποσοστό επικάλυψης των τιμών των δύο ιστογραμμάτων σε όλα τα bins. Εφόσον κάθε πιθανό καρέ περιγράφεται στο χώρο των χαρακτηριστικών και έχει οριστεί η ομοιότητα δύο καρέ στο χώρο αυτό, η διαδικασία της ομαδοποίησης πραγματοποιείται στο χώρο αυτό. Συγκεκριμένα, ξεκινά από μία ομάδα που περιέχει το πρώτο καρέ και στη συνέχεια τοποθετεί κάθε επόμενο καρέ στην ομάδα με τη μέγιστη ομοιότητα, εκτός αν η μέγιστη ομοιότητα είναι χαμηλότερη από ένα κατώφλι στην τελευταία περίπτωση δημιουργείται μια νέα ομάδα γιατί το νέο καρέ δε μοιάζει με κανένα από τα προηγούμενα. Προτείνεται η υλοποίηση της παραπάνω τεχνικής, ο πειραματισμός με τους χρωματικούς χώρους, το πλήθος των bins και τις τιμές των κατωφλίων, και η διεξαγωγή συγκρίσεων. 3.2. Απλοποίηση καμπύλης στο χώρο των χαρακτηριστικών Στην τεχνική αυτή κάθε καρέ περιγράφεται και πάλι από ένα διάνυσμα χαρακτηριστικών όπως και πριν. Η επιλογή των καρέ στο χώρο αυτό γίνεται με βάση τη λογική ότι το κάθε διάνυσμα αντιστοιχεί σε ένα σημείο στο χώρο των χαρακτηριστικών, το οποίο με το πέρασμα του χρόνου διαγράφει μια καμπύλη τροχιά (trajectory) στο χώρο αυτό. Η επιλογή των καρέ λοιπόν βασίζεται στην κατάλληλη επιλογή σημείων από την καμπύλη αυτή, πραγματοποιώντας σταδιακή απλοποίησή της, όπως φαίνεται στο Σχήμα 3. Σχήμα 3: Εξαγωγή χαρακτηριστικών καρέ μέσω απλοποίησης καμπύλης. Ο αλγόριθμος απλοποίησης της καμπύλης και επιλογής σημείων περιγράφεται αναλυτικά στην εργασία [7]. Τα διανύσματα χαρακτηριστικών εδώ ορίζονται με βάση τα αντικείμενα που 5
περιέχονται σε κάθε καρέ όμως για λόγους απλότητας και ομοιομορφίας, προτείνεται η χρησιμοποίηση των ιστογραμμάτων της προηγούμενης τεχνικής, διαλέγοντας όμως ένα μικρό πλήθος από bins ώστε η διάσταση των διανυσμάτων να παραμένει μικρή. 4. Αναζήτηση με βάση το περιεχόμενο (content-based search / retrieval) Η επόμενη εφαρμογή που μπορούμε να επιτύχουμε με την ανάλυση μιας εικόνας ή μια ακολουθίας βίντεο είναι η αναζήτηση με βάση το περιεχόμενο (content-based retrieval). Με την εφαρμογή αυτή μπορούμε μέσα από μια μεγάλη βάση δεδομένων να εντοπίσουμε αυτόματα και γρήγορα μία εικόνα ή ακολουθία βίντεο της οποίας το οπτικό περιεχόμενο μοιάζει με μιας εικόνας που διαθέτουμε, σύμφωνα με κάποια κριτήρια, π.χ. μια εικόνα που εμφανίζει ένα αεροπλάνο, ένα ηλιοβασίλεμα, ή ένα γρήγορα κινούμενο αντικείμενο. Σχήμα 4: Διαδικασία αναζήτησης με βάση το περιεχόμενο. Όταν υπάρχει διαθέσιμο ένα παράδειγμα εικόνας που αναζητούμε, τότε η διαδικασία αναζήτησης (query by example) φαίνεται σε γενικές γραμμές στο Σχήμα 4: Όλες οι εικόνες (ή ακολουθίες) που βρίσκονται στη βάση (data) αναλύονται ως προς το περιεχόμενο και εξάγονται χαρακτηριστικά (features) με τρόπο παρόμοιο με εκείνο που είδαμε και στην εξαγωγή περίληψης. Τα χαρακτηριστικά αποθηκεύονται στη βάση με τη μορφή ενός ευρετηρίου (index). Όταν ο χρήστης δίνει με εικόνα-παράδειγμα, η εικόνα αυτή, που αποτελεί και το ερώτημα (query), αναλύεται με τον ίδιο τρόπο και τα χαρακτηριστικά της συγκρίνονται με τα χαρακτηριστικά που είναι αποθηκευμένα στο ευρετήριο. Τελικά επιστρέφονται οι εικόνες (ή ακολουθίες) από τη βάση με φθίνουσα σειρά ομοιότητας. Εφόσον η αναζήτηση πραγματοποιείται στο χώρο των χαρακτηριστικών, αυτό που διαφοροποιεί μια τεχνική από άλλες είναι το είδος του χαρακτηριστικού που εξάγεται από το περιεχόμενο, και το είδος της σύγκρισης ή ταιριάσματος (matching) στο χώρο αυτό. Το ταίριασμα βασίζεται σε μια μετρική απόστασης (distance) ή ομοιότητας (similarity). Φυσικά μπορούν να χρησιμοποιηθούν και πολλοί συνδυασμοί. Υπάρχουν πολλές άλλες τεχνικές αναζήτησης: μπορεί π.χ. ο χρήστης με διαθέτει κάποιο παράδειγμα. Τότε μπορεί να δώσει στο σύστημα ένα πρόχειρο σχέδιο (query by sketch), ή το σύστημα να προτείνει κάποιες προκαθορισμένες εικόνες (query by association), κατηγορίες εικόνων (category search), ή τμήματα εικόνων με βάση τα οποία ο χρήστης μπορεί να συνθέσει το ερώτημα του (query composition). Σε κάθε περίπτωση από το ερώτημα τελικά εξάγονται 6
κάποια χαρακτηριστικά και η υπόλοιπη διαδικασία (matching) πραγματοποιείται με τον ίδιο τρόπο. Οι περισσότερες τεχνικές αναφέρονται στην εργασία [8], ενώ στην [9] περιγράφονται και κάποια γνωστά συστήματα αναζήτησης. Oι εργασίες που προτείνονται εδώ περιορίζονται στην αναζήτηση εικόνας με βάση ένα παράδειγμα και με χρήση ενός απλού χαρακτηριστικού. Περιλαμβάνουν τρεις διαφορετικές μεθόδους, οι οποίες περιγράφονται περιληπτικά στη συνέχεια. Σε κάθε περίπτωση θα πρέπει να πραγματοποιηθεί ποσοτική αξιολόγηση με μία συγκεκριμένη εικόνα-παράδειγμα (ή και περισσότερες) για την οποία είναι γνωστά τα αποτελέσματα της σωστής αναζήτησης από ένα σύνολο εικόνων. Για το σκοπό αυτό χρησιμοποιείται η έννοια της ακρίβειας (precision, p) και της ανάκλησης (recall, r). Έστω ότι για ένα συγκεκριμένο ερώτημα q το σύνολο των σωστών (relevant) απαντήσεων είναι R( και το σύνολο των απαντήσεων του συστήματος είναι A(. Τότε η ακρίβεια είναι το ποσοστό των απαντήσεων του συστήματος που είναι σωστές, A( I R( p =, A( ενώ η ανάκληση είναι το ποσοστό των σωστών απαντήσεων που επιστρέφει το σύστημα A( I R( r =. R( 4.1. Αναζήτηση με βάση το ιστόγραμμα χρωμάτων Το πιο απλό παράδειγμα είναι η αναζήτηση με βάση το χρώμα. Με τον τρόπο αυτό μπορούμε π.χ. να εντοπίσουμε ένα ηλιοβασίλεμα με βάση τα χρώματα που περιέχει (κίτρινο, πορτοκαλί) αλλά δύσκολα ένα αντικείμενο που δεν έχει πάντα τα ίδια χρώματα, π.χ. ένα αεροπλάνο. Η συγκεκριμένη τεχνική που προτείνεται περιγράφεται αναλυτικά στην εργασία [10] και πραγματοποιείται στο χρωματικό χώρο HSV. Μετά από μια κατωφλίωση τιμών με πολύ μικρή ή πολύ μεγάλη φωτεινότητα, υπολογίζεται το ιστόγραμμα του καναλιού H (hue) και εξάγεται ένα συγκεκριμένο πλήθος από n μέγιστες τιμές του. Στη συνέχεια πραγματοποιείται κατωφλίωση σε συγκεκριμένα σημεία του ιστογράμματος ώστε να διατηρηθούν οι περιοχές του ιστογράμματος γύρω από τις μέγιστες τιμές. Αυτές αντιστοιχούν σε γενικές γραμμές και σε περιοχές τις εικόνας με περίπου ομοιόμορφο χρώμα. Το διάνυσμα χαρακτηριστικών περιέχει τις n μέγιστες τιμές αλλά μπορεί να περιέχει και χωρική πληροφορία, όπως π.χ. το μέγεθος των n αντίστοιχων περιοχών στην εικόνα. Για το ταίριασμα των διανυσμάτων κατά την αναζήτηση προτείνονται με σειρά από μετρικές, μεταξύ των οποίων και η Minkowski, ειδική περίπτωση της οποίας είναι η Ευκλείδια απόσταση. Προτείνεται η υλοποίηση της τεχνικής, ο πειραματισμός με τις τιμές των κατωφλίων, το πλήθος των bins, το μήκος του διανύσματος (n), καθώς και η διεξαγωγή συγκρίσεων μεταξύ των διαφόρων μετρικών, με μετρήσεις precision και recall. 4.2. Αναζήτηση με βάση τα επικρατούντα χρώματα (dominant colors) Πρόκειται για μία παραλλαγή της προηγούμενης μεθόδου που περιγράφεται αναλυτικά στην εργασία [11]. Εδώ πραγματοποιείται ομαδοποίηση (clustering) των χρωμάτων της εικόνας στο χρωματικό χώρο LUV με χρήση του γενικευμένου αλγορίθμου Lloyd (ή k-means) και το διάνυσμα χαρακτηριστικών περιέχει τα dominant colors που αντιστοιχούν στα κέντρα των τελικών clusters, 7
καθώς και το ποσοστό της επιφάνειας που καλύπτουν οι αντίστοιχες περιοχές στην αρχική εικόνα. Η μετρική απόστασης που χρησιμοποιείται στην περίπτωση αυτή είναι μια τετραγωνική μορφή ως προς τα ποσοστά επιφάνειας, με συντελεστές που προκύπτουν από τις τιμές των dominant colors. Ορίζεται με τέτοιο τρόπο ώστε αν δύο διανύσματα περιέχουν παρόμοια χρώματα, η απόσταση να είναι μικρή ακόμη και αν τα χρώματα αυτά βρίσκονται σε διαφορετικές θέσεις. Προτείνεται η υλοποίηση των παραπάνω, ο πειραματισμός με το πλήθος των dominant colors, και η διεξαγωγή μετρήσεων precision και recall. 4.3. Αναζήτηση με βάση το σχήμα (curvature scale space) Στην περίπτωση αυτή υποθέτουμε πως έχουμε ήδη εξάγει από κάθε εικόνα το κεντρικό αντικείμενο και έχουμε περιγράψει διανυσματικά το σχήμα του με μία καμπύλη στο διδιάστατο χώρο του επιπέδου. Έτσι, και το ερώτημα και κάθε εικόνα της βάσης θα περιγράφεται από ένα διάνυσμα χαρακτηριστικών που προκύπτει από την καμπύλη αυτή και περιγράφει αποτελεσματικά το σχήμα. Έτσι θα μπορούμε να αναζητήσουμε αντικείμενα που έχουν χαρακτηριστικό σχήμα (π.χ. ένα αεροπλάνο). Η τεχνική που θα χρησιμοποιηθεί εδώ βασίζεται στην έννοια του χώρου κλίμακας καμπυλότητας (curvature scale space) και περιγράφεται αναλυτικά στην εργασία [12]. Η καμπύλη απλοποιείται σταδιακά μέσω συνέλιξης με μία καμπύλη Gaussian αυξανόμενης τυπικής απόκλισης σ και στη συνέχεια υπολογίζονται τα σημεία στα οποία η καμπυλότητα μηδενίζεται. Όπως φαίνεται και στο Σχήμα 5, η αποθήκευση των σημείων αυτών για κάθε κλίμακα (που αντιστοιχεί σε μια τιμή του σ) και η απεικόνιση τους ως προς την παράμετρο της καμπύλης (u) και το σ δημιουργεί το χώρο κλίμακας καμπυλότητας. Το διάνυσμα χαρακτηριστικών περιέχει τις μέγιστες τιμές στο χώρο αυτό. (α) (β) Σχήμα 5: Διαδικασία αναζήτησης με βάση το σχήμα: (α) απλοποίηση καμπύλης και σημεία μηδενισμού καμπυλότητας, (β) curvature scale space. Η διαδικασία ταιριάσματος στην περίπτωση αυτή λαμβάνει υπόψη της και τις τιμές των μεγίστων (σ) αλλά και τις αντίστοιχες θέσεις στην καμπύλη (u) και αντισταθμίζει πρώτα την οποιαδήποτε κυκλική ολίσθηση μπορεί να υπάρχει μεταξύ δύο καμπυλών. Περιγράφεται αναλυτικά στην [12] αλλά μπορεί να χρησιμοποιηθεί οποιαδήποτε άλλη (απλούστερη) τεχνική. 8
Προτείνεται η υλοποίηση της τεχνικής, ο πειραματισμός με καμπύλες διαφορετικού μεγέθους, η επίδρασης της περιστροφής ή άλλων μετασχηματισμών, και η διεξαγωγή μετρήσεων precision και recall για αναζήτηση από ένα δεδομένο σύνολο από καμπύλες. 5. Βιβλιογραφία 5.1. Ανίχνευση αλλαγής πλάνων [1] Cotsaces C., Nikolaidis N. and Pitas I., Video Shot Detection and Condensed Representation, IEEE Signal Processing Magazine 23(2), 2006. [2] Koprinska I. and Carrato S., Temporal video segmentation: A survey, Signal Processing: Image Comm., vol. 16(5), 2001. [3] A. Hanjalic Α., Shot-boundary detection: unraveled and resolved?, IEEE CSVT 12(2), 2002. [4] Lienhart R., Comparison of Automatic Shot Boundary Detection Algorithms, Proc. SPIE, 1999. 5.2. Εξαγωγή χαρακτηριστικών καρέ [5] Li Υ. et al., Techniques for Movie Content Analysis and Skimming, IEEE Signal Processing Magazine 23(2), 2006. [6] Zhuang Υ., Rui Υ., Huang T.S. and Mehrotra S., Adaptive key frame extraction using unsupervised clustering, ICIP 1998. [7] DeMenthon D., Kobla V. and Doermann D., Video Summarization by Curve Simplification, ACM Multimedia 1998. 5.3. Αναζήτηση με βάση το περιεχόμενο [8] Smeulders A., Worring M., Santini S., Gupta A., Jain R., Content-based image retrieval at the end of the early years, IEEE PAMI 22(12), 2000. [9] Rui Y., Huang T.S. and Chang S.-F., Image Retrieval: Current Techniques, Promising Directions, and Open Issues, Journ. Visual Communication and Image Representation 10(1), 1999. [10] Androutsos D., Plataniotis K. and Venetsanopoulos, A., Distance measures for color image retrieval, ICIP 1998. [11] Deng Y., Manjunath B.S., Kenney C., Moore M. and Shin H., An Efficient Color Representation for Image Retrieval, IEEE Trans. IP 10(1), 2001. [12] Abbasi S., Mokhtarian F., Kittler J., Curvature scale space image in shape similarity retrieval, Multimedia Systems 7(6), 1999. Οι Διδάσκοντες Στέφανος Κόλλιας Γιάννης Αβρίθης 9