Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Διπλωματική εργασία του Κορδοπάτη-Ζήλου Γεώργιου ΑΕΜ: 6673 υπό την επίβλεψη των κ. Ανδρέα Λ. Συμεωνίδη Επίκουρος Καθηγητής - ΑΠΘ κ. Συμεών Παπαδόπουλο Ερευνητής - ΙΠΤΗΛ ΕΚΕΤΑ Θεσσαλονίκη, Νοέμβριος 2013

2 2 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο

3 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Ευχαριστίες Με το πέρας της διπλωματικής εργασίας, που σηματοδοτεί και την ολοκλήρωση των προπτυχιακών μου σπουδών, μου δημιουργείται η ανάγκη να ευχαριστήσω τους παρακάτω: Τους επιβλέποντες, κ. Ανδρέα Συμεωνίδη και κ. Συμεών Παπαδόπουλο, για την πολύτιμή βοήθειά τους, κατανόηση και καθοδήγηση καθ όλη τη διάρκεια υλοποίησης της εργασίας, καθώς και για τις εξαιρετικές ιδέες και προτάσεις τους. Τον κ. Ιωάννη Κομπατσιάρη, για την ευκαιρία που μου έδωσε να συνεργαστώ με το τμήμα πληροφορικής και επικοινωνιών του ΙΠΤΗΛ, καθώς και τον Λευτέρη Σπυρομήτρο-Ξιούφη για την συμμετοχή του στην ομάδα υλοποίησης του αντικειμένου της εργασίας. Την οικογένειά μου, για την αμέριστη συμπαράστασή και εμπιστοσύνη που δείχνουν στις επιλογές μου. Τους φίλους και την κοπέλα μου, για την καθημερινή τους στήριξη και ενέργεια που μου έδιναν σε όλα τα χρόνια των σπουδών.

5 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Περίληψη Tο πρόβλημα του αυτόματου εντοπισμού της γεωγραφικής θέσης πολυμέσων (εικόνων και βίντεο) στο διαδίκτυο αποτελεί αντικείμενο ιδιαίτερου ενδιαφέροντος για τα μέλη της σχετικής επιστημονικής κοινότητας. Ο βασικός στόχος της παρούσας διπλωματικής εργασίας είναι η σχεδίαση και ανάπτυξη ενός συστήματος που θα επιτυγχάνει όσο το δυνατόν μεγαλύτερη ακρίβεια. Ένα τέτοιο σύστημα δέχεται ως είσοδο ένα σύνολο δεδομένων πολυμέσων, καθώς και τα μετα-δεδομένα τους και, με την κατάλληλη επεξεργασία τους και τον διαχωρισμό τους σε σετ εκπαίδευσης και ελέγχου γίνεται δυνατή η εκτίμηση της γεωγραφικής θέσης οποιουδήποτε υπό εξέταση πολυμέσου. Για αυτό τον λόγο υλοποιήθηκαν δύο συστήματα βασισμένα σε θεωρητικά εργαλεία, τα οποία επιτυγχάνουν το σκοπό αυτό. Το πρώτο εργαλείο υλοποιεί έναν μηχανισμό που αναλύει τα μετα-δεδομένα των πολυμέσων του συνόλου εκπαίδευσης σύμφωνα με γλωσσικά μοντέλα και δημιουργεί χαρακτηριστικά λεξιλόγια που αντιστοιχούν σε ευρύτερες γεωγραφικές περιοχές. Στη συνέχεια πραγματοποιεί η ανάθεση των υπό εξέταση πολυμέσων στις προαναφερθείσες περιοχές. Τέλος, ο μηχανισμός εκτιμά τη τελική τους θέση με βάση τα πολυμέσα που ανήκουν στη περιοχή αυτή. Το δεύτερο εργαλείο επιχειρεί τον εντοπισμό της θέσης των πολυμέσωνμέσω σημασιολογικής ανάλυσης των μετα-δεδομένων και οπτικής ανάλυσης των εικόνων του συνόλου εκπαίδευσης. Μέσω της σημασιολογική ανάλυσης δημιουργείται ένα λεξιλόγιο αποκλειόμενων λέξεων (bag-of-excluded-words, BoEW), βάσει του οποίου φιλτράρονται τα μετα-δεδομένα των πολυμέσων του συνόλου ελέγχου. Τέλος, η εκτίμηση της τοποθεσίας του υπό εξέταση πολυμέσου γίνεται με τον ίδιο τρόπο που πραγματοποιήθηκε στον προηγούμενο αλγόριθμο. Από την υλοποίηση των δυο μηχανισμών προέκυψαν χρήσιμα συμπεράσματα σχετικά με την απόδοση αυτών και την ευαισθησία τους στην διαφοροποίηση των συνόλων των δεδομένων εισόδου. Ως γενικό συμπέρασμα μπορεί να εξαχθεί ότι η σημασιολογική ανάλυση των μετα-δεδομένων των πολυμέσων δρα αποτελεσματικά στην επίτευξη του τελικού σκοπού.

7 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Design and development of a mechanism for the automated geotagging of multimedia Abstract The problem of geotagging of multimedia (images and videos) found on the web is a topic of great interest for the related research community. Current work focuses on the design and development of a mechanism for accurate geotagging. The developed system receives a multimedia dataset as input, along with their metadata, processes them accordingly and trains/tests a model in order to estimate the exact geographical location of multimedia. In this context two mechanisms have been developed and tested. The first mechanism employs language models on the metadata of the training set. The outcome of this step leads to the formation of distinctive vocabularies with respect to wider geographical areas. Next, each query media is assigned to the above areas. Finally, an estimation of the final position of the query media is performed, based on the media that belong on this particular area. The second mechanism employs a different method for the location estimation of data. Semantic analysis is performed on the metadata of the training set and on the visual analysis of the multimedia content. A bag-of-excluded-words (BoEW) is generated and, based on that, the test set is filtered out. Finally, the location estimation of each query media is established in a similar manner to the one described on the previous model. From the implementation of the above approaches, useful remarks in proportion to the performance and the sensitivity of the imported sets of data arise. One may safely say that the semantic analysis of the multimedia metadata lead to more efficient geotagging. Giorgos Kordopatis-Zilos georgekordopatis@hotmail.gr

9 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Περιεχόμενα Ευχαριστίες... 3 Περίληψη... 5 Abstract... 7 Λίστα Εικόνων Λίστα Σχημάτων Λίστα Πινάκων Κεφάλαιο Σκοπός της Διπλωματικής Γενικά Ορισμός Προβλήματος Συμβολή της εργασίας Δομή διπλωματικής εργασίας Κεφάλαιο Βασικές Έννοιες και Υλοποιήσεις του προβλήματος Εισαγωγή Πηγές άντλησης πληροφοριών γεωγραφικής θέσης Βάσεις δεδομένων σημείων γεωγραφικού ενδιαφέροντος Βάσεις δεδομένων εναέριων εικόνων Μη δομημένες αναφορές σε γεωγραφικές τοποθεσίες Συλλογές πολυμέσων με γεωγραφικές αναφορές Αναγνώριση της σημασιολογίας των πολυμέσων Αναγνώριση γεγονότων Γεωγραφική θέση και αναγνώριση αξιοθέατων Οργάνωση, επισημείωση και ανάκτηση πολυμέσων Μέθοδοι αυτόματου εντοπισμού της γεωγραφικής θέσης ενός πολυμέσου Εντοπισμός γεωγραφικής θέσης με οπτική ανάλυση Εντοπισμός γεωγραφικής θέσης με βάση τα μετα-δεδομένα Υβριδικές μέθοδοι Συγκεντρωτικοί Πίνακες Κεφαλαίου Κεφάλαιο Αυτόματος Εντοπισμός Θέσης με χρήση Γλωσσικών Μοντέλων Εισαγωγή... 41

10 10 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο 3.2 Εισαγωγή δεδομένων στον αλγόριθμο Σχηματισμός Περιοχών Ομαδοποίηση των εικόνων Υπολογισμός Λεξιλογίου Δημιουργία Περιοχών Εκτίμηση Γεωγραφικής Γλωσσικό Μοντέλο Αναζήτηση Ομοιότητας Υβριδική Μέθοδος Κεφάλαιο Σημασιολογική και Οπτική Ανάλυση για τον Εντοπισμό Θέσης Εισαγωγή Latent Dirichlet Allocation - LDA Συμβολισμός και Ορολογία Ανάλυση του LDA Ανακάλυψη θεμάτων με Gibbs Sampling Η βιβλιοθήκη JGibbLDA Σημασιολογική ανάλυση των μετα-δεδομένων (Text-based Analysis) Εκπαίδευση Εκτίμηση της τελικής θέσης Οπτική Ανάλυση (Visual-based Analysis) Υβριδική Υλοποίηση (Hybrid Approach) Κεφάλαιο Αποτελέσματα Εισαγωγή Αποτελέσματα αλγορίθμου γλωσσικού μοντέλου Αποτελέσματα αλγορίθμου με χρήση LDA Αποτελέσματα MediaEval 2013 στο Placing Tack Κεφάλαιο Συμπεράσματα και Μελλοντική Εργασία Συμπεράσματα Μελλοντική Εργασία Παράρτημα Βιβλιογραφία... 87

11 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Λίστα Εικόνων Εικόνα 1 Παραδείγματα υπό εξέτασης εικόνων (Κεφάλαιο 2) Εικόνα 2 Παράδειγμα χρήσης των γεωγραφικών πληροφοριών (Κεφάλαιο 2) Εικόνα 3 Παραδείγματα εικόνων που είναι εύκολη η εύρεση της γεωγραφικής τους θέσης (Κεφάλαιο 2) Εικόνα 4 Απεικόνιση αλγορίθμου(κεφάλαιο2) Εικόνα 5 Παραδείγματα ομαδοποίησης με k-mean (Κεφάλαιο 3) Εικόνα 6 Γραφική αναπαράσταση του μοντέλου LDA (Κεφάλαιο 4) Εικόνα 7 Σημασιολογική ανάλυση (Κεφάλαιο 4) Εικόνα 8 Μορφή αρχείου εισόδου στον JGibbLDA (Κεφάλαιο 4) Εικόνα 9 Σχηματική αναπαράσταση ομάδων (Κεφάλαιο 4) Εικόνα 10 Tags γενικού ενδιαφέροντος (Κεφάλαιο 4) Εικόνα 11 Σχηματική αναπαράσταση του BoEW (Κεφάλαιο 4) Εικόνα 12 Απεικόνιση του συνόλου των εικόνων που (Κεφάλαιο 5) Εικόνα 13 Γραφική αναπαράσταση του συνολικού dataset (Κεφάλαιο 54) Εικόνα 14 Δεδομένα σχετικής υλοποίησης (Παράρτημα)... 79

12 12 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Λίστα Σχημάτων Σχήμα 1 Απεικόνιση του text-based αλγορίθμου (Κεφάλαιο 4) Σχήμα 2 Μέσο σφάλμα απόστασης της ΗΑ (Κεφάλαιο 5) Σχήμα 3 Μέσο σφάλμα απόστασης των tmax και tmean (Κεφάλαιο 5) Σχήμα 4 Αποτελέσματα σχετικής υλοποίησης (Παράρτημα) Σχήμα 5 Αποτελέσματα σχετικής υλοποίησης (Παράρτημα) Σχήμα 6 Αποτελέσματα σχετικής υλοποίησης (Παράρτημα) Σχήμα 7 Αποτελέσματα σχετικής υλοποίησης (Παράρτημα) Σχήμα 8 Αποτελέσματα σχετικής υλοποίησης (Παράρτημα) Σχήμα 9 Αποτελέσματα σχετικής υλοποίησης (Παράρτημα)... 83

13 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Λίστα Πινάκων Πίνακας 1 Αποτελέσματα ομαδοποίησης (Κεφάλαιο 2) Πίνακας 2 Αποτελέσματα ταξινόμησης (Κεφάλαιο 2) Πίνακας 3 Πίνακας αποτελεσμάτων σχετικής υλοποίησης (Κεφάλαιο 2) Πίνακας 4 Πίνακας χαρακτηριστικών, μεθόδων και τύπων των διαφόρων ερευνών. (Κεφάλαιο 2) Πίνακας 5 Πίνακας που περιέχει τον διαχωρισμό της βάσης δεδομένων και τα καλύτερα αποτελέσματα κάθε έρευνας (Κεφάλαιο 2) Πίνακας 6 Πίνακας αρίθμησης των ερευνών (Κεφάλαιο 2) Πίνακας 7 Εγγραφές του αρχείου κειμένου (Κεφάλαιο 3) Πίνακας 8 Παράδειγμα ενδιάμεσων αποτελεσμάτων (Κεφάλαιο 3) Πίνακας 9 Πίνακας συμβολισμών του κεφαλαίου (Κεφάλαιο 3) Πίνακας 10 Παράμετροι του JGibbLDA (Κεφάλαιο 4) Πίνακας 11 Έξοδοι του JGibbLDA (Κεφάλαιο 4) Πίνακας 12 Μορφή των tags που αφαιρούνται από τις εικόνες (Κεφάλαιο 4) Πίνακας 13 Παράδειγμα ενδιάμεσων αποτελεσμάτων (Κεφάλαιο 4) Πίνακας 14 Πίνακας συμβολισμών του κεφαλαίου (Κεφάλαιο 4) Πίνακας 15 Αποτελέσματα ακρίβειας (%) της LM (Κεφάλαιο 5) Πίνακας 16 Αποτελεσμάτων ακρίβειας (%) της ΗΑ (Κεφάλαιο 5) Πίνακας 17 Αποτελέσματα των run1-5 (Κεφάλαιο 5) Πίνακας 18 Αποτελέσματα από την εφαρμογή του hyb (Κεφάλαιο 5) Πίνακας 19 Αποτελέσματα του HA στο σύνολο των εικόνων του διαγωνισμού (Κεφάλαιο 5) Πίνακας 20 Αποτελέσματα των text-based υλοποιήσεων κάθε ομάδας (Κεφάλαιο 5) Πίνακας 21 Αποτελέσματα της βασικής μεθόδου LM (Παράρτημα) Πίνακας 22 Αποτελέσματα των μεθόδων TS, CS, CSR (Παράρτημα)... 82

14 14 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Πίνακας 23 Αποτελέσματα υβριδικής μεθόδου (Παράρτημα) Πίνακας 24 Πίνακας ακριβείας των τριών εκτελέσεων (Παράρτημα)... 84

15 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Κεφάλαιο 1 Σκοπός της Διπλωματικής 1.1 Γενικά Τα τελευταία χρόνια παρατηρείται ραγδαία και καθολική χρήση του διαδικτύου (internet) από ένα πολύ μεγάλο πληθυσμό χρηστών. Καθοριστικό παράγοντα στην εξέλιξη αυτή αποτέλεσε το γεγονός ότι μεγάλες ταχύτητες πρόσβασης στο διαδίκτυο διατέθηκαν σε προσιτές τιμές, με αποτέλεσμα ο μέσος χρήστης να απολαμβάνει τα οφέλη του. Ο κάθε χρήστης έχει πλέον πρόσβαση σε μεγάλο όγκο πληροφοριών, τις οποίες μπορεί να αποκτήσει, να οργανώσει και να επεξεργαστεί. Αυτό το φαινόμενο παρατηρείται και στον τομέα των πολυμέσων. Ο καθένας μας έχει πρόσβαση σε πληθώρα από βίντεο και εικόνες, που μπορεί να αναπαράγει, επεξεργαστεί, μοιραστεί, σχολιάσει κ.λπ. Με τον τρόπο αυτό χτίζονται βάσεις δεδομένων από πολυμέσα, που διαθέτουν μη δομημένες πληροφορίες. Ο πλούτος των πληροφοριών αυτών καθιστά δελεαστική την πρόκληση της οργάνωσης και ερμηνείας τουs, με βάση οποιαδήποτε οπτική επιθυμεί κανείς. Κάθε πολυμέσο ακολουθείται από μια σειρά χαρακτηριστικών πληροφοριών που το ξεχωρίζουν και το καθιστούν μοναδικό. Πληροφορίες όπως η ώρα που ανέβηκε ένα βίντεο στο διαδυκτιο, το όνομα του χρήστη που κοινοποίησε ένα τραγούδι, οι επισυνάψεις (tags) μιας εικόνας κ.λπ., αποτελούν αντικείμενα μελέτης και μπορούν να χρησιμοποιηθούν για την εξαγωγή χρήσιμων συμπερασμάτων. Το σύνολο των πληροφοριών αυτών για ένα πολυμέσο ονομάζεται μετα-δεδομένα. Κατεβάζοντας μία εικόνα από το διαδίκτυο γίνεται εφικτή η πρόσβαση στα μετα-δεδομένα της. Με βάση αυτά μπορούν να οργανωθούν συστήματα εξόρυξης γνώσης για μία ποικιλία θεμάτων.

16 16 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο 1.2 Ορισμός Προβλήματος Στην παράγραφο αυτή θα γίνει η ανάλυση του προβλήματος και εισαγωγή στο αντικείμενο που ασχολείται η παρούσα διπλωματική εργασία. Όπως αναφέραμε στο προηγούμενο μέρος, το διαδίκτυο είναι μια αστείρευτη πηγή πληροφοριών. Μέσα στον αχανή αυτό κόσμο των πληροφοριών υπάρχουν αμέτρητα πολυμέσα. Ιδιαίτερο ενδιαφέρον για το αντικείμενο της παρούσας εργασίας, παρουσιάζει το κατά πόσο τα πολυμέσα έχουν τοποθετηθεί γεωγραφικά. Με μία πρώτη σκέψη, η διαδικασία της αναγνώρισης της τοποθεσίας μιας εικόνας φαίνεται εύκολο έργο. Αν κάποιος έβλεπε τις εικόνες (α) και (β) του σχήματος 1, εύκολα θα αναγνώριζε ότι στην πρώτη απεικονίζεται ο πύργος του Άιφελ, δηλαδή η τοποθεσία της είναι στο Παρίσι, και στη δεύτερη απεικονίζεται ένα κανάλι της Βενετίας. Το πρόβλημα εντοπίζεται όταν η γεωγραφική τοποθέτηση των εικόνων δεν είναι τόσο προφανής, όπως στις προηγούμενες εικόνες. Για την εικόνα (γ) θα μπορούσε κανείς να υποθέσει ότι απεικονίζει την παραλία του Los Angeles στις Η.Π.Α., λόγω της γεωμορφίας της περιοχής, και για την εικόνα (δ), αν παρατηρούσε την πινακίδα του αυτοκινήτου, θα καταλάβαινε ότι έχει τραβηχτεί κάπου στην Κούβα. Όσο για την εικόνα (ε) κανείς δεν θα μπορούσε να υποθέσει μια πιθανή περιοχή. (α) (β) (γ) (δ) (ε) Εικόνα 1 Παραδείγματα υπό εξέτασης εικόνων. (α) Πύργος του Άιφελ, τοποθεσία Παρίσι (β) Κανάλι στη Βενετία, τοποθεσία Βενετία (γ) παραλία, τοποθεσία Los Angeles (δ) αμάξι στο δρόμο, τοποθεσία Κούβα (ε) κουτάβι, τοποθεσία άγνωστη.

17 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Στην αντιμετώπιση του προβλήματος πολύ μεγάλη χρησιμότητα παρουσιάζουν τα μετα-δεδομένα των εικόνων και πιο συγκεκριμένα τα tags. Πολλές φορές στα tags αναφέρονται χρήσιμες πληροφορίες για την επίλυση του συγκεκριμένου προβλήματος, όπως το όνομα της πόλης ή της χώρας, ή κάποιο άλλο tag που θα μπορούσε να κατευθύνει γεωγραφικά, όπως το όνομα ενός αξιοθέατου. Επίσης, υπάρχει ένα μέρος των πολυμέσων που στα μετα-δεδομένα του περιέχει τη γεωγραφική τους θέση, δηλαδή είναι γεωγραφικά τοποθετημένα (geo-tagged). Αξιοσημείωτο είναι το γεγονός ότι παρά την συνεχή αύξηση των πολυμέσων, ο αριθμός αυτών που είναι geo-tagged αυξάνεται με μικρότερο ρυθμό σε σχέση με τον συνολικό. Επομένως αναλογικά ο όγκος των geo-tagged πολυμέσων μειώνεται. Αντικείμενο της διπλωματικής είναι η δημιουργία ενός συστήματος που πραγματοποιεί αυτόματη εκτίμηση της γεωγραφικής θέσης (geo-tagging) των εικόνων. To σύστημα αυτό λαμβάνει και επεξεργάζεται ένα σύνολο εικόνων (σύνολο εκπαίδευσης), των οποίων οι γεωγραφικές συντεταγμένες είναι γνωστές και στη συνέχεια υπολογίζει τις γεωγραφικές συντεταγμένες ενός δεύτερου συνόλου (σύνολο ελέγχου), με βάση ορισμένες τεχνικές. Επομένως στόχος είναι η υλοποίηση ενός αυτόματου συστήματος εντοπισμού γεωγραφικής θέσης από εικόνες και βίντεο. 1.3 Συμβολή της εργασίας Στο πλαίσιο της διπλωματικής εργασίας υλοποιήθηκαν δύο συστήματα αυτόματου εντοπισμού γεωγραφικής θέσης των εικόνων και βίντεο. Στην πρώτη υλοποίηση πραγματοποιήθηκε μία παραλλαγή του αλγορίθμου της έρευνας [VLS 2011], βάσει της οποίας γίνεται χρήση γλωσσικού μοντέλου για την τοποθέτηση κάθε εικόνας του συνόλου ελέγχου, σε μια περιοχή των εικόνων του συνόλου εκπαίδευσης και στη συνέχεια αναζήτηση ομοιότητας με τις εικόνες της περιοχής αυτής. Διαπιστώθηκε ότι ο αλγόριθμος αυτός είναι άμεσα εξαρτημένος από την ποιότητα του συνόλου δεδομένων για την επίτευξη ικανοποιητικών αποτελεσμάτων. Όσον αφορά στη δεύτερη υλοποίηση, ο βασικός κορμός του αλγορίθμου παραμένει ο ίδιος και γίνεται προσθήκη οπτικής και σημασιολογικής ανάλυσης των εικόνων και των tags τους, αντίστοιχα. Τα αποτελέσματα που επιτυγχάνονται είναι εμφανώς βελτιωμένα από αυτά της πρώτης υλοποίησης, τα οποία βέβαια με την κατάλληλη ρύθμιση των παραμέτρων του συστήματος μπορούν να βελτιωθούν σημαντικά. Ως συμπέρασμα εξάγεται ότι η σημασιολογική ανάλυση των tags καθίσταται χρήσιμο εργαλείο για τα συστήματα αυτόματου εντοπισμού γεωγραφικής θέσης. 1.4 Δομή διπλωματικής εργασίας Σε αυτή τη παράγραφο θα παρουσιαστεί η δομή της διπλωματικής εργασίας. Αρχικά στο κεφάλαιο 2 παρουσιάζονται κάποιες βασικές έννοιες που σχετίζονται άμεσα με το πρόβλημα του αυτόματου εντοπισμού γεωγραφικής θέσης. Αναφέρονται πηγές άντλησης πληροφοριών γεωγραφικής θέσης, τρόποι αναγνώρισης της

18 18 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο σημασιολογίας των πολυμέσων καθώς και ορισμένες μέθοδοι αυτόματου εντοπισμού της γεωγραφικής θέσης. Στο κεφάλαιο 3 γίνεται μία πρώτη υλοποίηση με βάση την έρευνα [VLS 2011]. Το βασικό στοιχείο της υλοποίησης αυτής είναι η χρήση γλωσσικού μοντέλου για την τοποθέτηση κάθε εικόνας του συνόλου ελέγχου, σε μια περιοχή των εικόνων του συνόλου εκπαίδευσης και στη συνέχεια αναζήτηση ομοιότητας με τις εικόνες της περιοχής αυτής. Στο κεφάλαιο 4 αναλύεται μια καινούρια υλοποίηση που κάνει χρήση του θεματικού αλγορίθμου LDA. Πραγματοποιείται LDA δύο επιπέδων, καθολικού και τοπικού, με σκοπό οι υπό εξέταση εικόνες να φιλτραριστούν και να ανατεθούν στην κατάλληλη περιοχή αντίστοιχα. Η υλοποίηση αυτή κατατέθηκε στον διαγωνισμό του MediaEval 2013, στην περιοχή του Placing Task. Χρήσιμες πληροφορίες για το συγκεκριμένο θέμα δίνονται στο [HTT 2013]. Τέλος, στα κεφάλαια 5 και 6 παρατίθενται τα αποτελέσματα των παραπάνω μεθόδων, συμπεράσματα και μελλοντικές μελέτες πάνω στο αντικείμενο του αυτόματου εντοπισμού γεωγραφικής θέσης. Ο κώδικας που αναπτύχθηκε είναι ανοιχτός στο κοινό στη διεύθυνση

19 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Κεφάλαιο 2 Βασικές Έννοιες και Υλοποιήσεις του προβλήματος 2.1 Εισαγωγή Σε αυτό το σημείο της διπλωματικής εργασίας παρατίθενται ορισμένα βασικά στοιχεία τα οποία σχετίζονται άμεσα με το αυτόματο εντοπισμό γεωγραφικής θέσης. Θεμελιώδες κομμάτι είναι η επιλογή της κατάλληλης πηγής λήψης των δεδομένων, όπως για παράδειγμα η συλλογή πολυμέσων του Flickr ή η βάση εναέριων φωτογραφιών του Google Earth. Επιπρόσθετα πολύ σημαντικό ρόλο κατέχει και η σημασιολογική ανάλυση του περιεχομένου των πολυμέσων. Καταρχήν μελετάται η αναγνώριση του αν απεικονίζεται ένα γεγονός σε μία εικόνα ή ένα βίντεο, ο ορισμός βασικών λειτουργιών (οργάνωση, επισημείωση και ανάκτηση) με βάση την σημασιολογία των πολυμέσων και η αναγνώριση του αν απεικονίζεται ένα αξιοθέατο ή ένα συνηθισμένο τοπίο. Επιπλέον περιγράφονται ορισμένες σχετικές έρευνες οι οποίες προσανατολίζονται στην ανάλυση των οπτικών πληροφοριών μιας εικόνας, των tags και άλλων μετα-δεδομένων (meta-data) που συνοδεύουν αυτή (π.χ. χρόνος λήψης εικόνας, στοιχεία του χρήστη που την ανέβασε), καθώς και συνδυασμό αυτών των μεθόδων για την εύρεση μιας πιθανής γεωγραφικής θέσης του πολυμέσου που μελετάται.

20 20 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο 2.2 Πηγές άντλησης πληροφοριών γεωγραφικής θέσης Υποθέτοντας ότι μια εικόνα είναι δυνατό να τοποθετηθεί επακριβώς πάνω στην γη με ακριβείς συντεταγμένες, μέσα από την επεξεργασία του περιεχομένου της, καθώς και των μετα-δεδομένων που την συνοδεύουν, διεξάγονται έρευνες για τον αυτόματο εντοπισμό της θέσης αυτής. Χρησιμοποιούνται ευρέως οι διαδεδομένες συντεταγμένες GPS, προκειμένου οι συσκευές να λάβουν στίγμα της γεωγραφικής τους θέσης. Λαμβάνοντας υπόψη την γεωγραφική θέση μιας εικόνας ή ενός συνόλου εικόνων, πολλά χρήσιμα συμπεράσματα μπορούν να εξαχθούν για το αντικείμενο που απεικονίζεται σε αυτές. Για παράδειγμα, δίνεται η δυνατότητα έκφρασης της δημοτικότητας μιας τοποθεσίας σε ένα σύνολο εικόνων που απορρέει από την πυκνότητα των εικόνων της δεδομένης τοποθεσίας στο σύνολο αυτό. Οι γεωγραφικές συντεταγμένες μπορούν να αποτελέσουν το κλειδί για την εξαγωγή περαιτέρω γεωγραφικής γνώσης και για την καλύτερη κατανόηση (understanding) μιας εικόνας ή ενός συνόλου εικόνων. Στο παρακάτω σχήμα γίνεται φανερό πως μπορούν να χρησιμοποιηθούν οι γεωγραφικές πληροφορίες μιας εικόνας, είτε για την εξαγωγή συμπερασμάτων, είτε για απλή οπτικοποίηση και ομαδοποίηση. Εικόνα 2 Παράδειγμα χρήσης των γεωγραφικών πληροφοριών. (Α) Βάσεις δεδομένων σημείων γεωγραφικού ενδιαφέροντος. (Β) Βάσεις δεδομένων εναέριων εικόνων. (C) Μη δομημένες αναφορές σε γεωγραφικές τοποθεσίες. (D) Συλλογές πολυμέσων με γεωγραφικές αναφορές.

21 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Βάσεις δεδομένων σημείων γεωγραφικού ενδιαφέροντος Υπάρχουν βάσεις δεδομένων που παρέχουν χρήσιμες και σημαντικές πληροφορίες για αξιοθέατα και σημεία γεωγραφικού ενδιαφέροντος. Σημεία τέτοιου τύπου καλούνται με τον όρο Points Of Interest (POI). Με βάση αυτά έχουν αναπτυχθεί λογισμικά και βάσεις δεδομένων για την καλύτερη, πιο εύκολη ανάλυση και προβολή τους. Ένα ιδιαίτερα διαδεδομένο λογισμικό για αυτή τη χρήση είναι το Geographical Information Systems (GIS). Το σύστημα αυτό παρέχει πληροφορίες που σχετίζονται με το γεωγραφικό μήκος και πλάτος, χαρακτηριστικά των διαφόρων χωρών ανά τον κόσμο (όπως πληθυσμό, έκταση), καθώς και χαρακτηριστικά που σχετίζονται με την μορφολογία του εδάφους (όπως κλίση, υψόμετρο). Επίσης ένα χαρακτηριστικό παράδειγμα βάσης δεδομένων POI είναι η βάση Geonames, η οποία περιέχει πάνω από 10 εκατομμύρια τοπωνύμια και σχετικές πληροφορίες που έχουν περισυλλεχθεί από διάφορες πηγές. Ιδιαίτερο ενδιαφέρον παρουσιάζουν τεχνικές που χρησιμοποιούν βάσεις δεδομένων αντικειμένων POI. Ένα παράδειγμα είναι ο λεγόμενος αντίστροφος-γεωπρογραμματισμός (reverse-geocoding), όπου δίνοντας σαν είσοδο κάποιες GPS συντεταγμένες, εμφανίζει στοιχεία που σχετίζονται με τα χαρακτηριστικά και τα σημεία που παρουσιάζουν γεωγραφικό ενδιαφέρον κοντινά στην περιοχή, όπως στις [JL 2008] και [LFK 2007]. Παρά την αξιοπιστία των δεδομένων των βάσεων υπάρχουν ορισμένοι σοβαροί περιορισμοί. Καταρχήν κάθε μέρος αντιστοιχεί σε ένα σημείο, έτσι δεν υπάρχει η δυνατότητα της χωρικής αντίληψης του αντικειμένου. Αυτό το πρόβλημα έχει αντιμετωπιστεί, εν μέρει, από κάποιες γεωγραφικές βάσεις, όπως η Wikimapia, κάνοντας χρήση πολυγώνων αντί σημείων. Επίσης πολλά διαφορετικά αντικείμενα μπορεί να αντιστοιχούν στην ίδια τοποθεσία, λόγω της μικρής τους πραγματικής απόστασης. Τέλος, υπάρχει μεγάλο ενδεχόμενο έλλειψης σημαντικών πληροφοριών, ιδιαιτέρα όσον αφορά εσωτερικούς χώρους Βάσεις δεδομένων εναέριων εικόνων Οι βάσεις δεδομένων εναέριων εικόνων δίνουν την δυνατότητα στον χρήστη να περιηγηθεί στον κόσμο, συνδυάζοντας εικόνες από δορυφόρους, εναέριες φωτογραφίες και χάρτες της γης σε ένα γραφικό περιβάλλον προσιτό και εύκολα διαχειρίσημο από τον χρήστη. Ο χρήστης κινείται στον κόσμο κατά βούληση σε διάφορα επίπεδα ανάλυσης και λεπτομέρειας. Οι πιο διαδεδομένες βάσεις δεδομένων τέτοιου τύπου είναι το Google Earth 2 και το Bird s Eye View 3. Ιδιαίτερο ενδιαφέρον παρουσιάζει η λειτουργία του Google Earth, όπου δίνεται η δυνατότητα τοποθέτησης διαφόρων πολυμέσων απευθείας πάνω στον χάρτη. Με αυτόν τον τρόπο προσφέρονται πάρα

22 22 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο πολλές πληροφορίες γεωγραφικού ενδιαφέροντος για διάφορες τοποθεσίες πάνω στον πλανήτη. Το βασικό πλεονέκτημα της χρήσης εναέριων φωτογραφιών για την αναγνώριση μιας εικόνας είναι το ότι παραμένει ανεπηρέαστη από πρόσκαιρες καταστάσεις (όπως ο καιρός, κάποιο γεγονός), τα οποία επηρεάζουν κατά πολύ τις επίγειες φωτογραφίες, και καθιστά δύσκολη έως και αδύνατη την πρόληψη και αποφυγή τους. Παρόλα αυτά, η χρήση εναέριων εικόνων μπορεί να αποδειχθεί επιζήμια, διότι απαιτεί μεγάλη ακρίβεια, με αποτέλεσμα να είναι ιδιαίτερα ευαίσθητη στο θόρυβο, ειδικά όταν πρόκειται για λανθασμένη είσοδο συντεταγμένων. Τέλος, οι εναέριες εικόνες είναι περισσότερο προσανατολισμένες στην απεικόνιση μιας τοποθεσίας συνολικά, δηλαδή απεικονίζει ολόκληρη την περιοχή, παρά τα πλαίσια μιας εικόνας Μη δομημένες αναφορές σε γεωγραφικές τοποθεσίες Το διαδίκτυο αποτελεί ένα μέσο αποθήκευσης και άντλησης τεραστίου όγκου γνώσης και πληροφορίας. Ιστοσελίδες, blogs, wikis, και κοινωνικά δίκτυα (Facebook, Twitter) είναι πλούσιοι σε πληροφορίες διαδικτυακοί τόποι, και καθίστανται ιδανικοί για τέτοιου είδους μελέτες. Ιδιαίτερο ενδιαφέρον παρουσιάζουν τα κοινωνικά δίκτυα, τα οποία παρέχουν τη δυνατότητα άμεσου προσδιορισμού της θέσης που έγινε κάποια ενέργεια, συνήθως μέσω της χρήσης κινητών τηλεφώνων. Βασικό μειονέκτημα είναι ότι ο μεγάλος όγκος πληροφορίας συνοδεύεται και από μεγάλα επίπεδα θορύβου. Επιπρόσθετα, για την χρησιμοποίηση των πληροφοριών ως ένα σημείο που έχουν κάποια ανάμειξη οι απλοί χρήστες, απαιτείται ιδιαίτερα επίπονη προ - επεξεργασία των δεδομένων, διότι βρίσκονται σε μη δομημένη μορφή. Λόγω της πολύ μεγάλης έκτασης του δεδομένου θέματος δεν αναπτύσσεται περεταίρω, καθώς ξεφεύγει από τα πλαίσια της διπλωματικής εργασίας Συλλογές πολυμέσων με γεωγραφικές αναφορές Οι συλλογές πολυμέσων με γεωγραφικές αναφορές αποτελούν μία ευρέως διαδεδομένη πηγή για την άντληση γεωγραφικών πληροφοριών. Οι εικόνες και τα βίντεο είναι τοποθετημένα σε ένα φιλικό προς τον χρήστη περιβάλλον και εύκολα προσπελάσιμο. Σε αυτές τις συλλογές τα πολυμέσα συνοδεύονται από πληροφορίες μετα-δεδομένων, που σχετίζονται με το χρόνος λήψης αυτών, στοιχεία των χρηστών που τα ανέβασε κ.τ.λ. Οι πιο δημοφιλείς ιστοχώροι, που προσφέρουν την δυνατότητα στον χρήστη να μοιραστεί, να αναζητήσει και να αναπαράγει τις εικόνες και τα βίντεο που φιλοξενούνται, είναι το Flickr 4, το Picasa Web 5 και το Panoramio 6. Με ένα απλό drag and drop ο χρήστης μπορεί να τοποθετήσει την εικόνα ή το βίντεο του πάνω

23 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ στον χάρτη της γης. Οι συλλογές πολυμέσων με γεωγραφικές αναφορές είναι ευρέως διαδεδομένες, διότι δίνουν την δυνατότητα χρήσης απλοϊκών μεθόδων διεξοδικής αναζήτησης (brute force) για την εξαγωγή σημασιολογικών και γεωγραφικών συμπερασμάτων ενός συνόλου πολυμέσων, βασισμένων στις οπτικές πληροφορίες αυτών και των μετα-δεδομένων που τα συνοδεύουν, όπως στις [[GLY 2009]] και [ΜΚΜ 2008]. Το βασικό μειονέκτημα μιας τέτοιου τύπου πηγής άντλησης πληροφοριών είναι ότι υπάρχει πιθανότητα ανθρώπινου λάθους, σε επίπεδα κάποιου ορθογραφικού λάθους, ή άστοχη επιλογή κάποιας λέξης που προσδίδει διαφορετικό νόημα. 2.3 Αναγνώριση της σημασιολογίας των πολυμέσων Ο όρος της αναγνώρισης της σημασιολογίας των πολυμέσων περιλαμβάνει μία πληθώρα προβλημάτων που καλούνται να αντιμετωπιστούν για τον εντοπισμό της γεωγραφικής θέσης ενός πολυμέσου. Όπως είναι προφανές, η αναγνώριση του περιεχομένου που απεικονίζεται σε μία εικόνα ή ένα βίντεο απορρέει από την σημασιολογική ερμηνεία αυτού. Γενικότερα η σημασιολογία μιας εικόνας ή βίντεο είναι ένα πολύ σημαντικό θέμα που έχει απασχολήσει τις τελευταίες δεκαετίες τους ερευνητές. Με βάση αυτή δίνεται η δυνατότητα ταξινόμησης των πολυμέσων σε ένα σύνολο οντοτήτων, όπου με αυτόν τον τρόπο μπορεί να πραγματοποιηθεί η οργάνωσης, ανάκτησης και σχολιασμού των πολυμέσων με βάση την σημασιολογία τους, όπως στη [CLK 2008]. Η ανίχνευση πολυμέσων που απεικονίζουν ένα γεγονός (event/scene) ή ένα αντικείμενο(object) είναι πάρα πολύ σημαντική για την αναγνώριση, διαχείριση και ανάκτηση αυτών από μία μεγάλη συλλογή [AKH 2010]. Ως εκ τούτου η έρευνα στην ανάκτηση των πολυμέσων είναι σε μεγάλο βαθμό συνδεδεμένη με την αναγνώριση της σημασιολογίας Αναγνώριση γεγονότων Πολύ σημαντικό παράγοντα, για την σημασιολογική ανάλυση, αποτελεί η ανίχνευση των πολυμέσων που απεικονίζουν κάποιο γεγονός, όπως μία φωτογραφία από μια συναυλία ή ένα βίντεο από έναν ποδοσφαιρικό αγώνα ή εορτασμό γενεθλίων. Γενικά, η αναγνώριση τέτοιου τύπου γεγονότων μπορεί να επιτευχθεί χρησιμοποιώντας ταξινομητές, στους οποίους εισάγονται ως σύνολα εκπαίδευσης εικόνες τέτοιου τύπου, που απεικονίζουν κάποιο γεγονός. Οι ταξινομητές αυτοί, μετά την εκπαίδευσή τους, είναι σε θέση να αναγνωρίσουν, ή να εκφράσουν, την πιθανότητα μια εικόνα να ανήκει σε μία συγκεκριμένη κατηγορία γεγονότων. Στην [YKW 2008] θεωρείται ότι η γεωγραφική θέση που είναι τοποθετημένη η εικόνα μπορεί να δώσει αρκετά χρήσιμες πληροφορίες για το κατά πόσο μπορεί να αποτελεί απεικόνιση κάποιου είδους γεγονός. Για παράδειγμα, αν η εικόνα είναι τραβηγμένη σε περιοχή με μεγάλο υψόμετρο είναι πιθανό να απεικονίζονται δραστηριότητες όπως σκι ή πεζοπορία. Βασικό παράγοντα για την αναγνώριση ενός γεγονότος σε ένα πολυμέσο λαμβάνει η οπτική ανάλυση, καθώς και η ανάλυση των tags που έχουν προστεθεί, όπως και άλλα

24 24 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο μετα-δεδομένα που αντλούμε, κυρίως χρονικές και χωρικές πληροφορίες. Επιπλέον, ένα βασικό μέρος της διαδικασίας αναγνώρισης μιας εικόνας, είναι η εξόρυξη γνώσης από μία συλλογή εικόνων οι οποίες λαμβάνονται σαν ένα σύνολο, και έτσι εξάγονται συμπεράσματα για αυτό, όπως γίνεται στη [QLG 2008]. Τέλος, οι γεωγραφικές πληροφορίες για μία εικόνα μπορούν να φανούν χρήσιμες και για την αναγνώριση ανθρώπων στο πλαίσιο μιας εικόνας. Τέτοιου τύπου ανάλυση γίνεται στα πλαίσια αναγνώρισης της κοινωνικής και πολιτισμικής σημασιολογίας ενός πολυμέσου. Παραδείγματος χάριν, αν σε μία εικόνα υπάρξει κάποια αναφορά στη λέξη noodles ή αναγνώριση αυτών μέσω οπτικής ανάλυσης, η τοποθεσία με την μεγαλύτερη πιθανότητα να ανήκει η εικόνα θα ήταν η Ανατολική Ασία. Για την ανάλυση τέτοιων πολυμέσων χρησιμοποιούνται παρόμοιες τεχνικές με τις παραπάνω, εξάγοντας συμπεράσματα από την ανάλυση των συλλογών των επιλεγμένων πολυμέσων με τα απαιτούμενα χαρακτηριστικά που αντιστοιχούν σε αυτήν την κατηγορία Γεωγραφική θέση και αναγνώριση αξιοθέατων Είναι εύκολο για κάποιον να αναγνωρίσει μια εικόνα από κάποιο γνωστό αξιοθέατο, όπως τον Παρθενώνα, τον πύργο του Άιφελ ή την Παναγία των Παρισίων. Επίσης, είναι εφικτό εάν εξετάσει μία εικόνα που δεν απεικονίζεται κάποιο γνωστό αξιοθέατο, να εξάγει κάποια συμπεράσματα για την θέση της βασισμένος σε ορισμένα χαρακτηριστικά των εικονιζόμενων τοπίων. Η αρχιτεκτονική και τα υλικά που είναι χτισμένα τα κτίρια, το περιβάλλον και η βλάστηση σε αυτό, η εμφάνιση κάποιου ζώου είναι χαρακτηριστικά που μας βοηθούν στον εντοπισμό μιας πιθανής θέσης μιας εικόνας. Στο παρακάτω σχήμα παρουσιάζεται ένα παράδειγμα τέτοιου τύπου εικόνων. Εικόνα 3 Παραδείγματα εικόνων που είναι σχετικά εύκολη η εύρεση της γεωγραφικής τους θέσης. Οι πρώτες τρεις εικόνες απεικονίζουν γνωστά αξιοθέατα (Παρθενώνας, Πύργος του Άιφελ και Παναγία των Παρισίων) και οι υπόλοιπες είναι χαρακτηριστικές των τοποθεσιών που απεικονίζουν (Έρημος Σαχάρα, Αμαζόνιος, Βενετία)

25 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Ένα βασικό πρόβλημα που προκύπτει είναι η αυτόματη αναγνώριση του κατά πόσο ένα πολυμέσο απεικονίζει κάποιο αξιοθέατο ή ένα απλό τοπίο. Και στις δύο περιπτώσεις μπορούμε να εξάγουμε χρήσιμες πληροφορίες για την γεωγραφική θέση μιας άγνωστης εικόνας. Τα αξιοθέατα έχουν το χαρακτηριστικό ότι είναι μοναδικά ανά τον κόσμο, και γενικά είναι σε μία στάσιμη μορφή, δηλαδή, δύσκολα μπορεί να υπάρξει κάποια αλλαγή στην εμφάνισή τους. Άρα, για την αναγνώριση των αξιοθέατων σε μία υπό εξέταση εικόνα, η χρήση μιας αρκετά μεγάλης συλλογής γεωγραφικά τοποθετημένων πολυμέσων ως σύνολο εκπαίδευσης είναι αρκετή. Για τον εντοπισμό απλών τοπίων τα πράγματα είναι πιο δύσκολα, διότι παρόμοια τοπία μπορεί να εμφανίζονται σε διαφορετικά σημεία του κόσμου. Έτσι, για μία πιο αποδοτική αναγνώριση των τοπίων γίνεται επεξεργασία των μετα-δεδομένων που μπορεί να συνοδεύουν το υπό εξέταση πολυμέσο, όπως κάποιο σύνολο από tags, λαμβάνοντας αξιοσημείωτα αποτελέσματα. Όπως αναφέρθηκε πιο πάνω, για την αναγνώριση των αξιοθέατων, αλλά και των απλών τοπίων, χρησιμοποιείται ένα πλήθος πολυμέσων που γνωρίζουμε εκ των προτέρων την ακριβή γεωγραφική τους θέση και τα οποία δίνονται σαν είσοδος σε ένα αλγόριθμο, ως σύνολο εκπαίδευσης, [ZK 2006]. Έτσι οποιαδήποτε εικόνα δίνεται για εξέταση, η ομοιότητα της ελέγχεται με τα πολυμέσα αυτά. Για την οπτική ανάλυση, οι τεχνικές υπολογισμού ομοιότητας εικόνων που εφαρμόζονται είναι οι τεχνικές SIFT, SURF και MSER, οι οποίες εξετάζουν κατά πόσο μοιάζουν τα χαρακτηριστικά των εξεταζόμενων εικόνων. Σημαντική είναι και η ανάλυση των μεταδεδομένων και πιο συγκεκριμένα των tags που συνοδεύουν τα πολυμέσα του συνόλου εκπαίδευσης, από τα οποία δημιουργείται ένα λεξιλογικό δέντρο (vocabulary tree). Το δέντρο αυτό χρησιμοποιείται για την οργάνωση του τεράστιου αριθμού των σημείων που θεωρούνται σημαντικά, με ιεραρχική ταξινόμηση αυτών σε κάθε επίπεδο του δέντρου. Άρα, για κάθε επίπεδο του δέντρου γίνεται μια SIFT σύγκριση, και στο τέλος ως πιο πιθανή λύση θεωρείται η θέση του πολυμέσου με τον μεγαλύτερο βαθμό ομοιότητας. Σε εφαρμογές τέτοιων αλγορίθμων δημιουργούνται δέντρα με ένα τεράστιο αριθμό κόμβων, που μπορεί να φτάσουν και το ένα εκατομμύριο, και λαμβάνονται ικανοποιητικά αποτελέσματα. Τέλος, με βάση τα παραπάνω καθίσταται εφικτή η δημιουργία 3D μοντέλων απεικόνισης των αξιοθέατων και χρήση τους για τουριστικούς σκοπούς. Παρόμοιες υλοποιήσεις αναπτύσσονται γενικότερα για τον αυτόματο εντοπισμό της γεωγραφικής θέσης από εικόνα ή βίντεο. Λύσεις που έχουν δοθεί στο συγκεκριμένο πρόβλημα θα αναλυθούν στην συνέχεια Οργάνωση, επισημείωση και ανάκτηση πολυμέσων Η σημασιολογική οργάνωση αποτελεί ένα ουσιαστικό κομμάτι της ανάλυσης των πολυμέσων. Η διαδικασία αυτή βασίζεται στο αντικείμενο που απεικονίζεται, την σημασιολογία που μπορεί να προκύψει από την ανάλυσή του, και σε άλλα χαρακτηριστικά από τα οποία απορρέουν χρήσιμα συμπεράσματα που ενδεχομένως επηρεάζουν στην κατάταξη τους. Λαμβάνοντας υπόψη χωρικές και χρονικές πληροφορίες μπορεί να δημιουργηθεί μια ιεραρχική δομή των τοποθεσιών με βάση την

26 26 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο σημασιολογία τους. Σύμφωνα με το περιεχόμενο κάθε κόμβου της δομής μπορεί να δοθεί μία χαρακτηριστική επισημείωση, στην οποία θα αντικατοπτρίζεται το βασικό νόημα του περιεχομένου αυτού. Μία τέτοιου τύπου δομή είναι πολύ εύκολη και ευέλικτη στην χρήση, καθιστώντας την αναζήτηση και ανάκτηση πολυμέσων με βάση την σημασιολογία τους, ιδιαίτερα προσιτή και διαχειρίσιμη. Η συγκεκριμένη εφαρμογή χρησιμοποιείται κατά κόρον στην οργάνωση και επεξεργασία των εικόνων με βάση τα μετα-δεδομένα τους, για τον εντοπισμό της θέσης, αλλά και την επίλυση διαφόρων τύπων προβλημάτων, [EOW 2007]. 2.4 Μέθοδοι αυτόματου εντοπισμού της γεωγραφικής θέσης ενός πολυμέσου Η προοπτική να καταστεί εφικτή η αξιοποίηση της συσχέτισης της γεωγραφικής θέσης και των μετα-δεδομένων μιας εικόνας φαίνεται ιδιαίτερα δελεαστική. Έτσι τα τελευταία χρόνια γίνονται προσπάθειες υλοποίησης ενός αποδοτικού μοντέλου για τον αυτόματο εντοπισμό της γεωγραφικής θέσης ενός πολυμέσου, με βάση την οπτική ανάλυση αυτού και την ανάλυση των μετα-δεδομένων που το συνοδεύουν. Για το λόγο αυτό τα δεδομένα αντλούνται συνήθως από τις συλλογές πολυμέσων με γεωγραφικές αναφορές, όπως για παράδειγμα από το Flickr, έτσι ώστε να καλύπτονται οι απαιτήσεις σε πληροφορίες, για τα πολυμέσα που χρησιμοποιούνται, και που είναι απαραίτητες από την φύση του προβλήματος Εντοπισμός γεωγραφικής θέσης με οπτική ανάλυση Η ευρέως διαδεδομένη έρευνα που χρησιμοποιεί οπτική ανάλυση των εικόνων, στην οποία γίνονται πολύ συχνά αναφορές, είναι η [HE 2008]. Σε αυτή, οι Hays και Efros αναπτύσσουν το σύστημα IM2GPS, σκοπός του οποίου είναι ο εντοπισμός της γεωγραφικής θέσης μιας εικόνας μέσω της οπτικής ανάλυσης του περιεχομένου της και της σύγκρισης αυτού με ένα σύνολο φωτογραφιών που χρησιμοποιήθηκαν για την εκπαίδευση του συστήματος. Προκειμένου να γίνει εφικτή η μέτρηση της συσχέτισης των εικόνων, χρησιμοποιούνται οι παρακάτω μέθοδοι σύγκρισης: Μικροσκοπικές εικόνες : η λιγότερο σημαντική μέθοδος για την σύγκριση των εικόνων, είναι η απευθείας σύγκριση των χρωματικών συνιστωσών του περιεχομένου τους. Μειώνοντας τις διαστάσεις της εικόνας επιτυγχάνεται μια υπολογιστικά πιο εύκολη και γρήγορη υλοποίηση, καθώς και λιγότερο ευαίσθητη στην ακριβή αντιστοίχηση των χρωμάτων των σημείων που βρίσκονται στις αντίστοιχες θέσεις. Για τη συγκριμένη εφαρμογή επιλέγεται το μέγεθος των χρησιμοποιούμενων εικόνων να είναι 16x16.

27 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Χρωματικό ιστόγραμμα : σε αυτή τη μέθοδο δημιουργούνται ιστογράμματα χρωμάτων, διαστάσεων L a b, για κάθε εικόνα. Στην συγκεκριμένη μέθοδο, χρησιμοποιούνται ιστογράμματα με 4,14,14 για τα μεγέθη L,a,b αντίστοιχα και προκύπτοντας 784 συνολικές διαστάσεις. Η ομοιότητα μετριέται με βάση την απόσταση x 2 των ιστογραμμάτων. Θεματικά ιστογράμματα : μέσω του κειμένου των εικόνων μπορεί να προκύψει κάποια συσχέτιση μεταξύ των εικόνων. Έτσι, αναπτύχθηκε λεξιλόγιο που αποτελείται από λέξεις συνολικού μήκους 512 θέσεων, το οποίο προέκυψε από τα tags των εικόνων του συνόλου εκπαίδευσης, θέτοντας φίλτρα με 8 κατευθύνσεις (orientation), 2 κλίμακες (scale) και 2 μήκη (elongation). Άρα για κάθε εικόνα δημιουργείται ένα ιστόγραμμα 512 διαστάσεων με βάση το λεξιλόγιο αυτό. Και σε αυτή τη μέθοδο, η ομοιότητα των ιστογραμμάτων μετριέται με τη χρήση της απόστασης x 2 μεταξύ τους. Γραμμικά χαρακτηριστικά : Παρατηρήθηκε ότι τα στατιστικά στοιχεία των ευθείων γραμμών, μπορούν να χρησιμοποιηθούν με τέτοιο τρόπο ώστε να διαχωρίζονται οι φυσικές εικόνες, από αυτές που είναι επεξεργασμένες. Για κάθε εικόνα δημιουργούνται δύο ιστογράμματα, το ένα σχετίζεται με τις γωνίες των γραμμών και το άλλο με τα μήκη τους. Για την σύγκριση των ιστογραμμάτων αυτών χρησιμοποιείται η L1 απόσταση. Περιγραφή του κυρίου μέρους και χρώματος (Gist Descriptor) : η περιγραφή του κυρίου μέρους χρησιμοποιείται για την κατηγοριοποίηση των εικόνων και για την ανάκτηση σημασιολογικά και δομικά παρόμοιων εικόνων. Η χωρική ανάλυση των εικόνων δημιουργεί ένα πλαίσιο 5x5, από την εφαρμογή φίλτρων 6 κατευθύνσεων και 4 κλιμάκων. Επίσης, δημιουργούνται μικρές εικόνες L a b, σε 5x5 χωρική ανάλυση. Γεωμετρικό περιεχόμενο : στη μέθοδο αυτή υπολογίζονται γεωμετρικές κλάσεις για τις περιοχές της εικόνας. Επίσης, χρησιμοποιούνται μόνο οι πρωτεύουσες κλάσεις και μειώνονται οι χάρτες πιθανότητας για κάθε κλάση, σε 8x8. Και σε αυτή τη μέθοδο, για την σύγκριση των ιστογραμμάτων αυτών χρησιμοποιείται η L1 απόσταση. Αφού ολοκληρωθεί η προεπεξεργασία των δεδομένων, ξεκινά η διαδικασία του ελέγχου. Κάθε εικόνα που ανήκει στο αντίστοιχο σύνολο, υποβάλλεται σε διαδικασία συγκρίσεων με τις εικόνες του συνόλου εκπαίδευσης, σύμφωνα με τις παραπάνω μεθόδους. Για κάθε μέθοδο χρησιμοποιείται μια κλίμακα για τις αποστάσεις μεταξύ των εικόνων, έτσι ώστε η τυπική απόκλιση να βρίσκεται στα ίδια επίπεδα. Συναθροίζοντας τις αποστάσεις από τις μεθόδους σύγκρισης για κάθε εξεταζόμενη εικόνα, βρίσκεται ο κοντινότερος γείτονας της και με αυτόν τον τρόπο υπολογίζονται οι GPS συντεταγμένες της.

28 28 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Ο πιο απλός τρόπος υπολογισμού των GPS συντεταγμένων είναι η χρήση των αντίστοιχων συντεταγμένων του πρώτου κοντινότερου γείτονα (1-ΝΝ). Προφανώς στις περισσότερες περιπτώσεις του συνόλου ελέγχου, τα αποτελέσματα αυτού του τρόπου δεν αντικατοπτρίζουν την πραγματική θέση των υπό εξέταση εικόνων. Μία πολύ πιο αποδοτική λύση είναι να χρησιμοποιηθούν k κοντινότεροι γείτονες (k-νν, όπου στην συγκεκριμένη περίπτωση επιλέγεται k=120). Επίσης, μια διαφορετική υλοποίηση χρησιμοποιεί τον αλγόριθμο ομαδοποίησης κινητού-μέσου, με βάση το σκεπτικό της αντιστοίχησης της υπό εξέταση εικόνας, στη θέση όπου παρουσιάζεται μεγαλύτερη πυκνότητα όμοιων εικόνων. Ως παράμετροι της ομαδοποίησης τίθεται εύρος 500km και απόρριψη όσων ομάδων περιείχαν λιγότερες από 4 αντιστοιχίες. Έτσι προκύπτουν 6 με 12 ομάδες που περιέχουν κατά μέσο όρο τα δύο τρίτα των 120 αντιστοιχίσεων, που χρησιμοποιήθηκαν πιο πάνω. Το κύριο μειονέκτημα της ομαδοποίησης κινητού-μέσου είναι ότι τοποθεσίες με λίγες απεικονίσεις στο σύνολο εκπαίδευσης, θεωρούνται ως εξωκείμενες τιμές και απορρίπτονται Εντοπισμός γεωγραφικής θέσης με βάση τα μετα-δεδομένα Η πρώτη έρευνα που ασχολήθηκε με την τοποθέτηση εικόνων σε χάρτη, βασισμένη σε μετα-δεδομένα αυτής είναι η [SMZ 2009]. Στα πλαίσια αυτής αναπτύσσεται ένας αλγόριθμος που χρησιμοποιεί εικόνες από το Flickr και με βάση τις επισημειώσεις που έχουν γίνει από τους χρήστες, τις τοποθετεί προσεγγιστικά στο χάρτη. Για την προεπεξεργασία των δεδομένων δημιουργείται ένα πλέγμα συνολικών διαστάσεων m x n, με βάση το γεωγραφικό μήκος και πλάτος του πλανήτη, όπου κάθε κελί του πλέγματος αντιπροσωπεύει μία τοποθεσία. Το κύριο σκεπτικό είναι η αντιστοίχιση κάθε εικόνας σε ένα κελί του πλέγματος, με οδηγό την λεκτική περιγραφή της τοποθεσίας που απεικονίζεται, και την οργάνωση αυτών σε μία δομή γράφου, που αντιπροσωπεύει τις χωρικές και σημασιολογικές σχέσεις μεταξύ τους. Τα γνωστά στοιχεία για κάθε εικόνα είναι το FlickrID, οι γεωγραφικές συντεταγμένες της και ένα σύνολο από tags που την συνοδεύουν. Άρα εύκολα βγαίνει το συμπέρασμα, ότι οι εικόνες θα αντιστοιχηθούν στο κατάλληλο κελί του πλέγματος με βάση τις γεωγραφικές τους συντεταγμένες. Ένα πολύ βασικό ζήτημα που προκύπτει είναι η ακρίβεια του συστήματος αντιστοίχισης για τα διάφορα επίπεδα λεπτομέρειας του πλέγματος. Η έκφραση των κελιών γίνεται σύμφωνα με το γεωγραφικό μήκος και πλάτος, λαμβάνοντας 0-2 ψηφία του δεκαδικού μέρους, που εκφράζει το επίπεδο λεπτομέρειας του πλέγματος. Έτσι τα κελιά του πλέγματος μπορούν να θεωρηθούν, κατά προσέγγιση, τετράγωνα, με γεωγραφικό μήκος ίσο με 111km και για διάφορες τιμές του γεωγραφικού πλάτους, στο διάστημα από 0km (πόλοι) μέχρι 111km (ισημερινός). Με αυτό τον τρόπο καθίσταται εφικτή η ρύθμιση του επιπέδου λεπτομέρειας, λαμβάνοντας τιμές για το γεωγραφικό πλάτος ανά 1, 5, 10, 50, 100 km. Η αντιστοίχιση των εικόνων στα κελιά του πλέγματος σημαίνει και τη σύνδεση των τελευταίων με τα αντίστοιχα tags των εικόνων. Αυτό δίνει τη δυνατότητα για την ανάπτυξη ενός λεξιλογικού μοντέλου που θα αντιπροσωπεύει μία τοποθεσία.

29 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Θεωρώντας αμελητέα την σειρά των tags και χωρίς να γίνει κάποια σημασιολογική ανάλυση αυτών ή κάποιου είδους φιλτράρισμα, δημιουργείται ένα σύνολο από tags (bag-of-tags), το οποίο παραπέμπει σε μία τοποθεσία. Βέβαια το Flickr αυτόματα εφαρμόζει κάποιου τύπου κανονικοποίηση των tags. Γενικότερα αυτή η διαδικασία ονομάζεται μοντέλο bag-of-words (BoW) και χρησιμοποιείται για την ομαδοποίηση εικόνων. Σύμφωνα με αυτό το μοντέλο οι εικόνες αντιστοιχούν σε κάποιες λέξεις και κατ επέκταση σε ένα χαρακτηριστικό κείμενο. Σε μία δομή πλέγματος, η οποία αποτελείται από τοποθεσίες, εύκολα μπορεί να βγει το συμπέρασμα ότι υπάρχουν χωρικές σχέσεις μεταξύ των κελιών αυτού. Με βάση αυτή την παρατήρηση, δημιουργείται ένας γράφος στον οποίο η σύνδεση των σημείων γίνεται όταν οι τοποθεσίες που υπάγονται στα σημεία αυτά βρίσκονται αρκετά κοντά. Τα κελιά της δομής του πλέγματος συνορεύουν με 8 γειτονικά κελιά, απόστασης ενός κελιού και με 24 κελιά σε απόσταση δύο κελιών. Άρα ως γειτονικές θεωρούνται οι περιοχές που έχουν απόσταση μικρότερη ή ίση ενός κατωφλιού. Με το ίδιο σκεπτικό οι γειτονικές περιοχές, εκτός από χωρική, έχουν και σημασιολογική ομοιότητα. Έτσι στην συγκεκριμένη περίπτωση οι γειτονικές περιοχές υπάρχει πιθανότητα να χαρακτηρίζονται από παρόμοια tags. Από τα παραπάνω βγαίνει το συμπέρασμα ότι υπάρχει η δυνατότητα εντοπισμού της γεωγραφικής θέσης μιας εικόνας με βάση το σύνολο των tags που την συνοδεύουν. Με τον τρόπο αυτό δημιουργείται μία φθίνουσα κατάταξη L πιθανών τοποθεσιών, για ένα σύνολο T δοσμένων tags που ανήκουν σε μία εξεταζόμενη εικόνα. Η κάθε τοποθεσία εκφράζεται από μία πολυωνυμική κατανομή πιθανότητας, σύμφωνα με το λεξιλόγιο των tags και δίνεται από τον τύπο: P(L T) = P(T L)P(L) P(T) (εξ. 1.1) Από την στιγμή που δεν υπάρχει κάποια αρχική πληροφορία για τις τοποθεσίες και τα tags που να επηρεάζει την κατάταξη, θεωρείται η πιθανότητα P(L) ως ομοιόμορφη κατανομή και ότι η P(T) δεν επηρεάζει την κατάταξη. Επίσης, θεωρώντας ότι το σύνολο T αποτελείται από ti tags που είναι ανεξάρτητα μεταξύ τους, η πιθανότητα του συνόλου των tags δίνεται από την σχέση: T P(T L) = P(t i L) i=1 (εξ. 1.2) P(t L) = L L + λ P(t L) ML + λ L + λ P(t G) ML (εξ. 1.4) όπου P(t L) ML και P(t G) ML είναι η μέγιστη πιθανότητα εμφάνισης του δεδομένου tag στα πλαίσια της εικόνας L και του κόσμου G, δηλαδή το σύνολο των εικόνων,

30 30 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο αντίστοιχα. Το L είναι το μέγεθος της τοποθεσίας και το λ είναι η παράμετρος εξομάλυνσης Dirichlet, η επιλογή του οποίου διαδραματίζει σημαντικό ρόλο, ιδιαίτερα όταν τα επίπεδα λεπτομέρειας είναι μικρά. Στην συνέχεια εφαρμόζονται τέσσερις διαφορετικοί τρόποι εξομάλυνσης, ένας για κάθε υλοποίηση, οι οποίοι δίνουν διαφορετικά αποτελέσματα. Εξομάλυνση βάση των tags των γειτόνων Σε αυτού του τύπου την εξομάλυνση λαμβάνονται υπόψη το σύνολο των tags των γειτονικών τοποθεσιών και έτσι μπορούν να βγουν συμπεράσματα για μία περιοχή, δηλαδή ένα σύνολο κελιών. Ως εκ τούτου η πιθανότητα εμφάνισης ενός tag t για μία τοποθεσία L είναι: P(t L) = μ L L + λ P(t L) ML + (1 μ)p(t NB(L)) + λ L + λ P(t G) ML P(t NB(L)) = L P(t L ) ML L + λ (2d + 1) 2 1 L NB(L) όπου NB(L) είναι οι γειτονικές τοποθεσίες της L, d είναι η ελάχιστη απόσταση μεταξύ των συνδεόμενων τοποθεσιών και μ είναι συντελεστής εξομάλυνσης. Εξομάλυνση πιθανότητας συνάφειας κελιού (cell relevance) Σε αυτή την εξομάλυνση οι γειτονικές τοποθεσίες έχουν ακόμη μεγαλύτερη βαρύτητα στην διαμόρφωση της πιθανότητας εμφάνισης του συνόλου tags Τ σε μία τοποθεσία L, που δίνεται από τον τύπο: P(T L) = ap(t L) + (1 a) P(t L ) ML (2d + 1) 2 1 L NB(L) Ενίσχυση των tags που σχετίζονται με βάση τη γεωγραφική θέση Εύκολα κάποιος μπορεί να αντιληφθεί ότι υπάρχουν ορισμένα tags τα οποία βοηθούν περισσότερο στον εντοπισμό της γεωγραφικής θέση μιας εικόνας σε σχέση με άλλα. Τοπωνύμια, σημεία ενδιαφέροντος, γνωστά γεγονότα που λαμβάνουν χώρα σε μια συγκεκριμένη περιοχή είναι παραδείγματα που χαρακτηρίζουν με αρκετή ακρίβεια τη θέση της εικόνας. Έτσι η μέγιστη πιθανότητα εμφάνισης ενός tag t για μία τοποθεσία L διαμορφώνεται από τον τύπο: P(t L) ML = P(t L) ML (1 + βp(loc t))/z

31 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ όπου το P(Loc t) είναι η πιθανότητα του tag να είναι γεωγραφικής ακρίβειας, λαμβάνει τιμές 1 αν είναι και 0 αν δεν είναι, το β είναι ένας συντελεστής ενίσχυσης και το Z ένας συντελεστής κανονικοποίησης. Χωρική εξομάλυνση που λαμβάνει υπόψη την ασάφεια (ambiguity-aware) Είναι προφανές ότι ορισμένα tags αντιστοιχούν σε παραπάνω από μία τοποθεσίες, τα οποία θεωρούνται ότι έχουν υψηλή χωρική ασάφεια. Από την στιγμή που οι συντεταγμένες των εικόνων του σετ εκπαίδευσης είναι γνωστές, είναι δυνατός ο εντοπισμός των χωρικά ασαφών tags από την τυπική απόκλιση του γεωγραφικού μήκους και πλάτους του σ lat, σ lon. Για να συμπεριληφθεί αυτός ο παράγοντας στο μοντέλο ο συντελεστής εξομάλυνσης λ υπολογίζεται από τον τύπο: λ(t) = λ + γ(σ lat (t) + σ lon (t)) όπου το γ είναι ένας συντελεστής βάρους για τον έλεγχο της επίδρασης του επιπέδου της ασάφειας στην εξομάλυνση. Σε αυτό το σημείο, γίνεται η εκπαίδευση του συστήματος με βάση το αντίστοιχο σύνολο, χρησιμοποιώντας το βασικό γλωσσικό μοντέλο LM (γενική περίπτωση), με ή χωρίς συνδυασμό κάποιας εξομάλυνσης που συμβολίζονται ως TS (tag-based εξομάλυνση) CS (εξομάλυνση κελιών) CSR (εξομάλυνση συνάφειας πιθανότητας) TB (Ενίσχυση γεω-σχετιζόμενων tags) AS (Εξομάλυνση χωρικής ασάφειας). Το επόμενο στάδιο είναι η διαδικασία ρύθμισης των παραμέτρων του συστήματος και τέλος ο εντοπισμός των θέσεων των εικόνων του σετ ελέγχου. Για την αξιολόγηση των αποτελεσμάτων το βασικότερο μέγεθος είναι η ακρίβεια (Acc), δηλαδή η σωστή τοποθέτηση μιας εικόνας σε κάποια καθορισμένη ακτίνα. Επίσης λαμβάνονται υπόψη και οι μετρικές αξιολόγησης που χαρακτηρίζουν την ποιότητα της πρόβλεψης, οι οποίες είναι: Mean Reciprocal Rank (MRR) μετρά την ικανότητα του συστήματος να βρει την ακριβή τοποθεσία μιας εικόνας με βάση τις καλύτερες προοπτικές. Parent Accuracy (PAcc) ελέγχει αν η πρόβλεψη της θέσης ανήκει στον ίδιο γονιό (μεγαλύτερη κλίμακα, π.χ. τα κελιά των 100km είναι γονείς των κελιών 50km) και αντιστοιχεί στο σωστό σημείο. Accuracy within K cells (Acc@K) υπολογίζει αν η πραγματική θέση βρίσκεται σε απόσταση K κελιών. Μια πιο πρόσφατη μελέτη που πραγματεύεται αυτό το θέμα είναι η [VLS 2011]. Σε αυτή την περίπτωση χρησιμοποιείται ένα σύνολο εικόνων για εκπαίδευση και ένα σύνολο βίντεο για έλεγχο. Γίνεται ομαδοποίηση του συνόλου εκπαίδευσης με την χρήση του αλγορίθμου k-medoids και στη συνέχεια, είτε εφαρμόζεται ταξινόμηση με

32 32 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο βάση γλωσσικά μοντέλα, είτε γίνεται υπολογισμός ομοιότητας των εικόνων, είτε μίξη των δύο αυτών μεθόδων. Πιο αναλυτικά, αρχικά γίνεται ομαδοποίηση στο σύνολο εκπαίδευσης με τον αλγόριθμο k-medoids, χωρίζοντας το σύνολο σε ξεχωριστές περιοχές Α, με βάση τον προκαθορισμένο αριθμό k των ομάδων. Η ομαδοποίηση γίνεται για σύνολο 50, 500, 2 500, 5 000, 7 500, , , , και περιοχών. Σε κάθε υλοποίηση, συντάσσεται ένα λεξιλόγιο V με τα πιο ενδιαφέροντα tags και καθορίζονται τα m πιο σημαντικά tags για κάθε περιοχή του συνόλου A, βάσει του x 2 χαρακτηριστικού. Συμβολίζοντας ως α την κάθε περιοχή του Α και ως t το κάθε tags μια εικόνας του α, το x 2 υπολογίζεται με βάση τον τύπο: x 2 (a, t) = (O ta E ta ) 2 E ta + (O ta E ta ) 2 E ta + (O t a E t a) 2 E t a + (O t a E t a ) 2 E t a (εξ. 1.5) όπου t το σύνολο των υπόλοιπων tags και a το εξωτερικό της περιοχής a. O yx ο αριθμός των εικόνων της περιοχής x που εμφανίζεται το y tag και E yx ο εκτιμώμενος αριθμός εμφανίσεων του tag y στην περιοχή x. Το E yx προκύπτει από τον τύπο E yx = Ν P(y) P(x), θεωρώντας ότι η πιθανότητα εμφάνισης ενός y tag, P(y), είναι ανεξάρτητη από την πιθανότητα επιλογής μιας περιοχής x, P(x) που υπολογίζεται από: P(x) = X a X b b A όπου X a το σύνολο των εικόνων που ανήκουν στην περιοχή x, x A. Τέλος ισχύει ότι P(x ) = (1 P(x)), με αποτέλεσμα όλα τα απαραίτητα στοιχεία να είναι γνωστά. Για την ανάλυση με γλωσσικά μοντέλα, χρησιμοποιείται η πιθανότητα ταξινόμησης μιας δεδομένης εικόνας x στην περιοχή a, με βάση τα tags αυτής σε σύγκριση με αυτά των εικόνων του συνόλου εκπαίδευσης. Η πιθανότητα αυτή δίνεται από τον τύπο: P(a x) P(a) P(t a) t x (εξ. 1.6) Για την P(a) χρησιμοποιείται ο παραπάνω τύπος. Για τον ακριβέστερο υπολογισμό του P(t a) γίνεται η Bayesian εξομάλυνση με αρχικές (prior) Dirichlet πιθανότητες και δίνεται από τον τύπο: α O ta + μ ( Α O tα ) α O P(t a) = Α t V t α ( t V O t a) + μ (εξ. 1.7) όπου το μ ανήκει στο διάστημα ]0,+ [. Η περιοχή a x που ταξινομείται η εικόνα x είναι αυτή που μεγιστοποιεί την P(a χ). Άρα, a x = arg a A max P(a) P(t a) t x

33 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Ολοκληρώνοντας, είναι χρήσιμο κάθε περιοχή να μετατραπεί σε ένα συγκεκριμένο σημείο, το οποίο επιλέγεται να είναι το αντιπροσωπευτικό μέσο αυτής που δίνεται από: med(a) = arg x a min d(x, y) Αντί για αναγωγή του προβλήματος σε πρόβλημα ταξινόμησης, μια πιο άμεση στρατηγική για τον εντοπισμό της θέση ενός x πολυμέσου είναι η εύρεση των εικόνων από το σύνολο εκπαίδευσης που παρουσιάζουν την μεγαλύτερη ομοιότητα. H εκτίμηση της θέσης του x υπολογίζεται από τον μέσο όρο αυτών. Θεωρώντας ότι y 1,,y k είναι οι πιο όμοιες εικόνες από το σύνολο εκπαίδευσης, η θέση του x εκτιμάται ως ένα κέντρο βαρύτητας (center-of-gravity) των προαναφερόμενων τοποθεσιών. k y a loc(x) = 1 k sim(x, y i) a loc(y i ) i=1 όπου το a ανήκει στο διάστημα ]0,+ [, έτσι ώστε οι τοποθεσίες με την μεγαλύτερη ομοιότητα να επηρεάζουν περισσότερο το αποτέλεσμα. Η ομοιότητα μεταξύ δύο τοποθεσιών προσδιορίζεται ποσοτικά με βάση την μέτρηση Jaccard, δηλαδή: s jacc (x, y) = x y x y Τέλος, μπορεί να πραγματοποιηθεί και ο συνδυασμός των δύο παραπάνω μεθόδων με τον ακόλουθο τρόπο. Αρχικά, με βάση την πρώτη μέθοδο βρίσκεται η πιο πιθανή περιοχή που μπορεί να ανήκει ένα εξεταζόμενο βίντεο. Στη συνέχεια, υπολογίζεται η ομοιότητα αυτού με τις εικόνες που ανήκουν στη συγκεκριμένη περιοχή μόνο. Εάν η ομοιότητα με κάποια εικόνα δεν υπερβαίνει κάποιο δεδομένο κατώφλι, τότε επιλέγεται το medoid της περιοχής Υβριδικές μέθοδοι Οι μέθοδοι αυτού του τύπου χρησιμοποιούν την ανάλυση και των δύο παραπάνω μεθόδων, δηλαδή συνδυάζουν την επεξεργασία των οπτικών χαρακτηριστικών και των μετα-δεδομένων των εικόνων. Μία χαρακτηριστική υλοποίηση που συνδυάζει τις δύο παραπάνω τεχνικές είναι η [CBH 2009], που χρησιμοποιεί ομαδοποίηση κινητού μέσου και ταξινόμηση με SMVs. Η διαδικασία σχηματισμού της βάσης δεδομένων πραγματοποιείται στα ακόλουθα στάδια. Αρχικά επιλέγεται μια τυχαία εικόνα από την συλλογή του Flickr. Στη συνέχεια ελέγχεται η λίστα φωτογραφιών του χρήστη που την ανέβασε και τις

34 34 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο αποθηκεύει, μαζί με τα μετα-δεδομένα τους (το σύνολο των tags, την ώρα και ημερομηνία που τραβήχτηκε, τη γεωγραφική της θέση). Έπειτα ελέγχει και αποθηκεύει την λίστα επαφών του χρήστη και κατεβάζει όσες γεωγραφικά τοποθετημένες εικόνες βρεθούν. Αυτή η διαδικασία επαναλαμβάνεται για μία καινούργια τυχαία εικόνα. Από αυτή τη διαδικασία αποθηκεύονται συνολικά εικόνες από χρήστες του Flickr. Μετά από φιλτράρισμα αυτών προκύπτει η τελική μορφή της βάσης που αποτελείται από εικόνες από χρήστες, συνολικής χωρητικότητας δύο terabyte. Ένα αρχικό πρόβλημα είναι η εύρεση των συχνότερα εικονιζόμενων τοποθεσιών, το οποίο μπορεί να αναχθεί σε πρόβλημα ομαδοποίησης δύο διαστάσεων. Ιδιαίτερα δημοφιλής για τέτοιες ομαδοποιήσεις είναι ο αλγόριθμος k-means. Όμως παρουσιάζει ένα βασικό μειονέκτημα, που συνίσταται στο ότι πρέπει να έχει καθοριστεί ο αριθμός των ομάδων εκ των προτέρων. Αυτό μπορεί να οδηγήσει σε προβλήματα, καθιστώντας τον όχι ιδιαίτερα αποδοτικό στο συγκεκριμένο πρόβλημα. Αντί για την χρήση καθορισμένων ομάδων, μπορεί να γίνει εκμετάλλευση του γεγονότος ότι σε χωρικά δεδομένα υπάρχει η φυσική παράμετρος βασισμένη στην κλίμακα επεξεργασίας και παρατήρησης. Ιδανική λύση είναι η χρήση της ομαδοποίησης κινητού μέσου. Είναι μία μη παραμετρική τεχνική η οποία απαιτεί μόνο μια εκτίμηση της κλίμακας των δεδομένων, για τον υπολογισμό της βασικής κατανομής πιθανότητας. Για μια δοσμένη τοποθεσία x υπολογίζεται ο πίνακας κινητού μέσου με βάση την: m h,g (x) = n i=1 x ig (x x i )/h 2 n i=1 g (x x i )/h 2 x (εξ. 1.8) Όπου xi είναι διάφορες τιμές των δεδομένων, το g είναι ένα βάρος για κάθε δεδομένο το οποίο προκύπτει από μία συνάρτηση πυρήνα (kernel) G και το h είναι μία παράμετρος που καθορίζει το εύρος. Έπειτα υπολογίζεται ένα τοπικό μέγιστο της κατανομής σύμφωνα με: x (i+1) = x (i) + m h,g (x) Όπως αναφέρθηκε πιο πάνω πρέπει να καθοριστούν τα επίπεδα ανάλυσης που θα χρησιμοποιηθούν. Έτσι επιλέγεται ένα σε κλίμακα πόλης(100km) και ένα σε επίπεδο αξιοθέατων(100m). Μετά την ομαδοποίηση γίνεται η αυτόματη επιλογή των χαρακτηριστικών tag για κάθε ομάδα. Απορρίπτοντας αυτά που εμφανίζονται σε λιγότερες από το 5% των εικόνων, γίνεται φθίνουσα κατάταξη των tags με βάση την συχνότητα εμφάνισης τους στις εικόνες της κάθε ομάδας. Παρατίθενται ενδεικτικά αποτελέσματα της ομαδοποίησης για τις 15 πρώτες ομάδες με τα χαρακτηριστικά tags τους, σε κλίμακα πόλης.

35 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Rank Users Photos Most distinctive tags newyorkcity nyc newyork london england sanfrancisco california paris france losangeles california chicago illinois washingtondc dc washington seattle washington rome roma italy italia amsterdam holland netherlands boston massachusetts barcelona spain sandiego california berlin germany lasvegas vegas nevada Πίνακας 1 Αποτελέσματα ομαδοποίησης κινητού μέσου, σε κλίμακα πόλης. Το επόμενο βήμα είναι η εκτίμηση της θέσης μιας εξεταζόμενης εικόνας με βάση τα οπτικά της χαρακτηριστικά και τα μετα-δεδομένα της. Για την αποτελεσματική λειτουργία χρησιμοποιούνται Bayesian ταξινομητές καθώς και γραμμικά Support Vector Machines (SMVs), με τα τελευταία να επιλέγονται για την παρουσίαση των αποτελεσμάτων. Για την οπτική ανάλυση εφαρμόζεται ο αλγόριθμος SIFT. Ουσιαστικά χρησιμοποιείται για τον εντοπισμό των κύριων σημείων μιας εικόνας, που επιτυγχάνεται με τη συνέλιξη της εικόνας με ένα σύνολο Laplacian και Gaussian φίλτρων. Για την ανάλυση των tags δημιουργείται ένας πίνακας, που η κάθε θέση του αντιστοιχεί σε ένα tag, χρησιμοποιώντας όσα εμφανίζονται τουλάχιστον 3 φορές στο σύνολο της βάσης. Κάθε φορά που εμφανίζεται ένα tag σε μία εικόνα η αντίστοιχη θέση του πίνακα παίρνει την τιμή 1, διαφορετικά παραμένει 0. Με αυτόν τον τρόπο δημιουργούνται πίνακες συνολικών διαστάσεων μεταξύ 500 και θέσεων. Επίσης γίνεται χρονική ανάλυση, δηλαδή εξετάζοντας δύο εικόνες του ίδιου χρήστη που έχουν κάποια χρονική διαφορά, περιορίζονται τα πιθανά σημεία της θέσης των εικόνων. Στον παρακάνω πίνακα εμφανίζονται τα αποτελέσματα ταξινόμησης. Είναι εμφανές ότι η ταξινόμηση με βάση τα tags είναι αρκετά πιο αποδοτική από ότι αυτή της οπτικής ανάλυσης. Άρα προκύπτει το συμπέρασμα ότι τα tags έχουν καθοριστικό ρόλο στον εντοπισμό της θέσης μιας εικόνας. Βέβαια ο συνδυασμός και των δύο αναλύσεων δίνει καλύτερα αποτελέσματα από ότι ξεχωριστά το καθένα. Επίσης είναι φανερό ότι πολύ σημαντικό ρόλο μπορεί να παίξει και η χρονική ανάλυση των εικόνων, που όπως φαίνεται ενισχύει ακόμη περισσότερο την ακρίβεια των αποτελεσμάτων.

36 36 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Single photos Temporal City Textual Visual Combined Textual Visual Combined tags tags tags tags 1.newyorkcity london sanfrancisco paris losangeles chicago washingtondc seattle rome amsterdam Cities Cities Cities Πίνακας 2 Αποτελέσματα ταξινόμησης Μια ακόμη έρευνα που υλοποιεί ένα υβριδικό μοντέλο εντοπισμού γεωγραφικής θέσης, που προσανατολίζεται στην ανάλυση βίντεο, είναι η [KSS 2012], η οποία κατατέθηκη στα πλαίσια του διαγωνισμού MediEval Benchmarking Για την υλοποίηση αυτή χρησιμοποιήθηκαν βίντεο από τη συλλογή του Flickr. Ο αυτόματος εντοπισμός της γεωγραφικής θέσης ενός βίντεο γίνεται βάσει ανάλυσης του οπτικού περιεχομένου και των μετα-δεδομένων, κατά έναν ιεραρχικό τρόπο και συμπεριλαμβανομένων διαφόρων μεθόδων που συνδυάζονται. Το σχήμα 2.10 είναι μια αναπαράσταση των βημάτων που ακολουθούνται. Αρχικά, γίνεται μια ταξινόμηση των βίντεο σε μια περιοχή του χάρτη χρησιμοποιώντας τους μεσημβρινούς και παράλληλους της γης. Το βασικό σκεπτικό είναι η χωρική κατάτμηση (spatial segmentation) της βάσης δεδομένων των γεωγραφικά τοποθετημένων στοιχείων και η δημιουργία προτύπων για κάθε ένα κομμάτι, βάσει των οπτικών χαρακτηριστικών και των χαρακτηριστικών κειμένου του. Τέλος, το πιθανοτικό μοντέλο ελέγχει όλα τα ιεραρχικά επίπεδα και οδηγεί στην εικόνα με την μεγαλύτερη ομοιότητα. Εικόνα 4 Ιεραρχική δομή εντοπισμού της τοποθεσίας με την μεγαλύτερη ομοιότητα, βάση των οπτικών χαρακτηριστικών και των χαρακτηριστικών κειμένου.

37 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Η ανάλυση των μετα-δεδομένων κειμένου μπορεί να θεωρηθεί ως ένα πρόβλημα ταξινόμησης εγγράφων ή αλλιώς bag-of-words (BoW). Για την εφαρμογή ενός πιθανοτικού ταξινομητή, οι χωρικές τοποθεσίες l θεωρούνται ως κλάσεις με σχετικά μετα-δεδομένα βάσει του συνόλου εκπαίδευσης που χρησιμοποιείται. Έτσι για κάθε κλάση σχηματίζεται ένα λεξιλόγιο V σύμφωνα με ορισμένα μέρη από τα tags, τους τίτλους και τις περιγραφές των βίντεο. Για την ταξινόμηση ορίζεται ως d μία ακολουθία από βίντεο ελέγχου, l τοποθεσίες και t όρων από τα μετα-δεδομένα κειμένου που χρησιμοποιούνται. Για κάθε ακολουθία εντοπίζεται η τοποθεσία με την μεγαλύτερη ομοιότητα, σύμφωνα με: l ml = arg a A max P(d l) (εξ. 1.9) όπου P(d l) είναι η πιθανότητα κατά την οποία η ακολουθία των βίντεο να ανήκει στην συγκεκριμένη τοποθεσία, και υπολογίζεται: P(d l) = P(< t 1,, t nd > l) όπου n d είναι ο συνολικός αριθμός των όρων των μετα-δεδομένων των βίντεο. Θεωρώντας ότι η εμφάνιση του κάθε όρου είναι στατιστικώς ανεξάρτητη, καταλήγει: n d P(d l) = P(t k l) V k=1 log(p(d l)) = N tk d log(p(t k l)) k=1 όπου N tk,d είναι η συχνότητα εμφάνισης του όρου t k στα μετα-δεδομένα των βίντεο d. Η κατανομή πιθανότητας του όρου-τοποθεσίας δίνεται από τον εξομαλυμένο με την πρόσθεση της μονάδας σε κάθε στοιχείο, τύπο: P(t l) = N t l + 1 (N t l + 1) t V όπου το N tl είναι η συχνότητα εμφάνισης του όρου t στο χωρικό κομμάτι l. Η οπτική ανάλυση έγινε με την χρήση διαφόρων οπτικών χαρακτηριστικών, από τα 3.2 εκατομμύρια πολυμέσα της βάσης δεδομένων Placing Task Η διαδικασία αυτή πραγματοποιήθηκε με όλους τους διαθέσιμους τρόπους περιγραφής του οπτικού περιεχομένου, όπως χρωματική ανάλυση, ανάλυση κειμένου μέσα στις εικόνες. Επιπλέον πολύ μεγάλο ενδιαφέρον παρουσιάζει και η έρευνα [TDJ 2012]. Στα πλαίσια αυτής γίνεται υλοποίηση ενός υβριδικού μοντέλου αυτόματου εντοπισμού γεωγραφικής θέσης, με χρήση βίντεο, που έλαβε μέρος στα πλαίσια του διαγωνισμού MediEval Benchmarking Παρουσιάζει παρόμοια αποτελέσματα με την προαναφερθείσα μέθοδο, έτσι και αυτή καθίσταται ιδανική για μελλοντικές επεκτάσεις.

38 38 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Η μέθοδος αυτή, που υλοποιήθηκε από το ερευνητικό τμήμα IRISA που υπάγεται στα πλαίσια του πανεπιστημίου της Ρεν, δίνει ιδιαίτερη έμφαση στην ανάλυση των tags, ξεχωρίζοντάς τα σε αυτά που προσδίδουν κάποια γεωγραφική περιγραφή και σε αυτά που δεν έχουν τόσο μεγάλη σημασία για την μέθοδο. Αρχικά, στο σύνολο των tags (T ctrain ) εφαρμόζεται μία προ-επεξεργαστική διαδικασία, στην οποία φιλτράρεται το σύνολο αυτό και παίρνει την τελική του μορφή (T train ). Στην βασική μέθοδο, φιλτράρονται τα tags με βάση την θέση που βρίσκονται οι εικόνες που αντιστοιχούν. Για κάθε tag t i υπολογίζεται η συχνότητα εμφάνισής του στο σύνολο (tf ti ), καθώς και ο μέσος όρος της απόστασης Haversine των εικόνων που εμφανίζεται (avgd ti ). Έτσι, εξαιρούνται όλα τα tags που δεν ικανοποιούν την συνθήκη: tf ti 50 t i T train, t i T ctrain { avgd ti 200 Κατ αυτόν τον τρόπο το πρόβλημα μπορεί να θεωρηθεί ως ένα κλασικό bag-of-words (BoW) πρόβλημα και έτσι γίνεται η ομαδοποίηση του συνόλου εκπαίδευσης αντιστοιχίζοντας ένα σύνολο από tags σε ένα σύνολο από πολυμέσα σε συσχετιζόμενες συντεταγμένες. Τα βίντεο, που απαρτίζουν το σύνολο ελέγχου, αναπαριστούνται με το σύνολο V i = {m i }, {t i }, u i, όπου {m i } είναι το σύνολο του αριθμού των εμφανίσεων των (m)tags σε κάθε ομάδα, {t i } είναι το σύνολο των tags και u i είναι η ταυτότητα id του χρήστη που ανήκει το βίντεο. Στην συνέχεια λαμβάνουν χώρα ορισμένες εξομαλύνσεις, καθώς και οπτική ανάλυση με την χρήση διάφορων τεχνικών μέτρησης της ομοιότητας των εικόνων (SIFT, VLAD κ.λπ.) και προκύπτουν τα αποτελέσματα της ακρίβειας της μεθόδου σε συνάρτηση με την ακτίνα σωστής τοποθέτησης που παρουσιάζονται στον παρακάτω πίνακα. Ακτίνα (km) Ακρίβεια (%) Πίνακας 3 Πίνακας αποτελεσμάτων της μεθόδου 2.5 Συγκεντρωτικοί Πίνακες Κεφαλαίου Παρατίθενται οι συγκεντρωτικοί πίνακες των μεθόδων που αναλύθηκαν παραπάνω, καθώς και τριών ακόμα που δεν αναλύθηκαν αλλά σημειώνουν ενδιαφέροντα αποτελέσματα. Στους πίνακες αυτούς αναγράφεται ο τύπος της κάθε έρευνας, ανάλογα αν για τον εντοπισμό των εικόνων χρησιμοποιούν ανάλυση μεταδεδομένων (text), οπτική (visual) ή μια μίξη των δύο (hybrid). Επίσης αναγράφονται τα χαρακτηριστικά που χρησιμοποιούνται ως μετρικές σε κάθε έρευνα, καθώς και των αλγορίθμων που χρησιμοποιήθηκαν για τις προσεγγίσεις του προβλήματος. Έπειτα παρουσιάζονται κάποια ενδεικτικά αποτελέσματα για τον κάθε αλγόριθμο. Κατά βάση αναγράφονται τα αποτελέσματα που παρουσιάζουν κάποιο ενδιαφέρον, σε σύγκριση με την ακτίνα σωστής τοποθέτησης. Επιπλέον για όσες έρευνες

39 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ αναφέρεται δίνονται τα μεγέθη των συνόλων που χρησιμοποιήθηκαν για εκπαίδευση και έλεγχο. Τέλος δίνεται ο πίνακας αντιστοίχισης του αύξοντα αριθμού των πινάκων με τις έρευνες που αναφέρθηκαν. Πιο αναλυτικά αποτελέσματα παρουσιάζονται στο Παράρτημα της εργασίας. Method Modalities Features Approach 1 visual coulor, text, gist, line histograms k-nn, Mean Shift 2 text Bag-of-Words (BoW) custom NN, Language Model, Smoothing 3 hybrid SIFT, tag-vector Mean Shift, SVM 4 text Bag-of-Words (BoW) k-medoids, Language Model, Similarity Search 5 hybrid BoW, coulor, text histograms e.c.t Hierarchical Spatial Segmentation, Language Model 6 hybrid BoW, SIFT, VLAD custom NN, Language Model, Smoothing 7 hybrid MRF, GIST, Textual features k-nn, Graphical Model, Textual Approach 8 hybrid Bag-of-Scenes (BoS), Textual features Similarity Search 9 hybrid SIFT, Textual features custom Clustering, Naive Bayes, Similarity Search Πίνακας 4 Πίνακας χαρακτηριστικών, μεθόδων και τύπων των διαφόρων ερευνών. Protocol Performance Method train set test set Accuracy Radius (99.9%) 273(0.1%) 50% 25km (93%) (7%) 29.6% 100km 3 N/A N/A N/A N/A (99.6%) (0.4%) 45.5% 5km 5 N/A N/A 37.9% 10km 6 N/A N/A 49.9% 100km 7 N/A N/A 47.0% 100km (78.8%) 4 182(21.2%) 43.5% 500km (99.9%) 4 182(0.1%) 34.2% 10km Πίνακας 5 Πίνακας που περιέχει τον διαχωρισμό της βάσης δεδομένων που χρησιμοποιήθηκε και την περίπτωση με τα καλύτερα αποτελέσματα κάθε έρευνας. Method Research 1 [HE 2008] 2 [SMZ 2009] 3 [CBH 2009] 4 [VLS 2011] 5 [KSS 2012] 6 [TDJ 2012] 7 [CFE 2012] 8 [LAP 2012] 9 [VLS 2012] Πίνακας 6 Πίνακας αρίθμησης των ερευνών

40 40 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Όπως φαίνεται από τους πίνακες είναι απαραίτητη η χρήση πολύ μεγάλων συνόλων εκπαίδευσης για την επίτευξη ικανοποιητικών αποδόσεων. Με βάση τα ποσοστά ακρίβειας που πετύχαν οι έρευνες, ξεχωρίζουν οι [VLS 2011], [KSS 2012] και η [HE 2008]. Επίσης από τον πίνακα 4 προκύπτει ότι το πρόβλημα του αυτόματου εντοπισμού γεωγραφικής θέσεις επιδέχεται πληθώρα λύσεων και τεχνικών για την επίτευξη του τελικού στόχου.

41 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Κεφάλαιο 3 Αυτόματος Εντοπισμός Θέσης με χρήση Γλωσσικών Μοντέλων 3.1 Εισαγωγή Στο μέρος αυτό της διπλωματικής εργασίας, γίνεται η παρουσίαση της υλοποίησης μιας παραλλαγής της έρευνας [VLS 2011] και ορισμένων αποτελεσμάτων, για την καλύτερη κατανόηση της λειτουργίας του αλγορίθμου, καθώς και κάποιες επεκτάσεις αυτής. Όπως αναφέρθηκε και στο προηγούμενο μέρος, αρχικά γίνεται ομαδοποίηση του συνόλου εκπαίδευσης με την χρήση του αλγορίθμου k-means και στη συνέχεια, είτε εφαρμόζεται ταξινόμηση με βάση γλωσσικά μοντέλα, είτε γίνεται υπολογισμός της ομοιότητας των εικόνων, είτε μίξη των δύο αυτών μεθόδων. Κατά τoν έλεγχο των αποτελεσμάτων χρησιμοποιήθηκαν, κατόπιν φιλτραρίσματος, για την εκπαίδευση του αλγορίθμου τα μετα-δεδομένα από εικόνες, ενώ για το μέρος του ελέγχου τα μετα-δεδομένα από ένα σύνολο βίντεο, τα οποία αντλήθηκαν από το Flickr.

42 42 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο 3.2 Εισαγωγή δεδομένων στον αλγόριθμο Το αρχικό στάδιο του αλγορίθμου είναι η είσοδος των δεδομένων σε αυτόν. Τα μεταδεδομένα των εικόνων βρίσκονται σε μορφή κειμένου αποθηκευμένα όλα σε ένα αρχείο. Σε πρώτο στάδιο είναι απαραίτητη η διευκρίνιση της σύνταξης που είναι αποθηκευμένα. Πιο συγκεκριμένα, κάθε εικόνα αντιστοιχεί σε ένα μοναδικό αύξοντα αριθμό, ενώ είναι γνωστά και τα μετα-δεδομένα αυτής, δηλαδή το όνομα του χρήστη που κοινοποίησε την εικόνα, οι γεωγραφικές συντεταγμένες που έγινε η λήψη της και τα tags που έχει δώσει ο χρήστης σε αυτή. Το αρχείο κειμένου αποτελείται από εγγραφές οι οποίες αντιστοιχούν στα μετα-δεδομένα των εικόνων. Η σειρά που είναι τοποθετημένα είναι η ακόλουθη: αύξοντας αριθμός όνομα χρήστη γεωγραφικό μήκος γεωγραφικό πλάτος tags Τα μετα-δεδομένα χωρίζονται μεταξύ τους με ένα κόμμα, εκτός από τα tags που χωρίζονται μεταξύ τους με τον κενό χαρακτήρα. Επομένως γνωρίζοντας τον τρόπο με τον οποίο είναι αποθηκευμένα τα δεδομένα φορτώνονται στον αλγόριθμο, δημιουργώντας αντικείμενα με αυτά τα χαρακτηριστικά. Έτσι σε κάθε μεταβλητή ενός τέτοιου αντικειμένου αποθηκεύονται τα μετα-δεδομένα των εικόνων. Παρακάτω φαίνεται πως αντιστοιχούν τα μεγέθη: d u c t αύξοντας αριθμός όνομα χρήστη συντεταγμένες (γεωγραφικό μήκος, γεωγραφικό πλάτος) tags Καθοριστικό παράγοντα αποτελεί ο καθορισμός του συνολικού αριθμού των εικόνων που θα χρησιμοποιηθούν για την εκπαίδευση του αλγορίθμου. Ο αριθμός των εικόνων αυτών θα συμβολίζεται με Ν. Η εισαγωγή των δεδομένων γίνεται με τη δημιουργία Ν αντικειμένων που αναπαρίστανται με Ι i = {d i, u i, {c i }, {t i }, a i }, στα οποία είναι αποθηκευμένα τα μετα-δεδομένα των Ν πρώτων εικόνων του αρχείου κειμένου. Ακολουθούν ενδεικτικά, μερικές εγγραφές από το αρχείο κειμένου. 74, @N00, , ,street berlin bike sign perspective , @N08, , ,white tower thessaloniki θεσσαλονίκη πύργοσ λευκόσ , @N02, , ,china beijing peking thegreatwall granmuralla pekín , @N00, , ,beach sunrise gulf alabama shores Πίνακας 7 Εγγραφές του αρχείου κειμένου.

43 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Σχηματισμός Περιοχών Ομαδοποίηση των εικόνων Στη συνέχεια ακολουθεί η ομαδοποίηση των εικόνων με την χρήση του αλγορίθμου k-means βάσει των γεωγραφικών τους συντεταγμένων. Πιο συγκεκριμένα, ο αλγόριθμος κάνει ομαδοποίηση των αντικειμένων Ι με βάση τις χαρακτηριστικές μεταβλητές τους {c}. Δημιουργεί ξεχωριστές ομάδες (clusters), τοποθετώντας κάθε αντικείμενο σε μία μόνο από αυτές. Κάθε cluster αποτελείται από: τα αντικείμενα που το απαρτίζουν, ένα κέντρο το οποίο είναι χαρακτηριστικό για το κάθε cluster και έναν αύξοντα αριθμό. Επίσης, οι εικόνες αποθηκεύουν τον αύξοντα αριθμό του cluster στο οποίο ανήκουν, στη μεταβλητή τους a. Πολύ σημαντικό ρόλο παίζει ο καθορισμός του συνολικού αριθμού των ομάδων, ο οποίος έχει άμεσο αντίκτυπο στην έκβαση των αποτελεσμάτων. Ο συνολικός αριθμός των περιοχών θα συμβολίζεται με Κ. Στόχος είναι ο διαχωρισμός των Ν αντικειμένων σε Κ ομάδες. Στην υλοποίηση αυτή θα γίνουν πειράματα με συνολικό αριθμό ομάδων ίσο με 50, 500, 2 500, 5 000, 7 500, , , , και Παρακάτω απεικονίζονται ενδεικτικά τα αποτελέσματα της εφαρμογής του αλγορίθμου k-means για το σύνολο των εικόνων εκπαίδευσης, και για αριθμό ομάδων ίσο με Εύκολα διαπιστώνεται ότι όσο αυξάνεται το Κ τόσο πιο πυκνές γίνονται οι ομάδες που σχηματίζονται. Εικόνα 5 Παραδείγματα ομαδοποίησης με k-means για Κ = 5 και 100 σε ένα σύνολο Ν =

44 44 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Υπολογισμός Λεξιλογίου Οργάνωση των tags Το επόμενο βήμα είναι η οργάνωση των tags, που είναι απαραίτητη για τον υπολογισμό των χαρακτηριστικών tags κάθε περιοχής. Στο σημείο αυτό, δημιουργείται ένας πίνακας, όπου το πλήθος των γραμμών του θα είναι ίσο με τον αριθμό των διαφορετικών tags που έχουν οι εικόνες, και το πλήθος των στηλών του θα είναι ίσο με τον αριθμό των ομάδων αυξημένο κατά ένα. Η κάθε γραμμή του πίνακα αντιστοιχεί σε ένα συγκεκριμένο tag. Στο πρώτο κελί της γραμμής αποθηκεύεται ο συνολικός αριθμός εμφάνισης του tag στις εικόνες εκπαίδευσης, ενώ στα υπόλοιπα ο αριθμός εμφάνισης αυτού σε κάθε ομάδα εικόνων. Η αποθήκευση γίνεται με βάση τον αύξοντα αριθμό των ομάδων αυξημένο κατά ένα. Η χρησιμότητα του θα γίνει καλύτερα αντιληπτή στην συνέχεια του αλγορίθμου. Ο πίνακας θα αναφέρεται ως M. Ο ψευδοκώδικας του συγκεκριμένου κομματιού είναι της μορφής, ΟΡΓΑΝΩΣΗ ΤΩΝ TAGS (Ι) 1 για i 1 έως Ν 2 l μήκος ({t} i ) 3 για j 1 έως l 4 αν υπάρχει t i,j στον M 5 τότε M tij,0 M tij, M tij,a i M tij,a i +1 7 αλλιώς 8 M tij,0 1 9 M tij,a i Χ 2 Χαρακτηριστικά Σε αυτό το σημείο υπολογίζεται το χαρακτηριστικό λεξιλόγιο κάθε ομάδας. Για όλα τα tags που περιλαμβάνει ο πίνακας M υπολογίζεται το x 2 χαρακτηριστικό μέγεθος, ξεχωριστά για κάθε ομάδα. Θεωρώντας ως a το συμβολισμό μιας περιοχής και ως t το κάθε tag των εικόνων που ανήκουν στην α, το x 2 δίνεται από τον τύπο: x 2 (a, t) = (O ta E ta ) 2 E ta + (O ta E ta ) 2 E ta + (O t a E t a) 2 E t a + (O t a E t a ) 2 E t a (εξ. 3.1) όπου t το σύνολο των υπόλοιπων tags, a το εξωτερικό της περιοχής a, O yx ο αριθμός των εικόνων της περιοχής x που εμφανίζεται το y tag και E yx ο εκτιμώμενος αριθμός εμφανίσεων του tag y στην περιοχή x.

45 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Το E yx προκύπτει από τον τύπο E yx = Ν P(y) P(x), θεωρώντας ότι η πιθανότητα εμφάνισης ενός y tag, P(y), είναι ανεξάρτητη από την πιθανότητα επιλογής μιας περιοχής x, P(x) που υπολογίζεται από: P(x) = X a X b b A (εξ. 3.2) όπου X a το σύνολο των εικόνων που ανήκουν στην περιοχή x, x A. Τέλος, είναι γνωστό ότι P(x ) = (1 P(x)). Έτσι υπολογίζονται όλα τα απαραίτητα στοιχεία. Εδώ γίνεται αντιληπτή η χρησιμότητα του πίνακα M. Ο υπολογισμός των x 2 χαρακτηριστικών διευκολύνεται σημαντικά, αφού με την κατάλληλη επεξεργασία των καταχωρήσεων του πίνακα εξάγονται τα απαραίτητα μεγέθη. Τέλος, καθοριστικό παράγοντα αποτελεί η επιλογή του αριθμού των tags που θα απαρτίζουν το λεξιλόγιο, και συμβολίζονται με m. Ο αλγόριθμος, για κάθε ομάδα, υπολογίζει τα x 2 χαρακτηριστικά για όλα τα tags των εικόνων της, τα ταξινομεί και ορίζει ως λεξιλόγιο της ομάδας τα m πρώτα tags. Ανάλογα με τον αριθμό των ομάδων Κ επιλέγεται και το αντίστοιχο μέγεθος του λεξιλογίου m, η τιμή του οποίου διαμορφώνεται σε για την αδρότερη ομαδοποίηση, 6 400, 256, 64, 28, 16, 10, 7, 5 για τις μεσαίες αναλύσεις και 4 για την καλύτερη ομαδοποίηση. Ο ψευδοκώδικας για τον υπολογισμό το λεξιλογίου των ομάδων παρουσιάζεται παρακάτω. ΥΠΟΛΟΓΙΣΜΟΣ ΛΕΞΙΛΟΓΙΟΥ(Ι, M, K) 1 για i 1 έως K 2 n μήκος (M) 3 N a μέγεθος (clust i ) 4 για j 1 έως n 5 αν υπάρχει M tj στο clust i 6 τότε N t M tj,0 7 O ta M tj,i+1 8 O ta N t - O ta 9 O t a t - O ta 10 O t a N N a N t + O ta E ta N a N t /Ν 13 E ta (N N a ) N t /Ν 14 E t a N a (N N t )/Ν 15 E t a (N N a ) (N N t )/Ν 16 Υπολογισμός (Χ 2 ) Ταξινόμηση (Χ 2 ) 19 Επιστροφή (m, Χ 2 )

46 46 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Δημιουργία Περιοχών Στο τελικό στάδιο της εκπαίδευσης του αλγορίθμου γίνεται ο σχηματισμός των τελικών περιοχών, που θα χρησιμοποιηθούν για την εκτίμηση της γεωγραφικής θέσης των βίντεο του συνόλου ελέγχου. Στην ουσία οι περιοχές αποθηκεύουν τις ομάδες των αντικειμένων που έχουν σχηματιστεί, μαζί με τις παραμέτρους αυτών, δηλαδή το κέντρο και τον αύξοντα αριθμό, καθώς και το λεξιλόγιο που αντιστοιχεί σε αυτές. Έτσι προκύπτει η αντιστοιχία των παραμέτρων: a v ταυτότητα cluster λεξιλόγιο ομάδας Οι περιοχές, που υλοποιούνται, υποδηλώνονται ως A j = {a j, {w j }, {v j }},όπου για την περιοχή j ισχύει ότι a j είναι η ταυτότητα της περιοχής, w j το σύνολο των εικόνων που περιλαμβάνεται στην περιοχή και v j το χαρακτηριστικό λεξιλόγιό της. CLUSTER ID VOCABULARY 1 india singapore thailand malaysia asia 3 england london uk spain france 5 japan china tokyo taiwan philippines 7 greece turkey istanbul egypt moscow 10 brasil brazil argentina chile buenosaires Πίνακας 8 Πίνακας με ενδεικτικές καταχωρίσεις για τη μορφή των ομάδων. Περιέχει τις ταυτότητες και τα πέντε tags με τις μεγαλύτερες τιμές για το x2 χαρακτηριστικά για ορισμένες τυχαίες εικόνες. Η ομαδοποίηση έγινε σε Ν = εικόνες και για Κ = 10 ομάδες 3.4 Εκτίμηση Γεωγραφικής Στο σημείο αυτό θα γίνει η παρουσίαση των υλοποιήσεων για τον υπολογισμό της πιθανής θέσης του κάθε βίντεο, που ανήκει στο σύνολο ελέγχου που γίνεται με τρεις μεθόδους. Η πρώτη θα βασίζεται σε ένα γλωσσικό μοντέλο, η δεύτερη στην ομοιότητα των tag των εικόνων εκπαίδευσης με τα βίντεο ελέγχου και η τρίτη θα είναι μία μίξη των παραπάνω. Ακόμη δίνονται τα αποτελέσματα των μεθόδων αυτών, με τις παραμέτρους που αναφέρθηκαν στα προηγούμενα κεφάλαια. Το πρώτο στάδιο του ελέγχου είναι το ίδιο με αυτό της εκπαίδευσης, δηλαδή η φόρτωση των μεταδεδομένων των βίντεο από ένα αρχείο κειμένου στον αλγόριθμο. Επιτυγχάνεται με τον ίδιο ακριβώς τρόπο που έγινε και στην εκπαίδευση. Τα μετα-δεδομένα είναι αποθηκευμένα με την ίδια μορφή στο αρχείο κειμένου έτσι δημιουργείται το σύνολο Q, συνολικού αριθμού T, που αντιστοιχούν στα T πρώτα βίντεο του αρχείου Γλωσσικό Μοντέλο Σε αυτή την ταξινόμηση γίνεται η κατάταξη του βίντεο ελέγχου σε μία από τις περιοχές, που έχουν σχηματιστεί, με βάση τις πιθανοφάνειες τους. Δηλαδή, τα βίντεο

47 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ κατατάσσονται στην ομάδα με την μεγαλύτερη πιθανότητα να ανήκουν σε αυτή. Η πιθανότητα δίνεται από τον τύπο: P(a x) P(a) P(t a) t x (εξ. 3.3) όπου, για τον υπολογισμό της P(a) χρησιμοποιείται ο παραπάνω τύπος. Ο υπολογισμός των πιθανοφανειών P(t a) δίνεται από τον τύπο, με Bayesian εξομάλυνση και Dirichlet αρχικές πιθανότητες: α O ta + μ ( Α O tα ) α O P(t a) = Α t V t α ( t V O t a) + μ (εξ. 3.4) όπου το μ ανήκει στο διάστημα ]0,+ [, και στη συγκεκριμένη περίπτωση λαμβάνεται μ = 1 750, και V συμβολίζει το λεξιλόγιο της περιοχής a. Η περιοχή a x που ταξινομείται η εικόνα x, είναι αυτή που μεγιστοποιεί την P(a x). Άρα, a x = arg a A max P(a) P(t a) t x (εξ. 3.5) Ολοκληρώνοντας, κάθε περιοχή αντιπροσωπεύεται από ένα συγκεκριμένο σημείο, το οποίο επιλέγεται να είναι το κέντρο αυτής και δίνεται από τον τύπο: mean(a) = arg x a min d(x, y) y a (εξ. 3.6) Στην περίπτωση που το εξεταζόμενο βίντεο δεν έχει κανένα κοινό tag με τα λεξιλόγια των περιοχών, τότε ταξινομείται στην μεγαλύτερη σε μέγεθος ομάδα, και ως εκτιμώμενη θέση δίνεται το κέντρο αυτής. Για την υλοποίηση αυτού του μέρους είναι απαραίτητα τα αντικείμενα των περιοχών Α ο πίνακας των εμφανίσεων των tags σε κάθε περιοχή Μ και προφανώς ένα αντικείμενο Q k από το σύνολο ελέγχου. Ακολουθεί η υλοποίηση σε μορφή ψευδοκώδικα του γλωσσικού μοντέλου. ΓΛΩΣΣΙΚΟ ΜΟΝΤΕΛΟ (A, M, Q k ) 1 n μήκος (t k ) 2 για i 1 έως K 3 για z 1 έως μήκος (v i ) 4 O t a O t a + M vz,i+1 5 O t a O t a +M vz,0 6 για j 1 έως n 7 αν υπάρχει t k,j στο v i 8 τότε N t M tj,0 9 O ta M tj,i+1

48 48 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο 10 O ta N t - O ta 11 Υπολογισμός (P(t a)) 12 P(t a) total P(t a) total * P(t a) 13 Υπολογισμός (P(a x)) 14 max Area Μέγιστο(P(a x)) 17 Επιστροφή (max Area) Αναζήτηση Ομοιότητας Η επόμενη μέθοδος ταξινόμησης των βίντεο ελέγχου γίνεται μέσω της αναζήτησης των εικόνων με τη μεγαλύτερη ομοιότητα σε ολόκληρο το σύνολο εκπαίδευσης. Στην ουσία, τα βήματα της δημιουργίας περιοχών δεν είναι απαραίτητα για την λειτουργία αυτής της διαδικασίας. Εδώ, η ομοιότητα των εικόνων με τα βίντεο υπολογίζεται με βάση τα κοινά tags που παρουσιάζουν. Με την χρήση των εικόνων με τη μεγαλύτερη ομοιότητα υπολογίζεται η γεωγραφική θέση του υπό εξέταση βίντεο. Σημαντικό ρόλο διαδραματίζει ο καθορισμός του αριθμού των εικόνων που χρησιμοποιούνται για τον υπολογισμό και συμβολίζονται με k. Θεωρώντας ότι y 1,,y k είναι οι εικόνες με τη μεγαλύτερη ομοιότητα από το σύνολο εκπαίδευσης, η θέση του x εκτιμάται ως ένα κέντρο βαρύτητας (center-of-gravity) των προαναφερθεισών τοποθεσιών. k loc(x) = 1 k sim(x, y i) a loc(y i ) i=1 (εξ. 3.7) όπου το a ανήκει στο διάστημα ]0,+ [, έτσι ώστε οι τοποθεσίες με την μεγαλύτερη ομοιότητα να επηρεάζουν περισσότερο το αποτέλεσμα. Η ομοιότητα μεταξύ δύο τοποθεσιών προσδιορίζεται ποσοτικά με βάση την μέτρηση Jaccard, δηλαδή: s jacc (x, y) = x y x y (εξ. 3.8) Επίσης για την παραπάνω συνάρτηση η θέση εκφράζεται σε καρτεσιανές (x,y,z) και όχι σε γεωγραφικές (lat, lon) συντεταγμένες, δηλαδή στη μορφή που βρίσκονται τα δεδομένα. Έτσι, κρίνεται απαραίτητη η μετατροπή των συντεταγμένων σε καρτεσιανές. x i = cos(lat i ) cos(lon i ) y i = cos(lat i ) sin(lon i ) z i = sin(lat i ) Αφού πραγματοποιηθεί ο υπολογισμός, τα αποτελέσματα παραμένουν σε καρτεσιανές συντεταγμένες, δηλαδή (x,y,z). Επομένως, θα πρέπει να γίνει ο αντίστροφος μετασχηματισμός προκειμένου να μετατραπούν σε μορφή (lat, lon). lat = atan 2 ( z, x 2 + y 2 )

49 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ lon = atan 2( y, x) Επιπρόσθετα, επειδή τα αποτελέσματα είναι ιδιαίτερα ευαίσθητα στην ύπαρξη εξωκείμενων τιμών, αφού ο υπολογισμός είναι το κέντρο βαρύτητας των k εικόνων με τη μεγαλύτερη ομοιότητα, καθίσταται απαραίτητος ο ορισμός ενός κατώτατου ορίου (threshold). Το όριο αυτό αποτρέπει τις εικόνες με μικρό δείκτη ομοιότητας να επηρεάσουν την εκτιμώμενη θέση της εικόνας. Ακόμη και αν βρεθούν λιγότερες από k εικόνες με ομοιότητα ανώτερη του επιτρεπτού ορίου, λαμβάνονται υπόψη μόνο αυτές. Όσες παρουσιάζουν ομοιότητα μικρότερη του επιτρεπτού ορίου, αγνοούνται. Στην περίπτωση που δεν βρεθεί καμία εικόνα να ξεπερνά το κατώφλι, τότε ο υπολογισμός γίνεται με την πιο όμοια, ακόμη και αν η ομοιότητά της είναι μικρότερη του επιτρεπτού. ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΑΣ (Ι, Q k ) 1 n μήκος (t k ) 3 για i 1 έως N 4 counter 0 5 για j 1 έως n 6 αν υπάρχει t k,j στο Ι i 7 τότε counter counter sim i counter/(n + n - counter) 9 Ταξινόμηση (sim) l 0 12 για i 1 έως k 13 αν sim i >threshold 14 l l c k Υπολογισμός (l, sim) 17 Επιστροφή(c k ) Υβριδική Μέθοδος Η υβριδική μέθοδος δεν είναι τίποτε άλλο από μία μίξη των δύο παραπάνω μεθόδων. Ο τρόπος με τον επιτυγχάνεται είναι ο ακόλουθος. Αρχικά, λαμβάνει χώρα η πρώτη μέθοδος, σύμφωνα με την οποία υπολογίζεται η πιθανή περιοχή που κατατάσσεται το βίντεο. Στη συνέχεια όμως, αντί να ληφθεί ως εκτιμώμενη θέση το κέντρο της περιοχής, γίνεται αναζήτηση ομοιότητας της περιοχής αυτής με το εξεταζόμενο βίντεο, για τον υπολογισμό των εικόνων με τη μεγαλύτερη ομοιότητα. Τέλος, η θέση του δίνεται από το κέντρο βαρύτητας των σημείων αυτών. Σε περίπτωση που δεν βρεθεί κάποια εικόνα της περιοχής που να ξεπερνά το κατώφλι ομοιότητας, τότε θεωρείται ως πιθανή θέση το κέντρο της ομάδας. Επίσης, αν στο πρώτο στάδιο δεν βρεθεί κάποια περιοχή με κοινά tags, τότε το βίντεο τοποθετείται στην μεγαλύτερη σε μέγεθος περιοχή και πραγματοποιείται το επόμενο βήμα της αναζήτηση ομοιότητας.

50 50 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Στο σημείο αυτό, ο αλγόριθμος καλεί πρώτα την διαδικασία του γλωσσικού μοντέλου, με τα ίδια ορίσματα που δόθηκαν και παραπάνω, και στη συνέχεια την διαδικασία της αναζήτησης ομοιότητας, με την μόνη διαφορά ότι σαν όρισμα δίνονται οι εικόνες της περιοχής, αντί ολόκληρου του συνόλου εκπαίδευσης. Ο ψευδοκώδικας της υβριδικής μεθόδου είναι ο παρακάτω: Υβριδική Μέθοδος (I, Q k ) 1 A i ΓΛΩΣΣΙΚΟ ΜΟΝΤΕΛΟ (A, M, Q k ) 2 c k ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΑΣ ({w Ai }, Q k ) 3 Επιστροφή(c k ) Συμβολισμός Ερμηνεία α Ιd περιοχής Α Πίνακας περιοχών c Γεωγραφικές συντεταγμένες εικόνας d Id εικόνας Ι Πίνακας εικόνων εκπαίδευσης k Αριθμός όμοιων εικόνων K Αριθμός εικόνων εκπαίδευσης m Μέγεθος λεξιλογίου των ομάδων Μ Πίνακας συχνοτήτων των tags Ν Αριθμός εικόνων εκπαίδευσης Q Πίνακας εικόνων ελέγχου t Tags μιας εικόνας Τ Αριθμός εικόνων ελέγχου u Id του χρήστη w Εικόνες που ανήκουν σε μία περιοχή Πίνακας 9 Πίνακας συμβολισμών του κεφαλαίου

51 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Κεφάλαιο 4 Σημασιολογική και Οπτική Ανάλυση για τον Εντοπισμό Θέσης 4.1 Εισαγωγή Στο πλαίσιο της παρούσας διπλωματικής εργασίας και με βάση τον παραπάνω αλγόριθμο, αναπτύχθηκε ένα καινούριο σύστημα εντοπισμού της γεωγραφικής θέσης των πολυμέσων. Το βασικό χαρακτηριστικό του συστήματος αυτού είναι η χρήση του γεννητικού θεματικού αλγορίθμου LDA. Όπως και στην προηγούμενη παράγραφο, αρχικά γίνεται ομαδοποίηση του συνόλου εκπαίδευσης. Έπειτα, πραγματοποιείται θεματική ανάλυση των tags των εικόνων του συνόλου μέσω του LDA, που έχει ως αποτέλεσμα τη δημιουργία των θέματα (topics) που λαμβάνουν χώρα μέσα σε αυτά. Στη συνέχεια με βάση τα topics που υπολογίστηκαν, γίνεται η ταξινόμηση των εικόνων του σετ ελέγχου στις ομάδες και η τελική εκτίμηση της γεωγραφικής τους θέσης. Επιπλέον γίνεται οπτική ανάλυση των εικόνων, εξάγοντας τα SURF+VLAD χαρακτηριστικά αυτών και με τεχνικές κοντινότερου γείτονα (Nearest Neighbour) υπολογίζεται η θέση μιας εξεταζόμενης εικόνας. Τέλος, γίνεται μία μίξη των δύο τεχνικών για την υλοποίηση ενός υβριδικού μοντέλου.

52 52 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο 4.2 Latent Dirichlet Allocation - LDA Συμβολισμός και Ορολογία Οι βασικοί όροι, που χρησιμοποιούνται για τις οντότητες του αλγορίθμου, είναι αυτοί της γλώσσα συλλογής κειμένου, όπως λέξη, έγγραφο και σώμα. Βοηθούν στην καλύτερη κατανόηση του αλγορίθμου, ιδιαίτερα όταν εισάγουμε λανθάνουσες μεταβλητές που έχουν ως στόχο την σύλληψη αφηρημένων εννοιών, όπως τα θέματα (topics). Είναι σημαντικό να σημειωθεί ωστόσο, ότι το μοντέλο LDA δεν είναι απαραίτητα συνδεδεμένο με το κείμενο και έχει εφαρμογές σε άλλα προβλήματα που αφορούν σε συλλογές δεδομένων, επεξεργασία εικόνας και στη βιοπληροφορικής. Οι ορισμοί των χρήσιμων όρων είναι οι παρακάτω: Μια «λέξη» είναι η βασική μονάδα διακεκριμένων δεδομένων, ορισμένη να αποτελεί ένα αντικείμενο ενός λεξιλογίου το οποίο δεικτοδοτείται από {1,, V}. Οι λέξεις αναπαρίστανται χρησιμοποιώντας μοναδιαία διανύσματα βάσης, τα οποία έχουν ένα στοιχείο ίσο με την μονάδα και όλα τα υπόλοιπα ίσα με το μηδέν. Έτσι, χρησιμοποιούνται εκθέτες για τον ορισμό των στοιχείων, όπου η v-οστή λέξη στο λεξιλόγιο αναπαρίσταται από ένα V- διάστατο διάνυσμα w, τέτοιο ώστε w v = 1και w u = 0, για u v. Ένα «έγγραφο» είναι μία ακολουθία από N λέξεις, ορισμένο ως w=(w 2, w 2,, w Ν ), όπου w n είναι η n-οστή λέξη της ακολουθίας. Ένα «σώμα» είναι μια συλλογή M εγγράφων ορισμένο ως D={w 1, w 2,, w Μ } Ανάλυση του LDA O Latent Dirichlet allocation (LDA), όπως αναλύεται στο [BNJ 2003], είναι ένα γεννητικό πιθανοκρατικό μοντέλο ενός σώματος κειμένου (corpus). Η βασική αρχή που στηρίζεται ο αλγόριθμος είναι ότι τα έγγραφα αναπαρίστανται ως τυχαία μείγματα από λανθάνοντα θέματα, όπου κάθε θέμα χαρακτηρίζεται από μια κατανομή σε ένα λεξιλόγιο. Ο LDA πραγματοποιεί την παρακάτω γεννητική διαδικασία για κάθε έγγραφο w σε ένα σώμα D. 1. Διαλέγω N ~ Poisson(ξ) 2. Διαλέγω θ ~ Dir(a) 3. Για κάθε μία λέξη w n από τις N λέξεις: a. Διαλέγω ένα θέμα z n ~ Multinomial(θ) b. Διαλέγω μία λέξη w n από την p(w n z n, β), μια πολυωνυμική πιθανότητα με συνθήκη το θέμα z n.

53 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Ορισμένες απλοποιήσεις που μπορούν να γίνουν είναι οι εξής: Η διαστατικότητα k της κατανομής Dirichlet και της μεταβλητής θέματος z θεωρείται γνωστή και σταθερή. Οι πιθανότητες των λέξεων παραμετροποιούνται από ένα kxv πίνακα β, οπού β ij = p(w j = 1 z i = 1), το οποίο θεωρείται σταθερή ποσότητα που πρέπει να εκτιμηθεί. Η κατανομή Poisson δεν είναι κρίσιμη για οτιδήποτε ακολουθεί, συνεπώς μπορεί να χρησιμοποιηθούν πιο ρεαλιστικές κατανομές μήκους εγγράφων. Το N είναι ανεξάρτητο από τις υπόλοιπες γεννητικές μεταβλητές (θ και z). Όσον αφορά την κατανομή Dirichlet, μια τυχαία μεταβλητή θ μπορεί να πάρει τιμές k σε ένα (k-1)-simplex (αν θ i 0, = 1) και έχει πυκνότητα πιθανότητας: i=1 θ i k p(θ α) = Γ( i=1 a i) a k θ i 1 Γ(a i ) i (εξ. 4.1) i=1 όπου α διάνυσμα k διάστασης με στοιχεία a i > 0, και όπου Γ(x) η συνάρτηση Γάμμα. Δεδομένων των μεταβλητών α και β, η συνδυαστική κατανομή ενός μείγματος θεμάτων θ, ενός σετ από Ν θέματα z και ενός σετ Ν λέξεων w δίνεται από τον τύπο: N k i=1 p(θ, z, w α, β) = p(θ α) p(z n θ)p(w n z n, β) (εξ. 4.2) n=1 όπου p(z n θ) είναι το θ i για μοναδικό i που ισχύει z i n = 1. Ολοκληρώνοντας ως προς θ και αθροίζοντας για όλα τα z, η οριακή κατανομή ενός εγγράφου προκύπτει από τον τύπο: N p(w a, β) = p(θ α)( p(z n θ)p(w n z n, β) ) dθ (εξ. 4.3) n=1 z n Τέλος, λαμβάνοντας υπόψη τα παράγωγα των οριακών πιθανοτήτων των εγγράφων, προκύπτει πως η πιθανότητα ενός σώματος δίνεται ως εξής: M N p(d a, β) = p(θ d α)( p(z dn θ d )p(w dn z dn, β) ) dθ (εξ. 4.4) d=1 n=1 z dn Στην παρακάτω εικόνα απεικονίζεται η γραφική αναπαράσταση του μοντέλου LDA. Οι παράμετροι α και β είναι παράμετροι σε επίπεδο σώματος, και υπολογίζονται μία φορά κατά την διαδικασία παραγωγής του σώματος. Οι μεταβλητές θ d είναι μεταβλητές σε επίπεδο εγγράφου και υπολογίζονται μία φορά σε κάθε έγγραφο. Οι w dn και z dn είναι μεταβλητές επιπέδου λέξεων και υπολογίζονται για κάθε λέξη σε κάθε έγγραφο.

54 54 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Εικόνα 6 Γραφική αναπαράσταση του μοντέλου LDA. Το εξωτερικό ορθογώνιο αντιπροσωπεύει τα έγγραφα και το εσωτερικό την επαναλαμβανόμενη επιλογή θεμάτων και λέξεων μέσα σε ένα έγγραφο. Το βασικό επαγωγικό πρόβλημα που πρέπει να λυθεί, ώστε να γίνει εφικτή η χρήση του LDA, είναι ο υπολογισμός της κατανομής των κρυφών μεταβλητών που δίνονται σε κάθε έγγραφο p(θ, z w, a, β) = p(θ, z, w a, β) p(w a, β) (εξ. 4.5) Όμως, ο υπολογισμός μιας γενικής κατανομής είναι ιδιαίτερα δύσκολος. Έτσι για να επιτευχθεί κανονικοποίηση της κατανομής γίνεται εξομάλυνση την κρυφών παραμέτρων. Με αυτόν τον τρόπο, από την εξ.34 προκύπτει: p(w a, β) = Γ( i a i) a ( θ i 1 Γ(α i ) i ) ( (θ i β ij ) w j n ) dθ (εξ. 4.6) i k i=1 N k V n=1 t=1 j=1 μια συνάρτηση η οποία είναι δυσεπίλυτη, λόγω της σύζευξης μεταξύ θ και β στην άθροιση των λανθανόντων θεμάτων [D 1983]. Το πρόβλημα εκτίμησης αφορά τη μεγιστοποίηση της παραπάνω πιθανότητας. Όπως αναφέρθηκε παραπάνω, οι Blei, Ng και Jordan πρότειναν την χρήση ενός Variational Expectation Maximization αλγόριθμου για την απόκτηση μέγιστης τιμής της παραπάνω πιθανότητας Ανακάλυψη θεμάτων με Gibbs Sampling Στην έρευνα [GS 2004], οι Griffiths και Steyvers πρότειναν την χρήση της μεθόδου Gibbs sampling για την ανακάλυψη των θεμάτων που λαμβάνουν χώρα στα έγγραφα που εξετάζονται. Η ειδοποιός διαφορά με τις προηγούμενες προσεγγίσεις έγκειται στην αντιμετώπιση των μεταβλητών θ και β. Αντί να αντιμετωπίζουν την αναπαράσταση των θ και β, αποκλειστικά ως μεταβλητές που πρέπει να εκτιμηθούν, θεωρούν σημαντικό τον υπολογισμό της κατανομής των αναθέσεων των λέξεων σε θέματα, P(z w). Χρησιμοποιούν το μοντέλο LDA με την προσθήκη μιας μεταβλητής φ, που ακολουθεί Dirichlet κατανομή. Επίσης τα α και β δεν είναι διανύσματα, αλλά μοναδικές τιμές. Επιπλέον θεωρούν ένα σύνολο από D έγγραφα, που περιέχουν Τ θέματα εκφρασμένα ως προς W μοναδικές λέξεις. Η πιθανότητα P(w z) εκφράζει

55 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ ένα σετ Τ πολυωνυμικών κατανομών Φ ως προς W λέξεις, τέτοια ώστε P(w z = j) = Φ w (j). Η P(z) εκφράζει ένα σετ πολυωνυμικών κατανομών θ ως προς Τ θέματα, τέτοια ώστε, για μία λέξη σε ένα έγγραφο d, να ισχύει P(z = j) = θ j (d). Τα α και β συγκλίνουν στις πολυωνυμικές κατανομές Φ και θ και με τον τρόπο αυτό μπορεί να γίνει ο υπολογισμός της κατανομής P(w,z) ολοκληρώνοντας ως προς Φ και θ. Επειδή P(w, z) = P(w z)p(z) και τα Φ και θ εμφανίζονται μόνο στον πρώτο και δεύτερο όρο αντίστοιχα, δίνεται η δυνατότητα υπολογισμού των ολοκληρωμάτων ξεχωριστά. Ολοκληρώνοντας τον πρώτο όρο ως προς Φ έχουμε: P(w z) = ( Γ(Wβ) Γ(β) W )Τ Γ(n (w) w j + β) ( ) Γ(n j + Wβ) Τ j=1 (εξ. 4.7) όπου n j (w) είναι το πλήθος των αναθέσεων της w λέξης στο θέμα j στο διάνυσμα αναθέσεων z,n j ( ) το άθροισμα των αναθέσεων και Γ η συνάρτηση Γάμμα. Ολοκληρώνοντας τον δεύτερο όρο ως προς θ έχουμε: P(z) = ( Γ(Ta) Γ(a) T )D Γ(n (d) j j + a) Γ(n (d). + Ta) D d=1 (εξ. 4.8) όπου n j (d) είναι το πλήθος των αναθέσεων μιας λέξης από το έγγραφο d στο θέμα j. Σκοπό αποτελεί η εκτίμηση της κατανομής P(z w) = P(w,z) P(w,z) z (εξ. 43). Στην εκτίμηση της παραπάνω πιθανότητας μέσω Gibbs sampling απαιτείται η υπό συνθήκη πιθανότητα P(z i = j z i, w), η οποία προκύπτει από την παρακάτω σχέση P(z i = j z i, w) n (w i ) i,j + β ( ) n i,j + Wβ (d n i ) i,j + α (d n i ) i,j + Ta (εξ. 4.9) όπου j είναι ένα θέμα, w i είναι μία λέξη του λεξιλογίου, w μία λέξη του εγγράφου, z i το θέμα που ανατέθηκε στην w, z i οι αναθέσεις στις λέξεις του εγγράφου εκτός της w και το n ( ) i είναι το πλήθος των αναθέσεων εκτός από την τρέχουσα ανάθεση στο z i. Η πλήρης υπό συνθήκη πιθανότητα που σε κάθε επανάληψη του αλγορίθμου Gibbs sampling ανανεώνει κάθε ανάθεση θέματος z d,i δίνεται από την σχέση: P(z d,i = j z (d,i), w d,i = w i, W (d,i) ) w (w n i ) i,j + β (w n i ) i,j + Wβ (n (d i ) i,j + α) (εξ. 4.10) όπου είναι, j [1, K] ένα θέμα, w i [1, V] μία λέξη του λεξιλογίου, w d,i η i-οστή λέξη του εγγράφου d, z d,i το θέμα που ανατέθηκε στην w d,i, z (d,i) οι αναθέσεις (w στις λέξεις του εγγράφου εκτός της w d,i. Το n i ) i,j είναι το πλήθος των αναθέσεων της

56 56 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο (d λέξης w i στο θέμα j, εκτός από τα τρέχοντα w d,i και z d,i, και n i ) i,j είναι το πλήθος των περιπτώσεων που ένα θέμα έχει εμφανιστεί στο έγγραφο d, εκτός από τα τρέχοντα w d,i και z d,i. Από τα παραπάνω προκύπτει ότι οι εκτιμήσεις των Φ total = Κ D {Φ k } k=1 και Θ = {θ d } d=1 που αντιστοιχούν σε κατανομές για νέες λέξεις και νέα θέματα αντίστοιχα, δίνονται από τις παρακάτω σχέσεις: (w n i ) i,j + β Φ wi,j = w + Wβ (w n i ) i,j (εξ. 4.11) θ d,j = n (d i ) i,j + α (d n i ) i,j + Ta (εξ. 4.12) Η βιβλιοθήκη JGibbLDA Για την εφαρμογή του LDA αλγορίθμου με Gibbs sampling, που αναλύθηκε στην παράγραφο, χρησιμοποιήθηκε η δωρεάν βιβλιοθήκη JGibbLDA 7. Χρησιμοποιώντας την ίδια ορολογία το λογισμικό πραγματοποιεί Σημασιολογική Ανάλυση σε ένα αρχείο κειμένου που σε κάθε σειρά του έχει ένα έγγραφο (document), το οποίο αποτελείται από λέξεις (words) που διαχωρίζονται με κενό διάστημα. Σημασιολογική Ανάλυση JGibbLDA Εικόνα 7 Σημασιολογική ανάλυση Ουσιαστικά, ο αλγόριθμος δέχεται ως είσοδο αρχεία κειμένου με την παρακάτω μορφή: [M] [document-1] [document-2]... [document-m] Εικόνα 8 Μορφή αρχείου εισόδου στον JGibbLDA 7

57 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ όπου [M] είναι ο συνολικός αριθμός εγγράφων στο αρχείο, και κάθε γραμμή μετά είναι ένα έγγραφο. Το κάθε έγγραφο αποτελείται από Ν όρους/λέξεις, οι οποίοι χωρίζονται με τον κενό χαρακτήρα. Οι παράμετροι της JGibbLDA που παραμετροποιήθηκαν, είναι οι παρακάτω: Παράμετρος Συμβολισμός Προκαθορισμένη Τιμή Πλήθος επιθυμητών θεμάτων ntopics<int> - Παράμετρος α alpha<double> 50/ntopics Παράμετρος β beta<double> 0.1 Πλήθος Λέξεων ανά Θέμα twords<int> 0 (20) Πλήθος Επαναλήψεων Εκπαίδευσης niters<int> 2000 Εξωτερικό αρχείο Δεδομένων Εκπαίδευσης dfile<string> - Διαδρομή εξωτερικού αρχείου δεδομένων εκπαίδευσης dir<string> - Πίνακας 10 Παράμετροι του JGibbLDA Οι έξοδοι της βιβλιοθήκης είναι οι παρακάτω: Αρχείο Περιγραφή Συμβολισμός <model_name>.others <model_name>.phi <model_name>.theta Καταγραφή των τιμών των παραμέτρων πχ α, β,αριθμός επαναλήψεων Περιέχει τις κατανομές λέξεων σε θέματα δηλ. την πιθανότητα p(w i topic j ) Περιέχει τις κατανομές θεμάτων σε έγγραφα, δηλ. p(topic j document d ) - Φ ij Θ jd <model_name>.tassign Περιέχει την κατανομή των λέξεων σε θέματα, χωρισμένων ανά θέμα <model_name>.twords Περιέχει τις πιο πιθανές λέξεις από κάθε θέμα T - wordmap.txt Καταγράφει την αντιστοιχία λέξεων με δείκτες (words word indices) Πίνακας 11 Έξοδοι του JGibbLDA - Πιο αναλυτικά το αρχείο με την κατάληξη.others περιέχει τις παραμέτρους που εκτελέστηκε η εφαρμογή. Ο πίνακας Φ έχει γραμμές ίσες με τον αριθμό των topics και στήλες ίσες με τον αριθμών των διαφορετικών λέξεων που εμφανίζονται στο αρχείο εισόδου. Η κάθε καταχώρηση αντιστοιχεί στην ομοιότητα που εμφανίζει η λέξη της στήλης i με το topic της στήλης j. Ο πίνακας Θ έχει αριθμό γραμμών ίσο με τον αριθμό των εγγράφων που δόθηκαν ως είσοδος και στηλών ίσο με τον αριθμών των topics. Οι καταχωρήσεις του αντιστοιχούν στην ομοιότητα που εμφανίζει κάθε

58 58 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο έγγραφο με κάθε topic. Το αρχείο κατάληξης.tassign περιέχει αναλυτικά για κάθε λέξη για όλα τα έγγραφα, το topic που εμφανίζει την μεγαλύτερη ομοιότητα. Ο πίνακας Τ περιέχει τις πιο πιθανές λέξεις από κάθε θέμα. Το αρχείο wordmap.txt περιέχει τις λέξεις που εμφανίζονται στα έγγραφα και έχουν αντιστοιχηθεί, η κάθε μια, σε μοναδικό αριθμό. 4.3 Σημασιολογική ανάλυση των μετα-δεδομένων (Text-based Analysis) Ο αλγόριθμος χωρίζεται σε δύο βασικά στάδια, το στάδιο της εκπαίδευσης και το στάδιο της εκτίμησης τελικής θέσης. Το στάδιο της εκπαίδευσης περιλαμβάνει φιλτράρισμα των δεδομένων του συνόλου εκπαίδευσης, ομαδοποίηση αυτών με k- means και LDA δύο επιπέδων, γενικό και τοπικό. Όσον αφορά στην εκτίμηση της τελικής θέσης των εικόνων του συνόλου ελέγχου, πραγματοποιείται από την ανάθεσή τους στις περιοχές και τον τελικό υπολογισμό της θέσης τους με χρήση της αναζήτησης ομοιότητας εντός της περιοχής. Η πορεία που ακολουθεί ο αλγόριθμος αναπαρίσταται στο παρακάτω σχήμα. Training Prediction Filtering Spatial Clustering & local LDAs Global LDA & BoEW Assingment in Areas Similarity Search Σχήμα 1 Γραφική απεικόνιση του αλγορίθμου Εκπαίδευση Η έναρξη του αλγορίθμου επιτυγχάνεται με το στάδιο της εκπαίδευσης, κατά το οποίο γίνεται η φόρτωση και επεξεργασία των δεδομένων του αντίστοιχου συνόλου. Παρακάτω παρουσιάζονται συνοπτικά τα βήματα που απαιτούνται για την ολοκλήρωση του σταδίου αυτού. 1. Φιλτράρισμα: απόρριψη θορύβου 2. Χωρική ομαδοποίηση και τοπικά LDA: ομαδοποίηση με k-means και εφαρμογή του LDA στις εικόνες κάθε ομάδας 3. Καθολικός LDA και δημιουργία BoEW: εφαρμογή του LDA στο σύνολο των εικόνων και δημιουργία λεξιλογίου από tags που αποκλείονται.

59 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Πριν από κάθε ενέργεια, όπως και στο προηγούμενο κεφάλαιο, γίνεται η φόρτωση των δεδομένων στο σύστημα. Επομένως σχηματίζεται ένας πίνακας T, που περιέχει το σύνολο των εικόνων με τα μετα-δεδομένα τους. Ο συνολικός αριθμός είναι Ν, και για την i εικόνα ισχύει I i = {d i, u i, {c i }, {t i }, a i }, όπου d i είναι το id της εικόνας, u i είναι η ταυτότητα του χρήστη, {c i } είναι οι συντεταγμένες της, {t i } τα tags της και a i η περιοχή που έχει τοποθετηθεί Φιλτράρισμα Το πρώτο βήμα του σταδίου αποτελεί το φιλτράρισμα του συνόλου εκπαίδευσης και τον οριστικό αποκλεισμό ορισμένων εικόνων. Η εφαρμογή της διαδικασίας αυτής διεκπεραιώνεται με τον ακόλουθο τρόπο. Αρχικά αφαιρούνται τα machine tags από όλες τις εικόνες του συνόλου, δηλαδή όλα τα tags που περιέχουν ακολουθίες της μορφής: geo:lat= geo:lon= geolat geolon Πίνακας 12 Μορφή των tags που αφαιρούνται από τις εικόνες Στη συνέχεια οι εικόνες που είναι κενές από tags, δηλαδή δεν έχουν κανένα tag, αφαιρούνται οριστικά από την βάση δεδομένων της εκπαίδευσης. Με αυτό τον τρόπο επιτυγχάνεται: από άποψη των tags, περιορισμός θορύβου που εισήγαγαν tags που η πληροφορία που δίνουν υπάρχει ήδη στα δεδομένα, καθώς οι γεωγραφικές συντεταγμένες των εικόνων δίνονται από τις αντίστοιχες μεταβλητές. από άποψη των εικόνων, περιορισμός θορύβου από κενές εικόνες, έτσι ώστε στο επόμενο βήμα να σχηματιστούν περιοχές που θα είναι πιο πλούσιες από άποψη πληροφορίας Χωρική ομαδοποίηση και τοπικά LDA Σε αυτό το σημείο αρχικά πραγματοποιείται η ομαδοποίηση των εικόνων του συνόλου εκπαίδευσης και στη συνέχεια, για κάθε ομάδα που δημιουργήθηκε εφαρμόζεται ο αλγόριθμος LDA.

60 60 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Πιο αναλυτικά, όπως και στην παράγραφο 3.3, ο αλγόριθμος που χρησιμοποιήθηκε για την ομαδοποίηση των εικόνων είναι ο k-means. Η ομαδοποίηση έγινε με βάση τις γεωγραφικές συντεταγμένες, 𝑐𝑖, των εικόνων και με αυτό τον τρόπο σχηματίστηκαν περιοχές (clusters) συνολικού αριθμού Κ. για κάθε cluster ξεχωριστά δημιουργείται το αρχείο που θα δοθεί σαν είσοδος στον αλγόριθμο LDA. Ως ένα έγγραφο θεωρούνται τα tags μιας εικόνας. Δηλαδή η πρώτη εγγραφή του αρχείου θα είναι ο πληθυσμός του cluster και ακολουθούν μία προς μία οι εικόνες ως έγγραφα. τέλος, για κάθε cluster εφαρμόζεται LDA (Local LDAs) και παράγει 𝛮𝐿 θεματικά topics με 𝑊𝐿 λέξεις το κάθε ένα, για το σύνολο των ομάδων. Οι υπόλοιπες παράμετροι παραμένουν στις default τιμές τους. Αυτή η διαδικασία θα αναφέρεται ως δημιουργία των τοπικών LDA. Ακολουθεί ο αλγόριθμος του βήματος. ΟΜΑΔΟΠΟΙΗΣΗ & ΤΟΠΙΚΟΙ LDA(I, 𝛮𝐿, 𝑊𝐿 ) 1 Α k-means (I, Κ) 2 για j 1 έως K 3 𝐷𝑗 Δημιουργία Αρχείου LDA(𝐼, 𝐴𝑗 ) 4 𝜏𝑗 LDA (𝐷𝑗, 𝑁𝐿, 𝑊𝐿 ) Latitude Οι ομάδες που σχηματίστηκαν θα αναφέρονται ως 𝐴𝑗 = {𝑎𝑗, {𝑤𝑗 }, {𝜏𝑗 }}, όπου για την περιοχή j ισχύει ότι 𝑎𝑗 είναι η ταυτότητα της περιοχής, 𝑤𝑗 το σύνολο των εικόνων που περιλαμβάνεται στην περιοχή και 𝜏𝑗 τα θεματικά topics της ομάδας. Εικόνα 9 Σχηματική αναπαράσταση των ομάδων που δημιουργήθηκαν Longitude από τον k-means για αριθμό ομάδων Κ=5000.

61 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Καθολικός LDA και δημιουργία BoEW Σκοπός του βήματος αυτού είναι η δημιουργία ενός λεξιλογίου αποκλειόμενων λέξεων (bag-of-excluded-words - BoEW), με βάση το οποίο θα φιλτράρονται τα tags των query εικόνων και θα διαγράφονται όσα βρίσκονται μέσα στο λεξιλόγιο αυτό. Το σκεπτικό πίσω από αυτό το βήμα είναι η απόρριψη θορύβου από tags που δεν έχουν κάποια γεωγραφική πληροφορία, δηλαδή είναι γενικού τύπου. Για την καλύτερη κατανόηση του σκεπτικού, tags που περιέχουν γεωγραφική πληροφορία μπορούν να θεωρηθούν tags με ονόματα χωρών, πόλεων, ηπείρων, αξιοθέατων κ.τ.λ. Αντίθετα tags γενικού ενδιαφέροντος θεωρούνται αυτά που δεν έχουν κάποια γεωγραφική πληροφορία, όπως κάποιο προσωπικό σχόλιο του χρήστη ή η ο κατασκευαστής της κάμερα που τραβήχτηκε η εικόνα. Στο σχήμα 4.5 δίνονται κάποια παραδείγματα tags των παραπάνω κατηγοριών. Ουσιαστικά, γίνεται προσπάθεια απομόνωσης της χρήσιμης, για τον στόχο της έρευνας, πληροφορίας, έτσι ώστε το σύστημα να οδηγείται σε όσο το δυνατόν ακριβέστερα αποτελέσματα. Αυτό το βήμα περιλαμβάνει την εφαρμογή του LDA στο σύνολο εκπαίδευσης και μέσα από την κατάλληλη επεξεργασία, τη δημιουργία του λεξιλογίου αποκλεισμένων λέξεων. Εικόνα 10 Tags γενικού ενδιαφέροντος. Το αρχικό στάδιο αυτού του βήματος είναι η εφαρμογή του LDA στο σύνολο των εικόνων εκπαίδευσης (Global LDA). Έτσι παράγονται N G θεματικά topics με W G λέξεις το κάθε ένα, που αντιστοιχούν στο σύνολο των εικόνων. Αυτά τα topics χωρίζονται σε δύο κατηγορίες, με τον ίδιο τρόπο που αναφέρθηκε παραπάνω για τα tags, δηλαδή γενικού και γεωγραφικού ενδιαφέροντος. Επομένως το πρόβλημα ανάγεται στον διαχωρισμό των topics των δύο κατηγοριών, δηλαδή στο να ορισθούν ποια θεωρούνται topics γενικού ενδιαφέροντος και να τεθούν ως ανενεργά (inactive topics). Για αυτό το λόγο υπολογίζεται η εντροπία των topics, με βάση την συχνότητα εμφάνισής τους μέσα στο πλήθος των εικόνων και κατ επέκταση στις περιοχές. Η εντροπία αποτελεί μετρική της τυχαιότητας της κατανομής των μεγεθών ενός συστήματος. Επομένως, στης συγκεκριμένη υλοποίηση, μεγάλη τιμή της εντροπίας

62 62 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο υποδηλώνει ότι το υπό εξέταση topic εμφανίζεται διάσπαρτα μέσα στα clusters. Αντίθετα μικρή τιμή σημαίνει ότι το υπό εξέταση topic εμφανίζεται συγκεντρωμένα σε μία περιοχή των clusters. Η υλοποίηση αυτού του βήματος πραγματοποιείται από τις παρακάτω διαδικασίες: I. Δημιουργία λίστας που περιέχει τα topics που ενεργοποιεί κάθε εικόνα. O όρος ενεργά topics για μια εικόνα υποδηλώνει ότι τα tags μιας εικόνας περιέχουν μια θεματολογία, η οποία αντιπροσωπεύεται από τα αντίστοιχα topics. Πρακτικά, αυτό εντοπίζεται από τον πίνακα Θ G που δημιουργήθηκε από τον καθολικό LDA. Επειδή οι καταχωρήσεις του πίνακα είναι η πιθανότητα που εμφανίζει κάθε N εικόνα για κάθε topic, είναι γνωστό ότι G j=0 Θ G,jd = 1. Άρα αν ένα έγγραφο δεν εμφανίζει ομοιότητα με κανένα topic, τότε η πιθανότητά του στον πίνακα Θ G θα είναι ίση με 1/N G. 1 Επομένως θέτοντας ένα όριο ενεργοποίησης (ίσο με t a = ) προκύπτουν τα 0.9 N G ενεργά topics για κάθε εικόνα. Η λίστα των ενεργών topics για κάθε εικόνα συμβολίζεται με Β, όπου ο αριθμός των γραμμών της είναι ίσος με το πλήθος των εικόνων και περιέχουν τον αύξοντα αριθμό των topic που ενεργοποιούνται. ΥΠΟΛΟΓΙΣΜΟΣ ΛΙΣΤΑΣ ΕΝΕΡΓΩΝ TOPICS(T, Θ G ) 1 για i 1 έως Ν 2 για j 1 έως N G 3 αν ισχύει Θ G,ij > t a 4 τότε Β i Β i j 5 Επιστροφή (Β) II. Δημιουργία ιστογράμματος της συχνότητας εμφάνισης των topics μέσα στα clusters. Για κάθε topic γίνεται υπολογισμός πόσες φορές ενεργοποιείται μέσα στις περιοχές. Στη συνέχεια υπολογίζεται η συχνότητα εμφάνισης του σε κάθε μία από αυτές. Επομένως δημιουργείται ένας πίνακας δύο διαστάσεων που περιέχει τα ιστογράμματα όλων των topics. Συμβολίζεται με H, και ο αριθμός των γραμμών του θα είναι ίσος με τον αριθμό των clusters και ο αριθμός των στηλών του ίσος με τα topics.

63 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ ΥΠΟΛΟΓΙΣΜΟΣ ΙΣΤΟΓΡΑΜΜΑΤΟΣ TOPICS(Β, A) 1 για i 1 έως Κ 2 s i μήκος(w i ) 3 για j 1 έως s i 4 για k 1 έως μήκος(β wi,j ) 5 H i,βk,wi,j H i,βk,wi,j + 1 s i 6 Επιστροφή (H) III. Ορισμός των ανενεργών topic με βάση την εντροπία τους. Ο υπολογισμός της εντροπίας γίνεται σύμφωνα με τον τύπο του Shannon, δηλαδή: n E(Χ) = p(x i ) log (p(x i )) i=0 άρα για κάθε στήλη του πίνακα Η, που αντιστοιχεί σε κάθε topic, υπολογίζεται η εντροπία με βάση τον παραπάνω τύπο. Ακολούθως, ορίζεται ένα όριο (t e ), όπου αν η τιμή της εντροπίας κάποιου topic ξεπερνά την τιμή αυτή, αυτομάτως τίθεται ως ανενεργό. Το όριο τέθηκε εμπειρικά έτσι ώστε να θεωρούνται ανενεργά το 10% του συνολικού αριθμού των topics. Στο πείραμα που θα εξεταστεί σε επόμενο κεφάλαιο δόθηκε όριο ίσο με 180. Η μεγαλύτερη τιμή που υπολογίστηκε είναι , ενώ αντίστοιχα η μικρότερη Το σύνολο των topics που θεωρούνται ανενεργά συμβολίζεται με E. ΥΠΟΛΟΓΙΣΜΟΣ ΙΣΤΟΓΡΑΜΜΑΤΟΣ TOPICS(Η) 1 για i 1 έως N G 2 e i Υπολογισμός Εντροπίας(H i ) 3 αν ισχύει e i > t e 4 E E topic i 5 Επιστροφή (E) ΕΝΤΡΟΠΙΑ ΙΣΧΥΡΟΤΕΡΑ TAGS sky clouds sunset blue sun bird birds nature wildlife animals bike bicycle cycling race road london uk england londres kingdom greece athens ελλάδα hellas thessaloniki barcelona spain catalunya españa cataluña Πίνακας 13 Πίνακας αποτελεσμάτων από τον υπολογισμό της εντροπίας. Απεικονίζεται το σκορ της εντροπίας σε μερικά topics μαζί με τα πέντε tags που σημειώνουν μεγαλύτερη ομοιότητα με αυτό. Τέλος το βασικό ζητούμενο του βήματος αυτού είναι ο ορισμός ενός λεξιλογίου αποκλειόμενων λέξεων. Θα μπορούσε εύκολα να θεωρηθεί το σύνολο των λέξεων των inactive topics. Παρόλα αυτά παρατηρήθηκε ότι πολλές από αυτές (π.χ. california, sanfrancisco, newmexico) δεν είναι επιθυμητό να φιλτράρονται.

64 64 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Για τον λόγο αυτό, η διαδικασία επιλογής των λέξεων του αποτελούν το BoEW γίνεται με το εξής τρόπο. Βάσει των πινάκων Φ G και M G, που δημιουργήθηκαν από την εφαρμογή του καθολικού LDA, υπολογίζεται για κάθε λέξη το topic που εμφανίζει την μεγαλύτερη ομοιότητα. Κάθε στήλη του πίνακα Φ G αντιστοιχεί σε μία λέξη που υπάρχει στον M G, με βάση τον αύξοντα αριθμό της. Με αυτό τον τρόπο, βρίσκοντας τη μέγιστη τιμή κάθε στήλης, επιτυγχάνεται αντιστοιχία των λέξεων του εγγράφου με τα topics που δημιούργησε ο καθολικός LDA. Έτσι εύκολα συμπεραίνεται ότι οι λέξεις που αντιστοιχούν σε ανενεργά topics, απαρτίζουν το BoEW. ΔΗΜΙΟΥΡΓΙΑ BoEW (Ε, Φ G, M G ) 1 για i 1 έως μήκος(μ G ) 2 max μέγιστο(φ G,i ) 3 αν υπάρχει max στο Ε 4 τότε BoEW BoEW Μ G,max 5 Επιστροφή (BoEW) Παρόλα αυτά μερικά tags γεωγραφικού ενδιαφέροντος συμπεριλήφθηκαν στο BoEW, όπως για παράδειγμα usa, europe, america κ.λπ. Αυτό συνέβη διότι είναι tags τα οποία καλύπτουν πολύ μεγάλες γεωγραφικές περιοχές με αποτέλεσμα η τιμή της εντροπίας των topics που αντιστοιχούν να είναι μεγαλύτερη από το όριο που τέθηκε. Παρακάτω, παρουσιάζεται συγκεντρωμένα ολόκληρος ο αλγόριθμος για την δημιουργία του BoEW. ΚΑΘΟΛΙΚΟΣ LDA & ΔΗΜΙΟΥΡΓΙΑ BoEW (Τ, Α) 1 D G Δημιουργία Αρχείου LDA(T) 2 τ G LDA (D G, N G, W G ) 3 4 B ΥΠΟΛΟΓΙΣΜΟΣ ΛΙΣΤΑΣ ΕΝΕΡΓΩΝ TOPICS(T, Θ G ) 5 H ΥΠΟΛΟΓΙΣΜΟΣ ΙΣΤΟΓΡΑΜΜΑΤΟΣ TOPICS(Β, A) 6 7 E ΥΠΟΛΟΓΙΣΜΟΣ ΙΣΤΟΓΡΑΜΜΑΤΟΣ TOPICS(Η) 8 BoEW ΔΗΜΙΟΥΡΓΙΑ BoEW (Ε, Φ G, M G ) Εκτίμηση της τελικής θέσης Εικόνα 11 Σχηματική αναπαράσταση του BoEW Το στάδιο εκτίμησης της τελικής θέσης των εικόνων του συνόλου ελέγχου, υλοποιείται σε δύο σκέλη. Στο πρώτο γίνεται το φιλτράρισμα των tags των υπό εξέταση εικόνων και η τοποθέτηση τους στις περιοχές που δημιουργήθηκαν στο προηγούμενο βήμα. Στο δεύτερο σκέλος εκτελείται η διαδικασία της αναζήτησης ομοιότητας με βάση τις εικόνες που περιέχονται στην περιοχή που κατατάχθηκε η κάθε εικόνα, δηλαδή ακριβώς η ίδια διαδικασία με αυτή που χρησιμοποιήθηκε στο κεφάλαιο 3. Το σύνολο ελέγχου συμβολίζεται με Q και έχει τις ίδιες παραμέτρους με το σύνολο εκπαίδευσης T.

65 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ ο σκέλος: Ανάθεση στης περιοχές Αρχικά, γίνεται φιλτράρισμα των tags των εικόνων, με τον ίδιο τρόπο που έγινε και στην προηγούμενη παράγραφο όσον αφορά στα machine tags. Η προσθήκη που γίνεται σε αυτό το σημείο αφορά στον έλεγχο αν κάποιο tag ανήκει στο BoEW. Οι περιπτώσεις των tags, που η παραπάνω συνθήκη είναι αληθής, απομακρύνονται οριστικά από το σύνολο. Στη συνέχεια γίνεται η τελική ανάθεση των εικόνων ελέγχου στις περιοχές που σχηματίστηκαν κατά την εκπαίδευση. Για αυτόν τον λόγο είναι απαραίτητος ο ορισμός μιας μετρικής που θα εκφράζει την ομοιότητα των υπό εξέταση εικόνων με τις περιοχές. Με αυτό το σκεπτικό χρησιμοποιείται η μετρική Jaccard similarity μεταξύ κάθε i υπό εξέταση εικόνα, Q i, και κάθε j topic του κάθε k local LDA, τ jk. Θα μπορούσε να χρησιμοποιηθεί και cosine similarity, όμως επειδή δεν παρουσιάζεται συχνότητα εμφάνισης μέσα στις εικόνες και τα topics, δεν κρίθηκε σκόπιμο. O τύπος της παραπάνω σχέσης είναι: s ijk = t i τ jk t i τ jk (εξ. 4.13) Η τελική ανάθεση πραγματοποιείται με δύο τρόπους. Ο ένας από αυτούς είναι μέσω της ανάθεσης της εικόνας στην περιοχή που ανήκει το topic, που σημειώθηκε η μεγαλύτερη τιμή ομοιότητας. area i = arg max j,k s ijk (εξ. 4.14) Ο δεύτερος τρόπος γίνεται με τον υπολογισμό του μέσου όρου ομοιότητας όλων των topics, με μη μηδενική ομοιότητα κάθε ομάδας. Η τελική τοποθέτηση γίνεται στο cluster με το μεγαλύτερο μέσο όρο. area i = arg max j s ijk k k=0 (εξ. 4.15) Και στις δύο περιπτώσεις όταν κάποια εικόνα δεν έχει tags τοποθετείται στην μεγαλύτερη πληθυσμιακά εικόνα. 2 ο σκέλος: Αναζήτηση ομοιότητας Αυτό είναι το τελευταίο μέρος του αλγορίθμου όπου γίνεται και η τελική εκτίμηση της θέσης των εικόνων του συνόλου ελέγχου. Με τον ίδιο τρόπο όπως και στο προηγούμενο κεφάλαιο, η τελική θέση κάθε υπό εξέταση εικόνας υπολογίζεται από τις k πιο όμοιες εικόνες, εντός της περιοχής που τοποθετήθηκε. Η ομοιότητα των εικόνων υπολογίζεται με χρήση Jaccard similarity μεταξύ των tag των συγκρινόμενων εικόνων. Η τελική εκτιμώμενη θέση των εικόνων ελέγχου από το κέντρο βαρύτητας (center-of-gravity) των k πιο όμοιων εικόνων.

66 66 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο 4.4 Οπτική Ανάλυση (Visual-based Analysis) Πέρα από την ανάλυση με βάση τα μετα-δεδομένα (text-based analysis), έγινε προσπάθεια για οπτική ανάλυση (visual-based analysis) των εικόνων ολόκληρου του συνόλου δεδομένων. Η οπτική ανάλυση πραγματοποιείται με την εξαγωγή των βελτιστοποιημένων SURF+VLAD, όπως στην [SPK 2012] χαρακτηριστικών κάθε εικόνας του σύνολο εκπαίδευσης και κατάταξή τους σε πίνακα με χρήση τεχνικών IVFADC, όπως προτείνεται στο [JC 2012]. Τα SURF+VLAD διανύσματα είναι βασισμένα σε πολλαπλά λεξιλόγια συσσώρευσης (τέσσερα λεξιλόγια των k = 128 κέντρων το καθένα) και γίνεται ελάττωση των διαστάσεών τους (σε μόλις 48 διαστάσεις για καλύτερη απόδοση), με μετασχηματισμού λεύκανσης και PCA, όπως στο [JDS 2011]. Έπειτα τα διανύσματα κβαντίζονται με ένα ταχύ κβαντιστή 1024 κέντρων και εφαρμογή του Product Quantization στα υπολειπόμενα διανύσματα, όπως στο [JC 2012]. Για την υλοποίηση των παραπάνω χρησιμοποιήθηκε η ανοιχτή στο κοινό εφαρμογή 8. Η εκτίμηση της γεωγραφικής θέσεις των υπό εξέταση εικόνων γίνεται με βάση τις k πιο οπτικά όμοιες εικόνες του συνόλου εκπαίδευσης. Στην πρώτη υλοποίηση η γεωγραφική θέση μιας υπό εξέταση εικόνας, λαμβάνεται από τις συντεταγμένες της πιο όμοιας εικόνας από το σύνολο εκπαίδευσης (k =1). Στη δεύτερη υλοποίηση λαμβάνονται οι θέσεις των 20 πιο όμοιων εικόνων (k =20) και έπειτα γίνεται χωρική ομαδοποίηση αυτών. Για κάθε j εικόνα, από τις k πιο όμοιες, υπολογίζεται η απόστασή της από τις j 1. Όταν η απόσταση με κάποια από αυτές είναι μικρότερη από 1km, τοποθετείται στην ίδια ομάδα, διαφορετικά σχηματίζει μία καινούρια. Η τελική εκτίμηση της θέσης λαμβάνεται από το κέντρο της πολυπληθέστερης ομάδας. Σε περίπτωση που δυο ή περισσότερες ομάδες έχουν τον αυτό πληθυσμό εικόνων, λαμβάνεται το κέντρο αυτής που σχηματίστηκε νωρίτερα. ΟΠΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕ ΟΜΑΔΟΠΟΙΗΣΗ (Τ k, Q k ) 1 C, αρχικοποίηση των clusters 2 C l, αρχικοποίηση κέντρων των clusters 3 4 για i 1 έως k 5 d ij Ελάχιστη απόσταση (i-1) 6 αν d ij 1 7 τότε C j C j T i, προσθήκη εικόνα i στο C της j 8 C l j ανανέωση κέντρου (c i ) 9 αλλιώς 10 C C {T i }, δημιουργία νέου cluster 11 C l C l c i 12 C max πολυπληθέστερο cluster (C) l 13 c k C max 8

67 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Υβριδική Υλοποίηση (Hybrid Approach) Σε αυτή την υλοποίηση γίνεται η χρήση και των δύο προηγούμενων τεχνικών. Δηλαδή ο αλγόριθμος χρησιμοποιεί την ανάλυση μετα-δεδομένων για τις εικόνες που συνοδεύονται από tags, και την οπτική ανάλυση για τις κενές εικόνες. Με αυτόν τον τρόπο επιτυγχάνεται η τοποθέτηση των εικόνων χωρίς tags στη τελική εκτιμώμενη θέση, με πιο βάσιμα θεωρητικά κριτήρια. Οι περιπτώσεις των υλοποιήσεων που χρησιμοποιήθηκαν για τις δύο τεχνικές είναι: α) για την text-based analysis η χρήση του topic με τη μέγιστη τιμή ομοιότητας και β) για τη visual-based analysis η χρήση της πιο οπτικά όμοιας εικόνας εκπαίδευσης (k =1). ΥΒΡΙΔΙΚΗ ΥΛΟΠΟΙΗΣΗ (Τ) 1 για i 1 έως Ν 2 αν t i 3 c i Text-based Analysis (T, method max) 4 αλλιώς 5 c i Visual-based Analysis (T, k 1) Συμβολισμός α Α Β BoEW c d Ε Ι Η k K Μ Ν N L,G Q s t t a t e τ Τ u w W L,G Ερμηνεία Ιd περιοχής Πίνακας περιοχών Λίστα των ενεργών topics για κάθε εικόνα Λεξιλογίου αποκλειόμενων λέξεων Γεωγραφικές συντεταγμένες εικόνας Id εικόνας Ανενεργά topic Πίνακας εικόνων εκπαίδευσης Ιστόγραμμα των Global topics στα clusters Αριθμός όμοιων εικόνων Αριθμός εικόνων εκπαίδευσης Πίνακας συχνοτήτων των tags Αριθμός εικόνων εκπαίδευσης Αριθμός των topics για local και Global LDAs Πίνακας εικόνων ελέγχου Ομοιότητα μιας εικόνας με ένα topic Tags μιας εικόνας Όριο ενεργοποίησης topic Όριο εντροπίας Συμβολισμός ενός topic Αριθμός εικόνων ελέγχου Id του χρήστη Εικόνες που ανήκουν σε μία περιοχή Αριθμός των λέξεων ανά topics για local και Global LDAs Πίνακας 14 Πίνακας συμβολισμών του βασικού αλγορίθμου.

69 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Κεφάλαιο 5 Αποτελέσματα 5.1 Εισαγωγή Στο παρόν κεφάλαιο παρατίθενται τα αποτελέσματα των αλγορίθμων που αναφέρθηκαν στα προηγούμενα κεφάλαια και σχολιασμός αυτών. Ως βάσεις δεδομένων χρησιμοποιήθηκαν εικόνες που αντλήθηκαν από τον ιστοχώρο Flickr. Ο αλγόριθμος του κεφαλαίου 4 κατατέθηκε στον διεθνή διαγωνισμό MediaEval 2013, στο τμήμα του Placing Task, σημειώνοντας αξιοπρεπή αποτελέσματα, που παρουσιάζονται εκτενώς παρακάτω. Επίσης εξετάζεται και ο αλγόριθμος του κεφαλαίου 3 σε δύο διαφορετικά σύνολα δεδομένων και για ποικίλο αριθμό ομάδων και παραμέτρων. Τα πειράματα εκτελέστηκαν σε μηχάνημα με τα εξής χαρακτηριστικά: Επεξεργαστή: Quad core@2.40ghz Μνήμη RAM: 8GB Σκληρό δίσκο: 1TB 7200rpm Ο συνολικός χρόνος εκτέλεσης για τα πείραμα του πρώτου αλγορίθμου για το πρώτο σύνολο δεδομένων κυμάνθηκε από 12 έως 56 ώρες, ανάλογα με το πλήθος των ομάδων. Όσον αφορά στον δεύτερο αλγόριθμο και μόνο για το στάδιο της εκτίμησης τελικής θέσης, για tag-based εκτελέσεις απαιτήθηκαν περίπου 23 ώρες ενώ για τις visualbased μόνο 13 ώρες. Το ίδιο μηχάνημα χρειάστηκε 2 ημέρες για τη δημιουργία των local LDAs, ενώ o Global LDA εκτελέστηκε σε server του ΙΠΤΗΛ καθώς είχε υπέρογκες απαιτήσεις σε μνήμη RAM (χρειάστηκαν τουλάχιστον 72GB). Ο συνολικός χρόνος εκτέλεσης ήταν 9 ημέρες και παράχθηκαν αρχεία μεγέθους 70GB.

70 70 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο 5.2 Αποτελέσματα αλγορίθμου γλωσσικού μοντέλου Για τον έλεγχο των αποτελεσμάτων του αλγορίθμου που χρησιμοποιούσε γλωσσικό μοντέλο για την τοποθέτηση των υπό εξέταση εικόνων στις ομάδες, χρησιμοποιήθηκε ένα σύνολο εικόνων που ανερχόταν σε Το σύνολο αυτό χωρίστηκε σε δύο μέρη, εκπαίδευσης και ελέγχου, συνολικών εικόνων και , αντίστοιχα. Για τον αλγόριθμο αυτό πραγματοποιήθηκαν δυο υλοποιήσεις, όπως εξηγείται παρακάτω. Εικόνα 12 Απεικόνιση του συνόλου των εικόνων που χρησιμοποιήθηκαν για τον αλγόριθμο γλωσσικού μοντέλου Language Model (LM): στην υλοποίηση αυτή γίνεται η ανάθεση των εξεταζόμενων εικόνων στις ομάδες με βάση το γλωσσικό μοντέλο και στη συνέχεια, ως τελική εκτίμηση της γεωγραφικής θέσης, δίνεται το κέντρο των ομάδων που ανατέθηκαν οι εικόνες. Hybrid Approach (HA): σύμφωνα με την υλοποίηση αυτή, η ανάθεση των εικόνων γίνεται με τον ίδιο παραπάνω τρόπο, δηλαδή με γλωσσικό μοντέλο, όμως η τελική γεωγραφική θέση δίνεται με τη χρήση της διαδικασίας αναζήτησης ομοιότητας, στις εικόνες εντός της ομάδας. Και οι δύο υλοποιήσεις ελέγχονται για διάφορες τιμές των παραμέτρων. Οι τιμές που δίνονται για τον συνολικό αριθμό των ομάδων K είναι {50, 500, 2 500, 5 000, 7 500, , , , , }, οι οποίες αντιστοιχούν στις ακόλουθες τιμές του μεγέθους του λεξιλογίου αυτών m, {6 400, 640, 256, 64, 28, 16, 10, 7, 5, 4}. Επίσης για την αναζήτηση ομοιότητας στην HA, θεωρούνται οι τιμές k=2 και a=25. Για τις αραιότερες ομαδοποιήσεις χρησιμοποιούνται μεγάλου μεγέθους λεξιλόγια, ενώ για τις πυκνότερες μικρότερου μεγέθους αντίστοιχα. Τα αποτελέσματα μετρούνται ως ποσοστό ακρίβειας, όπου η ακτίνα (range) μέσα στην οποία θεωρείται σωστή μια τοποθέτηση, παίρνει τις τιμές {1, 10, 100, 500, 1 000, 5 000, }. Παρατίθενται τα

71 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ αποτελέσματα των δύο μεθόδων για τις διάφορες τιμές παραμέτρων και ακτίνων ακρίβειας. Αριθμός Ομάδων (Κ) Ακρίβεια acc(1km) acc(10km) acc(100km) acc(500km) acc(1000km) acc(5000km) acc(10000km) Πίνακας 15 Αποτελέσματα ακρίβειας (%) της LM. Αριθμός Ομάδων (Κ) Ακρίβεια acc(1km) acc(10km) acc(100km) acc(500km) acc(1000km) acc(5000km) acc(10000km) Πίνακας 16 Αποτελεσμάτων ακρίβειας (%) της ΗΑ. Όπως προκύπτει από τα αποτελέσματα των δύο υλοποιήσεων, η HA σημειώνει σε γενικές γραμμές καλύτερα ποσοστά ακρίβειας. Ακριβέστερα αποτελέσματα επιτυγχάνονται στις μικρές ακτίνες ακριβείας, <1km και <10km, όπου η HA σημειώνει ποσοστό ίσο με 14.82%, σε σύγκριση με 12.02% της LM και 35.28% έναντι 33.32%, αντίστοιχα. Αυτό είναι αναμενόμενο καθώς η HA αντιμετωπίζει με πιο αποδοτικό τρόπο τις εικόνες από την στιγμή που ανατίθενται στις ομάδες, γεγονός πολύ σημαντικό για τα μικρά range. Παρόλα αυτά διαπιστώνεται ότι όσο αυξάνεται η ακτίνα της ακρίβειας, τόσο μικρότερη επίδραση έχει αυτός ο μηχανισμός και οι δύο μέθοδοι έχουν παρόμοια αποτελέσματα. Επίσης εύκολα διαπιστώνεται και στις δύο υλοποιήσεις, ότι όσο αυξάνεται ο αριθμός των ομάδων, τόσο καλύτερα ποσοστά επιτυγχάνονται. Βέβαια στις μεγάλες ακτίνες ακρίβειας, <1 000km έως <10 000km, η διαπίστωση αυτή δεν ισχύει, δηλαδή τα καλύτερα ποσοστά σημειώνονται στους μεσαίους αριθμούς ομάδων. Αυτό οφείλεται στο γεγονός ότι όσο μεγαλύτερες είναι οι ομάδες, τόσο πιθανότερο είναι να ανταποκρίνονται με ακρίβεια στα μεγάλα range. Οι μικρές ακτίνες ακρίβειας όμως, θεωρούνται πιο αξιόπιστο κριτήριο για την απόδοση των αλγορίθμων. Επιπλέον υπολογίστηκαν τα αποτελέσματα για και ομάδες, όμως επειδή ήταν παρόμοια με αυτά των , δεν θεωρήθηκε σκόπιμο να αναφερθούν.

72 72 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Παρακάτω, χωρίζονται οι εικόνες ελέγχου σε ομάδες με βάση τον αριθμό των tags τους. Οι ομάδες που δημιουργούνται είναι {1, 2, 3, 4, 5, [6,10], [11,75]}, και σε κάθε μία κατατάσσονται όσες εικόνες έχουν τον αντίστοιχο αριθμό από tags. Στη συνέχεια απεικονίζεται το μέσο σφάλμα απόστασης (median error distance), σε συνάρτηση με τον αριθμό των περιοχών που έγινε η ομαδοποίηση και τον αριθμό των tags των λέξεων tag 2 tags 3 tags 4 tags 5 tags [6,10] tags [11,75] tags Μέσο Σφάλμα Απόστασης (km) Αριθμός Ομάδων Σχήμα 2 Γραφική απεικόνιση του μέσου σφάλματος απόστασης της ΗΑ σε συνάρτηση με τον αριθμό των ομάδων και τον αριθμό των tags των λέξεων. Εύκολα παρατηρεί κανείς ότι οι εικόνες με αριθμό tags στο διάστημα [6,10] παρουσιάζουν το μικρότερο μέσο σφάλμα απόστασης, για σχεδόν όλες τις ομάδες. Αυτό είναι απόλυτα λογικό διότι έχουν μεγάλη πιθανότητα να περιέχουν tags που προσδιορίζουν τη γεωγραφική τους θέση. Το ίδιο συμβαίνει και για εικόνες με αριθμό tags στο διάστημα [11,75], που όμως δεν έχουν την ίδια απόδοση. Ενδεχομένως οφείλεται στο γεγονός ότι περιέχουν μεγάλο αριθμό από tags γενικού ενδιαφέροντος, που αποπροσανατολίζουν τον αλγόριθμο. Τέλος, οι εικόνες με ένα, δύο και τρία tags σημειώνουν τα λιγότερο ακριβή αποτελέσματα, καθιστώντας πολύ δύσκολη την εκτίμηση της γεωγραφικής τους θέσης. Το γράφημα της LM δεν παρουσιάζεται διότι ακολουθεί ακριβώς την ίδια πορεία με αυτό της ΗΑ, επομένως δεν θεωρήθηκε σκόπιμο να απεικονισθεί.

73 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Αποτελέσματα αλγορίθμου με χρήση LDA Ο αλγόριθμος αυτός, όπως προαναφέρθηκε, υποβλήθηκε στο διαγωνισμό MediaEval 2013 στα πλαίσια του Placing Task. Το σύνολο δεδομένων που χρησιμοποιήθηκαν για την εκπαίδευση και τον έλεγχο του αλγορίθμου, είναι αυτά που χορηγήθηκαν από τους διοργανωτές. Το μέγεθος του dataset είναι εικόνες, εκ των οποίων οι αποτελούν το σύνολο εκπαίδευσης και οι υπόλοιπες το σύνολο ελέγχου. Για τον διαγωνισμό πραγματοποιήθηκαν πέντε εκτελέσεις οι οποίες περιγράφονται πιο κάτω. run1 tmax: είναι text-based υλοποίηση κατά την οποία η ανάθεση στα clusters γίνεται με βάση το topic με τη μεγαλύτερη τιμή ομοιότητας. run2 vnn: είναι visual-based υλοποίηση όπου η τελική ανάθεση γίνεται με βάση τον κοντινότερα οπτικά γείτονα (k=1). run3 tmean: είναι text-based υλοποίηση κατά την οποία η ανάθεση στα clusters γίνεται με βάση το μέσο όρο της ομοιότητα των topic κάθε cluster. run4 vclust: είναι visual-based υλοποίηση όπου γίνεται ομαδοποίηση των k=20 κοντινότερων γειτόνων και η τελική ανάθεση γίνεται στη μεγαλύτερη ομάδα. run5 hyb: είναι η υβριδική υλοποίηση text και visual. Εικόνα 13 Γραφική αναπαράσταση του συνολικού dataset. Στις τρείς text-based υλοποιήσεις το τελικό σύνολο εκπαίδευσης, μετά το στάδιο του φιλτραρίσματος, αποτελείτο από εικόνες. Ακολουθούν τα αποτελέσματα των πιο πάνω πειραμάτων.

74 74 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Ακρίβεια tmax vnn tmean vclust hyb acc(1km) acc(10km) acc(100km) acc(500km) acc(1000km) acc(5000km) acc(10000km) median error Πίνακας 17 Αποτελέσματα των run1-5. Από τον παραπάνω πίνακα συμπεραίνεται ότι τα καλύτερα αποτελέσματα επιτεύχθηκαν από τις υλοποιήσεις hyb και tmax. Από άποψη ακρίβειας, η hyb σημειώνει ελαφρώς καλύτερα αποτελέσματα, με 10.37% για ακρίβεια ακτίνας <1km και 23.70% για <10km. Το γεγονός αυτό είναι αναμενόμενο καθόσον χρησιμοποιείται ακριβέστερη μετρική για την εκτίμηση της τελικής θέσης των εικόνων που δεν έχουν κανένα tag. Παρόλα αυτά στα μεγάλα range η tmax δείχνει να συμπεριφέρεται καλύτερα. Από άποψη μέσου σφάλματος η tmax επιτυγχάνει το καλύτερο αποτέλεσμα (651km), έχοντας πολύ μικρή διαφορά από την hyb που έπεται. Αξιοσημείωτα είναι τα χαμηλά ποσοστά στα αποτελέσματα των καθαρά visual-based υλοποιήσεων. Αυτό οφείλεται στον τεράστιο όγκο των δύο συνόλων, εκπαίδευσης και ελέγχου, καθώς και στη φύση αυτών. Ενδεχομένως να επηρέασε αρνητικά η μείωση των διαστάσεων των διανυσμάτων που χρησιμοποιούνται από την μέθοδο. Το σύνολο ελέγχου δόθηκε σε διάφορα μεγέθη. Τα μεγέθη αυτά είναι {5 300, , , , }, όπου το κάθε υποσύνολο, με μέγεθος όπως ορίζεται πιο πάνω, περιέχει όλες τις εικόνες από τα υποσύνολα με μικρότερο μέγεθος από αυτό. Για παράδειγμα, το υποσύνολο με εικόνες εμπεριέχει τις εικόνες αυτού των Για το λόγο αυτό ελέγχουμε τα αποτελέσματα της hyb για τρία ενδεικτικά υποσύνολα με μέγεθος 5 300, και Ακρίβεια acc(1km) acc(10km) acc(100km) acc(500km) acc(1000km) acc(5000km) acc(10000km) median error Πίνακας 18 Αποτελέσματα από την εφαρμογή του hyb σε υποσύνολα του συνόλου ελέγχου

75 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Όπως προκύπτει από τον πίνακα 5.4, η απόδοση του αλγορίθμου είναι άμεσα συνδεδεμένη με το σύνολο ελέγχου. Σε κάποιο άλλο σύνολο ενδέχεται τα αποτελέσματα να διαφοροποιούνται σημαντικά. Στη συγκεκριμένη περίπτωση, η hyb είχε καλύτερες αποδόσεις, ως προς κάθε μετρική, για το υποσύνολο των εικόνων. Αντίθετα, για το υποσύνολο των εικόνων τα αποτελέσματα σημειώνουν χαμηλότερα ποσοστά επιτυχίας, φθάνοντας τις έντεκα ποσοστιαίες μονάδες διαφορά στο range ακρίβειας <1000km tmax tmean Μέσο Σφάλμα Απόστασης (km) [6,10] [11.75] Αριθμός Tags Σχήμα 3 Γραφική απεικόνιση του μέσου σφάλματος απόστασης (km) σε σχέση με τον αριθμό των tags των εικόνων Στο παραπάνω σχήμα απεικονίζεται το μέσο σφάλμα απόστασης, σε σχέση με τον αριθμό των tags των εικόνων. Παρατηρείται ότι για την υλοποίηση tmax οι εικόνες με αριθμό tags στο διάστημα [6,10] παρουσιάζουν τα καλύτερα αποτελέσματα, παρόμοια με αυτά της υλοποίησης ΗΑ. Και στις δύο υλοποιήσεις, tmax και tmean, οι εικόνες με μικρό αριθμό tags δεν βοηθούν στη σωστή εκτίμηση της θέσης τους, γεγονός απολύτως λογικό, το οποίο επιβεβαιώνεται από τις πολύ μεγάλες τιμές του μέσου σφάλματος απόστασης. Όσον αφορά στην tmean παρατηρείται ελαχιστοποίηση του σφάλματος στις εικόνες με τρία tags. Το γεγονός αυτό είναι αξιοσημείωτο καθόσον είναι αρκετά μικρός αριθμός για την ορθή τοποθέτηση των εικόνων στην πλησιέστερη δυνατή θέση. Τέλος, εφαρμόστηκε η HA στα δεδομένα που δόθηκαν από τον διαγωνισμό, για περιορισμένο αριθμό ομάδων, χωρίς όμως να εμφανίσει κάποια αξιόλογα αποτελέσματα. Στον πίνακα 5.5 απεικονίζονται τα αποτελέσματα αυτά. Και στην περίπτωση αυτού του συνόλου δεδομένων, ο αλγόριθμος έδωσε τα καλύτερα

76 76 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο αποτελέσματα στις περιοχές, που όμως απέχουν αρκετά από την απόδοση των text-based υλοποιήσεων του βασικού αλγορίθμου. Αριθμός Ομάδων (Κ) Ακρίβεια acc(1km) acc(10km) acc(100km) acc(500km) acc(1000km) acc(5000km) acc(10000km) Πίνακας 19 Αποτελέσματα του HA στο σύνολο των εικόνων του διαγωνισμού. 5.4 Αποτελέσματα MediaEval 2013 στο Placing Tack Κλείνοντας, παρατίθενται τα αποτελέσματα που σημειώθηκαν από τις ομάδες που έλαβα μέρος στον διαγωνισμό. Ακολουθούν τα αποτελέσματα των text-based υλοποιήσεων, για κάθε ομάδα. Ονομασία Ομάδας Ακρίβεια ΑΠΘ - DUoT UoS SCUoT CEA- VIT RECOD CERTH LIST acc(1km) acc(10km) acc(100km) acc(500km) acc(1000km) Πίνακας 20 Αποτελέσματα των text-based υλοποιήσεων κάθε ομάδας. Η ομάδα που σχηματίστηκε για την ανάπτυξη και τελική υποβολή του αλγορίθμου είναι η ΑΠΘ CERTH, καθώς πρόκειται για μια συνεργατική συμμετοχή του Αριστοτελείου Πανεπιστημίου και του ερευνητικού κέντρου ΕΚΕΤΑ. Συμπεραίνεται ότι σαν πρώτη προσπάθεια, για την δημιουργία ενός καινοτόμου αλγόριθμου, τα αποτελέσματα ήταν θετικά και υποσχόμενα καλύτερες αποδόσεις. Παρατηρείται ότι η ομάδα μας κατατάσσεται περίπου στη μέση, ανάμεσα σε ερευνητικά κέντρα και πανεπιστήμια από όλον τον κόσμο, όπως το CEA-LIST και το πανεπιστήμιο του Southampton, πολλά από τα οποία έχουν μακρόχρονη παρουσία στο θεσμό. Με τις προτάσεις που γίνονται στο κεφάλαιο Μελλοντική Εργασία, υπάρχει η δυνατότητα μεγάλης βελτίωσης. Τέλος, το working note papers που υποβλήθηκε στο διαγωνισμό παρουσιάζεται συνοπτικά στο [KPS 2013] και για τις υπόλοιπες έρευνες αντίστοιχα στα [LRL 2013], [DHS 2013], [JC 2013], [AP 2013], [LAP 2013].

77 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Κεφάλαιο 6 Συμπεράσματα και Μελλοντική Εργασία 6.1 Συμπεράσματα Όσον αφορά στον πρώτο αλγόριθμο, σε γενικές γραμμές παρατηρείται ότι είναι άμεσα εξαρτημένος από την ποιότητα των συνόλων που δίνονται και ειδικά του συνόλου ελέγχου. Επί πλέον και η τεχνική της αναζήτησης ομοιότητας παρουσιάζει πολύ μεγάλο ενδιαφέρον. Παρόλα αυτά το γλωσσικό μοντέλο δεν φάνηκε ιδιαίτερα αποδοτικό στη δεύτερη περίπτωση των συνόλων των εικόνων. Αυτό πιθανότατα οφείλεται στο μεγάλο αριθμό κενών εικόνων, δηλαδή εικόνων χωρίς tags, στο σύνολο ελέγχου. Στην περίπτωση του δεύτερου αλγορίθμου, η σημασιολογική ανάλυση των tags των εικόνων με τον LDA φαίνεται ιδιαίτερα ελκυστική. Συνδυάζοντάς το με την αναζήτηση ομοιότητας του πρώτου αλγορίθμου προέκυψαν ικανοποιητικά αποτελέσματα, η βελτίωση των οποίων μπορεί να επέλθει με την κατάλληλη ρύθμιση των παραμέτρων του συστήματος. Ως πρώτη προσέγγιση φαίνεται πολλά υποσχόμενη.

78 78 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο 6.2 Μελλοντική Εργασία Στην παράγραφο αυτή θα γίνει ανάλυση της δυνατής επέκτασης μόνο για τον δεύτερο αλγόριθμο, καθώς αποτελεί μια αρχική υλοποίηση που επιδέχεται πληθώρα αλλαγών και ρυθμίσεων για την επίτευξη όσο το δυνατόν καλύτερων αποτελεσμάτων. Πρώτα από όλα πολύ βασικός είναι ο ενδελεχής έλεγχος των παραμέτρων του συστήματος. Η υλοποίηση στηρίχθηκε περισσότερο σε θεωρητικά παρά σε πρακτικά μεγέθη. Όσον αφορά στην ανάλυση των μετα-δεδομένων μπορεί να γίνει πειραματισμός για τα παρακάτω μεγέθη: Αριθμός των topics και των λέξεων που τα απαρτίζουν, τόσο για τους τοπικούς όσο και για τον καθολικό LDA. Παρατηρήθηκε ότι σε ορισμένους τοπικούς LDAs υπήρχε επανάληψη λέξεων στα topics τους, με αποτέλεσμα να μη γίνεται αρκετά αποδοτική ανάθεση στις περιοχές. Ελάττωση του αριθμού των λέξεων ανά topic για τους τοπικούς LDAs, θα διόρθωνε αυτό το φαινόμενο. Επίσης μπορεί να εξετασθεί και μεταβλητός αριθμός των topics ανά περιοχή, ανάλογα με το μέγεθός της. Όριο εντροπίας. Είναι απαραίτητη η εξέταση διαφορετικών τιμών ως όριο εντροπίας, σύμφωνα με το οποίο ένα topic θεωρείται ανενεργό. Το πλήθος των διαφορετικών tags του συνόλου εκπαίδευσης, ανερχόταν περίπου στα 160 χιλιάδες. Το συνολικό λεξιλόγιο του BoEW ήταν περίπου λέξεις, ιδιαίτερα μικρό σε σύγκριση με το σύνολο των tags. Αριθμός των περιοχών K. Διαδραματίζει καθοριστικό ρόλο για την πορεία του αλγορίθμου. Η επιλογή μεγαλύτερης τιμής του K είναι πιθανό να βελτιώσει την ακρίβεια του αλγορίθμου, όπως φαίνεται στην υλοποίηση του πρώτου αλγορίθμου. Όσον αφορά στην οπτική ανάλυση των εικόνων, θα μπορούσαν να χρησιμοποιηθούν διαφορετικές μέθοδοι για την εύρεση των κοντινότερων γειτόνων, με βάση τα οπτικά χαρακτηριστικά. Επιπλέον η βελτίωση της ακρίβειας του αλγορίθμου είναι εφικτή μέσα από την αξιοποίηση περισσότερων μετα-δεδομένων, όπως η ταυτότητα του χρήστη και η ανάλυση της εικόνας. Ακόμη, ιδιαίτερα χρήσιμη θα μπορούσε να φανεί η χρήση γεωγραφικών λεξικών (gazetteers). Τέλος, άξια πειραματισμού είναι και μία διαφορετική, από την κλασική ομαδοποίηση, προσέγγιση επεξεργασίας των εικόνων εκπαίδευσης, όπως χωρισμός του γεωγραφικού χάρτη σε grids ή σε κάποια ιεραρχική ομαδοποίηση.

79 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Παράρτημα Αναλυτικά Αποτελέσματα των Σχετικών Υλοποιήσεων Αποτελέσματα της [HE 2008] Ως σύνολο εκπαίδευσης χρησιμοποιήθηκε ένα σύνολο γεωγραφικά τοποθετημένων εικόνων, η θέση των οποίων ήταν εκφρασμένη σε GPS συντεταγμένες, που αντλήθηκαν από το Flickr. Για την χρήση του συγκεκριμένου συνόλου χρειάστηκαν ορισμένες διαδικασίες προεπεξεργασίας και καθαρισμού, για αποδοτικότερη λειτουργία του συστήματος. Παρά τις ακριβείς συντεταγμένες τους, ορισμένες εικόνες μπορούν να απορριφθούν, διότι δεν απεικονίζουν κάποιο μέρος με αρκετά σημαντική οπτική αξία. Επιπλέον, εικόνες που είχαν επισύναψη που παρέπεμπε σε κάποιο γεγονός, όπως birthday, concert, abstract, επίσης, δεν συμπεριλήφθηκαν στο τελικό σύνολο. Έτσι, το σύνολο εκπαίδευσης κατέληξε να αποτελείται από εικόνες συνολικού όγκου ενός terabyte, όπου κάθε τετραγωνικό χιλιόμετρο της έκτασης της γης καλύπτεται από 0,0435 εικόνες. Η κατανομή των εικόνων ανά τον κόσμο, παρουσιάζεται στο παρακάτω σχήμα. Το σύνολο ελέγχου σχηματίστηκε από 400 τυχαίες εικόνες, οι οποίες δεν περιλαμβάνονται στο σύνολο εκπαίδευσης. Μετά από επεξεργασία με παρόμοιο τρόπο, όπως και στο σύνολο εκπαίδευσης, επιλέχθηκαν 237 εικόνες που σχημάτισαν το σύνολο ελέγχου. Σε αυτό, μόλις το 5% αποτελούσε κάποιου είδους τουριστικό αξιοθέατο. Εικόνα 14 Κατανομή των εικόνων της βάσης δεδομένων που χρησιμοποιήθηκε. Σημειώνονται με κυανό χρώμα οι εικόνες πάνω στη γη Στα παρακάτω σχήματα παρουσιάζονται τα αποτελέσματα σωστής τοποθέτησης των εικόνων του συνόλου, σε ακτίνα 200km των υλοποιήσεων που αναφέρθηκαν στη παράγραφο (1-ΝΝ, κινητού μέσου) για τις διάφορες μεθόδους σύγκρισης των εικόνων, καθώς και το ποσοστό σωστής τοποθέτησης των εικόνων στο χάρτη, για τις

80 80 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο διάφορες υλοποιήσεις, σε συνάρτηση με την ακτίνα απόστασης που θεωρείται ως κατώφλι. Σχήμα 4 Ποσοστό σωστής τοποθέτησης των εικόνων του σετ ελέγχου σε ακτίνα 200km για κάθε μέθοδο σύγκρισης, με χρήση των ομαδοποιήσεων 1-ΝΝ και την μεγαλύτερη ομάδα κινητού μέσου. Σχήμα 5 Ακρίβεια της τοποθέτησης των εικόνων του σετ ελέγχου στο χάρτη. Ποσοστό σωστής τοποθέτησης σε συνάρτηση με το κατώφλι, για τους διάφορους τύπους ομαδοποίησης. Για την ανάλυση των αποτελεσμάτων, ανάλογα με τη μεθόδους σύγκρισης, προκύπτει ότι η πιο αποδοτική είναι αυτή που τις συνδυάζει όλες μαζί. Ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ό,τι ενώ η ομαδοποίηση κινητού μέσου έχει γενικά καλύτερα αποτελέσματα για τις διάφορες μεθόδους, στην τελευταία περίπτωση που χρησιμοποιούνται όλες οι μέθοδοι, ο 1-ΝΝ προσφέρει παρόμοια και ίσως λίγο καλύτερα αποτελέσματα. Το γεγονός αυτό οφείλεται στην μεγάλη ευαισθησία του 1- ΝΝ στις εξωκείμενες τιμές, οι όποιες δεν επηρεάζουν τόσο όταν χρησιμοποιούνται αρκετά χαρακτηριστικά σύγκρισης. Χειρότερη επίδοση δίνει η μέθοδος που χρησιμοποιεί τα γεωμετρικά χαρακτηριστικά, η οποία είναι τελευταία στην κατάταξη του κινητού μέσου και προς το τέλος σε αυτή του 1-ΝΝ. Αρκετά ικανοποιητικές επιδόσεις εμφανίζουν οι μέθοδοι που χρησιμοποιούν χρωματικά ιστογράμματα, θεματικά ιστογράμματα και περιγραφή του κυρίου μέρους και χρώματος, η οποία λειτούργησε αποδοτικά και για τον 1-ΝΝ. Όσον αφορά στην ακρίβεια της τοποθέτησης των εικόνων του συνόλου ελέγχου στο χάρτη, χρησιμοποιούνται όλες οι μέθοδοι σύγκρισης, εκτός από αυτή που επεξεργάζεται τα γεωμετρικά χαρακτηριστικά και τις μικροσκοπικές εικόνες, για την κατά το δυνατό καλύτερη απόδοση. Οι ομαδοποιήσεις που εφαρμόζονται είναι οι 1-ΝΝ και κινητού μέσου, καθώς και δύο καλύτερες περιπτώσεις αυτών, δηλαδή 120-ΝΝ και η καλύτερη δυνατή ομαδοποίηση κινητού μέσου, και τέλος μία τυχαία επιλογή κάποιας εικόνας από το σύνολο εκπαίδευσης. Εύκολα παρατηρείται ότι οι δύο πρώτες λειτουργούν δίνοντας παρόμοια αποτελέσματα. Τοποθετούν σωστά μία εικόνα, στα πλαίσια μιας μικρής χώρας(~750km), σε ποσοστό 25%, ενώ ο 1-ΝΝ δίνει καλύτερη προσέγγιση σε επίπεδα πόλης(~25km). Την πιο σωστή τοποθέτηση κάνει ο 120-ΝΝ, που σε επίπεδα πόλης έχει ακρίβεια σχεδόν 50%, ενώ σε ολόκληρο το σύνολο ελέγχου τοποθετείται στην σωστή ήπειρο.

81 Κορδοπάτης-Ζήλος Γεώργιος ΤΗΜΜΥ-ΑΠΘ Γενικότερα τα αποτελέσματα δεν είναι ιδιαίτερα ικανοποιητικά, αλλά η όλη μέθοδος αποτελεί μια βάση για τον αυτόματο εντοπισμό της γεωγραφικής θέσης μιας εικόνας, χρησιμοποιώντας κατά κύριο λόγο χαρακτηριστικά της ίδιας της εικόνας. Αποτελέσματα της [SMZ 2009] Για την δημιουργία της βάσης δεδομένων επιλέχθηκαν τυχαία εικόνες που είναι γεωγραφικά τοποθετημένες με τα tags που τις συνοδεύουν. Παρατηρείται ότι οι χρήστες χρησιμοποιούν ένα κοινό σύνολο από tags για ένα πολύ μεγάλο σύνολο εικόνων, οι οποίες ενδεχομένως να έχουν διαφορετική τοποθεσία. Για αυτό το λόγο εφαρμόζεται ένα φίλτρο σύμφωνα με το οποίο, στην μικρότερη χωρική ανάλυση, θα πρέπει να υπάρχει το πολύ μία εικόνα για κάθε χρήστη με το ίδιο σύνολο από tags. Κατ αυτό τον τρόπο, η βάση δεδομένων διαμορφώνεται από ένα σύνολο γεωγραφικά τοποθετημένων εικόνων. Στη συνέχεια χωρίζονται σε τρία μέρη. Το σύνολο εκπαίδευσης που απαρτίζεται από εικόνες (~85%), το σετ για την ρύθμιση των παραμέτρων που είναι εικόνες (~7%) και το σετ ελέγχου που και αυτό αποτελείται από εικόνες (~7%). Η βάση δεδομένων που προκύπτει θεωρείται αρκετά καλή αντιπροσώπευση του κόσμου. Η κατανομή των εικόνων βάσει των σημείων που τραβήχτηκαν καθιστά φανερό ότι περίπου το ένα τρίτο αυτών ανήκει στις Η.Π.Α, το ένα τέταρτο στην Ευρώπη και το υπόλοιπο ανήκει στον υπόλοιπο κόσμο. Γενικότερα περιέχει εικόνες από 180 διαφορετικές χώρες. Στο παρακάτω σχήμα παρουσιάζεται η κατανομή πιο αναλυτικά. Σχήμα 6 Κατανομή των εικόνων της βάσης δεδομένων στις χώρες που ανήκουν. Στα αριστερά για το σύνολο των εικόνων και στα δεξιά για τις εικόνες που τοποθετήθηκαν σωστά σε ακτίνα 100km. Παρακάτω δίνεται ο πίνακας των αποτελεσμάτων της βασικής μεθόδου LM χωρίς κάποια εξομάλυνση για όλες τις μετρικές, όλα τα κατώφλια σωστής τοποθέτησης, και ο πίνακας των αποτελεσμάτων για χρήση μερικών μεθόδων εξομάλυνσης, για όλες τις μετρικές και για τιμές κατωφλιών σωστής τοποθέτησης 1, 10, 100 km. Παρατηρείται ότι το σύστημα δουλεύει πιο αποδοτικά στην περίπτωση της εξομάλυνσης CSR. Παρουσιάζει τα καλύτερα αποτελέσματα για όλες τις μετρικές,

82 82 Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο που είναι αναμενόμενο. Για τις μετρικές απόστασης ενός κελιού, η MRR δουλεύει καλύτερα από την Acc σε γενικές γραμμές. Για την TS χρησιμοποιήθηκαν μόνο οι γείτονες απόστασης ενός κελιού, διότι παραπάνω δεν είχαν κάποια επίδραση και ουσιαστική βελτίωση. Division Acc MRR PAcc 1km km km km km Πίνακας 21 Αποτελέσματα της βασικής μεθόδου LM Acc MRR Acc@1 Acc@2 Acc@3 PAcc 1km LM TS CS CSR km LM TS CS CSR km LM TS CS CSR Πίνακας 22 Αποτελέσματα των μεθόδων TS, CS, CSR Σχήμα 7 Ακρίβεια Acc σε συνάρτηση με την απόσταση Κ κελιών

Δείτε περισσότερα