Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας Semi-supervised classifier training for content-based image retrieval from samples with label uncertainty Βασίλειος Παπαπαναγιώτου ΑΕΜ: Επιβλέπων καθηγητής: Αναστάσιος Ντελόπουλος Οκτώβρης 203

2

3 Περίληψη Ημι-εποπτευόμενη εκπαίδευση ταξινομητών για ανάκτηση εικόνων βάσει περιεχομένου από δείγματα μεταβλητής αξιοπιστίας Στην παρούσα διπλωματική εργασία ασχολούμαστε με την ημι-εποπτευόμενη εκπαίδευση ταξινομητών τύπου SVM (Support vector machines) για την ανάκτηση εικόνων με βάση το οπτικό τους περιεχόμενο. Προσπαθώντας να εκμεταλλευτούμε εικόνες οι οποίες βρίσκονται σε μεγάλες συλλογές διαθέσιμες στο διαδίκτυο, δημιουργήσαμε έναν αυτοματοποιημένο τρόπο εξερεύνησης τέτοιων συλλογών (συγκεκριμένα της συλλογής του Flickr) και συγκέντρωσης πιθανών εικόνων που μπορεί να συμμετέχουν σε μία διαδικασία εκπαίδευσης. Ωστόσο, τέτοιες διαδικτυακές συλλογές χαρακτηρίζονται γενικά από σημαντικό βαθμό θορύβου. Για τον λόγο αυτό δημιουργήσαμε έναν μηχανισμό αξιολόγησης, ο οποίος χρησιμοποιεί την λεκτική πληροφορία που έχουν καταθέσει χρήστες τέτοιων συστημάτων με την μορφή των tags. Στη συνέχεια αναπτύξαμε ένα μοντέλο απεικόνισης της αξιοπιστίας σε πιθανότητες και σε βάρη αξιοπιστίας που χρησιμοποιήθηκαν σε ταξινομητές fuzzy SVM. Χρησιμοποιώντας τις τιμές των scores διερευνούμε διαφορετικές μεθόδους δημιουργίας βέλτιστων και μικρών συνόλων εκπαίδευσης. Τέλος, διερευνήσαμε μεθόδους για την βελτίωση της απόδοσης των ταξινομητών με τη χρήση των βαρών αξιοπιστίας των δειγμάτων. Αποδεικνύεται πειραματικά ότι τα βάρη επιτυγχάνουν σημαντική βελτίωση στην επίδοση των ταξινομητών, επιτυγχάνοντας βελτίωση ως προς τον απλό SVM η οποία ορισμένες φορές ξεπερνά και το 00%.

4

5 Abstract Semi-supervised classifier training for content-based image retrieval from samples with label uncertainty In this work we tackle the issue of semi-supervised learning for classifier training in content based image retrieval. In an a empt to utilize images in huge online collections we have outlined and built an automated way of exploring such collections (our case being Flickr) and obtaining images that are likely to be used in such training procedures. However, such online collections contain a significant amount of erroneous information (noise). As a result, we have created a novel evaluation system that utilizes textual information assigned to images from users, in the form of tags. We subsequently developed a model for mapping the trust values to probabilities and weighting values for fuzzy SVM classifiers. Using the score values, we examined various strategies for obtaining such a robust and significantly small training set. We conclude that the use of such weighting values improve the classifier performance, achieving imporovement greater than 00% in certain cases.

6

7 Περιεχόμενα Περίληψη - abstract Περιεχόμενα Κατάλογος Σχημάτων Κατάλογος Πινάκων iii vii xii xiv I Εισαγωγή Εισαγωγικά 3. Ανάκτηση εικόνων με βάση το οπτικό τους περιεχόμενο Γενικά περί ταξινομητών Στόχος της εργασίας Βιβλιογραφική επισκόπηση 7 2. Αξιοποίηση tags σε ταξινομητές Υπολογισμός πιθανότητας και κατανομών από εξόδους συστημάτων αξιολόγησης Αναζήτηση εικόνων με fuzzy SVMs Πλαίσιο της εργασίας II Θεωρητικά στοιχεία 5 3 Μέθοδος συλλογής και συναρτήσεις ομοιότητας 7 3. Έννοιες Καθορισμός από τον άνθρωπο Διαδικασία επέκτασης Δημιουργία ερωτημάτων για διαδικτυακές συλλογές Συσχέτιση εικόνας με έννοια Συσχέτιση δύο λέξεων Συσχέτιση λέξης και συνόλου λέξεων Συσχέτιση δύο συνόλων λέξεων Πειράματα αξιολόγησης ανάκτησης εννοιών με βάση τα tags Average precision και καμπύλες precision-at-k Πειραματικά δεδομένα Aποτελέσματα Απεικόνιση scores σε πιθανότητες Προσέγγιση κατανομών Εκτίμηση πιθανότητας ως προς score Υπολογισμός κατωφλιών scores Αποτελέσματα Ταξινομητές SVM και feature vectors Γενικά Fuzzy SVM Bilateral SVM Αξιοποίηση βαρών στην εκπαίδευση

8 viii Περιεχόμενα 5.5 Έξοδος ενός SVM Πειράματα με χρήση αβεβαιότητας σε ταξινομητές SVM 4 6. Συλλογή εικόνων Επιλογή παραμέτρων Εφαρμογή SVMs σε σύνολα διαφορετικής ποιότητας Σύνολα υψηλής αξιοπιστίας - Προτεινόμενη στρατηγική Σύνολα μη υψηλής αξιοπιστίας Σύνολα με μεγάλη διασπορά στην αξιοπιστία Σύνολα με χαμηλή αξιοπιστία Επαναληπτικές μέθοδοι ανατροφοδότησης III Επίλογος 57 7 Συμπεράσματα Γενικές παρατηρήσεις Προτάσεις βελτίωσης και περαιτέρω διερεύνησης IV Παραρτήματα 63 Αʹ Το εργαλείο linguistics 65 Αʹ. Βιβλιοθήκες C Αʹ.. Flickr API Αʹ..2 Porter stemmer Αʹ..3 Wordnet Αʹ..4 XML Αʹ.2 Βιβλιοθήκες Python Αʹ.3 Χρήση του εργαλείου linguistics Αʹ.4 Λειτουργικότητα των κλάσεων Αʹ.5 Παράδειγμα χρήσης Βʹ Προδιαγραφές αρχείων XML 7 Βʹ. Corpus Βʹ.2 Σύνολα εννοιών Βʹ.3 Μετα-δεδομένα Βʹ.4 Εικόνες με scores Γʹ Υλοποίηση πειραμάτων SVMs 75 Δʹ Αποδείξεις 77 Δʹ. Επιλογή κατωφλίου για την συνάρτηση συσχέτισης λέξης με λέξη Δʹ.2 Απόδειξη της σχέσης Δʹ.3 Υλοποίηση bilateral SVM με fuzzy SVM Βιβλιογραφία

9 Κατάλογος σχημάτων. Μία εικόνα του Flickr, η οποία απεικονίζει ένα δέντρο, και δίπλα τμήμα της πληροφορίας που σχετίζεται με αυτή, συμπεριλαμβανομένης και αυτής των tags Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες animal, beach, computer, cow, food και frost Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες house, moon, mountain, person, plane και police Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες reflection, sky, snow, sun, temple και train Καμπύλες precision στις πρώτες 200 εικόνες για τις έννοιες tree, waterfall και window Κατανομές και καμπύλες Probability - Score για την έννοια animal Κατανομές και καμπύλες Probability - Score για τις έννοιες beach, computer, cow, food, frost και house Κατανομές και καμπύλες Probability - Score για τις έννοιες moon, mountain, person, plane, police και reflection Κατανομές και καμπύλες Probability - Score για τις έννοιες sky, snow, sun, temple, train και tree Κατανομές και καμπύλες Probability - Score για τις έννοιες waterfall και window Πείραμα 4: Μεταβολή του average precision στις 20 επαναλήψεις για κάθε έννοια, με χρήση fuzzy SVM και βάρη από τις πιθανότητες Πείραμα 5: Μεταβολή του average precision στις 20 επαναλήψεις για κάθε έννοια, με χρήση fuzzy SVM και βάρη από τα scores

10

11 Κατάλογος πινάκων 3. Οι 2 έννοιες και τα σύνολα λέξεών τους που χρησιμοποιήσαμε Average precision για τις 2 έννοιες Πείραμα : 30 εικόνες με το μεγαλύτερο score και 30 με το μικρότερο Πείραμα 2: 500 εικόνες με το μεγαλύτερο score και 500 με το μικρότερο Πείραμα 3: 500 εικόνες με το μεγαλύτερο score και 500 με το μικρότερο, με RBF πυρήνα Πείραμα 4: 500 εικόνες με το μεγαλύτερο score και 500 με το μικρότερο, με bilateral SVMs Πείραμα 5: Ομοιόμορφη κατανομή ως προς τα scores Πείραμα 6: Ομοιόμορφη κατανομή ως προς την πιθανότητα Pr{true S} Πείραμα 7: Ομοιόμορφη κατανομή ως προς τα scores και οι 60 εικόνες μέγιστης αξιοπιστίας Πείραμα 8: Ομοιόμορφη κατανομή ως προς την πιθανότητα Pr{true S} και οι 60 εικόνες μέγιστης αξιοπιστίας Πείραμα 9: Ομοιόμορφη κατανομή ως προς τα scores, και bilateral SVMs Πείραμα 0: Τυχαία επιλογή 000 εικόνων σε 0 Monte Carlo εκτελέσεις Πείραμα : Τυχαία επιλογή 000 εικόνων σε 0 Monte Carlo εκτελέσεις και οι 60 εικόνες μέγιστης αξιοπιστίας Πείραμα 2: Κανονική (gaussian) κατανομή ως προς τα scores Πείραμα 3: Κανονική (gaussian) κατανομή ως προς τα scores, με RBF πυρήνα Πείραμα 4: Επαύξηση του συνόλου εκπαίδευσης με εικόνες μεσαίας και μεγάλης αξιοπιστίας οι οποίες βρίσκονται κοντύτερα στο διαχωριστικό υπερ-επίπεδο του SVM Πείραμα 5: Επαύξηση του συνόλου εκπαίδευσης με εικόνες μεσαίας και μεγάλης αξιοπιστίας από τα άκρα της λίστας αποτελεσμάτων

12 xii Κατάλογος πινάκων

13 Μέρος I Εισαγωγή

14

15 Κεφάλαιο Εισαγωγικά Στην προσπάθεια δημιουργίας έξυπνων μηχανών, οι οποίες μπορούν να αναγνωρίζουν, σε ένα βαθμό όπως και ο άνθρωπος, έννοιες (concepts) οι οποίες βρίσκονται σε περιεχόμενο πολυμέσων, έχει δημιουργηθεί μία σειρά αλγορίθμων, oι οποίοι βασίζονται στη χρήση ταξινομητών (και αναφέρονται στη διεθνή βιβλιογραφία με τον όρο concept based retrieval ). Σημαντικό κομμάτι ενός ταξινομητή, πέρα φυσικά από τον ίδιο τον τρόπο λειτουργίας του, είναι ο τρόπος με τον οποίο αντιλαμβάνεται την έννοια που καλείται να αναγνωρίσει. Ο τρόπος αυτός προέρχεται από μία διαδικασία εκπαίδευσης πάνω σε ένα σύνολο δειγμάτων, καθένα από τα οποία σημειώνεται ως σχετικό ή μη σχετικό για την έννοια, υπονοώντας ότι η έννοια εμφανίζεται ή όχι στο κάθε δείγμα. Σημαντικό κομμάτι, αν όχι το σημαντικότερο, στην αποτελεσματικότητα του παραγόμενου ταξινομητή είναι η ποιότητα του συνόλου εκπαίδευσης. Τα χαρακτηριστικά του συνόλου καθώς και ο τρόπος δημιουργίας του δεν προκαθορίζονται από κάποια διαδικασία, αλλά παραμένουν μέχρι και σήμερα ένα ανοιχτό ερευνητικό αντικείμενο. Για παράδειγμα, θα ήταν λογικό να υποθέσουμε ότι ένα τέτοιο σύνολο πρέπει να είναι αρκετά ενδεικτικό των περιπτώσεων που θα κληθεί να αντιμετωπίσει ο ταξινομητής. Ωστόσο κάτι τέτοιο είναι απλά μία διαισθητική παρατήρηση, η οποία μέχρι στιγμής δεν έχει τεκμηριωθεί.. Ανάκτηση εικόνων με βάση το οπτικό τους περιεχόμενο Στην παρούσα διπλωματική ασχολούμαστε με την ανάκτηση εικόνων με συγκεκριμένο εννοιολογικό ή σημασιολογικό περιεχόμενο χρησιμοποιώντας την οπτική τους πληροφορία (και όχι την συνοδεύουσα λεκτική). Χρησιμοποιούμε ταξινομητές τύπου SVM, καθότι θεωρούνται οι πλέον αποτελεσματικοί σε τέτοιου είδους εφαρμογές. Η συγκεκριμένη προσέγγιση παρουσιάζει ένα σημαντικό πλεονέκτημα έναντι της ανάκτησης χρησιμοποιώντας την συνοδευτική λεκτική πληροφορία, η οποία είναι η ανάκτηση μεγαλύτερου αριθμού εικόνων, καθώς η λεκτική πληροφορία που υπάρχει δεν είναι απόλυτα ορθή, και κυρίως δεν είναι πλήρης (δεν περιλαμβάνει δηλαδή όλες τις έννοιες που μπορεί να εμφανίζονται σε μία εικόνα). Συγκεκριμένα ασχολούμαστε με το πρόβλημα δημιουργίας ενός (καλού) συνόλου εκπαίδευσης. Η δημιουργία τέτοιων συνόλων μπορεί να γίνει με διάφορους τρόπους, όπως για παράδειγμα με χειροκίνητη συλλογή εικόνων από τον άνθρωπο, και με οπτική διαπίστωση για το αν περιέχουν ή όχι την έννοια. Μία τέτοια προσέγγιση ωστόσο απαιτεί μεγάλο κόπο από τον άνθρωπο, και περιορίζει σημαντικά το μέγεθος των εξεταζόμενων εικόνων. Για το λόγο αυτό γίνεται μία προσπάθεια εκμετάλλευσης διαδικτυακών συλλογών εικόνων. Οι συλλογές αυτές είναι προσβάσιμες στον απλό χρήστη συνήθως μέσω κάποιας ιστοσελίδας, από την οποία μπορεί να καταθέτει ή να λαμβάνει εικόνες που έχουν καταθέσει άλλοι. Τέτοιες ιστοσελίδες επιτρέπουν και την προσθήκη επιπλέον πληροφορίας, ως επί το πλείστον σε λεκτική μορφή. Η πληροφορία αυτή είναι (συνήθως) σχετική με το περιεχόμενό τους και έχει κατατεθεί από ανθρώπους με την μορφή των tags. Η χρήση των tags είναι ιδιαίτερα διαδεδομένη στις μέρες μας, όχι μόνο σε εφαρμογές σχετικές με εικόνες, αλλά και με οποιοδήποτε είδος πολυμέσων, όπως βίντεο (πχ YouTube) και μουσική (πχ mp3 tags). Τα tags είναι στη πραγματικότητα λέξεις, τις οποίες κάποιος άνθρωπος έχει αντιστοιχήσει σε ένα πολυμεσικό αντικείμενο. Κάτι τέτοιο προϋποθέτει από τον δημιουργό ή τον κάτοχο ή τον διαχειριστή της συλλογής των πολυμέσων την παροχή κατάλληλης υποδομής. Μία τέτοια συλλογή, την οποία χρησιμοποιούμε στην παρούσα εργασία, είναι το Flickr¹. Το Flickr είναι ένας δικτυακός τόπος στον οποίο εγγεγραμμένοι χρήστες μπορούν να καταθέτουν φωτογραφίες, συνοδευμένες (προαιρετικά) από μία σειρά πληροφοριών, με σημαντικότερη αυτή των tags, λέξεων δηλαδή οι οποίες σχετίζονται - σύμφωνα με την άποψη του χρήστη - με την φωτογραφία. Χαρακτηριστικά που αξίζει να σημειωθούν για τέτοιου είδους συλλογές είναι ο μεγάλος, και συνεχώς αυξανόμενος, όγκος τους, η ποικιλία στα tags (για παράδειγμα στον αριθμό, το βαθμό λεπτομέρειας, πληρότητας αλλά και άλλων χαρακτηριστικών). Αξίζει επίσης να σημειωθεί ότι δεν υπάρχει κανένας απολύτως μηχανισμός (είτε αυτόματος είτε χειροκίνητος) ελέγχου των tags που αποδίδονται στις εικόνες από τους χρήστες. Αυτό έχει ως αποτέλεσμα η πληροφορία αυτή (των tags) να περιέχει γενικά πολύ θόρυβο. ¹

16 4 Κεφάλαιο. Εισαγωγικά Σχήμα.: Μία εικόνα του Flickr, η οποία απεικονίζει ένα δέντρο, και δίπλα τμήμα της πληροφορίας που σχετίζεται με αυτή, συμπεριλαμβανομένης και αυτής των tags.2 Γενικά περί ταξινομητών Όπως αναφέρθηκε, οι ταξινομητές είναι στην πραγματικότητα μέθοδοι (ή αλγόριθμοι) οι οποίοι έχουν μία είσοδο και μία έξοδο. Ο τύπος της εισόδου μπορεί να ποικίλει, και μπορεί να είναι ένας αριθμός, πολλοί αριθμοί σε διατάξεις όπως διάνυσμα, πίνακας κπλ, ή και πιο σύνθετες διατάξεις. Το ίδιο ισχύει και για την έξοδο. Αυτό που ως επί το πλείστον ισχύει όμως είναι η περίπτωση όπου η είσοδος είναι ένα διάνυσμα, και η έξοδος ένα μονοδιάστατο μέγεθος. Πολλές φορές, η έξοδος μπορεί να είναι μία λογική μεταβλητή, η οποία συνήθως καθορίζεται από το πρόσημο μίας εσωτερικής μονοδιάστατης αριθμητικής μεταβλητής. Ο τύπος της εισόδου και της εξόδου καθορίζεται από τον ίδιο τον ταξινομητή. Ανάλογα δηλαδή με την δομή και τον τρόπο λειτουργίας, κάθε ταξινομητής ενδέχεται να έχει (πρακτικά έχει πάντα) περιορισμούς για τις παραμέτρους αυτές. Ο τρόπος αξιοποίησης των ταξινομητών είναι συνήθως ο ακόλουθος. Έστω ότι μας ενδιαφέρει να αναγνωρίσουμε την ύπαρξη 3 διαφορετικών εννοιών σε μία εικόνα. Για να το πετύχουμε αυτό, χρειαζόμαστε 3 διαφορετικούς ταξινομητές. Ο κάθε ένας αποφασίζει για μία συγκεκριμένη έννοια. Αυτό που πρέπει να σημειωθεί είναι ότι όταν λέμε 3 διαφορετικούς ταξινομητές, δεν εννοούμε ταξινομητές 3 διαφορετικών τύπων. Συνήθως σε κάθε εφαρμογή χρησιμοποιείται ένα μόνο είδος ταξινομητή. Για παράδειγμα στην παρούσα εργασία χρησιμοποιούνται ταξινομητές τύπου SVM. Εξαίρεση αποτελούν διαδικασίες σύγκρισης των αποδόσεων ταξινομητών διαφορετικών ειδών (benchmarking). Επίσης αναφέρουμε ενδεικτικά μερικά είδη ταξινομητών πέραν του SVM, όπως τα νευρωνικά δίκτυα, οι πιθανοτικοί ταξινομητές, ταξινομητές ομαδοποίησης (clustering) όπως πχ ο k-nn και ο k-means. Από τα παραπάνω εύκολα μπορεί κανείς να αναρωτηθεί το εξής (μιλώντας για το παράδειγμα που αναφέραμε). Εφόσον έχουμε 3 ταξινομητές ίδιου τύπου, τι είναι αυτό που τους διαφοροποιεί; Η απάντηση είναι η ακόλουθη. Κάθε τύπος ταξινομητή είναι ένας συγκεκριμένος αλγόριθμος. Ή, σε μία πιο προγραμματιστικά στοχευμένη διατύπωση, ένα συγκεκριμένο πρόγραμμα. Ο αλγόριθμος αυτός (ή το πρόγραμμα) περιέχει μια σειρά παραμέτρων, η οποίες επηρεάζουν το τελικό αποτέλεσμα κάθε απόφασης. Συνεπώς αυτό που διαφοροποιεί δύο ταξινομητές ίδιου τύπου με τα ίδια ακριβώς χαρακτηριστικά εισόδου και εξόδου οι οποίοι αποφαίνονται για διαφορετικές έννοιες είναι οι διαφορετικές τιμές των παραμέτρων που υπεισέρχονται. Η διαδικασία ρύθμισης των παραμέτρων αυτών είναι η διαδικασία εκπαίδευσης, κυρίαρχο τμήμα της οποίας είναι το σύνολο εκπαίδευσης το οποίο έχουμε ήδη αναφέρει. Οι διαδικασίες εκπαίδευσης είναι και αυτές γενικά αλγόριθμοι (πχ εξελικτικοί αλγόριθμοι), ωστόσο ο τρόπος λειτουργίας τους δεν θα μας απασχολήσει ιδιαίτερα. Συνεχίζοντας στο παράδειγμά μας, το σύνολο εκπαίδευσης για κάθε ταξινομητή είναι ένα σύνολο εικόνων, μαζί με την πληροφορία για το αν περιέχουν την ζητούμενη έννοια. Δεν απαιτείται τα σύνολα εκπαίδευσης να είναι τα ίδια και για τους 3 ταξινομητές, ούτε να είναι ξένα

17 .3. Στόχος της εργασίας 5 μεταξύ τους, ούτε ισοπληθή. Γενικά, δεν έχουμε κανέναν περιορισμό. Περισσότερα για τους ταξινομητές SVM στο κεφάλαιο 5..3 Στόχος της εργασίας Η παρούσα διπλωματική εργασία ασχολείται με την δημιουργία συνόλων εκπαίδευσης για ταξινομητές εικόνων. Αποτελείται από ένα σύνολο τριών τμημάτων, τα οποία καθορίζουν και τη δομή του κειμένου αυτού. Τα τμήματα αυτά είναι τα ακόλουθα. Το πρώτο τμήμα αφορά στην αξιοποίηση διαδικτυακών συλλογών εικόνων σε μία διαδικασία αυτόματης εξερεύνησης και αξιοποίησής τους. Στην συγκεκριμένη εργασία χρησιμοποιήθηκε το Flickr ως πηγή εικόνων. Για τον σκοπό δημιουργήσαμε ένα πλαίσιο καθορισμού των εννοιών για τα οποία ενδιαφερόμαστε, και στην συνέχεια υλοποιήσαμε ένα εργαλείο το οποίο αναλαμβάνει να εκτελέσει αυτόματα μία σειρά ενεργειών, αποτέλεσμα της οποίας είναι σύνολα με εικόνες οι οποίες έχουν χαρακτηριστεί μέσω ενός score ως προς τον βαθμό συσχέτισης με την κάθε έννοια. Το δεύτερο τμήμα είναι σε κάποιον βαθμό ανεξάρτητο από την δεδομένη εφαρμογή σε ταξινομητές εικόνων. Στόχο έχει το να καθορίσει διαδικασίες οι οποίες σχετίζονται με την αξιοποίηση μίας λίστας αποτελεσμάτων (στην προκείμενη περίπτωση η λίστα είναι οι εικόνες που συγκέντρωσε το εργαλείο που αναφέρθηκε μαζί με το score τους) με σκοπό την εκτίμηση πιθανοτικών κατανομών. Με άλλα λόγια, πώς μπορούμε να εκτιμήσουμε αν μία εικόνα περιέχει μία έννοια αν γνωρίζουμε το score της εικόνας αυτής για την συγκεκριμένη έννοια. Το τρίτο και τελευταίο τμήμα σχετίζεται με την εφαρμογή των συμπερασμάτων των δύο προηγούμενων σταδίων σε ταξινομητές SVM και fuzzy SVM. Συγκεκριμένα χρησιμοποιούμε τα προαναφερθέντα scores για να δημιουργήσουμε αυτόματα το σύνολο αληθείας - δηλαδή να χαρακτηρίσουμε κάθε εικόνα για το αν περιέχει ή όχι την κάθε έννοια - για διάφορα σύνολα εκπαίδευσης, για να επιλέξουμε ένα μικρό αλλά όσο το δυνατό βέλτιστο σύνολο εικόνων μέσα από ένα μεγαλύτερο, και τέλος για να εκφράσουμε - στην περίπτωση του fuzzy SVM - την παράμετρο βάρους/αξιοπιστίας/σημαντικότητας κάθε εικόνας.

18

19 Κεφάλαιο 2 Βιβλιογραφική επισκόπηση Στο κεφάλαιο αυτό παρουσιάζεται συνοπτικά η δουλειά που έχει γίνει από την επιστημονική κοινότητα τα τελευταία χρόνια στα σχετικά πεδία της παρούσας εργασίας. 2. Αξιοποίηση tags σε ταξινομητές Τα τελευταία χρόνια, η ανάπτυξη των δυνατοτήτων του διαδικτύου, των ηλεκτρονικών υπολογιστών καθώς και των φωτογραφικών μηχανών έχει απλοποιήσει την διαδικασία δημιουργίας ψηφιακών εικόνων. Μάλιστα, έχουν δημιουργηθεί μία σειρά από ιστοσελίδες, όπως για παράδειγμα οι Flickr, Google Picassa, Instagram, DeviantART κλπ, οι οποίες περιέχουν εικόνες. Οι εικόνες αυτές κατηγοριοποιούνται με διαφορετικούς τρόπους σε κάθε περίπτωση. Ωστόσο οι περισσότερες ιστοσελίδες δίνουν τη δυνατότητα στους χρήστες να αποδίδουν λέξεις (tags) σε κάθε εικόνα, οι οποίες συνήθως σχετίζονται με το περιεχόμενο της εικόνας. Τέτοιες ιστοσελίδες μπορούν να αξιοποιηθούν σε μεγάλο βαθμό από εφαρμογές δημιουργίας ταξινομητών εικόνων. Σχετικά με την συνήθεια των χρηστών να αποδίδουν tags σε εικόνες, έχει διαπιστωθεί [30] ότι οι χρήστες έχουν γενικά την συνήθεια να αποδίδουν tags και πληροφορία στις εικόνες, με κύριο κίνητρο την οργάνωση των εικόνων ώστε να είναι εύκολη η προσπέλασή τους από κάποιον ενδιαφερόμενο. Η παρατήρηση αυτή είναι ιδιαίτερα ενθαρρυντική για προσπάθειες εκμετάλλευσης της συνοδευτικής αυτής πληροφορίας. Επίσης, η συγκεκριμένη έρευνα κατηγοριοποιεί τα tags ως προς το είδος της πληροφορίας που περιγράφουν, με τα εξής αποτελέσματα: 28% σχετίζονται με τοποθεσία, 6% με απτά αντικείμενα, 3% με άτομα ή ομάδες ατόμων, 9% με γεγονότα και 7% με χρονική στιγμή. Επίσης, ένα 27% σχετίζονται με έννοιες που δεν μπορούν να ενταχθούν σε κάποια συγκεκριμένη κατηγορία. Ένα σημαντικό επίσης θέμα είναι το κατά πόσο τα tags είναι ακριβή ή εσφαλμένα. Μια σειρά πειραμάτων [24] έδειξε ότι χρησιμοποιώντας προσεκτική σημείωση εικόνων από experts όπως αναφέρονται, το ποσοστό στο οποίο συμφωνούν μεταξύ τους είναι μεν υψηλό (πάνω από 90%) αλλά δεν πλησιάζει καθόλου το 00%. Επίσης ερευνώντας το πόσο οι οι σημειώσεις των experts συμφωνούν με αυτές που προέρχονται από τους non-experts, δηλαδή τους χρήστες που αναθέτουν τα tags, παρατηρήθηκε ένα ποσοστό συμφωνίας περίπου 70%. Το ποσοστό αυτό είναι αρκετά μεγάλο ώστε να μας ωθεί σε μία κατεύθυνση αξιοποίησης της πληροφορίας αυτής, ωστόσο απέχει και σημαντικά από το 00%. Αυτό μας κάνει επιφυλακτικούς στην χρήση των tags, και μας αναγκάζει να δημιουργήσουμε μεθόδους αξιολόγησης της πληροφορίας αυτής. Σε μία παλαιότερη έρευνα του 2005 [0] διαπιστώθηκε το γοργά αυξανόμενο ενδιαφέρον της επιστημονικής κοινότητας για την ανάκτηση εικόνων με χρήση support vector machines. Ο όρος image retrieval αναφέρεται στη συλλογή από ένα μεγάλο πλήθος εικόνων με βάση το οπτικό περιεχόμενό τους. Στη συνέχεια παρουσιάζονται συνοπτικά κάποιες νεότερες έρευνες σχετικές με την αξιοποίηση των tags από μεγάλες συλλογές. Μία έρευνα βασισμένη ιδιαίτερα στο Flickr [4] ορίζει και χρησιμοποιεί μία μετρική με το όνομα Flickr distance, σε αντιπαραβολή με τη Google distance [8]. Η μετρική αυτή χρησιμοποιεί τα tags του Flickr για να δημιουργήσει ένα δίκτυο εννοιών τα οποία συνδέονται και μεταξύ τους. Οι έννοιες αυτές που δημιουργεί είναι αρκετά κοντά σε ανθρώπινες έννοιες, ενώ συνδέονται και με οπτικό περιεχόμενο. Επίσης, λαμβάνοντας και τις συσχετίσεις μεταξύ των εννοιών και σε λεκτικό επίπεδο και σε οπτικό, ξεπερνά σε απόδοση αντίστοιχο σύστημα που βασίζεται στη Google distance. Διάφορες έρευνες έχουν ακολουθήσει διαφορετικές μεθόδους και προσεγγίσεις στην προσπάθεια αξιοποίησης της λεκτικής πληροφορίας εικόνων. Σε μεγάλο βαθμό, οι έρευνες αυτές αντλούν την λεκτική πληροφορία από διαδικτυακές πηγές [38][37][8]. Η βασική ιδέα τους είναι ότι ξεκινώντας από μία εικόνα, αναζητούν μέσω του διαδικτύου παρόμοιες εικόνες και συλλέγουν κοινή λεκτική πληροφορία την οποία και αντιστοιχίζουν στην αρχική εικόνα. Οι [32], χρησιμοποιώντας την πληθώρα πληροφορίας που είναι διαθέσιμη σε τέτοιου είδους διαδικτυακές πηγές, συγκέντρωσαν περίπου 80 εκατομμύρια εικόνες πολύ μικρών διαστάσεων και αντιστοίχησαν κάθε μία από αυτές με ένα από τα

20 8 Κεφάλαιο 2. Βιβλιογραφική επισκόπηση 75,062 ουσιαστικά που βρίσκονται στο WordNet. Υποστήριξαν ότι με αρκετά μεγάλο αριθμό δειγμάτων, η εφαρμογή απλών αλγορίθμων ομαδοποίησης (clustering) όπως για παράδειγμα του k-nn (kth nearest neighboor) μπορούν να πετύχουν ικανοποιητικά ποσοστά απόδοσης σε προβλήματα αναγνώρισης αντικειμένων, σκηνών, προσώπων κλπ συγκρινόμενοι με νεότερα και πολυπλοκότερα συστήματα και μεθόδους. Ωστόσο, η αντιστοίχηση ενός μόνο ουσιαστικού από το WordNet και η χρήση των πολύ μικρών εικόνων (συγκεκριμένα 32 επί 32 pixels) δημιουργεί σοβαρά προβλήματα στην αποτύπωση συνθετότερων εννοιών του πραγματικού κόσμου. Τέλος, η διαδικασία αντιστοίχισης κάθε εικόνας με το ουσιαστικό έγινε χρησιμοποιώντας γειτονική πληροφορία (context) από διαδικτυακές πηγές, με αποτέλεσμα να έχει σημαντικά πολύ θόρυβο. Αρκετή προσπάθεια έχει γίνει και στο να αντιστοιχηθούν έννοιες σε μοτίβα χαμηλών χαρακτηριστικών των εικόνων (low features pa erns), συγκεντρώνοντας και πάλι εικόνες από το διαδίκτυο. Οι [] προσπάθησαν να δημιουργήσουν μοντέλα οπτικών αντικειμένων σαν συνδυασμό μερών χρησιμοποιώντας μία πιθανοτική αναπαράσταση με το όνομα TSI-pLSA. Οι [3], εφαρμόζοντας κατά κάποιον τρόπο ανάποδα την ιδέα αυτή, αντιστοίχησαν σε κάθε έννοια πολλαπλά μοτίβα χαρακτηριστικών. Και οι δύο μέθοδοι απαιτούν την συλλογή διαφορετικών συνόλων εκπαίδευσης για κάθε έννοια και απαιτείται η εκπαίδευση ενός μοντέλου για κάθε έννοια, με αποτέλεσμα να μειώνεται σημαντικά ο συνολικός αριθμός εννοιών που μπορούν να χειριστούν. Μία άλλη κατεύθυνση σχετίζεται με την χρήση γράφων για την περιγραφή σχέσεων, και εμπλέκει διαδικασίες ημι-εποπτευόμενης μάθησης (semi-supervised learning), διαδικασίες που έχουν αρχήσει να χρησιμοποιούνται αρκετά τα τελευταία χρόνια, τόσο σε προβλήματα μάθησης (machine learning) όσο και σε προβλήματα αναζήτησης πολυμεσικού περιεχομένου (multimedia retrieval). Οι πιο τυπικές μέθοδοι περιλαμβάνουν την μέθοδο τυχαίων κανονικών περιοχών (Gaussian random fields) και αρμονικών συναρτήσεων [44] και την μέθοδο τοπικής/ειδικής και γενικής συνοχής (local and global consistency) [43]. Ακόμα μια κατεύθυνση είναι η αντιστοίχηση δεικτών ομοιότητας και η σύγκριση ή συσχέτισή τους. Οι [36][27] ακολουθούν μία προσέγγιση ζεύγους όπου το πρώτο μέλος είναι η εικόνα ερώτησης (η εικόνα η οποία περιέχει την έννοια που αναζητούμε) και το δεύτερο μέλος είναι μία εικόνα απάντησης (δηλαδή μία από τις ζητούμενες εικόνες που περιέχει την έννοια). Αν και υπάρχουν πλεονεκτήματα σε τέτοιου είδους προσεγγίσεις, υπάρχει η απαίτηση η υπό αναζήτηση έννοια να δίνεται σε μορφή εικόνας, και όχι σε λεκτική, κάτι που είναι αντίθετο με τις συνήθειες των χρηστών όπως αναφέρουν και οι [7]. Οι [40], στην προσπάθεια δημιουργίας μίας μεθόδου επιλογής κατάλληλων εννοιών για αναζήτηση σε βίντεο, πρότειναν τη δημιουργία ενός εννοιολογικού χώρου ο οποίος θα επιτρέπει την άμεση σύγκριση ομοιότητας μεταξύ εννοιών. Οι [20] μελέτησαν την επιρροή δύο παραμέτρων σε έναν τέτοιο εννοιολογικό χώρο: α) την ακρίβεια των tags που αποδίδουν οι χρήστες σε σχέση με αυτή που προέρχεται από μία αυτόματη διαδικασία, και β) διάφορες συναρτήσεις υπολογισμού της ομοιότητας μεταξύ τέτοιων ζευγών/διανυσμάτων όπου κάθε στοιχείο του διανύσματος είναι ένα πολυμεσικό αντικείμενο. Mία πιο σύγχρονη προσέγγιση αφορά στην ανάλυση κανονικής συσχέτισης (canonical correlation analysis) [2][3][4][5] [28]. Στην προσέγγιση αυτή, δημιουργείται ένας χώρος διανυσμάτων τα οποία δημιουργούνται και από οπτικά χαρακτηριστικά αλλά και από λεκτικά. Έτσι είναι δυνατή η απευθείας συσχέτιση οποιονδήποτε χαρακτηριστικών. Ο χώρος αυτός είναι, όπως αναφέρεται, cross-modal, εννοώντας ότι λόγω των χαρακτηριστικών αυτών, συσχετίσεις μεταξύ εικόνας με εικόνα, εικόνας με έννοια, και έννοια με εικόνας αντιμετωπίζονται με έναν ενιαίο τρόπο. Τέλος, μία σημαντική δημοσίευση, της οποίας τα αποτελέσματα χρησιμοποιούμε άμεσα σε αυτή την εργασία, είναι η δουλειά των [7]. Αποτέλεσμα της συγκεκριμένης έρευνας είναι μία συλλογή 270,000 εικόνων περίπου από το Flickr, οι οποίες έχουν σημειωθεί για το αν είναι σχετικές για ένα σύνολο 8 διαφορετικών εννοιών. Η μέθοδος που χρησιμοποιήθηκε είναι μία μορφή ημι-εποπτευόμενης μάθησης, και η εγκυρότητά της είναι ιδιαίτερα υψηλή. Ωστόσο, το σύνολο αυτό των εικόνων δεν είναι τελείως απαλλαγμένο από θόρυβο. 2.2 Υπολογισμός πιθανότητας και κατανομών από εξόδους συστημάτων αξιολόγησης Ένα σχετικά πρόσφατο επιστημονικό πεδίο είναι το πεδίο του IR (Information Retrieval). Το πεδίο αυτό εξετάζει κάποια ζητήματα που εμπλέκονται με τις διαδικασίες που περιγράφουμε και υλοποιούμε στην συγκεκριμένη εργασία, με έναν αρκετά πιο γενικό και αφαιρετικό τρόπο ωστόσο. Σύνηθες σημείο αφετηρίας είναι διατεταγμένες λίστες αποτελεσμάτων, οι οποίες έχουν ταξινομηθεί βάσει κάποιου score. Είναι αδιάφορο αν οι λίστες είναι λίστες εικόνων, ή τραγουδιών, ή βίντεο, ή γραπτών κειμένων ή οτιδήποτε άλλου είδους. Επίσης είναι αδιάφορο (τουλάχιστον στα πρώτα στάδια) το είδος της γεννήτριας των score που εμπλέκονται στη λίστα. Δεν μας ενδιαφέρει δηλαδή αν είναι κάποιου είδους ταξινομητής, κάποιος ευριστικός μηχανισμός ή ο,τιδήποτε άλλο. Διαθέτοντας μία λίστα εγγράφων τα οποία έχουν αξιολογηθεί και διαταχθεί βάσει ενός score, οι [2][] μελέτησαν τις κατανομές scores από διάφορες μηχανές παραγωγής scores χωριστά για τα έγγραφα τα οποία θεωρούνταν σχετικά προς την αναζήτηση και για αυτά που δεν θεωρούνταν σχετικά. Κατέληξαν ότι η κατανομή των scores στα σχετικά έγγραφα προσέγγιζε κανονική κατανομή, ενώ η κατανομή των scores στα μη σχετικά προσέγγιζε εκθετική κατανομή. Επίσης μελέτησαν την αξιοποίηση κατωφλιών σε scores με στόχο την μεγιστοποίηση τιμών δεικτών αξιολόγησης, όπως για παράδειγμα των

21 2.3. Αναζήτηση εικόνων με fuzzy SVMs 9 accuracy, F-measure, utility κλπ. και πρότειναν έναν τρόπο εκτίμησης των κατωφλιών αυτών βασισμένο σε στατιστικά χαρακτηριστικά των κατανομών των scores και όχι στις ίδιες τις τιμές τους. Ένα σημαντικό ζήτημα που προέκυψε στα πλαίσια της εργασίας είναι η κανονικοποίηση των scores μίας τέτοιας λίστας αποτελεσμάτων, και στη συνέχεια η εύρεση κατωφλιών για διαδική ταξονόμιση (binary classification) και μετασχηματισμών των scores σε πιθανότητες. Το εύρος τιμών των scores ποικίλει όχι μόνο από μηχανή σε μηχανή, αλλά και διαφορετικά ερωτήματα στην ίδια μηχανή [29]. Μπορεί για παράδειγμα να επηρεάζεται από το πλήθος των όρων που μετέχουν σε ένα ερώτημα αναζήτησης. Επίσης οι τιμές των scores δεν έχουν κάποια άμεση φυσική σημασία, για παράδειγμα δεν σχετίζονται με την πιθανότητα του κάθε εγγράφου να είναι σχετικό. Συνήθως όμως είναι ένας μονότονος μετασχηματισμός αυτής [23]. Οι [2] αντιμετώπισαν ακριβώς το ίδιο ζήτημα. Υποστήριξαν ότι τρόποι κανονικοποίσης οι οποίοι λαμβάνουν υπόψη τους μόνο χαρακτηριστικά της κατανομής του τύπου min max δεν ήταν βέλτιστοι, αλλά θα έπρεπε να λαμβάνουν υπόψη και άλλα χαρακτηριστικά της κατανομής, όπως για παράδειγμα την ίδια την κατανομή της. Στη συνέχεια, θεωρώντας ότι δεν έχουμε καμία ένδειξη για τον τρόπο λειτουργίας της μηχανής που αποδίδει τα scores, καθώς επίσης και καμία πληροφορία για το ποια έγγραφα της λίστας αποτελεσμάτων είναι πράγματι σχετικά, υπέθεσαν αρχικά ότι η κατανομή των scores σε μία τέτοια λίστα αποτελεσμάτων είναι στην πραγματικότητα η συμβολή δύο κατανομών: την κατανομή των scores των σχετικών εγγράφων και την κατανομή των scores των μη σχετικών. Στη συνέχεια, υπέθεσαν ότι και η κατανομή των scores των σχετικών εγγράφων είναι συμβολή δύο κατανομών: μίας πραγματικής και μίας θορύβου, και πρότειναν έναν τρόπο δημιουργίας ερωτημάτων προς μία τέτοια μηχανή τα οποία θα μπορούσαν να φανερώσουν τις δύο αυτές κατανομές. Μία συγκεντρωτική παρουσίαση σχετικών θεμάτων παρουσιάζουν οι [3]. Παρουσιάζονται διαφορετικές προσεγγίσεις πέραν της εκθετικής-κανονικής κατανομής (για τις κατανομές των σχετικών και μη εγγράφων), όπως κανονικής-κανονικής, μεικτά μοντέλα, gamma-gamma κατανομών κλπ, και δίνονται οι υποθέσεις των οποίων την ισχύ απαιτεί θεωρητικά τουλάχιστον κάθε περίπτωση. Επίσης προτείνονται και μετασχηματισμοί των scores, χρησιμοποιώντας κατά κύριο λόγο λογιστικές συναρτήσεις (logistic functions) οι οποίες θα διευκολύνουν την διαδικασία εκτίμησης των δύο εσωτερικών κατανομών, καθώς και την διαδικασία μετασχηματισμού (ή καλύτερα εκτίμησης πιθανότητας). Ας σημειωθεί ότι ένα βασικό κίνητρο για τις έρευνες που παρουσιάζονται είναι η δυνατότητα συνδυασμού scores διαφορετικών μηχανισμών σε μέτα-μηχανές αναζήτησης (meta-search engines) και υπολογισμού ενός ενιαίου score από scores διαφορετικών μηχανισμών (score fusioning). Ωστόσο, οι [22], επικεντρώνοντας στο κομμάτι της κανονικοποίησης, υποστηρίζουν, αντίθετα με πριν, ότι μέθοδοι και μηχανισμοί οι οποίοι λαμβάνουν υπόψη τους τις κατανομές των scores είναι γενικά χειρότεροι από αυτούς που χρησιμοποιούν απλούς τελεστές τύπου min max, και αιτιολογούν τα αποτελέσματά τους δείχνοντας ότι τέτοιοι μηχανισμοί συνήθως υποθέτουν κατανομές καμπάνας (bell distributions) όπως για παράδειγμα η κανονική, κάτι που στην πράξη δεν ισχύει. Αντίθετα, καταλήγουν στο ότι απλοί τελεστές τύπου min max είναι γενικά καλύτεροι. 2.3 Αναζήτηση εικόνων με fuzzy SVMs Μία σύνοψη των μεθόδων που έχουν εφαρμοσθεί σχετικά με την εκπαίδευση ταξινομητών για αναζήτηση εικόνων βάσει περιεχομένου (content-based image retrieval), καθώς και άλλων μεθόδων σχετικά με την αναζήτηση, έχουν παρουσιάσει οι [9]. Επίσης παραθέτουμε τις δημοσιεύσεις των [9] και [35] καθώς αποτελούν σημαντικό κομμάτι του κλάδου. Οι [26] χρησιμοποίησαν fuzzy SVMs για την αναζήτηση εννοιών σε εικόνες, χρησιμοποιώντας κάθε φορά έναν αριθμό από λιγότερο αξιόπιστους fuzzy SVMs με σκοπό την δημιουργία ενός αξιόπιστου. Παρουσίασαν μία μέθοδο επαναληπτικής ημιεποπτευόμενης μάθησης, η οποία δεν έδινε απλά τη δυνατότητα χαρακτηρισμού μίας εικόνας απλά ως σχετικής ή μη, αλλά αξιοποιούσε περισσότερες ποιοτικές στάθμες, όπως πολύ σχετικό, λίγο σχετικό, ουδέτερο, κλπ., καθώς και τα αποτελέσματά της. Ωστόσο, χρησιμοποιούσαν σύνολα εκπαίδευσης με μεγάλο ποσοστό αξιόπιστων δειγμάτων, αφού μόνο ένα 20% προερχόταν από δείγματα με μικρό δείκτη αξιοπιστίας. Οι [25] πρότειναν μία μέθοδο ασαφούς συσχέτισης περιοχών ενός χώρου χαρακτηριστικών εικόνων (feature space) με συγκεκριμένες έννοιες. Χρησιμοποίησαν μεθόδους ομαδοποίησης και την ευκλείδεια απόσταση των κέντρων από τα διαχωριστικά επίπεδα. Επίσης, σε μία προσπάθεια εκμετάλλευσης της ασάφειας στα δείγματα ενός συνόλου εκπαίδευσης, οι [42] παρουσίασαν μία μέθοδο σύμφωνα με την οποία χρησιμοποιούσαν κάποια δείγματα ως υποδειγματικά και δημιουργούσαν έναν νέο χώρο χαρακτηριστικών που αποτελούνταν από συσχετίσεις των δειγμάτων με τα χαρακτηριστικά των υποδειγματικών εικόνων. Οι [4] χρησιμοποίησαν την ασάφεια των δειγμάτων σε διαδικασίες επαναληπτικής μάθησης αξιοποιώντας fuzzy SVMs. Η βασική ιδέα του αλγορίθμου υπολογισμού των βαρών για fuzzy SVMs είναι η κατάτμηση των εικόνων σε πέντε περιοχές και η ανεξάρτητη ομαδοποίησή τους σε οχτώ ομάδες. Στη συνέχεια προσομοιώνεται μία διαδικασία ημι-εποπτευόμενης μάθησης, στην οποία όμως τα τμήματα των εικόνων κληρονομούν την πληροφορία της αρχικής εικόνας αδιακρίτως. Τα αποτελέσματα της μεθόδου είναι αρκετά ικανοποιητικά συγκρινόμενα με επιδόσεις παρόμοιων μεθόδων μάθησης.

22 0 Κεφάλαιο 2. Βιβλιογραφική επισκόπηση 2.4 Πλαίσιο της εργασίας Στο σημείο αυτό, παρουσιάζουμε το πλαίσιο στο οποίο τοποθετείται η παρούσα διπλωματική εργασία, έχοντας υπόψη τα τρία τμήματα που αναφέρθηκαν στην παράγραφο.3. Σχετικά με το πρώτο κομμάτι, παρατηρούμε ότι έχει αναπτυχθεί μία πληθώρα μεθόδων και προσεγγίσεων. Κάποιες από αυτές, αν και παρουσιάζουν πολύ καλά αποτελέσματα είναι αρκετά πολύπλοκες και απαιτούν μεγάλα υπολογιστικά συστήματα για να υλοποιηθούν. Άλλες απαιτούν χαρακτηριστικά τα οποία είναι αντίθετα με τις συνήθεις πρακτικές, ενώ κάποιες απαιτούν τη (κάποιες φορές χειροκίνητη) ρύθμιση πολλών παραμέτρων. Τέλος, κάποιες δημιουργούν μοντέλα τα οποία είναι ασύνδετα μεταξύ τους, με αποτέλεσμα να απαιτείται επανάληψη των διαδικασιών σχηματισμού των μοντέλων τους σε κάθε μεταβολή των ορίων του συστήματος. Αντίθετα εμείς δεχόμαστε τις υποθέσεις ότι τέτοιες πηγές αφενός έχουν καλά ποιοτικά χαρακτηριστικά, αφετέρου περιέχουν αρκετό θόρυβο. Χρησιμοποιούμε μία μετρική η οποία βασίζεται στο PMI [5] η οποία προέρχεται από τον χώρο της αναζήτησης σε γραπτές πηγές (text retrieval), την οποία τροποποιούμε ώστε να αποδίδει καλύτερα στο δικό μας πεδίο εφαρμογής, και στην συνέχεια την επεκτείνουμε. Παρουσιάζουμε τους λόγους που μας οδηγούν στις επιλογές μας και επιβεβαιώνουμε παρουσιάζοντας ενδεικτικά αποτελέσματα εφαρμογής του συστήματός μας. Στο δεύτερο τμήμα της εργασίας, χρησιμοποιούμε τους τελεστές min max για την κανονικοποίηση, και υιοθετούμε τις κατανομές gamma, καθώς είναι οι γενικότερες αλλά και αυτές που θεωρητικά (αλλά και πρακτικά όπως διαπιστώσαμε) ταιριάζουν καλύτερα στα πραγματικά δεδομένα. Επίσης, προτείνουμε μία μέθοδο για τον υπολογισμό μετασχηματισμών από scores σε πιθανότητες και διαπιστώνουμε ότι συμπίπτουν σε πολύ μεγάλο βαθμό με την πειραματικά μετρούμενη σχέση μεταξύ scores και πιθανότητας συσχέτισης. Τέλος, σχετικά με το τρίτο και τελευταίο τμήμα της εργασίας, αναφέρουμε ότι η υπάρχουσα βιβλιογραφία είναι μάλλον περιορισμένη. Η έννοια της ασάφειας χρησιμοποιείται περισσότερο στην σύνδεση εννοιών με στόχο την δημιουργία σύνθετων μοντέλων. Υπάρχουν ωστόσο και περιπτώσεις που η ασάφεια χρησιμοποιείται άμεσα σε fuzzy SVMs, κατά κύριο όμως λόγο σε επαναληπτικές διαδικασίες μάθησης. Αντίθετα εμείς υλοποιούμε μία ευθεία διαδικασία εκτίμησης της ασάφειας κάθε δείγματος εκπαίδευσης, και διερευνούμε την επιρροή που έχουν στην απόδοση δείγματα μεγάλης ασάφειας. Επίσης, διερευνούμε παράλληλα διαδικασίες σχηματισμού συνόλων εκπαίδευσης από μεγάλα σύνολα βάσει της αξιοπιστίας των δειγμάτων τους.

23 Μέρος II Θεωρητικά στοιχεία

24

25 Κεφάλαιο 3 Μέθοδος συλλογής και συναρτήσεις ομοιότητας Στο κεφάλαιο αυτό, περιγράφεται ο τρόπος καθορισμού των εννοιών (concepts) που θα χρησιμοποιήσουμε στα πειράματά μας, ο τρόπος απόκτησης από το διαδίκτυο (downloading) υποψήφιων προς χρήση εικόνων, καθώς και η διαδικασία ανάθεσης μίας τιμής συσχέτισης (score) σε κάθε εικόνα για κάθε έννοια. Το πρώτο αυτό τμήμα της διπλωματικής έχει υλοποιηθεί σε ένα εργαλείο γραμμένο σε C++, με το όνομα linguistics. Το τμήμα αυτό της εργασίας βασίζεται σε μεγάλο βαθμό στη διπλωματική εργασία του Τριαντάφυλλου Τσιρέλη [33][34]. Συγκεκριμένα, ο βασικός τρόπος ορισμού των εννοιών που περιγράφεται στην επόμενη παράγραφο χρησιμοποιώντας το WordNet βασίζεται στο σχεδιασμό του Τ. Τσιρέλη. Επίσης, η χρήση ενός corpus και του δείκτη PMI, καθώς και συναρτήσεων μεγίστου και μέσου όρου για τον υπολογισμό συσχετίσεων αποτελεί το βασικό τμήμα της εργασίας του. Θα πρέπει ωστόσο να σημειωθεί ότι στα πλαίσια της παρούσας εργασίας, αν και αρχικά βασιστήκαμε σχεδόν απόλυτα στις επιλογές του Τ. Τσιρέλη, στη συνέχεια επανεξετάσαμε όλα τα σημεία της διαδικασίας που υλοποιήθηκε, και τα τροποποιήσαμε, με αποτέλεσμα να βελτιώσουμε σημαντικά την συμπεριφορά του συστήματος που περιγράφεται. 3. Έννοιες Όπως έχει αναφερθεί, σκοπός μας είναι η δημιουργία ταξινομητών SVM οι οποίοι θα αναγνωρίζουν την ύπαρξη ή απουσία μίας συγκεκριμένης έννοιας. Οι έννοιες αυτές καθορίζονται από τον άνθρωπο, και αρχικά μπορούν να αποδοθούν με μία πληθώρα τρόπων, για παράδειγμα χρησιμοποιώντας μία λέξη, όπως αυτοκίνητο, τραπέζι, βροχή, ευτυχία κλπ. Παρατηρούμε ότι δεν είναι απαραίτητο να αναφέρονται σε απτά αντικείμενα, όπως για παράδειγμα η έννοια που καθορίζεται από την λέξη ευτυχία. Επίσης, μπορούμε να χρησιμοποιήσουμε περισσότερες λέξεις, όπως κόκκινο αυτοκίνητο, τραπέζι με σερβιρισμένο φαγητό, βροχή σε αστικό περιβάλλον μέσα από παράθυρο. Ας σημειωθεί ότι αυτές οι έννοιες δεν είναι καλύτερα ορισμένες από τις προηγούμενες, αλλά μάλλον αποτελούν υποπεριπτώσεις αυτών. Τέλος, είναι δυνατή και η περιγραφή των εννοιών που ζητούμε να αναγνωρίσουμε και με πιο πολύπλοκους τρόπους, όπως συνδυασμός προτάσεων, με οπτικοακουστικό υλικό (πχ ταινίες, μουσική, κλπ) καθώς και άλλους γενικά τρόπους. Στα πλαίσια της παρούσας διπλωματικής, ο τρόπος καθορισμού κάθε έννοιας είναι συγκεκριμένος και περιγράφεται στις επόμενες παραγράφους. 3.. Καθορισμός από τον άνθρωπο Για τον καθορισμό μίας έννοιας, το σύστημα απαιτεί να δοθεί μία λέξη και ένα σύνολο λέξεων¹. Η λέξη αποτελεί μία μονολεκτική περιγραφή της έννοιας. Το σύνολο λέξεων αποτελείται από λέξεις οι οποίες σχετίζονται (σύμφωνα με την γνώμη του ανθρώπου που καθορίζει την έννοια) σε μεγάλο βαθμό με την έννοια. Οι 2 έννοιες που χρησιμοποιήσαμε στα πειράματά μας δίνονται στον πίνακα 3.. Όπως διαπιστώνεται και από τα παραδείγματα, απαιτούμε το σύνολο λέξεων κάθε έννοιας να περιλαμβάνει και την μονολεκτική περιγραφή της έννοιας. Θα αναφερόμαστε στο σύνολο αυτό με το σύμβολο C. ¹η παραδοχή αυτή συμπίπτει με την παραδοχή του Τ. Τσιρέλη

26 4 Κεφάλαιο 3. Μέθοδος συλλογής και συναρτήσεις ομοιότητας λέξη animal beach computer cow food frost house moon mountain person plane police reflection sky snow sun temple train tree waterfall window σύνολο λέξεων animal, nature, mammal, pet, wildlife, fauna, zoo beach, sand, sun, sea, water, summer, waves, ocean, umbrella, holidays computer, monitor, desk, workstation, keyboard, mouse, work, pc, laptop, office cow, milk, grass, farm, nature, ca le, moo, field food, kitchen, plate, breakfast, lunch, dessert, snack, fruit, vegetables, salad frost, ice, cold, snow, winter, nature, lake house, home, roof, door, window, building moon, luna, sky, satellite, craters, eclipse, night, crescent, moonlight mountain, landscape, outdoors, rocks, peak, hiking, travel, snow person, man, woman, self, human, people plane, aircra, airport, jet, aviation, sky, wing, clouds, air, cockpit, fuselage police, cop, street, securitym arrest, policeman, officer, crime reflection, mirror, water, sea, lake, surface, light sky, blue, clouds, sun, moon, stars, atmosphere, skyline snow, white, winter, mountain, cold, snowflake, landscape sun, sunlight, sky, sunset, sunrise, summer, sunray, sunglasses temple, priest, religion, mosaic, faith, prayer, god, church, architecture train, rails, subway, railway, travel, station, underground, transportation, metro tree, green, leaves, nature, landscape, trunk, woods waterfall, water, motion, nature, river, cascade window, house, curtain, light, view, glass, shu er, architecture Πίνακας 3.: Οι 2 έννοιες και τα σύνολα λέξεών τους που χρησιμοποιήσαμε 3..2 Διαδικασία επέκτασης Στη συνέχεια, προδιαγράφουμε μία διαδικασία επέκτασης, το πρώτο στάδιο της οποίας είναι η προσθήκη περισσότερων λέξεων για την περιγραφή της έννοιας. Αυτό επιτυγχάνεται με την χρήση του WordNet. Το WordNet είναι ένα λεξικό το οποίο περιλαμβάνει πολλές πληροφορίες και συσχετίσεις μεταξύ των λέξεών του, αφορά δε την αγγλική γλώσσα. Η διαδικασία που ακολουθείται είναι η ερώτηση του WordNet για κάθε μία λέξη του συνόλου C. Η απάντηση του WordNet δίνεται με μορφή υποσυνόλου, ή γενικότερα υποσυνόλων, τα οποία ονομάζονται synsets, καθένα εκ των οποίων περιέχει έναν αριθμό λέξεων. Κάθε υποσύνολο αντιστοιχεί σε μία διαφορετική σημασία² της λέξης. Φυσικά, εάν μία λέξη έχει μόνο μία σημασία, το WordNet επιστρέφει ως απάντηση ένα μόνο synset. Η ένωση όλων των υποσυνόλων όλων των απαντήσεων των ερωτημάτων για μία έννοια αποτελεί ένα νέο σύνολο, έστω W syns. Επιθυμούμε να αντιστοιχήσουμε την έννοια με ένα σύνολο λέξεων το οποίο να περιέχει το σύνολο C. Για το σκοπό αυτό, ορίζουμε αρχικά το προκαταρκτικό σύνολο έννοιας W init με την ακόλουθη σχέση. W init = W syns C (3.) Στην συνέχεια, το εργαλείο επεξεργάζεται κάθε λέξη του W init, αντικαθιστώντας όλα τα κεφαλαία γράμματα με τα πεζά, διαγράφοντας αριθμητικά ψηφία και χαρακτήρες όπως $, #, %, και έπειτα μετασχηματίζει την λέξη στο θέμα της χρησιμοποιώντας τον αλγόριθμο του Porter. Επίσης αφαιρούνται και οι λεγόμενες stop words³. Σε αυτό το στάδιο αφαιρούνται στοιχεία του συνόλου που πιθανώς υπάρχουν πάνω από μία φορά. Το σύνολο που προκύπτει μετά από τη διαδικασία αυτή είναι το σύνολο έννοιας, το οποίο συμβολίζουμε με W. Ακολούθως, αποδίδουμε σε κάθε λέξη του W έναν πραγματικό αριθμό, τον οποίο καλούμε (και στη συνέχεια χρησιμοποιούμε ως) βάρος⁴. Η διαδικασία είναι η ακόλουθη. Αρχικά υπολογίζουμε την συσχέτιση sim(w, C) κάθε λέξης w του W με το σύνολο C. Ο ορισμός της συσχέτισης μεταξύ μίας λέξης και ενός συνόλου λέξεων δίνεται στην παράγραφο Στην συνέχεια, κανονικοποιούμε γραμμικά το σύνολο A w των συσχετίσεων στο διάστημα [0, ], χρησιμοποιώντας την απλή σχέση weight(w) = sim(w, C) min{a w} max{a w } min{a w } (3.2) όπου A w = {sim(w, C) : w W }. Η ανάγκη κανονικοποίησης αναλύεται επίσης στην παράγραφο Η προκύπτουσα κανονικοποιημένη τιμή weight(w) της συσχέτισης κάθε λέξης αποτελεί ακριβώς το βάρος της λέξης. Έχοντας λοιπόν δημιουργήσει το σύνολο W και έχοντας καθορίσει την τιμή της ιδιότητας weight(w), έχουμε ορίσει πλήρως (για τα πλαίσια της εργασίας) μία έννοια. ²ως παράδειγμα αναφέρουμε τη λέξη ζυγός, όπου τρεις διαφορετικές σημασίες της είναι α) ακέραιο πολλαπλάσιο του 2, β) ζυγαριά, γ) ηλεκτρικός ζυγός ³λίγα περισσότερα για τις stop words στην παράγραφο Αʹ.2 ⁴η απόδοση βάρους σε κάθε λέξη του W είναι η πρώτη διαφοροποίηση σε σχέση με την εργασία του Τ. Τσιρέλη

27 3.2. Συσχέτιση εικόνας με έννοια Δημιουργία ερωτημάτων για διαδικτυακές συλλογές Έχοντας δημιουργήσει τα σύνολα W για κάθε έννοια που μας ενδιαφέρει, το επόμενο βήμα είναι να υπολογίσουμε το score όλων των υποψήφιων⁵ εικόνων. Οι εικόνες των οποίων των score θέλουμε να υπολογίσουμε προέρχονται γενικά από το διαδίκτυο. Στην συγκεκριμένη περίπτωση της εφαρμογής μας προέρχονται από το διαδικτυακό τόπο Ωστόσο, είναι αρκετά προφανές ότι δεν μπορούμε να υπολογίσουμε το score κάθε έννοιας σε κάθε εικόνα του Flickr. Ο βασικός λόγος είναι ότι ο αριθμός των διαθέσιμων εικόνων είναι υπερβολικά μεγάλος. Αντί αυτού, επιθυμούμε να συγκεντρώσουμε ένα υποσύνολο εικόνων του Flickr στο οποίο θα υπολογίσουμε τα score κάθε εικόνας του για κάθε έννοια και στη συνέχεια, διαλέγοντας με κάποιο κριτήριο εικόνες από αυτό το υποσύνολο, θα σχηματίσουμε τα σύνολα εκπαίδευσης. Για το σκοπό τούτο το σύστημα δημιουργεί μία σειρά ερωτημάτων (queries) για το Flickr. Η διαδικασία δημιουργίας ερωτημάτων μοιάζει με την επέκταση μέσω του WordNet του συνόλου C στο σύνολο W. Εδώ επεκτείνουμε το σύνολο W στο σύνολο Q, με παρόμοιο τρόπο. Η διαφορά είναι ότι δεν ζητούμε μόνο τα synsets της εκάστοτε λέξης, αλλά και τα synsets άλλων λέξεων που σχετίζονται με την αυτή με σχέσης συνωνυμίας, αντιονυμίας, γενίκευσης, ειδίκευσης, υποσυνόλου, μέρους κλπ, καθώς και λέξεις που υπάρχουν σε προτάσεις - παραδείγματα στο WordNet. Φυσικά, επαναλαμβάνουμε τα ίδια βήματα σχετικά με αφαίρεση αριθμητικών, εξαγωγής θέματος κλπ, που ακολουθήσαμε και πριν. Έχοντας δημιουργήσει το σύνολο Q, δημιουργούμε ερωτήματα μίας λέξης από τα στοιχεία του Q τα οποία καταθέτουμε στο Flickr και λαμβάνουμε λίστες αποτελεσμάτων (μήκους της επιλογής μας). Ας σημειωθεί ότι οι λίστες αυτές περιέχουν μόνο τα μετα-δεδομένα (metadata) κάθε εικόνας και όχι την ίδια την οπτική πληροφορία, γεγονός που μειώνει τον απαιτούμενο χρόνο εκτέλεσης, τις απαιτήσεις σε ταχύτητα σύνδεσης με το διαδίκτυο, και τον αποθηκευτικό χώρο. Στο σημείο αυτό έχουμε πλέον στην διάθεσή μας ένα σύνολο μετα-δεδομένων εικόνων. 3.2 Συσχέτιση εικόνας με έννοια Το επόμενο βήμα είναι η απόδοση ενός score για κάθε έννοια σε κάθε εικόνα του συνόλου που μόλις δημιουργήσαμε. Το score αυτό θα αποτελέσει σημαντική παράμετρο σε όλη την διάρκεια αυτής της εργασίας. Ακολουθεί ο τρόπος υπολογισμού με σχόλια και αιτιολογήσεις για τους διάφορους ευριστικούς μηχανισμούς που υιοθετούνται. Το υπολογιζόμενο score αποτελεί μία ποσοτική εκτίμηση του κατά πόσο μία εικόνα σχετίζεται με μία έννοια. Στο σημείο αυτό κάθε έννοια αναπαρίσταται από ένα σύνολο λέξεων (με ιδιότητα βάρους). Επίσης, και κάθε εικόνα αναπαρίσταται από ένα σύνολο λέξεων T, το οποίο περιέχει όλα τα tags που έχουν αποδώσει οι χρήστες στην εικόνα μέσω του Flickr. Συνεπώς το πρόβλημα υπολογισμού συσχέτισης μεταξύ εικόνας και έννοιας απλοποιείται στο πρόβλημα υπολογισμού της συσχέτισης δύο συνόλων λέξεων, του W και του T (όπου το W διαθέτει και βάρη για τα στοιχεία του) Συσχέτιση δύο λέξεων Αρχικά ορίζουμε την απόσταση μεταξύ δύο λέξεων. Για τον ορισμό μας θα βασιστούμε στον ορισμό ενός ευρέως χρησιμοποιούμενου δείκτη συσχέτισης, του PMI (pointwise mutual information) [5]. Για να είμαστε θέση να ορίσουμε τον δείκτη PMI, απαιτείται να διαθέτουμε ένα συγκεκριμένο corpus. Με τον όρο corpus αναφερόμαστε σε μία συλλογή κειμένων. Κάθε κείμενο περιέχει λέξεις, προτάσεις, ή και παραγράφους ολόκληρες. Στην δική μας περίπτωση χρησιμοποιούμε το ευρέως διαδεδομένο Brown Corpus. Το Brown Corpus περιλαμβάνει συνολικά 500 κείμενα των 2000 λέξεων περίπου. Έτσι λοιπόν ορίζουμε το PMI δύο λέξεων w και w 2 ως ( P MI(w, w 2 ) = ln N N ) c (3.3) N N 2 όπου N είναι ο αριθμός των κειμένων του corpus (500 για το Brown), N είναι ο αριθμός των κειμένων στα οποία εμφανίζεται η λέξη w, N 2 είναι ο αριθμός των κειμένων στα οποία εμφανίζεται η λέξη w 2 και N c ο αριθμός των κειμένων στα οποία εμφανίζονται και οι δύο λέξεις w και w 2. Ωστόσο εμείς χρησιμοποιούμε έναν διαφορετικό τρόπο υπολογισμού της συσχέτισης μεταξύ δύο λέξεων⁶. Οι λόγοι γίνονται προφανείς αν παρατηρήσουμε τα παρακάτω. Αρχικά παρατηρούμε ότι 0 N i N, i {, 2, c}. Στη συνέχεια παρατηρούμε ότι αν N c = 0 και N 0 και N 2 0, τότε P MI. Δηλαδή, στην περίπτωση αυτή οι λέξεις w και w 2 είναι παντελώς ασυσχέτιστες. Όμοια και στην περίπτωση όπου N c = 0 και N N 2 = 0. Θεωρούμε δηλαδή ότι και σε αυτή την περίπτωση οι δύο λέξεις είναι εντελώς ασυσχέτιστες. Γενικά μπορούμε να πούμε ότι αν για μία λέξη w i είναι N i = 0 τότε η λέξη w δεν εμφανίζεται σε κανένα κείμενο του corpus, συνεπώς δεν μπορούμε να εξάγουμε καμία ⁵υποψήφιων ως προς την συμμετοχή τους στο σύνολο εκπαίδευσης για κάθε έννοια ⁶και διαφοροποιούμαστε από την προσέγγιση του Τ. Τσιρέλη η οποία χρησιμοποιούσε μία απλοποιημένη εκδοχή του PMI

Δείτε περισσότερα