Ανάλυση Πολυμέσων με χρήση Γνώσης

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Εμμανουήλ Φαλελάκης Ηλεκτρολόγος Μηχανικός και Μηχανικός Υπολογιστών Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης Ανάλυση Πολυμέσων με χρήση Γνώσης Ισορροπώντας ανάμεσα στην Πολυπλοκότητα και την Εγκυρότητα Διδακτορική Διατριβή Θεσσαλονίκη, 2010

2

3 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Ανάλυση Πολυμέσων με χρήση Γνώσης Ισορροπώντας ανάμεσα στην Πολυπλοκότητα και την Εγκυρότητα Διδακτορική Διατριβή που εκπονήθηκε ως μερική εκπλήρωση των απαιτήσεων για την απονομή του τίτλου του Διδάκτορα Μηχανικού του Εμμανουήλ Φαλελάκη Ηλεκτρολόγου Μηχανικού και Μηχανικού Υπολογιστών Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης Επιβλέπων Αναστάσιος Ντελόπουλος Επίκουρος Καθηγητής Μιχαήλ Γ. Στρίντζης Καθηγητής Συμβουλευτική Επιτροπή Περικλής Μήτκας Καθηγητής Υποστηρίχθηκε δημόσια στη Θεσσαλονίκη, στις 18/06/2010 Εξεταστική Επιτροπή Αναστάσιος Ντελόπουλος Μιχαήλ Γ. Στρίντζης Περικλής Α. Μήτκας Επίκουρος Καθηγητής ΑΠΘ Καθηγητής ΑΠΘ Καθηγητής ΑΠΘ Στέφανος Κόλλιας Νικόλαος Μαγκλαβέρας Ιωάννης Κομπατσιάρης Καθηγητής ΕΜΠ Καθηγητής ΑΠΘ Ερευνητής Β' ΕΚΕΤΑ... Ανδρέας Συμεωνίδης Λέκτορας ΑΠΘ

4 Η παρούσα διδακτορική διατριβή αποτέλεσε τμήμα του έργου Υπολογισμός και Σημασιολογική Ερμηνεία της Τρισδιάστατης Ανθρώπινης Κίνησης για την Επικοινωνία με Μηχανές και την Εμψύχωση Συνθετικών ΧαΡΑκτήρων (κωδικός έργου 03ΕΔ853) που υλοποιήθηκε στα πλαίσια του Προγράμματος Ενίσχυσης Ερευνητικού Δυναμικού (ΠΕΝΕΔ 2003) και χρηματοδοτήθηκε κατά 75% από το Ευρωπαϊκό Κοινοτικό Ταμείο και κατά 25% από το υπουργείο Ανάπτυξης - Γενική Γραμματεία Έρευνας και Τεχνολογίας (ΓΓΕΤ), στα πλαίσια του προγράμματος 8.3 του Επιχειρησιακού Προγράμματος Ανταγωνιστικότητας - Γ Κοινοτικό Πλαίσιο Στήριξης.

5 Στο Νίκο στην Πηνελόπη στη Φανή στον Κυριάκο

6

7 i Ανάλυση Πολυμέσων με χρήση Γνώσης Ισορροπώντας ανάμεσα στην Πολυπλοκότητα και την Εγκυρότητα Περίληψη Η παρούσα διατριβή παρουσιάζει εργαλεία για την αναγνώριση σημασιολογικών οντοτήτων σε πολυμεσικά έγγραφα χρησιμοποιώντας πρότερη γνώση. Στόχοι της είναι να παρέχει μεθοδολογίες που καθιστούν την υπολογιστική πολυπλοκότητα ελέγξιμη παράμετρο των συστημάτων σημασιολογικής αναγνώρισης και ταυτόχρονα να βελτιώσει την απόδοση των τελευταίων. Η προσέγγισή μας χρησιμοποιεί ένα ιεραρχικό πολυεπίπεδο μοντέλο ασαφούς γνώσης, στο οποίο οι οντότητες διακρίνονται σε (α) άμεσα μετρήσιμες (συντακτικές) και (β) υψηλού επιπέδου (σημασιολογικές), ενώ ορίζονται κατάλληλες μετρικές για την ποσοτικοποίηση της διαδικασίας της σημασιολογικής αναζήτησης και των αποτελεσμάτων της. Ακόμα, δίνονται κατευθύνσεις για το συμπερασμό πάνω στη γνώση ανάλογα με τις απαιτήσεις του προβλήματος και προτείνονται μέθοδοι για τον υπολογισμό των ασαφών βαρών του μοντέλου. Η προτεινόμενη εκφραστικότητα, αν και περιορισμένη, καθώς επιτρέπει μόνο διαζευκτικές εκφράσεις, είναι πλήρως συμβατή με τον τρόπο αντιμετώπισης των πολυμεσικών εγγράφων από τους τρέχοντες ταξινομητές. Στη βάση των παραπάνω, η διατριβή συνδυάζει τα αποτελέσματα αξιόπιστων πηγών μετρήσεων (π.χ. ταξινομητών) χρησιμοποιώντας ένα μοντέλο γνώσης που δεν απαιτεί πολύπλοκους υπολογισμούς κατά το συμπερασμό, καθώς οι βαθμοί αλήθειας των υπό αναζήτηση εννοιών είναι αποτιμήσιμοι μέσω κλειστών μαθηματικών εκφράσεων που προκύπτουν άμεσα από τα αξιώματα της γνώσης. Ταυτόχρονα, δίνει τη δυνατότητα της προσαρμογής της σημασιολογικής αναζήτησης στους εκάστοτε υπολογιστικούς περιορισμούς, μέσω της βέλτιστης επιλογής υποσυνόλων των χρησιμοποιούμενων πηγών μέτρησης, τόσο κατά την αναζήτηση μιας έννοιας όσο και κατά την ταυτόχρονη αναζήτηση πολλαπλών οντοτήτων. Η επιλογή αυτή μάλιστα επιτυγχάνεται με δυναμικό προγραμματισμό έτσι ώστε και αυτή η ίδια να εισάγει χαμηλή υπολογιστική πολυπλοκότητα. Τα πειράματα δείχνουν ότι η προτεινόμενη μεθοδολογία μπορεί (α) να πετύχει καλή ακρίβεια στην αναζήτηση και ανάκτηση νέων εννοιών, χωρίς να απαιτεί την εκπαίδευση αντίστοιχων ταξινομητών και (β) να βελτιώσει την επίδοση υπαρχόντων ταξινομητών. Επίσης, μπορεί να προσαρμοστεί στο εκά-

8 ii στοτε πεδίο, μέσω της διαδικασίας επανα-υπολογισμού των βαρών. Επιπλέον, επιδεικνύεται η εφαρμογή των μαθηματικών εργαλείων της διατριβής και στο πεδίο της αξιολόγησης πρακτόρων λογισμικού. Τέλος, στα πλαίσια της εργασίας αποδεικνύεται ότι ακόμα και για μια γλώσσα με μεγαλύτερη εκφραστικότητα, η εκτέλεση ενός ασαφούς tableau αλγορίθμου στο σύνολο των μετρήσεων του ABox έχει αποτέλεσμα ισοδύναμο με την αποτίμηση κλειστών αριθμητικών εκφράσεων που η δομή τους μπορεί να προκύψει πριν τις μετρήσεις. Πειράματα με χρήση αυτής της γλώσσας στην ανάκτηση πολυμέσων επιβεβαιώνουν την αξία της προτεινόμενης μεθοδολογίας ενώ αφήνουν να διαφανεί ότι η επίδοση της τελευταίας στο σύνολο δοκιμών μπορεί να προβλεφθεί από την αντίστοιχη επίδοση στο σύνολο εκπαίδευσης.

9 iii Knowledge-based Analysis of Multimedia Balancing between Complexity and Validity Abstract This PhD thesis introduces tools for the semantic analysis of multimedia documents based on prior knowledge. The main goals of the thesis are to provide methodologies that can turn the computational complexity into a controllable parameter of semantic identification systems together with improving their effectiveness. This can be crucial when dealing with scenarios where time is a critical parameter, as in synchronous/real-time situations. More specifically, in the proposed approach, entities are divided into (i) directly measurable quantities (syntactic entities) and (ii) high-level entities closer to human perception (semantic entities) and are organized within a hierarchical model, where subsumptions hold up to a certain degree. The model is coupled with appropriate metrics for quantifying the semantic search procedure and its results and equipped with Inference mechanisms that fit various scenarios. Efficient machine learning methods for computing the fuzzy weights of the knowledge model are also described. Although the proposed expressivity is limited w.r.t. Description Logics, it is fully capable and compatible with the way current classifiers deal with multimedia documents. Based on the above, this thesis, combines the results (scores) of reliable measurement methods (e.g. classifiers), by using a knowledge model that does not demand complicated computations during inference, as opposed to Description Logics. This is achieved because the truth factors of the entities under examination can be computed using closed mathematical expressions that can stem directly from knowledge, eliminating the need for ABox reasoning, which is performed on the data under examination. Furthermore, through the proposed methodology, semantic search can be efficiently used under any restrictions posed by computational complexity, by selecting optimal subsets of the available measurements. This technique is extended to include the case of simultaneous search for multiple entities and the selection problem in both cases is efficiently solved using dynamic programming, thus introducing a very limited extra computational burden itself. Experiments demonstrate that the proposed method can achieve very good accuracy while searching for and retrieving new entities, without the need for training extra classifiers. This technique improves the scores given by already

10 iv existing classifiers, by enhancing their results using a knowledge-based query expansion, and can also be adopted to various domains/datasets through a process of fuzzy weight re-computation. An extra application scenario is also presented, where the mathematical tools provided by this thesis are used for evaluating software agents. Finally, a theoretical proof is included, which states that, even in the case of a more expressive language, the execution of a fuzzy tableau algorithm on the measurements (i.e. using the instantiated ABox) yields results identical with the ones the proposed method can achieve using closed-form mathematical expressions, as derived directly from knowledge axioms. The corresponding experiments illustrate the virtues of this language, while also indicate that the performance of our methodology on an evaluation set can be estimated by its performance on the development set.

11 Περιεχόμενα Περίληψη Abstract Περιεχόμενα Κατάλογος πινάκων Κατάλογος σχημάτων i iii viii ix xiv 1 Εισαγωγή Αντικείμενο Οργάνωση της διατριβής Επισκόπηση της ερευνητικής περιοχής Το σημασιολογικό κενό Ανάκτηση πολυμέσων Μεταδεδομένα Αξιολόγηση της ανάκτησης Εξαγωγή χαρακτηριστικών χαμηλού επιπέδου Χαρακτηριστικά κειμένου Ηχητικά χαρακτηριστικά Οπτικά χαρακτηριστικά Fusion Τεχνολογίες γνώσης Περιγραφικές Λογικές Ασαφείς Περιγραφικές Λογικές Τεχνολογίες γνώσης στα πολυμέσα Τεχνολογίες μηχανικής μάθησης Generative και discriminative μοντέλα μάθησης Support Vector Machines Τεχνολογίες μηχανικής μάθησης στα πολυμέσα v

12 vi ΠΕΡΙΕΧΟΜΕΝΑ 2.8 Τοποθέτηση και συμβολή της εργασίας Μοντελοποίηση Αναπαράσταση γνώσης Συντακτικές οντότητες Σημασιολογικές οντότητες Συμπερασμός Μετρικές αναγνώρισης Αναπαράσταση ορισμών με ασαφείς σχέσεις Συμπερασμός στη γνώση (στην ορολογία) Βέλτιστος προσδιορισμός των βαρών Το πρόβλημα ως βελτιστοποίηση k-fold Cross Validation RankBoost Συμπεράσματα Βελτιστοποίηση πολυπλοκότητας Το πρόβλημα Σχεδίαση της σημασιολογικής αναζήτησης Μετρικές μερικής αξιολόγησης Σχεδίαση με βάση την πολυπλοκότητα Σχεδίαση με βάση την εγκυρότητα Ένα τελείως άχρηστο αλλά μάλλον διδακτικό παράδειγμα Αναπαράσταση με Πεπερασμένα Αυτόματα Το Στοιχειώδες Αυτόματο Το Επαυξημένο Αυτόματο (ΕΑ) Μετρικές αναγνώρισης Το Ισοδύναμο Επαυξημένο Αυτόματο (ΙΕΑ) Επίλυση με δυναμικό προγραμματισμό Πειράματα Τυχαίες είσοδοι Αναγνωρίζοντας ένα τραπέζι Αναγνώριση αθλητικών σκηνών Επισκόπηση προτεινόμενης διαδικασίας Συμπεράσματα Ταυτόχρονη αναγνώριση πολλαπλών εννοιών Το πρόβλημα Προσεγγίσεις Συνθήκες ανταγωνισμού (competitive approach) Συνθήκες 'πρόνοιας' (welfare approach)

13 ΠΕΡΙΕΧΟΜΕΝΑ vii 5.3 Επίλυση με δυναμικό προγραμματισμό Συνθήκες ανταγωνισμού Συνθήκες πρόνοιας Πειράματα Συμπεράσματα Εφαρμογή στην ανάκτηση πολυμέσων Εισαγωγή Ανάκτηση πολυμέσων Τεχνολογίες και πλαίσια Στόχος του κεφαλαίου Μοντελοποίηση Πειράματα Δεδομένα Οργάνωση οντοτήτων Ασαφοποίηση ορισμών Επιδιόρθωση groundtruth Πείραμα 1: Εκτίμηση με σημασιολογικούς ορισμούς Πείραμα 2: Βελτιστοποίηση Πολυπλοκότητας Πείραμα 3: Λίγη επιπλέον διερεύνηση Συμπεράσματα Εφαρμογή στην αξιολόγηση πρακτόρων λογισμικού Εισαγωγή Μοντελοποίηση της περιοχής Εφαρμογή στο διαγωνισμό Trading Agent Competition Περιγραφή του διαγωνισμού Επιλογή και οργάνωση μετρικών αξιολόγησης Δεδομένα Εκπαίδευση Αξιολόγηση Συμπεράσματα Αυξάνοντας την εκφραστικότητα Εισαγωγή Μοντελοποίηση Ασαφείς ορισμοί Συμπερασμός στην ορολογία Προσδιορισμός βαρών Πειράματα Επέκταση λεξικού αναζήτησης

14 viii ΠΕΡΙΕΧΟΜΕΝΑ Βελτίωση ταξινομητών Σύγκριση ασαφών νορμών Συμπεράσματα Σύνοψη και μελλοντικές επεκτάσεις 131 Βιβλιογραφία 135 Α Ορισμοί οντοτήτων της LSCOM 145 B Επιμέρους αποτελέσματα στο Columbia Σχετικές δημοσιεύσεις του συγγραφέα 153

15 Κατάλογος πινάκων 2.1 Συνακτικός κανόνας για την κατασκευή εκφράσεων στην Περιγραφική Λογική AL Συνηθέστερες συναρτήσεις πυρήνα SVM Τιμές πολυπλοκότητας για τον ορισμό της έννοιας B Σχεδίαση με βάση την Εγκυρότητα. Μεταβολή του κατωφλίου έχει σαν αποτέλεσμα την επιλογή διαφορετικών αλγορίθμων (συντακτικών οντοτήτων) Σχεδίαση με βάση την Πολυπλοκότητα Τα αθλήματα και τα καρέ που αντιστοιχούν σε καθένα από αυτά Σύμβολα, Οντότητες και οι αντίστοιχες τιμές Πολυπλοκότητας για την αναγνώριση της έννοιας "αγώνας δρόμου" Αποτελέσματα για όλες τις καταστάσεις του αυτομάτου Προσέγγιση απαιτούμενου αριθμού πράξεων και πολυπλοκότητα για κάθε ταξινομητή Average Precision AP (A/B1/B2) που προκύπτει για κάθε έννοια, χρησιμοποιώντας το πλήρες σύνολο των διαθέσιμων οντοτήτων για κάθε ορισμό. Παρουσιάζεται για τις περιπτώσεις του ετεροορισμού και του αυτο-ορισμού σε σύγκριση με την πρότερη πιθανότητα κάθε έννοιας (prior) και το Average Precision AP c (A/./B2) του αντίστοιχου ταξινομητή του Columbia Οι επιλεγμένες μετρικές και τα χαρακτηριστικά τους Συνακτικός κανόνας για την κατασκευή εκφράσεων Mέσο Average Precision για διάφορα ζεύγη ασαφών νορμών Α.1 Ορισμοί για τις οντότητες της LSCOM που προέκυψαν εφαρμόζοντας τη διαδικασία της παραγράφου ix

16 x ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ

17 Κατάλογος σχημάτων 3.1 Οι ορισμοί τριών Σημασιολογικών Οντοτήτων σε αναπαράσταση με γράφους. Παρατηρούμε ότι το B είναι έμμεσα συνδεδεμένο με τις Συντακτικές Οντότητες του ορισμού του C και όμοια το A είναι συνδεδεμένο έμμεσα με τις Συντακτικές Οντότητες τόσο του B όσο και του C Παραδείγματα επιφανειών βελτιστοποίησης, όπως έχουν προκύψει από πειράματα των κεφαλαίων 6 και 8. Η συνάρτηση βελτιστοποίησης είναι το αντίθετο του Mean Average Precision και η προς εκπαίδευση έννοια είναι το 'Όχημα' (Vehicle) το οποίο ορίζεται, για λόγους εποπτείας, στις δύο διαστάσεις με βάση τις έννοιες (α)'μοτοσυκλέτα' (Motorbike) και 'Αεροπλάνο' (Aircraft), (β)'βάρκα' (Boat) και 'Αεροπλάνο', (γ) 'Ποδήλατο' (Bicycle) και 'Αυτοκίνητο' (Car) και (δ)'τανκ' και 'Ποδήλατο'. Παρατηρούμε ότι σε ορισμένες περιπτώσεις (ιδιαίτερα στις (α) και (β)) οι επιφάνειες παρουσιάζουν ανωμαλίες που οδηγούν σε τοπικά ελάχιστα Το Στοιχειώδες Αυτόματο που αντιστοιχεί στον ορισμό A J = F AJ a/a Το Επαυξημένο Αυτόματο που αντιστοιχεί στους ορισμούς A 1 = {a, b, c} και A 2 = {a, d} της έννοιας A Το Ισοδύναμο Επαυξημένο Αυτόματο που αναπαριστά τη σημασιολογική αναζήτηση της οντότητας A σε ισοδυναμία με το Επαυξημένο Αυτόματο του σχ Χρησιμοποιούνται τέσσερις αλγόριθμοι και έτσι έχουμε ένα αυτόματο αποτελούμενο από 2 4 = 16 καταστάσεις. Στη γενική περίπτωση, χρήση n αλγορίθμων οδηγεί σε 2 n καταστάσεις Σχεδίαση με βάση την Πολυπλοκότητα για μια έννοια με χρήση δυναμικού προγραμματισμού Ορισμός της έννοιας "τραπέζι" Σκίτσα που αναπαριστούν ένα "τραπέζι" Ενδεικτικά από τις ακολουθίες βίντεο που χρησιμοποιήθηκαν xi

18 xii ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 4.8 Αποτέλεσμα εφαρμογής του αλγορίθμου αναγνώρισης ευθειών (Hough). Παρατηρούμε ότι σε κάποιες περιπτώσεις οι ευθείες προκύπτουν από το περιβάλλον και όχι από το έδαφος όπως αναμέναμε Το αυτόματο που αναπαριστά τη διαδικασία αναγνώρισης Αποτελέσματα αναγνώρισης (Βεβαιότητα) για (α) την κατάσταση q 1, (β) την κατάσταση q 6 και (γ) την κατάσταση q Τα βήματα της προτεινόμενης διαδικασίας Εγκυρότητα που επιτυγχάνεται για κάθε Σημασιολογική Οντότητα σε σχέση με διάφορα κατώφλια Πολυπλοκότητας για συνθήκες (α) Πρόνοιας και (β) Ανταγωνισμού Σχεδίαση σε συνθήκες πρόνοιας: Οι τιμές του Z που υπολογίζονται με δυναμικό προγραμματισμό σε σχέση με τις βέλτιστες Λεπτομερής ορισμός. Οι οντότητες S 1... S k υπάγονται από την οντότητα C με βαθμούς f 1... f k αντίστοιχα Προτεινόμενη διαδικασία συμπερασμού για την ύπαρξη της οντότητας C στην εικόνα I με χρήση των αποτελεσμάτων των ταξινομητών. Αρχικά εξάγονται τα feature vectors, που μπορεί να είναι διαφορετικά για κάθε ταξινομητή, τα οποία τροφοδοτούν τους αντίστοιχους ταξινομητές που με τη σειρά τους παράγουν τα αποτελέσματα για τις οντότητες S i. Ο συμπερασμός για τη C γίνεται πάνω στα τελευταία και βασίζεται στην ιεραρχία Διαμερισμός του συνόλου δεδομένων που χρησιμοποιήθηκε Συνοπτικό διάγραμμα της διαδικασίας παραγωγής των αποτελεσμάτων των ταξινομητών, τα οποία χρησιμοποιούνται σαν είσοδοι του συστήματός μας Παράδειγμα αφαίρεσης οντότητας από την ιεραρχία της LSCOM Μέσο Average Precision AP (A/B1/B2) της μεθόδου (κόκκινη καμπύλη) για την έννοια "Vehicle" και για διαφορετικά κατώφλια πολυπλοκότητας. Στο (α) παρουσιάζονται τα αποτελέσματα του ετερο-ορισμόυ ενώ στο (β) του αυτο-ορισμού. Τα βάρη υπολογίστηκαν χρησιμοποιώντας τα αποτελέσματα των ταξινομητών στο σύνολο B1. Ακόμα παρουσιάζονται η Εγκυρότητα του επιλεγμένου κάθε φορά υποσυνόλου (μπλε), το Average Precision του αντίστοιχου ταξινομητή AP c (A/./B2) (πράσινο) και η πρότερη πιθανότητα της έννοιας (μωβ)

19 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ xiii 6.7 Μέσο Average Precision AP (A/B1/B2) για όλες τις έννοιες και για διαφορετικά κατώφλια πολυπλοκότητας, για τους αυτο-ορισμούς (κόκκινη καμπύλη) και τους ετερο-ορισμούς (μπλε καμπύλη). Τα βάρη υπολογίστηκαν με χρήση των scores των ταξινομητών στο σύνολο B1. Με πράσινο φαίνεται η καμπύλη του μέσου Average Precision των ταξινομητών AP c (A/./B2) και με μωβ η μέση πρότερη πιθανότητα των εννοιών Μέσο Average Precision για διαφορετικά κατώφλια πολυπλοκότητας, για τους αυτο-ορισμούς (κόκκινη καμπύλη) και τους ετεροορισμούς (μπλε καμπύλη), ενώ με πράσινο φαίνεται η καμπύλη του μέσου Average Precision των ταξινομητών και με μωβ η μέση πρότερη πιθανότητα των εννοιών: (α) τα βάρη υπολογίστηκαν με χρήση των labels του groundtruth στο σύνολο B1 (AP (A/B1/B2)), (β) τα βάρη υπολογίστηκαν με χρήση των scores των ταξινομητών στο σύνολο A (AP (A/A/B)) και (γ) τα βάρη υπολογίστηκαν με χρήση των labels του groundtruth στο σύνολο A (AP (A/A/B)) Δομή ενός απλού δέντρου αναπαράστασης μετρικών (MRT) Μια σχηματική επισκόπηση του παιχνιδιού TAC-SCM Το δέντρο αναπαράστασης μετρικών για το διαγωνισμό TAC- SCM Αναπαράσταση των συναρτήσεων συμμετοχής για δύο από τις μετρικές του συστήματος Μερική Βεβαιότητα αξιολόγησης για αυξανόμενη Πολυπλοκότητα Παράδειγμα μιας απλής ιεραρχίας Πείραμα διεύρυνσης συλλογής οντοτήτων. Οι μπάρες απεικονίζουν το Average Precision που επιτυγχάνεται από τον ταξινομητή του Columbia, τη δική μας μέθοδο χωρίς τη χρήση βαρών (δηλαδή με τα f i 's ίσα με 1), και με τη μέθοδό μας με χρήση βαρών υπολογισμένων με καθεμιά από τις δύο μεθόδους αντίστοιχα Διάγραμμα πρόβλεψης της βελτίωσης απόδοσης μεταξύ του training set και του test set Πείραμα βελτίωσης ταξινομητή. Οι μπάρες απεικονίζουν το Average Precision που επιτυγχάνεται από τον ταξινομητή του Columbia, τη δική μας μέθοδο χωρίς τη χρήση βαρών (δηλαδή με τα f i 's ίσα με 1), και με τη μέθοδό μας με χρήση βαρών υπολογισμένων με καθεμιά από τις δύο μεθόδους αντίστοιχα Σύνοψη των προτάσεων της διατριβής

20 xiv ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ B.1 B.2 B.3 B.4 Επιμέρους αποτελέσματα ανίχνευσης οντοτήτων σε video: Average Precision για αυξανόμενο κατώφλι πολυπλοκότητας Επιμέρους αποτελέσματα ανίχνευσης οντοτήτων σε video: Average Precision για αυξανόμενο κατώφλι πολυπλοκότητας Επιμέρους αποτελέσματα ανίχνευσης οντοτήτων σε video: Average Precision για αυξανόμενο κατώφλι πολυπλοκότητας Επιμέρους αποτελέσματα ανίχνευσης οντοτήτων σε video: Average Precision για αυξανόμενο κατώφλι πολυπλοκότητας

21 Κεφάλαιο 1 Εισαγωγή Sometimes a scream is better than a thesis. Ralph Waldo Emerson 1.1 Αντικείμενο Η παρούσα διατριβή επιχειρεί να αντιμετωπίσει κάποιες από τις πτυχές του προβλήματος της απόστασης ανάμεσα στα μετρήσιμες από τον υπολογιστή ποσότητες και στις έννοιες όπως νοούνται και αναγνωρίζονται από την ανθρώπινη αντίληψη. Η προσέγγισή της, στηρίζεται σε μια ιεραρχική δομή γνώσης, στην οποία κάθε υπαγωγή ισχύει μέχρι ενός βαθμού. Για να υπολογίσει βαθμούς ύπαρξης εννοιών υψηλού επιπέδου σε πολυμεσικά έγγραφα συνδυάζει τα αποτελέσματα αξιόπιστων πηγών μετρήσεων (π.χ. ταξινομητών) μέσα από το πρίσμα μιας διαζευκτικής λογικής χαμηλής εκφραστικότητας. Η τελευταία επιτρέπει στις παραγόμενες εκφράσεις να είναι άμεσα αποτιμήσιμες, ελαχιστοποιώντας έτσι τις υπολογιστικές απαιτήσεις της συλλογιστικής διαδικασίας στα δεδομένα. Επιπλέον, η εργασία προτείνει εργαλεία και τεχνικές για την ποσοτικοποίηση της σημασιολογικής αναγνώρισης που επιτρέπουν τη βέλτιστη διανομή των υπολογιστικών πόρων κάτω από τους εκάστοτε υπολογιστικούς περιορισμούς. Η διαδικασία αυτή επεκτείνεται και στην περίπτωση της ταυτόχρονης αναζήτησης πολλαπλών εννοιών. Επιπλέον, στόχος της προτεινόμενης μεθοδολογίας είναι η επίτευξη υψηλής ακρίβειας στην αναζήτηση και ανάκτηση νέων εννοιών χωρίς να απαιτεί την εκπαίδευση ειδικευμένων ταξινομητών, αλλά και η βελτίωση της απόδοσης των τελευταίων όταν αυτοί υπάρχουν. Ακόμα, αυξάνοντας τα εκφραστικά της εργαλεία, ώστε να περιλαμβάνουν, εκτός από τη σύζευξη, τη διάζευξη και την άρνηση, προτείνει μοντέλα τα οποία 1

22 2 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ παράγουν μαθηματικές εκφράσεις που αποδεικνύεται ότι παραμένουν άμεσα αποτιμήσιμες για ένα σύνολο μετρήσεων. 1.2 Οργάνωση της διατριβής Η διατριβή είναι οργανωμένη στα επόμενα οχτώ κεφάλαια. Το Κεφάλαιο 2 αποτελεί την επισκόπηση της ερευνητικής περιοχής, όπου και περιγράφεται το πρόβλημα του σημασιολογικού κενού καθώς επίσης και οι κυριότερες υπάρχουσες επιστημονικές προσεγγίσεις για την επίλυσή του. Παρουσιάζονται δύο πτυχές του προβλήματος που έχουν κινήσει ιδιαίτερο επιστημονικό ενδιαφέρον τα τελευταία χρόνια, η σημασιολογική ανάκτηση πολυμέσων και η υπολογιστική όραση. Οι προσπάθειες επίλυσης μπορούν να ταξινομηθούν χονδρικά σε αυτές που βασίζονται στη γνώση και που αναπτύσσονται παράλληλα με τις τεχνολογίες αναπαράστασης και συλλογιστικής του παγκόσμιου ιστού και σε εκείνες που χρησιμοποιούν πτυχές της μηχανικής μάθησης και που γνωρίζουν άνθηση λόγω της προόδου στη θεωρία των ταξινομητών. Επιπλέον, στο τέλος του κεφαλαίου οριοθετούνται οι στόχοι της διατριβής και παρουσιάζεται συνοπτικά η συμβολή της στην επιστήμη. Στο κεφάλαιο 3 παρουσιάζεται το μοντέλο γνώσης που προτείνεται από την εργασία. Πρόκειται περί ενός σχετικά απλού ιεραρχικού μοντέλου, το οποίο χρησιμοποιεί ασαφείς ισχυρισμούς που ισχύουν μέχρι ενός βαθμού. Ο συμπερασμός γίνεται χρησιμοποιώντας διαζευκτική λογική ενώ ορίζονται και τρεις μετρικές, η Βεβαιότητα, η Εγκυρότητα και η Πολυπλοκότητα οι οποίες χρησιμεύουν στην αξιολόγηση της σχεδίασης και του αποτελέσματος της σημασιολογικής αναζήτησης. Το τελευταίο μέρος του κεφαλαίου είναι αφιερωμένο στην εκπαίδευση του μοντέλου, παρουσιάζοντας τρόπους υπολογισμού των βαρών του, δηλαδή των βαθμών αλήθειας των ισχυρισμών της γνώσης για τα εκάστοτε υπό εξέταση δεδομένα. Το κεφάλαιο 4 αφιερώνεται στη βελτιστοποίηση πολυπλοκότητας της σημασιολογικής αναζήτησης. Εδώ παρουσιάζονται μετρικές μερικής αξιολόγησης των δεδομένων οι οποίες στη συνέχεια εφαρμόζονται για τη σχεδίαση της αναζήτησης με βάση είτε περιορισμούς στην πολυπλοκότητά της είτε απαιτήσεις για την εγκυρότητα του αποτελέσματος. Η σχεδίαση αντιστοιχεί σε πρόβλημα επιλογής βέλτιστου υποσυνόλου το οποίο ανάγεται σε πρόβλημα knapsack και παρουσιάζεται η λύση του σε ψευδο-πολυωνυμικό χρόνο με χρήση δυναμικού προγραμματισμού. Το κεφάλαιο κλείνει με την παρουσίαση παραδειγμάτων και πειραματικών αποτελεσμάτων σε τεχνητά και πραγματικά δεδομένα. Στο κεφάλαιο 5 προτείνεται μια τεχνική για την εφαρμογή της βελτιστοποίησης όταν προς αναζήτηση είναι περισσότερες από μία σημασιολογικές έννοιες

23 1.2. ΟΡΓΑΝΩΣΗ ΤΗΣ ΔΙΑΤΡΙΒΗΣ 3 ταυτόχρονα. Παρουσιάζονται δύο διαφορετικές στρατηγικές επί του θέματος της κατανομής των υπολογιστικών πόρων οι οποίες επιλύονται υποβέλτιστα σε σημαντικά μικρότερο χρόνο, και πάλι με χρήση δυναμικού προγραμματισμού καθώς επίσης και πειράματα που επιδεικνύουν τη σημπεριφορά τους. Το κεφάλαιο 6 είναι αφιερωμένο στην εφαρμογή των προηγούμενων τεχνικών στην ανάκτηση πολυμέσων. Η εκπαίδευση και η αξιολόγηση του συστήματος γίνεται βάσει της μετρικής της ανάκτησης πληροφοριών Average Precision. Οι είσοδοι πλέον του συστήματος είναι τα ασαφοποιημένα αποτελέσματα ειδικά εκπαιδευμένων ταξινομητών. Τα αποτελέσματα δείχνουν ότι με τη χρήση της προτεινόμενης μεθοδολογίας για τη βέλτιστη επιλογή υποσυνόλων των ταξινομητών μπορεί να επιτευχθεί έλεγχος της πολυπλοκότητας, διατηρώντας υψηλή την ποιότητα αποτελέσματος, ακόμα και για χαμηλά υπολογιστικά κατώφλια. Στο κεφάλαιο 7 παρουσιάζεται μια εφαρμογή της μεθοδολογίας στο πεδίο της αξιολόγησης ευφυών πρακτόρων λογισμικού. Ορίζονται κατάλληλες μετρικές και δημιουργείται μια ιεραρχική δομή για την οργάνωσή τους η οποία ασαφοποιείται μετά από εκπαίδευση, ενώ τα πειραματικά αποτελέσματα αποδεικνύουν τη χρησιμότητα της μεθόδου του κεφαλαίου 4 και σε αυτό το πεδίο. Στο κεφάλαιο 8 επανεξετάζεται το πρόβλημα της ανάκτησης πολυμέσων με χρήση ταξινομητών. Σε αυτό το σημείο επιχειρείται η αύξηση της εκφραστικότητας των ορισμών των οντοτήτων, εισάγοντας τους τελεστές της άρνησης και της τομής. Προτείνεται μια μεθοδολογία συμπερασμού, η οποία εκμεταλλεύεται υπάρχοντες αλγορίθμους τύπου tableau από το πεδίο των ασαφών περιγραφικών λογικών, ενώ αποδεικνύεται θεωρητικά ότι μπορεί να παράξει αναλυτικές εκφράσεις για το συμπερασμό, χρησιμοποιώντας αποκλειστικά τη γνώση του πεδίου. Αυτή η διαδικασία ανάγει το συμπερασμό σε απλή αποτίμηση ασαφών εκφράσεων, μειώνοντας έτσι δραστικά το υψηλό υπολογιστικό κόστος που απαιτείται στη γενική περίπτωση συμπερασμού στις ασαφείς Περιγραφικές Λογικές. Οι παραγόμενοι ορισμοί μπορούν να χρησιμοποιηθούν είτε για την επέκταση σημασιολογικών λεξικών με καινούριες έννοιες είτε για τη βελτίωση της αποτελεσματικότητας των ταξινομητών. Τα πειράματα στο τέλος του κεφαλαίου επιδεικνύουν την αποτελεσματικότητα της μεθόδου και στις δύο περιπτώσεις. Τέλος, το Κεφάλαιο 9 συνοψίζει τα αποτελέσματα της παρούσας ερευνητικής εργασίας και προτείνει μελλοντικές κατευθύνσεις της έρευνας σε αυτή την περιοχή.

24 4 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ

25 Κεφάλαιο 2 Επισκόπηση της ερευνητικής περιοχής If we knew what we were doing, it wouldn't be research. Albert Einstein 2.1 Το σημασιολογικό κενό Η πρόσφατη και συνεχιζόμενη εκθετική αύξηση της παραγωγής πολυμεσικού υλικού έχει κάνει επιτακτική την ανάγκη για αποτελεσματική αποθήκευση και δεικτοδότηση του υλικού αυτού, ώστε να καθίσταται εφικτή η εύκολη αναζήτηση και ανάκτησή του. Για να επιτευχθεί αυτό, είναι απαραίτητος ο σχολιασμός (annotation) του υλικού. Ο "χειροκίνητος" σχολιασμός από ανθρώπους είναι μια επίπονη χρονοβόρος και δαπανηρή διαδικασία, ειδικά για τόσο μεγάλους ρυθμούς παραγωγής, αλλά και αναποτελεσματική, καθώς οι άνθρωποι εισάγουν υποκειμενικότητα αλλά και ασυνέπεια στο αποτέλεσμα. Για τον αυτόματο σχολιασμό από την άλλη, έχει γίνει παραδεκτό από την επιστημονική κοινότητα ότι τη λύση δεν μπορούν να δώσουν οι κλασικές μέθοδοι αναγνώρισης προτύπων και νέες προσεγγίσεις είναι αναγκαίες. Η έλλειψη ρητής αντιστοιχίας, λοιπόν, ανάμεσα στα άμεσα μετρήσιμα, χαμηλού επιπέδου χαρακτηριστικά ενός πολυμεσικού εγγράφου και της υψηλού επιπέδου εννοιολογικής ερμηνείας που δίνουν οι άνθρωποι, είναι το πρόβλημα που αναφέρεται ως σημασιολογικό κενό (semantic gap) [1]. Αυτό το κενό καλείται να γεφυρώσει η περιοχή της σημασιολογικής ανάλυσης πολυμέσων, προσπαθώντας να ανιχνεύσει/εξάγει αυτόματα έννοιες (concepts) χρησιμοποιώ- 5

26 6 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ ντας χαμηλού επιπέδου χαρακτηριστικά. Προς την κατεύθυνση αυτή, οι κύριες προσεγγίσεις βασίζονται στη χρήση γνώσης ή τεχνικών μηχανικής μάθησης. Στην ενότητα 2.2 παρουσιάζονται βασικά στοιχεία της περιοχής της ανάκτησης πολυμέσων, ενώ στη συνέχεια (ενότητα 2.3) περιγράφονται συνοπτικά κάποια κύρια χαρακτηριστικά χαμηλού επιπέδου στα πολυμέσα και αναφέρονται μερικές ερευνητικές προσεγγίσεις για την εξαγωγή και αναπαράστασή τους. Οι επόμενες τέσσερις ενότητες είναι αφιερωμένες σε μεθόδους "γεφύρωσης" του σημασιολογικού κενού, παρέχοντας μια επισκόπηση των τεχνολογιών γνώσης και της μηχανικής μάθησης αλλά και της εφαρμογής τους στην ανάλυση πολυμέσων. Έτσι κάθε μια από τις εισαγωγικές ενότητες 2.4 (για τις τεχνολογίες γνώσης) και 2.6 (για τις τεχνολογίες μηχανικής μάθησης) ακολουθείται από την αντίστοιχη για την εφαρμογή τους στην ανάλυση πολυμέσων (ενότητες 2.5 και 2.7 αντίστοιχα). Τέλος, στην ενότητα 2.8 παρουσιάζεται επιγραμματικά η συμβολή της παρούσας διατριβής στην επιστημονική έρευνα. 2.2 Ανάκτηση πολυμέσων Η ανάγκη της αναζήτησης σε μεγάλες συλλογές δεδομένων και η εγγενής δυσκολία αυτού του εγχειρήματος στα πολυμέσα, λόγω της διαφορετικής τους φύσης (σημασιολογία, συνώνυμα, expansion, extraction) σε σχέση με τις παραδοσιακές βάσεις δεδομένων Μεταδεδομένα Για την οργάνωση των πολυμεσικών οντοτήτων χρησιμοποιούνται επιπλέον πληροφορίες, τα μεταδεδομένα (metadata), που χαρακτηρίζουν τα ίδια τα δεδομένα. Τα μεταδεδομένα χρησιμοποιούνται για την περιγραφή, τη δημιουργία ερωτημάτων (αναζήτηση), τη διαχείριση και τη συντήρηση των πολυμέσων, ενώ μπορεί να είναι [2]: Περιγραφικά δεδομένα (descriptive data). Τέτοιου τύπου μεταδεδομένα περιέχουν γενικές πληροφορίες για το πολυμεσικό έγγραφο, όπως ο τύπος, το όνομα του δημιουργού, η ημερομηνία, η μορφή αναπαράστασης κ.α. Το πρότυπο που έχει επικρατήσει για την αναπαράστασή τους είναι το Dublin Core [3], το οποίο παρέχει μεγάλες δυνατότητες περιγραφής. Αν για παράδειγμα αναζητούμε μια ταινία και γνωρίζουμε το όνομα του σκηνοθέτη και τη χρονιά παραγωγής τότε μπορούμε, χρησιμοποιώντας αυτόν τον τύπο μεταδεδομένων, να κατασκευάσουμε ένα ερώτημα σε SQL, όπου οι γνώσεις μας θα χρησιμοποιηθούν στο WHERE κομμάτι του ερωτήματος.

27 2.2. ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ 7 Σχολιασμοί (annotations). Πρόκειται για περιγραφές του περιεχομένου του πολυμεσικού εγγράφου. Συνήθως έχει τη μορφή κειμένου, που μπορεί να είναι είτε ελεύθερο είτε συγκεκριμένες λέξεις-κλειδιά. Η εισαγωγή σχολιασμών γίνεται "χειροκίνητα" (manually) και έτσι πρόκειται για χρονοβόρα διαδικασία. Ένα επιπλέον μειονέκτημά της έγκειται στην υποκειμενικότητα των περιγραφών, καθώς διαφορετικοί άνθρωποι περιγράφουν με διαφορετικούς τρόπους το ίδιο έγγραφο, ενώ ποικιλία μπορεί να υπάρξει ακόμα και στις περιγραφές ενός ατόμου. Χαρακτηριστικά (features). Εδώ αναφερόμαστε σε πληροφορία η οποία εξάγεται αυτόματα από το έγγραφο και τα χαρακτηριστικά μπορούν να χωριστούν σε δύο βασικές κατηγορίες: τα χαμηλού επιπέδου και τα υψηλού επιπέδου, τα οποία είναι σημασιολογικές έννοιες που είναι πιο κοντά στην ανθρώπινη αντίληψη. Η μετάβαση από τα πρώτα στα δεύτερα συνιστά, όπως αναφέρθηκε, τη γεφύρωση του Σημασιολογικού Κενού. Το σημαντικότερο πρότυπο για τη δομημένη αναπαράσταση των χαρακτηριστικών είναι το MPEG7 [4, 5]. Το MPEG7 αποτελείται από μια γλώσσα (Description Definition Language - DDL) που είναι επέκταση του XML schema [6] και χρησιμοποιείται για τον ορισμό των περιγραφέων και των σχέσεών τους, τους Περιγραφείς (Descriptors - Ds) που είναι σύνολα λέξεων που μπορούν να χρησιμοποιηθούν στην περιγραφή, τα Description Schemes (DSs) που δίνουν τη συντακτική δομή για το συνδυασμό Περιγραφέων, ένα δυαδικό format (Binary format - BiM) για την αποθήκευση καθώς επίσης κι από ένα σύνολο εργαλείων λογισμικού (System Tools) για την αποθήκευση, τη μετάδοση και το συγχρονισμό περιγραφής και περιεχομένου Αξιολόγηση της ανάκτησης Για τη μέτρηση της απόδοσης της ανάκτησης πολυμέσων χρησιμοποιούνται μετρικές δανεισμένες από την περιοχή της ανάκτησης πληροφοριών [7, 8]. Οι κυριότερες από αυτές είναι [9] το precision, το recall, το F measure και το Average Precision. Αν συμβολίσουμε με r τον αριθμό των σχετικών εγγράφων που ανακτήθηκαν, με n το συνολικό αριθμό των εγγράφων που ανακτήθηκαν και με R το συνολικό αριθμό των σχετικών εγγράφων που περιέχονται στη συλλογή πολυμέσων, τότε πιο συγκεκριμένα έχουμε: Precision Εκφράζει την "ακρίβεια" της ανάκτησης και υπολογίζεται ως: 0 precision = r n 1 (2.1)

28 8 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ Recall Εκφράζει την "πληρότητα" και δίνεται από τη σχέση: 0 recall = r R 1 (2.2) F measure Συνδυάζει το precision και το recall και είναι ο αρμονικός τους μέσος: F = 2 precision recall precision + recall (2.3) Στον υπολογισμό του F measure σύμφωνα με την εξίσωση (2.3), το precision και το recall λαμβάνονται υπόψη ισόποσα και γι αυτό ονομάζεται το αποτέλεσμα ονομάζεται και F 1 measure. Στην περίπτωση που επιθυμούμε να δώσουμε μεγαλύτερη βαρύτητα σε κάποια από τις δύο μετρικές, χρησιμοποιούμε βάρη, οπότε προκύπτουν μετρικές όπως τα F 0.5 και F 2 measures. Average Precision Συνδυάζει το precision και το recall, αλλά με έμφαση στην κατάταξη των εγγράφων, δηλαδή στην ανάκτηση περισσότερων σχετικών εγγράφων νωρίτερα. Έτσι, αν το precision κατά την ανάκτηση των k πρώτων σχετικών εγγράφων είναι precision(k), ενώ rel(k) μια δυαδική συνάρτηση που παίρνει τιμή 1 όταν το έγγραφο k είναι σχετικό και 0 αλλιώς, τότε: AP = r precision(k) rel(k) k=1 R (2.4) 2.3 Εξαγωγή χαρακτηριστικών χαμηλού επιπέδου Το πρώτο βήμα της προσπάθειας γεφύρωσης του σημασιολογικού κενού είναι η εξαγωγή χαρακτηριστικών χαμηλού επιπέδου από πολυμεσικά έγγραφα. Αυτά μπορούν να διαχωριστούν σε χαρακτηριστικά κειμένου, ηχητικά και οπτικά (εικόνας και video). Τα τελευταία χρόνια πάντως γίνεται προσπάθεια για συνεκμετάλλευση των ειδών αυτών ([10, 11]) Χαρακτηριστικά κειμένου Η εξαγωγή χαρακτηριστικών για την ανάλυση κειμένου είναι μια περιοχή έρευνας δεκαετιών. Μια τυπική προσέγγιση ακολουθεί την εξής διαδικασία [11]: Πρώτα γίνεται μια ανάλυση του κειμένου και διαχωρισμός του σε όρους (terms), αφού αφαιρεθούν τα σημεία στίξης. Στη συνέχεια απομακρύνονται, μέσω μιας κατάλληλης λίστας, όροι (stop words) που είναι υπερβολικά κοινοί και δεν μπορούν να χαρακτηρίσουν ένα κείμενο (βλ. π.χ. [12]). Έπειτα κατασκευάζεται μια λίστα με τα γραμματικά θέματα (stems) των λέξεων, αφαιρώ-

29 2.3. ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΧΑΜΗΛΟΥ ΕΠΙΠΕΔΟΥ 9 ντας τις καταλήξεις (βλ. π.χ. [13, 14]). Τέλος, το feature vector, που έχει μήκος ίσο με τον αριθμό των θεμάτων, προκύπτει είτε μετρώντας τη συχνότητα εμφάνισης κάθε όρου, είτε χρησιμοποιώντας πιο σύνθετες μετρικές όπως η μετρική tf-idf (term frequency - inverse document frequency). Το υπό ανάλυση κείμενο μπορεί να προέρχεται απευθείας από έγγραφο κειμένου αλλά και να έχει προκύψει και από ετικέτες, λεζάντες εικόνων ή και από αυτόματη αναγνώριση ομιλίας (Automatic Speech Recognition - ASR) [15]. Σε κάθε περίπτωση πάντως ο τρόπος αντιμετώπισης είναι κοινός Ηχητικά χαρακτηριστικά Η διαδικασία εξαγωγής ηχητικών χαρακτηριστικών ξεκινά με την εξαγωγή των Mel Frequency Cepstral Coefficients (MFCCs [16]) με χρήση overlapping παραθύρων με σταθερή ολίσθηση, ενώ εναλλακτικά μπορούν να υπολογιστούν τα χαρακτηριστικά του MPEG-7, που προτάθηκαν πιο πρόσφατα [17], (βλ. [18, 19] για μια συγκριτικές αναλύσεις). Στη συνέχεια θεωρώντας ότι τα προηγούμενα παρήχθησαν, για παράδειγμα, από μια σειρά από Hidden Markov Models και χρησιμοποιώντας κάποιο κριτήριο απόφασης (όπως το Bayes Information Criterion [20]), κατασκευάζεται ένα ιστόγραμμα μέσω ενός voting scheme, το οποίο αποτελεί και το feature vector Οπτικά χαρακτηριστικά Τα οπτικά χαρακτηριστικά αφορούν εκείνα που εξάγονται από εικόνες ή video. Κατηγοριοποιούμε μαζί αυτούς τους δύο τύπους πολυμέσων, καθώς η αντιμετώπιση του video τις περισσότερες περιπτώσεις εκφυλίζεται σε αυτήν της εικόνας, ενδεχομένως με κάποιες προσθήκες παραμέτρων κίνησης [21]. Στην ανάλυση εικόνας έχει γίνει εντυπωσιακή πρόοδος τα τελευταία χρόνια, η οποία εντοπίζεται τόσο στη διαδικασία εξαγωγής όσο και στην αποτελεσματική περιγραφή των χαρακτηριστικών, τα οποία μπορούν χονδρικά να κατηγοριοποιηθούν σε ολικά (global) και τοπικά (local). Ολικά χαρακτηριστικά Ως ολικά αναφέρονται τα χαρακτηριστικά που περιγράφουν την εικόνα σαν όλο, μετρώντας μια ιδιότητά της που μπορεί να αφορά το χρώμα, την υφή ή το σχήμα. Ενδεικτικά, μερικά χαρακτηριστικά που χρησιμοποιούνται ευρέως στην ανάλυση εικόνας είναι: χρώμα: ιστόγραμμα χρώματος, dominant color, ενώ πιο πρόσφατα και αποτελεσματικά είναι τα color moments [22].

30 10 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ Υφή: φίλτρα Gabor [23], αλλά και η πιο πρόσφατη θεωρία της στοχαστικής υφής [24] σύμφωνα με την οποία η κατανομή των παραγώγων της εικόνας προσεγγίζονται με μια κατανομή Weibull, η οποία εξαρτάται από δύο μόνο παραμέτρους. Σχήμα: γενικευμένος μετασχηματισμός Hough, ιστόγραμμα κατεύθυνσης ακμών (Edge Direction Histogram) [25]. Τοπικά χαρακτηριστικά Τα τοπικά χαρακτηριστικά εστιάζουν στην περιγραφή δομικών στοιχείων της εικόνας που μπορεί να είναι για παράδειγμα ακμές, γωνίες, σημεία κτλ. Η επιλογή των στοιχείων αυτών μπορεί να γίνει είτε χρησιμοποιώντας απλά ένα πλέγμα είτε με τη χρήση κατάλληλων ανιχνευτών (detectors) περιοχών ενδιαφέροντος. Στην περίπτωση των ακμών μπορούν να χρησιμοποιηθούν παραδοσιακοί, όπως sobel ή canny [26] ή πιο σύνθετοι ανιχνευτές όπως εκείνοι που, βασιζόμενοι στη θεωρία του scale-space [27], αντιμετωπίζουν την εικόνα σε πολλαπλές κλίμακες (βλ. π.χ. [28]). Αντίστοιχα, για την ανίχνευση σημείων έχουν επικρατήσει μέθοδοι που λειτουργούν επίσης στο πεδίο του scale-space όπως οι LoG (Laplacian of Gaussian) και Kadir-Brady [29] που αναζητά περιοχές με μεγάλη εντροπία στο πεδίο αυτό. Μια συγκριτική ανάλυση των ανιχνευτών ενδιαφέροντος μπορεί να βρει ο αναγνώστης στο [30]. Η παράμετρος, όμως, που είναι καθοριστική για την αξία των τοπικών χαρακτηριστικών είναι η μέθοδος περιγραφής τους. Τελευταία έχουν προταθεί διάφοροι εξαιρετικά αποτελεσματικοί περιγραφείς (descriptors), ο σημαντικότερος από τους οποίους είναι αναμφισβήτητα ο Scale Invariant Feature Transform (SIFT) που προτάθηκε από τον D. Lowe [31]. Ο SIFT, μετρώντας το πλάτος των παραγώγων της φωτεινότητας της περιοχής στο scale-space, κατασκευάζει ένα ιστόγραμμα, με βάση τις γωνίες των παραγώγων, καταλήγοντας σε έναν περιγραφέα 128 στοιχείων για κάθε σημείο ενδιαφέροντος. Ακολούθησαν αρκετές προσπάθειες βελτίωσης του SIFT, ανάμεσα στις οποίες αξίζει να αναφέρουμε την μέθοδο PCA-SIFT [32] που μειώνει τις διαστάσεις του περιγραφέα σε 20 και την SURF [33] που απαιτεί σημαντικά μειωμένο χρόνο για τον υπολογισμό του περιγραφέα, έχοντας ταυτόχρονα πολύ υψηλή ευρωστία. Στην εργασία [34] γίνεται μια συγκριτική παρουσίαση των διασημότερων περιγραφέων, αν και δεν καλύπτονται κάποιες πιο πρόσφατες μέθοδοι. Το επόμενο στάδιο, μετά την ανίχνευση και την περιγραφή των χαρακτηριστικών είναι η δημιουργία κατάλληλου feature vector. Η διαδικασία εδώ είναι παρόμοια με αυτή που αναφέρθηκε για τα ηχητικά χαρακτηριστικά, καθώς υιοθετείται μια μέθοδος ομαδοποίησης (clustering), που υπολογίζει και οριο-

31 2.3. ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΧΑΜΗΛΟΥ ΕΠΙΠΕΔΟΥ 11 θετεί έναν αριθμό ομάδων (clusters) από τους περιγραφείς. Στη συνέχεια κατασκευάζεται κάποιο 'λεξικό' με καταχωρήσεις που αντιστοιχούν στα κέντρα των ομάδων στο χώρο των περιγραφέων. Έτσι, καθένας από τους περιγραφείς αντιστοιχίζεται σε ένα από τα κέντρα αυτά, ανάλογα με την απόστασή του και προσθέτοντας με αυτόν τον τρόπο μια ψήφο στην αντίστοιχη ομάδα. Εναλλακτικά, κάθε περιγραφέας μπορεί να δώσει μη δυαδικές ψήφους σε όλες τις ομάδες, με ισχύ αντιστρόφως ανάλογης της απόστασης από τα κέντρα τους. Το τελικό feature vector είναι το ιστόγραμμα που προκύπτει από τα αποτελέσματα αυτής της ψηφοφορίας. Μετα-επεξεργασία Τα feature vectors που εξήχθησαν, όπως φωτεινότητα, χρωματικότητα, είδος υφής, ιστόγραμμα πάνω σε ομάδες (clusters) από περιγραφείς SIFT μπορούν να αντιστοιχηθούν σε χαμηλού επιπέδου ποιοτικά χαρακτηριστικά όπως 'λαμπερός', 'σκούρος', 'γρήγορος' κ.ο.κ. Μπορούν όμως επίσης να αντιστοιχηθούν κατευθείαν σε υψηλού επιπέδου επιπέδου έννοιες, όπως 'ηλιοβασίλεμα', 'πολιτική', 'αγώνας ταχύτητας' κ.ο.κ. Η πρώτη περίπτωση (αντιστοίχηση σε χαμηλού επιπέδου χαρακτηριστικά) αφορά κυρίως εφαρμογές υπολογιστικής όρασης (vision) ενώ η δεύτερη (απευθείας αντιστοίχηση σε υψηλού επιπέδου έννοιες) αφορά εφαρμογές ανάκτησης (retrieval). Σε κάθε περίπτωση, αν τα υπό εξέταση feature vectors ανήκουν σε σύνολο V R N (2.5) τότε η παραπάνω αντιστοίχηση ισοδυναμεί με την κατασκευή μιας συνάρτησης f : V I (2.6) όπου I R N (2.7) Ο συνηθέστερος τρόπος προσδιορισμού της συνάρτησης αυτής είναι μέσω της χρήσης ταξινομητών (classifiers) που κατασκευάζονται με τεχνικές μηχανικής μάθησης (βλ. ενότητα 2.6). Στη βιβλιογραφία, το πεδίο τιμών της f άλλοτε νοείται ως ένα διμελές (binary) σύνολο, άλλοτε του προσδίδεται η έννοια της πιθανότητας κι άλλοτε αποκτά τη φύση της τιμής μιας ασαφούς συνάρτησης συμμετοχής που ορίζεται μέσω της f στο V.

32 12 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ Fusion Κατά τη διαδικασία της ανίχνευσης εννοιών σε πολυμεσικά έγγραφα, μπορεί να αποδειχτεί πολύ χρήσιμος ο συνδυασμός διάφορων χαρακτηριστικών, που μπορεί μάλιστα να είναι και διαφορετικής φύσης (κειμένου, ηχητικά και οπτικά). Η διαδικασία κατά την οποία γίνεται συνδυασμός περισσότερων του ενός χαρακτηριστικών σε μια αναπαράσταση ονομάζεται fusion (μίξη) και σε γενικές γραμμές μπορεί να γίνει με τους εξής τρόπους: Early fusion: Στο early fusion συνδυάζονται διαφορετικά feature vectors (στην απλούστερη περίπτωση τα feature vectors παρατίθενται το ένα δίπλα στο άλλο) πριν από οποιαδήποτε διαδικασία ανίχνευσης, κατασκευάζοντας ένα νέο feature vector το οποίο τροφοδοτεί στη συνέχεια το σημασιολογικό ανιχνευτή. Late fusion Εδώ κάθε feature vector χρησιμοποιείται από διαφορετικό σημασιολογικό ανιχνευτή, που όλοι μαζί υπολογίζουν μια σειρά από βαθμούς ύπαρξης για την υπό ανίχνευση έννοια, οι οποίοι στη συνέχεια συναθροίζονται για να παράγουν έναν τελικό βαθμό ύπαρξης. Σε μια απλή περίπτωση η συνάθροιση γίνεται παίρνοντας για παράδειγμα το μέσο όρο ή το μέγιστο των επιμέρους βαθμών, ενώ πιο σύνθετες τεχνικές μπορεί να χρησιμοποιήσουν λογικούς κανόνες για τη συνάθροιση. Concept fusion Η τεχνική αυτή εφαρμόζεται, αφού συγκεντρωθεί μια συλλογή από αποτελέσματα ταξινομητών με βαθμούς ύπαρξης για διάφορες οντότητες και περιλαμβάνει την κατασκευή καινούριου ταξινομητή, για κάθε επιπλέον οντότητα, ο οποίος εκπαιδεύεται τροφοδοτούμενος με feature vector το οποίο κατασκευάζεται, όχι από χαμηλού επιπέδου χαρακτηριστικά, αλλά από τους βαθμούς ύπαρξης που προέκυψαν για τις υπόλοιπες οντότητες. Ενδεικτικά, στην εργασία [35] μπορεί να βρει κανείς μια ανάλυση για τις τεχνικές early και late fusion και τα αποτελέσματά τους χρησιμοποιώντας ταξινομητές με τεχνικές μηχανικής μάθησης, ενώ τα πλεονεκτήματα και οι προοπτικές του concept fusion περιγράφονται στο [36]. 2.4 Τεχνολογίες γνώσης Οι τεχνικές που εμπίπτουν σε αυτήν την κατηγορία χρησιμοποιούν καταγεγραμμένη γνώση και βασίζονται στους μηχανισμούς της μαθηματικής λογικής για να μετατρέψουν τις χαμηλού επιπέδου μετρήσεις σε υψηλού επιπέδου έν-

33 2.4. ΤΕΧΝΟΛΟΓΙΕΣ ΓΝΩΣΗΣ 13 νοιες. Τα βασικά συστατικά μιας μαθηματικής λογικής (τυπικής γλώσσας αναπαράστασης γνώσης) είναι: το αλφάβητο (alphabet), το σύνολο δηλαδή των συμβόλων. το συντακτικό (syntax) που καθορίζει τις επιτρεπτές ακολουθίες συμβόλων. η σημασιολογία (semantics) που καθορίζει τις μεταξύ τους σχέσεις και το αν και (ενίοτε) κατά πόσο αληθεύουν, βασισμένη σε μια ερμηνεία (interpretation) του κόσμου. ο μηχανισμός συλλογιστικής (reasoning mechanism/ proof theory) που περιλαμβάνει κανόνες σύμφωνα με τους οποίους μπορεί να παραχθεί νέα γνώση με βάση την ήδη υπάρχουσα. Όπως είναι φανερό, ο τελευταίος είναι εξαιρετικά σημαντικός καθώς επιτρέπει την εξαγωγή συμπερασμάτων με βάση τις εκάστοτε μετρήσεις. Παραδείγματα τέτοιων λογικών περιλαμβάνουν την προτασιακή [37] και την, πολύ μεγαλύτερης εκφραστικότητας, κατηγορηματική λογική [37], ή λογική πρώτης τάξης (First Order Logic). Καθώς αυτές έχουν αναπτυχθεί από μαθηματικούς έχουν μεγάλη αυστηρότητα και τυπικότητα στους ορισμούς τους. Αντίθετα, τα σημασιολογικά δίκτυα (semantic networks) [38] που αναπτύχθηκαν από ερευνητές του τομέα της τεχνητής νοημοσύνης, έχουν χάσει μέρος αυτών των χαρακτηριστικών. Συγκεκριμένα, αναπαριστούν τη γνώση χρησιμοποιώντας ένα γραφικό, οπτικό μοντέλο αλλά δεν έχουν καθορισμένη τυπική σημασιολογία, πράγμα που δημιουργεί αρκετά προβλήματα. Οι Περιγραφικές Λογικές (ΠΛ - Description Logics) [39] αναπτύχθηκαν για να αντιμετωπίσουν αυτό το ζήτημα, περιέχοντας τυπική σημασιολογία και, ενώ έχουν μεγαλύτερη εκφραστική δυνατότητα από την προτασιακή λογική, έχουν ταυτόχρονα πιο αποτελεσματικούς μηχανισμούς συλλογισμού από τη λογική πρώτης τάξης Περιγραφικές Λογικές Το αλφάβητο στις ΠΛ αποτελείται από ένα σύνολο ατομικών εννοιών (atomic concepts) C, ένα σύνολο ατομικών ρόλων (atomic roles) R και ένα σύνολο ατόμων (individuals) I. Σε αντιστοιχία με μια αντικειμενοστραφή γλώσσα προγραμματισμού θα λέγαμε ότι οι ατομικές έννοιες είναι οι κλάσεις (classes), οι ατομικοί ρόλοι είναι οι ιδιότητες (properties) και τα άτομα είναι τα αντικείμενα (objects).

34 14 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ C, D A (atomic concept) (universal concept) (bottom concept) A (negation) C D (intersection) R.CD (universal restriction) R. D (limited existential restriction) Πίνακας 2.1: Συνακτικός κανόνας για την κατασκευή εκφράσεων στην Περιγραφική Λογική AL. Η απλούστερη ΠΛ είναι η AL (Attributive Language) [40] η οποία δημιουργείται από τις ατομικές έννοιες και τους ρόλους, το σύνολο των κατασκευαστών {,,, } από τις περιγραφές και (top και bottom concept αντίστοιχα). Οι εκφράσεις κατασκευάζονται με το συντακτικό κανόνα του πίνακα 2.1. Επεκτείνοντας την AL με περισσότερους κατασκευαστές προκύπτουν πιο εκφραστικές γλώσσες. Οι κατασκευαστές αυτοί μπορεί να είναι η ένωση δύο εννοιών (C D) που συμβολίζεται με το γράμμα U, ο πλήρης υπαρξιακός περιορισμός ( R.C) που συμβολίζεται με το γράμμα N και η σύνθετη άρνηση ( C) που συμβολίζεται με το γράμμα C. Χρησιμοποιώντας ένα υποσύνολο αυτών, προκύπτει μια συγκεκριμένη γλώσσα/επέκταση της AL. Αξίζει να σημειωθεί ότι η πολυπλοκότητα της διαδικασίας συλλογισμού εξαρτάται σε πολύ μεγάλο βαθμό από τις εκφραστικές δυνατότητες που παρέχει η εκάστοτε γλώσσα. Ένα χαρακτηριστικό των ΠΛ είναι η διάκριση ανάμεσα στο σώμα ορολογίας (Terminology Box - TBox) και στο σώμα ισχυρισμών (Assertion Box - ABox). Σώμα ορολογίας (TBox) Στο TBox περιλαμβάνονται τα αξιώματα ορολογίας (terminological axioms) μέσω των οποίων μπορεί κανείς να περιγράψει περίπλοκες έννοιες αλλά και τις σχέσεις ανάμεσα σε αυτές. Πιο συγκεκριμένα, αν θεωρήσουμε τις έννοιες C και D, τότε τα αξιώματα ορολογίας έχουν τη μορφή C D (2.8) ή C D (2.9) Τα αξιώματα του πρώτου τύπου ονομάζονται αξιώματα υπαγωγής (subsumption axioms), ενώ αυτά του δεύτερου τύπου αξιώματα ισοδυναμίας (equivalence axioms).

35 2.4. ΤΕΧΝΟΛΟΓΙΕΣ ΓΝΩΣΗΣ 15 Μέσω των αξιωμάτων της ορολογίας ορίζονται ιεραρχικές δομές υπαγωγής και η σχέση η οποία διέπει τις έννοιες που συμμετέχουν σε αυτή την ιεραρχία, ονομάζεται isa. Για παράδειγμα η εξίσωση (2.8) δηλώνει ότι CisAD που διαισθητικά σημαίνει ότι ανιχνεύοντας κανείς την έννοια C έχει ανιχνεύσει και την έννοια D. Η εξίσωση (2.9) δηλώνει επιπλέον ότι DisAC, δηλαδή αν ανιχνευθεί οποιαδήποτε από τις δύο έννοιες, έχει ανιχνευθεί και η άλλη. Σώμα ισχυρισμών (ABox) Στο ABox περιλαμβάνονται οι ισχυρισμοί που περιγράφουν μια συγκεκριμένη κατάσταση σχέσεων σε κάποιο πεδίο εφαρμογής, με χρήση εννοιών και ρόλων. Δίνεται δηλαδή η δυνατότητα καθορισμού στιγμιοτύπων (individuals) στα οποία προσδίδονται ονόματα και περιγράφονται οι ιδιότητές τους. Χρησιμοποιώντας λοιπόν έννοιες C και ρόλους R, μπορεί κανείς να κατασκευάσει ισχυρισμούς των ακόλουθων ειδών: C(a) (2.10) και R(a, b) (2.11) Οι ισχυρισμοί του πρώτου είδους ονομάζονται ισχυρισμοί εννοιών (concept assertions) ενώ του δευτέρου ισχυρισμοί ρόλων (role assertions). Έτσι, ο ισχυρισμός της εξίσωσης (2.10) δηλώνει ότι το άτομο a είναι τύπου C ενώ η εξίσωση (2.11) ότι το άτομο a σχετίζεται με το άτομο b μέσω του ρόλου R. Μια βάση γνώσης στις ΠΛ, ορίζεται από το ζευγάρι ενός TBox κι ενός ABox ως K = (T, A). Ο διαχωρισμός σε TBox και ABox γίνεται για δύο λόγους: (i) είναι διαισθητικά σωστό να διαχωρίζεται η αντίληψή μας για τους όρους/έννοιες του κόσμου από τις συγκεκριμένες υλοποιήσεις/στιγμιότυπά τους στο κάθε πεδίο εφαρμογής και (ii) με αυτόν τον τρόπο περιγράφονται καλύτερα οι διαδικασίες εξαγωγής συμπεράσματος καθώς πολλές μηχανές συλλογισμού (reasoners) αντιμετωπίζουν ξεχωριστά το TBox και το ABox. Υπηρεσίες εξαγωγής συμπεράσματος Οι υπηρεσίες εξαγωγής συμπεράσματος (reasoning tasks) που εκτελούνται από ένα σύστημα ΠΛ μπορούν να χωριστούν σε υπηρεσίες εξαγωγής συμπεράσματος για το TBox, για το ABox, και τέλος, για το TBox και το ABox μαζί. Όσο αφορά το TBox, οι υπηρεσίες εξαγωγής συμπεράσματος περιλαμβάνουν τον έλεγχο ικανοποιησιμότητας (concept satisfiability), υπαγωγής (subsumption),

36 16 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ ισοδυναμίας (equivalence) και ξένων εννοιών (disjointness). Για τα σώματα ισχυρισμών (ABox), οι υπηρεσίες εξαγωγής συμπερασμών περιλαμβάνουν τον έλεγχο συνέπειας (consistency), ικανοποιησιμότητας (satisfiability) και συνεπαγωγής (entailment). Αποδεικνύεται [39] ότι όλες αυτές οι υπηρεσίες μπορούν να αναχθούν στο πρόβλημα ελέγχου ικανοποιησιμότητας του ABox, δεδομένου ότι η ΠΛ επιτρέπει τομή και άρνηση εννοιών. Παρόλα αυτά, πολλές ΠΛ δεν προσφέρουν την δυνατότητα άρνησης. Σε αυτές, το πρόβλημα της υπαγωγής εννοιών μπορεί συνήθως να επιλυθεί με τους αλγόριθμους διαρθρωτικής υπαγωγής (structural subsumption algorithms). Από την άλλη πλευρά, οι αλγόριθμοι αυτοί δεν μπορούν να χειριστούν ΠΛ με (σύνθετη) άρνηση και τομή. Για τέτοιες γλώσσες, ο αλγόριθμος πινάκων tableau algorithm, που παρουσιάστηκε στο [40] το 1991, έχει αποδειχθεί πολύ αποτελεσματικός. Ένας tableau αλγόριθμος ελέγχει την ικανοποιησιμότητα μιας έννοιας προσπαθώντας να κατασκευάσει μία πεπερασμένη ερμηνεία για την έννοια αυτή. Αυτό γίνεται διασπώντας συνεχώς σύνθετες έννοιες σε απλούστερες με βάση ένα σύνολο κανόνων. Για περισσότερα πάνω στους tableau αλγόριθμους ο αναγνώστης μπορεί να ανατρέξει για παράδειγμα στο [39] Ασαφείς Περιγραφικές Λογικές Οι Ασαφείς Περιγραφικές Λογικές (Fuzzy Description Logics) έχουν προταθεί για την περιγραφή δομημένης γνώσης που περιλαμβάνει αβέβαιες έννοιες και μπορούν (όπως και οι κλασικές ΠΛ) να χρησιμοποιηθούν για την κατασκευή γλωσσών περιγραφής. Αποτελούν επέκταση των κλασικών ΠΛ και χρησιμοποιούνται για να μοντελοποιήσουν οντότητες που δεν επιδέχονται σαφή ορισμό και κατά συνέπεια οι κλασικές ΠΛ δυσκολεύονται να τις περιγράψουν. Τέτοιες οντότητες προκύπτουν συχνά κατά την ανάλυση πολυμέσων, όπως για παράδειγμα "στρογγυλός" ή "σκοτεινός". Προς αυτή την κατεύθυνση έχουν γίνει αρκετές προσπάθειες με χρήση ασαφούς λογικής ([41, 42, 43, 44, 45]) αλλά και πιθανοτικών μοντέλων ([46, 47]), ενώ αρχίζουν να εμφανίζονται και συνδυασμένες προσεγγίσεις ([48]). Στην εργασία αυτή (συγκεκριμένα στην ενότητα 8.2.2) θα υιοθετήσουμε την προσέγγιση που προτάθηκε στα [43, 44, 45] για δύο λόγους: (α) παρέχει τη δυνατότητα εισαγωγής αβεβαιότητας στα αξιώματα επαγωγής και (β) καθιστά δυνατό το συμπερασμό για οποιαδήποτε οικογένεια ασαφών τελεστών (fuzzy t-norms και t-conorms). Σε αυτή τη θεώρηση, ένα ασαφές σώμα ορολογίας (fuzzy TBox) T είναι ένα πεπερασμένο σύνολο από ασαφή αξιώματα υπαγωγής εννοιών (fuzzy

37 2.5. ΤΕΧΝΟΛΟΓΙΕΣ ΓΝΩΣΗΣ ΣΤΑ ΠΟΛΥΜΕΣΑ 17 inclusion axioms) που σε αντιστοιχία με αυτά της εξ. (2.8), έχουν τη μορφή < C D, n > (2.12) όπου C, D είναι έννοιες και n [0, 1]. Άτυπα, η πρόταση (2.12) υποδεικνύει ότι όλα τα στιγμιότυπα της έννοιας C είναι στιγμιότυπα της έννοιας D σε βαθμό n. Ένα ασαφές σώμα ισχυρισμών (fuzzy ABox) A αποτελείται από ένα πεπερασμένο σύνολο από ασαφή αξιώματα ισχυρισμών εννοιών fuzzy concept assertion axioms της μορφής < a : C, n > (2.13) όπου a είναι ένα άτομο και C μία έννοια. Ένας τέτοιος ισχυρισμός, διαισθητικά δηλώνει πως το άτομο a ανήκει στην έννοια C σε βαθμό τουλάχιστον n. Το σημαντικότερο προτέρημα αυτής της ασαφούς ΠΛ και της σημασιολογίας της είναι ότι δίνει τη δυνατότητα να να θέτουμε ερωτήματα του τύπου : "Σε ποιό βαθμό, κατ' ελάχιστο, μπορεί το άτομο a να ανήκει στην έννοια C;" Τέτοια ερωτήματα ονομάζονται greatest lower bound satisfiability queries, ενώ ο αντίστοιχος tableau αλγόριθμος συμπερασμού παρουσιάζεται στα [40, 49]. Ο αλγόριθμος αυτός παράγει ένα σύστημα ανισοτήτων, μετά την επίλυσή του οποίου με αριθμητικές μεθόδους, καταλήγουμε στο επιθυμητό αποτέλεσμα. 2.5 Τεχνολογίες γνώσης στα πολυμέσα Οι τεχνολογίες γνώσης και ειδικότερα οι Περιγραφικές Λογικές έχουν προσελκύσει έντονα το ενδιαφέρον των ερευνητών στην ανάλυση εικόνας τα τελευταία χρόνια. Μια τυπική διαδικασία που ακολουθείται σε τέτοιες υλοποιήσεις αρχικά κωδικοποιεί τη γνώση για το συγκεκριμένο πεδίο σαν αξιώματα σε ένα TBox και, στη συνέχεια, η ανάλυση κάθε εικόνας περιλαμβάνει τα εξής βήματα: 1. Κατάτμηση (segmentation) της εικόνας. Στόχος της κατάτμησης είναι, ιδανικά, να διαχωριστεί η εικόνα σε σημασιολογικά διαφορετικές περιοχές, καθεμιά από τις οποίες θα αποτελεί και ένα άτομο (individual) στο ABox που θα σχηματιστεί. Πάντως, η ακριβής σημασιολογική κατάτμηση είναι εξαιρετικά δύσκολο να επιτευχθεί. 2. Εξαγωγή χαρακτηριστικών. Η εξαγωγή γίνεται ανά περιοχή και τα χαρακτηριστικά αναλύονται, ώστε να προκύψουν συμπεράσματα για τις επιμέρους περιοχές (π.χ. με χρήση ταξινομητών) αλλά και για τις μεταξύ τους χωρικές σχέσεις. Τα αποτελέσματα αυτού του βήματος δημιουργούν

38 18 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ ισχυρισμούς που αποτελούν το Abox της βάσης γνώσης. 3. Συμπερασμός. Με χρήση της πρότερης γνώσης (TBox) και των ισχυρισμών της συγκεκριμένης εικόνας (ABox) παράγεται η τελική ερμηνεία του περιεχομένου της εικόνας. Πέρα από κάποιες προσεγγίσεις που βασίζονται στις κλασικές ΠΛ (βλ. π.χ. [50, 51, 52]), η πλειονότητα των μεθοδολογιών που έχουν προταθεί στην πρόσφατη βιβλιογραφία περιλαμβάνει μηχανισμούς διαχείρισης της αβεβαιότητας, είτε ανεπτυγμένους κατά περίπτωση, πάνω στα αποτελέσματα των μηχανών συμπερασμού, (π.χ. [53, 54, 55]), είτε βασισμένους σε πιο στέρεες θεωρητικές δομές. Συγκεκριμένα, έχουν προταθεί μέθοδοι που βασίζονται στις πιθανοτικές επεκτάσεις των ΠΛ (π.χ. [56]), ενώ αρκετά πιο δημοφιλής είναι η χρήση ασαφών ΠΛ (π.χ. [57, 58, 59]). Βέβαια, εξαιτίας της διαφορετικής φύσης της αβεβαιότητας που η θεωρία των πιθανοτήτων και αυτή των ασαφών συνόλων διαχειρίζονται, αναμένονται με ενδιαφέρον μέθοδοι που θα συνδυάζουν και τις δύο προσεγγίσεις, βασιζόμενες σε πρόσφατες θεωρητικές προόδους, όπως η εργασία [48]. Μια άλλη πτυχή του θέματος προκύπτει από τον ισχυρισμό ότι η ερμηνεία των πολυμέσων δεν μπορεί να προκύψει σαν άμεσο, ντετερμινιστικό επακόλουθο της γνώσης και των αντίστοιχων μετρήσεων και κατά συνέπεια η συνεπαγωγική συλλογιστική (deductive reasoning) που χρησιμοποιούν οι ΠΛ είναι ανεπαρκής. Η βάση του ισχυρισμού είναι ότι τα οπτικοακουστικά δεδομένα έχουν μια εγγενή αβεβαιότητα και, σε πολλές περιπτώσεις, περισσότερες από μία ερμηνείες είναι πιθανές [60], όπως για παράδειγμα συμβαίνει συχνά με τις περιοχές που προκύπτουν από την κατάτμηση εικόνας. Σαν αποτέλεσμα, έχουν προταθεί μέθοδοι που βασίζονται στην απαγωγική (abductive) συλλογιστική, όπου επιχειρείται με βάση τη γνώση και τις μετρήσεις να βρεθούν υποθέσεις οι οποίες να εξηγούν, μαζί με τη γνώση, την προέλευση των μετρήσεων [61, 62]. Εκτενής ανασκόπηση της ερευνητικής περιοχής με συγκρίσεις και σχετικές αναφορές μπορεί να βρεθεί ενδεικτικά στα [63], [64] και [65]. 2.6 Τεχνολογίες μηχανικής μάθησης Μια κατηγοριοποιήση των τεχνικών μηχανικής μάθησης μπορεί να γίνει στα generative και τα discriminative μοντέλα μάθησης [11].

39 2.6. ΤΕΧΝΟΛΟΓΙΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Generative και discriminative μοντέλα μάθησης Generative Τα generative μοντέλα κατασκευάζονται για κάθε κλάση σαν μια συνάρτηση πυκνότητας δεσμευμένης πιθανότητας πάνω στο χώρο των χαρακτηριστικών (feature space). Δοσμένου ενός συνόλου κλάσεων και παρατηρήσεων (μετρήσεων) πάνω στα χαρακτηριστικά, επιλέγεται η κλάση ως εκείνη η πυκνότητα πιθανότητας που έχει τη μεγαλύτερη πιθανοφάνεια πάνω στις παρατηρήσεις. Στην πράξη, επειδή οι πραγματικές συναρτήσεις πυκνότητας πιθανότητας δεν είναι διαθέσιμες, γίνονται παραδοχές ως προς τη μορφή τους και οι παράμετροί τους υπολογίζονται με χρήση εκπαίδευσης. Δύο ευρέως χρησιμοποιούμενες περιπτώσεις τέτοιων παραδοχών είναι τα Gaussian Mixture Models (GMMs) και τα Hidden Markov Models (HMMs). Ένα GMM [66] ορίζει μια συνάρτηση πυκνότητας πιθανότητας ενός n-διάστατου διανύσματος παρατηρήσεων x, δοσμένου ενός μοντέλου M. Από την άλλη, ένα HMM [67] επιτρέπει την μοντελοποίηση μιας σειράς παρατηρήσεων x 1, x 2,..., x n ως παράγωγα μιας κρυφής ακολουθίας καταστάσεων s 1, s 2,..., s n ξεκινώντας από μια κατάσταση s 0, δοσμένης της πιθανότητας του μοντέλου να παράγει τις παρατηρήσεις αυτές. Η εκτίμηση μέγιστης πιθανοφάνειας και στις δύο περιπτώσεις γίνεται συνήθως χρησιμοποιώντας τον αλγόριθμο EM. Discriminative Αντίθετα με τις generative μεθόδους, οι discriminative προσεγγίσεις δεν προσπαθούν να μοντελοποιήσουν τις συναρτήσεις πυκνότητας πιθανότητας που "γεννούν" τις παρατηρήσεις, αλλά χρησιμοποιούν απευθείας τις posterior πιθανότητες. Αυτό αντιστοιχεί στη δημιουργία ταξινομητών που δέχονται ως είσοδο ένα feature vector και επιστρέφουν την πιθανότητα (ή κάποιο αντίστοιχο μέγεθος μέτρησης) του ενδεχομένου η είσοδος να ανήκει στην εκάστοτε κλάση. Τέτοιες μέθοδοι, καθώς δε χρειάζεται να εκτιμήσουν τις παραμέτρους των δεσμευμένων συναρτήσεων πιθανότητας για κάθε μοντέλο ταξινομητή, μπορούν να εκπαιδευτούν χρησιμοποιώντας αρκετά μικρότερο αριθμό θετικών δειγμάτων για κάθε κλάση. Διαδεδομένες τέτοιου τύπου τεχνικές είναι, ανάμεσα σε άλλες, η Linear Discriminant Analysis (LDA) [68], το boosting [69] και τα Support Vector Machines (SVM). Λόγω της εκτεταμένης και αποτελεσματικής χρήσης των τελευταίων στην ανάλυση πολυμέσων, αλλά και της χρήσης τους από την παρούσα εργασία στα κεφάλαια 6 και 8, τους αφιερώνεται μια συνοπτική περιγραφή στην επόμενη παράγραφo.

40 20 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ Support Vector Machines Κατά την κατασκευή ενός ταξινομητή SVM [70, 71], στόχος είναι, χρησιμοποιώντας μόνο τα δεδομένα εκπαίδευσης, να υπολογιστεί ένα υπερ-επίπεδο διαχωρισμού που θα ελαχιστοποιεί το σφάλμα λάθος ταξινόμησης ενώ, ταυτόχρονα, θα παρέχει καλές ιδιότητες γενίκευσης σε άγνωστα δεδομένα. Παρά το ότι οι SVM είναι γραμμικοί ταξινομητές, μπορούν να χειριστούν μη γραμμικά-διαχωρίσιμα δεδομένα χρησιμοποιώντας το λεγόμενο kernel trick, κατά το οποίο ανάγονται τα δεδομένα μέσω ενός πυρήνα (kernel) σε ένα χώρο μεγαλύτερης διάστασης, όπου πλέον είναι γραμμικά-διαχωρίσιμα [72]. Πιο συγκεκριμένα, αν θεωρήσουμε ένα σύνολο δεδομένων D = {(x i, y i )} n i=1 (2.14) όπου x i R p τα feature vectors και y i { 1, 1} οι αντίστοιχες ετικέτες. Σκοπός είναι η κατασκευή μιας συνάρτησης f : R p { 1, 1} τέτοιας ώστε y = f(x). Αυτή είναι η συνάρτηση εκτίμησης και έχει την ακόλουθη μορφή ( n ) f(x) = sgn α i y i K(x i, x) + b (2.15) i=1 όπου sgn η συνάρτηση προσήμου ενώ K(x i, x) είναι η συνάρτηση του πυρήνα. Οι μεταβλητές α i είναι ένα σύνολο παραμέτρων και υπολογίζονται κατά τη διαδικασία της εκπαίδευσης. Ο υπολογισμός αυτός ανάγεται στην επίλυση ενός προβλήματος τετραγωνικού προγραμματισμού κατά το οποίο επιχειρείται η μεγιστοποίηση της ποσότητας L(α) = n α i 1 α i α j y i y j K(x i, x j ) (2.16) 2 i=1 i,j υπό τους περιορισμούς και n α i y i = 0 (2.17) i=1 0 α i C (2.18) όπου C μια σταθερά που εκφράζει το κόστος του λάθους κατηγοριοποίησης. Όσον αφορά την επιλογή του πυρήνα K(x i, x), οι συνηθέστερες επιλογές προκύπτουν από τις οικογένειες που περιγράφονται στον πίνακα 2.2. Λόγω της φύσης του προβλήματος βελτιστοποίησης των σχέσεων (2.16) (2.17) και (2.18), μόνο ένα υποσύνολο από τα α i έχει μη μηδενικές τιμές, ενώ

41 2.7. ΤΕΧΝΟΛΟΓΙΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΣΤΑ ΠΟΛΥΜΕΣΑ 21 Γραμμική: K(x i, x j ) = x it x j Πολυωνυμική: K(x i, x j ) = (γ x it x j + r) d Radial Basis Function (RBF): K(x i, x j ) = exp( γ x i x j 2 ), με γ > 0 Gaussian RBF: K(x i, x j ) = exp i x j 2 2σ 2 ) Σιγμοειδής: K(x i, x j ) = tanh(γ x it x j + r) Πίνακας 2.2: Συνηθέστερες συναρτήσεις πυρήνα SVM. τα σημεία x i που αντιστοιχούν σε αυτά, τα λεγόμενα support vectors, είναι τα μόνα σημεία των δεδομένων τα οποία συνεισφέρουν στον υπολογισμό της βέλτιστης επιφάνειας διαχωρισμού. 2.7 Τεχνολογίες μηχανικής μάθησης στα πολυμέσα Οι τεχνικές μηχανικής μάθησης έχουν βρει ευρεία εφαρμογή στην ανάλυση πολυμέσων. Για παράδειγμα, για την κατηγοριοποίηση κειμένου, στην εργασία [73] χρησιμοποιούνται ταξινομητές SVM ενώ στο [74] γίνεται σύγκριση διάφορων μεθόδων αυτόματης κατηγοριοποίησης μέσω μηχανικής μάθησης από παραδείγματα εκπαίδευσης. Επίσης, τεχνικές SVM έχουν χρησιμοποιηθεί και στην ανάλυση ηχητικών δεδομένων (π.χ. στο [75], όπου παρουσιάζεται μια εφαρμογή για την κατηγοριοποίηση και την ανάκτηση μουσικής), ενώ στο [73] υπάρχει μια πιο εκτενής μελέτη της περιοχής. Όσο αφορά τα οπτικά δεδομένα, η χρήση ταξινομητών για την ανάλυσή τους είναι τα τελευταία χρόνια μια πολύ ενεργή ερευνητική περιοχή, η οποία ασχολείται με πτυχές όπως: η επιλογή των κατάλληλων features (βλ. π.χ. [76, 77]). η ίδια η διαδικασία της ταξινόμησης (βλ. π.χ. [78, 79, 80]). ο βέλτιστος συνδυασμός στο επίπεδο των features (early fusion) των εννοιών (late fusion) (βλ. π.χ.[35, 81],) και στο επίπεδο των αποτελεσμάτων των ταξινομητών (concept fusion) (βλ. π.χ. [82, 83, 84]). Επίσης, έχουν προταθεί προσεγγίσεις που εκμεταλλεύονται τοπικά χαρακτηριστικά, όπως οι μέθοδοι τύπου bag-of-words [85] και οι μέθοδοι τύπου part-based [86], με τις τελευταίες να εκμεταλλεύονται επιπλέον και τις χωρικές αλληλοσυσχετίσεις των χαρακτηριστικών. Πεδίο μελέτης αποτελεί και ο τρόπος δειγματοληψίας και επιλογής των χαρακτηριστικών αυτών, όπου, τελευταία, οι μέθοδοι που χρησιμοποιούν ένα απλό αλλά αρκετά πυκνό πλέγμα φαίνεται να υπερτερούν έναντι των εξειδικευμένων ανιχνευτών [87].

42 22 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ Πρόσφατα, η χρήση μεθόδων με τοπικά χαρακτηριστικά έχει δώσει πολύ καλά αποτελέσματα [88]. Το εμπόδιο στη χρήση τους είναι κυρίως η υπολογιστική τους πολυπλοκότητα, η οποία υπάγεται από τη μεγάλη διάσταση των feature vectors που χρησιμοποιούν, λόγω των πολλαπλών features που καταγράφουν ανά εικόνα, αλλά και από την πολυπλοκότητα εξαγωγής των τοπικών χαρακτηριστικών σε σχέση με τα ολικά. Πάντως, με τις πρόσφατες εξελίξεις στο παράλληλο υλικό και λογισμικό (πολυπύρηνοι επεξεργαστές, τεχνολογίες GPU), η τεχνολογία φαίνεται να φτάνει πλέον σε αρκετά ώριμο στάδιο για να υποστηρίξει μεθόδους με τοπικά χαρακτηριστικά σε αρκετά μεγάλες συλλογές οντοτήτων [89, 90]. Στη συστηματοποίηση της έρευνας έχει βοηθήσει πολύ η καθιέρωση πλαισίων αξιολόγησης [91, 92, 93, 94]. Από αυτές τις συγκριτικές δοκιμές προκύπτει ότι η απόδοση των προτεινόμενων μεθόδων συνεχώς βελτιώνεται [95]. Ένα επιπλέον αποτέλεσμα αυτών των πλαισίων, είναι η δημιουργία μεγάλων συλλογών από σχολιασμένα (annotated) δεδομένα και μάλιστα για σχετικά μεγάλους αριθμούς εννοιών [96]. Εκτενής βιβλιογραφική αναφορά και κριτική μπορεί ενδεικτικά να βρεθεί στο [97]. 2.8 Τοποθέτηση και συμβολή της εργασίας Στη βιβλιογραφία των μεθόδων γνώσης, η κυρίαρχη αντιμετώπιση της ανάλυσης πολυμέσων είναι μέσω της κατάτμησης, που μπορεί να είναι χωρική (spatial segmentation) [58], χωρο-χρονική (spatio-temporal segmentation) [56] κατά ομιλητή στον ήχο (speaker segmentation) [98] κ.α. Αυτή η διαδικασία πετυχαίνει την κατάτμηση του εγγράφου στα δομικά του στοιχεία και οδηγεί, μέσω κατάλληλων μετρήσεων, στην αναπαράσταση των χαρακτηριστικών τους και των μεταξύ τους (χρονικών, χωρικών, τοπολογικών κ.α.) σχέσεων μέσω της δημιουργίας πολλαπλών ισχυρισμών εννοιών και ρόλων αντίστοιχα. Ο συμπερασμός γίνεται αφού εισαχθούν στο ABox οι μετρήσεις για το υπό εξέταση έγγραφο και λαμβάνοντας φυσικά υπόψη τα αξιώματα του TBox. Η έρευνα στην περιοχή αυτή, εκμεταλλευόμενη τις συνεχείς προόδους στο θεωρητικό κομμάτι του συμπερασμού [99, 100], προσδίδει πολύ μεγάλες δυνατότητες εκφραστικότητας στους αξιωματικούς ορισμούς των υπό αναζήτηση εννοιών [41, 101]. Επιπλέον, η αυστηρή μαθηματική τους θεμελίωση επιτρέπει στα αποτελέσματα να έχουν εγγυημένη λογική ορθότητα (soundness) και πληρότητα (completeness). Ακόμα, σημαντικό χαρακτηριστικό των (συνεπαγωγικών) ΠΛ είναι η διατήρηση της μονοτονικότητας (monotonicity) στο συλλογισμό, η οποία εγγυάται ότι τα αποτελέσματα δε θα αμφισβητηθούν από τυχόν

43 2.8. ΤΟΠΟΘΕΤΗΣΗ ΚΑΙ ΣΥΜΒΟΛΗ ΤΗΣ ΕΡΓΑΣΙΑΣ 23 καινούριες μετρήσεις. Τέλος, οι οντολογίες, αποτελώντας μια αναπαράσταση μιας κοινά αποδεκτής γνώσης για κάποιο πεδίο, μπορούν να προσφέρουν τυπική σημασιολογία, άμεσα επεξεργάσιμη από υπολογιστές, αναιρώντας έτσι τις ασυμβατότητες στο σχολιασμό την ανάλυση και την επεξεργασία των πολυμέσων που συχνά επιφέρουν οι ad-hoc προσεγγίσεις. Παρά τα αναντίρρητα πλεονεκτήματα της χρήσης οντολογιών στην ανάλυση πολυμέσων, αυτή εκφέρει και κάποια μειονεκτήματα: Ο συμπερασμός γίνεται στο ABox, με συνέπεια να πρέπει να έχουν εξαχθεί πρώτα οι μετρήσεις στα δομικά στοιχεία του εγγράφου. Η μεγάλη εκφραστικότητα καθιστά το συμπερασμό μια χρονοβόρο διαδικασία, που μπορεί να επιβαρύνει συστήματα όπου βασική παράμετρος είναι ο χρόνος. Τα αποτελέσματα των μεθόδων κατάτμησης είναι πολύ συχνά αμφίσημα [65] και η σημασιολογική τους ακρίβεια δεν είναι σε καμιά περίπτωση εγγυημένη. Από την άλλη πλευρά, στη συνήθη χρήση των μεθόδων μηχανικής μάθησης, το πολυμεσικό έγγραφο αντιμετωπίζεται ως "όλο" και οι έννοιες αναζητούνται χωρίς κάποιας μορφής κατάτμηση. Η προσέγγιση αυτή στηρίζεται στην εξαγωγή των feature vectors και στην εκπαίδευση κατάλληλων ταξινομητών που αντιστοιχίζουν τα μετρούμενα feature vectors με τις προς αναζήτηση έννοιες. Η αντιστοίχηση αυτή είναι "εμπειριστική", με την έννοια ότι δε βασίζεται σε κάποια κοινά αποδεκτή λογική διαδικασία αποδόμησης/συμπερασμού. Η προσέγγιση αυτή των τεχνικών μηχανικής μάθησης έχει αποδειχθεί πολύ επιτυχής στα πλαίσια αξιολόγησης και έχει κερδίσει σε δημοφιλία. Ωστόσο, απαιτεί εγγενώς την εξαιρετικά υπολογιστικά πολύπλοκη διαδικασία της εκπαίδευσης νέων ταξινομητών για κάθε έννοια προς αναζήτηση. Οι πρόσφατες μέθοδοι που συνδυάζουν αποτελέσματα των ήδη υπάρχοντων ταξινομητών με τεχνικές concept fusion (βλ. ενότητα 2.3.4) προσπαθούν να αντιμετωπίσουν αυτό το ζήτημα. Μάλιστα, μέσα από μελέτες και με χρήση extrapolation φαίνεται ότι οι συνδυασμοί των αποτελεσμάτων μερικών εκατοντάδων ταξινομητών μπορούν να οδηγήσουν σε πολύ καλή ακρίβεια στην ανάκτηση [102, 103]. Ωστόσο, ένα ακόμα ζήτημα που προκύπτει είναι η δυνητική προσαρμοστικότητα των μεθόδων συνδυασμού ταξινομητών σε περιβάλλοντα με περιορισμένους υπολογιστικούς πόρους, όπου η πολυπλοκότητα της εκτίμησης αυξάνει, ανάλογα με τον αριθμό των χρησιμοποιούμενων οντοτήτων. Τέλος, ένα πρόβλημα για τις μεθόδους μηχανικής μάθησης είναι επίσης η "εξειδίκευση" κάθε ταξινομητή σε συγκεκριμένο πεδίο εφαρμογής (σε αυτό στο

44 24 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ οποίο εκπαιδεύτηκε), κάτι που οδηγεί σε αποτυχία όταν δοκιμαστούν σε διαφορετικά πεδία [104]. Προσπάθειες προς την επίλυση αυτού του προβλήματος έχουν εμφανιστεί πρόσφατα [105, 106], βασιζόμενες σε πιθανοτικές μεθόδους μάθησης. Η παρούσα διατριβή επιχειρεί να αντιμετωπίσει κάποια από τα παραπάνω ζητήματα προτείνοντας τη χρήση ενός ιεραρχικού πολυεπίπεδου μοντέλου ασαφούς γνώσης. Οι οντότητες διακρίνονται σε (α) άμεσα μετρήσιμες (συντακτικές) και (β) υψηλού επιπέδου (σημασιολογικές), ενώ ορίζονται κατάλληλες μετρικές για την ποσοτικοποίηση της διαδικασίας της σημασιολογικής αναζήτησης και των αποτελεσμάτων της. Επιπλέον, δίνονται κατευθύνσεις για το συμπερασμό πάνω στη γνώση ανάλογα με τις απαιτήσεις του προβλήματος. Επίσης, προτείνονται μέθοδοι για τον υπολογισμό των ασαφών βαρών του μοντέλου (βλ. κεφάλαιο 3). Βασισμένη στα παραπάνω, η μεθοδολογία της διατριβής: Συνδυάζει τα αποτελέσματα αξιόπιστων πηγών μετρήσεων (π.χ. ταξινομητών) χρησιμοποιώντας ένα μοντέλο γνώσης που δεν απαιτεί πολύπλοκους υπολογισμούς κατά το συμπερασμό, καθώς οι βαθμοί αλήθειας των υπό αναζήτηση εννοιών είναι αποτιμήσιμοι μέσω κλειστών μαθηματικών εκφράσεων που προκύπτουν άμεσα από τα αξιώματα της γνώσης. Η διαδικασία αυτή εισάγεται στο κεφάλαιο 3 και δοκιμάζεται στα κεφάλαια 6 και 7. Δίνει τη δυνατότητα της προσαρμογής της σημασιολογικής αναζήτησης στους εκάστοτε υπολογιστικούς περιορισμούς, μέσω της βέλτιστης επιλογής υποσυνόλων των χρησιμοποιούμενων πηγών μέτρησης. Η επιλογή αυτή μάλιστα επιτυγχάνεται με δυναμικό προγραμματισμό έτσι ώστε και αυτή η ίδια να εισάγει χαμηλή υπολογιστική πολυπλοκότητα. Η διαδικασία αυτή περιγράφεται θεωρητικά στο κεφάλαιο 4 και χρησιμοποιείται πρακτικά στα κεφάλαια 6 και 7. Περιλαμβάνει μηχανισμούς διαμοιρασμού των υπολογιστικών πόρων κατά την περίπτωση της ταυτόχρονης αναζήτησης πολλαπλών εννοιών (βλ. κεφάλαιο 5). Πετυχαίνει καλή ακρίβεια στην αναζήτηση και ανάκτηση νέων εννοιών, χωρίς να απαιτεί την εκπαίδευση αντίστοιχων ταξινομητών. Επίσης, βελτιώνει την επίδοση υπαρχόντων ταξινομητών, ενώ μπορεί να προσαρμοστεί στο εκάστοτε πεδίο, μέσω της διαδικασίας επανα-υπολογισμού των βαρών (βλ. κεφάλαιο 6). Επιπρόσθετα, αποδεικνύεται ότι ακόμα και στην υιοθέτηση επιπλέον λογικών τελεστών (άρνηση, σύζευξη) πέρα από τη διάζευξη, η εκτέλεση ασαφούς

45 2.8. ΤΟΠΟΘΕΤΗΣΗ ΚΑΙ ΣΥΜΒΟΛΗ ΤΗΣ ΕΡΓΑΣΙΑΣ 25 tableau αλγορίθμου στο σύνολο των μετρήσεων του ABox έχει αποτέλεσμα ισοδύναμο με την αποτίμηση κλειστών αριθμητικών εκφράσεων που μπορούν να προκύψουν πριν τις μετρήσεις, μειώνοντας έτσι δραστικά τον απαιτούμενο χρόνο συμπερασμού. Η σχετική θεωρητική ανάλυση και τα αντίστοιχα πειράματα περιλαμβάνονται στο κεφάλαιο 8.

46 26 ΚΕΦΑΛΑΙΟ 2. ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ

47 Κεφάλαιο 3 Μοντελοποίηση Those are my principles, and if you don't like them... well, I have others. Groucho Marx Τα τελευταία χρόνια, προσπάθειες τυποποίησης σαν το MPEG-7 [4] παρέχουν μέσα για την περιγραφή του περιεχομένου των πολυμέσων, ενώ αλγόριθμοι και τεχνικές παρουσιάζονται για την αυτόματη εξαγωγή σημασιολογικής πληροφορίας από πολυμεσικά δεδομένα (βλ.για παράδειγμα [107] και [108]). Με την παρούσα προσέγγιση επιχειρούμε να μοντελοποιήσουμε την εγγενή αβεβαιότητα του αποτελέσματος της σημασιολογικής αναζήτησης αλλά και να καταστήσουμε ελέγξιμη παράμετρο ενός συστήματος εξαγωγής σημασιολογίας την πολυπλοκότητά του. Για το σκοπό αυτό (i) οργανώνουμε τη γνώση σε μια ιεραρχία δομημένη με τα κατάλληλα υπολογισμένους βαθμούς υπαγωγής (ii) χρησιμοποιούμε ασαφή λογική και τους τελεστές της για το συμπερασμό και (iii) ορίζουμε κατάλληλες μετρικές αξιολόγησης της ποιότητας της αναζήτησης, H αναγνώριση μιας σημασιολογικής οντότητας (που μπορεί να είναι ένα αντικείμενο, ένα γεγονός κτλ.) είναι ισοδύναμη με τον υπολογισμό του βαθμού στον οποίο η οντότητα αυτή υπάρχει σε ένα πολυμεσικό έγγραφο. Χαρακτηριστικά (features) χαμηλότερου επιπέδου χρησιμοποιούνται για τον υπολογισμό αυτού του βαθμού, ενώ βασιζόμενοι στην υπόθεση ότι κάποια χαρακτηριστικά είναι κατά περίπτωση περισσότερο σημαντικά από άλλα, προτείνουμε κάποιες μετρικές που μας επιτρέπουν να εκτιμήσουμε την εγκυρότητα της διαδικασίας αναγνώρισης, αν χρησιμοποιηθεί μόνο ένα υποσύνολο των διαθέσιμων χαρακτηριστικών. 27

48 28 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ 3.1 Αναπαράσταση γνώσης 'Οπως αναφέρθηκε προηγουμένως, η σημασιολογική ανάλυση βασίζεται στον ορισμό εννοιών υψηλού επιπέδου ως συνάρτηση συντακτικών χαρακτηριστικών του εγγράφου. Τέτοια χαρακτηριστικά είναι ποσότητες οι οποίες μπορούν να υπολογιστούν άμεσα από τις μηχανές και μπορεί κανείς να τις παρομοιάσει με το αλφάβητο που χρησιμοποιείται για τον ορισμό σημασιολογικών εννοιών με τον ίδιο τρόπο που τα γράμματα σχηματίζουν λέξεις. Το σύνολο των ορισμών αυτών αποτελούν αυτό που ονομάζουμε Ασαφή Σημασιολογική Εγκυκλοπαίδεια, τα δομικά στοιχεία της οποίας είναι οι Συντακτικές και οι Σημασιολογικές Οντότητες. H σημασιολογική εγκυκλοπαίδεια (ιεραρχία) λειτουργεί σαν βάση γνώσης παρέχοντας ορισμούς εννοιών υψηλού επιπέδου βασισμένους σε χαρακτηριστικά χαμηλού επιπέδου Συντακτικές οντότητες Σαν Συντακτικό Χαρακτηριστικό t ορίζουμε κάθε μετρήσιμη ποσότητα (όπως η φωτεινότητα, η συχνότητα, η ταχύτητα κτλ.) που μπορεί να ανακτηθεί εφαρμόζοντας κάποιον κατάλληλο αλγόριθμο τ στο διαθέσιμο data set (μια σκηνή, μια εικόνα ή ένα σήμα). Για απλότητα θεωρούμε συντακτικά χαρακτηριστικά με πραγματικές τιμές, είτε μονοδιάστατες (π.χ. φωτεινότητα στο χώρο R) είτε πολυδιάστατες (π.χ. χρώμα στο χώρο R 3 ). Μια Συντακτική Οντότητα ή ιδιότητα y i (t) [0, 1] είναι ένα ασαφές σύνολο πάνω στο Συντακτικό Χαρακτηριστικό t. Για παράδειγμα η ιδιότητα "πολύ φωτεινός", ορίζεται πάνω στο χαρακτηριστικό "φωτεινότητα" και η ιδιότητα "κόκκινο" ορίζεται πάνω στο χαρακτηριστικό "χρώμα". Αναθέτουμε μια ετικέτα Y i σε μια Συντακτική Οντότητα y i (t) και θεωρούμε ένα πεπερασμένο σύνολο Y = {Y i } τέτοιων ετικετών, που αντιστοιχούν σε όλη τη συλλογή Συντακτικών Οντοτήτων που μας ενδιαφέρουν. Γενικά, αν t τ είναι το αποτέλεσμα του αλγορίθμου τ ο οποίος μετράει το t, η τιμή της συνάρτησης συμμετοχής µ Yi y i (t τ ) αντιστοιχεί στο βαθμό κατά τον οποίο το συγκεκριμένο πολυμεσικό έγγραφο περιέχει την ιδιότητα Y i. Η χρήση ασαφών συνόλων σε αυτό το σημείο δικαιολογείται από την εγγενή αβεβαιότητα η οποία εμφανίζεται στους ορισμούς εννοιών υψηλότερου επιπέδου. Για παράδειγμα η πρόταση "Η θάλασσα είναι μπλε" είναι ισοδύναμη με "Η οντότητα θάλασσα έχει χρώμα (0, 0, 255) σε RBG format". Σε αυτήν την περίπτωση, η χρήση σαφούς (crisp) λογικής θα έκανε την πρόταση αυτή άχρηστη, καθώς στις περισσότερες εικόνες η θάλασσα έχει χρώμα κοντά στο μπλε.

49 3.1. ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ Σημασιολογικές οντότητες 'Οπως το όνομα υποννοεί, ο όρος Σημασιολογική Οντότητα αναφέρεται σε υψηλότερου επιπέδου αντικείμενα ή έννοιες που δεν μπορούν να μετρηθούν άμεσα και βρίσκονται πιο κοντά στην ανθρώπινη αντίληψη. Σε κάθε Σημασιολογική Οντότητα αναθέτουμε μια ετικέτα E k E, όπου E είναι το σύνολο όλων των Σημασιολογικών Οντοτήτων που μας ενδιαφέρουν. Η Σημασιολογική Εγκυκλοπαίδεια χτίζεται πάνω στην παραδοχή ότι μια Σημασιολογική Οντότητα E k μπορεί να περιγραφεί χρησιμοποιώντας άλλες Σημασιολογικές Οντότητες χαμηλότερου επιπέδου ή/και Συντακτικές Οντότητες που όλες μαζί αποτελούν τη σκοπιά S Ek της E k. Κάθε σκοπιά S Ek είναι ένα υποσύνολο του S = Y E, δηλαδή του συνόλου όλων των Συντακτικών και Σημασιολογικών Οντοτήτων. Για παράδειγμα, κάποιος μπορεί να περιγράψει την Οντότητα A με σκοπιά S A = {a, B}, όπου η B περιγράφεται με τη σειρά της με σκοπιά S B = {C, a} και η C με S C = {a, b} όπως φαίνεται στο Σχήμα 3.1. Ο αναγνώστης ας παρατηρήσει ότι πεζοί και κεφαλαίοι χαρακτήρες χρησιμοποιούνται για το συμβολισμό Συντακτικών και Σημασιολογικών Οντοτήτων αντίστοιχα. Περιγραφές αυτής της μορφής δηλώνουν ότι η ύπαρξη μιας Οντότητας που βρίσκεται στη σκοπιά μιας υψηλότερου επιπέδου Σημασιολογικής Οντότητας, υποδηλώνει την ύπαρξη της τελευταίας (η a και η B υποδηλώνουν την ύπαρξη της A, στο προηγούμενο παράδειγμα). Αυτή η θεώρηση είναι ισοδύναμη με την υιοθέτηση λογικών προτάσεων της μορφής p Si E k : S i E k, for all S i S Ek. (3.1) Στις περισσότερες όμως περιπτώσεις ο ισχυρισμός ισχύει μέχρι ένα βαθμό F Si E k [0, 1] ποσοτικοποιώντας την "πίστη" μας σχετικά με την αλήθεια της πρότασης p Si E k. Με αυτή την παραδοχή, κάθε περιγραφή μιας Σημασιολογικής Οντότητας μέσω n 1 προτάσεων του τύπου (3.1) αντιστοιχεί σε ένα διακριτό ασαφές σύνολο της μορφής E k = F S1 k 1 /S 1 + F S2 E k /S F SnE k /S n, (3.2) ή πιο συνοπτικά E k = F 1k /S 1 + F 2k /S F nk /S n, (3.3) όπου για απλούστευση χρησιμοποιούμε το συμβολισμό F ik αντί του F Si E k. Οι προτάσεις αυτές εκφράζουν έναν ορισμό της έννοιας E k. Στα δέντρα του σχήματος 3.1 οι βαθμοί F Si E k παρουσιάζονται σαν βάρη στις ακμές κάθε δέντρου. Ορισμοί της μορφής της εξίσωσης (3.3) ονομάζονται πρωτογενεις ορισμοί

50 30 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ A B C f BA f aa f CB f ab f ac f ac B a C a a b Σχήμα 3.1: Οι ορισμοί τριών Σημασιολογικών Οντοτήτων σε αναπαράσταση με γράφους. Παρατηρούμε ότι το B είναι έμμεσα συνδεδεμένο με τις Συντακτικές Οντότητες του ορισμού του C και όμοια το A είναι συνδεδεμένο έμμεσα με τις Συντακτικές Οντότητες τόσο του B όσο και του C. και μπορεί να περιέχουν τόσο Συντακτικές όσο και Σημασιολογικές Οντότητες. Οι ορισμοί οι οποίοι βασίζονται μόνο σε Συντακτικές Οντότητες χαρακτηρίζονται λεπτομερείς ορισμοι και είναι της μορφής E k = F 1k /Y 1 + F 2k /Y F nk /Y n, (3.4) όπου Y i Y. Κάθε μη λεπτομερής πρωτογενής ορισμός μπορεί να μετατραπεί σε λεπτομερή, χρησιμοποιώντας μια διαδικασία διαδοχκής αντικατάστασης που παρουσιάζεται στην ενότητα Ένα σχόλιο που μπορούμε να κάνουμε πάνω στην οργάνωση της σημασιολογικής εγκυκλοπαίδειας είναι πως η "εξειδίκευση" του συστήματος (με την έννοια της προσαρμογής του σε κάποιο συγκεκριμένο πεδίο εφαρμογής ή/και σύνολο δεδομένων) είναι ουσιαστικά οι τιμές των βαρών F. Οι τιμές αυτές μπορεί να υπολογίζονται ξανά για διαφορετικά πεδία εφαρμογής. 3.2 Συμπερασμός Πάνω στη βάση των ορισμών που περιλαμβάνονται στην εγκυκλοπαίδεια, είναι δυνατό να πραγματοποιηθεί η σημασιολογική αναζήτηση αποτιμώντας τις τιμές µ Yi των αντίστοιχων Συντακτικών Οντοτήτων. Η αξιολόγηση αυτής της αποτίμησης γίνεται με μετρικές οι οποίες ποσοτικοποιούν την ύπαρξη Σημασιολογικών Οντοτήτων, χρησιμοποιώντας τα αποτελέσματα των αλγορίθμων.

51 3.2. ΣΥΜΠΕΡΑΣΜΟΣ Μετρικές αναγνώρισης Η αποτίμιση μιας Συντακτικής οντότητας Y i που συμμετέχει σε ένα λεπτομερή ορισμό είναι ισοδύναμη με το τρέξιμο του αντίστοιχου αλγορίθμου τ και τον υπολογισμό του βαθμού συμμετοχής µ Yi κατά τον οποίο το υπό εξέταση έγγραφο ικανοποιεί την ιδιοτητα Y i, όπως αναφέρθηκε στην ενότητα Με όμοιο τρόπο, ορίζουμε μια μετρική η οποία δηλώνει το βαθμό κατά τον οποίο μια Σημασιολογική Οντότητα εμφανίζεται/αναγνωρίζεται σε ένα έγγραφο και την ονομάζουμε Βεβαιότητα της αναγνώρισης. Δοσμένου του λεπτομερούς ορισμού μιας Σημασιολογικής Οντότητας E k στη μορφή της εξίσωσης (3.4) και των βαθμών συμμετοχής µ Yi των Συντακτικών Οντοτήτων Y i σε ένα έγγραφο, η Βεβαιότητα πως η E k εμφανίζεται στο έγγραφο ορίζεται ως µ Ek = Ui (I(F Yi E k, µ Yi )) (3.5) όπου οι τελεστές U και I συμβολίζουν τελεστές ασαφούς ένωσης και τομής αντίστοιχα. Για τη μέγιστη δυνατή τιμή του µ Ek χρησιμοποιούμε τον όρο Εγκυρότητα, μια έννοια η οποία χαρακτηρίζει τον ορισμό και που είναι ισοδύναμη με V(E k ) = U i (F Yi E k ), (3.6) υπολογισμένη για µ Yi = 1 για όλες τις οντότητες Y i που βρίσκονται στη σκοπιά της E k και τη χρήση της ταυτότητας I(a, 1) = a, που είναι αληθής για οποιαδήποτε t-norm I. Η Εγκυρότητα δηλώνει το μέγιστο ποσό πληροφορίας που μπορεί να παρέχει ένας ορισμός και χρησιμοποιείται εκτενώς στη σχεδίαση της διαδικασίας αναγνώρισης όπως περιγράφεται στο κεφάλαιο 4. Πρέπει να σημειώσουμε ότι η Εγκυρότητα είναι ανεξάρτητη από το υπό εξέταση πολυμεσικό έγγραφο και μπορεί να υπολογιστεί πριν από την αναζήτηση. Συνεπώς, η Εγκυρότητα είναι μια ιδιότητα του ίδιου του ορισμού. Μια άλλη ιδιότητα ενός ορισμού είναι η υπολογιστική πολυπλοκότητα που συνδέεται με τους αλγορίθμους που αντιστοιχούν στις Συντακτικές Οντότητες που τον απαρτίζουν. Αντιστοιχίζουμε ένα υπολογιστικό κόστος c(t) σε κάθε συντακτικό χαρακτηριστικό t που είναι ίσο με το κόστος του αλγορίθμου τ που απαιτείται για την αξιολόγησή του. Έτσι μπορούμε να ορίσουμε την Πολυπλοκότητα ενός ορισμού ως C(E k ) = i c(t i ) (3.7)

52 32 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ όπου t i είναι τα συντακτικά χαρακτηριστικά που απαιτούνται για να αξιολογηθούν οι ιδιότητες Y i του ορισμού της E k. Παρατηρήστε ότι η τιμή αυτή εξαρτάται συνήθως, εκτός από τη δομή των επί μέρους αλγορίθμων και από το μέγεθος των δεδομένων εισόδου, όπως εξαρτώνται βέβαια και οι τιμές c(t i ). Παρόλα αυτά, εκφράσεις των c(t i ) για τη χειρότερη ή τη μέση περίπτωση μπορούν να θεωρηθούν ανεξάρτητες του πραγματικού περιεχομένου των υπό εξέταση εγγράφων. Με αυτή την παραδοχή, η Πολυπλοκότητα C(E k ) μπορεί να υπολογιστεί πριν την αναγνώριση. Θα δούμε, για παράδειγμα στο κεφάλαιο 6 ότι το ρόλο των αλγορίθμων αποτίμησης του βαθμού συμμετοχής (µ Yi ) αναλαμβάνουν ταξινομητές τύπου SVM και, στην ειδική αυτή περίπτωση, οι τιμή της Πολυπλοκότητας (c(t i )) είναι ανάλογη του αριθμού των support vectors κάθε ταξινομητή. Ορίσαμε τη Βεβαιότητα, την Εγκυρότητα και την Πολυπλοκότητα για λεπτομερείς ορισμούς, αλλά αυτές οι μετρικές μπορούν να χρησιμοποιηθούν για οποιοδήποτε ορισμό, καθώς καθένας από τους τελευταίους μπορεί να μετασχηματιστεί σε λεπτομερή. Επιπλέον, όταν η Βεβαιότητα για την ύπαρξη μιας Οντότητας είναι διαθέσιμη, αυτή μπορεί να χρησιμοποιηθεί σαν να ήταν Συντακτική Οντότητα σε έναν λεπτομερή ορισμο. Όλα αυτά περιγράφονται με περισσότερη σαφήνεια στην ενότητα Όμως, για μαθηματική ευκολία, πρώτα θα επιχειρήσουμε να παραστήσουμε τη διαδικασία του συμπερασμού στους ισχυρισμούς (στα δεδομένα) με ασαφείς σχέσεις Αναπαράσταση ορισμών με ασαφείς σχέσεις Μια ασαφής σχέση που περιέχει τις τιμές των βαρών F για τα στοιχεία στη σκοπιά μιας Σημασιολογικής Οντότητας E k παρέχει όλη την απαραίτητη πληροφορία σχετικά με την E k. Σε αυτή την περίπτωση, κάθε τιμή F μπορεί να θεωρηθεί σαν στοιχείο μιας ασαφούς σχέσης στο χώρο S S. Είμαστε έτσι σε θέση να παραστήσουμε τους ορισμούς χρησιμοποιώντας ασαφείς σχέσεις αλλά και τις απαραίτητες πράξεις χρησιμοποιώντας πράξεις μεταξύ ασαφών σχέσεων Για παράδειγμα, ο πρώτος ορισμός του σχήματος 3.1 αναπαρίσταται από τη σχέση A B C a b A B F R A = BA (3.8) C a F aa b Ας σημειώσουμε ότι οι ορισμοί αναπαρίστανται με ανακλαστικές (reflexive)

53 3.2. ΣΥΜΠΕΡΑΣΜΟΣ 33 σχέσεις, εφόσον κάθε οντότητα υποδηλώνει πλήρως τον εαυτό της. Μετά τη συλλογή των 'ασαφοποιημένων' αποτελεσμάτων των αλγορίθμων µ Yi για όλες τις Συντακτικές Οντότητες που συμμετέχουν στον ορισμό και την κατασκευή ενός ασαφούς συνόλου X της μορφής X = [ µ Y1... µ Yn ] μπορούμε να συμπεράνουμε στα δεδομένα, δηλαδή να υπολογίσουμε τη Βεβαιότητα µ Ek χρησιμοποιώντας τη σύνθεση των X και R Ek : Z = [0... µ Ek... 0 µ Y1... µ Yn ] = X R Ek (3.9) Στη σχέση (3.9) η σύνθεση '' '' είναι μια γενίκευση της κλασικής sup t σύνθεσης (βλ. [109] για περισσότερες λεπτομέρειες) και ορίζεται ως (A B)(i, j) = U k (I(a ik, b kj )), (3.10) όπου οι τελεστές U και I μπορεί να είναι οποιαδήποτε t-conorm και t-norm αντιστοίχως. Χρησιμοποιώντας '' '', η Βεβαιότητα µ Ek που υπολογίζεται από την εξίσωση (3.9) ισούται με αυτή της εξίσωσης (3.5). Η Εγκυρότητα μπορεί να υπολογιστεί χρησιμοποιώντας επίσης την εξίσωση (3.9), θέτοντας όμως µ Yi = 1 για κάθε Y i Y Συμπερασμός στη γνώση (στην ορολογία) Η μέχρι τώρα ανάλυση και περιγραφή έγινε για την περίπτωση των λεπτομερών ορισμών, όπου υπάρχει απευθείας (άμεση) σχέση ανάμεση στις Συντακτικές και στη Σημασιολογική Οντότητα κάθε ορισμού. Παρόλα αυτά, στην εγκυκλοπαίδεια μπορεί να περιλαμβάνονται ορισμοί Σημασιολογικών Οντοτήτων που βασίζονται σε άλλες Σημασιολογικές Οντότητες, δηλαδή μηλεπτομερείς ορισμοί. Σε αυτήν την παράγραφο παρουσιάζουμε τρεις μεθόδους που αντιμετωπίζουν αυτό το θέμα με διαφορετικούς τρόπους και που είναι χρήσιμες για διάφορα σενάρια εφαρμογών. Απευθείας αντικατάσταση Σε αυτή την περίπτωση μετατρέπουμε έναν μη-λεπτομερή ορισμό σε λεπτομερή. Με διαδοχική αντικατάσταση κάθε Σημασιολογικής Οντότητας που συμμετέχει στον ορισμό, κατασκευάζουμε ένα 'δέντρο' τα φύλλα του οποίου είναι οι Συντακτικές Οντότητες που συμμετέχουν στον ορισμό είτε άμεσα είτε έμμεσα. Ας ανατρέξουμε ξανά στο παράδειγμα του σχήματος 3.1. Ο ορισμος της C είναι λεπτομερής, ενώ οι Συντακτικές Οντότητες που συμμετέχουν στον ορισμό

54 34 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ της B είναι η a (τόσο άμεσα όσο και έμμεσα) και η b (έμμεσα, μέσω της C). Στη μέθοδο της απευθείας αντικατάστασης, ο στόχος είναι να υπολογίσουμε τις κατάλληλες τιμές F ab και F bb ώστε να μετατρέψουμε τον ορισμό της B σε λεπτομερή Για το σκοπό αυτό χρησιμοποιούμε ασαφή τομή για τη μετάβαση από το b στο B μέσω του C και συνεπώς έχουμε F bb = I(F bc, F CB ). (3.11) Υπάρχουν δύο τρόποι με τους οποίους το a σχετίζεται με το B: άμεσα με F ab και μέσω του C, με I(F ac, F CB ). Για να συνδυάσουμε αυτές τις τιμές και να υπολογίσουμε το F ab χρησιμοποιούμε ασαφή ένωση, δηλαδή F ab = U(F ab, I(F ac, F CB )). (3.12) Πρέπει να τονίσουμε ότι χρησιμοποιούμε την ασαφή ένωση όταν υπάρχουν πολλαπλά μονοπάτια και συγκεκριμένα στην ένωση των μονοπατιών αυτών. Αυτό σημαίνει ότι για να υπολογίσει κανείς τη σχέση ανάμεσα στις Οντότητες A και a, θα χρησιμοποιήσει το λεπτομερή ορισμό του B που υπολογίστηκε προηγουμένως και δεν θα εφαρμόσει ασαφή ένωση στο ανώτατο επίπεδο. Έτσι F aa = U(F aa, I(F bb, F BA)) (3.13) και F ba = I(F bb, F BA). (3.14) Τα παραπάνω μπορούν να γραφούν με έναν μαθηματικά βολικό τρόπο χρησιμοποιώντας ασαφείς σχέσεις. Θεωρώντας έναν γενικό ορισμό E = F Ed1 E/E d F Edm E/E dm + F Y1 E/Y F Yn E/Y n (3.15) όπου E d1,..., E dm είναι Σημασιολογικές Οντότητες με λεπτομερείς ορισμούς. Ο ορισμός της εξίσωσης (3.15) μπορεί να παρασταθεί με μια ασαφή σχέση R E, όπως παρουσιάστηκε στην παράγραφο Μπορούμε να υπολογίσουμε μια ασαφή σχέση R c E που περιέχει τα βάρη F για όλες τις Συντακτικές Οντότητες που συμμετέχουν στην E είτε έμμεσα είτε άμεσα, δηλαδή περιέχει τιμές F για κάθε στοιχείο που ανήκει στο σύνολο S c E = S Ed1... S Edm, ως εξής R c E = (R E1... R Em ) R E (3.16) όπου '' '' είναι η συνήθης ένωση (standard union) και '' '' η σύνθεση, όπως την ορίσαμε στην εξίσωση (3.10). Εφαρμόζοντας αυτή τη διαδικασία αναδρομικά (στην περίπτωση που κά-

55 3.2. ΣΥΜΠΕΡΑΣΜΟΣ 35 ποιοι από τους ορισμούς των E di δεν είναι λεπτομερείς), καταλήγουμε σε μια σχέση που περιέχει τα βάρη για όλες τις Συντακτικές Οντότητες και η εξίσωση (3.9) μπορεί να χρησιμοποιηθεί για τον υπολογισμό της Βεβαιότητας µ E. Συνοψίζοντας, η μέθοδος της άμεσης αντικατάστασης χρησιμοποιεί την εξίσωση Z = X (( R c i) R E ) (3.17) i S c E E όπου R c i είναι οι ''σύνθετες'' σχέσεις για όλους τους μη-λεπτομερείς ορισμούς και η Βεβαιότητα µ E περιλαμβάνεται στο διάνυσμα Z, ενώ, όπως και στην εξίσωση (3.9), το διάνυσμα X είναι της μορφής Z = [0... µ Ek... 0 µ Y1... µ Yn ], όπου n το πλήθος όλων των συντακτικών οντοτήτων που συμμετέχουν σε οποιονδήποτε από τους αρχικούς ορισμούς. Σαν παράδειγμα της μεθόδου απευθείας αντικατάστασης, ας θεωρήσουμε τους ορισμούς: A = F BA /B + F aa /a + F ba /b (3.18) B = F CB /C + F cb /c (3.19) C = F ac /a + F cc /c (3.20) Τότε, σύμφωνα με την εξίσωση (3.16), έχουμε R c B = R C R B = A B C a b c A B C a b c F CB F ac F cc F cb = 0 F CB I(F CB, F ac ) ( I(F cc, F CB ), F cb ) Με την ίδια λογική R c A = R c B R A και με αυτόν τον τρόπο μπορούμε να υπολο-

56 36 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ γίσουμε τα βάρη του λεπτομερούς ορισμού του A και τη σχέση R c A, που μπορεί να χρησιμοποιηθεί στην εξίσωση (3.9). Στη βιβλιογραφία είναι συνηθισμένη η χρήση της σύνθεσης sup -t και του μεταβατικού κλεισίματος μιας ασαφούς σχέσης R για να υπολογιστούν οι βαθμοί συσχέτισης μεταξύ των στοιχείων της R (για παράδειγμα στο [110] αυτή η προσέγγιση χρησιμοποιήθηκε για σημασιολογικό query expansion). Ωστόσο, η παρούσα προσέγγιση προτείνει μια διαφορετική μέθοδο σε αυτό το σημείο. Αυτό γίνεται γιατί η συνήθης ένωση δεν είναι κατάλληλη για τη σχεδίαση της αναγνώρισης, καθώς για κάθε υποσύνολο η Εγκυρότητα θα υπολογιζόταν μέσω της Συντακτικής Οντότητας με το μεγαλύτερο βάρος F, και έτσι θα χανόταν η ιδιότητα του granularity, που όπως θα φανεί στο κεφάλαιο 4, είναι εξαιρετικά χρήσιμη για την προτεινόμενη μεθοδολογία. Αντιθέτως, για κάθε άλλο τελεστή ασαφούς ένωσης U και για βάρη F a > F b, έχουμε U(F a, F b ) > F a, (3.21) δηλαδή ο συνυπολογισμός του b αυξάνει την Εγκυρότητα της αναζήτησης. Το μειονέκτημα αυτής της προσέγγισης προκύπτει από το γεγονός ότι γενικά U(a, a) > a, (3.22) οπότε το μεταβατικό κλείσιμο δεν είναι η κατάλληλη επιλογή για τη δημιουργία λεπτομερών ορισμών, εφόσον τότε τα βάρη που έχουν ήδη υπολογιστεί θα μεταβάλλονταν σε κάθε κύκλο και η σχέση δε θα έκλεινε ποτέ. Αντίθετα, η διαδικασία που παρουσιάστηκε εδώ, πετυχαίνει τα επιθυμητά αποτελέσματα. Υπεργολάβοι Στην απευθείας αντικατάσταση χρησιμοποιείται αποκλειστικά πληροφορία που παρέχεται από την Εγκυκλοπαίδεια. Παρόλα αυτά, είναι σύνηθες για τα πολυμεσικά έγγραφα να είναι ήδη σχολιασμένα, κάτι που σημαίνει ότι πληροφορία για συγκεκριμένες Οντότητες προϋπάρχει της αναζήτησης, έχοντας προκύψει είτε από κάποιον "ειδικό" είτε από τεχνικές αυτόματης αναγνώρισης/σχολιασμού. Η μέθοδος των υπεργολάβων υποθέτει ότι κάποιος έχει ήδη φέρει σε πέρας την αναγνώριση του βαθμού συμμετοχής (δηλ. τη Βεβαιότητα) για ορισμένες Σημασιολογικές Οντότητες που συμμετέχουν σε κάποιον ορισμό. Αυτές οι Οντότητες αντιμετωπίζονται σαν να ήταν Συντακτικές, εφόσον είναι άμεσα μετρήσιμες. Έτσι ένας μη-λεπτομερής ορισμός αντιμετωπίζεται σαν να ήταν λεπτομερής, ενώ το υπολογιστικό κόστος της αναγνώρισης των συγκεκριμένων εννοιών θεωρείται μηδενικό.

57 3.2. ΣΥΜΠΕΡΑΣΜΟΣ 37 Η ιδέα των υπεργολάβων στην πραγματικότητα μπορεί να εφαρμοστεί σε κάθε μέθοδο. Γνωρίζοντας τη Βεβαιότητα µ Ek μιας Οντότητας E k μπορούμε να την αντιμετωπίσουμε σαν Συντακτική, ακόμα κι αν δεν υπάρχει πληροφορία για άλλες Σημασιολογικές Οντότητες που συμμετέχουν στον ορισμό. Η μόνη διαφορά είναι ότι στην εξίσωση (3.9), το διάνυσμα X περιέχει βαθμούς Βεβαιότητας και για Σημασιολογικές Οντότητες. Σαν παράδειγμα, ας θεωρήσουμε τους παρακάτω ορισμούς: E 1 = F E2 E 1 /E 2 + F Y1 E 1 /Y 1 (3.23) E 2 = F Y2 E 2 /Y 2 + F Y3 E 2 /Y 3 (3.24) Αν η τιμή της Βεβαιότητας µ E2 παρέχεται για το έγγραφο τότε μπορούμε να υπολογίσουμε απ' ευθείας την τιμή µ E1, αντιμετωπίζοντας την οντότητα E 2 σαν συντακτική. Έτσι µ E1 = ( I(F E2 E 1, µ E2 ), I(F Y1 E 1, µ Y1 )) (3.25) και μόνο η Y 1 πρέπει να αποτιμηθεί στο έγγραφο, μέσω του κατάλληλου αλγορίθμου. Η υβριδική μέθοδος Η υβριδική μέθοδος διαφέρει από τις προηγούμενες στο ότι δε στοχεύει στη μετατροπή των μη-λεπτομερών ορισμών σε λεπτομερείς, ενώ είναι χρήσιμη στην αναγνώριση πολλαπλών Σημασιολογικών Οντοτήτων σε ένα έγγραφο. Ας θεωρήσουμε μια συλλογή (pool) αλγορίθμων που μπορούν να χρησιμοποιηθούν για να αξιολογηθούν αντίστοιχες Συντακτικές Οντότητες. Η αξιολόγηση μιας οποιασδήποτε, Y i, από αυτές δίνει μια μερική Βεβαιότητα µ Ek για όλες τις Σημασιολογικές Οντότητες για τις οποίες Y i S Ek. Επιπλέον κάθε βαθμός µ Ek προσθέτει στη Βεβαιότητα για άλλες οντότητες µ El που χρησιμοποιούν την E k στη σκοπιά του ορισμού τους (όπως στη μέθοδο των υπεργολάβων) και ούτω καθ'εξής. Αν θεωρήσουμε επίσης μια Σημασιολογική Οντότητα E που περιγράφεται από χαμηλότερου επιπέδου Σημασιολογικές Οντότητες με λεπτομερείς ορισμούς. Υπολογίζουμε τότε τη Βεβαιότητα µ E χρησιμοποιώντας τη σχέση Z = ( X R d i ) R E (3.26) i S E E όπου R d i είναι οι σχέσεις που αντιστοιχούν σε λεπτομερείς ορισμούς. Για τις Σημασιολογικές Οντότητες που περιγράφονται με χρήση της E, το

58 38 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ διάνυσμα Z χρησιμοποιείται στη θέση του X και η E αντιμετωπίζεται όπως μια Συντακτική Οντότητα. Με αυτόν τον τρόπο, εκτελώντας ένα σύνολο αλγορίθμων σε ένα έγγραφο, αποκτούμε τιμές Βεβαιότητας για πολλαπλές Οντότητες. Αυτή η προσέγγιση μπορεί να είναι χρήσιμη στην περίπτωση του σχολιασμού ενός εγγράφου, κατά τον οποίο αναζητούνται όλες οι Οντότητες της Εγκυκλοπαίδειας που ενδεχομένως να εμφανίζονται στο έγγραφο, σε αντίθεση με την περίπτωση που αναζητούμε μία από αυτές. Ας παρατηρήσουμε σε αυτό το σημείο ότι αυτή η προσέγγιση δεν είναι ισοδύναμη με την απευθείας αντικατάσταση. Πιο συγκεκριμένα, η μετατροπή ενός ορισμού σε λεπτομερή και η αξιολόγηση όλων των Συντακτικών Οντοτήτων που συμμετέχουν σε αυτόν δεν επιφέρει το ίδιο αποτέλεσμα Βεβαιότητας με την υβριδική μέθοδο, η οποία υπολογίζει αναδρομικά την Βεβαιότητα για όλες τις Σημασιολογικές Οντότητες χαμηλού επιπέδου που συμμετέχουν στον ορισμό. Αυτή η συμπεριφορά οφείλεται στο γεγονός ότι η επιμεριστική ιδιότητα δεν ισχύει γενικά για τις ασαφείς ενώσεις και τομές. Μια εξαίρεση σε αυτό αποτελούν οι συνήθεις τελεστές (Zadeh - max/min) οι οποίοι όμως δεν είναι αποτελεσματικοί στην περίπτωσή μας, όπως περιγράφηκε στην παράγραφο Βέλτιστος προσδιορισμός των βαρών Ένα βασικό ζήτημα που τίθεται σε αυτό το σημείο αφορά τον τρόπο παραγωγής των βαρών της σημασιολογικής εγκυκλοπαίδειας, τα οποία έχουμε στη μέχρι τώρα ανάλυση θεωρήσει ότι προέρχονται από κάποιον αλάνθαστο "ειδικό". Όπως αναφέρθηκε στην παράγραφο 3.1.2, κάθε βάρος F i που αντιστοιχεί σε μια πρόταση συνεπαγωγής p Si E k : S i E k. (3.27) αντιπροσωπεύει το βαθμό αλήθειας/ισχύος της πρότασης αυτής. Αυτή η παραδοχή, αν και από μαθηματική άποψη είναι καλά ορισμένη, αφήνει ανοικτό τον υπολογισμό των βαθμών αληθείας, καθώς στην πράξη δεν είναι εφικτό κάποιος ειδικός να παρέχει τέτοιες αριθμητικές τιμές. Ο ρόλος ενός τέτοιου ειδικού μπορεί να είναι ποιοτικός (στο βαθμό που ορίζει την ιεραρχία) αλλά όχι ποσοτικός. Στην πραγματικότητα, η αβεβαιότητα που μοντελοποιείται μέσω αυτών των βαρών (μπορεί να) αφορά και την αξιοπιστία της ίδιας της μέτρησης του βαθμού ύπαρξης της έννοιας S i. Αυτή η αξιοπιστία μπορεί να εξαρτάται από διάφορους παράγοντες που αφορούν τη μεθοδολογία ανίχνευσης/μέτρησης αλλά και τις

59 3.3. ΒΕΛΤΙΣΤΟΣ ΠΡΟΣΔΙΟΡΙΣΜΟΣ ΤΩΝ ΒΑΡΩΝ 39 συνθήκες λειτουργίας του συστήματος. Κατά συνέπεια, μια ολιστική αντιμετώπιση του ζητήματος των βαρών, εκτός από πρακτικά ανέφικτη λόγω του μεγέθους και της δυσκολίας έκφρασης ποσοτικών μεγεθών από τους ειδικούς, θα ήταν πιθανότατα και αναποτελεσματική, καθώς δε θα μπορούσε να προσαρμοστεί στις εκάστοτε συνθήκες μέτρησης και διαθέσιμων δεδομένων. Στην εργασία αυτή προτείνουμε τον υπολογισμό των βαρών μέσω της αναγωγής τους σε ένα πρόβλημα βελτιστοποίησης και εκπαίδευσης πάνω στο εκάστοτε σύνολο δεδομένων. Με αυτή την επιλογή, το τελευταίο γίνεται καθοριστικό και για το ίδιο το μοντέλο ή, ισοδύναμα, το μοντέλο "ειδικεύεται" πάνω στο υπάρχον σύνολο δεδομένων Το πρόβλημα ως βελτιστοποίηση Ο υπολογισμός των βαρών είναι ένα πρόβλημα μηχανικής μάθησης το οποίο ανάγεται, όπως συχνά συμβαίνει σε τέτοια προβλήματα (βλ. [111]), στη βελτιστοποίηση μιας κατάλληλης συνάρτησης. Η επιλογή της τελευταίας εξαρτάται από το στόχο της εφαρμογής και μπορεί να είναι οποιαδήποτε ποσότητα που χαρακτηρίζει την απόδοση ενός ταξινομητή (classifier), καθώς ως τέτοιος αξιολογείται ο ορισμός της υπό εκπαίδευση οντότητας. Τέτοιες ποσότητες μπορεί να είναι για παράδειγμα το sensitivity, το specificity, το accuracy, η απόσταση από το υπερεπίπεδο διαχωρισμού ή η απόσταση από τη μονάδα όταν έχουμε θετικό δείγμα και από το μηδέν όταν έχουμε αρνητικό. Σε εφαρμογές όπως η ανάκτηση πολυμέσων μπορεί να έχουμε πιο σύνθετες ποσότητες όπως το precision, το recall, το F-measure ή το Average Precision, ποσότητες που περιγράφηκαν στην ενότητα Διαδικασία Η ίδια η διαδικασία της βελτιστοποίησης έχει ως συστατικά: Έναν λεπτομερή ορισμό της υπό εκπαίδευση οντότητας, ο οποίος συνεπάγεται μια συνάρτηση συμπερασμού της μορφής της εξίσωσης (3.9). Ένα σύνολο δεδομένων εκπαίδευσης, για το οποίο είναι διαθέσιμο το groundtruth, δηλαδή η πληροφορία για την ύπαρξη ή όχι (ή και το βαθμό της ύπαρξης) της οντότητας σε κάθε έγγραφο. Μια μετρική ποιότητας προς βελτιστοποίηση. Η διαδικασία πραγματοποιείται με επαναληπτική αξιολόγηση των τιμών της συνάρτησης συνάρτησης βελτιστοποίησης, μέσω διαρκούς αλλαγής των

60 40 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ παραμέτρων και αξιολόγησης της συνάρτησης συμπερασμού στο σύνολο εκπαίδευσης. Για το σκοπό αυτό είναι δυνατό να επιστρατευτούν αλγόριθμοι που χρησιμοποιούν παραγώγους (gradient). Ωστόσο, σε πολλά από τα προβλήματα που ελέγξαμε, παρατηρήσαμε ότι οι συναρτήσεις είναι μη-κυρτές (non-convex functions) και κατά συνέπεια για να αποφύγουμε τα τοπικά ακρότατα χρειαζόμαστε κάποιον αλγόριθμο ολικής βελτιστοποίησης (global optimization). Παραδείγματα τέτοιων συναρτήσεων φαίνονται στο σχήμα 3.2 Εμείς σε αυτό το σημείο προτείνουμε τη χρήση ενός κατάλληλου γενετικού αλγορίθμου, το χρωμόσωμα του οποίου αποτελείται από τα προς υπολογισμό βάρη αλλά και άλλες ενδεχομένως παραμέτρους όπως στην περίπτωση της χρήσης παραμετρικών νορμών. Για να βελτιώσουμε τις ιδιότητες γενίκευσης των παραγόμενων βαρών χρησιμοποιούμε δύο μεθόδους εκπαίδευσης; την k-fold cross validation και μια τροποποιημένη εκδοχή της RankBoost [112] για resampling k-fold Cross Validation Στη μέθοδο k-fold cross validation το αρχικό σύνολο των δείγματων εκπαίδευσης διαμερίζεται σε k υποσύνολα, τα οποία ονομάζονται folds. Ειδικά σε datasets στα οποία έγγραφα που σχετίζονται με μια συγκεκριμένη σημασιολογική οντότητα είναι σπάνια, οι λίγες αυτές εμφανίσεις συμβαίνουν κατά ριπές. Για το λόγο αυτό, η διαμέριση σε folds ακολουθεί μια απλή μεθοδολογία δειγματοληψίας των εγγράφων ώστε να διατηρείται σταθερή η συχνότητα εμφάνισης μεταξύ των folds. Έτσι πετυχαίνουμε τη δημιουργία k folds αντιπροσωπευτικών του συνόλου, αναφορικά με την πρότερη (prior) πιθανότητα των θετικών δειγμάτων της υπό εκπαίδευση οντότητας. Στη συνέχεια καλείται ο γενετικός αλγόριθμος για να υπολογίσει τα ασαφή βάρη χρησιμοποιώντας σαν σύνολο εκπαίδευσης όλα τα δείγματα σε k 1 folds, αφήνοντας ένα εκτός, το οποίο χρησιμοποιείται σαν σύνολο δοκιμής. Αυτή η διαδικασία επαναλαμβάνεται k φορές, ώσπου κάθε fold να έχει χρησιμοποιηθεί για δοκιμή μία φορά και για εκπαίδευση τις υπόλοιπες k 1. Στο τέλος έχουμε με k σύνολα ασαφών βαρών από τα οποία παίρνουμε τις μέσες τιμές έτσι ώστε να καταλήξουμε σε ένα σύνολο. Αυτό αποτελούν οι τιμές των f i οι οποίες στη συνέχεια χρησιμοποιούνται για τη συνάρτηση συμπερασμού. Πιο συγκεκριμένα, έστω ένα σύνολο εκπαίδευσης X και ένα σύνολο ασαφών βαρών F = {f 1,..., f N } τα οποία θέλουμε να υπολογίσουμε. Ο προτεινόμενος αλγόριθμος έχει τα εξής βήματα:

61 3.3. ΒΕΛΤΙΣΤΟΣ ΠΡΟΣΔΙΟΡΙΣΜΟΣ ΤΩΝ ΒΑΡΩΝ Motorbike (α) Aircraft Boat (β) Aircraft Bicycle (γ) Car Tank (δ) Bus Σχήμα 3.2: Παραδείγματα επιφανειών βελτιστοποίησης, όπως έχουν προκύψει από πειράματα των κεφαλαίων 6 και 8. Η συνάρτηση βελτιστοποίησης είναι το αντίθετο του Mean Average Precision και η προς εκπαίδευση έννοια είναι το 'Όχημα' (Vehicle) το οποίο ορίζεται, για λόγους εποπτείας, στις δύο διαστάσεις με βάση τις έννοιες (α)'μοτοσυκλέτα' (Motorbike) και 'Αεροπλάνο' (Aircraft), (β)'βάρκα' (Boat) και 'Αεροπλάνο', (γ) 'Ποδήλατο' (Bicycle) και 'Αυτοκίνητο' (Car) και (δ)'τανκ' και 'Ποδήλατο'. Παρατηρούμε ότι σε ορισμένες περιπτώσεις (ιδιαίτερα στις (α) και (β)) οι επιφάνειες παρουσιάζουν ανωμαλίες που οδηγούν σε τοπικά ελάχιστα.

62 42 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ 1. Διαμερισμός του συνόλου σε k folds X = {X 1,..., X k } (3.28) 2. Επανάληψη για j = 1,..., k (α) Εκτέλεση του γενετικού αλγορίθμου, με χρήση του συνόλου X X j για εκπαίδευση και υπολογισμός των βαρών F j = {f 1j,..., f Nj } (β) Αξιολόγηση των βαρών F j στο σύνολο X j και υπολογισμός της απόδοσης w j, όπου η ποσότητα w j αντιστοιχεί στην τιμή της μετρικής ποιότητας που έχει υιοθετηθεί. 3. Τα τελικά βάρη προκύπτουν με weighted averaging στην απόδοση των προηγούμενων: fi = 1 w j f ij (3.29) w j j Εφόσον η μέθοδος αυτή αποφεύγει την υπερεκπαίδευση στο σύνολο δοκιμής, οι τιμές της μετρικής ποιότητας που λαμβάνονται μέσω αυτής χρησιμοποιούνται σαν μια μετριοπαθής εκτίμηση για την αναμενόμενη επίδοση της μεθόδου όταν αυτή δοκιμαστεί σε άγνωστα δεδομένα. j RankBoost Το boosting [69] είναι μια τεχνική που χρησιμοποιείται στη μηχανική μάθηση και στοχεύει στο να συνδυάσει τα αποτελέσματα πολλών ασθενών ταξινομητών ("weak learners") έτσι ώστε να κατασκευάσει ένα δυνατό ταξινομητή ("strong learner"). Η διαδικασία αυτή τυπικά περιλαμβάνει την επαναληπτική εκπαίδευση ασθενών ταξινομητών. Κάθε επανάληψη ορίζει ένα νέο ταξινομητή, ο οποίος και εκπαιδεύεται εστιάζοντας στα δείγματα τα οποία οι ταξινομητές των προηγούμενων επαναλήψεων της διαδικασίας απέτυχαν να ταξινομήσουν σωστά. Η επιλογή των δειγμάτων εκπαίδευσης κάθε επανάληψης γίνεται με χρήση μιας συνάρτησης κατανομής πιθανότητας η οποία ευνοεί σε κάθε περίπτωση την επιλογή των πλέον λανθασμένα ταξινομημένων δειγμάτων από τους προηγούμενους ταξινομητές. Η μέθοδος βελτιστοποίησης που προτείνεται εδώ είναι μια τροποποιημένη εκδοχή του αλγορίθμου RankBoost [112]. Ο αλγόριθμος αυτός, διαφέρει από τους υπόλοιπους αλγορίθμους boosting κυρίως στο γεγονός ότι στοχεύει στην ελαχιστοποίηση του σφάλματος ταξινόμησης, μοντελοποιώντας μια ανάλογη

63 3.3. ΒΕΛΤΙΣΤΟΣ ΠΡΟΣΔΙΟΡΙΣΜΟΣ ΤΩΝ ΒΑΡΩΝ 43 ποσότητα για κάθε ζευγάρι μεταξύ θετικών και αρνητικών δειγμάτων. Η ιδιαιτερότητά του αυτή τον κάνει ιδανικό για εφαρμογές ανάκτησης πληροφοριών και ειδικότερα πολυμέσων, όπου η σειρά ανάκτησης των αποτελεσμάτων παίζει πολύ σημαντικό ρόλο. Ο RankBoost έχει αποδειχτεί σε μια πρόσφατη εργασία (βλ. [113]) πολύ αποτελεσματικός για τη διαδικασία του resampling στην εκπαίδευση ταξινομητών SVM, καθώς επιταχύνει σημαντικά την εκπαίδευση, λόγω της επιλογής κάθε φορά μικρού αριθμού δειγμάτων αλλά και εξασφαλίζει την ισορροπημένη επιλογή θετικών και αρνητικών δειγμάτων για κάθε επί μέρους εκπαίδευση. Σε αυτές τις αρχές βασίζεται και η μέθοδος βελτιστοποίησης που προτείνεται εδώ. Ο αλγόριθμος εκτελείται σε T επαναλήψεις, επιλέγοντας κάθε φορά τυχαία τα θετικά και έναν περίπου ίσο αριθμό από αρνητικά δείγματα για να κατασκευάσει κάθε φορά ένα καινούριο σύνολο εκπαίδευσης για την επόμενη επανάληψη. Μια συνάρτηση κατανομής αρχικοποιείται για να ορίσει (πιθανοτικά) ποια δείγματα θα χρησιμοποιηθούν σε κάθε επανάληψη. Η συνάρτηση αυτή ενημερώνεται κάθε φορά έτσι ώστε να ενθαρρύνει την επιλογή δειγμάτων τα οποία ήταν λάθος ταξινομημένα στις προηγούμενες επαναλήψεις. Σε κάθε επανάληψη ο γενετικός αλγόριθμος καλείται να εκπαιδεύσει τα βάρη αναφορικά με το υποσύνολο των δειγμάτων που επιλέχθηκαν σαν σύνολο εκπαίδευσης. Αυτό σημαίνει πως η διαδικασία αυτή θα επαναληφθεί ακριβώς T φορές. Τελικά ο αλγόριθμος αυτός υπολογίζει T σύνολα από ασαφή βάρη και ο συμπερασμός (inference) πραγματοποιείται χρησιμοποιώντας ένα συνδυασμό τους, ο οποίος είναι o όρος των συντελεστών. Πιο συγκεκριμένα, έστω ένα σύνολο εκπαίδευσης X = {x i }, με δύο ξένα (disjoint) υποσύνολα X 0 (με αρνητικά δείγματα) και X 1 (με θετικά δείγματα) και συνάρτηση y : X { 1, 1}, με y(x i ) =1 αν x i X 1 και y(x i ) = 1 αν x i X 0. Θεωρούμε ότι για κάθε έγγραφο x i είναι διαθέσιμο ένα σύνολο μετρήσεων που επιτρέπουν την αποτίμηση των συναρτήσεων συμμετοχής όλων των εμπλεκόμενων συντακτικών χαρακτηριστικών. Στην εκδοχή των "υπεργολάβων", θεωρούμε επιπλέον ότι οι αντίστοιχες συναρτήσεις συμμετοχής για τις "υπεργολαβικές" σημασιολογικές οντότητες έχουν αποτιμηθεί. Συνεπώς είναι δυνατό για κάθε έγγραφο να οριστεί ένα συναρτησοειδές µ t (x i ; F t ), όπου στο διάνυσμα F t περιλαμβάνεται το σύνολο των βαρών που εμφανίζονται στην εξίσωση (3.3). Έστω επίσης u t (x i ) η κατανομή της πιθανότητας για επιλογή των εγγράφων x i κατά την επανάληψη t = 1... T. Ο προτεινόμενος αλγόριθμος έχει τα εξής βήματα:

64 44 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ 1. Αρχικοποίηση u 1 (x i ) = { 1 X 1 x i X 1 1 X 0 x i X 0 (3.30) 2. Επανάληψη για t = 1,..., T (α) Εκτέλεση του γενετικού αλγορίθμου, χρησιμοποιώντας τα δείγματα που προκύπτουν από resampling με βάση την κατανομή u t, για τον υπολογισμό των βαρών για τη συνάρτηση συμπερασμού (υπολογισμού βεβαιότητας) µ t : X [0, 1] (β) Υπολογισμός του βάρους της συγκεκριμένης εκτέλεσης a t a t = 1 2 ln(1 + r 1 r ) (3.31) όπου r = i u t (x i )y i µ t (x i ) (3.32) (γ) Αναθεώρηση της κατανομής u t+1 (x i ) = u t (x i )e a t y i µ t (x i ) X 1 u t (x i )e a t y i µ t (x i ) x i X 1 u t (x i )e a t y i µ t (x i ) X 0 u t(x i )e a t y i µ t (x i ) x i X 0 (3.33) 3. Ο συμπερασμός µ t (x i ; F t ) γίνεται με χρήση του διανύσματος βαρών F που προκύπτει από weighted averaging πάνω στους T υπολογισμένους συνδυασμούς βαρών: F = 1 T t a t T a t F t (3.34) t 3.4 Συμπεράσματα Στο κεφάλαιο αυτό παρουσιάσαμε το μοντέλο οργάνωσης γνώσης, πάνω στο οποίο βασίζεται το μεγαλύτερο μέρος της εργασίας. Οι οντότητες, άμεσα μετρήσιμες (συντακτικές) και υψηλότερου επιπέδου (σημασιολογικές) οργανώνονται σε μια ιεραρχική δομή (σημασιολογική εγκυκλοπαίδεια). Εκεί, η ύπαρξη μιας οντότητας υψηλού επιπέδου συνάγεται μέχρι ενός βαθμού από την ανίχνευση οντοτήτων χαμηλότερου επιπέδου. Για την ποσοτικοποίηση των μετρήσεων εισάγαμε τις μετρικές της Βεβαιότητας, της Εγκυρότητας και της Πολυπλοκότητας, ενώ προτείναμε μια μέθοδο αναπαράστασης της γνώσης και του συμπερασμού με χρήση ασαφών συνό-

65 3.4. ΣΥΜΠΕΡΑΣΜΑΤΑ 45 λων και σχέσεων. Βασιζόμενοι σε αυτά, παρουσιάσαμε τρεις μεθόδους συμπερασμού στη γνώση ("άμεση αντικατάσταση", "μέθοδος υπεργολάβων", "υβριδική μέθοδος") κατάλληλες για διαφορετικά σενάρια εφαρμογής. Τέλος, αφού μοντελοποιήσαμε το πρόβλημα του προσδιορισμού των βαθμών υπαγωγής (βαρών) ως πρόβλημα βελτιστοποίησης, παρουσιάσαμε δύο μεθόδους για την επίλυσή του, εμπνευσμένες από τις τεχνικές του k-fold Cross Validation και RankBoost αντίστοιχα.

66 46 ΚΕΦΑΛΑΙΟ 3. ΜΟΝΤΕΛΟΠΟΙΗΣΗ

67 Κεφάλαιο 4 Βελτιστοποίηση πολυπλοκότητας I adore simple pleasures. They are the last refuge of the complex. Oscar Wilde 4.1 Το πρόβλημα Η μεθοδολογία που αναπτύχθηκε στο προηγούμενο κεφάλαιο μας παρέχει εργαλεία για να πραγματοποιήσουμε αναγνώριση σημασιολογικών οντοτήτων σε πολυμεσικά δεδομένα. Χρησιμοποιώντας ιεραρχικά δομημένη γνώση μπορούμε να υπολογίσουμε τα κατάλληλα βάρη και να κατασκευάσουμε τη Σημασιολογική Εγκυκλοπαίδεια, ενώ στη συνέχεια με μια επιλογή από διαδικασίες, που περιγράφηκαν στην ενότητα 3.3 μπορούμε να συνάγουμε στα δεδομένα. Παρά την απλότητα των εκφράσεων, η πολυπλοκότητα του συμπερασμού μπορεί να είναι υψηλή έως απαγορευτική λόγω του υπολογιστικού κόστους των αλγορίθμων εξαγωγής των απαιτούμενων συντακτικών χαρακτηριστικών. Η τεράστια, και εκθετικά αυξανόμενη, διαθεσιμότητα ψηφιακού περιεχομένου δυσκολεύει την κατάσταση καθώς αυξάνει σε μεγάλο βαθμό το χώρο αναζήτησης. Επιπλέον έρχεται να προστεθεί και το πλήθος των πηγών από τις οποίες μπορεί να αντληθεί πληροφορία για μια σημασιολογική οντότητα, δηλαδή των οντοτήτων που μπορεί κανείς να αξιολογήσει για να πάρει πληροφορία για αυτή. Για να γίνει φανερό το πρόβλημα, έστω ότι χρησιμοποιούμε το σημασιολογικό λεξικό wordnet [114], για να μετατρέψουμε ένα απλό query σε ένα query 47

68 48 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ για λέξεις που σχετίζονται εννοιολογικά με το αρχικό, με τρόπο παρόμοιο με αυτόν της εργασίας [110]. Για παράδειγμα, η αναζήτηση εγγράφων που σχετίζονται με τη λέξη "medicine", με την έννοια της ιατρικής ειδικότητας, απαιτεί την αναζήτηση όρων (strings) που σχετίζονται έμμεσα ή άμεσα με την πρώτη, όπως "medical science" (synonym), "pathology" (coordinate term), "cardiology" (hyponym), "radiotherapy" (domain term) κ.τ.λ. Επαναλαμβάνοντας αναδρομικά για κάθε εμπλεκόμενο όρο μια παρόμοια διαδικασία query expansion, μετά από λίγα βήματα, ο προκύπτων ορισμός μπορεί να περιέχει χιλιάδες όρους (πλήθους εκθετικά αυξανόμενου ως προς τα επαναλαμβανόμενα expansions) Στόχος αυτού του κεφαλαίου είναι να δώσει τα κατάλληλα εργαλεία έτσι ώστε η σημασιολογική αναζήτηση να μπορεί να σχεδιαστεί χρησιμοποιώντας υποσύνολα του συνόλου των αλγορίθμων που ανιχνεύουν οντότητες οι οποίες συμμετέχουν στο λεπτομερή ορισμό μιας οντότητας υψηλότερου επιπέδου. Τα υποσύνολα αυτά είναι βέλτιστα, ως προς την παρεχόμενη πληροφορία και την αξία τους στην αναγνώριση, όπως αυτά μοντελοποιούνται από την Εγκυρότητα, ενώ ταυτόχρονα ικανοποιούν συγκεκριμένες υπολογιστικές απαιτήσεις. 4.2 Σχεδίαση της σημασιολογικής αναζήτησης Διαθέτοντας περιορισμένους υπολογιστικούς πόρους, δηλαδή ένα ορισμένο 'προϋπολογισμό' Πολυπλοκότητας για την αναγνώριση μιας Σημασιολογικής Οντότητας σε κάποιο έγγραφο είναι σημαντικό να μπορεί κάποιος να επιλέξει ένα υποσύνολο των αλγορίθμων που χρησιμοποιούνται στον ορισμό της οντότητας. Αυτοί οι αλγόριθμοι πρέπει να δίνουν τα καλύτερα δυνατά αποτελέσματα δεδομένων των υπολογιστικών περιορισμών. Σε αυτή την ενότητα ορίζουμε τρεις μετρικές μερικής αξιολόγησης ορισμών, επεκτείνοντας τις αντίστοιχες του κεφαλαίου 3 εφαρμόζοντάς τις σε υποσύνολα των αλγορίθμων. Στη συνέχεια τις χρησιμοποιούμε για να σχεδιάσουμε την αναζήτηση στη βάση είτε υπολογιστικών περιορισμών είτε ελάχιστης απαιτούμενης ακρίβειας του αποτελέσματος Μετρικές μερικής αξιολόγησης Ας υποθέσουμε ότι μόνο ένα υποσύνολο A A t του συνόλου των Συντακτικών Οντοτήτων A t = S Ek Y που συμμετέχουν στο λεπτομερή ορισμό E k χρησιμοποιείται στην αναγνώριση. Τότε η Μερική Βεβαιότητα της αναγνώρισης ορίζεται ως µ Ek (A) = U Yi A (I(F Y i E k, µ Yi )) (4.1)

69 4.2. ΣΧΕΔΙΑΣΗ ΤΗΣ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ 49 και δηλώνει την πεποίθησή μας ότι η οντότητα E k υπάρχει σε ένα έγγραφο, αξιολογώντας μόνο τις οντότητες που ανήκουν στο A. Από τις εξισώσεις (3.5) and (4.1) και από την μονοτονικότητα των τελεστών ασαφούς ένωσης συμπεραίνουμε ότι αν A A, τότε µ Ek (A) µ Ek (A ) και πιο συγκεκριμένα µ Ek (A) µ Ek (A t ) µ Ek (4.2) Ομοίως ορίζουμε τη Μερική Εγκυρότητα ως V(E k / A) = U Yi A (F Y i E k ). (4.3) Αυτή η μετρική είναι ιδιαίτερα σημαντική καθώς μας δίνει ένα μέσο μέτρησης της ποιότητας του συνόλου A στην περίπτωση της αναγνώρισης της E k και μπορεί να προϋπολογιστεί, καθώς είναι ανεξάρτητο του εκάστοτε πολυμεσικού εγγράφου. Αν η Εγκυρότητα του A είναι υψηλή, μπορεί κανείς να εμπιστευθεί την απάντηση που προκύπτει από την αξιολόγηση αποκλειστικά των οντοτήτων που εμπεριέχονται στο A. Η Μερική Εγκυρότητα είναι επίσης φραγμένη από την ολική Εγκυρότητα του ορισμού, V(E k / A) V(E k /A t ) V(E k ) (4.4) Τέλος, ορίζουμε τη Μερική Πολυπλοκότητα ως C(E k /A) = i A c(t i ) (4.5) και εφόσον οι τιμές c(t i ) της Πολυπλοκότητας είναι μη αρνητικές ισχύει ότι C(E k /A) C(E k ) (4.6) Σχεδίαση με βάση την πολυπλοκότητα Ας θεωρήσουμε ένα κατώφλι πολυπλοκότητας C T το οποίο δίνεται σαν άνω φράγμα κόστους της αναγνώρισης μιας Σημασιολογικής Οντότητας E k χρησιμοποιώντας έναν λεπτομερή ορισμό. Από το δυναμοσύνολο 2 S E k της σκοπιάς S Ek, επιλέγουμε τα υποσύνολα A i που ικανοποιούν τον περιορισμό C(E k /A i ) C T (4.7) Το βέλτιστο υποσύνολο A T είναι αυτό που θα δώσει τη μεγαλύτερη Εγκυρότητα V(E k /A T ) = max (V(E k /A i )) (4.8) A i 2 S E k

70 50 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ Όπως είναι φανερό ένα κατώφλι πολυπλοκότητας C T C(E k ) οδηγεί σε πλήρη αξιολόγηση του ορισμού αυτού Σχεδίαση με βάση την εγκυρότητα Με παρόμοιο τρόπο μπορούμε να σχεδιάσουμε τη διαδικασία της αναγνώρισης με βάση την Εγκυρότητα, θέτοντας σαν κατώφλι V T μια τιμή Εγκυρότητας, κάτω από την οποία καμιά απάντηση δε γίνεται αποδεκτή. Έτσι επιλέγουμε τα υποσύνολα A i του δυναμοσυνόλου 2 S E k για τα οποία ικανοποιείται το κριτήριο V(E k /A i ) V T (4.9) Στην περίπτωση αυτή το βέλτιστο υποσύνολο A T είναι αυτό το οποίο έχει τη μικρότερη πολυπλοκότητα, δηλαδή C(E k /A i ) = min (C(E k /A i )) (4.10) A i 2 S E k Παρατηρούμε ότι ένα κατώφλι Εγκυρότητας V T > V(E k ) μεγαλύτερο από την ολική του ορισμού, δεν μπορεί να τεθεί καθώς σε αυτήν την περίπτωση δεν υπάρχει κανένα υποσύνολο A i που να ικανοποιεί τον περιορισμό της εξίσωσης (4.9). Εκτός από τη σχεδίαση με βάση την Πολυπλοκότητα ή την Εγκυρότητα, κάποιος μπορεί να επιλέξει παραλλαγές ανάλογα με τις ανάγκες κάθε εφαρμογής. Για παράδειγμα η επιβολή ασαφών κατωφλίων ή η χρήση συνδυαστικών κριτηρίων (περιέχοντας περιορισμούς τόσο για την Εγκυρότητα όσο και για την Πολυπλοκότητα) Ένα τελείως άχρηστο αλλά μάλλον διδακτικό παράδειγμα Ο κ. Πεταλούδας αγαπάει τις πεταλούδες και έχει εγκαταστήσει μια κάμερα στον κήπο του με σκοπό να ειδοποιείται όποτε μια πεταλούδα τυχαίνει να περνά από κει. Κάποιος ειδικός παρήγαγε λοιπόν έναν ορισμό για τις πεταλούδες σύμφωνα με τον οποίο μια πεταλούδα: Έχει σχήμα που ταιριάζει σε ένα βαθμό με ένα πρότυπο σχήμα, το πέταγμά της έχει μια περιοδική "πάνω-κάτω" κίνηση με συχνότητα μέσα σε ένα συγκεκριμένο διάστημα [f 0, f 1 ] ενώ έχει μια τάση να πλησιάζει και να κάνει στάση σε λουλούδια. Ας συμβολίσουμε ότι η απόσταση του σχήματος της πεταλούδας από το πρότυπο με d και την ταχύτητά της με v. Από την άλλη πλευρά η έννοια λουλούδι ("Flower") αναγνωρίζεται από τα έντονο χρώματα ("vivid colors") του (ο κήπος του κυρίου Πεταλούδα δεν έχει

71 4.2. ΣΧΕΔΙΑΣΗ ΤΗΣ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ 51 άλλα αντικείμενα έντονου χρώματος), αλλά και από το σχήμα του, το οποίο πρέπει να μοιάζει σε ένα πρότυπο σχήμα λουλουδιού και έστω ότι με d f συμβολίζουμε την απόσταση του σχήματος του υποψήφιου λουλουδιού από το τελευταίο. Αφού διάβασε λοιπόν το κεφάλαιο 3 αυτής της διατριβής, ο κ. Πεταλούδας οργάνωσε τους ορισμούς ως ακολούθως: "Butterf ly" = "Stop on Flower"/0.5 + "Shape"/0.8 + "Flight"/0.9 (4.11) "Stop on Flower" = "Flower"/0.9 + (v close to 0)/0.8 (4.12) "Shape" = (small d)/0.8 (4.13) "Flight" = (f close to the range [f 0, f 1 ])/0.95 (4.14) "Flower" = (vivid colors)/0.9 + (small d f )/0.6 (4.15) Οι τιμές της πολυπλοκότητας των αλγορίθμων που αξιολογούν τις αντίστοιχες συντακτικές οντότητες δίνονται στον πίνακα 4.1. Συντακτική Οντότητα Πολυπλοκότητα (MFLOPS) v close to small d 300 f close to the range [f 0, f 1 ] 400 vivid colors 100 small d f 300 Συνολική Πολυπλοκότητα 1300 Πίνακας 4.1: Τιμές πολυπλοκότητας για τον ορισμό της έννοιας B. Μετά από αρκετές ρυθμίσεις με την κάμερα και το λογισμικό, η μέθοδος αποδείχτηκε όντως καλή στο να ανιχνεύει πεταλούδες κατά τη διάρκεια των δοκιμών. Παρόλα αυτά, όταν ο κ. Πεταλούδας δοκίμασε τελικά να χρησιμοποιήσει τη μέθοδο στον, σχετικά παλιό, υπολογιστή του, είδε ότι αυτή απαιτούσε περισσότερους υπολογιστικούς πόρους από αυτούς που μπορούσε να διαθέσει. Αποφεύγοντας την ανάγνωση του κεφαλαίου 4, σκέφτηκε πως οι ιδέες της ενότητας θα μπορούσαν να απλοποιήσουν τη διαδικασία, αν ακολουθούσε την προσέγγιση του υπεργολάβου για τη Σημασιολογική Οντότητα "Flower", καθώς αυτή μπορεί να αναγνωρίζεται μία φορά ημερησίως, κάθε πρωί, και το αποτέλεσμα να χρησιμοποιείται για το υπόλοιπο της ημέρας. Το υπολογιστικό κέρδος ήταν c(small d f ) + c(vivid colors) = 400 ενώ παρέμενε ακόμα πολυπλοκότητα στον ορισμό C total = 900. Όμως, η απομένουσα Πολυπλοκότητα ήταν ακόμα υπερβολικά υψηλή για τον υπολογιστή του. Τότε ο κ. Πεταλούδας αποφάσισε να διαβάσει το κεφάλαιο 4 και να εφαρμόσει την προτεινόμενη μεθοδολογία.

72 52 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ Ο κ. Πεταλούδας υιοθέτησε την απευθείας αντικατάσταση (βλ. παρ ), για να μετατρέψει τον ορισμό των εξισώσεων (4.11) σε έναν λεπτομερή ορισμό. Σαν τελεστές ασαφούς τομής και ένωσης επέλεξε το αλγεβρικό γινόμενο και το άθροισμα αντιστοίχως (I(a, b) = ab, U(a, b) = a + b ab). Το αποτέλεσμα ήταν Butterfly = (v close to 0)/0.4 + (small d)/ (f close to the range [f 0, f 1 ])/0.855 (4.16) + "Flower"/0.45. Η συνολική Εγκυρότητα και η Πολυπλοκότητα του ορισμού είναι V t = και C t = 900. Αντίστροφα, θέτοντας ένα κατώφλι C T = 400 και σχεδιάζοντας με βάση την Πολυπλοκότητα (βλ. ενότητα 4.2.2), η προκύπτουσα Εγκυρότητα είναι V = , η οποία προκύπτει με την αξιολόγηση του (f close to the range [f 0, f 1 ]), και λαμβάνοντας υπόψη τη Σημασιολογική Οντότητα "Flower" η οποία υπολογίστηκε με τη μέθοδο των υπεργολάβων. Η Πολυπλοκότητα αυτής της αναγνώρισης είναι C = C T = 400 και ο κ. Πεταλούδας είναι πλέον χαρούμενος. Αυτή είναι μια αρκετά ακραία περίπτωση, κατά την οποία θεωρήσαμε ότι η Συντακτική Οντότητα (f close to the range [f 0, f 1 ]) είναι πολύ σημαντικότερη από τις υπόλοιπες και έτσι η προκύπτουσα αύξηση της Εγκυρότητας μέσω της αναγνώρισής της μεγάλη. Επιπλέον, η Εγκυρότητα αυξάνεται λόγω της χρήσης ενός υπεργολάβου για τον υπολογισμό της έννοιας "Flower" και η οποία προϋπολογίζεται (και επιλέγεται να εφαρμοστεί κάθε φορά στο βέλτιστο υποσύνολο εφόσον δεν έχει υπολογιστικό κόστος). 4.3 Αναπαράσταση με Πεπερασμένα Αυτόματα Στην ενότητα αυτή επιχειρούμε να αναπαραστήσουμε την προτεινόμενη διαδικασία της σημασιολογικής αναγνώρισης χρησιμοποιώντας τη θεωρία των πεπερασμένων αυτομάτων. Η αναπαράσταση αυτή δεν προσφέρει λύση στο πρόβλημα επιλογής του βέλτιστου υποσυνόλου αλγορίθμων που πρέπει να εκτελεστούν για ένα ορισμένο υπολογιστικό κατώφλι, καθώς αυτό θα αντιμετωπιστεί στην ενότητα 4.4. Ωστόσο δίνει μια καλή διαίσθηση για το ποιες είναι οι συνθήκες του προβλήματος. H διαδικασία υπολογισμού της Βεβαιότητας υλοποιείται στην πράξη σειριακά ως προς το σύνολο των αλγορίθμων που αποτιμούνται. Επομένως, μέχρι να ολοκληρωθεί η αποτίμηση, οι υπολογισμοί περνούν από ενδιάμεσες καταστάσεις, όπου τα επί μέρους σύνολα έχουν μόνο εν μέρει αξιολογηθεί. Έτσι, η διαδικασία σταδιακής ενεργοποίησης των επί μέρους αλγορίθμων μπορεί να αναπαρασταθεί με τη διάτρεξη ενός πεπερασμένου αυτομάτου [115], σε

73 4.3. ΑΝΑΠΑΡΑΣΤΑΣΗ ΜΕ ΠΕΠΕΡΑΣΜΕΝΑ ΑΥΤΟΜΑΤΑ 53 U{e}- {a} U{e} a (,{a}) ({a}, ) Σχήμα 4.1: Το Στοιχειώδες Αυτόματο που αντιστοιχεί στον ορισμό A J = F AJ a/a. κάθε κατάσταση του οποίου καταγράφεται: Ποιοι αλγόριθμοι έχουν αποτιμηθεί και ποιοι όχι Τι εγκυρότητα προσδίδει η κατάσταση στην αναζήτηση Τι πολυπλοκότητα απαιτείται για να φτάσουμε στην κατάσταση Το Στοιχειώδες Αυτόματο Θεωρώντας τον απλούστερο δυνατό ορισμό A 1 J μιας Σημασιολογικής Οντότητας A που εξαρτάται από μία Συντακτική Οντότητα a, η εξίσωση (3.4) παίρνει τη μορφή A J = F AJ a/a. (4.17) Έτσι, για να αναγνωρίσει κανείς την Οντότητα A σε ένα έγγραφο απαιτείται η χρήση μόνο του αλγορίθμου a Σ, όπου με Σ συμβολίζεται όλο το σύνολο των υπό εξέταση αλγορίθμων και όπου επιλέξαμε να ονοματίσουμε τον αλγόριθμο δανειζόμενοι το όνομα της αντίστοιχης Οντότητας. Η αναγνώριση, λοιπόν, της A αρχίζει όταν ο αλγόριθμος a εκτελείται και τελειώνει με το τέλος της εκτέλεσής του. Αυτή η απλή διαδικασία αναπαρίσταται από το αυτόματο που φαίνεται στην Εικόνα 4.1 και το οποίο ονομάζουμε Στοιχειώδες Αυτόματο Το Επαυξημένο Αυτόματο (ΕΑ) Για να αναπαραστήσουμε περισσότερο πολύπλοκους ορισμούς, αλλά και τις αντίστοιχες διαδικασίες αναγνώρισης, που βασίζονται σε πολλαπλές Συντακτικές Οντότητες, χρησιμοποιούμε τις πράξεις της ένωσης και της τομής, όπως αυτές ορίζονται για τα πεπερασμένα αυτόματα στο [115]. Έτσι, το αυτόματο που αναπαριστά έναν απλό λεπτομερή ορισμό της μορφής της εξίσωσης 1 με A J παριστάνεται ένας από τους πιθανούς εναλλακτικούς ορισμούς της οντότητας A, ο οποίος δεικτοδοτείται με το δείκτη J

74 54 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ (3.4) προκύπτει μετά από επαναλαμβανόμενη τομή στοιχειωδών αυτομάτων καθένα από τα οποία αντιστοιχεί σε έναν όρο F ki /Y i της εξίσωσης. Επιπλέον, όταν είναι διαθέσιμοι περισσότεροι από ένας εναλλακτικοί ορισμοί, η διαδικασία αναπαρίσταται με την ένωση των επιμέρους αυτομάτων που παράγονται για κάθε ορισμό. Το αποτέλεσμα ονομάζεται Επαυξημένο Αυτόματο, η αρχική κατάσταση του οποίου ακολουθείται από εναν αριθμό κλάδων που αντιστοιχούν σε όλους τους διαθέσιμους εναλλακτικούς ορισμούς. Στην εικόνα 4.2 φαίνεται το Επαυξημένο Αυτόματο που αντιστοιχεί στους παρακάτω ορισμούς της έννοιας A A 1 = {a, b, c} (4.18) και A 2 = {a, d} (4.19) όπου τα βάρη των αλγορίθμων έχουν παραληφθεί για χάρη της απλότητας. Κάθε κατάσταση q του αυτομάτου χαρακτηρίζεται από ένα διατεταγμένο ζεύγος (A, B) όπου το A συμβολίζει το σύνολο των αλγορίθμων που έτρεξαν για να φτάσουμε στην κατάσταση q ενώ το B είναι το σύνολο των αλγορίθμων που απομένουν για να φτάσουμε στο τέλος του κλάδου που αντιστοιχεί στο συγκεκριμένο ορισμό. Παρατηρούμε ότι, καθώς περισσότεροι από ένας εναλλακτικοί ορισμοί μπορεί να βασίζονται σε κοινές συντακτικές ιδιότητες, πολλαπλές καταστάσεις του αυτομάτου μπορεί να είναι ενεργές ταυτόχρονα Μετρικές αναγνώρισης Οι μετρικές ολικής αναγνώρισης όπως ορίστηκαν στην ενότητα και οι αντίστοιχες μερικές μετρικές της ενότητας μπορούν να χρησιμοποιηθούν για να χαρακτηρίσουν κάθε κατάσταση του αυτομάτου. Πολυπλοκότητα Η Πολυπλοκότητα είναι το απαιτούμενο υπολογιστικό κόστος για να φτάσουμε μια κατάσταση q = (A, B) του Επαυξημένου Αυτομάτου και ισούται με την συνολική πολυπλοκότητα των αλγορίθμων που σχετίζονται με τις Συντακτικές Οντότητες του συνόλου A = {t 1, t 2,..., t n }, δηλαδή c((a, B)) = t i A c(t i ) (4.20) Καθώς, όπως αναφέρθηκε, ένα Επαυξημένο Αυτόματο μπορεί να βρίσκε-

75 4.3. ΑΝΑΠΑΡΑΣΤΑΣΗ ΜΕ ΠΕΠΕΡΑΣΜΕΝΑ ΑΥΤΟΜΑΤΑ 55 a b ({a}{b, c}) (,{a,b,c}) ({b},{a, c}) b c a ({a,b},{c}) ({a,c},{b}) c b ({a,b,c}, ) e c c a a ({c},{a, b}) b ({b,c},{a}) (,{e}) e a ({a},{d}) d (,{a,d}) ({a,d}, ) d ({d},{a}) a Σχήμα 4.2: Το Επαυξημένο Αυτόματο που αντιστοιχεί στους ορισμούς A 1 = {a, b, c} και A 2 = {a, d} της έννοιας A. ται σε δύο ή περισσότερες καταστάσεις ταυτόχρονα, η Ολική Πολυπλοκότητα ενός συνόλου τέτοιων καταστάσεων Q = {(A 1, B 1 ), (A 2, B 2 ),... } προκύπτει ως: C(Q) = c(t i ) (4.21) A J t i J Εγκυρότητα Μετρώντας το ποσό πληροφορίας που συγκεντρώθηκε σε μια κατάσταση, η Εγκυρότητα μας δίνει την αξιοπιστία του αποτελέσματος αν χρησιμοποιηθεί το υποσύνολο A των Συντακτικών Εννοιών. Αν ως m kj ορίσουμε την αξιοπιστία του ορισμού J της E k, η Εγκυρότητα της q θα είναι λοιπόν: v J (E k /q) v J (E k /(A, B)) = I(m kj, U t A (F kjt )) (4.22) Η εξίσωση (4.22) δείχνει ότι ένας μερικός ορισμος δεν μπορεί να είναι πιο "έγκυρος" από έναν ολικό και πως η Εγκυρότητα δεν μπορεί να μειώνεται καθώς διασχίζει κανείς το αυτόματο. Έτσι, ο συνυπολογισμός περαιτέρω εννοιών μπορεί μόνο να αυξήσει την Εγκυρότητα του ορισμού. Επιπλέον, σε αντιστοιχία με την εξίσωση (4.21) η Ολική Εγκυρότητα ορίζεται

76 56 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ ως η ασαφής ένωση ενός συνόλου καταστάσεων Q = {q 1, q 2,..., q n }: V(E k /Q) = U q Q [v J (E k /q)] (4.23) Βεβαιότητα Κατά την εξέταση του ίδιου του πολυμεσικού εγγράφου, σε αντιστοιχία με την εξίσωση (3.5) και σε αντιστοιχία με την εξ. (4.22), η Βεβαιότητα μιας κατάστασης q = (A, B) είναι όπου µ Yt µ J (E k /q) µ J (E k /(A, B)) = I(m kj, U t A (I(F kt, µ Yt ))) (4.24) είναι η τιμή της συνάρτησης συμμετοχής για τη Συντακτική Οντότητα t στο συγκεκριμένο έγγραφο. Όπως είναι αναμενόμενο, για κάθε κατάσταση q, η Βεβαιότητα είναι άνω φραγμένη από την Εγκυρότητα: µ J (E k /q) v J (E k /q) (4.25) είναι Τέλος, η Ολική Βεβαιότητα ενός συνόλου καταστάσεων Q = {q 1, q 2,..., q n } (E k /Q) = U i=1,...,n [µ J(E k /q i )] (4.26) η οποία, μέσω των εξισώσεων (4.23), (4.24) και (4.26) αποδεικνύεται φραγμένη από την Ολική Εγκυρότητα: (E k /Q) V(E k /Q) (4.27) Το Ισοδύναμο Επαυξημένο Αυτόματο (ΙΕΑ) Θεωρώντας ένα Επαυξημένο Αυτόματο M 1 το οποίο αναπαριστά τους εναλλακτικούς ορισμούς E kj1, E kj2,..., E kjn μιας οντότητας E k μπορούμε να κατασκευάσουμε το Ισοδύναμο Επαυξημένο Αυτόματο M 2 το οποίο περιέχει έναν μόνο ορισμό, τον E kj = E kj1 E kj2... E kjn. Κάθε κατάσταση (A, B) του M 2 είναι μια απεικόνιση ενός συνόλου καταστάσεων του M 1, (A i, B i ), τις οποίες επισκεπτόμαστε τρέχοντας τους αλγορίθμους που περιλαμβάνονται στο A. (A i, B i ) = (E kji A, E kji B) (4.28) Παρατηρώντας ότι (A, B) = ( i A i, i B i ), ορίζουμε την Πολυπλοκότητα ως c((a, B)) = C i ((A i, B i )) = C i ((E kji A, E kji B)) (4.29)

77 4.4. ΕΠΙΛΥΣΗ ΜΕ ΔΥΝΑΜΙΚΟ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 57 Επίσης, λαμβάνοντας υπόψη τις εξισώσεις (4.22), (4.23) και (4.28), ορίζουμε σαν Εγκυρότητα της κατάστασης (A, B) του M 2, την ολική εγκυρότητα της (A i, B i ) του M 1 η οποία, σύμφωνα με την εξίσωση (4.23), γράφεται: v(e k /(A, B)) = U i (v J (E k /(A i, B i ))) = U i (v J (E k /((E kji A, E kji B)) (4.30) Τέλος, η Βεβαιότητα προκύπτει με παρόμοι τρόπο σύμφωνα με τις εξισώσεις (4.24), (4.26) and (4.28): µ(e k /(A, B)) = U i (µ J (E k /(A i, B i ))) = U i [µ J (E k /((E kji A, E kji B)))] (4.31) Η ισοδυναμία μεταξύ των αυτομάτων M 1 και M 2 αναφέρεται στο γεγονός ότι τρέχοντας το ίδιο σύνολο αλγορίθμων σε κάθε αυτόματο, καταλήγουμε σε καταστάσεις με ίση Πολυπλοκότητα, Εγκυρότητα και Βεβαιότητα. Θεωρώντας το αυτόματο του σχήματος 4.2, το ισοδύναμό του παρουσιάζεται στην εικόνα 4.3. Πρέπει να παρατηρήσουμε ότι το ΙΕΑ διασχίζεται με ντετερμινιστικό τρόπο, έχοντας ενεργοποιημένη μία κατάσταση κάθε φορά κάτι που μας επιτρέπει να υπολογίσουμε απευθείας την Ολική Πολυπλοκότητα και Βεβαιότητα της αναζήτησης. Από την άλλη πλευρά, η χρήση του ΕΑ επιτρέπει μια πιο αρθρωτή (modular) σχεδίαση καθώς επιτρέπει τη σχεδίαση της αναζήτησης βασισμένη μόνο σε κάποιο υποσύνολο των εναλλακτικών ορισμών. 4.4 Επίλυση με δυναμικό προγραμματισμό Το πρόβλημα της αναζήτησης ανάμεσα σε 2 S E k υποσύνολα προς επιλογή του βέλτιστου, σύμφωνα με τα κριτήρια των παραγράφων και 4.2.3, έχει απαγορευτικό υπολογιστικό κόστος καθώς το μέγεθος του χώρου αναζήτησης αυξάνεται εκθετικά σε σχέση με τον αριθμό n των εννοιών. Η χρήση ενός εξαντλητικού αλγόριθμου αναζήτησης θα είχε χρονική πολυπλοκότητα της τάξης O(2 n ). Σε αυτή την παράγραφο η αναζήτηση μοντελοποιείται σαν τροποποιημένο πρόβλημα knapsack [116], με μια μη γραμμική συνάρτηση κέρδους (Εγκυρότητα) και επιλύεται σε ψευδο-πολυωνυμικό χρόνο. Ας θεωρήσουμε, λοιπόν, μια συλλογή {1, 2,..., n} από n Συντακτικές Οντότητες και ένα κατώφλι Πολυπλοκότητας C T > 0. Ο στόχος σε μια σχεδίαση με βάση την Πολυπλοκότητα είναι η εύρεση του βέλτιστου συνόλου X (C T ) = {x 1, x 2,..., x n }, με τη μεταβλητή x i {0, 1} να δηλώνει αν η οντότητα i έχει αξιο-

78 58 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ q 2 b c a q 1 a b q 6 c q 3 d q 9 d b q 10 a d q 5 a q 0 c a d a b q 4 b c c c a q 13 a q 8 b d q 7 d d q 14 c q 12 b q 11 b d q 15 c Σχήμα 4.3: Το Ισοδύναμο Επαυξημένο Αυτόματο που αναπαριστά τη σημασιολογική αναζήτηση της οντότητας A σε ισοδυναμία με το Επαυξημένο Αυτόματο του σχ Χρησιμοποιούνται τέσσερις αλγόριθμοι και έτσι έχουμε ένα αυτόματο αποτελούμενο από 2 4 = 16 καταστάσεις. Στη γενική περίπτωση, χρήση n αλγορίθμων οδηγεί σε 2 n καταστάσεις.

79 4.4. ΕΠΙΛΥΣΗ ΜΕ ΔΥΝΑΜΙΚΟ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 59 λογηθεί (x i = 1) ή όχι (x i = 0), τέτοιου ώστε να μεγιστοποιηθεί η ποσότητα: U n i=1(f ik x i ) (4.32) υπό τον περιορισμό: n (c(t i ) x i ) C (4.33) i=1 Το πρόβλημα αυτό μπορεί να επιλυθεί αποτελεσματικά με τη χρήση δυναμικού προγραμματισμού. Αυτή η προσέγγιση δεν επιλύει μόνο το αρχικό πρόβλημα X n (C T ), χρησιμοποιώντας n αλγορίθμους, αλλά και όλα τα υποπροβλήματα της μορφής X j (d), όπου d = 0,..., C T και j = {1}, {1, 2},..., {1,..., n} 2. Η εφαρμογή δυναμικού προγραμματισμού επιστρέφει έναν πίνακα που περιέχει τις λύσεις val (d), d = 0,..., C T για όλα τα υποπροβλήματα. Στην πραγματικότητα, val (d) val n (d), όπου όλοι οι n αλγόριθμοι λαμβάνονται υπόψη. Το αντίστοιχο σύνολο είναι το X (d) X n (d). Η αναδρομή του Bellman [117] χρησιμοποιείται για το σκοπό αυτό, όπου αν η ποσότητα val j 1 (d) έχει υπολογιστεί για όλα τα κατώφλια Πολυπλοκότητας d = 0,..., C T τότε μπορούμε να υπολογίσουμε το val j (d) (κατά την προσθήκη του αλγορίθμου j) σύμφωνα με την εξίσωση (4.34). val j 1 (d) αν d c(j) val j (d) = (4.34) max{val j 1 (d), U(val j (d c(j)), F jk )} αν d c(j) Ο ψευδοκώδικας που επιτελεί αυτή τη λειτουργία παρουσίαζεται στον Αλγόριθμο 1. Επιπλέον, για να υπολογίσουμε το βέλτιστα σύνολα αλγορίθμων X (d) για κάθε κατώφλι (βλ. [116] σελ ), παρατηρούμε ότι το σύνολο X j (d) διαφέρει από αυτό της προηγούμενης επανάληψης j 1 κατά ένα το πολύ στοιχείο x j. Είναι λοιπόν αρκετό να αποθηκεύουμε σε κάθε επανάληψη έναν δείκτη A j (d) 0, 1, τέτοιο ώστε 1, αν ο j συμπεριλ. (val j (d) := U(val j 1 (d c(j)), F jk ) > val j 1 (d)) A j (d) = 0, αν ο j δεν συμπεριλ. (val j (d) := val j 1 (d)) (4.35) Τέλος, για να κατασκευάσουμε το σύνολο X (d), διατρέχοντας τους δείκτες A j (d), εργαζόμαστε ως εξής: Αν A n (d) = 1 τότε ο αλγόριθμος n ανήκει στο βέλτιστο υποσύνολο και συνεχίζουμε ελέγχοντας το στοιχείο A n 1 (d c(j)), διαφορετικά (A n (d) = 0) ο n δεν ανήκει στο υποσύνολο και συνεχίζουμε ελέχ- 2 Η σειρά διάταξης των αλγορίθμων δεν παίζει ρόλο στη συγκεκριμένη θεώρηση.

80 60 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ Algorithm 1 Σχεδίαση με δυναμικό προγραμματισμό. 1: for d := 0 to C T do 2: val 0 (d) := 0 3: end for 4: for j := 1 to n do 5: for d := 0 to c(j) do 6: val j (d) := val j 1 (d) 7: end for 8: for d := c(j) to C T do 9: if U(val j 1 (d c(j)), F jk ) > val j 1 (d) then 10: val j (d) := U(val j 1 (d c(j)), F jk ) 11: else 12: val j (d) := val j 1 (d) 13: end if 14: end for 15: end for 16: for d := 0 to C T do 17: val (d) := val n (d) 18: end for γοντας το στοιχείο A n 1 (d). Για να αποδείξουμε την ορθότητα του αλγορίθμου 1, παρατηρούμε ότι για j = 1 οι τιμές val 1 (d) είναι βέλτιστες για κάθε κατώφλι d, εφόσον υπάρχει μόνο ένας αλγόριθμος για να συμπεριληφθεί. Στη συνέχεια, επαγωγικά υποθέτουμε ότι 1 < j n, val j 1 (d) είναι οι βέλτιστες τιμές Εγκυρότητας για κάθε κατώφλι d, τέτοιο ώστε 0 d C T. Τότε προκύπτουν οι ακόλουθες περιπτώσεις: 1. Η διαθέσιμη Πολυπλοκότητα d είναι μικρότερη από την απαιτούμενη c(j), οπότε ο αλγόριθμος j δεν μπορεί να συμπεριληφθεί και το βέλτιστο υποσύνολο έχει Εγκυρότητα val j (d) = val j 1 (d). 2. Υπάρχει αρκετή διαθέσιμη Πολυπλοκότητα για τον αλγόριθμο j, δηλαδή d c(j) και ο j μπορεί να συμπεριληφθεί. Στη δεύτερη περίπτωση μένει να αποδείξουμε ότι val j (d) = max(val j 1 (d), U(val j 1 (d c(j)), F jk )) (4.36). Aν ο j συμπεριληφθεί, λοιπόν, τότε αυτός μπορεί να προστεθεί σε οποιοδήποτε υποσύνολο που αντιστοιχεί στο val j 1 (l), όπου l d c(j) (εφόσον ο j απαιτεί τουλάχιστον c(j) από τη διαθέσιμη Πολυπλοκότητα). Σε αυτήν την περίπτωση, η μέγιστη δυνατή Εγκυρότητα του υποσυνόλου είναι val j (d) = U(val j 1 (d c(j)), F jl ) διότι val j 1 (d c(j)) val j 1 (l) καθώς η Εγκυρότητα εί-

81 4.5. ΠΕΙΡΑΜΑΤΑ 61 ναι αύξουσα συνάρτηση. Η μέγιστη Εγκυρότητα θα προκύψει συνεπώς από τη μέγιστη των δύο τιμών και έτσι καταλήγουμε στην εξίσωση (4.36). Συνεπώς η συνάρτηση (4.34) μπορεί να χρησιμοποιηθεί όταν η συνάρτηση κέρδους είναι η Εγκυρότητα. Η υπολογιστική πολυπλοκότητα του αλγορίθμου 1 είναι O(nC T ), δηλαδή το πρόβλημα επιλύεται σε ψευδο-πολυωνυμικό χρόνο. Ταυτόχρονα, όμως, επιλύονται και όλα τα υποπροβλήματα της μορφής X j (d), οπότε θέτοντας ένα κατώφλι C T C total έχουμε τη λύση για όλα τα δυνατά υποπροβλήματα που αφορούν την αντίστοιχη έννοια. 4.5 Πειράματα Τυχαίες είσοδοι Εκτελέσαμε ένα σύνολο ενδεικτικών συνθετικών πειραμάτων, τα αποτελέσματα των οποίων παρουσιάζονται σε αυτήν την ενότητα. Κατά το πρώτο πείραμα, κατασκευάζεται ένας τυχαίος λεπτομερής ορισμός που αποτελείται από 100 συντακτικά χαρακτηριστικά με τυχαία επιλεγμένες, από ομοιόμορφη κατανομή, τιμές για τις Πολυπλοκότητες τα βάρη τους. Η εικόνα 4.4 παρουσιάζει τις τιμές της Εγκυρότητας που επιτυγχάνονται για διάφορα κατώφλια Πολυπλοκότητας. Παρατηρείται ότι μπορούν να επιτευχθούν ικανοποιητικές τιμές Εγκυρότητας κάτω υπό σχετικά αυστηρούς περιορισμούς Πολυπλοκότητας. Παρόλο που η αύξηση του κατωφλίου της δεύτερης έχει σαν αποτέλεσμα την αύξηση και της πρώτης, μετά από ένα σημείο αυτή η αύξηση δεν είναι ανάλογη του απαιτούμενου υπολογιστικού κόστους. Αξίζει επίσης να ειπωθεί ότι ενώ η εξαντλητική αποτίμηση ένός τέτοιου ορισμού θα απαιτούσε ένα τεράστιο υπολογιστικό κόστος, της τάξης των υπολογισμών, η χρήση του Αλγορίθμου 1 έχει σαν αποτέλεσμα την επίλυση σε κάποια εκατοστά του δευτερολέπτου σε έναν τυπικό Pentium υπολογιστή Αναγνωρίζοντας ένα τραπέζι Σε αυτό το πείραμα κατασκευάζουμε έναν ορισμό για την έννοια "τραπέζι" ("table"). Όπως φαίνεται και στο σχήμα 4.5, η οντότητα "table" (E 01 ) ορίζεται σαν E 01 = 0.9/Y /E 02, όπου E 02 = 0.6/Y /Y /Y 04. Για να παράγουμε το λεπτομερή ορισμό χρησιμοποιούμε το αλγεβρικό γινόμενο σαν τελεστή ασαφούς τομής I και το, συμπληρωματικό του, αλγεβρικό άθροισμα για την ασαφή ένωση : I(a, b) = ab

82 62 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ 1 Dynamic Programming Validity Complexity Threshold Σχήμα 4.4: Σχεδίαση με βάση την Πολυπλοκότητα για μια έννοια με χρήση δυναμικού προγραμματισμού. TABLE (E01) m table = 0.8 TWO LEGS (E02) m two legs = horizontal surface (Y01) TWO LEGS (E02) two straight lines (Y02) two vertical lines (Y03) same length (Y04) Σχήμα 4.5: Ορισμός της έννοιας "τραπέζι".

83 4.5. ΠΕΙΡΑΜΑΤΑ 63 (a) (b) (c) (d) (e) (f) Σχήμα 4.6: Σκίτσα που αναπαριστούν ένα "τραπέζι" U(a, b) = a + b ab (4.37) Συνθέτοντας τους ορισμούς με τη διαδικασία της απευθείας αντικατάστασης, όπως περιγράφεται στην ενότητα 3.2.3, προκύπτει ο ορισμός: E 01 = 0.9/Y /Y /Y /Y 04 (4.38) Μια εκτίμηση της πολυπλοκότητας κάθε συντακτικής οντότητας παρουσιάζεται στον πίνακα 4.2, όπου οι μονάδες που φαίνονται στη λίστα αντιστοιχούν σε 10 3 FLOPS. Στη συνέχεια χρησιμοποιήσαμε τα σχέδια που φαίνονται στο σχήμα 4.6 για να εξάγουμε τα συντακτικά χαρακτηριστικά και τελικά να υπολογίσουμε τη Βεβαιότητα ύπαρξης τραπεζιού (όπως ορίστηκε προηγουμένως) στο καθένα από αυτά. Τα αποτελέσματα της σχεδίασης με βάση την Εγκυρότητα φαίνονται στον πίνακα 4.2. Εδώ αξίζει να κάνουμε δύο σχόλια: (i) Η μεταβολή του κατωφλίου V έχει σαν αποτέλεσμα την επιλογή διαφορετικών αλγορίθμων (βλ. για παράδειγμα τις γραμμές ένα και δύο). (ii) Σχετικά υψηλή Εγκυρότητα και Βεβαιότητα μπορεί να προκύψει με χαμηλό υπολογιστικό κόστος, αλλά περαιτέρω άνοδος του κατωφλίου Εγκυρότητας επιφέρει δραματική αύξηση της απαιτούμενης Πολυπλοκότητας. Όμοια, τα αποτελέσματα της σχεδίασης με βάση την Πολυπλοκότητα περιλαμβάνονται στον πίνακα 4.3, για τιμές κατωφλίου Πολυπλοκότητας C = 3.7, 8, 13, 7. Τα αποτελέσματα και των δύο μεθόδων δείχνουν ότι μπορεί κανείς να υιο-

84 64 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ V Val. Compl. Algorithms (a) (b) (c) (d) (e) (f) , , 2, 3, Πίνακας 4.2: Σχεδίαση με βάση την Εγκυρότητα. Μεταβολή του κατωφλίου έχει σαν αποτέλεσμα την επιλογή διαφορετικών αλγορίθμων (συντακτικών οντοτήτων). C Val. Compl. Algorithms (a) (b) (c) (d) (e) (f) , , 3, , 2, 3, Πίνακας 4.3: Σχεδίαση με βάση την Πολυπλοκότητα θετήσει αποτελεσματικές στρατηγικές για τη βέλτιστη χρήση των υπολογιστικών πόρων κατά την σημασιολογική αναγνώριση Αναγνώριση αθλητικών σκηνών Μια ευρέως διαδεδομένη εφαρμογή η οποία έχει χρησιμοποιηθεί για την επίδειξη τεχνικών σημασιολογικής αναζήτησης είναι η αναγνώριση και ο αυτόματος σχολιασμός αθλητικών σκηνών. Πλειάδα τέτοιων τεχνικών έχουν παρουσιαστεί στη βιβλιογραφία (βλ. [108, 107, 118] για παράδειγμα). Το πείραμα αυτό δεν αποσκοπεί φυσικά στο να αντιμετωπίσει πλήρως αυτό το πρόβλημα, αλλά να επιδείξει πως η προτεινόμενη μεθοδολογία μπορεί να χρησιμοποιηθεί έτσι ώστε να βελτιστοποιηθούν τέτοιες διαδικασίες σε σχέση με το υπολογιστικό τους κόστος. Στο πείραμά μας χρησιμοποιήσαμε μια ακολουθία από 1181 καρέ, που αποτελείται από τρία είδη αθλημάτων: ποδόσφαιρο, αγώνες δρόμου και κολύμβηση. Στην εικόνα 4.7 φαίνονται τρία ενδεικτικά καρέ της ακολουθίας. Σχήμα 4.7: Ενδεικτικά από τις ακολουθίες βίντεο που χρησιμοποιήθηκαν.

85 4.5. ΠΕΙΡΑΜΑΤΑ 65 Ο πίνακας 4.4 περιέχει τους αριθμούς των καρέ που αντιστοιχούν στο κάθε άθλημα. Sport Frame Range Soccer Running Swimming Πίνακας 4.4: Τα αθλήματα και τα καρέ που αντιστοιχούν σε καθένα από αυτά. Για να αναγνωρίσουμε την οντότητα "αγώνας δρόμου" χρησιμοποιήσαμε τους ορισμούς E 00J1 = 0.9/E /Y 00 (4.39) E 01J2 = 0.9/Y /Y 02 (4.40) Οι οντότητες που αναπαριστώνται από τα προηγούμενα σύμβολα παρουσιάζονται στον πίνακα 4.5, μαζί με την απαιτούμενη πολυπλοκότητα των αλγορίθμων εξαγωγής των αντίστοιχων χαρακτηριστικών. Σύμβολο Οντότητα Πολυπλοκότητα (kflops) E 00 Track and Field Running N/A E 01 Track and Field Running Terrain N/A Y 00 Parallel Mobile Object Movement 20 Y 01 Bordeaux Ground Color 8 Y 02 8 Straight Lines 15 Πίνακας 4.5: Σύμβολα, Οντότητες και οι αντίστοιχες τιμές Πολυπλοκότητας για την αναγνώριση της έννοιας "αγώνας δρόμου". Οι τιμές των βαρών υποδηλώνουν τη σημασία καθεμιάς από τις Οντότητες στην αναγνώριση. Για παράδειγμα παρατηρούμε ότι η Συντακτική Οντοτητα "Bordeaux Ground Color" (Y 01 ) έχει τιμή F 02J1 01 = 0.9, δηλαδή ένα υψηλό βάρος. Αυτή η επιλογή δικαιολογείται από τη σημασία του χρώματος στο να διακρίνει κανείς το δάπεδο, καθώς επίσης και από την αξιοπιστία του αλγορίθμου με τον οποίο γίνεται η εξαγωγή αυτού του χαρακτηριστικού. Από την άλλη, η Συντακτική Οντότητα "8 Straight lines" έχει μικρότερο βάρος, παρόλο που και αυτή είναι πολύ σημαντική στην αναγνώριση του δαπέδου. Αυτό συμβαίνει γιατί η μέθοδος που χρησιμοποιείται για την εξαγωγή των γραμμών (μετασχηματισμός Hough) συνήθως αναγνωρίζει επιπλέον ευθείες γραμμές οι οποίες υπάρχουν στο περιβάλλον, πέρα από τις ζητούμενες γραμμές του δαπέδου (βλ σχήμα 4.8), δίνοντας λανθασμένα αποτελέσματα (παρόλο που αυτή η "λαθεμένη" συμπεριφορά αντισταθμίστηκε εν μέρη από ένα στάδιο προεπε-

86 66 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ Σχήμα 4.8: Αποτέλεσμα εφαρμογής του αλγορίθμου αναγνώρισης ευθειών (Hough). Παρατηρούμε ότι σε κάποιες περιπτώσεις οι ευθείες προκύπτουν από το περιβάλλον και όχι από το έδαφος όπως αναμέναμε. ξεργασίας, το οποίο χρησιμοποιώντας κατάλληλα φίλτρα και κατώφλια σε κάθε καρέ προσπαθούσε να εξασφαλίσει ότι οι ανιχνευόμενες γραμμές ήταν άσπρες ευθείες στην εικόνα). Όσο για τη Συντακτική Οντότητα Y 03 "Parallel Mobile Object Movement", χρησιμοποιήθηκε η μέθοδος που έχει παρουσιαστεί στο [119]. Για να καταλήξουμε στο λεπτομερή ορισμό της οντότητας "Track and field running" χρησιμοποιήσαμε τους τελεστές του αλγεβρικού γινομένου και του αλγεβρικού αθροίσματος και η εφαρμογή τους έδωσε: E 00Jd = 0.5/Y /Y /Y 02 (4.41) Η εκτέλεση των αλγορίθμων (χωρίς κάποια επιλογή υποσυνόλου) αναγνωρίζει επιτυχώς το κομμάτι της ακολουθίας που περιέχει την υπό αναζήτηση οντότητα. Είναι όμως δυνατόν να μειώσουμε την απαιτούμενη Πολυπλοκότητα της αναζήτησης, διατηρώντας ικανοποιητικά αποτελέσματα, χρησιμοποιώντας μόνο ένα υποσύνολο των Συντακτικών Οντοτήτων. Ο πίνακας 4.6 δείχνει την Πολυπλοκότητα, την Εγκυρότητα και τη μέση Βεβαιότητα (για τις εικόνες αυτές που όντως περιέχουν αγώνα δρόμου και εκείνες που δεν περιέχουν). Οι τιμές αυτές ελήφθησαν αξιολογώντας όλους τους πιθανούς συνδυασμούς Συντακτικών Οντοτήτων ή, ισοδύναμα, με την επίσκεψη σε όλες τις καταστάσεις του αντίστοιχου αυτομάτου που απεικονίζεται στο σχήμα 4.9. Η εικόνα 4.10 δείχνει τις τιμές της Βεβαιότητας που λάβαμε κατά την αναγνώριση των αγώνων δρόμου E 00 σε κάθε καρέ της ακολουθίας. Τα τρία διαγράμματα που παρουσιάζονται δείχνουν τα αποτελέσματα της σχεδίασης με διαφορετικά κατώφλια Πολυπλοκότητας που οδήγησαν στις καταστάσεις q 2, q 6 και q 7 με Πολυπλοκότητα 8, 23 και 43 αντιστοίχως. Σχολιάζοντας σε αυτά, φαίνεται πως η αύξηση του υπολογιστικού κατωφλίου βελτιώνει τα αποτελέσματα, κάνοντας πιο διακριτές τις επιμέρους περιοχές του βίντεο. Παρόλα

87 4.5. ΠΕΙΡΑΜΑΤΑ 67 State Evaluated Complexity Validity Mean Certainty Mean Certainty Properties (kflops) (running frames) (other frames) q q 1 Y q 2 Y q 3 Y q 4 Y 00, Y q 5 Y 00, Y q 6 Y 01, Y q 7 Y 00, Y 01, Y Πίνακας 4.6: Αποτελέσματα για όλες τις καταστάσεις του αυτομάτου. q 1 Y 01 q 4 Y 00 Y 02 Y 02 q 0 Y 01 q 2 Y 00 q 5 Y 01 q 7 Y 02 Y 02 Y 00 Y 00 q 3 Y 01 q 6 Σχήμα 4.9: Το αυτόματο που αναπαριστά τη διαδικασία αναγνώρισης.

88 68 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ 1 Identification results 1 Identification results correct frames 0.9 correct frames Attained Certainty Attained Certainty Frame number (α) 1 Identification results correct frames Frame number (β) Attained Certainty Frame number (γ) Σχήμα 4.10: Αποτελέσματα αναγνώρισης (Βεβαιότητα) για (α) την κατάσταση q 1, (β) την κατάσταση q 6 και (γ) την κατάσταση q 7. αυτά και με χαμηλότερες τιμές Πολυπλοκότητας μπορούμε να πετύχουμε πολύ αξιοπρεπή αποτελέσματα (καταστάσεις q 2 και q 6 ). 4.6 Επισκόπηση προτεινόμενης διαδικασίας Οι μετρικές και οι μέθοδοι σχεδίασης της αναζήτησης σημασιολογικών οντοτήτων που παρουσιάστηκαν σε αυτό το κεφάλαιο στηρίζονται στο μοντέλο αναπαράστασης γνώσης και συμπερασμού του κεφαλαίου 3. Η προτεινόμενη διαδικασία ανάλυσης που χρησιμοποιεί αυτές τις τεχνικές μπορεί να συνοψιστεί στα παρακάτω βήματα: 1. Αρχικά θεωρούμε μια ιεραρχία οντοτήτων χωρίς ασαφή βάρη (οι υπαγω-

89 4.7. ΣΥΜΠΕΡΑΣΜΑΤΑ 69 γές ισχύουν πλήρως). 2. Μέ χρήση ενός συνόλου ανάπτυξης και με τις τεχνικές της ενότητας 3.3 υπολογίζονται οι κατάλληλοι, προσαρμοσμένοι στο σύνολο αυτό, βαθμοί υπαγωγής (βάρη) f i και παράγεται η (ασαφής) Σημασιολογική Εγκυκλοπαίδεια. 3. Οι μέθοδοι συμπερασμού στη γνώση (βλ. ενότητα 3.2) παράγουν έναν λεπτομερή ορισμό της υπο αναζήτηση οντότητας, υπολογίζοντας καινούρια βάρη, f i. 4. Στη συνέχεια, λαμβάνοντας υπόψη τους πιθανούς υπολογιστικούς περιορισμούς, επιλέγονται τα βέλτιστα υποσύνολα για κάθε περίπτωση (βλ. ενότητα 4.2). 5. Τέλος, όταν γίνουν οι μετρήσεις στο εξεταζόμενο έγγραφο, γίνεται συμπερασμός στα δεδομένα και υπολογίζεται η Βεβαιότητα της ύπαρξης της οντότητας. Το σχήμα 4.11 απεικονίζεται η ακολουθία αυτών των βημάτων. 4.7 Συμπεράσματα Σε αυτό το κεφάλαιο προτείναμε μια μεθοδολογία διαχείρισης των υπολογιστικών πόρων κατά τη διάρκεια της αναζήτησης σημασιολογικών οντοτήτων. Συγκεκριμένα, η σχεδίαση συνίσταται στην επιλογή υποσυνόλων των αλγορίθμων/ συντακτικών οντοτήτων που εμπλέκονται σε έναν ορισμό. Η επιλογή αυτή γίνεται στη βάση μετρικών μερικής αξιολόγησης της αναζήτησης και είναι βέλτιστη ως προς την ποιότητα της παρεχόμενης πληροφορίας (μεγιστοποίηση μερικής Εγκυρότητας) σε σχέση με κάποιο υπολογιστικό περιορισμό (κατώφλι μερικής Πολυπλοκότητας). Στη συνέχεια παρουσιάσαμε μια μέθοδο αναπαράστασης του προβλήματος επιλογής υποσυνόλων, χρησιμοποιώντας πεπερασμένα αυτόματα. Για τη μείωση του εκθετικού χώρου αναζήτησης αυτού του προβλήματος, μοντελοποιήσαμε τη διαδικασία επιλογής σαν τροποποιημένο πρόβλημα knapsack, με την Εγκυρότητα ως (μη-γραμμική) συνάρτηση κέρδους και την Πολυπλοκότητα ως περιορισμό και προτείναμε μια μέθοδο επίλυσης με δυναμικό προγραμματισμό. Πετύχαμε με αυτόν τον τρόπο να ελαττώσουμε το μέγεθος του χώρου αναζήτησης από εκθετικό (O(2 n )) σε ψευδο-πολυωνυμικό (O(n C)). Τέλος, με ένα σύνολο συνθετικών και πραγματικών πειραμάτων αναδείξαμε τον τρόπο χρήσης και την αποτελεσματικότητα της μεθόδου.

90 70 ΚΕΦΑΛΑΙΟ 4. ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ Development dataset Fuzzification (CV/ Rankboost) f i Terminological Inference f i ' Complexity// Validity Constraints Subset Selection f i ' Assertional Inference Certainty Multimedia document Σχήμα 4.11: Τα βήματα της προτεινόμενης διαδικασίας.

91 Κεφάλαιο 5 Ταυτόχρονη αναγνώριση πολλαπλών εννοιών Order is repetition of units. Chaos is multiplicity without rythm. M.C. Escher 5.1 Το πρόβλημα Ο μηχανισμός σχεδίασης που παρουσιάστηκε στο προηγούμενο κεφάλαιο επιτρέπει την αποτελεσματική σχεδίαση της σημασιολογικής αναγνώρισης μιας οντότητας με περιορισμούς στην απαιτούμενη Πολυπλοκότητα. Η σχεδίαση λαμβάνει χώρα πριν την πραγματική αναζήτηση και βασίζεται στην Εγκυρότητα, μια μετρική που εξαρτάται αποκλειστικά από τον ορισμό και γι' αυτό το λόγο είναι δυνατό να υπολογιστεί επίσης εκ των προτέρων. Σε περιβάλλοντα πραγματικού χρόνου, όπου πολλαπλές οντότητες πρέπει να αξιολογηθούν ταυτόχρονα ή/και σε συστήματα που απαιτούν αναγνώριση Σημασιολογικών Οντοτήτων από πολλαπλά δεδομένα ταυτόχρονα είναι πιο κατάλληλος ένας δυναμικός μηχανισμός ο οποίος συνεχώς επαναξιολογεί τη σχεδίαση με βάση τα αποτελέσματα εκείνης της στιγμής. Ας θεωρήσουμε το παράδειγμα ενός συστήματος καταγραφής της κίνησης σε δρόμους που χρησιμοποιεί μια κάμερα εγκατεστημένη σε μια διασταύρωση. Σημασιολογικές Οντότητες όπως "Κυκλοφοριακή Συμφόρηση", "Κλείσιμο δρόμου" και "Ατύχημα" πρέπει να αναγνωριστούν. Η αναγνώρισή τους πρέπει μάλιστα να επιτευχθεί σε πραγματικό χρόνο από κάποιο σύστημα του οποίου οι υπολογιστικοί πόροι είναι περιορισμένοι και η εξαντλητική αξιολόγηση όλων των Συντακτικών Οντοτήτων είναι αδύνατη. Στο δυναμικό μηχανισμό που προτείνουμε σε αυτό το κεφάλαιο, ένα κομμάτι της διαθέσιμης Πολυπλοκότητας (ή, 71

92 72 ΚΕΦΑΛΑΙΟ 5. ΤΑΥΤΟΧΡΟΝΗ ΑΝΑΓΝΩΡΙΣΗ ΠΟΛΛΑΠΛΩΝ ΕΝΝΟΙΩΝ ισοδύναμα, της υπολογιστικής ισχύος) διανέμεται πρώτα σε όλες τις Σημασιολογικές Οντότητες και η αναγνώριση πραγματοποιείται με ένα μικρό κατώφλι Πολυπλοκότητας για κάθε μια από αυτές. Η απομένουσα Πολυπλοκότητα αφιερώνεται σε Οντότητες για τις οποίες έχει μετρηθεί αρκετή Βεβαιότητα, δηλαδή υπάρχουν ενδείξεις ύπαρξής τους στα υπό εξέταση δεδομένα. Η απλούστερη προσέγγιση στο πρόβλημα της κατανομής της διαθέσιμης πολυπλκότητας C A είναι ίσως ο διαμοιρασμός σε κάθε οντότητα E k ενός κομματιού g k C A, όπου g k = 1 και το 0 < g k < 1 δηλώνει τη βαρύτητα της k οντότητας E k στο συγκεκριμένο σενάριο. Η σχεδίαση στην περίπτωση αυτή γίνεται ξεχωριστά για κάθε οντότητα, όπως παρουσιάζεται στην Ενότητα 4.2. Παρόλα αυτά, η προσέγγιση αυτή δεν είναι βέλτιστη καθώς δε λαμβάνει υπόψη το γεγονός ότι οι ορισμοί μπορεί να έχουν κοινές Συντακτικές Οντότητες των οποίων η αξιολόγηση απαιτείται μόνο μια φορά. 5.2 Προσεγγίσεις Στο κεφάλαιο αυτό προτείνουμε δύο διαφορετικές προσεγγίσεις για την αντιμετώπιση αυτού του ζητήματος κατανομής των υπολογιστικών πόρων μεταξύ των υποσυστημάτων ταυτόχρονης αναγνώρισης πολλαπλών εννοιών. Σε αναλογία με αντίστοιχες κοινωνικοοικονομικές προσεγγίσεις χρησιμοποιούμε για τις δύο μεθοδολογίες τους όρους "συνθήκες ανταγωνισμού" και "συνθήκες πρόνοιας" Συνθήκες ανταγωνισμού (competitive approach) Ας υποθέσουμε ότι θέλουμε να αναγνωρίσουμε τις Σημασιολογικές Οντότητες E i E s έχοντας ένα όριο C s στη διαθέσιμη Πολυπλοκότητα. Παρόμοια με τους ορισμούς στη Σημασιολογική Εγκυκλοπαίδεια, οι οποίοι χρησιμοποιούν Συντακτικές και Σημασιολογικές Οντότητες, μπορούμε να θεωρήσουμε τις E i σαν μέλη του ορισμού μιας Σημασιολογικής Οντότητας W ακόμα υψηλότερου επιπέδου η οποία αποκρίνεται στο σενάριο εφαρμογής, δηλαδή W = G 1W /E 1 + G 2W /E G nw /E n, (5.1) όπου τα βάρη G έχουν όμοια σημασία με τα βάρη F που χρησιμοποιούνται σε έναν ορισμό, δηλώνοντας τη σημασία κάθε οντότητας για το συγκεκριμένο σενάριο. Η σκοπιά της W είναι λοιπόν S W E s. Οι ορισμοί E i είναι λεπτομερείς και έτσι, για να υπολογίσουμε την απευθείας συνεισφορά κάθε Συντακτικής Οντότητας στη σκοπιά S d W = S E1... S En, χρησιμοποιούμε τη μεθοδολογία που παρουσιάστηκε στο κεφάλαιο 3. Για κάθε

93 5.2. ΠΡΟΣΕΓΓΙΣΕΙΣ 73 Συντακτική Οντότητα Y j που συμμετέχει σε έναν από τους ορισμούς E i υπολογίζουμε το βαθμό κατά τον οποίο η Y j σχετίζεται με την W ως εξής G Yj W = I(F Yj E i, G iw ). (5.2) Αν μια Συντακτική Οντότητα συμμετέχει σε περισσότερους από έναν ορισμούς E l τότε χρησιμοποιούμε ασαφή ένωση για να συνδυάσουμε τις διαφορετικές τιμές: για κάθε l {i Y j S Ei }. G Yj W = U l (I(F Yj E i, G iw )), (5.3) Έχοντας υπολογίσει την απευθείας σχέση κάθε Συντακτικής Οντότητας με το σενάριο W μπορούμε να σχεδιάσουμε την αναγνώριση με ένα κατώφλι C s χρησιμοποιώντας σχεδίαση με βάση την Πολυπλοκότητα (ενότητα 4.2.2). Η ποσότητα που πρέπει να μεγιστοποιηθεί σε αυτή την περίπτωση είναι V(W ) = U j (G Yj W ). (5.4) Με τη χρήση ασαφούς ένωσης για τον ορισμό της, ο στόχος της μεγιστοποίησης της ποσότητας V(M) είναι ισοδύναμος με το να αποζητούμε βελτίωση της ποιότητας της αναζήτησης "συνολικά" ακόμα και αν κάποιες από τις οντότητες δεν τύχουν "ανάλογης προσοχής". Οι εξισώσεις (5.2) και (5.3) εγγυώνται ότι σε μια Συντακτική Οντότητα που συμμετέχει σε πολλούς ορισμούς ή που είναι απλά πολύ σημαντική για την αναγνώριση μιας συγκεκριμένης Σημασιολογικής Οντότητας, θα ανατεθεί μια σχετικά υψηλή τιμή του G. Ας σημειώσουμε ότι αυτή η διαδικασία χρησιμοποιείται για να διαλέξει κανείς τις Συντακτικές Οντότητες που θα αξιολογηθούν κατά τη διάρκεια της αξιολόγησης των E i με περιορισμένη Πολυπλοκότητα και ότι η έννοια του "Σεναρίου" δεν έχει φυσική σημασία, δηλαδή δεν έχει νόημα να οριστεί Βεβαιότητα γι'αυτήν. Η αξιολόγηση των προαναφερθέντων Συντακτικών Οντοτήτων θα δώσει Βεβαιότητα για καθεμιά από τις Σημασιολογικές Οντότητες E i ξεχωριστά. Η επιλογή των Συντακτικών Οντοτήτων, όμως, δε λαμβάνει υπόψη τις Σημασιολογικές Οντότητες στις οποίες οι πρώτες συμμετέχουν, αλλά αντίθετα επιδιώκει την κατά το δυνατόν βέλτιστη χρήση της διαθέσιμης Πολυπλοκότητας. Σαν αποτέλεσμα, είναι πιθανό να αγνοηθεί πλήρως κάποια Οντότητα, με την έννοια ότι κανένας από τους απαιτούμενους αλγορίθμους της δεν επελέγη, προς χάρη άλλων Σημασιολογικών Οντοτήτων των οποίων οι αντίστοιχες Ιδιότητες έχουν μεγαλύτερη συνεισφορά στο Σενάριο. Αυτή η παρατήρηση δικαιολογεί τον όρο "Συνθήκες ανταγωνισμού".

94 74 ΚΕΦΑΛΑΙΟ 5. ΤΑΥΤΟΧΡΟΝΗ ΑΝΑΓΝΩΡΙΣΗ ΠΟΛΛΑΠΛΩΝ ΕΝΝΟΙΩΝ Συνθήκες 'πρόνοιας' (welfare approach) Αν, σε αντίθεση με το προηγούμενο ("ανταγωνιστικό") σενάριο, επιθυμούμε να εξασφαλίσουμε ότι όλες οι Σημασιολογικές Οντότητες θα ληφθούν υπόψη τότε η επιλογή του υποσυνόλου των Συντακτικών Οντοτήτων πρέπει να διατηρεί αξιοπρεπή επίπεδα Εγκυρότητας για κάθε Σημασιολογική Οντότητα. Αυτό μπορεί να επιτευχθεί με την επιλογή ενός υποσυνόλου τέτοιου ώστε να μεγιστοποιεί τη συνάρτηση Z(V E1,..., V En ) η οποία έχει τις ακόλουθες ιδιότητες: 1. Αν η Εγκυρότητα μιας Σημασιολογικής Οντότητας μειώνεται τότε η Z επίσης μειώνεται και αν V Ei = 0 για μια Σημασιολογική Οντότητα E i, τότε η Z γίνεται επίσης μηδέν. 2. Αν V Ei είναι η ελάχιστη Εγκυρότητα τότε Z V Ei. Αυτές οι ιδιότητες εγγυώνται ότι καμιά Σημασιολογική Οντότητα δεν αγνοείται πλήρως καθώς και ότι καμιά Οντότητα δε θα μείνει με χαμηλή Εγκυρότητα προς χάρη κάποιας άλλης. Παρατηρούμε ότι κάθε t-norm ικανοποιεί αυτές τις ιδιότητες. Για άλλη μια φορά όμως οι καλύτερες συναρτήσεις για τη σχεδίαση είναι αυτές που προσδίδουν granularity στην αναγνώριση (δηλαδή η τιμή τους καθορίζεται από όλες τις εισόδους τους αποκλείοντας έτσι τον τελεστή min όπου μόνο η ελάχιστη τιμή λαμβάνεται υπόψη). Μια πιθανή επιλογή είναι το αλγεβρικό γινόμενο: Z(V E1, V E2,..., V En ) = V E1 V E2... V En. Συνεπώς, σε αυτή την προσέγγιση "πρόνοιας", αν S d W είναι οι Συντακτικές Οντότητες που συμμετέχουν τότε τα πιθανά υποσύνολα / συνδυασμοί είναι 2 Sd W και επιλέγουμε αυτά τα Ai 2 Sd W που ικανοποιούν το κριτήριο Πολυπλοκότητας C(A i ) C s. Στη συνέχεια, από όλα τα A i επιλέγουμε αυτό που μεγιστοποιεί τη Z: A = maximizer(z(v E1,..., V En )), (5.5) όπου V Ei = V(E i / A ), η Εγκυρότητα της E i που πετυχαίνεται με την αξιολόγηση του συγκεκριμένου υποσυνόλου Συντακτικών Οντοτήτων. 5.3 Επίλυση με δυναμικό προγραμματισμό Συνθήκες ανταγωνισμού Η σχεδίαση με χρήση δυναμικού προγραμματισμού που περιγράφεται στην ενότητα 4.4 μπορεί να εφαρμοστεί και σε αυτήν την περίπτωση. Πιο συγκεκριμένα, ξαναγράφοντας τις εξισώσεις (4.32) και (4.33) για την περίπτωση της "υπεροντότητας" W, στόχος σε μια σχεδίαση με βάση την Πολυπλοκότητα είναι η εύρεση του βέλτιστου συνόλου X (C T ) = {x 1, x 2,..., x n },

95 5.4. ΠΕΙΡΑΜΑΤΑ 75 τέτοιου ώστε να μεγιστοποιηθεί η ποσότητα n U i=1 (G Y i W x i ) (5.6) υπό τον περιορισμό n (c(t i ) x i ) C (5.7) i=1 όπου η μεταβλητή x i {0, 1} δηλώνει αν η οντότητα i έχει αξιολογηθεί (x i = 1) ή όχι (x i = 0). Το πρόβλημα λύνεται σε ψευδο-πολυωνυμικό χρόνο χρησιμοποιώντας τον Αλγορίθμο Συνθήκες πρόνοιας Στην περίπτωση των συνθηκών πρόνοιας, η εύρεση του βέλτιστου υποσυνόλου, δηλαδή αυτού που μεγιστοποιεί την εκάστοτε συνάρτηση Z είναι ένα πρόβλημα εκθετικής πολυπλοκότητας και δυστυχώς δεν μπορεί να επιλυθεί άμεσα με δυναμικό προγραμματισμό, όπως έγινε στην περίπτωση της σχεδίασης για μια μοναδική έννοια στην ενότητα 4.4. Παρόλα αυτά μια υποβέλτιστη (προσεγγιστική) λύση μπορεί να βρεθεί χρησιμοποιώντας μια παραλαγή του Αλγορίθμου 1, η οποία παρουσιάζεται στον Αλγόριθμο Πειράματα Εκτελέσαμε ένα σύνολο ενδεικτικών συνθετικών πειραμάτων, τα αποτελέσματα των οποίων παρουσιάζονται σε αυτήν την ενότητα. Αρχικά κατασκευάσαμε ορισμούς για τρεις διαφορετικές Οντότητες χρησιμοποιώντας 10 αλγορίθμους με τυχαίες Πολυπλοκότητες και βάρη και σχεδιάσαμε τη διαδικασία της αναγνώρισης σύμφωνα με τις προσεγγίσεις των ενοτήτων (συνθήκες ανταγωνισμού) και (συνθήκες πρόνοιας). Η εικόνα 5.1 παρουσιάζει την Εγκυρότητα που επιτυγχάνεται για αυξανόμενα κατώφλια Πολυπλοκότητας. Παρατηρούμε ότι χρησιμοποιώντας την προσέγγιση πρόνοιας (Εικόνα 5.1(α)), έχουμε μια περισσότερο ισορροπημένη αύξηση των Εγκυροτήτων σε σχέση με την Πολυπλοκότητα που διατίθεται. Αντίθετα, σε συνθήκες ανταγωνισμού (Εικόνα 5.1(β)) η ολική Εγκυρότητα αυξάνεται πολύ γρηγορότερα. Η εικόνα 5.2 δείχνει τις τιμές του Z που επιτυχγάνονται όταν η σχεδίαση γίνει με τον Αλγόριθμο 2 (με δυναμικό προγραμματισμό) σε σχέση με τις βέλτιστες τιμές για κάθε κατώφλι, όπως προκύπτουν από την εξαντλητική αξιολόγηση όλων των υποσυνόλων αλγορίθμων.

96 76 ΚΕΦΑΛΑΙΟ 5. ΤΑΥΤΟΧΡΟΝΗ ΑΝΑΓΝΩΡΙΣΗ ΠΟΛΛΑΠΛΩΝ ΕΝΝΟΙΩΝ Algorithm 2 Σχεδίαση με δυναμικό προγραμματισμό για τις συνθήκες πρόνοιας. 1: for d := 0 to C T do 2: z 0 (d) := 0 3: end for 4: for j := 1 to n do 5: for d := 0 to c(j) do 6: if z j (d 1) < z j 1 (d) then 7: z j (d) := z j 1 (d); algos j (d) := algos j 1 (d) 8: else 9: z j (d) := z j (d 1); algos j (d) := algos j (d 1) 10: end if 11: end for 12: for d := c(j) to C T do 13: A := algos j 1 (d c(j)) 14: t := I(U( U (F ik ), F jk )) k i A 15: if t > z j 1 (d) then 16: if t > z j (d 1) then 17: z j (d) := t 18: algos j (d) := {A, j} 19: else 20: z j (d) := z j (d 1); algos j (d) := algos j (d 1) 21: end if 22: else 23: z j (d) := z j 1 (d); algos j (d) := algos j 1 (d) 24: end if 25: end for 26: end for 27: for d := 0 to C T do 28: z (d) := z n (d) 29: end for

97 5.4. ΠΕΙΡΑΜΑΤΑ 77 1 Welfare approach 0.8 Validity Entity 1 Entity 2 Entity Complexity Threshold (α) Competitive approach 0.8 Validity Entity 1 Entity 2 Entity Complexity Threshold (β) Σχήμα 5.1: Εγκυρότητα που επιτυγχάνεται για κάθε Σημασιολογική Οντότητα σε σχέση με διάφορα κατώφλια Πολυπλοκότητας για συνθήκες (α) Πρόνοιας και (β) Ανταγωνισμού.

98 78 ΚΕΦΑΛΑΙΟ 5. ΤΑΥΤΟΧΡΟΝΗ ΑΝΑΓΝΩΡΙΣΗ ΠΟΛΛΑΠΛΩΝ ΕΝΝΟΙΩΝ Welfare Approach Z Exhaustive Search Dynamic Programming Complexity Threshold Σχήμα 5.2: Σχεδίαση σε συνθήκες πρόνοιας: Οι τιμές του Z που υπολογίζονται με δυναμικό προγραμματισμό σε σχέση με τις βέλτιστες. Όπως αναμενόταν τα αποτελέσματα του Αλγορίθμου 2 είναι υποβέλτιστα, δίνοντας όμως μια πολύ ικανοποιητική προσέγγιση των πραγματικών τιμών. 5.5 Συμπεράσματα Παρουσιάσαμε δύο μεθόδους κατανομής των υπολογιστικών πόρων σε περιπτώσεις ταυτόχρονης αναζήτησης πολλαπλών σημασιολογικών οντοτήτων. Συγκεκριμένα, κατανομή σε "συνθήκες ανταγωνισμού" στοχεύει στη συνολική αύξηση της Εγκυρότητας της αναζήτησης, αγνοώντας την επιμέρους Εγκυρότητα που επιτυγχάνεται για κάθε οντότητα. Αντίθετα, η κατανομή σε "συνθήκες πρόνοιας" στοχεύει στην ισοκατανομή των υπολογιστικών πόρων με την έννοια της ισορροπίας της Εγκυρότητας. Για την επιλογή βέλτιστων υποσυνόλων, στην πρώτη περίπτωση μπορεί να εφαρμοστεί απευθείας ο αλγόριθμος δυναμικού προγραμματισμού που προτάθηκε στην ενότητα 4.4, ενώ για τη δεύτερη παρουσιάσαμε έναν αντίστοιχο, υποβέλτιστο όμως, αλγόριθμο που επιτυγχάνει δραματική μείωση του χώρου αναζήτησης. Οι προτεινόμενες μεθοδολογίες και αλγόριθμοι υποστηρίχτηκαν από αντίστοιχα συνθετικά πείραματα.

99 Κεφάλαιο 6 Εφαρμογή στην ανάκτηση πολυμέσων I love deadlines. I like the whooshing sound they make as they fly by Douglas Adams 6.1 Εισαγωγή Ανάκτηση πολυμέσων Η ερευνητική περιοχή της ανίχνευσης πολυμέσων εξετάζει τη διαδικασία ανάπτυξης συστημάτων που διαχειρίζονται συλλογές οπτικοακουστικού υλικού ή/και κειμένου και οι οποίες παρέχουν στους χρήστες εξελιγμένες δυνατότητες αναζήτησης και ανάκτησης. Επιπρόσθετα προς τα συμβατικά συστήματα διαχείρισης, όπου η αναζήτηση γίνεται με λέξεις-κλειδιά ή ταίριασμα συμβολοσειρών που ανιχνεύονται στα μεταδεδομένα των πολυμεσικών δεδομένων, οι εξελιγμένες μεθοδολογίες ανάκτησης πολυμέσων επιτρέπουν τη διατύπωση ερωτημάτων (queries) με συνδυασμούς από υψηλού επιπέδου έννοιες (concepts). Η υποστήριξη τέτοιων ερωτημάτων αντιστοιχεί στη λεγόμενη σημασιολογική αναζήτηση και τεχνικά γίνεται εφικτή με την (ιδανικά) αυτόματη δημιουργία νέων τύπων μεταδεδομένων. Τα τελευταία συνδέουν τα υπό αναζήτηση πολυμεσικά δεδομένα με μια ποικιλία από έννοιες, μέσω ενός βαθμού συσχέτισης που συνήθως κυμαίνεται από μηδέν έως ένα. Μεγάλο κομμάτι της έρευνας προς την κατεύθυνση αυτή βασίζεται στην ανάπτυξη discriminative ταξινομητών (classifiers). Αυτή η προσέγγιση έχει να επιδείξει ικανοποιητικά αποτελέσματα σε πολλές περιπτώσεις. Οι ταξινομητές 79

100 80 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ τροφοδοτούνται με feature vectors χρησιμοποιώντας αρχιτεκτονικές early και late fusion, ενώ μια ενδιαφέρουσα παραλλαγή είναι η εναλλακτική προσέγγιση του concept fusion (βλ. παράγραφο 2.3.4), όπου οι οντότητες είτε επιλέγονται από το χρήστη [120] είτε και εν μέρει αυτόματα [121, 122]. Από την άλλη πλευρά, βρίσκονται οι μέθοδοι που βασίζονται στη χρήση γνώσης. Αυτές εφαρμόζουν κατά κύριο λόγο τεχνικές συμπερασμού που χρησιμοποιούν εκφραστικές Περιγραφικές Λογικές (Description Logics) [39], ενώ προεκτάσεις τους που μοντελοποιούν την αβεβαιότητα με ασαφείς Περιγραφικές Λογικές [44] έχουν εφαρμοστεί πρόσφατα επιτυχώς για την ανάκτηση πολυμέσων [41, 101]. Οι τελευταίες παρόλα αυτά έχουν αρκετούς περιορισμούς, κυρίως λόγω του υπολογιστικού κόστους της διαδικασίας συλλογισμού, το οποίο μπορεί να καταστεί απαγορευτικό στην περίπτωση που μοντελοποιούνται μεγάλες συλλογές οντοτήτων Τεχνολογίες και πλαίσια Το γεγονός ότι η περιοχή αυτή έχει τύχει εκτενούς έρευνας τα τελευταία χρόνια ώθησε την επιστημονική κοινότητα προς τις παρακάτω κατευθύνσεις: Σχεδίαση βάσεων γνώσης (οντολογιών) με στόχο να συμφωνηθεί μια κοινά αποδεκτή επιλογή των κατάλληλων οντοτήτων αλλά και η σημασιολογική τους οργάνωση. Η πιο εκτεταμένη προσπάθεια τέτοιας τυποποίησης είναι η οντολογία LSCOM (Large Scale Concept Ontology for Multimedia) [123]. Ανάπτυξη και ελεύθερη διανομή μεγάλης κλίμακας συλλογών από ταξινομητές, ώστε να αποφεύγεται η χρονοβόρος διαδικασία της ανακατασκευής πανομοιότυπων ταξινομητών για λόγους σύγκρισης. Σε αυτήν την κατεύθυνση υπάρχει το Mediamill-101 [96], ενώ το Columbia374 [124] και το VIREO374 [125] λειτουργούν στις ίδιες οντότητες, το πρώτο με έμφαση στα ολικά και το δεύτερο στα τοπικά χαρακτηριστικά. Πρόσφατα παρουσιάστηκε και μια προσπάθεια συνδυασμού των δύο τελευταίων [126]. Ανάπτυξη datasets και πλαισίων για τη συγκριτική αξιολόγηση των προτεινόμενων μεθοδολογιών (βλ. για παράδειγμα ImageCLEF [93], TRECVid [91], VideOlympics [94]). Η δομή όλων αυτών είναι κοινή: επιλέγουν datasets αναφοράς, ορίζουν σύνολο από concepts πάνω στα οποία θα γίνουν οι συγκρίσεις και καθορίζουν κριτήρια αξιολόγησης της επίδοσης των συστημάτων στην ανάκτηση πολυμέσων.

101 6.2. ΜΟΝΤΕΛΟΠΟΙΗΣΗ Στόχος του κεφαλαίου Στο κεφάλαιο αυτό προτείνουμε μια μεθοδολογία που επιχειρεί να συνδυάσει αρετές και από τις δύο προσεγγίσεις που αναφέρθηκαν. Οι έξοδοι των ταξινομητών ασαφοποιούνται και χρησιμοποιούνται από ασαφή μοντέλα γνώσης για να εντοπίσουν σημασιολογικές οντότητες στα πολυμέσα. Με αυτόν τον τρόπο, η υπολογιστικά απαιτητική διαδικασία εκπαίδευσης νέων ταξινομητών μπορεί να καταστεί περιττή. Επιπλέον, χρησιμοποιούμε τη μοντελοποίηση του κεφαλαίου 4 για να επιλέξουμε βέλτιστα υποσύνολα των ταξινομητών έτσι ώστε να διασφαλίσουμε υψηλό Average Precision στην ανάκτηση, κάτω από οποιοδήποτε κατώφλι πολυπλοκότητας. 6.2 Μοντελοποίηση Ανακαλούμε σε αυτό το σημείο από την ενότητα 3.1 πως μια σημασιολογική οντότητα μπορεί να οριστεί πάνω σε άλλες (σημασιολογικές ή συντακτικές). Έστω λοιπόν ότι, σύμφωνα με την ιεραρχική γνώση του σχήματος 6.1, οι οντότητες S 1... S k συνεπάγονται (υπάγονται από) την οντότητα C με βαθμούς f 1... f k αντίστοιχα. Τότε, ξαναγράφοντας την εξίσωση (3.3), έχουμε τον ορισμό της C: C = f 1 /S 1 + f 2 /S f n /S n (6.1) C f 1 f i f n S 1... S i... S n Σχήμα 6.1: Λεπτομερής ορισμός. Οι οντότητες S 1... S k υπάγονται από την οντότητα C με βαθμούς f 1... f k αντίστοιχα. Ο υπολογισμός της βεβαιότητας (του βαθμού ύπαρξης) µ(c, I) της οντότητας C στην εικόνα I, με βάση τη βεβαιότητα µ c (S i, I) για τις έννοιες i γίνεται τότε σύμφωνα με την εξίσωση (3.5):

102 82 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ µ(c, I) = U i (I(f i, µ c (S i, I))) (6.2) όπου οι τελεστές U και I συμβολίζουν τελεστές ασαφούς ένωσης και τομής αντίστοιχα και ο δείκτης c στο συμβολισμό µ c δηλώνει ότι η τιμή αυτή έχει προέλθει από τον αντίστοιχο ταξινομητή. Στο παρόν κεφάλαιο προτείνεται η χρήση ταξινομητών που αντιστοιχούν σε μια προς μια τις οντότητες του δεξιού μέρους της εξίσωσης (6.1). Ο βαθμός ύπαρξης καθεμιάς από αυτές υπολογίζεται από την έξοδο του αντίστοιχου ταξινομητή, ο οποίος τροφοδοτείται με feature vectors που εξάγονται από τα δεδομένα, σύμφωνα με τη διαδικασία που παρουσιάζεται στο σχήμα 6.2. Συγκεκριμένα, με την εκμετάλλευση τέτοιων ταξινομητών και των scores που αυτοί παράγουν επιχειρούμε το σχετικά ανέξοδο α. υπολογισμό αντίστοιχης ακρίβειας scores για οντότητες για τις οποίες δεν υπάρχουν ταξινομητές. β. υπολογισμό βελτιωμένων scores για τις οντότητες για τις οποίες ήδη υπάρχουν ταξινομητές. Σε αντιστοιχία με τους παραπάνω στόχους κατασκευάζουμε δύο τύπους ορισμών: ετερο-ορισμος: Η βεβαιότητα µ(c, ) για την ύπαρξη μιας οντότητας C στην εικόνα I υπολογίζεται πάνω στα αποτελέσματα µ c (S i, I) των ταξινομητών για τις οντότητες i που συμμετέχουν στον ορισμό της, όπως περιγράφεται στην εξίσωση (6.2). αυτο-ορισμος: Εδώ, εκτός από τα αποτελέσματα µ c (S i, I) των άλλων ταξινομητών, έχουμε διαθέσιμο και το αποτέλεσμα µ c (C, I) του αντίστοιχου ταξινομητή για την ίδια την οντότητα-στόχο C του ορισμού και πρόθεσή μας είναι να βελτιώσουμε αυτό το αποτέλεσμα με χρήση των υπόλοιπων ταξινομητών του ορισμού. Τότε, συμμετέχει και το µ C (C, I) στον υπολογισμό του µ c (S i, I) και η εξίσωση (6.2) παίρνει τη μορφή µ(c, I) = U ( ) µ c (C, I), U(I(f i, µ c (S i, I))) i (6.3) Η διερεύνηση των δυνατοτήτων αυτών θα γίνει στην πειραματική ενότητα Επιπλέον των παραπάνω, στόχος μας είναι ο προσδιορισμός του βέλτιστου υποσυνόλου οντοτήτων που συμμετέχουν σε ορισμούς που περιγράφονται από την εξίσωση (6.1), όταν η σημασιολογική αναζήτηση υπόκειται σε

103 6.2. ΜΟΝΤΕΛΟΠΟΙΗΣΗ 83 Image I Feature Extraction #1... Feature Extraction #i... Feature Extraction #n Feature Vector V 1 (I)... Feature Vector V i (I)... Feature Vector V n (I) Classifier #1... Classifier #i... Classifier #n Classifier score μ c (S 1, I)... Classifier score μ c (S i, I)... Classifier score μ c (S n, I) C f 1 S 1 f i f n... S i... S n Assertional Inference Certainty μ(c, I) Σχήμα 6.2: Προτεινόμενη διαδικασία συμπερασμού για την ύπαρξη της οντότητας C στην εικόνα I με χρήση των αποτελεσμάτων των ταξινομητών. Αρχικά εξάγονται τα feature vectors, που μπορεί να είναι διαφορετικά για κάθε ταξινομητή, τα οποία τροφοδοτούν τους αντίστοιχους ταξινομητές που με τη σειρά τους παράγουν τα αποτελέσματα για τις οντότητες S i. Ο συμπερασμός για τη C γίνεται πάνω στα τελευταία και βασίζεται στην ιεραρχία.

104 84 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ περιορισμούς πολυπλοκότητας. Για το σκοπό αυτό θα εφαρμοστούν τα αποτελέσματα του κεφαλαίου 4. Πιο συγκεκριμένα, αν χρησιμοποιήσουμε ένα υποσύνολο A των οντοτήτων του ορισμού, τότε η (μερική) βεβαιότητα ύπαρξης της C στην εικόνα I υπολογίζεται σύμφωνα με την εξίσωση (4.1) ως: µ(c, I, / A) = U i:s i A (I(f i, µ c (S i, I))) (6.4) Αν θεωρήσουμε ένα κατώφλι πολυπλοκότητας T, για την επιλογή του υποσυνόλου, ανάμεσα σε εκείνα για τα οποία ισχύει ότι C(A) T (6.5) θα χρησιμοποιήσουμε το κριτήριο της μεγιστοποίησης της μερικής εγκυρότητας, δηλαδή της ποσότητας που υπολογίζεται από την εξίσωση (4.3): V(C/ A) = επιλέγοντας το A T, για το οποίο: U i:s i A (F Y i E k ) (6.6) V(C/A T ) = max A (V(C/A i)) (6.7) Διαθέτοντας αυτά τα εργαλεία, θα προσπαθήσουμε στο κεφάλαιο αυτό να διερευνήσουμε το εάν και κατά πόσο γ. η Εγκυρότητα είναι αξιόπιστο κριτήριο για την επιλογή υποσυνόλων, βέλτιστων με την έννοια του Average Precision. δ. μπορούμε με σχετικά χαμηλό υπολογιστικό κόστος να πετύχουμε αξιόλογο Average Precision. Οι στόχοι αυτοί θα διερευνηθούν στο πείραμα της ενότητας προστίθενται στους α. και β. που παρουσιάστηκαν προηγουμένως. Σχετικά με την Πολυπλοκότητα Σε αυτό το σημείο θα περιγράψουμε το μοντέλο της πολυπλοκότητας που υιοθετούμε για το συγκεκριμένο πρόβλημα και θα προσπαθήσουμε να αιτιολογήσουμε την επιλογή αυτή. Αναμφισβήτητα, η πλέον χρονοβόρος διαδικασία για έναν ταξινομητή είναι η εκπαίδευσή του. Ωστόσο, καθώς το στάδιο αυτό εκτελείται μόνο μια φορά κατά τον κύκλο ζωής του και τα αποτελέσματά του χρησιμοποιούνται

105 6.2. ΜΟΝΤΕΛΟΠΟΙΗΣΗ 85 στη συνέχεια για την ταξινόμηση πολλαπλών εικόνων αλλά και διαφορετικών datasets, επιλέγουμε να το αγνοήσουμε. Η φάση της ταξινόμησης αποτελείται από δύο στάδια, όπως φαίνεται και στο σχήμα 6.2: (i) η εξαγωγή των features και (ii) η ίδια η πρόβλεψη. Το υπολογιστικό κόστος που εισάγεται στο πρώτο στάδιο μπορεί επίσης να αγνοηθεί χωρίς βλάβη της γενικότητας, καθώς τα features συνήθως εξάγονται μια φορά για κάθε εικόνα και χρησιμοποιούνται επανειλημμένα για όλες τις οντότητες 1. Τέλος, η φάση του προσδιορισμού της βεβαιότητας µ(c, I) σύμφωνα με την εξ. (6.2), είναι επίσης υπολογιστικά αμελητέα καθώς περιλαμβάνει μια σειρά από πεπερασμένου πλήθους πράξεις, ο αριθμός των οποίων δεν εξαρτάται από το πλήθος και την πολυπλοκότητα των δεδομένων. Συνεπώς επιλέγουμε να μοντελοποιούμε αποκλειστικά την πολυπλοκότητα που προκύπτει κατά το στάδιο του υπολογισμού της βεβαιότητας µ c (S i, I) του ταξινομητή i από το feature vector V i (I). Η πολυπλοκότητα αυτή εξαρτάται από τον τύπο του εκάστοτε ταξινομητή. Για παράδειγμα αν θεωρήσουμε ταξινομητή SVM, που αποτελεί και τη συνηθέστερη περίπτωση, ξαναγράφοντας την εξίσωση (2.15), η συνάρτηση εκτίμησης γίνεται: f i (I) = n α j y j K (x i, V i (I)) + b (6.8) j=1 όπου επιλέξαμε να μην εφαρμόσουμε τη συνάρτηση προσήμου, καθώς στην προσέγγισή μας δεν ενδιαφερόμαστε για την τελική εκτιμώμενη από τον ταξινομητή ετικέτα y(i) { 1, 1} της εικόνας αλλά για το προ της κβάντισης αποτέλεσμα της συνάρτησης εκτίμησης. Όπως αναφέρθηκε και στην παράγραφο 2.6.2, στο άθροισμα της εξίσωσης (6.8) συμμετέχουν (δηλαδή έχουν α i 0), από τα n σημεία που χρησιμοποιήθηκαν στην εκπαίδευση, μόνο εκείνα (support vectors) τα οποία ορίζουν τις επιφάνειες διαχωρισμού. Συνεπώς, η πολυπλοκότητα εκτίμησης έγκειται σε πράξεις γινομένου και άθροισης με αριθμό ανάλογο με αυτό των εμπλεκόμενων support vectors. Για το λόγο αυτό, ο αριθμός των support vectors για κάθε ταξινομητή είναι η ποσότητα που επιλέγουμε να χρησιμοποιήσουμε ως μέτρο ανάλογο της πολυπλοκότητας εκτίμησης της αντίστοιχης οντότητας στα δεδομένα για τα πειράματα της ενότητας 6.3, όπου χρησιμοποιούνται επίσης κατάλληλα εκπαιδευμένοι ταξινομητές SVM. 1 Η παραδοχή ισχύει για τη συνήθη περίπτωση της συλλογής από ταξινομητές που δουλεύουν πάνω σε κοινό feature vector. Η μέθοδός μας μπορεί να λειτουργήσει και σε περιπτώσεις όπου χρησιμοποιούνται διαφορετικά feature vectors. Ακόμα και σε αυτές τις περιπτώσεις όμως, και όταν αναφερόμαστε σε σχετικά μεγάλο αριθμό από οντότητες, το ίδιο feature vector θα χρησιμοποιηθεί για πολλαπλές οντότητες.

106 86 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ Σχετικά με την Εγκυρότητα Όπως έχουμε αναφέρει, η διαδικασία επιλογής υποσυνόλων του κεφαλαίου 4 χρησιμοποιεί σαν κριτήριο βελτιστότητας την Εγκυρότητα. Από την άλλη, καθώς στην περιοχή της ανάκτησης πολυμέσων χρησιμοποιείται ευρέως η μετρική του Average Precision, προκύπτει φυσικά η επιλογή της τελευταίας σαν κριτήριο βελτιστότητας που χρησιμοποιούμε κατά τη διαδικασία προσδιορισμού των βαρών του ορισμού. Υπενθυμίζουμε ότι (βλ. παρ ), αν το precision κατά την ανάκτηση των r πρώτων σχετικών εγγράφων είναι p(k) τότε AP = r p(k) rel(k) k=1 R (6.9) Καθώς το Average Precision είναι ένα posterior metric, που κατά συνέπεια δεν μπορεί να προϋπολογιστεί, η επιλογή του βέλτιστου κάθε φορά υποσυνόλου, από εκείνα τα οποία υπάγονται σε ένα κατώφλι πολυπλοκότητας, γίνεται με βάση τη μεγιστοποίηση της Εγκυρότητας (εξίσωση (6.7)). Η επιλογή αυτή γίνεται με την ελπίδα ότι η Εγκυρότητα και το Average Precision είναι μεγέθη συναυξανόμενα. 6.3 Πειράματα Δεδομένα Για το σκοπό των πειραμάτων μας χρησιμοποιήσαμε το σύνολο ταξινομητών Columbia374 το οποίο επίσης περιλαμβάνει το ground truth, τα features και τα αποτελέσματα των ταξινομητών πάνω στα datasets του TRECVid. Στο σχήμα 6.3 φαίνεται ο διαμερισμός του dataset (TRECVid 2005 development set) που χρησιμοποιήθηκε, το οποίο χωρίζεται στο σύνολο των δεδομένων που χρησιμοποιήθηκαν για την εκπαίδευση των ταξινομητών του Columbia374, που στο εξής θα αποκαλούμε σύνολο A και στο σύνολο των δεδομένων που δεν χρησιμοποιήθηκαν για την εκπαίδευση των ταξινομητών, που θα αποκαλούμε σύνολο B. Το τελευταίο χωρίζεται με τη σειρά του σε δύο περίπου ισοπληθή σύνολα, τα B1 και B2. Αυτή η ονοματολογία θα μας επιτρέψει να συμβολίσουμε τα αποτελέσματα που θα παρουσιαστούν σε αυτό το κεφάλαιο. Για το σκοπό αυτό θα χρησιμοποιήσουμε την εξής σύμβαση: κάθε μέτρηση του Average Precision θα συνοδεύεται από την τριάδα "σύνολο εκπαίδευσης ταξινομητή"/"σύνολο υπολογισμού

107 6.3. ΠΕΙΡΑΜΑΤΑ 87 βαρών ορισμού"/"σύνολο αξιολόγησης". Έτσι, για παράδειγμα ο συμβολισμός AP (A/B1/B2) (6.10) δείχνει το Average Precision που προκύπτει από τη μέθοδό μας στο σύνολο B2, όταν οι ταξινομητές έχουν εκπαιδευθεί στο A και τα βάρη υπολογίστηκαν στο B1. Αντίστοιχα ο συμβολισμός AP c (A/./B2) (6.11) σημαίνει ότι το Average Precision υπολογίστηκε για έναν ταξινομητή στο σύνολο B2 ο οποίος είχε εκπαιδευθεί στο A, ενώ και εδώ ο δείκτης c υποδηλώνει ότι η τιμή αυτή αφορά την επίδοση ενός ταξινομητή, σε αντιδιαστολή με την προτεινόμενη μέθοδο που υλοποιεί λογικές εκφράσεις με βάρη. TRECVid 2005 development set καρέ καρέ καρέ Α Β1 Β2 Σχήμα 6.3: Διαμερισμός του συνόλου δεδομένων που χρησιμοποιήθηκε. Στο σχήμα 6.4 φαίνεται η διαδικασία παραγωγής των αποτελεσμάτων των ταξινομητών. Για να υπολογίσουμε μια προσέγγιση της πολυπλοκότητας εκτίμησης των ταξινομητών του Columbia374, πρέπει να λάβουμε υπόψη ότι χρησιμοποιούν 3 χαρακτηριστικά της εικόνας (Edge Detection Histogram, Gabor Texture και Grid Color Moment) και εκπαιδεύουν έναν ταξινομητή για το καθένα. Στη συνέχεια τα αποτελέσματα αυτών των ταξινομητών συνδυάζονται σε μια διαδικασία late fusion. Έτσι, μια προσέγγιση των απαιτούμενων πράξεων για την εκτίμηση για κάθε οντότητας, μπορεί να προκύψει αφού για κάθε χαρακτηριστικό f, υπολογίσουμε το γινόμενο των support vectors N S (f) και του μήκους L fv (f)

108 88 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ Data Features set A (42k frames) SVM Training Data Features set B (20k frames) Classfier Scores Estimation set B (20k frames) Classifier Parameters Σχήμα 6.4: Συνοπτικό διάγραμμα της διαδικασίας παραγωγής των αποτελεσμάτων των ταξινομητών, τα οποία χρησιμοποιούνται σαν είσοδοι του συστήματός μας. του feature vector που χρησιμοποιεί και στη συνέχεια αθροίσουμε για όλα τα χαρακτηριστικά, υπολογίζοντας δηλαδή την ποσότητα: N S (f) L fv (f) (6.12) f Στον πίνακα 6.1 φαίνεται η προσέγγιση των πράξεων της εκτίμησης για κάθε έννοια, όπως και ο αριθμός της πολυπλοκότητας που χρησιμοποιείται στα πειράματα και που προκύπτει μετά από ομοιόμορφη κβάντιση του αριθμού των πράξεων. Έννοια Αρ. πράξεων Πολυπλοκότητα Vehicle Motorcycle Truck Pickup Truck Bus Car Dredge Powershovel Dragline Airplane Building Castle Hospital Hotel House Observation Tower Office Building Residential Buildings School Shopping Mall Warehouse

109 6.3. ΠΕΙΡΑΜΑΤΑ 89 House Of Worship Courthouse White House Road Alley Highway Road Overpass Tower Smoke Stack Steeple Power Transmission Line Tower Television Tower Sports Baseball Basketball Football Golf Soccer Tennis Group Crowd Vegetation Factory Politics Demonstration Or Protest Election Campaign Debate Election Campaign Election Campaign Address Meeting Press Conference Election Campaign Convention Animal Male Anchor Male Person Male Reporter Female Anchor Female Person Female Reporter

110 90 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ Adult Administrative Assistant Tony Blair Donald Rumsfeld Child Colin Powell Hu Jintao John Edwards John Kerry Celebrity Entertainment First Lady Head Of State Horse Boy Groom Male News Subject Bride Female News Subject Judge Police Firefighter Congressman Lawyer Medical Personnel Girl Government Leader Person Armed Person Driver Prisoner Speaker At Podium Civilian Person Military Athlete Corporate Leader Golf Player Ground Crew Guard

111 6.3. ΠΕΙΡΑΜΑΤΑ 91 Swimmer Construction Worker Factory Worker Actor Agent Baker Dresses Πίνακας 6.1: Προσέγγιση απαιτούμενου αριθμού πράξεων και πολυπλοκότητα για κάθε ταξινομητή Οργάνωση οντοτήτων Για να κατασκευάσουμε τη σημασιολογική εγκυκλοπαίδεια χρησιμοποιήσαμε την ιεραρχία της οντολογίας LSCOM, η οποία περιλαμβάνει την ταξινόμηση περίπου 3000 οντοτήτων. Για να προσαρμόσουμε την εγκυκλοπαίδεια στις ανάγκες του προβλήματος, προβήκαμε στα εξής: 1. Αρχικά επιλέξαμε τις οντότητες ενδιαφέροντος. Καθώς οι ταξινομητές της συλλογής του Columbia περιλαμβάνουν αποτελέσματα και στοιχεία που αφορούν 374 από τις οντότητες της LSCOM, αφαιρέσαμε όλες τις υπόλοιπες από την ιεραρχία. Στις περιπτώσεις όπου η προς αφαίρεση οντότητα είχε υπο-οντότητες, οι τελευταίες θεωρούνταν απ'ευθείας υπο-οντότητες του πατέρα της αφαιρούμενης οντότητας. Η διαδικασία αυτή φαίνεται στο παράδειγμα του σχήμα 6.5. Στην πραγματικότητα η διαδικασία αυτή είναι ισοδύναμη με την εφαρμογή του κανόνα του υποθετικού συλλογισμού (hypothetical syllogism) κατά την οποία, χρησιμοποιώντας το παράδειγμα του σχήματος 6.5, από τις προτάσεις D C (6.13) και συνάγουμε ότι C A (6.14) D A (6.15) και έτσι αντικαθιστούμε τις προτάσεις (6.13) και (6.14) με την (6.15), εξασφαλίζοντας ότι στην ιεραρχία που προκύπτει δεν περιλαμβάνεται πλέον η "ανεπιθύμητη" οντότητα C.

112 92 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ A A B C B D E D E Σχήμα 6.5: Παράδειγμα αφαίρεσης οντότητας από την ιεραρχία της LSCOM 2. Στη συνέχεια, με την ίδια διαδικασία, απομακρύναμε τις οντότητες για τις οποίες δεν υπάρχουν αποτελέσματα στο σύνολο δεδομένων του TRECVid 2005, κάτι που ήταν απόρροια κυρίως της ανυπαρξίας ή της εξαιρετικής σπανιότητάς τους στα συγκεκριμένα δεδομένα η οποία τις καθιστούσε άχρηστες για τη διαδικασία της μάθησης. Έτσι καταλήξαμε σε μια ιεραρχία αποτελούμενη από 196 οντότητες. 3. Από αυτή την ιεραρχία εξήχθησαν 14 ορισμοί, εκείνων των οντοτήτων που υπάγουν άλλες και εμπίπτουν στην εκφραστικότητα που έχουμε υιοθετήσει στο κεφάλαιο Στο σημείο αυτό θέσαμε ένα κατώφλι ύπαρξης τουλάχιστον 10 θετικών δειγμάτων για κάθε οντότητα που θα μπορούσε να συμμετέχει σε κάποιον από τους 14 ορισμούς, αριθμός εξαιρετικά χαμηλότερος από αυτόν που απαιτούν συνήθως οι διαδικασίες εκπαίδευσης. Οι ορισμοί που προέκυψαν τελικά παρουσιάζονται στο παράρτημα Α Ασαφοποίηση ορισμών Το επόμενο βήμα ήταν η ασαφοποίηση των ορισμών, δηλαδή ο υπολογισμός του βαθμού ισχύος των υπαγωγών της εγκυκλοπαίδειας, σύμφωνα με τις διαδικασίες που περιγράφηκαν στην ενότητα 3.3. Για την εκτέλεση των πειραμάτων χρησιμοποιήσαμε τη μέθοδο εμπνευσμένη από k-fold cross validation η οποία παρουσιάστηκε στην παράγραφο

113 6.3. ΠΕΙΡΑΜΑΤΑ 93 Για την ασαφοποίηση των αποτελεσμάτων των ταξινομητών, τα οποία χρησιμοποιούμε ως συντακτικά χαρακτηριστικά, δεν ορίσαμε αντίστοιχες συναρτήσεις συμμετοχής. Αντίθετα, χρησιμοποιήσαμε απ' ευθείας τις πιθανότητες ταξινόμησης, όπως αυτές υπολογίζονται από την απόσταση κάθε εικόνας από το υπερεπίπεδο διαχωρισμού κάθε δυαδικού ταξινομητή και αφού εφαρμοστεί μια σιγμοειδής συνάρτηση για την κανονικοποίηση του αποτελέσματος. Συγκεκριμένα, χρησιμοποιείται η συνάρτηση που προτείνεται στο [127], δηλαδή: µ C (S i, I) = exp(a f i (I) + B) (6.16) όπου f i (I) είναι το αποτέλεσμα της συνάρτησης εκτίμησης της εξίσωσης 6.8, ενώ τα A και B είναι οι παράμετροι που καθορίζουν το σχήμα της σιγμοειδούς και που, στην περίπτωση των ταξινομητών του Columbia374, έχουν τιμές 1 και 0 αντίστοιχα. Η επιλογή της χρήσης του αποτελέσματος της συνάρτησης (6.16) ως ασαφή βαθμό συμμετοχής της εικόνας I στην οντότητα S i, γίνεται παρόλο που δεν είναι η βέλτιστη λύση, καθώς σε ιδανική περίπτωση οι συναρτήσεις συμμετοχής και ο βαθμός εκπλήρωσής τους από τα αποτελέσματα των ταξινομητών θα προέκυπταν μετά από ειδική ανάλυση και εφαρμογή μεθόδων όπως η θεωρία Dempster και Shafer [128]. Επιλέγουμε να κάνουμε απευθείας χρήση του αποτελέσματος της (6.16), για λόγους απλοποίησης της πειραματικής διαδικασίας. Επίσης αναφέρουμε ότι για τη διαδικασία της εκπαίδευσης χρησιμοποιούμε σαν είσοδο, εκτός από τα προηγούμενα αποτελέσματα, τα labels L(S i, I) που έχουν παραχθεί κατά τη διαδικασία δημιουργίας του ground truth και τα οποία έχουν τιμές: 1 όταν η έννοια S i εμφανίζεται στην εικόνα I, L(S i, I) = 0 αλλιώς. (6.17) Επιδιόρθωση groundtruth Καθώς στην προσέγγισή μας η γνώση αποτελεί το βασικό εργαλείο για την ανάλυση πολυμέσων, η συνέπεια και η ορθότητά της είναι μεγάλης σημασίας. Για αυτό το λόγο, προσπαθήσαμε να εξασφαλίσουμε την ορθότητα των σχολιασμών (annotations) των δεδομένων μας, με βάση την ιεραρχία. Έτσι, διατρέχοντας όλες τις σχέσεις υπαγωγής τύπου A B και για όλα τα καρέ του σετ δεδομένων, θέσαμε ifa and A B then B (6.18) Με αυτόν τον τρόπο οι σχολιασμοί έγιναν συμβατοί με τη γνώση που εξά-

114 94 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ γαμε από την LSCOM. Οδηγούμαστε σε αυτήν την κίνηση επειδή οποιαδήποτε ιεραρχία πρέπει να έχει γνώση "αντικειμενική", δηλαδή που να ανταποκρίνεται στην κατασκευή και να διαφαίνεται στα δεδομένα. Αυτό δε φάνηκε να συμβαίνει στα συγκεκριμένα δεδομένα, παρόλο που η LSCOM έχει κατασκευαστεί ειδικά για το σκοπό αυτό (της μοντελοποίησης της γνώσης στα πολυμέσα), από επιστήμονες πολλών διαφορετικών ειδικοτήτων. Σε αυτό το σημείο αναδεικνύεται το πρόβλημα της ανυπαρξίας "αντικειμενικής" γνώσης (η οποία διαφαίνεται κι από την ασυμβατότητα της κρίσης των σχολιαστών ως προς τη νοηματική ιεραρχία της LSCOM) και τίθεται το ερώτημα αν αυτό επηρεάζει την αποτελεσματικότητα της μεθόδου μας, αλλά και κάθε μεθόδου βασισμένης στη γνώση. Είναι φανερό ότι αποτελεί εμπόδιο, αλλά αυτό ισχύει και για κάθε λογική διαδικασία. Ένας εναλλακτικός τρόπος επιδιόρθωσης του προβλήματος θα ήταν η κατασκευή μιας ιεραρχίας που να ανταποκρίνεται στις κατευθύνσεις και στο σκεπτικό των σχολιαστών του συγκεκριμένου συνόλου δεδομένων. Συνεπώς η ανυπαρξία αντικειμενικής γνώσης δεν είναι απαγορευτική της χρήσης της μεθόδου, καθώς αυτή μπορεί να βασιστεί σε επιμέρους υποκειμενικούς ισχυρισμούς που είναι αληθείς στο εκάστοτε πρόβλημα Πείραμα 1: Εκτίμηση με σημασιολογικούς ορισμούς Σε αυτό το σημείο θα προσπαθήσουμε να διερευνήσουμε την αποτελεσματικότητα της μεθόδου, σύμφωνα με τη θεωρία του κεφαλαίου 3, δηλαδή χωρίς τη βοήθεια ορισμών και μετρικών μερικής αξιολόγησης. Για το σκοπό αυτό πραγματοποιήσαμε ένα σύνολο πειραμάτων, μετρώντας το Average Precision του τύπου AP (A/B1/B2), χρησιμοποιώντας "πλήρεις" ορισμούς για τις 14 επιλεγμένες έννοιες, χρησιμοποιώντας ετερο-ορισμούς και αυτο-ορισμούς. Κάθε πείραμα είχε 100 monte-carlo εκτελέσεις, με τυχαία κάθε φορά επιλογή συνόλου B1 2, πάντα μέσα στο σύνολο B, έτσι ώστε να παρατηρηθεί η μέση συμπεριφορά για διάφορα σύνολα υπολογισμού βαρών και αξιολόγησης. Στον πίνακα 6.2 παρουσιάζονται τα αποτελέσματα αυτών των πειραμάτων. Συγκεκριμένα στην πρώτη στήλη φαίνεται το όνομα της έννοιας, στην επόμενη η πρότερη πιθανότητα (prior probablility) εμφάνισης της έννοιας στο dataset, στη στήλη 3 εμφανίζεται το μέσο AP του αντίστοιχου ταξινομητή του 2 Εφόσον τα δείγματα στο video εμφανίζονται σε σκηνές διαδοχικών καρέ, μια εντελώς τυχαία επιλογή καρέ θα μοίραζε καρέ της ίδιας σκηνής και στα δύο σύνολα (εκπαίδευσης και αξιολόγησης). Αυτό θα αλλοίωνε το αποτέλεσμα εμφανίζοντας τη μέθοδό μας σε -ψευδώς- πλεονεκτική θέση, καθώς στην πραγματικότητα θα είχε σχεδόν κοινά δείγματα στα δύο σύνολα. Για να το αποφύγουμε αυτό φροντίσαμε τα σύνολα B1 και B2 να αποτελούνται από διαδοχικά, σε κάθε περίπτωση, καρέ.

115 6.3. ΠΕΙΡΑΜΑΤΑ 95 Έννοια Prior Columbia Ετερο-ορισμός Αυτο-ορισμός Vehicle Building Road Tower Sports Group Meeting Male Person Female Person Adult Child Government Leader Person Athlete Μέση τιμή Πίνακας 6.2: Average Precision AP (A/B1/B2) που προκύπτει για κάθε έννοια, χρησιμοποιώντας το πλήρες σύνολο των διαθέσιμων οντοτήτων για κάθε ορισμό. Παρουσιάζεται για τις περιπτώσεις του ετερο-ορισμού και του αυτοορισμού σε σύγκριση με την πρότερη πιθανότητα κάθε έννοιας (prior) και το Average Precision AP c (A/./B2) του αντίστοιχου ταξινομητή του Columbia374. Columbia374, ενώ στις δύο τελευταίες στήλες φαίνονται τα αποτελέσματα του AP που πετυχαίνει η μέθοδός μας με ετερο-ορισμό και αυτο-ορισμό αντίστοιχα. Σχολιάζοντας τα μέσα αποτελέσματα (τελευταία γραμμή) παρατηρούμε ότι στην περίπτωση των ετερο-ορισμών έχουμε μέσο AP 0.41 αρκετά κοντά σε αυτό του ταξινομητή SVM και σχεδόν διπλάσιο από την πρότερη πιθανότητα, ενώ στους αυτο-ορισμούς έχουμε AP 0.52, βελτιωμένο κατά 8% σε σχέση με αυτό του ταξινομητή. Τα αποτελέσματα αυτά είναι πολύ ικανοποιητικά, δεδομένης της ελάχιστης επιπλέον υπολογιστικής προσπάθειας. Βλέποντας τα επιμέρους αποτελέσματα των ετερο-ορισμών, παρατηρούμε ότι η μέθοδός μας έχει συμπεριφερθεί καλύτερα απ' ότι ο ειδικά εκπαιδευμένος ταξινομητής σε 4 περιπτώσεις, σε κάποιες από τις οποίες, μάλιστα, αρκετά σημαντικά ("Group", "Child"), ενώ σε άλλες 4 έχει πολυ συγκρίσιμα αποτελέσματα με τον τελευταίο ("Tower", "Sports", "Adult", "Person"). Στις υπόλοιπες 6 έννοιες η μέθοδός μας παρουσιάζει υστέρηση σε σχέση με τον ταξινομητή, ενώ σε μια από αυτές ("Athlete") η απόδοση είναι εξαιρετικά χαμηλότερη. Πρέπει να τονίσουμε όμως ότι σε κάθε περίπτωση η βελτίωση σε σχέση με την πρότερη πιθανότητα είναι πολύ μεγάλη και η αξία της είναι εμφανής όταν δεν υπάρχει εξειδικευμένος ταξινομητής. Επίσης πρέπει να σχολιάσουμε ότι η απόδοση της προτεινόμενης μεθόδου, εκτός από την αξιοπιστία των επιμέρους ταξινομητών, εξαρτάται πολύ ισχυρά και από τον αριθμό των (θετικών) δειγμάτων των αντίστοιχων εννοιών. 'Ετσι, ορισμοί εννοιών (όπως π.χ. "Vehicle") που βασίζονται σε άλλες έννοιες που

116 96 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ έχουν αρκετά θετικά δείγματα (όπως "Car", "Motorcycle" κτλ. της τάξης των αρκετών εκατοντάδων) παρουσιάζουν πολύ καλύτερη επίδοση από άλλες (όπως π.χ. "Female Person") των οποίων οι ορισμοί βασίζονται σε πολύ σπάνιες έννοιες (όπως "First Lady", "Female News Subject" κτλ.) με δείγματα της τάξης των δεκάδων. Αυτό γίνεται ακόμα πιο εμφανές στην έννοια "Athlete" καθώς οι έννοιες στις οποίες βασίζεται ο ορισμός της ("Swimmer", "Golf Player") έχουν σε όλο το σύνολο B (που περιλαμβάνει τον υπολογισμό βαρών και την αξιολόγηση) συνολικά μόλις 34 και 28 δείγματα αντίστοιχα, κάτι που καταφανώς επηρεάζει την απόδοση. Η ύπαρξη τέτοιων περιπτώσεων οφείλεται στο πολύ μικρό μέγεθος του συνόλου που είχαμε στη διάθεσή μας (20054 δείγματα) για προσδιορισμό βαρών και αξιολόγηση, σε σχέση με τα συνήθως χρησιμοποιούμενα. Αυτή φυσικά ήταν μια αναγκαστική επιλογή, καθώς τα δείγματα του συνόλου A δεν ήταν δυνατό να χρησιμοποιηθούν εφόσον σε αυτά είχαν εκπαιδευθεί οι ταξινομητές SVM και τα scores τους θα ήταν αποπροσανατολιστικά. Συνεπώς, η μέθοδός μας αναμένεται να είναι ακόμα πιο αποτελεσματική όπου είναι διαθέσιμα μεγαλύτερα σύνολα, καθώς εκεί θα μπορούν να έχουν καλύτερες ιδιότητες γενίκευσης, αποφεύγοντας σε μεγάλο βαθμό την υπερεκπαίδευση (over-fitting) από την οποία πάσχουν τώρα. Τα επιμέρους αποτελέσματα στην περίπτωση που στον ορισμό περιλαμβάνεται ο αντίστοιχος ταξινομητής (αυτο-ορισμός) δείχνουν ότι στην πλειοψηφία των περιπτώσεων, σε 8 συγκεκριμένα, η μέθοδός μας υπερέχει, σε πολλές από τις οποίες, μάλιστα, η βελτίωση είναι πολύ μεγάλη (π.χ. "Sports", "Group", "Child", "Athlete"). Σε 3 οντότητες η απόδοση είναι περίπου ισοδύναμη, ενώ στις υπόλοιπες 3 η μέθοδός μας υστερεί σε σχέση με τον ταξινομητή του Columbia374. Σε κάθε περίπτωση, πάντως, η απόδοση του αυτο-ορισμού είναι αυξημένη σε σχέση με τον αντίστοιχο ετερο-ορισμό. Αυτό συμβαίνει γιατί οι οικείοι ταξινομητές για τις 14 οντότητες που χρησιμοποιήσαμε φαίνεται να είναι αρκετά αξιόπιστοι και οι προσθήκη τους σε έναν ορισμό βελτιώνει το αποτέλεσμα. Συμπερασματικά, από αυτό το πείραμα φαίνεται ότι έχουν επιτευχθεί και οι δύο στόχοι που τέθηκαν στην ενότητα 6.2, καθώς με τη χρήση της μεθόδου μας α. Μπορούμε να ανιχνεύσουμε νέες έννοιες πετυχαίνοντας της ίδιας τάξης Average Precision χωρίς να χρειαστεί να εκπαιδεύσουμε νέο ταξινομητή. β. Μπορούμε να βελτιώσουμε την απόδοση ανίχνευσης εννοιών για τις οποίες έχουμε ήδη ταξινομητή επιστρατεύοντας κι άλλους ταξινομητές που ανιχνεύουν έννοιες οι οποίες υπάγονται από την πρώτη. Ακόμα, θα λέγαμε ότι η χρήση του ετερο-ορισμού αξίζει τον κόπο σε κάθε

117 6.3. ΠΕΙΡΑΜΑΤΑ 97 περίπτωση, κάτι που για τον αυτο-ορισμό ισχύει στην πλειοψηφία των περιπτώσεων. Τέλος, πολύ σημαντικό στοιχείο της προτεινόμενης μεθόδου είναι ότι δίνει τη δυνατότητα να έχουμε, μέσω της απόδοσής της στο σύνολο υπολογισμού των βαρών, μια αρκετά καλή εκτίμηση της απόδοσης στο σύνολο αξιολόγησης, κρίνοντας κατά περίπτωση αν η αναμενόμενη βελτίωση είναι ικανοποιητική. Η δυνατότητα αυτή παρουσιάζεται στο κεφάλαιο 8, όπου η ύπαρξη πολύ περισσότερων ορισμών επιτρέπει μια τέτοια ανάλυση Πείραμα 2: Βελτιστοποίηση Πολυπλοκότητας Εδώ θέλουμε να μελετήσουμε τη συμπεριφορά της προτεινόμενης μεθόδου σε συνθήκες περιορισμών πολυπλοκότητας, θέτοντας σε εφαρμογή τη μεθοδολογία του κεφαλαίου 4, όπως προσαρμόστηκε στις ανάγκες του προβλήματος στις εξισώσεις (6.4)- (6.7). Προς την κατεύθυνση αυτή εκτελέσαμε για καθέναν από τους 14 ορισμούς πειράματα με μεταβαλλόμενα κατώφλια πολυπλοκότητας, μετρώντας κάθε φορά το AP (A/B1/B2) που η μέθοδός μας επιτυγχάνει. Κάθε πείραμα είχε 100 monte-carlo εκτελέσεις, με διαφορετική κάθε φορά επιλογή του συνόλου υπολογισμού βαρών B1, όπως περιγράφηκε στην παράγραφο Concept: Vehicle normal definition 1 Concept: Vehicle self definition Average Precision CCMMR validity classifier concept prior Average Precision CCMMR validity classifier concept prior Complexity Threshold (α) Complexity Threshold (β) Σχήμα 6.6: Μέσο Average Precision AP (A/B1/B2) της μεθόδου (κόκκινη καμπύλη) για την έννοια "Vehicle" και για διαφορετικά κατώφλια πολυπλοκότητας. Στο (α) παρουσιάζονται τα αποτελέσματα του ετερο-ορισμόυ ενώ στο (β) του αυτο-ορισμού. Τα βάρη υπολογίστηκαν χρησιμοποιώντας τα αποτελέσματα των ταξινομητών στο σύνολο B1. Ακόμα παρουσιάζονται η Εγκυρότητα του επιλεγμένου κάθε φορά υποσυνόλου (μπλε), το Average Precision του αντίστοιχου ταξινομητή AP c (A/./B2) (πράσινο) και η πρότερη πιθανότητα της έννοιας (μωβ). Η επιλογή του υποσυνόλου των ταξινομητών που θα χρησιμοποιηθούν για

118 98 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ κάθε κατώφλι πολυπλοκότητας γίνεται με βάση τη μεγιστοποίηση της Εγκυρότητας και, όπως αναφέρθηκε παραπάνω, η τελευταία είναι επιθυμητό να είναι συναυξανόμενη με το AP. Ενδεικτικά, στο σχήμα 6.6(α) φαίνεται η συμπεριφορά των μεγεθών αυτών για τον ετερο-ορισμό και στο 6.6(β) για τον αυτο-ορισμό της έννοιας "Vehicle" 3. Παρατηρούμε λοιπόν ότι, παρόλο που οι δύο καμπύλες (με μπλε χρώμα για την Εγκυρότητα και κόκκινο για το AP) δεν έχουν την ίδια μορφή, είναι συναυξανόμενες. Αυτό σημαίνει ότι κάθε αύξηση της διαθέσιμης πολυπλοκότητας έχει γενικά σαν αποτέλεσμα τη βελτίωση του αποτελέσματος, δηλαδή την αύξηση του AP, αν και ο βαθμός στον οποίο θα γίνει αυτό δεν είναι εκ των προτέρων προβλέψιμος μέσω της τιμής της Εγκυρότητας. Επιπλέον, βλέπουμε ότι και στα δύο σχήματα (6.6(α) και 6.6(β)) φαίνεται πως η μέθοδός μας τα πάει πολύ ικανοποιητικά, καθώς πετυχαίνει να αυξήσει το AP πολύ νωρίτερα από το σημείο που έχει τη δυνατότητα να χρησιμοποιηθεί ο ίδιος ο ταξινομητής για την οντότητα "Vehicle". Στο σημείο που αυτό γίνεται εφικτό (με πολυπλοκότητα κοντά στο 200) το AP αυξάνεται απότομα. Στην περίπτωση του αυτο-ορισμού (σχ. (β)) αυτό είναι αναμενόμενο εφόσον τότε αρχίζει να περιλαμβάνεται ο ταξινομητής στον ορισμό, δίνοντας ώθηση στη μέθοδο. Στον ετερο-ορισμό, όμως, η αύξηση αυτή οφείλεται στο ότι στο συγκεκριμένο ορισμό συμμετέχει μια έννοια ("Car") η οποία, όπως φαίνεται, αφενός προσφέρει πολύ μεγάλη αξιοπιστία στην ανίχνευση της "Vehicle" (η πλειοψηφία των οχημάτων στο dataset ήταν αυτοκίνητα) και αφετέρου ο ταξινομητής της "Car" έχει σχεδόν τον ίδιο αριθμό support vectors και άρα και πολυπλοκότητα εκτίμησης με αυτόν της "Vehicle" (βλ. πίνακα 6.1) και γι' αυτό το λόγο η αύξηση του AP γίνεται απότομα στο ίδιο περίπου σημείο. Στο σχήμα 6.7 απεικονίζεται η μεταβολή του μέσου AP, για όλες τις έννοιες και για αυξανόμενο κατώφλι πολυπλοκότητας. Η τετμημένη εδώ αναπαριστά το κατώφλι κανονικοποιημένο ως προς την πολυπλοκότητα του εκάστοτε ταξινομητή. Έτσι, μια τιμή 0.5 σε αυτόν τον άξονα δηλώνει πολυπλοκότητα μισή από αυτή του ταξινομητή. Επίσης, η μπλε καμπύλη παριστάνει το μέσο AP των ετερο-ορισμών ενώ η κόκκινη των αυτο-ορισμών. Οι παρατηρήσεις που κάναμε προηγουμένως επαληθεύονται και σε αυτό το σχήμα όπου το μέσο AP παρουσιάζεται αυξανόμενο, ενώ δείχνει ότι μπορούμε να πετύχουμε αρκετά καλές τιμές AP με μικρό υπολογιστικό κόστος. Επιπλέον, ενδιαφέρον παρουσιάζει το γεγονός ότι για τιμές κατωφλίου χαμηλότερες της μονάδας ο ετερο-ορισμός λειτουργεί καλύτερα από τον αντίστοιχο αυτο-ορισμό. Αυτό συμβαίνει γιατί στην πρώτη περίπτωση δεν περιλαμβάνεται η υπο-ορισμό έννοια, η ύπαρξη της οποίας στη δεύτερη δυσκολεύει σε ένα 3 Τα αντίστοιχα σχήματα για όλες τις έννοιες μπορούν να βρεθούν στο παράρτημα B.

119 6.3. ΠΕΙΡΑΜΑΤΑ Mean Average Precision vs Complexity normal def self def columbia prior 0.55 Mean Average Precision Complexity Threshold Σχήμα 6.7: Μέσο Average Precision AP (A/B1/B2) για όλες τις έννοιες και για διαφορετικά κατώφλια πολυπλοκότητας, για τους αυτο-ορισμούς (κόκκινη καμπύλη) και τους ετερο-ορισμούς (μπλε καμπύλη). Τα βάρη υπολογίστηκαν με χρήση των scores των ταξινομητών στο σύνολο B1. Με πράσινο φαίνεται η καμπύλη του μέσου Average Precision των ταξινομητών AP c (A/./B2) και με μωβ η μέση πρότερη πιθανότητα των εννοιών. βαθμό τη διαδικασία υπολογισμού των βαρών, μια και τελικά δε χρησιμοποιείται. Από την άλλη, μόλις το κατώφλι το επιτρέψει, ο αυτο-ορισμός, εκμεταλλευόμενος το αποτέλεσμα του ταξινομητή, ξεπερνά τον ετερο-ορισμό και λίγο αργότερα και τον ίδιο τον ταξινομητή. Συμπερασματικά, και απαντώντας στα ερωτήματα που τέθηκαν στην ενότητα 6.2, θα λέγαμε ότι γ. φαίνεται να επικυρώνεται η επιλογή της μετρικής της Εγκυρότητας ως αξιόπιστη στην εκτίμηση οντοτήτων, διότι η καμπύλη του AP ως προς την πολυπλοκότητα, παρόλο που δεν υπάρχει μεταξύ τους γραμμική σχέση, είναι συναυξανόμενη με την πρώτη. δ. μπορούμε να προσαρμόσουμε την ακρίβεια της εκτίμησης σε κάθε επιβαλλόμενο υπολογιστικό κατώφλι, πετυχαίνοντας καλές τιμές AP ακόμα και για πολύ μικρή πολυπλοκότητα Πείραμα 3: Λίγη επιπλέον διερεύνηση Πέρα από τα βασικά πειράματα, σε αυτή την παράγραφο παραθέτουμε κάποια ακόμα αποτελέσματα που βοηθούν στη διαίσθηση για τη λειτουργία της μεθόδου.

120 100 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ Mean Average Precision vs Complexity normal def self def columbia prior 0.55 Mean Average Precision Mean Average Precision vs Complexity Complexity Threshold normal def self def columbia prior (α) Mean Average Precision vs Complexity normal def self def columbia prior Mean Average Precision Mean Average Precision Complexity Threshold Complexity Threshold (β) (γ) Σχήμα 6.8: Μέσο Average Precision για διαφορετικά κατώφλια πολυπλοκότητας, για τους αυτο-ορισμούς (κόκκινη καμπύλη) και τους ετερο-ορισμούς (μπλε καμπύλη), ενώ με πράσινο φαίνεται η καμπύλη του μέσου Average Precision των ταξινομητών και με μωβ η μέση πρότερη πιθανότητα των εννοιών: (α) τα βάρη υπολογίστηκαν με χρήση των labels του groundtruth στο σύνολο B1 (AP (A/B1/B2)), (β) τα βάρη υπολογίστηκαν με χρήση των scores των ταξινομητών στο σύνολο A (AP (A/A/B)) και (γ) τα βάρη υπολογίστηκαν με χρήση των labels του groundtruth στο σύνολο A (AP (A/A/B)).

121 6.4. ΣΥΜΠΕΡΑΣΜΑΤΑ 101 Στο σχήμα 6.8(α) απεικονίζεται το αποτέλεσμα AP (A/B1/B2) για διάφορα κατώφλια πολυπλοκότητας, όταν επιλέξαμε να χρησιμοποιήσουμε στον υπολογισμό των βαρών όχι τα αποτελέσματα των ταξινομητών, αλλά τα labels από το groundtruth των οντοτήτων. Από τις καμπύλες του σχήματος φαίνεται ότι υπάρχει μια μείωση στο AP που επιτυγχάνεται σε σχέση με τα αποτελέσματα της προηγούμενης παραγράφου (σχήμα 6.7). Εν τούτοις η συμπεριφορά της μεθόδου είναι πολύ ικανοποιητική και συνεπής με την προηγούμενη μελέτη, διατηρώντας τα βασικά της χαρακτηριστικά, δηλαδή του αυξανόμενου AP, της επίτευξης ικανού AP για μικρές τιμές πολυπλοκότητας και τελικά την υπέρβαση του αντίστοιχου ταξινομητή, για την περίπτωση του αυτο-ορισμού. Το πείραμα αυτό, που είχε επίσης 100 monte-carlo εκτελέσεις, διενεργήθηκε για να διερευνηθεί η συμπεριφορά στην περίπτωση που δεν έχουν εκτελεστεί αντίστοιχοι ταξινομητές ή απλά τα αποτελέσματά τους δεν είναι διαθέσιμα σε ένα σύνολο εκπαίδευσης και δείχνει ότι η μέθοδός μας διατηρεί και σε αυτή τη "μειονεκτική" περίπτωση τις βασικές αρετές της. Τέλος, στο σχήματα 6.8(β) και (γ) φαίνονται τα αποτελέσματα του μέσου AP του τύπου AP (A/A/B), δηλαδή όταν τόσο η εκπαίδευση του ταξινομητή όσο και ο υπολογισμός των βαρών έγιναν στο σύνολο A. Στο 6.8(β) χρησιμοποιήθηκαν τα αποτελέσματα των ταξινομητών στο ίδιο σύνολο, τα οποία ήταν βέβαια σε ένα βαθμό παραπλανητικά καθώς πρόκειται για το σύνολο εκπαίδευσης τους, ενώ στο 6.8(γ) χρησιμοποιήθηκαν τα labels του groundtruth στο σύνολο A, σε αντιστοιχία με το σχήμα 6.8(α). Και στις περιπτώσεις αυτές παρατηρούμε πως διατηρούνται τα πλεονεκτήματα της μεθόδου μας. 6.4 Συμπεράσματα Στο κεφάλαιο αυτό χρησιμοποιήσαμε τα εργαλεία αναπαράστασης γνώσης και συμπερασμού του κεφαλαίου 3 για το σχετικά ανέξοδο υπολογισμό βαθμών συσχέτισης εννοιών με πολυμεσικά έγγραφα, με σκοπό την εφαρμογή τους σε προβλήματα ανάκτησης πολυμέσων. Η προσέγγισή μας συνδυάζει τα αποτελέσματα κατάλληλα εκπαιδευμένων ταξινομητών και επιτυγχάνει τον υπολογισμό νέων βαθμών ανίχνευσης για έννοιες για τις οποίες δεν υπάρχουν ταξινομητές αλλά και βελτίωση των βαθμών ανίχνευσης των υπαρχόντων ταξινομητών. Παράλληλα, με τη χρήση της μεθοδολογίας βέλτιστης επιλογής υποσυνόλων του κεφαλαίου 4, στοχεύσαμε στη σχεδίαση της ανάκτησης υπό κλιμακωτούς υπολογιστικούς περιορισμούς, επιτυγχάνοντας καλή ακρίβεια ανάκτησης, που εδώ αξιολογείται με το Average Precision. Επιπλέον στόχος μας ήταν η

122 102 ΚΕΦΑΛΑΙΟ 6. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΟΛΥΜΕΣΩΝ επικύρωση της χρήσης της μερικής Εγκυρότητας ως μετρική επιλογής, με την έννοια ότι είναι συναυξανόμενη με το Average Precision. Τα πειράματα που πραγματοποιήθηκαν χρησιμοποιώντας τους ταξινομητές του Columbia374 στο σύνολο δεδομένων TRECVid2005 και την οντολογία LSCOM, καταδεικνύουν την επίτευξη των παραπάνω στόχων.

123 Κεφάλαιο 7 Εφαρμογή στην αξιολόγηση πρακτόρων λογισμικού OK, so you've got a Ph.D. Now, don't touch anything. Ανώνυμος/η 7.1 Εισαγωγή Καθώς οι Πράκτορες Λογισμικού και τα Πολυπρακτορικά Συστήματα (Multiagent systems - MAS) εδραιώνονται σαν μια ελκυστική προγραμματιστική προσέγγιση για ένα ευρύ φάσμα εφαρμογών, αυξάνονται και οι απαιτήσεις από τις μεθοδολογίες από τις οποίες πλαισιώνονται και υποστηρίζονται. Πριν από μια δεκαετία οι πράκτορες θεωρούνταν ότι παρείχαν αρκετή αφαιρετικότητα για να προσαρμοστούν σε κάθε πρόβλημα. Τα πρόσφατα χρόνια όμως, το πεδίο εφαρμογής τους έχει πλέον εξειδικευθεί σε συγκεκριμένα πεδία εφαρμογής, όπως για παράδειγμα το grid computing [129], οι ηλεκτρονικές δημοπρασίες [130] και το autonomic computing [131] που επωφελούνται από τα πλεονεκτήματά των πρακτόρων. Παρόλα αυτά, η χρήση τους, ακόμα και στα προαναφερθέντα πεδία, είναι ακόμα σχετικά περιορισμένη, πράγμα που οφείλεται κυρίως στο σχετικά μικρό βαθμό ωρίμανσης της περιοχής καθώς και στη διεπιστημονική της φύση [132]. Για να αντιμετωπιστεί αυτή η κατάσταση δίνεται έμφαση από τους ερευνητές στην προσέγγιση και θεμελίωση του κύκλου ζωής των πρακτόρων από την πλευρά της τεχνολογίας λογισμικού σε αντίθεση με την αφηρημένη έννοια του λεγόμενου 'agent metaphor' [133]. Πιστεύεται ότι η ανάπτυξη μεθόδων αξιολόγησης της απόδοσης που επιτυγχάνουν οι πράκτορες και τα πολυπρακτορικά συστήματα σε πραγματικό χρόνο, προσαρμοσμένων στη δυναμική και 103

124 104 ΚΕΦΑΛΑΙΟ 7. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΞΙΟΛΟΓΗΣΗ ΠΡΑΚΤΟΡΩΝ ΛΟΓΙΣΜΙΚΟΥ μη προβλέψιμη φύση των τελευταίων, θα αποκαλύψει με ποσοτικό τρόπο τα πλεονεκτήματα και τις αδυναμίες τους σε κάθε περιοχή εφαρμογής. Με αυτόν τον τρόπο οι ερευνητές αναμένεται να αποκτήσουν αξιόπιστα εργαλεία μέτρησης της ποιότητας και της αποτελεσματικότητας των μεθοδολογιών τους αλλά και βελτίωσης και προσαρμογής των παραμέτρων τους στο εκάστοτε περιβάλλον. Σε αυτά τα πλαίσια έχει πρόσφατα προταθεί η μεθοδολογία του Agent Performance Evaluation (APE) [134], η οποία χρησιμοποιεί μια δενδρική δομή, που ονομάζεται Δένδρο Αναπαράστασης Μετρικών (Metrics Representation Tree - MRT), για την οργάνωση και τη χρήση της πληροφορίας αξιολόγησης πρακτόρων. Η δομή ενός MRT μοιάζει πολύ με αυτή της Σημασιολογικής Εγκυκλοπαίδειας, καθώς το κατώτατό της επίπεδο αποτελείται από άμεσα μετρήσιμες ποσότητες, η αξιολόγηση των οποίων χρησιμοποιείται για τον υπολογισμό των ποσοτήτων υψηλότερου επιπέδου. Στο κεφάλαιο αυτό, δείχνουμε πως η μεθοδολογία μας μπορεί να προσαρμοστεί έτσι ώστε να χρησιμοποιηθεί στην αξιολόγηση πρακτόρων λογισμικού, με χρήση των δένδρων MRT. Πιο συγκεκριμένα, εισάγουμε τη χρήση της ασαφούς λογικής για το συμπερασμό, υπολογίζοντας τα αντίστοιχα ασαφή βάρη για το παρεχόμενο από ειδικούς της περιοχής MRT. Στη συνέχεια εφαρμόζουμε τη μέθοδο της σχεδίασης με βάση την Πολυπλοκότητα για να επιλέξουμε βέλτιστα υποσύνολα των μεγεθών αξιολόγησης με βάση τους εκάστοτε υπολογιστικούς περιορισμούς. Η συμπεριφορά της μεθοδολογίας επιδεικνύεται στο διαγωνισμό Trading Agent Competition - Supply Chain Management (TAC-SCM) [135], όπου οι συμμετέχοντες πράκτορες ανταγωνίζονται σε ένα περιβάλλον προσομοίωσης μιας αγοράς προσωπικών υπολογιστών. Καθένας τους εφαρμόζει μια ευρεία γκάμα από στρατηγικές για τη διαχείριση και το συγχρονισμό της αγοράς, της αποθήκευσης και της πώλησης εξαρτημάτων υπολογιστών, με στόχο τη μεγιστοποίηση του χρηματικού κέρδους. Με βάση το στόχο αυτό, γίνεται και η εκπαίδευση των ασαφών MRT. 7.2 Μοντελοποίηση της περιοχής Όπως περιγράφεται στην εργασία [134], ένα δέντρο αναπαράστασης μετρικών (MRT) είναι μια δομημένη αναπαράσταση των μετρικών που αφορούν πτυχές της απόδοσης των πρακτόρων λογισμικού. Η δομή είναι δενδρική και οι έννοιες της περιοχής, που είναι οργανωμένες σε επίπεδα, αποτελούνται από τις απλές και τις σύνθετες μετρικές. Οι πρώτες αντιστοιχούν σε ποσότητες που είναι απευθείας μετρήσιμες σε ένα πολυπρακτορικό σύστημα, ενώ οι τελευταίες

125 7.2. ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΤΗΣ ΠΕΡΙΟΧΗΣ 105 περιγράφουν έννοιες υψηλότερου επιπέδου και μπορούν να οριστούν χρησιμοποιώντας άλλες (απλές ή σύνθετες) μετρικές. Μετά την εκτέλεση των μετρήσεων, τα αποτελέσματα που συγκεντρώνονται συναθροίζονται κατά επίπεδα, για να φτάσουμε τελικά στον υπολογισμό μιας συγκεκριμένης τιμής για τη συνολική απόδοση του συστήματος. Σύμφωνα με την παραπάνω περιγραφή η δομή και διαδικασία παραγωγής αποτελεσμάτων σε ένα MRT παρουσιάζουν πολλές ομοιότητες με τη δομή της Σημασιολογικής Εγκυκλοπαίδειας που περιγράφηκε στην ενότητα 3.1 και το συμπερασμό σε αυτήν (εν. 3.2). Η παρατήρηση αυτή μας ώθησε να αντιστοιχίσουμε τη Βεβαιότητα στην απόδοση του συστήματος αλλά και τις έννοιες των πολυμεσικών εγγράφων στα χαρακτηριστικά/μετρικές υψηλού επιπέδου των πρακτόρων 1. Εφαρμόσαμε με αυτόν τον τρόπο τη μεθοδολογία μοντελοποίησης της Σημασιολογικής Εγκυκλοπαίδειας υπολογίζοντας τα ασαφή βάρη με τα εργαλεία της ενότητας 3.3 ώστε να "ασαφοποιήσουμε" το MRT. Επίσης, χρησιμοποιήσαμε τις μεθόδους του κεφαλαίου 4 για να ορίσουμε τις μεταμετρικές της Βεβαιότητας, της Εγκυρότητας και της Πολυπλοκότητας έτσι ώστε να δώσουμε τη δυνατότητα "μερικής" αξιολόγησης/συμπερασμού, επιλέγοντας τα βέλτιστα υποσύνολα απλών μετρικών ανάλογα με τις ανάγκες και τους περιορισμούς του εκάστοτε περιβάλλοντος αξιολόγησης. Στο σχήμα 7.1 φαίνεται η απεικόνιση ενός απλού δέντρου μετρικών. Στο συγκεκριμένο πεδίο εφαρμογής, η σχεδίαση με βάση την πολυπλοκότητα (βλ. παράγραφο 4.2.2) μπορεί να είναι πολύ χρήσιμη κατά τη διαδικασία αξιολόγησης πρακτόρων σε πραγματικό χρόνο. Σε ένα τέτοιο παράδειγμα, ο πράκτορας αξιολογεί κάθε φορά την τρέχουσα κατάσταση του περιβάλλοντος και αποφασίζει για τις επόμενες ενέργειές του, σε μια διαδικασία που επαναλαμβάνεται βήμα προς βήμα. Καθώς ο χρόνος είναι κρίσιμος για τη λήψη της απόφασης είναι σημαντικό για τον πράκτορα να γνωρίζει ποιες από τις μετρήσεις θα είναι διαθέσιμες στην αρχή του κύκλου αξιολόγησης και ποιες θα χρειαστούν χρόνο, ίσως και περισσότερο από το διαθέσιμο. Στην περίπτωση αυτή είναι χρήσιμο για τον πράκτορα να μπορεί να λάβει αποφάσεις με χρήση ενός υποσυνόλου των μετρήσεων. 1 Εδώ να παρατηρήσουμε ότι η συμπεριφορά του δέντρου MRT είναι ταυτόσημη και οι υπολογισμοί γίνονται με τους ίδιους τρόπους με αυτούς που παρουσιάστηκαν στο κεφάλαιο 3. Χρησιμοποιούμε, δηλαδή, εκείνα τα μαθηματικά εργαλεία και για αυτήν την περίπτωση.

126 106 ΚΕΦΑΛΑΙΟ 7. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΞΙΟΛΟΓΗΣΗ ΠΡΑΚΤΟΡΩΝ ΛΟΓΙΣΜΙΚΟΥ A f aa f BA a B f db f CB d C f ec f fc e f Σχήμα 7.1: Δομή ενός απλού δέντρου αναπαράστασης μετρικών (MRT).

127 7.3. ΕΦΑΡΜΟΓΗ ΣΤΟ ΔΙΑΓΩΝΙΣΜΟ TRADING AGENT COMPETITION Εφαρμογή στο διαγωνισμό Trading Agent Competition Περιγραφή του διαγωνισμού Στο περιβάλλον του διαγωνισμού TAC SCM[135], οι πράκτορες ενεργούν σαν κατασκευαστές προσωπικών υπολογιστών, στοχεύοντας στο μεγαλύτερο δυνατό κέρδος μέσα σε μια προσομοίωση της αγοράς. Οι πράκτορες ανταγωνίζονται μεταξύ τους κάνοντας προσφορές και αναλαμβάνοντας παραγγελίες από πελάτες και συμβόλαια από προμηθευτές κομματιών υπολογιστή. Ο διαγωνισμός διεξάγεται μέσω διαδικτύου και σε κάθε παιχνίδι λαμβάνουν μέρος έξι πράκτορες λογισμικού. Η διάρκεια του παιχνιδιού είναι 220 "μέρες TAC" που αντιστοιχούν σε 55 λεπτά πραγματικού χρόνου. Όλη η προσομοίωση ελέγχεται από έναν game server στον οποίο συνδέονται όλοι οι πράκτορες. Ο καθένας από τους τελευταίους λειτουργεί το δικό του εργοστάσιο το οποίο έχει περιορισμένη δυνατότητα παραγωγής. Στην αρχή κάθε μέρας ο server στέλνει requests for quotes (RFQs) εκ μέρους των πελατών στους πράκτορες οι οποίοι κάνουν τις προσφορές τους βασιζόμενοι στην ικανότητά τους να ικανοποιήσουν τις ημερομηνίες παράδοσης στέλνοντας μια προσφορά με την τιμή στον πελάτη πριν το τέλος της ημέρας. Την επόμενη μέρα, αν η προσφορά ενός πράκτορα ήταν η καλύτερη, τότε αναλαμβάνει από τον πελάτη την παραγγελία, ενώ για να πληρωθεί θα πρέπει να παραδώσει τους υπολογιστές εγκαίρως. Στη διαδικασία αυτή μπορεί είτε να συναρμολογήσει τους υπολογιστές εκείνη τη στιγμή είτε να χρησιμοποιήσει υπολογιστές που συναρμολογήθηκαν προηγουμένως και υπήρχαν στην αποθήκη. Υπάρχουν αρκετοί τύποι υπολογιστών, καθένας από τους οποίους απαιτεί διαφορετικό συνδυασμό εξαρτημάτων, τα οποία προέρχονται από οκτώ διαφορετικούς προμηθευτές, που καταθέτουν ανάλογες προσφορές. Τέλος οι καθυστερημένες παραδόσεις υπολογιστών τιμωρούνται με ένα χρηματικό πρόστιμο που προβλέπεται στην εκάστοτε προσφορά. Στο σχήμα 7.2 φαίνεται μια αναπαράσταση του παιχνιδιού, στην οποία διακρίνονται οι τέσσερις φάσεις του: (i) προμήθεια εξαρτημάτων (component procurement), (ii) διαχείριση αποθέματος (inventory management), (iii) παραγωγή και χρονοδιάγραμμα παράδοσης και (production and delivery scheduling) και (iv) πώληση υπολογιστών (computer sales) Επιλογή και οργάνωση μετρικών αξιολόγησης Η επιλογή των μετρικών (απλών και σύνθετων) και η ιεραρχική οργάνωσή τους σε ένα ΜRT έγινε από ειδικούς στο πεδίο. Στο σχήμα 7.3 φαίνεται το

128 108 ΚΕΦΑΛΑΙΟ 7. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΞΙΟΛΟΓΗΣΗ ΠΡΑΚΤΟΡΩΝ ΛΟΓΙΣΜΙΚΟΥ Σχήμα 7.2: Μια σχηματική επισκόπηση του παιχνιδιού TAC-SCM. Σχήμα 7.3: Το δέντρο αναπαράστασης μετρικών για το διαγωνισμό TAC-SCM.

129 7.3. ΕΦΑΡΜΟΓΗ ΣΤΟ ΔΙΑΓΩΝΙΣΜΟ TRADING AGENT COMPETITION 109 # Όνομα Συντομογραφία Τύπος Πολυπλοκότητα Βάρος Λεπτ.Ορ. 1. Agent Performance - Σύνθετη Sales - Σύνθετη Manufacturing - Σύνθετη Procuring - Σύνθετη Inventory - Σύνθετη Market Share MS Απλή Avg. Selling Price ASP Απλή Factory Units FU Απλή Avg. Storage Cost ASC Απλή Stock Keeping Unit Inventory SKUInv Απλή Component Inventory CompInv Απλή Delivery Performance DP Απλή Avg. Lead Time ALT Απλή Πίνακας 7.1: Οι επιλεγμένες μετρικές και τα χαρακτηριστικά τους. δέντρο που προέκυψε από αυτή τη διαδικασία. Οι τιμές των βαρών στους κλάδους του δέντρου υπολογίστηκαν με χρήση της διαδικασίας βελτιστοποίησης που παρουσιάστηκε στην ενότητα 3.3. Στον πίνακα (στήλες 2-4) φαίνονται πληροφορίες σχετικά με τα ονόματα, τις συντομεύσεις και τους τύπους των επιλεγμένων μετρικών. Οι στήλες 5-7 περιέχουν αποτελέσματα και περιγράφονται αργότερα. Η επίδοση ενός πράκτορα i μπορεί να μετρηθεί εκ των υστέρων, με απολογισμό της δραστηριότητάς του και να συνοψιστεί με ένα metric µ(i). Αυτό το metric όμως θα είναι διαθέσιμο μόνο μετά την ολοκλήρωση της χρήσης του. Σε ένα περιβάλλον ανταγωνιστικό, όπως ο διαγωνισμός TAC, όπου η αξιολόγηση του πράκτορα πρέπει να γίνει πολύ νωρίτερα και ενδεχομένως να οδηγήσει σε αλλαγές των ρυθμίσεων από το σχεδιαστή του, είναι χρήσιμη μια εκτίμηση της απόδοσης. Προτείνεται λοιπόν η προσέγγιση του µ(i) με μια εκτιμήτρια ˆµ(i) η οποία εκφράζεται με βάση τη δομή του MRT του σχήματος 7.3 και σε αντιστοιχία με τις εξισώσεις υπολογισμού της Βεβαιότητας του κεφαλαίου 3, ως εξής: ˆµ(i) = U[I(µ S (i), F 2_1 ), I(µ M (i), F 3_1 ), I(µ P (i), F 4_1 )] (7.1) όπου µ S (i) = U[I(µ MS (i), F 6_2 ), I(µ ASP (i), F 7_2 )] (7.2) και οι υπόλοιπες τιμές προκύπτουν παρομοίως. Για τις συντακτικές οντότητες, δηλαδή τις απλές μετρικές, οι τιμές (µ MS (i) κ.ο.κ.) προκύπτουν από συναρτήσεις συμμετοχής πάνω στα αντίστοιχα σύνολα μετρήσεων, οι οποίες ορίστηκαν από ειδικούς στο πεδίο, σε αντίθεση με την εφαρμογή του κεφαλαίου 6, όπου χρησιμοποιήθηκαν αποτελέσματα κατάλληλων ταξινομητών. Στα ενώ στα σχήματα 7.4(α) και 7.4(β) παρουσιάζονται τέτοιες συναρτή-

130 110 ΚΕΦΑΛΑΙΟ 7. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΞΙΟΛΟΓΗΣΗ ΠΡΑΚΤΟΡΩΝ ΛΟΓΙΣΜΙΚΟΥ σεις συμμετοχής για τις μετρικές "Factory Utilization" και "Component Inventory" αντίστοιχα. Αντίθετα, οι τιμές των βαρών F j δε λαμβάνονται από εκτιμήσεις ειδικών, αλλά υπολογίζονται πάνω στα δεδομένα σαν πρόβλημα βελτιστοποίησης που θα επιλυθεί με χρήση γενετικού αλγορίθμου. (α) Very High Factory Utilization (β) Component Inventory around 0.2 Σχήμα 7.4: Αναπαράσταση των συναρτήσεων συμμετοχής για δύο από τις μετρικές του συστήματος Δεδομένα Εκτελέσαμε μια σειρά πειραμάτων με στόχο α) να υπολογίσουμε τα βάρη των κλάδων του MRT και β) να κάνουμε σχεδίαση με βάση την Πολυπλοκότητα για μερική αξιολόγηση. Τα πειράματα πραγματοποιήθηκαν σε μια συλλογή από log files που παρήχθησαν κατά τη διάρκεια εκτέλεσης 530 παιχνιδιών. Τα παιχνίδια αυτά περιλάμβαναν συνολικά 2400 αρχικοποιήσεις πρακτόρων λογισμικού. Για καθέναν από αυτούς, τα δεδομένα μας περιέχουν τα αποτελέσματα των μετρήσεων για όλες τις απλές μετρικές.

131 7.3. ΕΦΑΡΜΟΓΗ ΣΤΟ ΔΙΑΓΩΝΙΣΜΟ TRADING AGENT COMPETITION Εκπαίδευση Για να μοντελοποιήσουμε την απόδοση ενός πράκτορα i, χρησιμοποιούμε την ποσότητα µ(i), όπως ορίστηκε από τους ειδικούς και βασίζεται στο κέρδος που πέτυχε ο πράκτορας σε ένα παιχνίδι: w(ba(i)) BA(i) if BA(i) 0 µ(i) = 1 w(ba(i)) BA(i) if BA(i) < 0 όπου BA(i) είναι το ποσό που βρίσκεται στον τραπεζικό λογαριασμό (Bank Account) του πράκτορα i κατά το τέλος του παιχνιδιού. Καθώς η απόλυτη τιμή του τελευταίου είναι συσχετισμένη με την κατάσταση της υπό προσομοίωση αγοράς σε κάθε παιχνίδι, χρησιμοποιείται ο όρος w(ba(i)), ο οποίος ορίζεται σαν μια συνάρτηση πραγμάτων που παραμένουν σταθερά σε όλη τη διάρκεια του παιχνιδιού, όπως ο αριθμός των πρακτόρων (Number of Agents - NoA) που συμμετέχουν, η μέση τιμή αγοράς (Avg Purchase Price - APP) και η ζήτηση των πελατών (Customer Demand - CD): w(ba(i)) = 0.3 f g h όπου f = 0.03 NoA 2 g = (0.5 ln(cd)) h = e AP P /3 Παρατηρούμε βέβαια ότι το µ(i) είναι μια posterior ποσότητα, καθώς βασίζεται σε πληροφορία (Bank Account) που δεν μοντελοποιείται από το MRT. Χρησιμοποιώντας αυτήν την ποσότητα σαν groundtruth, προσπαθούμε να ελαχιστοποιήσουμε τη συνάρτηση σφάλματος: N err = ˆµ(i) µ(i) i=1 όπου N είναι ο συνολικός αριθμός πρακτόρων στο σύνολο εκπαίδευσης και ˆµ(i) είναι η ποσότητα που προκύπτει μετά το συμπερασμό (Βεβαιότητα) για την απόδοση του πράκτορα i, βασιζόμενη στα τρέχοντα βάρη. Η διαδικασία βελτιστοποίησης γίνεται με χρήση ενός γενετικού αλγορίθμου, του οποίου το χρωμόσωμα αποτελείται από τα αντίστοιχα 12 βάρη του δέντρου MRT. Η εκπαίδευση, που πραγματοποιήθηκε σε 100 από τους 2400 πράκτορες του αρχικού συνόλου δεδομένων, χρειάστηκε λιγότερο από ένα

132 112 ΚΕΦΑΛΑΙΟ 7. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΞΙΟΛΟΓΗΣΗ ΠΡΑΚΤΟΡΩΝ ΛΟΓΙΣΜΙΚΟΥ Σχήμα 7.5: Μερική Βεβαιότητα αξιολόγησης για αυξανόμενη Πολυπλοκότητα. λεπτό σε έναν τυπικό Core 2 υπολογιστή. Τα βάρη που προέκυψαν παρουσιάζονται στην τελευταία στήλη (Weight) του πίνακα Αξιολόγηση Χρησιμοποιώντας τα βάρη που υπολογίστηκαν, δοκιμάσαμε το παραχθέν MRT στους υπόλοιπους 2300 πράκτορες. Το μέσο σφάλμα ορίζεται ως: 1 M N ˆµ(i) µ(i) i=1 όπου M ο συνολικός αριθμός των πρακτόρων της δοκιμής. Στη δοκιμή μας η τιμή του μέσου σφάλματος προέκυψε , παρουσιάζοντας σαφή βελτίωση σε σχέση με την αντίστοιχη τιμή για έναν τυχαίο ταξινομητή που μετρήθηκε στο Τέλος, ενεργοποιώντας τη διαδικασία της ενότητας 3.2.3, παράγουμε τον αντίστοιχο λεπτομερή ορισμό, υπολογίζοντας τα βάρη για κάθε απλή μετρική. Τα βάρη που προέκυψαν φαίνονται στην τελευταία στήλη (DetDef) του πίνακα Χρησιμοποιώντας τις αντίστοιχες τιμές της πολυπλοκότητας, που φαίνονται στην 5η στήλη του πίνακα 7.3.2, σχεδιάσαμε τη διαδικασία αξιολόγησης για διαφορετικές συνθήκες. Στο σχήμα 7.5 παρουσιάζονται τα αποτελέσματα της Εγκυρότητας για διάφορες τιμές του κατωφλίου Πολυπλοκότητας. 7.4 Συμπεράσματα Σε αυτό το κεφάλαιο παρουσιάσαμε μια εφαρμογή της μεθοδολογίας μας για την αξιολόγηση πρακτόρων λογισμικού. Η προσέγγισή μας βασίστηκε στη μεθοδολογία των δέντρων αξιολόγησης μετρικών MRT, τα οποία είναι ιεραρχικές δομές οργάνωσης των μετρικών αξιολόγησης πρακτόρων. Ασαφοποιή-

133 7.4. ΣΥΜΠΕΡΑΣΜΑΤΑ 113 σαμε τα δέντρα αυτά, χρησιμοποιώντας έναν γενετικό αλγόριθμο, φέρνοντάς τα σε πλήρη συμβατότητα με τα εργαλεία των κεφαλαίων 3, και 4. Τέλος, επιδείξαμε μια εφαρμογή των προτεινόμενων μεθόδων εκτελώντας πειράματα σε δεδομένα του διαγωνισμού TAC-SCM.

134 114 ΚΕΦΑΛΑΙΟ 7. ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΑΞΙΟΛΟΓΗΣΗ ΠΡΑΚΤΟΡΩΝ ΛΟΓΙΣΜΙΚΟΥ

135 Κεφάλαιο 8 Αυξάνοντας την εκφραστικότητα The inexpressible is the only thing that is worthwhile. Jerome Frank 8.1 Εισαγωγή Οι σημασιολογικοί ορισμοί και η σχετική μεθοδολογία αποδείχθηκαν στο κεφάλαιο 6 ικανοποιητικά εργαλεία για την αυτόματη συσχέτιση πολυμεσικών δεδομένων και σημασιολογικών εννοιών. Οι ορισμοί εκείνοι, σε εφαρμογή της θεωρίας του κεφαλαίου 3, περιελάμβαναν διαζευτικές (disjunctive) εκφράσεις μεταξύ ενός συνόλου εννοιών για την αυτόματη πρόβλεψη της προαναφερθείσας έννοιας-στόχου. Στο παρόν κεφάλαιο επιχειρείται η επέκταση των ορισμών έτσι ώστε, εκτός από διαζευκτικές να περιλαμβάνει και εκφράσεις σύζευξης (conjunction) και άρνησης (negation). Αυτό οδηγεί σε μια ανώτερη μορφή εκφραστικότητας η οποία εσκεμμένα παραμένει υποδεέστερη της εκφραστικότητας των Περιγραφικών Λογικών, προκειμένου να εγγυηθούμε ότι οι παραγόμενες εκφράσεις θα είναι αποτιμήσιμες σε κλειστή μορφή (βλ. ενότητα 8.2). Αξίζει να σημειώσουμε ότι η απεμπόλιση των υπαρξιακών και των καθολικών περιορισμών (existential και universal restrictions) είναι συμβατή με τον τρόπο με τον οποίο υλοποιείται η αυτόματη κατηγοριοποίηση πολυμεσικών δεδομένων από τους χρησιμοποιούμενους ταξινομητές, δηλαδή ατομικά και όχι κατά ομάδες. Πρέπει επίσης να επισημανθεί ότι η διαφοροποίηση αυτής της προσέγγισης από πρόσφατες προσπάθειες πρόβλεψης εννοιών σε πολυμέσα στη βάση εκφράσεων που εμπλέκουν δομικά υποσύνολα της ίδιας εικόνας και των αντίστοιχων κατηγοριοποιήσεών τους. Σε εκείνη την τεχνοτροπία είναι πράγματι 115

136 116 ΚΕΦΑΛΑΙΟ 8. ΑΥΞΑΝΟΝΤΑΣ ΤΗΝ ΕΚΦΡΑΣΤΙΚΟΤΗΤΑ επωφελής η πλήρης εκφραστικότητα των ΠΛ όπως φαίνεται για παράδειγμα στις εργασίες [41, 101]. Η έμφαση όμως της προτεινόμενης μεθόδου είναι (i) στο πως θα έχουμε αυξημένη εκφραστικότητα, σε σχέση με το κεφάλαιο 3, αλλά στο ίδιο πλαίσιο αντιμετώπισης και (ii) πως θα υπολογιστούν βαθμοί συμμετοχής χωρίς την ενεργοποίηση πολύπλοκων μηχανισμών συμπερασμού και μάλιστα ασαφούς. Ειδικότερα, στην ενότητα αποδεικνύεται, στα πλαίσια της ελεγχόμενα απλουστευμένης (σε σχέση με τις ΠΛ) εκφραστικότητας που έχουμε υιοθετήσει, ότι η εφαρμογή του ασαφούς αλγορίθμου συμπερασμού εκφυλίζεται στην αποτίμηση μιας κλειστής λογικής έκφρασης που εμπλέκει ασαφείς τελεστές, αντίστοιχης με αυτές του κεφαλαίου 3. Η χρησιμότητα της προτεινόμενης μεθόδου επιδεικνύεται μέσω πειραμάτων μεγάλης κλίμακας με τους ταξινομητές του Columbia374 [124] στο σύνολο TRECVid2005 [91]. 8.2 Μοντελοποίηση Ασαφείς ορισμοί Η κύρια ιδέα της προσέγγισής μας είναι ότι μπορεί κανείς να βασιστεί στα αποτελέσματα αξιόπιστων ταξινομητών για να ορίσει καινούριες έννοιες. Οι ταξινομητές αντιμετωπίζουν το πολυμεσικό έγγραφο ενιαία και παρέχουν πληροφορία για το αν αυτό ανήκει σε μια συγκεκριμένη κλάση και σε ποιο βαθμό. Δεν παρέχουν όμως στοιχεία για την ύπαρξη και τον τύπο πιθανών αλληλοσυσχετίσεων ανάμεσα στις ανιχνευόμενες έννοιες/κλάσεις. Εξαιτίας αυτής της προσέγγισης, δεν υπάρχει λόγος να μοντελοποιήσει κανείς αυτές τις σχέσεις χρησιμοποιώντας object properties ('ρόλους' στην ορολογία των Περιγραφικών Λογικών). Βασιζόμενοι σε αυτήν την παρατήρηση, υιοθετούμε μια γλώσσα που μπορεί να περιέχει ορισμούς βασισμένους αποκλειστικά σε τελεστές conjunction, disjunction and negation. Αποκόπτουμε, δηλαδή, τους quantifiers και τα υπόλοιπα εκφραστικά εργαλεία που παρέχουν οι Περιγραφικές Λογικές. Πιο συγκεκριμένα, οι εκφράσεις κατασκευάζονται σύμφωνα με το συντακτικό κανόνα που παρουσιάζεται στον πίνακα 8.1. Επιπλέον επιτρέπουμε στους ισχυρισμούς να ισχύουν μέχρι κάποιο βαθμό, δηλαδή μοντελοποιούμε την αβεβαιότητα στη γνώση με έναν τρόπο παρόμοιο με αυτό του [44]. Έτσι, μια οντότητα S i υπάγεται από μια οντότητα C i σε βαθμό f i, όπως περιγράφεται στην παρακάτω εξίσωση: < S i C i, f i > (8.1)

137 8.2. ΜΟΝΤΕΛΟΠΟΙΗΣΗ 117 C, D A (atomic concept) (universal concept) (bottom concept) C (negation) C D (union) C D (intersection) Πίνακας 8.1: Συνακτικός κανόνας για την κατασκευή εκφράσεων. Ας θεωρήσουμε μια συλλογή T από τέτοιες υπαγωγές, σύμφωνα με την οποία η οντότητα C υπάγει τις οντότητες S 1... S k, δηλαδή < S 1 C, f 1 >, < S 2 C, f 2 >, T = (8.2)..., < S k C, f k > Ο υπολογισμός του βαθμού ύπαρξης µ(c) της οντότητας C, που είναι βασισμενος στην ύπαρξη των S i, όπως δίνονται από τις ασαφοποιημένες εξόδους των αντίστοιχων ταξινομητών µ c (S i ), γίνεται σύμφωνα με έναν ορισμό τύπου 1 που έχει την ακόλουθη μορφή µ(c) = U i (I(µ c (S i ), f i )) (8.3) όπου τα σύμβολα U και I δηλώνουν τελεστές ασαφούς ένωσης και τομής αντίστοιχα 1. Ο βαθμος ύπαρξης των υπολοίπων οντοτήτων της ιεραρχίας T υπολογίζεται με ορισμούς τύπου 2 οι οποίοι παίρνουν την ακόλουθη μορφή µ(s i ) = I(µ c (C), I j i (N (I(µ c (S j ), f j )))) (8.4) όπου το σύμβολο N δηλώνει τελεστή ασαφούς άρνησης (negation). Για να γίνουν πιο κατανοητά τα προηγούμενα, ας θεωρήσουμε το παράδειγμα της ιεραρχίας που απεικονίζεται στο σχήμα 8.1 η οποία μπορεί να κωδικοποιηθεί ως < Car V ehicle, f Car >, T = < Bus V ehicle, f Bus >, < Motorcycle V ehicle, f Motor > (8.5) Ένας ορισμός τύπου 1, που υπολογίζεται με χρήση της εξίσωσης 8.3 υποδηλώ- 1 Η εξίσωση μπορεί να γραφεί με αυτή τη μορφή (με την ένωση να δέχεται πολλαπλές εισόδους) εξαιτίας των ιδιοτήτων της προσεταιριστικότητας και της αντιμεταθετικότητας που ισχύουν για τις ασαφείς νόρμες [109].

138 118 ΚΕΦΑΛΑΙΟ 8. ΑΥΞΑΝΟΝΤΑΣ ΤΗΝ ΕΚΦΡΑΣΤΙΚΟΤΗΤΑ Vehicle f Car f Bus f Motor Car Bus Motorcycle Σχήμα 8.1: Παράδειγμα μιας απλής ιεραρχίας. νει ότι θα υπολογίσουμε το βαθμό ύπαρξης της οντότητας "Όχημα" ("Vehicle") σαν τη λογική ένωση των βαθμών ύπαρξης των οντοτήτων "Αυτοκίνητο" ("Car"), "Λεωφορείο" ("Bus") και "Μοτοσυκλέτα" ("Motorcycle"), υποδηλώνοντας ότι ένα "Όχημα" μπορεί να είναι "Αυτοκίνητο" ή "Λεωφορείο" ή "Μοτοσυκλέτα". Από την άλλη πλευρά, με έναν ορισμό τύπου 2, μπορεί κανείς να υπολογίσει την ύπαρξη της οντότητας "Αυτοκίνητο", ορίζοντάς την σαν ένα "Όχημα" και όχι "Λεωφορείο" και όχι "Μοτοσυκλέτα", όταν φυσικά υπάρχουν αποτελέσματα για τις αντίστοιχες οντότητες. Ο αναγνώστης μπορεί να έχει παρατηρήσει ότι κατασκευάζοντας κανείς ορισμούς τύπους 2, υπονοεί ένα αξίωμα disjointness, ενώ επιπλέον θεωρεί ότι υπάρχει closed world assumption (εικασία κλειστού κόσμου) 2. Υποθέτει δηλαδή ότι όλα τα "αδέρφια" στην ιεραρχία είναι ξένες μεταξύ τους έννοιες και η ύπαρξη της μιας αποκλείει την άλλη και επιπλέον ότι όλες οι πιθανές εκφάνσεις της έννοιας υψηλότερου επιπέδου ενυπάρχουν στο χαμηλότερο επίπεδο. Αυτές οι υποθέσεις μπορεί να μην ισχύουν πάντα. Για παράδειγμα μια εικόνα μπορεί να περιέχει ταυτόχρονα περισσότερες από μία οντότητες-αδέλφια (όπως μια "Μοτοσυκλέτα" και ένα "Αυτοκίνητο" στο παράδειγμά μας) ή/και να περιέχει άλλου τύπου οντότητα χαμηλού επιπέδου (όπως π.χ. ένα "Πατίνι", το οποίο είναι πάλι όχημα, αλλά δεν περιλαμβάνεται στον ορισμό). Ωστόσο, οι υποθέσεις αυτές οδηγούν σε εύκολη εξαγωγή ορισμών και φαίνεται πως λειτουργούν στην πράξη, καθώς δείχνουν τα πειράματα της ενότητας 8.3. Όπως αναφέρθηκε προηγουμένως, η μεθοδολογία μας μπορεί να αποδειχθεί χρήσιμη και στην περίπτωση όπου υπάρχει ήδη το αποτέλεσμα ενός εξειδικευμένου ταξινομητή για την υπό εξέταση οντότητα και ο στόχος είναι η βελτίωση της αποδοτικότητας της ανάκτησης. Σε αυτήν την περίπτωση, για να υπολογίσουμε το µ(c) με βάση την ασαφοποιημένη έξοδο µ c (C) του αντίστοι- 2 Πρέπει να τονίσουμε σε αυτό το σημείο ότι δεν είναι γενική μας πρόταση αυτή η μέθοδος κατασκευής ορισμών. Χρησιμοποιείται όμως εδώ γιατί μας βοηθά να πειραματιστούμε πάνω σε ορισμούς αυξημένης εκφραστικότητας με μεγάλο αριθμό οντοτήτων που έχουν σχολιαστεί σε πραγματικά δεδομένα.

139 8.2. ΜΟΝΤΕΛΟΠΟΙΗΣΗ 119 χου ταξινομητή, χρησιμοποιούμε το µ c (C) και την εξίσωση 8.3 με μια διαζευκτική (disjunctive) λογική και ο ορισμός τύπου 1 παίρνει την ακόλουθη μορφή µ(c) = U(I(µ c (C), f C ), U i (I(µ c (S i ), f i ))) (8.6) Εντελώς αντίστοιχα προκύπτει και ο υπολογισμός για τις οντότητες του τύπου 2: µ(s i ) = U(I(µ c (S i ), f i ), I(µ c (C), I j i (N (I(µ c (S j ), f j ))))) (8.7) Οι ορισμοί της μορφής της εξίσωσης 8.1 μπορούν να εξαχθούν από crisp οντολογίες πεδίου, όπως η LSCOM [123] και με τη χρήση τεχνικών βελτιστοποίησης να υπολογιστούν οι βαθμοί f i, ασαφοποιώντας την ιεραρχία (δηλαδή κάνοντας τους ισχυρισμούς να ισχύουν μέχρι ενός βαθμού) και προσαρμόζοντάς την στο υπό εξέταση dataset Συμπερασμός στην ορολογία Θεωρούμε ένα ασαφές TBox T, όπως ορίζεται στην ενότητα 8.2.1, που περιέχει ένα αξίωμα επαγωγής της μορφής < C A, f > (8.8) όπου C είναι μια έννοια περιγραφής (concept description) και A μια ατομική έννοια (atomic concept). Ανεπίσημα, ένα τέτοιο αξίωμα υπαγωγής δηλώνει ότι όλα τα στιγμιότυπα της έννοιας C είναι στιγμιότυπα της ατομικής έννοιας A σε βαθμό f, το οποίο σημαίνει ότι δοσμένου ενός ατόμου (individual) και του βαθμού στον οποίο το άτομο αυτό ανήκει στην έννοια C, μπορούμε να υπολογίσουμε ένα κάτω όριο για τον βαθμό στον οποίο το άτομο αυτό ανήκει στην έννοια A. Ας θεωρήσουμε τώρα ότι η έννοια περιγραφής C κατασκευάζεται από τις ατομικές έννοιες B 1, B 2,..., B n χρησιμοποιώντας το συντακτικό κανόνα του πίνακα 8.1. Θεωρούμε επίσης ένα σύνολο (ABox) από ασαφείς ισχυρισμούς εννοιών της μορφής A = {, ,..., } (8.9) και τη βάση γνώσης K =< T, A > (8.10) Μπορούμε να απαντήσουμε ερωτήματα τύπου "μέγιστο κάτω όριο" ικανοποιησιμότητας (greatest lower bound - glb satisfiability queries) της μορφής glb(k, i : A) χρησιμοποιώντας τον tableau αλγόριθμο που περιγράφεται στο

140 120 ΚΕΦΑΛΑΙΟ 8. ΑΥΞΑΝΟΝΤΑΣ ΤΗΝ ΕΚΦΡΑΣΤΙΚΟΤΗΤΑ [100] και την επέκτασή του για γενικές ασαφείς νόρμες [49]. Ο αλγόριθμος αυτός κάνει επέκταση ενός δέντρου tableau, όπως οι αντίστοιχοι αλγόριθμοι των κλασικών ΠΛ (χωρίς όμως να μπορεί να χρησιμοποιήσει Negation Normal Form), διατηρώντας δύο σύνολα: (i) το σύνολο απεικονίσεων L που περιέχει πληροφορία για το βαθμό που κάθε άτομο (κόμβος του δένδρου) ανήκει σε κάθε έννοια και (ii) ένα σύνολο περιορισμών (constraints) C F με ανισότητες αριθμητικών μεταβλητών που προκύπτουν κατά την επέκταση του δέντρου. Όταν το δέντρο επεκταθεί πλήρως, μένει το σύστημα ανισοτήτων του C F το οποίο, αφού λυθεί με αριθμητικές μεθόδους, δίνει τον ελάχιστο βαθμό συμμετοχής κάθε ατόμου. Σε αυτό το σημείο θα αποδείξουμε ότι κάθε διαδικασία εξαγωγής συμπερασμών που καλείται να απαντήσει ένα τέτοιο ερώτημα για την έννοια A στη βάση γνώσης K, όπως περιγράφηκαν προηγουμένως, καταλήγει σε ένα μέγιστο κάτω όριο το οποίο μπορεί να υπολογιστεί ισοδύναμα από μια κλειστή έκφραση, χωρίς να χρειάζεται η διαδικασία της επέκτασης tableau ούτε και η λύση του συστήματος ανισoτήτων. Για να το δείξουμε αυτό, ας θεωρήσουμε τέσσερις απλές περιπτώσεις για την έννοια C: 1. Η C είναι μια ατομική έννοια B. To TBox τότε παίρνει την ακόλουθη μορφή T = {} (8.11) και η διαδικασία συμπερασμού σύμφωνα με τον tableau αλγόριθμο στο [100] δίνει 3 L(i) = {< B, x 1 >, < A, x 2 >} (8.12) C F = x i:b x 1 x i:a x 2 x 2 x 1 f (8.13) x i:a x 2 x 1 f x i:b f x i:a x i:b f (8.14) 2. Η C είναι η άρνηση μιας ατομικής έννοιας B. To TBox τότε παίρνει την ακόλουθη μορφή T = {} (8.15) 3 Ακολουθώντας τους συμβολισμούς του [49], συμβολίζουμε οποιονδήποτε τελεστή (νόρμα) ασαφούς ένωσης με και τομής με

141 8.2. ΜΟΝΤΕΛΟΠΟΙΗΣΗ 121 και η διαδικασία εξαγωγής συμπεράσματος δίνει L(i) = {< B, x 1 >, < A, x 2 >} (8.16) C F = x i:b x 1 x i:a x 2 x 2 x 1 f (8.17) x i:a x 2 x 1 f x i:b f x i:a x i:b f (8.18) 3. Η C είναι η τομή δύο ατομικών εννοιών B 1, B 2. To TBox τότε παίρνει την ακόλουθη μορφή T = {B 1 B 2 A, f} (8.19) και η διαδικασία εξαγωγής συμπεράσματος δίνει L(i) = {, < A, x 2 >, , } (8.20) C F = x i:b1 x 3 x i:a x 2 x 3 x 4 = x 1 x i:b2 x 4 x 2 x 1 f (8.21) x i:a x 2 x 1 f = (x 3 x 4 ) f (x i:b1 x i:b2 ) f (8.22) x i:a (x i:b1 x i:b2 ) f (8.23) 4. Η C είναι η ένωση δύο ατομικών εννοιών B 1, B 2. To TBox τότε παίρνει την ακόλουθη μορφή T = {B 1 B 2 A, f} (8.24) Η διαδικασία εξαγωγής συμπεράσματος είναι παρόμοια με την προηγούμενη περίπτωση και τελικά δίνει x i:a (x i:b1 x i:b2 ) f (8.25) Βλέπουμε, λοιπόν, ότι σε όλες αυτές τις απλές περιπτώσεις το σύστημα ανισοτήτων εκφυλίζεται σε μία ανισότητα.

142 122 ΚΕΦΑΛΑΙΟ 8. ΑΥΞΑΝΟΝΤΑΣ ΤΗΝ ΕΚΦΡΑΣΤΙΚΟΤΗΤΑ Επαγωγή Θεωρούμε τώρα ότι η έννοια περιγραφής που εμπλέκει n ατομικές έννοιες, δηλαδή T = {< G(B 1, B 2,..., B n ) A, f >} (8.26) όπου G είναι μια λογική έκφραση που εμπλέκει άρνηση, ένωση και τομή, ενώ οι B 1, B 2,..., B n είναι ατομικές έννοιες. Η διαδικασία συμπερασμού παράγει τότε το σύνολο L(i) = {< G(B 1, B 2,..., B n ), x 1 >, < A, x 2 >} (8.27) Υποθέτουμε ότι η ύπαρξη της έκφρασης G(B 1, B 2,..., B n ) σε σύνολο L(i) θα παράγει ανισότητες που μπορούν να γραφούν, με διαδοχικές αντικαταστάσεις, ως μια κλειστή έκφραση g(x i:b1, x i:b2,..., x i:bn ), όπου g είναι μια συνάρτηση που εμπλέκει ασαφείς τελεστές συμπληρώματος, ένωσης και τομής, και x i:bi είναι οι βαθμοί στους οποίους το στιγμιότυπο i ανήκει στην έννοια B i. Με αυτή την υπόθεση, από το L(i) της εξ. (8.27) παράγεται το ακόλουθο σύνολο περιορισμών: x i:a x 2 C F = x 2 x 1 f g(x i:b1, x i:b2,..., x i:bn ) x 1 (8.28) που δίνει x i:a x 2 x 1 f g(x i:b1, x i:b2,..., x i:bn ) f (8.29) x i:a g(x i:b1, x i:b2,..., x i:bn ) f (8.30) Θα δείξουμε τώρα ότι, με βάση την παραπάνω παραδοχή, η υπόθεσή μας ισχύει για μια έννοια περιγραφής η οποία μπορεί να παραχθεί με 3 τρόπους: (i) την άρνηση μιας έννοιας περιγραφής, (ii) την τομή και (iii) την ένωσή της με μια άλλη έννοια περιγραφής. 1. Η περίπτωση της άρνησης. T = {< G(B 1, B 2,..., B n ) A, f >} (8.31) Εφαρμόζοντας τον ( )-κανόνα, προσάπτουμε < G(B 1, B 2,..., B n ), x 1 > και < A, x 2 > στο L(i). Η σύνθετη έννοια G(B 1, B 2,..., B n ) μπορεί να γραφεί ως G(B 1, B 2,..., B n ) (8.32)

143 8.2. ΜΟΝΤΕΛΟΠΟΙΗΣΗ 123 όπου G υποδεικνύει την De Morgan άρνηση της G, δηλαδή την έννοια όπως εκφράζεται μετά την εισαγωγή του ενός λογικού τελεστή άρνησης στην έκφραση και την εφαρμογή των κανόνων De Morgan στις έννοιες που εμπλέκονται σε αυτήν. Φυσικά, ο αριθμός των εννοιών που εμπλέκει το G θα είναι ο ίδιος με τον αριθμό των εννοιών που εμπλέκει το G. Λαμβάνοντας υπόψη όλα τα παραπάνω έχουμε { L(i) = < G(B 1, B 2,..., B n ), x 1 >, < A, x 2 f > } (8.33) και οπότε x i:a x 2 C G = x 2 x 1 g(x i:b1, x i:b2,..., x i:bn ) x 1 (8.34) x i:a x 2 x 1 f g(x i:b1, x i:b2,..., x i:bn ) f (8.35) x i:a g(x i:b1, x i:b2,..., x i:bn ) f (8.36) 2. Η περίπτωση της τομής. Έστω ότι η έννοια C κατασκευάζεται από τις λογικές εκφράσεις G 1 και G 2 οι οποίες ορίζονται πάνω στο σύνολα ατομικών εννοιών {B 1, B 2,..., B n } και {B i+1, B i+2,..., B i+m } αντίστοιχα, με m n, ως εξής: C G 1 (B 1, B 2,..., B n ) G 2 (B i+1, B i+2,..., B i+m ) (8.37) τότε έχουμε το παρακάτω TBox T = {< G 1 (B 1, B 2,..., B n ) G 2 (B i+1, B i+2,..., B i+m ) A >} (8.38) Από τώρα και στο εξής, για λόγους ευκολίας, γράφοντας G 1 και G 2 θα εννοούμε G 1 (B 1, B 2,..., B n ) και G 2 (B i+1, B i+2,..., B i+m ) αντίστοιχα, ενώ με g 1 και g 2 θα συμβολίζουμε τις συναρτήσεις g 1 (x i:b1, x i:b2,..., x i:bn ) και g 2 (x i:bi+1, x i:bi+2,..., x i:bi+n ) που προκύπτουν στο σύνολο περιορισμών. Εφαρμόζοντας τον ( )-κανόνα στο TBox, παίρνουμε { L(i) = < (G 1 G 2 ), x 1 >, < A, x 2 > } (8.39) και εφαρμόζοντας επανειλημμένα τους κανόνες συμπλήρωσης (completion

144 124 ΚΕΦΑΛΑΙΟ 8. ΑΥΞΑΝΟΝΤΑΣ ΤΗΝ ΕΚΦΡΑΣΤΙΚΟΤΗΤΑ rules) καταλήγουμε < A, x 2 > L(i) = < G 1, x 3 > < G 2, x 4 > (8.40) και C F = x i:a x 2 x 2 x 1 f x 3 x 4 = x 1 g 1 x 3 g 2 x 4 (8.41) x i:a x 2 x 1 f = (x 3 x 4 ) f (g 1 g 2 ) f (8.42) 3. Η περίπτωση της ένωσης. Ξεκινώντας από το παρακάτω αξίωμα ισοδυναμίας C G 1 (B 1, B 2,..., B n ) G 2 (B i+1, B i+2,..., B i+m ) (8.43) από το οποίο προκύπτει το TBox T = {< G 1 (B 1, B 2,..., B n ) G 2 (B i+1, B i+2,..., B i+m ) A >} (8.44) τότε, με τρόπο παρόμοιο με αυτόν για την τομή, καταλήγουμε στην εξίσωση: x i:a (g 1 g 2 ) f (8.45) Αποδείξαμε, λοιπόν, ότι για την απλοποιημένη ασαφή ΠΛ, που ορίζεται στον πίνακα 8.1, η διαδικασία συμπερασμού για ένα ερώτημα ικανοποιησιμότητας (satisfiability) για τη βάση γνώσης των εξ. (8.8) (8.9) (8.10) είναι ισοδύναμη με τον υπολογισμό μιας κλειστής έκφρασης. Δείξαμε δηλαδή ότι μια μειωμένης εκφραστικότητας ΠΛ, ικανή για χρήση σε συστήματα ανάλυσης πολυμέσων που αντιμετωπίζουν το έγγραφο σαν όλο, μπορεί να λειτουργήσει χωρίς το ABox reasoning Προσδιορισμός βαρών Προκειμένου να ασαφοποιήσουμε τη γνώση πρέπει να υπολογίσουμε τα βάρη (τις τιμές των f i ) που παρουσιάστηκαν στην προηγούμενη ενότητα. Αυτό αποτελεί ένα πρόβλημα βελτιστοποίησης (βλ. ενότητα 3.3.1). Ο υπολογισμός των f i γίνεται σύμφωνα με το τρέχον dataset με στόχο

145 8.3. ΠΕΙΡΑΜΑΤΑ 125 τη μεγιστοποιήση του Average Precision για καθεμιά από τις οριζόμενες οντότητες. Για τις παραμετρικές νόρμες (κλάσης Dubois-Prade και Yager για παράδειγμα) η τιμή της παραμέτρου περιλαμβάνεται στις προς εκτίμηση μεταβλητές και υπολογίζεται επίσης με εκπαίδευση. Καθώς η επιφάνεια βελτιστοποίησης φαίνεται στην πράξη να περιέχει πολλά τοπικά ελάχιστα, χρησιμοποιούμε ένα γενετικό αλγόριθμο για το σκοπό αυτό. Η fitness function που προσπαθούμε να ελαχιστοποιήσουμε είναι η αριθμητική άρνηση του average precision. Για να βελτιώσουμε τις ιδιότητες γενίκευσης των παραγόμενων βαρών χρησιμοποιούμε δύο μεθόδους εκπαίδευσης, την k-fold cross validation και μια τροποποιημένη εκδοχή της RankBoost, όπως αυτές περιγράφηκαν στις ενότητες και?? αντίστοιχα. 8.3 Πειράματα Για τη διεξαγωγή των πειραμάτων μας χρησιμοποιήσαμε το σύνολο ταξινομητών Columbia374 [124] το οποίο επίσης περιλαμβάνει το ground truth, τα features και τα αποτελέσματα των ταξινομητών πάνω στα datasets του TRECVID. Το dataset μας αποτελούνταν από τα 47 videos του συνόλου ανάπτυξης του TRECVID2005 τα οποία δεν είχαν χρησιμοποιηθεί για την εκπαίδευση των ταξινομητών του Columbia. Αυτά τα videos (που αντιστοιχούν σε καρέ) επιμερίστηκαν σε ένα σύνολο εκπαίδευσης (αποτελούμενο από 23 videos) and ένα σύνολο δοκιμής (αποτελούμενο 24 videos) το καθένα από τα οποία είχε περίπου καρέ. Για να παράγουμε αυτόματα τους ορισμούς κατασκευάσαμε μια αποκομμένη έκδοση της LSCOM, η οποία περιλαμβάνει τις 374 οντότητες που μας ενδιαφέρουν, και εκμεταλλευτήκαμε την ιεραρχία της. Κάναμε δύο τύπους πειραμάτων για να αξιολογήσουμε τη μέθοδό μας. Στο πρώτο πείραμα επιδεικνύουμε πως μπορούν να οριστούν καινούριες οντότητες για τις οποίες δεν υπάρχουν κατάλληλοι ταξινομητές, ενώ στο δεύτερο προσπαθούμε να βελτιώσουμε την ακρίβεια των υπαρχόντων ταξινομητών, χρησιμοποιώντας τα αποτελέσματά τους παράλληλα με τους ορισμούς των οντοτήτων κατασκευάζοντας μιας μορφής query expansion Επέκταση λεξικού αναζήτησης Το πείραμα αυτό προσομοιώνει την περίπτωση της επέκτασης ενός λεξιλογίου από οντότητες σε ένα σύστημα ανάκτησης πολυμέσων, χρησιμοποιώντας

146 126 ΚΕΦΑΛΑΙΟ 8. ΑΥΞΑΝΟΝΤΑΣ ΤΗΝ ΕΚΦΡΑΣΤΙΚΟΤΗΤΑ γνώση. Η μέθοδος αυτή είναι πλήρως επιδεκτική περαιτέρω διεύρυνσης καθώς καινούριες οντότητες μπορούν να οριστούν αναδρομικά ενώ απαιτεί ελάχιστη υπολογιστική προσπάθεια σε σχέση με τη χρήση ενός νέου ταξινομητή, τόσο στη διαδικασία της εκπαίδευσης όσο και της πρόβλεψης. Οι ορισμοί που χρησιμοποιούνται σε αυτό το πείραμα είναι της μορφής των εξισώσεων 8.3 και 8.4. Έχουμε επιλέξει να ορίσουμε οντότητες για τις οποίες ήδη υπάρχουν ταξινομητές το αποτέλεσμα των οποίων δε λάβαμε υπόψη κατά τη διάρκεια του συμπερασμού. Αντιθέτως, χρησιμοποιήσαμε τα αποτελέσματα αυτά και το average precision που πετυχαίνουν σαν μέτρο σύγκρισης. Το σχήμα 8.2 δείχνει το Average Precision που επιτυγχάνεται για αρκετές οντότητες. Η επιλογή των τελευταίων έγινε με βάση ένα κατώφλι στην απόδοση στο σύνολο εκπαίδευσης, χρησιμοποιώντας τη μέθοδο του cross validation. Average Precision Vehicle Classifier No Weights Cross Validation RankBoost Building Road Road Overpass Group Crowd Male Person Female Reporter Child Civilian Person Corporate Leader Actor Tennis Female Anchor Adult Σχήμα 8.2: Πείραμα διεύρυνσης συλλογής οντοτήτων. Οι μπάρες απεικονίζουν το Average Precision που επιτυγχάνεται από τον ταξινομητή του Columbia, τη δική μας μέθοδο χωρίς τη χρήση βαρών (δηλαδή με τα f i 's ίσα με 1), και με τη μέθοδό μας με χρήση βαρών υπολογισμένων με καθεμιά από τις δύο μεθόδους αντίστοιχα. Σχολιάζοντας την εικόνα 8.2, η μεθοδολογία μας φαίνεται να πετυχαίνει ικανοποιητικά αποτελέσματα, συνήθως συγκρίσιμα με αυτά των ειδικά εκπαιδευμένων ταξινομητών. Σε κάποιες περιπτώσεις μάλιστα (βλ. 'Road Overpass' για παράδειγμα) ξεπερνά τον αντίστοιχο ταξινομητή. Αυτό είναι πολύ σημαντικό συνυπολογίζοντας το κόστος της εκπαίδευσης του τελευταίου. Επίσης φαίνε-

147 8.3. ΠΕΙΡΑΜΑΤΑ 127 Σχήμα 8.3: Διάγραμμα πρόβλεψης της βελτίωσης απόδοσης μεταξύ του training set και του test set. ται πως σε κάθε περίπτωση η χρήση των ασαφών βαρών βελτιώνει σημαντικά την απόδοση του συστήματος. Για να μελετήσουμε συνολικά την συμπεριφορά του συστήματος θα θέλαμε να δούμε αν μπορούμε γενικά να προβλέψουμε από την διαδικασία της εκπαίδευσης, την απόδοση των εκπαιδευμένων ορισμών σε ένα άγνωστο σύνολο δοκιμής. Για το σκοπό αυτό θα ορίσουμε το λόγο CV _T R/CL_T R = CrossValidation AveragePrecision on training set Classifier AveragePrecision on training set ο οποίος δείχνει την βελτίωση που είχαμε στο average precision με το Cross Validation στο σύνολο εκπαίδευσης σε σχέση με τον classifier. Αντίστοιχα, ορίζουμε την βελτίωση στο σύνολο δοκιμής CV _T E/CL_T E = CrossValidation AveragePrecision on test set Classifier AveragePrecision on test set Στο σχήμα 8.3 φαίνεται το διάγραμμα που συνδέει αυτές τις δύο ποσότητες. Πιο συγκεκριμένα βλέπουμε την μέση βελτίωση CV _T E/CL_T E (άξονας y) που πετυχαίνουν όλα τα concept που βρίσκονται μέσα σε μικρές περιοχές 4 βελτίωσης του CV _T R/CL_T R. 4 Το διάστημα που χρησιμοποιείται είναι το 0.2 και τα διαστήματα είναι επικαλυπτόμενα.

148 128 ΚΕΦΑΛΑΙΟ 8. ΑΥΞΑΝΟΝΤΑΣ ΤΗΝ ΕΚΦΡΑΣΤΙΚΟΤΗΤΑ Παρατηρούμε, λοιπόν, ότι έχουμε την δυνατότητα να προβλέψουμε από την εκπαίδευση το πόσο καλά θα συμπεριφερθεί η μέθοδος αυτή σε ένα άγνωστο σύνολο δοκιμής. Αν και η μέση απόδοση της μεθόδου είναι λίγο χειρότερη από αυτήν που πετυγχαίνουν οι ειδικά εκπαιδευμένοι ταξινομητές, αυτό αντισταθμίζεται από το γεγονός ότι η εκπαίδευση ενός ταξινομητή έχει πολύ μεγαλύτερη υπολογιστική πολυπλοκότητα από τον υπολογισμό των βαρών ενός ορισμού Βελτίωση ταξινομητών Σε αυτό το πείραμα οι έξοδοι των ταξινομητών λαμβάνονται υπόψη και οι ορισμοί που κατασκευάζονται αντιστοιχούν σε αυτούς των εξισώσεων 8.6 και 8.7. Ο στόχος εδώ είναι η βελτίωση της απόδοσης των ταξινομητών χρησιμοποιώντας ενός είδους query expansion βασισμένο στη γνώση. Το average precision που επιτυγχάνεται σε αυτή την περίπτωση για τις οντότητες της ενότητας απεικονίζεται στο σχήμα 8.4. Average Precision Vehicle Classifier No Weights Cross Validation RankBoost Building Road Road Overpass Group Crowd Male Person Female Reporter Child Civilian Person Corporate Leader Actor Tennis Female Anchor Adult Σχήμα 8.4: Πείραμα βελτίωσης ταξινομητή. Οι μπάρες απεικονίζουν το Average Precision που επιτυγχάνεται από τον ταξινομητή του Columbia, τη δική μας μέθοδο χωρίς τη χρήση βαρών (δηλαδή με τα f i 's ίσα με 1), και με τη μέθοδό μας με χρήση βαρών υπολογισμένων με καθεμιά από τις δύο μεθόδους αντίστοιχα. Όπως είναι φανερό, τα αποτελέσματα της μεθόδου μας προσφέρουν βελτιωμένη απόδοση σε σχέση με τους ταξινομητές του Columbia. Και πάλι τα κατάλληλα ασαφή βάρη φαίνεται να αυξάνουν την απόδοση. Τέλος, συγκρίνοντας τα αποτελέσματα με αυτά του σχήματος 8.2 επιβεβαιώνει την προσδοκία

149 8.4. ΣΥΜΠΕΡΑΣΜΑΤΑ 129 fuzzy T-norm cross validation RankBoost Standard (min) Algorithmic product Drastic product Bounded difference Dubois-Prade Yager Πίνακας 8.2: Mέσο Average Precision για διάφορα ζεύγη ασαφών νορμών. μας ότι η χρήση των ταξινομητών είναι ωφέλιμη για τη μέθοδό μας Σύγκριση ασαφών νορμών Το προηγούμενο πείραμα εκτελέστηκε στη συνέχεια για διάφορες ασαφείς νόρμες τομής (t-norms) συνοδευόμενες από τις δυαδικές τους νόρμες ένωσης (tconorms). Τα αποτελέσματα του μέσου average precision σε κάθε περίπτωση παρουσιάζονται στον πίνακα 8.2. Σε αυτό το σημείο αξίζει να γίνουν μερικά σχόλια: Το ζεύγος algorithmic product/ bounded sum επιτυγχάνει τα καλύτερα αποτελέσματα σε αυτό το dataset, ενώ τα drastic product/ sum φαίνεται να είναι τελείως ακατάλληλη επιλογή. Οι νόρμες min/max έχουν αξιοπρεπή, αλλά μακριά από την καλύτερη, συμπεριφορά. Επιπλέον, αντίθετα με αυτό που ίσως θα περίμενε κάποιος, οι παραμετρικές νόρμες (Dubois-Prade και Yager class) δεν έχουν αποδώσει πολύ καλά. Ένας πιθανός λόγος μπορεί να είναι ότι η βελτιστοποίηση απέτυχε να ρυθμίσει την επιπλέον τους παράμετρο στο συγκεκριμένο dataset. 8.4 Συμπεράσματα Στο κεφάλαιο αυτό επεκτείναμε την εκφραστικότητα της γλώσσας των σημασιολογικών ορισμών των προηγούμενων κεφαλαίων, εισάγοντας τη χρήση τελεστών σύζευξης και άρνησης. Η αυξημένη αυτή εκφραστικότητα επιτρέπει τη δημιουργία πιο περίπλοκων ορισμών αλλά παραμένει υποδεέστερη της γλώσσας ALC (βλ. ενότητα 2.4.1) και των υπόλοιπων Περιγραφικών Λογικών. Είναι, ωστόσο, πλήρως συμβατή με τον τρόπο αντιμετώπισης των πολυμεσικών εγγράφων από τους υπάρχοντες ταξινομητές. Επιπλέον, αποδείξαμε ότι οι λογικές εκφράσεις παραγόμενες από τη γλώσσα αυτή μπορούν να είναι ισοδύναμα αποτιμήσιμες μέσω κλειστών μαθηματικών εκφράσεων από κατάλληλο αλγόριθμο tableau των ασαφών Περιγραφικών Λογικών, κάτι που καθιστά περιττή τη χρονοβόρο διαδικασία συλλογισμού στο ABox για τέτοιες εκφράσεις.

150 130 ΚΕΦΑΛΑΙΟ 8. ΑΥΞΑΝΟΝΤΑΣ ΤΗΝ ΕΚΦΡΑΣΤΙΚΟΤΗΤΑ Στη συνέχεια, χρησιμοποιήσαμε την προτεινόμενη γλώσσα για να κατασκευάσουμε εκφράσεις που βασίστηκαν στην οντολογία LSCOM και εκτελέσαμε πειράματα χρησιμοποιώντας τα αποτελέσματα των ταξινομητών του Columbia374 στα δεδομένα του TRECVid2005 dataset. Τα πειράματα έδειξαν την αξία της μεθοδολογίας, τόσο στον ορισμό νέων εννοιών, όσο και στη βελτίωση της εκτίμησης για έννοιες που έχουν οικείους ταξινομητές. Τέλος, ιδιαίτερα σημαντική είναι η διαβλεπόμενη από τα πειράματα δυνατότητα πρόβλεψης της βελτίωσης της απόδοσης μέσω του συνόλου υπολογισμού των βαρών.

151 Κεφάλαιο 9 Σύνοψη και μελλοντικές επεκτάσεις I would have written a shorter letter, but I did not have the time. T.S. Elliot Στο πλαίσιο της παρούσας διατριβής προτείναμε τη χρήση ενός ιεραρχικού πολυεπίπεδου μοντέλου ασαφούς γνώσης για τη σημασιολογική ανάλυση πολυμέσων. Οι οντότητες που απαρτίζουν την ιεραρχία διακρίνονται σε αυτές που είναι άμεσα αποτιμήσιμες με χρήση κατάλληλων αλγορίθμων και ονομάστηκαν συντακτικές και εκείνες που βρίσκονται πιο κοντά στην ανθρώπινη αντίληψη, τις σημασιολογικές. Η ύπαρξη μιας οντότητας υψηλού επιπέδου συνάγεται, μέσω της ιεραρχίας, μέχρι ενός βαθμού από την ανίχνευση οντοτήτων χαμηλότερου επιπέδου. Στο κεφάλαιο 3 μοντελοποιήσαμε τον υπολογισμό των βαθμών υπαγωγής σαν ένα πρόβλημα βελτιστοποίησης, για την επίλυση του οποίου προτείναμε δύο μεθόδους, εμπνευσμένες από τις τεχνικές του k-fold Cross Validation και RankBoost αντίστοιχα, ενώ για την ποσοτικοποίηση της διαδικασίας της σημασιολογικής αναζήτησης παρουσιάσαμε τις μετρικές της Βεβαιότητας, της Εγκυρότητας και της Πολυπλοκότητας. Παράλληλα παρουσιάσαμε μια μέθοδο αναπαράστασης της γνώσης και του συμπερασμού με χρήση ασαφών συνόλων και σχέσεων. Στη συνέχεια (κεφάλαιο 4), χρησιμοποιώντας αυτή τη δομή, προτείναμε μια μεθοδολογία διαχείρισης των υπολογιστικών πόρων κατά τη διάρκεια της αναζήτησης σημασιολογικών οντοτήτων. Η σχεδίαση συνίσταται στην επιλογή υποσυνόλων των συντακτικών οντοτήτων που εμπλέκονται σε κάποιον ορισμό, ανάλογα με τους εκάστοτε υπολογιστικούς περιορισμούς. Η επιλογή γίνεται με στόχο τη μεγιστοποίηση της ποιότητας του αποτελέσματος, κάτι που 131

152 132 ΚΕΦΑΛΑΙΟ 9. ΣΥΝΟΨΗ ΚΑΙ ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ανάγεται στη μεγιστοποίηση της μερικής Εγκυρότητας του υποσυνόλου. Μάλιστα, μοντελοποιώντας το πρόβλημα της επιλογής σαν τροποποιημένο πρόβλημα knapsack και προτείνοντας μια μέθοδο επίλυσης με δυναμικό προγραμματισμό, πετύχαμε να ελαττώσουμε το μέγεθος του χώρου αναζήτησης από εκθετικό (O(2 n )) σε ψευδο-πολυωνυμικό (O(n C)). Ακόμα, στο κεφάλαιο 5 παρουσιάσαμε δύο μεθόδους κατανομής της υπολογιστικής ισχύος για περιπτώσεις ταυτόχρονης αναζήτησης πολλαπλών εννοιών, στοχεύοντας, είτε στη συνολική αύξηση της Εγκυρότητας της αναζήτησης, αγνοώντας την επιμέρους Εγκυρότητα που επιτυγχάνεται για κάθε οντότητα (διανομή σε "συνθήκες ανταγωνισμού), είτε στην ισοκατανομή των υπολογιστικών πόρων με την έννοια της ισορροπίας της Εγκυρότητας (διανομή σε "συνθήκες πρόνοιας"). Για την επίλυση των αντίστοιχων προβλημάτων επιλογής προτείναμε και σε αυτό το σημείο αλγορίθμους που ελαττώνουν σημαντικά το χώρο αναζήτησης. Εφαρμόζοντας τις παραπάνω προτάσεις για την περιοχή της ανάκτησης πολυμέσων, στο κεφάλαιο 6 συνδυάσαμε τα αποτελέσματα ταξινομητών, μοντελοποιώντας τα ως συντακτικά χαρακτηριστικά. Πετύχαμε με αυτόν τον τρόπο τον υπολογισμό νέων βαθμών ανίχνευσης για έννοιες για τις οποίες δεν υπάρχουν ταξινομητές, επεκτείνοντας έτσι λεξικά αναζήτησης με πρακτικά ελάχιστο επιπλέον υπολογιστικό κόστος, σε σχέση με την εκπαίδευση νέων ταξινομητών ενώ επίσης βελτιώσαμε τους βαθμούς ανίχνευσης εννοιών που είχαν οικείους ταξινομητές. Επιπλέον, πετύχαμε τη σχεδίαση της ανάκτησης υπό κλιμακωτούς υπολογιστικούς περιορισμούς, επιτυγχάνοντας καλό Average Precision, ακόμα και για μικρά κατώφλια πολυπλοκότητας. Στο κεφάλαιο 7, επιδείξαμε τη χρήση της προτεινόμενης μεθοδολογίας στην περιοχή της αξιολόγησης πρακτόρων λογισμικού. Συγκεκριμένα ασαφοποιήσαμε τα δέντρα αξιολόγησης μετρικών των πρακτόρων και χρησιμοποιήσαμε τους μηχανισμούς κατανομής υπολογιστικών πόρων πειραματιζόμενοι στο σύνολο δεδομένων του διαγωνισμού TAC-SCM. Πρέπει να τονίσουμε ότι το μοντέλο γνώσης μας δεν απαιτεί πολύπλοκους υπολογισμούς κατά το συμπερασμό, καθώς οι βαθμοί αλήθειας των υπό αναζήτηση εννοιών είναι αποτιμήσιμοι μέσω κλειστών μαθηματικών εκφράσεων που προκύπτουν άμεσα από τα αξιώματα της γνώσης. Αποδείξαμε μάλιστα στο κεφάλαιο 8, ότι ακόμα και για μια γλώσσα με μεγαλύτερη εκφραστικότητα, η εκτέλεση ενός ασαφούς tableau αλγορίθμου στο σύνολο των μετρήσεων του ABox έχει αποτέλεσμα ισοδύναμο με την αποτίμηση κλειστών αριθμητικών εκφράσεων που η δομή τους μπορεί να προκύψει πριν τις μετρήσεις. Χρησιμοποιήσαμε αυτή την αυξημένη εκφραστικότητα σε πειράματα αντίστοιχα με αυτά του κεφαλαίου 6 και για αυτόν τον τύπο λογικών εκφράσεων, ώστε να βελτιώσουμε την απόδοση των ταξινομητών, ενώ τα αποτελέσματα ήταν πράγματι

153 133 Εφαρµογέ Θεωρητικό Μοντέλο Υ ολογισµό Βαρών Ανα αράσταση Γνώση Ανάκτηση Πολυµέσων Αξιολόγηση... Πρακτόρων Συµ ερασµό Μετρικέ Αναγνώριση Ε εκτάσει Ε ιλογή Υ οσυνόλων Ταυτόχρονη Αναζήτηση Εννοιών Αυξηµένη Εκφραστικότητα Σχήμα 9.1: Σύνοψη των προτάσεων της διατριβής. ικανοποιητικά. Ιδιαίτερα ενδιαφέρον είναι ότι η επίδοση της προτεινόμενης μεθόδου στο σύνολο δοκιμών διαφαίνεται ότι μπορεί να προβλεφθεί από την αντίστοιχη επίδοση στο σύνολο εκπαίδευσης. Τέλος, να σημειώσουμε ότι η μέθοδός μας μπορεί, μέσω των προτεινόμενων μεθοδολογιών υπολογισμού των βαρών και λόγω της χαμηλής πολυπλοκότητά τους (ειδικά της μεθόδου που βασίζεται στο RankBoost), να προσαρμοστεί στο εκάστοτε πεδίο/dataset επαναπροσδιορίζοντας την αξία κάθε έννοιας χαμηλότερου επιπέδου στην αναγνώριση εννοιών υψηλότερου επιπέδου. Στο σχήμα 9.1 απεικονίζεται μια σύνοψη των προτάσεων αυτής της διατριβής, που αποτελούνται από το θεωρητικό μοντέλο (κεφάλαια 3 και 4), τις επιδεικνυόμενες εφαρμογές (κεφάλαια 6 και 7) και τις προεκτάσεις της θεωρίας (κεφάλαια 5 και 8). Όσον αφορά τα μέτωπα που αφήνει ανοιχτά η εργασία, αυτά περιλαμβά-

Δείτε περισσότερα