ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ & ΥΠΟΛΟΓΙΣΜΩΝ ΟΜΑ Α ΚΑΤΑΝΟΗΣΗΣ ΠΟΛΥΜΕΣΩΝ Ασαφής Απλοποιηµένη Περιγραφική Λογική για Ανάκτηση Πολυµέσων ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ του Λάζαρου Καρυδά Επιβλέπων: Αναστάσιος Ντελόπουλος, Επίκουρος Καθηγητής Θεσσαλονίκη, Ιούλιος 2008

Το παρόν πόνηµα αποτελεί τη διπλωµατική µου εργασία που διεξήχθη κατά κύριο λόγο κατά τη διάρκεια του ακαδηµαϊκού έτους 2008-09. ε γνωρίζω αν προσθέτει µια ακόµη ψηφίδα στην Επιστήµη των Υπολογιστών, αλλά σίγουρα αποτελεί µια προσπάθεια εξερεύνησης της. Θέλω να ευχαριστήσω ϑερµά για τη συνεχή συµπαράσταση και τη συµπορευσή τους, τον κ. Αναστάσιο Ντελόπουλο, και τον υποψήφιο διδάκτορα Μανώλη Φαλελάκη. Επίσης, ϑέλω να ευχαριστήσω τον Παναγιώτη Παναγιωτόπουλο για τον αρχικό κώδικα της RankBoost, το Χρήστο ίου για τη ϐοήθεια του σε ότι χρειάστηκα, το Χρήστο Παπαχρήστου και το Νίκο ηµητρίου για την ϐοήθειά τους µε το cluster καθώς και τα υπόλοιπα µέλη της Οµάδας Κατανόησης Πολυµέσων που µε έκαναν να νιώσω άνετα στον χώρο του εργαστηρίου. Η εργασία αυτή αφιερώνεται στην οικογένεια µου. Λάζαρος Καρυδάς 1

Περιεχόµενα 1 Εισαγωγή 6 1.1 Ανάκτηση Πολυµέσων............................. 6 1.2 State of the Art................................. 6 1.3 Στόχος της Εργασίας.............................. 7 1.4 Η οµή της Αναφοράς............................. 8 2 Μαθηµατικό Υπόβαθρο 9 2.1 Ανάκτηση Πληροφορίας............................ 9 2.2 Περιγραφικές Λογικές............................. 11 2.2.1 Εισαγωγή................................ 11 2.2.2 Βασικές Περιγραφικές Λογικές..................... 11 2.2.3 Ορολογίες................................ 13 2.2.4 Ισχυρισµοί................................ 13 2.2.5 Υπηρεσίες και Μηχανισµοί Εξαγωγής Συµπεράσµατος........ 14 2.3 Από τις crisp ΠΛ στις ασαφείς ΠΛ....................... 14 3 Η Προτεινόµενη Μεθοδολογία 16 3.1 Εισαγωγή.................................... 16 3.2 Περιγραφική Γλώσσα.............................. 16 3.3 Τερµινολογία και Εξαγωγή Συµπερασµών................... 17 3.4 Εξαγωγή Ορισµών............................... 21 4 Μάθηση 24 4.1 Εισαγωγή.................................... 24 4.2 Μάθηση µε Επίβλεψη............................. 24 4.3 Βέλτιστη Προσαρµογή Παραµέτρων...................... 26 4.3.1 k-fold Cross Validation......................... 26 4.3.2 RankBoost............................... 27 5 Πειράµατα 28 5.1 Εισαγωγή.................................... 28 5.2 ιεύρυνση Συλλογής Οντοτήτων........................ 29 5.3 Βελτίωση Ταξινοµητών............................. 31 2

5.4 Σύγκριση Ασαφών Νορµών........................... 33 6 Συµπεράσµατα 35 Α Πίνακες Αποτελεσµάτων 36 3

Περίληψη Η παρούσα εργασία προτείνει µια µεθοδολογία ανάκτησης πολυµέσων, η οποία συνδυάζει λογική και ταξινοµητές. είχνουµε ότι κρατώντας µόνο τους τρεις ϐασικούς λογικούς τελεστές µίας ασαφούς Περιγραφικής Λογικής η πολυπλοκότητα της διαδικασίας εξαγωγής συµπερασµών µειώνεται στο ελάχιστο. Στόχος της µεθοδολογίας είναι να παρέχει έναν απλό αλλά αποτελεσµατικό τρόπο επέκτασης υπάρχοντων συλλογών ταξινοµητών µε καινούργιες έννοιες. Αυτό γίνεται µε την αποτίµηση λογικών εκφράσεων που ορίζουν τις καινούριες έννοιες από άλλες, για τις οποίες υπάρχει ήδη εκπαιδευµένος ταξινοµητής. Επίσης, η µέθοδος αυτή εφαρµόζεται και στην ϐελτίωση της ακρίβειας εντοπισµού εννοιών για τις οποίες είναι διαθέσιµος ένας ταξινοµητής, χρησιµοποιώντας λογικές εκφράσεις που λαµβάνουν υπόψη τόσο τον ταξινοµητή όσο και τον ορισµό της έννοιας από άλλες. Επιπλέον, παρέχεται η δυνατότητα ϐελτιστοποίησης των παραµέτρων των λογικών εκφράσεων (ϐάρη) στο εκάστοτε σετ δεδοµένων µε την χρήση δύο µεθόδων εκπαίδευσης. Το πειράµατα που έγιναν στο dataset του TRECVID δείχνουν υποσχόµενα αποτελέσµατα για την έρευνα σε αυτήν την κατεύθυνση. 4

Abstract This work proposes a methodology for Multimedia Retrieval that combines logic with classifiers. We prove that by using only the three principal logical operators, of a certain fuzzy Description Logic the complexity of reasoning is reduced to a minimum. The goal of the proposed approach is to provide a simple and effective way of extending existing classifier collections to new concepts. This is done by evaluating logical expressions that define new concepts from others, which a trained classifier already exists. Furthermore, this method is also used for the enhancement of the precision in the detection of concepts that a classifier is available, by using logical expressions that take into consideration the classifier as well as the definition of the concept from others. Moreover, we provide an optimization scheme to adapt the parameters in the logical expressions to the given dataset by using two different training methods. Experiments on TRECVID datasets show promising results for further research towards this direction. Work s title in English: "Simplifying Fuzzy Description Logics for Multimedia Retrieval" 5

Κεφάλαιο 1 Εισαγωγή 1.1 Ανάκτηση Πολυµέσων οσµένης µίας συλλογής από πολυµεσικά έγγραφα, ο στόχος της Ανάκτησης Πολυµέσων (Multimedia Information Retrieval) είναι να ϐρει εκείνα τα έγγραφα που είναι σχετικά µε την πληροφοριακή ανάγκη του χρήστη. Ενα πολυµεσικό έγγραφο είναι ένα σύνθετο πληροφοριακό αντικείµενο που αποτελείται από διαφόρων ειδών συστατικά µέρη, όπως κείµενο, εικόνες, ϐίντεο και ήχο, όλα σε ψηφιακή µορφή. 1.2 State of the Art Η εκθετική αύξηση του διαθέσιµου πολυµεσικού περιεχοµένου τα τελευταία χρόνια, έχει καταστήσει απαραίτητη την εύρεση µεθόδων για την αποτελεσµατική ταξινόµηση και ανάκτησή του. Αυτή η τάση ανακλάται στην εµφάνιση και εδραίωση πλαισίων αξιολόγησης της αποτελεσµατικότητας τέτοιων µεθόδων, όπως το TRECVID [14] αλλά και πλαισίων που παρέχουν µηχανισµούς σύγκρισης όπως το Mediamill [15] το Columbia374 [20] και το Vireo374[9]. Μεγάλο κοµµάτι της έρευνας προς την κατεύθυνση αυτή ϐασίζεται στην ανάπτυξη discriminative ταξινοµητών (classifiers). Αυτή η προσέγγιση έχει να επιδείξει ικανοποιητικά αποτελέσµατα σε πολλές περιπτώσεις, τα οποία µπορούν να ϐελτιωθούν περαιτέρω µε χρήση µεθόδων fusion [8], όπου οι οντότητες είτε επιλέγονται από το χρήστη [6] είτε και αυτόµατα [18, 12]. Από την άλλη µεριά, ϐρίσκονται οι µέθοδοι που ϐασίζονται στη χρήση γνώσης. Αυτές εφαρµόζουν κατά κύριο λόγο τεχνικές συµπερασµού που χρησιµοποιούν εκφραστικές Περιγραφικές Λογικές (Description Logics)[3], ενώ προεκτάσεις τους που µοντελοποιούν την αβεβαιότητα µε ασαφείς Περιγραφικές Λογικές [17] έχουν εφαρµοστεί πρόσφατα επιτυχώς για την ανάκτηση πολυµέσων[16, 1]. Οι τελευταίες, παρόλα αυτά, έχουν αρκετούς περιορισµούς, κυρίως λόγω του υπολογιστικού κόστους της διαδικασίας συλλογισµού, το οποίο µπορεί να καταστεί απαγορευτικό στην περίπτωση που µοντελοποιούνται µεγάλες 6

συλλογές οντοτήτων. 1.3 Στόχος της Εργασίας Η παρούσα εργασία προτείνει µια µεθοδολογία που επιχειρεί να συνδυάσει αρετές και από τις δύο προσεγγίσεις που αναφέρθηκαν. Οι έξοδοι των ταξινοµητών ασαφοποιούνται και χρησιµοποιούνται από ασαφή µοντέλα γνώσης για να εντοπίσουν σηµασιολογικές οντότητες στα πολυµέσα. Με αυτόν τον τρόπο, η υπολογιστικά απαιτητική διαδικασία εκπαίδευσης νέων ταξινοµητών µπορεί να καταστεί περιττή. Επιπλέον, ϐασιζόµενοι στην παρατήρηση ότι η χρήση υπαρξιακών ή καθολικών περιορισµών (linear or existential restrictions) δεν έχει νόηµα στο συγκεκριµένο πρόβληµα, τα µοντέλα που υιοθετούµε είναι πολύ απλουστευµένα, κάτι που µετατρέπει τη συλλογιστική σε µια σχετικά ανέξοδη υπολογιστικά διαδικασία. Ο στόχος της µεθοδολογίας µας είναι διττός, καθώς προσπαθεί (i) να παρέχει έναν απλό αλλά αποτελεσµατικό τρόπο επέκτασης υπάρχοντων συλλογών ταξινοµητών µε καινούργιες έννοιες και (τλιι) να ϐελτιώσει την ακρίβεια εντοπισµού σε έννοιες για τις οποίες υπάρχουν ήδη ειδικά εκπαιδευµένοι ταξινοµητές. Μια αρετή της προτεινόµενης µεθοδολογίας είναι ότι είναι ανεξάρτητη του τύπου των features που χρησιµοποιούνται από τους ταξινοµητές. Για την ακρίβεια, οι ταξινοµητές µπορούν να έχουν εκπαιδευθεί πάνω σε τελείως ανεξάρτητα feature vectors. Παράλληλα προτείνουµε δύο τεχνικές ϐελτιστοποίησης που ϐοηθούν στην προσαρµογή των ασαφών ορισµών στο εκάστοτε dataset. Για αυτό το σκοπό χρησιµοποιούµε ένα γενετικό αλγόριθµο συνοδευόµενο από κατάλληλες τεχνικές k-fold cross validation. και RankBoost[7], για να αποφύγουµε το over-fitting στο σύνολο εκπαίδευσης και να υπολογίσουµε µια µετριοπαθή εκτίµηση της απόδοσης του συστήµατος όταν εφαρµοστεί στο άγνωστο σύνολο δοκιµής. Πρέπει να τονίσουµε ότι η µεθοδολογία µας δεν έχει κατ ανάγκη καλύτερα αποτελέσµατα από τη χρήση ταξινοµητών σε κάθε περίπτωση. Εκµεταλλευόµενοι όµως την εκτίµηση της απόδοσης, µπορούµε να αποφασίσουµε σε ποιες περιπτώσεις η χρήση της είναι προς όφελος του συστήµατος ανίχνευσης. Τα πειράµατα που πραγµατοποιήθηκαν µε χρήση της οντολογίας LSCOM πάνω σε ένα dataset του TRECVID επιδεικνύουν την απόδοση της προτεινόµενης µεθοδολογίας σε πραγµατικά δεδοµένα. Τα αποτελέσµατα δείχνουν ότι νέες οντότητες µπορούν να οριστούν αποτελεσµατικά, συχνά πετυχαίνοντας απόδοση ανάλογη µε αυτή των ειδικά εκπαιδευµένων ταξινοµητών (αλλά µε ελάχιστο υπολογιστικό κόστος) ενώ µπορεί να προσδώσει σηµαντική ϐελτίωση στην ανίχνευση οντοτήτων για τις οποίες υπάρχουν ήδη αντίστοιχοι ταξινοµητές. 7

1.4 Η οµή της Αναφοράς Το επόµενο κεφάλαιο αποτελεί µία εισαγωγή στα µαθηµατικά εργαλεία που χρησιµοποιούνται στην εργασία αυτή. Παρουσιάζονται ϐασικές µετρικές εκτίµησης απόδοσης σε συστήµατα Ανάκτησης Πληροφορίας, οι ϐασικές έννοιες της Περιγραφικής Λογικής (ΠΛ) καθώς και µία σύντοµη αναφορά στην επέκταση της crisp ΠΛ στην ασαφή ΠΛ. Στο κεφάλαιο 3 περιγράφουµε αναλυτικά την προτεινόµενη µεθοδολογία. Ορίζεται η περιγραφική γλώσσα που ϑα χρησιµοποιηθεί, η ορολογία, ο τρόπος εξαγωγής ορισµών και η διαδικασία εξαγωγής συµπερασµών. Το κεφάλαιο 4 είναι χωρισµένο σε δύο µέρη. Το πρώτο µέρος παρουσιάζει σύντοµα την εκπαίδευση των ταξινοµητών. Η ανάλυση αυτού του ϑέµατος ξεφεύγει από τα πλαίσια της παρούσας εργασίας, παρόλα αυτά κρίνεται σκόπιµη για λόγους σύγκρισης µε την διαδικασία εκµάθησης που υλοποιείται στην προτεινόµενη µεθοδολογία. Στο δεύτερο µέρος περιγράφεται αναλυτικά η διαδικασία προσαρµογής των παραµέτρων (ϐαρών) του συστήµατος στο σύνολο των δεδοµένων µε στόχο την ϐελτιστοποίηση καθώς και την εκτίµηση της επίδοσης. Στο κεφάλαιο 5 περιγράφονται αναλυτικά τα πειράµατα και τα αποτελέσµατά τους και τέλος, το κεφάλαιο 6 αποτελεί τον επίλογο της εργασίας, όπου αναφέρονται τα συµπεράσµατα όπως επίσης και οι κατευθύνσεις µελλοντικής επέκτασης αυτής της έρευνας. 8

Κεφάλαιο 2 Μαθηµατικό Υπόβαθρο 2.1 Ανάκτηση Πληροφορίας Η επιστήµη της Ανάκτησης Πληροφορίας (Information Retrieval) ασχολείται µε την αναπαράσταση, αποθήκευση, οργάνωση και την πρόσβαση σε πληροφοριακά αντικείµενα. Η αναπαράσταση και οργάνωση των πληροφοριακών αντικειµένων πρέπει να γίνονται µε τρόπο, ώστε να παρέχουν στον εκάστοτε χρήστη, εύκολη πρόσβαση στην πληροφορία που τον ενδιαφέρει. Ενας από τους ορισµούς ενός συστήµατος ανάκτησης πληροφορίας είναι ο ακόλουθος. Kowalski (1997): Ενα σύστηµα ανάκτησης πληροφορίας είναι ένα σύστηµα ικανό να αποθηκεύει, να ανακτά, και να συντηρεί πληροφορία. Σε αυτό το πλαίσιο, η πληροφορία µπορεί να αποτελείται από κείµενο (συµπεριλαµβανοµένων αριθµητικών και ηµερολογιακών δεδοµένων), εικόνες, ήχους, ϐίντεο και άλλα πολυµεσικά αντικείµενα. Για τον σκοπό της αξιολόγησης ενός τέτοιου συστήµατος ϑα ορίσουµε τις δύο πιο ϐασικές µετρικές εκτίµησης απόδοσης ανάκτησης την ακρίβεια (precision) και την ανάκληση (recall). Ακρίβεια είναι το κλάσµα των ανακτηθέντων εγγράφων που είναι σχετικά µε την πληροφοριακή ανάγκη του χρήστη. P recision = #(relevant items retrieved) #(retrieved items) = P (relevant retrieved items) (2.1) Ανάκληση είναι το κλάσµα των σχετικών µε το ερώτηµα του χρήστη εγγράφων που ανακτήθηκαν επιτυχώς. Recall = #(relevant items retrieved) #(relevant items) = P (retrieved relevant) (2.2) Ο λόγος της ύπαρξης δύο µετρικών είναι ότι στις περισσότερες περιπτώσεις το ένα είναι πιο σηµαντικό από το άλλο. Σκεφτείτε για παράδειγµα, κάποιον που ψάχνει σε µία µηχανή αναζήτησης στο internet. Αυτό που τον ενδιαφέρει είναι όλα τα αποτελέσµατα της 9

Σχήµα 2.1: Καµπύλη ακρίβειας - ανάκτησης. πρώτης σελίδας να είναι σχετικά (precision) και δεν έχει το παραµικρό ενδιαφέρον να ξέρει (πόσο µάλλον να διαβάσει) όλα τα έγγραφα τα οποία είναι σχετικά. Αντίθετα, για κάποιον που ψάχνει ένα σύνολο αρχείων στον σκληρό δίσκο του υπολογιστή του, είναι σηµαντικό να ϐρεί όλα τα σχετικά αρχεία (recall), ακόµα και αν ανάµεσα σε αυτά υπάρχουν και κάποια που δεν έχουν σχέση. Βλέπουµε, λοιπόν, ότι οι δύο αυτές ποσότητες είναι αντικρουόµενες : Μπορείς πάντα να έχεις recall ίσο µε την µονάδα (αλλά πολύ χαµηλό precision) επιστρέφοντας όλα τα έγγραφα σε κάθε ερώτηµα! Στο σχήµα 2.1 ϕαίνεται καθαρά η σχέση των δύο αυτών ποσοτήτων. Γενικά, σε ένα σύστηµα ϑέλουµε να πετύχουµε µία ικανοποιητική τιµή ανάκτησης, ϑυσιάζοντας όσο το δυνατόν λιγότερο την ακρίβεια. Οδηγούµαστε, λοιπόν, στο να εισάγουµε µία καινούρια µετρική αξιολόγησης, την µέση ακρίβεια (average precision - AP). Η µέση ακρίβεια είναι ουσιαστικά το εµβαδόν κάτω από την καµπύλη του σχήµατος 2.1 και συνδυάζει την ακρίβεια, την κατάταξη και την ανάκτηση. Με απλά λόγια µπορούµε να πούµε πως είναι µία µετρική που δίνει έµφαση στο να επιστρέφονται πιο πολλά σχετικά έγγραφα πρώτα. Η µέση ακρίβεια ορίζεται N P(r)rel(r) AP(Q) = r=1 number of relevant documents (2.3) όπου r είναι η κατάταξη, N ο αριθµός που ανακτήθηκε, rel() µία δυαδική συνάρτηση που δείχνει την σχετικότητα του εγγράφου, και P () η ακρίβεια στην συγκεκριµένη κατάταξη. 10

2.2 Περιγραφικές Λογικές 2.2.1 Εισαγωγή Ενα από τα προβλήµατα που ασχολείται η Επιστήµη των Υπολογιστών και ιδιαίτερα ο τοµέας της Τεχνητής Νοηµοσύνης είναι το πώς µπορεί να καταγραφεί η ανθρώπινη γνώση σε ένα Υπολογιστικό Σύστηµα. Προς αυτή την κατεύθυνση έχει αναπτυχθεί µια πληθώρα από γλώσσες αναπαράστασης γνώσης όπως είναι η Προτασιακή Λογική (Propositional Logic), η Κατηγορηµατική Λογική (Predicate Logic), τα Σηµασιολογικά ίκτυα (Semantic Networks) και οι Περιγραφικές Λογικές (ΠΛ) (Description Logics - DLs). Στο σηµείο αυτό ϑα κάνουµε µία εισαγωγή στις ϐασικές έννοιες της Περιγραφικής Λογικής. 2.2.2 Βασικές Περιγραφικές Λογικές Οπως και κάθε γλώσσα, έτσι και οι ΠΛ έχουν ένα αλφάβητο. Αντίθετα όµως µε τις γλώσσες που γνωρίζουµε το αλφάβητο αυτό δεν είναι σταθερό αλλά µπορεί να οριστεί από το χρήστη. Το αλφάβητο ορίζεται από ένα σύνολο ατοµικών εννοιών (atomic concepts) C, ένα σύνολο ατοµικών ϱόλων (atomic roles) ή αλλιώς σχέσεων (relations) R, και από ένα σύνολο ατόµων (individuals) I. Συνήθως χρησιµοποιούµε τα γράµµατα A, B για να αναπαραστήσουµε ατοµικές έννοιες, τα γράµµατα R, S για να αναπαραστήσουµε ϱόλους και τα γράµµατα a, b για να αναπαραστήσουµε άτοµα. Περιγραφές εννοιών (concept descriptions) ή αλλιώς περίπλοκες έννοιες (complex concepts) µπορούµε να δηµιουργήσουµε από τις πρωτογενείς έννοιες σε συνδυασµό µε τους κατασκευαστές εννοιών των ΠΛ και συνήθως χρησιµοποιούµε τα γράµµατα C, D για να αναφερθούµε σε αυτές. Επιπρόσθετα, προσέξτε ότι χρησιµοποιούµε λέξεις που ξεκινούν µε κεφαλαία για την αναπαράσταση εννοιών, πρωτογενών ή µη, π.χ. Ανθρωπος, ενώ λέξεις που ξεκινούν µε µικρό για την αναπαράσταση ϱόλων, π.χ. εχειπαιδι. Μια από τις πιο ϐασικές ΠΛ είναι η γλώσσα AL (attributive language)[13]. Αυτή δηµιουργείται από ένα αλφάβητο πρωτογενών εννοιών και ϱόλων, από το σύνολο κατασκευαστών {,,, } και από δυο περιγραφές εννοιών οι οποίες έχουν ιδιαίτερη σηµασία για τις ΠΛ γλώσσες και συµβολίζονται µε και. Οι έννοιες αυτές ονοµάζονται καθολική έννοια univeral concept και κενή έννοια bottom concept, αντίστοιχα. Ας δούµε, όµως, πώς ορίζονται τυπικά οι περιγραφές εννοιών στην ΠΛ AL. Εστω A µια ατοµική έννοια, C, D δυο περιγραφές εννοιών και R ένας ατοµικός ϱόλος. Οι περιγραφές εννοιών στη γλώσσα AL ορίζονται επαγωγικά από την ακόλουθη αφηρηµένη σύνταξη (abstract syntax): C, D A C D R.C R. οι έννοιες R.C και R. ονοµάζονται περιορισµός τιµής (value restriction) ή αλλιώς καθολικός περιορισµός (universal restriction) και περιορισµένος υπαρξιακός περιορισµός (limited existential restriction), αντίστοιχα. Τέλος παρατηρήστε ότι στη 11

γλώσσα AL η άρνηση µπορεί να εµφανιστεί µόνο µπροστά από ατοµικές έννοιες. Επίσης από το σηµείο αυτό, δεν ϑα ασχοληθούµε άλλο µε τους ϱόλους και τους περιορισµούς, καθώς ξεφεύγουν από τα πλαίσια της εργασίας. Είναι πολύ σηµαντικό στο σηµείο αυτό να παρατηρήσουµε ότι µέχρι στιγµής έχουµε περιγράψει µόνο τη σύνταξη της Περιγραφικής Λογικής AL ενώ δεν έχουµε αναφέρει τίποτα για τη σηµασιολογία της. Σε µια ϕυσική γλώσσα, όπως είναι τα Ελληνικά, οι ερµηνείες των εννοιών είναι συνήθως συγκεκριµένες. Για παράδειγµα η ερµηνεία της έννοιας Αυτοκίνητο αποτελεί την οντότητα αυτή που όλοι γνωρίζουµε µαζί µε τα χαρακτηριστικά που τη διακρίνουν. Μέλη της έννοιας αυτή είναι όλα τα αυτοκίνητα του κόσµου. Αντίθετα όµως σε µια ΠΛ, όπως επίσης και σε οποιαδήποτε γλώσσα αναπαράστασης γνώσης όταν γράφουµε την έννοια Αυτοκίνητο αυτό δε σηµαίνει αυτόµατα ότι η έννοια αυτή έχει και ερµηνεία η οποία και είναι το σύνολο όλων των αυτοκινήτων. Πιο συγκεκριµένα πρέπει εµείς να αποδώσουµε µια συγκεκριµένη ερµηνεία στην έννοια αυτή για να αποκτήσει κάποιο νόηµα και σηµασία. Ας δούµε, λοιπόν, πώς ορίζονται µαθηµατικά οι ερµηνείες σε µια ΠΛ. Μια ΠΛ ερµηνεία (interpretation) I ορίζεται από ένα Ϲεύγος ( I,. I ), όπου I είναι ένα µη-κενό σύνολο που ονοµάζεται χώρος ερµηνείας (domain of interpretation) και περιέχει στοιχεία που ονοµάζονται αντικείµενα (objects), και I είναι µια συνάρτηση ερµηνείας (interpretation function) που ερµηνεύει κάθε ατοµική έννοια A ως ένα υποσύνολο A I του I του I I. Τέλος η συνάρτηση ερµηνείας µπορεί να επεκταθεί για να δώσει ερµηνεία και σε περιγραφές εννοιών. Η σηµασιολογία τους είναι η ακόλουθη : I = I (2.4) I = (2.5) ( A) I = I \A I (2.6) (C D) I = C I D I (2.7) Από τα προηγούµενα µπορούµε να παρατηρήσουµε ότι οι έννοιες σε µια ΠΛ δεν επιδέχονται µοναδικής ερµηνείας. Αντίθετα µάλιστα υπάρχουν περιπτώσεις που µια έννοια µπορεί να έχει άπειρες ερµηνείες, αλλά και περιπτώσεις εννοιών όπου δεν υπάρχει καµία ερµηνεία που να τις ερµηνεύει ως µη κενές, όπως για παράδειγµα η έννοια Άνθρωπος Άνθρωπος. Οι έννοιες αυτές ονοµάζονται µη-ικανοποιήσιµες (unsatisfiable). Προσθέτοντας επιπλέον κατασκευαστές εννοιών στην απλή περιγραφική λογική AL µπορούµε να δηµιουργήσουµε περισσότερο εκφραστικές γλώσσες οι οποίες ϑα µας δίνουν τη δυνατότητα να περιγράφουµε πιο πολύπλοκες έννοιες. Πρώτα απ όλα ας ϑεωρήσουµε τον κατασκευαστή ένωσης (union) (ο οποίος συµβολίζεται µε το γράµµα ). Η σύνταξη της ένωση δυο εννοιών είναι η εξής C D και η ερµηνεία της από τη συνάρτηση ερµηνείας είναι η ακόλουθη : (C D) I = C I D I (2.8) 12

Επίσης, η άρνηση αυθαίρετων εννοιών γράφεται ως C, και ερµηνεύεται ως C I = I \C I (2.9) 2.2.3 Ορολογίες Μέχρι στιγµής είδαµε πως µπορούµε να χρησιµοποιήσουµε τους κατασκευαστές που µας προσφέρει µια ΠΛ σε συνδυασµό µε τις πρωτογενείς έννοιες και ϱόλους µε σκοπό τη δηµιουργία πολύπλοκων εννοιών. Οι ΠΛ, όµως, µας προσφέρουν µια επιπλέον δυνατότητα, αυτή του να µπορούµε να αποδίδουµε ονόµατα στις περίπλοκες έννοιες που ϑέλουµε να περιγράψουµε, αλλά ακόµα και να περιγράφουµε σχέσεις ανάµεσα σε αυτές. Οι σχέσεις αυτές παρουσιάζονται µε τη µορφή αξιωµάτων που ονοµάζονται αξιώµατα ορολογίας (terminological axioms). Πιο συγκεκριµένα αν C και D είναι ΠΛ έννοιες τότε τα αξιώµατα ορολογίας έχουν τη µορφή, C D ή C D, Αξιώµατα του πρώτου τύπου ονοµάζονται αξιώµατα υπαγωγής (subsumption axioms ή inclusion axioms) ενώ του δεύτερου τύπου ονοµάζονται αξιώµατα ισοδυναµίας (equivalence axioms). ιαισθητικά ένα αξίωµα υπαγωγής της µορφής C D δηλώνει ότι η έννοια D είναι πιο γενική από την έννοια C ή αλλιώς ότι η έννοια C είναι υπο- έννοια της D. Αντίστοιχα το αξίωµα C D σηµαίνει ότι οι δυο έννοιες είναι ταυτόσηµες. Ενα σύνολο από αξιώµατα υπαγωγής ή ισοδυναµίας αποτελούνε το σώµα ορολογίας (TBox -Terminological Box) ή απλώς µια ορολογία (terminology) η οποία συµβολίζεται µε το γράµµα T. Ας δούµε τώρα πως ερµηνεύονται τα αξιώµατα ορολογίας. Σύµφωνα µε τα παραπάνω εφόσον το αξίωµα C D σηµαίνει ότι η έννοια D είναι πιο γενική από την έννοια C και εφόσον τα C και D ερµηνεύονται σαν σύνολα είναι ϕυσικό να πούµε ότι µια ερµηνεία I ικανοποιεί (satisfies) ένα αξίωµα υπαγωγής C D αν C I D I, δηλαδή αν η ερµηνεία I ερµηνεύει την έννοια D ως υπερσύνολο της έννοιας C. Αντίστοιχα µια ερµηνεία I ικανοποιεί ένα αξίωµα ισοδυναµίας C D αν C I = D I. Τέλος µια ερµηνεία I ικανοποιεί ένα σώµα ισχυρισµών T αν ικανοποιεί όλα τα αξιώµατα υπαγωγής και ισοδυναµίας που υπάρχουν στο T. Τότε λέµε ότι η I είναι µοντέλο (model) του T. ιαισθητικά µια ορολογία T αποτελεί έναν περιορισµό στη δοµή των µοντέλων που µπορούν να οριστούν. 2.2.4 Ισχυρισµοί Εκτος από τη δυνατότητα ορισµού σχέσεων µεταξύ εννοιών οι ΠΛ µας επιτρέπουν να κάνουµε και υποθέσεις όσον αφορά τα άτοµα του κόσµου τον οποίο µοντελοποιούµε. Μας δίνει δηλαδή τη δυνατότητα καθορισµού σχέσεων στιγµιοτύπου (instance relations) ανάµεσα σε ένα άτοµο και µια έννοια, τα οποία ονοµάζονται ισχυρισµοί (assertions). Οι ισχυρισµοί αυτοί ονοµάζονται ισχυρισµοί εννοιών (concept assertions) και έχουν τη σύνταξη a : C ή C(a). 13

Το σύνολο των ισχυρισµών αποτελεί το σώµα ισχυρισµών (ABox - Assertional Box) το οποίο συµβολίζεται µε A. Ετσι λοιπόν µια ΠΛ ϐάση γνώσης (knowledge base) ορίζεται ως ένα Ϲευγάρι ενός TBox T και ενός ABox A, K = (T, A). 2.2.5 Υπηρεσίες και Μηχανισµοί Εξαγωγής Συµπεράσµατος Οπως αναφέραµε στην εισαγωγή µας ένα σύστηµα το οποίο µπορεί µόνο να αποθηκεύει γνώση σε κάποια µορφή δε συνεπάγεται απαραίτητα και τη δηµιουργία ενός ευφυούς συστήµατος. Για να µπορέσουµε να δηµιουργήσουµε τέτοιες εφαρµογές ϑα πρέπει να δίνεται η δυνατότητα να εξάγουµε συµπεράσµατα ϐασισµένοι στη γνώση την οποία έχουµε περιγράψει. Οι υπηρεσίες εξαγωγής συµπεράσµατος (reasoning tasks) που εκτελούνται από ένα σύστηµα ΠΛ µπορούν να χωριστούν σε υπηρεσίες εξαγωγής συµπεράσµατος για το TBox, για το ABox, και τέλος, για το TBox και το ABox µαζί. Οσον αφορά το TBox, οι υπηρεσίες εξαγωγής συµπεράσµατος περιλαµβάνουν τον έλεγχο ικανοποιησιµότητας (satisfiability), υπαγώγής (subsumption), ισοδυναµίας (equivalence) και ξένων εννοιών (disjointness). για τα σώµατα ισχυρισµών (ABox), οι υπηρεσίες εξαγωγής συµπερασµών περιλαµβάνουν τον έλεγχο συνέπειας (consistency), ικανοποιησιµότητας (satisfiability) και συνεπαγωγής (entailment). Αποδεικνύεται 1 ότι όλες αυτές οι υπηρεσίες µπορούν να αναχθούν στο πρόβληµα ελέγχου ικανοποιησιµότητας του ABox, δεδοµένου ότι η ΠΛ επιτρέπει τοµή και άρνηση εννοιών. Παρόλα αυτά, πολλές ΠΛ δεν προσφέρουν την δυνατότητα άρνησης. Σε αυτές, το πρόβληµα της υπαγωγής εννοιών µπορεί συνήθων να υπολογιστεί µε τους αλγόριθµους διαρθρωτικής υπαγωγής (structural subsumption algorithms). Από την άλλη µεριά, οι αλγόριθµοι αυτοί δεν µπορούν να χειριστούν ΠΛ µε (σύνθετη) άρνηση και τοµή. Για τέτοιες γλώσσες, ο αλγόριθµος πινάκων tableau algorithm, που παρουσιάστηκε στο [13] το 1991, έχει αποδειχθεί πολύ χρήσιµος. Ενα tableau αλγόριθµος ελέγχει την ικανοποιησιµότητα µίας έννοιας προσπαθώντας να κατασκευάσει µία πεπερασµένη ερµηνεία για την έννοια αυτή. Αυτό γίνεται διασπώντας συνεχώς σύνθετες έννοιες σε απλούστερες µε ϐάση ένα σύνολο κανόνων. Για περισσότερα πάνω στους tableau αλγόριθµους ο αναγνώστης µπορεί να διατρέξει στο [2]. 2.3 Από τις crisp ΠΛ στις ασαφείς ΠΛ Οι Ασαφείς Περιγραφικές Λογικές (Fuzzy Description Logics) έχουν προταθεί ως µία γλώσσα για την περιγραφή δοµηµένης γνώσης που περιλαµβάνει αβέβαιες έννοιες. Επεκτείνουν τις κλασσικές (crisp) ΠΛ δίνοντας την δυνατότητα χειρισµού ασαφών/αβέβαιων εννοιών για τις οποίες ένας σαφής και ακριβής ορισµός είναι αδύνατος. Πολλές προσπάθειες έχουν γίνει προς αυτή την κατεύθυνση, στο σηµείο αυτό όµως ϑα επικεντρωθούµε στην σηµασιολογία που προτάθηκε στα [4] [17] και [5] για δύο 1 Η απόδειξη µπορεί να ϐρεθεί στο [2]. 14

λόγους. Ο πρώτος είναι ότι µας παρέχεται η δυνατότητα να εισάγουµε αβεβαιότητα στα αξιώµατα επαγωγής και ο δεύτερος είναι ότι µπορούµε να χρησιµοποιήσουµε οποιαδήποτε οικογένεια ασαφών τελεστών fuzzy norms. Στην συνέχεια ορίζουµε συνοπτικά κάποιες ϐασικές έννοιες και την σηµασιολογία τους. Ενα ασαφές σώµα ορολογίας fuzzy TBox T είναι ένα πεπερασµένο σύνολο από ασαφή αξιώµατα υπαγωγής εννοιών fuzzy inclusion axioms < C D, n >, όπου C, D είναι έννοιες και n (0, 1]. Ανεπίσηµα, < C D, n > δηλώνει ότι όλα τα στιγµιότυπα της έννοιας C είναι στιγµιότυπα της έννοιας D σε ϐαθµό n. Ενα ασαφές σώµα ισχυρισµών fuzzy ABox A αποτελείται από ένα πεπερασµένο σύνολο από ασαφή αξιώµατα ισχυρισµών εννοιών fuzzy concept assertion axioms της µορφής < a : C, n >, όπου το a είναι ένα άτοµο και C µία έννοια. Ενα τέτοια αξίωµα, διαισθητικά, δηλώνει πως το άτοµο a ανήκει στην έννοια C σε ϐαθµό τουλάχιστον n. Αντίστοιχα µε τις κλασικές ΠΛ, έτσι και εδώ ορίζεται µία ασαφής συνάρτηση ερµηνίας fuzzy interpretation function I = ( I, I), η οποία αποδίδει σε κάθε έννοια C µία συνάρτηση C I : I [0, 1]. Επίσης (C D) I = inf x IC I (x) D I (x) (2.10) (α : C) I = C I (α I ) (2.11) Για περισσότερα ο αναγνώστης µπορεί να διατρέξει στα [4] [17] και [5]. Λέµε ότι µία έννοια C είναι ικανοποιήσιµη ανν υπάρχει µία ερµηνεία I και ένα άτοµο x I ώστε C I > 0. Η ικανοποίηση ενός ασαφούς αξιώµατος υπαγωγής E από µία ερµηνεία I, δηλώνεται I = E και ορίζεται ως εξής : I =< α n >, όπου α είναι ένα αξίωµα υπαγωγής εννοιών, ανν α I n. Παρόµοια, I =< α n >, όπου α είναι ένα αξίωµα ισχυρισµού εννοιών, ανν α I n. Το σηµαντικό σηµείο αυτής της ασαφούς ΠΛ και της σηµασιολογίας της είναι ότι µας δίνει την δυνατότητα να µπορούµε να απαντάµε σε ερωτήµατα του της µορφής : Ποίος είναι ο ελάχιστος ϐαθµός που µπορεί το άτοµο a να ανήκει στην έννοια C µε ϐάση ένα σώµα ορολογίας και ένα σώµα ισχυρισµών. Τα ερωτήµατα αυτά ονοµάζονται gretest lower bound satisfiability queries. Η δυνατότητα αυτή µας προσφέρεται χρησιµοποιώντας τον tableau αλγόριθµο που παρουσιάζεται στα [5] και [13]. Ο αλγόριθµος αυτός καταλήγει σε ένα σύστηµα ανισοτήτων, που µετά την λύση του (συνήθως µε αριθµητικές µεθόδους) καταλήγουµε στο επιθυµητό αποτέλεσµα. 15

Κεφάλαιο 3 Η Προτεινόµενη Μεθοδολογία 3.1 Εισαγωγή Η κύρια ιδέα της προσέγγισής µας είναι ότι µπορεί κανείς να ϐασιστεί στα αποτελέσµατα αξιόπιστων ταξινοµητών για να ορίσει καινούριες έννοιες. Οι ταξινοµητές αντιµετωπίζουν την εικόνα ενιαία και παρέχουν πληροφορία για το αν αυτή ανήκει σε µια συγκεκριµένη κλάση και σε ποιο ϐαθµό. εν παρέχουν όµως στοιχεία για την ύπαρξη και τον τύπο πιθανών αλληλοσυσχετίσεων ανάµεσα στις ανιχνευόµενες έννοιες/κλάσεις. Εξαιτίας αυτής της προσέγγισης, δεν υπάρχει λόγος να µοντελοποιήσει κανείς αυτές τις σχέσεις χρησιµοποιώντας object properties ( ρόλους στην τερµινολογία των Περιγραφικών Λογικών). 3.2 Περιγραφική Γλώσσα Βασιζόµενοι στην παρατήρηση ότι η παρούσα προσέγγιση δεν χρειάζεται σχέσεις µεταξύ των αντικειµένων, υιοθετούµε µια γλώσσα που µπορεί να περιέχει περιγραφές εννοιών ϐασισµένες αποκλειστικά σε τελεστές conjunction, disjunction και negation. Αποκόπτουµε, δηλαδή, τους quantifiers και τα υπόλοιπα εκφραστικά εργαλεία που παρέχουν οι Περιγραφικές Λογικές. Πιο συγκεκριµένα, οι εκφράσεις κατασκευάζονται σύµφωνα µε το συντακτικό κανόνα που παρουσιάζεται στον πίνακα 3.2 C, D A (atomic concept) (universal concept) (bottom concept) C (negation) C D (union) C D (intersection) Πίνακας 3.1: Συνακτικός κανόνας για την κατασκευή εκφράσεων. 16

3.3 Τερµινολογία και Εξαγωγή Συµπερασµών Θεωρούµε ένα ασαφές TBox T, όπως ορίζεται στην ενότητα 2.3, που περιέχει ένα αξίωµα επαγωγής της µορφής < C A, f >, όπου C είναι ένα concept description και A ένα atomic concept. Ανεπίσηµα, ένα τέτοιο αξίωµα υπαγωγής δηλώνει ότι όλα τα στιγµιότυπα της έννοιας C είναι στιγµιότυπα της ατοµικής έννοιας A σε ϐαθµό f, το οποίο σηµαίνει ότι δωσµένου ενός ατόµου, και του ϐαθµού στον οποίο το άτοµο αυτό ανήκει στην έννοια C, µπορούµε να υπολογίσουµε ένα κάτω όριο για τον ϐαθµό στον οποίο το άτοµο αυτό ανήκει στην έννοια A. Ας ϑεωρήσουµε ότι το concept description C περιέχει τις ατοµικές έννοιες A 1, A 2,..., A n. Θεωρούµε τώρα ένα σύνολο από ασαφείς ισχυρισµούς εννοιών, όπως ορίζεται στο [4], της µορφής A = {< i : B 1, µ B1 >, < i : B 2, µ B2 >,..., < i : B n, µ An >} (3.1) και την ϐάση γνώσης K =< T, A > (3.2) Μπορούµε να απαντήσουµε ερωτήµατα τύπου µέγιστο κάτω όριο ικανοποιησιµότητας (greatest lower bound - glb satisfiability queries) της µορφής glb(k, i : A) χρησιµοποιώντας τον tableau αλγόριθµο που περιγράφεται στο [4]. Θα αποδείξουµε ότι κάθε διαδικασία εξαγωγής συµπερασµών που καλείται να απαντήσει ένα τέτοιο ερώτηµα για την έννοια A καταλήγει σε ένα µέγιστο κάτω όριο το οποίο µπορεί να υπολογιστεί ισοδύναµα από µία κλειστή έκφραση, χωρίς να χρειάζεται η διαδικασία της επέκτασης tableau ούτε και η λύση του συστήµατος ανισοτήτων. Για να το δείξουµε αυτό, ας ϑεωρήσουµε τέσσερις απλές περιπτώσεις για το concept description C 1. Το concept description C είναι µία ατοµική έννοια a. Το TBox τότε παίρνει την ακόλουθη µορφή T = {< a A, f >} (3.3) και η διαδικασία εξαγωγής συµπεράσµών σύµφωνα µε τον tableau αλγόριθµο στο [4] δίνει L(i) = {< a, x 1 >, < A, x 2 >} (3.4) 17

C F = x i:a x 1 x i:a x 2 x 2 x 1 f (3.5) x i:a x 2 x 1 f x i:a f x i:a x i:a f (3.6) 2. Το concept description C είναι η άρνηση µίας ατοµικής έννοιας a. Το TBox τότε παίρνει την ακόλουθη µορφή και η διαδικασία εξαγωγής συµπεράσµατος δίνει T = {< a A, f >} (3.7) L(i) = {< a, x 1 >, < A, x 2 >} (3.8) x i:a x 1 C F = x i:a x 2 (3.9) x 2 x 1 f aa x i:a x 2 x 1 f x i:a x i:a x i:a f (3.10) 3. Το concept description C είναι η τοµή δύο ατοµικών εννοιών a, b. Το TBox τότε παίρνει την ακόλουθη µορφή και η διαδικασία εξαγωγής συµπεράσµατος δίνει T = {a b A, f} (3.11) L(i) = {< a b, x 1 >, < A, x 2 >, < a, x 3 >, < b, x 4 >} (3.12) C F = { x i:a x 3, x i:a x 2, x 3 x 4 = x 1 x i:b x 4, x 2 x 1 f } (3.13) x i:a x 2 x 1 f = (x 3 x 4 ) f = (x 3 x 4 ) f = x 1 f = x 1 f (x i:a x i:b ) f (3.14) x i:a (x i:a x i:b ) f (3.15) 4. Το concept description C είναι η ένωση δύο ατοµικών εννοιών a, b. Το TBox τότε παίρνει την ακόλουθη µορφή T = {a b A, f} (3.16) Η διαδικασία εξαγωγής συµπεράσµατος είναι παρόµοια µε την προηγούµενη περίπτωση και τελικά δίνει x i:a (x i:a x i:b ) f (3.17) 18

Βλέπουµε, λοιπόν, ότι σε όλες αυτές τις απλές περιπτώσεις το σύστηµα ανισοτήτων εκφυλίζεται σε µία ανισότητα. Επαγωγή. Τώρα ϑα υποθέσουµε ότι ισχύει για ένα concept description που εµπλέκει n ατοµικές έννοιες, δηλαδή T = {< F (B 1, B 2,..., B n ) A, f >} (3.18) όπου F είναι µία συνάρτηση που εµπλέκει λογική άρνηση, ένωση και τοµή και B 1, B 2,..., B n είναι ατοµικές έννοιες. αποτέλεσµα Υποθέτουµε ότι η σύνθετη έννοια Η διαδικασία εξαγωγής συµπερασµών δίνει ως L(i) = {< F (B 1, B 2,..., B n ), x 1 >, < A, x 2 > (3.19) F (B 1, B 2,..., B n ) ϑα παράγει ένα σύνολο από ανισότητες που µπορούν να γραφτούν ως µία κλειστή έκφραση f(x i:b1, x i:b2,..., x i:bn ), όπου f είναι µια συνάρτηση που εµπλέκει ασαφείς τελεστές άρνησης, ένωσης και τοµής, και x i:bi είναι οι ϐαθµοί στους οποίους το στιγµιότυπο i ανήκει στην έννοια B i. Τελικά παράγεται το ακόλουθο σύνολο περιορισµών (constraints). x i:a x 2 C F = x 2 x 1 f f(x i:b1, x i:b2,..., x i:bn x 1 ) (3.20) x i:a x 2 x 1 f f(x i:b1, x i:b2,..., x i:bn ) f (3.21) x i:a f(x i:b1, x i:b2,..., x i:bn ) f (3.22) Θα αποδείξουµε τώρα ότι ισχύει για µία σύνθετη έννοια η οποία έχει επαυξηθεί κατά ένα ϐήµα. Για τον σκοπό αυτό ϑα εξετάσουµε 3 διαφορετικές περιπτώσεις : την άρνηση της σύνθετης έννοιας, την τοµή και ένωσή της µε µία ατοµική έννοια. Η περίπτωση της άρνησης. T = {< G(B 1, B 2,..., B n ) A f >} (3.23) Εφαρµόζοντας τον ( )-κανόνα, προσάπτουµε < G(B 1, B 2,..., B n ) > και < A, x 2 > στο L(i). Η σύνθετη έννοια G(B 1, B 2,..., B n ) µπορεί να γραφτεί ως G(B 1, B 2,..., B n ), όπου G υποδεικνύει την De Morgan άρνηση του G, δηλαδή την σύνθετη έννοια όπως εκφράζεται µετά την εισαγωγή του ενός λογικού τελεστή άρνησης στην έκφραση και την εφαρµογή των κανόνων De Morgan στις έννοιες που εµπλέκονται. Φυσικά, ο αριθµός των εννοιών που εµπλέκει το G ϑα είναι ο ίδιος µε τον αριθµό των εννιών που εµπλέκει το G. Λαµβάνοντας υπ όψιν όλα τα παραπάνω έχουµε { } L(i) = < G(B 1, B 2,..., B n ), x 1 >, < A, x 2 f > (3.24) 19

και οπότε x i:a x 2 C F = x 2 x 1 g(x i:b1, x i:b2,..., x i:bn ) x 1 (3.25) x i:a x 2 x 1 f g(x i:b1, x i:b2,..., x i:bn ) f (3.26) x i:a g(x i:b1, x i:b2,..., x i:bn ) f (3.27) Η περίπτωση της τοµής. T = {< G(B 1, B 2,..., B n ) B n+1 A >} (3.28) Εφαρµόζοντας τον ( )-κανόνα παίρνουµε { L(i) = < (G(B 1, B 2,..., B n ) B n+1 ), x 1 >, < A, x 2 > } (3.29) και εφαρµόζοντας επανειληµµένα τους κανόνες συµπλήρωσης (completion rules) καταλήγουµε και < A, x 2 > L(i) = < G(B 1, B 2,..., B n ), x 3 > < B n+1, x 4 > C F = x i:a x 2 x 2 x 1 f x 3 x 4 = x 1 (3.30) (3.31) f(x i:b1, x i:b2,..., x i:bn ) x 3 x i:bn+1 x 4 i:a x 2 x 1 f = (x 3 x 4 ) f (f(x i:b1, x i:b2,..., x i:bn ) x i:bn+1 ) f (3.32) x i:a f(x i:b1, x i:b2,..., x i:bn ) x i:bn+1 (3.33) Τέλος, η περίπτωση της ένωσης γίνεται µε παρόµοιο τρόπο. Αποδείξαµε, λοιπόν, ότι στην συγκεκριµένη απλοποιηµένη ασαφή ΠΛ η διαδικασία εξαγωγής συµπερασµών για συγκεκριµένα ερωτήµατα είναι ισοδύναµη µε τον υπολογισµό µίας κλειστής έκφρασης. Αυτό είναι πολύ σηµαντικό αν σκεφτεί κανείς ότι το ϐασικότερο µειονέκτηµα των εκφραστικών ΠΛ είναι η µεγάλη υπολογιστική πολυπλοκότητα των tableau αλγόριθµων που χρησιµοποιούνται για την εξαγωγή συµπερασµών. Επίσης, πρέπει να σηµειωθεί ότι η εκφραστικότητα που υποστηρίζει η λογική αυτή ϕαίνεται να είναι ικανοποιητική για τον ορισµό των εννοιών σε ένα πρόβληµα ανάκτησης πολυµέσων. 20

3.4 Εξαγωγή Ορισµών Για να µπορέσει το σύστηµα να αποτιµήσει τον ϐαθµό ύπαρξης µιας έννοιας, πρέπει να του παρέχουµε έναν ορισµό (definition), µια λογική έκφραση δηλαδή, που ορίζει την έννοια από άλλες. Οι ορισµοί αυτοί αντιστοιχούν στα αξιώµατα επαγωγής του σώµατος ορολογίας. Για την εξαγωγή των ορισµών σε ένα τέτοιο σύστηµα µπορούν να χρησιµοποιηθούν διάφοροι τρόποι, από τον απλούστερο που είναι ο ευριστικός ορισµός τους από κάποιον εµπειρογνώµονα του τοµέα µέχρι πλήρως αυτοµατοποιηµένους τρόπους χρησιµοποιώντας υπάρχουσες οντολογίες και άλλα εργαλεία (WordNet κτλ.). Για τον σκοπό της υλοποίησης µιας εφαρµογής µε ένα µεγάλο αριθµό ορισµών διαλέξαµε να εξάγουµε τους ορισµούς από την οντολογία LSCOM µε τον τρόπο που ϑα περιγράψουµε στην ενότητα αυτή. Οπως έχουµε πει, επιτρέπουµε στους ισχυρισµούς να ισχύουν µέχρι κάποιο ϐαθµό, δηλαδή µοντελοποιούµε την αβεβαιότητα στη γνώση µε έναν τρόπο παρόµοιο µε αυτό του [17]. Ετσι, µια οντότητα S i υπάγεται από µια οντότητα C i σε ϐαθµό f i, όπως περιγράφεται στην εξίσωση 3.34. < S i C i, f i > (3.34) Ας ϑεωρήσουµε µια ιεραρχία T από τέτοιες υπαγωγές, σύµφωνα µε την οποία η οντότητα C υπάγει τις οντότητες S 1... S k, δηλαδή < S 1 C, f 1 >, < S 2 C, f 2 >, T = (3.35)..., < S k C, f k > Ο υπολογισµός του ϐαθµού ύπαρξης µ(c) της οντότητας C, που είναι ϐασισµένος στην ύπαρξη των S i, όπως δίνονται από τις ασαφοποιηµένες εξόδους των αντίστοιχων ταξινοµητών µ c (S i ), γίνεται σύµφωνα µε έναν ορισµό τύπου 1 που έχει την ακόλουθη µορφή µ(c) = U i (I(µ c (S i ), f i )) (3.36) όπου τα σύµβολα U και I δηλώνουν τελεστές ασαφούς ένωσης και τοµής αντίστοιχα 1. Ο ϐαθµός ύπαρξης των υπολοίπων οντοτήτων της ιεραρχίας T υπολογίζεται µε ορισµούς τύπου 2 οι οποίοι παίρνουν την ακόλουθη µορφή µ(s i ) = I(µ c (C), I j i (N (I(µ c (S j ), f j )))) (3.37) όπου το σύµβολο N δηλώνει τελεστή ασαφούς άρνησης (negation). 1 Η εξίσωση µπορεί να γραφεί µε αυτή τη µορφή (µε την ένωση να δέχεται πολλαπλές εισόδους) εξαιτίας των ιδιοτήτων της προσεταιριστικότητας και της αντιµεταθετικότητας που ισχύουν για τις ασαφείς νόρµες [10]. 21

Vehicle f Car f Bus f Motor Car Bus Motorcycle Σχήµα 3.1: Ενα παράδειγµα µίας απλής ιεραρχίας. Για να γίνουν πιο κατανοητά τα προηγούµενα, ας ϑεωρήσουµε το παράδειγµα της ιεραρχίας που απεικονίζεται στο σχήµα 3.1 η οποία µπορεί να κωδικοποιηθεί ως < Car V ehicle, f Car >, T = < Bus V ehicle, f Bus >, < Motorcycle V ehicle, f Motor > (3.38) Ενας ορισµός τύπου 1, που υπολογίζεται µε χρήση της εξίσωσης 3.36 υποδηλώνει ότι ϑα υπολογίσουµε το ϐαθµό ύπαρξης της οντότητας Οχηµα ( Vehicle ) σαν τη λογική ένωση των ϐαθµών ύπαρξης των οντοτήτων Άυτοκίνητο ( Car ), Λεωφορείο ( Bus ) και Μοτοσυκλέτα ( Motorcycle ), υποδηλώνοντας ότι ένα Οχηµα µπορεί να είναι Αυτοκίνητο ή Λεωφορείο ή Μοτοσυκλέτα. Από την άλλη πλευρά, µε έναν ορισµό τύπου 2, µπορεί κανείς να υπολογίσει την ύπαρξη της οντότητας Άυτοκίνητο, ορίζοντάς την σαν ένα Οχηµα και όχι Λεωφορείο και όχι Μοτοσυκλέτα, όταν ϕυσικά υπάρχουν αποτελέσµατα για τις αντίστοιχες οντότητες. Ο αναγνώστης µπορεί να έχει παρατηρήσει ότι κατασκευάζοντας κανείς ορισµούς τύπου 2, υπονοεί ένα αξίωµα disjointness, υποθέτει δηλαδή ότι όλα τα αδέλφια στην ιεραρχία είναι ξένες µεταξύ τους έννοιες και η ύπαρξη της µιας αποκλείει την άλλη. Αυτή η υπόθεση µπορεί να µην ισχύει πάντα. Για παράδειγµα µια εικόνα µπορεί να περιέχει ταυτόχρονα περισότερες από µία οντότητες-αδέλφια (όπως µια Μοτοσυκλέτα και ένα Άυτοκίνητο στο παράδειγµά µας). Η υπόθεση αυτή όµως οδηγεί σε εύκολη εξαγωγή ορισµών και ϕαίνεται να λειτουργεί στην πράξη, καθώς δείχνουν τα πειράµατα της ενότητας 5. Οπως αναφέρθηκε προηγουµένως, η µεθοδολογία µας µπορεί να αποδειχθεί χρήσιµη και στην περίπτωση όπου υπάρχει ήδη το αποτέλεσµα ενός εξειδικευµένου ταξινοµητή για την υπό εξέταση οντότητα και ο στόχος είναι η ϐελτίωση της αποδοτικότητας της ανάκτησης. Σε αυτήν την περίπτωση, για να υπολογίσουµε το µ(c) µε ϐάση τις ασαφοποιηµένη έξοδο µ c (C) του αντίστοιχου ταξινοµητή, χρησιµοποιούµε µ c (C) και την εξίσωση 3.36 µε µια διαζευκτική (disjunctive) λογική και ο ορισµός τύπου 1 παίρνει την 22

ακόλουθη µορφή µ(c) = U(I(µ c (C), f C ), U i (I(µ c (S i ), f i ))) (3.39) Εντελώς αντίστοιχα προκύπτει και ο υπολογισµός για τις οντότητες του τύπου 2: µ(s i ) = U(I(µ c (S i ), f i ), I(µ c (C), I j i (N (I(µ c (S j ), f j ))))) (3.40) Οι ορισµοί της µορφής της εξίσωσης 3.34 µπορούν να εξαχθούν από crisp οντολογίες πεδίου, όπως η LSCOM [11] και µε τη χρήση τεχνικών ϐελτιστοποίησης που περιγράφονται στο επόµενο κεφάλαιο, να υπολογιστούν οι ϐαθµοί f i, ασαφοποιώντας την ιεραρχία (δηλαδή κάνοντας τους ισχυρισµούς να ισχύουν µέχρι ενός ϐαθµού) και προσαρµόζοντας την στο υπό εξέταση dataset. 23

Κεφάλαιο 4 Μάθηση 4.1 Εισαγωγή Το σύστηµα το οποίο περιγράφεται στην παρούσα εργασία χρησιµοποιεί εκπαίδευση για την ϐελτιστοποίηση των ϐαρών. Η εκπαίδευση αυτή είναι µία τελείως διαφορετική διαδικασία από αυτήν της εκπαίδευσης των ταξινοµητών, στα αποτελέσµατα των οποίων ϐασίζεται η µεθοδολογία µας. Για να γίνουν, λοιπόν, καλύτερα κατανοητές οι διαφορές τόσο στην διαδικασία όσο και στην πολυπλοκότητα, η παράγραφος 4.2 είναι αφιερωµένη στη συνοπτική περιγραφή της διαδικασίας εκπαίδευσης των clasifier. Στην παράγραφο 4.3 περιγράφεται αναλυτικά η διαδικασία εύρεσης των ϐέλτιστων τιµών για τα ϐάρη. 4.2 Μάθηση µε Επίβλεψη Η µάθηση µε επίβλεψη (supervised learning) είναι µία τεχνική της µηχανικής µάθησης που έχει στόχο την µάθηση µίας συνάρτησης από τα δεδοµένα εκπαίδευσης. Η έξοδος της συνάρτησης στην περίπτωση αυτή προβλέπει την κλάση των αντικειµένων που δέχεται ως είσοδο classification. Επειδή υπάρχουν πολλές διαφοροποιήσεις στις µεθοδολογίες που ακολουθούνται για την εκπαίδευση των classifier ϑα περιγράψουµε την µεθοδολογία που χρησιµοποιήθηκε για την εκπαίδευση των ταξινοµητών του Columbia374. Ο λόγος της περιγραφής αυτής είναι για να γίνει αντιληπτή η µεγάλη υπολογιστική πολυπλοκότητα αυτών των µεθόδων. Τα µοντέλα του Columbia374 εκπαιδεύτηκαν χρησιµοποιώντας τρία visual features: Edged Direction Histogram (EDH) Gabor (GBR) Grid Color Moment (GCM) Τα µοντέλα αυτά υλοποιούνται εκπαιδεύοντας SVM classifiers µεµονωµένα πάνω στο καθένα από τα τρία feature space και παίρνοντας το µέσο όρο από το κάθε µοντέλο. Τα 24

SVM υλοποιούνται µε την ϐιβλιοθήκη LIBSVM. Πρέπει να σηµειωθεί ότι η διαδικασία αυτή της εκπαίδευσης των µοντέλων για 374 concept πήρε 20 µέρες χρησιµοποιώντας 20 µονοεπεξεργαστικά computer 2.6Ghz Pentium 4. Στην συνέχεια περιγράφουµε λίγο πιο αναλυτικά την διαδικασία. ιαλέγοντας τα δείγµατα εκπαίδευσης : Για την εκπαίδευση SVM µοντέλων, είναι σηµαντικό διατηρείται µία ισορροπία µεταξύ του αριθµού των ϑετικών και αρνητικών δειγµάτων. Γενικά, όµως, τα αρνητικά δείγµατα είναι υπερβολικά πιο πολυπληθή από τα ϑετικά. Στην υλοποίηση αυτή χρησιµοποιούνται όλα τα ϑετικά και τυχαία δειγµατοληπτηµένα αρνητικά δείγµατα. Κανονικοποίηση των feature: Τα SVM δίνουν ϐέλτιστα αποτελέσµατα όταν τα feature είναι κατά το δυνατόν, στο ίδιο δυναµικό εύρος, πράγµα που δεν συµβαίνει γενικά µε τα feature που επιλέχθηκαν. Για την αντιµετώπιση αυτού του προβλήµατος, κανονικοποιούνται τα feature χρησιµοποιώντας στατιστική κανονικοποίηση : χρησιµοποιώντας την µέση τιµή των δειγµάτων (µ) και την τυπική απόκλιση (σ) ώστε να προσαρµοστεί η διάσταση του κάθε feature για να έχει µηδενική µέση τιµή και µοναδιαία τυπική απόκλιση. Επιλογή Παραµέτρων : Η αξιοπιστία των εκπαιδευµένων SVM µοντέλων επηρεάζεται σε µεγάλο ϐαθµό από την επιλογή των παραµέτρων του µοντέλου. Στα συγκεκριµένα µοντέλα, που χρησιµοποιούνται RBF πυρήνες, οι ϐασικότερες παράµετροι είναι δύο : C (η παράµετρος κόστους) και γ (το πλάτος της RBF συνάρτησης). Για την εύρεση των ϐέλτιστων τιµών αυτών των παραµέτρων επιστρατεύεται µία grid search µε k-fold cross validation, κατά την οποία εκπαιδεύεται ένα µοντέλο σε µέρος των δειγµάτων εκπαίδευσης και το εκπαιδευµένο µοντέλο δοκιµάζεται στα δείγµατα που δεν επιλέχθηκαν. Η διαδικασία επαναλαµβάνεται 5 ϕορές µε διαφορετικό µέρος των δειγµάτων να χρησιµοποιούνται για την δοκιµή. Από την διαδικασία αυτή, καθορίζονται το ϐέλτιστο σετ παραµέτρων. Τελικά, επανεκπαιδεύται ένα µοντέλο µε αυτές τις παραµέτρους. Detection Scores and Late Fussion: Οπως είπαµε παραπάνω η µέθοδος αυτή εκπαιδεύει ξεχωριστά µοντέλα για κάθε feature, τα οποία πρέπει τελικά να συνδυαστούν σε ένα συγχωνευµένο (fused) σκορ. Η τεχνική αυτή ονοµάζεται late fusion σε αντίθεση µε την early fusion κατά την οποία τα µοντέλα εκπαιδεύονται µε ϐάση τον συνδυασµό όλων των feature σε ένα µεγάλο feature vector. Στην περίπτωση αυτή ο συνδυασµός των σκορ των επιµέρους classifier γίνεται παίρνοντας τον µέσο όρο τους. 25

4.3 Βέλτιστη Προσαρµογή Παραµέτρων Για να ασαφοποιήσουµε τη γνώση πρέπει να υπολογίσουµε τα ϐάρη (τις τιµές των f i ) που παρουσιάστηκαν στην προηγούµενη ενότητα. Αυτό αποτελεί ένα πρόβληµα ϐελτιστοποίησης. Ο υπολογισµός των f i γίνεται σύµφωνα µε το τρέχον dataset µε στόχο τη µεγιστοποιήση του average precision για καθεµιά από τις οριζόµενες οντότητες. Για τις παραµετρικές νόρµες (κλάσεις Dubois-Prade και Yager για παράδειγµα) η τιµή της παραµέτρου υπολογίζεται επίσης µε εκπαίδευση. Καθώς η επιφάνεια ϐελτιστοποίησης ϕαίνεται στην πράξη να περιέχει πολλά τοπικά ελάχιστα, χρησιµοποιούµε ένα γενετικό αλγόριθµο για το σκοπό αυτό. Η fitness function που προσπαθούµε να ελαχιστοποιήσουµε είναι η αριθµητική άρνηση του average precision. Για να ϐελτιώσουµε τις ιδιότητες γενίκευσης των παραγόµενων ϐαρών χρησιµοποιούµε δύο µεθόδους εκπαίδευσης την k-fold cross validation και µια τροποποιηµένη εκδοχή της RankBoost[7]. 4.3.1 k-fold Cross Validation Στη µέθοδο k-fold cross validation το αρχικό σύνολο των δειγµάτων εκπαίδευσης διαµερίζεται σε k υποσύνολα, τα οποία ονοµάζονται folds. Εξαιτίας της ϕύσης των ϐίντεο datasets (αραιά ϑετικά δείγµατα κάθε οντότητας έχουν την τάση να εµφανίζονται κατά ϱιπές) κάνουµε το διαµερισµό του συνόλου εκπαίδευσης σε folds όχι σειριακά αλλά ϕροντίζοντας να ισοδιανείµουµε τα ϑετικά δείγµατα σε όλα τα folds. Ετσι πετυχαίνουµε τη δηµιουργία k folds αντιπροσωπευτικών του συνόλου, αναφορικά µε την πρότερη (prior) πιθανότητα των ϑετικών δειγµάτων της υπό εκπαίδευση οντότητας. Στη συνέχεια καλείται ο γενετικός αλγόριθµος για να υπολογίσει τα ασαφή ϐάρη χρησιµοποιώντας σαν σύνολο εκπαίδευσης όλα τα δείγµατα σε k 1 folds, αφήνοντας ένα εκτός, το οποίο χρησιµοποιείται σαν σύνολο δοκιµής. Αυτή η διαδικασία επαναλαµβάνεται k ϕορές, ώσπου κάθε fold να έχει χρησιµοποιηθεί για δοκιµή µία ϕορά και για εκπαίδευση τις υπόλοιπες k 1. Στο τέλος έχουµε k σύνολα ασαφών ϐαρών καθώς και k τιµές του average precision που προέκυψαν από την απόδοση στο κοµµάτι του fold που χρησιµοποιήθηκε ως σύνολο δοκιµής. Τα σύνολα των ϐαρών στην συνέχεια συνδυάζονται ώστε να προκύψουν τα τελικά ϐέλτιστα ϐάρη. Αυτά αποτελούν τις τιµές των f i οι οποίες στη συνέχεια χρησιµοποιούνται για τη συνάρτηση συµπερασµού. Ο συνδυασµός των ϐαρών γίνεται είτε παίρνοντας τις µέσες τιµές είτε παίρνοντας το weighted average µε τις αντίστοιχες αποδόσεις του average precision. Εφόσον η µέθοδος αυτή αποφεύγει την υπερεκπαίδευση στο σύνολο δοκιµής, τα αποτελέσµατα του average precision που λαµβάνονται µέσω αυτής χρησιµοποιούνται σαν µια µετριοπαθής εκτίµηση για το αναµενόµενο average precision όταν η µέθοδος 26

δοκιµαστεί σε άγνωστα δεδοµένα. Ετσι έχουµε έναν τρόπο για να εκτιµήσουµε την πιθανή ϐελτίωση της απόδοσης και να επιλέξουµε για ποιες οντότητες έχει νόηµα η χρήση της µεθόδου. 4.3.2 RankBoost Το boosting είναι µια τεχνική που χρησιµοποιείται στη µηχανική µάθηση (machine learning) και στοχεύει στο να κατασκευάσει ένα σύνολο από "weak learners" και να τους συνδυάσει έτσι ώστε να αποτελέσουν έναν "strong learner". Η µέθοδος ϐελτιστοποίησης που προτείνεται εδώ είναι µια τροποποιηµένη εκδοχή του αλγορίθµου RankBoost (ϐλ. [19]). Ο αλγόριθµος αυτός, είναι αρχικά σχεδιασµένος για να παράγει µια συγχωνευµένη λίστα κατάταξης από ένα δοσµένο σύνολο αντικειµένων. ιαφέρει από τους υπόλοιπους boosting αλγόριθµους στο ότι ϐελτιστοποιεί άµεσα την απώλεια ταξινόµησης ώστε να ταιριάξει την επιθυµητή ταξινόµηση. Στην περίπτωσή µας, χρησιµοποιούµε τον RankBoost για resampling. Η διαδικασία αυτή του resampling τελικά δηµιουργεί ισορροπηµένα ϑετικά/αρνητικά δείγµατα για κάθε επί µέρους εκπαίδευση. Ο αλγόριθµος τρέχει σε T γύρους, επιλέγοντας κάθε ϕορά τυχαία τα ϑετικά και έναν περίπου ίσο αριθµό από αρνητικά δείγµατα για να κατασκευάσει κάθε ϕορά ένα καινούριο σύνολο εκπαίδευσης για τον επόµενο γύρο. Μια συνάρτηση κατανοµής αρχικοποιείται για να ορίσει (πιθανοτικά) ποια δείγµατα ϑα χρησιµοποιηθούν σε κάθε γύρο. Η συνάρτηση αυτή ενηµερώνεται κάθε ϕορά έτσι ώστε να ενθαρρύνει την επιλογή δειγµάτων τα οποία ήταν λάθος ταξινοµηµένα στους προηγούµενους γύρους. Σε κάθε γύρο ο γενετικός αλγόριθµος καλείται να εκπαιδεύσει τα ϐάρη αναφορικά µε το υποσύνολο των δειγµάτων που επιλέχθηκαν σαν σύνολο εκπαίδευσης. Αυτό σηµαίνει πως η διαδικασία αυτή ϑα επαναληφθεί ακριβώς T ϕορές. Τελικά ο αλγόριθµος αυτός υπολογίζει T σύνολα από ασαφή ϐάρη και ο συµπερασµός inference πραγµατοποιείται χρησιµοποιώντας ένα συνδυασµό τους ο οποίος είναι ο όρος των συντελεστών. 27

Κεφάλαιο 5 Πειράµατα 5.1 Εισαγωγή Για το σκοπό των πειραµάτων χρησιµοποιήθηκε το σύνολο ταξινοµητών Columbia374 [20], το οποίο επίσης περιλαµβάνει το ground truth, τα features και τα αποτελέσµατα των ταξινοµητών πάνω στα datasets του TRECVID. Το dataset αποτελείται από τα 47 videos του συνόλου ανάπτυξης του TRECVID2005 τα οποία δεν είχαν χρησιµοποιηθεί για την εκπαίδευση των ταξινοµητών του Columbia. Αυτά τα videos (που αντιστοιχούν σε 20054 πλάνα) επιµερίστηκαν σε ένα σύνολο εκπαίδευσης (αποτελούµενο από 23 videos) και ένα σύνολο δοκιµής (αποτελούµενο 24 videos) το καθένα από τα οποία είχε περίπου 1 10000 πλάνα. Για να παράγουµε αυτόµατα τους ορισµούς κατασκευάσαµε µια αποκοµµένη έκδοση της LSCOM, η οποία περιλαµβάνει τις 374 οντότητες που µας ενδιαφέρουν, εκµεταλλευτήκαµε την ιεραρχία της. και Από το σύνολο των ορισµών που προέκυψαν, κρατήσαµε αυτούς που αντιστοιχούσαν σε concept που είχαν τουλάχιστον 10 ϑετικά δείγµατα στο σετ εκπαίδευσης και τουλάχιστον 10 ϑετικά δείγµατα στο σετ δοκιµής. Ο αριθµός των ορισµών που πληρούν αυτές τις προυποθέσεις στο συγκεκριµένο dataset είναι 162. Θα πρέπει να σηµειωθεί ότι δεν αναφερόµαστε σε 162 διαφορετικά concept αλλά σε ορισµούς. Κάποια από τα concept εκπαιδεύτηκαν µε παραπάνω από έναν ορισµό 2. Κάναµε δύο τύπους πειραµάτων για να αξιολογήσουµε τη µέθοδό µας. Στο πρώτο πείραµα επιδεικνύουµε πως µπορούν να οριστούν καινούριες οντότητες για τις οποίες δεν υπάρχουν κατάλληλοι ταξινοµητές, ενώ στο δεύτερο προσπαθούµε να ϐελτιώσουµε την ακρίβεια των υπαρχόντων ταξινοµητών, χρησιµοποιώντας τα αποτελέσµατά τους παράλληλα µε τους ορισµούς των οντοτήτων κατασκευάζοντας µιας µορφής query expansion. 1 Για την ακρίβεια το σύνολο εκπαίδευσης αποτελείται από τα πρώτα 10000 πλάνα ενώ το σύνολο δοκιµής από τα υπόλοιπα 10054 2 Συγκεκριµένα εξάγονται 2 ορισµοί (τύπου 1 και τύπου 2) για το κάθε στιγµιότυπο µίας έννοιας µέσα στην ιεραρχία LSCOM 28

Σχήµα 5.1: Πείραµα διεύρυνσης συλλογής οντοτήτων. Οι µπάρες απεικονίζουν το Average Precision που επιτυγχάνεται από τον ταξινοµητή του Columbia, τη δική µας µέθοδο χωρίς τη χρήση ϐαρών (δηλαδή µε τα f i ς ίσα µε 1), και µε τη µέθοδό µας µε χρήση ϐαρών υπολογισµένων µε καθεµιά από τις δύο µεθόδους αντίστοιχα. 5.2 ιεύρυνση Συλλογής Οντοτήτων Το πείραµα αυτό προσοµοιώνει την περίπτωση της επέκτασης ενός λεξιλογίου από οντότητες σε ένα σύστηµα ανάκτησης πολυµέσων, χρησιµοποιώντας γνώση. Η µέθοδος αυτή είναι πλήρως επιδεκτική περαιτέρω διεύρυνσης καθώς καινούριες οντότητες µπορούν να οριστούν αναδροµικά ενώ απαιτεί ελάχιστη υπολογιστική προσπάθεια σε σχέση µε τη χρήση ενός νέου ταξινοµητή, τόσο στη διαδικασία της εκπαίδευσης όσο και της πρόβλεψης. Οι ορισµοί που χρησιµοποιούνται σε αυτό το πείραµα είναι της µορφής των εξισώσεων 3.36 και 3.37. Εχουµε επιλέξει να ορίσουµε οντότητες για τις οποίες ήδη υπάρχουν ταξινοµητές το αποτέλεσµα των οποίων δεν λαµβάνεται υπόψη κατά τη διάρκεια του συµπερασµού. Αντιθέτως, χρησιµοποιήθηκαν τα αποτελέσµατα αυτά και το average precision που πετυχαίνουν σαν µέτρο σύγκρισης. Η εικόνες 5.1 και 5.2 δείχνουν το average precision που επιτυγχάνεται για αρκετές οντότητες. Η επιλογή των τελευταίων έγινε µε ϐάση ένα κατώφλι στα συνολικά ϑετικά δείγµατα (σετ εκπαίδευσης και σετ δοκιµής) ώστε να υπάρχει ένας ικανοποιητικός αριθµός ϑετικών δειγµάτων για να δώσει τα επιθυµητά αποτελέσµατα η εκπαίδευση. Επίσης, παρουσιάζονται αναλυτικά οι επιδόσεις του συνόλου των concept που εκπαιδεύτηκαν στο παράρτηµα Α. Στους πίνακες αυτούς παρουσιάζεται το όνοµα του κάθε concept µαζί µε το νούµερο του ορισµού, το prior 3, και το average precision του ταξινοµητή, του ορισµού 3 Το prior υπολογίζεται από τον αριθµό των δειγµάτων του κάθε concept στο σετ δοκιµής προς όλα τα 29

Σχήµα 5.2: Πείραµα διεύρυνσης συλλογής οντοτήτων. Οι µπάρες απεικονίζουν το Average Precision που επιτυγχάνεται από τον ταξινοµητή του Columbia, τη δική µας µέθοδο χωρίς τη χρήση ϐαρών (δηλαδή µε τα f i ς ίσα µε 1), και µε τη µέθοδό µας µε χρήση ϐαρών υπολογισµένων µε καθεµιά από τις δύο µεθόδους αντίστοιχα. χωρίς ϐάρη,καθώς και µε ϐελτιστοποίηση των ϐαρών µε τους δύο τρόπους εκπαίδευσης. Σχολιάζοντας τιν εικόνες 5.1 και 5.2, η µεθοδολογία µας ϕαίνεται να πετυχαίνει ικανοποιητικά αποτελέσµατα, συνήθως συγκρίσιµα µε αυτά των ειδικά εκπαιδευµένων ταξινοµητών. Σε κάποιες περιπτώσεις µάλιστα (ϐλ. Vehicle1 για παράδειγµα) ξεπερνά τον αντίστοιχο ταξινοµητή. της εκπαίδευσης του τελευταίου. Αυτό είναι πολύ σηµαντικό συνυπολογίζοντας το κόστος Επίσης ϕαίνεται πως σε κάθε περίπτωση η χρήση των ασαφών ϐαρών ϐελτιώνει σηµαντικά την απόδοση του συστήµατος. Ωστόσο, το σύνολο των concept είναι αυτά που έχουν έναν επαρκή αριθµό ϑετικών δειγµάτων. Για να µελετήσουµε συνολικά την συµπεριφορά του συστήµατος ϑα ϑέλαµε να δούµε αν µπορούµε γενικά να προβλέψουµε από την διαδικασία της εκπαίδευσης την απόδοση των εκπαιδευµένων ορισµών σε ένα άγνωστο σετ δοκιµής. Για τον σκοπό αυτό ϑα ορίσουµε το µέγεθος CV _T R/CL_T R = CrossValidation AveragePrecision on training set Classifier AveragePrecision on training set το οποίο δείχνει την ϐελτίωση που είχαµε στο average precision µε το Cross Validation στο σετ εκπαίδευσης σε σχέση µε τον classifier. Αντίστοιχα, ορίζουµε την ϐελτίωση στο σετ δοκιµής δείγµατα του σετ δοκιµής 30

Σχήµα 5.3: set. ιάγραµµα πρόβλεψης της ϐελτίωσης απόδοσης µεταξύ του training set και του test CV _T E/CL_T E = CrossValidation AveragePrecision on test set Classifier AveragePrecision on test set Στην εικόνα 5.3 ϕαίνεται το διάγραµµα που συνδέει αυτές τις δύο ποσότητες. Πιο συγκεκριµένα ϐλέπουµε την µέση ϐελτίωση CV _T E/CL_T E (άξονας y) που πετυχαίνουν όλα τα concept που ϐρίσκονται µέσα σε µικρές περιοχές 4 ϐελτίωσης του CV _T R/CL_T R. Παρατηρούµε, λοιπόν, ότι έχουµε την δυνατότητα να προβλέψουµε από την εκπαίδευση το πόσο καλά ϑα τα πάει η µέθοδος αυτή σε ένα άγνωστο σετ δοκιµής. Φυσικά η µέση απόδοση της µεθόδου είναι λίγο χειρότερη από αυτήν που πετυγχαίνουν οι classifier αλλά αυτό αντισταθµίζεται από το γεγονός ότι η εκπαίδευση ενός classifier έχει πολύ µεγαλύτερη υπολογιστική πολυπλοκότητα από την εκπαίδευση ενός ορισµού. 5.3 Βελτίωση Ταξινοµητών Σε αυτό το πείραµα οι έξοδοι των ταξινοµητών λαµβάνονται υπόψη και οι ορισµοί που κατασκευάζονται αντιστοιχούν σε αυτούς των εξισώσεων 3.39 και 3.40. Ο στόχος εδώ είναι η ϐελτίωση της απόδοσης των ταξινοµητών χρησιµοποιώντας ενός είδους query expansion ϐασισµένο στη γνώση. Το average precision που επιτυγχάνεται σε αυτή την περίπτωση για τις οντότητες της ενότητας 5.2 απεικονίζεται στα σχήµατα 5.4 και 5.5. 4 Το διάστηµα που χρησιµοποιείται είναι το 0.2 και τα διαστήµατα είναι επικαλυπτόµενα. 31

Σχήµα 5.4: Πείραµα ϐελτίωσης ταξινοµητών. Οι µπάρες απεικονίζουν το Average Precision που επιτυγχάνεται από τον ταξινοµητή του Columbia, τη δική µας µέθοδο χωρίς τη χρήση ϐαρών (δηλαδή µε τα f i ς ίσα µε 1), και µε τη µέθοδό µας µε χρήση ϐαρών υπολογισµένων µε καθεµιά από τις δύο µεθόδους αντίστοιχα. Σχήµα 5.5: Πείραµα ϐελτίωσης ταξινοµητών. Οι µπάρες απεικονίζουν το Average Precision που επιτυγχάνεται από τον ταξινοµητή του Columbia, τη δική µας µέθοδο χωρίς τη χρήση ϐαρών (δηλαδή µε τα f i ς ίσα µε 1), και µε τη µέθοδό µας µε χρήση ϐαρών υπολογισµένων µε καθεµιά από τις δύο µεθόδους αντίστοιχα. 32