Αναγνώριση γεγονότων σε δεδομένα βίντεο με χρήση αλγορίθμων Topic Modeling. Διπλωματική εργασία. Πασχαλίδου Δέσποινα Αριθμός Ειδικού Μητρώου: 7376

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Αναγνώριση γεγονότων σε δεδομένα βίντεο με χρήση αλγορίθμων Topic Modeling. Διπλωματική εργασία. Πασχαλίδου Δέσποινα Αριθμός Ειδικού Μητρώου: 7376"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ (ΕΠΥ) Αναγνώριση γεγονότων σε δεδομένα βίντεο με χρήση αλγορίθμων Topic Modeling Διπλωματική εργασία Πασχαλίδου Δέσποινα Αριθμός Ειδικού Μητρώου: 7376 Επιβλέπων: Αναπληρωτής Καθηγητής κ. Ντελόπουλος Αναστάσιος Θεσσαλονίκη, 14 Νοεμβρίου 2015

2

3 Aristotle University of Thessaloniki Department of Electrical and Computer Engineering Information Processing Laboratory Event detection on video data with topic modeling algorithms Despoina Paschalidou Abstract In the current diploma thesis, we apply known topic modeling methods in order to aggregate local features and detect events in video data. We propose two alternative methods, LDA and Euterpi LDA, which accomplish better results compared to other state-of-the-art methods such as Fisher Vectors and Bag of Words. At first, we transform each video in a suitable manner that makes it analogous to a text. Subsequently we apply on every video topic modeling algorithms, in order to represent it as a probability distribution over topics. With this representation we manage to take advantage of higher order statistics, that can be encapsulated in topics. Moreover LDA creates a representation that is low dimensional. We have conducted various experiments with data from two video datasets UCF Sports Action Dataset and UCF11, in order to find out how our approach corresponds to real-life videos. We have tested LDA and Euterpi LDA in combination with various classifiers and different topic numbers.

4 Περίληψη Στα πλαίσια της παρούσας διπλωματικής επιχειρείται η εφαρμογή αλγορίθμων topic modeling με στόχο τον εντοπισμό γεγονότων σε δεδομένα βίντεο. Οι δυο αλγόριθμοι που προτείνουμε είναι το LDA και το Euterpi LDA, οι οποίοι μάλιστα πετυχαίνουν καλύτερα αποτελέσματα σε σχέση με τις υπόλοιπες μεθόδους που χρησιμοποιούνται στη βιβλιογραφία. Αρχικά κάθε βίντεο μετασχηματίζεται με κατάλληλο τρόπο, έτσι ώστε να είναι ανάλογο ενός κειμένου. Στη συνέχεια εφαρμόζουμε σε κάθε βίντεο κατάλληλους αλγορίθμους topic modeling με στόχο να τα περιγράψουμε ως κατανομές πιθανότητας πάνω σε topics. Με αυτό τον τρόπο δημιουργούμε αναπαραστάσεις, οι οποίες ενθυλακώνουν πληροφορία υψηλότερου επιπέδου με αποτέλεσμα να μειώνονται σημαντικά οι διαστάσεις του διανύσματος αναπαράστασης, γεγονός που μας επιτρέπει να τα χρησιμοποιήσουμε σε συνδυασμό με μη γραμμικούς και πιθανοτικούς ταξινομητές. Εκτελέσαμε πειράματα σε δυο συλλογές δεδομένων, στο UCF Sports Action Dataset και στο UCF11 με στόχο να διαπιστώσουμε πόσο καλά ανταποκρίνεται η προτεινόμενη μέθοδος σε πραγματικα προβλήματα. Για τον σκοπό αυτό εξετάσαμε το LDA και το Euterpi LDA σε συνδυασμό με διάφορους ταξινομητές και για διαφορετικά πλήθη topics.

5 Ευχαριστίες Αρχικά θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή μου κ. Αναστάσιο Ντελόπουλο για την εμπιστοσύνη που μου έδειξε αναθέτοντας μου ένα τόσο ενδιαφέρον προς μελέτη θέμα. Χωρίς τις πολύτιμες συμβουλές του, την καθοδήγηση, τις ιδέες καθώς και τις πολύωρες συναντήσεις μας η παρούσα διπλωματική θα ήταν αδύνατο να ολοκληρωθεί με επιτυχία. Επιπλέον θέλω να ευχαριστήσω θερμά τον Dr Χρήστο Δίου για την βοήθειά του, την συμπαράσταση και την ενθάρρυνση που μου παρείχε σε όλη την διάρκεια εκπόνησης της εργασίας. Οι συζητήσεις μας, οι σημαντικές του επισημάνσεις καθώς και το γεγονός ότι ήταν πάντα διαθέσιμος συντέλεσαν καθοριστικά στην περάτωση της διπλωματικής. Θα ήταν παράλειψη να μην ευχαριστήσω τον πτυχιούχο Ηλεκτρολόγο Μηχανικό και Μηχανικό Υπολογιστών φίλο μου Αβρανά Απόστολο, ο οποίος δημιούργησε το φανταστικό LAT E X template, το οποίο χρησιμοποιήθηκε στην εργασία μου. Θα ήθελα να τον ευχαριστήσω διπλά για την υποστήριξη του καθώς και για τη συνεχή του πίεση να ξεκινήσω να γράφω την διπλωματική μου όλους αυτούς τους μήνες. Επίσης ευχαριστώ και όλους τους άλλους φίλους μου, τη Νικολέτα, τη Λίντα, το Βαγγέλη, το Χρήστο και τους υπόλοιπους που με ανέχθηκαν αυτό το διάστημα της πίεσης καθώς και για τα προηγούμενα έξι μοναδικά χρόνια που μοιραστήκαμε μαζί. Ένα ξεχωριστό ευχαριστώ οφείλω στα αδέρφια μου για την αμέριστη συμπαράσταση τους και την ασίγαστη πίστη τους σε εμένα καθώς και στους γονείς μου που πάντα με στήριζαν σε κάθε μου βήμα. Κλείνοντας θα ήθελα να ευχαριστήσω θερμά τον Άγγελο για την συνεργασία μας, την συμπαράσταση και τις συμβουλές του όλους τους μήνες εκπόνησης της διπλωματικής. Χωρίς την πολύτιμη βοήθεια του θα ήταν αδύνατον να έχω βάλει σε τάξη τον χαοτικό τρόπο σκέψης μου.

6

7 Περιεχόμενα 1 Εισαγωγή Διατύπωση του προβλήματος Υπάρχουσες προσεγγίσεις Στόχοι της εργασίας Δομή της εργασίας Βιβλιογραφική επισκόπηση Τοπικά χαρακτηριστικά SIFT - Scale Invariant Feature Transform STIP - Spatio Temporal Interest Points (Harris3D) IDENSE - Improved Dense Trajectories Ολικά χαρακτηριστικά Μοντέλα μετασχηματισμού τοπικών χαρακτηριστικών σε ολικά Bag of Words Fisher Vectors Latent Dirichlet Allocation ως μια μέθοδος αναγνώρισης γεγονότων Probabilistic Topic modeling Latent Dirichlet Allocation Generative διαδικασία του LDA Μέθοδοι υπολογισμού των παραμέτρων του LDA Υπολογισμός παραμέτρων του LDA με EM Υπολογισμός παραμέτρων του LDA με Gibbs Sampling Αναγνώριση γεγονότων σε βίντεο με LDA LDA με πιθανοτικό ταξινομητή Χρήση LDA σε συνθετικά δεδομένα Εισαγωγή χρονικού παράγοντα στο LDA: Εuterpi LDA Γενική περιγραφή της μεθόδου Αναλυτική παρουσίαση της υλοποίησης Μέθοδοι άθροισης κατανομών πάνω στα topics Πειραματικά αποτελέσματα Ανάλυση πειραματικής διάταξης του συστήματος Τοπικά χαρακτηριστικά SIFT - Scale Invariant Feature Transform IDENSE - Improved Dense Trajectories STIP - Spatio Temporal Interest Points Ολικά χαρακτηριστικά BOW - Βag of Words Fisher Vectors Υλοποίηση Latent Dirichlet Allocation (LDA) Ταξινομητές i

8 SVM Bayesian πιθανοτικός ταξινομήτης RBF SVM Μετρικές απόδοσης Πίνακας Σύγχυσης (Confusion matrix) Μέση ακρίβεια (Mean Average precision) Mέση πιστότητα (Mean accuracy) Συλλογές βίντεο UCF Sports Action Dataset UCF11 (UCF Youtube) Πειράματα με LDA LDA με γραμμικό ταξινομητή Πειραματικά δεδομένα από το UCF Sports Action Dataset Πειραματικά δεδομένα από το UCF LDA με πιθανοτικό ταξινομητή Πειραματικά δεδομένα από το UCF Sports Action Dataset Πειραματικά δεδομένα από το UCF LDA με SVM ταξινομητή με RBF Kernel Πειραματικά δεδομένα από το UCF Sports Action Dataset Σύγκριση LDA με τους γραμμικό, πιθανοτικό και μη γραμμικό ταξινομητή Σύγκριση LDA με Fisher Vectors και με Bag of Words Πειράματα με Euterpi LDA Συμπεράσματα - Συνεισφορά 95 ii

9 Κατάλογος σχημάτων 1.1 Τυπική υλοποίηση συστήματος εντοπισμού γεγονότων σε δεδομένα βίντεο Τοπικά χαρακτηριστικά σε εικόνες Σημεία ενδιαφέροντος σύμφωνα με τον SIFT descriptor Υπολογισμός ιστογράμματος προσανατολισμού για τα SIFT σημεία ενδιαφέροντος Βήματα υπολογισμού Bag of Words Probabilistic Graphical Model του LDA Υποκείμενες κατανομές των topics πάνω στις λέξεις στα συνθετικά δεδομένα Τα κείμενα των συνθετικών δεδομένων Η εξέλιξη των κατανομών των topics πάνω στις λέξεις ανά 10 επαναλήψεις Τελικές κατανομές των topics πάνω στις λέξεις, υπολογισμένες με LDA Συγκριτικό accuracy μεταξύ BOW και LDA ανά μια επανάληψη του Gibbs Sampling κατά την εύρεση των παραμέτρων του LDA Η εξέλιξη των κατανομών των topics πάνω στις λέξεις για τις 40 πρώτες επαναλήψεις Τα βήματα διαδικασίας του Euterpi LDA Πλήθος βίντεο ανά κατηγορία στο UCF Sports Actions Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAC κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAP κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset Κανονικοποιημένο confusion matrix για τους βέλτιστους συνδυασμούς των τοπικών χαρακτηριστικών με 10 και 13 topics Συγκριτικές τιμές MAC και MAP για όλους τους συνδυασμούς με διαφορετικό πλήθος topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset Συγκριτικές τιμές MAC για όλους τους βέλτιστους συνδυασμούς για διαφορετικά πλήθη topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset Συγκριτικές τιμές MAP για όλους τους βέλτιστους συνδυασμούς για διαφορετικά πλήθη topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAC κατά τη χρήση LDA με γραμμικό SVMστο UCF11 Dataset iii

10 5.9 Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAP κατά τη χρήση LDA με γραμμικό SVM στο UCF11 Dataset Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAP με 10 topics κατά τη χρήση LDA με γραμμικό SVM στο UCF11 Dataset Συγκριτικές τιμές MAC και MAP για όλους τους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF11 Dataset Κανονικοποιημένο confusion matrix για το καλύτερο και χειρότερο split ως προς τη μετρική MAP Συγκριτικές τιμές MAC για όλους τους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με πιθαντοτικό ταξινομητή στο UCF Sports Action Dataset Συγκριτικές τιμές MAC και MAP για όλους τους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF11 Dataset Κανονικοποιημένο confusion matrix για τον συνδυασμό που πετυχαίνει βέλτιστο MAC με 100 topics κατά τη χρήση LDA με μη γραμμικό SVM στο UCF Sports Action Dataset Συγκριτικές τιμές MAC και MAP για όλους τους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset Συγκριτικές τιμές MAC και MAP για τους βέλτιστους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με διάφορους ταξινόμητες στο UCF Sports Action Dataset Συγκριτικές τιμές MAC για τους βέλτιστους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με διάφορους ταξινόμητες στο UCF11 Dataset Συγκριτικές τιμές MAC και MAP μεταξύ LDA και Bag of Words με χρήση γραμμικού ταξινομητή στο UCF Sports Action Dataset Συγκριτικές τιμές MAC και MAP μεταξύ LDA και Bag of Words με χρήση γραμμικού ταξινομητή στο UCF11 Dataset Συγκριτικές τιμές MAC και MAP μεταξύ LDA, Fisher Vectors και Bag of Words με χρήση γραμμικού ταξινομητή στο UCF Sports Action Dataset Συγκριτικές τιμές των MAP για Fisher Vectors και LDA με γραμμικό και μη γραμμικό ταξινομητή Συγκριτικές τιμές των MAC για Fisher Vectors, Bag of Words και LDA με γραμμικό και Bayesian ταξινομητή Συγκριτικές τιμές MAC και MAP για διαφορετικά πλήθη topics κατά τη χρήση Euterpi LDA με γραμμικό SVM στο UCF Sports Action Dataset Dataset Βέλτιστα αποτελέσματα ως προς MAP, MAC για τις μεθόδους Bag of Words, Fisher Vectors και LDA στο UCF Sports Action Dataset Βέλτιστα αποτελέσματα ως προς MAP, MAC για τις μεθόδους Bag of Words, Fisher Vectors, LDA και Euterpi LDA στο UCF Sports Action Dataset iv

11 Κατάλογος πινάκων 3.1 Συγκριτικά αποτελέσματα ως προς accuracy μεταξύ LDA και BOW με χρήση SVM ταξινομητή Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικά πλήθη topics ως προς MAP και MAC στο UCF Sports Action Dataset Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση γραμμικού ταξινομητή SVM ως προς των αριθμό των topics στο UCF Sports Action Dataset Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF11 Dataset Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση γραμμικού ταξινομητή SVM ως προς των αριθμό των topics στο UCF11 Dataset Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF Sports Action Dataset με χρήση πιθανοτικού ταξινομητή Τιμές των Mean Avearage Precision και Accuracy στα τρία splits για το πείραμα με τον βέλτιστο συνδυασμό τοπικών χαρακτηριστικών ως προς MAP Αναλυτικές τιμές των μετρικών απόδοσης για το καλύτερο και χειρότερο split ως προς τη μετρική MAP Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση πιθανοτικού ταξινομητή ως προς των αριθμό των topics στο UCF Sports Action Dataset Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF11 Dataset με χρήση πιθανοτικού ταξινομητή Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση πιθανοτικού ταξινομητή ως προς των αριθμό των topics στο UCF11 Dataset Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF Sports Action Dataset με χρήση μη γραμμικού ταξινομητή Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση μη γραμμικού ταξινομητή ως προς των αριθμό των topics στο UCF Sports Action Dataset Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για χρήση LDA με διάφορους ταξινομητές Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για LDA και Bag of Words με χρήση SVM ταξινομητή στο UCF Sports Action Dataset Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για LDA και Bag of Words με χρήση SVM ταξινομητή στο UCF11 Dataset v

12 5.16Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για Bag of Words και LDA με γραμμικό και πιθανοτικό ταξινομητή Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για Bag of Words, Fisher Vectors και LDA με γραμμικό ταξινομητή Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP για Fisher Vectors και LDA με γραμμικό και μη γραμμικό ταξινομητή Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAC για Bag of Words, Fisher Vectors και LDA με γραμμικό και πιθανοτικό ταξινομητή Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για Bag of Words και LDA με γραμμικό και πιθανοτικό ταξινομητή Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF Sports Actions Dataset με χρήση του Euterpi LDA Βέλτιστες τιμές MAP και MAC με Euterpi LDA και χρήση γραμμικού ταξινομητή SVM ως προς των αριθμό των topics στο UCF Sports Action Dataset. 94 vi

13 Κατάλογος συμβόλων () i H i-οστή θέση ενός διανύσματος D Το πλήθος των κειμένων σε μια συλλογή κειμένων (corpus) K Το πλήθος των topics V Το πλήθος όλων των διακριτών λέξεων του λεξιλογίου N d Το πλήθος των λέξεων του d-οστού κειμένου θ d H κατανομή του d-οστού κείμενου πάνω στα topics α O Dirichlet prior της Multinomial κατανομής θ d β k H κατανομή του k-οστού topic πάνω στις λέξεις του λεξιλογίου η O Dirichlet prior της Multinomial κατανομής β k w d,n z d,n f ij F i F C j N cj A d Η n-οστή λέξη του d-οστού κειμένου Η τυχαία μεταβλητή που δείχνει το topic που επιλέχθηκε για την λέξη w n για το d-οστό κείμενο Το j-οστό τοπικό χαρακτηριστικό για το i-οστό βίντεο Το σύνολο των τοπικών χαρακτηριστικών για το i-οστό βίντεο Το σύνολο των τοπικών χαρακτηριστικών όλων των βίντεο στο dataset Η j-οστή κλάση που πρέπει να αναγνωριστεί Το πλήθος των κειμένων που ανήκουν στην κλάση C j Διάνυσμα που περιέχει πόσες φορές έχει επιλεχθεί κάθε topic στο κείμενο d vii

14 viii

15 Κεφάλαιο 1 Εισαγωγή Η αναγνώριση γεγονότων σε δεδομένα βίντεο αποτελεί ένα εξαιρετικά ενδιαφέρον αντικείμενο μελέτης στον τομέα της υπολογιστικής όρασης με πληθώρα εφαρμογών σε συστήματα παρακολούθησης, αναζήτησης πληροφορίας κ.α. Η χρησιμότητα συστημάτων αναγνώρισης συμβάντων συγκεκριμένου περιεχομένου γίνεται κατανοητή αρκεί να σκεφτεί κανείς ότι η επισκεψιμότητα της ιστοσελίδας Youtube ανέρχεται στα 4 δισεκατομμύρια ημερησίως, ενώ συγχρόνως κάθε ένα δευτερόλεπτο ανεβαίνει online τουλάχιστον μια ώρα βίντεο. Ο τεράστιος αριθμός βίντεο, στα οποία έχουμε πρόσβαση καθημερινά καθιστά επιτακτική την ανάγκη δημιουργίας ενός συστήματος ικανού να τα αναγνωρίζει και να τα διαχωρίζει με ακρίβεια σύμφωνα με το περιεχόμενο τους. 1.1 Διατύπωση του προβλήματος Στόχος της αναγνώρισης γεγονότων (event detection) σε βίντεο σύμφωνα με τους Ke et al. [23] είναι ο εντοπισμός συγκεκριμένων χωρο-χρονικών μοτίβων, όπως για παράδειγμα, ένας άνθρωπος που κουνάει το χέρι του ή κάποιος άλλος που σηκώνει το ακουστικό για να πάρει τηλέφωνο. Το πρόβλημα του εντοπισμού συγκεκριμένων γεγονότων παρουσιάζει πολλές ομοιότητες τόσο με το πρόβλημα της αναγνώρισης αντικειμένων (object recognition) όσο και με το πρόβλημα της αναγνώρισης δράσεων από ανθρώπους (human action recognition), καθώς το μοτίβο που επιθυμούμε να αποκαλύψουμε μπορεί να βρίσκεται σε οποιαδήποτε θέση όσον αφορά τόσο τη χωρική όσο και τη χρονική κλίμακα. Η αναγνώριση γεγονότων περιπλέκεται σημαντικά όταν εφαρμόζεται σε πραγμα- 1

16 ΥΠΑΡΧΟΥΣΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ τικά δεδομένα, στα οποία δεν μπορεί να εξαλειφθεί πλήρως πιθανή κίνηση της κάμερας ή ενδεχόμενες έντονες αλλαγές τόσο στο φόντο όσο και στη φωτεινότητα της σκηνής. Είναι πολύ σημαντικό σε αυτό το σημείο να διαχωρίσουμε το πρόβλημα της αναγνώρισης γεγονότων (event detection) από το πρόβλημα της αναγνώρισης δράσεων από ανθρώπους (human action recogntion). Πάρα τις ομοιότητες που αυτά παρουσιάζουν είναι πολύ σημαντικό να κατανοήσουμε ότι το πρώτο αποτελεί υπερσύνολο του δεύτερου, καθώς στην περίπτωση του δεύτερου προβλήματος οι δράσεις που μελετάμε είναι μικρής διάρκειας δραστηριότητες, οι οποίες είναι κατά κύριο λόγο προσανατολισμένες σε πολύ συγκεκριμένες κινήσεις του σώματος, όπως είναι για παράδειγμα ο βηματισμός ενός ανθρώπου. Ένα γεγονός (event) ορίζεται ως μια σύνθετη δραστηριότητα, η οποία διαδραματίζεται σε ορισμένο χώρο και χρόνο και εμπλέκει άτομα τα οποία αλληλεπιδρούν είτε μεταξύ τους είτε με άλλα αντικείμενα της σκηνής [32]. Σε γενικές γραμμές ένα γεγονός αποτελείται από έναν αριθμό από ανθρώπινες δράσεις, διαδικασίες και δραστηριότητες, οι οποίες είναι αυστηρά ή όχι οργανωμένες και περιέχουν χρονική και σημασιολογική πληροφορία σε σχέση με κάποια κεντρική δράση. Με βάση κάποια συγκεκριμένα γεγονότα το πρόβλημα του εντοπισμού εκφυλίζεται σε ένα ισοδύναμο, στο οποίο θέλουμε να εντοπίσουμε κατά πόσο αυτά τα γεγονότα υπάρχουν στο βίντεο μας. Σε σχέση με παραδοσιακά προβλήματα concept analysis [30, 40, 41] το πρόβλημα της αναγνώρισης γεγονότων είναι αρκετά πιο δύσκολο εξαιτίας των δυναμικών του χαρακτηριστικών και του σημασιολογικού του πλουραλισμού. Ένα παράδειγμα που καταδεικνύει τις διαφορές των δυο προβλημάτων είναι το γεγονός ψήνω κουλουράκια, το οποίο αποτελείται από τις έννοιες κουλουράκια, άνθρωποι, κουζίνα σε συνδυασμό με τη δραστηριότητα ψήνω. Συνοψίζοντας, επομένως, στόχος της παρούσας διπλωματικής είναι η δημιουργία ενός αυτόνομου συστήματος, το οποίο αξιοποιώντας χρονικές και χωρικές πληροφορίες θα είναι ικανό να αναγνωρίσει την ύπαρξη ή όχι ενός γεγονότος σε μια αλληλουχία από διαδοχικά καρέ. 1.2 Υπάρχουσες προσεγγίσεις Μια παραδοσιακή προσέγγιση, ευρέως χρησιμοποιούμενη σε προβλήματα εντοπισμού γεγονότων είναι η μεμονωμένη παρακολούθηση των ατόμων που εμπλέκονται στις διάφορες δραστηριότητες. Η παραπάνω προσέγγιση επικεντρώνεται δηλαδή, στη μελέτη

17 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ 3 των δράσεων των ατόμων, τα οποία μετέχουν στη δραστηριότητα που θέλουμε να αναγνωρίσουμε. Συγκεκριμένα αρχικά τα απομονώνει από τον περιβάλλοντα χώρο και στη συνέχεια τα ανιχνεύει και τα παρακολουθεί σε όλη τη διάρκεια εξέλιξης του γεγονότος [11, 20, 21]. Ωστόσο τέτοιου είδους προσεγγίσεις βασίζονται εξολοκλήρου στο αποτέλεσμα του ανιχνευτή (tracker), ο οποίος ενδέχεται να είναι αναξιόπιστος. Η state-of-the-art προσέγγιση που έχει αναπτυχθεί κυρίως τα τελευταία χρόνια θεωρεί ότι το πρόβλημα της αναγνώρισης γεγονότων μπορεί να διαιρεθεί σε τρία βασικά υποπροβλήματα [43]. Αντικείμενο του πρώτου υποπροβλήματος αποτελεί η εξαγωγή ενός πλήρους συνόλου από τοπικά χαρακτηριστικά (local features), τα οποία έχουν υπολογιστεί απευθείας από τα δεδομένα του video. Η εξαγωγή τοπικών χαρακτηριστικών αποτελεί μια εξαιρετικά χρονοβόρα και υπολογιστικά κοστοβόρα διαδικασία, η οποία εξαρτάται άμεσα από το πλήθος και το μέγεθος των βίντεο που έχουμε στη διάθεση μας. Βασική επιδίωξη του δεύτερου υποπροβλήματος, εν συνεχεία, είναι η εύρεση κατάλληλης αναπαράστασης, ικανής να ενθυλακώσει όλη τη χρήσιμη πληροφορία των τοπικών χαρακτηριστικών σχετικά με το υπό μελέτη γεγονός. Ουσιαστικά δηλαδή στο συγκεκριμένο πρόβλημα αναζητούνται κατάλληλες συναρτήσεις είτε κβάντισης είτε άθροισης τοπικών χαρακτηριστικών. Τέλος στο τελευταίο υποπρόβλημα πραγματοποιείται ταξινόμηση των βίντεο σύμφωνα με τις αναπαραστάσεις που προέκυψαν στο δεύτερο. Στην εικόνα που ακολουθεί συνοψίζονται τα τρία στοιχειώδη υποπροβλήματα που προαναφέρθηκαν. Σχήμα 1.1: Τυπική υλοποίηση συστήματος εντοπισμού γεγονότων σε δεδομένα βίντεο. Μια ενδεικτική state-of-the-art επίλυση του υπό μελέτη προβλήματος προτείνεται στο [43]. Συγκεκριμένα δημιουργείται ένα ενοποιημένο σύστημα εντοπισμού γεγονότων, το οποίο χωρίζεται σε τέσσερα βασικά υποσυστήματα. Στα δυο πρώτα εξάγονται από το βίντεο οπτικά και ηχητικά χαρακτηριστικά καθώς επίσης και χαρακτηριστικά κειμένου, τα οποία στη συνέχεια αναπαριστώνται με Fisher Vectors [24], Bag of Words [10] και GMM [6] μοντέλα. Στη συνέχεια εκπαιδεύονται κατάλληλοι ταξινομητές οι οποίοι εν τέλει λαμβάνουν απόφαση για την ύπαρξη ή όχι ενός γεγονότος σε ένα βίντεο. Σε αυτό

18 ΣΤΟΧΟΙ ΤΗΣ ΕΡΓΑΣΙΑΣ το σημείο κρίνεται σκόπιμο να υπογραμμιστούν τα δυο βασικά μειονεκτήματα των τοπικών χαρακτηριστικών που χρησιμοποιούνται στις state-of-the-art προσεγγίσεις. Το πρώτο σχετίζεται με την αδυναμία τους να παρέχουν σημασιολογική ερμηνεία σχετικά με το γεγονός που περιγράφουν, ενώ το δεύτερο αφορά την ανάγκη ύπαρξης πολλών δεδομένων για την αποτελεσματική εκπαίδευση του εκάστοτε ταξινομητή εξαιτίας των πολλών διαστάσεων, που συνήθως έχουν [17]. Ωστόσο παρά τα προαναφερθέντα μειονεκτήματα των τοπικών χαρακτηριστικών η state-of-the-art προσέγγιση σημειώνει πολύ καλά αποτελέσματα. Με δεδομένα τα δυο μειονεκτήματα που αναφέραμε παραπάνω τα τελευταία χρόνια γίνεται προσπάθεια να προσδοθεί σημασιολογική πληροφορία στα τοπικά και ολικά χαρακτηριστικά που χρησιμοποιούνται. Δυο αξιόλογες προτάσεις σε αυτή την κατεύθυνση αποτελούν η υλοποίηση του Yang et al [22] και το VideoStory [17]. 1.3 Στόχοι της εργασίας Η state-of-the-art προσέγγιση για την επίλυση του προβλήματος του εντοπισμού γεγονότων σε δεδομένα βίντεο, παρουσιάζει ορισμένα μειονεκτήματα εξαιτίας της φύσης των τοπικών χαρακτηριστικών, τα οποία δεν είναι ικανά να αναπαραστήσουν σημασιολογική πληροφορία σχετικά με το γεγονός που θέλουμε να αναγνωρίσουμε. Για το σκοπό αυτό στα πλαίσια της παρούσας διπλωματικής θα επιχειρηθεί η δημιουργία εναλλακτικών προσεγγίσεων για την επίλυση του εν λόγω προβλήματος, οι οποίες θα χρησιμοποιούν χαρακτηριστικά με σημασιολογική πληροφορία. Με την έννοια σημασιολογική πληροφορία, εννοούμε συνήθως πληροφορία υψηλότερου επιπέδου, η οποία μπορεί να σχετίζεται είτε με το κεντρικό θέμα είτε με τη δομή κάποιας δραστηριότητας. Ένα γεγονός μπορεί να θεωρηθεί ως ένα σύνολο από διαδοχικά micro events, τα οποία συνθέτουν την κεντρική δραστηριότητα που μας ενδιαφέρει να αναγνωρίσουμε. Στα πλαίσια της παρούσας διπλωματικής θα επιχειρήσουμε να εντοπίσουμε πληροφορία που αναπαριστάται είτε σε μεμονωμένα είτε σε συνδυασμούς από micro events. Ένα κείμενο παρουσιάζει δομικές ομοιότητες με ένα βίντεο, καθώς και τα δύο αποτελούνται από μια αλληλουχία από διαδοχικές στοιχειώδεις οντότητες. Με δεδομένες επομένως αυτές τις δομικές τους ομοιότητες θα επιχειρήσουμε να χρησιμοποιήσουμε αλγορίθμους topic modeling, οι οποίοι εφαρμόζονται με επιτυχία στο πεδίο της επεξεργασίας φυσικής γλώσσας (NLP), απευθείας σε δεδομένα βίντεο. Με τη χρήση αλγορίθ-

19 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ 5 μων topic modeling σε βίντεο επιθυμούμε να βρούμε μια αναπαράσταση υψηλότερου επιπέδου, η οποία θα μπορεί να περιγράψει ικανοποιητικά τα διάφορα micro events από τα οποία αποτελείται ένα γεγονός. Επιπρόσθετα ελπίζουμε ότι αξιοποιώντας πληροφορία υψηλότερου επίπεδου θα μειωθεί σημαντικά το μέγεθος της αναπαράστασης του κάθε βίντεο. 1.4 Δομή της εργασίας Στα κεφάλαια που ακολουθούν παρουσιάζονται αναλυτικά οι προτεινόμενες μέθοδοι καθώς και τα πειραματικά δεδομένα που προέκυψαν από την εφαρμογή τους σε μεγάλες συλλογές βίντεο. Στο δεύτερο κεφάλαιο παρουσιάζονται οι βασικές έννοιες που θα χρησιμοποιηθούν στην πορεία της διπλωματικής. Συγκεκριμένα παρουσιάζονται τα προτεινόμενα στη βιβλιογραφία τοπικά χαρακτηριστικά για δεδομένα βίντεο, καθώς επίσης και διάφοροι αλγόριθμοι μετασχηματισμού των τοπικών χαρακτηριστικών σε ολικά. Στο τρίτο κεφάλαιο αναλύονται η κατηγορία αλγορίθμων topic modeling, που χρησιμοποιείται ευρέως στην περίπτωση των κειμένων. Ακολουθεί εκτενής ανάλυση του βασικού αλγορίθμου με τον οποίο πειραματιστήκαμε, καθώς επίσης και των τροποποιήσεων που έγιναν έτσι ώστε να είναι συμβατός με τα δεδομένα βίντεο. Συγκεκριμένα ο αλγόριθμος που χρησιμοποιείται είναι ο Latent Dirichlet Allocation (LDA) [3]. Στο τέταρτο κεφάλαιο εισάγεται μια παραλλαγή του LDA, η οποία αξιοποιεί τη χρονική δομή του βίντεο, το Euterpi LDA. To Euterpi LDA δημιουργήθηκε στα πλαίσια της παρούσας διπλωματικής, ως ένας εναλλακτικός αλγόριθμος topic modeling κυρίως για βίντεο μεγαλύτερης διάρκειας. Στο πέμπτο κεφάλαιο παρουσιάζεται το σύνολο των πειραμάτων που εκπονήθηκαν και με τις δυο συλλογές δεδομένων που έχουν επιλεχθεί. Στην αρχή του κεφαλαίου αναλύεται η πειραματική διάταξη της εργασίας και ακολουθούν όλα τα πειραματικά δεδομένα που συγκεντρώθηκαν. Κλείνοντας, στο έκτο κεφάλαιο συνοψίζονται τα πλεονεκτήματα της προτεινόμενης μεθόδου καθώς επίσης και πιθανές μελλοντικές προεκτάσεις που βασίζονται στην παρούσα διπλωματική.

20 Κεφάλαιο 2 Βιβλιογραφική επισκόπηση Στο παρόν κεφάλαιο θα αναλυθούν τόσο τα τοπικά χαρακτηριστικά (local features) όσο και τα ολικά χαρακτηριστικά (global features) που χρησιμοποιούνται ευρέως σε δεδομένα βίντεο και εικόνων. Σε αυτό το σημείο κρίνεται σκόπιμο να υπογραμμιστεί το γεγονός, ότι το σύνολο των χαρακτηριστικών που επεξηγούνται, χρησιμοποιούνται στο προτεινόμενο σύστημα, το οποίο και αναλύεται σε αντίστοιχο κεφάλαιο στη συνέχεια. Ένα βίντεο μπορεί να αντιμετωπιστεί είτε ως ένα ενιαίο σύνολο είτε ως ένα σύνολο από διαδοχικές εικόνες κάθε μια από τις οποίες είναι ανεξάρτητη από τις προηγούμενες. Στη σύγχρονη βιβλιογραφία υπάρχουν πολλά χαρακτηριστικά τα οποία αξιοποιούν τη χρονική πληροφορία του βίντεο όπως για παράδειγμα τα Improved Dense Trajectories [47], τα οποία αναλύονται εκτενώς στη συνέχεια. Από την άλλη, δεν είναι λίγες οι φορές που προτείνεται η εξαγωγή παραδοσιακά χρησιμοποιούμενων χαρακτηριστικών για εικόνες από τα διαδοχικά καρέ ενός βίντεο όπως για παράδειγμα τα SIFT [29]. 2.1 Τοπικά χαρακτηριστικά Ως τοπικά χαρακτηριστικά ορίζονται όλα εκείνα τα χαρακτηριστικά, τα οποία περιέχουν πληροφορίες σχετικά με τη δομή, την υφή και την εμφάνιση της πολυμεσικής οντότητας. Στην περίπτωση των εικόνων συνήθως σχετίζονται με κάποια ιδιότητα αυτής, όπως για παράδειγμα το χρώμα, οι ακμές ή οι γωνίες. Ουσιαστικά δηλαδή κωδικοποιούν τη δομή της πολυμεσικής οντότητας σε χωρικές γειτονιές, αν πρόκειται για εικόνες, ή 6

21 ΚΕΦΑΛΑΙΟ 2. ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ 7 χωρο-χρονικές αν πρόκειται για βίντεο, με ένα σύνολο από χαρακτηριστικά επιλεγμένα σε συγκεκριμένες κατευθύνσεις και κλίμακες. Η εξαγωγή τοπικών χαρακτηριστικών συνοψίζεται σε δυο στάδια, στην εύρεση σημείων ενδιαφέροντος σε περιοχές της πολυμεσικής οντότητας και στην έκφραση ενός κατάλληλου διανύσματος το οποίο περιγράφει ικανοποιητικά κάθε τέτοιο σημείο. Ένα τοπικό χαρακτηριστικό θεωρείται καλό όταν δεν είναι ευαίσθητο σε θόρυβο και σε αλλαγές της οπτικής γωνίας. Είναι δεδομένο ότι θέλουμε να είμαστε σε θέση να αναγνωρίσουμε το ίδιο σημείο ενδιαφέροντος ανεξαρτήτως οπτικής γωνίας, από την οποία το κοιτάμε. Γι αυτό άλλωστε τα τοπικά χαρακτηριστικά που βασίζονται σε παραγώγους παρουσιάζουν τα καλύτερα αποτελέσματα. Μερικές από τις ιδιότητες που συνθέτουν ένα καλό τοπικό χαρακτηριστικό είναι η ανθεκτικότητα τους σε εναλλαγές της φωτεινότητας καθώς επίσης και σε μεταβολές αναφορικά με κλίμακα, μεταφορά και περιστροφή. Ένα σημαντικό μειονέκτημα των τοπικών χαρακτηριστικών αποτελεί η αδυναμία τους να περιγράψουν κάποια σημασιολογική πληροφορία. Για παράδειγμα ένας ανιχνευτής ακμών (edge detector) παρότι είναι σε θέση να εντοπίσει την ακριβή θέση κάποιας ακμής σε μια εικόνα δεν μπορεί αποφανθεί για το κατά πόσο η συγκεκριμένη ακμή έχει προέλθει από ένα πρόσωπο ή από ένα τετράγωνο κουτί. Επιπλέον σε προβλήματα ταξινόμησης η χρήση τοπικών χαρακτηριστικών απαιτεί πολλά μεμονωμένα δείγματα τους, καθώς περιγράφουν τοπική πληροφορία. Αυτό έχει σαν αποτέλεσμα τη σημαντική αύξηση του υπολογιστικού κόστους της παραπάνω διαδικασίας. Όπως αναφέραμε παραπάνω, τα τοπικά χαρακτηριστικά υπολογίζονται σε δύο βασικά βήματα. Ο εντοπισμός σημείων ενδιαφέροντος, ο οποίος αποτελεί και το πρώτο βήμα, αναφέρεται σε μεθόδους που εντοπίζουν τις πληροφορίες σχετικά με την πολυμεσικη οντότητα, για αυτό άλλωστε και αναφέρονται ως detectors. Στο δεύτερο βήμα από την άλλη επιχειρείται να βρεθεί μια αντιπροσωπευτική αναπαράσταση για κάθε σημείο ενδιαφέροντος, η οποία εκτός των άλλων καθιστά εφικτή και τη μεταξύ τους σύγκριση. Συνήθως η συγκεκριμένη αναπαράσταση υπολογίζεται σε κάποια δεδομένη κλίμακα και κατεύθυνση. Οι μεθοδολογίες που υλοποιούν το δεύτερο βήμα του αλγορίθμου αναφέρονται ως descriptors. Στην εικόνα 2.1 παρατίθενται δυο από τα πλέον διαδεδομένα τοπικά χαρακτηριστικά για την περίπτωση εικόνων, τα οποία είναι γωνίες και ακμές, όπως αυτά έχουν εντοπιστεί από τους αλγορίθμους Shi-Tomashi [39] και Canny [7] αντίστοιχα.

22 ΤΟΠΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ Σχήμα 2.1: Τοπικά χαρακτηριστικά σε εικόνες SIFT - Scale Invariant Feature Transform Ένας από τους πλέον διαδεδομένους αλγορίθμους στο πεδίο της υπολογιστική όρασης είναι ο SIFT [29], o οποίος μας επιτρέπει να εντοπίζουμε σημεία ενδιαφέροντος σε μια εικόνα τα οποία είναι ανθεκτικά σε αλλαγές αναφορικά με κλίμακα και περιστροφή. Η εξαγωγή και η περιγραφή SIFT τοπικών χαρακτηριστικών συνοψίζεται σε τέσσερα βασικά βήματα. Στο πρώτο βήμα ψάχνουμε σε διαφορετικές θέσεις και κλίμακες της εικόνας για ακρότατα της συνάρτησης DoG (Difference of Gaussians) D(x, y, σ), με στόχο να εντοπίσουμε σημεία ενδιαφέροντος, τα οποία είναι ανθεκτικά σε αλλαγές περιστροφής και κλίμακας. Σύμφωνα με τον Witkin [49] ο εντοπισμός περιοχών της εικόνας, οι οποίες είναι ανθεκτικές σε μεταβολές της κλίμακας επιτυγχάνεται ψάχνοντας για σταθερά χαρακτηριστικά σε όλες τις πιθανές κλίμακες χρησιμοποιώντας μια συνεχή συνάρτηση κλίμακας (scale space). Όπως αποδείχθηκε αργότερα ο μόνος τέτοιος πυρήνας, ο οποίος θα μπορούσε να χρησιμοποιηθεί σε συνέλιξη με την αρχική εικόνα για τη δημιουργία της εν λόγω συνάρτησης

23 ΚΕΦΑΛΑΙΟ 2. ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ 9 είναι η Gaussian G(x, y, σ). G(x, y, σ) = 1 2πσ 2 e (x 2 +y 2 ) 2σ 2 (2-1) Αν θεωρήσουμε μια εικόνα I(x, y) και k έναν σταθερό πολλαπλασιαστικό παράγοντα τότε η συνάρτηση DoG (Difference of Gaussians) προκύπτει από τη σχέση 2-2 D(x, y, σ) = (G(x, y, kσ) G(x, y, σ)) I(x, y) (2-2) Στο επόμενο βήμα φιλτράρονται όλα τα ακρότατα που έχουν βρεθεί αρχικά, έτσι ώστε να διαπιστωθεί κατά πόσο αντιπροσωπεύουν όντως σημεία ενδιαφέροντος. Σε μια πρώτη προσέγγιση που επιχειρήθηκε από τον Lowe [28] η συνάρτηση D(x, y, σ) αναπτύσσεται σε σειρά Taylor και οι θέσεις μηδενισμού της σειράς αποτελούν τις θέσεις των πραγματικών ακρότατων. Με αυτό τον τρόπο απορρίπτονται ασταθή σημεία χαμηλής αντίθεσης. Τέλος εισάγονται επιπλέον φίλτρα έτσι ώστε να εξασφαλιστεί ότι έχουν εντοπιστεί τα πραγματικά σημεία ενδιαφέροντος. Στην εικόνα 2.2 απεικονίζονται τα διάφορα σημεία ενδιαφέροντος όπως προκύπτουν σύμφωνα με τα δυο προαναφερθέντα βήματα. Σχήμα 2.2: Σημεία ενδιαφέροντος σύμφωνα με τον SIFT descriptor Στο τρίτο βήμα εκχωρείται σε κάθε σημείο ενδιαφέροντος ένας σταθερός προσανατολισμός, ο οποίος βασίζεται στις τοπικές ιδιότητες της εικόνας. Με αυτό τον τρόπο κάθε σημείο ενδιαφέροντος μπορεί πλέον να αναπαρασταθεί σχετικά με αυτόν τον προσανατολισμό επιτυγχάνοντας έτσι ανθεκτικότητα σε περιστροφικές αλλαγές της εικόνας.

24 ΤΟΠΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ Τέλος για κάθε σημείο ενδιαφέροντος δημιουργείται ένα ιστόγραμμα προσανατολισμού (Histogram of Oriented Gradients (HOG)) από τις κατευθύνσεις των παραγώγων σε μια περιοχή γύρω από αυτό. Κάθε ιστόγραμμα προσανατολισμού που προκύπτει έχει 36 στάθμες, οι οποίες καλύπτουν και τις 360 μοίρες του εύρους προσανατολισμού. Συγκεκριμένα για κάθε σημείο ενδιαφέροντος υπολογίζονται οι κατευθύνσεις των παραγώγων σε παράθυρα 4 4 γύρω από αυτό και δημιουργείται για κάθε ένα παράθυρό ιστόγραμμα 8 στάθμεων. Κατά συνέπεια ο SIFT descriptor έχει διαστάσεις = 128. Στην εικόνα 2.3 απεικονίζεται ο υπολογισμός του ιστογράμματος προσανατολισμού (HOG) για κάθε σημείο ενδιαφέροντος, όπως αναλύθηκε παραπάνω. Σχήμα 2.3: Υπολογισμός ιστογράμματος προσανατολισμού για τα SIFT σημεία ενδιαφέροντος STIP - Spatio Temporal Interest Points (Harris3D) O Laptev [25] πρότεινε έναν νέο αλγόριθμο υπολογισμού τοπικών χαρακτηριστικών σε δεδομένα βίντεο και τα τοπικά χαρακτηριστικά που εξάγονταν βάση αυτού ονομάστηκαν Space Time Interest Points (STIP). Τα συγκεκριμένα τοπικά χαρακτηριστικά εντοπίζονται από σημεία ενδιαφέροντος στο χωρο-χρονικό πεδίο σε αντίθεση με τα SIFT. Η υλοποίηση των STIP βασίστηκε στο γνωστό αλγόριθμο εντοπισμού γωνιών Harris detector [18]. Η βασική ιδέα του Harris detector [18] συνοψίζεται στο γεγονός ότι σε μια γωνία η ένταση της φωτεινότητας της εικόνας αλλάζει έντονα προς όλες τις κατευθύνσεις. Για να εντοπιστούν τέτοιου είδους σημεία, συνήθως χρησιμοποιείται ένα παράθυρο,

25 ΚΕΦΑΛΑΙΟ 2. ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ 11 το οποίο ολισθαίνει προς τυχαίες κατευθύνσεις, ενώ συγχρόνως αναζητούνται αλλαγές στη φωτεινότητα λόγω αυτών των μετατοπίσεων. Τα τοπικά χαρακτηριστικά που προκύπτουν σύμφωνα με τον αλγόριθμο Harris detector είναι ανθεκτικά σε αλλαγές αναφορικά με μετατόπιση, περιστροφή αλλά όχι κλίμακα. Ο εντοπισμός των STIP τοπικών χαρακτηριστικών βασίζεται στην ίδια αρχή λειτουργία με αυτή του Harris detector, ότι δηλαδή σε περιοχές που υπάρχουν γωνίες παρατηρούνται έντονες αλλαγές στη φωτεινότητα προς όλες τις κατευθύνσεις. Συγκεκριμένα στην περίπτωση των STIP τοπικών χαρακτηριστικών εντοπίζονται περιοχές με έντονες μεταβολές της φωτεινότητας και προς τις τρεις κατευθύνσεις (x, y, t). Οι περιοχές αυτές υπολογίζονται από τα τοπικά μέγιστα μιας συνάρτησης γωνιότητας, η οποία υπολογίζεται για όλα τα εικονοστοιχεία γύρω από χωρικές και χρονικές κλίμακες. Όπως γίνεται σαφές σύμφωνα με τα παραπάνω, τα STIP σημεία ενδιαφέροντος είναι πιθανόν να υπάρχουν σε περιοχές της εικόνας που παρουσιάζουν μεγάλες διακυμάνσεις τόσο στη χωρική όσο και στη χρονική κατεύθυνση. Ένα βίντεο μοντελοποιείται σύμφωνα με τη συνάρτηση f : R 2 R R, ενώ συγχρόνως εκφράζεται σε διαφορετικές χρονικές τ 2 l και χωρικές σ 2 l με ένα Gaussian φίλτρο g(x, y, t; σ 2 l, τ 2 l ) = e (x κλίμακες από τη σχέση 2-3, η οποία ορίζεται ως η συνέλιξη 2 +y 2 ) 2σ 2 l t2 2τ 2 l (2π)3 σ 4 l τ 2 l. L(:, σl 2, τ l 2 ) = g(:, σ2 l, τ l 2 ) f(:) (2-3) Η ολίσθηση επομένως του παραθύρου πάνω στο βίντεο υλοποιείται μέσω της συνέλιξης του Gaussian φίλτρου g(x, y, t; σi 2, τ i 2) με τον Εσσιανό πίνακα της L(:, σ2 l, τ l 2 ), σύμφωνα με τη σχέση 2-4 L 2 µ = g(:, σi 2, τ i 2 x L x L y L x L t ) L x L y L 2 y L y L t (2-4) L x L t L y L t L 2 t Όπως προαναφέρθηκε οι θέσεις των STIP δίνονται από τα τοπικά μέγιστα μιας συνάρτησης γωνιότητας η οποία δίνεται από τη σχέση 2-5. H = det(µ) k trace(µ) 3 (2-5) Σε αυτό το σημείο κρίνουμε σκόπιμο να αναφέρουμε ότι τα τοπικά χαρακτηριστικά που προκύπτουν από τον παραπάνω αλγόριθμο είναι συνήθως πολύ αραιά καθώς είναι δύ-

26 ΤΟΠΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ σκολο να βρεθούν χωρο-χρονικές γωνίες. Όπως και στην περίπτωση των SIFT έτσι και για τα STIP οι δυο descriptors που χρησιμοποιούνται για να τα περιγράψουν είναι και πάλι ιστογράμματα. Και εδώ χρησιμοποιείται για κάθε σημείο ενδιαφέροντος ένα ιστόγραμμα προσανατολισμού (Histogram of Oriented Gradients (HOG), ο υπολογισμός του οποίου αναλύθηκε εκτενώς στην προηγούμενη ενότητα. Επιπλέον ο δεύτερος descriptor που χρησιμοποιείται για να περιγράψει κάθε σημείο ενδιαφέροντος είναι τα ιστογράμματα optical flow (Histogram of Optical Flow (HOF)). Αξίζει να αναφέρουμε ότι o όρος optical flow [19] χρησιμοποιείται για να περιγράψει ένα μοτίβο κίνησης διαφόρων αντικειμένων ανάμεσα σε διαδοχικά καρέ, η κίνηση των οποίων μπορεί να οφείλεται είτε σε κίνηση των ίδιων των αντικειμένων είτε σε κίνηση της κάμερας. Πρακτικά δηλαδή εκφράζει ένα διανυσματικό πεδίο, κάθε διάνυσμα του οποίου είναι ένα διάνυσμα μετατόπισης, το οποίο δείχνει πόσο έχουν μετακινηθεί διάφορα σημεία μεταξύ διαδοχικών καρέ. Ο υπολογισμός των ιστογραμμάτων οptical flow (HOF) είναι πολύ πιο απλός σε σχέση με τον αντίστοιχο των ιστογραμμάτων προσανατολισμού (HOG). Κάθε καρέ του βίντεο χωρίζεται σε περιοχές (patches) και κάθε τέτοια περιοχή χωρίζεται με τη σειρά της σε ακόμα μικρότερες υποπεριοχές. Σε κάθε μια από τις υποπεριοχές στις οποίες έχει χωριστεί η αρχική περιοχή του καρέ υπολογίζεται κατάλληλο optical flow. Τέλος, ενώνοντας όλα τα οptical φlow όλων των υποπεριοχών, στις οποίες έχει χωριστεί το αρχικό καρέ προκύπτει το ιστόγραμμα οptical flow (HOF) που αναφέρεται στο εν λόγω καρέ IDENSE - Improved Dense Trajectories Στη συγκεκριμένη ενότητα θα αναλυθεί ένα ακόμα state-of-the-art τοπικό χαρακτηριστικό για δεδομένα βίντεο το οποίο χρησιμοποιεί dense trajectories [46]. Αρχικά δειγματολήπτουνται σημεία των διαδοχικών καρέ του βίντεο σε ένα πλέγμα μεγέθους W εικονοστοιχείων, σε διάφορες χωρικές κλίμακες. Στόχος της παραπάνω διαδικασίας είναι να ακολουθήσουμε όλα αυτά τα σημεία στη διάρκεια του βίντεο. Το σύνολο των σημείων που έχουν δειγματοληπτηθεί φιλτράρεται έτσι ώστε να απομακρυνθούν τα προβληματικά, όπως για παράδειγμα σημεία που αναφέρονται σε ομογενείς περιοχές μιας εικόνας. Τα δειγματοληπτημένα σημεία παρακολουθούνται στο χρόνο υπολογίζοντας κατάλληλα dense οptical flow [13]. Συγκεκριμένα για ένα καρέ I t το dense optical flow field ω t = (u t, v t ), όπου u t, v t οι οριζόντιες και κατακόρυφες συνιστώσες του optical flow, υπολογίζεται ως προς το επόμενο καρέ I t+1. Συγκεκριμένα για ένα σημείο P t = (x t, y t ) σε

27 ΚΕΦΑΛΑΙΟ 2. ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ 13 ένα καρέ I t η ανιχνευμένη θέση του στο επόμενο καρέ I t+1 δίνεται από τη σχέση 2-6, αφού έχει εφαρμοσθεί κατάλληλο Median φίλτρο M στο optical flow ω t. P t+1 = (x t+1, y t+1 ) = (x t, y t ) + (M[ω t ]) (xt,y t ) (2-6) Επομένως σημεία διαδοχικών καρέ (P t, P t+1, P t+2,...) συνθέτουν πλέον τροχιές. Πειραματικά έχει αποδειχθεί ότι οι τροχιές μεγάλου μήκους συχνά αποκλίνουν από τις πραγματικές θέσεις των σημείων κατά τη διάρκεια της διαδικασίας παρακολούθησης, για τον λόγο αυτό το μήκος των τροχιών, στο οποίο υπολογίζονται περιορίζεται στα 15 καρέ. Συνοψίζοντας επομένως στην περίπτωση των Dense Trajectories αρχικά εκτελείται πυκνή δειγματοληψία σε πλέγματα συγκεκριμένου μεγέθους σε διαφορετικές κλίμακες. Στη συνέχεια τα σημεία κάθε κλίμακας παρακολουθούνται σχηματίζοντας κατάλληλες τροχιές μήκους 15 καρέ. Για την αποτελεσματική περιγραφή των τροχιών που έχουν προκύψει από την παραπάνω διαδικασία οι Wang et al. [46] πρότειναν τους παρακάτω descriptors. O πρώτος από αυτούς περιγράφει το σχήμα μιας τροχιάς μήκους L και κωδικοποιείται με ένα διάνυσμα, το οποίο αναφέρεται ως trajectory και υπολογίζεται από τη σχέση 2-7 T = ( P t,..., P t+l 1 ) t+l 1 j=t P j (2-7) Επιπλέον υπολογίζονται δυο ανάλογοι descriptors με αυτούς που χρησιμοποιούνται και για τα STIP τοπικά χαρακτηριστικά, τα οποία αναλύθηκαν στην προηγούμενη ενότητα. Συγκεκριμένα τα HOG επικεντρώνονται στη στατική εμφάνιση της πληροφορίας και υπολογίζονται από τα ιστογράμματα των παραγώγων των εικόνων σε έναν όγκο γύρω από την κάθε τροχιά. Από την άλλη τα HOF ενθυλακώνουν την τοπική πληροφορία της κίνησης υπολογίζοντας ιστογράμματα από τα optical flow στον ίδιο όγκο. Τέλος οι δυο τελευταίοι descriptors που εισάγονται στο [46] είναι οι MBHx (Motion Boundary Histogram in x direction) και MBHy (Motion Boundary Histogram in y direction), οι οποίοι υπολογίζονται από τα ιστογράμματα των παραγώγων των optical flow προς τις δυο κατευθύνσεις στον ίδιο όγκο. Οι συγκεκριμένοι descriptors είναι περισσότερο ανθεκτικοί σε κινήσεις της κάμερας από ότι το optical flow για αυτό και θεωρούνται περισσότερο διαχωριστικοί. Κλείνοντας θα θέλαμε να αναφέρουμε ότι στην παρούσα διπλωματική χρησιμοποιούνται τα Improved Dense Trajectories (IDENSE) [47]. Τα IDENSE αποτελούν βελτιωμένη

28 ΟΛΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ έκδοση των DENSE που αναλύθηκε παραπάνω, καθώς πλέον αφαιρείται η κίνηση της κάμερας με κατάλληλους αλγορίθμους. Όπως είναι αναμενόμενο η εξάλειψη της κίνησης της κάμερας βελτιώνει σημαντικά την αποδοτικότητα των descriptor που σχετίζονται με την κίνηση, δηλαδή των MBH και HOF. 2.2 Ολικά χαρακτηριστικά Τα ολικά χαρακτηριστικά κωδικοποιούν πληροφορία σχετικά με την πολυμεσική οντότητα (βίντεο ή εικόνα) με ένα διάνυσμα. Στην περίπτωση, για παράδειγμα, των εικόνων, τα SIFT τοπικά χαρακτηριστικά εκφράζουν το ιστόγραμμα των παραγώγων της εικόνας στη γειτονιά ενός σημείου. Αντίθετα τα ολικά χαρακτηριστικά εκφράζουν πληροφορία για ολόκληρη την εικόνα και όχι για μεμονωμένες περιοχές αυτής. Επομένως γίνεται σαφές ότι τα τοπικά και ολικά χαρακτηριστικά παρέχουν μια άλλου είδους πληροφορία. Η state-of-the-art μεθοδολογία δημιουργίας ολικών χαρακτηριστικών βασίζεται στον κατάλληλο συνδυασμό των τοπικών χαρακτηριστικών της εικόνας ή του βίντεο. Τα ολικά χαρακτηριστικά αντιπροσωπεύουν την εικόνα ή το βίντεο με ένα διάνυσμα, επιτρέποντας έτσι την άμεση σύγκριση τους. Επιπλέον σε προβλήματα ταξινόμησης συνήθως επιλέγονται ολικά χαρακτηριστικά καθώς ενθυλακώνουν πληροφορία διαχωρίσιμη για τις διάφορες κατηγορίες του προβλήματος και μπορούν να χρησιμοποιηθούν απευθείας από διάφορους ταξινομητές. Θα ήταν λάθος να πούμε ότι η μια μορφή αναπαράστασης είναι καλύτερη από την άλλη, μιας και οι δυο είναι μεταξύ τους συμπληρωματικές. Στις περισσότερες μεθόδους, που προτείνονται στην βιβλιογραφία, αρχικά υπολογίζονται τοπικά χαρακτηριστικά, τα οποία στη συνέχεια μετασχηματίζονται με κατάλληλους αλγορίθμους σε ολικά. 2.3 Μοντέλα μετασχηματισμού τοπικών χαρακτηριστικών σε ολικά Στη συγκεκριμένη ενότητα θα παρουσιαστούν οι δυο πλέον διαδεδομένες μέθοδοι μετασχηματισμού τοπικών χαρακτηριστικών σε ολικά, οι οποίες μάλιστα βασίζονται στη δημιουργία κατάλληλου λεξιλογίου. Η ιδέα πίσω από τη χρήση λεξιλογίου σε όλους τους αλγόριθμους μετασχηματισμού είναι η αναπαράσταση / χαρακτηρισμός του βίντεο ή της εικόνας με βάση το πλήθος εμφάνισης κάθε λέξης του λεξιλογίου. Η συχνότητα εμφάνισης των λέξεων αποθηκεύεται με τη μορφή ιστογράμματος, το οποίο στη συνέχεια είναι

29 ΚΕΦΑΛΑΙΟ 2. ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ 15 εύκολα διαχειρίσιμο από οποιονδήποτε ταξινομητή Bag of Words Ένας state-of-the-art αλγόριθμος μετασχηματισμού τοπικών χαρακτηριστικών σε ολικά είναι το Bag of Words [10]. Αρχικά χρησιμοποιήθηκε σε κείμενα, για προβλήματα επεξεργασίας φυσικής γλώσσας, εκφράζοντάς τα ως συχνότητες εμφάνισης των λέξεων ενός λεξιλογίου. Στην περίπτωση που εφαρμόζεται σε δεδομένα εικόνων ή βίντεο τα τοπικά χαρακτηριστικά πλέον είναι ανάλογα των λέξεων και με βάση αυτά δημιουργείται το λεξιλόγιο. Εφόσον έχει δημιουργηθεί το λεξιλόγιο, τα τοπικά χαρακτηριστικά αναπαριστώνται σύμφωνα με τη συχνότητα εμφάνισης των λέξεων του λεξιλογίου. Σε ένα πρόβλημα ταξινόμησης για παράδειγμα, το πρώτο βήμα μετασχηματισμού των τοπικών χαρακτηριστικών σε ολικά αποτελεί η δημιουργία κατάλληλου λεξιλογίου. Με βάση επομένως τα τοπικά χαρακτηριστικά που έχουμε στη διάθεση μας δημιουργούμε ένα λεξιλόγιο K λέξεων, χρησιμοποιώντας κάποιον αλγόριθμο ομαδοποίησης, συνήθως KMeans ή Mixtures of Gaussians (MoG), ο οποίος χωρίζει τα δεδομένα σε κατάλληλα clusters. Τα κέντρα αυτών των clusters αποτελούν τις λέξεις του λεξιλογίου. Η δημιουργία του λεξιλογίου εισάγει πρακτικά ένα επίπεδο κβαντισμού στον χώρου των χαρακτηριστικών. Στη συνέχεια για κάθε ένα από τα τοπικά χαρακτηριστικά υπολογίζεται ο κοντινότερος γείτονας του από κάθε λέξη του λεξιλογίου, με αποτέλεσμα να δημιουργείται για την κάθε εικόνα ένα ιστόγραμμα μεγέθους K, κάθε τιμή του οποίου αντιστοιχεί στη συχνότητα εμφάνισης της συγκεκριμένης λέξης στην εν λόγω εικόνα. Η μαθηματική έκφραση υπολογισμού του Bag of Words δίνεται στη σχέση 2-8, όπου w μια λέξη του λεξιλογίου V και D(w, f ij ) η ευκλείδεια απόσταση κάθε τοπικού χαρακτηριστικού f ij από τη λέξη w BOW (f ij, w) = 1 n { 1 εάν w = arg minw V (D(w, f ij )) n 0 αλλιώς i=1 (2-8) Ένας από τους περιορισμούς που εισάγει το Bag of Words αποτελεί το γεγονός ότι ένα τοπικό χαρακτηριστικό μπορεί να ανήκει μόνο σε μια λέξη του λεξιλογίου, ακόμα και αν αυτό βρίσκεται μακριά από όλες ή στο ενδιάμεσο δυο λέξεων. Τέλος στο Bag of Words δεν διατηρείται καμία πληροφορία σχετικά με τη δομή της εικόνας / βίντεο και τη σειρά εμφάνισης των λέξεων σε αυτά. Ανακεφαλαιώνοντας επομένως τα βήματα του Bag of Words είναι:

30 ΜΟΝΤΕΛΑ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ ΤΟΠΙΚΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΕ ΟΛΙΚΑ 1. Εκμάθηση του λεξιλογίου. 2. Κβαντισμός τοπικών χαρακτηριστικών σύμφωνα με το λεξιλόγιο. 3. Αναπαράσταση εικόνων/βίντεο ως συχνότητες εμφάνισης των λέξεων. Όλα τα βήματα της παραπάνω διαδικασίας συνοψίζονται στην εικόνα 2.4 Σχήμα 2.4: Βήματα υπολογισμού Bag of Words Fisher Vectors Η κεντρική ιδέα των Fisher Vectors [34] είναι ο χαρακτηρισμός του σήματος με τις μερικές παραγώγους μιας συνάρτησης πυκνότητας πιθανότητας, η οποία μοντελοποιεί τη διαδικασία δημιουργίας του σήματος. Αν θεωρήσουμε μια συνάρτηση πυκνότητας πιθανότητας p με παραμέτρους λ, τότε ένα σύνολο από δείγματα X = {x 1, x 2,..., x T } χαρακτηρίζεται από τις μερικές παραγώγους μέσω της σχέσης 2-9 F V (X) = λ log p(x λ) (2-9) Η σχέση 2-9 μετασχηματίζει το σύνολο των διανυσμάτων X σε ένα άλλο σταθερού μεγέθους, το μέγεθος του οποίου εξαρτάται μόνο από τον αριθμό των παραμέτρων του

31 ΚΕΦΑΛΑΙΟ 2. ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ 17 μοντέλου και ονομάζεται Fisher Vector. Αν θεωρήσουμε ότι L(X λ) = log p(x λ) και με δεδομένη την υπόθεση της ανεξαρτησίας ισχύει η σχέση 2-11 T L(X λ) = log p(x λ) = log p(x t λ) (2-10) t=1 Επιπλέον από τη σχέση 2-11 και με δεδομένο ότι το πιθανοτικό μοντέλο που χρησιμοποιείται είναι το GMM καταλήγουμε τελικά στη σχέση T T N F V (X) = λ L(X) = λ log p(x t λ) = λ log w i g(x t µ i, Σ i ) (2-11) t=1 t=1 i=1 Τα Fisher Vectors κωδικοποιούν παρόμοια πληροφορία με το Bag of Words υπολογίζοντας τις παραγώγους ως προς τα βάρη του GMM. Επιπλέον μια πολύ σημαντική συμβολή των Fisher Vectors αποτελεί το γεγονός ότι προσθέτουν στατιστικά υψηλότερης τάξης υπολογίζοντας τις παραγώγους του GMM ως προς τις μέσες τιμές και τους πίνακες συνδιακύμανσης. Ένα από τα βασικότερα μειονεκτήματα που έχουν τα Fisher Vectors εντοπίζεται στο γεγονός ότι τα διανύσματα που προκύπτουν από τον συγκεκριμένο μετασχηματισμό είναι πολύ μεγάλων διαστάσεων, συνήθως γύρω στις Οι μεγάλες διαστάσεις των Fisher Vectors καθιστούν τα προβλήματα ταξινόμησης, στα οποία χρησιμοποιούνται υπολογιστικά κοστοβόρα ενώ συγχρόνως αυξάνουν σημαντικά τις απαιτήσεις σε μνήμη.

32 Κεφάλαιο 3 Latent Dirichlet Allocation ως μια μέθοδος αναγνώρισης γεγονότων Στο συγκεκριμένο κεφάλαιο θα παρουσιαστεί μια καινούργια μέθοδος για αναγνώριση γεγονότων σε βίντεο, η οποία βασίζεται σε αλγορίθμους και μοντέλα ευρέως διαδεδομένα σε προβλήματα επεξεργασίας φυσικής γλώσσας. Ένας από τους πρωταρχικούς στόχους της παρούσας διπλωματικής είναι η εφαρμογή αλγορίθμων topic modeling, φτιαγμένων αποκλειστικά για κείμενα, σε δεδομένα βίντεο. Ωστόσο κάτι τέτοιο δεν μπορεί να γίνει απευθείας καθώς στην περίπτωση των βίντεο οι έννοιες κείμενο και λέξεις δεν είναι σαφώς ορισμένες. Από την ανάλυση που προηγήθηκε στην παράγραφο γίνεται εύκολα κατανοητό ότι με τη χρήση ενός Bag of Words μοντέλου μπορούμε να περιγράψουμε ένα βίντεο με βάση τη συχνότητα εμφάνισης των λέξεων του λεξιλογίου σε αυτό. Επομένως, αν εφαρμοσθεί Bag of Words πάνω στα τοπικά χαρακτηριστικά ενός βίντεο, τότε αυτό αποκτά ανάλογη αναπαράσταση με ένα κείμενο. Συγκεκριμένα δηλαδή, ένα βίντεο μπορεί να θεωρηθεί ανάλογο ενός κειμένου, ενώ τα μετασχηματισμένα με Bag of Words τοπικά χαρακτηριστικά ανάλογα των λέξεων. Η θεωρία του topic modeling στην περίπτωση των κειμένων δεν εισάγει περιορισμούς σχετικά με τις λέξεις. Ο μόνος περιορισμός που πρέπει να τηρείται είναι το bag-of-wordassumption, ότι δηλαδή η μόνη πληροφορία σχετική με το μοντέλο που επιθυμούμε να δημιουργήσουμε είναι το πλήθος εμφάνισης των λέξεων. Σύμφωνα με όσα προείπαμε γίνεται άμεσα σαφές ότι η συγκεκριμένη υπόθεση καλύπτεται και για δεδομένα βίντεο, 18

33 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 19 εφόσον τα τοπικά χαρακτηριστικά αυτών έχουν μετασχηματισθεί με τη χρήση κατάλληλου Bag of Words μοντέλου. Το παρόν κεφάλαιο οργανώνεται σε δύο βασικά υποκεφάλαια. Στο αρχικό υποκεφάλαιο αναλύονται οι έννοιες του topic modeling. Ενώ στο δεύτερο παρουσιάζεται η δική μας προσέγγιση με τη χρήση ενός πλέον κλασικού αλγόριθμου topic modeling τoυ Latent Dirichlet Allocation (LDA) [3]. 3.1 Probabilistic Topic modeling Η πιθανοτική μοντελοποίηση (probabilistic modeling) θεωρεί ότι όλα τα δεδομένα έχουν προέλθει από κάποια γενητορική διαδικασία (generative process), η οποία εμπλέκει μεταβλητές και παραμέτρους οι οποίες δεν είναι γνωστές εξ αρχής. Για παράδειγμα όταν εφαρμόζεται κάποιο πιθανοτικό μοντέλο σε μια συλλογή κειμένων οι άγνωστες παράμετροι που εμπλέκονται σε αυτό σχετίζονται συνήθως με τη θεματική δομή της συλλογής. Το topic modeling αποτελεί ένα είδος μοντελοποίησης, ευρέως διαδεδομένο στο πεδίο της επεξεργασίας φυσικής γλώσσας, το οποίο υποθέτει την ύπαρξη κρυφών μεταβλητών (latent variables). Στόχος του topic modeling είναι να ανακαλύψει κάποια δομή με χρήση συμπερασμού εκ των υστέρων (posterior inference). Με τον όρο posterior inference αναφερόμαστε στη διαδικασία κατά την οποία με δεδομένες παρατηρήσεις επιχειρούμε να αποκαλύψουμε την κατανομή των κρυφών μεταβλητών. Τα topic models [42] βασίζονται στην ιδέα ότι τα κείμενα (documents) μπορούν να θεωρηθούν ως μια μίξη από topics, οπού τα topics ορίζονται ως κατανομές πιθανότητας πάνω στις λέξεις ενός λεξιλογίου. Ένα topic μοντέλο ορίζεται ως ένα generative μοντέλο για κείμενα, το οποίο καθορίζει μια απλή πιθανοτική διαδικασία, βάση της οποίας έχουν δημιουργηθεί τα κείμενα. Στην περίπτωση των κειμένων ένα generative μοντέλο βασίζεται σε απλούς πιθανοτικούς κανόνες δειγματοληψίας για να περιγράψει πώς δημιουργήθηκαν οι λέξεις ενός κειμένου σε σχέση με τις τυχαίες κρυφές μεταβλητές. Στόχος της εκμάθησης των παραμέτρων του μοντέλου είναι η εύρεση κατάλληλων τιμών τυχαίων μεταβλητών, οι οποίες περιγράφουν βέλτιστα την παρατηρούμενη πληροφορία που είναι αρχικά διαθέσιμη, με την προϋπόθεση βέβαια ότι τα δεδομένα δημιουργήθηκαν με βάση το μοντέλο. Το generative μοντέλο που θα παρουσιαστεί στα πλαίσια της παρούσας διπλωματικής δεν πραγματοποιεί καμία υπόθεση σχετικά με τη σειρά εμφάνισης των λέξεων των κείμενων την συλλογής. Η μόνη πληροφορία σχετική με το μοντέλο είναι το πλήθος εμφά-

34 PROBABILISTIC TOPIC MODELING νισης των λέξεων, γνωστό και ως bag-of-words-assumption. Συνοψίζοντας επομένως για δεδομένες λέξεις σε ένα σύνολο από κείμενα επιθυμούμε να βρούμε ποιο topic μοντέλο είναι πιο πιθανό να έχει δημιουργήσει τα συγκεκριμένα δεδομένα. Η εύρεση του κατάλληλου topic μοντέλου περιλαμβάνει: Την εύρεση της κατανομής πιθανοτήτων πάνω στις λέξεις για κάθε topic Την κατανομή των topics πάνω στα κείμενα Το υπεύθυνο topic για τη δημιουργία κάθε λέξης Αν τώρα σύμφωνα με το topic modeling κάνουμε την υπόθεση ότι το σύνολο των λέξεων w i ενός κειμένου δημιουργείται επιλέγοντας αρχικά ένα τυχαίο topic από την κατανομή των topics που έχουμε διαθέσιμα και στη συνέχεια επιλέγοντας μια τυχαία λέξη από την κατανομή των λέξεων πάνω στα topics. H πιθανότητα η i-οστή λέξη να έχει προέλθει από το k-οστό topic συμβολίζεται με P (z i = k), ενώ με P (w i z i = k) συμβολίζεται η πιθανότητα της λέξης w i με δεδομένο topic k. Με βάση τους παραπάνω συμβολισμούς η κατανομή των λέξεων σε ένα κείμενο σύμφωνα με το προαναφερθέν generative μοντέλο περιγράφεται από τη μαθηματική σχέση 3-1, όπου K το συνολικό πλήθος των topics. K P (w i ) = P (w i z i = k)p (z i = k) (3-1) k=1 Ανακεφαλαιώνοντας επομένως τα topics ορίζονται ως μια κατανομή πάνω στις λέξεις ενός λεξιλογίου. Για παράδειγμα, σε ένα κείμενο που ασχολείται με τη βιολογία, τα topics για τη γενετική θα έχουν λέξεις για γενετική με μεγαλύτερη πιθανότητα από ότι λέξεις για πρωτεΐνες. Υπάρχουν διάφοροι αλγόριθμοι topic modeling που μας επιτρέπουν να αναγνωρίσουμε τέτοιου είδους θεματικές πληροφορίες. Ενδεικτικά αναφέρουμε τα correlated topic models (CTM) [2], στα οποία επιτρέπεται η εμφάνιση topics τα οποία συσχετίζονται μεταξύ τους. Για παράδειγμα ένα κείμενο για βιολογία είναι πιο πιθανό να αναφέρεται και σε χημεία, από ότι να αναφέρεται σε αθλήματα. Στα spherical topic models [35] επιτρέπεται σε ένα topic να περιέχονται ανόμοιες λέξεις όπως για παράδειγμα γάτα και γαλλικό κλειδί. Στα dynamic topic models [1] λαμβάνεται υπόψη η σειρά των λέξεων στο κείμενο, δηλαδή δεν ισχύει το bag-of-words-assumption. Επιπλέον υπάρχουν αλγόριθμοι topic modeling με επίβλεψη (supervised), στους οποίους πέρα από την άμεσα παρατηρήσιμη πληροφορία πρέπει να δοθούν και επιπλέον μεταβλητές γνωστές ως response variables για να μπορέσουν να εντοπίσουν θεματικές πληροφορίες.

35 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 21 Για παράδειγμα τα κείμενα αξιολογήσεων των χρηστών σε συνδυασμό με το πλήθος των αστεριών (response variable) που προσθέτουν σε κάποια φόρμα αξιολόγησης. Στην ενότητα που ακολουθεί παρουσιάζεται ένα αλγόριθμος topic modeling χωρίς επίβλεψη (unsupervised), τα πολύ σημαντικά χαρακτηριστικά του οποίου αξιοποιούμε για τον εντοπισμό θεματικής πληροφορίας σε βίντεο. 3.2 Latent Dirichlet Allocation Οι probabilistic topic modeling αλγόριθμοι χρησιμοποιούνται στην περίπτωση των κειμένων για να ανακαλύψουν θεματικές πληροφορίες από αυτά. Αποτελούν δηλαδή στατιστικές μεθόδους οι οποίες αναλύοντας τις λέξεις του κειμένου στοχεύουν στην εξαγωγή σημασιολογικής πληροφορίας. O αλγόριθμος Latent Dirichlet Allocation (LDA) [3], ο οποίος αποτελεί κεντρικό αντικείμενο μελέτης της παρούσας διπλωματικής υπάγεται στην ευρύτερη κατηγορία των αλγορίθμων probabilistic topic modeling. Σε γενικές γραμμές όλοι οι αλγόριθμοι probabilistic topic modeling υποθέτουν ότι τα δεδομένα έχουν προέλθει από κάποια generative διαδικασία, η οποία όπως αναφέρθηκε και παραπάνω εμπλέκει διάφορες κρυφές μεταβλητές. Η συγκεκριμένη generative διαδικασία καθορίζει μια κοινή κατανομή πιθανότητας (joint probability distribution) πάνω στις κρυφές και στις παρατηρήσιμες μεταβλητές, με βάση την οποία, υπολογίζεται η υπό συνθήκη κατανομή των κρυφών μεταβλητών πάνω στις παρατηρήσιμες. Η εν λόγω υπό συνθήκη κατανομή ορίζεται στη βιβλιογραφία ως posterior distribution. Το LDA αποτελεί ένα generative μοντέλο χωρίς επίβλεψη, το οποίο προτείνει μια στοχαστική διαδικασία με βάση την οποία δημιουργούνται οι λέξεις ενός κειμένου. Με δεδομένη μια συλλογή από κείμενα το συγκεκριμένο μοντέλο μπορεί να ανακαλύψει κρυφά topics ως κατανομές πάνω στις λέξεις του λεξιλογίου. Οι λέξεις θεωρούνται ως η παρατηρήσιμη πληροφορία, ενώ τα topics ως οι κρυφές μεταβλητές. Εφόσον καθοριστεί η generative διαδικασία που υποθέτει το LDA προκύπτει άμεσα και η κοινή κατανομή πιθανότητας που αναφέραμε παραπάνω Generative διαδικασία του LDA Μια βασική υπόθεση που εισάγει το LDA αποτελεί το γεγονός ότι πέρα από τα κείμενα και οι κατανομές των topics πάνω στις λέξεις του λεξιλογίου είναι εξαρχής γνωστές. Όπως αναφέρθηκε και στην εισαγωγή του κεφαλαίου όλα τα κείμενα της συλλογής εκφράζονται ως κατανομές πάνω στα ίδια topics, ωστόσο κάθε κείμενο τα περιέχει σε δια-

36 LATENT DIRICHLET ALLOCATION φορετική αναλογία. Επομένως η generative διαδικασία, η οποία ακολουθείται από το LDA για δεδομένο πλήθος κειμένων D, δεδομένο πλήθος topics K και δεδομένες κατανομές topics πάνω στις λέξεις του λεξιλογίου β παρουσιάζεται με μορφή ψευδοκώδικα στον αλγόριθμο 1. Αλγόριθμος 1 Generative process του LDA 1: function generate_documents(d) 2: for k K do Για κάθε ένα από τα K topic 3: β k Dirichlet(η) - δειγματοληψία από κατανομή 4: end for 5: for d D do Για κάθε κείμενο d στο corpus D 6: θ d Dirichlet(α) 7: d {} 8: N P oisson(ξ) 9: for n N do 10: z d,n Multinomial(θ d ) 11: w d,n Multinomial(β zd,n ) 12: d d + w Πρόσθεσε τη λέξη στο κείμενο 13: end for 14: end for 15: end function Στη γραμμή 3 του αλγορίθμου 1, για κάθε κείμενο διαμορφώνεται με δειγματοληψία από μια Dirichlet κατανομή η κατανομή του πάνω στα διάφορα topics. Στη γραμμή 7 επιλέγεται τυχαία ένα topic από την κατανομή των topics του d-οστού κείμενο, όπως αυτά δημιουργήθηκαν στη γραμμή 3. Τέλος στη γραμμή 8 επιλέγεται τυχαία μια λέξη από το topic που επιλέχθηκε στη γραμμή 7. Όπως έχουμε αναφέρει ένα topic ορίζεται πρακτικά ως μια κατανομή πιθανότητας πάνω στις λέξεις του λεξιλογίου, συνεπώς στη γραμμή 8 επιλέγεται τυχαία μια λέξη από την κατανομή αυτή. Τέλος αξίζει να υπογραμμίσουμε εκ νέου ότι το generative μοντέλο του LDA δεν κάνει καμία υπόθεση για τη σειρά εμφάνισης των λέξεων στο κείμενο. Κλείνοντας, κρίνεται σκόπιμο να διασαφηνιστεί η γραμμή 5 του αλγορίθμου, στην οποία αποφασίζεται το πλήθος των λέξεων που θα χρησιμοποιηθούν μέσω κατανομής P oisson. Το συγκεκριμένο βήμα δεν θεωρείται ιδιαίτερα κρίσιμο και συχνά παραλείπεται. Όλα όσα προαναφέραμε μπορούν να απεικονιστούν και γραφικά μέσω ενός γράφου, γνωστού στη βιβλιογραφία και ως Probabilistic Graphical Model (PGM). Ο συγκεκριμένος γράφος περιγράφει τις σχέσεις μεταξύ των τυχαίων μεταβλητών. Το PGM του LDA όπως ορίστηκε από τους Blei et al. [3] απεικονίζεται στην εικόνα 3.1. Κάθε κόμβος του γράφου αναφέρεται σε μια τυχαία μεταβλητή και ονοματίζεται ανάλογα με τον ρόλο της στην generative διαδικασία που περιγράφηκε παραπάνω. Ο χρωματισμένος κόμβος w d,n αποτελεί την παρατηρήσιμη πληροφορία και αναφέρεται στις λέξεις του κειμένου.

37 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 23 Από την άλλη όλοι οι υπόλοιποι κόμβοι θεωρούνται οι άγνωστες μεταβλητές του μοντέλου. Οι κόμβοι που περικλείονται από ορθογώνια δηλώνουν επανάληψη τόσες φορές όσο ο αριθμός που είναι σημειωμένος στη γωνία του ορθογωνίου. Επομένως η μεταβλητή N αναφέρεται στο πλήθος των λέξεων κάθε κειμένου που επιλέχθηκε σύμφωνα με την κατανομή Poisson, η μεταβλητή D στο συνολικό πλήθος των κειμένων και η τέλος η μεταβλητή K αναφέρεται στο πλήθος των topics. Σχήμα 3.1: Probabilistic Graphical Model του LDA. Η κατανομή των topics πάνω στα κείμενα προκύπτει με δειγματοληψία από μια Dirichlet κατανομή. Η μεταβλητή θ d επομένως είναι μια K-διάστατη Dirichlet τυχαία μεταβλητή η οποία εκφράζει για το d-οστό κείμενο την κατανομή του πάνω στα topics. Η μεταβλητή α αποτελεί μια K-διάστατη παράμετρο, η οποία διατηρείται σταθερή για όλα τα κείμενα της συλλογής και είναι ο prior της Dirichlet κατανομής. Η κατανομή πιθανότητας μιας Dirichlet τυχαίας μεταβλητής δίνεται από τη σχέση 3-2, όπου Γ(x) η συνάρτηση Γάμμα. p(θ α) = Γ( K i=1 α i ) Ki=1 Γ(α i ) K i=1 θ α i 1 i (3-2) Η παράμετρος β είναι ένας πίνακας μεγέθους K V, ο οποίος κωδικοποιεί κάθε ένα από τα K topics ως κατανομές πάνω στις λέξεις του λεξιλογίου. Κατά συνέπεια η μεταβλητή β k ορίζεται ως η κατανομή του k-οστού topic πάνω στις λέξεις του λεξιλογίου. Σε ορισμένες περιπτώσεις χρησιμοποιείται η παράμετρος η ως επιπλέον Dirichlet prior για την Dirichlet μεταβλητή β, λειτουργώντας ως παράγοντας αραιότητας για μεγάλα λεξιλόγια. Αντίστοιχα με την παράμετρο α έτσι και η η διατηρείται σταθερή για όλα

38 LATENT DIRICHLET ALLOCATION τα κείμενα της συλλογής. Η μεταβλητή z d ορίζεται ως το topic που επιλέγεται από την Multinomial κατανομή θ d, η οποία όπως προαναφέρθηκε εκφράζει για το d-οστό κείμενο την κατανομή του πάνω στα topics. Κατά συνέπεια η παράμετρος z d,n εκφράζει το topic που επιλέχθηκε για τη λέξη w n στο κείμενο d. Συνεπώς με δεδομένες παραμέτρους α, η η κοινή συνάρτηση κατανομής πιθανότητας (joint probability distribution) που προκύπτει σύμφωνα με την generative διαδικασία που περιγράφηκε παραπάνω δίνεται από τη σχέση 3-3. p(θ d, z d, β w d, α, η) p(θ d, z d, β, w d α, η) K N d = p(θ d α) p(β i η) p(z d,n θ d )p(w d,n z d,n, β) i=1 n=1 (3-3) Θέτοντας όμως p(β η) = K i=1 p(β i η) η 3-3 γίνεται p(θ d, z d, w d, β α, η) = p(θ d α)p(β η) N d n=1 p(z d,n θ d )p(w d,n z d,n, β) (3-4) Ολοκληρώνοντας τη σχέση 3-4 ως προς θ d, z d και β προκύπτει η κατανομή πιθανότητας των λέξεων του d-οστού κειμένου στη σχέση 3-5. p(w d α, η) = N d p(θ d α)p(β η)( p(z d,n θ)p(w d,n z d,n, β)) dθ d dβ (3-5) n=1 z d,n Συγκεκριμένα η ολοκλήρωση ως προς θ d μας δίνει για το d-οστό κείμενο όλες τις δυνατές κατανομές πάνω στα topics (topic distributions). Επιπλέον, ολοκληρώνοντας ως προς β παίρνουμε όλες τις δυνατές κατανομές των topics πάνω στις λέξεις του κειμένου d. Τέλος, η ολοκλήρωση ως προς z d μας δίνει όλες τις δυνατές εκχωρήσεις των topics, όμως καθώς είναι διακριτές το ολοκλήρωμα μετασχηματίζεται σε άθροισμα. Η 3-5 προκύπτει άμεσα αρκεί να σκεφτεί κανείς ότι η πιθανότητα εμφάνισης της n-οστής λέξης από ένα κείμενο d, έστω w d,n, για δεδομένα θ και β δίνεται από την 3-6 p(w d,n θ, β) = z d,n p(z d,n θ d )p(w d,n z d,n, β) (3-6)

39 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 25 Από την 3-6 παίρνοντας τα γινόμενα για όλες τις N d λέξεις προκύπτει η πιθανότητα εμφάνισης λέξεων σε ένα κείμενο d για δεδομένα θ και β N d p(w d θ, β) = p(z d,n θ d )p(w d,n z d,n, β) (3-7) n=1 z d,n Με βάση τα παραπάνω γίνεται πλέον εύκολα κατανοητό ότι ολοκληρώνοντας την 3-7 ως προς θ και β προκύπτει η σχέση 3-5. Στη συνέχεια παίρνοντας το γινόμενο όλων των κειμένων της συλλογής προκύπτει η πιθανότητα για τη συλλογή των κειμένων. D p(d α, η) = d=1 N d p(θ d α)p(β η) p(z d,n θ)p(w d,n z d,n, β) dθ d dβ (3-8) n=1 z d,n Μέθοδοι υπολογισμού των παραμέτρων του LDA Το βασικό πρόβλημα που πρέπει να λυθεί έτσι ώστε να είναι δυνατή η χρήση του LDA είναι ο υπολογισμός της κατανομής πιθανότητας των κρυφών μεταβλητών για δεδομένο κείμενο. Σύμφωνα με τον κανόνα του Bayes η κατανομή πιθανότητας των κρυφών μεταβλητών για δεδομένο κείμενο προκύπτει από τη σχέση 3-9. p(θ d, z d, β w d, α, η) = p(θ d, z d, β, w d α, η) p(w d α, η) (3-9) Δυστυχώς η παραπάνω εξίσωση είναι αδύνατον να λυθεί γενικά, για το σκοπό αυτό έχουν προταθεί διάφορες προσεγγιστικές μέθοδοι, οι οποίες προσεγγίζουν τη λύση της εξίσωσης 3-9. Στα κεφάλαια που ακολουθούν αναλύονται δυο από τις μεθόδους που προτείνονται στη βιβλιογραφία αν και πλέον χρησιμοποιείται σχεδόν αποκλειστικά η δεύτερη που υπολογίζει τις παραμέτρους με Gibbs Sampling [15] Υπολογισμός παραμέτρων του LDA με EM O παράγοντας κανονικοποίησης της σχέσης 3-9 είναι η πιθανότητα ενός κειμένου για δεδομένα α, η και όπως αναφέρθηκε προηγουμένως μπορεί να υπολογιστεί μόνο προ-

40 LATENT DIRICHLET ALLOCATION σεγγιστικά. N d p(w d α, η) = p(θ d α)p(β η)( p(z d,n θ)p(w d,n z d,n, β)) dθ d dβ n=1 z d,n = Γ( K i=1 α i ) K N K V Ki=1 θ α i 1 i (θ i β ij ) wd n dθ d dβ Γ(α i ) i=1 n=1 i=1 j=1 (3-10) Οι βέλτιστες τιμές των α, η υπολογίζονται έτσι ώστε να μεγιστοποιείται η συνάρτηση log-likelihood 3-11 όλων των κειμένων της συλλογής. Ωστόσο καθώς το μοντέλο περιέχει κρυφές μεταβλητές (θ d, z d ) δεν είναι δυνατόν να υπολογιστεί απευθείας. D L(α, η) = log p(w d α, η) (3-11) d=1 Είναι σύνηθες σε μοντέλα που περιέχουν κρυφές μεταβλητές και δεν μπορούν να υπολογιστούν άμεσα να χρησιμοποιείται ο αλγόριθμος Expectation Maximazation (EM) εναλλακτικά. Ο αλγόριθμος EM ανανεώνει επαναληπτικά τις παραμέτρους υπολογίζοντας τις αναμενόμενες τιμές των κρυφών μεταβλητών σύμφωνα με τη σχέση 3-5. Αναλυτικά τα βήματα του EM, ξεφεύγουν από τα πλαίσια της παρούσας διπλωματικής, ωστόσο παρουσιάζονται εκτενώς στο [3], το οποίο και εισήγαγε το LDA Υπολογισμός παραμέτρων του LDA με Gibbs Sampling Όπως έχουμε αναφέρει και παραπάνω στο LDA κάθε κείμενο ορίζεται ως μια Multinomial κατανομή πάνω στα K topics, P (z i = j) = θ d. Συγχρόνως το j-οστό topic αναπαριστάται από μια Multinomial κατανομή πάνω στις λέξεις του λεξιλογίου, P (w i z i = j) = β i. Στην προσέγγιση των Griffiths et al. για την εύρεση των παραμέτρων του LDA με Gibbs Sampling [15] χρησιμοποιήθηκε ένας συμμετρικός Dirichlet(α) prior για την Multinomial κατανομή θ d, ένας συμμετρικός Dirichlet(η) prior για την Multinomial κατανομή β και μια Markov Chain Monte Carlo (MCMC) [14] διαδικασία για την αποκάλυψη των παραμέτρων. Με τη χρήση μιας Monte Carlo διαδικασίας ο αλγόριθμος υλοποιείται άμεσα και έχει πολύ χαμηλές απαιτήσεις σε μνήμη. Συνοπτικά να αναφέρουμε ότι οι Markov Chain Monte Carlo (MCMC) μέθοδοι αποτελούν ένα είδος αλγορίθμων για δειγματοληψία από περίπλοκες κατανομές πιθανότητας, οι οποίες βασίζονται στη δημιουργία μιας αλυσίδας Markov η οποία θα συγκλίνει στην επιθυμητή κατανομή. Η αλυσίδα Markov

41 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 27 μετά από ορισμένα βήματα μπορεί να χρησιμοποιηθεί ως ένα δείγμα της επιθυμητής κατανομής. Το πλεονέκτημα της συγκεκριμένης μεθόδου εντοπίζεται στο γεγονός ότι οι παράμετροι του μοντέλου δεν πρέπει να αναπαρασταθούν ρητώς, καθώς ολοκληρώνοντας ως προς θ και β προκύπτει ένα μοντέλο που σχετίζεται μόνο με τις εκχωρήσεις των λέξεων στα topics, z n. Το Gibbs sampling αποτελεί έναν αλγόριθμο MCMC ο οποίος χρησιμοποιείται για εξαγωγή μιας ακολουθίας παρατηρήσεων, οι οποίες προσεγγίζουν το να έχουν προέλθει από μια κατανομή πιθανότητας, πχ κοινή κατανομή πιθανότητας joint probability distribution, από την οποία ωστόσο η απευθείας δειγματοληψία είναι δύσκολη. Η ακολουθία που εξάγεται αποτελεί προσέγγιση της κατανομής πιθανότητας. Η χρήση του Gibbs sampling στοχεύει στον υπολογισμό της πιθανότητας P (z d,n = j z d, n, w), όπου z d, n είναι όλα τα topics z d,k τέτοια ώστε k n. Για απλότητα στους συμβολισμούς στη συνέχεια θα παραληφθεί η χρήση του d σε όλες τις σχέσεις, καθώς όλες αναφέρονται σε ένα κείμενο. P (z n = j z n, w) P (w n z n = j, z n, w n )P (z n = j z n ) (3-12) Ο πρώτος όρος είναι η likelihood συνάρτηση, ενώ ο δεύτερος είναι ο prior. Αναλυτικά οι δυο όροι της εξίσωσης 3-12 προκύπτουν P (w n z n = j, z n, w n ) = N (w n) n,j + η N (.) n,j + V η (3-13) P (z n = j z n ) = N d n,j + α N d n + Kα (3-14) Στις σχέσεις 3-13, 3-14 η μεταβλητή V είναι το πλήθος των λέξεων του λεξιλογίου, η μεταβλητή K είναι το πλήθος των topics. Επιπλέον ο όρος N (.) n,j είναι το συνολικό πλήθος των λέξεων που εκχωρείται στο j-οστό topic, εξαιρώντας το τρέχον topic. Ο όρος N n,j d είναι το πλήθος των λέξεων του d-οστού κειμένου που εκχωρήθηκαν στο j-οστό topic εκτός από το τρέχον και τέλος ο όρος N n d αποτελεί το συνολικό πλήθος των λέξεων του d-οστού κειμένου εξαιρώντας το τρέχον 1. 1 Αναλυτικά η απόδειξη των σχέσεων 3-13, 3-14 ξεφεύγει από τα πλαίσια της διπλωματικής ωστόσο μπορεί να βρεθεί στο [16].

42 ΑΝΑΓΝΩΡΙΣΗ ΓΕΓΟΝΟΤΩΝ ΣΕ ΒΙΝΤΕΟ ΜΕ LDA Συνεπώς αντικαθιστώντας τις σχέσεις 3-13, 3-14 στην 3-12 προκύπτει P (z n = j z n, w) N (w i) n,j + η N (.) n,j + V η N d n,j + α N d n + Kα (3-15) Έχοντας υπολογίσει τη σχέση 3-15 ο αλγόριθμος Gibbs sampling έχει άμεση εφαρμογή. Τα topics z i αρχικοποιούνται με τιμές από 1 εώς K καθορίζοντας έτσι την αρχική κατάσταση της αλυσίδας Markov. Στη συνέχεια έπειτα από μερικές επαναλήψεις καθορίζεται η νέα κατάσταση της αλυσίδας Markov δειγματοληπτώντας κάθε z i από τη σχέση Τελικά έπειτα από επιπλέον επαναλήψεις η αλυσίδα Markov προσεγγίζει την αρχική μας κατανομή. 3.3 Αναγνώριση γεγονότων σε βίντεο με LDA Στη συγκεκριμένη ενότητα αναλύεται η προτεινόμενη μέθοδος με την χρήση του LDA αλγορίθμου. Όπως αναφέρθηκε και στην αρχή του κεφαλαίου με την εφαρμογή αλγορίθμων topic modeling σε βίντεο επιθυμούμε να αξιοποιήσουμε πληροφορία υψηλότερου επιπέδου και να αναπαραστήσουμε τα βίντεο της συλλογής χρησιμοποιώντας την κατανομή τους πάνω στα topics. Οι λέξεις ενός κειμένου από μόνες τους δεν περιέχουν διαχωριστική πληροφορία, ωστόσο σε συνδυασμούς λέξεων μπορεί να αναπαρασταθεί πιο σύνθετη πληροφορία. Τα topics, ως κατανομές πάνω σε λέξεις, μπορούν να κωδικοποιούν πιο σύνθετες έννοιες όπως σημασιολογικές και θεματικές πληροφορίες σχετικά με το βίντεο. Την ιδιότητα αυτή των topics σκεφτήκαμε να αξιοποιήσουμε αναπαριστώντας κάθε βίντεο ως κατανομή πάνω σε αυτά. Αν θεωρήσουμε ότι ένα γεγονός είναι η σύνθεση μικρότερης διάρκειας μικρογεγονότων (micro events), υποθέτουμε ότι τα topics θα μπορέσουν να ενθυλακώσουν πολύ πιο σημαντική πληροφορία για τα micro events από ότι οι θα μπορούσαν οι λέξεις, πιθανώς ακόμα και να μπορέσουμε να αποκαλύψουμε εκείνες τις κατανομές λέξεων που περιγράφουν τα ίδια τα micro events που συνθέτουν το γεγονός. Όπως αναφέρθηκε και στην εισαγωγή του κεφαλαίου μια από τις υποθέσεις του LDA είναι το bag-of-words-assumption. Το bag-of-words-assumption υποθέτει ότι τα δεδομένα που δίνονται σαν είσοδος στο LDA αναφέρονται στο πλήθος εμφάνισης των λέξεων του κειμένου. Στην περίπτωση του βίντεο όμως οι έννοιες λέξεις και κείμενα δεν είναι προφανείς. Για τον σκοπό αυτό, κρίνεται σκόπιμο να οριστούν με ακρίβεια.

43 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 29 Όπως αναφέρθηκε στην ενότητα το Bag of Words κωδικοποιεί τα δεδομένα εισόδου του ως συχνότητες εμφάνισης των λέξεων του λεξιλογίου. Επομένως εφαρμόζοντας Bag of Words στα τοπικά χαρακτηριστικά του βίντεο μετασχηματίζονται σε απαριθμήσιμες ποσότητες. Κατά συνέπεια αν θέλουμε να είμαστε σύμφωνοι με την ορολογία που έχει χρησιμοποιηθεί στο σύνολο του κεφαλαίου τότε ως κείμενο ορίζεται το ίδιο το βίντεο, ενώ ως λέξεις τα μετασχηματισμένα τοπικά χαρακτηριστικά (2-8) σύμφωνα με Bag of Words μοντέλο. Η χρήση των τεχνικών topic modeling σε δεδομένα βίντεο αποτελεί τη βασική συνεισφορά της παρούσας διπλωματικής καθώς καθιστά εφικτή την εξαγωγή σημασιολογικής πληροφορίας από αυτά. Με τη διαδικασία μετασχηματισμού των τοπικών χαρακτηριστικών σε λέξεις είναι πλέον εφικτό πέρα από αλγορίθμους topic modeling να χρησιμοποιηθούν και άλλοι αλγόριθμοι επεξεργασίας φυσικής γλώσσας που περιορίζονται από το bag-of-words-assumption. Επιπλέον εκτός από το Bag of Words για τον μετασχηματισμό των τοπικών χαρακτηριστικών θα μπορούσε να χρησιμοποιηθεί οποιοσδήποτε άλλος αλγόριθμος μετασχηματισμού, ο οποίος θα μετασχημάτιζε τα τοπικά χαρακτηριστικά σε ένα σύνολο διακριτών οντοτήτων, τα οποία θα μπορούσαν να λειτουργήσουν ως οι λέξεις του κειμένου. Με βάση όσα έχουμε αναφέρει μέχρι στιγμής γνωρίζουμε ότι το LDA για μια συλλογή από κείμενα, στη δική μας περίπτωση για μια συλλογή από βίντεο, ορίζει για κάθε κείμενο μια Multinomial κατανομή πάνω στα topics. Συγχρόνως κάθε ένα topic ορίζεται ως μια Multinomial κατανομή πάνω στις λέξεις του λεξιλογίου. Εμείς επιλέξαμε να χρησιμοποιήσουμε ως αναπαράσταση του βίντεο την κατανομή του πάνω στα topics. Η συγκεκριμένη αναπαράσταση πιστεύουμε ότι μπορεί να αναπαραστήσει πιο σύνθετες έννοιες, που σχετίζονται με το θέμα και την σημασιολογία του βίντεο. Όπως έχει ήδη προαναφερθεί το LDA είναι ένας αλγόριθμος topic modeling χωρίς επίβλεψη, γεγονός που σημαίνει ότι δεν γνωρίζουμε εξ αρχής τίποτα για τα topics που θα εντοπιστούν. Ωστόσο διαισθητικά πιστεύουμε ότι θα είναι σε θέση να αναπαραστήσουν πληροφορία υψηλότερου επιπέδου. Επιπλέον η αναπαράσταση που προτείνουμε είναι δυνατόν να χρησιμοποιηθεί απευθείας από οποιοδήποτε ταξινομητή, επειδή μια Multionomial κατανομή μπορεί να περιγραφεί πλήρως από ένα K-διάστατο διάνυσμα, όπου K το πλήθος των topics στην προκειμένη περίπτωση. Στη συνέχεια παρουσιάζονται αναλυτικά τα βήματα του αλγορίθμου που υλοποιήθηκε για εντοπισμό γεγονότων σε βίντεο με χρήση LDA. Αρχικά κρίνεται σκόπιμο να διασαφηνιστούν οι συμβολισμοί που θα χρησιμοποιηθούν για να αποφευχθούν παρανοήσεις.

44 ΑΝΑΓΝΩΡΙΣΗ ΓΕΓΟΝΟΤΩΝ ΣΕ ΒΙΝΤΕΟ ΜΕ LDA Η μεταβλητή F εκφράζει το σύνολο των τοπικών χαρακτηριστικών όλων των βίντεο του dataset, ενώ η F i τα τοπικά χαρακτηριστικά του i-οστού βίντεο. Κατά αντιστοιχία η μεταβλητή f ij αποτελεί το j-οστό τοπικό χαρακτηριστικό για το i-οστό βίντεο. Επιπλέον με τη μεταβλητή C αναφερόμαστε στις λέξεις του λεξιλογίου που δημιουργεί το Bag of Words. Αλγόριθμος 2 Εντοπισμός γεγονότων με LDA 1: function create_bow_codebook(f ) 2: codewords KM eans(f ) Δημιουργία λεξιλογίου με KMeans 3: end function 4: function encode_features_with_bow(f i, C) 5: W len(c) W - πλήθος λέξεων λεξιλογίου 6: x i 0 i {1... W } 7: for f ij F i do 8: i arg min C F i 9: x i x i : end for 11: x i x i W i {1... W } 12: end function 13: function fit_lda_model({w}) 14: θ, β GibbsSampling({w}) 15: end function 16: function train_event_detectors 17: 18: N len(f) C create_bow_codebook(f ) N - πλήθος video στο dataset C - λεξιλόγιο 19: BF i 0 i {1... N} 20: for F i F do 21: BF i encode_features_with_bow(f i, C) 22: end for 23: 24: θ, β fit_lda_model({bf 1... BF N }) w, b train_classifier(θ, Y ) Y - τα γεγονότα που θέλουμε να αναγνωρίσουμε 25: end function 26: function detect_event(video) video - ένα άγνωστο βίντεο 27: 28: w, b, θ, β train_event_detectors doc_topic transform_video_with_lda(θ, β, video) doc_topic - για το άγνωστο βίντεο η κατανομή του πάνω στα topics 29: classify_video(w, b, doc_topic) 30: end function Στον αλγόριθμο 2 ορίζεται το pipeline της μεθόδου που προτείνουμε. Οι δυο πρώτες συναρτήσεις αποτελούν την υλοποίηση του Bag of Words αλγορίθμου που παρουσιάστηκε στην ενότητα Με βάση όλα τα τοπικά χαρακτηριστικά υπολογίζονται κατάλληλα κέντρα με τον KMeans, τα οποία θα αποτελέσουν τις λέξεις του λεξιλογίου. Στη συνέχεια κάθε βίντεο αναπαριστάται σύμφωνα με τις συχνότητες εμφάνισης των λέξεων του λεξιλογίου από με τη σχέση 2-8. Σε επόμενο βήμα στη συνάρτηση f it_lda_model εκπαιδεύεται κατάλληλο LDA μοντέλο, βρίσκοντας τις κατανομές θ, β που μας ενδιαφέρουν

45 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 31 εφαρμόζοντας Gibbs Sampling, όπως αυτό παρουσιάστηκε στην ενότητα Η συνάρτηση train_event_detectors καλεί όλες τις παραπάνω συναρτήσεις, μετασχηματίζει δηλαδή αρχικά τα τοπικά χαρακτηριστικά των βίντεο σύμφωνα με κατάλληλο Bag of Words μοντέλο, έτσι ώστε να καλύπτεται το bag-of-words-assumption και στη συνέχεια με εφαρμογή Gibbs Sampling βρίσκει τις κατανομές θ, β. Τέλος για κάθε βίντεο με βάση τις κατανομές του πάνω στα topics εκπαιδεύεται κατάλληλος ταξινομητής για την ταξινόμηση των γεγονότων, που διαδραματίζονται στα βίντεο, στις αντίστοιχες κατηγορίες (Y). Σε αυτό το σημείο αξίζει να σημειωθεί ότι όλες οι παραπάνω συναρτήσεις εφαρμόζονται στα δεδομένα του συνόλου προπόνησης (training set). Εφόσον έχει εκπαιδευτεί κατάλληλο LDA μοντέλο στα βίντεο προπόνησης είναι πλέον δυνατόν να βρούμε την κατανομή πάνω σε topics και για κάποιο άγνωστο βίντεο. Το συγκεκριμένο πρόβλημα, όπως αναλύεται στα [5, 31] συνίσταται στην εύρεση της κατανομής πιθανότητας πάνω στα topics για το άγνωστο βίντεο με γνωστές κατανομές πάνω στα topics για τα δοκιμαστικά βίντεο καθώς επίσης και γνωστές κατανομές των topics πάνω στις λέξεις του λεξιλογίου. Στη συνάρτηση detect_events παρουσιάζεται η διαδικασία που ακολουθείται όταν θέλουμε να διαπιστώσουμε την ύπαρξη ή όχι μιας συγκεκριμένης δραστηριότητας σε ένα άγνωστο βίντεο. Συγκεκριμένα στη συνάρτηση transf orm_video_with_lda υλοποιούνται διάφοροι αλγόριθμοι δειγματοληψίας, που αναλύονται στα [5, 31] με στόχο να ανακαλύψουν την κατανομή θ d για το άγνωστο βίντεο. Ένα από τα σημαντικότερα πλεονεκτήματα της μεθόδου, που προτείνουμε αποτελεί το γεγονός ότι με τη χρήση του LDA το βίντεο μπορεί να κωδικοποιηθεί με λίγων διαστάσεων πληροφορία, πχ 100, 200, 300 topics. Το συγκεκριμένο είναι πάρα πολύ σημαντικό αρκεί να σκεφτεί κανείς ότι ο state-of-the-art αλγόριθμος Fisher Vectors για ταξινόμηση σε δεδομένα βίντεο κωδικοποιεί τα SIFT τοπικά χαρακτηριστικά με διαστάσεις, ενώ τα HOG του IDENSE με διαστάσεις. Είναι προφανής επομένως η σαφής μείωση του υπολογιστικού κόστους ταξινόμησης, καθώς επίσης και η ικανότητα των topics να περιέχουν πληροφορία υψηλού επιπέδου, ικανή να απεικονισθεί σε λίγες διαστάσεις. Τέλος ένα ακόμα σημείο που κρίνεται σκόπιμο να αποσαφηνιστεί είναι η επιλογή του ταξινομητή, μιας και στον αλγόριθμο 2 δεν αποσαφηνίζεται το είδος του ταξινομητή που χρησιμοποιείται. Στην υλοποίηση που προτείνουμε είναι δυνατόν να χρησιμοποιηθούν τόσο γραμμικοί όσο και μη γραμμικοί ταξινομητές, καθώς η Multionomial κατανομή, που χρησιμοποιείται για την αναπαράσταση του βίντεο μπορεί να περιγραφεί πλήρως από ένα K-διάστατο διάνυσμα. Ιδιαίτερο ενδιαφέρον μάλιστα παρουσιάζει η χρήση του LDA με πιθανοτικό ταξινομητή, το οποίο και αποτελεί αντικείμενο της ενότητας 3.4.

46 LDA ΜΕ ΠΙΘΑΝΟΤΙΚΟ ΤΑΞΙΝΟΜΗΤΗ 3.4 LDA με πιθανοτικό ταξινομητή Σύμφωνα με την ανάλυση που έχει προηγηθεί στο σύνολο του κεφαλαίου είναι γνωστό ότι ο LDA υπολογίζει δυο κατανομές πιθανότητας. Η πρώτη αναφέρεται στις κατανομές του κάθε topic πάνω στις λέξεις του λεξιλογίου, ενώ η δεύτερη στις κατανομές πάνω στα topics για κάθε βίντεο της συλλογής. Όπως αναφέρθηκε παραπάνω, η αναπαράσταση που προτείνουμε για κάθε βίντεο είναι η κατανομή του πάνω στα topics, που έχουν υπολογιστεί εφαρμόζοντας LDA. Συνεπώς, εφόσον έχουμε καταφέρει να αναπαραστήσουμε το βίντεο ως μια κατανομή πιθανότητας, σκεφτήκαμε να χρησιμοποιήσουμε κάποιον πιθανοτικό ταξινομητή και συγκεκριμένα τον Naive Bayes. Ένας Naive Bayes ταξινομητής αποτελεί την πιο απλή περίπτωση των Bayesian ταξινομητών καθώς βασίζεται στην υπόθεση ανεξαρτησίας ενός τοπικού χαρακτηριστικού από όλα τα υπόλοιπα για δεδομένη κλάση. Για απλότητα συμβολίζουμε τα τοπικά χαρακτηριστικά με X = {x 1,..., x n } και κάθε μια από τις J διαφορετικές κλάσεις με C j. O Naive Bayes ταξινομεί τα διαφορετικά τοπικά χαρακτηριστικά σύμφωνα με την υπό συνθήκη πιθανότητα P (C j x 1,..., x n ).H παραπάνω πιθανότητα σύμφωνα με τον κανόνα του Bayes γράφεται ως: P (C j x 1,..., x n ) = P (C j X) = P (C j)p (X C j ) P (X) (3-16) Ωστόσο ο όρος P (X) (evidence) θεωρείται σταθερός επομένως η σχέση 3-16 γίνεται P (C j X) P (C j )P (X C j ). Η εξίσωση 3-16 μπορεί να υπολογιστεί με βάση τους δυο όρους της, τον prior p(c j ) και τον όρο που ορίζει το likehood P (X C j ), ωστόσο είναι πιο εύκολος ο υπολογισμός της αξιοποιώντας την υπόθεση της στατιστικής ανεξαρτησίας των μεταβλητών που υποθέτει ο Naive Bayes. P (C j X) p(c j )P (X C j ) = P (C j )P (x 1,..., x n C j ) = P (C j )P (x 1 C j )P (x 2,..., x n C j, x 1 ) = P (C j )P (x 1 C j )P (x 2 C j, x 1 )P (x n C j, x 1,..., x n 1 ) (3-17) Η υπόθεση ανεξαρτησίας των τοπικών χαρακτηριστικών σημαίνει ότι η πιθανότητα του i-οστού τοπικού χαρακτηριστικού για δεδομένη κλάση C j και δεδομένο ένα άλλο l-οστό τοπικό χαρακτηριστικό, με l i ισούται με P (x i C j, x l ) = P (x i C j ). Αντίστοιχα και αν η πιθανότητα υπολογίζονταν με δεδομένα περισσότερα τοπικά χαρακτηριστικά,

47 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 33 δηλαδή P (x i C j, x m, x q, x l ) = P (x i C j ). Κατά συνέπεια αν λάβουμε υπόψη την υπόθεση ανεξαρτησίας των τοπικών μεταβλητών η σχέση 3-17 γίνεται P (C j X) p(c j )P (X C j ) = P (C j )P (x 1 C k )P (x 2 C j )... P (x n C j ) N = P (C j ) p(x i C j ) i=1 (3-18) Κατά συνέπεια αν θεωρήσουμε ότι ŷ = C j οι διαφορετικές κατηγορίες η ταξινόμηση με Naive Bayes προκύπτει σύμφωνα με τη σχέση ŷ = arg max j {1,...,J} P (C j ) N p(x i C j ) (3-19) i=1 Στη δικιά μας περίπτωση για να χρησιμοποιηθεί ο Naive Bayes πρέπει να υπολογιστεί η πιθανότητα το d-οστό βίντεο να ανήκει σε μια συγκεκριμένη κλάση, έστω C j. Όπως έχουμε ωστόσο ήδη αναφέρει η μόνη πληροφορία που έχουμε στη διάθεση μας από την εφαρμογή του LDA είναι η κατανομή πιθανότητας θ d για κάθε βίντεο πάνω στα topics. Αρχικά μπορεί να υπολογιστεί άμεσα η πιθανότητα παρατήρησης του k-οστού topic με δεδομένο ότι το βίντεο ανήκει στην κλάση C j από τη σχέση Ο όρος N Cj εκφράζει το πλήθος των βίντεο που ανήκουν στην κλάση C j, ενώ ο όρος του αθροίσματος υπολογίζει το άθροισμα των πιθανοτήτων εμφάνισης του k-οστού topic σε ένα βίντεο, που ανήκει στην κλάση C j για δεδομένη κατανομή του κειμένου πάνω στα topics θ d. P (z = k C j ) = 1 N Cj d C j P (z = k θ d ) (3-20) Ορίζουμε A d, ένα διάνυσμα K θέσεων, κάθε θέση του οποίου περιέχει πόσες φορές έχουμε επιλέξει κάθε ένα από τα K K topics στο d-οστό βίντεο. Κατά συνέπεια το i=1 (A d ) i εκφράζει συνολικά πόσες φορές έχουν επιλεχθεί όλα τα topics για ένα βίντεο, το οποίο προφανώς ταυτίζεται με το συνολικό πλήθος των λέξεων N d. Επομένως χρησιμοποιώντας το A d, η κατανομή πάνω στα topics για κάθε βίντεο δίνεται από τη σχέση θ d = A d Ki=1 (A d ) i = 1 N d A d (3-21)

48 LDA ΜΕ ΠΙΘΑΝΟΤΙΚΟ ΤΑΞΙΝΟΜΗΤΗ Η πιθανότητα να έχει επιλεχθεί ένα από τα K topics δεδομένης κλάσης C j, εφόσον τα topics είναι ανεξάρτητα μεταξύ τους και σύμφωνα με την 3-18 είναι K P (A d C j ) = P (z = k C j ) (A d) k (3-22) k=1 Χρησιμοποιώντας την κατανομή πάνω στα topics πρακτικά αντιλαμβανόμαστε το βίντεο ως μια bag of topics αναπαράσταση, όπου κάθε k topic έχει σταθερή πιθανότητα εμφάνισης και εμφανίζεται (A d ) k φορές. Επομένως η ύψωση σε δύναμη εκφράζει το πλήθος εμφάνισης του συγκεκριμένου topic. Για να μπορέσουμε ωστόσο να χρησιμοποιήσουμε κάποιον Bayesian ταξινομητή σε συνδυασμό με την υλοποίηση μας είναι απαραίτητο να υπολογιστεί η πιθανότητα που δίνεται στη σχέση P (C j θ d ) P (C j )P (θ d C j ) (3-23) Αν υποθέσουμε ότι όλα τα κείμενα έχουν μέγεθος λέξεων ίσο με N d τότε συνδυάζοντας τη σχέση 3-21 και την 3-22 προκύπτει K P (A d C j ) = P (z = k C j ) (A d) k k=1 K P (N d θ d C j ) = P (z = k C j ) (A d) k k=1 K P (θ d C j ) N d = P (z = k C j ) N d(θ d ) k k=1 K P (θ d C j ) = P (z = k C j ) (θ d) k k=1 K P (θ d C j ) = P (z = k C j ) P (z=k θ d) k=1 (3-24) Σε αυτό το σημείο είναι σημαντικό να αναφέρουμε ότι κάποιος θα μπορούσε να είχε καταλήξει στη σχέση 3-22 απλά λαμβάνοντας υπόψη την υπόθεση ανεξαρτησίας μεταξύ των τοπικών χαρακτηριστικών του Naive Bayes. Ωστόσο στη δική μας περίπτωση τα διάφορα topics έχουν προέλθει από δειγματοληψία σε μια Multionomial κατανομή με αποτέλεσμα να είναι εξ ορισμού ανεξάρτητα μεταξύ τους. Το συγκεκριμένο εκτός όλων

49 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 35 των άλλων αποτέλεσε βασικό κίνητρο για να χρησιμοποιήσουμε Bayesian ταξινομητές. Τέλος συνοψίζοντας η τελική σχέση που χρησιμοποιείται για την ταξινόμηση προκύπτει με βάση την 3-19 ως εξής: ŷ = arg max P (C j )P (θ d C j ) j {1,...,J} K = arg max P (C j ) P (z = k C j ) P (z=k θ d) j {1,...,J} k=1 (3-25) 3.5 Χρήση LDA σε συνθετικά δεδομένα Σε αυτή την ενότητα θα παρουσιαστούν ορισμένα πειράματα με συνθετικά δεδομένα, με στόχο να καταδείξουμε τα πολύ σημαντικά χαρακτηριστικά του LDA και κατ επέκταση και των αλγορίθμων topic modeling γενικότερα. Συγκεκριμένα υλοποιήθηκε ένα dataset που αποτελείται από 100 κείμενα, τα οποία μπορούν να ανήκουν μόνο σε δύο κλάσεις C 1 και C 1. Τα κείμενα περιέχουν λέξεις από ένα λεξιλόγιο 25 λέξεων και υπάρχουν συνολικά 10 topics. Το συγκεκριμένο dataset κατασκευάστηκε με στόχο να γίνει σαφής η ικανότητα των topics να εκφράζουν πληροφορία υψηλότερου επίπεδου. Πληροφορία δηλαδή που συνήθως δεν μπορεί να βρεθεί από μεμονωμένες λέξεις αλλά υπάρχει σε συνδυασμούς τους. Στόχος λοιπόν είναι να δημιουργήσουμε τα κείμενα σύμφωνα με την generative διαδικασία του LDA που παρουσιάστηκε στον αλγόριθμο 1, υιοθετώντας δηλαδή όλες του τις υποθέσεις. Για το σκοπό αυτό αρχικά δημιουργήθηκαν οι κατανομές των topics πάνω στις λέξεις του λεξιλογίου, οι οποίες παρουσιάζονται στην εικόνα 3.2. Κάθε κουτάκι έχει διαστάσεις 5 5 και το χρώμα κάθε θέσης εκφράζει την πιθανότητα εμφάνισης της συγκεκριμένης λέξης. Το άσπρο χρώμα δηλώνει μεγαλύτερη πιθανότητα εμφάνισης της συγκεκριμένης λέξης στην Multionomial κατανομή β k, ενώ το μαύρο δηλώνει μικρότερη πιθανότητα εμφάνισης. Η παρουσίαση των topics σε γραμμές και στήλες έγινε καθαρά για λόγους ομορφότερου visualization 2, μιας και όπως έχουμε αναφέρει το Bag of Words αγνοεί τη σειρά εμφάνισης των λέξεων στο κείμενο. H δημιουργία των κειμένων έγινε σύμφωνα με τον αλγόριθμο 1. Η generative διαδικασία του LDA υποθέτει ότι η Multinomial κατανομή θ d πάνω στα topics για κάθε κείμενο προκύπτει από δειγματοληψία από μια Dirichlet κατανομή. Για να διαχωριστούν κατάλ- 2 Το visualization βασίστηκε στο

50 ΧΡΗΣΗ LDA ΣΕ ΣΥΝΘΕΤΙΚΑ ΔΕΔΟΜΕΝΑ Σχήμα 3.2: Υποκείμενες κατανομές των topics πάνω στις λέξεις στα συνθετικά δεδομένα. ληλα τα κείμενα στις δύο κλάσεις C 1 και C 1 προστέθηκε κατάλληλο bias στην Dirichlet κατανομή που δειγματοληπτείται έτσι ώστε η Multionomial κατανομή πάνω στα topics κάθε κειμένου της C 1 κλάσης να επιλέγει από τα ζυγά topics, ενώ αντίστοιχα της C 1 να επιλέγει από τα περιττά topics. Το bias στην Dirichlet κατανομή εισάγεται μέσω του prior α, ο οποίος αποτελεί ένα K-διάστατο διάνυσμα. Συγκεκριμένα για τα κείμενα της κλάσης C 1 ο prior α έχει στις ζυγές θέσεις 1 και στις περιττές 0, δηλαδή δίνεται από τη σχέση α C1 = { 1 για τις ζυγές θέσεις του διανύσματος 0 για τις περιττές θέσεις του διανύσματος (3-26) Κατά αντιστοιχία για την κλάση C 1 ο prior προκύπτει σύμφωνα με τη σχέση 3-27 α C 1 = { 0 για τις ζυγές θέσεις του διανύσματος 1 για τις περιττές θέσεις του διανύσματος (3-27) Τα 100 κείμενα που δημιουργούνται σύμφωνα με την παραπάνω διαδικασία φαίνονται στην εικόνα 3.3. Στη συνέχεια σε αυτά τα κείμενα εφαρμόστηκε LDA με Gibbs Sampling για την εύρεση των παραμέτρων για συνολικά 150 επαναλήψεις.

51 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 37 Σχήμα 3.3: Τα κείμενα των συνθετικών δεδομένων. Η εξέλιξη των topics ως προς τις επαναλήψεις του Gibbs Sampling φαίνεται στην εικόνα 3.4. Στόχος είναι να καταφέρουμε να προσεγγίσουμε όσο το δυνατόν καλύτερα τα υποκείμενα topics, της εικόνας 3.2 με τα topics που υπολογίζονται από το LDA. Στην εικόνα 3.4 υπάρχουν τα 10 topics, ένα ανά στήλη και παρουσιάζεται η εξέλιξη των κατανομών τους πάνω στις λέξεις κάθε 10 επαναλήψεις σε κάθε μια γραμμή. Τα τελικά topics όπως υπολογίζονται από το LDA μετά από 150 επαναλήψεις του Gibbs Sampling παρατίθενται στην εικόνα 3.5. Παρατηρώντας τις εικόνες 3.5 και 3.2, οι οποίες δείχνουν τα υποκείμενα και τα τελικά topics αντίστοιχα παρατηρούμε ότι το LDA τα έχει προσεγγίσει σε πολύ ικανοποιητικό βαθμό, το οποίο είναι αναμενόμενο καθώς έχουμε διατηρήσει όλες τις υποθέσεις της generative διαδικασίας Στη συνέχεια εξετάστηκε η Bag of Words αναπαράσταση του κειμένου, σε συνδυασμό με έναν γραμμικό SVM σε αντιπαραβολή με την LDA αναπαράσταση του (για κάθε κείμενο δηλαδή οι κατανομές πάνω στα topics) σε συνδυασμό με τον ίδιο ταξινομητή ώς προς την ακρίβεια ταξινομήσης accuracy 3. Συγκεκριμένα τα δεδομένα χωρίζονται σε δυο σύνολα, ένα σύνολο προπόνησης (training set) και ένα σύνολο επιβεβαίωσης (test set). Τα 3 2 των αρχικών δεδομένων αποτελούν το training set ενώ το υπόλοιπο 3 1 το test 3 H συγκεκριμένη μετρική αναλύεται εκτενώς σε επόμενο κεφάλαιο

52 ΧΡΗΣΗ LDA ΣΕ ΣΥΝΘΕΤΙΚΑ ΔΕΔΟΜΕΝΑ Σχήμα 3.4: Η εξέλιξη των κατανομών των topics πάνω στις λέξεις ανά 10 επαναλήψεις.

53 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 39 Σχήμα 3.5: Τελικές κατανομές των topics πάνω στις λέξεις, υπολογισμένες με LDA. set. Στη συνέχεια εκτελείται ταξινόμηση με τη χρήση του SVM και τα συγκριτικά αποτελέσματα φαίνονται στον πίνακα 3.1. Είναι προφανές ότι η χρήση του LDA βελτιώνει αισθητά το accuracy καθώς πετυχαίνει σε σχέση με 0.5 του Bag of Words, το οποίο ουσιαστικά είναι οριακά τυχαίο καθώς έχουμε δυο ισοπίθανες κλάσεις με πιθανότητα 0.5 έκαστη. Σε αυτό το σημείο κρίνεται σκόπιμο να αναφέρουμε ότι το Bag of Words σημειώνει χειρότερα αποτελέσματα εξαιτίας της φύσης του προβλήματος, μιας και τα word statistics μεταξύ των δυο κλάσεων είναι ίδια. Accuracy BOW SVM 0.5 LDA SVM Πίνακας 3.1: Συγκριτικά αποτελέσματα ως προς accuracy μεταξύ LDA και BOW με χρήση SVM ταξινομητή. Έχει ενδιαφέρον να μελετήσει κάνεις την εξέλιξη του accuracy και τις συγκριτικές διαφορές των δυο μεθόδων σε όλη τη διάρκεια της εύρεσης των παραμέτρων του LDA, δηλαδή και για τις 150 επαναλήψεις. Παρατηρώντας την εικόνα 3.6 φαίνεται ότι το LDA είναι σταθερά καλύτερο και πολλές φορές, κυρίως μετά τις 60 επαναλήψεις που αρχίζει η σύγκλιση, το accuracy γίνεται σε ορισμένες επαναλήψεις 1.

54 ΧΡΗΣΗ LDA ΣΕ ΣΥΝΘΕΤΙΚΑ ΔΕΔΟΜΕΝΑ Σχήμα 3.6: Συγκριτικό accuracy μεταξύ BOW και LDA ανά μια επανάληψη του Gibbs Sampling κατά την εύρεση των παραμέτρων του LDA. Τέλος κρίνεται σκόπιμο να συμπεριληφθεί ακόμα ένα γράφημα, στο οποίο φαίνεται η εξέλιξη των των κατανομών των topics στα πρώτα στάδια των επαναλήψεων του Gibbs Sampling, στα οποία οι αλλαγές είναι πολύ πιο έντονες. Από την εικόνα 3.4 βλέπουμε ότι οι κατανομές των topics πάνω στις λέξεις αποκτούν σχεδόν την τελική τους μορφή και προσεγγίζουν τις αρχικές ήδη πριν τις 40 επαναλήψεις. Στην εικόνα 3.7 επομένως απεικονίζονται οι κατανομές των topics πάνω στις λέξεις ανά 2 επαναλήψεις για τις 40 πρώτες. Με βάση τα πειράματα στα συνθετικά δεδομένα, είναι προφανής η πολύ καλή συμπεριφορά του LDA σε σχέση με το Bag of Words. Όπως έχει ήδη αναφερθεί διαισθητικά πιστεύαμε ότι η χρήση των topics μπορεί να αποθηκεύσει πληροφορία υψηλότερου επιπέδου σε σχέση με τις λέξεις. Το παραπάνω επιβεβαιώνεται από την καλή συμπεριφορά του LDA τόσο στα συνθετικά δεδομένα όσο και σε πραγματικά δεδομένα βίντεο, τα οποία θα αναλυθούν στο σχετικό κεφάλαιο.

55 ΚΕΦΑΛΑΙΟ 3. LATENT DIRICHLET ALLOCATION ΩΣ ΜΙΑ ΜΕΘΟΔΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΓΕΓΟΝΟΤΩΝ 41 Σχήμα 3.7: Η εξέλιξη των κατανομών των topics πάνω στις λέξεις για τις 40 πρώτες επαναλήψεις.

56 Κεφάλαιο 4 Εισαγωγή χρονικού παράγοντα στο LDA: Εuterpi LDA Στο προηγούμενο κεφάλαιο αναλύθηκε ένας από τους πιο γνωστούς αλγορίθμους topic modeling, το Latent Dirichlet Allocation (LDA) καθώς επίσης και με ποιο τρόπο θα μπορούσε να χρησιμοποιηθεί απευθείας σε δεδομένα βίντεο. Το πρώτο βήμα για να μπορέσει όμως να εφαρμοστεί ένας αλγόριθμος φτιαγμένος για κείμενα σε δεδομένα βίντεο αποτελεί ο ορισμός των εννοιών κείμενο και λέξεις στην περίπτωση του βίντεο. Αποφασίστηκε στην αρχική προσέγγιση, η οποία αναλύθηκε εκτενώς στο κεφάλαιο 3, να θεωρηθεί ότι ολόκληρο το βίντεο είναι το κείμενο και τα μετασχηματισμένα τοπικά χαρακτηριστικά σύμφωνα με το Bag of Words θα λειτουργούν σαν τις λέξεις του κειμένου. Στο συγκεκριμένο κεφάλαιο θα αναλυθεί μια τροποποιημένη προσέγγιση, η βασική διαφορά της οποίας θα είναι στον ορισμό την έννοιας κείμενο στα δεδομένα βίντεο. Πλέον ένα ολόκληρο βίντεο δεν θεωρείται ένα κείμενο, αλλά χωρίζεται σε περισσότερα κείμενα με βασικό παράγοντα το χρόνο. Έναυσμα για τη συγκεκριμένη αλλαγή αποτέλεσε το γεγονός ότι το LDA θεωρεί ότι ένα κείμενο είναι ένα bag of words, με αποτέλεσμα να μην μπορεί να μοντελοποιήσει οποιαδήποτε δομική πληροφορία σχετικά με αυτό. Και στη δική μας περίπτωση αντίστοιχα το LDA στη μορφή που ορίστηκε στο κεφάλαιο 3, δεν είναι σε θέση να αποτυπώσει οποιαδήποτε πληροφορία σχετικά με τη δομή του βίντεο ως προς το χώρο και το χρόνο. Στην περίπτωση των εικόνων οι Wang και Grimson [48] πρότειναν μια παραλλαγή εφαρ- 42

57 ΚΕΦΑΛΑΙΟ 4. ΕΙΣΑΓΩΓΗ ΧΡΟΝΙΚΟΥ ΠΑΡΑΓΟΝΤΑ ΣΤΟ LDA: ΕUTERPI LDA 43 μογής του LDA, το Spatial LDA, έτσι ώστε να άρουν την αδυναμία του πρώτου να κωδικοποιήσει δομική πληροφορία σχετικά με τις εικόνες. Στη δική τους προσέγγιση οι εικόνες χωρίζονται σε περιοχές και κάθε περιοχή αποτελεί ένα κείμενο. Με αυτό τον τρόπο, οι λέξεις που βρίσκονται χωρικά κοντά μεταξύ τους έχουν μεγαλύτερη πιθανότητα να εκχωρηθούν στο ίδιο topic από ότι σε διαφορετικά. Στη δικιά μας υλοποίηση αποφασίστηκε να υιοθετηθεί η κεντρική ιδέα του Spatial LDA με τη διαφορά ότι θα επιχειρήσουμε να ορίσουμε το κείμενο ως προς τη χρονική συνιστώσα, δημιουργώντας έτσι το Euterpi LDA. 4.1 Γενική περιγραφή της μεθόδου Είναι σαφές ότι στόχος της δημιουργίας του Euterpi LDA είναι να αρθεί η αδυναμία του αυθεντικού LDA να κωδικοποιήσει χρονική πληροφορία για το βίντεο. Αρχικά, λοιπόν, στη δική μας προσέγγιση τα τοπικά χαρακτηριστικά διατάσσονται ως προς το χρόνο, για παράδειγμα στην περίπτωση των SIFT η χρονική τους διάταξη ορίζεται με βάση το καρέ προέλευσης των τοπικών χαρακτηριστικών. Στη συνέχεια το βίντεο χωρίζεται σε παράθυρα σταθερού μεγέθους, και κάθε ένα από τα παράθυρα αυτά, αποτελεί ένα κείμενο. Έπειτα εφαρμόζεται Bag of Words στα τοπικά χαρακτηριστικά κάθε παραθύρου δημιουργώντας έτσι τις λέξεις του κειμένου. Τελικά σε κάθε ένα παράθυρο του βίντεο εφαρμόζεται ο LDA υπολογίζοντας τις κατανομές πάνω στα topics. Μια πολύ σημαντική διαφορά μεταξύ του LDA και του Euterpi LDA αποτελεί το γεγονός ότι, στην περίπτωση του πρώτου, κάθε βίντεο κωδικοποιείται από μια κατανομή πάνω στα topics. Αντίθετα στην περίπτωση του Euterpi LDA για κάθε ένα βίντεο υπολογίζονται πολλές κατανομές πάνω στα topics, οι οποίες είναι και διατεταγμένες ως προς το χρόνο. Συνεπώς στην περίπτωση του Euterpi LDA είναι αναγκαίο να βρεθεί κάποια μέθοδος άθροισης (aggregation) αυτών των κατανομών έτσι ώστε να μπορεί να αναπαρασταθεί το βίντεο με ένα διάνυσμα. Συνοψίζοντας τα πέντε βασικά βήματα του Euterpi LDA είναι: 1. Ορισμός χρονικής διάταξης τοπικών χαρακτηριστικών. 2. Χωρισμός του βίντεο σε παράθυρα σταθερού μεγέθους, κάθε ένα από τα οποία ορίζεται ως ένα κείμενο. 3. Εφαρμογή Bag of Words στα τοπικά χαρακτηριστικά κάθε παραθύρου.

58 ΓΕΝΙΚΗ ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ 4. Υπολογισμός της κατανομής κάθε κειμένου πάνω στα topics, από τα οποία αποτελείται το βίντεο, με τη χρήση του LDA. 5. Εφαρμογή μεθόδου άθροισης στις κατανομές πάνω στα topics του βίντεο, έτσι ώστε να δημιουργηθεί μια αναπαράσταση. Στην εικόνα 4.1 παρουσιάζονται όλα τα βήματα τις διαδικασίας του Euterpi LDA. Σχήμα 4.1: Τα βήματα διαδικασίας του Euterpi LDA.

59 ΚΕΦΑΛΑΙΟ 4. ΕΙΣΑΓΩΓΗ ΧΡΟΝΙΚΟΥ ΠΑΡΑΓΟΝΤΑ ΣΤΟ LDA: ΕUTERPI LDA Αναλυτική παρουσίαση της υλοποίησης Στην προηγούμενη παράγραφο παρουσιάσαμε τη μέθοδο του Euterpi LDA στη γενική της μορφή όπως μπορεί να εφαρμοστεί με οποιαδήποτε τοπικά χαρακτηριστικά και με οποιαδήποτε μέθοδο άθροισης κατανομών. Στα πλαίσια της παρούσας διπλωματικής το Euterpi LDA υλοποιήθηκε χρησιμοποιώντας τα IDENSE τοπικά χαρακτηριστικά. Όπως αναλύθηκε στην ενότητα 2.1.3, τα IDENSE υπολογίζονται ανά 15 επικαλυπτόμενα διαδοχικά καρέ. Επομένως η χρονική διάταξη σε αυτά ορίζεται με βάση τα δεκαπέντε καρέ, στα οποία υπολογίζονται. Συνεπώς στη δικιά μας υλοποίηση το παράθυρο βάση του οποίου το βίντεο χωρίζεται σε κείμενα έχει μήκος 15 καρέ. Σύμφωνα με την ενότητα τα IDENSE προκύπτουν με πυκνή δειγματοληψία πάνω στο βίντεο για αυτό άλλωστε είναι συνήθως πάρα πολλά ανά δεκαπεντάδα. Σε επόμενο βήμα εφόσον έχουν υπολογιστεί όλα τα IDENSE τοπικά χαρακτηριστικά για το σύνολο του βίντεο, εφαρμόζεται ο αλγόριθμος Bag of Words σε κάθε μια δεκαπεντάδα ξεχωριστά και υπολογίζει τις λέξεις του κάθε κειμένου. Εφόσον έχουν αναπαρασταθεί τα τοπικά χαρακτηριστικά κάθε κειμένου σύμφωνα με το Bag of Words πλέον μπορεί να εφαρμοστεί άμεσα το LDA βρίσκοντας με τη σειρά του για κάθε κείμενο τις κατανομές πάνω στα topics. Πλέον το βίντεο αναπαριστάται από πολλές κατανομές πάνω στα topics, κάθε μια από τις οποίες αντιστοιχεί στα επιμέρους κείμενα από τα οποία αποτελείται. Για να μπορέσουμε να αθροίσουμε όλες αυτές τις κατανομές πιθανότητας σε μια, υπάρχουν διάφορες προσεγγίσεις, ωστόσο σε αυτή που ακολουθήθηκε στην παρούσα υλοποίηση εκτελείται πρόσθεση όλων των κατανομών και στη συνέχεια κατάλληλη κανονικοποίηση έτσι ώστε όλες οι πιθανότητες να αθροίζουν σε ένα. 4.3 Μέθοδοι άθροισης κατανομών πάνω στα topics Στη συγκεκριμένη ενότητα θα αναλυθούν ορισμένοι μέθοδοι που μπορούν να χρησιμοποιηθούν ως μέθοδοι άθροισης (aggregation methods) των κατανομών πιθανότητας που προκύπτουν από τα επί μέρους κείμενα ενός βίντεο. Μια πολύ σημαντική παράμετρος στην εύρεση κατάλληλης aggregation μεθόδου που πρέπει να ληφθεί υπόψη είναι η μορφή της πληροφορίας που αποτυπώνεται στα δεδομένα μας. Καθώς επίσης και η μορφή του βίντεο, στο οποίο θέλουμε να εντοπίσουμε κάποιο γεγονός. Για παράδειγμα ένα βίντεο μεγάλης διάρκειας, στο οποίο το υπό αναγνώριση γεγονός καταλαμβάνει μι-

60 ΜΕΘΟΔΟΙ ΑΘΡΟΙΣΗΣ ΚΑΤΑΝΟΜΩΝ ΠΑΝΩ ΣΤΑ TOPICS κρό μέρος του χρόνου σε σχέση με ένα ένα άλλο στο οποίο όλο το βίντεο αποτυπώνει το υπό αναγνώριση γεγονός απαιτούν τελείως διαφορετικές μεθόδους άθροισης, καθώς στη μια η πληροφορία που μας ενδιαφέρει προκύπτει από λίγα κείμενα, ενώ στην άλλη όλα τα κείμενα είναι κρίσιμα. Επιπλέον ένα άλλο πολύ ενδιαφέρον θέμα είναι πώς αποτυπώνεται η πληροφορία για το φόντο και τα micro-events, από τα οποία δημιουργείται το γεγονός στις κατανομές πάνω στα topics. Στην περίπτωση του Euterpi LDA κωδικοποιείται επιπλέον πληροφορία σε σχέση με αυτή του LDA. Αν υποθέσουμε ότι η πληροφορία σχετικά με το φόντο κωδικοποιείται από ένα topic, τότε εφόσον το φόντο διατηρείται σταθερό, στο Euterpi LDA περιμένουμε το συγκεκριμένο topic να εμφανίζεται πολύ συχνά. Επομένως αν επιλεχθεί μια aggregation μέθοδος, η οποία ενισχύει τα συχνά εμφανιζόμενα topics θα δοθεί μεγαλύτερη βαρύτητα στο φόντο που δεν μας ενδιαφέρει ουσιαστικά για την αναγνώριση του γεγονότος. Συνεπώς η πιο απλή μέθοδος άθροισης των κατανομών πάνω στα topics για τα κείμενα, από τα οποία αποτελείται το βίντεο είναι ο υπολογισμός του αθροίσματος τους και στη συνέχεια η κανονικοποίηση τους έτσι ώστε να αθροίζουν σε 1. Η συγκεκριμένη μέθοδος είναι η πιο δίκαιη, θα μπορούσε να πει κάνεις καθώς όλες οι κατανομές συνεισφέρουν εξίσου. Εναλλακτικά μια άλλη μέθοδος είναι ο υπολογισμός του γινόμενου όλων των κατανομών, αν θεωρήσουμε ότι ένα γεγονός αποτελείται από ένα micro-event και από ένα άλλο κ.ο.κ. Ωστόσο πολλαπλασιάζοντας τις κατανομές πιθανότητας ενδέχεται να ενισχυθούν topics τα οποία εμφανίζονται τακτικά αλλά δεν περιέχουν χρήσιμη πληροφορία σχετικά με το γεγονός που θέλουμε να αναγνωρίσουμε. Επιπρόσθετα μια άλλη μέθοδος άθροισης που θα μπορούσε να εφαρμοσθεί είναι το max pooling. Δηλαδή από τις κατανομές των topics θα επιλέγεται κάθε φορά η μέγιστη τιμή για κάθε ένα topic. Είναι προφανές ότι όλες οι μέθοδοι που αναφέρθηκαν παραπάνω κωδικοποιούν διαφορετικού είδους πληροφορία, κατά συνέπεια το βέλτιστο θα ήταν να χρησιμοποιηθούν όλες μαζί συγχρόνως.

61 Κεφάλαιο 5 Πειραματικά αποτελέσματα Στο παρόν κεφάλαιο θα αναλυθούν όλα τα πειράματα που εκπονήθηκαν στα πλαίσια της παρούσας διπλωματικής. Στις πρώτες ενότητες του κεφαλαίου 5 θα παρουσιαστεί η δομή του συστήματος που δημιουργήθηκε καθώς επίσης και όλοι οι αλγόριθμοι που δημιουργήθηκαν ή χρησιμοποιήθηκαν απευθείας από βιβλιοθήκες ανοιχτού κώδικα, όπως είναι η OpenCV [4] και το scikit-learn [33]. Τέλος θα αναλυθούν οι διάφορες μετρικές απόδοσης που χρησιμοποιούνται για τη σύγκριση των μεθόδων μας με τις άλλες stateof-the-art μεθόδους. Στη συνέχεια παρουσιάζονται τα πειράματα που εκπονήθηκαν, στα οποία συγκρίνονται οι δυο προτεινόμενες μέθοδοι (LDA, Euterpi LDA) με τις δυο state-of-the-arts μεθόδους τις βιβλιογραφίας τα Fisher Vectors και Bag of Words. Από τα πειραματικά αποτελέσματα φαίνεται η σημαντική βελτίωση που εισάγει η χρήση του LDA για εντοπισμό γεγονότων σε βίντεο. 5.1 Ανάλυση πειραματικής διάταξης του συστήματος Το σύστημα που υλοποιήθηκε για την εκπόνηση όλων των πειραμάτων αποτελείται από τέσσερα βασικά υποσυστήματα, τα οποία είναι προφανή αρκεί να σκεφτεί κάνεις όλη την ανάλυση που έχει προηγηθεί μέχρι στιγμής. Σε πρώτο βήμα για κάθε βίντεο από μια συλλογή δεδομένων εξάγονται τοπικά χαρακτηριστικά. Στη συνέχεια αυτά τα το- 47

62 ΑΝΑΛΥΣΗ ΠΕΙΡΑΜΑΤΙΚΗΣ ΔΙΑΤΑΞΗΣ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ πικά χαρακτηριστικά μετασχηματίζονται σε ολικά. Τελικά τα μετασχηματισμένα ολικά χαρακτηριστικά ταξινομούνται με κάποιον ταξινομητή και με βάση διάφορες μετρικές απόδοσης εξετάζουμε ποιοτικά το αποτέλεσμα της ταξινόμησης. Όλα τα παραπάνω αναλύονται εκτενώς στη συνέχεια Τοπικά χαρακτηριστικά Τα τοπικά χαρακτηριστικά που χρησιμοποιήθηκαν είναι τα SIFT, τα IDENSE και τα STIP. Τα συγκεκριμένα επιλέχθηκαν με γνώμονα το ότι χρησιμοποιούνται ευρέως στη βιβλιογραφία σε αντίστοιχα προβλήματα εντοπισμού γεγονότων σε βίντεο. Θα μπορούσαν να χρησιμοποιηθούν και άλλα ευρέως διαδεδομένα τοπικά χαρακτηριστικά, όπως για παράδειγμα τα Motion SIFT (MoSIFT) [9] ή τα Transformed Color Histogram (TCH) [44]. Ωστόσο αφενός τα τρία προαναφερθέντα τοπικά χαρακτηριστικά που χρησιμοποιήσαμε έχουν πολύ ικανοποιητικά αποτελέσματα και αφετέρου η προσθήκη επιπλέον τοπικών χαρακτηριστικών δεν αλλάζει αισθητά τα ποιοτικά αποτελέσματα των πειραμάτων SIFT - Scale Invariant Feature Transform Στην περίπτωση των εικόνων τα SIFT δεν υπολογίζονται απευθείας σε όλη την εικόνα αλλά συνηθίζεται να διαιρείται η εικόνα σε περιοχές (patches) και σε κάθε μια τέτοια περιοχή να εντοπίζονται SIFT τοπικά χαρακτηριστικά. Και στη δικιά μας υλοποίηση τα SIFT υπολογίζονται σε επικαλυπτόμενα τετράγωνα patches μεγέθους 10 10, τα οποία λαμβάνονται κάθε 5 εικονοστοιχεία. Επιπλέον ένα βίντεο ενδέχεται να αποτελείται από πάρα πολλά καρέ, για αυτό αρχικά δειγματοληπτείται έτσι ώστε να προκύψουν τα καρέ, από τα οποία εφόσον έχουν χωριστεί σε pathes θα υπολογιστούν τα τοπικά χαρακτηριστικά. Η δειγματοληψία γίνεται ανά 5 καρέ. Για τον εντοπισμό των SIFT τοπικών χαρακτηριστικών χρησιμοποιήθηκε η υλοποίηση της OpenCV [4], απευθείας στα patches, με τις εξ ορισμού παραμέτρους που προτείνονται IDENSE - Improved Dense Trajectories H υλοποίηση των IDENSE 1 δίνεται από τον Wang [47] και χρησιμοποιήθηκε μετά από κατάλληλες τροποποιήσεις έτσι ώστε να είναι συμβατή με τα δεδομένα των πειραμάτων 1

63 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 49 μας. Στην περίπτωση των IDENSE υπολογίζονται όλοι οι descriptors (HOG, HOF, MBHx, MBHy, Trajectory), οι οποίοι στη συνέχεια χρησιμοποιούνται ως έχουν στα επόμενα στάδια της διαδικασίας. Ομοίως και στην περίπτωση των IDENSE χρησιμοποιήθηκαν οι παράμετροι που προτείνονται από τους συγγραφείς STIP - Spatio Temporal Interest Points Η υλοποίηση των STIP 2 δίνεται και αυτή από τον Laptev [25] και χρησιμοποιήθηκε έπειτα από κατάλληλες αλλαγές. Οι HOG, HOF descriptors που υπολογίζονται για τα STIP τοπικά χαρακτηριστικά χρησιμοποιούνται απευθείας στα επόμενα στάδια. Οι προτεινόμενες από τους συγγραφείς παράμετροι χρησιμοποιούνται και εδώ αυτούσιες Ολικά χαρακτηριστικά Τα ολικά χαρακτηριστικά χρησιμοποιούνται ως μια μέθοδος αναπαράστασης των τοπικών χαρακτηριστικών με ένα διάνυσμα. Στις ενότητες και αναλύθηκαν οι δυο state-of-the-art αλγόριθμοι τα Bag of Words και τα Fisher Vectors αντίστοιχα. Στα πλαίσια της παρούσας διπλωματικής υλοποιήθηκαν και οι δυο αλγόριθμοι και αναλυτικές πληροφορίες σχετικά με τις υλοποιήσεις τους δίνονται στη συνέχεια BOW - Βag of Words Πρώτο βήμα στον μετασχηματισμό των τοπικών χαρακτηριστικών σύμφωνα με το Bag of Words μοντέλο αποτελεί η εκμάθηση ενός κατάλληλου λεξιλογίου. Για τον υπολογισμό του συγκεκριμένου λεξιλογίου δεν χρησιμοποιούνται όλα τα τοπικά χαρακτηριστικά αλλά δειγματοληπτούνται τυχαία σημεία και με βάση αυτά υπολογίζεται το λεξιλόγιο. Ως μέθοδος δειγματοληψίας χρησιμοποιείται το Reservoir Sampling [45]. Συνεπώς εφόσον έχουμε τα δειγματοληπτημένα τοπικά χαρακτηριστικά στη συνέχεια εκτελείται κάποιος αλγόριθμος ομαδοποίησης δημιουργώντας έτσι τις λέξεις του λεξιλογίου. Στη βιβλιογραφία ενδεικτικά μεγέθη λεξιλογίων για δεδομένα βίντεο κυμαίνονται από 200 μέχρι μερικές χιλιάδες λέξεις. Στην παρούσα διπλωματική όλα τα BOW μοντέλα έχουν υπολογιστεί με 1000 λέξεις. Ο αλγόριθμος ομαδοποίησης που χρησιμοποιήθηκε για τη δημιουργία του λεξιλογίου είναι ο KMeans [27] από το scikit-learn [33]. Συγκεκριμένα γίνονται 10 τυχαίες εκκινήσεις και εκτελέσεις του αλγορίθμου έτσι ώστε να επιτευχθούν τα βέλτιστα κέντρα. 2

64 ΑΝΑΛΥΣΗ ΠΕΙΡΑΜΑΤΙΚΗΣ ΔΙΑΤΑΞΗΣ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ Τέλος εφόσον έχει υπολογιστεί το λεξιλόγιο όλα τα τοπικά χαρακτηριστικά μετασχηματίζονται ως συχνότητες εμφάνισης λέξεων του λεξιλογίου σύμφωνα με τη σχέση Fisher Vectors Ο δεύτερος state-of-the-art αλγόριθμος μετασχηματισμού σε ολικά χαρακτηριστικά υλοποιήθηκε απευθείας σύμφωνα με το [34]. Για τον υπολογισμό του GMM (Gaussian Mixture Model) χρησιμοποιήθηκε η υλοποίηση από το scikit-learn. Ομοίως με τα BOW, αρχικά δειγματοληπτούνται τυχαία σημεία από όλα τα τοπικά χαρακτηριστικά που έχουμε στη διάθεση μας. Στο σύνολο αυτών των σημείων προπονείται στη συνέχεια ένα GMM με 256 Gaussians. Οι Perronnin και Dance προτείνουν στη δημοσίευση που εισήγαγε τα Fisher Vectors την εισαγωγή ενός επιπλέον επιπέδου κανονικοποίησης στα ολικά χαρακτηριστικά που έχουν προκύψει. Συγκεκριμένα προτείνεται εφαρμογή κανονικοποίησης ισχύος και L2 κανονικοποίησης. Το συγκεκριμένα επίπεδο κανονικοποίησης εισάγει σημαντική βελτίωση όταν χρησιμοποιούνται ταυτόχρονα πολλά ολικά χαρακτηριστικά κάποιων τοπικών χαρακτηριστικών. Για παράδειγμα αν έχουμε μόνο έναν descriptor κάποιου τοπικού χαρακτηριστικού και τον μετασχηματίσουμε σύμφωνα με τα Fisher Vectors, η εφαρμογή της παραπάνω κανονικοποίησης δεν εισάγει κάποια βελτίωση. Αντίθετα αν υποθέσουμε ότι έχουμε πολλούς descriptors και τα Fisher Vectors αυτών κανονικοποιούνται με κανονικοποίηση ισχύος και L2 κανονικοποίηση βελτιώνεται σημαντικά η αναπαράσταση. Σε όλα τα πειράματα που θα παρουσιαστούν στη συνέχεια τα Fisher Vectors κανονικοποιούνται όπως προαναφέραμε Υλοποίηση Latent Dirichlet Allocation (LDA) Στο κεφάλαιο 3 αναλύθηκαν οι δυο μέθοδοι εύρεσης των παραμέτρων του LDA με Expecation Maximazation και με Gibbs Sampling. Στα πλαίσια της παρούσας διπλωματικής χρησιμοποιήθηκε η υλοποίηση του [36], η οποία εφαρμόζει Gibbs Sampling 3 για την εύρεση των κρυφών μεταβλητών. Έπειτα από διάφορους πειραματισμούς διαπιστώσαμε ότι για τα δεδομένα μας συνήθως απαιτούνται 1500 επαναλήψεις μέχρι να αρχίσει να συγκλίνει η loglikelihood συνάρτηση. 3

65 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 51 Για την εύρεση του βέλτιστου πλήθους topics πραγματοποιήθηκαν πειράματα στα οποία εξετάστηκαν διαφορετικά πλήθη από topics ως προς την ακρίβεια του αποτελέσματος ταξινόμησης. Τα καλύτερα αποτελέσματα εμφανίζονται για topics που κυμαίνονται από 80 μέχρι 200 για ένα λεξιλόγιο μεγέθους 1000 λέξεων. Το πλήθος των topics εκλέγεται μικρότερο από το αντίστοιχο πλήθος των λέξεων, χωρίς ωστόσο να υπάρχει κάποιος κανόνας που να μπορεί να μας πει με ακρίβεια πόσα topics να χρησιμοποιήσουμε Ταξινομητές Στην παρούσα εργασία χρησιμοποιήθηκαν διάφοροι ταξινομητές στα πειράματα που εκτελέστηκαν και παρουσιάζονται αναλυτικά στη συνέχεια, έτσι ώστε να συγκριθούν οι διάφορες υλοποιήσεις, ως προς την ικανότητα τους να διαχωρίσουν τις κατηγορίες των γεγονότων μεταξύ τους. Στην περίπτωση του LDA χρησιμοποιήθηκε σε συνδυασμό με γραμμικό SVM καθώς επίσης και με SVM με μη γραμμικό πυρήνα (RBF SVM). Επιπλέον υλοποιήθηκε και ένας πιθανοτικός ταξινομητής, ο οποίος βασίζεται στην ανάλυση που έγινε στην ενότητα 3.4. Από την άλλη οι δυο άλλες state-of-the-art μέθοδοι με τους οποίες συγκρίνεται το LDA και το Euterpi LDA, τα Fisher Vectors και τα Bag of Words, χρησιμοποιούνται σε συνδυασμό μόνο με γραμμικό SVM SVM O SVM που χρησιμοποιείται σε όλα τα πειράματα στη συνέχεια βασίζεται στην υλοποίηση του scikit-learn με LIBLINEAR [12]. Εναλλακτικά θα μπορούσε να είχε χρησιμοποιηθεί και το LIBSVM [8], ωστόσο επιλέχθηκε LIBLINEAR με τις προεπιλεγμένες παραμέτρους. Η πιο σημαντική παράμετρος η οποία κρίνεται χρήσιμο να αναφερθεί είναι η ποινή λάθους ταξινόμησης C, η οποία λαμβάνεται ίση με 1. Είναι προφανές ότι θα μπορούσαμε να πειραματιστούμε και με διαφορετικές τιμές του C, ωστόσο κάτι τέτοιο δεν κρίνεται σκόπιμο για τα ποιοτικά αποτελέσματα των πειραμάτων μας Bayesian πιθανοτικός ταξινομήτης Η υλοποίηση του πιθανοτικού ταξινόμητη βασίζεται εξολοκλήρου στην ανάλυση της ενότητας 3.4 και μπορεί να προκύψει άμεσα απλά ακολουθώντας τις μαθηματικές σχέσεις που δόθηκαν στη συγκεκριμένη παράγραφο.

66 ΑΝΑΛΥΣΗ ΠΕΙΡΑΜΑΤΙΚΗΣ ΔΙΑΤΑΞΗΣ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ RBF SVM Καθώς τα δεδομένα που προκύπτουν από το LDA είναι λίγων διαστάσεων αποφασίστηκε να χρησιμοποιηθεί ένας μη γραμμικός ταξινομητής και συγκεκριμένα ο SVM με RBF kernel από το scikit-learn. Οι δυο βασικοί παράμετροι του, C και γ, προκύπτουν με αναζήτηση από ένα σύνολο τιμών εκτελώντας cross validation με τρία τμήματα. Σε αρχικά πειράματα που πραγματοποιήθηκαν διαπιστώθηκε ότι οι εξ ορισμού τιμές των παραμέτρων δεν δίνουν ικανοποιητικά αποτελέσματα, επομένως είναι αναγκαίο να γίνει μια προσπάθεια πρόβλεψης τους. H παράμετρος C, αποτελεί την ποινή για κάθε λάθος ταξινόμηση, ενώ η παράμετρος γ είναι ενδεικτική της επιρροής κάθε δείγματός. Όσον αφορά το γ, με μικρές τιμές του αυξάνεται η δυσκολία μοντελοποίησης της πολυπλοκότητας των δεδομένων Μετρικές απόδοσης Στη συγκεκριμένη παράγραφο θα αναλυθούν οι διάφορες μετρικές απόδοσης, που θα χρησιμοποιηθούν κατά κύριο λόγο στα πειράματα που ακολουθούν, για τη σύγκριση των διαφόρων μεθόδων ταξινόμησης. Σε ορισμένες περιπτώσεις που η χρήση των τριών μετρικών δεν μας επιτρέπει να εξάγουμε ποιοτικά συμπεράσματα θα χρησιμοποιήσουμε και άλλες μετρικές απόδοσης, ευρέως γνωστές στη βιβλιογραφία. Σε όλα τα πειράματα χωρίζουμε κάθε φορά τη συλλογή δεδομένων μας τυχαία σε ένα σύνολο εκπαίδευσης (training set), το οποίο ισούται με τα 2 3 αυτής και σε ένα σύνολο εξέτασης (test set), το οποίο ισούται με το υπόλοιπο 1 3 της συλλογής. Η παραπάνω διαδικασία επαναλαμβάνεται τρεις φορές και κάθε φορά υπολογίζονται οι μετρικές που μας ενδιαφέρουν Πίνακας Σύγχυσης (Confusion matrix) Ένας πίνακας σύγχυσης ή μήτρα σύγχυσης (confusion matrix) χρησιμοποιείται για να δείξει την ακρίβεια λύσης σε ένα πρόβλημα. Αν υποθέσουμε ότι έχουμε m διακριτές κλάσεις που θέλουμε να αναγνωρίσουμε, τότε ο confusion matrix είναι ένας πίνακας μεγέθους m m, όπου κάθε στοιχείο C i,j δείχνει τα δεδομένα που εκχωρήθηκαν στην κατηγορία C i ενώ στα αλήθεια άνηκαν στην κατηγορία C j. Στόχος είναι κατά συνέπεια όλες οι τιμές εκτός της διαγωνίου να είναι μηδενικές. Συνηθίζεται οι τιμές των δεδομένων να απεικονίζονται με διαφορετικές εντάσεις του ίδιου χρώματος, επομένως όσο πιο έντονο είναι το χρώμα κάθε θέσης του πίνακα τόσο πιο πολλά δεδομένα έχουν εκ-

67 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 53 χωρηθεί στην κατηγορία, στην οποία αντιστοιχεί αυτή η θέση. Είναι προφανές δηλαδή, ότι στόχος μας είναι η κεντρική διαγώνιος να χρωματίζεται με έντονο χρώμα, ενώ όλες οι υπόλοιπες θέσεις του πίνακα να είναι λευκές Μέση ακρίβεια (Mean Average precision) Πριν ορίσουμε τη μετρική Average precision είναι αναγκαίο να ορίσουμε δυο άλλες πολύ σημαντικές μετρικές, την ακρίβεια (precision) και την ανάκληση (recall). Η μετρική precision εκφράζει πόσα από τα δεδομένα που ο ταξινομητής έχει ταξινομήσει ως θετικά είναι όντως θετικά. Όσο πιο μεγάλο είναι το precision, τόσο μικρότερη είναι η πιθανότητα να ταξινομηθούν αρνητικά δεδομένα ως θετικά. Η μετρική recall εκφράζει πόσα από τα θετικά δεδομένα κατάφερε ο ταξινόμητης να βρει. Όσο πιο μεγάλο είναι το recall τόσο λιγότερα θετικά δεδομένα έχουν ταξινομηθεί λάθος. Θα μπορούσαμε επομένως να πούμε ότι το recall εκφράζει την ικανότητα του συστήματος να βρίσκει όλα τα θετικά δεδομένα, ενώ το precision να βρίσκει μόνο τα θετικά δεδομένα. Στη μετρική Average precision αποτιμάται η ικανότητα του αλγορίθμου να διατάσσει τα δεδομένα σε μια σειρά, με τέτοιο τρόπο ώστε αυτά που ανήκουν σε μια συγκεκριμένη κατηγορία να είναι πρώτα. Η συγκεκριμένη μετρική εκφράζει το εμβαδόν κάτω από την precision-recall καμπύλη για αυτό και μπορεί να υπολογιστεί από τη σχέση Average_precision = p(r)dr (5-1) 0 Όπως το precision και το recall έτσι και το average precision ορίζεται σε προβλήματα που θέλουμε να αναγνωρίσουμε μια κατηγορία από όλες τις άλλες. Συνεπώς για προβλήματα πολλών κατηγοριών ορίζεται το Mean Average Precision, το οποίο είναι η μέση τιμή των average precision για κάθε κατηγορία Mέση πιστότητα (Mean accuracy) H μετρική πιστότητα (accuracy) εκφράζει πόσα από αυτά που βρίσκει ο ταξινομητής είναι όντως σωστά, ως προς τα συνολικά δεδομένα. Πρακτικά δηλαδή πόσα από αυτά που λέει θετικά είναι όντως θετικά και πόσα από αυτά που λέει ότι είναι αρνητικά είναι όντως αρνητικά. Προφανώς το Mean accuracy αποτελεί τον μέσο όρο των αντίστοιχων τιμών πιστότητας που προκύπτουν κάθε φορά που χωρίζουμε τα δεδομένα μας. Συνεπώς αν υποθέσουμε

68 ΣΥΛΛΟΓΕΣ ΒΙΝΤΕΟ ότι έχουμε N διαφορετικά δεδομένα και C j διαφορετικές κλάσεις, η μέση πιστότητα δίνεται από τη σχέση 5-2, όπου C j η πραγματική κλάση στην οποία ανήκει το δείγμα και Ĉj, η κλάση στην οποία προβλέπει ο αλγόριθμος ότι ανήκει το δείγμα. MAC 1 N N j=1 { 1 Cj = Ĉj 0 αλλού (5-2) 5.2 Συλλογές βίντεο Στη συγκεκριμένη ενότητα θα αναλυθούν όλες οι συλλογές βίντεο (datasets) με τις οποίες πειραματιστήκαμε στα πλαίσια της παρούσας διπλωματικής. Ένα από τα πιο δημοφιλή datasets στη βιβλιογραφία είναι το KTH [38]. Το KTH αποτελείται από τις παρακάτω 6 κατηγορίες ανθρώπινων κινήσεων: Περπάτημα Χαλαρό τρέξιμο (jogging) Τρέξιμο Πυγμαχία Κίνηση των χεριών Χτύπημα παλαμάκια Κάθε κατηγορία αποτελείται συνολικά από 100 βίντεο, ασπρόμαυρης εικόνας. Τα βίντεο έχουν τραβηχτεί με σταθερή κάμερα και είναι συνήθως διάρκειας λίγων δευτερολέπτων. Η χρήση του συγκεκριμένου dataset προτείνεται συνήθως στα αρχικά στάδια υλοποίησης καθώς είναι πολύ εύκολο. Στην παρούσα διπλωματική δεν συμπεριλαμβάνονται πειραματικά δεδομένα από το KTH καθώς λόγω χαμηλής δυσκολίας όλοι οι συγκρινόμενοι αλγόριθμοι είχαν εξίσου καλά αποτελέσματα, τα οποία για όλους ήταν σχεδόν βέλτιστα. Αναφέρουμε το συγκεκριμένο dataset αφενός επειδή χρησιμοποιείται ευρέως στη βιβλιογραφία και αφετέρου γιατί στα πρώτα στάδια της διπλωματικής χρησιμοποιήθηκε για να διαπιστωθεί η ορθότητα των προτεινόμενων μεθόδων. Στις ενότητες που ακολουθούν αναλύονται οι δυο βασικές συλλογές βίντεο, τις οποίες χρησιμοποιήσαμε για την εκτέλεση των πειραμάτων.

69 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ UCF Sports Action Dataset Η πρώτη συλλογή δεδομένων που χρησιμοποιείται σε όλα τα πειράματα που εκπονήθηκαν είναι το UCF Sports Action 4 [37]. Το συγκεκριμένο dataset αποτελείται συνολικά από 10 κατηγορίες, οι οποίες σχετίζονται με διάφορα αθλήματα, όπως για παράδειγμα κατάδυση ή ιππασία. Κάθε κατηγορία αυτής της κλάσης έχει από 6 μέχρι 22 βίντεο. Στην εικόνα 5.1 παρουσιάζεται το πλήθος των βίντεο ανά κατηγορία. Σχήμα 5.1: Πλήθος βίντεο ανά κατηγορία στο UCF Sports Actions. Από την εικόνα 5.1 παρατηρούμε ότι στο συγκεκριμένο dataset οι κατηγορίες είναι γενικά πολύ ανομοιόμορφες. Κάτι, το οποίο ίσως είναι το μεγαλύτερο μειονέκτημα του UCF Sports Actions dataset καθώς κατά τον χωρισμό του σε σύνολο εκπαίδευσης (training set) και εξέτασης (test set) πολλές κατηγορίες έχουν μόλις 2 βίντεο. Επιπρόσθετα πολλά από τα βίντεο του αποτελούνται από πολύ λίγα καρέ, ενδεικτικά να αναφέρουμε ότι υπάρχουν βίντεο, τα οποία αποτελούνται από 16 καρέ συνολικά. Ωστόσο ένα σημαντικό πλεονέκτημα του συγκεκριμένου dataset αποτελεί το γεγονός ότι καθώς είναι σχετικά μικρό σε μέγεθος τα τοπικά χαρακτηριστικά καθώς επίσης και τα αντίστοιχα ολικά μπορούν να υπολογιστούν πολύ γρήγορα. Μια σημαντική παρατήρηση που πρέπει να γίνει σε αυτό το σημείο, αποτελεί το γεγονός ότι η κλάση Golf-Swing και Kicking αποτελούνται από υποκατηγορίες κινήσεων. Στα πειράματα που έγιναν κάθε μια τέτοια υποκατηγορία θεωρείται ως μια ξεχωριστή 4

70 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA κατηγορία με αποτέλεσμα να έχουμε εν τέλει 13 και όχι 10 κατηγορίες. Το παραπάνω είχε στόχο να διαπιστώσει κατά πόσο οι υπό εξέταση μέθοδοι είναι σε θέση να αναγνωρίζουν μικρές διαφορές μεταξύ των γεγονότων UCF11 (UCF Youtube) Η δεύτερη συλλογή δεδομένων που χρησιμοποιείται είναι το UCF11 5 [26]. Το συγκεκριμένο dataset αποτελείται από 11 κατηγορίες κάθε μια από τις οποίες περιέχει 100 βίντεο. Το εν λόγω dataset επιλέχθηκε με βασικό κριτήριο το γεγονός ότι θέλαμε να πειραματιστούμε με πιο δύσκολα βίντεο, τα οποία ωστόσο να ήταν διαχειρίσιμα με τους υπολογιστικούς πόρους που είχαμε στη διάθεση μας. Η πλειοψηφία των βίντεο σχετίζεται και εδώ με αθλήματα, ωστόσο πλέον τα βίντεο είναι αρκετά πιο σύνθετα καθώς υπάρχει κίνηση της κάμερας και αρκετός θόρυβος στο φόντο. Επιπλέον τα βίντεο είναι μεγαλύτερης διάρκειας και σε κάποια από αυτά το υπό αναγνώριση γεγονός καταλαμβάνει μικρό μέρος του χρόνου. Το σημαντικότερο πλεονέκτημα του UCF11 αποτελεί η ισορροπία μεταξύ των κατηγοριών. 5.3 Πειράματα με LDA Στη συγκεκριμένη ενότητα θα αναλυθούν όλα τα πειράματα που εκπονήθηκαν με στόχο να δείξουμε την ανταγωνιστική συμπεριφορά του LDA σε σχέση με τα Fisher Vectors και τα Bag of Words, που αποτελούν τις δυο state-of-the-art μεθόδους για την αναπαράσταση των τοπικών χαρακτηριστικών. Όλα τα πειράματα πραγματοποιήθηκαν και στις δυο συλλογές βίντεο που παρουσιάστηκαν στην ενότητα 5.2. Το LDA χρησιμοποιείται σε συνδυασμό με γραμμικό, μη γραμμικό και πιθανοτικό ταξινομήτη. Τα αποτελέσματα που προκύπτουν, αναλύονται σε αντίστοιχες ενότητες και στη συνέχεια συγκρίνονται με τα αποτελέσματα των Bag of Words και Fisher Vectors με γραμμικό ταξινομητή. H σύγκριση των μεθόδων γίνεται κάθε φορά με βάση τις μετρικές απόδοσης που αναλύθηκαν στην παράγραφο Σε αυτό το σημείο κρίνεται σκόπιμο να δοθούν μερικές επιπλέον πληροφορίες σχετικά με τη γενική δομή των πειραμάτων της συγκεκριμένης ενότητας. Εφόσον έχουν εξαχθεί τα τοπικά χαρακτηριστικά σε επόμενο βήμα υπολογίζονται από αυτά τα ολικά χαρακτηριστικά που επιθυμούμε να συγκρίνουμε. Όσον αφορά τα ολικά χαρακτηριστικά που 5

71 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 57 έχουν εξαχθεί σύμφωνα με Bag of Words, έχουν προκύψει με βάση ένα λεξιλόγιο 1000 λέξεων. Στη συνέχεια τα BOW ολικά χαρακτηριστικά κανονικοποιούνται αφαιρώντας από όλα τη μέση τιμή και διαιρώντας με την τυπική τους απόκλιση. Όσον αφορά τα Fisher Vectors, το μόνο σημείο που κρίνεται σκόπιμο να αποσαφηνιστεί είναι το γεγονός ότι εφόσον έχουν υπολογιστεί τα εν λόγω ολικά χαρακτηριστικά στη συνέχεια κανονικοποιούνται με κανονικοποίηση ισχύος και L2-κανονικοποίηση. Σε κάθε πείραμα υπολογίζονται όλοι οι δυνατοί συνδυασμοί των descriptors, που έχουν μετασχηματιστεί με κάποια μέθοδο σε ολικά χαρακτηριστικά. Για κάθε έναν από τους παραπάνω συνδυασμούς τα επιμέρους ολικά χαρακτηριστικά ενώνονται δημιουργώντας ένα μεγαλύτερο. Στη συνέχεια με τη χρήση κάποιου ταξινομητή αξιολογείται η επιτυχία της συγκεκριμένης αναπαράστασης. Για παράδειγμα αν σε ένα πείραμα έχουμε επιλέξει να χρησιμοποιήσουμε SIFT, IDENSE HOF, IDENSE HOG, IDENSE Trajectory, IDENSE MBHy και IDENSE MBHx με Fisher Vectors, τότε συνολικά προκύπτουν 63 διαφορετικοί δυνατοί συνδυασμοί για τους οποίους θα υπολογιστούν όλες οι μετρικές απόδοσης LDA με γραμμικό ταξινομητή Στο συγκεκριμένο πείραμα εξετάζεται η ικανότητα του LDA ως μέθοδος αναπαράστασης με σκοπό την ταξινόμηση. Σε ένα σύνολο από ολικά χαρακτηριστικά εφαρμόζεται LDA για διαφορετικό πλήθος topics κάθε φορά και στη συνέχεια για όλους τους δυνατούς συνδυασμούς αυτών εκτελείται ταξινόμηση με χρήση ενός γραμμικού SVM. Αναλυτικά τα τοπικά χαρακτηριστικά από τα οποία δημιουργούμε τα ολικά που χρησιμοποιούμε είναι: 1. SIFT descriptor 2. IDENSE HOF descriptor 3. IDENSE HOG descripor 4. IDENSE MBHx descriptor 5. IDENSE MBHy descripor 6. IDENSE Trajectory descripor 7. STIP HOF descriptor 8. STIP HOG descripor

72 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Πειραματικά δεδομένα από το UCF Sports Action Dataset Στα πειράματα που εκτελέστηκαν με το UCF Sports Action Dataset υπολογίστηκε LDA με 10, 13, 20, 40, 50, 80, 100, 150, 200 και 300 διαφορετικά topics. Συνεπώς για το συγκεκριμένο πλήθος τοπικών χαρακτηριστικών και για τις διάφορες τιμές των topics προκύπτουν συνολικά 2550 διαφορετικοί συνδυασμοί (2 πλήθος descriptor πλήθος topics), οι οποίοι πρέπει να εξεταστούν. Όπως έχει ήδη αναφερθεί η συλλογή δεδομένων χωρίζεται σε ένα σύνολο εκπαίδευσης και ένα σύνολο εξέτασης. Τα αποτελέσματα του SVM συγκρίνονται με τα πραγματικά δεδομένα του συνόλου εξέτασης διαμορφώνοντας έτσι τις μετρικές απόδοσης που αναλύθηκαν σε προηγούμενη ενότητα. Η παραπάνω διαδικασία επαναλαμβάνεται 3 φορές έτσι ώστε να υπολογιστούν οι μέσες τιμές των μετρικών accuracy και average precision. Πλήθος topics Βέλτιστος συνδυασμός τοπικών χαρακτηριστικών MAP MAC 10 SIFT, I_HOF, I_MBHx, I_Traj, S_HOF, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj I_HOG, I_HOF, I_MBHx, I_Traj, S_HOF, S_HOG SIFT, I_HOG, I_MBHx, I_Traj, S_HOF SIFT, I_MBHx, I_Traj, S_HOG, SIFT, I_HOG, I_MBHx, I_MBHy, I_Traj SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOF SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_MBHx, I_Traj SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_MBHy, I_Traj SIFT, I_HOG, I_MBHx, I_MBHy, I_Traj SIFT, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHy, I_Traj, S_HOG, S_HOF SIFT, I_MBHx, I_Traj SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj SIFT, I_MBHx, I_MBHy, S_HOG I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG Πίνακας 5.1: Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικά πλήθη topics ως προς MAP και MAC στο UCF Sports Action Dataset. Στον πίνακα 5.1 συνοψίζονται για τα τα διαφορετικά πλήθη topics οι βέλτιστοι συνδυασμοί ως προς τις μετρικές Mean Average Precision (MAP) και Mean Accuracy (MAC).

73 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 59 Οι συνδυασμοί γράφονται σε συντομογραφία με τον I να υποδηλώνει IDENSE και το S STIP. Από τον πίνακα 5.1 μπορούν να εξαχθούν πολύ σημαντικά συμπεράσματα για τα ίδια τα τοπικά χαρακτηριστικά που χρησιμοποιούνται. Αρχικά παρατηρούμε ότι ότι τα SIFT, τα IDENSE MBHx και τα IDENSE Trajectory εμφανίζονται σε συνολικά 18 από τους 20 βέλτιστους συνδυασμούς. Ενώ τα αμέσως λιγότερο συχνά εμφανιζόμενα τοπικά χαρακτηριστικά είναι τα IDENSE MBHy με 13 εμφανίσεις στο σύνολο των βέλτιστων συνδυασμών. Με βάση τα παραπάνω διαπιστώνεται άμεσα ποια τοπικά χαρακτηριστικά λειτουργούν πολύ καλά με το LDA. Στον πίνακα 5.2 ανακεφαλαιώνονται οι βέλτιστες τιμές των Mean Average Precision (MAP) και Mean Accuracy (MAC) καθώς επίσης και το πλήθος των topics για το οποίο αυτές σημειώνονται. Επομένως συμπεραίνουμε ότι για ένα λεξιλόγιο 1000 λέξεων απαιτούνται συνήθως μερικές εκατοντάδες topics για να έχουμε ικανοποιητικά αποτελέσματα. Βέλτιστη Τιμή Πλήθος topic MAC MAP Πίνακας 5.2: Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση γραμμικού ταξινομητή SVM ως προς των αριθμό των topics στο UCF Sports Action Dataset. Ένα από τα πιο σημαντικά πλεονεκτήματα της χρήσης του LDA αποτελεί το γεγονός ότι πετυχαίνει ικανοποιητικά αποτελέσματα ακόμα και όταν χρησιμοποιεί μόλις 10 topics. Η συγκεκριμένη παρατήρηση δεν είναι αμελητέας σημασίας αρκεί να σκεφτεί κανείς ότι τα Fisher Vectors απαιτούν πολλές χιλιάδες διαστάσεις για να αναπαραστήσουν τα τοπικά χαρακτηριστικά. Ο μικρός αριθμός διαστάσεων επιτρέπει ταχύτατη εκπαίδευση του μοντέλου, κάτι το οποίο είναι πολύ σημαντικό κυρίως όταν έχουμε να διαχειριστούμε πάρα πολλά βίντεο. Επίσης επιτρέπει τη χρήση πολύπλοκων μη γραμμικών ταξινομητών. Ένα σημαντικό σημείο, που χρήζει διερεύνησης αποτελεί η εύρεση των κατηγοριών, τις οποίες ο γραμμικός SVM δυσκολεύεται να διαχωρίσει. Ένας άμεσος τρόπος για να γίνει αυτό αποτελεί η μελέτη των confusion matrices. Για τον σκοπό αυτό υπολογίσθηκαν οι κανονικοποιημένοι πίνακες σύγχυσης (confusion matrices) με βάση και τις τρεις επαναλήψεις για τους δυο βέλτιστους συνδυασμούς ως προς MAC και MAP και παρουσιάζονται στις εικόνες 5.2 και 5.3. Μια σημαντική διαφορά των δυο confusion matrices αποτελεί το γεγονός ότι στην ει-

74 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Σχήμα 5.2: Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAC κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset. Σχήμα 5.3: Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAP κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset.

75 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 61 κόνα 5.2 η κατηγορία Diving Side έχει βρεθεί τέλεια από τον αλγόριθμο, ενώ αντίθετα από την εικόνα 5.3 είναι προφανές ότι η συγκεκριμένη κατηγορία έχει ταξινομηθεί τελείως λάθος, ως Swing Bench. Όσον αφορά τις υπόλοιπες κατηγορίες και στους δυο συνδυασμούς ο αλγόριθμος μπερδεύει κυρίως την κλάση Kicking Front με την Kicking Side και αντίστροφα. Τα βίντεο των συγκεκριμένων δυο κατηγοριών δείχνουν ποδοσφαιριστές που κλωτσάνε μια μπάλα από μπροστά και από το πλάι ανάλογα την κατηγορία, ωστόσο καθώς είναι μικρής διάρκειας και χαμηλής ανάλυσης δεν είναι πολύ εύκολα διαχωρίσιμα ακόμα και από το ανθρώπινο μάτι. Δυο άλλες κατηγορίες που επίσης δεν διαχωρίζονται σωστά είναι η Kicking Front με την Golf Swing Front. H αδυναμία του αλγορίθμου ωστόσο να τις διαχωρίσει, αιτιολογείται από τη δομή της συλλογής δεδομένων. Καθώς η κλάση Golf Swing Front έχει μόλις 5 βίντεο ενώ αντίθετα η κλάση Kicking Front έχει 10. Είναι επομένως προφανές ότι τα 5 βίντεο δεν περιέχουν αρκετή πληροφορία και εκτός αυτού οι βασικές κινήσεις είναι παρόμοιες. Με βάση τα confusion matrices των εικόνων 5.2 και 5.3 φαίνεται ότι οι κατανομές πάνω στα topics, αποτελούν μια πολύ καλή αναπαράσταση των τοπικών χαρακτηριστικών. Τέλος στην εικόνα 5.4 παρουσιάζονται τα confusion matrices για τους βέλτιστους συνδυασμούς με το μικρότερο πλήθος topics. Από τα συγκεκριμένα γραφήματα φαίνεται άμεσα ότι ο αλγόριθμος καταφέρνει να ταξινομήσει τις περισσότερες από τις κατηγορίες πολύ καλά ακόμα και αν χρησιμοποιεί ένα διάνυσμα μικρού μήκους. (αʹ) 10 topics. (βʹ) 13 topics. Σχήμα 5.4: Κανονικοποιημένο confusion matrix για τους βέλτιστους συνδυασμούς των τοπικών χαρακτηριστικών με 10 και 13 topics. Στη συνέχεια παρουσιάζονται κατάλληλα γραφήματα, στα οποία απεικονίζονται οι με-

76 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA τρικές Mean Average Precision (MAP) και Mean Accuracy (MAC) για το σύνολο των 255 συνδυασμών για όλα τα διαφορετικά πλήθη topics που δοκιμάστηκαν. Σχήμα 5.5: Συγκριτικές τιμές MAC και MAP για όλους τους συνδυασμούς με διαφορετικό πλήθος topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset.

77 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 63 Για κάθε διαφορετικό πλήθος topics οι συνδυασμοί ταξινομούνται κατά φθίνουσα σειρά ως προς τις δύο μετρικές ανάλογα με το γράφημα. Αυτό ωστόσο έχει ως αποτέλεσμα, οι τιμές ως προς τον οριζόντιο άξονα να μην αντιστοιχούν στον ίδιο συνδυασμό για κάθε διαφορετικό πλήθος topics. Στην εικόνα 5.5 παρουσιάζονται οι συγκριτικές τιμές των μετρικών MAC και MAP αντίστοιχα των 255 συνδυασμών. Από τις δύο εικόνες της 5.5 φαίνεται ότι ακόμα και αν οι βέλτιστες τιμές ως προς MAC και MAP σημειώνονται για 100 και 200 topics αντίστοιχα, κατά μέσο όρο το LDA με 150 topics είναι καλύτερο και ως προς τις δυο μετρικές. Το αμέσως καλύτερο ως προς τη μετρική MAC είναι το LDA με 100 topics ενώ ως προς τη μετρική MAP το LDA με 200 topics. Κλείνοντας το συγκεκριμένο πείραμα παραθέτουμε δυο ακόμα γράφηματα 5.6, και 5.7 στα οποία φαίνονται οι τιμές των MAP και MAC όλων των συνδυασμών για τα βέλτιστα πλήθη topics, τα οποία στο UCF Sports Action Dataset κυμαίνονται από 80 ως 200 για ένα λεξιλόγιο 1000 λέξεων Σχήμα 5.6: Συγκριτικές τιμές MAC για όλους τους βέλτιστους συνδυασμούς για διαφορετικά πλήθη topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset.

78 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Σχήμα 5.7: Συγκριτικές τιμές MAP για όλους τους βέλτιστους συνδυασμούς για διαφορετικά πλήθη topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset Πειραματικά δεδομένα από το UCF11 Στη συγκεκριμένη ενότητα θα αναλυθούν τα πειραματικά δεδομένα με μια διαφορετική συλλογή δεδομένων, η οποία επιλέχθηκε για να διαπιστωθεί η συμπεριφορά του LDA σε πιο απαιτητικά βίντεο. Στα πειράματα που εκτελέστηκαν με το UCF11 υπολογίστηκε LDA με 10, 40, 80, 100, 150, 200 και 300 διαφορετικά topics. Στον πίνακα 5.3 συνοψίζονται για τα διαφορετικά πλήθη topics οι βέλτιστοι συνδυασμοί ως προς τις μετρικές Mean Average Precision (MAP) και Mean Accuracy (MAC). Οι συνδυασμοί γράφονται σε συντομογραφία με τον I να υποδηλώνει IDENSE και το S STIP.

79 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 65 Πλήθος topics Βέλτιστος συνδυασμός τοπικών χαρακτηριστικών MAP MAC 10 SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG, S_HOF SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG, S_HOF SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG Πίνακας 5.3: Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF11 Dataset. Από τον πίνακα 5.3 παρατηρούμε ότι ο βέλτιστος συνδυασμός τοπικών χαρακτηριστικών είναι o SIFT, IDENSE HOF, IDENSE HOG, IDENSE MBHx, IDENSE MBHy, IDENSE Trajectory και STIP HOG, ο οποίος συμμετέχει σε 10 από τους 14 συνδυασμούς με βέλτιστο αποτέλεσμα. Μια επιπλέον ενδιαφέρουσα παρατήρηση που μπορεί να γίνει αποτελεί το γεγονός ότι ο συγκεκριμένος συνδυασμός συμμετέχει σε 8 από τους 14 συνδυασμούς με συγχρόνως βέλτιστο Mean Average Precision (MAP) και Mean Accuracy (MAC). Στον πίνακα 5.4 ανακεφαλαιώνονται οι βέλτιστες τιμές των Mean Average Precision (MAP) και Mean Accuracy (MAC) καθώς επίσης και το πλήθος των topics για το οποίο αυτές σημειώνονται. Και στην περίπτωση του UCF11 επομένως επιβεβαιώνεται ότι για ένα λεξιλόγιο 1000 λέξεων απαιτούνται συνήθως μερικές εκατοντάδες topics για να έχουμε ικανοποιητικά αποτελέσματα. Βέλτιστη Τιμή Πλήθος topic MAC MAP Πίνακας 5.4: Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση γραμμικού ταξινομητή SVM ως προς των αριθμό των topics στο UCF11 Dataset. Ενδιαφέρον παρουσιάζει το γεγονός ότι τόσο στην περίπτωση του UCF Sports Action Dataset όσο και στην περίπτωση του UCF11 οι κατανομές πιθανότητας πάνω σε 200 topics φαίνεται να είναι ικανοποιητικές για την αναπαράσταση των δεδομένων βίντεο.

80 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Το συγκεκριμένο μπορεί να αιτιολογηθεί από το γεγονός ότι και στις δυο περιπτώσεις το λεξιλόγιο αποτελείται από 1000 λέξεις. Ένα σημείο που χρήζει επεξήγησης αποτελεί το γεγονός ότι ενώ το UCF11 είναι θεωρητικά πιο δύσκολο dataset σε σχέση με το UCF Sports Action Dataset, καθώς αποτελείται από πολλά και πολύ πιο πολύπλοκα βίντεο, το LDA σημειώνει πάρα πολύ υψηλά ποσοστά και ως προς τις δυο μετρικές απόδοσης που εξετάστηκαν μέχρι στιγμής σε αυτό. Το συγκεκριμένο αιτιολογείται από το γεγονός ότι το UCF Sports Action Dataset είναι ένα dataset με μεγάλες ανισσοροπίες, οι οποίες μπορεί να είναι είτε τα διαφορετικά πλήθη βίντεο σε κάθε κατηγορία, είτε τα διαφορετικά μεγέθη των βίντεο της κάθε κατηγορίας είτε τέλος οι ίδιες κατηγορίες, που μοιάζουν σημαντικά ως προς τις βασικές κινήσεις που περιγράφουν. Στη συνέχεια παρατίθενται οι πίνακες σύγχυσης (confusion matrix) για τους βέλτιστους συνδυασμούς ως προς MAC και MAP και παρουσιάζονται στις εικόνες 5.8 και 5.9. Είναι προφανές από τις τιμές του 5.4 και από τα confusion matrices των εικόνων 5.8 και 5.9 ότι ο SVM δεν φαίνεται να μπερδεύει ιδιαίτερα καμία κατηγορία. Σχήμα 5.8: Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAC κατά τη χρήση LDA με γραμμικό SVMστο UCF11 Dataset.

81 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 67 Σχήμα 5.9: Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAP κατά τη χρήση LDA με γραμμικό SVM στο UCF11 Dataset. Σχήμα 5.10: Κανονικοποιημένο confusion matrix από τις τρεις εκτελέσεις του πειράματος για τον συνδυασμό που πετυχαίνει βέλτιστο MAP με 10 topics κατά τη χρήση LDA με γραμμικό SVM στο UCF11 Dataset.

82 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Στην εικόνα 5.10 φαίνεται ότι η αναπαράσταση 1600 διαφορετικών βίντεο με μόλις 10 κατανομές πάνω στα topics οδηγεί σε πολύ καλά αποτελέσματα. Κατά συνέπεια ο SVM δεν αντιμετωπίζει προβλήματα κατά τον διαχωρισμό τους. Ένα επιπλέον ενδιαφέρον συμπέρασμά που προκύπτει συνδυάζοντας και τον πίνακα 5.3, αποτελεί το γεγονός ότι το LDA πετυχαίνει βέλτιστο αποτέλεσμα με 10 topics συνδυάζοντας όλα τα διαθέσιμα τοπικά χαρακτηριστικά που έχει στη διάθεση του. Στην εικόνα 5.11 παρουσιάζονται οι συγκριτικές τιμές των μετρικών MAC και MAP αντίστοιχα των 255 συνδυασμών για διαφορετικά πλήθη topic ταξινομημένες κατά φθίνουσα σειρά. Ως προς τις δυο υπό εξέταση μετρικές η χειρότερη αναπαράσταση είναι με 10 και με 40 topics. Όσον αφορά τις αναπαραστάσεις με περισσότερα topics δεν παρατηρούνται μεγάλες διαφορές. Ίσως η σταθερά καλύτερη σε σχέση με όλες τις υπόλοιπες να είναι αυτή που χρησιμοποιεί 200 κατανομές πάνω στα topics.

83 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 69 Σχήμα 5.11: Συγκριτικές τιμές MAC και MAP για όλους τους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF11 Dataset.

84 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA LDA με πιθανοτικό ταξινομητή Στο συγκεκριμένο πείραμα εξετάζεται η ποιότητα της ταξινόμησης του LDA με τη χρήση του Bayesian ταξινομητή, που αναλύθηκε στην ενότητα??. Η κεντρική ιδέα των πειραμάτων παραμένει ίδια. Και εδώ εφαρμόζεται LDA σε ένα σύνολο από ολικά χαρακτηριστικά για διαφορετικό πλήθος topics κάθε φόρα και στη συνέχεια για όλους τους δυνατούς συνδυασμούς αυτών εκτελείται ταξινόμηση με χρήση του πιθανοτικού ταξινομητή. Αναλυτικά τα τοπικά χαρακτηριστικά από τα οποία δημιουργούμε τα ολικά που χρησιμοποιούμε, είναι κοινά με αυτά του προηγούμενου πειράματος, ωστόσο για μεγαλύτερη πληρότητα τα παραθέτουμε και εδώ: 1. SIFT descriptor 2. IDENSE HOF descriptor 3. IDENSE HOG descripor 4. IDENSE MBHx descriptor 5. IDENSE MBHy descripor 6. IDENSE Trajectory descripor 7. STIP HOF descriptor 8. STIP HOG descripor Οι βασικοί λόγοι που μας οδήγησαν να πειραματιστούμε με κάποιον πιθανοτικό ταξινομητή, είναι αφενός η φύση των δεδομένων μας, τα οποία εγγυώνται την υπόθεση της ανεξαρτησίας και αφετέρου κάποια σημαντικά πλεονεκτήματα που έχουν οι Bayesian ταξινομητές, όπως για παράδειγμα η ταχύτητα τους Πειραματικά δεδομένα από το UCF Sports Action Dataset Στη συγκεκριμένη ενότητα θα αναλυθούν τα πειράματα που εκτελέστηκαν στο UCF Sports Action Dataset με χρήση ενός πιθανοτικού ταξινομητή. Στα πειράματα που εκτελέστηκαν υπολογίζονται οι κατανομές πάνω σε 10, 40, 80, 100, 150, 200 και 300 διαφορετικά topics κάθε φορά με χρήση του LDA. Στον πίνακα 5.5 συνοψίζονται για τα τα διαφορετικά πλήθη topics οι βέλτιστοι συνδυασμοί ως προς τις μετρικές Mean Average Precision (MAP) και Mean Accuracy (MAC).

85 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 71 Οι συνδυασμοί γράφονται σε συντομογραφία με τον I να υποδηλώνει IDENSE και το S STIP. Πλήθος topics Βέλτιστος συνδυασμός τοπικών χαρακτηριστικών MAP MAC 10 SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, S_HOG SIFT, I_HOG, I_MBHy, I_Traj SIFT, I_HOF, I_MBHx, S_HOG, SIFT, I_HOG, I_MBHy, I_Traj SIFT, I_HOF, I_HOG, I_MBHx, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOF SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOF, S_HOG I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOF SIFT, I_HOF, I_HOG, I_MBHx, I_Traj SIFT SIFT, I_HOF, I_HOG, I_MBHx, I_Traj SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOF SIFT, I_HOG, I_MBHy, I_Traj SIFT SIFT, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOF SIFT SIFT, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOF SIFT Πίνακας 5.5: Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF Sports Action Dataset με χρήση πιθανοτικού ταξινομητή. Το πιο συχνά χρησιμοποιούμενο τοπικό χαρακτηριστικό, το οποίο συμμετέχει στους 17 από τους συνολικά 18 βέλτιστους συνδυασμούς είναι τα SIFT. Τα δυο αμέσως πιο συχνά εμφανιζόμενα είναι τα IDENSE HOG και IDENSE Trajectory. Από τον πίνακα 5.5 παρατηρούμε ότι ενώ οι τιμές του Mean Accuracy (MAC) κυμαίνονται σε σχετικά υψηλά επίπεδα αντίθετα οι τιμές του Mean Average Precision (MAP) δεν φαίνεται να είναι ιδιαίτερα ικανοποιητικές. Σε αυτό το σημείο είναι απαραίτητο να καταλάβουμε αν τα χαμηλά ποσοστά της μετρικής MAP οφείλονται στη φύση του χρησιμοποιούμενου dataset ή προκύπτουν από κάποια αδυναμία του Bayesian ταξινομητή που χρησιμοποιείται. Για τον σκοπό αυτό επιλέγεται τυχαία ο συνδυασμός που δίνει το βέλτιστο MAP, ο οποίος προκύπτει μόνο με SIFT και 150 κατανομές πιθανότητας να διερευνηθεί επιπλέον. Στον πίνακα 5.6 συνοψίζονται οι τιμές των Mean Average Precision και Accuracy για τις τρεις φορές που υλοποιείται o αλγόριθμος, βάση των οποίων προκύπτουν οι αντίστοιχες μέσες τιμές.

86 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Split 1 Split 2 Split 3 AC MAP Πίνακας 5.6: Τιμές των Mean Avearage Precision και Accuracy στα τρία splits για το πείραμα με τον βέλτιστο συνδυασμό τοπικών χαρακτηριστικών ως προς MAP. Σε επόμενο βήμα είναι χρήσιμο να παρατηρήσουμε ποιες κατηγορίες μπερδεύει ο ταξινομητής μεταξύ τους. Για τον σκοπό αυτό με βάση τον πίνακα 5.6 υπολογίζονται οι πίνακες σύγχυσης (confusion matrices) για το καλύτερο και χειρότερο split ως προς τη μετρική MAP και παρουσιάζονται στην εικόνα (αʹ) Πρώτο split. (βʹ) Τρίτο split. Σχήμα 5.12: Κανονικοποιημένο confusion matrix για το καλύτερο και χειρότερο split ως προς τη μετρική MAP. Από την εικόνα 5.12 παρατηρούμε ότι ο Bayesian ταξινομητής θεωρεί ότι όλες οι κατηγορίες ανήκουν στην κλάση Walk-Front. Η συγκεκριμένη παρατήρηση είναι πολύ χρήσιμη αν λάβουμε υπόψη το γεγονός ότι η κατηγορία Walk-Front περιέχει τα περισσότερα βίντεο σε σχέση με όλες τις υπόλοιπες του dataset. Στον πίνακα 5.7 συνοψίζονται όλα τα δεδομένα, όπως για παράδειγμα πόσα βίντεο συμμετέχουν από κάθε κατηγορία σε κάθε split για τα δυο που εξετάζουμε. Και από αυτόν φαίνεται ότι η κλάση Walk-Front έχει τα περισσότερα βίντεο.

87 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 73 Precision Recall Support Diving-Side Golf-Swing-Back Golf-Swing-Front Golf-Swing-Side Kicking-Front Kicking-Side Lifting Riding Horse Run-Side SkateBoarding-Front Swing-Bench Swing-SideAngle Walk-Front Average (αʹ) Πρώτο split. Precision Recall Support Diving-Side Golf-Swing-Back Golf-Swing-Front Golf-Swing-Side Kicking-Front Kicking-Side Lifting Riding Horse Run-Side SkateBoarding-Front Swing-Bench Swing-SideAngle Walk-Front Average (βʹ) Τρίτο split. Πίνακας 5.7: Αναλυτικές τιμές των μετρικών απόδοσης για το καλύτερο και χειρότερο split ως προς τη μετρική MAP. Στο σημείο αυτό αξίζει να θυμηθούμε τη σχέση 3-25 βάση της οποίας γίνεται η ταξινό-

88 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA μηση με τον Bayesian ταξινομητή. Μια πολύ σημαντική παράμετρος είναι οι priors των κατηγοριών (P (C j )). Αναλύοντας τις πιθανότητες P (C j θ d ) παρατηρήθηκε ότι υπάρχουν C k, τέτοια ώστε P (C k θ d ) P (C j θ d ) θ d. Αυτό έχει ως αποτέλεσμα όλα τα βίντεο να ταξινομούνται σε μια ή δυο κλάσεις, το οποίο εξηγεί και το σχήμα Το συγκεκριμένο συμβαίνει γιατί το dataset έχει πολύ μεγάλους priors, οι οποίοι επικρατούν στην εξίσωση K Παρόλα αυτά οι όροι k=1 P (z = k C j ) P (z=k θ d) μεταφέρουν σημαντική πληροφορία και για αυτό επιτυγχάνεται το καλύτερο MAP σε αυτές τις περιπτώσεις. Κατά συνέπεια τίθεται θέμα εξομάλυνσης των priors για τη βελτίωση των αποτελεσμάτων. Είναι λογικό κατά συνέπεια εφόσον το ίδιο το dataset έχει bias υπέρ της κλάσης Walking Front, να είναι πιο πιθανό να την επιλέξει στην ταξινόμηση. Συνοψίζοντας επομένως με βάση όλα τα παραπάνω παρατηρούμε ότι τα χαμηλά ποσοστά της μετρικής απόδοσης MAP οφείλονται σε μεγάλο ποσοστό στο dataset. Επιπρόσθετα αν είχε ορισθεί ένας πιο έξυπνος τρόπος υπολογισμού των priors είναι προφανές ότι θα σημειωνόταν σημαντική βελτίωση. Στον πίνακα 5.8 ανακεφαλαιώνονται οι βέλτιστες τιμές των Mean Average Precision (MAP) και Mean Accuracy (MAC) καθώς επίσης και το πλήθος των topics για το οποίο αυτές σημειώνονται. Βέλτιστη Τιμή Πλήθος topic MAC , 100 MAP Πίνακας 5.8: Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση πιθανοτικού ταξινομητή ως προς των αριθμό των topics στο UCF Sports Action Dataset. Στην εικόνα 5.13 παρουσιάζονται οι συγκριτικές τιμές του Mean Accuracy (MAC) των 255 συνδυασμών για κάθε μέγεθος topic ταξινομημένες κατά φθίνουσα σειρά. H χειρότερη αναπαράσταση είναι με 10 και με 20 topics. Όσον αφορά τις αναπαραστάσεις με περισσότερα topics δεν παρατηρούνται μεγάλες διαφορές. Ίσως η σταθερά καλύτερη σε σχέση με όλες τις υπόλοιπες να είναι αυτή που χρησιμοποιεί 100 κατανομές πάνω στα topics.

89 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 75 Σχήμα 5.13: Συγκριτικές τιμές MAC για όλους τους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με πιθαντοτικό ταξινομητή στο UCF Sports Action Dataset Πειραματικά δεδομένα από το UCF11 Στη συγκεκριμένη ενότητα θα αναλυθούν τα πειραματικά δεδομένα του παραπάνω πειράματος στη δεύτερη συλλογή δεδομένων με την οποία πειραματιστήκαμε. Στα πειράματα που εκτελέστηκαν με το UCF11 υπολογίστηκε LDA με 10, 40, 80, 100, 150, 200 και 300 διαφορετικά topics και στη συνέχεια χρησιμοποιήθηκε πιθανοτικός ταξινομητής για την ταξινόμηση τους. Στον πίνακα 5.9 συνοψίζονται για τα τα διαφορετικά πλήθη topics οι βέλτιστοι συνδυασμοί ως προς τις μετρικές Mean Average Precision (MAP) και Mean Accuracy (MAC). Οι συνδυασμοί γράφονται σε συντομογραφία με τον I να υποδηλώνει IDENSE και το S STIP.

90 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Πλήθος topics Βέλτιστος συνδυασμός τοπικών χαρακτηριστικών MAP MAC 10 SIFT, I_HOF, I_HOG, I_MBHy, I_Traj SIFT, I_HOF, I_HOG, I_MBHy, I_Traj SIFT, I_HOG, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHy, I_Traj, S_HOG SIFT, I_HOG, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHy, I_Traj, S_HOG SIFT, I_HOG, I_HOF, I_MBHy, S_HOG SIFT, I_HOF, I_HOG, I_Traj, S_HOG SIFT, I_HOG, I_HOF, I_MBHy, S_HOG SIFT, I_HOF, I_HOG SIFT, I_HOG, I_HOF, I_MBHy, S_HOG SIFT, I_HOF, I_HOG SIFT, I_HOG, I_MBHy, I_Traj, S_HOG SIFT, I_HOG, I_Traj Πίνακας 5.9: Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF11 Dataset με χρήση πιθανοτικού ταξινομητή. Από τον πίνακα 5.9 παρατηρούμε ότι τα SIFT, τα IDENSE HOG εμφανίζονται στους περισσότερους από τους βέλτιστους συνδυασμούς. Ενδιαφέρον παρουσιάζει επίσης ότι αν και τα STIP HOG εμφανίζονται στους 8 από τους συνολικά 14 βέλτιστους συνδυασμούς τα STIP HOF δεν εμφανίζονται σε κανένα. Επιπλέον παρατηρούμε ότι στην περίπτωση του UCF11 οι διαφορές ανάμεσα στις δυο μετρικές MAP και MAC δεν είναι τόσο μεγάλες όσο στην περίπτωση του UCF Sports Action Dataset. Στον πίνακα 5.10 ανακεφαλαιώνονται οι βέλτιστες τιμές των Mean Average Precision (MAP) και Mean Accuracy (MAC) καθώς επίσης και το πλήθος των topics για το οποίο αυτές σημειώνονται. Επομένως συμπεραίνουμε ότι για ένα λεξιλόγιο 1000 λέξεων απαιτούνται συνήθως μερικές εκατοντάδες topics για να έχουμε ικανοποιητικά αποτελέσματα. Βέλτιστη Τιμή Πλήθος topic MAC MAP Πίνακας 5.10: Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση πιθανοτικού ταξινομητή ως προς των αριθμό των topics στο UCF11 Dataset. Στην εικόνα 5.14 παρουσιάζονται οι συγκριτικές τιμές των μετρικών MAC και MAP αντίστοιχα των 255 συνδυασμών για κάθε μέγεθος topic ταξινομημένες κατά φθίνουσα

91 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 77 σειρά. Σχήμα 5.14: Συγκριτικές τιμές MAC και MAP για όλους τους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF11 Dataset.

92 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Ως προς τις δυο υπό εξέταση μετρικές η χειρότερη αναπαράσταση είναι με 10 και με 40 topics. Κυρίως μάλιστα ως προς τη μετρική MAP η αναπαράσταση με 10 topics είναι πολύ χειρότερη, καθώς κυμαίνεται γύρω στο 0.5 ενώ για τα υπόλοιπα πλήθη topics η συγκεκριμένη μετρική είναι γύρω στο 0.7. Όσον αφορά τις αναπαραστάσεις με περισσότερα topics η σταθερά καλύτερη σε σχέση με όλες τις υπόλοιπες να είναι αυτή που χρησιμοποιεί 300 κατανομές πάνω στα topics. Με βάση το σύνολο των πειραμάτων που εκπονήθηκαν και με τις δυο συλλογές δεδομένων φαίνεται ότι η χρήση του LDA σε συνδυασμό με έναν Bayesian ταξινόμητη δεν ήταν κακή επιλογή. Ωστόσο όπως αποδείχθηκε καλό θα είναι να λαμβάνεται μέριμνα για τη δομή του dataset μέσω των priors LDA με SVM ταξινομητή με RBF Kernel Ένα από τα πολλά πλεονεκτήματα της προτεινόμενης μεθόδου, αποτελεί το γεγονός ότι με τη χρήση του LDA είμαστε σε θέση να αναπαραστήσουμε τη συλλογή δεδομένων που μας ενδιαφέρει με πολύ λίγες διαστάσεις. Αυτό επιτρέπει τη χρήση πολύπλοκων μη γραμμικών ταξινομητών που υπό άλλες συνθήκες δεν θα ήταν δυνατόν να χρησιμοποιηθούν, όπως για παράδειγμα στην περίπτωση των Fisher Vectors. Κατά συνέπεια, στόχος του συγκεκριμένου πειράματος είναι να διαπιστώσουμε πόσο καλά μπορεί να λειτουργήσουν οι αναπαραστάσεις που προκύπτουν σύμφωνα με το LDA σε συνδυασμό με έναν SVM ταξινομητή με μη γραμμικό πυρήνα (RBF SVM). Το συγκεκριμένο πείραμα διαφέρει λίγο ως προς τα άλλα δυο που αναλύθηκαν προηγουμένως, λόγω της φύσης του ταξινομητή, ο οποίος είναι πολύ ευαίσθητος στις αλλαγές των παραμέτρων του. Όπως αναφέρθηκε και στην ενότητα οι δύο βασικοί παράμετροι του ταξινομητή C και γ υπολογίζονται με αναζήτηση από ένα σύνολο τιμών εκτελώντας cross validation σε τρία τμήματα (3 fold cross validation). Η κεντρική ιδέα των πειραμάτων παραμένει ίδια. Και εδώ εφαρμόζεται LDA σε ένα σύνολο από ολικά χαρακτηριστικά για διαφορετικό πλήθος topics κάθε φορά και στη συνέχεια για όλους τους δυνατούς συνδυασμούς αυτών εκτελείται ταξινόμηση με χρήση του RBF SVM. Αναλυτικά τα τοπικά χαρακτηριστικά από τα οποία δημιουργούμε τα ολικά που χρησιμοποιούμε, είναι κοινά με αυτά του προηγούμενου πειράματος, ωστόσο για μεγαλύτερη πληρότητα τα παραθέτουμε και εδώ: 1. SIFT descriptor

93 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ IDENSE HOF descriptor 3. IDENSE HOG descripor 4. IDENSE MBHx descriptor 5. IDENSE MBHy descripor 6. IDENSE Trajectory descripor 7. STIP HOF descriptor 8. STIP HOG descripor Πειραματικά δεδομένα από το UCF Sports Action Dataset Στη συγκεκριμένη ενότητα θα αναλυθούν τα πειράματα που εκτελέστηκαν στο UCF Sports Action Dataset με χρήση ενός μη γραμμικού ταξινομητή. Με τη χρήση του LDA υπολογίστηκαν κάθε φορά οι κατανομές πάνω σε 10, 40, 80, 100, 150, 200 και 300 διαφορετικά topics. Στον πίνακα 5.12 συνοψίζονται για τα τα διαφορετικά πλήθη topics οι βέλτιστοι συνδυασμοί ως προς τις μετρικές Mean Average Precision (MAP) και Mean Accuracy (MAC). Οι συνδυασμοί γράφονται σε συντομογραφία με τον I να υποδηλώνει IDENSE και το S STIP. Πλήθος topics Βέλτιστος συνδυασμός τοπικών χαρακτηριστικών MAP MAC 10 SIFT, I_HOG, I_MBHy, I_ΜΒΗx SIFT, I_HOG, I_MBHx, I_MBHy, I_Traj, I_HOF, I_HOG, I_MBHy, I_Traj, S_HOG, S_HOF I_HOF, I_HOG, I_MBHy, I_Traj, S_HOG, S_HOF SIFT, I_MBHx, I_Traj SIFT, I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOF, S_HOG SIFT, I_HOG, I_MBHy, I_Traj, S_HOG SIFT, I_HOG, I_Traj SIFT, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOG SIFT, I_HOF, I_HOG, I_MBHy, I_Traj, S_HOF, S_HOG SIFT, I_MBHx, I_Traj SIFT, I_HOF, I_MBHx, I_MBHy, I_Traj, S_HOF SIFT, I_HOG, I_MBHy, I_Traj I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj, S_HOF, S_HOG Πίνακας 5.11: Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF Sports Action Dataset με χρήση μη γραμμικού ταξινομητή.

94 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Από τον πίνακα 5.12 παρατηρούμε ότι στην περίπτωση του μη γραμμικού ταξινόμητη, οι τιμές των δυο μετρικών που εξετάζουμε είναι σε πολύ υψηλά επίπεδα. Έχει ενδιαφέρον να σημειώσουμε ότι η πλειοψηφία των βέλτιστων τιμών σημειώθηκε με C = 10 και γ = 0.1.Στον πίνακα 5.12 δίνονται οι βέλτιστες τιμές των Mean Average Precision (MAP) και Mean Accuracy (MAC) καθώς επίσης το πλήθος των topics και οι δυο παράμετροι του μη γραμμικού πυρηνα για τα οποίο αυτές σημειώνονται. Βέλτιστη Τιμή Πλήθος topic C γ MAC MAP Πίνακας 5.12: Βέλτιστες τιμές MAP και MAC για εντοπισμό γεγονότων με LDA και χρήση μη γραμμικού ταξινομητή ως προς των αριθμό των topics στο UCF Sports Action Dataset. Στην εικόνα 5.15 παρουσιάζεται ο πίνακας σύγχυσης για τον συνδυασμό που πετυχαίνει το βέλτιστο MAC. Είναι ενδιαφέρον να παρατηρήσουμε ότι ο μη γραμμικός ταξινομητής ταξινομεί τελείως λάθος την κατηγορία Diving Side ως Run Side. Σχήμα 5.15: Κανονικοποιημένο confusion matrix για τον συνδυασμό που πετυχαίνει βέλτιστο MAC με 100 topics κατά τη χρήση LDA με μη γραμμικό SVM στο UCF Sports Action Dataset.

95 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 81 Στην εικόνα 5.24 παρουσιάζονται οι συγκριτικές τιμές των μετρικών MAC και MAP αντίστοιχα των 255 συνδυασμών για κάθε μέγεθος topic ταξινομημένες κατά φθίνουσα σειρά. Σχήμα 5.16: Συγκριτικές τιμές MAC και MAP για όλους τους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με γραμμικό SVM στο UCF Sports Action Dataset.

96 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Κλείνοντας αξίζει να αναφέρουμε ότι ήταν αναμενόμενο ο μη γραμμικός ταξινομητής να παρουσιάζει τα καλύτερα αποτελέσματα σε σχέση με όλους τους υπόλοιπους. Ωστόσο εξαιτίας της ιδιομορφίας του συγκεκριμένου dataset καθώς επίσης και της πιθανώς ελλιπούς αναζήτησης των παραμέτρων του ταξινομητή τα αποτελέσματα που προκύπτουν είναι συγκρίσιμα με αυτά του γραμμικού ταξινομητή Σύγκριση LDA με τους γραμμικό, πιθανοτικό και μη γραμμικό ταξινομητή Στη συγκεκριμένη ενότητα παρουσιάζονται συγκριτικά αποτελέσματα μεταξύ του LDA και των τριών ταξινομητών που αναλύθηκαν σε προηγούμενες ενότητες. Στον πίνακα 5.13 συνοψίζονται οι καλύτερες επιδόσεις και στις τρεις περιπτώσεις και για τα δυο dataset που χρησιμοποιήθηκαν. Στην περίπτωση του LDA με μη γραμμικό ταξινομητή (RBF SVM), δεν πραγματοποιήθηκαν πειράματα στο UCF11, επομένως οι αντίστοιχες θέσεις αφήνονται κενές. UCF Sports Action Dataset UCF11 Dataset MAC MAP MAC MAP LDA - Γραμμικός ταξινομητής (SVM) LDA - Πιθανοτικός ταξινομητής LDA - Μη γραμμικός ταξινομητής (RBF SVM) Πίνακας 5.13: Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για χρήση LDA με διάφορους ταξινομητές. Κατά συνέπεια παρατηρούμε ότι τα βέλτιστα αποτελέσματα τόσο ως προς MAC όσο και ως προς MAP σημειώνονται με τη χρήση ενός γραμμικού SVM. Ωστόσο και με τη χρήση RBF SVM τα αποτελέσματα που σημειώνονται είναι συγκρίσιμα καλά με αυτά του SVM. Αξίζει να σημειωθεί ότι τα παραπάνω αποτελέσματα προκύπτουν χωρίς αναζήτηση των βέλτιστων παραμέτρων του μη γραμμικού πυρήνα. Όσον αφορά τώρα τον πιθανοτικό ταξινομητή τα μέτρια αποτελέσματα που σημειώνει οφείλονται αποκλειστικά στη μη βέλτιστη επιλογή των priors για τις κατηγορίες. Ένα ακόμα σημείο που αξίζει να σημειωθεί αποτελεί το γεγονός ότι ανεξαρτήτως ταξινομητή συνήθως απαιτούνται 100 με 200 topics για να περιγραφεί πλήρως ένα λεξιλόγιο 1000 λέξεων. Στην εικόνα 5.17 παρουσιάζονται οι συγκριτικές τιμές των μετρικών MAC και MAP για τους βέλτιστους συνδυασμούς χρήσης LDA με διαφορετικούς ταξινομητές στο UCF Sports Action Dataset ταξινομημένες κατά φθίνουσα σειρά.

97 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 83 Σχήμα 5.17: Συγκριτικές τιμές MAC και MAP για τους βέλτιστους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με διάφορους ταξινόμητες στο UCF Sports Action Dataset.

98 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Από την εικόνα 5.17 φαίνεται ότι όσον αφορά τη μετρική Mean Accuracy (MAC) μπορεί το LDA με γραμμικό και μη ταξινομητή να σημειώνει καλύτερες τιμές, ωστόσο οι συνδυασμοί με τον πιθανοτικό ταξινομητή είναι κατά μέσο όρο υψηλότεροι. Όσον αφορά τη μετρική Mean Average Precision (MAP) οι επιδόσεις του LDA τόσο με γραμμικό όσο και με μη γραμμικό ταξινομητή είναι συγκρίσιμα καλές. Τέλος στην εικόνα 5.18 παρουσιάζονται οι βέλτιστες τιμές της Mean Accuracy για τον γραμμικό και πιθαντικό ταξινομητή στο UCF11 dataset, από την οποία φαίνεται ότι το LDA με γραμμικό ταξινομητή είναι σημαντικά καλύτερο. Σχήμα 5.18: Συγκριτικές τιμές MAC για τους βέλτιστους συνδυασμούς με διαφορετικό αριθμό από topics κάθε φορά κατά τη χρήση LDA με διάφορους ταξινόμητες στο UCF11 Dataset Σύγκριση LDA με Fisher Vectors και με Bag of Words Στη συγκεκριμένη ενότητα θα παρουσιαστούν συγκριτικά αποτελέσματα του LDA σε συνδυασμό με τους τρεις ταξινομητές που αναλυθήκαν προηγουμένως ως προς τα Fisher Vectors και τα Bag of Words. Σε αυτό το σημείο να αναφέρουμε ότι όλοι οι μέθοδοι όταν συγκρίνονται έχουν υπολογιστεί με τα ίδια τοπικά χαρακτηριστικά κάθε φορά. Στην εικόνα 5.19 παρουσιάζονται συγκριτικά αποτελέσματα ως προς τις δυο μετρικές

99 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 85 MAP και MAC μεταξύ του LDA και του Bag of Words με χρήση γραμμικού ταξινομητή και για τις δυο μεθόδους στο UCF Sports Action Dataset για τα βέλτιστα μεγέθη topic ταξινομημένες κατά φθίνουσα σειρά. Τόσο το LDA όσο και το Bag of Words υπολογίστηκαν στο ίδιο σύνολο τοπικών χαρακτηριστικών, το οποίο αποτελείται από SIFT, IDENSE HOF, IDENSE HOG, IDENSE MBHx, IDENSE MBHy, IDENSE Trajectory, STIP HOF και STIP HOG. Από την εικόνα 5.19 είναι προφανές ότι το LDA είναι σταθερά πολύ καλύτερο από το Bag of Words όσον αφορά τη μετρική MAP. Από την άλλη ως προς τη μετρική MAC αν και το LDA σημειώνει καλύτερη βέλτιστη τιμή κατά μέσο όρο είναι πιο χαμηλά από το Bag of Words.Στον πίνακα 5.14 παρουσιάζονται οι βέλτιστες τιμές των Mean Average Precision (MAP) και Mean Accuracy (MAC) για το Bag of Words και το LDA. MAC MAP Bag of Words LDA-SVM Πίνακας 5.14: Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για LDA και Bag of Words με χρήση SVM ταξινομητή στο UCF Sports Action Dataset. Αξίζει να σημειώσουμε ότι το Bag of Words απαιτεί 1000 διαστάσεις (όσες και το μήκος του λεξιλογίου) για να περιγράψει ένα βίντεο, ενώ το LDA με μόλις 200 διαστάσεις πετυχαίνει καλύτερες επιδόσεις. Οι παραπάνω παρατηρήσεις επιβεβαιώνονται και στην περίπτωση του UCF11, όπου το LDA είναι πολύ καλύτερο από το Bag of Words όσον αφορά τη μετρική MAP. Από την άλλη όσον αφορά τη μετρική MAC το Bag of Words είναι ελάχιστα καλύτερο από το LDA, ωστόσο και τα δυο πετυχαίνουν την ίδια βέλτιστη τιμή. Στον πίνακα 5.15 παρουσιάζονται οι βέλτιστες τιμές των Mean Average Precision (MAP) και Mean Accuracy (MAC) για το Bag of Words και το LDA αντίστοιχα. MAC MAP Bag of Words LDA-SVM Πίνακας 5.15: Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για LDA και Bag of Words με χρήση SVM ταξινομητή στο UCF11 Dataset. Στην εικόνα 5.20 παρουσιάζονται συγκριτικά αποτελέσματα ως προς τις δυο μετρικές MAP και MAC μεταξύ του LDA και του Bag of Words στο UCF11 Dataset για τα βέλτιστα

100 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Σχήμα 5.19: Συγκριτικές τιμές MAC και MAP μεταξύ LDA και Bag of Words με χρήση γραμμικού ταξινομητή στο UCF Sports Action Dataset.

101 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 87 μεγέθη topic ταξινομημένες κατά φθίνουσα σειρά. Σχήμα 5.20: Συγκριτικές τιμές MAC και MAP μεταξύ LDA και Bag of Words με χρήση γραμμικού ταξινομητή στο UCF11 Dataset.

102 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA Στη συνέχεια συγκρίνονται το LDA με γραμμικό, πιθανοτικό και μη γραμμικό ταξινομητή με το Bag of Words και για τα δυο dataset. Τα συγκριτικά αποτελέσματα παρουσιάζονται στον πίνακα UCF Sports Action Dataset UCF11 Dataset MAC MAP MAC MAP Bag of Words LDA - SVM LDA - Bayesian LDA - RBF SVM Πίνακας 5.16: Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για Bag of Words και LDA με γραμμικό και πιθανοτικό ταξινομητή. Από τον πίνακα 5.16 φαίνεται ότι και το LDA με τον πιθανοτικό ταξινομητή παρουσιάζει σχετικά καλά αποτελέσματα κυρίως ως προς τη μετρική Mean Accuracy (MAC). Ωστόσο δεν είναι τόσο εντυπωσιακά, όσο τα αντίστοιχα του LDA με γραμμικό ταξινομητή. Η άλλη ευρέως διαδομένη μέθοδος για αναπαράσταση των ολικών χαρακτηριστικών είναι τα Fisher Vectors. Ένα από τα πολύ βασικά μειονεκτήματα των Fisher Vectors αποτελεί το γεγονός ότι το διάνυσμα που προκύπτει με βάση αυτά αποτελείται από πολλές χιλιάδες διαστάσεις, με αποτέλεσμα ο υπολογισμός τους να είναι υπολογιστικά κοστοβόρος. Στο σημείο αυτό παρουσιάζονται συγκριτικά αποτελέσματα από τα Fisher Vectors, τα Bag of Words και το LDA με χρήση γραμμικού ταξινομητή για όλες τις μεθόδους. Με βάση όλα όσα έχουν αναλυθεί μέχρι στιγμής φαίνεται ότι τα καλύτερα τοπικά χαρακτηριστικά για δεδομένα βίντεο είναι τα Improved Dense Trajectories (IDENSE) και τα SIFT. Συνεπώς καθώς ο υπολογισμός των Fisher Vectors κοστίζει πολύ σε υπολογιστικούς πόρους, αποφασίστηκε να μην χρησιμοποιηθούν STIP τοπικά χαρακτηριστικά στα επόμενα πειράματα. Στην εικόνα 5.21 παρουσιάζονται συγκριτικά αποτελέσματα ως προς τις δυο μετρικές MAP και MAC μεταξύ του LDA, του Bag of Words και των Fisher Vectors με χρήση γραμμικού ταξινομητή και για τις τρείς μεθόδους στο UCF Sports Action Dataset για τα βέλτιστα μεγέθη topic ταξινομημένες κατά φθίνουσα σειρά. Από την εικόνα 5.21 παρατηρούμε ότι το LDA έχει την υψηλότερη τιμή όσον αφορά τη μετρική Mean Accuracy, ωστόσο κατά μέσο όρο καλύτερό από όλα είναι τα Bag of Words. Όσον αφορά τη μετρική Mean Average Precision η καλύτερη μέθοδος είναι τα Fisher Vectors όπως φαίνεται από τον πίνακα 5.17

103 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 89 Σχήμα 5.21: Συγκριτικές τιμές MAC και MAP μεταξύ LDA, Fisher Vectors και Bag of Words με χρήση γραμμικού ταξινομητή στο UCF Sports Action Dataset. Στον πίνακα 5.17 παρουσιάζονται οι βέλτιστες τιμές των Mean Average Precision (MAP)

104 ΠΕΙΡΑΜΑΤΑ ΜΕ LDA και Mean Accuracy (MAC) για το Bag of Words, το LDA και τα Fisher Vectors με γραμμικό ταξινομητή στο UCF Sports Action Dataset αντίστοιχα. MAC MAP Bag of Words Fisher Vectors LDA Πίνακας 5.17: Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για Bag of Words, Fisher Vectors και LDA με γραμμικό ταξινομητή. Σύμφωνα με όλα τα παραπάνω φαίνεται ότι το Bag of Words δεν είναι πολύ καλή μέθοδος όσον αφόρα τη μετρική MAP. Στη συνέχεια παρουσιάζονται τα συγκριτικά αποτελέσματα ως προς τη μετρική MAP ανάμεσα στο LDA με γραμμικό και μη ταξινομητή ως προς μόνο τα Fisher Vectors μιας και τα Bag of Words είναι εμφανώς χειρότερα. Σχήμα 5.22: Συγκριτικές τιμές των MAP για Fisher Vectors και LDA με γραμμικό και μη γραμμικό ταξινομητή. Από την εικόνα 5.22 φαίνεται ότι παρότι η καλύτερη μέθοδος είναι και πάλι τα Fisher Vectors, το αμέσως καλύτερο είναι το LDA με μη γραμμικό ταξινομητή με 200 topics. Οι βέλτιστες τιμές όλων των συγκρινόμενων μεθόδων συνοψίζονται στον πίνακα Αντίστοιχα τα συγκριτικά αποτελέσματα όλων των μεθόδων ως προς τη μετρική Mean Accuracy παρουσιάζονται στην εικόνα 5.23, από την οποία φαίνεται ότι καλύτερη μέθοδος είναι για τους περισσότερους συνδυασμούς είναι το LDA με Bayesian ταξινομητή

105 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 91 MAP Fisher Vectors LDA με γραμμικό ταξινομητή LDA με μη γραμμικό ταξινομητή Πίνακας 5.18: Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP για Fisher Vectors και LDA με γραμμικό και μη γραμμικό ταξινομητή. με 100 topics. Σχήμα 5.23: Συγκριτικές τιμές των MAC για Fisher Vectors, Bag of Words και LDA με γραμμικό και Bayesian ταξινομητή. Οι βέλτιστες τιμές όλων των συγκρινόμενων μεθόδων συνοψίζονται στον πίνακα Ανακεφαλαιώνοντας επομένως, με βάση όλα τα παραπάνω, φαίνεται ότι το LDA είναι μια πολύ καλή μέθοδος για εντοπισμό γεγονότων σε βίντεο. Μερικά από τα πιο ελκυστικά χαρακτηριστικά της αποτελεί το γεγονός ότι δημιουργεί πολύ καλές αναπαραστάσεις των τοπικών χαρακτηριστικών με λίγες διαστάσεις. Αξίζει να σημειωθεί ότι δεν ήταν δυνατόν να τρέξουν πειράματα για τα Fisher Vectors στο UCF11 εξαιτίας των εξαιρετικά υψηλών απαιτήσεων σε μνήμη που έχει, ενώ τόσο για στην περίπτωση του LDA όσο και για το Bag of Words δεν αντιμετωπίστηκαν ανάλογα προβλήματα.

106 ΠΕΙΡΑΜΑΤΑ ΜΕ EUTERPI LDA MAC Bag of Words Fisher Vectors 0.8 LDA με γραμμικό ταξινομητή 0.8 LDA με πιθανοτικό ταξινομητή 0.81 Πίνακας 5.19: Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAC για Bag of Words, Fisher Vectors και LDA με γραμμικό και πιθανοτικό ταξινομητή. Ο βασικός λόγος που το LDA είναι ανταγωνιστικό και σε πολλές περιπτώσεις καλύτερο από τις state-of-the-art μεθόδους με πολύ λιγότερες διαστάσεις οφείλεται στο γεγονός ότι τα topics περιέχουν πληροφορία υψηλού επιπέδου, η οποία δεν αποτυπώνεται στις λέξεις. Κλείνοντας στον πίνακα που ακολουθεί συνοψίζονται ως προς τις δυο εξεταζόμενες μετρικές τα βέλτιστα αποτελέσματα που προκύπτουν με Bag of Words, Fisher Vectors καθώς επίσης και με LDA σε συνδυασμό με διάφορους ταξινομητές. MAC MAP Fisher Vectors Bag of Words LDA - SVM LDA - Bayesian LDA - RBF SVM Πίνακας 5.20: Συγκριτικός πίνακας με τις βέλτιστες τιμές των MAP και MAC για Bag of Words και LDA με γραμμικό και πιθανοτικό ταξινομητή. 5.4 Πειράματα με Euterpi LDA Στη συγκεκριμένη ενότητα θα αναλυθούν τα πειράματα που πραγματοποιήθηκαν με τη χρήση του Euterpi LDA ως μέθοδο μετασχηματισμού των τοπικών σε ολικά χαρακτηριστικά. Η κεντρική ιδέα των πειραμάτων είναι ίδια με αυτή της προηγούμενης ενότητας, δηλαδή εφόσον έχουν εξαχθεί τα τοπικά χαρακτηριστικά στη συνέχεια υπολογίζονται τα ολικά που επιθυμούμε να συγκρίνουμε. Όλα τα πειράματα της συγκεκριμένης ενότητας πραγματοποιήθηκαν στο UCF Sports Action Dataset μόνο με τη χρήση των Improved Dense Trajectories ως τοπικά χαρακτηριστικά. Στο κεφάλαιο 4 αναλύονται εκτενώς όλα τα βήματα του αλγορίθμου. Ως aggregation

107 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 93 μέθοδος αποφασίστηκε να χρησιμοποιηθεί η άθροιση όλων των κατανομών πάνω σε κάθε topic και στη συνέχεια η κανονικοποίηση τους έτσι ώστε να αθροίζουν στη μονάδα. Είναι σημαντικό σε αυτό το σημείο να αναφέρουμε ότι το Euterpi LDA φαίνεται να λειτουργεί ικανοποιητικά αλλά όχι συγκρίσιμα καλά με το LDA και τις άλλες δυο state-of-the-art μεθόδους. Ο λόγος για τον οποίο γίνεται αυτό εντοπίζεται στο γεγονός ότι τα βίντεο του UCF Sports Action Dataset, με το οποίο και πειραματιστήκαμε αποτελούνται από πολύ λίγα καρέ, με αποτέλεσμα να μην περιέχουν αρκετή πληροφορία σχετικά με τα topics. Συνεπώς αναμένεται ότι η συγκεκριμένη μέθοδος θα έχει πολύ καλύτερα αποτελέσματα σε βίντεο μεγαλύτερης διάρκειας. Στον πίνακα 5.21 συνοψίζονται για τα τα διαφορετικά πλήθη topics οι βέλτιστοι συνδυασμοί ως προς τις μετρικές Mean Average Precision (MAP) και Mean Accuracy (MAC). Οι συνδυασμοί γράφονται σε συντομογραφία με τον I να υποδηλώνει IDENSE. Πλήθος topics Βέλτιστος συνδυασμός τοπικών χαρακτηριστικών MAP MAC 10 I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj I_HOF, I_HOG, I_MBHx, I_Traj I_MBHx, I_Traj I_MBHx, I_Traj I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj I_HOF, I_MBHx, I_MBHy, I_Traj I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj I_HOF, I_HOG, I_MBHy, I_Traj I_HOF, I_HOG, I_MBHx, I_MBHy I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj I_HOF, I_MBHx, I_MBHy I_HOF, I_HOG, I_MBHx, I_MBHy, I_Traj Πίνακας 5.21: Συγκριτικός πίνακας με τους βέλτιστους συνδυασμούς τοπικών χαρακτηριστικών για διαφορετικές τιμές topics ως προς MAP και MAC στο UCF Sports Actions Dataset με χρήση του Euterpi LDA. Στον πίνακα 5.22 ανακεφαλαιώνονται οι βέλτιστες τιμές των Mean Average Precision (MAP) και Mean Accuracy (MAC) καθώς επίσης και το πλήθος των topics για το οποίο αυτές σημειώνονται. Και στην περίπτωση του Euterpi LDA επιβεβαιώνεται ότι για ένα λεξιλόγιο 1000 λέξεων απαιτούνται συνήθως μερικές εκατοντάδες topics για να έχουμε ικανοποιητικά αποτελέσματα. Στην εικόνα 5.24 παρουσιάζονται οι συγκριτικές τιμές των μετρικών MAC και MAP για

108 ΠΕΙΡΑΜΑΤΑ ΜΕ EUTERPI LDA Βέλτιστη Τιμή Πλήθος topic MAC MAP Πίνακας 5.22: Βέλτιστες τιμές MAP και MAC με Euterpi LDA και χρήση γραμμικού ταξινομητή SVM ως προς των αριθμό των topics στο UCF Sports Action Dataset. διαφορετικά πλήθη topic ταξινομημένες κατά φθίνουσα σειρά. Σχήμα 5.24: Συγκριτικές τιμές MAC και MAP για διαφορετικά πλήθη topics κατά τη χρήση Euterpi LDA με γραμμικό SVM στο UCF Sports Action Dataset Dataset.

109 Κεφάλαιο 6 Συμπεράσματα - Συνεισφορά Στην εισαγωγή της παρούσας διπλωματικής αναφέρθηκε ότι βασική επιδίωξη μας είναι να μπορέσουμε να εντοπίσουμε γεγονότα συγκεκριμένου περιεχομένου σε δεδομένα βίντεο. Καταφέραμε με τη χρήση του αλγορίθμου LDA να αναπαραστήσουμε τα τοπικά χαρακτηριστικά ενός βίντεο ως κατανομές πάνω σε topics. Εισάγαμε δηλαδή μια διαφορετική προσέγγιση αντιμετώπισης των βίντεο, η οποία μέχρι στιγμής, από όσο γνωρίζουμε, δεν έχει προταθεί προηγουμένως στη βιβλιογραφία. Τα topics ενθυλακώνουν πληροφορία υψηλότερου επιπέδου σε σχέση με τις λέξεις, καθώς συνήθως τέτοιου είδους πληροφορία αποτυπώνεται σε συνδυασμούς αυτών. Καταφέρνοντας επομένως να κωδικοποιήσουμε τα τοπικά χαρακτηριστικά που περιγράφουν ένα βίντεο μέσω κατανομών πάνω σε topics μπορέσαμε να μειώσουμε αισθητά τις διαστάσεις του διανύσματος αναπαράστασης. Η χρήση των Fisher Vectors οδηγεί σε αναπαραστάσεις πολλών χιλιάδων διαστάσεων, ενώ αντίθετα με τη μέθοδο που προτείνουμε αρκούν μόλις διακόσιες για για να περιγραφεί ένα βίντεο με ανάλογη αν όχι και καλύτερη ακρίβεια. Επιπρόσθετα λόγω της φύσης των χαρακτηριστικών που προκύπτουν από το LDA μπορέσαμε να πειραματιστούμε τόσο με πιθανοτικούς όσο και με μη γραμμικούς ταξινομητές. Το μικρό μέγεθος των διαστάσεων της αναπαράστασης ευνοεί τη χρήση μη γραμμικών πολύπλοκων ταξινομητών. Επιπλέον το γεγονός ότι τα χαρακτηριστικά μας καλύπτουν 95

110 96 την υπόθεση ανεξαρτησίας καθιστά εφικτή την χρησιμοποίηση πιθανοτικών ταξινομητών, πετυχαίνοντας μάλιστα καλύτερα αποτελέσματα από τις υπόλοιπες state-of-the-art μεθόδους. Όπως φάνηκε από τα πειράματα της προηγούμενης ενότητας η χρήση του LDA δεν είναι ευαίσθητη σε αλλαγές των παραμέτρων ενώ συγχρόνως παρουσιάζει σταθερά πολύ καλά αποτελέσματα. Συγκεκριμένα αναπαριστώντας τα βίντεο με topics που υπολογίζονται μέσω LDA βελτιώσαμε την ακρίβεια (MAP) σε σχέση με το Bag of Words κατά 3% στην περίπτωση του UCF Sports Action Dataset και κατά 7% στην περίπτωση του UCF11. Όσον αφορά τη μέση πιστότητα Mean Accuracy τα αποτελέσματα των δυο μεθόδων είναι εξίσου καλά. Στο πλαίσιο της παρούσας διπλωματικής δημιουργήθηκε ένας πιθανοτικός ταξινομητής, o οποίος σε συνδυασμό με το LDA πετυχαίνει καλύτερα αποτελέσματα από τα Fisher Vectors για το σύνολο των τοπικών χαρακτηριστικών που χρησιμοποιήθηκαν. Η βασικότερη συνεισφορά της παρούσας διπλωματικής πέρα από το γεγονός ότι πετυχαίνει εξίσου καλά και σε ορισμένες περιπτώσεις καλύτερα αποτελέσματα σε σχέση με τα Bag of Words και Fisher Vectors με πολύ λιγότερες διαστάσεις αποτελεί το γεγονός ότι κατορθώσαμε να δημιουργήσουμε μια αναπαράσταση ικανή να συμπεριλάβει σημασιολογική πληροφορία. Στην εικόνα 6.1 συνοψίζονται οι βέλτιστες τιμές και ως προς τις δυο μετρικές που χρησιμοποιούνται για το UCF Sports Action Dataset και για τις τρεις μεθόδους. Αξίζει να σημειωθεί ότι όσον αφορά το LDA το καλύτερο αποτέλεσμα ως προς τη μετρική MAC πετυχαίνεται με χρήση πιθανοτικού ταξινομητή, ενώ ως προς τη μετρική MAP πετυχαίνεται με μη γραμμικό ταξινομητή. Όσον αφορά το Euterpi LDA αξίζει να σημειώσουμε ότι βελτιώνει το LDA, ενθυλακώνοντας πληροφορία σχετικά με τη χρονική δομή του βίντεο. Ο συγκεκριμένος αλγόριθμος είναι πολλά υποσχόμενος για βίντεο κυρίως μεγάλη διάρκειας. Στην εικόνα 6.2 παρουσιάζονται τα συγκριτικά αποτελέσματα και για τις 4 μεθόδους. Από την εν λόγω εικόνα φαίνεται ότι παρά τα προβλήματα του UCF Sports Action Dataset το Euterpi LDA είναι σταθερά καλύτερο από το Bag of Words ενώ συγχρόνως είναι συγκρίσιμα καλό τόσο με το LDA όσο και με τα Fisher Vectors. Ένα από τα επόμενα βήματα που θα μπορούσαν να γίνουν στην συγκεκριμένη κατεύθυνση είναι προφανώς να δοκιμαστεί το LDA και σε διαφορετικά datasets. Επιπλέον κάτι το οποίο θα είχε σίγουρα πολύ νόημα θα ήταν να βρεθεί ένας πιο αποτελεσματι-

111 ΚΕΦΑΛΑΙΟ 6. ΣΥΜΠΕΡΑΣΜΑΤΑ - ΣΥΝΕΙΣΦΟΡΑ 97 κός τρόπος υπολογισμού των priors στην περίπτωση του LDA με πιθανοτικό ταξινομητή έτσι ώστε να μην είναι τόσο ευαίσθητο στην δομή της χρησιμοποιούμενης συλλογής δεδομένων. Σχήμα 6.1: Βέλτιστα αποτελέσματα ως προς MAP, MAC για τις μεθόδους Bag of Words, Fisher Vectors και LDA στο UCF Sports Action Dataset. Σχήμα 6.2: Βέλτιστα αποτελέσματα ως προς MAP, MAC για τις μεθόδους Bag of Words, Fisher Vectors, LDA και Euterpi LDA στο UCF Sports Action Dataset. Όσον αφορά το Euterpi LDA πρέπει σίγουρα να πραγματοποιηθούν επιπλέον πειράματα με διαφορετικά datasets. Επιπλέον είναι σημαντικό να υιοθετηθεί μια συνδυαστική aggregation μέθοδος των πιθανοτήτων έτσι ώστε να κωδικοποιούνται βέλτιστα οι πλη-

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. 1/45 Τι είναι ο SIFT-Γενικά Scale-invariant feature transform detect and

Διαβάστε περισσότερα

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. Εισαγωγικά: SIFT~Harris Harris Detector: Δεν είναι ανεξάρτητος της κλίμακας

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Χαρακτηριστικά Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα

Διαβάστε περισσότερα

Εκμάθηση διαχωριστικών λεξιλογίων για άθροιση τοπικών χαρακτηριστικών

Εκμάθηση διαχωριστικών λεξιλογίων για άθροιση τοπικών χαρακτηριστικών ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ (ΕΠΥ)

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ

ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Ρήγας Κουσκουρίδας, Βασίλειος Μπελαγιάννης, Δημήτριος Χρυσοστόμου και Αντώνιος Γαστεράτος Δημοκρίτειο Πανεπιστήμιο Θράκης, Πανεπιστημιούπολη, Κιμμέρια,

Διαβάστε περισσότερα

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Σύνθεση Πανοράµατος Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή

Διαβάστε περισσότερα

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ Συµπληρωµατικές Σηµειώσεις Προχωρηµένο Επίπεδο Επεξεργασίας Εικόνας Σύνθεση Οπτικού Μωσαϊκού ρ. Γ. Χ. Καρράς Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Μηχανολόγων Μηχανικών Τοµέας Μηχανολογικών

Διαβάστε περισσότερα

ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ Καμπυλόγραμμες Κινήσεις Επιμέλεια: Αγκανάκης Α. Παναγιώτης, Φυσικός http://phyiccore.wordpre.com/ Βασικές Έννοιες Μέχρι στιγμής έχουμε μάθει να μελετάμε απλές κινήσεις,

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 8 ο Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας. Ένας αποδεκτός ορισμός της ακμής είναι ο ακόλουθος: «Το σύνορο μεταξύ δύο ομοιογενών περιοχών με

Διαβάστε περισσότερα

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 8 ο Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα ένας ευρέως αποδεκτός ορισμός της ακμής. Εδώ θα θεωρούμε ως ακμή:

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Ακμές και περιγράμματα Ακμές και περιγράμματα Γενικά Μεγάλο τμήμα της πληροφορίας που γίνεται αντιληπτή

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Εισαγωγή στις τεχνικές βελτίωσης εικόνας

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί Πολλά προβλήματα λύνονται μέσω δισδιάστατων απεικονίσεων ενός μοντέλου. Μεταξύ αυτών και τα προβλήματα κίνησης, όπως η κίνηση ενός συρόμενου μηχανισμού.

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

27-Ιαν-2009 ΗΜΥ 429. 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

27-Ιαν-2009 ΗΜΥ 429. 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό ΗΜΥ 429 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό 1 (i) Βασική στατιστική 2 Στατιστική Vs Πιθανότητες Στατιστική: επιτρέπει μέτρηση και αναγνώριση θορύβου και

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

MPEG-4 : Διαδραστικές εφαρμογές πολυμέσων

MPEG-4 : Διαδραστικές εφαρμογές πολυμέσων MPEG-4 : Διαδραστικές εφαρμογές πολυμέσων Συμπίεση οπτικοακουστικών δεδομένων για το Διαδίκτυο Οπτικοί δίσκοι Ψηφιακή τηλεόραση (επίγεια, δορυφορική) Συμβατότητα με MPEG-1 και MPEG-2 Συνθετική σκηνή Εισαγωγή

Διαβάστε περισσότερα

Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση

Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Σημάτων Ελέγχου και Ρομποτικής Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση Επιβλέπων: καθ. Πέτρος Μαραγκός Ορισμός

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα

Παρουσίαση Νο. 5 Βελτίωση εικόνας

Παρουσίαση Νο. 5 Βελτίωση εικόνας Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Παρουσίαση Νο. 5 Βελτίωση εικόνας Εισαγωγή Η βελτίωση γίνεται σε υποκειμενική βάση Η απόδοση εξαρτάται από την εφαρμογή Οι τεχνικές είναι συνήθως ad hoc Τονίζει

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

Εφαρμογές Προσομοίωσης

Εφαρμογές Προσομοίωσης Εφαρμογές Προσομοίωσης H προσομοίωση (simulation) ως τεχνική μίμησης της συμπεριφοράς ενός συστήματος από ένα άλλο σύστημα, καταλαμβάνει περίοπτη θέση στα πλαίσια των εκπαιδευτικών εφαρμογών των ΤΠΕ. Μπορούμε

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Σημειακή επεξεργασία και μετασχηματισμοί Κατηγορίες μετασχηματισμού εικόνων Σημειακοί μετασχηματισμοί

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Εντοπισμός ενός σήματος STOP σε μια εικόνα. Περιγράψτε τη διαδικασία με την οποία μπορώ να εντοπίσω απλά σε μια εικόνα την ύπαρξη του παρακάτω

Διαβάστε περισσότερα

... c 2014 All rights reserved

... c 2014 All rights reserved Εθνικο Μετσοβιο Πολυτεχνειο Σχολη Ηλεκτρολογων Μηχανικων και Μηχανικων Υπολογιστων Τομεας Τεχνολογιας Πληροφορικης και Υπολογιστων Γεωμετρική Άθροιση Διανυσμάτων Περιγραφής για Ανάκτηση και Κατηγοριοποίηση

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

MPEG-4: Διαδραστικές εφαρμογές πολυμέσων

MPEG-4: Διαδραστικές εφαρμογές πολυμέσων MPEG-4: Διαδραστικές εφαρμογές πολυμέσων Γιώργος Τζιρίτας Τμήμα Επιστήμης Υπολογιστών http://www.csd.uoc.gr/~tziritas Άνοιξη 2016 1 Εισαγωγή Δημοσίευση 1998 (Intern. Telecom. Union) Επικοινωνίες με πολυμέσα,

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΤΟΥ ΤΥΠΟΥ «ΑΠΟ ΤΟ ΜΕΣΟ ΠΡΟΣ ΤΗΝ ΚΟΡΥΦΗ ΚΑΙ ΠΡΟΣ ΤΗ ΒΑΣΗ» ΚΕΦΑΛΑΙΟ:

ΔΙΟΙΚΗΣΗ ΤΟΥ ΤΥΠΟΥ «ΑΠΟ ΤΟ ΜΕΣΟ ΠΡΟΣ ΤΗΝ ΚΟΡΥΦΗ ΚΑΙ ΠΡΟΣ ΤΗ ΒΑΣΗ» ΚΕΦΑΛΑΙΟ: ΔΙΟΙΚΗΣΗ ΤΟΥ ΤΥΠΟΥ «ΑΠΟ ΤΟ ΜΕΣΟ ΠΡΟΣ ΤΗΝ ΚΟΡΥΦΗ ΚΑΙ ΠΡΟΣ ΤΗ ΒΑΣΗ» ΚΕΦΑΛΑΙΟ: 5 Μέρος 1 Εισαγωγή Το παρόν κεφάλαιο επικεντρώνεται στη διαδικασία διοίκησης που μπορεί να διευκολύνει περισσότερο τη δημιουργία

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Εκτίµηση Κίνησης Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

ΘΕΩΡΗΤΙΚΗ ΜΗΧΑΝΙΚΗ ΙΙ

ΘΕΩΡΗΤΙΚΗ ΜΗΧΑΝΙΚΗ ΙΙ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΤΟΜΕΑΣ ΑΣΤΡΟΝΟΜΙΑΣ ΑΣΤΡΟΦΥΣΙΚΗΣ ΚΑΙ ΜΗΧΑΝΙΚΗΣ ΣΠΟΥΔ ΑΣΤΗΡΙΟ ΜΗΧΑΝΙΚΗΣ ΑΣΚΗΣΕΙΣ ΑΝΑΛΥΤΙΚΗΣ ΔΥΝΑΜΙΚΗΣ Μεθοδολογία Κλεομένης Γ. Τσιγάνης Λέκτορας ΑΠΘ Πρόχειρες

Διαβάστε περισσότερα

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου Γεωργαρά Αθηνά (A.M. 2011030065) ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή διατριβή Η ΣΥΓΚΕΝΤΡΩΣΗ ΤΩΝ ΒΑΡΕΩΝ ΜΕΤΑΛΛΩΝ ΣΤΟ ΕΔΑΦΟΣ ΚΑΙ ΜΕΘΟΔΟΙ ΠΡΟΣΔΙΟΡΙΣΜΟΥ ΤΟΥΣ Μιχαήλ

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΑΓΡΟΝΟΜΩΝ ΚΑΙ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ. Σπύρος Τσιπίδης. Περίληψη διατριβής

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΑΓΡΟΝΟΜΩΝ ΚΑΙ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ. Σπύρος Τσιπίδης. Περίληψη διατριβής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΑΓΡΟΝΟΜΩΝ ΚΑΙ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ Σπύρος Τσιπίδης Γεω - οπτικοποίηση χωρωχρονικών αρχαιολογικών δεδομένων Περίληψη διατριβής H παρούσα εργασία

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Τεράστιες ανάγκες σε αποθηκευτικό χώρο ΣΥΜΠΙΕΣΗ Τεράστιες ανάγκες σε αποθηκευτικό χώρο Παράδειγμα: CD-ROM έχει χωρητικότητα 650MB, χωρά 75 λεπτά ασυμπίεστου στερεοφωνικού ήχου, αλλά 30 sec ασυμπίεστου βίντεο. Μαγνητικοί δίσκοι χωρητικότητας

Διαβάστε περισσότερα

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ H O G feature descriptor global feature the most common algorithm associated with person detection Με τα Ιστογράμματα της Βάθμωσης (Gradient) μετράμε τον προσανατολισμό και την ένταση της βάθμωσης σε μία

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Χωρικά φίλτρα Χωρικά φίλτρα Γενικά Σε αντίθεση με τις σημειακές πράξεις και μετασχηματισμούς, στα

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΑΓΡΟΝΟΜΩΝ ΚΑΙ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΤΟΠΟΓΡΑΦΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΧΑΡΤΟΓΡΑΦΙΑΣ ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Δειγµατοληψια. Καθηγητής Α. Καρασαββόγλου Επίκουρος Καθηγητής Π. Δελιάς

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Δειγµατοληψια. Καθηγητής Α. Καρασαββόγλου Επίκουρος Καθηγητής Π. Δελιάς ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Δειγµατοληψια Καθηγητής Α. Καρασαββόγλου Επίκουρος Καθηγητής Π. Δελιάς ΔΕΙΓΜΑΤΟΛΗΨΙΑ Η διαδικασία επιλογής παρατηρήσεων Ποια δηµοσκόπηση πιστεύετε πως θα είναι πιο ακριβής: Αυτή που

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Εισαγωγή στην κατάτμηση εικόνας Τεχνικές

Διαβάστε περισσότερα

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου Εξαγωγή μεταδεδομένων / περιγραφών Χαμηλού επιπέδου περιγραφείς Συντακτικός και σημασιολογικός ορισμός Ανάκτηση πολυμεσικών τεκμηρίων XML / OWL Δημοσίευση 2002

Διαβάστε περισσότερα

Συστήματα συντεταγμένων

Συστήματα συντεταγμένων Κεφάλαιο. Για να δημιουργήσουμε τρισδιάστατα αντικείμενα, που μπορούν να παρασταθούν στην οθόνη του υπολογιστή ως ένα σύνολο από γραμμές, επίπεδες πολυγωνικές επιφάνειες ή ακόμη και από ένα συνδυασμό από

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 1 ο

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 1 ο Να δοθεί ο ορισμός του προβλήματος καθώς και τρία παραδείγματα σημαντικών ιστορικών ή επιστημονικών προβλημάτων. Με τον όρο Πρόβλημα, εννοείται μια κατάσταση η οποία χρήζει αντιμετώπισης,και απαιτεί λύση

Διαβάστε περισσότερα

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques) Αναγνώριση Προτύπων Μη παραμετρικές τεχνικές Αριθμητικά Παραδείγματα (Non Parametric Techniques) Καθηγητής Χριστόδουλος Χαμζάς Τα περιεχόμενο της παρουσίασης βασίζεται στο βιβλίο: Introduction to Pattern

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ BIOMIG Medical Image Processing, Algorithms and Applications http://biomig.ntua.gr ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ Εισαγωγή στην MRI και στην fmri ΔΡ. Γ. ΜΑΤΣΟΠΟΥΛΟΣ ΑΝ. ΚΑΘΗΓΗΤΗΣ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ

Διαβάστε περισσότερα

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Αλγόριθµοι Ευθυγράµµισης Τρισδιάστατων Αντικειµένων Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθηνών 20 Οκτωβρίου 2005 Εισαγωγή

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012 ΔΕ. ΙΟΥΝΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η ( μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάσει το συντελεστή συσχέτισης. (γράψτε ποιο χαρακτηριστικό

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ 1 ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Κατασκευή εφαρμογής ανίχνευσης κινούμενων αντικειμένων ή αντικειμένων που εναποτέθηκαν με χρήση όρασης

Διαβάστε περισσότερα

Τυχαία μεταβλητή (τ.μ.)

Τυχαία μεταβλητή (τ.μ.) Τυχαία μεταβλητή (τ.μ.) Τυχαία μεταβλητή (τ.μ.) είναι μια συνάρτηση X ( ) με πεδίο ορισμού το δειγματικό χώρο Ω του πειράματος και πεδίο τιμών ένα υποσύνολο πραγματικών αριθμών που συμβολίζουμε συνήθως

Διαβάστε περισσότερα

6-Aνίχνευση. Ακμών - Περιγράμματος

6-Aνίχνευση. Ακμών - Περιγράμματος 6-Aνίχνευση Ακμών - Περιγράμματος Ανίχνευση ακμών Μετατροπή 2 εικόνας σε σύνολο ακμών Εξαγωγή βασικών χαρακτηριστικών της εικόνας Πιο «συμπαγής» αναπαράσταση Ανίχνευση ακμών Στόχος: ανίχνευση ασυνεχειών

Διαβάστε περισσότερα

Κεφάλαιο 5 Ανάλυση Αλγορίθμων

Κεφάλαιο 5 Ανάλυση Αλγορίθμων Κεφάλαιο 5 Ανάλυση Αλγορίθμων 5.1 Επίδοση αλγορίθμων Τα πρωταρχικά ερωτήματα που προκύπτουν είναι: 1. πώς υπολογίζεται ο χρόνος εκτέλεσης ενός αλγορίθμου; 2. πώς μπορούν να συγκριθούν μεταξύ τους οι διάφοροι

Διαβάστε περισσότερα

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ΗΜΥ 100 Εισαγωγή στην Τεχνολογία Δρ. Στέλιος Τιμοθέου ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΑ ΘΕΜΑΤΑ ΜΑΣ ΣΗΜΕΡΑ Αναλογικά και ψηφιακά συστήματα Μετατροπή

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διαλέξεις 7-8 Μπεϋζιανή εκτίμηση - συνέχεια Μη παραμετρικές μέθοδοι εκτίμησης πυκνότητας Δυαδικές τ.μ. κατανομή Bernoulli : Εκτίμηση ML: Εκτίμηση Bayes για εκ των προτέρων

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ Ψηφιακή Επεξεργασία Εικόνας ΒΕΛΤΙΩΣΗ ΕΙΚΟΝΑΣ ΜΕ ΙΣΤΟΓΡΑΜΜΑ ΔΠΜΣ ΗΕΠ 1/46 Περιλαμβάνει: Βελτίωση (Enhancement) Ανακατασκευή (Restoration) Κωδικοποίηση (Coding) Ανάλυση, Κατανόηση Τμηματοποίηση (Segmentation)

Διαβάστε περισσότερα

z = c 1 x 1 + c 2 x c n x n

z = c 1 x 1 + c 2 x c n x n Τεχνολογικό Εκπαιδευτικό Ιδρυμα Κεντρικής Μακεδονίας - Σέρρες Τμήμα Μηχανικών Πληροφορικής Γραμμικός Προγραμματισμός & Βελτιστοποίηση Δρ. Δημήτρης Βαρσάμης Καθηγητής Εφαρμογών Δρ. Δημήτρης Βαρσάμης Μάρτιος

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Συλλογή και παρουσίαση στατιστικών δεδομένων

Συλλογή και παρουσίαση στατιστικών δεδομένων Συλλογή και παρουσίαση στατιστικών δεδομένων Απογραφή Δειγματοληψία Συνεχής καταγραφή Πίνακες Διαγράμματα Στατιστικές εκθέσεις Τρόποι συλλογής δεδομένων Οι μέθοδοι συλλογής δεδομένων ποικίλουν και κυρίως

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΕΠΙΛΥΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΜΕΤΑΔΟΣΗΣ ΣΕ ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ ΜΕ ΣΥΣΚΕΥΕΣ ΔΙΑΚΡΙΤΩΝ ΤΙΜΩΝ ΙΣΧΥΟΣ ΜΕ ΤΗ ΧΡΗΣΗ

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΣΤΡΑΤΗΓΙΚΗ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ Αθανάσιος Νταραβάνογλου Διπλωματική

Διαβάστε περισσότερα

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme Επιλογή δείγματος Κατερίνα Δημάκη Αν. Καθηγήτρια Τμήμα Στατιστικής Οικονομικό Πανεπιστήμιο Αθηνών 1 Τρόποι Συλλογής Δεδομένων Απογραφική

Διαβάστε περισσότερα

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΩΝ ΕΞΕΤΑΣΕΩΝ Μ ΑΪΟΥ 2002 2004 Δ ΕΥΤΕΡΟ ΜΕΡΟΣ Π ΕΡΙΛΗΨΗ: Η μελέτη αυτή έχει σκοπό να παρουσιάσει και να ερμηνεύσει τα ευρήματα που προέκυψαν από τη στατιστική

Διαβάστε περισσότερα

Πιθανολογική Ανάλυση Αποφάσεων. Συστήματα Αποφάσεων Εργαστήριο Συστημάτων Αποφάσεων και Διοίκησης

Πιθανολογική Ανάλυση Αποφάσεων. Συστήματα Αποφάσεων Εργαστήριο Συστημάτων Αποφάσεων και Διοίκησης Πιθανολογική Ανάλυση Αποφάσεων Αβεβαιότητα Known knowns Ποσοτικοποιήσιμη Πιθανότητα Known unknowns Εκτίμηση ενδεχομένου Unknown unknowns Αρνητική επίδραση Ρίσκο Black Swan Πιθανολογική Προσέγγιση Θεωρούμε

Διαβάστε περισσότερα

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1 Εισαγωγή στην κοινωνική έρευνα Earl Babbie Κεφάλαιο 6 Δειγματοληψία 6-1 Σύνοψη κεφαλαίου Σύντομη ιστορία της δειγματοληψίας Μη πιθανοτική δειγματοληψία Θεωρία και λογική της πιθανοτικής Δειγματοληψίας

Διαβάστε περισσότερα

Προσδιορισμός Σημαντικών Χαρακτηριστικών της Αυθόρμητης Δραστηριότητας Απομονωμένου Εγκεφαλικού Φλοιού in vitro

Προσδιορισμός Σημαντικών Χαρακτηριστικών της Αυθόρμητης Δραστηριότητας Απομονωμένου Εγκεφαλικού Φλοιού in vitro ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ "ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΚΑΙ ΤΗ ΒΙΟΛΟΓΙΑ"

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013 ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Η ψηφιακή ανάλυση ασχολείται κυρίως με τέσσερις βασικές λειτουργίες: διόρθωση, βελτίωση, ταξινόμηση, και Κ. Ποϊραζίδης μετασχηματισμό. Η βελτίωση ασχολείται με την τροποποίηση των

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο

Διαβάστε περισσότερα

DIP_04 Σημειακή επεξεργασία. ΤΕΙ Κρήτης

DIP_04 Σημειακή επεξεργασία. ΤΕΙ Κρήτης DIP_04 Σημειακή επεξεργασία ΤΕΙ Κρήτης ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Σκοπός μιας τέτοιας τεχνικής μπορεί να είναι: η βελτιστοποίηση της οπτικής εμφάνισης μιας εικόνας όπως την αντιλαμβάνεται ο άνθρωπος, η τροποποίηση

Διαβάστε περισσότερα

Εισαγωγή στους Υπολογιστές

Εισαγωγή στους Υπολογιστές Εισαγωγή στους Υπολογιστές Ενότητα #2: Αναπαράσταση δεδομένων Αβεβαιότητα και Ακρίβεια Καθ. Δημήτρης Ματαράς Πολυτεχνική Σχολή Τμήμα Χημικών Μηχανικών Αναπαράσταση δεδομένων (Data Representation), Αβεβαιότητα

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

ΘΕΩΡΗΤΙΚΗ ΜΗΧΑΝΙΚΗ ΙΙ

ΘΕΩΡΗΤΙΚΗ ΜΗΧΑΝΙΚΗ ΙΙ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΤΟΜΕΑΣ ΑΣΤΡΟΝΟΜΙΑΣ ΑΣΤΡΟΦΥΣΙΚΗΣ ΚΑΙ ΜΗΧΑΝΙΚΗΣ ΣΠΟΥΔΑΣΤΗΡΙΟ ΜΗΧΑΝΙΚΗΣ ΑΣΚΗΣΕΙΣ ΑΝΑΛΥΤΙΚΗΣ ΔΥΝΑΜΙΚΗΣ ( Μεθοδολογία- Παραδείγματα ) Κλεομένης Γ. Τσιγάνης

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα