Αναγνώριση κλάσεων αντικειμένων σε εικόνες

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Αναγνώριση κλάσεων αντικειμένων σε εικόνες"

Transcript

1 Αναγνώριση κλάσεων αντικειμένων σε εικόνες Χαλέβα-Ντίνα Χρυσάνθη Διπλωματική εργασία Επιβλέπων καθηγητής: κος Νικόλαος Νικολαΐδης Τμήμα Πληροφορικής Σχολή Θετικών Επιστημών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Μάρτιος 29

2 Περιεχόμενα 1. Εισαγωγή Αφφινικός Ανιχνευτής Harris - Harris Affine Detector Αφφινικός Γκαουσιανός χώρος κλιμάκων Αφφινικά αμετάβλητος ανιχνευτής σημείου Αλγόριθμος ανίχνευσης Ανθεκτικότητα του αφφινικού ανιχνευτή Harris σε μετασχηματισμούς Σύγκριση με άλλους ανιχνευτές Μετασχηματισμός Χαρακτηριστικών Αμετάβλητων σε Κλιμάκωση (Scale-Invariant Feature Transform SIFT) Ανίχνευση ακρότατων στο χώρο κλιμάκων Εντοπισμός σημείων κλειδιών Παρεμβολή γειτονικών δεδομένων για ακριβή θέση Απόρριψη σημείων κλειδιών χαμηλής αντίθεσης Εξάλειψη αποκρίσεων ακμών Ανάθεση προσανατολισμού Περιγραφέας σημείου κλειδιού Support Vector Machines - SVM SVM ταξινομητής για γραμμικά διαχωρίσιμα πρότυπα Μέθοδοι ταξινομητών SVM πολλών τάξεων Ένας-Εναντίον-Όλων (One-Against-All) Ένας-Εναντίον-Ενός (One-Against-One) SVM Κατευθυνόμενου Ακυκλικού Γράφου (Directed Acyclic Graph-DAG) Μία μέθοδος που θεωρεί όλα τα δεδομένα ταυτόχρονα Μέθοδος των Crammer και Singer Παραδείγματα πυρήνων SVM Οπτική κατηγοριοποίηση με σάκους σημείων κλειδιών - Περιγραφή και σύνοψη Εισαγωγή Μέθοδος Εξαγωγή χαρακτηριστικών Κατασκευή οπτικού λεξιλογίου Ταξινόμηση Πειράματα και Αποτελέσματα Υλοποίηση μεθόδου σάκων σημείων κλειδιών Δημιουργία διανυσμάτων χαραρακτηριστικών Δημιουργία λεξιλογίου Δημιουργία ιστογραμμάτων...5 2

3 6.4 Ταξινόμηση Επέκταση μεθόδου σάκου σημείων κλειδιών με χρήση Latent Dirichlet Allocation (LDA) Στοιχεία θεωρίας LDA Συμβολισμοί και ορολογία Latent Dirichlet Allocation Υλοποίηση επέκτασης Προσδιορισμός των θεμάτων Εκτίμηση θεμάτων (Topic estimation) Εξαγωγή συμπερασμάτων (Inference) Ταξινόμηση

4 1. Εισαγωγή Στην καθημερινή μας ζωή χρησιμοποιούμε την όραση σαν μία από τις κύριες πηγές πληροφόρησης για τον εξωτερικό κόσμο. Σε σύγκριση με κάποια άλλη αίσθηση όπως η ακοή, η αίσθηση της όρασης μας παρέχει μία πιο εμπλουτισμένη περιγραφή του κόσμου. Σε σύγκριση με μία αίσθηση όπως η αφή, μας επιτρέπει να συγκεντρώνουμε πληροφορίες για τα αντικείμενα από μία πιο μακρινή απόσταση, χωρίς να χρειάζεται να έρθουμε σε άμεση επαφή με αυτά. Αν αναλογιστούμε το πόσο εύκολα αποκτούμε πληροφορίες σχετικά με τον κόσμο μέσω του φωτός που εισέρχεται στα μάτια μας, μπορούμε να κατανοήσουμε το πόσο σημαντική, αλλά και πολύπλοκη είναι η διεργασία αυτή. Η Όραση Υπολογιστών (Computer Vision) ασχολείται με το συγκεκριμένο πρόβλημα υπολογιστικά: ασχολείται δηλαδή με το πρόβλημα της εξαγωγής σημαντικής και χρήσιμης πληροφορίας από οπτικά δεδομένα. Ο βασικός στόχος της Όρασης Υπολογιστών μπορεί να συνοψισθεί ως εξής: Δεδομένης μίας ή περισσοτέρων 2Δ (δισδιάστατων) εικόνων, να βρεθεί μία συμβολική περιγραφή των αντικειμένων του 3Δ κόσμου που περιέχονται σ'αυτήν τη σκηνή. Η είσοδος της Όρασης Υπολογιστών είναι αριθμητικά δεδομένα (σήματα εικόνων), ενώ η έξοδος είναι συμβολική (περιγραφή αντικειμένων). Τα θεμελιώδη ερωτήματα που πρέπει να απαντήσει κάθε λύση του προβλήματος της Όρασης Υπολογιστών περιλαμβάνουν: ΤΙ αντικείμενα υπάρχουν στην κοσμική σκηνή: σχήμα, μέγεθος, υφή, χρώμα, ταυτότητα αντικειμένων ΠΟΥ βρίσκονται τα αντικείμενα: τοποθεσία, κίνηση ΣΧΕΣΕΙΣ μεταξύ των αντικειμένων: χωρικές, ομοιότητες Το θέμα της διπλωματικής εργασίας αναφέρεται σε ένα από τα κυριότερα προβλήματα του πεδίου της Όρασης Υπολογιστών: το πρόβλημα της αναγνώρισης κλάσεων αντικειμένων (object class recognition). Η αναγνώριση κλάσεων αντικειμένων μπορεί να οριστεί ως η διαδικασία ανάθεσης ενός συγκεκριμένου αντικειμένου σε μία κατηγορία. Πιο συγκεριμένα, δεδομένου ενός αριθμού κατηγοριών εκπαίδευσης, μία καινούρια εικόνα θα πρέπει να επεξεργαστεί και στη συνέχεια να αποφασιστεί εάν μία ήδη γνωστή κατηγορία εμφανίζεται στα δεδομένα ή όχι. Τυπικός ορισμός αναγνώρισης κλάσεων αντικειμένων Έστω ότι το C δηλώνει το σύνολο των κατηγοριών 4 c m, και το I το χώρο των

5 οπτικών γεγονότων εισόδου Ι n. Συνήθως, το Ι n είναι μία εικόνα, αλλά μπορεί να είναι επίσης και μία ακολουθία Ι n, t,, Ι n, t εικόνων που έχουν ληφθεί σε διάκριτες t 1,, t k. To f n = f n,1,, f n, j T στιγμές σε χρόνους δηλώνει ένα διάνυσμα χαρακτηριστικών (feature vector) που έχει εξαχθεί από το γεγονός εισόδου I n. Αν υποθέσουμε ότι Μ είναι ένας σταθερός αριθμός κατηγοριών, Ν ο αριθμός των γεγονότων εισόδου, J οι διαστάσεις των διανυσμάτων χαρακτηριστικών και ότι το Κ περιγράφει το μήκος μίας ακολουθίας εικόνων, τότε η διαδικασία της αναγνώρισης κλάσεων αντικειμένων μπορεί να διατυπωθεί ως εξής: Δεδομένου ενός νέου οπτικού γεγονότος εισόδου Ι y, υπολόγισε το αντίστοιχο διάνυσμα χαρακτηριστικών f y. Από το f y, συμπέρανε την αντίστοιχη κατηγορία c x, ή αποφάσισε ότι το οπτικό γεγονός Ι y δε συνδέεται με καμμία από τις υπάρχουσες κατηγορίες c m, m = 1 M. 1 k Στο σημείο αυτό πρέπει να κάνουμε μία διάκριση μεταξύ της αναγνώρισης κλάσεων αντικειμένων και της αναγνώρισης αντικειμένων (object recognition). Όπως προαναφέρθηκε, σκοπός της αναγνώρισης κλάσεων αντικειμένων είναι η ανάθεση αντικειμένων σε γενικές κατηγορίες, όπως π.χ. άνθρωποι, αυτοκίνητα, ποδήλατα κ.τ.λ. Από την άλλη μεριά, η αναγνώριση αντικειμένων ασχολείται με την αναγνώριση ενός συγκεκριμένου, ξεχωριστού αντικειμένου, όπως π.χ. το αυτοκίνητό μου αντί για αυτοκίνητο, ή ο γείτονάς μου αντί για άνθρωπος. Υπάρχει ένα πλήθος εφαρμογών αναγνώρισης κλάσεων αντικειμένων, όπως π.χ. σχολιασμός εικόνων βάσης δεδομένων (image database annotation), ανάκτηση εικόνων (image retrieval) και σχολιασμός video (video annotation). Οι πιθανές μελλοντικές εφαρμογές της όμως ξεπερνούν αυτό το αρχικό στάδιο εφαρμογών. Αξιόπιστη αναγνώριση κλάσεων αντικειμένων πραγματικού χρόνου μπορεί να χρησιμεύσει σε εφαρμογές για παρακολούθηση (surveillance), υποβοήθηση οδηγών (driver assistance), αυτόνομα ρομπότ (autonomous robots), διαδραστικά παιχνίδια (interactive games), εικονική και επαυξημένη πραγματικότητα (virtual and augmented reality) και τηλεπικοινωνίες (telecommunications). Οι προσεγγίσεις που έχουν προταθεί για την αναγνώριση κλάσεων αντικειμένων εκτείνονται από απλές μεθόδους ψηφοφορίας βασισμένης σε τμήματα εικόνων (image patches) έως και τη χρήση λεπτομερών γεωμετρικών μοντέλων. Οι γεωμετρικές προσεγγίσεις αναπαριστούν τα αντικείμενα ως σύνολα τμημάτων των οποίων οι θέσεις περιορίζονται από το μοντέλο. Οι σχέσεις μεταξύ των τμημάτων μπορούν να μοντελοποιηθούν ανά ζεύγη [1], σε σχέση με ευέλικτες διαρθρώσεις ή ιεραρχίες [2][3], με συνεμφάνιση (co-occurence) [4] ή ως άκαμπτα γεωμετρικά μοντέλα [5][6]. Τέτοια γενικά μοντέλα είναι πολύ ισχυρά, αλλά τείνουν να είναι υπολογιστικά πολύπλοκα και ευαίσθητα σε ανιχνεύσεις παραλειπόμενων τμημάτων. Ένα σύνολο μεθόδων αναγνώρισης κλάσεων αντικειμένων που δε βασίζεται στη γεωμετρία και έχει τύχει εκτεταμένης προσοχής συμπεριλαμβάνει τη χρήση τοπικών χαρακτηριστικών (local features) (τοπικών περιγραφέων - local descriptors) καθώς είναι πολύ διακριτικά, αλλά και σταθερά σε πολλά είδη γεωμετρικών και φωτομετρικών 5

6 μετασχηματισμών. Χρησιμοποιούνται ευρέως στην Όραση Υπολογιστών, όχι μόνο για αναγνώριση κλάσεων αντικειμένων, αλλά και για πολλές άλλες εφαρμογές όπως π.χ. ανάκτηση εικόνων (image retrieval), καταγραφή εικόνων (image registration) και ταξινόμηση υφής (texture classification). Υπάρχουν δύο διαφορετικοί τρόποι αξιοποίησης των τοπικών χαρακτηριστικών στις εφαρμογές αυτές: (α) η κλασική αξιοποίηση, η οποία περιλαμβάνει τα παρακάτω τρία βήματα: ανίχνευση χαρακτηριστικών (feature detection), περιγραφή (description) χαρακτηριστικών και αντιστοιχία (matching) χαρακτηριστικών, (β) οι μέθοδοι σάκου χαρακτηριστικών (bag of features) και τα υπερχαρακτηριστικά (hyperfeatures) που περιλαμβάνουν τα εξής τέσσερα βήματα: ανίχνευση χαρακτηριστικών, περιγραφή χαρακτηριστικών, ομαδοποίηση (clustering) χαρακτηριστικών και κατασκευή ιστογραμμάτων συχνοτήτων για την αναπαράσταση των εικόνων. Οι μέθοδοι σάκου χαρακτηριστικών είναι πολύ δημοφιλείς στην ταξινόμηση εικόνων βασισμένη στο περιεχόμενο, χάρις στην απλότητα και την καλή τους απόδοση. Αναπτύχθηκαν από μεθόδους στοιχειωδών σχηματισμών υφής (textons) που χρησιμοποιούνται στην ανάλυση υφής (texture analysis). Το όνομα που δόθηκε στις μεθόδους αυτές είναι ανάλογο με τις αναπαραστάσεις σάκου λέξεων (bag of words) που χρησιμοποιούνται στην ανάλυση εγγράφων (π.χ. στο [7]): τα τμήματα εικόνας είναι τα οπτικά ισοδύναμα των ξεχωριστών λέξεων και η εικόνα αντιμετωπίζεται σαν ένα μη δομημένο σύνολο ( σάκος ) αυτών. Οι βασικές ιδέες είναι η αντιμετώπιση των εικόνων σαν χαλαρές συλλογές ανεξαρτήτων τμημάτων, η δειγματοληψία ενός αντιπροσωπευτικού συνόλου τμημάτων από την εικόνα, ο υπολογισμός ενός διανύσματος οπτικού περιγραφέα για κάθε τμήμα ανεξάρτητα και η χρήση της κατανομής δειγμάτων που προκύπτει στο χώρο περιγραφέων ως ένας χαρακτηρισμός της εικόνας. Οι κύριες επιλογές υλοποίησης είναι επομένως το πώς θα γίνει η δειγματοληψία των τμημάτων, πώς θα γίνει η περιγραφή τους, πώς θα γίνει ο χαρακτηρισμός των κατανομών που προκύπτουν και πώς θα γίνει η αναγνώριση κλάσεων αντικειμένων σύμφωνα με αυτό το αποτέλεσμα. Πρώτα απ' όλα, στη δημοσίευση με την οποία θα ασχοληθούμε εκτενέστερα, [8], οι Csurka κ.ά. προσεγγίζουν την ταξινόμηση αντικειμένων χρησιμοποιώντας κβαντισμένους με αλγόριθμο k-μέσων (k-means) περιγραφείς SIFT σε σημεία κλειδιά (keypoints) εξαγόμενα από τον αφφινικό ανιχνευτή Harris (Harris affine detector) [9]. Oι Winn κ.ά. [1] βελτιστοποιούν τα βιβλία κωδικών (codebooks) του k-μέσων επιλέγοντας κλάσεις που μπορούν να συγχωνευθούν. Οι Zhu [11] κ.ά. ερεύνησαν το διανυσματικό κβαντισμό μικρών τετραγωνικών παραθύρων εικόνων, τα οποία ονόμασαν ομάδες κλειδιά (keyblocks). Έδειξαν ότι αυτά τα χαρακτηριστικά παρήγαγαν περισσότερο σημασιολογικά προσανατολισμένα αποτελέσματα σε σχέση με προσεγγίσεις βασισμένες σε χρώμα και υφή, όταν συνδυάζονται με ανάλογα μοντέλα ανάκτησης κειμένου που βασίζονται σε διανύσματα και ιστογράμματα. Οι Leung κ.ά. [12] χρησιμοποιούν πυκνή δειγματοληψία σε κάθε τμήμα εικόνας αποτιμώντας μία τράπεζα φίλτρων παρόμοιων με Gabor και κωδικοποιώντας την έξοδο χρησιμοποιώντας ένα βιβλίο κώδικα κβαντισμού διανυσμάτων. Οι Lazebnik κ.ά. [13] υιοθετούν μία πιο σποραδική προσέγγιση του σάκου χαρακτηριστικών, χρησιμοποιώντας περιγραφείς SIFT σε σημεία κλειδιά που έχουν εξαχθεί με τον αφφινικό Harris ανιχνευτή [9] και αποφεύγοντας τον καθολικό κβαντισμό με τη σύγκριση των ιστογραμμάτων χρησιμοποιώντας την EMD (Earth Movers Distance) [14]. 6

7 Οι παραπάνω μέθοδοι χρησιμοποιούν διάφορες στρατηγικές επιλογής τμημάτων (patch selection), περιγραφής τμημάτων (patch description), κωδικοποίησης περιγραφέων (descriptor coding) και αναγνώρισης (recognition). Τα τμήματα επιλέγονται χρησιμοποιώντας σημεία κλειδιά [8][2][12][1][15][16][5][6][9][17][18] ή πυκνότερη δειγματοληψία [12][1][4]. Πιο συνηθισμένες είναι οι αναπαραστάσεις βασισμένες σε SIFT [8][16][6][17], σε φίλτρα [12][1] και σε ανεπεξέργαστα τμήματα [2][1][15][5][18]. Για να παραχθούν βιβλία κωδικών χρησιμοποιείται ο k-μέσων αλγόριθμος [8][12][18][1], αλλά και συσσωρευτική ομαδοποίηση (agglomerative clustering) [1][5], ενώ πολλές είναι και οι τεχνικές που χρησιμοποιούνται για την κανονικοποίηση των ιστογραμμάτων. Σκοπός της διπλωματικής εργασίας είναι η υλοποίηση της μεθόδου αναγνώρισης κλάσεων αντικειμένων που προτείνεται από τους Csurka κ.α. στο [8]. Η μέθοδος αυτή κάνει χρήση της προσέγγισης σάκου χαρακτηριστικών, τον οποίο οι συγγραφείς ονομάζουν σάκο σημείων κλειδιών (bag of keypoints). Ο σάκος σημείων κλειδιών αντιστοιχεί στο ιστόγραμμα του αριθμού των εμφανίσεων συγκεκριμένων προτύπων σε μία δεδομένη εικόνα. Τα κύρια πλεονεκτήματα της μεθόδου αυτής είναι ότι είναι απλή αλλά υπολογιστικά αποδοτική καθώς επίσης και αμετάβλητη σε αφφινικούς μετασχηματισμούς, εσω-ταξικούς μετασχηματισμούς, μεταβολές στο φωτισμό και απόκρυψη (occlusion). Σε γενικές γραμμές η μέθοδος περιλαμβάνει τα εξής: 1. Εξαγωγή τοπικών περιγραφέων εμφάνισης για την εικόνα εισόδου 2. Διανυσματικός κβαντισμός των περιγραφέων αυτών 3. Δημιουργία του σάκου σημείων κλειδιών μέσω της δημιουργίας ιστογραμμάτων των κβαντισμένων περιγραφέων 4. Ταξινόμηση (classification) των ιστογραμμάτων αυτών σε οπτικές κατηγορίες Επιπρόσθετα, υλοποιήσαμε μία επέκταση της συγκεκριμένης μεθόδου, χρησιμοποιώντας Latent Dirichlet Allocation (LDA) συμπληρωματικά πριν από την ταξινόμηση των ιστογραμμάτων. Η διάρθρωση των κεφαλαίων που ακολουθούν έχει ως εξής: Στα Κεφάλαια 2,3 και 4 γίνεται ανάλυση των βασικών στοιχείων της μεθόδου που θα χρησιμοποιήσουμε, ώστε να γίνουν πιο κατανοητά στη συνέχεια. Αυτά είναι ο αφφινικός Harris ανιχνευτής, οι SIFT περιγραφείς και τα Support Vector Machines αντίστοιχα. Το Κεφάλαιο 5 είναι μία περιγραφή της δημοσίευσης [8], της οποίας τη μεθοδολογία υλοποιήσαμε. Το Κεφάλαιο 6 παρουσιάζει τη δική μας υλοποίηση και τα αποτελέσματα των πειραμάτων που διεξάγαμε. Στο Κεφάλαιο 7 προτείνεται η επέκταση της μεθόδου με τη χρήση Latent Dirichlet Allocation. Περιγράφεται εν συντομία η βασική θεωρία πίσω από τα LDA και δίνονται τα αποτελέσματα των καινούριων πειραμάτων. 7

8 2. Αφφινικός Ανιχνευτής Harris - Harris Affine Detector Ο αφφινικός ανιχνευτής Harris μπορεί να αναγνωρίσει παρόμοιες περιοχές ανάμεσα σε εικόνες που συνδέονται μέσω αφφινικών μετασχηματισμών και έχουν διαφορετικές φωτεινότητες. Η πρώτη περιγραφή του αλγορίθμου βρίσκεται στο [9]. Πρόκειται για μία αφφινικά-προσαρμοσμένη εκδοχή του ανιχνευτή Harris. Η αφφινική αυτή προσαρμογή βασίζεται στον πίνακα ροπών 2ης τάξης (second moment matrix) και στα τοπικά ακρότατα σε μία κλίμακα κανονικοποιημένων παραγώγων. Οι θέσεις των σημείων ενδιαφέροντος (interest points) ανιχνεύονται από τον αφφινικά-προσαρμοσμένο ανιχνευτή Harris. Αρχικά, προσεγγιστικές θέσεις και κλίμακες των σημείων ενδιαφέροντος εξάγονται από τον ανιχνευτή Harris πολλαπλής κλίμακας. Για κάθε σημείο εφαρμόζουμε μία επαναληπτική διαδικασία η οποία τροποποιεί τη θέση, όπως επίσης και την κλίμακα και το σχήμα της γειτονιάς του σημείου. Αυτό επιτρέπει τη σύγκλιση σε ένα σταθερό σημείο το οποίο είναι αμετάβλητο σε αφφινικούς μετασχηματισμούς. Ο αφφινικός ανιχνευτής Harris βασίζεται σε μεγάλο βαθμό στη Γκαουσιανή αναπαράσταση χώρου κλιμάκων. Για το λόγο αυτό ακολουθεί μία αναλυτική περιγραφή του χώρου αυτού. 2.1 Αφφινικός Γκαουσιανός χώρος κλιμάκων Η μέθοδος βασίζεται σε σημεία ενδιαφέροντος που είναι τοπικά μέγιστα του μέτρου Harris (Harris measure) πάνω από ένα κατώφλι. Το μέτρο Harris είναι ο πίνακας ροπών 2ης τάξης και περιγράφει τη βαθμωτή κατανομή σε μία τοπική περιοχή ενός σημείου x : μ x, σ I, σ D = σ 2D g σ I [ L2x x, σ D Lx L y x, σ D L x L y x, σ D L2y x, σ D 2 det μ atrace μ threshold ] (2.1) (2.2) όπου x = x, y, g σ I είναι ο Γκαουσιανός πυρήνας κλίμακας σ Ι, L η εικόνα εξομαλυμένη από μια Γκαουσιανή και L x x, σ D, L y x, σ D είναι οι παράγωγοι στην αντίστοιχη κατεύθυνση που εφαρμόζονται στην εξομαλυμένη εικόνα και υπολογίζονται χρησιμοποιώντας ένα Γκαουσιανό πυρήνα με κλίμακα σ D. Για την αντιμετώπιση των σημαντικών αλλαγών κλίμακας, τα σημεία εξάγονται σε αρκετές κλίμακες και η 8

9 χαρακτηριστική κλίμακα καθορίζεται με αυτόματη επιλογή. Η αυτόματη επιλογή κλίμακας βασίζεται στο μέγιστο της κανονικοποιημένης Λαπλασιανής σ 2 L xx x, σ L yy x, σ όπου οι παράγωγοι υπολογίζονται με σταθερά Γκαουσιανά φίλτρα. Ένα πρόβλημα παρουσιάζεται στην περίπτωση αφφινικών μετασχηματισμών όπου οι αλλαγές κλίμακας δεν είναι απαραίτητα οι ίδιες σε όλες τις κατευθύνσεις. Σ' αυτήν την περίπτωση η επιλεγμένη κλίμακα δεν αντικατοπτρίζει τον πραγματικό μετασχηματισμό ενός σημείου. Tα τοπικά Harris μέγιστα έχουν διαφορετικές θέσεις όταν εξάγονται σε διαφορετικές κλίμακες ανίχνευσης. Συνεπώς, αν οι κλίμακες ανίχνευσης δεν αντιστοιχούν στον παράγοντα κλίμακας μεταξύ των αντίστοιχων προτύπων εικόνας, εισάγεται ένα επιπρόσθετο σφάλμα στη θέση του σημείου. Στην περίπτωση των αφφινικών μετασχηματισμών, οι κλίμακες ανίχνευσης προς τις x και y κατευθύνσεις πρέπει να διαφοροποιούνται ανεξάρτητα, έτσι ώστε να χειρίζεται καλύτερα μία πιθανή αφφινική κλιμακοθέτηση. Υποθέτουμε ότι και οι δύο κλίμακες μπορούν να προσαρμοστούν στην τοπική δομή της εικόνας. Επομένως, αντιμετωπίζουμε το πρόβλημα υπολογισμού του πίνακα ροπών 2ης τάξης σε αφφινικό Γκαουσιανό χώρο κλιμάκων, όπου ένα κυκλικό παράθυρο αντικαθίσταται από μία έλλειψη. Ένας αφφινικός χώρος κλιμάκων μπορεί να δημιουργηθεί μέσω της συνέλιξης με μη ομοιόμορφους Γκαουσιανούς πυρήνες: 1 g Σ = exp 2π detσ T x Σ 2 1 x όπου x R 2. Αν ο πίνακας Σ είναι ίσος με τον ταυτοτικό πίνακα πολλαπλασιασμένο με μία βαθμωτή τιμή, η συνάρτηση αυτή αντιστοιχεί σε έναν ομοιόμορφο Γκαουσιανό πυρήνα. Δεδομένης οποιασδήποτε συνάρτησης εικόνας I x, οι παράγωγοι μπορούν να καθοριστούν ως Lx x ; Σ = g Σ I x x (2.3) H λειτουργία αυτή αντιστοιχεί στη συνέλιξη με έναν περιστραμμένο ελλιπτικό Γκαουσιανό πυρήνα. Αν χρησιμοποιηθούν κλασικά ομοιόμορφα Γκαουσιανά φίλτρα, έχουμε να κάνουμε με έναν 3Δ χώρο x, y, σ και ο Γκαουσιανός πυρήνας καθορίζεται από μία παράμετρο κλίμακας σ. Αν το Σ είναι ένας συμμετρικός θετικά ορισμένος 2x2 πίνακας, ο αριθμός των βαθμών ελευθερίας του πυρήνα είναι τρία, το οποίο οδηγεί σε ένα σύνθετο, υψηλών διαστάσεων χώρο αναζήτησης. Συνεπώς, πρέπει να εφαρμόσουμε επιπρόσθετους περιορισμούς για να ελαττώσουμε την αναζήτηση. Η επιλογή κλιμάκων ανίχνευσης μπορεί να βασιστεί στον πίνακα ροπών 2ης τάξης. Για ένα δεδομένο σημείο x ο πίνακας ροπών 2ης τάξης μ σε ένα μη ομοιόμορφο χώρο κλιμάκων καθορίζεται από T μ x, Σ I, Σ D = g Σ Ι L x, Σ D L x, Σ D όπου Σ Ι και Σ D είναι οι πίνακες συμμεταβλητότητας οι οποίοι καθορίζουν τους Γκαουσιανούς πυρήνες ολοκλήρωσης και παραγώγισης. Για να μειώσουμε το χώρο αναζήτησης, επιβάλουμε τη συνθήκη Σ Ι = ασ D, όπου a είναι μία βαθμωτή τιμή. 9

10 Θεωρώντας ένα αφφινικά μετασχηματισμένο σημείο συνδέονται ως εξής x L = A x R, οι πίνακες μ x L, Σ I, L, Σ D, L = AT μ A x R, AΣ Ι, L AT, AΣ D, L ΑΤ Α μ (2.4) Έχει αποδειχτεί ότι αν ο περιγραφέας ροπών 2ης τάξης του σημείου x L επαληθεύει τα Σ I, L = tm 1 L μ x L, Σ I, L, Σ D, L = M L Σ D, L = dm 1 L και ο περιγραφέας του σημείου x R επαληθεύει τις αντίστοιχες συνθήκες Σ I, R = tm 1 R μ x R, Σ I, R, Σ D, R = M R Σ D, R = dm 1 R τότε οι πίνακες M L και M R συνδέονται ως εξής T ML= A MRA 1/ 2 A= MR 1 /2 RML Σ R = AΣ L A T (2.5) όπου R είναι μια αυθαίρετη περιστροφή. Οι βαθμωτές τιμές t και d είναι οι κλίμακες ολοκλήρωσης και παραγώγισης αντίστοιχα. Η Εξ. (2.5) επαληθεύει την Εξ. (2.4). Οι πίνακες M L και M R, που υπολογίζονται κάτω από αυτές τις συνθήκες, προσδιορίζουν τις αντίστοιχες περιοχές που καθορίζονται από x T M x = 1. Έχει δειχτεί ότι αν οι γειτονιές των σημείων x L, x R κανονικοποιηθούν από τους μετασχηματισμούς /2 2 x 'L M 1 x L και x 'R M 1/ x R αντίστοιχα, τότε οι κανονικοποιημένες περιοχές L R συνδέονται με μια καθαρή περιστροφή x 'L R x 'R. Στα κανονικοποιημένα πλαίσια M 'L και M 'R είναι ισότιμες με έναν καθαρό πίνακα περιστροφής. Με άλλα λόγια, τα πρότυπα έντασης (intensity patterns) στα κανονικοποιημένα πλαίσια είναι ισοτροπικά. Οι Mikolajczyk κ.ά. [9] επεκτείνουν την προσέγγιση που προτάθηκε στο [19]. Μετασχηματίζουν πρώτα την εικόνα τοπικά ώστε να ληφθεί μια ισοτροπική περιοχή και στη συνέχεια γίνεται αναζήτηση ενός τοπικού Harris μέγιστου και μίας χαρακτηριστικής κλίμακας. Αυτό έχει σαν αποτέλεσμα μία μέθοδο για ανίχνευση σημείων και περιοχών σταθερών σε αφφινικούς μετασχηματισμούς. 2.2 Αφφινικά αμετάβλητος ανιχνευτής σημείου Για τον περιορισμό του χώρου αναζήτησης γίνεται η αρχικοποίηση του αφφινικού ανιχνευτή με σημεία ενδιαφέροντος που έχουν εξαχθεί από τον ανιχνευτή Harris πολλαπλής κλίμακας. Για τη λήψη του πίνακα προσαρμογής σχήματος (shape adaptation matrix) για κάθε σημείο ενδιαφέροντος γίνεται ο υπολογισμός του περιγραφέα ροπών 2ης τάξης (second moment descriptor) με αυτόματα επιλεγμένες κλίμακες ολοκλήρωσης και 1

11 παραγώγισης. Τα κύρια σημεία του αλγορίθμου ανίχνευσης είναι τα εξής: 1. Ο χωρικός εντοπισμός ενός σημείου ενδιαφέροντος για μια δεδομένη κλίμακα και σχήμα καθορίζεται από τον αφφινικά προσαρμοσμένο ανιχνευτή Harris. 2. Η κλίμακα ολοκλήρωσης επιλέγεται στο ακρότατο σε κλίμακα κανονικοποιημένων παραγώγων. 3. Η κλίμακα παραγώγισης επιλέγεται στο μέγιστο μίας κανονικοποιημένης ισοτροπίας. 4. Ο πίνακας προσαρμογής σχήματος κανονικοποιεί τη γειτονιά του σημείου. Παρακάτω αναλύεται με λεπτομέρεια κάθε βήμα του αλγορίθμου. Πίνακας προσαρμογής σχήματος Η επαναληπτική μέθοδος προσαρμογής σχήματος λειτουργεί στο μετασχηματισμένο πεδίο εικόνας. Αντί να εφαρμόζουμε έναν προσαρμοσμένο Γκαουσιανό πυρήνα, μπορούμε να μετασχηματίσουμε την εικόνα και να εφαρμόσουμε ένα ομοιόμορφο πυρήνα. Μία αναδρομική υλοποίηση ομοιόμορφων Γκαουσιανών φίλτρων μπορεί έπειτα να χρησιμοποιηθεί για τον υπολογισμό των L x και L y. Ο πίνακας ροπών 2ης τάξης υπολογίζεται σύμφωνα με την Εξ. (2.1). Ένα τοπικό παράθυρο μετασχηματίζεται από το 1 1 U k 1 = μ 2 κ 1 μ 2 1 U στο βήμα k του επαναληπτικού αλγορίθμου. Η λειτουργία αυτή ονομάζεται U -μετασχηματισμός. Ένας καινούριος πίνακας μ υπολογίζεται σε κάθε επανάληψη και ο πίνακας U είναι η συνένωση των τετραγωνικών ριζών των πινάκων ροπών 2ης τάξης. Κρατώντας τη μεγαλύτερη ιδιοτιμή (eigenvalue) λ max U = 1 εξασφαλίζουμε ότι η αρχική εικόνα δεν είναι υπο-δειγματοληπτούμενη. Αυτό συνεπάγεται ότι το κομμάτι εικόνας μεγεθύνεται προς την κατεύθυνση του λ min U. Για ένα δεδομένο σημείο οι κλίμακες ολοκλήρωσης και παραγώγισης καθορίζουν τον πίνακα ροπών 2ης τάξης μ. Αυτοί οι παράμετροι κλίμακας ανιχνεύονται αυτόματα σε κάθε επαναληπτικό βήμα. Συνεπώς, ο πίνακας μ που προκύπτει είναι ανεξάρτητος της αρχικής κλίμακας. Κλίμακα ολοκλήρωσης Για ένα δεδομένο χωρικό σημείο μπορούμε να επιλέξουμε αυτόματα τη χαρακτηριστική του κλίμακα. Για να διατηρήσουμε αμεταβλητότητα σε αλλαγές κλίμακας επιλέγουμε την κλίμακα ολοκλήρωσης σ I για την οποία η κανονικοποιημένη Λαπλασιανή σ 2 L xx σ L yy σ φτάνει σε ένα τοπικό μέγιστο υπό κλίμακα. Η διατήρηση σταθερής κλίμακας κατά τη διάρκεια των επαναλήψεων μπορεί να είναι αρκετή για μικρές αφφινικές παραμορφώσεις. Στην περίπτωση μεγάλων αφφινικών παραμορφώσεων, η αλλαγή κλίμακας είναι σε γενικές γραμμές πολύ διαφορετική για τις x και y κατευθύνσεις. Συνεπώς, η χαρακτηριστική κλίμακα που ανιχνεύεται στο πεδίο της εικόνας και η U -μετασχηματισμένη εκδοχή της μπορεί να διαφέρουν 11

12 σημαντικά. Είναι επομένως απαραίτητο να επιλέξουμε την κλίμακα ολοκλήρωσης μετά από κάθε εκτίμηση του U μετασχηματισμού. Αυτό επιτρέπει τη σύγκλιση προς μία λύση όπου η κλίμακα και ο πίνακας ροπών 2ης τάξης δεν αλλάζουν πλέον. Κλίμακα παραγώγισης Η τοπική κλίμακα παραγώγισης είναι λιγότερο κρίσιμη και μπορεί να τεθεί ανάλογα με την κλίμακα ολοκλήρωσης σ D = sσ Ι. Ο παράγοντας s δε θα πρέπει να είναι πολύ μικρός, αλλιώς η εξομάλυνση είναι πολύ μεγάλη σε σχέση με την παραγώγιση. Από την άλλη μεριά το s θα έπρεπε να είναι αρκετά μικρό έτσι ώστε το σ Ι να μπορεί μ x,σd,σι να υπολογίζει κατά μέσο όρο τον πίνακα συμμεταβλητότητας με s εξομάλυνση. Ο παράγοντας συνήθως επιλέγεται από την περιοχή τιμών [.5,...,.75]. Η λύση είναι να επιλέξουμε την κλίμακα παραγώγισης για την οποία η τοπική ισοτροπία παρουσιάζει ένα μέγιστο σε αυτή την περιοχή κλιμάκων. Η τοπική ισοτροπία μετριέται με την τοπική κατανομή κλίσης μ Εξ. (2.1). Για την απόκτηση ενός κανονικοποιημένου μέτρου, χρησιμοποιούμε το λόγο ιδιοτιμών λ min μ / λmax μ. Δεδομένης της κλίμακας ολοκλήρωσης σ Ι επιλέγουμε το s [.5,,.75] για το οποίο ο λόγος παρουσιάζει ένα μέγιστο. Ο παράγοντας s επηρεάζει σημαντικά τη σύγκλιση του πίνακα ροπών 2ης τάξης. Η επαναληπτική διαδικασία συγκλίνει προς έναν πίνακα με ίσες ιδιοτιμές. Όσο μικρότερη η διαφορά μεταξύ των ιδιοτιμών λ min μ, λ max μ του αρχικού πίνακα, τόσο πιο κοντά είναι η τελική λύση και τόσο πιο γρήγορα η διαδικασία συγκλίνει. Το μέτρο Harris Εξ. (2.2) επιλέγει ήδη τα σημεία με δύο μεγάλες ιδιοτιμές. Μία μεγάλη διαφορά μεταξύ των ιδιοτιμών οδηγεί σε μία μεγάλη κλιμάκωση προς μία κατεύθυνση από το U -μετασχηματισμό και το σημείο δε συγκλίνει σε μία σταθερή λύση εξαιτίας θορύβου. Συνεπώς, η επιλογή τοπικής κλίμακας επιτρέπει την απόκτηση μίας λογικής ιδιοτιμής και τη σύγκλιση των σημείων τα οποία δε θα συνέκλιναν αν ο λόγος ήταν πολύ μεγάλος. Χωρική εντόπιση Είναι γνωστό ότι τα τοπικά μέγιστα του μέτρου Harris (Εξ. (2.2)) αλλάζουν τη χωρική θέση αν αλλάξει η κλίμακα ανίχνευσης. Αυτό μπορεί να παρατηρηθεί επίσης αν η αλλαγή κλίμακας είναι διαφορετική σε κάθε κατεύθυνση. Η ανίχνευση με διαφορετικές κλίμακες στη x και y κατεύθυνση αντικαθίσταται με αφφινική κανονικοποίηση της εικόνας και στη συνέχεια εφαρμογή της ίδιας κλίμακας και στις δύο κατευθύνσεις. Η αφφινική κανονικοποίηση μίας γειτονικής περιοχής αλλάζει ελαφρώς τα τοπικά χωρικά μέγιστα του μέτρου Harris. Συνεπώς, εντοπίζουμε ξανά το μέγιστο στο αφφινικά κανονικοποιημένο παράθυρο W. Στη συνέχεια λαμβάνουμε ένα διάνυσμα μετατόπισης προς το πλησιέστερο μέγιστο του U -κανονικοποιημένου πεδίου εικόνας. Η θέση του αρχικού σημείου διορθώνεται με τον αντίστροφο μετασχηματισμό στο αρχικό πεδίο εικόνας x k = x k 1 U k 1 x kw x wk 1 του διανύσματος εκτόπισης, όπου x w είναι οι 12

13 συντεταγμένες στο μετασχηματισμένο πεδίο εικόνας. Κριτήριο τερματισμού Το σημαντικό τμήμα της επαναληπτικής διαδικασίας είναι το κριτήριο τερματισμού. Το μέτρο σύγκλισης μπορεί να βασιστεί είτε στο μ ή στο U πίνακα. Αν το κριτήριο βασιστεί στο μ πίνακα που υπολογίζεται σε κάθε επαναληπτικό βήμα, απαιτείται αυτός ο πίνακας να είναι επαρκώς κοντά σε έναν καθαρό πίνακα περιστροφής. Αυτό σημαίνει ότι τα λ max μ και λ min μ είναι ίσα. Στην πράξη επιτρέπεται ένα μικρό λ min μ / λ max μ ε C. Μία άλλη πιθανότητα είναι να ερμηνεύσουμε το σφάλμα μετασχηματισμό U = RT D R σαν μια περιστροφή R και μια κλιμάκωση D και να συγκρίνουμε τους διαδοχικούς μετασχηματισμούς. Η επανάληψη σταματά όταν οι διαδοχικοί R και D μετασχηματισμοί είναι επαρκώς όμοιοι. Και τα δύο κριτήρια τερματισμού δίνουν τα ίδια τελικά αποτελέσματα. Ένα άλλο σημαντικό σημείο είναι η παύση της διαδικασίας στην περίπτωση απόκλισης. Το σημείο απορρίπτεται αν λ max D / λ min D ε l, αλλιώς οδηγεί σε ασταθείς, επιμήκεις δομές. 2.3 Αλγόριθμος ανίχνευσης Τα επόμενα βήματα περιγράφουν μία επαναληπτική διαδικασία η οποία επιτρέπει στα αρχικά σημεία να συγκλίνουν σε αφφινικά αμετάβλητα σημεία. Για την αρχικοποίηση του αλγορίθμου χρησιμοποιούνται σημεία που έχουν εξαχθεί από τον ανιχνευτή Harris πολλαπλής κλίμακας. Τα σημεία αυτά δεν είναι αφφινικά αμετάβλητα εξαιτίας ενός μη προσαρμοσμένου Γκαουσιανού πυρήνα, αλλά παρέχουν μια προσεγγιστική θέση και κλίμακα για αρχικοποίηση. Για ένα δεδομένο σημείο ενδιαφέροντος x εφαρμόζεται η παρακάτω διαδικασία: 1. Αρχικοποίηση του U στον ταυτοτικό πίνακα W U k 1 x w = I x 2. Κανονικοποίηση του παραθύρου U k 1 x k 1 w =x κεντραρισμένο στο k 1 3. Επιλογή κλίμακας ολοκλήρωσης σ Ι στο x wk 1 4. Επιλογή κλίμακας παραγώγισης σ D = sσ Ι το οποίο μεγιστοποιεί το λmin μ λmax μ με και μ = μ x wk 1, σ D, σ Ι 5. Ανίχνευση χωρικής εντόπισης x kw του μεγίστου του μέτρου Harris (Εξ. (2.2)) πλησιέστερα στο x wk 1 και υπολογισμός της θέσης του σημείου ενδιαφέροντος s [.5,,.75] x k 13

14 1 6. Υπολογισμός του μ ki = μ 2 x wk, σ D, σ Ι 7. Διαδοχικός μετασχηματισμός U k = μ i k U k 1 και κανονικοποίηση του έτσι ώστε λ max U k = 1 8. Μετάβαση στο βήμα 2 αν λ min μ i k / λ max μ i k ε C U k Παρόλο που ο υπολογισμός μπορεί να φαίνεται πολύ χρονοβόρος, ο περισσότερος χρόνος ξοδεύεται υπολογίζοντας τα L x και L y, το οποίο γίνεται μόνο μία φορά σε κάθε βήμα αν ο παράγοντας s διατηρείται σταθερός. Ο επαναληπτικός βρόγχος ξεκινάει με την επιλογή της κλίμακας ολοκλήρωσης γιατί αυτό το σημείο του αλγορίθμου είναι το πιο ανθεκτικό σε ένα μικρό σφάλμα εντόπισης ενός σημείου ενδιαφέροντος. Ωστόσο, η κλίμακα σ Ι αλλάζει αν το σχήμα του τμήματος μετασχηματιστεί. Δεδομένης μίας αρχικής προσεγγιστικής λύσης, ο αλγόριθμος που παρουσιάζεται επιτρέπει την επαναληπτική τροποποίηση του σχήματος, της κλίμακας και του χωρικού εντοπισμού ενός σημείου και συγκλίνει σε ένα πραγματικά αφφινικά αμετάβλητο σημείο ενδιαφέροντος. Σε γενικές γραμμές η διαδικασία συγκλίνει δεδομένου ότι η αρχική εκτίμηση της αφφινικής παραμόρφωσης είναι επαρκώς κοντά στην πραγματική αλλοίωση και η κλίμακα ολοκλήρωσης είναι καλά προσαρμοσμένη στην τοπική δομή σήματος. 2.4 Ανθεκτικότητα του αφφινικού ανιχνευτή Harris σε μετασχηματισμούς Στο [2] γίνεται μία εκτενής ανάλυση μερικών αρκετά χρησιμοποιούμενων ανιχνευτών, συμπεριλαμβανομένων των Harris-Affine, MSER (Maximally Stable Extremal Regions), IBR (Intensity extrema-based Region detector) & EBR (Edge-Based Region detector) και salient ανιχνευτών. Ακολουθεί μία περίληψη των αποτελεσμάτων που αφορούν στον αφφινικό ανιχνευτή Harris: Αλλαγή οπτικής γωνίας: Ο αφφινικός ανιχνευτής Harris έχει λογική (μέση) ανθεκτικότητα σε τέτοιους τύπους αλλαγών. Ο ανιχνευτής διατηρεί μία βαθμολογία επαναληψιμότητας μεγαλύτερη από 5% μέχρι και μια οπτική γωνία μεγαλύτερη των 4 μοιρών. Ο ανιχνευτής τείνει να ανιχνεύει έναν υψηλό αριθμό επαναληπτικών και ικανών για αντιστοίχιση περιοχών ακόμη και κάτω από μεγάλη αλλαγή οπτικής γωνίας. Αλλαγή κλίμακας: Ο αφφινικός ανιχνευτής Harris παραμένει πολύ συνεπής κάτω από αλλαγές κλίμακας. Παρόλο που ο αριθμός των σημείων ελαττώνεται σε μεγάλες αλλαγές κλίμακας, η επαναληψιμότητα (5-6%) και οι βαθμολογίες αντιστοίχισης (25-3%) παραμένουν πολύ σταθερές, ιδίως με εικόνες υφής. Θολωμένες εικόνες: Ο αφφινικός ανιχνευτής Harris παραμένει πολύ σταθερός κάτω από θόλωμα της εικόνας. Επειδή ο ανιχνευτής δε βασίζεται σε κατάτμηση της εικόνας ή σε όρια περιοχών, η επαναληψιμότητα και οι βαθμολογίες αντιστοίχισης παραμένουν σταθερές. 14

15 JPEG Artifacts: Ο αφφινικός ανιχνευτής Harris υποβαθμίζεται, όπως και οι άλλοι αφφινικοί ανιχνευτές: η επαναληψιμότητα και οι βαθμολογίες αντιστοίχισης πέφτουν σημαντικά πάνω από 8% συμπίεση. Αλλαγές φωτεινότητας: Ο αφφινικός ανιχνευτής Harris, όπως και άλλοι αφφινικοί ανιχνευτές είναι πολύ ανθεκτικός σε αλλαγές φωτεινότητας: η επαναληψιμότητα και οι βαθμολογίες αντιστοίχισης παραμένουν σταθερές κάτω από φως που ελαττώνεται. Αυτό είναι αναμενόμενο καθώς οι ανιχνευτές βασίζονται σε σχετικές εντάσεις (παραγώγους) και όχι σε απόλυτες εντάσεις. 2.5 Σύγκριση με άλλους ανιχνευτές 1. Οι περιοχές σημείων του αφφινικού Harris είναι συνήθως μικρά και πολυάριθμα.και ο αφφινικός Harris ανιχνευτής, αλλά και ο αφφινικός Hessian αναγνωρίζουν περίπου τα διπλάσια σημεία από άλλους αφφινικούς ανιχνευτές: ~1 περιοχές για μία 8x64 εικόνα. Οι μικρές περιοχές είναι λιγότερο πιθανό να αποκρύπτονται, αλλά έχουν μεγαλύτερη πιθανότητα επικάλυψης γειτονικών περιοχών. 2. Ο αφφινικός Harris αντιδρά καλά σε σκηνές με υφή στις οποίες υπάρχουν πολλά κομμάτια που μοιάζουν με γωνίες. Ωστόσο, για μερικώς δομημένες σκηνές, όπως π.χ. τα κτίρια, ο αφφινικός ανιχνευτής Harris λειτουργεί πολύ καλά. Αυτό είναι συμπληρωματικό στον MSER που τείνει να τα πάει καλύτερα με καλά δομημένες (κατατμήσιμες) σκηνές. 3. Γενικά, ο αφφινικός Harris λειτουργεί πολύ καλά, αλλά είναι ακόμα πίσω από τον MSER και τον αφφινικό Hessian σε όλες τις περιπτώσεις εκτός από θολωμένες εικόνες. 4. Ο αφφινικός Harris και ο αφφινικός Hessian είναι λιγότερο ακριβείς από τους άλλους ανιχνευτές: η βαθμολογία επαναληψιμότητάς τους αυξάνεται καθώς αυξάνεται και το κατώφλι επικάλυψης. 15

16 3. Μετασχηματισμός Χαρακτηριστικών Αμετάβλητων σε Κλιμάκωση (Scale-Invariant Feature Transform SIFT) Ο Μετασχηματισμός Χαρακτηριστικών Αμετάβλητων σε Κλιμάκωση (ScaleInvariant Feature Transform SIFT) είναι ένας αλγόριθμος που χρησιμοποιείται για την ανίχνευση και περιγραφή τοπικών χαρακτηριστικών σε εικόνες. Ο αλγόριθμος δημοσιεύτηκε πρώτη φορά στο [21]. Η ανίχνευση και περιγραφή τοπικών χαρακτηριστικών εικόνας είναι πολύ χρήσιμη στην αναγνώριση κλάσεων αντικειμένων. Τα SIFT χαρακτηριστικά είναι τοπικά και βασίζονται στην εμφάνιση του αντικειμένου σε συγκεκριμένα σημεία ενδιαφέροντος ενώ είναι αμετάβλητα σε αλλαγή κλίμακας και περιστροφή. Είναι επίσης ανθεκτικά σε αλλαγές φωτεινότητας, θορύβου, απόκρυψης και μικρές αλλαγές οπτικής γωνίας. Επιπρόσθετα, είναι πολύ διακριτικά, σχετικά εύκολα να εξαχθούν, επιτρέπουν σωστή αναγνώριση κλάσεων αντικειμένων με μικρή πιθανότητα κακής αντιστοίχισης και είναι εύκολα στην αντιστοίχιση σε μία μεγάλη βάση τοπικών χαρακτηριστικών. Είναι επίσης ανθεκτικά στην απόκρυψη: μόνο τρία χαρακτηριστικά SIFT ενός αντικειμένου είναι αρκετά για να υπολογιστεί η θέση και η πόζα του. Η αναγνώριση μπορεί να γίνει σχετικά σε πραγματικό χρόνο, τουλάχιστον για μικρές βάσεις δεδομένων σε σύγχρονους υπολογιστές. Στο κεφάλαιο αυτό αναλύονται εκτενώς τα βήματα του αλγορίθμου. 3.1 Ανίχνευση ακρότατων στο χώρο κλιμάκων Αυτό είναι το στάδιο όπου ανιχνεύονται τα σημεία ενδιαφέροντος, τα οποία στα πλαίσια του SIFT αλγορίθμου ονομάζονται σημεία κλειδιά. Για να γίνει αυτό, η εικόνα συνελίσσεται με Γκαουσιανά φίλτρα διαφορετικών κλιμάκων και στη συνέχεια λαμβάνεται η διαφορά των διαδοχικών Γκαουσιανά θολωμένων εικόνων. Τα σημεία κλειδιά επιλέγονται τότε ως τα μέγιστα/ελάχιστα της Διαφοράς των Γκαουσιανών (Difference of Gaussian DoG) που βρίσκονται σε πολλαπλάσιες κλίμακες. Συγκεκριμένα, μια DoG εικόνα D x, y, σ δίνεται από το D x, y, σ = L x, y, k i σ L x, y, k j σ όπου L x, y, kσ είναι η αρχική εικόνα Ι x, y θόλωμα G x, y, kσ σε κλίμακα kσ, δηλαδή 16 συνελιγμένη με το Γκαουσιανό

17 L x, y, kσ = G x, y, kσ Ι x, y Για το λόγο αυτό, μια DoG εικόνα μεταξύ των κλιμάκων k i σ και k j σ είναι απλά η διαφορά των Γκαουσιανά θολωμένων εικόνων σε κλίμακες k i σ και k j σ. Για ανίχνευση ακρότατων στο χώρο κλιμάκων στον αλγόριθμο SIFT, η εικόνα πρώτα συνελίσσεται με Γκαουσιανό θόλωμα σε διαφορετικές κλίμακες. Οι συνελιγμένες εικόνες ομαδοποιούνται σε οκτάδες (μία οκτάδα αντιστοιχεί σε διπλασιασμό της τιμής του σ ), και η τιμή του k i επιλέγεται έτσι ώστε να έχουμε ένα σταθερό αριθμό συνελιγμένων εικόνων ανά οκτάδα. Οι DoG εικόνες λαμβάνονται έπειτα από γειτονικές Γκαουσιανά θολωμένες εικόνες ανά οκτάδα. Εικ. 3.1: Διάγραμμα που επιδεικνύει τις θολωμένες εικόνες σε διαφορετικές κλίμακες και τον υπολογισμό των DoG εικόνων [22] Μόλις λάβουμε τις DoG εικόνες, τα σημεία κλειδιά προσδιορίζονται ως τα τοπικά μέγιστα/ελάχιστα των DoG εικόνων επί κλιμάκων. Αυτό γίνεται συγκρίνοντας κάθε εικονοστοιχείο (pixel) των DoG εικόνων με τα οκτώ γειτονικά στη ίδια κλίμακα και με εννέα αντίστοιχα γειτονικά pixels σε κάθε γειτονική κλίμακα. Αν η τιμή του pixel είναι η μέγιστη ή η ελάχιστη ανάμεσα σε όλα τα pixels που έχουν συγκριθεί, επιλέγεται σαν ένα υποψήφιο σημείο κλειδί. 17

18 Εικ. 3.2: Ανίχνευση τοπικών ακρότατων, το pixel που είναι σημαδεμένο με x συγκρίνεται με τα 26 γειτονικά σε μία 3x3x3 γειτονιά που εκτείνεται σε παρακείμενες DoG εικόνες [22] 3.2 Εντοπισμός σημείων κλειδιών Η ανίχνευση ακρότατων στο χώρο κλιμάκων έχει ως αποτέλεσμα πολλά υποψήφια σημεία κλειδιά, μερικά από τα οποία είναι ασταθή. Το επόμενο βήμα του αλγορίθμου είναι να γίνει μια λεπτομερής προσαρμογή στα παρακείμενα δεδομένα για ακριβή θέση, κλίμακα και λόγο κύριων καμπυλοτήτων (ratio of principal curvatures). Αυτή η πληροφορία επιτρέπει στα σημεία που έχουν χαμηλή αντίθεση (και είναι επομένως πιο ευαίσθητα στο θόρυβο) ή σε αυτά που είναι ανεπαρκώς εντοπισμένα κατά μήκος μιας ακμής να απορρίπτονται. 18

19 3.3 Παρεμβολή γειτονικών δεδομένων για ακριβή θέση Πρώτα απ'όλα, για κάθε υποψήφιο σημείο κλειδί, χρησιμοποιείται παρεμβολή (interpolation) γειτονικών δεδομένων για να καθοριστεί ακριβώς η θέση του. Η αρχική προσέγγιση [21] ήταν η απλή τοποθέτηση του κάθε σημείου κλειδιού στη θέση και την κλίμακα του υποψήφιου σημείου κλειδιού. Η νέα προσέγγιση [22] υπολογίζει την παρεμβαλλόμενη θέση του μέγιστου, το οποίο ουσιαστικά βελτιώνει την αντιστοίχιση και τη σταθερότητα. Η παρεμβολή γίνεται χρησιμοποιώντας τη 2ου βαθμού επέκταση του Taylor της DoG συνάρτησης στο χώρο κλίμακας D x, y, σ με το υποψήφιο σημείο κλειδί ως την αρχή. Αυτή η επέκταση του Taylor δίνεται από: D x = D DT 1 2 D x xt x x 2 x2 όπου το και οι παράγωγοί του υπολογίζονται στο υποψήφιο σημείο κλειδί και είναι η μετατόπιση από το σημείο αυτό. Η θέση του ακρότατου x προσδιορίζεται παίρνοντας την παράγωγο αυτής της συνάρτησης αναφορικά με το x και μηδενίζοντάς την. Αν η μετατόπιση x είναι μεγαλύτερη από,5 σε κάθε διάσταση, τότε αυτό είναι μία ένδειξη ότι το ακρότατο βρίσκεται πλησιέστερα σε ένα άλλο υποψήφιο σημείο κλειδί. Στην περίπτωση αυτή, το υποψήφιο σημείο κλειδί αλλάζει και η παρεμβολή γίνεται στο σημείο εκείνο. Αλλιώς η μετατόπιση προστίθεται στο υποψήφιο σημείο κλειδί της ώστε να ληφθεί η παρεμβαλλόμενη εκτίμηση της θέσης του ακρότατου. D x = x, y,σ 3.4 Απόρριψη σημείων κλειδιών χαμηλής αντίθεσης Για την απόρριψη κλειδιών με χαμηλή αντίθεση, υπολογίζεται η τιμή της επέκτασης Taylor 2ης τάξης D x στη μετατόπιση x. Αν η τιμή αυτή είναι μικρότερη από,3, το υποψήφιο σημείο κλειδί απορρίπτεται. Αλλιώς κρατείται, με τελική θέση y x και κλίμακα σ, όπου y είναι η αρχική θέση του σημείου κλειδιού σε κλίμακα σ. 19

20 3.5 Εξάλειψη αποκρίσεων ακμών Η συνάρτηση DoG θα έχει έντονες αποκρίσεις κατά μήκος των ακμών, ακόμη και αν το υποψήφιο σημείο κλειδί είναι ασταθές σε μικρά ποσά θορύβου. Επομένως, για να αυξηθεί η σταθερότητα, πρέπει να εξαλείψουμε τα σημεία που έχουν ανεπαρκώς καθορισμένες θέσεις, αλλά έχουν υψηλές αποκρίσεις ακμών. Για ανεπαρκώς καθορισμένες κορυφές στην DoG συνάρτηση, η κύρια καμπυλότητα επί της ακμής είναι πολύ μεγαλύτερη από την κύρια καμπυλότητα κατά μήκος της. Η εύρεση αυτών των κύριων καμπυλοτήτων ισοδυναμεί με την επίλυση του πίνακα Hessian δεύτερης τάξης, Η για τις ιδιοτιμές: Η= [ D xx D xy D xy D yy ] Οι ιδιοτιμές του H είναι ανάλογες προς τις κύριες καμπυλότητες του Αποδεικνύεται ότι ο λόγος των δύο ιδιοτιμών, έστω ότι a είναι η μεγαλύτερη και μικρότερη, με λόγο D xx D yy r= α, είναι αρκετός για τον SIFT. Το ίχνος του β D. β η H, δηλαδή το μας δίνει το άθροισμα των δύο ιδιοτιμών, ενώ η ορίζουσά του, δηλαδή το D xx D yy D2xy μας δίνει το γινόμενο. Ο λόγος R= Tr H 2 Det H μπορεί να δειχθεί ότι είναι r 1 2, το οποίο εξαρτάται μόνο από το λόγο των ιδιοτιμών παρά από τις r ξεχωριστές τους τιμές. Το R είναι ελάχιστο όταν οι ιδιοτιμές είναι ίσες μεταξύ τους. ίσος με το Επομένως, όσο μεγαλύτερη η απόλυτη διαφορά μεταξύ των δύο ιδιοτιμών, (κάτι το οποίο ισοδυναμεί με μια μεγαλύτερη απόλυτη διαφορά μεταξύ των δύο κύριων καμπυλοτήτων του D ), τόσο μεγαλύτερη η τιμή του R. Κατά συνέπεια, για κάποιο λόγο κατωφλίου ιδιοτιμών r th, αν το R για ένα υποψήφιο σημείο κλειδί είναι μεγαλύτερο από r th 1 2, το σημείο κλειδί είναι ανεπαρκώς εντοπισμένο και επομένως απορρίπτεται. r th Στο [22] χρησιμοποιείται r th = Ανάθεση προσανατολισμού Σ'αυτό το βήμα, σε κάθε σημείο κλειδί ανατίθενται ένας ή περισσότεροι προσανατολισμοί (orientations) σύμφωνα με τις τοπικές κατευθύνσεις κλίσης της εικόνας (local image gradient directions). Αυτό αποτελεί βήμα κλειδί για την επίτευξη αμεταβλητότητας στην περιστροφή, καθώς ο περιγραφέας του σημείου κλειδιού μπορεί να 2

21 αναπαρίσταται σχετικά με αυτόν τον προσανατολισμό και επομένως να επιτύχει αμεταβλητότητα σε περιστροφή της εικόνας. Πρώτα λαμβάνεται η Γκαουσιανά εξομαλυμένη εικόνα L x, y, σ στην κλίμακα του σημείου κλειδιού σ ώστε όλοι οι υπολογισμοί να γίνονται με σταθερή κλίμακα. Για μία εικόνα L x, y σε κλίμακα σ το μέτρο κλίσης m x, y και ο προσανατολισμός θ x, y προϋπολογίζονται χρησιμοποιώντας τις διαφορές των pixels: m x, y = L x 1, y L x 1, y 2 L x, y 1 L x, y 1 2 θ x, y = tan 1 L x, y 1 L x, y 1 L x 1, y L x 1, y Οι υπολογισμοί μέτρου και κατεύθυνσης για την κλίση γίνονται για κάθε pixel σε μία γειτονική περιοχή γύρω απο το σημείο κλειδί στη Γκαουσιανά θολωμένη εικόνα L. Σχηματίζεται ένα ιστόγραμμα προσανατολισμού με 36 κλάσεις, με την κάθε κλάση να καλύπτει 1 μοίρες. Κάθε δείγμα του γειτονικού παραθύρου που προστίθεται σε μία κλάση ιστογράμματος εκτιμάται από το μέτρο κλίσης του και από ένα γκαουσιανό σταθμικό κυκλικό παράθυρο με ένα σ το οποίο είναι 1,5 φορές αυτό της κλίμακας του σημείου κλειδιού. Οι κορυφές σ'αυτό το ιστόγραμμα αντιστοιχούν στους κυρίαρχους προσανατολισμούς. Μόλις το ιστόγραμμα γίνει πλήρες οι προσανατολισμοί που αντιστοιχούν στην υψηλότερη κορυφή και οι τοπικές κορυφές που είναι μέσα στο 8% των υψηλότερων κορυφών ανατίθενται στο σημείο κλειδί. Στην περίπτωση ανάθεσης πολλαπλών προσανατολισμών, για κάθε επιπρόσθετο προσανατολισμό, δημιουργείται ένα επιπρόσθετο σημείο κλειδί το οποίο έχει την ίδια θέση και κλίμακα όπως το αρχικό σημείο κλειδί. 3.7 Περιγραφέας σημείου κλειδιού Στα προηγούμενα βήματα βρίσκονται οι θέσεις των σημείων κλειδιών σε συγκεκριμένες κλίμακες και ανατίθενται προσανατολισμοί σε αυτά. Αυτό εξασφαλίζει αμεταβλητότητα στη θέση, κλίμακα και περιστροφή της εικόνας. Σαν επόμενο βήμα θέλουμε να υπολογίσουμε διανύσματα περιγραφέων για αυτά τα σημεία κλειδιά έτσι ώστε οι περιγραφείς να είναι πολύ διακριτικοί και μερικώς αμετάβλητοι στις εναπομείναντες μεταβολές, όπως φωτισμός, 3Δ οπτική γωνία κ.τ.λ. Το στάδιο αυτό είναι αρκετά παρόμοιο με το βήμα ανάθεσης προσανατολισμού. Ο περιγραφέας χαρακτηριστικών (feature descriptor) υπολογίζεται ως ένα σύνολο ιστογραμμάτων προσανατολισμού σε (4x4) γειτονιές pixel. Τα ιστογράμματα προσανατολισμού είναι σχετικά με τον προσανατολισμό του σημείου κλειδιού και τα δεδομένα προσανατολισμού προέρχονται από την Γκαουσιανή εικόνα που είναι πλησιέστερη σε κλίμακα με την κλίμακα του σημείου κλειδιού. Όπως και πριν, η συνεισφορά του κάθε pixel αξιολογείται από το μέτρο κλίσης και από μία 21

22 Γκαουσιανή με σ 1,5 φορές την κλίμακα του σημείου κλειδιού. Τα ιστογράμματα περιέχουν 8 κλάσεις το καθένα και κάθε περιγραφέας περιέχει έναν πίνακα 4 ιστογραμμάτων γύρω από το σημείο κλειδί. Αυτό οδηγεί σε ένα SIFT διάνυσμα χαρακτηριστικών με (4 x 4 x 8 = 128 στοιχεία). Το διάνυσμα αυτό κανονικοποιείται για να αυξηθεί η αμεταβλητότητα σε αλλαγές φωτεινότητας. Εικ. 3.3: Περιγραφέας χαρακτηριστικών SIFT [22] Παρόλο που η διάσταση του περιγραφέα (128) φαίνεται υψηλή, οι περιγραφείς με χαμηλότερη διάσταση από αυτήν δεν αποδίδουν τόσο καλά σε εργασίες αντιστοίχισης, όπως αποδεικνύεται στο [22], και το υπολογιστικό κόστος παραμένει χαμηλό χάρις στην BBF (Best-Bin-First) μέθοδο που χρησιμοποιείται για την εύρεση του κοντινότερου γείτονα. Οι πιο επιμήκεις περιγραφείς συνεχίζουν να αποδίδουν καλύτερα αλλά όχι κατά πολύ και υπάρχει και ένας επιπρόσθετος κίνδυνος αυξημένης ευαισθησίας σε παραμόρφωση και απόκρυψη. Αποδεικνύεται επίσης ότι η ακρίβεια της αντιστοίχισης χαρακτηριστικών είναι πάνω από 5% για αλλαγές οπτικής γωνίας μέχρι και 5 μοίρες. Βγαίνει συνεπώς το συμπέρασμα ότι οι περιγραφείς SIFT είναι αμετάβλητοι σε μικρές αφφινικές αλλαγές. 22

23 4. Support Vector Machines - SVM Τα SVM αρχικά σχεδιάστηκαν για δυαδική ταξινόμηση (binary classification). Η αποτελεσματική επέκτασή τους ώστε να χρησιμοποιούνται και για ταξινόμηση πολλών τάξεων (multiclass classification) είναι ένα ζήτημα που μελετάται ακόμα εκτενώς. Στο συγκεκριμένο κεφάλαιο θα δώσουμε περισσότερη βάση στον ταξινομητή δύο κλάσεων, καθώς αποτελεί μια βάση και για τους ταξινομητές πολλών κλάσεων και στη συνέχεια θα περιγράψουμε εν συντομία κάποιες μεθόδους που έχουν προταθεί για την υλοποίηση SVM ταξινομητών πολλών κλάσεων. Στην περίπτωση των γραμμικά διαχωρίσιμων προτύπων, η βασική ιδέα πίσω από το SVM είναι η κατασκευή ενός υπερεπιπέδου ως επιφάνεια απόφασης (decision surface) με τέτοιο τρόπο ώστε το διαχωριστικό όριο μεταξύ των θετικών και αρνητικών παραδειγμάτων να μεγιστοποιείται. Το SVM επιτυγχάνει αυτήν την επιθυμητή ιδιότητα ακολουθώντας μία προσέγγιση που έχει τις ρίζες της στη στατιστική θεωρία μάθησης. Πιο συγκεκριμένα, το SVM είναι μια προσεγγιστική υλοποίηση της μεθόδου δομικής ελαχιστοποίησης ρίσκου (structural risk minimization). Αυτή η επαγωγική αρχή βασίζεται στο γεγονός ότι ο ρυθμός σφάλματος μίας μηχανής μάθησης σε δοκιμαστικά δεδομένα οριοθετείται από το άθροισμα του ρυθμού σφάλματος εκπαίδευσης και έναν όρο ο οποίος εξαρτάται από τη Vapnik-Chervonenkis (VC) διάσταση. Στην περίπτωση των διαχωρίσιμων προτύπων, το SVM παράγει μια μηδενική τιμή για τον πρώτο όρο και ελαχιστοποιεί το δεύτερο. Επομένως, το SVM μπορεί να παρέχει μία καλή γενικευμένη απόδοση σε προβλήματα ταξινόμησης προτύπων παρά το γεγονός ότι δεν ενσωματώνει γνώση του πεδίου του προβλήματος. Αυτό το χαρακτηριστικό είναι μοναδικό στα SVM [23]. Μία κεντρική έννοια στην κατασκευή του συγκεκριμένου αλγορίθμου μάθησης είναι ο πυρήνας εσωτερικού γινομένου μεταξύ ενός διανύσματος υποστήριξης (support vector) x i και του διανύσματος x που προέρχεται από το χώρο εισόδου. Τα διανύσματα υποστήριξης αποτελούνται από ένα μικρό υποσύνολο των δεδομένων εκπαίδευσης τα οποία εξάγονται από τον αλγόριθμο. Ανάλογα με το πώς δημιουργείται αυτός ο πυρήνας εσωτερικού γινομένου, είναι δυνατή η κατασκευή διαφορετικών μηχανών μάθησης που χαρακτηρίζονται από μη γραμμικές επιφάνειες απόφασης. Στη συνέχεια του κεφαλαίου οι έννοιες αυτές αναλύονται εκτενώς. 23

24 4.1 SVM ταξινομητής για γραμμικά διαχωρίσιμα πρότυπα Θεωρούμε το δείγμα εκπαίδευσης { x i, d i }in=1 όπου x i είναι το πρότυπο εισόδου για το ith παράδειγμα και d i είναι η αντίστοιχη επιθυμητή απόκριση. Υποθέτουμε ότι το πρότυπο (κλάση) που αντιπροσωπεύεται από το υποσύνολο d i = 1 και το πρότυπο που αντιπροσωπεύεται από το υποσύνολο d i = 1 είναι γραμμικά διαχωρίσιμα. Η εξίσωση μιας επιφάνειας απόφασης στην μορφή ενός υπερεπιπέδου που κάνει το διαχωρισμό είναι wt x b = όπου (4.1) είναι ένα διάνυσμα εισόδου, w είναι ένα ρυθμιζόμενο διάνυσμα βάρους και b είναι μία πόλωση. Μπορούμε επομένως να γράψουμε x w T x i b για d i = 1 (4.2) w T x i b για d i = 1 Για ένα δεδομένο διάνυσμα βάρους w και μία πόλωση b, ο διαχωρισμός μεταξύ του υπερεπιπέδου που καθορίζεται στην Εξ. (4.1) και του πλησιέστερου σημείου δεδομένων ονομάζεται διαχωριστικό όριο (margin of separation) και δηλώνεται με ρ. Στόχος του SVM είναι να εντοπίσει το συγκεκριμένο υπερεπίπεδο για το οποίο το διαχωριστικό όριο ρ μεγιστοποιείται. Υπό αυτήν τη συνθήκη η επιφάνεια απόφασης αναφέρεται ως το βέλτιστο υπερεπίπεδο (optimal hyperplane). Εικ. 4.1: Απεικόνιση ενός βέλτιστου υπερεπιπέδου για γραμμικά διαχωρίσιμα πρότυπα [23] 24

25 Η Εικ. 4.1 δείχνει τη γεωμετρική κατασκευή ενός βέλτιστου υπερεπιπέδου για ένα 2Δ χώρο εισόδου. Έστω ότι τα w και b δηλώνουν τις βέλτιστες τιμές του διανύσματος βάρους και της πόλωσης αντίστοιχα. Αντιστοίχως, το βέλτιστο υπερεπίπεδο που αναπαριστά μια πολυδιάστατη γραμμική επιφάνεια απόφασης, καθορίζεται από T (4.3) w x b = το οποίο είναι μια επαναδιατύπωση της Εξ. (4.1). Η συνάρτηση διάκρισης g x = w T x b (4.4) δίνει ένα αλγεβρικό μέτρο της απόστασης από το x μέχρι το βέλτιστο υπερεπίπεδο. Ένας ευκολότερος τρόπος για να φανεί αυτό είναι να εκφραστεί το x ως x = xp r w w όπου το x p είναι η κανονική προβολή του x πάνω στο βέλτιστο υπερεπίπεδο και r είναι η επιθυμητή αλγεβρική απόσταση. Το r είναι θετικό αν το x είναι στη θετική πλευρά του βέλτιστου υπερεπιπέδου και αρνητικό αν το x είναι στην αρνητική πλευρά. Εφόσον, εξ ορισμού g x p =, εξυπακούεται ότι g x = w T x b = r w ή r= g x w (4.5) Πιο συγκεκριμένα, η απόσταση από την αρχή (π.χ. x = ) ως το βέλτιστο υπερεπίπεδο δίνεται από το b / w. Αν b η αρχή είναι στη θετική πλευρά του βέλτιστου υπερεπιπέδου, αν b, τότε είναι στην αρνητική πλευρά. Αν b =, το βέλτιστο υπερεπίπεδο περνάει από την αρχή. Μία γεωμετρική ερμηνεία αυτών των αλγεβρικών αποτελεσμάτων δίνεται στην Εικ

26 Εικ. 4.2: Γεωμετρική ερμηνεία αλγεβρικών αποστάσεων σημείων από το βέλτιστο υπερεπίπεδο σε μία 2Δ περίπτωση [23] Το ζητούμενο είναι είναι να βρεθούν οι παράμετροι w και b για το βέλτιστο T = { x i, d i }. Από την Εικ. 4.2, υπερεπίπεδο, δεδομένου του συνόλου εκπαίδευσης βλέπουμε ότι το ζεύγος w, b πρέπει να ικανοποιεί τον περιορισμό w T x i b 1 για d i = 1 (4.6) w T x i b 1 για d i = 1 Βλέπουμε ότι αν η Εξ. (4.2) ισχύει, αν δηλαδή τα πρότυπα είναι γραμμικά διαχωρίσιμα, μπορούμε πάντα να κλιμακώσουμε ξανά τα w και b έτσι ώστε να ισχύει η Εξ. (4.6). Η διαδικασία αυτή αφήνει την Εξ. (4.3) ανεπηρέαστη. Τα συγκεκριμένα σημεία δεδομένων x i, d i για τα οποία η πρώτη ή η δεύτερη γραμμή της Εξ. (4.6) ικανοποείται με το σύμβολο της ισότητας ονομάζονται διανύσματα υποστήριξης (support vectors), εξού και η ονομασία Support Vector Machines. 26

27 Αυτά τα διανύσματα παίζουν ένα σημαντικό ρόλο στη λειτουργία αυτής της κλάσης των μηχανών μάθησης. Σε θεμελιώδεις όρους, τα διανύσματα υποστήριξης είναι εκείνα τα σημεία δεδομένων που βρίσκονται πλησιέστερα στην επιφάνεια απόφασης και είναι επομένως τα πιο δύσκολα για να κατηγοριοποιηθούν. Θεωρούμε ένα διάνυσμα υποστήριξης ορισμού τότε, έχουμε s T s g x = w x b = 1 για d x s s για το οποίο d s = 1. Εξ (4.7) = 1 Από την Εξ. (4.5), η αλγεβρική απόσταση από το διάνυσμα υποστήριξης βέλτιστο υπερεπίπεδο είναι x s μέχρι το g x s r= w { 1 w = 1 w αν d s = 1 (4.8) αν d s = 1 όπου το θετικό σύμβολο δηλώνει ότι το x s βρίσκεται στη θετική πλευρά του βέλτιστου υπερεπιπέδου και το αρνητικό σύμβολο δηλώνει ότι το x s βρίσκεται στην αρνητική πλευρά του βέλτιστου υπερεπιπέδου. Έστω ότι το ρ δηλώνει τη βέλτιστη τιμή του διαχωριστικού ορίου μεταξύ των δύο κλάσεων που απαρτίζουν το σύνολο εκπαίδευσης T. Τότε, από την Εξ. (4.8) έπεται ότι ρ = 2r 2 = w (4.9) Η Εξ. (4.9) εκφράζει ότι η μεγιστοποίηση του διαχωριστικού ορίου μεταξύ των κλάσεων ισοδυναμεί με την ελαχιστοποίηση της Ευκλίδειας νόρμας (Euclidean norm) του διανύσματος βάρους w. Περιληπτικά, το βέλτιστο υπερεπίπεδο που καθορίζεται στην Εξ. (4.3) είναι μοναδικό υπό την έννοια ότι το βέλτιστο διάνυσμα βάρους w παρέχει το μεγαλύτερο δυνατό διαχωρισμό μεταξύ των θετικών και αρνητικών παραδειγμάτων. Αυτή η βέλτιστη συνθήκη επιτυγχάνεται ελαχιστοποιώντας την Ευκλίδεια νόρμα του διανύσματος βάρους w. 27

28 4.2 Μέθοδοι ταξινομητών SVM πολλών τάξεων Υπάρχουν δύο προσεγγίσεις όσον αφορά στους SVM ταξινομητές πολλών τάξεων. Η πρώτη είναι κατασκευάζοντας και συνδυάζοντας αρκετούς δυαδικούς ταξινομητές, ενώ η άλλη είναι η απευθείας θεώρηση όλων των δεδομένων σε μια διατύπωση βελτιστοποίησης. Η διατύπωση για την επίλυση πολυταξικών SVM προβλημάτων σε ένα βήμα έχει μεταβλητές ανάλογες με τον αριθμό των κλάσεων. Επομένως, στην περίπτωση των SVM μεθόδων πολλών τάξεων, είτε αρκετοί δυαδικοί ταξινομητές πρέπει να κατασκευαστούν ή χρειάζεται ένα μεγαλύτερο πρόβλημα βελτιστοποίησης. Συνεπώς, γενικά είναι υπολογιστικά πιο ακριβό να επιλυθεί ένα πρόβλημα πολλών τάξεων από ένα δυαδικό πρόβλημα με τον ίδιο αριθμό δεδομένων [24] Ένας-Εναντίον-Όλων (One-Against-All) Η πιο πρώιμη ίσως υλοποίηση του SVM ταξινομητή πολλών τάξεων είναι πιθανότατα η one-against-all μέθοδος. Κατασκευάζει k μοντέλα SVM όπου k είναι ο αριθμός των κλάσεων. Το ith SVM εκπαιδεύεται με όλα τα παραδείγματα της ith κλάσης με θετικές ετικέτες και όλα τα άλλα παραδείγματα με αρνητικές ετικέτες. x i, y i,, x l, y l, όπου l Επομένως, δοσμένων δεδομένων εκπαίδευσης n x i R, i = 1,, l και y i {1,, k } είναι η κλάση του x i, το ith SVM επιλύει το ακόλουθο πρόβλημα: min i i w,b, ξ i 1 i T i w w C ξ ij wi T 2 wi T φ x j bi 1 ξ ij, αν y j = i w i T φ x j b i 1 ξ ij, αν y j i ξ ij, j = 1,,l (4.1) xi όπου τα δεδομένα εκπαίδευσης απεικονίζονται σε ένα χώρο περισσοτέρων διαστάσεων μέσω της συνάρτησης φ και C είναι η παράμετρος ποινής. Ελαχιστοποιώντας το σημαίνει ότι θέλουμε να 1/2 w i T wi i μεγιστοποιήσουμε το 2 / w, το όριο μεταξύ των δυο ομάδων δεδομένων. Όταν τα l δεδομένα δεν είναι γραμμικά διαχωρίσιμα, υπάρχει ένας όρος ποινής C ξ ij ο οποίος j=1 μπορεί να ελαττώσει τον αριθμό των σφαλμάτων εκπαίδευσης. Η βασική αρχή πίσω από τα SVM είναι η αναζήτηση μιας ισορροπίας μεταξύ του όρου κανονικοποίησης 1/2 w i T wi και των σφαλμάτων εκπαίδευσης. 28

29 Μετά την επίλυση της Εξ. (4.1), υπάρχουν k συναρτήσεις απόφασης w1 T φ x b 1 w k T φ x bk. Λέμε ότι το απόφασης x ανήκει στην κλάση που έχει τη μεγαλύτερη τιμή της συνάρτησης κλάση του x arg max wi T φ x bi. i = 1,,k (4.11) Πρακτικά, λύνουμε το δυϊκό πρόβλημα της Εξ. (4.1) του οποίου ο αριθμός των μεταβλητών είναι ο ίδιος με τον αριθμό των δεδομένων στην Εξ. (4.1). Επομένως, επιλύονται προβλήματα τετραγωνικού προγραμματισμού (quadratic programming) kl μεταβλητών. Εικ. 4.3: Παράδειγμα εφαρμογής SVM (4 κλάσεις, πολυωνυμικός πυρήνας, one-against-all) (Από τα παραδείγματα του prtools) 29

30 4.2.2 Ένας-Εναντίον-Ενός (One-Against-One) Μια ακόμη σημαντική μέθοδος ονομάζεται one-against-one μέθοδος. Η πρώτη χρήση αυτής της στρατηγικής στα SVM ήταν στα [25], [26]. Η μέθοδος αυτή κατασκευάζει k k 1 /2 ταξινομητές, ο καθένας από τους οποίους εκπαιδεύεται σε δεδομένα από δύο κλάσεις. Για τα δεδομένα εκπαίδευσης από τις ith και jth κλάσεις επιλύουμε το ακόλουθο πρόβλημα δυαδικής ταξινόμησης: min ij ij w, b,ξ ij 1 ij T ij w w C ξ ijt wij T 2 t ij T ij ij w φ x t b 1 ξ t, αν y t = i w ij T φ x t b ij 1 ξ ijt, αν y t = j ξ ijt. (4.12) Υπάρχουν διάφορες μέθοδοι για την πραγματοποίηση των δοκιμών αφού κατασκευαστούν όλοι οι k k 1 / 2 ταξινομητές. Μία από αυτές είναι η παρακάτω sign wij T φ x b ij στρατηγική ψηφοφορίας που προτάθηκε στο [25]: αν το υποδεικνύει ότι το x είναι στην ith κλάση, τότε η ψήφος για την ith κλάση αυξάνεται κατά ένα. Στην αντίθετη περίπτωση, η jth αυξάνεται κατά ένα. Στη συνέχεια θεωρούμε ότι το x βρίσκεται στην κλάση με τις περισσότερες ψήφους. Η συγκεκριμένη προσέγγιση με χρήση ψήφων ονομάζεται και Max Wins ( το Μέγιστο Κερδίζει ) στρατηγική. Στην περίπτωση που δύο κλάσεις έχουν τις ίδιες ψήφους, παρόλο που μπορεί να μην είναι καλή στρατηγική, επιλέγουμε απλά αυτή με το μικρότερο δείκτη. Πρακτικά λύνουμε το δυϊκό της Εξ. (4.12) της οποίας ο αριθμός των μεταβλητών είναι ίσος με τον αριθμό των δεδομένων των δύο κλάσεων. Επομένως, αν κάθε κλάση έχει κατά μέσο όρο l /k σημεία δεδομένων, έχουμε να επιλύσουμε k k 1 /2 προβλήματα τετραγωνικού προγραμματισμού όπου καθένα από αυτά έχει περίπου 2l / k μεταβλητές SVM Κατευθυνόμενου Ακυκλικού Γράφου (Directed Acyclic Graph-DAG) Ένας τρίτος αλγόριθμος είναι το SVM κατευθυνόμενου ακυκλικού γράφου (DAGSVM). Η φάση εκπαίδευσης είναι η ίδια με την one-against-one μέθοδο, επιλύοντας k k 1 / 2 δυαδικά SVM. Ωστόσο, στη φάση δοκιμής χρησιμοποιείται ένας δυαδικός κατευθυνόμενος ακυκλικός γράφος με ρίζα ο οποίος έχει k k 1 / 2 εσωτερικούς κόμβους και k φύλλα. Κάθε κόμβος είναι ένα δυαδικό SVM των ith και jth κλάσεων. Δεδομένου ενός δείγματος δοκιμής x, ξεκινώντας από τη ρίζα, υπολογίζεται η δυαδική συνάρτηση απόφασης. Στη συνέχεια μετακινείται είτε αριστερά είτε δεξιά, 3

31 ανάλογα με την τιμή εξόδου. Συνεπώς περνάμε μέσα από ένα μονοπάτι προτού φτάσουμε σε ένα φύλλο το οποίο δηλώνει την προβλεπόμενη κλάση. Ένα πλεονέκτημα της χρήσης DAG είναι ότι μπορεί να υπαρξει κάποια ανάλυση γενίκευσης, ενώ δεν υπάρχουν ακόμη παρόμοια θεωρητικά αποτελέσματα για τις oneagainst-all και one-against-one μεθόδους. Επιπρόσθετα, ο χρόνος δοκιμής είναι μικρότερος από την one-against-one μέθοδο Μία μέθοδος που θεωρεί όλα τα δεδομένα ταυτόχρονα Στα [27] και [28] προτάθηκε μία προσέγγιση για προβλήματα πολλών τάξεων επιλύοντας ένα πρόβλημα βελτιστοποίησης. Η ιδέα είναι παρόμοια με την one-against-all μέθοδο. Κατασκευάζονται k κανόνες δύο τάξεων, όπου η mth συνάρτηση w Tm φ x b διαχωρίζει τα διανύσματα εκπαίδευσης της τάξης m από τα άλλα διανύσματα. Υπάρχουν επομένως k συναρτήσεις απόφασης, η διαφορά είναι όμως ότι όλες λαμβάνονται από την επίλυση ενός προβλήματος. Η διατύπωση είναι η ακόλουθη: k min w,b, ξ l 1 w T w C ξ mi wty φ xi b y w Tm φ x i b m 2 ξ mi 2 m=1 m m i=1 m y ξ mi, i i i i = 1,,l, (4.13) m {1,, k } yi Τότε, η συνάρτηση απόφασης είναι arg max wtm φ x b m m=1,, k η οποία είναι ίδια με την Εξ. (4.11) της one-against-all μεθόδου Μέθοδος των Crammer και Singer Στο [29], οι Crammer και Singer πρότειναν μία προσέγγιση για προβλήματα πολλών τάξεων επιλύοντας ένα μόνο πρόβλημα βελτιστοποίησης. Βασικά επιλύεται το παρακάτω πρωταρχικό πρόβλημα: 31

32 k min wm, ξi l 1 wtm wm C ξ i wty φ xi c r wtm φ x i e mi ξ i, 2 m=1 i=1 i i = 1,, l (4.14) όπου e mi 1 δ y,m i και δ y,m i { 1 αν y i = m αν y i m } Τότε η συνάρτηση απόφασης είναι arg max w Tm φ x m=1,, k Η κύρια διαφορά από την Εξ. (4.13) είναι ότι η Εξ. (4.14) χρησιμοποιεί μόνο l βοηθητικές (slack) μεταβλητές ξ i, i = 1,, l. Δηλαδή, αντί να χρησιμοποιείται το ξ mi ως το διάκενο ανάμεσα σε κάθε δύο επίπεδα απόφασης, χρησιμοποιείται το μέγιστο k τέτοιων αριθμών ξ i = max wtm φ x i e mi wty φ x i i m. max.,. Επιπρόσθετα, η Εξ. (4.14) δεν περιέχει τους συντελεστές bi, i = 1,, l. όπου 4.3 Παραδείγματα πυρήνων SVM Προκειμένου να είναι δυνατή η επέκταση του γραμμικού ταξινομητή σε προβλήματα μη γραμμικά διαχωρίσιμων προτύπων εισάγεται η έννοια του πυρήνα (τέχνασμα πυρήνα - kernel trick). Αυτό που κάνει ο πυρήνας είναι να απεικονίζει τις αρχικές μη γραμμικές παρατηρήσεις σε ένα χώρο περισσοτέρων διαστάσεων όπου και χρησιμοποιείται ο γραμμικός ταξινομητής. Η διαδικασία αυτή στην ουσία εξισώνει τη γραμμική ταξινόμηση στον καινούριο χώρο με μη γραμμική ταξινόμηση στον αρχικό χώρο. Η εφαρμογή του kernel trick βασίζεται στο θεώρημα του Mercer, το οποίο εκφράζει ότι οποιαδήποτε συνεχής, συμμετρική, θετική ημι-ορισμένη (positive semi-definite) συνάρτηση πυρήνα Κ x, x ', μπορεί να εκφραστεί ως εσωτερικό γινόμενο σε ένα χώρο πολλών διαστάσεων. 32

33 Το θεώρημα του Mercer Έστω ότι Κ x, x ' είναι ένας συνεχής συμμετρικός πυρήνας που καθορίζεται στο κλειστό διάστημα a x b και παρόμοια για το x '. Ο πυρήνας Κ x, x ' μπορεί να επεκταθεί στη σειρά Κ x, x ' = λi φi x φi x ' i =1 με θετικούς συντελεστές λi για όλα τα i. Για να είναι έγκυρη αυτή η επέκταση και προκειμένου να συγκλίνει απόλυτα και ομοιόμορφα, είναι επαρκές και αναγκαίο ότι η συνθήκη a a K x, x ' ψ x ψ x ' d x d x ' b b a ισχύει για όλα τα ψ. για τα οποία ψ 2 x d x b Η απαίτηση για τον πυρήνα K x, x i είναι να ικανοποιεί το θεώρημα του Mercer. Όσον αφορά σε αυτήν την απαίτηση, υπάρχει κάποια ελευθερία στο πώς επιλέγεται. Στον Πίνακα 4.1 [23] υπάρχει μία σύνοψη των πυρήνων εσωτερικού γινομένου για τρεις κοινούς τύπους SVM: πολυωνυμικό, Radial Basis Function (RBF) και perceptron δύο στρωμάτων. Τα παρακάτω σημεία είναι άξια αναφοράς: 1. Οι πυρήνες εσωτερικού γινομένου για τα πολυωνυμικά και τα RBF SVM ικανοποιούν πάντα το θεώρημα του Mercer σε αντίθεση με τον πυρήνα εσωτερικού γινομένου για το perceptron δύο στρωμάτων SVM που είναι κάπως περιορισμένος, όπως φαίνεται και στην τελευταία γραμμή του πίνακα. 2. Και για τους τρεις τύπους μηχανών, η διάσταση του χώρου χαρακτηριστικών καθορίζεται από τον αριθμό των διανυσμάτων υποστήριξης που εξάγονται από τα δεδομένα εκπαίδευσης από τη λύση του περιορισμένου προβλήματος βελτιστοποίησης. 3. Η θελεμιώδης θεωρία των SVM δεν κάνει χρήση ευριστικών, που χρησιμοποιούνται συχνά στο σχεδιασμό των συνηθισμένων RBF δικτύων και των πολυστρωματικών perceptrons. 4. Στα RBF SVM, ο αριθμός των radial-basis συναρτήσεων και τα κέντρα τους καθορίζονται αυτόματα από τον αριθμό των διανυσμάτων υποστήριξης και τις τιμές τους, αντίστοιχα. 5. Στα perceptron δύο στρωμάτων SVM ο αριθμός των κρυμμένων νευρώνων καθώς και τα διανύσματα βάρους τους καθορίζονται αυτόματα από τον αριθμό των διανυσμάτων υποστήριξης και τις τιμές τους, αντίστοιχα. 33

34 Πυρήνας εσωτερικού γινομένου Τύπος SVM Πολυωνυμικό RBF Σχόλια x T x i 1 p Η δύναμη p καθορίζεται εκ των προτέρων από το χρήστη exp Perceptron δύο στρωμάτων ΠΙΝΑΚΑΣ 4.1 K x, x i, i = 1,2,, N 1 2 x x i 2 2σ tanh β x T x i β 1 Σύνοψη πυρήνων εσωτερικού γινομένου 34 Το πλάτος σ2, κοινό σε όλους τους πυρήνες, καθορίζεται εκ των προτέρων από το χρήστη Το θεώρημα του Mercer ικανοποιείται μόνο για κάποιες τιμές του β και β 1

35 5. Οπτική κατηγοριοποίηση με σάκους σημείων κλειδιών Περιγραφή και σύνοψη 5.1 Εισαγωγή Στη συγκεκριμένη δημοσίευση [8] παρουσιάζεται μία νέα μέθοδος αναγνώρισης κλάσεων αντικειμένων (Κεφ. 1), που ονομάζεται μέθοδος σάκων σημείων κλειδιών και βασίζεται στον κβαντισμό διανυσμάτων αφφινικά αμετάβλητων περιγραφέων τμημάτων εικόνων. Προτείνονται και συγκρίνονται δύο εναλλακτικές υλοποιήσεις χρησιμοποιώντας διαφορετικούς ταξινομητές: το Naive Bayes και το SVM. Τα κύρια πλεονεκτήματα της μεθόδου είναι ότι είναι απλή, υπολογιστικά αποδοτική και ουσιαστικά σταθερή. 5.2 Μέθοδος Η μέθοδος βασίζεται στον κβαντισμό διανυσμάτων των αμετάβλητων αφφινικά περιγραφέων τμημάτων εικόνων. Σε γενικές γραμμές ο αλγόριθμος που ακολουθείται είναι ο εξής: 1. Ανίχνευση και περιγραφή των τμημάτων εικόνων. 2. Ανάθεση των περιγραφέων σε ένα σύνολο προκαθορισμένων ομάδων (λεξιλόγιο) με έναν αλγόριθμο διανυσματικού κβαντισμού. 3. Δημιουργία ενός σάκου σημείων κλειδιών, ο οποίος μετράει τον αριθμό των τμημάτων που αντιστοιχούν σε κάθε ομάδα. 4. Εφαρμογή ενός ταξινομητή πολλών τάξεων, χρησιμοποιώντας το σάκο σημείων κλειδιών ως το διάνυσμα χαρακτηριστικών και επομένως καθορίζοντας σε ποια κατηγορία θα ανατεθεί η εικόνα. 35

36 Εικ. 5.1: Περιγραφή της μεθόδου Τα βήματα αυτά σχεδιάζονται έτσι ώστε να μεγιστοποιείται η ακρίβεια της ταξινόμησης, ενώ παράλληλα να ελαχιστοποιείται η υπολογιστική προσπάθεια. Για το λόγο αυτό οι περιγραφείς που εξάγονται στο πρώτο βήμα θα πρέπει να είναι αμετάβλητοι σε μεταβολές που δεν είναι σχετικές με τη διαδικασία της αναγνώρισης (μετασχηματισμοί εικόνας, μεταβολές φωτισμού και αποκρύψεις) αλλά θα πρέπει να φέρουν αρκετή πληροφορία ώστε να μπορούν να κάνουν διαχωρισμούς στο επίπεδο κατηγορίας. Το λεξιλόγιο που χρησιμοποιείται στο δεύτερο βήμα πρέπει να είναι αρκετά μεγάλο έτσι ώστε να διακρίνει σχετικές αλλαγές σε τμήματα εικόνων, αλλά όχι τόσο μεγάλο ώστε να διακρίνει άσχετες μεταβολές όπως ο θόρυβος. Οι συγγραφείς αναφέρονται στα κβαντισμένα διανύσματα χαρακτηριστικών (τα κέντρα των ομάδων) ως σημεία κλειδιά (δε θα πρέπει ωστόσο να συγχεόνται με τον όρο σημεία κλειδιά που χρησιμοποιείται στο SIFT αλγόριθμο), αναλογικά με τις λέξεις κλειδιά στην κατηγοριοποίηση κειμένου. Στην περίπτωση αυτή, οι λέξεις δεν έχουν απαραίτητα μία επαναληπτική σημασία όπως μάτια ή τροχοί αυτοκινήτου, ούτε υπάρχει μία προφανής βέλτιστη επιλογή λεξιλογίου. Αντιθέτως, στόχος είναι η χρήση ενός λεξιλογίου που επιτρέπει καλή απόδοση κατηγοριοποίησης σε ένα δεδομένο σύνολο εκπαίδευσης. Για το λόγο αυτό, τα βήματα που ακολουθούνται κατά την εκπαίδευση του συστήματος επιτρέπουν τη θεώρηση πολλαπλών πιθανών λεξιλογίων: 36

37 1. Ανίχνευση και περιγραφή τμημάτων εικόνων για ένα σύνολο χαρακτηρισμένων εικόνων εκπαίδευσης 2. Κατασκευή ενός συνόλου λεξιλογίων: κάθε ένα είναι ένα σύνολο κέντρων ομάδων ανάλογα με το ποιοι περιγραφείς είναι διανυσματικά κβαντισμένοι. 3. Εξαγωγή των σάκων σημείων κλειδιών για τα λεξιλόγια αυτά. 4. Εκπαίδευση των ταξινομητών πολλών τάξεων χρησιμοποιώντας τους σάκους σημείων κλειδιών ως διανύσματα χαρακτηριστικών. 5. Επιλογή του λεξιλογίου και του ταξινομητή που δίνει τα καλύτερα συνολικά αποτελέσματα. Παρακάτω αναλύονται διεξοδικότερα οι επιλογές που έχουν γίνει σε κάθε βήμα Εξαγωγή χαρακτηριστικών Έχει αποδειχθεί ότι στην περίπτωση αφφινικών μετασχηματισμών μεταξύ δυο εικόνων, ένας ανιχνευτής σημείου αναλλοίωτης κλίμακας δεν είναι αρκετός για τη σταθερότητα της θέσης του σημείου. Για το συγκεκριμένο αλγόριθμο επομένως, οι συγγραφείς προτίμησαν τον αφφινικό ανιχνευτή Harris. Στο Κεφ. 2 γίνεται μία πιο εκτενής περιγραφή του αφφινικού ανιχνευτή Harris, οπότε στο σημείο αυτό αρκούμαστε σε μία σύνοψη του αλγορίθμου: 1. Αναγνώριση αρχικών σημείων χρησιμοποιώντας τον Harris-Laplace detector που είναι αναλλοίωτης κλίμακας. 2. Κανονικοποίηση της περιοχής για κάθε αρχικό σημείο έτσι ώστε να είναι αφφινικά αναλλοίωτη, χρησιμοποιώντας αφφινική προσαρμογή σχήματος. 3. Επαναληπτική εκτίμηση της αφφινικής περιοχής: Επιλογή της κατάλληλης κλίμακας ολοκλήρωσης, της κλίμακας διαφοροποίησης και χωρικός εντοπισμός των σημείων ενδιαφέροντος. 4. Ενημέρωση της αφφινικής περιοχής χρησιμοποιώντας αυτές τις κλίμακες και τους χωρικούς εντοπισμούς. 5. Επανάληψη του βήματος 3 στην περίπτωση που δεν έχει επιτευχθεί το κριτήριο τερματισμού. Στη συνέχεια, η αφφινική περιοχή απεικονίζεται σε μία κυκλική περιοχή προκειμένου να κανονικοποιηθεί για αφφινικούς μετασχηματισμούς, ενώ υπολογίζονται οι SIFT περιγραφείς στη συγκεκριμένη περιοχή. Οι περιγραφείς SIFT είναι Γκαουσιανές παράγωγοι που υπολογίζονται σε 8 επίπεδα προσανατολισμού πάνω σε ένα 4x4 πλέγμα χωρικών θέσεων, παράγοντας έτσι ένα 128-διάστατο διάνυσμα (Κεφ. 3). Οι περιγραφείς SIFT προτιμούνται για τους εξής λόγους: 37

38 1. Είναι πιο σταθεροί σε διαταραχές εικόνας, όπως ο θόρυβος επειδή είναι απλές γραμμικές Γκαουσιανές παράγωγοι. 2. Η χρήση απλής Ευκλίδειας μετρικής σε σχέση με τη χρήση απόστασης Mahalanobis στο χώρο χαρακτηριστικών είναι δικαιολογημένη. Η εκ των προτέρων επιλογή μίας κατάλληλης Mahalanobis απόστασης είναι αρκετά δύσκολη. 3. Εξαιτίας του μεγέθους των συνιστωσών (128 αντί για 12 με 16) επιτυγχάνεται μια πιο διακριτική αναπαράσταση Κατασκευή οπτικού λεξιλογίου Στη συγκεκριμένη μέθοδο, το λεξιλόγιο αποτελεί ένα διάνυσμα χαρακτηριστικών για ταξινόμηση, το οποίο συνδέει τους καινούριους περιγραφείς σε εικόνες-ερωτήματα με περιγραφείς που έχουν απαντηθεί κατά την εκπαίδευση. Μία ακραία προσέγγιση θα ήταν να συγκριθεί κάθε περιγραφέας εικόνας-ερωτήματος με όλους τους περιγραφείς εκπαίδευσης, κάτι το οποίο στην ουσία είναι ανέφικτο δεδομένου του τεράστιου αριθμού περιγραφέων εκπαίδευσης που χρησιμοποιούνται. Μία ακόμη ακραία προσέγγιση θα ήταν η προσπάθεια αναγνώρισης ενός μικρού αριθμού μεγάλων ομάδων οι οποίες είναι καλές στο να διαχωρίζουν μια ξεχωριστή κλάση. Πρακτικά, η καλύτερη ισορροπία μεταξύ ακρίβειας και υπολογιστικής αποτελεσματικότητας επιτυγχάνεται για μεσαία μεγέθη ομάδων. Προκειμένου να δημιουργηθεί το λεξιλόγιο, χρησιμοποιείται η απλούστερη μέθοδος διαμέρισης τετραγωνικού σφάλματος: ο αλγόριθμος k-μέσων. Ο συγκεκριμένος αλγόριθμος προχωράει με επαναληπτική ανάθεση σημείων στα πιο κοντινά τους κέντρα ομάδων και επαναϋπολογισμό των κέντρων αυτών. Οι δυσκολίες που προκύπτουν βέβαια από τη χρήση της συγκεκριμένης μεθόδου είναι ότι αφενός ο αλγόριθμος συγκλίνει μόνο σε τοπικά βέλτιστα της τετραγωνικής παραμόρφωσης και αφετέρου δεν προσδιορίζει την παράμετρο k, δηλαδή τον αριθμό των ομάδων. Στη συγκεκριμένη περίπτωση, προκειμένου να προσδιορισθεί όσο το δυνατόν καλύτερα ο αριθμός των ομάδων, ο αλγόριθμος εκτελείται αρκετές φορές με διαφορετικό αριθμό επιθυμητών αντιπροσωπευτικών διανυσμάτων k και διαφορετικά σύνολα αρχικών κέντρων ομάδων, ενώ τελικά επιλέγεται η ομαδοποίηση που δίνει το χαμηλότερο εμπειρικό ρίσκο στην ταξινόμηση. 38

39 5.2.3 Ταξινόμηση Εφόσον οι περιγραφείς έχουν ανατεθεί στις ομάδες έτσι ώστε να σχηματιστούν τα διανύσματα χαρακτηριστικών, το πρόβλημα αναγνώρισης κλάσεων αντικειμένων ανάγεται σε ένα εποπτευόμενο πρόβλημα μάθησης πολλών τάξεων με τόσες τάξεις, όσες και οι καθορισμένες κατηγορίες αντικειμένων. Ο ταξινομητής εκτελεί δυο ξεχωριστά βήματα έτσι ώστε να προβλέψει τις κλάσεις των μη χαρακτηρισμένων εικόνων: εκπαίδευση και δοκιμή. Κατά την εκπαίδευση, τα χαρακτηρισμένα δεδομένα στέλνονται στον ταξινομητή και χρησιμοποιούνται έτσι ώστε να προσαρμοστεί η διαδικασία στατιστικής απόφασης για το διαχωρισμό των κατηγοριών. Ανάμεσα στους πολλούς διαθέσιμους ταξινομητές, γίνεται η σύγκριση του Naive Bayes ταξινομητή και των Support Vector Machine. Ταξινόμηση με Naive Bayes Ο Naive Bayes είναι ένας απλός ταξινομητής που χρησιμοποιείται συχνά στην κατηγοριοποίηση κειμένου. Μπορεί να ερμηνευθεί ως ο ταξινομητής της μέγιστης εκ των υστέρων πιθανότητας για ένα παραγωγικό μοντέλο στο οποίο: 1) μια κατηγορία εγγράφου επιλέγεται σύμφωνα με εκ των προτέρων πιθανότητες κλάσης 2) κάθε λέξη στο έγγραφο επιλέγεται ανεξάρτητα, από μια πολυωνυμική κατανομή σε λέξεις συγκεκριμένες σ' αυτήν την τάξη. Ενώ η ανεξαρτησία είναι μια απλοική (naive) υπόθεση, η ακρίβεια του Naive Bayes ταξινομητή είναι συνήθως υψηλή. Όσον αφορά στην οπτική κατηγοριοποίηση, υποθέτουμε ότι έχουμε ένα σύνολο με χαρακτηρισμένες εικόνες Ι = {I i } και ένα λεξιλόγιο V = {V i } αντιπροσωπευτικών σημείων κλειδιών (τα κέντρα των ομάδων). Κάθε περιγραφέας που εξάγεται από μία εικόνα χαρακτηρίζεται με το σημείο κλειδί στο οποίο βρίσκεται πιο κοντά στο χώρο των χαρακτηριστικών. Γίνεται η μέτρηση του αριθμού N t, i των φορών που το σημείο κλειδί v i συναντάται στην εικόνα I i. Για να κατηγοριοποιήσουμε μια καινούρια εικόνα, εφαρμόζουμε τον κανόνα του Bayes και κρατάμε τη μεγαλύτερη εκ των υστέρων βαθμολογία ως την πρόβλεψη: V P C j I i a P C j P I i C j = P C j P v t C j N t, i t =1 (5.1) Είναι φανερό σ'αυτόν τον τύπο ότι η μέθοδος αυτή απαιτεί εκτιμήσεις των υπό συνθήκη πιθανοτήτων τάξης του σημείου-κλειδιού v t δεδομένης της κατηγορίας C j. Για την αποφυγή μηδενικών πιθανοτήτων, αυτές οι εκτιμήσεις υπολογίζονται με εξομάλυνση Laplace: 39

40 P v t C j = 1 {I i C j} V V s=1 { I i N t, i N s, i C } (5.2) j Ταξινόμηση με SVM Μία εκτενής περιγραφή του SVM ταξινομητή γίνεται στο Κεφ. 4, συνεπώς αρκούμαστε στην παρατήρηση ότι οι συγγραφείς επιλέγουν να εφαρμόσουν την προσέγγιση one-against-all. 5.3 Πειράματα και Αποτελέσματα Για την πραγματοποίηση των πειραμάτων χρησιμοποιήθηκαν δύο βάσεις δεδομένων: Η πρώτη αποτελείται από 1776 εικόνες σε επτά τάξεις: πρόσωπα, κτίρια, δέντρα, αυτοκίνητα, τηλέφωνα, ποδήλατα και βιβλία. Πρόκειται για ένα ενδιαφέρον σύνολο δεδομένων, όχι μόνο εξαιτίας των πολλών τάξεων, αλλά και επειδή περιέχει εικόνες με πολύ διαφορετικές οπτικές γωνίες και σημαντικό ποσό ανεπιθύμητης πληροφορίας παρασκηνίου (background clutter), μερικές φορές παρουσία αντικειμένων από πολλαπλές κλάσεις παρόλο που ένα μεγάλο τμήμα της περιοχής κάθε εικόνας καταλαμβάνεται από την κατηγορία-στόχο. Η δεύτερη είναι μια βάση που χρησιμοποιείται στο [2] και αποτελείται από τις εξής πέντε τάξεις: πρόσωπα (45 εικόνες), αεροπλάνα (πλαϊνή όψη) (174 εικόνες), αυτοκίνητα (πίσω όψη) (651 εικόνες), αυτοκίνητα (πλαϊνή όψη) (72 εικόνες) και μοτοσυκλέτες (πλαϊνή όψη) (826 εικόνες). Προκειμένου να γίνει η εκτίμηση της απόδοσης των ταξινομητών πολλών τάξεων χρησιμοποιούνται τρεις εκτιμητές απόδοσης: 4

41 Ο πίνακας σύγχυσης (confusion matrix): M ij = {I k C j : h I k = i} C j όπου i, j {1,, N c },C j είναι το σύνολο των εικόνων δοκιμής από την κατηγορία j και h I k είναι η κατηγορία που εξασφάλισε τη μεγαλύτερη έξοδο ταξινομητή για την εικόνα I k. Ο συνολικός ρυθμός σφάλματος: Nc j=1 C j M jj R =1 N j =1 C j c Οι μέσες κατατάξεις (mean ranks): Πρόκειται για τη μέση θέση των σωστών ετικετών όταν οι ετικέτες εξόδου του πολυταξικού ταξινομητή ταξινομούνται σύμφωνα με τη βαθμολογία του ταξινομητή. Κάθε εκτιμητής απόδοσης αξιολογήθηκε με 1-fold cross validation. Τα πειράματα που διεξάγονται συνολικά είναι τρία. Ακολουθεί η ανάλυση και τα αποτελέσματά τους. I. Επίδραση του αριθμού των ομάδων στην ακρίβεια του ταξινομητή Εικ. 5.2: Ο μικρότερος συνολικός ρυθμός σφάλματος (%) για τις διάφορες τιμές του k [8] 41

42 Οι γενικοί ρυθμοί σφαλμάτων χρησιμοποιώντας το Naive Bayes σαν συνάρτηση του αριθμού των ομάδων k παρουσιάζονται στην Εικ Κάθε σημείο στην εικόνα είναι το βέλτιστο ανάμεσα σε 1 τυχαίες δοκιμές του k-means. Ο ρυθμός σφάλματος βελτιώνεται ελάχιστα από το k = 1 στο k = 25. Επομένως, για k = 1 υπάρχει μία καλή ισορροπία μεταξύ ακρίβειας και ταχύτητας. II. Αποτελέσματα με το Naive Bayes Στη διαδικασία ομαδοποίησης υπάρχει ένας κίνδυνος πόλωσης καθώς οι εικόνες από τις διαφορετικές κατηγορίες περιέχουν διαφορετικό αριθμό σημείων ενδιαφέροντος. Για το λόγο αυτό χρησιμοποιούνται τυχαία δείγματα από τα δεδομένα εκπαίδευσης, όπου κάθε δείγμα περιέχει 5 σημεία ενδιαφέροντος τυχαία επιλεγμένα απο κάθε τάξη. Στον Πίνακα 5.1 απεικονίζεται ο πίνακας σύγχυσης και οι μέσες τάξεις του Naive Bayes ταξινομητή για την πρώτη βάση. Σωστή τάξη -> πρόσωπα κτίρια δέντρα αυτοκ/τα πρόσωπα κτίρια δέντρα αυτοκ/τα τηλέφωνα ποδήλατα βιβλία Μέσες κατατάξεις 1,49 1,88 1,33 1,33 1,63 1,57 1,57 ΠΙΝΑΚΑΣ 5.1 τηλέφωνα ποδήλατα βιβλία Πίνακας σύγχυσης και μέση κατάταξη για το καλύτερο λεξιλόγιο (k=1) IΙΙ. Αποτελέσματα με το SVM Στην εκπαίδευση του SVM χρησιμοποιήθηκε το ίδιο βέλτιστο λεξιλόγιο με k=1, όπως και για το Naive Bayes. Έγινε σύγκριση γραμμικών, τετραγωνικών και κυβικών SVM και απεδείχθη ότι η γραμμική μέθοδος δίνει την καλύτερη απόδοση (εκτός από την περίπτωση των αυτοκινήτων που το τετραγωνικό SVM έδωσε καλύτερα αποτελέσματα). Η παράμετρος C καθορίστηκε για κάθε SVM, ενώ τιμές γύρω στο C=.5 έδωσαν τα καλύτερα αποτελέσματα. Τα αποτελέσματα αυτά του SVM για την ίδια βάση, απεικονίζονται στον παρακάτω πίνακα: 42

43 Σωστή τάξη -> πρόσωπα κτίρια δέντρα αυτοκ/τα τηλέφωνα ποδήλατα πρόσωπα κτίρια δέντρα αυτοκ/τα τηλέφωνα ποδήλατα βιβλία ,9 1,39 Μέσες κατατάξεις 1,4 1,77 1,28 1,3 1,83 ΠΙΝΑΚΑΣ 5.2 Πίνακας σύγχυσης και μέση κατάταξη για το SVM (k=1) βιβλία Είναι φανερό ότι η απόδοση των SVM είναι πολύ καλύτερη από αυτήν του Naive Bayes, αφού ελάττωσε το συνολικό ρυθμό σφάλματος από 28% σε 15%. Παρατηρούνται επίσης και καλύτερες μέσες κατατάξεις, εκτός από την περίπτωση των αυτοκινήτων. Στον Πίνακα 5.3 απεικονίζονται τα αποτελέσματα του SVM για τη βάση [2]. Όπως φαίνεται και από τον πίνακα, οι εικόνες της βάσης αυτής είναι πιο εύκολες στην ταξινόμηση σε σχέση με την πρώτη βάση. Σωστή τάξη -> πρόσωπα(μπροστά) αεροπλάνα(πλαϊνά) αυτοκ/τα(πίσω) αυτοκ/τα(πλαϊνά) μηχανές(πλαϊνά) πρόσωπα(μπροστά) 94,4,7 1,4 αεροπλάνα(πλαϊνά) 1,5 96.3,2,1 2,7 αυτοκ/τα(πίσω) 1,9,5 97,7,9 αυτοκ/τα(πλαϊνά) 1,7 1,9,5 99,6 2,3 μηχανές(πλαϊνά),9,9,9,3 92,7 Μέσες κατατάξεις 1,7 1,4 1,3 1,1 1,9 ΠΙΝΑΚΑΣ 5.3 Πίνακας σύγχυσης και μέση κατάξη για το SVM (k=1, γραμμικός πυρήνας) 43

44 6. Υλοποίηση μεθόδου σάκων σημείων κλειδιών Στο παρόν κεφάλαιο παρουσιάζεται η υλοποίηση της μεθόδου που προτείνεται στο [8] και περιγράφεται στο Κεφ. 2. Προσπαθήσαμε, για λόγους σύγκρισης να χρησιμοποιήσουμε ακριβώς τις ίδιες παραμέτρους όπου αυτές ήταν γνωστές, παράλληλα όμως κάναμε και περαιτέρω δοκιμές, συγκρίνοντας διαφορετικές προσεγγίσεις, διαφορετικούς πυρήνες και αλλαγές στο κατώφλι του αφφινικού ανιχνευτή Harris. Η βάση που χρησιμοποιήθηκε1 για τα πειράματα που πραγματοποιήσαμε αποτελείται από τις εξής τέσσερις κλάσεις: 1155 jpeg εικόνες αυτοκινήτων (πίσω πλευρά) ανάλυσης 36x24, 45 jpeg εικόνες προσώπων ανάλυσης 896x592 (27 περίπου μοναδικά πρόσωπα με διαφορετικό φωτισμό/εκφράσεις/παρασκήνιο), 826 jpeg εικόνες μηχανών (πλάγια όψη) και 174 jpeg εικόνες αεροπλάνων (πλάγια όψη) διαφόρων αναλύσεων. Οι τέσσερις αυτές κλάσεις είναι οι ίδιες με τις τέσσερις από τις πέντε κλάσεις που χρησιμοποιούνται στο [1]. Η πέμπτη κλάση (αυτοκίνητα - πλάγια όψη) δε συμπεριλήφθηκε γιατί δεν ήταν διαθέσιμη. Όλες οι εικόνες μετατράπηκαν σε png για την περαιτέρω χρήση τους. Εικ. 6.1: Δείγμα της βάσης δεδομένων Στη συνέχεια του κεφαλαίου αναλύονται σταδιακά όλα τα βήματα που ακολουθήθηκαν για την υλοποίηση της μεθόδου. 1 Η βάση αυτή μπορεί να βρεθεί στο 44

45 6.1 Δημιουργία διανυσμάτων χαραρακτηριστικών Για λόγους που έχουν αναφερθεί στα προηγούμενα κεφάλαια, προκειμένου να ανιχνεύσουμε και να περιγράψουμε τα σημεία ενδιαφέροντος χρησιμοποιούμε τον αφφινικό Harris ανιχνευτή και τους SIFT αντίστοιχα. Μέσω της διαδικασίας αυτής δημιουργούνται για κάθε εικόνα αρκετά 128-διάστατα διανύσματα χαρακτηριστικών. Το πλήθος των αρχικών σημείων ενδιαφέροντος που θα εξαχθούν από τον αφφινικό Harris ανιχνευτή εξαρτώνται από το κατώφλι που θα ορίσουμε. Για μεγαλύτερες τιμές κατωφλίου ο αριθμός των σημείων που ανιχνεύονται περιορίζεται. Προκειμένου να βρούμε μία κατάλληλη τιμή κατωφλίου, δοκιμάσαμε τις τιμές [1, 1, 1, 1], αρχικά στο 2% της βάσης με 3fold cross validation (διασταυρωμένη επικύρωση 3 πτυχών) για διάφορους πυρήνες και διαφορετικές προσεγγίσεις SVM. Τα αποτελέσματα για το γραμμικό πυρήνα με oneagainst-one και one-against-all προσεγγίσεις φαίνονται στις Εικ. 6.2 και 6.3 αντίστοιχα. 12 ρυθμός σφάλματος κατώφλι Εικ. 6.2: Ρυθμός σφάλματος για διαφορετικές τιμές κατωφλίου (2% της βάσης, 3-fold cross validation, γραμμικός πυρήνας, one-against-one) 45

46 12 ρυθμός σφάλματος κατώφλι Εικ. 6.3: Ρυθμός σφάλματος για διαφορετικές τιμές κατωφλίου (2% της βάσης, 3-fold cross validation, γραμμικός πυρήνας, oneagainst-all) Αυτό που μπορούμε να παρατηρήσουμε αμέσως είναι ότι για κατώφλι > 1 ο ρυθμός σφάλματος αυξάνεται κατά πολύ και στις δύο περιπτώσεις. Για μικρότερες τιμές όμως δεν υπάρχουν αρκετά μεγάλες διαφορές ώστε να βγάλουμε ασφαλή συμπεράσματα. Για παράδειγμα, για τιμή κατωφλίου ίση με 1 βλέπουμε ότι παίρνουμε καλύτερα αποτελέσματα με την one-against-all προσέγγιση, ενώ για τιμή κατωφλίου ίση με 1, η προσέγγιση που δίνει τα καλύτερα αποτελέσματα είναι η one-against-one. Μπορεί λοιπόν το 2% της βάσης να είναι αρκετό για να εξάγουμε κάποια χοντρικά αποτελέσματα, αλλά δεν παρέχουν αρκετές πληροφορίες για την κατάλληλη τιμή. Χρειαζόμαστε λοιπόν μία δοκιμή σε ολόκληρη τη βάση για να επιλέξουμε τελικά τη βέλτιστη τιμή (τα συγκεντρωτικά αποτελέσματα απεικονίζονται στους Πίνακες 6.1 και 6.3). Στις Εικ. 6.4 και 6.5 απεικονίζεται ο ρυθμός σφάλματος για τον ίδιο γραμμικό πυρήνα σε όλη τη βάση. 46

47 35 3 ρυθμός σφάλματος κατώφλι Εικ. 6.4: Ρυθμός σφάλματος για διαφορετικές τιμές κατωφλίου (1% της βάσης, 3-fold cross validation, γραμμικός πυρήνας, oneagainst-one) Συγκρίνοντας την Εικ. 6.4 με την 6.2 που είναι η αντίστοιχη προσέγγιση, αλλά στο 2% της βάσης, βλέπουμε ότι δεν έχουμε την αναμενόμενη συμπεριφορά. Ο ρυθμός σφάλματος ανεβαίνει δραματικά, κάτι το οποίο δε συμβαίνει σε τέτοιο βαθμό στην one-against-all προσέγγιση, όπως φαίνεται και από την Εικ ρυθμός σφάλματος κατώφλι Εικ. 6.5: Ρυθμός σφάλματος για διαφορετικές τιμές κατωφλίου (1% της βάσης, 3-fold cross validation, γραμμικός πυρήνας, one-against-all) Συνεπώς, κρίνοντας από τα παραπάνω, η τιμή κατωφλίου που επιλέγεται τελικά είναι η τιμή 1. 47

48 Η υλοποίηση του ανιχνευτή, αλλά και των περιγραφέων προέρχεται από τους συγγραφείς της δημοσίευσης [8] και μπορεί να βρεθεί στο Ο διαθέσιμος κώδικας δίνει δυνατότητα επιλογής διαφόρων ανιχνευτών και περιγραφέων καθώς και καθορισμού κατωφλίων. Επιλέξαμε λοιπόν, αφφινικό ανιχνευτή Harris με τιμή κατωφλίου 1 και SIFT περιγραφείς. Στις Εικ. 6.6 και 6.7 φαίνονται κάποιες ενδεικτικές περιοχές που έχουν ανιχνευτεί με τον αφφινικό Harris. Εικ. 6.6: Εφαρμογή του αφφινικού ανιχνευτή Harris 48

49 Εικ. 6.7: Αναπαράσταση 2 τυχαίων ανιχνευμένων περιοχών από κάθε τάξη: αυτοκίνητα, πρόσωπα, μηχανές, αεροπλάνα (με ωρολογιακή φορά) Στις Εικ. 6.8 και 6.9 αναπαρίστανται οι κυριότερες κλάσεις για κάθε εικόνα, οι ομάδες δηλαδή που περιέχουν το μεγαλύτερο αριθμό χαρακτηριστικών διανυσμάτων από το σύνολο των διανυσμάτων της εικόνας. Οι έγχρωμες ελλείψεις απεικονίζουν τις πιο ισχυρές περιοχές των κλάσεων αυτών, αυτές δηλαδή των οποίων τα χαρακτηριστικά διανύσματα βρίσκονται πλησιέστερα στο κέντρο των αντίστοιχων κλάσεων. Εικ. 6.8: 1η κυριότερη κλάση της εικόνας Εικ. 6.9: Οι 7 κυριότερες κλάσεις της εικόνας Στη συνέχεια, προκειμένου να αποφύγουμε τον κίνδυνο πόλωσης, καθώς κάθε τάξη περιέχει διαφορετικό αριθμό διανυσμάτων χαρακτηριστικών, επιλέγουμε 5 τυχαία διανύσματα από κάθε τάξη. 49

50 6.2 Δημιουργία λεξιλογίου Στα 2 συνολικά διανύσματα χαρακτηριστικών εφαρμόζουμε τον αλγόριθμο k-means. Ως τιμή της παραμέτρου k (δηλ. του αριθμού ομάδων) χρησιμοποιήσαμε εξ αρχής k = 1 καθώς από τα αποτελέσματα της δημοσίευσης [8], αποτελεί την καταλληλότερη επιλογή. Τα κβαντισμένα διανύσματα χαρακτηριστικών που δημιουργούνται από την εφαρμογή του αλγορίθμου (δηλ. τα κέντρα των 1 ομάδων) ονομάζονται σημεία κλειδιά και αποτελούν το λεξιλόγιό μας. 6.3 Δημιουργία ιστογραμμάτων Αυτό είναι το σημείο όπου δημιουργούνται οι σάκοι σημείων κλειδιών, δηλαδή τα χαρακτηριστικά ιστογράμματα των εικόνων. Αυτό επιτυγχάνεται συγκρίνοντας την (ευκλίδεια) απόσταση του κάθε διανύσματος χαρακτηριστικών της εικόνας με το κάθε κέντρο του λεξιλογίου και επιλέγοντας τη μικρότερη. Βρίσκουμε δηλαδή σε ποιο κέντρο είναι πλησιέστερα κάθε διάνυσμα χαρακτηριστικών και μετράμε πόσα διανύσματα αντιστοιχούν σε κάθε κέντρο. Ένα ενδεικτικό ιστόγραμμα παρουσιάζεται στην Εικ Εικ. 6.1: "Σάκος σημείων κλειδιών" της εικόνας planes1.png Tα ιστογράμματα αυτά αποτελούν τα δεδομένα εκπαίδευσης και δοκιμής που θα εισαχθούν στον ταξινομητή. 5

51 6.4 Ταξινόμηση Η σύγκριση που γίνεται μεταξύ των ταξινομητών Naive Bayes και SVM στο [8], αποδεικνύει ξεκάθαρα την υπεροχή των SVM σε τέτοιου είδους δεδομένα ταξινόμησης. Για το λόγο αυτό, για τα πειράματα που διεξήχθησαν, χρησιμοποιήθηκε μόνο ο SVM ταξινομητής (Κεφ. 4), θεωρώντας ότι δεν υπάρχει λόγος εκ νέου σύγκρισης, εφόσον οι ρυθμοί σφάλματος των δύο ταξινομητών παρουσιάζουν αρκετή διαφορά μεταξύ τους. Στο αρχικό πείραμα, το οποίο πραγματοποιήθηκε σε ένα τυχαίο 2% της βάσης, δοκιμάστηκαν τέσσερις τιμές κατωφλίου Harris [1,1,1,1], δύο προσεγγίσεις [one-against-one, one-against-all (Κεφ. 4)] και έξι πυρήνες [Σταθερός γραμμικός, Γραμμικός με προσαρμοζόμενη παράμετρο C, Ομοιογενής, Τετραγωνικός, Σταθερός RBF, Βελτιστοποιημένος RBF]. - Γραμμικός: sgn z n z m 1 z n z m 1 p, p = 1 Ομοιογενής: sgn z n z m z n z m p, p = 1 Τετραγωνικός: sign z n z m 1 z n z m 1 p, p = 2 - RBF: exp - - z n z m 2, p = σ p p Η παράμετρος C καθορίζει την ισορροπία ανάμεσα στην επιλογή μεγάλου ορίου απόφασης σε βάρος περισσότερων λανθασμένα ταξινομημένων δειγμάτων ή στην επιλογή μικρού με λιγότερα σφάλματα. Οι επιπλέον όροι συμβολίζουν: Σταθερός: C = 1 για όλα και σ = 1 για τα RBF. Με προσαρμοζόμενη παράμετρο: Η σταθερή παράμετρος κανονικοποίησης C μαθαίνεται μέσω βελτιστοποίησης. Συγκεκριμένα, το σφάλμα του ταξινομητή υπολογίζεται και αναζητείται το C που δίνει ένα ολικό ελάχιστο μέσω cross-validation στο σύνολο εκπαίδευσης. Η βέλτιστη τιμή για αυτό το σύνολο επιλέγεται τελικά ως σταθερά C. Βελτιστοποιημένος: Η παράμετρος σ για τα RBF μαθαίνεται με βελτιστοποίηση ανάλογα με το C. 51

52 Εικ. 6.11: Ρυθμοί σφάλματος για διαφορετικές τιμές της παραμέτρου C Η μεταβολή για C διαφορετικής τάξης μεγέθους στη γραμμική περίπτωση φαίνεται στην Εικ Παρατηρήσαμε ότι δεν υπήρχε διαφορά στο σφάλμα για επιλογή του C σε διαφορετική τάξη μεγέθους. Αυτό έχει να κάνει είτε με το μέγεθος της βάσης, είτε με τη διαχωρισιμότητα των δεδομένων (δηλ. κάποια σφάλματα πάντα θα υπάρχουν, ανεξάρτητα από την κανονικοποίηση που επιβάλλει το C ). Στα πειράματα μας με RBF η χρήση τιμών σ 1 δεν έδωσε διαφορά από την τιμή σ = 1, ενώ για τα πειράματα στο 2% με βελτιστοποίηση, για one-against-all οι τιμές που προέκυψαν ήταν από 158 σ 4, ενώ για one-against-one 1 σ 4, για τα διάφορα SVM που εκπαιδεύτηκαν. Τα αποτελέσματα του αρχικού πειράματος απεικονίζονται στον Πίνακα

53 ΠΥΡΗΝΕΣ SVM ΚΑΤΩΦΛΙ Linear Fixed Linear Learn HomogFixed 1vs1 1vsALL 1vs1 1vsALL 1vs1 1vsALL 1 4,8 4,63 11,78 15,41 4,8 4,63 1 3,89 4,96 13,1 14,55 3,89 4,96 1 4,44 5,62 13,97 15,89 4,44 5,62 1 9,99 11,35 21,51 24,2 9,99 11,35 ΠΥΡΗΝΕΣ SVM ΚΑΤΩΦΛΙ QuadrFixed RBF Fixed RBF Optimized 1vs1 1vsALL 1vs1 1vsALL 1vs1 1vsALL 1 23,12 17,25 59,22 59,22 4,49 5, ,65 18,27 6,72 6,72 3,72 4, ,23 21,9 59,65 59,65 5,54 6,2 1 27,5 25,19 65,38 65,38 9,42 9,33 ΠΙΝΑΚΑΣ 6.1 Ρυθμοί σφάλματος για το 2% της βάσης με 3-fold cross validation Για το συγκεκριμένο δείγμα δεδομένων βλέπουμε τα καλύτερα αποτελέσματα δίνει ο βελτιστοποιημένος RBF πυρήνας με one-against-one προσέγγιση και κατώφλι Harris 1. Ο πίνακας σύγχυσης δίνεται στον Πίνακα 6.2. Σωστή τάξη -> αυτοκίνητα πρόσωπα μηχανές αεροπλάνα αυτοκίνητα 1 πρόσωπα 97,8,6,45 μηχανές 3,5 4, ,4 αεροπλάνα 2,15 2,2 1,8 95,45 ΠΙΝΑΚΑΣ 6.2 Πίνακας σύγχυσης (2% της βάσης, 3-fold cross validation, κατώφλι 1, RBF optimized, one-against-one) Το πείραμα αυτό έγινε για να αποκτήσουμε μία ενδεικτική εικόνα σχετικά με την απόδοση των πυρήνων σε συνδυασμό με την τιμή κατωφλίου και την προσέγγιση. Βλέπουμε για παράδειγμα ότι ο γραμμικός πυρήνας με προσαρμοζόμενο C όπως επίσης και ο τετραγωνικός δίνουν πολύ μεγαλύτερους ρυθμούς σφάλματος σε σχέση με τους άλλους, ενώ η απόδοση του σταθερού RBF είναι χείριστη με υπερβολικά μεγάλο ρυθμό σφαλμάτων. Σε καμμία περίπτωση όμως δεν μπορούμε να καταλήξουμε σε τελικά συμπεράσματα από ένα τόσο μικρό δείγμα. 53

54 Το δεύτερο πείραμα έγινε σε ολόκληρη τη βάση και πάλι με 3-fold cross validation. O σταθερός RBF πυρήνας παραλείφθηκε, καθώς το ποσοστό αποτυχίας του στο προηγούμενο πείραμα άγγιξε σχεδόν το 5%. Τα αποτελέσματα φαίνονται στον παρακάτω πίνακα: ΠΥΡΗΝΕΣ SVM ΚΑΤΩΦΛΙ Linear Fixed Linear Learn HomogFixed 1vs1 1vsALL 1vs1 1vsALL 1vs1 1vsALL 1 18,89 8,7 18,89 8,7 18,89 8,7 1 2,4 8,81 2,4 8,81 2,4 8, ,6 1,23 23,6 1,23 23,6 1, ,61 14,94 31,61 14,94 31,61 14,94 ΠΥΡΗΝΕΣ SVM ΚΑΤΩΦΛΙ QuadrFixed 1vs1 1vsALL 1 23,65 18, ,91 27, ,97 24, ,72 23,69 ΠΙΝΑΚΑΣ 6.3 RBF Optimized 1vs1 1vsALL 2,45 Ρυθμοί σφάλματος για το 1% της βάσης με 3-fold cross validation Παρατηρούμε ότι αυτή τη φορά, καλύτερα αποτελέσματα έχουμε με το σταθερό γραμμικό πυρήνα, το γραμμικό με προσαρμοζόμενο C και τον ομοιογενή (οι ρυθμοί σφάλματος μάλιστα είναι οι ίδιοι και στις τρεις περιπτώσεις), ενώ τα αποτελέσματα του βελτιστοποιημένου RBF αυτή τη φορά είναι από τα χειρότερα. Μπορούμε επομένως να πούμε ότι το χαμηλότερο ρυθμό σφάλματος τον αποκτούμε για γραμμικό σταθερό πυρήνα, με Harris κατώφλι 1 και one-against-all προσέγγιση, κάτι το οποίο συμφωνεί και με τα αποτελέσματα του [8]. Ο Πίνακας 6.4 είναι ο πίνακας σύγχυσης των καλύτερων αποτελεσμάτων. 54

55 Σωστή τάξη -> αυτοκίνητα πρόσωπα μηχανές αεροπλάνα αυτοκίνητα 99,74,28 πρόσωπα,61 89,33 2,78 1,68 μηχανές 8,66 1,56 81,23 4,47 αεροπλάνα 5,71,89 3,51 9,69 ΠΙΝΑΚΑΣ 6.4 Πίνακας σύγχυσης (1% της βάσης, 3-fold cross validation, κατώφλι 1, linear fixed, one-against-all) Χρησιμοποιώντας τις συνθήκες αυτές πραγματοποιήσαμε το τελικό πείραμα σε όλη τη βάση, αυτή τη φορά με 1-fold cross validation, κάτι το οποίο οδήγησε σε πολύ καλύτερα αποτελέσματα: Σωστή τάξη -> αυτοκίνητα πρόσωπα μηχανές αεροπλάνα αυτοκίνητα 99,91,9 πρόσωπα,52 94,44 1,9,93 μηχανές 7,88 1,33 84,14 3,17 αεροπλάνα 5,11,44 1,57 92,64 Ρυθμός σφάλματος: 6,61 ΠΙΝΑΚΑΣ 6.5 Πίνακας σύγχυσης (1% της βάσης, 1-fold cross validation, κατώφλι 1, linear fixed, one-against-all) Στις Εικ και 6.13 επιδεικνύεται η διαχωρισιμότητα που επιτυγχάνεται για τις 4 τάξεις με τη μορφή 3Δ διαγράμματος για το σύνολο Κάθε σημείο στο σχήμα συμβολίζει το διάνυσμα χαρακτηριστικών, δηλ. το ιστόγραμμα διάστασης 1, που αντιστοιχεί σε μία εικόνα. Αυτό στην ουσία σημαίνει ότι κάθε σημείο αντιστοιχεί σε μια εικόνα του συνόλου της βάσης. Για λόγους απεικόνισης παρουσιάζονται οι 3 διαστάσεις των διανυσμάτων που επιτυγχάνουν την καλύτερη διαχωρισιμότητα ταυτόχρονα ανάμεσα σε όλες τις τάξεις. Για το σκοπό αυτό γίνεται μια επιλογή χαρακτηριστικών (feature selection) μέσω 1-NN (Nearest Neighborn) ταξινομητή στο δοσμένο σύνολο των εικόνων, των οποίων η τάξη είναι γνωστή. Συνοπτικά, για κάθε διάσταση υπολογίζεται το σφάλμα 55

56 αποδίδοντας κάθε νέο δείγμα στον κοντινότερο γείτονα του μέσω κάποιας μετρικής απόστασης (π.χ. Ευκλίδεια). Το συνολικό σφάλμα για κάθε διάσταση καθορίζει τις πιο διακριτικές. Όσο μικρότερο είναι το συνολικό σφάλμα, τόσο πιο διακριτική είναι η διάσταση. Εικ. 6.12: 3Δ απεικόνιση διαχωρισιμότητας τάξεων Οι ελλείψεις παριστάνουν τα ελλειψοειδή ελάχιστου όγκου που περιλαμβάνουν όλα τα σημεία μιας δεδομένης τάξης και αναδεικνύουν τη συγκέντρωση των σημείων των τάξεων στον 3Δ χώρο των πιο ισχυρών διακριτικά συνιστωσών. Παρατηρούμε ότι τα αυτοκίνητα είναι πιο συγκεντρωμένα στο χώρο (μοιάζουν περισσότερο τα χαρακτηριστικά τους, άρα και ταξινομούνται πιο εύκολα, 99,91% απόδοση στο σύνολο της βάσης) απ ότι για παράδειγμα τα πρόσωπα. Παρ όλα αυτά η έλλειψη των προσώπων δεν έχει μεγάλη επικάλυψη με τις υπόλοιπες (οπότε εξηγείται και η απόδοση του 94,44%). Οι άλλες δύο τάξεις μοιάζουν σε διασπορά στο χώρο, με αρκετή επικάλυψη μεταξύ τους, αλλά και με τα πρόσωπα και αυτοκίνητα. Αυτό αποδεικνύεται και πειραματικά από την απόδοση τους στα πειράματα (τα δείγματα τους συγχέονται πιο εύκολα με τα υπόλοιπα). 56

57 Εικ. 6.13: 2Δ απεικόνιση διαχωρισιμότητας τάξεων Τελειώνοντας, κάναμε ένα δοκιμαστικό πείραμα με τα προκαθορισμένα σύνολα εκπαίδευσης και δοκιμής που βρίσκονται στο σε κάθε κατηγορία εικόνων της βάσης που χρησιμοποιήσαμε. Εφόσον τα σύνολα ήταν ήδη διαχωρισμένα, δεν έγινε cross-validation, κάτι που είχε ως συνέπεια τα συγκεκριμένα αποτελέσματα να μην είναι τόσο θετικά όσο τα προηγούμενα. Στους πίνακες 6.6 και 6.7 απεικονίζονται οι ρυθμοί σφάλματος για τις διάφορες δοκιμές και ο πίνακας σύγχυσης του καλύτερου αποτελέσματος αντίστοιχα. 57

58 ΠΥΡΗΝΕΣ SVM ΚΑΤΩΦΛΙ Linear Fixed Linear Learn 1vs1 1vsALL 1vs1 1vsALL 1 2,47 26,53 2,47 26,53 1 2,82 23,92 2,82 23, ,35 18,77 24,35 18, ,79 26,39 34,79 26,39 ΠΥΡΗΝΕΣ SVM ΚΑΤΩΦΛΙ QuadrFixed RBF Optimized 1vs1 1vsALL 1vs1 1vsALL 1 23,22 18,91 37,4 36, ,62 21,88 34,79 36, ,2 21,31 31,19 34, ,4 27,45 29,57 34,37 ΠΙΝΑΚΑΣ 6.6 Ρυθμοί σφάλματος για τα προκαθορισμένα σύνολα εκπαίδευσης και δοκιμής Σωστή τάξη -> αυτοκίνητα πρόσωπα μηχανές αεροπλάνα αυτοκίνητα 91,75 2,5 5,75 πρόσωπα 5 71,43 5,25 5,25 μηχανές 1,75 5,43 75,5 1,75 αεροπλάνα 12,75 4, ,75 ΠΙΝΑΚΑΣ 6.7 Πίνακας σύγχυσης (προκαθορισμένα σύνολα, κατώφλι 1, linear fixed, one-against-all) 58

59 7. Επέκταση μεθόδου σάκου σημείων κλειδιών με χρήση Latent Dirichlet Allocation (LDA) Όπως γίνεται φανερό από τα παραπάνω αποτελέσματα, η χρήση σάκων χαρακτηριστικών για την αναγνώριση κλάσεων αντικειμένων είναι μία μέθοδος που αποδίδει σε ικανοποιητικό βαθμό. Παρόλα αυτά, η απαίτηση βέλτιστων αποτελεσμάτων ακόμη και για πιο απαιτητικές βάσεις δεδομένων, οδηγεί σε προσπάθειες βελτίωσής της. Για το λόγο αυτό, δοκιμάσαμε τον εμπλουτισμό της μεθόδου με τη χρήση Latent Dirichlet Allocation. Στη συνέχεια του κεφαλαίου δίνεται μία σύντομη περιγραφή του θεωρητικού υπόβαθρου των LDA και παρουσιάζεται ο τρόπος εφαρμογής τους καθώς και τα καινούρια αποτελέσματα. 7.1 Στοιχεία θεωρίας LDA Συμβολισμοί και ορολογία Στην ανάλυση που επακολουθεί χρησιμοποιούνται έννοιες όπως λέξεις, έγγραφα και συλλογές, μία φρασεολογία δηλαδή που αναφέρεται περισσότερο σε συλλογές κειμένων. Αυτό γίνεται κυρίως για διαισθητικούς λόγους, ιδιαίτερα όταν εισάγονται λανθάνουσες μεταβλητές που στοχεύουν στη σύλληψη αφηρημένων εννοιών όπως τα θέματα. Παρόλα αυτά το μοντέλο LDA δεν είναι αποκλειστικά συνδεδεμένο με το κείμενο, αλλά έχει εφαρμογές και σε άλλα προβλήματα που εμπλέκουν συλλογές δεδομένων, συμπεριλαμβανομένων και δεδομένων από πεδία, όπως συνεργατικό φιλτράρισμα, ανάκτηση εικόνας βασισμένης στο περιεχόμενο και βιοπληροφορική. Ορίζονται τυπικά οι παρακάτω όροι: Μία λέξη είναι η βασική μονάδα των διακριτών δεδομένων ορισμένη ώστε να είναι ένα αντικείμενο από ένα λεξιλόγιο δεικτιοδοτούμενο από {1,,V }. Οι λέξεις αναπαρίστανται χρησιμοποιώντας διανύσματα μοναδιαίας βάσης τα οποία έχουν μία μοναδική συνιστώσα ίση με ένα και όλες τις άλλες συνιστώσες ίσες με μηδέν. Συνεπώς, χρησιμοποιώντας εκθέτες για να δηλώσουμε τις συνιστώσες, η vth λέξη στο λεξιλόγιο αναπαρίσταται από ένα V -διάνυσμα έτσι ώστε w v = 1 και w u = για u v. 59

60 N Ένα έγγραφο είναι μία ακολουθία λέξεων που δηλώνονται από λέξη στην ακολουθία. w = w 1, w 2,, w N, όπου w n είναι η nth Μία συλλογή είναι μία συλλογή D = {w 1, w 2,, w M }. M εγγράφων που δηλώνεται από Το ζήτημα είναι να βρεθεί ένα πιθανοτικό μοντέλο μίας συλλογής, το οποίο όχι μόνο θα αναθέτει υψηλή πιθανότητα στα μέλη της, αλλά θα αναθέτει επίσης και υψηλή πιθανότητα σε άλλα παρόμοια έγγραφα Latent Dirichlet Allocation Το LDA είναι ένα παραγωγικό πιθανοτικό μοντέλο μίας συλλογής. Η βασική ιδέα είναι ότι τα έγγραφα αναπαριστώνται ως μείξεις λανθάνουσων θεμάτων, όπου το κάθε θέμα χαρακτηρίζεται από μία κατανομή λέξεων [3]. Το LDA ακολουθεί την παρακάτω παραγωγική διαδικασία για κάθε έγγραφο συλλογή D : w σε μία 1. Επέλεξε τη Ν ~ Poisson ξ. 2. Επέλεξε τη θ ~ Dir α. 3. Για κάθε μία από τις Ν λέξεις w n : (α) Επέλεξε ένα θέμα z n ~ Multinomial θ. (β) Επέλεξε μία λέξη w n από την p w n z n, β, μία πολυωνυμική πιθανότητα προσαρμοσμένη στο θέμα z n. Σε αυτό το βασικό μοντέλο έχουν γίνει πολλές απλοποιημένες υποθέσεις. Πρώτα απ' όλα, η διάσταση k της Dirichlet κατανομής (και συνεπώς και η διάσταση της μεταβλητής θέματος z ) θεωρείται γνωστή και σταθερή. Επίσης, οι πιθανότητες των λέξεων παραμετροποιούνται από έναν k V πίνακα όπου β ij = p w j = 1 z i = 1, ο οποίος προς το παρόν αντιμετωπίζεται ως σταθερή ποσότητα που πρέπει να εκτιμηθεί. Τελειώνοντας, εφόσον η Poisson παραδοχή δεν είναι κρίσιμη σε οτιδήποτε ακολουθεί μπορούν να χρησιμοποιηθούν και περισσότερο ρεαλιστικές κατανομές μήκους εγγράφου όπου χρειάζεται. Επιπροσθέτως, η N είναι ανεξάρτητη από όλα τα υπόλοιπα δεδομένα που δημιουργούν μεταβλητές ( θ και z ). Είναι επομένως μία βοηθητική μεταβλητή και η τυχαιότητά της αγνοείται τελικά στην επακόλουθη ανάπτυξη. Μία k -διάστατη τυχαία μεταβλητή Dirichlet k 1 -χωρική διάταξη (simplex) (ένα k -διάνυσμα 6 θ θ μπορεί να πάρει τιμές στην βρίσκεται στην k 1 -

61 χωρική διάταξη εάν στη διάταξη αυτή: k θ i, i =1 θi = 1 ) και έχει την παρακάτω πυκνότητα πιθανότητας k p θ α = Γ i =1 α i k θ α1 1 θ αk 1 1 i=1 Γ αi (7.1) l όπου η παράμετρος α είναι ένα k -διάνυσμα με συνιστώσες α i, ενώ Γ x είναι η συνάρτηση Gamma. Η Dirichlet είναι μία κατάλληλη κατανομή για τη χωρική διάταξη - ανήκει στην εκθετική οικογένεια, έχει επαρκή στατιστικά πεπερασμένων διαστάσεων και είναι συζυγής της πολυωνυμικής κατανομής. Δεδομένων των παραμέτρων α και β, η κοινή κατανομή μίας μείξης θεμάτων θ, ένα σύνολο Ν θεμάτων z και ένα σύνολο N λέξεων w δίνεται από: N p θ, z, w α, β = p θ α p z n θ p w n z n, β (7.2) n=1 p z n θ z in = 1. όπου είναι απλά το θ i για το μοναδικό i έτσι ώστε Ολοκληρώνοντας για θ και αθροίζοντας για z, λαμβάνουμε την οριακή κατανομή ενός εγγράφου: p w α, β = p θ α N n p z n θ p w n z n, β n=1 z (7.3) dθ Εν τέλει, παίρνοντας το γινόμενο των οριακών πιθανοτήτων ξεχωριστών εγγράφων, λαμβάνουμε την πιθανότητα μίας συλλογής: M p D α, β = p θ d α d =1 N n=1 d z dn p z dn θ d p w dn z dn, β (7.4) Το μοντέλο LDA αναπαρίσταται ως ένα πιθανοτικό γραφικό μοντέλο στην Εικ Όπως φαίνεται και από την εικόνα, υπάρχουν τρία επίπεδα στην αναπαράσταση του α β LDA. Οι παράμετροι και είναι παράμετροι επιπέδου συλλογής και δειγματοληπτούνται μία φορά στη διαδικασία δημιουργίας μίας συλλογής. Οι μεταβλητές θ d είναι μεταβλητές επιπέδου εγγράφου που δειγματοληπτούνται μία φορά για κάθε έγγραφο, ενώ οι μεταβλητές z dn και w dn είναι μεταβλητές επιπέδου λέξεως και δειγματοληπτούνται μία φορά για κάθε λέξη σε κάθε έγγραφο. 61

62 Εικ. 7.1: Γραφική αναπαράσταση μοντέλου του LDA Είναι σημαντικό να γίνει ο διαχωρισμός του LDA από ένα απλό πολυωνυμικό μοντέλο ομαδοποίησης Dirichlet. Ένα κλασικό μοντέλο ομαδοποίησης θα συμπεριελάμβανε ένα μοντέλο δύο επιπέδων στο οποίο μία Dirichlet δειγματοληπτείται μία φορά για μία συλλογή, μία πολυωνυμική μεταβλητή ομαδοποίησης επιλέγεται μία φορά για κάθε έγγραφο στη συλλογή και ένα σύνολο λέξεων επιλέγεται για το έγγραφο ανάλογα με τη μεταβλητή ομάδας. Όπως και με πολλά μοντέλα ομαδοποίησης, ένα τέτοιο μοντέλο περιορίζει ένα έγγραφο ώστε να συσχετίζεται μόνο με ένα θέμα. Το LDA από την άλλη πλευρά, περιλαμβάνει τρία επίπεδα και ειδικά ο κόμβος θέματος δειγματοληπτείται επανειλλημένα εντός του εγγράφου. Υπό αυτό το μοντέλο, τα έγγραφα μπορούν να συσχετιστούν με πολλαπλά θέματα. Δομές παρόμοιες με αυτήν της Εικ. 7.1 μελετούνται συχνά στην Bayesian στατιστική μοντελοποίηση, όπου αναφέρονται ως ιεραρχικά μοντέλα ή, ακριβέστερα, ως υπό συνθήκη ανεξάρτητα ιεραρχικά μοντέλα. Τέτοια μοντέλα ονομάζονται επίσης συχνά και παραμετρικά εμπειρικά μοντέλα Bayes, ένας όρος που αναφέρεται όχι μόνο σε μία συγκεκριμένη δομή μοντέλου, αλλά και στις μεθόδους που χρησιμοποιούνται για την εκτίμηση των παραμέτρων στο μοντέλο. 7.2 Υλοποίηση επέκτασης Η επέκταση της αρχικής υλοποίησης λαμβάνει χώρα ανάμεσα στο τρίτο και τέταρτο βήμα του αλγορίθμου (Κεφ. 6). Σε γενικές γραμμές, η διαφοροποίηση έγκειται στο ότι τα ιστογράμματα των εικόνων που δημιουργούνται (δηλ. οι σάκοι σημείων κλειδιών ) δίνονται ως είσοδος στο μοντέλο LDA, ενώ ο ταξινομητής SVM δέχεται ως είσοδο τα αποτελέσματα του LDA. 62

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Σύνθεση Πανοράµατος Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή

Διαβάστε περισσότερα

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. 1/45 Τι είναι ο SIFT-Γενικά Scale-invariant feature transform detect and

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Χαρακτηριστικά Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. Εισαγωγικά: SIFT~Harris Harris Detector: Δεν είναι ανεξάρτητος της κλίμακας

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Εντοπισμός ενός σήματος STOP σε μια εικόνα. Περιγράψτε τη διαδικασία με την οποία μπορώ να εντοπίσω απλά σε μια εικόνα την ύπαρξη του παρακάτω

Διαβάστε περισσότερα

Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας

Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας Ε.Α.Υ. Υπολογιστική Όραση Κατάτμηση Εικόνας Γεώργιος Παπαϊωάννου 2015 ΚΑΤΩΦΛΙΩΣΗ Κατωφλίωση - Γενικά Είναι η πιο απλή μέθοδος segmentation εικόνας Χωρίζουμε την εικόνα σε 2 (binary) ή περισσότερες στάθμες

Διαβάστε περισσότερα

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί Πολλά προβλήματα λύνονται μέσω δισδιάστατων απεικονίσεων ενός μοντέλου. Μεταξύ αυτών και τα προβλήματα κίνησης, όπως η κίνηση ενός συρόμενου μηχανισμού.

Διαβάστε περισσότερα

Digital Image Processing

Digital Image Processing Digital Image Processing Intensity Transformations Πέτρος Καρβέλης pkarvelis@gmail.com Images taken from: R. Gonzalez and R. Woods. Digital Image Processing, Prentice Hall, 2008. Image Enhancement: είναι

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 8 ο Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας. Ένας αποδεκτός ορισμός της ακμής είναι ο ακόλουθος: «Το σύνορο μεταξύ δύο ομοιογενών περιοχών με

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 8 ο Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα ένας ευρέως αποδεκτός ορισμός της ακμής. Εδώ θα θεωρούμε ως ακμή:

Διαβάστε περισσότερα

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή Oι οπτικές επιδράσεις, που μπορεί να προκαλέσει μια εικόνα στους χρήστες, αποτελούν ένα από τα σπουδαιότερα αποτελέσματα των λειτουργιών γραφικών με Η/Υ. Τον όρο της οπτικοποίησης

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

Συμπίεση Δεδομένων

Συμπίεση Δεδομένων Συμπίεση Δεδομένων 2014-2015 Κβάντιση Δρ. Ν. Π. Σγούρος 2 Άσκηση 5.1 Για ένα σήμα που έχει τη σ.π.π. του σχήματος να υπολογίσετε: μήκος του δυαδικού κώδικα για Ν επίπεδα κβάντισης για σταθερό μήκος λέξης;

Διαβάστε περισσότερα

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ BIOMIG Medical Image Processing, Algorithms and Applications http://biomig.ntua.gr ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ Εισαγωγή στην MRI και στην fmri ΔΡ. Γ. ΜΑΤΣΟΠΟΥΛΟΣ ΑΝ. ΚΑΘΗΓΗΤΗΣ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο Πρόβλημα ο Ασκήσεις Φροντιστηρίου 5 o Φροντιστήριο Δίνεται το παρακάτω σύνολο εκπαίδευσης: # Είσοδος Κατηγορία 0 0 0 Α 2 0 0 Α 0 Β 4 0 0 Α 5 0 Β 6 0 0 Α 7 0 Β 8 Β α) Στον παρακάτω κύβο τοποθετείστε τα

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο Ασκήσεις Φροντιστηρίου 4 o Φροντιστήριο Πρόβλημα 1 ο Ο πίνακας συσχέτισης R x του διανύσματος εισόδου x( στον LMS αλγόριθμο 1 0.5 R x = ορίζεται ως: 0.5 1. Ορίστε το διάστημα των τιμών της παραμέτρου μάθησης

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Ολοκλήρωση Εισαγωγή Έστω ότι η f είναι μία φραγμένη συνάρτηση στο πεπερασμένο

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 10 ο Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Η περιγραφή μίας περιοχής μπορεί να γίνει: Με βάση τα εξωτερικά χαρακτηριστικά (ακμές, όρια). Αυτή η περιγραφή προτιμάται όταν μας ενδιαφέρουν

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση με περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής Διάλεξη 9-10 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ Ψηφιακή Επεξεργασία Εικόνας ΒΕΛΤΙΩΣΗ ΕΙΚΟΝΑΣ ΜΕ ΙΣΤΟΓΡΑΜΜΑ ΔΠΜΣ ΗΕΠ 1/46 Περιλαμβάνει: Βελτίωση (Enhancement) Ανακατασκευή (Restoration) Κωδικοποίηση (Coding) Ανάλυση, Κατανόηση Τμηματοποίηση (Segmentation)

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr I ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ i e ΜΕΡΟΣ Ι ΟΡΙΣΜΟΣ - ΒΑΣΙΚΕΣ ΠΡΑΞΕΙΣ Α Ορισμός Ο ορισμός του συνόλου των Μιγαδικών αριθμών (C) βασίζεται στις εξής παραδοχές: Υπάρχει ένας αριθμός i για τον οποίο ισχύει i Το σύνολο

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012 ΔΕ. ΙΟΥΝΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η ( μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάσει το συντελεστή συσχέτισης. (γράψτε ποιο χαρακτηριστικό

Διαβάστε περισσότερα

Απεικόνιση Υφής. Μέρος Α Υφή σε Πολύγωνα

Απεικόνιση Υφής. Μέρος Α Υφή σε Πολύγωνα Απεικόνιση Γραφικά ΥφήςΥπολογιστών Απεικόνιση Υφής Μέρος Α Υφή σε Πολύγωνα Γ. Γ. Παπαϊωάννου, - 2008 Τι Είναι η Υφή; Η υφή είναι η χωρική διαμόρφωση των ποιοτικών χαρακτηριστικών της επιφάνειας ενός αντικειμένου,

Διαβάστε περισσότερα

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης DIP_05 Τμηματοποίηση εικόνας ΤΕΙ Κρήτης ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Τμηματοποίηση εικόνας είναι η διαδικασία με την οποία διαχωρίζεται μία εικόνα σε κατάλληλες περιοχές ή αντικείμενα. Για την τμηματοποίηση

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: μέθοδοι μονοδιάστατης ελαχιστοποίησης Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 6 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Γραφικά με υπολογιστές. Διδάσκων: Φοίβος Μυλωνάς. Διαλέξεις #11-#12

Γραφικά με υπολογιστές. Διδάσκων: Φοίβος Μυλωνάς. Διαλέξεις #11-#12 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Χειμερινό εξάμηνο Γραφικά με υπολογιστές Διδάσκων: Φοίβος Μυλωνάς fmlonas@ionio.gr Διαλέξεις #-# Σύνθεση Δ Μετασχηματισμών Ομογενείς Συντεταγμένες Παραδείγματα Μετασχηματισμών

Διαβάστε περισσότερα

Ανάλυση και Αναζήτηση Εικόνων με Μεθόδους Ανίχνευσης Τοπικών Χαρακτηριστικών

Ανάλυση και Αναζήτηση Εικόνων με Μεθόδους Ανίχνευσης Τοπικών Χαρακτηριστικών ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΟΜΕΑΣ ΜΑΘΗΜΑΤΙΚΩΝ Δ.Π.Μ.Σ. «ΜΑΘΗΜΑΤΙΚΗ ΠΡΟΤΥΠΟΠΟΙΗΣΗ ΣE ΣΥΓΧΡΟΝΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ» Ανάλυση και Αναζήτηση

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΓΡΑΦΙΚΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΓΡΑΦΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΓΡΑΦΙΚΩΝ Εισαγωγή /4 Το σχήμα και το μέγεθος των δισδιάστατων αντικειμένων περιγράφονται με τις καρτεσιανές συντεταγμένες x, y. Με εφαρμογή γεωμετρικών μετασχηματισμών στο μοντέλο

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Τμήμα Πληροφορικής και Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ Εργαστήριο 8 ο Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Βασική Θεωρία Σε ένα σύστημα μετάδοσης

Διαβάστε περισσότερα

Οδηγίες σχεδίασης στο περιβάλλον Blender

Οδηγίες σχεδίασης στο περιβάλλον Blender Οδηγίες σχεδίασης στο περιβάλλον Blender Στον πραγματικό κόσμο, αντιλαμβανόμαστε τα αντικείμενα σε τρεις κατευθύνσεις ή διαστάσεις. Τυπικά λέμε ότι διαθέτουν ύψος, πλάτος και βάθος. Όταν θέλουμε να αναπαραστήσουμε

Διαβάστε περισσότερα

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο Εφαρμογές Ανάλυσης Σήματος στη Γεωδαισία Παρουσίαση η : Αρχές εκτίμησης παραμέτρων Μέρος ο Βασίλειος Δ. Ανδριτσάνος Αναπληρωτής Καθηγητής Γεώργιος Χλούπης Επίκουρος Καθηγητής Τμήμα Μηχανικών Τοπογραφίας

Διαβάστε περισσότερα

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Το Πολυεπίπεδο Perceptron. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Το Πολυ Perceptron Δίκτυα Πρόσθιας Τροφοδότησης (feedforward) Tο αντίστοιχο γράφημα του δικτύου δεν περιλαμβάνει κύκλους: δεν υπάρχει δηλαδή ανατροφοδότηση της εξόδου ενός νευρώνα προς τους νευρώνες από

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Πεπερασμένες και Διαιρεμένες Διαφορές Εισαγωγή Θα εισάγουμε την έννοια των διαφορών με ένα

Διαβάστε περισσότερα

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΔΙΚΤΥO RBF. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΔΙΚΤΥO RBF Αρχιτεκτονική δικτύου RBF Δίκτυα RBF: δίκτυα συναρτήσεων πυρήνα (radial basis function networks). Πρόσθιας τροφοδότησης (feedforward) για προβλήματα μάθησης με επίβλεψη. Εναλλακτικό του MLP.

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών 7. Εισαγωγή (ορισμός προβλήματος, αριθμητική ολοκλήρωση ΣΔΕ, αντικατάσταση ΣΔΕ τάξης n με n εξισώσεις ης τάξης) 7. Μέθοδος Euler 7.3

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2 Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017 Αντικειμενικοί στόχοι Η μελέτη των βασικών στοιχείων που συνθέτουν ένα πρόβλημα βελτιστοποίησης

Διαβάστε περισσότερα

ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ

ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Ρήγας Κουσκουρίδας, Βασίλειος Μπελαγιάννης, Δημήτριος Χρυσοστόμου και Αντώνιος Γαστεράτος Δημοκρίτειο Πανεπιστήμιο Θράκης, Πανεπιστημιούπολη, Κιμμέρια,

Διαβάστε περισσότερα

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ Συµπληρωµατικές Σηµειώσεις Προχωρηµένο Επίπεδο Επεξεργασίας Εικόνας Σύνθεση Οπτικού Μωσαϊκού ρ. Γ. Χ. Καρράς Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Μηχανολόγων Μηχανικών Τοµέας Μηχανολογικών

Διαβάστε περισσότερα

Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση

Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Σημάτων Ελέγχου και Ρομποτικής Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση Επιβλέπων: καθ. Πέτρος Μαραγκός Ορισμός

Διαβάστε περισσότερα

Συμπίεση Δεδομένων

Συμπίεση Δεδομένων Συμπίεση Δεδομένων 2014-2015 Κβάντιση Δρ. Ν. Π. Σγούρος 2 Αναλογικά Ψηφιακά Σήματα Αναλογικό Σήμα x t, t [t min, t max ], x [x min, x max ] Δειγματοληψία t n, x t x n, n = 1,, N Κβάντιση x n x(n) 3 Αλφάβητο

Διαβάστε περισσότερα

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Μέθοδοι πολυδιάστατης ελαχιστοποίησης Μέθοδοι πολυδιάστατης ελαχιστοποίησης με παραγώγους Μέθοδοι πολυδιάστατης ελαχιστοποίησης Δ. Γ. Παπαγεωργίου Τμήμα Μηχανικών Επιστήμης Υλικών Πανεπιστήμιο Ιωαννίνων dpapageo@cc.uoi.gr http://pc64.materials.uoi.gr/dpapageo

Διαβάστε περισσότερα

Μηχανολογικό Σχέδιο με τη Βοήθεια Υπολογιστή. Αφφινικοί Μετασχηματισμοί Αναπαράσταση Γεωμετρικών Μορφών

Μηχανολογικό Σχέδιο με τη Βοήθεια Υπολογιστή. Αφφινικοί Μετασχηματισμοί Αναπαράσταση Γεωμετρικών Μορφών Μηχανολογικό Σχέδιο με τη Βοήθεια Υπολογιστή Γεωμετρικός Πυρήνας Γεωμετρικός Πυρήνας Αφφινικοί Μετασχηματισμοί Αναπαράσταση Γεωμετρικών Μορφών Γεωμετρικός Πυρήνας Εξομάλυνση Σημεία Καμπύλες Επιφάνειες

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Αλγόριθµοι Ευθυγράµµισης Τρισδιάστατων Αντικειµένων Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθηνών 20 Οκτωβρίου 2005 Εισαγωγή

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Χωρικά φίλτρα Χωρικά φίλτρα Γενικά Σε αντίθεση με τις σημειακές πράξεις και μετασχηματισμούς, στα

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Ακμές και περιγράμματα Ακμές και περιγράμματα Γενικά Μεγάλο τμήμα της πληροφορίας που γίνεται αντιληπτή

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων 1 / 20

Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων 1 / 20 Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων Ισαάκ Η Λαγαρής 1 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιον Ιωαννίνων 1 Με υλικό από το υπό προετοιμασία βιβλίο των: Βόγκλη,

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

ΠΡΟΒΛΗΜΑΤΑ ΔΥΟ ΔΙΑΣΤΑΣΕΩΝ

ΠΡΟΒΛΗΜΑΤΑ ΔΥΟ ΔΙΑΣΤΑΣΕΩΝ ΠΡΟΒΛΗΜΑΤΑ ΔΥΟ ΔΙΑΣΤΑΣΕΩΝ Η ανάλυση προβλημάτων δύο διαστάσεων με τη μέθοδο των Πεπερασμένων Στοιχείων περιλαμβάνει τα ίδια βήματα όπως και στα προβλήματα μιας διάστασης. Η ανάλυση γίνεται λίγο πιο πολύπλοκη

Διαβάστε περισσότερα

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης Ελαχιστοποίηση συνάρτησης σφάλματος Εκπαίδευση ΤΝΔ: μπορεί να διατυπωθεί ως πρόβλημα ελαχιστοποίησης μιας συνάρτησης σφάλματος E(w)

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών. Εισαγωγή (ορισμός προβλήματος, αριθμητική ολοκλήρωση ΣΔΕ, αντικατάσταση ΣΔΕ τάξης n με n εξισώσεις ης τάξης). Μέθοδος Euler 3. Μέθοδοι

Διαβάστε περισσότερα

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ ΔΡ. Γ. ΜΑΤΣΟΠΟΥΛΟΣ ΕΠ. ΚΑΘΗΓΗΤΗΣ ΣΧΟΛΗ ΗΛΕΚΤΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Επεξεργασία Ιατρικών Εικόνων

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Γραμμικός Προγραμματισμός Μέθοδος Simplex ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Επιχειρησιακή Έρευνα Γραμμικός Προγραμματισμός Μέθοδος Simplex Η παρουσίαση προετοιμάστηκε από τον Ν.Α. Παναγιώτου Περιεχόμενα Παρουσίασης 1. Πρότυπη Μορφή ΓΠ 2. Πινακοποίηση

Διαβάστε περισσότερα

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων Δειγµατοληψία και Κβαντισµός: Μια εικόνα (µπορεί να) είναι συνεχής τόσο ως προς τις συντεταγµένες x, y όσο και ως προς το πλάτος. Για να τη µετατρέψουµε

Διαβάστε περισσότερα

Με τη σύμβαση της «κινηματικής αλυσίδας», ο μηχανισμός αποτυπώνεται σε πίνακα παραμέτρων ως εξής:

Με τη σύμβαση της «κινηματικής αλυσίδας», ο μηχανισμός αποτυπώνεται σε πίνακα παραμέτρων ως εξής: ΑΝΩΤΑΤΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΠΕΙΡΑΙΑ ΤΕΧΝΟΛΟΓΙΚΟΥ ΤΟΜΕΑ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΑΥΤΟΜΑΤΙΣΜΟΥ Τ.Ε. ΤΟΜΕΑΣ ΙΙΙ ΣΥΣΤΗΜΑΤΩΝ ΑΥΤΟΜΑΤΟΥ ΕΛΕΓΧΟΥ Π. Ράλλη & Θηβών 250, 12244 Αθήνα Καθηγητής Γ. Ε. Χαμηλοθώρης αρχείο: θέμα:

Διαβάστε περισσότερα

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΓΙΑ ΠΡΟΒΛΗΜΑΤΑ ΜΗΧΑΝΙΚΗΣ ΕΦΑΡΜΟΓΕΣ ΜΕ ΧΡΗΣΗ MATLAB ΔΕΥΤΕΡΗ ΕΚΔΟΣΗ [ΒΕΛΤΙΩΜΕΝΗ ΚΑΙ ΕΠΑΥΞΗΜΕΝΗ]

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΓΙΑ ΠΡΟΒΛΗΜΑΤΑ ΜΗΧΑΝΙΚΗΣ ΕΦΑΡΜΟΓΕΣ ΜΕ ΧΡΗΣΗ MATLAB ΔΕΥΤΕΡΗ ΕΚΔΟΣΗ [ΒΕΛΤΙΩΜΕΝΗ ΚΑΙ ΕΠΑΥΞΗΜΕΝΗ] ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΓΙΑ ΠΡΟΒΛΗΜΑΤΑ ΜΗΧΑΝΙΚΗΣ ΕΦΑΡΜΟΓΕΣ ΜΕ ΧΡΗΣΗ MATLAB ΔΕΥΤΕΡΗ ΕΚΔΟΣΗ [ΒΕΛΤΙΩΜΕΝΗ ΚΑΙ ΕΠΑΥΞΗΜΕΝΗ] Συγγραφείς ΝΤΑΟΥΤΙΔΗΣ ΠΡΟΔΡΟΜΟΣ Πανεπιστήμιο Minnesota, USA ΜΑΣΤΡΟΓΕΩΡΓΟΠΟΥΛΟΣ ΣΠΥΡΟΣ Αριστοτέλειο

Διαβάστε περισσότερα

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Με τη σύμβαση της «κινηματικής αλυσίδας», ο μηχανισμός αποτυπώνεται σε πίνακα παραμέτρων ως εξής:

Με τη σύμβαση της «κινηματικής αλυσίδας», ο μηχανισμός αποτυπώνεται σε πίνακα παραμέτρων ως εξής: ΑΝΩΤΑΤΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΠΕΙΡΑΙΑ ΤΕΧΝΟΛΟΓΙΚΟΥ ΤΟΜΕΑ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΑΥΤΟΜΑΤΙΣΜΟΥ Τ.Ε. ΤΟΜΕΑΣ ΙΙΙ ΣΥΣΤΗΜΑΤΩΝ ΑΥΤΟΜΑΤΟΥ ΕΛΕΓΧΟΥ Π. Ράλλη & Θηβών 250, 12244 Αθήνα Καθηγητής Γ. Ε. Χαμηλοθώρης αρχείο: θέμα:

Διαβάστε περισσότερα

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο Φίλτρα Kalman Εξαγωγή των εξισώσεων τους με βάση το κριτήριο ελαχιστοποίησης της Μεθόδου των Ελαχίστων Τετραγώνων. Αναλυτικές Μέθοδοι στη Γεωπληροφορική Μεταπτυχιακό Πρόγραμμα ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ ιατύπωση του

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού Κινητά Δίκτυα Επικοινωνιών Συμπληρωματικό υλικό Προσαρμοστική Ισοστάθμιση Καναλιού Προσαρμοστικοί Ισοσταθμιστές Για να υπολογίσουμε τους συντελεστές του ισοσταθμιστή MMSE, απαιτείται να λύσουμε ένα γραμμικό

Διαβάστε περισσότερα

ΜΕΘΟΔΟΣ ΠΕΠΕΡΑΣΜΕΝΩΝ ΣΤΟΙΧΕΙΩΝ

ΜΕΘΟΔΟΣ ΠΕΠΕΡΑΣΜΕΝΩΝ ΣΤΟΙΧΕΙΩΝ ΜΕΘΟΔΟΣ ΠΕΠΕΡΑΣΜΕΝΩΝ ΣΤΟΙΧΕΙΩΝ Βασίζεται στην εφαρμογή των παρακάτω βημάτων:. Το φυσικό πεδίο αναπαριστάται με ένα σύνολο απλών γεωμετρικών σχημάτων που ονομάζονται Πεπερασμένα Στοιχεία.. Σε κάθε στοιχείο

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διαλέξεις 5 6 Principal component analysis EM for Gaussian mixtures: μ k, Σ k, π k. Ορίζουμε το διάνυσμα z (διάσταση Κ) ώστε K p( x θ) = π ( x μ, Σ ) k = k k k Eκ των υστέρων

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο

Διαβάστε περισσότερα

z = c 1 x 1 + c 2 x c n x n

z = c 1 x 1 + c 2 x c n x n Τεχνολογικό Εκπαιδευτικό Ιδρυμα Κεντρικής Μακεδονίας - Σέρρες Τμήμα Μηχανικών Πληροφορικής Γραμμικός Προγραμματισμός & Βελτιστοποίηση Δρ. Δημήτρης Βαρσάμης Καθηγητής Εφαρμογών Δρ. Δημήτρης Βαρσάμης Μάρτιος

Διαβάστε περισσότερα

Συστήματα συντεταγμένων

Συστήματα συντεταγμένων Κεφάλαιο. Για να δημιουργήσουμε τρισδιάστατα αντικείμενα, που μπορούν να παρασταθούν στην οθόνη του υπολογιστή ως ένα σύνολο από γραμμές, επίπεδες πολυγωνικές επιφάνειες ή ακόμη και από ένα συνδυασμό από

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA) ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Coponent Analysis, PCA) καθ. Βασίλης Μάγκλαρης aglaris@netode.ntua.gr www.netode.ntua.gr

Διαβάστε περισσότερα

5. (Λειτουργικά) Δομικά Διαγράμματα

5. (Λειτουργικά) Δομικά Διαγράμματα 5. (Λειτουργικά) Δομικά Διαγράμματα Γενικά, ένα λειτουργικό δομικό διάγραμμα έχει συγκεκριμένη δομή που περιλαμβάνει: Τις δομικές μονάδες (λειτουργικά τμήματα ή βαθμίδες) που συμβολίζουν συγκεκριμένες

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Μετασχηματισμοί Μοντελοποίησης (modeling transformations)

Μετασχηματισμοί Μοντελοποίησης (modeling transformations) Μετασχηματισμοί Δ Μετασχηματισμοί Μοντελοποίησης (modeling trnformtion) Καθορισμός μετασχηματισμών των αντικειμένων Τα αντικείμενα περιγράφονται στο δικό τους σύστημα συντεταγμένων Επιτρέπει την χρήση

Διαβάστε περισσότερα

Παρουσίαση Νο. 5 Βελτίωση εικόνας

Παρουσίαση Νο. 5 Βελτίωση εικόνας Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Παρουσίαση Νο. 5 Βελτίωση εικόνας Εισαγωγή Η βελτίωση γίνεται σε υποκειμενική βάση Η απόδοση εξαρτάται από την εφαρμογή Οι τεχνικές είναι συνήθως ad hoc Τονίζει

Διαβάστε περισσότερα

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 9 ο Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ Εισαγωγή () Η κατάτμηση έχει ως στόχο να υποδιαιρέσει την εικόνα σε συνιστώσες περιοχές και αντικείμενα. Μία περιοχή αναμένεται να έχει ομοιογενή χαρακτηριστικά

Διαβάστε περισσότερα

E[ (x- ) ]= trace[(x-x)(x- ) ]

E[ (x- ) ]= trace[(x-x)(x- ) ] 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Ψηφιακές Τηλεπικοινωνίες

Ψηφιακές Τηλεπικοινωνίες Ψηφιακές Τηλεπικοινωνίες Κωδικοποίηση Αναλογικής Πηγής: Κβάντιση Εισαγωγή Αναλογική πηγή: μετά από δειγματοληψία γίνεται διακριτού χρόνου άπειρος αριθμός bits/έξοδο για τέλεια αναπαράσταση Θεωρία Ρυθμού-Παραμόρφωσης

Διαβάστε περισσότερα