Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Τµήµα Πληροφορικής Κατεύθυνση Ψηφιακών Μέσων. ιπλωµατική Εργασία

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Τµήµα Πληροφορικής Κατεύθυνση Ψηφιακών Μέσων. ιπλωµατική Εργασία"

Transcript

1 Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Τµήµα Πληροφορικής Κατεύθυνση Ψηφιακών Μέσων Τεχνικές Υπολογιστικής Νοηµοσύνης στην Ταξινόµηση Εικόνων ιπλωµατική Εργασία της Αναστασίας Η. Ιωαννίδου Επιβλέπων : Τέφας Αναστάσιος Λέκτορας ΑΠΘ Εργαστήριο Τεχνητής Νοηµοσύνης και Ανάλυσης Πληροφοριών Θεσσαλονίκη, Φεβρουάριος 2013

2

3 Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Τµήµα Πληροφορικής Κατεύθυνση Ψηφιακών Μέσων Εργαστήριο Τεχνητής Νοηµοσύνης και Ανάλυσης Πληροφοριών Τεχνικές Υπολογιστικής Νοηµοσύνης στην Ταξινόµηση Εικόνων ιπλωµατική Εργασία της Αναστασίας Η. Ιωαννίδου Επιβλέπων : Τέφας Αναστάσιος Λέκτορας ΑΠΘ Τριµελής εξεταστική επιτροπή. Λάσκαρης Νίκος Νικολαΐδης Νίκος Τέφας Αναστάσιος Επ. Καθηγητής ΑΠΘ Επ. Καθηγητής ΑΠΘ Λέκτορας ΑΠΘ Θεσσαλονίκη, Φεβρουάριος 2013

4 (Υπογραφή)... Ιωαννίδου Αναστασία Πτυχιούχος Τµήµατος Εφαρµοσµένης Πληροφορικής Πανεπιστηµίου Μακεδονίας c 2013 All rights reserved

5 Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Τµήµα Πληροφορικής Κατεύθυνση Ψηφιακών Μέσων Εργαστήριο Τεχνητής Νοηµοσύνης και Ανάλυσης Πληροφοριών Copyright c 2013 All rights reserved Ιωαννίδου Αναστασία. Με επιφύλαξη παντός δικαιώµατος. Απαγορεύεται η αντιγραφή, αποθήκευση και διανοµή της παρούσας εργασίας, εξ ολοκλήρου ή τµήµατος αυτής, για εµπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανοµή για σκοπό µη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής ϕύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το παρόν µήνυµα. Ερωτήµατα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς τον συγγραφέα.

6

7 Ευχαριστίες Θα ήθελα καταρχάς να ευχαριστήσω τον κ. Αναστάσιο Τέφα για την καθοδήγηση που µου παρείχε κατά την εκπόνηση αυτής της διπλωµατικής εργασίας. Επίσης, οφείλω ένα τεράστιο ευχαριστώ στην οικογένειά µου για τη στήριξη και την αγάπη τους, καθώς και στους ϕίλους µου για τη συµπαράσταση και την υποµονή τους. 1

8

9 Περίληψη Τα τελευταία χρόνια ολοένα και περισσότερες εικόνες γίνονται διαθέσιµες στους χρήστες όλου του κόσµου µέσω του διαδικτύου. Η ταξινόµηση µιας εικόνας που απεικονίζει ένα αντικείµενο ή ένα τοπίο σε µία κατηγορία είναι υπόθεση δευτερολέπτων για τον ανθρώπινο εγκέφαλο. εν συµβαίνει όµως το ίδιο και µε τον υπολογιστή, γι αυτό και η ταξινόµηση εικόνων αποτελεί ένα από τα ϐασικά πεδία έρευνας του κλάδου της µηχανικής µάθησης. Μέχρι σήµερα, πολλές µέθοδοι έχουν προταθεί για την αναπαράσταση και την ταξινόµηση εικόνων µε ϐάση το οπτικό τους περιεχόµενο. Τεχνικές που στηρίζονται στα τοπικά χαρακτηριστικά των εικόνων (χρώµα, σχήµα, υφή) έχουν ευρέως χρησιµοποιηθεί σε προβλήµατα ταξινόµησης αντικειµένων ή/και σκηνών µε αξιοσηµείωτη επιτυχία. Ερευνες έχουν δείξει πως ο συνδυασµός των τοπικών χαρακτηριστικών µε το µοντέλο του Σάκου των Χαρακτηριστικών (Bag of Features) οδηγεί σε σηµαντικά ϐελτιωµένη απόδοση ακόµη και σε δύσκολα προβλήµατα. ιάφοροι κατηγοριοποιητές έχουν προταθεί και χρησι- µοποιηθεί µε τις µηχανές διανυσµάτων υποστήριξης (Support Vector Machines) να ξεχωρίζουν, τόσο όσο προς την απόδοση αλλά και ως προς την απλότητα και την ταχύτητά τους. Στην παρούσα εργασία, γίνεται ανάλυση και µελέτη µερικών εκ των δηµοφιλέστερων ανιχνευτών (detectors) και περιγραφέων (descriptors) τοπικών χαρακτηριστικών. Στα πειράµατα που πραγµατοποιήθηκαν, µελετήθηκε η απόδοση της µεθόδου σάκος χαρακτηριστικών µε χρήση µηχανών διανυσµάτων υποστήριξης σε δύο απαιτητικά σετ αντικειµένων που αποτελούνται από εικόνες µίας ευρύτερης κατηγορίας µε πολλές υποκλάσεις. Αυτού του είδους τα προβλήµατα αυξάνουν τη δυσκολία της ταξινόµησης λόγω της µεγάλης οµοιότητας µεταξύ των κλάσεων, αλλά και της έντονης ποικιλοµορφίας των αντικειµένων που ανήκουν στην ίδια κλάση. 3

10 4 Περίληψη Λέξεις Κλειδιά Ταξινόµηση, Σάκος Χαρακτηριστικών, Τοπικά Χαρακτηριστικά, Μηχανές ιανυσ- µάτων Υποστήριξης

11 Abstract Over the years, more and more images become available to the users around the world via the internet. Classifying an image of an object or a scene into a category is an easy task for the human brain. However, this is not the case for a computer. Image classification is one of the most important research areas of machine learning. So far, several methods have been proposed for the representation and the classification of images based on their visual content. Techniques based on local features of images (color, shape, texture) have been widely used in classification problems of objects and/or scenes with remarkable success. Research has shown that the combination of local features with the Bag of Features model leads to significantly enhanced performance even on challenging datasets. Several classifiers have been proposed and used in the literature, but Support Vector Machines seem to distinguish not only for their performance, but also in terms of simplicity and speed. In this thesis, we study and analyze some of the most popular local features detectors and descriptors. In the experiments we conducted, we studied the performance of the bag of features model using support vector machines on two challenging sets of objects consisting of images of a specific category with many subclasses. Such problems increase the difficulty of classification due to the large similarity between the classes and the large variation of objects within a class. Keywords Classification, Bag of Features, Local Features, Support Vector Machines 5

12

13 Περιεχόµενα Ευχαριστίες 1 Περίληψη 3 Abstract 5 Περιεχόµενα 8 Κατάλογος Σχηµάτων 10 Κατάλογος Πινάκων 11 1 Εισαγωγή Ταξινόµηση εικόνων και παρόµοια προβλήµατα Οργάνωση εργασίας Εξαγωγή Χαρακτηριστικών (Feature Extraction) Χαρακτηριστικά χαµηλού επιπέδου (Low-level features) Χρώµα Υφή Σχήµα Τοπικά Χαρακτηριστικά (Local Features) Ανιχνευτές χαρακτηριστικών (Feature Detectors) Περιγραφείς Χαρακτηριστικών (Feature Descriptors) Ολικά Χαρακτηριστικά (Global Features) Gist

14 8 Περιεχόµενα 3 Το µοντέλο σάκος χαρακτηριστικών (Bag of features) Περιγραφή της µεθόδου Κατάτµηση εικόνων Σχηµατισµός του λεξικού Αναπαράσταση Χωρικής Πυραµίδας (Spatial Pyramid) Αλγόριθµοι Ταξινόµησης (Classifiers) Μηχανική µάθηση και αναγνώριση προτύπων Παραδείγµατα αλγορίθµων ταξινόµησης Ταξινοµητής k κοντινότερων γειτόνων (k-nn) Ταξινοµητής Naive Bayes ένδρα απόφασης (Decision Trees) Μηχανές ιανυσµάτων υποστήριξης (SVM) Μέθοδοι µέτρησης της απόδοσης των ταξινοµητών Πειραµατικά Αποτελέσµατα Οι ϐάσεις εικόνων που χρησιµοποιήθηκαν Προ-επεξεργασία και επιλογές παραµέτρων Πειράµατα µε τη ϐάση Butterfly οκιµή διαφορετικών ανιχνευτών µε τον περιγραφέα SIFT Πειράµατα µε τη ϐάση 102 Category Flower Dataset Αλλαγή των συνόλων εκπαίδευσης και ελέγχου Συµπεράσµατα 77 Βιβλιογραφία 80 Α Μεταφράσεις Ξένων όρων 87

15 Κατάλογος Σχηµάτων 2.1 Το χρωµατικό µοντέλο RGB Το χρωµατικό µοντέλο HSV ηµιουργία των διαφορών των γκαουσιανών (DoG). H DoG αποτελεί καλή προσέγγιση της λαπλασιανής της γκαουσιανής (LoG). (εικόνα από [6]) Παράδειγµα εφαρµογής του περιγραφέα MSER (εικόνα από [29]) Παράδειγµα εφαρµογής του περιγραφέα HOG (εικόνα από [29]) Παράδειγµα υπολογισµού του περιγραφέα LBP Οι κυκλικές γειτονιές (8,1), (16,2) και (24,3) που χρησιµοποιούνται από τον περιγραφέα LBP Υπολογισµός περιγραφέα SIFT Γραφική αναπαράσταση του µεγέθους των ϕίλτρων που χρησιµοποιούνται από τον περιγραφέα SURF για τρεις διαφορετικές οκτάβες. Οι οκτάβες αλληλοκαλύπτονται προκειµένου να καλυφθούν όλες οι κλίµακες χωρίς κενά. (εικόνα από [15]) Παράδειγµα εφαρµογής του περιγραφέα GIST (εικόνα από [18]) Η µέθοδος Bag-of-Features (εικόνα από [48]) Παράδειγµα κατάτµησης προκειµένου να αποµονωθεί το ϐασικό αντικείµενο της εικόνας Η αναπαράσταση χωρικής πυραµίδας Παράδειγµα γραµµικού διαχωρισµού δύο κλάσεων µε υπερεπίπεδα. Τα διανύσµατα υποστήριξης επισηµαίνονται µε γκρι ϕόντο (εικόνα από [44]) Προβολή των αρχικών δεδοµένων στο χώρο των χαρακτηριστικών µε χρήση συνάρτησης πυρήνα Φ

16 10 Κατάλογος Σχηµάτων 4.3 Γραµµικός διαχωρισµός στην περίπτωση των µη-διαχωρίσιµων δεδοµένων (εικόνα από [1]) είγµατα από τις 10 κατηγορίες πεταλούδων που χρησιµοποιήθηκαν στα πειράµατα Οι 102 κλάσεις λουλουδιών. Κάθε εικόνα αποτελεί δείγµα διαφορετικής κλάσης Εικόνες πεταλούδων της 2ης κατηγορίας (Heliconius charitonius) που ταξινοµήθηκαν λανθασµένα στην 3η (Heliconius erato) µε χρήση του περιγραφέα SIFT και το λεξικό των 2000 λέξεων Μήτρα σύγχυσης για τον περιγραφέα SIFT και λεξικό 2000 λέξεων όπως προέκυψε από το καλύτερο µοντέλο µε γραµµικό πυρήνα Μήτρα σύγχυσης για τον περιγραφέα HOG και λεξικό 500 λέξεων όπως προέκυψε από το καλύτερο µοντέλο µε γραµµικό πυρήνα Εικόνες πεταλούδων της 9ης κατηγορίας (Vanessa atalanta) που ταξινοµήθηκαν λανθασµένα στην 6η (Nymphalis antiopa) µε χρήση του περιγραφέα HOG και το λεξικό των 500 λέξεων Εικόνες πεταλούδων της 7ης κατηγορίας (Papilio cresphontes) που ταξινοµήθηκαν λανθασµένα στην 2η (Heliconius charitonius) µε χρήση του περιγραφέα HSV και το λεξικό των 200 λέξεων Μήτρα σύγχυσης για τον περιγραφέα HSV και λεξικό 200 λέξεων όπως προέκυψε από το καλύτερο µοντέλο µε γραµµικό πυρήνα Τα σηµεία-κλειδιά που εντοπίστηκαν σε µία εικόνα της ϐάσης Butterfly χρησι- µοποιώντας διαφορετικούς ανιχνευτές Εικόνες της κλάσης moon orchid που ταξινοµήθηκαν λανθασµένα στην κ- λάση sweet pea µε χρήση του περιγραφέα SIFT και λεξικό 8000 λέξεων... 73

17 Κατάλογος Πινάκων 4.1 Οι κυριότερες συναρτήσεις πυρήνα (kernel functions) Ποσοστά ταξινόµησης µε χρήση του περιγραφέα SIFT και λεξικό 1000, 2000 και 4000 λέξεων για τη ϐάση Butterfly Ποσοστά ταξινόµησης µε χρήση του περιγραφέα SURF και λεξικό 1000, 2000 και 4000 λέξεων για τη ϐάση Butterfly Ποσοστά ταξινόµησης µε χρήση του περιγραφέα LBP και λεξικό 500, 700 και 1000 λέξεων για τη ϐάση Butterfly Ποσοστά ταξινόµησης µε χρήση του περιγραφέα HOG και λεξικό 300, 500 και 1000 λέξεων για τη ϐάση Butterfly Ποσοστά ταξινόµησης µε χρήση του περιγραφέα HSV και λεξικό 100, 200 και 400 λέξεων για τη ϐάση Butterfly Ποσοστά ταξινόµησης µε χρήση του περιγραφέα SIFT και διαφορετικούς ανιχνευτές για τη ϐάση Butterfly Ποσοστά ταξινόµησης µε χρήση διαφορετικών περιγραφέων και λεξικών για τη ϐάση 102 Flower Category Dataset Ποσοστά ταξινόµησης µε χρήση διαφορετικών συνόλων εκπαίδευσης και ελέγχου για τη ϐάση 102 Flower Category Dataset

18

19 Κεφάλαιο 1 Εισαγωγή Η παρούσα εργασία πραγµατεύεται το πρόβληµα της κατηγοριοποίησης ενός συνόλου προτύπων µία µεγάλης γενικής κατηγορίας αντικειµένων (εικόνων) σε υποκατηγορίες αυτής κάνοντας χρήση των τοπικών χαρακτηριστικών των εικόνων και της µεθόδου Σάκος των Χαρακτηριστικών (Bag of Features) για την αναπαράστασή τους. Μέχρι σήµερα, έχουν προταθεί στη ϐιβλιογραφία πολλές τεχνικές κατηγο- ϱιοποίησης οι οποίες έχουν αποδώσει ικανοποιητικά σε διάφορες εφαρµογές, ω- στόσο όταν το πρόβληµα σχετίζεται µε µία ευρύτερη κατηγορία και τις υποκλάσεις της, η κατηγοριοποίηση δυσκολεύει ακόµη περισσότερο λόγω της µεγάλης οµοιότητας µεταξύ των κλάσεων. Στόχος µας ήταν να µελετήσουµε πόσο κατάλληλοι είναι µερικοί πολύ γνωστοί περιγραφείς τοπικών χαρακτηριστικών για το συγκεκριµένο πρόβληµα και κατά πόσο η µέθοδος του σάκου των χαρακτηριστικών που έχει γνωρίσει ευρείας αποδοχής από την επιστηµονική κοινότητα τα τελευταία χρόνια µπορεί να δώσει εξίσου ικανοποιητικά αποτελέσµατα και σε αυτού του είδους τα προβλήµατα. 1.1 Ταξινόµηση εικόνων και παρόµοια προβλήµατα Τα τελευταία χρόνια µέσω του διαδικτύου ολοένα και περισσότερες εικόνες γίνονται διαθέσιµες στους χρήστες όλου του κόσµου. Η ϱαγδαία ανάπτυξη της τεχνολογίας (ψηφιακές ϕωτογραφικές µηχανές, κινητά τηλέφωνα, σαρωτές εικόνων κτλ), κα- ϑώς και η πρόοδος που συντελείται στον τοµέα της αποθήκευσης των δεδοµένων έχουν οδηγήσει σε µία τεράστια αύξηση του διαθέσιµου πολυµεσικού υλικού τόσο στο διαδίκτυο όσο και στις προσωπικές συλλογές µεµονωµένων χρηστών [14, 28]. 13

20 14 Κεφάλαιο 1. Εισαγωγή Προκειµένου να οργανώσουµε αυτές τις ϐάσεις δεδοµένων και να επωφεληθούµε από αυτές, η ανάπτυξη προηγµένων και αποτελεσµατικών τεχνικών για την αναγνώριση, ευρετηρίαση και εξόρυξη της εν λόγω πληροφορίας γίνεται όλο και πιο επιτακτική. Η σηµασιολογική ανάλυση του περιεχοµένου µιας εικόνας εκτελείται αυτόµατα από τον ανθρώπινο εγκέφαλο, ωστόσο για τον ηλεκτρονικό υπολογιστή η διαδικασία αυτή αποτελεί µια µεγάλη πρόκληση. Η σωστή οργάνωση και ανάλυση των διαθέσιµων ϐάσεων οπτικού περιεχοµένου (εικόνες, ϐίντεο) έχει αποτελέσει το κέντρο της προσοχής πολλών ερευνητών και επιστηµόνων της πληροφορικής τα τελευταία χρόνια. Πολλές µέθοδοι έχουν προταθεί και αρκετά συστήµατα έχουν ήδη αναπτυχθεί µε στόχο να παρέχουν στους χρήστες λύσεις σε προβλήµατα όπως η οπτική αναγνώριση (visual recognition) και η ανάκτηση (retrieval). Υποκατηγορίες προβληµάτων που έ- χουν δηµιουργηθεί και µελετηθεί είναι η ανίχνευση αντικειµένων (object detection), η ταξινόµηση (classification), η κατηγοριοποίηση αντικειµένων (scene categorization) και η κατηγοριοποίηση σκηνών (scene categorization). Αρχικά, οι επιστήµονες προσέγγισαν αυτού του είδους τα προβλήµατα χρησιµοποιώντας κείµενο (text-based methods). Κάθε εικόνα συνδεόταν µε συγκεκριµένες - ενδεικτικές του περιεχοµένου της - ετικέτες κειµένου και η ταξινόµηση των εικόνων µιας ϐάσης αλλά και η ανάκτηση τους από αυτή στηριζόταν αποκλειστικά σε αυτές τις ετικέτες. Η ανακρίβεια ωστόσο του σχολιασµού των εικόνων που οφείλεται κυρίως στην υποκειµενικότητα της ανθρώπινης αντίληψης αποτελεί ένα σηµαντικότατο µειονέκτηµα των µεθόδων αυτών, καθώς µία εικόνα µπορεί να λάβει δεκάδες διαφορετικούς χαρακτηρισµούς από διαφορετικούς χρήστες κατατάσσοντάς την σε διαφορετικές κατηγορίες [14, 26]. Επιπλέον, η διαδικασία του σχολιασµού κάθε εικόνας µιας ϐάσης δεδοµένων είναι συχνά επίπονη και χρονοβόρα. Τα µειονεκτήµατα αυτά οδήγησαν σε µία άλλη προσέγγιση σύµφωνα µε την οποία κάθε εικόνα καθορίζεται αποκλειστικά και µόνο από το πραγµατικό περιεχόµενό της (content-based methods). Αρχικά, χρησιµοποιούνται µέθοδοι για την εξαγωγή διανυσµάτων χαρακτηριστικών που αντιπροσωπεύουν ιδιότητες της κάθε εικόνας της ϐάσης, όπως π.χ. το χρώµα, η υφή και το σχήµα. Στη συνέχεια, αυτά τα διανύσµατα χαρακτηριστικών χρησιµοποιούνται για την κατασκευή µοντέλων ταξινόµησης ή για την ανάκτηση όµοιων εικόνων. Ακόµα και στα συστήµατα που ϐασίζονται στο περιεχόµενο ωστόσο, υπάρχουν Ϲητήµατα που χρήζουν ιδιαίτερης προσοχής. Για παράδειγµα, οι άνθρωποι συνήθως

21 1.2 Οργάνωση εργασίας 15 χρησιµοποιούν στην καθηµερινή τους Ϲωή έννοιες υψηλού επιπέδου, ωστόσο οι τεχνικές ανάλυσης εικόνων εξάγουν από αυτές χαρακτηριστικά χαµηλού επιπέδου [26]. Αυτό το πρόβληµα ονοµάζεται σηµασιολογικό χάσµα (semantic gap) [26] και ουσιαστικά, αναφέρεται στο γεγονός πως οι έννοιες και τα συναισθήµατα µε τα οποία ϑα περιγράψει ένας άνθρωπος µία εικόνα σε µία δεδοµένη χρονική στιγµή ενδεχοµένως να µην εξαρτώνται από τα αντικείµενα, το χρώµα και την υφή της. Η ερµηνεία που µπορεί να δώσει ένας άνθρωπος σε κάποια δεδοµένα µπορεί να διαφέρει ϱιζικά από την ερµηνεία κάποιου άλλου [19]. Οι τεχνικές αναγνώρισης, ανάκτησης και ταξινόµησης οπτικού περιεχοµένου ϐρίσκουν σήµερα εφαρµογή σε πολλά πεδία, π.χ. σε εφαρµογές αναζήτησης εικόνας ή/και ϐίντεο, σε ιατρικές εφαρµογές, στη διαφήµιση, στην τηλεόραση, στην εγκλη- µατολογία, σε συστήµατα παρακολούθησης κ.ά. 1.2 Οργάνωση εργασίας Η εργασία οργανώθηκε ως εξής : Στο Κεφάλαιο 2 γίνεται µια αναλυτική παρουσίαση των σηµαντικότερων ανιχνευτών (detectors) και περιγραφέων (descriptors) τοπικών χαρακτηριστικών που χρησιµοποιούνται στην ανάλυση και αναπαράσταση εικόνων, ενώ στο Κεφάλαιο 3 παρουσιάζεται η µέθοδος Σάκος των Χαρακτηριστικών µε λεπτοµέρειες για τις παραµέτρους που την καθορίζουν. Στο Κεφάλαιο 4 γίνεται αναφορά σε σηµαντικούς ταξινοµητές που χρησιµοποιούνται ευρέως στη ϐιβλιογραφία καθώς και στις µεθόδους µέτρησης της απόδοσής τους. Στο Κεφάλαιο 5 δίνονται πειραµατικά αποτελέσµατα των µεθόδων που µελετήσαµε από δύο διαφορετικές ϐάσεις δεδοµένων και τέλος, στο Κεφάλαιο 6 παρατίθενται τα τελικά συµπεράσµατα της εργασίας.

22

23 Κεφάλαιο 2 Εξαγωγή Χαρακτηριστικών (Feature Extraction) Ολα τα συστήµατα ταξινόµησης αντικειµένων/εικόνων καθώς και τα συστήµατα ανάκτησης µε ϐάση το περιεχόµενο απαιτούν µια κατάλληλη αναπαράσταση των εικόνων εισόδου. Η αναπαράσταση αυτή συνήθως γίνεται µε διανύσµατα χαρακτηριστικών (feature vectors). Η εξαγωγή χαρακτηριστικών (feature extraction) είναι η διαδικασία καθορισµού σηµείων ή περιοχών σε κάθε εικόνα τα οποία µέσω κατάλληλων περιγραφέων ϑα µπορέσουν να αναπαραστήσουν αποτελεσµατικά την σηµαντική πληροφορία κάθε εικόνας που ϑα ϐοηθήσει την ανάλυση και την ταξινόµησή της. Γενικά, τα χαρακτηριστικά αυτά χωρίζονται σε χαµηλού (low-level features) και υψηλού επιπέδου (high-level features). Τα χαρακτηριστικά χαµηλού επιπέδου εξάγονται κατευθείαν από τις διαθέσιµες εικόνες και περιγράφουν ως επί το πλείστον το χρώµα, το σχήµα και την υφή τους. εν περιλαµβάνουν πληροφορία σχετικά µε το σηµασιολογικό περιεχόµενο µιας εικόνας, όµως είναι πολύ εύκολο να υπολογιστούν. Τα χαρακτηριστικά υψηλού επιπέδου ϐασίζονται στα χαρακτηριστικά χαµηλού επιπέδου και περιλαµβάνουν ενισχυτικά σηµασιολογική πληροφορία (π.χ. λέξεις-κλειδιά, γεγονότα). Χαρακτηριστικά µπορούν να εξαχθούν από το σύνολο µιας εικόνας ή από συγκεκριµένα µόνο σηµεία ή περιοχές της εικόνας [34]. Στην πρώτη περίπτωση ανήκουν τα λεγόµενα ολικά χαρακτηριστικά (global features), ενώ στη δεύτερη τα τοπικά χαρακτηριστικά (local features). Στη συνέχεια του κεφαλαίου αναλύουµε περισ- 17

24 18 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) σότερο τις προαναφερθείσες κατηγορίες χαρακτηριστικών και περιγράφουµε αναλυτικά σηµαντικούς ανιχνευτές (detectors) και περιγραφείς (descriptors) που χρησι- µοποιούνται ευρέως σε εφαρµογές ανάλυσης, ταξινόµησης και ανάκτησης εικόνων. 2.1 Χαρακτηριστικά χαµηλού επιπέδου (Low-level features) Χρώµα Το χρώµα είναι µία σηµαντική διάσταση της ανθρώπινης οπτικής αντίληψης που επιτρέπει το διαχωρισµό και την αναγνώριση της οπτικής πληροφορίας [34]. Το χαρακτηριστικό του χρώµατος είναι ένα από τα πιο απλά και πιο ευρέως χρησι- µοποιούµενα χαρακτηριστικά. Τα χρώµατα µιας εικόνας καθορίζονται σε έναν επιλεγµένο χρωµατικό χώρο [9]. Ενας χρωµατικός χώρος είναι µία µαθηµατική αναπαράσταση ενός συνόλου χρωµάτων. Υπάρχει µια αρκετά µεγάλη ποικιλία χρω- µατικών χώρων η οποία εξυπηρετεί ένα µεγάλο αριθµό εφαρµογών. Οι πιο συχνά χρησιµοποιούµενοι χρωµατικοί χώροι είναι ο RGB (Red,Green,Blue), o HSV (Hue, Saturation, Value) και ο YCbCr (Luminance and chrominance). Το RGB µοντέλο είναι αυτό που χρησιµοποιείται στα γραφικά υπολογιστών. Αποτελείται από τρεις συνιστώσες, την κόκκινη, την πράσινη και την µπλε που ουσιαστικά είναι τα ϐασικά χρώµατα. Ενα χρώµα προκύπτει από τη µίξη αυτών των 3 χρωµάτων [9]. Σχήµα 2.1: Το χρωµατικό µοντέλο RGB

25 2.1 Χαρακτηριστικά χαµηλού επιπέδου (Low-level features) 19 Το HSV µοντέλο έχει τρεις συνιστώσες : τον χρωµατικό τόνο (hue), τη χρωµατική καθαρότητα (saturation) και την τιµή (ή λάµψη, value). Ο χρωµατικός τόνος είναι µία γωνία από 0 έως 360 µοίρες (συνήθως οι 0 µοίρες είναι το κόκκινο, οι 60 µοίρες το κίτρινο, οι 120 µοίρες το πράσινο, οι 180 µοίρες το κυανό, οι 240 µοίρες το µπλε και οι 300 µοίρες το ϐαθύ κόκκινο(magenta)) [9]. Η χρωµατική καθαρότητα τυπικά κυµαίνεται από 0 έως 1 και καθορίζει πόσο γκρίζο είναι το χρώµα (το 0 δείχνει γκρι και το 1 είναι το καθαρό ϐασικό χρώµα). Η τιµή (value) είναι παρόµοια µε τη ϕωτεινότητα. Ο χρωµατικός τόνος είναι αµετάβλητος στη ϕωτεινότητα και την κατεύθυνση της κάµερας [10]. Η µετάβαση από το RGB µοντέλο στο HSV γίνεται σύµφωνα µε τους παρακάτω τύπους : { 1 H = cos 1 [(R G) + (R B)] 2 (2.1) (R G)2 + (R B)(G B) S = 1 3[min(R, G, B)] V (2.2) V = 1 (R + G + B) (2.3) 3 Σχήµα 2.2: Το χρωµατικό µοντέλο HSV Το µοντέλο YCbCr αναπαριστά χρώµατα χρησιµοποιώντας µία συνιστώσα ϕωτεινότητας (luma, Y) και 2 συνιστώσες χρώµατος (chroma, Cb kai Cr). Το συγκεκριµένο µοντέλο εκµεταλλεύεται τις ιδιότητες του ανθρώπινου µατιού το οποίο είναι πιο ευαίσθητο σε αλλαγές της ϕωτεινότητας παρά σε αλλαγές χρωµατικών τόνων. Επίσης,

26 20 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) το YCbCr χρησιµοποιείται στα διεθνή πρότυπα κωδικοποίησης JPEG και MPEG [9]. Στο MPEG-7 o YCbCr χρωµατικός χώρος σχηµατίζεται από το RGB µοντέλο ως εξής [9]: Y = 0.299R G B (2.4) C b = 0.169R 0.331G B (2.5) C r = 0.500R 0.419G 0.081B (2.6) Για να αναπαραστήσουµε χαρακτηριστικά χρώµατος έχουν προταθεί και χρησι- µοποιηθεί διάφορες τεχνικές. Οι σηµαντικότερες από αυτές είναι το ιστόγραµµα (color histogram), οι χρωµατικές ϱοπές (color moments) και το χρωµατικό ιστόγραµµα συσχετίσεων (color correlogram) [14, 28, 9, 10]. Το ιστόγραµµα χρώµατος περιγράφει την κατανοµή του χρώµατος στην εικόνα και είναι το πιο συχνά χρησιµοποιούµενο χαρακτηριστικό χρώµατος στα συστήµατα ανάκτησης και ταξινόµησης εικόνων. Κατασκευάζεται µετρώντας τον αριθµό των εικονοστοιχείων κάθε χρώµατος. Είναι εύκολο να υπολογιστεί και είναι αµετάβλητο στην περιστροφή, στο µετασχηµατισµό συντεταγµένων και στην αλλαγή κλίµακας [9, 10]. Ωστόσο, το ιστόγραµµα χρώµατος δεν περιέχει σηµασιολογική πληροφορία, εποµένως δύο εικόνες µε παρόµοια ιστογράµµατα µπορεί να έχουν εντελώς διαφορετικό περιεχόµενο [9]. Το ιστόγραµµα χρώµατος για µία εικόνα ορίζεται ως ένα διάνυσµα H = {h[1], h[2],..., h[i],..., h[n]} όπου το i αντιπροσωπεύει ένα χρώµα στο ιστόγραµµα, το h[i] είναι ο αριθµός των εικονοστοιχείων µε χρώµα i στην εικόνα και το Ν είναι ο αριθµός των bins στο ιστόγραµµα, δηλαδή ο αριθµός των χρωµάτων. Για να συγκρίνουµε δύο εικόνες διαφορετικού µεγέθους, ϑα πρέπει να κανονικοποιήσουµε τα ιστογράµµατά τους [9]. Το κανονικοποιηµένο ιστόγραµµα προκύπτει αν διαιρέσουµε τον αριθµό των εικονοστοιχείων κάθε χρώµατος µε το συνολικό αριθµό εικονοστοιχείων της εικόνας. Οι χρωµατικές ϱοπές είναι ουσιαστικά ο µέσος (mean), η διακύµανση (variance) και η τυπική απόκλιση (standard deviation) της εικόνας. Για µία εικόνα µεγέθους

27 2.1 Χαρακτηριστικά χαµηλού επιπέδου (Low-level features) 21 n m οι χρωµατικές ϱοπές υπολογίζονται ως εξής : mean = n m x ij /mn (2.7) i=1 j=1 variance = 1 nm n i=1 m (x ij mean) 2 (2.8) j=1 std d ev = variance (2.9) όπου x ij είναι η τιµή του εικονοστοιχείου που ϐρίκεται στη γραµµή i και τη στήλη j. Το χρωµατικό ιστόγραµµα συσχετίσεων εκφράζει το πώς αλλάζει η χωρική συσχέτιση Ϲευγαριών χρωµάτων µε την απόσταση. Τυπικά, ένα ιστόγραµµα συσχετίσεων για µία εικόνα είναι ένας πίνακας από Ϲευγάρια χρωµάτων όπου το κάθε στοιχείο (i, j) καθορίζει την πιθανότητα να ϐρεθεί ένα εικονοστοιχείο χρώµατος j σε απόσταση d από ένα εικονοστοιχείο χρώµατος i σε αυτήν την εικόνα. Η απόσταση d αποτελεί στοιχείο ενός προκαθορισµένου συνόλου αποστάσεων. Ο τελικός πίνακας του ιστογράµµατος συσχετίσεων είναι διαστάσεων C C d, όπου C είναι το σύνολο των χρωµάτων στην εικόνα. Επειδή συνήθως οι τοπικές συσχετίσεις είναι πιο σηµαντικές από τις πιο µακρινές, µία µικρή τιµή για το d είναι αρκετή για να περιγραφεί καλά η χωρική συσχέτιση των χρωµάτων Υφή Η υφή είναι ακόµη µία σηµαντική ιδιότητα των εικόνων. Ενώ το χρώµα αποτελεί χαρακτηριστικό ενός µονάχα εικονοστοιχείου, η υφή αποτελεί χαρακτηριστικό µιας ολόκληρης γειτονιάς από εικονοστοιχεία. Πολλές αναπαραστάσεις υφής έχουν ερευνηθεί στην αναγνώριση προτύπων και την τεχνητή όραση. Σε γενικές γραµ- µές, οι µέθοδοι αναπαράστασης υφής µπορούν να χωριστούν σε δύο κατηγορίες : τις δοµικές (structural) και τις στατιστικές (statistical) [9]. Οι δοµικές µέθοδοι (π.χ. γράφοι γειτνίασης) περιγράφουν την υφή αναγνωρίζοντας δοµικά ϑεµελιακά στοιχεία και τους κανόνες τοποθέτησής τους. Αυτές οι µέθοδοι είναι συνήθως πιο αποτελεσ- µατικές όταν εφαρµόζονται σε υφές που επαναλαµβάνονται τακτικά. Οι στατιστικές µέθοδοι, όπως π.χ. το ϕάσµα ισχός Fourier, τα χαρακτηριστικά Tamura και οι τεχνικές ϕιλτραρίσµατος πολλαπλής ανάλυσης (π.χ. ο µετασχηµατισµός Gabor και ο

28 22 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) µετασχηµατισµός κυµατιδίων), χαρακτηρίζουν την υφή από τη στατιστική κατανοµή της έντασης της εικόνας Σχήµα Στην αναγνώριση προτύπων, το σχήµα είναι ένα σηµαντικό χαρακτηριστικό κυρίως στην αναγνώριση αντικειµένων. Οι περιγραφείς σχήµατος χωρίζονται σε δύο κατηγορίες : σε αυτούς που ϐασίζονται σε περιγράµµατα (contour-based) και σε αυτούς που ϐασίζονται σε περιοχές (region-based) [9]. Ο διαχωρισµός σχετίζεται µε το αν τα χαρακτηριστικά σχήµατος εξάγονται µόνο από το περίγραµµα του αντικειµένου ή από ολόκληρη την περιοχή που καταλαµβάνει το αντικείµενο. Μερικοί περιγραφείς σχήµατος είναι : η αιχµηρότητα (sharpness), η κυκλικότητα (circularity) και η αναλογία (aspect ratio). 2.2 Τοπικά Χαρακτηριστικά (Local Features) Τα τοπικά χαρακτηριστικά (local features) ή σηµεία-κλειδιά (keypoints) ή σηµεία/περιοχές ενδιαφέροντος (interest points/ regions) είναι σηµεία, περιοχές ή κηλίδες (blobs) που εντοπίζονται σε εικόνες χρησιµοποιώντας έναν ανιχνευτή τοπικών χαρακτηριστικών (local feature detector). Τα εξαγόµενα αυτά χαρακτηριστικά που επιλέγονται ϕέρουν πλούσιο οπτικό περιεχόµενο και εφόσον εντοπιστούν σε µία εικόνα δίνονται στη συνέχεια σε κάποιον περιγραφέα τοπικών χαρακτηριστικών (local feature descriptor) προκειµένου να προκύψει η τελική διανυσµατική αναπαράσταση της κάθε εικόνας. Ιδανικά, κάθε περιοχή ενδιαφέροντος που εντοπίζεται ϑα πρέπει να µπορεί να εντοπιστεί και σε παραλλαγές της εικόνας που προέκυψαν από διάφορους µετασχηµατισµούς όπως περιστροφή, κλιµάκωση, αφινική παραµόρφωση κ.ά. Σύµφωνα µε τους Tuytelaars και Mikolajczyk [37] ένα ιδανικό τοπικό χαρακτηριστικό έχει τις εξής ιδιότητες : Επαναληψιµότητα (Repeatability): όταν µερικά χαρακτηριστικά εξάγονται από δύο εικόνες του ίδιου αντικειµένου ή της ίδιας σκηνής που έχουν ληφθεί υπό διαφορετικές συνθήκες, ένα υψηλό ποσοστό των ίδιων χαρακτηριστικών πρέπει να µπορούν να εντοπιστούν και στις 2 εικόνες.

29 2.2 Τοπικά Χαρακτηριστικά (Local Features) 23 Χαρακτηριστικότητα (Distinctiveness): οι περιοχές που εντοπίζονται ϑα πρέπει να επιδεικνύουν έντονη ποικιλοµορφία, ώστε να αποφεύγονται σηµεία που δεν µεταφέρουν σηµαντική πληροφορία. Τοπικότητα (Locality): Τα χαρακτηριστικά ϑα πρέπει να είναι αρκετά τοπικά ώστε να µπορούν να εντοπιστούν σε δύο εικόνες µιας σκηνής που έχουν τραβηχτεί από διαφορετική οπτική γωνία. Ποσότητα (Quantity): Ο αρκετά µεγάλος αριθµός χαρακτηριστικών συνήθως είναι ωφέλιµος. Ιδανικά ένας ανιχνευτής έχει επίσης ένα κατώφλι που καθιστά ικανό τον εντοπισµό περισσότερων ή λιγότερων χαρακτηριστικών ανάλογα µε την εφαρµογή. Ακρίβεια (Accuracy): Η ϑέση των χαρακτηριστικών που έχουν εντοπιστεί ϑα πρέπει να τοποθετείται µε ακρίβεια στις συντεταγµένες της εικόνας. Το ίδιο ισχύει επίσης για την κλίµακα και την προσαρµογή σχήµατος. Αποτελεσµατικότητα (Efficiency): καλύτερο. Οσο πιο γρήγορος υπολογισµός τόσο το Τα τοπικά χαρακτηριστικά αποτελούν ένα πολύ ισχυρό εργαλείο και χρησιµοποιούνται σε πολλές εφαρµογές τεχνητής όρασης, όπως η κατηγοριοποίηση αντικειµένων, η ανάκτηση εικόνων µε ϐάση το περιεχόµενο και η αναγνώριση αντικειµένων Ανιχνευτές χαρακτηριστικών (Feature Detectors) Η επιλογή κατάλληλων περιοχών των εικόνων από τις οποίες ϑα γίνει η εξαγωγή των διανυσµάτων που ϑα τις αναπαραστήσουν είναι εξαιρετικά σηµαντική για τη διαδικασία της κατηγοριοποίησης. Ενας καλός ανιχνευτής τέτοιων περιοχών ϑα πρέπει να εντοπίζει σηµεία που µπορούν να εντοπιστούν επαναληπτικά ακόµη κι αν η εικόνα τροποποιηθεί ή αν καταγραφεί υπό άλλες συνθήκες, π.χ. από διαφορετική οπτική γωνία (viewpoint), από διαφορετική απόσταση (zoom), ή υπό διαφορετικές συνθήκες ϕωτισµού. Ακολουθεί περιγραφή µερικών εκ των σηµαντικότερων ανιχνευτών χαρακτηριστικών :

30 24 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) Hessian Detector Ο ανιχνευτής Hessian [8] ϐασίζεται στη µήτρα των µερικών παραγώγων 2ης τάξης της συνάρτησης ϕωτεινότητας της εικόνας I(x), τη λεγόµενη Εσσιανή µήτρα H(x, σ): [ ] Ixx (x, σ) I xy (x, σ) H(x, σ) = (2.10) I xy (x, σ) I yy (x, σ) Ο ανιχνευτής υπολογίζει τις µερικές παραγώγους 2ης τάξης I xx, I xy, I yy για κάθε σηµείο της εικόνας (για την αποφυγή της ευαισθησίας στο ϑόρυβο οι παράγωγοι συνδυάζονται µε γκαουσιανά ϕίλτρα εξοµάλυνσης) και έπειτα, ψάχνει για σηµεία όπου η ορίζουσα της Εσσιανής γίνεται µέγιστη : det(h) = I xx I yy Ixy 2 (2.11) Για τον εντοπισµό των σηµείων αυτών συνήθως ακολουθείται η εξής διαδικασία : Υπολογίζεται µία εικόνα που περιέχει τις τιµές της ορίζουσας της Εσσιανής µήτρας για κάθε σηµείο και έπειτα ένα παράθυρο 3 3 εφαρµόζεται σε όλη την εικόνα διατηρώντας µόνο τα εικονοστοιχεία η τιµή των οποίων είναι µεγαλύτερη από τις τιµές και των 8 άµεσα γειτονικών εικονοστοιχείων που ϐρίσκονται εντός του παραθύρου. Ο ανιχνευτής στη συνέχεια επιστρέφει όλα τα σηµεία η τιµή των οποίων είναι πάνω από ένα προκαθορισµένο όριο θ. Τα σηµεία που τελικά επιστρέφει ο ανιχνευτής εντοπίζονται κυρίως σε γωνίες και περιοχές έντονης υφής. Harris Detector Τα χαρακτηριστικά που εντοπίζει ο ανιχνευτής Harris [32, 39] συνήθως ανήκουν σε γωνίες ή παρόµοιες δοµές. Ο ανιχνευτής κάνει την υπόθεση ότι σε µία γωνία η ϕωτεινότητα µιας εικόνας ϑα αλλάζει τόσο ως προς την οριζόντια κατεύθυνση όσο και ως προς την κατακόρυφη κατεύθυνση. Ο ανιχνευτής ϐασίζεται στον πίνακα ϱοπών 2ης τάξης C (πίνακας αυτοσυσχέτισης) ο οποίος περιγράφει την αλλαγή ϕωτεινότητας σε µία τοπική γειτονιά ενός σηµείου x = (x, y): [ ] I 2 C = g(σ) x (x) I x I y (x) (2.12) I x I y (x) Iy(x) 2 όπου : I x (x) = I(x) (2.13) x

31 2.2 Τοπικά Χαρακτηριστικά (Local Features) 25 I y (x) = I(x) (2.14) y g(σ) = 1 x 2 +y 2 2πσ 2 e 2σ 2 (2.15) Αρχικά, υπολογίζονται οι παράγωγοι I x (x) και I y (x) στις κατευθύνσεις x και y αντίστοιχα. Επειτα, υπολογίζονται τα I 2 x, I 2 y και I xi y και τελικά οι παράγωγοι εξοµαλύνονται χρησιµοποιώντας γκαουσιανό παράθυρο µεγέθους σ. Οι γωνίες µπορούν να εντοπιστούν σε µία εικόνα εκεί όπου η αλλαγή της ϕωτεινότητας είναι σηµαντική και στις δύο κατευθύνσεις, δηλαδή στα σηµεία όπου και οι δύο ιδιοτιµές είναι µεγάλες. Ο Harris πρότεινε ένα µέτρο-ένδειξη ύπαρξης γωνίας R το οποίο περιγράφει το κατά πόσο η τοπική γειτονιά ενός εικονοστοιχείου ανήκει σε γωνία. Το R υπολογίζεται χρησιµοποιώντας το ίχνος και την ορίζουσα του πίνακα C: trace(c) = λ 1 + λ 2 = I 2 x(x) + I 2 y(x) (2.16) det(c) = λ 1 λ 2 = I 2 x(x)i 2 y(x) I x I y (x) 2 (2.17) Το R µπορεί να υπολογιστεί εποµένως χωρίς τον άµεσο υπολογισµό των ιδιοτιµών λ 1, λ 2 καθώς : R = det(c) αtrace 2 (C) = I 2 x(x)i 2 y(x) (I x I y (x)) 2 α(i 2 x(x) + I 2 y(x)) 2 (2.18) Η σταθερά α χρησιµοποιείται για να ισορροπήσουν οι όροι στην εξίσωση, ενώ µια συνηθισµένη της τιµή είναι το 0.04 [37]. Φυσικά, εντοπισµός γωνίας προκύπτει αν R > 0. Ο ανιχνευτής Harris εντοπίζει µε µεγαλύτερη ακρίβεια σηµεία-κλειδιά σε µία εικόνα (σε σχέση µε τον ανιχνευτή Hessian). Ανιχνευτές αµετάβλητοι σε αλλαγές της κλίµακας Οι περιοχές που εντοπίζονται από τους ανιχνευτές Harris και Hessian είναι αν- ϑεκτικές σε περιστροφές της εικόνας, σε αλλαγές του ϕωτισµού και στο ϑόρυβο, αλλά αντιµετωπίζουν προβλήµατα στις αλλαγές της κλίµακας. Ο λόγος που συµβαίνει αυτό είναι ότι και οι δύο ανιχνευτές στηρίζονται σε γκαουσιανές παραγώγους υπολογισ- µένες σε συγκεκριµένη ϐάση κλίµακας σ. Στη συνέχεια, παρουσιάζονται ανιχνευτές που είναι ανθεκτικοί και σε αλλαγές της κλίµακας.

32 26 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) Laplacian of Gaussian (LoG) Ο Lindeberg [4] πρότεινε στο τέλος της δεκαετίας του 90 έναν ανιχνευτή που ψάχνει για ακρότατα µιας κανονικοποιηµένης (ως προς την κλίµακα) λαπλασιανής της γκαουσιανής (Laplacian-of-Gaussian, LoG) στο χώρο της κλίµακας : L(x, σ) = σ 2 (I xx (x, σ) + I yy (x, σ)) (2.19) Με την αναζήτηση για ακρότατα της LoG στο χώρο της κλίµακας, µπορούµε να ανιχνεύσουµε περιοχές οµοιόµορφης ϕωτεινότητας που περιβάλλονται από περιοχές σηµαντικά διαφορετικής ϕωτεινότητας (κηλίδες, blobs). Difference of Gaussians (DoG) O Lowe [6] πρότεινε το 2004 τη µέθοδο ιαφορά των Γκαουσιανών (DoG) η οποία αποτελεί µέχρι και σήµερα µία από τις πιο δηµοφιλείς µεθόδους ανίχνευσης χαρακτηριστικών. Η πρώτη ϕάση της µεθόδου περιλαµβάνει τη δηµιουργία µιας πυραµίδας εικόνων ϕιλτραρισµένων µε γκαουσιανές διαφορετικών διακυµάνσεων προκειµένου να κατασκευαστεί ο χώρος της κλίµακας. Η πυραµίδα αποτελείται από οκτάβες οι οποίες είναι εικόνες που προέκυψαν µε υποδειγµατοληψία µε ϐάση το 2. Μία οκτάβα αποτελείται από το αποτέλεσµα της συνέλιξης των εικόνων µε γκαουσιανά ϕίλτρα αυξανόµενης διακύµανσης. Στη συνέχεια, υπολογίζεται η διαφορά κά- ϑε Ϲεύγους εικόνων διαδοχικών διακυµάνσεων σε κάθε κλίµακα µε αποτέλεσµα να δηµιουργηθεί ένας νέος χώρος κλίµακας στον οποίο αναζητούνται τα τοπικά µέγιστα. D(x, σ) = (G(x, κσ) G(x, σ)) I(x) (2.20) Κάθε εικονοστοιχείο σε κάθε επίπεδο της διαφοράς των γκαουσιανών συγκρίνεται µε τα 8 γειτονικά του εικονοστοιχεία καθώς και µε τα αντίστοιχα 9 εικονοστοιχεία του χαµηλότερου και του υψηλότερου επιπέδου. Αν το εικονοστοιχείο έχει υψηλότερη τιµή από οποιοδήποτε από τα γειτονικά του επιλέγεται σαν τοπικό µέγιστο και εντοπίζεται η ϐέλτιστη περιοχή γύρω από αυτό. Η µέθοδος εντοπίζει κηλίδες (blobs) αλλά και ακµές. Harris-Laplacian Detector Ο ανιχνευτής Harris-Laplacian αποτελεί µία επέκταση του ανιχνευτή Harris. Η µέθοδος αρχικά κατασκευάζει δύο ξεχωριστούς χώρους κλίµακας για τον ανιχνευτή

33 2.2 Τοπικά Χαρακτηριστικά (Local Features) 27 Σχήµα 2.3: ηµιουργία των διαφορών των γκαουσιανών (DoG). H DoG αποτελεί καλή προσέγγιση της λαπλασιανής της γκαουσιανής (LoG). (εικόνα από [6]) Harris και τον Laplacian. Επειτα, χρησιµοποιεί τη µέθοδο Harris για να εντοπίσει υποψήφια σηµεία σε κάθε επίπεδο κλίµακας και επιλέγει εκείνα τα σηµεία που αποτελούν µέγιστα και στο χώρο των λαπλασιανών. Τα σηµεία που προκύπτουν είναι ανθεκτικά σε αλλαγές στην κλίµακα, στην περιστροφή, σε αλλαγές ϕωτισµού και στο ϑόρυβο. Ωστόσο, ο ανιχνευτής Harris-Laplace συνήθως επιστρέφει έναν πολύ µικρότερο αριθµό σηµείων σε σύγκριση µε τον LoG ή τον DoG ανιχνευτή. Παρόµοια µέθοδος έχει προταθεί και για τον ανιχνευτή Hessian (Hessian-Laplace). Ανιχνευτές αµετάβλητοι σε affine µετασχηµατισµούς Πολλές ϕορές είναι απαραίτητο οι περιοχές που εντοπίζουµε να είναι αµετάβλητες και σε µεγάλες αλλαγές της οπτικής γωνίας καταγραφής της εκάστοτε σκηνής ή του αντικειµένου που αναπαριστάται σε µία εικόνα. Για το λόγο αυτό, σε αυτές τις περιπτώσεις επιλέγονται περιοχές που είναι αµετάβλητες σε αφινικούς µετασχη- µατισµούς (affine transformations). Ενώ οι περιοχές που εντοπίζονται από τους ανιχνευτές των προηγούµενων ενοτήτων περιγράφονται από κύκλους, οι ανιχευτές που είναι αµετάβλητοι σε αφινικούς µετασχηµατισµούς µετατρέπουν τους κύκλους αυτούς σε ελλείψεις.

34 28 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) Harris-Affine Detector Ο ανιχνευτής Harris-Laplacian µπορεί να επεκταθεί ώστε να µένει αµετάβλητος και σε αφινικούς µετασχηµατισµούς. Αρχικά, εντοπίζονται οι κυκλικές περιοχές που επιστρέφει ο ανιχνευτής Harris-Laplacian, σχηµατίζεται ο πίνακας δεύτερων ϱοπών κάθε περιοχής και υπολογίζονται οι ιδιοτιµές του. Ετσι, δηµιουργείται ένα σχήµα έλλειψης που ανταποκρίνεται σε µία τοπική αφινική παραµόρφωση. Επειτα, η περιοχή αυτή της εικόνας µετασχηµατίζεται ώστε η έλλειψη να µετατραπεί σε κύκλο και υπολογίζεται η νέα ϑέση και κλίµακα στη µετασχηµατισµένη εικόνα. Η διαδικασία επαναλαµβάνεται µέχρι οι ιδιοτιµές να γίνουν περίπου ίσες. Αντίστοιχη επέκταση έχει προταθεί και για τον ανιχνευτή Hessian-Laplace (Hessian Affine). Maximally Stable Extrema Regions (MSER) Ο ανιχνευτής περιοχών ακρότατων µέγιστης σταθερότητας (Maximally Stable Extrema Regions) προτάθηκε το 2004 από τους Matas et. al. [21]. Οι περιοχές M- SERs είναι συνδεδεµένες περιοχές που χαρακτηρίζονται από σχεδόν οµοιόµορφη ένταση της ϕωτεινότητας και περιβάλλονται από αντίθετο ϕόντο. Ολα τα εικονοστοιχεία µέσα σε µία MSER περιοχή έχουν τιµές είτε µεγαλύτερες είτε µικρότερες από όλα τα εικονοστοιχεία που ϐρίσκονται στο εξωτερικό όριο της περιοχής. Τα MSERs κατασκευάζονται µέσα από µία διαδικασία συνεχόµενων κατωφλιώσεων της εικόνας σε όλα τα δυνατά επίπεδα του γκρι (εποµένως η τεχνική εφαρµόζεται µόνο σε gray-scale εικόνες). Ολα τα εικονοστοιχεία µε τιµή ϕωτεινότητας κάτω από ένα δοσµένο κατώφλι γίνονται λευκά και όλα τα εικονοστοιχεία µε τιµή ϕωτεινότητας ίση ή µεγαλύτερη του κατωφλιού γίνονται µαύρα. Οι περιοχές που τελικά επιστρέφονται είναι αυτές το σχήµα των οποίων παραµένει σταθερό σε ένα µεγάλο σύνολο κατωφλίων. Συνήθως, οι MSER περιοχές που εντοπίζονται µετατρέπονται σε προσεγγιστικές ελλείψεις Περιγραφείς Χαρακτηριστικών (Feature Descriptors) Στόχος ενός περιγραφέα χαρακτηριστικών είναι η περιγραφή µιας τοπικής περιοχής µιας εικόνας µε τέτοιο τρόπο ώστε να µπορεί να ξεχωρίσει από άλλες διαφορετικές περιοχές αλλά και να µπορεί να ταυτιστεί µε περιοχές παρόµοιες µε αυτή. Ο περιγραφέας εφαρµόζεται εφόσον έχουν εντοπιστεί χαρακτηριστικά σηµεία χρησι-

35 2.2 Τοπικά Χαρακτηριστικά (Local Features) 29 Σχήµα 2.4: Παράδειγµα εφαρµογής του περιγραφέα MSER (εικόνα από [29]) µοποιώντας έναν τοπικό ανιχνευτή. Στη συνέχεια, παρουσιάζονται µερικοί εκ των δηµοφιλέστερων περιγραφέων που έχουν προταθεί και χρησιµοποιούνται εκτενώς. Ιστόγραµµα προσανατολισµένων κλίσεων (Histogram of oriented gradients - HOG) Η µέθοδος των ιστογραµµάτων προσανατολισµένων κλίσεων (Histogram of oriented gradients-hog) προτάθηκε από τους Dalal και Triggs το 2005 [42] για την αναγνώριση πεζών ανθρώπων. Είναι ένας περιγραφέας που ϐασίζεται στον προσανατολισµό των κλίσεων της εικόνας. Γενικά, στηρίζεται στο γεγονός πως η πληροφορία για τα τοπικά σχήµατα σε µία εικόνα µπορεί συχνά να περιγραφεί καλά από την κατανοµή των κλίσεων της έντασης ή από τις κατευθύνσεις των ακµών ακόµη κι αν δεν υπάρχει η πληροφορία για τις ακριβείς ϑέσεις των ίδιων των ακµών. Για τον υπολογισµό του HOG ακολουθείται η εξής διαδικασία : Αρχικά, χωρί- Ϲουµε την εικόνα σε κελιά (cells) : τετράγωνα (R-HOG) ή κυκλικά (C-HOG). Επειτα, υπολογίζεται το ιστόγραµµα των κατευθύνσεων κλίσης µέσα στο κάθε κελί. Ο συνδυασµός όλων των ιστογραµµάτων που δηµιουργούνται χρησιµοποιείται σαν το τελικό διάνυσµα χαρακτηριστικών. Προκειµένου να γίνει πιο ανθεκτικός ο περιγραφέας σε αλλαγές του ϕωτισµού και της σκίασης µπορεί να γίνει οµαδοποίηση πολλών κελιών µαζί σε blocks (συνήθως επικαλυπτόµενα) και κανονικοποίηση του κάθε κελιού µε ϐάση αυτά. Ο περιγραφέας HOG έχει δώσει πολύ καλά αποτελέσµατα στον εντοπισµό αντικειµένων και ανθρώπων.

36 30 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) Σχήµα 2.5: Παράδειγµα εφαρµογής του περιγραφέα HOG (εικόνα από [29]) Τοπικά υαδικά Πρότυπα (Local Binary Patterns - LBPs) Ο περιγραφέας LBP παρουσιάστηκε από τους Ojala et. al. [35] το Τα τοπικά δυαδικά πρότυπα προσπαθούν να περιγράψουν την υφή µιας εικόνας µελετώντας τη σχέση της τιµής ϕωτεινότητας κάθε εικονοστοιχείου σε σύγκριση µε αυτές των εικονοστοιχείων της άµεσης γειτονιάς του. Πιο αναλυτικά, η τιµή της ϕωτεινότητας κάθε εικονοστοιχείου αφαιρείται από τις τιµές ϕωτεινότητας των 8 γειτονικών του εικονοστοιχείων σε µία γειτονιά 3 3. Αν το αποτέλεσµα της αφαίρεσης είναι αρνητικό το αντίστοιχο γειτονικό εικονοστοιχείο κωδικοποιείται µε την τιµή 0, ενώ αν είναι ίσο µε το µηδέν ή ϑετικό το εικονοστοιχείο κωδικοποείται µε την τιµή 1. Για κάθε εικονοστοιχείο δηµιουργείται ένας δυαδικός αριθµός ενώνοντας όλες αυτές τις δυαδικές τιµές ακολουθώντας την κατεύθυνση του ϱολογιού ξεκινώντας από το εικονοστοιχείο που ϐρίσκεται επάνω αριστερά. Η αντίστοιχη δεκαδική τιµή του δυαδικού αριθµού που προκύπτει από τη διαδικασία χρησιµοποιείται για την περιγραφή του συγκεκριµένου εικονοστοιχείου. Το ιστόγραµµα των συχνοτήτων εµ- ϕάνισης κάθε δυνατής τιµής (π.χ. για 8 γείτονες αυτές είναι 256) αποτελεί τον τελικό περιγραφέα [23]. Ολη η διαδικασία ϕαίνεται στο σχήµα 2.6. Τυπικά, δοσµένου ενός εικονοστοιχείου (x, y) το LBP που ϑα προκύψει µπορεί να εκφραστεί σε δεκαδική µορφή ως εξής : P 1 LBP P,R (x c, y c ) = s(i p i c )2 P (2.21) P =0 όπου το i c είναι η gray-level τιµή ϕωτεινότητας του κεντρικού εικονοστοιχείου

37 2.2 Τοπικά Χαρακτηριστικά (Local Features) 31 Σχήµα 2.6: Παράδειγµα υπολογισµού του περιγραφέα LBP και i p είναι η gray-level τιµή ϕωτεινότητας των P γειτονικών εικονοστοιχείων στην κυκλική γειτονιά µε ακτίνα R. Η συνάρτηση s(x) ορίζεται ως : 1, if x 0 s(x) = 0, if x < 0. (2.22) Επειδή το µέγεθος της γειτονιάς που αρχικά προτάθηκε είναι µικρό και σε ορισ- µένες περιπτώσεις αδυνατεί να οδηγήσει σε χαρακτηριστικά µε δοµές µεγαλύτερης κλίµακας, αργότερα ο περιγραφέας γενικεύτηκε ώστε να µπορεί να χρησιµοποιήσει γειτονιές διαφορετικών µεγεθών. Μία τοπική γειτονιά ορίζεται σαν ένα σύνολο σηµείων επάνω σε έναν κύκλο, ο οποίος έχει σαν κέντρο του το εικονοστοιχείο που ϑέλουµε να περιγραφεί. Τα σηµεία που δεν πέφτουν µέσα στα εικονοστοιχεία υπολογί- Ϲονται µε παρεµβολή, γεγονός που σηµαίνει πως µπορούµε να χρησιµοποιήσουµε οποιονδήποτε αριθµό σηµείων σε οποιαδήποτε ακτίνα σαν γειτονιά [23]. Το σχήµα 2.7 δείχνει µερικά παραδείγµατα του LBP περιγραφέα όπου τα (P, R) δηλώνουν µία

38 32 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) γειτονιά από P σηµεία πάνω σε ένα κύκλο ακτίνας R. Επειδή η συσχέτιση µεταξύ των εικονοστοιχείων µειώνεται όσο αυξάνεται η απόσταση, συνήθως η ακτίνα R παίρνει µικρές τιµές (ενδεικτικά : 1, 1.5, 2, 3). Σχήµα 2.7: Οι κυκλικές γειτονιές (8,1), (16,2) και (24,3) που χρησιµοποιούνται από τον περιγραφέα LBP. Ο LBP είναι ένας απλός αλλά εξαιρετικά αποτελεσµατικός περιγραφέας τοπικών προτύπων µιας εικόνας. Μία σηµαντική ιδιότητα του περιγραφέα είναι το γεγονός πως είναι αναλλοίωτος (invariant) ενάντια σε µονοτονικές gray-level αλλαγές. Η επιτυχία της µεθόδου οδήγησε στην εµφάνιση πολλών παραλλαγών της. Τόσο η αρχική µέθοδος όσο και οι παραλλαγές της έχουν χρησιµοποιηθεί σε πολλές ε- ϕαρµογές, όπως αναγνώριση προσώπων, δυναµική ανίχνευσης υφής, αναγνώριση αντικειµένων κ.α. Scale Invariant Feature Transform (SIFT) Ο περιγραφέας SIFT προτάθηκε από τον Lowe το 2004 [6], ενώ οι πρώτες αναφορές σε αυτόν είχαν γίνει ήδη από το 1999 [5]. Ο υπολογισµός του στηρίζεται σε δύο στάδια. Στο πρώτο στάδιο, ανιχνεύονται στην εικόνα σηµεία ενδιαφέροντος ή αλλιώς σηµεία-κλειδιά (keypoints) µε τη µέθοδο DoG. Μετά την ανίχνευση των χαρακτηριστικών χρησιµοποιείται η αναπαράσταση στο χώρο της κλίµακας προκειµένου να ϐρε- ϑούν τοπικά ακρότατα, δηλαδή χαρακτηριστικές κλίµακες για τα σηµεία-κλειδιά. Με αυτόν τον τρόπο, κάθε τοπικό χαρακτηριστικό που έχει ανιχνευτεί ανήκει σε κάποιο επίπεδο σ της πυραµίδας και σε µία ϑέση L(x, y, σ) του χώρου της κλίµακας. Το µέγεθος της κλίσης m(x, y) και η κατεύθυνση θ(x, y) υπολογίζονται σε κάθε ϑέση L(x, y, σ) που ανήκει σε µία επιλεγµένη γειτονιά εικονοστοιχείων γύρω από το κάθε επιλεγµένο σηµείο-κλειδί. Ο υπολογισµός γίνεται χρησιµοποιώντας απλές

39 2.2 Τοπικά Χαρακτηριστικά (Local Features) 33 διαφορές των εικονοστοιχείων : m(x, y) = (L(x + 1, y) L(x 1, y)) 2 + (L(x, y + 1) L(x, y 1)) 2 (2.23) θ(x, y) = tan 1 L(x, y + 1) L(x, y 1) ( L(x + 1, y) L(x 1, y) ) (2.24) Επειτα, δηµιουργείται ένα σύνολο ιστογραµµάτων κατεύθυνσης (orientation histograms) σε υπο-γειτονιές 4 4 εικονοστοιχείων µε 8 bins στο καθένα προκειµένου να καλυφθούν όλες οι κατευθύνσεις κλίσεις και τα µεγέθη. Τα ιστογράµµατα αυτά υπολογίζονται από τιµές του µεγέθους του διανύσµατος κλίσης και της διεύθυνσης. Τα µεγέθη εξοµαλύνονται επιπλέον µε ένα γκαουσιανό κυκλικό παράθυρο µε σ = 1.5. Κάθε bin των ιστογραµµάτων περιλαµβάνει µία µέτρηση της αλλαγής της ϕωτεινότητας σε µία κατεύθυνση. Η υψηλότερη από αυτές τις µετρήσεις επιλέγεται σαν κυρίαρχη κατεύθυνση του περιγραφέα. Τέλος, ο περιγραφέας σχηµατίζεται ως το διάνυσµα που περιέχει όλες τις τιµές από αυτά τα ιστογράµµατα. Εφόσον υπάρχουν 4 4 = 16 ιστογράµµατα κάθε ένα από τα οποία έχει 8 bins το τελικό διάνυσµα του περιγραφέα έχει 128 στοιχεία. Κάθε εικόνα περιέχει n σηµεία κλειδιά, οπότε για µία εικόνα δηµιουργείται ένας περιγραφέας µε n 128 συνιστώσες. Σχήµα 2.8: Υπολογισµός περιγραφέα SIFT Ο περιγραφέας SIFT είναι αµετάβλητος όσον αφορά την περιστροφή, την αλλαγή στην κλίµακα των εικόνων, σε αλλαγές στο ϕωτισµό καθώς και στο ϑόρυβο. Επιπλέον, είναι αρκετά εύκολος στον υπολογισµό και έχει δώσει εξαιρετικά αποτελέσ- µατα σε εφαρµογές αναγνώρισης και ταξινόµησης αντικειµένων. Μειονέκτηµα του

40 34 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) περιγραφέα µπορεί να ϑεωρηθεί η υψηλή του διάσταση. Αν και αρχικά ο περιγραφέας προτάθηκε σε συνδυασµό µε τον ανιχνευτή DoG µπορεί να χρησιµοποιηθεί και µε άλλους ανιχνευτές (π.χ. Harris). Τα τελευταία χρόνια έχουν αναπτυχθεί µερικές επεκτάσεις του αρχικού SIFT όπως π.χ. ο PCA-SIFT [41] που χρησιµοποιεί Ανάλυση Πρωτευουσών Συνιστωσών (PCA) για µείωση της διάστασης, η µέθοδος Gradient Location and Orientation Histogram (GLOH) που αλλάζει το location grid και έπειτα µειώνει τη διάσταση µε PCA και ο περιγραφέας SURF (Speeded Up Robust Features) που αναλύεται στη συνέχεια. Speeded-Up Robust Features (SURF) Ο περιγραφέας Speeded Up Robust Features έχει προταθεί από τους Bay et.al.[15] αρχικά το 2006 και εκτενέστερα το Ο SURF περιλαµβάνει εκτός από τον περιγραφέα και δικό του ανιχνευτή. Συγκεκριµένα, η µέθοδος χρησιµοποιεί για την ανίχνευση χαρακτηριστικών περιοχών σε µια εικόνα µια πολύ γρήγορη εκτίµηση της εσσιανής µήτρας που ϐασίζεται στις integral images [36]. H integral εικόνα στη ϑέση (x, y) περιέχει το άθροισµα των εικονοστοιχείων που ϐρίσκονται πάνω και αριστερά της ϑέσης (x, y): ii(x, y) = i(x, y ) (2.25) x x,y y όπου ii(x, y) είναι η integral image και i(x, y) η αρχική εικόνα. Μετά τον υπολογισµό των integral images χρειάζονται µόνο τρεις προσθέσεις για να υπολογιστεί το άθροισµα των ϕωτεινοτήτων οποιασδήποτε ορθογώνιας περιοχής µιας εικόνας. Αναλυτικά, για τον υπολογισµό της εσσιανής µήτρας η µέθοδος SURF δε χρησι- µοποιεί γκαουσιανά ϕίλτρα, αλλά απλά ϕίλτρα κουτιού (box filters) 9 9 τα οποία µπορούν να υπολογιστούν αποτελεσµατικά χρησιµοποιώντας τις integral images. Ετσι, η προσέγγιση της µήτρας δίνεται από τον εξής τύπο : det(h approx ) = D xx D yy (wd xy ) 2 (2.26) Το ϐάρος w χρησιµοποιείται για να ισσοροπήσει η εξίσωση. Στον SURF χρησι- µοποιείται σταθερό ϐάρος w = 0.9 για όλες τις κλίµακες. Τα 9 9 ϕίλτρα είναι οι

41 2.2 Τοπικά Χαρακτηριστικά (Local Features) 35 προσεγγίσεις της γκαουσιανής µε σ = 1.2 και ουσιαστικά αποτελούν την ελάχιστη κλίµακα υπολογισµού. Η εκτιµώµενη τιµή της ορίζουσας της εσσιανής µήτρας αποτελεί την απόκριση της εικόνας στη ϑέση x. Οι αποκρίσεις από όλες τις κλίµακες αποθηκεύονται σε ένα χάρτη από τον οποίο εξάγονται ως σηµεία-κλειδιά τα τοπικά µέγιστα. Ο γρήγορος υπολογισµός της απόκρισης του ϕίλτρου επιτρέπει στον περιγραφέα να κλιµακώσει προς τα πάνω τα ϕίλτρα αντί να κλιµακώσει προς τα κάτω την εικόνα. Αρχικά η εικόνα ϕιλτράρεται µε τα 9 9 ϕίλτρα και στη συνέχεια µε ϕίλτρα µεγαλύτερου µεγέθους. Στην πρώτη κλίµακα, το µέγεθος του ϕίλτρου αυξάνεται κατά 6 σε κάθε επίπεδο και σε κάθε επόµενη κλίµακα η αύξηση υπολογίζεται ως το διπλάσιο της προηγούµενης, π.χ. στη δεύτερη κλίµακα το µέγεθος του ϕίλτρου ϑα αυξάνεται κατά 12 = (2 6) και το πρώτο επίπεδο ϑα περιλαµβάνει ϕίλτρα µεγέθους ώστε να υπάρχει αλληλοκάλυψη µε την πρώτη κλίµακα µε στόχο να καλυφθούν όλες οι πιθανές κλίµακες χωρίς κενά. Τελικά, ως τοπικά χαρακτηριστικά επιλέγονται τα τοπικά µέγιστα σε µία γειτονιά στο χώρο της κλίµακας σύµφωνα µε τη µέθοδο που πρότειναν οι Neubeck και Van Gool [43]. Σχήµα 2.9: Γραφική αναπαράσταση του µεγέθους των ϕίλτρων που χρησιµοποιούνται από τον περιγραφέα SURF για τρεις διαφορετικές οκτάβες. Οι οκτάβες αλληλοκαλύπτονται προκειµένου να καλυφθούν όλες οι κλίµακες χωρίς κενά. (εικόνα από [15]) Για την περιγραφή των σηµείων ενδιαφέροντος που εντοπίστηκαν ο περιγραφέας SURF χρησιµοποιεί την κατανοµή των εντάσεων στην περιοχή γύρω από το κά- ϑε τοπικό χαρακτηριστικό. Ωστόσο, ο SURF δεν χρησιµοποιεί την κατανοµή των παραγώγων (όπως ο SIFT) αλλά τις κατανοµές των κυµατιδιών Haar πρώτης τάξης στις κατευθύνσεις x και y. Ο περιγραφέας υπολογίζεται συνοπτικά ακολουθώντας τα εξής ϐήµατα :

42 36 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) - καθορισµός κύριου προσανατολισµού για κάθε σηµείο ενδιαφέροντος - δηµιουργία µιας τετράγωνης περιοχής πλάτους 20s γύρω από το σηµείο ενδιαφέροντος (όπου s η κλίµακα στην οποία ϐρέθηκε το σηµείο) η οποία προσανατολίζεται σύµφωνα µε τον κύριο προσανατολισµό που καθορίστηκε στο προηγούµενο ϐήµα - χωρισµός της τετράγωνης περιοχής σε υποπεριοχές µεγέθους 4 4 εικονοστοιχείων - υπολογισµός σε κάθε υποπεριοχή των αποκρίσεων των κυµατιδίων Haar σε 5 5 ίσων αποστάσεων σηµεία - περιγραφή κάθε υποπεριοχής µε 4 τιµές : το άθροισµα των αποκρίσεων ανά κατεύθυνση (d x, d y ) και το άθροισµα των απόλυτων τιµών ανά κατεύθυνση ( d x, d y ) - δηµιουργία τελικού διανύσµατος για το χαρακτηριστικό που αποτελείται από [4 τιµές (4 4) εικονοστοιχεία κάθε περιοχής]=64 τιµές Ο περιγραφέας SURF ακολουθεί τη λογική του SIFT, αλλά περιλαµβάνει πολύ πιο γρήγορους υπολογισµούς και το µήκος του τελικού περιγραφέα είναι αρκετά µικρότερο σε σχέση µε του SIFT. Σε αρκετές από τις εφαρµογές στις οποίες έχει δοκιµαστεί ο SURF έχει αποδώσει καλύτερα από τον SIFT, ωστόσο η χρήση του είναι ακόµη περιορισµένη. 2.3 Ολικά Χαρακτηριστικά (Global Features) Τα ολικά χαρακτηριστικά (global features) προσπαθούν να περιγράψουν την πληροφορία που υπάρχει σε ολόκληρη την εικόνα µε ένα µόνο διάνυσµα τιµών. Σύµφωνα µε αυτή την προσέγγιση, έµφαση δίνεται στο σύνολο της εικόνας και όχι σε µεµονωµένες περιοχές ή αντικείµενα που την απαρτίζουν. Ερευνες των τελευταίων χρόνων έχουν αποδείξει πως η ολική αναπαράσταση των εικόνων παίζει σηµαντικό ϱόλο στην αναγνώριση σκηνών (scene recognition) [27, 38]. Ενα παράδειγµα ολικού χαρακτηριστικού είναι ο περιγραφέας Gist [27].

43 2.3 Ολικά Χαρακτηριστικά (Global Features) Gist Ο περιγραφέας Gist προτάθηκε αρχικά από τους Oliva και Torralba [27]. Ουσιαστικά, πρόκειται για ένα διάνυσµα χαρακτηριστικών g, όπου κάθε µεµονωµένο χαρακτηριστικό g k υπολογίζεται ως εξής : g k = x,y w k (x, y) I(x, y) h(x, y) 2 (2.27) Οπου το υποδηλώνει συνέλιξη εικόνας και το πολλαπλασιασµό εικονοστοιχείου µε εικονοστοιχείο. Το I(x, y) είναι το κανάλι ϕωτεινότητας της εικόνας εισόδου, το h k (x, y) είναι ένα ϕίλτρο από µία τράπεζα κατευθυνόµενων ϕίλτρων Gabor πολλαπλής κλίµακας (multiscale oriented Gabor filters) (ϐ κατευθύνσεις και 4 κλίµακες) και το w k (x, y) είναι ένα τοπικό παράθυρο που ϑα υπολογίσει την µέση ενέργεια εξόδου κάθε ϕίλτρου σε διαφορετικές τοποθεσίες της εικόνας. Τα παράθυ- ϱα w k (x, y) χωρίζουν την εικόνα σε ένα πλέγµα από µη-επικαλυπτόµενα παράθυρα µεγέθους 4 4. Αν χρησιµοποιηθούν 8 κατευθύνσεις (b = 8) ο περιγραφέας που ϑα προκύψει ϑα έχει διάσταση , δηλαδή 512 [18]. Σχήµα 2.10: Παράδειγµα εφαρµογής του περιγραφέα GIST (εικόνα από [18]) Στην εικόνα 2.10 ϕαίνεται ο µέσος όρος του πλάτους εξόδου των κατευθυνόµενων ϕίλτρων πολλαπλών κλιµάκων Gabor πάνω σε πολικό διάγραµµα (ο προσανατολισ- µός του κάθε διαγράµµατος είναι ορθογώνιος προς την κατεύθυνση των ακµών στην εικόνα). Η µέση απόκριση του κάθε ϕίλτρου υπολογίζεται σε τοπικό επίπεδο διαχωρ ιζοντας την εικόνας σε παράθυρα µεγέθους 4 4. Κάθε διαφορετική κλίµακα είναι

44 38 Κεφάλαιο 2. Εξαγωγή Χαρακτηριστικών (Feature Extraction) κωδικοποιηµένη µε χρώµα (κόκκινο για υψηλές χωρικές συχνότητες, και µπλε για τις χαµηλές χωρικές συχνότητες), και η ένταση είναι ανάλογη προς την ενέργεια για κάθε ϕίλτρο εξόδου. Η δεξιά στήλη του παραπάνω σχήµατος δείχνει εικόνες ϑορύβου που εξαναγκάστηκαν να έχουν τα ίδια gist χαρακτηριστικά όπως η εικόνα-στόχος. Ο περιγραφέας Gist παρέχει µία χονδροειδή περιγραφή της υφής που υπάρχει στην εικόνα και την χωρική οργάνωση της. Ετσι, διατηρεί τις σχετικές πληροφορίες που απαιτούνται για την κατηγοριοποίηση σκηνών σε κατηγορίες (π.χ. δρόµος, παραλία κτλ) [18].

45 Κεφάλαιο 3 Το µοντέλο σάκος χαρακτηριστικών (Bag of features) 3.1 Περιγραφή της µεθόδου Τα τελευταία χρόνια η µέθοδος Σάκος Χαρακτηριστικών (Bag-of-Features ή Bagof-Visual-Words) χρησιµοποιείται ολοένα και περισσότερο για την αναπαράσταση των εικόνων σε εφαρµογές αναγνώρισης αντικειµένων, ταξινόµησης αλλά και ανάκτησης εικόνων. Η µέθοδος σχετίζεται άµεσα και έχει επηρεαστεί από τις αντίστοιχες µεθόδους που προϋπήρχαν για ανάκτηση κειµένου (Bag-of-Words). Οι Zhu et.al. [22] έκαναν πρώτοι αναφορά στη µέθοδο το 2002 και έπειτα οι Sivic και Zisserman [47] την έκαναν ευρύτερα γνωστή στην κοινότητα της αναγνώρισης προτύπων. Η µέθοδος ϐασίζεται στην εύρεση σηµείων ενδιαφέροντος (interest points ή keypoints) σε κάθε εικόνα και την εξαγωγή διανυσµάτων χαρακτηριστικών από αυτές σύµφωνα µε κάποιον περιγραφέα. Τα διανύσµατα αυτά χρησιµοποιούνται έπειτα για την κατασκευή ενός οπτικού λεξικού (visual vocabulary/codebook). Πρακτικά, χρησιµοποιείται ένας αλγόριθµος συσταδοποίησης (συνήθως ο k-means ή παραλλαγές του) ο οποίος χωρίζει σε k οµάδες τα δεδοµένα εκπαίδευσης. Το κέντρο κάθε οµάδας αποτελεί µία λέξη του οπτικού λεξικού. Οι λέξεις του λεξικού αποτελούν ουσιαστικά χαρακτηριστικά τοπικά πρότυπα των εικόνων. Στη συνέχεια, µετράται η συχνότητα εµφάνισης των οπτικών λέξεων του λεξικού σε κάθε εικόνα και κατασκευάζεται το αντίστοιχο ιστόγραµµα το οποίο αποτελεί και το τελικό διάνυσ- µα χαρακτηριστικών που ϑα χρησιµοποιηθεί από το εκάστοτε µοντέλο ταξινόµησης 39

46 40 Κεφάλαιο 3. Το µοντέλο σάκος χαρακτηριστικών (Bag of features) [48]. Η τιµή του k εξαρτάται από την εφαρµογή, συνήθως είναι της τάξης µερικών εκατοντάδων ή χιλιάδων λέξεων αλλά µπορεί να αυξηθεί πολύ περισσότερο κυρίως σε εφαρµογές ανάκτησης από πολύ µεγάλες ϐάσεις εικόνων. Ολη η διαδικασία ϕαίνεται αναλυτικά στο σχήµα 3.1. Σχήµα 3.1: Η µέθοδος Bag-of-Features (εικόνα από [48]) Η έρευνα έχει δείξει πως τα τοπικά χαρακτηριστικά σε συνδυασµό µε τη µέ- ϑοδο σάκος των χαρακτηριστικών µπορούν να δώσουν εξαιρετικά αποτελέσµατα σε εφαρµογές ταξινόµησης εικόνων ακόµη και όταν το πρόβληµα περιλαµβάνει πολλές κατηγορίες. 3.2 Κατάτµηση εικόνων Σε προβλήµατα ταξινόµησης αντικειµένων συχνά πριν την εξαγωγή των χαρακτηριστικών χρησιµοποιείται κάποια µέθοδος κατάτµησης (segmentation) της εικόνας προκειµένου να αποµονωθεί το αντικείµενο που απεικονίζεται σε αυτή. Η κατάτµηση της εικόνας και η χρήση µόνο της περιοχής που απεικονίζει το αντικείµενο για την περιγραφή της εικόνας δεν είναι απαραίτητη για την διαδικασία της ταξινόµησης, ούτε για το σχηµατισµό του σάκου χαρακτηριστικών, αλλά πολλές ϕορές οδηγεί σε

47 3.3 Σχηµατισµός του λεξικού 41 ϐελτιωµένα αποτελέσµατα. Αν δεν γίνει κατάτµηση της εικόνας, τα χαρακτηριστικά που ενδεχοµένως ϑα εντοπιστούν στο ϕόντο της εικόνας είναι πιθανό να παραπλανήσουν την ταξινόµηση και να αυξήσουν τα λάθη. Αυτό, ϕυσικά, εξαρτάται σε µεγάλο ϐαθµό και από τα δεδοµένα, καθώς υπάρχουν και περιπτώσεις που το ϕόντο µιας εικόνας µπορεί να δώσει επιπρόσθετες πληροφορίες για το αντικείµενο που απεικονίζεται σε αυτή συµβάλλοντας έτσι ϑετικά στην περιγραφή του. Σχήµα 3.2: Παράδειγµα κατάτµησης προκειµένου να αποµονωθεί το ϐασικό αντικείµενο της εικόνας. 3.3 Σχηµατισµός του λεξικού Ο σχηµατισµός του οπτικού λεξικού αποτελεί το κρισιµότερο κοµµάτι της µεθόδου σάκος χαρακτηριστικών. Μετά τον υπολογισµό των χαρακτηριστικών από τις εικόνες της ϐάσης που χρησιµοποιούµε, ο τρόπος µε τον οποίο ϑα γίνει η κωδικοποίηση του χώρου των χαρακτηριστικών σε λίγες µόνο λέξεις έχει σηµαντική επιρροή στη µετέπειτα διαδικασία της κατηγοριοποίησης. Στόχος της διαδικασίας σχηµατισµού είναι η εύρεση των αντιπροσωπευτικότερων λέξεων από τις διαθέσιµες εικόνες προκει- µένου η µετέπειτα ταξινόµηση άγνωστων δειγµάτων να δώσει ικανοποιητικά αποτελέσ- µατα. Το 2003 οι Sivic και Zisserman [47] πρότειναν την κωδικοποίηση των διανυσ- µάτων των χαρακτηριστικών για να αυξήσουν την ταχύτητα της ευρετηρίασης video frames µε ανεστραµµένα αρχεία, ενώ το 2004 οι Csurka et. al. [13] πρότειναν τη µέθοδο του σάκου των χαρακτηριστικών για προβλήµατα κατηγοριοποίησης αντικειµένων. Συγκεκριµένα, χρησιµοποίησαν τον ανιχνευτή Hessian-Affine για τον εντοπισµό σηµείων-κλειδιών στις εικόνες, τον περιγραφέα SIFT για την κατασκευή

48 42 Κεφάλαιο 3. Το µοντέλο σάκος χαρακτηριστικών (Bag of features) των διανυσµάτων των χαρακτηριστικών και τον αλγόριθµο k-means για το σχηµατισµό του λεξικού παίρνοντας αξιόλογα αποτελέσµατα. Κατά το σχηµατισµό του λεξικού λαµβάνονται υπόψη διάφορες παράµετροι : ο αριθµός των λέξεων που ϑα χρησιµοποιηθούν, τα δεδοµένα και τα χαρακτηριστικά που ϑα αξιοποιήσουµε για την κατασκευή του και ϕυσικά, ο αλγόριθµος που ϑα χρησιµοποιηθεί για την τελική παραγωγή των λέξεων. Σε προβλήµατα ταξινόµησης αντικειµένων ή/και σκηνών σε συγκεκριµένες κατηγορίες για την κατασκευή του λεξικού χρησιµοποιείται ως επί το πλείστον το σετ εκπαίδευσης το οποίο περιέχει δείγµατα από όλες τις κατηγορίες του προβλήµατος. Το µέγεθος του λεξικού είναι ένας σηµαντικός παράγοντας που καθορίζει την ταξινόµηση. Ενα µεγάλο µέγεθος λεξικού δεν ευνοεί τη γενίκευση και αυξάνει τις υπολογιστικές ανάγκες όπως π.χ. τη µνήµη, τις απαιτήσεις αποθήκευσης, τον υπολογιστικό χρόνο για την κατασκευή του λεξικού αλλά και την εκπαίδευση του ταξινοµητή. Από την άλλη µεριά, ένα µικρότερο µέγεθος λεξικού ενδεχοµένως να µην οδηγήσει σε καλή αναπαράσταση της κατανοµής των χαρακτηριστικών. Εποµένως, το µέγεθος του λεξικού ϑα πρέπει να επιλέγεται έτσι ώστε να διατηρείται µια ισορ- ϱοπία ανάµεσα στην ακρίβεια της ταξινόµησης και τις υπολογιστικές ανάγκες. Στην πλειοψηφία των µεθόδων κατηγοριοποίησης µε ϐάση το µοντέλο BOF που έχουν προταθεί µέχρι και σήµερα χρησιµοποιείται ο αλγόριθµος k-means για το σχηµατισµό του οπτικού λεξικού. Ωστόσο, εναλλακτικές, ενδιαφέρουσες µέθοδοι έχουν επίσης προταθεί. Πολλοί ερευνητές προσέγγισαν το πρόβληµα χρησιµοποιώντας στοχαστικές µεθόδους. Οι µέθοδοι αυτές λαµβάνουν υπόψη την αυστηρότητα που υπάρχει στο κλασικό µοντέλο ως προς την αντιστοίχιση ενός οπτικού χαρακτηριστικού σε µία µόνο λέξη του λεξικού και προτείνουν πιο ελαστικές µεθόδους αντιστοίχισης οπτικών λέξεων. Η αµφισβήτηση της αυστηρής αυτής αντιστοίχισης ϐασίζεται ϕυσικά στο γεγονός πως το λεξικό δηµιουργείται ϐάση των οπτικών χαρακτηριστικών των εικόνων και όχι στη σηµασιολογική τους ανάλυση, εποµένως είναι πιθανό για ένα τοπικό χαρακτηριστικό να υπάρχουν παραπάνω από µία κατάλληλες λέξεις, ενώ υπάρχει επίσης η πιθανότητα για κάποιο χαρακτηριστικό να µην υπάρχει καµία κατάλληλη λέξη στο διαθέσιµο λεξικό. Οι Farquhar et. al. [24] προτείνουν για το στάδιο της συσταδοποίησης µοντέλα µείξης γκαουσιανών κατανοµών (Gaussian Mixture Model, GMM). Στη µέθοδό τους σε κάθε τοπικό χαρακτηριστικό ανατίθενται όλες οι λέξεις του λεξικού πιθανοτικά και όχι µόνο µία λέξη όπως στο

49 3.3 Σχηµατισµός του λεξικού 43 κλασικό µοντέλο. Επίσης, προτείνουν την κατασκευή του λεξικού εκπαιδεύοντας εξειδικευµένα λεξικά για κάθε κλάση και µετέπειτα ένωση των επιµέρους λεξικών σε ένα. Οι Perronnin et.al. [12] προτείνουν την κατασκευή ενός γενικού λεξικού (universal vocabulary) που περιγράφει το οπτικό περιεχόµενο όλων των κλάσεων και ταυτόχρονα την κατασκευή συγκεκριµένων για κάθε κλάση λεξικών που προκύπτουν από την προσαρµογή του γενικού λεξικού µε ϐάση δεδοµένα από την εκάστοτε κλάση. Με αυτόν τον τρόπο, κάθε εικόνα δεν αναπαριστάται από ένα µόνο ιστόγραµµα, αλλά από ένα σύνολο ιστογραµµάτων µεγέθους 2 N, ένα για κάθε κλάση (όπου Ν είναι το µέγεθος του λεξικού). Κάθε ιστόγραµµα δείχνει το αν µία εικόνα µοντελοποιείται καλύτερα από το γενικό λεξικό ή από το προσαρµοσµένο λεξικό. Άλλες µέθοδοι που έχουν προταθεί κάνουν χρήση της απόστασης EMD (Earth Mover s Distance).Οι Zhang et. al. [17] προτείνουν τη συσταδοποίηση ενός συνόλου χαρακτηριστικών σε κάθε εικόνα προκειµένου να σχηµατιστεί µία αναπαράσταση από (c i, w i ) Ϲευγάρια τα οποία αναφέρονται ως υπογραφή της εικόνας, όπου c i είναι το κέντρο της συστάδας και w i είναι το ανάλογο µέγεθος της i συστάδας. Τα κέντρα των κλάσεων υπολογίζονται µε K-means, αλλά για τη µέτρηση της οµοιότητας µεταξύ των αναπαράστασεων των εικόνων χρησιµοποιείται η απόσταση EMD (Earth Mover s Diastance). H EMD απόσταση µεταξύ των υπογραφών δύο εικόνων S 1 = {(p 1, u 1 ),..., (p m, u m )} και S 2 = {(q 1, w 1 ),..., (q n, w n )} ορίζεται ως : D(S 1, S 2 ) = m i=1 m i=1 n j=1 f ijd(p i, q i ) n j=1 f ij (3.1) όπου f ij είναι µία τιµή που καθορίζεται συνήθως λύνοντας ένα πρόβληµα γραµµικού προγραµµατισµού και το d(p i, q i ) είναι η απόσταση (π.χ. Ευκλείδεια) ανάµεσα στα κέντρα p i και q i. Μια άλλη προσέγγιση περιλαµβάνει τη χρήση ιεραρχικών µεθόδων. Οι Nister και Stewenius [40] πρότειναν την ιδέα ενός λεξικού-δένδρου (vocabulary tree) το οποίο κατασκευάζεται µε ϐάση έναν παράγοντα διακλάδωσης και τον αριθµό επι- ϑυµητών επιπέδων χρησιµοποιώντας ιεραρχικό k-means για τη συνεχή υποδιαίρεση του χώρου των χαρακτηριστικών. Χρησιµοποίησαν τον ανιχνευτή MSER για τον εντοπισµό περιοχών ενδιαφέροντος και τον περιγραφέα SIFT για την τελική αναπαράσταση των εικόνων. Το 2006 οι Moosmann et. al. πρότειναν τα Τυχαία άση Συσταδοποίησης (Extremely Randomized Clustering Forests) [11]. Η µέθοδος που αργότερα ανέπτυξαν για ταξινόµηση εικόνων [20] περιλαµβάνει το σχηµατισµό

50 44 Κεφάλαιο 3. Το µοντέλο σάκος χαρακτηριστικών (Bag of features) λεξικού µέσω µιας οµάδας δυαδικών δένδρων ταξινόµησης από τα οποία περνάει ένα µέρος των τοπικών περιγραφέων. Σε κάθε επίπεδο του κάθε δένδρου δοκιµάζονται απλοί κανόνες για τις τιµές του περιγραφέα και καθορίζεται αυτός που µεγιστοποιεί την εκάστοτε πληροφορία ώστε ϐάσει αυτού να σχηµατιστεί ένα νέο κλαδί. Μετά τα σχηµατισµό του λεξικού, όλοι οι περιγραφείς περνάνε από όλα τα δένδρα και ταξινοµούνται σε συστάδες ϐάσει των ϕύλλων των δένδρων στα οποία κατέληξαν. Τα λεξικά σε µορφή δένδρου προσφέρουν σηµαντικό υπολογιστικό πλεονέκτηµα και καθιστούν εφικτή τη χρήση λεξικών µεγάλου µεγέθους. Οι περισσότερες από τις µεθόδους που έχουν προταθεί µέχρι και σήµερα στοχεύουν στην αύξηση της αποτελεσµατικότητας στην ταξινόµηση, όµως παράλληλα αυξάνουν και την υπολογιστική πολυπλοκότητα, γεγονός που πολλές ϕορές τις κα- ϑιστά µη εφαρµόσιµες σε πραγµατικές εφαρµογές µε εκατοµµύρια εικόνες. Γι αυτόν ακριβώς το λόγο, ο αλγόριθµος k-means αποτελεί τη δηµοφιλέστερη πρακτική για το σχηµατισµό του λεξικού στη µέθοδο του σάκου χαρακτηριστικών. 3.4 Αναπαράσταση Χωρικής Πυραµίδας (Spatial Pyramid) Μία επέκταση του µοντέλου Bag of Features, την αναπαράσταση Χωρικής Πυ- ϱαµίδας (Spatial Pyramid Representation), πρότειναν το 2006 οι Lazebnik et.al [25]. Η νέα µέθοδος περιλαµβάνει το συνεχή διαχωρισµό της εικόνας σε ολοένα και περισσότερες υποπεριοχές και την ένωση των ιστογραµµάτων των τοπικών χαρακτηριστικών που δηµιουργούνται από κάθε υποπεριοχή. Η προτεινόµενη τεχνική λαµβάνει ουσιαστικά υπόψη και τη χωρική πληροφορία και στηρίζεται στη µέθοδο ταίριασµα πυραµίδας (pyramid matching) των Grauman και Darrell [30] και στον αντίστοιχο προτεινόµενο πυρήνα. Η µέθοδος ϕαίνεται σχηµατικά στο σχήµα 3.3. Στο επίπεδο 0 η αποσύνθεση αποτελείται από µόνο ένα κελί και η αναπαράσταση είναι ισοδύναµη µε αυτή της αρχικής µεθόδου Bag of Features. Στο επίπεδο 1 η εικόνα χωρίζεται σε 4 υποπεριοχές οι οποίες δίνουν 4 ιστογράµµατα χαρακτηριστικών κ.λ.π. Οι χωρικές πυραµίδες µπορούν να συγκριθούν χρησιµοποιώντας τον πυρήνα πυραµίδας (pyramid kernel) ο οποίος δίνει στα ιστογράµµατα των υψηλότερων επιπέδων µεγαλύτερο ϐάρος, καθώς

51 3.4 Αναπαράσταση Χωρικής Πυραµίδας (Spatial Pyramid) 45 στα υψηλότερα επίπεδα γίνεται πιο ακριβής εντοπισµός των χαρακτηριστικών. Σχήµα 3.3: Η αναπαράσταση χωρικής πυραµίδας.

52

53 Κεφάλαιο 4 Αλγόριθµοι Ταξινόµησης (Classifiers) 4.1 Μηχανική µάθηση και αναγνώριση προτύπων Η µάθηση (χρησιµοποίηση της εµπειρίας για την ϐελτίωση της απόδοσης) αποτελεί ένα σηµαντικό κοµµάτι της ανθρώπινης νοηµοσύνης και ευφυΐας. Ο κλάδος της µηχανικής µάθησης προσφέρει µεθόδους και αλγορίθµους µε τους οποίους οι υπολογιστές µπορούν να ϐελτιστοποιήσουν την απόδοσή τους ϐασισµένοι σε προηγούµενη γνώση ή παραδείγµατα. Οι µέθοδοι µάθησης χωρίζονται σε τρία είδη : τη µάθηση µε επίβλεψη (supervised learning), τη µάθηση χωρίς επίβλεψη (unsupervised learning) και τη µάθηση µε ηµι-επίβλεψη (semi-supervised learning). Στη µάθηση µε επίβλεψη στόχος είναι η εύρεση της κατάλληλης συνάρτησης αντιστοίχισης των αρχικών δεδοµένων εισόδου X (τα οποία περιγράφουν τα αρχικά πρότυπα) σε ετικέτες κλάσης Υ (π.χ. -1 και +1), έτσι ώστε U = f(x). Για το σκοπό αυτό, τα αρχικά δεδοµένα χωρίζονται σε δύο σύνολα : το πρώτο λέγεται σύνολο εκπαίδευσης και το δεύτερο σύνολο ελέγχου. Τα δεδοµένα του συνόλου εκπαίδευσης συνοδεύονται από αντίστοιχες ετικέτες οι οποίες δηλώνουν την κλάση στην οποία ανήκει το εκάστοτε δεδοµένο. Στόχος είναι η πρόβλεψη της σωστής ετικέτας (δηλαδή της σωστής κλάσης) η οποία ϑα πρέπει να αποδοθεί σε ένα νέο άγνωστο δεδοµένο. Αν η ετικέτα που ϑέλουµε να προβλέψουµε έχει διακριτή τιµή, τότε το πρόβληµα ονοµάζεται πρόβληµα κατηγοριοποίησης (classification, π.χ. αναγνώριση χειρόγραφων ψηφίων), ενώ αν η ετικέτα έχει πραγµατική τιµή ονοµάζεται πρόβληµα παλινδρόµησης (regression, π.χ. πρόβλεψη του ύψους του σολωµού µε ϐάση την η- λικία και το ϐάρος του). Οι µέθοδοι µάθησης µε επίβλεψη χρησιµοποιούνται κυρίως 47

54 48 Κεφάλαιο 4. Αλγόριθµοι Ταξινόµησης (Classifiers) στην κατηγοριοποίηση/ταξινόµηση δεδοµένων (classification). Στη µάθηση χωρίς επίβλεψη διαθέτουµε ένα σύνολο δεδοµένων χωρίς κάποια επιπλέον πληροφορία. Ο στόχος εδώ είναι να ανακαλύψουµε κρυµµένες οµάδες ή δοµές στα δεδοµένα. Οι µέθοδοι µάθησης χωρίς επίβλεψη χρησιµοποιούνται κυρίως στην οµαδοποίηση (clustering) δεδοµένων. Κάπου ανάµεσα στη µάθηση µε και χωρίς επίβλεψη υπάρχει και η προσέγγιση της ηµι-επίβλεψης. Σε αυτή την περίπτωση έχουµε στη διάθεσή µας ένα µικρό αριθµό δεδοµένων µε ετικέτες και πολλά άγνωστα δεδοµένα. Ερευνες έχουν δείξει ότι αν τα δεδοµένα για τα οποία δεν έχουµε ετικέτες συνδυαστούν µε έναν µικρό αριθµό δεδοµένων για τα οποία υπάρχουν ετικέτες η ακρίβεια της µάθησης µπορεί να αυξηθεί σηµαντικά. Αναγνώριση προτύπων (pattern recognition) είναι ο επιστηµονικός κλάδος που στοχεύει στην κατηγοριοποίηση αντικειµένων σε έναν αριθµό κατηγοριών ή κλάσεων. Ανάλογα µε την εφαρµογή, τα αντικείµενα αυτά µπορεί να είναι εικόνες, κυµατο- µορφές σηµάτων ή οποιοδήποτε είδος µέτρησης (γενικά, πρότυπα) που χρειάζεται να κατηγοριοποιηθεί [33]. Η αναγνώριση προτύπων αποτελεί τη ϐάση για πολλούς άλλους επιστηµονικούς κλάδους όπως η ανάλυση εικόνων, η αναγνώριση οµιλίας και ήχου, η ϐιοπληρο- ϕορική, η εξόρυξη δεδοµένων και η ανάκτηση πληροφορίας. Οποιαδήποτε εφαρ- µογή που προκύπτει από τους προαναφερθέντες κλάδους της πληροφορικής απαιτεί την εξαγωγή πληροφοριών (από τα αρχικά διαθέσιµα δεδοµένα) που σχετίζονται µε τις κατηγορίες των δεδοµένων, µε σηµαντικά κρυµµένα πρότυπα και τάσεις που παρουσιάζουν [33]. Η αναγνώριση προτύπων παρέχει για το σκοπό αυτό µια µεγάλη ποικιλία µεθόδων. 4.2 Παραδείγµατα αλγορίθµων ταξινόµησης Οι κατηγοριοποιητές/ταξινοµητές είναι αλγόριθµοι οι οποίοι αντιστοιχίζουν όλα τα δεδοµένα εισόδου ενός συνόλου Χ σε ένα σύνολο ετικετών Υ. Κάθε µία ετικέτα αντιπροσωπεύει µια διαφορετική κλάση-κατηγορία δεδοµένων. Μέχρι και σήµερα, έχουν προταθεί και χρησιµοποιηθεί πολλές µέθοδοι κατηγοριοποίησης. Μερικοί από τους πιο γνωστούς αλγόριθµους ταξινόµησης είναι : οι ταξινοµητές κοντινότερου γείτονα (k-nn, k-nearest Neighbor), οι µηχανές διανυσµάτων υπ-

55 4.2 Παραδείγµατα αλγορίθµων ταξινόµησης 49 οστήριξης (SVM), οι ταξινοµητές Naive Bayes, τα τεχνητά νευρωνικά δίκτυα (ANN) και τα δέντρα απόφασης (DT). Ολες οι προαναφερθείσες µέθοδοι χρησιµοποιούν µάθηση µε επίβλεψη, δηλαδή εκτός από τα αρχικά δεδοµένα υπάρχει και η πληρο- ϕορία για την κλάση στην οποία ανήκει το καθένα. Οι διάφορες µέθοδοι ταξινόµησης µπορούν να χωριστούν σε δύο γενικότερες κατηγορίες : Παραµετρικές - µέθοδοι που ϐασίζονται σε στατιστικές παραµέτρους που προϋποθέτουν κανονική κατανοµή των δεδοµένων. Απαιτούν εξαντλητική µά- ϑηση ή µία ϕάση εκπαίδευσης των παραµέτρων του ταξινοµητή. Παραδείγµατα παραµετρικών µεθόδων είναι τα SVM, τα δένδρα απόφασης και τα τεχνητά νευρωνικά δίκτυα. Μη παραµετρικές - ϐασίζουν την ταξινόµηση απευθείας στα δεδοµένα και δεν χρειάζονται εντατική µάθηση ή ϕάση εκπαίδευσης, π.χ. οι ταξινοµητές Naive Bayes και οι ταξινοµητές k-nn. Παρακάτω δίνεται µια συνοπτική περιγραφή µερικών εκ των σηµαντικότερων µεθόδων ταξινόµησης : Ταξινοµητής k κοντινότερων γειτόνων (k-nn) Ο συγκεκριµένος ταξινοµητής είναι η απλούστερη µέθοδος ταξινόµησης ο οποίος ταξινοµεί ένα νέο δείγµα µε ϐάση τα κοντινότερα δείγµατα εκπαίδευσης στο χώρο των χαρακτηριστικών. Πιο συγκεκριµένα, ο αλγόριθµος εντοπίζει τα k κοντινότερα δείγµατα και ταξινοµεί το νέο δείγµα στην κλάση στην οποία ανήκουν τα περισσότερα από αυτά. Ο καθορισµός των k κοντινότερων δειγµάτων γίνεται µε µία µετρική απόστασης, συνήθως χρησιµοποιείται η Ευκλείδεια απόσταση : dist(p, q) = n (q i p i ) 2 (4.1) όπου p και q είναι δύο σηµεία στο n-διάστατο χώρο, ή η απόσταση Manhattan: i=1 dist(p, q) = n p i q i (4.2) i=1

56 50 Κεφάλαιο 4. Αλγόριθµοι Ταξινόµησης (Classifiers) Η επιλογή του k εξαρτάται από τα δεδοµένα και πολλές ϕορές παίζει καθοριστικό ϱόλο στην απόδοση της µεθόδου. Μία καλή λύση για τον καθορισµό του k είναι η χρήση της µεθόδου διασταυρωµένης επικύρωσης (cross-validation). Ο ταξινοµητής κοντινότερου γείτονα έχει σε πολλές περιπτώσεις εξαιρετική απόδοση, ενώ πολλές παραλλαγές του αλγορίθµου έχουν προταθεί µέχρι και σήµερα στη ϐιβλιογραφία. Μία απλή παραλλαγή του είναι ο σταθµισµένος αλγόριθµος knn (weighted knn). Σύµφωνα µε αυτόν, σε κάθε γείτονας ανατίθεται ένα ϐάρος το οποίο εξαρτάται από την απόστασή του από το εκάστοτε νέο δείγµα. Οι κοντινότεροι γείτονες παίρνουν µεγαλύτερο ϐάρος, ενώ οι πιο µακρινοί µικρότερο. Η παραλλαγή αυτή αποσκοπεί στο να µην ληφθούν υπόψιν από τον ταξινοµητή δείγµατα που ϐρίσκονται αρκετά µακριά από το εκάστοτε νέο δείγµα Ταξινοµητής Naive Bayes Ο ταξινοµητής Naive Bayes [49] είναι ένας απλός πιθανοτικός ταξινοµητής που ϐασίζεται στο ϑεώρηµα του Bayes. Σύµφωνα µε τον συγκεκριµένο ταξινοµητή, έ- να πρότυπο ταξινοµείται στην κλάση C στην οποία είναι πιο πιθανό να ανήκει ϐάση προηγούµενης γνώσης. Ο ταξινοµητής προϋποθέτει πως κάθε διάνυσµα χαρακτηριστικών X i είναι υπό συνθήκη ανεξάρτητο από κάθε άλλο διάνυσµα χαρακτηριστικών X k για κάθε k i: p(x i C j, X k ) = p(x i C) (4.3) Το ϑεώρηµα του Bayes υπολογίζει την εκ των υστέρων πιθανότητα για κάθε κλάση C µε δεδοµένο ένα διάνυσµα χαρακτηριστικών X ως εξής : p(c j X 1,..., X n ) = p(c j)p(x 1,..., X n C j ) p(x 1,..., X n ) (4.4) όπου p(c j ) είναι η εκ των προτέρων πιθανότητα της κλάσης C j, p(x 1,..., X n C j ) είναι η συνάρτηση δεσµευµένης πυκνότητας πιθανότητας του X και p(x 1,..., X n ) είναι η συνάρτηση πυκνότητας πιθανότητας παρατήρησης του X (σταθερά κανονικοποίησης). Ο αριθµητής του ϑεωρήµατος είναι ισοδύναµος µε το µοντέλο από κοινού πι-

57 4.2 Παραδείγµατα αλγορίθµων ταξινόµησης 51 ϑανότητας (joint probability model) που µπορεί να γραφεί ως εξής : p(c j, X 1,..., X n ) = p(c j )p(x 1,..., X n C j ) = p(c j )p(x 1 C j )p(x 2,..., X n C j, X 1 ) =... = p(c j )p(x 1 C j )p(x 2 C j, X 1 )... p(x n C j, X 1, X 2,..., X n 1 ) (4.5) Χρησιµοποιώντας τη σχέση 4.3, το από κοινού µοντέλο της σχέσης 4.5 µπορεί να γραφεί ως εξής : n p(c j, X 1,..., X n ) = p(c j )p(x 1 C j )p(x 2 C j )... p(x n C j ) = p(c j ) p(x i C j ) i 1 (4.6) Ο naive Bayes ταξινοµητής συνδυάζει αυτό το µοντέλο έναν κανόνα απόφασης. Ενας συνηθισµένος κανόνας είναι η επιλογή της υπόθεσης που είναι πιο πιθανή, αυτός είναι ο κανόνας απόφασης maximum a posterior (MAP). Ο αντίστοιχος ταξινοµητής που προκύπτει ορίζεται ως εξής : n classify(x 1,..., X n ) = argmax c p(c j ) p(x i C j ) (4.7) Ο ταξινοµητής naive Bayes είναι ανθεκτικός σε ϑόρυβο των δεδοµένων εισόδου και απαιτεί µικρό αριθµό δεδοµένων εκπαίδευσης για την εκτίµηση των παραµέτρων. Παρά το γεγονός πως κάνει διάφορες υποθετικές απλουστεύσεις, συχνά αποδίδει καλύτερα από άλλες µεθόδους σε πολλές πραγµατικές εφαρµογές. i ένδρα απόφασης (Decision Trees) Ενα δένδρο απόφασης [31] είναι µία ιεραρχική δενδρική δοµή που χρησιµοποιείται για την ταξινόµηση δειγµάτων µε ϐάση µια σειρά από κανόνες που σχετίζονται µε τις παραµέτρους των ιδιοτήτων των διαθέσιµων κλάσεων. Για να λύσουµε ένα πρόβλη- µα ταξινόµησης µε δένδρα απόφασης αρχικά ξεκινάµε κάνοντας ερωτήσεις σχετικά µε τις ιδιότητες των δειγµάτων. Κάθε ϕορά που δίνεται απάντηση ακολουθεί επόµενη ερώτηση έως ότου ϕτάσουµε σε συµπέρασµα για την ετικέτα που υποδεικνύει την κλάση του δείγµατος που εξετάζουµε. Η ϱίζα και οι εσωτερικοί κόµβοι του δένδρου

58 52 Κεφάλαιο 4. Αλγόριθµοι Ταξινόµησης (Classifiers) είναι συνθήκες που αφορούν τις ιδιότητες των δειγµάτων, ενώ τα ϕύλλα του δένδρου αντιστοιχούν σε ετικέτες κλάσεων. Σηµαντικό πλεονέκτηµα των δένδρων απόφασης αποτελεί το γεγονός πως µ- πορούν να χρησιµοποιηθούν και σε περιπτώσεις όπου οι ιδιότητες των δειγµάτων δεν είναι µόνο αριθµητικές. Από την άλλη µεριά, η µέθοδος µπορεί να οδηγήσει στη δηµιουργία υπερβολικά περίπλοκων δένδρων που δε γενικεύουν καλά τα δεδοµένα. Υπάρχουν ταξινοµητές που ϐασίζονται στα δένδρα απόφασης, όπως π.χ. τα Τυχαία άση (Random Forests) [3]. Η µέθοδος αυτή περιλαµβάνει µία συλλογή δένδρων απόφασης που ονοµάζεται δάσος (forest). Ουσιαστικά, ο ταξινοµητής παίρνει το διάνυσµα χαρακτηριστικών κάθε νέου δείγµατος και το ταξινοµεί χρησιµοποιώντας κάθε δένδρο απόφασης του δάσους. Η έξοδος του ταξινοµητή είναι η ετικέτα της κλάσης που προέκυψε από την πλειοψηφία των δένδρων απόφασης. Ολα τα δένδρα εκπαιδεύονται µε τις ίδιες παραµέτρους, από τις οποίες καθορίζεται και η τελική απόφαση κατηγοριοποίησης Μηχανές ιανυσµάτων υποστήριξης (SVM) Τα SVM [44, 1] στηρίζονται στη ϑεωρία στατιστικής µάθησης και παρουσιάστηκαν από τον Vladimir Vapnik τη δεκαετία του 90. Η µέθοδος προσπαθεί να διαχωρίσει τα δείγµατα δύο κλάσεων εντοπίζοντας το ϐέλτιστο διαχωριστικό υπερεπίπεδο. Εστω ένα πρόβληµα µε δύο γραµµικά διαχωρίσιµες κλάσεις σε έναν d-διάστατο χώρο, π.χ. το πρόβληµα του σχήµατος 4.1. Τα διανύσµατα χαρακτηριστικών των δειγµάτων εκπαίδευσης ανήκουν σε 2 διαφορετικές κλάσεις {x i, y i } όπου το x i R d υποδηλώνει διανύσµατα σε έναν d-διάστατο χώρο χαρακτηριστικών και το y i { 1, +1} είναι µία ετικέτα κλάσης. Στόχος είναι ο εντοπισµός του υπερεπιπέδου που ϑα διαχωρίσει µε τον καλύτερο δυνατό τρόπο τα δεδοµένα. Το ϐέλτιστο υπερεπίπεδο είναι αυτό που έχει το µέγιστο δυνατό περιθώριο από τις δύο κλάσεις. Οσο µεγαλύτερο είναι το περιθώριο αυτό, τόσο µικρότερη η πιθανότητα ένα µελλοντικό δείγµα να ενταχθεί σε λάθος κλάση. Ενα υπερ-επίπεδο µπορεί να οριστεί µε την εξής εξίσωση : (w x) + b = 0 (4.8) όπου x είναι τα διανύσµατα χαρακτηριστικών, w είναι το διάνυσµα που καθορίζει την κλίση του διαχωριστικού επιπέδου και το b είναι ένα κατώφλι που ευθύνεται για την

59 4.2 Παραδείγµατα αλγορίθµων ταξινόµησης 53 Σχήµα 4.1: Παράδειγµα γραµµικού διαχωρισµού δύο κλάσεων µε υπερεπίπεδα. Τα διανύσµατα υποστήριξης επισηµαίνονται µε γκρι ϕόντο (εικόνα από [44]). παράλληλη µετατόπιση του διαχωριστικού επιπέδου. Οπως ϕαίνεται και στο σχήµα 4.1, στόχος είναι ο διαχωρισµός των δύο κλάσεων (οι κύκλοι έχουν την ετικέτα -1 και οι σταυροί την ετικέτα +1). Οι κύκλοι και οι σταυροί που ϐρίσκονται πιο κοντά στο υπερεπίπεδο είναι τα διανύσµατα υποστήριξης (support vectors). Τα διανύσµατα υποστήριξης κάθε κλάσης καθορίζουν ένα επίπεδο, P 1 και P 2 αντίστοιχα για τις δύο κλάσεις, ανάµεσα στα οποία υπάρχει το υπερεπίπεδου διαχωρισµού. Τα επίπεδα P 1 και P 2 είναι παράλληλα µεταξύ τους, ενώ το διαχωριστικό υπερεπίπεδο είναι κάθετο σε αυτά. Το περιθώριο µεταξύ των επιπέδων P 1 και P 2 είναι 2 w. Προκειµένου να επιτευχθεί καλή γενίκευση, το SVM µεγιστοποιεί το περιθώριο του υπερεπιπέδου. Το υπερεπίπεδο για τις δύο κλάσεις µπορεί να περιγραφεί µε τις εξισώσεις : (w x) + b = +1 (4.9) για την κλάση µε ετικέτα +1 και (w x) + b = 1 (4.10) για την κλάση µε ετικέτα -1. Η επιθυµητή µεγιστοποίηση του περιθωρίου µεταξύ του υπερεπιπέδου και των κλάσεων συνεπάγεται την ελαχιστοποίηση του µέτρου w υπό τους εξής δύο περιορισµούς : (w x) + b 1, αν το y k = +1 (4.11) (w x) + b 1, αν το y k = 1 (4.12)

60 54 Κεφάλαιο 4. Αλγόριθµοι Ταξινόµησης (Classifiers) Για τη ϐελτιστοποίηση συναρτήσεων υπό περιορισµούς χρησιµοποιούµε τετραγωνικό προγραµµατισµό. Οι περιορισµοί των σχέσεων 4.6 και 4.7 είναι ουσιαστικά ίδιοι καθώς αν τους πολλαπλασιάσουµε µε y k ϑα πάρουν και οι δύο τη µορφή : y k (w T x k + b) 1 (4.13) Η λαγκρανζιανή συνάρτηση που χρησιµοποιείται για την επίλυση του προβλήµατος είναι : L primal = 1 2 wt w a k (y k (w T x k + b) 1) (4.14) k όπου a 1, a 2,, a k είναι οι λαγκρανζιανοί πολλαπλασιαστές για τους οποίους ισχύει : a k 0. Επίσης, ισχύει ότι : L p w = w k a k y k x k = 0 w = k a k y k x k (4.15) Αντικαθιστώντας το w της σχέσης 4.10 στη σχέση 4.9 προκύπτει τελικά ότι : L dual = a j 1 2 j a i a j y i y j x T i x j = a T at Ha (4.16) i j όπου H ij = y i y j x T i x j. Ο πίνακας Η κατασκευάζεται µε ϐάση το σύνολο εκπαίδευσης. Στο τελικό αποτέλεσµα λαµβάνουµε υπόψη τα µη µηδενικά α τα οποία αντιστοιχούν σε δείγµατα που συνιστούν τα διανύσµατα υποστήριξης (support vectors). Τα µη µηδενικά α είναι σαφώς πολύ λίγα, εποµένως για την εύρεση της λύσης δε χρειάζεται να ϐασιστούµε σε όλα τα δείγµατα γεγονός που αποτελεί µεγάλο κέρδος ως προς το υπολογιστό κόστος. Μη γραµµικά διαχωρίσιµες κλάσεις Συχνά, σε πραγµατικές εφαρµογές οι κλάσεις δεν είναι γραµµικά διαχωρίσιµες. Σε αυτή την περίπτωση, ο χώρος των δεδοµένων εισόδου ϑα πρέπει να προβληθεί σε ένα χώρο χαρακτηριστικών υψηλότερης διάστασης H µέσω ενός µη-γραµµικού µετασχηµατισµού Φ : R d H. Στο χώρο αυτό, οι δύο κλάσεις ϑα είναι γραµµικά διαχωρίσιµες. Επειτα, ένα ϐέλτιστο υπερεπίπεδο κατασκευάζεται σε αυτό το χώρο υψηλότερης διάστασης χρησιµοποιώντας µία συνάρτηση πυρήνα (kernel function) K(x i, x j ), όπου : K(x i, x j ) = Φ(x i ) Φ(x j ) (4.17)

61 4.2 Παραδείγµατα αλγορίθµων ταξινόµησης 55 Η χρήση των συναρτήσεων πυρήνα δεν επιβαρύνει το συνολικό υπολογιστικό κόστος, καθώς τα διανύσµατα x i παίρνουν µέρος στις πράξεις µόνο µέσω των εσωτερικών γινόµενων τους. Αυτό σηµαίνει πως για να εντοπίσουµε το ϐέλτιστο διαχωριστικό υπερεπίπεδο σε ένα µη-γραµµικό χώρο δεν είναι απαραίτητο να υπολογίσουµε τα σηµεία Φ(x i ) στο χώρο αυτό. Οι συναρτήσεις πυρήνα είναι απαραίτητες για την προβολή των δεδοµένων σε ένα διαφορετικό χώρο όπου ένα υπερεπίπεδο µπορεί να χρησιµοποιηθεί για το διαχωρισµό. Η επιτυχία της µεθόδου εξαρτάται πολλές ϕορές από τη σωστή επιλογή της συνάρτησης πυρήνα και των παραµέτρων της η οποία τις περισσότερες ϕορές γίνεται πειραµατικά (µε χρήση της τεχνικής της διασταυρωµένης επικύρωσης - cross validation) προκειµένου να εντοπιστεί το καλύτερο δυνατό µοντέλο για τα εκάστοτε δεδοµένα. Στον πίνακα 4.1 δίνονται οι πιο συνηθισµένοι πυρήνες που χρησιµοποιούνται. K(x i, x j ) = x T i x K(x i, x j ) = (x T i x + τ) d K(x i, x j ) = exp( x x i 2 /2σ 2 ) K(x i, x j ) = tanh(κx T i x + θ) γραµµικός πολυωνυµικός RBF σιγµοειδής Πίνακας 4.1: Οι κυριότερες συναρτήσεις πυρήνα (kernel functions). SVM χαλαρού περιθωρίου Ο ταξινοµητής στον οποίο αναφερθήκαµε µέχρι στιγµής κάνει ακριβή γραµµικό διαχωρισµό των δειγµάτων σε κάποιο χώρο χαρακτηριστικών µε τη χρήση συναρτήσεων πυρήνα. Ωστόσο, πολλές ϕορές τα δεδοµένα δεν µπορούν να διαχωριστούν ακριβώς µε αποτέλεσµα ένας τέτοιος διαχωρισµός τους να επιφέρει τελικά κακή γενίκευση. Το γεγονός αυτό οδήγησε σε µία τροποποίηση των µηχανών διανυσ- µάτων υποστήριξης τέτοια ώστε τα σηµεία που δεν ταξινοµούνται σωστά να επιδέχονται κάποια ποινή η οποία αυξάνεται γραµµικά µε την απόσταση από το υπερεπίπεδο διαχωρισµού. Στον ταξινοµητή χαλαρού περιθωρίου (soft margin) που προκύπτει εισάγονται χαλαρές µεταβλητές (slack variables, ɛ k ) στους περιορισµούς του προβλήµατος ϐελτιστοποίησης : y k (w T x k + b) 1 + ɛ k 0, ɛ k 0 (4.18)

62 56 Κεφάλαιο 4. Αλγόριθµοι Ταξινόµησης (Classifiers) Σχήµα 4.2: Προβολή των αρχικών δεδοµένων στο χώρο των χαρακτηριστικών µε χρήση συνάρτησης πυρήνα Φ. Ετσι, η λαγκρανζιανή σε αυτή την περίπτωση παίρνει την εξής µορφή : L primal = 1 2 w 2 + C i ɛ i i a i (y i (x i w + b) 1 + ɛ i ) i µ i ɛ i (4.19) όπου το C είναι παράµετρος που καθορίζεται από το χρήστη (όσο υψηλότερη τόσο µεγαλύτερη η ποινή για τα λάθως ταξινοµηµένα δείγµατα) και τα µ i είναι λαγκραζιανοί πολλαπλασιαστές για τους οποίους ισχύει : µ i 0. Σχήµα 4.3: (εικόνα από [1]) Γραµµικός διαχωρισµός στην περίπτωση των µη-διαχωρίσιµων δεδοµένων Ταξινόµηση πολλών κλάσεων Η παραπάνω περιγραφή αφορούσε προβλήµατα ταξινόµησης δύο κλάσεων, όπου υπάρχουν µόνο δύο πιθανές ετικέτες { 1, +1}. Η µέθοδος των SVM ωστόσο µ- πορεί να επεκταθεί και σε προβλήµατα µε πολλές κλάσεις, όπου κάθε διάνυσµα

63 4.2 Παραδείγµατα αλγορίθµων ταξινόµησης 57 χαρακτηριστικών µπορεί να αντιστοιχηθεί σε µία ετικέτα από ένα σύνολο K ετικετών {1,, K}. Υπάρχουν δύο γενικές προσεγγίσεις για ταξινόµηση πολλών κλάσεων µε τη χρήση των SVM: η προσέγγιση ένας-εναντίον-όλων (one-against-all) η προσέγγιση ένας-εναντίον-ενός (one-against-one) Στην πρώτη προσέγγιση (one-against-all), κατασκευάζονται SVMs για το διαχωρισµό κάθε κλάσης σε σχέση µε όλες τις υπόλοιπες. Με άλλα λόγια, µία συγκεκριµένη κλάση συγκρίνεται µε όλες τις άλλες κλάσεις µαζί. Για παράδειγµα, έστω πως έχουµε τέσσερις κλάσεις C 1, C 2, C 3, C 4. Στην περίπτωση αυτή, κατασκευάζονται τέσσερα SVMs. Για την ταξινόµηση στην κλάση C 1, το SVM ταξινοµεί είτε στην κλάση C 1, είτε όχι στην κλάση C 1 (δηλαδή, στις C 2, C 3, C 4 ) κτλ. Για ένα σύνολο K κλάσεων C = C 1, C 2,..., C K απαιτείται η εκπαίδευση K δυαδικών SVM. Στη δεύτερη περίπτωση (one-against-one), κατασκευάζονται SVMs για όλα τα δυνατά Ϲευγάρια κλάσεων. Για παράδειγµα, έστω ότι έχουµε τέσσερις κλάσεις C 1, C 2, C 3, C 4. Στην περίπτωση αυτή, έξι SVMs ϑα κατασκευαστούν :C 1 or C 2, C 1 or C 3, C 1 or C 4, C 2 or C 3, C 2 or C 4, C 3 or C 4. Για ένα σύνολο K κλάσεων C = C 1, C 2,..., C K απαιτείται η εκπαίδευση K (K 1)/2 δυαδικών SVM. Οι µηχανές διανυσµάτων υποστήριξης αποτελούν µία από τις πιο ακριβείς µεθόδους, έχουν καλό ϑεωρητικό υπόβαθρο και δεν επηρεάζονται από το πρόβληµα των πολλών διαστάσεων. Σηµαντικό είναι επίσης το γεγονός πως τα SVM εκτός από τον καθορισµό της ετικέτας (κλάσης) κάθε νέου δείγµατος µας δίνουν και την ίδια την τιµής της απόστασης από κάθε κλάση. Αυτό µπορεί να χρησιµοποιηθεί ως ένα µέτρο της ϐεβαιότητάς µας για την εκτίµηση καθώς δείγµατα που ϐρίσκονται κοντά στο υπερεπίπεδο (και εποµένως χαρακτηρίζονται από µικρή απόσταση) είναι πιθανό να έχουν ταξινοµηθεί λάθος. Τα τευλευταία χρόνια, οι µηχανές διανυσµάτων υποστήριξης έχουν χρησιµοποιηθεί σε πάρα πολλές εφαρµογές αναγνώρισης προτύπων δίνοντας σε πολλές περιπτώσεις εξαιρετικά αποτελέσµατα. Μερικά προβλήµατα στα οποία έχουν εφαρµοστεί SVMs είναι : ανίχνευση προσώπων, αναγνώριση αντικειµένων, αναγνώριση χειρόγραφων γραµµάτων και ψηφίων, αναγνώριση ανθρώπινης οµιλίας, ανάκτηση εικόνων και ϕυσικά διάφορα προβλήµατα ταξινόµησης.

64 58 Κεφάλαιο 4. Αλγόριθµοι Ταξινόµησης (Classifiers) Μέθοδοι µέτρησης της απόδοσης των ταξινοµητών Αφού κατασκευάσουµε ένα µοντέλο κατηγοριοποίησης είναι σηµαντικό να αξιολογήσουµε την ακρίβεια και την απόδοσή του. Πολλές από τις µεθόδους που έχουν προταθεί και χρησιµοποιούνται σήµερα στηρίζονται στη µήτρα σύγχυσης (confusion matrix). Αν τα δεδοµένα µας ανήκουν σε C διαφορετικές κλάσεις, η µήτρα σύγχυσης είναι ένα πίνακας διαστάσεων C C και περιέχει στις γραµµές της τις πραγµατικές κλάσεις του προβλήµατος και στις στήλες της τις προβλεπόµενες κλάσεις. Στην κύρια διαγώνιο εµφανίζεται ο αριθµός των δειγµάτων κάθε κλάσης που ταξινοµήθηκε σωστά (C σωστές κατηγοριοποιήσεις) ενώ στα υπόλοιπα κελιά της µήτρας εµφανίζεται ο αριθµός των δειγµάτων κάθε κλάσης που ταξινοµήθηκε λάθος σε συνδυασµό ϕυσικά µε την ετικέτα που λανθασµένα πήρε καθένα από αυτά τα δείγµατα (C 2 C λάθος ταξινοµήσεις). Η µήτρα σύγχυσης µας δίνει µια αναλυτική καταγραφή των αποτελεσµάτων της κατηγοριοποίησης, ωστόσο συνήθως δεν χρησιµοποιείται η ίδια για την µέτρηση της απόδοσης ενός κατηγοριοποιητή αλλά µετρικές που στηρίζονται σε αυτή. Τα περισσότερα µέτρα απόδοσης εκφράζονται σε σχέση µε τον αριθµό των αληθώς ϑετικών (True Positives, TP), των αληθώς αρνητικών (True Negatives, TN), των ψευδώς ϑετικών (False Positives, FP) και ψευδώς αρνητικών (False Negatives, FN) ταξινοµήσεων που αφορούν κάθε κλάση. Στη συνέχεια δίνονται παραδείγµατα τέτοιων µετρικών που χρησιµοποιούνται ευρέως σε εφαρµογές ταξινόµησης αλλά και ανάκτησης εικόνων : Ακρίβεια (Accuracy) = T P + T N T P + F P + T N + F N (4.20) Η Ακρίβεια (Accuracy) ή αλλιώς Ποσοστό Επιτυχίας (Success Rate) είναι ουσιαστικά το πλήθος των σωστών ταξινοµήσεων προς το σύνολο των δειγµάτων ελέγχου. Αποτελεί το συνηθέστερο µέτρο αξιολόγησης ενός κατηγοριοποιητή. Ισοδύναµα, η συνολική απόδοση του µοντέλου µπορεί να εκφραστεί και µε το ποσοστό σφάλµατος (error rate) ή αλλιώς λάθος ταξινόµησης (Classification Error) που υπολογίζεται ως το πλήθος των λανθασµένων ταξινοµήσεων προς το σύνολο των δειγµάτων ελέγχου : Ποσοστό λάθους (Error rate) = F P + F N T P + F P + T N + F N (4.21) Μετρικές που επίσης χρησιµοποιούνται συχνά είναι οι εξής : Ανάκληση (Recall) = T P T P + F N (4.22)

65 4.2 Παραδείγµατα αλγορίθµων ταξινόµησης 59 Η ανάκληση (recall) ή αλλιώς ποσοστό αληθώς ϑετικών (True Positive Rate, TPR) επίσης γνωστή και ως ευαισθησία (sensitivity) είναι ένα στατιστικό µέτρο που δείχνει πόσα δείγµατα από µία κλάση κατάφερε να ϐρει ο κατηγοριοποιητής. Ευστοχία (P recision) = T P T P + F P (4.23) Η ευστοχία δείχνει πόσα από τα δείγµατα που κατέταξε ο ταξινοµητής σε µία κλάση ανήκουν όντως στην κλάση αυτή. Πολλές ϕορές, αντί για την ευστοχία και την ανάκληση χρησιµοποιείται ένας συνδυασµός τους, η µετρική F : F = 2 recall precision recall + precision (4.24) Ουσιαστικά, η µετρική F είναι ο αρµονικός µέσος της ανάκλησης και της ευστοχίας. Υψηλή τιµή του F υποδεικνύει πως και οι δύο (ανάκληση και ευστοχία) είναι αρκετά υψηλές. Ακόµη ένα µέτρο απόδοσης είναι το ποσοστό ψευδώς ϑετικών (False Positive Rate, FPR): FPR = F P F P + T N (4.25) Για την µέτρηση της απόδοσης των ταξινοµητών χρησιµοποιούνται επίσης οι καµπύλες ROC (Receiver Operator Characteristic). Είναι µία χρήσιµη τεχνική για την οπτικοποίηση της απόδοσης των κατηγοριοποιητών που αναπτύχθηκε αρχικά στη δεκαετία του 1950 για την ανάλυση ϑορύβου στα σήµατα. Μία καµπύλη ROC είναι ένα διάγραµµα του TPR (άξονας y) σε σχέση µε το FPR (άξονας x). Για το σχηµατισµό της καµπύλης δοκιµάζονται διάφορες τιµές ορίου απόφασης για την ταξινόµηση και καταγράφονται τα αντίστοιχα TPR και FPR. Η απόδοση κάθε µοντέλου αναπαρίσταται ως ένα σηµείο στην καµπύλη ROC. Το σηµείο (0, 0) ανήκει στο µοντέλο που προβλέπει τα πάντα ως αρνητική κατηγορία, το σηµείο (1, 1) ανήκει στο µοντέλο που προβλέπει τα πάντα σαν ϑετική κατηγορία, ενώ το σηµείο (0, 1) είναι το ιδανικό. Καλοί ταξινοµητές είναι αυτοί που πλησιάζουν περισσότερο στην αριστερή πάνω γωνία του διαγράµµατος. Ολες οι παραπάνω µετρικές απόδοσης αφορούν κυρίως προβλήµατα δυαδικής ταξινόµησης αλλά µπορούν να επεκταθούν και σε προβλήµατα πολλών κλάσεων υιο- ϑετώντας για παράδειγµα την προσέγγιση µία κλάση εναντίον όλων των άλλων (one-against-all).

66

67 Κεφάλαιο 5 Πειραµατικά Αποτελέσµατα Στα πειράµατα που πραγµατοποιήθηκαν χρησιµοποιήθηκαν δύο ϐάσεις δεδοµένων : η πρώτη είναι µία ϐάση µε 10 κατηγορίες πεταλούδων και η δεύτερη µία ϐάση µε 102 κατηγορίες λουλουδιών. Αρχικά, έγινε εξαγωγή τοπικών χαρακτηριστικών από τις εικόνες χρησιµοποιώντας τους εξής περιγραφείς : SIFT, SURF, LBP, HOG και HSV values. Στη συνέχεια, δοκιµάστηκε η µέθοδος σάκος των χαρακτηριστικών (BOF) για την τελική αναπαράσταση των εικόνων η οποία και χρησιµοποιήθηκε για την ταξινόµηση. Ο ταξινοµητής που επιλέχθηκε για τα πειράµατα είναι οι µηχανές διανυσµάτων υποστήριξης (SVM). οκιµάστηκαν διάφορες παράµετροι τόσο στη µέ- ϑοδο BOF όσο και στα µοντέλα ταξινόµησης. Για την εξαγωγή των χαρακτηριστικών χρησιµοποιήθηκε η ϐιβλιοθήκη VLFeat και η εργαλειοθήκη Computer Vision System του Matlab. Για τον κλασικό SIFT περιγραφέα προτιµήθηκε η υλοποίηση που δίνεται από τον Lowe καθώς µετά από δοκιµές αποδείχθηκε πως δίνει λίγο καλύτερα αποτελέσµατα. Για την ταξινόµηση χρησιµοποιήθηκε η ϐιβλιοθήκη LIBVM. Σ- τις επόµενες ενότητες, δίνονται περισσότερες λεπτοµέρειες για τα δεδοµένα και τα αποτελέσµατα των πειραµάτων. 5.1 Οι ϐάσεις εικόνων που χρησιµοποιήθηκαν Η πρώτη ϐάση εικόνων που χρησιµοποιήθηκε για τα πειράµατά µας είναι η ϐάση Butterfly η οποία είναι διαθέσιµη από το πανεπιστήµιο του Leeds [16]. Αποτελείται από 10 κατηγορίες/είδη πεταλούδων και περιλαµβάνει συνολικά 832 εικόνες. Η κατανοµή των εικόνων στις κατηγορίες κυµαίνεται από 55 έως 100 εικόνες ανά κατη- 61

68 62 Κεφάλαιο 5. Πειραµατικά Αποτελέσµατα γορία. Στο σχήµα 5.1 ϕαίνονται παραδείγµατα από κάθε κλάση της ϐάσης. Οπως ϕαίνεται από το σχήµα, αρκετές κατηγορίες είναι δύσκολο να ξεχωρίσουν λόγω της χρωµατικής τους οµοιότητας. Επίσης, οι εικόνες παρουσιάζουν σηµαντικές διαφορές στο ϕωτισµό και την πόζα. Μαζί µε τις αρχικές εικόνες είναι επίσης διαθέσιµες και µάσκες κατάτµησης (segmentation masks) οι οποίες όπως ϑα δούµε και στη συνέχεια χρησιµοποιήθηκαν στα πειράµατα. Οι µάσκες κατάτµησης κατασκευάστηκαν µε ϐάση τη µέθοδο που προτείνεται από τη Veksler [7]. Επίσης, πραγµατοποιήθηκαν πειράµατα µε τη ϐάση 102 Category Flower Dataset που παρέχεται από το Πανεπιστήµιο της Οξφόρδης [46]. Στη ϐάση αυτή περιλαµ- ϐάνονται 102 διαφορετικές κλάσεις λουλουδιών που συναντώνται συχνά στην Αγγλία. Κάθε κλάση περιέχει από 40 έως 258 εικόνες, ενώ το σύνολο των εικόνων ανέρχεται στις Οι εικόνες εµφανίζουν έντονες παραλλαγές όσον αφορά την κλίµακα, την πόζα και τις συνθήκες ϕωτισµού. Επιπλέον, υπάρχουν κατηγορίες που εµφανίζουν µεγάλες παραλλαγές µέσα στην κατηγορία και αρκετές παρόµοιες κατηγορίες. Στο σχήµα 5.2 δίνονται αλφαβητικά τα ονόµατα των 102 κατηγοριών µαζί µε αντίστοιχες εικόνες-δείγµατα από την κάθε κλάση. Εκτός από τις αρχικές εικόνες της ϐάσης είναι διαθέσιµες από το πανεπιστήµιο της Οξφόρδης και οι εικόνες που προέκυψαν µετά από κατάτµηση (segmentation) προκειµένου να αποµονωθεί σε κάθε εικόνα το λουλούδι. Η κατάτµηση των εικόνων έγινε µε τη µέθοδο των Nilsback και Zisserman [45]. 5.2 Προ-επεξεργασία και επιλογές παραµέτρων Τόσο στις εικόνες των πεταλούδων, όσο και στις εικόνες των λουλουδιών υπάρχει έντονο ϕόντο στις εικόνες (ϕύλλα, πρασινάδα, διάφορες επιφάνειες κ.τ.λ.) που ϑα επηρέαζαν σηµαντικά την αναπαράσταση και εποµένως και την ταξινόµηση των αντικειµένων που µας ενδιαφέρουν. Γι αυτό το λόγο χρησιµοποιήσαµε τις µάσκες κατάτµησης των εικόνων που είναι διαθέσιµες για τον εντοπισµό του µικρότερου ορ- ϑογωνίου (smallest bounding box) στην κάθε εικόνα που περιέχει την πεταλούδα ή το λουλούδι που απεικονίζεται σε αυτή. Η εξαγωγή των χαρακτηριστικών έγινε από αυτές τις ορθογώνιες περιοχές. Για τη ϐάση των λουλουδιών, οι µάσκες κατάτµησης ορισµένων εικόνων ϐρέθηκε πως είναι προβληµατικές και για αυτό το λόγο οι εικόνες αυτές αφαιρέθηκαν από το σετ δεδοµένων. Συνολικά, ο αριθµός των εικόνων των

69 5.2 Προ-επεξεργασία και επιλογές παραµέτρων 63 λουλουδιών που τελικά χρησιµοποιήθηκε είναι Σχήµα 5.1: είγµατα από τις 10 κατηγορίες πεταλούδων που χρησιµοποιήθηκαν στα πειρά- µατα. Η κατασκευή των λεξικών που χρησιµοποιήθηκαν στα πειράµατα έγινε µε τον αλγόριθµο K-means, ωστόσο αντί για τον κλασικό αλγόριθµο, χρησιµοποιήθηκε η παραλλαγή του Elkan [2]. Η µέθοδος αυτή επιταχύνει ουσιαστικά τον αρχικό αλγόριθµο αποφεύγοντας αχρείαστους υπολογισµούς απόστασης εφαρµόζοντας την τριγωνική ανισότητα και λαµβάνοντας υπόψη τα άνω και κάτω όρια για τις αποστάσεις ανάµεσα στα σηµεία και τα κέντρα των συστάδων. Για την ταξινόµηση των εικόνων η κάθε ϐάση χωρίστηκε σε σύνολο εκπαίδευσης (training set) και σύνολο ελέγχου (testing set). Για τη ϐάση των λουλουδιών ακολου- ϑήσαµε το διαχωρισµό που χρησιµοποιήθηκε και από την οµάδα του πανεπιστήµιου της Οξφόρδης. Συγκεκριµένα, το σύνολο εκπαίδευσης αποτελείται από 1976 εικόνες και το σύνολο ελέγχου από 5993 εικόνες. Για τη ϐάση των πεταλούδων χωρίσαµε εµείς τη ϐάση τυχαία σε 300 εικόνες εκπαίδευσης και 532 εικόνες ελέγχου. Φυσικά, τόσο το σύνολο εκπαίδευσης όσο και το σύνολο ελέγχου κάθε ϐάσης περιέχουν εικόνες από όλες τις υπάρχουσες κατηγορίες. Ο ταξινοµητής που χρησιµοποιήθηκε, όπως έχει ήδη αναφερθεί, είναι οι µηχανές διανυσµάτων υποστήριξης (SVMs) λόγω της εξαιρετικής τους επίδοσης σε παρόµοια προβλήµατα. Πιο συγκεκριµένα, µελετήθηκαν 2 πυρήνες : ο γραµµικός και ο RBF. Οι καλύτερες παράµετροι για τους δύο πυρήνες καθορίστηκαν µε 5-fold cross validation στα δεδοµένα εκπαίδευσης.

70 64 Κεφάλαιο 5. Πειραµατικά Αποτελέσµατα Σχήµα 5.2: Οι 102 κλάσεις λουλουδιών. Κάθε εικόνα αποτελεί δείγµα διαφορετικής κ- λάσης. 5.3 Πειράµατα µε τη ϐάση Butterfly Στην ενότητα αυτή παρουσιάζουµε τα αποτελέσµατα των πειραµάτων που έγιναν µε τη ϐάση των πεταλούδων. Υπολογίσαµε χαρακτηριστικά που περιγράφουν το χρώ- µα, το σχήµα και την υφή κάθε εικόνας. Συγκεκριµένα, δοκιµάσαµε τον περιγραφέα

71 5.3 Πειράµατα µε τη ϐάση Butterfly 65 SIFT (διάσταση 128), τον περιγραφέα SURF (διάσταση 128, αντί του κλασσικού 64), τον περιγραφέα LBP (διάσταση 58) και τον HOG (διάσταση 36). Επίσης, για το χρώ- µα χρησιµοποιήσαµε σαν χαρακτηριστικό τις HSV τιµές όλων των εικονοστοιχείων κάθε εικόνας (διάσταση 3). Η επιλογή του χρωµατικού µοντέλου HSV έγινε γιατί είναι λιγότερο ευαίσθητο σε αλλαγές του ϕωτισµού. Οσον αφορά το µέγεθος του λεξικού, για τους περιγραφείς SIFT και SURF δοκιµάσαµε 1000, 2000 και 4000 λέξεις, ενώ για τους υπόλοιπους λιγότερες λέξεις καθώς η διάσταση τους είναι αρκετά χαµηλότερη και λογικά απαιτείται µικρότερο λεξικό για την αναπαράστασή τους. Συγκεκριµένα, για τον HOG δοκιµάσαµε 300, 500 και 1000 λέξεις, για τον LBP 500, 700 και 1000 λέξεις και για τον HSV 100, 200 και 400 λέξεις. Στη συνέχεια, παρατίθενται πίνακες µε το ποσοστά επιτυχούς ταξινόµησης για τα διαφορετικά µεγέθη του λεξικού και διαφορετικούς πυρήνες για τα SVM. Στη δεύτερη γραµµή κάθε πίνακα δίνονται οι παράµετροι του καλύτερου µοντέλου ταξινόµησης για τους 2 πυρήνες (γραµµικό και RBF) µαζί µε τα αντίστοιχα ποσοστά, ενώ στην πρώτη γραµµή δίνονται αποτελέσµατα χρησιµοποιώντας άλλες, τυχαίες τιµές στις παραµέτρους για σύγκριση. Οι καλύτερες παράµετροι του εκάστοτε µοντέλου καθορίστηκαν µε 5-fold cross validation. Από τον πίνακα 5.1 προκύπτει πως καλύτερο ποσοστό ταξινόµησης για τον περιγραφέα SIFT δίνει το λεξικό των 2000 λέξεων και πως ο RBF πυρήνας οδηγεί σε λίγο καλύτερα ποσοστά σε σύγκριση µε το γραµµικό. Επίσης, παρατηρούµε πως η χρήση του συγκεκριµένου περιγραφέα οδηγεί σε πολύ µεγάλο ποσοστό επιτυχίας στην ταξινόµηση (93.8%), γεγονός που επιβεβαιώνει τη δύναµη και την ευρωστία που τον χαρακτηρίζει. Ο SURF που προτάθηκε σαν επέκταση του SIFT παρατηρούµε π- ως δίνει και αυτός πολύ ικανοποιητικά αποτελέσµατα (πίνακας 5.2), αντίστοιχα µε αυτά του SIFT. Το καλύτερο λεξικό και για τον SURF ϐρέθηκε πως είναι αυτό των 2000 λέξεων. Από την άλλη µεριά, οι περιγραφείς HOG και LBP ϕαίνεται πως υστερούν αρκετά σε σχέση µε τους SIFT και SURF, καθώς τα ποσοστά επιτυχίας και των δύο είναι χαµηλότερα περίπου κατά το ήµισυ σε σύγκριση µε τα αντίστοιχα ποσοστά των περιγραφέων SIFT και SURF (πίνακες 5.4 και 5.3). Οσον αφορά τα µεγέθη των λεξικών, για τον LBP προκύπτει πως καλύτερο είναι αυτό των 700 λέξεων, ενώ για τον HOG αποδείχθηκε πως το λεξικό των 300 και των 500 λέξεων αποδίδουν εξίσου

72 66 Κεφάλαιο 5. Πειραµατικά Αποτελέσµατα καλά. Τέλος, ο περιγραφέας HSV για το χρώµα ϕαίνεται πως αποδίδει αρκετά καλά στο συγκεκριµένο σετ δεδοµένων (πίνακας 5.5), καθώς πέτυχε ποσοστό επιτυχίας 61.65% µε γραµµικό πυρήνα και λεξικό 200 λέξεων που αποδείχθηκε το καλύτερο µεταξύ των τριών που δοκιµάσαµε. Περιγραφέας SIFT (1000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας SIFT (2000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας SIFT (4000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Πίνακας 5.1: Ποσοστά ταξινόµησης µε χρήση του περιγραφέα SIFT και λεξικό 1000, 2000 και 4000 λέξεων για τη ϐάση Butterfly. Στο σχήµα 5.4 ϕαίνεται η µήτρα σύγχυσης για το καλύτερο µοντέλο µε γραµ- µικό πυρήνα του περιγραφέα SIFT. Από τον πίνακα προκύπτει πως η κλάση µε το µεγαλύτερο πρόβληµα είναι η 9η αρκετά δείγµατα της οποίας ταξινοµήθηκαν λαν- ϑασµένα στην 6η κλάση. Αντίστοιχα, στα σχήµατα 5.5, 5.8 ϕαίνονται οι µήτρες σύγχυσης για το καλύτερο µοντέλο µε γραµµικό πυρήνα των περιγραφέων HOG και HSV. Παρατηρούµε πως στην περίπτωση του HOG η κλάση µε το µεγαλύτερο πρόβληµα είναι και πάλι η 9η καθώς µόνο το 15% των δειγµάτων της ταξινοµήθηκε σωστά, ενώ τα υπόλοιπα δείγµατα ταξινοµήθηκαν λανθασµένα κυρίως στις κλάσεις 6 και 10. Στο ίδιο σχήµα, ϕαίνεται πως το καλύτερο ποσοστό ταξινόµησης έχει η 1η κλάση µε το 75% των δειγµάτων της να παίρνουν τη σωστή ετικέτα. Οσον αφορά τον HSV, µικρότερο ποσοστό σωστής ταξινόµησης έχει η 2η κλάση µε τις λάθος ταξινοµήσεις να αφορούν κυρίως τις κλάσεις 3 και 7. Αντίθετα, η κλάση µε το καλύτερο ποσοστό ταξινόµησης ως προς τον HSV είναι η 8η (96%), κάτι που είναι αναµενόµενο

73 5.3 Πειράµατα µε τη ϐάση Butterfly 67 καθώς είναι η µόνη κλάση πεταλούδων της ϐάσης µε κυρίαρχο το λευκό χρώµα στα ϕτερά. Σχήµα 5.3: Εικόνες πεταλούδων της 2ης κατηγορίας (Heliconius charitonius) που ταξινοµήθηκαν λανθασµένα στην 3η (Heliconius erato) µε χρήση του περιγραφέα SIFT και το λεξικό των 2000 λέξεων. Σχήµα 5.4: Μήτρα σύγχυσης για τον περιγραφέα SIFT και λεξικό 2000 λέξεων όπως προέκυψε από το καλύτερο µοντέλο µε γραµµικό πυρήνα οκιµή διαφορετικών ανιχνευτών µε τον περιγραφέα SIFT Σε αυτή την ενότητα, µελετάµε την απόδοση του περιγραφέα SIFT σε συνδυασµό µε διάφορους ανιχνευτές. Εχουµε ήδη αναφέρει πως στην αρχική του εκδοχή ο περιγραφέας αυτός χρησιµοποιεί τον ανιχνευτή DoG για την ανίχνευση σηµείων ενδιαφέροντος. Η χρήση διαφορετικών ανιχνευτών, όµως, µπορεί να οδηγήσει σε

74 68 Κεφάλαιο 5. Πειραµατικά Αποτελέσµατα Περιγραφέας SURF (1000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας SURF (2000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας SURF (4000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Πίνακας 5.2: Ποσοστά ταξινόµησης µε χρήση του περιγραφέα SURF και λεξικό 1000, 2000 και 4000 λέξεων για τη ϐάση Butterfly. Περιγραφέας LBP (500 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας LBP (700 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας LBP (1000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Πίνακας 5.3: Ποσοστά ταξινόµησης µε χρήση του περιγραφέα LBP και λεξικό 500, 700 και 1000 λέξεων για τη ϐάση Butterfly.

75 5.3 Πειράµατα µε τη ϐάση Butterfly 69 Περιγραφέας HOG (300 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας HOG (500 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας HOG (1000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Πίνακας 5.4: Ποσοστά ταξινόµησης µε χρήση του περιγραφέα HOG και λεξικό 300, 500 και 1000 λέξεων για τη ϐάση Butterfly. Περιγραφέας HSV (100 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας HSV (200 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας HSV (400 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Πίνακας 5.5: Ποσοστά ταξινόµησης µε χρήση του περιγραφέα HSV και λεξικό 100, 200 και 400 λέξεων για τη ϐάση Butterfly.

76 70 Κεφάλαιο 5. Πειραµατικά Αποτελέσµατα Σχήµα 5.5: Μήτρα σύγχυσης για τον περιγραφέα HOG και λεξικό 500 λέξεων όπως προέκυψε από το καλύτερο µοντέλο µε γραµµικό πυρήνα. Σχήµα 5.6: Εικόνες πεταλούδων της 9ης κατηγορίας (Vanessa atalanta) που ταξινοµήθηκαν λανθασµένα στην 6η (Nymphalis antiopa) µε χρήση του περιγραφέα HOG και το λεξικό των 500 λέξεων. Σχήµα 5.7: Εικόνες πεταλούδων της 7ης κατηγορίας (Papilio cresphontes) που ταξινοµήθηκαν λανθασµένα στην 2η (Heliconius charitonius) µε χρήση του περιγραφέα HSV και το λεξικό των 200 λέξεων.

77 5.3 Πειράµατα µε τη ϐάση Butterfly 71 Σχήµα 5.8: Μήτρα σύγχυσης για τον περιγραφέα HSV και λεξικό 200 λέξεων όπως προέκυψε από το καλύτερο µοντέλο µε γραµµικό πυρήνα. αρκετά διαφορετικά σύνολα χαρακτηριστικών και εποµένως σε διαφορετικά ποσοστά ταξινόµησης. Στην εικόνα 5.9 ϕαίνονται τα σηµεία-κλειδιά που εντοπίζονται σε µία από τις εικόνες της ϐάσης Butterfly χρησιµοποιώντας διαφορετικούς ανιχνευτές. Εκτός από τον ανιχνευτή DoG, δοκιµάσαµε τους ανιχνευτές Hessian, Hessian- Laplace και Harris-Laplace προκειµένου να διαπιστώσουµε σε ποιο ϐαθµό επηρεάζει η ανίχνευση των σηµείων-κλειδιών σε κάθε εικόνα την ταξινόµηση. Για τα πειράµατα αυτής της ενότητας χρησιµοποιήθηκε η ϐιβλιοθήκη VLFeat. Για την αναπάρασταση των εικόνων χρησιµοποιήθηκε λεξικό 2000 λέξεων καθώς όπως προέκυψε από την προηγούµενη ενότητα δίνει τα καλύτερα αποτελέσµατα. Στον πίνακα 5.6 ϕαίνονται τα καλύτερα µοντέλα µε γραµµικό και RBF πυρήνα και τα αντίστοιχα ποσοστά ταξινόµησης. Από τα αποτελέσµατα προκύπτει πως ο ανιχνευτής DoG δίνει τα χαµηλότερα ποσοστά ταξινόµησης µαζί µε τον ανιχνευτή Hessian. Καλύτερη απόδοση επιτυγχάνεται µε τον ανιχνευτή Harris Laplace παρόλο που τα σηµεία κλειδιά που εντοπίζονται µε τον συγκεκριµένο ανιχνευτή είναι λιγότερα σε αριθµό.

78 72 Κεφάλαιο 5. Πειραµατικά Αποτελέσµατα Σχήµα 5.9: Τα σηµεία-κλειδιά που εντοπίστηκαν σε µία εικόνα της ϐάσης Butterfly χρησι- µοποιώντας διαφορετικούς ανιχνευτές. 5.4 Πειράµατα µε τη ϐάση 102 Category Flower Dataset Στην ενότητα αυτή παρουσιάζουµε τα αποτελέσµατα των πειραµάτων που έγιναν µε τη ϐάση των λουλουδιών. Η ταξινόµηση λουλουδιών αποτελεί δυσκολότερο πρόβληµα σε σύγκριση µε την ταξινόµηση αντικειµένων όπως αυτοκίνητα, ποδήλατα κ.τ.λ. καθώς υπάρχει µεγάλη οµοιότητα µεταξύ των κλάσεων. Επιπλέον, τα λουλούδια είναι εύκαµπτα αντικείµενα (non-rigid objects) που µπορούν να παραµορφωθούν µε πολλούς τρόπους γεγονός που οδηγεί σε µεγάλη ποικιλοµορφία των αντικειµένων µέσα σε κάθε κατηγορία. Οι εικόνες που αποτελούν τη ϐάση διαφέρουν σηµαντικά ως προς το ϕωτισµό, την κλίµακα, την ανάλυση και την ποιότητα. Τα χαρακτηριστικά που χρησιµοποιήθηκαν για την περιγραφή των εικόνων είναι : SIFT, SURF, HOG και LBP. Στον πίνακα 5.7 ϕαίνονται αποτελέσµατα ταξινόµησης που προέκυψαν από τους περιγραφείς µε τα αντίστοιχα µεγέθη των λεξικών που χρησιµοποιήθηκαν. Οπως προκύπτει από τον πίνακα, καλύτερα αποτελέσµατα δίνουν οι περιγραφείς SIFT και LBP µε ποσοστά ταξινόµησης που ϕτάνουν περίπου στο 50% και ακολουθούν οι HOG και SURF µε ποσοστά κοντά στο 38%.

79 5.4 Πειράµατα µε τη ϐάση 102 Category Flower Dataset 73 Ανιχνευτής DoG (2000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Ανιχνευτής Hessian (2000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Ανιχνευτής Hessian Laplace (2000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Περιγραφέας Harris Laplace (2000 λέξεις) Γραµµικός Πυρήνας RBF Πυρήνας C C g Πίνακας 5.6: Ποσοστά ταξινόµησης µε χρήση του περιγραφέα SIFT και διαφορετικούς ανιχνευτές για τη ϐάση Butterfly. Σχήµα 5.10: Εικόνες της κλάσης moon orchid που ταξινοµήθηκαν λανθασµένα στην κλάση sweet pea µε χρήση του περιγραφέα SIFT και λεξικό 8000 λέξεων Αλλαγή των συνόλων εκπαίδευσης και ελέγχου Επειδή τα αποτελέσµατα των αρχικών πειραµάτων που πραγµατοποίησαµε στη ϐάση µε τα λουλούδια δεν έδωσαν ικανοποιητικά αποτελέσµατα δοκιµάσαµε να αλλάξουµε τα σύνολα εκπαίδευσης και ελέγχου προκειµένου να διαπιστώσουµε κατά πόσο αυτό ϑα επηρεάσει την ταξινόµηση. Ο αρχικός διαχωρισµός των εικόνων της ϐάσης περιελάµβανε 1976 εικόνες στο σύνολο εκπαίδευσης και 5993 στο σύνολο ελέγχου, δηλαδή το 25% περίπου των δεδοµένων χρησιµοποιήθηκε για εκπαίδευση

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Χαρακτηριστικά Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα

Διαβάστε περισσότερα

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. 1/45 Τι είναι ο SIFT-Γενικά Scale-invariant feature transform detect and

Διαβάστε περισσότερα

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. Εισαγωγικά: SIFT~Harris Harris Detector: Δεν είναι ανεξάρτητος της κλίμακας

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Σύνθεση Πανοράµατος Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή

Διαβάστε περισσότερα

ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ

ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Ρήγας Κουσκουρίδας, Βασίλειος Μπελαγιάννης, Δημήτριος Χρυσοστόμου και Αντώνιος Γαστεράτος Δημοκρίτειο Πανεπιστήμιο Θράκης, Πανεπιστημιούπολη, Κιμμέρια,

Διαβάστε περισσότερα

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση ΤΨΣ 50 Ψηφιακή Επεξεργασία Εικόνας Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση Τµήµα ιδακτικής της Τεχνολογίας και Ψηφιακών Συστηµάτων Πανεπιστήµιο Πειραιώς Περιεχόµενα Βιβλιογραφία

Διαβάστε περισσότερα

ΤΑΞΙΝΟΜΗΣΗ ΚΑΙ ΔΕΙΚΤΟΔΟΤΗΣΗ ΕΙΚΟΝΩΝ ΜΕ ΒΑΣΗ ΤΑ ΟΠΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ IMAGE INDEXING AND CLASSIFICATION BASED ON VISUAL CHARACTERISTICS

ΤΑΞΙΝΟΜΗΣΗ ΚΑΙ ΔΕΙΚΤΟΔΟΤΗΣΗ ΕΙΚΟΝΩΝ ΜΕ ΒΑΣΗ ΤΑ ΟΠΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ IMAGE INDEXING AND CLASSIFICATION BASED ON VISUAL CHARACTERISTICS Πανεπιστήμιο Θεσσαλίας Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Ηλεκτρονικών Υπολογιστών ΤΑΞΙΝΟΜΗΣΗ ΚΑΙ ΔΕΙΚΤΟΔΟΤΗΣΗ ΕΙΚΟΝΩΝ ΜΕ ΒΑΣΗ ΤΑ ΟΠΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ IMAGE INDEXING AND CLASSIFICATION BASED ON

Διαβάστε περισσότερα

Ανάλυση και Αναζήτηση Εικόνων με Μεθόδους Ανίχνευσης Τοπικών Χαρακτηριστικών

Ανάλυση και Αναζήτηση Εικόνων με Μεθόδους Ανίχνευσης Τοπικών Χαρακτηριστικών ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΟΜΕΑΣ ΜΑΘΗΜΑΤΙΚΩΝ Δ.Π.Μ.Σ. «ΜΑΘΗΜΑΤΙΚΗ ΠΡΟΤΥΠΟΠΟΙΗΣΗ ΣE ΣΥΓΧΡΟΝΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ» Ανάλυση και Αναζήτηση

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Εισαγωγή στην κατάτμηση εικόνας Τεχνικές

Διαβάστε περισσότερα

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 9 ο Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ Εισαγωγή () Η κατάτμηση έχει ως στόχο να υποδιαιρέσει την εικόνα σε συνιστώσες περιοχές και αντικείμενα. Μία περιοχή αναμένεται να έχει ομοιογενή χαρακτηριστικά

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Εντοπισμός ενός σήματος STOP σε μια εικόνα. Περιγράψτε τη διαδικασία με την οποία μπορώ να εντοπίσω απλά σε μια εικόνα την ύπαρξη του παρακάτω

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Ακμές και περιγράμματα Ακμές και περιγράμματα Γενικά Μεγάλο τμήμα της πληροφορίας που γίνεται αντιληπτή

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας

Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας Ε.Α.Υ. Υπολογιστική Όραση Κατάτμηση Εικόνας Γεώργιος Παπαϊωάννου 2015 ΚΑΤΩΦΛΙΩΣΗ Κατωφλίωση - Γενικά Είναι η πιο απλή μέθοδος segmentation εικόνας Χωρίζουμε την εικόνα σε 2 (binary) ή περισσότερες στάθμες

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test) ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test) Θεοχαράτος Χρήστος Εργαστήριο Ηλεκτρονικής (ELLAB), Τµήµα Φυσικής, Πανεπιστήµιο Πατρών email: htheohar@upatras.gr http://www.ellab.physics.upatras.gr/users/theoharatos/default.htm

Διαβάστε περισσότερα

Digital Image Processing

Digital Image Processing Digital Image Processing Χωρικό φιλτράρισμα Πέτρος Καρβέλης pkarvelis@gmail.com Images taken from: R. Gonzalez and R. Woods. Digital Image Processing, Prentice Hall, 008. Χωρικού Φιλτράρισμα Η μηχανική

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση 12 η. Θεωρία Χρώματος και Επεξεργασία Έγχρωμων Εικόνων

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση 12 η. Θεωρία Χρώματος και Επεξεργασία Έγχρωμων Εικόνων Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Παρουσίαση 12 η Θεωρία Χρώματος και Επεξεργασία Έγχρωμων Εικόνων Εισαγωγή (1) Το χρώμα είναι ένας πολύ σημαντικός παράγοντας περιγραφής, που συχνά απλουστεύει κατά

Διαβάστε περισσότερα

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου Εξαγωγή μεταδεδομένων / περιγραφών Χαμηλού επιπέδου περιγραφείς Συντακτικός και σημασιολογικός ορισμός Ανάκτηση πολυμεσικών τεκμηρίων XML / OWL Δημοσίευση 2002

Διαβάστε περισσότερα

Αναγνώριση Προτύπων από Εικόνες

Αναγνώριση Προτύπων από Εικόνες ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Αναγνώριση Προτύπων από Εικόνες Συγγραφέας: Χάρης Κωτσιόπουλος Επιβλέπων Καθηγητής: Σωτήρης Κωτσιαντής Υποβάλλεται προς

Διαβάστε περισσότερα

6-Aνίχνευση. Ακμών - Περιγράμματος

6-Aνίχνευση. Ακμών - Περιγράμματος 6-Aνίχνευση Ακμών - Περιγράμματος Ανίχνευση ακμών Μετατροπή 2 εικόνας σε σύνολο ακμών Εξαγωγή βασικών χαρακτηριστικών της εικόνας Πιο «συμπαγής» αναπαράσταση Ανίχνευση ακμών Στόχος: ανίχνευση ασυνεχειών

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Χωρικά φίλτρα Χωρικά φίλτρα Γενικά Σε αντίθεση με τις σημειακές πράξεις και μετασχηματισμούς, στα

Διαβάστε περισσότερα

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 9 ο Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ Εισαγωγή () Η κατάτμηση έχει ως στόχο να υποδιαιρέσει την εικόνα σε συνιστώσες περιοχές και αντικείμενα. Μία περιοχή αναμένεται να έχει ομοιογενή χαρακτηριστικά

Διαβάστε περισσότερα

Digital Image Processing

Digital Image Processing Digital Image Processing Intensity Transformations Πέτρος Καρβέλης pkarvelis@gmail.com Images taken from: R. Gonzalez and R. Woods. Digital Image Processing, Prentice Hall, 2008. Image Enhancement: είναι

Διαβάστε περισσότερα

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 8 ο Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας. Ένας αποδεκτός ορισμός της ακμής είναι ο ακόλουθος: «Το σύνορο μεταξύ δύο ομοιογενών περιοχών με

Διαβάστε περισσότερα

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 8 ο Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα ένας ευρέως αποδεκτός ορισμός της ακμής. Εδώ θα θεωρούμε ως ακμή:

Διαβάστε περισσότερα

Μηχανισµοί & Εισαγωγή στο Σχεδιασµό Μηχανών Ακαδηµαϊκό έτος: Ε.Μ.Π. Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 3.

Μηχανισµοί & Εισαγωγή στο Σχεδιασµό Μηχανών Ακαδηµαϊκό έτος: Ε.Μ.Π. Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 3. ΜΗΧΑΝΙΣΜΟΙ & ΕΙΣΑΓΩΓΗ ΣΤΟ ΣΧΕ ΙΑΣΜΟ ΜΗΧΑΝΩΝ - 3.1 - Cpright ΕΜΠ - Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 2012. Με επιφύλαξη παντός δικαιώµατος. All rights reserved. Απαγορεύεται

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ. Πτυχιακή εργασία. Μπαδέκα Ευτυχία (AEM 1037)

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ. Πτυχιακή εργασία. Μπαδέκα Ευτυχία (AEM 1037) ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ Πτυχιακή εργασία Μελέτη και υλοποίηση σε λογισμικό ανιχνευτών σημειακών χαρακτηριστικών από εικόνες (point

Διαβάστε περισσότερα

Ειδικές Επιστηµονικές Εργασίες

Ειδικές Επιστηµονικές Εργασίες Ειδικές Επιστηµονικές Εργασίες 2005-2006 1. Ανίχνευση προσώπων από ακολουθίες video και παρακολούθηση (face detection & tracking) Η ανίχνευση προσώπου (face detection) αποτελεί το 1 ο βήµα σε ένα αυτόµατο

Διαβάστε περισσότερα

DIP_01 Εισαγωγή στην ψηφιακή εικόνα. ΤΕΙ Κρήτης

DIP_01 Εισαγωγή στην ψηφιακή εικόνα. ΤΕΙ Κρήτης DIP_01 Εισαγωγή στην ψηφιακή εικόνα ΤΕΙ Κρήτης Πληροφορίες Μαθήματος ιαλέξεις Πέμπτη 12:15 15:00 Αιθουσα Γ7 ιδάσκων:. Κοσμόπουλος Γραφείο: Κ23-0-15 (ισόγειο( κλειστού γυμναστηρίου) Ωρες γραφείου Τε 16:00

Διαβάστε περισσότερα

Μέθοδοι Αναπαράστασης Περιοχών

Μέθοδοι Αναπαράστασης Περιοχών KEΣ 3 Αναγνώριση Προτύπων και Ανάλυση Εικόνας Μέθοδοι Αναπαράστασης Περιοχών ΤµήµαΕπιστήµης και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήµιο Πελοποννήσου Εισαγωγή Χαρακτηριστικά χώρου Χαρακτηριστικά από µετασχηµατισµό

Διαβάστε περισσότερα

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ ΔΡ. Γ. ΜΑΤΣΟΠΟΥΛΟΣ ΕΠ. ΚΑΘΗΓΗΤΗΣ ΣΧΟΛΗ ΗΛΕΚΤΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Επεξεργασία Ιατρικών Εικόνων

Διαβάστε περισσότερα

Επεξεργασία Χαρτογραφικής Εικόνας

Επεξεργασία Χαρτογραφικής Εικόνας Επεξεργασία Χαρτογραφικής Εικόνας Διδάσκων: Αναγνωστόπουλος Χρήστος Κώδικες μετρήσεων αντικειμένων σε εικόνα Χρωματικά μοντέλα: Munsell, HSB/HSV, CIE-LAB Κώδικες μετρήσεων αντικειμένων σε εικόνες Η βασική

Διαβάστε περισσότερα

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακή Εικόνα. Αντίληψη χρωμάτων Συστήματα χρωμάτων Κβαντισμός χρωμάτων

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακή Εικόνα. Αντίληψη χρωμάτων Συστήματα χρωμάτων Κβαντισμός χρωμάτων Ψηφιακή Εικόνα Αντίληψη χρωμάτων Συστήματα χρωμάτων Κβαντισμός χρωμάτων Σχηματισμός εικόνων Το φως είναι ηλεκτρομαγνητικό κύμα Το χρώμα προσδιορίζεται από το μήκος κύματος L(x, y ; t )= Φ(x, y ; t ; λ)

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Εισαγωγή στις τεχνικές βελτίωσης εικόνας

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Σημειακή επεξεργασία και μετασχηματισμοί Κατηγορίες μετασχηματισμού εικόνων Σημειακοί μετασχηματισμοί

Διαβάστε περισσότερα

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ, ΤΜΗΜΑ Ι ΑΚΤΙΚΗΣ ΤΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΨΣ 50: ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ Ακαδηµαϊκό Έτος 005 006, Χειµερινό Εξάµηνο Καθ.: Νίκος Τσαπατσούλης ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ Η εξέταση

Διαβάστε περισσότερα

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας Κατάτµηση εικόνας σε οµοιόµορφες περιοχές ΤµήµαΕπιστήµης και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήµιο Πελοποννήσου Εισαγωγή Κατάτµηση µε πολυκατωφλίωση Ανάπτυξη

Διαβάστε περισσότερα

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΑ ΤΕΙ 2.2.2.3ζ ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΓΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ Εγχειρίδιο χρήσης λογισμικού ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΥΠΕΥΘΥΝΟΣ: ΣΤΡΟΥΘΟΠΟΥΛΟΣ ΧΑΡΑΛΑΜΠΟΣ ΣΕΡΡΕΣ, ΜΑΙΟΣ 2007 ΠΕΡΙΕΧΟΜΕΝΑ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ H O G feature descriptor global feature the most common algorithm associated with person detection Με τα Ιστογράμματα της Βάθμωσης (Gradient) μετράμε τον προσανατολισμό και την ένταση της βάθμωσης σε μία

Διαβάστε περισσότερα

... c 2014 All rights reserved

... c 2014 All rights reserved Εθνικο Μετσοβιο Πολυτεχνειο Σχολη Ηλεκτρολογων Μηχανικων και Μηχανικων Υπολογιστων Τομεας Τεχνολογιας Πληροφορικης και Υπολογιστων Γεωμετρική Άθροιση Διανυσμάτων Περιγραφής για Ανάκτηση και Κατηγοριοποίηση

Διαβάστε περισσότερα

ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων:

ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων: KEΣ 3 Αναγνώριση Προτύπων και Ανάλυση Εικόνας Κατάτµηση Εικόνων: Ανίχνευση Ακµών Τµήµα Επιστήµης και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήµιο Πελοποννήσου Περιεχόµενα Βιβλιογραφία Περιεχόµενα Ενότητας

Διαβάστε περισσότερα

Παρουσίαση Νο. 5 Βελτίωση εικόνας

Παρουσίαση Νο. 5 Βελτίωση εικόνας Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Παρουσίαση Νο. 5 Βελτίωση εικόνας Εισαγωγή Η βελτίωση γίνεται σε υποκειμενική βάση Η απόδοση εξαρτάται από την εφαρμογή Οι τεχνικές είναι συνήθως ad hoc Τονίζει

Διαβάστε περισσότερα

ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ Π. ΑΣΒΕΣΤΑΣ Επ. Καθηγητής Τμήμα Μηχανικών Βιοϊατρικής Τεχνολογίας ΤΕΙ Αθήνας Email: pasv@teiath.gr ΠΕΡΙΕΧΟΜΕΝΑ Αναπαράσταση εικόνας Ιστόγραμμα Εξισορρόπηση ιστογράμματος Κατωφλίωση

Διαβάστε περισσότερα

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1)

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1) ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1) 2. ΑΝΑΠΑΡΑΣΤΑΣΗ ΠΡΟΒΛΗΜΑΤΟΣ H υλοποίηση ενός προβλήµατος σε σύστηµα Η/Υ που επιδεικνύει ΤΝ 1 απαιτεί: Την κατάλληλη περιγραφή του προβλήµατος

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ 1 ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Κατασκευή εφαρμογής ανίχνευσης κινούμενων αντικειμένων ή αντικειμένων που εναποτέθηκαν με χρήση όρασης

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ 1.1 ΕΙΣΑΓΩΓΗ 1.1 1.2 ΤΙ ΕΙΝΑΙ ΜΙΑ ΨΗΦΙΑΚΗ ΕΙΚΟΝΑ 1.2 1.3 ΠΛΗΘΟΣ BITS ΜΙΑΣ ΕΙΚΟΝΑΣ 1.4 1.4 ΕΥΚΡΙΝΕΙΑ ΕΙΚΟΝΑΣ 1.5 1.5 ΕΠΙΠΕ Α BITS ΜΙΑΣ ΕΙΚΟΝΑΣ 1.8 1.6 Η ΦΥΣΗ ΤΟΥ ΧΡΩΜΑΤΟΣ

Διαβάστε περισσότερα

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ Συµπληρωµατικές Σηµειώσεις Προχωρηµένο Επίπεδο Επεξεργασίας Εικόνας Σύνθεση Οπτικού Μωσαϊκού ρ. Γ. Χ. Καρράς Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Μηχανολόγων Μηχανικών Τοµέας Μηχανολογικών

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ Ψηφιακή Επεξεργασία Εικόνας ΒΕΛΤΙΩΣΗ ΕΙΚΟΝΑΣ ΜΕ ΙΣΤΟΓΡΑΜΜΑ ΔΠΜΣ ΗΕΠ 1/46 Περιλαμβάνει: Βελτίωση (Enhancement) Ανακατασκευή (Restoration) Κωδικοποίηση (Coding) Ανάλυση, Κατανόηση Τμηματοποίηση (Segmentation)

Διαβάστε περισσότερα

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ Τα τελευταία 25 χρόνια, τα προβλήµατα που σχετίζονται µε την διαχείριση της Γεωγραφικής Πληροφορίας αντιµετωπίζονται σε παγκόσµιο αλλά και εθνικό επίπεδο µε την βοήθεια των Γεωγραφικών

Διαβάστε περισσότερα

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα πολυδιάστατου ψηφιακού σήµατος (Εικόνες Εικονοσειρές)» Πακέτο Εργασίας 4: Προστασία

Διαβάστε περισσότερα

MPEG7 Multimedia Content Description Interface

MPEG7 Multimedia Content Description Interface MPEG7 Multimedia Content Description Interface Τυποποιεί την περιγραφή του περιεχοµένου των πολυµέσων (video audio) εν επεξεργάζεται αλλά! Συλλέγει χαρακτηριστικά πού χρειάζονται για περιγραφή δεδοµένων

Διαβάστε περισσότερα

Σχεδιασμός και κατασκευή εφαρμογής ταξινόμησης αντικειμένων σε γραμμή μεταφοράς προϊόντων με χρήση όρασης μηχανής

Σχεδιασμός και κατασκευή εφαρμογής ταξινόμησης αντικειμένων σε γραμμή μεταφοράς προϊόντων με χρήση όρασης μηχανής Πανεπιστήμιο Δυτικής Μακεδονίας Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών Σχεδιασμός και κατασκευή εφαρμογής ταξινόμησης αντικειμένων σε γραμμή μεταφοράς προϊόντων με χρήση όρασης μηχανής Λοΐζου

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Επεξεργασία Χαρτογραφικής Εικόνας

Επεξεργασία Χαρτογραφικής Εικόνας Επεξεργασία Χαρτογραφικής Εικόνας ιδάσκων: Αναγνωστόπουλος Χρήστος Αρχές συµπίεσης δεδοµένων Ήδη συµπίεσης Συµπίεση εικόνων Αλγόριθµος JPEG Γιατί χρειαζόµαστε συµπίεση; Τα σηµερινά αποθηκευτικά µέσα αδυνατούν

Διαβάστε περισσότερα

Εργασίες στο µάθηµα Ψηφιακής Επεξεργασίας και Αναγνώρισης Εγγράφων

Εργασίες στο µάθηµα Ψηφιακής Επεξεργασίας και Αναγνώρισης Εγγράφων Εργασίες στο µάθηµα Ψηφιακής Επεξεργασίας και Αναγνώρισης Εγγράφων Μάθηµα 2: υαδική Μετατροπή 1. Βελτιωµένη µέθοδος προσαρµοσµένης κατωφλίωσης βάσει του πλάτους των γραµµών των χαρακτήρων (Απαλλακτική

Διαβάστε περισσότερα

DIP_01 Εισαγωγήστην ψηφιακήεικόνα. ΤΕΙ Κρήτης

DIP_01 Εισαγωγήστην ψηφιακήεικόνα. ΤΕΙ Κρήτης DIP_01 Εισαγωγήστην ψηφιακήεικόνα ΤΕΙ Κρήτης Ψηφιακήεικόνα Ψηφιακή εικόνα = αναλογική εικόνα µετά από δειγµατοληψία στο χώρο (x και y διευθύνσεις) Αναπαριστάνεται από έναν ή περισσότερους 2 πίνακες Μπορεί

Διαβάστε περισσότερα

Σύγκριση Μεθόδων Ανάκτησης Εικόνας Βασισµένης στο Περιεχοµένο µε Παράλληλη Υλοποίηση σε Java

Σύγκριση Μεθόδων Ανάκτησης Εικόνας Βασισµένης στο Περιεχοµένο µε Παράλληλη Υλοποίηση σε Java Πανεπιστήµιο Μακεδονίας Π.Μ.Σ Εφαρµοσµένης Πληροφορικής Σύγκριση Μεθόδων Ανάκτησης Εικόνας Βασισµένης στο Περιεχοµένο µε Παράλληλη Υλοποίηση σε Java ιπλωµατική εργασία Καραφωτιάς Γιώργος 11/20 Αναζήτηση

Διαβάστε περισσότερα

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Εκτίµηση Κίνησης Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα

Διαβάστε περισσότερα

ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ: ΣΕΠΤΕΜΒΡΙΟΣ 2008 Θέµα 1 ο ( µονάδες)

ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ: ΣΕΠΤΕΜΒΡΙΟΣ 2008 Θέµα 1 ο ( µονάδες) ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ: ΣΕΠΤΕΜΒΡΙΟΣ 2009 Θέµα 1 ο (3 µονάδες) ίνεται η πολυφασµατική σκηνή, 0 7 2 2 2 1 3 4 4 4 2 3 3 3 3 0 7 2 4 4 1 3 3 3 3 2 4 4 4 4 0 1

Διαβάστε περισσότερα

ΜΗΧΑΝΙΣΜΟΙ ΕΙΣΑΓΩΓΗ ΣΤΟ ΣΧΕΔΙΑΣΜΟ ΜΗΧΑΝΩΝ

ΜΗΧΑΝΙΣΜΟΙ ΕΙΣΑΓΩΓΗ ΣΤΟ ΣΧΕΔΙΑΣΜΟ ΜΗΧΑΝΩΝ ΜΗΧΑΝΙΣΜΟΙ & ΕΙΣΑΓΩΓΗ ΣΤΟ ΣΧΕΔΙΑΣΜΟ ΜΗΧΑΝΩΝ - Β. - Copyright ΕΜΠ - Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο Δυναμικής και Κατασκευών - 06. Με επιφύλαξη παντός δικαιώµατος. All rights reserved. Απαγορεύεται

Διαβάστε περισσότερα

ΜΗΧΑΝΙΣΜΟΙ ΕΙΣΑΓΩΓΗ ΣΤΟ ΣΧΕΔΙΑΣΜΟ ΜΗΧΑΝΩΝ

ΜΗΧΑΝΙΣΜΟΙ ΕΙΣΑΓΩΓΗ ΣΤΟ ΣΧΕΔΙΑΣΜΟ ΜΗΧΑΝΩΝ Μηχανισμοί & Εισαγωγή στο Σχεδιασμό Μηχανών Ακαδημαϊκό έτος: 214-215 ΜΗΧΑΝΙΣΜΟΙ & ΕΙΣΑΓΩΓΗ ΣΤΟ ΣΧΕΔΙΑΣΜΟ ΜΗΧΑΝΩΝ -A.1 - Μηχανισμοί & Εισαγωγή στο Σχεδιασμό Μηχανών Ακαδημαϊκό έτος: 214-215 Copyright ΕΜΠ

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Advances in Digital Imaging and Computer Vision

Advances in Digital Imaging and Computer Vision Advances in Digital Imaging and Computer Vision Lecture and Lab 4 th part 12/3/2018 Κώστας Μαριάς Αναπληρωτής Καθηγητής Επεξεργασίας Εικόνας 21/2/2017 1 Βασικές έννοιες επεξεργασίας Φιλτράρισμα στο χωρικό

Διαβάστε περισσότερα

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης DIP_05 Τμηματοποίηση εικόνας ΤΕΙ Κρήτης ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Τμηματοποίηση εικόνας είναι η διαδικασία με την οποία διαχωρίζεται μία εικόνα σε κατάλληλες περιοχές ή αντικείμενα. Για την τμηματοποίηση

Διαβάστε περισσότερα

Αναγνώριση κλάσεων αντικειμένων σε εικόνες

Αναγνώριση κλάσεων αντικειμένων σε εικόνες Αναγνώριση κλάσεων αντικειμένων σε εικόνες Χαλέβα-Ντίνα Χρυσάνθη Διπλωματική εργασία Επιβλέπων καθηγητής: κος Νικόλαος Νικολαΐδης Τμήμα Πληροφορικής Σχολή Θετικών Επιστημών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ BIOMIG Medical Image Processing, Algorithms and Applications http://biomig.ntua.gr ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ Εισαγωγή στην MRI και στην fmri ΔΡ. Γ. ΜΑΤΣΟΠΟΥΛΟΣ ΑΝ. ΚΑΘΗΓΗΤΗΣ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ

Διαβάστε περισσότερα

Projects Στα Ειδικά Θέµατα Επεξεργασίας Σήµατος και Εικόνας

Projects Στα Ειδικά Θέµατα Επεξεργασίας Σήµατος και Εικόνας Projects Στα Ειδικά Θέµατα Επεξεργασίας Σήµατος και Εικόνας Τα projects θα γίνουν απο δύο άτοµα Για τα projects 1-4 υπεύθυνος είναι ο κ. Αναστασόπουλος Για τα 5-11 ο κ. Φωτόπουλος Για τα 12-15 οι κ. Φωτόπουλος

Διαβάστε περισσότερα

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 10 ο Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Η περιγραφή μίας περιοχής μπορεί να γίνει: Με βάση τα εξωτερικά χαρακτηριστικά (ακμές, όρια). Αυτή η περιγραφή προτιμάται όταν μας ενδιαφέρουν

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών

Εισαγωγή στην επιστήμη των υπολογιστών Εισαγωγή στην επιστήμη των υπολογιστών Υπολογιστές και Δεδομένα Κεφάλαιο 3ο Αναπαράσταση Αριθμών www.di.uoa.gr/~organosi 1 Δεκαδικό και Δυαδικό Δεκαδικό σύστημα 2 3 Δεκαδικό και Δυαδικό Δυαδικό Σύστημα

Διαβάστε περισσότερα

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων Δειγµατοληψία και Κβαντισµός: Μια εικόνα (µπορεί να) είναι συνεχής τόσο ως προς τις συντεταγµένες x, y όσο και ως προς το πλάτος. Για να τη µετατρέψουµε

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Εικόνων

Ψηφιακή Επεξεργασία Εικόνων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Επεξεργασία Εικόνων Ενότητα # 19: Επεξεργασία έγχρωμων εικόνων Καθηγητής Γιώργος Τζιρίτας Τμήμα Επιστήμης Υπολογιστών Επεξεργασία έγχρωμων εικόνων Τρία πρωτεύοντα

Διαβάστε περισσότερα

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

Οδηγίες σχεδίασης στο περιβάλλον Blender

Οδηγίες σχεδίασης στο περιβάλλον Blender Οδηγίες σχεδίασης στο περιβάλλον Blender Στον πραγματικό κόσμο, αντιλαμβανόμαστε τα αντικείμενα σε τρεις κατευθύνσεις ή διαστάσεις. Τυπικά λέμε ότι διαθέτουν ύψος, πλάτος και βάθος. Όταν θέλουμε να αναπαραστήσουμε

Διαβάστε περισσότερα

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Αλγόριθµοι Ευθυγράµµισης Τρισδιάστατων Αντικειµένων Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθηνών 20 Οκτωβρίου 2005 Εισαγωγή

Διαβάστε περισσότερα

ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014

ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014 ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014 ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ Η χρήση

Διαβάστε περισσότερα

DIP_04 Βελτιστοποίηση εικόνας. ΤΕΙ Κρήτης

DIP_04 Βελτιστοποίηση εικόνας. ΤΕΙ Κρήτης DIP_04 Βελτιστοποίηση εικόνας ΤΕΙ Κρήτης ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Σκοπός µιας τέτοιας τεχνικής µπορεί να είναι: η βελτιστοποίηση της οπτικής εµφάνισης µιας εικόνας όπως την αντιλαµβάνεται ο άνθρωπος, η τροποποίηση

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 11 η : θεωρία Χρώματος & Επεξεργασία Έγχρωμων Εικόνων

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 11 η : θεωρία Χρώματος & Επεξεργασία Έγχρωμων Εικόνων Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 11 η : θεωρία Χρώματος & Επεξεργασία Έγχρωμων Εικόνων Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Εισαγωγή

Διαβάστε περισσότερα

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Επεξεργασία Εικόνας Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή

Διαβάστε περισσότερα

Detection and Recognition of Traffic Signal Using Machine Learning

Detection and Recognition of Traffic Signal Using Machine Learning 1 1 1 Detection and Recognition of Traffic Signal Using Machine Learning Akihiro Nakano, 1 Hiroshi Koyasu 1 and Hitoshi Maekawa 1 To improve road safety by assisting the driver, traffic signal recognition

Διαβάστε περισσότερα

Ιατρική Πληροφορική. Δρ. Π. ΑΣΒΕΣΤΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΒΙΟΪΑΤΡΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ Τ.Ε.

Ιατρική Πληροφορική. Δρ. Π. ΑΣΒΕΣΤΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΒΙΟΪΑΤΡΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ Τ.Ε. Ιατρική Πληροφορική Δρ. Π. ΑΣΒΕΣΤΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΒΙΟΪΑΤΡΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ Τ.Ε. Οι διάφορες τεχνικές απεικόνισης (imaging modalities) της ανθρώπινης ανατομίας περιγράφονται κατά DICOM ως συντομογραφία

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

DIP_04 Σημειακή επεξεργασία. ΤΕΙ Κρήτης

DIP_04 Σημειακή επεξεργασία. ΤΕΙ Κρήτης DIP_04 Σημειακή επεξεργασία ΤΕΙ Κρήτης ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Σκοπός μιας τέτοιας τεχνικής μπορεί να είναι: η βελτιστοποίηση της οπτικής εμφάνισης μιας εικόνας όπως την αντιλαμβάνεται ο άνθρωπος, η τροποποίηση

Διαβάστε περισσότερα

ΤΗΛΕΠΙΣΚΟΠΗΣΗ. Γραµµικοί Μετασχηµατισµοί (Linear Transformations) Τονισµός χαρακτηριστικών εικόνας (image enhancement)

ΤΗΛΕΠΙΣΚΟΠΗΣΗ. Γραµµικοί Μετασχηµατισµοί (Linear Transformations) Τονισµός χαρακτηριστικών εικόνας (image enhancement) Γραµµικοί Μετασχηµατισµοί (Linear Transformations) Τονισµός χαρακτηριστικών εικόνας (image enhancement) Συµπίεση εικόνας (image compression) Αποκατάσταση εικόνας (Image restoration) ηµήτριος. ιαµαντίδης

Διαβάστε περισσότερα

υναµική Μηχανών Ι Ακαδηµαϊκό έτος : Ε. Μ. Π. Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών ΥΝΑΜΙΚΗ ΜΗΧΑΝΩΝ Ι - 22.

υναµική Μηχανών Ι Ακαδηµαϊκό έτος : Ε. Μ. Π. Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών ΥΝΑΜΙΚΗ ΜΗΧΑΝΩΝ Ι - 22. υναµική Μηχανών Ι Ακαδηµαϊκό έτος: 0-0 ΥΝΑΜΙΚΗ ΜΗΧΑΝΩΝ Ι -. - υναµική Μηχανών Ι Ακαδηµαϊκό έτος: 0-0 Cprigh ΕΜΠ - Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 0. Με επιφύλαξη παντός

Διαβάστε περισσότερα

Εργαστηριακή Άσκηση Β3: Πειράματα περίθλασης από κρύσταλλο λυσοζύμης

Εργαστηριακή Άσκηση Β3: Πειράματα περίθλασης από κρύσταλλο λυσοζύμης Βιοφυσική & Νανοτεχνολογία Εργαστηριακή Άσκηση Β3: Πειράματα περίθλασης από κρύσταλλο λυσοζύμης Ημερομηνία εκτέλεσης άσκησης... Ονοματεπώνυμα... Περίληψη Σκοπός της άσκησης είναι η εξοικείωση με την χρήση

Διαβάστε περισσότερα

Group (JPEG) το 1992.

Group (JPEG) το 1992. Μέθοδοι Συμπίεσης Εικόνας Πρωτόκολλο JPEG Συμπίεση Εικόνας: Μείωση αποθηκευτικού χώρου Ευκολία στη μεταφορά αρχείων Δημιουργήθηκε από την ομάδα Joint Photographic Experts Group (JPEG) το 1992. Ονομάστηκε

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη ΙΙ. Ενότητα 2: Αντίληψη. Μουστάκας Κωνσταντίνος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών

Τεχνητή Νοημοσύνη ΙΙ. Ενότητα 2: Αντίληψη. Μουστάκας Κωνσταντίνος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Τεχνητή Νοημοσύνη ΙΙ Ενότητα 2: Αντίληψη Μουστάκας Κωνσταντίνος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σκοποί ενότητας Αντίληψη 2 Περιεχόμενα ενότητας Αντίληψη 3 Αντίληψη

Διαβάστε περισσότερα

ιαφάνειες μαθήματος "Φωτογραμμετρία ΙΙΙ" (0) Γ. Καρράς_12/2011

ιαφάνειες μαθήματος Φωτογραμμετρία ΙΙΙ (0) Γ. Καρράς_12/2011 Ιστορική Εξέλιξη Φωτογραμμετρίας 1525 Dürer νόμοι προοπτικής 1759 Lambert εμπροσθοτομία 1839 Daguerre φωτογραφία 1851 Laussedat μετρογραφία 1858 Meydenbauer φωτογραμμετρία 1897 Scheimpflug θεωρία αναγωγής

Διαβάστε περισσότερα