Ανίχνευση μελανώματος σε έγχρωμες εικόνες

Transcript

1 Τεχνολογικό Εκπαιδευτικό Ίδρυμα Κρήτης Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής Πτυχιακή Εργασία Τίτλος: Ανίχνευση μελανώματος σε έγχρωμες εικόνες Χρυσάνθη Κατρίνη 2931 Αφροδίτη Σταθάκη 2423 Επιβλέπων Καθηγητής: Κοσμόπουλος Δημήτρης Επιτροπή Αξιολόγησης: Κοσμόπουλος Δημήτρης Μαρακάκης Εμμανουήλ Παπαδάκης Νικόλαος Ημερομηνία Παρουσίασης: Πέμπτη 27/3/ :00 π.μ 1

2 Περιεχόμενα Πίνακας Εικόνων... 4 Ευχαριστίες... 6 Abstract... 7 Σύνοψη Εισαγωγή Περίληψη Κίνητρο για την διεξαγωγή της εργασίας Σκοπός και στόχοι της εργασίας Δομή της εργασίας Ψηφιακή Επεξεργασία Εικόνας Εισαγωγή Επεξεργασία Δερματολογικών εικόνων Segmentation Μέθοδοι κατάτμησης Κατάτμηση εικόνας μέσω καναλιών χρώματος Niblack Bernsen Sauvola Otsu Μετασχηματισμός κλιμακωτά αναλλοίωτων χαρακτηριστικών (SIFT) Επισκόπηση της μεθόδου Η Μέθοδος του David Lowe Βασικά Στάδια Επιταχυνθέντα ισχυρά χαρακτηριστικά (Speeded up Robust Feature) Επισκόπηση μεθόδου Βασικά στάδια

3 2.7 Ταξινομητής K-means Τεχνητά Νευρωνικά Δίκτυα Εισαγωγή Γενικά για τα Τεχνητά Νευρωνικά Δίκτυα Εκπαίδευση και μάθηση Διαδικασία εκπαίδευσης ενός δικτύου Αρχιτεκτονικές Τεχνητών Νευρωνικών Δικτύων Feed-forward Feed-back Multi-Layer Feed-Forward Networks Εφαρμογή επεξεργασίας εικόνων με ΤΝΔ και διάγνωση Support Vector Machines(SVM) Κύριο μέρος Πτυχιακής Εργασίας Κατάτμηση εικόνας Κατάτμηση εικόνας μέσω καναλιών χρώματος Αλγόριθμος Niblack Αλγόριθμος Bernsen Αλγόριθμος Sauvola Αλγόριθμος Otsu Εξαγωγή χαρακτηριστικών Ταξινόμηση χαρακτηριστικών Επεξεργασία των χαρακτηριστικών με ΤΝΔ Πειραματικά αποτελέσματα ΤΝΔ ΣΥΜΠΕΡΑΣΜΑΤΑ ΒΙΒΛΙΟΓΡΑΦΙΑ

4 Πίνακας Εικόνων Εικόνα 1: Παράδειγμα εξαγωγής χαρακτηριστικών sift Εικόνα 2: παράδειγμα εξαγωγής χαρακτηριστικών surf Εικόνα 3: Κανονικοποιημένος παράγοντας της Hessian Εικόνα 4:Απόκριση του DoH Εικόνα 5: Εντοπισμός σημείου ενδιαφέροντος Μ Εικόνα 6: Υπολογισμός αλγορίθμου SURF Εικόνα 7: Feed-forward δίκτυο με ένα επίπεδο νευρώνων (single-layer) Εικόνα 8:Ένα Feed-forward δίκτυο Εικόνα 9:Πλήρως συνδεδεμένο feed-forward δίκτυο με ένα κρυμμένο επίπεδο και το επίπεδο εξόδου Εικόνα 10:SVM Εικόνα 11:Κατηγορία 0 (Verruca Seborrhoisa) Εικόνα 12:Κατηγορία 1 (Justional Nevus) Εικόνα 13:Κατηγορία 2 (Dysplastic Nevus) Εικόνα 14:Κατηγορία 3 (Superficial Spreading Melanoma) Εικόνα 15:Απεικόνιση αρχικής εικόνας πάσχοντα Εικόνα 16:Απεικόνιση της εικόνας μέσα από το κανάλι blue Εικόνα 17:Απεικόνιση της εικόνας μετά την εφαρμογή του κατωφλίου Εικόνα 18:Απεικόνιση της κλίμακας δεδομένων και απεικονίσεως αντικειμένου της εικόνας Εικόνα 19:Απεικόνιση αρχικής εικόνας πάσχοντα Εικόνα 20: Απεικόνιση της εικόνας μέσα από το κανάλι blue Εικόνα 21: Απεικόνιση της εικόνας μετά την εφαρμογή Εικόνα 22: Αριστερά απεικονίζεται η αρχική εικόνα του ασθενή μέσα από το κανάλι blue και δεξιά η απεικόνιση της εικόνας έπειτα από την εφαρμογή του αλγόριθμου. 38 4

5 Εικόνα 23: Αριστερά απεικονίζεται η αρχική εικόνα του ασθενή και δεξιά η απεικόνιση της εικόνας έπειτα από την εφαρμογή του αλγόριθμου Εικόνα 24: Απεικόνιση αρχικής εικόνας πάσχοντα Εικόνα 25: Απεικόνιση της εικόνας μετά την εφαρμογή Εικόνα 26: Πίνακας με πραγματικές διαγνώσεις Εικόνα 27: Πίνακες καλύτερων αποτελεσμάτων Εικόνα 28:Διάγραμμα που απεικονίζει τις αυξομειώσεις της απόδοσης του ΤΝΔ σε σχέση με k (παράμετρο k-means) Εικόνα 29: Διάγραμμα που απεικονίζει τις αυξομειώσεις της απόδοσης σε σχέση με ep (επαναλλήψεις εκπαίδευσης) Εικόνα 30: Διάγραμμα που απεικονίζει τις αυξομειώσεις της απόδοσης με SVM σε σχέση με k (παράμετρο k-means) Εικόνα 31: Διάγραμμα που απεικονίζει τις αυξομειώσεις της απόδοσης με SVM σε σχέση με το c (παράμετρο στα SVM) Εικόνα 32: Διάγραμμα που απεικονίζει τις αυξομειώσεις της απόδοσης με SVM σε σχέση με το g (παράμετρο στα SVM)

6 Ευχαριστίες Στο σημείο αυτό θα θέλαμε να ευχαριστήσουμε όλους αυτούς που μας βοήθησαν και μας στήριξαν ώστε να φέρουμε εις πέρας αυτήν την διπλωματική. Ιδιαίτερα θα θέλαμε να ευχαριστήσουμε τον επιβλέπων καθηγητή κ. Κοσμόπουλο για την αμέριστη βοήθεια του και για τις πολύπλευρες γνώσεις που μας προσέφερε καθ όλη την διάρκεια της συνεργασίας μας. Τέλος, ευχαριστούμε τους φίλους και συγγενείς για την ψυχολογική υποστήριξη και όλους τους καθηγητές που αποτέλεσαν έναυσμα για να ασχοληθούμε με αυτές τις επιστήμες. 6

7 Abstract In this thesis we dealt with the processing of color images that depict images of patients with possible melanoma. We had to build a system to identify cases that could be potentially dangerous. The system performs feature extraction using the SIFT algorithm. The extracted SIFT features are then fed into a K-means clustering and then histograms are extracted for each image based on the centers returned by the K-means. The histograms are used as input to classifiers i.e. Support Vector Machines or backpropagation neural networks. The method is verified using a database of 3000 images. 7

8 Σύνοψη Στην παρούσα πτυχιακή εργασία ασχοληθήκαμε με την επεξεργασία έγχρωμων εικόνων που απεικονίζουν εικόνες από ασθενείς με πιθανή ασθένεια από μελάνωμα. Καλούμαστε να κατασκευάσουμε ένα σύστημα το οποίο έχει ως σκοπό την αναγνώριση των περιπτώσεων που μπορεί να είναι εξαιρετικά επικίνδυνες. Το σύστημα εκτελεί εξαγωγή χαρακτηριστικών χρησιμοποιώντας τον αλγόριθμο SIFT. Αυτά τα εξαγόμενα χαρακτηριστικά τροφοδοτούν την K-means ομαδοποίηση και εξάγονται ιστογράμματα για κάθε εικόνα βασιζόμενα στα κέντρα που επιστρέφονται από τον K-means. Τα ιστογράμματα χρησιμοποιούνται σαν είσοδοι σε ταξινομητές όπως Μηχανές Υποστήριξης Διανυσμάτων (SVM) ή backpropagation νευρωνικά δίκτυα. Η μέθοδος επαληθεύεται χρησιμοποιώντας μια βάση δεδομένων των εικόνων

9 1 Εισαγωγή Σε αυτήν την διπλωματική καλούμαστε να επεξεργαστούμε μία βάση δεδομένων που αποτελείται από εικόνες μελανωμάτων με διάφορες τεχνικές. Στην συνέχεια μέσα από την επιστήμη την επεξεργασίας εικόνας προσπαθούμε να εξάγουμε κάποια δεδομένα τα οποία θα αποτελέσουν τις εισόδους για ένα Τεχνητό Νευρωνικό Δίκτυο (ΤΝΔ) και για μία μηχανή υποστήριξης διανυσμάτων (SVM). Το δίκτυο αυτό θα εκπαιδευτεί με αυτά τα δεδομένα ώστε να καταλήγει στη διάγνωση του εκάστοτε μελανώματος που έχουμε στη διάθεσή μας. 1.1 Περίληψη Με τη συνεχόμενη ανάπτυξη της Επιστήμης Υπολογιστών τα τελευταία χρόνια, αναπτύχθηκαν παράλληλα και αρκετοί νέοι κλάδοι οι οποίοι περιγράφουν και εξομοιώνουν διάφορες βιολογικές λειτουργίες του ανθρώπινου οργανισμού, όπως η όραση και η αντίληψη. Τέτοιοι κλάδοι είναι η Ψηφιακή Επεξεργασίας Εικόνων (ΨΕΕ) και των Τεχνητών Νευρωνικών Δικτύων (ΤΝΔ). Αξιοποιώντας τις δυνατότητες της ΨΕΕ προσπαθούμε να εντοπίσουμε τις διάφορες αλλοιώσεις του δέρματος ώστε να μπορέσουμε μέσα από διάφορες μεθόδους κατάτμησης όπως Sauvola, Bernsen, Niblack, Otsu και ανίχνευσης χαρακτηριστικών όπως SIFT να εξάγουμε κάποια ιδιαίτερα χαρακτηριστικά από κάθε εικόνα. Κατόπιν, τα χαρακτηριστικά αυτά μετατρέπονται σε διανύσματα μέσω του ταξινομητή K- means. Ακολούθως, πραγματοποιούμε την κατασκευή ενός Τεχνητού Νευρωνικού Δικτύου (ΤΝΔ) με βάση τον αλγόριθμο backpropagation. Το δίκτυο παίρνει σαν είσοδο τα διανύσματα που εξήχθησαν από τη διαδικασία της ταξινόμησης. Ο στόχος της εκπαίδευσης του είναι να αντιστοιχίσει το σύνολο των διανυσμάτων κάθε εικόνας με την ήδη υπάρχουσα διάγνωση. Πειραματιζόμενοι με διάφορες αρχιτεκτονικές δικτύου και διάφορες παραμέτρους προσπαθήσαμε να καταλήξουμε στην βέλτιστη απόδοση των αποτελεσμάτων. Πειραματιστήκαμε επίσης και με τις μηχανές υποστήριξης διανυσμάτων ώστε να επιτύχουμε όσο το δυνατόν καλύτερη εκπαίδευση του συστήματος μας. 1.2 Κίνητρο για την διεξαγωγή της εργασίας Το κίνητρο για τη διεξαγωγή αυτής της εργασίας αρχικά ήταν η δημιουργία μιας εφαρμογής η οποία θα ήταν σε θέση να χρησιμοποιηθεί εύκολα από τον μέσο άνθρωπο χωρίς ιδιαίτερες γνώσεις στην επιστήμη των υπολογιστών. Πιο συγκεκριμένα η κατασκευή αυτής καθαυτής της εφαρμογής είχε απώτερο στόχο την προσπάθεια συμβολής σε αυτή την αναπτυσσόμενη επιστημονική περιοχή έρευνας, προσφέροντας ταυτόχρονα σημαντική εμπειρία και εμπλουτισμό γνώσεων στον συγγραφέα. 9

10 1.3 Σκοπός και στόχοι της εργασίας Το κακοήθες μελάνωμα συναντάται πολύ συχνά και αποτελεί έναν από τους πλέον κακοήθεις όγκους. Το μελάνωμα σε προχωρημένο στάδιο είναι ανίατο αν όμως διαγνωστεί έγκαιρα θεραπεύεται χωρίς επιπλοκές. Το μεγάλο πρόβλημα των δερματολόγων είναι να μπορούν εύκολα και γρήγορα να ξεχωρίζουν το κακοήθες μελάνωμα. Η παρούσα εργασία έχει σαν σκοπό την διευκόλυνση του Ιατρικού κλάδου σε ότι αφορά την έγκυρη και έγκαιρη διάγνωση του τυχόν κακοήθες μελανώματος καθώς επίσης και την παροχή απομακρυσμένης ιατρικής εξέτασης σε ασθενείς. Τέλος θα θέλαμε να τονίσουμε ότι καμία εφαρμογή και κανένα σύστημα δεν μπορεί να αντικαταστήσει τις γνώσεις και την εμπειρία ενός ιατρού. Παρόλα αυτά μπορεί να αποτελέσει την ένδειξη για κάποια παραπάνω εξέταση ώστε να αποφευχθεί η εκδήλωση κάποιας σοβαρής ασθένειας. 1.4 Δομή της εργασίας Αυτή η εργασία χωρίστηκε σε τμήματα στοχεύοντας στην ευκολότερη κατανόηση και εκτίμηση της. Επίσης ακολουθώντας μια συγκεκριμένη τέτοια πορεία, ο αναγνώστης διευκολύνεται στην παρακολούθηση του κάθε κεφαλαίου αλλά και στο σύνολο αυτής της εργασίας. Κλείνοντας λοιπόν τα εισαγωγικά, ακολουθεί μια σύντομη αναφορά στα κεφάλαια που θα ακολουθήσουν και τα θέματα που θα αναλυθούν σε αυτά. Στο δεύτερο κεφάλαιο θα παρουσιαστούν οι σημαντικότερες, τουλάχιστον μέχρι τη στιγμή συγγραφής αυτής της εργασίας, μέθοδοι για την εξαγωγή χαρακτηριστικών σε εικόνες, όπως αναφέρθηκαν στον ορισμό τους παραπάνω. Με αυτή την παρουσίαση θα γίνει γνωστό στον αναγνώστη η διαδικασία που ακολουθεί η κάθε μέθοδος καθώς και η τελική επιλογή της μεθόδου που θα χρησιμοποιηθεί. Στο τρίτο κεφάλαιο θα αναφερθούμε στην ευρύτερη έννοια ενός ΤΝΔ, θα αναλύσουμε διάφορες παραμέτρους και τεχνικές κατασκευής του προσπαθώντας να γίνει κατανοητό από τον αναγνώστη ο τρόπος υλοποίησης του καθώς και η χρησιμότητα του. Επίσης θα αναφερθούμε στις μηχανές υποστήριξης διανυσμάτων (support vector machines-svm) οι οποίες αντιπροσωπεύουν ένα σύστημα ταξινόμησης που είναι ένας δυαδικός ταξινομητής που αναζητά τη βέλτιστη λύση. Ένα τέτοιο σύστημα αφού εκπαιδευτεί σε εικόνες που περιέχουν κάποιο συγκεκριμένο αντικείμενο, είναι σε θέση να παίρνει αποφάσεις σχετικά με την παρουσία ενός αντικειμένου, σε πρόσθετες εικόνες δοκιμής. Στο τέταρτο κεφάλαιο θα παρουσιαστεί το πειραματικό κομμάτι της πτυχιακής αυτής εξηγώντας αναλυτικότερα τις μεθόδους που χρησιμοποιήσαμε ώστε να έχουμε 10

11 τα βέλτιστα αποτελέσματα τα οποία και επεξηγούνται. Στο πέμπτο και τελευταίο κεφάλαιο θα παραθέσουμε τα συμπεράσματά μας. 2. Ψηφιακή Επεξεργασία Εικόνας 2.1 Εισαγωγή Η επιστήμη της ψηφιακής επεξεργασίας και ανάλυσης εικόνας έχει αναπτυχθεί ραγδαία τις τελευταίες δεκαετίες. Σ αυτό συνέβαλε τόσο η εξέλιξη των υπολογιστών όσο και η ανάπτυξη νέων επιστημονικών περιοχών. Τα θέματα που καλύπτει η ψηφιακή επεξεργασία και ανάλυση εικόνας είναι καθαρά τεχνολογικά και πλήρως εφαρμοσμένα. Ο κλάδος αυτός δημιουργήθηκε για να δώσει λύσεις σε κύρια προβλήματα όπως: 1. Η ψηφιοποίηση (digitization) είναι να μετατραπεί η εικόνα από αναλογική σε ψηφιακή ώστε να μπορεί να επεξεργαστεί, να αποθηκευτεί και να μεταδοθεί. 2. Η βελτιστοποίηση (enhancement) και η αποκατάσταση(restoration) είναι μέθοδοι οι οποίοι βοηθούν στο να έχουμε καλύτερο αποτέλεσμα απεικόνισης και κατανόησης του περιεχομένου της εικόνας. 3. Η τμηματοποίηση(segmentation) η οποία χωρίζει την εικόνα σε τμήματα ώστε η όποια επεξεργασία της να είναι ευκολότερη και αποτελεσματικότερη. Πέρα αυτών των προβλημάτων ο κυριότερος λόγος ανάπτυξης της ψηφιακής επεξεργασίας εικόνων (ΨΕΕ) ήταν να προσεγγίσει όσο το δυνατόν περισσότερο την ανθρώπινη όραση. Η ανάπτυξη της ΨΕΕ αποτέλεσε σημαντικό παράγοντα και σε άλλες επιστήμες αφού είναι άμεσα συνδεδεμένη με αυτές. Οι πιο άμεσα συνδεδεμένες είναι η ρομποτική όραση (computer vision), αναγνώριση προτύπων (pattern recognition) η τεχνητή νοημοσύνη (artifitian entelligence) και τα τεχνητά νευρωνικά δίκτυα (neural networks). 2.2 Επεξεργασία Δερματολογικών εικόνων Κάθε δερματολόγος για να καταλήξει σε διάγνωση κακοήθη ή καλοήθη μελανώματος λαμβάνει υπόψη του 5 βασικά χαρακτηριστικά τα οποία είναι: Α εκφράζει την ασυμμετρία (ASYMMETRY) Β εκφράζει το όριο (BORDER) C εκφράζει το χρώμα (COLOR) D εκφράζει τη διάμετρο (DIAMETER) 11

12 E εκφράζει την εξέλιξη ή την αλλαγή ((EVOLVING) Βασιζόμενοι σε αυτά τα χαρακτηριστικά προσπαθούμε μέσω της ΨΕΕ να αντλήσουμε πληροφορίες οι οποίες θα μας οδηγήσουν στην διάγνωση όπως οδηγείται και ο δερματολόγος. 2.3 Segmentation Η ελληνική απόδοση αυτής της λέξης είναι κατάτμηση εικόνας γνωστή και ως η διαδικασία διαχωρισμού μιας ψηφιακής εικόνας σε πολλαπλά τμήματα. Ο στόχος της κατάτμησης είναι η απλούστευση ή/και η αλλαγή της αναπαράστασης μιας εικόνας σε κάτι που είναι ουσιαστικότερο και ευκολότερο στην ανάλυση. Στην ουσία, είναι η διαδικασία ανάθεσης μιας ετικέτας σε κάθε pixel μιας εικόνας έτσι ώστε τα pixel με την ίδια ετικέτα να έχουν κοινά χαρακτηριστικά. Η τμηματοποίηση εικόνας είναι από τα σπουδαιότερα θέματα στην ψηφιακή επεξεργασία εικόνας. Η τμηματοποίηση μη τετριμμένων εικόνων αποτελεί ένα σοβαρό πρόβλημα του οποίου η λύση δεν είναι πάντα η βέλτιστη. Πάραυτα, η εύρεση των περιοχών ή των αντικειμένων που επιθυμούμε σε μια εικόνα είναι αναγκαίο στάδιο προεπεξεργασίας στην αναγνώριση αντικειμένων και στην ανάκτηση εικόνων. Για την τμηματοποίηση των εικόνων έχουν αναπτυχθεί διάφορες τεχνικές που κάθε μια τους σχετίζεται με το είδος της εφαρμογής και το είδος των εικόνων. Δεν υπάρχει όμως γενικός κανόνας για τις προδιαγραφές των τεχνικών αυτών. Ο Haralick και ο Shapiro καθόρισαν πως μια καλή μέθοδος τμηματοποίησης πρέπει: Να διαχωρίζει τις περιοχές με βάση κάποιο χαρακτηριστικό και τα αποτελέσματα να είναι όσο το δυνατόν ομοιόμορφα και ομογενή. Το εσωτερικό των περιοχών που μας ενδιαφέρουν να είναι απλό. 2.4Μέθοδοι κατάτμησης Κατάτμηση εικόνας μέσω καναλιών χρώματος Η πρώτη μας εφαρμογή κώδικα για να επιτύχουμε την κατάτμηση εικόνας ήταν να καταγράψουμε τις εντολές με τις οποίες περνούσαμε την κάθε εικόνα ξεχωριστά από τα 3 κανάλια χρώματος (red,green,blue), επιλέγαμε σε ποιο κανάλι η εικόνα μας έχει την καλύτερη εμφάνιση, και έπειτα με την βοήθεια ενός ιστογράμματος επιλέγαμε το κατώφλι της εικόνας. Αυτή βέβαια η μέθοδος αφενός ήταν αρκετά χρονοβόρα και αφετέρου χρειάζεται ο χρήστης να γνωρίζει να διαχειριστεί τον κώδικα πράγμα που δεν είναι εφικτό για όλους τους χρήστες Niblack Η δεύτερη μας εφαρμογή κώδικα για επίτευξη κατάτμησης εικόνας είναι ο αλγόριθμος niblack ο οποίος εφαρμόζει το κατώφλι στην εικόνα αυτόματα. Η 12

13 κεντρική ιδέα αυτού του αλγορίθμου είναι η εύρεση ενός τοπικού κατωφλίου για κάθε εικονοστοιχείο της εικόνας, ανάλογα πάντα με την τοπική μέση τιμή και την τοπική τυπική απόκλιση. Τα αποτελέσματα όμως που λάβαμε δεν ήταν και πολύ ικανοποιητικά αφού παίρνει σημεία των εικόνων τα οποία δεν μας είναι χρήσιμα Bernsen Η τρίτη μας εφαρμογή κώδικα για επίτευξη κατάτμησης εικόνας είναι ο αλγόριθμος bernsen όπου το τοπικό κατώφλι υπολογίζεται από την μέση τιμή της ελάχιστης και της μέγιστης φωτεινότητας των εικονοστοιχείων ενός παραθύρου γειτονιάς που έχει ως κέντρο το εξεταζόμενο εικονοστοιχείο Sauvola Η τέταρτη μας εφαρμογή κώδικα για επίτευξη κατάτμησης εικόνας είναι ο αλγόριθμος sauvola του οποίου η λογική είναι παρόμοια με την μέθοδο niblack. Τα αποτελέσματα όμως που λάβαμε δεν ήταν και πολύ ικανοποιητικά αφού παίρνει σημεία των εικόνων τα οποία δεν μας είναι χρήσιμα Otsu Η πέμπτη μας εφαρμογή κώδικα για επίτευξη κατάτμησης εικόνας είναι ο αλγόριθμος otsu ο οποίος επιλέγει αυτόµατα το καλύτερο κατώφλι µε βάση κάποιο κριτήριο. 2.5 Μετασχηματισμός κλιμακωτά αναλλοίωτων χαρακτηριστικών (SIFT) Ο μετασχηματισμός κλιμακωτά αναλλοίωτων χαρακτηριστικών είναι ένας αλγόριθμος της τεχνητής όρασης για τον εντοπισμό και την περιγραφή τοπικών χαρακτηριστικών σε εικόνες. Ο αλγόριθμος δόθηκε στην δημοσιότητα το 1999 από τον David Lowe και έχει κατοχυρωμένο δίπλωμα ευρεσιτεχνίας στις ΗΠΑ υπό την ιδιοκτησία του Πανεπιστημίου της Βρετανικής Κολούμπια, παρέχεται όμως για χρήση σε συστήματα ερευνητικού περιεχομένου. Οι εφαρμογές που έχει χρησιμοποιηθεί είναι αναγνώριση αντικείμενων, παραγωγή χαρτών και πλοήγησης ρομπότ, ράψιμο εικόνων, παραγωγή τρισδιάστατων μοντέλων, αναγνώριση χειρονομιών, ανίχνευση αντικείμενων σε βίντεο και χρήση εφέ σε βίντεο. 13

14 2.5.1 Επισκόπηση της μεθόδου Για κάθε αντικείμενο στην εικόνα, μπορούν να εξαχθούν ενδιαφέροντα σημεία σχετικά με το αντικείμενο, για να παρέχουν τη λεγόμενη περιγραφή χαρακτηριστικού (feature description). Αυτή η περιγραφή η οποία προέρχεται από μια εικόνα εκπαίδευσης, μπορεί στη συνέχεια να χρησιμοποιηθεί για τον εντοπισμό του αντικειμένου, σε μια δοκιμαστική εικόνα η οποία περιέχει πολλά άλλα αντικείμενα. Για να εκτελεστεί μια αξιόπιστη αναγνώριση, είναι σημαντικό τα χαρακτηριστικά που εξάγονται από την εικόνα εκπαίδευσης να ανιχνεύονται ακόμα και μετά από αλλαγές στην κλίμακα της εικόνας, του θορύβου και του φωτισμού. Αυτά τα σημεία βρίσκονται συνήθως σε περιοχές με μεγάλες αντιθέσεις μέσα στην εικόνα, τις λεγόμενες ακμές. Μια άλλη σημαντική ιδιότητα αυτών των χαρακτηριστικών είναι ότι οι σχετικές θέσεις μεταξύ τους στην αρχική σκηνή δεν πρέπει να αλλάζουν από τη μια εικόνα στην άλλη. Ωστόσο στην πράξη ο αλγόριθμος εντοπίζει και χρησιμοποιεί ένα πολύ μεγαλύτερο αριθμό χαρακτηριστικών από τις εικόνες, μειώνοντας έτσι τη συμβολή των σφαλμάτων που προκαλούνται από τις τοπικές διακυμάνσεις του μέσου σφάλματος από όλα τα λάθη ταιριάσματος στα χαρακτηριστικά. Η πατενταρισμένη μέθοδος του Lowe μπορεί να προσδιορίσει με αυστηρότητα, αντικείμενα τα οποία βρίσκονται ακόμη και ανακατεμένα ή υπό την επίδραση μερικών αλλαγών. Αυτό συμβαίνει διότι οι περιγραφείς που εξάγει ο αλγόριθμος παραμένουν αναλλοίωτοι σε ενιαία κλίμακα, προσανατολισμό και εν μέρη αμετάβλητοι σε συσχετισμένες στρεβλώσεις και αλλαγές φωτισμού Η Μέθοδος του David Lowe Τα κύρια σημεία των αντικειμένων αρχικά εξάγονται από ένα σύνολο εικόνων αναφοράς και αποθηκεύονται σε μια βάση δεδομένων. Ένα αντικείμενο αναγνωρίζεται σε μια καινούργια εικόνα συγκρίνοντας ατομικά κάθε στοιχείο από την νέα εικόνα με αυτό από τη βάση δεδομένων, βρίσκοντας υποψήφια χαρακτηριστικά τα οποία ταιριάζουν βασισμένα στην Ευκλείδεια απόσταση από τα διανύσματα των χαρακτηριστικών της εικόνας. Στη συνέχεια από το σύνολο των στοιχείων που ταιριάζουν, τα υποσύνολα των κύριων σημείων που συμφωνούν με το αντικείμενο και τη θέση του, την κλίμακα και τον προσανατολισμό στη νέα εικόνα, εντοπίζονται και φιλτράρονται ως καλά ορισμένα ταιριάσματα. Ο προσδιορισμός των σταθερών συμπλεγμάτων γίνεται γρήγορα μια αποτελεσματική εφαρμογή του πίνακα κατακερματισμού (hash table) του γενικευμένου μετασχηματισμού Hough. Κάθε σύμπλεγμα των τριών ή περισσοτέρων χαρακτηριστικών τα οποία συμφωνούν σε ένα αντικείμενο στη συνέχεια υπόκεινται σε περαιτέρω λεπτομερή έλεγχο και στη συνέχεια οι ακραίες τιμές απορρίπτονται. Τέλος η πιθανότητα ένα συγκεκριμένο σύνολο χαρακτηριστικών να υποδηλώνει την παρουσία ενός αντικειμένου, υπολογίζεται δεδομένης της ακρίβειας του ταιριάσματος και τον αριθμό των πιθανών εσφαλμένων ταιριασμάτων. Ταιριάσματα μεταξύ των αντικειμένων που έχουν περάσει όλα τα παραπάνω στάδια, μπορούν να αναγνωριστούν ως ορθά με μεγάλη αξιοπιστία. 14

15 Εικόνα 1: Παράδειγμα εξαγωγής χαρακτηριστικών sift Βασικά Στάδια Ανίχνευση αμετάβλητων σε κλίμακα χαρακτηριστικών: Η μέθοδος του Lowe για την παραγωγή χαρακτηριστικών εικόνας μετατρέπει την εικόνα σε μια μεγάλη συλλογή από διανύσματα χαρακτηριστικών γνωρισμάτων κάθε ένα από τα οποία είναι αναλλοίωτα στην μετατόπιση, στην κλιμάκωση, στην περιστροφή, εν μέρει αμετάβλητα στις αλλαγές φωτισμού και ανθεκτικά στις τοπικές γεωμετρικές παραμορφώσεις. Τα χαρακτηριστικά αυτά έχουν παρόμοιες ιδιότητες με τους νευρώνες στο κάτω κροταφικό φλοιό που χρησιμοποιείται για την αναγνώριση αντικειμένων στην πρωτεύουσα όραση. Οι βασικές περιοχές ορίζονται ως μέγιστες και ελάχιστες της Gaussian συνάρτησης που εφαρμόζονται στην κλίμακα χώρου σε μια σειρά από εξομαλυμένες και επαναδειγματοληφθέντες εικόνες. Υποψήφια σημεία χαμηλής αντίθεσης και σημεία απόκρισης από άκρη σε άκρη απορρίπτονται. Οι κυρίαρχες κατευθύνσεις ανατίθενται σε εντοπισμένα κύρια σημεία (keypoints). Αυτά τα βήματα διασφαλίζουν ότι τα κύρια σημεία είναι πιο σταθερά για αντιστοίχιση και αναγνώριση. Οι SIFT περιγραφείς ανθεκτικοί στις τοπικά συσχετισμένες στρεβλώσεις προκύπτουν λαμβάνοντας υπόψη τα pixels γύρω από την ακτίνα μιας νευραλγικής θέσης, θολώνοντας και παίρνοντας δείγματα των τοπικών επιπέδων προσανατολισμού της εικόνας. Η συνάρτηση της Gaussian διαφοράς είναι η εξής: G(x,y,kσ)-G(x,y,σ) (k-1) σ2 (Lxx+ Lyy) όπου (k-1) θεωρείται μια σταθερά και μπορεί να παραληφθεί. Κάθε pixel στην Gaussian διαφορά συγκρίνεται με τους γείτονες του, στην δικιά του και των διπλανών του pixels κλίμακα. Ένα pixel επιλέγεται μόνο αν είναι πιο σκούρο ή πιο φωτεινό από όλους τους γείτονες του. Δεν είναι όλα τα ακρότατα χρήσιμα στην κλίμακα του χώρου. Ειδικά σημεία με χαμηλή αντίθεση είναι πολύ ευαίσθητα στο θόρυβο και δεν πρέπει να χρησιμοποιούνται. Η Gaussian διαφορά είναι πολύ ευαίσθητη στις ακμές ακόμη και αν η θέση του σημείου κατά μήκος της ακμής είναι ανεπαρκώς εντοπισμένη. 15

16 Αντιστοίχηση χαρακτηριστικών και προσθήκη σε ευρετήριο: Η προσθήκη στο ευρετήριο αποτελείται από αποθήκευση SIFT χαρακτηριστικών και τον εντοπισμό όσων ταιριάζουν με αυτά της νέας εικόνας. Ο Lowe χρησιμοποίησε μια τροποποιημένη μορφή του k-d δένδρου που ονομάζεται Best-bin-first μέθοδος αναζήτησης η οποία μπορεί να εντοπίσει την πλησιέστερη γειτονιά (nearest neighbor) με υψηλή πιθανότητα, χρησιμοποιώντας μόνο ένα περιορισμένο ποσοστό υπολογιστικής ισχύς. Η παραπάνω μέθοδος αναζήτησης χρησιμοποιεί μια μορφοποιημένη ταξινόμηση του αλγορίθμου k-d δένδρου έτσι ώστε τα δοχεία αποθήκευσης των χαρακτηριστικών να αναζητούνται βάση της πλησιέστερης θέσης τους από το αρχικό σημείο ενδιαφέροντος. Αυτή η σειρά αναζήτησης απαιτεί τη χρήση ενός σωρού βασισμένο στην ουρά προτεραιότητας για τον αποτελεσματικό καθορισμό της διάταξης για την αναζήτηση. Η καλύτερη αντιστοίχιση για κάθε χαρακτηριστικό βρίσκεται εντοπίζοντας την κοντινότερη γειτονιά του στη βάση δεδομένων των χαρακτηριστικών από τις εικόνες που εκπαιδεύονται. Ως κοντινότερες γειτονιές ορίζονται τα κύρια σημεία με ελάχιστη Ευκλείδεια απόσταση από το δοσμένο διάνυσμα περιγραφέα. Η πιθανότητα ότι μια αντιστοίχιση είναι σωστή μπορεί να καθοριστεί λαμβάνοντας υπόψη την αναλογία της απόστασης από το πλησιέστερο γείτονα, με την απόσταση από το δεύτερο κοντινότερο γείτονα. Η υλοποίηση του Lowe απορρίπτει όλες τις πιθανές αντιστοιχίες των οποίων η αναλογία είναι μεγαλύτερη από 0.8. Με αυτό τον τρόπο εξαλείφεται το 90 % των λανθασμένων αντιστοιχιών ενώ παράλληλα απορρίπτεται μονάχα το 5% των σωστών. Για την περαιτέρω βελτίωση της αποτελεσματικότητας του αλγορίθμου, η αναζήτηση κόβεται μετά τον έλεγχο των πρώτων 200 υποψήφιων πλησιέστερων γειτόνων. Έτσι για παράδειγμα, για μια βάση δεδομένων σημείων με τη συγκεκριμένη υλοποίηση παρέχεται μια επιτάχυνση, πάνω ακριβώς από την αναζήτηση πλησιέστερου γείτονα, δυο τάξεων μεγέθους, αλλά με αποτελέσματα απώλειας σωστών αντιστοιχίσεων λιγότερο από 5%. Εκχώρηση Προσανατολισμού: Για την επίτευξη της αμεταβλητότητας στην περιστροφή της εικόνας, σε κάθε σημείο κλειδί ανατίθενται μια ή περισσότερες κατευθύνσεις. Ένα ιστόγραμμα προσανατολισμού σχηματίζεται από τους προσανατολισμούς κλίσης των pixels γύρω από ένα σημείο κλειδί. Κάθε δείγμα σταθμίζεται από μέγεθος της κλίσης και ένα Gaussian παράθυρο. Το μέγιστο αυτό του ιστογράμματος και οποιοδήποτε άλλο τοπικό μέγιστο στο πλαίσιο του 80 %, χρησιμοποιείται για την παραγωγή ενός σημείου κλειδί. Για να αυξηθεί η ακρίβεια των τοπικών ιστογραμμάτων χρησιμοποιείται τριγραμμική παρεμβολή για τη διανομή των σταθμισμένων προσαυξήσεων για τις μετρήσεις του δείγματος εικόνας σε διπλανούς κάδους ιστογράμματος. Με άλλα λόγια κάθε καταχώρηση στον κάδο πολλαπλασιάζεται με ένα επιπλέον βάρος 1-d, όπου d είναι η απόσταση του δείγματος και της κεντρικής θέσης του κάδου, εκφρασμένο σε μονάδες απόστασης στο ιστόγραμμα. 16

17 Συνοψίζοντας μπορούμε να πούμε ότι ο αλγόριθμος αυτός ενδείκνυται για αναγνώριση αντικειμένων, εκτελώντας το ταίριασμα ανάμεσα σε κάθε σημείο κλειδί με μια βάση δεδομένων από γνωστά σημεία κλειδιά που έχουν εξαχθεί από διαφορετικές εικόνες. Παρόλα αυτά ο κλασσικός τρόπος ταιριάσματος με τη χρήση του αλγόριθμου κοντινότερων γειτονιών, μπορεί να παράγει ζεύγη τα οποία δεν είναι σωστά, κάτι το οποίο οφείλεται σε ασαφή χαρακτηριστικά ή σε χαρακτηριστικά που παράγονται από το περιβάλλον της εικόνας και όχι από το κυρίαρχο αντικείμενο της σκηνής. Για το λόγο αυτό για την υλοποίηση της τελικής εφαρμογής για την αυτόματη αναγνώριση αντικειμένων εικόνας, χρησιμοποιήθηκε ο μετασχηματισμός κλιμακωτά αναλλοίωτων χαρακτηριστικών αφού πρώτα έχει γίνει η επεξεργασία των εικόνων με τη μέθοδο εξαγωγής χαρακτηριστικών που αναπτύχθηκε παραπάνω. 2.6 Επιταχυνθέντα ισχυρά χαρακτηριστικά (Speeded up Robust Feature) Τα επιταχυνθέντα ισχυρά χαρακτηριστικά (SURF) θεωρείται ένας εύρωστος ανιχνευτής τοπικών χαρακτηριστικών, ο οποίος παρουσιάστηκε για πρώτη φορά από τον Herbert Bay το 2006 στο ECCV 2006 συνέδριο στο Graz της Αυστρίας. Ο συγκεκριμένος ανιχνευτής μπορεί να χρησιμοποιηθεί σε διάφορες εργασίες της τεχνητής όρασης, όπως η αναγνώριση αντικειμένων ή η ανακατασκευή τριών διαστάσεων. Είναι εν μέρει εμπνευσμένος από τον SIFT περιγραφέα, παρόλα αυτά η βασική έκδοση του SURF είναι πολλές φορές γρηγορότερη από τη μέθοδο του SIFT και θεωρείται από τους δημιουργούς του, ότι είναι πιο ανθεκτικός στις διάφορες μεταμορφώσεις της εικόνας από ότι ο SIFT. Η εφαρμογή του αλγορίθμου είναι κατοχυρωμένη με δίπλωμα ευρεσιτεχνίας στις ΗΠΑ. Γενικά μπορούμε να πούμε ότι ο SURF βασίζεται στο ποσό των αποκρίσεων των 2D κυματιδίων Haar και κάνει αποτελεσματική χρήση των ενσωματωμένων εικόνων. Εικόνα 2: παράδειγμα εξαγωγής χαρακτηριστικών surf. 17

18 2.6.1 Επισκόπηση μεθόδου Οι αντιστοιχίες σημείων ενδιαφέροντος είναι θεμελιώδους σημασίας για πολλές εφαρμογές της τεχνητής όρασης, όπως η βαθμονόμηση κάμερας, καταγραφή εικόνας, αναγνώριση και χαρακτηρισμό αντικειμένων, ανάκτηση εικόνας βάση περιεχομένου. Πολύ συχνά ο χρόνος που απαιτείται για την επεξεργασία είναι κρίσιμο ζήτημα. Αυτό συμβαίνει είτε επειδή υπάρχουν περιορισμοί πραγματικού χρόνου είτε επειδή τεράστιες ποσότητες δεδομένων πρέπει να αντιμετωπιστούν. Ως εκ τούτου αναπτύχθηκε αυτό το σύστημα ανίχνευση σημείων ενδιαφέροντος, το οποίο είναι γρήγορο και αποδοτικό, ταυτόχρονα σεβόμενο την ταυτοποίηση, περιγραφή και αντιστοίχιση των σημείων ενδιαφέροντος. Το σκεπτικό πίσω από την προσέγγιση αυτή, εμπνεύστηκε από την επιτυχία του SIFT, ο οποίος αποδείχθηκε εκπληκτικά εύρωστος κατά των μετασχηματισμών της εικόνας, βάση της οποίας δεν έπρεπε καν να είναι αμετάβλητος. Σε σύγκριση με τις συσχετισμένες περιοχές, η μείωση της πολυπλοκότητας φαίνεται να αντισταθμίζει τη θεωρητική εξειδίκευση. Η αναζήτηση για διακριτά σημεία αντιστοιχίας στην εικόνα μπορεί να διαιρεθεί σε τρία βασικά βήματα. Πρώτα τα σημεία ενδιαφέροντος επιλέγονται σε διακριτές τοποθεσίες της εικόνας, όπως γωνίες και Τ-κόμβους. Το σημαντικότερο στοιχείο ενός ανιχνευτή σημείων ενδιαφέροντος, θεωρείται η επαναληψιμότητα. Η επαναληψιμότητα εκφράζει την αξιοπιστία του ανιχνευτή για την εύρεση των ιδίων σημείων ενδιαφέροντος κάτω από διαφορετικές συνθήκες. Στη συνέχεια, η γειτονιά κάθε σημείου ενδιαφέροντος αντιπροσωπεύεται από ένα διάνυσμα χαρακτηριστικών. Ο περιγραφέας πρέπει να είναι ταυτόχρονα διακριτός και ισχυρός απέναντι στο θόρυβο, στις μετατοπίσεις ανίχνευσης και γεωμετρικές αλλά και φωτομετρικές παραμορφώσεις. Τέλος τα διανύσματα των περιγραφέων δοκιμάζονται αν ταιριάζουν μεταξύ διαφορετικών εικόνων. Η αντιστοίχιση βασίζεται σε μια απόσταση μεταξύ των διανυσμάτων, για παράδειγμα Mahalanobis ή Ευκλείδεια απόσταση. Η διάσταση του περιγραφέα έχει άμεσες επιπτώσεις στον απαιτούμενο χρόνο. Έτσι μικρότερες διαστάσεις είναι επιθυμητές για γρήγορη αντιστοίχιση μεταξύ σημεία ενδιαφέροντος. Ωστόσο η μείωση στις διαστάσεις των διανυσμάτων προσφέρει μικρότερο διακριτό χαρακτήρα από ότι προσφέρουν οι μεγαλύτερες διαστάσεις των διανυσμάτων Βασικά στάδια Ανίχνευση σημείων ενδιαφέροντος: Η προσέγγιση του SURF για την ανίχνευση σημείων ενδιαφέροντος χρησιμοποιεί μια πολύ βασική προσέγγιση του Εσσιανού πίνακα (Hessian matrix). Αυτή προσφέρεται για τη χρήση αναπόσπαστων εικόνων, μειώνοντας δραστικά το χρόνο υπολογισμού που απαιτείται. Στο βήμα της ανίχνευσης τα τοπικά μέγιστα του Εσσιανού καθοριστικού παράγοντα, ο οποίος εφαρμόζεται στην κλίμακα χώρου, υπολογίζονται για την επιλογή υποψήφιων σημείων ενδιαφέροντος. Τα εν λόγω υποψήφια σημεία, θα επικυρωθούν αν η απάντηση είναι πάνω από ένα ορισμένο όριο. Τόσο η κλίμακα όσο και η θέση αυτών των υποψηφίων, στη συνέχεια εκκαθαρίζονται χρησιμοποιώντας μια 18

19 επαναλαμβανόμενη διαδικασία για να ταιριάξει μια τετραγωνική συνάρτηση. Συνήθως λίγες εκατοντάδες από σημεία ενδιαφέροντος ανιχνεύονται σε μια ψηφιακή εικόνα της τάξεως του ενός Mega-Pixel. Τρία βήματα εμπλέκονται στη διαδικασία ανίχνευσης σημείων ενδιαφέροντος. Ανίχνευση χαρακτηριστικών: Όπως υποστηρίζεται, τα αμετάβλητα σε κλίμακα χαρακτηριστικά μπορούν να ανιχνευτούν χρησιμοποιώντας κλιμακωτά κανονικοποιημένη δεύτερου βαθμού παράγωγο στην χωρική κλίμακα αναπαράστασης της δοσμένης εικόνας. Αυτά τα χαρακτηριστικά αντιστοιχούν σε άκρες ή γωνίες. Σε αντίθεση με τον SIFT, στον οποίο ο Lowe προσεγγίζει τον κανονικοποιημένο Laplace φορέα με τη Gaussian διαφορά, ο SURF προσεγγίζει τον κανονικοποιημένο παράγοντα της Hessian κλίμακας ως εξής: Εικόνα 3: Κανονικοποιημένος παράγοντας της Hessian Επιλογή χαρακτηριστικών: Ως σημεία ενδιαφέροντος ορίζονται τα σημεία της κλίμακας του χώρου τα οποία αλλοιώνονται στον ίδιο βαθμό κατά τη διάρκεια μιας ενδεχόμενης μετατροπής ομοιότητας και αντιστοιχούν σε τοπικά μέγιστα του εν λόγω παράγοντα DoH, ο οποίος εφαρμόζεται στην κλίμακα αναπαράστασης της εικόνας. Αυτά τα σημεία επιλέγονται εξετάζοντας μια 3x3x3 γειτονιά, και εκτελώντας μια εξαντλητική σύγκριση του κάθε σημείου της κλίμακας με τους 26 πλησιέστερους γείτονες. Ο αλγόριθμος, για να αποκτήσει μια συμπαγή αναπαράσταση της εικόνας αλλά και για να αντιμετωπίσει το θόρυβο, επιλέγει τα πλέον εξέχοντα σημεία από το σύνολο των τοπικών μεγίστων. Αυτό επιτυγχάνεται με τη χρήση ενός ορίου (threshold th) στην απόκριση του DoH παράγοντα, για κάθε ένα σημείο ενδιαφέροντος (x,y) σε κλίμακα σ. Εικόνα 4:Απόκριση του DoH Βελτίωση θέσης στην κλίμακα του χώρου: Για κάθε τοπικό μέγιστο του παράγοντα DoH, ο εντοπισμός του αντίστοιχου σημείου ενδιαφέροντος M, με 19

20 συντεταγμένες (x,y,σ) στην κλίμακα-χώρο, μπορεί να τελειοποιηθεί χρησιμοποιώντας μια παρεμβολή δεύτερης σειράς. Συγκεκριμένα βασίζεται σε μια τοποθέτηση σε κλίμακα χώρου με τον εξής τύπο: Εικόνα 5: Εντοπισμός σημείου ενδιαφέροντος Μ Μπορεί να συμβεί το σημείο M να μην ανήκει στη γειτονιά του Μ. Για να αποφευχθεί αυτό το πρόβλημα, ακολουθώντας και τον SIFT, το σημείο Μ ενημερώνεται ως ο κοντινότερος γείτονας του Μ στην 3x3x3 γειτονιά και η διαδικασία βελτίωσης επαναλαμβάνεται με τον παραπάνω τύπο. Εάν συνολικά αυτή η διαδικασία επαναληφθεί περισσότερες από 5 φορές, το σημείο ενδιαφέροντος απορρίπτεται. Τελικά για κάθε σημείο ενδιαφέροντος, πέρα από τις συντεταγμένες του (x,y) και σ, υποθηκεύεται επίσης και το Laplacian πρόσημο για το στάδιο της αντιστοίχησης, προκειμένου να επιταχυνθεί η σύγκριση του SURF. Τοπικοί Περιγραφείς: Από την προηγούμενη φάση, λαμβάνουμε μια σειρά από Ν σημεία ενδιαφέροντος στην κλίμακα-χώρου, τα οποία επιτρέπουν την κωδικοποίηση αμετάβλητων σε κλίμακα χαρακτηριστικών από μια εικόνα. Παρ όλα αυτά, πριν από την κατασκευή τέτοιων τοπικών περιγραφέων, πρέπει πρώτα να καθοριστεί για κάθε σημείο ενδιαφέροντος, ο κυρίαρχος προσανατολισμός, ακολουθώντας τη διαδικασία που περιγράφεται παρακάτω, προκειμένου να επιτευχθεί η πλήρης αμεταβλητότητα κατά την περιστροφή. Προσανατολισμός του σημείου ενδιαφέροντος: Όμοια με τον SIFT, ο τοπικός προσανατολισμός ενός χαρακτηριστικού σε κλίμακα-χώρο υπολογίζεται από την τοπική εξάπλωση του προσανατολισμού της κλίσης. Ως εκ τούτου για κάθε σημείο ενδιαφέροντος Mi, θεωρούμε ότι η γειτονιά Β6σi (xi,yi), ορίζεται ως ο δίσκος ακτίνας 6σi με κέντρο (xi,yi). Ο υπολογισμός της κλίσης σε αυτή την κλίμακα αυτής της γειτονιάς, επιτυγχάνεται με τη χρήση συνέλιξης με φίλτρα παραθύρου. Για να αποφεύγονται οι ανεπιθύμητες ενέργειες, όλα αυτά τα δείγματα κλίσης σταθμίζονται με τη χρήση ενός Gaussian πυρήνα μια τυπικής απόκλισης ίση με 2σi και η οποία εξαρτάται από την Ευκλείδεια απόσταση του δείγματος από το σημείο ενδιαφέροντος. Σε αντίθεση με την προσέγγιση του SIFT στην οποία ένα ιστόγραμμα φτιάχνεται για να εκτιμηθεί ο κυρίαρχος προσανατολισμός, ο SURF αλγόριθμος υπολογίζει το μέγιστο της 20

21 ακόλουθης συνάρτησης ανάλογα με τον προσανατολισμό θ. Εικόνα 6: Υπολογισμός αλγορίθμου SURF. Είναι το άθροισμα των κλίσεων από την εξεταζόμενη περιοχή που έχει περίπου τον προσανατολισμό θ. Για την εξοικονόμηση υπολογιστικού χρόνου, και για να υπάρχουν πάντα οι ίδιοι αριθμοί δειγμάτων, όπως υποστηρίζεται από τον αλγόριθμο, δεν επεξεργάζονται όλα τα pixels στην περιοχή Β6σi(xi,yi), αλλά λαμβάνονται υπόψη δείγματα μόνο τα οποία απέχουν σi. Κατασκευή τοπικών περιγραφέων: Ένας SURF περιγραφέας είναι ένα διάνυσμα 16x4 το οποίο αντιπροσωπεύει την κανονικοποιημένη στατιστική κλίση (μέση τιμή και απόλυτη τιμή) που εξάγεται από ένα χωροταξικό πλέγμα το οποίο χωρίζεται σε 4x4 κελιά. Για ένα δοσμένο σημείο ενδιαφέροντος (xi,yi,σi,θi), όπως φαίνεται παρακάτω, το αντίστοιχο τετραγωνικό πλέγμα είναι κεντραρισμένο στο (xi,yi), και ευθυγραμμίζεται στο θi με μέγεθος 20 σi. Ο SURF περιγραφέας προέρχεται από τη συνένωση των 16 υπολογισμένων διανυσμάτων, για κάθε υποπεριοχή και την ομαλοποίηση του αντίστοιχου 64 διαστάσεων διανύσματος. Αυτό συμβαίνει έτσι ώστε η Ευκλείδεια νόρμα να είναι ενιαία καθιστώντας έτσι τον περιγραφέα αμετάβλητο σε συσχετισμένες αλλαγές αντίθεσης. Αντιστοίχιση Χαρακτηριστικών: Από τα προηγούμενα βήματα, ένα ζευγάρι εικόνων προς αντιστοίχιση, αντιπροσωπεύεται από δυο σημεία ενδιαφέροντος μαζί με τους αντίστοιχους SURF περιγραφείς. Το βήμα της αντιστοίχισης εδώ απλώς εκτελείται ως μια εξαντλητική σύγκριση αυτών των διανυσμάτων σε συνδυασμό με μια τεχνική κατωφλίωσης, την λεγόμενη απόσταση αναλογίας του πλησιέστερου γείτονα (Nearest Neighbor Distance Ratio), η οποία προτάθηκε από τον SIFT και είναι λιγότερο εξαρτημένη από τη δυναμική της εικόνας σε σχέση με το όριο ταιριάσματος που προτείνει ο SURF. Άλλωστε για την επιτάχυνση της διαδικασίας αντιστοίχισης, συγκρίνονται το πρόσημο του Laplacian μεταξύ δυο σημείων ενδιαφέροντος. Υπολογίζεται η Ευκλείδεια απόσταση μεταξύ του περιγραφέα ερώτησης της πρώτης εικόνας και κάθε περιγραφέα της δεύτερης εικόνας. Μονάχα οι πιο κοντινοί και οι δεύτεροι πιο κοντινοί γείτονες λαμβάνονται υπόψη. Εάν η αναλογία αυτών των δυο αποστάσεων είναι κάτω από 0.8 η αντιστοίχιση μεταξύ του εικόνας-ερωτήματος και του κοντινότερου υποψήφιου γείτονα θεωρείται έγκυρη. Μια τέτοια κατωφλίωση 21

22 επιτρέπει την απόρριψη πολλών λανθασμένων αντιστοιχιών. 2.7 Ταξινομητής K-means Ο ταξινομητής K-means στηρίζεται στην ελαχιστοποίηση του αθροίσματος των τετραγώνων των αποστάσεων όλων των στοιχείων σε κάθε κλάση από το κέντρο της κλάσης αυτής, δηλαδή Όπου Sj(k) είναι η κλάση την k επανάληψη, zj είναι το κέντρο της κλάσης και το - εκφράζει συνήθως την Ευκλείδεια μετρική. Συνεπώς, η συνάρτηση που πρέπει να ελαχιστοποιηθεί για όλες τις κλάσεις είναι η εξής: Παίρνοντας τις μερικές παραγώγους της J έχουμε: Έτσι, η βέλτιστη λύση για τα κέντρα των κλάσεων είναι: Όπου nj είναι ο αριθμός των στοιχείων της κλάσης Sj(k), δηλαδή τα zj είναι η μέση τιμή των στοιχείων κάθε κλάσης. Γενικά ο ταξινομητής K-means περιλαμβάνει τα εξής βήματα: Καθορίζουμε το πλήθος των κλάσεων, έστω K. Επιλέγουμε τυχαία ή προσεγγιστικά K στοιχεία τα οποία αποτελούν τα κέντρα των κλάσεων. Για τα υπόλοιπα M-K στοιχεία προσδιορίζουμε την απόστασή τους από τα κέντρα των Κ κλάσεων και τα τοποθετούμε στην κατάλληλη κλάση με κριτήριο την ελάχιστη απόσταση. Υπολογίζουμε ξανά τα κέντρα των κλάσεων (δηλαδή τη μέση τιμή των στοιχείων κάθε κλάσης). Υπολογίζουμε ξανά τις αποστάσεις των στοιχείων από τα κέντρα των κλάσεων και γίνεται επανατοποθέτηση των στοιχείων. 22

23 Επαναλαμβάνουμε τα βήματα 4 και 5 μέχρι τα κέντρα των κλάσεων να μην έχουν καμιά μεταβολή, οπότε ο αλγόριθμος συγκλίνει. 3 Τεχνητά Νευρωνικά Δίκτυα 3.1 Εισαγωγή Στο κεφάλαιο αυτό γίνεται αρχικά μία σύντομη αναφορά στην έννοια των Τεχνητών Νευρωνικών Δικτύων και στη σχέση τους με τα βιολογικά νευρωνικά δίκτυα και στην εφαρμογή τους στην επιστήμη της επεξεργασίας εικόνων. Στην συνέχεια εξηγείται ο τρόπος λειτουργίας των νευρωνικών δικτύων, οι διαδικασίες που εφαρμόζονται και οι αρχιτεκτονικές που παρατηρούνται. Τέλος θα παραθέσουμε και θα αναφερθούμε αναλυτικά στο πρακτικό κομμάτι με το οποίο πειραματιστήκαμε. 3.2 Γενικά για τα Τεχνητά Νευρωνικά Δίκτυα Τα Τεχνητά Νευρωνικά Δίκτυα δεν είναι τίποτα άλλο παρά μόνο μία εικονική προσημείωση του ανθρώπινου εγκεφάλου ο οποίος αποτελείται από νευρώνες. Αποτελείται δηλαδή από μεγάλο αριθμό επεξεργαστικών μονάδων, κατά αναλογία με τον ανθρώπινο νευρωνικό σύστημα, και είναι η πιο μικρή ανεξάρτητη μονάδα του δικτύου. Οι νευρώνες, όπως αναφέραμε, είναι τα δομικά στοιχεία ενός δικτύου και υπάρχουν 3 τύποι νευρώνων, οι νευρώνες εισόδου οι κρυφοί νευρώνες και οι νευρώνες εξόδου. Οι νευρώνες εισόδου δεν αποφέρουν στο δίκτυο κάποιο αποτέλεσμα, χρησιμοποιούνται μόνο για προσφέρουν τα δεδομένα εισόδου και επίσης επικοινωνούν με τα κρυφά επίπεδα. Οι νευρώνες εξόδου προσφέρουν σε εμάς τις επιθυμητές η όχι εξόδους του δικτύου. Το σημαντικότερο ρόλο τον έχουν οι κρυμμένοι νευρώνες οι οποίοι πολλαπλασιάζουν κάθε είσοδο με το συνοπτικό βάρος και βγάζουν σαν αποτέλεσμα το άθροισμα των γινομένων το οποίο λαμβάνεται σαν όρισμα από την συνάρτηση ενεργοποίησης την οποία ενεργοποιεί εσωτερικά κάθε κόμβος. Οι νευρώνες του ΤΝΔ είναι οι κόμβοι του οι οποίοι διασυνδέονται μεταξύ τους με συνδέσμους που λέγονται βάρη και είναι οργανωμένοι σε στρώματα αριθμός των στρωμάτων που χρησιμοποιείται σε κάθε ΤΝΔ αποτελεί την αρχιτεκτονική του δικτύου. Πιο αναλυτικά ένας νευρώνας έχει ένα ορισμένο αριθμό εισόδων αλλά μόνο μία έξοδο. Δηλαδή δέχεται πολλές εισόδους x1,x2 και κάθε εισερχόμενο σήμα xi συνδέεται με ένα βάρος w. Κάθε σήμα x πολλαπλασιάζεται με το βάρος w που έχει η σύνδεση i. Τελικά αυτό που παρουσιάζεται στον νευρώνα από κάθε εισερχόμενο 23

24 σήμα είναι το γινόμενο x w.στη συνέχεια τα επιμέρους γινόμενα αθροίζονται οπότε ο νευρώνας λαμβάνει ένα συνολικό σήμα με τιμή: u w x ( όπου u είναι η έξοδος ως γραμμικός συνδιασμός) Όμως για να τελειώσει η κατασκευή ενός ΤΝΔ κάθε επίπεδο νευρώνων χρειάζεται και μια συνάρτηση μεταφοράς η οποία εφαρμόζεται στο άθροισμα ώστε να περιορίσει το μέγεθος τoυ εξερχόμενου σήματος. Οι συναρτήσεις μεταφοράς που μπορούμε να χρησιμοποιήσουμε για κάθε επίπεδο δικτύου βρίσκονται στα Neural Network Toolbox του Matlab εμείς θα χρησιμοποιήσουμε τις πιο πολύ χρησιμοποιημένες για να καταλήξουμε στην πιο αποδοτική συσχέτιση τους. Μία από αυτές είναι η pureline η οποία είναι γραμμική συνάρτηση μεταφοράς, η άλλη είναι η logsig η οποία είναι μία σιγμοειδή συνάρτηση και η οποία χρησιμοποιείται και αυτή για γραμμικά προβλήματα και άλλη μια παράλληλη της η tansig. Επίσης για να ολοκληρωθεί η κατανόηση των ΤΝΔ θα πρέπει να αναφέρουμε κάποιες βασικές έννοιες και όρους που σχετίζονται με τα αυτά και μία από τις έννοιες που δεν μπορούμε να παραλείψουμε είναι η έννοια της γνώσης. Γνώση είναι οι αποθηκευμένες πληροφορίες ή τα μοντέλα που χρησιμοποιούνται, είτε από ένα άτομο είτε από μια μηχανή για να μεταφράσουν, να προβλέψουν και να ανταποκριθούν κατάλληλα στον εξωτερικό κόσμο. Ακόμα, χρησιμοποιείται η έννοια της γενίκευσης. Ως γενίκευση ορίζεται η ικανότητα του νευρωνικού δικτύου να αποδίδει εξίσου καλά με διανύσματα εισόδου τα οποία δεν έχουν χρησιμοποιηθεί στην διαδικασία εκπαίδευσης. Οι παράγοντες που επηρεάζουν την ικανότητα γενίκευσης ενός νευρωνικού δικτύου είναι οι ακόλουθοι: i. Ο αριθμός των διανυσμάτων που χρησιμοποιούνται για την εκπαίδευση του δικτύου και αν αυτά αναπαριστούν ικανοποιητικά τον χώρο από τον οποίο προέρχονται. Ο γενικός κανόνας είναι όσο μεγαλύτερος είναι ο αριθμός των διανυσμάτων εκπαίδευσης τόσο καλύτερες δυνατότητες προσφέρονται για την γενίκευση. ii. Η πολυπλοκότητα του προβλήματος. iii. Το μέγεθος του νευρωνικού δικτύου. Αν διατίθεται μεγάλος αριθμός εκπαιδευτικών διανυσμάτων μπορούμε να χρησιμοποιήσουμε κάποιο νευρωνικό δίκτυο σταθερού μεγέθους και στην συνέχεια να προσδιορίσουμε τον αριθμό διανυσμάτων της εκπαίδευσης που πρέπει να χρησιμοποιηθούν για την βέλτιστη ικανότητα γενίκευσης. Αντίθετα σε περίπτωση που έχουμε μικρό αριθμό εκπαιδευτικών διανυσμάτων πρέπει να προσδιορίσουμε το μέγεθος του δικτύου που ικανοποιεί την ικανότητα γενίκευσης. 24

25 Τέλος, ο έλεγχος της απόδοσης κάποιου νευρωνικού δικτύου μπορεί να πραγματοποιηθεί με τη χρησιμοποίηση κάποιας συνάρτησης σφάλματος είτε στο σύνολο των εκπαιδευτικών διανυσμάτων είτε σε άγνωστα διανύσματα. Για την πιστοποίηση των αποτελεσμάτων εφαρμόζονται κάποιοι μέθοδοι όπως το ανακάτεμα των διανυσμάτων και ο τυχαίος διαχωρισμός συνόλων εκπαίδευσης και ελέγχου. Αρκετό ενδιαφέρον για τον έλεγχο της απόδοσης κάποιου νευρωνικού δικτύου παρουσιάζουν η «ανάκληση» (recall) και η «ακρίβεια» του δικτύου. Ως ανάκληση ορίζουμε το λόγο των διανυσμάτων που έχουν ταξινομηθεί σωστά από το δίκτυο προς το συνολικό αριθμό διανυσμάτων που ανήκουν σε αυτήν την κατηγορία. Ως ακρίβεια ορίζουμε τον αριθμό διανυσμάτων που έχουν ταξινομηθεί σωστά από το δίκτυο ως προς το συνολικό αριθμό των διανυσμάτων που ταξινομούνται σε αυτήν την κατηγορία, σωστά ή λανθασμένα. Για παράδειγμα αν μια κατηγορία περιέχει 100 διανύσματα και από αυτά έχουν ταξινομηθεί σωστά τα 60 ενώ έχουν ταξινομηθεί και από άλλες κατηγορίες 9 λανθασμένα διανύσματα, τότε η ανάκληση για την συγκεκριμένη περίπτωση είναι 60/100 ενώ η ακρίβεια είναι 60/ Εκπαίδευση και μάθηση Το επιστημονικό ενδιαφέρον για τα ΤΝΔ προκύπτει από την δυνατότητα τους να επιλύουν διάφορα υπολογιστικά προβλήματα. Βασικό κομμάτι των ΤΝΔ για να φτάσουν στην επίλυση είναι η εκπαίδευση και η μάθηση. Με τον όρο εκπαίδευση εννοούμε την διαδικασία μεταβολής των βαρών με τον πιο αποτελεσματικό τρόπο έτσι ώστε να πραγματοποιηθεί η μάθηση, δηλαδή να συσχετίσει το δίκτυο μας τα πρότυπα εκπαίδευσης με την επιθυμητή έξοδο για να λύσει κάποια προβλήματα όπως η αναγνώριση προτύπων. Υπάρχουν πολλοί αλγόριθμοι εκπαίδευση και 2 κατηγορίες μάθησης. Είναι η μάθηση με επίβλεψη και η μάθηση χωρίς επίβλεψη. Στη μάθηση με επίβλεψη το σύστημα που δημιουργείται καλείται να μάθει μία έννοια από ένα σύνολο δεδομένων που εισάγουμε όπου το κάθε σύνολο αποτελεί μια περιγραφή ενός μοντέλου. Στην ουσία ονομάζεται έτσι γιατί υπάρχει κάποιος επιβλέπων ο οποίος παρέχει τις σωστές τιμές εξόδου για το σύνολο δεδομένων που εξετάζεται. Σε αυτού του είδους συστήματα η μάθηση πρέπει να γίνεται επαγωγικά με την συνάρτηση στόχου (target) γιατί έτσι γίνεται η πρόβλεψη τιμών βάσει των τιμών ενός συνόλου τιμών που ονομάζονται μεταβλητές εισόδου. Στη μάθηση χωρίς επίβλεψη είναι υποχρεωμένο μόνο του να ανακαλύψει συσχετίσεις ή ομάδες δεδομένων σύμφωνα με τις ιδιότητες του. Δηλαδή δημιουργεί πρότυπα χωρίς να ξέρει αν είναι γνωστά αν υπάρχουν και ποιά μπορεί να είναι αυτά. 25

26 3.3.1 Διαδικασία εκπαίδευσης ενός δικτύου Μια ενδιαφέρουσα ιδιότητα ενός ΤΝΔ είναι να μαθαίνει από το περιβάλλον και να βελτιώνει την απόδοση του μέσω της εκπαίδευσης. Η βελτίωση της απόδοσης συμβαίνει με την πάροδο του χρόνου σε σχέση με κάποιες συγκεκριμένες διαδικασίες. Κατά τις επαναλαμβανόμενες αυτές διαδικασίες εφαρμόζονται συνεχείς προσαρμογές στα βάρη και στα κατώφλια. Έτσι το δίκτυο μετά από κάθε επανάληψη διαδικασία εκπαίδευσης μαθαίνει να "γνωρίζει" καλύτερα το περιβάλλον του. Θέλοντας, λοιπόν, να ορίσουμε την εκπαίδευση ενός ΤΝΔ μπορούμε να πούμε ότι είναι η διαδικασία με την οποία προσαρμόζονται οι ελεύθερες παράμετροί του μέσω μιας συνεχούς διαδικασίας διέγερσης από το περιβάλλον στο οποίο είναι προσαρμοσμένο το δίκτυο. Η μορφή της εκπαίδευσης καθορίζεται από τον τρόπο τον οποίο μεταβάλλονται οι παράμετροι του δικτύου. Ο παραπάνω ορισμός υπονοεί τα εξής 3 στάδια: i. Το δίκτυο διεγείρεται από το περιβάλλον. ii. Το δίκτυο θα υποστεί αλλαγές ως αποτέλεσμα της διέγερσης. iii. Το δίκτυο ανταποκρίνεται με διαφορετικό νέο τρόπο στο περιβάλλον εξαιτίας των αλλαγών που επέστη στην εσωτερική δομή του. Η μαθηματική έκφραση μεταβολών των βαρών του δικτύου εκφράζεται γενικά με τη σχέση: w (n+1)= w (n)+δw (n) Όπου w (n) είναι το βάρος μεταξύ των νευρώνων k και j την χρονική στιγμή n, w (n+1) είναι το βάρος μεταξύ των νευρώνων k και j την χρονική στιγμή n+1 και Δw (n) είναι η μεταβολή στο βάρος τη χρονική στιγμή n. Οι μεταβολές των βαρών διέπονται από συγκεκριμένους και καλά ορισμένους κανόνες. Το σύνολο των κανόνων αυτών αποτελούν τον αλγόριθμο εκπαίδευσης. Οι αλγόριθμοι εκπαίδευσης διαφέρουν ως προς τον τρόπο που προσαρμόζονται τα συνοπτικά βάρη αλλά και ως προς τον τρόπο που σχετίζεται δίκτυο με το περιβάλλον του. 3.4Αρχιτεκτονικές Τεχνητών Νευρωνικών Δικτύων Ανάλογα με τη ροή του σήματος σένα δίκτυο παρατηρούμε δύο τύπους δικτύων: 3.4.1Feed-forward Το feedforward είναι ένας τύπος δικτύου στον οποίο τα δεδομένα εισόδου είναι τοποθετημένα σε στοιβάδες. Μεταξύ της στοιβάδας εισόδου και της στοιβάδας εξόδου υπάρχουν 1 κρυφή στοιβάδα. Υπάρχει περίπτωση να μην υπάρχει καμία 26

27 κρυφή στοιβάδα μεταξύ της στοιβάδας εισόδου και της στοιβάδας εξόδου, ένα τέτοιο δίκτυο ονομάζεται μονοεπίπεδο (single-layer network). Εικόνα 7: Feed-forward δίκτυο με ένα επίπεδο νευρώνων (single-layer). Κάθε στοιβάδα είναι συνδεδεμένη με την προηγούμενη και την επόμενη στοιβάδα με βάρη και επιτρέπει στο σήμα να διαδίδεται μόνο προς μία κατεύθυνση από την είσοδο προς την έξοδο. Δεν υπάρχει ανάδραση, δηλαδή η έξοδος ενός επιπέδου δεν επηρεάζει το ίδιο επίπεδο. Τα feed-forward δίκτυα τείνουν να σχετίζουν τις εισόδους με τις εξόδους με κίνηση προς τα εμπρός. Για την εκπαίδευση ενός τέτοιου τύπου δικτύου συνήθως χρησιμοποιείται ο αλγόριθμος backpropagation. Είναι ένας αλγόριθμος ο οποίος χρησιμοποιείται για να ελαχιστοποιηθεί η πιθανότητα σφάλματος μεταξύ της προβλεπόμενης τιμής με την τιμή εξόδου. Κάθε φορά που εντοπίζεται σφάλμα αυτό μεταφέρεται προς τα πίσω στις στοιβάδες και υπολογίζεται η μεταβολή στα βάρη κάθε στοιβάδας. Αυτό γίνεται σε κάθε επανάληψη του δικτύου. 27

28 Εικόνα 8:Ένα Feed-forward δίκτυο Feed-back Σ ένα feed-back δίκτυο σήματα μπορούν να διαδίδονται και προς τις δύο κατευθύνσεις δημιουργώντας βρόχους στο δίκτυο. Τέτοια δίκτυα είναι πολύ ισχυρά και μπορούν να γίνουν πολύ πολύπλοκα. Πρόκειται για δυναμικά δίκτυα. Δηλαδή, η κατάσταση τους μεταβάλλεται διαρκώς μέχρι να φτάσουν σε μια κατάσταση ισορροπίας. Παραμένουν σ αυτήν την κατάσταση ισορροπίας μέχρι να αλλάξουν τα εισερχόμενα στοιχεία και απαιτείται μια νέα κατάσταση ισορροπίες Multi-Layer Feed-Forward Networks Σ αυτήν την κατηγορία ανήκουν δίκτυα που περιλαμβάνουν ένα ή περισσότερα κρυμμένα επίπεδα (hidden layers) των οποίων οι κόμβοι-νευρώνες αποκαλούνται (hidden neurons). Η λειτουργία των κρυμμένων επιπέδων είναι να μεσολαβήσουν μεταξύ της εισόδου και της εξόδου του δικτύου. Προσθέτοντας ένα ή περισσότερα κρυμμένα επίπεδα το δίκτυο μπορεί να βγάλει καλύτερα αποτελέσματα, ειδικά όταν το μέγεθος του επιπέδου εισόδου είναι μεγάλο. 28

29 Εικόνα 9:Πλήρως συνδεδεμένο feed-forward δίκτυο με ένα κρυμμένο επίπεδο και το επίπεδο εξόδου. 3.5 Εφαρμογή επεξεργασίας εικόνων με ΤΝΔ και διάγνωση Η επεξεργασία εικόνας είναι μια ιδιαίτερα χρήσιμη όσο και πολύπλοκη διαδικασία. Τα νευρωνικά δίκτυα έχουν να προσφέρουν πολλά στην αυτοματοποίηση της επεξεργασίας εικόνας. Έτσι μπορούν να χρησιμοποιηθούν για την ταξινόμηση μιας εικόνας χρησιμοποιώντας ως δεδομένο την πραγματική εικόνα, κάποιον μετασχηματισμό αυτής π.χ. τον μετασχηματισμό Fourier ή ορισμένα χαρακτηριστικά της εικόνα1 που λαμβάνονται με γνωστούς αλγορίθμους. Η αναγνώριση κάποιου στόχου είναι μια πιθανή εφαρμογή όπου το νευρωνικό δίκτυο διαχωρίζει διαφορετικές εικόνες-στόχους. Μια διαφορετική προσέγγιση είναι η ανεύρεση ενός στόχου που μπορεί να είναι σε διαφορετικές περιοχές της εικόνας. Μια εφαρμογή είναι η συμπλήρωση των κατεστραμμένων από το θόρυβο τμημάτων μιας εικόνας. Αυτό επιτυγχάνεται εκπαιδεύοντας το νευρωνικό ως αυτοσυσχετιζόμενο, δηλαδή το νευρωνικό εκπαιδεύεται ώστε να παράγει στην έξοδο του το ίδιο διάνυσμα εισόδου. Στα κρυφά επίπεδα του δικτύου δημιουργείται μια κατανεμημένη εσωτερική αναπαράσταση της εικόνας. Έτσι όταν εισαχθεί η 29

30 κατεστραμμένη εικόνα, στην έξοδο λαμβάνουμε την ολοκληρωμένη εικόνα χωρίς όμως αυτή να είναι τέλεια. Τα αποτελέσματα της επεξεργασίας εικόνων εφαρμόζονται στα τεχνητά νευρωνικά δίκτυα με στόχο τη διάγνωση. Ως διάγνωση μπορεί να οριστεί η αναγνώριση και η ταυτοποίηση της αιτίας κάποιας κατάστασης όπως στο δικό μας πείραμα στην ιατρική κατάσταση ενός ασθενούς. Ο συνήθης τρόπος αυτοματοποιημένης διάγνωσης βασίζεται στη χρήση κάποιων κανόνων που κατασκευάζονται μετά από μελέτη του συστήματος και των πιο πιθανών καταστάσεων βλαβών. Αυτή η εργασία είναι ιδιαίτερα δύσκολη και προϋποθέτει πολύ καλή γνώση του συστήματος. Δυστυχώς αυτή η μέθοδο δεν μπορεί να καλύψει όλες τια ατέλειες. Αντίθετα τα νευρωνικά δίκτυα μπορούν να καλύψουν τα χαμένα τμήματα πληροφοριών δηλαδή τις καταστάσεις σφάλματος που δεν έχουν προσδιοριστεί επακριβώς. Εδώ έχουμε το πλεονέκτημα ότι δεν είναι απαραίτητη η εκ των προτέρων γνώση των κανόνων. Στην περίπτωση του πειράματος μας καλούμαστε να επεξεργαστούμε δερματολογικές εικόνες και μέσω των νευρωνικών δικτύων να κατασκευάσουμε ένα σύστημα το οποίο θα καταφέρνει να αναγνωρίζει και να διαχωρίζει τις δερματολογικές απεικονίσεις μελανωμάτων σε κακοήθεια ή καλοήθεια. Ο διαχωρισμός φυσιολογικών και παθολογικών κυττάρων που γίνεται από την εικόνα που δίδεται από το δερματοσκόπιο εμπίπτει σε αυτή την κατηγορία και η αυτοματοποίηση αυτής της εργασίας είναι ιδιαίτερα δύσκολη διότι πρέπει να ληφθούν υπόψη μια σειρά από παραμέτρους όπως το σχήμα, το χρώμα, η υπερκεράττωση των κυττάρων κ.λ.π. 3.6 Support Vector Machines(SVM) H μηχανή υποστήριξης διανυσμάτων θεωρείται μια έννοια στον τομέα της στατιστικής και της επιστήμης υπολογιστών για ένα σύνολο σχετικών εποπτευομένων μεθόδων μάθησης, οι οποίες αναλύουν δεδομένα και αναγνωρίζουν πρότυπα, και χρησιμοποιούνται για ταξινόμηση και ανάλυση παλινδρόμησης. Ο αρχικός αλγόριθμος SVM εφευρέθηκε από τον Vladimir Vapnik και η ισχύουσα πρότυπη υλοποίηση, προτάθηκε το Το κίνητρο για την ανάπτυξη αυτής της μεθόδου βρίσκεται στο ότι η ταξινόμηση δεδομένων είναι μια κοινή εργασία της μηχανικής μάθησης. Η αρχή των μηχανών υποστήριξης διανυσμάτων έγκειται στο εξής: αν υποθέσουμε ότι κάποια σημεία δεδομένων ανήκουν σε μια κλάση από δυο κλάσεις συνολικά. Στόχος είναι να αποφασισθεί σε ποια από αυτές τις κλάσεις ένα νέο σημείο δεδομένων θα υπάγεται. Στις περιπτώσεις των SVM, ένα σημείο δεδομένων θεωρείται ως ένα p-διαστάσεων διάνυσμα (μια λίστα από p αριθμούς) και θέλουμε να γνωρίζουμε αν μπορούμε να χωρίσουμε αυτά τα σημεία σε επίπεδα. Μια τυποποιημένη μηχανή υποστήριξης διανυσμάτων, παίρνει ένα σύνολο δεδομένων εισόδου και προβλέπει για καθένα από αυτά, ποιες από τις δυο πιθανές 30

Δείτε περισσότερα