ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΜΕΑΣ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΜΕΑΣ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ"

Transcript

1 _ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΜΕΑΣ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ «ΜΕΛΕΤΗ, ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗΝ ΕΠΙΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΗΜΑΝΤΙΚΩΝ ΕΙΚΟΝΩΝ ΑΠΟ ΣΕΙΡΑ ΕΙΚΟΝΩΝ Ή ΒΙΝΤΕΟ ΣΕ ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΣΦΑΛΕΙΑΣ» ΠΤΥΧΙAΚΗ ΕΡΓΑΣΙΑ ΝΑΚΟΥ ΙΦΙΓΕΝΕΙΑ Α.Ε.Μ. : 2207 ΧΑΨΟΥΛΑ ΟΛΓΑ Α.Ε.Μ. : 2456 Επιβλέπων Καθηγητής: Δρ. Θεόδωρος Παχίδης ΚΑΒΑΛΑ 2014

2 ΕΥΧΑΡΙΣΤΙΕΣ Η παρούσα πτυχιακή εργασία με θέμα «Μελέτη, σχεδίαση και ανάπτυξη εφαρμογής λογισμικού για την παρουσίαση των σημαντικών εικόνων από σειρά εικόνων ή βίντεο σε σύστημα παρακολούθησης ασφαλείας», πραγματοποιήθηκε στο πλαίσιο της πτυχιακής εργασίας στο τμήμα Μηχανικών Πληροφορικής του Τεχνολογικού Εκπαιδευτικού Ιδρύματος Καβάλας. Στο σημείο αυτό αισθανόμαστε την ανάγκη να εκφράσουμε τις θερμές ευχαριστίες μας σε όσους συνέβαλαν στην ολοκλήρωση αυτής της προσπάθειας. Kαι πρώτα απ όλα, στον επιβλέποντα καθηγητή μας Δρ. Θεόδωρο Παχίδη για τη συνεχή καθοδήγηση, την αμέριστη υποστήριξη, τις ουσιώδεις συμβουλές, καθώς και την αδιάκοπη συμπαράσταση και ενθάρρυνση που μας παρείχε σε όλο αυτό το διάστημα. Τέλος, θέλουμε να ευχαριστήσουμε όλους εκείνους που μας έμαθαν να «προσπερνάμε» και βοήθησαν να γίνουν «ανεκτοί» οι συμβιβασμοί των τελευταίων χρόνων: τις οικογένειες μας, τους φίλους μας, τους συναδέλφους μας. Η εργασία αυτή αφιερώνεται σε αυτούς, που με την καθημερινή τους συμπαράσταση, την υπομονή τους και τη θετική τους σκέψη, ιδιαίτερα τις εποχές των μεγάλων διλημμάτων, συνέβαλαν στην εκπλήρωση του στόχου μας. 1

3 ΠΕΡΙΛΗΨΗ Η παρούσα πτυχιακή εργασία αφορά τη σχεδίαση και ανάπτυξη εφαρμογής λογισμικού που επιτρέπει από ένα μεγάλο πλήθος εικόνων ή βίντεο που προέρχονται από σύστημα παρακολούθησης ασφαλείας, για τα οποία δεν είναι δυνατή η επεξεργασία σε πραγματικό χρόνο, την επιλογή εκείνων μόνο των σειρών εικόνων ή τμημάτων βίντεο που εμφανίζουν σημαντικές μεταβολές. Ο τρόπος αξιολόγησης των μεταβολών αυτών καθορίζεται από μια σειρά από διαφορετικά κριτήρια τα οποία μπορούν να επιλεγούν παραμετρικά, όπως το μέγεθος των διαφορετικών αντικειμένων, το σχήμα, την ταχύτητα μεταβολής σε διαδοχικές εικόνες κ.τ.λ. Στις εικόνες αυτές οι αλγόριθμοι αναπτύσσουν και απομονώνουν αρχικά κινούμενα αντικείμενα από ένα στατικό υπόβαθρο και διάκριση αυτών των αντικειμένων σύμφωνα με τα συγκεκριμένα κριτήρια που επιλέγονται κάθε φορά. Στη συνέχεια αφού πραγματοποιήθηκε σχετική μελέτη, έγινε η ανάπτυξη αλγορίθμων που επιτρέπουν το διαχωρισμό κινούμενων αντικειμένων από μεταβαλλόμενο υπόστρωμα. 2

4 ABSTRACT This thesis elaborated in Computer and Informatics Engineering Department, Eastern Macedonia and Thrace Institute of Technology concerns the design and development of a software application that allows the selection between a large number of pictures or video, coming from the security surveillance system. For these pictures or video editing is not possible in real time. Only those rows of images or video segments that show significant changes are selected. The way in which these changes are qualified is determined by a number of different criteria that can be selected parametrically, such as the size of different objects, the shape, rate of change in serial images etc. Furthermore, the algorithms, in these images, develop and isolate moving objects from a static background and distinguish these objects according to the specific criteria selected each time. After a relevant study was held, algorithms that allow the separation between moving objects and moving background were developed. 3

5 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ... 2 ΚΕΦΑΛΑΙΟ ΕΙΣΑΓΩΓΗ ΓΕΝΙΚΑ ΣΥΣΤΗΜΑΤΑ ΑΣΦΑΛΕΙΑΣ Συστήματα Συναγερμού Κεντρική Μονάδα Μονάδες εισόδου (αισθητήρες) Μονάδες Εξόδου Συστήματα Καταγραφής Παρακολούθησης Αρχιτεκτονική συστήματος Τα κλειστά συστήματα παρακολούθησης/cctv Συστήματα παρακολούθησης IP-CCTV Συστήματα παρακολούθησης Cubisclient NX ΕΦΑΡΜΟΓΕΣ ΠΟΥ ΣΧΕΤΙΖΟΝΤΑΙ ΜΕ ΣΥΣΤΗΜΑΤΑ ΑΣΦΑΛΕΙΑΣ IP Video System Design Tool Kerveros eye Αναγνώριση Προσώπου ΣΥΣΤΗΜΑΤΑ ΟΡΑΣΗΣ Εικόνες και Εφαρμογές Τεχνητή Όραση Αντικείμενα και σχέση με άλλα επιστημονικά πεδία Ψηφιακή Επεξεργασία Εικόνας Τεχνητή όραση σε σύγκριση με την Ψηφιακή επεξεργασία εικόνας Προεξέχοντα οπτικά σημεία εικόνας (Visual Saliency) ΚΕΦΑΛΑΙΟ ΜΕΘΟΔΟΙ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΕΙΚΟΝΑΣ Μετασχηματισμός κλιμακωτά αναλλοίωτων χαρακτηριστικών (SIFT) Επισκόπηση της μεθόδου Η Μέθοδος του David Lowe Βασικά στάδια Ανιχνευτής τοπικών χαρακτηριστικών SURF Επισκόπηση της μεθόδου Βασικά στάδια SIFT εναντίον SURF

6 2.1.3 Συσχετισμένος Μετασχηματισμός κλιμακωτά αναλλοίωτων χαρακτηριστικών (ASIFT) Επισκόπηση της μεθόδου Βασικά στάδια SIFT εναντίον ASIFT (Affine SIFT) Ιστόγραμμα Προσανατολισμένων Κλίσεων ( HOG ) Θεωρία της μεθόδου Βασικά στάδια Συνοπτικός πίνακας μεθόδων Εξαγωγής Χαρακτηριστικών ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΕΙΚΟΝΩΝ Τεχνητά Νευρωνικά Δίκτυα Γενικά για τα Νευρωνικά Δίκτυα Ορισμός Τεχνητών Νευρωνικών Δικτύων Ταξινόμηση εικόνων με τη χρήση Τεχνητών Νευρωνικών Δικτύων Μηχανές Υποστήριξης Διανυσμάτων (SVM) Ταξινόμηση εικόνων με χρήση Μηχανών Υποστήριξης Διανυσμάτων Ασαφή μέτρα Ταξινόμηση εικόνων με χρήση Ασαφών Μέτρων Αλγόριθμος k-κοντινότερου γείτονα Υποθέσεις του KNN αλγορίθμου Ταξινόμηση εικόνων με χρήση του αλγορίθμου k-κοντινότερου γείτονα Πρώτη Περίπτωση για k= Δεύτερη Περίπτωση για k=k Βασικές Παρατηρήσεις πάνω στον Αλγόριθμο KNN Πλεονεκτήματα & Μειονεκτήματα του Αλγορίθμου KNN ΚΕΦΑΛΑΙΟ ΓΕΝΙΚΑ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΑΝΙΧΝΕΥΣΗΣ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗΣ ΚΙΝΗΣΗΣ Στάδια ανάλυσης κίνησης Ανίχνευση Αναγνώριση του αντικειμένου (Object Identification) Προβλήματα κατά την ανίχνευση αντικειμένου ΚΑΤΑΤΜΗΣΗ ΚΙΝΗΣΗΣ ΑΦΑΙΡΕΣΗ ΦΟΝΤΟΥ Κατάτμηση κίνησης με τεχνικές αφαίρεσης φόντου Αφαίρεση φόντου μέσω τεχνικής διαδοχικών καρέ Αφαίρεση φόντου μέσω τεχνικής κατά προσέγγιση μέσης τιμής Αφαίρεση φόντου μέσω τεχνικής επιλεκτικά μεταβαλλόμενου μοντέλου

7 Μορφολογικού μετασχηματισμού Μετά επεξεργασία Κατάτμηση κίνησης με χρήση στατιστικών μεθόδων Τμηματοποίηση των αντικειμένων με κατάτμηση γράφων (graph cuts) Κατάτμηση κίνησης μέσω χρονικής διαφοράς Κατάτμηση κίνησης με χρήση οπτικής ροής ΑΛΓΟΡΙΘΜΟΙ ΑΝΙΧΝΕΥΣΗΣ ΚΙΝΗΣΗΣ ΠΟΥ ΕΠΙΛΕΓΟΝΤΑΙ ΝΑ ΧΡΗΣΙΜΟΠΟΙΗΘΟΥΝ ΚΕΦΑΛΑΙΟ ΑΝΑΛΥΣΗ-ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΛΟΓΙΣΜΙΚΟΥ Επιλογή γλώσσας προγραμματισμού Παρουσίαση των επιπλέον εργαλείων, βιβλιοθηκών του λογισμικού Παρουσίαση μικρών χαρακτηριστικών τμημάτων κώδικα με τη σχετική τεκμηρίωση και επεξήγηση της λειτουργίας τους Περιγραφή διαδικασίας λογισμικού Περιεχόμενο των απαιτήσεων Έγγραφο ορισμού απαιτήσεων Ορισμός Εισαγωγή Ορισμοί και συντομεύσεις Απατήσεις Εξωτερικών Διαπροσωπιών Χρήστη - Υλικού - Λογισμικού Επικοινωνών Μη λειτουργικές απαιτήσεις Έγγραφο προδιαγραφής απαιτήσεων λογισμικού Σχεδίαση λογισμικού Μοντέλο Οντοτήτων Συσχετήσεων (ΜΟΣ) Διάγραμμα Κλάσεων (UML) ΚΕΦΑΛΑΙΟ ΑΠΟΤΕΛΕΣΜΑΤΑ ΧΡΗΣΗΣ / ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Χρόνος απόκρισης Πειραματικά αποτελέσματα ΚΕΦΑΛΑΙΟ ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΜΕΛΛΟΝΤΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ ΠΑΡΑΡΤΗΜΑ 1 ΕΓΧΕΙΡΙΔΙΟ ΕΓΚΑΤΑΣΤΑΣΗΣ ΕΦΑΡΜΟΓΗΣ ΠΑΡΑΡΤΗΜΑ 2 ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΠAΡΑΡΤΗΜΑ 3 ΠΗΓΑΙΟΣ ΚΩΔΙΚΑΣ ΒΙΒΛΙΟΓΡΑΦΙΑ

8 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 1.1 ΓΕΝΙΚΑ Τόσο στα μεγάλα αστικά κέντρα, όσο και σε μικρότερους οικισμούς, στην επαρχία ή και στα περίχωρα των πόλεων, έχει αρχίσει να αυξάνεται ανάμεσα στους κατοίκους, το αίσθημα της ανασφάλειας, που σχετίζεται τόσο με τη σωματική τους ακεραιότητά όσο και τη διαφύλαξη της υλικής περιουσίας τους. Η προστασία ενός χώρου επιτυγχάνεται στη σημερινή εποχή με τα συστήματα ασφαλείας, τα οποία έχουν εξελιχθεί σε πολύ μεγάλο βαθμό, καλύπτοντας τις ανάγκες φύλαξης που έχουν προκύψει σε δημόσιους και ιδιωτικούς χώρους. Είναι πλέον απαραίτητη η ενεργοποίηση δικλείδων ασφαλείας που θα προστατεύσουν τις εγκαταστάσεις από πράξεις δολιοφθοράς-διάρρηξης-κλοπής-πυρκαγιάς κ.τ.λ.. Κάθε σύστημα ασφαλείας αποτελείται από διάφορες συσκευές, όπου η κάθε μια έχει ένα συγκεκριμένο σκοπό και εκτελεί μια συγκεκριμένη εργασία, ανάλογα με τις ανάγκες που απαιτούνται. Δεν θα ήταν υπερβολή να ειπωθεί πως οι δυνατότητες τους είναι απεριόριστες. Τα σύγχρονα συστήματα ασφαλείας διαθέτουν περισσότερες λειτουργίες, υψηλότερη τεχνολογία και δεν παραβιάζονται εύκολα συγκριτικά με τα συστήματα της περασμένης γενιάς. Μπορούν να κατηγοριοποιηθούν σε δύο μεγάλες κατηγορίες στα συστήματα συναγερμού και στα συστήματα καταγραφής και παρακολούθησης, τα οποία θα αναλυθούν διεξοδικά παρακάτω. 1.2 ΣΥΣΤΗΜΑΤΑ ΑΣΦΑΛΕΙΑΣ Συστήματα Συναγερμού Τα συστήματα συναγερμού είναι πλέον κομμάτι της καθημερινότητας μας. Μέσω αισθητήρων, ειδοποιούν για γεγονότα τα οποία μπορεί να είναι επικίνδυνα για το χώρο και για τη ζωή. Οι συναγερμοί έχουν τη δυνατότητα να ανιχνεύσουν κίνηση, αλλαγή θέσης αντικειμένων, άνοιγμα θυρών, ανίχνευση φωτιάς και ότι άλλο είναι εφικτό και επιθυμητό. Οι συσκευές εξόδου του συστήματος είναι ηχητικές και φωτεινές ειδοποιήσεις (σειρήνες και φώτα ανάγκης). Η τεχνολογία όμως δεν σταματάει εκεί. Με τη χρήση τηλεπικοινωνιών, υπάρχει δυνατότητα ειδοποίησης ιδιοκτήτη, αστυνομίας και οποιονδήποτε άλλων είναι προγραμματισμένο το σύστημα να ειδοποιεί. Με τη χρήση Η/Υ οι χρήσεις γίνονται απεριόριστες. Οι δυνατότητες τους στην ουσία περιορίζονται μόνο από τη φαντασία του σχεδιαστή. Τα βασικά μέρη κάθε συναγερμού είναι: 1. Η κεντρική μονάδα 2. Οι μονάδες εισόδου (αισθητήρες που δέχονται τα ερεθίσματα) 3. Οι μονάδες εξόδου (συσκευές ειδοποίησης) 7

9 Σχήμα 1.1 Σύστημα ασφαλείας Κεντρική Μονάδα Είναι ο εγκέφαλος του συστήματος. Αξιολογεί τα μηνύματα που λαμβάνει από τους αισθητήρες. Σε αυτήν τη συσκευή συνδέονται ενσύρματα ή και ασύρματα όλα τα υπόλοιπα στοιχεία, όπως οι αισθητήρες, οι συσκευές συναγερμού και οι κάρτες επικοινωνίας. Αποτελεί το μέσο που λαμβάνει τα σήματα από τους αισθητήρες, κάνει καταγραφή των συμβάντων και στη συνέχεια ενεργοποιεί τις συσκευές συναγερμού και μεταδίδει τηλεφωνικά τα σήματα, ανάλογα βέβαια και με τον προγραμματισμό της από το χειριστή του συστήματος. Σήμερα, στην αγορά υπάρχουν πολυάριθμοι και διαφορετικοί τύποι κεντρικών μονάδων, που διαχωρίζονται βάσει των δυνατοτήτων τους. Όμως, η βασική αρχή κατασκευής τους είναι σε γενικές γραμμές η ίδια. Αποτελούνται συνήθως από ένα εξωτερικό κουτί, ένα μετασχηματιστή για την ηλεκτρική τροφοδοσία του συστήματος με 6 ή 12 Volt DC, μια μπαταρία που αποτελεί την εφεδρική ηλεκτρική παροχή σε περίπτωση εσκεμμένης ή όχι διακοπής του ρεύματος και ένα πληκτρολόγιο, το οποίο μπορεί και να αντικατασταθεί με διακόπτη-κλειδαριά (keyswitch) ή και τηλεχειρισμό. Η πληθώρα των συσκευών που κυκλοφορούν σήμερα στην αγορά, κάνει δύσκολη την επιλογή. Όμως, τα ελάχιστα βασικά χαρακτηριστικά μιας κεντρικής μονάδας που θα μπορεί να ανταποκριθεί στις τυπικές προδιαγραφές ενός αξιόπιστου συστήματος συναγερμού, είναι τα ακόλουθα: Το τροφοδοτικό της μονάδας θα πρέπει να είναι σε θέση να αντέχει ρεύματα έντασης τουλάχιστον 2A για την ομαλή διαχείριση όλων των φορτίων του συστήματος. Η κεντρική μονάδα πρέπει να διαθέτει ενδείξεις της κατάστασης των μπαταριών, ώστε να είναι εφικτή ανά κάθε στιγμή η παρακολούθησή τους και να γίνεται η αντικατάστασή τους ή η επαναφόρτισή τους, πριν ολοκληρωθεί ο κύκλος ζωής τους. 8

10 Μια σύγχρονη συσκευή θα πρέπει να υποστηρίζει τουλάχιστον τέσσερις διαφορετικές ζώνες, ενώ άλλο σημαντικό χαρακτηριστικό είναι η ύπαρξη ρυθμιζόμενης χρονοκαθυστέρησης, ώστε να υπάρχει το κατάλληλο χρονικό περιθώριο για την είσοδο ή έξοδο από το χώρο που προστατεύεται. Ένα άλλο στοιχείο που θα πρέπει να λαμβάνεται υπόψη κατά τη διάρκεια της υλοποίησης του συστήματος συναγερμού είναι ότι η τροφοδοσία με 230/400 Volt AC θα πρέπει να γίνεται από ανεξάρτητη γραμμή, στην οποία δεν θα συνδέονται άλλες καταναλώσεις Μονάδες εισόδου (αισθητήρες) Εδώ παρατηρείται μια πληθώρα ανιχνευτών οι οποίοι ανάλογα με τις ανάγκες, μπορούν να τοποθετηθούν εσωτερικά ή και εξωτερικά του χώρου που χρειάζεται να ασφαλιστεί. Όλοι οι ανιχνευτές/αισθητήρες έχουν στην ουσία τον ίδιο σκοπό: να αναγνωρίζουν οποιαδήποτε προσπάθεια παράνομης διείσδυσης σε ένα χώρο. Η ταξινόμησή τους γίνεται με βάση την αρχή λειτουργίας τους, που άλλωστε καθορίζει και τις δυνατότητές τους και τις εφαρμογές στις οποίες μπορούν να χρησιμοποιηθούν. Οι πιο σημαντικοί είναι οι μηχανικοί ή μαγνητικοί ανιχνευτές επαφής, ανιχνευτές πίεσης (pressure mats) και θραύσης, οι PIR (Passive Infrared - Παθητικοί ανιχνευτές υπερύθρων), οι ανιχνευτές μικροκυμάτων, οι ενεργοί ανιχνευτές υπερύθρων, που τους συναντάμε και με τον όρο Interior Active Infrared και οι ανιχνευτές διπλής τεχνολογίας. Λιγότερο διαδεδομένοι είναι οι ανιχνευτές υπερήχων (ενεργητικοί και παθητικοί), καθώς και οι ακουστικοί ανιχνευτές. Οι παραπάνω συνήθως συναντώνται σε εσωτερικούς χώρους. Επειδή όμως όσο το δυνατό συντομότερα γίνει αντιληπτή η ύπαρξη ενός μη εξουσιοδοτημένου προσώπου, τόσο πιο αποτελεσματικό είναι ένα σύστημα ασφάλειας, συχνά χρησιμοποιούνται και συσκευές ανίχνευσης εξωτερικών χώρων και περιμετρικής προστασίας, καθώς θα αποτελέσουν την πρώτη γραμμή άμυνας. Σε αυτήν την κατηγορία συνήθως συναντώνται οι ανιχνευτές ηλεκτρικού πεδίου, οι ανιχνευτές χωρητικότητας, οι ανιχνευτές δόνησης και οι φωτοηλεκτρικοί ανιχνευτές. Για μεγαλύτερη ασφάλεια συνήθως απαιτείται η χρήση ενός μπουτόν πανικού ως μια επιπλέον είσοδος. Πρόκειται για ένα μπουτόν, που μπορεί να τοποθετηθεί σε διάφορα σημεία του χώρου και με το πάτημά του ενεργοποιείται αμέσως ο συναγερμός. Τα μπουτόν πανικού χρησιμοποιούνται ιδιαίτερα σε επαγγελματικούς χώρους, όπου υπάρχει μεγάλη προσέλευση κοινού και είναι δύσκολος ο έλεγχος της ταυτότητας των ανθρώπων που εισέρχονται. Ανιχνευτές επαφής (μηχανικοί διακόπτες/μαγνητικές επαφές) Οι ανιχνευτές επαφής [1] αποτελούν μια μεγάλη κατηγορία ανιχνευτών, η οποία έχει ως σκοπό την προστασία συγκεκριμένων σημείων. Οι μηχανικοί ανιχνευτές χρησιμοποιούνται για να ανιχνεύσουν το άνοιγμα μιας προστατευόμενης πόρτας ή παραθύρου. Για την ενεργοποίησή τους, απαιτούν άμεση φυσική επαφή. Για τον ίδιο σκοπό χρησιμοποιούνται και οι ανιχνευτές μαγνητικής επαφής, που όπως και οι μηχανικοί προϋποθέτουν ότι υπάρχει άμεση επαφή. Όταν η πόρτα ή το παράθυρο ανοίγει, ο μαγνήτης ελευθερώνει ένα διακόπτη και δίνει το σήμα του συναγερμού. 9

11 Σχήμα 1.2 Ανιχνευτές επαφής Για την αξιόπιστη λειτουργία τους, θα πρέπει να δοθεί ιδιαίτερη προσοχή κατά την κατασκευή των πορτών και των παραθύρων και στην εφαρμογή τους με την κάσα. Ακόμα υψηλότερο επίπεδο ασφάλειας παρέχουν οι ισοσταθμισμένοι μαγνητικοί ανιχνευτές, που αποτελούνται από δύο μαγνήτες. Ανάμεσα στους δύο μαγνήτες, εκ των οποίων ο ένας είναι τοποθετημένος στο σταθερό πλαίσιο και ο άλλος στο κινητό μέρος της πόρτας ή του παραθύρου, δημιουργείται ένα ισοσταθμισμένο και σταθερό μαγνητικό πεδίο. Σε περίπτωση διάρρηξης διαταράσσει τη σταθερότητα του πεδίου, με αποτέλεσμα να ενεργοποιείται ο συναγερμός. H διάδοση αυτών των επαφών στην κατασκευή συστημάτων συναγερμού έγινε κυρίως από τη δεκαετία του 70, όταν εξαλείφθηκαν τα αρχικά προβλήματα των πρωτοεμφανιζόμενων μαγνητικών επαφών και αυξήθηκε η αντίστασή τους στις εξωτερικές μαγνητικές επιδράσεις που επέτρεπαν στους διαρρήκτες να παραβιάζουν τα συστήματα. Από τότε, οι μαγνητικές επαφές εδραιώθηκαν ως το κύριο μέσο προστασίας ανοιγμάτων, κάτι το οποίο συνεχίζεται μέχρι σήμερα. Ανιχνευτές PIR Οι παθητικοί ανιχνευτές υπέρυθρων που έχει επικρατήσει να αποκαλούνται PIR [2] έχουν ευρύτατη χρήση σε συστήματα ασφαλείας. Όπως υποδηλώνει το όνομά τους, οι συγκεκριμένοι αισθητήρες είναι παθητικοί. Αυτό σημαίνει ότι δεν εκπέμπουν κανενός είδους σήμα, αλλά δέχονται σήματα. Αναλυτικότερα, η κεφαλή του αισθητήρα είναι διαχωρισμένη σε τομείς, με τον κάθε τομέα να καθορίζεται από συγκεκριμένα όρια. Σχήμα 1.3 Επίβλεψη χώρου με αισθητήρα PIR Η ανίχνευση πραγματοποιείται όταν μια πηγή θερμότητας διασχίζει δύο γειτονικούς τομείς ή ένα συγκεκριμένο τομέα δύο φορές, μέσα σε ένα ορισμένο χρονικό διάστημα. Οι αισθητήρες τύπου PIR ανιχνεύουν την εκπεμπόμενη ηλεκτρομαγνητική ακτινοβολία, που παράγεται από πηγές που παράγουν θερμοκρασίες χαμηλότερες του ορατού φωτός. Ουσιαστικά, δεν μετρούν την ποσότητα της υπέρυθρης εκπεμπόμενης ακτινοβολίας, αλλά τις μεταβολές της. Δηλαδή, εντοπίζουν μια υπέρυθρη εικόνα, 10

12 ανιχνεύοντας την αντίθεση που υπάρχει μεταξύ της εικόνας και του ψυχρότερου περιβάλλοντος. Μονάδα μέτρησης της υπέρυθρης ακτινοβολίας είναι τα microns. Η εκπεμπόμενη ενέργεια από το ανθρώπινο σώμα κυμαίνεται μεταξύ των 7 έως 14 microns. Οι περισσότεροι εκ των ανιχνευτών PIR λειτουργούν ανάμεσα σε αυτά τα όρια. Για να αποφεύγονται τυχούσες θερμικές παρεμβολές από μη σχετικές πηγές που πιθανόν να βρίσκονται στο περιβάλλον, χρησιμοποιείται είτε ένα κύκλωμα μέτρησης του ρυθμού μεταβολής είτε ένα κύκλωμα μέτρησης παλμού δύο διευθύνσεων. Όταν η ανίχνευση του σήματος γίνεται βάσει του ρυθμού μεταβολής, ο αισθητήρας αξιολογεί την ταχύτητα με την οποία μεταβάλλεται η ποσότητα της ενέργειας στον υπό έλεγχο χώρο. Παραδείγματος χάρη, η κίνηση από έναν εισβολέα στον ελεγχόμενο χώρο προκαλεί μια πολύ γρήγορη μεταβολή της ενέργειας, ενώ οι βαθμιαίες θερμοκρασιακές μεταβολές, αντιθέτως, προκαλούν αργές και σταδιακές αλλαγές στην εκπεμπόμενη ποσότητα της ενέργειας. Στην άλλη κατηγορία του παλμού μέτρησης δύο διευθύνσεων, σήματα από διαφορετικούς θερμικούς αισθητήρες συντελούν στην εμφάνιση αντίθετης πολικότητας. Ένας άνθρωπος που θα διεισδύσει στον ελεγχόμενο χώρο με μια φυσιολογική ταχύτητα, θα προκαλέσει φυσιολογικά, διάφορα σήματα που θα συμβάλλουν στην ανίχνευση του. Όταν η εκπεμπόμενη ακτινοβολία υπερβεί κάποια προκαθορισμένη τιμή, τότε ο θερμικός αισθητήρας παράγει ένα ηλεκτρικό σήμα, που αποστέλλεται σε ένα ενσωματωμένο επεξεργαστή για αξιολόγηση και πιθανή ενεργοποίηση του συναγερμού. Οι ανιχνευτές τύπου PIR τοποθετούνται κυρίως σε τοίχους ή οροφές, με τη διάταξη ανίχνευσης να καλύπτει τις πιθανές ζώνες διείσδυσης. Κάθε ζώνη ανίχνευσης, επίβλεψης μπορεί να παρομοιαστεί περιγραφικά σαν μια ακτίνα προβολέα, που σταδιακά διευρύνεται, όσο η ζώνη εκτείνεται μακρύτερα από τον αισθητήρα, ενώ άλλα τμήματα είναι φωτεινότερα και άλλα σκοτεινότερα. Το συγκεκριμένο αυτό χαρακτηριστικό επιτρέπει στο χρήστη να εστιάζει την "ακτίνα" σε περιοχές που απαιτούν μεγαλύτερο βαθμό προστασίας, από άλλες μικρότερης σημασίας. Θεωρητικά, οι ανιχνευτές αυτής της κατηγορίας, όταν τοποθετούνται σε οροφές ή πύργους καλύπτουν μια ζώνη ανίχνευσης 360 μοιρών. Η κατάλληλη χρησιμοποίηση και εναλλαγή διάφορων φακών και ανακλαστήρων επιτρέπει τη συνεχή αλλαγή και τμηματοποίηση σε μικρότερες ζώνες των χώρων που βρίσκονται υπό επιτήρηση. O σχεδιασμός των ανιχνευτών PIR τους δίνει τη δυνατότητα να παρέχουν ένα ολοκληρωτικό φραγμό προστασίας, εξουδετερώνοντας τα νεκρά σημεία που πιθανώς να υπάρχουν. Οι ανιχνευτές PIR με αυτό το συγκεκριμένο χαρακτηριστικό είναι κατάλληλοι για εισόδους και προθάλαμους. Όπως και κάθε σύστημα επιτήρησης και προστασίας, έτσι και οι ανιχνευτές PIR διαθέτουν τα τρωτά τους σημεία. Το κυριότερο πηγάζει από την ίδια αρχή λειτουργίας τους, που βασίζεται, όπως προαναφέρθηκε, στη διαφορά θερμοκρασίας μεταξύ του περιβάλλοντος και του στόχου. Θεωρητικά λοιπόν, εάν η ενέργεια που εκπέμπει κάποιος έχει την ίδια θερμοκρασία με τον περιβάλλον, τότε οι ανιχνευτές δεν θα μπορούν να τον εντοπίσουν. Για να αντιμετωπιστεί αποτελεσματικά η συγκεκριμένη αδυναμία των ανιχνευτών τύπου PIR, θα πρέπει να χρησιμοποιούνται σε συνδυασμό και ανιχνευτές άλλου είδους, ανάλογα με το χώρο προστασίας. Ένα ακόμα πρόβλημα που παρουσιάζεται συχνά είναι οι λανθασμένοι συναγερμοί που συνήθως οφείλονται στην κίνηση ενός κατοικιδίου ή εντόμου καθώς και στη μεταβολή θερμότητας που προκαλεί ένα χρονοπρογραμματιζόμενο σύστημα θέρμανσης ή και σωλήνες ζεστού νερού. 11

13 Επιπλέον, ένα άλλο μειονέκτημα είναι ότι οι ανιχνευτές PIR δεν είναι σε θέση να φιλτράρουν το ορατό φως. Σε αυτή την περίπτωση η λειτουργία τους μπορεί να επηρεαστεί από τους προβολείς των αυτοκινήτων ή άλλες πηγές εστιασμένου φωτός. Αν και η υπέρυθρη ακτινοβολία από το ηλιακό φως φιλτράρεται από τα παράθυρα, σε ένα δωμάτιο υπάρχουν και άλλα αντικείμενα που μπορούν να εκπέμπουν ή και να αντανακλούν υπέρυθρη ακτινοβολία και σε συνδυασμό με τυχαίες παροδικές κινήσεις που προκαλούν σημαντικές αυξομειώσεις της εκπεμπόμενης ενέργειας. Όλα τα παραπάνω είναι πιθανές αιτίες πρόκλησης λανθασμένων συναγερμών, για αυτό το λόγο πλέον οι σύγχρονοι PIR ανιχνευτές διαθέτουν ένα «έξυπνο» ενσωματωμένο σύστημα το οποίο μπορεί να ξεχωρίζει τα σήματα (π.χ. δεν δίνεται έξοδος για αντικείμενα μικρότερα κάποιου ύψους) μειώνοντας έτσι δραστικά τις πιθανότητες λαθών. Ανιχνευτές μικροκυμάτων Μια άλλη κατηγορία ανιχνευτών που χρησιμοποιούνται σε εφαρμογές εσωτερικών αλλά και εξωτερικών χώρων, είναι εκείνοι που βασίζουν τη λειτουργία τους στη μετάδοση μικροκυμάτων. Είναι ανιχνευτές κίνησης, οι οποίοι σαρώνουν μια προκαθορισμένη περιοχή με ένα ηλεκτρικό πεδίο. Μια κίνηση στο συγκεκριμένο χώρο, διεγείρει το πεδίο και ενεργοποιεί το συναγερμό. Ένα σημαντικό μειονέκτημα των ανιχνευτών αυτών οφείλεται στο ότι ενώ δεν επηρεάζονται από τον αέρα ή τις μεταβολές στη θερμοκρασία και στην υγρασία λόγω των υψηλών συχνοτήτων στις οποίες μεταδίδονται, μπορούν και διαπερνούν διάφορα φυσικά εμπόδια, όπως τοίχους, με αποτέλεσμα να ανιχνεύουν κινήσεις που έγιναν εκτός της προστατευόμενης περιοχής και να δώσουν λανθασμένο συναγερμό. Ενεργοί ανιχνευτές υπερύθρων Για την προστασία εσωτερικών και εξωτερικών χώρων, αξιοποιούνται σε πολύ μεγάλη κλίμακα ανιχνευτές, που εκπέμπουν δέσμες υπέρυθρου φωτός σε έναν απομακρυσμένο δέκτη, δημιουργώντας έναν ηλεκτρονικό φράχτη. Παραστατικά, η λειτουργία τους μπορεί να παρομοιασθεί με εκείνη ενός τεντωμένου σπάγκου. Όταν η δέσμη διακοπεί, τότε ενεργοποιείται ο συναγερμός. Οι ανιχνευτές φωτοηλεκτρικών δεσμών συνίστανται από δύο επιμέρους μέρη: Έναν πομπό και ένα δέκτη. Ο πομπός χρησιμοποιεί μία δίοδο εκπομπής υπέρυθρου φωτός και μεταδίδει μια συνεχόμενη υπέρυθρη ακτίνα φωτός στο δέκτη. Ο δέκτης διαθέτει μια φωτοηλεκτρική κυψέλη (συνήθως φωτοτρανζίστορ ή φωτοδίοδο) που ελέγχει την παρουσία της δέσμης φωτός. Συνήθως, στην περίπτωση που διαπιστώσει ότι δεν δέχεται τουλάχιστον το 90% του εκπεμπόμενου σήματος και για χρονικό διάστημα μεγαλύτερο των 75 ms ( ο χρόνος που απαιτείται για να διασχίσει κάποιος τη δέσμη) τότε δίνει σήμα συναγερμού. 12

14 Σχήμα 1.4 Ανιχνευτής υπερύθρων Στα σύγχρονα συστήματα έχουν προβλεφθεί διάφορες ρυθμίσεις, που καθορίζουν την ευαισθησία τους. Τις περισσότερες φορές οι συγκεκριμένοι ανιχνευτές χρησιμοποιούνται για την προστασία εισόδων, προθάλαμων, περιμέτρων ή ακόμα και την κάλυψη ενός τοίχου με ιδιαίτερα αυξημένο μήκος. Η απόσταση μεταξύ δέκτη και πομπού, ώστε το σύστημα ανίχνευσης να παρέχει ικανοποιητική κάλυψη μπορεί να είναι μέχρι κάποιες εκατοντάδες μέτρα. Οι ανιχνευτές αυτοί, δεν επηρεάζονται από τυχόν εκπομπές θερμότητας, από λαμπτήρες φθορισμού ή από διάφορες ηλεκτρονικές παρεμβολές. Διαθέτουν πολύ καλά ποσοστά ανίχνευσης, με ταυτόχρονα, μικρό δείκτη εμφάνισης λανθασμένων συναγερμών. Επίσης, η πορεία των δεσμών μπορεί να μεταβληθεί με τη χρήση καθρεπτών, κάνοντας ακόμα δυσκολότερη την προσέγγιση στον προστατευόμενο χώρο. Βέβαια πρέπει να ληφθεί υπόψη ότι η χρήση καθρεφτών εξασθενεί την ένταση της δέσμης και μειώνει την εμβέλεια δράσης της. Την ανιχνευτική ικανότητα του συστήματος μπορεί να την επηρεάσουν παράγοντες που διαταράσσουν τη μετάδοση της φωτεινής δέσμης, όπως ομίχλη, καπνός ή σκόνη. Επίσης, κάθε αντικείμενο ή ζώο που παρεμβαίνει στην πορεία της δέσμης μπορεί να ενεργοποιήσει το συναγερμό και να παραπλανήσει τους υπεύθυνους ασφαλείας του χώρου. Ανιχνευτές υπερήχων Μια άλλη μεγάλη κατηγορία ανιχνευτών εσωτερικού χώρου, απαρτίζεται από εκείνους τους ανιχνευτές που λειτουργούν με υπέρηχους. Διαχωρίζονται σε δύο κατηγορίες: στους ενεργούς και στους παθητικούς. Οι παθητικοί ανιχνευτές υπερήχων είναι ουσιαστικά συσκευές ανίχνευσης κίνησης, που «αντιλαμβάνονται» υπέρηχους μέσα σε ένα καθορισμένο χώρο, την επιτηρούμενη ζώνη, και αντιδρούν σε μεταβολές υψηλών συχνοτήτων, που σχετίζονται με ενέργειες εισβολέων. Οι ενεργοί ανιχνευτές υπερήχων χρησιμοποιούν τις αλλαγές στην εκπεμπόμενη συχνότητα των υπερήχων για να αντιληφθούν τυχόν ενέργειες διείσδυσης. Οι ανιχνευτές υπερήχων, συνήθως αναρτώνται σε οροφές και σε τοίχους, ενώ στις περισσότερες περιπτώσεις χρησιμοποιούνται με άλλους τύπους ανιχνευτών, όπως τους PIR, ώστε να αυξάνεται η πιθανότητα εντόπισης ύποπτων κινήσεων. Πλεονέκτημα των συγκεκριμένων ανιχνευτών είναι ότι δεν επηρεάζονται από θερμοκρασιακές μεταβολές, εκτός και εάν είναι ιδιαίτερα έντονες. Επίσης, οι υπέρηχοι δεν μπορούν να διαπεράσουν σταθερά εμπόδια, όπως παραδείγματος χάρη, 13

15 έναν τοίχο και συνεπώς μπορούν να ελέγξουν αποτελεσματικά μια κλειστή ζώνη, χωρίς να επηρεάζονται από ενέργειες που λαμβάνουν χώρα σε γειτονικούς χώρους. Ακουστικοί αισθητήρες Είναι οι λιγότερο διαδεδομένοι και χρησιμοποιούνται μόνο σε περιπτώσεις όπου οι φυσικοί ήχοι του περιβάλλοντος έχουν χαμηλή ένταση, ώστε να μην καλύπτονται οι θόρυβοι που παράγονται από ενέργειες διείσδυσης. Ανιχνευτές ηλεκτρικού πεδίου Μια σημαντική ομάδα ανιχνευτών εξωτερικού χώρου, είναι οι ανιχνευτές ηλεκτρικού πεδίου. Οι συγκεκριμένες διατάξεις παράγουν ένα ηλεκτροστατικό πεδίο ανάμεσα ή γύρω από μια συστοιχία ενσύρματων αγωγών και μιας ηλεκτρικής γείωσης. Κάθε διαταραχή στο πεδίο, που προκαλείται από πιθανή διείσδυση, ενεργοποιεί τους ανιχνευτές και δίνει σήμα συναγερμού. Οι ανιχνευτές ηλεκτρικού πεδίου χρησιμοποιούνται και αποδεικνύονται πολύ αποτελεσματικοί σε φράκτες περίφραξης. Ανιχνευτές χωρητικότητας Μια άλλη κατηγορία ανιχνευτών που βασίζεται στις ιδιότητες των ηλεκτροστατικών πεδίων είναι οι ανιχνευτές που λειτουργούν, ελέγχοντας τις μεταβολές στη χωρητικότητα των πεδίων. Οι ανιχνευτές αυτής της κατηγορίας αποτελούνται από τρία ηλεκτροφόρα σύρματα, χαμηλής τάσης, που τοποθετούνται πάνω από το φράκτη. Γύρω από τα σύρματα παράγεται ένα ηλεκτρικό πεδίο, με το φράκτη να αποτελεί την ηλεκτρική γείωση. Συνήθως απαιτείται επαφή με τα σύρματα για την ενεργοποίηση του συναγερμού, αλλά αυξάνοντας την ευαισθησία του πεδίου μπορεί να ανιχνευθεί και παρουσία, χωρίς να είναι απαραίτητη η άμεση φυσική επαφή. Ανιχνευτές κραδασμών Στην κατηγορία αισθητήρων που τοποθετούνται σε περιφράξεις, ανήκουν και οι ανιχνευτές κραδασμών. Ενέργειες, όπως η αναρρίχηση σε ένα φράκτη ή το κόψιμο των συρμάτων προκαλούν μηχανικές δονήσεις. Οι ανιχνευτές αυτής της κατηγορίας αντιλαμβάνονται τις δονήσεις αυτές, χρησιμοποιώντας ηλεκτρομηχανικούς ή πιεζοηλεκτρικούς μετατροπείς. Τα σήματα από τους μετατροπείς, στέλνονται σε έναν επεξεργαστή και αναλύονται. Ανάλογα με τη συχνότητα του σήματος, αγνοείται το ερέθισμα ή στην αντίθετη περίπτωση και όπου κρίνεται σκόπιμο, ενεργοποιείται ο συναγερμός. 14

16 Σχήμα 1.5 Ανιχνευτής κραδασμών Ανιχνευτές θραύσης Aναγνωρίζουν τη συχνότητα των τζαμιών όταν σπάνε ή όταν κόβονται με διαμάντι και τοποθετούνται απέναντι ή στο πλάι της τζαμαρίας που προστατεύουν. Ανιχνευτές πίεσης Λειτουργούν σαν ανοιχτοί διακόπτες οι οποίοι κλείνουν κύκλωμα και δίνουν έξοδο όταν δεχτούν πίεση σε οποιοδήποτε σημείο τους. Συνήθως τοποθετούνται σε εισόδους κάτω από πλαίσια ή χαλιά Μονάδες Εξόδου Αποτελούν, ένα εξίσου σημαντικό στοιχείο των συστημάτων συναγερμού, καθώς είναι το μέσο με το οποίο επισημαίνεται ότι υπάρχει πρόβλημα ασφάλειας και κάποιος έχει διεισδύσει στον προστατευόμενο χώρο. Περιλαμβάνουν: Σειρήνες Σειρήνες (Σχήμα 1.6): Συνήθως, χρησιμοποιούνται τουλάχιστον δύο σειρήνες, η μία τοποθετείται εσωτερικά και η άλλη στον εξωτερικό χώρο. Η επιλογή του σημείου που θα τοποθετηθεί η εξωτερική σειρήνα είναι ιδιαίτερης σημασίας, καθώς αποτελεί το μόνο σημείο του συστήματος που είναι εκτεθειμένο. Συνιστάται να τοποθετείται σε σημεία μεγάλου ύψους, ώστε να εξασφαλίζεται ο συνδυασμός της μέγιστης ορατότητας και του μικρότερου βαθμού προσβασιμότητας. O ήχος τους είναι πολύ δυνατός και κυμαίνεται από 110 db έως 125 db. 15

17 Σχήμα 1.6 Σειρήνα Μodem Μodem: στέλνει τα σήματα συναγερμού στα κέντρα λήψεως σημάτων. Τα κέντρα λήψεως σημάτων αποκωδικοποιούν τα σήματα που στέλνει το σύστημα ασφαλείας και προβαίνουν στις κατά περίπτωση ενέργειες (ειδοποιούν την αστυνομία, την πυροσβεστική, συγγενείς / φίλους που εμείς έχουμε επιλέξει κ.λπ.). Σε περίπτωση που δεν υπάρχει τέτοιο κέντρο, χρησιμοποιούνται εναλλακτικά τα GSM Modems που παρέχουν την δυνατότητα στο χρήστη να ενημερώνεται ανά πάσα στιγμή για τα σήματα του συναγερμού, μέσω τεχνολογίας SMS ή MMS. Φωτεινές ενδείξεις Φωτεινές ενδείξεις: εδώ συναντώνται προβολείς, περιστρεφόμενες λάμπες (φάρος), φλας και ενδεικτικά LEDs. Όλα τα παραπάνω έχουν ως σκοπό να αποτρέψουν πιθανές εισβολές κάνοντας αισθητή την παρουσία του συστήματος (εξωτερική σειρήνα σε εμφανές σημείο), να πανικοβάλουν τους διαρρήκτες (σειρήνες εσωτερικές & εξωτερικές) και τέλος να ειδοποιούν μέσω 24ώρου κεντρικού σταθμού λήψεως σημάτων τον ιδιοκτήτη, τις Αρχές ή τους αρμόδιους Συστήματα Καταγραφής Παρακολούθησης Αρχιτεκτονική συστήματος Σχήμα 1.7 Αρχιτεκτονική συστήματος 16

18 Τα οπτικά συστήματα παρακολούθησης [3], αποτελούνται από τρία βασικά τμήματα ανεξάρτητα μεταξύ τους. Αυτά είναι α) το σύστημα με το οποίο γίνεται η αναγνώριση και η επεξεργασία της εικόνας, β) το σύστημα του ελέγχου και τέλος γ) το σύστημα κίνησης της κάμερας. Το σύστημα της αναγνώρισης και επεξεργασίας της εικόνας (vision module) αποτελείται από το απαραίτητο υλικό (hardware) και λογισμικό (software) για την επεξεργασία της οπτικής πληροφορίας. Είναι υπεύθυνο για την αναγνώριση της θέσης του στόχου (target acquisition). Το σύστημα ελέγχου (control module) υπολογίζει την επιθυμητή κίνηση της κάμερας (trajectory), αξιοποιώντας τις πληροφορίες από την επεξεργασία της εικόνας, με βάση έναν νόμο ελέγχου, έτσι ώστε να επιτυγχάνεται συνεχής και ομαλή κίνηση της κάμερας ενώ παράλληλα ο στόχος να παραμένει στο κέντρο του συστήματος συντεταγμένων της εικόνας. Το σύστημα κίνησης (actuation) κινεί το δύο βαθμών ελευθερίας συστήμα όρασης (δύο περιστροφικοί στο συγκεκριμένο σύστημα) προς τα νέα καθορισμένα σημεία που παρέχονται από το τμήμα ελέγχου. Η νέα κατάσταση του συστήματος ασκεί επιρροή στις επόμενες παρατηρήσεις του στόχου, που κλείνει το βρόχο μεταξύ της δράσης και της αντίληψης. Σχήμα 1.8 Απεικόνιση περιγραφής του συστήματος Εφαρμογές συστημάτων έξυπνης παρακολούθησης ( smart surveillance) Τα συστήματα παρακολούθησης είτε συναντώνται σαν αυτοτελή συστήματα είτε σαν υποσυστήματα άλλων πιο περίπλοκων συστημάτων. Κάποιες κατηγορίες εφαρμογών παρατίθενται παρακάτω: Σε διαδραστικά συστήματα: προηγμένο περιβάλλον διεπαφής ανθρώπου - μηχανής (advanced humanmachine interface), εικονική πραγματικότητα (virtual reality) 17

19 Σε αεροπορικές ή διαστημικές εφαρμογές: παρακολούθηση αεροσκαφών (aircraft tracking), παρακολούθηση πυραύλων (missle tracking), παρακολούθηση δορυφόρων (satellite tracking), αμυντικά συστήματα (defending weapons) Εφαρμογές αποθήκευσης και ανάκτησης εικόνας βασισμένες στο περιεχόμενο της (content-based image storage/retrieval) Εφαρμογές σε κυκλοφορικά συστήματα και σε συστήματα πλοήγησης: ευφυή συστήματα πάνω σε οχήματα για τη διευκόλυνση της πορείας σε εθνικές οδούς (intelligent vehicle highway systems), παρακολούθησης κυκλοφορικής κίνησης (traffic monitoring),πλοήγηση (navigation) Σε συστήματα έξυπνων κεραιών (smart antenna systems) Εφαρμογές στη βιομηχανία (Industrial applications): αυτόματη συναρμολόγηση (vision based assembly, robot manipulation of objects), επιθεώρηση κίνησης των αντικειμένων πάνω στις μεταφορικές ταινίες (motion of parts on conveyor belts in industry) Συστήματα ασφαλείας π.χ. σε σπίτια, σε τράπεζες, σε αεροδρόμια κ.λπ. (intruder detection, surveillance systems at airports) Μετεωρολογία (cloud tracking) Βιοιατρική: παρακολούθηση κίνησης κυττάρων και κινούμενων μερών του ανθρώπινου σώματος (cell motion and tracking of moving parts of the body) Σε συστήματα για τη διευκόλυνση ανθρώπων με αναπηρία (assisting individuals with disabilities) Τα κλειστά συστήματα παρακολούθησης/cctv Με τον όρο κλειστό κύκλωμα παρακολούθησης ή κλειστό κύκλωμα τηλεόρασης ή CCTV [4] εννοούμε το σύστημα εκείνο που στην απλή του μορφή αποτελείται από μία ή περισσότερες κάμερες που συνδέονται σε μόνιτορ για την επιτήρηση ενός χώρου από απόσταση. Η διαφορά μεταξύ τηλεόρασης CCTV και προτύπου είναι ότι το πρότυπο TV μεταδίδει σήματα ανοιχτά για το κοινό. Στην CCTV δεν μεταδίδονται ανοικτά για το κοινό. Η CCTV χρησιμοποιεί είτε την ασύρματη μετάδοση ή ενσύρματη μετάδοση της εκπομπής για να σταλθεί το βίντεο από τις κάμερες ελέγχου της οθόνης (ες) ή συσκευή εγγραφής. Τα περισσότερα συστήματα CCTV χρησιμοποιούνται για την επιτήρηση η οποία μπορεί να περιλαμβάνει την παρακολούθηση της ασφάλειας. 18

20 Σταθερή καλωδιακή σύνδεση Σχήμα 1.9 Κλειστά συστήματα παρακολούθησης/cctv. Σταθερή καλωδιακή σύνδεση σημαίνει ότι η κάμερα θα είναι φυσικά συνδεδεμένη με μία οθόνη ή άλλη συσκευή μέσω ενός καλωδίου. Συνήθως τα ομοαξονικά καλώδια που χρησιμοποιούνται, τις περισσότερες φορές είναι παρόμοια με τα κανονικά καλώδια τηλεόρασης Ασύρματη Σύνδεση Οι περισσότερες ασύρματες CCTV κάμερες για να μεταδώσουν τις εικόνες βίντεο σε μια οθόνη ή DVR (ψηφιακή συσκευή εγγραφής βίντεο) χρησιμοποιούν συχνότητες στα 2.4 gigahertz. Συνήθως, είναι συχνότητες που μπορούν να αλλάξουν λίγο για να έχουν περισσότερες από μία ομάδα κάμερες σε ένα συγκεκριμένο χώρο. CCTV κάμερες που χρησιμοποιούνται σε αυτή τη συχνότητα μπορούν να μεταδώσουν ασύρματα πιο εύκολα μέσω των τοίχων και των εμποδίων. Προφανώς, μια ασύρματη σύνδεση επιτρέπει μεγαλύτερη ελευθερία στο χώρο τοποθετώντας την CCTV κάμερα σχεδόν οπουδήποτε. Πολλά από αυτά τα είδη κάμερας πρέπει να συνδέονται σε παροχή ρεύματος. Υπάρχουν ωστόσο ορισμένες CCTV κάμερες που λειτουργούν με μπαταρία. Το σύστημα αυτό μπορεί να επεκταθεί παρέχοντας την δυνατότητα καταγραφής της εικόνας χρησιμοποιώντας συσκευή ψηφιακής καταγραφής με σκληρό δίσκο. Η συσκευή αυτή ονομάζεται καταγραφικό ή DVR. Υπάρχουν δύο τύποι DVR (Digital Video Recorders). Είτε είναι αυτοδύναμες συσκευές είτε σκληροί δίσκοι που είναι συνδεδεμένοι σε ένα σύστημα υπολογιστή. Το DVR κάνει εργασίες παρόμοιες με το βίντεο, εκτός από τις εικόνες σύλληψης από τη CCTV κάμερα που είναι ψηφιακές. Το ποσό των ψηφιακών εικόνων, που μπορεί να καταγραφεί σε ένα DVR καθορίζεται από κάποιους παράγοντες, συμπεριλαμβανομένων των εικόνων ανά δευτερόλεπτο που καταγράφονται, τον αριθμό των καμερών, τη μορφή που το DVR αποθηκεύει τις εικόνες και τα βίντεο σε συμπίεση που χρησιμοποιούνται (π.χ. MPEG4). Εφόσον υπάρχουν 4 κάμερες γυρισμάτων σε 19

21 30 fps και χρησιμοποιείται μια εικόνα 320 X 240 pixels, κάθε κάμερα καταγράφει μόνο όταν βρίσκεται σε κίνηση και χρησιμοποιείται συμπίεση MPEG4, θα πρέπει να συμπληρωθούν τα 20 για να γεμίσουν 25 GB σκληρό δίσκο σε περίπου 80 ώρες. Αποστολή του είναι η συγκεντρωτική απεικόνιση της τρέχουσας κατάστασης όπως τη συλλαμβάνει το σύστημα CCTV, η μετατροπή των οπτικοακουστικών δεδομένων σε ψηφιακή πληροφορία, η εγγραφή της σε μαγνητικά μέσα αποθήκευσης και η αναπαραγωγή/αναζήτηση συμβάντων από τα αποθηκευμένα δεδομένα. Πρώτη εμφανής διαφοροποίηση από τον κλασικό αναλογικό καταγραφέα (video) αποτελεί το γεγονός πως όλα τα παραπάνω μπορούν να γίνουν ταυτόχρονα, με λιγότερα ηλεκτρονικά εξαρτήματα (αντικατάσταση πολυπλέκτη εικόνας) και αναλώσιμα υλικά (κασέτες), άρα και περισσότερο αξιόπιστα. Η πραγματική όμως επανάσταση κρύβεται και πάλι στη λέξη πληροφορία. Τα δεδομένα, αποθηκεύονται με τέτοιο τρόπο ώστε να αποκτούν ηλεκτρονικό υδατογράφημα (ψηφιακή υπογραφή) που εξασφαλίζει την αυθεντικότητά τους τόσο όταν αναπαράγονται από τον καταγραφέα όσο και όταν αποθηκευτούν σε φορητό μέσο. Επιπλέον, για να γίνει αυτό απαιτείται ειδικό λογισμικό που επιτρέπει μόνο αλλαγές σε παραμέτρους που έχουν σχέση με τον τρόπο παρουσίασης της πληροφορίας και όχι αλλαγής της. Τα χαρακτηριστικά αυτά επιτρέπουν τη χρήση της αποθηκευμένης πληροφορίας ως αποδεικτικό υλικό σε δικαστήρια, με βάση πιστοποιήσεις που εκδίδουν συγκεκριμένες υπηρεσίες. Αυτό που επιτυγχάνεται με όλα τα παραπάνω χαρακτηριστικά είναι η δημιουργία ενός κέντρου ελέγχου πραγματικού χρόνου, που συγκεντρώνει τα δεδομένα (μηνύματα, σφάλματα, συναγερμούς) από όλα τα υποσυστήματα που απαρτίζουν το σύστημα Παρακολούθησης Χώρων, τα απεικονίζει ενοποιημένα και επιτρέπει την πρόσβαση, ρύθμιση και ανάκτηση πληροφορίας από απομακρυσμένο εξοπλισμό. Η καταγραφή μπορεί να γίνεται συνεχώς, με χρονοδιάγραμμα ή όταν ανιχνευτεί κίνηση στην εικόνα κάποιας κάμερας και ενεργοποιήσει την ειδοποίηση του συστήματος. Έτσι, έχουμε ένα ολοκληρωμένο σύστημα που επιτρέπει στους χρήστες του να αξιοποιήσουν στο μέγιστο βαθμό τα δεδομένα εξόδου του και να λάβουν γρήγορα τις σωστότερες αποφάσεις για τις παρούσες συνθήκες. Φυσικά, υπάρχει και η δυνατότητα πρόσβασης από οποιοδήποτε σημείο του δικτύου, εφόσον παραστεί ανάγκη, αυξάνοντας ακόμη περισσότερο την ευελιξία και τη διαθεσιμότητα του συστήματος Συστήματα παρακολούθησης IP-CCTV Τεχνολογίες που βασίζονται σε δίκτυα παρέχουν απεριόριστες δυνατότητες στα συστήματα παρακολούθησης. Τέτοια συστήματα παρακολούθησης ονομάζονται IP- CCTV. Αυτά, συγκεκριμένα δίνουν τη δυνατότητα εγκατάστασης ενός συστήματος όπου θα καταγράφει συνεχόμενα όλες τις κινήσεις στο χώρο εμβέλειας και μπορούν να μεταδίδουν τις εικόνες αυτές (NVR) σε έναν διαδικτυακό κόμβο όπου υπάρχει η δυνατότητα πρόσβασης από το κινητό τηλέφωνο ή από έναν απλό υπολογιστή με πρόσβαση στο διαδίκτυο. Τα συστήματα παρακολούθησης IP-CCTV εξασφαλίζουν απεριόριστες δυνατότητες επέκτασης και διαχείρισης ενός συστήματος κατάγραφής με χαμηλό κόστος φέρνοντας την επανάσταση στα συστήματα παρακολούθησης. 20

22 Συστήματα παρακολούθησης Cubisclient NX Τα κλειστά συστήματα παρακολούθησης είναι η «όραση» και η «ακοή» των συστημάτων ελέγχου και φύλαξης. Τοποθετούνται σε κατάλληλη διάταξη με κάμερες λήψεως έγχρωμες ή και ασπρόμαυρες. Εκτός από την οπτική, μπορούμε να έχουμε και ακουστική παρακολούθηση ταυτόχρονα. Το σήμα οδηγείται σε MONITOR όπου ουσιαστικά παρακολουθείται από ένα σημείο όλος ο χώρος τοπικά ή από απόσταση. Σχήμα 1.10 Cubisclient NX Αν υπάρχει μεγάλος αριθμός από κάμερες, δεν είναι απαραίτητο να χρησιμοποιηθούν πολλά MONITOR καθώς υπάρχουν λύσεις εναλλαγής εικόνας στο ίδιο MONITOR με SWITCHER ή της διαμόρφωσης της οθόνης σε κελιά (PICTURE IN PICTURE). Δίνεται η δυνατότητα σύνδεσης απομακρυσμένων γεωγραφικά κεντρικών μονάδων σε ένα ενιαίο σύστημα και ο έλεγχος όλων των απομακρυσμένων μονάδων γίνεται από ένα κεντρικό σημείο. Ο διαχειριστής του συστήματος μπορεί να εκτελέσει όλες τις λειτουργίες του συστήματος όπως επίσης και τη διαχείριση των υπόλοιπων χρηστών (αν και εφόσον υπάρχουν). Μπορεί ακόμη να δώσει διαφορετικά επίπεδα πρόσβασης στον έλεγχο του συστήματος ανά κάμερα-χρήστη, να αποκρύψει κάποια κάμερα από κάποιον χρήστη, καθώς και ένα σημαντικό αριθμό δυνατοτήτων σε επίπεδο χρήστη ή κάμερας (λειτουργία αποθηκευμένου). Με 2 TΒ αποθηκευτικό χώρο στο καταγραφικό και συνεχή εγγραφή, οι 16 κάμερες αποθηκεύουν πληροφορία 90 περίπου ημερών. Με εξωτερική συστοιχία SCSI δίσκων ο χώρος αποθήκευσης μπορεί να φτάσει έως 3.2 TΒ. Την 91η ημέρα, σβήνονται οι πληροφορίες της 1ης σταδιακά. Η αναζήτηση του αποθηκευμένου Video είναι εύκολη και μπορεί να γίνει ανά ημερομηνία, ώρα, λεπτό και κάμερα. Στο Σχήμα 1.11, υπάρχει ένα δείγμα από το γραφικό περιβάλλον αναζήτησης του προγράμματος. 21

23 Σχήμα 1.11 Γραφικό περιβάλλον αναζήτησης του προγράμματος Ο χρήστης έχει τη δυνατότητα προβολής αποθηκευμένου video στο Media Viewer που διαθέτει το πρόγραμμα του Cubisclient NX (Σχήμα 1.10) [5], χωρίς να απαιτείται η έξοδος του από το πρόγραμμα. Η μορφή συμπίεσης του εξαγομένου video είναι αποκλειστικά της Cubitech το οποίο είναι πιστοποιημένο από το διεθνή οργανισμό Kalagate, που κατοχυρώνει το καταγεγραμμένο video ως αποδεικτικό στοιχείο στα Ευρωπαϊκά δικαστήρια. Υπάρχουν σαφώς και άλλα προγράμματα στην αγορά. Σχήμα 1.12 Media Viewer H επιλογή των φακών στις κάμερες δίνει λύσεις ανάλογα με την οπτική γωνία τη δυνατότητα ZOOM ή της αυτόματης ρύθμισης με εναλλασσόμενο φωτισμό AUTO IRIS. Η δυνατότητα αποθήκευσης των στοιχείων από ειδικά TIME LAPSE VIDEO με δυνατότητα καταγραφής αρκετών ωρών λύνει τα προβλήματα. Υπάρχει η δυνατότητα συνδυασμού συστήματος ασφαλείας και κλειστού κυκλώματος με την εφαρμογή του MOTION DETECTOR όπου με την παραμικρή αλλαγή που γίνεται στον χώρο που επιβλέπει η κάμερα ενεργοποιείται το video καταγραφής και το σύστημα ασφαλείας στέλνει σήμα ALARM. Δυνατότητα καταγραφής της κάμερας με κίνηση ή με καταγραφή 24 ώρες το 24ωρο CubisΝΧ Έχει την μοναδική δυνατότητα από τις υπόλοιπες σειρές Cubis να μεταδίδει εικόνα ζωντανού video και σε κινητό τηλέφωνο. 22

24 Σχήμα 1.12 CubisNX Ένα από τα βασικά πλεονεκτήματα του CubisΝΧ είναι η εξαιρετική ταχύτητα και ποιότητα μετάδοσης της εικόνας μέσα από απλές τηλεφωνικές γραμμές, ISDN και γραμμές ADSL χρησιμοποιώντας προηγμένους αλγορίθμους Cubis compression - διαφορικής μετάδοσης. Το CubisΝΧ είναι σχεδιασμένο να μπορεί να μεταδώσει εικόνα με οποιοδήποτε μέσο υποστηρίζει το πρωτόκολλο TCP/IP. Αυτό περιλαμβάνει ψηφιακές γραμμές ISDN, μισθωμένες γραμμές, ασύρματα δίκτυα υπολογιστών, GPRS και άλλα. Ειδικά για τις ψηφιακές γραμμές, το CubisΝΧ έρχεται με ενσωματωμένο ISDN 128Kbps TA και έτσι το μόνο που θα χρειάζεται είναι μία γραμμή ISDN από τον Ο.Τ.Ε. Με την ενσωματωμένη ανίχνευση κίνησης οι κάμερες του συστήματος μετατρέπονται σε αισθητήρες και ανιχνευτές χώρου που είναι εγκατεστημένες. Αυτό το πλεονέκτημα, σε συνδυασμό με μια σειρά από συναγερμούς που είναι διαθέσιμοι στο σύστημα, όπως ηχητικός συναγερμός, , SMS και συναγερμός Dial-Out με μετάδοση εικόνας, μπορούν να μεταστρέψουν το CubisPRO σε ένα ολοκληρωμένο σύστημα προστασίας. Σχήμα 1.13 Καταγραφή κίνησης 1.3 ΕΦΑΡΜΟΓΕΣ ΠΟΥ ΣΧΕΤΙΖΟΝΤΑΙ ΜΕ ΣΥΣΤΗΜΑΤΑ ΑΣΦΑΛΕΙΑΣ IP Video System Design Tool Με το IP Video System Design Tool [6] μπορεί να υπολογιστεί το εύρος ζώνης του δικτύου και ο απαιτούμενος αποθηκευτικός χώρος για 15 διαφορετικές αναλύσεις κάμερας και διάφορες μεθόδους συμπίεσης, συμπεριλαμβανομένων των H.264, MPEG-4 και Motion JPEG. Το IP Video System Design Tool επιτρέπει στο σχεδιαστή του συστήματος να εντοπίσει τις βέλτιστες ρυθμίσεις για τα καρέ ανά δευτερόλεπτο (fps) και τη συμπίεση που προσαρμόζεται στις ικανότητες του ασύρματου ή ενσύρματου τοπικού δικτύου και να υπολογίζει τον απαιτούμενο χώρο 23

25 αποθήκευσης σε σκληρό δίσκο (HDD). Οι εκτιμήσεις μεγέθους του καρέ είναι με βάση τα αποτελέσματα της δικής της έρευνας στη συμπίεση, χάρη στην εκτεταμένη γνώση για αλγόριθμους συμπίεσης και στο ευρύ φάσμα των πειραματικών δεδομένων σε πραγματικό χρόνο στα συστήματα κλειστού συστήματος βίντεο (CCTV). Το IP Video System Design Tool περιλαμβάνει υπολογισμούς οπτικού πεδίου, εστιακής απόστασης φακού κάμερας, εύρος ζώνης δικτύου και αποθηκευτικού χώρου, ανάλυσης κάμερας σε megapixel και πολλά άλλα εργαλεία ώστε να σχεδιαστεί ένα κλειστό σύστημα παρακολούθησης βίντεο γρήγορα και εύκολα. Σχήμα 1.14 IP Video System Design Tool Σχήμα 1.15 IP Video System Design Tool Kerveros eye Το Kerveros eye [7] είναι μια «έξυπνη» εφαρμογή λήψης και διαχείρισης εικόνας. Η διαφορά του από άλλες εφαρμογές, είναι στο ότι ο χειριστής δεν χρειάζεται να παρακολουθεί συνεχώς όλες τις κάμερες στην οθόνη του. Το Kerveros eye αναλαμβάνει να στείλει σήμα στο κέντρο λήψης σημάτων Κέρβερος και να ειδοποιήσει τον χρήστη ποια κάμερα να κοιτάξει. Επιπλέον το Kerveros eye αναλαμβάνει να μεταφέρει την εικόνα της κάμερας στο κέντρο λήψης σημάτων, έτσι ώστε ο χρήστης να μπορεί να δει το βίντεο του συμβάντος οποιαδήποτε στιγμή. Ο χειριστής μπορεί να δει το χώρο του πελάτη την ώρα του συμβάντος και όχι μόνο την ώρα του Alarm. Όταν το κέντρο λάβει alarm, έχει ήδη καταγραφεί στον υπολογιστή του video από την ώρα του συμβάντος. Έτσι υπάρχει η δυνατότητα να δει live video ή και video μερικά δευτερόλεπτα πριν. Αυτό έχει ως πλεονέκτημα τη σωστή αναγνώριση του περιστατικού και την αξιολόγηση του. Αν δηλαδή είναι σοβαρό (π.χ. παραβίαση) ή false alarm, δηλαδή ανούσιος συναγερμός. 24

26 Σχήμα 1.16 «Kerveros eye» Σύστημα ασφαλείας Καθώς το Kerveros eye καταγράφει τα βίντεο στον χώρο του κέντρου λήψεως σημάτων προσφέρει ένα επιπλέον πλεονέκτημα. Σε περίπτωση που γίνει μία παραβίαση στο χώρο που υπάρχουν τα DVR και αυτά καταστραφούν, τα βίντεο των συμβάντων δεν έχουν χαθεί καθώς έχουν αποθηκευθεί στο κέντρο λήψης σημάτων. Επιπροσθέτως, επειδή το Kerveros eye συνδέεται με το κέντρο λήψης σημάτων Κέρβερος, η καταγραφή των βίντεο και η λήψη συμβάντων στο Kerveros eye γίνεται σύμφωνα με το ωράριο της εγκατάστασης, δηλαδή σύμφωνα με την ώρα των οπλισμών και των αφοπλισμών του πελάτη. Αν για παράδειγμα σε μία εγκατάσταση έρθει αφοπλισμός στον Κέρβερο, τότε αυτόματα ο Κέρβερος ειδοποιεί το Kerveros eye πως δεν χρειάζεται να καταγράφει τα συμβάντα. Και αντίστοιχα, όταν έρθει οπλισμός, η λειτουργία της λήψης συμβάντων επανέρχεται Αναγνώριση Προσώπου Η αναγνώριση προσώπου είναι η τεχνολογία που αυτόματα προσδιορίζει τη θέση και τα σχετικά μεγέθη ανθρώπινων προσώπων σε τυχαία δείγματα - ψηφιακών - εικόνων. Αναγνωρίζει τα χαρακτηριστικά των προσώπων αγνοώντας άλλα στοιχεία όπως πράγματα, φυτά, δένδρα, κτήρια κλπ. Μπορεί να θεωρηθεί ως παρακλάδι της Object Class Detection, της αντικειμενοστραφούς αναγνώρισης δηλ. εκεί όπου μπαίνει σαν σκοπός η εύρεση των θέσεων των αντικειμένων που ανήκουν σε μια συγκεκριμένη κατηγορία. Η υλοποίηση αυτής της θαυμαστής τεχνολογίας ήλθε σαν παρεπόμενο πολυετούς μαθηματικής έρευνας, εφαρμογών θεωρίας νευρωνικών δικτύων και προηγμένων αλγορίθμων που εκπόνησαν επιστήμονες όπως οι Ηaar, Viola και Jones. Η θεωρία και πράξη του Face Detection (FD) χρησιμεύει στη βιομετρική και στα συστήματα ασφαλείας (παρακολούθηση με βιντεοκάμερες). Είχε παρατηρηθεί, ότι τα συνηθισμένα συστήματα αυτόματης εστίασης (autofocus) συχνά έχαναν το βασικό αντικείμενο, ιδιαίτερα όταν επιλεγόταν ευρεία ζώνη εστίασης, καταλήγοντας σε φλου καρέ. Με το FD οι ειδικοί αλγόριθμοι αναγνωρίζουν τις θέσεις των προσώπων. Έτσι 25

27 α) εστιάζουν σωστά και β) τα στοιχεία της θέσης αξιοποιούνται για να προσαρμοστεί ανάλογα ο φωτισμός (δηλ. να εκτεθούν σωστά τα σημεία που αντιστοιχούν σε πρόσωπα). Σχήμα 1.17 Ανίχνευση Προσώπου 1.4 ΣΥΣΤΗΜΑΤΑ ΟΡΑΣΗΣ Εικόνες και Εφαρμογές Η εικόνα έχει γίνει απαραίτητο στοιχείο κάθε σύγχρονης εφαρμογής [8]. Ακόμα και σε περιπτώσεις όπου η εικόνα δεν αποτελεί αντικείμενο της εφαρμογής, οι απαιτήσεις για απλά και κατανοητά interfaces εισάγουν αναπόφευκτα την εικόνα. Υπάρχουν διάφορα είδη εικόνας, κάθε ένα από τα οποία είναι κατάλληλο για ορισμένα είδη εφαρμογών. Το πιο απλό, σε σχέση με την πολυπλοκότητα της απεικόνισης των στον υπολογιστή, είναι οι διτονικές εικόνες. Χαρακτηριστικό αυτής της κατηγορίας είναι η ύπαρξη μόνο δύο χρωμάτων (μαύρο και άσπρο συνήθως). Οι δυαδικές εικόνες βρίσκουν εφαρμογή σε προγράμματα οργάνωσης επιχειρήσεων και οργανισμών όπου παρουσιάζεται η ανάγκη αρχειοθέτησης εγγράφων, αποδείξεων, επιταγών κ.λ.π. Αυτές οι εικόνες προέρχονται από σάρωση των εγγράφων και αποθηκεύονται σε ειδικού σκοπού συστήματα διαχείρισης βάσεων δεδομένων. Άλλες περιπτώσεις όπου παρουσιάζονται συχνά δυαδικές εικόνες είναι τα τεχνικά σχέδια, τα διαγράμματα, οι χάρτες κ.λ.π. Στο επόμενο επίπεδο υπάρχουν οι εικόνες συνεχούς τόνου (continuous tone images). Αυτές ορίζονται, σε αντίθεση με της διτονικές, ως οι εικόνες στις οποίες τα γειτονικά σημεία δεν διαφέρουν σημαντικά μεταξύ τους δηλαδή χαρακτηρίζονται από ομαλές τονικές διαβαθμίσεις. Υπάρχουν δύο είδη εικόνων συνεχούς τόνου: κλίμακας του γκρίζου (gray scale) και έγχρωμες (colour). Το πρώτο είδος βρίσκει παρόμοιες εφαρμογές με τις διτονικές. Η διαφορά είναι ότι τα έγγραφα μπορούν τώρα να έχουν και εικόνες οι οποίες αποδίδονται με διαβαθμίσεις του γκρίζου. Για παράδειγμα, ιατρικές φωτογραφίες αποτέλεσμα ακτινογραφιών ή υπερηχογραφημάτων μπορούν να αποδοθούν ικανοποιητικά από εικόνες κλίμακας του γκρίζου. Οι έγχρωμες εικόνες, όπως είναι φυσικό, βρίσκουν τη μεγαλύτερη χρήση και έχουν το μεγαλύτερο 26

28 ενδιαφέρον. Χρησιμοποιούνται τόσο σε επαγγελματικές όσο και σε εκπαιδευτικές και ψυχαγωγικές εφαρμογές. Αναμφισβήτητα, η χρήση εικόνας βελτιώνει της υπάρχουσες εφαρμογές. Σε συνδυασμό όμως και με άλλες τεχνολογίες, όπως η αναγνώριση προτύπων και τα έμπειρα συστήματα, ανοίγουν το δρόμο για εντελώς νέες εφαρμογές. Ένα παράδειγμα είναι η αυτόματη ταυτοποίηση ατόμων με βάση τα δακτυλικά αποτυπώματα ή κάποια φωτογραφία, εφαρμογή που είναι χρήσιμη σε συστήματα ασφαλείας Τεχνητή Όραση Η μηχανική όραση[9], υπολογιστική όραση ή τεχνητή όραση είναι ένα επιστημονικό πεδίο της τεχνητής νοημοσύνης το οποίο επιχειρεί να αναπαράγει αλγοριθμικά την αίσθηση της όρασης, συνήθως σε ηλεκτρονικό υπολογιστή ή ρομπότ. Η μηχανική όραση σχετίζεται με τη θεωρία και την τεχνολογία που εμπλέκονται στη σχεδίαση και κατασκευή συστημάτων που λαμβάνουν και αναλύουν δεδομένα από ψηφιακές εικόνες. Τα δεδομένα αυτά μπορούν να είναι φωτογραφίες, βίντεο, όψεις από πολλαπλές κάμερες, πολυδιάστατες εικόνες από ιατρικό σαρωτή κ.λ.π. Η μηχανική όραση επιδιώκει να εφαρμόσει θεωρίες και μοντέλα στην κατασκευή μηχανικών συστημάτων με δυνατότητα όρασης. Παραδείγματα εφαρμογών τέτοιων συστημάτων είναι τα εξής: Έλεγχος διαδικασιών (π.χ. ένα βιομηχανικό ρομπότ ή ένα αυτόνομο όχημα) Ανίχνευση συμβάντων (π.χ. οπτική επιτήρηση) Οργάνωση πληροφοριών (π.χ. ευρετηριοποίηση βάσεων δεδομένων και ακολουθιών εικόνων) Εξομοίωση αντικειμένων και περιβαλλόντων (π.χ. βιομηχανική επιθεώρηση, ιατρική ανάλυση εικόνας ή τοπογραφική εξομοίωση) Αλληλεπίδραση χρηστών με υπολογιστικά συστήματα (π.χ. ως είσοδος σε μια συσκευή επικοινωνίας ανθρώπου / μηχανής). Σχήμα 1.18 Σχέση μεταξύ όρασης υπολογιστών & διαφόρων άλλων πεδίων 27

29 Η μηχανική όραση μπορεί επίσης να περιγραφεί ως συμπλήρωμα της βιολογικής όρασης. Στην τελευταία, μελετώνται η οπτική αντίληψη στους ανθρώπους και τα ζώα με αποτέλεσμα μοντέλα για το πώς αυτά τα συστήματα λειτουργούν υπό το πρίσμα των φυσιολογικών διαδικασιών. Η μηχανική όραση από την άλλη μελετά και περιγράφει το τεχνητά συστήματα όρασης που βασίζονται σε λογισμικό ή και σε υλικό υπολογιστών. Η διεπιστημονική ανταλλαγή μεταξύ της βιολογικής και υπολογιστικής όρασης αποδεικνύεται όλο και περισσότερο καρποφόρα και για τους δύο τομείς. Ιστορικά, η υπολογιστική όραση δημιουργήθηκε μετά το 1980 ως αποτέλεσμα επέκτασης του πεδίου της πληροφορικής το οποίο καλείται ψηφιακή επεξεργασία εικόνας σε αλγορίθμους ανάλυσης και κατανόησης εικόνων. Είχαν προηγηθεί η μαθηματική μοντελοποίηση της φυσικής όρασης, έστω σε ένα βασικό επίπεδο και οι πρώτες προσπάθειες για αναπαραγωγή της αίσθησης της όρασης σε αυτόνομα ρομπότ. Ως τότε ο όρος μηχανική όραση σχετιζόταν με την ηλεκτρολογία και τη ρομποτική, συνήθως σε βιομηχανικό πλαίσιο. Κατά τη δεκαετία του 1980, μετά την εμφάνιση της υπολογιστικής όρασης, οι δύο όροι σταδιακά συνέκλιναν και συγχωνεύθηκαν ως επιστημονικά πεδία, σαν διακριτός τομέας της τεχνητής νοημοσύνης με εφαρμογές όχι μόνο στη ρομποτική αλλά και σε δεκάδες ακόμα κλάδους. Από τη δεκαετία του 1990 και έπειτα η μηχανική όραση έχει γνωρίσει αλματώδη ανάπτυξη, έχει συνδεθεί με το γνωστικό πεδίο της μηχανικής μάθησης και έχει δώσει σημαντικά απτά αποτελέσματα, με αλγορίθμους όρασης πραγματικού χρόνου να υλοποιούνται ακόμα και σε φτηνά κινητά τηλέφωνα εξοπλισμένα με κάμερα. Στο πλαίσιο αυτό, η μηχανική όραση έχει διαδραματίσει θεμελιώδη ρόλο στην εξέλιξη της ενισχυμένης πραγματικότητας. Μετά την ευρύτατη διάδοση του Kinect, ενός καινοτόμου περιφερειακού διασύνδεσης μεταξύ χρηστών και υπολογιστικών συστημάτων και τη σχετική άνθιση του τρισδιάστατου (στερεοσκοπικού) οπτικού περιεχομένου ύστερα από τη μεγάλη επιτυχία της κινηματογραφικής ταινίας Άβαταρ το 2009, η μηχανική όραση εξετάζει συνεχώς την αξιοποίηση δεδομένων βάθους (π.χ. από στερεοσκοπική κάμερα ή ξεχωριστούς αισθητήρες βάθους) για την επίτευξη των στόχων της Αντικείμενα και σχέση με άλλα επιστημονικά πεδία Οι υποκατηγορίες της μηχανικής όρασης περιλαμβάνουν την κατανόηση σκηνής, την ανίχνευση συμβάντων, την ανίχνευση κίνησης, την αναγνώριση αντικειμένων, την ευρετηριοποίηση, την αναγνώριση κίνησης και την τρισδιάστατη ανακατασκευή (παραγωγή τρισδιάστατων μοντέλων της σκηνής από δεδομένα εικόνας / βίντεο). Σε σχέση με άλλα, συγγενή γνωστικά πεδία, η μηχανική όραση διαφοροποιείται ως εξής: Η ψηφιακή επεξεργασία εικόνας, εξετάζει αλγορίθμους οι οποίοι δέχονται ως είσοδο εικόνες / βίντεο και παράγουν ως έξοδο εικόνες / βίντεο. Τα γραφικά υπολογιστή, εξετάζουν αλγορίθμους οι οποίοι δέχονται ως είσοδο συμβολικές περιγραφές οπτικών σκηνών και παράγουν ως έξοδο εικόνες / βίντεο (με ή χωρίς αλληλεπίδραση με τον χρήστη). Η μηχανική όραση, εξετάζει αλγορίθμους οι οποίοι δέχονται ως είσοδο εικόνες / βίντεο και παράγουν συμβολικές περιγραφές των εν λόγω οπτικών σκηνών. 28

30 Η μηχανική μάθηση, εξετάζει αλγορίθμους οι οποίοι δέχονται ως είσοδο δεδομένα κάθε τύπου και τα ταξινομούν ή κατηγοριοποιούν σε ομάδες. Ένα σημαντικό μέρος της μηχανικής όρασης, είναι ουσιαστικά εφαρμογή της μηχανικής μάθησης σε ψηφιακά οπτικά δεδομένα. Σχήμα 1.19 Τεχνητή όραση Σχήμα 1.20 Ιεραρχική διάκριση λειτουργιών Τεχνητής όρασης Επικεντρώνοντας το ενδιαφέρον μας στην τελευταία δεκαετία, μπορεί να ειπωθεί ότι η τεχνητή όραση συνέχισε να αναπτύσσεται προς την κατεύθυνση της αλληλεπίδρασης μεταξύ της όρασης και των πεδίων των γραφικών. Ειδικότερα, πολλά από τα θέματα που εισάγονται κάτω από το γενικό όρο εικόνα με βάση την απόδοση, όπως η συρραφή εικόνων και η καταγραφή με βάση το φως. Μια δεύτερη σημαντική τάση της τελευταίας δεκαετίας, η οποία έχει και άμεση σχέση με την παρούσα εργασία, θεωρείται η εμφάνιση τεχνικών που βασίζονται σε χαρακτηριστικά των αντικειμένων στοχεύοντας στην αναγνώριση τους. Τέτοιου είδους τεχνικές κυριαρχούν και σε άλλες εργασίες αναγνώρισης, όπως η αναγνώριση σκηνής, πανοραμική θέαση και αναγνώριση τοποθεσίας. 29

31 Σχήμα 1.21 Σχέση Τεχνητής όρασης με άλλες επιστήμες Κοιτάζοντας σε βάθος τη σχέση της τεχνητής όρασης με άλλους τομείς μπορεί κανείς εύκολα να βρει σημαντικές αλληλεξαρτήσεις. Προς αυτή την κατεύθυνση οι περιοχές της τεχνητής νοημοσύνης που ασχολούνται με τον αυτόνομο σχεδιασμό και τα ρομποτικά συστήματα, συνδέονται άμεσα με την τεχνητή όραση που είναι ένα σύστημα που ενεργεί ως αισθητήρας ο οποίος είναι σε θέση να παρέχει πληροφορίες υψηλού επιπέδου τόσο για το περιβάλλον όσο και για το ίδιο το ρομπότ. Επιπλέον η τεχνητή όραση και η τεχνητή νοημοσύνη, μοιράζονται και άλλα κοινά θέματα όπως η αναγνώριση προτύπων και τεχνικές εκμάθησης. Τα πεδία που συνδέονται πιο στενά με την τεχνητή όραση θεωρούνται η επεξεργασία και ανάλυση εικόνας, καθώς και η μηχανική όραση[10]. Παρακάτω θα γίνει ειδική αναφορά στο πεδίο της ψηφιακής επεξεργασίας εικόνας. Πριν αναφερθούν οι διάφορες εφαρμογές της τεχνητής όρασης, θεωρείται σκόπιμο να γίνει αναφορά στους παράγοντες που κάνουν τόσο δύσκολη τη διαδικασία για έναν Η/Υ να μιμηθεί τον τρόπο όρασης των ανθρώπων. Πιο συγκεκριμένα θα παρουσιαστούν 6 λόγοι οι οποίοι αποδεικνύουν τα παραπάνω: Απώλεια των πληροφοριών κατά τη μετατροπή της εικόνας από 3 σε 2 διαστάσεις, λόγω του προοπτικού μετασχηματισμού. Μια ποικιλία από επιφάνειες με διαφορετικό υλικό και γεωμετρικές ιδιότητες, πιθανότατα κάτω από διαφορετικές συνθήκες φωτισμού θα μπορούσαν να οδηγήσουν σε όμοιες εικόνες. Η μετρούμενη φωτεινότητα δίνεται από μια περίπλοκη φυσική δημιουργία της εικόνας, άρα η αντίστροφη διαδικασία είναι αρκετά δύσκολη. Υπάρχει πάντα θόρύβος όπως και σε κάθε μέτρηση του πραγματικού κόσμου. Πληθώρα δεδομένων, καθώς ένα φύλλο μεγέθους Α4 με ανάλυση 300 dots per pixel θα καταλαμβάνει 8.5 Mbytes αποθηκευτικού χώρου. Απαιτείται ερμηνεία για να παραχθεί η τελική απόφαση. 30

32 Ακολουθούν οι σημαντικότερες εφαρμογές στις οποίες συναντάται η τεχνητή όραση. Συστήματα ελέγχου της παραγωγικής διαδικασίας, συναντιούνται κυρίως σε ρομποτικές εφαρμογές σε βιομηχανικό πλαίσιο και στα αυτόνομα οχήματα. Συστήματα ποιοτικού ελέγχου σε γραμμές παραγωγής. Συστήματα παρακολούθησης, χρησιμοποιώντας κάμερες ασφαλείας για την καταμέτρηση αντικειμένων. Συστήματα προηγμένης διάδρασης με εφαρμογές επαυξημένης πραγματικότητας [11]. Οργάνωση πληροφορίας με τη μέθοδο της δεικτοδότησης βάσεων εικόνων. Συστήματα αναγνώρισης, χρησιμοποιούνται κατά κόρον σε ιατρικές και τοπογραφικές εφαρμογές, καθώς επίσης και για την αναγνώριση χαρακτήρων και ιδιαίτερα προσώπων. Συνοπτικά μπορεί να ειπωθεί ότι η οργάνωση ενός συστήματος τεχνητής όρασης έχει άμεση σχέση με την εφαρμογή που υλοποιείται. Έτσι ορισμένα συστήματα χρησιμοποιούν αυτόνομες εφαρμογές που λύνουν ένα συγκεκριμένο πρόβλημα, ενώ άλλες εφαρμογές αποτελούν ένα υπό-σύστημα ενός μεγαλύτερου συστήματος. Οποιαδήποτε και αν είναι η εφαρμογή, υπάρχουν κάποιες βασικές λειτουργίες οι οποίες συναντώνται σε όλα τα συστήματα τεχνητής όρασης. Αρχικά απαιτείται να αποκτηθεί η εικόνα, η οποία ανάλογα με την τεχνική που χρησιμοποιείται προκύπτει ως δισδιάστατη ή τρισδιάστατη. Η εικόνα αποτελεί την κύρια πληροφορία για ένα σύστημα τεχνητής όρασης. Επόμενο χρονικά στάδιο είναι αυτό της προ-επεξεργασίας της εικόνας. Τα δεδομένα της εικόνας υπόκεινται σε επεξεργασία πριν τη χρήση τους από το σύστημα της τεχνητής όρασης, για να πληρούν κάποιες προϋποθέσεις. Σημαντικό βήμα στη συνέχεια είναι η εξαγωγή βασικών χαρακτηριστικών της εικόνας, όπως οι γραμμές, τα περιγράμματα και οι γωνίες. Ως επόμενο στάδιο μπορεί να θεωρηθεί αυτό της κατάτμησης της εικόνας για να ακολουθήσει το τελευταίο στάδιο, κατά το οποίο παράγεται η απόφαση του συστήματος τεχνητής όρασης και αποφασίζεται η αντίδραση της εφαρμογής σε αυτή την απόφαση Ψηφιακή Επεξεργασία Εικόνας Επεξεργασία εικόνας [12] θεωρείται οποιαδήποτε μορφή επεξεργασίας σήματος για την οποία είσοδος είναι μια εικόνα, όπως για παράδειγμα φωτογραφίες ή το πλαίσιο ενός βίντεο. Η έξοδος αυτής της επεξεργασίας μπορεί να είναι είτε μια εικόνα είτε ένα σύνολο χαρακτηριστικών τα οποία σχετίζονται με την εικόνα. Οι περισσότερες τεχνικές επεξεργασίας εικόνας περιλαμβάνουν τον χειρισμό της εικόνας ως δισδιάστατο σήμα, εφαρμόζοντας σε αυτό πρότυπες τεχνικές επεξεργασίας σήματος. Ψηφιακή εικόνα θεωρείται η αναπαράσταση μιας δισδιάστατης εικόνας ως ένα πεπερασμένο σύνολο από ψηφιακές τιμές που ονομάζονται pixels. Η ψηφιοποίηση συνεπάγεται ότι μια ψηφιακή εικόνα είναι προσέγγιση μιας πραγματικής σκηνής. 31

33 Ψηφιακή Επεξεργασία Εικόνας [13] ονομάζεται η χρήση κατάλληλων υπολογιστικών αλγορίθμων για την εκτέλεση της διαδικασίας που ονομάζεται επεξεργασία, πάνω σε ψηφιακές εικόνες. Η Ψηφιακή επεξεργασία εικόνας θεωρείται ένα υποσύνολο του ηλεκτρονικού τομέα όπου η εικόνα μετατρέπεται σε μια σειρά μικρών ψηφίδων, τα λεγόμενα pixels (picture elements), που αντιπροσωπεύουν μια φυσική ποσότητα όπως η σκηνή, η ακτινοβολία και αποθηκεύονται σε ψηφιακή μνήμη για να υποβληθούν στη συνέχεια σε επεξεργασία από τον υπολογιστή ή αλλά ψηφιακά μέσα. Είτε ως ενίσχυση για τους ανθρώπινους παρατηρητές είτε για εκτέλεση αυτόνομων αναλύσεων, η ψηφιακή επεξεργασία εικόνας προσφέρει πλεονεκτήματα στο κόστος, στην ταχύτητα, στην ευελιξία και με τη ραγδαία αύξηση της απόδοσης των προσωπικών υπολογιστών θεωρείται πλέον η κυρίαρχη μέθοδος. Με την έλευση της ψηφιακής φωτογραφίας η ψηφιακή εικόνα γίνεται πλέον κτήμα του ευρύτερου κοινού. Η Ψηφιακή Επεξεργασία Εικόνων, με μια ιστορία περίπου μερικών δεκαετιών, θεωρείται ήδη μια ώριμη επιστημονική περιοχή, η οποία όπως αναφέρθηκε νωρίτερα είναι άρρηκτα συνδεδεμένη με την τεχνητή όραση. Ως αντικείμενο έχει εικόνες οποιασδήποτε προέλευσης, προσιτές ή μη στην ανθρώπινη όραση. Περί τα μέσα της δεκαετίας του 1960, η εξερεύνηση του διαστήματος και η ιατρική απεικόνιση δημιούργησαν την ανάγκη της επεξεργασίας των εικόνων. Τα ζητήματα που ετίθεντο αφορούσαν στη βελτίωση και αποκατάσταση των εικόνων διορθώνοντας αστοχίες και αδυναμίες των συστημάτων κατά τη διάρκεια της λήψης. Από τότε οι εφαρμογές αυξάνονται συνεχώς τα προβλήματα γίνονται πιο σύνθετα, ενώ παράλληλα αυξάνονται και οι δυνατότητες καθώς η υπολογιστική ισχύς μεγαλώνει αδιάκοπα. Σχήμα 1.22 Τα βασικά στάδια της Ψηφιακής Επεξεργασίας Εικόνας Γενικά μπορεί να ειπωθεί ότι η Ψηφιακή Επεξεργασία Εικόνας αναπτύχθηκε για να αντιμετωπίσει τα ακόλουθα κύρια προβλήματα: Τη ψηφιοποίηση, κωδικοποίηση των εικόνων με στόχο την αποθήκευση και μετάδοση τους Τη βελτιστοποίηση και αποκατάσταση με στόχο την καλύτερη απεικόνιση και κατανόηση τους 32

34 Την τμηματοποίηση [14] και την περιγραφή εικόνων. Την ανάλυση και κατανόηση των εικόνων. Από την παραπάνω ανάλυση διαπιστώνεται ότι τα θέματα που αντιμετωπίζει η Ψηφιακή Επεξεργασία Εικόνας αφορούν αφενός την αξιοποίηση των μέσων και αφετέρου την κατανόηση του περιεχομένου των εικόνων με απώτερο στόχο την προσέγγιση της ανθρώπινης όρασης όπως αναφέρθηκε και παραπάνω. Με την έννοια αυτή η Ψηφιακή Επεξεργασία Εικόνας ταυτίζεται με θέματα ρομποτικής όρασης, αναγνώρισης προτύπων και τεχνητής νοημοσύνης. Στο σημείο αυτό θα αναφερθούμε στις εφαρμογές της Ψηφιακής Επεξεργασίας Εικόνας που ολοένα και αυξάνονται με την πάροδο του χρόνου. Αποθορυβοποίηση [15]: Ο λεγόμενος λευκός θόρυβος αποτελεί τον συχνότερα εμφανιζόμενο θόρυβο στην επεξεργασία εικόνας. Σε αυτό ακριβώς επικεντρώνεται η συγκεκριμένη εφαρμογή, στοχεύοντας στην ανάκτηση μιας εικόνας η οποία έχει εκτεθεί σε τέτοιου είδους θόρυβο. Κατάτμηση εικόνας: Είναι η διαδικασία τεμαχισμού μιας ψηφιακής εικόνας σε πολλά τμήματα. Στόχος αυτής της εφαρμογής είναι η απλοποίηση και η αλλαγή της αναπαράστασης σε κάτι πιο ουσιαστικό και εύκολο να αναλυθεί. Ανίχνευση προσώπου [16]: Είναι μια τεχνολογία που καθορίζει τις θέσεις και τα μεγέθη των ανθρώπινων προσώπων σε μια αυθαίρετη ψηφιακή εικόνα, εντοπίζοντας τα χαρακτηριστικά του προσώπου και αγνοώντας οτιδήποτε άλλο. Αναγνώριση χαρακτήρων: Είναι η μηχανική ή ηλεκτρονική μετατροπή εικόνων που περιέχουν κείμενο στο αρχικό κείμενο. Ταυτοποίηση δακτυλικών αποτυπωμάτων: Αναφέρεται στην αυτοματοποιημένη μέθοδο εξακρίβωσης της αντιστοιχίας μεταξύ δυο ανθρωπίνων δακτυλικών αποτυπωμάτων. Σχήμα 1.23 Εφαρμογές της Ψηφιακής Επεξεργασίας Εικόνας 33

35 1.4.5 Τεχνητή όραση σε σύγκριση με την Ψηφιακή επεξεργασία εικόνας Η επεξεργασία εικόνας μελετά την μετατροπή από εικόνα σε εικόνα. Τόσο τα δεδομένα εισόδου όσα και οι πληροφορίες που εξάγονται αφορούν εικόνες. Οι τυπικές διαδικασίες της επεξεργασίας εικόνας περιλαμβάνουν συμπίεση, αποκατάσταση και ενίσχυση εικόνων. Η τεχνητή όραση είναι η καταγραφή ουσιαστικών περιγραφών των φυσικών αντικειμένων που προέρχονται από τις εικόνες τους. Το αποτέλεσμα της τεχνητής όρασης είναι μια περιγραφή ή μια ερμηνεία ή μερικές ποσοτικές μετρήσεις της δομής σε μια σκηνή τριών διαστάσεων.η επεξεργασία εικόνας και η αναγνώριση προτύπων βρίσκονται ανάμεσα στις πολλές τεχνικές τις οποίες χρησιμοποιεί η τεχνητή όραση για να επιτύχει τους στόχους της. Σχήμα 1.24 Τεχνητή όραση εναντίον Ψηφ.Επεξεργασίας Εικόνας Προεξέχοντα οπτικά σημεία εικόνας (Visual Saliency) Σε αυτή την παράγραφο γίνεται η προσπάθεια κατανόησης αυτής της σημαντικής ιδιότητας του ανθρώπινου οργανισμού. Τα περισσότερα σπονδυλωτά, συμπεριλαμβανομένου και του ανθρώπου, μπορούν να κινήσουν τα μάτια τους. Χρησιμοποιούν μάλιστα αυτή την ικανότητα για να πάρουν λεπτομερή δείγματα των πιο σημαντικών χαρακτηριστικών μια σκηνής, τη στιγμή που σπαταλούν περιορισμένους επεξεργαστικούς πόρους σε οτιδήποτε άλλο. Η περίοπτη θέση ενός στοιχείου [17], είτε πρόκειται για ένα αντικείμενο, ένα πρόσωπο, ένα pixel κτλ., είναι η κατάσταση ή ποιότητα, με την οποία ξεχωρίζει σε σχέση με τους γείτονες του. Η ικανότητα ανίχνευσης προεξεχόντων στοιχείων, θεωρείται βασικός μηχανισμός προσοχής ο οποίος διευκολύνει τη μάθηση και την επιβίωση, επιτρέποντας στους οργανισμούς να εστιάσουν την περιορισμένη αντίληψη τους και τους γνωστικούς πόρους στα πιο σχετικά υποσύνολα των διαθέσιμων αισθητικών δεδομένων. Η προεξοχή ενός σημείου προκύπτει συνήθως από τις αντιθέσεις μεταξύ των στοιχείων και της γειτονιάς τους, όπως μια κόκκινη κουκκίδα που περιβάλλεται από λευκές τελείες, μια ένδειξη μηνύματος ενός τηλεφωνητή που τρεμοπαίζει, ή ένα δυνατό θόρυβο σε ένα κατά τα άλλα ήσυχο περιβάλλον. Ο συγκεκριμένος μηχανισμός συχνά μελετάται στο πλαίσιο του οπτικού συστήματος, αλλά παρόμοιοι μηχανισμοί λειτουργούν και σε άλλα αισθητήρια συστήματα. Όταν η ανάπτυξη προσοχής οδηγείται από εξέχοντα ερεθίσματα, θεωρείται ότι είναι από κάτω προς τα πάνω και χωρίς μνήμη. Η ανάπτυξη της προσοχής μπορεί επίσης να καθοδηγείται από 34

36 πάνω προς τα κάτω, η οποία εξαρτάται από τη μνήμη, τους προληπτικούς μηχανισμούς, όπως για παράδειγμα κοιτάζοντας μπροστά από κινούμενα αντικείμενα. Οι άνθρωποι και άλλα ζώα έχουν δυσκολία στο να δίνουν προσοχή σε περισσότερα από ένα αντικείμενα ταυτόχρονα, έτσι βρίσκονται αντιμέτωποι με την πρόκληση του να εντάσσουν και να δίνουν συνεχώς προτεραιότητα σε διαφορετικές επιδράσεις του περιβάλλοντος. Τα προεξέχοντα αντικείμενα θεωρούνται το αποτέλεσμα της αλληλεπίδρασης ενός ερεθίσματος με άλλα ερεθίσματα και με το οπτικό (βιολογικό ή τεχνητό) σύστημα. Ως απλό παράδειγμα, ένας άνθρωπος με αχρωματοψία θα έχει μια εντελώς διαφορετική εμπειρία της οπτικής αυτής ικανότητας, από ένα άτομο με φυσιολογική αντίληψη των χρωμάτων, ακόμα και αν κοιτούν ακριβώς την ίδια φυσική σκηνή. Σχήμα 1.25 Παραδείγματα αντικειμένων που προεξέχουν από τα υπόλοιπα Η ουσία της περίοπτης θέσης των αντικειμένων βρίσκεται στην ενίσχυση της νευρικής και αντιληπτικής αναπαράστασης των χώρων στους οποίους τα τοπικά οπτικά χαρακτηριστικά διαφέρουν σημαντικά από τα γενικά που υπάρχουν γύρω από την εικόνα με κάποιο συναφή τρόπο. Τα προεξέχοντα αντικείμενα έχουν γίνει θέμα του πρόσφατου τεχνολογικού ενδιαφέροντος. Στην πραγματικότητα, μέχρι πρόσφατα οι περισσότεροι αλγόριθμοι υπολογιστικής όρασης είχαν στηριχθεί στην συστηματική σάρωση των εικόνων από αριστερά προς τα δεξιά και από πάνω προς τα κάτω στην προσπάθεια εντοπισμού αντικειμένων ενδιαφέροντος. Το συγκεκριμένο επιστημονικό πεδίο παρέχει ένα σχετικά φθηνό και γρήγορο μηχανισμό για την επιλογή μερικών υποψήφιων στοιχείων και εξάλειψη άλλων. Στο σημείο αυτό θα γίνει αναφορά στις τεχνολογικές εφαρμογές στις οποίες παρατηρείται η ιδιότητα των προεξεχόντων αντικειμένων. Αυτόματος εντοπισμός στόχου, για στρατιωτικά οχήματα. Ρομποτική, ορίζοντας τα σημαντικότερα αντικείμενα του περιβάλλοντος για ασφαλή πλοήγηση. Συμπίεση εικόνας & βίντεο, δίνοντας υψηλότερη ποιότητα σε σημαντικότερα αντικείμενα. Αυτόματη περικοπή, κεντράρισμα της εικόνας για προβολή σε μικρές φορητές οθόνες. Εύρεση όγκων σε μαστογραφίες. 35

37 ΚΕΦΑΛΑΙΟ ΜΕΘΟΔΟΙ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΕΙΚΟΝΑΣ Εξαγωγή χαρακτηριστικών [18] σε μια εικόνα, ονομάζεται η διαδικασία εντοπισμού ενός σημαντικού τμήματος, χαρακτηριστικού αυτής της εικόνας. Με άλλα λόγια, εξαγωγή χαρακτηριστικών ορίζεται ως ο εντοπισμός των εικονοστοιχείων (pixels) σε μια εικόνα, τα οποία έχουν κάποια χαρακτηριστικά γνωρίσματα. Συνήθως τέτοιο γνώρισμα θεωρείται κάποια ανομοιογένεια των τοπικών ιδιοτήτων της εικόνας. Για παράδειγμα οι ακμές θεωρούνται ανομοιογένειες της έντασης ή της κλίμακας μιας εικόνας. Γενικότερα για αυτή τη μέθοδο μπορεί να ειπωθεί ότι χρησιμοποιείται όταν τα δεδομένα εισόδου σε έναν αλγόριθμο είναι πάρα πολλά για να υποβληθούν σε επεξεργασία και υπάρχουν υπόνοιες ότι είναι εμφανώς περιττά, δηλαδή πολλά δεδομένα αλλά όχι αρκετή πληροφορία, τότε τα δεδομένα εισόδου θα πρέπει να μετατραπούν σε μια μειωμένη αναπαράσταση του συνόλου των χαρακτηριστικών. Αυτή λοιπόν η μετατροπή των δεδομένων εισόδου στο σύνολο των χαρακτηριστικών ονομάζεται εξαγωγή χαρακτηριστικών. Παρακάτω θα γίνει παρουσίαση των σημαντικότερων μεθόδων που χρησιμοποιούνται για την εξαγωγή τέτοιων χαρακτηριστικών. Αύτη η παρουσίαση έχει σαν στόχο την βήμα προς βήμα παρακολούθηση των συγκεκριμένων ενεργειών που έγιναν κατά την υλοποίηση της τελικής εφαρμογής. Επίσης θα γίνουν κατανοητές ομοιότητες αλλά και διαφορές μεταξύ των σημαντικότερων τέτοιων μεθόδων που έχουν επικρατήσει στην επιστημονική κοινότητα. Σχήμα 2.1 Ανίχνευση Χαρακτηριστικών Χαμηλού Επιπέδου Μετασχηματισμός κλιμακωτά αναλλοίωτων χαρακτηριστικών (SIFT) Ο μετασχηματισμός χαρακτηριστικών αναλλοίωτων σε κλιμάκωση [19], είναι ένας αλγόριθμος της τεχνητής όρασης για τον εντοπισμό και την περιγραφή τοπικών χαρακτηριστικών σε εικόνες. Ο αλγόριθμος δόθηκε στη δημοσιότητα το 1999 από τον David Lowe και έχει κατοχυρωμένο δίπλωμα ευρεσιτεχνίας στις ΗΠΑ υπό την 36

38 ιδιοκτησία του Πανεπιστημίου της Βρετανικής Κολούμπια, παρέχεται όμως για χρήση σε συστήματα ερευνητικού περιεχομένου. Οι εφαρμογές που έχει χρησιμοποιηθεί ο αλγόριθμος είναι η αναγνώριση αντικείμενων, η παραγωγή χαρτών και πλοήγησης ρομπότ, η επεξεργασία εικόνων, η παραγωγή τρισδιάστατων μοντέλων, η αναγνώριση χειρονομιών, η ανίχνευση αντικείμενων σε βίντεο και η χρήση εφέ σε βίντεο Επισκόπηση της μεθόδου Για κάθε αντικείμενο στην εικόνα, μπορούν να εξαχθούν σημεία ενδιαφέροντος, που παρέχουν τη λεγόμενη περιγραφή χαρακτηριστικού (feature description). Αυτή η περιγραφή η οποία προέρχεται από μια εικόνα εκπαίδευσης (training), μπορεί στη συνέχεια να χρησιμοποιηθεί για τον εντοπισμό του αντικειμένου, σε μια δοκιμαστική εικόνα η οποία περιέχει πολλά άλλα αντικείμενα. Για να εκτελεστεί μια αξιόπιστη αναγνώριση, είναι σημαντικό τα χαρακτηριστικά που εξάγονται από την εικόνα εκπαίδευσης να ανιχνεύονται ακόμα και μετά από αλλαγές στην κλίμακα της εικόνας, του θορύβου και του φωτισμού. Αυτά τα σημεία βρίσκονται συνήθως σε περιοχές με μεγάλες αντιθέσεις μέσα στην εικόνα, τις λεγόμενες ακμές. Μια άλλη σημαντική ιδιότητα αυτών των χαρακτηριστικών είναι ότι οι σχετικές θέσεις μεταξύ τους στην αρχική σκηνή δεν πρέπει να αλλάζουν από τη μια εικόνα στην άλλη. Ωστόσο στην πράξη ο αλγόριθμος εντοπίζει και χρησιμοποιεί ένα πολύ μεγαλύτερο αριθμό χαρακτηριστικών από τις εικόνες, μειώνοντας έτσι τη συμβολή των σφαλμάτων που προκαλούνται από τις τοπικές διακυμάνσεις του μέσου σφάλματος από όλα τα λάθη ταιριάσματος στα χαρακτηριστικά. Η πατενταρισμένη μέθοδος του Lowe μπορεί να προσδιορίσει με αυστηρότητα, αντικείμενα τα οποία βρίσκονται ακόμη και ανακατεμένα ή υπό την επίδραση μερικών αλλαγών. Αυτό συμβαίνει διότι οι περιγραφείς που εξάγει ο αλγόριθμος παραμένουν αναλλοίωτοι σε ενιαία κλίμακα, προσανατολισμό και κατά κάποιο τρόπο αμετάβλητοι σε συσχετισμένες στρεβλώσεις και αλλαγές φωτισμού Η Μέθοδος του David Lowe Τα κύρια σημεία των αντικειμένων αρχικά εξάγονται από ένα σύνολο εικόνων αναφοράς και αποθηκεύονται σε μια βάση δεδομένων. Ένα αντικείμενο αναγνωρίζεται σε μια καινούργια εικόνα συγκρίνοντας ατομικά κάθε στοιχείο από τη νέα εικόνα με αυτό από τη βάση δεδομένων, βρίσκοντας υποψήφια χαρακτηριστικά τα οποία ταιριάζουν βασισμένα στην Ευκλείδεια απόσταση από τα διανύσματα των χαρακτηριστικών της εικόνας. Στη συνέχεια από το σύνολο των στοιχείων που ταιριάζουν, τα υποσύνολα των κύριων σημείων που συμφωνούν με το αντικείμενο και τη θέση του, την κλίμακα και τον προσανατολισμό στη νέα εικόνα, εντοπίζονται και φιλτράρονται. Ο προσδιορισμός των σταθερών συμπλεγμάτων γίνεται γρήγορα μια αποτελεσματική εφαρμογή του πίνακα κατακερματισμού (hash table) του γενικευμένου μετασχηματισμού Hough. Κάθε σύμπλεγμα των τριών ή περισσοτέρων χαρακτηριστικών τα οποία συμφωνούν σε ένα αντικείμενο στη συνέχεια υπόκεινται σε περαιτέρω λεπτομερή έλεγχο και στη συνέχεια οι ακραίες τιμές απορρίπτονται. Τέλος, με δεδομένη την ακρίβεια του ταιριάσματος και τον αριθμό των πιθανών εσφαλμένων ταιριασμάτων, υπολογίζεται η πιθανότητα ένα συγκεκριμένο σύνολο χαρακτηριστικών να υποδηλώνει την παρουσία ενός αντικειμένου. Ταιριάσματα 37

39 μεταξύ των αντικειμένων που έχουν περάσει όλα τα παραπάνω στάδια, μπορούν να αναγνωριστούν ως ορθά με μεγάλη αξιοπιστία Βασικά στάδια Ανίχνευση αμετάβλητων σε κλίμακα χαρακτηριστικών Η μέθοδος του Lowe για την παραγωγή χαρακτηριστικών εικόνας μετατρέπει την εικόνα σε μια μεγάλη συλλογή από διανύσματα χαρακτηριστικών γνωρισμάτων κάθε ένα από τα οποία είναι αναλλοίωτα στη μετατόπιση, στην κλιμάκωση, στην περιστροφή, εν μέρει αμετάβλητα στις αλλαγές φωτισμού και ανθεκτικά στις τοπικές γεωμετρικές παραμορφώσεις. Τα χαρακτηριστικά αυτά έχουν παρόμοιες ιδιότητες με τους νευρώνες στο κάτω κροταφικό φλοιό που χρησιμοποιούνται για την αναγνώριση αντικειμένων στην πρωτεύουσα όραση. Οι βασικές περιοχές ορίζονται ως μέγιστες και ελάχιστες τιμές της Gaussian συνάρτησης και εφαρμόζονται στην κλίμακα χώρου σε μια σειρά από εικόνες που εξομαλύνθηκαν και έγινε ξανά η δειγματοληψία τους. Υποψήφια σημεία χαμηλής αντίθεσης και σημεία απόκρισης από άκρη σε άκρη απορρίπτονται. Οι κυρίαρχες κατευθύνσεις ανατίθενται σε εντοπισμένα κύρια σημεία (keypoints). Αυτά τα βήματα διασφαλίζουν ότι τα κύρια σημεία είναι πιο σταθερά για αντιστοίχιση και αναγνώριση. Οι SIFT περιγραφείς ανθεκτικοί στις τοπικά συσχετισμένες στρεβλώσεις προκύπτουν λαμβάνοντας υπόψη τα pixels γύρω από την ακτίνα μιας σημαντικής θέσης, θολώνοντας και παίρνοντας δείγματα των τοπικών επιπέδων προσανατολισμού της εικόνας. Η συνάρτηση της Gaussian διαφοράς είναι η εξής: 2 2, y, k G x, y, k 1 G G x (2.1) Όπου (k-1) θεωρείται μια σταθερά και μπορεί να παραληφθεί. Σχήμα 2.2 Αναπαράσταση συνέλιξης & αφαίρεσης κάθε οκτάβας για τη δημιουργία της Gaussian διαφοράς 38

40 Κάθε pixel στην Gaussian διαφορά συγκρίνεται με τα γειτονικά pixels. Ένα pixel επιλέγεται μόνο αν είναι πιο σκούρο ή πιο φωτεινό από όλα τα γειτονικά του pixel. Δεν είναι όλα τα ακρότατα χρήσιμα στην κλίμακα του χώρου. Ειδικά σημεία με χαμηλή αντίθεση είναι πολύ ευαίσθητα στο θόρυβο και δεν πρέπει να χρησιμοποιούνται. Η Gaussian διαφορά είναι πολύ ευαίσθητη στις ακμές ακόμη και αν η θέση του σημείου κατά μήκος της ακμής είναι ανεπαρκώς εντοπισμένη. Σχήμα 2.3 Ο υπολογισμός του μεγίστου και ελαχίστου της Gaussian διαφοράς σε ένα pixel Η παρακάτω εικόνα απεικονίζει τα στάδια επιλογής των σημείων κλειδιών σε μια εικόνα. Συγκεκριμένα στο παράθυρο (a), φαίνεται η 233x189 pixel πρωτότυπη εικόνα. (b) Οι αρχικές τοποθεσίες των 832 σημείων κλειδιών, στα μέγιστα και ελάχιστα της Gaussian διαφοράς. Τα σημεία κλειδιά εμφανίζονται ως διανύσματα υποδεικνύοντας την κλιμάκωση, τον προσανατολισμό και την τοποθεσία. (c) Μετά την εφαρμογή ενός κατωφλίου ελάχιστης αντίθεσης, παραμένουν 729 σημεία κλειδιά. (d) Τα τελικά 536 σημεία κλειδιά τα οποία παραμένουν, αφού έχουν υποστεί την εφαρμογή ενός επιπλέον κατωφλίου που υπολογίζει το λόγο των κύριων καμπυλοτήτων. Σχήμα 2.4 Τα αποτελέσματα της επιλογής σημείων κλειδιών σε μια εικόνα Στην επιστήμη των υπολογιστών ένα δένδρο k-d θεωρείται μια δομή δεδομένων η οποία διαχωρίζει χωρικά και χρησιμοποιείται για την οργάνωση των σημείων σε ένα k-διάστατο χώρο. Τα k-d δένδρα είναι μια ειδική περίπτωση των δυαδικών δένδρων 39

41 διαχωρισμού του χώρου. Όπως θα δούμε παρακάτω, θεωρούνται μια χρήσιμη δομή δεδομένων για διάφορες εφαρμογές. Best Bin First (BBF) είναι ένας αλγόριθμος αναζήτησης ο οποίος έχει σχεδιαστεί για να βρίσκει αποτελεσματικά μια κατά προσέγγιση λύση στο πρόβλημα της αναζήτησης του κοντινότερου γείτονα για χώρους με πολύ μεγάλες διαστάσεις. Ο αλγόριθμος βασίζεται σε μια παραλλαγή του k-d δένδρου αναζήτησης ο οποίος επιτρέπει τη δημιουργία ευρετηρίου υψηλότερων χωρικών διαστάσεων. Αντιστοίχηση χαρακτηριστικών και προσθήκη σε ευρετήριο Η προσθήκη στο ευρετήριο αποτελείται από αποθήκευση SIFT χαρακτηριστικών και τον εντοπισμό όσων ταιριάζουν με αυτά της νέας εικόνας. Ο Lowe χρησιμοποίησε μια τροποποιημένη μορφή του k-d δένδρου [20] που ονομάζεται Best-bin-first μέθοδος αναζήτησης [21] η οποία μπορεί να εντοπίσει την πλησιέστερη γειτονιά (nearest neighbor) με υψηλή πιθανότητα, χρησιμοποιώντας μόνο ένα περιορισμένο ποσοστό υπολογιστικής ισχύς. Η παραπάνω μέθοδος αναζήτησης χρησιμοποιεί μια μορφοποιημένη ταξινόμηση του αλγορίθμου k-d δένδρου έτσι ώστε η θέση αποθήκευσης των χαρακτηριστικών να αναζητάται με βάση την πλησιέστερη θέση τους από το αρχικό σημείο ενδιαφέροντος. Αυτή η σειρά αναζήτησης απαιτεί τη χρήση ενός σωρού βασισμένου στην ουρά προτεραιότητας για την αποτελεσματική αναζήτηση. Η καλύτερη αντιστοίχιση για κάθε χαρακτηριστικό βρίσκεται εντοπίζοντας την κοντινότερη γειτονιά του στη βάση δεδομένων των χαρακτηριστικών από τις εικόνες που εκπαιδεύονται. Ως κοντινότερες γειτονιές ορίζονται τα κύρια σημεία με ελάχιστη Ευκλείδεια απόσταση από το δοσμένο διάνυσμα περιγραφέα. Η πιθανότητα ότι μια αντιστοίχιση είναι σωστή μπορεί να καθοριστεί λαμβάνοντας υπόψη την αναλογία της απόστασης από το πλησιέστερο γείτονα, με την απόσταση από το δεύτερο κοντινότερο γείτονα. Η υλοποίηση του Lowe απορρίπτει όλες τις πιθανές αντιστοιχίες των οποίων η αναλογία είναι μεγαλύτερη από 0.8. Με αυτό τον τρόπο εξαλείφεται το 90% των λανθασμένων αντιστοιχιών ενώ παράλληλα απορρίπτεται μονάχα το 5% των σωστών. Για την επιπλέον βελτίωση της αποτελεσματικότητας του αλγορίθμου, η αναζήτηση διακόπτεται μετά τον έλεγχο των πρώτων 200 υποψήφιων πλησιέστερων γειτόνων. Έτσι για παράδειγμα, για μια βάση δεδομένων σημείων με τη συγκεκριμένη υλοποίηση επιταχύνεται η αναζήτηση του πλησιέστερου γειτονικού pixel κατά δυο τάξεις μεγέθους, με απώλειες σωστών αντιστοιχίσεων λιγότερες από 5%. Στο παρακάτω σχήμα, φαίνονται τα σημεία ενδιαφέροντος τα οποία ανιχνεύονται από δυο διαφορετικές εικόνες της ίδιας σκηνής, με τα υπολογισμένα ταιριάσματα της εικόνας να ζωγραφίζονται με μαύρες γραμμές μεταξύ των αντίστοιχων σημείων ενδιαφέροντος. Τα μπλε και τα κόκκινα βέλη στο κέντρο των κύκλων, δείχνουν τον εκτιμώμενο προσανατολισμό, ο οποίος έχει αποκτηθεί από τις τοπικές κορυφές του ιστογράμματος προσανατολισμού γύρω από τα σημεία ενδιαφέροντος. 40

42 Σχήμα 2.5 Παράδειγμα αντιστοίχισης SIFT χαρακτηριστικών Εκχώρηση Προσανατολισμού Για την επίτευξη της αμεταβλητότητας στην περιστροφή της εικόνας, σε κάθε σημείο κλειδί ανατίθενται μια ή περισσότερες κατευθύνσεις. Ένα ιστόγραμμα προσανατολισμού σχηματίζεται από τους προσανατολισμούς κλίσης των pixels γύρω από ένα σημείο κλειδί. Κάθε δείγμα σταθμίζεται από το μέγεθος της κλίσης και ένα Gaussian παράθυρο. Το μέγιστο αυτό του ιστογράμματος και οποιοδήποτε άλλο τοπικό μέγιστο στο πλαίσιο του 80%, χρησιμοποιείται για την παραγωγή ενός σημείου κλειδιού. Για να αυξηθεί η ακρίβεια των τοπικών ιστογραμμάτων χρησιμοποιείται τριγραμμική παρεμβολή για τη διανομή των σταθμισμένων προσαυξήσεων για τις μετρήσεις του δείγματος εικόνας σε διπλανούς χώρους ιστογράμματος. Με άλλα λόγια κάθε καταχώρηση στο χώρο αυτό πολλαπλασιάζεται με ένα επιπλέον βάρος 1 - d, όπου d είναι η απόσταση του δείγματος και της κεντρικής θέσης του κάδου, εκφρασμένο σε μονάδες απόστασης στο ιστόγραμμα. Στο παρακάτω σχήμα απεικονίζεται το πώς οι SIFT περιγραφείς υπολογίζονται από την δειγματοληψία τιμών του προσανατολισμού της κλίσης και το μέγεθος της, πάνω σε τοπικά προσαρμοσμένο πλέγμα γύρω από κάθε σημείο ενδιαφέροντος. Το σχήμα αυτό δείχνει τον περιγραφέα που υπολογίστηκε σε μια περιοχή 2x2 ενώ συνήθως ο SIFT περιγραφέας υπολογίζεται για περιοχές μεγέθους 4x4. Σχήμα 2.6 Παράδειγμα υπολογισμού SIFT περιγραφέων (descriptors) σε περιοχή 2x2 41

43 Συνοψίζοντας, πρέπει να αναφερθεί ότι ο αλγόριθμος αυτός ενδείκνυται για αναγνώριση αντικειμένων, εκτελώντας το ταίριασμα ανάμεσα σε κάθε σημείο κλειδί με μια βάση δεδομένων από γνωστά σημεία κλειδιά που έχουν εξαχθεί από διαφορετικές εικόνες. Παρόλα αυτά ο κλασσικός τρόπος ταιριάσματος με τη χρήση του αλγόριθμου κοντινότερων γειτονιών, μπορεί να παράγει ζεύγη τα οποία δεν είναι σωστά, κάτι το οποίο οφείλεται σε ασαφή χαρακτηριστικά ή σε χαρακτηριστικά που παράγονται από το περιβάλλον της εικόνας και όχι από το κυρίαρχο αντικείμενο της σκηνής. Για το λόγο αυτό για την υλοποίηση της τελικής εφαρμογής για την αυτόματη αναγνώριση αντικειμένων εικόνας, χρησιμοποιήθηκε ο μετασχηματισμός κλιμακωτά αναλλοίωτων χαρακτηριστικών αφού πρώτα έχει γίνει η επεξεργασία των εικόνων με τη μέθοδο εξαγωγής χαρακτηριστικών που αναπτύχθηκε παραπάνω Ανιχνευτής τοπικών χαρακτηριστικών SURF Ο ανιχνευτής τοπικών χαρακτηριστικών SURF (Speeded up Robust Feature)[22] [23] θεωρείται ένας εύρωστος ανιχνευτής τοπικών χαρακτηριστικών, ο οποίος παρουσιάστηκε για πρώτη φορά από τον Herbert Bay το 2006 στο ECCV 2006 συνέδριο στο Graz της Αυστρίας. Ο συγκεκριμένος ανιχνευτής μπορεί να χρησιμοποιηθεί σε διάφορες εργασίες της τεχνητής όρασης, όπως η αναγνώριση αντικειμένων ή η ανακατασκευή τριών διαστάσεων. Είναι κατά ένα μέρος εμπνευσμένος από τον SIFT περιγραφέα, παρόλα αυτά η βασική έκδοση του SURF είναι πολλές φορές γρηγορότερη από τη μέθοδο του SIFT και θεωρείται από τους δημιουργούς του, ότι είναι πιο ανθεκτικός στις διάφορες μεταμορφώσεις της εικόνας από ότι ο SIFT. Η εφαρμογή του αλγορίθμου είναι κατοχυρωμένη με δίπλωμα ευρεσιτεχνίας στις ΗΠΑ. Γενικά θεωρείται ότι ο SURF βασίζεται στο ποσό των αποκρίσεων των 2D κυματιδίων Haar και κάνει αποτελεσματική χρήση των ενσωματωμένων εικόνων Επισκόπηση της μεθόδου Οι αντιστοιχίες σημείων ενδιαφέροντος είναι θεμελιώδους σημασίας για πολλές εφαρμογές της τεχνητής όρασης, όπως η βαθμονόμηση κάμερας, η καταγραφή εικόνας, η αναγνώριση και ο χαρακτηρισμός αντικειμένων, η ανάκτηση εικόνας βάσει περιεχομένου. Πολύ συχνά ο χρόνος που απαιτείται για την επεξεργασία είναι κρίσιμο ζήτημα. Αυτό συμβαίνει είτε επειδή υπάρχουν περιορισμοί πραγματικού χρόνου είτε επειδή πρέπει να αντιμετωπιστούν τεράστιες ποσότητες δεδομένων. Ως εκ τούτου αναπτύχθηκε αυτό το σύστημα ανίχνευσης σημείων ενδιαφέροντος, το οποίο είναι γρήγορο και αποδοτικό, σεβόμενο ταυτόχρονα την ταυτοποίηση, την περιγραφή και την αντιστοίχιση των σημείων ενδιαφέροντος. Το σκεπτικό πίσω από την προσέγγιση αυτή, βασίστηκε στην επιτυχία του SIFT, ο οποίος αποδείχθηκε εκπληκτικά εύρωστος κατά το μετασχηματισμό της εικόνας. Σε σύγκριση με τις συσχετισμένες περιοχές, η μείωση της πολυπλοκότητας φαίνεται να αντισταθμίζει τη θεωρητική εξειδίκευση. Η αναζήτηση για διακριτά σημεία αντιστοιχίας στην εικόνα μπορεί να διαιρεθεί σε τρία βασικά στάδια. Πρώτα τα σημεία ενδιαφέροντος επιλέγονται σε διακριτές τοποθεσίες της εικόνας, όπως οι γωνίες. Το σημαντικότερο στοιχείο ενός ανιχνευτή σημείων ενδιαφέροντος, θεωρείται η επαναληψιμότητα. Η επαναληψιμότητα εκφράζει την αξιοπιστία του 42

44 ανιχνευτή για την εύρεση των ιδίων σημείων ενδιαφέροντος κάτω από διαφορετικές συνθήκες. Στη συνέχεια, η γειτονιά κάθε σημείου ενδιαφέροντος αντιπροσωπεύεται από ένα διάνυσμα χαρακτηριστικών. Ο περιγραφέας πρέπει να είναι ταυτόχρονα διακριτός και ισχυρός απέναντι στο θόρυβο, στις μετατοπίσεις ανίχνευσης και γεωμετρικές αλλά και φωτομετρικές παραμορφώσεις. Τέλος τα διανύσματα των περιγραφέων δοκιμάζονται αν ταιριάζουν μεταξύ διαφορετικών εικόνων. Η αντιστοίχιση βασίζεται σε μια απόσταση μεταξύ των διανυσμάτων, για παράδειγμα Mahalanobis ή Ευκλείδεια απόσταση. Η διάσταση του περιγραφέα έχει άμεσες επιπτώσεις στον απαιτούμενο χρόνο. Έτσι για τη γρήγορη αντιστοίχιση μεταξύ σημείων ενδιαφέροντος είναι επιθυμητές μικρότερες διαστάσεις. Ωστόσο η μείωση στις διαστάσεις των διανυσμάτων προσφέρει μικρότερο διακριτό χαρακτήρα από ότι προσφέρουν οι μεγαλύτερες διαστάσεις των διανυσμάτων Βασικά στάδια Ανίχνευση σημείων ενδιαφέροντος Η προσέγγιση του SURF για την ανίχνευση σημείων ενδιαφέροντος χρησιμοποιεί μια πολύ βασική προσέγγιση του Εσσιανού πίνακα (Hessian matrix). Αυτή προσφέρεται για τη χρήση αναπόσπαστων εικόνων, μειώνοντας δραστικά το χρόνο υπολογισμού που απαιτείται. Στο βήμα της ανίχνευσης, για την επιλογή των υποψήφιων σημείων ενδιαφέροντος υπολογίζονται τα τοπικά μέγιστα του Εσσιανού πίνακα. Τα υποψήφια αυτά σημεία, θα επικυρωθούν αν η απάντηση είναι πάνω από ένα ορισμένο όριο. Τόσο η κλίμακα όσο και η θέση αυτών των υποψηφίων, στη συνέχεια εκκαθαρίζονται χρησιμοποιώντας μια επαναλαμβανόμενη διαδικασία για να ταιριάξει μια τετραγωνική συνάρτηση. Συνήθως σε μια ψηφιακή εικόνα της τάξης του ενός Mega- Pixel ανιχνεύονται λίγες εκατοντάδες από σημεία ενδιαφέροντος. Η διαδικασία ανίχνευσης σημείων ενδιαφέροντος περιλαμβάνει τρία βήματα: i.ανίχνευση χαρακτηριστικών: Όπως υποστηρίζεται, τα αμετάβλητα σε κλίμακα χαρακτηριστικά μπορούν να ανιχνευτούν χρησιμοποιώντας κλιμακωτά κανονικοποιημένη δεύτερου βαθμού παράγωγο στη χωρική κλίμακα αναπαράστασης της δοσμένης εικόνας. Αυτά τα χαρακτηριστικά αντιστοιχούν σε άκρες ή γωνίες. Σε αντίθεση με τον SIFT, στον οποίο ο Lowe προσεγγίζει τον κανονικοποιημένο Laplace με τη Gaussian διαφορά, ο SURF προσεγγίζει τον παράγοντα της Hessian κλίμακας ως εξής: 43

45 Τύπος του παράγοντα DoH DoH ~ ( ) ~ 4 D 4 ~ ( u) : det( H ( ) ~ D u 4 ~ ( D * u) : ~ u) ( D ~ D * u ( r( ) 4 xx yy xx xy yy * u ~ u) ( r( ) D 4 2 xy u) 2 (2.2) Ακολουθεί ένα παράδειγμα μιας εικόνας στην οποία έχει εφαρμοστεί ο παράγοντας DoH με l=33 δηλαδή σ = Σχήμα 2.7 Η Lena κατά την εφαρμογή της ακριβής προσέγγισης του DoH παράγοντα ii.επιλογή χαρακτηριστικών: Ως σημεία ενδιαφέροντος ορίζονται τα σημεία της κλίμακας του χώρου τα οποία αλλοιώνονται στον ίδιο βαθμό κατά τη διάρκεια μιας ενδεχόμενης μετατροπής ομοιότητας και αντιστοιχούν σε τοπικά μέγιστα του εν λόγω παράγοντα DoH, ο οποίος εφαρμόζεται στην κλίμακα αναπαράστασης της εικόνας. Αυτά τα σημεία επιλέγονται εξετάζοντας μια 3x3x3 γειτονιά, και εκτελώντας μια εξαντλητική σύγκριση του κάθε σημείου της κλίμακας με τους 26 πλησιέστερους γείτονες. Ο αλγόριθμος, για να αποκτήσει μια συμπαγή αναπαράσταση της εικόνας αλλά και για να αντιμετωπίσει το θόρυβο, επιλέγει τα πλέον εξέχοντα σημεία από το σύνολο των τοπικών μεγίστων. Αυτό επιτυγχάνεται με τη χρήση ενός ορίου (threshold th) στην απόκριση του DoH παράγοντα, για κάθε ένα σημείο ενδιαφέροντος (x,y) σε κλίμακα σ. Το όριο για την επιλογή χαρακτηριστικών στον SURF ~ ( ) DoH ( u)( x, y) t H (2.3) Παρακάτω φαίνεται το σύνολο το σημείων ενδιαφέροντος, τα οποία εντοπίζονται ως μέγιστα στην τοπική κλίμακα χώρου του DoH παράγοντα και επιλέγονται μετά την εφαρμογή του ορίου. Οι ακτίνες των κύκλων αντιστοιχούν στην κλίμακα των σημείων ενδιαφέροντος. 44

46 Σχήμα 2.8 Επιλογή χαρακτηριστικών SURF συνολικά 757 σημεία ενδιαφέροντος iii. Βελτίωση θέσης στην κλίμακα του χώρου: Για κάθε τοπικό μέγιστο του παράγοντα DoH, ο εντοπισμός του αντίστοιχου σημείου ενδιαφέροντος M, με συντεταγμένες (x,y,σ) στην κλίμακα-χώρο, μπορεί να τελειοποιηθεί χρησιμοποιώντας μια παρεμβολή δεύτερης σειράς. Συγκεκριμένα βασίζεται σε μια τοποθέτηση σε κλίμακα χώρου με τον εξής τύπο: M ' M (2.4) where x y H 1 ~ ( ) ( ) DoH ( u)( x, y) DoH ~ ( u)( x, y) (2.5) Μπορεί να συμβεί το σημείο M να μην ανήκει στη γειτονιά του Μ. Για να αποφευχθεί αυτό το πρόβλημα, ακολουθώντας και τον SIFT, το σημείο Μ ενημερώνεται ως ο κοντινότερος γείτονας του Μ στην 3x3x3 γειτονιά και η διαδικασία βελτίωσης επαναλαμβάνεται με τον παραπάνω τύπο. Εάν συνολικά αυτή η διαδικασία επαναληφθεί περισσότερες από 5 φορές, το σημείο ενδιαφέροντος απορρίπτεται. Τελικά για κάθε σημείο ενδιαφέροντος, πέρα από τις συντεταγμένες του (x,y) και σ, υποθηκεύεται επίσης και το Laplacian πρόσημο για το στάδιο της αντιστοίχησης, προκειμένου να επιταχυνθεί η σύγκριση του SURF. Στην εικόνα που ακολουθεί φαίνεται η επιλογή των χαρακτηριστικών αφού έχει γίνει η βελτίωση που αναφέρθηκε παραπάνω. 45

47 Σχήμα 2.9 Επιλογή χαρακτηριστικών SURF, με βελτίωση, συνολικά 656 σημεία ενδιαφέροντος Τοπικοί Περιγραφείς Από την προηγούμενη φάση, λαμβάνεται μια σειρά από Ν σημεία ενδιαφέροντος στην κλίμακα-χώρου, τα οποία επιτρέπουν την κωδικοποίηση αμετάβλητων σε κλίμακα χαρακτηριστικών από μια εικόνα. Παρ όλα αυτά, πριν από την κατασκευή τέτοιων τοπικών περιγραφέων, προκειμένου να επιτευχθεί η πλήρης αμεταβλητότητα κατά την περιστροφή, πρέπει πρώτα να καθοριστεί για κάθε σημείο ενδιαφέροντος, ο κυρίαρχος προσανατολισμός, ακολουθώντας τη διαδικασία που περιγράφεται παρακάτω. i. Προσανατολισμός του σημείου ενδιαφέροντος: Όμοια με τον SIFT, ο τοπικός προσανατολισμός ενός χαρακτηριστικού σε κλίμακα υπολογίζεται από την τοπική εξάπλωση του προσανατολισμού της κλίσης. Ως εκ τούτου για κάθε σημείο ενδιαφέροντος M i, θεωρούμε ότι η γειτονιά, ορίζεται ως ο δίσκος ακτίνας με κέντρο (x i,y i ). Ο υπολογισμός της κλίσης σε αυτή την κλίμακα αυτής της γειτονιάς, επιτυγχάνεται με τη χρήση συνέλιξης με φίλτρα παραθύρου. Για να αποφεύγονται οι ανεπιθύμητες ενέργειες, όλα αυτά τα δείγματα κλίσης σταθμίζονται με τη χρήση ενός Gaussian πυρήνα μια τυπικής απόκλισης η οποία εξαρτάται από την Ευκλείδεια απόσταση του δείγματος από το σημείο ενδιαφέροντος. Σε αντίθεση με την προσέγγιση του SIFT στην οποία ένα ιστόγραμμα φτιάχνεται για να εκτιμηθεί ο κυρίαρχος προσανατολισμός, ο SURF αλγόριθμος υπολογίζει το μέγιστο της ακόλουθης συνάρτησης ανάλογα με τον προσανατολισμό θ. x ( ) y j j j( ) (2.6) J j,, x, y B x, y : j j j 6 i 6 6 i i (2.7) 46

48 Είναι το άθροισμα των κλίσεων από την εξεταζόμενη περιοχή που έχει περίπου τον προσανατολισμό θ. Για την εξοικονόμηση υπολογιστικού χρόνου, και για να υπάρχουν πάντα οι ίδιοι αριθμοί δειγμάτων, όπως υποστηρίζεται από τον αλγόριθμο, δεν επεξεργάζονται όλα τα pixels αλλά λαμβάνονται υπόψη μόνο δείγματα τα οποία απέχουν μεταξύ τους. Ένα παράδειγμα δίνεται στην ακόλουθη εικόνα, στην οποία οι κυρίαρχες κατευθύνσεις εκπροσωπούνται από ένα τμήμα. Σχήμα 2.10 Μερικά εντοπισμένα SURF χαρακτηριστικά μαζί με τις κυρίαρχες κατευθύνσεις τους ii. Κατασκευή τοπικών περιγραφέων: Ένας SURF περιγραφέας είναι ένα διάνυσμα 16x4 το οποίο αντιπροσωπεύει την κανονικοποιημένη στατιστική κλίση (μέση τιμή και απόλυτη τιμή) που εξάγεται από ένα χωροταξικό πλέγμα το οποίο χωρίζεται σε 4x4 κελιά. Για ένα δοσμένο σημείο ενδιαφέροντος (xi,yi,σi,θi), όπως φαίνεται παρακάτω, το αντίστοιχο τετραγωνικό πλέγμα είναι κεντραρισμένο στο (xi,yi), και ευθυγραμμίζεται στο θi με μέγεθος 20 σi. Σχήμα 2.11 Προσανατολισμένος SURF περιγραφέας Ο SURF περιγραφέας προέρχεται από τη συνένωση των 16 υπολογισμένων διανυσμάτων, για κάθε υποπεριοχή και την ομαλοποίηση του αντίστοιχου 64 διαστάσεων διανύσματος. Αυτό συμβαίνει έτσι ώστε η Ευκλείδεια νόρμα να είναι ενιαία καθιστώντας έτσι τον περιγραφέα αμετάβλητο σε συσχετισμένες αλλαγές αντίθεσης. 47

49 Αντιστοίχιση Χαρακτηριστικών Από τα προηγούμενα βήματα, ένα ζευγάρι εικόνων προς αντιστοίχιση, αντιπροσωπεύεται από δυο σημεία ενδιαφέροντος μαζί με τους αντίστοιχους SURF περιγραφείς. Το βήμα της αντιστοίχισης εδώ απλώς εκτελείται ως μια εξαντλητική σύγκριση αυτών των διανυσμάτων σε συνδυασμό με μια τεχνική κατωφλίωσης, τη λεγόμενη απόσταση αναλογίας του πλησιέστερου γείτονα (Nearest Neighbor Distance Ratio), η οποία προτάθηκε από τον SIFT και είναι λιγότερο εξαρτημένη από τη δυναμική της εικόνας σε σχέση με το όριο ταιριάσματος που προτείνει ο SURF. Άλλωστε για την επιτάχυνση της διαδικασίας αντιστοίχισης, συγκρίνονται το πρόσημο του Laplacian μεταξύ δυο σημείων ενδιαφέροντος. Υπολογίζεται η Ευκλείδεια απόσταση μεταξύ του περιγραφέα ερώτησης της πρώτης εικόνας και κάθε περιγραφέα της δεύτερης εικόνας. Μονάχα οι πιο κοντινοί και οι δεύτεροι πιο κοντινοί γείτονες λαμβάνονται υπόψη. Εάν η αναλογία αυτών των δυο αποστάσεων είναι κάτω από 0.8 η αντιστοίχιση μεταξύ του εικόνας-ερωτήματος και του κοντινότερου υποψήφιου γείτονα θεωρείται έγκυρη. Μια τέτοια κατωφλίωση επιτρέπει την απόρριψη πολλών λανθασμένων αντιστοιχιών SIFT εναντίον SURF Καθώς αυτές οι δυο υλοποιήσεις θεωρούνται οι πλέον γνωστές και επιτυχημένες στην επιστημονική κοινότητα, θεωρήθηκε σκόπιμο να παρουσιαστούν κάποια αποτελέσματα από την σύγκριση τους. Έτσι στην ενότητα αυτή θα γίνει λόγος για τις διαφορές των δυο αλγορίθμων που αναπτύχθηκαν παραπάνω, μέσω παραδειγμάτων θα παρουσιαστούν τα πλεονεκτήματα του καθενός. Οι δυο αυτοί αλγόριθμοι χρησιμοποιούν ελαφρώς διαφορετικούς τρόπους για την ανίχνευση χαρακτηριστικών. Ο SIFT κατασκευάζει μια πυραμίδα εικόνας, φιλτράροντας κάθε στρώμα με αυξανόμενες τιμές του σίγμα (σ) και παίρνει τη διαφορά. Αντίθετα, ο SURF δημιουργεί μια στοίβα με 2:1 μείωση της δειγματοληψίας για τα υψηλότερα επίπεδα της δειγματοληψίας, με αποτέλεσμα εικόνες ίδιας ανάλυσης. Λόγω της χρήσης των αναπόσπαστων εικόνων, o SURF φιλτράρει τη στοίβα χρησιμοποιώντας ένα πλαίσιο προσέγγισης της δεύτερης τάξης του Gaussian, δεδομένου ότι οι αναπόσπαστες εικόνες επιτρέπουν τον υπολογισμό των ορθογώνιων φίλτρων πλαισίου σε συνεχή χρόνο. Ο αλγόριθμος SURF βασίζεται στις έννοιες του SIFT αλλά εισάγει πιο ριζοσπαστικές προσεγγίσεις προκειμένου να επιταχύνει τη διαδικασία ανίχνευσης. Λόγω της χρήσης των αναπόσπαστων εικόνων, η πολυπλοκότητα του SURF μειώνεται σημαντικά, όμως συχνά επιτυγχάνει μεγαλύτερη απόδοση από τον προκάτοχο του. Αντί του Laplacian, ο SURF χρησιμοποιεί τον Hessian προσδιοριστικό παράγοντα για την ανίχνευση χαρακτηριστικών στην κλίμακα του χώρου. Ο SIFT περιγραφέας κατασκευάζεται από μια τετράγωνη γειτονιά μήκους 12 pixels, όπου είναι η κλίμακα του χαρακτηριστικού. Αυτή η γειτονιά είναι ευθυγραμμισμένη με την κυρίαρχη τοπική κατεύθυνση κλίσης. Για κάθε μια από τις 16 υπό-περιοχές 48

50 δημιουργείται ένα σταθμισμένο ιστόγραμμα κλίσεων. Λόγω της προσαρμοστικής σε κλίμακα και περιστροφή δημιουργικής διαδικασίας, οι SIFT περιγραφείς είναι ως επί το πλείστον αμετάβλητες σε μέτριους γεωμετρικούς μετασχηματισμούς. Ο SURF χρησιμοποιεί μια διάταξη περιγραφέα, η οποία επίσης βασίζεται σε μια τετράγωνη περιοχή γύρω από το χαρακτηριστικό σημείο, το οποίο είναι ευθυγραμμισμένο με την κυρίαρχη κλίση και υποδιαιρείται σε 16 υπό-περιοχές. Οι μοναδικές διαφορές είναι ότι η γειτονιά που επιλέγεται έχει πλάτος 20 pixels και ότι κάθε υπό-περιοχή συμβάλλει μόνο με 4 εγγραφές περιγραφέων. Αντί του ιστογράμματος τιμών, χρησιμοποιείται το άθροισμα και το απόλυτο ποσό της κλίσης των x και y συστατικών. Συνολικά ο SURF περιγραφέας περιλαμβάνει 64 συμμετοχές. Σχήμα 2.12 Διαφορά του Gaussian φίλτρου (DoG) το οποίο χρησιμοποιείται από τον SIFT Σχήμα 2.13 Φίλτρα παραθύρου SURF για την προσέγγιση δεύτερης τάξης Gaussian παραγώγων Στις εικόνες που ακολουθούν [24], φαίνονται κάποια παραδείγματα χρήσης των δυο αλγορίθμων και οι διαφορές στις αντιστοιχίες τις οποίες ανιχνεύουν τελικά. Στο σχήμα 2.14 ο αλγόριθμος SURF υπερτερεί έναντι του SIFT. Στο σχήμα 2.17 φαίνεται μια αποτυχημένη περίπτωση χρήσης του SURF αλγορίθμου. Συγκεκριμένα στο παρακάτω σχήμα (2.14), ο SURF αντιστοιχεί 404 σημεία από το σύνολο των 3026 (για την πάνω αριστερή εικόνα) και 3124 (κάτω αριστερή εικόνα) χαρακτηριστικών. Αντίθετα ο SIFT αντιστοιχεί 59 σημεία από το σύνολο των 2675 (για την πάνω δεξιά εικόνα) και 3179 (κάτω δεξιά εικόνα) χαρακτηριστικών. Τελικά 49

51 ο SURF δουλεύει αποδοτικότερα και γρηγορότερα σε σχέση με τον SIFT, για το συγκεκριμένο ζεύγος εικόνων. Σχήμα 2.14 Παράδειγμα αντιστοιχιών σε ίδιο ζευγάρι εικόνων με SURF & SIFT Στην παρακάτω εικόνα φαίνεται μια αποτυχημένη απόπειρα ανίχνευσης χαρακτηριστικών σε μια εικόνα από τον SURF. Αυτό συμβαίνει διότι ανιχνεύονται πολύ λίγα σημεία ενδιαφέροντος σε μικρής αντίθεσης περιοχές. Στην πραγματικότητα ανιχνεύονται πολύ λιγότερα από ότι με τη χρήση του SIFT αλγορίθμου. Σχήμα 2.15 Αποτυχημένη προσπάθεια ανίχνευσης χαρακτηριστικών με SURF Στην παρακάτω εικόνα παρουσιάζεται το πρόβλημα της προοπτικής παραμόρφωσης σε μια εικόνα. Όπως αναφέρθηκε και στην περιγραφή, ο SURF δεν είναι αμετάβλητος στην επίδραση της προοπτικής σε μια εικόνα, όπως για παράδειγμα η ομογραφία). Πρακτικά μπορούμε να πούμε ότι είναι λιγότερο εύρωστος σε τέτοια παραμόρφωση από τον SIFT, όπως φαίνεται και παρακάτω. 50

52 Σχήμα 2.16 Το πρόβλημα της προοπτικής παραμόρφωσης με SURF & SIFT Συσχετισμένος Μετασχηματισμός κλιμακωτά αναλλοίωτων χαρακτηριστικών (ASIFT) Θα γίνει αναφορά σε μια πλήρως αμετάβλητη στις συσχετίσεις μέθοδο σύγκρισης εικόνας, τον λεγόμενο συσχετισμένο μετασχηματισμό κλιμακωτά αναλλοίωτων χαρακτηριστικών (ASIFT) [25]. Eνώ ο SIFT αλγόριθμος, που εξετάστηκε παραπάνω, είναι πλήρως αμετάβλητος σε σχέση μόνο με τις παρακάτω παραμέτρους και συγκεκριμένα την κλιμάκωση, την περιστροφή και τη μετακίνηση, η μέθοδος που εξετάζεται εδώ χειρίζεται την υπολειπόμενη παράμετρο, δηλαδή τις γωνίες που καθορίζουν τον προσανατολισμό του άξονα της κάμερας. Ενάντια σε κάθε πρόγνωση, είναι εφικτή η προσομοίωση όλων των προβολών που βασίζεται σε αυτές τις παραμέτρους. Η μέθοδος επιτρέπει τον προσδιορισμό αξιόπιστων χαρακτηριστικών που έχουν υποστεί πολύ μεγάλες στρεβλώσεις, οι οποίες μετρώνται από μια νέα παράμετρο, την λεγόμενη κλίση μετάβασης. Οι πλέον γνωστές μέθοδοι σπανίως υπερβαίνουν κλίσεις μετάβασης του 2 (SIFT), 2.5 (Harris- Affine & Hessian-Affine) και 10 (MSER). Αντίθετα ο ASIFT μπορεί να χειριστεί κλίσεις μεταβάσεων μέχρι 36 και υψηλότερες. Γίνεται εύκολα αντιληπτό ότι πρόκειται για μια μέθοδο η οποία βασιζόμενη στην εξαιρετική επιτυχία που γνώρισε ο SIFT παλαιότερα, προσπαθεί να εισάγει μια νέα παράμετρο η οποία θα επιτρέπει την καλύτερη λειτουργία του αλγορίθμου κάτω από δύσκολες συνθήκες Επισκόπηση της μεθόδου Εάν ένα φυσικό αντικείμενο διαθέτει ένα ομαλό η τμηματικά ομαλό σύνορο, οι εικόνες που λαμβάνονται, για αυτό το αντικείμενο, από κάμερες σε διαφορετικές θέσεις, υποβάλλονται σε εμφανείς ομαλές παραμορφώσεις. Αυτές οι παραμορφώσεις τοπικά προσεγγίζονται αρκετά καλά από συσχετιζόμενους μετασχηματισμούς στο επίπεδο της εικόνας. Κατά συνέπεια το πρόβλημα της αναγνώρισης στερεών αντικειμένων έχει καθυστερήσει από την προσπάθεια υπολογισμού αναλλοίωτα συσχετισμένων τοπικών χαρακτηριστικών σε εικόνες. Τέτοιου είδους χαρακτηριστικά μπορούν να ληφθούν με μεθόδους εξομάλυνσης αλλά προς το παρόν δεν υπάρχουν πλήρως συσχετιζόμενοι 51

53 μέθοδοι εξομάλυνσης. Ωστόσο με την προσομοίωση της σμίκρυνσης στις δυο εικόνες και με την ομαλοποίηση της περιστροφής, η μέθοδος SIFT καταφέρνει να είναι πλήρως αμετάβλητη σε τέσσερις από τις έξι μεταβλητές ενός συσχετισμένου μετασχηματισμού. Η μέθοδος του ASIFT προσομοιώνει ένα σύνολο όψεων της αρχικής εικόνας, οι οποίες μπορούν να ληφθούν με τη διαφοροποίηση των δυο καμερών και συγκεκριμένα των δυο παραμέτρων του άξονα προσανατολισμού τους. Δηλαδή αλλάζοντας το γεωγραφικό πλάτος και μήκος των γωνιών, οι οποίες δεν μπορούν να αντιμετωπιστούν με την τυπική μέθοδο SIFT. Στην συνέχεια εφαρμόζεται η μέθοδος SIFT σε όλες τις εικόνες που δημιουργούνται. Έτσι ο ASIFT καλύπτει αποτελεσματικά και τις έξι παραμέτρους του συσχετιζόμενου μετασχηματισμού. Όπως έχει φανεί από πειράματα, οι περισσότερες σκηνές με αμελητέα αλλαγή στην γωνία θέασης της κάμερας αντιστοιχίζονται σωστά τόσο με τον ASIFT όσο και με τον SIFT, ωστόσο με λιγότερα σημεία αντιστοίχισης. Αλλά όταν η αλλαγή της οπτικής γωνίας αλλάζει σε σημαντικό βαθμό ενώ όλες οι άλλες μέθοδοι αποτυγχάνουν, ο ASIFT συνεχίζει να δουλεύει αποτελεσματικά Βασικά στάδια 1. Κάθε εικόνα μετασχηματίζεται προσομοιώνοντας όλες τις πιθανές συσχετισμένες στρεβλώσεις, οι οποίες προκαλούνται από την αλλαγή στον προσανατολισμού του οπτικού άξονα της κάμερας από μια μετωπική θέση. Αυτές οι στρεβλώσεις εξαρτώνται από δυο παραμέτρους το γεωγραφικό μήκος φ και το γεωγραφικό πλάτος θ. Οι εικόνες υποβάλλονται σε περιστροφές γωνίας φ, με παράμετρο t = 1 / cos θ. Για ψηφιακές εικόνες, η κλίση πραγματοποιείται από μια κατευθυνόμενη t υπόδειγματοληψία. Κατά συνέπεια, απαιτείται η προηγούμενη εφαρμογή ενός φίλτρου εξομάλυνσης. Αυτές οι περιστροφές και κλίσεις εκτελούνται για ένα μικρό και πεπερασμένο αριθμό γωνιών γεωγραφικού πλάτους και μήκους. Τα βήματα δειγματοληψίας αυτών των παραμέτρων εξασφαλίζουν ότι οι προσομοιωμένες εικόνες, κρατούνται κοντά σε οποιαδήποτε άλλη δυνατή γωνία θέασης που παράγεται από άλλες τιμές των φ και θ. 2. Όλες οι εικόνες προσομοίωσης συγκρίνονται από τον SIFT αλγόριθμο, ο οποίος μπορεί εύκολα να αντικατασταθεί από οποιοδήποτε άλλη μέθοδο αμετάβλητης αντιστοίχισης. 3. Η μέθοδος SIFT έχει το δικό της κριτήριο αποβολής εσφαλμένων αντιστοιχιών. Παρόλα αυτά αφήνει κατά κανόνα εσφαλμένες αντιστοιχίες ακόμη και σε ζευγάρια εικόνων που δεν αντιστοιχούν στην ίδια σκηνή. Ο ASIFT συγκρίνοντας πολλά ζευγάρια μπορεί να συσσωρεύσει πολλές λανθασμένες αντιστοιχίες. Είναι σημαντικό λοιπόν να φιλτράρονται τέτοιες αντιστοιχίες. Το κριτήριο που χρησιμοποιείται είναι ότι οι αντιστοιχίες που διατηρούνται πρέπει να είναι συμβατές με epipolar γεωμετρία. Σε κάποιες περιπτώσεις μπορεί να εμφανιστεί ότι δεν υπάρχουν ASIFT αντιστοιχίες μεταξύ δυο εικόνων, αυτό μπορεί να συμβαίνει διότι οι αντιστοιχίες έχουν εξαλειφθεί λόγω ασυμβατότητας τους με την επιπολική γεωμετρία. Επιπολική γεωμετρία καλείται η γεωμετρία της στερεοσκοπικής όρασης. Όταν δυο κάμερες βλέπουν μια τρισδιάστατη σκηνή από δυο διαφορετικές θέσεις, υπάρχει μια σειρά από γεωμετρικές σχέσεις μεταξύ των τρισδιάστατων σημείων και των 52

54 προβολών τους πάνω σε δυσδιάστατες εικόνες, που οδηγούν σε περιορισμούς μεταξύ των σημείων της εικόνας. Σχήμα 2.17 Επισκόπηση του ASIFT αλγορίθμου Κλίσεις μετάβασης του αλγορίθμου Η παράμετρος που ονομάζεται κλίση μετάβασης είναι ουσιαστικά η απόλυτη κλίση της πρόσθιας και της λοξής όψης. Σε πραγματικές εφαρμογές οι δυο εικόνες που συγκρίνονται είναι συνήθως σε λοξή προβολή. Η κλίση μετάβασης έχει σχεδιαστεί για να υπολογίζει το ποσό της κλίσης μεταξύ δυο τέτοιων εικόνων. Ωστόσο η κλίση μετάβασης μπορεί να είναι πολύ υψηλότερη από την απόλυτη κλίση. Ως εκ τούτου είναι σημαντικό για αλγορίθμους αντιστοιχίας εικόνων να είναι αμετάβλητοι σε υψηλές κλίσεις μετατόπισης. Η παρακάτω εικόνα δείχνει ένα παράδειγμα μεγάλης κλίσης μετάβασης. Η πάνω πρόσθια εικόνα συμπιέζεται προς τη μια κατεύθυνση στην αριστερή εικόνα από μια λοξή προβολή και στριμώχνεται σε μια ορθογώνια κατεύθυνση από μια άλλη λοξή προβολή. Η απόλυτη κλίση, δηλαδή ο συντελεστής συμπίεσης είναι περίπου 6 σε κάθε όψη. Ο προκύπτων παράγοντας συμπίεσης από αριστερά στα δεξιά είναι 6x6 =36. Σχήμα 2.18 Παράδειγμα υψηλής κλίσης μετάβασης 53

55 SIFT εναντίον ASIFT (Affine SIFT) Η πολυπλοκότητα του υπολογισμού των ASIFT χαρακτηριστικών είναι ανάλογη με την περιοχή της υπό δοκιμή εικόνας. Ο ASIFT προσομοιώνει 13.5 φορές την περιοχή των αρχικών εικόνων, παράγει περίπου 13.5 φορές περισσότερα χαρακτηριστικά τόσο στην εικόνα που παίζει το ρόλο του ερωτήματος όσο και στην εικόνα αναζήτησης. Η πολυπλοκότητα για τη σύγκριση των ASIFT χαρακτηριστικών είναι επομένως 13.52, δηλαδή 180 φορές όσο αυτή του SIFT. Να σημειωθεί εδώ ότι σε τυπικές εικόνες ο υπολογισμός των ASIFT χαρακτηριστικών κυριαρχεί της υπολογιστικής πολυπλοκότητας όσον αφορά τη σύγκριση των χαρακτηριστικών. Εάν αντίστοιχα το πρόβλημα είναι να συγκριθεί μια εικόνα με μια βάση δεδομένων, αυτή η πολυπλοκότητα δεν είναι πλέον αμελητέα, και χρειάζεται να εκτελεστούν 180 περισσότερες συγκρίσεις σε ένα σοβαρό περιορισμό. Σχήμα 2.19 Σύγκριση ASIFT & SIFT στο ίδιο ζεύγος εικόνων Σχήμα 2.20 Σύγκριση ASIFT & SIFT σε παραμορφωμένο ζεύγος εικόνων Ιστόγραμμα Προσανατολισμένων Κλίσεων ( HOG ) Το ιστόγραμμα προσανατολισμένων κλίσεων [26] είναι περιγραφείς χαρακτηριστικών οι οποίοι χρησιμοποιούνται στην τεχνητή όραση και στην επεξεργασία εικόνας, στοχεύοντας στην ανίχνευση αντικειμένων σε μια σκηνή. Αυτή η τεχνική μετράει εμφανίσεις των κλίσεων προσανατολισμού σε εντοπισμένα τμήματα μιας εικόνας. Η μέθοδος είναι παρόμοια με εκείνη του ιστογράμματος προσανατολισμού 54

56 ακμών (edge orientation histograms), αλλά διαφέρει στο ότι υπολογίζεται σε ένα πυκνό πλέγμα από ομοιόμορφα κατανεμημένα κελιά και χρησιμοποιεί επικάλυψη των τοπικών αντιθέσεων για μεγαλύτερη ακρίβεια. Η Navneet Dalal και ο Bill Triggs, ερευνητές του Γαλλικού εθνικού Ινστιτούτου έρευνας στην επιστήμη των υπολογιστών & Ελέγχου, πρώτοι παρουσίασαν αυτή τη μέθοδο σε μια εργασία τους για το CVPR συνέδριο στην τεχνητή όραση και αναγνώριση προτύπων. Σε αυτή την εργασία ο αλγόριθμος τους επικεντρώθηκε στο πρόβλημα της ανίχνευσης πεζών σε στατικές εικόνες, αν και από τότε επέκτειναν τις δοκιμές τους για να συμπεριλάβουν την ανίχνευση ανθρώπων σε ταινίες και βίντεο καθώς και σε μια ποικιλία κοινών ζώων και οχημάτων σε στατικές εικόνες Θεωρία της μεθόδου Η βασική σκέψη πίσω από αυτή τη μέθοδο είναι ότι η εμφάνιση και το σχήμα ενός τοπικού αντικειμένου μέσα σε μια εικόνα μπορεί να περιγραφεί από την κατανομή των εντάσεων των κλίσεων ή των ακμών κατεύθυνσης. Η εφαρμογή αυτών των περιγραφέων μπορεί να επιτευχθεί διαιρώντας την εικόνα σε μικρές περιοχές οι οποίες συνδέονται μεταξύ τους, τα λεγόμενα κελιά. Για κάθε τέτοιο κελί καταρτίζεται ένα ιστόγραμμα των κλίσεων ή των ακμών κατεύθυνσης για τα pixels μέσα σε αυτό το κελί. Ο συνδυασμός αυτών των ιστογραμμάτων στη συνέχεια θα αποτελέσει των περιγραφέα. Για βελτιωμένη ακρίβεια, τα τοπικά ιστογράμματα μπορούν να κανονικοποιηθούν βάσει της αντίθεσης. Αυτό μπορεί να επιτευχθεί υπολογίζοντας ένα μέτρο της έντασης σε μια μεγαλύτερη περιοχή της εικόνας, το λεγόμενο μπλοκ, και ση συνέχεια χρησιμοποιώντας αυτή την τιμή κανονικοποιούνται όλα τα κελιά σε αυτό το μπλοκ. Αυτή η ομαλοποίηση επιτρέπει μεγαλύτερη αμεταβλητότητα σε αλλαγές φωτισμού και σκίασης. Ο HOG περιγραφέας διατηρεί μερικά βασικά πλεονεκτήματα έναντι άλλων μεθόδων. Δεδομένου ότι ο HOG περιγραφέας λειτουργεί σε εντοπισμένα κελιά, η μέθοδος υποστηρίζει αμεταβλητότητα σε γεωμετρικούς και φωτομετρικούς μετασχηματισμούς εκτός από τον προσανατολισμό του αντικειμένου. Τέτοιες αλλαγές θα εμφανιστούν μόνο σε μεγαλύτερες χωρικά περιοχές. Επιπλέον, όπως ανακάλυψαν οι ερευνητές του, η χονδροειδής χωρική δειγματοληψία, η λεπτή δειγματοληψία προσανατολισμού και η ισχυρή τοπική φωτομετρική κανονικοποίηση επιτρέπουν να αγνοηθεί η ατομική κίνηση των σωμάτων των πεζών, εφόσον διατηρούν περίπου όρθια θέση. Συνεπώς ο περιγραφέας HOG θεωρείται ιδιαίτερα κατάλληλος για ανίχνευση ανθρώπων σε εικόνες Βασικά στάδια Σχήμα 2.21 Βασικά στάδια του αλγορίθμου HOG 55

57 Υπολογισμός της κλίσης Το πρώτο υπολογιστικό βήμα σε πολλούς ανιχνευτές χαρακτηριστικών στην προεπεξεργασία εικόνας είναι να εξασφαλίσει κανονικοποιημένες χρωματικές και γάμμα τιμές. Όπως προτείνουν οι δημιουργοί του συγκεκριμένου αλγορίθμου, αυτό το βήμα μπορεί να παραληφθεί κατά τον υπολογισμό HOG περιγραφέων. Αυτό συμβαίνει διότι η ακόλουθη εξομάλυνση περιγραφέων επιτυγχάνει ουσιαστικά το ίδιο αποτέλεσμα. Αντί αυτού ως πρώτο υπολογιστικό βήμα ορίζεται ο υπολογισμός των τιμών της κλίσης. Η συνηθέστερη μέθοδος για αυτό είναι η εφαρμογή μιας κεντραρισμένης μάσκας μιας διάστασης, η οποία είναι παράγωγος διακριτών σημείων, σε οριζόντια ή κάθετη κατεύθυνση ή και στις δυο. Συγκεκριμένα αυτή η μέθοδος αφορά το φιλτράρισμα των δεδομένων χρώματος ή έντασης της εικόνας με τους ακόλουθους πυρήνες φίλτρου. T 1,0,1 and 1,0, 1 (2.8) Οι δημιουργοί του αλγορίθμου χρησιμοποίησαν και ακόμη πιο πολύπλοκες μάσκες όπως η 3x3 Sobel μάσκα ή διαγώνιες μάσκες. Επίσης δοκίμασαν την Gaussian εξομάλυνση αλλά κατέληξαν στο ίδιο συμπέρασμα για όλες αυτές τις μάσκες, παρουσίαζαν χαμηλότερη απόδοση στα πειράματα για ανίχνευση ανθρώπων σε εικόνες. Δημιουργία Ιστογραμμάτων των κελιών Το δεύτερο βήμα του υπολογισμού περιλαμβάνει τη δημιουργία ιστογραμμάτων των κελιών. Κάθε pixel στο εσωτερικό του κελιού δημιουργεί μια σταθμισμένη ψήφο, για ένα βασισμένο στον προσανατολισμό κανάλι ιστογράμματος, η οποίο βασίζεται στις τιμές που βρέθηκαν στον υπολογισμό κλίσεων του προηγούμενο βήματος. Τα ίδια τα κελιά μπορεί να είναι είτε ορθογώνια είτε ακτινωτά σε σχήμα. Τα κανάλια ιστογράμματος κατανέμονται ομοιόμορφα από 0 μέχρι 180 μοίρες ή από 0 μέχρι 360 ανάλογα με το αν η κλίση είναι προσημασμένη ή χωρίς πρόσημο. Όσο αφορά το βάρος των ψήφων, η συμβολή κάθε pixel μπορεί να είναι είτε το μέγεθος της κλίσης είτε κάποια λειτουργία του μεγέθους. Ωστόσο σε πραγματικές δοκιμές το μέγεθος της κλίσης παράγει καλύτερα αποτελέσματα. Άλλες επιλογές για την κατανομή του βάρους θα μπορούσαν να περιλαμβάνουν την τετραγωνική ρίζα ή το τετράγωνο μεγέθους της κλίσης ή κάποια εκδοχή του μεγέθους που έχει περικοπεί. Σχήμα 2.22 Δημιουργία Ιστογραμμάτων εντός των κελιών 56

58 Τμήματα Περιγραφέων Προκειμένου να ληφθούν υπόψη οι αλλαγές του φωτισμού και της αντίθεσης, οι δυνάμεις της κλίσης πρέπει να είναι τοπικά κανονικοποιημένες, που σημαίνει ότι απαιτείται η ομαδοποίηση των κελιών σε μεγαλύτερα και χωρικά συνδεδεμένα τμήματα. Ο HOG περιγραφέας θεωρείται τότε το διάνυσμα των κανονικοποιημένων κελιών ιστογράμματος από όλες τις περιοχές των τμημάτων. Αυτά τα τμήματα συνήθως επικαλύπτονται, γεγονός που σημαίνει ότι κάθε κελί συνεισφέρει περισσότερο από μια φορά στον τελικό περιγραφέα. Υπάρχουν δυο βασικές γεωμετρίες τμημάτων, τα ορθογώνια τμήματα HOG (R-HOG) και τα κυκλικά τμήματα HOG (C-HOG). Τα R-HOG τμήματα είναι γενικά τετράγωνα πλέγματα που παριστάνονται με τρεις παραμέτρους, τον αριθμό των κελιών, τον αριθμό των pixels ανά κελί και τον αριθμό των καναλιών ανά κελί ιστογράμματος. Σχήμα 2.23 Γεωμετρικά τμήματα περιγραφέων HOG Τα R-HOG τμήματα εμφανίζουν αρκετές ομοιότητες με τους SIFT περιγραφείς. Ωστόσο παρά τον παρόμοιο μετασχηματισμό τους, τα R-HOG τμήματα υπολογίζονται σε πυκνά πλέγματα σε κάποια ενιαία κλίμακα χωρίς προσανατολισμένη ευθυγράμμιση. Αντίθετα οι SIFT περιγραφείς υπολογίζονται σε αραιά, αμετάβλητα σε κλίμακα σημεία κλειδιά της εικόνας, και περιστρέφονται έτσι ώστε να ευθυγραμμιστούν βάσει προσανατολισμού. Επιπλέον τα R-HOG τμήματα χρησιμοποιούνται σε συνδυασμό για την κωδικοποίηση της μορφής των χωρικών πληροφοριών, ενώ οι SIFT περιγραφείς χρησιμοποιούνται μεμονωμένα. Τα κυκλικά τμήματα HOG (C-HOG) μπορούν να βρεθούν σε δυο παραλλαγές εκείνα με ένα ενιαίο κεντρικό κελί και αυτά με ένα διαγώνια διαιρούμενο κεντρικό κελί. Επιπλέον αυτά τα κυκλικά τμήματα μπορούν να περιγραφούν με τέσσερις παραμέτρους: τον αριθμό των γωνιακών και ακτινωτών δοχείων (bins), την ακτίνα του κεντρικού δοχείου και τον παράγοντα επέκτασης της ακτίνας. Το τελικό βήμα στην αναγνώριση αντικειμένων με τη χρήση HOG περιγραφέων, είναι να τροφοδοτήσει αυτούς τους περιγραφείς σε κάποιο σύστημα αναγνώρισης το οποίο βασίζεται στην μάθηση με πλήρη επίβλεψη. Ένα σύστημα ταξινόμησης SVM (Support Vector Machines) είναι ένας δυαδικός ταξινομητής που αναζητά τη βέλτιστη λύση. Ένα τέτοιο σύστημα αφού εκπαιδευτεί σε εικόνες που περιέχουν κάποιο 57

59 συγκεκριμένο αντικείμενο, είναι σε θέση να παίρνει αποφάσεις σχετικά με την παρουσία ενός αντικειμένου, σε πρόσθετες εικόνες δοκιμής. Στον παρακάτω πίνακα φαίνεται μια συνολική επισκόπηση των μεθόδων που αναφέρθηκαν στο κεφάλαιο καθώς σε τι υπερτερούν αλλά και σε τι μειονεκτούν σε σχέση με τις άλλες μεθόδους Συνοπτικός πίνακας μεθόδων Εξαγωγής Χαρακτηριστικών Πίνακας 2.1: Συνολική Παρουσίαση των Μεθόδων εξαγωγής χαρακτηριστικών 58

60 2.2 ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΕΙΚΟΝΩΝ Η ικανότητα του ανθρώπου να αναλύει και να ταξινομεί αντικείμενα και σκηνές με ταχύτητα και ακρίβεια είναι κάτι το οποίο θεωρείται ιδιαίτερα χρήσιμο στην καθημερινότητα μας. Διαπιστώθηκε ότι οι άνθρωποι είναι σε θέση να κατηγοριοποιήσουν πολύπλοκες φυσικές σκηνές πολύ γρήγορα. Ο άνθρωπος για να κατανοήσει ένα σύνθετο σκηνικό, το πρώτο βήμα είναι η αναγνώριση των αντικειμένων και στη συνέχεια η αναγνώριση της κατηγορίας στην οποία ανήκει η σκηνή. Για να επιτευχθεί αυτό στην τεχνητή όραση, χρησιμοποιούνται διάφοροι ταξινομητές οι οποίοι έχουν διαφορετικά χαρακτηριστικά και δυνατότητες. Στο παρελθόν έχουν αναπτυχθεί πολλοί τέτοιοι ταξινομητές από διάφορους ερευνητές. Αυτές οι μέθοδοι περιλαμβάνουν ταξινομητές, μηχανές διανυσμάτων υποστήριξης, k-πλησιέστερους γείτονες, Gaussian μοντέλο μείγματος, δένδρο αποφάσεων και ακτινωτή συνάρτηση βάσης. Αυτοί οι ταξινομητές χρησιμοποιούνται σε αλγορίθμους που περιλαμβάνουν αναγνώριση αντικειμένων. Σχήμα 2.24 Εννοιολογική απεικόνιση της διαδικασίας ταξινόμησης εικόνων Ωστόσο η αναγνώριση αντικειμένων σε μια σκηνή παραμένει πρόκληση για διάφορους λόγους. Ο πρώτος και πιο προφανής λόγος είναι ότι υπάρχουν περίπου έως διαφορετικές κατηγορίες αντικειμένων. Ο δεύτερος λόγος είναι η διακύμανση στις απόψεις, όπου πολλά αντικείμενα μπορούν να φαίνονται διαφορετικά από διαφορετικές οπτικές γωνίες. Ο τρίτος λόγος είναι ο φωτισμός, ο οποίος κάνει τα ίδια αντικείμενα να μοιάζουν με διαφορετικά αντικείμενα. Ως τέταρτος λόγος θεωρείται η ύπαρξη πολλών μη χρήσιμων πληροφοριών στο φόντο της εικόνας, πράγμα το οποίο ο ταξινομητής δεν είναι πολλές φορές σε θέση να ξεχωρίσει από το αντικείμενο καθεαυτό. Άλλες προκλήσεις περιλαμβάνουν την παραμόρφωση της κλίμακας, σύγκλιση και ένδο-ταξική παραλλαγή. Οι εφαρμογές για την κατηγοριοποίηση εικόνων στην τεχνητή όραση περιλαμβάνουν την υπολογιστική φωτογραφία, παρακολούθηση για λόγους ασφαλείας και βοηθητική οδήγηση. 59

61 Παρακάτω γίνεται μια αναφορά στις σημαντικότερες τεχνικές που χρησιμοποιούνται στην ταξινόμηση εικόνων Τεχνητά Νευρωνικά Δίκτυα Γενικά για τα Νευρωνικά Δίκτυα Ο όρος νευρωνικό δίκτυο [27] παραδοσιακά χρησιμοποιείται για την αναφορά σε ένα δίκτυο ή κύκλωμα των βιολογικών νευρώνων [28]. Η σύγχρονη χρήση του όρου αναφέρεται συχνά σε τεχνητά νευρωνικά δίκτυα τα οποία αποτελούνται από τεχνητούς νευρώνες ή κόμβους. Έτσι ο όρος έχει δυο διαφορετικές χρήσεις: α) Βιολογικά νευρωνικά δίκτυα, τα οποία είναι φτιαγμένα από πραγματικούς βιολογικούς νευρώνες οι οποίοι είναι συνδεδεμένοι σε ένα νευρωνικό σύστημα β) τεχνητά νευρωνικά δίκτυα τα οποία αποτελούνται από διασυνδεδεμένους τεχνητούς νευρώνες. Εμείς στη συνέχεια θα επικεντρωθούμε μόνο στα τεχνητά νευρωνικά δίκτυα που έχουν σχέση με το αντικείμενο της παρούσας εργασίας Ορισμός Τεχνητών Νευρωνικών Δικτύων Ένα τεχνητό νευρωνικό δίκτυο (ANN), συνήθως ονομάζεται απλά νευρωνικό δίκτυο, είναι ένα μαθηματικό ή υπολογιστικό μοντέλο το οποίο είναι εμπνευσμένο από τη δομή και τις λειτουργικές πτυχές των βιολογικών νευρωνικών δικτύων. Ένα τέτοιο δίκτυο, αποτελείται από μια ομάδα διασυνδεδεμένων τεχνητών νευρώνων και επεξεργάζεται τις πληροφορίες χρησιμοποιώντας μια συνδετική προσέγγιση υπολογισμού. Στις περισσότερες περιπτώσεις ένα τεχνητό νευρωνικό δίκτυο θεωρείται ένα προσαρμοσμένο σύστημα το οποίο αλλάζει τη δομή του, βασιζόμενο σε εξωτερικές ή εσωτερικές πληροφορίες που ρέουν μέσα από το δίκτυο κατά τη φάση της μάθησης. Τα σύγχρονα νευρωνικά δίκτυα είναι μη γραμμικά στατιστικά εργαλεία μοντελοποίησης δεδομένων και χρησιμοποιούνται σε μοντελοποιήσεις πολύπλοκων σχέσεων μεταξύ εισροών και εκροών ή για την εύρεση πρότυπων δεδομένων. Συνοπτικά λοιπόν μπορούμε να πούμε ότι ο στόχος των νευρωνικών δικτύων είναι η μετατροπή των εισροών σε εκροές με νόημα. Σχήμα 2.25 Κλασσική μορφή τεχνητού νευρωνικού δικτύου Ένα τεχνητό νευρωνικό δίκτυο είναι με άλλα λόγια ένας παράλληλα κατανεμημένος επεξεργαστής ο οποίος έχει μια φυσική τάση για την αποθήκευση βιωματικής γνώσης. Τέτοια δίκτυα μπορούν να παρέχουν τις κατάλληλες λύσεις για προβλήματα 60

62 τα οποία γενικά χαρακτηρίζονται από μη γραμμικές σχέσεις, υψηλή διάσταση θορύβου, περίπλοκες ανακρίβειες και ατελείς ή επιρρεπείς σε λάθη αισθητήρες. Ένα βασικό πλεονέκτημα τους είναι ότι το μοντέλο του συστήματος μπορεί να κατασκευαστεί από τα διαθέσιμα δεδομένα Ταξινόμηση εικόνων με τη χρήση Τεχνητών Νευρωνικών Δικτύων Η ταξινόμηση εικόνων με τη χρήση νευρωνικών δικτύων πραγματοποιείται εξάγοντας χαρακτηριστικά υφής και στη συνέχεια εφαρμόζοντας τον αλγόριθμο backpropagation [29]. Η υφή χαρακτηρίζεται από τη χωρική διανομή των επιπέδων του γκρι σε μια γειτονιά. Στην ταξινόμηση υφής, ως στόχος θεωρείται ο ορισμός μιας άγνωστης εικόνας σε ένα από τα γνωστά σύνολα των κλάσεων υφής. Επίσης τα χαρακτηριστικά υφής είναι μονοδιάστατοι αριθμοί, διακριτά ιστογράμματα ή εμπειρικές διανομές. Στο σχεδιασμό θεωρούνται τέσσερα χαρακτηριστικά υφής, δηλαδή η γωνιακή ορμή 2 ης τάξης, συσχέτιση αντίθεσης και διακύμανση.. Για να καταγραφεί η χωρική εξάρτηση των τιμών των επιπέδων του γκρι, οι οποίες συμβάλλουν στην αντίληψη της υφής, χρησιμοποιείται ένας δισδιάστατος πίνακας εξάρτησης και ανάλυσης υφής. Για την εύρεση χαρακτηριστικών υφής, για κάθε pixel της εικόνας κάθε ένα pixel θεωρείται ως κέντρο και ακολουθείται από ένα 5x5 παράθυρο για εκείνο το κεντρικό pixel. Ο πίνακας σε γκρι τόνο για το συγκεκριμένο παράθυρο υπολογίζεται και κανονικοποιείται. Η τυπική απόκλιση και ο μέσος όρος λαμβάνονται στη συνέχεια για κάθε έναν από αυτούς τους πίνακες και στη συνέχεια υπολογίζονται τα χαρακτηριστικά υφής. Μετά την εξαγωγή των χαρακτηριστικών αυτών, το δίκτυο εκπαιδεύεται από τον αλγόριθμο backpropagation. Εν συντομία, η λειτουργία του backpropagation αλγορίθμου είναι η εξής: Αρχικοποίηση βάρους σε μικρές τυχαίες τιμές. Τροφοδοτεί τα διανύσματα εισόδου x 0, x 1,, x 6 μέσα στο δίκτυο και υπολογίζει το άθροισμα του βάρους και στη συνέχεια εφαρμόζεται η ακόλουθη συνάρτηση: f x 1 1 e x I (2.9) Επίσης θέτει όλα τα επιθυμητά αποτελέσματα d 0, d 1,. d 5 τυπικά στο μηδέν εκτός από αυτό που αντιστοιχεί στην κλάση από την οποία προέρχεται η είσοδος. Υπολογίζει το σφάλμα για κάθε μονάδα. Προσθέτει τους συντελεστές δέλτα για κάθε μονάδα. 61

63 Όλα τα βήματα εκτός από το πρώτο επαναλαμβάνονται μέχρι το λάθος να θεωρηθεί εντός λογικών ορίων και στη συνέχεια τα προσαρμοσμένα βάρη αποθηκεύονται για αναφορά στον αλγόριθμο αναγνώρισης Μηχανές Υποστήριξης Διανυσμάτων (SVM) Οι μηχανές υποστήριξης διανυσμάτων (Support Vector Machine) [30] αναλύουν δεδομένα και αναγνωρίζουν πρότυπα, και χρησιμοποιούνται για ταξινόμηση και ανάλυση παλινδρόμησης. Ο αρχικός αλγόριθμος SVM εφευρέθηκε από τον Vladimir Vapnik και η ισχύουσα πρότυπη υλοποίηση, προτάθηκε το Το κίνητρο για την ανάπτυξη αυτής της μεθόδου βρίσκεται στο ότι η ταξινόμηση δεδομένων είναι μια κοινή εργασία της μηχανικής μάθησης. Η αρχή των μηχανών υποστήριξης διανυσμάτων έγκειται στο εξής: αν υποθέσουμε ότι κάποια σημεία δεδομένων ανήκουν σε μια κλάση από δυο κλάσεις συνολικά. Στόχος είναι να αποφασισθεί σε ποια από αυτές τις κλάσεις θα υπάγεται ένα νέο σημείο δεδομένων. Στις περιπτώσεις των SVM, ένα σημείο δεδομένων θεωρείται ως ένα p-διαστάσεων διάνυσμα (μια λίστα από p αριθμούς) και θέλουμε να γνωρίζουμε αν μπορούμε να χωρίσουμε αυτά τα σημεία σε επίπεδα. Μια τυποποιημένη μηχανή υποστήριξης διανυσμάτων παίρνει ένα σύνολο δεδομένων εισόδου και προβλέπει για καθένα από αυτά, ποιες από τις δυο πιθανές κατηγορίες αποτελεί την είσοδο, κάνοντας τη μηχανή αυτή έναν μη πιθανολογικό δυαδικό γραμμικό ταξινομητή. Λαμβάνοντας υπόψη ένα σύνολο παραδειγμάτων εκπαίδευσης, κάθε ένα χαρακτηρίζεται ότι ανήκει σε μια από τις δυο κατηγορίες, ένας αλγόριθμος εκπαίδευσης SVM δημιουργεί ένα μοντέλο το οποίο αποδίδει νέα δείγματα στη μια κατηγορία ή στην άλλη. Ένα SVM μοντέλο είναι μια αναπαράσταση των δειγμάτων, όπως τα σημεία στο χώρο, χαρτογραφημένα έτσι ώστε τα δείγματα των επιμέρους κατηγοριών να χωρίζονται από ένα σαφές κενό, όσο το δυνατόν ευρύτερο γίνεται. Στη συνέχεια νέα δείγματα χαρτογραφούνται στον ίδιο χώρο και αναμένεται να ανήκουν σε μια κατηγορία, με βάση σε ποια πλευρά του χάσματος υπάγονται. Σχήμα 2.26 Η αρχή των μηχανών υποστήριξης διανυσμάτων (SVM) 62

64 Ταξινόμηση εικόνων με χρήση Μηχανών Υποστήριξης Διανυσμάτων Η εφαρμοσιμότητα των SVM για την ταξινόμηση εικόνων θα παρουσιαστεί παρακάτω. Οι μηχανές υποστήριξης διανυσμάτων θεωρούνται ανώτερες από όλους τους αλγορίθμους μηχανικής μάθησης. Υποστηρίζουν αλγορίθμους βελτιστοποίησης για τον εντοπισμό των βέλτιστων ορίων μεταξύ των τάξεων. Τα βέλτιστα όρια θα πρέπει να είναι γενικευμένα σε πρωτόγνωρα δείγματα με ελάχιστα λάθη μεταξύ όλων των δυνατών ορίων διαχωρισμού των κλάσεων. Ως εκ τούτου να ελαχιστοποιούνται οι συγχύσεις μεταξύ των κλάσεων. Η επαγωγική αρχή πίσω από τα SVM θεωρείται η ελαχιστοποίηση του κινδύνου που αφορά τη διάρθρωση [31]. Ο κίνδυνος για μηχανή μάθησης (R) οριοθετείται από το άθροισμα των εμπειρικών κινδύνων που υπολογίζονται από δείγματα εκπαίδευσης (Remp) και ένα διάστημα εμπιστοσύνης (ψ) : R Remp + ψ. Η στρατηγική της ελαχιστοποίησης κινδύνου είναι να κρατήσει τον εμπειρικό κίνδυνο καθορισμένο και να ελαχιστοποιηθεί το διάστημα εμπιστοσύνης ή να μεγιστοποιήσει το περιθώριο μεταξύ ενός διαχωριστικού υπερεπιπέδου και των πλησιέστερων σημείων δεδομένων. Ένα διαχωριστικό υπερεπίπεδο θεωρείται μια γραμμή σε έναν πολυδιάστατο χώρο που χωρίζει τα δείγματα των δεδομένων σε δυο κλάσεις. Επί του παρόντος ένας ταξινομητής SVM είναι σε θέση να διαχωρίσει μόνο δυο κλάσεις. Για την επέκταση αυτής της μεθόδου και για την ταξινόμηση πολλαπλών κλάσεων απαιτούνται στρατηγικές ενσωμάτωσης. Μια σημαντική υπόθεση ωστόσο είναι ότι τα δεδομένα μπορούν να διαχωριστούν στο χώρο των χαρακτηριστικών μιας εικόνας. Είναι εύκολο να ελεγχθεί ότι δεν υπάρχει βέλτιστη λύση εάν τα δεδομένα δεν μπορούν να διαχωριστούν χωρίς σφάλματα. Για να επιλυθεί αυτό το πρόβλημα εισάγεται μια τιμή ποινής για λάθος ταξινόμηση και πιθανές υπολειπόμενες μεταβλητές. Σχήμα 2.27 Διαχωρίσιμα και μη διαχωρίσιμα δείγματα Γενικεύοντας τη μέθοδο για μη γραμμικές συναρτήσεις απόφασης, μπορεί να θεωρηθεί ότι η μηχανή υποστήριξης διανυσμάτων, εφαρμόζει την ακόλουθη μέθοδο: αντιστοιχίζει το διάνυσμα εισόδου x σε ένα χώρο χαρακτηριστικών πολλών διαστάσεων H και χωρίζει με βελτιστο τρόπο αυτόν το χώρο. Με τη συστηματική ανάπτυξη των SVM, η λειτουργία του πυρήνα παίζει ένα πολύ σημαντικό ρόλο στον εντοπισμό πολύπλοκων ορίων απόφασης μεταξύ των κλάσεων. 63

65 Με το να υπάρχουν τα δεδομένα εισόδου σε διάστατο χώρο, η λειτουργία του πυρήνα μετατρέπει τα μη γραμμικά όρια των αρχικών δεδομένων χώρου, σε γραμμικά στον υψηλών διαστάσεων χώρο. Για αυτό το λόγο λοιπόν η απόδοση του SVM επηρεάζεται από την επιλογή της λειτουργίας του πυρήνα και των κατάλληλων τιμών για τις αντίστοιχες παραμέτρους του πυρήνα Ασαφή μέτρα Η θεωρία των ασαφών μέτρων [32] θεωρεί μια σειρά από ειδικές κλάσεις μέτρων καθεμία από τις οποίες χαρακτηρίζεται από μια ιδιαίτερη ιδιότητα. Στη θεωρία της ασαφούς μέτρησης, οι όροι είναι ακριβείς, αλλά οι πληροφορίες σχετικά με ένα στοιχείο μόνο του δεν επαρκούν για να καθορίσουν ποιες ειδικές κλάσεις του μέτρου πρέπει να χρησιμοποιηθούν. Η κεντρική ιδέα της ασαφούς θεωρίας θεωρείται το ασαφές μέτρο, έννοια η οποία εισήχθη από τον Choquet το 1953 και ορίστηκε ανεξάρτητα από τον Sugeno το 1974 στο πλαίσιο των ασαφών ολοκληρωμάτων. Στα ασαφή μέτρα, διαφορετικές στοχαστικές σχέσεις εντοπίζονται για την περιγραφή των ιδιοτήτων μιας εικόνας. Οι διαφορετικοί τύποι στοχαστικών σχέσεων που συγκεντρώνονται είναι ένα σύνολο ιδιοτήτων τα μέλη του οποίου είναι ασαφή στη συμβολή τους. Η μέθοδος των ασαφών μέτρων δίνει τη δυνατότητα περιγραφής διαφορετικών τύπων στοχαστικών ιδιοτήτων στην ίδια μορφή. Εάν η ασαφής ιδιότητα σχετίζεται περισσότερο με μια περιοχή, τότε χρησιμοποιείται ένα ασαφές μέτρο. Η ασαφής συνάρτηση χρησιμοποιείται όταν η στοχαστική ιδιότητα πρέπει να περιγραφεί από μια συγκεκριμένη διανομή των τιμών του γκρι. Η συγχώνευση αυτών των δυο στοχαστικών ιδιοτήτων παρουσιάζεται ως ασαφές μέτρο και η ασαφής συνάρτηση ορίζει μια περιοχή η οποία επιτυγχάνεται από ένα ασαφές συστατικό. Το αποτέλεσμα αυτού του συστατικού θεωρείται ένα νέο ασαφές μέτρο Ταξινόμηση εικόνων με χρήση Ασαφών Μέτρων Για την εξαγωγή των στοχαστικών ιδιοτήτων χρησιμοποιούνται διάφορες μέθοδοι, επειδή οι στοχαστικές ιδιότητες είναι σύνθετες και είναι δυνατή η διάσπαση τους μόνο αν οι ιδιότητες που τις αποτελούν υπολογίζονται από διαφορετικές πλευρές. Οι διαφορετικές ιδιότητες που συντίθενται, θα πρέπει να χαρτογραφηθούν μεμονωμένα σε διαφορετικούς χώρους. Το φιλτράρισμα είναι προσαρμοσμένο για τη στοχαστική αλλαγή των τιμών του γκρι που σχετίζονται με τα γειτονικά pixels. Οι περιοχές με διαφορετικές στοχαστικές διακυμάνσεις επιλέγονται σωστά από την εφαρμογή μετασχηματισμού κυματιδίων με επιλεγμένες σταθερές. Η δυναμική της στοχαστικής ιδιότητας μεταξύ των pixel περιγράφει πολλές σχετικές ιδιότητες των υφών. Οι τιμές για τις πιθανές περιοχές των υφών παριστάνονται από ένα ασαφές μέτρο. Οι τιμές αυτές περιγράφονται από μια ασαφή λειτουργία όπου οι τιμές κανονικοποιούνται σε 1. Το άθροισμα όλων των συνδυασμών των ασαφών μέτρων με ασαφείς λειτουργίες, επιβεβαιώνει ότι χρησιμοποιούνται όλες οι πιθανές ιδιότητες σε όλους τους συνδυασμούς που μπορούν να θεωρηθούν. Με τον τρόπο αυτό προκύπτει μια εικόνα όπου οι τιμές του γκρι αποτελούν ένα μέτρο για την ένταξη στην υφή. Έτσι αυτό διαφορετικές στοχαστικές ιδιότητες συνδυάζονται με πολλούς τρόπους για την εξαγωγή των σχετικών πληροφοριών. 64

66 Στον παρακάτω πίνακα γίνεται σύγκριση των διαφορετικών αλγορίθμων εκπαίδευσης μηχανών που αναπτύχθηκαν παραπάνω. Πίνακας 2.2 Συνολική Παρουσίαση των Αλγορίθμων για ταξινόμηση εικόνων Αλγόριθμος k-κοντινότερου γείτονα Ο αλγόριθμος knn (k nearest neighbor = k κοντινότερου γείτονα) [33] είναι επίσης ένας αλγόριθμος που χρησιμοποιείται για την ταξινόμηση εικόνων. Είναι ένας αλγόριθμος μάθησης βασισμένος σε στιγμιότυπα (instance-based), δηλαδή η διαδικασία μάθησης αφορά απλά την αποθήκευση των δεδομένων εκπαίδευσης και θεωρείται ένας από τους πιο απλούς αλγόριθμους μάθησης. Θεωρείται εκπληκτικά ευέλικτος αλγόριθμος και οι εφαρμογές του εκτείνονται από υπολογιστική όραση σε υπολογιστική γεωμετρία σε γράφους και ούτω καθεξής. Τα δεδομένα εκπαίδευσης τυγχάνουν επεξεργασίας όταν εμφανιστεί ένα νέο στιγμιότυπο για αυτό και ονομάζεται Lazy Learning [34]. Κάθε φορά που πρόκειται να ταξινομηθεί ένα νέο στιγμιότυπο, υπολογίζεται η ομοιότητα του με κάθε ένα από τα αποθηκευμένα δεδομένα εκπαίδευσης. Αυτό σημαίνει ότι η φάση της εκπαίδευσης είναι αρκετά γρήγορη. Η έλλειψη γενίκευσης σημαίνει ότι ο αλγόριθμος διατηρεί όλα τα δεδομένα 65

67 εκπαίδευσης. Αυτό έρχεται σε αντίθεση με άλλες τεχνικές, όπως Μηχανές Υποστήριξης Διανυσμάτων (SVM) που μπορεί να απορρίψει όλα τα μη υποστηριζόμενα διανύσματα χωρίς πρόβλημα. Επίσης χαρακτηρίζεται ως μη παραμετρικός αλγόριθμος [35]. Αυτό πρακτικά σημαίνει ότι ο αλγόριθμος δεν κάνει υποθέσεις σχετικά με το υποκείμενο της διανομής δεδομένων. Αυτό είναι αρκετά χρήσιμο στον πραγματικό κόσμο καθώς τα περισσότερα από τα πρακτικά δεδομένα δεν υπακούουν τις τυπικές θεωρητικές παραδοχές που έχουν γίνει Υποθέσεις του KNN αλγορίθμου Ο αλγόριθμος KNN βασίζεται σε μια συνάρτηση απόστασης όπως είναι η Ευκλείδεια απόσταση και η απόσταση συνημίτονου, μεταξύ κάθε στοιχείου εκπαίδευσης και του στοιχείου που πρόκειται να ταξινομηθεί. Η τεχνική KNN προϋποθέτει επίσης ότι το σύνολο εκπαίδευσης δεν περιλαμβάνει μόνο τα δεδομένα αλλά επίσης και την επιθυμητή κατηγοριοποίηση για κάθε στοιχείο. Αυτό έχει σαν αποτέλεσμα τα δεδομένα εκπαίδευσης να αποτελούν το μοντέλο κατηγοριοποίησης όταν γίνεται κατηγοριοποίηση ενός νέου στοιχείου και πρέπει να καθοριστεί η απόσταση του από το στοιχείο του συνόλου εκπαίδευσης. Κάθε ένα από τα στοιχεία εκπαίδευσης αποτελείται από ένα σύνολο διανυσμάτων και μια ετικέτα κλάσης που συνδέεται με κάθε διάνυσμα. Στην απλούστερη περίπτωση θα είναι είτε θετικό είτε αρνητικό για θετικές και αρνητικές τάξεις. Ωστόσο ο αλγόριθμος μπορεί να λειτουργήσει εξίσου καλά και με αυθαίρετο αριθμό τάξεων. Δίνεται επίσης ένας μονός αριθμός "k", ο οποίος αποφασίζει πόσοι γείτονες (ο γείτονας ορίζεται βάση της μετρικής απόστασης) επηρεάζουν την ταξινόμηση. Αυτός ο αριθμός είναι συνήθως μονός όταν ο αριθμός των κλάσεων είναι δυο. Εάν το k είναι 1, τότε ο αλγόριθμος καλείται απλά αλγόριθμος του πλησιέστερου γείτονα Ταξινόμηση εικόνων με χρήση του αλγορίθμου k-κοντινότερου γείτονα Στη συνέχεια θα δούμε πως μπορεί να χρησιμοποιηθεί ο KNN αλγόριθμος για ταξινόμηση [36]. Στην περίπτωση αυτή, δίνονται κάποια σημεία δεδομένων για την εκπαίδευση και επίσης νέα δεδομένα χωρίς να χαρακτηρίζονται από κάποια ετικέτα. Στόχος είναι να βρεθεί η κατάλληλη ετικέτα κλάσης για το νέο σημείο. Ο αλγόριθμος έχει διαφορετική συμπεριφορά ανάλογα με τη σταθερά k Πρώτη Περίπτωση για k=1 Πρόκειται για το απλούστερο σενάριο. Έστω x το σημείο που πρέπει να φέρει την ένδειξη. Βρίσκει το σημείο που βρίσκεται πλησιέστερα του x, ας πούμε το y. Τώρα ο κανόνας του πλησιέστερου γείτονα ζητά την ανάθεση της ετικέτας του y στο x. Αυτό φαίνεται πολύ απλοϊκό. Στο σημείο αυτό υπάρχει η αίσθηση ότι αυτή η διαδικασία θα έχει ως αποτέλεσμα ένα τεράστιο λάθος. Αυτή η αίσθηση ανταποκρίνεται στην πραγματικότητα αλλά μόνο όταν ο αριθμός των δεδομένων σημείων δεν είναι πολύ μεγάλος. Εάν ο αριθμός αυτός είναι πολύ μεγάλος, τότε υπάρχει μια μεγάλη πιθανότητα η ετικέτα του x και του y να είναι οι ίδιες. 66

68 Ας υποθέσουμε ότι όλα τα σημεία βρίσκονται σε ένα πεδίο D διαστάσεων. Ο αριθμός των σημείων είναι αρκετά μεγάλος. Αυτό σημαίνει ότι η πυκνότητα του επιπέδου σε οποιοδήποτε σημείο θα είναι μεγάλη. Με άλλα λόγια σε κάθε υποχώρο υπάρχει επαρκής αριθμός σημείων. Θεωρούμε ένα σημείο x στον υποχώρο το οποίο έχει πολλούς γείτονες, με y τον κοντινότερο από αυτούς. Εάν τα x και y είναι αρκετά κοντά μεταξύ τους, τότε μπορούμε να υποθέσουμε ότι η πιθανότητα το x και το y να ανήκουν στην ίδια κλάση είναι περίπου η ίδια. Έπειτα από τη θεωρία των αποφάσεων τα x και τα y έχουν την ίδια κλάση Δεύτερη Περίπτωση για k=k Αυτό που συμβαίνει σε αυτή την περίπτωση είναι η προσπάθεια αναζήτησης του k κοντινού γείτονα και γίνεται μια ψηφοφορία με ειδική πλειοψηφία. Εάν για παράδειγμα, k=5 και υπάρχουν 3 στιγμιότυπα του C1 και 2 στιγμιότυπα του C2, σε αυτή την περίπτωση ο αλγόριθμος υποστηρίζει ότι το νέο σημείο πρέπει να επισημανθεί ως C1 καθώς αποτελεί την πλειοψηφία. Μια πολύ συχνή εναλλαγή είναι η εφαρμογή σταθμισμένου ΚΝΝ, όπου κάθε σημείο έχει ένα βάρος το οποίο συνήθως υπολογίζεται με βάση την απόστασή του. Για παράδειγμα αν γίνει στάθμιση σύμφωνα με την αντίστροφη απόσταση, θα καταλήξει στο συμπέρασμα ότι οι γειτονικές μονάδες έχουν υψηλότερη ψήφο από τα πιο απομακρυσμένα σημεία. Είναι προφανές ότι η ακρίβεια μπορεί να αυξηθεί με την αύξηση του k αλλά ταυτόχρονα αυξάνεται και το κόστος του υπολογισμού Βασικές Παρατηρήσεις πάνω στον Αλγόριθμο KNN Εάν υποθέσουμε ότι τα σημεία είναι d-διαστάσεων, τότε η άμεση εφαρμογή της εύρεσης του k πλησιέστερου γείτονα παίρνει Ο(dn) χρόνο. Λαμβάνεται υπόψη ο αλγόριθμος με δυο τρόπους. Ο πρώτος τρόπος είναι ότι ο KNN προσπαθεί να εκτιμήσει την πιθανότητα επισήμανσης του σημείου. Ο εναλλακτικός τρόπος είναι ότι υπολογίζει την επιφάνεια της απόφασης (άμεσα ή έμμεσα) και στη συνέχεια τη χρησιμοποιεί για να αποφασίσει για την κλάση των νέων σημείων. Ακόμη και αν αυτή η μέθοδος παίρνει Ο(dn) χρόνο είναι πολύ δύσκολο να γίνει κάτι καλύτερο, εκτός και αν γίνουν κάποιες άλλες υποθέσεις. Υπάρχουν μερικές αποτελεσματικές δομές δεδομένων όπως τα KD-δένδρα που μπορούν να μειώσουν την πολυπλοκότητα του χρόνου, αλλά το πετυχαίνουν εις βάρος του χρόνου εκπαίδευσης και της πολυπλοκότητας. Πρέπει να υπογραμμιστεί στο σημείο αυτό ότι η τεχνική KNN είναι υπερβολικά ευαίσθητη στην τιμή Ê δηλαδή στο πόσοι κοντινότεροι γείτονες χρησιμοποιούνται για την κατηγοριοποίηση. Σύμφωνα με μια εμπειρική μέθοδο πρέπει να ισχύει ότι: E ˆ ό _ ί _ ί (2.10) 67

69 Πλεονεκτήματα & Μειονεκτήματα του Αλγορίθμου KNN Το πλεονέκτημα του αλγορίθμου αυτού είναι ότι είναι εύκολο να κατανοηθεί και να υλοποιηθεί. Επίσης, έχει αποδειχθεί ότι το λάθος του knn περιορίζεται στο μισό του λάθους του Bayes [37] κάτω από συγκεκριμένες υποθέσεις. Ο αλγόριθμος knn δουλεύει καλά σε περιπτώσεις multi-modal κλάσεων και σε εφαρμογές όπου κάποιο αντικείμενο μπορεί να ανήκει σε περισσότερες από μια κλάσεις. Επίσης, είναι πολύ αποδοτικός σε περιπτώσεις όπου τα δεδομένα εκπαίδευσης περιέχουν θόρυβο(noisy) και σε περιπτώσεις όπου τα δεδομένα εκπαίδευσης είναι πολλά. Το σημαντικότερο μειονέκτημα του είναι ότι είναι instance-based αλγόριθμος μάθησης, οπότε δεν γίνεται οποιαδήποτε εκπαίδευση, μέχρι να φτάσει κάποιο έγγραφο για ταξινόμηση και επίσης έχει μεγάλο κόστος υπολογισμού γιατί πρέπει να υπολογίσει την απόσταση κάθε όρου του κειμένου που θα ταξινομηθεί με όλα τα έγγραφα εκπαίδευσης. Ένα άλλο σημαντικό μειονέκτημα είναι ότι χρειάζεται να καθοριστεί κάποια τιμή για το k. Το k παίζει αρκετά σημαντικό ρόλο στην αποδοτικότητα του ταξινομητή και είναι δύσκολο να προσδιοριστεί. Αν είναι πολύ μικρό, το αποτέλεσμα μπορεί να είναι ευαίσθητο σε θορυβώδη δεδομένα. Αν είναι πολύ μεγάλο, το αποτέλεσμα των κοντινότερων γειτόνων μπορεί να περιέχει πολλά έγγραφα από άλλες κατηγορίες. Τέλος, πρέπει να καθοριστεί πια συνάρτηση απόστασης πρέπει να εφαρμοστεί για να προκύψουν τα καλύτερα αποτελέσματα. 68

70 ΚΕΦΑΛΑΙΟ ΓΕΝΙΚΑ Η αναγνώριση και η παρατήρηση ενός κινούμενου αντικειμένου αποτελεί ένα σημαντικό κεφάλαιο στο πεδίο της υπολογιστικής όρασης. Η αύξηση της υπολογιστικής ισχύος των μηχανών και η διάθεση ολοένα και υψηλότερης ποιότητας και χαμηλού κόστους συσκευών λήψης, σε συνδυασμό με την αυξανόμενη ανάγκη για αυτοματοποιημένη ανάλυση βίντεο έχει δημιουργήσει μεγάλο ενδιαφέρον στην επιστημονική κοινότητα για την ανάπτυξη αλγορίθμων που θα προσομοιώνουν την ανθρώπινη αντίληψη αναγνώρισης της κίνησης. Η προσομοίωση αυτή βέβαια δεν είναι ακόμα ώριμη να γίνει σε ποιοτικά χαρακτηριστικά και σε καμία περίπτωση δεν είναι σε θέση να προσεγγίσει την πολυπλοκότητα των ανθρώπινων νευρώνων στην αντιμετώπιση μιας υπόθεσης απλής αναγνώρισης και παρακολούθησης κίνησης. Παρόλα αυτά γίνεται μεγάλη προσπάθεια προσέγγισης του προβλήματος κάνοντας χρήση άλλων χαρακτηριστικών. Παρόλο που οι μηχανές έχουν σημαντικά πλεονεκτήματα όσο αφορά την ταχύτητα της επεξεργασίας πολύπλοκων δεδομένων και την αποθήκευση και γρήγορη ανάκτηση μεγάλου όγκου πληροφοριών αδυνατούν να προσεγγίσουν τα ποιοτικά χαρακτηριστικά που ακολουθεί ο ανθρώπινος εγκέφαλος προκειμένου να επιτελέσει την διαδικασία της αναγνώρισης και παρακολούθησης τροχιάς ενός αντικειμένου ακόμα και κάτω από περιπτώσεις κακής ορατότητας ή πολλών δευτερογενών αντικειμένων που σταδιακά κρύβουν το αντικείμενο που είναι προς παρακολούθηση. Η ανθρώπινη αντίληψη σε τέτοιες περιπτώσεις ενεργοποιείται αυτόματα, χωρίς κάποια προσπάθεια, και η περίπτωση λάθους είναι πολύ μικρή. Η αντίληψη αυτή προέρχεται μέσω ερεθισμάτων που λαμβάνουμε από τις αισθήσεις μας και στην συγκεκριμένη περίπτωση μέσω του αισθητήριου οργάνου της όρασης, δηλαδή του ματιού. Στην περίπτωση των υπολογιστικών συστημάτων η αίσθηση της όρασης εξομοιώνεται καταγράφοντας ακολουθίες εικόνων μέσω μιας ή περισσοτέρων καμερών. Στα πλαίσια αυτά λοιπόν, μια μηχανή συνδεδεμένη με μια απλή κάμερα είναι σε θέση να «βλέπει». Όπως όμως αναφέραμε και παραπάνω η μεγάλη διαφορά έγκειται στο γεγονός ότι ο ανθρώπινος οργανισμός είναι σε θέση να αντιλαμβάνεται άμεσα αυτά που βλέπει, ενώ το υπολογιστικό σύστημα θα πρέπει να εκτελέσει μια σειρά από σύνθετες λειτουργίες προκειμένου να φτάσει σε χειρότερα ή στην καλύτερη περίπτωση στα ίδια συμπεράσματα. Για να πάρει, δηλαδή, μια απόφαση θα πρέπει να εξάγει κάποια χαρακτηριστικά από τις εικόνες που δέχεται, βάσει των οποίων θα μπορέσει να διακρίνει, να αναγνωρίσει και να χαρακτηρίσει αυτά τα οποία βλέπει. Στη προσπάθεια λοιπόν ένα σύστημα να κατανοήσει αυτά που βλέπει μέσω της μηχανικής όρασης, δέχεται σε πρώτη φάση τα δεδομένα εισόδου, τα οποία πριν από το στάδιο της επεξεργασίας τους δεν έχουν καμία πρακτική χρησιμότητα στην αντίληψη της μηχανής. Δεν είναι παρά οι συντεταγμένες των εικονοστοιχείων των εικόνων στο χώρο των χρωμάτων. Με βάση 69

71 μόνο τη πληροφορία αυτή, το σύστημα καλείται να επιτελέσει υψηλού επιπέδου εργασίες που σε κάποιο βαθμό να φανερώνουν τη δυνατότητα αντίληψής του. Η μεθοδολογία που ακολουθείται στη λύση τέτοιων προβλημάτων (ώστε να επιτελεστούν οι εργασίες αυτές στη γενική περίπτωση) εξαρτάται από ένα σύνολο παραμέτρων που έχουν να κάνουν με τα επιθυμητά αποτελέσματα εξόδου ως προς τη φύση τους, την πολυπλοκότητά τους, και την ακρίβεια με την οποία θέλουμε να λαμβάνονται και με ποικίλους άλλους τρόπους. Έτσι εντελώς διαφορετική προσέγγιση θα δημιουργηθεί για παράδειγμα όταν είναι επιθυμητό να μετρηθεί το ποσοστό ενός χρώματος σε μία εικόνα, διαφορετική όταν θέλουμε να ανιχνεύσουμε κινούμενες οντότητες σε μια ακολουθία εικόνων και διαφορετική όταν θέλουμε να υπολογίσουμε την σχετική απόσταση μεταξύ δύο στόχων. Στη πράξη, ένα σύστημα θεωρείται ότι αντιλαμβάνεται τα περιεχόμενα μιας τέτοιας πληροφορίας όταν είναι σε θέση να μετασχηματίσει τη χρωματική πληροφορία των ψηφιακών εικόνων σε κάποια άλλη μορφή πληροφορίας με περισσότερο σημασιολογικό περιεχόμενο. Για παράδειγμα, ο χωρισμός μιας εικόνας σε χρωματικές περιοχές, η εξαγωγή των ακμών της και η εκτίμηση της κίνησης των εικονοστοιχείων από καρέ σε καρέ, αποτελούν κάποια αρχικά στοιχεία που μπορεί κάποιος να εξάγει και που περιέχουν πληροφορία χρήσιμη για τα επόμενα στάδια επεξεργασίας. Τα στοιχεία αυτά ονομάζονται γνωρίσματα (features). Γενικά, οι μέθοδοι εξαγωγής γνωρισμάτων χρησιμοποιούν παρεμφερείς μεθόδους. Αρχικά, από τις εικόνες εξάγονται ένα ή περισσότερα γνωρίσματα χαμηλού επιπέδου, όπως το χρώμα, η υφή, το σχήμα, η κίνηση κλπ. με χρήση κάποιας εκ των προτέρων γνώσης, γενικής ή ειδικότερης ανάλογα με την εφαρμογή και στη συνέχεια εξάγεται πληροφορία υψηλότερου επιπέδου υπολογίζοντας νέα χαρακτηριστικά με μεγαλύτερη σημασιολογική πληροφορία. Τα χαρακτηριστικά αυτά μπορούν με τη σειρά τους να χρησιμοποιηθούν για να χαρακτηρίσουν μια εικόνα, μια ακολουθία βίντεο ή ακόμη και αντικείμενα των εικόνων, όπως την απόσταση ενός στόχου από τη κάμερα, το τρισδιάστατο μοντέλο ενός αντικειμένου ή τον προσδιορισμό της φύσης μιας κινούμενης οντότητας. Κάποια από τα πιο βασικά γνωρίσματα χαμηλού επιπέδου που χρησιμοποιούνται κατά κόρον σε σχετικές εφαρμογές είναι τα εξής : Χρώμα: Αποτελεί ίσως την πιο άμεσα εξαγόμενη πληροφορία μιας εικόνας. Όπως τα υπόλοιπα γνωρίσματα, έτσι και το χρώμα μπορεί να μοντελοποιηθεί με διάφορους τρόπους. Στη γενικότερη περίπτωση, γίνεται προσπάθεια η μοντελοποίηση που θα πραγματοποιηθεί να περιέχει όσο το δυνατόν περισσότερη πληροφορία, ανάλογα με την εφαρμογή. Έτσι το χρώμα μοντελοποιείται συνήθως από έναν μικρό αριθμό βασικών χρωμάτων (RGB) ή μέσω του χρωματικού ιστογράμματος. Υφή: Όμοια με το χρώμα αντιμετωπίζεται και η υφή μιας εικόνας. Διάφορα μοντέλα έχουν προταθεί για τη μοντελοποίηση της καθώς είναι ένα μέγεθος που συνδέεται άμεσα με την εγκυρότητα των υπολογισμών μας, ειδικά σε περιπτώσεις εκτίμησης κίνησης. 70

72 Σχήμα: Ενώ μπορεί γενικά να θεωρηθεί ως γνώρισμα υψηλότερου επιπέδου, μοντελοποιείται και αυτό σε χαμηλό επίπεδο με βάση τις ιδιότητες της εικόνας όπως για παράδειγμα τις ακμές, το εμβαδό, τη θέση κλπ. Το περίγραμμα αντικειμένων ενδιαφέροντος μιας εικόνας εξάγεται και μοντελοποιείται σε υψηλότερο επίπεδο. Κίνηση: Αποτελεί πολύ σημαντικό γνώρισμα για τις περισσότερες εφαρμογές του κλάδου και εξάγεται από δύο ή περισσότερα καρέ μιας ακολουθίας βίντεο. Μέχρι και σήμερα, έχει αναπτυχθεί ένας μεγάλος αριθμός μεθόδων για τον υπολογισμό της κίνησης καθώς η εκτίμηση της αποτελεί τη βάση πολλών εφαρμογών, όπως για παράδειγμα τον υπολογισμό της τρισδιάστατης κίνησης ενός αντικειμένου και την παρακολούθηση τροχιάς. Πρότυπα: Μια συνηθισμένη τακτική σε κάποιες από τις κατηγορίες εφαρμογών είναι η εξαγωγή προτύπων αντί χαρακτηριστικών από ακολουθίες εικόνων τα οποία στη συνέχεια χρησιμοποιούνται αυτούσια, μετασχηματισμένα ή και παραμορφωμένα σε διαδικασίες εντοπισμού και αναγνώρισης. Ως παράδειγμα αναφέρουμε την εξαγωγή προτύπων από εικόνες με ανθρώπινα πρόσωπα. Μετασχηματισμοί: Ενδιαφέροντα γνωρίσματα για εφαρμογές μηχανικής όρασης προκύπτουν και από το μετασχηματισμό των εικόνων ή συγκεκριμένων περιοχών τους. Για παράδειγμα ο μετασχηματισμός Fourier δίνει πληροφορίες για το συχνοτικό περιεχόμενο των εικόνων. Σε πάρα πολλές εφαρμογές, όπως για παράδειγμα τον εντοπισμό εισβολέων σε κατοικία ή τη παρακολούθηση της τροχιάς κινούμενων αντικειμένων χρησιμοποιείται ως πρώτο στάδιο ο εντοπισμός κύριων κινούμενων αντικειμένων. Σε τέτοιες περιπτώσεις χρησιμοποιούνται συνήθως γνωρίσματα κίνησης, σχήματος ή και συνδυασμός των δύο (π.χ. κίνηση περιοχών ή ακμών). Όταν είναι επιθυμητή η λεπτομερής εξαγωγή της μορφής κινούμενων αντικειμένων, χαρακτηριστικά κίνησης συνδυάζονται συνήθως με γνωρίσματα χρώματος για πιο έγκυρα αποτελέσματα. Τα γνωρίσματα σχήματος είναι περισσότερο κατάλληλα και ειδικότερα τα υψηλού επιπέδου χαρακτηριστικά όπως το περίγραμμα σε εφαρμογές που στόχο έχουν την αναγνώριση και ταξινόμηση αντικειμένων. Στη περίπτωση που μελετάται ο διαχωρισμός δύσκαμπτων και εύκαμπτων αντικειμένων. Τα χαρακτηριστικά κίνησης είναι επίσης πολύ χρήσιμα και καταλήγουν σε σαφείς διαχωρισμούς με μικρά επίπεδα σφάλματος. Βεβαίως, όταν τα υπό αναγνώριση αντικείμενα έχουν ιδιότητες που τα διαφοροποιούν στο πεδίο του χρώματος, της συχνότητας ή της υφής δεν αποκλείεται και η χρήση των γνωρισμάτων αυτών, αν και η περιοχή εφαρμογών που καλύπτουν είναι στη πραγματικότητα αμελητέα. 3.2 ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΑΝΙΧΝΕΥΣΗΣ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗΣ ΚΙΝΗΣΗΣ Η εκτεταμένη μελέτη και αναζήτηση καλύτερων αλγορίθμων και τεχνικών, ώστε τα εξαγόμενα αποτελέσματα να είναι όσο το δυνατόν καλύτερα, δεν γίνεται βέβαια μόνο για ερευνητικούς λόγους. Το πλήθος των εφαρμογών είναι τεράστιο και συνεχώς αυξάνεται όσο αυξάνεται και η ανάγκη για πλήρη αυτοματισμό των διαδικασιών παρατήρησης. 71

73 Οι κυριότερες εφαρμογές είναι οι εξής : Παρακολούθηση χώρων. Στα συστήματα παρακολούθησης χώρων μας ενδιαφέρει ο έλεγχος της κίνησης και η λήψη δράσεων ανάλογα με τις συνθήκες κίνησης, όπως το είδος της κίνησης, η ταυτότητα του ανθρώπου που κινείται, ο χώρος στον οποίο γίνεται η κίνηση κτλ. Συχνά χρησιμοποιούνται σε χώρους που θεωρούνται ιδιαίτερα κρίσιμοι ως προς το θέμα της ασφάλειας, όπως στρατιωτικά κέντρα, αεροδρόμια, τράπεζες κ.α. Επικοινωνία ανθρώπου-μηχανής. Πριν την ανάπτυξη της τεχνητής όρασης, η επικοινωνία ανθρώπου-μηχανής γινόταν με τις κλασικές συσκευές εισόδου-εξόδου (π.χ. πληκτρολόγιο / ποντίκι οθόνη / εκτυπωτής). Η τεχνητή όραση οδήγησε σε τρόπους επικοινωνίας περισσότερο ανθρωποκεντρικούς, όπως π.χ. η επικοινωνία μέσω μιας κάμερας. Αυτόματη παρακολούθηση παιδιών και ηλικιωμένων ανθρώπων. Στην αυτόματη παρακολούθηση παιδιών και ηλικιωμένων ανθρώπων μας ενδιαφέρει πολύ η ανίχνευση συγκεκριμένων κινήσεων, όπως π.χ. η λήψη ενός φαρμάκου ή του φαγητού. Επιπλέον σημαντικό ρόλο έχει και η μη ανίχνευση μιας συγκεκριμένης κίνησης. Για παράδειγμα, η μη ανίχνευση της λήψης φαρμάκου πέραν μιας συγκεκριμένης ώρας θα έπρεπε να σημάνει κάποιον συναγερμό. Υποστήριξη ατόμων με ειδικές ανάγκες. Η τεχνητή όραση μπορεί να φανεί ιδιαίτερα χρήσιμη στην υποστήριξη ατόμων με ειδικές ανάγκες. Στο πεδίο της επικοινωνίας ανθρώπου-μηχανής έχουν ήδη αναπτυχθεί αρκετά συστήματα για την υποστήριξη κατάλληλων τρόπων επικοινωνίας, όπως η κατανόηση της νοηματικής γλώσσας. Επιπλέον, οι γενικές αρχές των συστημάτων παρακολούθησης παιδιών και ηλικιωμένων ανθρώπων μπορούν να εφαρμοστούν και στην παρακολούθηση ατόμων με ειδικές ανάγκες. Σημασιολογικός ιστός (semantic web). Στόχος του σημασιολογικού ιστού είναι να γίνει επεξεργάσιμος, τόσο από αυτοματοποιημένα εργαλεία όσο και από ανθρώπους, ο τεράστιος όγκος των ψηφιακών πολυμεσικών δεδομένων που υπάρχουν σε αυτόν. Για να παραμείνει ο παγκόσμιος ιστός επεκτάσιμος, οι μελλοντικές εφαρμογές λογισμικού θα πρέπει να μπορούν να μοιράζονται και να επεξεργάζονται δεδομένα από διάφορες πηγές, ακόμα κι αν οι ίδιες οι εφαρμογές έχουν σχεδιαστεί εντελώς ανεξάρτητα μεταξύ τους αλλά και από τα δεδομένα του WWW. Τελικός σκοπός είναι να υπάρχουν δεδομένα καθορισμένα και συνδεδεμένα σημασιολογικά έτσι ώστε διάφορες εφαρμογές να μπορούν να τα επεξεργαστούν, να τα συνδυάζουν και να τα επαναχρησιμοποιούν. Εφόσον τα δεδομένα μπορούν να είναι κάθε τύπου, κρίνεται σημαντική η αποτελεσματική ανάλυση και επεξεργασία ψηφιακών πολυμέσων, λόγω της αυξανόμενης διάθεσης τους μέσω του διαδικτύου αλλά και λόγω της πλούσιας πληροφορίας που μπορεί να γίνει διαθέσιμη μέσω αυτών. Ρομποτικές εφαρμογές. Η χρήση ρομποτικών εργαλείων γίνεται ολοένα και πιο δημοφιλής σε ένα τεράστιο πεδίο εφαρμογών. Ένας από τους κυρίαρχους στόχους 72

74 είναι η ανάπτυξη ρομποτικών εργαλείων με δυνατότητες επικοινωνίας με τον άνθρωπο. Η όραση ενός ρομπότ υλοποιείται συνήθως με μία ή περισσότερες κάμερες. Είναι επομένως αναγκαία η ευρεία χρήση ανάλυσης βίντεο και εικόνων, η αναζήτησή τους σε μια βάση δεδομένων κτλ. Έλεγχος του κυκλοφοριακού συστήματος. Πολλές φορές ο έλεγχος του κυκλοφοριακού συστήματος μπορεί να γίνεται αυτόματα μέσω συστημάτων παρακολούθησης χώρων. Ήδη χρησιμοποιούνται εφαρμογές για την καταγραφή παραβιάσεων του κώδικα οδικής κυκλοφορίας σε σημεία υψηλού κινδύνου εκδήλωσης ατυχημάτων ή κατά την διάρκεια της νύχτας. Διαιτησία αθλημάτων. Η ανάλυση ψηφιακών πολυμέσων μπορεί να χρησιμοποιηθεί πολύ επιτυχημένα στην διαιτησία αθλημάτων. Η υψηλή ακρίβεια που μπορεί να επιτευχθεί μέσω των ψηφιακών συστημάτων μπορεί να αποδειχθεί ιδιαίτερα χρήσιμη κατά την λήψη κρίσιμων αποφάσεων σε περιπτώσεις που το ανθρώπινο μάτι δεν προλαβαίνει να συλλάβει ολόκληρη την κίνηση. Ιδιαίτερα ενθαρρυντικό είναι το γεγονός πως στις περισσότερες από τις εφαρμογές μας ενδιαφέρει περισσότερο η κατανόηση της ανθρώπινης συμπεριφοράς και η χρήση υπολογιστικών συστημάτων προς όφελος του ανθρώπου, κάτι που μαρτυρά μια στροφή προς έναν πιο ανθρωποκεντρικό ρόλο της επιστήμης της Πληροφορικής Στάδια ανάλυσης κίνησης Η πρώτιστη και βασική ερώτηση που πρέπει να απαντηθεί σε αυτό το σημείο είναι «τι είναι ένα χαρακτηριστικό;». Τα χαρακτηριστικά είναι τμήματα της εικόνας που μπορούν εύκολα να επισημανθούν για το σκοπό της ανίχνευσης και της παρακολούθησης. Ένας ορισμός θα μπορούσε να είναι, ότι τα χαρακτηριστικά είναι τοπικές περιοχές ενδιαφέροντος. Τα χαρακτηριστικά μπορούν να επιλεχτούν με βάση την υφή, την οξύτητα των ακμών, το χρώμα και τις γωνίες. Η ανάλυση των χαρακτηριστικών αυτών σε ένα βίντεο χωρίζεται σε τρία μέρη και περιλαμβάνει: Την ανίχνευση του κινούμενου αντικειμένου (που για την περίπτωση που μας ενδιαφέρει μόνο η κίνηση ενός ανθρώπου αυτό συνεπάγεται και με αναγνώριση της κινούμενης σιλουέτας του και διαφοροποίησης της από οποιοδήποτε άλλο κινούμενο αντικείμενο) Την παρακολούθηση του καρέ-καρέ (frame-frame) Και τέλος την ανάλυση του αντικειμένου προκειμένου να αναγνωριστεί η συμπεριφορά του. Ο εντοπισμός και εξαγωγή κινούμενων ανθρώπινων μορφών από ακολουθίες βίντεο είναι μια από τις πιο ενεργές περιοχές έρευνας στο τομέα της μηχανικής όρασης. Σκοπός της είναι να ανιχνεύει, να αναγνωρίζει και να παρακολουθεί την ανθρώπινη 73

75 δραστηριότητα σε ακολουθίες εικόνων που περιλαμβάνουν ανθρώπους ανάμεσα σε άλλα κινούμενα αντικείμενα. Το παρακάτω σχήμα είναι χαρακτηριστικό μιας τέτοιας ανάλυσης [38] Σχήμα 3.1 Σχηματική αναπαράσταση ανάλυσης της ανθρώπινης κίνησης Ανίχνευση Για να είμαστε πιο ακριβείς όταν αναφερόμαστε στο στάδιο της ανίχνευσης πρέπει να πούμε ότι περιλαμβάνει την αναγνώριση φυσικά του αντικειμένου (σιλουέτας του) αλλά και την ιδιότητά του να κινείται μέσα στον παρατηρούμενο χώρο. Έτσι το στάδιο της ανίχνευσης χωρίζεται στα παρακάτω υποστάδια όπως φαίνεται στο Σχήμα 3.2 [39] [40]. Σχήμα 3.2 Ανίχνευση Κίνησης (Motion Detection) 74

76 Η κατάτμηση κίνησης έχει να κάνει με τον διαχωρισμό του κινούμενου αντικειμένου για το οποίο ενδιαφερόμαστε (Object Of Interest - OOI) από την εικόνα του φόντου. Ένας αλγόριθμος κατάτμησης πρέπει να είναι εύρωστος στον θόρυβο και στις αλλαγές του φόντου και του φωτισμού. Κάποιες σύγχρονες τεχνικές παρουσιάζονται παρακάτω: Αφαίρεση του φόντου (Background subtraction): Η αφαίρεση του φόντου είναι μια απλή λύση στην κατάτμηση εικόνας. Μια στατική εικόνα η οποία δεν περιέχει το αντικείμενο ενδιαφέροντος, θεωρείται το μοντέλο του φόντου και η εικόνα της κίνησης βρίσκεται από μια διαφορά μεταξύ διαδοχικών καρέ και του μοντέλου του φόντου εξετάζοντας κάθε ένα εικονοστοιχείο με το αντίστοιχό του. Αυτή η μέθοδος όμως, δεν είναι κατάλληλη όταν το φόντο αλλάζει δυναμικά και κινείται. Παραλλαγές αυτής της τεχνικής περιλαμβάνουν διαφορετικούς τρόπους υπολογισμού του μοντέλου του φόντου. Το απλούστερο μοντέλο φόντου μπορεί να δημιουργηθεί από τη μέση τιμή του χρόνου των στατικών καρέ. Αντί της μέσης τιμής του χρόνου, η median τιμή της τιμής του κάθε εικονοστοιχείου (είτε αυτή είναι σε χρωματική, είτε σε γκρι κλίμακα) μπορεί επίσης, να χρησιμοποιηθεί για τη δημιουργία του μοντέλου του φόντου. Ο υπολογισμός της median τιμής βρέθηκε ότι είναι περισσότερο εύρωστος σε αλλαγές του φωτισμού του φόντου. Χρονική διαφορά (Temporal differencing): η χρονική διαφορά έχει να κάνει με μία διαφορά μεταξύ της χρονικής διάρκειας διαδοχικών καρέ εξετάζοντας εικονοστοιχείο - εικονοστοιχείο. Τα διαδοχικά καρέ μπορεί να είναι είτε δύο, είτε περισσότερα. Η χρονική διαφορά προσαρμόζεται σε περιβάλλοντα που αλλάζουν, αφού το ιστορικό του φόντου ανανεώνεται κάθε λίγα καρέ. Οπτική ροή (Optical flow): οι τεχνικές της οπτικής ροής βασίζονται στην υπόθεση ότι η ένταση των εικονοστοιχείων σε μία ακολουθία εικόνων δεν αλλάζει. Με την οπτική ροή όμως, είναι αδύνατον να προσδιορίσουμε την ταχύτητα της εικόνας στην διεύθυνση κάθετη με την βάθμωση της έντασης της εικόνας. Αυτή η αδυναμία αναφέρεται ως το πρόβλημα του ανοίγματος (aperture problem). Η οπτική ροή είναι πολύ πολύπλοκη υπολογιστικά και απαιτεί η εσωτερική κίνηση των χαρακτηριστικών των καρέ να είναι μικρή. Είναι επίσης, δύσκολη η υλοποίηση σε πραγματικό χρόνο και συχνά απαιτεί εξειδικευμένο υλικό (hardware). Από την άλλη, η οπτική ροή έχει το πλεονέκτημα ότι μπορεί να πετύχει την κατάτμηση των κινούμενων αντικειμένων ακόμη και αν η κάμερα κινείται. Η οπτική ροή μπορεί ακόμη, να διαχωρίσει την κίνηση μεταξύ ενός σώματος στερεού που δεν αλλάζει το σχήμα του και ενός που αλλάζει, διότι η κίνηση του σώματος που δεν αλλάζει παρουσιάζει μικρή συνεχή ροή. Στατιστικές μέθοδοι (Statistical Methods): οι στατιστικές μέθοδοι γενικά απορρέουν από την πιο βασική τεχνική της αφαίρεσης του φόντου. Οι στατιστικές μέθοδοι υπολογίζουν τα στατιστικά μεμονωμένων εικονοστοιχείων ή μιας ομάδας από εικονοστοιχεία και χρησιμοποιούν την πληροφορία για να ταξινομήσουν περιοχές μιας εικόνας ως περιοχές που ανήκουν στο φόντο ή στο προσκήνιο. Συχνά χρησιμοποιούνται γκαουσιανές για την μοντελοποίηση κάθε εικονοστοιχείου και στη συνέχεια χρησιμοποιείται μια δυναμική διαδικασία προσέγγισης για την ενημέρωση του μοντέλου. Ένας άλλος τρόπος είναι η χρήση των μέγιστων και των ελάχιστων τιμών έντασης, και η μέγιστη απόκλιση αυτών των τιμών που προκύπτει από τα 75

77 διάφορα καρέ, ως στατιστικές παράμετροι για την μοντελοποίηση του φόντου. Αυτή η τεχνική βρέθηκε ότι είναι περισσότερο εύρωστη σε αλλαγές των συνθηκών του φόντου Αναγνώριση του αντικειμένου (Object Identification) Η αναγνώριση του αντικειμένου [41] είναι σημαντική στις περιπτώσεις όπου υπάρχουν περισσότερα από ένα κινούμενα αντικείμενα. Μερικές φορές η αναγνώριση έχει να κάνει με τη διαφοροποίηση μεταξύ άψυχων αντικειμένων και ανθρώπων, όπως για παράδειγμα είναι η κίνηση αυτοκινήτων και πεζών. Άλλες φορές, όταν έχουμε να κάνουμε με αντικείμενα του ίδιου είδους, η ταυτοποίηση χρειάζεται για να δώσει μία ταυτότητα σε κάθε αντικείμενο, έτσι ώστε να μπορούν να παρακολουθηθούν και οι ενέργειές τους να μελετηθούν ξεχωριστά. Τα αντικείμενα αναγνωρίζονται με βάση δύο κριτήρια: το σχήμα και το είδος της κίνησης που ανιχνεύθηκε. Αναγνώριση με βάση το σχήμα (Shape based identification): Η αναγνώριση με βάση το σχήμα χρησιμοποιείται κυρίως για τη διαφοροποίηση μεταξύ αντικειμένων διαφορετικού σχήματος, όπως αυτοκίνητα και άνθρωποι. Εφόσον η κίνηση του αντικειμένου αναγνωριστεί, χρησιμοποιούνται παράμετροι, όπως ο λόγος δύο διαστάσεων, η θέση των ακραίων σημείων και σκελετικές αναπαραστάσεις, για την ταξινόμηση του αντικειμένου. Αναγνώριση με βάση την περιοδικότητα (Periodicity based identification): Η αναγνώριση με βάση την περιοδικότητα χρησιμοποιείται κυρίως για τη διαφοροποίηση μεταξύ αντικειμένων του ίδιου είδους που παρουσιάζουν περιοδική κίνηση. Για παράδειγμα, η κίνηση των χεριών και των ποδιών ενός ανθρώπου που περπατάει παρουσιάζει περιοδική επανάληψη και μπορεί να χρησιμοποιηθεί ως χαρακτηριστικό για τη διαφοροποίηση και την αναγνώριση ανθρώπων, με βάση το πώς περπατούν. Έτσι, μία ανάλυση χρόνου-συχνότητας μπορεί να προσδιορίσει την τάξη του αντικειμένου. Συχνά, η αυτο-ομοιότητα που παρατηρείται σε μια περιοδική κίνηση μπορεί να χρησιμοποιηθεί για την ταξινόμηση έμψυχων και άψυχων κινούμενων αντικειμένων. Για την επίτευξη καλύτερης απόδοσης στην αναγνώριση μπορεί να χρησιμοποιηθεί ένας υβριδικός συνδυασμός της αναγνώρισης που βασίζεται στο σχήμα και αυτής που βασίζεται στην περιοδικότητα. Επιπλέον, παράγοντες όπως περιορισμοί της δομής του ανθρώπινου σώματος και περιορισμοί της κίνησης οχημάτων μπορούν να συγχωνευθούν προκειμένου να επιτευχθεί καλύτερη ανίχνευση κίνησης Προβλήματα κατά την ανίχνευση αντικειμένου Η κατανόηση της ανθρώπινης κίνησης, μπορεί να προσεγγιστεί με διάφορα επίπεδα λεπτομερειών, ανάλογα με την πολυπλοκότητα της εκάστοτε κίνησης. Η μοντελοποίηση και η αναγνώριση της ανθρώπινης συμπεριφοράς προϋποθέτει τον χαρακτηρισμό και την ταξινόμηση των διαφόρων ειδών κίνησης. Μια ιδέα που εφαρμόστηκε αρχικά για την επίλυση αυτού του ζητήματος ήταν η ταξινόμηση της κίνησης «σε αλλαγή, γεγονός, επεισόδιο και ιστορία» ώστε να υπάρξει αποτύπωση 76

78 των διαφορετικών διαστάσεων του προβλήματος. Η κάθε διάσταση σχετίζεται και με διαφορετικό όγκο πληροφορίας που απαιτείται για την επίτευξη αναγνώρισης. Μια διαφορετική προσέγγιση είναι ο διαχωρισμός της κίνησης σε «κινήσεις, δραστηριότητα, ενέργεια». Σε αυτού του είδους την ταξινόμηση οι κινήσεις είναι εξατομικευμένες στοιχειώδεις κινήσεις οι οποίες δεν απαιτούν την συλλογή δεδομένων από κάποια ακολουθία για να αναγνωριστούν. Αντίθετα η δραστηριότητα αναφέρεται σε μια ακολουθία κινήσεων ή καταστάσεων όπου η μόνη πραγματική γνώση είναι τα στατιστικά χαρακτηριστικά της ακολουθίας. Τέλος, οι ενέργειες είναι γεγονότα μεγαλύτερης διάρκειας τα οποία συνήθως περιλαμβάνουν αλληλεπιδράσεις με το περιβάλλον. Το αντικείμενο της αναγνώρισης ενεργειών είναι συναφές και αλληλένδετο με το αντικειμένο της όρασης υπολογιστών και της τεχνητής νοημοσύνης. Σε επόμενο κεφάλαιο θα δώσουμε έμφαση στο υψηλό-επίπεδο της αναγνώρισης της ανθρώπινης κίνησης δηλαδή στις πράξεις και τις αλληλεπιδράσεις και πιο συγκεκριμένα στην μοντελοποίηση του ανθρώπινου σώματος, στο επίπεδο των λεπτομερειών που χρειάζονται για την αναγνώριση των ανθρωπίνων πράξεων, μεθόδους αναγνώρισης των πράξεων και υψηλού επιπέδου αναγνώριση σκηνών. Η υψηλού επιπέδου αναγνώριση των ανθρώπινων κινήσεων απαιτεί προηγουμένως πολλά βήματα επεξεργασίας χαμηλού επιπέδου όπως τμηματοποίηση, εντοπισμό, ανάκτηση μορφής και εξαγωγή τροχιάς στα οποία όμως δεν θα αναφερθούμε εκτενώς. Το πρώτο βήμα της ανίχνευσης του κινούμενου σώματος προϋποθέτει την ανίχνευση του σώματος. Κάτι τέτοιο όμως είναι πολλές φορές αρκετά δύσκολο και επίπονο και οι σημαντικότεροι λόγοι που καθιστούν δύσκολη την ανίχνευση είναι οι εξής: Απώλεια των πληροφοριών που προκαλούνται από την προβολή του τρισδιάστατου κόσμου σε μια εικόνα δύο διαστάσεων. Θόρυβος στην εικόνα που μπορεί να οφείλεται π.χ. σε θρόισμα των φύλλων. Σύνθετη κίνηση των αντικειμένων. Μη άκαμπτη ή αρθρωτή φύση των αντικειμένων. Μερική και πλήρης απόκρυψη του κινούμενου αντικειμένου (από άλλα αντικείμενα που παρεμβάλλονται μεταξύ στόχου και κάμερας). Πολυπλοκότητα του σχήματος των αντικειμένων Αλλαγές φωτισμού μεταξύ των σκηνών Υψηλές απαιτήσεις υπολογισμών κατά την εφαρμογή real time παρατήρησης. Η αναγνώριση της ανθρώπινης δραστηριότητας από τον υπολογιστή περιλαμβάνει την κατανόηση της ανθρώπινης κίνησης. Η αναγνώριση όμως της ανθρώπινης κίνησης είναι ένα ιδιαιτέρως περίπλοκο αντικείμενο. Η δομή και το σχήμα του ανθρωπίνου σώματος δεν μπορεί να είναι σαφώς καθορισμένο, λόγω της ύπαρξης πολλών αρθρώσεων και λόγω της ύπαρξης των ενδυμάτων. Επίσης, οι αλλαγές στην φωτεινότητα της εικόνας καθώς και ο θόρυβος που προέρχεται από τις σκιές, δυσκολεύουν ακόμα περισσότερο τις προσπάθειες για αναγνώριση των ανθρωπίνων κινήσεων. Για παράδειγμα, η αναγνώριση δραστηριοτήτων σε εξωτερικούς χώρους επηρεάζεται σημαντικά από τις αλλαγές του καιρού και του φωτισμού. Τέτοιες κινήσεις μπορούν να οδηγήσουν σε λανθασμένες ειδοποιήσεις τα συστήματα παρακολούθησης χώρων και για να αντιμετωπιστούν πρέπει να γίνουν κάποιες επιπλέον διεργασίες ανώτερου επιπέδου. Οι συνήθεις προσεγγίσεις σε τέτοιου είδους 77

79 προβλήματα περιλαμβάνουν χωροχρονικά φίλτρα ή επιβολή περιορισμών στη τροχιά των αντικειμένων στο χρόνο. Παρόλα αυτά, μπορούμε εύκολα να συμπεραίνουμε ότι και οι δύο προσεγγίσεις προσθέτουν ανεπιθύμητες υποθέσεις για τη συμπεριφορά των κινούμενων οντοτήτων και αυξάνουν την υπολογιστική πολυπλοκότητα. 3.3 ΚΑΤΑΤΜΗΣΗ ΚΙΝΗΣΗΣ ΑΦΑΙΡΕΣΗ ΦΟΝΤΟΥ Σχεδόν κάθε σύστημα που έχει ως στόχο την ανάλυση της ανθρώπινης κίνησης ξεκινά με την ανίχνευση ή αλλιώς κατάτμηση της κίνησης σε μια ακολουθία βίντεο. Αυτή η ανίχνευση αποσκοπεί στον διαχωρισμό των περιοχών που περιέχουν κινούμενες οντότητες από την υπόλοιπη εικόνα. Είναι ένα πολύ σημαντικό βήμα για να προχωρήσει κάποιος σε περαιτέρω ανάλυση της ανθρώπινης δραστηριότητας καθώς οι διαδικασίες που ακολουθούν εξαρτώνται σε μεγάλο βαθμό από τα αποτελέσματα του. Πρόκειται λοιπόν για ένα πολύ σημαντικό και απαιτητικό πρόβλημα, με στόχο την ανίχνευση των περιοχών εκείνων που αντιστοιχούν σε κινούμενα αντικείμενα, όπως οχήματα και άνθρωποι. Ο εντοπισμός κινούμενων οντοτήτων επικεντρώνει ουσιαστικά την προσοχή στις περιοχές που έχουν ενδιαφέρον για τα επόμενα στάδια επεξεργασίας, όπως η παρακολούθηση της πορείας των αντικειμένων και η ανάλυση των δραστηριοτήτων τους. Παρόλα αυτά, αλλαγές λόγω καιρού, φωτισμού, σκιών και επαναλαμβανόμενων κινήσεων από ανεπιθύμητα αντικείμενα δυσκολεύουν την γρήγορη και αξιόπιστη επεξεργασία των δεδομένων. Μέχρι σήμερα, οι δημοφιλέστερες μέθοδοι κατάτμησης χρησιμοποιούν είτε χρονική είτε χωρική πληροφορία που εξάγουν από τα διαδοχικά καρέ. Οι μέθοδοι που μπορούν να χρησιμοποιηθούν είναι πολλές κάθε μία εκ των οποίων έχει διαφορετικά πλεονεκτήματα και μειονεκτήματα. Γενικά όσο πιο ελαφριά είναι μία μέθοδος από άποψη υπολογιστικού κόστους τόσο χειρότερα είναι τα εξαγόμενα αποτελέσματα ενώ αντίθετα όσο περισσότερες πράξεις γίνονται και όσο πιο πολλές παράμετροι εξετάζονται τόσο πιο λεπτομερή είναι τα εξαγόμενα αποτελέσματα Κατάτμηση κίνησης με τεχνικές αφαίρεσης φόντου Η τεχνική αυτή είναι μία πολύ δημοφιλής μέθοδος για τον εντοπισμό των κινούμενων περιοχών, ειδικά κάτω από συνθήκες σχετικά σταθερού φόντου. Λειτουργεί υπολογίζοντας τις διαφορές ανάμεσα στη τρέχουσα εικόνα και το φόντο αναφοράς για κάθε εικονοστοιχείο ξεχωριστά. Το πρόβλημα της είναι ότι παρουσιάζει πολύ μεγάλη ευαισθησία σε δυναμικές αλλαγές του σκηνικού λόγω φωτισμού και άλλων εξωγενών παραγόντων. Υπάρχουν πολλές διαφορετικές προσεγγίσεις αυτού του προβλήματος οι οποίες διαφοροποιούνται από τον τύπο του μοντέλου που χρησιμοποιούν για το φόντο καθώς και στον τρόπο με τον οποίο το ανανεώνουν. Η τρέχουσα εικόνα συγκρίνεται με ένα μοντέλο του φόντου το οποίο δεν περιέχει τα κινούμενα αντικείμενα. Συνήθως, αυτό το μοντέλο του φόντου ανακτάται με την πάροδο του χρόνου. Το πλεονέκτημα τέτοιων προσαρμοστικών μεθόδων είναι ότι αφαιρούν το φόντο από τις εικόνες. Συνήθως με τον όρο αφαίρεση φόντου εννοούμε την απομάκρυνση των στατικών αντικειμένων έτσι ώστε να παραμείνει μόνο η περιοχή ενδιαφέροντος που είναι τα κινούμενα άτομα σε μια ακολουθία εικόνων. Η 78

80 βασική ιδέα είναι ο υπολογισμός της απόλυτης διαφοράς των εικόνων δύο διαδοχικών στιγμιοτύπων, δηλαδή έστω ότι έχουμε Ν καρέ για να βρούμε τα άτομα που κινούνται μεταξύ των καρέ Ν-1 και Ν, δεν έχουμε παρά να υπολογίσουμε την απόλυτη διαφορά τους και να προκύψει σαν στατικό (μαύρο) οτιδήποτε είναι ακίνητο ενώ οτιδήποτε άλλο θα είναι κινούμενο αντικείμενο. Μην ξεχνάμε ότι οι υπολογισμοί αυτοί γίνονται σε εικόνες και στην ουσία αυτό που υπολογίζεται είναι η διαφορά των τιμών των εικονοστοιχείων σε κάθε καρέ, οπότε με βάση αυτά που ειπώθηκαν παραπάνω οτιδήποτε ακίνητο θα μας επιστρέψει την τιμή μηδέν μιας και οι τιμές του εικονοστοιχείου αυτού δεν άλλαξαν κατά τις δύο χρονικές στιγμές. Αυτό σημαίνει ότι τα αντικείμενα που ήταν στην σκηνή κατά την εξαγωγή του φόντου βαθμιαία θα αντικατασταθούν από το φόντο. Αυτό εξαλείφει την ανάγκη της αρχικοποίησης ενός άδειου φόντου. Επίσης, παρέχει ένα μοντέλο φόντου που προσαρμόζεται αυτόματα στις αλλαγές. Για παράδειγμα, όταν αλλάζει ο καιρός ή όταν ένα παρκαρισμένο αυτοκίνητο φεύγει από τη σκηνή. Ένα σημαντικό μειονέκτημα είναι η αλληλεξάρτηση (trade-off) μεταξύ δύο αντιτιθέμενων απαιτήσεων. Από τη μία, η ενημέρωση του φόντου θα πρέπει να γίνεται γρήγορα ώστε να μπορεί να αντιμετωπίσει τις αλλαγές φωτισμού και τις αλλαγές στο φόντο, όπως αλλαγές του φωτισμού λόγω αλλαγής της ώρας ή λόγω ανοίγματος του διακόπτη σε κλειστό χώρο, αλλαγές λόγω ανθρώπων που περπατούν ή λόγω αντικειμένων που φεύγουν από τη σκηνή. Από την άλλη, η ενημέρωση θα πρέπει να γίνεται αργά, ώστε τα αντικείμενα που κινούνται αργά να μην περιλαμβάνονται στο φόντο, όπως ένας άνθρωπος που κοιμάται. Η ταχύτητα λοιπόν, της ενημέρωσης εξαρτάται από την εφαρμογή. Παρακάτω αναφέρονται αλγόριθμοι για την εξαγωγή του φόντου και παρατίθενται τα αποτελέσματα της εφαρμογής τους σε ακολουθίες βίντεο. Χαρακτηριστικά παραδείγματα της τεχνικής αφαίρεσης φόντου περιγράφονται παρακάτω Αφαίρεση φόντου μέσω τεχνικής διαδοχικών καρέ Αποτελεί τον πιο απλό ίσως τρόπο για τον διαχωρισμό του φόντου από το κινούμενο αντικείμενο σε ασπρόμαυρο βίντεο με στατική κάμερα συγκρίνοντας ανά δύο τα καρέ του βίντεο και παίρνοντας τη διαφορά τους. Αυτό γίνεται ως εξής: Ορίζοντας έναν πίνακα με διαστάσεις ίδιες με αυτές των καρέ ο οποίος αρχικοποιείται. Για κάθε δύο διαδοχικά καρέ λαμβάνεται το κάθε εικονοστοιχείο και υπολογίζεται η διαφορά της τιμής του μεταξύ των δύο καρέ. Ορίζεται ένα κατώφλι (threshold) (0<τ<1). Αν η διαφορά των τιμών του εικονοστοιχείου είναι μικρότερη της τιμής του κατωφλίου, τότε τοποθετείται στην αντίστοιχη θέση του πίνακα η τιμή 1, ενώ αν η διαφορά είναι μεγαλύτερη του κατωφλίου, τότε στην αντίστοιχη θέση τοποθετείται η τιμή 0. Έτσι, από κάθε δύο διαδοχικά καρέ δημιουργείται μία ασπρόμαυρη εικόνα όπου τα μαύρα εικονοστοιχεία αντιστοιχούν στα εικονοστοιχεία που δεν μετακινήθηκαν, δηλαδή στο φόντο, ενώ τα άσπρα εικονοστοιχεία αντιστοιχούν στα εικονοστοιχεία που άλλαξαν, δηλαδή στο κινούμενο αντικείμενο. 79

81 Στο παρακάτω σχήμα φαίνεται ένα παράδειγμα, όπως αυτό περιγράφτηκε παραπάνω με κάποια υποτιθέμενα διαδοχικά frames. Σχήμα 3.3 Τρία διαδοχικά frames α, β, γ όπου τα μαύρα εικονοστοιχεία αντιστοιχούν στα εικονοστοιχεία που δεν μετακινήθηκαν, δηλαδή στο φόντο, ενώ τα άσπρα εικονοστοιχεία αντιστοιχούν στα εικονοστοιχεία που άλλαξαν, δηλαδή στο κινούμενο αντικείμενο. Με αυτόν τον τρόπο όμως, προκύπτουν διάφορα προβλήματα. Καταρχήν, χρειάζεται μεγάλη προσοχή στην τιμή που θα πάρει το κατώφλι. Αν η τιμή είναι πολύ μικρή, τότε η παραμικρή κίνηση θα ανιχνευθεί, πράγμα που μπορεί να οδηγήσει σε εσφαλμένες εκτιμήσεις, διότι μπορεί να υπάρχουν μικρές αλλαγές στο φόντο, οι οποίες δε πρέπει να θεωρηθούν ως κινούμενα αντικείμενα. Τέτοιες αλλαγές μπορεί να οφείλονται σε θόρυβο λόγω της κάμερας, σε αλλαγές φωτισμού, σε σκιές, σε αέρα αν βρίσκεται σε εξωτερικό περιβάλλον, κ.ά. Απ την άλλη, αν η τιμή του κατωφλίου είναι πολύ μεγάλη, τότε κάποιες αλλαγές μπορεί να μην ανιχνευθούν καθόλου, όπως για παράδειγμα ένα αντικείμενο που κινείται με πολύ μικρή ταχύτητα. Στα παρακάτω διαγράμματα φαίνεται ένα αντικείμενο που κινείται γρήγορα (object 1) και ένα που κινείται αργά (object 2). Στο διάγραμμα που βρίσκεται αριστερά, το κατώφλι που επιλέχτηκε, καθορίστηκε με βάση την ταχύτητα των σωμάτων που κινούνται, με αποτέλεσμα το αντικείμενο που κινείται αργά να μη μπορεί ποτέ να ανιχνευθεί (τ=δx/δt). Αντίθετα, στο διάγραμμα που βρίσκεται στα δεξιά, το κατώφλι εξαρτάται από ένα προκαθορισμένο καρέ αναφοράς (τ=δx). Αυτό οδηγεί στην ανίχνευση και των δύο αντικειμένων, ανεξάρτητα από την ταχύτητά τους. 80

82 Σχήμα 3.4 Δύο αντικείμενα που κινούνται. α. Το κατώφλι καθορίστηκε με βάση την ταχύτητα των σωμάτων που κινούνται, με αποτέλεσμα το αντικείμενο που κινείται αργά να μη μπορεί ποτέ να ανιχνευθεί. β. Το κατώφλι εξαρτάται από ένα προκαθορισμένο καρέ αναφοράς ανεξάρτητα από την ταχύτητα των αντικειμένων. Δυστυχώς η απλότητα της μεθόδου έχει δύο πολύ μεγάλα μειονεκτήματα, πρώτον ότι για αντικείμενα με ομοιόμορφη κατανομή της τιμής της πυκνότητας τους τα εσωτερικά εικονοστοιχεία τους ερμηνεύονται ως μέρη του φόντου και δεύτερον ότι τα αντικείμενα πρέπει να κινούνται συνεχώς ειδάλλως στην περίπτωση που το αντικείμενο παραμείνει ακίνητο για χρονικό διάστημα ενός καρέ ερμηνεύεται και πάλι σαν μέρος του φόντου. Στο παρακάτω σχήμα φαίνονται τα αποτελέσματα: Σχήμα 3.5 Αποτελέσματα από την χρήση της τεχνικής των διαδοχικών καρέ για τα δύο βίντεο σε διαφορετικά χρονικά καρέ. Παρατηρώντας τα παραπάνω αποτελέσματα διαπιστώνεται ότι η συγκεκριμένη μέθοδος είναι πολύ ευαίσθητη και αυτό λόγω των απλοποιημένων υποθέσεων που πραγματοποιήθηκαν. Τα αποτελέσματα, αν και αναγνωρίζεται η ανθρώπινη φιγούρα, δεν είναι καλά και σε πολλές περιπτώσεις δεν μπορούν να αναγνωριστούν με σιγουριά οι κινήσεις των άκρων των ανθρώπων. Χαρακτηριστικό είναι ότι τα 81

83 κινούμενα αντικείμενα αφήνουν πίσω τους ίχνη τα οποία ποικίλουν ανάλογα με την ταχύτητά τους. Επίσης, μειονέκτημα της μεθόδου αποτελεί το γεγονός ότι το εσωτερικό των κινούμενων αντικειμένων αναγνωρίζεται από τη μέθοδο ως φόντο και αφαιρείται και αυτό διότι μεταξύ δύο διαδοχικών καρέ δεν έχει προλάβει το αντικείμενο να απομακρυνθεί αρκετά έτσι ώστε στην ίδια περιοχή, τις δύο διαφορετικές χρονικές στιγμές, να υπάρχουν εικονοστοιχεία με ίδιο χρωματικό περιεχόμενο. Ένα καλό φυσικά που έχει η μέθοδος είναι ο περιορισμένος θόρυβος του φόντου Αφαίρεση φόντου μέσω τεχνικής κατά προσέγγιση μέσης τιμής Η δεύτερη αυτή μέθοδος είναι μια καλύτερη και βελτιωμένη μορφή της προηγούμενης μεθόδου. Η μεγάλη διαφορά αυτής της μεθόδου από αυτήν που αναλύθηκε παραπάνω είναι ότι τα προηγούμενα Ν καρέ του βίντεο αποθηκεύονται και ότι το φόντο υπολογίζεται ως ο «μέσος όρος» των αποθηκευμένων καρέ. Όπως έχει αποδειχτεί ο συγκεκριμένος αλγόριθμος είναι πολύ αποτελεσματικός τόσο που πλησιάζει τους ακόμα πιο δυνατούς. Η αποθήκευση όμως και η επεξεργασία όλων αυτών των καρέ ασφαλώς αυξάνει το υπολογιστικό κόστος. Ο αλγόριθμος λειτουργεί ως εξής: Αν ένα εικονοστοιχείο του τωρινού καρέ έχει τιμή μεγαλύτερη από αυτή του αντίστοιχου εικονοστοιχείου του φόντου, τότε το εικονοστοιχείο αυξάνεται κατά ένα. Αντίστοιχα, αν το τωρινό εικονοστοιχείο έχει τιμή μικρότερη από αυτή του αντίστοιχου εικονοστοιχείου του φόντου τότε μειώνεται κατά ένα. Παρατηρείται λοιπόν ότι η λογική είναι ίδια με αυτή της προηγούμενης τεχνικής. Με αυτό τον τρόπο το φόντο συγκλίνει τελικά σε μια τιμή. Όπου τα μισά από τα εικονοστοιχεία της εισόδου είναι μεγαλύτερα από το φόντο και τα μισά είναι μικρότερα, μια κατά προσέγγιση μέση τιμή. Να επισημανθεί σε αυτό το σημείο ότι για να μπορεί να συγκριθεί η τεχνική αυτή με την προηγούμενη θα χρησιμοποιηθεί το ίδιο κατώφλι. Στο παρακάτω σχήμα φαίνονται τα αποτελέσματα: 82

84 Σχήμα 3.6 Αποτελέσματα από την χρήση της τεχνικής της κατά προσέγγισης μέσης τιμής για τα δύο βίντεο σε διαφορετικά χρονικά καρέ Συγκρίνοντας τα αποτελέσματα αυτής της μεθόδου με την προηγούμενη διαπιστώνονται τα εντυπωσιακά καλύτερα αποτελέσματα που παίρνονται. Το μόνο σημείο στο οποίο υστερεί αυτή η μέθοδος σε σχέση με τη προηγούμενη είναι στην παρουσία θορύβου που όπως φαίνεται υπάρχει στο πρώτο βίντεο λόγω κυρίως της μικρής κίνησης της κάμερας ενώ στο δεύτερο που η κάμερα είναι στατική δεν παρουσιάζεται ο παραμικρός θόρυβος. Οι ανθρώπινες φιγούρες φαίνονται σχεδόν ολόκληρες, εκτός από την περίπτωση του πρώτου βίντεο, όπου σημεία κυρίως του προσώπου και των χεριών χάνονται λόγω του ότι προσεγγίζουν χρωματικά το φόντο. Με αυτή την μέθοδο επίσης χάνονται τα ίχνη που αφήναν πίσω τους τα κινούμενα αντικείμενα Αφαίρεση φόντου μέσω τεχνικής επιλεκτικά μεταβαλλόμενου μοντέλου Κάνοντας χρήση αυτής της τεχνικής, για να προσδιοριστούν οι κινούμενες περιοχές, αφαιρείται η κάθε νέα εικόνα από το φόντο που έχει προσδιοριστεί και όπου η απόλυτη τιμή του αποτελέσματος ξεπερνά κάποιο προκαθορισμένο κατώφλι, θα θεωρηθεί το αντίστοιχο εικονοστοιχείο ως εικονοστοιχείο πρώτου πλάνου. Προφανώς η διαδικασία αυτή θα είναι πολύ ευαίσθητη σε οποιαδήποτε αλλαγή του σκηνικού, όπως για παράδειγμα στις συνθήκες φωτισμού. Προκειμένου το αρχικό μοντέλο να προσαρμόζεται σε σταδιακές αλλαγές μπορεί να ενσωματώνεται σε αυτό νεότερη πληροφορία με χρήση ενός απλού IIR φίλτρου της μορφής: B ai (1 a) B n 1 n n (3.1) όπου α ο ρυθμός εκμάθησης (learning rate) τυπικά γύρω στο Για την αποφυγή της εισαγωγής θορύβου στο μοντέλο από εικονοστοιχεία που δεν ανήκουν στο φόντο είναι καλύτερα να χρησιμοποιηθεί και ανατροφοδότηση. 83

85 Δηλαδή, όταν ένα εικονοστοιχείο εκτιμάται πως είναι μέρος του φόντου, τότε στο σημείο εκείνο αναβαθμίζεται το μοντέλο την επόμενη χρονική στιγμή σύμφωνα με τον παραπάνω τύπο. Αλλιώς, αν το εικονοστοιχείο που εξετάζεται είναι πρώτου πλάνου, αφήνεται το φόντο αμετάβλητο. Το μεγάλο πλεονέκτημα της μεθόδου αυτής σε σύγκριση με τις προηγούμενες είναι ότι χρησιμοποιεί ένα είδος ανατροφοδότησης στο σχηματισμό του μοντέλου του φόντου καθώς λαμβάνει υπόψη ποια εικονοστοιχεία έχουν θεωρηθεί ότι ανήκουν στο προσκήνιο ώστε να μην επηρεάσουν τις αλλαγές στο φόντο. Στο παρακάτω σχήμα φαίνονται τα αποτελέσματα: Σχήμα 3.7 Αποτελέσματα από την χρήση της τεχνικής επιλεκτικά μεταβαλλόμενου μοντέλου για τα δύο βίντεο σε διαφορετικά χρονικά καρέ Όπως φαίνεται από τα στιγμιότυπα, η τεχνική αυτή έχει παρόμοια αποτελέσματα με αυτή της προηγούμενης μεθόδου. Έτσι και αυτή η μέθοδος καταφέρνει να φέρει ολόκληρη την κινούμενη οντότητα στο προσκήνιο και το μόνο πρόβλημα είναι η μεγαλύτερη ευαισθησία της σε επαναλαμβανόμενες κινήσεις του φόντου. Αυτό είναι εμφανές από τον περισσότερο θόρυβο που εμφανίζεται, σε σύγκριση με την προηγούμενη μέθοδο, στο πρώτο βίντεο. Επίσης, το πρόσωπο όσο αφορά τον άνθρωπο του πρώτο βίντεο εμφανίζεται ελαφρώς χειρότερο συγκρινόμενο με την περίπτωση της προηγούμενης μεθόδου κάτι το οποίο όμως μπορεί απλά να αποτελεί σύμπτωση αφού αν ληφθεί υπόψη και το δεύτερο βίντεο παρατηρείται ότι σε αυτή την τεχνική το πρόσωπο εμφανίζεται ελαφρώς καλύτερο. Τέλος, σημειώνεται ότι ρυθμίζοντας κατάλληλα τον ρυθμό εκμάθησης πετυχαίνονται αξιόπιστα αποτελέσματα ακόμη και σε σκηνές με πιο αισθητές μεταβολές του φωτισμού Μορφολογικού μετασχηματισμού Μετά επεξεργασία Η τεχνική των μορφολογικών μετασχηματισμών δεν αποτελεί ουσιαστικά διαφορετική μέθοδο και μπορεί να χρησιμοποιηθεί για ενσωμάτωση σε κάθε μία από τις 84

86 προηγούμενες μεθόδους βελτιώνοντας με αυτό τον τρόπο τα αποτελέσματα που λαμβάνονται. Μπορεί να αποτελέσει λοιπόν ένα πολύ σημαντικό κομμάτι στην κατάτμηση κίνησης που βελτιώνει θεαματικά τα αρχικά αποτελέσματα όλων των παραπάνω τεχνικών. Πιο συγκεκριμένα, σε κάθε καρέ, αφού υπολογιστεί η δυαδική εικόνα του πρώτου πλάνου, που έχει τιμή μονάδα για όλα τα κινούμενα εικονοστοιχεία σύμφωνα με την εκάστοτε μέθοδο, γίνεται επίδραση πάνω της με μια σειρά μετασχηματισμών ώστε αυτή να γίνει πιο ομοιόμορφη. Οι μετασχηματισμοί αυτοί έχουν στόχο να σβήσουν από την εικόνα όσες ομάδες εικονοστοιχείων είναι πολύ μικρές για να παριστάνουν κάποιο αντικείμενο ενδιαφέροντος και παράλληλα γεμίζουν τυχόν τρύπες στις κινούμενες οντότητες που προέρχονται από κομμάτια ομοιόμορφης τιμής της έντασης. Επιπλέον εκτός από την εξάλειψη των μικρών περιοχών, οι οποίες αποτελούν θόρυβο, μπορούν να χρησιμοποιήθουν μορφολογικοί μετασχηματισμοί για εξάλειψη και μεγάλων περιοχών που δεν είναι πιθανό να αντιπροσωπεύουν κάποια ανθρώπινη φιγούρα αλλά μπορεί να είναι κάποιο άλλο κινούμενο αντικείμενο όπως για παράδειγμα κάποιο αυτοκίνητο. Η μείωση των περιοχών θορύβου στηρίζεται στην παρατήρηση ότι οι περιοχές θορύβου τείνουν να είναι μικρότερες από την περιοχή του αντικειμένου. Πρώτα, εφαρμόζεται ο κλασσικός αλγόριθμος των συνδεδεμένων συνιστωσών (connected component algorithm) στην αρχική μάσκα αντικειμένου για να σημειωθούν οι απομονωμένες περιοχές. Στη συνέχεια, υπολογίζεται η έκταση κάθε περιοχής. Περιοχές με έκταση μικρότερη από κάποια τιμή κατωφλίου εξαλείφονται από την μάσκα αντικειμένου. Αντίστοιχα περιοχές μεγαλύτερες από μία προκαθορισμένη τιμή μπορούν να εξαλειφθούν επίσης. Έτσι, διατηρείται το σχήμα του αντικειμένου, ενώ μικρές περιοχές θορύβου ή μεγάλες περιοχές που αντιπροσωπεύουν κάποιο άλλο κινούμενο αντικείμενο αφαιρούνται. Εφόσον υπάρχουν δύο ήδη θορύβου, θόρυβος στο φόντο και θόρυβος στο προσκήνιο, χρειάζονται δύο περάσματα σε αυτό το στάδιο. Το πρώτο πέρασμα αφαιρεί μικρές μαύρες περιοχές (περιοχές φόντου), οι οποίες είναι περιοχές θορύβου στο προσκήνιο ή τρύπες στη μάσκα ανίχνευσης αλλαγών. Το δεύτερο πέρασμα αφαιρεί μικρές άσπρες περιοχές (περιοχές στο προσκήνιο), οι οποίες είναι περιοχές θορύβου στο φόντο ή λανθασμένες περιοχές αλλαγών στη μάσκα ανίχνευσης αλλαγών. Μετά την αφαίρεση των περιοχών θορύβου, εφαρμόζονται στη μάσκα αντικειμένου οι μορφολογικές πράξεις (morphological operations) ανοίγματος και κλεισίματος (open and close operations) με ένα 3x3 δομικό στοιχείο (structural element). Το μικρό δομικό στοιχείο επιλέγεται για τη λείανση του περιγράμματος του αντικειμένου, χωρίς να επηρεάζει τις λεπτομέρειες της πληροφορίας του σχήματος του αντικειμένου. Οι μορφολογικές πράξεις είναι η βάση για την απομάκρυνση του θορύβου μετά τον διαχωρισμό του φόντου και την κατωφλιοποίηση. Πιο συγκεκριμένα, οι μορφολογικές τεχνικές που συνήθως χρησιμοποιούνται, αποτελούνται από δύο βασικές πράξεις: την διεύρυνση (dilation) και τη διάβρωση (erosion). Η διεύρυνση επεκτείνει το προσκήνιο της εικόνας, προσθέτοντας ένα εικονοστοιχείο στο προσκήνιο αν οποιοδήποτε από τα γειτονικά του εικονοστοιχείου εντός μιας συγκεκριμένης γειτονιάς ακτίνας r (η οποία λέγεται δομικό στοιχείο structuring element) ανήκει ήδη στο προσκήνιο. Η διάβρωση επεκτείνει το φόντο, μετακινώντας ένα εικονοστοιχείο από το προσκήνιο αν ένα από τα γειτονικά του εικονοστοιχείου ανήκει ήδη στο φόντο. Αυτές οι δύο 85

87 πράξεις μπορούν να συνδυαστούν. Μία διεύρυνση ακολουθούμενη από μία πανομοιότυπη διάβρωση λέγεται κλείσιμο (closing), και γεμίζει τις τρύπες του προσκηνίου που είναι μικρότερες από την διάμετρο της γειτονιάς. Παρομοίως, μία διάβρωση ακολουθούμενη από μία πανομοιότυπη διεύρυνση λέγεται άνοιγμα (opening), και χρησιμοποιείται για την εξάλειψη απομονωμένων εικονοστοιχείων του προσκηνίου. Ο θόρυβος στην εικόνα που προκύπτει από την αφαίρεση του φόντου, κάνει ορισμένα εικονοστοιχεία του προσκηνίου να μοιάζουν με αυτά του φόντου και αντίστροφα. Μία πράξη ανοίγματος ακολουθούμενη από μία πράξη κλεισίματος αντιμετωπίζει τις πηγές του λάθους: το κλείσιμο γεμίζει τα εικονοστοιχεία του προσκηνίου που λείπουν (υποθέτοντας ότι αρκετά από τα γειτονικά εικονοστοιχεία έχουν προσδιοριστεί σωστά), και το άνοιγμα αφαιρεί άσχετα εικονοστοιχεία του προσκηνίου που είναι περικυκλωμένα από εικονοστοιχεία του φόντου. Ιδιαίτερη προσοχή πρέπει να δοθεί στην επιλογή της ακτίνας r. Αν η ακτίνα είναι πολύ μικρή, τότε μεγαλύτερες ομάδες εικονοστοιχείων θορύβου θα μείνουν αδιόρθωτες. Αν από την άλλη η ακτίνα είναι πολύ μικρή, τότε κάποια σωστά εικονοστοιχεία των αντικειμένων του προσκηνίου θα χαθούν. Σε ιδιαίτερα θορυβώδεις εικόνες φόντου, τα λανθασμένα εικονοστοιχεία φόντου μπορεί να είναι τόσο πολλά και τόσο κοντά το ένα στο άλλο, ώστε η πράξη κλεισίματος να γεμίσει τα κενά ανάμεσά τους. Η αύξηση του κατωφλίου για τον αρχικό διαχωρισμό φόντου-προσκηνίου οδηγεί στην αποφυγή αυτού του ανεπιθύμητου αποτελέσματος, διότι μεγαλώνοντας την τιμή του κατωφλίου τα εικονοστοιχεία του προσκηνίου που ταξινομούνται ως εικονοστοιχεία του φόντου είναι περισσότερα από τα εικονοστοιχεία του φόντου που τα ταξινομούνται ως εικονοστοιχεία του προσκηνίου. Έτσι, εφαρμόζοντας υπό αυτές τις συνθήκες την πράξη κλεισίματος θα κλείσουν τα κενά ανάμεσα σε σωστά εκτιμημένα εικονοστοιχεία του προσκηνίου Κατάτμηση κίνησης με χρήση στατιστικών μεθόδων Σχετικά πρόσφατα, κάποιες στατιστικές μέθοδοι για να εξαχθούν οι περιοχές αλλαγών από το φόντο έχουν εμπνευστεί από τις βασικές μεθόδους αφαίρεσης φόντου που ήδη περιγράφηκαν. Οι στατιστικές αυτές προσεγγίσεις χρησιμοποιούν χαρακτηριστικά από ατομικά εικονοστοιχεία ή από ομάδες τους για να κατασκευάσουν πιο σύνθετα μοντέλα για το φόντο. Οι στατιστικές αυτών των μοντέλων μάλιστα, αλλάζουν δυναμική κατά τη διάρκεια της επεξεργασίας. Κάθε εικονοστοιχείο στην τρέχουσα εικόνα χαρακτηρίζεται ως εικονοστοιχείο πρώτου πλάνου ή φόντου αφού συγκριθεί με τις στατιστικές του ενίοτε μοντέλου φόντου. Αυτή η προσέγγιση γίνεται όλο και πιο δημοφιλής λόγω της σθεναρότητας που παρουσιάζει στο θόρυβο, στις σκιές, στις αλλαγές των συνθηκών φωτός κλπ. Το πιο αντιπροσωπευτικό παράδειγμα της κατηγορίας ονομάζεται μίγμα γκαουσσιανών (mixture of Gaussians MOG). Στη μέθοδο αυτή, το φόντο δεν είναι ένα καρέ με τιμές, όπως είδαμε στη προηγούμενη κατηγορία, αλλά παραμετρικό. Η κάθε θέση εικονοστοιχείου παριστάνεται από έναν αριθμό γκαουσσιανών συναρτήσεων που αθροίζονται όλες μαζί δημιουργώντας μία συσσωρευτική κατανομή πιθανότητας: 86

88 F i k i 1,, i (3.2) Ο μέσος όρος της κάθε γκαουσσιανής συνάρτησης μπορεί να γίνει αντιληπτός ως μια βάσιμη υπόθεση (educated guess) της τιμής του εικονοστοιχείου στην επόμενη εικόνα, θεωρώντας στο σημείο αυτό ότι τα εικονοστοιχεία ανήκουν γενικά στο φόντο. Το βάρος και η τυπική απόκλιση της κάθε συνάρτησης αποτελούν μέτρα της εμπιστοσύνης μας σε αυτή την υπόθεση όπου μεγαλύτερο βάρος και μικρότερο σημαίνουν μεγαλύτερη εμπιστοσύνη. Τυπικά χρησιμοποιούνται από τρείς έως πέντε γκαουσσιανές κατανομές για κάθε εικονοστοιχείο, ανάλογα με τους περιορισμούς στο μέγεθος της μνήμης του συστήματος. Για να καθορίστει αν ένα εικονοστοιχείο είναι μέρος του σκηνικού συγκρίνεται με τις αντίστοιχες γκαουσσιανές συναρτήσεις. Εάν η τιμή του βρίσκεται κοντά στη τυπική απόκλιση ενός στοιχείου του φόντου, σε επίπεδο μιας τάξης μεγέθους, θεωρείται ως μέρος του. Σε αντίθετη περίπτωση, καταχωρείται ως εικονοστοιχείο πρώτου πλάνου. Η μέθοδος αυτή είναι πολύ ισχυρή και περιέχει πολλές παραμέτρους με την αλλαγή των οποίων μπορεί να προσαρμοστεί σε οποιοδήποτε περιβάλλον. Λόγω της πολυπλοκοτητάς του όμως και σε σύγκριση με τα αποτελέσματα του επιλέγεται άλλη μέθοδος, για μείωση υπολογιστικού κόστους. Στο παρακάτω σχήμα φαίνονται τα αποτελέσματα: Σχήμα 3.8 Αποτελέσματα από την χρήση της τεχνικής των στατιστικών μεθόδων για τα δύο βίντεο σε διαφορετικά χρονικά καρέ. Τα αποτελέσματα της τεχνικής αυτής δείχνουν ότι πρέπει να περάσει κάποιος χρόνος ώστε ολόκληρο το αντικείμενο να περάσει στο προσκήνιο. Και στα δύο βίντεο στα αρχικά καρέ το αντικείμενο δεν παρουσιάζεται ολόκληρο ενώ όσο περνάει ο χρόνος αυτό φτιάχνει. Ο θόρυβος στο πρώτο βίντεο φαίνεται αυξημένος σε σύγκριση με τις άλλες μεθόδους, ενώ παρατηρείται θόρυβος και στο δεύτερο βίντεο κάτι το οποίο δεν 87

89 είχε παρατηρηθεί σε καμία από τις προηγούμενες μεθόδους. Λόγω των πολλών παραμέτρων της μεθόδου, υπάρχουν πολλές εναλλακτικές για να προσαρμοστεί ο αλγόριθμος σε μια σκηνή και να δημιουργηθούν πιο καλές εικόνες από τις παραπάνω. Παρόλα αυτά, ο χαρακτηριστικά μεγάλος βαθμός πολυπλοκότητας και η ανάγκη επαναπροσδιορισμού των παραμέτρων σε κάθε αλλαγή της σκηνής ενδιαφέροντος, καθιστούν τη τεχνική αυτή ακατάλληλη Τμηματοποίηση των αντικειμένων με κατάτμηση γράφων (graph cuts) Ο θόρυβος της κάμερας υποδηλώνει ότι ακόμα και τα εικονοστοιχεία του φόντου δεν θα έχουν σταθερές τιμές από καρέ σε καρέ, αλλά αντίθετα θα έχουν μια κατανομή γύρω από μια χαρακτηριστική τιμή. Αν το φόντο περιλαμβάνει μη-στατικά στοιχεία (όπως βλάστηση, ρούχα ή χαλίκια) που παρουσιάζουν μεγάλες διακυμάνσεις φωτεινής έντασης, τότε η στατιστική απόκλιση των εικονοστοιχείων του φόντου μπορεί να είναι αρκετά μεγάλη. Κινούμενα αντικείμενα στο προσκήνιο μπορεί να προκαλέσουν σκιές και ανακλάσεις στις περιοχές του φόντου, με αποτέλεσμα τα εικονοστοιχεία των συγκεκριμένων περιοχών να αλλάζουν σημαντικά. Επίσης, τα εικονοστοιχεία των αντικειμένων που βρίσκονται στο προσκήνιο μπορεί να μην έχουν αρκετή αντίθεση με τα εικονοστοιχεία του φόντου που σκιάζουν, είτε λόγω συγκάλυψης, είτε κατά τύχη. Έτσι, η σύγκριση ενός εικονοστοιχείου ενός δεδομένου καρέ με ένα μοντέλο φόντου για αυτό το εικονοστοιχείο δεν μπορεί με βεβαιότητα να κατατάξει το εικονοστοιχείο σαν εικονοστοιχείο του φόντου ή του προσκηνίου χωρίς κάποιο ενδεχόμενο σφάλμα. Ο αλγόριθμος που παρουσιάζεται εδώ χρησιμοποιεί πληροφορίες (οι οποίες θα απορριπτόντουσαν από την κατωφλίωση) για τη δημιουργία ενός γράφου, συγχωνεύοντας όλες τις διαφορές που μετρήθηκαν μεταξύ του τρέχοντος καρέ και του φόντου. Οι σύνδεσμοι στον γράφο αντικατοπτρίζουν την γειτνίαση των εικονοστοιχείων στην εικόνα, επιτρέποντας έτσι σε κάθε εικονοστοιχείο να επηρεάσει τα γειτονικά του εικονοστοιχεία. Ποιοτικά, τα αποτελέσματα αυτής της τεχνικής δείχνουν καθαρότερα και πιο σωστά. Αντίθετα με τη μορφολογική προσέγγιση που αναφέρθηκε σε προηγούμενη παράγραφο, ο αλγόριθμος κατάτμησης γράφων ξεκινάει με τη δημιουργία ενός γράφου βασισμένου στην εικόνα. Κάθε εικονοστοιχείο pij της εικόνας γεννά μια κορυφή υij στον γράφο [42]. Δύο επιπλέον κορυφές αντιστοιχούν στην πηγή και στο δέκτη, αναπαριστώντας το προσκήνιο και το φόντο αντίστοιχα. Το παρακάτω σχήμα δείχνει έναν γράφο που έχει δημιουργηθεί από ένα μικρό 3x3 τμήμα μιας εικόνας. Μία τυπική κορυφή στον γράφο ενώνεται με ακριβώς έξι κόμβους: την πηγή και τον δέκτη, συν τις κορυφές των τεσσάρων γειτόνων. Κορυφές που αντιστοιχούν σε εικονοστοιχεία που βρίσκονται στην άκρη της εικόνας θα έχουν λιγότερες συνδέσμους με γείτονες, ενώ η πηγή και ο δέκτης ενώνονται με όλες τις κορυφές των εικονοστοιχείων. 88

90 Σχήμα 3.9 Γράφος που έχει δημιουργηθεί από ένα 3x3 τμήμα μιας εικόνας. Κάθε εικονοστοιχείο αντιστοιχεί σε μια κορυφή και όλες οι κορυφές συνδέονται με τη πηγή και τον δέκτη. Τα βάρη των συνδέσμων μεταξύ των κορυφών των εικονοστοιχείων και της πηγής s και του δέκτη t απορρέουν απευθείας από τη διαφορά μεταξύ του τρέχοντος καρέ και του φόντου στο αντίστοιχο εικονοστοιχείου, δ ij : w s, p ij ij (3.3) w p ij, t 2 ij (3.4) Οι σύνδεσμοι των γειτόνων (μεταξύ των κορυφών των εικονοστοιχείων) έχουν όλοι ακριβώς το ίδιο βάρος, ίσο με τ φορές μια δεύτερη παράμετρο α (που τυπικά παίρνει τιμές κοντά στο 1.0). w a (3.5) Η παράμετρος τ στην τελευταία εξίσωση παίζει ένα ρόλο ανάλογο με το κατώφλι στον μορφολογικό αλγόριθμο, αντιστοιχώντας στο επίπεδο πάνω από το οποίο το εικονοστοιχείο σχετίζεται περισσότερο με το προσκήνιο παρά με το φόντο. Η τιμή του α καθορίζει το πώς θα ομαδοποιηθούν ισχυρά γειτονικά εικονοστοιχεία. Αν η τιμή του α είναι μικρή, τότε αυτό σημαίνει ότι τα γειτονικά εικονοστοιχεία είναι ασθενώς συνδεδεμένα και το αποτέλεσμα θα μοιάζει με αυτό που θα λαμβανόταν αν γινόταν απλή κατωφλιοποίηση της εξόδου μετά τον διαχωρισμό του φόντου. Αντίθετα, αν το α έχει υψηλή τιμή τότε τα γειτονικά εικονοστοιχεία είναι ισχυρά συνδεδεμένα και η έξοδος θα περιλαμβάνει μεγαλύτερες ομοειδείς ομάδες. Έτσι, όταν η είσοδος έχει θόρυβο, απαιτούνται υψηλότερες τιμές για το α, προκειμένου να λειανθούν μεγάλες ομάδες από εικονοστοιχεία θορύβου. Αφού λοιπόν, δημιουργηθεί ο γράφος τυπικές μέθοδοι βρίσκουν τη βέλτιστη κατάτμηση (ελάχιστο κόστος), ώστε να διαχωριστεί η πηγή από τον δέκτη. Μετά την 89

91 κατάτμηση, κάθε κόμβος του γράφου θα βρίσκεται σε μία από τις δύο πλευρές του cut και θα παραμένει συνδεδεμένος είτε μόνο με τη πηγή, είτε μόνο με τον δέκτη. Ο αλγόριθμος αντιστοιχεί τους κόμβους που είναι συνδεδεμένοι με την πηγή στο προσκήνιο, ενώ αυτούς που είναι συνδεδεμένοι με τον δέκτη στο φόντο. Παρακάτω συγκρίνεται η απόδοση των δύο αλγορίθμων, αυτού που βασίζεται στη μορφολογική προσέγγιση και αυτού που βασίζεται στη κατάτμηση γράφων. Η χρήση τεχνητών δεδομένων μας επιτρέπει να ελέγξουμε προσεκτικά τις πειραματικές συνθήκες. Το σχήμα 3.10 (a) δείχνει το πρότυπο δοκιμής (test pattern), το οποίο περιλαμβάνει ακριβείς διαβαθμίσεις από τραχιά σε εκλεπτυσμένα δεδομένα (from coarse to fine). Το τμήμα της εικόνας στο δεξιό άκρο περιλαμβάνει γραμμές πλάτους ενός εικονοστοιχείου που απέχουν ένα μόνο εικονοστοιχείο η μια απ την άλλη, ενώ όσο κινούμαστε προς το αριστερό τμήμα της εικόνας διπλασιάζονται τα πλάτη και οι αποστάσεις των γραμμών. Στο σχήμα 3.10 τα (b) και (f) δείχνουν τις εικόνες που χρησιμοποιήθηκαν ως είσοδος στους αλγορίθμους, οι οποίες προέκυψαν απ την αρχική εικόνα με προσθήκη θορύβου. Ο θόρυβος σε κάθε εικονοστοιχείο προκύπτει ανεξάρτητα, με βάση μια κανονική κατανομή γνωστής τυπικής απόκλισης, ώστε να δημιουργηθεί μια είσοδος με γνωστό λόγο σήματος προς θόρυβο (SNR signal-to-noise ratio). Στο σχήμα 3.10 τα (c)-(e) και (g)-(i) δείχνουν τα αποτελέσματα των αλγορίθμων για τις εισόδους b και f. Σχήμα 3.10 (a) Το καθαρό σήμα εισόδου. (b)-(e) Τα αποτελέσματα για SNR =2 : (b) Το σήμα εισόδου (c) με αλγόριθμο κατωφλίου (d) με μορφολογικό αλγόριθμο (e) με χρήση γράφου. (f)-(i) Τα αποτελέσματα για SNR =0.5 : (f) Το σήμα εισόδου (g) με αλγόριθμο κατωφλίου (h) με μορφολογικό αλγόριθμο (i) με χρήση γράφου. Το παρακάτω σχήμα 3.11 παρουσιάζει πίνακα που δείχνει το ποσοστό λαθών (error rate) για κάθε αλγόριθμο και για διαφορετικές τιμές του SNR, περιλαμβανομένου 90

92 αυτών του σχήματος Σαν βάση, στον πίνακα φαίνεται και η απόδοση του απλού αλγορίθμου κατωφλίωσης. Εκτός από τα ποσοστά λάθους, φαίνονται επίσης, και οι παραμετρικές τιμές που χρησιμοποιήθηκαν για να επιτευχθεί το αποτέλεσμα (δε φαίνεται μόνο η παράμετρος τα στον αλγόριθμο των γράφων, η οποία είναι πάντα 0.5). Οι τιμές που δόθηκαν αντιστοιχούν στα καλύτερα αποτελέσματα για κάθε δεδομένο αλγόριθμο με συγκεκριμένη είσοδο. Σχήμα 3.11 Το ποσοστό λαθών (error rate) για κάθε αλγόριθμο και για διαφορετικές τιμές του SNR, περιλαμβανομένου αυτών του σχήματος Κατάτμηση κίνησης μέσω χρονικής διαφοράς Η τεχνική αυτή λαμβάνει υπόψη τις διαφορές μεταξύ δύο ή τριών διαδοχικών εικόνων σε ένα βίντεο για να εξάγει τις κινούμενες περιοχές. Είναι μια πολύ απλή και ελαφριά μέθοδος ενώ ταυτόχρονα παρουσιάζει μεγάλη προσαρμοστικότητα μέσα σε δυναμικά περιβάλλοντα και απορρίπτει αποτελεσματικά τον θόρυβο που προέρχεται από το φόντο. Το μεγαλύτερό της ελάττωμα είναι ότι στη πιο απλή της μορφή δεν μπορεί να εξάγει όλα τα κινούμενα εικονοστοιχεία της οντότητας καθώς τα κομμάτια με ομοιόμορφα κατανεμημένες τιμές έντασης, όπως η πλευρά ενός αυτοκινήτου, αναγνωρίζονται λανθασμένα ως μέρη του φόντου. Έτσι παρατηρούνται συχνά τρύπες στο εσωτερικό της ζητούμενης περιοχής. Επίσης ένα σημαντικό ζήτημα είναι ο καθορισμός του κατωφλίου πέρα από το οποίο κάθε εικονοστοιχείο θα θεωρείται κομμάτι ενός κινούμενου αντικειμένου, καθώς η συγκεκριμένη μέθοδος είναι πολύ ευαίσθητη στο μέγεθος αυτό Κατάτμηση κίνησης με χρήση οπτικής ροής Η οπτικό ροή χρησιμοποιείται γενικότερα για να περιγράψει τη συνεκτική κίνηση κάποιων σημείων ή γνωρισμάτων μεταξύ των καρέ. Για τον εντοπισμό κίνησης μέσω οπτικής ροής παρατηρήθηκαν τα χαρακτηριστικά των διανυσμάτων ροής των κινούμενων αντικειμένων στο χρόνο ώστε να εντοπιστούν οι περιοχές αλλαγών. Οι μέθοδοι αυτές έχουν το πλεονέκτημα ότι μπορούν να χρησιμοποιηθούν για να εντοπίσουν κινούμενα αντικείμενα ακόμη και όταν παρουσιάζεται κίνηση της κάμερας. Παρόλα αυτά, οι περισσότεροι τρόποι υπολογισμού της ροής είναι υπολογιστικά πολύπλοκοι και πολύ ευαίσθητοι στο θόρυβο με αποτέλεσμα οι εν λόγω μέθοδοι να μην μπορούν να χρησιμοποιηθούν σε εφαρμογές πραγματικού χρόνου χωρίς εξειδικευμένο εξοπλισμό. 91

93 3.4 ΑΛΓΟΡΙΘΜΟΙ ΑΝΙΧΝΕΥΣΗΣ ΚΙΝΗΣΗΣ ΠΟΥ ΕΠΙΛΕΓΟΝΤΑΙ ΝΑ ΧΡΗΣΙΜΟΠΟΙΗΘΟΥΝ Εφόσον αναλύθηκαν παραπάνω τα θετικά και τα αρνητικά των δημοφιλέστερων τεχνικών κατάτμησης κίνησης, παρακάτω θα παρουσιαστούν οι αλγόριθμοι που επιλέγονται να χρησιμοποιηθούν στη συγκεκριμένη εφαρμογή. Σχήμα 3.12 Μέθοδοι ανίχνευσης κίνησης Υπάρχουν πολλές προσεγγίσεις για την ανίχνευση κίνησης σε μια συνεχή ροή βίντεο[43]. Όλα αυτά βασίζονται στη σύγκριση του τρέχοντος καρέ βίντεο με ένα από τα προηγούμενα καρέ ή με κάτι που θα ονομαστεί φόντο. Στην περιγραφή αυτών των αλγορίθμων θα χρησιμοποιηθεί το AForge.NET πλαίσιο. Μία από τις πιο κοινές προσεγγίσεις είναι να συγκριθεί το τρέχον καρέ με το προηγούμενο. Αυτό είναι χρήσιμο στη συμπίεση βίντεο, όταν θα πρέπει να εκτιμώνται οι μεταβολές και να καταγράφονται μόνο οι αλλαγές, όχι ολόκληρο το καρέ. Δεν είναι όμως η καλύτερη επιλογή για εφαρμογές ανίχνευσης κίνησης. Έστ&omega