Αναγνώριση Χειρονομιών-actions σε συνθήκες έντονου ανομοιόμορφου φωτισμού



Σχετικά έγγραφα
Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση 12 η. Θεωρία Χρώματος και Επεξεργασία Έγχρωμων Εικόνων

Συστήματα Πολυμέσων. Ενότητα 4: Θεωρία Χρώματος. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

Εφαρμογές Πληροφορικής

ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014

ΠΛΗΡΟΦΟΡΙΚΗ I. 7 η ΔΙΑΛΕΞΗ Γραφικά με Υπολογιστή

Μοντελοποίηση τρισδιάστατου κόσμου σε πραγματικό κόσμο: το παράδειγμα του Kinect. ιδάσκων: Φ. Αζαριάδης Φοιτήτρια: Άρτεμις-Αγγελική Σφύρη

Σχεδιασμός και κατασκευή εφαρμογής ταξινόμησης αντικειμένων σε γραμμή μεταφοράς προϊόντων με χρήση όρασης μηχανής

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 11 η : θεωρία Χρώματος & Επεξεργασία Έγχρωμων Εικόνων

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακή Εικόνα. Αντίληψη χρωμάτων Συστήματα χρωμάτων Κβαντισμός χρωμάτων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Εισαγωγή στη σχεδίαση κινούμενων γραφικών

Α.Τ.Ε.Ι. Ηρακλείου Ψηφιακή Επεξεργασία Εικόνας ιδάσκων: Βασίλειος Γαργανουράκης. Ανθρώπινη Όραση - Χρωµατικά Μοντέλα

Η χρήση του χρώµατος στη χαρτογραφία και στα ΣΓΠ

ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

RobotArmy Περίληψη έργου

Ηχρήση του χρώµατος στους χάρτες

Επεξεργασία Χαρτογραφικής Εικόνας

Έγχρωµο και Ασπρόµαυρο Φως

Σχεδιαστικά Προγράμματα Επίπλου

Οδηγίες σχεδίασης στο περιβάλλον Blender

Τεχνολογία Πολυμέσων. Ενότητα # 5: Εικόνα Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Εικόνες και γραφικά. Τεχνολογία Πολυµέσων 05-1

Αρχιτεκτονική σχεδίαση με ηλεκτρονικό υπολογιστή

Γνωστική Ψυχολογία Ι (ΨΧ32)

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

2.0 ΒΑΣΙΚΕΣ ΓΝΩΣΕΙΣ-ΟΡΟΛΟΓΙΕΣ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΕΙΚΟΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ. Γάντι δεδομένων. Το γάντι δεδομένων είναι. Τρισδιάστατος ήχος

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB )

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

Οδηγός ποιότητας χρωμάτων

Συστήματα συντεταγμένων

Εισαγωγή σε οπτική και μικροσκοπία

Ψηφιοποίηση και Ψηφιακή Επεξεργασία Εικόνας

ΦΩΤΟΡΕΑΛΙΣΜΟΣ & ΚΙΝΗΣΗ (ΘΕΩΡΙΑ)

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Εισαγωγή στο 3DS Max 2009

Ανάκτηση πολυμεσικού περιεχομένου

Βίντεο και κινούµενα σχέδια

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. 4o Εργαστήριο Σ.Α.Ε

Ζωγραφική Γλυπτική Χαρακτική Διακοσμητική

Σχεδίαση με Ηλεκτρονικούς Υπολογιστές

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Γραφικά Ι. Ενότητα 1: Εισαγωγή. Θεοχάρης Θεοχάρης Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής και Τηλεπικοινωνιών

Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Οδηγός ποιότητας χρωμάτων

ΦΩΤΟΓΡΑΦΙΑ I Β Ενιαίου Λυκείου. (μάθημα ενδιαφέροντος)

ΤΕΛΙΚΕΣ ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ (6 Μονάδες ECTS)- Ακαδημαϊκό Έτος

Κεφάλαιο 11 Πολυμέσα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

ΣΧΕΔΙΑΣΗ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΧΡΗΣΗ ΥΠΟΛΟΓΙΣΤΩΝ (E-CAD) ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ

Ανάπτυξη Χωρικής Αντίληψης και Σκέψης

Εφαρμογές που συνδυάζουν ταυτόχρονα πολλαπλά μέσα : Κί Κείμενο, Εικόνα, Ήχος, Video, Animation. Στα υπερμέσα η πρόσπέλαση της πληροφορίας γίνεται

Προτεινόμενα Θέματα Διπλωματικών Εργασιών

ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων:

DIP_01 Εισαγωγή στην ψηφιακή εικόνα. ΤΕΙ Κρήτης

Κεφάλαιο 11 Πολυμέσα. Εφ. Πληροφορικής Κεφ. 11 Καραμαούνας Π. 1

Αναγνώριση Προτύπων Ι

Γραφικά & Οπτικοποίηση. Κεφάλαιο 1. Εισαγωγή. Γραφικά & Οπτικοπίηση: Αρχές & Αλγόριθμοι Κεφάλαιο 1

Οπτική αντίληψη. Μετά?..

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Παρατηρώντας την κίνηση των παιδιών Πλοήγηση

ΣΧΕΔΙΑΣΗ ΤΕΜΑΧΙΩΝ ΣΕ ΣΥΣΤΗΜΑ CAD ΚΑΙ ΕΝΤΑΞΗ ΤΟΥΣ ΣΕ ΕΚΠΑΙΔΕΥΤΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΕΝΤΟΠΙΣΜΟΣ ΑΝΤΙΚΕΙΜΕΝΩΝ ΑΠΟ ΠΟΛΛΑΠΛΕΣ ΚΑΜΕΡΕΣ»

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Εισαγωγή. Γραφικά. Μοντέλο (Πληροφορίες για Περιεχόµενο εικόνας. Επεξεργασία Εικόνων. Εικόνα. Τεχνητή Όραση 1.1. Εργα: : & ΣΚΕΠΣΙΣ (ΕΠΕΑΚ

Εργαλεία Δημιουργίας Τρισδιάστατων Γραφικών

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΌΡΑΣΗ. Εργασία Β Τετράμηνου Τεχνολογία Επικοινωνιών Μαρία Κόντη

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

Ψηφιοποίηση και Ψηφιακή Επεξεργασία Εικόνας

ΣΧΕΔΙΑΣΗ ΜΗΧΑΝΟΛΟΓΙΚΩΝ ΚΑΤΑΣΚΕΥΩΝ ΜΕ Η/Υ (Computer Aided Design)

Κεφάλαιο 1. Εισαγωγή στα συστήματα σχεδιομελέτης και παραγωγής με χρήση υπολογιστή computer aided design and manufacture (cad/cam)

Εφαρμοσμένη Βελτιστοποίηση

Εισαγωγή Ασπρόμαυρο Halftoning γάμμα Φως/Χρώμα Χρωματικά Μοντέλα Άλλα. 6ο Μάθημα Χρώμα. Γραφικα. Ευάγγελος Σπύρου

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

ΣΧΕΔΙΑΣΗ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΧΡΗΣΗ ΥΠΟΛΟΓΙΣΤΩΝ (E-CAD) ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ Χ. Βέργος Καθηγητής

Πτυχιακή διατριβή. Η επίδραση της τασιενεργής ουσίας Ακεταλδεΰδης στη δημιουργία πυρήνων συμπύκνωσης νεφών (CCN) στην ατμόσφαιρα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

ΕΦΑΡΜΟΓΗ ΕΠΑΥΞΗΜΕΝΗΣ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑΣ ΓΙΑ ΔΙΑΔΡΑΣΤΙΚΟΥΣ ΓΕΩΜΕΤΡΙΚΟΥΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥΣ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΜΟΝΤΕΛΩΝ CAD

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 10 η : Ανάλυση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Πρακτική εφαρμογή στην ειδικότητα: Λογισμικό για τη δημιουργία εργασίας εξαμήνου

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

Ψηφιακή Επεξεργασία Εικόνων

Α.2 Μαθησιακά Αποτελέσματα Έχοντας ολοκληρώσει επιτυχώς το μάθημα οι εκπαιδευόμενοι θα είναι σε θέση να:

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Χρήση του RAW ORF. Κείμενο, παρουσίαση, έρευνα: Ιορδάνης Σταυρίδης DNG ARW X3F DCR NEF CRW RAW RAF CR2 SRF MRW

ΣΥΜΒΟΛΙΣΜΟΣ ΧΑΡΤΟΓΡΑΦΙΚΩΝ ΟΝΤΟΤΗΤΩΝ

Microsoft POWERPOINT ΠΑΡΟΥΣΙΑΣΕΙΣ ECDL. Περιεχόμενα. Απόκτησε τώρα το δίπλωμα. για να θεωρείσαι Επαγγελματίας! 1 Σχεδιασμός Παρουσίασης

Εισαγωγή στην τεχνική της ψηφιοποίησης των διαφανειών και των μικροταινιών των χειρογράφων της συλλογής του Π.Ι.Π.Μ

H Συμβολή της Υπολογιστικής Σκέψης στην Προετοιμασία του Αυριανού Πολίτη

Transcript:

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στην Ηλεκτρονική και Επεξεργασία της Πληροφορίας Δ.Π.Μ.Σ.-Η.Ε.Π. Ειδική Επιστημονική Εργασία Αναγνώριση Χειρονομιών-actions σε συνθήκες έντονου ανομοιόμορφου φωτισμού Σωτηρόπουλος Παναγιώτης ΑΜ:145 Επιβλέπων καθηγητής: κ. Σπυρίδων Φωτόπουλος Πάτρα 2013

~ 2 ~

Περίληψη Ο ταχύτατος ρυθμός εξέλιξης της επιστήμης των υπολογιστών τις τελευταίες δεκαετίες είχε σαν αποτέλεσμα την επέκταση της χρήσης των υπολογιστών σε διάφορους τομείς της καθημερινής μας ζωής, από ένα συνεχώς αυξανόμενο αριθμό ανθρώπων. Ωστόσο παρατηρούνται ακόμα αρκετές δυσκολίες στον τρόπο χειρισμού διάφορων υπολογιστικών συστημάτων, γεγονός που προσανατολίζει την έρευνα στην ανάπτυξη συστημάτων των οποίων η χρήση βασίζεται στα "φυσικά" μέσα επικοινωνίας που χρησιμοποιούνται από τον άνθρωπο, όπως για παράδειγμα οι χειρονομίες. Αντικείμενο της παρούσας ειδικής επιστημονικής εργασίας αποτελεί η διερεύνηση και υλοποίηση ενός συστήματος αναγνώρισης ανθρώπινων χειρονομιών σε ακολουθίες εικόνων (video), με χρήση τεχνικών υπολογιστικής όρασης. Κατόπιν μιας σύντομης αναφοράς στην επικοινωνία ανθρώπου-υπολογιστή (ΕΑΥ), ερευνώνται εκτενώς τρία πεδία της όρασης υπολογιστών: το χρώμα, και ειδικότερα η χρήση του χρώματος για την κατάτμηση μιας εικόνας, η τεχνική της σύμπτωσης προτύπων (template matching) για αναζήτηση πρωτοτύπων εικόνων σε άλλες εικόνες και η μέθοδος αναγνώρισης κινούμενων αντικειμένων. Οι μεθοδολογίες αυτές συνδυάζονται για την ανάπτυξη του συστήματος αναγνώρισης χειρονομιών, το οποίο μπορεί να χρησιμοποιηθεί σε εφαρμογές όπως η αλληλεπίδραση με ηλεκτρονικούς υπολογιστές, σε κονσόλες βιντεοπαιχνιδιών και διάφορων συσκευών που χρησιμοποιούμε καθημερινά, όπως η τηλεόραση και το κινητό τηλέφωνο. Λέξεις - Κλειδιά όραση υπολογιστών, αναγνώριση χειρομορφών, σύμπτωση προτύπων, αναγνώριση κίνησης, ανίχνευση χρώματος δέρματος, μοντέλο χρώματος ~ 3 ~

~ 4 ~

Abstract The enormous rate of evolution of computer science in recent decades has resulted in expanding the use of computers in more and more areas of our everyday life, by more and more people. However there are still numerous difficulties in using various computer systems, therefore the research is oriented to the development of the use of which is based on more "natural" means that people use to communicate with each other, such as gestures. The subject of this master thesis is the study and development of a system for the recognition of human gestures in image sequences (video), using computer vision techniques. After a brief mention of Human- Computer Interaction extensively investigated three areas of computer vision: color, particularly the use of color for the segmentation of an image, the technique of template matching to search prototype images other images and recognition method of moving objects. These methodologies combine the development of gesture recognition system, which can be used in applications such as computer interaction, video game consoles and various devices that we use every day, including television and mobile phone. Keywords Human-computer interaction, computer vision, recognition of hand posture, motion recognition, skin color detection, color model ~ 5 ~

~ 6 ~

Ευχαριστίες Αισθάνομαι την ανάγκη σε αυτές τις λίγες γραμμές να εκφράσω τις θερμότερες ευχαριστίες μου στον επιβλέποντα καθηγητή μου, κ. Σπυρίδωνα Φωτόπουλο, για τη δυνατότητα που μου έδωσε να ασχοληθώ με ένα τόσο ενδιαφέρον θέμα, αλλά και για την αμέριστη βοήθεια και συμπαράστασή του σε όλες τις φάσεις εκπόνησης της παρούσας διπλωματικής εργασίας. Θα ήθελα επίσης να ευχαριστήσω όλους τους καθηγητές μου για τις πολύτιμες γνώσεις που απέκτησα καθ' όλη τη διάρκεια των σπουδών μου στο Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στην Ηλεκτρονική και Επεξεργασία της Πληροφορίας. Τέλος θα ήθελα να ευχαριστήσω τον καλό φίλο μεταπτυχιακό Δημήτρη Καστανιώτη για τις πολύτιμες συμβουλές του και την καθοδήγησή του προκειμένου να ολοκληρωθεί η παρούσα εργασία. ~ 7 ~

~ 8 ~

Περιεχόμενα 1 Εισαγωγή... 13 1.1. Αντικείμενο της εργασίας... 14 2 Όραση Υπολογιστών και Επικοινωνία Ανθρώπου Μηχανής... 15 2.1. Εισαγωγή... 15 2.2. Όραση Υπολογιστών... 15 2.2.1. Κύρια προβλήματα και περιοχές εφαρμογών... 16 2.3. Επικοινωνία Ανθρώπου Υπολογιστή... 19 2.4. Επικοινωνία Ανθρώπου - Μηχανής με χρήση χειρονομιών... 20 3 Αναγνώριση Ανθρώπινων Χειρονομιών-hand gestures... 25 3.1. Εισαγωγή... 25 3.2. Ανίχνευση χειρομορφών... 25 3.3. Παρακολούθηση χειρονομίας και αναγνώριση κίνησης... 27 3.4. Σύνοψη... 29 4 Χρώμα... 31 4.1. Εισαγωγή... 31 4.2. Βασικά χρώματα... 31 4.3. Ο RGB χρωματικός χώρος... 33 4.4 Χρωματικοί χώροι που χρησιμοποιούνται για την χρωματική κατάτμηση του δέρματος (Skin Color Segmentation)... 35 4.4.1 Ο YCbCr χρωματικός χώρος... 35 ~ 9 ~

4.4.2. Ο HSV χρωματικός χώρος... 37 4.4.3. Ο CIE-Lab χρωματικός χώρος... 39 4.5. Χρώμα και Όραση Υπολογιστών... 41 4.5.1. Χρωματική κατάτμηση του δέρματος (Skin Color Segmentation)... 41 4.5.2. Κατασκευή μοντέλου χρώματος... 42 5 Αναγνώριση χειρομορφών με Σύμπτωση Προτύπων (Template Matching ) 45 5.1. Εισαγωγή... 45 5.2. Η έννοια της σύμπτωσης προτύπων... 46 5.3. Τεχνικές σύμπτωσης προτύπων... 47 5.4. Αναγνώριση χειρονομιών με σύμπτωση προτύπων... 50 5.5. Η μέθοδος Σύμπτωσης προτύπων στο σύστημα αναγνώρισης χειρονομιών... 51 6 Υλοποίηση Συστήματος Αναγνώρισης Ανθρώπινων Χειρονομιών... 53 6.1. Εισαγωγή...... 53 6.2. Βάσεις δεδομένων και αναγνώριση ανθρώπινων χειρονομιών. 54 6.2.1 Κατηγορίες βάσεων δεδομένων..... 54 6.2.2. Βάση δεδομένων του συστήματος (dataset)..... 56 6.3. Περιγραφή συστήματος αναγνώρισης ανθρώπινων χειρονομιών 58 6.3.1. Δημιουργία μοντέλου χρώματος..... 58 6.3.2. Αναγνώριση χειρομορφών με σύμπτωση προτύπων (template matching). 63 6.3.3. Διαδικασία δημιουργίας του target (training).. 64 6.3.4. Διαδικασία βελτίωσης του target.... 68 6.3.5 Αποτελέσματα του αλγορίθμου template matching.... 75 6.3.6. Σύστημα αναγνώρισης της κίνησης.... 77 6.4. Πλεονεκτήματα και περιορισμοί συστήματος.... 80 6.4.1. Πλεονεκτήματα συστήματος... 80 6.4.2. Περιορισμοί συστήματος... 81 6.5. Αποτελέσματα αξιολόγησης και παρατηρήσεις.. 82 ~ 10 ~

7 Σύνοψη και Μελλοντικές Επεκτάσεις....... 86 7.1. Σύνοψη της εργασίας και συμπεράσματα........ 86 7.2. Μελλοντικές επεκτάσεις.... 87 9 Βιβλιογραφία... 89 Παράρτημα. 93 ~ 11 ~

~ 12 ~

1 Εισαγωγή Στην εργασία αυτή, περιγράφεται ένα υπολογιστικό σύστημα που αφορά ένα από τα πιο διαδεδομένα μέσα επικοινωνίας, τις χειρονομίες. Η αλληλεπίδραση ανθρώπου υπολογιστή, τις τελευταίες δεκαετίες, έχει προσεγγιστεί με αρκετά διαφορετικό τρόπο, με την υπολογιστική όραση να αποτελεί έναν από τους προδρόμους της στον τομέα της. Στην καθημερινή ζωή, οι ανθρώπινες δραστηριότητες είναι αλληλένδετες με την χρήση υπολογιστικών συστημάτων. Με την αναγνώριση των χειρονομιών, οι δυσκολίες στη χρήση πολλών τεχνολογικών εφαρμογών, είναι δυνατόν να πραγματοποιηθούν με ένα πιο φιλικό προς το χρήστη περιβάλλον. Με την ενσωμάτωση χειρονομιών στους υπολογιστές οι εντολές ελέγχου εκτελούνται με ένα περισσότερο φιλικό και εύκολο για τον χρήστη τρόπο. Συσκευές όπως οι κονσόλες για παιχνίδια, τα συστήματα ασφαλείας και η τηλεόραση απαιτούν τηλεχειριστήρια από το χρήστη ή να ωθείται κάποιο κουμπί ή χρήση κάποιας οθόνης αφής για τη λειτουργία τους. Χρησιμοποιώντας την έννοια της αναγνώρισης χειρονομιών, είναι δυνατόν να προβάλλεται ένα δάχτυλο στην οθόνη του υπολογιστή, έτσι ώστε ο κέρσορας να κινηθεί ανάλογα. Αυτό θα μπορούσε ενδεχομένως να καταστήσει συμβατικές συσκευές εισόδου, όπως ποντίκια, πληκτρολόγια, ακόμα και οθόνες αφής περιττές. Τις τελευταίες δεκαετίες, αυτές οι συσκευές εξελίχθηκαν λόγω της ραγδαίας ανάπτυξης της τεχνολογίας, γεγονός που καθιστά ευκολότερη την λειτουργία από τη σκοπιά των χρηστών. Κατά την τελευταία δεκαετία, πολλές συσκευές που προηγουμένως λειτουργούσαν με πλήκτρα έχουν αντικατασταθεί με επιτυχία από την τεχνολογία αφής, στην οποία ο χρήστης δημιουργεί μια εντολή αγγίζοντας απλά μια οθόνη. Σήμερα, αναγνωρίζεται σαφώς η πιθανότητα μείωσης αυτών των αλληλεπιδράσεων ανθρώπου-μηχανής με μια απλή χειρονομία. Με λίγη φαντασία, η αναγνώριση χειρονομιών μπορεί να έχει διάφορες εφαρμογές στο σημερινό ~ 13 ~

κόσμο όπως η αλληλεπίδραση με ηλεκτρονικούς υπολογιστές, οι κονσόλες βιντεοπαιχνιδιών και διάφορες συσκευές που χρησιμοποιούμε καθημερινά, όπως η τηλεόραση και το κινητό τηλέφωνο. 1.1. Αντικείμενο της εργασίας Λαμβάνοντας υπόψη τα όσα ήδη αναφέρθηκαν, κρίθηκε σκόπιμη η μελέτη στην παρούσα εργασία ορισμένων τεχνικών υπολογιστικής όρασης με στόχο την υλοποίηση ενός συστήματος αναγνώρισης ανθρώπινων χειρονομιών. Αναλυτικότερα, αντικείμενο της εργασίας είναι η αναγνώριση εννέα χειρονομιών που εκτελούνται από ένα κινούμενο χέρι, η κίνηση του οποίου καταγράφεται σε ακολουθίες εικόνων (video). Το αποτέλεσμα της αναγνώρισης της χειρομορφής αλλά και της κίνησης προκύπτει μετά από επεξεργασία των εισερχόμενων εικόνων (frame). Κατόπιν επεξεργασίας και χρησιμοποιώντας την τεχνική της σύμπτωσης προτύπων (template matching) αναγνωρίζεται η εκάστοτε διάταξη του χεριού (χειρομορφή) και αμέσως μετά η κίνηση του. Το σύστημα αυτό, που υλοποιήθηκε στο Matlab, είναι σε θέση να λειτουργήσει σε πραγματικό χρόνο ωστόσο. Τα video εισόδου που χρησιμοποιήθηκαν προέρχονται από την βάση δεδομένων που δημοσίευσε το πανεπιστήμιο του Cambridge [7] με σκοπό την αξιολόγηση του συστήματος. Το σύστημα που αναπτύχτηκε έχει την δυνατότητα της μετατροπής της κίνησης του χεριού σε μορφή κατάλληλη για μορφοποίηση εντολών από κάποιο υπολογιστικό σύστημα που μπορούν να χρησιμοποιηθούν σε ποικίλες εφαρμογές. ~ 14 ~

2 Όραση Υπολογιστών και Επικοινωνία Ανθρώπου - Μηχανής 2.1. Εισαγωγή Στο εισαγωγικό αυτό κεφάλαιο γίνεται μια σύντομη εισαγωγή στον κλάδο της Όρασης Υπολογιστών και μελετάται η επικοινωνία ανθρώπου-μηχανής. Αφού δοθεί ένας σύντομος ορισμός του πεδίου της Όρασης Υπολογιστών, παρουσιάζονται οι κύριες κατευθύνσεις αλλά και τα κυριότερα προβλήματα και εφαρμογές του. Στη συνέχεια του κεφαλαίου δίνεται μια σύντομη περιγραφή της έννοιας της επικοινωνίας ανθρώπου-μηχανής και αναλύονται οι στόχοι και οι τρόποι πραγματοποίησης της επικοινωνίας αυτής. Τέλος, εξετάζεται η χρήση χειρονομιών ως μέσο για την πραγματοποίηση της επικοινωνίας ανθρώπου-μηχανής γενικότερα. 2.2. Όραση Υπολογιστών Η όραση υπολογιστών είναι ένα πεδίο που περιλαμβάνει μεθόδους για την απόκτηση, επεξεργασία, ανάλυση και κατανόηση εικόνων, σε γενικές γραμμές, μεγάλων διαστάσεων δεδομένων από τον πραγματικό κόσμο με σκοπό την παραγωγή αριθμητικής ή συμβολικής πληροφορίας.[1] ~ 15 ~

Το βασικό θέμα για την ανάπτυξη του τομέα αυτού ήταν να αντιγράψουν τις δυνατότητες της ανθρώπινης όρασης, από ηλεκτρονικά μέσα, για την αντίληψη και κατανόηση μιας εικόνας. Αυτή η αντίληψη της εικόνας μπορεί να θεωρηθεί ως ο διαχωρισμός των συμβολικών πληροφοριών από τα δεδομένα της εικόνας χρησιμοποιώντας μοντέλα τα οποία κατασκευάζονται με τη βοήθεια της γεωμετρίας, φυσικής, στατιστικής και τη θεωρία μάθησης. Η όραση υπολογιστών έχει επίσης περιγραφεί ως η επιχείρηση της αυτοματοποίησης και της ενσωμάτωσης ενός ευρύ φάσματος διαδικασιών και αναπαραστάσεων για την αντίληψη της όρασης.[2] Το πεδίο εφαρμογών της όρασης υπολογιστών είναι ευρύ και περιλαμβάνει εφαρμογές όπως τα βιομηχανικά συστήματα μηχανικής όρασης, η έρευνα στην τεχνητή νοημοσύνη και υπολογιστές ή ρομπότ που μπορούν να κατανοήσουν τον κόσμο γύρω τους. Η όραση υπολογιστών και τα πεδία μηχανικής όρασης έχουν μεγάλη συσχέτιση. Η Μηχανική όραση συνήθως αναφέρεται ως μια διαδικασία που συνδυάζει αυτοματοποιημένη ανάλυση εικόνας με άλλες μεθόδους και τεχνολογίες για την παροχή αυτοματοποιημένων μεθόδων επιθεώρησης και καθοδήγησης ρομπότ σε βιομηχανικές εφαρμογές. Ως επιστημονικός κλάδος, η όραση υπολογιστών ασχολείται με τη θεωρία πίσω από τεχνητά συστήματα που συλλέγουν πληροφορίες από τις εικόνες. Τα δεδομένα μιας εικόνας μπορεί να πάρουν πολλές μορφές, όπως αλληλουχίες βίντεο, η λήψη από πολλαπλές κάμερες, ή ακόμα πολυδιάστατα δεδομένα από ένα ιατρικό σαρωτή.[20] 2.2.1. Περιοχές εφαρμογών και σημαντικά προβλήματα Ως τεχνολογική εξέλιξη, η όραση υπολογιστών επιδιώκει να εφαρμόσει τις θεωρίες και τα μοντέλα της για την κατασκευή υπολογιστικών συστημάτων όρασης. Παραδείγματα εφαρμογών της όρασης υπολογιστών περιλαμβάνουν συστήματα για: Διαδικασία έλεγχου, π.χ., ένα βιομηχανικό ρομπότ Πλοήγησης, π.χ., από ένα αυτόνομο όχημα ή κινούμενο ρομπότ Ανίχνευση γεγονότων-actions, π.χ., για την οπτική παρακολούθηση ή μέτρηση ατόμων Οργάνωση των πληροφοριών, π.χ., για την ευρετηρίαση βάσεων δεδομένων που αποτελούνται ένα σύνολο εικόνων η ακολουθιών εικόνων Μοντελοποίηση αντικειμένων ή περιβαλλόντων, π.χ., ανάλυση ιατρικής εικόνας ή τοπογραφική διαμόρφωση Αλληλεπίδραση, π.χ., ως είσοδος σε μία συσκευή για την αλληλεπίδραση ανθρώπου - υπολογιστή ~ 16 ~

Αυτόματο έλεγχο, π.χ., σε κατασκευαστικές εφαρμογές Υπό-περιοχές της όρασης υπολογιστών περιλαμβάνουν την ανοικοδόμηση σκηνής, την ανίχνευση γεγονότων-actions, παρακολούθηση βίντεο, αναγνώριση αντικειμένων και χειρονομιών, τη μάθηση, την εκτίμηση της κίνησης, και την αποκατάσταση της εικόνας. Το κλασσικό πρόβλημα στην όραση υπολογιστών, επεξεργασία εικόνας και μηχανικής όρασης είναι το να διαπιστωθεί κατά πόσον ή όχι τα δεδομένα μιας εικόνας περιέχουν κάποιο συγκεκριμένο αντικείμενο, χαρακτηριστικό, ή δραστηριότητα. Το πρόβλημα αυτό μπορεί να λυθεί κανονικά και χωρίς μεγάλη προσπάθεια από έναν άνθρωπο, αλλά δεν έχει ακόμα επιλυθεί ικανοποιητικά στην υπολογιστική όραση για τη γενικότερη περίπτωση όπου συναντώνται αυθαίρετα αντικείμενα σε αυθαίρετες καταστάσεις. Οι υπάρχουσες μέθοδοι για την αντιμετώπιση αυτού του προβλήματος μπορούν στην καλύτερη περίπτωση να βρουν λύση μόνο για συγκεκριμένα αντικείμενα, όπως απλά γεωμετρικά αντικείμενα (π.χ., πολύεδρα), τα ανθρώπινα πρόσωπα, τυπωμένοι ή χειρόγραφοι χαρακτήρες, οχήματα, και σε ειδικές περιπτώσεις, υπό συνθήκες καθορισμένου φωτισμού, το υπόβαθρο. Οι διαφορετικές ποικιλίες του προβλήματος αναγνώρισης που περιγράφονται από τις παρακάτω κατηγορίες [20]: Αναγνώριση αντικειμένων - ένα ή περισσότερα προκαθορισμένα αντικείμενα ή αντικείμενα μάθησης, ή κλάσεις αντικειμένων μπορούν να αναγνωριστούν, συνήθως στις 2Δ θέσεις τους στην εικόνα ή 3Δ θέσεις στη σκηνή. Ταυτοποίηση - ένα μεμονωμένο στιγμιότυπο ενός αντικειμένου αναγνωρίζεται. Τα παραδείγματα περιλαμβάνουν την αναγνώριση του προσώπου ή δακτυλικών αποτυπωμάτων ενός συγκεκριμένου ατόμου, ή την αναγνώριση ενός συγκεκριμένου οχήματος. Ανίχνευση - τα δεδομένα εικόνας σαρώνονται για μια συγκεκριμένη κατάσταση. Παραδείγματα περιλαμβάνουν την ανίχνευση των πιθανών ή μη φυσιολογικών κυττάρων ή ιστούς σε ιατρικές εικόνες ή ανίχνευση ενός οχήματος σε ένα αυτόματο σύστημα διοδίων. Η ανίχνευση βασίζεται σε σχετικά απλούς και γρήγορους υπολογισμούς και χρησιμοποιείται μερικές φορές για την εύρεση μικρότερων περιοχών ενδιαφέροντος δεδομένων μιας εικόνας τα οποία μπορούν να αναλύονται περαιτέρω με πιο απαιτητικές υπολογιστικά τεχνικές για να παράγουν μια σωστή ερμηνεία. ~ 17 ~

Υπάρχουν αρκετές εξειδικευμένες εργασίες που βασίζονται στη αναγνώριση, όπως: Ανάκτηση εικόνων βάση περιεχομένου περιλαμβάνει την εύρεση όλων των εικόνων σε ένα μεγαλύτερο σύνολο εικόνων που έχουν συγκεκριμένο περιεχόμενο. Το περιεχόμενο μπορεί να καθοριστεί με διάφορους τρόπους, για παράδειγμα, από την άποψη της σχετικής ομοιότητας μια εικόνα του στόχου (να μου δώσει όλες τις εικόνες παρόμοιες με την εικόνα X), είτε από την άποψη του υψηλού επιπέδου κριτήριων όπως η εισαγωγή κειμένου (να μου δώσει όλες τις εικόνες που περιέχει πολλά σπίτια, λαμβάνονται κατά τη διάρκεια του χειμώνα, και δεν έχουν αυτοκίνητα). Εκτίμηση θέσης - εκτίμηση της θέσης ή του προσανατολισμού ενός συγκεκριμένου αντικειμένου σε σχέση με την κάμερα. Ένα παράδειγμα εφαρμογής για την τεχνική αυτή θα μπορούσε να βοηθήσει ένα ρομπότ στην ανάκτηση αντικειμένων από έναν ιμάντα μεταφοράς σε γραμμή συναρμολόγησης ή επιλέγοντας στοιχεία από ένα κάδο. Η οπτική αναγνώριση χαρακτήρων (OCR) - αναγνώριση χαρακτήρων στις εικόνες εντύπων ή χειρόγραφα κείμενων, συνήθως με σκοπό την κωδικοποίηση του κειμένου σε μορφή πιο δεκτική στην επεξεργασία ή την τιμαριθμική αναπροσαρμογή (π.χ. ASCII). Ένα άλλο πρόβλημα στην όραση υπολογιστών είναι η ανοικοδόμηση σκηνής (Scene reconstruction). Λαμβάνοντας υπόψη μία, ή συνήθως περισσότερες, φωτογραφίες από μια σκηνή ή ένα βίντεο, η ανοικοδόμηση σκηνής στοχεύει στον υπολογισμό ενός 3D μοντέλου της σκηνής. Στην απλούστερη περίπτωση το μοντέλο μπορεί να είναι ένα σύνολο από 3D σημεία. Πιο εξελιγμένες μέθοδοι παράγουν ακόμα και ένα πλήρες 3D μοντέλο επιφάνειας. Η λήψη της 3D απεικόνισης δεν απαιτεί κίνηση ή σάρωση αλλά μόνο την εφαρμογή των σχετικών αλγορίθμων επεξεργασίας γεγονός που επιτρέπουν την ταχεία πρόοδο στον τομέα αυτό. Ένα 3Δ Πλέγμα αναφοράς μπορεί να χρησιμοποιηθεί για την απόκτηση 3D εικόνες από πολλαπλές γωνίες. Η αποκατάσταση εικόνας (Image restoration) αποτελεί ένα πρόβλημα στον τομέα της όρασης υπολογιστών. Ο στόχος της αποκατάστασης εικόνας είναι η απομάκρυνση του θορύβου (θόρυβος αισθητήρα, θαμπάδα κινήσεων, κλπ.) από τις εικόνες. Η απλούστερη δυνατή προσέγγιση για την αφαίρεση του θορύβου είναι διάφορα είδη φίλτρων, όπως χαμηλής διέλευσης φίλτρα ή φίλτρα διάμεσου. Πιο εξελιγμένες μεθόδους περιλαμβάνον ένα μοντέλο για το πώς μοιάζουν οι τοπικές δομές της εικόνας, ένα μοντέλο που τους διακρίνει από το θόρυβο. Ξεκινώντας με την ανάλυση των δεδομένων της εικόνας από την άποψη τοπικών δομών, όπως οι γραμμές ή ακμές, και στη συνέχεια με τον έλεγχο του φιλτραρίσματος με βάση τις τοπικές πληροφορίες από το στάδιο ανάλυσης, ένα καλύτερο επίπεδο αφαίρεσης θορύβου είναι επιτυγχάνεται συνήθως σε σύγκριση με τις απλούστερες προσεγγίσεις.[20] ~ 18 ~

2.3. Επικοινωνία Ανθρώπου - Υπολογιστή Η αλληλεπίδραση Ανθρώπου-Υπολογιστή (HCI) περιλαμβάνει τη μελέτη, το σχεδιασμό και το σχεδιασμό της αλληλεπίδρασης μεταξύ των ανθρώπων (χρήστες) και τους υπολογιστές. Συχνά θεωρείται ως η τομή της επιστήμης των υπολογιστών, επιστήμες της συμπεριφοράς, το σχεδιασμό και πολλούς άλλους τομείς σπουδών. Ο όρος διαδόθηκε από Card, Moran και Newell το 1983 από το βιβλίο τους, «Η Ψυχολογία της αλληλεπίδρασης Ανθρώπου-Υπολογιστή ". Ο όρος υποδηλώνει ότι, σε αντίθεση με άλλα εργαλεία με περιορισμένες μόνο χρήσεις ένας υπολογιστής έχει πολλές δυνατότητες για χρήση και αυτή η χρήση λαμβάνει χώρα μέσα από ένα ανοικτό διάλογο μεταξύ χρήστη και του υπολογιστή. Επειδή η αλληλεπίδραση ανθρώπου-υπολογιστή μελετά, σε συνδυασμό, τον άνθρωπο και την μηχανή αντλεί πληροφορίες τόσο από την πλευρά της μηχανής όσο και την ανθρώπινη πλευρά. Από την πλευρά της μηχανής, οι τεχνικές σε γραφικά ηλεκτρονικών υπολογιστών, τα λειτουργικά συστήματα, γλώσσες προγραμματισμού και περιβάλλοντα ανάπτυξης είναι σημαντικές. Από την ανθρώπινη πλευρά, η θεωρία της επικοινωνίας, η γλωσσολογία, οι κοινωνικές επιστήμες, η γνωστική ψυχολογία, και οι ανθρώπινοι παράγοντες, όπως η ικανοποίηση των χρηστών ηλεκτρονικών υπολογιστών είναι σχετικές. Λόγω του διεπιστημονικού χαρακτήρα του HCI, οι άνθρωποι με διαφορετικά ενδιαφέροντα και ειδικότητες συμβάλουν στην επιτυχία της. Η αλληλεπίδραση Ανθρώπου-Υπολογιστή μερικές φορές αναφέρεται ως αλληλεπίδραση ανθρώπου-μηχανής (MMI). [21] Ένας βασικός στόχος της αλληλεπίδρασης Ανθρώπου-Υπολογιστή είναι η βελτίωση των αλληλεπιδράσεων μεταξύ χρηστών και υπολογιστών, κάνοντας τους υπολογιστές πιο εύχρηστους και δεκτικούς στις ανάγκες του χρήστη. Συγκεκριμένα, η HCI ασχολείται με: Ανάπτυξη μεθοδολογιών και των διαδικασιών για το σχεδιασμό διασυνδέσεων (δηλαδή, δίνεται ένα έργο και μια κατηγορία χρηστών, σχεδιάζεται η καλύτερη δυνατή διασύνδεση με συγκεκριμένους περιορισμούς, όπως η βελτιστοποίηση για μια επιθυμητή ιδιότητα, η εκμάθηση ή η αποτελεσματικότητα της χρήσης) Μέθοδοι για την υλοποίηση των διασύνδεσης (π.χ. εργαλείων λογισμικού και βιβλιοθηκών, Αποδοτικοί αλγόριθμοι) Τεχνικές για την αξιολόγηση και τη σύγκριση της διασύνδεσης Ανάπτυξη νέων τύπων διασύνδεσης και τεχνικές αλληλεπίδρασης ~ 19 ~

Ανάπτυξη περιγραφικών και προγνωστικών μοντέλων και θεωρίες αλληλεπίδρασης Εικόνα 2.1: Επικοινωνία Ανθρώπου Μηχανής Ένας μακροπρόθεσμος στόχος της αλληλεπίδρασης Ανθρώπου-Υπολογιστή είναι ο σχεδιασμός συστημάτων που ελαχιστοποιούν το φράγμα μεταξύ του γνωστικού μοντέλου του ανθρώπου για το τι θέλει να πετύχει και την κατανόηση του υπολογιστή της εργασίας του χρήστη. 2.4. Επικοινωνία Ανθρώπου - Μηχανής με χρήση χειρονομιών Η Αναγνώρισης χειρονομιών είναι ένας τομέας στην επιστήμη των υπολογιστών και της τεχνολογίας γλώσσας που έχει στόχο την ερμηνεία ανθρώπινων χειρονομιών μέσω μαθηματικών αλγορίθμων. Χειρονομίες μπορεί να προέρχονται από ~ 20 ~

οποιαδήποτε σωματική κίνηση ή κατάσταση, αλλά συνήθως προέρχονται από το πρόσωπο ή το χέρι. Τα τελευταία χρόνια η επικοινωνία ανθρώπου-υπολογιστή επικεντρώνεται στον τομείς που περιλαμβάνουν την αναγνώριση συναισθημάτων από το πρόσωπο και στην αναγνώριση χειρονομιών. Πολλές προσεγγίσεις έχουν γίνει χρησιμοποιώντας κάμερες και αλγορίθμους υπολογιστικής όρασης με σκοπό την κατανόηση και ερμηνεία της νοηματικής γλώσσας. Ωστόσο, ο εντοπισμός και η αναγνώριση της στάσης του σώματος, το βάδισμα, και οι ανθρώπινες συμπεριφορές είναι, επίσης, το θέμα των τεχνικών αναγνώρισης χειρονομιών. [22] Η αναγνώριση χειρονομιών μπορεί να θεωρηθεί ως ένας τρόπος για τους υπολογιστές για να αρχίσουν να αντιλαμβάνονται τη γλώσσα του σώματος, δημιουργώντας έτσι μια πιο ευρεία γέφυρα μεταξύ μηχανών και ανθρώπων από πρωτόγονες μεθόδους χειρισμού κειμένου ή ακόμα και GUIs (γραφικά περιβάλλοντα), τα οποία εξακολουθούν να περιορίζουν την πλειοψηφία της χρήσης Περιφερικών όπως το πληκτρολόγιο και το ποντίκι. Η αναγνώριση χειρονομιών επιτρέπει στους ανθρώπους να επικοινωνούν με την μηχανή (HCI) και να αλληλεπιδρούν φυσικά χωρίς μηχανικές συσκευές. Χρησιμοποιώντας την έννοια της αναγνώρισης χειρονομιών, είναι δυνατόν να προβάλλεται ένα δάχτυλο στην οθόνη του υπολογιστή, έτσι ώστε ο κέρσορας να κινηθεί ανάλογα. Αυτό θα μπορούσε ενδεχομένως να καταστήσει συμβατικές συσκευές εισόδου, όπως ποντίκια, πληκτρολόγια, ακόμα και οθόνες αφής περιττές. Η βιβλιογραφία περιλαμβάνει τις τρέχουσες εργασίες στον τομέα της όρασης υπολογιστών για καταγραφή χειρονομιών ή γενικότερα κινήσεις του ανθρώπου με χρήση καμερών που συνδέονται με έναν υπολογιστή. [23] [24] [25] [26] Όπως επίσης, υπάρχουν διάφοροι τύποι χειρονομιών που μπορούν να αναγνωριστούν από τους υπολογιστές υπάρχει και ένα ευρύ πεδίο χρήσης τους όπως[27]: Αναγνώριση νοηματικής γλώσσας. Ακριβώς όπως με την αναγνώριση της ομιλίας, όπου μετατρέπεται η ομιλία σε κείμενο, ορισμένα είδη λογισμικών αναγνώρισης χειρονομιών μπορούν να μεταγράψουν τα σύμβολα εκπροσωπούνται μέσω νοηματικής γλώσσας σε κείμενο Ρομποτική ιατρική. Με τη χρήση κατάλληλων αισθητήρων (επιταχυνσιόμετρα και γυροσκόπια) επάνω στο σώμα του ασθενούς και από την ανάγνωση των τιμών από τους αισθητήρες, τα ρομπότ μπορούν να βοηθήσουν στην αποκατάσταση των ασθενών. Το καλύτερο παράδειγμα μπορεί να είναι αποκατάσταση μετά από εγκεφαλικό. Ένδειξη κατεύθυνσης μέσω της κατάδειξης. Η χρήση της αναγνώρισης χειρονομία για να προσδιοριστεί ο τόπος όπου ένα πρόσωπο δείχνει είναι ~ 21 ~

χρήσιμη για τον προσδιορισμό του πλαισίου των δηλώσεων ή οδηγιών. Η εφαρμογή αυτή είναι ιδιαίτερου ενδιαφέροντος στον τομέα της ρομποτικής. Έλεγχος μέσω χειρονομιών προσώπου. Ο έλεγχος ενός υπολογιστή, μέσω χειρονομιών του προσώπου είναι μια χρήσιμη εφαρμογή της αναγνώρισης χειρονομιών για τους χρήστες που δεν είναι σε θέση να χρησιμοποιήσουν ένα ποντίκι ή το πληκτρολόγιο. Η παρακολούθησης των ματιών, ειδικότερα, μπορεί να χρησιμοποιηθεί για τον έλεγχο της κίνησης του δρομέα ή στην έμφαση σε συγκεκριμένα στοιχεία μιας οθόνης. Εντυπωσιακή τεχνολογία παιχνιδιών. Χειρονομίες μπορούν να χρησιμοποιηθούν για τον έλεγχο των αλληλεπιδράσεων στα παιχνίδια για να προσπαθήσουμε και να κάνουμε την εμπειρία του παίκτη του παιχνιδιού και πιο διαδραστική και πιο καθηλωτική. Εικονικοί ελεγκτές. Για συστήματα στα οποία η εύρεση ή χρήση ενός φυσικού ελεγκτή θα μπορούσε να απαιτήσει πάρα πολύ χρόνο, οι χειρονομίες μπορεί να χρησιμοποιηθούν ως εναλλακτικός μηχανισμός ελέγχου. Ο έλεγχος σε δευτερεύουσες συσκευές σε ένα αυτοκίνητο, ή ο έλεγχος μιας τηλεόρασης είναι παραδείγματα τέτοιας χρήσης. Η ικανότητα να παρακολουθεί κανείς τις κινήσεις ενός ατόμου και να τις αναγνωρίζει μπορεί να επιτευχθεί μέσω διαφόρων εργαλείων. Παρά το γεγονός ότι υπάρχει ένα μεγάλο μέρος της έρευνας που πραγματοποιείται στην εικόνα και το βίντεο με βάση την αναγνώριση χειρονομιών, υπάρχει κάποια ποικιλία ανάμεσα στα διάφορα εργαλεία που χρησιμοποιούνται σε διάφορες εφαρμογές [27]. Χρήση γαντιών: Τα ενσύρματα γάντια μπορούν να συνεισφέρουν στην όραση του υπολογιστή για την αναγνώριση της θέσης και της περιστροφής των χεριών, με τη χρήση μαγνητικών ή αδρανειακών συσκευών εντοπισμού. Επιπλέον, ορισμένα ενσύρματα γάντια μπορούν να ανιχνεύσουν την κάμψη των δαχτύλων με ένα υψηλό βαθμό ακρίβειας (5-10 μοίρες), ή ακόμη και να παρέχουν απτική ανάδραση στο χρήστη, η οποία είναι μία προσομοίωση της αίσθησης της αφής. Το πρώτο εμπορικά διαθέσιμο χέρι-εντοπισμού, τύπου γάντι, ήταν η συσκευή DataGlove, ένα γάντι που μπορούσε να ανιχνεύσει τη θέση του χεριού, την κυκλοφορία και την κάμψη των δαχτύλων. Αυτό χρησιμοποιούσε καλώδια οπτικών ινών για να καλύπτει το πίσω μέρος του χεριού. Οι παλμοί φωτός που δημιουργούνται όταν τα δάχτυλα είναι λυγισμένα, διαρρέουν μέσα από μικρές ρωγμές και δημιουργείται μια μορφή απώλειας, δίνοντας έτσι μια προσέγγιση του σχήματος του χεριού. ~ 22 ~

Κάμερα Βάθους: Χρησιμοποιώντας εξειδικευμένες φωτογραφικές μηχανές μπορεί κανείς να δημιουργήσει ένα χάρτη βάθους για το τι μπορεί κανείς να δει μέσα από την κάμερα σε μικρή κλίμακα, και να χρησιμοποιήσει αυτά τα δεδομένα για την προσέγγιση μιας 3D αναπαράστασης του ορατού αντικειμένου. Αυτό είναι αποτελεσματικό για την ανίχνευση των χειρονομιών λόγω της μικρής κλίμακας του βάθους τους. Ένα παράδειγμα της κατηγορίας αυτής αποτελεί το Kinect. Πρόκειται για μια συσκευή ανίχνευσης κίνησης, από τη Microsoft, για την βίντεο-κονσόλα παιχνιδιών Xbox 360 και τα Windows PCs. Το Kinect, χρησιμοποιώντας παράλληλα πληροφορία βάθους, επιτρέπει στους χρήστες να ελέγχουν και να αλληλεπιδρούν με το Xbox 360, χωρίς να χρειάζεται να αγγίξουν ένα χειριστήριο παιχνιδιών, μέσα από μια φυσική διεπαφή του χρήστη, χρησιμοποιώντας χειρονομίες Stereo κάμερες: Χρησιμοποιώντας δύο κάμερες των οποίων οι σχέσεις μεταξύ τους είναι γνωστές, μια 3D αναπαράσταση μπορεί να προσεγγιστεί από την έξοδο τους. Για να ληφθεί η σχέση ανάμεσα στις δυο κάμερες, μπορεί κανείς να χρησιμοποιήσει μια θέση αναφοράς, όπως μια lexian-λωρίδα ή εκπομπή υπέρυθρων. Σε συνδυασμό με την άμεση μέτρηση της κίνησης η χειρονομία (6D-Vision) μπορεί να ανιχνευθεί άμεσα. Controller-based χειρονομίες: Αυτοί οι ελεγκτές ενεργούν ως προέκταση του σώματος, έτσι ώστε όταν εκτελούνται χειρονομίες, ένα μέρος από την κίνηση μπορεί εύκολα να συλλαμβάνεται από το λογισμικό τους. Κινήσεις του ποντικιού είναι ένα τέτοιο παράδειγμα, όπου η κίνηση του ποντικιού συσχετίζεται με την διαδρομή που πραγματοποιείται από το χέρι ενός ατόμου, όπως και το Wii Remote, το οποίο μπορεί να μελετήσει αλλαγές στην επιτάχυνση ώστε να εκπροσωπεί χειρονομίες. Τα AudioCubes είναι ένα άλλο παράδειγμα. Οι αισθητήρες αυτών των έξυπνων κύβων εκπομπής φωτός μπορούν να χρησιμοποιηθούν για την ανίχνευση των χεριών και των δακτύλων καθώς και άλλων αντικείμενων σε κοντινή απόσταση περισσότερες εφαρμογές είναι στη σύνθεση μουσικής και ήχου αλλά μπορεί να εφαρμοστεί και σε άλλους τομείς Απλή κάμερα: Μια κανονική 2D κάμερα μπορεί να χρησιμοποιηθεί για την αναγνώριση χειρονομιών. Αρχικά θεωρήθηκε ότι η απλή κάμερα μπορεί να μην είναι εξίσου αποτελεσματική με τις stereo ή τις κάμερες βάθους, παρόλα αυτά ορισμένες εταιρείες αμφισβητούν αυτή τη θεωρία. Στην software -based τεχνολογία η αναγνώριση χειρονομιών βασισμένη στο λογισμικό χρησιμοποιεί μια απλή κάμερα που μπορεί να ανιχνεύσει χειρονομίες, κινήσεις των χεριών, καθώς και τα δάκτυλα σε υψηλή ακρίβεια. Αυτά έχουν ήδη ενσωματωθεί σε ultrabooks Yoga της Lenovo, Vega Pantech του LTE smartphones, Smart τηλεοράσεις και σε άλλες συσκευές. ~ 23 ~

Στην παρούσα εργασία χρησιμοποιείται ως μέσο για την αναγνώριση χειρονομιών μια απλή κάμερα για την παραγωγή των 900 χειρονομιών, που περιλαμβάνει η βάση δεδομένων που χρησιμοποιήθηκε από το σύστημα μας. Η βάση δεδομένων δημοσιεύτηκε από το πανεπιστήμιο του Cambridge [7] με σκοπό την αξιολόγηση οπουδήποτε συστήματος αναγνώρισης χειρονομιών. Οι χειρονομίες αυτές, όπως θα δούμε και στα επόμενα κεφάλαια όπου αναλύεται η βάση δεδομένων που ταξινομήθηκε από το σύστημα αναγνώρισης μας, αποτελούνται από ακολουθίες εικόνων ενός χεριού (bared hand based). ~ 24 ~

3 Αναγνώριση κίνησης Ανθρώπινων Χειρονομιών-hand gestures 3.1. Εισαγωγή Στο κεφάλαιο αυτό παρουσιάζεται αρχικά η γενική θεωρία γύρω από το πρόβλημα της ανίχνευσης και παρακολούθησης χειρονομιών (detection and tracking of hand gestures) σε ακολουθίες εικόνων (video). Στη συνέχεια του κεφαλαίου η προσοχή επικεντρώνεται σε μια εφαρμογή του προβλήματος αυτού, την αναγνώριση της κίνησης των ανθρώπινων χειρονομιών, που αποτελεί και το αντικείμενο της παρούσας εργασίας. Γίνεται έτσι μια εισαγωγή στη δομή του συστήματος αναγνώρισης χειρονομιών που υλοποιήθηκε, ενώ αναλυτικά το σύστημα που υλοποιήθηκε περιγράφεται στο κεφάλαιο 6. 3.2. Ανίχνευση χειρομορφών Το αρχικό βήμα σε συστήματα αναγνώρισης χειρονομιών είναι η ανίχνευση των χεριών και η κατάτμηση των αντίστοιχων περιοχών της εικόνας. Η κατάτμηση αυτή ~ 25 ~

είναι κρίσιμης σημασίας, διότι απομονώνει τις περιοχές ενδιαφέροντος από το φόντο της εικόνας, πριν περάσουν στην μετέπειτα παρακολούθηση τους και τα στάδια αναγνώρισης. Στην κατάτμηση εμφανίζονται μέθοδοι που βασίζονται στα όρια των αντικειμένων (boundary based) και μέθοδοι που βασίζονται σε περιοχές (region based). Στις τεχνικές που ανήκουν στην πρώτη κατηγορία περιλαμβάνονται μέθοδοι ανίχνευσης ακμών και μέθοδοι ενεργών περιγραμμάτων. Οι δημοφιλέστερες τεχνικές αυτή τη στιγμή είναι αυτές των Γεωδαιτικών Ενεργών Περιγραμμάτων (Geodesic Active Contours) που υλοποιούνται με χρήση επιπεδοσυνόλων (level sets) και εξέλιξη καμπύλης βάσει μη γραμμικών γεωμετρικά διαχεόμενων μερικών διαφορικών εξισώσεων (nonlinear geometric-diffusion partial differential equations). Στην κατηγορία μεθόδων που βασίζονται σε περιοχές υπάρχουν τρεις υπο-κατηγορίες μεθόδων: μέθοδοι επέκτασης περιοχής (region growing methods) όπως οι μέθοδοι split-merge και κατάτμηση watershed, στατιστικές μέθοδοι που βασίζονται σε Markov Random Fields και διαφορικές μέθοδοι (variational methods) που βασίζονται στην ελαχιστοποίηση συναρτησιακών ενέργειας. Ένας μεγάλος αριθμός μεθόδων έχουν προταθεί στη βιβλιογραφία που χρησιμοποιούν αρκετούς τύπους οπτικών χαρακτηριστικών και, σε πολλές περιπτώσεις, τον συνδυασμός τους. Αυτά τα χαρακτηριστικά είναι το χρώμα του δέρματος, το σχήμα, την κίνηση και διάφορα ανατομικά μοντέλα των χεριών. Στην παρούσα εργασία, όπως θα δούμε και στο κεφάλαιο υλοποίησης του συστήματος αναγνώρισης χειρονομιών, χρησιμοποιήθηκε ο συνδυασμός χρώματος και σχήματος για την αρχική ανίχνευση της χειρονομίας. Εικόνα 3.1: Ανίχνευση χειρομορφής με χρωματική κατάτμηση της εικόνας ~ 26 ~

Η χρωματική κατάτμηση του δέρματος έχει χρησιμοποιηθεί από διάφορες προσεγγίσεις ανίχνευσης χεριού (hand detecτion). Μια σημαντική απόφαση για την επιλογή του μοντέλου χρώματος του δέρματος είναι η επιλογή του χρωματικού χώρου που πρόκειται να χρησιμοποιηθεί. Αρκετοί χρωματικοί χώροι έχουν προταθεί συμπεριλαμβανομένων των CIE-Lab, HSV, YCrCb, και οποιοδήποτε άλλον χρωματικό χώρο που διαχωρίζει επαρκώς τη χρωματικότητα από την φωτεινότητα του χρώματος. Αυτό οφείλεται στο γεγονός ότι με την χρησιμοποίηση μόνο της χρωματικότητας του χρώματος, επιτυγχάνεται σε κάποιο βαθμό η ανθεκτικότητα σε μεταβολές φωτισμού. Σε γενικές γραμμές, η χρωματική κατάτμηση μπορεί να συγχέεται με αντικείμενα φόντου που έχουν μία κατανομή χρώματος παρόμοια με το ανθρώπινο δέρμα. Ένας τρόπος για να αντιμετωπίσουν αυτή την δυσκολία βασίζεται στην αφαίρεση του υποβάθρου (background subtraction). Ωστόσο, η αφαίρεση του φόντου συνήθως βασίζεται στην υπόθεση ότι η κάμερα δεν κινείται ώστε να υπάρχει ένα στατικό φόντο. Για να λυθεί αυτό το πρόβλημα, εξετάζεται η δυναμική διόρθωση αντιστάθμισης του φόντου. Το χαρακτηριστικό σχήμα των χεριών, πολλές φορές, χρησιμοποιείται για την ανίχνευση του σε εικόνες, με πολλούς τρόπους. Πολλές πληροφορίες μπορούν να ληφθούν μόνο από το περιγράμματα των αντικειμένων σε μια εικόνα. Αν ανιχνευτεί με το σωστό τρόπο, το περίγραμμα αντιπροσωπεύει το σχήμα του χεριού και κατά συνέπεια, δεν εξαρτάται άμεσα από την οπτική γωνία, το δέρμα χρώματος και τον φωτισμό. Στην γενικότερες περιπτώσεις, το περίγραμμα που βασίζεται σε αποτελέσματα ανίχνευσης ακμών, σε ένα μεγάλο αριθμό αντιπροσωπεύει την περίπτωση χεριού, αλλά επίσης και άσχετα αντικείμενα φόντου. Ως εκ τούτου, σε εξελιγμένες εφαρμογές απαιτείται η αύξηση της αξιοπιστίας μιας τέτοιας προσέγγισης. [19][24] 3.3 Παρακολούθηση χειρονομίας και αναγνώριση κίνησης Η παρακολούθηση (tracking), ή η πλαίσιο-προς-πλαίσιο αντιστοιχία των κατατετμημένων περιοχών χεριού, είναι το δεύτερο βήμα στην πορεία προς την κατανόηση της κίνησης της χειρονομίας. Η σημασία της παρακολούθησης είναι διπλή. Πρώτον, παρέχει την inter-frame σύνδεση του χεριού δίνοντας χαρακτηριστικά της τροχιάς του χεριού στο χρόνο. Οι τροχιές κίνησης κάθε χειρονομίας μεταφέρουν σημαντικές πληροφορίες όσον αφορά την κίνηση και θα μπορούσε να χρησιμοποιηθεί είτε σε μία ακατέργαστη μορφή (π.χ. σε ορισμένες ~ 27 ~

εφαρμογές ελέγχου όπως το εικονικό σχέδιο, όπου το παρακολουθούμενο χέρι απευθείας καθοδηγεί τη λειτουργία σχεδίασης), ή μετά από περαιτέρω ανάλυση (π.χ. αναγνώριση ορισμένου τύπου χειρονομίας). Δεύτερον, η παρακολούθηση παρέχει έναν τρόπο για να διατηρήσει τις εκτιμήσεις των παραμέτρων του μοντέλου και χαρακτηριστικά που δεν είναι άμεσα παρατηρήσημα σε μια συγκεκριμένη χρονική στιγμή.[19] Μερικές από τις κυριότερες μεθόδους στην παρακολούθηση μιας χειρονομίας είναι: Η παρακολούθηση που βασίζετε στην αναγνώριση προτύπων (Template based tracking). Αυτή η κατηγορία μεθόδου παρουσιάζει μεγάλη ομοιότητα με τις μεθόδους για την ανίχνευση του χεριού. Η ανίχνευση του χεριού γίνεται στην κοντινή περιοχή όπου το χέρι ανιχνεύθηκε στο προηγούμενο καρέ, έτσι ώστε να περιοριστεί δραστικά ο χώρος αναζήτησης στην εικόνα. Έμμεση παραδοχή για την επιτυχία της μεθόδου αυτής είναι ότι οι εικόνες (frames) αποκτώνται αρκετά συχνά. Μερικές προσεγγίσεις ανιχνεύουν τα χέρια, σε επίπεδο εικόνας blob σε κάθε καρέ και χρονικά αντιστοιχούν τα blob στις αντίστοιχες κοντινές περιοχές σε όλα τα frames. Προσεγγίσεις που χρησιμοποιούν αυτό το είδος της παρακολούθησης των blobs, είναι κυρίως αυτές που ανιχνεύουν τα χέρια με βάση το χρώμα του δέρματος, καθώς τα blobs είναι τα αντίστοιχα διαστήματα περιοχής της εικόνας. Οι προσεγγίσεις που βασίζονται στα blob είναι σε θέση να διατηρήσουν την παρακολούθηση του χεριού, ακόμη και όταν υπάρχουν μεγάλες χρονικά διαστήματα από καρέ σε καρέ. Εικόνα 3.2: Αναγνώριση κίνησης χειρονομίας σε εφαρμογή κινητού τηλεφώνου. ~ 28 ~

Βέλτιστες τεχνικές εκτίμησης (Optimal estimation techniques). Η δυνατότητα παρακολούθησης έχει μελετηθεί εκτενώς στην υπολογιστική όραση. Σε αυτή την μέθοδο, το βέλτιστο πλαίσιο αξιολόγησης προβλέπεται από το φίλτρο Kalman το οποίο έχει χρησιμοποιηθεί ευρέως για μη γραμμικές παρατηρήσεις (ανίχνευση χαρακτηριστικών) σε εκτιμήσεις εξαγωγής τροχιάς. Οι λόγοι για τη δημοτικότητά του είναι η απόδοση του σε πραγματικό χρόνο, η αντιμετώπιση της αβεβαιότητας, και η δυνατότητα πρόβλεψης για διαδοχικά frames. Ο αλγόριθμος Mean Shift (Mean Shift algorithm). Ο αλγόριθμος Mean Shift χρησιμοποιείται στην παρακολούθηση της κίνησης χειρονομιών σε ακολουθίες εικόνων. Πρόκειται για μια επαναληπτική διαδικασία που ανιχνεύει τα τοπικά μέγιστα μιας συνάρτησης πυκνότητας πιθανότητας με τη μετατόπιση του πυρήνα τους προς τον μέσο όρο των δεδομένων της γειτονικής περιοχής. Ο αλγόριθμος είναι σημαντικά γρηγορότερος από την απλή αναζήτηση, αλλά απαιτεί κατάλληλη αρχικοποίηση. Ο αλγόριθμος Particle fltering. Η μέθοδος αυτή χρησιμοποιείται για την παρακολούθηση της θέσης των χεριών και το της διάταξης των δακτύλων. Σε αυτήν την προσέγγιση, η εκτίμηση του συστήματος όσον αφορά τη θέση ενός χεριού μοντελοποιείται με ένα σύνολο σωματιδίων. Η προσέγγιση αυτή εμφανίζει πλεονεκτήματα έναντι του φίλτρου Kalman, γιατί δεν περιορίζεται από την μονοσήμαντη φύση των Gaussian πυκνοτήτων που δεν μπορούν να αποδώσουν ταυτόχρονα εναλλακτικές υποθέσεις. Ένα μειονέκτημα των Particle fltering είναι ότι για πολύπλοκα μοντέλα (όπως το ανθρώπινο χέρι) είναι πολλά τα σωματίδια που απαιτούνται, γεγονός που καθιστά το πρόβλημα δυσεπίλυτο ειδικά για μεγάλων διαστάσεων μοντέλα. Συνεπώς, εφαρμόζονται τεχνικές που συχνά χρησιμοποιούνται για να μειώσουν τον αριθμό των σωματιδίων. [19] 3.4. Σύνοψη Ανακεφαλαιώνοντας, το πρόβλημα της παρακολούθησης ενός κινούμενου αντικειμένου αφορά στη διατήρηση μιας εκτίμησης για τη διάταξη του αντικειμένου στο χώρο και στο χρόνο. Το βασικό πλεονέκτημα της παρακολούθησης έναντι της απλής ανίχνευσης ενός αντικειμένου είναι ότι σε ασαφείς/διφορούμενες περιπτώσεις οι προηγούμενες εκτιμήσεις οδηγούν στην εύρεση της σωστής εκτίμησης για τη παρούσα κατάσταση. Ένα μειονέκτημα είναι ότι είναι απαραίτητο ~ 29 ~

να γίνουν υποθέσεις για τη συμπεριφορά του υπό παρακολούθηση αντικειμένου. Επίσης, είναι πολύ εύκολο να οδηγηθούμε σε λανθασμένη εκτίμηση και πολλές φορές είναι δύσκολη η επαναφορά στη σωστή εκτίμηση χωρίς επανεκκίνηση της διαδικασίας παρακολούθησης. Στην παρούσα εργασία δεν χρησιμοποιείται η μέθοδος της παρακολούθησης της κίνησης του αντικειμένου αλλά η αναγνώριση της κίνησης αυτού πράγμα που είναι αρκετό προκειμένου να ταξινομηθούν οι χειρονομίες στις σωστές κλάσεις. Η μέθοδος αυτή στηρίζεται στις μεθόδους παρακολούθησης κίνησης και αναλύεται εκτενέστερα στο 6ο κεφάλαιο. ~ 30 ~

4 Χρώμα 4.1. Εισαγωγή Στο κεφάλαιο αυτό παρουσιάζονται διάφοροι τρόποι αναπαράστασης του χρώματος και η χρήση του χρώματος στα προβλήματα της Όρασης Υπολογιστών. Έμφαση δίνεται στη χρήση του χρώματος για την ανίχνευση περιοχών δέρματος (όπως για παράδειγμα τα χέρια) και για την κατασκευή χρωματικών μοντέλων που χρησιμοποιούνται στην ταξινόμηση των pixels μιας εικόνας. Σημειώνεται ότι η μεθοδολογία για την κατασκευή του χρωματικού μοντέλου με βάση το χρώμα του δέρματος χρησιμοποιήθηκε στην υλοποίηση του συστήματος ανίχνευσης και αναγνώρισης χειρονομιών αυτής της εργασίας. 4.2. Βασικά χρώματα Βασικά (ή πρωτογενή) χρώματα είναι αυτά τα οποία όταν συνδυαστούν μεταξύ τους μπορούν να παράγουν όλα τους δυνατούς χρωματισμούς. Τα χρώματα που προκύπτουν από τον συνδυασμό των βασικών λέγονται δευτερογενή. Για την περιγραφή των χρωμάτων χρησιμοποιούμε τα χρωματικά μοντέλα. Κάθε ένα από αυτά χρησιμοποιεί κάποια βασικά χρώματα και μία μέθοδο για την περιγραφή των χρωματικών αντιλήψεων που μπορεί να έχουμε. ~ 31 ~

Στην οθόνη του υπολογιστή το χρώμα είναι αποτέλεσμα του γραμμικού συνδυασμού των τριών βασικών χρωμάτων. Τα τρία βασικά αυτά χρώματα δημιουργούν έναν συνδυασμό χρωμάτων που καλύπτουν σχεδόν όλα τα πιθανά χρώματα. Υπάρχουν δυο κατηγορίες βασικών χρωμάτων: προσθετικά και αφαιρετικά. προσθετικά χρώματα είναι το κόκκινο, το πράσινο και το μπλε (red, green, blue RGB). Τα αφαιρετικά (ή συμπληρωματικά) χρώματα είναι το κυανό, η ματζέντα και το κίτρινο (cyan, magenta, yellow CMY). Οι τηλεοράσεις και οι οθόνες υπολογιστών παράγουν φως, το οποίο προστίθεται για την απεικόνιση του επιθυμητού χρώματος. Το χρώμα παράγεται από πρόσθεση κόκκινων, πράσινων και μπλε πηγών φωτός. Οι καλλιτέχνες στην ανάμιξη των χρωστικών ουσιών χρησιμοποιούν τα αφαιρετικά πρωταρχικά χρώματα, επειδή οι χρωστικές ουσίες που χρησιμοποιούν απορροφούν όλα τα χρώματα του φωτός εκτός από εκείνα που ανακλούν, και είναι έτσι μια πηγή αφαιρετικού φωτός. Το χρώμα απεικονίζεται στο λευκό χαρτί με την προσθήκη κυανής, ματζέντα και κίτρινης χρωστικής ουσίας. Για να είναι ορατή η εικόνα θα πρέπει να αντανακλάται φως από αυτή (δηλαδή δεν είναι ορατή στο σκοτάδι). Εικόνα 4.1.: Προσθετικά και αφαιρετικά χρώματα αντίστοιχα. Θα πρέπει να αναφερθεί ότι δεν υπάρχει τρόπος να δημιουργηθεί μαύρο χρώμα με την προσθήκη κόκκινων, πράσινων και μπλε πηγών φωτός, οπότε θα πρέπει η οθόνη να είναι αρχικά μαύρη. Ομοίως, δεν υπάρχει τρόπος δημιουργίας λευκού με το συνδυασμό κυανής, ματζέντα και κίτρινης χρωστικής ουσίας, οπότε το χαρτί πρέπει να είναι άσπρο.[28] ~ 32 ~

4.3. Ο RGB χρωματικός χώρος Το μοντέλο χρώματος RGB είναι ένα χρωματικό μοντέλο προσθετικών χρωμάτων στο οποία το κόκκινο, πράσινο και μπλε φως προστίθενται μαζί με διάφορους τρόπους ώστε να αναπαράγουν ένα ευρύ φάσμα χρωμάτων. Το όνομα του μοντέλου προέρχεται από τα αρχικά των τριών προσθετικών βασικών χρωμάτων, κόκκινο, πράσινο και μπλε (Red, Green, and Blue). Ο κύριος σκοπός του μοντέλου χρώματος RGB είναι για την ανιχνεθση, αναπαράσταση, και την απεικόνιση των εικόνων σε ηλεκτρονικά συστήματα, όπως οι τηλεοράσεις και οι ηλεκτρονικοί υπολογιστές, αν και επίσης έχει χρησιμοποιηθεί στη συμβατική φωτογραφία. Πριν από την ηλεκτρονική εποχή, το μοντέλο χρωμάτων RGB είχε ήδη μια σταθερή θεωρία πίσω από αυτό, που βασιζόταν στην ανθρώπινη αντίληψη των χρωμάτων. Εικόνα 4.2: Αναπαράσταση χρωμάτων στον RGB χρωματικό χώρο ~ 33 ~

Το μοντέλο χρώματος RGB από μόνο του δεν καθορίζει τι σημαίνει κόκκινο, πράσινο και μπλε ποσοτικά, και έτσι τα αποτέλεσμα της ανάμειξης τους δεν ορίζονται ως απόλυτα, αλλά σχετικά με τα βασικά χρώματα. Όταν καθορίζονται οι ακριβείς χρωματισμοί του κόκκινου, πράσινου και μπλε προκριματικών, το μοντέλο χρωμάτων γίνεται ένας απόλυτος χρωματικός χώρος, όπως srgb ή Adobe RGB κτλ. Εικόνα 4.3: Ο RGB κύβος χρώματος με όλα τα χρώματα. Συσκευές που χρησιμοποιούν ως είσοδο τον RGB χρωματικό χώρο είναι η έγχρωμη τηλεόραση, οι video - κάμερες, σαρωτές εικόνας και ψηφιακές φωτογραφικές μηχανές. Τυπικές συσκευές εξόδου RGB χρωματικού χώρου είναι τηλεοράσεις των διαφόρων τεχνολογιών (CRT, LCD, πλάσμα, κλπ.), ο υπολογιστής και το κινητό τηλέφωνο, προβολείς βίντεο, έγχρωμες οθόνες LED, καθώς και μεγάλες οθόνες, όπως οι jumbo tron. Οι έγχρωμοι εκτυπωτές, από την άλλη πλευρά, δεν είναι RGB συσκευές, αλλά έγχρωμες αφαιρετικές συσκευές (τυπικό χρωματικό μοντέλο CMYK).[28] ~ 34 ~

4.4 Χρωματικοί χώροι που χρησιμοποιούνται για την χρωματική κατάτμηση του δέρματος (Skin Color Segmentation) Στις παραγράφους που ακολουθούν αναλύονται συνοπτικά τρεις χρωματικοί χώροι που χρησιμοποιούνται πιο συχνά σε εφαρμογές που αφορούν την χρωματική κατάτμηση του δέρματος. Ο CIE-Lab χρωματικός χώρος είναι αυτός που επιλέχτηκε, για αυτόν το σκοπό, από το σύστημα αναγνώρισης χειρονομιών που υλοποιήθηκε και παρουσιάζεται στην παρούσα εργασία. Σε κάθε ένα χρωματικό χώρο που παρουσιάζεται εξηγείται ο λόγος επιλογής του συγκεκριμένου χρωματικού χώρου, που παρουσιάζεται στην τελευταία παράγραφο. Σημειώνεται, ότι η επιλογή του κατάλληλου χρωματικού χώρου γίνεται με κριτήριο την καλύτερη συμπεριφορά του στις διάφορες εναλλαγές φωτισμού, γεγονός που αποτελεί σε μεγάλο βαθμό και το αντικείμενο της παρούσας εργασίας. 4.4.1 Ο YCbCr χρωματικός χώρος Ο YCbCr είναι μια οικογένεια χρωματικών χώρων που χρησιμοποιούνται στην αναπαραγωγή έγχρωμης εικόνας σε βίντεο και συστήματα ψηφιακής φωτογραφίας. «Υ είναι η συνιστώσα φωτεινότητας και CB και CR είναι η διαφορά του μπλε και του κόκκινου χρώματος αντίστοιχα. Η συνιστώσα Y διακρίνεται από την Y που είναι η φωτεινότητα, πράγμα που σημαίνει ότι η ένταση του φωτός είναι μη γραμμική και κωδικοποιείται με βάση την γάμμα διόρθωση του πρωταρχικού RGB. Ο Y'CbCr δεν είναι ένα απόλυτος χρωματικός χώρος αλλά μάλλον, είναι ένας τρόπος κωδικοποίησης της RGB πληροφορίας. Το πραγματικό χρώμα που εμφανίζεται εξαρτάται από τα πρωταρχικά χρώματα του RGB χρωματικού χώρου που χρησιμοποιείται για την εμφάνιση του σήματος. Κατά συνέπεια, μια τιμή που εκφράζεται ως Y'CbCr είναι προβλέψιμη μόνο αν χρησιμοποιείται ο τυπικός RGB χρωματικός χώρος. ~ 35 ~

Εικόνα 4.4: Ο RGB κύβος χρώματος στο YCbCr επίπεδο. Ένα σημαντικό πλεονέκτημα του χώρου YCbCr είναι ότι αποσυνδέει τη συνιστώσα φωτεινότητας από τις χρωματικές πληροφορίες (απόχρωση και κορεσμός) σε μια έγχρωμη εικόνα. Όπως αναφέρθηκε στο προηγούμενο κεφάλαιο, μια σημαντική απόφαση για την επιλογή του μοντέλου χρώματος του δέρματος είναι η επιλογή του χρωματικού χώρου που πρόκειται να χρησιμοποιηθεί. Είναι απαραίτητο η χρησιμοποίηση ενός χρωματικού χώρου που διαχωρίζει επαρκώς τη χρωματικότητα από την φωτεινότητα του χρώματος. Αυτό οφείλεται στο γεγονός ότι με την χρησιμοποίηση μόνο της χρωματικότητας του χρώματος, επιτυγχάνεται σε κάποιο βαθμό η ανθεκτικότητα σε μεταβολές φωτισμού. Η αποσυσχέτιση της χρωματικότητας ωστόσο επιτυγχάνεται και από τους χρωματικούς χώρους HSV και CIE-Lab, οι όποιοι χρησιμοποιούνται πιο συχνά σε εφαρμογές χρωματικής κατάτμησης του δέρματος.[29][28] Στο [29] γίνεται μια συγκριτική μελέτη ανάμεσα στο χρωματικό χώρο YCbCr και CIE-Lab, που αφορά την εφαρμογή τους στην χρωματική κατάτμηση του δέρματος. Διαπιστώνεται ότι η κατάτμηση με το χρωματικό χώρο CIELab είναι αποτελεσματικότερη από τον χρωματικό χώρο YCbCr δίνοντας περισσότερες πληροφορίες για την εικόνα και καλύτερα αποτελέσματα στην τελική χρωματική κατάτμηση του δέρματος. ~ 36 ~

4.4.2. Ο HSV χρωματικός χώρος Ο HSV χρωματικός χώρος είναι από τις πιο κοινές αναπαραστάσεις κυλινδρικών συντεταγμένων σημείων του RGB χρωματικού χώρου. Η HSV αναπαράσταση αλλάζει την γεωμετρία του RGB χώρου, σε μια προσπάθεια να είναι πιο διαισθητική και εύκολα αντιληπτή η εκπροσώπηση του από τον καρτεσιανό RGB κύβο. Αναπτύχθηκε στη δεκαετία του 1970 για εφαρμογές γραφικών υπολογιστών, ενώ σήμερα χρησιμοποιείται σε λογισμικά επεξεργασίας εικόνας, και λιγότερο συχνά στην ανάλυση εικόνας και την υπολογιστική όραση. Καθώς κινούμαστε κατά μήκος του κάθετου (γκρίζου) άξονα στο παρακάτω σχήμα (Εικόνα 4.5 ), το μέγεθος του κύκλου που είναι κάθετο στον άξονα αλλάζει, δίνοντας τον όγκο που απεικονίζεται στην εικόνα. Η απόχρωση (H-hue) εκφράζεται ως η γωνία γύρω από τον κύκλο των χρωμάτων, χρησιμοποιώντας συνήθως τον άξονα του κόκκινου ως άξονα αναφοράς 0. Η φωτεινότητα (V-value) μετριέται κατά μήκος του άξονα του κώνου. Το τέλος V = 0 του άξονα είναι το μαύρο. Το τέλος V = 1 του άξονα είναι το άσπρο, και βρίσκεται στο κέντρο του πλήρους κύκλου στο σχήμα. Κατά συνέπεια, αυτός ο άξονας Εικόνα 4.5: Ο HSV κώνος χρώματος. ~ 37 ~

αντιπροσωπεύει όλες τις αποχρώσεις του γκρίζου. Ο κορεσμός (S-saturation) μετριέται ως η απόσταση από τον άξονα V. Ενώ ο HSV χώρος, χρησιμεύει ικανοποιητικά, για παράδειγμα, αν επιλέγει ένα μόνο χρώμα, αγνοεί ωστόσο μεγάλο μέρος της πολυπλοκότητας της εμφάνισης χρώματος. Αν σε μια εικόνα να γίνει εξαγωγή της απόχρωσης, του κορεσμού και της φωτεινότητας με τον HSV χρωματικό χώρο και στη συνέχεια συγκριθεί με τις αντίστοιχες συνιστώσες του CIE-LAB χρωματικού χώρου, μπορούμε να δούμε εύκολα τη διαφορά στην άποψη αντίληψης. Στην παρακάτω εικόνα (Εικόνα 4.6) γίνεται σαφής αυτή η διαφορά στην αναπαράσταση της φλόγας της έγχρωμης εικόνας, αναλύοντας την στις συνιστώσες φωτεινότητας των CIE-Lab και HSV χρωματικών χώρων.[28] Έγχρωμη φωτογραφία α) CIE-Lab συνιστώσα L β) HSV συνιστώσα V Εικόνα 4.6: Ανάλυση έγχρωμης φωτογραφίας στις συνιστώσες φωτεινότητας των CIE-Lab και HSV χρωματικών χώρων. ~ 38 ~

4.4.3. Ο CIE-Lab χρωματικός χώρος Ο χώρος CIE-Lab είναι βασισμένος στις διαφορές τριών στοιχειωδών ζευγών χρώματος: άσπρο μαύρο (συνιστώσα L), κόκκινο - πράσινο(συνιστώσα a), κίτρινο - μπλε(συνιστώσα b). Σε αντίθεση με το RGB μοντέλο χρώματος, ο χρωματικός χώρος CIE-Lab έχει σχεδιαστεί για να προσεγγίσει περισσότερο την ανθρώπινη όραση. Επιδιώκει την ομοιόμορφη αντίληψη των χρωμάτων καθώς η συνιστώσα φωτεινότητας L ταιριάζει πολύ με την ανθρώπινη αντίληψη της φωτεινότητας. Κατά συνέπεια, μπορεί να χρησιμοποιηθεί για να κάνει με ακρίβεια διορθώσεις στην ισορροπία των χρωμάτων τροποποιώντας την καμπύλη εξόδου των συνιστωσών a,b ή για την ρύθμιση της έντασης της φωτεινότητας με την συνιστώσα L. Στον RGB χώρο, οι μετασχηματισμοί αυτοί μπορεί να γίνουν μόνο με τη βοήθεια των κατάλληλων μεθόδων της εφαρμογής επεξεργασίας, με συνδυασμού και των τριών συνιστωσών. Εικόνα 4.12: Αντίληψη χρώματος για το χρωματικό χώρο CIE-Lab. ~ 39 ~

Δεδομένου ότι το μοντέλο CIE-Lab είναι ένα τρισδιάστατο μοντέλο, μπορεί να αναπαρασταθεί σωστά μόνο σε ένα τρισδιάστατο χώρο. Είναι σημαντικό να συνειδητοποιήσουμε ότι οι οπτικές αναπαραστάσεις των χρωμάτων με διάφορους τρόπους για αυτό το μοντέλο δεν είναι ακριβής. Είναι κατάλληλες μόνο για να βοηθήσουν στην κατανόηση της φύσης του χρωματικού χώρου. Εικόνα 4.13: Αντίληψη χρώματος για το χρωματικό χώρο CIE-Lab. Μια σημαντική απόφαση για την επιλογή του μοντέλου χρώματος του δέρματος είναι η επιλογή του χρωματικού χώρου που πρόκειται να χρησιμοποιηθεί.. Όπως αναφέρθηκε στην παράγραφο 4.4, για την υλοποίηση του συστήματος αναγνώρισης χειρονομιών της παρούσας εργασίας χρησιμοποιήθηκε ο χώρος CIE-Lab. Είναι απαραίτητο η χρησιμοποίηση ενός χρωματικού χώρου που διαχωρίζει επαρκώς τη χρωματικότητα από την φωτεινότητα του χρώματος. Αυτό οφείλεται στο γεγονός ότι με την χρησιμοποίηση μόνο της χρωματικότητας του χρώματος, επιτυγχάνεται σε κάποιο βαθμό η ανθεκτικότητα σε μεταβολές φωτισμού. Σημειώνεται, ότι η επιλογή του κατάλληλου χρωματικού χώρου γίνεται με κριτήριο την καλύτερη συμπεριφορά του στις διάφορες εναλλαγές φωτισμού, γεγονός που αποτελεί σε μεγάλο βαθμό και το αντικείμενο της παρούσας εργασίας. Η αναπαράσταση και στους τρεις χρωματικούς χώρους που διαφέρει σε λίγα σημεία και η επιλογή τους εξαρτάται από τη φύση της εφαρμογής που θα χρησιμοποιηθούν. Ο CIE-Lab χρωματικός χώρος συμπεριφέρεται αμυδρώς καλυτέρα στις διάφορες εναλλαγές ~ 40 ~

φωτισμού, που εξετάζονται στην βάση δεδομένων που χρησιμοποιήθηκε από το σύστημα αναγνώρισης χειρονομιών της παρούσας εργασίας. [28][29][30][31][32] 4.5. Χρώμα και Όραση Υπολογιστών 4.5.1. Χρωματική κατάτμηση του δέρματος (Skin Color Segmentation) Η χρωματική κατάτμηση περιοχών δέρματος είναι εφικτή επειδή το ανθρώπινο δέρμα έχει μια χρωματική κατανομή που διαφέρει σημαντικά, αν και όχι εξ ολοκλήρου, από εκείνων των αντικειμένων του φόντου. Η ανίχνευση περιοχών δέρματος έχει υιοθετηθεί κυρίως στην αναγνώριση και παρακολούθηση προσώπων σε εικόνες και βίντεο. Η κατάτμηση εκτελείται συνήθως χρησιμοποιώντας τις χρωματικές συνιστώσες της εικόνας και όχι τη συνιστώσα φωτεινότητας. Υπάρχουν δύο λόγοι που δικαιολογούν το γεγονός αυτό: 1) με χρήση μόνο των χρωματικών συνιστωσών, οι αλγόριθμοι κατάτμησης παραμένουν σχετικά ανεπηρέαστοι στις αλλαγές φωτεινότητας, και 2) έχει αναφερθεί ευρέως ότι οι εμφανείς διαφορές στο χρώμα του δέρματος μεταξύ διαφορετικών φυλών χαρακτηρίζονται από τη διαφορά στη φωτεινότητα του χρώματος, το οποίο κυριαρχείται από τη συνιστώσα φωτεινότητας και όχι από τις χρωματικές συνιστώσες. Ένας άλλος λόγος είναι ότι χρησιμοποιώντας μόνο τις χρωματικές συνιστώσες, ο χώρος των χαρακτηριστικών γνωρισμάτων μειώνεται από τρισδιάστατος σε δισδιάστατος, μειώνοντας κατά συνέπεια την υπολογιστική πολυπλοκότητα του αλγορίθμου κατάτμησης. Υπάρχουν ορισμένοι περιορισμοί που πρέπει να ληφθούν υπόψη στους αλγορίθμους κατάτμησης δέρματος. Ακριβή αποτελέσματα επιτυγχάνονται μόνο εάν υπάρχει σημαντική αντίθεση μεταξύ του δέρματος και του φόντου. Φυσικά, στα πλαίσια της κατάτμησης χεριών και προσώπου, άλλα μέρη του σώματος, συμπεριλαμβανομένου του ρουχισμού, θεωρούνται επίσης ως φόντο. Οι στατικές περιοχές του φόντου με παρόμοιο χρώμα με αυτό του δέρματος δεν δημιουργούν σοβαρό πρόβλημα, δεδομένου ότι μπορούν να προσδιοριστούν μέσω της ανίχνευσης κίνησης. Εντούτοις, τα μέρη του ρουχισμού που έχουν παρόμοιο χρώμα με αυτό του δέρματος και κινούνται, μπορούν να δημιουργήσουν προβλήματα. Υπάρχουν επίσης και οι περιορισμοί που σχετίζονται με το φωτισμό κατά τη διάρκεια καταγραφής της εικόνας εισόδου. ~ 41 ~

Είναι σημαντικό να επιλεχθεί ο κατάλληλος χώρος χρώματος για την εκτέλεση της κατάτμησης περιοχών δέρματος. Οι χώροι χρώματος που έχουν χρησιμοποιηθεί σε υπάρχοντα συστήματα περιλαμβάνουν τους χώρους YCbCr, HSV, CIE-Lab κανονικοποιημένο RGB (rg), και RGB. Σημειώνουμε ότι στο χώρο RGB, οι χρωματικές συνιστώσες και η συνιστώσα φωτεινότητας δεν αποσυνδέονται. Επίσης, ο χώρος χαρακτηριστικών γνωρισμάτων στον RGB χώρο είναι τρισδιάστατος. Έτσι, δεν οδηγούμαστε σε πολύ ακριβή αποτελέσματα. Μια απλή μέθοδος κατάτμησης περιοχών δέρματος βασίζεται στη συλλογή δειγμάτων pixels δέρματος από το στόχο για την εκπαίδευση ενός ταξινομητή χρώματος. Έτσι, η κατάτμηση περιοχών που έχουν χρώμα δέρματος πραγματοποιείται με την ταξινόμηση και την ομαδοποίηση των pixels της εικόνας εισόδου. 4.5.2. Κατασκευή μοντέλου χρώματος Στη συνέχεια εξηγείται συνοπτικά η διαδικασία δημιουργίας ενός μοντέλου χρώματος, όπως αυτό που χρησιμοποιήθηκε στην υλοποίηση του συστήματος ανίχνευσης και αναγνώρισης χειρονομιών της διπλωματικής εργασίας. Πρώτο βήμα είναι η συλλογή ικανού αριθμού δειγμάτων pixels του χρώματος που μας ενδιαφέρει, από διάφορες εικόνες (σε μορφή RGB). Οι RGB συνιστώσες μετατρέπονται σε χρωματικές συνιστώσες, αντιστοιχίζονται δηλαδή στο δισδιάστατο χώρο χρωματικότητας. Τέλος επιλέγεται ένα μοντέλο για την περιγραφή της κατανομής των δειγμάτων στο 2Δ χώρο χρωματικότητας. Για παράδειγμα, για τη δημιουργία ενός μοντέλου για ανίχνευση περιοχών δέρματος ακολουθούμε τα παρακάτω βήματα: Σε μια εικόνα που περιέχει την περιοχή που μας ενδιαφέρει απομονώνουμε ένα τμήμα της περιοχής αυτής. Μετατρέπουμε τα pixels της περιοχής που απομονώσαμε από τον RGB χώρο χρώματος σε ένα χώρο που διαχωρίζει τις χρωματικές συνιστώσες, έστω τον CIE-Lab. Τοποθετούμε κάθε ζεύγος τιμών των χρωματικών συνιστωσών (a,b) στο χώρο χρωματικότητας, χρησιμοποιώντας έναν πίνακα-συσσωρευτή όπου αποθηκεύεται στην αντίστοιχη θέση του ο αριθμός των εμφανίσεων ενός ζεύγους (a,b) για όλα τα pixels της περιοχής που απομονώσαμε. ~ 42 ~

Τελικά, όλα τα σημεία της γραφικής παράστασης συγκεντρώνονται σε μια μικρή περιοχή. Εικόνα 4.14: Απομόνωση περιοχής ενδιαφέροντος I. Εικόνα 4.15: Μετατροπή από RGB σε Lab ~ 43 ~

Εικόνα 4.16: Γραφική απεικόνιση των ζευγών (α i,b i ) για το pixel p i και για όλα τα pixels. ~ 44 ~

5 Αναγνώριση χειρομορφών με Σύμπτωση Προτύπων (Template Matching) 5.1. Εισαγωγή Στο παρόν κεφάλαιο εξετάζεται η τεχνική της σύμπτωσης προτύπων (template matching) αποτελεί μια βασική τεχνική που χρησιμοποιεί το σύστημα αναγνώρισης χειρονομιών της παρούσας εργασίας, στο στάδιο της αναγνώρισης της χειρομορφης. Πρόκειται για την πιο απλοϊκή μορφή αναγνώρισης προτύπων (pattern recognition). Στην τεχνική αυτή αποθηκεύεται ένα ίχνος ή μάσκα ή πρωτότυπο (template) για κάθε διαφορετικό πρότυπο. Το πρότυπο εισόδου συγκρίνεται με καθένα από τα πρωτότυπα και η ταξινόμηση βασίζεται σε ένα προαποφασισμένο κριτήριο ομοιότητας. Η απόφαση λαμβάνεται για αντιστοίχηση της εισόδου σε εκείνο το πρωτότυπο για το οποίο η ομοιότητα είναι μεγαλύτερη. Η τεχνική αυτή χρησιμοποιήθηκε παλιότερα (1970) για αναγνώριση τυπωμένων κειμένων με τυποποιημένους χαρακτήρες. Πολλές φορές είναι δύσκολη η επιλογή "καλών πρωτοτύπων", όπως και "καλών κριτηρίων ομοιότητας". Η τεχνική αυτή παράγει τα καλύτερα αποτελέσματα όταν οι τάξεις που αντιπροσωπεύουν τα πρωτότυπα είναι ισχυρά διαφοροποιημένες και υπάρχει μεγάλη συνέπεια στα πρωτότυπα. Η σύμπτωση προτύπων έχει πολυάριθμες σημαντικές εφαρμογές σε πεδία όπως η επεξεργασία εικόνας, η ανάκτηση πληροφοριών βάσει περιεχομένου από βάσεις δεδομένων εικόνων, η επεξεργασία δακτυλικών αποτυπωμάτων, η οπτική αναγνώριση χαρακτήρων, τα γεωγραφικά συστήματα πληροφοριών, η επεξεργασία αεροφωτογραφιών και αστρονομικών εικόνων, και η έρευνα για γνωστές δομές (όπως οι πρωτεΐνες) σε τρισδιάστατα μοντέλα βιολογικών ιών. ~ 45 ~

5.2. Η έννοια της σύμπτωσης προτύπων Η αναζήτηση και ο εντοπισμός σχημάτων σε εικόνες και βίντεο είναι σημαντικό τμήμα πολλών συστημάτων όρασης υπολογιστών. Η σύμπτωση προτύπων είναι η πιο διαδεδομένη προσέγγιση στο πρόβλημα αυτό και χρησιμοποιείται από την πρόωρη έρευνα στην αναγνώριση προτύπων. Η σύμπτωση προτύπων είναι λοιπόν ένα κλασσικό πρόβλημα στην ανάλυση εικόνων: δεδομένης μιας εικόνας αναφοράς ενός αντικειμένου, εξετάζεται αν το αντικείμενο αυτό υπάρχει στην υπό ανάλυση εικόνα, και αν υπάρχει εντοπίζεται η θέση του. Η σύμπτωση προτύπων έχει χρησιμοποιηθεί ευρέως στην επεξεργασία εικόνων, στην οπτική παρακολούθηση αντικειμένων, στην αναγνώριση προτύπων, στην όραση υπολογιστών και στη συμπίεση εικόνων και video. Στην παρακάτω εικόνα φαίνεται ένα παράδειγμα εφαρμογής της σύμπτωσης προτύπων, όπου σε μια εικόνα αναζητείται η πιο όμοια, με ένα προκαθορισμένο πρωτότυπο, περιοχή: Εικόνα 5.1: Παράδειγμα εφαρμογής της σύμπτωσης προτύπων Ουσιαστικά, το πρόβλημα της σύμπτωσης προτύπων είναι ένα πρόβλημα εύρεσης του κοντινότερου γείτονα, το οποίο μπορεί να επιλυθεί από τον απλό αλγόριθμο πλήρους αναζήτησης (full-search algorithm). ~ 46 ~

5.3. Τεχνικές σύμπτωσης προτύπων Η κλασσική διαδικασία της σύμπτωσης προτύπων περιλαμβάνει τον υπολογισμό της συσχέτισης (cross-correlation) του πρωτοτύπου (template) με την εικόνα και τον καθορισμό της απόκλισης βάσει ενός μέτρου της μεταξύ τους ομοιότητας. Σε γενικευμένους αλγορίθμους υπολογίζεται η συσχέτιση μεταξύ κάθε θέσης της εικόνας και κάθε περιστροφής και γενικότερα ενός αφινικού μετασχηματισμού του πρωτοτύπου, ώστε να συμπεριληφθεί η περίπτωση που το πρωτότυπο υπάρχει περιστραμμένο στην υπό εξέταση εικόνα και σε διαφορετική κλίμακα. Στη συνέχεια παρουσιάζονται αλγόριθμοι και των δύο κατηγοριών. Το μειονέκτημα της σύμπτωσης προτύπων είναι το υψηλό υπολογιστικό κόστος. Στην αναζήτηση ενός αντικειμένου, πολλές μικρές περιοχές μιας εικόνας (παράθυρα) που έχουν το ίδιο μέγεθος με το πρωτότυπο συγκρίνονται με το πρωτότυπο. Ο βασικός αλγόριθμος σύμπτωσης προτύπων συνίσταται στην ολίσθηση του πρωτοτύπου στην περιοχή αναζήτησης και στον υπολογισμό σε κάθε θέση της τιμής μιας συνάρτησης παραμόρφωσης ή συσχέτισης που υπολογίζει το βαθμό ανομοιότητας ή ομοιότητας μεταξύ του πρωτοτύπου και της εικόνας. Κατόπιν, η θέση ελάχιστης παραμόρφωσης ή μέγιστης συσχέτισης, λαμβάνεται ως ένδειξη της εμφάνισης του πρωτοτύπου στην υπό εξέταση εικόνα, με ένα κατώτατο όριο στο μέτρο ομοιότητας/ανομοιότητας, που ρυθμίζεται σύμφωνα με τις απαιτήσεις της εφαρμογής, ώστε να απορρίπτονται τα μη βέλτιστα ταιριάσματα. Τα χαρακτηριστικά μέτρα παραμόρφωσης που χρησιμοποιούνται στους αλγορίθμους σύμπτωσης προτύπων είναι το άθροισμα των απόλυτων διαφορών (sum of absolute differences - SAD) και το άθροισμα των τετραγώνων των διαφορών (sum of square differences - SSD), ενώ η ομαλοποιημένη συσχέτιση (normalized cross-correlation - NCC) είναι το δημοφιλέστερο μέτρο συσχέτισης. Η ομαλοποιημένη συσχέτιση (Normalized Cross-Correlation NCC) και η μηδενικής μέσης τιμής ομαλοποιημένη συσχέτιση (Zero mean Normalized Cross- Correlation ZNCC) χρησιμοποιούνται ευρέως σαν συναρτήσεις ομοιότητας στη σύμπτωση προτύπων καθώς επίσης και στην ανάλυση κίνησης, την τρισδιάστατη όραση υπολογιστών, τις βιομηχανικές επιθεωρήσεις και πολλές άλλες εφαρμογές, δεδομένου ότι η διαδικασία κανονικοποίησης που ενσωματώνεται στις NCC και ZNCC επιτρέπει το χειρισμό των γραμμικών παραλλαγών της φωτεινότητας. Επιπλέον, χάρη στην αφαίρεση της μέσης έντασης, η συνάρτηση ZNCC είναι ακόμη πιο σθεναρή λύση από την NCC δεδομένου ότι μπορεί να χειριστεί και τις ομοιόμορφες παραλλαγές φωτεινότητας. Αφού οι NCC και ZNCC είναι υπολογιστικά δαπανηρές, έχουν προταθεί διάφορες μη εξαντλητικές τεχνικές που στοχεύουν στη μείωση του υπολογιστικού κόστους. Ωστόσο, οι μη εξαντλητικοί αλγόριθμοι δεν ~ 47 ~

ερευνούν ολόκληρο το διάστημα αναζήτησης και ως εκ τούτου μπορούν να παγιδευτούν σε τοπικά μέγιστα, παράγοντας κατά συνέπεια μια μη βέλτιστη λύση. Στο [5] προτείνεται ένας αλγόριθμος που βρίσκει ακριβώς την ίδια βέλτιστη λύση με μια διαδικασία σύμπτωσης προτύπων βασισμένη στη ZNCC αλλά με σημαντικά μειωμένο υπολογιστικό κόστος. Ο προτεινόμενος αλγόριθμος επεκτείνει την έννοια της περιορισμένης μερικής συσχέτισης (Bounded Partial Correlation BPC), η οποία προηγουμένως επινόησε για τη βασισμένη στην NCC διαδικασία σύμπτωσης προτύπων, στη συνάρτηση ZNCC. Δεδομένου ότι ειδικά στις μεγάλου μεγέθους εικόνες και πρωτότυπα η διαδικασία μπορεί να είναι υπολογιστικά πολύ δαπανηρή, έχουν επινοηθεί πολυάριθμες τεχνικές που στοχεύουν στην επιτάχυνση της βασικής προσέγγισης, κυρίως εστιάζοντας στην εκτίμηση κίνησης και χρησιμοποιώντας τις ομοιότητες μεταξύ των διαδοχικών εικόνων (frames). Μεταξύ των γενικών τεχνικών (δηλαδή αυτών που είναι εφαρμόσιμες τόσο με τα μέτρα παραμόρφωσης όσο και με τα μέτρα συσχέτισης), οι σημαντικότερες είναι: η χρήση των σχεδίων πολλαπλής ανάλυσης (δηλαδή εντοπίζοντας ένα πρωτότυπο χαμηλής ανάλυσης στην εικόνα χαμηλής ανάλυσης και βελτιώνοντας έπειτα την αναζήτηση στα επίπεδα υψηλότερης ανάλυσης) υπο-δειγματοληψία της εικόνας και του πρωτοτύπου ταίριασμα δύο σταδίων (δηλαδή ταιριάζοντας ένα subtemplate πρώτα, και έπειτα ολόκληρο το πρωτότυπο μόνο στις βέλτιστες θέσεις) Στο [4] παρουσιάζεται ένα παράδειγμα γρήγορου αλγορίθμου συσχέτισης που ανήκει στην τελευταία κατηγορία. Ο αλγόριθμος ανίχνευσης διαδοχικής ομοιότητας (Sequential Similarity Detection Algorithm - SSDA) μειώνει το κόστος της σύγκρισης με το να τερματίζει τη σύγκριση εάν η συσσωρευμένη απόσταση υπερβαίνει ένα κατώτατο όριο. Η σύμπτωση προτύπων δύο σταδίων μειώνει το υπολογιστικό κόστος με τη χρησιμοποίηση ενός τμήματος του πρωτοτύπου (subtemplate) και την εφαρμογή του υπολοίπου του πρωτοτύπου μόνο όταν η απόσταση μεταξύ του subtemplate και μιας μικρής περιοχής του παραθύρου (subwindow) δεν υπερβαίνει ένα κατώτατο όριο. Αυτές οι προσεγγίσεις απαιτούν ενός είδους σύγκριση σε κάθε παράθυρο της εικόνας. Έχει αναπτυχθεί μια αποδοτική στρατηγική αναζήτησης που υιοθετεί την περικοπή ανώτερου ορίου ομοιότητας, η οποία καλείται ενεργός αναζήτηση (Active Search). Η ενεργός αναζήτηση περικόπτει το διάστημα αναζήτησης παραβλέποντας παράθυρα των οποίων το ανώτερο όριο ομοιότητας είναι κατώτερο από το κατώφλι. Εντούτοις, επειδή χρησιμοποιείται μόνο ένα ιστόγραμμα χρώματος σαν χαρακτηριστικό γνώρισμα, οι γεωμετρικές πληροφορίες και οι αποστάσεις μεταξύ των χρωμάτων χάνονται. Επομένως, η ενεργός αναζήτηση παρουσιάζει μια δυσκολία στον ακριβή εντοπισμό της θέσης του αντικειμένου ή στο διαχωρισμό των αντικειμένων με παρόμοια ιστογράμματα χρώματος. Το χαρακτηριστικό γνώρισμα των ιστογραμμάτων χρώματος μπορεί να χρησιμοποιηθεί μόνο περιορισμένα στη σύμπτωση προτύπων. ~ 48 ~

Εντούτοις, οι τεχνικές των τριών παραπάνω κατηγοριών υπονοούν μια μη λεπτομερή διαδικασία αναζήτησης δεδομένου ότι δε συγκρίνουν την εικόνα πλήρους ανάλυσης με το πρωτότυπο πλήρους ανάλυσης σε κάθε θέση αναζήτησης. Κατά συνέπεια, δεν υπάρχει καμία εγγύηση ότι ο αλγόριθμος βρίσκει το ολικό ελάχιστο παραμόρφωσης (ή το μέγιστο συσχέτισης). Από την άλλη, στην περίπτωση των μέτρων παραμόρφωσης, δύο ενδιαφέρουσες τεχνικές, που παρουσιάζονται στο [4] και ονομάζονται αλγόριθμος διαδοχικού αποκλεισμού (successive elimination algorithm SEA) και αποκλεισμός μερικής παραμόρφωσης (partial distortion elimination PDE) επιτρέπουν την αξιόλογη επιτάχυνση του υπολογισμού που απαιτείται για μια διαδικασία εξαντλητικής αναζήτησης. Εκτός αυτού, και οι δύο μπορούν να θεωρηθούν ως βασικές τεχνικές, που ενσωματώνονται στις προηγουμένως αναφερθείσες μη λεπτομερείς μεθόδους. Η SEA στηρίζεται στη γρήγορη εκτίμηση ενός ελάχιστου ορίου για το μέτρο παραμόρφωσης: εάν η συνάρτηση ορίου υπερβαίνει το τρέχον ελάχιστο, η θέση αυτή μπορεί να παραβλεφθεί χωρίς να υπολογιστεί η αντίστοιχη παραμόρφωση. Η PDE συνίσταται στον τερματισμό της εκτίμησης του μέτρου παραμόρφωσης εάν αυτό υπερβαίνει το τρέχον ελάχιστο. Στο [5] επεκτείνονται οι προσεγγίσεις SEA και PDE για την περίπτωση της συσχέτισης. Αυτό γίνεται καθορίζοντας πρώτα ένα άνω όριο για τη συνάρτηση NCC και ενσωματώνοντας στη συνέχεια την εκτίμηση του ορίου αυτού σε ένα σχέδιο μερικής συσχέτισης. Η ευρεία χρήση της σύμπτωσης προτύπων στις εφαρμογές της επεξεργασίας εικόνων οφείλεται κυρίως στην ευκολία υλοποίησής της μαζί με τους πολλούς ταχείς αλγορίθμους, όπως αυτοί που αναφέρθηκαν, που μπορούν να χρησιμοποιηθούν για να επιταχύνουν τη διαδικασία ταιριάσματος για τις διάφορες εφαρμογές. Σε ένα μη ομαλό περιβάλλον όμως μπορούν να εμφανιστούν προβλήματα όπως θόρυβος ή μερικός αποκλεισμός του αντικειμένου ενδιαφέροντος από άλλα κατά τη διάρκεια της διαδικασίας σύμπτωσης προτύπων. Σε τέτοιες περιπτώσεις, τα κριτήρια SAD και SSD δεν είναι πλέον κατάλληλα γιατί δε λαμβάνουν υπόψη παραμέτρους όπως το θόρυβο ή το μερικό αποκλεισμό κατά τον υπολογισμό των μέτρων σφάλματος. Μια πιθανή λύση για αυτή την αδυναμία είναι η χρήση ενός σθεναρού κριτηρίου αντί των SAD ή SSD. Η τεχνική των Μ- εκτιμητών, που παρουσιάζεται στο [11], είναι μια από τις δημοφιλέστερες μεθόδους για τη λύση του προβλήματος της σθεναρής εκτίμησης παραμέτρων και έχει εφαρμοστεί σε πολλές περιπτώσεις. Η βασική ιδέα της τεχνικής των Μ-εκτιμητών είναι ο περιορισμός της επιρροής των παραμέτρων που αναφέρθηκαν στο σφάλμα ταιριάσματος. ~ 49 ~

5.4. Αναγνώριση χειρονομιών με σύμπτωση προτύπων Η σύμπτωση προτύπων, μια θεμελιώδης τεχνική της αναγνώρισης προτύπων, έχει χρησιμοποιηθεί στο πλαίσιο τόσο της στάσης του σώματος όσο και στην αναγνώριση χειρονομιών. Στο πλαίσιο της εικόνας, η σύμπτωση προτύπων γίνεται με σύγκριση pixel-by-pixel του πρωτότυπου και της υποψήφιας εικόνας. Η ομοιότητα της υποψήφιας εικόνας με την πρωτότυπη είναι ανάλογη με το συνολικό αποτέλεσμα ενός προεπιλεγμένου μέτρου ομοιότητας. Για η αναγνώριση του σχήματος του χεριού, η εικόνα ενός εντοπισμένου χεριού από την υποψήφια εικόνα συγκρίνεται με διάφορες πρότυπες εικόνες διαφόρων σχημάτων χεριού. Το καλύτερο ταίριασμα με το πρωτότυπο (εάν υπάρχει) θεωρείται ως το αντίστοιχο σχήμα χεριού. Σαφώς, λόγω της pixel-by-pixel συγκρίσεως της υποψήφιας εικόνας, η σύμπτωση προτύπων μεταβάλλεται με την περιστροφή και την μεγέθυνση. Η σύμπτωση προτύπων ήταν μία από τις πρώτες μεθόδους που χρησιμοποιήθηκαν για την ανίχνευση χεριών σε εικόνες. Για να αντιμετωπιστεί αυτή η μεταβλητότητα, λόγω της μεγέθυνσης και της περιστροφής, έχουν προταθεί μέθοδοι που αφορούν την κανονικοποίηση των μεθόδων της μεγέθυνσης και της περιστροφής, ενώ άλλοι εμπλουτίζουν το σύνολο των πρωτοτύπων με εικόνες από πολλαπλές απόψεις. Σε ορισμένες εφαρμογές η εικόνα του χεριού κανονικοποιείται για την περιστροφή της με βάση την ανίχνευση του κύριου άξονα των χεριών και, στη συνέχεια, μεγεθύνεται λαμβάνοντος υπόψη τις διαστάσεις του χεριού στην εικόνα. Ως εκ τούτου, σε αυτή την μέθοδο το χέρι περιορίζεται να κινείται σε μια επίπεδη επιφάνεια που είναι παράλληλη στην κάμερα. Για να αντιμετωπίσει το αυξημένο υπολογιστικό κόστος κατά τη σύγκριση των πολλαπλών απόψεων του ίδιου πρωτότυπου, αυτές οι απόψεις καθορίζονται με τον προσανατολισμό των διάφορων παραμέτρων. Η αναζήτηση για την βέλτιστη αντιστοίχηση πρωτότυπου επιταχύνεται, με αναζήτηση μόνο σε σχετικές περιοχές της εικόνας σε σχέση με εκείνες που ανιχνεύθηκε στο προηγούμενο πλαίσιο. Ένα πρότυπο μπορεί να αποτελείται από τις κατευθύνσεις ακμής της χειρομορφης (contour Template Matching). Η ανίχνευση ακμών εκτελείται στην εικόνα του απομονωμένου χεριού και υπολογίζονται οι κατευθύνσεις ακμής. Το ιστόγραμμα αυτών των κατευθύνσεων χρησιμοποιείται ως χαρακτηριστικό διάνυσμα. Η αξιολόγηση αυτής της προσέγγισης έδειξε ότι τα ιστογράμματα προσανατολισμού ακμής δεν είναι επαρκώς διαφοροποιημένα, διότι πολλές, σχηματικά, διαφορετικές χειρονομίες παρουσιάζουν παρόμοια ιστογράμματα. Μια άλλη προσέγγιση, ώστε να αξιοποιηθούν με καλύτερο τρόπο τα χαρακτηρίστηκα του προτύπου, στην μέθοδο της σύμπτωσης προτύπων, είναι για καθένα frame εισόδου, η (κανονικοποιημένη) περιοχή της χειρομορφης να ~ 50 ~

συγκρίνεται με μια σειρά διαφορετικών εκδοχών από του ιδίου πρότυπουχειρομορφης (π.χ. άλλες γωνίες, σχηματικές διαφορές της ίδιας χειρομορφής). Με αυτό τον τρόπο μια αποκτούνται μια σειρά μονοδιάστατων χαρακτηριστικών από την στοίβαξη των προκύπτει ένα 2D σχήμα χειρομορφης το οποίο χρησιμοποιείται ως πρότυπο (region Template Matching). Μια άλλη προσέγγιση για τη δημιουργία μοντέλων χειρονομιών που μπορούν να συγκριθούν με πρότυπα-templates είναι να συμπεριληφθεί και η κίνηση στην πάροδο του χρόνου. Οι εικόνες εισόδου επεξεργάζονται frame by frame και κάποια χαρακτηριστικά που σχετίζονται με την κίνηση ανιχνεύονται σε κάθε frame. Τα χαρακτηριστικά που εντοπίστηκαν, από όλα τα πλαίσια, συσσωρεύονται σε ένα 2D buffer στη θέση της ανίχνευσης τους. Η εικόνα που λαμβάνεται χρησιμοποιείται ως αναπαράσταση της χειρονομίας και χρησιμεύει ως αναγνώριση προτύπου. Με αυτόν τον τρόπο, η κίνηση (ή ίχνος) των χαρακτηριστικών σημείων της εικόνας σε συλλαμβάνεται με μια σειρά. Η προσέγγιση αυτή είναι κατάλληλη για μια στατική κάμερα όπου παρατηρείται ένας χρήστης μπροστά από ένα στατικό φόντο.[19][33][34][35][36] 5.5. Η μέθοδος Σύμπτωσης προτύπων στο σύστημα αναγνώρισης χειρονομιών Η σύμπτωση προτύπων χρησιμοποιείται, όπως προαναφέρθηκε, στην επεξεργασία εικόνων κυρίως για ανίχνευση αντικειμένων σε εικόνες. Είναι λοιπόν αναμενόμενο η τεχνική αυτή να βρίσκει εφαρμογή στην αναγνώριση ανθρώπινων χειρονομιών, και ιδιαίτερα στην αναγνώριση στατικών χειρομορφών. Επιπλέον, είναι αρκετά απλή στην εφαρμογή της. Έτσι, προτιμήθηκε για το στάδιο της αναγνώρισης των χειρομορφών στο σύστημα που υλοποιήθηκε για τις ανάγκες της παρούσας εργασίας. Για την εφαρμογή της σύμπτωσης προτύπων είναι απαραίτητη η εκ των προτέρων αποθήκευση των πρωτοτύπων των χειρομορφών που είναι επιθυμητό να αναγνωριστούν. Στη συνέχεια, δεδομένης μιας εικόνας εκτελείται η σύμπτωση προτύπων για αυτά τα πρωτότυπα. Φυσικά, όταν τα πρωτότυπα είναι πολλά η διαδικασία απαιτεί πολύ υπολογιστικό χρόνο. Όπως έχει αναφερθεί σε προηγούμενο κεφάλαιο, η ανίχνευση περιοχών ανθρώπινου δέρματος, όπως τα χέρια και το κεφάλι, είναι μια ευρέως διαδεδομένη εφαρμογή κατάτμησης εικόνων και μάλιστα δεν απαιτεί πολύ υπολογιστικό χρόνο για την εκτέλεσή της. Έτσι, για την επιτάχυνση της διαδικασίας, μπορεί να προηγηθεί το στάδιο της ανίχνευσης ~ 51 ~

των περιοχών δέρματος και στη συνέχεια να εκτελεστεί η σύμπτωση προτύπων μεταξύ των πρωτοτύπων και των ανιχνευμένων περιοχών που περιέχουν τα χέρια. Με τον τρόπο αυτό, η αναζήτηση των πρωτοτύπων περιορίζεται στις περιοχές που ανιχνεύονται με τη διαδικασία της κατάτμησης και δεν γίνεται σε ολόκληρη την εικόνα. Η μέθοδος αυτή δεν βρίσκει εφαρμογή στο σύστημα μας λόγω της φύσης των εικόνων που απαρτίζουν το data set μας (φωτογραφίες χειρομορφών) ωστόσο το στάδιο της ανίχνευσης των περιοχών δέρματος προηγείται της εφαρμογής της σύμπτωσης προτύπων ώστε να υπολογίζεται η συσχέτιση (cross-correlation) ανάμεσα στις δυαδικές πλέον εικόνες, blobs, κάτι που επιταχύνει και απλουστεύει την συσχέτιση των εικόνων και την όλη διαδικασία αναγνώρισης. Η έξοδος του συστήματος είναι η χειρομορφή εκείνη για την οποία η συσχέτιση είναι μέγιστη. Περισσότερες λεπτομέρειες για τον τρόπο υπολογισμού των διαφόρων μεγεθών που χρησιμοποιούνται θα δοθούν στο κεφάλαιο της υλοποίησης του συστήματος. ~ 52 ~

6 Υλοποίηση Συστήματος Αναγνώρισης Ανθρώπινων Χειρονομιών 6.1. Εισαγωγή Στα προηγούμενα κεφάλαια παρουσιάστηκαν διάφορες μέθοδοι υπολογιστικής όρασης που χρησιμοποιούνται στην παρακολούθηση και αναγνώριση χειρονομιών. Στο κεφάλαιο αυτό περιγράφεται διεξοδικά το σύστημα αναγνώρισης ανθρώπινων χειρονομιών, που δημιουργήθηκε στα πλαίσια της παρούσας εργασίας, και χρησιμοποιεί τις μεθόδους αυτές. Παρουσιάζονται επίσης μερικά ενδεικτικά αποτελέσματα εφαρμογής του αλγορίθμου. Το σύστημα αυτό υλοποιήθηκε στο Matlab και περιλαμβάνει την αναγνώριση εννέα προκαθορισμένων χειρονομιών που εκτελούνται από ένα χέρι. Η αναγνώριση των χειρονομιών δε γίνονται σε πραγματικό χρόνο αλλά πραγματοποιείται στην βάση δεδομένων που χρησιμοποιήθηκε και περιγράφεται αναλυτικά στην παράγραφο 6.2.1. Στην παρούσα μορφή του, το σύστημα αναγνώρισης ανθρώπινων χειρονομιών είναι σε θέση να λειτουργήσει μόνο για την συγκεκριμένη βάση δεδομένων (dedicated), ωστόσο υπάρχει δυνατότητα επέκτασης του συστήματος για την εφαρμογή του σε παρόμοια βάση δεδομένων ή για λειτουργία πραγματικού χρόνου. ~ 53 ~

6.2. Βάσεις δεδομένων και αναγνώριση ανθρώπινων χειρονομιών 6.2.1 Κατηγορίες βάσεων δεδομένων Όπως αναφέρθηκε στο 2 ο κεφάλαιο, υπάρχουν διάφοροι τύποι χειρονομιών που μπορούν να αναγνωριστούν από τους υπολογιστές όπως επίσης και ένα ευρύ πεδίο χρήσης τους όπως: Αναγνώριση νοηματικής γλώσσας. Ρομποτική ιατρική. Ένδειξη κατεύθυνσης μέσω της κατάδειξης. Τεχνολογία παιχνιδιών. Εικονικοί ελεγκτές. Κάθε βάση δεδομένων (dataset) έχει συγκεκριμένο περιεχόμενο που εξαρτάται από το πεδίο εφαρμογής του αναπτυσσόμενου συστήματος αναγνώρισης. Στον τομέα της αναγνώρισης ανθρώπινων χειρονομιών οι βάσεις δεδομένων κατασκευάζονται για την ανάπτυξη και βελτίωση συστημάτων αναγνώρισης χειρονομιών που υπάγονται στα παραπάνω πεδία εφαρμογών που αναφέρθηκαν. Εικόνα 6.1 : Αλφάβητο χειρομορφών για την ASL Sign Language ~ 54 ~

Έτσι λοιπόν, η πολυπλοκότητα, η δομή και οι περιπτώσεις που καλύπτει κάθε βάση δεδομένων καθορίζονται από το πεδίο εφαρμογής του συστήματος αναγνώρισης. Στην εικόνα 6.1 παρουσιάζεται το σύνολο των χειρομορφών που απαιτεί η αναγνώριση της αμερικανικής νοηματικής γλώσσας. Η πολυπλοκότητα κατασκευής μιας βάσης δεδομένων για αυτό το πεδίο είναι μεγάλη και θα πρέπει να καλύπτει ένα σημαντικό αριθμό διαφορετικών περιπτώσεων και συνδυασμών ώστε το σύστημα που θα αναπτυχθεί να είναι επαρκώς αποτελεσματικό. Όπως είναι φυσικό, το μεγάλο πλήθος διαφορετικών συνδυασμών για την παραγωγή λέξεων υπό διαφορετικές συνθήκες και άτομα, καθιστούν δύσκολη την κατασκευή μιας τέτοιας βάσης δεδομένων. Αντίθετα με τις βάσεις δεδομένων της νοηματικής γλώσσας, στα πεδία της ένδειξης κατεύθυνσης μέσω της κατάδειξης, τεχνολογίας παιχνιδιών και εικονικών ελεγκτών, το σύνολο των διαφορετικών χειρομορφών που απαιτούνται να αναγνωριστούν είναι συνήθως μικρότερο. Στην εικόνα 6.2 παρουσιάζεται μια εφαρμογή εικονικού ελεγκτή σε τηλεόραση νέας γενιάς. Αναγνωρίζεται μια μόνο χειρομορφή και ο χειρισμός επιτυγχάνεται με την αναγνώριση της κίνησης της. Εικόνα 6.2 : Εφαρμογή σε τηλεόραση εικονικού ελεγκτή Η πολυπλοκότητα μιας βάσης δεδομένων για ανάπτυξη τέτοιων εφαρμογών είναι μικρότερη και αφορά την κάλυψη περιπτώσεων ιδιαίτερων συνθηκών από ένα σημαντικό αριθμό διαφορετικών ατόμων. Η τεχνολογική εξέλιξη σε αυτά τα πεδία είναι ραγδαία τα τελευταία χρόνια και εξαπλώνεται σε συσκευές που χρησιμοποιούνται καθημερινά, όπως η τηλεόραση και το κινητό τηλέφωνο. Η βάση δεδομένων που χρησιμοποιήθηκε στην παρούσα εργασία ανήκει σε αυτά τα συναφή πεδία της τεχνολογίας παιχνιδιών και εικονικών ελεγκτών. Το σύστημα αναγνώρισης ανθρώπινων χειρονομιών που αναπτύχτηκε είναι σε θέση να λειτουργήσει μόνο για την συγκεκριμένη βάση δεδομένων (dedicated), ωστόσο ~ 55 ~

υπάρχει δυνατότητα επέκτασης του συστήματος για την εφαρμογή του σε παρόμοιες εφαρμογές πραγματικού χρόνου. 6.2.2. Η Βάση δεδομένων (dataset) που χρησιμοποιήθηκε από το σύστημα για αξιολόγηση ταξινόμησης Η βάση δεδομένων που χρησιμοποιήθηκε από το σύστημα μας δημοσιεύτηκε από το πανεπιστήμιο του Cambridge το 2007 [7] με σκοπό την ανάπτυξη ενός συστήματος ικανό να ταξινομήσει το σύνολο των δοθέντων χειρονομιών. Υπάγεται στην κατηγορία της τεχνολογίας παιχνιδιών και εικονικών ελεγκτών και εξετάζει διεξοδικά το πρόβλημα της έντονης εναλλαγής φωτισμού στην εκτέλεση των χειρονομιών-actions. Εικόνα 6.3: Χειρονομίες που αναγνωρίζονται από το σύστημα. ~ 56 ~

Στο σύνολο της η βάση δεδομένων αποτελείται από 900 ακολουθίες εικόνων (video) εννέα διαφορετικών κλάσεων gesture που ορίζονται από 3 διαφορετικά σχήματα χεριού και 3 διαφορετικές κινήσεις όπως ακριβώς παρουσιάζονται στην εικόνα 6.4. Εικόνα 6.4: Εννέα διαφορετικές κλάσεις χειρονομιών δημιουργούνται από 3 διαφορετικές χειρομορφές και κινήσεις. Εικόνα 6.5: Περιπτώσεις διαφορετικού φωτισμού για τα 5 sets. Κάθε κλάση χειρονομιών αποτελείται από 100 ακολουθίες εικόνων (video) οι οποίες απαρτίζονται : από 5 περιπτώσεις (sets) διαφορετικού φωτισμού 10 αυθαίρετοι τρόποι κινήσεως 2 διαφορετικά άτομα Κάθε ακολουθία καταγράφηκε μπροστά από μια σταθερή κάμερα που έκανε λήψη των χειρονομιών στον χώρο και στον χρόνο. Με αυτόν τον τρόπο η κίνηση των χειρομορφών καταγράφεται με διαδοχικές φωτογραφίες-frames η σύνθεση των ~ 57 ~

οποίων μας δίνει το video της χειρονομίας. Μια χειρονομία αποτελείτε από 40 μέχρι 100 περίπου frames με μέγεθος ανάλυσης κάθε frame 320x260. Όλη η εκπαίδευση και επεξεργασία διεξήχθη επί των δεδομένων του set1 (απλή ρύθμιση φωτισμού) ενώ η δοκιμή και η ταξινόμηση έγινε μετά στα στοιχεία που των υπολοίπων set (set2,set3,set4,set5) όπως καταδεικνύεται και από το citation paper της βάσης δεδομένων [8]. 6.3. Περιγραφή συστήματος αναγνώρισης ανθρώπινων χειρονομιών 6.3.1. Δημιουργία μοντέλου χρώματος Όπως αναφέρθηκε και στην ενότητα 4.3.3, πρώτο βήμα για τη δημιουργία ενός μοντέλου χρώματος είναι η συλλογή ενός συνόλου μάθησης, που αποτελείται από δείγματα pixels περιοχών του χρώματος που μας ενδιαφέρει, από διάφορες εικόνες. Οι RGB συνιστώσες του συνόλου αυτού μετατρέπονται σε χρωματικές συνιστώσες, αντιστοιχίζονται δηλαδή στο δισδιάστατο χώρο χρωματικότητας. Τέλος επιλέγεται ένα μοντέλο για την περιγραφή της κατανομής των δειγμάτων στο 2Δ χώρο χρωματικότητας. Το βασικό πλεονέκτημα της χρήσης του χώρου χρωματικότητας είναι ότι περιορίζεται η επίδραση από τις αλλαγές στο φωτισμό, αφού οι συνιστώσες χρωματικότητας είναι ανεξάρτητες της συνιστώσας φωτεινότητας. Το χρώμα που μας ενδιαφέρει στη δεδομένη εφαρμογή είναι το χρώμα του δέρματος. Το σύνολο μάθησης αποτελείται λοιπόν από εικόνες του set 1 που περιέχουν το χρώμα αυτό και συγκεκριμένα από διάφορες εικόνες χεριών υπό διάφορες συνθήκες φωτισμού, ώστε να περιορίζεται ακόμη περισσότερο η επίδραση των αλλαγών στο φωτισμό. ~ 58 ~

Εικόνα 6.6: Εικόνα μάθησης. Αρχικά δημιουργείται μια εικόνα μάθησης η οποία αποτελείται από δείγματα περιοχών του χρώματος δέρματος που συλλέχτηκαν από ένα το set 1. Αφού δημιουργηθεί η εικόνα του συνόλου μάθησης, μετατρέπεται στο χώρο CIE-Lab και τα ζεύγη των τιμών (a,b) κάθε pixel τοποθετούνται στο επίπεδο των χρωματικών συνιστωσών (a,b), ακολουθώντας τη διαδικασία που περιγράφεται στη συνέχεια. Αρχικά είναι απαραίτητο να μετρηθεί ο αριθμός εμφανίσεων κάθε ζεύγους τιμών (a, b). Τα ζεύγη αυτά χρησιμοποιούνται ως δείκτες σε έναν πίνακα, κάθε στοιχείο του οποίου περιλαμβάνει τον αριθμό εμφανίσεων τους στην εικόνα μάθησης. Το αποτέλεσμα που προκύπτει είναι ένα "σύννεφο" σημείων, συγκεντρωμένο σε μια σχετικά μικρή περιοχή, όπως φαίνεται και στο παρακάτω σχήμα: Εικόνα 6.7: Απεικόνιση των ζευγών (a, b) στο επίπεδο αb. Στο μικρό "σύννεφο" σημείων που προκύπτει (εικόνα 6.8) παρατηρούνται δυο μικρές περιοχές όπου η πιθανότητα των pixel να ανήκουν σε περιοχή δέρματος είναι μεγαλύτερη. Αυτό οφείλεται στο δείγμα των εικόνων που επιλέχτηκαν από το set 1 και συγκεκριμένα στο γεγονός ότι οι χειρομορφές της βάσης μας, τόσο στο set ~ 59 ~

1 όσο και στα υπόλοιπα sets, προέρχονται από 2 άτομα. Το γεγονός αυτό δεν επηρεάζει την επιτυχία αναγνώρισης του συστήματος καθώς η αναγνώριση χειρονομιών δεν επεκτείνεται σε περισσότερα άτομα. Σε αντίθετη περίπτωση θα έπρεπε η εικόνα μάθησης να εμπεριέχει περιπτώσεις χειρομορφών από έναν ικανό πληθυσμό ατόμων (>50) κάτι που θα είχε σαν αποτέλεσμα στην εικόνα 6.6 τον σχηματισμό ενός μόνο ενιαίου κέντρου. Όπως είναι φυσικό, η διαδικασία ανάπτυξης του μοντέλου χρώματος του δέρματος είναι μια διαδεδομένη τεχνική και σε αυτόν τον τομέα έχουν γίνει αρκετά αξιόλογες δουλείες, με μεγάλα δείγματα πληθυσμού, που μπορούν να μας δώσουν, έτοιμα πλέον, αξιόλογα αποτελέσματα. Στο [4], για παράδειγμα, χρησιμοποιήθηκαν 2300 δείγματα δέρματος από 80 εικόνες καταλήγοντας σε μια μικρή περιοχή συγκέντρωσης στο χρωματικό χώρο ab του CIE-Lab. Εικόνα 6.8: Απεικόνιση των ζευγών (a, b) στο επίπεδο αb (λεπτομέρεια) Στην εικόνα 6.8 παρατηρούμε επίσης κάποια pixel σχετικά μακριά και από τα δυο κέντρα κάτι που οφείλεται στην ανομοιομορφία της κατανομής της χρωματικότητας στις περιοχές δέρματος των χειρομορφών. Η βάση δεδομένων εισάγει ηθελημένα μια δυσκολία στην διαδικασία αναγνώρισης των χειρονομιών με σκοπό την ανίχνευση αδυναμιών κάθε συστήματος ταξινόμησης. Η δυσκολία αυτή αντιμετωπίζεται με την επιλογή αυστηρότερων κατωφλίων ανίχνευσης χρώματος ~ 60 ~

δέρματος με σκοπό την αποκοπή περιοχών με "φτωχή" χρωματικότητα. Τα κατώφλια αυτά καθορίστηκαν πειραματικά στο διάστημα α:[142,146] και b:[132,155]. Εικόνα 6.9: Περίπτωση χειρομορφής του set1 με περιοχές "φτωχής" Χρωματικότητας. Το εισερχόμενο frame της χειρομορφής, στο σύστημα ταξινόμησης που αναπτύχτηκε, μετατρέπεται αρχικά από τον RGB χρωματικό χώρο στον χώρο χρωματικότητας CIE-Lab με σκοπό την όσο το δυνατόν μεγαλύτερη αποσυσχέτιση της φωτεινότητας (συνιστώσα L) και της χρωματικότητας (συνιστώσες a,b). Είναι απαραίτητο η χρησιμοποίηση ενός χρωματικού χώρου που διαχωρίζει επαρκώς τη χρωματικότητα από την φωτεινότητα του χρώματος. Αυτό οφείλεται στο γεγονός ότι με την χρησιμοποίηση μόνο της χρωματικότητας του χρώματος, επιτυγχάνεται σε κάποιο βαθμό η ανθεκτικότητα σε μεταβολές φωτισμού. Για την δύσκολη περίπτωση που είδαμε στην εικόνα 6.9 οι συνιστώσες χρωματικότητας και φωτεινότητας κατά την διαδικασία εφαρμογής του αλγορίθμου ανίχνευσης χρώματος δέρματος παρουσιάζονται στην εικόνα 6.10 που ακολουθεί. ~ 61 ~

Εικόνα 6.10: Μετατροπή RGB εικόνας στον χρωματικό χώρο CIE-Lab. Μετά την μετατροπή της RGB εικόνας στον χρωματικό χώρο CIE-Lab γίνεται η κατάτμηση της εικόνας με βάση το μοντέλο χρώματος που αναλύθηκε παραπάνω αποδίδοντας με λευκό χρώμα τις περιοχές χρώματος δέρματος που ανιχνεύονται και με μαύρο τις υπόλοιπες. Για το σκοπό αυτόν χρησιμοποιούνται μόνο οι χρωματικές συνιστώσες a,b της CIE-Lab εικόνας. Στο τέλος της διαδικασίας αυτής λαμβάνουμε ως αποτέλεσμα μια ασπρόμαυρη εικόνα η αλλιώς το blob της χειρομορφής. Γενικά, για την επιτυχή αναγνώριση της χειρομορφης από την μετέπειτα εφαρμογή της μεθόδου template matching που αναλύθηκε στο κεφάλαιο 5, είναι σκόπιμο να αποκοπεί κάθε χρωματική περιοχή αρκετά κοντά στο λευκό χρώμα. Στην περίπτωση που το blob της χειρομορφής δεν είναι ενιαίο αλλά έχει μαύρες περιοχές αυτό δεν επηρεάζει την σωστή αναγνώριση του σχεδόν ποτέ. Σε ~ 62 ~

αντίθετη περίπτωση, περιοχές του φόντου αρκετά κοντά στο λευκό χρώμα ήταν πιθανό να αναγνωριστούν ως περιοχές δέρματος γεγονός που θα έκανε αδύνατη την μετέπειτα αναγνώριση της χειρομορφής από τον αλγόριθμο template matching. Στην εικόνα 6.11 που ακολουθεί παρουσιάζεται μια κανονική καθώς και η δύσκολη περίπτωση χειρομορφής που παρουσιάστηκε παραπάνω στις εικόνες 6.9 και 6.10. Και οι δυο περιπτώσεις αναγνωρίζονται επιτυχώς μετέπειτα από τον αλγόριθμο template matching. Εικόνα 6.11: Αποτελέσματα κατάτμησης 2 χειρομορφών (set 1) με την εφαρμογή του μοντέλου χρώματος. Δεξιά παρουσιάζεται το blob μιας τυχαίας χειρομορφής (κανονική περίπτωση). Αριστερά παρουσιάζεται το blob της δύσκολης περίπτωσης χειρομορφής που παρουσιάστηκε παραπάνω στις εικόνες 6.9 και 6.10. 6.3.2. Αναγνώριση χειρομορφών με σύμπτωση προτύπων (template matching) Όπως αναφέρθηκε στο κεφάλαιο 5, ο βασικός αλγόριθμος σύμπτωσης προτύπων συνίσταται στην ολίσθηση του πρωτοτύπου στην περιοχή αναζήτησης και στον υπολογισμό σε κάθε θέση της τιμής μιας συνάρτησης παραμόρφωσης ή συσχέτισης που υπολογίζει το βαθμό ανομοιότητας ή ομοιότητας μεταξύ του πρωτοτύπου και της εικόνας. Οι χειρομορφές που αναγνωρίζονται από το σύστημα απεικονίζονται στο παρακάτω σχήμα. ~ 63 ~

Εικόνα 6.12: Χειρομορφές που αναγνωρίζονται από το σύστημα. 6.3.3. Διαδικασία δημιουργίας του target (training) Τα πρωτότυπα που χρησιμοποιούνται για σύγκριση είναι το άθροισμα (sum) του συνόλου των χειρομορφών του set 1 για κάθε ένα από τα τρία ειδή χειρομορφών, flat, spread και v-hand. Η διαδικασία αυτή πραγματοποιείται αλγοριθμικά, με τον ίδιο τρόπο και για τα τρία ειδή χειρομορφών. Στην περίπτωση των χειρομορφών flat, για παράδειγμα, ακολουθούνται τα παρακάτω βήματα: 1. Αρχικά συγκεντρώνονται οι εικόνες με τις χειρομορφές flat (του set1) που θα αθροιστούν. 2. Δημιουργείται ένα αρχικό target που αποτελείται από μια εικόνα (τυχαία επιλογή), σε μορφή blob, από τις παραπάνω εικόνες που συγκεντρώθηκαν στο πρώτο βήμα. 3. Έπειτα εφαρμόζεται ο αλγόριθμος της σύμπτωσης προτύπων. Κάθε εισερχόμενο blob ως template περιστρέφεται σε επτά γωνίες. Για κάθε μια γωνία το template σαρώνει κάθε περιοχή του target υπολογίζοντας την περιοχή ( παράθυρο) μέγιστης συσχέτισης. 4. Εφόσον έχει επιλεχτεί η γωνία και το παράθυρο μέγιστης συσχέτισης τότε το template προστίθεται (sum) στο παράθυρο αυτό περιστρεμμένο κατά την με την γωνία επιλογής. 5. Προκύπτει μια νέα εικόνα που χρησιμοποιείται ως νέο target επαναλαμβάνοντας την παραπάνω διαδικασία για το επόμενο blob κάθε μιας εικόνας από αυτές που συγκεντρώθηκαν στο πρώτο βήμα. Με αυτόν τον τρόπο, αθροίζονται το σύνολο των εικόνων του set 1 που αντιστοιχούν σε χειρομορφές flat. Το αποτέλεσμα που προκύπτει είναι μια χειρομορφή flat, στην οποία οι περιοχές κοινών pixel των εικόνων που αθροιστήκαν παρουσιάζουν μεγαλύτερη συγκέντρωση, όπως φαίνεται και στο παρακάτω σχήμα: ~ 64 ~

Εικόνα 6.13: Απεικόνιση αποτελέσματος άθροισης χειρομορφών flat του set1 (60 χειρομορφές flat). Κατόπιν κανονικοποίησης στο διάστημα [0,1] το παραπάνω σχήμα μας δίνει την συγκέντρωση των pixel της χειρομορφης flat σε μορφή πιθανότητας: Εικόνα 6.14: Απεικόνιση αποτελέσματος άθροισης χειρομορφών flat του set1 (60 χειρομορφές flat). ~ 65 ~

Εικόνα 6.15: Πρότυπο της χειρομορφης flat. Αντιστοιχίζοντας την συγκέντρωση των pixel της χειρομορφης flat της εικόνας 6.14 στις αποχρώσεις της γκρι κλίμακας (grayscale) στο διάστημα [0,1], λαμβάνουμε την εικόνα 6.15, που θα χρησιμοποιηθεί για την αναγνώριση των χειρομορφών flat από τον αλγόριθμο σύμπτωσης προτύπων για τα υπόλοιπα sets της βάσης δεδομένων. Με την ίδια διαδικασία προκύπτουν τα αποτελέσματα της άθροισης των χειρομορφών spread και v-hand, όπως παρουσιάζονται στα σχήματα που ακλουθούν: Εικόνα 6.16: Απεικόνιση αποτελέσματος άθροισης χειρομορφών spread του set1 (60 χειρομορφές spread). ~ 66 ~

Εικόνα 6.17: Πρότυπο της χειρομορφης spread. Εικόνα 6.18: Απεικόνιση αποτελέσματος άθροισης χειρομορφών v-hand του set1 (60 χειρομορφές v-hand). ~ 67 ~

Εικόνα 6.19: Πρότυπο της χειρομορφης v-hand. Η τελική εικόνα target που θα χρησιμοποιηθεί για την αναγνώριση της χειρομορφης από τον αλγόριθμο template matching, προκύπτει από την συνένωση των προτύπων που δημιουργήθηκαν παραπάνω για τις περιπτώσεις flat, spread και v-hand Με αυτόν το τρόπο δημιουργείται μια εικόνα target που αποτελείται από τα 3 πρότυπα σχήματα: Εικόνα 6.20: Αρχικό target χωρίς βελτίωση. 6.3.4. Διαδικασία βελτίωσης του target Για την όσο το δυνατόν μεγαλύτερη επιτυχία του συστήματος αναγνώρισης χειρονομιών στα sets αξιολόγησης, είναι αναγκαίο στο στάδιο αναγνώρισης των χειρομορφών να βελτιώσουμε το target που δημιουργήθηκε παραπάνω (εικόνα ~ 68 ~

6.20) ώστε να ελαττωθεί η πιθανότητα εσφαλμένης αναγνώρισης. Εσφαλμένη αναγνώριση μπορεί να έχουμε στην περίπτωση που μια εισερχόμενη χειρομορφή συσχετιστεί σε μεγαλύτερο βαθμό με κάποια από τις υπόλοιπες δυο χειρομορφές του target. Αυτό οφείλεται είτε από ηθελημένες από την βάση δύσκολες περιπτώσεις, όπου η χειρομορφή είναι σημαντικά παραμορφωμένη (εικόνα 6.14), είτε από περιπτώσεις όπου η χειρομορφή που εισάγεται διαφέρει σε βασικά σημεία από αυτές του target (πχ. το εύρος του ανοίγματος των δαχτύλων στο spread και στο v-hand, το κλείσιμο του αντίχειρα στο flat κτλ). Εικόνα 6.21 : Μερικές δύσκολες περιπτώσεις χειρομορφών του set 1. Στην παρούσα μορφή της εικόνας προτύπων target, τα αποτελέσματα αναγνώρισης στο set 1, όπου γίνεται η εκπαίδευση, όπως αυτά φαίνονται στην εικόνα 6.21 είναι 100% για τις περιπτώσεις flat και spread και μόλις 8% για την περίπτωση v-hand. Αυτό σημαίνει ότι οι χειρομορφές v-hand δεν συσχετίζονται σε μεγάλο βαθμό με το πρωτότυπο τους αλλά με τα υπόλοιπα δυο πρωτότυπα. Η συσχέτιση αυτή είναι δυνατόν να αυξηθεί με την εφαρμογή βαρών στην εικόνα του πρωτότυπου v-hand, ώστε να αυξηθούν οι τιμές των pixel που αποτελείται. Ωστόσο, η μονομερώς υπέρμετρη απόδοση βαρών σε ένα πρωτότυπο προκαλεί δυσκολίες ~ 69 ~

στην συσχέτιση των άλλων πρωτοτύπων, εμφανίζοντας σφάλματα στην αναγνώριση των υπόλοιπων κλάσεων. Για τον σωστό προσδιορισμό του επιβαλλόμενου βάρους στο παρακάτω σχήμα παρουσιάζονται τα σφάλματα που εμφανίζονται για διαφορές τιμές απόδοσης βαρών στο πρωτότυπο v-hand. Επιπλέον τιμές λήφθηκαν στο διάστημα 20%-30% όπου τα αποτελέσματα αναγνώρισης είναι στην μεγίστη τιμή τους. Το επιπρόσθετο βάρος που θα αποδώσουμε στο πρωτότυπο v-hand αντιστοιχεί στην τιμή 0.25 (25%), στην οποία τα αποτελέσματα αναγνώρισης στο set 1 είναι 100% και για τις 3 περιπτώσεις flat, spread και v-hand. 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% αρχικο 0% βαρος 10% βαρος 20% βαρος 25% βαρος 27,5% βαρος 30% βαρος 40% βαρος 50% flat 100% 100% 100% 100% 100% 100% 87% 68% spread 100% 100% 100% 100% 100% 97% 90% 42% v-hand 8% 30% 100% 100% 100% 100% 100% 100% Εικόνα 6.22 : Σφάλματα που εμφανίζονται για διαφορές τιμές απόδοσης βαρών στο πρωτότυπο v-hand. Με βάση τα παραπάνω, η εικόνα πρότυπου του v-hand θα αλλάξει μορφή, καθώς θα αποδοθεί σε αυτήν βάρος 25%. Στην εικόνα 6.23 παρουσιάζεται η αρχική εικόνα πρότυπου του v-hand, που δημιουργήθηκε στην παράγραφο 6.3.3, καθώς και το νέο πρότυπο μετά την απόδοση του βάρους. Τέλος, στην εικόνα 6.24, παρουσιάζονται οι μεταβολές του αρχικού target κατά την αύξηση των βαρών στο v-hand. ~ 70 ~

Εικόνα 6.23 : Αριστερά: Αρχική εικόνα πρότυπου του v-hand, που δημιουργήθηκε στην παράγραφο 6.3.3 Δεξιά: Το νέο πρότυπο μετά την απόδοση του βάρους. Εικόνα 6.24 : Μεταβολές αρχικού target κατά την αύξηση των βαρών στο v-hand. ~ 71 ~

Η εισερχόμενη στο σύστημα χειρομορφή, πριν την εφαρμογή του αλγορίθμου template matching, συμπιέζεται κατά 70%, μειώνοντας τον απαιτούμενο χρόνο αναγνώρισης ακόμα περισσότερο, χωρίς να υπάρχουν σημαντικές απώλειες πληροφορίας, όπως παρατηρούμε στις εικόνες 6.25 και 6.26. Στην εικόνα 6.25 παρατηρούμε (για το set 1) ότι σφάλματα που οφείλονται στην συμπίεση των εικόνων εμφανίζονται από 70% συμπίεση και άνω. Για την επιλογή μας (συμπίεση 70%), τα σφάλματα αναγνώρισης λόγω συμπίεσης, ανέρχονται στα 0 στο σύνολο των 180 χειρονομιών, που απαρτίζεται το set 1. Στην εικόνα 6.26 παρουσιάζεται ο χρόνος αναγνώρισης κάθε χειρομορφής για διαφορετικές συμπιέσεις. Το υψηλό υπολογιστικό κόστος γίνεται εμφανές ειδικά στην περίπτωση που δεν γίνεται συμπίεση. Ο χρόνος αναγνώρισης, σε αυτήν την περίπτωση, για μόνο μια χειρομορφή ανέρχεται περίπου στα 5,5 λεπτά καθιστώντας το σύστημα μας εξαιρετικά αργό. Ο χρόνος αυτός μειώνεται αισθητά με την αύξηση της συμπίεσης, όπως μας δείχνει η εικόνα 6.26, και πέφτει στα 2,3 δευτερόλεπτα για συμπίεση 70%. Το σύστημα μας εκτός από αξιόπιστο πρέπει να είναι και επαρκώς γρήγορο. Έτσι λοιπόν, η επιλογή της συμπίεσης των εισερχόμενων frame του συστήματος σχετίζεται με το κόστος ευκαιρίας των λαθών αναγνωρίσεως και του χρόνου υλοποίησης. Από τα παραπάνω είναι εμφανές ότι η επιλογή συμπίεσης 70% αποτελεί έναν βέλτιστο συνδυασμό χρόνου-σφαλμάτων. Σημειώνεται ότι στην περίπτωση συμπίεσης 60%, όπου έχουμε μηδαμινο λάθος αναγνώρισης λόγω συμπίεσης, ο χρόνος αναγνώρισης για μόνο μια χειρομορφή ανέρχεται περίπου στα 8 δευτερόλεπτα, παραμένοντας υψηλός ενώ παραπάνω συμπίεση από 70% δεν θεωρείται απαραίτητη καθώς ο χρόνος υλοποίησης στα 70% κρίνεται ικανοποιητικός. Στο σημείο αυτό φαίνεται και η ευελιξία του συστήματος μας στο χρόνο και στην αξιοπιστία καθώς εύκολα μπορεί να προσαρμοστεί ανάλογα με τις απατήσεις της εκάστοτε εφαρμογής. ~ 72 ~

Σύνολο λανθασμενων αναγνωρήσεων για το set 1 10 9 8 7 6 5 4 3 2 1 0 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Συμπίεση (%) flat spread v-hand total Εικόνα 6.25: Σύνολο λανθασμένων αναγνωρίσεων του set 1(180 χειρομορφές) για διαφορετικές συμπιέσεις. Συμπίεση (%) 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 Χρόνος αναγνώρησης 1 χειρομορφής ( sec ) Εικόνα 6.26: Χρόνος αναγνώρισης κάθε χειρομορφής για διαφορετικές συμπιέσεις. ~ 73 ~

6.3.5. Αποτελέσματα του αλγορίθμου template matching Αποτέλεσμα του αλγορίθμου template matching είναι η εύρεση της γωνίας και του παράθυρου μέγιστης συσχέτισης. Στις εικόνες 6.27, 6.28 και 6.29 παρουσιάζονται παραδείγματα της εφαρμογής της μεθόδου template matching όπου αναγνωρίζονται οι τρεις κατηγορίες διαφορετικών σχημάτων: flat, spread και v-hand. Με αυτόν τον τρόπο στο τέλος του αλγορίθμου έχουμε την πληροφορία του σχήματος τις χειρομορφης και απομένει η αναγνώριση της κίνησης του, που περιγράφεται στην επομένη παράγραφο. Εικόνα 6.27: Αποτέλεσμα του αλγορίθμου template matching σε τυχαία χειρομορφή flat του set1. ~ 74 ~

Εικόνα 6.28: Αποτέλεσμα του αλγορίθμου template matching σε τυχαία χειρομορφή spread του set1. Εικόνα 6.29: Αποτέλεσμα του αλγορίθμου template matching σε τυχαία χειρομορφή spread του set1 ~ 75 ~

6.3.6. Σύστημα αναγνώρισης της κίνησης Σε αυτό το στάδιο του gesture recognition system γνωρίζουμε το σχήμα της χειρομορφής από την προηγούμενη διαδικασία της σύμπτωσης προτύπων. Χρειάζεται στην συνεχεία η αναγνώριση της κίνησης ώστε να ταξινομηθεί το gesture στην σωστή κλάση από την συνολικά εννέα. Οι κίνηση της χειρονομίας μπορεί να είναι: Προς τα αριστερά (Leftward). Προς τα δεξιά (Rightward). Συστολή χεριού (contract). Κάθε χειρονομία-gesture της βάσης δεδομένων αποτελείται από διαδοχικά frames o αριθμός των οποίων είναι διαφορετικός για το καθένα (από 40 μέχρι 100 περίπου frames). Στο στάδιο αναγνώρισης της κίνησης επιλέγονται πέντε συνολικά frames (αρχικό, τελικό και ενδιάμεσα frames). Αυτό γίνεται γιατί η χρήση περισσότερων frame δεν προσφέρει καλύτερα αποτελέσματα στην ταξινόμηση αλλά μεγαλύτερο υπολογιστικό κόστος. Τα frames επεξεργάζονται σε επίπεδο blob έχοντας γίνει πρώτα η χρήση του αλγορίθμου skin detection. Η διαδικασία αναγνώρισης του contract εξετάζεται ως πρώτη περίπτωση. Εφόσον το gesture δεν αναγνωριστεί ως Contract εξετάζεται μετέπειτα αν πρόκειται για Leftward ή Rightward περίπτωση κίνησης. Περιλαμβάνει: Τον σχηματισμό και έλεγχο ενός bounding box: Εδώ σχηματίζεται ένα plotbox περιμετρικά του blob και ελέγχεται το μέγεθος του. Η περίπτωση Contract αναγνωρίζεται όταν το bounding box έχει σχετικά μικρές διαστάσεις. Οι διαστάσεις αυτές καθορίστηκαν από την επεξεργασία των χειρομορφών του set 1 για κάθε μια από της περιπτώσεις flat, spread και v-hand. Η μέθοδος αυτή έχει ικανοποιητικά αποτελέσματα και δεν έχει σημαντικό υπολογιστικό κόστος, ωστόσο για παραπάνω ακρίβεια, συνδυάζεται με την δεύτερη μέθοδο που παρουσιάζεται παρακάτω. ~ 76 ~

Spread-Rightward Spread-Contract Εικόνα 6.30: Σχηματισμός bounding box σε χειρομορφή spread για περιπτώσεις Rightward και Contract. Στην εικόνα 6.30, για την χειρομορφή Spread, είναι εμφανές ότι το πλάτος του bounding box στην πρώτη περίπτωση είναι μεγαλύτερο από αυτό της δεύτερης περίπτωσης, όπου έχουμε Contract κίνηση. Το γεγονός αυτό αποτελεί κριτήριο ταξινόμησης της χειρονομίας σε κίνηση Contract και εφαρμόζεται με τον ίδιο τρόπο στα τρία είδη χειρομορφών flat, spread και v-hand. Επεξεργασία των frame και ιστογραμμικός έλεγχος τους: Τα εισερχόμενα framesblobs της χειρονομίας αρχικά αθροίζονται (λογικό άθροισμα OR) και δημιουργείται μια εικόνα στην οποία έπειτα αφαιρείται το πρώτο frame-blob. Το αποτέλεσμα αυτής της διαδικασίας είναι μια ασπρόμαυρη εικόνα για την οποία οι περιοχές λευκού χρώματος είναι μικρότερες στην περίπτωση Contract. Το γεγονός αυτό αποτελεί κριτήριο ταξινόμησης της χειρονομίας σε κίνηση Contract. Στην παρακάτω εικόνα 6.31 συνοψίζεται η διαδικασία που περιγράφηκε για την καλύτερη κατανόηση της. ~ 77 ~

flat-contract flat-leftward Εικόνα 6.31: Επεξεργασία frame-blob χειρομορφης flat σε περιπτώσεις Contract και Leftward. Στην εικόνα 6.31 οι περιοχές λευκού χρώματος στην εικόνα τελικού αποτελέσματος είναι μικρότερες στην περίπτωση Contract από την περίπτωση Leftward. O ορισμός ιστογραμμικού κατωφλίου μας διαχωρίζει την περίπτωση Contract από τις άλλες δυο περιπτώσεις, Leftward και Rightward. ~ 78 ~

Εφόσον το gesture δεν αναγνωριστεί ως Contract εξετάζεται αν πρόκειται για Leftward ή Rightward περίπτωση κίνησης. H μέθοδος που χρησιμοποιείται περιλαμβάνει τον υπολογισμό του κέντρου μάζας του χεριού και της μετατόπισης του στον οριζόντιο άξονα. O υπολογισμός του κέντρου μάζας της χειρομορφής γίνεται σε επίπεδο blob μετά την χρήση του αλγορίθμου skin detection. Εικόνα 6.32: Μετατόπιση του κέντρου μάζας της χειρομορφής κατά την κίνηση. H παρακολούθηση ως προς τον οριζόντιο άξονα του κέντρου μάζας της χειρομορφής μας δίνει την πληροφορία που απαιτείται για την απόφαση Leftward ή Rightward περίπτωσης κίνησης. Η μέθοδος αυτή είναι αρκετά ακριβής και δεν απαιτείται ο παράλληλος συνδυασμός της με κάποια άλλη μέθοδο. 6.4. Πλεονεκτήματα και περιορισμοί συστήματος 6.4.1. Πλεονεκτήματα συστήματος Στην παρούσα παράγραφο παρουσιάζονται τα πλεονεκτήματα του συστήματος αναγνώρισης χειρονομιών: Το βασικό πλεονέκτημα της μεθόδου είναι ότι δεν είναι ιδιαίτερα υπολογιστικά δαπανηρή. Απαιτούνται περίπου 4.5sec για την αναγνώριση της χειρονομίας που περιλαμβάνει τα σταδία: το διάβασμα των frame κάθε ~ 79 ~

εισερχόμενης χειρονομίας από το σύστημα (0.5sec), την χρωματική κατάτμηση με βάση το μοντέλο χρώματος (0.8sec), την εφαρμογή του αλγορίθμου template matching (2.3sec) και την αναγνώριση της κίνησης της χειρονομίας (0.33sec). Η λήψη αυτών των αποτελεσμάτων έγινε με χρήση του Matlab, σε υπολογιστή Intel (R) i5-3.30 GHz, 4GB RAM. Λειτουργεί ικανοποιητικά σε μη ομοιόμορφο φόντο: δεν είναι απαραίτητο το φόντο να είναι μονόχρωμο ή στατικό. Είναι ανεπηρέαστο σε αλλαγές του φωτισμού: δύο λόγοι συνηγορούν για αυτό. Ο πρώτος λόγος είναι ότι το στοιχείο του χρώματος είναι ανεξάρτητο από τη φωτεινότητα αφού χρησιμοποιούνται μόνο οι χρωματικές συνιστώσες. Ο δεύτερος λόγος είναι ότι το χρωματικό μοντέλο που χρησιμοποιήθηκε περιλαμβάνει δείγματα που έχουν ληφθεί σε διάφορες συνθήκες φωτισμού 6.4.2. Περιορισμοί συστήματος Οι απαραίτητες προϋποθέσεις για τη σωστή λειτουργία του συστήματος, αλλά και κάποιοι περιορισμοί στη λειτουργία του είναι: Tο σύστημα περιλαμβάνει διάφορες καθοριστικές για την απόδοσή του παραμέτρους που δεν ορίζονται αυτόματα, γεγονός που δυσκολεύει τη γενίκευση της χρήσης του χωρίς σφάλματα (πχ το μέγεθος της ανάλυσης των εισερχομένων frame, τα διάφορα κατώφλια που ορίζονται). Ο βραχίονας του χεριού θα πρέπει να μην είναι εκτεθειμένος, γιατί θα αναγνωρίζεται και αυτός ως κινούμενο χέρι λόγω του χρώματός του, με αποτέλεσμα η αναγνώριση των χειρομορφών να είναι λανθασμένη. Μια λύση είναι στην καταγραφή του video είναι ο χρήστης να φοράει ρούχα με μακριά μανίκια. Την γενίκευση της χρήσης του συστήματος αναγνώρισης περιορίζει το μοντέλο χρώματος και συγκεκριμένα το μικρό δείγμα πληθυσμού ατόμων της βάσης δεδομένων για την κατασκευή του. Η απόσταση της λήψης των χειρονομιών της βάσης δεδομένων είναι σταθερή και δεν έχει ληφθεί κάποιο μετρό αντιμετώπισης από το σύστημα του προβλήματος διαφορετικού μεγέθους κλίμακας χειρονομιών. ~ 80 ~

6.5. Αποτελέσματα αξιολόγησης και παρατηρήσεις Παρά τις αναμενόμενες δυσκολίες στο μοντέλο χρώματος (skin detection) λόγω των περιοχών "φτωχής" χρωματικότητας ο πινάκας αξιολόγησης του συστήματος μας δίνει αρκετά καλά αποτελέσματα. Σχεδόν όλα τα σφάλματα αναγνώρισης προέρχονται από την διαδικασία της σύμπτωσης προτύπων η οποία στηρίζεται στο μοντέλο χρώματος και την χρωματική κατάτμηση της εικόνας. Η μεγαλύτερη διαφορά με το citation paper [8] εντοπίζεται στην αναγνώριση του V-Hand όπου έχουμε βελτίωση αναγνώρισης έως και 31%. Ο παρακάτω πίνακας αξιολόγησηςσύγχυσης (confusion matrix, πίνακας 6.1) μας δίνει μια σαφή εικόνα για τα αποτελέσματα του συστήματος αναγνώρισης χειρονομιών. Πινάκας 6.1: Πίνακας αξιολόγησης-σύγχυσης (confusion matrix) του συστήματος αναγνώρισης χειρονομιών. ~ 81 ~

Παρατηρούμε ότι η σωστή αναγνώριση και ταξινόμηση κάθε χειρονομίας σε κάθε μια από τις εννέα κλάσεις της βάσης δεδομένων κυμαίνεται από 88% (v-hand right) έως και 100% (flat left). Οι διαφορές αυτές οφείλονται στην δομή της βάσης δεδομένων και συγκεκριμένα, στον τυχαίο τρόπο κατανομής στα sets αξιολόγησης δύσκολων περιπτώσεων, που έχουν σκοπό την ανάδειξη αδυναμιών του συστήματος ταξινόμησης. Ο πίνακας 6.1 μας δείχνει επίσης ότι το μεγαλύτερο ποσοστό σφαλμάτων οφείλεται στην εσφαλμένη αναγνώριση της χειρομορφής και όχι στην κίνηση της χειρονομίας. Για παράδειγμα, στην περίπτωση v-hand right, όπου έχουμε την χαμηλότερη επιτυχή αναγνώριση με 88%, το ποσοστό λάθους κατανέμεται κυριως στις κλάσεις flat right και spread right. Τα σφάλματα αναγνώρισης, που οφείλονται στην διαδικασία αναγνώρισης της χειρομορφής (template matching) και στην διαδικασία αναγνώρισης τις κίνησης, παρουσιάζονται ξεχωριστά στις εικόνες 6.25 και 6.26. 100% 95% 90% 85% 80% 75% 70% 65% flat spread v-hand 60% 55% 50% set 2 set 3 set 4 set 5 Εικόνα 6.33: Ακρίβεια αναγνώρισης της Σύμπτωσης Προτύπων (%) στα set αξιολόγησης Στην εικόνα 6.33 παρουσιάζεται το ποσοστό επιτυχής αναγνώρισης κάθε χειρομορφής για καθένα από τα sets αξιολόγησης. Για την χειρομορφή flat η επιτυχής αναγνώριση ανέρχεται περίπου στο 95.3%, με μεγίστη επιτυχία αναγνώρισης στο set 2 (100%) και ελάχιστη στο set 4 (89%). Η χειρομορφή spead αναγνωρίζεται επιτυχώς από το σύστημα με ποσοστό 98% περίπου, με μεγίστη επιτυχία αναγνώρισης στο set 5 (100%) και ελάχιστη στο set 3 (94.3%). Τέλος, η ~ 82 ~

χειρομορφή flat αναγνωρίζεται επιτυχώς με το μικρότερο ποσοστό από το σύστημα, περίπου 92%, με μεγίστη επιτυχία αναγνώρισης στο set 3 (100%) και ελάχιστη στο set 4 (84%). 100% 95% 90% 85% 80% 75% 70% 65% 60% 55% 50% set 2 set 3 set 4 set 5 flat spread v-hand Εικόνα 6.34: Ακρίβεια αναγνώρισης της κίνησης (%) στα set αξιολόγησης. Στην εικόνα 6.28 παρουσιάζεται το ποσοστό επιτυχής αναγνώρισης της κίνησης κάθε χειρομορφής για καθένα από τα sets αξιολόγησης. Όπως διαπιστώθηκε και από τον πίνακα 6.1, τα σφάλματα αναγνώρισης της κίνησης κάθε χειρομορφής είναι πολύ μικρά και για ορισμένα sets μηδαμινά. Σφάλματα εντοπίζονται μόνο στα set 2,set 3 και set 4 για την περίπτωση spread και στο set 4 για την περίπτωση flat. Τα σφάλματα αυτά οφείλονται σε ιδιάζουσες περιπτώσεις που καλύπτει η βάση δεδομένων. Τέτοιες περιπτώσεις είναι η περιστροφική κίνηση της χειρομορφης ως προς το κέντρο μάζας της και η παράλληλη ελαφρώς μετατόπιση της στην αντίθετη κατεύθυνση. ~ 83 ~

Πινάκας 6.2: Ακρίβεια αναγνώρισης χειρονομιών (%) των τεσσάρων sets αξιολόγησης.[8] Στον πίνακα 6.2 παρουσιάζεται η ακρίβεια αναγνώρισης χειρονομιών των τεσσάρων sets αξιολόγησης του δικού μας αλλά και άλλων τριών συστημάτων που αναπτύχτηκαν για την ταξινόμηση της συγκεκριμένης βάσης δεδομένων. Το σύστημα αναγνώρισης χειρονομιών που αναπτύχτηκε στην παρούσα εργασία ταξινομεί με μεγαλύτερα ποσοστά επιτυχίας την βάση δεδομένων που δημοσίευσε το πανεπιστήμιο του Cambridge. Παρατηρούμε επίσης, ότι τα set που δυσκολεύτηκε περισσότερο το σύστημα μας να αναγνωρίσει επιτυχώς τις χειρονομίες της βάσης δεδομένων, δυσκολεύσαν εξίσου και τα αλλά συστήματα αναγνώρισης. Το γεγονός αυτό μας οδηγεί στο συμπέρασμα ότι αυτό οφείλεται στην δομή της βάσης δεδομένων και συγκεκριμένα, στον τυχαίο τρόπο κατανομής στα sets αξιολόγησης δύσκολων περιπτώσεων, που έχουν σκοπό την ανάδειξη αδυναμιών κάθε συστήματος ταξινόμησης και όχι σε αδυναμία του συστήματος μας. ~ 84 ~