Αναγνώριση µορφασµών µε ϐάση τα ενεργά σηµεία του προσώπου



Σχετικά έγγραφα
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

4.3. Γραµµικοί ταξινοµητές

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

οµή δικτύου ΣΧΗΜΑ 8.1

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Αναγνώριση Προτύπων Ι

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

11 Το ολοκλήρωµα Riemann

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Εργασία στο µάθηµα Ανάλυση εδοµένων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Συστήματα συντεταγμένων

ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων:

/5

DIP_01 Εισαγωγή στην ψηφιακή εικόνα. ΤΕΙ Κρήτης

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1


4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Αριθμητική Ανάλυση και Εφαρμογές

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΑΘΗΜΑ 2 ΑΝΑΠΑΡΑΣΤΑΣΗ - ΤΕΧΝΙΚΕΣ ΤΝ (1)

Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Παρουσίαση Νο. 5 Βελτίωση εικόνας

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

E[ (x- ) ]= trace[(x-x)(x- ) ]

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

Μεθοδολογίες παρεµβολής σε DTM.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Οδηγίες σχεδίασης στο περιβάλλον Blender

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18

Ειδικές Επιστηµονικές Εργασίες

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Να υπολογίζουμε τους τριγωνομετρικούς αριθμούς οξείας γωνίας. Τη γωνία σε κανονική θέση και τους τριγωνομετρικούς αριθμούς γωνίας σε κανονική θέση.

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Μορφές των χωρικών δεδομένων

ΕΡΓΑΣΤΗΡΙΟ ΦΥΣΙΚΗΣ ΟΠΤΙΚΗΣ - ΟΠΤΟΗΛΕΚΤΡΟΝΙΚΗΣ & LASER ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΧΗΜΕΙΑΣ & Τ/Υ ΑΣΚΗΣΗ ΝΟ7 ΟΠΤΙΚΗ FOURIER. Γ. Μήτσου

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Πρακτική µε στοιχεία στατιστικής ανάλυσης

1 η Θεµατική Ενότητα : Δυαδικά Συστήµατα

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

Ο Μετασχηματισμός Ζ. Ανάλυση συστημάτων με το μετασχηματισμό Ζ

Εξισώσεις παρατηρήσεων στα τοπογραφικά δίκτυα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

προβλήµατος Το φίλτρο Kalman διαφέρει από τα συνηθισµένα προβλήµατα ΜΕΤ σε δύο χαρακτηριστικά: παραµέτρων αγνώστων

710 -Μάθηση - Απόδοση

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Συμπίεση Δεδομένων

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

710 -Μάθηση - Απόδοση

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Παρουσίαση 1 ΙΑΝΥΣΜΑΤΑ

ΚΕΦΑΛΑΙΟ 4 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΠΡΑΓΜΑΤΙΚΩΝ Ι ΙΟΤΙΜΩΝ. 4.1 Γραµµικοί µετασχηµατισµοί-ιδιοτιµές-ιδιοδιανύσµατα

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

Πληροφορική 2. Αλγόριθμοι

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

A2. ΠΑΡΑΓΩΓΟΣ-ΚΛΙΣΗ-ΜΟΝΟΤΟΝΙΑ

Γραφικά Υπολογιστών: Μέθοδοι Ανίχνευσης Επιφανειών (Surface Detection Methods)

ΤΕΧΝΙΚΕΣ ΚΑΤΑΓΡΑΦΗΣ ΣΥΝΑΙΣΘΗΜΑΤΩΝ (EMOTIONS) ΑΠΟ ΤΗ ΧΡΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ. Ελένη Καλκοπούλου. στα πλαίσια του μαθήματος Πολυμέσα (ΓΤΠ61)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Εισαγωγή. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

χωρίςναδηµιουργείταιαίσθησηαπώλειαςτηςποιότηταςτηςανακατασκευασµένηςεικόνας.

E [ -x ^2 z] = E[x z]

Μοντελοποίηση δικτύου μέσω εξισώσεων παρατήρησης

Αριθµητική Ολοκλήρωση

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Αριθμητική Ανάλυση & Εφαρμογές

Transcript:

Α ρ ι ς τ ο τ ε λ ε ι ο Π α ν ε π ι ς τ η µ ι ο Θ ε ς ς α λ ο ν ι κ η ς Τµηµα Ηλεκτρολογων Μηχανικων & Μηχανικων Υπολογιστων Τοµεας Ηλεκτρονικης και Υπολογιστων Αναγνώριση µορφασµών µε ϐάση τα ενεργά σηµεία του προσώπου ιπλωµατικη Εργασια του Βασίλειου Στασινόπουλου Επιβλέπων: Αναστάσιος Ντελόπουλος, Επίκουρος Καθηγητής Θεσσαλονίκη, Ιούνιος 2007

Περιεχόµενα 1 Εισαγωγή 7 1.1 Γενικά.......................................... 7 1.2 Facial Expression Analysis.............................. 8 1.2.1 FACS....................................... 9 1.2.2 Cohn-Kanade AU-Coded Facial Expression Image Database........ 10 1.3 Η παρούσα εργασία.................................. 10 2 Εντοπισµός Προσώπου 14 2.1 Γενικά.......................................... 14 2.2 Viola-Jones Face Detector............................... 15 2.2.1 Χαρακτηριστικά................................. 16 2.2.2 Εκµάθηση συναρτήσεων διαχωρισµού..................... 18 2.2.3 ιαχωριστές σε σειρά.............................. 19 2.3 A generative framework................................ 23 3 Χαρακτηριστικά Σηµεία Προσώπου 25 3.1 Καθορισµός περιοχών................................. 26 3.1.1 Εντοπισµός ίριδας................................ 26 3.1.2 Εντοπισµός στόµατος.............................. 27 3.2 Υπολογισµός χαρακτηριστικών............................. 29 3.3 Εκπαίδευση διαχωριστή................................ 33 3.4 Αποτελέσµατα...................................... 34 4 Παρακολούθηση Σηµείων του Προσώπου 38 4.1 Lucas Kanade algorithm............................... 38 4.1.1 Ο στόχος του αλγορίθµου Lucas Kanade................... 39 4.1.2 Ανάλυση του αλγορίθµου Lucas Kanade................... 39 4.2 Αποτελέσµατα...................................... 41 5 Feature extraction and classification 43 5.1 Feature representation................................ 43 5.1.1 Upper face parameters............................. 44

ΠΕΡΙΕΧΟΜΕΝΑ 2 5.1.2 Lower face parameters............................. 44 5.2 Support Vector Machines............................... 44 5.2.1 Γραµµικά SVMs................................. 45 5.2.2 Μη γραµµικά SVM............................... 50 5.3 Αποτελέσµατα...................................... 51 6 Συµπεράσµατα 55

Κατάλογος Σχηµάτων 1.1 FACS Action Units................................... 11 1.2 Παραδείγµατα από συνδυασµούς FACS Action Units................. 11 1.3 Σχηµατική αναπαράσταση του συνολικού αυτόµατου συστήµατος αναγνώρισης εκ- ϕράσεων........................................ 13 2.1 Παράδειγµα τετράγωνων χαρακτηριστικών, τοποθετηµένα µέσα στο παράθυρο σάρωσης. Το άθροισµα των pixels που ϐρίσκονται µέσα στα λευκά τετράγωνα αφαιρείται από το άθροισµα των pixels των γκρι τετραγώνων. Two-rectangle features απεικονί- Ϲονται στο Α1 και Α2. Three-rectangle feature απεικονίζονται στο Α3 και Α4, ενώ στο Α5 ένα four-rectangle feature. Το Α6 είναι ένα κεντρικά περικυκλωµένο χαρακτη- ϱιστικό, ενώ τα Β rectangle είναι παραδείγµατα από συµµετρικά rectangle ως προς τον y-άξονα (Παράγραφος 2.3)............................. 16 2.2 Integral image:(a) Η τιµή του pixel µε συντεταγµένες (x, y) είναι το άθροισµα των pixels, που ϐρίσκονται πάνω και αριστερά του (x, y). (Β) Το άθροισµα των pixels εντός του τετραγώνου D στην κανονική εικόνα µπορεί να υπολογιστεί από το integral image σαν x 4 x 2 x 3 + x 1............................. 17 2.3 Σχηµατική αναπαράσταση του σειριακού ανιχνευτή................. 21 2.4 Παραδείγµατα εντοπισµού του προσώπου σε εικόνες από την Cohn-Kanade AU- Coded Face Expression Image Database....................... 24 2.5 ιάφορα παραδείγµατα εντοπισµού του προσώπου σε εικόνες............ 24 3.1 Τα 16 σηµεία του προσώπου που εντοπίζονται αυτόµατα............... 26 3.2 (Α): Υπολογισµός περιοχής στόµατος µε ϐάση την, (Β): Ανίχνευση ακµών (λευκά pixels) στην περιοχή του στόµατος, (C): Κάθετο ιστόγραµµα αθροισµάτων διαφορών µεταξύ διαδοχικών γραµµών.............................. 28 3.3 Εντοπισµός µατιών και στόµατος - Εξαγωγή περιοχών ενδιαφέροντος........ 31 3.4 Το πραγµατικό µέρος των ϕίλτρων Gabor στο πεδίο του χώρου............ 32 3.5 Το ϕανταστικό µέρος των ϕίλτρων Gabor στο πεδίο του χώρου............. 33 3.6 Παραδείγµατα σωστού εντοπισµού των 16 σηµείων του προσώπου........... 37 3.7 Παραδείγµατα λανθασµένου εντοπισµού των 16 σηµείων του προσώπου....... 37

ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 4 4.1 Παράδειγµα λανθασµένου tracking του σηµείου G του προσώπου.......... 42 4.2 Παραδείγµατα σωστού tracking των 16 σηµείων του προσώπου............ 42 5.1 Το σύστηµα συντεταγµένων του προσώπου...................... 45 5.2 2-D γραµµικώς διαχωρίσιµα δείγµατα......................... 46 5.3 2-D γραµµικώς µη διαχωρίσιµα δείγµατα....................... 49 5.4 Αυτόµατη µέτρηση των FACS AUs για 2 ακολουθίες εικόνων............. 54

Κατάλογος Πινάκων 1.1 Ιδιότητες ενός ιδεατού συστήµατος αναγνώρισης εκφράσεων προσώπου....... 8 3.1 Rectangles των 16 περιοχών για τα αντίστοιχα σηµεία. Κάθε περιοχή ορίζεται από το [x y x y], όπου (x, y) οι συντεταγµένες του πάνω αριστερού σηµείου της πε- ϱιοχής, x το µήκος της περιοχής και y το ύψος. η απόσταση των οφθαλµών, mouth(x, y) οι συντεταγµένες του µέσου του στόµατος, eyelef t(x, y) οι συντεταγµένες του αριστερού µατιού και eyeright(x, y) του δεξιού................ 30 3.2 Αποτελέσµατα από των εντοπισµό 16 σηµείων του προσώπου για 487 εικόνες της ϐάσης Cohn-Kanade.................................. 36 5.1 Upper face parameters. Στις τιµές των παραµέτρων ο δείκτης 0 αντιστοιχεί στην αντίστοιχη τιµή στο ουδέτερο frame.......................... 44 5.2 Lower face parameters. Στις τιµές των παραµέτρων ο δείκτης 0 αντιστοιχεί στην αντίστοιχη τιµή στο ουδέτερο frame.......................... 45 5.3 Επίδοση του συστήµατος για την αναγνώριση AUs. Το Ratio αναφέρεται στο άθροισµα ϑετικών και αρνητικών δειγµάτων που ταξινοµήθηκαν σωστά. Το True Positive στα ϑετικά δείγµατα που ταξινοµήθηκαν σωστά ως ϑετικά και το False Positive στα αρνητικά δείγµατα που ταξινοµήθηκαν λανθασµένα ως ϑετικά............ 52 5.4 Κανόνες αντιστοίχισης των Action Units στα ϐασικά συναισθήµατα, σύµφωνα µε το οδηγό χρήσης του FACS. Η έκφραση A B αντιστοιχεί στο λογικό OR........ 53 5.5 Επίδοση του συστήµατος για αναγνώριση των 6 ϐασικών συναισθηµάτων....... 53

Πρόλογος Στην παρούσα διπλωµατική εργασία παρουσιάζεται ένα αυτόµατο σύστηµα αναγνώρισης µορ- ϕασµών µε ϐάση τα ενεργά σηµεία του προσώπου.η εργασία εκπονήθηκε στο Εργαστήριο Επεξεργασίας Πληροφορίας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Α.Π.Θ. Ευχαριστώ ιδιαίτερα τον επιβλέποντα της διπλωµατικής, κύριο Αναστάσιο Ντελόπουλο, για την ευκαιρία που µου έδωσε να ασχοληθώ µε ένα αντικείµενο για το οποίο δεν γνώριζα τίποτα όταν το ανέλαβα. Η καθοδήγησή του, η ηθική και έµπρακτη υποστήριξή του υπήρξαν πολύτιµες. Επίσης ευχαριστώ ϑερµά την µεταπτυχιακή ϕοιτήτρια Νίκη Αϋφαντή για την πολύτιµη ϐοήθειά της τόσο στον επιστηµονικό, όσο και στον ψυχολογικό τοµέα, ώστε η εργασία αυτή να είναι πλήρης. Τέλος, ϑα ήθελα να ευχαριστήσω οικογένεια και ϕίλους που είναι πάντα δίπλα µου και µε στηρίζουν.

Κεφάλαιο 1 Εισαγωγή 1.1 Γενικά Η ανάλυση των εκφράσεων του προσώπου αποτελεί ενεργό ερευνητικό πρόβληµα από τα τέλη του 19 αιώνα, από την έρευνα του Darwin [8]. Η έκφραση κάποιου προσώπου µία δεδοµένη χρονική στιγµή αναπαρίσταται από ένα σύνολο σηµάτων. Στα σήµατα αυτά περιλαµβάνονται το σχήµα και ο προσανατολισµός του προσώπου, αλλά και γενικότερα ολόκληρης της κεφαλής, και ϕυσικά η ϑέση και η κίνηση των διαφόρων χαρακτηριστικών του προσώπου (µάτια, ϕρύδια, στόµα κτλ). Επίσης στα σήµατα αυτά συχνά περιλαµβάνονται µε σηµαίνοντα ϱόλο το χρώµα του δέρ- µατος του προσώπου, οι πιθανές ϱυτίδες έκφρασης κτλ. Φυσικά τη σηµαντικότερη συµβολή στη δηµιουργία των εκφράσεων την έχουν οι µύες του προσώπου, οι οποίοι και έχουν την ικανότητα να δηµιουργήσουν µεγάλη µεταβολή στην έκφραση σε πολύ σύντοµο χρονικό διάστηµα, συµβάλλοντας τα µέγιστα στη χωρίς λόγια επικοινωνία. Βέβαια δεν πρέπει να παραλείψουµε τις δυσκολίες που δηµιουργούνται από την αλληλεπίδραση των διαφορετικών σηµάτων τα οποία µπορούν είτε να αλληλοσυµπληρώνονται είτε να αλληλοαναιρούνται. Σηµαντική είναι και η σχέση συναισθήµατος και προσώπου. Μερικές από τις χιλιάδες εκφράσεις του προσώπου είναι συνδεδεµένες µε συγκεκριµένα συναισθήµατα. Ερευνες έχουν δείξει ότι άνθρωποι διαφορετικών πολιτισµών κατηγοριοποιούν τις εκφράσεις µε παρόµοιο τρόπο σε έξι ϐασικές κατηγορίες και στη συνέχεια «µιµούνται» τις εκφράσεις αυτές στην καθηµερινή τους Ϲωή [21]. Οι έξι αυτές ϐασικές κατηγορίες είναι : λύπη, ϑυµός, χαρά, ϕόβος, απέχθεια και έκπληξη. Ωστόσο η αναγνώριση των εκφράσεων του προσώπου δεν πρέπει να συγχέεται µε την αναγνώριση των ανθρώπινων συναισθηµάτων. Ενώ η αναγνώριση των εκφράσεων αναφέρεται στην ανάπτυξη ενός συστήµατος το οποίο αναλύει και αναγνωρίζει αυτόµατα την κίνηση και την παραµόρφωση χαρακτηριστικών του προσώπου, στηριζόµενο αποκλειστικά σε οπτικό περιεχόµενο, τα ανθρώπινα συναισθηµάτα είναι αποτέλεσµα πολλών διαφορετικών παραγόντων, όπως η ϕωνή, η πόζα, οι χειρονοµίες, η έκφραση του προσώπου κτλ. Συνεπώς σε αντίθεση µε την αναγνώριση των εκφράσεων, η αναγνώριση των ανθρώπινων συναισθηµάτων είναι µία ερµηνευτική διαδικασία, η οποία συχνά απαιτεί την κατανόηση µιας δοσµένης κατάστασης σε συνδυασµό µε το διαθέσιµο οπτικό

1.2 Facial Expression Analysis 8 περιεχόµενο. Στο παρελθόν η ανάλυση των εκφράσεων του προσώπου ήταν ένα Ϲήτηµα µε το οποίο ασχολούνταν ως επί των πλείστων οι ψυχολόγοι. Ωστόσο ήδη από το 1978 ο Suwa [20] προσπάθησε να αναλύσει τις εκφράσεις του προσώπου παρακολουθώντας την κίνηση 20 σηµείων σε µία ακολου- ϑία εικόνων. Από την δεκαετία του 90 δε και έπειτα η αυτόµατη ανάλυση εκφράσεων προσώπου κέντρισε οριστικά το ενδιαφέρον των επιστηµόνων. Οι λόγοι για αυτό το ενδιαφέρον είναι ποικίλοι, αλλά κυρίως επικεντρώνονται στην πρόοδο συγγενών ερευνητικών περιοχών όπως ψυχολογικές µελέτες, ανάλυση των κινήσεων του ανθρώπου, εντοπισµός, παρακολούθηση και αναγνώριση του προσώπου κτλ. Η αυτόµατη ανάλυση εκφράσεων µπορεί να εφαρµοστεί σε πολλές περιοχές όπως στην κλινική ψυχολογία, στη νευρολογία, στην αποτίµηση του πόνου, στον εντοπισµό ψεµάτων, σε περιβάλλοντα τεχνητής νοηµοσύνης, σε συστήµατα επικοινωνίας τελικού χρήστη-υπολογιστή κτλ. 1.2 Facial Expression Analysis Η ανάλυση των εκφράσεων του προσώπου περιλαµβάνει τόσο την µέτρηση της κίνησης του προσώπου όσο και την αναγνώριση της έκφρασης. Σκοπός µας είναι η σχεδίαση και η υλοποίηση ενός συστήµατος το οποίο ϑα πραγµατοποιεί αυτόµατη αναγνώριση των εκφράσεων του προσώπου. Ενα σηµείο αναφοράς µπορεί να είναι ο καλύτερος γνωστός ανιχνευτής εκφράσεων : το ανθρώπινο οπτικό σύστηµα. Πιθανόν να είναι αδύνατο να ενσωµατώσουµε όλα τα χαρακτηριστικά του ανθρώπινου οπτικού συστήµατος αλλά στηριζόµενοι πάνω σ αυτό καταλήγουµε στις ϐασικές προϋποθέσεις που πρέπει να πληρεί ένα τέτοιο σύστηµα (Πίνακας 1.1). Γενικά Χαρακτηριστικά Μεταχειρίζεται άτοµα κάθε ηλικίας, εθνικότητας και εµφάνισης Αντιµετωπίζει µεταβολές στο ϕωτισµό Αντιµετωπίζει εντός πλάνου κίνηση του κεφαλιού Μεταχειρίζεται µερικώς επικαλυπτόµενα πρόσωπα Μεταχειρίζεται διαφορετικές αναλύσεις εικόνων Αναγνωρίζει όλες τις πιθανές εκφράσεις Αναγνωρίζει εκφράσεις µε διαφορετική ένταση Αναγνωρίζει ασύµµετρες εκφράσεις Αναγνωρίζει ενστικτώδεις εκφράσεις Αυτοµατισµοί/Real-Time Αυτόµατος/Real-Time εντοπισµός προσώπου Αυτόµατη/Real-Time εξαγωγή χαρακτηριστικών Αυτόµατη/Real-Time αναγνώριση εκφράσεων Πίνακας 1.1: Ιδιότητες ενός ιδεατού συστήµατος αναγνώρισης εκφράσεων προσώπου

1.2 Facial Expression Analysis 9 Στη γενική του προσέγγιση ένα τέτοιο σύστηµα αποτελείται από τρία στάδια : 1. Εντοπισµός του προσώπου, είναι το στάδιο του αυτόµατου εντοπισµού του προσώπου στην ακολουθία εικόνων εισόδου. Μπορεί να είναι ένας ανιχνευτής προσώπου για κάθε καρέ της ακολουθίας ή απλά να ανιχνεύει το πρόσωπο στο πρώτο καρέ και στη συνέχεια να το παρακολουθεί στα επόµενα καρέ της ακολουθία. 2. Εξαγωγή και αναπαράσταση των χαρακτηριστικών του προσώπου, είναι το στάδιο που είναι υπεύθυνο για την περιγραφή των αλλαγών του προσώπου, οι οποίες προκαλούνται από την έκφραση. Για αυτό το στάδιο έχουν αναπτυχθεί δύο διαφορετικές προσεγγίσεις : - Μέθοδοι ϐασισµένοι στα γεωµετρικά χαρακτηριστικά, είναι µέθοδοι που περιγράφουν το σχήµα και την ϑέση των συνθετικών του προσώπου (µάτια, µύτη, στόµα κτλ) µε την µορφή διανυσµάτος χαρακτηριστικών. - Μέθοδοι ϐασισµένοι στην εµφάνιση, είναι µέθοδοι που χρησιµοποιούν 2D ϕίλτρα, σε όλη την εικόνα ή σε συγκεκριµένη περιοχή της, για να εξάγουν το διάνυσµα χαρακτη- ϱιστικών. Ανάλογα µε ποιά από τις παραπάνω µεθόδους χρησιµοποιείται είναι δυνατόν να περιοριστούν οι επιδράσεις της εντός πλάνου κίνησης του προσώπου και οι διαφορετικές κλίµακες µε την κανονικοποίηση του προσώπου πριν την εξαγωγή των χαρακτηριστικών ή µε την κατάλληλη αναπαράσταση των χαρακτηριστικών πριν το τελικό στάδιο της αναγνώρισης της έκφρασης. 3. Αναγνώριση της έκφρασης, είναι το τελευταίο στάδιο του συστήµατος. Οι παραµορφώσεις αλλαγές του προσώπου µπορούν να αναπαρασταθούν είτε µε τις έξι ϐασικές εκφράσεις, είτε µε τα AUs (Action Units) (παράγραφος 1.2.1). Με λίγες εξαιρέσεις, τα περισσότερα συστήµατα αναγνώρισης εκφράσεων προσώπου προσπα- ϑούν να αναγνωρίσουν ένα µικρό σετ από 6 ϐασικές εκφράσεις (λύπη, ϑυµός, χαρά, ϕόβος, απέχθεια και έκπληξη). Αυτή η πρακτική πηγάζει από το έργο του Darwin [8] και πιο πρόσφατα των Ekman και Friesen [21]. Στην καθηµερινότητα ωστόσο, αυτού του είδους οι εκφράσεις συναντώνται σχετικά σπάνια. Αντ αυτού, τα συναισθήµατα συχνότερα εκφράζονται µε µερικές αλλαγές σε ένα ή περισσότερα διακριτά χαρακτηριστικά του προσώπου, όπως το σφίξιµο των χειλιών για το ϕόβο ή το χαµήλωµα του κάτω χειλιού για την λύπη. Συνεπώς για να είναι αποτελεσµατικό ένα αυτόµατο σύστηµα αναγνώρισης εκφράσεων ϑα πρέπει να σχεδιαστεί έτσι ώστε να εντοπίζει µερικές αλλαγές των χαρακτηριστικών του προσώπου. Το Facial Action Coding System (FACs [22]) είναι ένα σύστηµα κωδικοποίησης των κινήσεων του προσώπου κατάλληλο για αυτό το σκοπό. 1.2.1 FACS Το Facial Action Coding System (FACS) είναι µία ευρέως διαδεδοµένη µέθοδος µέτρησης και περιγραφής της «συµπεριφοράς» του προσώπου. Οι Ekman και Friesen ανέπτυξαν το συγκε-

1.3 Η παρούσα εργασία 10 κριµένο σύστηµα κωδικοποίησης των κινήσεων του προσώπου το 1978, χρησιµοποιώντας γνώσεις ανθρώπινης ανατοµίας και ορίζοντας τον τρόπο µε τον οποίο η σύσπαση κάθε µυός του προσώπου (µεµονωµένα ή σε συνδυασµό) αλλάζει την εµφάνιση του προσώπου [22]. Εξέτασαν ακολουθίες κινούµενης εικόνας που απεικονίζουν εκφράσεις προσώπου έτσι ώστε αφενός να καθορίσουν τις αλλαγές που συντελούνται από τις συσπάσεις των µυών καθώς και από τους συνδυασµούς αυτών και αφετέρου να διαχωρίσουν τους πιθανούς συνδυασµούς κινήσεων. Μονάδες µέτρησης του FACS είναι τα Action Units (AUs). Επειδή ορισµένα AUs συνδυάζουν την κίνηση περισσοτέρων του ενός µυός ή το αποτέλεσµα της σύσπασης ενός µυός εκφράζεται µε δύο ή περισσότερα AUs οι µύες δεν επιλέχθηκαν ως µονάδες µέτρησης. Ο κωδικοποιητής ενός τέτοιου συστήµατος αναλύει την παρατηρούµενη έκφραση σε συγκεκριµένα AUs και δίνει ως αποτέλεσµα µία λίστα των AUs που δηµιουργούν την έκφραση. Επίσης είναι δυνατόν να ληφθούν υπόψη η διάρκεια, η ένταση και η πιθανή ασυµµετρία. Τα αποτελέσµατα αυτά είναι µόνο περιγραφικά και δεν παρέχουν στοιχεία σχετικά µε τη σηµασία της έκφρασης. Σε επόµενο στάδιο είναι δυνατόν τα στοιχεία του FACS να µετατραπούν σε χρήσιµες για την ψυχολογία έννοιες µε τη ϐοήθεια του FACSA, ενός συστήµατος ερµηνείας της αντίστοιχης ϐάσης δεδοµένων διαθέσιµου στους ερευνητές. Το FACs περιέχει 44 AUs. Από αυτά, τα 30 συνδέονται ανατοµικά µε την κίνηση συγκεκριµένων µυών (Σχήµα 1.1). Το Σχήµα 1.2 περιέχει µερικά παραδείγµατα εκφράσεων που δηµιουργούνται από συνδυασµούς AUs. 1.2.2 Cohn-Kanade AU-Coded Facial Expression Image Database Για τον έλεγχο του όλου συστήµατος, καθώς και των επιµέρους τµηµάτων του, χρησιµοποιή- ϑηκε η Cohn-Kanade AU-Coded Face Expression Image Database [17]. Η ϐάση αποτελείται από ενήλικες, 69% γυναίκες και 31% άντρες, ηλικίας 18 µε 50 χρονών, διαφόρων εθνικοτήτων. Τα άτοµα που συµµετέχουν στη ϐάση εκπαιδεύτηκαν από ειδικούς για να ερµηνεύσουν απλά AUs και συνδυασµούς από AUs. Η κινηµατογράφηση έγινε σε κλειστό εσωτερικό χώρο. Οι ακολουθίες εικόνων ξεκινούν µε ουδέτερο πρόσωπο και σταµατούν µε το τελευταίο καρέ να απεικονίζει την εκάστοτε έκφραση στη µέγιστη ένταση της. Οι εικόνες αποτελούνται από 640 480 pixels, µε 8 bit/pixel οι ασπρόµαυρες και 24 bit/pixel οι έγχρωµες. Ακολουθίες εικόνων µε εντός πλάνου κίνηση και περιορισµένη εκτός πλάνου κίνηση, περιέχονται µέσα στη ϐάση. Το µέρος της ϐάσης που µας έγινε διαθέσιµο, µετά από αίτηµα, αποτελείται από 97 άτοµα σε 487 ακολουθίες εικόνων, κωδικοποιηµένων κατά FACS AUs. 1.3 Η παρούσα εργασία Το σύστηµα που αναπτύξαµε σ αυτή την εργασία αναγνωρίζει αυτόµατα 17 AUs από ακολουθίες εικόνων. Για την ανάλυση των εκφράσεων, χρησιµοποιήσαµε 17 SVM διαχωριστές, ένας για κάθε 1 από τα 17 AUs που ϑέλουµε να εντοπίσουµε, οι οποίο εκπαιδεύτηκαν από χαρακτηριστικά που

1.3 Η παρούσα εργασία 11 Σχήµα 1.1: FACS Action Units. Σχήµα 1.2: Παραδείγµατα από συνδυασµούς FACS Action Units.

1.3 Η παρούσα εργασία 12 περιγράφουν την χωροχρονική ϑέση 16 συγκεκριµένων σηµείων του προσώπου. Η σχηµατική αναπαράσταση του συστήµατος ϕαίνεται στο Σχήµα 1.3. Το σύστηµα δοµείται ως εξής : Με είσοδο µία ακολουθία από frames, αρχικά εντοπίζουµε το πρόσωπο στο πρώτο καρέ µε χρήση µίας προσαρµοσµένης έκδοσης του Viola-Jones Face Detector[33]. Για την υλοποίηση αυτού του τµήµατος χρησιµοποιήσαµε τον κώδικα που είναι ελεύθερα διαθέσιµος από τη σελίδα : http://sourceforge.net/projects/kolmogorov. Στη συνέχεια µέσα στην περιοχή του προσώπου εντοπίζονται 16 χαρακτηριστικά σηµεία του προσώπου µε χρήση ϕίλτρων Gabor και του αλγόριθµο gentleboost [14]. Η υλοποίηση αυτού του τµήµατος έγινε σε Matlab. Αφού τα 16 σηµεία εντοπίστουν στο πρώτο καρέ, στη συνέχεια παρακολουθούνται στα υπόλοιπα καρέ της ακολουθίας µε την ϐοήθεια του αλγορίθµου Lucas Kanade. Ο Αλγόριθµος Lucas Kanade είναι ελεύθερα διαθέσιµος από τη σελίδα : http://www.ri.cmu.edu. Στη συνέχεια 2 σετ χαρακτηριστικών υπολογίζονται µε ϐάση την χωροχρονική ϑέση των 16 σηµείων. Τέλος από τα 2 αυτά σετ εξάγονται µε την ϐοήθεια των SVM τα εκάστοτε AUs. Η υλοποίηση των SVMs έγινε µε τη ϐοήθεια του Bioinformatics Toolbox του Matlab. Η εργασία δοµείται ως εξής : Στο δεύτερο κεφάλαιο παρουσιάζεται ο αλγόριθµος εντοπισµού των ϑέσεων της εικόνα, όπου εµφανίζονται ανθρώπινα πρόσωπα. Στο τρίτο κεφάλαιο παρουσιάζεται µία ακριβής µέθοδος µε υψηλά ποσοστά επιτυχίας για τον εντοπισµό συγκεκριµένων σηµείων του προσώπου σε εικόνες µε ανέκφραστα πρόσωπα και ενδεχοµένως εντός πλάνου περιστροφή. Στο τέταρτο κεφάλαιο αναλύεται ο αλγόριθµος Lucas Kanade για την παρακολούθηση συγκεκριµένων σηµείων σε διαδοχικά καρέ µιας ακολουθίας εικόνων. Στο πέµπτο κεφάλαιο περιγράφεται η εξαγωγή συγκεκριµένων χαρακτηριστικών από τα ση- µεία του προσώπου καθώς και οι ϐασικές αρχές λειτουργίας των Support Vector Machines. Επίσης στο τέλος του κεφαλαίου παρουσιάζονται τα τελικά αποτελέσµατα του συστήµατος. Στο έκτο κεφάλαιο συνοψίζονται τα συµπεράσµατα που προέκυψαν από το σύνολο του συστήµατος.

1.3 Η παρούσα εργασία 13 Σχήµα 1.3: Σχηµατική αναπαράσταση του συνολικού αυτόµατου συστήµατος αναγνώρισης εκ- ϕράσεων.

Κεφάλαιο 2 Εντοπισµός Προσώπου 2.1 Γενικά Πρώτο ϐήµα σε οποιοδήποτε σύστηµα επεξεργασίας εκφράσεων προσώπου είναι ο εντοπισµός των ϑέσεων στην εικόνα, όπου εµφανίζονται πρόσωπα. Στα περισσότερα συστήµατα οι συνθήκες κάτω από τις οποίες κινηµατογραφείται ο άνθρωπος είναι σχετικά ελεγχόµενες. Συνήθως, η εικόνα περιέχει µόνο ένα πρόσωπο σε αµφάς. Ετσι, όχι µόνο η παρουσία του προσώπου στην εικόνα είναι εξασφαλισµένη, αλλά, εκ των προτέρων, υπάρχει κάποια υπόνοια για την πιθανή ϑέση του. Ωστόσο, ο εντοπισµός της ακριβής ϑέσης του προσώπου είναι ένα σύνθετο πρόβληµα. Η κλίµακα και ο προσανατολισµός του προσώπου µπορούν να διαφέρουν από εικόνα σε εικόνα. Ετσι, η αναζήτηση συγκεκριµένου προτύπου στην εικόνα γίνεται δύσκολη. Η παρουσία ϑορύβου και η επικάλυψη του προσώπου από άλλα αντικείµενα κάνουν το πρόβληµα ακόµα πιο δύσκολο. Με µια γρήγορη µατιά στην ϐιβλιογραφία, εύκολα διαπιστώνει κάνεις, ότι, έχουν προταθεί πολυάριθµες µέθοδοι για την αναγνώριση προσώπου σε ασπρόµαυρες ή έγχρωµες εικόνες[35]. Οι µέθοδοι αυτοί µπορούν να ταξινοµηθούν σε τέσσερις ϐασικές κατηγορίες : 1. Μέθοδοι ϐασισµένοι στη µορφολογία του προσώπου (Knowledge-based methods). Οι µέθοδοι αυτοί στηρίζονται σε κανόνες που πηγάζουν τη µορφολογία του ανθρώπινου προσώπου. Η περιγραφή των χαρακτηριστικών του προσώπου και των µεταξύ τους σχέσεων µε απλούς κανόνες είναι µια σχετικά εύκολη διαδικασία. Για παράδειγµα ένα πρόσωπο σχεδόν πάντα εµφανίζεται σε µία εικόνα µε δύο συµµετρικά µάτια, µύτη και στόµα. Η σχέση µεταξύ αυτών των χαρακτηριστικών µπορεί να αναπαρασταθεί µε την σχετική τους απόσταση και ϑέση. Σε τέτοια συστήµατα αρχικά από µία εικόνα υπολογίζονται τα χαρακτηριστικά του προσώπου και στη συνέχεια η αναγνώριση του προσώπου γίνεται µε ϐάση αυτά τα χαρακτηριστικά[18]. 2. Μέθοδοι ϐασισµένοι στη χρήση αµετάβλητων χαρακτηριστικών (Feature invariant approaches). Σε αντίθεση, µε τις µεθόδους που στηρίζονται αποκλειστικά στη µορφολογία του προσώπου, οι µέθοδοι αυτοί αποσκοπούν στην εύρεση δοµικών χαρακτηριστικών του προσώπου, τα οποία υπάρχουν ανεξάρτητα από την πόζα, την οπτική γωνία ή

2.2 Viola-Jones Face Detector 15 τις συνθήκες ϕωτισµού. Αρχικά γίνεται µεµονωµένος εντοπισµός χαρακτηριστικών (ϕρύδια, µάτια, µύτη, στόµα) χρησιµοποιώντας συνήθως ανιχνευτές ακµών(edge detectors) και στη συνέχεια επαληθεύεται η ύπαρξη του προσώπου, µε ϐάση τα στατιστικά µοντέλα που δηµιουργήθηκαν[34, 26, 5]. 3. Μέθοδοι αντιστοίχισης προτύπου (Template matching methods). Πολλά πρότυπα προσώπου αποθηκεύονται για την περιγραφή του προσώπου σαν οντότητα ή σαν συνδυασµό χαρακτηριστικών. Για την αναγνώριση, χρησιµοποιούνται οι συσχετίσεις µεταξύ της εικόνας και των προτύπων. Αυτού του είδους η προσέγγιση έχει το πλεονέκτηµα της εύκολη υλοποίησης. 4. Μέθοδοι ϐασισµένοι στην εµφάνιση (Appearance-based methods). Σε αντίθεση µε τις µεθόδους αντιστοίχισης προτύπου, οι οποίες στηρίζονται σε πρότυπα που είναι προκα- ϑορισµένα, σε αυτές τις µεθόδους τα πρότυπα εκπαιδεύονται από παραδείγµατα εικόνων. Σε γενικές γραµµές, οι αλγόριθµοι αυτοί στηρίζονται σε τεχνικές της στατιστικής ανάλυσης (ταξινόµηση κατά Bayes, µέγιστη πιθανοφάνεια) και σε µηχανές εκπαίδευσης (νευρωνικά δίκτυα, support vector machines). Συνήθως, για λόγους υπολογιστικής ισχύς και ακρίβειας παρατηρείται στα χαρακτηριστικά µείωση διαστάσεων (PCA,adaboost) [25, 27]. Για µία πληρέστερη χαρτογράφηση του χώρου που ασχολείται µε τον εντοπισµό προσώπων σε εικόνες ο αναγνώστης µπορεί να ανατρέξει στο [35]. Στη παρούσα εργασία για τον εντοπισµό του προσώπου επιλέχτηκε ο αλγόριθµος που προτάθηκε στο [10], ο οποίος είναι µία προσαρµοσµένη έκδοση του Viola-Jones Face Detector[33]. Ο αλγόριθµος αυτός ανήκει στις appearance-based methods και είναι αποτελεσµατικός ανεξαρτήτως ϕόντου και ϕωτισµού, χωρίς να ϑέτει εκ των προτέρων καµία παραδοχή για την ϑέση του προσώπου µέσα στην εικόνα. 2.2 Viola-Jones Face Detector Οι Viola και Jones στο [33] περιγράφουν ένα πλαίσιο εργασίας για την αναγνώριση αντικει- µένων, το οποίο συνδυάζει τόσο τη γρήγορη επεξεργασία των εικόνων όσο και τα υψηλά ποσοστά αναγνώρισης. Στο γεγονός αυτό συνεισφέρουν τρία ϐασικά χαρακτηριστικά του συστήµατος : Μία νέα αναπαράσταση της εικόνας 1 που επιτρέπει την πολύ γρήγορη αποτίµηση κάποιων χαρακτηριστικών [7]. Η αναπαράσταση αυτή µπορεί να υπολογιστεί πολύ εύκολα από την εικόνα, µόνο µε τη χρήση µερικών απλών αριθµητικών πράξεων για κάθε pixel. Η κατασκευή του διαχωριστή µε την επιλογή µικρού αριθµού σηµαντικών χαρακτηριστικών. Η επιλογή αυτή επιτυγχάνεται µε απλή τροποποίηση του αλγορίθµου Adaboost[13]. 1 Οι Viola και Jones την ονοµάζουν integral image

2.2 Viola-Jones Face Detector 16 Ο διαδοχικός συνδυασµός σύνθετων διαχωριστών σε σειριακή δοµή(cascade). Το γεγονός αυτό αυξάνει αισθητά την ταχύτητα, περιορίζοντας την λεπτοµερή αναζήτηση σε συγκεκρι- µένες περιοχές της εικόνας και όχι στο σύνολό της. 2.2.1 Χαρακτηριστικά Το σύστηµα ταξινοµεί τις εικόνες µε ϐάση τις τιµές απλών χαρακτηριστικών. Υπάρχουν πολλά κίνητρα για την χρήση χαρακτηριστικών, σε σχέση µε την απευθείας χρήση των ϕωτεινοτήτων των pixels. Ο πιο σηµαντικός λόγος είναι ότι τα χαρακτηριστικά έχουν τη δυνατότητα να κωδικοποιούν γνώση η οποία είναι πολύ δύσκολο να εµπεδωθεί µέσω πεπερασµένου αριθµού δεδοµένων εκπαίδευσης. Επίσης ένα ακόµα ϐασικό κίνητρο είναι ότι ένα feature-based σύστηµα είναι σαφώς ταχύτερο από ένα pixel-based σύστηµα. Τα απλά χαρακτηριστικά που χρησιµοποιούνται έχουν την ϐάση τους στις συναρτήσεις Haar[23]. Συγκεκριµένα χρησιµοποιούνται τρία διαφορετικά είδη χαρακτηριστικών. Η τιµή ενός διπλού-τετράγωνου χαρακτηριστικού (two-rectangle features) είναι η διαφορά του αθροίσµατος των pixels των δύο τετραγώνων (Σχήµα 2.1). Ενα τριπλό-τετράγωνο χαρακτηριστικό (threerectangle features) υπολογίζει το άθροισµα των δύο εξωτερικών τετραγώνων µειωµένο κατά το κεντρικό τετράγωνο. Τέλος ένα τετραπλό-τετράγωνο χαρακτηριστικό (four-rectangle features) υ- πολογίζει την διαφορά του αθροίσµατος ανάµεσα στα διαγώνια τετράγωνα. Σχήµα 2.1: Παράδειγµα τετράγωνων χαρακτηριστικών, τοποθετηµένα µέσα στο παράθυρο σά- ϱωσης. Το άθροισµα των pixels που ϐρίσκονται µέσα στα λευκά τετράγωνα αφαιρείται από το άθροισµα των pixels των γκρι τετραγώνων. Two-rectangle features απεικονίζονται στο Α1 και Α2. Three-rectangle feature απεικονίζονται στο Α3 και Α4, ενώ στο Α5 ένα four-rectangle feature. Το Α6 είναι ένα κεντρικά περικυκλωµένο χαρακτηριστικό, ενώ τα Β rectangle είναι παραδείγµατα από συµµετρικά rectangle ως προς τον y-άξονα (Παράγραφος 2.3). Με δεδοµένο το ότι η ϐασική ανάλυση του ανιχνευτή είναι 24 24 pixels, το εξαντλητικό σετ των χαρακτηριστικών για ένα παράθυρο σάρωσης είναι αρκετά µεγάλο : 45.396 χαρακτηριστικά. Επο- µένως αναγκαία είναι η εύρεση ενός κανόνα για τον ταχύ υπολογισµό αυτών των χαρακτηριστικών. Αυτό γίνεται δυνατό µε την ενδιάµεση αναπαράσταση της εικόνας (integral image). Η integral image στο pixel µε συντεταγµένες (x, y) περιέχει το άθροισµα των pixels, που

x 3 + x 1. 2.2 Viola-Jones Face Detector 17 ϐρίσκονται πάνω και αριστερά του (x, y), δηλαδή : ii(x, y) = x x y y i(x, y ) (2.1) όπου ii(x, y) είναι η integral image και i(x, y) η κανονική εικόνα (Σχήµα 2.2 Α). Σχήµα 2.2: Integral image:(a) Η τιµή του pixel µε συντεταγµένες (x, y) είναι το άθροισµα των pixels, που ϐρίσκονται πάνω και αριστερά του (x, y). (Β) Το άθροισµα των pixels εντός του τετραγώνου D στην κανονική εικόνα µπορεί να υπολογιστεί από το integral image σαν x 4 x 2 Με χρήση της integral image κάθε άθροισµα τετραγώνου µπορεί να υπολογιστεί µε αναφορά σε τέσσερα µόνο διανύσµατα (Σχήµα 2.2 Β). Εποµένως, η διαφορά µεταξύ δύο τετραγώνων µπορεί να υπολογιστεί µε οχτώ διανύσµατα. Άµα ληφθεί υπόψη και το γεγονός ότι στα two-rectangle features τα τετράγωνα αυτά είναι γειτονικά τότε αρκούν έξι διανύσµατα. Παρόµοια στην περίπτωση των three-rectangle features οχτώ και στα four-rectangle features εννιά. Τα τετράγωνα χαρακτηριστικά µοιάζουν πρωτόγονα σε σύγκριση µε διάφορα άλλα ϕίλτρα δύο διαστάσεων (gabor wavelets, canny edge detector κ.τ.λ.). Αν και είναι ευαίσθητα στην παρουσία ακµών και απλών δοµών, εντούτοις είναι ανεπαρκή για την λεπτοµερή δοµική ανάλυση των εικόνων. Επίσης συναντώνται σε δύο µόνο προσανατολισµούς (οριζόντιος και κάθετος). Παρόλα τα παραπάνω, ένα σετ από τετράγωνα χαρακτηριστικά ϕαίνεται να εξασφαλίζει µία πλούσια αναπα- ϱάσταση της εικόνας, κατάλληλη να εφαρµοστεί σε αλγορίθµους εκπαίδευσης. Επίσης η τεράστια υπολογιστική ευκολία που προσφέρουν αντισταθµίζεί την περιορισµένη λειτουργικότητά τους. Τα υπολογιστικά πλεονεκτήµατα της τεχνικής integral image γίνονται ακόµα πιο εµφανή αν ϑεωρήσουµε την συνηθισµένη προσέγγιση της πυραµίδας των εικόνων. Στα περισσότερα συστή- µατα εντοπισµού αντικειµένου, ο ανιχνευτής εξετάζει την εικόνα σε πολλές κλίµακες. Η εικόνα σαρώνεται από ένα παράθυρο εντοπισµού σταθερών διαστάσεων (π.χ. 24 24), αρχικά στο αρχικό της µέγεθος και στη συνέχεια σε µικρότερα µεγέθη. Ετσι δηµιουργείται µία πυραµίδα από την ίδια εικόνα σε διάφορες κλίµακες. Με την χρήση των rectangle features η όλη διαδικασία του εντοπισµού του προσώπου σε όλα τα επίπεδα της πυραµίδας γίνεται πολύ γρήγορα, γρηγορότερα και από τον υπολογισµό των ίδιων των εικόνων της πυραµίδας.

2.2 Viola-Jones Face Detector 18 2.2.2 Εκµάθηση συναρτήσεων διαχωρισµού Για ένα συγκεκριµένο σετ χαρακτηριστικών και ένα πλήθος ϑετικών και αρνητικών δειγµάτων εκπαίδευσης µπορεί να χρησιµοποιηθεί οποιαδήποτε µηχανή εκµάθησης για την εκπαίδευση των συναρτήσεων διαχωρισµού (π.χ. νευρωνικά δίκτυα, support vector machines). Στο Viola- Jones Face Detector από κάθε παράθυρο σάρωσης απορρέουν 45.396 τετράγωνα χαρακτηριστικά. Παρόλο που κάθε χαρακτηριστικό µπορεί να υπολογιστεί πολύ γρήγορα και αποτελεσµατικά, ο υπολογισµός του πλήρες σετ είναι απαγορευτικά δαπανηρός. Η υπόθεση, η οποιά προήλθε µέσα από πειράµατα, είναι ότι για έναν επαρκή διαχωριστή αρκεί ο συνδυασµός µερικών από αυτών των χαρακτηριστικών και όχι το πλήρες σύνολό τους. Στο σύστηµα των Viola-Jones χρησιµοποιείται µια παραλλαγή του αλγορίθµου AdaBoost[13] τόσο για την επιλογή των χαρακτηριστικών όσο και για την εκπαίδευση του διαχωριστή. Στην αρχική του µορφή ο αλγόριθµος εκπαίδευσης AdaBoost χρησιµοποιείται για να ϐελτιώσει την απόδοση ενός απλού αλγορίθµου εκπαίδευσης (π.χ. ενός perceptron, ενός νευρωνικού δικτύου). Αυτό το επιτυγχάνει συνδυάζοντας τις αδύναµες συναρτήσεις διαχωρισµού, των επιµέρους απλών αλγο- ϱίθµων εκπαίδευσης, για την δηµιουργία ενός ισχυρού διαχωριστή. Στη γλώσσα του boosting 2 ο απλός αλγόριθµος εκπαίδευσης αποκαλείται αδύναµος διαχωριστής (weak learner). Ο διαχωριστής αποκαλείται αδύναµος επειδή δεν προσδοκούµε από αυτόν τον επιτυχηµένο διαχωρισµό των δεδοµένων εκπαίδευσης. Για το επιτυχηµένο boosting ο αδύναµος διαχωριστής εκπαιδεύεται πολλές ϕορές πάνω στα ίδια δεδοµένα. Μεταξύ δύο διαδοχικών εκπαιδεύσεων αυτά που τροποποιούνται είναι τα βάρη των δεδοµένων εκπαίδευσης, έτσι ώστε να δοθέι έµφαση στα δεδοµένα που ταξινοµήθηκαν λανθασµένα από τον προηγούµενο αδύναµο διαχωριστή. Ο τελικός ισχυρός διαχωριστής έχει τη µορφή των αδύναµων διαχωριστών. Οι Freund και Schapire απέδειξαν ότι το σφάλµα εκπαίδευσης του ισχυρού διαχωριστή τείνει εκθετικά προς το µηδέν όσο το πλήθος των επαναλήψεων αυξάνεται[13]. Ο αλγόριθµος AdaBoost µπορεί πολύ εύκολα να µετατραπεί σε µέθοδο επιλογής χαρακτηριστικών. Θεωρούµε το γενικό πρόβληµα του boosting, στο οποίο ένα µεγάλο πλήθος από συναρτήσεις διαχωρισµού συνδυάζονται µε χρήση ψήφου πλειοψηφίας(weighted majority vote). Το Ϲητούµενο είναι η αντιστοίχιση µεγάλων βαρών στις συναρτήσεις µε µικρά ποσοστά αποτυχίας και µικρών σ αυτές µε µεγάλα ποσοστά αποτυχίας. Με την κατάλληλη συσχέτιση µεταξύ των αδύναµων διαχω- ϱιστών και των χαρακτηριστικών, ο AdaBoost αποτελεί µία αποτελεσµατική µέθοδο για την εύρεση µικρού αριθµού χαρακτηριστικών, κατάλληλων για την σωστή ταξινόµηση. Μία πρακτική µέθοδος για την υλοποίηση αυτής της συσχέτισης είναι ο περιορισµός του α- δύναµου διαχωριστή σε συναρτήσεις διαχωρισµού, οι οποίες ϑα εξαρτώνται από ένα και µόνο χαρακτηριστικό. Για να επιτευχθεί αυτός ο σκοπός ο αδύναµος αλγόριθµος εκπαίδευσης σχεδιά- Ϲεται να επιλέγει ένα απλό τετράγωνο χαρακτηριστικό (rectangle feature), το οποίο επιτυγχάνει τον καλύτερο διαχωρισµό των ϑετικών και αρνητικών δειγµάτων. Για κάθε χαρακτηριστικό, ο αδύνα- 2 boosting στην ϐιβλιογραφία αναφέρεται το γενικό πρόβληµα της δηµιουργίας ενός ακριβή κανόνα πρόβλεψης συνδυάζοντας µέτριους και ανακριβείς κανόνες

2.2 Viola-Jones Face Detector 19 µος διαχωριστής καθορίζει το ϐέλτιστο κατώφλι, έτσι ώστε να επιτυγχάνεται το µικρότερο σφάλµα ταξινόµησης των δειγµάτων. Με ϐάση τα παραπάνω ο αδύναµος διαχωριστής h j (x) αποτελείται από την τιµή ενός χαρακτηριστικού f j, ένα κατώφλι θ j και µία σταθερά ισοτιµίας f j, η οποία καθορίζει την ϕορά της ανίσωσης : h j (x) = { 1 αν pj f j (x) < p j ϑj 0 αλλιώς (2.2) όπου στην προκειµένη περίπτωση x είναι ένα 24 24 pixel υποπαράθυρο της εικόνας. Ο ψευδοκώδικας του αλγορίθµου ϕαίνεται στη σελίδα 20. Υιοθετούµε ένα γενικό πλαίσιο, στο οποίο ο διαχωριστής δέχεται N δείγµατα (x i, y i ) τυχαία µε ϐάση άγνωστη κατανοµή P του χώρου X Y, όπου Y είναι το σέτ των πιθανών ετικετών των δειγµάτων (στη περίπτωση των δύο κατηγοριών : Y = {0, 1}). Ο σκοπός του αλγορίθµου είναι να διαµορφώσει τον τελικό διαχωριστή h f µε µικρό σφάλµα, σε σχέση µε µία δοσµένη κατανοµή D πάνω στα δείγµατα εκπαίδευσης. Σε αντίθεση µε την κατανοµή P που καθορίζεται από τη φύση του χώρου X Y και είναι άγνωστη, η κατανοµή D αναφέρεται πάνω στα συγκεκριµένα δείγµατα εκπαίδευσης και ελέγχεται εξ ολοκλήρου από το διαχωριστή. Συνήθως η κατανοµή D αρχικοποιείται σαν οµοιόµορφη (D(i) = 1 N ). Ο αλγόριθµος αντιστοιχεί ένα σετ ϐαρών wt στα δείγµατα εκπαίδευσης. Στην επανάληψη t κανονικοποιούνται τα ϐάρη ώστε το w t να αποτελεί συνάρτηση πυκνότητας πιθανότητας. Ο WeakLearn παράγει έναν κανόνα h t που πιθανολογείται ότι έχει µικρό σφάλµα µε ϐάση την κατανοµή w t. Χρησιµοποιώντας το νέο διαχωριστή h t ο αλγόριθµος παράγει το διάνυσµα ϐαρών για την επόµενη επανάληψη w t+1. Μετά από T τέτοιες επαναλήψεις, ο τελικός διαχωριστής h f είναι η έξοδος. Ο h f συνδυάζει τις εξόδους από τους T αδύναµους διαχωριστές µε χρήση ψήφου πλειοψηφίας (αθροίζοντας τις αβέβαιες προβλέψεις τους). Από τα παραπάνω ϕαίνεται ότι ο αλγόριθµος προσαρµόζεται στα σφάλµατα των αδύναµων διαχωριστών. Τα αποτελέσµατα ισχύουν για κάθε ɛ t [0, 1] και εξαρτώνται µόνο από την επίδοση των αδύναµων διαχωριστών στις κατανοµές D που δηµιουργήθηκαν κατά την διάρκεια της εκπαίδευσης. Η παράµετρος β t ορίζεται σα συνάρτηση του σφάλµατος ɛ t και χρησιµοποιείται στην αναπροσαρµογή των ϐαρών. Ο κανόνας αναπροσαρµογής µειώνει την πιθανότητα που σχετίζεται µε τα δείγµατα που προβλέφθηκαν σωστά και αυξάνει την πιθανότητα των λάθος. 2.2.3 ιαχωριστές σε σειρά Με την χρήση πολλών διαχωριστών σε σειρά επιτυγχάνουµε µεγαλύτερα ποσοστά επιτυχίας σε µικρότερο υπολογιστικό χρόνο. Το κλειδί σ αυτό ϐρίσκεται στο ότι µικρότεροι διαχωριστές (από άποψη αριθµού επιλεγµένων χαρακτηριστικών), είναι περισσότερο αποδοτικοί στο να απορρίπτουν τα περισσότερα αρνητικά υπό-παράθυρα (χωρίς ύπαρξη προσώπου), ενώ ταυτόχρονα εντοπίζουν σχεδόν όλα τα ϑετικά (υπό-παράθυρα που περιέχουν πρόσωπα). Ετσι, απλοί διαχωριστές (µε µικρό αριθµό χαρακτηριστικών) χρησιµοποιούνται για να απορρίψουν τα περισσότερα υπόπαράθυρα της εικόνας πριν αναλάβουν συνθετότεροι (µε µεγαλύτερο αριθµό χαρακτηριστικών) για να επιτύχουν χαµηλά ποσοστά λανθασµένου εντοπισµού (false positive rates) (Σχήµα 2.3).