Μέθοδοι Αναγνώρισης Προσώπων σε Εικονοσειρές



Σχετικά έγγραφα
ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

4.3. Γραµµικοί ταξινοµητές

ΚΕΦΑΛΑΙΟ 4 ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΕΥΡΕΣΗΣ ΠΡΑΓΜΑΤΙΚΩΝ Ι ΙΟΤΙΜΩΝ. 4.1 Γραµµικοί µετασχηµατισµοί-ιδιοτιµές-ιδιοδιανύσµατα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

Μηχανική ΙI Ροή στο χώρο των φάσεων, θεώρηµα Liouville

Επίλυση Γραµµικών Συστηµάτων

Συστήματα συντεταγμένων

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

/5

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Αναγνώριση Προτύπων Ι

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

11 Το ολοκλήρωµα Riemann

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

οµή δικτύου ΣΧΗΜΑ 8.1

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

5.1 Ιδιοτιµές και Ιδιοδιανύσµατα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Μεθοδολογίες παρεµβολής σε DTM.

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ιαφορική εντροπία Σεραφείµ Καραµπογιάς

Διδάσκων: Καθηγητής Νικόλαος Μαρμαρίδης, Καθηγητής Ιωάννης Μπεληγιάννης


Μέθοδοι Αναπαράστασης Περιοχών

Στο Κεφάλαιο 5 µελετώντας την προβολή του τρισδιάστατου χώρου στο επίπεδο της κάµερας εξετάστηκε

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Κεφάλαιο 2: Θεωρία Απόφασης του Bayes 2.1 Εισαγωγή

ΚΕΦΑΛΑΙΟ 3 ΑΡΙΘΜΗΤΙΚΗ ΕΠΙΛΥΣΗ ΓΡΑΜΜΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. nn n n

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Digital Image Processing

E[ (x- ) ]= trace[(x-x)(x- ) ]

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Τηλεπικοινωνιακά Συστήματα ΙΙ

HMY 795: Αναγνώριση Προτύπων

Μοντέλο φωτισμού Phong

ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ ΜΕ ΙΣΤΟΓΡΑΜΜΑ

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

Παρουσίαση Νο. 5 Βελτίωση εικόνας

Μηχανική ΙI. Λογισµός των µεταβολών. Τµήµα Π. Ιωάννου & Θ. Αποστολάτου 2/2000

Κλασικη ιαφορικη Γεωµετρια

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ

Κίνηση στερεών σωμάτων - περιστροφική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή

Ειδικές Επιστηµονικές Εργασίες

p& i m p mi i m Με τη ίδια λογική όπως αυτή που αναπτύχθηκε προηγουµένως καταλήγουµε στην έκφραση της κινητικής ενέργειας του ρότορα i,

Παρεµβολή και Προσέγγιση Συναρτήσεων


ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Οδηγίες σχεδίασης στο περιβάλλον Blender

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Ανάκτηση πολυμεσικού περιεχομένου

ΕΡΓΑΣΤΗΡΙΟ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΓΡΑΦΙΚΩΝ

Εισαγωγή στον Προγραµµατισµό. Ανάλυση (ή Επιστηµονικοί8 Υπολογισµοί)

Μηχανισµοί & Εισαγωγή στο Σχεδιασµό Μηχανών Ακαδηµαϊκό έτος: Ε.Μ.Π. Σχολή Μηχανολόγων Μηχανικών - Εργαστήριο υναµικής και Κατασκευών - 3.

ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

5.1 Συναρτήσεις δύο ή περισσοτέρων µεταβλητών

Μπερδέματα πάνω στην κεντρομόλο και επιτρόχια επιτάχυνση.

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Οπτική αντίληψη. Μετά?..

Στοχαστικά Σήµατα και Εφαρµογές

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εργασία στο µάθηµα Ανάλυση εδοµένων

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

ιανυσµατικά πεδία Όπως έχουµε ήδη αναφέρει ένα διανυσµατικό πεδίο είναι µια συνάρτηση

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

6. ΔΙΑΝΥΣΜΑΤΙΚΟΙ ΧΩΡΟΙ ΚΑΙ ΑΝΤΙΣΤΡΟΦΑ ΠΡΟΒΛΗΜΑΤΑ

Γραµµική Αλγεβρα Ι. Ενότητα: Εισαγωγικές Εννοιες. Ευάγγελος Ράπτης. Τµήµα Μαθηµατικών

Ο ΗΓΟΣ ΧΡΗΣΗΣ ΓΕΩΜΕΤΡΙΑ

ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

I λ de cos b (8.3) de = cos b, (8.4)

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 : Πληροφορία και Εντροπία Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος

Μάθηµα 1. Κεφάλαιο 1o: Συστήµατα. γ R παριστάνει ευθεία και καλείται γραµµική εξίσωση µε δύο αγνώστους.

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

Αναγνώριση Προτύπων Ι

ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων:

Κεφάλαιο M4. Κίνηση σε δύο διαστάσεις

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Γραµµικός Προγραµµατισµός - Μέθοδος Simplex

Τα είδη της κρούσης, ανάλογα µε την διεύθυνση κίνησης των σωµάτων πριν συγκρουστούν. (α ) Κεντρική (ϐ ) Εκκεντρη (γ ) Πλάγια

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2011 ΕΚΦΩΝΗΣΕΙΣ

ΑΣΚΗΣΕΙΣ ΤΡΙΓΩΝΟΜΕΤΡΙΑΣ Β ΛΥΚ. ΕΞΙΣΩΣΕΙΣ

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Μέθοδοι Αναγνώρισης Προσώπων σε Εικονοσειρές Εµµανουήλ Τζουρίδης Επιβλέπων καθηγητής : Ιωάννης Πήτας, Καθηγητής ΑΠΘ ΘΕΣΣΑΛΟΝΙΚΗ ΙΟΥΛΙΟΣ 2009

Περιεχόµενα 1 Εισαγωγή 9 1.1 Η τεχνητή όραση και οι εφαρµογές της....................... 9 1.2 Συστήµατα αναγνώρισης προσώπου......................... 9 1.3 Το ανθρώπινο σύστηµα αναγνώρισης προσώπων.................. 10 1.4 Οι δυσκολίες της τεχνητής όρασης......................... 11 2 Ανάλυση του προβλήµατος της Αναγνώρισης Προσώπου 13 2.1 Ανίχνευση Προσώπου................................ 13 2.1.1 Ανίχνευση προσώπου σε ακίνητες εικόνες................. 13 2.1.2 Real time ανίχνευση προσώπου.................... 14 2.1.3 Τεχνικές ανίχνευσης προσώπου....................... 14 2.1.3.1 Ανίχνευση προσώπου µε χρήση της χρωµατικής πληροφορίας. 14 2.1.3.2 Ανίχνευση προσώπου µε χρήση Ανεξάρτητων συνιστωσών.... 16 2.2 Παρακολούθηση του προσώπου........................... 20 2.2.1 Τεχνικές παρακολούθησης προσώπου................... 20 2.2.2 Ενα συνδυαστικό σύστηµα Ανίχνευσης και Παρακολούθησης προσώπου 23 2.3 Οµαδοποίηση προσώπων.............................. 25 2.3.1 Οµαδοποίηση προσώπων µε χρήση αµοιβαίας πληροφορίας....... 25 2.3.1.1 ιανύσµατα Αµοιβαίας Πληροφορίας.............. 28 2.3.1.2 Οµαδοποίηση µε Ασαφείς Κ-µέσους............... 29 3

2.3.2 Ιεραρχική οµαδοποίηση µε SIFT Χαρακτηριστικά............ 31 2.3.2.1 Ιεραρχική οµαδοποίηση..................... 31 2.3.2.2 Υπολογισµός του πίνακα Ανοµοιότητας............. 32 2.4 Αναγνώριση Προσώπου............................... 35 2.4.1 Αναγνώριση Προσώπου µε χρήση γεωµετρικών χαρακτηριστικών..... 35 2.4.2 Αναγνώριση Προσώπου µε χρήση ταιριάσµατος προτύπων........ 36 3 Χαρακτηριστικά προσώπου 37 3.1 Εισαγωγή...................................... 37 3.2 Ανίχνευση χαρακτηριστικών προσώπου µε ιδιοδιανύσµατα............ 38 3.2.1 Ανίχνευση των µατιών............................ 38 3.2.2 Εύρεση των τοποθεσιών των µατιών..................... 41 3.3 Ανίχνευση χαρακτηριστικών προσώπου µε τη χρήση ιανυσµατικών Πεδίων Αποστάσεων 43 3.3.1 Ανίχνευση των µατιών............................ 44 3.3.2 Ανίχνευση της περιοχής του στόµατος................... 46 3.3.3 Εύρεση των τοποθεσιών των µατιών..................... 47 3.3.4 Εύρεση των γωνίων του στόµατος...................... 47 3.4 Ανίχνευση χαρακτηριστικών προσώπου µε την χρήση Generalized Projection Functions 49 4 Τεχνικές αναγνώρισης προσώπων 51 4.1 Εισαγωγή...................................... 51 4.2 Η Τεχνική των Eigenfaces............................. 51 4.3 Αναγνώριση προσώπων µε LDA.......................... 55 4.4 Ο αλγόριθµος EGM................................ 56 4.4.1 Εισαγωγή.................................. 56 4.4.1.1 Φίλτρα Gabor........................... 56

4.4.2 Ο κλασσικός αλγόριθµος EGM....................... 57 4.4.3 Ο αλγόριθµος DEGM........................... 61 4.4.3.1 Τοπικό διακριτό µέτρο οµοιότητας................ 65 4.4.3.2 Συνολικό µέτρο οµοιότητας.................... 67 4.4.4 Μορφολογικό EGM............................ 69 4.4.5 Ο αλγόριθµος Elastic Bunch Graph Matching............ 70 5 Πειράµατα 71

ΠΡΟΛΟΓΟΣ Το παρακάτω κείµενο αποτελεί την διπλωµατική εργασία του Εµµανουήλ Τζουρίδη και εκπονήθηκε στο Εργαστήριο Τεχνητής Νοηµοσύνης και Ανάλυσης Πληροφοριών του Τµήµατος Πληροφορικής του Αριστοτελείου Πανεπιστηµίου Θεσσαλονίκης. Θα ήθελα να ευχαριστήσω τον επιβλέπων καθηγητή του Τµήµατος Πληροφορικής Α.Π.Θ., κ. Ιωάννη Πήτα για την πολύτιµη καθοδήγηση του. Επίσης, ϑα ήθελα να ευχαριστήσω όλα τα µέλη του Εργαστήριου Τεχνητής Νοηµοσύνης και Ανάλυσης Πληροφοριών και ειδικά την κα. Ειρήνη Κώτσια και τον κ. Νικόλαο Γκαλελή για την πολύτιµη ϐοήθεια τους. Θεσσαλονίκη 2009

Κεφάλαιο 1 Εισαγωγή 1.1 Η τεχνητή όραση και οι εφαρµογές της Η τεχνητή όραση αντιπροσωπεύει ένα πεδίο της τεχνητής νοηµοσύνης που στοχεύει στην ανάλυση και την ερµηνεία των οπτικών πληροφοριών. Η κατανόηση εικόνας ϑεωρείται ως διαδικασία που αρχίζει από µια εικόνα ή από τις ακολουθίες εικόνας και έχει σαν αποτέλεσµα την περιγραφή της εικόνας. Τα προβλήµατα τεχνητής όρασης αποτελούν σηµαντικό µέρος στις τρέχουσες προσπάθειες να επιτραπεί µια µηχανή για να κάνει έξυπνες αλληλεπιδράσεις µε το περιβάλλον της. Μέχρι σήµερα, η τεχνητή όραση έχει παραγάγει σηµαντικές εφαρµογές σε τοµείς όπως η ϐιοµηχανική αυτοµατοποίηση, η ϱοµποτική, η ϐιοϊατρική, και η δορυφορική παρατήρηση της γης. Τέλος µία πολύ διαδεδοµένη εφαρµογή της τεχνητής όρασης είναι τα ϐιοµετρικά συστήµατα και κατά συνέπεια η αναγνώριση προσώπου. 1.2 Συστήµατα αναγνώρισης προσώπου Η αυτοµατοποιηµένη αναγνώριση προσώπου είναι ένα ενδιαφέρον πρόβληµα τεχνητής όρασης µε πολλές εµπορικές και κοινωνικές εφαρµογές. Η επαλήθευση χρηστών και ο έλεγχος προσπέλασης χρηστών, η επιτήρηση πλήθους, η αλληλεπίδραση ανθρώπου-υπολογιστή και η αναγνώριση εγκληµατιών σε εγκληµατολογικά ϐίντεο είναι µόνο κάποιες από τις εφαρµογές τις αναγνώρισης προσώπου. Ενώ η έρευνα σε αυτή τη περιοχή χρονολογείται από το 1960, ικανοποιητικά αποτελέσµατα προσφάτως έχουν επιτευχθεί. Επίσης, η αναγνώριση προσώπου είναι ένας συνεχής αναπτυσσόµενος τοµέας διότι δεν έχει προταθεί ακόµα κάποιο τέλειο πρότυπο για να λύσει το πρόβληµα αναγνώρισης προσώπου. Ενώ η αναγνώριση προσώπου µοιάζει µία πολύ απλή και αυτονόητη διαδικασία για το αν- 9

ϑρώπινο µάτι, για τους Η/Υ είναι ένα πολύ σύνθετο πρόβληµα. Ενώ ο άνθρωπος µπορεί να αναγνωρίσει στιγµιαία κάποιο γνωστό του πρόσωπο, ο Η/Υ ϑα το κάνει µε κάποια καθυστέρηση και πολλές ϕορές µε µία µικρή ή άλλοτε µεγαλύτερη αβεβαιότητα. Μπορούµε να αναγνωρίσουµε ένα γνωστό µας άτοµο κάτω από πολύ δυσµενή ϕωτισµό, από διαφορετικές οπτικές γωνίες και αποστάσεις. Επίσης, αναγνωρίζουµε ένα γνωστό µας πρόσωπο υπό διαφορετικά backgrounds χωρίς καµία δυσκολία, όπως επίσης µπορούµε να αναγνωρίσουµε κάποιον µετά από κάποιο µεγάλο χρονικό διάστηµα ενώ κάποια χαρακτηριστικά έχουν προστεθεί στο πρόσωπο του, όπως γυαλιά, µουστάκι νέο κούρεµα κτλ. Ολες αυτές τις δυνατότητες δεν τις έχουν όλοι οι αλγόριθµοι αναγνώρισης προσώπου, και όσοι τις έχουν δεν τις διαθέτουν στον ϐαθµό που τις διαθέτουν οι άνθρωποι. 1.3 Το ανθρώπινο σύστηµα αναγνώρισης προσώπων Κατά την κατασκευή των τεχνητών συστηµάτων αναγνώρισης προσώπου, οι επιστήµονες προσπα- ϑούν να καταλάβουν την αρχιτεκτονική του συστήµατος αναγνώρισης ανθρώπινου προσώπου. Η εστίαση στη µεθοδολογία του συστήµατος αναγνώρισης προσώπου των ανθρώπων µπορεί να είναι χρήσιµη για να κατανοήσουµε το ϐασικό σύστηµα. Εντούτοις, το ανθρώπινο σύστηµα αναγνώρισης προσώπου χρησιµοποιεί περισσότερη πληροφορία από τα µηχανικά συστήµατα αναγνώρισης προσώπου τα οποία χρησιµοποιούν µόνο δισδιάστατα δεδοµένα. Το ανθρώπινο σύστηµα αναγνώρισης προσώπου χρησιµοποιεί µερικά δεδοµένα από µερικές ή όλες τις αισθήσεις ( όραση, ακοή, αφή, κ.λπ.) Ολα αυτά τα δεδοµένα χρησιµοποιούνται είτε χωριστά είτε συλλογικά για την αποθήκευση και την αποµνηµόνευση των προσώπων. Σε πολλές περιπτώσεις, το περιβάλλον παίζει επίσης σηµαντικό ϱόλο στο ανθρώπινο σύστηµα αναγνώρισης προσώπου. Είναι δύσκολο για ένα µηχανικό σύστηµα αναγνώρισης προσώπων να χειριστεί τόσα πολλά δεδοµένα και τους διάφορους συνδυασµούς τους. Εντούτοις, είναι επίσης δύσκολο για έναν άνθρωπο να ϑυµηθεί υπερβολικά πολλά πρόσωπα λόγω των περιορισµών αποθήκευσης. Ενα ϐασικό πιθανό πλεονέκτηµα ενός συστήµατος µηχανών είναι η ικανότητα µνήµης του, ενώ για ένα ανθρώπινο σύστηµα αναγνώρισης προσώπου το σηµαντικό χαρακτηριστικό του είναι η ικανότητα παράλληλης επεξεργασίας του. Το ϑέµα ποιά χαρακτηριστικά χρησιµοποιούν οι άνθρωποι για την αναγνώριση προσώπων έχει µελετηθεί και έχει υποστηριχθεί ότι τα ολικά και τα τοπικά χαρακτηριστικά χρησιµοποιούνται για την αναγνώριση προσώπων. Είναι δυσκολότερο για τους ανθρώπους να αναγνωρίσουν πρόσωπα τα όποιων δεν ϑεωρούν ως ελκυστικά ούτε µη ελκυστικά. Οι χαµηλές χωρικές συχνότητες χρησιµοποιούνται για να διευκρινιστεί το ϕύλο, ενώ οι υψηλές συχνότητες χρησιµοποιούνται για να προσδιορίσουν το άτοµο. Οι χαµηλής συχνότητας 10

συνιστώσες χρησιµοποιούνται για τη σφαιρική περιγραφή του ατόµου ενώ οι υψηλής συχνότητας συνιστώσες απαιτούνται για τις λεπτοµέρειες που απαιτούνται στη διαδικασία προσδιορισµού του ατόµου. Τα µαλλιά, µάτια, και το στόµα ϕαίνεται να είναι πιο σηµαντικά από την µύτη για αντίληψη και την αποµνηµόνευση των προσώπων. Εχει επίσης διαπιστωθεί ότι το ανώτερο µέρος του προσώπου είναι πιο χρήσιµο από το χαµηλότερο µέρος του προσώπου για την αναγνώριση. Επίσης, οι αισθητικές ιδιότητες (π.χ. οµορφιά, ελκυστικότητα,, κ.λπ.) διαδραµατίζουν έναν σηµαντικό ϱόλο στην αναγνώριση του προσώπου. Για τους ανθρώπους, τα ϕωτογραφικά αρνητικά των προσώπων είναι δύσκολο να αναγνωριστούν, εντούτοις δεν υπάρχει πολλή µελέτη γιατί είναι δύσκολο να αναγνωριστούν οι αρνητικές εικόνες των ανθρώπινων προσώπων. Επίσης, µια µελέτη για την κατεύθυνση του ϕωτισµού παρουσίασε πως είναι ευκολότερο για τους ανθρώπους να αναγνωρίσουν τα πρόσωπα που ϕωτίζονται από πάνω προς τα κάτω από τα πρόσωπα που ϕωτίζονται από κάτω έως τα επάνω. 1.4 Οι δυσκολίες της τεχνητής όρασης υστυχώς προς το παρών δεν είναι δυνατό να δηµιουργηθεί µια µηχανή να καταλαβαίνει ακριβώς αυτό που είναι ϐλέπει. Η ενστικτώδεις ικανότητα όρασης και αντίληψης των έµβιων όντων είναι κάτι ασύλληπτο για τους Η/Υ. Η δυνατότητα να γίνει κατανοητό ότι η παραπάνω εικόνα δεν είναι µόνο µια συλλογή από pixels αλλά απεικονίζεται ένα πρόσωπο είναι µία αληθινά απίστευτη ικανότητα. Το γεγονός ότι ο µισός από τον εγκεφαλικό ϕλοιό του ανθρώπου αφιερώνεται στην οπτική επεξεργασία κρύβεται κάτω από τη δυσκολία αυτού του στόχου. Αυτή η ικανότητα είναι ένα αποτέλεσµα των εκατοµµυρίων χρόνων εξέλιξης και ϑα ήταν αφελές από µέρους µας να πιστέψουµε πως µπορούµε να κάνουµε κάτι παρόµοιο για τους Η/Υ τόσο ανώδυνα. Αλλά τεχνικά, γιατί τα προβλήµατα τεχνητής όρασης είναι τόσο δύσκολα Ενώ αξιέπαινα αποτελέσµατα έχουν επιτευχθεί σε άλλες περιοχές της τεχνητής νοηµοσύνης, όπως η επεξεργασία ϕυσικής γλώσσας, η ϑεωρία παιγνίων, και επεξεργασία οµιλίας, η τεχνητής όραση ϕαίνεται ακόµα να καθυστερεί. Πολλά προβλήµατα µηχανικής όρασης είναι µη επαρκώς καθορισµένα επειδή υπάρχει απώλεια πληροφορίας στο µετασχηµατισµό από τον τρισδιάστατο κόσµο σε µια δισδιάστατη εικόνα. Ε- ποµένως, δεν µπορούµε να αναδηµιουργήσουµε µεµονωµένα την τρισδιάστατη αντιπροσώπευση από τη δισδιάστατη εικόνα και οι πολλαπλάσιες λύσεις είναι συχνά σωστές. Ενας άλλος παράγοντας που δυσκολεύει τα προβλήµατα της µηχανικής όρασης είναι η ε- νασχόληση τους µε µεγάλους όγκους δεδοµένων. Ας πάρουµε για παράδειγµα µια χαρακτηρισ- 11

τική gray-scale εικόνα ανάλυσης 640 480 pixel, µε 8 bit για τα επίπεδα του γρι. Το µέγεθος ολόκληρης της εικόνας ϑα είναι 640 480 8 = 2.457.600 bits. Οποιοσδήποτε αλγόριθµος µε υψηλή πολυπλοκότητα ϑα ήταν εξαιρετικά αργός στην µηχανικής όραση και ϑα πρέπει εποµένως να καταβάλουµε προσπάθεια να λύσουµε αυτά τα προβλήµατα χρησιµοποιώντας τις πολύ απλές τεχνικές επεξεργασίας. Εντούτοις, ακόµη και µε όλους αυτούς τους περιορισµούς είναι δυνατό να πετύχουµε αποδεκτά αποτελέσµατα στην µηχανική όραση µε τη µείωση της γενίκευσης ενός προβλήµατος. Οι εφαρµογές µηχανικής όρασης µπορούν να περιοριστούν σε ένα καθορισµένο µε σαφήνεια δοµη- µένο περιβάλλον και υποθέσεις ϑα µπορούσαν να γίνουν για το ϕωτισµό, τους τύπους αντικειµένων, γωνία ϑέασης κ.λπ. 12

Κεφάλαιο 2 Ανάλυση του προβλήµατος της Αναγνώρισης Προσώπου 2.1 Ανίχνευση Προσώπου Προτού µιλήσουµε για το πρόβληµα της αναγνώρισης προσώπου, ϑα πρέπει να αναφερθούµε στο πρόβληµα ανίχνευσης προσώπου. Είναι αναγκαίο να γνωρίζουµε πού ϐρίσκεται ένα πρόσωπο και ποιά είναι τα όρια του σε ένα πρόβληµα αναγνώρισης προσώπου. Η ανίχνευση προσώπου είναι ουσιαστικά ένα πρόβληµα κατάτµησης εικόνας. Υπάρχουν δύο τύποι προβληµάτων ανίχνευσης προσώπου : 1) Ανίχνευση προσώπου σε ακίνητες εικόνες 2) Real-time ανίχνευση προσώπου 2.1.1 Ανίχνευση προσώπου σε ακίνητες εικόνες Τα περισσότερα συστήµατα ανίχνευσης προσώπου χρησιµοποιούν µια ϐασισµένη στο παράδειγµα προσέγγιση εκµάθησης για να αποφασίσουν εάν υπάρχει ένα πρόσωπο ή όχι σε µία εικόνα. Ενα νευρικό δίκτυο ή κάποιος άλλος ταξινοµητής εκπαιδεύεται χρησιµοποιώντας την επιβλεπόµενη εκµάθηση µε παραδείγµατα προσώπων και µη-προσώπων, µε αυτόν τον τρόπο το σύστηµα µαθαίνει να κατατάσσει την εικόνα σε πρόσωπο ή όχι. υστυχώς, ενώ είναι σχετικά εύκολο να ϐρούµε παραδείγµατα προσώπου, πώς ϑα ϐρίσκαµε ένα αντιπροσωπευτικό δείγµα των εικόνων που αντιπροσωπεύουν µη-πρόσωπα Εποµένως, συστήµατα ανίχνευσης προσώπου χρησι- µοποιούν χιλιάδες εικόνες προσώπων και µη για να είναι αποτελεσµατική η εκπαίδευση τους. 13

Υπάρχει µια άλλη τεχνική για την ανίχνευση πρόσωπου µέσα σε µία εικόνα, αυτή είναι το ταίριασµα προτύπων ( template matching ). Η διαφορά µεταξύ ενός προτύπου στόχων (πρόσωπο) και του παραθύρου υπολογίζεται και συγκρίνεται µε ένα κατώφλι, έτσι ώστε να καταταχθεί ως πρόσωπο ή µη-πρόσωπο. Μία άλλη τεχνική ανίχνευσης προσώπων που µοιάζει µε το ταίριασµα προτύπων είναι αυτή των σταθερών εικόνων ( image invariants ). Εδώ το γεγονός ότι η τοπική δοµή της ϕωτεινότητας ενός προσώπου παραµένει κατά ένα µεγάλο µέρος αµετάβλητη υπό τις διαφορετικές συνθήκες ϕωτισµού χρησιµοποιήται για την κατασκευή ενός χωρικού προτύπου του προσώπου που ανταποκρίνεται στα χαρακτηριστικά του προσώπου. Με άλλα λόγια, οι µέσες εντάσεις ϕωτεινότητας στα ανθρώπινα πρόσωπα χρησιµοποιούνται σαν ϐάση για την ανίχνευση προσώπου. Για παράδειγµα, σχεδόν πάντα µια περιοχή µατιών είναι σκοτεινότερο από το µέτωπο ή τη µύτη. Εποµένως µια εικόνα ϑα ταιριάξει µε το πρότυπο εάν ικανοποιήσει αυτές τις συνθήκες. 2.1.2 Real time ανίχνευση προσώπου Η Real-time ανίχνευση προσώπου περιλαµβάνει την ανίχνευση ενός προσώπου από µια σειρά πλαισίων ( frames ) από ένα αρχείο ϐίντεο. Ενώ οι απαιτήσεις υλικού για ένα τέτοιο σύστηµα είναι πολύ περισσότερο απαιτητικές, η Real-time ανίχνευση προσώπου είναι πραγµατικά µια πολύ απλούστερη διαδικασία από την ανίχνευση προσώπου σε µια στατική εικόνα. Αυτό συµβαίνει γιατί σε αντίθεση µε το περιβάλλον εµείς οι άνθρωποι κινούµαστε. εδοµένου ότι στην Real-time ανίχνευση προσώπου, το σύστηµα παρουσιάζεται µε µια σειρά πλαισίων στην οποία επιθυµούµαι να ανιχνεύσει ένα πρόσωπο, µε τη χρησιµοποίηση του spatio-temporal ϕιλτραρίσµατος (που ϐρίσκει τη διαφορά µεταξύ των διαδοχικών πλαισίων), η περιοχή του πλαισίου που έχει αλλάξει µπορεί να προσδιοριστεί και κατά συνέπεια και το ανιχνευµένο πρόσωπο. Η Real-time ανίχνευση προσώπου εποµένως έχει γίνει ένα σχετικά απλό πρόβληµα και είναι δυνατή ακόµη και στα µη δοµηµένα και ανεξέλεγκτα περιβάλλοντα χρησιµοποιώντας αυτές τις πολύ απλές τεχνικές επεξεργασίας εικόνας. 2.1.3 Τεχνικές ανίχνευσης προσώπου 2.1.3.1 Ανίχνευση προσώπου µε χρήση της χρωµατικής πληροφορίας Η χρησιµοποίηση του χρώµατος ως πρωταρχική πηγή πληροφορίας για την ανίχνευση δέρµατος είναι µια συχνή επιλογή µεταξύ των ερευνητών. Συνεπώς, έχουν υπάρξει διάφορες προσπά- ϑειες να καθοριστεί το ϐέλτιστο χρωµατικό διάστηµα για την κατάτµηση δερµάτων. Ερευνητές 14

έχουν καταλήξει στο συµπέρασµα ότι η κατανοµή χρώµατος δέρµατος διαµορφώνει µια κλάση (η αποκαλούµενη ως skin locus) σε διάφορα χρωµατικά διαστήµατα. Πρώτα από όλα η εικόνα εισόδου µετατρέπεται σε εικόνα του χρωµατικού χώρου HSV. Οι τιµές των H και S κατωφλοιώνονται ως εξής [12], [15]: f(h) = { 1, 0 < h < 0.15 0, αλλoυ (2.1) g(s) = { 1, 0.2 < h < 0.6 0, αλλoυ (2.2) Με h και s τιµές εντός του διαστήµατος [0,1]. Ενα pixel ταξινοµείται σαν δέρµα µόνο αν f(h)g(s)=1. Μία τέτοια µέθοδος είναι πολύ ελκυστική εξ αιτίας της απλότητας της και της δυνατότης να υλοποιηθούν πολύ γρήγοροι ταξινοµητές. Τα αποτελέσµατα της κατάτµησης δέρµατος επεξεργάζονται µορφολογικά. Η ανάλυση συνδεδεµένων συνιστωσών είναι το επόµενο ϐήµα. Ο αριθµός των σηµείων του περιγράµµατος κάθε συνδεδεµένης συνιστώσας κατωφλοιώνεται, για να εξασφαλιστεί ότι η επόµενη διαδικασία συναρµολογήσεων έλλειψης εφαρµόζεται µόνο στις αρκετά µεγάλες περιοχές. Η µορφή για κάθε συνδεδεµένη συνιστώσα εξετάζεται έπειτα από ένας αλγόριθµο ταιριάσµατος έλλειψης (ellipse fitting algorithm) για να µειώσει περαιτέρω τον αριθµό των υποψηφίων περιοχών. Η καλύτεραεφαρµόσιµη έλλειψη υπολογίζεται χρησιµοποιώντας µία γενική µέθοδο κωνικού-ταιριάσµατος [17] (conic-fitting), µε τους πρόσθετους περιορισµούς για να εγκαταστήσει µια έλλειψη στα διεσπαρµένα στοιχεία. Πρόσθετα κριτήρια απόφασης (όπως ο προσανατολισµός της έλλειψης, αναλογία των αξόνων έλλειψης, περιοχή που καταλαµβάνεται από την έλλειψη) ενσωµατώνονται για να εξασφαλίσουν ότι οι ακατάλληλες ελλείψεις ϑα απορριφθούν. Τα κατώφλια που χρησι- µοποιούνται για αυτά τα κριτήρια είναι τα ακόλουθα : N > 10scale 1.6 < b < 2.5 a A > 36scale 45 o < θ < 135 o όπου το N είναι ο αριθµός των σηµείων του περιγράµµατος της συνδεδεµένης συνιστώσας, 15

a και b είναι το µήκος του µικρού και του µεγάλου άξονα αντίστοιχα, το A είναι η περιοχή που καλύπτει η έλλειψη, θ είναι η γωνία µεταξύ του οριζόντιο άξονα και του µεγάλου άξονα της έλλειψης (δηλαδή ο προσανατολισµός της έλλειψης), και scale είναι µία παράµετρος που σχετίζεται µε το µέγεθος της εικόνας εισόδου. Οι ανιχνευτές µε ϐάση το χρώµα πάσχουν από λανθασµένες ανιχνεύσεις, λόγω της παρουσίας αντικειµένων που έχουν παρόµοιο χρώµα και ιδιότητες όσον αφορά το σχήµα, µε τα πρόσωπα. Για αυτό τον λόγω, οι υποψήφιες περιοχές υποβάλλονται έπειτα σε µια διαδικασία εξαγωγής χαρακτηριστικών προσώπου για να µειώσουν τις εσφαλµένες ανιχνεύσεις. Η πρώτη παράγωγος ως προς τον κάθετο άξονα της εικόνας εισόδου I υπολογίζεται µε την εφαρµογή ενός τελεστή Sobel. Επειτα η εικόνα-αποτέλεσµα J κατωφλοιώνεται για να παραγάγει µια δυαδική εικόνα B, ως εξής : B(i, j) = { 1, J(i, j) > J(i, j) 0, αλλoυ (2.3) όπου J(i, j) υποδηλώνει την µέση τιµή των pixels της εικόνας. Ο αλγόριθµος µπορεί να ανιχνεύσει ορθώς ϕρονταλ πρόσωπα. Εντούτοις, περιοχές που µοιάζουν µε δέρµα µπορούν συχνά να περιληφθούν στα ανιχνευµένα πρόσωπα (π.χ. ο λαιµός κάποιου), όπως ϕαίνεται στην εικόνα 2.1 a. Αυτό µπορεί να δηµιουργήσει προβλήµατα στην διαδικασία της παρακολούθησης. Ο αλγόριθµος αποτυγχάνει σε σπάνιες περιπτώσεις, όπως στις εικόνες 2.1b και 2.1c. 2.1.3.2 Ανίχνευση προσώπου µε χρήση Ανεξάρτητων συνιστωσών Η εν λόγω τεχνική αναλύθηκε εκτενέστερα στο [7]. Ο στόχος είναι να αποσυνθέσουµε ένα σύνολο εικόνων σε µια ϐάση της οποίας οι συνιστώσες είναι στατιστικά ανεξάρτητες ή, τουλάχιστον, είναι όσο το δυνατόν πιο ανεξάρτητες γίνεται. ύο ICA παρουσιάσεις για τα πρότυπα του προσώπου έχουν προταθεί στο [14]. Εστω ένας πίνακας X του οποίου οι σειρές περιέχουν τα διανύσµατα που διαµορφώθηκαν σαρώνοντας λεξικογραφικά τα πρότυπα πρόσωπων και µη προσώπων. Θεωρούµε ότι το X περιέχει ένα µίγµα από αυθεντικές ανεξάρτητες πηγές U. Ο πίνακας αποσυντίθεται σε µία οικογένεια από ανεξάρτητες πηγές Y, περνώντας τον από ένα µη αναµεµιγµένο πίνακα D για να πάρουµε το U. Κάθε πηγή (γραµµή του Y ) είναι µία εικόνα της οποίας οι τιµές των pixels είναι ανεξάρτητες από αυτές σε κάθε άλλη εικόνα. Συγκεκριµένα, αυτές οι εικόνες λέγονται χωρικά ανεξάρτητες (spatially independent). Θα αναφερόµαστε σε αυτό το µοντέλο σαν χωρική ΙCA. Εχοντας έναν αριθµό από n εικόνες πρόσωπων και µη-προσώπων, ο αριθµός των ανεξάρτητων συνιστωσών ϑα 16

Σχήµα 2.1: Ανίχνευση προσώπου. (a) Εσφαλµένες ανιχνεύσεις που παράγονται από τον ϐασισ- µένο στα χαρακτηριστικά γνώρισµατα ανιχνευτή του, (b) Αποβολή των λάθος ανιχνεύσεων µε τη ϐοήθεια ενός κατωφλίου για το δέρµα, (c) - (d) Λάθος ανιχνεύσεις που παράγονται από τον ϐασισµένο στο χρώµα ανιχνευτή, (e) Λανθασµένες περιοχές ανίχνευσης, που παράγονται από τον ϐασισµένο στο χρώµα ανιχνευτή, και (f) αποτελέσµατα της µίξης δύο ανιχνευτών. είναι και αυτός n. Για να ελέγχουµε τον αριθµό των ανεξάρτητων συνιστωσών, διαλέγουµε m γραµµικούς συνδυασµούς από πρότυπα προσώπων και µη- προσώπων. Εστω Pm T ο πίνακας που σχηµατίζεται από τις m κύριες συνιστώσες στις γραµµές του. Ο στόχος της χρήσης ICA πάνω στο Pm T είναι να ϐρεθεί ο πίνακας Y του οποίου οι σειρές είναι στατιστικά ανεξάρτητες πηγές µε κατάλληλο να καθορισµό του πίνακα D. Η σχέση µεταξύ των τριών προαναφερθέντων πινάκων δίνεται από το [14]: Y = DP T m (2.4) Συχνά, µια διαδικασία λεύκανσης (whitening) που εφαρµόζεται στο Pm T είναι απαραίτητη για την αποσυνέληξη και κανονικοποίηση των δεδοµένων. Αυτός ο µετασχηµατισµός λεύκανσης γράφεται ως : W = 2(P T mp m ) 1 2 DP T m (2.5) 17

Εποµένως, ο µηδενικής µέσης τιµής πίνακας εισαγωγής µπορεί να υπολογιστεί σαν το γινόµενο του µη αναµεµιγµένου πίνακα και του πίνακα λεύκανσης : D w = DW. Η εξίσωση 2.4 ξαναγράφεται ως εξής : Y = D w P T m P T m = D 1 w Y (2.6) Η αναδηµιουργηµένη εικόνα από ICA είναι : X recica = (XP m D 1 m )Y = C train Y (2.7) Ο πίνακας C train περιέχει τις συνισταµένες του γραµµικού συνδυασµού των χωρικών ανεξάρτητων πηγών U. Κάθε σειρά του U περιλαµβάνει την αναπαράσταση των ανεξάρτητων συνιστωσών των εικόνων προσώπου. Μόλις τελειώσουµε την εκπαίδευση και δηµιουργήσουµε το U, µια εικόνα δοκιµής µπορεί να αναπαρασταθεί ως : c test = D 1 w P m x test (2.8) Εχοντας το Pm T, η συνιστώσα στην 2.4 που είναι αρµόδια για τη λήψη των ανεξάρτητων πηγών είναι ο πίνακας D που πρέπει να ενηµερωθεί προκειµένου λάβει τις πηγές που είναι όσο το δυνατόν πιο ανεξάρτητες. Ο πίνακας U µετασχηµατίζεται σε έναν πινάκα Z από έναν µη γραµµικό µετασχηµατισµό G. Οταν η ICA εφαρµόζεται στις στήλες του P T m, δηµιουργήται µία προβολή p j, ένας συνδυασµός των αυθεντικών πηγών u j από έναν πίνακα µίξης A, p j = Au j. Επιπλέον, οι πηγές µπορούν να ανακληθούν από τον πίνακα D σαν y i = Dp j u j. Για απλότητα παραλύπουµαι το j από εδώ και στο εξής. Περνώντας τις πηγές y από το G έχουµε : z = G(y) = G(Dp) = G(DAu) (2.9) 18

δηλαδή : u = A 1 D 1 G 1 (z) = Ψ(z) (2.10) Η εντροπία δίνεται από την σχέση : f U (u) h(z) = E[log(f z (z))] = E[log( )], (2.11) det(j(u)) όπου f Z (z) και f U (u) είναι οι συναρτήσεις πικνότυτας πιθανότητας του Z και των πηγών U και J είναι ο Γιακοβιανός (Jacobian) J = ϑz. Χρησιµοποιώντας τον κανόνα της αλυσίδας, η ορίζουσα ϑy του J µπορεί να υπολογιστεί ως εξής : det(j(u)) = det( ϑz ϑy ) = ϑz i det(da) Πm i=1 (2.12) ϑy i Για να µεγιστοποιήσουµε την εντροπία h(z) χρειάζεται να µεγιστοποιήσουµε τον όρο det(j(u)) ως προς τον πίνακα D: ϑ ϑd (log det(j(u)) ) = [D 1 ] T + m i=1 ϑ ϑd log(ϑz i ϑy i ) (2.13) Αν z i = g(y i ) = 1 1+e y i και λαµβάνοντας υπόψη : ϑz i ϑs i = z i (1 z i ), (2.14) και y = G 1 (z), η 2.13 γίνεται : 19

ϑ ϑd (log det(j(s)) ) = [D 1 ] T + (1 2z)p T (2.15) : Χρησιµοποιώντας έναν αλγόριθµο ανάβασης δυναµικού, η µεταβολή του πίνακα D είναι [19] D = η(d T + (1 2z)p T ) (2.16) 2.2 Παρακολούθηση του προσώπου Στο πρόβληµα της αναγνώρισης προσώπου όπως προαναφέραµε χρειάζεται να γνωρίζουµε που ϐρίσκεται το προς αναγνώριση πρόσωπο. Οταν όµως το πρόβληµα έχει να κάνει µε την αναγνώριση προσώπου σε ϐίντεο η ανίχνευση προσώπου σε κάθε ϕραµε ϑα ήταν µία ιδιαίτερα χρονοβόρα διαδικασία, λόγω του µεγάλου αριθµού των ϕραµες που υπάρχουν σε ένα ϐίντεο. Εδώ έρχεται να λάβει µέρος στην όλη διαδικασία η παρακολούθηση κίνησης (motion tracking). Το αρχικά ανιχνευµένο πρόσωπο ενός frame ακολουθήται σε ϐάθος χρόνου ούτως ώστε να γνωρίζουµε το που ϐρίσκεται και στα υπόλοιπα frames. 2.2.1 Τεχνικές παρακολούθησης προσώπου Ο συγγεκριµένος αλγόριθµος [12], είναι ϐασισµένος στην επιλογή ενός µεγάλου αριθµού χαρακτηριστικών σηµείων στην περιοχή παρακολούθησης που ακολουθούνται στη συνέχεια στα επόµενα πλαίσια. Η παρακολούθηση αρχικοποιήται από τα αποτελέσµατα της διαδικασίας της ανίχνευσης προσώπου, δηλ. το bounding box της περιοχής που αντιστοιχεί στο ανιχνευµένο πρόσωπο. Η µετατόπιση d = [d x d y ] T µεταξύ δύο παραθύρων χαρακτηριστικών στις εικόνες I και J υπολογίζεται ελαχιστοποιώντας την ποσότητα : ɛ = [J(x + d 2 ) I(x d 2 )]2 w(x)dx (2.17) W 20

όπου x, W η περιοχή του παραθύρου και w(x) είναι µία συνάρτηση ϐαρών. Για να πραγ- µατοποιήσουµε µία επανάληψη της διαδικασίας ελαχιστοποίησης της 2.17, η εξίσωση Zd = e ϑα πρέπει να επιλυθεί όπου [18]: Z = g(x)g T (x)w(x)dx (2.18) W e = 2 [I(x) J(x)]g(x)w(x)dx (2.19) W g = [ ϑ(i+j) ϑx ϑ(i+j) ϑy ] (2.20) Για να εξαφανίσουµε τα χαρακτηριστικά του background από την διαδικασία της παρακολού- ϑησης, µία διαδικασία οµαδοποίησης εφαρµόζεται ([16]). Εστω (µ x, µ y ) και (σ x, σ y ) η µέση τιµή και η διασπορά των συντεταγµένων των χαρακτηριστικών για όλα τα χαρακτηριστικά στο frame t και [x, y] T οι συντεταγµένες κάποιου χαρακτηριστικού. Αυτό το χαρακτηριστικό διατηρήται στο frame t + 1 αν : x [µ x σ x, µ y + σ y ] y [µ y σ y, µ y + σ y ] αλλιώς απορρίπτεται. Υποθέτοντας πως τα ακολουθηµένα χαρακτηριστικά έχουν παρόµοια πρότυπα κινήσεων, αυτό επιτρέπει στον αλγόριθµο για να απορρίψει τα στάσιµα ή αργά κινούµενα χαρακτηριστικά του background, µετά από έναν αριθµό από frames. Αυτό είναι ιδιαίτερα χρήσιµο εάν η περιοχή που χρησιµοποιείται για την αρχικοποίηση της παρακολούθησης περιέχει ένα κοµµάτι του background. Η παραγωγή χαρακτηριστικών είναι ϐασισµένη στον αλγόριθµο που χρησιµοποιείται για την παρακολούθηση των σηµείων των χαρακτηριστικών, όπου ένα καλό χαρακτηριστικό ορίζεται σαν το χαρακτηριστικό του οποίου ο πίνακας Z έχει δύο µεγάλες ιδιοτιµές, οι οποίες δεν διαφέρουν από την τάξη του µέτρου. Ενα τέτοιο χαρακτηριστικό µας επιβεβαιώνει ότι η εξίσωση είναι καλώς ορισµένη. Μπορεί να δειχθεί ότι η προϋπόθεση της µεγάλης ιδιοτιµής υπονοεί ότι οι µερικές 21

παράγωγοι ϑ(i+j) ϑx και ϑ(i+j) ϑy είναι µεγάλες. Για να ξεπεράσει το πρόβληµα της απώλειας χαρακτηριστικών, ειδικά όταν το ποσό της κίνησης µεταξύ δύο διαδοχικών πλαισίων είναι µεγαλύτερο του µέσου όρου, ο αριθµός των χαρακτηριστικών σε κάθε ακολουθηµένη περιοχή ελέγχεται σε κάθε frame, όσων αφορά ένα κατώτατο όριο. Αν ο αριθµός πέσει κάτω από αυτό το όριο, τότε τα χαρακτηριστικά επαναϋπολογ ιζονται. Ο επαναϋπολογισµός των χαρακτηριστικών πραγµατοποιείται επίσης σε τακτά χρονικά διαστήµατα, ως µια προσπάθεια ενίσχυσης της διαδικασίας παρακολούθησης. Υπάρχουν περιπτώσεις, που εµφανίζεται αποτυχία της διαδικασίας παρακολούθησης, δηλαδή ένα πρόσωπο χάνεται σε ένα frame. Για να αντιµετωπιστεί ένα τέτοιο πρόβληµα, χρησιµοποιείται η επανάληψη της διαδικασίας της ανίχνευσης προσώπου. Εντούτοις, εάν οποιοσδήποτε από τα ανιχνευµένα πρόσωπα συµπίπτουν µε οποιοδήποτε από τα πρόσωπα που ακολουθούνται ήδη, τα τελευταία κρατιούνται, ενώ τα πρώτα απορρίπτονται. Η επανάληψη της διαδικασίας της ανίχνευσης επίσης εφαρµόζεται περιοδικά για να ανιχνεύσει τα καινούργια πρόσωπα που εισάγονται στο οπτικό πεδίο της κάµερας. Η σχηµατική περιγραφή της διαδικασίας παρακολού- ϑησης αναλύεται στο σχήµα 2.2. Σχήµα 2.2: ιαδιακασία παρακολούθησης 22

2.2.2 Ενα συνδυαστικό σύστηµα Ανίχνευσης και Παρακολούθησης προσώπου Προκειµένου να επιτευχθεί ένα υψηλό ποσοστό ανίχνευσης σε κάθε πλαίσιο ενός ϐίντεο [8], οι αλγόριθµοι ανίχνευσης και καταδίωξης συνδυάστηκαν και κάποιοι κανόνες ορίστηκαν για να διαµορφώσουν ένα πλήρες σύστηµα παρακολούθησης προσώπου. Ενα πρόσωπο µπορεί να ανιχνευθεί αρκετές ϕορές σε µία σκηνή, αυτό µπορεί να οδηγήσει στην πολλαπλή παρακολούθηση ενός ίδιου προσώπου, η οποία είναι χρονοβόρα. Για να ξεπεραστεί αυτό το πρόβληµα, ένας κανόνας παρακολούθησης χρησιµοποιείται προκειµένου να προσδιορίσει εάν τα πρόσφατα ανιχνευµένα πρόσωπα αντιστοιχούν στα προηγουµένως ακολου- ϑηµένα πρόσωπα. Αυτός ο κανόνας είναι ϐασισµένος στο ποσοστό της επικάλυψης P over µεταξύ των ανιχνευµένων bounding boxes (D i ) και αυτών είναι αποτέλεσµα της εµπρόσθιας διαδικασίας παρακολούθησης (F ) στο ίδιο πλαίσιο. Ορίζουµε το P over ως εξής : P over (F ) = max i A (F Di ) min(a Di, A F ) (2.21) όπου A Di είναι η περιοχή του i ανιχνευµένου bounding box και A F είναι η περιοχή του bounding box της εµπρόσθιας παρακολούθησης. Οσον αφορά στο A (F Di ), αντιστοιχεί στην περιοχή που καλύπτεται και από τα δύο bounding boxes. Εάν P over είναι υψηλότερο από 70%, τα δύο bounding boxes αντιστοιχούν στο ίδιο πρόσωπο και η νέα ανίχνευση χρησιµοποιείται για να αρχικοποιήσει την διαδικασία παρακολούθησης. Αυτός ο κανόνας απεικονίζεται στην 2.3. Στο πρώτο frame της σκηνής, το D 1 αντιπροσωπεύει ένα ανιχνευµένο πρόσωπο και σχετίζεται µε τον πρώτο ηθοποιό. Η µπροστινή παρακολούθηση του ανιχνευµένου προσώπου εκτελείται µέχρι το επόµενο frame ανίχνευσης και στα bounding boxes ορίζεται η ίδια ετικέτα (ηθοποιός 1). Στο επόµενο frame ανίχνευσης, τα D 2 και D 3 συγκρίνονται µε το bounding box της διαδικασίας παρακολούθησης του ίδιου frame. Το πρόσωπο που εκπληρώνει την συνθήκη επικάλυψης (D 3 ) παίρνει την ίδια ετικέτα (ηθοποιός 1) ενώ ο άλλος (D 2 ) συνδέεται σε έναν νέο ηθοποιό (ηθοποιός 2). Αυτός ο κανόνας εφαρµόζεται και στις άλλες ανιχνεύσεις D 4 και D 5. Προκειµένου να παραχθεί ένα νέο σύνολο υποψηφίων προσώπου, µια όπισθεν διαδικασία καταδίωξης εκτελείται σε κάθε frame. Η διαδικασία παρακολούθησης αρχικοποιείται από τα αποτελέσµατα ανίχνευσης προσώπου όπως ϕαίνεται στο σχήµα 2.3. Αυτή η όπισθεν διαδικασία παρακολούθησης είναι πολύ χρήσιµη σε περίπτωση που ένα πρόσωπο δεν ανιχνεύεται στην αρχή αλλά στη µέση µίας σκηνής. Η µπροστινή διαδικασία παρακολούθησης παρέχει τα bounding 23

boxes από το frame ανίχνευσης έως το τέλος της σκηνής. Οσον αφορά στην όπισθεν καταδίωξη, ϑα παράγει τα ελλείποντα αποτελέσµατα από το πρώτο frame της σκηνής έως το frame όπου η τελευταία ανίχνευση προσώπου έχει εκτελεσθεί. Μια πιο ενδιαφέρουσα συµβολή της οπίσθιας καταδίωξης λαµβάνεται όταν η µπροστινή διαδικασία παρακολούθησης ή η διαδικασία ανίχνευσης αποτυγχάνει να εντοπίσει ακριβώς το πρόσωπο ενός ηθοποιού σε ένα frame i. Εάν η επόµενη ανίχνευση αυτού του ίδιου ηθοποιού στο frame (i + 5n, n N) είναι ακριβέστερη, κατόπιν αυτές οι πληροφορίες ϑα διαδοθούν πίσω και ϑα παραγάγουν, στο i, έναν νέο υποψήφιο πρόσωπο µε µια υψηλότερη ακρίβεια. Προχωρώντας κατά αυτόν τον τρόπο, ϑα πάρουµε έναν, δύο ή τρεις υποψηφίους ανά frame για τον εντοπισµό προσώπου, που αντιστοιχούν στην ανίχνευση προσώπου, την µπροστινή παρακολούθηση και τα αποτελέσµατα της όπισθεν παρακολούθησης. Σχήµα 2.3: D : bounding boxes ανίχνευσης, F : bounding boxes εµπρόσθιας παρακολούθησης, B : bounding boxes όπισθεν παρακολούθησης 24

2.3 Οµαδοποίηση προσώπων Αρκετά συστήµατα αναγνώρισης προσώπων πριν προχωρήσουν στο τελικό στάδιο της αναγνώρισης προσώπων, οµαδοποιούν τις ακολουθίες των προσώπων που έχουν ανιχνευθεί και έχουν παρακολουθηθεί από τις προηγούµενες διαδικασίες. Η οµαδοποίηση των προσώπων (face clustering) µας δίνει την πληροφορία για το ποιά bounding boxes προσώπων αντιστοιχούν στο ίδιο πρόσωπο. Ετσι κατά την διαδικασία της αναγνώρισης προσώπων δεν χρειάζεται να εξετάσουµε όλα τα bounding boxes αλλά µόνο κάποιο αντιπροσωπευτικό δείγµα για την κάθε κλάση. Παρακάτω αναλύονται κάποιοι αλγόριθµοι Face clustering. 2.3.1 Οµαδοποίηση προσώπων µε χρήση αµοιβαίας πληροφορίας Η αµοιβαία πληροφορία (Mutual Information) είναι ένα νέο και χρήσιµο εργαλείο για την εύρεση οµοιοτήτων µεταξύ των πληροφοριών. Πιο συγκεκριµένα, ο ορισµός της MI είναι οι πληροφορίες που µοιράζονται µεταξύ δύο κατανοµών. Μέχρι τώρα, η MI αξιοποιείται πολύ στην εφαρµογή ϐιοπληροφορικής και εξυπηρετεί πολλούς σκοπούς στον τοµέα της κατηγοριοποίησης ακολου- ϑιών DNA και στην ταξινόµηση των πρωτεϊνών. Προσφάτως η MI χρησιµοποιήθηκε και για την οµαδοποίηση εικόνων προσώπου, αποδίδοντας πολύ καλά αποτελέσµατα. Η αµοιβαία πληροφορία (MI) ορίζεται ως η πληροφορία µεταξύ δύο κατανοµών. Εστω X και Y δύο κατανοµές. Ορίζουµε την από κοινού εντροπία τους ως : H(X, Y ) = (p(x, y) log(p(x, y))) (2.22) όπου p(x, Y ) η συνάρτηση πυκνότητας πιθανότητας των κοινών πληροφοριών της κατανοµής X και Y. Με τον ίδιο τρόπο, καθορίζουµε την εντροπία του Shannon για το X και το Y ως : H(X) = (p(x) log(p(x))) (2.23) H(Y ) = (p(y) log(p(y))) (2.24) εποµένως µπορούµε να καθορίσουµε την αµοιβαία πληροφορία ως : 25

I(X; Y ) = H(X) + H(Y ) H(X, Y ) (2.25) η οποία σχέση δίνει την τελική σχέση για την αµοιβαία πληροφορία : I(X; Y ) = x p(x, y) p(x, y) log p(x)p(y) y (2.26) Η I(X; Y ) είναι µια ποσότητα που µετρά την αµοιβαία εξάρτηση δύο τυχαίων µεταβλητών. Εάν χρησιµοποιούµε λογάριθµο µε τη ϐάση 2, κατόπιν η µονάδα µέτρησης είναι το bit. Αυτή η ποσότητα πρέπει να κανονικοποιηθεί κάπως για να δηµιουργηθεί µία οµοιόµορφη µετρική µεταξύ διαφορετικών εικόνων, και να χρησιµοποιηθεί ως µέτρο οµοιότητας. Για αυτό τον λόγω, συχνά χρησιµοποιείται η κανονικοποιηµένη αµοιβαία πληροφορία, η οποία ορίζεται ως το πηλίκο του αθροίσµατος των δύο εντροπιών, προς την από κοινού εντροπία των δύο κατανοµών. NMI(X; Y ) = Είναι επίσης χρήσιµο να σηµειώσουµε ότι : H(X) + H(Y ) H(X, Y ) (2.27) Αλλά ξέρουµε από την 2.22 ότι : NMI(Y ; X) = H(X) + H(Y ) H(Y, X) (2.28) H(X, Y ) = H(Y, X) (2.29) Άρα, NMI(X, Y ) = NMI(Y, X) (2.30) Στην περίπτωση της οµαδοποίησης των προσώπων χρησιµοποιούνται τα ιστογράµµατα της έντασης των εικόνων προσώπου, για τον προσδιορισµό των συναρτήσεων πυκνότητας πιθανότη- 26

τας. Προκειµένου να υπολογιστεί η κοινή εντροπία µεταξύ δύο εικόνων κατασκευάζουµε ένα δισδιάστατο ιστόγραµµα που λαµβάνουν υπόψη τις σχετικές ϑέσεις των εντάσεων έτσι ώστε ο- µοιότητα να εµφανίζεται µεταξύ δύο εικόνων, όταν ϐρίσκονται ίδιες εντάσεις στις ίδιες χωρικές ϑέσεις. Εστω A και B οι δύο εικόνες µε µέγεθος N 1 N 2 και i, j [0, 255] τότε : Hist(i, j) = {(k, l) N 1 N 2 A(k, l) = iκαιb(k, l) = j} (2.31) όπου ο αριθµός των στοιχείων ενός συνόλου. Με τον ορισµό του κοινού ιστογράµµατος µε αυτό τον τρόπο, πρέπει να αναγνωρίσουµε ότι για να υπολογιστεί, οι εικόνες πρέπει να είναι ίδιου µεγέθους. Αυτό σηµαίνει ότι κάποιος πρέπει να κλιµακώσει µια εικόνα στις διαστάσεις της άλλης. Στην προσέγγιση που παρουσιάζεται στο [9], και προκειµένου να αποφευχθούν τα µεγάλα Ϲητήµατα παρεµβολής κλιµάκωσης, καθορί- Ϲουµε ένα µέσο bounding box που υπολογίζεται από όλα τα bounding boxes που µας έδωσε η διαδικασία ανίχνευσης προσώπου. Αυτή η προσέγγιση παρουσιάζει καλύτερα αποτελέσµατα από το εάν κλιµακώναµε κάθε Ϲευγάρι των εικόνων ως προς την µεγαλύτερη ή την µικρότερη από αυτές. Ετσι κάθε εικόνα κλιµακώνεται προς αυτό το µέσο bounding box πριν από τον υπολογισµό της αµοιβαίας πληροφορίας. Ενα άλλο ϑέµα είναι το γεγονός της ανισότροπης κλιµάκωσης. Τα αποτελέσµατα του ανιχνευτή είναι bounding boxes όπου οι το πλάτος και το ύψος δεν είναι ίσα. Προκειµένου να κλιµακωθεί ένα µέσο bounding box προβλήµατα προκύπτουν όταν οι δύο διαστάσεις δεν είναι ίσες. Για να ξεπεραστεί αυτό, υπολογίζεται η µεγαλύτερη διάσταση του bounding box και έπειτα παίρνουµε το τετράγωνο µε πλευρά αυτή την διάσταση, κεντραρισµένο στο κέντρο του αρχικού ϐουνδινγ ϐοξ. Εστω B = {x 1, y 1, x 2, y 2 } ένα bounding box. Ορίζουµε το πλάτος ως q 2 q 1 και το ύψος ως y 2 y 1. Από τις δύο διαστάσεις παίρνουµε την µεγαλύτερη και τραβάµε την άλλη σε αυτό το µέγεθος. Για πλάτος µεγαλύτερο του ύψους το νέο bounding box ϑα είναι : B new = {x 1, y 1 k, x 2, y 2 + k} (2.32) ενώ για ύψος µεγαλύτερο του πλάτους : όπου k = (x 2 x 1 ) (y 2 y 1 ) 2 B new = {x 1 + k, y 1, x 2 k, y 2 } (2.33) 27

Εχουµε παρατηρήσει ότι τα προβλήµατα της κλιµάκωσης προκύπτουν από την ανακρίβεια του ανιχνευτή. Αυτό σηµαίνει ότι εάν το πρόσωπο δεν ανιχνεύεται σωστά και η εικόνα προσώπου περιέχει ένα µεγάλο ποσό του background, τότε η κλιµάκωση συνδυάζει κακώς τις δύο εικόνες προσώπου και οδηγεί σε ανακριβή αποτελέσµατα. Προκειµένου να αποφευχθεί αυτή η δυσχέρεια, ένα άλλο ϐήµα επεξεργασίας γίνεται. Μόλις ϐάλουµε τα αποτελέσµατα του ανιχνευτή στην ίδια κλίµακα υπολογίζουµε το N M I για τα διαφορετικά πλαίσια της εικόνας προσώπου στόχων. Ποικίλλουµε το ϐοξ πλάτος και το ύψος του bounding box κιβωτίου από 80% σε 120% του αρχικού µέσου bounding box, µε ένα ϐήµα 5%. Οι προαναφερθείσες τιµές έχουν υπολογιστεί πειραµατικά. Κατά αυτόν τον τρόπο, προσπαθούµε να αποβάλουµε τα προβλήµατα κλιµάκωσης λόγω των λαθών του ανιχνευτή. Τέλος, παίρνουµε το µέγιστο των υπολογισµένων N M I µεταξύ των δύο εικόνων. 2.3.1.1 ιανύσµατα Αµοιβαίας Πληροφορίας Το επόµενο ϐήµα αυτού το αλγορίθµου αποτελείται από τη δηµιουργία ενός διανύσµατος µε MI για κάθε εικόνα. Η διάσταση αυτού του διανύσµατος είναι ίση µε το µέγεθος του συνόλου στοιχείων των αποτελεσµάτων ανίχνευσης προσώπου. Για κάθε εικόνα προσώπου υπολογίζουµε το NMI µεταξύ αυτής της εικόνας και οποιωνδήποτε άλλων, έτσι δηµιουργούµε το διάνυσµα V. Ολα εκείνα τα διανύσµατα οδηγούν σε έναν πίνακα M M (όπου M το πλήθος των ανιχνευµένων εικόνων) όπου κάθε σειρά i αυτού του πίνακα ϑα είναι το NMI της i ανίχνευσης µε όλες τις άλλες εικόνες. Si, j = NMI(F aceimage i, F aceimage j ) (2.34) Είναι προφανές ότι τα στοιχεία της διαγώνιου ϑα είναι ίσα µε την µονάδα, η οποία είναι η κανονικοποιηµένη αµοιβαία πληροφορία µιας εικόνας προσώπου µε τον εαυτό της, επίσης ο πίνακας ϑα είναι συµµετρικός ως προς την κύρια διαγώνιο. Η διαγώνια ιδιότητα του πίνακα είναι αποτέλεσµα της M I συµµετρίας που παρουσιάζεται στην 2.30. Τέτοιες ιδιότητες είναι πολύ χρήσιµες επειδή επεµβαίνουν δραστικά στη χρονική πολυπλοκότητα του αλγορίθµου. Με τη χρησιµοποίηση αυτών των ιδιοτήτων η χρονική πολυπλοκότητα ελαχιστοποιείται κατά έναν πολλαπλασιαστικό παράγοντα 0.5 και κατά έναν προσθετικό παράγοντα - M. Στο σχήµα 2.4 µ- πορούµε να δούµε την εικόνα ενός πίνακα S για 253 συνολικές ανιχνεύσεις. Σε αυτόν τον εικόνα µια δοκιµή των διαδοχικών εµφανίσεων δύο διαφορετικών ηθοποιών παρουσιάζεται. Παρατηρώντας τις τετραγωνικές περιοχές που εµφανίζονται µέσα στην εικόνα µπορούµε να καταλάβουµε ότι εµφανίζονται τα ίδια πρόσωπα. Οι λεπτές γραµµές που εµφανίζονται είναι στις περισσότερες 28

περιπτώσεις εσφαλµένα αποτελέσµατα ανιχνευτών που είναι πολύ διαφορετικά από το σχέδιο προσώπου. Σχήµα 2.4: Οι σκοτεινότερες περιοχές ανήκουν στον πρώτο ηθοποιό και οι ϕωτεινότερες στον δεύτερο δράστη. Για την οµαδοποίηση των αποτελεσµάτων µπορεί να χρησιµοποιηθεί οποιοσδήποτε αλγόρι- ϑµος clustering, µε συχνότερη χρήση του αλγορίθµου κ-µέσων. Παρακάτω ϑα αναλυθεί µία παραλλαγή αυτού του αλγόριθµου, ο αλγόριθµος των ασαφών κ-µέσων. 2.3.1.2 Οµαδοποίηση µε Ασαφείς Κ-µέσους Αυτή η µέθοδος έχει αποδειχθεί ότι για το συγκεκριµένο πρόβληµα όπου έχουµε ένα ελαφρύ µίγµα των στοιχείων των κλάσεων, παρουσιάζει καλύτερα αποτελέσµατα από τον απλό αλγόριθµο k-µέσων. Προκειµένου να χρησιµοποιηθεί αυτός ο αλγόριθµος χωρίζουµε τον προαναφερθέν πίνακα S σε γραµµές. Στο σχήµα 2.5 και 2.6 µπορούµε να δούµε πώς αυτά τα διανύσµατα διαµορφώνονται για δύο παραδείγµατα διανυσµάτων των 709 διαστάσεων. Από εκεί και πέρα χρησιµοποιούµε την Ευκλείδεια απόσταση για να υπολογίσουµε αποστάσεις µεταξύ των κέντρων : 29

Σχήµα 2.5: ύο διανύσµατα που ανοίκουν σε διαφορετικές κλάσσεις. dist(v i, v j ) = M (υ ik υj k ) (2.35) και µε αυτά τα µέσα να υπολογιστεί ένας προκαθορισµένος αριθµός κέντρων των κλάσεων. k=1 30

Σχήµα 2.6: ύο διανύσµατα που ανοίκουν στην ίδια κλάσση. 2.3.2 Ιεραρχική οµαδοποίηση µε SIFT Χαρακτηριστικά Μία άλλη τεχνική για την οµαδοποίηση προσώπων είναι η ιεραρχική οµαδοποίηση µε την χρήση SIFT (Scale-invariant feature transform) χαρακτηριστικών. Η εν λόγω µέθοδος χωρίζεται σε δύο µέρη : Πρώτον ένας πίνακας ανοµοιότητας υπολογίζεται χρησιµοποιώντας τα SIFT χαρακτηριστικά των εικόνων προσώπου, και έπειτα ένας ιεραρχικός αλγόριθµος οµαδοποίησης προσώπων εφαρµόζεται στον προαναφερθέν πίνακα ανοµοιότητας. Αυτά τα δύο ϐήµατα περιγράφονται πιο λεπτοµερώς παρακάτω. 2.3.2.1 Ιεραρχική οµαδοποίηση Μια ιεραρχική µέθοδος οµαδοποίησης ([11]), είναι µια διαδικασία που µετασχηµατίζει έναν πίνακα ανοµοιότητας σε µια ακολουθία τοποθετηµένων διαµερίσεων. Ενας πίνακας ανοµοιότητας D είναι ένας τετραγωνικός και συµµετρικός πίνακας που περιέχει όλες τις ανά Ϲευγάρια ανοµοιότητες µεταξύ των δειγµάτων, οι οποίες πρέπει να οµαδοποιηθούν. Αν τα n αντικείµενα προς οµαδοποίηση ορίζονται από το σύνολο O: O = {o 1, o 2,..., o n } (2.36) 31

τα στοιχεία του D ορίζονται ως D ij = dissimilarity(o i, o j ), µε i, j = 1...n. Προφανώς, D ii = 0 και D ij = D ji. Οι ιεραρχικές µέθοδοι οµαδοποίησης διαθέτουν µια αιτιοκρατική ϕύση, υπό την έννοια ότι παράγουν πάντα την ίδια έξοδο, ανεξάρτητα από την αρχικοποίηση τους. Μία διαµέριση P των n αντικειµένων χωρίζει το σύνολο O σε υποσύνολα {S 1, S 2,...S m } που ικανοποιούν την επόµενη συνθήκη : S i Sj = a, για i, j [1, m], i j S 1 S2... Sm = O (2.37) Μία διαµέριση P 1 είναι εµφωλευµένη µέσα στην διαµέριση P 2 εάν κάθε συνιστώσα του P 1 είναι ένα υποσύνολο µίας συνιστώσας του P 2. Κατά αυτόν τον τρόπο, µία διαµέριση µπορεί να διαµορφωθεί µε τη συγχώνευση των εµφωλευµένων διαµερίσεων της. Ενας συσσωρευτικός, ή από κάτω προς τα επάνω, ιεραρχικός αλγόριθµος οµαδοποίησης, χρησιµοποιείται συνήθως. Σε τέτοιους αλγορίθµους η διαδικασία ξεκινά µε ν οµάδες του ενός στοιχείου και µία ακολουθία διαµερίσεων παράγεται από διαδοχικές συγχωνεύσεις οµάδων. Η πιο συχνά χρησιµοποιηµένες τεχνικές συγχώνευσης είναι αυτές του µονού συνδέσµου ή single linkage (οι οµάδες συγχωνεύονται µε ϐάση την µικρότερη απόσταση µεταξύ των αντικειµένων στις δύο οµάδες), πλήρης συνδέσµου ή complete linkage (η συγχώνευση ϐασίζεται στην µεγαλύτερη απόσταση µεταξύ των στοιχείων) και µέσου συνδέσµου ή average linkage (η συγχώνευση ϐασίζεται στην µέση απόσταση µεταξύ των στοιχείων). Η µέση απόσταση D RQ µεταξύ δύο οµάδων, ορίζεται ως η µέση τιµή όλων των αποστάσεων µεταξύ κάθε αντικειµένου στη οµάδα R και κάθε αντικειµένου στη οµάδα Q: D RQ = i R j Q D ij R Q (2.38) 2.3.2.2 Υπολογισµός του πίνακα Ανοµοιότητας Ο αλγόριθµος SIFT είναι µία µέθοδος εξαγωγής ιδιαίτερα διακριτικών αµετάβλητων χαρακτηριστικών από εικόνες, ο οποίος µπορεί να χρησιµοποιηθεί για να εκτελέσει αξιόπιστο ταίριασµα µεταξύ διαφορετικών όψεων ενός αντικειµένου ή µιας σκηνής. Στην περίπτωσή µας τα χαρακτηριστικά SIFT γνωρίσµατα χρησιµοποιούνται για το ταίριασµα των εικόνων προσώπου και τη δηµιουργία του πίνακα ανοµοιότητας που χρησιµοποιείται στον ιεραρχικό αλγόριθµο οµαδοποίησης, που περιγράφηκε στην προηγούµενη ενότητα. 32

Ο αλγόριθµος SIFT έχει τέσσερα σηµαντικά στάδια ([20], [21]): Ανίχνευση των ακρώτατων στον χώρο της κλιµάκωσης (scale-space extrema detection) Εντοπισµός σηµείων κλειδιών (keypoint localization ) Ανάθεση προσανατολισµού (orientation assignment) Περιγραφή των σηµείων κλειδιών (keypoint descriptor) Ο αλγόριθµος SIFT αξιολογεί τα χαρακτηριστικά κεψποιντς σε µια εικόνα και κατασκευάζει µια κανονική άποψη για κάθε keypoint, η οποία είναι αµετάβλητη στα σηµαντικά επίπεδα τοπικής σχηµατικής διαστρέβλωσης, κλίµακας, οπτικής γωνίας και αλλαγές ϕωτισµού. Για κάθε keypoint ορίζεται ένα διάνυσµα 128 στοιχείων, το οποίο εκφράζει τον προσανατολισµό, την κλίµακα και τη ϑέση µιας περιοχής των pixels γύρω από το keypoint. Αυτό το κάνει ένα πολύ χρήσιµο εργαλείο για γρήγορο ταίριασµα µιας µεγάλης ποσότητας από εικόνες προσώπου. Για να κατασκευάσουµε τον πίνακα ανοµοιότητας D µεγέθους N N, όπου N είναι ο συνολικός αριθµός των εικόνων προσώπου που ϑέλουµε να οµαδοποιήσουµε, η παρακάτω διαδικασία χρησιµοποιείται για τον υπολογισµό τις ανοµοιότητας µεταξύ των εικόνων προσώπου A i, A j, δηλαδή το στοιχείο D ij του πίνακα. Πρώτα απ όλα τα SIFT keypoints, όπως και τα διανύσµατα χαρακτηριστικών τους, εξάγονται από τις εικόνες A i και A j. Επειτα, το ταίριασµα ολοκληρώνεται µε την εύρεση του υποψηφίων προς ταίριασµα keypoints ϐασισµένα στη Ευκλείδεια απόσταση των διανυσµάτων χαρακτηριστικών τους. Μία αντιστοιχία µεταξύ δύο keypoints στις εικόνες A i και A j γίνεται δεκτή µόνο εάν η απόσταση των διανυσµάτων χαρακτηριστικών τους είναι µικρότερη από ένα κατώφλι (distratio) επί την απόσταση του δεύτερου κοντινότερου ταιριάσµατος. Το αποτέλεσµα είναι ένας αριθµός από αντιστοιχίες keypoints για αυτό το Ϲευγάρι των εικόνων. Επειδή το ταίριασµα της εικόνας A i µε την A j δεν δίνει το ίδιο αποτέλεσµα που δίνει το ταίριασµα της εικόνας A j µε την A i, ενώ ο πίνακας ανοµοιότητας πρέπει να είναι συµµετρικός, εκτελούµε το ταίριασµα δύο ϕορές,µία για το Ϲευγάρι (A i, A j ) και µία για το Ϲευγάρι (A i, A j ). Ο µέγιστος αριθµός των αντιστοιχιών των keypoint των δύο Ϲευγαριών είναι το τελικό αποτέλεσ- µα για το συγκεκριµένο Ϲευγάρι εικόνων. Τέλος, ο παραπάνω αριθµός αντιστοιχιών keypoint µετασχηµατίζεται σε µια αναλογία ανοµοιότητας (DR ij ) µεταξύ των δύο συγκρινόµενων εικόνων χρησιµοποιώντας τον τύπο : 33

όπου M ij M ij DR ji = DR ij = 100(1 min(k i, K j ) ) (2.39) είναι ο µέγιστος αριθµός αντιστοιχιών κεψποιντ που ϐρέθηκε µεταξύ των Ϲευγαριών (A i, A j ), (A j, A i ) και K i, K j είναι οι αριθµοί κεψποιντς που ϐρίσκονται στο A i, και στο A j αντίστοιχα. Το DR ij [0, 100] και οι υψηλές τιµές DR ij δείχνουν τη µεγάλη ανοµοιότητα µεταξύ των εικόνων προσώπου. Το DR ij ϑεωρείται ως στοιχείο D ij του πίνακα ανοµοιότητας, που κατασκευάζεται για τις N εικόνες προσώπου. Το σχήµα 2.7 παρουσιάζει έναν πίνακα ανοµοιότητας. Σε αυτό το σηµείο, πρέπει να σηµειωθεί ότι εκτελώντας το ταίριασµα δύο ϕορές για το ίδιο Ϲευγάρι, δεν αυξάνεται σηµαντικά ο χρόνος υπολογισµού, αφού ο χρονοβόρος υπολογισµός των SIFT χαρακτηριστικών της εικόνας γίνεται µόνο µία ϕορά. Σχήµα 2.7: Πίνακας ανοµοιότητας ο οποίος δηµιουργήθηκε για 941 εικόνες προσώπου. 34

2.4 Αναγνώριση Προσώπου Αν και οι µελέτες για την ανθρώπινη αναγνώριση προσώπου αναµένονταν για να είναι µια αναφορά για την µηχανική αναγνώριση προσώπων, η έρευνα για την µηχανική αναγνώριση προσώπου έχει αναπτυχθεί ανεξάρτητα από τις µελέτες για την ανθρώπινη αναγνώριση προσώπου. Κατά την διάρκεια της δεκαετίας του 70 χρησιµοποιήθηκαν τεχνικές αναγνώρισης προτύπων, οι οποίες χρησιµοποιούν µετρήσεις µεταξύ χαρακτηριστικών των προσώπων ή των σχεδιαγραµµάτων των προσώπων. Κατά τη διάρκεια της δεκαετίας του 80, η εργασία για την αναγνώριση προσώπου παρέµεινε σχεδόν σταθερή. Από την αρχή της δεκαετίας του 90, το ερευνητικό ενδιαφέρον στην αναγνώριση των προσώπων έχει αυξηθεί παρά πολύ. Οι λόγοι µπορεί να είναι οι εξής : Μια αύξηση στην έµφαση στα πολιτικά/εµπορικά ερευνητικά προγράµµατα Οι µελέτες για τα νευρωνικά δίκτυα Η διαθεσιµότητα δυνατότερου hardware Η αυξανόµενη ανάγκη για εφαρµογές επιτήρησης Κατά τη διάρκεια των τελευταίων δεκαετιών πολλές τεχνικές έχουν προταθεί για την αναγνώριση προσώπου. Πολλές από τις τεχνικές που προτάθηκαν κατά τη διάρκεια των πρώτων σταδίων της όρασης υπολογιστών δεν µπορούν να ϑεωρηθούν επιτυχής, αλλά σχεδόν όλες οι πρόσφατες προσεγγίσεις στο πρόβληµα αναγνώρισης προσώπου είναι αξιοσηµείωτες. Σύµφωνα µε την έρευνα των Brunelli και Poggio (1993) όλες οι προσεγγίσεις στην αναγνώριση ανθρώπινου προσώπου µπορούν να χωριστούν σε δύο στρατηγικές : (1) γεωµετρικά χαρακτηριστικά ( geometrical features )και (2) ταίριασµα προτύπων ( template matching ). 2.4.1 Αναγνώριση Προσώπου µε χρήση γεωµετρικών χαρακτηριστικών Αυτή η τεχνική περιλαµβάνει τον υπολογισµό ενός συνόλου γεωµετρικών χαρακτηριστικών από την εικόνα του προσώπου που ϑέλουµε να αναγνωρίσουµε, όπως το πλάτος και το µήκος της µύτης, η ϑέση του στόµατος και η µορφή των πηγουνιών, κ.λπ. Αυτό το σύνολο γεωµετρικών χαρακτηριστικών έπειτα αντιστοιχείται µε τα χαρακτηριστικά γνωστών ατόµων. Μία κατάλληλη µετρική όπως η Ευκλείδια απόσταση µπορεί να χρησιµοποιηθεί για να ϐρει την πιο κοντινή αντιστοιχία. Το πλεονέκτηµα της τεχνικής των γεωµετρικών χαρακτηριστικών είναι ότι η αναγνώριση είναι δυνατή ακόµη και σε εικόνες µε πολύ χαµηλή ανάλυση, ή ακόµα και σε ενθόρυβες εικόνες. 35

Αν και το πρόσωπο δεν µπορεί να αναπαρασταθεί λεπτοµερώς η γενική γεωµετρική δοµή του µπορεί να εξαχθεί για την αναγνώριση προσώπου. Το µειονέκτηµα αυτής της τεχνικής είναι ότι η εξαγωγή των γεωµετρικών χαρακτηριστικών του προσώπου είναι πολύ δύσκολη. Επίσης η εν λόγω τεχνική είναι ευαίσθητη και µη αποτελεσµατική σε περιστροφές και scaling του προσώπου γιατί έτσι αλλοιώνονται τα γεωµετρικά χαρακτηριστικά του. 2.4.2 Αναγνώριση Προσώπου µε χρήση ταιριάσµατος προτύπων Αυτή είναι µία παρόµοια τεχνική µε αυτή που αναφέραµε παραπάνω για την ανίχνευση προσώπου, µόνο που εδώ δεν προσπαθούµε να ταξινοµήσουµε µια εικόνα ως πρόσωπο ή µηπρόσωπο αλλά προσπαθούµε να αναγνωρίσουµε ένα πρόσωπο. Η ϐάση αυτής της στρατηγικής είναι η εξαγωγή ολόκληρων περιοχών του προσώπου (πίνακες µε pixels ) και να συγκριθούν αυτές µε τις ήδη αποθηκευµένες εικόνες κάποιων γνωστών ατόµων. Και σε αυτή την περίπτωση η Ευκλείδεια απόσταση µπορεί να χρησιµοποιηθεί για να ϐρεθεί η πιο κοντινή αντιστοιχία. Αυτή η απλούστατη τεχνική της σύγκρισης των grey-scale τιµών έντασης για την αναγνώριση προσώπου χρησιµοποιήθηκε για πρώτη ϕορά από τον Baron (1981). Εντούτοις υπάρχουν πολύ πιο πολύπλοκες µέθοδοι ταιριάσµατος προτύπων για την αναγνώριση προσώπου. Αυτές περιλαµβάνουν διάφορες προεπεξεργασίες και µετασχηµατισµούς των εξαγώµενων περιοχών του προσώπου. Για παράδειγµα, οι Turk και Pentland (1991) χρησιµοποίησαν Ανάλυση Πρωτευουσών Συνιστωσών, για την προεπεξεργασία των γκρίζων-επιπέδων και ο Wiskott (1997) χρησιµοποίησε Ελαστικούς Γράφους χρησιµοποιώντας ϕίλτρα Gabor για να προεπεξεργασία των περιοχές. Μια έρευνα από τους Brunelli και Poggio (1993) για την σύγκριση της τεχνικής των γεωµετρικών χαρακτηριστικών και της τεχνικής του ταιριάσµατος προτύπων για την αναγνώριση προσώπου, κατέληξε στο συµπέρασµα ότι αν και η στρατηγική των γεωµετρικών χαρακτηριστικών µπορεί να προσφέρει την υψηλότερη ταχύτητα αναγνώρισης και τις µικρότερες απαιτήσεις µνήµης, οι στρατηγικές ταιριάσµατος προτύπων προσφέρουν µεγαλύτερη ακρίβεια αναγνώρισης. 36

Κεφάλαιο 3 Χαρακτηριστικά προσώπου 3.1 Εισαγωγή Με τον όρο χαρακτηριστικά προσώπου (Facial Features) συνήθως αναφερόµαστε στα µάτια, τη µύτη και το στόµα. Τα αποτελέσµατα από την ανίχνευση, είναι συνήθως κάποια καθοδηγητικά σηµεία για τα χαρακτηριστικά αυτά, όπως οι άκρες των µατιών, τα κέντρα τους,το κέντρο της µύτης, ή ακόµα και εικόνες αυτών των χαρακτηριστικών. Τα χαρακτηριστικά του προσώπου πολλές ϕορές χρησιµοποιούνται στην διαδικασία της αναγνώρισης του προσώπου, αρκετές τεχνικές αναγνώρισης προσώπου τα χρησιµοποιούν σαν ένα είδος προεπεξεργασίας. Πολλές ϕορές τα χαρακτηριστικά του προσώπου πρέπει να ϐρίσκονται σε συγκεκριµένες ϑέσεις και να κατέχουν συγκεκριµένες αναλογίες αποστάσεων, έτσι ένα είδος προεπεξεργασίας για την διαδικασία της αναγνώρισης προσώπου είναι η κλιµάκωση και η περιστροφή της εικόνας προσώπου ώστε τα χαρακτηριστικά του προσώπου να έχουν τις επιθυµητές ιδιότητες. Πολλές τεχνικές έχουν δηµοσιευθεί τον τελευταίο καιρό για την ανίχνευση των χαρακτηριστικών του προσώπου. Η πλειοψηφία των τεχνικών αυτών ψάχνουν να ϐρουν τα χαρακτηριστικά σε περιοχές όπου πρώτα έχουν ανιχνευτεί ως πρόσωπα. Οι συγκεκριµένες µέθοδοι δίνουν πιο αποδεκτά αποτελέσµατα από αυτές που ψάχνουν να ϐρουν χαρακτηριστικά σε ολόκληρη την εικόνα. Οι τεχνικές που ϑα παρουσιαστούν παρακάτω κάνουν σύγκριση µε πρότυπα µοντέλα των χαρακτηριστικών προσώπου. Οι µέθοδοι πρότυπων µοντέλων περιλαµβάνουν τεχνικές που αναφέρονται στην ένταση ϕωτεινότητας, στην ανίχνευση ακµών ή στην κατανόηση του χρώµατος. Αυτές οι τεχνικές συνήθως είναι χρονοβόρες σε σχέση µε άλλες, αλλά µας δίνουν καλύτερα αποτελέσµατα. Τέλος ένα χαρακτηριστικό που συναντάµε σε πολλές µεθόδους είναι ότι η ανίχνευση των µατιών είναι αυτή που πραγµατοποιείται πρώτη και στην συνέχεια µε την χρήση κάποιων γεωµετρικών ιδιοτήτων του 37