Τεχνικές εντοπισμού προσώπων σε ψηφιακές εικόνες

Σχετικά έγγραφα
Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Παρουσίαση Νο. 5 Βελτίωση εικόνας

ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

DIP_04 Σημειακή επεξεργασία. ΤΕΙ Κρήτης

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Εισαγωγή στο 3DS Max 2009

ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014

DIP_01 Εισαγωγή στην ψηφιακή εικόνα. ΤΕΙ Κρήτης

Πληροφοριακά Συστήματα Διοίκησης

Σχεδιασμός και κατασκευή εφαρμογής ταξινόμησης αντικειμένων σε γραμμή μεταφοράς προϊόντων με χρήση όρασης μηχανής

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

Γνωστική Ψυχολογία Ι (ΨΧ32)

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

Τηλεπισκόπηση. Ψηφιακή Ανάλυση Εικόνας Η ΒΕΛΤΙΩΣΗ εικόνας

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ

Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση

Ψηφιοποίηση και Ψηφιακή Επεξεργασία Εικόνας

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

710 -Μάθηση - Απόδοση

Οδηγίες σχεδίασης στο περιβάλλον Blender

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: PowerPoint Κεφάλαιο 2: Εκκίνηση του PowerPoint... 13

710 -Μάθηση - Απόδοση

Εικόνες και γραφικά. Τεχνολογία Πολυµέσων 05-1

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Η διαδικασία Παραγωγής Συνθετικής Εικόνας (Rendering)

ΑΣΚΗΣΗ 3 ΒΕΛΤΙΩΣΗ ΕΙΚΟΝΑΣ ΜΕΛΕΤΗ ΙΣΤΟΓΡΑΜΜΑΤΟΣ. ( ) 1, αν Ι(i,j)=k hk ( ), διαφορετικά

DIP_05 Τµηµατοποίηση εικόνας. ΤΕΙ Κρήτης

Αναγνώριση Προτύπων Ι

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Ψηφιακή Ανάλυση Εικόνας. Ψηφιακή Ανάλυση Εικόνας

21. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ 4 - ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΜΕ ΤΟ BYOB BYOB. Αλγόριθμος Διαδικασία Παράμετροι

Vodafone Business Connect

MPEG-4: Βασικά Χαρακτηριστικά

Ορισμός του χρώματος όρισε το χρώμα πένας σε [06_π03.sb] άλλαξε χρώμα πένας κατά. άλλαξε χρώμα πένας κατά άλλαξε χρώμα πένας κατά [06_π04.

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Ανάκτηση πολυμεσικού περιεχομένου

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Διπλωματική Εργασία. Επιβλέπων καθηγητής: Δρ. Μηνάς Δασυγένης. Πανεπιστήμιο Δυτικής Μακεδονίας Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών

Επεξεργασία Χαρτογραφικής Εικόνας

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας

Ρετούς φωτογραφίας με το Photoshop

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα

Βίντεο. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 06-1

4 ο Εργαστήριο Τυχαίοι Αριθμοί, Μεταβλητές Συστήματος

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Digital Image Processing

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων:

Τεχνολογία Πολυμέσων. Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Δ10. Συμπίεση Δεδομένων

Μορφοποίηση εικόνων. Εισαγωγή. Στόχος κεφαλαίου

Προγραμματισμός. Το περιβάλλον του scratch

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

2.0 ΒΑΣΙΚΕΣ ΓΝΩΣΕΙΣ-ΟΡΟΛΟΓΙΕΣ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

Ο υπολογιστής ως υποστηρικτικό εργαλείο

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ


(18 ο ) ΚΛΑΣΜΑΤΙΚΗ ΑΝΑΓΩΓΗ - ΙI: «διάμεσος &θεσιακή επιλογή στοιχείου»

Το σκηνικό μας είναι πλέον έτοιμο για εισάγουμε τα υπόλοιπα αντικείμενα του έργου μας.

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

. Βάθος χρώματος: Πραγματικό χρώμα. . Βάθος χρώματος: Αποχρώσεις του γκρίζου 8bit. . Βάθος χρώματος: Αποχρώσεις του γκρίζου 1bit.

ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ

Οδηγός γρήγορης εκκίνησης του PowerSuite

Πρόλογος... 7 ΕΙΔΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ

Απεικόνιση Υφής. Μέρος Α Υφή σε Πολύγωνα

Εφαρμογή δημιουργίας σεναρίων Sctatch

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Slalom Race Computer Game on Scratch

Πληροφορική 2. Τεχνητή νοημοσύνη

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ με το EXCEL

21/6/2012. Μέθοδοι Κινηματικής ανάλυσης ΒΑΣΙΚΟΙ ΟΡΙΣΜΟΙ ΣΥΧΝΟΤΗΤΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΣΥΧΝΟΤΗΤΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ. Στόχος μεθόδων κινηματικής ανάλυσης

Φωτογραφική μηχανή - Αρχή λειτουργίας.

Η εντολή «επανέλαβε Χ»

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Transcript:

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Τεχνικές εντοπισμού προσώπων σε ψηφιακές εικόνες Πτυχιακή εργασία του Μαρία Στέργιου (2011) Επιβλέπων: Χαράλαμπος Π Στρουθόπουλος, Καθηγητής ΣΕΡΡΕΣ, ΑΠΡΙΛΙΟΣ 2012

2 Υπεύθυνη δήλωση Υπεύθυνη Δήλωση : Βεβαιώνω ότι είμαι συγγραφέας αυτής της πτυχιακής εργασίας και ότι κάθε βοήθεια την οποία είχα για την προετοιμασία της, είναι πλήρως αναγνωρισμένη και αναφέρεται στην πτυχιακή εργασία Επίσης έχω αναφέρει τις όποιες πηγές από τις οποίες έκανα χρήση δεδομένων, ιδεών ή λέξεων, είτε αυτές αναφέρονται ακριβώς, είτε παραφρασμένες Επίσης βεβαιώνω ότι αυτή η πτυχιακή εργασία προετοιμάστηκε από εμένα προσωπικά ειδικά για τις απαιτήσεις του προγράμματος σπουδών του Τμήματος Πληροφορικής & Επικοινωνιών του ΤΕΙ Σερρών

3 Σύνοψη Στη συγκεκριμένη πτυχιακή εργασία, γίνεται μια αναφορά διαφόρων προσεγγίσεων στο πρόβλημα του εντοπισμού προσώπων με έμφαση στον εντοπισμό προσώπων με χρήση νευρωνικών δικτύων Επίσης γίνεται αναφορά διαφόρων αλγορίθμων επεξεργασίας εικόνας για την αποθορυβοποίηση εικόνας, μείωση χρωμάτων εικόνας, εξισορρόπηση ιστογράμματος και άλλων Επιπλέον παρέχει μια εφαρμογή για τον εντοπισμό προσώπων σε ψηφιακές εικόνες Τέλος ο χρήστης έχει τη δυνατότητα, μέσω μιας σειράς προγραμμάτων, να επιλέξει από διάφορες εικόνες τα πρότυπα που τον ενδιαφέρουν, να τα επεξεργαστεί, να δημιουργήσει και να εκπαιδεύσει νευρωνικά δίκτυα και να προχωρήσει στον εντοπισμό των προτύπων που εκπαίδευσε

4 Περιεχόμενα Υπεύθυνη δήλωση 2 Σύνοψη 3 Ευχαριστίες 6 1 Εισαγωγή 7 11 Εντοπισμός προσώπων σε ψηφιακές εικόνες 7 12 Η εφαρμογή ανίχνευσης προσώπων 8 13 Στόχοι της εργασίας 8 14 Δομή της εργασίας 9 2 Η εξέλιξη της έρευνας στην ανίχνευση προσώπου 10 21 Εισαγωγή 10 22 Ανίχνευση με βάση τα χαρακτηριστικά 11 12 221 Ανάλυση χαμηλού επιπέδου 2211 Ακμές 12 2212 Αποχρώσεις του γκρι 12 2213 Χρώμα 13 2214 Κίνηση 14 2215 Γενικευμένες μετρήσεις 15 15 2221 Αναζήτηση χαρακτηριστικών 15 2222 Ανάλυση Σχήματος 222 Ανάλυση χαρακτηριστικών 16 17 17 2232 Παραμορφώσιμα πρότυπα 18 2233 Κατανεμημένα μοντέλα 18 18 223 Ενεργά μοντέλα σχήματος 2231 Φίδια 23 Ανίχνευση με βάση την εικόνα

5 231 Γραμμική μέθοδος Ιδιοπρόσωπα 19 232 Νευρωνικά δίκτυα 20 233 Στατιστικές μέθοδοι 20 3 Εντοπισμός προσώπων με νευρωνικά δίκτυα 21 21 31 Εισαγωγή 32 Συλλογή προτύπων 321 Θετικά πρότυπα 21 21 322 Αρνητικά πρότυπα 24 33 Επεξεργασία προτύπων 331 Αποθορυβοποίηση 25 25 332 Εξισορρόπηση ιστογράμματος 26 333 Μείωση χρωμάτων 27 334 Αλλαγή μεγέθους 28 34 Νευρωνικό δίκτυο 341 Εισαγωγή 30 30 342 Εκπαίδευση νευρωνικού δικτύου 31 35 Ανίχνευση προσώπων με τη μέθοδο παράθυρου 32 36 Ανίχνευση προσώπων με τη μέθοδο σπόρων 33 37 Το πρόβλημα της επικάλυψης κατά την ανίχνευση 35 4 Εφαρμογή ανίχνευσης προτύπων 37 37 42 Συλλογή και επεξεργασία προτύπων 37 43 Μαζική επεξεργασία προτύπων 39 44 Μετατροπή προτύπων σε αρχείο κειμένου 40 45 Εκπαίδευση νευρωνικού δικτύου 41 46 Ανίχνευση προτύπων 41 Εισαγωγή 42 5 Αποτελέσματα 43 51 Στόχοι 43 52 Μελλοντικές επεκτάσεις 43 53 Δυσκολίες κατά την ανάπτυξη 43 47 6 Συμπεράσματα

6 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή μου κύριο Χαράλαμπο Στρουθόπουλο για την καθοριστική και πολύτιμη βοήθεια του σε όλη τη διάρκεια της εκπόνησης της πτυχιακής εργασίας και για τις γνώσεις που μου μετέδωσε κατά τη διάρκεια των σπουδών μου Επίσης θα ήθελα να ευχαριστήσω την οικογένεια μου για την υποστήριξη που μου παρείχαν στις σπουδές μου

7 Κεφάλαιο 1 Εισαγωγή 11 Εντοπισμός προσώπων σε ψηφιακές εικόνες Ο εντοπισμός προσώπων και γενικά προτύπων είναι μια διαδικασία όπου οι άν- θρωποι κάνουν αβίαστα και χωρίς πολύ συνειδητή σκέψη Αναγνωρίζουν και εντοπίζουν σε μια εικόνα όλα τα πιθανά πρόσωπα Η αναγνώριση και ο εντοπισμός συνεχίζει να γίνεται αβίαστα και σε φωτογραφίες κακής ποιότητας όπου μπορεί να υπάρχουν πολλά πρόσωπα σε διάφορα μεγέθη και χρώματα, όπου τα πρόσωπα μπορεί να είναι προσανατολισμένα σε διάφορες κατευθύνσεις φορώντας γυαλιά ή καπέλα Στην επιστήμη της υπολογιστικής όρασης βέβαια παραμένει ένα δύσκολο πρόβλημα, όπου μετά από περίπου 20 χρόνια έρευνας, μόλις τα τελευταία χρόνια αρχίζει να αποδίδει χρήσιμες τεχνολογικές λύσεις Μια αξιοσημείωτη πτυχή της αναγνώρισης προσώπου είναι η ευρεία διεπιστημονική φύση του ενδιαφέροντος σε αυτήν, όπως: αναγνώριση προτύπων, βιομετρία και ασφάλεια, επεξεργασία πολυμέσων, ψυχολογία και νευροεπιστήμη Ο εντοπισμός προσώπων εκτείνεται σε μια ποικιλία από διαφορετικές τεχνολογίες και προσεγγίσεις, από ανίχνευση με βάση τα χαρακτηριστικά, όπως ακμές, χρώμα, κίνηση, μέχρι και στην ανίχνευση με βάση την, εικόνα όπως στατιστικές μέθοδοι, νευρωνικά δίκτυα Στη συγκεκριμένη πτυχιακή γίνεται μια αναφορά σε μια πληθώρα μεθόδων και προσεγγίσεων στο θέμα του εντοπισμού προσώπων καθώς και η εκτενέστερη ανάλυση της ανίχνευσης με βάση την εικόνα και τη χρήση νευρωνικών δικτύων Αναλύεται όλη η μεθοδολογία και διαδικασία συλλογής και επεξεργασίας προτύπων για την εκπαίδευση του νευρωνικού δικτύου καθώς και ένας από τους πιο γνωστούς αλγόριθμους ανίχνευσης προτύπων Τέλος θα δούμε την ανάπτυξη μίας εφαρμογής που υλοποιεί τις παραπάνω μεθόδους και δίνει τη δυνατότητα στο χρήστη να δημιουργήσει το δικό του νευρωνικό δίκτυο για εντοπισμό των προτύπων της επιλογής του

8 12 Η εφαρμογή ανίχνευσης προσώπων Η εφαρμογή ανίχνευσης προσώπων αποτελείται από μια σειρά προγραμμάτων για τη συλλογή και επεξεργασία προτύπων, για μαζική επεξεργασία προτύπων, για τη μετατροπή των εικόνων σε αρχείο κειμένου, για τη δημιουργία και εκπαίδευση νευρωνικών δικτύων και για τον εντοπισμό των προτύπων αυτών Στο πρόγραμμα συλλογής και επεξεργασίας προτύπων μπορούμε να εισάγουμε φωτογραφίες, να αποκόψουμε επιθυμητά σημεία της φωτογραφίας για την παραγωγή προτύπων, να επεξεργαστούμε αυτά τα πρότυπα με φίλτρα μείωσης θορύβου, εξισορρόπηση ιστογράμματος, μετασχηματισμό φωτεινότητας, μείωση χρωμάτων και αλλαγή μεγέθους Στο πρόγραμμα μαζικής επεξεργασίας προτύπων μας δίνεται η δυνατότητα να επιλέξουμε φακέλους με πρότυπα και να τα επεξεργαστούμε μαζικά Στο πρόγραμμα μετατροπής εισάγουμε τους τελικούς φακέλους με τα επιθυμητά πρότυπα όπου μετατρέπονται σε αρχείο προτύπων ως είσοδος για την εκπαίδευση του νευρωνικού δικτύου Στο πρόγραμμα εκπαίδευσης νευρωνικών δικτύων δημιουργούμε και εκπαιδεύουμε νευρωνικά δίκτυα πολλών εισόδων κρυφών επιπέδων και εξόδων Στο πρόγραμμα για τον εντοπισμό προτύπων μπορούμε να επιλέξουμε μια εικόνα, να εισάγουμε το επιθυμητό νευρωνικό δίκτυο που επιθυμούμε, ανάλογα με τα πρότυπα που θέλουμε να εντοπίσουμε, να επιλέξουμε ανάμεσα από δυο αλγορίθμους ανίχνευσης προτύπων καθώς και να εισάγουμε κάποιες παραμέτρους για το κατώφλι ενεργοποίησης του νευρωνικού, το μέγεθος της μάσκας αναζήτησης καθώς και το βήμα μετακίνησης και μεγέθυνσης της μάσκας 13 Στόχοι της εργασίας Η εργασία έχει σαν κεντρικό θέμα της τεχνικές εντοπισμού προσώπων σε ψηφια- κές εικόνες Συγκεκριμένα οι στόχοι της παρούσας εργασίας είναι: Η μελέτη διαφόρων τεχνικών αναγνώρισης προσώπου Η ανάπτυξη λογισμικού για εντοπισμό προσώπου

9 14 Δομή της εργασίας Συμπεριλαμβανομένου και του τρέχοντος κεφαλαίου το οποίο αποτελεί την εισαγωγή της πτυχιακής εργασίας, ακολουθούν ακόμη πέντε κεφάλαια τα οποία είναι τα εξής: Κεφάλαιο 2: Γίνεται μια αναφορά στην εξέλιξη της έρευνας στο πρόβλημα της ανίχνευσης προσώπου Κεφάλαιο 3: Γίνεται μια ανάλυση για την ανίχνευση προσώπου με νευρωνικά δίκτυα Κεφάλαιο 4: Γίνεται ανάλυση της εφαρμογής αναγνώρισης προσώπων Κεφάλαιο 5: Αποτελέσματα της εφαρμογής Κεφάλαιο 6: Συμπεράσματα και προτάσεις για επέκταση της εφαρμογής

10 Κεφάλαιο 2 Η εξέλιξη της έρευνας στην ανίχνευση προσώπου 21 Εισαγωγή Η πρώτες προσπάθειες στον τομέα της ανίχνευσης προσώπου χρονολογούνται ήδη από τις αρχές του 1970, όπου χρησιμοποιήθηκαν απλές ανθρωπομετρικές τεχνικές Αυτές οι τεχνικές λειτουργούσαν σε απλό φόντο και πρόσθια όψη προσώπου, όπως για παράδειγμα μια τυπική φωτογραφία διαβατηρίου Σε αυτά τα συστήματα οποιαδήποτε αλλαγή των συνθηκών της εικόνας θα χρειαζόταν πλήρη επανασχεδιασμό του συστήματος Η ανάπτυξη του ερευνητικού ενδιαφέροντος παρέμεινε στάσιμη μέχρι το 1990, όπου η αναγνώριση προσώπου και τα συστήματα κωδικοποίησης βίντεο έγιναν πραγματικότητα Την τελευταία δεκαετία υπήρξε μεγάλο ερευνητικό ενδιαφέρον που εκτείνεται σε πολλές πτυχές της ανίχνευσης προσώπου, ιδιαίτερα εκείνων που χρησιμοποιούν κίνηση, χρώμα και γενικευμένη πληροφορία Η χρήση στατιστικών μεθόδων και νευρωνικών δικτύων έχει επίσης τη δυνατότητα ανίχνευσης προσώπων Επιπροσθέτως υπάρχει πρόοδος στον σχεδιασμό εξαγωγής χαρακτηριστικών όπως, παραμορφώσιμα πρότυπα και ενεργά περιγράμματα όπου μπορούν να ανιχνεύσουν τα χαρακτηριστικά ενός προσώπου με μεγάλη ακρίβεια Επειδή οι τεχνικές ανίχνευσης προσώπου απαιτούν εκ των προτέρων την πληροφορία του προσώπου, μπορούμε να τις οργανώσουμε σε δυο κατηγορίες όπου διακρίνονται από τη διαφορετική προσέγγιση στο τι θεωρούμε πρόσωπο Οι τεχνικές στην πρώτη κατηγορία κάνουν ρητή χρήση της γνώσης του προσώπου χρησιμοποιώντας την κλασική μεθοδολογία ανίχνευσης, όπου χαρακτηριστικά χαμηλού επιπέδου προέρχονται από τη γνώση με βάση την ανάλυση Οι προφανείς ιδιότητες του προσώπου όπως το χρώμα του δέρματος και η γεωμετρία του προσώπου χρησιμοποιούνται σε διαφορετικά επίπεδα του συστήματος Τυπικά σε αυτές τις τεχνικές οι εργασίες ανίχνευσης προσώπου επιτυγχάνονται κάνοντας χρήση της απόστασης, γωνίας και μέτρησης των οπτικών χαρακτηριστικών που προέρχονται από την εικόνα Δεδομένου ότι τα χαρακτηρι-

11 στικά είναι τα κύρια συστατικά, η τεχνική αυτή ονομάζεται ανίχνευση με βάση τα χαρακτηριστικά Η δεύτερη μέθοδος ονομάζεται ανίχνευση με βάση την εικόνα όπου ταξινομεί ομάδες από πρόσωπα χρησιμοποιώντας αλγορίθμους όπου δεν χρειάζεται η εξαγωγή χαρακτηριστικών Σε αυτή την ομάδα ανήκει και η μέθοδος ανίχνευσης με νευρωνικά δίκτυα Σχήμα 21 Ο εντοπισμός προσώπου χωρισμένος σε προσεγγίσεις 22 Ανίχνευση με βάση τα χαρακτηριστικά Η ανάπτυξη της ανίχνευσης με βάση τα χαρακτηριστικά μπορεί να διαιρεθεί σε τρεις υποκατηγορίες όπως βλέπουμε και στο Σχήμα 21 Λαμβάνοντας υπόψη ένα τυπικό πρόβλημα ανίχνευσής προσώπου για τον εντοπισμό ενός προσώπου σε δυναμικό φόντο, η ανάλυση χαμηλού επιπέδου ασχολείται με την κατάτμηση των οπτικών χαρακτηριστικών χρησιμοποιώντας ιδιότητες των εικονοστοιχείων όπως την κλίμακα του γκρι και το χρώμα Λόγω του χαμηλού επιπέδου χαρακτηριστικών, τα χαρακτηριστικά που παράγονται από αυτή την ανάλυση είναι διφορούμενα Στην ανάλυση χαρακτηριστικών τα οπτικά χαρακτηριστικά οργανώνονται σε μια πιο σφαιρική αντίληψη του προσώπου και των χαρακτηριστικών του, χρησιμοποιώντας την γεωμετρία του προσώπου Μέσα από την ανάλυση χαρακτηριστικών τα διφορούμενα χαρακτηριστικά μειώνονται και προσδιορίζονται περιοχές του προσώπου και των χαρακτηριστικών του Η επόμενη ομάδα περιλαμβάνει τη χρήση των ενεργών μοντέλων σχήματος Αυτά τα μοντέλα κυμαίνονται από τα φίδια, όπου προτάθηκαν το 1980, μέχρι τα ποιο πρόσφατα κατανεμημένα μοντέλα όπου έχουν αναπτυχθεί για περίπλοκη εξαγωγή χαρακτηριστικών όπως η κόρη του ματιού και η παρακολούθηση των χειλιών

12 221 Ανάλυση χαμηλού επιπέδου 2211 Ακμές Οι ακμές, το ποιο παλιό χαρακτηριστικό σε εφαρμογές τεχνητής όρασης, έχουν εφαρμοστεί για την ανίχνευση προσώπου Η μέθοδος αυτή βασιζόταν στην ανάλυση σχημάτων από φωτογραφίες προσώπων, με σκοπό τον εντοπισμό χαρακτηριστικών προσώπου όπως το περίγραμμα του κεφαλιού Η μέθοδος αυτή περιλαμβάνει έναν αλγόριθμο ακολουθίας καμπυλωμένων γραμμών για την αποφυγή ακμών θορύβου Τεχνικές ακμών έχουν χρησιμοποιηθεί επίσης και για τον εντοπισμό γυαλιών σε φωτογραφίες προσώπων Το πιο κοινό φίλτρο εξαγωγής ακμών είναι το φίλτρο του Sobel (Εικόνα 21) Εικόνα 21 Αρχική εικόνα (α), Εικόνα με φίλτρο Sobel (β) 2212 Αποχρώσεις του γκρι Εκτός από τις ακμές, οι αποχρώσεις του γκρι μπορούν εξίσου να χρησιμοποιηθούν ως χαρακτηριστικά Χαρακτηριστικά όπως φρύδια ή χείλη, συνήθως εμφανίζονται πιο σκούρα από το υπόλοιπο πρόσωπο Διάφοροι αλγόριθμοι εξαγωγής χαρακτηριστικών προσώπου αναζητούν τοπικά ελάχιστα γκρι περιοχών μέσα σε περιοχές προσώπου Σε αυτούς τους αλγόριθμους, η εικόνα εισαγωγής πρώτα περνάει από αλγορίθμους εξισορρόπησης ιστογράμματος για την βελτίωση της ποιότητας των σκοτεινών περιοχών, έτσι ώστε να κάνουν πιο εύκολη την ανίχνευση Η εξαγωγή των σκοτεινών σημείων επιτυγχάνεται με κατώφλι χαμηλού επιπέδου της κλίμακας του γκρι (Εικόνα 22) Από την πλευρά της εφαρμογής ο αλγόριθμος κάνει χρήση προτύπων ανθρώπινων ματιών, για

13 να καθορίσει τη θέση ενός πιθανού ζεύγους ματιών Εικόνα 22 Αρχική εικόνα (α), Εικόνα με εξισορρόπηση ιστογράμματος (β), Εικόνα μετά από κατώφλι χαμηλού επιπέδου (γ) 2213 Χρώμα Ενώ η πληροφορία του γκρι είναι το βασικό χαρακτηριστικό για την αναπαράσταση χαρακτηριστικών σε μια εικόνα, το χρώμα είναι πιο ισχυρό Λόγω των επιπλέον διαστάσεων που έχει το χρώμα, δυο παρόμοια σχήματα από γκρι πληροφορία, μπορεί να φαίνονται πολύ διαφορετικά στον χρωματικό χώρο Έχει διαπιστωθεί ότι το χρώμα του ανθρώπινου δέρματος δημιουργεί μια χρωματική ομάδα στον χρωματικό χώρο (Εικόνα 23, 24), ακόμη και αν τα πρόσωπα προέρχονται από διαφορετικές εθνικότητες Ένα από τα πιο ευρέως χρησιμοποιημένα χρωματικά μοντέλα είναι το μοντέλο RGB, όπου διαφορετικά χρώματα ορίζονται από τους συνδυασμούς του κόκκινου, πράσινου και μπλε Με τη σύγκριση πληροφοριών χρώματος ενός εικονοστοιχείου σε σχέση με τις τιμές R και G του προσώπου, μπορεί να εξαχθεί η περιοχή που περιέχει δέρμα (Εικόνα 25)

14 Εικόνα 23 Διάφορες εικόνες ανθρώπων (α), Περιοχή δέρματος για ανάλυση ιστογράμματος (β), Ιστόγραμμα επιλεγμένης περιοχής (γ) Εικόνα 24 Η κατανομή του ανθρώπινου δέρματος στον χρωματικό χώρο, συγκεντρωμένη σε μία περιοχή Εικόνα 25 Αρχική εικόνα (α), Πιθανά εικονοστοιχεία δέρματος (β) 2214 Κίνηση Στην περίπτωση της χρήσης βίντεο, η πληροφορίες της κίνησης είναι ένα πολύ βολικό μέσο για τον εντοπισμό των κινούμενων αντικειμένων Ένας απλός τρόπος να επιτευχθεί εντοπισμός του κινούμενου αντικειμένου είναι η ανάλυση της διαφοράς των

15 καρέ Η προσέγγιση αυτή, αν και εύκολη, είναι σε θέση να διακρίνει ένα κινούμενο αντικείμενο στο προσκήνιο από το παρασκήνιο Ένας άλλος τρόπος για την ανίχνευση της κίνησης είναι η εκτίμηση του κινούμενου περιγράμματος Σε σύγκριση με την προηγούμενη μέθοδο, τα αποτελέσματα που παράγονται από την εκτίμηση του κινούμενου περιγράμματος είναι περισσότερο αξιόπιστα, ειδικά όταν η κίνηση είναι αμελητέα 2215 Γενικευμένες μετρήσεις Οπτικά χαρακτηριστικά όπως ακμές, χρώμα και κίνηση προέρχονται από τα πρώιμα στάδια του ανθρώπινου οπτικού συστήματος και δημιουργούν οπτικά πρότυπα στο εσωτερικό του αμφιβληστροειδή μας Αυτή η προ-επεξεργασία επιτρέπει την οπτική πληροφορία να οργανώνεται σε διάφορες βάσεις πριν την υψηλού επιπέδου ανάλυση που θα κάνει ο εγκέφαλος Βασιζόμενοι σε αυτές τις παρατηρήσεις προτάθηκε ότι τα συστήματα μηχανικής όρασης θα πρέπει να ξεκινάνε με ανάλυση χαμηλού επιπέδου των γενικευμένων ιδιοτήτων μιας εικόνας 222 Ανάλυση χαρακτηριστικών Χαρακτηριστικά που προέρχονται από χαμηλού επιπέδου ανάλυση είναι πιθανόν να είναι διφορούμενα Για παράδειγμα, στον εντοπισμό των περιοχών προσώπου με χρήση του μοντέλου χρώματος, περιοχές στο παρασκήνιο με παρόμοια χρώματα θα ανιχνευτούν επίσης Αυτό είναι ένα κλασσικό πρόβλημα που μπορεί να λυθεί με υψηλού επιπέδου ανάλυση Σε πολλές τεχνικές ανίχνευσης προσώπου, η γνώση της γεωμετρίας του προσώπου έχει χρησιμοποιηθεί για την επαλήθευση διαφόρων χαρακτηριστικών από τη διφορούμενη κατάσταση τους Υπάρχουν δυο προσεγγίσεις στην εφαρμογή γεωμετρίας προσώπου Η πρώτη προσέγγιση περιλαμβάνει διαδοχικές στρατηγικές αναζητήσεις χαρακτηριστικών με βάση τη σχετική τοποθεσία των μεμονωμένων χαρακτηριστικών του προσώπου Η πιθανότητα ύπαρξης ενός χαρακτηριστικού ενισχύεται από την ανίχνευση κοντινών χαρακτηριστικών Οι τεχνικές στη δεύτερη προσέγγιση ομαδοποιούν τα χαρακτηριστικά με διάφορα μοντέλα προσώπων 2221 Αναζήτηση χαρακτηριστικών Η αναζήτηση χαρακτηριστικών ξεκινάει με τον καθορισμό των επιφανών χαρακτη-

16 ριστικών του προσώπου Ο εντοπισμός των χαρακτηριστικών αυτών μας επιτρέπει στη συνέχεια να υποθέσουμε την ύπαρξη λιγότερο επιφανών χαρακτηριστικών κάνοντας χρήση ανθρωπομετρικών μετρήσεων, χρησιμοποιώντας γεωμετρία προσώπου Για παράδειγμα μια μικρή περιοχή πάνω σε μια μεγάλη περιοχή σε σειρά κεφάλι-ώμος θα μπορούσε να είναι το σενάριο πρόσωπο πάνω σε ώμο, και ένα ζευγάρι σκοτεινών περιοχών που βρέθηκαν στην περιοχή του προσώπου, αυξάνει την πιθανότητα ύπαρξης προσώπου Ο αλγόριθμος αναζήτησης χαρακτηριστικών ξεκινάει με την υπόθεση ύπαρξης κορυφής ενός κεφαλιού και στη συνέχεια σαρώνει προς τα κάτω για τον εντοπισμό ενός ματιού, όπου παρατηρείτε από την απότομη αύξηση των άκμων στο οριζόντιο επίπεδο Στη συνέχεια το μήκος μεταξύ της κορυφής του κεφαλιού και των ματιών χρησιμοποιείται ως ένα μήκος αναφοράς Χρησιμοποιώντας αυτό το μήκος αναφοράς, ένα εύκαμπτο πρότυπο προσώπου καλύπτει τα χαρακτηριστικά όπως μάτια και στόμα Το αρχικό σχήμα του προτύπου δημιουργείται χρησιμοποιώντας ανθρωπομετρικά μήκη, βασισμένο στο μήκος αναφοράς (Πίνακας 21) Κάθε χαρακτηριστικό προσώπου συμβάλει σε μια συνάρτηση αξιολόγησης, η οποία χρησιμοποιείται για τον προσδιορισμό της τελικής απόφασης για το αν κάτι είναι πρόσωπο Μια τέτοια συνάρτηση αξιολόγησης βλέπουμε παρακάτω Ε=0,5 Ε eye +0,2 E mouth+0,1 E Reyebrow +0,1 ELeyebrow+0,1 E nose Πίνακας 21 Μέσο μήκος χαρακτηριστικών προσώπου Μέσο μήκος Μήκος Κεφαλιού Διαχωριστικό ματιών Μύτη από το στόμα Μάτια από τη μύτη 1,97 0,52 0,3 0,56 2222 Ανάλυση σχήματος Μερικοί αλγόριθμοι που αναφέρθηκαν σε αυτό το κεφάλαιο στηρίζονται στην πληροφορία που έχουν λάβει από τις διάφορες εικόνες προσώπων σε καθορισμένες συνθήκες Αν δώσουμε σε αυτούς τους αλγορίθμους μια πιο γενική εργασία όπως, τον εντοπισμό προσώπων σε διάφορες θέσεις σε πολύπλοκο φόντο, οι περισσότεροι θα αποτύχουν λόγω της άκαμπτης φύσης τους Αυτό το πρόβλημα αντιμετωπίζεται με την ομαδοποίηση χαρακτηριστικών προσώπου σε σχήματα προσώπων χρησιμοποιώντας ισχυρές με-

17 θόδους μοντελοποίησης όπως στατιστική ανάλυση Ένα πιθανοτικό μοντέλο για τη χορική διάταξη των χαρακτηριστικών ενός προσώπου επιτρέπει μεγαλύτερη ευελιξία ανίχνευσης Ο αλγόριθμος είναι ικανός να χειριστεί χαρακτηριστικά και προβλήματα που οφείλονται στη μετάφραση, περιστροφή και στην κλίμακα Οι προ-επεξεργασμένες εικόνες αναζητούνται σε ένα μοντέλο δομής, μοντέλο υφής και ένα μοντέλο προτύπων προσώπου (Εικόνα 26) Εικόνα 26 Αρχική εικόνα, μοντέλο δομής, μοντέλο υφής, μοντέλο προτύπων προσώπου 223 Ενεργά μοντέλα σχήματος Σε αντίθεση με τα μοντέλα προσώπου που περιγράφονται σε αυτό το κεφάλαιο, ενεργά μοντέλα σχήματος απεικονίζουν τα πραγματικά υψηλού επιπέδου χαρακτηριστικά Μόλις ένα ενεργό μοντέλο σχήματος πλησιάσει ένα χαρακτηριστικό, αρχίζει να αλληλεπιδρά με αυτό με βάση τα τοπικά χαρακτηριστικά της εικόνας ( ακμές, φωτεινότητα ) και σταδιακά γίνεται ένα με αυτό Υπάρχουν τρεις τύποι ενεργών μοντέλων σχήματος 2231 Φίδια Τα φίδια χρησιμοποιούνται συνήθως για να εντοπίσουμε το όριο του κεφαλιού Προκειμένου να το πετύχει αυτό, το φίδι αρχικοποιείται γύρω από τα όρια ενός πιθανού κεφαλιού Στη συνέχεια κοιτάει για γειτονικές ακμές υποθέτοντας το σχήμα ενός κεφα-

18 λιού Η εξέλιξη ενός φιδιού επιτυγχάνεται με την ελαχιστοποίηση της συνάρτησης E snake =E internal + E external όπου E internal, E external είναι οι εξωτερικές και εσωτερικές συναρτήσεις ενέργειας, αντίστοιχα Η εσωτερική ενέργεια είναι το μέρος που εξαρτάται από τις εγγενείς ιδιότητες που καθορίζουν την φυσική εξέλιξη ενός φιδιού Η τυπική φυσική εξέλιξη στα φίδια είναι να συρρικνώνονται ή να επεκτείνονται Η εξωτερική ενέργεια εξουδετερώνει την εσωτερική ενέργεια και επιτρέπει στο περίγραμμα να αποκλίνει από τη φυσική εξέλιξη και τελικά να παίρνει το σχήμα του κεφαλιού 2231 Παραμορφώσιμα πρότυπα Ο εντοπισμός του ορίου ενός προσώπου δεν είναι κάτι εύκολο, διότι τοπικά στοιχεία για τις ακμές ενός προσώπου είναι δύσκολο να οργανωθούν σε γενικά περιγράμματα Η χαμηλή αντίθεση φωτεινότητας γύρω από ένα πρόσωπο επίσης καθιστά την ανίχνευση ακμών προβληματική Στη συγκεκριμένη μέθοδο το πρότυπο παραμορφώνεται γύρο από τα χαρακτηριστικά μιας εικόνας σε διαφορά στάδια μέχρι να γίνει ένα με αυτό 2232 Κατανεμημένα μοντέλα Τα κατανεμημένα μοντέλα είναι μια παραμετροποιημένη μέθοδος των σχημάτων όπου βασίζεται στη στατιστική Η αρχιτεκτονική των κατανεμημένων μοντέλων είναι διαφορετική απ τα ενεργά μοντέλα σχήματος Το περίγραμμα σε αυτά διακριτοποιείται σε ένα σύνολο σημείων Οι παραλλαγές αυτών των σημείων αρχικά παραμετροποιούνται από ένα σύνολο εκπαίδευσης που περιλαμβάνει αντικείμενα διαφόρων μεγεθών, χρησιμοποιώντας ανάλυση κύριων συνιστωσών Οι παραλλαγές ενός χαρακτηριστικού σε ένα σύνολο εκπαίδευσης κατασκευάζονται ως ένα γραμμικό εύκαμπτο μοντέλο Το μοντέλο αυτό περιλαμβάνει τη μέση τιμή από όλα τα χαρακτηριστικά σε όλα τα σύνολα και τη διακύμανση του κάθε σημείου 23 Ανίχνευση με βάση την εικόνα Μέχρι τώρα έχουμε δει ότι η ανίχνευση προσώπου με ρητή μοντελοποίηση των χαρακτηριστικών του είναι προβληματική λόγω της απρόβλεπτης θέσης που μπορεί να βρεθεί ένα πρόσωπο και από τις συνθήκες του περιβάλλοντος Αν και πολλές τεχνικές

19 βασισμένες στην ανίχνευση με βάση τα χαρακτηριστικά έχουν βελτιώσει την ικανότητα τους να αντιμετωπίζουν το απρόβλεπτο, οι περισσότερες εξακολουθούν να περιορίζονται στο κεφάλι-ώμος και στην πρόσθια όψη του προσώπου Υπάρχει ακόμα η ανάγκη για τεχνικές που μπορούν να εκτελέσουν ένα πιο δύσκολο σενάριο, όπως ανίχνευση πολλών προσώπων σε ακατάστατο φόντο Η ανάγκη αυτή έχει εμπνεύσει ένα νέο ερευνητικό πεδίο στην ανίχνευση του προσώπου το οποίο αντιμετωπίζεται ως ένα πρόβλημα αναγνώρισης προτύπων Διαμορφώνοντας το πρόβλημα ως αναγνώριση προτύπων προσώπου από παραδείγματα η αναγκαιότητα της γνώσης προσώπου αποφεύγεται Αυτό εξαλείφει την πιθανότητα σφάλματος κατά την μοντελοποίηση, όπου οφείλεται σε ελλιπή ή ανακριβή γνώση για το πρόσωπο Η βασική προσέγγιση στην αναγνώριση προτύπων προσώπου είναι μεσώ της εκπαίδευσης, η οποία ταξινομεί τα παραδείγματα σε δυο κλάσεις, την κλάση πρόσωπα και την κλάση όχι πρόσωπα Με τη σύγκριση αυτών των κλάσεων με μία εικόνα που έχει εξαχθεί από την εικόνα εισόδου μπορούμε να πάρουμε την απόφαση ύπαρξης προσώπου Οι περισσότερες προσεγγίσεις στην ανίχνευση με βάση την εικόνα εφαρμόζουν την τεχνική σάρωσης παραθύρου για τον εντοπισμό ενός προσώπου Ο αλγόριθμος σάρωσης παραθύρου είναι στην ουσία μια εξαντλητική αναζήτηση για πιθανές θέσεις ύπαρξης ενός προσώπου σε μια εικόνα σε όλα τα πιθανά μεγέθη Υπάρχουν διάφορες παραλλαγές αυτού του αλγορίθμου, ανάλογα με την αποδοτικότητα που θέλουμε να πετύχουμε, αλλάζοντας το μεγέθους του παραθύρου, το ρυθμό δειγματοληψίας, τον αριθμό των επαναλήψεων 231 Γραμμική μέθοδος Ιδιοπρόσωπα Στα τέλη του 1980 αναπτύχθηκε μία τεχνική χρησιμοποιώντας ανάλυση κύριων συνιστωσών για την αποτελεσματική αναπαράσταση των ανθρώπινων προσώπων Λαμβάνοντας ένα σύνολο από διαφορετικές εικόνες προσώπων, η τεχνική βρίσκει πρώτα τις κύριες συνιστώσες των προσώπων, εκφρασμένη σε ιδιοδιανύσματα Έπειτα κάθε πρόσωπο από το σύνολο των προσώπων, προσεγγίζεται από ένα γραμμικό συνδυασμό μεγαλύτερων ιδιοδιανυσμάτων, όπου συχνά αναφέρονται ως ιδιοπρόσωπα (Εικόνα 27) Δεδομένου ότι η αναδόμηση του προσώπου από τα βασικά του χαρακτηριστικά είναι μια προσέγγιση, ορίζουμε ένα υπόλοιπο λάθους στον αλγόριθμο ως μέτρο ύπαρξης προσώπου Αυτό το λάθος ονομάζεται απόσταση από το χώρο του προσώπου και μας δίνει μια καλή ένδειξη ύπαρξης προσώπου

20 Εικόνα 27 Ιδιοπρόσωπα από το AT&T Laboratories Cambridge 232 Νευρωνικά δίκτυα Τα νευρωνικά δίκτυα έχουν γίνει δημοφιλή σε θέματα αναγνώρισης προτύπων συμπεριλαμβανομένου και του εντοπισμού προσώπων Πολύπλοκες αρχιτεκτονικές, πολύπλοκοι αλγόριθμοι μάθησης και η εξέλιξη των δικτύων με γενετικούς αλγορίθμους είναι μερικά από τα παραδείγματα της εκτεταμένης χρήσης των νευρωνικών δικτύων στην αναγνώριση προτύπων Η βασική προσέγγιση στον εντοπισμό προσώπων με νευρωνικά δίκτυα γίνεται μέσω της συγκέντρωσης προτύπων διαχωρισμένων σε δυο κλάσεις, των κλάσεων πρόσωπα και όχι πρόσωπα Έπειτα τα πρότυπα αυτά εισάγονται στο νευρωνικό δίκτυο ως πρότυπα για εκπαίδευση με επιθυμητή έξοδο Περαιτέρω ανάλυση για τον εντοπισμό προσώπων με νευρωνικά δίκτυα θα συναντήσουμε στο κεφάλαιο 3 233 Στατιστικές μέθοδοι Πέρα από τις γραμμικές μεθόδους και τα νευρωνικά δίκτυα, υπάρχουν πολλές στατιστικές προσεγγίσεις στον εντοπισμό προσώπων Για τη συγκεκριμένη μέθοδο χρησιμοποιούνται τα ιστογράμματα από ένα σύνολο εικόνων για τη δημιουργία συναρτήσεων πιθανότητας για τις κλάσεις πρόσωπα και όχι πρόσωπα

21 Κεφάλαιο 3 Εντοπισμός προσώπων με νευρωνικά δίκτυα 31 Εισαγωγή Σε αυτό το κεφάλαιο θα αναλύσουμε τον εντοπισμό προσώπων με νευρωνικά δίκτυα Θα δούμε τα βήματα που πρέπει να ακολουθήσουμε, από τη συλλογή των προτύπων μέχρι και την ανίχνευση Το να εκπαιδεύσουμε ένα νευρωνικό δίκτυο για τον εντοπισμό προσώπου είναι μια πρόκληση λόγω της δυσκολίας που έχουμε στη δημιουργία της κλάσης όχι πρόσωπα Σε αντίθεση με την αναγνώριση προσώπου όπου οι κλάσεις διαχωρίζονται σε διαφορετικά πρόσωπα, στον εντοπισμό προσώπων έχουμε δυο κλάσεις, τα πρόσωπα και τα όχι πρόσωπα Είναι εύκολο να πάρουμε ένα αντιπροσωπευτικό δείγμα από εικόνες που περιέχουν πρόσωπα, άλλα είναι δυσκολότερο να πάρουμε δείγμα από αυτές που δεν περιέχουν Αυτό το πρόβλημα το λύνουμε χρησιμοποιώντας ένα αρκετά μεγάλο δείγμα από εικόνες που δεν περιέχουν πρόσωπα και σε κάθε διαδικασία εκπαίδευσης επιλέγουμε ένα μικρο ποσοστό από αυτές και τις προσθέτουμε στο δείγμα για εκπαίδευση κατά τη διαδικασία της εκπαίδευσης Με αυτή τη μέθοδο μειώνουμε το μέγεθος του δείγματος που χρειαζόμαστε για εκπαίδευση 32 Συλλογή προτύπων Στη συλλογή προτύπων θα συλλέξουμε εικόνες από τις οποίες θα συγκεντρώσουμε τα θετικά και τα αρνητικά πρότυπα Οι εικόνες αυτές θα περιέχουν διαφορετικών ειδών εικόνες προσώπων για τα θετικά πρότυπα και διαφορετικών ειδών τυχαίων εικόνων για τα αρνητικά πρότυπα 321 Θετικά πρότυπα Όπως αναφέραμε τα θετικά πρότυπα θα είναι η κλάση πρόσωπα Είναι σημαντικό να υπάρχουν πρόσωπα διαφόρων ειδών, όπως με μούσια ή χωρίς, διαφορετικού προσανατολισμού και φωτισμού έτσι ώστε να αυξήσουμε την ακρίβεια του νευρωνικού Τα

22 πρόσωπα θα τα συλλέξουμε από έτοιμες βάσης δεδομένων όπως του MIT-CBCL Face Recognition Database (Εικόνα 31) και The Yale Face Database (Εικόνα 32) καθώς και από το διαδίκτυο (Εικόνα 33) Εικόνα 31 Μερικές εικόνες από τη βάση δεδομένων του MIT-CBCL Εικόνα 32 Μερικές εικόνες από τη βάση δεδομένων του Yale

23 Εικόνα 33 Εικόνες προσώπων από το διαδίκτυο Συνολικά συλλέγουμε περίπου χίλιες εικόνες προσώπων Ένα μικρό δείγμα βλέπουμε παρακάτω Εικόνα 34 Δείγμα θετικών προτύπων

24 322 Αρνητικά πρότυπα Στα αρνητικά πρότυπα θα έχουμε την κλάση όχι πρόσωπα Για αυτή την κλάση θα συλλέξουμε τυχαία εικόνες από το διαδίκτυο όπου θα περιέχουν δέντρα, κτίρια, τυχαία σύμβολα κα Είναι αδύνατον να συλλέξουμε όλα τα αρνητικά πρότυπα γιαυτό και θα εμπλουτίζουμε το νευρωνικό κατά τη διάρκεια της εκπαίδευσης του Για το πρώτο βήμα εκπαίδευσης θα συλλέξουμε χίλια αρνητικά πρότυπα τυχαία από εικόνες Μερικά παραδείγματα βλέπουμε παρακάτω Εικόνα 35 Συλλογή τυχαίων προτύπων από μια εικόνα στο δάσος Εικόνα 36 Συλλογή τυχαίων προτύπων από μια εικόνα γέφυρας

25 Εικόνα 37 Δείγμα αρνητικών προτύπων 33 Επεξεργασία προτύπων Κατά τη διάρκεια συλλογής προτύπων όλα τα πρότυπα πρέπει να περάσουν από μια συγκεκριμένη σειρά φίλτρων Κάθε πρότυπο μπορεί να έχει θόρυβο, να είναι υπερφωτισμένο άλλα και να μην είναι στο επιθυμητό μέγεθος 331 Αποθορυβοποίηση Υπάρχουν διάφορα είδη θορύβου στις ψηφιακές εικόνες που σχετίζονται άμεσα με τον τρόπο λήψης των εικόνων Για παράδειγμα αν η εικόνα προκύπτει από τη σάρωση ενός φιλμ, ο κόκκος του φιλμ είναι πηγή θορύβου Κατά τη λήψη μιας εικόνας οι αισθητήρες εισάγουν θόρυβο Για την αποθορυβοποίηση των προτύπων θα χρησιμοποιήσουμε το φίλτρο μεσαίας τιμής (median filter) Αυτό το φίλτρο χρησιμοποιείται για την εξομάλυνση των ακμών και τη μείωση θορύβου μιας εικόνας Η τιμή median ενός συνόλου Α είναι ίση με τη μεσαία τιμή του συνόλου Σε ένα σύνολο το οποίο έχει περιττό αριθμό στοιχείων, ταξινομούμε τα στοιχειά του συνόλου κατ' αύξουσα τιμή, οπότε το median του συνόλου ισού-

26 ται με το μεσαίο στοιχείο Στην περίπτωση άρτιου αριθμού στοιχείων το median του συνόλου ισούται με τη μέση τιμή των δυο γειτονικών μεσαίων στοιχείων Εικόνα 38 (α) Αρχική εικόνα με κυκλωμένο τον κόκκο θορύβου, (β) μεγεθυμένα τα εικονοστοιχεία κοντά στο θόρυβο (γ) τιμές φωτεινότητας των εικονοστοιχείων, (δ) τιμές των εικονοστοιχείων σε αύξουσα σειρά με επιλεγμένη την τιμή median, (ε) τιμές φωτεινότητας των εικονοστοιχείων με αντικατάσταση του εικονοστοιχείου θορύβου με την τιμή median, (ζ) εικονοστοιχεία μετά το φίλτρο median 332 Εξισορρόπηση Ιστογράμματος Η τεχνική εξισορρόπησης ιστογράμματος μετασχηματίζει τις γκρι φωτεινότητες μιας εικόνας έτσι ώστε αυτές να κατανέμονται ομοιόμορφα σε όλη την κλίμακα φωτεινοτήτων Η εικόνα που προκύπτει με τον τρόπο αυτό είναι αυξημένης αντίθεσης σε σχέση με την αρχική Εικόνα 39 (α) Αρχική εικόνα, (β) ιστογράμματα αρχικής εικόνας

27 Εικόνα 310 (α) Εικόνα μετά την εξισορρόπηση ιστογράμματος, (β) ιστόγραμμα της εξισορροπημένης εικόνας Παρατηρούμε ότι στην εικόνα 310 οι φωτεινότητες κατανέμονται σε όλο το δυνατό εύρος φωτεινοτήτων με αποτέλεσμα η εικόνα να είναι αυξημένης αντίθεσης 333 Μείωση χρωμάτων Αν σε μια εικόνα αποχρώσεων του γκρι, μειώσουμε κατάλληλα τις γκρι αποχρώσεις από 256 σε έναν περιορισμένο αριθμό, θα υπάρξει ομαδοποίηση των εικονοστοιχείων που έχουν κοντινές αποχρώσεις Για την τμηματοποίηση των εικόνων έχουν αναπτυχθεί διαφορές τεχνικές Στην παρούσα πτυχιακή θα πραγματοποιήσουμε μείωση χρωμάτων με χρήση αυτό-οργανούμενου νευρωνικού ταξινομητή Η μείωση χρωμάτων θα βοηθήσει το νευρωνικό να εκπαιδευτεί γρηγορότερα καθώς θα έχει λιγότερη πληροφορία και θα διώξει από τα πρότυπα περιττές πληροφορίες Περιληπτικά ο αλγόριθμος μείωσης χρωμάτων ακολουθεί τα βήματα: Εκπαίδευση ταξινομητή Βήμα 1 Καθορισμός παραμέτρων ταξινομητή Βήμα 2 Αρχικοποίηση νευρώνων Βήμα 3 Τυχαία επιλογή χρώματος από την εικόνα Βήμα 4 Υπολογισμός εξόδου νευρώνων Βήμα 5 Υπολογισμός νικητή Βήμα 6 Ανανέωση νικητή

28 Βήμα 7 Ανανέωση μεταβλητών Στάδιο ταξινόμησης Εκτίμηση κατωφλίου Βήμα 1 Επιλογή εικονοστοιχείου Βήμα 2 Υπολογισμός εξόδου νευρώνων Βήμα 3 Επιλογή νικητή Εικόνα 311 (α) Αρχική εικόνα με 256 χρώματα, (β) εικόνα με 16 χρώματα, (γ) εικόνα με 4 χρώματα 334 Αλλαγή μεγέθους Κατά την είσοδο τους στο νευρωνικό τα πρότυπα έχουν σταθερό μέγεθος ίσο με 20x20 εικονοστοιχεία καθώς το νευρωνικό μας θα έχει 400 εισόδους Επομένως όλα τα πρότυπα θα πρέπει να μετασχηματίζονται σε αυτό το μέγεθος Κάτι τέτοιο μπορούμε να το πετύχουμε με υποδειγματοληψία, για τη σμίκρυνση του προτύπου, και υπερδειγματοληψία για τη μεγέθυνση του Παρακάτω βλέπουμε ένα παράδειγμα υποδειγματοληψίας όπου μια εικόνα 40x40 εικονοστοιχείων μετατρέπετε σε 20x20 Για να συμβεί αυτό άπλα δημιουργούμε μια νέα εικόνα κάνοντας υποδειγματοληψία της αρχικής, ξεκινώντας από το πρώτο εικονοστοιχείο και κινούμαστε κατά βήμα 2 Οι εικόνες είναι μεγεθυμένες κατά 1000% για να μπορούμε να παρατηρούμε τα εικονοστοιχεία

29 Εικόνα 312 (α) Αρχική εικόνα 40x40 εικονοστοιχείων, (β) μετασχηματισμένη εικόνα 20x20 εικονοστοιχείων Παρακάτω βλέπουμε ένα δείγμα από τα πρότυπα μετά την επεξεργασία τους Με αυτή τη μορφή θα εισάγετε κάθε πρότυπο στην είσοδο του νευρωνικού Εικόνα 312 (α) Δείγμα από θετικά πρότυπα, (β) δείγμα από αρνητικά πρότυπα

30 34 Νευρωνικό δίκτυο 341 Εισαγωγή Το νευρωνικό δίκτυο που θα χρησιμοποιήσουμε για την αναγνώριση θα είναι ένα feedforward back propagation νευρωνικό δίκτυο Αυτό το νευρωνικό δίκτυο ξεκινάει με το επίπεδο εισόδου το οποίο μπορεί να συνδέεται κατευθείαν στο επίπεδο εξόδου η σε ένα κρυφό επίπεδο Το κρυφό επίπεδο μπορεί να συνδέεται με άλλο κρυφό επίπεδο ή κατευθείαν με το επίπεδο εξόδου Μπορεί να υπάρχουν πολλά κρυφά επίπεδα Το επίπεδο εισόδου είναι στην ουσία ο αγωγός απ' όπου μπορεί μια εξωτερική πηγή να δώσει ένα μοτίβο στο νευρωνικό δίκτυο Κάθε νευρώνας εισόδου θα πρέπει να αντιπροσωπεύει μια ανεξάρτητη μεταβλητή που επηρεάζει το επίπεδο εξόδου και στην περίπτωσή μας τα εικονοστοιχεία μιας εικόνας Καθώς το νευρωνικό δίκτυο θα παίρνει ως είσοδο μια εικόνα 20x20, οι νευρώνες εισόδου θα είναι 400, θα έχουμε ένα κρυφό επίπεδο 80 νευρώνων και μια έξοδος η οποία θα παράγει 0 ή 1 για το αν κάτι δεν είναι ή είναι πρόσωπο αντίστοιχα Εικόνα 313 Νευρωνικό δίκτυο 400 εισόδων, ενός κρυφού επιπέδου 80 νευρώνων και μιας εξόδου

31 342 Εκπαίδευση νευρωνικού δικτύου Για την εκπαίδευση του νευρωνικού θα ξεκινήσουμε με 1000 πρόσωπα και 1000 όχι πρόσωπα Μέτα την εκπαίδευση του θα εκτελέσουμε το νευρωνικό πάνω σε τυχαίες εικόνες που δεν περιέχουν πρόσωπα και κάθε λάθος του νευρωνικού, δηλαδή κάθε πρότυπο που θα ταξινομείτε στην κλάση πρόσωπα θα το εισάγουμε στην κλάση όχι πρόσωπα Συλλέγοντας 100 τέτοια πρότυπα θα επανεκπαιδεύσουμε το νευρωνικό Αυτή τη διαδικασία θα την επαναλάβουμε όσες φόρες χρειαστεί, δηλαδή μέχρι το νευρωνικό να μας δίνει ικανοποιητικά ποσοστά ανίχνευσης Εικόνα 314 (α) Αναγνώριση με 1000 αρνητικά πρότυπα, (β) Αναγνώριση με 2000 αρνητικά πρότυπα, (γ) Αναγνώριση με 3000 αρνητικά πρότυπα, (δ) Αναγνώριση με 4000 αρνητικά πρότυπα

32 Στην εικόνα 314 βλέπουμε τα ποσοστά ανίχνευσης τεσσάρων εκδόσεων του νευρωνικού, για 1000, 2000, 3000 και 4000 αρνητικά πρότυπα Παρατηρούμε την αύξηση σωστής ανίχνευσης όσο το νευρωνικό αποκτά περισσότερα πρότυπα στην κλάση όχι πρόσωπα Μέτα από αρκετές επαναλήψεις το νευρωνικό έχει εκπαιδευτεί με 1000 πρόσωπα από τις βάσεις δεδομένων του MIT-CBCL Face Recognition Database, The Yale Face Database καθώς και από το διαδίκτυο και 6000 όχι πρόσωπα από 140 διαφορετικές εικόνες από το διαδίκτυο 35 Ανίχνευση προσώπων με τη μέθοδο παραθύρου Μια από τις πιο γνωστές και πολυχρησιμοποιημένες τεχνικές για την ανίχνευση ενός προτύπου σε μια εικόνα είναι τεχνική παραθύρου Ένα παράθυρο κατά πολύ μικρότερο της εικόνας ελέγχει όλες τις πιθανές θέσεις για το πρότυπο Το παράθυρο ξεκινάει από πάνω αριστερά και μεταφέρετε κατά το πλάτος της εικόνας με ένα συγκεκριμένο βήμα Στη συνέχεια μεταφέρετε κατά το μήκος της Μόλις τελειώσει, δηλαδή το παράθυρο βρίσκεται στο κάτω δεξιά μέρος της εικόνας, μεγεθύνεται και επαναλαμβάνει την ανίχνευση Όταν το παράθυρο γίνει ίσου μεγέθους με την εικόνα σταματάει η ανίχνευση Σε κάθε βήμα του παραθύρου στέλνει το πρότυπο που έχει αποτυπώσει στο νευρωνικό Αν το νευρωνικό δώσει έξοδο μεγαλύτερο από ένα κατώφλι, στην περίπτωση μας το 09, το πρότυπο αυτό θεωρείτε πρόσωπο και οι συντεταγμένες καθώς και το μέγεθος του παραθύρου αποθηκεύονται Παρακάτω βλέπουμε μερικά στιγμιότυπα από τα βήματα της τεχνικής παραθύρου Στις εικόνες (α) μέχρι και (ζ) έχουμε ένα παράθυρο 20x20 Στις εικόνες (α), (β) και (γ) μετακινείτε δεξιά Μόλις φτάσει στο ανώτερο όριο του πλάτους της εικόνας μετακινείτε κάτω αριστερά όπως βλέπουμε στην εικόνα (δ) και συνεχίζει να μετακινείτε δεξιά Στην εικόνα (δ) έχει φτάσει στο ανώτερο όριο μήκους και πλάτους, μεγεθύνεται 30x30 και μεταφέρετε στο πάνω αριστερό μέρος της εικόνας, όπως βλέπουμε στην εικόνα (η) Σε κάθε βήμα το νευρωνικό δίνει έξοδο μικρότερη του 09 Στην εικόνα (θ) το νευρωνικό θα δώσει έξοδο μεγαλύτερη του 09, οπού εκεί βρίσκετε και το πρόσωπο της εικόνας Τέλος στην εικόνα (ι) το παράθυρο έχει καλύψει όλη την εικόνα και ο αλγόριθμος σταματά Για να έχουμε μεγάλη ακρίβεια βάζουμε βήμα μετακίνησης και βήμα μεγέθυνσης ίσο με 2

33 Εικόνα 315 Βήματα της τεχνικής παραθύρου Η παραπάνω τεχνική μας εγγυάται ότι όπου και να βρίσκετε το πρόσωπο θα το βρει, εφόσον περνάει το παράθυρο από όλες τις πιθανές θέσεις Το μειονέκτημα της είναι ότι είναι αργή Για μια εικόνα 126x126 και βήμα μετακίνησης και μεγέθυνσης 2 ο αλγόριθμος θα κάνει 66728 επαναλήψεις και σε έναν υπολογιστή Core Duo 316GHz θα εκτελείτε για περίπου 120 δευτερόλεπτα 36 Ανίχνευση προσώπων με τη μέθοδο σπόρων Μια ακόμα τεχνική για την ανίχνευση προσώπων είναι η μέθοδος των σπόρων Επιλέγονται τυχαία σημεία πάνω σε ακμές Με αυτό το σημείο ως κέντρο, ξεκινάνε να εξελίσσονται τετράγωνα τα οποία ψάχνουν για πιθανά μεγέθη προσώπων Κάθε φορά που ένα τετράγωνο μεγεθύνεται περνάει την εικόνα που περικλείει στο νευρωνικό και αν αυτή δεν είναι πρόσωπο συνεχίζει να μεγεθύνεται έως ότου φτάσει τα περιθώρια της εικόνας Στη συνεχεία μεταφέρεται στο επόμενο σπόρο και επαναλαμβάνει τη διαδικασία μέχρι να τελειώσουν όλοι οι σπόροι Παρακάτω βλέπουμε μερικά στιγμιότυπα από

34 τα βήματα της τεχνικής σπόρων Στην εικόνα (α) βλέπουμε την αρχική εικόνα Στην εικόνα (β) βλέπουμε της ακμές της εικόνας (α) Στης εικόνα (γ) έχουμε επιλέξει δυο σπόρους για το παράδειγμα Στις εικόνες (δ), (ε), (ζ) και (η) βλέπουμε το παράθυρο να μεγεθύνεται με κέντρο τον σπόρο ψάχνοντας για πιθανό μέγεθος προσώπου Μόλις τα όρια του παράθυρου αγγίξουν τα όρια της εικόνας (εικόνα (η) ), ο αλγόριθμος μεταφέρετε στον επόμενο σπόρο και επαναλαμβάνει τη διαδικασία (εικόνα (θ) ) Στην εικόνα (ι) το νευρωνικό μας δίνει έξοδο μεγαλύτερη του 09 και ο αλγόριθμος σταματάει Οι σπόροι σε πραγματικές συνθήκες είναι κατά πολύ περισσότεροι και φαίνονται στην εικόνα 317 οπού οι σπόροι είναι το 10% των λευκών εικονοστοιχείων Όσους περισσότερους σπόρους βάλουμε τόσο μεγαλύτερη πιθανότητα έχουμε να πέσει σπόρος κοντά στο πρόσωπο Εικόνα 316 Βήματα της τεχνικής σπόρων

35 Εικόνα 317 Σπόροι πάνω σε ακμές Με τη χρήση της παραπάνω τεχνικής υπάρχει περίπτωση να χάνουμε πρόσωπα στην περίπτωση που δεν θα πέσει σπόρος κοντά στα σημεία της μύτης ή του στόματος Αυτό το πρόβλημα μειώνεται όσο αυξάνουμε το ποσοστό των σπόρων Το πλεονέκτημα της τεχνικής αυτής είναι ο χρόνος εκτέλεσεης Για μια εικόνα 126x126, βήμα μεγέθυνσης 2 και ποσοστό σπόρων 10% των εικονοστοιχείων άκμων, ο αλγόριθμος σε έναν υπολογιστή Core Duo 316GHz θα εκτελείτε για περίπου 3 δευτερόλεπτα 37 Το πρόβλημα της επικάλυψης κατά την ανίχνευση Κατά την εκτέλεση της τεχνικής παράθυρου, δημιουργείτε ένα πρόβλημα γνωστό ως overlapping detection, όπου ένα πρόσωπο ανιχνεύεται πολλές φορές Αυτό γίνεται διότι το παράθυρο περνάει πολλές φόρες από το ίδιο σημείο σε διάφορα μεγέθη Για παράδειγμα ένα πρόσωπο μπορεί να ανιχνευτεί κατά το πέρασμα του παραθύρου με μέγεθος 40x40 αλλά το ίδιο πρόσωπο να ανιχνευτεί και με παράθυρο 42x42 Αυτό το πρόβλημα το λύνουμε εξετάζοντας αν υπάρχει παραπάνω από μια ανίχνευση σε πολύ κοντινά σημεία, τόσο όσο τα παράθυρα να επικαλύπτονται περισσότερο από ένα ποσοστό αποκάλυψης Αν βρεθούν παραπάνω από ένα παράθυρα κρατάμε αυτό που έχει μεγαλύτερη έξοδο νευρωνικού

36 Εικόνα 318 (α) Εικόνα με overlapping detection, (β) εικόνα με ανίχνευση του βέλτιστου τετραγώνου

37 Κεφάλαιο 4 Εφαρμογή ανίχνευσης προτύπων 41 Εισαγωγή Με βάση όλα τα παραπάνω κεφάλαια έχει δημιουργηθεί μια εφαρμογή ανίχνευσης προτύπων με ένα νευρωνικό δίκτυο για την ανίχνευση προσώπων Η εφαρμογή γενικά έχει και εκπαιδευτικό χαρακτήρα καθώς δίνει στον χρήστη τη δυνατότητα να εκπαιδεύσει το δικό του νευρωνικό δίκτυο με τα δικά του πρότυπα Η εφαρμογή αποτελείται από ένα πρόγραμμα για την επεξεργασία και περισυλλογή των προτύπων, ένα πρόγραμμα για την μαζική επεξεργασία των προτύπων, πρόγραμμα για την μετατροπή των προτύπων σε αρχείο κείμενου, ένα πρόγραμμα για την εκπαίδευση του νευρωνικού δικτύου και τέλος ένα πρόγραμμα για την ανίχνευση των προτύπων Στη συνέχεια θα παρουσιάσουμε τα προγράμματα εφαρμόζοντας και ένα παράδειγμα για την εκπαίδευση του νευρωνικού για ανίχνευση προσώπων 42 Συλλογή και επεξεργασία προτύπων Στη συλλογή και επεξεργασία προτύπων είναι το στάδιο όπου θα συλλέξουμε τα πρότυπα για την επεξεργασία του νευρωνικού δικτύου Το πρόγραμμα αυτό μας δίνει τη δυνατότητα να φορτώσουμε μια εικόνα και να αποκόψουμε επιθυμητά κομμάτια από την εικόνα έτσι ώστε να τα χρησιμοποιήσουμε ως πρότυπα Επίσης έχουμε τη δυνατότητα να εφαρμόσουμε φίλτρα πάνω στα πρότυπα αλλαγής μεγέθους και να τα αποθηκεύσουμε Παρακάτω βλέπουμε μια εικόνα κατά την συλλογή των προτύπων Με κόκκινο περίγραμμα είναι το πρόσωπο που έχουμε επιλέξει, όπου το βλέπουμε και κάτω αριστερά στο Selected Part Στο After Effects βλέπουμε πως φαίνεται το πρότυπο μετά την επεξεργασία του Με το κουμπί Rnd μπορούμε να συλλέξουμε 100 τυχαία πρότυπα από την εικόνα Αυτό θα μας είναι χρήσιμο όταν συλλέγουμε τα πρώτα 1000 αρνητικά πρότυπα

38 Εικόνα 41 Στιγμιότυπο από τη συλλογή τον προσώπων Εικόνα 42 Το μενού για την επιλογή των φίλτρων

39 43 Μαζική επεξεργασία προτύπων Μπορούμε κατά τη διάρκεια συλλογής των πρότυπων να μην έχουμε εφαρμόσει κανένα φίλτρο Γιαυτό θα χρειαζόμασταν μια διαδικασία μαζικής επεξεργασίας τους Στο συγκεκριμένο πρόγραμμα έχουμε τη δυνατότητα να επιλέγουμε φακέλους με πρότυπα και να τους επεξεργαζόμαστε μαζικά Εικόνα 43 Μαζική επεξεργασία προτύπων

40 44 Μετατροπή προτύπων σε αρχείο κειμένου Τα πρότυπα κατά την εισαγωγή τους στο νευρωνικό δίκτυο θα πρέπει να είναι σε μορφή μονοδιάστατου πίνακα όπου αποτελείται από πραγματικούς αριθμούς στο διάστημα [0,1] Γιαυτό χρειαζόμαστε μια διαδικασία για την μετατροπή των εικονοστοιχείων σε τιμές φωτεινότητας και την κανονικοποίηση τους από το διάστημα [0,255] στο διάστημα [0,1] Παρακάτω βλέπουμε το πρόγραμμα για την μετατροπή των προτύπων και την κανονικοποίηση τους Κατά την διάρκεια δημιουργίας του αρχείου Patterntxt επιλέγουμε και την έξοδο που θέλουμε να έχει το νευρωνικό δίκτυο για κάθε φάκελο προτύπων Εικόνα 44 Στιγμιότυπο από τη μετατροπή προτύπων σε αρχείο προτύπων

41 45 Εκπαίδευση νευρωνικού δικτύου Εφόσον έχουμε συλλέξει τα πρότυπα και τα έχουμε επεξεργαστεί κατάλληλα είναι ώρα να εκπαιδεύσουμε το νευρωνικό δίκτυο Στο πρόγραμμα αυτό μας δίνεται η δυνατότητα να επιλέξουμε μια πληθώρα μεταβλητών, όπως τις τιμές νευρώνων εισόδου, εξόδου και κρυφών επιπέδων του νευρωνικού Μπορούμε επίσης να επιλέξουμε το ρυθμό μάθησης, το momentum, αλλά και την ακρίβεια που επιθυμούμε να εκπαιδευτεί το νευρωνικό δίκτυο Τέλος επιλέγουμε το αρχείο προτύπων και το φάκελο που θα αποθηκευτεί το νευρωνικό δίκτυο Εικόνα 45 Στιγμιότυπο από τη εκπαίδευση του νευρωνικού δικτύου

42 46 Ανίχνευση προτύπων Μέτα την εκπαίδευση του νευρωνικού δικτύου μπορούμε να εισάγουμε αυτό το νευρωνικό στην εφαρμογή ανίχνευσης προτύπων και να κάνουμε ανίχνευση των προτύπων που εκπαιδεύσαμε Εικόνα 46 Στιγμιότυπο από την ανίχνευση προσώπων Εικόνα 47 Στιγμιότυπο από το μενού επιλογών

43 Κεφάλαιο 5 Αποτελέσματα Σε αυτό το κεφάλαιο θα παρουσιάσουμε μερικά από τα αποτελέσματα της εφαρμογής Κάθε φωτογραφία έχει στο πάνω μέρος τρία νούμερα της μορφής xx/xx/xx Το πρώτο νούμερο είναι το πόσα πρόσωπα βρίσκονται στην εικόνα Το δεύτερο νούμερο είναι πόσα πρόσωπα εντοπίστηκαν και το τρίτο πόσα false alarm είχαμε, δηλαδή πόσα πρότυπα ανιχνεύθηκαν λανθασμένα ως πρόσωπα από το νευρωνικό Για τα αποτελέσματα ελέγχθηκαν 50 φωτογραφίες από τη βάση δεδομένων του ΜΙΤ Από τα 258 πρόσωπα που υπήρχαν μέσα στης φωτογραφίες ανιχνεύθηκαν τα 189, ποσοστό 73,25% Τα συνολικά false alarm ήταν 10

44

45

46

47 Κεφάλαιο 6 Συμπεράσματα 51 Στόχοι Όπως αναφέραμε και στο πρώτο κεφαλαίο οι στόχοι της εργασίας ήταν η μελέτη διάφορων τεχνικών εντοπισμού προσώπων και η δημιουργία ενός λογισμικού εντοπισμού προσώπων Αυτοί οι στόχοι εκπληρώθηκαν με επιτυχία Επιπλέον το λογισμικό έχει τη δυνατότητα εντοπισμού διαφόρων προτύπων εφόσον δίνει τη δυνατότητα στο χρήστη να εκπαιδεύσει τα δικά του πρότυπα Έτσι το λογισμικό αποκτά και εκπαιδευτικό χαρακτήρα στον τομέα εντοπισμού προτύπων 52 Μελλοντικές επεκτάσεις Για τη δημιουργία της συγκεκριμένης εργασίας συνεργάστηκαν διάφορες επιστή- μες, τεχνολογίες και αλγόριθμοι Επομένως θα μπορούσαν να γίνουν διάφορες επεκτάσεις σε διάφορα σημεία με σκοπό την βελτίωση της ταχύτητας και της ακεραιότητας των αποτελεσμάτων Μερικές από τις επεκτάσεις που θα μπορούσαν να υλοποιηθούν είναι: Εκπαίδευση του νευρωνικού δικτύου με περισσότερα πρότυπα για τη βελτίωση του ποσοστού σωστής ανίχνευσης Αλλαγή του αλγορίθμου εκπαίδευσης με σκοπό την ταχύτερη εκπαίδευση Αναγνώριση προσώπων που έχουν περιστροφή μεγαλύτερη των 45 μοιρών 53 Δυσκολίες κατά την ανάπτυξη Μια από τις κυριότερες δυσκολίες ήταν η συλλογή των αρνητικών προτύπων για την εκπαίδευση του νευρωνικού Πρέπει να είμαστε προσεκτικοί στη συλλογή των προτύπων διότι έχει άμεση επιρροή στην απόδοση του νευρωνικού δικτύου Τα αρνητικά

48 πρότυπα πρέπει να είναι από διάφορα είδη φωτογραφιών Μια ακόμα δυσκολία ήταν η επανεκπαίδευση του νευρωνικού δικτύου καθώς απαιτεί πολύ χρόνο Το νευρωνικό δίκτυο επαν-εκπαιδεύεται έως ότου έχουμε επιθυμητά αποτελέσματα ακρίβειας εντοπισμού

49 Βιβλιογραφία [1] Παπαμάρκος Ν Ψηφιακή Επεξεργασία & Ανάλυση Εικόνας, Εκδόσεις Παπαμάρ κος Νικόλαος, Ξάνθη, 2010 [2] Wikipedia (2008) Eigenface URL: http://enwikipediaorg/wiki/eigenface (επίσκε ψη 2011) [3] Διαμαντάρας Κ Τεχνητά Νευρωνικά Δίκτυα, Εκδόσεις Κλειδάριθμος, Αθήνα, 2007 [4] Journal (2007) Skin Detection in Luminance Images using Threshold Technique URL: http://wwwjournalauedu/ijcim/2007/jan07/ijcimvol15no1_article3pdf (επίσκεψη 2011) [5] Face Recognition (2005) Face Recognition Databases URL http://wwwfacerecorg/databases/ (επίσκεψη 2011) [6] Sciencedirect (2001) Face Detection: A Survey URL: http://wwwsciencedirectcom/science/article/pii/s107731420190921x (επίσκεψη 2011) [7] Rogers, J Object-Oriented Neural Networks in C++, Εκδόσεις Academic Press, San Diego, 1997

50 Η εργασία αυτή στοιχειοθετήθηκε με το πρόγραμμα OpenOffice Οι γραμματοσειρές που χρησιμοποιήθηκαν είναι οι Times New Roman και Courier New