ARISTOTLE UNIVERSITY OF THESSALONIKI. Abstract

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Αναγνώριση πόζας άνω μέρους ανθρώπινου σώματος με συνδυασμό πληροφοριών κίνησης και ανίχνευσης ανθρωπίνων μελών Γεώργιος Ζουμπουρλής Επιβλέπων καθηγητής: Αναστάσιος Ντελόπουλος Διπλωματική εργασία που υποβλήθηκε στα πλαίσια της ολοκλήρωσης του διπλώματος Ηλεκτρολόγου Μηχανικού και Μηχανικού Υπολογιστών Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών 27 Νοεμβρίου 2015

- ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Περίληψη Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Δίπλωμα Ηλεκτρολόγου Μηχανικού και Μηχανικού Υπολογιστών Γεώργιος Ζουμπουρλής Αναγνώριση πόζας άνω μέρους ανθρώπινου σώματος με συνδυασμό πληροφοριών κίνησης και ανίχνευσης ανθρωπίνων μελών Η αναγνώριση και παρακολούθηση της ανθρώπινης πόζας μπορεί να είναι αρκετά επιτυχής σε μέλη όπως το πρόσωπο και το κυρίως σώμα, ωστόσο συχνά αποτυγχάνει στον εντοπισμό των άκρων, ιδιαίτερα σε συνθήκες γρήγορης κίνησής τους ή σπάνιας πόζας. Στην παρούσα εργασία προτείνεται μια μέθοδος που συνδυάζει τη δυνατότητα ανίχνευσης βασικών ανθρωπίνων μελών και την ομαδοποίηση κίνησης στα πιο παραμορφώσιμα μέλη, ώστε να διαχωριστούν τα τελευταία από το υπόλοιπο σώμα και το φόντο. Με αυτό τον τρόπο συγχωνεύονται περιοχές των αρχικών κατατμήσεων των εικόνων και επιλύονται αμφιβολίες ανάμεσα σε τοπικά χαρακτηριστικά, όπως η οπτική ροή και τα όρια των κατατμήσεων. Μεταβαίνοντας από τις κατατμήσεις των εικόνων σε στοιχεία πόζας, προκύπτουν η τελική πόζα και οι αρθρωτές κινηματικές αλυσίδες των χεριών, που ο περιβάλλων θόρυβος και η λανθασμένη ευθυγράμμιση πόζας καθιστούσε δύσκολο τον εντοπισμό τους με βάση προηγούμενες μεθόδους. -

ARISTOTLE UNIVERSITY OF THESSALONIKI Abstract Faculty of Engineering Department of Electrical and Computer Engineering Information Processing Laboratory Diploma of Electrical and Computer Engineering George Zoumpourlis Upper-body pose recognition combining motion information and body parts detection Human pose recognition and tracking can be succesful in localising faces and torsos of people, but often fails with lower arms, especially in conditions of large displacements or rare poses. In the present work, we present a method that combines information of body parts recognition and motion grouping of deformable human parts, to segment them from the rest of the body and their backgrounds. Image regions are iteratively merged and ambiguations about local cues like optical flow and segmentation boundaries are solved. The final upper-body pose and articulated kinematic chains, that otherwise would have been missed by pose detectors due to surrounding clutter or misalignment of pose, are estimated confidently by obtaining pose cues from image segmentation. -

Ευχαριστίες Θα ήθελα να ευχαριστήσω από καρδιάς τον κ. Αναστάσιο Ντελόπουλο για το πολύ ενδιαφέρον θέμα της παρούσας διπλωματικής εργασίας που μου εμπιστεύθηκε και για τη βοήθειά του καθ όλη τη διάρκεια της εκπόνησής της. Επίσης, θα ήθελα να ευχαριστήσω τους γονείς μου, Βασίλη και Δώρα, για την υπομονή και τη στήριξή τους όλα αυτά τα χρόνια. Τέλος, θα ήθελα να ευχαριστήσω όλους τους φίλους και όλες τις φίλες για τις υπέροχες στιγμές που μου χάρισαν. Νιώθω πολύ τυχερός που, εκτός από τις γνώσεις που αποκόμισα, αυτές οι σπουδές αποτέλεσαν την αφορμή για να βρεθώ δίπλα σε τόσο αξιόλογους ανθρώπους. iii

Περιεχόμενα Περίληψη i Abstract ii Ευχαριστίες iii Σελίδα Κατάλογος σχημάτων vi 1 Εισαγωγή 1 1.1 Παλιότερες προσεγγίσεις............................ 2 1.1.1 Pictorial structures for object recognition.............. 2 1.1.2 Learning to parse images of articulated bodies........... 2 1.1.3 2D Human Pose Estimation in TV shows.............. 4 1.2 Παρόμοιες προσεγγίσεις............................. 5 1.2.1 Body Part Detectors Trained Using 3D Human Pose Annotations 5 1.2.2 Using k-poselets for detecting people and localizing their keypoints 6 1.2.3 Strike a Pose: Tracking People by Finding Stylized Poses..... 6 1.2.4 Parsing Human Motion with Stretchable Models.......... 6 1.3 Προτεινόμενη μέθοδος............................. 7 1.4 Δομή εργασίας................................. 8 2 Θεωρητικό μέρος 9 2.1 Κατάτμηση εικόνας............................... 9 2.1.1 Η κατάτμηση εικόνας γενικά...................... 9 2.1.2 Κατάτμηση εικόνας με hierarchical contours............. 9 2.2 Ο αλγόριθμος SIFT.............................. 9 2.3 Οπτική ροή................................... 15 2.3.1 Η οπτική ροή γενικά.......................... 15 2.3.2 Η οπτική ροή Horn-Schunck...................... 16 2.3.3 Οπτική ροή υψηλής ακριβείας...................... 18 2.3.4 LDOF: Οπτική ροή για μεγάλες μετατοπίσεις............. 19 2.4 Τροχιές σημείων................................. 22 2.4.1 Οι τροχιές σημείων γενικά....................... 22 2.4.2 Πυκνές τροχιές σημείων........................ 22 2.4.3 Ομοιότητες μεταξύ τροχιών....................... 24 iv

v 2.5 Affine μοντέλα κίνησης............................. 26 2.6 Συσταδοποίηση γράφου με χρήση κανονικοποιημένων τομών......... 27 2.7 Ανιχνευτής k-poselet.............................. 30 2.8 Ανιχνευτής προσώπου.............................. 30 3 Προτεινόμενη μεθοδολογία 32 3.1 Ομοιότητες με βάση την κίνηση........................ 32 3.1.1 Συμβατότητα affine μοντέλων περιοχών................ 32 3.1.2 Μέση ομοιότητα τροχιών περιοχών................... 33 3.1.3 Ομοιότητα κίνησης περιοχών...................... 33 3.2 Απωθήσεις με βάση την ανίχνευση μελών................... 33 3.3 Κατευθυνόμενες τομές............................. 37 3.4 Εκτίμηση πόζας................................. 40 3.4.1 Ταίριασμα έλλειψης σε περιοχές.................... 40 3.4.2 Προεπιλογή πιθανών περιοχών..................... 43 3.4.3 Επιλογή τελικών περιοχών....................... 45 3.4.4 Τελική εκτίμηση πόζας......................... 47 4 Πειράματα 50 4.1 Dataset..................................... 50 4.2 Διεξαγωγή πειραμάτων............................. 50 4.3 Συμπεράσματα.................................. 51 4.4 Μελλοντική βελτίωση.............................. 59 Βιβλιογραφία 60

Κατάλογος Σχημάτων 1.1 Παράδειγμα μοντέλου pictorial structure................... 3 1.2 Παράδειγμα αρχικής κατασκευήςedge-based deformable model....... 3 1.3 Παράδειγμα εφαρμογής της τεχνικής του Ferrari............... 5 1.4 Αναπαράσταση της τεχνικής των stretchable models............. 7 2.1 Κατάτμηση εικόνας και ιεραρχικά περιγράμματα................ 10 2.2 Γκαουσιανό φιλτράρισμα εικόνας........................ 11 2.3 Αναπαράσταση Difference of Gaussians.................... 12 2.4 Αναζήτηση ακροτάτων στην Difference of Gaussians............ 12 2.5 Πλάτος και προσανατολισμός κλίσης εικόνας................. 13 2.6 Καταχώρηση προσανατολισμών σε SIFT keypoint.............. 14 2.7 Υπολογισμός SIFT descriptor......................... 14 2.8 Αντιστοίχιση σημείων με SIFT descriptor................... 15 2.9 Σύγκριση κλασσικής μεθόδου οπτικής ροής και LDOF σε μεγάλη μετατόπιση 20 2.10 Εξέλιξη υπολογισμού οπτικής ροής με coarse-to-fine warping........ 22 2.11 Σταθμισμένος γράφος.............................. 27 2.12 Βαθμός κόμβου και όγκος κόμβων γράφου.................. 28 2.13 Παράδειγμα πιθανών τομών σε ένα γράφο................... 29 2.14 Τομή γράφου.................................. 29 2.15 Παράδειγμα εφαρμογής k-poselet....................... 30 2.16 Παράδειγμα ανίχνευσης προσώπου....................... 31 3.1 Αρχική κατάτμηση ενός καρέ.......................... 34 3.2 Μάσκες για διαχωρισμό φιγούρας-υποβάθρου................. 35 3.3 Τροχιές και ομοιότητες τροχιών........................ 36 3.4 Το πρώτο καρέ ενός βίντεο........................... 39 3.5 Στάδια συγχώνευσης περιοχών του πρώτου καρέ............... 39 3.6 Ταίριασμα έλλειψης σε ένα region....................... 40 3.7 Οπτική ροή σε ένα καρέ............................. 41 3.8 Ασυνέχεια οπτικής ροής............................ 42 3.9 Εντοπισμός endpoint μιας περιοχής και εμφάνιση μιας εν δυνάμει κινηματικής αλυσίδας...................................... 42 3.10 Χρωματικό φίλτρο για ανίχνευση δέρματος.................. 44 3.11 Συνδυασμός οπτικής ροής και χρωματικού φίλτρου ανίχνευσης δέρματος.. 44 3.12 Υποψήφια regions αρθρωτής κινηματικής αλυσίδας.............. 45 3.13 Ανάλυση Προκρούστη.............................. 46 3.14 Υποψήφιες περιοχές lower arm μετά από προεπιλογή............. 47 3.15 Μεγάλοι άξονες τελικών ελλείψεων που αντιστοιχούν σε lower arm..... 48 vi

vii 3.16 Αρθρωτές κινηματικές αλυσίδες τελικής πόζας................. 48 3.17 Διάδοση πόζας σε συνθήκες γρήγορης κίνησης................ 49 4.1 Διάγραμμα επαναληπτικής συγχώνευσης περιοχών.............. 51 4.2 Οπτικοποίηση affinity matrix και μεταβολή παραμέτρου μοντέλων κίνησης. 52 4.3 Πίνακας κάλυψης τροχιών............................ 53 4.4 Οπτικοποίηση affinity matrix και μεταβολή της παραμέτρου σ eucl...... 54 4.5 Οπτικοποίηση affinity matrix και μεταβολή της παραμέτρου cut-off distance 55 4.6 Πυκνότητα κάλυψης τροχιών σε ένα καρέ................... 56 4.7 Παράδειγμα εσφαλμένης επιλογής ζεύγους περιοχών προς συγχώνευση... 57 4.8 Παράδειγμα εσφαλμένης κατάτμησης εικόνας................. 58

- viii

Κεφάλαιο 1 Εισαγωγή Ως εκτίμηση αρθρωτής ανθρώπινης πόζας (articulated human pose estimation), ορίζουμε τη μελέτη αλγορίθμων και συστημάτων που ανιχνεύουν την πόζα ενός σώματος, αποτελούμενη από μια διαδοχή μελών (parts) τα οποία συνδέονται με αρθρώσεις (joints). Η εκτίμηση της ανθρώπινης πόζας είναι ένα από τα μεγαλύτερα προβλήματα τα οποία μελετά η επιστήμη της όρασης υπολογιστών (computer vision), λόγω της αφθονίας των εφαρμογών που μπορούν να επωφεληθούν από αυτή, όπως οι εφαρμογές επιτήρησης (π.χ. η αναγνώριση δραστηριότητας και η ανάλυση συμπεριφοράς), οι εφαρμογές ελέγχου (π.χ. αλληλεπίδραση ανθρώπου-μηχανής, έλεγχος ρομπότ) και οι εφαρμογές ανάλυσης (π.χ. ανάλυση επίδοσης αθλητών, ορθοπεδική διάγνωση ασθενή, ανάλυση χειρονομίας). Ο προσδιορισμός της 2D ανθρώπινης πόζας από αλληλουχίες εικόνων που έχουν ληφθεί από μονοσκοπική κάμερα, είναι μια ιδιαίτερα περίπλοκη διαδικασία, λόγω της μεγάλης ποικιλίας ανθρώπινης εμφάνισης και της ανακριβούς πληροφορίας κίνησης. Η ανθρώπινη εμφάνιση επηρεάζεται από παράγοντες όπως ο ρουχισμός, οι συνθήκες λήψης εικόνας (π.χ. φωτισμός), η απώλεια πληροφορίας κατά τη μετάβαση από τις 3 διαστάσεις στην δισδιάστατη επίπεδη προβολή εικόνας. Ενας ακόμη παράγοντας είναι η περιπλοκότητα της ανθρώπινης σκελετικής δομής και το υπερβολικά μεγάλο εύρος πόζας που χαρακτηρίζει τη φύση του ανθρώπου. Οι πληροφορίες που προέρχονται από εκτίμηση κίνησης, όπως η οπτική ροή (optical flow), είναι ανακριβείς όταν συμβαίνουν γρήγορες κινήσεις και μεγάλες μετατοπίσεις. Τα μέλη της πόζας μπορούν να είναι άκαμπτα (rigid) όπως το κυρίως σώμα ή παραμορφώσιμα (deformable) όπως τα χέρια. Στην παρούσα εργασία, τα σημεία (keypoints) που απαιτούνται για την εκτίμηση πόζας αναφέρονται στο άνω μέρος του σώματος (upper-body), δηλαδή το κυρίως σώμα (torso), το πρόσωπο (face), τους ώμους (shoulders), τον αγκώνα (elbow) και τον καρπό (wrist). Το τμήμα από τον ώμο ως τον αγκώνα αποτελεί το ανώτερο μέρος του χεριού (upper arm), ενώ το τμήμα απο τον αγκώνα ως τον καρπό αποτελεί το κατώτερο μέρος του χεριού (lower arm). 1

2 Πολλά επιστημονικά πεδία μπορούν να συνεισφέρουν στην επίλυση των παραπάνω ζητημάτων τα οποία σχετίζονται με την εκτίμηση της ανθρώπινης πόζας. Χαρακτηριστικά αναφέρουμε: Νευροεπιστήμες: Η αλληλεπίδραση του ανθρώπου με το περιβάλλον απαιτεί τη δυνατότητα υπολογισμού χωρικών ιδιοτήτων. Παρόλο που αυτό δε μπορεί να επιτευχθεί χωρίς τη χρήση δισκοπικής όρασης (binocular vision) και των στοιχείων της, άλλα στοιχεία όπως η κίνηση και η υφή (texture) είναι αρκετά χρήσιμα. Ο συνδυασμός και η ολοκλήρωση στοιχείων είναι μια από τις βασικές αρχές του ανθρώπινου αισθητήριου συστήματος. Στο βαθμό που αυξάνονται τα στοιχεία που συλλέγονται ταυτόχρονα, αποκτά σημασία και μια άλλη αρχή, αυτή της συσχέτισης των στοιχείων. Φυσική: Ενα από τα θέματα τα οποία εξετάζει η φυσική είναι το φως. Η έρευνα και η περιγραφή των οπτικών φαινομένων μπορεί να βοηθήσει την όραση υπολογιστών, συνεισφέροντας στην ανάπτυξη αισθητήρων. Μαθηματικά: Σε τεχνικές εκτίμησης πόζας, στατιστικές προσεγγίσεις μπορούν να χρησιμοποιηθούν για την ταξινόμηση δεδομένων, ενώ άλλες μέθοδοι χρησιμοποιούνται για την αποτελεσματική επίλυση προβλημάτων βελτιστοποίησης. Επιστήμη Υπολογιστών: Αυτό το πεδίο χρησιμοποιεί μεθόδους και τεχνολογίες από τα παραπάνω, για να εφαρμόσει προσεγγίσεις επίλυσης του προβλήματος της εκτίμησης πόζας σε υπολογιστικές πλατφόρμες. Τα ζητούμενα είναι γρήγοροι υπολογιστικοί χρόνοι, βελτιωμένη ποιότητα δεδομένων που προέρχονται από αισθητήρες και η δυνατότητα διαχείρισης και χρήσης μεγάλου όγκου δεδομένων. 1.1 Παλιότερες προσεγγίσεις 1.1.1 Pictorial structures for object recognition Στη δουλειά του Felzenszwalb [1], γίνεται μοντελοποίηση και αναγνώριση αντικειμένων με βάση τα μέλη τους (part-based modeling and recognition). Στη θεωρία των pictorial structure models, ένα αντικείμενο αναπαρίσταται ως μια συλλογή μελών τα οποία έχουν μια παραμορφώσιμη διάταξη. Η εμφάνιση του κάθε μέλους μοντελοποιείται ξεχωριστά και η παραμορφώσιμη διάταξη αναπαρίσταται από συνδέσεις ανάμεσα σε ζεύγη μελών. 1.1.2 Learning to parse images of articulated bodies Η μέθοδος του Ramanan [2] επιτυγχάνει την αναγνώριση πόζας αξιοποιώντας ένα χαρακτηριστικό το οποίο είναι αμετάβλητο ως προς την εμφάνιση του ανθρώπου. Ενα παραμορφώσιμο μοντέλο με βάση τις ακμές (edge-based deformable model) αντιστοιχίζεται στην

3 Σχήμα 1.1: Η αρχική εικόνα και το αποτέλεσμα της μεθόδου των pictorial structure models [1]. εικόνα, ώστε να υπολογιστούν, σε πρώτη φάση, οι θέσεις των ανθρωπίνων μελών, οι οποίες πιθανώς θα περιέχουν σφάλματα που θα οφείλονται κυρίως σε ακμές που προέρχονται από το υπόβαθρο (background). Αυτές οι θέσεις χρησιμοποιούνται για την κατασκευή ε- νός μοντέλου περιοχών (region model) για κάθε ανθρώπινο μέλος και για το υπόβαθρο. Τότε, ο αλγόριθμος φτιάχνει, για ολόκληρο το σώμα, ένα παραμορφώσιμο μοντέλο με βάση τις περιοχές (region-based deformable model). Οι θέσεις των ανθρωπίνων μελών υπολογίζονται εκ νέου από αυτό το μοντέλο και έπειτα χρησιμοποιούνται για την κατασκευή ενός νέου region model. Η διαδικασία αυτή εκτελείται επαναληπτικά. Ως μέθοδος, είναι αρκετά ευαίσθητη ως προς την αρχικοποίησή της, δηλαδή το edge-based deformable model και το region-based deformable model της πρώτης επανάληψης. Σχήμα 1.2: Η αρχική εικόνα και η κατασκευή ενός edge-based deformable model, στην πρώτη επανάληψη, με τη μέθοδο [2].

4 1.1.3 2D Human Pose Estimation in TV shows Στην τεχνική που προτείνουν οι Ferrari et. al [3] αρχικά δεν υπάρχει καμία πληροφορία σχετικά με την πόζα, οπότε η αναζήτηση σε ολόκληρη την εικόνα είναι μια χρονοβόρα διαδικασία, με αμφίβολο αποτέλεσμα. Γιάυτό το λόγο στο πρώτο στάδιο χρησιμοποιείται ένας γενικός ανιχνευτής του άνω μέρους του σώματος, που προσδιορίζει προσεγγιστικά την τοποθεσία και την κλίμακα του ανθρώπου, άρα και το που περίπου βρίσκονται το κυρίως σώμα και το πρόσωπο, δίνοντας τα περιβάλλοντα κουτιά τους (bounding box). Ωστόσο δε γνωρίζουμε τίποτα για τα χέρια, άρα ελάχιστα είναι γνωστά για την πόζα. Ο σκοπός είναι να μειωθεί διαδοχικά ο χώρος αναζήτησης των υπολοίπων μελών. Επειτα, εξετάζεται η συνοχή των bounding boxes στα διαδοχικά καρέ, δημιουργώντας έτσι ίχνη (tracks) τα οποία συνδέουν την ανίχνευση του ίδιου ατόμου. Στο δεύτερο στάδιο, γίνεται χρήση της πληροφορίας που ήδη υπάρχει σχετικά με το προσκήνιο (foreground), ώστε να αρχικοποιηθεί η μέθοδος GrabCut [4] για επισήμανση προσκηνίου (foreground highlighting), μαθαίνοντας χρωματικά μοντέλα προσκηνίου/παρασκηνίου, από περιοχές στις οποίες το άτομο είναι παρόν/απόν. Ετσι, προκύπτει μια κατάτμηση (segmentation) η οποία αφαιρεί μέρος του περιβάλλοντος θορύβου (background clutter). Στο τρίτο στάδιο, γίνεται ανάλυση εικόνας (image parsing) ξεχωριστά για κάθε καρέ με τη μέθοδο του Ramanan[2]. Ενα επιπρόσθετο χαρακτηριστικό, είναι ότι στον γράφο που αναπαριστά τα ανθρώπινα μέλη προστίθενται ακμές (edges) που δηλώνουν απώθηση ανάμεσα σε μέλη στα οποία εμφανίζεται το πρόβλημα double-counting, δηλαδή η ανίχνευση δύο χεριών/ποδιών στο ίδιο σημείο. Στο στάδιο αυτό παίρνουμε έναν πρώτο υπολογισμό της πόζας. Στο τέταρτο και τελευταίο στάδιο, διεξάγεται χωροχρονική ανάλυση εικόνας. Η εμφάνιση ενός ατόμου δεν αλλάζει πολύ κατά τη διάρκεια μιας λήψης βίντεο, ενώ η θέση των μελών του σώματος αλλάζει ομαλά. Γίνεται εκμετάλλευση αυτών των δύο ειδών χρονικής συνέχειας, για ένα δεύτερο υπολογισμό πόζας. Χρησιμοποιούνται μοντέλα εμφάνισης τα οποία φέρουν πληροφορίες από πολλαπλά καρέ στα οποία το σύστημα έχει υπολογίσει με βεβαιότητα την πόζα. Επίσης, παράγεται ένα χωροχρονικό μοντέλο πόζας, το οποίο καταγράφει διαφόρων ειδών περιορισμούς (π.χ. κινηματικούς περιορισμούς, περιορισμούς απώθησης). Τα μοντέλα εμφάνισης βελτιώνουν τα αποτελέσματα σε καρέ όπου το image parsing του τρίτου σταδίου απέτυχε. Το χωροχρονικό μοντέλο πόζας ελαττώνει το εύρος των εκ των υστέρων κατανομών (posterior distribution) της θέσης των μελών, ενώ συμβάλλει στην λύση αμφιβολιών που επιλύονται δύσκολα εάν εξεταστεί μεμονωμένα το κάθε καρέ.

5 Σχήμα 1.3: Παράδειγμα εφαρμογής της τεχνικής του Ferrari[3]. 1.2 Παρόμοιες προσεγγίσεις 1.2.1 Body Part Detectors Trained Using 3D Human Pose Annotations Η τεχνική των poselet [5] είναι ένας part-based detector. Το poselet είναι μια νέα έννοια σχετική με τα ανθρώπινα μέλη. Είναι μια γέφυρα ανάμεσα στην εμφάνιση και στη χωρική διάταξη. Το training του συστήματος γίνεται με dataset που βασίζεται σε annotations τόσο keypoints (π.χ. μάτι, αγκώνας, ώμος) όσο και pixel-level labels (π.χ. μαλλιά, άνω

6 ρούχο, αριστερό χέρι). Ο detector προκύπτει από μια διαδικασία τριών σταδίων. Στο πρώτο στάδιο επιλέγονται οι κοντινότεροι υποψήφιοι (poselet candidates) για κάθε κομμάτι εικόνας (image patch), με βάση την απόσταση των keypoints. Στο δεύτερο στάδιο, προπονείται ένας ταξινομητής SVM με βάση HOG features. Στο τρίτο στάδιο, γίνεται συνδυασμός των poselets για ανίχνευση και εντοπισμό, δηλαδή για υπολογισμό της διάταξης των αρθρώσεων (joint configuration). 1.2.2 Using k-poselets for detecting people and localizing their keypoints Ενα k-poselet [6] είναι ένα deformable part model με k μέλη, όπου κάθε ένα από τα μέλη είναι ένα poselet, ευθυγραμμισμένο σε μια συγκεκριμένη διάταξη keypoints. Είναι μια προσέγγιση που ενοποιεί την ανίχνευση ατόμου και τον εντοπισμό των keypoints. Ουσιαστικά, μαθαίνονται χωρικές σχέσεις μεταξύ των μελών, όπως στη μέθοδο του Felzenszwalb [1]. Η μέθοδος αυτή χρησιμοποιείται στην παρούσα εργασία, ως κομμάτι του ενός από τα δύο συστατικά της μέρη, δίνοντας τις συντεταγμένες των keypoints που αντιστοιχούν στους ώμους ενός ατόμου. 1.2.3 Strike a Pose: Tracking People by Finding Stylized Poses Αυτή η μέθοδος από τους Ramanan et. al [7] ανιχνεύει και ακολουθεί κινηματικά πολλαπλά άτομα σε μεγάλες ακολουθίες εικόνων. Βασίζεται στην υπόθεση ότι οι άνθρωποι τείνουν να παίρνουν κάποιες κανονικές πόζες ακόμη κι όταν κάνουν ασυνήθιστες δραστηριότητες (π.χ. baseball) και είναι ένα πλήρως αυτόματο σύστημα που λειτουργεί σε 3 στάδια. Στο πρώτο στάδιο, ανιχνεύει ανθρώπους σε πόζες περπατήματος. Στο δεύτερο στάδιο, κατασκευάζεται ένα μοντέλο εμφάνισης για κάθε άκρο (limb) του ανθρώπινου σώματος στα καρέ οπου γίναν οι ανιχνεύσεις, με την υπόθεση ότι τα χαρακτηριστικά που διακρίνουν ένα άτομο σε ένα καρέ, θα το διακρίνουν και σε άλλα καρέ. Στο τελευταίο στάδιο, το σύστημα χρησιμοποιεί αυτά τα μοντέλα σε ένα pictorial structure framework, ανιχνεύοντας άκρα σε οποιαδήποτε πόζα πλέον, στα υπόλοιπα καρέ όπου αρχικά αυτό δεν έγινε. Στην παρούσα εργασία, με μια παρόμοια λογική σε καρέ με παραμορφωμένες πόζες, εκμεταλλευόμαστε πληροφορίες που παίρνουμε από την κατάτμηση εικόνας και διαδίζουμε την πόζα σε βάθος χρόνου. 1.2.4 Parsing Human Motion with Stretchable Models Στη μέθοδο των Sapp et. al [8] χρησιμοποιούνται μοντέλα με στοιχεία εμφάνισης, σχήματος, περιγράμματος και κίνησης. Αποδίδει καλύτερα σε σχέση με άλλες μεθόδους που προσπαθούν να κάνουν κοινή ανάλυση σε βάθος χρόνου για πολλαπλά αρθρωτά μέλη. Κατασκευάζει

7 ένα σύνολο υπομοντέλων τα οποία συνδέουν τις τοποθεσίες των σωματικών αρθρώσεων, τόσο εντός κάθε μεμονωμένου καρέ, όσο και σε πολλά διαδοχικά καρέ. Κάθε υπομοντέλο είναι υπεύθυνο για την παρακολούθηση μιας συγκεκριμένης άρθρωσης σε βάθος χρόνου. Είναι μια μέθοδος κοντινή στη δική μας προσέγγιση, γιατί έχει ισχυρή βάση σε χρονικά χαρακτηριστικά (temporal features). Σχήμα 1.4: Αναπαράσταση της τεχνικής των stretchable models [8]. 1.3 Προτεινόμενη μέθοδος Στην εργασία αυτή, γίνεται μια υλοποίηση της μεθόδου των Fragkiadaki et. al [9] για εκτίμηση πόζας, στα πλαίσια ενός ευρύτερου τρόπου που αναπτύσσουν για τη βελτίωση του υπολογισμού οπτικής ροής σε αλληλουχίες εικόνων ανθρώπινης κίνησης. Ωστόσο, η υλοποίηση αυτή δε γίνεται με απόλυτη αναπαραγωγή της αναφερόμενης μεθόδου. Αυτό δεν ήταν δυνατό, αφού απαιτούνταν η πρόσβαση σε ένα σετ δεδομένων με υποδείγματα πόζας, κάτι που δεν είναι διαθέσιμο. Οι πρακτικές που χρησιμοποιούνται από γενικούς αλγόριθμους ανίχνευσης αντικειμένων, όπως το hard negative mining και οι αναπαραστάσεις mixture of parts [10], έχουν συνεισφέρει στην πρόοδο που σημειώθηκε στην εκτίμηση πόζας από στατικές εικόνες. Μεγάλος αριθμός υποδειγμάτων χρησιμοποιείται για να γίνει επιτυχημένα η ευθυγράμμιση των αρθρωτών προτύπων ιστογραμμάτων προσανατολισμένων παραγώγων (Histogram of Oriented Gradients, HOG) [11] με τις κλίσεις της εικόνας. Ωστόσο, τα ανθρώπινα μέλη που βρίσκονται προς το τέλος της αρθρωτής αλυσίδας, όπως οι πήχεις των χεριών, δεν είναι α- κόμη εύκολα ανιχνεύσιμα. Οι μεγάλες ουρές της κατανομής των οπτικών δεδομένων τέτοιου είδους, καθιστούν δύσκολη την συγκέντρωση υποδειγμάτων για πόζες που περιέχουν πολύ παραμορφωμένα ανθρώπινα μέλη. Η μέθοδος του [9] εκτελεί την εκτίμηση πόζας, με μια λογική αντίστροφη από τη συνηθισμένη. Επιλέγεται η επεξεργασία κατατμήσεων εικόνας σε υποδείγματα πόζας, αντί για την ευθυγράμμιση ήδη υπαρχόντων προτύπων στις κλίσεις της εικόνας, αποφεύγοντας την ανάγκη για τεράστια training set. Το συγκεκριμένο κομμάτι της μεθόδου δεν ήταν δυνατό να υλοποιηθεί για το λόγο που αναφέρθηκε παραπάνω.

8 Η εκτίμηση πόζας στην μέθοδο που παρουσιάζεται, γίνεται με μια διαδικασία που συνδυάζει πληροφορίες οπτικής ροής, ομαδοποίησης κίνησης, κατάτμησης εικόνας και ανίχνευσης ανθρωπίνων μελών. Ο αλγόριθμός μας, βρίσκει μέσω κατάτμησης τα κινούμενα ανθρώπινα μέλη, συνδυάζοντας στοιχεία ομαδοποίησης κίνησης (τροχιές και affine motion models) με τον διαχωρισμό φιγούρας-υποβάθρου στα μέλη του σώματος που ανιχνεύονται αξιόπιστα, όπως είναι οι ώμοι. Τέτοιες αξιόπιστες ανιχνεύσεις επιφέρουν απωθήσεις μεταξύ περιοχών που βρίσκονται στο εσωτερικό και το εξωτερικό τους, κάνοντας πιο ακριβείς τις ομοιότητες κίνησης περιοχών (region motion affinities), σε μέρη όπου δεν έχουμε χρήσιμες πληροφορίες προερχόμενες από κίνηση. Αποδεικνύεται ότι αυτές οι πληροφορίες είναι επαρκείς ώστε μέσω κατάτμησης τα ανθρώπινα μέλη να διαχωριστούν από το περιβάλλον τους, είτε αυτό είναι άλλα μέρη του σώματος, είτε είναι το φόντο της εικόνας. Βασιζόμενοι στα εξαχθέντα image regions, προσπαθούμε να τα συνδυάσουμε ώστε να εξαχθούν οι τελικές πόζες. Οι πόζες αυτές μπορούν να διαδοθούν στο χρόνο, απο καρέ με μεγάλη κίνηση σε καρέ στα οποία δεν υπάρχει σημαντική κίνηση. Προτείνοντας μια αναπαράσταση για το ανθρώπινο σώμα, που προσαρμόζεται αποτελεσματικά στη δυνατότητα κατάτμησης ή ανίχνευσης ανθρωπίνων μελών και υπολογισμού πληροφορίας κίνησης, ανιχνεύουμε σπάνιες για την ανθρώπινη φύση πόζες, στις οποίες συχνά αποτυγχάνουν σύγχρονες μέθοδοι. 1.4 Δομή εργασίας Στο Κεφάλαιο 2 παρουσιάζεται το θεωρητικό υπόβαθρο της εργασίας. Γίνεται αναφορά σε τεχνικές κατάτμησης εικόνας, υπολογισμού οπτικής ροής, τροχιών και affine μοντέλων κίνησης, ενώ παρουσιάζονται και οι χρησιμοποιούμενες μέθοδοι εντοπισμού ανθρωπίνων μελών (k-poselet) και προσώπου. Στο Κεφάλαιο 3 παρουσιάζεται η προτεινόμενη μεθοδολογία, αρχικά περιγράφοντας τη διαδικασία υπολογισμού των ομοιοτήτων κίνησης περιοχών και εντοπισμού των ώμων, και έπειτα αναφέροντας τον τρόπο διαδοχικής συνένωσης περιοχών μέσω ομαδοποίησης κίνησης. Το τελικό αποτέλεσμα είναι η βάση για τον υπολογισμό πόζας με βάση την τελική κατάτμηση του κάθε καρέ. Στο Κεφάλαιο 4 αναφέρονται λεπτομέρειες για το σετ δεδομένων, για το σύστημα που χρησιμοποιήθηκε και για τα πειράματα που διεξήχθησαν, ενώ γίνεται σχολιασμός των αποτελεσμάτων και προτείνονται πιθανές μελλοντικές βελτιώσεις της μεθόδου.

Κεφάλαιο 2 Θεωρητικό μέρος 2.1 Κατάτμηση εικόνας 2.1.1 Η κατάτμηση εικόνας γενικά Στην όραση υπολογιστών, κατάτμηση εικόνας (image segmentation) ονομάζεται η διαδικασία διαίρεσης μιας ψηφιακής εικόνας σε ένα σύνολο περιοχών (regions) οι οποίες την καλύπτουν. Κάθε περιοχή αποτελείται από ένα σύνολο pixels. Σε κάθε πιξελ μιας περιοχής, ανατίθεται μια συγκεκριμένη ετικέτα (label), ώστε pixels με την ίδια ετικέτα να μοιράζονται συγκεκριμένα κοινά χαρακτηριστικά. Συνήθως χρησιμοποιείται για τον εντοπισμό αντικειμένων (objects) ή συνόρων (boundaries) σε εικόνες. 2.1.2 Κατάτμηση εικόνας με hierarchical contours Οι Arbelaez et. al [12] προτείνουν μια μέθοδο που αρχικά παράγει ένα σύνολο περιοχών. Επειτα, από τα περιγράμματα (contours) αυτών των περιοχών μεταβαίνει σε ένα ιεραρχικό δέντρο περιοχών (hierarchical region tree). Στην τελική ιεραρχική κατάτμηση, σε κάθε περίγραμμα αντιστοιχεί ένα βάρος το οποίο αντιπροσωπεύει την πιθανότητα αυτό το περίγραμμα να είναι ένα αληθινό σύνορο. Για δοσμένο κατώφλι, η έξοδος είναι ένα σύνολο κλειστών περιγραμμάτων, που μπορεί να χρησιμοποιηθεί είτε ως κατάτμηση, είτε ως ανιχνευτής συνόρων. 2.2 Ο αλγόριθμος SIFT Για τον εντοπισμό και την περιγραφή τοπικών χαρακτηριστικών σε εικόνες, έχουν αναπτυχθεί αρκετοί αλγόριθμοι στο χώρο της τεχνητής όρασης. Ενας από τους πιο διαδεδομένους 9

10 (αʹ) (βʹ) (γʹ) (δʹ) (εʹ) Σχήμα 2.1: α: Αρχική εικόνα β: Σταθμισμένα περιγράμματα με τιμή κατωφλίου 0.4 γ: Η αντίστοιχη κατάτμηση του (β) δ: Σταθμισμένα περιγράμματα με μικρότερη τιμή κατωφλίου ε: Η αντίστοιχη κατάτμηση του (δ) και αυτός με τις περισσότερες εφαρμογές, είναι ο αλγόριθμος SIFT (Scale Invariant Feature Transform)[13]. Η φιλοσοφία του αλγορίθμου στηρίζεται στην εύρεση πιθανών keypoints και, με κατάλληλη χρήση κάποιων τεχνικών, στην ακριβή περιγραφή τους. Η υλοποίηση του αλγορίθμου, μπορεί να χωριστεί σε τέσσερα στάδια τα οποία είναι: 1. Ανίχνευση ακρότατων στο χώρο της κλιμάκωσης (Scale-space extrema detection) 2. Εντοπισμός σημείων κλειδιών (Keypoint localization) 3. Καθορισμός προσανατολισμού (Orientation assignment)

11 4. Περιγραφή των σημείων κλειδιών (Keypoint descriptor) Ανίχνευση ακρότατων στο χώρο της κλιμάκωσης (Scale-space extrema detection): Ο αλγόριθμος SIFT για εξαγωγή χαρακτηριστικών εικόνας, μετασχηματίζει μια εικόνα σε μια μεγάλη συλλογή διανυσμάτων χαρακτηριστικών, κάθε ένα από τα οποία είναι αμετάβλητο σε μετατόπιση, κλιμάκωση, περιστροφή εικόνας, μερικώς αμετάβλητο σε αλλαγές φωτισμού και εύρωστο σε τοπικές γεωμετρικές παραμορφώσεις. Μια γκαουσιανή πυραμίδα κατασκευάζεται από την εικόνα εισόδου, με επαναλαμβανόμενη ομαλοποίηση και υποδειγματοληψία και μια πυραμίδα διαφοράς γκαουσιανών (Difference of Gaussians/DoG pyramid) υπολογίζεται από τις διαφορές μεταξύ των γειτονικών επιπέδων της πυραμίδας. Μετά, λαμβάνονται τα σημεία ενδιαφέροντος, από σημεία όπου από τις τιμές της διαφοράς των γκαουσιανών προκύπτουν ακρότατα, τόσο με βάση τις χωρικές συντεταγμένες της εικόνας, όσο και με βάση το επίπεδο της κλίμακας στην πυραμίδα. Ετσι λοιπόν, γίνεται συνέλιξη του γκαουσιανού φίλτρου G(x, y, σ) = 1 e (x 2 +y 2 ) 2πσ 2 2σ 2 με την εικόνα I(x, y) και παράγεται η εικόνα L(x, y, σ) = G(x, y, σ) I(x, y). Λόγω του ότι πρέπει να παράγουμε ένα σύνολο εικόνων με κλίμακα διαφορετική από την αρχική, χρησιμοποιούμε έναν πολλαπλαστιαστικό παράγοντα k στο γκαουσιανό φίλτρο. Το πλήθος των εικόνων που διαφέρουν κατά την παράμετρο κ και έχουν τις ίδιες διαστάσεις καλείται οκτάβα. Επειτα, κάνουμε χρήση της συνάρτησης διαφοράς των γκαουσιανών φιλτραρισμένων εικόνων, D(x, y, σ) = (G(x, y, σ) G(x, y, σ)) I(x, y) = L(x, y, kσ) L(x, y, σ). Σχήμα 2.2: Αρχική εικόνα και εικόνες φιλτραρισμένες με γκαουσιανές

12 Σχήμα 2.3: Αναπαράσταση Difference of Gaussians Εντοπισμός σημείων κλειδιών (Keypoint localization): Σε αυτό το στάδιο, ο κύριος στόχος είναι ο εντοπισμός τοπικών ελαχίστων/μεγίστων του προαναφερθέντος συνόλου, δηλαδή της D(x, y, σ), τα οποία θα είναι και τα υποψήφια σημείακλειδιά. Η διαδικασία που ακολουθείται είναι η εξής: κάθε ένα pixel της εικόνας συγκρίνεται με τους 8 γείτονές του στην τρέχουσα εικόνα, με τους 9 γείτονες στην προηγούμενη καθώς και με τους 9 γείτονές του στην επόμενη κλίμακα. Ενα pixel χαρακτηρίζεται ως ακρότατο μόνο αν αυτό είναι μεγαλύτερο από όλα τα γειτονικά του ή μικρότερο από όλα αυτά. Η πιθανότητα μιας αντιστοίχισης να είναι σωστή, μπορεί να οριστεί παίρνοντας το λόγο της απόστασης από τον κοντινότερο γείτονα προς την απόσταση από το δεύτερο κοντινότερο. Σχήμα 2.4: Αναζήτηση ακροτάτων στην Difference of Gaussians

13 Οταν ένα υποψήφιο σημείο-κλειδί έχει βρεθεί, συγκρίνοντας ένα pixel με τα γειτονικά του, το επόμενο βήμα είναι να προσδιοριστεί ακριβώς η θέση του, η κλίμακα και ο λόγος καμπυλότητάς του. Αυτή η πληροφορία επιτρέπει σε πιθανά σημεία κλειδιά να απορριφθούν, αν έχουν χαμηλή αντίθεση ή δεν διαφέρουν σημαντικά από τα γειτονικά τους, (άρα είναι ευαίσθητα σε θόρυβο) ή αν βρίσκονται κακώς τοποθετημένα κατά μήκος μιας ακμής. Καθορισμός προσανατολισμού (Orientation assignment): Σε αυτό το στάδιο, για κάθε σημείο-κλειδί υπολογίζεται ο προσανατολισμός του, με βάση τις κατευθύνσεις των κλίσεων της εικόνας. Αυτή η διαδικασία είναι σημαντική, ώστε να επιτευχθεί αμεταβλητότητα ως προς την περιστροφή εικόνας. Για την εικόνα L(x, y, σ), υπολογίζουμε το μέγεθος της κλίσης της, m(x, y) και τον προσανατολισμό, θ(x, y), χρησιμοποιώντας τέσσερα γειτονικά pixel: m(x, y) = (L(x + 1, y) L(x 1, y)) 2 + (L(x, y + 1) L(x, y 1)) 2 (2.1) θ(x, y) = tan 1 L(x, y + 1) L(x, y 1) ( L(x + 1, y) L(x 1, y) ) (2.2) Φτιάχνεται ένα ιστόγραμμα με 36 bins, κάθε ένα από τα οποία καλύπτει 10 μοίρες. κορυφές σε αυτό το ιστόγραμμα αντιστοιχούν στους κυρίαρχους προσανατολισμούς. προσανατολισμοί που αντιστοιχούν στη μεγαλύτερη κορυφή και οι τοπικές κορυφές που βρίσκονται εντός του 80% της κορυφής αυτής, καταχωρούνται στο keypoint. Σε περίπτωση καταχώρησης πολλαπλών προσανατολισμών, για κάθε πρόσθετο προσανατολισμό δημιουργείται ένα πρόσθετο keypoint, έχοντας την ίδια τοποθεσία και κλίμακα με το αρχικό. Οι Οι Σχήμα 2.5: Πλάτος και προσανατολισμός κλίσης εικόνας Περιγραφή των σημείων κλειδιών (Keypoint descriptor):

14 Σχήμα 2.6: Καταχώρηση προσανατολισμών σε SIFT keypoint Σε αυτό το βήμα, θέλουμε να υπολογίσουμε ένα feature vector τέτοιο ώστε ο περιγραφέας να έχει υψηλή διακριτικότητα και μερική αμεταβλητότητα στις υπόλοιπες μεταβολές, όπως αυτές του φωτισμού, της οπτικής γωνίας κλπ. Αυτό το βήμα πραγματοποιείται στην εικόνα που έχει την κοντινότερη κλίμακα, σε σχέση με την κλίμακα του keypoint. Αρχικά, ένα σύνολο ιστογραμμάτων προσανατολισμού δημιουργείται σε γειτονιές 4 4 με 8 bins το καθένα. Αυτά τα ιστογράμματα έχουν υπολογιστεί από τις τιμές του πλάτους και του προσανατολισμού των δειγμάτων σε μια περιοχή 16 16 γύρω από το keypoint έτσι ώστε κάθε ιστόγραμμα περιέχει δείγματα από ένα subregion 4 4 του αρχικού region της γειτονιάς. Τα πλάτη σταθμίζονται με μια γκαουσιανή συνάρτηση, όπου το σ ισούται με μιάμιση φορά το πλάτος του παραθύρου του περιγραφέα. Τότε, ο descriptor ισούται με το διάνυσμα που περιέχει όλες αυτές τις τιμές (4 4 8 = 128 στοιχεία) των ιστογραμμάτων. Το διάνυσμα κανονικοποιείται στο μοναδιαίο μήκος για να ενισχυθεί η αμεταβλητότητα ως προς affine μεταβολές φωτισμού. Για να μειωθούν τα αποτελέσματα μη-γραμμικού φωτισμού, εφαρμόζεται ένα κατώφλι 0.2 και το διάνυσμα κανονικοποιείται ξανά. Σχήμα 2.7: Υπολογισμός SIFT descriptor. Στο σχήμα, έχουμε patch 2 2, subregions 4 4, και 8 bins για την κλίση. Το τελικό feature vector έχει 2 2 8 = 32 στοιχεία. Στο παρακάτω σχήμα, φαίνεται αντιστοίχιση σημείων με χρήση SIFT descriptor.

15 Σχήμα 2.8: Αντιστοίχιση σημείων με SIFT descriptor 2.3 Οπτική ροή 2.3.1 Η οπτική ροή γενικά Οι εικόνες είναι δισδιάστατες προβολές των σκηνών του τρισδιάστατου κόσμου. Επομένως, η κίνηση που μελετάμε είναι δισδιάστατη κίνηση, η ορθογραφική προβολή της τρισδιάστατης κίνησης. Η σχέση μεταξύ των σημείων, είναι x = X, y = Y. Το γεωμετρικό μοντέλο για μια ορθογραφική κάμερα εκφράζεται ως εξής: [ ] [ ] X x 1 0 0 = y 0 1 0 Y (2.3) Z Η ορθογραφική προβολή είναι μια καλή προσέγγιση της προοπτικής προβολής, όταν η μεταβλητότητα του βάθους μεταξύ των σημείων που φαίνονται είναι πολύ μικρότερη από την απόσταση των σημείων από το επίπεδο της εικόνας. Εστω ότι μια ακολουθία ασπρόμαυρων εικόνων εκφράζεται από τη συνεχή συνάρτηση I(x, y, t) όπου x, y είναι οι χωρικές συντεταγμένες και t ο χρόνος. Τότε, το I(x 1, y 1, t 1 ) είναι η τιμή της έντασης φωτεινότητας της εικόνας στο σημείο I(x 1, y 1 ), στον χρόνο t 1. Υποθέτουμε ότι με μια μικρή μεταβολή dx, dy και dt στα x, y και t δεν υπάρχει αλλαγή στην ένταση της φωτεινότητας. Ετσι, έχουμε I(x, y, t) = I(x + dx, y + dy, t + dt) (2.4) Βρίσκοντας το ανάπτυγμα σε σειρά Taylor γύρω από τα x, y και t στο δεξί μέλος έχουμε I(x, y, t) = I(x, y, t) + I x dx + I y I dy + dt + h (2.5) t

16 όπου h το άθροισμα των όρων ανώτερης (δεύτερης και άνω) τάξης. Καθώς στα σημεία (x, y, t) και (x + dx, y + dy, t + dt) αντιστοιχεί η προβολή του ίδιου σημείου, υποθέτουμε ότι η ένταση φωτεινότητας στα σημεία αυτά έχει την ίδια τιμή: I(x + dx, y + dy, t + dt) = I(x, y, t) (2.6) Αυτή η εξίσωση, ονομάζεται εξίσωση σταθερότητας έντασης (brightness constancy constraint). Η εξίσωση 2.5, αγνοώντας τους όρους ανώτερης τάξης μπορεί να απλοποιηθεί πλέον ως I x dx + I y dy + I t dt = 0 (2.7) Διαιρώντας τον κάθε όρο με dt, ορίζοντας τις συνιστώσες της οπτικής ροής ως x t = u, = v και παίρνοντας το όριο καθώς dt 0, έχουμε y t I x u + I y v + I t = 0 (2.8) Αυτή η εξίσωση, ονομάζεται εξίσωση οπτικής ροής. 2.3.2 Η οπτική ροή Horn-Schunck Η σχέση 2.8 δίνει μία εξίσωση για τον προσδιορισμό δύο μεταβλητών (ή, εάν μια εικόνα περιέχει Ν pixels, δίνονται Ν εξισώσεις για 2Ν μεταβλητές), οπότε έτσι τίθεται ένα κακώς ορισμένο πρόβλημα. Επομένως, απαιτούνται πρόσθετοι περιορισμοί για να τεθεί ως καλώς ορισμένο. Οι Horn και Schunck [14] προτείναν τη χρήση του περιορισμού ομαλότητας, δηλαδή γειτονικά σημεία ενός αντικειμένου να κινούνται με παρόμοιες ταχύτητες (τα u 2, v 2 να είναι μικρά). Τα u και v μπορούν να βρεθούν ελαχιστοποιώντας την εξής συνάρτηση κόστους: E(u, v) = [(I x u + I y v + I t ) 2 + λ(u 2 x + u 2 y + vx 2 + vy)]dxdy 2 (2.9) Ω όπου το λ ελέγχει το βάρος που δίνεται στον περιορισμό ομαλότητας. Μεγάλες τιμές του λ οδηγούν σε πιο ομαλή οπτική ροή. Χρησιμοποιώντας τις εξισώσεις Euler-Lagrange[15], ελαχιστοποιούμε τη συνάρτηση κόστους: u E = L u x L u x y L u y = I 2 xu + I x I y v + I x I t λ 2 u (2.10) v E = L v x L v x y L v y = I x I y u + I 2 y v + I y I t λ 2 v (2.11)

17 όπου 2 u = u xx + u yy και 2 v = v xx + v yy, οι τελεστές Laplace. Απαραίτητη συνθήκη για την ελαχιστοποίηση, είναι u E = 0 και v E = 0. Ετσι, έχουμε I 2 xu + I x I y v = λ 2 u I x I t (2.12) I x I y u + I 2 y v = λ 2 v I y I t (2.13) Στην πράξη, οι τελεστές Laplace υπολογίζονται με τη μέθοδο των πεπερασμένων διαφορών, όπου 2 u x = ū x (i, j) u x (i, j) και 2 u y = ū y (i, j) u y (i, j). Τα ū x (i, j) και ū y (i, j) είναι οι σταθμισμένοι μέσοι όροι των ταχυτήτων u x και u y αντίστοιχα, υπολογισμένοι στην γειτονιά 3 3 του κάθε εικονοστοιχείου (i, j) με χρήση του ακόλουθου φίλτρου: Ετσι, έχουμε 1 12 1 12 1 6 1 1 6 1 6 1 12 1 6 1 12 (2.14) (I 2 x + λ)u + I x I y v = λū I x I t (2.15) I x I y u + (I 2 y + λ)v = λ v I y I t (2.16) Το σύστημα αυτό μπορεί να λυθεί για κάθε pixel της εικόνας. Ωστόσο, εφόσον η λύση εξαρτάται από τις γειτονικές τιμές του πεδίου της οπτικής ροής, πρέπει να επαναληφθεί μόλις ανανεωθούν οι τιμές τους. Το ακόλουθο επαναληπτικό σχήμα παράγεται u n+1 = ū n I x (I x ū n + I y v n + I t ) λ + I 2 x + I 2 y (2.17) v n+1 = v n I y (I x ū n + I y v n + I t ) λ + I 2 x + I 2 y (2.18) και ο αλγόριθμος συνοψίζεται στο εξής 1. Στην επανάληψη n = 0, γίνεται αρχικοποίηση των u και v με τυχαία πρόβλεψη.

18 2. Ανανέωση με βάση τις σχέσεις 2.17 και 2.18. 3. Λήξη των επαναλήψεων, όταν το E δε μειώνεται αρκετά, ή ισοδύναμα, η παράσταση I x ū n + I y v n + I t είναι μικρή. 2.3.3 Οπτική ροή υψηλής ακριβείας Οι Brox et. al [16] εισήγαγαν ένα coarse-to-fine variational model, για τον υπολογισμό οπτικής ροής. Κάποιοι χρήσιμοι περιορισμοί που πρέπει να λαμβάνονται υπόψιν, είναι: Υπόθεση σταθερότητας της τιμής του γκρί (gray value constancy assumption): Μια από τις αρχές υπολογισμού οπτικής ροής, είναι η υπόθεση ότη η τιμή του γκρι σε ένα pixel δεν μεταβάλλεται με τη μετατόπιση (displacement). Εχουμε δηλαδή I(x, y, t) = I(x + u, y + v, t + 1) (2.19) Η γραμμικοποιημένη έκδοση αυτής της σχέσης, είναι η εξίσωση οπτικής ροής. Υπόθεση σταθερότητας της κλίσης (gradient constancy assumption): Η υπόθεση σταθερότητας του γκρί έχει ένα μειονέκτημα: είναι ευαίσθητη σε μικρές αλλαγές φωτεινότητες που εμφανίζονται συχνά σε φυσικές σκηνές. Επομένως, είναι χρήσιμο να επιτρέπονται κάποιες μικρές μεταβολές στην τιμή του γκρι και να βοηθηθεί ο υπολογισμός των διανυσμάτων μετατόπισης με ένα κριτήριο που είναι αμετάβλητο σε μεταβολές της τιμής του γκρι. Ενα τέτοιο κριτήριο, είναι η κλίση της τιμής του γκρι, που μπορεί επίσης να υποτεθεί ότι δε μεταβάλλεται λόγω μετατόπισης. Αυτό μας δίνει I(x, y, t) = I(x + u, y + v, t + 1). Εδώ, I(x, y, t) είναι η χωρική κλίση (spatial gradient). Ο περιορισμός 2 είναι χρήσιμος σε μεταφορική κίνηση (translatory motion) ενώ ο περιορισμός 1 ταιριάζει καλύτερα σε πιο περίπλοκα πρότυπα κίνησης. Υπόθεση ομαλότητας (smoothness assumption): Ως εδώ, το μοντέλο υ- πολογίζει τη μετατόπιση ενός pixel μόνο τοπικά, χωρίς να λαμβάνεται υπόψιν καμιά αλληλεπίδραση μεταξύ γειτονικών pixels. Επομένως, εμφανίζονται προβλήματα όταν η κλίση εξαφανίζεται κάπου, ή εάν εμπίπτουμε στο πρόβλημα διαφράγματος (aperture problem). Επιπρόσθετα, συνήθως υπάρχουν κάποια έκτοπα στα optical flow estimates. Επομένως, είναι χρήσιμο να εισάγουμε ακόμη μια υπόθεση, αυτή της ομαλότητας του πεδίου της οπτικής ροής (optical flow field). Καθώς το βέλτιστο πεδίο θα έχει ασυνέχειες στα σύνορα των αντικειμένων της σκηνής, είναι λογικό να γενικευθεί η υπόθεση αυτή, απαιτώντας ομαλό πεδίο ροής για κάθε αντικείμενο/περιοχή (piecewise smoothness).

19 Πολυκλιμακωτή προσέγγιση (multiscale approach): Στην περίπτωση μετατοπίσεων που είναι μεγαλύτερες από ένα pixel ανά καρέ, οι αλγόριθμοι ελαχιστοποίησης μπορεί να παγιδευτούν σε ένα τοπικό ελάχιστο. Για να βρεθεί ένα ολικό ελάχιστο, πρέπει να εφαρμοστούν πολυκλιμακωτές ιδέες. Η αρχή γίνεται με την επίλυση μιας ομαλοποιημένης έκδοσης του προβλήματος, παίρνοντας μια υποδειγματολειπτημένη εικόνα. Το νέο πρόβλημα μπορεί να έχει αποκλειστικά ένα ελάχιστο, ευελπιστόντας ότι αυτό θα βρίσκεται κοντά στο ολικό ελάχιστο του αυθεντικού προβλήματος. Αυτή η λύση χρησιμοποιείται για την αρχικοποίηση της επίλυσης μιας βελτιωμένης έκδοσης του προβλήματος, ώστε τελικά, βήμα-βήμα, να επιλυθεί το αυθεντικό πρόβλημα. 2.3.4 LDOF: Οπτική ροή για μεγάλες μετατοπίσεις Στην εργασία μας, έχοντας ως αντικείμενο την κίνηση του ανθρώπου, είναι συχνό φαινόμενο η δυσκολία στον ακριβή υπολογισμό πυκνού πεδίου οπτικής ροής, λόγω μεγάλων μετατοπίσεων και γρήγορων κινήσεων. Μοντέλα όπως το προαναφερθέν των Brox et. al [16] αποδίδουν καλά, εφόσον αντικείμενα με δομές μικρής κλίμακας κινούνται παρόμοια με τα αντικείμενα που έχουν δομή μεγαλύτερης κλίμακας. Ομως, εάν η σχετική κίνηση μιας δομής μικρής κλίμακας είναι μεγαλύτερη από την ίδια την κλίμακά της, τότε τέτοιες προσεγγίσεις αποτυγχάνουν. Οι δομές μεγάλης κλίμακας οδηγούν σε προβλέψεις κίνησης διαφορετικής από την πραγματική. Η οπτική ροή στην αρθρωτή κίνηση γενικά και στην ανθρώπινη κίνηση συγκεκριμένα, είναι προβληματικές. Μικρά μέλη του σώματος, όπως τα χέρια, μπορεί να κινηθούν πολύ γρήγορα, παραβιάζοντας την απαίτηση ότι η κίνηση της δομής με την αμέσως μεγαλύτερη κλίμακα είναι μια καλή ένδειξη για την κίνηση. Διάφορες μέθοδοι, μεταξύ αυτών και οι μέθοδοι για τον υπολογισμό της ανθρώπινης πόζας, χρησιμοποιούν και την οπτική ροή, πέρα από στατικά στοιχεία. Προφανώς, δε μπορούν να εκμεταλλευτούν πλήρως αυτό το στοιχείο κίνησης, εάν η οπτική ροή δεν υπολογίζεται σωστά κι αυτό συμβαίνει εκεί που θα μπορούσε να μας δώσει πολλές πληροφορίες, όπου δηλαδή υπάρχει μια καθαρή διακριτή κίνηση ενός ανθρώπινου μέλους. Οι μεγάλες μετατοπίσεις λοιπόν, θεωρούνται ένας ιδιαίτερα περιοριστικός παράγοντας για την χρήση της οπτικής ροής σε άλλες εφαρμογές. Στο έργο των Brox και Malik [17], επιχειρείται η επίλυση αυτού του προβλήματος με τη βοήθεια της αντιστοίχισης σημείων-κλειδιών περιγραφέων (descriptor matching). Σε αντίθεση με τα μεμονωμένα pixel, περιγραφείς οπως ο SIFT[13], μπορούν να οδηγήσουν σε ολική αντιστοίχιση (global matching) χωρίς περιορισμούς. Αυτό καθιστά την αντιστοίχιση, χωρίς περιορισμούς ως προς το πλάτος της μετατόπισης, απλή και αποτελεσματική. Οι λόγοι για τους οποίους το descriptor matching δεν μπορούσε να ενσωματωθεί επιτυχώς σε αλγορίθμους υπολογισμού οπτικής ροής, ήταν η λανθασμένη αντιστοίχιση keypoints λόγω φαινομένου απόκρυψης που οδηγούσε στον μη εντοπισμό αντίστοιχου keypoint σε διαδοχικά καρέ, αλλά και το γεγονός ότι το descriptor matching έχει pixel-level accuracy που δυσκολεύει τον εντοπισμό μικρών

20 κινήσεων. Η ενσωμάτωση των αντιστοιχίσεων του descriptor matching στο προαναφερθέν variational model, δίνει πυκνό πεδίο οπτικής ροής, υψηλής ακρίβειας και χωρίς έκτοπα, με μεγάλο πλήθος αντιστοιχίσεων μεγάλων μετατοπίσεων. (αʹ) (βʹ) (γʹ) (δʹ) Σχήμα 2.9: α) Η γρήγορη κίνηση ενός χεριού είναι τυπικό παράδειγμα όπου οι συμβατικές μέθοδοι coarse-to-fine warping αποτυγχάνουν β) Πεδίο οπτικής ροής με τη μέθοδο [16]: η κίνηση του χεριού χάνεται γ) Προς σύγκριση, το πεδίο οπτικής ροής με τη μέθοδο [17]: η κίνηση του χεριού υπολογίζεται σωστά δ) Χρωματικός κώδικας για την οπτικοποίηση του πεδίου οπτικής ροής Εστω ότι I 1, I 2 : (Ω R 2 ) R d είναι τα διαδοχικά καρέ που πρέπει να ευθυγραμμιστούν. Για μια γκρι εικόνα έχουμε d = 1, ενώ για εικόνες χρώματος έχουμε d = 3. Επιπλέον, x = (x, y) T είναι ένα σημείο στο πεδίο Ω της εικόνας και w = (u, v) T είναι το πεδίο οπτικής ροής, δηλαδή μια συνάρτηση w : Ω R 2. Η υπόθεση σταθερότητας της τιμής του γκρι (ή της χρωματικής τιμής), εκφράζεται με την ενέργεια E color (w) = Ψ( I 2 (x + w(x)) I 1 (x) 2 )dx (2.20) Ω η οποία τιμωρεί την απόκλιση από αυτή την υπόθεση. Η συνάρτηση Ψ(s 2 ) = s 2 + ɛ 2, ɛ = 0.001, είναι κυρτή, απλοποιώντας την βελτιστοποίηση. Η υπόθεση σταθερότητας της κλίσης εκφράζεται με την ενέργεια E grad (w) = Ψ( I 2 (x + w(x)) I 1 (x) 2 )dx (2.21) Ω

21 Τόσο η σχέση 2.20 όσο και η σχέση 2.21 επιβάλλουν την αντιστοίχιση χαρακτηριστικών που είναι ασθενώς περιγραφικά (weakly descriptive). Η υπόθεση ομαλότητας εκφράζεται με την ενέργεια E smooth (w) = Ψ( u(x) 2 + v(x) 2 )dx (2.22) Ολοι αυτοί οι περιορισμοί μαζί, δίνουν το μοντέλο Ω E(w) = E color + γe gradient + αe smooth (2.23) Από άποψη μοντελοποίησης, το μοντέλο αυτό είναι αρκετά γενικό, αφού μπορεί να ανταπεξέλθει σε όλα τα είδη παραμόρφωσης, ασυνέχειας κίνησης, αποκρύψεις και μεγάλες μετατοπίσεις. Ενσωματώνουμε τις αντιστοιχίσεις σημείων του descriptor matching, προσθέτοντας έναν επιπλέον όρο: E match = δ(x)ρ(x)ψ( w(x) w 1 (x) ) 2 dx (2.24) Σε αυτό τον όρο, το w1(x) εκφράζει τα διανύσματα αντιστοίχησης που λαμβάνονται από το descriptor matching σε κάποια σημεία x. Το δ i (x) είναι 1 εάν υπάρχει descriptor διαθέσιμος στο σημείο x στο καρέ 1, διαφορετικά είναι 0. Κάθε αντιστοίχιση, σταθμίζεται με το score ταιριάσματός της, ρ i (x). Η σχέση 2.24 υποθέτει ότι οι descriptors έχουν ήδη αντιστοιχηθεί. Μπορούμε να μορφοποιήσουμε αυτή τη διαδικασία αντιστοίχισης σε έναν ακόμη όρο ενέργειας προς ελαχιστοποίηση: E desc = δ(x) f 2 (x + w 1 (x)) f 1 (x) 2 dx (2.25) όπου f 1 (x) και f 2 (x) αντιπροσωπεύουν τα αραιά πεδία των διανυσμάτων χαρακτηριστικών στα καρέ 1 και 2 αντίστοιχα. Ο συνδυασμός όλων των όρων μαζί, καταλήγει στην διατύπωση του συνολικού μοντέλου ως ενός μοναδικού προβλήματος βελτιστοποίησης. E(w) = E color (w)+γe gradient (w)+αe smooth (w)+βe match (w, w 1 )+E desc (w 1 ) (2.26) όπου τα α, β, γ είναι ρυθμιστικές παράμετροι που μπορούν να λάβουν τιμή είτε χειροκίνητα, είτε με βάση δεδομένα ground-truth. Το γεγονός ότι το πλήρες πρόβλημα βελτιστοποίησης μπορεί να διαχωριστεί σε υποπροβλήματα, που όλα μπορούν να βελτιστοποιηθούν ολικά,

22 δεν εγγυάται ένα ολικό βέλτιστο για το πλήρες πρόβλημα. Ωστόσο, η προτεινόμενη βελτιστοποίηση βοηθά στην αντιμετώπιση των περισσότερων τοπικών ελαχίστων του αρχικού προβλήματος. (αʹ) Σχήμα 2.10: Εξέλιξη του υπολογισμού οπτικής ροής. Αρχικά φαίνονται επικαλυπτόμενες οι δύο αρχικές εικόνες και ακολουθεί το εξελισσόμενο πεδίο ροής από το coarse (αριστερά) στο fine (δεξιά) επίπεδο. Οι αντιστοιχίσεις κυριαρχούν στην εκτίμηση αρχικά, ωθόντας τη λύση προς τη γρήγορη κίνηση του ποδιού και της ρακέτας. Κάποιες λάθος αντιστοιχίσεις είναι επίσης ορατές, όπως π.χ. στην άκρη της ρακέτας. Αυτά τα έκτοπα αφαιρούνται σταδιακά, αφού όλο και περισσότερα δεδομένα της εικόνας λαμβάνονται υπόψιν. 2.4 Τροχιές σημείων 2.4.1 Οι τροχιές σημείων γενικά Στην ανάλυση δεδομένων βίντεο, πιθανώς το πιο σημαντικό στοιχείο και οι πιο κοινές τεχνικές για την εκμετάλλευση αυτής της πληροφορίας είναι η οπτική ροή, η παρακολούθηση σημείων και η διαφορά των καρέ (difference image). Εφόσον η διαφορά των καρέ απαιτεί στατικές κάμερες και απαιτείται πλούσια πληροφορία κίνησης δίχως περιορισμούς, εστιάζουμε στις δύο πρώτες τεχνικές. Ο στόχος είναι να επιτευχθεί ακριβής παρακολούθηση κίνησης για ένα μεγάλο σετ σημείων στο βίντεο. Η ποιότητα της υπολογισμένης οπτικής ροής και του σετ τροχιών σημείων, είναι πολύ σημαντικές καθώς μικρές διαφορές στην ποιότητα των χαρακτηριστικών εισόδου, μπορεί να κάνει την προσέγγιση να αποτυγχάνει. 2.4.2 Πυκνές τροχιές σημείων Στη μέθοδο των Ochs και Brox [18] για υπολογισμό τροχιών σημείων, χρησιμοποιείται ως είσοδος η οπτική ροή που υπολογίζεται για μια ακολουθία εικόνων με τη μέθοδο LDOF [17]. Αρχικά σημεία: Οπως συμβαίνει σε κάθε παρακολουθητή (tracker), ένα σετ σημείων αρχικοποιείται στο πρώτο καρέ του βίντεο. Καθώς βασιζόμαστε σε πυκνή παρακολούθηση, θεωρητικά θα μπορούσαμε να αρχικοποιήσουμε όλα τα pixel. Ω- στόσο, ομογενείς περιοχές μπορούν να είναι προβληματικές. Για να δοθεί έμφαση σε

23 σημεία που μπορούν να παρακολουθηθούν πιο αξιόπιστα, αφαιρούμε σημεία που δεν εμφανίζουν καμιά δομή στη γειτονιά τους, βασιζόμενοι στη μικρότερη ιδιοτιμή λ 2 του τανυστή δομής (structure tensor). Αγνοούμε όλα τα σημεία όπου η λ 2 είναι μικρότερη από ένα συγκεκριμένο ποσό της μέσης λ 2 της εικόνας. Θεωρούμε τον structure tensor με βάση τους Brox et. al.[19]. Εστω μια grayscale εικόνα h : Ω R. Ο αρχικός πίνακας προκύπτει J 0 = h h T (2.27) και ομαλοποιείται, με συνέλιξη με ένα γκαουσιανό kernel K με τυπική απόκλιση ίση με ρ J ρ = K ρ h h T (2.28) Η παράμετρος ρ καθορίζει την κλίμακα ολοκλήρωσης, δηλαδή το μέγεθος της γειτονιάς που λαμβάνεται υπόψιν για την ανάλυση δομής. Κάθε ένα από τα σημεία παρακολουθείται στο επόμενο καρέ με χρήση της οπτικής ροής w := (u, v) T : (x t+1, y t+1 ) T = (x t, y t ) T + (u t (x t, y t ), v t (x t, y t )) T (2.29) Εφόσον η οπτική ροή έχει ακρίβεια σε επίπεδο μικρότερο από αυτό των pixel, τα x και y συνήθως καταλήγουν ανάμεσα σε σημεία του διακριτού πλέγματος. Χρησιμοποιούμε διγραμμική παρεμβολή (bilinear interpolation) για να συμπεράνουμε την οπτική ροή σε αυτά τα σημεία. Για λόγους αποδοτικότητας, γίνεται χωρική υποδειγματοληψία των αρχικών σημείων. Προκύπτει εμπειρικά ότι παράγοντες υποδειγματοληψίας μεγαλύτεροι του 12 χάνουν πληροφορία, αφού δεν υπάρχουν τροχιές για να καλύψουν μικρά αντικείμενα που κινούνται. Τελικά, επιλέχθηκε η τιμή 5 για το trajectory sampling step, η οποία εφαρμόζεται τόσο στον οριζόντιο όσο και στον κάθετο άξονα. Παρακολούθηση: Κάθε ένα από τα σημεία, παρακολουθείται στο επόμενο χρονικά καρέ (t + 1), χρησιμοποιώντας το πεδίο οπτικής ροής w t του καρέ t. Ανίχνευση απόκρυψης: Η παρακολούθηση πρέπει να σταματήσει όταν ένα σημείο αποκρυφθεί. Αυτό είναι πολύ σημαντικό, αφου διαφορετικά η τροχιά του σημείου θα μοιραστεί την κίνηση δύο διαφορετικών αντικειμένων. Η απόκρυψη, ανιχνεύεται ελέγχοντας την σταθερότητα (consistency) της οπτικής ροής προς τα εμπρός (forward) και προς τα πίσω (backward). Σε περίπτωση μη-απόκρυψης, το διάνυσμα της οπτικής ροής προς τα πίσω δείχνει προς την αντίθετη κατεύθυνση από αυτή του διανύσματος της οπτικής ροής προς τα μπροστά: u t (x t, y t ) = û t (x t + u t, y t + v t ) και

24 v t (x t, y t ) = ˆv t (x t + u t, y t + v t ), όπου ŵ = (û, ˆv) είναι η οπτική ροή από το καρέ t + 1 στο καρέ t. Εάν αυτή η απαίτηση δεν ικανοποιείται, τότε είτε το σημείο αποκρύπτεται τη χρονική στιγμή t+1, είτε η οπτική ροή δεν έχει υπολογιστεί επακριβώς. Και οι δύο λόγοι είναι ικανή συνθήκη για τη διακοπή της παρακολούθησης αυτού του σημείου τη χρονική στιγμή τ. Εφόσον πάντα υπάρχουν μικρά λάθη υπολογισμού της οπτικής ροής, δίνουμε ένα περιθώριο σφάλματος, που επιτρέπει στα σφάλματα αυτά να αυξάνουν γραμμικά με το πλάτος της κίνησης. w + ŵ 2 < 0.01( w 2 + ŵ 2 ) + 0.5. (2.30) Σταματάμε επίσης να παρακολουθούμε σημεία σε σύνορα κίνησης. Η ακριβής τοποθεσία του συνόρου κίνησης, όπως υπολογίζεται από την οπτική ροή, κυμαίνεται. Αυτό οδηγεί στο ίδιο αποτέλεσμα με την απόκρυψη: ένα σημείο που παρακολουθείται γλιστράει προς την άλλη πλευρά του συνόρου και μοιράζεται μερικώς την κίνηση δύο διαφορετικών αντικειμένων. Για να αποφύγουμε τέτοια συμβάντα, σταματάμε να παρακολουθούμε ένα σημείο όταν u 2 + v 2 > 0.01 w 2 + 0.002 (2.31) Η απόκρυψη, συνυπάρχει με την επανεμφάνιση σημείων που αποκρυπτόταν. Για να γεμίσουν με σημεία τέτοιες περιοχές, που εώς τώρα δεν καλυπτόταν από τροχιές, νέες τροχιές αρχικοποιούνται σε άδειες περιοχές σε κάθε νέο καρέ, χρησιμοποιώντας την ίδια στρατηγική με αυτή του πρώτου καρέ. 2.4.3 Ομοιότητες μεταξύ τροχιών Οι τροχιές είναι ασύγχρονες, δηλαδή καλύπτουν διαφορετικά χρονικά παράθυρα σε μια λήψη βίντεο. Αυτό είναι ιδιαίτερα εμφανές εάν η λήψη περιέχει γρήγορη κίνηση και μεγάλες περιοχές που αποκρύπτονται. Εάν επιλέγαμε μόνο το σύνολο των τροχιών που παρέμεναν ορατές και καταγεγραμμένες για όλη τη λήψη, θα παίρναμε ένα πολύ μικρό ή ακόμη και άδειο σύνολο, και θα χάναμε πολλά αντικείμενα που είναι κυρίαρχα στη σκηνή. Ετσι, αντί να επιλέξουμε ένα πλήρως συμβατό υποσύνολο, ορίζουμε τα ζεύγη ομοιοτήτων (affinities) μεταξύ όλων των τροχιών που μοιράζονται τουλάχιστον ένα κοινό καρέ. Θα έπρεπε να αναθέταμε υψηλα affinities σε ζεύγη σημείων που κινούνται μαζί. Ωστόσο, δύο αντικείμενα που κινούνται το ένα δίπλα στο άλλο μοιράζονται την ίδια κίνηση, παρόλο που είναι διαφορετικά αντικείμενα. Λαμβάνουμε υπόψιν μας ότι υπάρχουν περιπτώσεις όπου δε

25 μπορούμε να ξεχωρίσουμε δύο αντικείμενα. Η πραγματική πληροφορία δεν βρίσκεται στην κοινή κίνηση, αλλά στις διαφορές κίνησης. Μόλις ένα αντικείμενο κινείται σε διαφορετική κατεύθυνση από ένα άλλο, παίρνουμε ένα πολύ καθαρό μήνυμα ότι αυτές οι δύο περιοχές στην εικόνα δεν ανήκουν στο ίδιο αντικείμενο. Ορίζουμε τις αποστάσεις και τα affinities έτσι, ώστε να εκμεταλλεύονται βέλτιστα αυτή την πληροφορία. Σε δύο τροχιές A και B, θεωρούμε τη στιγμή όπου η κίνηση των σημείων τους είναι η πιο ανόμοια. d 2 (A, B) = max t d 2 t (A, B) (2.32) Ορίζουμε την απόσταση ανάμεσα σε δύο τροχιές σε μια συγκεκριμένη χρονική στιγμη t ως: d 2 t (A, B) = d sp (A, B) (ua t u B t ) 2 + (v A t v B t ) 2 5σ 2 t (2.33) όπου d sp (A, B) είναι η μέση χωρική ευκλείδια απόσταση των τροχιών A και B στο κοινό τους χρονικό παράθυρο. Πολλαπλασιάζοντας με τη χωρική απόσταση, διασφαλίζουμε ότι τα κοντινά σημεία θα παράγουν υψηλά affinities. Ως u t := x t+5 x t και v t := y t+5 y t σημειώνεται η κίνηση ενός σημείου σε βάθος 5 καρέ. Αυτό προσθέτει κάποια επιπλέον ακρίβεια στην εκτίμηση κίνησης. Εάν καλύπτονται λιγότερα από 5 καρέ, τότε κάνουμε αυτό το averaging γίνεται για τα καρέ που είναι διαθέσιμα. Μια άλλη σημαντική λεπτομέρεια είναι η κανονικοποίηση της απόστασης με τον παράγοντα 5 σ t = min a (A,B) σ(x a t+t, ya t+t, t + t ) (2.34) t =1 όπου σ : R 3 R είναι το πεδίο μεταβολής της ροής. Η κανονικοποίηση με τον παράγοντα σ t είναι πολύ σημαντική για να χειριστούμε τόσο γρήγορη, όσο και αργή κίνηση. Εαν υπάρχει ελάχιστη εώς καθόλου κίνηση σε μια σκηνή, μια διαφορά κίνησης 2 pixels είναι μεγάλη, ενώ η ίδια διαφορά κίνησης θεωρείται αμελητέα σε μια σκηνή με γρήγορη κίνηση. Καθώς η κλιμάκωση και η περιστροφή θα παράξει μικρές διαφορές κίνησης έστω τοπικά, είναι σημαντικό να τα λαμβάνουμε υπόψιν μας με βάση τη συνολική κίνηση. Το να επιλέγουμε την τοπική παρά την ολική μεταβολή της οπτικής ροής, παράγει τις επιθυμητές διαφορές όταν υπάρχουν τουλάχιστον τρεις συστάδες κίνησης στη σκηνή. Η διαφορά κίνησης ανάμεσα σε δύο από αυτές μπορεί να είναι μικρή, ενώ οι άλλες διαφορές να είναι μεγάλες. Χρησιμοποιούμε το σύνηθες εκθετικό και έναν παράγοντα λ = 0.1 για να μετατρέψουμε τις αποστάσεις d 2 (A, B) σε affinities exp ( λd 2 (A, B)) (2.35)

26 παίρνοντας έναν n n πίνακα ομοιοτήτων W για όλη τη λήψη, όπου n είναι ο συνολικός αριθμός των τροχιών. Ο πίνακας αυτός, ουσιαστικά αναπαριστά το γράφο ομοιοτήτων τροχιών. 2.5 Affine μοντέλα κίνησης Εστω P το σύνολο των pixel ενός καρέ I t της ακολουθίας εικόνων I. Επίσης έστω ότι R = {r i, i = 1 n R } είναι το σύνολο των regions του καρέ. Η κίνηση των σημείων μιας περιοχής r i μπορεί να περιγραφθεί με ένα affine motion model wi R : P R 2, το οποίο προκύπτει από τα υπολογισμένα optical flow estimates της περιοχής. Ας θεωρήσουμε ότι η περιοχή r i έχει n σημεία (x, y). Τότε εάν το σημείο (x 1, y 1 ) μεταβαίνει στο σημείο (x 2, y 2 ) στο επόμενο καρέ, θα ισχύει x 2 = a 11 x 1 + a 12 y 1 + b 1 και y 2 = a 21 x 1 + a 22 y 1 + b 2, δηλαδή [ x2 y 2 ] [ ] x 1 a11 a 12 b 1 = a 21 a 22 b y 1 (2.36) 2 1 Το πρόβλημα αυτό λύνεται με τον προσδιορισμό των παραμέτρων a 11, a 12, a 11, a 12, b 1, b 2, μέσω της μεθόδου ελαχίστων τετραγώνων. Οι παράμετροι a 11, a 12 και b 1 εξαρτώνται μόνο από το στοιχείο u της οπτικής ροής, ενώ οι παράμετροι a 21, a 22 και b 2 εξαρτώνται από το στοιχείο v. Θέτουμε X 2 = x 1 2., Y 2 = y 1 2., X 1 = x 1 1. και Y 1 = y 1 1.. x n 2 y n 2 x n 1 y n 1 Επίσης θέτουμε x 1 2 y2 1 1 K =... x n 2 y2 n 1 ] Εάν M 1 = [a 11 a 12 b 1 και M 2 = [a 21 a 22 b 2 ], τότε M 1 = (X T 2 K)(KKT ) 1 και M 2 = (Y2 TK)(KKT ) 1. Ειδική μέριμνα λαμβάνεται για τα καρέ στα οποία από το segmentation προκύπτουν regions στα οποία ανήκουν λιγότερα από 3 σημεία. Εφόσον ο υπολογισμός affine motion model απαιτεί τουλάχιστον 3 σημεία, συνενώνουμε τέτοιου τύπου regions με ένα από τα γειτονικά τους, έχοντας ως κριτήριο επιλογής τη μέση χρωματική τιμή του region.

2.6 Συσταδοποίηση γράφου με χρήση κανονικοποιημένων τομών 27 Ενας μη κατευθυνόμενος γράφος, είναι ένα ζευγάρι G = (V, E) όπου V = {v 1,..., v m } είναι ένα σύνολο κόμβων, και E είναι ένα σύνολο υποσυνόλων του V των δύο στοιχείων (δηλαδή, υποσύνολα {u, v}, με u, v V και u v), που ονομάζονται ακμές. Για κάθε ακμή {u, v}, οι κόμβοι u και v λέγεται ότι είναι γειτονικοί ο ένας στον άλλον. Εάν σε κάθε ακμή {v i, v j } αντιστοιχίζεται ένας πραγματικός αριθμός w ij που ονομάζεται βάρος, τότε ο γράφος ονομάζεται σταθμισμένος. Ο συμμετρικός πίνακας βάρους συμβολίζεται με W και είναι τέτοιος ώστε w ij 0 i, j {1... m} και w ii = 0 i {1... m}. Για κάθε κόμβο v V, ο βαθμός d(v) του v είναι το πλήθος των ακμών που είναι γειτονικές στο v: d(v) = {u V {u, v} E} (2.37) Για ένα υποσύνολο κόμβων, A V, ορίζουμε τον όγκο vol(a) του A ως το άθροισμα των βαρών όλων των ακμών που είναι γειτονικές σε κόμβους του A. vol(a) = u i A d(u i ) = u i A m w ij (2.38) j=1 Σχήμα 2.11: Σταθμισμένος γράφος Για δύο υποσύνολα A, B V (όχι απαραίτητα διακριτά), ορίζουμε ως συνδέσμους, links(a, B) την παράσταση links(a, B) = w ij (2.39) v i A,v j B

28 Σχήμα 2.12: Βαθμός κόμβου (αριστερά) και όγκος κόμβων (δεξιά) σε ένα σταθμισμένο γράφο Ο W είναι συμμετρικός, οπότε links(a, B) = links(b, A). Ακόμη, ισχύει vol(a) = links(a, V ) Για ένα υποσύνολο A από το σετ διανυσμάτων V, ορίζουμε την τομή cut(a) = links(a, Ā) = w ij (2.40) v i A,v j Ā Σε ένα σετ δεδομένων, ο στόχος της συσταδοποίησης (graph clustering) είναι ο διαχωρισμός των δεδομένων σε διαφορετικές ομάδες, σύμφωνα με τις ομοιότητές τους. Οταν τα δεδομένα δίνονται με όρους ενός γράφου ομοιότητας G, όπου το βάρος w ij ανάμεσα σε δύο κόμβους v i και v j είναι ένα μέτρο της ομοιότητας των v i και v j, το πρόβλημα διατυπώνεται ως εξής: Να βρεθεί ένας διαχωρισμός (A 1,..., A K ) του συνόλου V των κόμβων σε διαφορετικές ομάδες, έτσι ώστε οι ακμές ανάμεσα σε διαφορετικές ομάδες να έχουν πολύ μικρό βάρος (που είναι ένδειξη του γεγονότος ότι σημεία που ανήκουν σε διαφορετικές συστάδες, είναι ανόμοια) και οι ακμές εντός μιας ομάδας να έχουν μεγάλο βάρος (που είναι ένδειξη του γεγονότος ότι σημεία που ανήκουν στην ίδια συστάδα, είναι όμοια). Το παραπάνω πρόβλημα συσταδοποίησης γράφου μπορεί να οριστεί ως ένα πρόβλημα βελτιστοποίησης, χρησιμοποιώντας την προαναφερθείσα έννοια της τομής ενός γράφου. Εάν θέλουμε να διαχωρίσουμε ένα σύνολο V σε K συστάδες, μπορούμε να βρούμε το διαχωρισμό (A 1,..., A K ) που ελαχιστοποιεί την ποσότητα cut(a 1,..., A K ) = 1 2 K cut(a i ) (2.41) i=1 Ο λόγος που εισάγεται ο παράγοντας 1 2 είναι για να αποφευχθεί το μέτρημα κάθε ακμής δύο φορές. Σημειώνεται ότι cut(a, Ā) = links(a, Ā). Για K = 2 το πρόβλημα μπορεί να λυθεί,

29 Σχήμα 2.13: Παράδειγμα πιθανών τομών σε ένα γράφο: σημειώνονται 2 τομές (αυτές των n1 και n2) οι οποίες δε θεωρούνται ικανοποιητικές, καθώς και μία σαφώς καλύτερη Σχήμα 2.14: Τομή γράφου αλλά δεν βρίσκονται ικανοποιητικοί διαχωρισμοί. Πράγματι, σε πολλές περιπτώσεις, η λύση διαχωρίζει έναν κόμβο από τους υπόλοιπους του γράφου. Χρειάζεται να σχεδιάσουμε τη συνάρτηση κόστους με ένα τέτοιο τρόπο ώστε να κρατά τα υποσύνολα A i επαρκώς μεγάλα- /επαρκώς ισορροπημένα. Ενας τρόπος για να επιτευχθεί αυτό είναι η κανονικοποίηση των τομών, διαιρώντας με κάποιο μέτρο κάθε υποσυνόλου A i. Ετσι, μπορεί να χρησιμοποιηθεί το μέγεθος (το πλήθος των στοιχείων) του A i, ή ο όγκος vol(a i ) του A i. Η δεύτερη λύση προτείνεται από τους Shi και Malik[20]. Η γενική ιδέα των κανονικοποιημένων τομών λοιπόν, είναι η ελαχιστοποίηση της εξής συνάρτησης κόστους: Ncut(A 1,..., A K ) = K i=1 links(a i, Āi) vol(a i ) = K i=1 cut(a i, Āi) vol(a i ) (2.42) και θα χρησιμοποιηθεί στην μέθοδό μας για συσταδοποίηση του γράφου που περιέχει ομοιότητες κίνησης περιοχών των καρέ.

30 2.7 Ανιχνευτής k-poselet Οπως αναφέρθηκε παραπάνω, ο ανιχνευτής k-poselet εντοπίζει με καλή ακρίβεια τη θέση μελών του σώματος όπως οι ώμοι και το πρόσωπο, ενώ σε άλλα αποτυγχάνει. Από τις προβλέψεις για τη θέση όλων των keypoints που ορίζουν μια πόζα, χρησιμοποιούμε μόνο την θέση των ώμων, διερευνώντας τη συνεκτικότητα των σημείων αυτών σε βάθος χρόνου. (αʹ) (βʹ) Σχήμα 2.15: Το bounding box του torso μιας πρόβλεψης k-poselet και τα αντίστοιχα keypoints. 2.8 Ανιχνευτής προσώπου Σε ορισμένες περιπτώσεις, ο ανιχνευτής k-poselet επιστρέφει την ανίχνευση με το υψηλότερο score, σε λανθασμένο σημείο. Για να αποφευχθεί αυτό, χρησιμοποιείται ένα επιπρόσθετο μέτρο για την επιλογή του σωστού k-poselet. Αυτό είναι η διασφάλιση της εγγύτητας του προσώπου, όπως αυτό ανιχνεύεται και εντοπίζεται από το κάθε k-poselet, με την ανίχνευση και τον εντοπισμό προσώπου που κάνει η μέθοδος των Zhu et. al[21].

Σχήμα 2.16: Το αποτέλεσμα της ανίχνευσης προσώπου με τη μέθοδο [21]. 31

Κεφάλαιο 3 Προτεινόμενη μεθοδολογία 3.1 Ομοιότητες με βάση την κίνηση Για την υλοποίηση της προτεινόμενης μεθοδολογίας, πρέπει να συνδυαστούν οι πληροφορίες κίνησης που προέρχονται από τροχιές σημείων και από affine μοντέλα κίνησης. Σε αυτές τις πληροφορίες θα δοθεί χωρική υποστήριξη από τα regions που παίρνουμε από το αρχικό segmentation των καρέ. Στην ακολουθία εικόνων I, θεωρούμε ένα καρέ I t με σύνολο περιοχών R = {r i, i = 1 n R }. Σε κάθε καρέ, περιγράφουμε την κίνηση ενός region με δύο τρόπους: α) με το σύνολο των τροχιών, εάν υπάρχουν, που επικαλύπτουν τη μάσκα του region β) με το affine μοντέλο κίνησης του region. Η χρήση affine μοντέλων, επιτρέπει την αναπαράσταση της κίνησης των regions που έχουν αμφίβολη οπτική ροή και αραιή κάλυψη τροχιών. Ως μέτρο σύγκρισης, είναι ασθενέστερο από τα multi-frame trajectory affinities, αφού λαμβάνει υπόψιν τα optical flow estimates ενός μόνο καρέ. Εστω r i μια τυχαία περιοχή του καρέ I t και T = {tr α, α = 1 n T } το σύνολο τροχιών της ακολουθίας εικόνων I. Η ομοιότητα κίνησης δύο τροχιών tr a, tr b, σημειώνεται ως A T (tr a, tr b ), ενώ το affine μοντέλο του r i είναι wi R : P R 2. 3.1.1 Συμβατότητα affine μοντέλων περιοχών Εστω ότι για δύο περιοχές r i και r j χρησιμοποιούμε ως μέτρο της ομοιότητας της κίνησής τους, τη συμβατότητα των affine μοντέλων τους, όπως ορίζεται στη σχέση 3.1, για σ = 0.1. Εάν οι δύο αυτές περιοχές ανήκουν στην προβολή της ίδιας 3D επιφάνειας, τότε το μέτρο αυτό θα είναι υψηλό, με μέγιστη τιμή το 1 και ελάχιστη το 0. 32

33 A(r i, r j ) = p r i r j exp( 1 σ w R j (p) wr i (p) 2 ) r i r j (3.1) 3.1.2 Μέση ομοιότητα τροχιών περιοχών Εστω ότι για δύο περιοχές r i και r j χρησιμοποιούμε ως μέτρο της ομοιότητας της κίνησής τους, την ομοιότητα κίνησης των τροχιών τους, όπως ορίζεται στη σχέση 3.2. Παρομοίως με το προηγούμενο μέτρο σύγκρισης κι αυτό θα έχει μέγιστη τιμή το 1 και ελάχιστη το 0. A(r i, r j ) = α T i,b T j A T (tr a, tr b ) T i T j (3.2) 3.1.3 Ομοιότητα κίνησης περιοχών Για να χειριστούμε το γεγονός ότι σε κάθε καρέ υπάρχουν περιοχές είτε με πυκνή, είτε με αραιή εώς μηδενική κάλυψη τροχιών, ορίζουμε ένα κατώφλι πυκνότητας για την κάλυψη τροχιών κάθε περιοχής, το οποίο εξαρτάται κι από το βήμα δειγματοληψίας τροχιών. Ετσι, για να θεωρείται πυκνή η κάλυψη τροχιών της περιοχής r i, πρέπει T i r i > ρ, όπου ρ = 0.02 το κατώφλι πυκνότητας για βήμα δειγματοληψίας τροχιών step = 5 και S η πληθικότητα του συνόλου S. Οι τελικές ομοιότητες κίνησης για κάθε ζεύγος περιοχών, είναι: A(r i, r j ) = α T i,b T j A T (tr a,tr b ) T i T j αν T i r i, T j r j > ρ p r i r j exp( 1 σ w R j (p) wr i (p) 2 ) r i r j αλλού (3.3) 3.2 Απωθήσεις με βάση την ανίχνευση μελών Κάθε ανίχνευση d q σε ένα σύνολο ανιχνεύσεων D = {d q, q = 1 n D } επιφέρει απωθήσεις φιγούρας-υποβάθρου (figure-ground) ανάμεσα στις περιοχές που βρίσκονται στο εσωτερικό της και στο εξωτερικό της. Εστω M q το pixel set που θέλουμε να αναφέρεται στο εσωτερικό της ανίχνευση των ώμων d q. Θεωρούμε ένα ισοσκελές τρίγωνο, με βάση του τριγώνου ένα ευθύγραμμο τμήμα ανάμεσα στους δύο ώμους, μήκους ελαφρώς μικρότερου της απόστασης των δύο ώμων. Το ύψος του τριγώνου εξαρτάται κι αυτό εμμέσως από την απόσταση των δύο ώμων. Μπορεί να τεθεί σε αναλογία 4 10 προς τη βάση του. Ολες οι περιοχές που καλύπτονται, έστω και σε ένα σημείο, από οποιαδήποτε πλευρά του ισοσκελούς τριγώνου,

34 ανήκουν στο σύνολο M q. Ορίζουμε επίσης ως U q το pixel set που βρίσκεται έξω από έναν κύκλο με κέντρο το μέσο του ευθύγραμμου τμήματος που ενώνει τους δύο ώμους και ακτίνα η οποία υπερβαίνει το μέγιστο πιθανό μήκος χεριού, το οποίο ορίζεται σε αναλογία 18 10 προς την απόσταση των ώμων. Σχήμα 3.1: Οι αρχικές περιοχές ενός καρέ Εχουμε x F 1 αν r i M q q (i) =, i = 1 n R, q = 1 n D (3.4) 0 αν r i / M q x B q (i) = δ( r i U q r i > 0.5), i = 1 n R, q = 1 n D (3.5) όπου δ είναι η συνάρτηση δέλτα του Dirac. Απωθήσεις (repulsions) εμφανίζονται ανάμεσα σε περιοχές που ανήκουν στο foreground και στο backgroundτης κάθε ανίχνευσης. R(r i, r j D) = max q d q D xf q (i)x B q (j) + x B q (i)x F q (j) (3.6)

35 Θέτουμε ως S(D) το σύνολο των ακμών απώθησης: S(D) = {(i, j) s.t. d q D, x F q (i)x B q (j) + x B q (i)x F q (j) = 1} (3.7) (αʹ) (βʹ) Σχήμα 3.2: α) Το εσωτερικό της ανίχνευσης ώμων (μπλε τρίγωνο) και η μάσκα M q που προκύπτει από τον εντοπισμό ώμων του k-poselet. Οι περιοχές που συσχετίζονται με τη μάσκα αυτή χρωματισμένες με κόκκινο β) Η μάσκα U q (εξωτερικά του σκούρου κύκλου) και οι περιοχές που καλύπτονται επαρκώς από αυτήν, χρωματισμένες με κόκκινο

36 (αʹ) (βʹ) Σχήμα 3.3: α) Τα σημεία στα οποία εντοπίστηκαν τροχιές σε ένα καρέ β) Επιλογή μιας τροχιάς (σημειωμένης με αστέρι) και εμφάνιση ομοιότητας των τροχιών στη γειτονιά της. Το κόκκινο χρώμα υποδεικνύει υψηλή ομοιότητα, ενώ το μπλε χαμηλή.

37 3.3 Κατευθυνόμενες τομές Συνδυάζουμε τα motion-driven affinities A με τα detection-driven repulsions R σε ένα γράφο ομοιότητας περιοχών (region affinity graph) ακυρώνοντας τα affinities μεταξύ περιοχών που απωθούνται: A steer (r i, r j D) = (1 R(r i, r j D)) A(r i, r j ) (3.8) Το συμπέρασμα στο μοντέλο μας, προκύπτει με το clustering των περιοχών R σε ομάδες που ιδανικά αντιπροσωπεύουν το left lower arm, το right lower arm, το left upper arm, το right upper arm, το torso και το υπόβαθρο/background. Εστω X {0, 1} nr K η ένδειξη του cluster της κάθε περιοχής, όπου X k είναι η k-στη στήλη του X και K είναι ο συνολικός αριθμός των clusters. Εστω επίσης D A steer ένας διαγώνιος πίνακας, όπου D A steer(i, i) = j Asteer (i, j). Μεγιστοποιούμε το ακόλουθο κριτήριο κανονικοποιημένης τομής (normalized cut) στον κατευθυνόμενο γράφο (steered graph): max X ɛ(x D) = K k=1 X T k Asteer (D)X k X T k D A steer (D)X k (3.9) s.t. X {0, 1} n R K, K X k = 1 nr (3.10) k=1 (i, j) S(D), K X k (i)x k (j) = 0 (3.11) k=1 Οι περιορισμοί της 3.11 απαιτούν οι περιοχές που συνδέονται με ακμές απώθησης να ανήκουν σε διαφορετικά clusters. Το πρόβλημα της 3.9 λύνεται διαδίδοντας πληροφορίες από μέρη όπου υπάρχει βεβαιότητα σχετικά με την κίνησή τους, σε μέρη όπου υπάρχει αβεβαιότητα. Συγχωνεύονται επαναληπτικά ζεύγη περιοχών οι οποίες έχουν μικρό embedding distance καθώς και motion affinity πάνω από ένα κατώφλι l. Επειτα επανυπολογίζονται οι ομοιότητες κίνησης των νέων περιοχών. Συγκεκριμένα, γίνεται η εξής επανάληψη: 1. Υπολογίζονται τα embedding region affinities W = V ΛV T, όπου (V, Λ) είναι τα πρώτα K ιδιοδιανύσματα και ιδιοτιμές του κανονικοποιημένου πίνακα ομοιοτήτων περιοχών D 1 A steer A steer. Οι ομοιότητες ενσωμάτωσης του W είναι μια ολικά διαδεδομένη έκδοση των τοπικών ομοιοτήτων του D 1 A steer A steer.

38 2. Ταξινομούνται τα ζεύγη των περιοχών με φθίνουσα σειρά, σύμφωνα με τις τιμές των ομοιοτήτων ενσωμάτωσης. Κατά την επιλογή του κάθε ζεύγους περιοχών, ελέγχεται αν A( r i, r j ) > l. Αν δεν πληρούται η προϋπόθεση αυτή, τότε απορρίπτεται αυτό το ζεύγος και ελέγχονται τα επόμενα, εως ότου βρεθεί ένα ζεύγος που πληροί την προϋπόθεση. Συγχωνεύονται οι περιοχές r i, r j με τη μεγαλύτερη ομοιότητα ενσωμάτωσης και υπολογίζονται τα motion affinities του καινούριου region. Ανανεώνεται ο A steer με τις καινούριες ομοιότητες κίνησης περιοχών. (ĩ, j) = arg max W(i, j) (3.12) (i,j)/ S(D)) Επειδή στην πράξη αυτή η διαδικασία συχνά αποτυγχάνει και επιλέγονται, προς συγχώνευση, περιοχές που στην πραγματικότητα δεν θα έπρεπε να επιλεχθούν, ορίζουμε ένα επιπρόσθετο, αυστηρότερο μέτρο ομοιότητας κίνησης μεταξύ δύο περιοχών r i και r j, πέρα κι έξω από τη μέθοδο του [9]. Για τα pixels ενός ζεύγους περιοχών (r t i, rt j ) του καρέ I t, υπολογίζουμε τις θέσεις τους στα καρέ I t+1 και I t+2, παρακολουθώντας τα με βάση τα forward optical flow estimates. Εστω Ri t+1 και Ri t+2 τα σύνολα των περιοχών στις οποίες θα βρίσκονται τα pixels του r i, στα καρέ I t+1 και I t+2 αντίστοιχα. Ακόμη, έστω Rj t+1 και Rj t+2 τα σύνολα των περιοχών στις οποίες θα βρίσκονται τα pixels του r j, στα καρέ I t+1 και I t+2. Ταξινομούμε τις περιοχές που ανήκουν στο R t+1 i με βάση το πλήθος των pixels του r t i που μετέβησαν σε κάθε μια από αυτές στο καρέ I t+1, κατά φθίνουσα σειρά. Με αυτό τον τρόπο προσπαθούμε να βρούμε την πιο αντιπροσωπευτική περιοχή ri t+1 του καρέ I t+1 που αντιστοιχεί στην ri t. Αντίστοιχα πράττουμε ώστε να βρούμε την πιο αντιπροσωπευτική περιοχή rj t+1 του καρέ I t+1 που αντιστοιχεί στην rj t. Αν κάποια σημεία, βάσει οπτικής ροής, μεταβαίνουν εκτός του πλαισίου της εικόνας, παύουμε να τα λαμβάνουμε υπόψιν μας. Λαμβάνουμε την τιμή A(ri t+1, rj t+1 ) από τον πίνακα A που αντιστοιχεί στο καρέ I t+1. Κάνουμε την ίδια ακριβώς A(r διαδικασία για το καρέ I t+2 και ελέγχουμε εάν ισχύει t+1 i,r t+1 j )+A(r t+2 i,r t+2 j ) 2 > 1.2 l, όπου l το κατώφλι ελάχιστης απαιτούμενης ομοιότητας κίνησης περιοχών. Αν πληρούται η προϋπόθεση αυτή, τότε προχωρούμε συγχωνεύοντας το ζεύγος αυτό. Ετσι, αποκτούμε μια πιο σαφή άποψη για την ομοιότητα κίνησης δύο περιοχών, αφού χωρίς το επιπρόσθετο μέτρο παρατηρούμε ότι υπάρχουν περιστασιακές ομοιότητες κίνησης περιοχών που οφείλονται σε κακή εκτίμηση οπτικής ροής, ιδιαίτερα σε περιοχές με αραιή κάλυψη τροχιών. Ο πίνακας A steer μικραίνει σε μέγεθος κατά τη διάρκεια των επαναλήψεων. Πρακτικά, συγχωνεύουμε πολλά ζεύγη περιοχών πριν επανυπολογίσουμε τις ομοιότητες κίνησης περιοχών και τα embedding distances του A steer. Το κατώφλι l αρχικοποιείται σε μια τιμή και μειώνεται κάθε φορά που από την επαναληπτική διαδικασία που περιγράφθηκε παραπάνω δεν βρίσκεται κανένα κατάλληλο ζεύγος προς συγχώνευση. Η μείωση αυτή σταματά

39 σε ένα κατώτατο όριο κατωφλίου. Παρατηρήθηκε ότι τα upper arms είναι πολύ δύσκολο να ξεχωρίσουν από το εσωτερικό του κυρίως σώματος. Ωστόσο, τα lower arms συχνά ανταποκρίνονται σε clusters περιοχών. (αʹ) Σχήμα 3.4: Το πρώτο καρέ ενός βίντεο Σχήμα 3.5: Στάδια συγχώνευσης περιοχών του πρώτου καρέ

40 3.4 Εκτίμηση πόζας 3.4.1 Ταίριασμα έλλειψης σε περιοχές Σε κάθε περιοχή ταιριάζουμε μια έλλειψη και υποθέτουμε τις αρθρώσεις του lower arm στα άκρα του μεγάλου άξονα της έλλειψης. Εστω Jk 1 και J k 2 τα σημεία των υποτιθέμενων αρθρώσεων. Χρησιμοποιώντας τα σημεία αυτά και τα ήδη γνωστά σημεία των ώμων, προσπαθούμε να κατασκευάσουμε την κινηματική αλυσίδα των χεριών του ανθρώπου. Ωστόσο, πολλές φορές στην τελική κατάτμηση που παίρνουμε παρουσιάζεται πολυκερματισμός όσον αφορά τις περιοχές που αντιστοιχούν στο lower arm, το οποίο δεν αντιστοιχεί αποκλειστικά σε μία περιοχή. Διερευνούμε τη δυνατότητα συνδυασμού των πολλών ξεχωριστών περιοχών σε συστάδες ώστε να εμφανιστεί η τελική δομή που αναζητείται, σε επόμενο όμως στάδιο. Στην παρούσα φάση, εξετάζουμε ποιό από τα δύο άκρα του μεγάλου άξονα θα μπορούσε να αντιστοιχεί στην άκρη ενός χεριού (hand endpoint). Για το σκοπό αυτό κατασκευάζουμε ένα score που αντιστοιχεί σε κάθε ένα από τα σημεία που υποθέτουμε ότι υπάρχει άρθρωση, δηλαδή τα δύο άκρα του μεγάλου άξονα κάθε έλλειψης. Με τον υπολογισμό και τη σύγκρισή αυτών των scores, καταλήγουμε σε υποτιθέμενα hand endpoints. Σχήμα 3.6: Ταίριασμα έλλειψης σε περιοχή. Η περιοχή επισημαίνεται με κίτρινο, η έλλειψη με κόκκινο και ο μεγάλος άξονας της έλλειψης με μπλέ χρώμα. Το score αυτό σημειώνεται ως score hand και εξαρτάται από τρείς παράγοντες: α) την ασυνέχεια της οπτικής ροής β) το πλάτος της οπτικής ροής γ) ένα συνδυασμό της ασυνέχειας και του πλάτους της οπτικής ροής. Αυτοί οι τρείς παράγοντες υπολογίζονται στη γειτονιά

41 του σημείου. Συγκεκριμένα, εάν w = (u, v) είναι το forward optical flow και ŵ = (û, ˆv) είναι το backward optical flow, τότε: 1. Η ασυνέχεια της οπτικής ροής προκύπτει από τον τύπο (2.18) με βάση τα w και ŵ. Κανονικοποιείται ώστε να ανήκει στο διάστημα [0, 1] και συμβολίζεται με d norm. Ο πρώτος όρος του score hand συμβολίζεται ως score 1 hand και είναι ο μέσος όρος της κανονικοποιημένης ασυνέχειας της οπτικής ροής, στα σημεία που ανήκουν σε κύκλο με κέντρο την υποτιθέμενη άρθρωση και ακτίνα ίση με 10 pixels. 2. Κανονικοποιούνται ξεχωριστά τα μεγέθη των u και v της οπτικής ροής, ώστε οι τιμές τους να ανήκουν στο διάστημα [0, 1]. Συμβολίζουμε το ημιάθροισμα των κανονικοποιημένων u p και v p ενός σημείου p : (x p, y p ) με f norm (x p, y p ) = ũp+ṽp 2. Ο δεύτερος όρος του score hand συμβολίζεται ως score 2 hand και είναι ο μέσος όρος του ημιαθροίσματος των κανονικοποιημένων u και v, στα σημεία που ανήκουν σε κύκλο με κέντρο την υποτιθέμενη άρθρωση και ακτίνα ίση με 8 pixels. 3. Ο τρίτος όρος του score hand συμβολίζεται ως score 3 hand και είναι ο μέσος όρος του πολλαπλασιασμού στοιχείο-στοιχείο των d norm και f norm, στα σημεία που ανήκουν σε κύκλο με κέντρο την υποτιθέμενη άρθρωση και ακτίνα ίση με 10 pixels. Το τελικό score hand προκύπτει από το σταθμισμένο μέσο όρο των τριών scores που αναφέρθηκαν: score hand = score1 hand + score2 hand + 2 score3 hand 4 (3.13) (αʹ) (βʹ) Σχήμα 3.7: α) Forward optical flow β) Backward optical flow

42 Σχήμα 3.8: Ασυνέχεια οπτικής ροής: είναι φανερό ότι παρουσιάζει υψηλές τιμές σε όρια ανάμεσα σε αντικείμενα με διαφορετική κίνηση, ωστόσο όταν δεν υπάρχει σημαντική πληροφορία κίνησης σε κάποιο καρέ, αυτό δεν ισχύει. Η ασυνέχεια οπτικής ροής είναι κρίσιμο στοιχείο για τον προσδιορισμό της άκρης ενός χεριού Σχήμα 3.9: Παράδειγμα εντοπισμού endpoint μιας περιοχής και εμφάνιση μιας εν δυνάμει κινηματικής αλυσίδας. Η άκρη εντοπίζεται σωστά και εμφανίζεται η κινηματική αλυσίδα ώμος-αγκώνας-καρπός. Ωστόσο, αυτό δεν αναπαριστά την τελική πόζα, καθώς είναι απλά μια αρχική υπόθεση.

43 Σε κάθε έλλειψη, το άκρο του μεγάλου άξονα με το υψηλότερο score hand είναι το άκρο που αντιστοιχεί στην υποτιθέμενη άκρη του χεριού, δηλαδή τον καρπό. Το άλλο άκρο, αντιστοιχεί στον υποτιθέμενο αγκώνα. 3.4.2 Προεπιλογή πιθανών περιοχών Οπως αναφέρθηκε παραπάνω, όταν υπάρχει πολυκερματισμός στις περιοχές του χεριού, πρέπει να αποκλείσουμε κάποιες, από τις πιθανές περιοχές που εμπλέκονται στην κινηματική αλυσίδα των χεριών. Καταρχάς, αποκλείονται όλες οι περιοχές που ανήκουν στο background του καρέ (x B q = 1), όλες οι περιοχές πάνω στις οποίες έχει εντοπιστεί σημείο ενδιαφέροντος του προσώπου (facian landmark points) από τον ανιχνευτή προσώπου καθώς και όλες οι περιοχές που έχουν μήκος μεγάλου άξονα έλλειψης μεγαλύτερο από την απόσταση μεταξύ των 2 ώμων. Κατασκευάζεται ακόμη ένα score, αυτή τη φορά με σκοπό την ταξινόμηση των περιοχών, σε αυτές που εμπλέκονται στην κινηματική αλυσίδα και σε αυτές που δεν εμπλέκονται. Το score αυτό, που το ονομάζουμε score final, εξαρτάται από 3 όρους: Ο πρώτος όρος, προκύπτει από τα 2 score hand της περιοχής. Συμβολίζεται ως score 1 final και ισχύει score 1 final = max(score1 hand, score2 hand ) (3.14) Είναι προφανές ότι οι περιοχές που θα ανήκουν στο lower arm έχουν μεγάλη σχέση με αυτό τον όρο. Ο δεύτερος όρος αναπαριστά την απόκριση της περιοχής σε ένα φίλτρο που εξετάζει την ομοιότητα του χρώματος της περιοχής με το χρώμα του δέρματος και συμβολίζεται ως score 2 final. Η μορφή χρώματος της εικόνας μετατρέπεται από RGB σε YCbCr και εξετάζεται η απόκλιση των χρωματικών συνιστωσών από το χρώμα του δέρματος, σύμφωνα με τους παρακάτω τύπους: 102 C b 114.5 (3.15) 154 C r 161 (3.16) Εξάγεται η αρχική απόκριση στο φίλτρο αυτό, filter skin [0, 1]. Στην απόκριση αυτή θέτουμε ένα κατώφλι ελάχιστης τιμής thres skin = 0.6 και μηδενίζουμε την απόκριση σε όσα σημεία δεν ικανοποιούν τη συνθήκη filter skin thres skin. Κανονικοποιούμε το νέο filter skin στο διάστημα [0, 1]. Η τιμή του score 2 final είναι ο μέσος όρος της κανονικοποιημένης απόκρισης στα pixels του εξεταζόμενου region.

44 score 2 final = p r i filter skin (x p, y p ) r i (3.17) Ο τρίτος όρος συμβολίζεται ως score 3 final και είναι ο μέσος όρος του πολλαπλασιασμού στοιχείο-στοιχείο των f norm και filter skin, στα pixels του εξεταζόμενου region. score 3 final = p r i filter skin (x p, y p ) f norm (x p, y p ) r i (3.18) όπου ως συμβολίζεται ο πολλαπλασιασμός στοιχείο-στοιχείο δύο πινάκων. (αʹ) (βʹ) Σχήμα 3.10: α) Αρχική απόκριση χρωματικού φίλτρου β) Τελική κανονικοποιημένη α- πόκριση. Στο κάτω μέρος των εικόνων, παρατηρούμε την υψηλή απόκριση ενός ξύλινου επίπλου στο φίλτρο αυτό, η οποία δεν εντάσσεται στο επιδιωκόμενο αποτέλεσμα. Για το σκοπό αυτό, κατασκευάζεται το score 3 final και τα αποτελέσματά του στη συγκεκριμένη περιοχή φαίνονται στο επόμενο σχήμα (αʹ) (βʹ) Σχήμα 3.11: Οπτικοποίηση του filter skin f norm : α) Καρέ στο οποίο ο όρος αυτός βοηθά στη διάκριση και των δύο χεριών β) Καρέ στο οποίο η έλλειψη σημαντικής κίνησης στο ένα χέρι, οδηγεί σε χαμηλή συνεισφορά του όρου αυτού

45 Το τελικό score final προκύπτει από το σταθμισμένο μέσο όρο των τριών scores που αναφέρθηκαν: score final = α score1 final + β score2 final + γ score3 final α + β + γ (3.19) Οι παράμετροι α β, γ μπορούν να μεταβάλλονται, ανάλογα με την εξεταζόμενη ακολουθία. Ταξινομούμε κατά φθίνουσα σειρά τα τελικά score final και προεπιλέγουμε τις περιοχές που αντιστοιχούν στα n πρώτα, ως πιθανές περιοχές που εμπλέκονται στην κινηματική αλυσίδα και αναφέρονται στο lower arm. (αʹ) (βʹ) Σχήμα 3.12: α) Αρχική εικόνα β) Προεπιλογή των περιοχών με τα 5 μεγαλύτερα score final 3.4.3 Επιλογή τελικών περιοχών Στο στάδιο αυτό, με βάση τις προεπιλεγμένες περιοχές κατασκευάζεται η τελική πόζα, όπως αυτή εκφράζεται από τις κινηματικές αλυσίδες του αριστερού και του δεξιού χεριού. Υπολογίζουμε τα κεντροειδή της κάθε περιοχής και έπειτα κάνουμε k-means clustering στα κεντροειδή και χωρίζουμε τις περιοχές σε 2 clusters, ένα για κάθε χέρι. Πλέον, μπορούν να σχηματιστούν οι κινηματικές αλυσίδες. Προκειμένου να υπάρχει διάδοση της πληροφορίας πόζας από καρέ σε καρέ, εφαρμόζεται ανάλυση προκρούστη (Procrustes analysis) στα keypoints που ορίζουν την πόζα σε κάθε καρέ, ώστε να εντοπιστούν τυχόν μεγάλες μεταβολές στο σχήμα των κινηματικών αλυσίδων, τέτοιες που θα οδηγούσαν σε λανθασμένη πρόβλεψη πόζας. Η ανάλυση του Προκρούστη αντιστοιχίζει δύο σύνολα τοπολογικών δεδομένων (π.χ. γεωμετρικές τοποθεσίες των σημείων ενός σχήματος) ώστε να υπολογίσει έναν ευκλείδιο μετασχηματισμό, διατηρώντας το αρχικό σχήμα σε ένα νέο σύστημα συντεταγμένων. Ελαχιστοποιείται η απόσταση ανάμεσα στα δύο σχήματα, όπως αυτή μετράται σύμφωνα με το

46 άθροισμα των τετραγωνικών διαφορών (sum of squared differences, SSD). Η συνάρτηση Προκρούστη δέχεται δύο πίνακες ως είσοδο: τον 3 2 πίνακα X με τις συντεταγμένες των τριών σημείων της κινηματικης αλυσίδας στο καρέ I t 1 και τον 3 2 πίνακα Y με τις συντεταγμένες των σημείων της υποτιθέμενης κινηματικής αλυσίδας, της οποίας η ορθότητα εξετάζεται στο καρέ I t. Σχήμα 3.13: Αναπαράσταση των διαδοχικών σταδίων (μετατόπιση, κλιμάκωση και περιστροφή) της ανάλυσης Προκρούστη. Η εξίσωση για την απόκτηση του μετασχηματισμένου σχήματος Z, είναι Z = by T + c.το b είναι ένας παράγοντας κλίμακας, που μεγενθύνει (εάν b > 1) ή συρρικνώνει (εάν b < 1) ένα σχήμα. Στην περίπτωσή μας, θέτουμε b = 1 ώστε να γίνεται ανάλυση Προκρούστη χωρίς να λαμβάνεται υπόψιν η κλιμάκωση. Το T είναι ένας πίνακας περιστροφής (rotation). Το c είναι ένας πίνακας με σταθερές τιμές σε κάθε στήλη, που χρησιμοποιείται για την μετατόπιση (translation) των σημείων. Το άθροισμα που ελαχιστοποιείται, είναι το D = 3 3 (X ij Y ij ) 2 (3.20) i=1 j=1 Τα αποτελέσματα που παίρνουμε από την ανάλυση Προκρούστη, συνδυάζονται με ένα επιπρόσθετο μέτρο, ώστε να καταλήξουμε σε ασφαλή συμπεράσματα όσον αφορά περιοχές που έχουν προεπιλεχθεί λανθασμένα ως μέρη κινηματικής αλυσίδας. Το μέτρο αυτό, προκύπτει ως εξής για την κάθε περιοχή r i του καρέ I t :

47 1. Βρίσκονται τα κεντροειδή των περιοχών οι οποίες ανήκουν στην κινηματική αλυσίδα του καρέ I t 1. 2. Γίνεται warp των κεντροειδών αυτών, με βάση την οπτική ροή, στο καρέ I t. 3. Υπολογίζονται οι αποστάσεις του κεντροειδούς της r i από τα warped κεντροειδή. Ε- ξετάζεται το μέγεθος της ελάχιστης από τις αποστάσεις αυτές. Εάν είναι μεγάλο, τότε αυτό συνιστά σοβαρή ένδειξη ότι η περιοχή αυτή δεν πρέπει να ανήκει στις περιοχές της τελικής πόζας. 3.4.4 Τελική εκτίμηση πόζας Εχοντας κατατάξει τις περιοχές που ανήκουν στα lower arms της πόζας σε δύο clusters, παίρνουμε τα σύνολα R left lower και Rright lower. Ταιριάζουμε μια έλλειψη και σχηματίζουμε τον μεγάλο άξονά της, σε κάθε ένα από αυτά τα δύο σύνολα. Ο άξονας αυτός, αντιστοιχεί πλέον στο αντίστοιχο lower arm. Ακολουθείται η ίδια διαδικασία με αυτή που περιγράφθηκε στην ενότητα 3.4.1 για τον προσδιορισμό του endpoint στα άκρα αυτού του άξονα. Εχοντας υπολογίσει και τα τελικά endpoints, έχουμε περιγράψει πλήρως τις κινηματικές αλυσίδες που προσδιορίζουν την πόζα. Σχήμα 3.14: Υποψήφιες περιοχές lower arm μετά από προεπιλογή

48 Σχήμα 3.15: Μεγάλοι άξονες των τελικών ελλείψεων που αντιστοιχούν σε lower arm. Απομένει η αντιστοίχισή τους σε ώμους. Σχήμα 3.16: Κινηματικές αλυσίδες που προκύπτουν μετά από αντιστοίχιση των μεγάλων αξόνων στους ώμους με τους οποίους συνδέονται.

Σχήμα 3.17: Παράδειγμα μεγάλης στιγμιαίας μετατόπισης χεριού. Στην πάνω σειρά φαίνεται η οπτική ροή προς τα εμπρός και στη μεσαία σειρά η οπτική ροή προς τα πίσω. Η πόζα διαδίδεται σωστά στο χρόνο. 49

Κεφάλαιο 4 Πειράματα 4.1 Dataset Το σετ δεδομένων που χρησιμοποιήθηκε στα πειράματα, περιλαμβάνει δύο πηγές. Η πρώτη είναι ένα μέρος των εικόνων του dataset VideoPose 2.0 [22] που χρησιμοποιείται και στη μέθοδο των [8]. Η δεύτερη πηγή είναι καρέ τα οποία εξήχθησαν από βίντεο που καταγράψαμε με την κάμερα ενός iphone. Ολες οι εικόνες είναι έγχρωμες, με αναλύση 540 720 pixels. Προέρχονται από βίντεο με 25 καρέ ανά δευτερόλεπτο από τα οποία παραλείπουμε κάθε δεύτερο καρέ. 4.2 Διεξαγωγή πειραμάτων Τα πειράματα γίναν σε σταθερό υπολογιστή με χρήση του λογισμικού Matlab. Το σύστημα στο οποίο γίναν, είναι το εξής: Λειτουργικό σύστημα: Linux Ubuntu 14.04 Επεξεργαστής: Intel R Core TM 2 Duo Processor E8400 (6M Cache, 3.00 GHz, 1333 MHz FSB) Μνήμη RAM: DDR2 4GB Κάρτα γραφικών: NVIDIA GeForce GTX 260 Η διαδικασία που ακολουθήθηκε για την απόκτηση της τελικής κατάτμησης, συνοψίζεται στο ακόλουθο διάγραμμα. 50

51 Σχήμα 4.1: Διάγραμμα επαναληπτικής συγχώνευσης περιοχών 4.3 Συμπεράσματα Η εξεταζόμενη μέθοδος, πετυχαίνει τον υπολογισμό και την παρακολούθηση της πόζας του άνω μέρους του ανθρώπινου σώματος. Οι ανακριβείς πληροφορίες οπτικής ροής, αποδεικνύονται αρκετά χρήσιμες όταν αξιοποιηθούν καταλλήλως ανάλογα με την περιοχή από την οποία προέρχονται. Διάφορες παράμετροι μπορούν να αλλάξουν τιμή ανάλογα με το είδος της αλληλουχίας εικόνων, ώστε να πάρουμε το επιθυμητό αποτέλεσμα.

52 Για παράδειγμα, μειώνοντας την τιμή της μεταβλητής σ που χρησιμοποιείται στον υπολογισμό των affine motion models, πρακτικά απαιτούμε πιο αυστηρή ομοιότητα ανάμεσα σε 2 μοντέλα κίνησης, ώστε να έχουν υψηλό affinity. Στο παρακάτω σχήμα, παρατίθεται μια οπτικοποίηση του πίνακα A με δύο διαφορετικές τιμές του σ προς σύγκριση, ώστε να φανεί πως επηρεάζονται τα region affinities από τη συγκεκριμένη παράμετρο. Το μπλε χρώμα υποδηλώνει χαμηλό affinity, ενώ το κόκκινο χρώμα υψηλό affinity. (αʹ) (βʹ) Σχήμα 4.2: Οπτικοποίηση affinity matrix για 251 regions και μεταβολή παραμέτρου μοντέλων κίνησης: α) σ=0.1 β) σ=0.5. Παρατηρούμε το εξής: εμφανίζονται affinities ανάμεσα σε περιοχές οι οποίες δεν έχουν

53 πυκνή κάλυψη τροχιών, ακόμη κι αν αυτές απέχουν πολύ μεταξύ τους (καθώς η αρίθμηση των περιοχών γίνεται από πάνω προς τα κάτω κι από αριστερά προς τα δεξιά). Αυτό επιβεβαιώνεται κι από το ακόλουθο σχήμα, όπου φαίνεται ένας πίνακας, του οποίου τα στοιχεία (i, j) έχουν τιμή 1 (κόκκινο χρώμα) όταν οι περιοχές r i και r j έχουν πυκνή κάλυψη τροχιών, ενώ έχουν τιμή 0 (μπλε χρώμα) σε άλλη περίπτωση. Σχήμα 4.3: Πίνακας κάλυψης τροχιών Τα affinities που εμφανίστηκαν με την αύξηση του σ, βρίσκονται πάνω σε γραμμές και στήλες που αντιστοιχούν σε περιοχές με αραιή κάλυψη τροχιών. Παρομοίως, μπορούμε να αλλάξουμε την τιμή της μεταβλητής που συσχετίζει την απόσταση μεταξύ 2 τροχιών, με το trajectory affinity τους. Επίσης, για να αποφύγουμε την ύπαρξη υψηλών trajectory affinities ανάμεσα σε τροχιές που απέχουν πολύ μεταξύ τους, μπορούμε να μειώσουμε το cut-off distance τόσο στον οριζόντιο, όσο και στον κάθετο άξονα, ώστε για αποστάσεις πάνω από κάποιο όριο, να μηδενίζεται το affinity. Να σημειωθεί ότι το τελευταίο μέτρο δεν κρίνεται πάντα ως επιθυμητό, αφού είναι δυνατό κάποια σημεία που απέχουν πολύ μεταξύ τους, να ανήκουν στο ίδιο αντικείμενο και άρα να καταγράφουν την ίδια κίνηση. Στην περίπτωσή μας όμως, θεωρήθηκε ως δεδομένο ότι δεν επιθυμούμε να εργαστούμε αξιοποιώντας κάτι τέτοιο. Οσον αφορά τη μεταβολή της παραμέτρου απόστασης τροχιών, συγκρίνοντας τα 2 πειράματα, βλέπουμε ότι στη δεύτερη περίπτωση (με λιγότερο αυστηρό μέτρο) δε μπορεί να γίνει καλή διάκριση με βάση το region motion affinity, επειδή ένα μεγάλο μέρος των ζευγών που έχουν υψηλό affinity, έχει και μικρό εύρος τιμών του affinity. Παρατηρούμε δηλαδή, ότι ακόμη και σε ζεύγη περιοχών, η απόσταση των οποίων είναι περίπου στα όρια του cut-off distance,

54 εμφανίζονται πολύ υψηλά affinities, συνεπώς δε μπορεί να γίνει ορθή διάκριση διαφορετικών κινήσεων. (αʹ) (βʹ) Σχήμα 4.4: Οπτικοποίηση affinity matrix και μεταβολή της παραμέτρου σ eucl : α) σ eucl = 0.01 β) σ eucl = 0.001. Οσον αφορά τη μεταβολή του cut-off distance, συγκρίνοντας τα 2 πειράματα, βλέπουμε στο παρακάτω σχήμα ότι στη δεύτερη περίπτωση (με μεγαλύτερο cut-off distance) εμφανίζονται affinities μεταξύ περιοχών οι οποίες μέχρι πρότινος είχαν μηδενικό affinityλόγω της απόστασής τους, συνεπώς και της απόστασης μεταξύ των τροχιών τους. Το cut-off distance που χρησιμοποιήθηκε στα πειράματα, κυμάνθηκε από το 1 4 εώς το 1 6 του πλάτους και του ύψους της εικόνας. Να σημειωθεί ότι όσο μεγαλώνει αυτός ο λόγος, τόσο περισσότερος χρόνος απαιτείται για τον υπολογισμό των trajectory affinities.

55 (αʹ) (βʹ) Σχήμα 4.5: Οπτικοποίηση affinity matrix και μεταβολή της παραμέτρου cut-off distance: α) cut off x = 1 7 και cut off y = 1 7 β) cut off x = 1 5 και cut off y = 1 5. Οσον αφορά την παράμετρο ρ που καθορίζει το εάν μια περιοχή έχει πυκνή κάλυψη τροχιών, παρακάτω δίνεται το σχήμα 56, ως παράδειγμα προς σχολιασμό. Παρατηρούμε ότι αραιή κάλυψη τροχιών δεν έχουν μόνο οι περιοχές όπου υπάρχει γρήγορη κίνηση και μεγάλες μετατοπίσεις (π.χ. χέρια), αλλά και περιοχές που η υφή τους δεν επιτρέπει τον ακριβή υπολογισμό της οπτικής ροής (π.χ. επιφάνεια μωβ τοίχου ή μαύρο ρούχο, χωρίς καμιά λεπτομέρεια). Παρατηρούμε ότι η πλειοψηφία των συγχωνεύσεων περιοχών, αφορά ζεύγη με πυκνή κάλυψη τροχιών. Αυτό σημαίνει ότι, όσον αφορά το κρίσιμο κομμάτι της εικόνας, δηλαδή τις περιοχές που σχετίζονται με την κινηματική αλυσίδα των χεριών, η αραιή κάλυψή τους από τροχιές

56 (αʹ) (βʹ) Σχήμα 4.6: Πυκνότητα κάλυψης τροχιών σε ένα καρέ: α) οπτικοποίηση του λόγου T r i β) το αρχικό καρέ σημαίνει και λιγότερες πιθανότητες να ξεκαθαριστεί η κατάτμηση της εικόνας μέσα από το επαναληπτικό σχήμα των συγχωνεύσεων. Πράγματι, υπάρχουν πειράματα στα οποία η κατάτμηση της εικόνας σε αυτές τις περιοχές μεταβάλλεται ελάχιστα εώς και καθόλου. Εάν δηλαδή ένα χέρι είναι αρχικά κατακερματισμένο σε πολλές περιοχές, τότε είναι πιθανό να μην γίνει εφικτή η συγχώνευσή τους μέσα από το επαναληπτικό σχήμα. Ωστόσο, είναι σημαντικό το γεγονός ότι αρκετά συχνά οι περιοχές που δεν ανήκουν στα χέρια αλλά βρίσκονται κοντά τους, επιλέγονται προς συγχώνευση, συμβάλλοντας έτσι στην απόκτηση μιας πιο σαφούς εικόνα για την κίνηση, μέσα από την κατάτμηση της εικόνας. Ιδιαίτερα θετική αποτιμάται η συμβολή του επιπρόσθετου, αυστηρότερου μέτρου ομοιότητας

57 κίνησης μεταξύ περιοχών. Χωρίς αυτό, ήταν ιδιαίτερα συχνή η επιλογή ζευγών περιοχών προς συγχώνευση, χωρίς η ομοιότητα κίνησής τους να επιβεβαιώνεται από την πραγματικότητα. Ετσι, απαιτώντας πιο αυστηρή ομοιότητα σε βάθος χρόνου, ακόμα και σε περιοχές που δε καλύπτονται πυκνά από τροχιές, αποφεύγονται τέτοιου είδους λάθη. Βέβαια, πέρα από τη θετική συμβολή, το μέτρο αυτό έχει ως παράπλευρο και ανεπιθύμητο αποτέλεσμα, την απόρριψη ζευγών περιοχών τα οποία διαφορετικά θα συγχωνευόταν. Αυτό έγινε προσπάθεια να μετριαστεί/αντιμετωπιστεί, με μεταβολή του κατωφλιού που απαιτείται ώστε να επιλεχθεί κάποιο ζεύγος προς συγχώνευση, με βάση αυτό το αυστηρότερο μέτρο. Ακόμη κι αυτό το επιπρόσθετο μέτρο όμως, επιτυγχάνει στην πράξη μέχρι ένα συγκεκριμένο ελάχιστο όριο τιμής-κατωφλίου του region motion affinity. Εάν δεν τηρηθεί αυτό, τότε το μέτρο αυτό δεν είναι ικανό να απορρίψει ένα ζεύγος που λανθασμένα επιλέγεται προς συγχώνευση. Στο παρακάτω σχήμα, φαίνεται ένα παράδειγμα επιλογής λάθος ζεύγους περιοχών προς συγχώνευση. Σχήμα 4.7: Παράδειγμα εσφαλμένης επιλογής ζεύγους περιοχών προς συγχώνευση Ενα πρόβλημα που αντιμετωπίστηκε και του οποίου η αντιμετώπιση δεν είναι δυνατή, έχει να κάνει με τη μέθοδο κατάτμησης εικόνας [12]. Κάποιες φορές, η κατάτμηση που παίρνουμε ως αποτέλεσμα της μεθόδου αυτής, είναι ακατάλληλες για χρήση. Συγκεκριμένα, εμφανίζονται ως μια ενιαία περιοχή, pixels τα οποία ανήκουν σε διαφορετικά αντικείμενα. Για παράδειγμα, στο παρακάτω σχήμα, η παλάμη εμφανίζεται να ανήκει στην ίδια περιοχή με τον τοίχο που βρίσκεται πίσω της, προφανώς λόγω ομοιότητας των χρωμάτων τους. Εάν αυτή η εικόνα δινόταν ως είσοδος στη συνέχεια της μεθόδου μας, θα είχε ως αποτέλεσμα το να θεωρηθεί μέρος της παλάμης και μέρος του τοίχου ως ενιαία περιοχή, άρα οι πληροφορίες οπτικής ροής που αντιστοιχούν και στα δύο να ληφθούν υπόψιν στον υπολογισμό των region affinities. Από τα αποτελέσματα, προκύπτει ότι με την υλοποίηση που παρουσιάστηκε, είναι δυνατό να εκτιμηθεί και να παρακολουθηθεί η πόζα του άνω μέρους ενός ανθρώπινου σώματος. Ακόμη

58 (αʹ) (βʹ) Σχήμα 4.8: Παράδειγμα εσφαλμένης κατάτμησης εικόνας: α) η εσφαλμένη κατάτμηση β) το αρχικό καρέ και σε περιπτώσεις όπου η υπολογισθείσα οπτική ροή απέχει σημαντικά από την πραγματική, αυτό είναι δυνατό. Ενας σημαντικός παράγοντας για την επιτυχία του αλγορίθμου, είναι η κατάτμηση εικόνας να ανταποκρίνεται στην πραγματικότητα, δηλαδή η μέθοδος [12] να μη δώσει ως έξοδο, περιοχές οι οποίες περικλείουν pixels από 2 διαφορετικά αντικείμενα (π.χ. ένα region να περιέχει τόσο pixels του lower arm, όσο και το background). Ο χρόνος εκτέλεσης εξαρτάται από πολλούς παράγοντες, με σημαντικότερους το βήμα δειγματοληψίας των τροχιών και το κατώφλι που σχετίζεται με το πλήθος των περιοχών που