ARISTOTLE UNIVERSITY OF THESSALONIKI. Abstract
|
|
- Μέλισσα Δουρέντης
- 8 χρόνια πριν
- Προβολές:
Transcript
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Αναγνώριση πόζας άνω μέρους ανθρώπινου σώματος με συνδυασμό πληροφοριών κίνησης και ανίχνευσης ανθρωπίνων μελών Γεώργιος Ζουμπουρλής Επιβλέπων καθηγητής: Αναστάσιος Ντελόπουλος Διπλωματική εργασία που υποβλήθηκε στα πλαίσια της ολοκλήρωσης του διπλώματος Ηλεκτρολόγου Μηχανικού και Μηχανικού Υπολογιστών Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών 27 Νοεμβρίου 2015
2 - ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Περίληψη Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Δίπλωμα Ηλεκτρολόγου Μηχανικού και Μηχανικού Υπολογιστών Γεώργιος Ζουμπουρλής Αναγνώριση πόζας άνω μέρους ανθρώπινου σώματος με συνδυασμό πληροφοριών κίνησης και ανίχνευσης ανθρωπίνων μελών Η αναγνώριση και παρακολούθηση της ανθρώπινης πόζας μπορεί να είναι αρκετά επιτυχής σε μέλη όπως το πρόσωπο και το κυρίως σώμα, ωστόσο συχνά αποτυγχάνει στον εντοπισμό των άκρων, ιδιαίτερα σε συνθήκες γρήγορης κίνησής τους ή σπάνιας πόζας. Στην παρούσα εργασία προτείνεται μια μέθοδος που συνδυάζει τη δυνατότητα ανίχνευσης βασικών ανθρωπίνων μελών και την ομαδοποίηση κίνησης στα πιο παραμορφώσιμα μέλη, ώστε να διαχωριστούν τα τελευταία από το υπόλοιπο σώμα και το φόντο. Με αυτό τον τρόπο συγχωνεύονται περιοχές των αρχικών κατατμήσεων των εικόνων και επιλύονται αμφιβολίες ανάμεσα σε τοπικά χαρακτηριστικά, όπως η οπτική ροή και τα όρια των κατατμήσεων. Μεταβαίνοντας από τις κατατμήσεις των εικόνων σε στοιχεία πόζας, προκύπτουν η τελική πόζα και οι αρθρωτές κινηματικές αλυσίδες των χεριών, που ο περιβάλλων θόρυβος και η λανθασμένη ευθυγράμμιση πόζας καθιστούσε δύσκολο τον εντοπισμό τους με βάση προηγούμενες μεθόδους. -
3 ARISTOTLE UNIVERSITY OF THESSALONIKI Abstract Faculty of Engineering Department of Electrical and Computer Engineering Information Processing Laboratory Diploma of Electrical and Computer Engineering George Zoumpourlis Upper-body pose recognition combining motion information and body parts detection Human pose recognition and tracking can be succesful in localising faces and torsos of people, but often fails with lower arms, especially in conditions of large displacements or rare poses. In the present work, we present a method that combines information of body parts recognition and motion grouping of deformable human parts, to segment them from the rest of the body and their backgrounds. Image regions are iteratively merged and ambiguations about local cues like optical flow and segmentation boundaries are solved. The final upper-body pose and articulated kinematic chains, that otherwise would have been missed by pose detectors due to surrounding clutter or misalignment of pose, are estimated confidently by obtaining pose cues from image segmentation. -
4 Ευχαριστίες Θα ήθελα να ευχαριστήσω από καρδιάς τον κ. Αναστάσιο Ντελόπουλο για το πολύ ενδιαφέρον θέμα της παρούσας διπλωματικής εργασίας που μου εμπιστεύθηκε και για τη βοήθειά του καθ όλη τη διάρκεια της εκπόνησής της. Επίσης, θα ήθελα να ευχαριστήσω τους γονείς μου, Βασίλη και Δώρα, για την υπομονή και τη στήριξή τους όλα αυτά τα χρόνια. Τέλος, θα ήθελα να ευχαριστήσω όλους τους φίλους και όλες τις φίλες για τις υπέροχες στιγμές που μου χάρισαν. Νιώθω πολύ τυχερός που, εκτός από τις γνώσεις που αποκόμισα, αυτές οι σπουδές αποτέλεσαν την αφορμή για να βρεθώ δίπλα σε τόσο αξιόλογους ανθρώπους. iii
5 Περιεχόμενα Περίληψη i Abstract ii Ευχαριστίες iii Σελίδα Κατάλογος σχημάτων vi 1 Εισαγωγή Παλιότερες προσεγγίσεις Pictorial structures for object recognition Learning to parse images of articulated bodies D Human Pose Estimation in TV shows Παρόμοιες προσεγγίσεις Body Part Detectors Trained Using 3D Human Pose Annotations Using k-poselets for detecting people and localizing their keypoints Strike a Pose: Tracking People by Finding Stylized Poses Parsing Human Motion with Stretchable Models Προτεινόμενη μέθοδος Δομή εργασίας Θεωρητικό μέρος Κατάτμηση εικόνας Η κατάτμηση εικόνας γενικά Κατάτμηση εικόνας με hierarchical contours Ο αλγόριθμος SIFT Οπτική ροή Η οπτική ροή γενικά Η οπτική ροή Horn-Schunck Οπτική ροή υψηλής ακριβείας LDOF: Οπτική ροή για μεγάλες μετατοπίσεις Τροχιές σημείων Οι τροχιές σημείων γενικά Πυκνές τροχιές σημείων Ομοιότητες μεταξύ τροχιών iv
6 v 2.5 Affine μοντέλα κίνησης Συσταδοποίηση γράφου με χρήση κανονικοποιημένων τομών Ανιχνευτής k-poselet Ανιχνευτής προσώπου Προτεινόμενη μεθοδολογία Ομοιότητες με βάση την κίνηση Συμβατότητα affine μοντέλων περιοχών Μέση ομοιότητα τροχιών περιοχών Ομοιότητα κίνησης περιοχών Απωθήσεις με βάση την ανίχνευση μελών Κατευθυνόμενες τομές Εκτίμηση πόζας Ταίριασμα έλλειψης σε περιοχές Προεπιλογή πιθανών περιοχών Επιλογή τελικών περιοχών Τελική εκτίμηση πόζας Πειράματα Dataset Διεξαγωγή πειραμάτων Συμπεράσματα Μελλοντική βελτίωση Βιβλιογραφία 60
7 Κατάλογος Σχημάτων 1.1 Παράδειγμα μοντέλου pictorial structure Παράδειγμα αρχικής κατασκευήςedge-based deformable model Παράδειγμα εφαρμογής της τεχνικής του Ferrari Αναπαράσταση της τεχνικής των stretchable models Κατάτμηση εικόνας και ιεραρχικά περιγράμματα Γκαουσιανό φιλτράρισμα εικόνας Αναπαράσταση Difference of Gaussians Αναζήτηση ακροτάτων στην Difference of Gaussians Πλάτος και προσανατολισμός κλίσης εικόνας Καταχώρηση προσανατολισμών σε SIFT keypoint Υπολογισμός SIFT descriptor Αντιστοίχιση σημείων με SIFT descriptor Σύγκριση κλασσικής μεθόδου οπτικής ροής και LDOF σε μεγάλη μετατόπιση Εξέλιξη υπολογισμού οπτικής ροής με coarse-to-fine warping Σταθμισμένος γράφος Βαθμός κόμβου και όγκος κόμβων γράφου Παράδειγμα πιθανών τομών σε ένα γράφο Τομή γράφου Παράδειγμα εφαρμογής k-poselet Παράδειγμα ανίχνευσης προσώπου Αρχική κατάτμηση ενός καρέ Μάσκες για διαχωρισμό φιγούρας-υποβάθρου Τροχιές και ομοιότητες τροχιών Το πρώτο καρέ ενός βίντεο Στάδια συγχώνευσης περιοχών του πρώτου καρέ Ταίριασμα έλλειψης σε ένα region Οπτική ροή σε ένα καρέ Ασυνέχεια οπτικής ροής Εντοπισμός endpoint μιας περιοχής και εμφάνιση μιας εν δυνάμει κινηματικής αλυσίδας Χρωματικό φίλτρο για ανίχνευση δέρματος Συνδυασμός οπτικής ροής και χρωματικού φίλτρου ανίχνευσης δέρματος Υποψήφια regions αρθρωτής κινηματικής αλυσίδας Ανάλυση Προκρούστη Υποψήφιες περιοχές lower arm μετά από προεπιλογή Μεγάλοι άξονες τελικών ελλείψεων που αντιστοιχούν σε lower arm vi
8 vii 3.16 Αρθρωτές κινηματικές αλυσίδες τελικής πόζας Διάδοση πόζας σε συνθήκες γρήγορης κίνησης Διάγραμμα επαναληπτικής συγχώνευσης περιοχών Οπτικοποίηση affinity matrix και μεταβολή παραμέτρου μοντέλων κίνησης Πίνακας κάλυψης τροχιών Οπτικοποίηση affinity matrix και μεταβολή της παραμέτρου σ eucl Οπτικοποίηση affinity matrix και μεταβολή της παραμέτρου cut-off distance Πυκνότητα κάλυψης τροχιών σε ένα καρέ Παράδειγμα εσφαλμένης επιλογής ζεύγους περιοχών προς συγχώνευση Παράδειγμα εσφαλμένης κατάτμησης εικόνας
9 - viii
10 Κεφάλαιο 1 Εισαγωγή Ως εκτίμηση αρθρωτής ανθρώπινης πόζας (articulated human pose estimation), ορίζουμε τη μελέτη αλγορίθμων και συστημάτων που ανιχνεύουν την πόζα ενός σώματος, αποτελούμενη από μια διαδοχή μελών (parts) τα οποία συνδέονται με αρθρώσεις (joints). Η εκτίμηση της ανθρώπινης πόζας είναι ένα από τα μεγαλύτερα προβλήματα τα οποία μελετά η επιστήμη της όρασης υπολογιστών (computer vision), λόγω της αφθονίας των εφαρμογών που μπορούν να επωφεληθούν από αυτή, όπως οι εφαρμογές επιτήρησης (π.χ. η αναγνώριση δραστηριότητας και η ανάλυση συμπεριφοράς), οι εφαρμογές ελέγχου (π.χ. αλληλεπίδραση ανθρώπου-μηχανής, έλεγχος ρομπότ) και οι εφαρμογές ανάλυσης (π.χ. ανάλυση επίδοσης αθλητών, ορθοπεδική διάγνωση ασθενή, ανάλυση χειρονομίας). Ο προσδιορισμός της 2D ανθρώπινης πόζας από αλληλουχίες εικόνων που έχουν ληφθεί από μονοσκοπική κάμερα, είναι μια ιδιαίτερα περίπλοκη διαδικασία, λόγω της μεγάλης ποικιλίας ανθρώπινης εμφάνισης και της ανακριβούς πληροφορίας κίνησης. Η ανθρώπινη εμφάνιση επηρεάζεται από παράγοντες όπως ο ρουχισμός, οι συνθήκες λήψης εικόνας (π.χ. φωτισμός), η απώλεια πληροφορίας κατά τη μετάβαση από τις 3 διαστάσεις στην δισδιάστατη επίπεδη προβολή εικόνας. Ενας ακόμη παράγοντας είναι η περιπλοκότητα της ανθρώπινης σκελετικής δομής και το υπερβολικά μεγάλο εύρος πόζας που χαρακτηρίζει τη φύση του ανθρώπου. Οι πληροφορίες που προέρχονται από εκτίμηση κίνησης, όπως η οπτική ροή (optical flow), είναι ανακριβείς όταν συμβαίνουν γρήγορες κινήσεις και μεγάλες μετατοπίσεις. Τα μέλη της πόζας μπορούν να είναι άκαμπτα (rigid) όπως το κυρίως σώμα ή παραμορφώσιμα (deformable) όπως τα χέρια. Στην παρούσα εργασία, τα σημεία (keypoints) που απαιτούνται για την εκτίμηση πόζας αναφέρονται στο άνω μέρος του σώματος (upper-body), δηλαδή το κυρίως σώμα (torso), το πρόσωπο (face), τους ώμους (shoulders), τον αγκώνα (elbow) και τον καρπό (wrist). Το τμήμα από τον ώμο ως τον αγκώνα αποτελεί το ανώτερο μέρος του χεριού (upper arm), ενώ το τμήμα απο τον αγκώνα ως τον καρπό αποτελεί το κατώτερο μέρος του χεριού (lower arm). 1
11 2 Πολλά επιστημονικά πεδία μπορούν να συνεισφέρουν στην επίλυση των παραπάνω ζητημάτων τα οποία σχετίζονται με την εκτίμηση της ανθρώπινης πόζας. Χαρακτηριστικά αναφέρουμε: Νευροεπιστήμες: Η αλληλεπίδραση του ανθρώπου με το περιβάλλον απαιτεί τη δυνατότητα υπολογισμού χωρικών ιδιοτήτων. Παρόλο που αυτό δε μπορεί να επιτευχθεί χωρίς τη χρήση δισκοπικής όρασης (binocular vision) και των στοιχείων της, άλλα στοιχεία όπως η κίνηση και η υφή (texture) είναι αρκετά χρήσιμα. Ο συνδυασμός και η ολοκλήρωση στοιχείων είναι μια από τις βασικές αρχές του ανθρώπινου αισθητήριου συστήματος. Στο βαθμό που αυξάνονται τα στοιχεία που συλλέγονται ταυτόχρονα, αποκτά σημασία και μια άλλη αρχή, αυτή της συσχέτισης των στοιχείων. Φυσική: Ενα από τα θέματα τα οποία εξετάζει η φυσική είναι το φως. Η έρευνα και η περιγραφή των οπτικών φαινομένων μπορεί να βοηθήσει την όραση υπολογιστών, συνεισφέροντας στην ανάπτυξη αισθητήρων. Μαθηματικά: Σε τεχνικές εκτίμησης πόζας, στατιστικές προσεγγίσεις μπορούν να χρησιμοποιηθούν για την ταξινόμηση δεδομένων, ενώ άλλες μέθοδοι χρησιμοποιούνται για την αποτελεσματική επίλυση προβλημάτων βελτιστοποίησης. Επιστήμη Υπολογιστών: Αυτό το πεδίο χρησιμοποιεί μεθόδους και τεχνολογίες από τα παραπάνω, για να εφαρμόσει προσεγγίσεις επίλυσης του προβλήματος της εκτίμησης πόζας σε υπολογιστικές πλατφόρμες. Τα ζητούμενα είναι γρήγοροι υπολογιστικοί χρόνοι, βελτιωμένη ποιότητα δεδομένων που προέρχονται από αισθητήρες και η δυνατότητα διαχείρισης και χρήσης μεγάλου όγκου δεδομένων. 1.1 Παλιότερες προσεγγίσεις Pictorial structures for object recognition Στη δουλειά του Felzenszwalb [1], γίνεται μοντελοποίηση και αναγνώριση αντικειμένων με βάση τα μέλη τους (part-based modeling and recognition). Στη θεωρία των pictorial structure models, ένα αντικείμενο αναπαρίσταται ως μια συλλογή μελών τα οποία έχουν μια παραμορφώσιμη διάταξη. Η εμφάνιση του κάθε μέλους μοντελοποιείται ξεχωριστά και η παραμορφώσιμη διάταξη αναπαρίσταται από συνδέσεις ανάμεσα σε ζεύγη μελών Learning to parse images of articulated bodies Η μέθοδος του Ramanan [2] επιτυγχάνει την αναγνώριση πόζας αξιοποιώντας ένα χαρακτηριστικό το οποίο είναι αμετάβλητο ως προς την εμφάνιση του ανθρώπου. Ενα παραμορφώσιμο μοντέλο με βάση τις ακμές (edge-based deformable model) αντιστοιχίζεται στην
12 3 Σχήμα 1.1: Η αρχική εικόνα και το αποτέλεσμα της μεθόδου των pictorial structure models [1]. εικόνα, ώστε να υπολογιστούν, σε πρώτη φάση, οι θέσεις των ανθρωπίνων μελών, οι οποίες πιθανώς θα περιέχουν σφάλματα που θα οφείλονται κυρίως σε ακμές που προέρχονται από το υπόβαθρο (background). Αυτές οι θέσεις χρησιμοποιούνται για την κατασκευή ε- νός μοντέλου περιοχών (region model) για κάθε ανθρώπινο μέλος και για το υπόβαθρο. Τότε, ο αλγόριθμος φτιάχνει, για ολόκληρο το σώμα, ένα παραμορφώσιμο μοντέλο με βάση τις περιοχές (region-based deformable model). Οι θέσεις των ανθρωπίνων μελών υπολογίζονται εκ νέου από αυτό το μοντέλο και έπειτα χρησιμοποιούνται για την κατασκευή ενός νέου region model. Η διαδικασία αυτή εκτελείται επαναληπτικά. Ως μέθοδος, είναι αρκετά ευαίσθητη ως προς την αρχικοποίησή της, δηλαδή το edge-based deformable model και το region-based deformable model της πρώτης επανάληψης. Σχήμα 1.2: Η αρχική εικόνα και η κατασκευή ενός edge-based deformable model, στην πρώτη επανάληψη, με τη μέθοδο [2].
13 D Human Pose Estimation in TV shows Στην τεχνική που προτείνουν οι Ferrari et. al [3] αρχικά δεν υπάρχει καμία πληροφορία σχετικά με την πόζα, οπότε η αναζήτηση σε ολόκληρη την εικόνα είναι μια χρονοβόρα διαδικασία, με αμφίβολο αποτέλεσμα. Γιάυτό το λόγο στο πρώτο στάδιο χρησιμοποιείται ένας γενικός ανιχνευτής του άνω μέρους του σώματος, που προσδιορίζει προσεγγιστικά την τοποθεσία και την κλίμακα του ανθρώπου, άρα και το που περίπου βρίσκονται το κυρίως σώμα και το πρόσωπο, δίνοντας τα περιβάλλοντα κουτιά τους (bounding box). Ωστόσο δε γνωρίζουμε τίποτα για τα χέρια, άρα ελάχιστα είναι γνωστά για την πόζα. Ο σκοπός είναι να μειωθεί διαδοχικά ο χώρος αναζήτησης των υπολοίπων μελών. Επειτα, εξετάζεται η συνοχή των bounding boxes στα διαδοχικά καρέ, δημιουργώντας έτσι ίχνη (tracks) τα οποία συνδέουν την ανίχνευση του ίδιου ατόμου. Στο δεύτερο στάδιο, γίνεται χρήση της πληροφορίας που ήδη υπάρχει σχετικά με το προσκήνιο (foreground), ώστε να αρχικοποιηθεί η μέθοδος GrabCut [4] για επισήμανση προσκηνίου (foreground highlighting), μαθαίνοντας χρωματικά μοντέλα προσκηνίου/παρασκηνίου, από περιοχές στις οποίες το άτομο είναι παρόν/απόν. Ετσι, προκύπτει μια κατάτμηση (segmentation) η οποία αφαιρεί μέρος του περιβάλλοντος θορύβου (background clutter). Στο τρίτο στάδιο, γίνεται ανάλυση εικόνας (image parsing) ξεχωριστά για κάθε καρέ με τη μέθοδο του Ramanan[2]. Ενα επιπρόσθετο χαρακτηριστικό, είναι ότι στον γράφο που αναπαριστά τα ανθρώπινα μέλη προστίθενται ακμές (edges) που δηλώνουν απώθηση ανάμεσα σε μέλη στα οποία εμφανίζεται το πρόβλημα double-counting, δηλαδή η ανίχνευση δύο χεριών/ποδιών στο ίδιο σημείο. Στο στάδιο αυτό παίρνουμε έναν πρώτο υπολογισμό της πόζας. Στο τέταρτο και τελευταίο στάδιο, διεξάγεται χωροχρονική ανάλυση εικόνας. Η εμφάνιση ενός ατόμου δεν αλλάζει πολύ κατά τη διάρκεια μιας λήψης βίντεο, ενώ η θέση των μελών του σώματος αλλάζει ομαλά. Γίνεται εκμετάλλευση αυτών των δύο ειδών χρονικής συνέχειας, για ένα δεύτερο υπολογισμό πόζας. Χρησιμοποιούνται μοντέλα εμφάνισης τα οποία φέρουν πληροφορίες από πολλαπλά καρέ στα οποία το σύστημα έχει υπολογίσει με βεβαιότητα την πόζα. Επίσης, παράγεται ένα χωροχρονικό μοντέλο πόζας, το οποίο καταγράφει διαφόρων ειδών περιορισμούς (π.χ. κινηματικούς περιορισμούς, περιορισμούς απώθησης). Τα μοντέλα εμφάνισης βελτιώνουν τα αποτελέσματα σε καρέ όπου το image parsing του τρίτου σταδίου απέτυχε. Το χωροχρονικό μοντέλο πόζας ελαττώνει το εύρος των εκ των υστέρων κατανομών (posterior distribution) της θέσης των μελών, ενώ συμβάλλει στην λύση αμφιβολιών που επιλύονται δύσκολα εάν εξεταστεί μεμονωμένα το κάθε καρέ.
14 5 Σχήμα 1.3: Παράδειγμα εφαρμογής της τεχνικής του Ferrari[3]. 1.2 Παρόμοιες προσεγγίσεις Body Part Detectors Trained Using 3D Human Pose Annotations Η τεχνική των poselet [5] είναι ένας part-based detector. Το poselet είναι μια νέα έννοια σχετική με τα ανθρώπινα μέλη. Είναι μια γέφυρα ανάμεσα στην εμφάνιση και στη χωρική διάταξη. Το training του συστήματος γίνεται με dataset που βασίζεται σε annotations τόσο keypoints (π.χ. μάτι, αγκώνας, ώμος) όσο και pixel-level labels (π.χ. μαλλιά, άνω
15 6 ρούχο, αριστερό χέρι). Ο detector προκύπτει από μια διαδικασία τριών σταδίων. Στο πρώτο στάδιο επιλέγονται οι κοντινότεροι υποψήφιοι (poselet candidates) για κάθε κομμάτι εικόνας (image patch), με βάση την απόσταση των keypoints. Στο δεύτερο στάδιο, προπονείται ένας ταξινομητής SVM με βάση HOG features. Στο τρίτο στάδιο, γίνεται συνδυασμός των poselets για ανίχνευση και εντοπισμό, δηλαδή για υπολογισμό της διάταξης των αρθρώσεων (joint configuration) Using k-poselets for detecting people and localizing their keypoints Ενα k-poselet [6] είναι ένα deformable part model με k μέλη, όπου κάθε ένα από τα μέλη είναι ένα poselet, ευθυγραμμισμένο σε μια συγκεκριμένη διάταξη keypoints. Είναι μια προσέγγιση που ενοποιεί την ανίχνευση ατόμου και τον εντοπισμό των keypoints. Ουσιαστικά, μαθαίνονται χωρικές σχέσεις μεταξύ των μελών, όπως στη μέθοδο του Felzenszwalb [1]. Η μέθοδος αυτή χρησιμοποιείται στην παρούσα εργασία, ως κομμάτι του ενός από τα δύο συστατικά της μέρη, δίνοντας τις συντεταγμένες των keypoints που αντιστοιχούν στους ώμους ενός ατόμου Strike a Pose: Tracking People by Finding Stylized Poses Αυτή η μέθοδος από τους Ramanan et. al [7] ανιχνεύει και ακολουθεί κινηματικά πολλαπλά άτομα σε μεγάλες ακολουθίες εικόνων. Βασίζεται στην υπόθεση ότι οι άνθρωποι τείνουν να παίρνουν κάποιες κανονικές πόζες ακόμη κι όταν κάνουν ασυνήθιστες δραστηριότητες (π.χ. baseball) και είναι ένα πλήρως αυτόματο σύστημα που λειτουργεί σε 3 στάδια. Στο πρώτο στάδιο, ανιχνεύει ανθρώπους σε πόζες περπατήματος. Στο δεύτερο στάδιο, κατασκευάζεται ένα μοντέλο εμφάνισης για κάθε άκρο (limb) του ανθρώπινου σώματος στα καρέ οπου γίναν οι ανιχνεύσεις, με την υπόθεση ότι τα χαρακτηριστικά που διακρίνουν ένα άτομο σε ένα καρέ, θα το διακρίνουν και σε άλλα καρέ. Στο τελευταίο στάδιο, το σύστημα χρησιμοποιεί αυτά τα μοντέλα σε ένα pictorial structure framework, ανιχνεύοντας άκρα σε οποιαδήποτε πόζα πλέον, στα υπόλοιπα καρέ όπου αρχικά αυτό δεν έγινε. Στην παρούσα εργασία, με μια παρόμοια λογική σε καρέ με παραμορφωμένες πόζες, εκμεταλλευόμαστε πληροφορίες που παίρνουμε από την κατάτμηση εικόνας και διαδίζουμε την πόζα σε βάθος χρόνου Parsing Human Motion with Stretchable Models Στη μέθοδο των Sapp et. al [8] χρησιμοποιούνται μοντέλα με στοιχεία εμφάνισης, σχήματος, περιγράμματος και κίνησης. Αποδίδει καλύτερα σε σχέση με άλλες μεθόδους που προσπαθούν να κάνουν κοινή ανάλυση σε βάθος χρόνου για πολλαπλά αρθρωτά μέλη. Κατασκευάζει
16 7 ένα σύνολο υπομοντέλων τα οποία συνδέουν τις τοποθεσίες των σωματικών αρθρώσεων, τόσο εντός κάθε μεμονωμένου καρέ, όσο και σε πολλά διαδοχικά καρέ. Κάθε υπομοντέλο είναι υπεύθυνο για την παρακολούθηση μιας συγκεκριμένης άρθρωσης σε βάθος χρόνου. Είναι μια μέθοδος κοντινή στη δική μας προσέγγιση, γιατί έχει ισχυρή βάση σε χρονικά χαρακτηριστικά (temporal features). Σχήμα 1.4: Αναπαράσταση της τεχνικής των stretchable models [8]. 1.3 Προτεινόμενη μέθοδος Στην εργασία αυτή, γίνεται μια υλοποίηση της μεθόδου των Fragkiadaki et. al [9] για εκτίμηση πόζας, στα πλαίσια ενός ευρύτερου τρόπου που αναπτύσσουν για τη βελτίωση του υπολογισμού οπτικής ροής σε αλληλουχίες εικόνων ανθρώπινης κίνησης. Ωστόσο, η υλοποίηση αυτή δε γίνεται με απόλυτη αναπαραγωγή της αναφερόμενης μεθόδου. Αυτό δεν ήταν δυνατό, αφού απαιτούνταν η πρόσβαση σε ένα σετ δεδομένων με υποδείγματα πόζας, κάτι που δεν είναι διαθέσιμο. Οι πρακτικές που χρησιμοποιούνται από γενικούς αλγόριθμους ανίχνευσης αντικειμένων, όπως το hard negative mining και οι αναπαραστάσεις mixture of parts [10], έχουν συνεισφέρει στην πρόοδο που σημειώθηκε στην εκτίμηση πόζας από στατικές εικόνες. Μεγάλος αριθμός υποδειγμάτων χρησιμοποιείται για να γίνει επιτυχημένα η ευθυγράμμιση των αρθρωτών προτύπων ιστογραμμάτων προσανατολισμένων παραγώγων (Histogram of Oriented Gradients, HOG) [11] με τις κλίσεις της εικόνας. Ωστόσο, τα ανθρώπινα μέλη που βρίσκονται προς το τέλος της αρθρωτής αλυσίδας, όπως οι πήχεις των χεριών, δεν είναι α- κόμη εύκολα ανιχνεύσιμα. Οι μεγάλες ουρές της κατανομής των οπτικών δεδομένων τέτοιου είδους, καθιστούν δύσκολη την συγκέντρωση υποδειγμάτων για πόζες που περιέχουν πολύ παραμορφωμένα ανθρώπινα μέλη. Η μέθοδος του [9] εκτελεί την εκτίμηση πόζας, με μια λογική αντίστροφη από τη συνηθισμένη. Επιλέγεται η επεξεργασία κατατμήσεων εικόνας σε υποδείγματα πόζας, αντί για την ευθυγράμμιση ήδη υπαρχόντων προτύπων στις κλίσεις της εικόνας, αποφεύγοντας την ανάγκη για τεράστια training set. Το συγκεκριμένο κομμάτι της μεθόδου δεν ήταν δυνατό να υλοποιηθεί για το λόγο που αναφέρθηκε παραπάνω.
17 8 Η εκτίμηση πόζας στην μέθοδο που παρουσιάζεται, γίνεται με μια διαδικασία που συνδυάζει πληροφορίες οπτικής ροής, ομαδοποίησης κίνησης, κατάτμησης εικόνας και ανίχνευσης ανθρωπίνων μελών. Ο αλγόριθμός μας, βρίσκει μέσω κατάτμησης τα κινούμενα ανθρώπινα μέλη, συνδυάζοντας στοιχεία ομαδοποίησης κίνησης (τροχιές και affine motion models) με τον διαχωρισμό φιγούρας-υποβάθρου στα μέλη του σώματος που ανιχνεύονται αξιόπιστα, όπως είναι οι ώμοι. Τέτοιες αξιόπιστες ανιχνεύσεις επιφέρουν απωθήσεις μεταξύ περιοχών που βρίσκονται στο εσωτερικό και το εξωτερικό τους, κάνοντας πιο ακριβείς τις ομοιότητες κίνησης περιοχών (region motion affinities), σε μέρη όπου δεν έχουμε χρήσιμες πληροφορίες προερχόμενες από κίνηση. Αποδεικνύεται ότι αυτές οι πληροφορίες είναι επαρκείς ώστε μέσω κατάτμησης τα ανθρώπινα μέλη να διαχωριστούν από το περιβάλλον τους, είτε αυτό είναι άλλα μέρη του σώματος, είτε είναι το φόντο της εικόνας. Βασιζόμενοι στα εξαχθέντα image regions, προσπαθούμε να τα συνδυάσουμε ώστε να εξαχθούν οι τελικές πόζες. Οι πόζες αυτές μπορούν να διαδοθούν στο χρόνο, απο καρέ με μεγάλη κίνηση σε καρέ στα οποία δεν υπάρχει σημαντική κίνηση. Προτείνοντας μια αναπαράσταση για το ανθρώπινο σώμα, που προσαρμόζεται αποτελεσματικά στη δυνατότητα κατάτμησης ή ανίχνευσης ανθρωπίνων μελών και υπολογισμού πληροφορίας κίνησης, ανιχνεύουμε σπάνιες για την ανθρώπινη φύση πόζες, στις οποίες συχνά αποτυγχάνουν σύγχρονες μέθοδοι. 1.4 Δομή εργασίας Στο Κεφάλαιο 2 παρουσιάζεται το θεωρητικό υπόβαθρο της εργασίας. Γίνεται αναφορά σε τεχνικές κατάτμησης εικόνας, υπολογισμού οπτικής ροής, τροχιών και affine μοντέλων κίνησης, ενώ παρουσιάζονται και οι χρησιμοποιούμενες μέθοδοι εντοπισμού ανθρωπίνων μελών (k-poselet) και προσώπου. Στο Κεφάλαιο 3 παρουσιάζεται η προτεινόμενη μεθοδολογία, αρχικά περιγράφοντας τη διαδικασία υπολογισμού των ομοιοτήτων κίνησης περιοχών και εντοπισμού των ώμων, και έπειτα αναφέροντας τον τρόπο διαδοχικής συνένωσης περιοχών μέσω ομαδοποίησης κίνησης. Το τελικό αποτέλεσμα είναι η βάση για τον υπολογισμό πόζας με βάση την τελική κατάτμηση του κάθε καρέ. Στο Κεφάλαιο 4 αναφέρονται λεπτομέρειες για το σετ δεδομένων, για το σύστημα που χρησιμοποιήθηκε και για τα πειράματα που διεξήχθησαν, ενώ γίνεται σχολιασμός των αποτελεσμάτων και προτείνονται πιθανές μελλοντικές βελτιώσεις της μεθόδου.
18 Κεφάλαιο 2 Θεωρητικό μέρος 2.1 Κατάτμηση εικόνας Η κατάτμηση εικόνας γενικά Στην όραση υπολογιστών, κατάτμηση εικόνας (image segmentation) ονομάζεται η διαδικασία διαίρεσης μιας ψηφιακής εικόνας σε ένα σύνολο περιοχών (regions) οι οποίες την καλύπτουν. Κάθε περιοχή αποτελείται από ένα σύνολο pixels. Σε κάθε πιξελ μιας περιοχής, ανατίθεται μια συγκεκριμένη ετικέτα (label), ώστε pixels με την ίδια ετικέτα να μοιράζονται συγκεκριμένα κοινά χαρακτηριστικά. Συνήθως χρησιμοποιείται για τον εντοπισμό αντικειμένων (objects) ή συνόρων (boundaries) σε εικόνες Κατάτμηση εικόνας με hierarchical contours Οι Arbelaez et. al [12] προτείνουν μια μέθοδο που αρχικά παράγει ένα σύνολο περιοχών. Επειτα, από τα περιγράμματα (contours) αυτών των περιοχών μεταβαίνει σε ένα ιεραρχικό δέντρο περιοχών (hierarchical region tree). Στην τελική ιεραρχική κατάτμηση, σε κάθε περίγραμμα αντιστοιχεί ένα βάρος το οποίο αντιπροσωπεύει την πιθανότητα αυτό το περίγραμμα να είναι ένα αληθινό σύνορο. Για δοσμένο κατώφλι, η έξοδος είναι ένα σύνολο κλειστών περιγραμμάτων, που μπορεί να χρησιμοποιηθεί είτε ως κατάτμηση, είτε ως ανιχνευτής συνόρων. 2.2 Ο αλγόριθμος SIFT Για τον εντοπισμό και την περιγραφή τοπικών χαρακτηριστικών σε εικόνες, έχουν αναπτυχθεί αρκετοί αλγόριθμοι στο χώρο της τεχνητής όρασης. Ενας από τους πιο διαδεδομένους 9
19 10 (αʹ) (βʹ) (γʹ) (δʹ) (εʹ) Σχήμα 2.1: α: Αρχική εικόνα β: Σταθμισμένα περιγράμματα με τιμή κατωφλίου 0.4 γ: Η αντίστοιχη κατάτμηση του (β) δ: Σταθμισμένα περιγράμματα με μικρότερη τιμή κατωφλίου ε: Η αντίστοιχη κατάτμηση του (δ) και αυτός με τις περισσότερες εφαρμογές, είναι ο αλγόριθμος SIFT (Scale Invariant Feature Transform)[13]. Η φιλοσοφία του αλγορίθμου στηρίζεται στην εύρεση πιθανών keypoints και, με κατάλληλη χρήση κάποιων τεχνικών, στην ακριβή περιγραφή τους. Η υλοποίηση του αλγορίθμου, μπορεί να χωριστεί σε τέσσερα στάδια τα οποία είναι: 1. Ανίχνευση ακρότατων στο χώρο της κλιμάκωσης (Scale-space extrema detection) 2. Εντοπισμός σημείων κλειδιών (Keypoint localization) 3. Καθορισμός προσανατολισμού (Orientation assignment)
20 11 4. Περιγραφή των σημείων κλειδιών (Keypoint descriptor) Ανίχνευση ακρότατων στο χώρο της κλιμάκωσης (Scale-space extrema detection): Ο αλγόριθμος SIFT για εξαγωγή χαρακτηριστικών εικόνας, μετασχηματίζει μια εικόνα σε μια μεγάλη συλλογή διανυσμάτων χαρακτηριστικών, κάθε ένα από τα οποία είναι αμετάβλητο σε μετατόπιση, κλιμάκωση, περιστροφή εικόνας, μερικώς αμετάβλητο σε αλλαγές φωτισμού και εύρωστο σε τοπικές γεωμετρικές παραμορφώσεις. Μια γκαουσιανή πυραμίδα κατασκευάζεται από την εικόνα εισόδου, με επαναλαμβανόμενη ομαλοποίηση και υποδειγματοληψία και μια πυραμίδα διαφοράς γκαουσιανών (Difference of Gaussians/DoG pyramid) υπολογίζεται από τις διαφορές μεταξύ των γειτονικών επιπέδων της πυραμίδας. Μετά, λαμβάνονται τα σημεία ενδιαφέροντος, από σημεία όπου από τις τιμές της διαφοράς των γκαουσιανών προκύπτουν ακρότατα, τόσο με βάση τις χωρικές συντεταγμένες της εικόνας, όσο και με βάση το επίπεδο της κλίμακας στην πυραμίδα. Ετσι λοιπόν, γίνεται συνέλιξη του γκαουσιανού φίλτρου G(x, y, σ) = 1 e (x 2 +y 2 ) 2πσ 2 2σ 2 με την εικόνα I(x, y) και παράγεται η εικόνα L(x, y, σ) = G(x, y, σ) I(x, y). Λόγω του ότι πρέπει να παράγουμε ένα σύνολο εικόνων με κλίμακα διαφορετική από την αρχική, χρησιμοποιούμε έναν πολλαπλαστιαστικό παράγοντα k στο γκαουσιανό φίλτρο. Το πλήθος των εικόνων που διαφέρουν κατά την παράμετρο κ και έχουν τις ίδιες διαστάσεις καλείται οκτάβα. Επειτα, κάνουμε χρήση της συνάρτησης διαφοράς των γκαουσιανών φιλτραρισμένων εικόνων, D(x, y, σ) = (G(x, y, σ) G(x, y, σ)) I(x, y) = L(x, y, kσ) L(x, y, σ). Σχήμα 2.2: Αρχική εικόνα και εικόνες φιλτραρισμένες με γκαουσιανές
21 12 Σχήμα 2.3: Αναπαράσταση Difference of Gaussians Εντοπισμός σημείων κλειδιών (Keypoint localization): Σε αυτό το στάδιο, ο κύριος στόχος είναι ο εντοπισμός τοπικών ελαχίστων/μεγίστων του προαναφερθέντος συνόλου, δηλαδή της D(x, y, σ), τα οποία θα είναι και τα υποψήφια σημείακλειδιά. Η διαδικασία που ακολουθείται είναι η εξής: κάθε ένα pixel της εικόνας συγκρίνεται με τους 8 γείτονές του στην τρέχουσα εικόνα, με τους 9 γείτονες στην προηγούμενη καθώς και με τους 9 γείτονές του στην επόμενη κλίμακα. Ενα pixel χαρακτηρίζεται ως ακρότατο μόνο αν αυτό είναι μεγαλύτερο από όλα τα γειτονικά του ή μικρότερο από όλα αυτά. Η πιθανότητα μιας αντιστοίχισης να είναι σωστή, μπορεί να οριστεί παίρνοντας το λόγο της απόστασης από τον κοντινότερο γείτονα προς την απόσταση από το δεύτερο κοντινότερο. Σχήμα 2.4: Αναζήτηση ακροτάτων στην Difference of Gaussians
22 13 Οταν ένα υποψήφιο σημείο-κλειδί έχει βρεθεί, συγκρίνοντας ένα pixel με τα γειτονικά του, το επόμενο βήμα είναι να προσδιοριστεί ακριβώς η θέση του, η κλίμακα και ο λόγος καμπυλότητάς του. Αυτή η πληροφορία επιτρέπει σε πιθανά σημεία κλειδιά να απορριφθούν, αν έχουν χαμηλή αντίθεση ή δεν διαφέρουν σημαντικά από τα γειτονικά τους, (άρα είναι ευαίσθητα σε θόρυβο) ή αν βρίσκονται κακώς τοποθετημένα κατά μήκος μιας ακμής. Καθορισμός προσανατολισμού (Orientation assignment): Σε αυτό το στάδιο, για κάθε σημείο-κλειδί υπολογίζεται ο προσανατολισμός του, με βάση τις κατευθύνσεις των κλίσεων της εικόνας. Αυτή η διαδικασία είναι σημαντική, ώστε να επιτευχθεί αμεταβλητότητα ως προς την περιστροφή εικόνας. Για την εικόνα L(x, y, σ), υπολογίζουμε το μέγεθος της κλίσης της, m(x, y) και τον προσανατολισμό, θ(x, y), χρησιμοποιώντας τέσσερα γειτονικά pixel: m(x, y) = (L(x + 1, y) L(x 1, y)) 2 + (L(x, y + 1) L(x, y 1)) 2 (2.1) θ(x, y) = tan 1 L(x, y + 1) L(x, y 1) ( L(x + 1, y) L(x 1, y) ) (2.2) Φτιάχνεται ένα ιστόγραμμα με 36 bins, κάθε ένα από τα οποία καλύπτει 10 μοίρες. κορυφές σε αυτό το ιστόγραμμα αντιστοιχούν στους κυρίαρχους προσανατολισμούς. προσανατολισμοί που αντιστοιχούν στη μεγαλύτερη κορυφή και οι τοπικές κορυφές που βρίσκονται εντός του 80% της κορυφής αυτής, καταχωρούνται στο keypoint. Σε περίπτωση καταχώρησης πολλαπλών προσανατολισμών, για κάθε πρόσθετο προσανατολισμό δημιουργείται ένα πρόσθετο keypoint, έχοντας την ίδια τοποθεσία και κλίμακα με το αρχικό. Οι Οι Σχήμα 2.5: Πλάτος και προσανατολισμός κλίσης εικόνας Περιγραφή των σημείων κλειδιών (Keypoint descriptor):
23 14 Σχήμα 2.6: Καταχώρηση προσανατολισμών σε SIFT keypoint Σε αυτό το βήμα, θέλουμε να υπολογίσουμε ένα feature vector τέτοιο ώστε ο περιγραφέας να έχει υψηλή διακριτικότητα και μερική αμεταβλητότητα στις υπόλοιπες μεταβολές, όπως αυτές του φωτισμού, της οπτικής γωνίας κλπ. Αυτό το βήμα πραγματοποιείται στην εικόνα που έχει την κοντινότερη κλίμακα, σε σχέση με την κλίμακα του keypoint. Αρχικά, ένα σύνολο ιστογραμμάτων προσανατολισμού δημιουργείται σε γειτονιές 4 4 με 8 bins το καθένα. Αυτά τα ιστογράμματα έχουν υπολογιστεί από τις τιμές του πλάτους και του προσανατολισμού των δειγμάτων σε μια περιοχή γύρω από το keypoint έτσι ώστε κάθε ιστόγραμμα περιέχει δείγματα από ένα subregion 4 4 του αρχικού region της γειτονιάς. Τα πλάτη σταθμίζονται με μια γκαουσιανή συνάρτηση, όπου το σ ισούται με μιάμιση φορά το πλάτος του παραθύρου του περιγραφέα. Τότε, ο descriptor ισούται με το διάνυσμα που περιέχει όλες αυτές τις τιμές (4 4 8 = 128 στοιχεία) των ιστογραμμάτων. Το διάνυσμα κανονικοποιείται στο μοναδιαίο μήκος για να ενισχυθεί η αμεταβλητότητα ως προς affine μεταβολές φωτισμού. Για να μειωθούν τα αποτελέσματα μη-γραμμικού φωτισμού, εφαρμόζεται ένα κατώφλι 0.2 και το διάνυσμα κανονικοποιείται ξανά. Σχήμα 2.7: Υπολογισμός SIFT descriptor. Στο σχήμα, έχουμε patch 2 2, subregions 4 4, και 8 bins για την κλίση. Το τελικό feature vector έχει = 32 στοιχεία. Στο παρακάτω σχήμα, φαίνεται αντιστοίχιση σημείων με χρήση SIFT descriptor.
24 15 Σχήμα 2.8: Αντιστοίχιση σημείων με SIFT descriptor 2.3 Οπτική ροή Η οπτική ροή γενικά Οι εικόνες είναι δισδιάστατες προβολές των σκηνών του τρισδιάστατου κόσμου. Επομένως, η κίνηση που μελετάμε είναι δισδιάστατη κίνηση, η ορθογραφική προβολή της τρισδιάστατης κίνησης. Η σχέση μεταξύ των σημείων, είναι x = X, y = Y. Το γεωμετρικό μοντέλο για μια ορθογραφική κάμερα εκφράζεται ως εξής: [ ] [ ] X x = y Y (2.3) Z Η ορθογραφική προβολή είναι μια καλή προσέγγιση της προοπτικής προβολής, όταν η μεταβλητότητα του βάθους μεταξύ των σημείων που φαίνονται είναι πολύ μικρότερη από την απόσταση των σημείων από το επίπεδο της εικόνας. Εστω ότι μια ακολουθία ασπρόμαυρων εικόνων εκφράζεται από τη συνεχή συνάρτηση I(x, y, t) όπου x, y είναι οι χωρικές συντεταγμένες και t ο χρόνος. Τότε, το I(x 1, y 1, t 1 ) είναι η τιμή της έντασης φωτεινότητας της εικόνας στο σημείο I(x 1, y 1 ), στον χρόνο t 1. Υποθέτουμε ότι με μια μικρή μεταβολή dx, dy και dt στα x, y και t δεν υπάρχει αλλαγή στην ένταση της φωτεινότητας. Ετσι, έχουμε I(x, y, t) = I(x + dx, y + dy, t + dt) (2.4) Βρίσκοντας το ανάπτυγμα σε σειρά Taylor γύρω από τα x, y και t στο δεξί μέλος έχουμε I(x, y, t) = I(x, y, t) + I x dx + I y I dy + dt + h (2.5) t
25 16 όπου h το άθροισμα των όρων ανώτερης (δεύτερης και άνω) τάξης. Καθώς στα σημεία (x, y, t) και (x + dx, y + dy, t + dt) αντιστοιχεί η προβολή του ίδιου σημείου, υποθέτουμε ότι η ένταση φωτεινότητας στα σημεία αυτά έχει την ίδια τιμή: I(x + dx, y + dy, t + dt) = I(x, y, t) (2.6) Αυτή η εξίσωση, ονομάζεται εξίσωση σταθερότητας έντασης (brightness constancy constraint). Η εξίσωση 2.5, αγνοώντας τους όρους ανώτερης τάξης μπορεί να απλοποιηθεί πλέον ως I x dx + I y dy + I t dt = 0 (2.7) Διαιρώντας τον κάθε όρο με dt, ορίζοντας τις συνιστώσες της οπτικής ροής ως x t = u, = v και παίρνοντας το όριο καθώς dt 0, έχουμε y t I x u + I y v + I t = 0 (2.8) Αυτή η εξίσωση, ονομάζεται εξίσωση οπτικής ροής Η οπτική ροή Horn-Schunck Η σχέση 2.8 δίνει μία εξίσωση για τον προσδιορισμό δύο μεταβλητών (ή, εάν μια εικόνα περιέχει Ν pixels, δίνονται Ν εξισώσεις για 2Ν μεταβλητές), οπότε έτσι τίθεται ένα κακώς ορισμένο πρόβλημα. Επομένως, απαιτούνται πρόσθετοι περιορισμοί για να τεθεί ως καλώς ορισμένο. Οι Horn και Schunck [14] προτείναν τη χρήση του περιορισμού ομαλότητας, δηλαδή γειτονικά σημεία ενός αντικειμένου να κινούνται με παρόμοιες ταχύτητες (τα u 2, v 2 να είναι μικρά). Τα u και v μπορούν να βρεθούν ελαχιστοποιώντας την εξής συνάρτηση κόστους: E(u, v) = [(I x u + I y v + I t ) 2 + λ(u 2 x + u 2 y + vx 2 + vy)]dxdy 2 (2.9) Ω όπου το λ ελέγχει το βάρος που δίνεται στον περιορισμό ομαλότητας. Μεγάλες τιμές του λ οδηγούν σε πιο ομαλή οπτική ροή. Χρησιμοποιώντας τις εξισώσεις Euler-Lagrange[15], ελαχιστοποιούμε τη συνάρτηση κόστους: u E = L u x L u x y L u y = I 2 xu + I x I y v + I x I t λ 2 u (2.10) v E = L v x L v x y L v y = I x I y u + I 2 y v + I y I t λ 2 v (2.11)
26 17 όπου 2 u = u xx + u yy και 2 v = v xx + v yy, οι τελεστές Laplace. Απαραίτητη συνθήκη για την ελαχιστοποίηση, είναι u E = 0 και v E = 0. Ετσι, έχουμε I 2 xu + I x I y v = λ 2 u I x I t (2.12) I x I y u + I 2 y v = λ 2 v I y I t (2.13) Στην πράξη, οι τελεστές Laplace υπολογίζονται με τη μέθοδο των πεπερασμένων διαφορών, όπου 2 u x = ū x (i, j) u x (i, j) και 2 u y = ū y (i, j) u y (i, j). Τα ū x (i, j) και ū y (i, j) είναι οι σταθμισμένοι μέσοι όροι των ταχυτήτων u x και u y αντίστοιχα, υπολογισμένοι στην γειτονιά 3 3 του κάθε εικονοστοιχείου (i, j) με χρήση του ακόλουθου φίλτρου: Ετσι, έχουμε (2.14) (I 2 x + λ)u + I x I y v = λū I x I t (2.15) I x I y u + (I 2 y + λ)v = λ v I y I t (2.16) Το σύστημα αυτό μπορεί να λυθεί για κάθε pixel της εικόνας. Ωστόσο, εφόσον η λύση εξαρτάται από τις γειτονικές τιμές του πεδίου της οπτικής ροής, πρέπει να επαναληφθεί μόλις ανανεωθούν οι τιμές τους. Το ακόλουθο επαναληπτικό σχήμα παράγεται u n+1 = ū n I x (I x ū n + I y v n + I t ) λ + I 2 x + I 2 y (2.17) v n+1 = v n I y (I x ū n + I y v n + I t ) λ + I 2 x + I 2 y (2.18) και ο αλγόριθμος συνοψίζεται στο εξής 1. Στην επανάληψη n = 0, γίνεται αρχικοποίηση των u και v με τυχαία πρόβλεψη.
27 18 2. Ανανέωση με βάση τις σχέσεις 2.17 και Λήξη των επαναλήψεων, όταν το E δε μειώνεται αρκετά, ή ισοδύναμα, η παράσταση I x ū n + I y v n + I t είναι μικρή Οπτική ροή υψηλής ακριβείας Οι Brox et. al [16] εισήγαγαν ένα coarse-to-fine variational model, για τον υπολογισμό οπτικής ροής. Κάποιοι χρήσιμοι περιορισμοί που πρέπει να λαμβάνονται υπόψιν, είναι: Υπόθεση σταθερότητας της τιμής του γκρί (gray value constancy assumption): Μια από τις αρχές υπολογισμού οπτικής ροής, είναι η υπόθεση ότη η τιμή του γκρι σε ένα pixel δεν μεταβάλλεται με τη μετατόπιση (displacement). Εχουμε δηλαδή I(x, y, t) = I(x + u, y + v, t + 1) (2.19) Η γραμμικοποιημένη έκδοση αυτής της σχέσης, είναι η εξίσωση οπτικής ροής. Υπόθεση σταθερότητας της κλίσης (gradient constancy assumption): Η υπόθεση σταθερότητας του γκρί έχει ένα μειονέκτημα: είναι ευαίσθητη σε μικρές αλλαγές φωτεινότητες που εμφανίζονται συχνά σε φυσικές σκηνές. Επομένως, είναι χρήσιμο να επιτρέπονται κάποιες μικρές μεταβολές στην τιμή του γκρι και να βοηθηθεί ο υπολογισμός των διανυσμάτων μετατόπισης με ένα κριτήριο που είναι αμετάβλητο σε μεταβολές της τιμής του γκρι. Ενα τέτοιο κριτήριο, είναι η κλίση της τιμής του γκρι, που μπορεί επίσης να υποτεθεί ότι δε μεταβάλλεται λόγω μετατόπισης. Αυτό μας δίνει I(x, y, t) = I(x + u, y + v, t + 1). Εδώ, I(x, y, t) είναι η χωρική κλίση (spatial gradient). Ο περιορισμός 2 είναι χρήσιμος σε μεταφορική κίνηση (translatory motion) ενώ ο περιορισμός 1 ταιριάζει καλύτερα σε πιο περίπλοκα πρότυπα κίνησης. Υπόθεση ομαλότητας (smoothness assumption): Ως εδώ, το μοντέλο υ- πολογίζει τη μετατόπιση ενός pixel μόνο τοπικά, χωρίς να λαμβάνεται υπόψιν καμιά αλληλεπίδραση μεταξύ γειτονικών pixels. Επομένως, εμφανίζονται προβλήματα όταν η κλίση εξαφανίζεται κάπου, ή εάν εμπίπτουμε στο πρόβλημα διαφράγματος (aperture problem). Επιπρόσθετα, συνήθως υπάρχουν κάποια έκτοπα στα optical flow estimates. Επομένως, είναι χρήσιμο να εισάγουμε ακόμη μια υπόθεση, αυτή της ομαλότητας του πεδίου της οπτικής ροής (optical flow field). Καθώς το βέλτιστο πεδίο θα έχει ασυνέχειες στα σύνορα των αντικειμένων της σκηνής, είναι λογικό να γενικευθεί η υπόθεση αυτή, απαιτώντας ομαλό πεδίο ροής για κάθε αντικείμενο/περιοχή (piecewise smoothness).
28 19 Πολυκλιμακωτή προσέγγιση (multiscale approach): Στην περίπτωση μετατοπίσεων που είναι μεγαλύτερες από ένα pixel ανά καρέ, οι αλγόριθμοι ελαχιστοποίησης μπορεί να παγιδευτούν σε ένα τοπικό ελάχιστο. Για να βρεθεί ένα ολικό ελάχιστο, πρέπει να εφαρμοστούν πολυκλιμακωτές ιδέες. Η αρχή γίνεται με την επίλυση μιας ομαλοποιημένης έκδοσης του προβλήματος, παίρνοντας μια υποδειγματολειπτημένη εικόνα. Το νέο πρόβλημα μπορεί να έχει αποκλειστικά ένα ελάχιστο, ευελπιστόντας ότι αυτό θα βρίσκεται κοντά στο ολικό ελάχιστο του αυθεντικού προβλήματος. Αυτή η λύση χρησιμοποιείται για την αρχικοποίηση της επίλυσης μιας βελτιωμένης έκδοσης του προβλήματος, ώστε τελικά, βήμα-βήμα, να επιλυθεί το αυθεντικό πρόβλημα LDOF: Οπτική ροή για μεγάλες μετατοπίσεις Στην εργασία μας, έχοντας ως αντικείμενο την κίνηση του ανθρώπου, είναι συχνό φαινόμενο η δυσκολία στον ακριβή υπολογισμό πυκνού πεδίου οπτικής ροής, λόγω μεγάλων μετατοπίσεων και γρήγορων κινήσεων. Μοντέλα όπως το προαναφερθέν των Brox et. al [16] αποδίδουν καλά, εφόσον αντικείμενα με δομές μικρής κλίμακας κινούνται παρόμοια με τα αντικείμενα που έχουν δομή μεγαλύτερης κλίμακας. Ομως, εάν η σχετική κίνηση μιας δομής μικρής κλίμακας είναι μεγαλύτερη από την ίδια την κλίμακά της, τότε τέτοιες προσεγγίσεις αποτυγχάνουν. Οι δομές μεγάλης κλίμακας οδηγούν σε προβλέψεις κίνησης διαφορετικής από την πραγματική. Η οπτική ροή στην αρθρωτή κίνηση γενικά και στην ανθρώπινη κίνηση συγκεκριμένα, είναι προβληματικές. Μικρά μέλη του σώματος, όπως τα χέρια, μπορεί να κινηθούν πολύ γρήγορα, παραβιάζοντας την απαίτηση ότι η κίνηση της δομής με την αμέσως μεγαλύτερη κλίμακα είναι μια καλή ένδειξη για την κίνηση. Διάφορες μέθοδοι, μεταξύ αυτών και οι μέθοδοι για τον υπολογισμό της ανθρώπινης πόζας, χρησιμοποιούν και την οπτική ροή, πέρα από στατικά στοιχεία. Προφανώς, δε μπορούν να εκμεταλλευτούν πλήρως αυτό το στοιχείο κίνησης, εάν η οπτική ροή δεν υπολογίζεται σωστά κι αυτό συμβαίνει εκεί που θα μπορούσε να μας δώσει πολλές πληροφορίες, όπου δηλαδή υπάρχει μια καθαρή διακριτή κίνηση ενός ανθρώπινου μέλους. Οι μεγάλες μετατοπίσεις λοιπόν, θεωρούνται ένας ιδιαίτερα περιοριστικός παράγοντας για την χρήση της οπτικής ροής σε άλλες εφαρμογές. Στο έργο των Brox και Malik [17], επιχειρείται η επίλυση αυτού του προβλήματος με τη βοήθεια της αντιστοίχισης σημείων-κλειδιών περιγραφέων (descriptor matching). Σε αντίθεση με τα μεμονωμένα pixel, περιγραφείς οπως ο SIFT[13], μπορούν να οδηγήσουν σε ολική αντιστοίχιση (global matching) χωρίς περιορισμούς. Αυτό καθιστά την αντιστοίχιση, χωρίς περιορισμούς ως προς το πλάτος της μετατόπισης, απλή και αποτελεσματική. Οι λόγοι για τους οποίους το descriptor matching δεν μπορούσε να ενσωματωθεί επιτυχώς σε αλγορίθμους υπολογισμού οπτικής ροής, ήταν η λανθασμένη αντιστοίχιση keypoints λόγω φαινομένου απόκρυψης που οδηγούσε στον μη εντοπισμό αντίστοιχου keypoint σε διαδοχικά καρέ, αλλά και το γεγονός ότι το descriptor matching έχει pixel-level accuracy που δυσκολεύει τον εντοπισμό μικρών
29 20 κινήσεων. Η ενσωμάτωση των αντιστοιχίσεων του descriptor matching στο προαναφερθέν variational model, δίνει πυκνό πεδίο οπτικής ροής, υψηλής ακρίβειας και χωρίς έκτοπα, με μεγάλο πλήθος αντιστοιχίσεων μεγάλων μετατοπίσεων. (αʹ) (βʹ) (γʹ) (δʹ) Σχήμα 2.9: α) Η γρήγορη κίνηση ενός χεριού είναι τυπικό παράδειγμα όπου οι συμβατικές μέθοδοι coarse-to-fine warping αποτυγχάνουν β) Πεδίο οπτικής ροής με τη μέθοδο [16]: η κίνηση του χεριού χάνεται γ) Προς σύγκριση, το πεδίο οπτικής ροής με τη μέθοδο [17]: η κίνηση του χεριού υπολογίζεται σωστά δ) Χρωματικός κώδικας για την οπτικοποίηση του πεδίου οπτικής ροής Εστω ότι I 1, I 2 : (Ω R 2 ) R d είναι τα διαδοχικά καρέ που πρέπει να ευθυγραμμιστούν. Για μια γκρι εικόνα έχουμε d = 1, ενώ για εικόνες χρώματος έχουμε d = 3. Επιπλέον, x = (x, y) T είναι ένα σημείο στο πεδίο Ω της εικόνας και w = (u, v) T είναι το πεδίο οπτικής ροής, δηλαδή μια συνάρτηση w : Ω R 2. Η υπόθεση σταθερότητας της τιμής του γκρι (ή της χρωματικής τιμής), εκφράζεται με την ενέργεια E color (w) = Ψ( I 2 (x + w(x)) I 1 (x) 2 )dx (2.20) Ω η οποία τιμωρεί την απόκλιση από αυτή την υπόθεση. Η συνάρτηση Ψ(s 2 ) = s 2 + ɛ 2, ɛ = 0.001, είναι κυρτή, απλοποιώντας την βελτιστοποίηση. Η υπόθεση σταθερότητας της κλίσης εκφράζεται με την ενέργεια E grad (w) = Ψ( I 2 (x + w(x)) I 1 (x) 2 )dx (2.21) Ω
30 21 Τόσο η σχέση 2.20 όσο και η σχέση 2.21 επιβάλλουν την αντιστοίχιση χαρακτηριστικών που είναι ασθενώς περιγραφικά (weakly descriptive). Η υπόθεση ομαλότητας εκφράζεται με την ενέργεια E smooth (w) = Ψ( u(x) 2 + v(x) 2 )dx (2.22) Ολοι αυτοί οι περιορισμοί μαζί, δίνουν το μοντέλο Ω E(w) = E color + γe gradient + αe smooth (2.23) Από άποψη μοντελοποίησης, το μοντέλο αυτό είναι αρκετά γενικό, αφού μπορεί να ανταπεξέλθει σε όλα τα είδη παραμόρφωσης, ασυνέχειας κίνησης, αποκρύψεις και μεγάλες μετατοπίσεις. Ενσωματώνουμε τις αντιστοιχίσεις σημείων του descriptor matching, προσθέτοντας έναν επιπλέον όρο: E match = δ(x)ρ(x)ψ( w(x) w 1 (x) ) 2 dx (2.24) Σε αυτό τον όρο, το w1(x) εκφράζει τα διανύσματα αντιστοίχησης που λαμβάνονται από το descriptor matching σε κάποια σημεία x. Το δ i (x) είναι 1 εάν υπάρχει descriptor διαθέσιμος στο σημείο x στο καρέ 1, διαφορετικά είναι 0. Κάθε αντιστοίχιση, σταθμίζεται με το score ταιριάσματός της, ρ i (x). Η σχέση 2.24 υποθέτει ότι οι descriptors έχουν ήδη αντιστοιχηθεί. Μπορούμε να μορφοποιήσουμε αυτή τη διαδικασία αντιστοίχισης σε έναν ακόμη όρο ενέργειας προς ελαχιστοποίηση: E desc = δ(x) f 2 (x + w 1 (x)) f 1 (x) 2 dx (2.25) όπου f 1 (x) και f 2 (x) αντιπροσωπεύουν τα αραιά πεδία των διανυσμάτων χαρακτηριστικών στα καρέ 1 και 2 αντίστοιχα. Ο συνδυασμός όλων των όρων μαζί, καταλήγει στην διατύπωση του συνολικού μοντέλου ως ενός μοναδικού προβλήματος βελτιστοποίησης. E(w) = E color (w)+γe gradient (w)+αe smooth (w)+βe match (w, w 1 )+E desc (w 1 ) (2.26) όπου τα α, β, γ είναι ρυθμιστικές παράμετροι που μπορούν να λάβουν τιμή είτε χειροκίνητα, είτε με βάση δεδομένα ground-truth. Το γεγονός ότι το πλήρες πρόβλημα βελτιστοποίησης μπορεί να διαχωριστεί σε υποπροβλήματα, που όλα μπορούν να βελτιστοποιηθούν ολικά,
31 22 δεν εγγυάται ένα ολικό βέλτιστο για το πλήρες πρόβλημα. Ωστόσο, η προτεινόμενη βελτιστοποίηση βοηθά στην αντιμετώπιση των περισσότερων τοπικών ελαχίστων του αρχικού προβλήματος. (αʹ) Σχήμα 2.10: Εξέλιξη του υπολογισμού οπτικής ροής. Αρχικά φαίνονται επικαλυπτόμενες οι δύο αρχικές εικόνες και ακολουθεί το εξελισσόμενο πεδίο ροής από το coarse (αριστερά) στο fine (δεξιά) επίπεδο. Οι αντιστοιχίσεις κυριαρχούν στην εκτίμηση αρχικά, ωθόντας τη λύση προς τη γρήγορη κίνηση του ποδιού και της ρακέτας. Κάποιες λάθος αντιστοιχίσεις είναι επίσης ορατές, όπως π.χ. στην άκρη της ρακέτας. Αυτά τα έκτοπα αφαιρούνται σταδιακά, αφού όλο και περισσότερα δεδομένα της εικόνας λαμβάνονται υπόψιν. 2.4 Τροχιές σημείων Οι τροχιές σημείων γενικά Στην ανάλυση δεδομένων βίντεο, πιθανώς το πιο σημαντικό στοιχείο και οι πιο κοινές τεχνικές για την εκμετάλλευση αυτής της πληροφορίας είναι η οπτική ροή, η παρακολούθηση σημείων και η διαφορά των καρέ (difference image). Εφόσον η διαφορά των καρέ απαιτεί στατικές κάμερες και απαιτείται πλούσια πληροφορία κίνησης δίχως περιορισμούς, εστιάζουμε στις δύο πρώτες τεχνικές. Ο στόχος είναι να επιτευχθεί ακριβής παρακολούθηση κίνησης για ένα μεγάλο σετ σημείων στο βίντεο. Η ποιότητα της υπολογισμένης οπτικής ροής και του σετ τροχιών σημείων, είναι πολύ σημαντικές καθώς μικρές διαφορές στην ποιότητα των χαρακτηριστικών εισόδου, μπορεί να κάνει την προσέγγιση να αποτυγχάνει Πυκνές τροχιές σημείων Στη μέθοδο των Ochs και Brox [18] για υπολογισμό τροχιών σημείων, χρησιμοποιείται ως είσοδος η οπτική ροή που υπολογίζεται για μια ακολουθία εικόνων με τη μέθοδο LDOF [17]. Αρχικά σημεία: Οπως συμβαίνει σε κάθε παρακολουθητή (tracker), ένα σετ σημείων αρχικοποιείται στο πρώτο καρέ του βίντεο. Καθώς βασιζόμαστε σε πυκνή παρακολούθηση, θεωρητικά θα μπορούσαμε να αρχικοποιήσουμε όλα τα pixel. Ω- στόσο, ομογενείς περιοχές μπορούν να είναι προβληματικές. Για να δοθεί έμφαση σε
32 23 σημεία που μπορούν να παρακολουθηθούν πιο αξιόπιστα, αφαιρούμε σημεία που δεν εμφανίζουν καμιά δομή στη γειτονιά τους, βασιζόμενοι στη μικρότερη ιδιοτιμή λ 2 του τανυστή δομής (structure tensor). Αγνοούμε όλα τα σημεία όπου η λ 2 είναι μικρότερη από ένα συγκεκριμένο ποσό της μέσης λ 2 της εικόνας. Θεωρούμε τον structure tensor με βάση τους Brox et. al.[19]. Εστω μια grayscale εικόνα h : Ω R. Ο αρχικός πίνακας προκύπτει J 0 = h h T (2.27) και ομαλοποιείται, με συνέλιξη με ένα γκαουσιανό kernel K με τυπική απόκλιση ίση με ρ J ρ = K ρ h h T (2.28) Η παράμετρος ρ καθορίζει την κλίμακα ολοκλήρωσης, δηλαδή το μέγεθος της γειτονιάς που λαμβάνεται υπόψιν για την ανάλυση δομής. Κάθε ένα από τα σημεία παρακολουθείται στο επόμενο καρέ με χρήση της οπτικής ροής w := (u, v) T : (x t+1, y t+1 ) T = (x t, y t ) T + (u t (x t, y t ), v t (x t, y t )) T (2.29) Εφόσον η οπτική ροή έχει ακρίβεια σε επίπεδο μικρότερο από αυτό των pixel, τα x και y συνήθως καταλήγουν ανάμεσα σε σημεία του διακριτού πλέγματος. Χρησιμοποιούμε διγραμμική παρεμβολή (bilinear interpolation) για να συμπεράνουμε την οπτική ροή σε αυτά τα σημεία. Για λόγους αποδοτικότητας, γίνεται χωρική υποδειγματοληψία των αρχικών σημείων. Προκύπτει εμπειρικά ότι παράγοντες υποδειγματοληψίας μεγαλύτεροι του 12 χάνουν πληροφορία, αφού δεν υπάρχουν τροχιές για να καλύψουν μικρά αντικείμενα που κινούνται. Τελικά, επιλέχθηκε η τιμή 5 για το trajectory sampling step, η οποία εφαρμόζεται τόσο στον οριζόντιο όσο και στον κάθετο άξονα. Παρακολούθηση: Κάθε ένα από τα σημεία, παρακολουθείται στο επόμενο χρονικά καρέ (t + 1), χρησιμοποιώντας το πεδίο οπτικής ροής w t του καρέ t. Ανίχνευση απόκρυψης: Η παρακολούθηση πρέπει να σταματήσει όταν ένα σημείο αποκρυφθεί. Αυτό είναι πολύ σημαντικό, αφου διαφορετικά η τροχιά του σημείου θα μοιραστεί την κίνηση δύο διαφορετικών αντικειμένων. Η απόκρυψη, ανιχνεύεται ελέγχοντας την σταθερότητα (consistency) της οπτικής ροής προς τα εμπρός (forward) και προς τα πίσω (backward). Σε περίπτωση μη-απόκρυψης, το διάνυσμα της οπτικής ροής προς τα πίσω δείχνει προς την αντίθετη κατεύθυνση από αυτή του διανύσματος της οπτικής ροής προς τα μπροστά: u t (x t, y t ) = û t (x t + u t, y t + v t ) και
33 24 v t (x t, y t ) = ˆv t (x t + u t, y t + v t ), όπου ŵ = (û, ˆv) είναι η οπτική ροή από το καρέ t + 1 στο καρέ t. Εάν αυτή η απαίτηση δεν ικανοποιείται, τότε είτε το σημείο αποκρύπτεται τη χρονική στιγμή t+1, είτε η οπτική ροή δεν έχει υπολογιστεί επακριβώς. Και οι δύο λόγοι είναι ικανή συνθήκη για τη διακοπή της παρακολούθησης αυτού του σημείου τη χρονική στιγμή τ. Εφόσον πάντα υπάρχουν μικρά λάθη υπολογισμού της οπτικής ροής, δίνουμε ένα περιθώριο σφάλματος, που επιτρέπει στα σφάλματα αυτά να αυξάνουν γραμμικά με το πλάτος της κίνησης. w + ŵ 2 < 0.01( w 2 + ŵ 2 ) (2.30) Σταματάμε επίσης να παρακολουθούμε σημεία σε σύνορα κίνησης. Η ακριβής τοποθεσία του συνόρου κίνησης, όπως υπολογίζεται από την οπτική ροή, κυμαίνεται. Αυτό οδηγεί στο ίδιο αποτέλεσμα με την απόκρυψη: ένα σημείο που παρακολουθείται γλιστράει προς την άλλη πλευρά του συνόρου και μοιράζεται μερικώς την κίνηση δύο διαφορετικών αντικειμένων. Για να αποφύγουμε τέτοια συμβάντα, σταματάμε να παρακολουθούμε ένα σημείο όταν u 2 + v 2 > 0.01 w (2.31) Η απόκρυψη, συνυπάρχει με την επανεμφάνιση σημείων που αποκρυπτόταν. Για να γεμίσουν με σημεία τέτοιες περιοχές, που εώς τώρα δεν καλυπτόταν από τροχιές, νέες τροχιές αρχικοποιούνται σε άδειες περιοχές σε κάθε νέο καρέ, χρησιμοποιώντας την ίδια στρατηγική με αυτή του πρώτου καρέ Ομοιότητες μεταξύ τροχιών Οι τροχιές είναι ασύγχρονες, δηλαδή καλύπτουν διαφορετικά χρονικά παράθυρα σε μια λήψη βίντεο. Αυτό είναι ιδιαίτερα εμφανές εάν η λήψη περιέχει γρήγορη κίνηση και μεγάλες περιοχές που αποκρύπτονται. Εάν επιλέγαμε μόνο το σύνολο των τροχιών που παρέμεναν ορατές και καταγεγραμμένες για όλη τη λήψη, θα παίρναμε ένα πολύ μικρό ή ακόμη και άδειο σύνολο, και θα χάναμε πολλά αντικείμενα που είναι κυρίαρχα στη σκηνή. Ετσι, αντί να επιλέξουμε ένα πλήρως συμβατό υποσύνολο, ορίζουμε τα ζεύγη ομοιοτήτων (affinities) μεταξύ όλων των τροχιών που μοιράζονται τουλάχιστον ένα κοινό καρέ. Θα έπρεπε να αναθέταμε υψηλα affinities σε ζεύγη σημείων που κινούνται μαζί. Ωστόσο, δύο αντικείμενα που κινούνται το ένα δίπλα στο άλλο μοιράζονται την ίδια κίνηση, παρόλο που είναι διαφορετικά αντικείμενα. Λαμβάνουμε υπόψιν μας ότι υπάρχουν περιπτώσεις όπου δε
34 25 μπορούμε να ξεχωρίσουμε δύο αντικείμενα. Η πραγματική πληροφορία δεν βρίσκεται στην κοινή κίνηση, αλλά στις διαφορές κίνησης. Μόλις ένα αντικείμενο κινείται σε διαφορετική κατεύθυνση από ένα άλλο, παίρνουμε ένα πολύ καθαρό μήνυμα ότι αυτές οι δύο περιοχές στην εικόνα δεν ανήκουν στο ίδιο αντικείμενο. Ορίζουμε τις αποστάσεις και τα affinities έτσι, ώστε να εκμεταλλεύονται βέλτιστα αυτή την πληροφορία. Σε δύο τροχιές A και B, θεωρούμε τη στιγμή όπου η κίνηση των σημείων τους είναι η πιο ανόμοια. d 2 (A, B) = max t d 2 t (A, B) (2.32) Ορίζουμε την απόσταση ανάμεσα σε δύο τροχιές σε μια συγκεκριμένη χρονική στιγμη t ως: d 2 t (A, B) = d sp (A, B) (ua t u B t ) 2 + (v A t v B t ) 2 5σ 2 t (2.33) όπου d sp (A, B) είναι η μέση χωρική ευκλείδια απόσταση των τροχιών A και B στο κοινό τους χρονικό παράθυρο. Πολλαπλασιάζοντας με τη χωρική απόσταση, διασφαλίζουμε ότι τα κοντινά σημεία θα παράγουν υψηλά affinities. Ως u t := x t+5 x t και v t := y t+5 y t σημειώνεται η κίνηση ενός σημείου σε βάθος 5 καρέ. Αυτό προσθέτει κάποια επιπλέον ακρίβεια στην εκτίμηση κίνησης. Εάν καλύπτονται λιγότερα από 5 καρέ, τότε κάνουμε αυτό το averaging γίνεται για τα καρέ που είναι διαθέσιμα. Μια άλλη σημαντική λεπτομέρεια είναι η κανονικοποίηση της απόστασης με τον παράγοντα 5 σ t = min a (A,B) σ(x a t+t, ya t+t, t + t ) (2.34) t =1 όπου σ : R 3 R είναι το πεδίο μεταβολής της ροής. Η κανονικοποίηση με τον παράγοντα σ t είναι πολύ σημαντική για να χειριστούμε τόσο γρήγορη, όσο και αργή κίνηση. Εαν υπάρχει ελάχιστη εώς καθόλου κίνηση σε μια σκηνή, μια διαφορά κίνησης 2 pixels είναι μεγάλη, ενώ η ίδια διαφορά κίνησης θεωρείται αμελητέα σε μια σκηνή με γρήγορη κίνηση. Καθώς η κλιμάκωση και η περιστροφή θα παράξει μικρές διαφορές κίνησης έστω τοπικά, είναι σημαντικό να τα λαμβάνουμε υπόψιν μας με βάση τη συνολική κίνηση. Το να επιλέγουμε την τοπική παρά την ολική μεταβολή της οπτικής ροής, παράγει τις επιθυμητές διαφορές όταν υπάρχουν τουλάχιστον τρεις συστάδες κίνησης στη σκηνή. Η διαφορά κίνησης ανάμεσα σε δύο από αυτές μπορεί να είναι μικρή, ενώ οι άλλες διαφορές να είναι μεγάλες. Χρησιμοποιούμε το σύνηθες εκθετικό και έναν παράγοντα λ = 0.1 για να μετατρέψουμε τις αποστάσεις d 2 (A, B) σε affinities exp ( λd 2 (A, B)) (2.35)
35 26 παίρνοντας έναν n n πίνακα ομοιοτήτων W για όλη τη λήψη, όπου n είναι ο συνολικός αριθμός των τροχιών. Ο πίνακας αυτός, ουσιαστικά αναπαριστά το γράφο ομοιοτήτων τροχιών. 2.5 Affine μοντέλα κίνησης Εστω P το σύνολο των pixel ενός καρέ I t της ακολουθίας εικόνων I. Επίσης έστω ότι R = {r i, i = 1 n R } είναι το σύνολο των regions του καρέ. Η κίνηση των σημείων μιας περιοχής r i μπορεί να περιγραφθεί με ένα affine motion model wi R : P R 2, το οποίο προκύπτει από τα υπολογισμένα optical flow estimates της περιοχής. Ας θεωρήσουμε ότι η περιοχή r i έχει n σημεία (x, y). Τότε εάν το σημείο (x 1, y 1 ) μεταβαίνει στο σημείο (x 2, y 2 ) στο επόμενο καρέ, θα ισχύει x 2 = a 11 x 1 + a 12 y 1 + b 1 και y 2 = a 21 x 1 + a 22 y 1 + b 2, δηλαδή [ x2 y 2 ] [ ] x 1 a11 a 12 b 1 = a 21 a 22 b y 1 (2.36) 2 1 Το πρόβλημα αυτό λύνεται με τον προσδιορισμό των παραμέτρων a 11, a 12, a 11, a 12, b 1, b 2, μέσω της μεθόδου ελαχίστων τετραγώνων. Οι παράμετροι a 11, a 12 και b 1 εξαρτώνται μόνο από το στοιχείο u της οπτικής ροής, ενώ οι παράμετροι a 21, a 22 και b 2 εξαρτώνται από το στοιχείο v. Θέτουμε X 2 = x 1 2., Y 2 = y 1 2., X 1 = x 1 1. και Y 1 = y x n 2 y n 2 x n 1 y n 1 Επίσης θέτουμε x 1 2 y2 1 1 K =... x n 2 y2 n 1 ] Εάν M 1 = [a 11 a 12 b 1 και M 2 = [a 21 a 22 b 2 ], τότε M 1 = (X T 2 K)(KKT ) 1 και M 2 = (Y2 TK)(KKT ) 1. Ειδική μέριμνα λαμβάνεται για τα καρέ στα οποία από το segmentation προκύπτουν regions στα οποία ανήκουν λιγότερα από 3 σημεία. Εφόσον ο υπολογισμός affine motion model απαιτεί τουλάχιστον 3 σημεία, συνενώνουμε τέτοιου τύπου regions με ένα από τα γειτονικά τους, έχοντας ως κριτήριο επιλογής τη μέση χρωματική τιμή του region.
36 2.6 Συσταδοποίηση γράφου με χρήση κανονικοποιημένων τομών 27 Ενας μη κατευθυνόμενος γράφος, είναι ένα ζευγάρι G = (V, E) όπου V = {v 1,..., v m } είναι ένα σύνολο κόμβων, και E είναι ένα σύνολο υποσυνόλων του V των δύο στοιχείων (δηλαδή, υποσύνολα {u, v}, με u, v V και u v), που ονομάζονται ακμές. Για κάθε ακμή {u, v}, οι κόμβοι u και v λέγεται ότι είναι γειτονικοί ο ένας στον άλλον. Εάν σε κάθε ακμή {v i, v j } αντιστοιχίζεται ένας πραγματικός αριθμός w ij που ονομάζεται βάρος, τότε ο γράφος ονομάζεται σταθμισμένος. Ο συμμετρικός πίνακας βάρους συμβολίζεται με W και είναι τέτοιος ώστε w ij 0 i, j {1... m} και w ii = 0 i {1... m}. Για κάθε κόμβο v V, ο βαθμός d(v) του v είναι το πλήθος των ακμών που είναι γειτονικές στο v: d(v) = {u V {u, v} E} (2.37) Για ένα υποσύνολο κόμβων, A V, ορίζουμε τον όγκο vol(a) του A ως το άθροισμα των βαρών όλων των ακμών που είναι γειτονικές σε κόμβους του A. vol(a) = u i A d(u i ) = u i A m w ij (2.38) j=1 Σχήμα 2.11: Σταθμισμένος γράφος Για δύο υποσύνολα A, B V (όχι απαραίτητα διακριτά), ορίζουμε ως συνδέσμους, links(a, B) την παράσταση links(a, B) = w ij (2.39) v i A,v j B
37 28 Σχήμα 2.12: Βαθμός κόμβου (αριστερά) και όγκος κόμβων (δεξιά) σε ένα σταθμισμένο γράφο Ο W είναι συμμετρικός, οπότε links(a, B) = links(b, A). Ακόμη, ισχύει vol(a) = links(a, V ) Για ένα υποσύνολο A από το σετ διανυσμάτων V, ορίζουμε την τομή cut(a) = links(a, Ā) = w ij (2.40) v i A,v j Ā Σε ένα σετ δεδομένων, ο στόχος της συσταδοποίησης (graph clustering) είναι ο διαχωρισμός των δεδομένων σε διαφορετικές ομάδες, σύμφωνα με τις ομοιότητές τους. Οταν τα δεδομένα δίνονται με όρους ενός γράφου ομοιότητας G, όπου το βάρος w ij ανάμεσα σε δύο κόμβους v i και v j είναι ένα μέτρο της ομοιότητας των v i και v j, το πρόβλημα διατυπώνεται ως εξής: Να βρεθεί ένας διαχωρισμός (A 1,..., A K ) του συνόλου V των κόμβων σε διαφορετικές ομάδες, έτσι ώστε οι ακμές ανάμεσα σε διαφορετικές ομάδες να έχουν πολύ μικρό βάρος (που είναι ένδειξη του γεγονότος ότι σημεία που ανήκουν σε διαφορετικές συστάδες, είναι ανόμοια) και οι ακμές εντός μιας ομάδας να έχουν μεγάλο βάρος (που είναι ένδειξη του γεγονότος ότι σημεία που ανήκουν στην ίδια συστάδα, είναι όμοια). Το παραπάνω πρόβλημα συσταδοποίησης γράφου μπορεί να οριστεί ως ένα πρόβλημα βελτιστοποίησης, χρησιμοποιώντας την προαναφερθείσα έννοια της τομής ενός γράφου. Εάν θέλουμε να διαχωρίσουμε ένα σύνολο V σε K συστάδες, μπορούμε να βρούμε το διαχωρισμό (A 1,..., A K ) που ελαχιστοποιεί την ποσότητα cut(a 1,..., A K ) = 1 2 K cut(a i ) (2.41) i=1 Ο λόγος που εισάγεται ο παράγοντας 1 2 είναι για να αποφευχθεί το μέτρημα κάθε ακμής δύο φορές. Σημειώνεται ότι cut(a, Ā) = links(a, Ā). Για K = 2 το πρόβλημα μπορεί να λυθεί,
38 29 Σχήμα 2.13: Παράδειγμα πιθανών τομών σε ένα γράφο: σημειώνονται 2 τομές (αυτές των n1 και n2) οι οποίες δε θεωρούνται ικανοποιητικές, καθώς και μία σαφώς καλύτερη Σχήμα 2.14: Τομή γράφου αλλά δεν βρίσκονται ικανοποιητικοί διαχωρισμοί. Πράγματι, σε πολλές περιπτώσεις, η λύση διαχωρίζει έναν κόμβο από τους υπόλοιπους του γράφου. Χρειάζεται να σχεδιάσουμε τη συνάρτηση κόστους με ένα τέτοιο τρόπο ώστε να κρατά τα υποσύνολα A i επαρκώς μεγάλα- /επαρκώς ισορροπημένα. Ενας τρόπος για να επιτευχθεί αυτό είναι η κανονικοποίηση των τομών, διαιρώντας με κάποιο μέτρο κάθε υποσυνόλου A i. Ετσι, μπορεί να χρησιμοποιηθεί το μέγεθος (το πλήθος των στοιχείων) του A i, ή ο όγκος vol(a i ) του A i. Η δεύτερη λύση προτείνεται από τους Shi και Malik[20]. Η γενική ιδέα των κανονικοποιημένων τομών λοιπόν, είναι η ελαχιστοποίηση της εξής συνάρτησης κόστους: Ncut(A 1,..., A K ) = K i=1 links(a i, Āi) vol(a i ) = K i=1 cut(a i, Āi) vol(a i ) (2.42) και θα χρησιμοποιηθεί στην μέθοδό μας για συσταδοποίηση του γράφου που περιέχει ομοιότητες κίνησης περιοχών των καρέ.
39 Ανιχνευτής k-poselet Οπως αναφέρθηκε παραπάνω, ο ανιχνευτής k-poselet εντοπίζει με καλή ακρίβεια τη θέση μελών του σώματος όπως οι ώμοι και το πρόσωπο, ενώ σε άλλα αποτυγχάνει. Από τις προβλέψεις για τη θέση όλων των keypoints που ορίζουν μια πόζα, χρησιμοποιούμε μόνο την θέση των ώμων, διερευνώντας τη συνεκτικότητα των σημείων αυτών σε βάθος χρόνου. (αʹ) (βʹ) Σχήμα 2.15: Το bounding box του torso μιας πρόβλεψης k-poselet και τα αντίστοιχα keypoints. 2.8 Ανιχνευτής προσώπου Σε ορισμένες περιπτώσεις, ο ανιχνευτής k-poselet επιστρέφει την ανίχνευση με το υψηλότερο score, σε λανθασμένο σημείο. Για να αποφευχθεί αυτό, χρησιμοποιείται ένα επιπρόσθετο μέτρο για την επιλογή του σωστού k-poselet. Αυτό είναι η διασφάλιση της εγγύτητας του προσώπου, όπως αυτό ανιχνεύεται και εντοπίζεται από το κάθε k-poselet, με την ανίχνευση και τον εντοπισμό προσώπου που κάνει η μέθοδος των Zhu et. al[21].
40 Σχήμα 2.16: Το αποτέλεσμα της ανίχνευσης προσώπου με τη μέθοδο [21]. 31
41 Κεφάλαιο 3 Προτεινόμενη μεθοδολογία 3.1 Ομοιότητες με βάση την κίνηση Για την υλοποίηση της προτεινόμενης μεθοδολογίας, πρέπει να συνδυαστούν οι πληροφορίες κίνησης που προέρχονται από τροχιές σημείων και από affine μοντέλα κίνησης. Σε αυτές τις πληροφορίες θα δοθεί χωρική υποστήριξη από τα regions που παίρνουμε από το αρχικό segmentation των καρέ. Στην ακολουθία εικόνων I, θεωρούμε ένα καρέ I t με σύνολο περιοχών R = {r i, i = 1 n R }. Σε κάθε καρέ, περιγράφουμε την κίνηση ενός region με δύο τρόπους: α) με το σύνολο των τροχιών, εάν υπάρχουν, που επικαλύπτουν τη μάσκα του region β) με το affine μοντέλο κίνησης του region. Η χρήση affine μοντέλων, επιτρέπει την αναπαράσταση της κίνησης των regions που έχουν αμφίβολη οπτική ροή και αραιή κάλυψη τροχιών. Ως μέτρο σύγκρισης, είναι ασθενέστερο από τα multi-frame trajectory affinities, αφού λαμβάνει υπόψιν τα optical flow estimates ενός μόνο καρέ. Εστω r i μια τυχαία περιοχή του καρέ I t και T = {tr α, α = 1 n T } το σύνολο τροχιών της ακολουθίας εικόνων I. Η ομοιότητα κίνησης δύο τροχιών tr a, tr b, σημειώνεται ως A T (tr a, tr b ), ενώ το affine μοντέλο του r i είναι wi R : P R Συμβατότητα affine μοντέλων περιοχών Εστω ότι για δύο περιοχές r i και r j χρησιμοποιούμε ως μέτρο της ομοιότητας της κίνησής τους, τη συμβατότητα των affine μοντέλων τους, όπως ορίζεται στη σχέση 3.1, για σ = 0.1. Εάν οι δύο αυτές περιοχές ανήκουν στην προβολή της ίδιας 3D επιφάνειας, τότε το μέτρο αυτό θα είναι υψηλό, με μέγιστη τιμή το 1 και ελάχιστη το 0. 32
42 33 A(r i, r j ) = p r i r j exp( 1 σ w R j (p) wr i (p) 2 ) r i r j (3.1) Μέση ομοιότητα τροχιών περιοχών Εστω ότι για δύο περιοχές r i και r j χρησιμοποιούμε ως μέτρο της ομοιότητας της κίνησής τους, την ομοιότητα κίνησης των τροχιών τους, όπως ορίζεται στη σχέση 3.2. Παρομοίως με το προηγούμενο μέτρο σύγκρισης κι αυτό θα έχει μέγιστη τιμή το 1 και ελάχιστη το 0. A(r i, r j ) = α T i,b T j A T (tr a, tr b ) T i T j (3.2) Ομοιότητα κίνησης περιοχών Για να χειριστούμε το γεγονός ότι σε κάθε καρέ υπάρχουν περιοχές είτε με πυκνή, είτε με αραιή εώς μηδενική κάλυψη τροχιών, ορίζουμε ένα κατώφλι πυκνότητας για την κάλυψη τροχιών κάθε περιοχής, το οποίο εξαρτάται κι από το βήμα δειγματοληψίας τροχιών. Ετσι, για να θεωρείται πυκνή η κάλυψη τροχιών της περιοχής r i, πρέπει T i r i > ρ, όπου ρ = 0.02 το κατώφλι πυκνότητας για βήμα δειγματοληψίας τροχιών step = 5 και S η πληθικότητα του συνόλου S. Οι τελικές ομοιότητες κίνησης για κάθε ζεύγος περιοχών, είναι: A(r i, r j ) = α T i,b T j A T (tr a,tr b ) T i T j αν T i r i, T j r j > ρ p r i r j exp( 1 σ w R j (p) wr i (p) 2 ) r i r j αλλού (3.3) 3.2 Απωθήσεις με βάση την ανίχνευση μελών Κάθε ανίχνευση d q σε ένα σύνολο ανιχνεύσεων D = {d q, q = 1 n D } επιφέρει απωθήσεις φιγούρας-υποβάθρου (figure-ground) ανάμεσα στις περιοχές που βρίσκονται στο εσωτερικό της και στο εξωτερικό της. Εστω M q το pixel set που θέλουμε να αναφέρεται στο εσωτερικό της ανίχνευση των ώμων d q. Θεωρούμε ένα ισοσκελές τρίγωνο, με βάση του τριγώνου ένα ευθύγραμμο τμήμα ανάμεσα στους δύο ώμους, μήκους ελαφρώς μικρότερου της απόστασης των δύο ώμων. Το ύψος του τριγώνου εξαρτάται κι αυτό εμμέσως από την απόσταση των δύο ώμων. Μπορεί να τεθεί σε αναλογία 4 10 προς τη βάση του. Ολες οι περιοχές που καλύπτονται, έστω και σε ένα σημείο, από οποιαδήποτε πλευρά του ισοσκελούς τριγώνου,
43 34 ανήκουν στο σύνολο M q. Ορίζουμε επίσης ως U q το pixel set που βρίσκεται έξω από έναν κύκλο με κέντρο το μέσο του ευθύγραμμου τμήματος που ενώνει τους δύο ώμους και ακτίνα η οποία υπερβαίνει το μέγιστο πιθανό μήκος χεριού, το οποίο ορίζεται σε αναλογία προς την απόσταση των ώμων. Σχήμα 3.1: Οι αρχικές περιοχές ενός καρέ Εχουμε x F 1 αν r i M q q (i) =, i = 1 n R, q = 1 n D (3.4) 0 αν r i / M q x B q (i) = δ( r i U q r i > 0.5), i = 1 n R, q = 1 n D (3.5) όπου δ είναι η συνάρτηση δέλτα του Dirac. Απωθήσεις (repulsions) εμφανίζονται ανάμεσα σε περιοχές που ανήκουν στο foreground και στο backgroundτης κάθε ανίχνευσης. R(r i, r j D) = max q d q D xf q (i)x B q (j) + x B q (i)x F q (j) (3.6)
44 35 Θέτουμε ως S(D) το σύνολο των ακμών απώθησης: S(D) = {(i, j) s.t. d q D, x F q (i)x B q (j) + x B q (i)x F q (j) = 1} (3.7) (αʹ) (βʹ) Σχήμα 3.2: α) Το εσωτερικό της ανίχνευσης ώμων (μπλε τρίγωνο) και η μάσκα M q που προκύπτει από τον εντοπισμό ώμων του k-poselet. Οι περιοχές που συσχετίζονται με τη μάσκα αυτή χρωματισμένες με κόκκινο β) Η μάσκα U q (εξωτερικά του σκούρου κύκλου) και οι περιοχές που καλύπτονται επαρκώς από αυτήν, χρωματισμένες με κόκκινο
45 36 (αʹ) (βʹ) Σχήμα 3.3: α) Τα σημεία στα οποία εντοπίστηκαν τροχιές σε ένα καρέ β) Επιλογή μιας τροχιάς (σημειωμένης με αστέρι) και εμφάνιση ομοιότητας των τροχιών στη γειτονιά της. Το κόκκινο χρώμα υποδεικνύει υψηλή ομοιότητα, ενώ το μπλε χαμηλή.
46 Κατευθυνόμενες τομές Συνδυάζουμε τα motion-driven affinities A με τα detection-driven repulsions R σε ένα γράφο ομοιότητας περιοχών (region affinity graph) ακυρώνοντας τα affinities μεταξύ περιοχών που απωθούνται: A steer (r i, r j D) = (1 R(r i, r j D)) A(r i, r j ) (3.8) Το συμπέρασμα στο μοντέλο μας, προκύπτει με το clustering των περιοχών R σε ομάδες που ιδανικά αντιπροσωπεύουν το left lower arm, το right lower arm, το left upper arm, το right upper arm, το torso και το υπόβαθρο/background. Εστω X {0, 1} nr K η ένδειξη του cluster της κάθε περιοχής, όπου X k είναι η k-στη στήλη του X και K είναι ο συνολικός αριθμός των clusters. Εστω επίσης D A steer ένας διαγώνιος πίνακας, όπου D A steer(i, i) = j Asteer (i, j). Μεγιστοποιούμε το ακόλουθο κριτήριο κανονικοποιημένης τομής (normalized cut) στον κατευθυνόμενο γράφο (steered graph): max X ɛ(x D) = K k=1 X T k Asteer (D)X k X T k D A steer (D)X k (3.9) s.t. X {0, 1} n R K, K X k = 1 nr (3.10) k=1 (i, j) S(D), K X k (i)x k (j) = 0 (3.11) k=1 Οι περιορισμοί της 3.11 απαιτούν οι περιοχές που συνδέονται με ακμές απώθησης να ανήκουν σε διαφορετικά clusters. Το πρόβλημα της 3.9 λύνεται διαδίδοντας πληροφορίες από μέρη όπου υπάρχει βεβαιότητα σχετικά με την κίνησή τους, σε μέρη όπου υπάρχει αβεβαιότητα. Συγχωνεύονται επαναληπτικά ζεύγη περιοχών οι οποίες έχουν μικρό embedding distance καθώς και motion affinity πάνω από ένα κατώφλι l. Επειτα επανυπολογίζονται οι ομοιότητες κίνησης των νέων περιοχών. Συγκεκριμένα, γίνεται η εξής επανάληψη: 1. Υπολογίζονται τα embedding region affinities W = V ΛV T, όπου (V, Λ) είναι τα πρώτα K ιδιοδιανύσματα και ιδιοτιμές του κανονικοποιημένου πίνακα ομοιοτήτων περιοχών D 1 A steer A steer. Οι ομοιότητες ενσωμάτωσης του W είναι μια ολικά διαδεδομένη έκδοση των τοπικών ομοιοτήτων του D 1 A steer A steer.
47 38 2. Ταξινομούνται τα ζεύγη των περιοχών με φθίνουσα σειρά, σύμφωνα με τις τιμές των ομοιοτήτων ενσωμάτωσης. Κατά την επιλογή του κάθε ζεύγους περιοχών, ελέγχεται αν A( r i, r j ) > l. Αν δεν πληρούται η προϋπόθεση αυτή, τότε απορρίπτεται αυτό το ζεύγος και ελέγχονται τα επόμενα, εως ότου βρεθεί ένα ζεύγος που πληροί την προϋπόθεση. Συγχωνεύονται οι περιοχές r i, r j με τη μεγαλύτερη ομοιότητα ενσωμάτωσης και υπολογίζονται τα motion affinities του καινούριου region. Ανανεώνεται ο A steer με τις καινούριες ομοιότητες κίνησης περιοχών. (ĩ, j) = arg max W(i, j) (3.12) (i,j)/ S(D)) Επειδή στην πράξη αυτή η διαδικασία συχνά αποτυγχάνει και επιλέγονται, προς συγχώνευση, περιοχές που στην πραγματικότητα δεν θα έπρεπε να επιλεχθούν, ορίζουμε ένα επιπρόσθετο, αυστηρότερο μέτρο ομοιότητας κίνησης μεταξύ δύο περιοχών r i και r j, πέρα κι έξω από τη μέθοδο του [9]. Για τα pixels ενός ζεύγους περιοχών (r t i, rt j ) του καρέ I t, υπολογίζουμε τις θέσεις τους στα καρέ I t+1 και I t+2, παρακολουθώντας τα με βάση τα forward optical flow estimates. Εστω Ri t+1 και Ri t+2 τα σύνολα των περιοχών στις οποίες θα βρίσκονται τα pixels του r i, στα καρέ I t+1 και I t+2 αντίστοιχα. Ακόμη, έστω Rj t+1 και Rj t+2 τα σύνολα των περιοχών στις οποίες θα βρίσκονται τα pixels του r j, στα καρέ I t+1 και I t+2. Ταξινομούμε τις περιοχές που ανήκουν στο R t+1 i με βάση το πλήθος των pixels του r t i που μετέβησαν σε κάθε μια από αυτές στο καρέ I t+1, κατά φθίνουσα σειρά. Με αυτό τον τρόπο προσπαθούμε να βρούμε την πιο αντιπροσωπευτική περιοχή ri t+1 του καρέ I t+1 που αντιστοιχεί στην ri t. Αντίστοιχα πράττουμε ώστε να βρούμε την πιο αντιπροσωπευτική περιοχή rj t+1 του καρέ I t+1 που αντιστοιχεί στην rj t. Αν κάποια σημεία, βάσει οπτικής ροής, μεταβαίνουν εκτός του πλαισίου της εικόνας, παύουμε να τα λαμβάνουμε υπόψιν μας. Λαμβάνουμε την τιμή A(ri t+1, rj t+1 ) από τον πίνακα A που αντιστοιχεί στο καρέ I t+1. Κάνουμε την ίδια ακριβώς A(r διαδικασία για το καρέ I t+2 και ελέγχουμε εάν ισχύει t+1 i,r t+1 j )+A(r t+2 i,r t+2 j ) 2 > 1.2 l, όπου l το κατώφλι ελάχιστης απαιτούμενης ομοιότητας κίνησης περιοχών. Αν πληρούται η προϋπόθεση αυτή, τότε προχωρούμε συγχωνεύοντας το ζεύγος αυτό. Ετσι, αποκτούμε μια πιο σαφή άποψη για την ομοιότητα κίνησης δύο περιοχών, αφού χωρίς το επιπρόσθετο μέτρο παρατηρούμε ότι υπάρχουν περιστασιακές ομοιότητες κίνησης περιοχών που οφείλονται σε κακή εκτίμηση οπτικής ροής, ιδιαίτερα σε περιοχές με αραιή κάλυψη τροχιών. Ο πίνακας A steer μικραίνει σε μέγεθος κατά τη διάρκεια των επαναλήψεων. Πρακτικά, συγχωνεύουμε πολλά ζεύγη περιοχών πριν επανυπολογίσουμε τις ομοιότητες κίνησης περιοχών και τα embedding distances του A steer. Το κατώφλι l αρχικοποιείται σε μια τιμή και μειώνεται κάθε φορά που από την επαναληπτική διαδικασία που περιγράφθηκε παραπάνω δεν βρίσκεται κανένα κατάλληλο ζεύγος προς συγχώνευση. Η μείωση αυτή σταματά
48 39 σε ένα κατώτατο όριο κατωφλίου. Παρατηρήθηκε ότι τα upper arms είναι πολύ δύσκολο να ξεχωρίσουν από το εσωτερικό του κυρίως σώματος. Ωστόσο, τα lower arms συχνά ανταποκρίνονται σε clusters περιοχών. (αʹ) Σχήμα 3.4: Το πρώτο καρέ ενός βίντεο Σχήμα 3.5: Στάδια συγχώνευσης περιοχών του πρώτου καρέ
49 Εκτίμηση πόζας Ταίριασμα έλλειψης σε περιοχές Σε κάθε περιοχή ταιριάζουμε μια έλλειψη και υποθέτουμε τις αρθρώσεις του lower arm στα άκρα του μεγάλου άξονα της έλλειψης. Εστω Jk 1 και J k 2 τα σημεία των υποτιθέμενων αρθρώσεων. Χρησιμοποιώντας τα σημεία αυτά και τα ήδη γνωστά σημεία των ώμων, προσπαθούμε να κατασκευάσουμε την κινηματική αλυσίδα των χεριών του ανθρώπου. Ωστόσο, πολλές φορές στην τελική κατάτμηση που παίρνουμε παρουσιάζεται πολυκερματισμός όσον αφορά τις περιοχές που αντιστοιχούν στο lower arm, το οποίο δεν αντιστοιχεί αποκλειστικά σε μία περιοχή. Διερευνούμε τη δυνατότητα συνδυασμού των πολλών ξεχωριστών περιοχών σε συστάδες ώστε να εμφανιστεί η τελική δομή που αναζητείται, σε επόμενο όμως στάδιο. Στην παρούσα φάση, εξετάζουμε ποιό από τα δύο άκρα του μεγάλου άξονα θα μπορούσε να αντιστοιχεί στην άκρη ενός χεριού (hand endpoint). Για το σκοπό αυτό κατασκευάζουμε ένα score που αντιστοιχεί σε κάθε ένα από τα σημεία που υποθέτουμε ότι υπάρχει άρθρωση, δηλαδή τα δύο άκρα του μεγάλου άξονα κάθε έλλειψης. Με τον υπολογισμό και τη σύγκρισή αυτών των scores, καταλήγουμε σε υποτιθέμενα hand endpoints. Σχήμα 3.6: Ταίριασμα έλλειψης σε περιοχή. Η περιοχή επισημαίνεται με κίτρινο, η έλλειψη με κόκκινο και ο μεγάλος άξονας της έλλειψης με μπλέ χρώμα. Το score αυτό σημειώνεται ως score hand και εξαρτάται από τρείς παράγοντες: α) την ασυνέχεια της οπτικής ροής β) το πλάτος της οπτικής ροής γ) ένα συνδυασμό της ασυνέχειας και του πλάτους της οπτικής ροής. Αυτοί οι τρείς παράγοντες υπολογίζονται στη γειτονιά
50 41 του σημείου. Συγκεκριμένα, εάν w = (u, v) είναι το forward optical flow και ŵ = (û, ˆv) είναι το backward optical flow, τότε: 1. Η ασυνέχεια της οπτικής ροής προκύπτει από τον τύπο (2.18) με βάση τα w και ŵ. Κανονικοποιείται ώστε να ανήκει στο διάστημα [0, 1] και συμβολίζεται με d norm. Ο πρώτος όρος του score hand συμβολίζεται ως score 1 hand και είναι ο μέσος όρος της κανονικοποιημένης ασυνέχειας της οπτικής ροής, στα σημεία που ανήκουν σε κύκλο με κέντρο την υποτιθέμενη άρθρωση και ακτίνα ίση με 10 pixels. 2. Κανονικοποιούνται ξεχωριστά τα μεγέθη των u και v της οπτικής ροής, ώστε οι τιμές τους να ανήκουν στο διάστημα [0, 1]. Συμβολίζουμε το ημιάθροισμα των κανονικοποιημένων u p και v p ενός σημείου p : (x p, y p ) με f norm (x p, y p ) = ũp+ṽp 2. Ο δεύτερος όρος του score hand συμβολίζεται ως score 2 hand και είναι ο μέσος όρος του ημιαθροίσματος των κανονικοποιημένων u και v, στα σημεία που ανήκουν σε κύκλο με κέντρο την υποτιθέμενη άρθρωση και ακτίνα ίση με 8 pixels. 3. Ο τρίτος όρος του score hand συμβολίζεται ως score 3 hand και είναι ο μέσος όρος του πολλαπλασιασμού στοιχείο-στοιχείο των d norm και f norm, στα σημεία που ανήκουν σε κύκλο με κέντρο την υποτιθέμενη άρθρωση και ακτίνα ίση με 10 pixels. Το τελικό score hand προκύπτει από το σταθμισμένο μέσο όρο των τριών scores που αναφέρθηκαν: score hand = score1 hand + score2 hand + 2 score3 hand 4 (3.13) (αʹ) (βʹ) Σχήμα 3.7: α) Forward optical flow β) Backward optical flow
51 42 Σχήμα 3.8: Ασυνέχεια οπτικής ροής: είναι φανερό ότι παρουσιάζει υψηλές τιμές σε όρια ανάμεσα σε αντικείμενα με διαφορετική κίνηση, ωστόσο όταν δεν υπάρχει σημαντική πληροφορία κίνησης σε κάποιο καρέ, αυτό δεν ισχύει. Η ασυνέχεια οπτικής ροής είναι κρίσιμο στοιχείο για τον προσδιορισμό της άκρης ενός χεριού Σχήμα 3.9: Παράδειγμα εντοπισμού endpoint μιας περιοχής και εμφάνιση μιας εν δυνάμει κινηματικής αλυσίδας. Η άκρη εντοπίζεται σωστά και εμφανίζεται η κινηματική αλυσίδα ώμος-αγκώνας-καρπός. Ωστόσο, αυτό δεν αναπαριστά την τελική πόζα, καθώς είναι απλά μια αρχική υπόθεση.
52 43 Σε κάθε έλλειψη, το άκρο του μεγάλου άξονα με το υψηλότερο score hand είναι το άκρο που αντιστοιχεί στην υποτιθέμενη άκρη του χεριού, δηλαδή τον καρπό. Το άλλο άκρο, αντιστοιχεί στον υποτιθέμενο αγκώνα Προεπιλογή πιθανών περιοχών Οπως αναφέρθηκε παραπάνω, όταν υπάρχει πολυκερματισμός στις περιοχές του χεριού, πρέπει να αποκλείσουμε κάποιες, από τις πιθανές περιοχές που εμπλέκονται στην κινηματική αλυσίδα των χεριών. Καταρχάς, αποκλείονται όλες οι περιοχές που ανήκουν στο background του καρέ (x B q = 1), όλες οι περιοχές πάνω στις οποίες έχει εντοπιστεί σημείο ενδιαφέροντος του προσώπου (facian landmark points) από τον ανιχνευτή προσώπου καθώς και όλες οι περιοχές που έχουν μήκος μεγάλου άξονα έλλειψης μεγαλύτερο από την απόσταση μεταξύ των 2 ώμων. Κατασκευάζεται ακόμη ένα score, αυτή τη φορά με σκοπό την ταξινόμηση των περιοχών, σε αυτές που εμπλέκονται στην κινηματική αλυσίδα και σε αυτές που δεν εμπλέκονται. Το score αυτό, που το ονομάζουμε score final, εξαρτάται από 3 όρους: Ο πρώτος όρος, προκύπτει από τα 2 score hand της περιοχής. Συμβολίζεται ως score 1 final και ισχύει score 1 final = max(score1 hand, score2 hand ) (3.14) Είναι προφανές ότι οι περιοχές που θα ανήκουν στο lower arm έχουν μεγάλη σχέση με αυτό τον όρο. Ο δεύτερος όρος αναπαριστά την απόκριση της περιοχής σε ένα φίλτρο που εξετάζει την ομοιότητα του χρώματος της περιοχής με το χρώμα του δέρματος και συμβολίζεται ως score 2 final. Η μορφή χρώματος της εικόνας μετατρέπεται από RGB σε YCbCr και εξετάζεται η απόκλιση των χρωματικών συνιστωσών από το χρώμα του δέρματος, σύμφωνα με τους παρακάτω τύπους: 102 C b (3.15) 154 C r 161 (3.16) Εξάγεται η αρχική απόκριση στο φίλτρο αυτό, filter skin [0, 1]. Στην απόκριση αυτή θέτουμε ένα κατώφλι ελάχιστης τιμής thres skin = 0.6 και μηδενίζουμε την απόκριση σε όσα σημεία δεν ικανοποιούν τη συνθήκη filter skin thres skin. Κανονικοποιούμε το νέο filter skin στο διάστημα [0, 1]. Η τιμή του score 2 final είναι ο μέσος όρος της κανονικοποιημένης απόκρισης στα pixels του εξεταζόμενου region.
53 44 score 2 final = p r i filter skin (x p, y p ) r i (3.17) Ο τρίτος όρος συμβολίζεται ως score 3 final και είναι ο μέσος όρος του πολλαπλασιασμού στοιχείο-στοιχείο των f norm και filter skin, στα pixels του εξεταζόμενου region. score 3 final = p r i filter skin (x p, y p ) f norm (x p, y p ) r i (3.18) όπου ως συμβολίζεται ο πολλαπλασιασμός στοιχείο-στοιχείο δύο πινάκων. (αʹ) (βʹ) Σχήμα 3.10: α) Αρχική απόκριση χρωματικού φίλτρου β) Τελική κανονικοποιημένη α- πόκριση. Στο κάτω μέρος των εικόνων, παρατηρούμε την υψηλή απόκριση ενός ξύλινου επίπλου στο φίλτρο αυτό, η οποία δεν εντάσσεται στο επιδιωκόμενο αποτέλεσμα. Για το σκοπό αυτό, κατασκευάζεται το score 3 final και τα αποτελέσματά του στη συγκεκριμένη περιοχή φαίνονται στο επόμενο σχήμα (αʹ) (βʹ) Σχήμα 3.11: Οπτικοποίηση του filter skin f norm : α) Καρέ στο οποίο ο όρος αυτός βοηθά στη διάκριση και των δύο χεριών β) Καρέ στο οποίο η έλλειψη σημαντικής κίνησης στο ένα χέρι, οδηγεί σε χαμηλή συνεισφορά του όρου αυτού
54 45 Το τελικό score final προκύπτει από το σταθμισμένο μέσο όρο των τριών scores που αναφέρθηκαν: score final = α score1 final + β score2 final + γ score3 final α + β + γ (3.19) Οι παράμετροι α β, γ μπορούν να μεταβάλλονται, ανάλογα με την εξεταζόμενη ακολουθία. Ταξινομούμε κατά φθίνουσα σειρά τα τελικά score final και προεπιλέγουμε τις περιοχές που αντιστοιχούν στα n πρώτα, ως πιθανές περιοχές που εμπλέκονται στην κινηματική αλυσίδα και αναφέρονται στο lower arm. (αʹ) (βʹ) Σχήμα 3.12: α) Αρχική εικόνα β) Προεπιλογή των περιοχών με τα 5 μεγαλύτερα score final Επιλογή τελικών περιοχών Στο στάδιο αυτό, με βάση τις προεπιλεγμένες περιοχές κατασκευάζεται η τελική πόζα, όπως αυτή εκφράζεται από τις κινηματικές αλυσίδες του αριστερού και του δεξιού χεριού. Υπολογίζουμε τα κεντροειδή της κάθε περιοχής και έπειτα κάνουμε k-means clustering στα κεντροειδή και χωρίζουμε τις περιοχές σε 2 clusters, ένα για κάθε χέρι. Πλέον, μπορούν να σχηματιστούν οι κινηματικές αλυσίδες. Προκειμένου να υπάρχει διάδοση της πληροφορίας πόζας από καρέ σε καρέ, εφαρμόζεται ανάλυση προκρούστη (Procrustes analysis) στα keypoints που ορίζουν την πόζα σε κάθε καρέ, ώστε να εντοπιστούν τυχόν μεγάλες μεταβολές στο σχήμα των κινηματικών αλυσίδων, τέτοιες που θα οδηγούσαν σε λανθασμένη πρόβλεψη πόζας. Η ανάλυση του Προκρούστη αντιστοιχίζει δύο σύνολα τοπολογικών δεδομένων (π.χ. γεωμετρικές τοποθεσίες των σημείων ενός σχήματος) ώστε να υπολογίσει έναν ευκλείδιο μετασχηματισμό, διατηρώντας το αρχικό σχήμα σε ένα νέο σύστημα συντεταγμένων. Ελαχιστοποιείται η απόσταση ανάμεσα στα δύο σχήματα, όπως αυτή μετράται σύμφωνα με το
55 46 άθροισμα των τετραγωνικών διαφορών (sum of squared differences, SSD). Η συνάρτηση Προκρούστη δέχεται δύο πίνακες ως είσοδο: τον 3 2 πίνακα X με τις συντεταγμένες των τριών σημείων της κινηματικης αλυσίδας στο καρέ I t 1 και τον 3 2 πίνακα Y με τις συντεταγμένες των σημείων της υποτιθέμενης κινηματικής αλυσίδας, της οποίας η ορθότητα εξετάζεται στο καρέ I t. Σχήμα 3.13: Αναπαράσταση των διαδοχικών σταδίων (μετατόπιση, κλιμάκωση και περιστροφή) της ανάλυσης Προκρούστη. Η εξίσωση για την απόκτηση του μετασχηματισμένου σχήματος Z, είναι Z = by T + c.το b είναι ένας παράγοντας κλίμακας, που μεγενθύνει (εάν b > 1) ή συρρικνώνει (εάν b < 1) ένα σχήμα. Στην περίπτωσή μας, θέτουμε b = 1 ώστε να γίνεται ανάλυση Προκρούστη χωρίς να λαμβάνεται υπόψιν η κλιμάκωση. Το T είναι ένας πίνακας περιστροφής (rotation). Το c είναι ένας πίνακας με σταθερές τιμές σε κάθε στήλη, που χρησιμοποιείται για την μετατόπιση (translation) των σημείων. Το άθροισμα που ελαχιστοποιείται, είναι το D = 3 3 (X ij Y ij ) 2 (3.20) i=1 j=1 Τα αποτελέσματα που παίρνουμε από την ανάλυση Προκρούστη, συνδυάζονται με ένα επιπρόσθετο μέτρο, ώστε να καταλήξουμε σε ασφαλή συμπεράσματα όσον αφορά περιοχές που έχουν προεπιλεχθεί λανθασμένα ως μέρη κινηματικής αλυσίδας. Το μέτρο αυτό, προκύπτει ως εξής για την κάθε περιοχή r i του καρέ I t :
56 47 1. Βρίσκονται τα κεντροειδή των περιοχών οι οποίες ανήκουν στην κινηματική αλυσίδα του καρέ I t Γίνεται warp των κεντροειδών αυτών, με βάση την οπτική ροή, στο καρέ I t. 3. Υπολογίζονται οι αποστάσεις του κεντροειδούς της r i από τα warped κεντροειδή. Ε- ξετάζεται το μέγεθος της ελάχιστης από τις αποστάσεις αυτές. Εάν είναι μεγάλο, τότε αυτό συνιστά σοβαρή ένδειξη ότι η περιοχή αυτή δεν πρέπει να ανήκει στις περιοχές της τελικής πόζας Τελική εκτίμηση πόζας Εχοντας κατατάξει τις περιοχές που ανήκουν στα lower arms της πόζας σε δύο clusters, παίρνουμε τα σύνολα R left lower και Rright lower. Ταιριάζουμε μια έλλειψη και σχηματίζουμε τον μεγάλο άξονά της, σε κάθε ένα από αυτά τα δύο σύνολα. Ο άξονας αυτός, αντιστοιχεί πλέον στο αντίστοιχο lower arm. Ακολουθείται η ίδια διαδικασία με αυτή που περιγράφθηκε στην ενότητα για τον προσδιορισμό του endpoint στα άκρα αυτού του άξονα. Εχοντας υπολογίσει και τα τελικά endpoints, έχουμε περιγράψει πλήρως τις κινηματικές αλυσίδες που προσδιορίζουν την πόζα. Σχήμα 3.14: Υποψήφιες περιοχές lower arm μετά από προεπιλογή
57 48 Σχήμα 3.15: Μεγάλοι άξονες των τελικών ελλείψεων που αντιστοιχούν σε lower arm. Απομένει η αντιστοίχισή τους σε ώμους. Σχήμα 3.16: Κινηματικές αλυσίδες που προκύπτουν μετά από αντιστοίχιση των μεγάλων αξόνων στους ώμους με τους οποίους συνδέονται.
58 Σχήμα 3.17: Παράδειγμα μεγάλης στιγμιαίας μετατόπισης χεριού. Στην πάνω σειρά φαίνεται η οπτική ροή προς τα εμπρός και στη μεσαία σειρά η οπτική ροή προς τα πίσω. Η πόζα διαδίδεται σωστά στο χρόνο. 49
59 Κεφάλαιο 4 Πειράματα 4.1 Dataset Το σετ δεδομένων που χρησιμοποιήθηκε στα πειράματα, περιλαμβάνει δύο πηγές. Η πρώτη είναι ένα μέρος των εικόνων του dataset VideoPose 2.0 [22] που χρησιμοποιείται και στη μέθοδο των [8]. Η δεύτερη πηγή είναι καρέ τα οποία εξήχθησαν από βίντεο που καταγράψαμε με την κάμερα ενός iphone. Ολες οι εικόνες είναι έγχρωμες, με αναλύση pixels. Προέρχονται από βίντεο με 25 καρέ ανά δευτερόλεπτο από τα οποία παραλείπουμε κάθε δεύτερο καρέ. 4.2 Διεξαγωγή πειραμάτων Τα πειράματα γίναν σε σταθερό υπολογιστή με χρήση του λογισμικού Matlab. Το σύστημα στο οποίο γίναν, είναι το εξής: Λειτουργικό σύστημα: Linux Ubuntu Επεξεργαστής: Intel R Core TM 2 Duo Processor E8400 (6M Cache, 3.00 GHz, 1333 MHz FSB) Μνήμη RAM: DDR2 4GB Κάρτα γραφικών: NVIDIA GeForce GTX 260 Η διαδικασία που ακολουθήθηκε για την απόκτηση της τελικής κατάτμησης, συνοψίζεται στο ακόλουθο διάγραμμα. 50
60 51 Σχήμα 4.1: Διάγραμμα επαναληπτικής συγχώνευσης περιοχών 4.3 Συμπεράσματα Η εξεταζόμενη μέθοδος, πετυχαίνει τον υπολογισμό και την παρακολούθηση της πόζας του άνω μέρους του ανθρώπινου σώματος. Οι ανακριβείς πληροφορίες οπτικής ροής, αποδεικνύονται αρκετά χρήσιμες όταν αξιοποιηθούν καταλλήλως ανάλογα με την περιοχή από την οποία προέρχονται. Διάφορες παράμετροι μπορούν να αλλάξουν τιμή ανάλογα με το είδος της αλληλουχίας εικόνων, ώστε να πάρουμε το επιθυμητό αποτέλεσμα.
61 52 Για παράδειγμα, μειώνοντας την τιμή της μεταβλητής σ που χρησιμοποιείται στον υπολογισμό των affine motion models, πρακτικά απαιτούμε πιο αυστηρή ομοιότητα ανάμεσα σε 2 μοντέλα κίνησης, ώστε να έχουν υψηλό affinity. Στο παρακάτω σχήμα, παρατίθεται μια οπτικοποίηση του πίνακα A με δύο διαφορετικές τιμές του σ προς σύγκριση, ώστε να φανεί πως επηρεάζονται τα region affinities από τη συγκεκριμένη παράμετρο. Το μπλε χρώμα υποδηλώνει χαμηλό affinity, ενώ το κόκκινο χρώμα υψηλό affinity. (αʹ) (βʹ) Σχήμα 4.2: Οπτικοποίηση affinity matrix για 251 regions και μεταβολή παραμέτρου μοντέλων κίνησης: α) σ=0.1 β) σ=0.5. Παρατηρούμε το εξής: εμφανίζονται affinities ανάμεσα σε περιοχές οι οποίες δεν έχουν
62 53 πυκνή κάλυψη τροχιών, ακόμη κι αν αυτές απέχουν πολύ μεταξύ τους (καθώς η αρίθμηση των περιοχών γίνεται από πάνω προς τα κάτω κι από αριστερά προς τα δεξιά). Αυτό επιβεβαιώνεται κι από το ακόλουθο σχήμα, όπου φαίνεται ένας πίνακας, του οποίου τα στοιχεία (i, j) έχουν τιμή 1 (κόκκινο χρώμα) όταν οι περιοχές r i και r j έχουν πυκνή κάλυψη τροχιών, ενώ έχουν τιμή 0 (μπλε χρώμα) σε άλλη περίπτωση. Σχήμα 4.3: Πίνακας κάλυψης τροχιών Τα affinities που εμφανίστηκαν με την αύξηση του σ, βρίσκονται πάνω σε γραμμές και στήλες που αντιστοιχούν σε περιοχές με αραιή κάλυψη τροχιών. Παρομοίως, μπορούμε να αλλάξουμε την τιμή της μεταβλητής που συσχετίζει την απόσταση μεταξύ 2 τροχιών, με το trajectory affinity τους. Επίσης, για να αποφύγουμε την ύπαρξη υψηλών trajectory affinities ανάμεσα σε τροχιές που απέχουν πολύ μεταξύ τους, μπορούμε να μειώσουμε το cut-off distance τόσο στον οριζόντιο, όσο και στον κάθετο άξονα, ώστε για αποστάσεις πάνω από κάποιο όριο, να μηδενίζεται το affinity. Να σημειωθεί ότι το τελευταίο μέτρο δεν κρίνεται πάντα ως επιθυμητό, αφού είναι δυνατό κάποια σημεία που απέχουν πολύ μεταξύ τους, να ανήκουν στο ίδιο αντικείμενο και άρα να καταγράφουν την ίδια κίνηση. Στην περίπτωσή μας όμως, θεωρήθηκε ως δεδομένο ότι δεν επιθυμούμε να εργαστούμε αξιοποιώντας κάτι τέτοιο. Οσον αφορά τη μεταβολή της παραμέτρου απόστασης τροχιών, συγκρίνοντας τα 2 πειράματα, βλέπουμε ότι στη δεύτερη περίπτωση (με λιγότερο αυστηρό μέτρο) δε μπορεί να γίνει καλή διάκριση με βάση το region motion affinity, επειδή ένα μεγάλο μέρος των ζευγών που έχουν υψηλό affinity, έχει και μικρό εύρος τιμών του affinity. Παρατηρούμε δηλαδή, ότι ακόμη και σε ζεύγη περιοχών, η απόσταση των οποίων είναι περίπου στα όρια του cut-off distance,
63 54 εμφανίζονται πολύ υψηλά affinities, συνεπώς δε μπορεί να γίνει ορθή διάκριση διαφορετικών κινήσεων. (αʹ) (βʹ) Σχήμα 4.4: Οπτικοποίηση affinity matrix και μεταβολή της παραμέτρου σ eucl : α) σ eucl = 0.01 β) σ eucl = Οσον αφορά τη μεταβολή του cut-off distance, συγκρίνοντας τα 2 πειράματα, βλέπουμε στο παρακάτω σχήμα ότι στη δεύτερη περίπτωση (με μεγαλύτερο cut-off distance) εμφανίζονται affinities μεταξύ περιοχών οι οποίες μέχρι πρότινος είχαν μηδενικό affinityλόγω της απόστασής τους, συνεπώς και της απόστασης μεταξύ των τροχιών τους. Το cut-off distance που χρησιμοποιήθηκε στα πειράματα, κυμάνθηκε από το 1 4 εώς το 1 6 του πλάτους και του ύψους της εικόνας. Να σημειωθεί ότι όσο μεγαλώνει αυτός ο λόγος, τόσο περισσότερος χρόνος απαιτείται για τον υπολογισμό των trajectory affinities.
64 55 (αʹ) (βʹ) Σχήμα 4.5: Οπτικοποίηση affinity matrix και μεταβολή της παραμέτρου cut-off distance: α) cut off x = 1 7 και cut off y = 1 7 β) cut off x = 1 5 και cut off y = 1 5. Οσον αφορά την παράμετρο ρ που καθορίζει το εάν μια περιοχή έχει πυκνή κάλυψη τροχιών, παρακάτω δίνεται το σχήμα 56, ως παράδειγμα προς σχολιασμό. Παρατηρούμε ότι αραιή κάλυψη τροχιών δεν έχουν μόνο οι περιοχές όπου υπάρχει γρήγορη κίνηση και μεγάλες μετατοπίσεις (π.χ. χέρια), αλλά και περιοχές που η υφή τους δεν επιτρέπει τον ακριβή υπολογισμό της οπτικής ροής (π.χ. επιφάνεια μωβ τοίχου ή μαύρο ρούχο, χωρίς καμιά λεπτομέρεια). Παρατηρούμε ότι η πλειοψηφία των συγχωνεύσεων περιοχών, αφορά ζεύγη με πυκνή κάλυψη τροχιών. Αυτό σημαίνει ότι, όσον αφορά το κρίσιμο κομμάτι της εικόνας, δηλαδή τις περιοχές που σχετίζονται με την κινηματική αλυσίδα των χεριών, η αραιή κάλυψή τους από τροχιές
65 56 (αʹ) (βʹ) Σχήμα 4.6: Πυκνότητα κάλυψης τροχιών σε ένα καρέ: α) οπτικοποίηση του λόγου T r i β) το αρχικό καρέ σημαίνει και λιγότερες πιθανότητες να ξεκαθαριστεί η κατάτμηση της εικόνας μέσα από το επαναληπτικό σχήμα των συγχωνεύσεων. Πράγματι, υπάρχουν πειράματα στα οποία η κατάτμηση της εικόνας σε αυτές τις περιοχές μεταβάλλεται ελάχιστα εώς και καθόλου. Εάν δηλαδή ένα χέρι είναι αρχικά κατακερματισμένο σε πολλές περιοχές, τότε είναι πιθανό να μην γίνει εφικτή η συγχώνευσή τους μέσα από το επαναληπτικό σχήμα. Ωστόσο, είναι σημαντικό το γεγονός ότι αρκετά συχνά οι περιοχές που δεν ανήκουν στα χέρια αλλά βρίσκονται κοντά τους, επιλέγονται προς συγχώνευση, συμβάλλοντας έτσι στην απόκτηση μιας πιο σαφούς εικόνα για την κίνηση, μέσα από την κατάτμηση της εικόνας. Ιδιαίτερα θετική αποτιμάται η συμβολή του επιπρόσθετου, αυστηρότερου μέτρου ομοιότητας
66 57 κίνησης μεταξύ περιοχών. Χωρίς αυτό, ήταν ιδιαίτερα συχνή η επιλογή ζευγών περιοχών προς συγχώνευση, χωρίς η ομοιότητα κίνησής τους να επιβεβαιώνεται από την πραγματικότητα. Ετσι, απαιτώντας πιο αυστηρή ομοιότητα σε βάθος χρόνου, ακόμα και σε περιοχές που δε καλύπτονται πυκνά από τροχιές, αποφεύγονται τέτοιου είδους λάθη. Βέβαια, πέρα από τη θετική συμβολή, το μέτρο αυτό έχει ως παράπλευρο και ανεπιθύμητο αποτέλεσμα, την απόρριψη ζευγών περιοχών τα οποία διαφορετικά θα συγχωνευόταν. Αυτό έγινε προσπάθεια να μετριαστεί/αντιμετωπιστεί, με μεταβολή του κατωφλιού που απαιτείται ώστε να επιλεχθεί κάποιο ζεύγος προς συγχώνευση, με βάση αυτό το αυστηρότερο μέτρο. Ακόμη κι αυτό το επιπρόσθετο μέτρο όμως, επιτυγχάνει στην πράξη μέχρι ένα συγκεκριμένο ελάχιστο όριο τιμής-κατωφλίου του region motion affinity. Εάν δεν τηρηθεί αυτό, τότε το μέτρο αυτό δεν είναι ικανό να απορρίψει ένα ζεύγος που λανθασμένα επιλέγεται προς συγχώνευση. Στο παρακάτω σχήμα, φαίνεται ένα παράδειγμα επιλογής λάθος ζεύγους περιοχών προς συγχώνευση. Σχήμα 4.7: Παράδειγμα εσφαλμένης επιλογής ζεύγους περιοχών προς συγχώνευση Ενα πρόβλημα που αντιμετωπίστηκε και του οποίου η αντιμετώπιση δεν είναι δυνατή, έχει να κάνει με τη μέθοδο κατάτμησης εικόνας [12]. Κάποιες φορές, η κατάτμηση που παίρνουμε ως αποτέλεσμα της μεθόδου αυτής, είναι ακατάλληλες για χρήση. Συγκεκριμένα, εμφανίζονται ως μια ενιαία περιοχή, pixels τα οποία ανήκουν σε διαφορετικά αντικείμενα. Για παράδειγμα, στο παρακάτω σχήμα, η παλάμη εμφανίζεται να ανήκει στην ίδια περιοχή με τον τοίχο που βρίσκεται πίσω της, προφανώς λόγω ομοιότητας των χρωμάτων τους. Εάν αυτή η εικόνα δινόταν ως είσοδος στη συνέχεια της μεθόδου μας, θα είχε ως αποτέλεσμα το να θεωρηθεί μέρος της παλάμης και μέρος του τοίχου ως ενιαία περιοχή, άρα οι πληροφορίες οπτικής ροής που αντιστοιχούν και στα δύο να ληφθούν υπόψιν στον υπολογισμό των region affinities. Από τα αποτελέσματα, προκύπτει ότι με την υλοποίηση που παρουσιάστηκε, είναι δυνατό να εκτιμηθεί και να παρακολουθηθεί η πόζα του άνω μέρους ενός ανθρώπινου σώματος. Ακόμη
67 58 (αʹ) (βʹ) Σχήμα 4.8: Παράδειγμα εσφαλμένης κατάτμησης εικόνας: α) η εσφαλμένη κατάτμηση β) το αρχικό καρέ και σε περιπτώσεις όπου η υπολογισθείσα οπτική ροή απέχει σημαντικά από την πραγματική, αυτό είναι δυνατό. Ενας σημαντικός παράγοντας για την επιτυχία του αλγορίθμου, είναι η κατάτμηση εικόνας να ανταποκρίνεται στην πραγματικότητα, δηλαδή η μέθοδος [12] να μη δώσει ως έξοδο, περιοχές οι οποίες περικλείουν pixels από 2 διαφορετικά αντικείμενα (π.χ. ένα region να περιέχει τόσο pixels του lower arm, όσο και το background). Ο χρόνος εκτέλεσης εξαρτάται από πολλούς παράγοντες, με σημαντικότερους το βήμα δειγματοληψίας των τροχιών και το κατώφλι που σχετίζεται με το πλήθος των περιοχών που
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Ακμές και περιγράμματα Ακμές και περιγράμματα Γενικά Μεγάλο τμήμα της πληροφορίας που γίνεται αντιληπτή
Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής
Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Εκτίµηση Κίνησης Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα
D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.
D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. 1/45 Τι είναι ο SIFT-Γενικά Scale-invariant feature transform detect and
D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.
D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004. Εισαγωγικά: SIFT~Harris Harris Detector: Δεν είναι ανεξάρτητος της κλίμακας
Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής
Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Σύνθεση Πανοράµατος Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή
Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής
Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Χαρακτηριστικά Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα
Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση
ΤΨΣ 50 Ψηφιακή Επεξεργασία Εικόνας Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση Τµήµα ιδακτικής της Τεχνολογίας και Ψηφιακών Συστηµάτων Πανεπιστήµιο Πειραιώς Περιεχόµενα Βιβλιογραφία
Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση
Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Εντοπισμός ενός σήματος STOP σε μια εικόνα. Περιγράψτε τη διαδικασία με την οποία μπορώ να εντοπίσω απλά σε μια εικόνα την ύπαρξη του παρακάτω
Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση
Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά
Ανάκτηση πολυμεσικού περιεχομένου
Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση
Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ
Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Αλγόριθµοι Ευθυγράµµισης Τρισδιάστατων Αντικειµένων Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθηνών 20 Οκτωβρίου 2005 Εισαγωγή
Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1
Μάθημα 8 ο Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα ένας ευρέως αποδεκτός ορισμός της ακμής. Εδώ θα θεωρούμε ως ακμή:
Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Σημάτων Ελέγχου και Ρομποτικής Οπτική Μοντελοποίηση Ανθρώπινου Προσώπου με Εφαρμογές σε Αναγνώριση Επιβλέπων: καθ. Πέτρος Μαραγκός Ορισμός
Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1
Μάθημα 8 ο Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας. Ένας αποδεκτός ορισμός της ακμής είναι ο ακόλουθος: «Το σύνορο μεταξύ δύο ομοιογενών περιοχών με
ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ
BIOMIG Medical Image Processing, Algorithms and Applications http://biomig.ntua.gr ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ Εισαγωγή στην MRI και στην fmri ΔΡ. Γ. ΜΑΤΣΟΠΟΥΛΟΣ ΑΝ. ΚΑΘΗΓΗΤΗΣ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ
Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας
Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.
Συστήματα συντεταγμένων
Κεφάλαιο. Για να δημιουργήσουμε τρισδιάστατα αντικείμενα, που μπορούν να παρασταθούν στην οθόνη του υπολογιστή ως ένα σύνολο από γραμμές, επίπεδες πολυγωνικές επιφάνειες ή ακόμη και από ένα συνδυασμό από
Αναγνώριση Προτύπων Ι
Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται
Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας
Ε.Α.Υ. Υπολογιστική Όραση Κατάτμηση Εικόνας Γεώργιος Παπαϊωάννου 2015 ΚΑΤΩΦΛΙΩΣΗ Κατωφλίωση - Γενικά Είναι η πιο απλή μέθοδος segmentation εικόνας Χωρίζουμε την εικόνα σε 2 (binary) ή περισσότερες στάθμες
Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1
Μάθημα 10 ο Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Η περιγραφή μίας περιοχής μπορεί να γίνει: Με βάση τα εξωτερικά χαρακτηριστικά (ακμές, όρια). Αυτή η περιγραφή προτιμάται όταν μας ενδιαφέρουν
ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ
ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ 1 ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Κατασκευή εφαρμογής ανίχνευσης κινούμενων αντικειμένων ή αντικειμένων που εναποτέθηκαν με χρήση όρασης
DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης
DIP_05 Τμηματοποίηση εικόνας ΤΕΙ Κρήτης ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Τμηματοποίηση εικόνας είναι η διαδικασία με την οποία διαχωρίζεται μία εικόνα σε κατάλληλες περιοχές ή αντικείμενα. Για την τμηματοποίηση
Απεικόνιση Υφής. Μέρος Α Υφή σε Πολύγωνα
Απεικόνιση Γραφικά ΥφήςΥπολογιστών Απεικόνιση Υφής Μέρος Α Υφή σε Πολύγωνα Γ. Γ. Παπαϊωάννου, - 2008 Τι Είναι η Υφή; Η υφή είναι η χωρική διαμόρφωση των ποιοτικών χαρακτηριστικών της επιφάνειας ενός αντικειμένου,
Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή
Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή Oι οπτικές επιδράσεις, που μπορεί να προκαλέσει μια εικόνα στους χρήστες, αποτελούν ένα από τα σπουδαιότερα αποτελέσματα των λειτουργιών γραφικών με Η/Υ. Τον όρο της οπτικοποίησης
ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ
1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού
ΚΕΣ 03: Αναγνώριση Προτύπων και Ανάλυση Εικόνας. KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας. Κατάτµηση Εικόνων:
KEΣ 3 Αναγνώριση Προτύπων και Ανάλυση Εικόνας Κατάτµηση Εικόνων: Ανίχνευση Ακµών Τµήµα Επιστήµης και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήµιο Πελοποννήσου Περιεχόµενα Βιβλιογραφία Περιεχόµενα Ενότητας
Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1
Μάθημα 9 ο Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ Εισαγωγή () Η κατάτμηση έχει ως στόχο να υποδιαιρέσει την εικόνα σε συνιστώσες περιοχές και αντικείμενα. Μία περιοχή αναμένεται να έχει ομοιογενή χαρακτηριστικά
Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών
Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών
Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας
Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Εισαγωγή στην κατάτμηση εικόνας Τεχνικές
ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ
ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Ρήγας Κουσκουρίδας, Βασίλειος Μπελαγιάννης, Δημήτριος Χρυσοστόμου και Αντώνιος Γαστεράτος Δημοκρίτειο Πανεπιστήμιο Θράκης, Πανεπιστημιούπολη, Κιμμέρια,
ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ
ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ Συµπληρωµατικές Σηµειώσεις Προχωρηµένο Επίπεδο Επεξεργασίας Εικόνας Σύνθεση Οπτικού Μωσαϊκού ρ. Γ. Χ. Καρράς Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Μηχανολόγων Μηχανικών Τοµέας Μηχανολογικών
ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams
ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς
Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν
Μάθημα: Μηχανική Όραση
Μάθημα: Μηχανική Όραση Εργασία 2: Advances in Digital Imaging and Computer Vision Ομάδα χρηστών 2 : Τσαγκαράκης Νίκος, Καραμήτρος Κώστας Εισαγωγή Σκοπός της άσκησης, είναι να εξοικειωθούμε με κάποιες βασικές
Αναγνώριση Προτύπων Ι
Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες
ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ
ΙΑΤΡΙΚΗ ΑΠΕΙΚΟΝΙΣΗ & ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΙΑΤΡΙΚΗΣ ΕΙΚΟΝΑΣ ΔΡ. Γ. ΜΑΤΣΟΠΟΥΛΟΣ ΕΠ. ΚΑΘΗΓΗΤΗΣ ΣΧΟΛΗ ΗΛΕΚΤΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Επεξεργασία Ιατρικών Εικόνων
Η διαδικασία Παραγωγής Συνθετικής Εικόνας (Rendering)
Υφή Η διαδικασία Παραγωγής Συνθετικής Εικόνας (Rendering) Θέσεις αντικειμένων και φωτεινών πηγών Θέση παρατηρητή 3D Μοντέλα 3Δ Μετασχ/σμοί Μοντέλου 3Δ Μετασχ/σμός Παρατήρησης Απομάκρυνση Πίσω Επιφανειών
E[ (x- ) ]= trace[(x-x)(x- ) ]
1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού
Ειδικά Θέματα Υπολογιστικής Όρασης & Γραφικής. Εμμανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Ειδικά Θέματα Υπολογιστικής Όρασης & Γραφικής Εμμανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Υπολογιστική Όραση Εισαγωγή Εμμανουήλ Ζ. Ψαράκης Πολυτεχνική
Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων
Τοπογραφικά Δίκτυα και Υπολογισμοί 5 ο εξάμηνο, Ακαδημαϊκό Έτος 2016-2017 Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων Τοπογράφων Μηχανικών
6-Aνίχνευση. Ακμών - Περιγράμματος
6-Aνίχνευση Ακμών - Περιγράμματος Ανίχνευση ακμών Μετατροπή 2 εικόνας σε σύνολο ακμών Εξαγωγή βασικών χαρακτηριστικών της εικόνας Πιο «συμπαγής» αναπαράσταση Ανίχνευση ακμών Στόχος: ανίχνευση ασυνεχειών
Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών
Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών 7. Εισαγωγή (ορισμός προβλήματος, αριθμητική ολοκλήρωση ΣΔΕ, αντικατάσταση ΣΔΕ τάξης n με n εξισώσεις ης τάξης) 7. Μέθοδος Euler 7.3
HMY 795: Αναγνώριση Προτύπων
HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.
Στόχος της εργασίας και ιδιαιτερότητες του προβλήματος
ΑΝΑΠΤΥΞΗ ΟΠΤΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΠΡΟΣΑΡΜΟΣΤΙΚΟΥ ΕΛΕΓΧΟΥ ΚΑΤΕΡΓΑΣΙΑΣ ΥΛΙΚΩΝ Κουλουμέντας Παναγιώτης Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Χανιά,Νοέμβριος 2014 Επιτροπή: Ζερβάκης Μιχάλης (επιβλέπων)
ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται
Τεχνητή Νοημοσύνη ΙΙ. Ενότητα 4: Αντίληψη. Μουστάκας Κωνσταντίνος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών
Τεχνητή Νοημοσύνη ΙΙ Ενότητα 4: Αντίληψη Μουστάκας Κωνσταντίνος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σκοποί ενότητας Αντίληψη 2 Περιεχόμενα ενότητας Αντίληψη 3 Αντίληψη
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ. Πτυχιακή εργασία. Μπαδέκα Ευτυχία (AEM 1037)
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ Πτυχιακή εργασία Μελέτη και υλοποίηση σε λογισμικό ανιχνευτών σημειακών χαρακτηριστικών από εικόνες (point
Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων
Τοπογραφικά Δίκτυα και Υπολογισμοί 5 ο εξάμηνο, Ακαδημαϊκό Έτος 2017-2018 Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων και Τοπογράφων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 3: Περιγραφή αριθμητικών μεθόδων (συνέχεια)
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ Διάλεξη 3: Περιγραφή αριθμητικών μεθόδων (συνέχεια) Χειμερινό εξάμηνο 2008 Προηγούμενη παρουσίαση... Εξετάσαμε
ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ
ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,
Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή
Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για
Οδηγίες σχεδίασης στο περιβάλλον Blender
Οδηγίες σχεδίασης στο περιβάλλον Blender Στον πραγματικό κόσμο, αντιλαμβανόμαστε τα αντικείμενα σε τρεις κατευθύνσεις ή διαστάσεις. Τυπικά λέμε ότι διαθέτουν ύψος, πλάτος και βάθος. Όταν θέλουμε να αναπαραστήσουμε
ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση
ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης
ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΑΓΡΟΝΟΜΩΝ ΚΑΙ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΤΟΠΟΓΡΑΦΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΧΑΡΤΟΓΡΑΦΙΑΣ ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ
Μορφές των χωρικών δεδομένων
Μορφές των χωρικών δεδομένων Eάν θελήσουμε να αναπαραστήσουμε το περιβάλλον με ακρίβεια, τότε θα χρειαζόταν μιά απείρως μεγάλη και πρακτικά μη πραγματοποιήσιμη βάση δεδομένων. Αυτό οδηγεί στην επιλογή
Digital Image Processing
Digital Image Processing Intensity Transformations Πέτρος Καρβέλης pkarvelis@gmail.com Images taken from: R. Gonzalez and R. Woods. Digital Image Processing, Prentice Hall, 2008. Image Enhancement: είναι
Κεφάλαιο 4ο: Δικτυωτή Ανάλυση
Κεφάλαιο ο: Δικτυωτή Ανάλυση. Εισαγωγή Η δικτυωτή ανάλυση έχει παίξει σημαντικό ρόλο στην Ηλεκτρολογία. Όμως, ορισμένες έννοιες και τεχνικές της δικτυωτής ανάλυσης είναι πολύ χρήσιμες και σε άλλες επιστήμες.
ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014
ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014 ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ Η χρήση
Παρουσίαση Νο. 5 Βελτίωση εικόνας
Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Παρουσίαση Νο. 5 Βελτίωση εικόνας Εισαγωγή Η βελτίωση γίνεται σε υποκειμενική βάση Η απόδοση εξαρτάται από την εφαρμογή Οι τεχνικές είναι συνήθως ad hoc Τονίζει
Μάθημα 9 ο. Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1
Μάθημα 9 ο Κατάτμηση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ Εισαγωγή () Η κατάτμηση έχει ως στόχο να υποδιαιρέσει την εικόνα σε συνιστώσες περιοχές και αντικείμενα. Μία περιοχή αναμένεται να έχει ομοιογενή χαρακτηριστικά
Κατάτµηση εικόνας σε οµοιόµορφες περιοχές
KEΣ 03 Αναγνώριση Προτύπων και Ανάλυση Εικόνας Κατάτµηση εικόνας σε οµοιόµορφες περιοχές ΤµήµαΕπιστήµης και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήµιο Πελοποννήσου Εισαγωγή Κατάτµηση µε πολυκατωφλίωση Ανάπτυξη
Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών
Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών. Εισαγωγή (ορισμός προβλήματος, αριθμητική ολοκλήρωση ΣΔΕ, αντικατάσταση ΣΔΕ τάξης n με n εξισώσεις ης τάξης). Μέθοδος Euler 3. Μέθοδοι
ΚΙΝΗΜΑΤΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ
ΚΙΝΗΜΑΤΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ ΕΙΣΑΓΩΓΗ Σκοπός της κινηματικής είναι η περιγραφή της κίνησης του ρευστού Τα αίτια που δημιούργησαν την κίνηση και η αναζήτηση των δυνάμεων που την διατηρούν είναι αντικείμενο της
Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων
Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων Δειγµατοληψία και Κβαντισµός: Μια εικόνα (µπορεί να) είναι συνεχής τόσο ως προς τις συντεταγµένες x, y όσο και ως προς το πλάτος. Για να τη µετατρέψουµε
Αναγνώριση Προτύπων από Εικόνες
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Αναγνώριση Προτύπων από Εικόνες Συγγραφέας: Χάρης Κωτσιόπουλος Επιβλέπων Καθηγητής: Σωτήρης Κωτσιαντής Υποβάλλεται προς
Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.
Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: μέθοδοι μονοδιάστατης ελαχιστοποίησης Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 6 η /2017 Τι παρουσιάστηκε
ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ Συνδυασμένη χρήση μοντέλων προσομοίωσης βελτιστοποίησης. Η μέθοδος του μητρώου μοναδιαίας απόκρισης Νικόλαος
Δ10. Συμπίεση Δεδομένων
Συμπίεση Δεδομένων 203-204 Κωδικοποίηση εικονοροής (Video) Δρ. Ν. Π. Σγούρος 2 Ανάλυση Οθονών Δρ. Ν. Π. Σγούρος 3 Πρωτόκολλα μετάδοσης εικονοροών Πρωτόκολλο Ρυθμός (Hz) Φίλμ 23.976 ATSC 24 PAL,DVB-SD,DVB-HD
ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ
ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ
ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ Καμπυλόγραμμες Κινήσεις Επιμέλεια: Αγκανάκης Α. Παναγιώτης, Φυσικός http://phyiccore.wordpre.com/ Βασικές Έννοιες Μέχρι στιγμής έχουμε μάθει να μελετάμε απλές κινήσεις,
Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)
Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP) x -0,5 a x x 2 0 0 0 0 - -0,5 y y 0 0 x 2 -,5 a 2 θ η τιμή κατωφλίου Μία λύση του προβλήματος XOR Multi Layer Perceptron (MLP) x -0,5 Μία
Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής
Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής
Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 4 η : Βελτίωση Εικόνας Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Εισαγωγή στις τεχνικές βελτίωσης εικόνας
Χωρική Ανάλυση Συμπεριφοράς Ασφάλειας Οδηγών με Δεδομένα από Έξυπνα Κινητά Τηλέφωνα
Χωρική Ανάλυση Συμπεριφοράς Ασφάλειας Οδηγών με Δεδομένα από Έξυπνα Κινητά Τηλέφωνα Ηλίας Αλέξανδρος Παρμακσίζογλου Επιβλέπων: Γιώργος Γιαννής, Καθηγητής ΕΜΠ Αθήνα, Μάρτιος 2018 Εθνικό Μετσόβιο Πολυτεχνείο
ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j
Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s
Αριθμητική Ανάλυση και Εφαρμογές
Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα
27-Ιαν-2009 ΗΜΥ 429. 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό
ΗΜΥ 429 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό 1 (i) Βασική στατιστική 2 Στατιστική Vs Πιθανότητες Στατιστική: επιτρέπει μέτρηση και αναγνώριση θορύβου και
Θέση και Προσανατολισμός
Κεφάλαιο 2 Θέση και Προσανατολισμός 2-1 Εισαγωγή Προκειμένου να μπορεί ένα ρομπότ να εκτελέσει κάποιο έργο, πρέπει να διαθέτει τρόπο να περιγράφει τα εξής: Τη θέση και προσανατολισμό του τελικού στοιχείου
Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο
Φίλτρα Kalman Εξαγωγή των εξισώσεων τους με βάση το κριτήριο ελαχιστοποίησης της Μεθόδου των Ελαχίστων Τετραγώνων. Αναλυτικές Μέθοδοι στη Γεωπληροφορική Μεταπτυχιακό Πρόγραμμα ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ ιατύπωση του
website:
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Φυσικής Μηχανική Ρευστών Μαάιτα Τζαμάλ-Οδυσσέας 3 Μαρτίου 2019 1 Τανυστής Παραμόρφωσης Συνοδεύον σύστημα ονομάζεται το σύστημα συντεταγμένων ξ i το οποίο μεταβάλλεται
Φυσικά μεγέθη. Φυσική α λυκείου ΕΙΣΑΓΩΓΗ. Όλα τα φυσικά μεγέθη τα χωρίζουμε σε δύο κατηγορίες : Α. τα μονόμετρα. Β.
ΕΙΣΑΓΩΓΗ Φυσικά μεγέθη Όλα τα φυσικά μεγέθη τα χωρίζουμε σε δύο κατηγορίες : Α. τα μονόμετρα Β. τα διανυσματικά Μονόμετρα ονομάζουμε τα μεγέθη εκείνα τα οποία για να τα γνωρίζουμε χρειάζεται να ξέρουμε
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση
kg(χιλιόγραμμο) s(δευτερόλεπτο) Ένταση ηλεκτρικού πεδίου Α(Αμπέρ) Ένταση φωτεινής πηγής cd (καντέλα) Ποσότητα χημικής ουσίας mole(μόλ)
ΕΙΣΑΓΩΓΗ- ΦΥΣΙΚΑ ΜΕΓΕΘΗ Στα φυσικά φαινόμενα εμφανίζονται κάποιες ιδιότητες της ύλης. Για να περιγράψουμε αυτές τις ιδιότητες χρησιμοποιούμε τα φυσικά μεγέθη. Τέτοια είναι η μάζα, ο χρόνος, το ηλεκτρικό
DIP_04 Σημειακή επεξεργασία. ΤΕΙ Κρήτης
DIP_04 Σημειακή επεξεργασία ΤΕΙ Κρήτης ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Σκοπός μιας τέτοιας τεχνικής μπορεί να είναι: η βελτιστοποίηση της οπτικής εμφάνισης μιας εικόνας όπως την αντιλαμβάνεται ο άνθρωπος, η τροποποίηση
Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.
ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για
E [ -x ^2 z] = E[x z]
1 1.ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτήν την διάλεξη θα πάμε στο φίλτρο με περισσότερες λεπτομέρειες, και θα παράσχουμε μια νέα παραγωγή για το φίλτρο Kalman, αυτή τη φορά βασισμένο στην ιδέα της γραμμικής
Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ
Ψηφιακή Επεξεργασία Εικόνας ΒΕΛΤΙΩΣΗ ΕΙΚΟΝΑΣ ΜΕ ΙΣΤΟΓΡΑΜΜΑ ΔΠΜΣ ΗΕΠ 1/46 Περιλαμβάνει: Βελτίωση (Enhancement) Ανακατασκευή (Restoration) Κωδικοποίηση (Coding) Ανάλυση, Κατανόηση Τμηματοποίηση (Segmentation)
ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ
ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση
Γεωμετρικές Σκιές. Θ. Θεοχάρης Ι. Κακαδιάρης - Γ. Πασσαλής
Γεωμετρικές Σκιές Θ. Θεοχάρης Ι. Κακαδιάρης - Γ. Πασσαλής Περιεχόμενα Σ1 Χαρακτηριστικά Σκιών στα Γραφικά Σ2 Απλές Σκιές Σ3 Σύγχρονοι Αλγόριθμοι Σκιών 2 Εισαγωγή (1) Οι σκιές είναι σημαντικές στην κατανόηση
ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο
ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο Επιλέξτε μία σωστή απάντηση σε κάθε ένα από τα παρακάτω ερωτήματα. 1) Η χρήση απόλυτων δεσμεύσεων για τη συνόρθωση ενός τοπογραφικού
Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο
Πρόβλημα ο Ασκήσεις Φροντιστηρίου 5 o Φροντιστήριο Δίνεται το παρακάτω σύνολο εκπαίδευσης: # Είσοδος Κατηγορία 0 0 0 Α 2 0 0 Α 0 Β 4 0 0 Α 5 0 Β 6 0 0 Α 7 0 Β 8 Β α) Στον παρακάτω κύβο τοποθετείστε τα
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ
MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου
MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου Εξαγωγή μεταδεδομένων / περιγραφών Χαμηλού επιπέδου περιγραφείς Συντακτικός και σημασιολογικός ορισμός Ανάκτηση πολυμεσικών τεκμηρίων XML / OWL Δημοσίευση 2002
ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ
H O G feature descriptor global feature the most common algorithm associated with person detection Με τα Ιστογράμματα της Βάθμωσης (Gradient) μετράμε τον προσανατολισμό και την ένταση της βάθμωσης σε μία
HMY 795: Αναγνώριση Προτύπων
HMY 795: Αναγνώριση Προτύπων Διαλέξεις 7-8 Μπεϋζιανή εκτίμηση - συνέχεια Μη παραμετρικές μέθοδοι εκτίμησης πυκνότητας Δυαδικές τ.μ. κατανομή Bernoulli : Εκτίμηση ML: Εκτίμηση Bayes για εκ των προτέρων
ΠΡΟΒΛΗΜΑΤΑ ΔΥΟ ΔΙΑΣΤΑΣΕΩΝ
ΠΡΟΒΛΗΜΑΤΑ ΔΥΟ ΔΙΑΣΤΑΣΕΩΝ Η ανάλυση προβλημάτων δύο διαστάσεων με τη μέθοδο των Πεπερασμένων Στοιχείων περιλαμβάνει τα ίδια βήματα όπως και στα προβλήματα μιας διάστασης. Η ανάλυση γίνεται λίγο πιο πολύπλοκη
710 -Μάθηση - Απόδοση. Κινητικής Συμπεριφοράς: Προετοιμασία
710 -Μάθηση - Απόδοση Διάλεξη 5η Ποιοτική αξιολόγηση της Κινητικής Συμπεριφοράς: Προετοιμασία Περιεχόμενο ενοτήτων Ποιοτική αξιολόγηση Ορισμός και στάδια που περιλαμβάνονται Περιεχόμενο: στοιχεία που τη
Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου
Ανάλυση Εικόνων Εικόνα : μορφή πληροφορίας Ανάλυση : εξαγωγή γνώσης Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου Θέματα ειδίκευσης Υπολογιστική Όραση
5ο Μάθημα Αλγόριθμοι Σχεδίασης Βασικών Σχημάτων
5ο Μάθημα Αλγόριθμοι Σχεδίασης Βασικών Σχημάτων Γραφικα Τμήμα Πληροφορικής Πανεπιστήμιο Θεσσαλίας Ακ Έτος 2016-17 Εισαγωγή Ευθεία Κύκλος Έλλειψη Σύνοψη του σημερινού μαθήματος 1 Εισαγωγή 2 Ευθεία 3 Κύκλος