Εξαγωγή κινούμενου αντικειμένου σε βίντεο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΟΛΟΚΛΗΡΩΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ Εξαγωγή κινούμενου αντικειμένου σε βίντεο ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Σταμούλη Μαριάνα Επιβλέπων Καθηγητής Αθανάσιος Στουραΐτης ΠΑΤΡΑ 2008

Περιεχόμενα ΠΕΡΙΛΗΨΗ... 1 Κεφάλαιο 1ο : Εισαγωγή... 3 1.1. Γενικά... 3 1.2.Στάδια ανάλυσης κίνησης... 10 1.2.1. Ανίχνευση... 11 1.2.2. Παρακολούθηση (tracking)... 14 Κεφάλαιο 2 ο : Διαχωρισμός του φόντου... 18 2.1. Γενικά... 18 2.2. Αλγόριθμος διαφοράς διαδοχικών frames... 19 2.3. Αλγόριθμος με μάσκες διαφοράς... 24 2.4. Διαχωρισμός του φόντου με βάση 2 frames... 41 2.5. Median filter... 46 2.6. Τμηματοποίηση των αντικειμένων με κατάτμηση γράφων (graph cuts)... 55 Κεφάλαιο 3 ο : Υφή και κίνηση στην οπτική ροή και την κατάτμηση... 61 3.1.Γενικά... 61 3.2.Κατάτμιση και οπτική ροή... 62 3.2.1. Τι είναι η κατάτμηση;... 62 3.2.2. Τι είναι η οπτική ροή;... 63 3.2.3. Χρώμα και κίνηση... 65 3.3. Αλγόριθμοι οπτικής ροής και κατάτμησης... 65 3.3.1. Αλγόριθμοι Οπτικής ροής... 66 [i]

3.3.2. Αλγόριθμοι Κατάτμησης... 69 3.4. Παρακολούθηση αντικειμένου και ταξινόμηση... 72 3.4.1. Εντοπισμός χαρακτηριστικών σημείων (point feature tracking)... 74 3.4.2. Αλγόριθμος εντοπισμού σημείων... 74 Κεφάλαιο 4 ο : Παρακολούθηση κίνησης με χρήση Χωροχρονικών φίλτρων... 87 4.1.Γενικά... 87 4.2. Χωροχρονικά μοντέλα για την αντίληψη της κίνησης... 87 4.2.1. Γενικά... 87 4.2.1. Μέθοδοι κατάτμησης στην επεξεργασία βίντεο... 88 4.3.Ανάλυση της βίντεο ακολουθίας με τη χρήση όγκων... 96 4.3.1. Γενικά... 96 4.3.2. Ανάλυση της κίνησης σε μια βίντεο ακολουθία... 97 4.3.3. Η χρήση όγκων για την ανίχνευση ανθρώπων που περπατούν... 98 4.4. Αναγνώριση κινούμενου αντικειμένου από στατική κάμερα... 106 Αναφορές... 115 [ii]

ΠΕΡΙΛΗΨΗ Στην παρούσα διπλωματική μελετήσαμε και αναπτύξαμε αλγορίθμους ανίχνευσης και κατάτμησης κινούμενου αντικειμένου σε βίντεο. Ασχοληθήκαμε με μία σειρά αλγορίθμων που διέφεραν τόσο στην πολυπλοκότητα όσο και στην ποιότητα των αποτελεσμάτων που παρήγαγαν. Σκοπός μας ήταν η ανάλυση αυτών των αλγορίθμων σε βάθος, έτσι ώστε να εντοπίσουμε τις αδυναμίες τους, προσπαθώντας κατά το δυνατόν να τις αντιμετωπίσουμε αλλά και η εφαρμογή τους στην πράξη, ώστε να διαπιστώσουμε την αποτελεσματικότητά τους αλλά και την ευελιξία τους στις ιδιαίτερες απαιτήσεις του κάθε προβλήματος. Στην πρώτη φάση της παρούσας εργασίας μελετήσαμε και αναλύσαμε τη μαθηματική αναπαράσταση των υπό εξέταση αλγορίθμων. Σκοπός μας ήταν να κατανοήσουμε πλήρως τον αλγόριθμο, ώστε να μπορέσουμε στην συνέχεια να τον εφαρμόσουμε, αλλά και να επιφέρουμε κάποιες βελτιστοποιήσεις και απλοποιήσεις στον ίδιο τον αλγόριθμο έτσι ώστε να προσαρμοστεί, όταν χρειαζόταν, στις απαιτήσεις των δικών μας προβλημάτων και να γίνει πιο εύκολα υλοποιήσιμος. Στην συνέχεια υλοποιήσαμε τους αλγορίθμους στο μαθηματικό εργαλείο Matlab και εξομοιώσαμε την λειτουργία τους. Στο στάδιο αυτό, είχαμε την δυνατότητα να μελετήσουμε στην πράξη την αποτελεσματικότητα των αλγορίθμων και να παρατηρήσουμε την ποιότητα των αποτελεσμάτων της εφαρμογής τους για διαφορετικές εισόδους. Τα αποτελέσματα των εξομοιώσεων μας καθοδηγούσαν έτσι ώστε να κάνουμε τις απαραίτητες αλλαγές τόσο στους ίδιους τους αλγορίθμους αλλά κυρίως, στον τρόπο με τον οποίο είχαμε επιλέξει να υλοποιήσουμε καθένα από τους αυτούς στο Matlab. Στο τελευταίο στάδιο, συγκεντρώσαμε τα αποτελέσματα της εξομοίωσης λειτουργίας καθενός από τους αλγορίθμους που μελετήσαμε και αξιολογήσαμε την [1]

συμπεριφορά τους. Κάνοντας τις απαραίτητες συγκρίσεις των αποτελεσμάτων, σε συνδυασμό με την πολυπλοκότητα των αλγορίθμων, εξάγαμε τα τελικά συμπεράσματα για τις δυνατότητες και την αποτελεσματικότητα τους αλλά και την τελική μας εκτίμηση για την περαιτέρω βελτιστοποίηση που είναι δυνατό να πραγματοποιηθεί σε κάποιους από αυτούς. [2]

Κεφάλαιο 1ο : Εισαγωγή 1.1. Γενικά Συμβαίνει πολλές φορές να μας συναρπάζουν μηχανές που εμφανίζουν ιδιότητες όμοιες με αυτές του ανθρώπου, όπως να βγάζουν ανθρώπινους ήχους, να περπατάνε στα δύο πόδια ή να κουρεύουν το γκαζόν στον κήπο. Οι πραγματικά συναρπαστικές μηχανές όμως, δεν έχουν απαραίτητα ανθρωπόμορφο σχήμα και δεν παρουσιάζουν απαραίτητα απλές ανθρώπινες ιδιότητες όπως οι παραπάνω, αλλά τη χαρακτηριστική ανθρώπινη λειτουργία της αντίληψης. Έτσι, για παράδειγμα υπάρχουν σήμερα κινητά συστήματα που μπορούν να αντιληφθούν την παρουσία εμποδίων στο δρόμο τους και να διορθώσουν την κατεύθυνσή τους ώστε να τα αποφύγουν. Συστήματα επιτήρησης που μπορούν να εντοπίσουν και να αναγνωρίσουν στόχους αλλά και να παρακολουθήσουν την κίνησή τους. Όπως δε, είναι αναμενόμενο, όσο καλύτερη αντίληψη του περιβάλλοντός της μπορεί να έχει μία υπολογιστική μηχανή, τόσο περισσότερο πολύπλοκες και θαυμαστές είναι οι λειτουργίες που μπορούμε να την προγραμματίσουμε να επιτελέσει. Η αντίληψη (perception) προέρχεται κυρίως μέσω των ερεθισμάτων των αισθήσεων. Μία από τις αισθήσεις είναι και η όραση (vision), η οποία τεχνικώς επιτελείται σε ένα υπολογιστικό σύστημα μέσω ενός συστήματος καταγραφής, δηλαδή από μία ή περισσότερες κάμερες. Σε αυτά τα πλαίσια, ένας προσωπικός υπολογιστής συνδεδεμένος με μία απλή κάμερα μπορεί τεχνικώς να βλέπει. Όταν αναφερόμαστε στην ικανότητα της όρασης στους ανθρώπινους οργανισμούς θεωρούμε δεδομένη τη δυνατότητα της αντίληψης αυτών που βλέπουν, αυτή όμως είναι και η δυσκολότερη εργασία που πρέπει να επιτελέσει ένα υπολογιστικό σύστημα. Δηλαδή, να καταφέρει να αντιληφθεί αυτά που βλέπει, να εξάγει κάποια χαρακτηριστικά τους, βάσει των οποίων θα μπορέσει να τα διακρίνει, να τα συγκρίνει, να τα αναγνωρίσει και να τα χαρακτηρίσει. Στην ιδανική περίπτωση να πάρει και μία απόφαση για το αν θα πρέπει να εκτελέσει κάποια ενέργεια και ποια είναι αυτή. [3]

Με προβλήματα όπως τα παραπάνω ασχολείται η Υπολογιστική Όραση (Computer Vision), όπως και η συναφής περιοχή της Κατανόησης Περιεχομένων Εικόνων και Βίντεο (Image and Video Understanding). Κοντινές επιστημονικές περιοχές, με δυσδιάκριτα σύνορα μεταξύ αυτών και των παραπάνω, είναι αυτή της Ψηφιακής Επεξεργασίας Εικόνας και Βίντεο (Digital Image and Video Processing), της Τεχνητής Νοημοσύνης (Artificial Intelligence), των Συστημάτων Βάσεων Δεδομένων (Database Systems) κ.ά. Στην προσπάθεια λοιπόν, να καταφέρει ένα σύστημα να αντιληφθεί αυτά που βλέπει, θα λέγαμε ότι έχουμε στη διάθεσή μας μία εικόνα ή μία ακολουθία βίντεο η οποία φθάνει στη μονάδα επεξεργασίας μας μέσω ενός μηχανισμού καταγραφής (κάμερα) ή αναπαραγωγής (αρχείο εικόνας ή βίντεο). Τα δεδομένα εισόδου (raw data) προ της επεξεργασίας τους δεν έχουν καμία πρακτική χρησιμότητα, αναφορικά με την αντίληψη του συστήματος, πέρα από την αποθήκευση και την επίδειξή τους, αφού δεν είναι παρά οι συντεταγμένες των εικονοστοιχείων (pixels) των εικόνων στο χώρο των χρωμάτων. Βάσει μόνο της πληροφορίας αυτής, το σύστημα καλείται να επιτελέσει υψηλού επιπέδου εργασίες που σε κάποιο βαθμό να φανερώνουν την αντίληψή του. Η μεθοδολογία που ακολουθείται στη λύση τέτοιων προβλημάτων (ώστε να επιτελεστούν οι εργασίες αυτές στη γενική περίπτωση) εξαρτάται από ένα σύνολο παραμέτρων που έχουν να κάνουν με τα επιθυμητά αποτελέσματα εξόδου ως προς τη φύση τους, την πολυπλοκότητά τους, την ακρίβεια και την με την οποία θέλουμε να λαμβάνονται και με ποικίλους άλλους τρόπους. Πολύ διαφορετική μεθοδολογία θα ακολουθήσουμε για παράδειγμα όταν θέλουμε να μετρήσουμε το ποσοστό κόκκινου χρώματος μίας εικόνας, όταν θέλουμε να ανιχνεύσουμε τα κινούμενα αντικείμενα σε μία ακολουθία βίντεο ή όταν θέλουμε να εκτιμήσουμε την σχετική απόσταση των αντικειμένων από το υπολογιστικό σύστημα / την κάμερα. Πρακτικά, ένα σύστημα αντιλαμβάνεται ή κατανοεί τα περιεχόμενα μίας τέτοιας πληροφορίας, όταν μπορεί να μετασχηματίσει την χρωματική πληροφορία των pixels σε κάποια άλλη μορφή πληροφορίας που να έχει περισσότερο σημασιολογικό περιεχόμενο (semantics). Για παράδειγμα, η οργάνωση μίας εικόνας σε χρωματικές [4]

περιοχές, η εξαγωγή των ακμών της εικόνας ή των περιγραμμάτων χαρακτηριστικών περιοχών της, ο υπολογισμός της κίνησης των pixels / σημείων από καρέ σε μία ακολουθία εικόνων αποτελούν κάποια πρώτα στοιχεία που μπορεί κάποιος να εξάγει και που περιέχουν πληροφορία που μπορεί να είναι περισσότερο χρήσιμη στη συνέχεια. Τα στοιχεία αυτά ονομάζονται χαρακτηριστικά (features). Θα μπορούσαμε γενικά να πούμε ότι οι μέθοδοι εξαγωγής χαρακτηριστικών εργάζονται με παρεμφερή τρόπο. Αρχικά, ένα ή περισσότερο χαμηλού επιπέδου χαρακτηριστικά εξάγονται από την εικόνα ή ακολουθία, όπως το χρώμα (πρακτικά, ένα χαρακτηριστικό χρώματος από τα πολλά που μπορούν να εξαχθούν), η υφή, το σχήμα, η κίνηση κλπ. με χρήση κάποιας σωρευμένης γνώσης, γενικής ή ειδικότερης σχετιζόμενης με την εφαρμογή, εξάγεται πληροφορία υψηλότερου επιπέδου, πρακτικά υπολογίζονται κάποια νέα χαρακτηριστικά με μεγαλύτερη σημασιολογική πληροφορία. Τα χαρακτηριστικά αυτά με τη σειρά τους μπορούν να χρησιμοποιηθούν από μόνα τους χαρακτηρίζοντας την εικόνα ή την ακολουθία ή ακόμη και περιοχές ή αντικείμενα αυτής, όπως για παράδειγμα το βάθος των αντικειμένων από το σύστημα καταγραφής ή το τρισδιάστατο μοντέλο ενός αντικειμένου του οποίου οι όψεις εμφανίζονται στην ακολουθία. Όσον αφορά στα δισδιάστατα χαρακτηριστικά, μπορούμε να βρούμε ένα σύνολο από χαρακτηριστικά υψηλότερου επιπέδου από την πληροφορία των pixels, αλλά με σχετικά χαμηλό σημασιολογικό περιεχόμενο, τα οποία ταυτόχρονα να έχουν κάποιο νόημα στην εξαγωγή τους αναφορικά με την ανθρώπινη αντίληψη. Στη συνέχεια αναφέρουμε μερικά από αυτά : Χρώμα : Το χρώμα αποτελεί ίσως την πιο άμεσα εξαγόμενη πληροφορία από μία εικόνα. Όπως όλα τα χαρακτηριστικά, έτσι και το χρώμα μπορεί να μοντελοποιηθεί με διάφορους τρόπους, για παράδειγμα ακόμη και μια ένδειξη του τύπου υπάρχει / δεν υπάρχει κόκκινο χρώμα στην εικόνα θα αποτελούσε ένα χαρακτηριστικό χρώματος. Βεβαίως, στη γενικότερη περίπτωση προσπαθούμε τα χαρακτηριστικά που εξάγουμε να είναι αρκούντως πληροφοριακά. Έτσι, το χρώμα μοντελοποιείται συνήθως από έναν μικρό αριθμό από κύρια χρώματα ή μέσω του χρωματικού ιστογράμματος. [5]

Υφή : όμοια με το χρώμα αντιμετωπίζεται και η υφή (texture) της εικόνας. Διάφορα μοντέλα έχουν προταθεί για τη μοντελοποίηση της υφής. Όπως ακριβώς και το χρώμα, η υφή συνδυάζεται με τη χωρική κατανομή της στο χαρακτηριστικό της κατανομής υφής. Σχήμα : Το σχήμα μπορεί γενικά να θεωρηθεί ως υψηλότερου επιπέδου χαρακτηριστικό. Βασικά, μοντελοποιείται κι αυτό σε χαμηλό επίπεδο βάσει των ιδιοτήτων της εικόνας, όπως είναι οι ακμές, το εμβαδό, η θέση, η επιμήκυνση και η εκκεντρότητα. Το περίγραμμα ή ο σκελετός σημασιολογικών αντικειμένων της εικόνας εξάγονται, μοντελοποιούνται και χρησιμοποιούνται σε υψηλότερο επίπεδο. Κίνηση : Η κίνηση αποτελεί ένα βασικό χαρακτηριστικό, το οποίο εξάγεται από τουλάχιστον δύο (συνήθως διαδοχικά) καρέ μίας ακολουθίας βίντεο. Η βιβλιογραφία βρίθει σε μεθόδους υπολογισμού κίνησης, αφού η εξαγωγή του χαρακτηριστικού αυτού οδηγεί σε έναν μεγάλο αριθμό από ενδιαφέρουσες εφαρμογές με την κατάτμηση κίνησης και τον υπολογισμό τρισδιάστατης κίνησης να είναι μόνο δύο από αυτές. Πρότυπα : Είναι σύνηθες σε συγκεκριμένες κατηγορίες εφαρμογών αντί των παραπάνω χαρακτηριστικών να εξάγουμε πρότυπα (π.χ. τμήματα εικόνων) τα οποία εν συνεχεία να χρησιμοποιούμε αυτούσια, μετασχηματισμένα ή παραμορφωμένα σε διαδικασίες εντοπισμού, αναγνώρισης κλπ. Διαδεδομένη για παράδειγμα είναι η εξαγωγή προτύπων από εικόνες με ανθρώπινα πρόσωπα. Μετασχηματισμοί : Ενδιαφέροντα χαρακτηριστικά για εφαρμογές υπολογιστικής όρασης προκύπτουν και από μετασχηματισμό των εικόνων (ή περιοχών τους) από το πεδίο του χώρου σε άλλα πεδία μέσω κατάλληλων μετασχηματισμών, όπως για παράδειγμα ο μετασχηματισμός στο πεδίο της συχνότητας μέσω του μετασχηματισμού Fourier. Σε πάρα πολλές εφαρμογές, όπως για σκοπούς παρακολούθησης εισβολέων ή στόχων (intrusion detection, target tracking) ή ακόμη και για χωροθέτηση ή εξαγωγή κινούμενων αντικειμένων (mobile object localization / extraction) χρησιμοποιείται ο [6]

εντοπισμός κύριων κινούμενων αντικειμένων (main mobile object detection). Σε τέτοιες εφαρμογές χρησιμοποιούνται συνήθως χαρακτηριστικά κίνησης ή και συνδυασμός τους με χαρακτηριστικά σχήματος (π.χ. κίνηση περιοχών ή ακμών). Όταν είναι επιθυμητή η ακριβής εξαγωγή των αντικειμένων, χαρακτηριστικά κίνησης ή/και χρώματος χρησιμοποιούνται για κατάτμηση κίνησης / χρώματος (motion / color segmentation). Σε εφαρμογές αναγνώρισης αντικειμένων (object recognition), τα χαρακτηριστικά σχήματος είναι περισσότερο κατάλληλα, ειδικότερα σε υψηλό επίπεδο, όπως αυτά του περιγράμματος. Βεβαίως, όταν τα υπό αναγνώριση αντικείμενα έχουν ιδιότητες που τα διακρίνουν στο πεδίο του χρώματος, της συχνότητας ή της υφής, δεν αποκλείεται και η χρήση των χαρακτηριστικών αυτών, αν και συνήθως η πληροφορία που προσφέρουν είναι φτωχή για εφαρμογές αναγνώρισης. Ο εντοπισμός και η εξαγωγή κινούμενων αντικειμένων από ακολουθίες βίντεο αποτελεί την τελευταία δεκαετία μία από τις σημαντικότερες διαδικασίες της κατανόησης περιεχομένων βίντεο, η οποία είναι και άμεσα σχετιζόμενη με τη θεματολογία της ανάλυσης προτύπων, της υπολογιστικής όρασης και της τεχνητής νοημοσύνης. Ο εντοπισμός των κύριων κινούμενων αντικειμένων, ή εισβολέων, σε μια ακολουθία εικόνων μπορεί να αποτελέσει μέσο απόφασης για συστήματα συναγερμού πραγματικού χρόνου σε εφαρμογές παρακολούθησης ή ακόμη να βοηθήσει στη μέτρηση της ροής της κυκλοφορίας οχημάτων ή πεζών. Τα κινούμενα αντικείμενα εντοπίζονται συνήθως βάσει κινούμενων χαρακτηριστικών τους, όπως οι αλλαγές φωτεινότητας, οι κινούμενες ακμές και γραμμές ή οι μετακινούμενες χρωματικές περιοχές. Μία από τις σημαντικότερες δυσκολίες στα προβλήματα εντοπισμού κινούμενων αντικειμένων είναι η απόρριψη των ελασσόνων ακμών, που εμφανίζονται λόγω αποσπασματικών κινήσεων, όπως η κίνηση της βλάστησης στον άνεμο ή οι κατοπτρισμοί σε υγρά. Τέτοιες κινήσεις μπορούν να οδηγήσουν σε λανθασμένους συναγερμούς σε συστήματα παρακολούθησης χώρων για παράδειγμα, αλλά και σε μη ικανοποιητικά αποτελέσματα χωροθέτησης αντικειμένων παρουσία σημαντικού [7]

περιβαλλοντικού θορύβου (temporal clutter). Οι συνήθεις προσεγγίσεις σε αυτό το πρόβλημα περιλαμβάνουν χωροχρονικό φιλτράρισμα ή επιβολή περιορισμών για συμβατότητα στην κατεύθυνση του αντικειμένου με το χρόνο. Παρόλ αυτά μπορεί κανείς να δει ότι και οι δύο προσεγγίσεις δημιουργούν ανεπιθύμητες υποθέσεις για τη συμπεριφορά των κινούμενων αντικειμένων. Μια ενδιαφέρουσα λύση στα περισσότερα συνήθη προβλήματα του εντοπισμού και χωροθέτησης κινούμενων αντικειμένων έρχεται από την περίπτωση της στατικής κάμερας, όπου οι προτεινόμενες προσεγγίσεις μπορούν να διαιρεθούν σε δύο κυρίως κατηγορίες : την βασιζόμενη σε χαρακτηριστικά (feature based) που εξαρτάται από την εξαγωγή γενικών χαρακτηριστικών των ακολουθιών και την βασιζόμενη σε pixels (pixel based) που εξετάζει τις διαφορές μεταξύ διαδοχικών καρέ χρησιμοποιώντας pixels ως χαρακτηριστικά εισόδου. Μεταξύ των μεθόδων που βασίζονται σε pixels, μέθοδοι που βασίζονται σε pixels, μέθοδοι που βασίζονται στη φωτεινότητα (luminance based) και στις ακμές (edge based) έχουν προταθεί, με τις τελευταίες να αναφέρονται ως περισσότερο εύρωστες. Ειδικότερα, οι τεχνικές ενημέρωσης φόντου (background updating) παρέχουν ένα βολικό τρόπο εντοπισμού κινούμενων χαρακτηριστικών χωρίς χρήση μεθόδων κατάτμησης κίνησης (motion based segmentation), οι οποίες όχι μόνο παράγουν σημαντικό υπολογιστικό φορτίο, αλλά υποφέρουν και από τις συνήθεις αστοχίες της εκτίμησης κίνησης (motion estimation). Στην περίπτωση της στατικής κάμερας, η σκηνή, συμπεριλαμβανομένου του φόντου, καταγράφεται βολικά από ένα συγκεκριμένο σταθερό σημείο παρατήρησης, ώστε όλη η δράση στην καταγραφόμενη ακολουθία να οφείλεται στην κίνηση αντικειμένων. Σ αυτά τα πλαίσια, σχεδόν οποιαδήποτε αλλαγή στο πεδίο καταγραφής της κάμερας θα έπρεπε να υποδεικνύει την παρουσία ενός κινούμενου αντικειμένου που θα μπορούσε αν εντοπιστεί και να καταχωρηθεί στην ακολουθία. Ταυτόχρονα όμως, υπάρχουν περιπτώσεις όπου, ακόμη κι αν υπάρχουν αλλαγές στην καταγραφόμενη ακολουθία, δεν υπάρχουν κινούμενα αντικείμενα ενδιαφέροντος προς παρακολούθηση δηλαδή, όταν σταδιακές ή απότομες αλλαγές συμβαίνουν στις συνθήκες φωτισμού, όταν υπάρχουν μικρές τυχαίες αλλαγές στο φόντο (π.χ. όταν ο [8]

άνεμος κινεί φυτά ή κουρτίνες) ή όταν η κάμερα υποφέρει από μικρές δονήσεις. Βάσει των παραπάνω, το πρόβλημα του εντοπισμού κινούμενων αντικειμένων μετονομάζεται σε πρόβλημα εντοπισμού των κύριων κινούμενων αντικειμένων, όπου αλλαγές όμοιες με αυτές που αναφέρθηκαν παραπάνω θεωρούνται ασήμαντες. Με άλλα λόγια, ο κύριος στόχος ενός εύρωστου αλγορίθμου εντοπισμού κύριων κινούμενων αντικειμένων για στατικές κάμερες είναι να διατηρεί υψηλή ευαισθησία στην παρουσία ενός σημαντικού κινούμενου αντικειμένου στην παρατηρούμενη σκηνή, ενώ να μειώνει την ευαισθησία του στις αλλαγές φωτεινότητας ή στις ασήμαντες αλλαγές. Θα πρέπει να δοθεί προσοχή εδώ στο γεγονός ότι σε αντίθεση με τις μικρές χρονικές διαφοροποιήσεις λόγω θορύβου, μία αλλαγή στο φωτισμό μπορεί να οδηγήσει στη λανθασμένη θεώρηση μεγάλων περιοχών της παρατηρούμενης σκηνής ως κινούμενα αντικείμενα. Τέτοιες διαφοροποιήσεις είναι ιδιαίτερα σημαντικές στην περίπτωση καταγραφών εξωτερικού χώρου. Στην περίπτωση κινούμενης κάμερας, πέρα από τις προαναφερθείσες δυσκολίες, θα πρέπει να αντιμετωπίσουμε και την κίνηση του φόντου λόγω της κίνησης της κάμερας. Εφόσον, για κινούμενες κάμερες, πραγματοποιούνται υπολογισμοί μεταξύ διαφορετικών καρέ για να εντοπίσουμε τα κινούμενα αντικείμενα, η πολυπλοκότητα του προβλήματος είναι ανάλογη με την πολυπλοκότητα της κίνησης της κάμερας, με το σκεπτικό ότι απότομη ή ισχυρά περιστροφική κίνηση αλλάζει σημαντικά το καταγραφόμενο φόντο. Στην περίπτωση που περισσότερα από ένα κινούμενα αντικείμενα υπάρχουν στη σκηνή το σύστημα θα πρέπει να υπολογίσει τη σχετική ταχύτητα μεταξύ κάθε αντικειμένου και του φόντου (ή ακόμη να συμπεριλάβει κάποια χωροχρονικά κριτήρια), ώστε να τα διακρίνει μεταξύ τους. Μία τέτοια διαδικασία γίνεται σημαντικά δύσκολη όταν τα αντικείμενα κινούνται σε μικρές αποστάσεις μεταξύ τους με όμοιες ταχύτητες, έχουν όμοιες χρωματικές ιδιότητες και ιδιότητες ακμών ή ακόμη επικαλύπτονται μερικώς. Τα περισσότερα από τα συστήματα που προτείνονται στη βιβλιογραφία δείχνουν να επιβάλλουν ανεπιθύμητους περιορισμούς στην καταγραφόμενη ακολουθία ή λειτουργούν καλά μόνο κάτω από τέτοιους περιορισμούς. Η ανεπάρκεια [9]

τέτοιων μεθόδων εμφανίζεται παρουσία περισσότερων του ενός κινούμενων αντικειμένων, ειδικότερα όταν επικαλύπτονται μεταξύ τους, ή παρουσία σημαντικών ποσοτήτων θορύβου, ειδικότερα στην περιοχή των κινούμενων αντικειμένων (π.χ. όταν κινούμενα φυτά επικαλύπτουν μερικώς τα όρια του κινούμενου αντικειμένου). Επιπλέον, η υπόθεση ότι το όριο του αντικειμένου (ή ακόμη και το ίδιο το αντικείμενο) μπορεί να διακριθεί καλώς από το περιβάλλον του, χρησιμοποιείται συχνά, δεν αποτελεί όμως τη συνήθη περίπτωση σε πραγματικές ακολουθίες. Τέλος, ακόμη και προσεγγίσεις που χρησιμοποιούν πολύπλοκα παραμετρικά μοντέλα κίνησης αποτυγχάνουν στην περίπτωση ισχυρής περιστροφικής κίνησης της κάμερας. Σε πολλές δε, περιπτώσεις, η υπολογιστική πολυπλοκότητα των αλγορίθμων δεν δικαιολογείται από τα αποτελέσματα που επιτυγχάνονται. 1.2.Στάδια ανάλυσης κίνησης Η πρώτιστη και βασική ερώτηση που πρέπει να απαντηθεί σε αυτό το σημείο είναι τι είναι ένα χαρακτηριστικό; [12].Τα χαρακτηριστικά είναι τμήματα της εικόνας που μπορούν εύκολα να επισημανθούν για το σκοπό της ανίχνευσης και της παρακολούθησης. Ένας ορισμός θα μπορούσε να είναι, ότι τα χαρακτηριστικά είναι τοπικές περιοχές ενδιαφέροντος. Τα χαρακτηριστικά μπορούν να επιλεχτούν με βάση την υφή, την οξύτητα των ακμών, το χρώμα και τις γωνίες. Ένα σύστημα ανάλυσης κίνησης λειτουργεί συνήθως σε δύο στάδια : 1. Ανίχνευση (detection) : η ανίχνευση θα μπορούσαμε να πούμε ότι προσπαθεί να απαντήσει στην ερώτηση : υπάρχει κίνηση στην σκηνή;. Έχει να κάνει με χαμηλού επιπέδου επεξεργασία και είναι συνήθως το πρώτο βήμα σε όλους τους αλγόριθμους ανάλυσης κίνησης. [10]

2. Παρακολούθηση (tracking) : η παρακολούθηση θα μπορούσαμε να πούμε ότι προσπαθεί να απαντήσει στην ερώτηση : που ακριβώς είναι το αντικείμενο που κινείται;. Η παρακολούθηση είναι βασικής σημασίας σε συστήματα που διατηρείται κάποιο ιστορικό για το σκοπό της αναγνώρισης της κίνησης και είναι συνήθως ένα ενδιάμεσο στάδιο επεξεργασίας. Παρόλ αυτά μερικές φορές υπάρχει αξιοσημείωτη επικάλυψη μεταξύ των αλγορίθμων ανίχνευσης και παρακολούθησης. 1.2.1. Ανίχνευση Το στάδιο της ανίχνευσης χωρίζεται στα στάδια της κατάτμησης της κίνησης και της αναγνώρισης του αντικειμένου, όπως φαίνεται στο σχήμα 1. Σχήμα 1 : στάδια της ανίχνευσης αντικειμένου 1.2.1.1.Κατάτμηση Κίνησης (Motion Segmentation) Η κατάτμηση κίνησης έχει να κάνει με τον διαχωρισμό του κινούμενου αντικειμένου για το οποίο ενδιαφερόμαστε (Object Of Interest OOI) από την εικόνα του φόντου. Ένας αλγόριθμος κατάτμησης πρέπει να είναι εύρωστος στον θόρυβο και στις αλλαγές του φόντου και του φωτισμού. Κάποιες σύγχρονες τεχνικές παρουσιάζονται παρακάτω: [11]

Αφαίρεση του φόντου (Background subtraction) : Η αφαίρεση του φόντου είναι μια απλή λύση στην κατάτμηση εικόνας. Μια στατική εικόνα η οποία δεν περιέχει το ΟΟΙ θεωρείται το μοντέλο του φόντου και η εικόνα της κίνησης βρίσκεται από μια pixel προς pixel διαφορά μεταξύ διαδοχικών καρέ και του μοντέλου του φόντου. Αυτή η μέθοδος όμως, δεν είναι κατάλληλη όταν το φόντο αλλάζει δυναμικά και κινείται. Παραλλαγές αυτής της τεχνικής περιλαμβάνουν διαφορετικούς τρόπους υπολογισμού του μοντέλου του φόντου. Το απλούστερο μοντέλο φόντου μπορεί να δημιουργηθεί από τη μέση τιμή του χρόνου των στατικών καρέ. Αντί της μέσης τιμής του χρόνου, η median τιμή της τιμής του κάθε pixel (είτε αυτή είναι σε χρωματική, είτε σε γκρι κλίμακα) μπορεί επίσης, να χρησιμοποιηθεί για τη δημιουργία του μοντέλου του φόντου. Ο υπολογισμός της median τιμής βρέθηκε ότι είναι περισσότερο εύρωστος σε αλλαγές του φωτισμού του φόντου. Χρονική διαφορά (Temporal differencing) : η χρονική διαφορά έχει να κάνει με μία pixel προς pixel διαφορά μεταξύ της χρονικής διάρκειας διαδοχικών καρέ. Τα διαδοχικά καρέ μπορεί να είναι είτε δύο, είτε περισσότερα. Η χρονική διαφορά προσαρμόζεται σε περιβάλλοντα που αλλάζουν, αφού το ιστορικό του φόντου ανανεώνεται κάθε λίγα καρέ. Οπτική ροή (Optical flow) : οι τεχνικές της οπτικής ροής βασίζονται στην υπόθεση ότι η ένταση των pixels σε μία ακολουθία εικόνων δεν αλλάζει. Με την οπτική ροή όμως, είναι αδύνατον να προσδιορίσουμε την ταχύτητα της εικόνας στην διεύθυνση κάθετη με την βάθμωση της έντασης της εικόνας. Αυτή η αδυναμία αναφέρεται ως το πρόβλημα του ανοίγματος (aperture problem). Η οπτική ροή είναι πολύ πολύπλοκη υπολογιστικά και απαιτεί η εσωτερική κίνηση των χαρακτηριστικών των καρέ να είναι μικρή. Είναι επίσης, δύσκολη η υλοποίηση σε πραγματικό χρόνο και συχνά απαιτεί εξειδικευμένο υλικό (hardware). Απ την άλλη, η οπτική ροή έχει το πλεονέκτημα ότι μπορεί να πετύχει την κατάτμηση των κινούμενων αντικειμένων ακόμη και αν η κάμερα [12]

κινείται. Η οπτική ροή μπορεί ακόμη, να διαχωρίσει την κίνηση μεταξύ ενός σώματος στερεού που δεν αλλάζει το σχήμα του και ενός που αλλάζει, διότι η κίνηση του σώματος που δεν αλλάζει παρουσιάζει μικρή συνεχή ροή. Στατιστικές μέθοδοι (Statistical Methods): οι στατιστικές μέθοδοι γενικά απορρέουν από την πιο βασική τεχνική της αφαίρεσης του φόντου. Οι στατιστικές μέθοδοι υπολογίζουν τα στατιστικά μεμονωμένων pixels ή μιας ομάδας από pixels και χρησιμοποιούν την πληροφορία για να ταξινομήσουν περιοχές μιας εικόνας ως περιοχές που ανήκουν στο φόντο ή στο προσκήνιο. Συχνά χρησιμοποιούνται γκαουσιανές για την μοντελοποίηση κάθε pixel και στη συνέχεια χρησιμοποιείται μια δυναμική διαδικασία προσέγγισης για την ενημέρωση του μοντέλου. Ένας άλλος τρόπος είναι η χρήση των μέγιστων και των ελάχιστων τιμών έντασης, και η μέγιστη απόκλιση αυτών των τιμών που προκύπτει από τα διάφορα καρέ, ως στατιστικές παράμετροι για την μοντελοποίηση του φόντου. Αυτή η τεχνική βρέθηκε ότι είναι περισσότερο εύρωστη σε αλλαγές των συνθηκών του φόντου. 1.2.1.2.Αναγνώριση του αντικειμένου (Object Identification) Η αναγνώριση του αντικειμένου είναι σημαντική στις περιπτώσεις όπου υπάρχουν περισσότερα από ένα κινούμενα αντικείμενα. Μερικές φορές η αναγνώριση έχει να κάνει με τη διαφοροποίηση μεταξύ άψυχων αντικειμένων και ανθρώπων, όπως για παράδειγμα η κίνηση αυτοκινήτων και πεζών. Άλλες φορές, όταν έχουμε να κάνουμε με αντικείμενα του ίδιου είδους, η ταυτοποίηση χρειάζεται για να δώσει μία ταυτότητα σε κάθε αντικείμενο, έτσι ώστε να μπορούν να παρακολουθηθούν και οι ενέργειές τους να μελετηθούν ξεχωριστά. Τα αντικείμενα αναγνωρίζονται με βάση δύο κριτήρια : το σχήμα και το είδος της κίνησης που ανιχνεύθηκε. [13]

Αναγνώριση με βάση το σχήμα (Shape based identification) : Η αναγνώριση με βάση το σχήμα χρησιμοποιείται κυρίως για τη διαφοροποίηση μεταξύ αντικειμένων διαφορετικού σχήματος, όπως αυτοκίνητα και άνθρωποι. Εφόσον η κίνηση του αντικειμένου αναγνωριστεί, χρησιμοποιούνται παράμετροι, όπως ο λόγος δύο διαστάσεων, η θέση των ακραίων σημείων και σκελετικές αναπαραστάσεις, για την ταξινόμηση του αντικειμένου. Αναγνώριση με βάση την περιοδικότητα (Periodicity based identification) : Η αναγνώριση με βάση την περιοδικότητα χρησιμοποιείται κυρίως για την διαφοροποίηση μεταξύ αντικειμένων του ίδιου είδους που παρουσιάζουν περιοδική κίνηση. Για παράδειγμα, η κίνηση των χεριών και των ποδιών ενός ανθρώπου που περπατάει παρουσιάζει περιοδική επανάληψη και μπορεί να χρησιμοποιηθεί ως χαρακτηριστικό για τη διαφοροποίηση και την αναγνώριση ανθρώπων, με βάση το πώς περπατούν. Έτσι, μία ανάλυση χρόνου συχνότητας μπορεί να προσδιορίσει την τάξη του αντικειμένου. Συχνά, η αυτο ομοιότητα που παρατηρείται σε μια περιοδική κίνηση μπορεί να χρησιμοποιηθεί για την ταξινόμηση έμψυχων και άψυχων κινούμενων αντικειμένων. Για την επίτευξη καλύτερης απόδοσης στην αναγνώριση μπορεί να χρησιμοποιηθεί ένας υβριδικός συνδυασμός της αναγνώρισης που βασίζεται στο σχήμα και αυτής που βασίζεται στην περιοδικότητα. Επιπλέον, παράγοντες όπως περιορισμοί της δομής του ανθρώπινου σώματος και περιορισμοί της κίνησης οχημάτων μπορούν να συγχωνευθούν προκειμένου να επιτευχθεί καλύτερη ανίχνευση κίνησης. 1.2.2. Παρακολούθηση (tracking) Όταν ένα αντικείμενο έχει κατατμηθεί και αναγνωριστεί, μπορεί να χρειαστεί να παρακολουθηθεί για κάποιο χρονικό διάστημα. Αυτό είναι ουσιώδες για τους [14]

περισσότερους αλγόριθμους αναγνώρισης που απαιτούν τη διατήρηση του ιστορικού της κίνησης. η παρακολούθηση ανήκει στο ενδιάμεσο στάδιο της όρασης και έχει να κάνει με την εύρεση συναφών σχέσεων μεταξύ χαρακτηριστικών της εικόνας σε συνεχόμενα καρέ, όπως το χρώμα, η υφή, η ταχύτητα και η θέση. Οι αλγόριθμοι παρακολούθησης συνήθως εξαρτώνται από την εφαρμογή, για παράδειγμα εξαρτώνται από το αν χρειάζεται να παρακολουθηθούν χειρονομίες, εκφράσεις του προσώπου, ολόκληρα τμήματα του σώματος, οχήματα ή πεζοί. Σε περιπτώσεις που αναμένεται συμφόρηση αντικειμένων, μπορούν να χρησιμοποιηθούν πολλές κάμερες, ώστε να μειωθεί η αμφιβολία και να βελτιωθεί η αξιοπιστία των δεδομένων. Η χρήση πολλών καμερών απαιτεί τη βέλτιστη συγχώνευση δεδομένων, προκειμένου να προσδιοριστεί η καλύτερη θέση της κάμερας. Η πιο κατάλληλη ταξινόμηση των αλγορίθμων παρακολούθησης βασίζεται στο αν οι αλγόριθμοι χρησιμοποιούν εκ των προτέρων μοντέλα σχήματος για την παρακολούθηση του αντικειμένου. Και οι δύο πάντως, προσεγγίσεις έχουν εξελιχθεί από απλές δισδιάστατες σε πολύπλοκες τρισδιάστατες ογκομετρικές αναλύσεις. Η παρακολούθηση συχνά περιορίζεται σε έναν κλειστό κόσμο, όπου όλα τα πιθανά αντικείμενα που βρίσκονται στην ακολουθία εικόνων είναι γνωστά. Αυτή η υπόθεση απλοποιεί τον αλγόριθμο αναγνώρισης σημαντικά. Σχήμα 2 : μέθοδοι παρακολούθησης αντικειμένου [15]

1.2.2.1. Παρακολούθηση με βάση μοντέλα (Model based tracking) Η παρακολούθηση με βάση μοντέλα γενικά χρησιμοποιεί ένα προκαθορισμένο μοντέλο του αντικειμένου για παρακολούθηση. Τα μοντέλα μπορούν να δημιουργηθούν για την παρακολούθηση ολόκληρου του ανθρώπινου σώματος ή για πιο συγκεκριμένα τμήματα, όπως τα χέρια ή το πρόσωπο. Χαρακτηριστικά εξάγονται από την εικόνα και αντιστοιχούνται στη δομή και την κίνηση του μοντέλου. Όμως, αυτή η αντιστοίχηση μπορεί να είναι ένα πολύπλοκο υπολογιστικά θέμα και να απαιτεί πολύ καλή κατάτμηση του κινούμενου αντικειμένου από το φόντο. Έτσι, τέτοιες τεχνικές είναι δύσκολο να υλοποιηθούν για μη ξεκάθαρες ακολουθίες εικόνων. 1.2.2.2. Παρακολούθηση μη βασισμένη σε μοντέλα (Non model based tracking) Το αποκορύφωμα της παρακολούθησης της μη βασισμένης σε μοντέλα είναι ότι η δομική πληροφορία δεν είναι πάντα απαραίτητη για την παρακολούθηση ενός αντικειμένου και η πολυπλοκότητα μπορεί να ελαττωθεί με τη χρήση κάποιων άλλων μεθόδων, όπως φαίνεται στο σχήμα 2. Παρακάτω αναφερόμαστε μόνο στη μέθοδο που βασίζεται στα χαρακτηριστικά, καθώς με αυτή θα ασχοληθούμε στην εργασία αυτή. Μέθοδος που βασίζεται στα χαρακτηριστικά (Feature based tracking) : Η μέθοδος αυτή βασίζεται στην ιδέα ότι η υπολογιστική πολυπλοκότητα ελαττώνεται με την παρακολούθηση σημαντικών μόνο χαρακτηριστικών του αντικειμένου και όχι ολόκληρης της περιοχής του αντικειμένου ή του περιγράμματός του. Η μέθοδος αυτή έχει να κάνει με την εξαγωγή χαρακτηριστικών και την αντιστοίχισή τους. Παράμετροι όπως οι γωνίες, η χρωματική πληροφορία και η υφή χρησιμοποιούνται ως χαρακτηριστικά για τη παρακολούθηση. Υπάρχουν δύο προσεγγίσεις για την παρακολούθηση με βάση τα χαρακτηριστικά : η δυναμική και η [16]

στατική παρακολούθηση. Η παρακολούθηση ονομάζεται στατική όταν τα χαρακτηριστικά εξάγονται από κάθε καρέ εκ των προτέρων και ο αλγόριθμος υπολογίζει την βέλτιστη αντιστοιχία μεταξύ τους. Διάφορες παράμετροι όπως η είσοδος και έξοδος των χαρακτηριστικών και το κόστος των συναρτήσεων για την λείανση της τροχιάς του αντικειμένου, λαμβάνονται υπόψη στην παρακολούθηση με βάση τα χαρακτηριστικά. Στην δυναμική παρακολούθηση τα χαρακτηριστικά προσδιορίζονται στα διαδοχικά καρέ δυναμικά, εκτιμώντας την κίνησή τους σε ένα καρέ και ψάχνοντας για αυτή στο επόμενο καρέ. Ένας από τους πιο γνωστούς αλγορίθμους είναι ο KLT αλγόριθμος (Kanade Lucas Tracking algorithm). Ένα θέμα με την μέθοδο αυτή είναι αλληλεξάρτηση μεταξύ της πολυπλοκότητας των χαρακτηριστικών και της αποδοτικότητας του αλγορίθμου. Χαμηλότερου επιπέδου χαρακτηριστικά όπως οι συντεταγμένες των ακμών είναι ευκολότερο να εξαχθούν, αλλά πολύ δυσκολότερο να παρακολουθηθούν, καθώς είναι δύσκολο να καθιερωθεί μία αντιστοιχία ένα προς ένα μεταξύ τους. Υψηλότερου επιπέδου χαρακτηριστικά, όπως τρισδιάστατοι όγκοι, είναι ευκολότερο να παρακολουθηθούν, αλλά δυσκολότερο να εξαχθούν. [17]

Κεφάλαιο 2 ο : Διαχωρισμός του φόντου (Background subtraction) 2.1. Γενικά Η μοντελοποίηση του φόντου είναι μία από τις δημοφιλέστερες προσεγγίσεις. Η τρέχουσα εικόνα συγκρίνεται με ένα μοντέλο του φόντου το οποίο δεν περιέχει τα κινούμενα αντικείμενα. Συνήθως, αυτό το μοντέλο του φόντου ανακτάται με την πάροδο του χρόνου. Το πλεονέκτημα τέτοιων προσαρμόσιμων μεθόδων είναι ότι εξάγουν το φόντο από τις εικόνες. Συνήθως, το φόντο ορίζεται ως το πιο συχνό χρώμα στην πάροδο του χρόνου. Αυτό σημαίνει ότι τα αντικείμενα που ήταν στην σκηνή κατά την εξαγωγή του φόντου βαθμιαία θα αντικατασταθούν από το φόντο. Αυτό εξαλείφει την ανάγκη της αρχικοποίησης ενός άδειου φόντου. Επίσης, παρέχει ένα μοντέλο φόντου που προσαρμόζεται αυτόματα στις αλλαγές. Για παράδειγμα, όταν αλλάζει ο καιρός ή όταν ένα παρκαρισμένο αυτοκίνητο φεύγει από τη σκηνή. Ένα σημαντικό μειονέκτημα είναι η αλληλεξάρτηση (trade off) μεταξύ δύο αντιτιθέμενων απαιτήσεων. Από τη μία, η ενημέρωση του φόντου θα πρέπει να γίνεται γρήγορα ώστε να μπορεί να αντιμετωπίσει τις αλλαγές φωτισμού και τις αλλαγές στο φόντο, όπως αλλαγές του φωτισμού λόγω αλλαγής της ώρας ή λόγω ανοίγματος του διακόπτη σε κλειστό χώρο, αλλαγές λόγω ανθρώπων που περπατούν ή λόγω αντικειμένων που φεύγουν από τη σκηνή. Από την άλλη, η ενημέρωση θα πρέπει να γίνεται αργά, ώστε τα αντικείμενα που κινούνται αργά να μην περιλαμβάνονται στο φόντο, όπως ένας άνθρωπος που κοιμάται. Η ταχύτητα λοιπόν, της ενημέρωσης εξαρτάται από την εφαρμογή. Παρακάτω αναφέρονται πέντε αλγόριθμοι για την εξαγωγή του φόντου και παρατίθενται τα αποτελέσματα της εφαρμογής τους σε ακολουθίες βίντεο. [18]

2.2. Αλγόριθμος διαφοράς διαδοχικών frames Ο πιο απλός ίσως τρόπος για τον διαχωρισμό του φόντου από το κινούμενο αντικείμενο σε ασπρόμαυρο βίντεο με στατική κάμερα είναι να συγκρίνουμε ανά δύο τα frames του βίντεο παίρνοντας τη διαφορά τους. Αυτό γίνεται ως εξής : 1. Ορίζουμε έναν πίνακα με διαστάσεις ίδιες με αυτές των frames τον οποίο αρχικοποιούμε. 2. Για κάθε δύο διαδοχικά frames παίρνουμε κάθε pixel και βρίσκουμε τη διαφορά της τιμής του μεταξύ των δύο frames. 3. Ορίζουμε ένα κατώφλι (threshold) (0<τ<1). 4. Αν η διαφορά των τιμών του pixel είναι μικρότερη της τιμής του κατωφλίου, τότε βάζουμε στην αντίστοιχη θέση του πίνακα την τιμή 1, ενώ αν η διαφορά είναι μεγαλύτερη του κατωφλίου, τότε στην αντίστοιχη θέση βάζουμε την τιμή 0. Έτσι, από κάθε δύο διαδοχικά frames παίρνουμε μία ασπρόμαυρη εικόνα όπου τα μαύρα pixel αντιστοιχούν στα pixel που δεν μετακινήθηκαν, δηλαδή στο φόντο, ενώ τα άσπρα pixel αντιστοιχούν στα pixel που άλλαξαν, δηλαδή στο κινούμενο αντικείμενο. (α) (β) (γ) Εικόνα 1 : τρία διαδοχικά frames α, β, γ όπου τα μαύρα pixels αντιστοιχούν στα pixels που δεν μετακινήθηκαν, δηλαδή στο φόντο, ενώ τα άσπρα pixels αντιστοιχούν στα pixels που άλλαξαν, δηλαδή στο κινούμενο αντικείμενο. Με αυτόν τον τρόπο όμως, προκύπτουν διάφορα προβλήματα. Καταρχήν, χρειάζεται μεγάλη προσοχή στην τιμή που θα βάλουμε στο κατώφλι. Αν η τιμή είναι [19]

πολύ μικρή, τότε η παραμικρή κίνηση θα ανιχνευθεί, πράγμα που μπορεί να οδηγήσει σε εσφαλμένες εκτιμήσεις, διότι μπορεί να έχουμε μικρές αλλαγές στο φόντο, οι οποίες δε θέλουμε να θεωρηθούν ως κινούμενα αντικείμενα. Τέτοιες αλλαγές μπορεί να οφείλονται σε θόρυβο λόγω της κάμερας, σε αλλαγές φωτισμού, σε σκιές, σε αέρα αν είμαστε σε εξωτερικό περιβάλλον, κ.ά. Απ την άλλη, αν η τιμή του κατωφλίου είναι πολύ μεγάλη, τότε κάποιες αλλαγές μπορεί να μην ανιχνευθούν καθόλου, όπως για παράδειγμα ένα αντικείμενο που κινείται με πολύ μικρή ταχύτητα. Στα παρακάτω διαγράμματα βλέπουμε ένα αντικείμενο που κινείται γρήγορα (object 1) και ένα που κινείται αργά (object 2). Στο διάγραμμα που βρίσκεται αριστερά, το κατώφλι τα που επιλέχτηκε, καθορίστηκε με βάση την ταχύτητα των σωμάτων που κινούνται, με αποτέλεσμα το αντικείμενο που κινείται αργά να μη μπορεί ποτέ να ανιχνευθεί (τ=δx/δt). Αντίθετα, στο διάγραμμα που βρίσκεται στα δεξιά, το κατώφλι τ εξαρτάται από ένα προκαθορισμένο frame αναφοράς (τ=δx). Αυτό οδηγεί στην ανίχνευση και των δύο αντικειμένων, ανεξάρτητα από την ταχύτητά τους. (α) (β) Σχήμα 3 : Δύο αντικείμενα που κινούνται. α. Το κατώφλι καθορίστηκε με βάση την ταχύτητα των σωμάτων που κινούνται, με αποτέλεσμα το αντικείμενο που κινείται αργά να μη μπορεί ποτέ να ανιχνευθεί. β. Το κατώφλι εξαρτάται από ένα προκαθορισμένο frame αναφοράς ανεξάρτητα από την ταχύτητα των αντικειμένων. εξής : Ο αλγόριθμος υλοποιείται με βάση το αρχείο frame_difference.m και έχει ως [20]

Αρχικά, όλα τα frames τοποθετούνται σε έναν πίνακα a τεσσάρων διαστάσεων, όπου οι τρεις διαστάσεις είναι ο χώρος χρωμάτων RGB και η τέταρτη είναι ο αριθμός του frame. Στη συνέχεια, αφού μετατρέψουμε όλα τα frames σε γκρι κλίμακα, παίρνουμε την απόλυτη διαφορά κάθε δύο διαδοχικών frames, η οποία αποθηκεύεται σε έναν πίνακα d τριών διαστάσεων, όπου η μία διάσταση είναι ο αριθμός του frame και οι άλλες δύο ορίζουν τη θέση του κάθε pixel στο κάθε frame. Τέλος, θεωρούμε ένα κατώφλι (στο συγκεκριμένο αλγόριθμο είναι 35) και συγκρίνουμε κάθε pixel του πίνακα d με αυτό. Τα αποτελέσματα αποθηκεύονται σε έναν άλλο πίνακα B, ο οποίος αποτελείται από τα frames του τελικού βίντεο. [21]

Ο αλγόριθμος δίνεται παρακάτω : 1. %frame_difference.m 2. 3. mov=aviread('orig-1.avi'); 4. 5. for i=1:60 ; 6. a(:,:,:,i)=mov(i).cdata; 7. end 8. for i=1:60; 9. b(:,:,i)=rgb2gray(a(:,:,:,i)); 10. end 11. for i=1:60; 12. c(:,:,i)=double(b(:,:,i)); 13. end 14. for i=1:59; 15. d(:,:,i)=abs(c(:,:,i)-c(:,:,i+1)); 16. end 17. [m,n,l]=size(d); 18. for k=1:l 19. for i=1:m 20. for j=1:n 21. if d(i,j,k)>35 22. B(i,j,k)=255; 23. else B(i,j,k)=0; 24. end 25. end 26. end 27. End 28. y=uint8(b); Παρακάτω φαίνονται ορισμένα frames που προκύπτουν από την εκτέλεση του αλγορίθμου. [22]

(α) (β) (γ) (δ) Εικόνα 2 : α. Ένα frame από την ακολουθία βίντεο. β. Ανίχνευση αντικειμένου χωρίς κατώφλι γ. Ανίχνευση αντικειμένου με κατώφλι 15 δ. Ανίχνευση αντικειμένου με κατώφλι 35. (α) (β) (γ) (δ) Εικόνα 3 : α. Ένα frame από την ακολουθία βίντεο. β. Ανίχνευση αντικειμένου χωρίς κατώφλι γ. Ανίχνευση αντικειμένου με κατώφλι 15 δ. Ανίχνευση αντικειμένου με κατώφλι 35. [23]

Στην εικόνα 2β βλέπουμε ένα frame από τη μάσκα διαφοράς χωρίς κατώφλι, όπου δημιουργείται αχνά το περίγραμμα του ανθρώπου. Στην εικόνα 2γ όπου το κατώφλι είναι 15 βλέπουμε ότι το περίγραμμα είναι αρκετά παχύ, τόσο που δε μας χρησιμεύει και επίσης υπάρχει και κάποιος θόρυβος. Έτσι, αυξήσαμε το κατώφλι στο 35 (εικόνα 2δ) και βλέπουμε ότι το περίγραμμα είναι αρκετά ικανοποιητικό, ενώ ο θόρυβος εξαφανίστηκε. Όσον αφορά την εικόνα 3, παρατηρούμε ότι όσο αυξάνουμε το κατώφλι τόσο μειώνεται ο θόρυβος στο φόντο αλλά ταυτόχρονα χάνουμε σημεία του κινούμενου αντικειμένου, ενώ ο θόρυβος στο φόντο παραμένει έντονα και κυρίως στα χαλίκια, λόγω υφής και λόγω αστάθειας της κάμερας. Επίσης, παρατηρούμε ότι στα τμήματα του παντελονιού του ανθρώπου που βρίσκεται πάνω στα χαλίκια έχουμε αρκετή απώλεια πληροφορίας λόγω μικρής αντίθεσης στη φωτεινότητα παντελονιού φόντου. 2.3. Αλγόριθμος με μάσκες διαφοράς Για την αποφυγή λοιπόν, όσο το δυνατόν περισσότερων σφαλμάτων, προτείνεται μια βελτιστοποιημένη μέθοδος, στην οποία το κριτήριο για το αν έχουμε κίνηση ή όχι, δεν προέρχεται απ ευθείας απ την διαφορά των διαδοχικών frames, αλλά από τη σύγκριση του κάθε frame με ένα φόντο, το οποίο διατηρούμε σε μια μνήμη και το οποίο συνεχώς ενημερώνεται [3]. Ο προτεινόμενος αλγόριθμος τμηματοποίησης εικόνας στηρίζεται σε πέντε βασικά βήματα, τα οποία φαίνονται και στο σχήμα 4: 1. Υπολογίζουμε τη μάσκα διαφοράς των frames με βάση την κατωφλιοποίηση της διαφοράς των διαδοχικών frames. 2. Αποθηκεύουμε στη μνήμη το προς σύγκριση αξιόπιστο φόντο με βάση τα pixels που δε μετακινήθηκαν για αρκετό χρονικό διάστημα σύμφωνα με τη μάσκα διαφοράς αρκετών παλιότερων frames. [24]

3. Δημιουργούμε τη μάσκα της διαφοράς του φόντου συγκρίνοντας το τρέχον frame με το αποθηκευμένο φόντο της μνήμης. 4. Δημιουργούμε μια αρχική μάσκα αντικειμένου από τη μάσκα διαφοράς των frames και από τη μάσκα της διαφοράς του φόντου. 5. Αφαιρούμε τις περιοχές θορύβου και φιλτράρουμε την εικόνα που προκύπτει για την λείανση των ακμών, ώστε να πάρουμε την τελική εικόνα. Σχήμα 4 : αλγόριθμος τμηματοποίησης εικόνας με μάσκες διαφοράς Αναλυτικότερα στον αλγόριθμο γίνονται τα εξής : [25]

1. Διαφορά των frames (frame difference) Η κατωφλιοποίηση της διαφοράς δύο διαδοχικών frames είναι η βασική σκέψη για την τμηματοποίηση εικόνας προκειμένου να ανιχνευθούν αλλαγές. Όμως, καθώς η συμπεριφορά και τα χαρακτηριστικά διαφέρουν πολύ μεταξύ των κινούμενων αντικειμένων η ποιότητα του αποτελέσματος της τμηματοποίησης εξαρτάται σε μεγάλο βαθμό από τον θόρυβο του φόντου, το είδος κίνησης του αντικειμένου και την αντίθεση μεταξύ του κινουμένου αντικειμένου και του φόντου. Έτσι, είναι πολύ δύσκολο να έχουμε αξιόπιστη πληροφορία για το κινούμενο αντικείμενο. Έτσι, λοιπόν, αντί να προσπαθούμε να αντλήσουμε περισσότερη πληροφορία από το τμήμα της εικόνας που αλλάζει, επικεντρωνόμαστε στο στατικό φόντο, του οποίου τα χαρακτηριστικά είναι γνωστά και περισσότερο αξιόπιστα. Επίσης, χρησιμοποιούμε τη συμπεριφορά του κινούμενου αντικειμένου που έχει καταχωρηθεί για αρκετό χρονικό διάστημα και δεν βασιζόμαστε απλά στη διαφορά δύο διαδοχικών frames. Σε αυτό το στάδιο υπολογίζεται η μάσκα διαφοράς των frames με κατωφλιοποίηση της διαφοράς δύο διαδοχικών frames. Αυτή η διαφορά στέλνεται στο βήμα της καταγραφής του φόντου, στο οποίο κατασκευάζεται το αξιόπιστο φόντο από τη συσσωρευμένη πληροφορία της μάσκας διαφοράς αρκετών διαδοχικών frames. Η τιμή του κατωφλίου υπολογίζεται ως εξής : α=prob( FD >TH H 0) (1) όπου το FD είναι η διαφορά των frames (frames difference), Η 0 είναι η υπόθεση ότι δεν υπάρχει καμία αλλαγή στο τρέχον pixel, ΤΗ είναι η τιμή του κατωφλίου (threshold value) και α είναι η στάθμη αξιοπιστίας. Δηλαδή, αν ο θόρυβος της κάμερας (που υπολογίζεται από την τυπική απόκλιση σ 2 ) είναι μικρός, τότε το αντικείμενο που βρίσκεται στο προσκήνιο είναι εύκολο να διαχωριστεί από το φόντο, οπότε μπορούμε να χρησιμοποιήσουμε μια υψηλότερη τιμή για το α. Διαφορετικά, αν ο θόρυβος είναι μεγάλος θα πρέπει να χρησιμοποιηθεί μια χαμηλότερη στάθμη αξιοπιστίας. [26]

2. Καταχώρηση του φόντου στη μνήμη (Background Registration) Ο σκοπός της καταχώρησης του φόντου είναι να δημιουργήσουμε ένα αξιόπιστο φόντο από την βίντεο ακολουθία. Μία κατά προσέγγιση πληροφορία φόντου δεν είναι χρήσιμη για την ανίχνευση κινουμένων αντικειμένων, και ακόμα χειρότερα θα προκαλέσει σφάλματα στα επόμενα αποτελέσματα τμηματοποίησης, εωσότου το φόντο διορθωθεί. Έτσι λοιπόν, πληροφορία η οποία δεν είμαστε σίγουροι ότι ανήκει στο φόντο απορρίπτεται και αφήνουμε άδεια την αντίστοιχη περιοχή στη μνήμη (buffer). Σε αυτό το στάδιο της καταγραφής του φόντου, διατηρούμε στη μνήμη έναν στατικό πίνακα όπου καταγράφονται οι διαφορές των frames. Αν ένα pixel φαίνεται ότι αλλάζει στη μάσκα διαφοράς των frames, τότε η αντίστοιχη τιμή του στον στατικό πίνακα είναι μηδέν, διαφορετικά, αν το pixel δεν αλλάζει, η αντίστοιχη τιμή του είναι ένα. Έτσι, ουσιαστικά, οι τιμές στον στατικό πίνακα δείχνουν ποια pixel δεν αλλάζουν και για πόσα διαδοχικά frames συμβαίνει αυτό. Αν λοιπόν, το άθροισμα των τιμών ενός pixel στον στατικό πίνακα υπερβεί μια προκαθορισμένη τιμή, έστω L, τότε η τιμή του pixel στο τρέχον frame αντιγράφεται στο αντίστοιχο pixel στον buffer του φόντου. Τέλος, η τιμή στην μάσκα καταγραφής του φόντου δείχνει αν υπάρχει ή όχι πληροφορία φόντου από το αντίστοιχο pixel. Έτσι, αν ένα νέο pixel προστεθεί στον buffer του φόντου, τότε η αντίστοιχη τιμή στη μάσκα καταγραφής του φόντου αλλάζει από μη υπάρχουσα σε υπάρχουσα. 3. Διαφορά των φόντων (Background Difference) Σε αυτό το στάδιο δημιουργείται η μάσκα διαφοράς των φόντων με κατωφλιοποίηση της διαφοράς μεταξύ του τρέχοντος frame και της πληροφορίας φόντου που έχει αποθηκευτεί στον buffer φόντου. Αυτό το στάδιο είναι παρόμοιο με [27]

τη δημιουργία της μάσκας διαφοράς των frames. Η τιμή του κατωφλίου προσδιορίζεται κι εδώ με βάση την εξίσωση (1). 4. Ανίχνευση αντικειμένων (Object Detection) Το στάδιο ανίχνευσης αντικειμένων δημιουργεί την αρχική μάσκα αντικειμένου από τη μάσκα διαφοράς των frames και τη μάσκα διαφοράς frame φόντου. Οι τρεις αυτές μάσκες για κάθε pixel είναι απαραίτητες πληροφορίες για τη διεξαγωγή του αλγορίθμου. Στον παρακάτω πίνακα φαίνονται τα κριτήρια για την ανίχνευση κινουμένου αντικειμένου. BD (background difference)είναι η απόλυτη τιμή της διαφοράς μεταξύ του τρέχοντος frame και της πληροφορίας του φόντου που είναι αποθηκευμένη στον buffer. FD (frame difference) είναι η απόλυτη τιμή της διαφοράς των frames. Τo πεδίο ΟΜ δείχνει αν ένα pixel περιλαμβάνεται ή όχι στην μάσκα αντικειμένου. Τέλος, τα ΤΗ BD (threshold background difference) και TH FD (threshold frame difference) είναι οι τιμές των κατωφλίων για τη δημιουργία της μάσκας διαφοράς του φόντου και της μάσκας διαφοράς των frames, αντίστοιχα. Πίνακας 1 : κριτήρια για την ανίχνευση κινουμένου αντικειμένου 5. Μετα επεξεργασία (Post Processing) [28]

Μετά από το στάδιο ανίχνευσης αντικειμένου, δημιουργείται μια αρχική μάσκα αντικειμένου. Παρόλ αυτά, λόγω θορύβου της κάμερας και αμελητέων κινήσεων, υπάρχουν κάποιες περιοχές θορύβου στην αρχική μάσκα αντικειμένου. Επίσης, το περίγραμμα του αντικειμένου δεν είναι αρκετά εξομαλυμένο. Έτσι, υπάρχει ένα στάδιο μετά επεξεργασίας για τη μείωση αυτών των περιοχών θορύβου και για τη λείανση του περιγράμματος. Η μείωση των περιοχών θορύβου στηρίζεται στην παρατήρηση ότι οι περιοχές θορύβου τείνουν να είναι μικρότερες από την περιοχή του αντικειμένου. Πρώτα, εφαρμόζεται ο κλασσικός αλγόριθμος των συνδεδεμένων συστατικών (connected component algorithm) στην αρχική μάσκα αντικειμένου για να σημειωθούν οι απομονωμένες περιοχές. Στη συνέχεια, υπολογίζεται η έκταση κάθε περιοχής. Περιοχές με έκταση μικρότερη από κάποια τιμή κατωφλίου εξαλείφονται από την μάσκα αντικειμένου. Έτσι, διατηρείται το σχήμα του αντικειμένου, ενώ μικρές περιοχές θορύβου αφαιρούνται. Εφόσον υπάρχουν δύο ήδη θορύβου, θόρυβος στο φόντο και θόρυβος στο προσκήνιο, χρειάζονται δύο περάσματα σε αυτό το στάδιο. Το πρώτο πέρασμα αφαιρεί μικρές μαύρες περιοχές (περιοχές φόντου), οι οποίες είναι περιοχές θορύβου στο προσκήνιο ή τρύπες στη μάσκα ανίχνευσης αλλαγών. Το δεύτερο πέρασμα αφαιρεί μικρές άσπρες περιοχές (περιοχές στο προσκήνιο), οι οποίες είναι περιοχές θορύβου στο φόντο ή λανθασμένες περιοχές αλλαγών στη μάσκα ανίχνευσης αλλαγών. Μετά την αφαίρεση των περιοχών θορύβου, εφαρμόζονται στη μάσκα αντικειμένου οι μορφολογικές πράξεις (morphological operations) ανοίγματος και κλεισίματος (open and close operations) με ένα 3x3 δομικό στοιχείο (structural element). Το μικρό δομικό στοιχείο επιλέγεται για τη λείανση του περιγράμματος του αντικειμένου, χωρίς να επηρεάζει τις λεπτομέρειες της πληροφορίας του σχήματος του αντικειμένου. Οι μορφολογικές πράξεις είναι η βάση για την απομάκρυνση του θορύβου μετά τον διαχωρισμό του φόντου και την κατωφλιοποίηση. Πιο συγκεκριμένα, οι μορφολογικές τεχνικές που συνήθως χρησιμοποιούνται, αποτελούνται από δύο βασικές πράξεις : την διεύρυνση (dilation) και τη διάβρωση (erosion) [4]. Η διεύρυνση [29]

επεκτείνει το προσκήνιο της εικόνας, προσθέτοντας ένα pixel στο προσκήνιο αν οποιοδήποτε από τα γειτονικά του pixel εντός μιας συγκεκριμένης γειτονιάς ακτίνας r (η οποία λέγεται δομικό στοιχείο structuring element) ανήκει ήδη στο προσκήνιο. Η διάβρωση επεκτείνει το φόντο, μετακινώντας ένα pixel από το προσκήνιο αν ένα από τα γειτονικά του pixel ανήκει ήδη στο φόντο. Αυτές οι δύο πράξεις μπορούν να συνδυαστούν. Μία διεύρυνση ακολουθούμενη από μία πανομοιότυπη διάβρωση λέγεται κλείσιμο (closing), και γεμίζει τις τρύπες του προσκηνίου που είναι μικρότερες από την διάμετρο της γειτονιάς. Παρομοίως, μία διάβρωση ακολουθούμενη από μία πανομοιότυπη διεύρυνση λέγεται άνοιγμα (opening), και χρησιμοποιείται για την εξάλειψη απομονωμένων pixel του προσκηνίου. Ο θόρυβος στην εικόνα που προκύπτει από την αφαίρεση του φόντου, κάνει ορισμένα pixel του προσκηνίου να μοιάζουν με αυτά του φόντου και αντίστροφα. Μία πράξη ανοίγματος ακολουθούμενη από μία πράξη κλεισίματος αντιμετωπίζει τις πηγές του λάθους : το κλείσιμο γεμίζει τα pixel του προσκηνίου που λείπουν (υποθέτοντας ότι αρκετά από τα γειτονικά pixel έχουν προσδιοριστεί σωστά), και το άνοιγμα αφαιρεί άσχετα pixel του προσκηνίου που είναι περικυκλωμένα από pixel του φόντου. Ιδιαίτερη προσοχή πρέπει να δοθεί στην επιλογή της ακτίνας r. Αν η ακτίνα είναι πολύ μικρή, τότε μεγαλύτερες ομάδες pixel θορύβου θα μείνουν αδιόρθωτες. Αν απ την άλλη η ακτίνα είναι πολύ μικρή, τότε κάποια σωστά pixel των αντικειμένων του προσκηνίου θα χαθούν. Σε ιδιαίτερα θορυβώδεις εικόνες φόντου, τα λανθασμένα pixel φόντου μπορεί να είναι τόσο πολλά και τόσο κοντά το ένα στο άλλο, ώστε η πράξη κλεισίματος να γεμίσει τα κενά ανάμεσά τους. Η αύξηση του κατωφλίου για τον αρχικό διαχωρισμό φόντου προσκηνίου οδηγεί στην αποφυγή αυτού του ανεπιθύμητου αποτελέσματος, διότι μεγαλώνοντας την τιμή του κατωφλίου τα pixel του προσκηνίου που ταξινομούνται ως pixel του φόντου είναι περισσότερα από τα pixel του φόντου που τα ταξινομούνται ως pixel του προσκηνίου. Έτσι, εφαρμόζοντας υπό αυτές τις συνθήκες την πράξη κλεισίματος θα κλείσουν τα κενά ανάμεσα σε σωστά εκτιμημένα pixel του προσκηνίου. [30]

Μετά λοιπόν, από την κατάλληλη επιλογή κατωφλίου και την εφαρμογή της ανοιχτής και κλειστής πράξης έχουμε την τελική μάσκα αντικειμένου. Στο παρακάτω βήμα φαίνονται εικόνες από διάφορα στάδια του αλγορίθμου. (α) (β) (γ) (δ) Εικόνα 4 : (α) Αυθεντική εικόνα. (β) Μάσκα διαφοράς των frames. (γ) Μάσκα μετά το φιλτράρισμα για την αφαίρεση μικρών περιοχών θορύβου. (δ) Τελική μάσκα αντικειμένου μετά την εφαρμογή της ανοιχτής κλειστής πράξης. Ο αλγόριθμος αυτός υλοποιείται με βάση τα αρχεία : 1. a_frame_dif_thres.m 2. b_back_reg_mask.m 3. c_back_dif_mask.m 4. d_object_detection.m και e_object_segment_rgb.m 5. Δεν υλοποιήθηκε [31]

1. a_frame_dif_thres.m 1. % a_frame_dif_thres.m 2. 3. mov=aviread('orig-1.avi'); 4. 5. for i=1:60 ; 6. a(:,:,:,i)=mov(i).cdata; 7. end 8. for i=1:60; 9. b(:,:,i)=rgb2gray(a(:,:,:,i)); 10. end 11. for i=1:60; 12. c(:,:,i)=double(b(:,:,i)); 13. end 14. 15. for i=1:59; 16. d(:,:,i)=abs(c(:,:,i)-c(:,:,i+1)); 17. end 18. 19. THFD=25; 20. [m,n,l]=size(d); 21. for k=1:l; 22. for i=1:m; 23. for j=1:n; 24. if d(i,j,k)>thfd 25. frame_dif(i,j,k)=0; 26. else frame_dif(i,j,k)=255/255; 27. end 28. end 29. end 30. end 31. y=uint8(frame_dif); [32]

Σε αυτό το πρώτο βήμα, βρίσκουμε αρχικά την απόλυτη διαφορά κάθε δύο διαδοχικών frames και τα αποτελέσματα αποθηκεύονται στον πίνακα d. Στη συνέχεια ορίζουμε ένα κατώφλι THFD (στον παραπάνω αλγόριθμο THFD=25) και συγκρίνουμε με αυτό το κάθε pixel του πίνακα d. Αν η τιμή του pixel είναι μεγαλύτερη του κατωφλίου, τότε η αντίστοιχη θέση του pixel σε έναν άλλο πίνακα frame_dif γίνεται μαύρη (τιμή 0), διαφορετικά γίνεται άσπρη (τιμή 255). 2. b_back_reg_mask.m 1. % b_back_reg_mask.m 2. 3. [m,n,k]=size(frame_dif); 4. 5. flag_back=zeros(m,n); 6. back_reg1=zeros(m,n); 7. temp(:,:)=frame_dif(:,:,1); 8. for x=1:m 9. for y=1:n 10. for i=2:k 11. temp(x,y)=temp(x,y)+frame_dif(x,y,i); 12. 13. if temp(x,y)>4 14. back_reg1(x,y)=b(x,y,i); 15. flag_back(x,y)=255; 16. break 17. 18. end 19. end 20. end 21. end 22. back_reg=uint8(back_reg1); [33]

Σε αυτό το βήμα αρχικοποιούμε τρεις πίνακες, τους flag_back και back_reg1 και temp, οι οποίοι είναι δύο διαστάσεων. Ο temp είναι ένας στατικός πίνακας όπου καταγράφονται οι διαφορές των frames. Δηλαδή, για κάθε pixel προσθέτουμε διαδοχικά την τιμή που έχει αυτό σε κάθε frame. Αν το άθροισμα να ξεπεράσει κάποια προκαθορισμένη τιμή, την οποία επιλέγουμε πειραματικά, τότε η τιμή του pixel στο τρέχον frame (b(x,y,i)) αντιγράφεται στο αντίστοιχο pixel στον buffer του φόντου, δηλαδή στον πίνακα back_reg1 που είναι επίσης στατικός. Διαφορετικά, η αντίστοιχη θέση στον πίνακα flag_back γίνεται άσπρη (τιμή 255), πράγμα που σημαίνει ότι το συγκεκριμένο pixel δε ξέρουμε αν ανήκει στο φόντο. Μ αυτόν τον τρόπο δημιουργείται η μάσκα καταγραφής του φόντου. [34]