ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ & ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών Χρήστου Σαράμπαλου του Γεωργίου Αριθμός Μητρώου: 6367 Θέμα «Αναγνώριση θέσης προπορευόμενου αυτοκινήτου με ψηφιακή επεξεργασία σημάτων βίντεο» Επιβλέπων Ευάγγελος Δερματάς Αριθμός Διπλωματικής Εργασίας: Πάτρα, Ιούνιος 2010
2 ΠΙΣΤΟΠΟΙΗΣΗ Πιστοποιείται ότι η Διπλωματική Εργασία με θέμα «Αναγνώριση θέσης προπορευόμενου αυτοκινήτου με ψηφιακή επεξεργασία σημάτων βίντεο» του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σαράμπαλου Χρήστου Αριθμός Μητρώου: 6367 Παρουσιάστηκε δημόσια και εξετάστηκε στο Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών στις 17/06/2010 Ο Επιβλέπων Ο Διευθυντής του Τομέα Αναπληρωτής Καθηγητής Ευάγγελος Δερματάς Καθηγητής Νικόλαος Φακωτάκης
3 Αριθμός Διπλωματικής Εργασίας: Θέμα: «Αναγνώριση θέσης προπορευόμενου αυτοκινήτου με ψηφιακή επεξεργασία σημάτων βίντεο» Φοιτητής : Σαράμπαλος Χρήστος Επιβλέπων : Ευάγγελος Δερματάς Περίληψη Τα τελευταία χρόνια υπάρχει μεγάλο ενδιαφέρον προς την κατεύθυνση της αναγνώρισης αυτοκινήτου με χρήση διαφορετικών μεθόδων. Η ανάπτυξη ενός κατάλληλου συστήματος υποβοήθησης της οδήγησης είναι εξαιρετικής σημασίας και απαιτεί τη δέουσα προσοχή και έρευνα. Σκοπός της παρούσης διπλωματικής εργασίας είναι η μελέτη, η ανάπτυξη καθώς και η εφαρμογή των πλέον αξιόπιστων μεθόδων αναγνώρισης αυτοκινήτου. Προς αυτήν την κατεύθυνση, μελετώνται λεπτομερώς οι αντίστοιχες μέθοδοι και παρουσιάζονται εκτενώς, τόσο με χρήση πραγματικών (real-time) βίντεο όσο και με την επεξεργασία διαφορετικών συνθηκών. Δίνεται ιδιαίτερη έμφαση στην ανάλυση της οπτικής ροής, η οποία κρίνεται βασική συγκριτικά με τις υπόλοιπες μεθόδους. Τέλος, παρουσιάζονται τα χαρακτηριστικά των πιο αντιπροσωπευτικών μεθόδων και παρατίθενται σχετικές προτάσεις για βελτίωση.
4 Π Ρ Ο Λ Ο Γ Ο Σ Η εκπόνηση της συγκεκριμένης Διπλωματικής Εργασίας δε θα ήταν δυνατή χωρίς την καθοδήγηση και το ενδιαφέρον του Αναπληρωτή Καθηγητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών κ. Ευάγγελο Δερματά. Τον ευχαριστώ εκ βαθέως για τη συνεχή κατεύθυνση των βημάτων μου και την αμέριστη προσφορά του στην προσπάθεια μου αυτή. Η αφιέρωση της συγκεκριμένης Διπλωματικής Εργασίας στην οικογένεια μου είναι το ελάχιστο ευχαριστώ απέναντι στην ανιδιοτελή τους υποστήριξη καθ όλη τη διάρκεια των σπουδών μου.
5 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ..9 ΚΕΦΑΛΑΙΟ 1 ΑΝΑΛΥΣΗ ΕΓΧΡΩΜΗΣ ΨΗΦΙΑΚΗΣ ΕΙΚΟΝΑΣ...10 1.1 Εισαγωγή...10 1.2 Χρωματικοί χώροι.... 11 1.2.1 RGB χώρος...11 1.2.2 HSV και HLS χώροι....13 1.2.3 Χώροι που βασίζονται στο μοντέλο CMY.17 1.2.4 Χρωματικός χώρος XYZ..20 1.2.5 Χρωματικός χώρος Yxy...20 1.2.6 Χρωματικοί χώροι L*u*v και L*a*b.22
6 ΚΕΦΑΛΑΙΟ 2 ΟΠΤΙΚΗ ΡΟΗ...26 2.1 Εισαγωγή......26 2.2 Ορισμός οπτικής ροής. 31 2.3 Μια διαφορετική προσέγγιση για τον προσδιορισμό της οπτικής ροής....35 2.4 Συσχέτιση με την κίνηση αντικειμένου...... 37 2.5 Υψηλή ανάλυση με χρήση οπτικής ροής......39 2.6 Κατηγορίες μεθόδων υψηλής ανάλυσης.. 42 ΚΕΦΑΛΑΙΟ 3 ΕΦΑΡΜΟΓΗ ΤΗΣ ΒΑΣΙΚΗΣ ΜΕΘΟΔΟΥ ΟΠΤΙΚΗΣ ΡΟΗΣ...44 3.1 Μέθοδος Lucas-Kanade.. 44 3.2 Ορισμός του προβλήματος.....45 3.3 Περιγραφή του αλγορίθμου..46 3.4 Παρουσίαση των αποτελεσμάτων του αλγορίθμου.....46 3.5 Αναλυτική περιγραφή της διαδικασίας χρήσης πυραμίδων.......111111111111111111... 51 ΚΕΦΑΛΑΙΟ 4 ΜΕΘΟΔΟΙ ΑΝΑΓΝΩΡΙΣΗΣ ΑΥΤΟΚΙΝΗΤΟΥ...54 4.1 Τα σημαντικά βήματα στην αναγνώριση αυτοκινήτου.....54 4.2 Δημιουργία υπόθεσης (Hypothesis Generation)..57 4.2.1 Μέθοδοι που στηρίζονται στην υπάρχουσα γνώση.57 4.2.1.1 Συμμετρία...58 4.2.1.2 Χρώμα...59 4.2.1.3 Σκιά.........60 4.2.1.4 Γωνίες......61 4.2.1.5 Οριζόντιες/κάθετες ακμές... 62
7 4.2.1.6 Υφή.63 4.2.1.7 Φανάρια οχημάτων... 64 4.2.2 Μέθοδοι που στηρίζονται στην οπτική γωνία...64 4.2.2.1 Χάρτης ανομοιομορφίας..65 4.2.2.2 IPM..65 4.2.3 Μέθοδοι που στηρίζονται στην κίνηση....66 4.3 Εξακρίβωση της υπόθεσης (Hypothesis Verification)....67 4.3.1 Μέθοδοι που στηρίζονται στα πρότυπα 68 4.3.2 Μέθοδοι που στηρίζονται στην εμφάνιση.....68 ΚΕΦΑΛΑΙΟ 5 ΕΦΑΡΜΟΓΗ ΜΕΘΟΔΩΝ ΑΝΑΓΝΩΡΙΣΗΣ ΑΥΤΟΚΙΝΗΤΟΥ.. 70 5.1 Μέθοδος car-tagging...70 5.1.1 Πρώτη δοκιμή...71 5.1.1.1 Πρόσβαση στο βίντεο με χρήση της εντολής mmreader..71 5.1.1.2 Αναπαραγωγή του βίντεο με χρήση της εντολής implay....73 5.1.1.3 Ανάλυση του αλγορίθμου 73 5.1.1.4 Αποτελέσματα του αλγορίθμου..77 5.1.2 Δεύτερη δοκιμή. 80 5.1.2.1 Πρόσβαση στο βίντεο με χρήση της εντολής mmreader.. 80 5.1.2.2 Αναπαραγωγή του βίντεο με χρήση της εντολής implay.82 5.1.2.3 Ανάλυση του αλγορίθμου....82 5.1.2.4 Αποτελέσματα του αλγορίθμου.. 86 5.2 Μέθοδος με χρήση οπτικής ροής.....89 5.2.1 Πρώτη δοκιμή...90
8 5.2.1.1 Πρόσβαση στο βίντεο με χρήση της εντολής MultimediaFileReader...90 5.2.1.2 Δημιουργία των απαραίτητων αντικειμένων συστήματος (System objects)....90 5.2.1.3 Ανάλυση του αλγορίθμου...91 5.2.1.4 Αποτελέσματα του αλγορίθμου..94 5.2.2 Δεύτερη δοκιμή.95 5.2.2.1 Αποτελέσματα του αλγορίθμου..95 5.2.3 Τρίτη δοκιμή..98 5.2.3.1 Αποτελέσματα του αλγορίθμου.. 98 5.3 Συμπεράσματα Προτάσεις για βελτίωση. 101 ΠΑΡΑΡΤΗΜΑ 103 ΒΙΒΛΙΟΓΡΑΦΙΑ 116
9 Ε Ι Σ Α Γ Ω Γ Η Στην εποχή μας είναι δυστυχώς καθημερινό φαινόμενο τα αυτοκινητιστικά δυστυχήματα, γεγονός που οφείλεται σε διάφορες αιτίες. Σύμφωνα με τα στατιστικά, τις περισσότερες φορές η έλλειψη προσοχής του οδηγού είναι η βασική αιτία αυτού του συχνού φαινομένου. Σε αυτό το φαινόμενο συμβάλλει και η απουσία κατάλληλων τεχνολογικών συστημάτων υποβοήθησης της οδήγησης από πολλά μοντέλα αυτοκινήτων. Επομένως τόσο η ανάπτυξη όσο και η εξάπλωση τέτοιων καινοτομικών συστημάτων κρίνεται αναγκαία στη βελτίωση της οδηγητικής συμπεριφοράς. Ένα χαρακτηριστικό παράδειγμα ενός τέτοιου συστήματος είναι ο εντοπισμός των προπορευόμενων αυτοκινήτων. Αυτό μπορεί να εφαρμοστεί σε περιπτώσεις χαμηλής αλλά και υψηλής κυκλοφορίας, όπως και στην ειδική περίπτωση της αυτόματης πλοήγησης του αυτοκινήτου. Στην παρούσα εργασία, παρουσιάζονται και εφαρμόζονται οι κυριότερες μέθοδοι προς αυτήν την κατεύθυνση.
10 Κ Ε Φ Α Λ Α Ι Ο 1 ΑΝΑΛΥΣΗ ΕΓΧΡΩΜΗΣ ΨΗΦΙΑΚΗΣ ΕΙΚΟΝΑΣ 1.1 Εισαγωγή Το χρώμα παρέχει πολύ σημαντική πληροφορία για την αναγνώριση αυτοκινήτου αφού μπορεί να οδηγήσει σε σημαντική απλούστευση της διαδικασίας αναγνώρισης, αν και η αξιοποίηση της χρωματικής πληροφορίας αυξάνει την πολυπλοκότητα του προβλήματος μας. Θα παρουσιαστεί στη συνέχεια ο τρόπος αναπαράστασης έγχρωμων ψηφιακών εικόνων, ο οποίος βασίζεται στη χρήση των χρωματικών χώρων.
11 1.2 Χρωματικοί χώροι Ως χρωματικός χώρος ορίζεται ένα μοντέλο που χρησιμοποιείται για την αναπαράσταση του χρώματος με τη μορφή τιμών έντασης. Ο χώρος αυτός ορίζει τον τρόπο με τον οποίο θα αναπαρασταθεί η χρωματική πληροφορία. Συγκεκριμένα ορίζει έναν ν-διάστατο χώρο του οποίου οι διαστάσεις, ή συνιστώσες, αντιπροσωπεύουν τιμές έντασης. Κάθε χρωματική συνιστώσα ονομάζεται και χρωματικό κανάλι. Οι χρωματικοί χώροι αναπαρίστανται οπτικά συνήθως ως διάφορα συμπαγή σχήματα, όπως κύβοι, κώνοι ή πολύεδρα. Στην συνέχεια παρατίθενται οι ευρύτερα χρησιμοποιούμενοι χρωματικοί χώροι και τα χαρακτηριστικά τους. 1.2.1 RGB χώρος Ο RGB χώρος είναι ένας τρισδιάστατος χρωματικός χώρος του οποίου οι συνιστώσες είναι οι τιμές έντασης του κόκκινου (Red), του πράσινου (Green) και του μπλε(blue), οι οποίες συνθέτουν το εκάστοτε χρώμα. Το κάθε χρώμα μπορεί να αναπαρασταθεί από μία μίξη συγκεκριμένων τιμών έντασης των παραπάνω τριών χρωματικών συνιστωσών. Οι διάφορες χρωματικές αποχρώσεις μπορούν να αναπαρασταθούν σε σύστημα τριών διαστάσεων, αν φανταστούμε ότι κάθε άξονας αντιστοιχεί σε μία χρωματική συνιστώσα. Άρα ο RGB χώρος μπορεί να αναπαρασταθεί από έναν κύβο, όπως φαίνεται στην εικόνα 1.1. Ο χώρος αυτός μοιάζει αρκετά στη φυσική αντίληψη των χρωμάτων από τον άνθρωπο, καθώς είναι προσθετικός και βασίζεται στην
12 μίξη επιμέρους βασικών αποχρώσεων χρωμάτων. για τη δημιουργία των τελικών (α) Εικόνα 1.1 : (α) Σχηματική απεικόνιση του RGB χρωματικού κύβου (β) (β) Χρωματική απεικόνιση του RGB χρωματικού κύβου
13 Στο Matlab η αναπαράσταση μιας RGB εικόνας διαστάσεων Μ x Ν γίνεται με έναν πίνακα τριών διαστάσεων M x N x 3 που περιέχει pixel χρώματος. Κάθε pixel είναι μια τριπλέτα χρωμάτων που αντιστοιχεί στις συνιστώσες του κόκκινου, του πράσινου και του μπλε για το συγκεκριμένο σημείο. Μια RGB εικόνα, δηλαδή, μπορεί να αναπαρασταθεί ως μια στοίβα από τρείς grayscale εικόνες οι οποίες όταν τροφοδοτηθούν στις εισόδους για κόκκινο, πράσινο και μπλε μιας έγχρωμης οθόνης παράγουν μια έγχρωμη εικόνα. Οι τρείς επιμέρους εικόνες που αποτελούν την RGB εικόνα αναφέρονται ως χρωματικές συνιστώσες. 1.2.2 HSV και HLS χώροι Οι χώροι HSV και HLS είναι μετασχηματισμοί του χώρου RGB και χρησιμοποιούνται γιατί μπορούν και περιγράφουν τα χρώματα με πιο φυσικό τρόπο. Ο χώρος HSV περιλαμβάνει τις συνιστώσες του χρωματικού τόνου (Hue), της χρωματικής καθαρότητας (Saturation) και η τιμή της φωτεινότητας (Value). Ο τόνος προσδιορίζει αυτό που χονδρικά αντιλαμβανόμαστε ως χρώμα και παίρνει τιμές γωνίας που κυμαίνονται από 0 ο έως 360 ο και αυξάνει με φορά αντίθετη από τους δείκτες του ρολογιού. Η μηδενική γωνία τόνου αντιστοιχεί στο κόκκινο χρώμα. Η καθαρότητα συμβολίζει το ποσό του γκρι (οριακά άσπρο, ή μαύρο) που αναμιγνύεται στο χρώμα. Η μηδενική καθαρότητα σημαίνει και μηδενικός τόνος, δηλαδή μόνο αποχρώσεις του γκρι. Η καθαρότητα και η τιμή φωτεινότητας είναι κανονικοποιημένα μεγέθη και παίρνουν τιμές από 0 έως 1.
14 Ο χώρος HLS περιλαμβάνει τις ίδιες δύο πρώτες συνιστώσες με τον HSV, δηλαδή τον τόνο και την καθαρότητα. Η τρίτη συνιστώσα (θα αναφέρεται τώρα σαν δεύτερη) είναι σε αυτή την περίπτωση η φωτεινότητα (Lightness). Ο ρόλος κάθε συνιστώσας αλλάζει ελαφρά σε σχέση με τον χώρο HSV. Μπορεί ο τόνος να έχει μεν την ίδια έννοια, αλλά εδώ μία γωνία 0 ο αντιστοιχεί σε μπλε χρώμα, ενώ το κόκκινο χρώμα βρίσκεται σε γωνία 120 ο. Όπως συμβαίνει και στο HSV μοντέλο, τα συμπληρωματικά χρώματα απέχουν γωνία 180 ο. Η καθαρότητα στο HLS μοντέλο υποδηλώνει την «αγνότητα» του τόνου. Όταν η καθαρότητα μειώνεται, ο τόνος γίνεται πιο γκρι. Η μηδενική τιμή καθαρότητας σημαίνει απόχρωση του γκρι. Τέλος, η φωτεινότητα υποδηλώνει το ποσό μαύρου ή λευκού που περιέχεται σε ένα χρώμα. Αυξανόμενη φωτεινότητα προσθέτει λευκό στον τόνο, ενώ αντίστοιχα όσο μειώνεται η φωτεινότητα προστίθεται μαύρο στον τόνο. Από την διακύμανση των τιμών των συνιστωσών του HSV χώρου, μπορούμε να συμπεράνουμε ότι αυτός μπορεί να αναπαρασταθεί ως ένας κώνος (εικόνα 1.2 (α)), τον οποίο μπορούμε για καλύτερη διάκριση μεταξύ των χρωμάτων να τον σχεδιάσουμε ως επτάεδρο, όπως φαίνεται στην εικόνα 1.2 (γ). Αντιστοίχως, ο HLS χώρος μπορεί να παρασταθεί ως ένας διπλός κώνος (εικόνα 1.2 (β)), ο οποίος για τον λόγο που προαναφέραμε σχεδιάζεται ως δωδεκάεδρο στην εικόνα 1.2 (δ).
15 (α) (β)
16 (γ) (δ) Εικόνα 1.2 : (α) HSV κώνος (β) HLS κώνος (γ) HSV επτάεδρο (δ) HLS δωδεκάεδρο
17 Ο HLS χώρος μπορεί να συναντηθεί και ως HSI χώρος, με την φωτεινότητα (Lightness) να αντικαθίσταται από την ισοδύναμη έννοια ένταση (Intensity). 1.2.3 Χώροι που βασίζονται στο μοντέλο CMY Οι χρωματικοί χώροι που βασίζονται στο μοντέλο CMY χρησιμοποιούνται συνήθως στα έγχρωμα συστήματα εκτύπωσης. Είναι εξαρτώμενοι από την εκάστοτε συσκευή και λειτουργούν με αφαιρετική λογική. Οι χώροι μέσα στην οικογένεια CMY είναι οι εξής δύο : (α) CMY : Δε χρησιμοποιείται πολύ συχνά, εκτός από low-end εκτυπωτές χρώματος (β) CMYK : Διαμορφώνει τον τρόπο με τον οποίο τα μελάνια ή οι μπογιές χρησιμοποιούνται πάνω στο χαρτί στις εκτυπώσεις Το όνομα CMYK αναφέρεται στα τέσσερα κύρια χρώματα του μοντέλου, δηλαδή το κυανό (Cyan), το πορφυρό (Magenta), το κίτρινο (Yellow), και το μαύρο (Black). Τα τρία αρχικά χρώματα σε αυτόν τον χρωματικό χώρο είναι δηλαδή το κυανό, το πορφυρό, και το κίτρινο. Τα τρία δευτερεύοντα χρώματα του χώρου είναι το κόκκινο, το πράσινο και το μπλε. Θεωρητικά το μαύρο δεν απαιτείται. Εντούτοις, όταν αναμιγνύονται εξίσου τα κυανά, πορφυρά, και κίτρινα μελάνια πλήρους καθαρότητας σε χαρτί, το αποτέλεσμα είναι συνήθως ένα σκοτεινό καφετί, αντί για μαύρο. Επομένως, το μαύρο μελάνι είναι επιτυπωμένο στις σκοτεινότερες περιοχές για να δώσει μια καλύτερη εμφάνιση.
18 Στην εικόνα 1.3 (α) φαίνεται πώς γίνεται η αθροιστική πρόσμιξη χρωμάτων στον RGB χώρο για να δημιουργηθούν τα υπόλοιπα χρώματα. Στην εικόνα 1.3 (β), αποτυπώνεται η αντίστοιχη αφαιρετική πρόσμιξη χρωματικών συνιστωσών στον CMYK χώρο. (α) (β) Εικόνα 1.3 : (α) Αθροιστική πρόσμιξη χρωμάτων στο RGB μοντέλο (β) Αφαιρετική πρόσμιξη χρωμάτων στο CMYK μοντέλο
19 Ουσιαστικά, η διαδικασία της παραγωγής των κυανών, πορφυρών, κίτρινων, και μαύρων τιμών από ένα χρώμα που εκφράζεται στο RGB διάστημα είναι σύνθετη και περιλαμβάνει υπολογισμούς που εξαρτώνται από τη συσκευή, το μελάνι, ακόμα και το χαρτί. Αυτοί οι υπολογισμοί αφορούν το ποσό του μαύρου που θα πρέπει να προστεθεί στις σκούρες περιοχές και το ποσό των άλλων μελανιών που πρέπει να αφαιρεθεί στα σημεία όπου πρόκειται να τυπωθεί μαύρο χρώμα. Οι χρωματικοί χώροι που παρουσιάστηκαν ως τώρα, είναι μοντέλα που μπορούν να παρουσιάσουν διάφορες μορφές, που εξαρτώνται από τις συσκευές που τους χρησιμοποιούν, δηλαδή οι οθόνες και οι σαρωτές όσον αφορά το RGB και οι εκτυπωτές, τα μελάνια και το χαρτί όσον αφορά το CMYK μοντέλο. Αυτή τους η εξάρτηση είναι που οδήγησε στην ανάπτυξη χρωματικών χώρων που να είναι ανεξάρτητοι από τις συσκευές και κατά συνέπεια να θεωρούνται ως αληθινές εκφράσεις των χρωμάτων, όπως αυτά γίνονται αντιληπτά από το ανθρώπινο μάτι. Οι ανεξάρτητοι των συσκευών χρωματικοί χώροι ήταν το αποτέλεσμα δουλειάς που έγινε το 1931 από την Διεθνή Επιτροπή Φωτισμού (Commission Internationale d'eclairage - CIE) και γι αυτό ονομάζονται επίσης και χρωματικοί χώροι βασισμένοι στην CIE. Στη συνέχεια θα παρουσιαστούν κάποιοι τέτοιοι χρωματικοί χώροι.
20 1.2.4 Χρωματικός χώρος XYZ Ο χρωματικός χώρος ΧΥΖ, είναι ο θεμελιώδης χρωματικός χώρος που βασίζεται στην CIE. Ο χώρος αυτός χρησιμοποιεί 3 υποθετικές βασικές συνιστώσες, η πρόσμιξη των οποίων εκφράζει τα διάφορα χρώματα. Η χρήση τριών συνιστωσών έχει να κάνει με την φυσική λειτουργία της όρασης. Μετά από πειραματισμούς, η CIE κατέληξε σε ένα σύνολο θεμελιωδών μεγεθών ΧΥΖ, τα οποία συμφωνούν με τον τρόπο που συμπεριφέρεται ο αμφιβληστροειδής στη διεργασία της όρασης. Η CIE κατέληξε στα θεμελιώδη μεγέθη, έτσι ώστε κάθε ορατό φως να αντιστοιχεί σε μια θετική ανάμιξη των Χ, Υ και Ζ και με τρόπο τέτοιο που το Υ να συσχετίζεται περίπου στην εμφανή φωτεινότητα ενός χρώματος. Γενικά, οι συνιστώσες Χ, Υ, Ζ που χρησιμοποιούνται για την περιγραφή ενός χρώματος εκφράζονται ως εκατοστιαίες αναλογίες που μεταβάλλονται από το 0% έως, σε μερικές περιπτώσεις, ελάχιστα πάνω από το 100%. 1.2.5 Χρωματικός χώρος Yxy Ο χρωματικός χώρος Yxy λαμβάνεται από τον ΧΥΖ με τους εξής απλούς μετασχηματισμούς : Υ = Υ
21 x = X X Y Z y = X Y Y Z Τα x, y είναι συνιστώσες που θα μπορούσαν να θεωρηθούν ανάλογες του τόνου και της καθαρότητας στον HSV χώρο. Το χρωματικό διάγραμμα του Yxy χώρου φαίνεται στην εικόνα 1.4. Εικόνα 1.4 : Χρωματικό διάγραμμα του Yxy χρωματικού χώρου
22 1.2.6 Χρωματικοί χώροι L*u*v και L*a*b Ένα πρόβλημα που προκύπτει από την έκφραση των χρωμάτων στους χώρους ΧΥΖ ή Yxy είναι ότι τα μοντέλα αυτά είναι μη γραμμικά. Επομένως δεν είναι δυνατόν να εκτιμήσουμε με ακρίβεια την αντιληπτή συνάφεια δύο χρωμάτων χρησιμοποιώντας τις σχετικές τους θέσεις στους δύο αυτούς χώρους. Χρώματα που βρίσκονται κοντά το ένα στο άλλο στον Yxy χώρο μπορεί να φαίνονται πολύ διαφορετικά στους παρατηρητές, ενώ αντίστοιχα χρώματα που οι παρατηρητές βρίσκουν παρόμοια μπορεί να βρίσκονται πολύ μακριά στον Yxy χώρο. Αυτά που αναφέρθηκαν στην προηγούμενη παράγραφο, οδήγησαν στην ανάπτυξη δύο ακόμη χρωματικών χώρων. Ο χώρος L*u*v είναι ένας μη γραμμικός μετασχηματισμός του ΧΥΖ χώρου για τη δημιουργία ενός αντιληπτά γραμμικού χρωματικού χώρου. Ο χώρος L*a*b είναι ένας μη γραμμικός μετασχηματισμός (συγκεκριμένα μία προσέγγιση τρίτης τάξης) του χρωματικού συστήματος του Munsell. Τα δύο μοντέλα έχουν σχεδιαστεί για να αντιστοιχίσουν την αντιληπτή χρωματική διαφορά σε ποσοτική απόσταση στον χρωματικό χώρο. Τα χρωματικά διαγράμματα για τους δύο αυτούς χώρους φαίνονται στην εικόνα 1.5.
23 (α) (β)
24 (γ) Εικόνα 1.5 : Ο κύβος RGB αφού έχει μετατραπεί στο L*u*v σύστημα (α) Ιδωμένος από τον άξονα U (β) Ιδωμένος από τον άξονα V (γ) Ο χώρος L*a*b
25 Μέχρι στιγμής παρουσιάστηκαν μερικοί από τους πιο σημαντικούς και ευρέως χρησιμοποιημένους χρωματικούς χώρους. Υπάρχουν βεβαίως και άλλοι, όπως για παράδειγμα ο YCbCr, o YIQ και o YUV, αλλά είναι δευτερεύουσας σημασίας. Είναι φανερό ότι κάθε χρωματικός χώρος παρουσιάζει τα δικά του πλεονεκτήματα και μειονεκτήματα και κανένας δεν αποτελεί ιδανική επιλογή για όλες τις εφαρμογές. Η επιλογή πρέπει να βασίζεται στις ιδιαιτερότητες που παρουσιάζει η εφαρμογή που επιλέγεται σε κάθε περίπτωση.
26 Κ Ε Φ Α Λ Α Ι Ο 2 ΟΠΤΙΚΗ ΡΟΗ 2.1 Εισαγωγή Η κίνηση της εικόνας σε δύο διαστάσεις είναι ουσιαστικά η προβολή της τρισδιάστατης κίνησης των αντικειμένων, σχετικά με έναν οπτικό αισθητήρα, στο επίπεδο της εικόνας. Οι αλληλουχίες των χρονικά συγχρονισμένων εικόνων επιτρέπουν την εκτίμηση της προβεβλημένης δισδιάστατης κίνησης της εικόνας είτε με στιγμιαίες ταχύτητες της εικόνας είτε με διακριτές μετατοπίσεις της εικόνας. Αυτές καλούνται πεδίο οπτικής ροής ή πεδίο ταχύτητας της εικόνας.
27 Δεδομένου ότι η οπτική ροή είναι μία αξιόπιστη προσέγγιση στη δισδιάστατη κίνηση εικόνας, μπορεί να χρησιμοποιηθεί για την επαναφορά της τρισδιάστατης κίνησης του οπτικού αισθητήρα και της τρισδιάστατης κίνησης της δομής της επιφάνειας. Αυτό μπορεί να επιτευχθεί μέσω υποθέσεων που αφορούν στη δομή του πεδίου της οπτικής ροής, το τρισδιάστατο περιβάλλον καθώς και την κίνηση του σένσορα. Η οπτική ροή μπορεί επίσης να χρησιμοποιηθεί για να εκτελέσει ανίχνευση της κίνησης, κατάτμηση αντικειμένου, κωδικοποίηση αντιστάθμισης κίνησης και μέτρηση στερεομετρικής ανισότητας. Ένα σημαντικό πρόβλημα στην επεξεργασία μιας αλληλουχίας εικόνων είναι ο υπολογισμός της οπτικής ροής, σαν μια προσέγγιση στη κίνηση της εικόνας που ορίζεται ως η προβολή των ταχυτήτων των τρισδιάστατων σημείων της επιφάνειας πάνω στο επίπεδο εικόνας ενός οπτικού αισθητήρα. Η οπτική ροή συνήθως είναι μία τυπική απεικόνιση της κίνησης της εικόνας. Παρόλα αυτά, υπάρχουν και άλλοι περιγραφείς της κίνησης, μερικές φορές πιο γενικοί από την οπτική ροή, όπως τα παραμετρικά μοντέλα της κίνησης, ή περιγραφείς που είναι προσαρμοσμένοι σε περιορισμένα πλαίσια. Για παράδειγμα, αυτό συμβαίνει όταν στοιχεία της γεωμετρίας της εικόνας του οπτικού αισθητήρα είναι μερικώς ή ολικώς προαποφασισμένα. Η σημασία της κίνησης στην επεξεργασία εικόνων δεν μπορεί να υποτιμηθεί. Διάφορες προσεγγίσεις μπορούν να χρησιμοποιηθούν για τον υπολογισμό των ιδιοτήτων των τρισδιάστατων εικόνων και των παραμέτρων κίνησης από έναν κινούμενο οπτικό αισθητήρα, για την εκτέλεση της κατάτμησης της κίνησης, για τον υπολογισμό της εστίασης, για την εκτέλεση κωδικοποίησης σε εικόνες με αντιστάθμιση κίνησης, για τον υπολογισμό στερεομετρικής ανισότητας καθώς και για τη μέτρηση της ροής του αίματος.
28 Παραδείγματα κινήσεων και δομών Συνήθως, οι προσεγγίσεις στην κίνηση της εικόνας έχουν χρησιμοποιηθεί ώστε να συνάγουν συμπεράσματα για τη δομή των εικόνων. Σε αυτήν την κατεύθυνση, έχουν χρησιμοποιηθεί διαφορετικά παραδείγματα κίνησης και δομής, που μερικές φορές χρησιμοποιούν την οπτική ροή σαν μία αντιπροσωπευτική παράμετρο της κίνησης, σαν αντιστοιχία ανάμεσα σε διάφορα χαρακτηριστικά της κίνησης ή σαν εργαλείο μελέτης των ιδιοτήτων κάποιων δομών. Τα παραδείγματα αυτά μπορούν να ταξινομηθούν σε τρεις κύριες ομάδες : Ταχύτητα Η τρισδιάστατη κίνηση μπορεί να προκύψει από δισδιάστατα πεδία ταχύτητας, συσχετίζοντας τις παραμέτρους κίνησης και δομής με την οπτική ροή. Αυτές οι παράμετροι περιλαμβάνουν στιγμιαία ποσοστά μετατροπής και περιστροφής και πιθανώς σχετικό βάθος ή παραμέτρους επιφάνειας. Στο σχήμα 2.1 φαίνεται μια εικόνα και το αντίστοιχο πεδίο οπτικής ροής για τη λεγόμενη Yosemite fly-through αλληλουχία, που επινόησε ο Lynn Quam [9], [13], [16].
29 (α) (β) Σχήμα 2.1 : (α) Μια εικόνα για τη λεγόμενη Yosemite fly-through αλληλουχία (β) Η αντίστοιχη οπτική ροή
30 Ανομοιότητα Οι ανομοιότητες στις εικόνες, που εμφανίζονται είτε στις αντιστοιχίες των χαρακτηριστικών της εικόνας είτε στις τοπικές συσχετίσεις, μπορούν να χρησιμοποιηθούν για τον υπολογισμό τρισδιάστατων διανυσμάτων μετατροπής, πινάκων περιστροφής καθώς και ιδιοτήτων επιφάνειας. Φωτεινότητα εικόνας Οι εντάσεις στις εικόνες και οι παράγωγοι τους συνήθως χρησιμοποιούνται άμεσα για τον καθορισμό των δομικών παραμέτρων. Με αυτόν τον τρόπο, αποφεύγεται μια σαφή ενδιάμεση συσχέτιση της κίνησης εικόνας όπως είναι η οπτική ροή ή τα πεδία ανομοιότητας. Συνήθως, οι σχετικοί υπολογισμοί της εικόνας της κίνησης ή οι παράγωγοι της φωτεινότητας της εικόνας στη τρισδιάστατη κίνηση και στις δομικές παραμέτρους καταλήγουν σε συστήματα μη γραμμικών εξισώσεων. Επιπλέον, κάθε ένα από αυτά τα παραδείγματα έχει τα πλεονεκτήματα και τα μειονεκτήματα του, ανάλογα με τη συγκεκριμένη χρήση και τα χαρακτηριστικά της εικόνας.
31 2.2 Ορισμός οπτικής ροής Η αρχική υπόθεση για τον υπολογισμό της κίνησης της εικόνας είναι ότι οι δομές της φωτεινότητας των τοπικών περιοχών εικόνας που μεταβάλλονται χρονικά είναι κατά προσέγγιση σταθερές υπό κίνηση, τουλάχιστον για μικρή διάρκεια. I(x, t). Έστω ότι η φωτεινότητα μιας εικόνας τη χρονική στιγμή t συμβολίζεται ως : Αν υποθέσουμε ότι η εμφανής φωτεινότητα μιας κινούμενης εικόνας παραμένει σταθερή, τότε ισχύει : I(x, t) I(x + δx, t + δt) (1) όπου δx είναι η μετατόπιση της τοπικής περιοχής της εικόνας στο (x, t) μετά από χρόνο δt. : Αν αναπτύξουμε το δεύτερο μέρος της εξίσωσης (1) σε σειρά Taylor έχουμε I(x, t) = I(x, t) + I*δx + δti t + O 2 (2) όπου Ι = (Ι x, I y ) και I t είναι οι πρώτου βαθμού μερικές παράγωγοι του I(x, t) και Ο 2 οι όροι δεύτερης και υψηλότερης τάξης, που θεωρούνται αμελητέοι.
32 Αφαιρώντας το I(x, t) από τα δύο μέρη της εξίσωσης (2), αγνοώντας τους όρους Ο 2 και διαιρώντας με δt έχουμε : Ι*v + I t = 0 (3) όπου Ι = (Ι x, I y ) είναι η παράγωγος της φωτεινότητας και v = (u, v) είναι η ταχύτητα της εικόνας. Η εξίσωση (3) είναι γνωστή ως εξίσωση της οπτικής ροής και ορίζει μία μοναδική τοπική μεταβλητή στην κίνηση της εικόνας, όπως φαίνεται στο σχήμα 2.2. Στο σχήμα, η ταχύτητα v L ορίζεται ως το διάνυσμα που είναι κάθετο στη γραμμή που ορίζεται από την εξίσωση της οπτικής ροής, δηλαδή το διάνυσμα που έχει το μικρότερο μέτρο. Η γραμμή που ορίζεται από την εξίσωση της οπτικής ροής Σχήμα 2.2 : Η εξίσωση της οπτικής ροής ορίζει μια γραμμή στο διανυσματικό χώρο
33 Αυτή η εξίσωση της οπτικής ροής δεν είναι επαρκής για να υπολογίσει και τα δύο μέρη του διανύσματος v, έτσι μόνο το μέρος του διανύσματος που είναι στην κατεύθυνση της τοπικής παραγώγου της φωτεινότητας της εικόνας (v L ) μπορεί να υπολογιστεί. Αυτό το φαινόμενο δε συμβαίνει στις περιοχές εικόνας όπου υπάρχει επαρκής δομή φωτεινότητας εικόνας γιατί τότε μπορεί να υπολογιστεί η κίνηση της εικόνας με τη χρήση της εξίσωσης της οπτικής ροής (3), όπως φαίνεται στο σχήμα 2.3. Για παράδειγμα, η ταχύτητα μιας επιφάνειας που είναι ομογενής ή τα συστατικά της έχουν ενιαίο προσανατολισμό, δεν μπορεί να προσδιορισθεί οπτικά. Επειδή η ταχύτητα v L, είναι στην ίδια κατεύθυνση με την παράγωγο της φωτεινότητας Ι, από την εξίσωση (3) έχουμε : v L = It * VI VI 2 (4) Από την τελευταία σχέση γίνεται σαφές ότι προκειμένου η οπτική ροή να αντιπροσωπεύει την κίνηση της εικόνας, πρέπει να πληρούνται ορισμένες προϋποθέσεις, οι οποίες είναι οι εξής : i) ομοιόμορφος φωτισμός, ii) lambertian ανάκλαση επιφάνειας iii) μετατροπή παράλληλη προς το επίπεδο της εικόνας.
34 Στην πραγματικότητα, αυτές οι προϋποθέσεις δεν πραγματοποιούνται. Παρόλα αυτά, υποτίθεται ότι αυτές ισχύουν τοπικά, οπότε και στο επίπεδο της εικόνας. Σχήμα 2.3 : Η κίνηση της εικόνας μπορεί να μετρηθεί μόνο στην περίπτωση 2, όπου υπάρχει επαρκής τοπική δομή Ο βαθμός στον οποίο ικανοποιούνται αυτές οι συνθήκες, μερικώς καθορίζει την ακρίβεια με την οποία η οπτική ροή προσεγγίζει την κίνηση της εικόνας. Μπορεί επιπλέον να μετρηθεί η μετατόπιση της εικόνας με κατάλληλη συσχέτιση, ειδικά σε μικρές αλληλουχίες εικόνων. Τέτοιου είδους μετατοπίσεις αποτελούν μία αξιόλογη προσέγγιση στην ταχύτητα της εικόνας όταν πληρούνται συγκεκριμένες προϋποθέσεις. Συγκεκριμένα, το ποσοστό της ταχύτητας μετατροπής του αισθητήρα προς το απόλυτο μέτρο του βάθους, οι τρισδιάστατες κάθετες και οριζόντιες
35 περιστροφές του αισθητήρα και το χρονικό διάστημα ανάμεσα στα διαδοχικά πλαίσια πρέπει να είναι μικρές ποσότητες. Η οπτική ροή μπορεί επίσης να υπολογιστεί ως το πεδίο ανομοιότητας όπου με δεδομένες δύο διαδοχικές εικόνες σε μια αλληλουχία, κάποια χαρακτηριστικά σημεία αποσπώνται από τις εικόνες και αντιστοιχίζονται υπό μία κατάλληλη διαδικασία. Η εκτέλεση ανίχνευσης δισδιάστατης κίνησης περιλαμβάνει την επεξεργασία σκηνών όπου ο αισθητήρας κινείται σε περιβάλλον που περιέχει τόσο στάσιμα όσο και μη στάσιμα αντικείμενα. Ακόμη, κάποια οπτικά φαινόμενα όπως η παρουσία διαφανών εικόνων και μη άκαμπτων αντικειμένων αυξάνουν την έμφυτη πολυπλοκότητα της μέτρησης της οπτικής ροής. 2.3 Μια διαφορετική προσέγγιση για τον προσδιορισμό της οπτικής ροής Η οπτική ροή δεν μπορεί να υπολογιστεί τοπικά, αφού μόνο μία ανεξάρτητη μέτρηση είναι διαθέσιμη σε ένα σημείο από την αλληλουχία της εικόνας, ενώ η ταχύτητα της ροής έχει δύο συστατικά. Απαιτείται μία ακόμη συνθήκη, οπότε θα παρουσιαστεί μία μέθοδος για την εύρεση του προτύπου οπτικής ροής η οποία βασίζεται στην υπόθεση ότι η εμφανής ταχύτητα του προτύπου της φωτεινότητας διαφέρει ομαλά σχεδόν παντού στην εικόνα. Θα επιδειχθεί επίσης μια επαναληπτική υλοποίηση που υπολογίζει επιτυχώς την οπτική ροή για ένα πλήθος από αλληλουχίες συνθετικών εικόνων. Ο αλγόριθμος που χρησιμοποιείται είναι αυτοδύναμος με την έννοια ότι χειρίζεται αλληλουχίες εικόνων που δεν είναι ισχυρά κβαντισμένες στο χώρο και στο χρόνο. Επιπλέον δεν είναι επιρρεπής στην κβαντοποίηση των
36 επιπέδων φωτεινότητας και του επιπέδου θορύβου. Παρέχονται επίσης παραδείγματα όπου η υπόθεση της ομαλότητας παραβιάζεται σε μεμονωμένα σημεία ή σε γραμμές στην εικόνα [2]. Στην ουσία η οπτική ροή είναι η κατανομή των εμφανών ταχυτήτων της κίνησης των μοτίβων φωτεινότητας σε μια εικόνα. Μπορεί να προκύψει από τη σχετική κίνηση των αντικειμένων και του παρατηρητή. Συνεπώς, η οπτική ροή μπορεί να μας δώσει σημαντικές πληροφορίες σχετικά με τη χωρική ρύθμιση των αντικεμένων που παρατηρούνται, καθώς και του ρυθμού αλλαγής αυτής της ρύθμισης. Οι ασυνέχειες στην οπτική ροή μπορούν να βοηθήσουν στο διαχωρισμό των εικόνων σε περιοχές που αντιστοιχούν σε διαφορετικά αντικείμενα. Έχουν γίνει κάποιες προσπάθειες για να επιτευχθούν τέτοιου είδους διαχωρισμοί χρησιμοποιώντας τις διαφορές ανάμεσα σε διαδοχικά πλαίσια εικόνων. Πολλές έρευνες εστιάζουν στο πρόβλημα της ανάκτησης των κινήσεων των αντικειμένων που είναι σχετικά με τον παρατηρητή από την οπτική ροή. Πρόσφατες έρευνες παρέχουν μια σαφή εξήγηση αυτής της διαδικασίας. Με την επιλογή ενός ακατάλληλου συστήματος συντεταγμένων, οι μαθηματικές πράξεις μπορούν να δυσκολέψουν αρκετά και σε ορισμένες περιπτώσεις μπορούν να ανακτηθούν επιπλέον πληροφορίες για το σχήμα ενός αντικειμένου. Σε πολλές περιπτώσεις υποτίθεται ότι η οπτική ροή έχει προαποφασιστεί. Αν και μπορεί να έχει γίνει κάποια αναφορά σε τρόπους υπολογισμού οπτικής ροής από διαδοχικές εικόνες μιας σκηνής, συγκεκριμένα χαρακτηριστικά ενός τρόπου προσδιορισμού της ροής από την εικόνα δεν έχουν περιγραφεί. Σχετική εργασία έχει γίνει επίσης σε μια προσπάθεια διατύπωσης ενός μοντέλου για τις διαδικασίες ανίχνευσης κίνησης μικρής κλίμακας στην ανθρώπινη όραση. Οι εξισώσεις επαναλαμβανόμενων pixel των Netravali και Robbins που έχουν σχεδιαστεί για την κωδικοποίηση τηλεοπτικών σημάτων εμφανίζουν ομοιότητες
37 με τις επαναλαμβανόμενες εξισώσεις που αναπτύσσονται στην αντίστοιχη έρευνα. Η οπτική ροή δεν μπορεί να υπολογιστεί σε ένα σημείο μιας εικόνας ανεξάρτητα από τα γειτονικά σημεία χωρίς την εισαγωγή επιπρόσθετων συνθηκών, επειδή το πεδίο της ταχύτητας σε κάθε σημείο της εικόνας έχει δύο συστατικά ενώ η αλλαγή στη φωτεινότητα σε ένα σημείο της εικόνας λόγω κίνησης παράγει μόνο μία συνθήκη. Έστω για παράδειγμα ένα μοτίβο όπου η φωτεινότητα διαφέρει ως η λειτουργία της μίας συντεταγμένης της εικόνας αλλά όχι της άλλης. Η κίνηση του μοτίβου προς τη μία κατεύθυνση αλλάζει τη φωτεινότητα σε ένα συγκεκριμένο σημείο αλλά η κίνηση προς την άλλη κατεύθυνση δεν παράγει καμία αλλαγή. Επομένως τα στοιχεία της κίνησης στην τελευταία κατεύθυνση δεν μπορούν να προσδιοριστούν τοπικά. 2.4 Συσχέτιση με την κίνηση αντικειμένου Η σχέση ανάμεσα στην οπτική ροή σε επίπεδο εικόνας και στις ταχύτητες των αντικειμένων στον τρισδιάστατο χώρο δεν είναι απαραίτητα προφανής. Η έννοια της κίνησης είναι αντιληπτή για παράδειγμα όταν μία κινούμενη εικόνα προβάλλεται πάνω σε μία στατική οθόνη. Αντιθέτως, ένα κινούμενο αντικείμενο μπορεί να δώσει αφορμή για ένα σταθερό μοτίβο φωτεινότητας. Για παράδειγμα, έστω μία ομοιόμορφη σφαίρα που προκαλεί τη δημιουργία σκιών επειδή τα στοιχεία πάνω στην επιφάνεια της είναι προσανατολισμένα προς πολλές και διαφορετικές κατευθύνσεις. Καθώς περιστρέφεται, η οπτική
38 ροή είναι μηδενική σε όλα τα σημεία της εικόνας, καθώς το φαινόμενο της δημιουργίας των σκιών δεν κινείται μαζί με την επιφάνεια. Επιπλέον, οι κατοπτρικές αντανακλάσεις κινούνται με ένα χαρακτηριστικό ταχύτητας της πλασματικής εικόνας και όχι της επιφάνειας στην οποία το φως αντανακλάται. Για λόγους συνέπειας, θεωρείται ένας απλός χωρόχρονος όπου η εμφανής ταχύτητα των μοτίβων φωτεινότητας μπορεί άμεσα να αναγνωριστεί με την κίνηση των επιφανειών. Οι περιορισμοί του προβλήματος Για την αποφυγή διακυμάνσεων στη φωτεινότητα λόγω της δημιουργίας σκιών θεωρείται αρχικά ότι η επιφάνεια που απεικονίζεται είναι επίπεδη. Ακόμη θεωρείται ότι ο συναφής φωτισμός είναι ομοιόμορφος σε όλη την επιφάνεια. Η φωτεινότητα σε ένα σημείο της εικόνας είναι έτσι ανάλογη με το συντελεστή ανάκλασης της επιφάνειας στο αντίστοιχο σημείο στο αντικείμενο. Θεωρείται επιπλέον ότι ο συντελεστής ανάκλασης διαφοροποιείται ελαφρά και δεν παρουσιάζει χωρικές ασυνέχειες. Η τελευταία συνθήκη εξασφαλίζει ότι η φωτεινότητα της εικόνας είναι παραγωγίσιμο μέγεθος. Εξαιρούνται καταστάσεις όπου τα αντικείμενα εμποδίζουν μερικώς το ένα το άλλο, επειδή οι ασυνέχειες στο συντελεστή ανάκλασης εντοπίζονται στα όρια μεταξύ των αντικειμένων. Στην περιγραφή της απλής κατάστασης, η κίνηση των μοτίβων φωτεινότητας στη εικόνα καθορίζεται άμεσα από τις κινήσεις των αντίστοιχων σημείων στην επιφάνεια του αντικειμένου. Με γνώση της οπτικής ροής, ο υπολογισμός των ταχυτήτων των σημείων του αντικειμένου είναι πρόβλημα απλής γεωμετρίας.
39 2.5 Υψηλή ανάλυση με χρήση οπτικής ροής Κύριο συστατικό των αλγορίθμων πολύ υψηλής ανάλυσης είναι η ευθυγράμμιση της εικόνας. Οι περισσότεροι αλγόριθμοι πολύ υψηλής ανάλυσης έχουν σαν δεδομένο ότι οι συνήθεις μέθοδοι ευθυγράμμισης εικόνας μπορούν να παρέχουν αρκετά ακριβή ευθυγράμμιση για τη δημιουργία εικόνων πολύ υψηλής ανάλυσης. Όμως, έλειπε μία συστηματική μελέτη για τις απαιτήσεις της ακρίβειας που χρησιμοποιείται για την ευθυγράμμιση πολλών εικόνων και για τις επιπτώσεις της στους αλγορίθμους πολύ υψηλής ανάλυσης. Επιπλέον, σε πολλούς αλγόριθμους, τα πολλαπλά πλαίσια βίντεο και κάποια συγκεκριμένα πεδία ενδιαφέροντος σχετίζονται με παραμετρικούς μετασχηματισμούς. Ακόμα δεν είναι σαφές πώς οι αλγόριθμοι υψηλής ανάλυσης αποδίδουν στα πλαίσια ευθυγράμμισης σε μεθόδους που βασίζονται σε παραμετρική ή τοπική οπτική ροή. Θα επιχειρήσουμε να μελετήσουμε την επίδραση της ευθυγράμμισης της εικόνας και κάποιων μεμονωμένων λαθών στους αλγορίθμους πολύ υψηλής ανάλυσης. Μελετώνται επίσης οι απαιτήσεις στη συνέπεια της οπτικής ροής σε πολλαπλές εικόνες και η πιθανότητα τα λάθη που προέρχονται από τυπικούς αλγορίθμους ροής να καταστήσουν την πολύ υψηλή ανάλυση αδύνατη [23]. Η πλειοψηφία των αλγορίθμων πολύ υψηλής ανάλυσης τυποποιούν το πρόβλημα σε ένα πρόβλημα ανασυγκρότησης σήματος από πολλαπλά δείγματα. Αυτοί οι αλγόριθμοι βασίζονται σε απλά θεωρήματα που αποδεικνύουν ότι με δεδομένα ομοιόμορφα ή μη ομοιόμορφα δείγματα, τα σήματα μπορούν να ανασυγκροτηθούν. Η πολύ υψηλή ανάλυση μπορεί να
40 μην είναι εφικτή σε μεμονωμένες εικόνες που έχουν τραβηχτεί πάνω σε διακριτά πλέγματα, αφού μπορεί να μην έχουν δειγματοληφθεί επαρκώς όλα τα κομμάτια κάποιας σκηνής από μία μεμονωμένη εικόνα. Πολλαπλές εικόνες που έχουν τραβηχτεί χρησιμοποιώντας κινήσεις αισθητήρα ή αντικειμένων, παρέχουν επαρκή δείγματα για πολύ υψηλή ανάλυση οποιουδήποτε δοθέντος πλαισίου. Παρόλα αυτά, η διασφάλιση της ακρίβειας τοποθεσιών-δειγμάτων από πολλαπλές εικόνες απαιτεί επαρκή ευθυγράμμιση ανάμεσα σε πολλαπλές εικόνες που μπορεί να συσχετίζονται μέσω αυθαίρετα πολύπλοκων μοντέλων κίνησης. Στους πιο πολλούς αλγορίθμους πολύ υψηλής ανάλυσης είναι δεδομένο ότι οι συνήθεις μέθοδοι ευθυγράμμισης εικόνας μπορούν να παρέχουν αρκετά ακριβή ευθυγράμμιση για τη δημιουργία εικόνων πολύ υψηλής ανάλυσης. Σε πολλούς αλγόριθμους, τα πολλαπλά πλαίσια βίντεο και κάποια συγκεκριμένα πεδία ενδιαφέροντος σχετίζονται με παραμετρικούς μετασχηματισμούς. Επίσης, όταν τα πολλαπλά πλαίσια βίντεο δεν μπορούν να ευθυγραμμιστούν από τα ευρέως διαδεδομένα παραμετρικά μοντέλα, πρέπει να χρησιμοποιηθούν για ευθυγράμμιση τοπικά μοντέλα όπως η οπτική ροή. Θα παρουσιάσουμε αρχικά μια ανάλυση σχετικά με τον τρόπο που η οπτική ροή επηρεάζει τους αλγορίθμους πολύ υψηλής ανάλυσης. Συγκεκριμένα, υιοθετείται ένα γενικό μοντέλο κίνησης που αποτελείται από ένα ευρέως διαδεδομένο παραμετρικό μοντέλο και από τοπική ροή. Προκειμένου να κατανοήσουμε την επίδραση ενός σφάλματος ροής στην πολύ υψηλή ανάλυση, εισάγεται ένα μοντέλο υποβάθμισης εικόνας που ενσωματώνει ρητά το σφάλμα εικόνας και κίνησης. Αυτό το γεωμετρικό σφάλμα μετατρέπεται σε θόρυβο εικόνας. Αν δοθεί έμφαση στον υπολογισμό ροής με βάση την κλίση, διακρίνουμε ένα ενδιαφέρον φαινόμενο, ότι μεγάλα και μικρά σφάλματα στην κίνηση
41 συνδέονται μικρές και μεγάλες αντίστοιχα κλίσεις στις εικόνες. Από αυτό συνάγεται ότι ένα σφάλμα στρέβλωσης στην εικόνα δεν είναι τόσο καταστροφικό όσο ένα σφάλμα ροής και επομένως μια τέτοια διαδικασία στρέβλωσης εικόνας μπορεί να συμπεριφέρεται ομαλά και ως εκ τούτου η πολύ υψηλή ανάλυση που βασίζεται στη ροή μπορεί να είναι εφικτή. Προκειμένου να αναλύσουμε το θέμα της ευθυγράμμισης πειραματιζόμαστε με νέους αλγορίθμους ροής. Αν και αποδεικνύεται ότι με τη διαδικασία πολύ υψηλής ανάλυσης σχετίζεται άμεσα όχι τόσο η ροή αλλά η στρέβλωση της εικόνας, η ροή είναι ιδιαίτερα σημαντική στην επανασυγκρότηση των συστατικών υψηλής συχνότητας του σήματος. Οι αλγόριθμοι που δοκιμάζουμε διευθετούν θέματα συνέπειας και ακρίβειας της ροής. Η συνέπεια ροής ορίζει ότι η ροή από το πλαίσιο Α προς το πλαίσιο Β πρέπει να είναι συνεπής με τη ροή αντίθετης κατεύθυνσης, δηλαδή από το πλαίσιο Β στο πλαίσιο Α. Η ακρίβεια ροής υπολογίζει το απόλυτο σφάλμα ροής. Οι νέοι αλγόριθμοι εκμεταλλεύονται την ευθυγράμμιση πολλαπλών εικόνων σε αντίθεση με τους τυπικούς αλγορίθμους ροής που εστιάζουν στην ευθυγράμμιση εικόνας κατά ζεύγη. Υπολογίζοντας όλες τις ροές ταυτόχρονα, προτείνεται μια μέθοδος που είναι παρόμοια με την ρύθμιση δέσμεων που χρησιμοποιείται στην εισαγωγή παραμέτρων. Η εκτίμηση της συνεπούς αλλά και της δεσμευμένης ροής περιλαμβάνει την συνέπεια και την ακρίβεια της ροής.
42 2.6 Κατηγορίες μεθόδων υψηλής ανάλυσης Υπάρχουν δύο κύριες κατηγορίες μεθόδων υψηλής ανάλυσης : οι μέθοδοι που βασίζονται στην επανασυγκρότηση και οι μέθοδοι που βασίζονται στην εκμάθηση. Οι θεωρητικές αρχές για τις μεθόδους επανασυγκρότησης στην ουσία είναι μη ομοιόμορφα θεωρήματα δειγματοληψίας ενώ αντίστοιχα οι μέθοδοι που βασίζονται στην εκμάθηση εμπεριέχουν παραγωγικά μοντέλα που μαθαίνουν από τα δείγματα. Ο στόχος της πρώτης κατηγορίας μεθόδων είναι η επανασυγκρότηση του αρχικού σήματος ενώ της δεύτερης είναι η δημιουργία ενός σήματος που βασίζεται σε παραγωγικά μοντέλα. Σε αντίθεση με τις μεθόδους επανασυγκρότησης, οι μέθοδοι υψηλής ανάλυσης που βασίζονται στην εκμάθηση υποθέτουν ότι τα ζευγάρια χαμηλής και υψηλής ανάλυσης είναι διαθέσιμα. Οι περισσότεροι από τους αλγόριθμους υψηλής ανάλυσης ανήκουν στο παράδειγμα επανασυγκρότησης σήματος. Σε αυτήν την κατηγορία ανήκουν μέθοδοι που βασίζονται στη συχνότητα, μέθοδοι Baysian, BP, POCS, μέθοδοι που βασίζονται σε μη ομοιόμορφη δειγματοληψία και υβριδικές μέθοδοι. Αυτές οι μέθοδοι προέρχονται από θεωρήματα δειγματοληψίας, σύμφωνα με τα οποία η ιδανική επανασυγκρότηση μπορεί να επιτευχθεί εφόσον υπάρχουν επαρκή υποδείγματα. Η ευθυγράμμιση εικόνας συνήθως χρησιμοποιείται για την εξασφάλιση της διαθεσιμότητας των δειγμάτων. Είναι σημαντικό να ξέρουμε αν το πλήθος των δειγμάτων είναι αρκετό, αφού γενικά οι συνθήκες στην εικόνα αλλάζουν από σημείο σε σημείο. Υπάρχουν τεχνικές που μπορούν να χρησιμοποιηθούν για το χειρισμό αυτού του θέματος όπως κάποιες ρυθμιστικές τεχνικές. Η διαδικασία επανασυγκρότησης είναι σχετικά εύκολη με την κατάλληλη ακρίβεια στην ευθυγράμμιση.
43 Η διαδικασία υψηλής ανάλυσης απαιτεί μεγάλο βαθμό ακριβείας ο οποίος ίσως δεν είναι προσιτός σε γενικά μοντέλα κίνησης. Αυτό συμβαίνει γιατί το σύστημα δεν είναι προκαθορισμένο όπως στην περίπτωση των παραμετρικών μοντέλων. Ένας άλλος παράγοντας που συμβάλλει σε αυτή τη δυσκολία είναι ότι η κίνηση συνήθως εκτιμάται από εικόνες χαμηλής ανάλυσης και υψηλού θορύβου και παρεμβάλλεται σε εικόνες υψηλότερης ανάλυσης. Στην ιδανική περίπτωση η ακριβής εκτίμηση κίνησης πρέπει να γίνεται έχοντας βάση τις εικόνες υψηλής ανάλυσης. Ο περιορισμός των μοντέλων κίνησης σε παραμετρικά μοντέλα έχει σαν αποτέλεσμα και τη μείωση των δυνατοτήτων της τελικής εφαρμογής. Οπότε τέτοιοι περιορισμοί πρέπει να εξαλειφθούν αλλιώς θα υπήρχε το πρόβλημα του χωρισμού κινούμενων αντικειμένων και του υπολογισμού των παραμετρικών μοντέλων κίνησης για τα αντικείμενα.
44 Κ Ε Φ Α Λ Α Ι Ο 3 ΕΦΑΡΜΟΓΗ ΒΑΣΙΚΗΣ ΜΕΘΟΔΟΥ ΟΠΤΙΚΗΣ ΡΟΗΣ 3.1 Μέθοδος Lucas-Kanade Η μέθοδος Lucas-Kanade είναι μία από τις κυριότερες μεθόδους εφαρμογής της οπτικής ροής και στη συγκεκριμένη περίπτωση η εκτέλεση γίνεται με χρήση πυραμίδων, όπως περιγράφεται παρακάτω.
45 3.2 Ορισμός του προβλήματος Έστω ότι I και J είναι δύο εικόνες τύπου grayscale. Οι ποσότητες I(x) = I(x, y) και J(x) = J(x, y) αποτελούν την grayscale τιμή των δύο εικόνων στο σημείο x = [x y] Τ, όπου x και y είναι οι συντεταγμένες του pixel ενός σημείου x στην εικόνα. Πρακτικά, οι εικόνες I και J είναι διακριτές συναρτήσεις ή πίνακες και το διάνυσμα συντεταγμένων του pixel στην πάνω αριστερή γωνία είναι [n x 1 n y 1] T. Έστω ένα σημείο u = [u x u y ] T της πρώτης εικόνας I. Στόχος είναι να βρεθεί το σημείο v = u + d = [u x + d x u y + d y ] T στη δεύτερη εικόνα J ώστε οι ποσότητες I(u) και J(v) να είναι παρόμοιες. Το διάνυσμα d = [d x d y ] T αποτελεί την ταχύτητα της εικόνας στο σημείο x δηλαδή την οπτική ροή στο x. Είναι απαραίτητο να οριστεί εδώ η έννοια της ομοιότητας στο δισδιάστατο επίπεδο. Έστω δύο ακέραιοι ω x και ω y. Ορίζουμε την ταχύτητα της εικόνας d ως το διάνυσμα που ελαχιστοποιεί τη συνάρτηση ε όπως φαίνεται παρακάτω : ux x ε(d) = ε(d x, d y ) = x ux x uy y y uy y ( I( x, y) J ( x dx, y dy)) 2 (1) Με βάση αυτόν τον ορισμό, η συνάρτηση ομοιότητας υπολογίζεται σε μια περιοχή της εικόνας, μεγέθους (2ω x + 1) x (2ω y + 1) που καλείται πλαίσιο ολοκλήρωσης. Τυπικές τιμές για τα ω x και ω y είναι 2, 3, 4, 5, 6, 7 pixel.
46 3.3 Περιγραφή του αλγορίθμου Δύο βασικά συστατικά του αλγορίθμου είναι η ακρίβεια και η ισχύς του. Η ακρίβεια συσχετίζεται με την τοπική ακρίβεια που χρησιμοποιείται κατά την ανίχνευση. Χρησιμοποιείται γι αυτό το λόγο ένα πλαίσιο ολοκλήρωσης ώστε να μην χάνονται σημαντικές λεπτομέρειες της εικόνας. Αυτό είναι ιδιαίτερα σημαντικό σε περιοχές της εικόνας όπου δύο σημεία κινούνται με πολύ διαφορετικές ταχύτητες. Η ισχύς του αλγορίθμου συσχετίζεται με την ευαισθησία της ανίχνευσης απέναντι σε αλλαγές φωτεινότητας και έντασης της κίνησης της εικόνας. Πρακτικά, σε περιπτώσεις μεγάλης έντασης της κίνησης της εικόνας, χρησιμοποιείται μεγάλο πλαίσιο ολοκλήρωσης. Σύμφωνα με την εξίσωση (1), ισχύει d x ω x και d y ω y. Η επαναλαμβανόμενη εκτέλεση της μεθόδου Lucas- Kanade με χρήση πυραμίδων επιτυγχάνει επαρκή τοπική ανίχνευση με μεγάλη ακρίβεια. 3.4 Παρουσίαση των αποτελεσμάτων του αλγορίθμου Χρησιμοποιούνται δύο διαδοχικές χρονικά εικόνες, η 3.1 (α) και η 3.1 (β), όπως φαίνεται παρακάτω :
47 (α) (β) Σχήμα 3.1 (α), (β) : Η απεικόνιση ενός αυτοκινήτου σε δύο διαδοχικές χρονικές στιγμές
48 Η οπτική ροή φαίνεται στα παρακάτω διαγράμματα 3.2 (γ) και (δ) : (γ)
49 (δ) Σχήμα 3.2 (γ), (δ) : Η αντίστοιχη οπτική ροή Στα σχήματα 3.2 (γ) και (δ) παρουσιάζεται η κίνηση της εικόνας (δηλαδή η οπτική ροή) σε οριζόντια και κάθετη κατεύθυνση. Οι μεταβολές που υφίσταται η αρχική εικόνα, όπως για παράδειγμα στη φωτεινότητα, γίνονται πιο σαφείς με τις ακόλουθες εικόνες 3.3(ε), (στ), (ζ) :
50 (ε) (στ)
51 (ζ) Εικόνα 3.2 (ε), (στ). (ζ) : Οι μεταβολές της φωτεινότητας στην αρχική εικόνα 3.5 Αναλυτική περιγραφή της διαδικασίας χρήσης πυραμίδων Ακολουθεί ο ορισμός της αναπαράστασης μια γενικής εικόνας μεγέθους n x x n y. Έστω ότι I 0 = I είναι το μηδενικό επίπεδο της εικόνας, η οποία θεωρείται ότι είναι υψηλής ανάλυσης. Το πλάτος και το ύψος της εικόνας σε αυτό το επίπεδο ορίζονται ως n 0 x = n x, n 0 y = n y.η αναπαράσταση των πυραμίδων δημιουργείται σταδιακά με ένα επαναληπτικό μοτίβο : υπολογισμός του I 1 από το I 0, του I 2 από το I 1 κτλ. Έστω ότι L = 1, 2,.. είναι το γενικό επίπεδο της πυραμίδας και έστω το I L-1 αποτελεί την εικόνα στο επίπεδο L-1. Τα n x L-1 και n y L-1 αποτελούν το πλάτος και το ύψος του I L-1. Η εικόνα I L-1 τότε ορίζεται ως ακολούθως :
52 I L (x,y) = 4 1 I L-1 (2x, 2y) + 1 (I L-1 (2x - 1, 2y) + I L-1 (2x + 1, 2y) + I L-1 (2x, 2y - 1) + I L-1 (2x, 2y + 1)) + 8 1 (I L-1 (2x - 1, 2y -1) + I L-1 (2x + 1, 2y + 1) + I L-1 (2x - 1, 2y + 1) + 16 + I L-1 (2x +1, 2y + 1)). (2) Για συμβολικούς λόγους, ορίζουμε ως τιμές της εικόνας σε σημεία που είναι ένα pixel γύρω από την εικόνα I L-1 : Για 0 x n x L-1 1 και 0 y n y L-1 1 : I L-1 (-1, y) = I L-1 (0, y) I L-1 (x, -1) = I L-1 (x, 0) I L-1 (n x L-1, y) = I L-1 (n x L-1-1, y) I L-1 (x, n y L-1 ) = I L-1 (x, n y L-1-1) I L-1 (n x L-1, n y L-1 ) = I L-1 (n x L-1-1, n y L-1-1)
53 Τότε η εξίσωση (2) ορίζεται μόνο για τιμές των x και y τέτοιες ώστε : 0 2x n x L-1 1 και 0 2y n y L-1 1, επομένως το πλάτος n x L και το ύψος n y L του I L είναι οι μεγαλύτεροι ακέραιοι που ικανοποιούν τις εξής 2 συνθήκες : n x L n x L-1 + 1 (3) 2 n y L n y L-1 + 1 (4) 2 Οι εξισώσεις (3) και (4) χρησιμοποιούνται για να δημιουργήσουν με ένα επαναληπτικό μοτίβο τις αναπαραστάσεις των εικόνων I και J με τη χρήση πυραμίδων : { I L } L=0,..,Lm και { J L } L=0,..,Lm. Η τιμή του L m είναι το ύψος της πυραμίδας και πρακτικά οι τιμές του είναι 2, 3, 4. Για εικόνες τυπικού μεγέθους, συνήθως δεν υπάρχει λόγος για μετάβαση πάνω από το επίπεδο 4. Για παράδειγμα, για μια εικόνα μεγέθους 640*480, οι εικόνες I 1, I 2, I 3 και I 4 έχουν μέγεθος αντίστοιχα 320*240, 160*120, 80*60, 40*30. Η κεντρική ιδέα γύρω από την αναπαράσταση των εικόνων με πυραμίδες, είναι η δυνατότητα διαχείρισης εικόνων μεγάλου μεγέθους (συνήθως μεγαλύτερου από το πλαίσιο ολοκλήρωσης). Γι αυτό το λόγο το ύψος της πυραμίδας πρέπει να επιλέγεται ανάλογα με τη μέγιστη αναμενόμενη οπτική ροή της εικόνας.
54 Κ Ε Φ Α Λ Α Ι Ο 4 ΜΕΘΟΔΟΙ ΑΝΑΓΝΩΡΙΣΗΣ ΑΥΤΟΚΙΝΗΤΟΥ 4.1 Τα σημαντικά βήματα στην αναγνώριση αυτοκινήτου Οι αλγόριθμοι που στοχεύουν στην αναγνώριση αυτοκινήτων χρειάζεται να επεξεργαστούν τις αντίστοιχες εικόνες σε πραγματικό χρόνο ή τουλάχιστον σε χρόνο που πλησιάζει τον πραγματικό. Η αναζήτηση σε όλη την εικόνα για τον εντοπισμό των τοποθεσιών πιθανών αυτοκινήτων δεν είναι ρεαλιστική. Η πλειοψηφία των μεθόδων αυτών συνήθως ακολουθεί δύο βασικά βήματα. Το πρώτο είναι η δημιουργία μιας υπόθεσης (Hypothesis Generation) σχετικά με τις τοποθεσίες των πιθανών αυτοκινήτων και το δεύτερο είναι η
55 εξακρίβωση της υπόθεσης (Hypothesis Verification), ώστε να επιβεβαιωθεί μετά από δοκιμές η πιθανή παρουσία αυτοκινήτων σε μία εικόνα. Στις επόμενες εικόνες 4.1 (α), (β), (γ) διασαφηνίζεται η σημασία των δύο αυτών βημάτων. Εικόνα 4.1 (α) : Η αρχική εικόνα που περιέχει αυτοκίνητο προς εντοπισμό HYPOTHESIS GENERATION
56 Εικόνα 4.1 (β) : Η αρχική εικόνα, στην οποία όμως έχουν δημιουργηθεί κάποιες υποθέσεις HYPOTHESIS VERIFICATION Εικόνα 4.1 (γ) : Η τελική εικόνα όπου έχει γίνει εξακρίβωση της υπόθεσης
57 Είναι φανερό από τις προηγούμενες εικόνες, ότι σε μια αρχική εικόνα (α) που περιέχει αυτοκίνητα, γίνονται κάποιες υποθέσεις σχετικά με την τοποθεσία των πιθανών αυτοκινήτων και καταλήγουμε έτσι στην εικόνα (β). Κατόπιν, με εξακρίβωση της υπόθεσης μας προκύπτει η εικόνα (γ) όπου έχει πιστοποιηθεί η επιτυχημένη ή μη ανίχνευση αυτοκινήτων. 4.2 Δημιουργία υπόθεσης (Hypothesis Generation) Ο σκοπός του βήματος της δημιουργίας μιας υπόθεσης είναι η ταχεία εύρεση τοποθεσιών πιθανών αυτοκινήτων σε μια εικόνα ώστε να είναι δυνατή περαιτέρω εξερεύνηση. Οι προσεγγίσεις που σχετίζονται με τη δημιουργία υπόθεσης (Hypothesis Generation) ταξινομούνται στις τρεις ακόλουθες κατηγορίες. 4.2.1 Μέθοδοι που στηρίζονται στην υπάρχουσα γνώση Οι συγκεκριμένες μέθοδοι εμπεριέχουν μια προϋπάρχουσα γνώση ώστε να ορίσουν τις τοποθεσίες των αυτοκινήτων σε μια συγκεκριμένη εικόνα. Κάποιες από τις πιο αντιπροσωπευτικές προσεγγίσεις χρησιμοποιούν πληροφορία για τη συμμετρία, το χρώμα, τις σκιές, τα γεωμετρικά χαρακτηριστικά (π.χ. γωνίες, οριζόντιες/κάθετες ακμές), την υφή και τα φώτα των αυτοκινήτων.
58 4.2.1.1 Συμμετρία Οι εικόνες αυτοκινήτων που παρατηρούνται από μπροστινή ή από κατοπτρική όψη είναι γενικά συμμετρικές σε οριζόντιες και κάθετες κατευθύνσεις. Αυτή η παρατήρηση χρησιμοποιήθηκε ευρέως σε αρκετές έρευνες που αφορούν στην αναγνώριση αυτοκινήτων. Ένα σημαντικό θέμα που προκύπτει στην περίπτωση του υπολογισμού της συμμετρίας από την ένταση είναι η παρουσία ομογενών περιοχών. Σε αυτές τις περιοχές, η εκτίμηση της συμμετρίας είναι ευαίσθητη στο θόρυβο. Για παράδειγμα, σε διάφορες εργασίες όπως η [5], πληροφορίες σχετικά με ακμές περιλήφθηκαν στην εκτίμηση της συμμετρίας ώστε να φιλτραριστούν οι ομογενείς περιοχές, όπως φαίνεται στο σχήμα 4.2 (α), (β). (α)
59 (β) Σχήμα 4.2 (α) : Συμμετρία εικόνας φωτεινοτήτων (grey level) (β) : Συνολική συμμετρία Γενικά, όταν αντικείμενο μελέτης είναι η τοπική συμμετρία, δύο θέματα έχουν τη μεγαλύτερη σημασία. Αρχικά, είναι απαραίτητη η ένδειξη σχετικά με την τοποθεσία του αυτοκίνητου. Επιπλέον, ακόμα και όταν χρησιμοποιούνται χάρτες φωτεινότητας ή ακμών, η συμμετρία ως κριτήριο παραμένει επιρρεπής σε λανθασμένες ανιχνεύσεις όπως είναι τα συμμετρικά αντικείμενα του υποβάθρου. 4.2.1.2 Χρώμα Οι πληροφορίες σχετικά με το χρώμα είναι πολύ χρήσιμες στην αναγνώριση αυτοκινήτων. Πολλά πρωτότυπα συστήματα διερεύνησαν τη χρήση της χρωματικής πληροφορίας σαν κλειδί για την εύρεση λωρίδων, αντικειμένων και αυτοκινήτων στο υπόβαθρο μιας εικόνας. Παρόμοιες μέθοδοι θα μπορούσαν να εφαρμοστούν και για τη δημιουργία μιας υπόθεσης, καθώς οι
60 περιοχές που δεν αναγνωρίζονται σαν περιοχές δρόμου, είναι πιθανές θέσεις τοποθεσίας αυτοκινήτων. Η έλλειψη όμως αναπτυγμένης χρωματικής πληροφορίας στη δημιουργία υποθέσεων οφείλεται κυρίως στις δυσκολίες της αναγνώρισης αντικειμένων που βασίζονται στην ύπαρξη χρώματος ή σε μεθόδους αναγνώρισης που λαμβάνουν χώρα σε υπαίθριες συνθήκες. Το χρώμα του κάθε αντικειμένου εξαρτάται από το φωτισμό, τις ιδιότητες ανάκλασης του αντικειμένου, τα γεωμετρικά χαρακτηριστικά και τις παραμέτρους αισθητήρων. Συνεπώς, το εμφανές χρώμα κάθε αντικειμένου μπορεί να είναι αρκετά διαφορετικό σε διάφορες χρονικές στιγμές της ημέρας κάτω από ποικίλες καιρικές συνθήκες. 4.2.1.3 Σκιά Η χρήση της πληροφορίας σχετικά με τις σκιές σε μια εικόνα έχει χρησιμοποιηθεί σε πολλές περιπτώσεις. Ερευνώντας τη φωτεινότητα της εικόνας, βρέθηκε ότι η περιοχή κάτω από ένα αυτοκίνητο είναι ευδιάκριτα πιο σκοτεινή από κάθε άλλη περιοχή σε έναν ασφαλτοστρωμένο δρόμο. Σε μια πρώτη προσπάθεια διερεύνησης αυτής της παρατήρησης δεν υπήρχε συστηματικός τρόπος για τη σωστή επιλογή κατάλληλων τιμών κατωφλίου. Η φωτεινότητα στην περιοχή της σκιάς σε μια εικόνα εξαρτάται από το φωτισμό της εικόνας, ο οποίος επηρεάζεται από τις εκάστοτε καιρικές συνθήκες. Γι αυτό το λόγο τα κατώφλια δεν είναι ποτέ προκαθορισμένα. Για
61 παράδειγμα, σε διάφορες εργασίες έχει γίνει η υπόθεση ότι επικρατεί κανονική κατανομή στο φωτισμό του χώρου που δεν καταλαμβάνεται από αυτοκίνητα. Ο μέσος όρος και η διασπορά της κατανομής αυτής έχουν υπολογιστεί με βάση τη μέγιστη πιθανότητα. Πρέπει επιπλέον να σημειωθεί ότι η υπόθεση σχετικά με την κατανομή στα εικονοστοιχεία μπορεί να μην ευσταθεί. Για παράδειγμα, βροχερές καιρικές συνθήκες ή άσχημες συνθήκες φωτισμού μπορούν να αλλάξουν το χρώμα των εικονοστοιχείων του δρόμου σε πιο σκοτεινό, αναγκάζοντας έτσι αυτή τη μέθοδο να αδυνατεί να πετύχει το στόχο της. 4.2.1.4 Γωνίες Ο Bertozzi, βασισμένος στο γεγονός ότι τα οχήματα γενικά έχουν ένα ορθογώνιο σχήμα, πρότεινε μια μέθοδο που βασίζεται στις γωνίες ώστε να κάνει υποθέσεις σχετικά με τις τοποθεσίες των αυτοκινήτων [4]. Χρησιμοποίησε τέσσερα πρότυπα, όπου κάθε ένα από τα οποία αντιστοιχεί σε μία από τις τέσσερις γωνίες, ώστε να ανιχνεύσει όλες τις γωνίες σε μια εικόνα. Ακολούθως, έκανε χρήση μια μεθόδου αναζήτησης ώστε να βρει τις γωνίες που ταιριάζουν μεταξύ τους, γιατί σε μια εικόνα για παράδειγμα, η πάνω αριστερά γωνία πρέπει είναι ταιριαστή με την κάτω δεξιά γωνία.
62 4.2.1.5 Οριζόντιες/Κάθετες ακμές Οι διαφορετικές όψεις ενός αυτοκινήτου, ειδικά η μπροστινή και η πίσω όψη, περιέχουν πολλές οριζόντιες και κάθετες δομές όπως το πίσω τζάμι και οι προφυλακτήρες. Η χρήση των οριζοντίων και κάθετων ακμών έχει αποδειχθεί ένα πολύ σημαντικό στοιχείο στην υπόθεση σχετικά με την παρουσία αυτοκινήτων. Ο Matthews έχει εφαρμόσει αρχικά έναν ανιχνευτή οριζοντίων ακμών στην εικόνα και ύστερα οι αποκρίσεις σε κάθε στήλη ξεχωριστά προστέθηκαν ώστε να δημιουργηθούν συγκεκριμένα μοτίβα και λειάνθηκαν με χρήση τριγωνικών φίλτρων [14]. Με τον καθορισμό των τοπικών μεγίστων και ελαχίστων ισχυρίστηκε ότι η οριζόντια θέση ενός οχήματος στο δρόμο μπορούσε να βρεθεί με σχετικά εύκολο τρόπο. Μια μέθοδος που βασίζεται επίσης στις σκιές χρησιμοποιήθηκε ώστε να βρεθεί το κάτω μέρος του αυτοκινήτου [22]. Άλλες εργασίες επικεντρώθηκαν στην εξαγωγή της γενικής δομής μια σκηνής με κυκλοφορία αυτοκινήτων με την κατάτμηση της εικόνας σε τέσσερις περιοχές : δάπεδο, ουρανός και δύο πλευρικές περιοχές, που προκύπτουν από κατάλληλη ομαδοποίηση των ακμών [15]. Η χρήση οριζόντιων και κάθετων ακμών μπορεί να είναι πολύ αποδοτική. Παρόλα αυτά ένα σημαντικό θέμα που προκύπτει είναι ο βαθμός στον οποίο η επιλογή των διαφόρων παραμέτρων επηρεάζει την αντοχή του συστήματος. Αυτές οι παράμετροι επηρεάζουν τις τιμές κατωφλίου για τους ανιχνευτές ακμών, τις τιμές κατωφλίου για την εύρεση των πιο σημαντικών κάθετων και οριζοντίων ακμών και τις τιμές κατωφλίου για την επιλογή των μέγιστων τιμών (τιμών κορυφής) στις εικόνες.