Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

Σχετικά έγγραφα
Στόχος της εργασίας και ιδιαιτερότητες του προβλήματος

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Ανάκλαση Είδωλα σε κοίλα και κυρτά σφαιρικά κάτοπτρα. Αντώνης Πουλιάσης Φυσικός M.Sc. 12 ο ΓΥΜΝΑΣΙΟ ΠΕΡΙΣΤΕΡΙΟΥ

ΣΤΕΡΕΟΣΚΟΠΙΚΕΣ ΕΙΚΟΝΕΣ

Αναγνώριση Προτύπων Ι

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Στην ουσία η Φωτογραµµετρία: Χ, Υ, Ζ σηµείων Γραµµικό σχέδιο Εικονιστικό προϊόν

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

7.1 ΜΕΤΡΗΣΗ ΤΗΣ ΕΣΤΙΑΚΗΣ ΑΠΟΣΤΑΣΗΣ ΦΑΚΩΝ

ΕΦΑΡΜΟΓΕΣ ΦΩΤΟΓΡΑΜΜΕΤΡΙΑΣ. Βασίλης Γιαννακόπουλος, Δρ. Δασολόγος

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΦΩΤΟΓΡΑΜΜΕΤΡΙΑ ΙΙ ΕΠΑΝΑΛΗΨΗ. Ανδρέας Γεωργόπουλος Καθηγητής Ε.Μ.Π.

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ψηφιοποίηση και Ψηφιακή Επεξεργασία Εικόνας

Στο προοπτικό ανάγλυφο για τη ευθεία του ορίζοντα χρησιμοποιούμε ένα δεύτερο κατακόρυφο επίπεδο Π 1

ΕΡΓΑΣΤΗΡΙΟ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΓΡΑΦΙΚΩΝ

Συστήματα συντεταγμένων

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί

ΧΡΗΣΗ ΝΕΩΝ ΟΠΤΙΚΩΝ ΚΑΙ ΨΗΦΙΑΚΩΝ ΜΕΘΟΔΩΝ ΓΙΑ ΤΗΝ ΑΝΤΙΓΡΑΦΗ ΤΡΙΣΔΙΑΣΤΑΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΕΦΑΝΙΑ ΧΛΟΥΒΕΡΑΚΗ 2014

ΑΣΚΗΣΗ 3 ΒΕΛΤΙΩΣΗ ΕΙΚΟΝΑΣ ΜΕΛΕΤΗ ΙΣΤΟΓΡΑΜΜΑΤΟΣ. ( ) 1, αν Ι(i,j)=k hk ( ), διαφορετικά

ΓΕΩΜΕΤΡΙΚΗ ΟΠΤΙΚΗ. Ανάκλαση. Κάτοπτρα. Διάθλαση. Ολική ανάκλαση. Φαινόμενη ανύψωση αντικειμένου. Μετατόπιση ακτίνας. Πρίσματα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Σημαντικές χρονολογίες στην εξέλιξη της Υπολογιστικής Τομογραφίας

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 2 η : Δισδιάστατα Σήματα & Συστήματα Μέρος 2

Φωτογραμμετρία ΙΙ Προσανατολισμοί φωτογραμμετρικώνεικόνων (Υπενθύμιση βασικών εννοιών- Αλγοριθμική προσέγγιση)

7 ο Εργαστήριο Θόρυβος 2Δ, Μετακίνηση, Περιστροφή

Επεξεργασία Χαρτογραφικής Εικόνας

Οδηγίες σχεδίασης στο περιβάλλον Blender

Τεχνητή Νοημοσύνη ΙΙ. Ενότητα 2: Αντίληψη. Μουστάκας Κωνσταντίνος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών

ΑΣΚΗΣΗ 2 ΒΑΣΙΚΑ ΚΑΙ ΣΥΝΘΕΤΑ ΣΗΜΑΤΑ ΔΥΟ ΔΙΑΣΤΑΣΕΩΝ - ΕΙΚΟΝΑΣ

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

Εισαγωγή στις Ηλεκτρικές Μετρήσεις

Η Γεωμετρία της Αντιστροφής Η βασική θεωρία. Αντιστροφή

Απαραίτητες αφού 3Δ αντικείμενα απεικονίζονται σε 2Δ συσκευές. Θέση παρατηρητή. 3Δ Μετασχ/σμός Παρατήρησης

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΘΕΩΡΙΑ Β ΓΥΜΝΑΣΙΟΥ. Μια παράσταση που περιέχει πράξεις με μεταβλητές (γράμματα) και αριθμούς καλείται αλγεβρική, όπως για παράδειγμα η : 2x+3y-8

DIP_01 Εισαγωγή στην ψηφιακή εικόνα. ΤΕΙ Κρήτης

5/3/2010. A. Στη δηµιουργία του στερεοσκοπικού µοντέλουέ B. Στη συσχέτισή του µε το γεωδαιτικό σύστηµα

Εισαγωγή στην επιστήμη των υπολογιστών

Βασική Κατηγοριοποίηση Αισθητήρων Γιώργος Βασιλείου

ΑΠΟΤΥΠΩΣΕΙΣ - ΧΑΡΑΞΕΙΣ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΣΦΑΛΜΑΤΩΝ

Μεθοδολογία Έλλειψης

ΑΣΚΗΣΕΙΣ ΥΠΟΛΟΓΙΣΜΟΥ ΜΑΖΑΣ ΘΕΣΗΣ ΚΕΝΤΡΟΥ ΜΑΖΑΣ ΡΟΠΗΣ ΑΔΡΑΝΕΙΑΣ ΣΩΜΑΤΩΝ

ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

Αριθμητική Ανάλυση και Εφαρμογές

ΕΠΙΤΡΟΠΗ ΔΙΑΓΩΝΙΣΜΩΝ 33 η Ελληνική Μαθηματική Ολυμπιάδα "Ο Αρχιμήδης" 27 Φεβρουαρίου 2016

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Η διαδικασία Παραγωγής Συνθετικής Εικόνας (Rendering)

ΤΡΙΣΔΙΑΣΤΑΤΗ ΑΝΑΚΑΤΑΣΚΕΥΗ ΧΩΡΟΥ ΑΠΟ ΕΝΑ ΜΙΚΡΟ ΑΡΙΘΜΟ ΦΩΤΟΓΡΑΦΙΩΝ

Θέση και Προσανατολισμός

Στ Τάξη. Α/Α Μαθηματικό περιεχόμενο Δείκτες Επιτυχίας Ώρες Διδ. 1 ENOTHTA 1

ΚΑΤΑΓΡΑΦΗ ΤΟΥ ΙΧΝΟΥΣ ΤΗΣ ΟΠΤΙΚΗΣ ΑΝΑΖΗΤΗΣΗΣ: ΜΙΑ ΜΕΘΟΔΟΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΕΠΙΛΕΚΤΙΚΟΤΗΤΑΣ ΤΗΣ ΟΠΗΣ ΩΣ ΒΑΣΙΚΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟΥ ΤΟΥ ΣΧΗΜΑΤΟΣ

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Εφαρμοσμένη Οπτική. Γεωμετρική Οπτική

5ο Μάθημα Αλγόριθμοι Σχεδίασης Βασικών Σχημάτων

ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΤΗΣ ΟΠΤΙΚΗΣ

Στα 1849 ο Sir David Brewster περιγράφει τη μακροσκοπική μηχανή λήψης και παράγονται οι πρώτες στερεοσκοπικές φωτογραφίες (εικ. 5,6).

ΕΠΑΝΑΛΗΨΗ ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΕΥΘΥΝΣΗΣ Β ΛΥΚΕΙΟΥ ( α μέρος )

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

Εικόνες και γραφικά. Τεχνολογία Πολυµέσων 05-1

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

ΡΟΜΠΟΤΙΚΗ ΟΡΑΣΗ. Όταν ένα ρομπότ κινείται σε άγνωστο χώρο ή σε χώρο που μπορεί να αλλάξει η διάταξή του τότε εμφανίζεται η ανάγκη της όρασης μηχανής.

9. Τοπογραφική σχεδίαση

Μεθοδολογία Υπερβολής

Μελέτη συστήματος φακών με τη Μέθοδο του Newton

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου

2.0 ΒΑΣΙΚΕΣ ΓΝΩΣΕΙΣ-ΟΡΟΛΟΓΙΕΣ

Τεχνολογία Πολυμέσων. Ενότητα # 5: Εικόνα Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

2 Ο ΚΕΦΑΛΑΙΟ Ενότητα 5.

ΘΕΩΡΗΤΙΚΗ ΑΣΚΗΣΗ. Διάθλαση μέσω πρίσματος - Φασματοσκοπικά χαρακτηριστικά πρίσματος.

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ

ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ ΛΥΜΕΝΕΣ & ΑΛΥΤΕΣ ΑΣΚΗΣΕΙΣ. Επιμέλεια: Γ. Π. Βαξεβάνης (Γ. Π. Β.

Απεικόνιση Υφής. Μέρος Α Υφή σε Πολύγωνα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα

Φωτογραφική μηχανή - Αρχή λειτουργίας.

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

1. Ιδιότητες φακών. 1 Λεπτοί φακοί. 2 Απριλίου Βασικές έννοιες

2 Η ΠΡΟΟΔΟΣ. Ενδεικτικές λύσεις κάποιων προβλημάτων. Τα νούμερα στις ασκήσεις είναι ΤΥΧΑΙΑ και ΟΧΙ αυτά της εξέταση

Από το Γυμνάσιο στο Λύκειο Δειγματικός χώρος Ενδεχόμενα Εύρεση δειγματικού χώρου... 46

Prost S: Οδοποιΐα Σιδηροδρομική Υδραυλικά έργα

Γραφικά με Η/Υ Αλγόριθμοι σχεδίασης βασικών 22D D σχημάτων (ευθεία

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 3. Δισδιάστατα σήματα και συστήματα #2

Ενδεικτική Οργάνωση Ενοτήτων. E Τάξη. Α/Α Μαθηματικό περιεχόμενο Δείκτες Επιτυχίας Ώρες Διδ. 1 ENOTHTA 1

Μαθηματική Εισαγωγή Συναρτήσεις

ΔΕΙΓΜΑ ΠΡΙΝ ΤΙΣ ΔΙΟΡΘΩΣΕΙΣ - ΕΚΔΟΣΕΙΣ ΚΡΙΤΙΚΗ

Μετασχηματισμοί Μοντελοποίησης (modeling transformations)

Αριθμητική Ανάλυση και Εφαρμογές

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Θεωρία μετασχηματισμών

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΕΡΓΑΣΤΗΡΙΟ Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών Μιχαήλ Γκιννή του Θεολόγου Αριθμός Μητρώου : 3927 Θέμα «Τρισδιάστατη ανακατασκευή χώρου από ψηφιακές φωτογραφίες» Επιβλέπων Ευάγγελος Δερματάς Αριθμός Διπλωματικής Εργασίας: Πάτρα, Φεβρουάριος 2013

ΠΙΣΤΟΠΟΙΗΣΗ Πιστοποιείται ότι η Διπλωματική Εργασία με θέμα «Τρισδιάστατη ανακατασκευή χώρου από ψηφιακές φωτογραφίες» Του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Μιχαήλ Γκιννή του Θεολόγου Αριθμός Μητρώου : 3927 Παρουσιάστηκε δημόσια και εξετάστηκε στο Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών στις.../../ Ο Επιβλέπων Ο Διευθυντής του Τομέα Ευάγγελος Δερματάς Αναπληρωτής Καθηγητής Νικόλαος Φακωτάκης Καθηγητής Αριθμός Διπλωματικής Εργασίας:

Θέμα: «Τρισδιάστατη ανακατασκευή χώρου από ψηφιακές φωτογραφίες» Φοιτητής: Γκιννής Μιχαήλ Επιβλέπων: Δερματάς Ευάγγελος Περίληψη: Σκοπός της παρούσας διπλωματικής εργασίας είναι η παρουσίαση των σταδίων της πιο γενικής από τις παθητικές μεθόδους τρισδιάστατης ανακατασκευής στατικών σκηνών, της δομής από κίνηση (structure from motion). Εκτός της χρήσης στερεοσκοπικών ζευγών εικόνων για την δημιουργία πυκνών χαρτών βάθους, παρουσιάζεται και η περίπτωση χρήσης παράλληλων εικόνων, που αποτελούν την καλύτερη λύση σε περιπτώσεις που η κύρια συνιστώσα της κίνησης της κάμερας είναι παράλληλη στον οπτικό της άξονα. Επίσης, παρουσιάζεται μια πρωτότυπη γεωμετρική μέθοδος διόρθωσης των εικόνων τόσο για την δημιουργία στερεοσκοπικών ζευγών, όσο και για την περίπτωση των παράλληλων εικόνων. Σε κάθε στάδιο της όλης διαδικασίας, περιγράφονται οι μέθοδοι εκείνες που θεωρούνται οι αντιπροσωπευτικότερες της κατηγορίας τους.

ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1:Εισαγωγή 3 1.1.Πρόλογος 3 1.2.Παθητικές μέθοδοι τρισδιάστατης ανακατασκευής 3 1.3. Μέθοδοι δομής από κίνηση 5 1.4.Βασικά χαρακτηριστικά των ψηφιακών εικόνων 6 1.4.1.Γενικά 6 1.4.2.Καταγραφή εικόνας στις ψηφιακές μηχανές 7 1.5.Οργάνωση του κειμένου 9 11 Κεφάλαιο 2:Το μοντέλο της κάμερας 2.1.Μοντέλο ιδανικής κάμερας 11 2.2. Εσωτερικές και εξωτερικές παράμετροι της κάμερας 13 2.2.1 Ενδογενείς παράμετροι της κάμερας 14 2.2.2 Εξωγενείς παράμετροι της κάμερας 16 2.3. Μη γραμμικές παραμορφώσεις - Παρεκκλίσεις από το γραμμικό μοντέλο 17 2.4. Κανονικοποίηση της εικόνας 19 22 Κεφάλαιο 3: Εντοπισμός και αντιστοίχιση των σημείων ενδιαφέροντος στις εικόνες. 3.1.Εισαγωγή 22 3.2. Κριτήρια επιλογής αλγόριθμου εντοπισμού γωνιών 23 3.3.Περιγραφή του αλγορίθμου εύρεσης γωνιών του Harris 23 3.4.Αντιστοίχιση των γωνιών 26 28 Κεφάλαιο 4:Επιπολική γεωμετρία 4.1. Εισαγωγή 28 4.2. Ο επιπολικός περιορισμός 28 4.3. Αναλυτική μορφή του επιπολικού περιορισμού 29 4.4. Δυο βασικές διατάξεις εικόνων 32 4.5. Εύρεση των πινάκων R και t από τον essential πίνακα 37 4.6. Εύρεση του Fundamental πίνακα 40 4.6.1. Μέθοδος ελαχίστων τετραγώνων 41 4.6.2. Σθεναρές μέθοδοι 43 4.6.2.1. M - εκτιμητές 43 4.6.2.1. Μέθοδοι RANSAC 44 48 Κεφάλαιο 5: Διόρθωση των εικόνων 5.1.Εισαγωγή 48 5.2. Διόρθωση των εικόνων για την δημιουργία ζεύγους παράλληλων εικόνων 49 5.3.Αλλαγή των συντεταγμένων προβολής κατά την περιστροφή των εικόνων 50 5.3.1.Περιστροφή ως προς άξονα Υ 51 5.3.2. Περιστροφή ως προς άξονα Χ 53 5.3.3. Περιστροφή ως προς τον άξονα Ζ 55 5.4.Υπολογισμός της αλλαγής των συντεταγμένων προβολής κατά την μεταβολή της 56 θέσης των εικόνων στο χώρο 5.5. Επιβεβαίωση 60 5.6.Αριθμητική επιβεβαίωση 64 5.7. Διόρθωση των εικόνων για την δημιουργία στερεοσκοπικού ζεύγους 66 5.7.1.Δημιουργία του στερεοσκοπικού ζεύγους 66 5.7.2. Σύγκριση με μια συγγενή μέθοδο στερεοσκοπικής διόρθωσης εικόνων 69 1

Κεφάλαιο 6:Πυκνή Τρισδιάστατη Ανακατασκευή 6.1.Εισαγωγή 71 6.2.Περιορισμοί 72 6.3.Προβλήματα αντιστοίχισης 73 6.4.Γενική περιγραφή των αλγόριθμων πυκνής τρισδιάστατης ανακατασκευής 75 6.5.Δυναμικός Προγραμματισμός 76 6.6.Αλγόριθμοι μέγιστης ροής ελάχιστης τομής 78 Βιβλιογραφία 83 Παράρτημα υλοποίησης 86 2

Κεφάλαιο 1 Εισαγωγή 1.1.Πρόλογος Οι ραγδαίες εξελίξεις στην τεχνολογία των υπολογιστικών συστημάτων τα τελευταία χρόνια (ραγδαία αύξηση της επεξεργαστικής ισχύος και της χωρητικότητας των αποθηκευτικών μέσων), έχουν προσφέρει την δυνατότητα ικανοποίησης απαιτητικών εφαρμογών, όπως αυτές που ανήκουν στο πεδίου του computer vision. Στις εφαρμογές αυτού του είδους περιλαμβάνονται η αυτόνομη πλοήγηση οχημάτων, η επιτέλεση έργων από ρομπότ, ο έλεγχος ποιότητας προϊόντων στη βιομηχανία (μηχανική όραση), η επαυξημένη πραγματικότητα (augmented reality) (με εφαρμογή τόσο σε ιατρικά όσο και σε τεχνολογικά θέματα), η οπτικοποίηση τρισδιάστατων ιατρικών δεδομένων (εξαγωγή πληροφορίας μέσα από ακτινογραφίες, αγγειογραφίες, αξονικές τομογραφίες, εικόνες υπέρηχου, κτλ), η εικονική πραγματικότητα, η δημιουργία οπτικών εφέ στον κινηματογράφο και τα γραφικά των υπολογιστών. Σε όλες τις εφαρμογές αυτές απαιτείται η γνώση της δομής του τρισδιάστατου χώρου και η δυνατότητα αναπαράστασης της. Η έρευνα, τις τελευταίες δυο δεκαετίες, έχει προσφέρει ένα πλήθος μεθόδων που ποικίλουν ανάλογα με την εφαρμογή και τα διαθέσιμα μέσα. Ο βασικός διαχωρισμός των μεθόδων αυτών είναι ανάμεσα στις ενεργητικές και τις παθητικές μεθόδους τρισδιάστατης ανακατασκευής. Οι ενεργητικές μέθοδοι χρησιμοποιούν ειδικές συσκευές (όπως για παράδειγμα laser, πομπούς υπερήχων, φωτεινές πηγές, πηγές στοιχειωδών σωματιδίων) οι οποίες αποστέλλουν μια δέσμη ενέργειας προς τα αντικείμενα-στόχους, και στη συνέχεια, αφού καταγραφεί η επιστρεφόμενη δέσμη ενέργειας, χρησιμοποιούν αλγόριθμους επεξεργασίας σήματος για να εκτιμήσουν την απόσταση κάθε σημείου των αντικειμένων. Οι παθητικές μέθοδοι απεναντίας, χρησιμοποιούν απλά μέσα (συνήθως μια κάμερα), και επεξεργάζονται την πληροφορία της απεικόνισης του μέσου καταγραφής, προσπαθώντας να αποκτήσουν συμπεράσματα για την τρισδιάστατη δομή της σκηνής, αξιοποιώντας τις αρχές της οπτικής αντίληψης του ανθρώπου για το τρισδιάστατο περιβάλλον του. Στην παρούσα εργασία θα παρουσιαστεί μια υποκατηγορία των παθητικών μεθόδων, η μέθοδος της δομής από κίνηση (structure from motion), καθώς παρουσιάζει την μεγαλύτερη γενικότητα και τα καλυτέρα αποτελέσματα ως προς την απλότητα των μέσων που χρησιμοποιούνται. 1.2.Παθητικές μέθοδοι τρισδιάστατης ανακατασκευής Όπως αναφέρθηκε παραπάνω, οι παθητικές μέθοδοι στηρίζονται στην μοντελοποίηση του ανθρώπινου μηχανισμού αντίληψης του τρισδιάστατου χώρου. Στον άνθρωπο αύτη η διαδικασία της οπτικής αντίληψης γίνεται σχεδόν αυτόματα, όμως αξιοποιούνται σ αυτήν συνθετικά ένα πλήθος στοιχείων για την εκτίμηση της δομής του περιβάλλοντος χώρου. Τα σημαντικότερα από τα στοιχεία αυτά είναι η προοπτική της σκηνής (δηλαδή το γεγονός ότι όλα τα σημεία της σκηνής είναι διατεταγμένα έτσι ώστε να ανήκουν σε νοητές ευθείες που συγκλίνουν σε ένα σημείο το οποίο είναι 3

η κατά βάθος προέκταση στο άπειρο του σημείου της οπτικής πηγής το σημείο αυτό ανήκει στην γραμμή του ορίζοντα), οι αποκρύψεις αντικειμένων από άλλα (αυτό είναι μια άμεση πληροφορία της διάταξης των αντικειμένων της σκηνής κατά βάθος), οι σκιάσεις των αντικειμένων (μέσω της σκίασης των αντικειμένων - δηλαδή της σχέσεως φωτισμένων και σκιασμένων μερών στα αντικείμενα - δίνεται μέρος της πληροφορίας για την υφή και το σχήμα τους), οι ακμές των αντικειμένων (δηλαδή το περίγραμμα του αντικειμένου ως σαφής διαχωρισμός του από το περιβάλλον) και η πρωθύστερη γνώση του περιβάλλοντος (στα αντικείμενα που είναι ήδη γνωστά στον άνθρωπο, αρκεί μια μόνο όψη τους, ώστε ο άνθρωπος να είναι σε θέση να γνωρίζει την τρισδιάστατη δομή τους). Η αίσθηση του βάθους (δηλαδή της κάθετης απόστασης των αντικειμένων από την οπτική πηγή) είναι άμεσα σχετιζόμενη με την προοπτική, η οποία οφείλεται στο σύστημα αποτύπωσης οπτικών ερεθισμάτων στον άνθρωπο. Η τελική εικόνα την οποία αξιοποιεί ο άνθρωπος για να αποκτήσει αντίληψη της δομής του χώρου και του βάθους των αντικειμένων, αποτελεί σύνθεση δυο εικόνων (μία για το κάθε μάτι), των οποίων οι οπτικοί άξονες είναι παράλληλοι. Όπως θα αποδειχθεί στην συνέχεια, το βάθος κάθε σημείου της σκηνής είναι ανάλογο της οριζόντιας απόστασης των προβολών του σημείου αυτού στις δυο εικόνες. Αυτό είναι και το βασικό στοιχείο που αξιοποιείται στην μέθοδο που θα παρουσιαστεί στην παρούσα εργασία. Ανάλογα με τα στοιχεία των εικόνων που χρησιμοποιούνται για την εξαγωγή της πληροφορίας βάθους, οι κύριες παθητικές μέθοδοι εύρεσης απόστασης (passive ranging) μπορούν να καταταχθούν στις εξής κατηγορίες: Στερεοσκοπική όραση (Stereo Vision) Δομή από Κίνηση (Structure from Motion) Σχήμα από Σκίαση (Shape from Shading) Βάθος από Εστίαση (Range from Focus) Βάθος από Μη-Εστίαση (Depth from Defocus) Σχήμα από Υφή (Shape from Texture) Στη συνέχεια θα περιγράφουν οι βασικές αρχές των μεθόδων αυτών. Στην στερεοσκοπική όραση, το στοιχείο το οποίο χρησιμοποιείται για την εύρεση του βάθους είναι η διαφορά της οριζόντιας θέσης των προβόλων των ίδιων σημείων του χώρου σε ένα ζεύγος εικόνων που έχει τα ίδια χαρακτηριστικά με τις εικόνες που καταγράφουν τα ανθρώπινα μάτια.έτσι, το μέσο καταγραφής που χρησιμοποιείται είναι ένα ζεύγος καμερών με καθορισμένη σχετική θέση, όπου η δεύτερη κάμερα έχει μετακινηθεί σε σχέση με την πρώτη μόνο κατά μια πλευρική μετατόπιση. Δηλαδή, γίνεται προσομοίωση της διάταξης στην οποία είναι τοποθετημένα μεταξύ τους τα μάτια στον άνθρωπο. Στην τεχνική της Δομής από Κίνηση, χρησιμοποιούνται και πάλι δυο τουλάχιστον κάμερες ή μια κάμερα που αλλάζει θέσεις ως προς την σκηνή. Εδώ, η σχετική θέση στην διάταξη των δυο καμερών ή η κίνηση της μιας κάμερας, μπορεί να είναι αυθαίρετη. Δηλαδή, η τεχνική αυτή είναι μια γενίκευση της στερεοσκοπικής όρασης, για τυχαίες σχετικές θέσεις των καμερών. Και στην περίπτωση αυτή, το στοιχείο που χρησιμοποιείται για την εξαγωγή της πληροφορίας βάθους είναι η μεταβολή στις θέσεις στις οποίες προβάλλονται κάποια χαρακτηριστικά ενδιαφέροντος της σκηνής. Ως χαρακτηριστικά ενδιαφέροντος μπορούν να χρησιμοποιηθούν μεμονωμένα σημεία, ευθείες, καμπύλες, επίπεδα επί της σκηνής ή και τυχαίες επιφάνειες. Στην παρούσα εργασία, παρουσιάζεται η μέθοδος της Δομής από Κίνηση, με την χρήση μεμονωμένων σημείων (γωνιών) της εικόνας. Στην τεχνική Σχήματος από Σκίαση, χρησιμοποιούνται οι μεταβολές της σκιάς στην εικόνα, οι οποίες οφείλονται στην τρισδιάστατη δομή των επιφανειών της σκηνής. Γίνεται η θεώρηση ότι οι επιφάνειες που εμφανίζονται σε μια εικόνα προκαλούν μόνο διάχυση του φωτός, άρα η 4

φωτεινότητα (ή ισοδύναμα, η σκίαση) που παρατηρείται στις εικόνες, εξαρτάται μόνο από της πηγές φωτισμού και από τη γωνία που σχηματίζουν οι επιφάνειες εν σχέσει με το σημείο παρατήρησης (δηλαδή τον φακό της κάμερας). Οι μέθοδοι της κατηγορίας αυτής, αποσκοπούν στη εύρεση της τοπικής κλίσης των επιφανειών, και κατ επέκταση, μέσω ολοκλήρωσης, στην εύρεση της συνάρτησης βάθους για όλη την εικόνα. Πλεονέκτημα των μεθόδων αυτών είναι ότι απαιτούν μόνο μια εικόνα για να λειτουργήσουν (θεωρητικά), όμως είναι ιδιαίτερα ασταθείς, απαιτούν a priori γνώση των χαρακτηριστικών της σκηνής, και δεν παρέχουν ικανοποιητικά αποτελέσματα, παρά μόνο σε ελεγχόμενες εργαστηριακές συνθήκες. Η τεχνικές Βάθους από Εστίαση και Βάθους από Μη-Εστίαση χρησιμοποιούν την πληροφορία που υπάρχει σε εικόνες οι οποίες έχουν ληφθεί με πραγματικούς (και επομένως μη ιδανικούς) φακούς, και οφείλεται στο περιορισμένο βάθος πεδίου των φακών. Ενώ οι υπόλοιπες τεχνικές υποθέτουν ιδανικά μοντέλα για τα οπτικά της κάμερας, εδώ η χρήσιμη πληροφορία παρέχεται από το γεγονός ότι σε πραγματικές κάμερες, δεν είναι όλα τα σημεία μιας εικόνας εστιασμένα. Τα σημεία τα οποία είναι μακριά από την απόσταση εστίασης παρουσιάζονται θολά (blurred), και μάλιστα αποδεικνύεται ότι ο βαθμός θόλωσης εξαρτάται από την απόσταση. Έτσι, με την χρήση φωτογραφιών που έχουν εστιαστεί σε διαφορετικές αποστάσεις, είναι δυνατόν να εξαχθούν πληροφορίες για την απόσταση των σημείων της εικόνας. Οι τεχνικές αυτού του τύπου παρέχουν το πλεονέκτημα ότι δεν απαιτούν την αναζήτηση αντιστοιχιών στις εικόνες, που είναι το πιο δύσκολο και αβέβαιο (ως προς την ορθότητα των αποτελεσμάτων) τμήμα των αλγόριθμων στερεοσκοπικής όρασης και Δομής από Κίνηση. Από τις παραπάνω τεχνικές, η πιο ισχυρή ως προς την ποιότητα των αποτελεσμάτων είναι η στερεοσκοπική όραση, γεγονός όμως που οφείλεται κατά κύριο λόγο στην χρήση της ειδικής διάταξης των δυο καμερών (στερεοσκοπικό ζεύγος). Η γενική επέκταση της τεχνικής, η Δομή από Κίνηση, είναι η ισχυρότερη από τις υπόλοιπες, παρέχοντας επίσης το πλεονέκτημα ότι δεν απαιτείται κάποια ειδική διάταξη, παρά μόνο μια ελεύθερα κινούμενη κάμερα. 1.3. Μέθοδοι δομής από κίνηση Όπως αναφέρθηκε παραπάνω, στην παρούσα εργασία θα περιγραφεί η κατηγορία των μεθόδων δομής από κίνηση. Σ αυτό το σημείο πρέπει να αναφερθεί ότι όλη η εργασία αφορά τρισδιάστατη ανακατασκευή στατικών σκηνές. Συνολικά, τα βήματα που απαιτούνται για την τρισδιάστατη ανακατασκευή είναι τα εξής: 1. Βιντεοσκόπηση ή φωτογράφηση της σκηνής από διαφορετικές θέσεις 2. Στην περίπτωση βιντεοσκόπησης, γίνεται προεπεξεργασία της καταγεγραμμένης τηλεοπτικής ακολουθίας (επιλογή πλαισίων, αφαίρεση θορύβου, ομαλοποίηση φωτισμού). 3. Επεξεργασία των επιλεγμένων πλαισίων για την εξαγωγή των πληροφοριών της τρισδιάστατης δομής της σκηνής. 4. Χρήση εργαλείων μοντελοποίησης για την δημιουργία του τρισδιάστατου μοντέλου της σκηνής. Από τα παραπάνω βήματα, η ανάπτυξη στην παρούσα εργασία γίνεται πάνω στο βήμα 3, που είναι και το κεντρικό κομμάτι της όλης διαδικασίας. Πρέπει να σημειωθεί ότι στην παρούσα εργασία δεν θα αναφερθεί μόνο η περίπτωση του στερεοσκοπικού ζεύγους, αλλά και η περίπτωση που η κάμερα έχει ως κύρια συνιστώσα της κίνησης της τη διεύθυνση του οπτικού άξονα, οπότε για να γίνει η τρισδιάστατη ανακατασκευή, πρέπει να 5

δημιουργηθεί ένα παράλληλο ζεύγος εικόνων, όπως θα αναπτυχθεί στην συνέχεια. Τα βήματα που ακολουθούνται στο τρίτο από τα παραπάνω στάδια, είναι τα εξής: 1. Ανίχνευση χαρακτηριστικών γνωρισμάτων (feature detection and matching). Σε αυτό το στάδιο, ειδικοί αλγόριθμοι εντοπίζουν σε κάθε εικόνα της ακολουθίας κάποια χαρακτηριστικά γνωρίσματα, τα οποία στη συνέχεια αντιστοιχίζονται μεταξύ των διαφορετικών εικόνων. 2. Αποκατάσταση δομής και κίνησης (Structure and motion recovery). Σε αυτό το στάδιο, ανακτώνται οι τρισδιάστατες συντεταγμένες των χαρακτηριστικών γνωρισμάτων και η σχετική θέση (κίνηση) μεταξύ των καμερών (δηλαδή η σχέση των θέσεων που έχουν οι κάμερες στις διαφορετικές λήψεις της σκηνής που επιλέγονται για την τρισδιάστατη ανακατασκευή), έτσι ώστε να γίνει διόρθωση των εικόνων της ακολουθίας, δηλαδή να μετασχηματιστούν σε ζεύγη εικόνων επιθυμητών διατάξεων, όπως το στερεοσκοπικό ζεύγος. 3. Δημιουργία πυκνού χάρτη βάθους (Dense Map). Σε αυτό το στάδιο αντιστοιχίζονται όλα τα σημεία των εικόνων και δημιουργείται ένας χάρτης της εικόνας της σκηνής, στον οποίο για κάθε σημείο της σκηνής υπάρχει μια συγκεκριμένη τιμή βάθους (δηλαδή απόστασης του απεικονιζόμενου σημείου από την πηγή λήψεως στη διεύθυνση του οπτικού άξονα), που είναι ανάλογη της διαφοράς θέσεως των αντιστοιχισμένων σημείων στις εικόνες της ακολουθίας. Στα κεφάλαια που ακολουθούν θα γίνει αναλυτική περιγραφή των παραπάνω σταδίων, και θα δωθούν και όλα τα στοιχεία της θεωρίας που αποτελούν το θεμέλιο της λειτουργίας των αλγορίθμων. 1.4.Βασικά χαρακτηριστικά των ψηφιακών εικόνων Στο σημείο αυτό θεωρείται χρήσιμη μια σύντομη παρουσίαση των βασικών χαρακτηριστικών των ψηφιακών εικόνων, εφόσον αυτές αποτελούν το υλικό προς επεξεργασία των σύγχρονων μεθόδων τρισδιάστατης ανακατασκευής. 1.4.1.Γενικά Η αναπαράσταση της ψηφιακής εικόνας αποτελείται από ένα δισδιάστατο πίνακα στοιχείων, που ονομάζονται εικονοστοιχεία (pixels). Τα εικονοστοιχεία είναι τα μικρότερα διακριτά στοιχεία που μπορούν να απεικονιστούν σε μια οθόνη και το καθένα περιέχει αριθμητικές τιμές που αντιστοιχούν σε χρώματα. Οι ψηφιακές εικόνες αποθηκεύονται σε μορφή αρχείων, είτε στη μνήμη ενός υπολογιστικού συστήματος, είτε σε αποθηκευτικά μέσα διαφόρων ειδών. Στην επεξεργασία εικόνας συναντώνται τόσο εικόνες με χρώμα, όσο και εικόνες έντασης φωτεινότητας (άσπρο μαύρο). Τα εικονοστοιχεία των εικόνων έντασης περιέχουν μία τιμή έντασης φωτεινότητας που αναπαριστάται με 256 επίπεδα (0 άσπρο έως 255 μαύρο), οπότε και απαιτούνται 8 bits για κάθε εικονοστοιχείο. Στις έγχρωμες εικόνες χρησιμοποιούνται 256 επίπεδα διαβάθμισης για το κόκκινο, 256 για το πράσινο και 256 για το μπλε χρώμα, και μπορούν να σχηματιστούν όλα τα πιθανά χρώματα μέσω γραμμικού συνδυασμού των διαβαθμίσεων των τριών βασικών χρωμάτων. 6

Έτσι, τα χρώματα που μπορούν να απεικονιστούν είναι 256 256 256 = 16777216 και απαιτούνται 24 bits για το κάθε εικονοστοιχείο. Η μαθηματική αναπαράσταση για τις εικόνες έντασης φωτεινότητας λαμβάνει την εικόνα ως μια συνάρτηση f δύο μεταβλητών x,y, που εκφράζουν τις συντεταγμένες του κάθε σημείου επί της εικόνας. Το πεδίο τιμών της συνάρτησης f είναι : 0 f(x,y) < +, και χαρακτηρίζεται α) από τύπο της φωτεινής πηγής και το ποσό της φωτεινότητας της πηγής, και β) από το ποσό της φωτεινότητας που απορροφάται και ανακλάται από τα αντικείμενα της φυσικής σκηνής. Αν οριστεί η συνάρτηση φωτεινότητας ως I(x,y), και η συνάρτηση ανάκλασης ως R(x,y), τότε η συνάρτηση της εικόνας δίνεται από το τύπο : f(x,y) = Ι(x,y) R(x,y) με 0 Ι(x,y) <+ και 0 R(x,y) 1 Η ένταση ενός σημείου (x,y) θεωρητικά λαμβάνει τιμές από 0 έως άπειρο, αλλά πρακτικά βρίσκεται σε ένα κλειστό διάστημα [L min, L max ] 1.4.2.Καταγραφή εικόνας στις ψηφιακές μηχανές Στις σημερινές ψηφιακές μηχανές, για την καταγραφή μιας φυσικής σκηνής, γίνεται χρήση ενός πίνακα αισθητήρων τύπου CCD με αριθμό που κυμαίνεται μεταξύ 10 3 και 10 4. Η διαδικασία της καταγραφής της φυσικής σκηνής με την χρήση πίνακα αισθητήρων φαίνεται στο Σχήμα 1. Το τρισδιάστατο αντικείμενο της φυσικής σκηνής ανακλά μέρος της ενέργειας που εκπέμπει η πηγή φωτισμού. Στο σύστημα λήψης, το ποσοστό ενέργειας που απορροφάται μετασχηματίζεται σε ηλεκτρική τάση με την χρήση του CCD πίνακα αισθητήρων και γίνεται κβαντοποίηση των τιμών της αναλογικής εικόνας που προκύπτει, για την μετατροπή της σε ψηφιακή. Σχήμα 1: Καταγραφή του αντικειμένου με χρήση πίνακα αισθητήρων 7

Με τον τρόπο που έχει οριστεί η μαθηματική αναπαράσταση της εικόνας, τόσο η έντασή της, όσο και οι συντεταγμένες των σημείων της, λαμβάνουν πραγματικές τιμές. Για την μετατροπή της σε διακριτή εικόνα, πρέπει να γίνει δειγματοληψία της εικόνας f ως προς το πλάτος και τις συντεταγμένες της. Η διαδικασία διακριτοποίησης των μερών της εικόνας σε συντεταγμένες ορισμένου μεγέθους εικονοστοιχείων ονομάζεται δειγματοληψία, ενώ η διαδικασία διακριτοποίησης του πλάτους της εικόνας f ονομάζεται κβαντοποίηση. Όπως φαίνεται στο παράδειγμα του Σχήματος 2, όπου απεικονίζονται τα πλάτη της συνάρτησης της εικόνας κατά μήκος μιας ευθείας ΑΒ, γίνεται διαχωρισμός του ευθύγραμμου τμήματος ΑΒ σε ίσα τμήματα και κρατούνται οι τιμές της συνάρτησης στα τμήματα αυτά, ώστε να προκύψει η συνάρτηση δειγματοληψίας (Σχήμα 2β). Οι τιμές της συνάρτησης στα σημεία δειγματοληψίας δεν είναι ακέραιες τιμές, οπότε διαιρείται το διάστημα του συνόλου τιμών της συνάρτησης σε ίσα διαστήματα (Σχήμα 2γ), και γίνεται κβαντισμός των διαβαθμίσεων του γκρι σε 8 επίπεδα. Η διακριτή τιμή που αντιστοιχίζεται σε κάθε δείγμα είναι το κοντινότερο επίπεδο κβαντισμού της διαβάθμισης του γκρι (Σχήμα 2δ). Στην περίπτωση που χρησιμοποιείται πίνακας CCD αισθητήρων, η δειγματοληψία γίνεται στα σημεία των κέντρων των αισθητήρων του πλέγματος. Στο Σχήμα 3 παρουσιάζεται η δειγματοληψία με τη χρήση πλέγματος αισθητήρων. Η ποιότητα της τελικής ψηφιακής εικόνας καθορίζεται από τον αριθμό των δειγμάτων και άρα από το πλήθος των αισθητήρων, αλλά και από το πλήθος των επιπέδων του γκρι (στις απεικονίσεις χωρίς χρώμα). (α) (β) (γ) (δ) Σχήμα 2 : Δειγματοληψία και κβαντοποίηση της συνεχούς εικόνας 8

Σχήμα 3 : Μετατροπή της συνεχούς εικόνας σε διακριτή Το αποτέλεσμα της δειγματοληψίας και κβάντισης της συνεχούς εικόνας είναι ένας πίνακας, όπου οι συντεταγμένες των σημείων είναι ακέραιες τιμές. Έτσι αν ο πίνακας έχει διαστάσεις MxN, η ψηφιακή εικόνα μπορεί να αναπαρασταθεί στην μορφή: f(x, y) = 1.5.Οργάνωση του κειμένου Στο κυρίως μέρος της εργασίας παρουσιάζεται αναλυτικά η διαδικασία της τρισδιάστατης ανακατασκευής με την μέθοδο της δομής από κίνηση. Στο δεύτερο κεφάλαιο παρουσιάζεται το ιδανικό μοντέλο της κάμερας που είναι κατάλληλο για την επίλυση του προβλήματος και αναλύεται ο τρόπος με τον οποίο οι παρεκκλίσεις από το ιδανικό μοντέλο μπορούν να αναιρεθούν με τον μετασχηματισμό της πραγματικής απεικόνισης στην απεικόνιση μιας ιδεατής κάμερας. Στο τρίτο κεφάλαιο παρουσιάζεται το επόμενο στάδιο επεξεργασίας των απεικονίσεων της σκηνής που είναι ο εντοπισμός και η αντιστοίχιση των χαρακτηριστικών τους γνωρισμάτων. Ως χαρακτηριστικά γνωρίσματα επιλέγονται μεμονωμένα σημεία και περιγράφεται ένας από τους αποδοτικότερους και ευρέως χρησιμοποιούμενους αλγορίθμους αυτής της κατηγορίας, ο Harris Corner Detector. Στο τέταρτο κεφάλαιο περιγράφονται οι βασικές αρχές της επιπολικής γεωμετρίας, καθώς και οι βασικές μέθοδοι εύρεσης της που ισοδυναμεί με την εύρεση της σχετικής θέσης μεταξύ των καμερών στις απεικονίσεις της υπό μελέτη σκηνής. Το πέμπτο κεφάλαιο περιέχει μια μέθοδο διόρθωσης των εικόνων, που δημιουργήθηκε για τις ανάγκες της παρούσας εργασίας και αφορά τόσο το 9

στεροσκοπικό ζεύγος εικόνων, όσο και ένα ζεύγος παραλλήλων εικόνων. Τέλος, στο έκτο κεφάλαιο παρουσιάζονται τα βασικά στοιχεία της εύρεσης του πυκνού χάρτη βάθους της σκηνής, καθώς και μια αναλυτικότερη περιγραφή των πιο αποδοτικών μεθόδων αυτής της κατηγορίας. 10

Κεφάλαιο 2 Το μοντέλο της κάμερας 2.1.Μοντέλο ιδανικής κάμερας Υπάρχουν διάφοροι τρόποι μοντελοποίησης μιας κάμερας ανάλογα με τις ιδιότητες που πρέπει να περιγραφούν, τον επιθυμητό βαθμό ακρίβειας και την εφαρμογή για την οποία προορίζεται το μοντέλο. Για την περίπτωση της τρισδιάστατης απεικόνισης χώρου, το κύριο σημείο ενδιαφέροντος είναι ο τρόπος απεικόνισης των σημείων του χώρου στην εικόνα. Ένα απλό, γραμμικό γεωμετρικό μοντέλο, είναι το μοντέλο της «κάμερας μικρής οπής» (pinhole camera model), το οποίο περιγράφει μια ιδανική κάμερα και εξυπηρετεί τις ανάγκες της παρούσας εργασίας. Το μοντέλο της ιδανικής κάμερας φαίνεται στο Σχήμα 1. Σχήμα 1 Κάθε σημείο του τρισδιάστατου χώρου που ανήκει στο πεδίο προβολής της κάμερας, προβάλλεται στο επίπεδο της εικόνας μέσω της οπτικής ακτίνας που συνδέει το σημείο αυτό και ένα σημείο από το οποίο διέρχεται ο οπτικός άξονας, έχει απόσταση f από το επίπεδο της εικόνας και ονομάζεται εστία (C στο σχήμα). Το διάστημα f ονομάζεται εστιακή απόσταση, ενώ ο οπτικός άξονας, στην ιδανική περίπτωση, είναι κάθετος στο επίπεδο της εικόνας και διέρχεται από το κέντρο του (c στο σχήμα). Το μοντέλο αυτό αποτελεί την εξιδανίκευση μιας πραγματικής κάμερας στην 11

οποία περιέχονται συστοιχίες φακών που εισάγουν και μη γραμμικές παραμορφώσεις, με αποτέλεσμα να μην είναι συνευθειακά τα σημεία M i,c,m i. Γι αυτόν τον λόγο, όπως θα αναπτυχθεί στο τέλος του κεφαλαίου, πρέπει να γίνει κανονικοποίηση των συντεταγμένων προβολής στο επίπεδο της εικόνας, έτσι ώστε αυτές να λαμβάνονται σαν να άνηκαν σε μια ιδεατή κάμερα όπως αυτή του Σχήματος 1. Θεωρώντας ως σύστημα αναφοράς στον χώρο αυτό που φαίνεται στο Σχήμα 2, με την αρχή των αξόνων να συμπίπτει με το σημείο της εστίας C, τον άξονα Ζ να συμπίπτει με τον οπτικό άξονα και τους άξονες Χ και Υ να είναι παράλληλοι κατ αντιστοιχία με τους άξονες u και v που αποτελούν αντίστοιχα τον κάθετο και τον οριζόντιο άξονα επί του επιπέδου της εικόνας προβολής, οι συντεταγμένες προβολής u m,v m ενός σημείου Μ του χώρου με συντεταγμένες Χ Μ,Υ Μ και Ζ Μ, στην εικόνα, δίνονται από τις σχέσεις: u m = -f Χ Μ / Ζ Μ και v m = -f Y Μ / Ζ Μ (2.1) Σχήμα 2 Οι συντεταγμένες προβολής u m,v m μετρώνται από το σημείο τομής του οπτικού άξονα με το επίπεδο της εικόνας που ονομάζεται principal point και, όπως αναφέρθηκε, ιδεατά είναι το κέντρο του επιπέδου. Επειδή οι σχέσεις (2.1) είναι μη γραμμικές, με αποτέλεσμα να καθίσταται δύσκολη η επίλυση των συστημάτων που προκύπτουν τόσο αριθμητικά, όσο και αναλυτικά, μετατρέπονται οι συντεταγμένες του σημείου του χώρου και οι συντεταγμένες του σημείου προβολής αυτού στην εικόνα σε προβολικές*. Με αυτήν την μετατροπή οι σχέσεις (2.1) παίρνουν την μορφή: = = (2.2) 12

όπου u m =, v m = /, Χ Μ = /, Y Μ =, Ζ Μ =. Όταν =0 το σημείο βρίσκεται επί της γραμμής στο άπειρο του επιπέδου της εικόνας, και αυτό συμβαίνει όταν το σημείο βρίσκεται επί του εστιακού επιπέδου, που είναι το επίπεδο στο οποίο ανήκει το σημείο της εστίας και είναι παράλληλο στο επίπεδο της εικόνας. Η σχέση (2.2) αποτελεί τον μετασχηματισμό της προβολής ενός σημείου του χώρου σε προβολικές συντεταγμένες σε ένα σημείο του επιπέδου, επίσης σε προβολικές συντεταγμένες, και γράφεται σε μορφή πινάκων: = P (2.3) Ο πίνακας Ρ ονομάζεται πίνακας προβολής και περιέχει όλες τις πληροφορίες που απαιτούνται για την εύρεση της προβολής στο επίπεδο της εικόνας οποιουδήποτε σημείου του χώρου. Πρέπει να αναφερθεί εδώ, ότι τα αρνητικά πρόσημα στις σχέσεις (2.1) αφορούν το γεγονός ότι στο μοντέλο που περιγράφεται, το είδωλο των αντικειμένων που απεικονίζονται προβάλλεται στην εικόνα αντεστραμμένο. Στην πράξη, εσωτερικά της κάμερας γίνεται μια δεύτερη αντιστροφή, έτσι ώστε το αποτέλεσμα που εμφανίζεται στην έξοδο να είναι η εικόνα στην σωστή της μορφή. Αυτή η αντιστροφή μπορεί να εισαχθεί στις σχέσεις προβολής με την θεώρηση ότι το σημείο της εστίας δεν βρίσκεται μπροστά από το επίπεδο της εικόνας, αλλά πίσω από αυτό. Έτσι, οι σχέσεις που λαμβάνονται έχουν θετικό πρόσημο, αντί για αρνητικό. 2.2. Εσωτερικές και εξωτερικές παράμετροι της κάμερας Στη μορφή του πίνακα προβολής Ρ της σχέσης (2.2), δεν περιλαμβάνονται οι περιορισμοί που υφίστανται στην πραγματικότητα. Συγκεκριμένα, έχει θεωρηθεί ότι όλες οι αποστάσεις μετρώνται στις ίδιες μονάδες, ότι η αρχή μέτρησης των συντεταγμένων στην εικόνας είναι το principal point και ότι το τρισορθογώνιο σύστημα συντεταγμένων που ορίζει η κάμερα συμπίπτει με το σύστημα αναφοράς του χώρου. Στην πράξη, η εικόνα της κάμερας αποτελείται από εικονοστοιχεία (pixels), τα οποία έχουν συγκεκριμένο σχήμα και διαστάσεις ανάλογα με την κάμερα, και οι θέσεις των σημείων επί του επιπέδου προβολής καθορίζονται σε συντεταγμένες pixel. Η αρχή της μέτρησης δεν είναι το principal point, αλλά η πάνω αριστερά γωνία της εικόνας. Η θέση του principal point πάνω στην εικόνα σε συντεταγμένες pixel αποτελεί ένα ιδιαίτερο χαρακτηριστικό κάθε κάμερας και πρέπει να προσδιοριστεί. Ακόμη, δεν είναι δυνατόν να ταυτίζεται πάντα το σύστημα αναφοράς του χώρου με αυτό της κάμερας, εφόσον στην πράξη πραγματοποιούνται μετρήσεις σε ακολουθίες εικόνων, οπότε πρέπει να υπάρχει ένα σύστημα αναφοράς ανεξάρτητο της θέσης της κάμερας. Οι παράμετροι που αφορούν τα χαρακτηριστικά της ίδιας της κάμερας ονομάζονται ενδογενείς παράμετροι, ενώ εκείνοι που αφορούν τα χαρακτηριστικά που αλλάζουν ανάλογα με την θέση λήψης της κάμερας ονομάζονται εξωγενείς παράμετροι. Στην συνέχεια, θα παρουσιαστεί η παραμετροποίηση αυτών των χαρακτηριστικών, καθώς και η διαμόρφωση του πίνακα προβολής όταν λαμβάνονται υπόψη. *Οι ευκλείδειες συντεταγμένες ενός σημείου x = [x 1, x 2, x 3,x 4,] Τ του τρισδιάστατου προβολικού χώρου, είναι: (x 1,/x 4,x 2 / x 4 /x 3 / x 4 ) με x 4 0, ενώ οι ευκλείδειες συντεταγμένες ενός σημείου x = [x 1, x 2, x 3 ] Τ του δισδιάστατου προβολικού χώρου, είναι: (x 1,/x 3,x 2 / x 3 ) με x 3 0. 13

2.2.1 Ενδογενείς παράμετροι της κάμερας Η ακριβής γνώση των ενδογενών παραμέτρων της κάμερας είναι απαραίτητη για την τρισδιάστατη ανακατασκευή ενός αντικειμένου, καθώς επιτρέπει την κανονικοποιήση των συντεταγμένων προβολής επί της εικόνας (που είναι η μόνη πληροφορία που διατίθεται για την τρισδιάστατη ανακατασκευή), απλοποιώντας έτσι σε μεγάλο βαθμό την περαιτέρω ανάλυση. Οι κανονικοποιημένες συντεταγμένες ανήκουν σε μια ιδεατή κάμερα, στην οποία η αρχή των αξόνων του επίπεδου της εικόνας συμπίπτει με το principal point και η εστιακή απόσταση ισούται με την μονάδα. Δηλαδή, ο πίνακας προβολής της είναι: P n = (2.4) Σκοπός είναι να βρεθεί μια σχέση που θα μετατρέπει τις κανονικοποιημένες συντεταγμένες ενός σημείου προβολής στην εικόνα στις πραγματικές συντεταγμένες του, έτσι ώστε με εφαρμογή του αντίστροφου μετασχηματισμού να μπορεί να ληφθεί η εικόνα που θα έδινε η κανονικοποιημένη κάμερα. Σχήμα 3 : Το σημείο του χώρου Μ λαμβάνεται σε συντεταγμένες του συστήματος αναφοράς (Χ,Υ,Ζ) με αρχή το σημείο της εστίας C. Το σημείο προβολής m λαμβάνεται σε συντεταγμένες pixel (u,v) που εκκινούν από το επάνω αριστερά τμήμα της εικόνας και λαμβάνουν μόνο θετικές τιμές. Το principal point έχει συντεταγμένες επί της εικόνας τις u 0 και v 0. 14

Θεωρώντας την ποσότητα δu ως την οριζόντια διάσταση των pixels, την ποσότητα δv ως την κάθετη διάσταση τους, u 0 την οριζόντια συντεταγμένη του principal point επί της εικόνας και v 0 την κάθετη συντεταγμένη του, ισχύει (Σχήμα 1) : u=u 0 + (f/ δu) (x/z) και v=v 0 + (f/ δv) (y/z) (2.5) όπου η ποσότητα f/ δu εκφράζει την εστιακή απόσταση μετρημένη σε οριζόντια pixels, η ποσότητα f/ δv εκφράζει την εστιακή απόσταση μετρημένη σε κατακόρυφα pixels, οι ποσότητες δu και δv μετρώνται σε m/pixel και το f μετριέται σε m. Στην σχέση (2.1), τα x/z και y/z εκφράζουν τις κανονικοποιημένες συντεταγμένες u n και v n (από την σχέση (2.1) με f=1), οπότε συμβολίζοντας τις ποσότητες f/ δu και f/ δv με α u και α v αντίστοιχα, η σχέση (2.5) γίνεται: Δηλαδή προκύπτει : u=u 0 + α u u n και v=v 0 + α v v n (2.6) u n = (u-u 0 )/ α u και v n = (v-v 0 )/ α v (2.7) Οι ποσότητες α u,α v, u 0 και v 0 αποτελούν τις εσωγενείς παραμέτρους της κάμερας. Σε προβολικές συντεταγμένες η σχέση (2.7) γράφεται : = (2.8) Με την εύρεση του αντιστρόφου του παραπάνω πίνακα μετασχηματισμού από κανονικοποιημένες συντεταγμένες σε πραγματικές συντεταγμένες, ο ζητούμενος μετασχηματισμός από πραγματικές συντεταγμένες σε κανονικοποιημένες, είναι : Κ = (2.9) Έτσι, ο πίνακας προβολής για την κάμερα γίνεται : P = K P n = = (2.10) Ο πίνακας αυτός δίνει τις συντεταγμένες pixel της προβολής ενός σημείου, όταν το σύστημα συντεταγμένων της κάμερας συμπίπτει με το αδρανειακό σύστημα συντεταγμένων. Μια ακόμη γραμμική παραμόρφωση προέρχεται από το γεγονός ότι είναι δυνατόν οι άξονες της εικόνας να μην είναι απολύτως ορθογώνιοι, και αυτό μπορεί να συμβεί για παράδειγμα αν οι αισθητήρες της κάμερας δεν είναι τοποθετημένοι με ακρίβεια σε απόλυτα ορθογώνια διάταξη. Αυτό έχει σαν αποτέλεσμα μια γραμμική παραμόρφωση, η οποία μπορεί να εισαχθεί εύκολα στο γραμμικό μοντέλο, μεταβάλλοντας τις σχέσεις (2.1) ως εξής: u =u 0 + α u u n και v=v 0 + α v v n + s u n (2.11) 15

όπου s είναι ο συντελεστής λοξότητας (skew). Έτσι, ο πίνακας των εσωγενών παραμέτρων μεταβάλλεται: Κ = (2.12) Δεν θα γίνει εκτενής αναφορά στην εύρεση των παραμέτρων της κάμερας (η διαδικασία αυτή συναντάται στην βιβλιογραφία ως camera calibration). Η σπουδαιότητα της ακριβούς γνώσης των εσωγενών παραμέτρων έχει ήδη τονιστεί παραπάνω. Γενικά, η μεθοδολογία στηρίζεται στην λήψη φωτογραφιών από στόχους που έχουν γνωστές συντεταγμένες στο χώρο, και στην συνέχεια προσδιορίζονται οι συντεταγμένες των προβολών των σημείων αυτών επί των εικόνων σε συντεταγμένες pixel. Από το σύστημα αυτό υπολογίζονται οι παράμετροι της κάμερας που δίνουν με την καλύτερη δυνατή προσέγγιση τις παρατηρούμενες απεικονίσεις. Τα στοχευόμενα σημεία, ανήκουν σε ένα πρότυπο βαθμονόμησης το οποίο συνήθως αποτελείται από ένα ή περισσότερα επίπεδα στα οποία έχουν σχεδιαστεί άσπρα και μαύρα τετράγωνα, έτσι ώστε η εξαγωγή των σημείων ενδιαφέροντος να γίνεται με ευκολία και ακρίβεια.. Από τις πρώτες μεθόδους που έχουν προταθεί για την εύρεση των παραμέτρων της κάμερας είναι εκείνες του Hall (1982) και του Tsai (1986), ενώ η μέθοδος του Zhang (1999) είναι πλέον από τις πιο ευρέως χρησιμοποιούμενες. 2.2.2 Εξωγενείς παράμετροι της κάμερας Οι εξωγενείς παράμετροι της κάμερας αναφέρονται στο γεγονός του ότι το σύστημα αναφοράς του χώρου δεν συμπίπτει με το σύστημα αναφοράς που ορίζει η κάμερα με τον τρόπο που παρουσιάστηκε στο μοντέλο της κανονικοποιημένης κάμερας. Αυτό συμβαίνει επειδή η επεξεργασία γίνεται μέσω μιας ακολουθίας λήψεων μιας σκηνής ή βιντεοσκόπηση αυτής, οπότε το σύστημα αναφοράς του χώρου πρέπει να έχει μια σταθερή θέση και ανεξάρτητη από την εκάστοτε θέση της κάμερας. Θα υπολογιστεί ο πίνακας προβολής όταν το σύστημα αναφοράς του χώρου βρίσκεται σε τυχαία θέση εν σχέσει με το σύστημα αναφοράς της κάμερας (Σχήμα 4). Σχήμα 4 16

Αν το σύστημα αναφοράς της κάμερας μπορεί να ταυτιστεί με το σύστημα αναφοράς του χώρου μέσω μιας περιστροφής ως προς τους άξονες της που περιγράφεται από ένα 3 3 πίνακα R και μια μετατόπιση που περιγράφεται από ένα 3 1 πίνακα t, τότε οι συντεταγμένες Χ Μ, Υ Μ και Ζ Μ του σημείου Μ ως προς το σύστημα αναφοράς του χώρου (Ο,Χ,Υ,Ζ), μετασχηματίζονται σε συντεταγμένες Χ Μ, Υ Μ και Ζ Μ του συστήματος αναφοράς της κάμερας (C,X,Y,Z ), μέσω της σχέσης : Η σχέση αυτή μπορεί να γραφεί με προβολικές συντεταγμένες ως : M =R M + t (2.13) (2.14) όπου Έτσι, η σχέση του μετασχηματισμού της προβολής ενός σημείου Μ του χώρου σε ένα σημείο m του επίπεδου προβολής, γίνεται: Οπότε ο πίνακας προβολής Ρ παίρνει την μορφή: (2.15) => (2.16) Τα διανύσματα r 1, r 2 και r 3 είναι οι στήλες του πίνακα περιστροφής, ενώ το διάνυσμα μετατόπισης είναι t = [t x t y t z ] T. Έτσι, προστίθενται 6 ακόμα βαθμοί ελευθερίας για τον προσδιορισμό του πίνακα Ρ, καθώς ο πίνακας παραμετροποιειται από τις τρεις γωνίες περιστροφής γύρω από τους άξονες X,Y,Z και έχει μόνο 3 βαθμούς ελευθερίας. 2.3. Μη γραμμικές παραμορφώσεις - Παρεκκλίσεις από το γραμμικό μοντέλο Οι βασικές παραμορφώσεις σε σχέση με το γραμμικό μοντέλο της κάμερας είναι οι εξής: α) Οι φακοί της κάμερας, λόγω κατασκευαστικών ατελειών, μπορεί να μην έχουν την επιθυμητή καμπυλότητα, με αποτέλεσμα τα σημεία του χώρου να μην προβάλλονται επί της εικόνας στο σημείο που προβλέπει το γραμμικό μοντέλο, αλλά να υφίστανται ακτινική μετατόπιση ως προς το κύριο σημείο (principal point) της εικόνας.. Όταν η μετατόπιση αυτή είναι θετική, παρουσιάζεται μετατόπιση τύπου pincushion, ενώ όταν είναι αρνητική, προκύπτει μετατόπιση τύπου barrel. Αυτά τα δυο είδη παραμόρφωσης φαίνονται στο Σχήματα 5 και 7. Η ακτινική παραμόρφωση επιφέρει σημαντικές αλλοιώσεις ως προς το γραμμικό μοντέλο, ειδικά στα μικρά εστιακά μήκη. β) Τα κέντρα καμπυλότητας των φακών της κάμερας δεν είναι πάντα συγγραμμικά, και αυτό έχει σαν αποτέλεσμα μια άλλη συνήθη μορφή παραμόρφωσης, την «παραμόρφωση 17

εκκεντρότητας» (decentering distortion). Η παραμόρφωση αυτή συνεισφέρει τόσο στην ακτινική, όσο και στην εφαπτομενική παραμόρφωση. γ) Εξαιτίας της ατελούς κατασκευής των οπτικών της κάμερας αλλά και εξαιτίας της μη ακριβούς συναρμολόγησης των διαφόρων τμημάτων της, εισάγεται μια ακόμη μορφή παραμόρφωσης, η παραμόρφωση «λεπτού πρίσματος», η οποία λέγεται έτσι γιατί μπορεί να μοντελοποιηθεί με την προσθήκη ενός λεπτού πρίσματος στο οπτικό σύστημα. Η παραμόρφωση αυτή εισάγει επίσης ακτινική και εφαπτομενική παραμόρφωση. Σχήμα 5: Ακτινική παραμόρφωση Σχήμα 6: Εφαπτομενική παραμόρφωση Οι παραπάνω μορφές παραμόρφωσης μπορούν να μοντελοποιηθούν συνολικά, εισάγοντας μη γραμμικούς (πολυωνυμικούς) όρους στο γραμμικό μοντέλο για την κάμερα. Στη βιβλιογραφία υπάρχουν διάφοροι τρόποι με τους οποίους γίνεται αυτή η μοντελοποίηση (θεωρώντας είτε απόκλιση από τις κανονικοποιημένες συντεταγμένες είτε από τις συντεταγμένες pixel). Στην παρούσα εργασία θα περιγραφεί η μοντελοποίηση που εμφανίζεται στο [4], λόγω του πιο εμφανούς φυσικού νοήματος των παραμέτρων της. 18

Συγκεκριμένα, γίνεται η θεώρηση ότι οι σχέσεις που συνδέουν τις πραγματικές συντεταγμένες προβολής με τις εσωγενείς παραμέτρους της κάμερας, μεταβάλλονται ως εξής : v = v 0 + a v (v n + dv) και u = u 0 + a u (u n + du), (2.17) όπου οι ποσότητες dv και du διορθώνουν τις συντεταγμένες των σημείων της εικόνας, έτσι ώστε οι σχέσεις να δίνουν τις πραγματικές συντεταγμένες που παρατηρούμε στην εικόνα. Οι ποσότητες αυτές περιλαμβάνουν και την ακτινική και την εφαπτομενική παραμόρφωση ως εξής: du = u n(k 1r 2 +k 2r 4 + 2p 1 u n v n + p 2(r 2 + 2 u n 2) dv = v n(k 1r 2 +k 2r 4 + 2p 2 u n v n + p 1(r 2 + 2 v n 2) (2.18) όπου r 2 =u n 2 + v n 2. Οι όροι με συντελεστές k 1, k 2 περιγράφουν την ακτινική παραμόρφωση, ενώ οι όροι με συντελεστές p 1, p 2 περιγράφουν την εφαπτομενική παραμόρφωση. Σε περίπτωση που απαιτείται ιδιαίτερα αυξημένη ακρίβεια μπορούν να προστεθούν περισσότεροι όροι, κυρίως στην ακτινική παραμόρφωση, όμως αυτό συνήθως δεν επιφέρει κάποια αξιόλογη βελτίωση στα αποτελέσματα (δηλαδή στο σφάλμα ανάμεσα στις πραγματικές συντεταγμένες των σημείων και σε αυτές που προβλέπει το μοντέλο), ενώ λόγω της αύξησης της πολυπλοκότητας, σε αρκετές περιπτώσεις εμφανίζεται και υποβάθμιση των αποτελεσμάτων, καθώς οι αλγόριθμοι που υπολογίζουν τις παραμέτρους αυτές συγκλίνουν δυσκολότερα. Σχήμα 7: Τα αποτελέσματα της ακτινικής παραμόρφωσης στην απεικόνιση της σκηνής 2.4. Κανονικοποίηση της εικόνας Ο λόγος για τον οποίο είναι αναγκαίο να γνωρίζονται με ακρίβεια οι εσωγενείς παράμετροι της κάμερας, καθώς και οι παράμετροι των μη γραμμικών παραμορφώσεων που οφείλονται στην κατασκευή της κάμερας, είναι η δυνατότητα κανονικοποίησης της εικόνας, δηλ. της μετατροπής της πραγματικής εικόνας προβολής των σημείων του χώρου μέσα από την διάταξη της κάμερας σε μια εικόνα που ανήκει σε μια ιδεατή κάμερα με εστιακή απόσταση 1. Αυτό, επιτρέπει να γίνουν με μεγαλύτερη ευκολία όλοι οι περαιτέρω υπολογισμοί και μετατροπές που θα παρουσιαστούν στην 19

συνέχεια για την τρισδιάστατη ανακατασκευή. Συνδυάζοντας όλες τις σχέσεις που αφορούν τις εσωτερικές παραμέτρους και τις μη γραμμικές παραμορφώσεις, έχουμε: u= u 0 + a u (k 2 u n 5 + 2 k 2 u n 3 v n 2 + k 2 u n v n 4 + k 1 u n 3 + k 1 u n v n 2 +3 p 2 u n 2 + 2 p 1 u n v n + p 2 v n 2 + u n) v = v 0 + a v (k 2 u n 4 v n + 2 k 2 u n 2 v n 3 + k 2 v n 5 + k 1 v n 3 + k 1 u n 2 v n + p 1 u n 2 + 2 p 2 u n v n +3 p 1 v n 2 + v n) (2.19) (2.20) όπου οι u και v είναι οι πραγματικές συντεταγμένες προβολής στην εικόνα, ενώ u n και v n είναι οι κανονικοποιημένες συντεταγμένες. Οι σχέσεις αυτές δεν επιδέχονται αναλυτική λύση ως προς u n και v n, καθώς αποτελούν σύστημα 5 ου βαθμού, άρα πρέπει να αναζητηθούν προσεγγιστικές λύσεις. Για παράδειγμα είναι δυνατόν να χρησιμοποιηθεί η μέθοδος Νewton-Raphson, με αρχική προσέγγιση τις τιμές που δίνει το απλό γραμμικό μοντέλο χωρίς παραμόρφωση, και να βρεθεί η λύση επαναληπτικά. Όμως η μέθοδος αυτή είναι χρονοβόρα, καθώς απαιτεί γενικά αρκετές επαναλήψεις, και σε κάθε επανάληψη πρέπει να υπολογίζεται η Ιακωβιανή του συστήματος. Πρέπει να σημειωθεί ότι στο συγκεκριμένο πρόβλημα μας ενδιαφέρει, έκτος της ακρίβειας, και η ταχύτητα του αλγορίθμου, καθώς αυτή η διαδικασία της εύρεσης των κανονικοποιημένων συντεταγμένων επαναλαμβάνεται για όλα τα σημεία της εικόνας. Επομένως, ο αλγόριθμος πρέπει να αποτελεί και μια εφικτή υπολογιστικά λύση. Η μη επαναληπτική μέθοδος που θα παρουσιαστεί έχει προταθεί από τον Heikkilä (1997)[4], και δημιουργεί ένα αντίστροφο μοντέλο για την κάμερα, το οποίο μετασχηματίζει τις συντεταγμένες pixel της πραγματικής εικόνας σε κανονικοποιημένες, χρησιμοποιώντας τις εσωγενείς παραμέτρους της κάμερας. Τα πλεονεκτήματα της μεθόδου αυτής είναι η ταχύτητα της, επειδή είναι μη επαναληπτική και οι παράμετροι για τον υπολογισμό των κανονικοποιημένων συντεταγμένων υπολογίζονται μόνο μια φορά με αναλυτικό τρόπο, καθώς και η ακρίβεια της, εφόσον παρουσιάζει σφάλματα της τάξης των 0.01 pixel. Το αντίστροφο μοντέλο της κάμερας για την εύρεση των κανονικοποιημένων συντεταγμένων u n και v n, περιγράφεται από τις σχέσεις : = (2.21) όπου G = 1 + (α 5 r 2 + α 6 u 1 + α 7 v 1 + α 8) r 2 (2.22) Οι άγνωστοι που πρέπει να υπολογιστούν είναι οι α 1, α 2,, α 8, είναι r 2 =u n 2 + v n 2, ενώ οι συντεταγμένες u 1 και v 1 αφορούν τις κανονικοποιημένες συντεταγμένες του γραμμικού μοντέλου, δηλαδή είναι : u 1 = (u u 0 )/ α u και v 1 = (v v 0 )/ α v (2.23) Για την εύρεση των 8 αγνώστων, δημιουργείται ένα πλέγμα Ν σημείων στα οποία οι συντεταγμένες uni και vni είναι οι κανονικοποιημένες συντεταγμένες, και οι συντεταγμένες u1i και v1i είναι οι αντίστοιχες συντεταγμένες προβολής με τις εσωτερικές παραμέτρους της κάμερας, όπου i=1 έως Ν. Προφανώς, για να μπορέσουν να υπολογιστούν τα u 1i και v 1i από τις αντίστοιχες 20

κανονικοποιημένες συντεταγμένες, θα πρέπει να έχουν ήδη υπολογιστεί οι εσωγενείς παράμετροι της κάμερας. Το πλέγμα των σημείων πρέπει να καλύπτει όλη την επιφάνεια της εικόνας, ενώ το Ν είναι ικανοποιητικό να κυμαίνεται μεταξύ 1000 και 2000. Αν στις σχέσεις (2.21), πολλαπλασιαστούν και οι δυο πλευρές των εξισώσεων με G και στην συνέχεια έρθουν όλοι οι άγνωστοι α i στο πρώτο μέλος, προκύπτει ένα γραμμικό σύστημα ως προς τα α i, της μορφής: Tb = e, (2.24) όπου e = [u n1 - u 1, v n1 - v 1, u n2 u 2, v n2 v 2. u nn - u 1, v nn - v 1 ] και b = [α 1, α 2 α 8], ενώ ο πίνακας Τ είναι ο πίνακας των συντελεστών των αγνώστων. Επειδή διατίθενται περισσότερα σημεία από αυτά που απαιτούνται για την επίλυση του συστήματος, η βέλτιστη λύση με την μέθοδο των ελαχίστων τετραγώνων είναι: b= (T T T) -1 T T e (2.25) Εφόσον έχουν υπολογιστεί οι παράμετροι α 1, α 2,, α 8, μέσω της σχέσης (1) υπολογίζονται οι κανονικοποιημένες συντεταγμένες των σημείων προβολής. Όπως τονίστηκε παραπάνω, η κανονικοποίηση των εικόνων διευκολύνει ιδιαίτερα την περαιτέρω διαδικασία. Για τα επόμενα στάδια επεξεργασίας, θα θεωρηθεί ότι οι εικόνες που χρησιμοποιούνται έχουν κανονικοποιηθεί (έστω με την σημασία της εξάλειψης των μη γραμμικών παραμορφώσεων). 21

Κεφάλαιο 3 Εντοπισμός και αντιστοίχιση των σημείων ενδιαφέροντος στις εικόνες. 3.1.Εισαγωγή Η διαδικασία εντοπισμού σημείων ενδιαφέροντος στις εικόνες που θα χρησιμοποιηθούν για την τρισδιάστατη ανακατασκευή είναι το πρώτο στάδια επεξεργασίας των εικόνων. Υπάρχουν διάφορα είδη σημείων ενδιαφέροντος, όμως η πρακτικότερη επιλογή για την συγκεκριμένη εφαρμογή είναι η χρήση των «γωνιών» των εικόνων. Με τον όρο «γωνία» εννοούνται τα σημεία των εικόνων από τα οποία μια μετακίνηση προς οποιαδήποτε διεύθυνση στο επίπεδο της εικόνας, οδηγεί σε μεγάλες μεταβολές της συνάρτησης φωτεινότητας. Η συνάρτηση φωτεινότητας της εικόνας περιέχει δυο μεταβλητές, μία για την οριζόντια και μία για την κάθετη διεύθυνση. Έτσι, ο όρος «γωνία» αφορά σε σημεία της εικόνας στα οποία η καμπυλότητα της συνάρτησης φωτεινότητας αποκτά ένα τοπικό μέγιστο. Τα σημεία αυτά είναι δυνατόν να αποτελούν προβολές πραγματικών γωνιών αντικειμένων, όμως γενικά αναφέρονται σε σημεία περιοχών με έντονη υφή (texture). Η επιλογή των σημείων αυτών γίνεται λόγω της μεγαλύτερης ευκολίας εντοπισμού τους σε διαφορετικές απεικονίσεις μιας σκηνής, καθώς ο απώτερος σκοπός είναι η αντιστοίχιση των σημείων αυτών σε διαφορετικές εικόνες. Όπως θα παρουσιαστεί στην συνέχεια, η αντιστοίχιση σημείων διαφορετικών εικόνων που αποτελούν προβολές του ίδιου σημείου του χώρου, μπορεί να δώσει πληροφορίες για την σχετική θέση στον χώρο των δυο εικόνων. Για τον εντοπισμό των γωνιών σε εικόνες έχουν αναπτυχθεί πολλοί αλγόριθμοι, καθώς πρόκειται για μια συχνά χρησιμοποιούμενη διαδικασία στο χώρο του computer vision. Οι αλγόριθμοι αυτοί χωρίζονται γενικά στις εξής κατηγορίες: Μορφολογικοί: Αφού αρχικά γίνει εξαγωγή των «ακμών» στην εικόνα, χρησιμοποιούνται μορφολογικές μέθοδοι για τον εντοπισμό των γωνιών πάνω στις ακμές αυτές. Οι μέθοδοι αυτές δεν είναι κατάλληλες για την παρούσα εφαρμογή, καθώς προϋποθέτουν κάποια γνώση για τα χαρακτηριστικά των ακμών της εικόνας. Template based: Σε αυτή την κατηγορία αλγόριθμων εντοπίζονται σημεία επί των εικόνων, στα οποία η «μορφολογία» της εικόνας ταιριάζει με κάποια πρότυπα γωνιών τα οποία έχουν προκαθοριστεί. Και οι μέθοδοι αυτές προϋποθέτουν κάποια γνώση για τα χαρακτηριστικά της εικόνας, γεγονός που τις καθιστά ακατάλληλες για τη συγκεκριμένη εφαρμογή Signal-based: Οι μέθοδοι αυτής της κατηγορίας είναι οι προτιμότερες για την τρισδιάστατη ανακατασκευή (χρησιμοποιούνται ευρύτατα σε αυτό το είδος εφαρμογών), λόγω της ικανοποιητικής απόδοσης τους καθώς και της έλλειψης οποιασδήποτε προϋπόθεσης, αντίθετα με τις παραπάνω κατηγορίες. Στηρίζονται στην επεξεργασία της εικόνας ως μια συνάρτηση φωτεινότητας στις δυο διαστάσεις, και χρησιμοποιώντας τις παραγώγους της, εντοπίζουν τις γωνίες επί της 22

εικόνας. Στο παρόν κεφάλαιο θα παρουσιαστεί μια μέθοδος αυτής της κατηγορίας, ο Harris corner detector. Για την αντιστοίχιση των γωνιών ανάμεσα σε δυο ή περισσότερες εικόνες, χρησιμοποιούνται μέθοδοι οι οποίες βασίζονται κυρίως σε κάποιο μέτρο ομοιότητας των εντοπισμένων γωνιών, όπως η συνάρτηση συσχέτισης, το άθροισμα των τετραγωνικών διαφόρων, το άθροισμα των απολύτων διαφόρων, κτλ. Στο σημείο αυτό πρέπει να τονισθεί ότι η διαδικασία της αντιστοίχισης γωνιών ανάμεσα σε εικόνες είναι το πιο αδύναμο σημείο της τρισδιάστατης ανακατασκευής του χώρου. Αιτία για αυτό αποτελεί ότι συχνά στις εικόνες εμφανίζονται επαναλαμβανόμενες δομές, και σημεία με μεγάλη τοπική ομοιότητα, τα οποία οδηγούν στην ύπαρξη πολλών πιθανών αντιστοιχίσεων ανάμεσα στις γωνίες των εικόνων. Έτσι, παρά τις πολλαπλές προσπάθειες που έχουν καταβληθεί, δεν έχει ακόμη προταθεί κάποια σθεναρή μέθοδος, η οποία να εγγυάται ότι δεν θα υπάρχουν λάθη κατά την αντιστοίχιση. Αυτό το πρόβλημα πρέπει να λαμβάνεται υπόψη σε όλα τα περαιτέρω στάδια επεξεργασίας. 3.2. Κριτήρια επιλογής αλγόριθμου εντοπισμού γωνιών Τα κριτήρια αξιολόγησης των αλγόριθμων εύρεσης γωνιών μπορούν να περιγραφούν συνοπτικά ως εξής [9]: α) Ακριβής εντοπισμός της θέσης των γωνιών. β) Εντοπισμός των κατά το δυνατό περισσότερων γωνιών της εικόνας. γ) Αποφυγή εντοπισμού λανθασμένων σημείων. δ) Σθεναρότητα στο θόρυβο. ε) Οι γωνίες που εντοπίζονται σε μια εικόνα, να εντοπίζονται και στις υπόλοιπες εικόνες που απεικονίζουν το ίδιο χαρακτηριστικό, και οι οποίες έχουν ληφθεί από ελαφρά διαφορετική θέση. Ειδικά για την παρούσα εφαρμογή, η τελευταία απαίτηση είναι η πιο σημαντική, καθώς πρέπει να γίνει αντιστοίχιση τις γωνίες των εικόνων, που απεικονίζουν τα ίδια σημεία της σκηνής. Οι συγκριτικές μελέτες στη βιβλιογραφία ([5],[7]) αποδεικνύουν την καταλληλότητα του αλγορίθμου του Harris για την τρισδιάστατη ανακατασκευή. Στην εργασία [5] αποδεικνύεται ότι η συμπεριφορά του αλγορίθμου Harris είναι η καλύτερη όσον αφορά στην απαίτηση ε), όπως επίσης και το ότι ο αλγόριθμος έχει ικανοποιητική συμπεριφορά ως προς όλα τα υπόλοιπα κριτήρια(αυτό αποδεικνύεται και στην εργασία [7]). Το βασικό χαρακτηριστικό του αλγόριθμου αυτού είναι η καλή απόδοση σε ό,τι αφορά τον εντοπισμό των γωνιών, καθώς - έκτος του εντοπισμού των επιθυμητών σημείων - δεν παράγει πολλά λανθασμένα επιπρόσθετα σημεία. Όσο ικανοποιητική και αν είναι η απόδοση του Harris corner detector σε αυτό το στάδιο, δεν παύει να υπολείπεται της επιθυμητής ακρίβειας, γι αυτό και συνήθως χρησιμοποιείται ένα πρόσθετο στάδιο εντοπισμού με ακρίβεια μικρότερη του pixel. 3.3.Περιγραφή του αλγορίθμου εύρεσης γωνιών του Harris Ο αλγόριθμος του Harris αποτελεί βελτιωμένη εκδοχή ενός παλαιότερου αλγόριθμου του Moravec [6]. Η βασική λογική είναι ότι για κάθε σημείο ελέγχεται η συνάρτηση φωτεινότητας Ι για μικρές μετακινήσεις γύρω από αυτό και ως γωνίες χαρακτηρίζονται τα σημεία εκείνα στα οποία οι 23

μεταβολές της τιμής της συνάρτησης φωτεινότητας είναι μεγάλες. Η μεταβολή αυτή εκφράζεται μέσω της συνάρτησης Ε που δίνεται από την σχέση: E x, y = 2 (3.1) Ο όρος εκφράζει το παράθυρο εντός του οποίου ελέγχεται η μεταβολή αυτή, ενώ x και y είναι η οριζόντια και η κάθετη μετακίνηση αντίστοιχα γύρω από το σημείο u και v. Οι μετακινήσεις (x, y) λαμβάνουν τιμές (1,0),(1,1),(0,1),(-1,1). Ο αλγόριθμος του Harris μπορεί να λαμβάνει την συνάρτηση Ε για όλες τις πιθανές μεταβολές (x, y) όσο μικρές και αν είναι αυτές, χρησιμοποιώντας αναλυτικό ανάπτυγμα για το Ε, που γίνεται: E x, y = 2 (3.2) όπου Χ είναι η πρώτη παραγωγός της συνάρτησης Ι ως προς x και υπολογίζεται ως το γινόμενο Kronecker της συνάρτησης Ι με το διάνυσμα (-1,0,1), ενώ Υ είναι η πρώτη παραγωγός της συνάρτησης Ι ως προς y και υπολογίζεται ως το γινόμενο Kronecker της συνάρτησης Ι με το διάνυσμα (-1,0,1) Τ. Έτσι, για πολύ μικρές τιμές της μετατόπισης (x, y), η μεταβολή Ε μπορεί να γραφεί ως : E x, y = Ax 2 + 2Cxy + By 2 (3.3) όπου A είναι το γινόμενο Kronecker του τετραγώνου της πρώτης παραγώγου της συνάρτησης Ι ως προς x με το παράθυρο, Β είναι το γινόμενο Kronecker του τετραγώνου της πρώτης παραγώγου της συνάρτησης Ι ως προς y με το παράθυρο και C είναι το γινόμενο Kronecker του γινομένου της πρώτης παραγώγου της συνάρτησης Ι ως προς x με την πρώτη παράγωγο της συνάρτησης Ι ως προς y, με το παράθυρο. Η απόκριση θα περιέχει έντονα την παρουσία θορύβου εξαιτίας της δυαδικής, ορθογώνιας μορφής του παραθύρου, και για αυτό τον λόγο χρησιμοποιείται για λόγους εξομάλυνσης ένα Gaussian κυκλικό παράθυρο: = exp [- ( u 2 + v 2 ) / 2σ 2 ] (3.4) To τελικό κριτήριο για την ανεύρεση των γωνιών παρέχεται από τον 2 2 συμμετρικό πίνακα: Μ = (3.5) Αποδεικνύεται [8] ότι οι ιδιοτιμές του παραπάνω πίνακα Μ είναι ανάλογες με τις κύριες καμπυλότητες της επιφάνειας της εικόνας Ι. Η τελική εκτίμηση γίνεται λοιπόν μέσω των ιδιοτιμών του πίνακα Μ. Αν λ 1, λ 2 είναι οι ιδιοτιμές του πίνακα Μ, διακρίνονται 3 περιπτώσεις: 1. Αν λ 1 και λ 2 είναι μικρές, τότε η συνάρτηση φωτεινότητας της εικόνας έχει σχεδόν σταθερή ένταση (οι μετακινήσεις γύρω από το σημείο που ελέγχεται έχουν σχεδόν μηδαμινή επίδραση στην συνάρτηση Ι ). 2. Αν μία από τις ιδιοτιμές λ 1 ή λ 2 είναι μεγάλη και η άλλη μικρή, τότε η τοπική αυτοσυσχέτιση παρουσιάζει κορυφή με αποτέλεσμα μια μικρή μετακίνηση κατά μήκος της κορυφής να προκαλεί μικρή αλλαγή στην συνάρτηση Ι στη μία διεύθυνση και σημαντική στην άλλη. Αυτό υποδεικνύει την ύπαρξη ακμής. 3. Αν και οι δύο ιδιοτιμές είναι μεγάλες, τότε ακόμα και μικρή μετακίνηση σε οποιαδήποτε διεύθυνση έχει σαν αποτέλεσμα μεγάλη αλλαγή στην συνάρτηση Ε. Αυτό υποδεικνύει την ύπαρξη γωνίας. Επειδή ο υπολογισμός των ιδιοτιμών είναι ιδιαίτερα χρονοβόρα διαδικασία, χρησιμοποιείται 24

αντί του παραπάνω κριτηρίου η σχέση: Δ = (A 2 B 2 C 2 ) k(a 2 + B 2 ) 2 (3.6) Ως γωνίες αναγνωρίζονται τα σημεία για τα οποία το Δ παίρνει τιμές μεγαλύτερες από κάποια τιμή κατωφλίου. Η σταθερά k παίρνει την εμπειρική τιμή 0.04, και ο όρος ο οποίος περιέχει τη σταθερά αυτή παίζει το ρόλο της προστασίας από αναγνώριση σημείων ακμών (στα οποία επίσης έχουμε μεγάλες τιμές για τις παραγώγους) ως γωνίες (false corner response suppression). Οι παράμετροι που απαιτούνται για την λειτουργιά του αλγορίθμου είναι το μέγεθος του παραθύρου, η τιμή της τυπικής απόκλισης σ και η τιμή του κατωφλίου. Ενδεικτικές τιμές για τις παραμέτρους αυτές μετά από διαδικασία δοκιμών είναι οι εξής: σ=5/6, τιμή κατωφλίου ίση με 0.04 και μέγεθος παραθύρου 5 5. Αφού εφαρμοστεί η παραπάνω διαδικασία, τα σημεία για τα οποία το μέτρο Δ παίρνει τιμές μεγαλύτερες του κατωφλίου, ορίζουν μια περιοχή γύρω από την πραγματική γωνία. Στο μέγιστο κάθε μίας από τις περιοχές αυτές θεωρείται ότι υπάρχει γωνία, που καθορίζεται σε ένα μοναδικό pixel. Για το σκοπό αυτό, χρησιμοποιείται ένα φίλτρο μεγίστου, με μέγεθος επίσης 5x5. Σχήμα 1: Ζεύγος φωτογραφιών μιας εξωτερικής σκηνής Σχημα2: Εύρεση των γωνιών του παραπάνω ζεύγους εικόνων με εφαρμογή του Harris Corner Detector. 25