Εκτίμηση της κίνησης μιας κάμερας χειρός από την προσληφθείσα ακολουθία εικόνων

Σχετικά έγγραφα

Συστήματα συντεταγμένων

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί

Θεωρία μετασχηματισμών

ΘΕΩΡΙΑ Β ΓΥΜΝΑΣΙΟΥ. Μια παράσταση που περιέχει πράξεις με μεταβλητές (γράμματα) και αριθμούς καλείται αλγεβρική, όπως για παράδειγμα η : 2x+3y-8

Μεθοδολογία Έλλειψης

ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Β ΛΥΚΕΙΟΥ

ΕΡΓΑΣΤΗΡΙΟ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΓΡΑΦΙΚΩΝ

από t 1 (x) = A 1 x A 1 b.

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

ΕΠΑΝΑΛΗΨΗ ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΕΥΘΥΝΣΗΣ Β ΛΥΚΕΙΟΥ ( α μέρος )

ΘΕΩΡΙΑ Α ΓΥΜΝΑΣΙΟΥ. Η διαίρεση καλείται Ευκλείδεια και είναι τέλεια όταν το υπόλοιπο είναι μηδέν.

Μηχανολογικό Σχέδιο με τη Βοήθεια Υπολογιστή. Αφφινικοί Μετασχηματισμοί Αναπαράσταση Γεωμετρικών Μορφών

ΘΕΩΡΙΑ ΜΑΘΗΜΑΤΙΚΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ

ΔΙΑΝΥΣΜΑΤΑ ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΑΡΙΘΜΟΥ ΜΕ ΔΙΑΝΥΣΜΑ. ΘΕΜΑ 2ο

ΜΑΘΗΜΑΤΙΚΑ Γ ΓΥΜΝΑΣΙΟΥ

Παραδείγματα Ιδιοτιμές Ιδιοδιανύσματα

Αριθμητική Ανάλυση και Εφαρμογές

Θέση και Προσανατολισμός

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 1. Σταύρος Παπαϊωάννου

ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ ΕΠΙΜΕΛΕΙΑ : ΑΥΓΕΡΙΝΟΣ ΒΑΣΙΛΗΣ

Στο προοπτικό ανάγλυφο για τη ευθεία του ορίζοντα χρησιμοποιούμε ένα δεύτερο κατακόρυφο επίπεδο Π 1

ΑΣΚΗΣΕΙΣ ΥΠΟΛΟΓΙΣΜΟΥ ΜΑΖΑΣ ΘΕΣΗΣ ΚΕΝΤΡΟΥ ΜΑΖΑΣ ΡΟΠΗΣ ΑΔΡΑΝΕΙΑΣ ΣΩΜΑΤΩΝ

ΠΡΩΤΟ ΘΕΜΑ ΕΞΕΤΑΣΕΩΝ

1,y 1) είναι η C : xx yy 0.

1 x και y = - λx είναι κάθετες

ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΤΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΤΗΣ Β ΛΥΚΕΙΟΥ

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

2 Ο ΚΕΦΑΛΑΙΟ Ενότητα 5.

Κεφάλαιο 2: Διανυσματικός λογισμός συστήματα αναφοράς

ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ ΛΥΜΕΝΕΣ & ΑΛΥΤΕΣ ΑΣΚΗΣΕΙΣ. Επιμέλεια: Γ. Π. Βαξεβάνης (Γ. Π. Β.

5ο Μάθημα Αλγόριθμοι Σχεδίασης Βασικών Σχημάτων

Από το Γυμνάσιο στο Λύκειο Δειγματικός χώρος Ενδεχόμενα Εύρεση δειγματικού χώρου... 46

Κεφάλαιο 1: Κίνηση και γεωμετρικά σχήματα

Να επιλύουμε και να διερευνούμε γραμμικά συστήματα. Να ορίζουμε την έννοια του συμβιβαστού και ομογενούς συστήματος.

Οδηγίες για το Geogebra Μωυσιάδης Πολυχρόνης Δόρτσιος Κώστας

ΕΠΑΝΑΛΗΨΗ Α ΓΥΜΝΑΣΙΟΥ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΓΡΑΦΙΚΑ ΥΠΟΛΟΓΙΣΤΩΝ Διδάσκων: Ν. ΝΙΚΟΛΑΙΔΗΣ

ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

Μαθηματικά Α' Γυμ. - Ερωτήσεις Θεωρίας 1 ΕΡΩΤΗΣΕΙΣ. (1) Ποιοι είναι οι φυσικοί αριθμοί; Γράψε τέσσερα παραδείγματα.

ΤΕΧΝΙΚΗ ΜΗΧΑΝΙΚΗ Ι ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ- ΥΝΑΜΕΙΣ ΣΤΟ ΕΠΙΠΕ Ο ΚΑΙ ΣΤΟ

Γενικό Ενιαίο Λύκειο Μαθ. Κατ. Τάξη B

OΡΙΟ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

E [ -x ^2 z] = E[x z]

Αριθμητική Ανάλυση και Εφαρμογές

Ορισμένες σελίδες του βιβλίου

2.3 ΜΕΤΡΟ ΜΙΓΑΔΙΚΟΥ ΑΡΙΘΜΟΥ

1.5 ΕΣΩΤΕΡΙΚΟ ΓΙΝΟΜΕΝΟ ΔΙΑΝΥΣΜΑΤΩΝ

Τράπεζα Θεμάτων Διαβαθμισμένης Δυσκολίας-Μαθηματικά Ομάδας Προσανατολισμού Θετικών Σπουδών ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Β Λ Υ Κ Ε Ι Ο Υ

Άλγεβρα 1 ο Κεφάλαιο ... ν παράγοντες

2 Ο ΚΕΦΑΛΑΙΟ Ενότητα 5.

Α ΜΕΡΟΣ - ΑΛΓΕΒΡΑ. Α. Οι πραγματικοί αριθμοί και οι πράξεις τους

) = Απόσταση σημείου από ευθεία. Υπολογισμός Εμβαδού Τριγώνου. και A

Συναρτήσεις. 5.1 Η έννοια της συνάρτησης. 1. Να συμπληρώσετε τις τιμές των παρακάτω συναρτήσεων : α) ψ = 2χ + 6 o Για χ = -1,5 : ψ =..=..

ΕΝΟΤΗΤΑ 1: ΟΡΙΣΜΟΣ ΠΕΔΙΟ ΟΡΙΣΜΟΥ ΠΡΑΞΕΙΣ ΣΥΝΑΡΤΗΣΕΩΝ ΓΡΑΦΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ ΒΑΣΙΚΩΝ ΣΥΝΑΡΤΗΣΕΩΝ ΛΥΜΕΝΑ ΘΕΜΑΤΑ ΘΕΜΑ Α

Ενότητα 2. Ζωγραφίζοντας με το ΒΥΟΒ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΡΟΜΠΟΤΙΚΗ - ΣΥΝΟΨΗ

Γραφικά Υπολογιστών & Εικονική Πραγματικότητα. Μετασχηματισμός απεικόνισης & Αλγόριθμοι αποκοπής

ΕΠΙΤΡΟΠΗ ΔΙΑΓΩΝΙΣΜΩΝ 33 η Ελληνική Μαθηματική Ολυμπιάδα "Ο Αρχιμήδης" 27 Φεβρουαρίου 2016

ΚΕΦΑΛΑΙΟ 3 Ο 3.2 Η ΕΝΝΟΙΑ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΚΑΙ Η. (Σ) όπου α, β, α, β, είναι οι

Ιωάννης Σ. Μιχέλης Μαθηματικός

Οδηγίες σχεδίασης στο περιβάλλον Blender

Παραδείγματα Απαλοιφή Gauss Απαλοιφή Gauss-Jordan Παραγοντοποίηση LU, LDU

Γραφικά με Η/Υ Αλγόριθμοι σχεδίασης βασικών 22D D σχημάτων (ευθεία

τα βιβλία των επιτυχιών

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

2.2 ΓΕΝΙΚΗ ΜΟΡΦΗ ΕΞΙΣΩΣΗΣ ΕΥΘΕΙΑΣ

Μετασχηματισμοί Μοντελοποίησης (modeling transformations)

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΣΤΑ ΓΕΝΙΚΑ ΜΑΘΗΜΑΤΙΚΑ

Αριθμητική Ανάλυση και Εφαρμογές

2ο Μάθημα Μετασχηματισμοί 2Δ/3Δ και Συστήματα Συντεταγμένων

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΤΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΤΗΣ Β ΛΥΚΕΙΟΥ

ΜΑΘΗΜΑΤΙΚΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ ΔΙΑΝΥΣΜΑΤΙΚΟΣ ΛΟΓΙΣΜΟΣ

β =. Β ΓΥΜΝΑΣΙΟΥ Πρόβλημα 1 Να βρείτε την τιμή της παράστασης: 3β + α α 3β αν δίνεται ότι: 3

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

ΚΕΦΑΛΑΙΟ 5: ΑΠΕΙΚΟΝΙΣΗ ΚΑΙ ΑΠΟΚΟΠΗ

ΕΡΓΑΣΤΗΡΙΟ ΕΦΑΡΜΟΣΜΕΝΗΣ ΟΠΤΙΚΗΣ

1.1 ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ

E[ (x- ) ]= trace[(x-x)(x- ) ]

ΔΕΙΓΜΑ ΠΡΙΝ ΤΙΣ ΔΙΟΡΘΩΣΕΙΣ - ΕΚΔΟΣΕΙΣ ΚΡΙΤΙΚΗ

ΓΥΜΝΑΣΙΟ ΚΑΣΤΕΛΛΑΝΩΝ ΜΕΣΗΣ ΑΛΓΕΒΡΑ

Αν ο κύκλος έχει κέντρο την αρχή των αξόνων Ο(0,0) τότε έχει εξίσωση της μορφής : x y και αντίστροφα. Ειδικότερα Ο κύκλος με κέντρο Ο(0,0)

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΑΘΗΜΑΤΙΚΩΝ Β ΓΥΜΝΑΣΙΟΥ ΜΕΡΟΣ 1ο «ΑΛΓΕΒΡΑ»

ΜΑΘΗΜΑΤΙΚΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ. Ημερομηνία: Πέμπτη 12 Απριλίου 2018 Διάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ

Εισαγωγή στην επιστήμη των υπολογιστών

Γραφικά με υπολογιστές. Διδάσκων: Φοίβος Μυλωνάς. Διαλέξεις #11-#12

Ταξινόμηση καμπυλών και επιφανειών με τη βοήθεια των τετραγωνικών μορφών.

1.3 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΑΡΙΘΜΟΥ ΜΕ ΔΙΑΝΥΣΜΑ

1 Ο ΚΕΦΑΛΑΙΟ Ενότητα 1.

Αριθμητική Ανάλυση και Εφαρμογές

ΚΕΦΑΛΑΙΟ 4 ο : ΑΝΙΣΩΣΕΙΣ ΤΟ 2 Ο ΘΕΜΑ

Μηχανολογικό Σχέδιο με τη Βοήθεια Υπολογιστή. Γεωμετρικός Πυρήνας Παραμετρική Σχεδίαση

Επαναληπτικά Θέµατα Εξετάσεων

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΟΝΟΜΑ: ΖΗΣΗΣ ΠΕΤΡΟΥ Α.Ε.Μ.: 4829 ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Εκτίμηση της κίνησης μιας κάμερας χειρός από την προσληφθείσα ακολουθία εικόνων 8 6 4 2 1 0-1 -2 5 4 3 2 1 0-1 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΜΙΧΑΗΛ-ΓΕΡΑΣΙΜΟΣ ΣΤΡΙΝΤΖΗΣ ΘΕΣΣΑΛΟΝΙΚΗ 2007

Ευχαριστίες Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή κ. Μιχαήλ-Γεράσιµο Στρίντζη, για τη δυνατότητα που µου προσέφερε να ασχοληθώ µε ένα τόσο ενδιαφέρον θέμα και την επίβλεψη της διπλωματικής μου. Ιδιαίτερες ευχαριστίες θα ήθελα να εκφράσω επίσης και στον διδάκτορα, κ. Ξενοφώντα Ζαµπούλη, για την άψογη συνεργασία µας, την καθοδήγηση, τις πολύτιμες συμβουλές και παρατηρήσεις του και τη διάθεση να λύσει κάθε απορία μου. Επίσης ένα ευχαριστώ στους κκ. Αθανάσιο Χατζηαργυρίου και Γεώργιο Κορδέλα για τις συμβουλές τους, στη διδα Βασιλική Τοπάλη για την πολύτιμη βοήθεια και υποστήριξη και στους φίλους μου για την ηθική συμπαράσταση. Ιδιαίτερες και θερμότατες ευχαριστίες, τέλος, αξίζουν τα μέλη της οικογένειάς μου, Ιωάννης, Μαρία, Αποστόλης, Ευδοκία, Απόστολος και Ευδοκία, για τη βοήθεια, συμπαράσταση, υποστήριξη, έμπνευση, υπομονή και ανεκτικότητα που επέδειξαν καθόλη τη διάρκεια των σπουδών μου. 3

Σκοπός της διπλωματικής εργασίας Στην παρούσα διπλωματική εργασία ασχοληθήκαμε με την εκτίμηση της τροχιάς μιας κινούμενης κάμερας από το σύνολο των εικόνων που έχουν ληφθεί. Παίρνοντας ως είσοδο τις εικόνες αυτές, βρίσκουμε τα κοινά σημεία που εμφανίζονται σε κάθε ζεύγος εικόνων (για κάθε ζεύγος εικόνων τα σημεία που εμφανίζονται και στις δυο εικόνες, εκφρασμένες στις 2D συντεταγμένες κάθε εικόνας), και από τις αντιστοιχίες αυτές υπολογίζουμε τους πίνακες περιστροφής και μετατόπισης της κάμερας, καθώς και τις συντεταγμένες των σημείων του πραγματικού τρισδιάστατου χώρου που προβάλλονται στα επίπεδα προβολής της κάμερας. 4

Περιεχόμενα Ευχαριστίες...3 Σκοπός της διπλωματικής εργασίας...4 Περιεχόμενα...5 Κεφάλαιο 1...7 1.1 Εισαγωγή...7 1.2 Το πρόβλημα της στερεόψης...7 1.3 Εφαρμογές...8 Κεφάλαιο 2...11 2.1. Βασικό Μοντέλο Pinhole Κάμερας...11 2.2 Βαθμονόμηση βασικού μοντέλου pinhole κάμερας...11 2.3 Περιστροφή και μεταφορά της κάμερας...15 2.4 Ακτινική Παραμόρφωση...16 Κεφάλαιο 3...19 3.1 Αντιστοίχηση κοινών σημείων...19 3.2 Αποπαραμόρφωση των εικόνων...20 3.3 Εντοπισμός των γωνιών σε μια εικόνα...22 3.4 Επιλογή του αλγόριθμου σύγκρισης γωνιών...24 3.5 Μέτρο σύγκρισης ομοιότητας MNCC...24 Κεφάλαιο 4...27 4.1 Επιπολική γεωμετρία...27 4.2 Ο αλγόριθμος των 8 σημείων...32 4.3 Υπολογισμός των R και Τ από τον πίνακα Ε...33 4.4 Γεωμετρική ερμηνεία των 4 λύσεων...35 4.5 Η μέθοδος Triangulation...36 4.6 Σύμπτωση των 3D σημείων που προκύπτουν από τουλάχιστον 3 εικόνες...38 Κεφάλαιο 5...41 5.1 Ο αλγόριθμος RANSAC...41 5.2 Βελτίωση των αποτελεσμάτων του RANSAC...43 5.3 Έκφραση της μετατόπισης της κάμερας από θέση σε θέση ως προς την αρχική μετατόπιση...43 5.4 Η γεωμετρία του συστήματος...44 5.5 Εύρεση κοινού σημείου σε τρεις διαδοχικές εικόνες...45 Κεφάλαιο 6...49 6.1 Διαδικασία που ακολουθήθηκε...49 6.2 Λήψη των φωτογραφιών και αποπαραμόρφωσή τους...49 6.3 Εύρεση των αντίστοιχων γωνιών για ζεύγος εικόνων...50 6.4 Προσδιορισμός των εσωτερικών παραμέτρων της κάμερας...54 6.5 Εκτίμηση της τροχιάς της κάμερας και 3D ανακατασκευή των κοινών σημείων για ζεύγος εικόνων...54 5

6.5.1 Υπολογισμός του essential πίνακα, Ε...55 6.5.2 Υπολογισμός των εξωτερικών παραμέτρων R και Τ...56 6.5.3 3D ανακατασκευή των κοινών σημείων...59 6.6 Εκτίμηση της τροχιάς της κάμερας και 3D ανακατασκευή των κοινών σημείων για ακολουθία πολλών εικόνων...60 6.6.1 Εκτίμηση της τροχιάς της κάμερας για 3 διαδοχικές εικόνες...61 6.6.2 Εκτίμηση της τροχιάς της κάμερας για ολόκληρη την ακολουθία των εικόνων...63 6.7 Συμπεράσματα...64 6.8 Υπολογιστικό κόστος της διαδικασίας...66 6.9 Μελλοντική εργασία...67 Βιβλιογραφία...69 6

Κεφάλαιο 1 1.1 Εισαγωγή Χρησιμοποιώντας μια απλή ψηφιακή κάμερα μπορεί κανείς να βιντεοσκοπήσει ένα σταθερό και άκαμπτο αντικείμενο, ή μέρος του, με μια συνεχή κίνηση σε τόξο και γύρω από αυτό. Τα στοιχεία («καρέ») της προσληφθείσας ακολουθίας εικόνων περιέχουν πληροφορίες για τη 3D γεωμετρία του αντικειμένου, οι οποίες εκφράζονται ως διαφορές θέσης και όψης του αντικειμένου στις εικόνες. Αντικείμενο της διπλωματικής εργασίας είναι η έρευνα πάνω στη 3D μηχανική όραση με στόχο την εύρεση της τροχιάς της κινούμενης κάμερας και την εκτίμηση της 3D γεωμετρίας του αντικειμένου. Το πρόβλημα που καλείται να λύσει η διπλωματική εργασία είναι τμήμα του καλούμενου προβλήματος της στερεόψης (stereopsis). 1.2 Το πρόβλημα της στερεόψης Το πρόβλημα της στερεόψης, γενικότερα, έγκειται στο πώς είναι δυνατό να εξαχθούν πληροφορίες για την τρισδιάστατη δομή μιας σκηνής (αντικειμένου ή συνόλου αντικειμένων ή ολόκληρου χώρου) η οποία απεικονίζεται σε δυο οι περισσότερες εικόνες που έχουν ληφθεί από διαφορετικές οπτικές γωνίες. Το πρόβλημα της στερεόψης μπορεί να χωριστεί σε δυο επιμέρους προβλήματα: - το πρόβλημα της αντιστοίχησης και - το πρόβλημα της ανακατασκευής. Το πρόβλημα της αντιστοίχησης (correspondence problem), για ένα δεδομένο ζεύγος εικόνων, είναι να βρεθούν σημεία της πρώτης και δεύτερης εικόνας που αποτελούν προβολές του ίδιου τρισδιάστατου σημείου της σκηνής που απεικονίζεται στις 7

εικόνες, ή με άλλα λόγια να βρεθούν σημεία του 3D χώρου που εμφανίζονται και στις δυο εικόνες και πού εμφανίζονται αυτά σε κάθε εικόνα. Στο πρόβλημα της ανακατασκευής (reconstruction problem), γίνεται προσπάθεια να δοθεί απάντηση στο ερώτημα: «Δεδομένων των αντιστοιχιών σημείων της πρώτης και δεύτερης εικόνας, τι συμπεράσματα μπορούν να προκύψουν σχετικά με την 3D δομή και τη θέση στο χώρο των παρατηρούμενων αντικειμένων; Ποια είναι η κίνηση της κάμερας, κατά πόσο μετακινείται και περιστρέφεται από θέση σε θέση;» Στην περίπτωσή μας σχεδιάζουμε τον αλγόριθμο ώστε να εφαρμόζεται όχι μόνο για δυο, αλλά για ακολουθία πολλών εικόνων έτσι ώστε να έχουμε πληρέστερη ανακατασκευή, με την έννοια της όχι μόνο πιο αξιόπιστης, αλλά και πιο ολοκληρωμένης ανακατασκευής με την εμφάνιση σημείων που από κάποιες οπτικές γωνίες θα παρέμεναν αθέατα. Οι εικόνες αυτές μπορούν να προέλθουν είτε από διαδοχικές φωτογραφίες με κινούμενη φωτογραφική μηχανή είτε από βίντεο με κινούμενη κάμερα. Παίρνοντας λοιπόν εικόνες από την ίδια σκηνή μέσω βαθμονομημένης κάμερας, γνωρίζοντας δηλαδή τις εσωτερικές παραμέτρους της, και βρίσκοντας σημεία τα οποία προβάλλονται σε ζεύγη διαδοχικών εικόνων, καταπιαστήκαμε με την εύρεση της τροχιάς της κινούμενης κάμερας και την εκτίμηση των 3D συντεταγμένων των σημείων αυτών. Χρησιμοποιήσαμε μεθόδους όπως ο αλγόριθμος MNCC, ο αλγόριθμος των 8 σημείων, η μέθοδος Triangulation και η μέθοδος RANSAC, όπως αυτές αναφέρονται στη συνέχεια. 1.3 Εφαρμογές Η 3D ανακατασκευή αντικειμένων είναι στις μέρες μας ένα ενεργό πεδίο στον τομέα της Όρασης μέσω Υπολογιστή (Computer Vision) και μπορεί να βρει εφαρμογές οπουδήποτε ο πραγματικός κόσμος θέλουμε να γίνει αντιληπτός ή να μελετηθεί μέσω ηλεκτρονικού υπολογιστή. 8

Ένα παράδειγμα εφαρμογής της τρισδιάστατης ανακατασκευής αποτελεί δυνητικά ο τομέας της αρχαιολογίας. Μεγάλοι αρχαιολογικοί χώροι μπορούν αφού βιντεοσκοπηθούν από διάφορες οπτικές γωνίες να μελετηθούν έπειτα από τους ειδικούς. Το 3D μοντέλο που προκύπτει βοηθά τους επιστήμονες στην πιο εύκολη μελέτη του χώρου αλλά και στην αναπαράστασή του για λόγους ερευνητικούς ή παρουσίασης σε μουσεία ή σε εκπαιδευτικά βίντεο και παιχνίδια. Η ίδια διαδικασία μπορεί να ακολουθηθεί και για κατεστραμμένα μνημεία, αγάλματα, αγγεία, τα οποία μπορούν να ανακατασκευαστούν ψηφιακά και να αποκτήσουν την αρχική τους όψη. Σημαντικές εφαρμογές βρίσκει η 3D ανακατασκευή και η εκτίμηση της κίνησης στον τομέα της ρομποτικής (path planning, map acquisition). Κινούμενα ρομπότ, παίρνοντας διαρκείς φωτογραφίες από το γύρο χώρο, μπορούν να κινηθούν σ αυτόν αποφεύγοντας τα εμπόδια αλλά και να τον χαρτογραφήσουν. Η εφαρμογή αυτή μπορεί να επεκτείνεται σε χρήσεις μικροσκοπικής κλίμακας, όπως η είσοδος ρομπότ στον ανθρώπινο οργανισμό για την καταπολέμηση ιών, μικροβίων, την ενίσχυση της άμυνάς του, σε οικιακές χρήσεις, ή ακόμη και σε χρήσεις σε διαστημικά προγράμματα χαρτογράφησης επιφανειών πλανητών και δορυφόρων. Η σχεδίαση εικονικών περιβάλλοντων, η αναγνώριση ατόμων μέσω του προσώπου ή των σωματικών τους αναλογιών ή κινήσεων, καθώς και οι αναρίθμητες εφαρμογές της τρισδιάστατης ανακατασκευής στην ιατρική και φαρμακευτική επιστήμη, στην επιστήμη της γενετική και της βιολογίας, είναι μερικές ακόμη από τις εφαρμογές που μπορεί να βρει στη ζωή του ανθρώπου. 9

10

Κεφάλαιο 2 2.1. Βασικό Μοντέλο Pinhole Κάμερας Στο κεφάλαιο αυτό περιγράφεται το μοντέλο της κάμερας που χρησιμοποιήθηκε για την λήψη των εικόνων. Το βασικό μοντέλο της pinhole κάμερας θεωρείται το πιο απλό και ιδανικό μοντέλο [1]. Έχει μία μικρή οπή διαμέσου της οποίας διέρχεται το φως προτού δημιουργήσει μια ανεστραμμένη εικόνα στην επιφάνεια της κάμερας. Για λόγους απλότητας θεωρείται ότι η επιφάνεια της κάμερας βρίσκεται ανάμεσα στην οπή και το αντικείμενο όποτε η εικόνα δεν είναι πλέον ανεστραμμένη. Η απεικόνιση των τριών διαστάσεων σε δύο καλείται προοπτική προβολή και αποτελεί θεμελιώδη έννοια για την κατανόηση της τρισδιάστατης ανάλυσης. Για να εξαχθεί η τρισδιάστατη πληροφορία από μία εικόνα πρέπει να καθοριστούν οι παράμετροι που σχετίζουν τη θέση ενός σημείου του χώρου με τη θέση του στην εικόνα. Η διαδικασία αυτή ονομάζεται βαθμονόμηση. 2.2 Βαθμονόμηση βασικού μοντέλου pinhole κάμερας Αρχικά θα εξεταστεί πώς σημεία του ευκλείδειου τρισδιάστατου χώρου απεικονίζονται στο διδιάστατο χώρο. Παρακάτω απεικονίζεται μία κάμερα, που θεωρείται τοποθετημένη στην αρχή του καρτεσιανού συστήματος συντεταγμένων, με κέντρο το σημείο C που ονομάζεται κέντρο της κάμερας ή οπτικό κέντρο. Θεωρείται ένα επίπεδο όπου προβάλλονται τα σημεία του χώρου το οποίο ονομάζεται εστιακό επίπεδο ή επίπεδο προβολής. Το κέντρο του εστιακού επιπέδου θεωρείται ότι είναι η προβολή του κέντρου του καρτεσιανού συστήματος συντεταγμένων. Η ευθεία που ξεκινά από το σημείο C και είναι κάθετη στο εστιακό επίπεδο ονομάζεται οπτικός άξονας (principal axis) και το σημείο που τέμνει το εστιακό επίπεδο είναι το κέντρο της εικόνας. Η απόσταση f 11

ανάμεσα στο κέντρο της εικόνας και το οπτικό κέντρο ονομάζεται εστιακή απόσταση ή εστιακό μήκος (focal length). Σχήμα 2.1. Γεωμετρία Έστω ότι υπάρχει σημείο Β στο χώρο με συντεταγμένες i i B = ( X,Y,Z). Το σημείο b = (x,y,f) του εστιακού επιπέδου στο οποίο απεικονίζεται είναι το σημείο της τομής της ευθείας που ενώνει το σημείο Β και το κέντρο της κάμερας με το εστιακό επίπεδο. Με χρήση όμοιων τριγώνων αφού αναλυθεί η παραπάνω τρισδιάστατη απεικόνιση στα σχήματα 2.2(α) και 2.2(β) (α) Σχήμα 2.2. Όμοια τρίγωνα (α) στο xz επίπεδο (β) στο yz επίπεδο (β) προκύπτει ότι το σημείο b απεικονίζεται στο σημείο T (fxz,fyz,f) στο εστιακό επίπεδο. Αγνοώντας την τρίτη συντεταγμένη που είναι σταθερή για όλα τα σημεία του εστιακού επιπέδου παρατηρείται ότι ισχύει η σχέση: 12

T T ( X, Y, Z) ( f X Z, f Y Z) (2.1) που περιγράφει την προβολή του σημείου Β από τις τρισδιάστατες συντεταγμένες στις συντεταγμένες πάνω στην εικόνα. Η (2.1) δύναται σε ομογενείς συντεταγμένες να γραφεί με την μορφή πολλαπλασιασμού πινάκων ως εξής: X X fx f 0 0 0 Y Y fy = 0 f 0 0 Z Z Z 0 0 1 0 1 1 (2.2) Ο πίνακας μπορεί να γραφεί ως diag(f,f,1)[i 0] όπου dia g(f,f,1) είναι διαγώνιος πίνακας και το [I 0] αναπαριστά ένα πίνακα που χωρίζεται σε ένα 3 3 μοναδιαίο πίνακα και ένα μηδενικό πίνακα-στήλη διάστασης 3 1. O πίνακας P= diag(f,f,1)[i 0] ονομάζεται πίνακας προβολής (projection matrix) και από την εξίσωση b=pb προκύπτουν οι συντεταγμένες b στην εστιακή εικόνα, στις οποίες προβάλλεται το σημείο του χώρου B [2]. Η σχέση (2.2) ισχύει στην περίπτωση που το κέντρο της εικόνας έχει T T συντεταγμένες: p = (0,0,f). Συνήθως όμως είναι: p = (x,y,f) (σχήμα 2.3). 0 0 Επιπλέον αν η κάμερα έχει παράμετρο παραμόρφωσης s (σχήμα 2.4) τότε ισχύει: X X fx + zx0 f s x0 0 Y Y fy + zy0 = 0 f y0 0 Z Z Z 0 0 1 0 1 1 (2.3) 13

Σχήμα 2.3.Για κέντρο εικόνας p. Σχήμα 2.4. Παράμετρος παραμόρφωσης Εάν τεθεί : f s x0 K 0 f y = 0 0 0 1 τότε (2.3) αποκτά τη μορφή: b = K [I 0]Xcam (2.4) Ο πίνακας Κ ονομάζεται πίνακας βαθμονόμησης [1]. Το νέο σύστημα συντεταγμένων που έχει σαν κέντρο της εικόνας το σημείο p T = (x 0,y 0,f) ονομάζεται σύστημα συντεταγμένων της κάμερας και για λόγους έμφασης έχει γραφτεί το ( X, Y, Z) T ως Xcam [2]. Ο πίνακας προβολής, για τον οποίο θα ισχύει b = PX cam, θα είναι ο P = K[I 0] 14

2.3 Περιστροφή και μεταφορά της κάμερας Γενικά, τα σημεία στο χώρο εκφράζονται στο παγκόσμιο σύστημα συντεταγμένων. Τα δύο συστήματα συντεταγμένων συνδέονται μέσω περιστροφής και μεταφοράς (σχήμα 2.5). Σχήμα 2.5. Από τις συντεταγμένες της κάμερας στο παγκόσμιο σύστημα συντεταγμένων. Εάν X = ( x,y,z ) s s s T είναι ένα μη ομογενές διάνυσμα που αναπαριστά τις συντεταγμένες ενός σημείου στο παγκόσμιο σύστημα συντεταγμένων και διάνυσμα που αναπαριστά το ίδιο σημείο στο σύστημα συντεταγμένων της κάμερας, τότε γράφεται X cam = R(X C), όπου το C είναι το διάνυσμα ΟC εκφρασμένο στο παγκόσμιο σύστημα συντεταγμένων, και R είναι ένας 3x3 πίνακας περιστροφής που εκφράζει τον προσανατολισμό του συστήματος συντεταγμένων της κάμερας. X cam το Η παραπάνω εξίσωση σε ομογενείς συντεταγμένες γράφεται: X R RC Y R RC Xcam = = X 0 1 Z 0 1 1 (2.5) 15

Από τις σχέσεις (2.4) και (2.5) προκύπτει για το σημείο Χ του παγκόσμιου συστήματος συντεταγμένων η σχέση: b = KR [I C]X (2.6) Οι παράμετροι που περιέχονται στον πίνακα K λέγονται εσωτερικές παράμετροι της κάμερας [1, 2]. Οι παράμετροι R και C που συσχετίζουν την θέση και τον προσανατολισμό της κάμερας με το παγκόσμιο σύστημα συντεταγμένων ονομάζονται εξωτερικές παράμετροι της κάμερας. Στην περίπτωση αυτή ο πίνακας προβολής της κάμερας θα είναι ο P = K R [ I C ]. Συχνά είναι πιο βολικό να μην κάνουμε φανερό το κέντρο της κάμερας στην παραπάνω σχέση, αλλά να εκφράζουμε το μετασχηματισμό από το παγκόσμιο σύστημα συντεταγμένων σε εκείνο της κάμερας με τη σχέση Χcam = RX + T. Σ αυτήν την περίπτωση ο πίνακας προβολής είναι ο όπου T = R C. P = K [ R T ] 2.4 Ακτινική Παραμόρφωση Η παραμόρφωση γενικά περιγράφει την απόκλιση ενός σημείου στην εικόνα από την θέση που προβλέπεται από το βασικό μοντέλο της pinhole κάμερας. Η πιο συνηθισμένη παραμόρφωση που παρουσιάζεται κατά μήκος των ακτινικών διευθύνσεων στις κάμερες, που έχουν ευρύ οπτικό πεδίο, ονομάζεται ακτινική παραμόρφωση. Το μοντέλο που περιγράφει την εξισορρόπηση της ακτινικής παραμόρφωσης της εικόνας είναι [5]: 16

x xd 2 4 (1 a1r a 2r ) y = + + y d όπου με (x,y ) αναπαρίστανται οι συντεταγμένες των παραμορφωμένων σημείων, (x,y) είναι οι πραγματικές συντεταγμένες των σημείων στην εικόνα εάν δεν υπήρχε παραμόρφωση ενώ d d r = x + y 2 2 2 d αναφέρονται στον βαθμό παραμόρφωσης [5]. d και a1, a 2 είναι παράμετροι της κάμερας που 17

18

Κεφάλαιο 3 3.1 Αντιστοίχηση κοινών σημείων Το πρόβλημα της αντιστοίχησης (correspondence problem), για ένα δεδομένο ζεύγος εικόνων, είναι να βρεθούν σημεία της πρώτης και δεύτερης εικόνας που αποτελούν προβολές του ίδιου τρισδιάστατου σημείου της σκηνής που απεικονίζεται σ αυτές τις εικόνες. Ένα παράδειγμα φαίνεται στις δυο εικόνες που ακολουθούν: Εικόνα 3.1 Εικόνα 3.2 Οι εικόνες είναι τραβηγμένες από ελαφρώς διαφορετική θέση. Στις εικόνες αυτές αναζητούνται σημεία τα οποία αντιστοιχούν στο ίδιο σημείο του χώρου. Τέτοια σημεία είναι σημειωμένα με τα κόκκινα κυκλάκια. Αφού βρεθούν τέτοια σημεία, τα οποία είναι εκφρασμένα σε 2D συντεταγμένες, τις pixel συντεταγμένες, τοποθετούνται σε πίνακες της μορφής x 11 y 11 x 21 y 21 x 12 y 12 x 22 y 22 x 13 y 13 x 23 y 23 x 14 y 14 x 24 y 24 x 15 y 15 x 25 y 25............ x 1Ν y 1Ν x 2Ν y 2Ν 19

όπου στις δυο πρώτες στήλες αποθηκεύονται οι συντεταγμένες των σημείων της πρώτης εικόνας και στις τρίτη και τέταρτη στήλες οι συντεταγμένες των αντίστοιχών τους σημείων στη δεύτερη εικόνα. Η πλήρης διαδικασία που ακολουθείται για να βρεθούν σε δυο εικόνες αντίστοιχα σημεία παρουσιάζεται αναλυτικότερα στη συνέχεια. 3.2 Αποπαραμόρφωση των εικόνων Πριν προχωρήσουμε στην ανίχνευση κοινών σημείων σε δυο εικόνες, θα πρέπει πρώτα να σιγουρευτούμε ότι οι εικόνες που έχουμε στην κατοχή μας είναι στην καλύτερη δυνατή κατάσταση. Είναι πολύ συνηθισμένο στις pinhole κάμερες ή σε κάμερες με fish-eye φακούς, το αντικείμενο ή η σκηνή που φωτογραφίζεται να υπόκειται σε κάποια παραμόρφωση. Αυτό σημαίνει ότι γραμμές που στην πραγματικότητα, στον τρισδιάστατο χώρο, είναι ευθείες, στις εικόνες φαίνονται, λιγότερο ή περισσότερο, καμπύλες. Αυτό δυσχεραίνει το έργο της εύρεσης γωνιών ώστε να προκύψουν κοινά σημεία μεταξύ των εικόνων, αλλά και της μετέπειτα σωστής ανακατασκευής των αντικειμένων που απεικονίζονται. Για το λόγο αυτό, είναι απαραίτητο πριν από οποιαδήποτε επεξεργασία, να προβούμε στην αποπαραμόρφωση των εικόνων. Ο σκοπός αυτής της διαδικασίας είναι να βρεθούν οι παράμετροι της παραμόρφωσης ή, ισοδύναμα, να βρεθεί ο μετασχηματισμός ώστε η προβολή κάθε ευθείας γραμμής του 3D χώρου πάνω στο επίπεδο προβολής της κάμερας να είναι επίσης ευθεία. Συνεπώς, το μόνο που χρειάζεται είναι να βρεθεί ένας τρόπος ώστε να εντοπίζονται οι προβολές των ευθειών του 3D χώρου πάνω στην εικόνα (οι οποίες δεν είναι ευθείες εφόσον έχουν υποστεί παραμόρφωση, αλλά καμπύλες), και ένας τρόπος να μετρηθεί ο βαθμός παραμόρφωσης της κάθε ευθείας στην εικόνα. Έπειτα, μεταβάλλουμε τις παραμέτρους παραμόρφωσης, μέχρι να ελαχιστοποιήσουμε την παραμόρφωση των μετασχηματισμένων ακμών. Μια πολύ αξιόπιστη μέθοδος περιγράφεται στην πηγή [4]. 20

Η διαδικασία που ακολουθείται είναι η εξής: Για κάθε εικόνα, γίνεται αρχικά μια ανίχνευση των ακμών που πιθανώς να είναι ευθείες ή τμήματα ευθειών που θα πρέπει να ενωθούν, με μια μέθοδο που καλείται sub-pixel edge detection. Για αρχικές τιμές των παραμέτρων παραμόρφωσης, γίνεται μια πρώτη αποπαραμόρφωση της εικόνας. Στη συνέχεια γίνεται η καλούμενη πολυγωνική προσέγγιση (polygonal approximation) η οποία ουσιαστικά εντοπίζει αν κάποιες και ποιες από τις αποπαραμορφωμένες ακμές αποτελούν τμήματα του ίδιου ευθύγραμμου τμήματος στον 3D χώρο, ώστε να ενωθούν μεταξύ τους. Τέλος, υπολογίζεται το σφάλμα της παραμόρφωσης και στη συνέχεια μεταβάλλονται οι παράμετροι της παραμόρφωσης ώστε να ελαχιστοποιηθεί αυτό το σφάλμα, με τη χρήση μη γραμμικών μεθόδων ελαχιστοποίησης ελαχίστων τετραγώνων. Μερικά παραδείγματα για να φανεί η λειτουργία αυτής της μεθόδου φαίνονται στις παρακάτω εικόνες. Οι εικόνες 3.3.α και 3.4.α δείχνουν δυο αρχικές εικόνες, όπως έχουν τραβηχτεί από μια pinhole κάμερα και μια κάμερα με φακό fish-eye. Οι εικόνες 3.3.β και 3.4.β είναι οι εικόνες που προκύπτουν μετά την αποπαραμόρφωση. Εικόνα 3.3.α Εικόνα 3.4.α Εικόνα 3.3.β Εικόνα 3.4.β 21

3.3 Εντοπισμός των γωνιών σε μια εικόνα Το επόμενο στάδιο είναι ο εντοπισμός των γωνιών σε μια εικόνα [2]. Αρχικά γίνεται μετατροπή της εικόνας από RGB σε grayscale και έπειτα αποθηκεύεται σε έναν διδιάστατο πίνακα του οποίου οι τιμές κυμαίνονται από 0 έως 255. Για την εύρεση των γωνιών της εικόνας υπάρχει ο κατάλληλος μαθηματικός τρόπος, σύμφωνα με τον οποίο υπολογίζεται η κλίση όλων των σημείων μιας εικόνας στο χώρο και έπειτα οι ιδιοτιμές όλων των σημείων, με τη βοήθεια των οποίων ανιχνεύονται οι γωνίες μιας εικόνας. Αν, για παράδειγμα, η αρχική εικόνα είναι η εικόνα 3.5, οι γωνίες που υπολογίζονται φαίνονται στην εικόνα 3.6. Επειδή το πλήθος των γωνιών είναι μεγάλο και πολλές από τις γωνίες που έχουν υπολογιστεί είναι τόσο κοντά ώστε μπορεί να αποτελούν τμήμα της ίδια γωνίας στον 3D χώρο, επιλέγονται οι πιο έντονες από τις γωνίες που έχουν υπολογιστεί και ταυτόχρονα ορίζεται ένα όριο ελάχιστης απόστασης μεταξύ των γωνιών. Έπειτα από αυτόν τον περιορισμό απομένουν οι γωνίες που φαίνονται στην εικόνα 3.7. Εικόνα 3.5 22

Εικόνα 3.6 Εικόνα 3.7 Η ίδια διαδικασία εύρεσης των γωνιών ακολουθείται για καθεμιά από τις εικόνες ξεχωριστά. Στο σημείο αυτό σκοπός είναι να αντιστοιχηθούν οι όμοιες γωνίες που εμφανίζονται σε κάθε ζεύγος διαδοχικών εικόνων, οι γωνίες δηλαδή που αναφέρονται στο ίδιο σημείο του τρισδιάστατου χώρου [2]. Αρχικά σχηματίζεται ένας πίνακας, έστω Eigenvalues, για κάθε εικόνα ξεχωριστά, ο οποίος περιέχει για κάθε τυχαίο σημείο της αρχικής εικόνας την μικρότερη ιδιοτιμή του, έχει δηλαδή το ίδιο μέγεθος με την αρχική εικόνα και τιμές την ελάχιστη ιδιοτιμή για κάθε σημείο. Στη συνέχεια, σε νέο πίνακα, έστω Sorteigval, ο οποίος σχηματίζεται για κάθε εικόνα ενός ζεύγους, αποθηκεύονται οι πιο έντονες γωνίες που απέχουν μεταξύ τους απόσταση τουλάχιστον όση επιβάλλεται από τον περιορισμό που τέθηκε προηγουμένως. Επιλέγεται η πρώτη γωνία που έχει αποθηκευτεί στον πίνακα Sorteigval της πρώτης εικόνας. Η γωνία αυτή εντοπίζεται με βάση τις συντεταγμένες της στον πίνακα Eigenvalues, της ίδιας εικόνας, και επιλέγεται μια περιοχή σημείων, τα οποία είναι γειτονικά στην επιλεγμένη γωνία, δηλαδή ένα παράθυρο, το w r. Έπειτα, για κάθε αποθηκευμένη γωνία στον πίνακα Sorteigval της δεύτερης εικόνας, της οποίας οι συντεταγμένες δεν απέχουν πολύ από τις συντεταγμένες της γωνίας της πρώτης εικόνας, ακολουθείται η εξής διαδικασία: η γωνία εντοπίζεται με βάση τις συντεταγμένες της στον πίνακα Eigenvalues της δεύτερης εικόνας, επιλέγεται μια περιοχή σημείων που είναι γειτονικά στην επιλεγμένη κάθε φορά γωνία. Η περιοχή αυτή, το παράθυρο, έστω ότι καλείται w l. 23

Εφόσον επιλεγεί η περιοχή w r στη δεξιά εικόνα και η περιοχή w l στην αριστερή, χρησιμοποιείται ένα μέτρο σύγκρισης ώστε να βρεθούν οι όμοιες γωνίες. 3.4 Επιλογή του αλγόριθμου σύγκρισης γωνιών Υπάρχουν διάφοροι αλγόριθμοι για τη σύγκριση των γωνιών. Από τους πιο δημοφιλείς είναι η μέθοδος του αθροίσματος της διαφοράς τετραγώνων (Sum of Squared Differences, SSD) [7] και ο αλγόριθμος της τροποποιημένης κανονικοποιημένης σταυρωτής συσχέτισης (Modified Normalized Cross Correlation, MNCC) [6]. Η μέθοδος SSD αντιστοιχεί τα χαρακτηριστικά σημεία δυο εικόνων, χρησιμοποιώντας περιοχές γύρω από τα χαρακτηριστικά σημεία και υπολογίζοντας το άθροισμα της διαφοράς των τετραγώνων μεταξύ των σημείων των περιοχών αυτών. Όταν το άθροισμα αυτό είναι το ελάχιστο τότε η αντιστοίχηση είναι η καλύτερη δυνατή. Αν και η μέθοδος SSD είναι ταχύτερη από την MNCC, εντούτοις χρησιμοποιείται η MNCC επειδή παρουσιάζει μεγαλύτερη αντοχή σε σφάλματα λόγω της διαφοράς στη φωτεινότητα που μπορεί να παρουσιαστεί ανάμεσα στις δυο εικόνες του ζεύγους που εξετάζεται. 3.5 Μέτρο σύγκρισης ομοιότητας MNCC Η φιλοσοφία του αλγόριθμου MNCC είναι η εξής [6]: Αρχικά, για κάθε παράθυρο που έχει επιλεγεί, υπολογίζεται το άθροισμα των στοιχείων του. Αν, έστω το παράθυρο είναι διαστάσεων Ν Ν, θα είναι όπως φαίνεται εδώ Ν Ν α 11 α 12...... α 1Ν α 21 α 22...... α 2Ν.............................. α Ν1 α Ν2...... α ΝΝ 24

όπου α (Ν+1)/2 είναι η επιλεγμένη γωνία και το άθροισμα που ζητείται θα είναι sum = N N a ij i= 1 j= 1. Έπειτα κάθε στοιχείο των δυο παραθύρων υψώνεται στο τετράγωνο και, για κάθε παράθυρο, υπολογίζεται το άθροισμα των τετραγώνων των στοιχείων του square = N N a 2 ij. i= 1 j= 1 Με τη βοήθεια των στοιχείων που έχουν ληφθεί μετά τους αρχικούς αυτούς υπολογισμούς, υπολογίζεται η διακύμανση (variance) κάθε παραθύρου ξεχωριστά variance = N 2 square sum 2 Ύστερα, πολλαπλασιάζεται κάθε στοιχείο του παραθύρου της δεξιάς εικόνας (w r ) με το αντίστοιχό του που βρίσκεται στο παράθυρο της αριστερής εικόνας (w l ) και υπολογίζεται το άθροισμα των γινομένων. Αν α ij συμβολίζονται τα στοιχεία του δεξιού παραθύρου w r και β ij τα αντίστοιχα του αριστερού w l, το παραπάνω άθροισμα υπολογίζεται ως εξής N N a ij i= 1 j= 1 sum _ product = β. ij Έπειτα, υπολογίζεται το γινόμενο των αθροισμάτων N N a ij i= 1 j= 1 product _ sum = β. N N i= 1 j= 1 ij Στη συνέχεια υπολογίζεται το άθροισμα των διακυμάνσεων των δυο παραθύρων var_ sum = variance1 + variance 2 25

Τέλος, υπολογίζεται η μεταβλητή score, η οποία δείχνει την πιθανότητα οι δυο γωνίες, που έχουν επιλεγεί αρχικά στις δυο εικόνες, να αντιστοιχούν στο ίδιο σημείο του αντικειμένου που απεικονίζουν οι δυο εικόνες. Η περιοχή τιμών της μεταβλητής score είναι -1 score 1, και όσο η τιμή της πλησιάζει στην τιμή 1, τόσο μεγαλύτερη είναι η πιθανότητα οι δυο επιλεγμένες γωνίες να αντιστοιχούν στο ίδιο σημείο του εικονιζόμενου αντικειμένου. Η μεταβλητή score υπολογίζεται μέσω της σχέσης 2 2 ( N sum _ product product _ sum) score =. var_ sum Η διαδικασία αυτή επαναλαμβάνεται για όλες τις αποθηκευμένες στον πίνακα Sorteigval γωνίες της πρώτης εικόνας και αποθηκεύονται όλες οι γωνίες και των δυο εικόνων που έχουν πολύ μεγάλη πιθανότητα να αντιστοιχούν στο ίδιο σημείο του εικονιζόμενου αντικειμένου. Έπειτα, η όλη διαδικασία επαναλαμβάνεται από τη αρχή, με τη διαφορά ότι αυτήν την φορά επιλέγονται πρώτα οι αποθηκευμένες στον πίνακα Sorteigval της δεύτερης εικόνας γωνίες και χρησιμοποιείται ο αλγόριθμος MNCC για να υπολογιστούν οι αντίστοιχές τους γωνίες που βρίσκονται στην πρώτη εικόνα. Η επανάληψη αυτή γίνεται για να εξασφαλιστεί μεγαλύτερη επιτυχία στην επιλογή των αντίστοιχων γωνιών, γιατί μια αντιστοιχία που βρέθηκε στην πρώτη επανάληψη μπορεί να μην παρουσιαστεί στη δεύτερη. Έτσι, επιλέγονται όσες αντίστοιχες γωνίες έχουν υπολογιστεί και με τους δυο τρόπους αντιστοίχησης. Μετά την αντιστοίχηση των όμοιων γωνιών σε ένα ζεύγος εικόνων, περνούμε στον προσδιορισμό της τροχιάς της κάμερας από την πρώτη θέση στη δεύτερη, καθώς και στην εκτίμηση των 3D συντεταγμένων των σημείων που απεικονίζουν οι γωνίες που υπολογίστηκαν. Για να θέσουμε τις βάσεις για τη λύση του προβλήματος της ανακατασκευής, χρειαζόμαστε πρώτα να μελετήσουμε τη γεωμετρία του χώρου σ αυτή την περίπτωση, την αποκαλούμενη επιπολική γεωμετρία [1, 2]. 26

Κεφάλαιο 4 4.1 Επιπολική γεωμετρία Για δυο φωτογραφίες, για δυο θέσεις της κάμερας δηλαδή, η επιπολική γεωμετρία φαίνεται στο παρακάτω σχήμα. Σχήμα 4.1. Επιπολική γεωμετρία Το σχήμα δείχνει δυο θέσεις της κάμερας απ όπου φωτογραφίζεται το σημείο του τρισδιάστατου χώρου Ρ. Τα κέντρα προβολής της κάμερας για την πρώτη και δεύτερη θέση είναι τα Ο 1 και Ο 2 αντίστοιχα και τα επίπεδα προβολής τα π 1 και π 2. Πάνω στα επίπεδα προβολής προβάλλονται τα σημεία του τρισδιάστατου χώρου, οι σκηνές που φωτογραφίζονται. Το σημείο Ρ φαίνεται και από τις δυο θέσεις της κάμερας και η προβολή του στο επίπεδο π 1 είναι το σημείο p 1 και στο επίπεδο π 2 το σημείο p 2. Η απόσταση των επιπέδων προβολής από τα κέντρα προβολής λέγεται εστιακή απόσταση ή εστιακό μήκος (focal length). Για τις δυο θέσεις της κάμερας τα εστιακά μήκη είναι τα f 1 και f 2, και επειδή έχουμε από πριν φροντίσει να κρατήσουμε 27

αμετάβλητες τις εσωτερικές παραμέτρους της κάμερας είναι f 1 = f 2. Για κάθε θέση της κάμερας ορίζουμε και ένα σύστημα συντεταγμένων, αρχή του οποίου θεωρείται το κέντρο προβολής της και ως άξονας z ο οπτικός άξονας (optical axis). Ο άξονας z τέμνει κάθετα το επίπεδο προβολής. Τα διανύσματα P 1 = [X 1,Y 1,Z 1 ] T και P 2 = [X 2,Y 2,Z 2 ] T αναφέρονται στο ίδιο σημείο του τρισδιάστατου χώρου, στο σημείο Ρ, εκφρασμένο όμως στα συστήματα συντεταγμένων της πρώτης και δεύτερης θέσης της κάμερας αντίστοιχα. Τα διανύσματα p 1 = [x 1,y 1,z 1 ] T και p 2 = [x 2,y 2,z 2 ] T αναφέρονται στις προβολές του σημείου Ρ στα επίπεδα προβολής π 1 και π 2 αντίστοιχα, και είναι εκφρασμένα στα αντίστοιχα συστήματα συντεταγμένων. Είναι ευνόητο πως για όλα τα σημεία θα έχουμε z 1 = f 1 και z 2 = f 2, μιας και ο άξονας Ζ τέμνει κάθετα το επίπεδο προβολής. Επομένως, οι προβολές των 3D σημείων στα επίπεδα προβολής μπορούν να θεωρηθούν ως σημεία του διδιάστατου χώρου, αφού το z παραμένει σταθερό. Τα συστήματα συντεταγμένων των δυο θέσεων της κάμερας σχετίζονται μεταξύ τους μέσω των εξωτερικών παραμέτρων (extrinsic parameters). Οι παράμετροι αυτές ορίζουν ένα μετασχηματισμό στον 3D χώρο, μέσω ενός διανύσματος μετατόπισης Τ = (Ο 2 Ο 1 ), και ενός πίνακα περιστροφής R. Για ένα σημείο Ρ στο χώρο, τα διανύσματα Ρ 1 και Ρ 2 στα δυο συστήματα αναφοράς συνδέονται με τη σχέση: P 2 = R(P 1 T) (4.1) Το όνομα «επιπολική γεωμετρία» χρησιμοποιείται επειδή τα σημεία στα οποία η γραμμή που ενώνει τα κέντρα προβολής Ο 1 και Ο 2 συναντά τα επίπεδα προβολής π 1 και π 2 ονομάζονται επίπολα. Τα επίπολα για την πρώτη και δεύτερη θέση της κάμερας συμβολίζονται στο σχήμα ως e 1 και e 2 αντίστοιχα. Από κατασκευής, το επίπολο e 1 αποτελεί τη προβολή του κέντρου προβολής Ο 2 στο επίπεδο προβολής π 1 και τούμπαλιν. Η σχέση μεταξύ ενός σημείου στον 3D χώρο, εκφρασμένου ως προς το σύστημα αναφοράς της θέσης της κάμερας, και της προβολής του στο επίπεδο προβολής της κάμερας είναι f i p i = Pi (4.2) Z i 28

όπου i = 1, 2 στο σχήμα 4.1. Αναφερόμενοι στο σχήμα 4.1, θα λέγαμε ότι το πρόβλημα της αντιστοίχησης είναι να βρεθεί για τις δυο θέσεις της κάμερας το σημείο Ρ του τρισδιάστατου χώρου που φαίνεται και στις δυο εικόνες και πού απεικονίζεται αυτό σε κάθε εικόνα, να βρεθούν τα σημεία δηλαδή που αντιστοιχούν στο ίδιο σημείο του 3D χώρου. Τα σημεία αυτά είναι συνήθως εκφρασμένα σε 2D pixel συντεταγμένες ξεκινώντας από την πάνω και αριστερή γωνία της εικόνας με συντεταγμένες (0,0) και αυξανόμενο x όσο πηγαίνουμε προς τα δεξιά και y όσο πηγαίνουμε προς τα κάτω. Στην περίπτωση μας γνωρίζουμε τα ζεύγη αυτά σε pixel συντεταγμένες και, γνωρίζοντας επίσης τις εσωτερικές παραμέτρους της κάμερας, μπορούμε να τα εκφράσουμε ως σημεία του 3D χώρου πάνω στα επίπεδα προβολής π 1 και π 2. Καλούμαστε έπειτα να βρούμε από αυτά τις συντεταγμένες του σημείου του 3D χώρου το οποίο προβάλλεται πάνω στα επίπεδα προβολής στα σημεία αυτά. Το πρόβλημα λοιπόν της ανακατασκευής είναι, ενώ γνωρίζουμε τα p 1 και p 2, όπως εμφανίζονται στο σχήμα 2, να βρούμε το σημείο Ρ. Το επίπεδο που ορίζεται από τα κέντρα προβολής Ο 1 και Ο 2 και το σημείο Ρ, ονομάζεται επιπολικό επίπεδο. Ως τέτοιο θα πρέπει να ισχύει μεταξύ των διανυσμάτων P 1, T και Ρ 1 - Τ σχέση (P 1 T) T T P 1 = 0 και με τη χρήση της σχέσης (4.1) έχουμε (R T P 2 ) Τ T P 1 = 0 (4.3) Ισχύει όμως T P 1 = SP 1 όπου 29

0 T z Ty S = Tz 0 Tx. Ty Tx 0 (4.4) Έτσι η σχέση (4.3) γίνεται P 2 T EP 1 = 0 (4.5) με Ε = RS. Ο πίνακας Ε αποκαλείται βασικός πίνακας (Essential matrix) [1, 2]. Χρησιμοποιώντας τη σχέση (4.2) και διαιρώντας με Z 2 Z 1, η (4.4) μπορεί να γραφεί ως εξής: p 2 T Ep 1 = 0, (4.6) όπου p 1, p 2 τα διανύσματα των προβολών του σημείου Ρ πάνω στα επίπεδα προβολής π 1 και π 2, εκφρασμένα στα συστήματα αναφοράς της κάθε θέσης της κάμερας (camera coordinates). Σημειώνουμε ότι μέχρι στιγμής χρησιμοποιούμε συντεταγμένες στο σύστημα συντεταγμένων που ορίζεται σε κάθε θέση της κάμερας. Στην πράξη όμως, τα κοινά σημεία που βρίσκουμε σε δυο εικόνες είναι εκφρασμένα σε pixel συντεταγμένες, ως διδιάστατα σημεία πάνω στην εικόνα. Ως εκ τούτου, για να μπορέσουμε να χρησιμοποιήσουμε τον Essential πίνακα χρειάζεται να γνωρίζουμε το μετασχηματισμό από τις συντεταγμένες της κάμερας στις pixel συντεταγμένες. Αυτό ακριβώς γίνεται με τη γνώση των εσωτερικών παραμέτρων της κάμερας. Έστω Κ ο πίνακας των εσωτερικών παραμέτρων της κάμερας. Έχει διαστάσεις 3 3 και ενώ γενικά αλλάζει για διαφορετική κάμερα ή ακόμη και για την ίδια κάμερα, στη συγκεκριμένη περίπτωση παραμένει σταθερός καθόλη τη διάρκεια λήψης φωτογραφιών. Αν συμβολίσουμε px 1 και px 2 τα σημεία σε pixel συντεταγμένες που 30

αντιστοιχούν στα σημεία p 1 και p 2 εκφρασμένα στις συντεταγμένες της κάμερας, τότε ισχύει η σχέση: p i = K -1 px i για i = 1, 2. Αντικαθιστώντας στη σχέση (4.6) παίρνουμε px 2 T Fpx 1 = 0 (4.7) όπου F = K -T EK -1 O F ονομάζεται θεμελιώδης πίνακας (fundamental matrix) και, όπως είναι φανερό, η γνώση του επιτρέπει την ανακατασκευή της επιπολικής γεωμετρίας χωρίς καμιά πληροφορία για τις εσωτερικές ή εξωτερικές παραμέτρους. Χάριν πληρότητας της παρουσίασης, αξίζει να αναφερθεί ότι αν οι πίνακες των εσωτερικών παραμέτρων για τις δυο θέσεις της κάμερας (ή για δυο διαφορετικές κάμερες στην πρώτη και δεύτερη θέση) διέφεραν και ισούνταν με Κ 1 και Κ 2 για την πρώτη και δεύτερη θέση αντίστοιχα, θα ίσχυαν οι σχέσεις p i = K i -1 px i για i = 1, 2 και px 2 T Fpx 1 = 0 όπου όμως F = K 2 -T EK 1-1. 31

4.2 Ο αλγόριθμος των 8 σημείων Για να υπολογίσουμε τον βασικό, Ε, και τον θεμελιώδη, F, πίνακα, χρησιμοποιούνται διάφορες μέθοδοι. Η πιο δημοφιλής, κυρίως για την απλότητα που παρουσιάζει, είναι ο αλγόριθμος των 8 σημείων (8-point algorithm) [8], που έχει πάρει το όνομά του από τον ελάχιστο απαιτούμενο αριθμό γνωστών ζευγών αντίστοιχων σημείων που μας επιτρέπουν να υπολογίσουμε τους E και F. Η ιδέα πίσω από τον αλγόριθμο είναι η εξής: Θεωρούμε ότι έχουμε καταφέρει να βρούμε κ αντιστοιχίες σημείων από τις δυο εικόνες που μελετούμε. Οι αντιστοιχίες αυτές μπορεί να είναι εκφρασμένες είτε σε συντεταγμένες pixel (όπως οι px 1 και px 2 ) είτε εκφρασμένες στο σύστημα αναφοράς της κάμερας (όπως οι p 1 και p 2 ). Στην πρώτη περίπτωση υπολογίζουμε τον F πίνακα, ενώ στη δεύτερη τον E. Θεωρούμε ότι γνωρίζουμε τις pixel συντεταγμένες των αντίστοιχων σημείων και καλούμαστε να υπολογίσουμε τον πίνακα F (η άλλη περίπτωση, όπου υπολογίζουμε τον Ε, προκύπτει εντελώς ανάλογα). Κάθε αντιστοιχία δίνει μια ομογενή γραμμική εξίσωση της μορφής px T 2 Fpx 1 = 0 για τα εννιά στοιχεία του F (διαστάσεις 3 3). Οι εξισώσεις αυτές σχηματίζουν ένα ομογενές γραμμικό σύστημα. Οι πίνακες F και Ε έχουν 8 βαθμούς ελευθερίας, οπότε μας αρκούν 8 τέτοιες εξισώσεις για να προσδιοριστούν επακριβώς. Αν έχουμε, λοιπόν, τουλάχιστον 8 αντιστοιχίες (δηλ. κ 8), τα 9 στοιχεία του πίνακα F μπορούν να καθοριστούν ως η μη μηδενική λύση του συστήματος. Εφόσον το σύστημα είναι ομογενές, η λύση είναι μοναδική, συμπεριλαμβανομένου όμως ενός παράγοντα κλίμακας. Αν χρησιμοποιούμε περισσότερα από 8 σημεία, οπότε το σύστημα είναι υπέρ-καθορισμένο, η λύση μπορεί να υπολογιστεί μέσω τεχνικών SVD (Singular Value Decomposition). Αν A είναι ο πίνακας του συστήματος (ΑF = 0) και A = UDV T, η λύση είναι η στήλη του V που αντιστοιχεί στη μοναδική μηδενική singular τιμή του A. Λόγω θορύβου, αριθμητικών λαθών ή ανακριβών αντιστοιχιών, ενδέχεται να μην υπάρχει μηδενική singular τιμή. Στην περίπτωση αυτή παίρνουμε την ελάχιστη singular τιμή του πίνακα Α. Ο πίνακας F που υπολογίζεται είναι σχεδόν πάντοτε nonsingular. Για να είμαστε απολύτως βέβαιοι όμως, υπολογίζουμε τον SVD του πίνακα F, F = UDV T, και θέτουμε τη μικρότερη singular τιμή του διαγώνιου πίνακα D ίση με το μηδέν. Ο διαγώνιος πίνακας γίνεται D και ο διορθωμένος F δίνεται πλέον από τη σχέση F = UD V T. 32

Για να αποφύγουμε αριθμητικές αστάθειες, ο αλγόριθμος των 8 σημείων πρέπει να υλοποιείται με προσοχή. Η βασικότερη ενέργεια που απαιτείται να γίνει είναι να κανονικοποιηθούν οι συντεταγμένες των αντίστοιχων σημείων ώστε τα στοιχεία του Α να είναι του ίδιου μεγέθους [14]. Ένας τρόπος είναι να εκφράσουμε αρχικά τις συντεταγμένες των σημείων σε σχέση με τις συντεταγμένες του κέντρου της εικόνας και έπειτα να διαιρέσουμε κάθε σημείο-διάνυσμα με το μέτρο του ώστε να γίνει μοναδιαίου μέτρου. Τονίζεται πάλι ότι η μεθοδολογία που ακολουθείται για να βρούμε τον πίνακα Ε είναι εντελώς ίδια, με τη μόνη διαφορά ότι ως είσοδο έχουμε τις αντιστοιχίες εκφρασμένες στα συστήματα αναφοράς της κάθε θέσης της κάμερας, p 1 και p 2. Αν δε γνωρίζουμε τις εσωτερικές παραμέτρους της κάμερας, αλλά μόνο τις αντιστοιχίες των σημείων εκφρασμένες σε pixel συντεταγμένες, τότε με τον αλγόριθμο των 8 σημείων βρίσκουμε τον πίνακα F. Αν γνωρίζουμε από πριν τις εσωτερικές παραμέτρους (όπως στην περίπτωσή μας), μπορούμε να υπολογίσουμε με τον αλγόριθμο αυτό απευθείας τον πίνακα Ε. Ο υπολογισμός του Ε είναι προτιμότερος γιατί μειώνουμε με αυτό τον τρόπο πιθανό αριθμητικό σφάλμα που μπορεί να προέλθει από την αποσύνθεση του F στον Κ (τον πίνακα των εσωτερικών παραμέτρων) και τον Ε. Γνωρίζοντας τις εσωτερικές παραμέτρους παρακάμπτουμε αυτό το βήμα και πιθανά αριθμητικά σφάλματα. 4.3 Υπολογισμός των R και Τ από τον πίνακα Ε Αφού έχουμε υπολογίσει τον πίνακα Ε, είτε από τη σχέση (4.6) και την εφαρμογή του αλγόριθμου των 8 σημείων, είτε από τη σχέση Ε = K T FK, καλούμαστε να «εξάγουμε» από αυτόν τις εξωτερικές παραμέτρους του συστήματος, τους πίνακες R και Τ. Οι πίνακες αυτοί θα προκύψουν, εκτός από μια αβεβαιότητα στην κλίμακα, και με μια τετραπλή αβεβαιότητα. Αυτό σημαίνει ότι δε μπορεί να προσδιοριστεί επακριβώς η μετατόπιση της μιας κάμερας από την αρχική της θέση ως προς το μέτρο της, αλλά και ότι από την ανάλυση του πίνακα Ε για να βρούμε το ζεύγος των πινάκων (R,T) προκύπτουν 4 πιθανές λύσεις. 33

Υποθέτουμε ότι ο πίνακας προβολής για την πρώτη θέση της κάμερας είναι ο P = [ I 0 ]. Υποθέτουμε δηλαδή ότι το σύστημα συντεταγμένων της κάμερας στην πρώτη θέση της συμπίπτει με το παγκόσμιο σύστημα συντεταγμένων. Για να υπολογίσουμε το δεύτερο πίνακα προβολής, Ρ, είναι απαραίτητο να παραγοντοποιήσουμε τον πίνακα Ε στο γινόμενο SR, ενός συμμετρικού στην παραμόρφωση πίνακα όπως ο πίνακας στη σχέση (4.4) και ενός πίνακα περιστροφής. Αν υποθέσουμε ότι ο SVD του πίνακα Ε είναι ο U diag(1, 1, 0) V T, αποδεικνύεται ότι υπάρχουν δυο πιθανές παραγοντοποιήσεις Ε = SR ως εξής: S = UZU T R = UWV T ή S = UZU T R = UW T V T όπου 0-1 0 0 1 0 W = 1 0 0 και Z = -1 0 0. 0 0 0 0 0 0 Η παραπάνω παραγοντοποίηση καθορίζει το διάνυσμα Τ του πίνακα Ρ από τη σχέση S = [T]. H Frobenius norm όμως του πίνακα S = UZU T είναι 2, πράγμα που σημαίνει ότι αν S = [T], υπό κλίμακα, τότε κανονικοποιώντας έχουμε Τ = 1. Αφού ST = 0, ισχύει ότι το Τ ισούται με Τ = U(0, 0, 1) T = u 3, ισούται δηλαδή με την τελευταία στήλη του U. Παρόλα αυτά, το πρόσημο του Ε, και κατ επέκταση το πρόσημο του Τ δε μπορούν να καθοριστούν. Επομένως, από ένα συγκεκριμένο πίνακα Ε μπορούν να προκύψουν τέσσερις διαφορετικοί πιθανοί πίνακες προβολής Ρ, συνδυάζοντας τις δυο πιθανές επιλογές για τον πίνακα περιστροφής R και τα δυο πιθανά πρόσημα για τη μετατόπιση Τ. Συνολικά, δεδομένου του πίνακα Ε = Udiag(1, 1, 0)V T και ότι ο πίνακας προβολής για την πρώτη θέση της κάμερας είναι ο P = [ I 0 ], υπάρχουν 4 πιθανές επιλογές για τον πίνακα προβολής της δεύτερης θέσης της κάμερας, Ρ : P = [UWV T u 3 ] ή 34

P = [UWV T u 3 ] ή P = [UW Τ V T u 3 ] ή P = [UW Τ V T u 3 ]. 4.4 Γεωμετρική ερμηνεία των 4 λύσεων Είναι σαφές ότι η διαφορά μεταξύ των πρώτων δυο λύσεων είναι απλώς ότι η κατεύθυνση του διανύσματος μετατόπισης από την πρώτη στη δεύτερη θέση της κάμερας είναι ανεστραμμένη. Η σχέση μεταξύ της πρώτης και τρίτης λύσης δεν είναι τόσο προφανής. Μπορεί, εντούτοις, να αποδειχθεί ότι ισχύει [UW T V T u ] = [UWV T 3 u 3 VW ] T W T V T 1 και ότι VW T W T V T = V diag( 1, 1, 1) V T είναι μια περιστροφή κατά 180º γύρω από τη γραμμή που ενώνει τα δυο κέντρα προβολής. Οι τέσσερις λύσεις παριστάνονται γραφικά στο σχήμα 4.2. 35

Σχήμα 4.2. Τα 4 πιθανά ζεύγη (R,T) Τα Α, Β και Β είναι τα κέντρα προβολής στις διάφορες θέσεις της κάμερας και το που ξεκινάει από τα σημεία αυτά παριστάνει τον άξονα και το επίπεδο προβολής κάθε κάμερας. Οι αριστερές με τις δεξιές λύσεις διαφέρουν στην κατεύθυνση του διανύσματος μετατόπισης της κάμερας από την πρώτη στη δεύτερη θέση, ενώ στις κάτω λύσεις η δεύτερη κάμερα έχει περιστραφεί κατά 180º γύρω από τη γραμμή που ενώνει τα δυο κέντρα προβολής, σε σχέση με τις πάνω λύσεις.. Στην εικόνα φαίνεται ότι σε μια μόνο από τις πιθανές λύσεις το παρατηρούμενο σημείο βρίσκεται μπροστά και από τις δυο κάμερες. Οπότε, ελέγχοντας για ένα μόνο σημείο αν είναι μπροστά και από τις δυο κάμερες, είναι αρκετό για να επιλέξουμε τη σωστή λύση του πίνακα Ρ. 4.5 Η μέθοδος Triangulation Πλέον γνωρίζοντας τον πίνακα Ε, και κατ επέκταση τους πίνακες R και Τ, και τον πίνακα Κ, δηλαδή τις εξωτερικές (extrinsic) και τις εσωτερικές (intrinsic) παραμέτρους του συστήματος, μπορούμε να προχωρήσουμε στην τρισδιάστατη ανακατασκευή της σκηνής που απεικονίζεται στις εικόνες, στο να υπολογίσουμε 36

δηλαδή τις απόλυτες 3D συντεταγμένες των κοινών σημείων που έχουμε βρει, στο χώρο. Ακολουθούμε τη μέθοδο της τριγωνοποίησης (triangulation), όπως περιγράφεται ακολούθως [2]. Όπως φαίνεται στο σχήμα 4.1, το σημείο Ρ, το οποίο προβάλλεται στο ζευγάρι των αντίστοιχων σημείων p 1 και p 2, βρίσκεται στην τομή δυο ευθύγραμμων τμημάτων, εκείνου που ξεκινάει από το κέντρο προβολής Ο 1 και περνάει από το p 1 και εκείνου που ξεκινάει από το κέντρο προβολής Ο 2 και περνάει από το p 2. Τα ευθύγραμμα αυτά τμήματα είναι γνωστά και μένει να υπολογίσουμε το σημείο τομής τους. Το πρόβλημα είναι ότι, μιας και οι παράμετροι και οι θέσεις των εικόνων είναι γνωστές μόνο κατά προσέγγιση (λόγω λαθών στρογγυλοποίησης, κτλ.), τα δυο ευθύγραμμα τμήματα, στην πράξη, σπάνια θα τέμνονται στο χώρο. Η τομή τους σε αυτή την περίπτωση θα υπολογιστεί ως το σημείο που απέχει την ελάχιστη απόσταση και από τα δυο ευθύγραμμα τμήματα και αυτό θα θεωρούμε ως το σημείο Ρ. Όλα αυτά φαίνονται πολύ παραστατικά στο σχήμα 4.3. Σχήμα 4.3. Μέθοδος τριγωνοποίησης 37

Έστω αp 1 (α R) το ευθύγραμμο τμήμα 1, που περνά από το Ο 1 (a = 0) και το p 1 (a = 1). Επίσης, έστω Τ + βr T p 2 (β R) ευθύγραμμο τμήμα 2, που περνά από το Ο 2 (β = 0) και το p 2 (β = 1), εκφρασμένο στο σύστημα αναφοράς της πρώτης θέσης της κάμερας. Φτιάχνουμε το διάνυσμα w = p 1 R T p 2 που είναι κάθετο στα τμήματα 1 και 2 και θεωρούμε αp 1 + γw (γ R) το τμήμα ω που περνά από το αp 1 (για κάποιο συγκεκριμένο α και μεταβλητό γ) και είναι παράλληλο στο w. Το πρόβλημα που αντιμετωπίζουμε πλέον είναι να καθορίσουμε το σημείο Ρ που βρίσκεται στο μέσο του τμήματος ω που είναι παράλληλο στο w και ενώνει τα τμήματα 1 και 2. Είναι P' = A + B 2 Το ευθύγραμμο τμήμα ω είναι κάθετο και στα τμήματα 1 και 2 και επομένως το μήκος του, ΑΒ, είναι η ελάχιστη απόσταση μεταξύ τους. Ο υπολογισμός αυτός είναι πολύ απλός επειδή τα σημεία Α και Β, ας πούμε α ο p 1 και Τ + β 0 R T p 2 αντίστοιχα, μπορούν να υπολογιστούν λύνοντας το σύστημα των γραμμικών εξισώσεων ap 1 βr T p 2 + γ(p 1 R T p 2 ) = T για τα α 0, β 0 και γ 0. 4.6 Σύμπτωση των 3D σημείων που προκύπτουν από τουλάχιστον 3 εικόνες Στην περίπτωση που έχουμε δυο εικόνες, υπολογίζουμε τις τρισδιάστατες συντεταγμένες των κοινών σημείων τους ακολουθώντας τη μεθοδολογία που έχουμε αναπτύξει ως τώρα. Οι 3D συντεταγμένες που προκύπτουν είναι εκφρασμένες ως προς το σύστημα συντεταγμένων που ορίζει η κάμερα στην πρώτη της θέση. 38

Αν έχουμε περισσότερες από δυο εικόνες πρέπει να εκφράσουμε τα σημεία του τρισδιάστατου χώρου που προκύπτουν ως προς ένα κοινό σύστημα συντεταγμένων. Ακολουθώντας την παραπάνω διαδικασία για τη δεύτερη και τρίτη εικόνα υπολογίζουμε όπως προηγουμένως σημεία του 3D χώρου. Τα σημεία όμως αυτά είναι εκφρασμένα στο σύστημα αναφοράς της δεύτερης θέσης της κάμερας, το οποίο είναι περιστραμμένο και μετατοπισμένο σε σχέση με το αρχικό κατά τις εξωτερικές παραμέτρους του συστήματος πρώτης και δεύτερης εικόνας. Πρέπει, λοιπόν, για να μπορούμε να ισχυριστούμε ότι έχουμε βρει σωστά τις συντεταγμένες των σημείων του χώρου από τις εικόνες 2 και 3 να εκφράσουμε τα σημεία που βρήκαμε ως προς το πρώτο σύστημα συντεταγμένων. Αν R είναι η περιστροφή της δεύτερης κάμερας ως προς την πρώτη και Τ η μετατόπισή της, ενώ Ρ είναι οι συντεταγμένες του σημείου (ή ο πίνακας με τις συντεταγμένες των σημείων) του 3D χώρου που έχουν υπολογιστεί ως προς το σύστημα αναφοράς της δεύτερης θέσης της κάμερας, τότε για να το εκφράσουμε ως προς το κοινό πρώτο σύστημα αναφοράς κάνουμε το μετασχηματισμό P = RP + T όπου Ρ είναι οι αντίστοιχες συντεταγμένες ως προς το πρώτο σύστημα αναφοράς. Για επιπλέον εικόνες συνεχίζουμε ανάλογα, λαμβάνοντας κάθε φορά υπόψη τις εξωτερικές παραμέτρους κάθε ζεύγους εικόνων μέχρι εκείνη τη στιγμή. Απαιτείται ιδιαίτερη προσοχή στο γεγονός ότι χρειάζεται κάθε φορά να εκφράζουμε και τη μετατόπιση Τ της κάμερας από μια θέση στην επόμενη ως προς το κοινό σύστημα αναφοράς. Γενικά, για n ζεύγη εικόνων τα συνολικά R και Τ (τα διανύσματα Τ ήδη εκφρασμένα στο κοινό σύστημα αναφοράς) θα δίνονται από τους τύπους R = R n-1 Rn -2 R 3 R 2 R 1 T = T n-1 + T n-2 + + T 3 + T 2 + T 1 όπου R i και Τ i οι εξωτερικές παράμετροι που περιγράφουν το σύστημα των εικόνων i και i + 1, για i = 1,,n-1. 39

40

Κεφάλαιο 5 Διορθώσεις πάνω στη μέθοδο Βελτιστοποίηση των αποτελεσμάτων 5.1 Ο αλγόριθμος RANSAC Ο αλγόριθμος των 8 σημείων αποτελεί μια απλή και εύκολη στην υλοποίηση μέθοδο υπολογισμού του πίνακα F ή του πίνακα Ε. Τα αποτελέσματα προκύπτουν ταχύτατα και είναι αρκετά αξιόπιστα. Όμως, σε περιπτώσεις που απαιτείται μεγαλύτερη ακρίβεια, μπορούν να υιοθετηθούν άλλες μέθοδοι. Μια από αυτές είναι η μέθοδος της αλγεβρικής ελαχιστοποίησης [10], η οποία είναι επαναληπτική μέθοδος που προσπαθεί να ελαχιστοποιήσει το Αf με τη συνθήκη ότι f = 1, όπου f είναι το διαστάσεων 9 1 διάνυσμα που προκύπτει αν γράψουμε τα στοιχεία του πίνακα F το ένα μετά το άλλο, δηλαδή f = [ f 11, f 12, f 13, f 21, f 22, f 23, f 31, f 32, f 33 ] T και A ο πίνακας που προκύπτει από την εξίσωση px T 2 Fpx 1 = 0 και με τη χρήση του f γίνεται Af = 0. Άλλες μέθοδοι είναι η μέθοδος Gold Standard, η μέθοδος της παραμετροποίησης πινάκων βαθμού 2 [11] και η μέθοδος που χρησιμοποιεί την απόσταση Sampson [9, 12], οι οποίες προσπαθούν να ελαχιστοποιήσουν τη γεωμετρική απόσταση των εικόνων. Εμείς υιοθετήσαμε για τη βελτιστοποίηση των αποτελεσμάτων του αλγόριθμου των 8 σημείων τη μέθοδο RANSAC. Η μέθοδος RANSAC χρησιμοποιεί τον αλγόριθμο των 8 σημείων επαναληπτικά μέχρι να πετύχει να υπολογίσει τον πίνακα F (ή E) που θα ικανοποιεί την επιπολική γεωμετρία του συστήματος για όσο το δυνατόν περισσότερα σημεία. Επίσης κάνει και ένα «ξεκαθάρισμα» των αντίστοιχων σημείων, επιλέγει δηλαδή τα πιο σωστά, αυτά που ικανοποιούν πιστότερα την επιπολική γεωμετρία του συστήματος και πετάει τα «άχρηστα». Η φιλοσοφία του αλγόριθμου είναι η εξής: Θεωρούμε, όπως προηγουμένως, ότι είναι px 1 τα σημεία στην πρώτη εικόνα που αποτελούν προβολές των παρατηρούμενων σημείων του χώρου πάνω στο επίπεδο προβολής της πρώτης εικόνας και px 2 τα αντίστοιχά τους σημεία στη δεύτερη εικόνα. 41

Τα px 1 και px 2 είναι εκφρασμένα σε pixel συντεταγμένες. Το πλήθος των σημείων είναι n 8. Σε κάθε επανάληψη ο αλγόριθμος διαλέγει τυχαία 8 από τα σημεία αυτά και υπολογίζει, με τη χρήση του αλγόριθμου των 8 σημείων, τον θεμελιώδη πίνακα F (για τον οποίο ισχύει px T 2 Fpx 1 = 0). Έπειτα ελέγχει αν και κατά πόσο τηρείται η επιπολική γεωμετρία του συστήματος: Για κάθε ένα από τα ζεύγη αντίστοιχων σημείων υπολογίζει αν επαληθεύεται η σχέση px T 2 Fpx 1 = 0. Μετρά πόσα σημεία την επαληθεύουν, κρατά αυτά και πετάει τα υπόλοιπα. Η διαδικασία αυτή γίνεται για κάθε πίνακα F που έχει υπολογιστεί μέσα από τις επαναλήψεις του αλγόριθμου. Τελικά, επιλέγει εκείνο τον πίνακα για τον οποίο η σχέση px T 2 Fpx 1 = 0 ικανοποιείται για το μεγαλύτερο πλήθος αντιστοιχιών px 1 και px 2 και κρατάει από το σύνολο των ' ' σημείων τα ζεύγη εκείνα, px 1 και px 2, για τα οποία η παραπάνω σχέση ' ' ικανοποιείται. Τα σημεία px 1 και px 2 θεωρούνται πλέον σωστά και μόνο αυτά θα χρησιμοποιηθούν για την εύρεση των σημείων του 3D χώρου που αυτά παριστάνουν. Αντί των σημείων px 1 και px 2, που είναι οι αντιστοιχίες εκφρασμένες σε pixel συντεταγμένες και περιγράφουν τα σημεία πάνω στην εικόνα, ενδέχεται να έχουμε τα σημεία p 1 και p 2, που είναι τα ίδια σημεία με τα προηγούμενα, αλλά στον τρισδιάστατο χώρο, πάνω στα επίπεδα προβολής και εκφρασμένα στο σύστημα αναφοράς της κάθε κάμερας, όπως φαίνεται στο σχήμα 4.1. Μπορούμε να κάνουμε αυτή τη μετατροπή από τις pixel συντεταγμένες στις συντεταγμένες της κάμερας αν γνωρίζουμε τις εσωτερικές της παραμέτρους. Στην περίπτωση που γνωρίζουμε τα σημεία p 1 και p 2, από την παραπάνω διαδικασία της μεθόδου RANSAC επιλέγεται αντί του πίνακα F, ο πίνακας Ε, καθώς και τα «καλά» σημεία και αποβάλλονται τα «κακά». Κατά τα υπόλοιπα βήματα η μέθοδος παραμένει όπως περιγράφηκε παραπάνω. Βλέπουμε ότι ο αλγόριθμος RANSAC εκτός του ότι προσφέρει μεγαλύτερη αξιοπιστία στον υπολογισμό του πίνακα F (ή του Ε), μέσω της επαναληπτικής διαδικασίας που ακολουθεί, ταυτόχρονα προχωρεί και σε επιλογή των καλύτερων σημείων, είναι ένας επιπλέον δείκτης για να διασφαλίσουμε ότι τα σημεία των δυο εικόνων που έχουμε βρει είναι όντως οι προβολές των ίδιων 3D σημείων. Βοηθά δηλαδή, ετεροχρονισμένα, και στον εντοπισμό καλών σημείων, στο πρόβλημα της αντιστοίχησης. 42

5.2 Βελτίωση των αποτελεσμάτων του RANSAC Ορισμένες φορές, λόγω του γεγονότος ότι κατά τη μέθοδο RANSAC τα 8 σημεία που υπολογίζουν τον πίνακα Ε λαμβάνονται τυχαία, είναι πιθανό να βρεθεί η περιστροφή R τέτοια ώστε ο οπτικός άξονας στη δεύτερη θέση της κάμερας να έχει μεν τη σωστή διεύθυνση αλλά αντίθετη φορά, να φαίνεται, δηλαδή, σα να «κοιτά» προς την αντίθετη κατεύθυνση σε σχέση με την πραγματική. Το γεγονός αυτό, πέραν της τυχαίας λήψης των 8 σημείων, ενδέχεται να οφείλεται και σε σφάλμα των υπολογισμένων κοινών σημείων μεταξύ των εικόνων του ζεύγους. Μικρά τέτοια, αριθμητικά σφάλματα είναι δυνατό να προκαλέσουν ανεπιθύμητα αποτελέσματα. Για να καλύψουμε το μικρό αυτό ενδεχόμενο σφάλματος, επιβάλλουμε έναν επιπλέον έλεγχο έπειτα από τον υπολογισμό των R και Τ και αν ο οπτικός άξονας στη δεύτερη θέση της κάμερας είναι ανεστραμμένος, θεωρούμε ως R τον πίνακα περιστροφής που στρέφει τον οπτικό άξονα ώστε να αποκτήσει την ίδια διεύθυνση που ήδη έχει, αλλά την αντίθετη φορά. 5.3 Έκφραση της μετατόπισης της κάμερας από θέση σε θέση ως προς την αρχική μετατόπιση Υπολογίζοντας τους πίνακες περιστροφής, R, και μετατόπισης Τ από τον πίνακα Ε, έχουμε αναφέρει ότι μπορούμε να προσδιορίσουμε το διάνυσμα Τ ως προς κάποια κλίμακα. Αυτό σημαίνει ότι είμαστε σε θέση να προσδιορίσουμε επακριβώς τη φορά και τη διεύθυνσή του, αλλά όχι και το μέτρο του. Έτσι, αυτό που μπορούμε να κάνουμε ώστε να επιτύχουμε ακόμη μεγαλύτερη ακρίβεια στην εκτίμηση της τροχιάς της κάμερας αλλά και στην 3D ανακατασκευή των σημείων, είναι να θεωρήσουμε ως βάση το μέτρο της μετατόπισης της κάμερας από την πρώτη θέση στη δεύτερη και να εκφράσουμε τις υπόλοιπες μετατοπίσεις σε σχέση με την πρώτη μετατόπιση. Αφού, λοιπόν δε μπορούμε να βρούμε το απόλυτο μέτρο της μετατόπισης, αυτό που πρέπει και μπορεί να γίνει είναι να τις εκφράσουμε όλες ως προς μια κοινή βάση αναφοράς. 43

5.4 Η γεωμετρία του συστήματος Η φιλοσοφία της μεθόδου που ακολουθούμε προκύπτει από τη γεωμετρική ανάλυση του παρακάτω σχήματος. Σχήμα 5.1 Με Ο 1, Ο 2 και Ο 3 παριστάνουμε τα κέντρα προβολής της κάμερας σε τρεις διαδοχικές θέσεις, ενώ Ρ είναι ένα σημείο του 3D χώρου που φαίνεται και από τις τρεις θέσεις της κάμερας. t 1 είναι το διάνυσμα της μετατόπισης της κάμερας από την πρώτη θέση στη δεύτερη και t 2 το αντίστοιχο από τη δεύτερη στην τρίτη θέση (οι μετατοπίσεις γίνονται στον 3D χώρο). Θεωρούμε ως βάση αναφοράς το μέτρο του διανύσματος t 1 και επιδιώκουμε να εκφράσουμε το μέτρο του διανύσματος t 2 ως προς το μέτρο του t. Από τη σχέση του εσωτερικού γινομένου των διανυσμάτων O P, ) μπορούμε 1 να υπολογίσουμε τη γωνία φ 1 ως εξής: ( 1 t1 φ 1 = συν 1 O1P t1 ( O P t 1 1 ). Με όμοιο τρόπο μπορούμε να υπολογίσουμε τις γωνίες θ 1, φ 2 και θ 2, επομένως και τις γωνίες ω 1 και ω 2, ως παραπληρωματικές των αθροισμάτων φ 1 + θ 1 και φ 2 + θ 2 αντίστοιχα. Το Ο 2 Γ είναι το ύψος του τριγώνου Ο 1 Ο 2 Ρ από την κορυφή Ο 2 και το 44