ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής. Μεταπτυχιακή Διπλωματική Εργασία

Σχετικά έγγραφα
D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Συστήματα συντεταγμένων


ΘΕΩΡΙΑ Β ΓΥΜΝΑΣΙΟΥ. Μια παράσταση που περιέχει πράξεις με μεταβλητές (γράμματα) και αριθμούς καλείται αλγεβρική, όπως για παράδειγμα η : 2x+3y-8

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Παραδείγματα Ιδιοτιμές Ιδιοδιανύσματα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 1. Σταύρος Παπαϊωάννου

Ε.Α.Υ. Υπολογιστική Όραση. Κατάτμηση Εικόνας

ΜΑΘΗΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Β ΛΥΚΕΙΟΥ

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

Μ Α Θ Η Μ Α Τ Α Γ Λ Υ Κ Ε Ι Ο Υ

Γ. Ν. Π Α Π Α Δ Α Κ Η Σ Μ Α Θ Η Μ Α Τ Ι Κ Ο Σ ( M S C ) ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ. ΠΡΟΓΡΑΜΜΑ: Σπουδές στις Φυσικές Επιστήμες

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΒΙΟΜΗΧΑΝΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ

Αναγνώριση Προτύπων Ι

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί

ΜΑΘΗΜΑΤΙΚΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ. Ημερομηνία: Πέμπτη 12 Απριλίου 2018 Διάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ

HY213. ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΑΧΙΣΤΑ ΤΕΤΡΑΓΩΝΑ AΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Η Γεωμετρία της Αντιστροφής Η βασική θεωρία. Αντιστροφή

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

II.6 ΙΣΟΣΤΑΘΜΙΚΕΣ. 1. Γραφήματα-Επιφάνειες: z= 2. Γραμμική προσέγγιση-εφαπτόμενο επίπεδο. 3. Ισοσταθμικές: f(x, y) = c

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

πάχος 0 πλάτος 2a μήκος

OΡΙΟ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

Μιγαδικοί Αριθμοί. Μαθηματικά Γ! Λυκείου Θετική και Τεχνολογική Κατεύθυνση. Υποδειγματικά λυμένες ασκήσεις Ασκήσεις προς λύση

Κεφάλαιο 5 ΔΙΔΙΑΣΤΑΤΑ ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ. Ενα αυτόνομο δυναμικό σύστημα δύο διαστάσεων περιγράφεται από τις εξισώσεις

ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΣΥΝΟΠΤΙΚΗ ΘΕΩΡΕΙΑ ΜΕΘΟΔΟΛΟΓΙΑ ΛΥΜΕΝΑ ΠΑΡΑΔΕΙΓΜΑΤΑ

Κατάτµηση Εικόνων: Ανίχνευση Ακµών και Κατάτµηση µε Κατωφλίωση

Συστήματα συντεταγμένων

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

ds ds ds = τ b k t (3)

Μια από τις σημαντικότερες δυσκολίες που συναντά ο φυσικός στη διάρκεια ενός πειράματος, είναι τα σφάλματα.

Μάθημα 10 ο. Περιγραφή Σχήματος ΤΜΗΥΠ / ΕΕΣΤ 1

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

Μηχανολογικό Σχέδιο με τη Βοήθεια Υπολογιστή. Αφφινικοί Μετασχηματισμοί Αναπαράσταση Γεωμετρικών Μορφών

Ενότητα 2: Οι Θεµελιώδεις Αρχές των Ψηφιακών Εικόνων

Μαθηματική Εισαγωγή Συναρτήσεις

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Παραδείγματα (2 ο σετ) Διανυσματικοί Χώροι Επιμέλεια: Ι. Λυχναρόπουλος

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

I.3 ΔΕΥΤΕΡΗ ΠΑΡΑΓΩΓΟΣ-ΚΥΡΤΟΤΗΤΑ

ΔΙΑΝΥΣΜΑΤΙΚΕΣ ΣΥΝΑΡΤΗΣΕΙΣ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

E [ -x ^2 z] = E[x z]

Αριθμητικές μέθοδοι σε ταλαντώσεις μηχανολογικών συστημάτων

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

V. Διαφορικός Λογισμός. math-gr

Θέματα ενδοσχολικών εξετάσεων Άλγεβρας Α Λυκείου Σχ. έτος , Ν. Δωδεκανήσου ΘΕΜΑΤΑ ΕΝΔΟΣΧΟΛΙΚΩΝ ΕΞΕΤΑΣΕΩΝ ΤΑΞΗ: Α ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΑΛΓΕΒΡΑ

Κεφάλαιο 2. Διανύσματα και Συστήματα Συντεταγμένων

Σημειώσεις διαλέξεων: Βελτιστοποίηση πολυδιάστατων συνεχών συναρτήσεων 1 / 20

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

2. ΑΝΑΛΥΣΗ ΣΦΑΛΜΑΤΩΝ

Τμήμα Μηχανικών Πληροφορικής ΤΕ Η μέθοδος Simplex. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 19/01/2017

ΤΟΠΙΚΑ ΑΚΡΟΤΑΤΑ ΠΡΟΒΛΗΜΑΤΑ ΑΚΡΟΤΑΤΩΝ

1.1. Διαφορική Εξίσωση και λύση αυτής

2.3 ΜΕΤΡΟ ΜΙΓΑΔΙΚΟΥ ΑΡΙΘΜΟΥ

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

Kεφάλαιο 4. Συστήματα διαφορικών εξισώσεων. F : : F = F r, όπου r xy

2 Η ΠΡΟΟΔΟΣ. Ενδεικτικές λύσεις κάποιων προβλημάτων. Τα νούμερα στις ασκήσεις είναι ΤΥΧΑΙΑ και ΟΧΙ αυτά της εξέταση

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ

Εισαγωγή στην επιστήμη των υπολογιστών

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου

Κεφάλαιο 2: Διανυσματικός λογισμός συστήματα αναφοράς

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Διάλεξη #10. Διδάσκων: Φοίβος Μυλωνάς. Γραφικά με υπολογιστές. Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Χειμερινό εξάμηνο.

ΑΣΚΗΣΕΙΣ ΥΠΟΛΟΓΙΣΜΟΥ ΜΑΖΑΣ ΘΕΣΗΣ ΚΕΝΤΡΟΥ ΜΑΖΑΣ ΡΟΠΗΣ ΑΔΡΑΝΕΙΑΣ ΣΩΜΑΤΩΝ

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

ΚΕΦΑΛΑΙΟ 3ο: ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΝΟΤΗΤΑ 3: ΕΦΑΠΤΟΜΕΝΗ [Κεφάλαιο 2.1: Πρόβλημα εφαπτομένης του σχολικού βιβλίου]. ΠΑΡΑΔΕΙΓΜΑΤΑ ΘΕΜΑ Β

Θεωρία μετασχηματισμών

Μαθηματικά Γενικής Παιδείας Κεφάλαιο 1ο Ανάλυση ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΤΑΞΗΣ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΑΝΑΛΥΣΗ

I.3 ΔΕΥΤΕΡΗ ΠΑΡΑΓΩΓΟΣ-ΚΥΡΤΟΤΗΤΑ

Ανάκτηση πολυμεσικού περιεχομένου

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

Σφαίρα σε ράγες: Η συνάρτηση Lagrange. Ν. Παναγιωτίδης

1,y 1) είναι η C : xx yy 0.

Αναγνώριση Προτύπων Ι

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Μεταπτυχιακή Διπλωματική Εργασία «Ανάπτυξη τεχνικών αντιστοίχισης εικόνων με χρήση σημείων κλειδιών» Ιωάννα Γράψα ΠΑΤΡΑ 2011

Περιεχόμενα 1 Εισαγωγή... 1 1.1 Γενικά... 1 1.2 Διάρθρωση της εργασίας... 1 2 Εντοπισμός σημείων κλειδιών-sift... 4 2.1 Εισαγωγή... 4 2.2 Ανίχνευση των ακρότατων κλιμάκωσης-χώρου... 6 2.2.1 Ανίχνευση τοπικών ακρότατων... 8 2.3 Ακριβής εντοπισμός σημείων κλειδιών... 9 2.3.1 Απαλείφοντας τις αποκρίσεις ακμής... 10 2.4 Καταχώρηση προσανατολισμού... 13 2.5 Ο τοπικός περιγραφέας της εικόνας... 14 2.5.1 Παρουσίαση περιγραφέα... 14 2.6 Ταίριασμα των σημείων κλειδιών... 17 3 Ταίριασμα χαρακτηριστικών... 18 3.1 Εισαγωγή... 18 3.2 Random Sample Consensus (RANSAC)... 20 3.3 Μοντέλο κίνησης Ομογραφία... 25 4 Συρραφή των εικόνων... 31 4.1 Εισαγωγή... 31 4.2 Στρέβλωση Εικόνας... 31 4.3 Ανάμειξη Εικόνων... 33 i

4.3.1 Διατύπωση του προβλήματος... 33 4.3.2 Βασικές λειτουργίες πυραμίδας... 37 4.3.2.1 Ισοδύναμες συναρτήσεις βάρους... 38 4.3.2.2 Λαπλασιανή πυραμίδα... 41 4.3.2.3 Ιδιότητα άθροισης... 42 4.3.3 Splining περιοχών τυχαίου σχήματος... 45 4.4 Δημιουργία πανοράματος... 48 5 Αποτελέσματα Παραδείγματα... 49 5.1 Πρώτο Παράδειγμα... 49 5.2 Δεύτερο Παράδειγμα... 53 5.3 Τρίτο Παράδειγμα... 55 Παράρτημα Α... 58 Α.1 Εισαγωγή... 58 Α.2 Η αναπαράσταση πολλαπλών κλιμάκων σε δεδομένα εικόνων... 58 Α.3 Πρώιμες αναπαραστάσεις πολλαπλών κλιμάκων... 59 Α.3.1 Αναπαράσταση με χρήση Quad-trees... 59 A.3.2 Αναπαράσταση με χρήση πυραμίδων... 59 Α.4 Αναπαράσταση στο χώρο κλίμακας... 62 Α.4.1 Συνεχή σήματα... 63 Α.4.2 Αιτιατότητα... 63 Α.4.3 Φθίνον πλήθος τοπικών ακρότατων... 64 Α.4.4 Ημι-ομάδα και συνεχής παράμετρος κλίμακας... 64 Α.4.5 Αμεταβλητότητα στην κλίμακα... 65 Α.5 Διακριτά σήματα: Μη παραγωγή νέων τοπικών ακρότατων... 67 Βιβλιογραφία... 70 ii

Περίληψη Ένα σημαντικό πρόβλημα είναι η αντιστοίχιση εικόνων με σκοπό τη δημιουργία πανοράματος. Στην παρούσα εργασία έχουν χρησιμοποιηθεί αλγόριθμοι που βασίζονται στη χρήση σημείων κλειδιών. Αρχικά στην εργασία βρίσκονται σημεία κλειδιά για κάθε εικόνα που μένουν ανεπηρέαστα από τις αναμενόμενες παραμορφώσεις με την βοήθεια του αλγορίθμου SIFT(Scale Invariant Feature Transform). Έχοντας τελειώσει αυτή τη διαδικασία για όλες τις εικόνες, προσπαθούμε να βρούμε το πρώτο ζευγάρι εικόνων που θα ενωθεί. Για να δούμε αν δύο εικόνες μπορούν να ενωθούν, ακολουθεί ταίριασμα των σημείων κλειδιών τους. Όταν ένα αρχικό σετ αντίστοιχων χαρακτηριστικών έχει υπολογιστεί, πρέπει να βρεθεί ένα σετ που θα παράγει υψηλής ακρίβειας αντιστοίχιση. Αυτό το πετυχαίνουμε με τον αλγόριθμο RANSAC, μέσω του οποίου βρίσκουμε το γεωμετρικό μετασχηματισμό ανάμεσα στις δύο εικόνες, ομογραφία στην περίπτωσή μας. Αν ο αριθμός των κοινών σημείων κλειδιών είναι επαρκής, δηλαδή ταιριάζουν οι εικόνες, ακολουθεί η ένωσή τους. Αν απλώς ενώσουμε τις εικόνες, τότε θα έχουμε σίγουρα κάποια προβλήματα, όπως το ότι οι ενώσεις των δύο εικόνων θα είναι πολύ εμφανείς. Γι αυτό, για την εξάλειψη αυτού του προβλήματος, χρησιμοποιούμε τη μέθοδο των Λαπλασιανών πυραμίδων. Επαναλαμβάνεται η παραπάνω διαδικασία μέχρι να δημιουργηθεί το τελικό πανόραμα παίρνοντας κάθε φορά σαν αρχική την τελευταία εικόνα που φτιάξαμε στην προηγούμενη φάση. iii

Abstract in English Stitching multiple images together to create high resolution panoramas is one of the most popular consumer applications of image registration and blending. At this work, feature-based registration algorithms have been used. The first step is to extract distinctive invariant features from every image which are invariant to image scale and rotation, using SIFT (Scale Invariant Feature Transform) algorithm. After that, we try to find the first pair of images in order to stitch them. To check if two images can be stitched, we match their keypoints (the results from SIFT). Once an initial set of feature correspondences has been computed, we need to find the set that is will produce a high-accuracy alignment. The solution at this problem is RANdom Sample Consensus (RANSAC). Using this algorithm (RANSAC) we find the motion model between the two images (homography). If there is enough number of correspond points, we stitch these images. After that, seams are visible. As solution to this problem is used the method of Laplacian Pyramids. We repeat the above procedure using as initial image the ex panorama which has created. iv

Κεφάλαιο 1 Εισαγωγή 1.1 Γενικά Οι αλγόριθμοι για αντιστοίχιση (aligning) εικόνων και συρραφή (stitching) αυτών σε μωσαϊκά εικόνων χωρίς ενώσεις (ραφές-seamless) είναι μεταξύ των παλιότερων και των πιο ευρέως χρησιμοποιούμενων στην υπολογιστική όραση. Οι αλγόριθμοι αντιστοίχισης εικόνων χρησιμοποιούνται για δεκαετίες στη δημιουργία των υψηλών ανάλυσης φωτο-μωσαϊκών που χρησιμοποιούνται να παράγουν ψηφιακούς χάρτες και δορυφορικές φωτογραφίες. Οι αλγόριθμοι αυτοί μπορούν να χρησιμοποιηθούν στη δημιουργία υψηλής ανάλυσης πανοράματα. Στη φωτογραφία με φιλμ, ειδικές κάμερες δημιουργήθηκαν με την αλλαγή του αιώνα ώστε να τραβούν ευρείας γωνίας πανοράματα. Στα μέσα της δεκαετίας του 90, οι τεχνικές αντιστοίχισης εικόνων άρχισαν να εφαρμόζονται στην κατασκευή ευρείας γωνίας, χωρίς ραφές, πανοράματα από κανονικές μηχανές χεριού. Πιο πρόσφατες εργασίες σε αυτή την περιοχή έχουν δημιουργήσει την ανάγκη για αφαίρεση «φαντασμάτων» ( ghosts ) εξαιτίας της κίνησης αντικειμένων. Οι τεχνικές που χρησιμοποιούνται για όλα τα παραπάνω βρίσκουν εφαρμογή σε ένα μεγάλο αριθμό εμπορικών προϊόντων αντιστοίχισης. Καθώς περισσότερες από τις παραπάνω τεχνικές δουλεύουν ελαχιστοποιώντας κατευθείαν τις διαφορές από pixel σε pixel, μια διαφορετική τάξη αλγορίθμων δουλεύει εξάγοντας ένα σετ χαρακτηριστικών και μετά αντιστοιχίζοντας τα το ένα με το άλλο. Οι προσεγγίσεις που βασίζονται σε χαρακτηριστικά έχουν το πλεονέκτημα ότι γίνονται πιο αποτελεσματικές απέναντι σε κίνηση σκηνών και μπορούν να γίνουν πιο γρήγοροι. Το μεγαλύτερό τους πλεονέκτημα ωστόσο είναι η ικανότητά τους να «αναγνωρίζουν πανοράματα», δηλαδή ν ανακαλύπτουν αυτόματα τις γειτονικές σχέσεις μεταξύ ενός μπερδεμένου σετ εικόνων, το οποίο τις κάνει να ταιριάζουν ιδανικά για πλήρως αυτόματη ευθυγράμμιση εικόνων που έχουν τραβηχτεί από απλούς χρήστες. [26,17] 1.2 Διάρθρωση της εργασίας Η παρούσα εργασία έχει σαν στόχο την ανάπτυξη τεχνικών αντιστοίχισης εικόνων με χρήση σημείων κλειδιών. Αρχικά εντοπίζει σημεία κλειδιά σε κάθε εικόνα, που πρέπει να μένουν ανεπηρέαστα από τις αναμενόμενες παραμορφώσεις με την 1

βοήθεια του αλγορίθμου SIFT(Scale Invariant Feature Transform). Από τη μέθοδο αυτή (SIFT) προκύπτουν σημεία που μένουν ανεπηρέαστα σε αλλαγή κλίμακας (scale) και περιστροφή (rotation) και ενδείκνυται να παρέχουν ανθεκτική αντιστοίχιση σε μια σειρά παραμορφώσεων συγγένειας(affine), αλλαγή στη 3D οπτική γωνία, προσθήκη θορύβου και αλλαγή στο φωτισμό. Τα σημεία κλειδιά είναι πολύ ακριβή, υπό την έννοια ότι ένα μόνο σημείο μπορεί σωστά να αντιστοιχηθεί με μεγάλη πιθανότητα απέναντι σε μια μεγάλη βάση σημείων από πολλές εικόνες. [10] Στη συνέχεια της εργασίας γίνεται το ταίριασμα των σημείων κλειδιών ανά δύο στις εικόνες. Τα χαρακτηριστικά, δηλαδή, των δύο εικόνων ταιριάζονται μεταξύ τους και δημιουργούνται ζεύγη. Όταν ένα αρχικό σετ αντίστοιχων χαρακτηριστικών έχει υπολογιστεί, πρέπει να βρεθεί ένα σετ που θα παράγει υψηλής ακρίβειας αντιστοίχιση. Στην ουσία φιλτράρονται τα ζεύγη με τον αλγόριθμο RANdom Sample Consensus (Ransac) και απομακρύνονται εκείνα που αποτελούν λάθος αντιστοιχίες. Με τον Ransac βρίσκουμε ένα καλό σετ από αντίστοιχους «inliers», δηλαδή σημεία που είναι όλα συνεπή με κάποιο συγκεκριμένο γεωμετρικό μετασχηματισμό. Ο Ransac ξεκινά διαλέγοντας ένα τυχαίο υποσύνολο από k αντιστοιχίες, το οποίο στη συνέχεια χρησιμοποιείται για να υπολογιστεί μία εκτίμηση p του μετασχηματισμού. Έπειτα μετρά τον αριθμό των inliers. Η διαδικασία της τυχαίας επιλογής επαναλαμβάνεται S φορές και το σετ με το μεγαλύτερο αριθμό inliers κρατείται σαν τελική λύση. Ο γεωμετρικός μετασχηματισμός που χρησιμοποιείται στην παρούσα εργασία είναι η ομογραφία (homography). Στη συνέχεια αν ο αριθμός των inliers είναι επαρκής ώστε να ταιριάζουν οι δύο εικόνες προχωρούμε στη συρραφή τους διαφορετικά ακολουθούμε την παραπάνω διαδικασία για άλλο ζευγάρι εικόνων. Για την συρραφή των εικόνων χρησιμοποιούμε το γεωμετρικό μετασχηματισμό (ομογραφία στην περίπτωσή μας), που έχουμε βρει με τη βοήθεια του Ransac. Έτσι πάνω σ ένα καμβά τοποθετούμε τη μία από τις δύο εικόνες και προσαρμόζουμε την άλλη μέσω της σχέσης x2 = H*x1, όπου H η ομογραφία. Ακολουθεί ανάμειξη (blending) με τη βοήθεια της μεθόδου της Λαπλασιανής(Laplacian) πυραμίδας από τον Burt και Adelson[5][33][3][6] για να εξαλειφθούν οι ραφές στα σημεία των ενώσεων. Η παραπάνω διαδικασία ακολουθείται για τη συρραφή δύο εικόνων. Η μέθοδος αυτή μπορεί να βρει εφαρμογή στη δημιουργία πανοράματος που αποτελείται από πολλές εικόνες. Αρχικά επιλέγεται τυχαία μία από τις διαθέσιμες εικόνες σαν αρχική (όλες οι εικόνες έχουν περάσει από τον αλγόριθμο SIFT). Στη συνέχεια ακολουθώντας την παραπάνω διαδικασία βρίσκουμε την πρώτη εικόνα που ταιριάζει με αυτή και τις ενώνουμε. Παίρνοντας σαν αρχική τώρα την νέα εικόνα 2

κοιτάμε τις υπόλοιπες μέχρι να βρούμε πάλι μία που να ταιριάζει με αυτή. Η διαδικασία επαναλαμβάνεται μέχρι να χρησιμοποιήσουμε όλες τις εικόνες που ταιριάζουν στο πανόραμα. 3

Κεφάλαιο 2 Εντοπισμός σημείων κλειδιών-sift 2.1 Εισαγωγή Το ταίριασμα εικόνων είναι μια θεμελιώδη πλευρά πολλών προβλημάτων στην τεχνητή όραση (computer vision) συμπεριλαμβανομένου την αναγνώριση αντικειμένων ή σκηνών. Τα χαρακτηριστικά (image features) που προκύπτουν έχουν πολλές ιδιότητες που τα κάνουν κατάλληλα για ταίριασμα διαφορετικών εικόνων ενός αντικειμένου ή σκηνής. Τα χαρακτηριστικά αυτά παραμένουν ανεπηρέαστα σε κλιμάκωση (scaling) ή περιστροφή (rotation) εικόνας και μερικώς ανεπηρέαστα σε αλλαγές στο φωτισμό και στην 3D οπτική γωνία. Τοποθετούνται και στα χωρικά πεδία και στη συχνότητα, μειώνοντας την πιθανότητα ανωμαλίας από θόρυβο. Μεγάλος αριθμός χαρακτηριστικών μπορεί να εξαχθεί από τυπικές εικόνες με αποδοτικούς αλγόριθμους. Επιπρόσθετα, τα χαρακτηριστικά αυτά είναι πολύ ευδιάκριτα, το οποίο επιτρέπει ένα μόνο χαρακτηριστικό να αντιστοιχηθεί σωστά με μεγάλη πιθανότητα απέναντι σε μια τεράστια βάση δεδομένων χαρακτηριστικών. Το κόστος για να εξαχθούν αυτά τα χαρακτηριστικά ελαχιστοποιείται παίρνοντας μία κατιούσα προσέγγιση με φίλτρα, στην οποία οι πιο ακριβές λειτουργίες εφαρμόζονται μόνο στα σημεία που περνά ένα αρχικό τεστ. Τα πιο σημαντικά στάδια υπολογισμού που χρησιμοποιούνται για τη δημιουργία του σετ των χαρακτηριστικών είναι: 1. Ανίχνευση ακρότατων στο χώρο κλίμακας (Scale-space extrema detection): Το πρώτο στάδιο υπολογισμού εξετάζει όλες τις κλίμακες (scales) και τις θέσεις(locations) των εικόνων. Εφαρμόζεται αποτελεσματικά χρησιμοποιώντας μία διαφορά Γκαουσιανής συνάρτησης (difference-of- Gaussian) για την αναγνώριση πιθανώς ενδιαφερόντων σημείων που μένουν ανεπηρέαστα σε κλιμάκωση και περιστροφή. 2. Εντοπισμός σημείων κλειδιών (Keypoint localization): Σε κάθε υποψήφια θέση, ένα λεπτομερειακό μοντέλο εφαρμόζεται για τον καθορισμό θέσης και κλίμακας. Τα σημεία κλειδιά επιλέγονται σύμφωνα με τη σταθερότητά τους. 3. Ανάθεση προσανατολισμού (Orientation assignment): Ένας ή περισσότεροι προσανατολισμοί ανατίθενται σε κάθε θέση σημείου κλειδιού βασιζόμενοι στις τοπικές κατευθύνσεις των κλίσεων της εικόνας. Όλες οι μετέπειτα λειτουργίες εκτελούνται στα δεδομένα των εικόνων που έχουν μετασχηματιστεί σχετικά με τον ανατιθέμενο προσανατολισμό, κλίμακα και 4

θέση για κάθε χαρακτηριστικό, παρέχοντας έτσι σταθερότητα (Invariance) σε αυτούς τους μετασχηματισμούς. 4. Περιγραφείς των σημείων κλειδιών (Keypoint descriptor): Οι τοπικές κλίσεις υπολογίζονται στην επιλεγμένη κλίμακα στην περιοχή γύρω από κάθε σημείο κλειδί (keypoint). Αυτές μετασχηματίζονται σε αναπαράσταση (representation) που επιτρέπει σημαντικά επίπεδα τοπικής στρέβλωσης σχήματος και αλλαγής στο φωτισμό. Αυτή η προσέγγιση έχει ονομαστεί Μετασχηματισμός Χαρακτηριστικών Ανεξαρτήτου κλίμακας (Scale Invariant Feature Transform-SIFT), καθώς μετασχηματίζει δεδομένα εικόνων σε ανεξάρτητες κλιμάκωσης συντεταγμένες σχετικές με τοπικά χαρακτηριστικά. Μία σημαντική πλευρά αυτής της προσέγγισης είναι ότι δημιουργεί μεγάλο αριθμό χαρακτηριστικών που πυκνά καλύπτουν την εικόνα πέρα από το μεγάλο εύρος των κλιμάκων και θέσεων. Μία τυπική εικόνα μεγέθους 500x500 pixels θα δώσει περίπου 2000 σταθερά σημεία (παρόλο που αυτό το νούμερο εξαρτάται και από το περιεχόμενο της εικόνας και από τις επιλογές μερικών παραμέτρων). Η ποσότητα των χαρακτηριστικών σημείων είναι ιδιαίτερα σημαντική για αναγνώριση αντικειμένων, όπου η ικανότητα ανίχνευσης μικρών αντικειμένων σε ανεπιθύμητο φόντο απαιτεί τουλάχιστον 3 χαρακτηριστικά που ταιριάζουν σωστά από κάθε αντικείμενο για έγκυρη αναγνώριση. Για ταίριασμα εικόνων και αναγνώριση, τα SIFT χαρακτηριστικά αρχικά εξάγονται από ένα σετ εικόνων αναφοράς και τοποθετούνται σε μία βάση δεδομένων. Μία νέα εικόνα ταιριάζεται συγκρίνοντας ξεχωριστά κάθε χαρακτηριστικό από τη νέα εικόνα με την προηγούμενη βάση, βρίσκοντας υποψήφια χαρακτηριστικά που ταιριάζουν, χρησιμοποιώντας την απόσταση των διανυσμάτων των χαρακτηριστικών. Οι περιγραφείς (descriptors) των σημείων κλειδιών είναι πολύ ξεχωριστοί, το οποίο επιτρέπει ένα μόνο χαρακτηριστικό να βρει το σωστό του ταίριασμα με καλή πιθανότητα σε μία τεράστια βάση χαρακτηριστικών. Ωστόσο, σε μία περιττή εικόνα (που δεν ταιριάζει) πολλά χαρακτηριστικά δεν θα έχουν σωστό ταίριασμα στη βάση, δίνοντας αφορμή για αρκετά λάθος ταιριάσματα εκτός από τα σωστά. Τα σωστά ταιριάσματα μπορούν να φιλτραριστούν από ένα πλήρες σετ με αντιστοιχίες αναγνωρίζοντας υποσύνολα των σημείων κλειδιών που συμφωνούν με το αντικείμενο και τη θέση του, κλίμακα και προσανατολισμό στη νέα εικόνα. Η πιθανότητα ότι μερικά χαρακτηριστικά συμφωνούν με αυτές τις παραμέτρους τυχαία είναι πολύ μικρότερη από την πιθανότητα ότι η αντιστοίχιση ενός οποιουδήποτε χαρακτηριστικού θα είναι λάθος. 5

2.2 Ανίχνευση των ακρότατων στο χώρο κλίμακας Όπως περιγράφηκε στην εισαγωγή, θα ανιχνεύσουμε σημεία κλειδιά χρησιμοποιώντας μια κλιμακωτή προσέγγιση φίλτρων που χρησιμοποιεί αποδοτικούς αλγόριθμους για να προσδιορίσει υποψήφιες θέσεις που θα εξετασθούν έπειτα με περισσότερη λεπτομέρεια. Το πρώτο βήμα στην ανίχνευση κλειδιών είναι ο προσδιορισμός θέσεων και κλιμάκων που μπορούν επαναληπτικά να προσδιοριστούν κάτω από διαφορετικές οπτικές του ίδιου αντικειμένου. Το να ανιχνεύσουμε θέσεις που μένουν ανεπηρέαστες σε αλλαγή κλίμακας της εικόνας μπορεί να πραγματοποιηθεί ψάχνοντας για σταθερά χαρακτηριστικά μέσω όλων των πιθανών κλιμάκων, χρησιμοποιώντας μία συνεχή συνάρτηση κλίμακας γνωστή σαν χώρο κλίμακας (scale space). Ο χώρο κλίμακας μιας εικόνας ορίζεται σαν μια συνάρτηση, L(x,y,σ), που παράγεται από την συνέλιξη ενός Γκαουσιανού φίλτρου, G(x,y,σ), με την εικόνα εισόδου, I(x,y): 2.2.1 Όπου * είναι η συνέλιξη σε x και y και 1 2 2.2.2 Για ν ανιχνευθούν αποτελεσματικά θέσεις σταθερών σημείων κλειδιών σε χώρο κλίμακας, ο D. Lowe προτείνει τη χρήση χώρου κλίμακας ακρότατων στη συνάρτηση διαφοράς Γκαουσιανών (difference-of-gaussian), συνελισσόμενη με την εικόνα,, που μπορεί να υπολογιστεί από τη διαφορά δύο γειτονικών κλιμάκων που ξεχωρίζουν με ένα σταθερό πολλαπλασιαστικό παράγοντα k: 2.2.3 Υπάρχουν αρκετοί λόγοι για να διαλέξουμε αυτή τη συνάρτηση. Πρώτον, είναι ιδιαιτέρως αποδοτική συνάρτηση να υπολογιστεί, καθώς η ομαλή (smoothed) εικόνα, L, χρειάζεται να υπολογιστεί σε κάθε περίπτωση για περιγραφή χώρου κλίμακας χαρακτηριστικών και η D μπορεί ωστόσο να υπολογιστεί με απλή αφαίρεση εικόνων. Επιπλέον, η συνάρτηση διαφοράς Γκαουσιανών ισούται προσεγγιστικά με την κανονικοποιημένη ως προς την κλίμακα Laplacian of Gaussian,, όπως μελετήθηκε από τον Lindeberg (1994). Ο Lindeberg έδειξε ότι η κανονικοποίηση της Λαπλασιανής με τον συντελεστή απαιτείται για πραγματική σταθερότητα στην κλίμακα. Με λεπτομερειακές πειραματικές συγκρίσεις, ο Milolajczyk (2002) βρήκε ότι τα μέγιστα και τα ελάχιστα του παράγουν τα πιο σταθερά χαρακτηριστικά 6

εικόνων συγκρινόμενα με ένα πλήθος άλλων πιθανών συναρτήσεων εικόνων, όπως Hessian ή Harris. Η σχέση μεταξύ D και μπορεί να κατανοηθεί από την εξίσωση 2.2.4 Από αυτό, βλέπουμε ότι το μπορεί να υπολογιστεί από τη προσέγγιση της διαφοράς, χρησιμοποιώντας τη διαφορά από γειτονικές κλίμακες στα kσ και σ: 2.2.5 άρα 1 2.2.6 Αυτό δείχνει ότι όταν η συνάρτηση difference-of-gaussian (διαφορά Γκαουσιανών) έχει κλίμακες που διαφέρουν κατά ένα σταθερό συντελεστή αυτό ήδη περιλαμβάνει την κανονικοποίηση στην σ 2 κλίμακα που απαιτείται για την scale-invariant Λαπλασιανή. Ο συντελεστής (k-1) στην εξίσωση είναι μία σταθερά σε όλες τις κλίμακες και έτσι δεν επηρεάζει τις θέσεις των ακρότατων (extrema). Το λάθος προσέγγισης τείνει στο μηδέν καθώς το k τείνει στο ένα, αλλά πρακτικά έχει βρεθεί ότι η προσέγγιση δεν έχει σχεδόν καθόλου επίπτωση στην σταθερότητα(stability) της ανίχνευσης των ακρότατων ή στον εντοπισμό ακόμη και για σημαντικές διαφορές στην κλίμακα, για σχετικά μεγάλα k, όπως k= 2. Πριν συνεχίσουμε την περιγραφή της κατασκευής της πυραμίδας, θα ορίσουμε την έννοια της οκτάβας που χρησιμοποιείται παρακάτω. Μια οκτάβα είναι μια σειρά από εικόνες-δείγματα του χώρου κλίμακας με την ίδια δειγματοληψία στις διαστάσεις του χώρου και αποτελεί δομικό στοιχείο της υπερδειγματοληπτημένης πυραμίδας. Η κάθε οκτάβα έχει τέσσερις φορές λιγότερα δείγματα από αυτά της αμέσως προηγούμενης διότι έχει υποστεί σε καθεμία από τις δύο χωρικές διαστάσεις (x,y) υποδειγματοληψία κατά παράγοντα 2. Μία αποδοτική προσέγγιση στην κατασκευή του φαίνεται στο σχήμα 2.1. Η αρχική εικόνα αυξητικά συνελίσσεται με Γκαουσιανές για να παράγουν εικόνες που ξεχωρίζουν από ένα σταθερό συντελεστή k στο χώρο κλίμακας, όπως φαίνεται η στοίβα στην αριστερή στήλη. Κάθε οκτάβα του χώρου κλίμακας διαιρείται, διπλασιάζοντας το σ, σε ένα ακέραιο αριθμό διαστημάτων s, έτσι k=2. Πρέπει να παράγουμε s+3 εικόνες σε μια στοίβα από θολές (blurred) εικόνες για κάθε οκτάβα, έτσι ώστε η τελική ανίχνευση ακρότατων να καλύπτει μια πλήρη οκτάβα. Γειτονικές 7

εικόνες αφαιρούνται για να παράγουν τη difference-of-gaussian εικόνων όπως φαίνεται στη δεξιά στήλη. Όταν μια πλήρης οκτάβα έχει επεξεργαστεί, ξαναδειγματοληπτούμε την Gaussian εικόνα που έχει τη διπλάσια αρχική τιμή του σ (θα είναι δύο εικόνες από την αρχή της στοίβας) παίρνοντας κάθε δεύτερο pixel σε κάθε γραμμή και στήλη. Η εικόνα αυτή είναι η αρχική εικόνα για την επόμενη οκτάβα, ώστε να μειωθούν αρκετά οι υπολογισμοί. Σχήμα 2.1: Για κάθε οκτάβα του χώρου κλίμακας, η αρχική εικόνα επαναληπτικά συνελίσσεται με Gaussian και παράγει το σετ των χώρο κλίμακας εικόνων που φαίνονται στ αριστερά. Γειτονικές Gaussian εικόνες αφαιρούνται και παράγουν τις difference-of-gaussian εικόνες στα δεξιά. Μετά από κάθε οκτάβα, η Gaussian εικόνα υποδειγματοληπτείται με ένα συντελεστή 2 και η διαδικασία επαναλαμβάνεται. 2.2.1 Ανίχνευση τοπικών ακρότατων Με σκοπό την ανίχνευση των τοπικών ελάχιστων και μέγιστων του, κάθε σημείο δείγμα (sample point) της εικόνας συγκρίνεται με τους 8 γείτονές του στην τρέχουσα εικόνα και με 9 γείτονες στην προηγούμενη και στην επόμενη κλίμακα (scale) εικ.2. Επιλέγεται σαν ακρότατο μόνο αν αυτό είναι μεγαλύτερο από όλα τα γειτονικά του ή μικρότερο από όλα αυτά. Το κόστος αυτού του ελέγχου είναι χαμηλό, διότι τα πιο πολλά σημεία δείγματα θα εξαλειφθούν μετά τους πρώτους ελέγχους. 8

Σχήμα 2.2: Τα μέγιστα και τα ελάχιστα των difference-of-gaussian εικόνων ανιχνεύονται συγκρίνοντας ένα pixel (που σημειώνεται με Χ) με τα 26 γειτονικά του σε περιοχές 3x3στην παρούσα και στις γειτονικές κλίμακες. 2.3 Ακριβής Εντοπισμός σημείων κλειδιών Όταν ένα υποψήφιο σημείο κλειδί έχει βρεθεί συγκρίνοντας ένα pixel με τα γειτονικά του το επόμενο βήμα είναι να βρεθεί ακριβώς η θέση του, η κλίμακα και ο λόγος καμπυλότητας (ratio of principal curvatures). Αυτή η πληροφορία επιτρέπει σε σημεία να απορριφθούν τα οποία έχουν χαμηλή αντίθεση, δεν διαφέρουν σημαντικά από τα γειτονικά τους, (και έτσι είναι ευαίσθητα σε θόρυβο) ή είναι κακώς τοποθετημένα κατά μήκος μιας ακμής. Όταν το ακρότατο εντοπιστεί γνωρίζουμε τη θέση του στο πλέγμα των εικονοστοιχείων, όχι όμως την ακριβή του θέση. Η θέση του υποεικονοστοιχείου (sub-pixel accuracy) είναι εφικτή με την μέθοδο της παρεμβολής. Η αρχική εφαρμογή αυτής της προσέγγισης(lowe 1999) απλά τοποθετούσε τα σημεία κλειδιά στη θέση και τη κλίμακα του κεντρικού σημείου δείγματος. Ωστόσο, στη συνέχεια ο Brown ανέπτυξε μία μέθοδο (Brown and Lowe, 2002) για την εφαρμογή μιας 3D δευτεροβάθμιας συνάρτησης στα τοπικά σημεία δείγματος για να καθοριστεί η παρεμβαλλόμενη περιοχή του μέγιστου και τα πειράματά του έδειξαν ότι αυτό παρέχει μια σημαντική βελτίωση στο ταίριασμα και στην ευστάθεια. Αυτή η προσέγγιση χρησιμοποιεί το ανάπτυγμα Taylor της χώρου κλίμακας συνάρτησης,, ολισθημένη ώστε η αρχή να είναι στο σημείο δείγματος: 1 2 2.3.1 όπου D και οι παράγωγοί του υπολογίζονται στο σημείο δείγματος και είναι η μετατόπιση από αυτό το σημείο. Η θέση του ακρότατου,, 9

καθορίζεται παίρνοντας την παράγωγο της παραπάνω σχέσης ως προς x και μηδενίζοντας, οπότε 2.3.2 Όπως προτάθηκε από τον Brown, η Hessian και η παράγωγος του D προσεγγίζονται χρησιμοποιώντας διαφορές γειτονικών sample σημείων. Το 3x3 γραμμικό σύστημα μπορεί να λυθεί με ελάχιστο κόστος. Αν το είναι μεγαλύτερο από 0,5 σε κάθε διάσταση, τότε το ακρότατο είναι πιο κοντά σε ένα διαφορετικό σημείο δείγματος. Σε αυτή την περίπτωση το σημείο δείγματος αλλάζει και η παρεμβολή εφαρμόζεται ξανά στις νέες συντεταγμένες του σημείου που εκτιμάται η ύπαρξη του ακρότατου. Η τιμή της συνάρτησης στο ακρότατο (extremum), D( ), είναι χρήσιμη για απόρριψη μη σταθερών ακρότατων με χαμηλή αντίθεση. Αυτό μπορεί να αποκτηθεί, αντικαθιστώντας την εξίσωση (2.3.2) στην (2.3.1), και προκύπτει: 1 2 2.3.3 Τα ακρότατα των οποίο το D( ) είναι μικρότερο από 0.03 απορρίπτονται (θεωρούμε ότι οι εικόνες είναι κανονικοποιημένες στο [01]). 2.3.1 Απαλείφοντας τις αποκρίσεις ακμής Επειδή θέλουμε τα σημεία κλειδιά να εντοπίζονται στις ίδιες θέσεις και μετά από μετασχηματισμούς, απορρίπτουμε ακρότατα που είναι πάνω σε ακμές. Εάν ένα σημείο κλειδί βρίσκεται πάνω σε μια ακμή, τότε με μικρές τροποποιήσεις της εικόνας, μπορεί να ξεπεράσει την τιμή του τρέχοντος ακρότατου κάποιο γειτονικό του πάνω στην ακμή, αφού όλα τα σημεία πάνω της έχουν κοντινές εντάσεις. Πριν συνεχίσουμε την περιγραφή του αλγορίθμου, θα περιγράψουμε τις έννοιες της κύριας καμπυλότητας που θα μας χρειαστούν στη συνέχεια. Έστω συνεχής διανυσματική συνάρτηση R(t), με πεδίο ορισμού τον άξονα των πραγματικών και πεδίο τιμών τον ευκλείδειο χώρο, R: R->R N. Η συνάρτηση R(t) ορίζει μια καμπύλη στο χώρο. Για την ανάλυση της ορίζουμε δύο σχετιζόμενα μοναδιαία διανύσματά της σε κάθε σημείο και ακολουθεί η εξαγωγή τους. Παραγωγίζοντας την συνάρτηση ως προς την παράμετρο t προκύπτει η ποσότητα η οποία έχει τη φυσική σημασία της ταχύτητας. Χρησιμοποιώντας τον κανόνα της αλυσίδας βλέπουμε τη σχέση μεταξύ της ταχύτητας και του πρώτου ενδιαφέροντος 10

μοναδιαίου διανύσματος Τ, το οποίο προκύπτει από την παραγώγιση ως προς το στοιχειώδες μήκος, μια διαφορετική ποσότητα που προσεγγίζει το απειροελάχιστο μήκος της καμπύλης. Πράγματι. 1 Εκμεταλλευόμενοι το μοναδιαίο μήκος του μοναδιαίου εφαπτόμενου διανύσματος Τ μπορούμε να γράψουμε Τ Τ=1, η οποία αν παραγωγιστεί δίνει Επομένως το διάνυσμα μπορούμε να το γράψουμε 2 είναι κάθετο στο Τ και άρα και στην καμπύλη και 1 Το Κ ονομάζεται καμπυλότητα και το ρ ακτίνα καμπυλότητας. Η καμπυλότητα ορίζει τον ρυθμό με τον οποίο στο στοιχειώδες μήκος η καμπύλη αποκλίνει από την εφαπτομένη της. Ίσως είναι διαισθητικά καλύτερο να περιγράψουμε την ακτίνα καμπυλότητας ρ, αυτή είναι η απόσταση του κέντρου ενός κύκλου που εφάπτεται της καμπύλης στο σημείο που εξετάζουμε και έχει την ίδια καμπυλότητα με την καμπύλη στο σημείο αυτό. Στην περίπτωση διανυσματικών πεδίων, συναρτήσεων δηλαδή f:r 2 ->R μπορούν να δοθούν διάφοροι ορισμοί της καμπυλότητας. Εδώ μας απασχολεί η καμπυλότητα ως προς μια συγκεκριμένη κατεύθυνση του R 2. Έτσι η καμπυλότητα ορίζεται ως εξής: Έστω συνάρτηση f:r 2 ->R και κατεύθυνση θ. Η συνάρτηση αυτή ορίζει μια επιφάνεια στο χώρο R 3. Καμπυλότητα στο σημείο A=(x 0,y 0 ) της f ως προς κατεύθυνση θ ορίζουμε την καμπυλότητα της καμπύλης που προκύπτει από την τομή της επιφάνειας της f με το επίπεδο που είναι κάθετο σε αυτό που ορίζουν οι άξονες x και y και που σχηματίζει γωνία θ με τον άξονα x καθώς διέρχεται από το σημείο Α. Ισοδύναμα, η καμπύλη που ορίζει το διάνυσμα όπου y(t)-y 0 =tanθ(t-x 0 ) η ευθεία του επιπέδου που ορίζουν οι άξονες x,y και διέρχεται από το σημείο Α. 11

Από όλες τις κατευθύνσεις γύρω από ένα σημείο, σε μια γωνία θ max θα παρουσιάζεται η μεγαλύτερη καμπυλότητα και σε μία άλλη, θ min η ελάχιστη. Οι δύο διευθύνσεις που ορίζονται από τις γωνίες αυτές ονομάζονται διευθύνσεις κύριας καμπυλότητας. Όπως προβλέπει το θεώρημα των κύριων αξόνων, οι διευθύνσεις αυτές είναι κάθετες μεταξύ τους και μπορούν να βρεθούν από τα ιδιοδιανύσματα της μέγιστης και της ελάχιστης ιδιοτιμής του μητρώου της Hessian. Κλείνοντας τη μικρή αναφορά στις έννοιες της καμπυλότητας συνεχίσουμε την περιγραφή του αλγορίθμου. Για ευστάθεια, δεν είναι αποτελεσματικό να αποβάλλουμε σημεία κλειδιά με χαμηλή αντίθεση. Η συνάρτηση difference-of-gaussian θα έχει δυνατή απόκριση κατά μήκος των ακμών, ακόμα και αν η περιοχή κατά μήκος της περιοχής είναι ανεπαρκώς καθορισμένη και μη σταθερή(unstable) σε μικρές ποσότητες θορύβου. Μία ανεπαρκώς ορισμένη κορυφή στη συνάρτηση difference-of-gaussian θα έχει μια μεγάλη κύρια καμπυλότητα κατά μήκος της ακμής αλλά μικρή σε κατακόρυφη κατεύθυνση. Οι κύριες καμπυλότητες μπορούν να υπολογιστούν από ένα 2x2 Hessian πίνακα, H, υπολογιζόμενο στη θέση και την κλίμακα του σημείου κλειδιού: 2.3.4 Οι παράγωγοι υπολογίζονται παίρνοντας διαφορές από γειτονικά σημεία δειγματοληψίας. Οι ιδιοτιμές του Η είναι ανάλογες των κύριων καμπυλοτήτων του D. Μπορούμε ν αποφύγουμε τον υπολογισμό των ιδιοτιμών, καθώς ενδιαφερόμαστε μόνο για το λόγο τους. Έστω ότι α είναι η ιδιοτιμή με το μεγαλύτερο πλάτος(magnitude) και β με το μικρότερο, τότε μπορούμε να υπολογίσουμε το άθροισμα των ιδιοτιμών από το ίχνος (trace-tr) του Η και το γινόμενό τους από την ορίζουσα: 2.3.5 2.3.6 Στην περίπτωση που η ορίζουσα είναι αρνητική, οι καμπυλότητες έχουν διαφορετικά πρόσημα έτσι το σημείο απορρίπτεται από ακρότατο. Έστω ότι r είναι ο λόγος ανάμεσα στη μεγαλύτερη ιδιοτιμή και τη μικρότερη, έτσι ώστε α=rβ. Τότε, 12

1 2.3.7 Το οποίο εξαρτάται μόνο από το λόγο των ιδιοτιμών και όχι από τις ξεχωριστές τιμές τους. Η ποσότητα γίνεται ελάχιστη όταν οι δύο ιδιοτιμές είναι ίσες και αυξάνεται με το r. Έτσι, για να ελέγξουμε ότι ο λόγος των κύριων καμπυλοτήτων είναι κάτω από ένα κατώφλι r, ελέγχουμε μόνο 1 2.3.8 2.4 Καταχώρηση προσανατολισμού (Orientation Assignment) Μετά την απόδοση μιας θέσης στην εικόνα και μιας κλίμακας σε κάθε σημείο ενδιαφέροντος, ακολουθεί η απόδοση προσανατολισμού στο σημείο και η εύρεση ενός περιγραφέα (keypoint descriptor) για την τοπική περιοχή της εικόνας γύρω από τα σημεία ενδιαφέροντος ώστε να είναι αμετάβλητος σε περιστροφή της εικόνας. Η κλίμακα του σημείου κλειδιού χρησιμοποιείται για να επιλεχθεί η ομαλοποιημένη (smoothed) Gaussian εικόνα, L, με την πιο κοντινή κλίμακα έτσι, ώστε όλοι οι υπολογισμοί να εφαρμοστούν σε μία ανεξαρτήτου κλίμακας μέθοδο. Για κάθε εικόνα δείγμα, L(x,y), σε αυτή την κλίμακα, το μέτρο και η γωνία της κλίσης, m(x,y) και θ(x,y), υπολογίζονται χρησιμοποιώντας διαφορές των pixels: 1 1 1 1 2.4.1 1 1 1 1 2.4.2 Παίρνοντας μια ορθογώνια περιοχή γύρω από το σημείο κλειδί, στη κλίμακα που βρέθηκε αυτό το κλειδί, υπολογίζουμε για κάθε εικονοστοιχείο της περιοχής τις τιμές των 2.4.1 και 2.4.2. Η 2.4.2 λειτουργεί σαν βάρος στη συμμετοχή της αντίστοιχης γωνίας του εικονοστοιχείου στην περιοχή. Στη συνέχεια εφαρμόζεται ένα Γκαουσιανό παράθυρο τυπικής απόκλισης στα βάρη, με σ που είναι 1,5 φορά της κλίμακας του σημείου κλειδιού. Με τις γωνίες 2.4.2 που υπολογίσαμε δημιουργούμε ένα ιστόγραμμα προσανατολισμού. Το ιστόγραμμα προσανατολισμού έχει 36 κέντρα (bins) καλύπτοντας τις 360 ο. 13

Οι κορυφές του ιστογράμματος (peaks) αναλογούν στις κυρίαρχες κατευθύνσεις των τοπικών κλίσεων. Η ψηλότερη κορυφή του ιστογράμματος ανιχνεύεται και τότε οποιαδήποτε άλλη κορυφή που είναι μέσα στο 80% της ψηλότερης χρησιμοποιείται επίσης για να δημιουργηθεί ένα σημείο κλειδί (keypoint) με αυτόν τον προσανατολισμό. Έτσι για θέσεις με πολλαπλές κορυφές παρόμοιου μεγέθους, θα υπάρχουν πολλαπλά σημεία κλειδιά δημιουργημένα στην ίδια περιοχή και κλίμακα αλλά με διαφορετικούς προσανατολισμούς. Μόνο γύρω στο 15% των σημείων παραχωρούνται πολλαπλοί προσανατολισμοί, αλλά αυτά συνεισφέρουν σημαντικά στην σταθερότητα του ταιριάσματος. Τέλος, μια παραβολή εφαρμόζεται στις 3 τιμές ιστογράμματος που είναι πιο κοντά σε κάθε κορυφή για να παρεμβάλλει τη θέση κορυφής για καλύτερη ακρίβεια. 2.5 Ο τοπικός περιγραφέας της εικόνας Τα προηγούμενα βήματα παραχώρησαν μία θέση, κλίμακα και κατεύθυνση σε κάθε σημείο κλειδί. Αυτές οι παράμετροι επιβάλλουν ένα επαναλαμβανόμενο τοπικό 2D σύστημα συντεταγμένων στο οποίο περιγράφουμε την τοπική περιοχή της εικόνας και έτσι παρέχουμε σταθερότητα (invariance) σε αυτές τις παραμέτρους. Το επόμενο βήμα είναι να υπολογίσουμε ένα περιγραφέα (descriptor) για την τοπική περιοχή της εικόνας που είναι αρκετά ευδιάκριτος και τόσο αμετάβλητος όσο πιθανό να παραμένει αμετάβλητος σε διακυμάνσεις όπως αλλαγή στον φωτισμό ή στην 3D οπτική γωνία. 2.5.1 Παρουσίαση περιγραφέα (Descriptor Representation) Το σχήμα 2.3 δείχνει τον υπολογισμό του περιγραφέα του σημείου κλειδιού. Αρχικά τα μέτρα των κλίσεων και οι γωνίες κλίσεων δειγματοληπτούνται γύρω από τη θέση του σημείου κλειδιού, χρησιμοποιώντας την κλίμακα του σημείου κλειδιού για να επιλεχθεί το επίπεδο της Gausssian. Με σκοπό να πετύχουμε σταθερότητα στην περιστροφή (orientation invariance), οι συντεταγμένες του περιγραφέα και οι κλίσεις περιστρέφονται σε σχέση με τον προσανατολισμό του σημείου κλειδιού. Οι κλίσεις παρουσιάζονται με μικρά τόξα σε κάθε θέση δείγματος στην αριστερή πλευρά του σχήματος 2.3. 14

Σχήμα 2.3: Ένας περιγραφέας σημείου κλειδιού δημιουργείται αρχικά υπολογίζοντας το μέγεθος της κλίσης και της κατεύθυνσης σε κάθε σημείο δειγματοληψίας της εικόνας σε μια περιοχή γύρω από τη θέση του σημείου κλειδιού, όπως φαίνεται στ αριστερά. Αυτά σταθμίζονται από ένα Γκαουσιανό παράθυρο, περιβάλλεται από τον κύκλο. Αυτά τα δείγματα συσσωρεύονται σε ένα ιστόγραμμα προσανατολισμού προσθέτοντας τα περιεχόμενα 4x4 υποπεριοχών, όπως φαίνεται στα δεξιά, με το μήκος κάθε βέλους να αναλογεί στο άθροισμα των μεγεθών των κλίσεων κοντά σε αυτή τη κατεύθυνση μέσα σε αυτή τη περιοχή. Αυτή η εικόνα δείχνει έναν 2x2 περιγραφέα υπολογισμένο από ένα 8x8 σετ δειγμάτων, δεδομένου ότι σε αυτή την εργασία χρησιμοποιήσαμε περιγραφείς 4x4 υπολογισμένους από πίνακες 16x16. Μία Γκαουσιανή συνάρτηση βάρους με σ ίσο με το μισό του πλάτους του παράθυρου του περιγραφέα χρησιμοποιείται για να παραχωρηθεί ένα βάρος στο μέτρο κάθε σημείου δειγματοληψίας. Αυτό παρουσιάζεται με ένα κυκλικό παράθυρο στην αριστερή πλευρά σχήματος 2.3. Ο σκοπός αυτού του Γκαουσιανού παραθύρου είναι να αποφευχθούν απότομες αλλαγές στον περιγραφέα με μικρές αλλαγές στη θέση του παραθύρου και να δώσει λιγότερη έμφαση στις κλίσεις που είναι μακριά από το κέντρο του περιγραφέα, καθώς αυτές επηρεάζονται πιο πολύ από κακής αντιστοίχισης λάθη. Ο περιγραφέας του σημείου κλειδιού φαίνεται στη δεξιά πλευρά του σχήματος 2.3. Επιτρέπει σημαντική ολίσθηση στις θέσεις της κλίσης (gradient positions) δημιουργώντας ιστογράμματα κατεύθυνσης σε 4x4 περιοχές δείγματος. Το σχήμα δείχνει 8 κατευθύνσεις για κάθε ιστόγραμμα κατεύθυνσης (δηλαδή 8 bin ιστόγραμμα), με το μήκος κάθε βέλους να αναλογεί στο πλάτος της αντίστοιχης θέσης στο ιστόγραμμα. Ο περιγραφέας σχηματίζεται από ένα διάνυσμα που περιέχει τις τιμές όλων των εγγραφών του ιστογράμματος κατεύθυνσης, που αναλογούν στα μήκη των βελών στη δεξιά πλευρά της σχήματος 3.2. Η εικόνα δείχνει έναν 2x2 πίνακα από ιστογράμματα κατεύθυνσης, όπου πειράματα έχουν δείξει ότι τα καλύτερα αποτελέσματα επιτυγχάνονται με 4x4 πίνακα με 8 κλάσεις προσανατολισμού 15

(orientation bins) στο καθένα. Έτσι χρησιμοποιούμε 4x4x8=128 στοιχείων διάνυσμα για κάθε σημείο κλειδί. Το διάνυσμα τροποποιείται για να μειώσει τις επιπτώσεις στην αλλαγή του φωτισμού. Πρώτον, το διάνυσμα κανονικοποιείται ώστε να έχει μοναδιαίο μέτρο. Μία αλλαγή στην αντίθεση(contrast) της εικόνας στην οποία κάθε τιμή pixel πολλαπλασιάζεται με μια σταθερά θα πολλαπλασιάσει τις κλίσεις με την ίδια σταθερά, έτσι αυτή η αλλαγή αντίθεσης θα αποφευχθεί με την κανονικοποίηση του διανύσματος. Μια αλλαγή στη φωτεινότητα στην οποία μια σταθερά προστίθεται σε κάθε pixel της εικόνας δεν θα επηρεάσει τις τιμές των κλίσεων, έτσι αυτά υπολογίζονται από τις διαφορές των pixels. Έτσι ο περιγραφέας είναι ανεπηρέαστος σε συγγενείς (affine) αλλαγές στο φωτισμό. Ωστόσο, μη γραμμικές αλλαγές φωτισμού μπορούν να συμβούν εξαιτίας του κορεσμού(saturation) της κάμερας ή εξαιτίας των αλλαγών του φωτισμού που επιδρούν σε 3D επιφάνειες με διαφορετικούς προσανατολισμούς από διαφορετικές ποσότητες. Αυτές οι επιδράσεις μπορούν να προκαλέσουν μια μεγάλη αλλαγή σε σχετικά μεγέθη για κάποιες κλίσεις αλλά λιγότερο επηρεάζουν τον προσανατολισμό. Έτσι, μειώνουμε την επιρροή από μεγάλες κλίσεις κατωφλιώνοντας τις τιμές στο μοναδιαίο διάνυσμα χαρακτηριστικών σε καθένα ώστε να μην είναι μεγαλύτερο από 0,2 και μετά ξανά κανονικοποιούμε το διάνυσμα. Το σχήμα 2.4 στη συνέχεια δείχνει τα σημεία κλειδιά που βρέθηκαν από τον SIFT σε δύο εικόνες. (α) (β) 16

Σχήμα 2.4: Τα τελικά σημεία κλειδιά που εντοπίζει ο SIFT σε δύο εικόνες, στην 2.4(α) βρήκε 1194 σημεία και στην 2.4(β) 1091. 2.6 Ταίριασμα των σημείων κλειδιών Το καλύτερο υποψήφιο ταίριασμα για κάθε σημείο κλειδί βρίσκεται προσδιορίζοντας τον κοντινότερό του γείτονα στη βάση δεδομένων των σημείων κλειδιών από τις υποψήφιες εικόνες. Ο κοντινότερος γείτονας ορίζεται σαν το σημείο κλειδί με την μικρότερη Ευκλείδεια απόσταση από τον περιγραφέα του αρχικού σημείου. Ωστόσο, πολλά χαρακτηριστικά από μία εικόνα μπορεί να μην έχουν σωστό ταίρι γιατί μπορεί να μην έχουν βρεθεί σε κάποια άλλη εικόνα. Έτσι, θα ήταν χρήσιμο να υπάρχει τρόπος να απορρίπτονται τα χαρακτηριστικά που δεν έχουν κανένα καλό ταίριασμα στη βάση δεδομένων. Ένα ολικό κατώφλι στην απόσταση στο πλησιέστερο χαρακτηριστικό δεν θα λειτουργεί αποτελεσματικά, καθώς μερικοί περιγραφείς είναι πολύ πιο ευδιάκριτοι από άλλους. Ένα αποτελεσματικό μέτρο είναι να συγκριθεί η απόσταση με τον κοντινότερο γείτονα σε σχέση με αυτή με το δεύτερο κοντινότερο γείτονα. Αυτό το μέτρο δουλεύει καλά γιατί σωστά ταιριάσματα πρέπει να είναι σημαντικά πιο κοντά από το κοντινότερο λανθασμένο ταίριασμα για να πετύχουμε αξιόπιστο ταίριασμα. 17

Κεφάλαιο 3 Ταίριασμα χαρακτηριστικών 3.1 Εισαγωγή Στο στάδιο αυτό, έχοντας υπολογίσει τα σταθερά (invariant) χαρακτηριστικά (features) για κάθε εικόνα μέσω του SIFT, πρέπει να κάνουμε αντιστοίχιση των χαρακτηριστικών αυτών της μιας εικόνας με τα αντίστοιχά τους στην άλλη εικόνα, για όσα υπάρχουν. Έτσι για κάθε περιγραφέα στην πρώτη εικόνα, επιλέγουμε τον αντίστοιχό του στη δεύτερη εικόνα, αν υπάρχει. Εφόσον οι αναλογίες των χαρακτηριστικών έχουν βρεθεί, πρέπει να βρούμε το σετ χαρακτηριστικών που θα μας εξασφαλίσει υψηλής ακρίβειας ευθυγράμμιση (alignment). Μια πιθανή προσέγγιση είναι να υπολογίσουμε μία απλή εκτίμηση ελαχίστων τετραγώνων ή να χρησιμοποιήσουμε μία πιο βελτιωμένη εκδοχή αυτής. Ωστόσο αν στα δεδομένα περιέχονται ακραίες τιμές, η μέθοδος αυτή δεν δίνει ικανοποιητικά αποτελέσματα. Η λύση σε αυτό το πρόβλημα είναι ο αλγόριθμος (RANdom Sample Consensus) Ransac[7]. Σε κάθε επανάληψη διαλέγει ένα τυχαίο σύνολο σημείων με το μικρότερο δυνατό πλήθος ώστε να υπολογιστεί το μοντέλο. Έπειτα ελέγχονται τα υπόλοιπα σημεία αν συμφωνούν με το μοντέλο και υπολογίζεται το πλήθος αυτών που βρίσκονται εντός ορίων (inliers). Μετά από ένα πλήθος επαναλήψεων, το οποίο εξαρτάται από την επιδιωκόμενη πιθανότητα εντοπισμού του μοντέλου, θεωρείται βέλτιστο το μοντέλο που είχε τα περισσότερα εσωτερικά σημεία σε όλες τις επαναλήψεις. Παίρνοντας τα εσωτερικά σημεία του καλύτερου μοντέλου, υπολογίζουμε εκ νέου το μοντέλο σύμφωνα με κάποιο κριτήριο, για παράδειγμα την ελαχιστοποίηση του τετραγώνου της απόστασης. Αν για κάποια επανάληψη το πλήθος των εσωτερικών σημείων υπερβαίνει ένα κατώτατο όριο, μπορεί το μοντέλο της συγκεκριμένης επανάληψης να θεωρηθεί ως το βέλτιστο και να συνεχιστεί ο αλγόριθμος όπως πριν. Στη συνέχεια, πρέπει να υπολογίσουμε το μετασχηματισμό που καθορίζει τις συντεταγμένες των εικονοστοιχείων από τη μία εικόνα στην άλλη. Περιγράφεται το πρόβλημα της αντιστοίχισης: Οι μέθοδοι αντιστοίχισης εικόνας επιδιώκουν να εντοπίσουν τις κοινές περιοχές ανάμεσα σε διαφορετικές εικόνες. Πιο τυπικά το πρόβλημα της αντιστοίχισης μπορεί να οριστεί ως εξής: 18

Έστω εικόνες I r (x,y), με 0 x w r 0 y h r I t (x,y), με 0 x w t 0 y h t οι οποίες καλούνται εικόνα αναφοράς (reference) και πρότυπο (template) αντίστοιχα. Αναζητούμε τις περιοχές Τ={(x,y)} της εικόνας αναφοράς I r και τις παραμέτρους μιας διανυσματικής συνάρτησης μετασχηματισμού συντεταγμένων h(x,y)єr 2, για την οποία ελαχιστοποιείται κάποια μετρική απόστασης : 3.1.1 όπου θεωρούμε ότι οι εικόνες I r, I t έχουν ενδεχομένως υποστεί κάποια συνεχή παραμόρφωση των εντάσεων κάθε εικονοστοιχείου τους, που όμως είναι ανεξάρτητη των συντεταγμένων αυτού. Τότε οι πραγματικές συναρτήσεις Φ r,φ t είναι εκείνες που αντιστρέφουν την παραμόρφωση αυτή και καθιστούν τις εντάσεις τελικών εικόνων να έχουν την ίδια κατανομή. Συνήθως μία από τις Φ r,φ t είναι η ταυτοτική και η άλλη ένας φωτομετρικός μετασχηματισμός του τύπου Φ(x)=(α+x)/β. Ακόμη, οι γενικοί μετασχηματισμοί συντεταγμένων, οι γεωμετρικοί, συνήθως αρκεί να περιοριστούν στην κλάση των γραμμικών και συγκεκριμένα των μετασχηματισμών συγγένειας ή των προβολικών. Με τη μέθοδο εξαγωγής αντιπροσωπευτικών χαρακτηριστικών καταλήγουμε από τις εικόνες σε απλούστερες, περιεκτικότερες δομές. Εξάλλου, μπορούμε να θεωρήσουμε την εξαγωγή των χαρακτηριστικών ως έναν μετασχηματισμό FEAT: Z 2 ->F που μεταφέρει τις εικόνες στο χώρο χαρακτηριστικών F. Μετά από την εφαρμογή του αλγορίθμου εξαγωγής χαρακτηριστικών στις δύο εικόνες προκύπτουν τα δύο σύνολα, S r ={FEAT(I r )} και S t ={FEAT(I t )}. Για την εφαρμογή της μεθόδου αντιστοίχισης χαρακτηριστικών δεν είναι κατάλληλη οποιαδήποτε μέθοδος εξαγωγής χαρακτηριστικών, θα πρέπει το τελικό σύνολο S που προκύπτει να διατηρεί ικανή πληροφορία, ώστε από την αντιστοίχιση των χαρακτηριστικών να μπορούμε να καταλήξουμε σε αντιστοίχιση σημείων των αρχικών εικόνων, και άρα να υπολογίσουμε τον αντίστοιχο γεωμετρικό μετασχηματισμό. Πρέπει δηλαδή ο μετασχηματισμός να είναι αντιστρέψιμος, σύμφωνα με την ακόλουθη έννοια: 3.1.2 Ακόμη, για τη σύγκριση των στοιχείων θα πρέπει στο χώρο χαρακτηριστικών να οριστεί κατάλληλη συνάρτηση απόστασης d(, ). Ας υποθέσουμε λοιπόν ότι διαθέτουμε τα σύνολα χαρακτηριστικών των δύο εικόνων, S r και S t. Αυτά αποτελούν υποσύνολα του ίδιου χώρου χαρακτηριστικών F και επομένως μπορούμε να ορίσουμε την συνάρτηση M: F->F που αντιστοιχίζει κάθε σημείο του S r με τον κοντινότερο γείτονά του στο σύνολο S t, όπως φαίνεται στη σχέση 19

3.1.3 Αφού τα χαρακτηριστικά αντιστοιχηθούν, μπορούνε να μετασχηματίσουμε τα προκύπτοντα ζεύγη σε αντίστοιχα ζεύγη σημείων των αρχικών εικόνων. Σύμφωνα με τους περιορισμούς που θέτουμε στη μέθοδο, κάτι τέτοιο είναι εφικτό από τη συνάρτηση FEAT -1 ώστε να καταλήξουμε στην αντιστοίχιση. 3.2 Random Sample Consensus (RANSAC) Έχοντας υπολογίσει τα σημεία κλειδιά σε κάθε εικόνα μέσω του SIFT, και πριν περάσουμε στον RANSAC, βρίσκουμε μια αντιστοιχία αυτών των σημείων, για όσα υπάρχει, δημιουργούμε δηλαδή ζεύγη. Ένα ταίριασμα είναι αποδεκτό μόνο αν η απόστασή του είναι μικρότερη n (ένα όριο) φορές από το δεύτερο πιο κοντινό ταίριασμα. Στην περίπτωσή μας, για μεγαλύτερη απόδοση στην υλοποίηση, αντί για τις Ευκλείδειες αποστάσεις χρησιμοποιούμε το εσωτερικό γινόμενο ανάμεσα στα μοναδιαία διανύσματα. Ο λόγος των γωνιών είναι μια πολύ καλή προσέγγιση του λόγου των Ευκλείδειων αποστάσεων για μικρές γωνίες. Στη συνέχεια βρίσκουμε το σετ χαρακτηριστικών που θα μας εξασφαλίσει υψηλής ακρίβειας ευθυγράμμιση (alignment) μέσω του RANSAC. Πριν προχωρήσουμε στην αναλυτική μελέτη του RANSAC, θα προσδιορίσουμε το αυστηρό πρόβλημα που καλείται να επιλύσει. Έστω σύνολο και γνωστό μοντέλο f(x;p)=0 με άγνωστες παραμέτρους p, για το οποίο επίσης γνωρίζουμε την αντίστροφη σχέση, για κάποιο σύνολο σημείων {x}. Να βρεθεί εκείνο το υποσύνολο από εσωτερικές τιμές (inliers) και οι κατάλληλες παράμετροι p του μοντέλου που ελαχιστοποιούν το μέτρο της τιμής του f(x,p) σύμφωνα με κάποια νόρμα 3.2.1 Ο ορισμός αυτός υποδηλώνει δηλαδή ότι γνωρίζουμε μια σχέση που πρέπει να υπακούει ένα υποσύνολο των δεδομένων, η σχέση παραμετροποιείται από άγνωστες τιμές τις οποίες και αναζητούμε συναρτήσει του υποσυνόλου. Θεωρούμε ακόμη πως η συνάρτηση μοντέλου διατίθεται σε τέτοια μορφή ώστε να μπορεί το μέτρο του αποτελέσματός της να συγκριθεί με ένα κατώφλι ώστε να αποφανθούμε για το αν το συγκεκριμένο σημείο είναι εσωτερικό ή ακραία τιμή. Μάλιστα στόχος είναι και η ελαχιστοποίηση της τιμής αυτής. Η μέθοδος Ransac είναι αντίθετη από τις συμβατικές τεχνικές εξομάλυνσης. Από το να χρησιμοποιεί τόσα από τα δεδομένα όσα είναι δυνατόν για να αποκτηθεί μια αρχική λύση και μετά να προσπαθεί να περιορίσει τα ακατάλληλα σημεία 20

(δεδομένα), ο Ransac χρησιμοποιεί μια τόσο μικρή αρχική ποσότητα δεδομένων όσο είναι εφικτό και μεγαλώνει αυτό το σετ με συνετά δεδομένα όταν είναι δυνατό. Για παράδειγμα, δοθέντος του προβλήματος του ταιριάσματος ενός τόξου από ένα κύκλο σε ένα σετ 2-διάστατων σημείων, ο Ransac διαλέγει ένα σετ 3 σημείων (εφόσον τρία σημεία απαιτούνται για να οριστεί ένας κύκλος), υπολογίζει το κέντρο και την ακτίνα του κύκλου και μετρά τον αριθμό των σημείων που είναι αρκετά κοντά σε αυτό τον κύκλο και προτείνει τη συμβατότητα με αυτό (δηλαδή οι αποκλίσεις τους είναι αρκετά μικρές για να είναι λάθος). Αν υπάρχουν αρκετά συμβατά σημεία, ο Ransac θα χρησιμοποιήσει μία τεχνική εξομάλυνσης, όπως των ελαχίστων τετραγώνων, για να υπολογίσει μία βελτιωμένη εκτίμηση των παραμέτρων του κύκλου τώρα που ένα σετ συμβατών μεταξύ τους σημείων έχει προσδιοριστεί. Η βασική ιδέα του αλγορίθμου είναι ότι τα δεδομένα εισόδου του αποτελούνται από «inliers», δηλαδή από δεδομένα που η κατανομή τους μπορεί να εξηγηθεί βάσει κάποιων παραμέτρων ενός μοντέλου και από «outliers», δηλαδή από δεδομένα που δεν ταιριάζουν σε ένα συγκεκριμένο μοντέλο. Επιπλέον, θεωρείται ότι τα δεδομένα μπορεί να έχουν πειραχθεί από θόρυβο. Τα outliers μπορεί να έχουν προέλθει από υψηλές τιμές θορύβου ή από λανθασμένες μετρήσεις ή ακόμα και από λανθασμένες υποθέσεις σχετικά με την ερμηνεία των δεδομένων. Ο RANSAC επίσης υποθέτει ότι δοσμένου ενός μικρού αριθμού inliers, υπάρχει διαδικασία υπολογισμού των παραμέτρων ενός μοντέλου στο οποίο αυτά ταιριάζουν. Δηλαδή, ακόμα και αν ο θόρυβος έχει επηρεάσει μεγάλο ποσοστό των δεδομένων εισόδου, ο αλγόριθμος RANSAC είναι ικανός να βρει λύση. Το παράδειγμα του Ransac διατυπώνεται πιο τυπικά ως εξής: Δοθέντος ενός μοντέλου που απαιτεί τουλάχιστον n σημεία για να καθορίσει τις ελεύθερες παραμέτρους του, και ένα σετ δεδομένων Ρ τέτοιο ώστε ο αριθμός των σημείων στο Ρ να είναι μεγαλύτερος από n [#Ρ n], τυχαία διαλέγει ένα υποσύνολο S1 των n δεδομένων από Ρ και καθορίζει το μοντέλο. Χρησιμοποιεί το μοντέλο Μ1 για να καθορίσει το υποσύνολο S1* των σημείων στο Ρ που είναι μέσα στην ανεκτικότητα λάθους του Μ1. Το σετ S1* καλείται το σετ συμφωνίας (consensus σετ) του S1. Αν το πλήθος #(S1*) είναι μεγαλύτερο από κάποιο όριο t, το οποίο είναι συνάρτηση της εκτίμησης του αριθμού των χονδρικών λαθών στο Ρ, χρησιμοποιεί το S1* για να υπολογίσει ένα νέο μοντέλο M1*. Αν το πλήθος #(S1*) είναι μικρότερο από t, τυχαία διαλέγει ένα νέο υποσύνολο S2 και επαναλαμβάνει την παραπάνω διαδικασία. Αν μετά από κάποιο προκαθορισμένο αριθμό προσπαθειών δεν έχει βρεθεί σύμφωνο σετ με t ή 21

περισσότερα μέλη, είτε λύνουμε το μοντέλο με το μεγαλύτερο σύμφωνο σετ που έχει βρεθεί ή τελειώνει με αποτυχία. Ο Ransac περιέχει 3 απροσδιόριστες παραμέτρους: (1) η ανοχή λάθους (error tolerance) που χρησιμοποιείται να καθορίσει αν ή όχι ένα σημείο είναι συμβατό με ένα μοντέλο, (2) τον αριθμό των υποσυνόλων που είναι να δοκιμάσει (επαναλήψεων) και (3) το κατώφλι t (threshold) το οποίο είναι ο αριθμός των συμβατών σημείων που χρειάζονται για να θεωρηθεί ότι το σωστό μοντέλο έχει βρεθεί. Ακολουθούν μέθοδοι για τον υπολογισμό αυτών των παραμέτρων. Α. Ανοχή λάθους για την καθιέρωση δεδομένων/ Συμβατότητα μοντέλου Η απόκλιση ενός δεδομένου από ένα μοντέλο είναι μια συνάρτηση λάθους που σχετίζεται με το δεδομένο και το λάθος σχετίζεται με το μοντέλο. Αν το μοντέλο είναι μια απλή συνάρτηση των σημείων δεδομένων, ίσως είναι πρακτικό να θέσουμε όρια στην ανοχή λάθους. Ωστόσο, αυτό συνήθως δεν δουλεύει, συνήθως σε αυτές τις περιπτώσεις τα όρια για την ανοχή λάθους υπολογίζονται πειραματικά. Οι παρεκλίσεις των δειγμάτων μπορούν να γίνουν δημιουργώντας διαταραχές στα δεδομένα, υπολογίζοντας το μοντέλο και μετρώντας τα σφάλματα. Η ανοχή σφάλματος θα μπορούσε τότε να ήταν σετ μιας ή δύο αποκλίσεων πέρα από το μετρημένο μέσο όρο λάθους. Η αναμενόμενη απόκλιση ενός δεδομένου από ένα θεωρητικό μοντέλο είναι γενικά μια συνάρτηση δεδομένων και έτσι η ανοχή λάθους θα μπορούσε να είναι διαφορετική για κάθε δεδομένο. Ωστόσο, η απόκλιση σε ανοχές λαθών συνήθως είναι μικρή συγκρινόμενη με το μέγεθος ενός μεγάλου λάθους. Έτσι, μία μόνο ανοχή λάθους για όλα τα δεδομένα είναι συχνά αποδοτική. Β. Ο μέγιστος αριθμός προσπαθειών στην εύρεση σύμφωνου σετ (consensus set) Η απόφαση να σταματήσει η επιλογή νέων υποσυνόλων του Ρ μπορεί να βασίζεται στον αναμενόμενο αριθμό προσπαθειών k που απαιτείται για την επιλογή ενός υποσυνόλου n καλών σημείων δεδομένων. Έστω w ότι είναι η πιθανότητα που οποιαδήποτε επιλεγμένο σημείο δεδομένων είναι μέσα στην ανοχή λάθους του μοντέλου. Τότε έχουμε, 2 1 3 1. 1 1 2 3 3.2.2 Όπου E(k) είναι η αναμενόμενη τιμή του k, b=w n και α=(1-b). Μια σχέση για το άθροισμα γεωμετρικής σειράς είναι 1 3.2.3 22

Παραγωγίζοντας την παραπάνω σχέση ως προς α, έχουμε: 1 1 1 2 3 3.2.4 Έτσι, 1 3.2.5 Ο ακόλουθος πίνακας δείχνει μερικές τιμές του E(k) για αντίστοιχες τιμές του n και του w: Σχήμα 3.1: Τιμές του E(k) για αντίστοιχες τιμές του n και του w. Γενικά, θα θέλαμε πιθανόν να υπερβούμε τις E(k) προσπάθειες από μία ή δύο τυπικές αποκλίσεις πριν σταματήσουμε. Η τυπική απόκλιση του k, SD(k) δίνεται από: 3.2.6 Τότε, 1, 3.2.7 Αλλά χρησιμοποιώντας τη σχέση της γεωμετρικής σειράς και δύο παραγωγίσεις έχουμε: 2 1 1 3.2.8 Έτσι, 23

2 3.2.9 Και 1 1 3.2.1 Γενικά το SD(k) θα είναι κατά προσέγγιση ίσο με το E(k), έτσι για παράδειγμα αν (w=0.5) και (n=4) τότε E(k)=16 και SD(k)=15.5. Αν θέλουμε να εξασφαλίσουμε με πιθανότητα z ότι τουλάχιστον μία από τις τυχαίες επιλογές είναι ένα σωστό σετ των n δεδομένων, τότε πρέπει να κάνουμε τουλάχιστον k επιλογές, όπου 1 1, 1 1. 3.2.11 Για παράδειγμα, αν (w=0.5) και (n=4), τότε (b=1/16). Για να έχουμε 90% ασφάλεια για το φτιάξιμο τουλάχιστον μία χωρίς λάθος επιλογή.1 15 16 35.7 3.2.12 Γ. Ένα κατώτατο όριο στο μέγεθος ενός αποδεκτού σύμφωνου σετ (acceptable consensus set) Το κατώφλι t, μία μη προσδιορισμένη παράμετρος, σε μία κανονική εκδοχή του Ransac, χρησιμοποιείται σαν τη βάση για τον καθορισμό αν ένα n υποσύνολο του Ρ έχει βρεθεί. Δηλώνει ένα ικανοποιητικά μεγάλο σύμφωνο σετ που επιτρέπει στον αλγόριθμο να τερματίσει. Έτσι, το t πρέπει να επιλεχθεί αρκετά μεγάλο να ικανοποιεί δύο κριτήρια: ότι το σωστό μοντέλο έχει βρεθεί για τα δεδομένα και ότι ένα αποτελεσματικό νούμερο αμοιβαίων σημείων που είναι συνεπή, έχει βρεθεί να ικανοποιεί τις ανάγκες της τελικής διαδικασίας εξομάλυνσης. Για την διασφάλιση κατά της πιθανότητας το τελικό σύμφωνο σετ να είναι συμβατό με ένα λάθος μοντέλο και θεωρώντας ότι y είναι η πιθανότητα όπου κάθε δοθέν σημείο δεδομένων να είναι μέσα στην ανοχή λάθους ενός λάθους μοντέλου, θα θέλαμε το y t-n να είναι πολύ μικρό. Καθώς δεν υπάρχει γενικός τρόπος ακριβούς καθορισμού του y, θεωρούμε ότι είναι μικρότερο από w (όπου w είναι εκ των προτέρων πιθανότητα ενός δοθέντος σημείου να είναι μέσα στην ανοχή λάθους του σωστού μοντέλου). Θεωρώντας ότι y<0.5, μία τιμή του t-n που είναι ίση με το 5 θα 24

παρέχει καλύτερη από 95% πιθανότητα ότι συμβατότητα με ένα λάθος μοντέλο δεν θα συμβεί. Ακολουθεί μια συνοπτική περιγραφή του αλγορίθμου: Αλγόριθμος RANSAC (1) Τυχαία επιλογή των ελάχιστων (σε πλήθος) σημείων που απαιτούνται για τον καθορισμό του μοντέλου. (2) Επίλυση των παραμέτρων του μοντέλου (3) Καθορισμός του πλήθους των σημείων από το σετ που ανήκουν στο μοντέλο (πλήθος των inliers). (4) Αν ο λόγος του αριθμού των inliers προς τον συνολικό αριθμό των σημείων του σετ ξεπερνά ένα προκαθορισμένο όριο r, γίνεται επανεκτίμηση των παραμέτρων του μοντέλου χρησιμοποιώντας όλους τους inliers που έχουν βρεθεί και τερματίζει. (5) Επανάληψη των βημάτων (1)-(4) (μέγιστος αριθμός επαναλήψεων Ν) Στη συνέχεια περιγράφεται το μοντέλο που χρησιμοποιείται και υπολογίζεται από τον RANSAC για τον υπολογισμό των inliers. 3.3 Μοντέλο κίνησης- Ομογραφία Πριν ενώσουμε τις εικόνες για να δημιουργήσουμε μωσαϊκό, πρέπει να ορίσουμε τις μαθηματικές σχέσεις που καθορίζουν τις συντεταγμένες των εικονοστοιχείων από τη μία εικόνα στην άλλη. Αυτό είναι το μοντέλο που υπολογίζεται από τον RANSAC. Υπάρχει μια ποικιλία τέτοιων παραμετρικών μοντέλων κίνησης (motion models), όπως απλοί 2D μετασχηματισμοί, επίπεδα μοντέλα προοπτικής (planar perspective models), 3D περιστροφές κάμερας και μη επίπεδες επιφάνειες (π.χ. κυλινδρικές). Ως γεωμετρικούς μετασχηματισμούς περιγράφουμε αντιστρέψιμες συναρτήσεις που αντιστοιχίζουν κάθε σημείο του Ευκλείδειου χώρου σε ένα άλλο. Το Σχήμα 3.2 δείχνει κάποιους κοινούς 2D επίπεδους μετασχηματισμούς, και το σχήμα 3.3 περιέχει τη μαθηματική τους μορφή. Ο πιο εύκολος τρόπος να τους σκεφτούμε είναι ένα σετ από 3x3 πίνακες χρησιμοποιώντας 2D ομογενή διανύσματα, x =(x,y,1) και x=(x,y,1), έτσι x ~Hx 3.3.1 όπου Η είναι ένας από τους 3x3 πίνακες που δίνονται στο σχήμα 3.3. 25