D. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2):91-110, 2004.
Εισαγωγικά: SIFT~Harris Harris Detector: Δεν είναι ανεξάρτητος της κλίμακας (scale invariant) Όλα τα pixels θεωρούνται edges Σε μικρότερη κλίμακα είναι Corners!
SIFT: Τι περιλαμβάνει Α. Ανίχνευση ακροτάτων στο scale-space Β. Εντοπισμός key-points Γ. Προσδιορισμός προσανατολισμού Δ. Περιγραφή -Keypoints detector descriptor ( ) Τοπική περιγραφή Μία εικόνα 500x500 δημιουργεί 2000 σημεία
Α. Ανίχνευση ακροτάτων στο scalespace Ψάχνουμε σε όλες τις κλίμακες (scale-space)να βρούμε σταθερά χαρακτηριστικά Για την δημιουργία των κλιμάκων (scale-space) χρησιμοποιούμε DoG filter (difference of Gaussian)
DoG filtering Συνέλιξη με variable-scale Gaussian Difference-of-Gaussian (DoG) filter Συνέλιξη με DoG filter
Γιατί DoG είναι ανεξάρτητο της κλίμακας Από την εξίσωση διάχυσης G σ σ 2 G υπολογίζουμε 2 G σ G σ G(x, y,kσ) G(x,y,σ) kσ -σ G(x, y,kσ) G(x, y,σ) ( k -1)σ 2 2 G Τελικά υπολογίζεται η κανονικοποιημένη Laplacian
Χώρος κλίμακας scale-space διπλασιάζεται στην επόμενη octave 2 2 σ 0 Υποδειγματοληψεία k s =2 2σ 0 k=2 (1/s) Για s=4 k=1.2 s Lk σ 2 Lk σ L kσ Συνέλιξη με Gaussian σ 0 Lσ Ο διαχωρισμός σε «οκτάβες» δεν είναι υποχρεωτικός αλλά είναι αποδοτικός
Ανίχνευση ακροτάτων στο scale-space L D
Εντοπισμός του key-point (σημείου ενδιαφέροντος ) 2 D k Dk D X είναι το ακρότατο (μέγιστο ή ελάχιστο) μεταξύ των 26 γειτόνων
Ποιο είναι το βέλτιστο βήμα στη δειγματοληψία του scale Είναι αδύνατον να έχουμε όλα τα scales Πειραματικά βρίσκεται η βέλτιστη τιμή s=4
Β. Ακριβής εντοπισμός του key-point Προσαρμόζεται μία 3D τετραγωνική συνάρτηση για εύρεση του μεγίστου 6 5 1-1 0 +1
1 6 5 0-1 +1 2 2 0 0 0 x ) f ''( )x f '( ) f ( (x) f 3 1 ˆ x 2 2 3 2 6 2 6 2 6 ) ( x x x x x f 0 6 2 ) ( ' x x f 3 1 6 3 1 3 3 1 2 6 ( ˆ) 2 x f 3 1 6 3 1 Aναπτυξη Taylor
Απόρριψη σημείων ακμής (όπως στο Harris corner detector) 2 D 2 x H(D) 2 D yx 2 D xy 2 D 2 y Hessian matrix Let Δεν διαγράφονται σημεία όταν 2 Tr(H) (r 1) Det(H) r 2 r=10
Απόρριψη σημείων χαμηλής αντίθεσης (low contrast) Εάν D(xi ) 0. 03 το keypoint απορρίπτεται
Maxima in D keypoints
Απόρριψη σημείων χαμηλής αντίθεσης
Απόρριψη σημείων ακμής
Γ. Προσδιορισμός διεύθυνσης Προσδιορίζουμε μια «προεξάρχουσα» διεύθυνση. Για ένα keypoint, L is the Gaussian-smoothed image στο πιο κοντινό scale: m θ (Lx, Ly) histogram (36 bins)
Προσδιορισμός διεύθυνσης
Προσδιορισμός διεύθυνσης
Προσδιορισμός διεύθυνσης
Προσδιορισμός διεύθυνσης σ=1.5*scale of the keypoint
Προσδιορισμός διεύθυνσης
Προσδιορισμός διεύθυνσης
SIFT keypoints + διεύθυνση Εντοπισμός key points Διεύθυνση key points
2 ο παράδειγμα Αρχική εικόνα 233x89 pixels 832 αρχική επιλογή 729 μετα από απορριψη ακμών 536 Μετα από απόρριψη χαμηλού D
Δ. Τελική περιγραφή του key point 1. Προσδιορίζουμε ένα παράθυρο 16x16 σημείων γύρω από το key point 2. Διαιρούμε σε 4x4 κελιά 3. Υπολογίζουμε το ιστόγραμμα των gradients «orientation histograms» (8 bins) 4. Τελικό διάνυσμα 8 διευθύνσεις x 16 κελλια = 128 dimensions 5. Κανονικοποιούμε, αποκόπτουμε (clip) τιμές > 0.2, ξανακανονικοποιούμε
Αντιστοίχιση χαρακτηριστικών SIFT Για ένα σημείο x μίας εικόνας: Βρίσκουμε το x 1 και το x 2 που έχουν τις μικρότερες αποστάσεις. Εάν d(x,x 1 ) / d(x,x 2 ) < 0.8 το x αντιστοιχεί στο x 1
Αναγνώριση εικόνας SIFT Features
Αναγνώριση εικόνας
Ανάκτηση εκόνας > 5000 images change in viewing angle
Ανάκτηση εκόνας 22 correct matches
Ανάκτηση εκόνας change in viewing angle + scale change > 5000 images
Αυτόματη συρραφή εικόνων
Αυτόματη συρραφή εικόνων
Αυτόματη συρραφή εικόνων
Αυτόματη συρραφή εικόνων
Αυτόματη συρραφή εικόνων