Ανάπτυξη και υλοποίηση νέων τεχνικών όρασης μηχανών για εφαρμογές αναγνώρισης πραγματικού χρόνου ιδακτορική ιατριβή Λεωνίδας Κωτούλας Εργαστήριο Ηλεκτρονικής Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών ημοκρίτειο Πανεπιστήμιο Θράκης 8 Μαΐου 2007/ Παρουσίαση ιατριβής
Τριμελής συμβουλευτική επιτροπή Πρόεδρος Ι. Ανδρεάδης, Καθηγητής Η.Μ&Μ.Υ.,.Π.Θ Μέλη Ν. Παπαμάρκος, Καθηγητής Η.Μ&Μ.Υ.,.Π.Θ Ι. Θεωχάρης, Αν. Καθηγητής Η.Μ&Μ.Υ., Α.Π.Θ
Επισκόπιση Susswreushc Taquc upologismoc Akribhc upologismoc Bajmonomhsh f(x, y)x p y q dxdy Gewmetrikec r ij G = (C ij + 1) 3 e 2σ 2 Ropec eikonwn Suneqouc bashc Zernike Araih antistoiqhsh f(x, y)e pθ Rpq (r)rdrdθ Anakthsh plhroforiac bajouc ART Legendre f(x, y)lp(x)lq (y)dxdy Taquc upologismoc Akribhc upologismoc Anakataskeuh z = F L d BaseLine Exeliktika Diakrithc bashc Taquc upologismoc Taquc upologismoc apo probolec Puknh antistoiqhsh upologizomenec Chebyshev f(x, y)tp(x)tq (y) Qarakthrismoc Krawtchouk eikonac Taquc upologismoc Efarmogec
Επισκόπηση Ροπές εικόνων Ταχεία εξαγωγή Αύξηση ακρίβειας Εξελικτική βελτίωση ιερεύνηση ιδιοτήτων Χάρτες βάθους Αραιή αντιστοίχιση σημείων Ταχεία εξαγωγή χαρτών βάθους
Περίγραμμα
Περίγραμμα
Περιγραφείς ροπών Αποτελούν στατιστικούς περιγραφείς σχήματος. Περιγράφονται από σχέσεις της μορφής P n (x)f (x). Η συνάρτηση βάσης P n (x) καθορίζει και τον τύπο της ροπής.
Επεξεργασία πραγματικού χρόνου Real-time Processing Επεξεργασία μέσα σε προκαθορισμένα χρονικά πλαίσια. Γενικά, δεν αναφέρεται μόνο στην υψηλή ταχύτητα του συστήματος. Ειδικά, στην οπτική επεξεργασία πληροφοριών, στοχεύει στην επεξεργασία 30 εικόνων ανά δευτερόλεπτο. Παραδείγματα Συμπίεση/Αποσυμπίεση βίντεο Ελεγχος βάσει οπτικής πληροφορίας
Παραδείγματα εφαρμογών ροπών Εξαγωγή βασικών γεωμετρικών χαρακτηριστικών (Εμβαδόν, κέντρο βάρους, κύριος άξονας) Αναγνώριση αντικειμένων για έλεγχο Αναγνώριση χαρακτήρων Υδατογράφηση
Τύποι ροπών Μη ορθογώνιας βάσης: Γεωμετρικές, Μιγαδικές Ορθογώνιας σε συνεχή χώρο βάσης: Legendre, Zernike, Fourier Mellin Ορθογώνιας σε διακριτό χώρο βάσης: Chebyshev, Krawtchouk.
Γεωμετρικές ροπές 4500 4000 3500 3000 2500 2000 1500 1000 500 0 0 2 4 6 8 10 12 14 16 Αποτελούν τον πιο απλό τύπο ροπών Εκφράζονται από τη σχέση: x n f (x) (1 ), x n y m f (x ; y)dxdy (2 )
Γεωμετρικές ροπές Συγκριτικά πλεονεκτήματα Περιγράφονται τα βασικά γεωμετρικά χαρακτηριστικά ενός σχήματος Εμβαδόν m 00 Κέντρο βάρους Κύριος άξονας m01 m 10 ; m 00 m 00 Μικρό υπολογιστικό κόστος Απλές στην υλοποίηση = 1 2 arctan 02 20 + 2 11 4 sign 11 + n; n = 0; 1
Γεωμετρικές ροπές Συγκριτικά μειονεκτήματα Τάξη ροπής N Ενδεικτική τιμή 1 64 1 3 64 262144 7 128 5; 6 10 14 Πολύ μεγάλο εύρος τιμών Αριθμητική αστάθεια Μικρή ανοχή στο θόρυβο ύσκολη ανακατασκευή εικόνας Περιορισμένη αμεταβλητότητα
Ροπές Legendre 1 0.8 0.6 P 1 (x) P 2 (x) P 3 (x) 0.4 0.2 P p (x) 0 0.2 0.4 0.6 0.8 1 1 0.5 0 0.5 1 x Αποτελούν τον πιο απλό τύπο ροπών με ορθογώνια πολυωνυμική βάση Εκφράζονται από τη σχέση: L n (x)f (x)dx (1 ); L n (x)l n (y)f (x ; y)dxdy ; (2 )
Ροπές Legendre Συγκριτικά πλεονεκτήματα εν προσφέρουν κανένα καθολικό πλεονέκτημα έναντι των άλλων τύπων ροπών Προσφέρουν μία ουσιαστική βελτίωση έναντι των γεωμετρικών Ανακατασκευή εικόνας Μεγαλύτερη ανοχή στο θόρυβο Περιορισμένο εύρος τιμών
Ροπές Legendre Συγκριτικά μειονεκτήματα εν παρουσιάζουν αμεταβλητότητα Η ανακατασκευή είναι λιγότερο ακριβής από αυτή των ροπών διακριτής ορθογώνιας βάσης
Ροπές Zernike Ροπές ακτινικής μιγαδικής ορθογώνιας βάσης Περιγράφονται από σχέση της μορφής Rp (r)e iq f (r ; )drd
Ροπές Zernike Συγκριτικά πλεονεκτήματα Αμεταβλητότητα σε γραμμικούς μετασχηματισμούς...σε συνδιασμό με δυνατότητα ανακατασκευής Μεγάλη ανοχή στο θόρυβο Περιορισμένο εύρος τιμών
Ροπές Zernike Συγκριτικά μειονεκτήματα Z p;q = p + 1 1 2 0 0 rr pq (r)e iq f (r ; )d dr (1) Υψηλό υπολογιστικό κόστος Σφάλματα λόγω διακριτοποίησης των πολικών συντεταγμένων εν είναι επεκτάσιμες σε άλλες διαστάσεις
Ροπές Chebyshev 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0 10 20 30 40 50 60 Ροπές διακριτής ορθογώνιας βάσης Περιγράφονται από σχέση της μορφής T m (x)f (x)
Ροπές Chebyshev Συγκριτικά πλεονεκτήματα Ακριβής ανακατασκευή Περιορισμένο εύρος τιμών
Ροπές Chebyshev Συγκριτικά μειονεκτήματα εν παρέχουν αμεταβλητότητα
Περιγραφέας ART Αποτελεί τον περιγραφέα σχήματος κατά το πρότυπο MPEG 7 Οι συντελεστές περιγράφονται από σχέση της μορφής: M p;q = f (r ; )sin(pr)cos(q)drd
Περιγραφέας ART Συγκριτικά πλεονεκτήματα Αριθμός συντελεστών 35 Ακρίβεια ανά συντελεστή Συνολικό μέγεθος 4bits 140bits Πολύ μικροί περιγραφείς Παρουσιάζουν αμεταβλητότητα σε γραμμικούς μετασχηματισμούς Παρουσιάζουν περιορισμένο εύρος τιμών
Περιγραφέας ART Συγκριτικά μειονεκτήματα Σχετικά μεγάλο εύρος τιμών Υψηλό υπολογιστικό κόστος ίνονται μόνο 35 συντελεστές, με ακρίβεια 4 ψηφίων ίνεται μόνο για δυαδικές εικόνες
Περίγραμμα
Ταχύς υπολογισμός Κίνητρα Η εξαγωγή των ροπών μίας εικόνας είναι υπολογιστικά ακριβή διαδικασία. Συνήθως απαιτείται επεξεργασία σε πραγματικό χρόνο Συστήματα βιομηχανικού ελέγχου Συστήματα αυτόνομης πλοήγησης Αναζήτηση σε μεγάλες βάσεις δεδομένων
Παραγοντικά πολυώνυμα x m Η φθίνουσα παραγοντική m-ιοστή δύναμη δίνεται από τη σχέση x m = x(x 1) : : : (x m + 1) π.χ. x 3 = x(x 1)(x 2) Παρουσιάζουν πολύ χρήσιμες ιδιότητες στη διακριτή ανάλυση: (x m ) = (x + 1) m x m = mx m 1 n 1 x m = nm+1 m+1 x=0 Η συσσωρευτική ροπή ενός σήματος δίνεται από τη σχέση n 1 x m f (x) x=0
Παραγοντικά πολυώνυμα Προφανώς κάθε παραγοντικό πολυώνυμο μπορεί να εκφραστεί στη συνήθη μορφή π.χ. x 3 = x(x 1)(x 2) = x 3 3x 2 2x + 2 Ισχύει και το αντίστροφο x 2 = x(x 1) + x = x 2 + x 1 Οι δύο μορφές συνδέονται μέσω των αριθμών του Stirling, πρώτου και δεύτερου είδους x m = m s m n x n n=0 x m = m ṡ m n x n n=0
Φίλτρα πόλων 1 (z 1) n + Καταχωρητής, (z 1 ) Μετρητής υπερχείλισης Ενα φίλτρο ενός πόλου (z 1) 1 ισοδυναμεί με ένα συσσωρευτή n συσσωρευτές σε σειρά δίνουν ένα μονοδιάστατο φίλτρο n πόλων Η έξοδος ενός φίλτρου n πόλων είναι η συσσωρευτική ροπή του σήματος τάξης n.
Φίλτρα πόλων 1 (z 1) n f(x, y) y0,0 y0,n 1 1 1 1 z 1 z 1 1 z 1 1 z 1 1 z y0,0 1 1 z y0,n y1,n 1 1 1 z 1 1 z yn 1,0 yn 1,1 1 1 z y0,n Οι συσσωρευτές σειράς μεταβάλλουν την κατάστασή τους σε κάθε είσοδο Οι στήλης μόνο σε κάθε αλλαγή γραμμής
Συσσωρευτικές ροπές και Γεωμετρικές ροπές Οι γεωμετρικές ροπές δίνονται από τη σχέση n 1 x m f (x) x=0 Εκφράζοντας τη μονώνυμο x m ως παραγοντικό πολυώνυμο, οι γεωμετρικές ροπές μπορούν να εκφρασθούν ως γραμμικός συνδυασμός ροπών συσσώρευσης. Οι ροπές συσσώρευσης υλοποιούνται εύκολα από φίλτρα πόλων.
Συσσωρευτικές ροπές και Ροπές Zernike Οι ροπές Zernike ορίζονται σε πολικές συντεταγμένες Εντούτοις, μπορούν να εκφρασθούν μέσω των γεωμετρικών ροπών. Η σχέση, όμως, δεν είναι γραμμική, στη γενική περίπτωση Οι γεωμετρικές ροπές, υλοποιούνται εύκολα μέσω φίλτρων πόλων.
Συσσωρευτικές ροπές και Ροπές Chebyshev ίνονται από τη σχέση: Tp (x)t q (y)f (x ; y), με T πολυώνυμο. Επομένως το T (x) μπορεί να εκφρασθεί ως γραμμικός συνδυασμός παραγοντικών δυνάμεων Οι ροπές Chebyshev εκφράζονται ως συνδυασμός των συσσωρευτικών ροπών
υαδικές εικόνες υαδικές εικόνες με απλό περίγραμμα Σε εικόνες με απλό περίγραμμα τα σημεία ακμών είναι πολύ λιγότερα από τα υπόλοιπα. Γνωρίζοντας τα ακραία, αυτά, σημεία: n 1 x n f (x) = x=0 x 1 m+1 x n = x m + 1 x=x 0
υαδικές εικόνες υαδικές εικόνες με απλό περίγραμμα 14 12 10 8 6 4 2 0 0 5 10 15 Εχοντας εξάγει τις συσσωρευτικές ροπές της δυαδικής εικόνας, υπολογίζονται: Γεωμετρικές ροπές Ροπές Zernike Ροπές Chebyshev
υαδικές εικόνες Περιγραφέας ART εν παρουσιάζει πολυωνυμική βάση, οπότε η άμεση έκφρασή τους μέσω ροπών συσσώρευσης δεν είναι εφικτή. Προσέγγιση μέσω πολυωνύμων δύο μεταβλητών 3ου βαθμού για κάθε τεταρτημόριο Εκφραση των πολυωνύμων μέσω παραγοντικών δυνάμεων Εξαγωγή των συσσωρευτικών ροπών από το περίγραμμα
Συγκριτικά αποτελέσματα Γεωμετρικές ροπές 0.015 Hardware Hardware/Software Software Martinez method 0.01 Time (s) 0.005 0 200 300 400 500 600 700 800 900 1000 Image width (Pixels)
Συγκριτικά αποτελέσματα Ροπές Zernike N = 128; M = 40 Αριθμός προσθέσεων Αριθμός πολ/σμών Mukundan and Ramakrishnan N 2 M 2 =2 + NM 3 =8 2M 2 + N 2 M 2 + NM 3 =4 Belkasim Gu Προτεινόμενη τεχνική 14,131,200 28,265,600 M(N + 2)(N 1) M 2 N 2 =2 + 2NM 670,800 13,117,440 3M 2 N=8 + 2N 2 M + M 2 N=2 + 2N 2 M M 3 N=12 + M 2 N 2 =4 8,623,786 1,413,120 1=960(M + 2)(M + 1)(M 3 + 1=960(M + 2)(M + 1)(M 3 + 92 M 2 + 947M + 2280) + N 132M 2 +1387M +3240)+2N 451,005 599,225 &16,384 κύκλοι ρολογιού
Συγκριτικά αποτελέσματα Ροπές Legendre 10 0 Software Software/Hardware Hardware 10 1 Yang Yapp Time (s) 10 2 10 3 10 4 0 200 400 600 800 1000 Image width (Pixels)
Συγκριτικά αποτελέσματα Ροπές Chebyshev εν παρουσιάζει πολυωνυμική βάση, οπότε η άμεση έκφρασή τους μέσω ροπών συσσώρευσης δεν είναι εφικτή.
Συγκριτικά αποτελέσματα Περιγραφέας ART 15 x 107 Direct method Hwang&Kim Proposed (3rd order interp.) Number of operations 10 5 0 0 200 400 600 800 1000 N εν παρουσιάζει πολυωνυμική βάση, οπότε η άμεση έκφρασή τους μέσω ροπών συσσώρευσης δεν είναι εφικτή.
Περίγραμμα
Σφάλματα στον υπολογισμό των ροπών Αριθμητική επίλυση των ολοκληρωμάτων ιακριτή προσέγγιση του μοναδιαίου κύκλου(ροπές Zernike)
Αριθμητική επίλυση των ολοκληρωμάτων Γενική περίπτωση Ο ορισμός των ροπών συνεχούς βάσης δίνεται από τη σχέση: M p;q = f (x ; y)b p;q(x ; y)dxdy (2) Πρακτικά, όμως, χρησιμοποιείται η σχέση: M p;q = f (x ; y)b p;q(x ; y) (3) Αυτό οδηγεί σε σφάλματα τα οποία: Αυξάνονται με την τάξη της ροπής Μειώνονται με τον αριθμό των δειγμάτων Για τη μείωση του δεύτερου τύπου σφάλματος προτείνεται η προσέγγιση του ολοκληρωτέου όρου με πολυώνυμο.
Αριθμητική επίλυση των ολοκληρωμάτων Γραμμική παρεμβολή Μία συνεχής συνάρτηση μπορεί να προσεγγισθεί γραμμικά χρησιμοποιώντας την παρακάτω σχέση: f (x) = f (bx c + a) = (1 a)f (bx c) + af (bx c + 1) Η ροπή τάξης p γίνεται: M 0 p = N 1 x=0 1 0 ((1 a)f (bx c) + af (bx c + 1)) (bx c + a) p da Το ολοκλήρωμα στην παραπάνω σχέση μπορεί να λυθεί αναλυτικά
Αριθμητική επίλυση των ολοκληρωμάτων Γραμμική παρεμβολή Μετά από την ανάπτυξη του ολοκληρώματος, και την αντικατάσταση των αθροισμάτων με κατάλληλες ροπές προκύπτει: M 0 p = 1 (p + 1)(p + 2) p ( ) p + 2 (M m (1 + ( 1) p m )) m m=0 Η παραπάνω σχέση μειώνει το αριθμητικό σφάλμα σε σχέση με τις διακριτά υπολογισμένες ροπές κατά περίπου μία τάξη μεγέθους.
Αριθμητική επίλυση των ολοκληρωμάτων Γραμμική παρεμβολή (1 ) Προκύπτει τελικά μία καλύτερη προσέγγιση στις συνεχείς γεωμετρικές ροπές, χρησιμοποιώντας ως πυρήνα όχι τα μονώνυμα x p αλλά τα πολυώνυμα G p (x): N 1 x=0 x p f (x)dx 1 f (x) (p + 1)(p + 2) p m=0 ( ) p + 2 x m (1 + ( 1) p m ) m
Αριθμητική επίλυση των ολοκληρωμάτων Γραμμική παρεμβολή (2 ) Με παρόμοιο συλλογισμό, προκύπτει τελικά: Z Z f (x ; y)x p y q dxdy qx q X p p 1 1 n m (p m + 1)(p m + 2) (q n + 1)(q n + 2) Mm;n n=0 m=0 px p X q q ( 1) p m 1 + m n (p m + 1)(p m + 2) (q n + 1)(q n + 2) Mm;n m=0 n=0 qx q X p p 1 ( 1) q n + n m (p m + 1)(p m + 2) (q n + 1)(q n + 2) Mm;n n=0 m=0 px p qx q + (a 1) p m ( 1) p m ( 1) q n m n (p m + 1)(p m + 2) (q n + 1)(q n + 2) Mm;n m=0 n=0 +R Η παραπάνω σχέση προσεγγίζει καλύτερα τις αναλυτικές τιμές για τις ροπές σήματος δύο διαστάσεων
Αριθμητική επίλυση των ολοκληρωμάτων Πολυωνυμική παρεμβολή (1 ) Με δεδομένα n σημεία ελέγχου, το πολυώνυμο παρεμβολής μπορεί να περιγραφεί με τη χρήση του πίνακα Vandermonde: P(x) = n a t x t = t=0 n n t=0 k=0 V 1 n+1 (n t+1; k)f (x n + 3 2 +k)x t Εισάγοντας το πολυώνυμο αυτό στον γενικό τύπο των γεωμετρικών ροπών προκύπτει: Ḿ p = n n t=0 k=0 p ( p V 1 n+1 (n t + 1; k) l=0 l ) n+3 k 2 Ml (p l + t + 1)
Αριθμητική επίλυση των ολοκληρωμάτων Πολυωνυμική παρεμβολή (1 ) Η παραπάνω σχέση δίνει μία καλύτερη προσέγγιση των γεωμετρικών ροπών Η σχέση του νέου συνόλου ροπών με τις διακριτά υπολογισμένες είναι γραμμική Για δεδομένο βαθμό του πολυωνύμου προσαρμογής, η σχέση απλοποιείται: π.χ. για κυβική παρεμβολή ισχύει: M p = p ( p m=0 m ) 4(2 p m+2 1)(1 + ( 1) p m ) (p + 1)(p + 2)(p + 3)(p + 4) M m
Ακριβής υπολογισμός ροπών Zernike Σχέση με γεωμετρικές ροπές Οι ροπές Zernike συσχετίζονται με τις γεωμετρικές ροπές στο συνεχή χώρο βάσει της: px Z p;q = p + p k q 1 k q ( 2N) k 2 B 2 pqk n k=q;p jkjeven n=0 2X q X m=0 q m ( i) q m M 0 m+2n;k 2n m Η παραπάνω σχέση είναι γραμμική, μόνο για σταθερό μέγεθος εικόνας N Με τον ακριβή υπολογισμό των γεωμετρικών ροπών, προκύπτουν τελικά ακριβέστεροι περιγραφείς Zernike
Υπολογιστική πολυπλοκότητα τεχνικής Οι σχέσεις για τις γεωμετρικές ροπές είναι γραμμικές Επομένως, μπορούν να εκφραστούν μέσω έκφρασης της μορφής M p;q = q m=0 n=0 q A p;q(m; n)m p;q (4) Τα A p;q(m; n) εξαρτώνται μόνο από τον τύπο της παρεμβολής. Τελικά απαιτούνται pq πολλαπλασιασμοί και pq προσθέσεις
Πειραματικά αποτελέσματα Σήματα 1 0.03 a 0.025 b c d 0.02 0.015 0.01 0.005 0 0 5 10 15 20 25 30 35 a, διακριτή προσέγγιση, b σημειακά σταθερή προσέγγιση, c γραμμική προσέγγιση, d κυβική προσέγγιση Για το σήμα στα αριστερά, παρουσιάζονται τα σφάλματα με διάφορες υλοποιήσεις
Πειραματικά αποτελέσματα Σήματα 2 0.025 0.02 a b c 0.015 0.01 0.005 0 <0,0> <1,10> <3,10> <5,10> <7,10> <9,10> <10,10> Σχετικό αριθμητικό σφάλμα γεωμετρικών ροπών. a, διακριτή προσέγγιση, b σημειακά σταθερή προσέγγιση, c γραμμική προσέγγιση
Πειραματικά αποτελέσματα Ροπές Zernike 1.05 1.015 1.01 1 1.005 M 0.95 a b c M 1 0.995 0.99 a b 0.9 0.985 c 0.98 0.85 0.975 0.97 0.8 0 5 10 15 20 25 30 35 40 45 R 0.965 1 2 3 4 5 6 7 8 9 10 S Επίδραση περιστροφής (γωνία R) και κλιμάκωσης (S) στις τιμές των ροπών Zernike. a, διακριτή προσέγγιση, b σημειακά σταθερή προσέγγιση, c γραμμική προσέγγιση
Περίγραμμα
Στόχος βελτιστοποίησης Η βελτίωση των χαρακτηριστικών των ροπών ορθοκανονικής πολυωνυμικής βάσης Ελαχιστοποίηση σφάλματος ανακατασκευής Μεγιστοποίηση ακρίβειας ανάκτησης αντικειμένων
Οι Εξελικτικές Στρατηγικές ως εργαλείο ελαχιστοποίησης Οι ΕΣ ανήκουν στην οικογένεια των εξελικτικών αλγορίθμων Σε αντίθεση με τους γενετικούς αλγορίθμους: Τα χρωμοσώματα είναι διανύσματα πραγματικών αριθμών Η εξέλιξη του αλγορίθμου στηρίζεται περισσότερο στη μετάλλαξη παρά στο συνδυασμό Η μετάλλαξη υλοποιείται με την προσθήκη τυχαίου θορύβου κανονικής κατανομής. Οι παράμετροι της μετάλλαξης μεταβάλλονται κατά την διάρκεια εκτέλεσης του αλγορίθμου.
Ορθοκανονικοποίηση Gram-Schmidt έχεται ένα μη ορθογώνιο σύνολο γραμμικά ανεξαρτήτων συναρτήσεων και κατασκευάζει μία ορθογώνια βάση σε δεδομένο διάστημα και σε σχέση με μία συνάρτηση βάρους w(x) P m (x)p n (x)w(x) = (m n) (5) Η διαδικασία είναι ιδιαίτερα γρήγορη απλή στην υλοποίηση για πολυώνυμα. Η συνάρτηση w(x) αποτελεί και την παράμετρο η οποία επηρεάζει τους παραγόμενους περιγραφείς.
Ανακατασκευή εικόνας από ροπές Ενα σήμα μπορεί να ανακατασκευασθεί από τις ροπές του, αν έχουν ορθογώνια βάση Για ένα σήμα f, N δειγμάτων με ροπές M p ισχύει: f (x) = p M n P n (x) (6) n=0 Στην πράξη χρησιμοποιούνται λιγότερες ροπές F (x) k M n P n (x) (7) n=0 Ζητείται να ελαχιστοποιηθεί το jf (x) f (x)j
Βελτιστοποίηση ανάκτησης Ζητείται να βρεθούν ποια σήματα μέσα σε ένα σύνολο ανήκουν στην ίδια κλάση με ένα δοθέν. Π.χ: Εστω ένα σύνολο 300 εικόνων λατινικών χαρακτήρων Μία κλάση αποτελείται από όλες τις εικόνες ενός χαρακτήρα Αν δοθεί μία εικόνα του χαρακτήρα Ο, ζητούνται οι υπόλοιπες εικόνες του Το μείζον ζητούμενο είναι ο προσδιορισμός της συνάρτησης καταλληλότητας, δηλαδή της συνάρτησης που θα πρέπει να ελαχιστοποιηθεί.
Βελτιστοποίηση ανάκτησης Συνάρτηση καταλληλότητας Η πιο φυσική επιλογή είναι η ελαχιστοποίηση του αριθμού των εσφαλμένων αντιστοιχίσεων Μπορεί να πάρει περιορισμένο αριθμό τιμών Μικρές μεταβολές στην είσοδο δεν επηρεάζουν την έξοδο εν μπορεί να χρησιμοποιηθεί, παρά μόνο για πολύ μεγάλο (Μη πρακτικό) σύνολο εκπαίδευσης. Μία δεύτερη επιλογή είναι η απόσταση μεταξύ των εικόνων της ίδιας κλάσης Μηδενίζεται για w(x) = 0. ηλαδή αν κάθε ροπή είναι 0, η καταλληλότητα είναι βέλτιστη εν ευνοεί το διαχωρισμό των κλάσεων.
Βελτιστοποίηση ανάκτησης Συνάρτηση καταλληλότητας Τελικά επιλέχθηκε μία πιο σύνθετη συνάρτηση καταλληλότητας: Ο στόχος είναι η ελαχιστοποίηση των εσφαλμένων αντιστοιχίσεων Εισάγεται με μία πολύ μικρότερη βαρύτητα, η κατάταξη των εικόνων της ίδιας κλάσης. Τελικά: F = W + Rank(c i ; c i 2 C) (8) με W των αριθμό των σφαλμάτων και C την υπό εξέταση κλάση
Βελτιστοποίηση ανακατασκευής Πειραματικά αποτελέσματα
Βελτιστοποίηση ανάκτησης Πειραματικά αποτελέσματα Chebishev Προτεινόμενες Τυπωμένοι χαρακτήρες (64 ροπές) 99,6% 100% Τυπωμένοι χαρακτήρες (16 ροπές) 95% 98,7% Χειρόγραφοι χαρακτήρες 57% 67% Εικόνες αντικειμένων 85% 95%
Βελτιστοποίηση ροπών διακριτής ορθογώνιας βάσης Συμπεράσματα Πλεονεκτήματα: Αύξηση ακρίβειας ανακατασκευής Αύξηση ακρίβειας ανάκτησης Μικρό υπολογιστικό κόστος Μειονεκτήματα Εξαρτώνται από την εφαρμογή εν παρέχουν αμετάβλητους περιγραφείς
Περίγραμμα
Γραμμικοί μετασχηματισμοί Συνήθης αντιμετώπιση Οι ροπές εξάγονται άμεσα από τη μετασχηματισμένη εικόνα Είναι προτιμότερο για πολύπλοκους μετασχηματισμούς σε μικρές εικόνες Συνήθως, οι μετασχηματισμοί είναι απλοί και αφορούν μεγάλες εικόνες
Μετακίνηση Γραμμικοί μετασχηματισμοί M x 0;0 p;q = M 0;y 0 p;q = p pa n n=0 p pa n n=0 n k=0 n k=0 ( n k ( n k ) k t=0 ) k t=0 kb t ( x 0 ) n k M 0;0 t;q kb t ( y 0 ) n k M 0;0 p;t
Περιστροφή Γραμμικοί μετασχηματισμοί u w = u w cos sin = sin cos 1 0 cos tan cos 1 x y sin 0 1 x y M p;q = px nx n pa n t n=0 t=0 tx X cos t sin n t n+k t t b n+k t b xi M0 ; =0 =0 qx q a k k=0 M p;q = qx q a n n=0 Xt+k nx t=0 X n t n t t b n+k t b xi M ; =0 =0 cos n ( sin) t px q a k k=0
Συνέλιξη Γραμμικοί μετασχηματισμοί (f g)(x) = t g(t)f (x t) (f g) M p = t g(t)m f ; t p
Γινόμενο σημάτων Μη γραμμικοί μετασχηματισμοί N M f g(q) = f (x)g(x)p p (x) x=0 M M N M f g(p) = F (t) G(t) w(x) 2 P p (x)p t (x)p n (x) t=0 n=0 x=0 N S(p; t; n) = w(x) 2 P p (x)p t (x)p n (x) x=0
Μέρος σήματος Μη γραμμικοί μετασχηματισμοί M p;q = M p;q X 0 N x=n y=0 X 0 x=n y=n Y 0 x=0 y=n f (x ; y)p p (x)p q (y) N f (x ; y)p p (x)p q (y) Y 0 f (x ; y)p p (x)p q (y)
Απόκρυψη Μέρος της εικόνας δεν είναι ορατό Αυτό επηρεάζει ιδιαίτερα τις τιμές των ροπών Η προτεινόμενη τεχνική εξετάζει το κατά πόσο μία εικόνα μπορεί να είναι μέρος μίας δεύτερης
Απόκρυψη Ελεγχος υπόθεσης h(y) = b M g p;q = M f p;q k Mt;q f B p;t(b) t=0 για κάποιο b, και για κάθε (p; q). Αν h(y) = y +, τότε: M o:c : p;q = k k T t;s s=0 t=0 y=0 N P q (y)p s (y)b(y + ) Η παραπάνω σχέση και πάλι θα πρέπει να ισχύει για κάποιο ζεύγος ;, και για κάθε p; q.
Ανακατασκευή Υπολογισμός ροπών από προβολές Η ανακατασκευή μίας σκηνής από προβολές της απαιτεί: Μεγάλο υπολογιστικό κόστος Πολύ μεγάλο χώρο μνήμης Πολλές φορές απαιτείται μόνο ο χαρακτηρισμός της σκηνής, και όχι το ίδιο το σήμα Χρησιμοποιώντας ροπές διακριτής ορθογώνιας βάσης, προτείνεται ο υπολογισμός των ροπών, άμεσα από τις προβολές του σήματος
Ανακατασκευή Υπολογισμός ροπών από προβολές Υπολογισμός των ροπών των προβολών (Τριγωνικές εικόνες). Υπολογισμός των ροπών στο μέρος της εικόνας που βρίσκεται εντώς του παραθύρου. Μεταφορά των ροπών στην αρχή, μέσω μετακινήσεων και περιστροφών Υπολογισμός των ροπών των γινομένων
Περίγραμμα
Στερεοσκοπική όραση Αρχή λειτουργίας (x 0, y 0 ) x left x right FL (0, 0) Βασική γραμμή (b) (b, 0) Αριστερό εστιακό σημείο εξιό εστιακό σημείο FL : Εστιακή απόσταση y 0 bfl xright xleft
Περίγραμμα
Αραιή αντιστοίχιση σημείων Κίνητρα Εξαγωγή των παραμέτρων του στερεοσκοπικού συστήματος Εσωτερικές παράμετροι (Εστιακό βάθος, οπτικό κέντρο, διαστάσεις πλαισίου) Εξωτερικές παράμετροι (Σχετική θέση των δύο οπτικών αξόνων) Βάσει αυτών των παραμέτρων, μπορεί να γίνει η βαθμονόμηση των εικόνων, για πιο εύκολη εξαγωγή της γεωμετρίας του χώρου Χρήση σε εφαρμογές που απαιτούνται λίγα μόνο σημεία (Αυτόνομη κίνηση, προσεγγιστική χαρτογράφηση κλπ.)
Αλγόριθμος αντιστοίχισης Περίγραμμα. εικόνα RAM Αριστερή εικόνα Ανιχνευτής γωνιών Harris Βαθμίδα ομοιότητας Βαθμίδα αντιστοίχισης (SVD) Εξοδος Α. εικόνα RAM εξιά εικόνα Ανιχνευτής γωνιών Harris Βαθμίδα εγγύτητας Εξαγωγή γωνιών (Μέθοδος Harris) Μάσκες Prewitt Κατωφλίωση τιμής e (x2 +y 2 ) 2 Απόρριψη τοπικών μεγίστων Βαθμίδα ομοιότητας Βαθμίδα εγγύτητας Βαθμίδα αντιστοίχισης [ 2 Ix I x I y I x I y I y 2 ]
Βαθμίδα ομοιότητας Χρησιμοποιούνται ροπές Zernike Εξάγονται με την μέθοδο που περιγράφηκε παραπάνω Ροπές μέχρι 5ης τάξης
Βαθμίδα εγγύτητας Υπολογίζεται το τετράγωνο της Ευκλείδειας απόστασης μεταξύ των σημείων ίνεται μεγαλύτερη βαρύτητα σε κοντινά μεταξύ τους σημεία
Βαθμίδα αντιστοίχισης Ανάλυση μοναδιαίας τιμής (SVD) Από έναν πίνακα αποστάσεων η μέθοδος SVD εξάγει τις αντιστοιχίες μεταξύ γραμμών - στηλών Η αντιστοίχιση πραγματοποιείται με κριτήριο τα ελάχιστα τετράγωνα Χρησιμοποιήθηκε η μέθοδος των Brent και Luk
Αραιή αντιστοίχιση σημείων Πειραματικά αποτελέσματα
Περίγραμμα
Εξαγωγή ανομοιομορφίας Περίγραμμα Γραμμικό βαθυπερατό φίλτρο [1=4 1=2 1=4] Εκτίμηση ανομοιομορφίας Βελτίωση με τη χρήση φίλτρων Κυψελιδωτών Αυτομάτων
Εξαγωγή ανομοιομορφίας Εκτίμηση ανομοιομορφίας Αντιστοίχιση σημείων αντί περιοχών Κριτήριο ελάχιστης απόλυτης διαφοράς φωτεινοτήτων Πολύ υψηλή ταχύτητα
Εξαγωγή ανομοιομορφίας Φίλτρα ΚΑ Οι παραγόμενοι χάρτες βάθους παρουσιάζουν μικρή ακρίβεια Για την αύξησή της, επιλέχθηκαν φίλτρα βασιζόμενα σε ΚΑ Η αρχική υπόθεση είναι ότι οι χάρτες ανομοιομορφίας είναι σημειακά σταθεροί
Εξαγωγή ανομοιομορφίας Φίλτρα ΚΑ 1ος 2ος 3ος 4ος n n 2 n n 1 n n n n+1 n n+2 Απροσδιόριστο Αδιάφορο
Εξαγωγή ανομοιομορφίας Πειραματικά αποτελέσματα
Εξαγωγή ανομοιομορφίας Ταχύτητα συστήματος 0.16 10 4 0.14 0.12 10 3 0.1 t(s) 0.08 fps(s 1 ) 10 2 0.06 30fps 0.04 10 1 0.02 0 0 500 1000 1500 2000 2500 3000 3500 4000 N 10 0 0 500 1000 1500 2000 2500 3000 3500 4000 N
Περίγραμμα
Συμπεράσματα Συνεισφορά στην επιστήμη Ροπές εικόνων Ταχεία εξαγωγή. Μία τάξη μεγέθους ταχύτερες τεχνικές Αύξηση ακρίβειας. Μία τάξη μεγέθους μείωση του αριθμητικού σφάλματος Εξελικτική βελτίωση. 15-20% βελτίωση στην ανάκτηση και ανακατασκευή μέσω ροπών ιερεύνηση ιδιοτήτων. Μελέτη απόκρυψης και ανακατασκευής από προβολές Χάρτες βάθους Αραιή αντιστοίχιση σημείων. Πρώτη υλοποίηση σε υλικό Ταχεία εξαγωγή χαρτών βάθους. Μία τάξη μεγέθους στη μείωση χρόνου
Περίγραμμα
Προτάσεις για μελλοντική έρευνα Περαιτέρω διερεύνηση για την επίδραση της απόκρυψης στις ροπές διακριτής βάσης Μελέτη για πιθανές ποσότητες αμετάβλητες στην απόκρυψη Εισαγωγή αριθμητικών μεθόδων εύρεσης ελαχίστου κατά την απόκρυψη Βελτίωση ακρίβειας μεθόδου εξαγωγής χαρτών βάθους Επέκταση της τεχνικής εξαγωγής ροπών από προβολές σε τρεις διαστάσεις Εφαρμογή εξελικτικών αλγορίθμων για βελτίωση αμετάβλητων περιγραφέων.
Περίγραμμα
ημοσιεύσεις βασιζόμενες στην παρούσα έρευνα ημοσιεύσεις σε διεθνή επιστημονικά περιοδικά με κριτές 1 L. Kotoulas and I. Andreadis. Accurate calculation of image moments. IEEE Transactions on Image Processing, accepted for publication. 2 L. Kotoulas and I. Andreadis. Fast computation of Chebyshev moments. IEEE Transactions on Circuits and Systems for Video Technology, 16(7):884888, July 2006. 3 L. Kotoulas and I. Andreadis. Evolutionary enhanced image moment descriptors. Pattern Recognition, submitted for publication. 4 L. Kotoulas and I. Andreadis. Fast moment generating architectures. IEEE Transactions on Circuits and Systems for Video Technology, submitted for publication. 5 L. Kotoulas and I. Andreadis. Fast computation of ART. IEEE Transactions on Circuits and Systems for Video Technology, submitted for publication. 6 L. Kotoulas, G. Sirakoulis, I. Andreadis and A. Gasteratos. A hardware architecture for real time extraction of disparity maps from large images. IEEE Transactions on Instrumentation and Measurements, submitted for publication.
ημοσιεύσεις βασιζόμενες στην παρούσα έρευνα ημοσιεύσεις σε διεθνή επιστημονικά συνέδρια με κριτές 1 L. Kotoulas and I. Andreadis. Discrete orthogonal moments in image analysis The Fourth IASTED International Conference on Signal Processing, Pattern Recognition, and Applications, Innsbruck, Austria, February 2007, pp. 1821. 2 L. Kotoulas and I. Andreadis. Image analysis using moments. 5th conference of Technology and Automation, Thessalonica, Greece, October 2005, pp. 360364. 3 L. Kotoulas, C. Georgoulas, A. Gasteratos, G. Ch. Sirakoulis and I. Andreadis. A novel three-stage algorithm for accurate disparity maps. 5th IASTED Conf., VIIP, Benidorm, Spain, September 2005, pp. 355359. 4 L. Kotoulas, A. Gasteratos, G. Ch. Sirakoulis, C. Georgoulas and I. Andreadis. A novel three-stage algorithm for accurate disparity maps. EOS Conference of Machine Vision and Industrial Imaging, Munich, Germany, June 2005, pp. 1314.