Μοντελοποίηση της Οπτικής Προσοχής Visual Attention Modeling Υπ. Διδ. Ιωάννης Ρήγας Τμήμα Φυσικής, Πανεπιστήμιο Πατρών
Τι θα δούμε σήμερα?? Bottom-up Saliency Models. Spatial domain analysis Spectral domain analysis Sparse representation models Οι συσκευές καταγραφής οφθαλμικών κινήσεων (eye-trackers) ως εργαλείο για την αξιολόγηση των αλγοριθμικών μοντέλων υπολογιστικής όρασης. Εφαρμογή: Βιομετρική αναγνώριση με χρήση των οφθαλμικών κινήσεων.
Οπα, οπα, οπα...και τι μας χρειάζεται η υπολογιστική μοντελοποίηση της ανθρώπινης προσοχής Καλά είναι και τα κόκκινα αλλά πουλάμε πράσινα Πρόσεχε οδηγέ!!!!! Έεε μην κάψουμε και τον υπολογιστή Άλλα και: στην εκπαίδευση ιατρικές εφαρμογές marketing augmented reality κ.α
Visual saliency is the distinct subjective perceptual quality which makes some items in the world stand out from their neighbors and immediately grab our attention. Βottom-up and Top-down saliency Bottom-up models Μοντελοποίηση οπτικής προσοχής με χρήση χαρακτηριστικών χαμηλού επιπέδου (low level features) intensity/color features (ένταση/χρώμα) orientation features (προσανατολισμός) motion features (κίνηση) In real life
Top-down models meaningful entities (e.g. words) Faces, object etc. task dependent search Bottom-up vs. Top-down models Bottom-up task-independent computational efficient useful as front-ends generality Top-down task-dependent more complicated useful at specific applications
Spatial domain analysis Itti & Koch Model Key concept: μηχανισμός centersurround εμπνευσμένος απο τoυς ανθρώπινους οπτικούς υποδοχείς. multiscale Gaussian pyramids on intensity, color and orientation features. L. Itti, C. Koch, E. Niebur, A Model of Saliency-Based Visual Attention for Rapid Scene Analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 11, pp. 1254-1259, Nov 1998.
Spatial domain analysis Normalization of intermediate feature maps. Final combination of the maps to produce the final map. non-linear schemes may also be used (e.g. max, max-min) L. Itti, C. Koch, E. Niebur, A Model of Saliency-Based Visual Attention for Rapid Scene Analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 11, pp. 1254-1259, Nov 1998.
Spatial domain analysis Temporal modeling of saliency Task: try to predict the sequence in which the attention transitions may occur. Inhibition of Return Psychophysically observed inhibition 500~900 msec L. Itti, C. Koch, E. Niebur, A Model of Saliency-Based Visual Attention for Rapid Scene Analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 11, pp. 1254-1259, Nov 1998.
Spatial domain analysis Graph-based visual saliency (GBVS) Key Concept: Συγκέντρωση μάζας στις σημαντικότερες περιοχές του χάρτη. Comparison of Itti/Koch and GBVS model J. Harel, C. Koch, and P. Perona, Graph-based visual saliency, in: Advances in Neural Information Processing Systems (NIPS) 19, pp. 545-52, 2007.
Spatial domain analysis Attention based on Information Maximization (AIM) Key concept: μοντέλο εμπνευσμένο απο την θεωρία της πληροφορίας του Shannon. Η προσοχή αντιμετωπίζεται ως αποτέλεσμα της προσπάθειας μεγιστοποίησης της προσληφθείσας πληροφορίας κατα την οπτική παρατήρηση. Self-information p(x): The raw probability of patch X with respect to its neighbors A measure of local content contrast. N. Bruce and J. Tsotsos, Attention based on information maximization, Journal of Vision, vol. 7, no. 9, pp. 950-950, 2007.
Spectral domain analysis Phase spectrum of Fourier Transform (PFT) Key concept: συσχέτιση φάσης και τοπικότητας σε μια εικόνα Quaternion Fourier transform (QFT) : motion features also incorporated C. Guo, Q. Ma, and L. Zhang, Spatio-temporal saliency detection using phase spectrum of quaternion fourier transform, in: CVPR, pp. 1-8, 2008.
Spectral domain analysis Image Signature Key concept: το πρόσημο του DCT μετασχηματισμού περικλείει πληροφορία για την φάση μιας εικόνας. compressed representation: only the sign information needed (1-bit per pixel) fast implementation X. Hou, J. Harel, and C. Koch. Image signature: Highlighting sparse salient regions, IEEE Transactions on Pattern Analysis and Machine Intelligence, 34( 1):194, 2012
Sparse Coding models Visual Saliency Detection via Sparsity Pursuit Key concept: προσέγγιση της saliency σαν πρόβλημα low-rank approximation. J. Yan, M. Zhu, H. Liu, Y. Liu, Visual Saliency Detection via Sparsity Pursuit, IEEE Signal Processing Letters, vol. 17, is. 8, pp. 739-742, 2010.
Συσκευές καταγραφής οφθαλμικών κινήσεων (Eye trackers) Τύποι συσκευών Desk mounted Head mounted Eye-tracking glasses Remote dual camera
Αρχή λειτουργίας συσκευής eye-tracker Eye Tracker Cambridge Research Systems 50 Hz
Χρήση συσκευών eye-tracker
Χρήση συσκευών eye-tracker για την παρακολούθηση μηχανισμών προσοχής Στην εκπαίδευση Στην μελέτη πρωτευώντων Στην διαφήμιση Στην γνωστική ψυχολογία
Χρήση συσκευών eye-tracker στην υπολογιστική μοντελοποίηση της προσοχής Ο eye-tracker αποτελεί μια ιδανική διεπαφή για την αξιολόγηση αλγορίθμων υπολογιστικής μοντελοποίησης της προσοχής. TP: true fixations falling into the activation area of the map FP: points from random locations or fixations from other images ROC curve
Εφαρμογή: Χρήση δεδομένων οφθαλμικής κίνησης με σκοπό την βιομετρική αναγνώριση Όφθαλμικές κινήσεις σαν βιομετρικό χαρακτηριστικό: physical and behavioral characteristics Δύσκολα πλαστογραφούνται + - Υπάρχει δυνατότητα καταγραφής εξ αποστάσεως Οι συσκευές eye-tracking είναι πια σε λογικό κόστος Η επίδοσή τους ακόμα υπολείπεται τον κλασσικών μεθόδων Συχνά είναι αναγκαία μια διαδιακασία calibration πριν την χρήση Ανάγκη για benchmark datasets
Εφαρμογή: Χρήση δεδομένων οφθαλμικής κίνησης με σκοπό την βιομετρική αναγνώριση A. Spatial eye movement characteristics Key concept: διερεύνηση της χωρικής κατανομής των οφθαλμικών κινήσεων κατα την παρατήρηση ανθρωπίνων προσώπων. Two-round MST Fixation clustering and outlier removal I. Rigas, G. Economou, and Sp. Fotopoulos, Biometric identification based on the eye movements and graph matching techniques, Pattern Recognition Letters, 33, 6, pp. 786-792, April 2012
Εφαρμογή: Χρήση δεδομένων οφθαλμικής κίνησης με σκοπό την βιομετρική αναγνώριση WW-test for the comparison of the fixation distributions EER ~ 30% mainly behavioral biometrical characteristics I. Rigas, G. Economou, and Sp. Fotopoulos, Biometric identification based on the eye movements and graph matching techniques, Pattern Recognition Letters, 33, 6, pp. 786-792, April 2012
Εφαρμογή: Χρήση δεδομένων οφθαλμικής κίνησης με σκοπό την βιομετρική αναγνώριση B. Temporal eye movement characteristics Key concept: διερεύνηση χρονικών χαρακτηριστικών των οφθαλμικών κινήσεων κατα την παρατήρηση ενός κινούμενου σημείου. I. Rigas, G. Economou, and Sp. Fotopoulos, Human eye movements as a trait for biometrical identification, in: the Fifth IEEE International Conference in Biometrics: Theory, Applications and Systems (BTAS 2012), Washington D.C., Sep. 2012
Εφαρμογή: Χρήση δεδομένων οφθαλμικής κίνησης με σκοπό την βιομετρική αναγνώριση Low-pass filter. Cut high frequencies fixation sub-signal Extract dynamic features - velocity/acceleration first-order time derivative eye-movements velocity second-order time derivative eye-movements acceleration I. Rigas, G. Economou, and Sp. Fotopoulos, Human eye movements as a trait for biometrical identification, in: the Fifth IEEE International Conference in Biometrics: Theory, Applications and Systems (BTAS 2012), Washington D.C., Sep. 2012
Εφαρμογή: Χρήση δεδομένων οφθαλμικής κίνησης με σκοπό την βιομετρική αναγνώριση Projection of the sampled time signals in a multivariate feature space. first-order time derivative second-order time derivative Feature space (only 3-dims used for visualization) I. Rigas, G. Economou, and Sp. Fotopoulos, Human eye movements as a trait for biometrical identification, in: the Fifth IEEE International Conference in Biometrics: Theory, Applications and Systems (BTAS 2012), Washington D.C., Sep. 2012
Εφαρμογή: Χρήση δεδομένων οφθαλμικής κίνησης με σκοπό την βιομετρική αναγνώριση The total similarity of two samples is computed as the average over the W values of each corresponding fixation sub-signal comparison. I. Rigas, G. Economou, and Sp. Fotopoulos, Human eye movements as a trait for biometrical identification, in: the Fifth IEEE International Conference in Biometrics: Theory, Applications and Systems (BTAS 2012), Washington D.C., Sep. 2012
Εφαρμογή: Χρήση δεδομένων οφθαλμικής κίνησης με σκοπό την βιομετρική αναγνώριση http://www.emvic.org/ k-nearest neighbors Dataset A Accuracy ACC1 1 91,5 % 3 89,8 % 5 88,2 % k-nearest neighbors Dataset B Accuracy ACC1 1 82 % 3 79,7 % 5 74,1 % Physical and behavioral characteristics I. Rigas, G. Economou, and Sp. Fotopoulos, Human eye movements as a trait for biometrical identification, in: the Fifth IEEE International Conference in Biometrics: Theory, Applications and Systems (BTAS 2012), Washington D.C., Sep. 2012
References A. M. Treisman, G. Gelade, A feature-integration theory of attention, Cognitive Psychol. 12 (1) (1980) 97-136. L. Itti, C. Koch, E. Niebur, A model of saliency based visual attention for rapid scene analysis, IEEE Trans. Pattern Anal. Machine Intell. (PAMI) 20 (11) (1998) 1254-1259. L. Itti, J. Braun, D. K. Lee, C. Koch, Attentional modulation of human pattern discrimination psychophysics reproduced by a quantitative model, in: M. J. Kearns, S. A. Solla, D. A. Cohn, (eds.), Advances in Neural Information Processing Systems 11 (1999) 789-795. B. W. Tatler, R. J. Baddeley, I. D. Gilchrist, Visual correlates of fixation selection: Effects of scale and time, Vision Res. 45 (5) (2005) 643-659. N. Bruce, J. Tsotsos, Saliency based on information maximization, in: Y. Weiss, B. Scholkopf, J. Platt, (eds.), Advances in Neural Information Processing Systems 18 (2006) 155-162. J. Harel, C. Koch, P. Perona, Graph-based visual saliency, in: B. Scholkopf, J. Platt, T. Hoffman, (eds.), Advances in Neural Information Processing Systems 19 (2007) 545-552. C. Siagian, L. Itti, Rapid biologically-inspired scene classification using features shared with visual attention, IEEE Trans. Pattern Anal. Machine Intell. (PAMI) 29 (2) (2007) 300-312. C. Guo, Q. Ma, L. Zhang, Spatio-temporal saliency detection using phase spectrum of quaternion fourier transform, in: IEEE Conf. on Comput. Vision and Pattern Recognit. (CVPR), 2008, pp. 1-8. L. Zhang, M. Tong, T. Marks, H. Shan, G. Cottrell, SUN: A bayesian framework for saliency using natural statistics, Journal of Vision 8 (7) (2008) article 32. S. Wan, P. Jin, L. Yue, An approach for image retrieval based on visual saliency, in: Int. Conf. on Image Analysis and Signal Processing (IASP), 2009, pp. 172-175. J. Yan, M. Zhu, H. Liu, Y. Liu, Visual saliency detection via sparsity pursuit, IEEE Signal Process. Lett. 17 (8) (2010) 739-742. C. K. Chang, C. Siagian, L. Itti, Mobile robot vision navigation & localization using gist and saliency, in: IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS), 2010, pp. 4147-4154. X. Hou, J. Harel, C. Koch, Image Signature: Highlighting sparse salient regions, IEEE Trans. Pattern Anal. Machine Intell. (PAMI) 34 (1) (2012) 194-201. I. Rigas, G. Economou, and Sp. Fotopoulos, Biometric identification based on the eye movements and graph matching techniques, Pattern Recognition Letters, 33, 6, pp. 786-792, April 2012 I. Rigas, G. Economou, and Sp. Fotopoulos, Human eye movements as a trait for biometrical identification, in: the Fifth IEEE International Conference in Biometrics: Theory, Applications and Systems (BTAS 2012), Washington D.C., Sep. 2012
Ευχαριστώ Ελπίζω να είχα την προσοχή σας (το πιάσατε το υπονοούμενο!)