Ελένη Αντωνίου, A.M 71911 Δεκέμβριος 2013 Συστήματα Αναζήτησης σε Πολυμεσικό Υλικό
Περιεχόμενα Ορισμοί Σημασία πολυμεσικού περιεχομένου - Προκλήσεις Συστήματα ανάκτησης εικόνας (βάσει κειμένου ή περιεχομένου) Συστήματα αναζήτησης ήχου Συστήματα αναζήτησης σε video Βιβλιογραφία - Παραπομπές
Ορισμοί Ένα πολυμεσικό έγγραφο είναι ένα σύνθετο ψηφιακό πληροφοριακό αντικείμενο που αποτελείται από διάφορα συστατικά μέρη όπως κέιμενο, εικόνα, βίντεο και ήχο (Λάζαρος Καρύδας,2009) Με τον όρο ανάκτηση πληροφορίας ονομάζουμε την εξαγωγή μιας πληροφορίας, από μια βάση δεδομένων. Η εξαγωγή της πληροφορίας μπορεί να γίνει με διάφορους τρόπους ανάλογα με το είδος της βάσης δεδομένων που πραγματευόμαστε (Μασμανίδης Ιωάννης, 2010)
Σημασία Πολυμεσικού Περιεχομένου - Προκλήσεις Ραγδαία αύξηση παραγωγής πολυμεσικού περιεχομένου: Κατακόρυφη πτώση των τιμών των συσκευών παραγωγής πολυμεσικής πληροφορίας Καθιέρωση του internet ως βασικό μέσο επικοινωνίας και διακίνησης πληροφορίας Υπάρχει απίστευτος όγκος δεδομένων και η πρόσβαση γίνεται περίπλοκη Πως μπορούμε να κατανοήσουμε τα δεδομένα αυτά; Πως η πρόσβαση σε αυτή την πληροφορία δεν είναι ανυπόφορη και χρονοβόρα; Πως την αναλύουμε, τη φιλτράρουμε, την οργανώνουμε προκειμένου να είναι χρήσιμη για εμάς; «Η αξία της πληροφορίας βρίσκεται στην αποτελεσματική οργάνωση της, στην εύκολη και κατανεμημένη πρόσβασης από όλους και στην εμπορική αξιοποίηση της» (Θεοχαράτος Χρήστος)
Συστήματα Ανάκτησης Εικόνας Σκοπός: H αναζήτηση κάποιας εικόνας μεταξύ κάποιου συνόλου εικόνων Συνήθως δίνεται κάποιο αίτημα (query) και γίνεται ανάκτηση όλων των εικόνων που έχουν παρόμοιο περιεχόμενο με το query Μέθοδοι: Βάσει κειμένου Βάσει περιεχομένου Ευρεία χρησιμότητα, ενδεικτικά αναφέρουμε: Προσωπική χρήση Εγκληματολογία Ιατρική Ιστορική Έρευνα Γεωλογία και Μετεωρολογία Εκδότες εφημερίδων και περιοδικών Γραφικές τέχνες Ηλεκτρονικό Εμπόριο κ.λπ.
Συστήματα Ανάκτησης Εικόνας βάσει κειμένου Αναζήτηση με τη χρήση κειμένου, λέξεων κλειδιά (σημασιολογικό περιεχόμενο, τίτλος, δημιουργός, ημερομηνία, τόπος κ.λπ.) με έμμεση σχέση με το περιεχόμενο της εικόνας Τέτοια δεδομένα ονομάζονται μεταδεδομένα ανεξάρτητα από το περιεχόμενο (content independent metadata). Αυτή η διαδικασία ακολουθείται από τις πιο γνωστές μηχανές αναζήτησης όπως την Google, την Yahoo και την Bing (με πλέον εξελιγμένα χαρακτηριστικά από τις υπόλοιπες) Π.χ. Πληκτρολογούμε τη λέξη «ηλιοβασίλεμα» Πλεονεκτήματα: Χρησιμοποιεί τις παραδοσιακές τεχνικές αναζήτησης σε βάσεις δεδομένων Απλή υλοποίηση Αρκεί η σημασιολογική περιγραφή Μειονεκτήματα: Άμεση εξάρτηση από την αντίληψη του συγγραφέα τους Ο οπτικός πλούτος είναι δύσκολο να περιγραφεί με λέξεις Διττή σημασία λέξεων Χρονοβόρα διαδικασία ο σχολιασμός (annotate) με λέξεις κλειδιά (Καραφωτιάς Γ, 2012)
Συστήματα Ανάκτησης Εικόνας βάσει κειμένου
Συστήματα Ανάκτησης Εικόνας βάσει περιεχομένου (CBIR) Η αναζήτηση γίνεται με δεδομένα με άμεση σχέση με το περιεχόμενο της εικόνας Χαμηλού επιπέδου χαρακτηριστικά της εικόνας που γίνονται άμεσα αντιληπτά από τις ανθρώπινες αισθήσεις, όπως χρώμα, υφή, σχήμα, γεωγραφική θέση, συνδυασμός των παραπάνω κ.λπ. και είναι δεδομένα εξαρτημένα από το περιεχόμενο (content dependent metadata) (Σφήκας Γ, 2006) Π.χ. Query: «να βρεθούν εικόνες που περιέχουν ένα κόκκινο αυτοκίνητο, κορμούς δέντρων, πρασινάδα και συννεφιασμένο ουρανό Εξαγωγή χαμηλού επιπέδου χαρακτηριστικών: Χρώμα (color) Σχήμα (shape) Υφή (texture) (Θεοχαράτος Χρήστος) Υψηλού επιπέδου χαρακτηριστικά της εικόνας, όπως: «ποιο πραγματικά βουνό απεικονίζει μια εικόνα, από ποια πόλη είναι μια φωτογραφία ή ακόμη τι συναισθήματα προκαλεί». Ονομάζονται μεταδεδομένα περιγράφοντα το περιεχόμενο (content descriptive metadata) (Σφήκας Γ, 2006) Με βάση το τύπο των δεδομένων που δίνει ο χρήστης στο ερώτημα (query) χρησιμοποιούνται διαφορετικά συστήματα και τεχνικές αναζήτησης
Μέθοδος Ανάκτησης στα CBIR συστήματα Εξαγωγή χαρακτηριστικών (feature extraction) Ερώτημα (query) Ταίριασμα (matching) Ανάκτηση (retrieval) Ανάδραση σχετικότητας - ανατροφοδότηση Χρήστης Εικόνα Ερώτηση Εξαγωγή Χαρακτηριστικών Διάνυσμα χαρακτηριστικών Σύγκριση Ομοιότητας Εικόνα Βάσης Δεδομένων Εξαγωγή Χαρακτηριστικών Διάνυσμα χαρακτηριστικών Ανακτημένες Εικόνες
Συστήματα Ανάκτησης Εικόνας βάσει περιεχομένου (CBIR) Ερώτημα με εικόνα παράδειγμα (Query By Example) Αναζήτηση πολυµέσων µε βάση μια περιοχή της εικόνας (contentbased data retrieval), Ερώτημα με ζωγραφική σκίτσο (Query by sketch) Ερώτημα με σύνθεση περιοχών Αναζήτηση και ανάκτηση µε χρήση υβριδικών µεθόδων, (Μασμανίδης Ιωάννης, 2010)
Ερώτημα με ζωγραφική σκίτσου (query by sketch)
Συστήματα ανάκτησης εικόνων βάσει περιεχομένου Ενδεικτικά εμπορικά συστήματα ανάκτησης εικόνων βάσει περιεχομένου (wikipedia,2013) ΟΝΟΜΑ ΠΕΡΙΓΡΑΦΗ ΑΝΑΖΗΤΗΣΗ ΒΑΣΗ ΕΙΚΟΝΑΣ ΑΝΑΖΗΤΗΣΗ ΒΑΣΗ ΜΕΤΑΔΕΔΟΜΕΝΩΝ Elastic Vision CBIR Σύστημα ΟΧΙ ΟΧΙ Google Image Search Google's CBIR Σύστημα, δεν δουλεύει πάνω σε όλες τις εικόνες ΝΑΙ ΝΑΙ Yandex Image Search Yandex CBIR Σύστημα ΝΑΙ ΝΑΙ Baidu Image Search Baidu's CBIR Σύστημα ΝΑΙ ΝΑΙ ID My Pill Ταυτοποίηση των χαπιών που λαμβάνει κάποιος (CBIR) mobile app ΝΑΙ ΟΧΙ Imense Image Search Portal CBIR σύστημα από την Imense. OXI NAI Imprezzeo Image Search CBIR σύστημα από την Imprezzeo. ΟΧΙ ΝΑΙ Incogna Image Search CBIR σύστημα από την Incogna Inc. ΟΧΙ ΝΑΙ Like.com Σύστημα αναζήτησης CBIR για online αγορές ΟΧΙ ΝΑΙ Chic Engine Σύστημα αναζήτησης με βάση φωτογραφία, είναι για ρούχα αντρικά γυναικία (CBIR) ΝΑΙ ΟΧΙ Empora Σύγκριση προϊόντων και αγορών χρησιμοποιώντας CBIR σύστημα (π.χ http://lens.fashionfreax.net/ app) ΟΧΙ ΝΑΙ TinEye CBIR σύστημα από την Idee Inc. NAI OXI
Παράδειγμα: Imense Image Search Portal
Παράδειγμα: Imprezzeo Image Search Demo video στη σελίδα: http://www.imprezzeo.com/enterprise/imprezzeo-image-suite/
Συστήματα Αναζήτησης Ήχου Μια παρόμοια κατάσταση συναντάμε και στα συστήματα αναζήτησης ήχου (αναζήτηση βάσει κειμένου, αναζήτηση βάσει περιεχομένου) Παραδείγματα αναζήτησης : Να εντοπιστεί ένα sound track που είναι jazz ή rock και αν ναι να παρουσιαστεί ως αποτέλεσμα αναζήτησης Να δοθεί στο σύστημα αναζήτησης ένα κομμάτι μουσικής και να εντοπιστούν τα όμοια προς αυτό που υπάρχουν στη ψηφιακή βάση δεδομένων Να εντοπιστεί μια διάλεξη ενός επιστήμονα με συγκεκριμένο θέμα ή ομιλία ιστορικού προσώπου
Συστήματα Αναζήτησης Ήχου, Μέθοδος αναζήτησης Για να αναγνωριστεί το άγνωστο μουσικό απόσπασμα γίνεται χρήση του ακουστικού αποτυπώματος (audio fingerprints) που είναι μια σύντομη αναπαράσταση ενός ακουστικού αντικειμένου Αποτελεί μοναδικό αναγνωριστικό για κάθε ηχητικό στοιχείο, χρησιμοποιείται για την αναγνώρισή του, είναι μικρό σε μέγεθος και εύρωστο στις παραμορφώσεις Βήμα 1: Από την κυματομορφή που θα μεταφερθεί μέσω της τηλεφωνικής γραμμής, θα εξαχθεί το ακουστικό αποτύπωμα του τραγουδιού Βήμα 2: Το αποτύπωμα αυτό με τη σειρά του θα χρησιμοποιηθεί ως στοιχείο αναζήτησης σε μια βάση δεδομένων όπου είναι καταχωρημένα ακουστικά αποτυπώματα μουσικών κομματιών μαζί με τις αντίστοιχες πληροφορίες των τραγουδιών από τα οποία προέρχονται. Οι πληροφορίες αυτές λέγονται μεταδεδομένα (metadata). Βήμα 3: Ταχτοποιώντας λοιπόν το εξαγόμενο ακουστικό αποτύπωμα με κάποιο καταχωρημένο στη βάση δεδομένων, παίρνουμε τα μεταδεδομένα του αντίστοιχου τραγουδιού (π.χ. Τίτλος, καλλιτέχνης κ.λπ.) (Τριαντάφυλλος Τσιρέλης, 2007)
Συστήματα Αναζήτησης Ήχου, Μέθοδος αναζήτησης (Τριαντάφυλλος Τσιρέλης, 2007)
Συστήματα Αναζήτησης Ήχου Κάποια από τα πιο δημοφιλή συστήματα αναζήτησης ήχου που χρησιμοποιούν την τεχνική του ακουστικού αποτυπώματος είναι: Shazam που είναι mobile app με δυνατότητα αναγνώρισης ενός μουσικού κομματιού που ακούγεται μέσα από μια βάση 11.000.000 τραγουδιών που διαθέτει Το SoundHound που είναι mobile app και έχει τη δυνατότητα αναγνώρισης ενός τραγουδιού από ένα απλό μουρμουρητό του τραγουδιού ή από το τραγούδι που ακούμε Το Google Play με σημαντικό πλεονέκτημα την ίδια τη φύση του, αφού σαν widget είναι εύκολα προσβάσιμο από την κεντρική οθόνη του υπολογιστή και δίνει τη δυνατότητα στο χρήστη με το πάτημα ενός κουμπιού να μάθει ποιο είναι το τραγούδι που ακούει Gracenote's με το πλεονέκτημα της μεγαλύτερης βάσης δεδομένων τραγουδιών Musipedia είναι μια μηχανή αναζήτησης μουσικής που λειτουργεί διαφορετικά από τους άλλους, επειδή αντί να χρησιμοποιούν τεχνικές για την αναγνώριση ηχογραφημένης μουσικής, μπορεί να προσδιορίσει τα κομμάτια της μουσικής από μια μόνο μελωδία ή ρυθμό (Query by example) Μια πλούσια λίστα των online βάσεων δεδομένων μουσικής μπορεί κάποιος να βρει στη σελίδα της wikipedia (http://en.wikipedia.org/wiki/list_of_online_music_databases)
Συστήματα αναζήτησης σε Video Η παραγωγή μεγάλου όγκου ψηφιακών δεδομένων video, την τελευταία δεκαετία, έχει οδηγήσει στη δημιουργία ψηφιακών βιβλιοθηκών video που είναι διαθέσιμα στο Internet Η ανάκτηση video ή σκηνών video (video retrieval) από βάσεις δεδομένων γίνεται είτε με τη χρήση κειμένου ή από καταγραφές video Παραδείγματα αναζήτησης: Να εντοπιστούν σε ένα δελτίο ειδήσεων τηλεόρασης όλα τα σημεία που αναφέρονται σε σκηνές ποδοσφαίρου Σε ένα video καταγραφής να εντοπιστούν σημεία που αφορούν διαδηλώσεις Σε μια ταινία να εντοπιστούν οι σκηνές καταδίωξης κ.λπ. Να εντοπιστούν οι σκηνές που υπάρχει μουσική ή συνδυασμός μουσικής και ομιλίας
Συστήματα αναζήτησης σε video, μέθοδοι αναζήτησης Η αρχιτεκτονική τους είναι σχεδόν παραπλήσια με αυτή των συστημάτων αναζήτησης εικόνας ή ήχου Υπάρχουν 4 βασικές διαδικασίες που πρέπει να πραγματοποιηθούν σε ένα video ώστε να διευκολυνθεί η ανάκτησή του βάσει του περιεχομένου: η ανάλυση του περιεχομένου ενός video (video content analysis) η τμηματοποίηση της δομής ενός video (video structure parsing) η δημιουργία ενός αποσπάσματος ή περίληψης από ένα video (summarization or abstraction) και η δεικτοδότηση (indexing) Στη βιβλιογραφία μπορεί να βρει κανείς πολλές τεχνικές για την δεικτοδότηση και την ανάλυση του περιεχομένου των video. Τεχνικές όπως: κατάργηση περιοχών (που είναι το πρώτο βήμα επεξεργασίας) κατάτμηση σε background / foreground εντοπισµός αντικειμένων (Object Tracking) εντοπισµός σκηνών (shot detection) Υπολογισμός της τροχιάς αντικειμένων (Trajectory) ανίχνευση κίνησης (motion detection) εξαγωγή χαρακτηριστικών χαμηλού επιπέδου(χρώμα, υφή, σχήμα) (Μιχαήλ Γ. Στριντζης, 2004)
Συστήματα αναζήτησης σε video, Μέθοδοι αναζήτησης (Jianping Fan)
Συστήματα αναζήτησης σε video Κάποια ενδεικτικά συστήματα αναζήτησης και ανάκτησης video είναι: Google Video Agent Vi (π.χ. http://www.agentvi.com/61-products-63- Vi_Search) MOTIONVIEW Dartfish Prosuite Yahoo Video Search Bing Video search
Συστήματα αναζήτησης σε video, yahoo video search Σας ευχαριστώ για την προσοχή σας.
Βιβλιογραφία, Παραπομπές Καρύδας Λάζαρος, 2009, «Ασαφής απλοποιημένη περιγραφική λογική για ανάκτηση πολυμέσων», Διαθέσιμη online:http://vivliothmmy.ee.auth.gr/329/ Μασμανίδης Ιωάννης, 2010, «Ανάκτηση Εικόνας με Βάση το Περιεχόμενο, Το πρότυπο MPEG-7 Μελέτη Περιπτώσεων: Alipr.com», Διαθέσιμη online: http://dspace.lib.uom.gr/handle/2159/13906 Θεοχαράτος Χρήστος, n.d., «Ανάκτηση Εικόνας Βάσει Περιεχομένου», Διαθέσιμη online: http://www.hep.upatras.gr/research/ Rowe, L.A. And Jain, R. 2005. ACM SIGMM retreat report on future directions in multimedia research ACM Transactions on Multimedia Computing, Communications, and Application 1(1), 3-13. Καραφωτιάς Γ, 2012, «Σύγκριση μεθόδων ανάκτησης εικόνας βασισμένης στο περιεχόμενο με παράλληλη υλοποίηση σε Java», Διαθέσιμη Online: http://dspace.lib.uom.gr/bitstream/2159/15358/8/karaphotiasgeorgiosmsc2012.pdf Σφήκας Γ, 2006, «Στατιστικές Μέθοδοι για ανάκτηση εικόνας με βάση το περιεχόμενο», Διαθέσιμο online: http://www.cs.uoi.gr/~sfikas/mt-2006-17.pdf
Βιβλιογραφία, Παραπομπές Wikipedia, 2013, «List of CBIR engines», Διαθέσιμη online: http://en.wikipedia.org/wiki/list_of_cbir_engines Τριαντάφυλλος Τσιρέλης, 2007, «Αναγνώριση Ηχου με Βάση το Περιεχόμενό του», Διαθέσιμο Online: < http://vivliothmmy.ee.auth.gr/28/1/audio_fingerprinting.pdf> Μιχαήλ γ. Στρίντζης, 2004, «ΕΞΟΡΥΞΗ ΠΛΗΡΟΦΟΡΙΑΣ ΑΠΟ ΠΟΛΥΜΕΣΑ ΜΕ ΧΡΗΣΗ ΓΝΩΣΗΣ», Διαθέσιμο Online: < http://vivliothmmy.ee.auth.gr/123/1/diplomatiki.pdf> Jianping Fan, n.d., Existing CBIR/CBVR Systems, Διαθέσιμο Online: < http://coitweb.uncc.edu/~jfan/cbirreview.pdf>