Κατεύθυνση: Τεχνολογίες Πληροφορικής και Επικοινωνιών του ήχου και της εικόνας για την εκπαίδευση και την παραγωγή ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Κατεύθυνση: Τεχνολογίες Πληροφορικής και Επικοινωνιών του ήχου και της εικόνας για την εκπαίδευση και την παραγωγή ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΠΕΡΙΓΡΑΦΗ ΟΠΤΙΚΟΑΚΟΥΣΤΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΚΑΙ ΤΕΧΝΙΚΕΣ ΑΝΑΛΥΣΗΣ ΣΤΕΡΓΙΟΥ ΕΥΑΓΓΕΛΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΔΗΜΟΥΛΑΣ ΧΑΡΑΛΑΜΠΟΣ Θεσσαλονίκη, Απρίλιος 2015

2

3 ARISTOTLE UNIVERSITY OF THESSALONIKI POSTGRADUATE PROGRAMME ADVANCED COMPUTER AND COMMUNICATION SYSTEMS Direction: Information and Communication Technologies (ICTs) for Audio- Visual Production and Education POSTGRADUATE DIPLOMA THESIS AUDIOVISUAL CONTENT DESCRIPTION AND ANALYSIS TECHNIQUES STERGIOU EVANGELOS PROJECT SUPERVISOR: DIMOULAS HARALAMPOS Thessaloniki, April 2015

4

5 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή της εργασίας κ. Δημούλα Χαράλαμπο για τη δυνατότητα που μου έδωσε ώστε να ασχοληθώ με αυτό το αντικείμενο και τις οδηγίες του σχετικά με τη φιλοσοφία και τις δυνατότητες του πεδίου αυτού. Επίσης ευχαριστώ την οικογένεια μου για την υποστήριξη τους καθ όλη τη διάρκεια των σπουδών μου.

6 ABSTRACT Scope of this diploma thesis is to present the techniques of describing multimedia content and more specific the tools that describe the audio and visual characteristics based on MPEG-7 standard. Moreover, video summary techniques are analysed such as the key-frame extraction technique. MPEG s 7 tools that concern video, are included in an application based on C++ programming language with the results of the descriptors to be saved in txt or xml files for further analysis and description of the multimedia content.

7 ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ Αντικείμενο της εργασίας Δομή της εργασίας...3 ΚΕΦΑΛΑΙΟ 2: ΤΟ ΠΡΟΤΥΠΟ MOTION PICTURE EXPERTS GROUP (MPEG) Εισαγωγή Το πρότυπο MPEG Το πρότυπο MPEG Το πρότυπο MPEG Τεχνικά Χαρακτηριστικά και λειτουργίες του MPEG Το πρότυπο MPEG Περιγραφείς (Descriptors) Σχήματα Περιγραφής (Description Schemes) Γλώσσα Προσδιορισμού της Περιγραφής (Description Definition Language) Τα Συστήματα (Systems) Σχήματα Περιγραφής Πολυμέσων (MPEG-7 Multimedia Description Schemes MDS) Εφαρμογές Το πρότυπο MPEG ΚΕΦΑΛΑΙΟ 3: ΠΕΡΙΓΡΑΦΕΙΣ ΗΧΟΥ (AUDIO DESCRIPTORS) Εισαγωγή Πλαίσιο Ήχου κατά MPEG-7 (Audio Framework) Structures (Δομές) Features (Χαρακτηριστικά) Basic Descriptors (Βασικοί Περιγραφείς) Basic Spectral Descriptors (Βασικοί Φασματικοί Περιγραφείς) Signal Parameters Descriptors (Περιγραφείς Παραμέτρων Σήματος)..29

8 3.2.6 Timbral Temporal Descriptors (Περιγραφείς Χρονικής Περιγραφής Χροιάς) Timbral Spectral Descriptors (Περιγραφείς Φασματικής Περιγραφής Χροιάς) Spectral Basis Descriptors (Περιγραφείς Φασματικής Βάσης) Silence Segment Descriptors (Περιγραφείς Τμημάτων Σιγής) High-level audio Description Tools (Ds and DSs) (Ηχητικά εργαλεία και σχημάτα περιγραφής υψηλού επιπέδου) Audio Signature Description Scheme (Σχήμα Περιγραφής Ηχητικής Περιγραφής) Musical Instrument Timbre Description Tools (Περιγραφείς Χροιάς Μουσικών Οργάνων) Melody Description Tools (Περιγραφείς Μελωδίας) General Sound Recognition and Indexing Description Tools (Περιγραφείς Γενικής Αναγνώρισης και Δεικτοδότησης Ήχου) Spoken Content Description Tools (Περιγραφείς Περιεχομένου Προφορικού Λόγου)...38 ΚΕΦΑΛΑΙΟ 4: ΟΠΤΙΚΟΙ ΠΕΡΙΓΡΑΦΕΙΣ ΚΑΙ ΑΝΑΛΥΣΗ ΒΙΝΤΕΟ Εισαγωγή Color Descriptors (Περιγραφείς Χρώματος) Color Space Descriptor - CSD (Περιγραφέας Χρωματικού Χώρου) Dominant Color Descriptor - DCD (Περιγραφέας Επικρατούντων Χρωμάτων) Scalable Color Descriptor - SCD (Κλιμακωτός Περιγραφέας Χρώματος) Color Structure Descriptor - CSD (Περιγραφέας Δομής Χρώματος) Color Layout Descriptor - CLD (Περιγραφέας Διάταξης Χρώματος) Group of Frames - GoF / Group of pictures GoP Descriptors (Περιγραφείς ομάδας πλαισίων / ομάδας εικόνων) Texture Descriptors (Περιγραφείς Υφής)...57

9 4.3.1 Homogeneous Texture Descriptor HTD (Περιγραφέας Ομοιογενούς Υφής) Texture Browsing Descriptor TBD (Περιγραφέας Αναζήτησης Υφής) Edge Histogram Descriptor EHD (Περιγραφέας Ιστογράμματος Ακμών) Shape Descriptors (Περιγραφείς Σχήματος) Region-based Shape Descriptor RSD (Περιγραφέας Σχήματος µε Βάση την Περιοχή) Contour-based Shape Descriptor CSD (Περιγραφέας Σχήματος µε Βάση το Περίγραμμα) D Shape Spectrum Descriptor 3D SSD (Περιγραφέας Τρισδιάστατων Μοντέλων) Motion Descriptors (Περιγραφείς Κίνησης) Motion Activity Descriptor MAD (Περιγραφέας Δραστηριότητας Κίνησης) Camera Motion Descriptor CMD (Περιγραφέας Κίνησης Κάμερας) Motion Trajectory Descriptor MTD (Περιγραφέας Τροχιάς Κίνησης) Parametric Motion Descriptor PMD (Περιγραφέας Παραμετρικής Κίνησης) Localization Descriptors (Περιγραφείς Θέσης Περιοχής) Region Locator Descriptor RLD (Περιγραφέας Εντοπισμού Περιοχής) Space Temporal Locator Descriptor - STLD (Περιγραφέας Χωροχρονικού Εντοπισμού Περιοχής) Face Recognition Descriptor FRD (Περιγραφέας Αναγνώρισης Προσώπων) Ανάλυση Βίντεο Αλγόριθμοι Κατάτμησης Περίληψη Βίντεο Μέθοδοι Εξαγωγής Key-Frames..83

10 Μέθοδος Επαρκούς Αλλαγής Περιεχομένου (Sufficient Content Change) Μέθοδος Μέγιστης Κάλυψης Εικονοπλαισίων (Maximum Frame Coverage) Μέθοδος Ομαδοποίησης (Clustering) Μέθοδος Ελάχιστης Συσχέτισης μεταξύ των Key Frames (Minimum Correlation among Key Frames) Μέθοδος με χρήση του Σφάλματος Ανακατασκευής της Ακολουθίας Μέθοδος των ενδιαφερόντων γεγονότων (Interesting Events) 86 ΚΕΦΑΛΑΙΟ 5: ΑΝΑΠΤΥΞΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΠΟΛΥΜΕΣΙΚΗΣ ΕΦΑΡΜΟΓΗΣ Εισαγωγή Ανάπτυξη Εφαρμογής Διαχείριση Εφαρμογής Αποτελέσματα Εφαρμογής.99 ΚΕΦΑΛΑΙΟ 6: ΣΥΜΠΕΡΑΣΜΑΤΑ..101 ΠΑΡΑΡΤΗΜΑ Α: ΚΩΔΙΚΑΣ ΤΩΝ ΟΠΤΙΚΩΝ ΠΕΡΙΓΡΑΦΕΩΝ.102 ΠΑΡΑΡΤΗΜΑ B: ΕΝΣΩΜΑΤΩΣΗ ΚΩΔΙΚΑ ΣΤΟ LabVIEW..105 ΑΝΑΦΟΡΕΣ 111

11 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ Η διείσδυση της τεχνολογίας σε κάθε ανθρώπινη δραστηριότητα γίνεται όλο και πιο έντονη στην εποχή μας. Η διαθεσιμότητα ψηφιακού περιεχομένου video έχει αυξηθεί δραματικά τα τελευταία χρόνια καθώς το Internet ως βασικό μέσο επικοινωνίας και διακίνησης πληροφοριών καταδεικνύει τη μεγάλη διάδοση και επομένως αξία των ψηφιακών μέσων. Ενώ η δημιουργία πολυμεσικού περιεχομένου και η διάδοση του ακολουθεί ραγδαίους ρυθμούς, αντιθέτως υπάρχουν λίγα εργαλεία που αναλαμβάνουν το φιλτράρισμα, τη ταξινόμηση, την αναζήτηση και ανάκτηση του με συστηματικό τρόπο. Με τον όρο πολυμεσική πληροφορία αναφερόμαστε σε οποιοδήποτε περιλαμβάνει εικόνα, ήχο, κινούμενη εικόνα ή συνδυασμό όλων αυτών. Το μεγαλύτερο πρόβλημα που χρήζει αντιμετώπισης είναι σίγουρα η ανάκτηση της πολυμεσικής πληροφορίας από συστήματα βάσεων δεδομένων. Οι παλιές κατηγοριοποιήσεις με τη χρήση απλών συστημάτων βάσεων δεδομένων ή απλά με την οπτική ή την αναγνώριση με βάση το κείμενο που χρησιμοποιούνταν έχουν πλέον απαρχαιωθεί και δεν προσφέρουν κανενός είδους διαχείρισης κι εύρεσης της κατάλληλης πληροφορίας λόγω του τεραστίου όγκου τον οποίο βρέθηκαν να διαχειρίζονται. Η εξαγωγή χαρακτηριστικών και η αναγνώριση αντικειμένων είναι σημαντικά στοιχεία για την ανάπτυξη γενικής χρήσης συστημάτων διαχείρισης συλλογών πολυμέσων. Τεχνικές δεικτοδότησης πολυμεσικού υλικού, μπορούν να γίνουν με αυτόματο ή ημιαυτόματο τρόπο έτσι ώστε να επιτρέπει την αναζήτηση και ανάκτηση του υλικού. Οι τεχνικές ακολουθούν κάποια από τις παρακάτω γενικές κατευθύνσεις: Ανάκτηση με τη βοήθεια ερώτησης μέσω παραδείγματος (Query By Example) Αναζήτηση πολυμέσων με βάση το περιεχόμενο (content-based data retrieval) 1

12 Εννοιολογική δεικτοδότηση και ανάκτηση (semantic indexing and retrieval) Αναζήτηση και ανάκτηση με χρήση υβριδικών μεθόδων 1.1: Αντικείμενο της εργασίας Θέμα της εργασίας αυτής είναι οι τεχνικές διαχείρισης καταγραφών πολυμεσικού περιεχομένου, δηλαδή οπτικοακουστικών σημάτων και της διαχείρισης και περιγραφής πολυμεσικού περιεχομένου όπως αυτή παρέχεται μέσα από την ομάδα περιγραφής MPEG-7. Αναφέρονται τα βασικά εργαλεία διαχείρησης του ήχου αλλά και του βίντεο πολυμεσικών περιεχομένων όπως αυτά περιγράφονται στο MPEG-7. Επίσης παρουσιάζονται οι τεχνικές περίληψης βίντεο και συγκεκριμένα η τεχνική της εξαγωγής των χαρακτηριστικών εικονοπλαισίων ή αλλιώς key-frames όπως είναι ευρέως διαδεδομένη. Τέλος με την ανάπτυξη μιας εφαρμογής ανεπτυγμένη σε Microsoft Foundation Class Library και με βάση τη γλώσσα προγραμματισμού C++ παρουσιάζονται τα εργαλεία του MPEG-7 για την περιγραφή πολυμεσικού περιεχομένου που αφορά το βίντεο. Τα εξαγώμενα αποτελέσματα που προκύπτουν από την εφαρμογή αποθηκεύονται σε αρχεία.xml ή.txt και μπορούν να χρησιμοποιηθούν περαιτέρω για μεγαλύτερη ανάλυση και περιγραφή του πολυμεσικού περιεχομένου μέσα από την κατάλληλη εισαγωγή τους σε άλλες εφαρμογές. 1.2 Δομή της εργασίας Αρχικά στο κεφάλαιο 2 παρουσιάζονται κάποια προγενέστερα πρότυπα όπως τα MPEG-1, MPEG-2 και MPEG-4 και μια πρώτη επαφή με έννοιες που αφορούν το MPEG-7 όπως descriptors, description schems κ.α. Αναφέρεται επίσης και η φιλοσοφία του MPEG-21. Στη συνέχεια και στο 3 ο κεφάλαιο περιγράφονται όλα τα εργαλεία για την ανάλυση του ηχητικού τμήματος πολυμεσικού περιεχομένου κατα MPEG-7. 2

13 Αναλυτικά παρουσιάζονται εργαλεία περιγραφής χαμηλού και υψηλού επιπέδου. Στο 4 ο κεφάλαιο αναλύονται τα αντίστοιχα εργαλεία του MPEG-7 για το τμήμα που αφορά τη διαχείριση πολυμεσικού περιεχομένου του βίντεο. Βασικά οπτικά χαρακτηριστικά όπως το χρώμα, η υφή, το σχήμα κ.α. καθώς και η περιγραφή τους παρουσιάζονται λεπτομερώς. Επίσης αναφέρονται τρόποι αποδόμησης της πληροφορίας που περιέχεται σε βίντεο για την εξαγωγή των χαρακτηριστικών. Τέλος παρουσιάζεται η ανάλυση, ο σχεδιασμός και η ανάπτυξη της εφαρμογής για τη διαχείριση πολυμεσικού περιεχομένου βίντεο και την εξαγωγή των εργαλείων περιγραφής όπως αναλύθηκαν στα προηγούμενα κεφάλαια κατά MPEG-7. Τα αποτελέσματα «εκτυπώνονται» σε αρχεία κατάλληλα για περαιτέρω ανάλυση και ταξινόμηση του περιεχομένου. 3

14 ΚΕΦΑΛΑΙΟ 2: ΤΟ ΠΡΟΤΥΠΟ MOTION PICTURE EXPERTS GROUP (MPEG) 2.1 Εισαγωγή Η ομάδα Εμπειρογνωμόνων Κινούμενης Εικόνας MPEG (Moving Picture Experts Group - MPEG), ιδρύθηκε το Δρα ως επιτροπή τυποποίησης στα πλαίσια του Διεθνούς Οργανισμού τυποποίησης (ISO) και είναι μέλος της Τεχνικής Επιτροπής στην τεχνολογία της Πληροφορικής ISO/IEC. Σκοπός της είναι η τυποποίηση των τρόπων κωδικοποίησης και παρουσίασης κινούμενης εικόνας και ήχου. Το όνομα MPEG (διεθνές πρότυπο ISO-IEC 15983) έχει επικρατήσει να αναφέρεται και στην οικογένεια των προτύπων (standards) που δημιουργήθηκαν από την επιτροπή, τα οποία είναι κατάλληλα για την περιγραφή πολυμεσικού περιεχομένου μέσω του καθορισμού της σύνταξης και κωδικοποίησης των βίντεο (video) και ηχητικών (audio) αποσπασμάτων για διάφορους ρυθμούς μετάδοσης (bit rate). [1] Εικόνα 2.1: Ιστορικό προτύπων Συμπίεσης 2.2 Το πρότυπο MPEG-1 To πρότυπο MPEG-1 αφορά τη συμπίεση ήχου και εικόνας. Μέρος του προτύπου είναι και το MPEG-1 Audio που αφορά αποκλειστικά τον ήχο και επίσης είναι το πρώτο διεθνές πρότυπο για την ψηφιακή συμπίεση ήχου 4

15 υψηλής πιστότητας. Στο πρότυπο αυτό ανήκει και το παγκοσμίως γνωστό MP3 (MPEG- Layer 3), που είναι το αποτέλεσμα της αναζήτησης για μεγαλύτερη συμπίεση και ταυτόχρονα καλή ποιότητα ήχου. Η βασική εργασία που επιτελεί το πρότυπο MPEG, είναι να δέχεται ως είσοδο αναλογικά ή ψηφιακά σήματα video και να τα μετατρέπει σε πακέτα ψηφιακής πληροφορίας που μπορούν αποτελεσματικότερα να μεταδοθούν σε σύγχρονα δίκτυα. Το πρότυπο MPEG συμπιέζει το video σε αρκετά μεγάλο βαθμό που κυμαίνεται μεταξύ του ενός έκτου (1/6) και του ένα δέκατου-τρίτου (1/13) του όγκου της αρχικής ασυμπίεστης πληροφορίας. Έτσι, κατά τη μετάδοση χρησιμοποιείται σαφώς μικρότερο εύρος ζώνης και φυσικά, καθώς πρόκειται για μετάδοση ψηφιακής πληροφορίας η ποιότητα μετάδοσης είναι η ίδια από την αρχή μέχρι το τέλος της. Προοδευτικά χρησιμοποιούνται μεγαλύτερα δίκτυα μετάδοσης και έτσι το σήμα δεν υπόκειται μείωση ποιότητας. Το πρότυπο MPEG εκμεταλλεύεται τους χωρικούς και χρονικούς πλεονασμούς που υπάρχουν στο υλικό του video για να εκφραστεί η πληροφορία. Παρακάτω αναφέρονται τα στάδια της διαδικασίας συμπίεσης [2]: i. Δειγματοληψία της χρωματικής πληροφορίας (Sampling the Chrominance Information) ii. Χωρική Συμπίεση (Spatial Compression) iii. Κβάντιση και Κωδικοποίηση Εντροπίας (Quantization and Entropy Coding) iv. Χρονική Συμπίεση (Temporal Compression) To πρότυπο MPEG-1 δεν χρησιμοποιήθηκε ευρέως στον τομέα των ψηφιακών μέσων αναπαραγωγής και αποθήκευσης, λόγω της εμφάνισης του DVD (Digital Versatile Disc), το οποίο στηριζόταν στο μεταγενέστερο πρότυπο MPEG-2. 5

16 Εικόνα 2.2: Χαρακτηριστικά και δυνατότητες MPEG Το πρότυπο MPEG-2 Το MPEG-2, είναι το πρότυπο για την ψηφιακή τηλεόραση και αποτελεί την συνέχεια του MPEG-1 ως προς τις επιπλέον δυνατότητες που παρέχει. Σαν μία συμβατική συνέχεια λοιπόν του MPEG-1 υποστηρίζει μορφές video (video formats) και έναν αριθμό άλλων προηγμένων χαρακτηριστικών, όπως τέτοιων που να μπορούν να υποστηρίζουν τον τύπο HDTV (High Definition TV) καθώς επίσης αποτέλεσε και την βάση για το DVD Video (Digital Versatile Disc). To MPEG-2 παρέχει επίσης ένα σύστημα με ορισμούς (definitions) για το πώς το video, ο ήχος και άλλα δεδομένα συνδυάζονται σε ένα ή πολλαπλά stream που να είναι κατάλληλα για την αποθήκευση και μετάδοσή τους. 6

17 Εικόνα 2.3: Μοντέλο περιγραφής του προτύπου MPEG-2 Τα xαρακτηριστικά συμπίεσης κατά MPEG-2 είναι [2]: i. Συμπίεση Ήχου κατά MPEG (MPEG Audio Compression). Η συμπίεση ηχητικής πληροφορίας λαμβάνει υπόψη τα ψυχοακουστικά χαρακτηριστικά του ανθρώπινου ακουστικού συστήματος. ii. Βελτιστοποίηση Υλοποίησης Video (Video Implementation Optimization) iii. Κλιμάκωση (Scalability). Χωρική Κλιμάκωση (Spatial Scalability), Χρονική Κλιμάκωση (Temporal Scalability), Κλιμάκωση Λόγου Σήματος-Θορύβου (Signal-to-Noise-Ratio (SNR) Scalability), Διαχωρισμός Δεδομένων (Data Partitioning) iv. Επίπεδα και Προφίλ (Levels and Profiles). Τα επίπεδα καθορίζουν συγκεκριμένες παραμέτρους (πχ ανάλυση, frame rate, bit rate) ενώ τα προφίλ καθορίζουν τη σύνταξη (πχ των αλγορίθμων). Συνοπτικά τα χαρακτηριστικά και οι δυνατότητες του MPEG-2 προτύπου παρουσιάζονται στην Εικόνα

18 Εικόνα 2.4: Profiles του MPEG-2 Εικόνα 2.5: Levels του MPEG-2 Εικόνα 2.6: Χαρακτηριστικά και δυνατότητες MPEG-2 8

19 2.4 Το πρότυπο MPEG-4 Το MPEG-4 αφορά την παραγωγή, κατανομή (distribution) και πρόσβαση του πολυμεσικού περιεχομένου. Παρόλο που το MPEG-1 και MPEG-2 κάλυπταν ένα αρκετά μεγάλο εύρος εφαρμογών, όπως η ψηφιακή τηλεόραση και η δια δραστική κινούμενη εικόνα (interactive video), σύντομα έγινε αντιληπτό ότι οι εφαρμογές που έχουν σχέση με τα πολυμέσα έχουν περισσότερες απαιτήσεις. Αναπτύχθηκε λοιπόν το MPEG-4 με σκοπό να παρέχει ένα προτυποποιημένο σύνολο τεχνολογιών, που θα καταστήσει ικανή την ενοποίηση (integration) της παραγωγής, κατανομής, και τα παραδείγματα για την πρόσβαση στο περιεχόμενο (content access paradigms), και τα διαδραστικά πολυμέσα για την ανάπτυξη της χρήσης των εφαρμογών πολυμέσων στο Internet. Έτσι αναπτύχθηκε πλέον σε αυτό το πρότυπο ένας διαφορετικός τρόπος προσέγγισης βασισμένος στη κωδικοποίηση περιεχομένου ή αντικειμένου (content-based ή object-based model). Εικόνα 2.7: Αρχιτεκτονική κωδικοποίησης MPEG-4 Θα πρέπει επίσης να σημειωθεί ότι το MPEG-4 επιτρέπει την επισύναψη μετά-δεδομένων (metadatas) σχετικά με το περιεχόμενο επάνω στο αντικείμενο. Επομένως ο χρήστης μπορεί να χρησιμοποιήσει αυτή τη ροή δεδομένων (data stream) με την πληροφορία του περιεχομένου του αντικειμένου (Object Content Information, OCI) για να στείλει τα μεταδεδομένα ταυτόχρονα με το περιεχόμενο του MPEG-4. Ωστόσο στο 9

20 συγκεκριμένο πρότυπο δεν υπάρχει κάποια τυποποιημένη δομή και καθορισμένη μορφή που να αφορά τα μετα-δεδομένα. Τα τμήματα του προτύπου MPEG-4 είναι [3]: 1. Συστήματα (Systems) 2. Οπτικό Τμήμα (Visual Part) 3. Ήχος (Audio) 4. Έλεγχος Συμβατότητας (Conformance Testing) 5. Λογισμικό Αναφοράς (Reference Software) 6. Πλαίσιο Ολοκληρωμένης Παράδοσης Πολυμέσων (Delivery Multimedia Integration Framework -DMIF) 7. Βελτιστοποιημένο λογισμικό για εργαλεία MPEG-4 (Optimized Software for MPEG-4 Tools) 8. Μεταφορά του Περιεχομένου του MPEG-4 σε Δίκτυα IP (Carriage of MPEG-4 Content over IP Networks - 4onIP) 9. Περιγραφή Λογισμικού Αναφοράς (Reference Hardware Description) 10. Προηγμένη Τηλεοπτική Κωδικοποίηση (Advanced Video Coding - AVC) 11. Περιγραφή Σκηνής και Μηχανή Εφαρμογών (Scene Description and Application Engine) 12. Μορφή Αρχείου Μέσων Βασισμένη στο ISO (ISO Base Media File Format) 13. Επεκτάσεις IPMP (IPMP Extensions) 14. Μορφή Αρχείου MP4 (MP4 File Format) 15. Μορφή Αρχείου AVC (AVC File Format) 16. Επέκταση Πλαισίου Κίνησης (Animation Framework extension) 17. Μορφή Σχήμα Κειμένων Ροής (Streaming Text Format) 18. Συμπίεση Χαρακτήρων και Ροή (Font Compression and Streaming) 19. Σύνθετη Ροή Υφής (Synthesized Texture Stream) 20. Αναπαράσταση Ελαφριάς Σκηνής Εφαρμογής (Lightweight Application Scene Representation - Laser) 21. Επεκτάσεις Πλαισίου Γραφικής Παράστασης (Graphics Framework extensions) 10

21 2.4.1 Τεχνικά Χαρακτηριστικά και λειτουργίες του MPEG-4 Σε σχέση με τα παλαιότερα πρότυπα στο MPEG-4 λαμβάνονται υπόψιν οι εννοιολογικές ιδιότητες του περιεχομένου της εικόνας που κωδικοποιείται και εισάγονται νέες δυνατότητες βασισμένες στο ίδιο το περιεχόμενο της εικόνας. Οι λειτουργίες του είναι οι εξής [4]: βασισμένη στο περιεχόμενο της εικόνας αλληλεπίδραση content-based εργαλεία πρόσβασης σε δεδομένα πολυμέσων content-based χειρισμός και σύνθεση ροής bits (bitstream editing) υβριδική φύση και συνθετική κωδικοποίηση δεδομένων βελτιωμένη πρόσβαση σε τυχαίο χρόνο (temporal random access) Συμπίεση βελτιωμένη αποδοτικότητα κωδικοποίησης κωδικοποίηση πολλαπλών παράλληλα δρώντων πευμάτων δεδομένων καθολική πρόσβαση στιβαρότητα σε περιβάλλοντα επιρρεπή σε σφάλματα βασισμένη στο περιεχόμενο της εικόνας κλιμάκωση (content-based scalability) Το MPEG-4 επιτυγχάνει τα παραπάνω διασφαλίζοντας τυποποιημένους τρόπους για: παράσταση μονάδων με ηχητικό, οπτικό ή οπτικοακουστικό περιεχόμενο, που ονομάζονται Audiovisual Objects (AVOs) και είναι είτε φυσικής είτε τεχνητής προέλευσης περιγραφή της δομής των AVOs, σύνθεση σύνθετων AVOs και συνεπώς πλήρων οπτικοακουστικών σκηνών πολυπλεξία και συγχρονισμός των δεδομένων που σχετίζονται με τα AVOs, έτσι ώστε αυτά να μεταδίδονται μέσω δικτύου και διατηρώντας φυσικά την απαιτούμενη ποιότητα υπηρεσιών για τα συγκεκριμένα AVOs αλληλεπίδραση του χρήστη με την οπτικοακουστική σκηνή 11

22 Εικόνα 2.8: Χαρακτηριστικά και δυνατότητες MPEG Το πρότυπο MPEG-7 Ενώ τα προηγούμενα πρότυπα του MPEG είχαν ως στόχο την καλύτερη παρουσίαση και αναπαράσταση της πληροφορίας, ο στόχος του MPEG-7 είναι να παρέχει ένα προτυποποιημένο περιβάλλον για την περιγραφή της πληροφορίας αυτής. Στόχος δηλαδή είναι η πλήρης περιγραφή της πολυμεσικής πληροφορίας, τα μετα-δεδομένα («τα δεδομένα για τα δεδομένα»), και όχι το περιεχόμενό της. Τα μετα-δεδομένα είναι απαραίτητα γιατί διευκολύνουν την ανταλλαγή, την αναζήτηση, την ανάκτηση και το φιλτράρισμα των πληροφοριών που υπάρχουν στα πολυμεσικά τεκμήρια. Το MPEG-7 δημιουργήθηκε το 2001 από την επιτροπή MPEG με πλήρες όνομα "Multimedia Content Description Interface". Αποτελεί ένα πρότυπο για την περιγραφή πολυμεσικού περιεχομένου προκειμένου να καλυφθούν οι ανάγκες διαχείρισης και παρέχει τυποποιημένες βασικές τεχνολογίες που επιτρέπουν την περιγραφή οπτικοακουστικού περιεχομένου σε περιβάλλοντα πολυμέσων. Αφορά εικόνες, γραφικά, τρισδιάστατες εικόνες, ήχο, ομιλία, video, συνδυασμούς αυτών καθώς και δεδομένα που σχετίζονται με τα χαρακτηριστικά του προσώπου. Το MPEG-7 προσφέρει τη δυνατότητα να 12

23 υπάρχουν διαφορετικά επίπεδα διάκρισης και παρόλο που η περιγραφή του MPEG-7 δεν βασίζεται στην κωδικοποιημένη αναπαράσταση του υλικού, εντούτοις μπορεί να εκμεταλλευτεί τα πλεονεκτήματα που του προσφέρει το κωδικοποιημένο περιεχόμενο σε MPEG-4 εφόσον φυσικά το υλικό είναι κωδικοποιημένο με MPEG-4, το οποίο παρέχει τα μέσα για την κωδικοποίηση οπτικοακουστικού υλικού ως αντικείμενο που σχετίζεται με το χρόνο (timesynchronization) και τον χώρο (όταν λέμε χώρο εννοούμε την τοποθεσία στην εικόνα και στο περιβάλλον για τον ήχο). Έτσι είναι δυνατόν να δημιουργηθούν περιγραφείς μέσα σε μία σκηνή πάνω σε ηχητικά ή οπτικά δεδομένα. Επειδή οι περιγραφείς πρέπει να έχουν κάποια σημασία στο πλαίσιο μιας εφαρμογής, πρέπει να είναι διαφορετικοί για διαφορετικούς τύπους χρήσης. Αυτό σημαίνει ότι το ίδιο υλικό μπορεί να περιγραφεί με διαφορετικά χαρακτηριστικά ανάλογα με το προσδοκώμενο αποτέλεσμα. [5] [6] Οι στόχοι του MPEG-7 είναι τρεις: Η περιγραφή του πολυμεσικού περιεχομένου. Η ευέλικτη διαχείριση των δεδομένων. Η δια-λειτουργικότητα των συστημάτων Εικόνα 2.9: Aναπαράσταση της χρήσης του προτύπου MPEG-7 Η δομή του MPEG-7 αποτελείται από δέκα διαφορετικά μέρη. Κάθε ένα από αυτά τα μέρη διαπραγματεύεται και διαφορετικά ζητήματα και αυτό μας επιτρέπει να χρησιμοποιούμε κάθε φορά την ομάδα που εμείς θέλουμε ανάλογα με την εφαρμογή και (την ομάδα) που θα είναι σύμφωνη με την 13

24 προσέγγιση των εργαλείων του MPEG-7. Επίσημα το πρότυπο του MPEG-7 αναφέρεται σαν ISO-IEC και οργανώνεται ως εξής: 1. Συστήματα, ISO/IEC ή MPEG-7 Part 1 - Systems ή MPEG-7 Systems. 2. Γλώσσα ορισμού περιγραφών, ISO/IEC ή MPEG-7 Part 2 - Description Definition Language ή MPEG-7 DDL. 3. Οπτικά, ISO/IEC ή MPEG-7 Part 3 - Visual ή MPEG-7 Visual. 4. Ηχητικά, ISO/IEC ή MPEG-7 Part 4 - Audio ή MPEG-7 Audio. 5. Σχήματα Περιγραφής Πολυμέσων, ISO/IEC ή MPEG-7 Part 5 - Generic Entities and Multimedia Description Schemes ή MPEG-7 MDS. 6. Λογισμικό Αναφοράς, ISO/IEC ή MPEG-7 Part 6 - Reference Software ή MPEG-7 Reference Software. 7. Έλεγχος συμβατότητας, ISO/IEC ή MPEG-7 Part 7 - Conformance Testing ή MPEG-7 Conformance Testing. 8. Εξαγωγή Και Χρήση Περιγραφών, ISO/IEC ή MPEG-7 Part 8 - Extraction and Use of MPEG-7 Descriptions ή MPEG-7 Extraction and Use of Descriptions. 9. Χαρακτηριστικά και επίπεδα, ISO/IEC ή MPEG-7 Part 9 - Profiles and levels ή MPEG-7 Profiles and levels 10. Καθορισμός περιγραφικού σχήματος, ISO/IEC ή MPEG-7 Part 10 - Schema Definition ή ή MPEG-7 Schema Definition Στη συνέχεια παρουσιάζονται τα στοιχεία-εργαλεία που υπάρχουν στο πρότυπο ώστε να έιναι εφικτά τα χαρακτηριστικά που αναφέρθηκαν παραπάνω Περιγραφείς (Descriptors) Ως περιγραφέας ορίζεται η τιμή ενός χαρακτηριστικού. Ένας περιγραφέας (descriptor) καθορίζει την σύνταξη και την σημασιολογία της αναπαράστασης του χαρακτηριστικού. Για να λειτουργήσει ένας περιγραφέας στο MPEG-7, πρέπει να προσδιορίσει με ακρίβεια την σημασιολογία του χαρακτηριστικού, τον συνδεόμενο με αυτόν τύπο δεδομένων, τις επιτρεπτές τιμές και μία 14

25 ερμηνεία των τιμών των περιγραφέων (descriptor values). Ένα παράδειγμα θα μπορούσε να είναι το εξής. Το χρώμα για παράδειγμα είναι ένα αλφαριθμητικό. Ο τύπος δεδομένων μπορεί να είναι σύνθετος, το οποίο σημαίνει ότι μπορεί να διαμορφωθεί με το να συνδέσουμε αλυσιδωτά πολλαπλές τιμές ενός τύπου δεδομένων, π.χ. RGB color: {integer, integer, integer}. Το MPEG-7 πραγματεύεται διάφορα επίπεδα αφαίρεσης. Στο χαμηλότερο επίπεδο αφαίρεσης, οι περιγραφείς μπορεί να περιλαμβάνουν χαρακτηριστικά όπως η μορφή, το χρώμα, το μέγεθος για τις εικόνες και το video, η αρμονία και το ηχόχρωμα για την μουσική. Στο υψηλό επίπεδο μπορεί να βρίσκονται τα γεγονότα που συμβαίνουν, οι σχέσεις μεταξύ των ατόμων, κάποιες αφηρημένες έννοιες. Οι περιγραφείς ήχου και εικόνας αναπαριστούν εξειδικευμένα χαρακτηριστικά που σχετίζονται με ακουστικό και οπτικό περιεχόμενο αντίστοιχα. Υπάρχουν επίσης και οι γενικοί περιγραφείς (generic descriptions) που περιγράφουν τα γενικά χαρακτηριστικά. Είναι πιθανό να έχουμε ποικίλους περιγραφείς που να αναπαριστούν ένα μοναδικό χαρακτηριστικό και αυτό σημαίνει ότι πραγματεύεται διαφορετικές σχετικές απαιτήσεις. Παραδείγματα πολλαπλών περιγραφέων (multiple descriptors) για ένα χαρακτηριστικό αποτελούν οι αριθμητικές λίστες και τα ιστογράμματα με χρώματα. Σε ένα σύνολο δεδομένων (ή και σε ένα υποσύνολό τους) μία τιμή ενός περιγραφέα (description value) είναι η απόδοση της τιμής (instantiation) που δίδεται σε αυτόν. Οι τιμές συνδυάζονται μέσω ενός Σχήματος Περιγραφέων (Description Scheme) ώστε να δημιουργήσουν μία περιγραφή Σχήματα Περιγραφής (Description Schemes) Ένα description scheme προδιαγράφει την δομή και την σημασιολογία των σχέσεων ανάμεσα στα συστατικά στοιχεία του, τα οποία μπορεί να είναι είτε descriptors είτε description schemes. Η διάκριση ανάμεσα στα description schemes και στους descriptors είναι ότι ένας descriptor ασχολείται με την αναπαράσταση και την παρουσίαση ενός χαρακτηριστικού, ενώ το description 15

26 scheme σχετίζεται με την δομή μιας περιγραφής. Οι descriptors και τα description schemes αποτελούν δύο πολύ διαφορετικές έννοιες οι οποίες όμως είναι αλληλένδετες. Τα σχήματα περιγραφής επιτρέπουν την δημιουργία πολύπλοκων περιγραφών με το να προσδιορίζουν την δομή και την σημασιολογία των σχέσεων ανάμεσα στους descriptors και στα description schemes. Για παράδειγμα, ένα description scheme για ένα τμήμα από video μπορεί να προσδιορίζει την σύνταξη και την σημασιολογία των συστατικών στοιχείων του, όπως την βαθύτερη αποσύνθεση των τμημάτων, τα χαρακτηριστικά κάθε τμήματος ξεχωριστά (για παράδειγμα το μήκος ενός τμήματος) και τις σχέσεις ανάμεσα στα συστατικά στοιχεία. Όπως συμβαίνει και με τους descriptors, έτσι και τα description schemes μπορούν να κατηγοριοποιηθούν σε description schemes για τον ήχο, την εικόνα, ή να είναι γενικά. Τα γενικά σε description schemes συνήθως αναπαριστούν γενική πληροφορία που σχετίζεται με όλα τα είδη των μέσων (ήχο, εικόνα, κείμενο, γραφικά, κ.τ.λ.) Σε μία περιγραφή εκτός από τους descriptors και τα description schemes που προέρχομαι εσωτερικά από το κείμενο, το MPEG-7 περιλαμβάνει και descriptors και description schemes που έχουν σχέση με την δημιουργία, την παραγωγή την διαχείριση του οπτικοακουστικού υλικού. Αυτά τα μεταδεδομένα μπορεί να περιέχουν πληροφορίες για τις προϋποθέσεις της πρόσβασης στο υλικό (για παράδειγμα, πληροφορία για τα δικαιώματα της πνευματικής ιδιοκτησίας του υλικού), για την ταξινόμηση (να περιλαμβάνει ταξινόμηση του υλικού σε έναν αριθμό προκαθορισμένων κατηγοριών) και συνδέσμους με άλλα σχετικά στοιχεία (όπου και η πληροφορία αυτή πιθανό να κάνει πιο σύντομη την έρευνα του χρήστη). Ο συνδυασμός των descriptors με τα description schemes καλείται "περιγραφή (description) και σχετίζεται με το ίδιο το περιεχόμενο της εικόνας προκειμένου να επιτρέψει γρήγορη και αποτελεσματική αναζήτηση υλικού που θα ικανοποιεί το χρήστη. 16

27 Εικόνα 2.10:Πιθανές σχέσεις ανάμεσα σε Descriptors και Description Schemes Γλώσσα Προσδιορισμού της Περιγραφής (Description Definition Language) Η DDL επιτρέπει την δημιουργία νέων Σχημάτων Περιγραφής, και πιθανόν, και Περιγραφέων. Επιτρέπει επίσης την επέκταση και την τροποποίηση των ήδη υπαρχόντων Σχημάτων Περιγραφής. Κάνει επίσης δυνατή την επέκταση και την τροποποίηση των ήδη υπαρχόντων. Με βάση την XML Schema επιτρέπει τον προσδιορισμό των Περιγραφέων και των Σχημάτων Περιγραφής. Οι περιγραφείς και τα σχήματα Περιγραφής που υπάρχουν είναι ανεξάρτητα της εφαρμογής στην οποία χρησιμοποιούνται. Όταν είναι απαραίτητο να περιγράψουμε περιεχόμενο από συγκεκριμένα πεδία, όπως από τον τομέα των ειδήσεων υπάρχει συχνά η ανάγκη για επέκταση και εξειδίκευση των ειδικών εργαλείων του MPEG-7 και η χρήση της DDL για να προσδιορίσουμε τα εξειδικευμένα ή επιπρόσθετα εργαλεία. Με την υιοθέτηση του XML Schema σαν την βάση για την Γλώσσα Προσδιορισμού της Περιγραφής του MPEG-7, το αποτέλεσμα είναι η διευκόλυνση της διαλειτουργικότητας με την χρήση μιας κοινής, γενικής και ισχυρής μορφής αναπαράστασης της πληροφορίας που περιγράφεται. Αντίστροφα, 17

28 διευκολύνεται και η χρήση των εργαλείων του MPEG-7 για την επέκταση των ήδη υπαρχόντων εφαρμογών της XML με τις λειτουργίες που διαθέτουν οι περιγραφές του πολυμεσικού περιεχομένου. Η XML (Extensible Markup Language) είναι μια γενικής χρήσης mark-up γλώσσα ικανή να περιγράφει πολλά διαφορετικά είδη δεδομένων. Με άλλα λόγια, η XML είναι ένας τρόπος περιγραφής δεδομένων. Ο αρχικός σκοπός της είναι να διευκολύνει τη διανομή των δεδομένων μεταξύ διαφορετικών συστημάτων, ιδιαίτερα μεταξύ αυτών που συνδέονται μέσω του Διαδικτύου Τα Συστήματα (Systems) Τα Συστήματα παρέχουν εργαλεία για να υποστηρίξουν την πολυπλεξία, τον συγχρονισμό των περιγραφών με το περιεχόμενο, τους μηχανισμούς μεταφοράς των περιγραφών και την κωδικοποίηση της αναπαράστασης της πληροφορίας με κειμενική ή δυαδική μορφή για ικανοποιητική αποθήκευση μετάδοση, διαχείριση και προστασία της πνευματικής ιδιοκτησίας των περιγραφών. Τα μεταδεδομένα στο MPEG-7 μπορούν να αποθηκεύονται μαζί με το πολυμεσικό υλικό ή ακόμα και σε απομακρυσμένη βάση δεδομένων. Η μεταφορά των περιγραφών πραγματοποιείται χρησιμοποιώντας μία ποικιλία από πρωτόκολλα μετάδοσης και αποθήκευσης. Κάποια από αυτά τα πρωτόκολλα περιλαμβάνουν και το streaming, όπως για παράδειγμα είναι η ζωντανή αναμετάδοση των περιγραφών μαζί με το περιεχόμενο. Σε αυτές τις περιπτώσεις οι πολυμεσικές περιγραφές πρέπει να μεταφέρονται κομμάτι με κομμάτι, προκειμένου να προσαρμόσουν (match) τηνμεταφορά των περιγραφών στους πελάτες (clients) που έχουν περιορισμένες δυνατότητες δικτύου και τερματικού. Σε δεύτερο επίπεδο έχουμε τον συγχρονισμό. Ο συγχρονισμός των διαφορετικών συστατικών στοιχείων σε μία οπτικοακουστική παρουσίαση έχει φυσικά σχέση με τον χρόνο. Για ορισμένες εφαρμογές οι πληροφορίες των περιγραφών πρέπει να παρουσιαστούν στον χρήστη σε ακριβείς στιγμές στον χρόνο, μαζί με το περιεχόμενο. Η παρουσίαση του MPEG-7 πρέπει να επιτρέπει τον ακριβή προσδιορισμό της 18

29 σημείωσης του χρόνου, έτσι ώστε τα δεδομένα που λαμβάνονται να μπορούν να επεξεργαστούν και να παρουσιαστούν στις κατάλληλες στιγμές στον χρόνο και να συγχρονίζονται μεταξύ τους. Η διαχείριση των streams της οπτικοακουστικής πληροφορίας, που περιλαμβάνει και περιγραφές του MPEG-7, υπονοεί την ανάγκη συγκεκριμένων μηχανισμών, που θα επιτρέψουν σε μία εφαρμογή να καταναλώσει (consume) το περιεχόμενο. Αυτό περιλαμβάνει μηχανισμούς, όπως τον εντοπισμό των δεδομένων, την περιγραφή της εξάρτησης που υπάρχει ανάμεσα στα δεδομένα, την σύνδεση των περιγραφών με τα δεδομένα και την πρόσβαση στην πληροφορία σχετικά με την πνευματική ιδιοκτησία που συνδέεται με τα δεδομένα. Εικόνα 2.11: Αρχιτεκτονική συστήματος MPEG-7 19

30 2.5.5 Σχήματα Περιγραφής Πολυμέσων (MPEG-7 Multimedia Description Schemes - MDS) Τα σχήματα περιγραφής περιλαμβάνουν ανεξάρτητους μεταξύ τους περιγραφείς (Descriptors) αλλά και ανεξάρτητα μεταξύ τους σχήματα περιγραφής (Description Schemes). Οι οντότητες γενικής χρήσης (generic entities) αποτελούνται από χαρακτηριστικά που χρησιμοποιούνται σε περιγραφές οπτικού αλλά και ακουστικού υλικού, είναι δηλαδή τα ίδια για όλα τα μέσα. αρέχονται περιγραφείς και περιγραφικά σχήματα για γενικά χαρακτηριστικά, όπως το διάνυσμα (vector), ο χρόνος (time), τα εργαλεία περιγραφής με χρήση κειμένου (textual description tools), ελεγχόμενα λεξικά (controlled vocabularies) κ.α., τα οποία χρησιμοποιούνται τόσο για περιγραφές ηχητικού περιεχομένου όσο και για περιγραφές οπτικού περιεχομένου. Χρησιμοποιούνται όταν περισσότερα του ενός μέσα χρειάζονται περιγραφή και κατηγοριοποιούνται ως εξής [6]: Αναπαράσταση αντιληπτής πληροφορίας (Content description) Πληροφόρηση σχετικά με τα χαρακτηριστικά των μέσων, τη δημιουργία και τη χρήση του οπτικοακουστικού υλικού (Content management) Αναπαράσταση της ανάλυσης και ταξινόμησης (Content organization) Προδιαγραφή της σύνοψης και των αποκλίσεων του οπτικοακουστικού περιεχομένου (Navigation and access) Περιγραφή των προτιμήσεων του χρήστη και ιστορικού χρήσης που αναφέρεται στο πολυμεσικό υλικό (User interaction) Εικόνα 2.12: Επισκόπηση της δομής των MDS 20

31 2.5.6 Εφαρμογές Στόχος του MPEG-7 είναι να προάγει την διαλειτουργικότητα ανάμεσα στα συστήματα και στις εφαρμογές που χρησιμοποιούνται για την δημιουργία, διαχείριση, κατανομή και χρήση των περιγραφών του οπτικοακουστικού περιεχομένου. Αυτές οι περιγραφές βοηθήσουν τον χρήστη και τις εφαρμογές στον προσδιορισμό της πληροφορίας, στην ανάκτηση και στο να φιλτράρουν (filter) αυτήν την πληροφορία. Το MPEG-7 μπορεί να χρησιμοποιηθεί τόσο σε επιστημονικές όσο και σε απλές εφαρμογές που αφορούν έναν καταναλωτή, όπως [6]: Στην εκπαίδευση Στην δημοσιογραφία (στην αναζήτηση κάποιας ομιλίας ενός πολιτικού, χρησιμοποιώντας το όνομά του ή την φωνή του.) Σε πολιτισμικές υπηρεσίες (όπως σε ένα μουσείο, σε μία αίθουσα τέχνης) Στην ψυχαγωγία (για διάφορα παιχνίδια) Σε συστήματα Γεωγραφικής Πληροφόρησης. Σε βιοϊατρικές εφαρμογές Σε ερευνητικές υπηρεσίες (για την αναγνώριση ανθρώπινων χαρακτηριστικών) Στην αρχιτεκτονική και στην διακόσμηση εσωτερικών χώρων Για πληροφορίες σε σχέση με τον τουρισμό Σε κοινωνικές εφαρμογές Σε αρχεία video, μιας ταινίας ή ενός ραδιοφωνικού σταθμού Παραδείγματα εφαρμογών αποτελούν οι ψηφιακές βιβλιοθήκες (ένας κατάλογος χρηστών με βάση την εικόνα τους), υπηρεσίες του χρυσού οδηγού με την χρήση πολυμέσων, επεξεργασία με την χρήση πολυμέσων (multimedia editing) (για παράδειγμα υπηρεσίες για εξατομίκευση των ειδήσεων σε ηλεκτρονική μορφή). 21

32 2.6 Το πρότυπο MPEG-21 Η βασική ιδέα του προτύπου αυτού είναι η διαχείριση του περιεχομένου και στη συνέχεια η πρόσβαση σε αυτό. Είναι ένα πλαίσιο που επιτρέπει τη διαχειρισιμότητα και τη φορητότητα του περιεχομένου. Οι χρήστες του ασχολούνται με ψηφιακά αντικείμενα, που μπορεί να είναι είτε μια φωτογραφία είτε μια οπτικοακουστική συλλογή. Το πρότυπο MPEG-21 θεσπίζει ένα κοινό πολυμεσικό πλαίσιο ενσωματώνοντας τεχνολογίες για την υποστήριξη ενός συνόλου επιχειρήσεων και οργανισμών που ασχολούνται με ψηφιακό πολυμεσικό υλικό. Τα σχήματα περιγραφής (Description Schemes), δίνουν την βασική σημασιολογία (base semantics) και την σύνταξη των μεταδεδομένων, σύμφωνα με την τυποποίηση των περιγραφών των τμημάτων. Τα περιγραφικά σχήματα όταν χρησιμοποιούνται σε συνδυασμό με τα κατάλληλα XML εργαλεία, επιτρέπουν στους χρήστες την δημιουργία XML αρχείων. [5] Εικόνα 2.13: Σχήματα περιγραφής του MPEG-21 22

33 Εικόνα 2.14: Χαρακτηριστικά και δυνατότητες των MPEG-7 και MPEG-21 23

34 ΚΕΦΑΛΑΙΟ 3: ΠΕΡΙΓΡΑΦΕΙΣ ΗΧΟΥ (AUDIO DESCRIPTORS) ΚΑΤΑ MPEG Εισαγωγή Το ηχητικό τμήμα του προτύπου MPEG-7 παρέχει δομές για περιγραφές αποκλειστικά ηχητικού (audio) περιεχομένου, που στηρίζονται σε βασικές δομές σχημάτων περιγραφής πολυμέσων (Multimedia Description Schemes - MDS). Το τμήμα MPEG-7 Audio, μαζί με το τμήμα MPEG-7 MDS, παρέχουν δομές μέσω των οποίων μπορούν να ορισθούν τόσο χαμηλού επιπέδου (lowlevel) εργαλεία περιγραφής ηχητικών χαρακτηριστικών (φασματικά - spectral, παραμετρικά - parametric, και χρονικά - temporal χαρακτηριστικά του σήματος), τα οποία μπορούν να χρησιμοποιηθούν σε ένα μεγάλο σύνολο εφαρμογών, όσο και υψηλού επιπέδου (high-level) εργαλεία περιγραφής, τα οποία εξειδικεύονται σε συγκεκριμένες εφαρμογές. Τα υψηλού επιπέδου εργαλεία περιγραφής περιλαμβάνουν γενικά εργαλεία περιγραφής για αναγνώριση (recognition) και δεικτοδότηση (indexing), περιγραφής χροιάς οργάνων (instrumental timbre), περιγραφής ομιλίας (spoken content), ένα σχήμα περιγραφής για ηχητικές υπογραφές (audio signatures) και εργαλεία περιγραφής μελωδιών (melodic description tools) για την υποστήριξη αναζητήσεων μέσω βουητού (query-by-humming). [8] 3.2 Πλαίσιο Ήχου κατά MPEG-7 (Audio Framework) Το ηχητικό πλαίσιο εργασίας του προτύπου MPEG-7, περιλαμβάνει εργαλεία χαμηλούεπιπέδου τα οποία θεμελιώνουν στην ουσία το βασικό επίπεδο συμβατότητας μεταξύ των ηχητικών περιγραφέων, για την κατασκευή δημιουργία νέων εφαρμογών ήχου υψηλότερου επιπέδου. Παρέχοντας μία κοινή πλατφόρμα για τη δομή των περιγραφών και των βασικών σημασιολογιών των γενικά θεωρουμένων σημαντικών χαρακτηριστικών του ήχου, το πρότυπο MPEG-7 εγκαθιδρύει μία πλατφόρμα αλληλεπίδρασης μεταξύ εφαρμογών που ίσως δημιουργηθούν κάτω από το συγκεκριμένο πλαίσιο εργασίας. Αυτό με τη σειρά του, παρέχει ένα βασικό σετ ηχητικών 24

35 χαρακτηριστικών και κατάλληλες δομές για την αναπαράσταση τους. Παράλληλα το επίπεδο αυτό συνδέει το ηχητικό τμήμα του προτύπου (MPEG- 7 audio) με τα άλλα τμήματα του προτύπου. [8] Δομές (Structures) Υπάρχουν γενικά δύο δομές για αναπαράσταση ηχητικών χαρακτηριστικών χαμηλού επιπέδου. Η πρώτη λειτουργεί με δειγματοληψία (sampling) τιμών των χαρακτηριστικών ανά συγκεκριμένα διαστήματα. Η δεύτερη λειτουργεί με χρήση τμημάτων (segments) που ορίζουν περιοχές ομοιότητας και ανομοιότητας στον ήχο (Audio segment : Xρονικό διάστημα στο οποίο εφαρμόζονται όλοι οι απαιτούμενοι περιγραφείς). Και οι δύο δομές ενσωματώνονται σε δύο χαμηλού επιπέδου τύπους χαρακτηριστικών, έναν για βαθμωτές τιμές (π.χ. ενέργεια, θεμελιώδης συχνότητα, τύπος Audio-LLD- Scalar-Type) και έναν για τύπους διανυσμάτων (π.χ. φάσματα, τύπος Audio- LLD-Vector-Type). Έτσι, δημιουργείται μία διεπαφή, από την οποία κάθε περιγραφή που εξάγεται μπορεί να της δοθεί στιγμιαία τιμή προς περιγραφή ενός ηχητικού τμήματος με μοναδική τιμή σύνοψης ή σειρά τιμών-δειγμάτων, όπως κάθε φορά απαιτείται από τη περιγραφή. Οι τιμές-δείγματα μπορούν φυσικά να χρησιμοποιηθούν περαιτέρω μέσα από μία άλλη ενοποιημένη διεπαφή, μπορούν να δημιουργήσουν κλιμακωτές σειρές (Scalable Series). Οι σειρές αυτές επιτρέπουν την προοδευτική υποδειγματοληψία (resampling) των δεδομένων που περιέχονται σε αυτές, ανάλογα με τις απαιτήσεις της εφαρμογής, του εύρους ζώνης (bandwidth) ή της αποθήκευσης. [9] Χαρακτηριστικά (Features) Τα χαμηλού επιπέδου χαρακτηριστικά είναι κεφαλαιώδους σημασίας για την περιγραφή του ήχου. Υπάρχουν δεκαεπτά χρονικά (temporal) και φασματικά (spectral) χαρακτηριστικά (και αντίστοιχα δεκαεπτά χρονικοί και φασματικοί 25

36 περιγραφείς) οι οποία μπορούν να χρησιμοποιηθούν σε πλειάδα εφαρμογών. [10] Τα χαρακτηριστικά (Descriptors) αυτά είναι δυνατόν να κατηγοριοποιηθούν ως εξής: Βασικά χαρακτηριστικά (Basic Descriptors). Βασικά φασματικά χαρακτηριστικά (Basic Spectral Descriptors) Χαρακτηριστικά παραμέτρων σήματος (Signal Parameters Descriptors) Χαρακτηριστικά χρονικής περιγραφής χροιάς (Timbral Temporal Descriptors) Χαρακτηριστικά φασματικής περιγραφή χροιάς (Timbral spectral Descriptors) Χαρακτηριστικά φασματικής βάσης (Spectral Basis Descriptors). Χαρακτηριστικά περιγραφής σιωπής(silence Descriptor) Κάθε μία από αυτές τις κατηγορίες Descriptor ήχου μπορεί να φανεί στην Εικόνα 3.1 και περιγράφονται συνοπτικά στη συνέχεια. Εικόνα 3.1: Σύνοψη του Audio Framework 26

37 Εικόνα 3.2: Ιεραρχία κλάσσεων των MPEG-7 Audio Low-Level Descriptors 27

38 3.2.3 Basic Descriptors BD (Βασικοί Περιγραφείς) Οι δύο βασικοί ηχητικοί περιγραφείς (αναφέρονται παρακάτω), αποτελούν χρονικά δειγματοληφθείσες βαθμωτές τιμές κυματομορφής και ισχύος, για γενική χρήση και εφαρμόζονται σε όλα τα είδη των σημάτων. Ο Audio-Waveform Descriptor (Περιγραφέας Ηχητικής Κυματομορφής) περιγράφει την ηχητική κυματομορφή (ελάχιστο και μέγιστο) συνήθως για σκοπούς εμφάνισης. Ο Audio-Power Descriptor (Περιγραφέας Ισχύος Ήχου) περιγράφει την χρονικά-εξομαλύμενη στιγμιαία ισχύ, η οποία είναι χρήσιμη ως μια γρήγορη περίληψη του σήματος Basic Spectral Descriptors BSD (Βασικοί Φασματικοί Περιγραφείς) Υπάρχουν τέσσερις Basic Spectral Audio Descriptors οι οποίοι έχουν κοινή βάση, καθώς εξάγονται από την ίδια ανάλυση ενός ηχητικού σήματος. Όλοι ενημερώνονται από τον πρώτο Descriptor, τον Audio-Spectrum-Envelope Descriptor, ένα λογαριθμικό φάσμα χωρισμένο σε διαστήματα από ένα διαιρέτη δύναμης του δύο, ή πολλαπλασίου μίας οκτάβας. Ουσιαστικά είναι ένα διάνυσμα που περιγράφει το βραχυπρόθεσμο φάσμα ισχύος ενός ηχητικού σήματος. Μπορεί να χρησιμοποιηθεί για να εμφανισεί ένα φασματογράφημ (spectrogram), να συνθέσει ένα ακατέργαστα δεδομένα, ή ως περιγραφέας γενικής χρήσης για αναζήτηση και σύγκριση. Ο Audio-Spectrum-Centroid Descriptor περιγράφει το κέντρο της βαρύτητας του λογαριθμικού φάσματος ισχύος. Αυτός ο descriptor είναι μια οικονομική περιγραφή του σχήματος του φάσματος ισχύος, υποδεικνύοντας αν η φασματικό περιεχόμενο ενός σήματος κυριαρχείται από υψηλές ή χαμηλές συχνότητες. Ο Audio-Spectrum-Spread Descriptor συμπληρώνει τον προηγούμενο, περιγράφοντας το δεύτερο στιγμιότυπο του λογαριθμικού φάσματος ισχύος, υποδεικνύοντας αν το φάσμα είναι κεντραρισμένο κοντά στο κέντρο βάρους του φάσματος ή απλώνεται και έξω από το φάσμα. Έτι, μπορεί να βοηθήσει στη διάκριση μεταξύ καθαρού ήχο (τόνου) και ήχου με θόρυβο. 28

39 Ο Audio-Spectrum-Flatness Descriptor περιγράφει τις ιδιότητες ομαλότητας του φάσματος ενός ηχητικού σήματος για ένα σύνολο συχνοτήτων. Όταν αυτός ο φορέας δείχνει μια υψηλή απόκλιση από ένα επίπεδο φασματικό σχήμα για μια δεδομένη ζώνη συχνοτήτων, σηματοδοτεί την παρουσία τονικών συνιστωσών Signal Parameters Descriptors SPD (Περιγραφείς Παραμέτρων Σήματος) Δύο περιγραφείς ανήκουν σε αυτή την κατηγορία και χρησιμοποιούνται κυρίως σε περιοδικά ή ημι-περιοδικά σήματα. Ο Audio-Fundamental-Frequency Descriptor περιγράφει τη θεμελιώδη συχνότητα(fundamental frequency) ενός περιοδικού ηχητικού. Η αναπαράσταση αυτού του descriptor επιτρέπει ένα μέτρο εμπιστοσύνης στην αναγνώριση του γεγονότος ότι οι διάφορες μέθοδοι εξαγωγής, κοινώς ονομαζόμενα "pitch-tracking", δεν είναι απολύτως ακριβή, κατά την αναγνώριση, διότι μπορεί να υπάρχουν τμήματα ενός σήματος (π.χ. θόρυβος) για τα οποία δεν μπορεί να εξαχθεί καμία θεμελιώδη συχνότητα. Ο Audio-Harmonicity Descriptor αναπαριστά την αρμονικότητα ενός σήματος, επιτρέποντας τη διάκριση ανάμεσα σε ήχους με αρμονικό φάσμα (π.χ. μουσικοί τόνοι, καθαρά εκφρασμένος λόγος), ήχους με ασύμβατα φάσματα (π.χ. μεταλλικοί ήχοι), ήχους με μη-αρμονικά φάσματα (π.χ. θόρυβος, μη καθαρά εκφρασμένος λόγος) καθώς και συμπαγείς μίξεις από ήχους οργάνων. [11] Timbral Temporal Descriptors TTD (Περιγραφείς Χρονικής Περιγραφής Χροιάς) Οι δύο Timbral Temporal Descriptors περιγράφουν χρονικά χαρακτηριστικά κομματιών ήχου και είναι ιδιαίτερα χρήσιμα για την περιγραφή της μουσικής χροιάς (χαρακτηριστική ποιότητα ήχου ανεξάρτητα από συχνότητα και ένταση). Δεδομένου ότι μόνο μία βαθμωτή τιμή χρησιμοποιείται για να αντιπροσωπεύσει την εξέλιξη του ήχου ή ένα τμήμα ήχου στο χρόνο αυτοί οι 29

40 Descriptors δεν είναι εφαρμόσιμες για χρήση σε κλιμακωτες σειρές (Scalable Series). Ο Log-Attack-Time Descriptor καθορίζει τον χρόνο που απαιτείται για το σήμα να «ανέβει» από τη σιγή στο μέγιστο πλάτος. Το χαρακτηριστικό αυτό δηλώνει τη διαφορά ανάμεσα σε ένα ξαφνικό και έναν ομαλό ήχο. Ο Temporal-Centroid Descriptor επίσης αναπαριστά σε ποια χρονική στιγμή εστιάζεται η ισχύς του σήματος. Αυτός ο descriptor μπορεί, για παράδειγμα, να διακρίνει μία αποσβενόμενη νότα από μία διατηρούμενη, όταν τα μήκη των δύο ήχων είναι πανομοιότυπα. [11] Timbral Spectral Descriptors TSD (Περιγραφείς Φασματικής Περιγραφής Χροιάς) Συνολικά υπάρχουν πέντε περιγραφείς στην συγκεκριμένη κατηγορία, εξειδικευμένοι σε έναν χώρο γραμμικής συχνότητας, που συμπεριλαμβάνουν το φασματικό κέντρο βάρους, και φασματικά χαρακτηριστικά ειδικά για τα αρμονικά τμήματα των σημάτων. Ο Spectral-Centroid-Descriptor είναι ο σταθμισμένος με τον μέσο όρο της συχνότητας στο γραμμικό ενεργειακό φάσμα ισχύος. είναι Παρόμοιος με τον Audio-Spectrum-Centroid Descriptor, αλλά εξειδικεύεται στον διαχωρισμό χροιών διαφορετικών μουσικών οργάνων. Έχει υψηλή συσχέτιση με το αντιληπτικό χαρακτηριστικό της «οξύτητας» ενός ήχου. Οι υπόλοιποι τέσσερις timbral spectral descriptors λειτουργούν στις αρμονικές τακτικά-τοποθετημένές τμήματικες των σημάτων. Για το λόγο αυτό, οι descriptors υπολογίζονται σε γραμμικό χώρο συχνότητας Ο Harmonic-Spectral-Centroid Descriptor είναι η σταθμισμένη με το πλάτος (amplitude-weighted) μέση τιμή των αρμονικών κορυφών του φάσματος (αρμονικό φασματικό κέντρο βάρους - harmonic spectral centroid). Έχει σημασιολογική ομοιότητα με τους άλλους περιγραφείς, αλλά βρίσκει εφαρμογή μόνο στα αρμονικά μέρη (και όχι σε μέρη θορύβου) του μουσικού τόνου. 30

41 Ο Harmonic-Spectral-Deviation Descriptor υποδηλώνει την αρμονική φασματική απόκλιση (harmonic spectral deviation), των log-amplitude συστατικών από ένα καθολικό φάσμα. Ο Harmonic-Spectral-Spread Descriptor περιγράφει τη σταθμισμένη με το πλάτος (amplitude-weighted) τυπική απόκλιση των κορυφών των αρμονικών του φάσματος, κανονικοποιημένη από τη στιγμιαία τιμή του περιγραφέα (αρμονική φασματική διάχυση - harmonic spectral spread) Ο Harmonic-Spectral-Variation Descriptor είναι η κανονικοποιημένη συσχέτισημεταξύ του πλάτους των κορυφών των αρμονικών ανάμεσα σε δύο διαδοχικά χρονικά κομμάτια του σήματος (αρμονική φασματική διασπορά - harmonic spectral variation). [9] Spectral Basis Descriptors - SBD (Περιγραφείς φασματικής βάσης) Οι δύο spectral basis Descriptors αναπαριστούν χαμηλής διάστασης (lowdimensional) προβολές ενός υψηλής διάστασης φασματικού διαστήματος (a high-dimensional spectral space ) για την πυκνότητα και την αναγνώριση. Οι περιγραφές αυτές χρησιμοποιούνται σε συνδυασμό με τα εργαλεία ταξινόμησης και δεικτοδότησης ήχου (Sound Classification and Indexing Description Tools), αλλά μπορούν επίσης να χρησιμοποιηθούν σε πολλές ακόμη εφαρμογές. Ο Audio-Spectrum-Basis Descriptor είναι μία σειρά (μεταβλητών με το χρόνο και στατιστικά ανεξάρτητων) συναρτήσεων βάσης, που προέρχονται από τη μοναδική τιμή διάσπασης κανονικοποιημένου φάσματος ενέργειας. Ο Audio-Spectrum-Projection Descriptor χρησιμοποιείται σε συνδυασμό με τον Audio-Spectrum-Basis Descriptor, και αναπαριστά χαμηλής διάστασης χαρακτηριστικά ενός φάσματος μετά από προβολή. Οι δύο αυτοί περιγραφείς όταν συνδυάζονται, μπορούν να χρησιμοποιηθούν για την αναπαράσταση με συμπαγή τρόπο υποδιαστημάτων ενός φασματογράμματος. Με τον τρόπο αυτό εξάγονται σαφέστερες και καλύτερες 31

42 δομές από ένα φασματόγραμμα, ενώ παράλληλα χρησιμοποιείται λιγότερος χώρος. Για παράδειγμα, στην Εικόνα 3.3, ένα τραγούδι αναπαρίσταται από έναν Audio-Spectrum-Envelope Descriptor, και απεικονίζεται χρησιμοποιώντας ένα φασματόγραμμα. Το ίδιο τραγούδι έχοντας υποστεί μείωση δεδομένων (datareduce), Εικόνα 3.4, και όμως τα επιμέρους όργανα προεξέχουνι περισσότερο σε αυτή την παράσταση. [9], [11] Εικόνα 3.3: Audio-Spectrum-Envelope description ενός τραγουδιού. Τα απαραίτητα αποθηκευμένα δεδομένα είναι ΝΜ τιμών, με Ν τον αριθμό των τιμών του και Μ είναι ο αριθμός των χρονικών σημείων 32

43 Εικόνα 3.4: Ανασυγκρότηση βάσισμένη σε συνιστώσα 10-σημείων που δείχνει το μεγαλύτερο μέρος της λεπτομέρειας του πρωτότυπου φασματόγραμματος Τα αριστερά διανύσματα αποτελούν έναν Audio-Spectrum-Basis Descriptor και τα διανύσματα στην κορυφή δηλώνουν το αντίστοιχο Audio-Spectrum- Projection Descriptor. Τα απαραίτητα αποθηκευμένα δεδομένα είναι 10(M+N) τιμών Silence Segment Descriptors - SSD (Περιγραφείς Τμημάτων Σιγής) Το silence segment αποδίδει απλώς την απλή σημασιολογική της «σιωπής» (δηλαδή κανένας σημαντικός ήχος) σε ένα ηχητικό απόσπασμα (audio segment). Αν και είναι εξαιρετικά απλό;, είναι έναε πολύ αποτελεσματικός descriptor. Μπορεί να χρησιμοποιηθεί για να βοηθήσει στην περαιτέρω κατάτμηση του audio stream, ή ως υπόδειξη για να μην επεξεργαστεί ένα τμήμα. [8] 33

44 3.3 Ηχητικά Εργαλεία και Σχημάτα Περιγραφής Υψηλού Επιπέδου (High- Level Audio Description Tools, Ds and DSs) Επειδή υπάρχει ένα μικρότερο σύνολο χαρακτηριστικών ήχου (σε σύγκριση με τα οπτικά χαρακτηριστικά) που μπορούν να αντιπροσωπεύουν έναν ήχο χωρίς συγκεκριμένους τομείς γνώσης, το MPEG-7 Audio περιλαμβάνει ένα σύνολο εξειδικευμένων εργαλείων υψηλού επιπέδου που ανταλλάσσουν κάποιο βαθμό γενικότητας για περιγραφικό πλούτο. Τα πέντε σύνολα των audio Description Tools που αντιστοιχούν χονδρικά σε περιοχές στις οποίες έχουν ενσωματωθεί στο πρότυπο: ηχητικό αποτύπωμα, χροιά μουσικού οργάνου, περιγραφή μελωδίας, γενική αναγνώριση ήχου και εύρεσης του, και ομιλών περιεχόμενο. Τα δύο τελευταία είναι εξαιρετικά παραδείγματα του πώς το Audio Framework και τα Multimedia Description Schemes (MDS) Description Tools μπορούν να ενσωματωθούν για να υποστηρίξουν κι άλλες εφαρμογές Audio Signature Description Scheme - ΑSDS (Σχήμα Περιγραφής Ηχητικής Περιγραφής) Το συγκεκριμένο σχήμα ηχητικής περιγραφής αποτελεί μια συμπυκνωμένη αναπαράσταση ενός ηχητικού σήματος σχεδιασμένη έτσι ώστε να παρέχει έναν μοναδικό ταυτοποιητή περιεχομένου, με σκοπό την αποτελεσματική αυτόματη αναγνώριση των ηχητικών σημάτων. Κάποιες από τις εφαρμογές περιλαμβάνουν αναγνώριση προσώπου με τη φωνή του, αναγνώριση ήχου με χρήση βάσης δεδομένων ήχων γνωστών έργων, ηχητικό αποτύπωμα, εντοπισμός μεταδεδομένων που σχετίζονται με ηχητικού περιεχομένου πνευματικά δικαιώματα. κ.α. [12] Musical Instrument Timbre Description Tools - MITS (Περιγραφείς Χροιάς Μουσικών Οργάνων) Οι descriptors χροιάς αποσκοπούν στην περιγραφή αντιληπτικών χαρακτηριστικών από ήχους οργάνων. Η χροιά ορίζεται στη βιβλιογραφία ως τα αντιληπτικά χαρακτηριστικά δύο ήχων που ενώ έχουν την ίδια συχνότητα 34

45 και της ένταση, ακούγονται διαφορετικά. Ο σκοπός των Timbre Description Tools είναι να περιγράψει αυτά τα αντιληπτικά χαρακτηριστικά με μειωμένο σύνολο από descriptors. Οι descriptors αφορούν έννοιες, όπως επίθεση (attack)", "φωτεινότητα (brightness )" ή "πλούτο (richness)" ενός ήχου. Υπάρχουν τέσσερις κλάσεις ήχων μουσικών οργάνων: Αρμονικοί, διατηρούμενοι, συμφασικοί (harmonic, sustained, coherent) Μη αρμονικοί, διατηρούμενοι, συμφασικοί (nonharmonic, sustained, coherent) Κρουστικοί, μη διατηρούμενοι (percussive, nonsustained) Μη συμφασικοί, διατηρούμενοι (noncoherent, sustained) Από αυτές τις τέσσερις κλάσεις οι δύο (αρμονικοί, διατηρούμενοι, συμφασικοί ήχοι και οι κρουστικοί, μη διατηρούμενοι ήχοι) είναι καλά εμπεριστατωμένες και αποτελούν αντικείμενο ανάπτυξης στο πρότυπο MPEG-7, ενώ οι άλλες δύο θεωρούνται ότι είναι χαμηλότερης προτεραιότητας, εξαιτίας της σχετικής σπανιότητας που παρουσιάζουν Ο Harmonic-Instrument-Timbre Descriptor για διαρκείς αρμονικούς ήχους, συνδυάζει τέσσερις αρμονικούς φασματικών χροιών descriptors [Harmonic Spectral - Centroid, Harmonic Spectral - Deviation, Harmonic Spectral - Spread, Harmonic Spectral - Variation] μαζί με τον Log Attack - Time descriptor. Ο Percussive-Instrument-Timbre Descriptor συνδυάζει τους timbral temporal descriptors με έναν Spectral-Centroid Descriptor Melody Description Tools - MDS (Σχήματα Περιγραφής Μελωδίας) Τα σχήματα περιγραφής μελωδίας, περιέχουν μία πλούσια αναπαράσταση της μονοφωνικής μελωδικής πληροφορίας, με σκοπό τη διευκόλυνση της αποτελεσματικής και εύρωστης μελωδική αντιστοίχισης ομοιότητας ήχων. Στα σχήματα περιγραφής μελωδίας (Melody Description Schemes) εμπεριέχονται: 35

46 το Melody-Contour Description Scheme (Σχήμα Περιγραφής Περιγράμματος Μελωδίας) για μια λιτή, περιεκτική και αποτελεσματική αναπαράσταση περιγράμματος μελωδίας το Melody-Sequence Description Scheme (Σχήμα Περιγραφής Ακολουθίας Μελωδίας) για μια πιο εκφραστική, και ολοκληρωμένη αναπαράσταση της μελωδίας. Και τα δύο εργαλεία υποστηρίζουν την αντιστοίχιση ανάμεσα σε μελωδίες καθώς και προαιρετικές πληροφορίες γύρω από τη μελωδία, που μπορούν να βοηθήσουν στην αναζήτηση βασισμένη στο περιεχόμενο, περιλαμβάνοντας και αναζήτηση με βουητό. Το Melody-Contour Description Scheme χρησιμοποιεί ένα 5-βήματων περίγραμμα (αντιπροσωπεύοντας το διάστημα μεταξύ γειτονικών νοτών), στο οποίο τα διαστήματα είναι κβαντισμένα σε μεγάλα ή μικρά χρονικά διαστήματα, σε υψηλότερες, χαμηλότερες, ή ίδιες κλίμακες. Επίσης, αποτελεί βασική πληροφορία του ρυθμού αποθηκεύοντας τον αριθμό στον πλησιέστερο ακέραιο ρυθμό της κάθε νότας, το οποίο μπορεί να αυξήσει δραματικά την ακρίβεια των επιστρεφόμενων ταιριαστών αποτελεσμάτων σε μια αναζήτηση. Για εφαρμογές που απαιτούν μεγαλύτερη περιγραφική ακρίβεια ή ανακατασκευή μιας μελωδίας, το Melody-Sequence Description Scheme υποστηρίζει ένα εκτεταμένο σύνολο από descriptors και υψηλή ακρίβεια του διαστήματος που κωδικοποιεί. Αντί κβαντισμού σε ένα από πέντε επίπεδα, το ακριβές διάστημα βήματος μεταξύ των νοτών διατηρείται. Ακριβείς πληροφορίες ρυθμού διατηρούνται κωδικοποιώντας την λογαριθμική αναλογία των διαφορών μεταξύ των αφετηριών των νοτών με έναν τρόπο παρόμοιο με το διάστημα βήματος. Αυτοί οι βασικοί descriptors είναι μια σειρά προαιρετικών υποστηρικτικών descriptors, όπως στίχους, κλειδί, μέτρο, και αρχική νότα, για να χρησιμοποιηθούν κατά το επιθυμητό από μια εφαρμογή. 36

47 3.3.4 General Sound Recognition and Indexing Description Tools GSRID (Περιγραφείς Γενικής Αναγνώρισης και Δεικτοδότησης Ήχου) Πρόκειται για μία συλλογή περιγραφέων οι οποίοι βοηθούν στην δεικτοδότηση και κατηγοριοποίηση γενικών ήχων, με άμεση εφαρμογή στα ηχητικά εφέ. Οι συγκεκριμένοι περιγραφείς επιτρέπουν την αυτόματη αναγνώριση, δεικτοδότηση και διαχωρισμό κομματιών ήχου, καθώς και τη δημιουργία ενός σχήματος ταξινόμησης ήχων σε κλάσεις (Classification Scheme) για τον καθορισμό της ιεραρχίας των εργαλείων αναγνώρισης ήχου. Τέτοια συστήματα αναγνώρισης μπορεί να χρησιμοποιηθούν για αυτόματη δείκτοδοτηση και για κατάτμηση ηχητικών κομμάτιών. Έτσι, τα Description Tools αντιμετωπίζουν την αναγνώριση και την αναπαράσταση σε όλη τη διαδρομή, από την ανάλυση του σήματος που βασίζεται σε χαμηλά επίπεδα (low-level), μέσω στατιστικών μοντέλων μεσαίου επιπέδου (mid-level), σε υψηλού επιπέδου σημασιολογικές ετικέτες (highly semantic labels) για τις κατηγορίες του ήχου. Το Sound-Classification-Model Description Scheme συνδυάζει ένα σύνολο ηχητικών μοντέλων (Sound-Models) σε ένα πολλαπλών διαδρομών ταξινομητή για την αυτόματη σήμανση των τμημάτων ήχου (audio segments) χρησιμοποιώντας όρους από ένα Classification Scheme. Οι προκύπτοντες ταξινομητές μπορούν να αναγνωρίσουν ευρείες κλάσεις ήχων, όπως λόγου και μουσικής, ή μπορούν να εκπαιδευτούν για να εντοπίζουν πιο συγκεκριμένες κατηγορίες, όπως αρσενικό, θηλυκό, τρομπέτα, ή βιολί. Άλλες εφαρμογές περιλαμβάνουν την ταξινόμηση κατά είδος και αναγνώριση φωνής. Ένας Sound-Model-State-Path Descriptor αποτελείται από μια σειρά δεικτών που δημιουργούνται από ένα Sound-Model δοθέντος ενός τμήματος ήχου. Αυτός ο απλός Descriptor παρέχει μια συμπαγής περιγραφή ενός τμήματος ήχου, και μπορεί να χρησιμοποιηθεί για γρήγορες συγκρίσεις με άλλα μοντέλα. Ο Sound-Model-State-Histogram Descriptor αποτελείται από ένα κανονικοποιημένο ιστόγραμμα της ακολουθίας που παράγεται από ένα ηχητικό μοντέλο. Ο descriptor μπορεί να χρησιμοποιηθεί για να συγκρίνει 37

48 τμημάτα ήχου μέσω των ιστογραμμάτων των πρότυπων τους σε κατάσταση διέγερσης Spoken Content Description Tools - SCD (Περιγραφείς Περιεχομένου Προφορικού Λόγου) Οι περιγραφείς περιεχομένου προφορικού λόγου επιτρέπουν την αναλυτική περιγραφή λέξεων που περιέχονται σε μία ροή ηχητικών δεδομένων. Στην αναγνώριση του γεγονότος ότι οι τρέχουσες τεχνολογίες αυτόματης αναγνώρισης ήχου (Automatic Speech Recognition - ASR) έχουν τα οριά τους, και ότι θα συναντιούνταιι πάντα εκτός λεξιλογίου εκφράσεις, τα Spoken Content Description Tools θυσιάσει κάποιο πυκνότητα για την ευρωστία της αναζήτησης. Για να επιτευχθεί αυτό, τα εργαλεία αντιπροσωπεύουν την έξοδο και τι θα μπορούσε κανονικά να ειπωθεί ως ενδιάμεσα αποτελέσματα του ASR. Τα εργαλεία μπορούν να χρησιμοποιηθούν για δύο ευρείες κατηγορίες ανάκτησης σενάριου: εύρεση και ανάκτηση σε μια ροή, και εύρεση των πολυμέσων σχετικά με την ομιλία. Τα Spoken Content Description Tools χωρίζονται σε δύο ευρείες λειτουργικές μονάδες: το Spoken-Content-Lattice Description Scheme (Πλέγμα Περιχομένου Ομιλίας), που αντιπροσωπεύει την πραγματική αποκωδικοποίηση που παράγεται από το ASR, και ο Spoken-Content- Header (Επικεφαλίδα Περιεχομένου Ομιλίας), ο οποίος περιέχει πληροφορίες σχετικά με τους ομιλητές που αναγνωρίζονται καθώς και το ίδιο το πρόγραμμα αναγνώρισης. Ο Spoken-Content-Header περιέχει έναν αριθμό συνιστωσών που μπορούν να χρησιμοποιηθούν από οποιονδήποτε Spoken-Content-Lattice. Ο header περιέχει έναν Word-Lexicon Descriptor και έναν Phone-Lexicon Descriptor. Μπορεί να υπάρχει ένας Confusion-Info Descriptor, ο οποίος παρέχει έναν πίνακα σύγχώνευσης και άλλες στατιστικές εισαγωγής και διαγραφής για κάθε καταχώρηση στο Phone-Lexicon. Πρέπει να υπάρχει ένας Speaker-Info Descriptor, που μεταφέρει πληροφορίες σχετικά με το άτομο που μιλάει, όπως το λεξιλόγιό και το φωνητικό ρεπερτόριο του, ένας χαρακτηρισμός των κοινών συνήθειών της ομιλίας του, τη γλώσσα που ομιλεί, 38

49 και πληροφορίες για το πρόσωπο όπως το όνομά του. Επιπλέον, εντός του Spoken-Content-Header, μπορεί να υπάρχουν πρόσθετες πληροφορίες σχετικά με το πώς δημιουργήθηκε η περιγραφή. Το Spoken-Content-Lattice Description Scheme αποτελείται από μπλοκ κόμβων. Οι κόμβοι συνδέονται Word-Links ή Phone-Links, καθένας από τους συνδέσμους (links) αναφέρεται σε μια λέξη ή φώνημα στο λεξικό. Οι κόμβοι αναπροσαρμόζονται και επίσης δίνεται ένα time-offset από την αρχή του πλέγματος. Αυτή η εξαιρετικά ευέλικτη, αλλά σχετικά μικρού μεγέθους, μορφή περιγραφής επιτρέπει σε κάποιον να εκπροσωπεί λέξεις, με συνδυασμούς εναλλακτικών λύσεων ανάμεσα σε λέξεις και φωνήματα. Με το συνδυασμό αυτών των πλέγματων, το πρόβλημα των λέξεων εκτός λεξικού (out-ofvocabulary words) μετριάζεται σε μεγάλο βαθμό και η ανάκτηση μπορεί ακόμη να πραγματοποιηθεί όταν η αρχικά αναγνωρισμένη λέξη ήταν. Ένα απλουστευμένο Spoken-Content-Lattice απεικονίζεται στην Εικόνα 3.5. Εικόνα 3.5: Μία δομή πλέγματος για για μία υποθετική αποκωδικοποίηση της έκφρασης Taj Mahal drawing. It is assumed that the name Taj Mahal είναι έξω από το λεξιλόγιο του συστήματος ASR. Παραδείγματα εφαρμογών για τα Spoken Content Description Tools περιλαμβάνουν: Recall of Audio/Video Data by Memorable Spoken Events (Ανάκτηση Δεδομένων Ήχου/Εικόνας από Αξιομνημόνευτα Γεγονότα Ομιλίας): Ένα παράδειγμα θα μπορούσε να είναι ένα φιλμ ή βίντεο εγγραφής, όπου ένας χαρακτήρας ή ένα πρόσωπο ανέφερε μια 39

50 συγκεκριμένη λέξη ή ακολουθία λέξεων Η τοποθεσία αποθήκευσης του μέσου θα γίνει γνωστή έπειτα από την κατάλληλη αναζήτηση. Spoken Document Retrieval (Ανάκτηση Εγγράφου Ομιλίας): Στην περίπτωση αυτή, υπάρχει μια βάση δεδομένων που αποτελείται από χωριστά ομιλούμενα έγγραφατο αποτέλεσμα της αναζήτησης επιστρέφει τα σχετικά έγγραφα, και πιθανώς την τοποθεσία αποθήκευσης των εγγράφων αυτών. Annotated Media Retrieval (Ανάκτηση Σχολιασμένων Μέσων): Είναι παρόμοια με την ανάκτηση εγγράφου ομιλίας, αλλά το κομμάτι ομιλίας του μέσου είναι σχετικά μικρό σε σχέση με το όλο υλικό (κάποια δευτερόλεπτα). Το αποτέλεσμα της αναζήτησης είναι το μέσο στο οποίο υπάρχει το συγκεκριμένο κομμάτι ομιλίας, αλλά όχι το ίδιο το κομμάτι ομιλίας. Παράδειγμα είναι η ανάκτηση φωτογραφίας με χρήση του ονόματος του προσώπου που απεικονίζεται. 40

51 ΚΕΦΑΛΑΙΟ 4: ΟΠΤΙΚΟΙ ΠΕΡΙΓΡΑΦΕΙΣ ΚΑΙ ΑΝΑΛΥΣΗ ΒΙΝΤΕΟ 4.1 Εισαγωγή Τα εργαλεία περιγραφής πολυμεσών του προτύπου MPEG-7, αποτελούνται από περιγραφείς βασικών οπτικών χαρακτηριστικών όπως το χρώμα (color), η υφή (texture), το σχήμα (shape), η κίνηση (motion), ο εντοπισμός (localization) και η αναγνώριση προσώπου (face recognition). [19], [20] Κάθε μία από τις παραπάνω κατηγορίες περιλαμβάνει γενικούς και εξειδικευμένους περιγραφείς οι οποίοι υπολογίζουν ένα διάνυσμα (ιστόγραμμα - histogram) των στοιχείων που αντιπροσωπεύουν τον αριθμό των εικονοστοιχείων (pixels) ή περιοχών (regions) σε μια δεδομένη εικόνα, τα οποία έχουν παρόμοια χαρακτηριστικά. Οι οπτικοί περιγραφείς μπορούν να χρησιμοποιηθούν σε ένα πλήθος εφαρμογών όπως αναζήτηση με βάση το περιεχόμενο (content based), σύγκριση εικόνων και βίντεο, ομαδοποίηση πολυμεσικού υλικού σε κατηγορίες με βάση κάποιο κοινό χαρακτηριστικό κ.α. [12] 41

52 4.2 Color Descriptors (Περιγραφείς Χρώματος) Color Space Descriptor - CSD (Περιγραφέας Χρωματικού Χώρου) Ο περιγραφέας χρωματικού χώρου οριοθετεί τον χρωματικό χώρο που χρησιμοποιείται για αναπαραστάσεις του MPEG-7 στηριζόμενες στο χρώμα. Οι διάφοροι χρωματικοί χώροι που χρησιμοποιούνται στο MPEG-7 είναι Μονοχρωματικός, RGB, YCbCr, HSV και ο νέος HMMD. Ο RGB χώρος είναι ένα από τα πιο γνωστά χρωματικά μοντέλα και ορίζεται σαν μοναδιαίους κύβος στο καρτεσιανή σύστημα συντεταγμένων. Ένας χρωματικός χώρος που υιοθετήθηκε από τα προηγούμενα MPEG πρότυπα (MPEG-1,2,4) είναι ο YCbCr, ο οποίος ορίζεται σαν γραμμικός μετασχηματισμός από τον RGB. Y είναι η συνιστώσα φωτεινότητας και Cb, Cr οι συνιστώσες που αντιστοιχούν στην διαφορά του μπλε και του κόκκινου χρώματος με την φωτεινότητα αντίστοιχα. Ο μονοχρωματικός περιλαμβάνει μόνο την Υ συνιστώσα του YCbCr. O HSV ορίζεται σαν μη γραμμικός αλλά αναστρέψιμος μετασχηματισμός από το RGB. Το H (Ηue) είναι η χροιά του χρώματος και αναπαρίσταται από μία γωνία 0 έως 360 που διαχωρίζει την μία κατηγορία χρώματος από την άλλη (πχ. κίτρινο από κόκκινο). Το S (Saturation) είναι κορεσμός και καθορίζει το πόσο καθαρό είναι ένα χρώμα: πράσινο, κίτρινο, μπλε κλπ, με τιμές από 0 έως 1. Τέλος το V (Value) είναι η φωτεινότητα του χρώματος με τιμές απο 0 εώς 1. 42

53 Στον χρωματικό χώρο HMMD (Hue-Max-Min-Diff) οι συνιστώσες του ορίζονται ως εξής από τον RGB χρωματικό χώρο: Max = max(r, G, B) Min = min(r, G, B) Diff = Max Min Sum = (Max + Min)/2 Παρόλο που μπορούν εκφραστούν 5 συνιστώσες, στον HMMD, ένα σύνολο 3 συνιστωσών είναι αρκετό για να τον περιγράψει. Αυτές είναι οι (H, Max, Min) ή (H, Diff, Sum). Οι τιμές που μπορούν να πάρουν είναι: H=[0 0, ], Max=[0,1], Min=[0,1], Diff=[0,1], Sum=[0,1] Ο χρωματικός χώρος δεν είναι περιγραφέας αλλά είναι χρήσιμος για να γνωρίζουμε σε ποιον χώρο αναπαράστασης της εικόνας γίνονται οι υπολογισμοί για κάποιους περιγραφείς. Εικόνα 4.1: Τρισδιάστατη απεικόνιση του χρωματικού χώρου RGB [13] 43

54 Εικόνα 4.2: Τρισδιάστατη απεικόνιση του χρωματικού χώρου YCbCr [14] Εικόνα 4.3: Τρισδιάστατη απεικόνιση του χρωματικού χώρου HSV [15] 44

55 Εικόνα 4.4: Τρισδιάστατη απεικόνιση του χρωματικού χώρου HMMD με άξονες Diff, Sum, Hue [16] Dominant Color Descriptor DCD (Περιγραφέας Επικρατούντων Χρωμάτων) Αυτός ο περιγραφέας χρώματος είναι ο καταλληλότερος για την αντιπροσώπευση τοπικών (περιοχή αντικειμένου ή εικόνας) χαρακτηριστικών γνωρισμάτων όπου ένας μικρός αριθμός χρωμάτων είναι αρκετός για να χαρακτηρίσει τις πληροφορίες χρώματος στην περιοχή ενδιαφέροντος. Μάλιστα θεωρείται ένας από τους σημαντικότερους περιγραφείς του MPEG-7 λόγω της απλότητας του και της συσχέτισης του με την ανθρώπινη αντίληψη. Είναι δυνατόν να εφαρμοστεί και για ολόκληρες εικόνες όπως για εικόνες σημαιών ή εικόνες εμπορικών σημάτων χρώματος. Η κβαντοποίηση χρώματος χρησιμοποιείται για να εξάγει έναν μικρό αριθμό αντιπροσώπευσης των χρωμάτων σε κάθε περιοχή/εικόνα. Το ποσοστό κάθε κβαντοποιημένου χρώματος στην περιοχή υπολογίζεται αντίστοιχα. Ο περιγραφέας αυτός αναδεικνύει τα βασικά χρώματα μιας εικόνας µε σκοπό την εύρεση των όμοιων εικόνων. Παρέχει µια συμπαγή περιγραφή των αντιπροσωπευτικών χρωμάτων σε µια εικόνα ή µια περιοχή της εικόνας. Μια εικόνα περιγράφεται από τον DCD ως [21]: 45

56 όπου N είναι ο αριθμός των (επικρατούντων) χρωμάτων, c i το χαρακτηριστικό διάνυσμα της ομάδας (π.χ. οι RGB συνιστώσες του), p i το ποσοστό των εικονοστοιχείων που αντιστοιχούν στην ομάδα i, νορµαλισµένο μεταξύ των τιμών 0 και 1, µε i p i = 1, µε u i δίνεται η διακύμανση των εικονοστοιχείων της κάθε ομάδας και τέλος s ένας αριθμός που περιγράφει την χωρική ομοιομορφία της εικόνας. Το πλήθος N των κυρίαρχων χρωμάτων μπορεί να ποικίλει από εικόνα σε εικόνα και το πλήθος των οκτώ κυρίαρχων χρωμάτων έχει αποδειχθεί ότι μπορεί να αναπαραστήσει ικανοποιητικά τα χρωματικά χαρακτηριστικά μιας εικόνας. Για τον υπολογισμό των χρωματικών κέντρων, γίνεται µια ομαδοποίηση των εικονοστοιχείων, για την οποία προτείνεται µια παραλλαγή του γενικευμένου αλγόριθμου του Lloyd. Σε πειράματα που πραγματοποιήθηκαν, για την εξαγωγή των χαρακτηριστικών αυτών κέντρων, χρησιμοποιήθηκε ο FCM αλγόριθμος ομαδοποίησης, µε τα ίδια αποτελέσματα. Αφού ενταχθεί κάθε εικονοστοιχείο στο αντίστοιχο κέντρο της ομάδας στην οποία ανήκει, υπολογίζονται τα αντίστοιχα ποσοστά, καθώς και οι αντίστοιχες διακυμάνσεις της κάθε ομάδας. Τέλος υπολογίζεται η συνεκτικότητα της κάθε ομάδας. Στο σχήμα δίνεται η σχηματική αναπαράσταση της εξαγωγής των χρωματικών κέντρων και των αντίστοιχων ποσοστών συμμετοχής τους για µια δεδομένη εικόνα. Εικόνα 4.5: Εξαγωγή κύριων χρωμάτων µε τα αντίστοιχα ποσοστά παρουσίας τους στην εικόνα µε χρήση του DCD. Για τη σύγκριση μεταξύ δύο περιγραφέων κυρίαρχων χρωμάτων, έστω F1και F2, το πρότυπο M P EG 7 ορίζει την συνάρτηση [21]: 46

57 όπου οι δείκτες 1 και 2 σε όλες τις παραπάνω μεταβλητές αναφέρονται στις περιγραφές F 1 και F 2 των δύο υπό σύγκριση εικόνων αντίστοιχα, ενώ µε α k,l δηλώνεται ο συντελεστής ομοιότητας μεταξύ δύο κυρίαρχων χρωμάτων c k και c l, µε όπου d k,l = c k c l είναι η Ευκλείδεια απόσταση μεταξύ των δύο κυρίαρχων χρωμάτων ck και c l, T d είναι η μέγιστη απόσταση που μπορούν να έχουν δύο κυρίαρχα χρώματα ώστε να θεωρούνται όμοια και d max = αt d. Μια προτεινόμενη τιμή για το κατώφλι T d είναι μεταξύ 10 και 20 για τον CIE LUV χρωματικό χώρο, ενώ για το α προτείνονται τιμές μεταξύ 1.0 και 1.5. Το κομμάτι του κώδικα σε C++ όπου βασίστηκε η υλοποίηση της εφαρμογής που θα εξετάσουμε αργότερα για τον περιγραφέα αυτόν φαίνεται παρακάτω: Να σημειώσουμε εδώ ότι το κομμάτι κώδικα που παρουσιάζεται αφορά το header (.h) αρχείο της C++ (ένα κομμάτι του), όπου γίνεται ο ορισμός του περιγραφέα. Σε αυτό ορίζονται οι μεταβλητές και οι τιμές που θα παίρνουν για τα αποτελέσματα που θα εμφανίζονται ανάλογα με το τι εκφράζει ο κάθε 47

58 περιγραφέας. Αυτά συμβαδίζουν με την ανάλυση που έγινε σε αυτή την παράγραφο, ενώ οι ακριβείς μαθηματικές πράξεις, συγκρίσεις κ.α. που απαιτούνται για έναν περιγραφέα ορίζονται στα αντίστοιχα (ίδιο όνομα με.h).cpp files. Αυτά ισχύουν για όλους τους περιγραφείς στη συνέχεια όπου θα παρατίθονται κομμάτια του C++ κώδικα Scalable Color Descriptor SCD (Κλιμακωτός Περιγραφέας Χρώματος) Ο κλιμακωτός περιγραφέας χρώματος είναι ένα ιστόγραμμα χρώματος στο χρωματικό χώρο χρώματος HSV, το οποίο κωδικοποιείται με ένα μετασχηματισμό Haar. Ο κλιμακωτός περιγραφέας χρώματος είναιχρήσιμος για το ταίριασμα και την ανάκτηση εικόνας βασισμένη στο χαρακτηριστικό γνώρισμα χρώματος. Ο περιγραφέας αυτός επεκτείνεται σε ομάδες εικόνων ή ομάδες στιγμιότυπων σε δεδομένα video (group of frames-gof /group of pictures - GoP). Ο κλιμακωτός περιγραφέας χρώματος επιτρέπει µια κλιμακωτή αναπαράσταση της περιγραφής, καθώς επίσης και την κλιμακωτή πολυπλοκότητα για την εξαγωγή χαρακτηριστικών γνωρισμάτων και τις διαδικασίες ταιριάσματος. Ο συγκεκριμένος περιγραφέας μπορεί να ερμηνευτεί σαν ένα σχήμα κωδικοποίησης βασισμένο στην μετατροπή Haar που εφαρμόζεται στις τιμές ενός ιστογράμματος χρώματος στον HSV χρωματικό χώρο. Οι τιμές του ιστογράμματος εξάγονται, κανονικοποιούνται, και μετατρέπονται µη γραμμικά σε µία ακέραια αναπαράσταση τεσσάρων bits, η οποία δίνει περισσότερη σημασία στις μικρές τιμές. Η μετατροπή Haar εφαρμόζεται πάνω στις ακέραιες τιμές τεσσάρων bits του ιστογράμματος. Η βασική μονάδα της μετατροπής αυτής αποτελείται από µια λειτουργία αθροίσματος (βαθυπερατό φίλτρο) και µια λειτουργία διαφοράς (υψιπερατό φίλτρο). Αθροίζοντας ζευγάρια γειτονικών σταθμών (bins) είναι ισοδύναμο µε τον υπολογισμό ενός ιστογράμματος µε τον μισό αριθμό κορυφών. Από τα αθροίσματα των κάθε δύο γειτονικών τιμών χροιάς (H) από ένα ιστόγραμμα 256 κορυφών προκύπτει αναπαράσταση ενός ιστογράμματος 128 κορυφών. Αν επαναληφθεί αυτή η διαδικασία τότε προκύπτουν ιστογράμματα µε 64, 32 48

59 και 16 κορυφές. Αυτή η μέθοδος επιτυγχάνει την πλήρη διαλειτουργηκότητα μεταξύ των διαφορετικών αναλύσεων της αναπαράστασης χρώματος, που κυμαίνεται από 16bits/ιστόγραµµα στο χαμηλό όριο ως περίπου 1000bits/ιστόγραµµα στο υψηλό όριο. Φυσικά, η ακρίβεια της περιγραφής χαρακτηριστικών γνωρισμάτων εξαρτάται ιδιαίτερα από τον αριθμό των χρησιμοποιούμενων bits. Εντούτοις, τα πειράματα έχουν δείξει ότι ικανοποιητικά αποτελέσματα ανάκτησης είναι ακόμα επιτεύξιμα χρησιμοποιώντας µόνο 64bits, ενώ τα άριστα αποτελέσματα μπορούν να επιτευχθούν χρησιμοποιώντας τη μέση ή πλήρη ανάλυση του περιγραφέα. Εικόνα 4.6: (α) Βασική μονάδα του µμετασχηματισμού Haar, (β) σχηματικό διάγραμμα δημιουργίας του SCD Οι συντελεστές διαφοράς (υψιπερατοί) της μετατροπής Haar εκφράζουν πληροφορίες που περιέχονται σε επίπεδα υψηλότερης ανάλυσης (µε μεγαλύτερο αριθμό σταθμών). Ιστογράμματα φυσικών εικόνων συνήθως αναδεικνύουν επανάληψη ανάμεσα στις γειτονικές στάθμες. Αυτό μπορεί να ερμηνευτεί από την µη καθαρότητα (μικρή διακύμανση) των χρωμάτων που προκαλείται από μεταβλητό φωτισμό και εφέ σκιάς. Έτσι είναι αναμενόμενο πως οι συντελεστές διαφοράς που εκφράζουν την διαφορά μεταξύ γειτονικών σταθμών συνήθως έχουν μικρές τιμές. Ο κλιμακωτός περιγραφέας χρώματος είναι ένα ιστόγραμμα που ορίζεται από 49

60 τη σχέση [21]: Όπου N το πλήθος των σταθμών του ιστογράμματος. Το πρότυπο MPEG 7 δεν ορίζει µε αυστηρότητα κάποια συνάρτηση υπολογισμού απόστασης για το συγκεκριμένο περιγραφέα. Ωστόσο, στην πράξη εφαρμόζεται µε επιτυχία η γνωστή L1 απόσταση Η εξαγωγή αποτελείται από τον υπολογισμό ενός ιστογράμματος στον HSV χρωματικό χώρο ομοιόμορφα κβαντισμένο σε 256 στάθμες. Έπειτα οι τιμές του ιστογράμματος κβαντίζονται µη γραμμικά. Τέλος ο μετασχηματισμός Haar εφαρμόζεται σε αυτές τις τιμές όπως φαίνεται στο σχήμα προηγουμένως [21]. Σε C++ header file τα παραπάνω εκφράζονται ως εξής: 50

61 4.2.4 Color Structure Descriptor CSD (Περιγραφέας Δομής Χρώματος) Ο περιγραφέας δομής χρώματος περιγράφει µία εικόνα ή µία περιοχή ενδιαφέροντος µε βάση την κατανομή του χρώματος σε αυτήν µε παρόμοιο τρόπο µε ένα ιστόγραμμα χρώματος αλλά και την τοπική χωρική δομή του χρώματος. Έτσι μπορεί να ξεχωρίσει μεταξύ εικόνων που περιλαμβάνουν τα ίδια χρώματα, αλλά µε διαφορετική δομή, κάτι στο οποίο ένα ιστόγραμμα χρώματος αποτυγχάνει. Η δομή ενός επιπέδου είναι ο βαθμός στον οποίο τα εικονοστοιχεία συγκεντρώνονται από κοινού και σχηματίζουν συμπαγή αντικείμενα. Καταγράφεται ο αριθμός των φορών που ένα συγκεκριμένο χρώμα περιλαμβάνεται μέσα στο δομικό στοιχείο όσο εκείνο σαρώνει την εικόνα. Για να εξασφαλίσει διαλειτουργηκότητα, το ιστόγραμμα δομών χρώματος υπολογίζεται στον HMMD χρωματικό χώρο. [21] Στο σχήμα φαίνονται δύο εικόνες που αποτελούνται από δύο επίπεδα χρώματος, ένα πράσινο κι ένα μπλε. 51

62 Εικόνα 4.7: Δύο ισο-χρωματικά επίπεδα µε διαφορετική δομή χρώματος. Το πράσινο επίπεδο στην αριστερή εικόνα είναι υψηλά δομημένο ενώ στην δεξιά όχι. Κάθε εικόνα περιέχει 50 εικονοστοιχεία στο πράσινο επίπεδο και 250 στο μπλε. Οι δύο εικόνες είναι µη διακριτές µε βάση τα ιστογράμματα χρώματος 2 σταθμών, καθώς αυτά είναι πανομοιότυπα. Οι περιγραφείς δομής χρώματος τους όμως είναι πολύ διαφορετικοί κι έτσι είναι διακριτές π.χ. σε µία εφαρμογή ανάκτησης ή δεικτοδότησης. Ο περιγραφέας δομής χρώματος είναι ένα ιστόγραμμα που ορίζεται από την σχέση: όπου N είναι το μέγεθος του ιστογράμματος. Το πρότυπο M P EG 7 δεν ορίζει ούτε στην περίπτωση αυτή µε αυστηρότητα κάποια συνάρτηση υπολογισμού απόστασης για τον συγκεκριμένο περιγραφέα. Ωστόσο, κι εδώ εφαρμόζεται µε επιτυχία η L1 απόσταση Ο περιγραφέας υπολογίζεται µε την σάρωση όλων (ή ενός υποσυνόλου) των θέσεων στην εικόνα, ανακτώντας τα χρώματα c m όλων των εικονοστοιχείων που περιλαμβάνονται στο δομικό στοιχείο, το οποίο τοποθετείται σε κάθε θέση και αυξάνοντας κάθε φορά τη στάθμη h(m) που αντιστοιχεί στο χρώμα c m. 52

63 Εικόνα 4.8: Δημιουργία του CS ιστογράμματος Για παράδειγμα, έστω ότι υπάρχουν 8 διαφορετικά χρώματα όπως στο σχήμα. Το δομικό στοιχείο είναι τετραγωνικό και έχει το μέγεθος 4 Χ 4 εικονοστοιχείων. Σε µια ορισμένη θέση της εικόνας το δομικό στοιχείο περιέχει μερικά εικονοστοιχεία µε το χρώμα c 1, μερικά µε το χρώμα c 2, όπως επίσης και μερικά µε τα χρώματα c 5 και c 6. Αποτέλεσμα αυτού, για την συγκεκριμένη θέση του δομικού στοιχείου, οι στάθμες h 1, h 2, h 5 και h 6 ϑα αυξάνονταν κατά ένα. Έτσι, σε αυτήν την θέση, ο περιγραφέας δομής χρώματος αυξάνεται κατά τέσσερα συνολικά, ένα για κάθε χρώμα που παρατηρείται στην περιοχή του δομικού στοιχείου. Ο περιγραφέας χρωματικής δομής παρέχει βελτιωμένη βασισμένη στην ομοιότητα απόδοση ανάκτησης εικόνας για τις φυσικές εικόνες σε σχέση με το συνηθισμένο ιστόγραμμα χρώματος. Ουσιαστικά λοιπόν είναι ένα έγχρωμο ιστόγραμμα με πληροφορία και για την δομή του χρώματος. Το αντίστοιχο κομμάτι του κώδικα σε C++ για την υλοποίηση του περιγραφέα έχει ως εξής: 53

64 4.2.5 Color Layout Descriptor CLD (Περιγραφέας Διάταξης Χρώματος) Ο περιγραφέας διάταξης χρώματος είναι µία πολύ συμπαγής και σταθερή ως προς την ανάλυση αναπαράσταση χρώματος και μπορεί να χρησιμοποιηθεί για γρήγορη ανάκτηση εικόνων. Είναι σχεδιασμένος έτσι ώστε να αναπαριστά αποτελεσματικά τη χωρική κατανομή του χρώματος. Αποτελεί ένα ιδιαίτερα χρήσιμο εργαλείο σε εφαρμογές ανάκτησης βασισμένη στη χωρική δομή, για παράδειγμα ανάκτηση βασισμένη σε σκίτσο (sketch-based retrieval) και αναγνώριση τμήματος βίντεο. Η ανάκτηση βασισμένη σε σκίτσο θεωρείται πολύ χρήσιμη, καθώς μπορεί να προσφέρει πολύ φιλικές διεπαφές προς τον χρήστη, ιδιαίτερα όταν η αναζήτηση είναι αρκετά γρήγορη. Εφαρμογές του περιγραφέα περιλαμβάνουν ταίριασμα από εικόνα σε εικόνα, από βίντεο σε βίντεο, από σκίτσο σε εικόνα και από σκίτσο σε βίντεο. [21] Ο περιγραφέας διάταξης χρώματος ορίζεται από την σχέση: όπου τα i, j, k δηλώνουν τον αριθμό των AC συντελεστών µε επιτρεπόμενες τιμές τις 3, 6, 10, 15, 21, 28 και 64. Για τη σύγκριση μεταξύ δύο περιγραφέων διάταξης χρώματος, προτείνεται η συνάρτηση: 54

65 όπου τα βάρη w yi, w rj και w bk επιλέγονται από τον χρήστη. Στο πρώτο στάδιο της εξαγωγής, η εικόνα εισόδου διαιρείται σε 64 μπλοκ για να είναι εγγυημένη η σταθερότητα ως προς την ανάλυση και την κλιμάκωση. Σε επόμενη φάση ένα αντιπροσωπευτικό χρώμα επιλέγεται για κάθε μπλοκ. Αυτό μπορεί να γίνει µε οποιαδήποτε μέθοδο, αλλά συνίσταται να χρησιμοποιείται η μέση τιμή των τιμών των εικονοστοιχείων σαν η αντιπροσωπευτική τιμή για κάθε μπλοκ, αφού είναι απλή αλλά και επαρκής μέθοδος. Το αποτέλεσμα είναι µία μικροσκοπική εικόνα μεγέθους 8x8. Στο τρίτο στάδιο η κάθε µία από τις τρεις χρωματικές συνιστώσες μετατρέπεται από έναν 8x8 διακριτό μετασχηματισμό συνημιτόνου (Discrete Cosine Transform - DCT) µε αποτέλεσμα τη δημιουργία 3 συνόλων αποτελούμενων από 64 συντελεστές το κάθε ένα. Ακολουθεί η σάρωση µε οδοντωτή τροχιά (zigzag scan) µε τους πρώτους συντελεστές να κβαντίζονται µη ομοιόμορφα. Από τη βιβλιογραφία προτείνεται η χρήση 12 συντελεστών συνολικά, 6 για τη φωτεινότητα και 3 για κάθε χρωματικό κανάλι χωριστά. Η παραπάνω διαδικασία παρουσιάζεται στο σχήμα: Εικόνα 4.9: Διαδικασία εξαγωγής του CLD Τα πλεονεκτήματα αυτού του περιγραφέα είναι: 55

66 - ότι δεν υπάρχει καμία εξάρτηση από την διαμόρφωση της εικόνας/video σε σχήμα και σε ανάλυση. Ο περιγραφέας μπορεί να εφαρμοστεί σε οποιεσδήποτε ακίνητες εικόνες ή πλαίσια video ακόμα κι αν οι αναλύσεις τους είναι διαφορετικές. Μπορεί να εφαρμοστεί επίσης είτε σε μια ολόκληρη εικόνα είτε σε οποιαδήποτε συνδεδεμένα ή αποσυνδεμένα μέρη μιας εικόνας με αυθαίρετες μορφές. - ότι οι απαραίτητοι πόροι υλικού/λογισμικού του περιγραφέα είναι πολύ μικροί. Η υπολογιστική πολυπλοκότητα τόσο της εξαγωγής όσο και του ταιριάσματος είναι πολύ χαμηλή. Είναι εφικτή η εφαρμογή αυτού του περιγραφέα στις κινητές υπολογιστικές εφαρμογές όπου οι διαθέσιμοι πόροι είναι αυστηρά περιορισμένοι λόγω του υλικού περιορισμού. - ότι υποστηρίζει την κλιμακωτή αντιπροσώπευση του χαρακτηριστικού γνωρίσματος ελέγχοντας τον αριθμό των συντελεστών του περιγραφέα. Ο χρήστης μπορεί να επιλέξει οποιαδήποτε διακριτότητα αντιπροσώπευσης ανάλογα με τους στόχους τους χωρίς προβλήματα διαλειτουργηκότητας στη μέτρηση της ομοιότητας μεταξύ περιγραφέων με διαφορετική διακριτότητα. Όμοια με προηγουμένως έχουμε το κομμάτι του κώδικα: 56

67 4.2.6 Group of Frames - GoF / Group of pictures Gop Desrciptors (Περιγραφείς ομάδας πλαισίων / ομάδας εικόνων) O περιγραφέας αυτός, λειτουργώντας συνοδευτικά του περιγραφέα κλιμακωτού χρώματος (SCD) χρησιμοποιείται για την συνεκτική αναπαράσταση των χρωματικών χαρακτηριστικών πολλαπλών διαδοχικών πλαισίων (frames) είτε ενός αποσπάσματος βίντεο, είτε συλλογών ανεξάρτητων πλαισίων βίντεο ή εικόνων. Εικόνα 4.10: Λειτουργία του GoF/Gop [16] 4.3 Texture Descriptors (Περιγραφείς Υφής) Homogeneous Texture Descriptor HTD (Περιγραφέας Ομοιογενούς Υφής) Ο ομοιογενής περιγραφέας υφής παρέχει μια ποσοτική αντιπροσώπευση χρησιμοποιώντας 62 αριθμούς (που ποσοτικοποιούνται σε 8 bits ο καθένας) που είναι χρήσιμη για την ανάκτηση ομοιότητας. Βασίζεται στον υπολογισμό των τοπικών χωρικών και συχνοτικών στατιστικών της υφής. Η εικόνα αρχικά φιλτράρεται µε µια σειρά ευαίσθητων φίλτρων προσανατολισμού και κλίμακας. Υπολογίζεται η μέση και σταθερή απόκλιση των φιλτραρισμένων αποτελεσμάτων στον χώρο της συχνότητας. Η υπολογιστική πολυπλοκότητα αυτού του περιγραφέα μπορεί να μειωθεί σημαντικά µε τον υπολογισμό των 57

68 τιμών στην περιοχή συχνότητας παρά στη χωρική περιοχή. [7] Ο περιγραφέας ομοιογενούς υφής ορίζεται από την σχέση: HTD = [fdc, fac, e1,e2,.e30, d1,d2,.d30] όπου f DC είναι η μέση και f SD η τυπική απόκλιση των τιμών της εικόνας, N το πλήθος των καναλιών στα οποία χωρίζει ο περιγραφέας τον χώρο των συχνοτήτων, ενώ µε e i και d i συμβολίζονται η μέση ενέργεια και η απόκλιση ενέργειας του καθενός από τα δημιουργημένα κανάλια αντίστοιχα. Η απόσταση μεταξύ δύο περιγραφέων ομοιογενούς υφής δίνεται από την σχέση: όπου d norm ένας παράγοντας κανονικοποίησης, ο οποίος μπορεί να επιλεχθεί ελεύθερα από τον χρήστη. Το πρότυπο MPEG 7 προτείνει την χρήση της τυπικής απόκλισης της βάσης που περιλαμβάνει τους περιγραφείς ομοιογενούς υφής. Ο περιγραφέας ομοιογενούς υφής χαρακτηρίζει την υφή της εικόνας/περιοχής χρησιμοποιώντας την μέση ενέργεια και την απόκλιση ενέργειας από ένα σύνολο καναλιών συχνότητας. Το επίπεδο της συχνότητας διαμερίζεται σε 30 κανάλια όπως φαίνεται στην εικόνα παρακάτω: Σχήμα 4.11: Διάταξη συχνότητας γιατην εξαγωγή του HTD [7] 58

69 Η μέση ενέργεια και η απόκλιση της υπολογίζονται σε κάθε ένα από αυτά τα 30 κανάλια συχνότητας (στο χώρο της συχνότητας). Πρέπει να σημειωθεί ότι η διαμέριση του επιπέδου συχνότητας είναι ομοιόμορφη κατά την γωνιακή κατεύθυνση (µε βήμα μεγέθους 30 ) αλλά µη ομοιόμορφη κατά την ακτινική κατεύθυνση. Πιο συγκεκριμένα η διαίρεση κατά την ακτινική κατεύθυνση είναι µε κλίμακα οκτάβας. Κι εδώ παρουσιάζεται ξανά το κομμάτι του κώδικα σε C++ για τον περιγραφέα αυτόν ως έχει: Texture Browsing Descriptor TBD (Περιγραφέας Αναζήτησης Υφής) Ο περιγραφέας αυτός περιγράφει την υφή της εικόνας/περιοχής με βάση τρία χαρακτηριστικά αυτής: Κανονικότητα (regularity), παίρνει τιμές 0,,3, με το 0 να αντιστοιχεί σε τυχαία υφή και το 3 σε περιοδική υφή. Κατευθυντικότητα (directionality), παίρνει τιμές 0,,6, με το 0 να αντιστοιχεί σε υφή χωρίς κυρίαρχη κατευθυντικότητα, 1,,6 αντιστοιχούν σε τιμές μοίρες. 59

70 Τραχύτητα (coarseness) παίρνει τιμές 0,,3, με το 0 να αντιστοιχεί σε λεπτόκοκκη υφή. Ο περιγραφέας αναζήτηση υφής TBD έχει την εξής δομή: TBD = [ν 1 ν 2 ν 3 ν 4 ν 5 ] όπου: ν i ={ }: Αναπαριστά την ομαλότητα δομής της υφής. ν 2, ν 3 : Είναι τιμές που αναπαριστούν την κατευθυντικότητα της υφής. ν 4, ν 5 : Είναι τιμές που αναπαριστούν την πυκνότητα της υφής προς κάθε μια από τις κατευθύνσεις που ορίζονται από τις ν 2 και ν 3. Επιτρέπει την συνύπαρξη μέχρι δυο τιμών κατευθυντικότητας και τραχύτητας (μια υφή μπορεί να έχει περισσότερες από μια κυρίαρχες κατευθύνσεις και αντίστοιχες τραχύτητες) δημιουργώντας μια πολύ συμπαγή περιγραφή, που δεν απαιτεί περισσότερα από 12 bits. Υπολογίζεται με εφαρμογή συστοιχίας ζωνοπερατών φίλτρων. Ο περιγραφέας είναι χρήσιμος για έξυπνη περιήγηση (browsing) σε συλλογές οπτικού περιεχομένου και ο υπολογισμός του γίνεται με παρόμοιο τρόπο με αυτόν του ομοιογενή περιγραφέα υφής. Αυτός ο περιγραφέας, συνδυασμένος με τοn ομοιογενή περιγραφέα υφής, παρέχει μια εξελικτική λύση στην αντιπροσώπευση των ομοιογενών περιοχών υφής στις εικόνες Edge Histogram Descriptor EHD (Περιγραφέας Ιστογράμματος Ακμών) Ο περιγραφέας ιστογράμματος ακμών καταγράφει τη χωρική κατανομή των ακμών (5 τύπων: 4 κατευθυντικές ακμές και 1 μη κατευθυντική). Η κατανομή των ακμών είναι µια καλή αναπαράσταση υφής, είναι χρήσιμη για το ταίριασμα από εικόνα σε εικόνα όταν η υποκείμενη περιοχή δεν είναι ομοιογενής ως προς τις ιδιότητες της υφής. Εφόσον ο περιγραφέας βασίζεται στις πληροφορίες ακμών στην εικόνα, είναι καλός για ταίριασμα φυσικής εικόνας. Δεδομένου ότι οι ακμές διαδραματίζουν έναν σημαντικό ρόλο για την αντίληψη εικόνας, μπορεί να χρησιμεύσει στην ανάκτηση εικόνων µε παρόμοιες σημασιολογικές έννοιες. Κατά συνέπεια, στοχεύει πρώτιστα στο ταίριασμα από εικόνα σε εικόνα (από παράδειγμα ή από σκίτσο), ειδικά για τις φυσικές εικόνες µε ανομοιόμορφη κατανομή ακμών. Σε αυτό το πλαίσιο, η 60

71 απόδοση ανάκτησης εικόνας μπορεί να βελτιωθεί σημαντικά, εάν ο περιγραφέας ιστογραμμάτων ακμών συνδυάζεται µε άλλους περιγραφείς. [21] Ο περιγραφέας ιστογράμματος ακμών ορίζεται από την σχέση: Ο συγκεκριμένος περιγραφέας έχει τη μορφή ιστογράμματος. Το πρότυπο MPEG 7 δεν προτείνει κάποια συγκεκριμένη συνάρτηση για τον υπολογισμό της απόστασης. Ωστόσο υπονοείται η χρήση της L1 συνάρτησης που χρησιμοποιείται ευρέως για ομοιότητα ιστογραμμάτων: Για την εξαγωγή του απαιτείται ο εντοπισμός µη κατευθυντικών ακμών, όπως επίσης και τεσσάρων ειδών κατευθυντικών ακμών (οριζόντιες, κάθετες, διαγώνιες µε προσανατολισμό 45, διαγώνιες µε προσανατολισμό 135 ). Η εικόνα διαιρείται σε 4x4 υπο-εικόνες και έπειτα η κάθε µία από αυτές διαιρείται επιπλέον σε µη επικαλυπτόμενα τετράγωνα μπλοκ, όπως φαίνεται στο σχήμα. Εικόνα 4.12: Διαδικασία εξαγωγής του EHD Το μέγεθος του μπλοκ εξαρτάται από την ανάλυση της εικόνας. Ανεξαρτήτως του μεγέθους της εικόνας, όλη η εικόνα διαιρείται σε έναν προκαθορισμένο συνολικό αριθμό από μπλοκ. Πειράματα έδειξαν πως ένας αριθμός μπλοκ γύρω στο 1100 φαίνεται να συλλαμβάνει καλά τα χαρακτηριστικά της κατεύθυνσης των ακμών. Στην συνέχεια κάθε ένα από τα μπλοκ ταξινομείται 61

72 σε µία από τις πέντε κατηγορίες ακμών ή σαν μπλοκ χωρίς ακμές, πράγμα το οποίο γίνεται θεωρώντας το κάθε μπλοκ σαν εικόνα 2x2 και εφαρμόζοντας ανιχνευτές ακμών. Αφού γίνει η ταξινόμηση τότε υπολογίζονται τα ιστογράμματα ακμών µε 5 στάθμες, µία για κάθε είδος ακμής, για τις 16 υποεικόνες (συνολικά 16x5 = 80 στάθμες). Στη συνέχεια κάθε τιμή κανονικοποιείται ως προς το συνολικό αριθμό των μπλοκ στην υπο-εικόνα κι εφόσον υπάρχουν και μπλοκ χωρίς ακμές το άθροισμα των πέντε τιμών για την κάθε υπο-εικόνα είναι μικρότερο ή ίσο του 1. Με τον τρόπο αυτό, ο περιγραφέας ιστογραμμάτων ακμών μπορεί να θεωρηθεί ότι συνυπολογίζει και την πληροφορία για την κατανομή περιοχών χωρίς ακμές. Ο περιγραφέας ιστογραμμάτων ακμών είναι αρκετά χρήσιμος στην ανάκτηση εικόνας, ιδιαίτερα σε εικόνες µε µη ομοιόμορφη υφή και για clip art εικόνες. Μπορεί επίσης να χρησιμοποιηθεί για ανάκτηση εικόνας µε βάση σκίτσο. Το header file της C++ που εφαρμόζει τα αναφερθέντα φαίνεται παρακάτω : 62

73 4.4 Shape Descriptors (Περιγραφείς Σχήματος) Region-based Shape Descriptor RSD (Περιγραφέας Σχήματος µε Βάση την Περιοχή) Ο περιγραφέας σχήματος µε βάση την περιοχή εκφράζει τη κατανομή εικονοστοιχείων μέσα σε µια δύο διαστάσεων περιοχή αντικειμένου, μπορεί να περιγράψει σύνθετα αντικείμενα που αποτελούνται από πολλαπλάσιες ασύνδετες περιοχές καθώς επίσης και απλά αντικείμενα µε ή χωρίς κενά, όπως φαίνεται στην Εικόνα [7] 63

74 Εικόνα 4.13: Παραδείγματα σχημάτων για τα οποία ο RSD είναι εφαρμόσιμος Συνυπολογίζει όλα τα εικονοστοιχεία που αποτελούν το σχήμα, δηλαδή και το περίγραμμα και τα εσωτερικά εικονοστοιχεία, χωρίς να επηρεάζεται από περιστροφή και κλιμάκωση. Μερικά σημαντικά χαρακτηριστικά γνωρίσματα του συγκεκριμένου περιγραφέα είναι τα ακόλουθα: Δίνει έναν συμπαγή και αποδοτικό τρόπο περιγραφής των ιδιοτήτων πολλαπλών αποσυνδεδεμένων περιοχών ταυτόχρονα. Μερικές φορές κατά τη διάρκεια της διαδικασίας της κατάτμησης, ένα αντικείμενο μπορεί να χωριστεί σε αποσυνδεμένες υποπεριοχές. Ένα τέτοιο αντικείμενο και στην περίπτωση αυτή είναι δυνατό να ανακτηθεί, υπό τον όρο ότι οι πληροφορίες στις οποίες οι περιοχές αυτές χωρίστηκαν διατηρούνται και χρησιμοποιούνται κατά τη διάρκεια της εξαγωγής του περιγραφέα. Ο περιγραφέας είναι εύρωστος στο θόρυβο κατάτμησης, π.χ. στον κρουστικό θόρυβο (salt and pepper noise). Ο περιγραφέας σχήματος µε βάση το σχήμα ορίζεται από την σχέση: όπου M i είναι οι κανονικοποιημένοι και κβαντισμένοι ART συντελεστές του περιγραφέα. Για τον υπολογισμό της απόστασης μεταξύ δύο περιγραφέων σχήματος µε βάση το σχήμα, εφαρμόζεται η L1 νόρμα: Ο περιγραφέας δουλεύει αποσυνθέτοντας το σχήμα σε έναν αριθμό 64

75 ορθογώνιων, δυο διαστάσεων, συναρτήσεων βάσης (μιγαδικές) ορισμένες από την Γωνιακή Ακτινική Μετατροπή (Angular Radial Transform - ART). Η τεχνική αυτή βασίζεται σε µια ορθογώνια μοναδιαία µμετατροπή πάνω σε ένα μοναδιαίο δίσκο αποτελούμενο από τις πλήρεις ορθοκανονικές συναρτήσεις βάσης σε πολικές συντεταγμένες. Οι συντελεστές ART καθορίζονται από τη σχέση: όπου F nm είναι ένας συντελεστής ART τάξεως n και m, f (ρ, θ) είναι η εικόνα σε πολικές συντεταγμένες και V nm (ρ, θ) είναι η συνάρτηση βάσης, η οποία είναι διαχωρίσιμη κατά μήκος των γωνιακών και ακτινικών κατευθύνσεων. Ο περιγραφέας αυτός αποτελείται από ένα σύνολο κοινωνικοποιημένων μέτρων των μιγαδικών συντελεστών ART. Η σταθερότητα ως προς την περιστροφή αποκτάται µε την χρήση του μέτρου των συντελεστών. Χρησιμοποιούνται 12 γωνιακές και 3 ακτινικές συναρτήσεις. Για κανονικοποίηση οι συντελεστές διαιρούνται µε το μέτρο του συντελεστή ART τάξεως n = 0 και m = 0. Τέλος οι συντελεστές κβαντίζονται σε 4bits ο καθένας. Η εξαγωγή χαρακτηριστικών γνωρισμάτων και οι διαδικασίες ταιριάσματος είναι απλές, έχουν χαμηλής τάξης υπολογιστική πολυπλοκότητα και είναι κατάλληλες για τον εντοπισμό μορφών κατά την επεξεργασία τηλεοπτικών δεδομένων Contour-based Shape Descriptor CSD (Περιγραφέας Σχήματος µε Βάση το Περίγραμμα) Ο περιγραφέας σχήματος µε βάση το περίγραμμα εκφράζει τις ιδιότητες σχήματος του περιγράμματος του αντικειμένου. Τα αντικείμενα για τα οποία τα χαρακτηριστικά γνωρίσματα σχήματος περιλαμβάνονται στο περίγραμμα περιγράφονται αποτελεσματικά από αυτόν τον περιγραφέα. Εάν ένα σύνθετο αντικείμενο αποτελείται από πολλαπλές χωριστές περιοχές, κάθε περιοχή των συστατικών περιγραμμάτων μπορεί να περιγραφεί χωριστά, χρησιμοποιώντας τον περιγραφέα σχήματος µε βάση το περίγραμμα και ένα 65

76 MPEG 7 σχήμα περιγραφής. Έχει διάφορες ενδιαφέρουσες ιδιότητες όπως: ευθυγράμμιση µε την ανθρώπινη αντίληψη για την ομοιότητα μορφής ευρωστία στις σημαντικές εύκαμπτες παραμορφώσεις και υποστήριξη για το ταίριασμα κάτω από τους μετασχηματισμούς προοπτικής, οι οποίοι προκύπτουν από τις αλλαγές των παραμέτρων των φωτογραφικών μηχανών και είναι κοινοί στις εικόνες και στο βίντεο. Μερικά παραδείγματα σχημάτων για τα οποία ο περιγραφέας σχήματος µε βάση το περίγραμμα είναι εφαρμόσιμος παρουσιάζονται στην Εικόνα 4.14 [7]: Εικόνα 4.14: Παραδείγματα σχημάτων για τα οποία ο CSD είναι εφαρμόσιμος Βασίζεται στην CSS (Curvature Scale Space) αναπαράσταση του περιγράμματος ενός σχήματος. Η αναπαράσταση αυτή αποσυνθέτει το περίγραμμα σε κοίλα και κυρτά μέρη ορίζοντας τα σημεία καμπής (μηδενικής καμπυλότητας). Γίνεται επαναληπτικά µια εξομάλυνση του περιγράμματος μέχρι να προκύψει σαν αποτέλεσμα ένα κυρτό περίγραμμα. Η CSS εικόνα δείχνει πως τα σημεία καμπής αλλάζουν, όσο το περίγραμμα εξομαλύνεται και τείνει να γίνει κυρτό. Ο x CSS άξονας αντιστοιχεί στην θέση πάνω στο περίγραμμα (ωρολογιακά αρχίζοντας από ένα τυχαίο σημείο) και ο y CSS άξονας αντιστοιχεί στις τιμές μιας παραμέτρου εξομάλυνσης (όταν οι τιμές y αυξάνουν τότε και η εξομάλυνση αυξάνει). Ο περιγραφέας αποτελείται από την κυκλικότητα και την εκκεντρότητα του αρχικού αλλά και του εξομαλυμένου περιγράμματος, έναν δείκτη που δηλώνει τον αριθμό των κορυφών στην CSS εικόνα, το ύψος της υψηλότερης κορυφής και τα x και y κορυφών που μένουν. Η μαθηματική αναπαράσταση του συγκεκριμένου περιγραφέα δίνεται από τη σχέση: όπου το NoP δηλώνει τον αριθμό των κορυφών της CSS αναπαράστασης, το 66

77 C περιλαμβάνει την κυκλικότητα (circularity) και την εκκεντρότητα (eccentricity) του περιγράμματος, το PrC περιλαμβάνει την κυκλικότητα και την εκκεντρότητα του εξομαλυμένου περιγράμματος, το HPY συμβολίζει την απόλυτη τιμή του ύψους της υψηλότερης κορυφής, ενώ τα px [ ] και py [ ] είναι πίνακες που περιλαμβάνουν τις x τιμές των θέσεων στο περίγραμμα ενός σχήματος και τα ύψη των αντίστοιχων κορυφών. Για την απόσταση μεταξύ δύο περιγραφέων σχήματος µε βάση το περίγραμμα, το MPEG 7 χρησιμοποιεί τη συνάρτηση: όπου µε C 1 [0] και C 2 [0] συμβολίζονται οι εκκεντρότητες των δύο περιγραφέων, ενώ µε C 1 [1] και C 2 [1] οι αντίστοιχες κυκλικότητες. Η ποσότητα M CSS είναι µια L2 απόσταση ανάμεσα στις κορυφές, η οποία απομακρύνει περισσότερο τις κορυφές που δεν ταιριάζουν, δίνεται δε από τη σχέση: στην οποία η άθροιση 1 πραγματοποιείται για όλες τις κορυφές που ταιριάζουν, ενώ η 2 άθροιση για όλες τις υπόλοιπες κορυφές που δεν ταιριάζουν μεταξύ τους. Κριτήριο για το αν δύο κορυφές ταιριάζουν ή όχι, είναι η μεταξύ τους L2 απόσταση να µην υπερβαίνει την τιμή 0.1. [21] Με τη χρήση της εικόνας σε κλίμακα του γκρι το αντίστοιχο κομμάτι του κώδικα είναι το: 67

78 D Shape Spectrum Descriptor 3D SSD (Περιγραφέας Τρισδιάστατων Μοντέλων) Tα κριτήρια για να θεωρηθεί επιτυχημένος ένας 3D SSD έχουν ως εξής [19]: Ο 3D SSD πρέπει να περιγράφει ένα τρισδιάστατο μοντέλο βασισμένος στις επιφάνειές του και όχι στον όγκο του. Με αυτόν τον τρόπο 68

79 καλύπτονται περιπτώσεις αντικειμένων με ανοιχτές επιφάνειες, των οποίων ο όγκος είναι μηδενικός. Για παράδειγμα, ένα πανί το οποίο σχηματίζεται από ένα παραμορφωμένο δισδιάστατο πλέγμα πολυγώνων δεν έχει μετρήσιμο όγκο. Όταν μεγεθύνεται, περιστρέφεται ή μετακινείται ένα αντικείμενο, τότε η περιγραφή του, παρά τις διάφορες μεγεθύνσεις και Ευκλείδειους μετασχηματισμούς, θα πρέπει να παραμένει αμετάβλητη. Ένας 3D SSD πρέπει να δίνει την ίδια περιγραφή για αρθρωτά αντικείμενα σε οποιαδήποτε στάση και να βρίσκονται. Ο 3D SSD που προτείνεται από την ομάδα ιδικών κινούμενων εικόνων (Moving Pictures Expert Group) εκπληρώνει όλα τα παραπάνω κριτήρια. Ονομάζεται περιγραφέας φάσματος τρισδιάστατων σχημάτων (3D Shape Spectrum Descriptor - 3D SSD) και η αρχή λειτουργίας του βασίζεται στην έκφραση των τοπικών γεωμετρικών χαρακτηριστικών του τρισδιάστατου σχήματος. Πιο συγκεκριμένα, εκφράζει το ιστόγραμμα των τιμών των δεικτών σχήματος (Shape Index) του αντικειμένου. Ο Δείκτης Σχήματος Ιρ στο σημείο ρ της επιφάνειας ορίζεται ως η συνάρτηση: με k 1 p, k 2 p τις κύριες καμπυλότητες στο σημείο ρ. Κατά συνέπεια, ο 3D SSD καθορίζεται ως η κατανομή του SI πάνω σε ολόκληρο το αντικείμενο. Αυτό υλοποιείται διαβαθμίζοντας ομοιόμορφα το φάσμα των τιμών που παίρνει ένας SI (από 0 μέχρι 1) και προσθέτοντας σε κάθε βαθμίδα το σχετικό εμβαδών του κάθε πολυγώνου του μοντέλου με παραπλήσια SI τιμή. Για παράδειγμα, αν έχουμε ένα τρίγωνο του οποίου το εμβαδών αντιστοιχεί στο 2% του συνολικού εμβαδού του μοντέλου και η SI τιμή του είναι ίση με 0.22, τότε στη βαθμίδα οπού ανήκει η τιμή 0.22 προσθέτουμε 2%. Σε περίπτωση που το τρίγωνο βρίσκεται σε επίπεδη περιοχή, όπου όπως προαναφέραμε το SI δεν ορίζεται, τότε το ποσοστό του εμβαδού του προστίθεται σε μια ειδική θέση μόνο για τις επίπεδες επιφάνειες. Παρομοίως, στην περίπτωση όπου το πολύγωνο βρίσκετε στα όρια του 69

80 μοντέλου, δηλαδή έχει τουλάχιστον μια πλευρά την οποία δεν μοιράζεται με κανένα άλλο πολύγωνο του αντικειμένου, η εκτίμηση της κύριας καμπυλότητας για το πολύγωνο αυτό είναι ανακριβής και γι αυτό το λόγω το εμβαδόν του προστίθεται σε μια θέση που είναι μόνο για τέτοιου είδους πολύγωνα. Αυτή γίνεται για όλα τα πολύγωνα του μοντέλου και συνεπώς έως ότου καλυφθεί το 100% του εμβαδού του. Ωστόσο, πριν εφαρμοστούν τα παραπάνω απαιτείται ειδική προετοιμασία του μοντέλου. Καταρχήν, για να μην επηρεάζεται ο 3D SSD από τις διάφορες τοπολογικές αναπαραστάσεις του μοντέλου και τυχόν λάθη τοπολογίας, θα πρέπει να εφαρμοστεί στο αρχικό μοντέλο ένα φίλτρο κανονικοποίησης. Επίσης, ανωμαλίες στο SI φάσμα του αντικειμένου, προκαλούνται από πολύγωνα με δυσανάλογα μεγέθη, ή πολύγωνα τα οποία ανήκουν στην ίδια επιφάνεια αλλά κοιτούν στην αντίθετη κατεύθυνση σε σχέση με την πλειοψηφία, με αποτέλεσμα να εμφανίζονται σαν τρύπες. Έτσι, για την αποφυγή τυχών ανωμαλιών στο φάσμα του αντικειμένου, θα πρέπει πριν την εφαρμογή του 3D SSD, το μοντέλο να εξομαλύνεται με την τεχνική της εισαγωγής σημείου στο μέσο της κάθε πλευράς των πολυγώνων του και με την εφαρμογή ενός φίλτρου εξομάλυνσης (low-pass filter) στις συντεταγμένες του κάθε σημείου. Αυτό συντελεί στο να δημιουργηθούν ομαλές επιφάνειες με μεγάλο αριθμό μικρών τριγώνων όπου ο 3D SSD αποδίδει καλύτερα. Εικόνα 4.15: Παράδειγμα 3D επιφανειών και των αντίστοιχων SSD [10] 4.5 Motion Descriptors (Περιγραφείς Κίνησης) Το πρότυπο MPEG-7 έχει αναπτύξει χαρακτηριστικά που καταγράφουν βασική πληροφορία κίνησης με αποτελεσματικό και σαφή τρόπο. Πολλά από αυτά τα χαρακτηριστικά συνδυάζονται με άλλα που έχουν εξαχθεί από ακίνητες εικόνες, όπως για παράδειγμα χαρακτηριστικά χρώματος ή υφής. Γενικά κατατάσσονται σε δυο κατηγορίες, αυτή πού αναφέρεται σε τμήμα 70

81 βίντεο (video segment) και σε αυτή που αναφέρεται σε κινούμενη περιοχή (moving area). Στη πρώτη κατηγορία ανήκουν : Motion Activity Camera Motion Warping Parameters Στη δεύτερη κατηγορία ανήκουν : Motion Trajectory Parametric Motion Εικόνα 4.16: Περιγραφείς κίνησης και μεταξύ τους συσχέτιση Motion Activity Descriptor MAD (Περιγραφέας Δραστηριότητας Κίνησης) Ο περιγραφέας αυτός περιγράφει το «ρυθμό της δράσης» σε ένα τμήμα video και είναι χρήσιμος για επιτήρηση, γρήγορη περιήγηση (browsing) και αναζήτηση με βάση το περιεχόμενο. Στηρίζεται σε απλές στατιστικές των διανυσμάτων κίνησης και αποτελείται από: Ένταση δραστηριότητας (Ιntensity of activity), η οποία λαμβάνει ακέραιες τιμές από 1 έως 5 και υπάρχει. αναπαριστά την κινητικότητα που Διεύθυνση δραστηριότητας (Direction of activity), η οποία λαμβάνει ακέραιες τιμές από 1-8 οι οποίες αντιστοιχούν στην κυρίαρχη διεύθυνση της κίνησης. Χωρική κατανομή δραστηριότητας (Spatial distribution of activity) η οποία αναπαριστά την κατανομή της δραστηριότητας σε μικρές ή μεγάλες περιοχές του βίντεο. 71

82 Χρονική κατανομή δραστηριότητας (Temporal distribution of activity), η οποία αναπαριστά την διακύμανση της έντασης δραστηριότητας ενός αποσπάσματος βίντεο. Χωρικός εντοπισμός δραστηριότητας (Spatial localization of activity), ο οποίος διευκρινίζει τον αριθμό και το μέγεθος της χωρικής διανομής των εντάσεων δραστηριότητας, πέρα από τη διάρκεια του βίντεο, τη μέση δραστηριότητα και τη σταθερή απόκλιση μιας κινούμενης περιοχής, σε ένα τηλεοπτικό τμήμα. [17] Για παράδειγμα ένα πρόσωπο που μιλά, αντιστοιχεί σε μια μεγάλη περιοχή μικρής κινητικής δραστηριότητας ενώ ένας πολυσύχναστος δρόμος αποτελείται από πολλές μικρές περιοχές έντονης δραστηριότητας. Η ένταση της δραστηριότητας υπολογίζεται από την τυπική απόκλιση σ του μέτρου των διανυσμάτων κίνησης: Οι περιγραφείς κίνησης είναι απλοί στον υπολογισμό, μικροί στο μήκος και εύκολα ερμηνεύσιμοι. Ειδικά η ένταση δραστηριότητας και η διεύθυνση δραστηριότητας αποτελούν στην ουσία το ισοδύναμο των χρωματικών ροπών για την πληροφορία κίνησης, όντας απλές τοπικές στατιστικές. Όμως είναι δεσμευμένοι από τις ακριβείς χωρικές και χρονικές θέσεις όπου εμφανίζεται κάθε φαινόμενο. Κατά συνέπεια η αποτελεσματικότητα τους μειώνεται σε περιπτώσεις που τα φαινόμενα που επιθυμούμε να περιγράψουμε δεν εμφανίζονται πάντα στις ίδιες θέσεις. Ο εν λόγω περιγραφέας είναι αρκετά χρήσιμος για εφαρμογές παρακολούθησης ή δυναμικής περίληψης βίντεο, γρήγορης αναζήτησης, εφαρμογών ερωτήσεων σχετικών με το περιεχόμενο του βίντεο κ.α. Για παράδειγμα μείωση ρυθμού αναπαραγωγής πλαισίων 72

83 περιοχής βίντεο υψηλής δραστηριότητας, ώστε να γίνει αντιληπτή η δραστηριότητα αυτή, εύρεση σκηνών υψηλής δραστηριότητας ενός βίντεο αποσπάσματος, με σκοπό την αναζήτηση και σύνοψη κλπ Camera Motion Descriptor CMD (Περιγραφέας Κίνησης Κάμερας) Στις περισσότερες περιπτώσεις η κίνηση που απομονώνεται πρώτη είναι αυτή της κάμερας. Οποιαδήποτε κίνηση της κάμερας προκαλεί διανύσματα κίνησης σε όλα τα pixel μιας εικόνας. Τα διανύσματα αυτά προκύπτουν από την κίνηση της κάμερας συναρτήσει της θέσης των αντίστοιχων pixel. Έχοντας στη διάθεση μας έναν αριθμό αξιόπιστων τέτοιων διανυσμάτων είναι δυνατόν να εκτιμηθεί η ακριβής κίνηση της κάμερας που τα προκάλεσε. Οι κινήσεις της κάμερας που υποστηρίζονται από το MPEG-7 είναι οι [19]: Σταθερή κάμερα (Fixed) Οριζόντια περιστροφή (Panning) Οριζόντια εγκάρσια κίνηση (Tracking) Κατακόρυφη περιστροφή (Tilting) Κατακόρυφη εγκάρσια κίνηση (Booming) Αλλαγή του εστιακού μήκους (Zooming) Μετακίνηση κατά μήκος του οπτικού άξονα (Dollying) Περιστροφή γύρω από τον οπτικό άξονα (Rolling) 73

84 Εικόνα 4.17: Οι δυνατές κινήσεις μιας κάμερας Καταγράφονται οι υποσκηνές για τις οποίες όλα τα frames περιγράφονται από την ίδια κίνηση (απλή ή σύνθετη) και περιγράφει την κίνηση της σκηνής ως την ένωση των κινήσεων των υποσκηνών. Ο περιγραφέας έχει ένα ιστόγραμμα 15 κελιών, όπου προβλέπονται όλες οι κινήσεις κάμερας (μετατοπίσεις, περιστροφές, zoom) καθώς και η ακινησία, και η τιμή του κάθε κελιού υποδηλώνει τον αριθμό των χρονικών στιγμών για τις οποίες παρατηρήθηκε η συγκεκριμένη κίνηση ως ποσοστό της συνολικής διάρκειας της εικονοσειράς. Ο αριθμός των κελιών είναι 15 καθώς, για κάθε μια από τις 7 δυνατές κινήσεις κάμερας αντιστοιχούν 2 κελιά, για τις 2 δυνατές φορές της κάθε κίνησης. Έτσι, στο κελί π.χ. της οριζόντιας μετατόπισης, υπάρχουν δύο κελιά, ένα για την κίνηση δεξιά και ένα για την κίνηση αριστερά, ενώ για το zoom τα δύο κελιά αντιστοιχούν στο in και το out. To 15 ο κελί, που αντιστοιχεί στην ακινησία, είναι προφανώς μεμονωμένο. Μια εναλλακτική εκδοχή του περιγραφέα προβλέπει επίσης όλες τις δυνατές κινήσεις της κάμερας, αλλά αποτελείται από επιμέρους τμήματα, κάθε ένα από τα οποία περιλαμβάνει μια μόνο κίνηση, και το χρονικό διάστημα κατά το οποίο αυτή εμφανίζεται. Ο περιγραφέας αυτός υπερέχει της απλής διαδοχικής περιγραφής καθώς επιτρέπει αλληλοεπικάλυψη μεταξύ των χρονικών διαστημάτων κάθε κίνησης. 74

85 4.5.3 Motion Trajectory Descriptor MTD (Περιγραφέας Τροχιάς Κίνησης) Ο περιγραφέας τροχιάς κίνησης αναπαριστά την τροχιά ενός αντικειμένου καθορίζοντας την θέση στο χώρο και στο χρόνο ενός χαρακτηριστικού σημείου του αντικειμένου [18]. Ο συγκεκριμένος περιγραφέας είναι χρήσιμος σε περιπτώσεις όπου είναι επιθυμητή η αναζήτηση/ανάκτηση πληροφοριών βασισμένων στο περιεχόμενο από κινησιολογικά προσανατολισμένες οπτικές βάσεις δεδομένων. Αποτελείται κυρίως από μία λίστα σημείων-κλειδιών (keypoints) στις τέσσερις διαστάσεις (χώρος x, y, z χρόνος t). Επιπλέον, ένα σύνολο προαιρετικών συναρτήσεων που παρεμβάλλονται για περιγραφή της τροχιάς του αντικειμένου ανάμεσα στα σημεία-κλειδιά, όσον αφορά την επιτάχυνση. Η ταχύτητα είναι εν δυνάμει γνωστή από τα σημεία-κλειδιά, καθώς αυτά προδιαγράφονται από τη χρονική στιγμή που πέρασε το αντικείμενο και τις δισδιάστατες ή τρισδιάστατες καρτεσιανές συντεταγμένες τους. Οι προαιρετικές συναρτήσεις ορίζονται ανεξάρτητα για κάθε συνιστώσα x(t), y(t), και z(t). Η θέση του αντικειμένου σε συγκεκριμένη χρονική στιγμή t δίνεται ως ένα σημείο (x, y) στο χρησιμοποιούμενο σύστημα συντεταγμένων, ενώ η θέση του σε ενδιάμεσες χρονικές στιγμές υπολογίζεται με γραμμική παρεμβολή: Επίσης παράμετροι παρεμβολής (interpolation parameters) μπορούν να περιληφθούν, για υπολογισμό της θέσης σε ενδιάμεσες χρονικές στιγμές με μη γραμμική παρεμβολή: Βασικά χαρακτηριστικά της συγκεκριμένης αναπαράστασης αυτής είναι: Είναι ανεξάρτητη από τη χώρο-χρονική ανάλυση του περιεχομένου, δηλαδή αν το περιεχόμενο υπάρχει σε διαφορετικό format ταυτόχρονα, χρειάζεται μόνο ένα σετ περιγραφέων για την περιγραφή της τροχιάς ενός αντικειμένου σε κάθε χρονική στιγμή του περιεχομένου. Είναι συμπαγής και κλιμακωτή. Αντί να αποθηκεύονται οι 75

86 συντεταγμένες ενός αντικειμένου σε κάθε πλαίσιο μπορούμε να ορίσουμε χρονικά διαστήματα ανάμεσα στη δημιουργία και αποθήκευση σημείων-κλειδιών. Παράλληλα, οι συναρτήσεις που παρεμβάλλονται μπορούν να απορριφθούν καθώς τα δεδομένα των σημείων-κλειδιών είναι ήδη μια περιγραφή τροχιάς. Επιτρέπει ευθέως μεγάλη ποικιλία χρήσεων, όπως ανίχνευση ομοιοτήτων, κατηγοριοποίηση σύμφωνα με την ταχύτητα (π.χ. αργά ή γρήγορα αντικείμενα), την συμπεριφορά (π.χ. επιτάχυνση μόλις προσεγγίζεται συγκεκριμένη περιοχή) ή και άλλα υψηλού επιπέδου χαρακτηριστικά κίνησης [10]. Ο περιγραφέας αυτός είναι ιδιαίτερα χρήσιμος για την αναζήτηση video με βάση την κίνηση των αντικειμένων Parametric Motion Descriptor PMD (Περιγραφέας Παραμετρικής Κίνησης) Τα μοντέλα παραμετρικής κίνησης έχουν χρησιμοποιηθεί ευρέως στο πλαίσιο διάφορων εφαρμογών σχετικών με την επεξεργασία και ανάλυση εικόνας, ενώ έχουν ήδη χρησιμοποιηθεί στο πρότυπο MPEG-4, για καθολική εκτίμηση και αντιστάθμιση κίνησης. Η κίνηση αποτελεί ένα, κρίσιμης σημασίας, χαρακτηριστικό για εφαρμογές που έχουν ήδη συμπεριληφθεί στο πλαίσιο εργασίας του προτύπου MPEG-7, όπως δεικτοδότηση της γλώσσας νευμάτων κ.α. [19,20]. Ο περιγραφέας παραμετρικής κίνησης αναπαριστά την κίνηση ενός αντικειμένου χρησιμοποιώντας τα μοντέλα παραμετρικής κίνησης. Εικόνα 4.16: Μοντέλα παραμετρικής κίνησης [7] 76

87 Στηρίζεται στην περιγραφή της κίνησης αντικειμένων σε αλληλουχίες βίντεο (video sequences) ως ένα δισδιάστατο παραμετρικό μοντέλο. Πιο συγκεκριμένα, συγγενικά μοντέλα περιλαμβάνουν μετάφραση, περιστροφή, κλιμάκωση και συνδυασμό των παραπάνω. Το παραμετρικό μοντέλο σχετίζεται με αυθαίρετα αντικείμενα (προσκηνίου και παρασκηνίου), ορίζεται σε περιοχές εικόνας (σύνολα pixels) με συγκεκριμένη χρονική καθυστέρηση. Με τον τρόπο αυτό, η κίνηση των αντικειμένων λαμβάνεται ως ένα σύνολο ορισμένων παραμέτρων [10]. Σε αντίθεση με τον Motion Trajectory Descriptor, μπορεί να περιγράψει σύνθετες κινήσεις, όπως μετατόπιση (translation), περιστροφή (rotation), κλιμάκωση (scaling) ή συνδυασμούς αυτών. Έχει μια πολύ συμπαγής περιγραφή, αλλά ο υπολογισμός του δεν είναι τόσο απλός όπως στην περίπτωση του Motion Trajectory Descriptor. Επίσης δε είναι τόσο υψηλού επιπέδου, δηλαδή δεν μπορεί να ερμηνευτεί εύκολα από ανθρώπινο παρατηρητή, σε αντίθεση με την τροχιά η οποία είναι άμεσα αντιληπτή. 4.6 Localization Descriptors (Περιγραφείς Θέσης Περιοχής) Υπάρχουν οι εξής περιγραφείς εντοπισμού: Περιγραφέας Εντοπισμού Περιοχής. Περιγραφέας Χωροχρονικού Εντοπισμού Region Locator Descriptor RLD (Περιγραφέας Εντοπισμού Περιοχής) Πρόκειται για μια περιγραφή κατά την οποία γίνεται εντοπισμός συγκεκριμένων περιοχών μέσα σε μία εικόνα, προσδιορίζοντας τα όρια με μία συνοπτική και κλιμακωτή αναπαράσταση με τετράγωνα (Box) και πολύγωνα (Polygons) Space Temporal Locator Descriptor STLD (Περιγραφέας Χωροχρονικού Εντοπισμού Περιοχής) Πρόκειται για την χωροχρονική περιγραφή παρακείμενων ή μη περιοχών ενός 77

88 αποσπάσματος βίντεο, όπως π.χ. οι περιοχές που καταλαμβάνει ένα κινούμενο αντικείμενο. Η κύρια εφαρμογή βρίσκεται σε υπερμέσα (hypermedia), τα οποία προβάλουν τη σχετική πληροφορία όταν ένα ορισμένο σημείο βρίσκεται στο εσωτερικό της περιοχής ενός αντικειμένου. Άλλη σημαντική εφαρμογή είναι η ελεγχόμενη ανάκτηση αντικειμένων, δηλαδή αν το αντικείμενο έχει περάσει από συγκεκριμένα σημεία που εκ των προτέρων έχουν οριστεί (π.χ. συστήματα παρακολούθησης). Χρησιμοποιούνται δύο σχήματα περιγραφής, η τροχιά ψηφίου (Figure Trajectory) και η τροχιά παραμέτρου (Parameter Trajectory) τα οποία επιλέγονται ανάλογα με τις συνθήκες κίνησης του αντικειμένου. Εάν η περιοχή κίνησης του αντικειμένου είναι άκαμπτη και το μοντέλο κίνησης είναι γνωστό, καταλληλότερο σχήμα περιγραφής αποτελεί η τροχιά παραμέτρου (Parameter Trajectory), ενώ αν η περιοχή κίνησης του αντικειμένου είναι εύκαμπτη, καταλληλότερο σχήμα περιγραφής αποτελεί η τροχιά ψηφίου (Figure Trajectory). [18] Εικόνα 4.18: Παράδειγμα χωροχρονικής παρακολούθησης ενός αντικειμένου [16] 4.7 Face Recognition Descriptor FRD (Περιγραφέας Αναγνώρισης Προσώπων) Oι συγκεκριμένοι περιγραφείς μπορούν να χρησιμοποιηθούν σε εφαρμογές αναζήτησης εικόνων προσώπου μέσω ταυτοποίησης δεδομένης εικόνας, με βάση την ανάλυση κύριων τμημάτων (PCA). Πρόκειται για προβολή ενός διανύσματος του προσώπου σε ένα σύστημα βασικών αξόνων που συνδέουν τα διαστήματα πιθανών διανυσμάτων του προσώπου. Το χαρακτηριστικό FaceRecognition εξάγεται από μία κανονικοποιημένη 78

89 εικόνα προσώπου. Η εικόνα αυτή περιέχει 56 γραμμές με 46 τιμές έντασης σε κάθε μία από αυτές. Τα κέντρα των δύο ματιών σε κάθε εικόνα προσώπου τοποθετούνται στην 24η σειρά και στις στήλες 16 και 31 για το δεξί και αριστερό μάτι αντίστοιχα. Αυτή η κανονικοποιημένη εικόνα στη συνέχεια χρησιμοποιείται για εξαγωγή ενός μονοδιάστατου διανύσματος προσώπου. Αυτό αποτελείται από τις τιμές φωτεινότητας των pixels από την κανονικοποιημένη εικόνα τακτοποιημένες σε μονοδιάστατο διάνυσμα με χρήση γραμμής σάρωσης που ξεκινά από την πάνω αριστερή γωνία της εικόνας και καταλήγει στην κάτω δεξιά γωνία της εικόνας. Τέλος, το χαρακτηριστικό Face Recognition εξάγεται από την προβολή του προαναφερθέντος διανύσματος στο χώρο που ορίζεται από το σύστημα βασικών αξόνων που έχουμε ορίσει. [19,20] Όλα τα κομμάτια του κώδικα που παρουσιάστηκαν μέχρι στιγμμής είναι και αυτά στα οποία θα βασιστεί η εφαρμογή που αναλύεται στο Κεφάλαιο 5. Στο Παράρτημα Β παρουσιάζονται περαιτέρω οι κώδικες των header files για τους Color Space, Face Recognition και Region Shape descriptors. Τα αντίστοιχα.cpp files που περιέχουν αναλυτικά σε αλγοριθμική μορφή τη φιλοσοφία του κάθε περιγραφέα είναι διαθέσιμα στο CD που περιέχει και την εφαρμογή. 4.8 Ανάλυση Βίντεο Η ιεραρχική αποδόμηση της οπτικοακουστικής πληροφορίας μπορεί να κάνει την αναζήτηση πιο εύκολη. Για παράδειγμα ένα video segment μπορεί να αποδομηθεί σε κινούμενες περιοχές και αυτές να διαιρεθούν σε ακίνητες περιοχές. Ο παρακάτω πίνακας παρουσιάζει τα χαρακτηριστικά που μπορούν να εξαχθούν από ένα τμήμα video (Video Segment), ένα τμήμα ακίνητης περιοχής (Still Region), ένα τμήμα κινούμενης περιοχής (Moving Region) και τμήμα ήχου (Audio Segment). Feature Video Still Moving Audio Segment Region Region Segment 79

90 Time X. X X Shape. X X. Color X X X. Texture. X.. Motion X. X. Camera motion X... Audio features.. X X Tεχνικές, που σκοπό έχουν την δεικτοδότηση και την ανάλυση του περιεχομένου των video είναι οι παρακάτω [22]: Εντοπισμός Σκηνών (Shot Detection) Κατάτμηση σε Background/Foreground Υπολογισμός Τροχιών Αντικειμένων (Trajectory) Ανίχνευση Κίνησης (Motion Detection) Εντοπισμός αντικειμένων (Object Tracking) Εξαγωγή χαρακτηριστικών πλαισίων (Key Frames) Οι τεχνικές αυτές είναι πολύ δημοφιλείς και οι υλοποιήσεις αυτών υπόσχονται ικανοποιητικά αποτελέσματα. 4.9 Αλγόριθμοι Κατάτμησης Κάθε σύστημα που κάνει ανάλυση πολυμεσικού υλικού, είτε αυτό είναι εικόνα είτε βίντεο, ενσωματώνει τεχνικές κατάτμησης περιοχών, που συνήθως είναι και το πρώτο βήμα της επεξεργασίας. Οι κυριότερες τεχνικές που συναντά κανείς στη βιβλιογραφία σχετικά με τη κατάτμηση περιοχών παρουσιάζονται συνοπτικά παρακάτω [22]: 80

91 Recursive Shortest Spanning Tree (RSST) Pyramidal Region Growing Morphological Watershed K-means Ο RSST είναι ένα πολύ ισχυρό εργαλείο κατάτμησης, που το κυριότερο μειονέκτημα του. που είναι ο μεγάλος υπολογιστικός όγκος. Μπορεί να αντισταθμιστεί με παραλλαγές του όπως ο Multiresolution RSST, με παράλληλες υλοποιήσεις σε κατανεμημένα συστήματα και τη χρήση διασυνδεδεμένων ιδιοτήτων. Οι αλγόριθμοι κατάτμησης μπορούν να κατηγοριοποιηθούν με διαφορετικά κριτήρια, όπως μέθοδοι κατάτμησης με βάση τα pixel, το εμβαδό, τις γωνίες και τα φυσικά χαρακτηριστικά, ή μέθοδοι που επεξεργάζονται τη χωρική, τη χρονική ή τη χωροχρονική πληροφορία μιας εικόνας ή ενός βίντεο Περίληψη Βίντεο Υπάρχουν δύο κατηγορίες περίληψης βίντεο: τα key frames και τα video skims [23]. Key Frames: χαρακτηριστικά εικονοπλαίσια ή στατιστικές περιλήψεις. Μια συλλογή από τις πιο βασικές εικόνες που μπορούν να εξαχθούν από ένα βίντεο, γρήγορη κατανόηση περιεχομένου από χρήστη, μικρή υπολογιστική πολυπλοκότητα σε ανάλυση και ανάκτηση βίντεο. Είναι ο πιο διαδομένος τρόπος. Το μέγεθος του συνόλου των key frames μπορεί να είναι σταθερό εκ των προτέρων (priori), απροσδιόριστο σύνολο (posteriori) και σύνολο καθορισμένο κατά τη διάρκεια της διαδικασίας. Σταθερός αριθμός εκ των προτέρων : O αριθμός των key-frames καθορίζεται πριν τη διαδικασία και χρησιμοποιείται ως περιορισμός στον αλγόριθμο. Μπορεί να θεωρηθεί ως ένας συγκεκριμένος αριθμός ή ως ποσοστό του μήκους της ακολουθίας. 81

92 Απροσδιόριστος αριθμός : Σ'αυτή την περίπτωση, δεν είναι γνωστός ο αριθμός των εξαγόμενων key-frames μέχρι να ολοκληρωθεί η διαδικασία. Αυτός κυρίως καθορίζεται από το βαθμό της οπτικής αλλαγής στο πλάνο. Μια ακολουθία με πλούσια δράση και κίνηση χρειάζεται περισσότερα key-frames για να περιγραφεί από ότι μια άλλη η οποία εμφανίζει στατικό περιεχόμενο. Καθορισμένο σύνολο : Στην ουσία και αυτή η προσέγγιση είναι μεθοδολογία απροσδιόριστου συνόλου με τη διαφορά όμως ότι πρέπει να καθοριστούν οι μεθοδολογίες προσδιορισμού του κατάλληλου αριθμού από key-frames πριν ολοκληρωθεί η διαδικασία εξαγωγής. Video Skims: περιληπτικές ακολουθίες. Συλλογή από τμήματα βίντεο που έχουν εξαχθεί από τη αρχική ακολουθία. Συνδέονται με απότομο κόψιμο η με σταδιακό εφέ. Βίντεο κλιπ μικρότερης διάρκειας (trailer ταινιών). Περιέχουν ήχο και στοιχεία κίνησης, που τα key frames δε διαθέτουν, και διευκολύνουν την εκφραστικότητα της περίληψης. Ένα πλεονέκτημα που έχουν τα video skims απέναντι σε ένα σύνολο από key-frames είναι η ικανότητα που έχουν τα πρώτα να περιέχουν ήχο αλλά και στοιχεία κίνησης που διευκολύνουν την εκφραστικότητα της περίληψης. Επίσης σαφώς είναι πιο ενδιαφέρον να παρακολουθείς ένα skim από το να βλέπεις τις εικόνες των key-frames. Από την άλλη μεριά όμως η χρησιμοποίηση των key-frames σαφώς αυξάνει τις πιθανότητες πιο ορθής χρήσης της περίληψης για σκοπούς όπως αναζήτηση ή και περιήγηση σε ένα βίντεο, καθώς επιτρέπει το χρήστη να κατανοήσει το περιεχόμενο του βίντεο γρηγορότερα. Τέλος τα key-frames προσφέρουν σημαντική βοήθεια στη μείωση της υπολογιστικής πολυπλοκότητας σε διάφορες εφαρμογές όπως στην ανάλυση και ανάκτηση ενός βίντεο. 82

93 4.11 Μέθοδοι Εξαγωγής Key-Frames Μέθοδος Επαρκούς Αλλαγής Περιεχομένου (Sufficient Content Change) Αυτή η μέθοδος εφαρμόζεται επαναληπτικά και για την εφαρμογή της απαιτείται η γνώση της ακολουθίας των εικονοπλαισίων μέχρι το τρέχον χρονικό σημείο. Ενα εικονοπλαίσιο επιλέγεται ως key-frame εάν το οπτικό περιεχόμενο του είναι αρκετά διαφορετικό από το προηγούμενο που έχει ήδη επιλεχτεί. Η διαδικασία συνήθως ξεκινά επιλέγοντας ως πρώτο key-frame το πρώτο εικονοπλαίσιο του πλάνου. Όσο νια τη συνάρτηση ομοιότητας του περιεχομένου των εικονοπλαισίων, έχουν προταθεί στην βιβλιογραφία μια ποικιλία από μετρικές με πιο δημοφιλή τη διαφορά ιστογραμμάτων. Ιστογράμματα χρώματος και εξαγωγή key frames με βάση τη σύγκριση με προηγούμενα και με κάποιο κατώφλι, ή με μέτρα ανομοιότητας. Με ένταση κίνησης και εκείνα τα frames που έχουν μεγάλη ένταση επιλέγονται ως keys. Η μέθοδος της επαρκούς αλλαγής περιεχομένου είναι απλή στην υλοποίηση της. χωρίς μεγάλες απαιτήσεις σε υπολογιστική ισχύ. Αυτά τα χαρακτηριστικά την καθιστούν κατάλληλη για real-time και online εφαρμογές. Η ακολουθιακή επεξεργασία των εικονοπλαισίων βέβαια μπορεί να οδηγήσει σε σύνολα key- frames στα οποία να υπάρχουν ασυμμετρίες αφού για την εξαγωγή ενός εικονοπλαισίου λαμβάνουμε υπόψη μόνο τα προηγούμενα από αυτό και όχι το σύνολο των εικονοπλαισίων της ακολουθίας βίντεο. [24] Μέθοδος Μέγιστης Κάλυψης Εικονοπλαισίων (Maximum Frame Coverage) Η μέθοδος αυτή βασίζεται στο πλήθος των εικονοπλαισίων που μπορούν να αναπαρασταθούν από ένα τυχαίο εικονοπλαίσιο με βάση κάποιο κατώφλι ομοιότητας. Το πλεονέκτημα αυτής της μεθόδου είναι ότι το πλήθος των εικονοπλαισίων που αντιπροσωπεύονται από ένα εικονοπλαίσιο δεν χρειάζεται όπως στην προηγούμενη μέθοδο να είναι ένα συνεχόμενο τμήμα του βίντεο, με αποτέλεσμα να δημιουργείται ένα περισσότερο συνοπτικό σύνολο key- 83

94 frames. Από την άλλη πλευρά η απαίτηση υπολογισμού της διαφοράς για κάθε ζεύγος εικονοπλαισίων οδηγεί σε υψηλές υπολογιστικές απαιτήσεις, με αποτέλεσμα να μην είναι κατάλληλη για real-time και online εφαρμογές. [25] Μέθοδος Ομαδοποίησης (Clustering) Οι μέθοδοι που βασίζονται στην δημιουργία ομάδων χρησιμοποιούν τα εικονοπλαίσια μιας ακολουθίας βίντεο σαν σημεία στο χώρο των οπτικών χαρακτηριστικών (π.χ. χρώμα, υφή κτλ.). Μετά την σχηματοποίηση των ομάδων γίνεται επιλογή κάποιων χαρακτηριστικών σημείων από αυτά, τα οποία αντιπροσωπεύουν τα χαρακτηριστικά εικονοπλαίσια για τα συγκεκριμένο τμήμα της ακολουθίας βίντεο, Η διαδικασία της δημιουργίας ομάδων μπορεί να εφαρμοστεί τόσο σε πλάνα όσα και σε ολόκληρα clip και συνήθως προϋποθέτει τα ακόλουθα τέσσερα στάδια. Προεπεξεργασία των δεδομένων Ομαδοποίηση των δεδομένων Φιλτράρισμα των δεδομένων Εξαγωγή των αντιπροσωπευτικών εικονοπλαισίων από κάθε ομάδα Είναι φανερό πως η ομαδοποίηση είναι η πιο δημοφιλής μέθοδος για την εξαγωγή key-frames από ένα βίντεο. Ωστόσο όμως πρέπει να επισημανθεί πως ορισμένες φορές η κατάλληλη εξαγωγή key-frames, από ορισμένες ομάδες δεν είναι αποδοτική κυρίως όταν αυτές εμφανίζουν μεγάλη μεταβλητότητα. Επιπλέον ένα ακόμη ζήτημα στο οποίο υστερούν οι εν λόγω τεχνικές είναι όταν θέλουμε τα εξαγόμενα key-frames να διατηρούν την χρονική εξέλιξη της ακολουθίας. [23] Μέθοδος Ελάχιστης Συσχέτισης μεταξύ των Key Frames (Minimum Correlation among Key Frames) Αυτή η κατηγορία μεθόδων βασίζεται στο γεγονός ότι σε ένα σύνολο από keyframes θα πρέπει να υπάρχει ελάχιστη συσχέτιση μεταξύ των στοιχείων του. 84

95 Με βάση αυτό το κριτήριο οι μέθοδοι επιλέγουν εκείνα τα εικονοπλαίσια που είναι ανόμοια σε σχέση με τα υπόλοιπα. Η βέλτιστη εξαγωγή key-frames με βάση το κριτήριο της ελάχιστης συσχέτισης διατυπώνεται ως εξής : όπου το Corr είναι η τιμή της συσχέτισης (correlation measure). [23] Μέθοδος με χρήση του Σφάλματος Ανακατασκευής της Ακολουθίας Αυτή η προσέγγιση βασίζεται σε ένα μέτρο που ονομάζεται SRD score (είναι γνωστό και ως shot reconstruction error). Μετρά την ικανότητα του συνόλου των key frames για την ανακατασκευή της αρχική ακολουθίας βίντεο. [26] Έστω ότι έχουμε μια συνάρτηση παρεμβολής μεταξύ των εικονοπλαισίων I (t, R) όπου R το σύνολο των key-frames. V το σύνολο των εικονοπλαισίων και η το πλήθος των εικονοπλαισίων, η οποία υπολογίζει όλα ή μερικά χαρακτηριστικά της εικόνας, την χρονική στιγμή t στην ακολουθία του βίντεο στο σύνολο των key-frames. To SRD score E (V, R) του συνόλου δίνεται από τον τύπο: όπου D είναι η διαφορά ανάμεσα σε δυο εικονοπλαίσια. Έτσι δοθέντος του αριθμού των key-frames k, ως καλύτερο σύνολο key-frames {r 1, r 2.r K } επιλέγεται εκείνο το σύνολο το οποίο έχει το ελάχιστο SRD score και προσδιορίζεται από τον παρακάτω τύπο : 85

96 Μέθοδος των ενδιαφερόντων γεγονότων (Interesting Events) Σε αντίθεση με τις προηγούμενε; προσεγγίσεις, οι οποίες εστίαζαν κυρίως στο να μεγιστοποιήσουν το μήκος και την ισορροπία της οπτικής κάλυψης του συνόλου των key-frames, οι μέθοδοι οι οποίες βασίζονται σε ενδιαφέροντα γεγονότα προσπαθούν να αναγνωρίσουν τα εικονοπλαίσια τα οποία είναι σημασιολογικά αρκετά σημαντικά. Οι περισσότερες μέθοδοι σε αυτήν την κατηγορία θεωρούν μια σχέση ανάμεσα στο πόσο ενδιαφέρον είναι ένα εικονοπλαίσιο και στα πρότυπα κίνησης γύρω από τα εικονοπλαίσια, καθώς και στα χαρακτηριστικά του περιεχομένου του (π.χ. να περιέχει ανθρώπινα πρόσωπα). Oι Liu, Zhang, και Qi πρώτα κατασκευάζουν ένα αντιπροσωπευτικό μοντέλο της δραστηριότητας την κίνησης. Με βάση αυτό το μοντέλο, ένα πλάνο χωρίζεται σε επιμέρους τμήματα από διαδοχικά πρότυπα κίνησης ως προς τις επιταχύνσεις και τις επιβραδύνσεις. Τα key-frames τα οποία εξάγονται από αυτά τα τμήματα βασίζονται σε ένα τριγωνικό μοντέλο. Η κάτω αριστερή κορυφή αντιπροσωπεύει το αρχικό σημείο της κίνησης, η δεξιά το τελικό και η πάνω κορυφή του τρίγωνου αντιπροσωπεύει το σημείο με τη μέγιστη ταχύτητα, Έτσι τελικά επιλέγονται ως key frame εκείνα τα εικονοπλαίσια που βρίσκονται στις ανώτατες κορυφές του τρίγωνου οι οποίες αντιπροσωπεύουν σημεία στα οποία η κίνηση αλλάζει από επιτάχυνση σε επιβράδυνση. Ο λόγος που επιλέγονται αυτά τα σημεία είναι γιατί συνήθως αντιπροσωπεύουν τα πιο εξέχοντα σημεία της δράσης. Σε μια άλλη μέθοδο μόνο ένα key-frame, εξάγεται από κάθε πλάνο. Τα εικονοπλαίσια κατατάσσονται σε προσκήνιο και παρασκήνιο και στη συνέχεια εκείνο με το μεγαλύτερο λόγο προσκήνιο προς παρασκήνιο επιλέγεται ως key-frame καθώς θεωρείται ότι μεταφέρει την περισσότερη πληροφορία του συγκεκριμένου πλάνου. Μια άλλη προσέγγιση για την εξαγωγή key-frames, καθώς αναλύοντας τις διαφορές ανάμεσα σε διαδοχικά εικονοπλαίσια, ο αλγόριθμος καθορίζει την πολυπλοκότητα της ακολουθίας σε σχέση με τις αλλαγές στο περιεχόμενο, οι οποίες εκφράζονται με διαφορετικούς περιγραφείς εικονοπλαισίων. Αρχικά χωρίζουν την ακολουθία σε πλάνα τα οποία ταξινομούνται σε δυο κατηγορίες από τις οποίες μόνο μια επιλέγεται για να δώσει τα key-frames καθώς δεν περιέχει 86

97 περιττή πληροφορία όπως για παράδειγμα ένα fade out effect. Στη συνέχεια και για να αντιμετωπίσουν καλύτερα το ζήτημα της αναπαράστασης ενός εικονοπλαισίου υπολογίζουν τρεις διαφορετικούς περιγραφείς: ιστόγραμμα χρώματος, ιστόγραμμα κατεύθυνσης ακμής και κατανομή συντελεστών wavelet. Κατόπιν και αφού ορίσουν έλα διαφορετικό μέτρο ανομοιότητας για κάθε περιγραφέα, υπολογίζουν ως συνδυασμό αυτών των τριών το τελικό μέτρο ανομοιότητας. Έτσι προκύπτει μια αθροιστική καμπύλη διαφορών, η οποία περιγράφει πως αλλάζει το περιεχόμενο των εικονοπλαισίων στην διάρκεια του χρόνου. Τέλος για να εντοπίσουν τα key-frames επιλέγουν τις περιοχές εκείνες στην καμπύλη που προσδιορίζονται από σημεία που εμφανίζουν την μεγαλύτερη κλίση. Το ενδιάμεσο εικονοπλαίσιο κάθε περιοχής επιλέγεται ως το key-frame. [27] Αν και οι μέθοδοι εξαγωγής χαρακτηριστικών εικονοπλαισίων οι οποίες βασίζονται στην εύρεση ενδιαφερόντων γεγονότων σε ένα σύνολο εικονοπλαισίων είναι επιτυχημένες σε συγκεκριμένες εφαρμογές ειδικού ενδιαφέροντος, αποτυγχάνουν σε εφαρμογές γενικού περιεχομένου κυρίως επειδή οι μέθοδοι αυτές βασίζονται σε κανόνες οι οποίοι εξάγονται εμπειρικά από συγκεκριμένα μικρά σύνολα δεδομένων. 87

98 ΚΕΦΑΛΑΙΟ 5: ΑΝΑΠΤΥΞΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΕΦΑΡΜΟΓΗΣ 5.1 Εισαγωγή Η βιβλιοθήκη Microsoft Foundation Class (MFC) είναι μία βιβλιοθήκη που ολοκληρώνει τμήματα από Windows API (Application Programming Interface) σε κλάσεις C++, περιλαμβάνοντας τη λειτουργικότητα αυτών μέσα σε ένα προκαθορισμένο πλαίσιο εφαρμογών. Οι κλάσεις που είναι γραμμένες σε C++ γλώσσα προγραμματισμού από ένα προκαθορισμένο κώδικα ενσωματωνονται στη βιβλιοθήκη MFC δημιουργόντας ταχύτερα το τελικό πρόγραμμα/εφαρμογή. Το MFC πρωτοσυστάθηκε το 1992 με τον Microsoft C/C++ compiler 7.0 για χρήση σε 16-bit εκδόσεις των Windows ως ένας ευέλικτος τρόπος για ολοκλήρωση αντικειμενοστραφούς προγραμματισμού C++ για Windows API, σε μια εποχή που η C++ άρχισε να αντικαθιστά τη χρήση της γλώσσας C στην ανάπτυξη προγραμμάτων. Σε ένα MFC πρόγραμμα σπάνια καλούνται απευθείας Windows API κλάσεις, αντιθέτως τα προγράμματα δημιουργούν αντικείμενα απο κλάσεις του MFC και καλούν συναρτήσεις που ανήκουν σε αυτά τα αντικείμενα.πολλές από τις συναρτήσεις μοιράζονται τα ονόματά τους με τις αντίστοιχες API λειτουργίες που αντιστοιχίζονται. Η πρώτη έκδοση του 1992 για Microsoft C/C εκδόσεις ήταν η MFC1.0 ενώ η πιο πρόσφατη είναι η MFC για Visual C Ανάπτυξη Εφαρμογής Η υλοποίηση της εφαρμογής βασίζεται σε κώδικα γραμμένο σε γλώσσα προγραμματισμού C++ για τους visual descriptors (Παράρτημα Α). Για το λόγο αυτό κρίνεται επιτακτική η ανάγκη της χρήσης Microsoft Visual Studio για τη δημιουργία της MFC βιβλιοθήκης. Τα στάδια για την ανάπτυξη της εφαρμογήε αναφέρονται παρακάτω. 88

99 1. Δημιουργία καινούργιου Project: 2. Δημιουργία ενός νέου MFC Application: 89

100 3. Ρύθμιση του μενού Application Type: 4. Αρχική εμφάνιση παραθύρου διαλόγου: 90

101 5. Δημιουργία αρχείων στο Solutions Explorer : 6. Δημιουργία του μενού του GUI της εφαρμογής: Μέσα από το Resource View δημιουργείται από το μενού Toolbox τα κουμπιά (Begin Descriptor Extraction Button, Browse for Video File Button), τα Check Box με τα αντίστοιχα ονόματα, τα Edit Box για το όνομα του βίντεο και τα δευτερόλεπτα ανάμεσα στα καρέ του βίντεο και το List Box για να μπορούμε να εμφανιστούν τα αποτελέσματα από κάθε descriptor, όπως φαίνεται στην παρακάτω εικόνα. 91

102 7. Στο φάκελο του project δημιουργούνται οι παρακάτω φάκελοι: - Στο φάκελο libs υπάρει η βιβλιοθήκη OpenCV_2.3.1 που χρειαζεται για να ανοιχτεί το αρχείο βίντεο και να επεξεργαστεί στη συνέχεια. - Στο φάκελο desc βρίσκονται τα αρχεία,.cpp και.h, που είναι απαραίτητα για την εξαγωγή των descriptors. - Στο φάκελο CommonFiles υπάρχουν τα αρχεία,.cpp και.h, κλάσεων που είναι απαραίτητες για την υλοποίηση του κουμπιού Browse και την εξαγωγή των αποτελεσμάτων στο List Box. 8. Έναρξη διαδικασίας: Στο αρχείο Descriptor ExtractorDlg.cpp και στη συνάρτηση που καλείται όταν ο χρήστης πατήσει το κουμπί Begin Descriptors Extraction ακολοθούνται τα παρακάτω στάδια - Μέσω της βιβλιοθήκης OpenCV και της κλάσης cv::videocapture «διαβάζεται» το αρχείο βίντεο με τον εξής τρόπο: - Εξάγεται κάθε καρέ από το βίντεο μέσω της κλάσης cv::mat με τον εξής τρόπο: 92

103 - Κάθε καρέ ακολούθως μετατρέπεται σε ένα αντικείμενο της κλάσης Frame για να μπορέσουν να εξάθούν οι descriptors: - Εφόσον το Check Box είναι επιλεγμένο, εξάγεται ο αντίστοιχος descriptor και εμφανίζεται στο List Box. - Εφόσον το Check Box Print To *.txt ή Print To *.xml είναι επιλεγμένο, οι descriptors αποθηκεύονται σε αντίστοιχο αρχείο txt ή xml μέσα στο φάκελο Output. 9. Τελική απεικόνιση της εφαρμογής: 93

104 10. Ο φάκελος Release με το exe της εφαρμογής και τα υπόλοιπα αρχεία: 5.3 Διαχείριση Εφαρμογής Με τον κώδικα των descriptors σε C++, τα βήματα που αναφέρθηκαν νωρίτερα και τη βοήθεια της opencv_231 που παρέχει το build για να ανοιχτεί εικόνα και βίντεο (cv::videocapture, cv::mat) έχουμε την τελική υλοποίηση όπως αναφέρθηκε νωριτερα (βήμα 9). Σε αυτό το σημείο είναι δυνατή επιλογή του επιθυμητού βίντεο για εισαγωγή μέσω του κουμπιού Browse. Έπειτα από μια λίστα 7 visual descriptors διαλέγουμε εκείνους που επιθυμούμε να γίνει η εξαγωγή των χαρακτηριστικών. Οι descriptors είναι οι εξής: Color Structure Descriptor Scalable Color Descriptor Dominant Color Descriptor Color Layout Descriptor Edge Histogram Descriptor Contour Shape Descriptor Homogeneous Texture Descriptor 94

105 Μέσα από το check box του καθενός επιλέγουμε εάν αυτοί θέλουμε να είναι ενεργοί και να εμφανιστούν τα αποτελέσματά τους. Έπειτα υπάρχουν τα δύο πεδία που αφορούν τα frames. Το Seconds Between frames βάζει ένα delay μετά από κάθε frame και το Number of frames to process). μπορούμε να εισάγουμε τιμές για τα πόσα frames θέλουμενα εξαχθούν οι descriptors το οποίο είναι περισσότερο σαν μια τυχαία επιλογή στο πεδίο του χρόνου. Με το πάτημα του κουμπιού Begin Descriptors Extraction η διαδικασία ξεκινά. Στην λευκή άσπρη περιοχή φαίνονται τα τρέχοντα αποτελέσματα κατά τη διαδικασία της ανάλυσης. Τέλος τα αποτελέσματα μπορούν να «εκτυπωθούν» σε αρχεία txt ή xml τα οποία αποθηκεύονται σε φάκελους που δημιοργούνται μέσα στο Release. Δύο ξεχωριστοι φάκελοι που έχουν σαν ονόματα Output_TXT και Output_XML αποθηκεύουν τα αποτελέσματα σε κάθε περίπτωση. Επιπλέον μέσα στον κάθε φάκελο δημιουργούνται περεταίρω φάκελοι που έχουν ως όνομα το όνομα του βίντεο που επιλέχθηκε για ανάλυση ακολουθούμενο από την ημερομηνία κατά την οποία έγινε η ανάλυση. Για παράδειγμα ένα όνομα του φακέλου είναι το Video_file_(test.avi)_(20.Apr ). Τα αρχεία που δημιουργούνται εχουν τη μορφή που φαίνεται στις εικόνες που ακολουθούν. 95

106 96

107 Σε κάθε ένα από τα αρχεία αυτά εγγράφονται τα αποτελέσματα της εξαγωγής των descriptors με βάση όπως αυτοι αναλύθηκαν στο κεφάλαιο 4 και με τιμές όπως αναφέρονται στο παράρτημα 1. Για παράδειγμα στον Color Layout Descriptor βλέπουμε τα εξής για το Frame 1: και τα παρακάτω για το Frame 6: Όπου φαίνονται οι τιμές για τoυς DC συντελεστές και ακολουθούν τα αποτελέσματα για τους AC. Στο είχε αναφερθεί πως οι τιμές για τους AC συντελεστές παίρνουν τις τιμές 3, 6, 10, 15, 21, 28 και 64. Η διαφορά της 97

108 τιμής κατά 1 που φαίνεται στα αποτελέσματα (63, 28) οφείλεται στο γεγονός ότι το 0 θεωρείται ως η αρχή της μέτρησης. Αντίστοιχα παραθέτονται τα αποτελέσματα που εμφανίζονται για τους υπόλοιπους descriptors. Color Structure Descriptor Contour Shape Descriptor Dominant Color Descriptor Edge Histogram Descriptor Homogeneous Texture Descriptor Scalable Color Descriptor 98

109 5.4 Αποτελέσματα Εφαρμογής Όπως αναφέρθηκε νωρίτερα στο κεφάλαιο 2 υπάρχει μια ποικιλία descriptors οι οποίοι μπορούν να περιγράψουν πολυμεσικό περιεχόμενο που αφορά το βίντεο. Η επιλογή των descriptors της λίστας που παρουσιάστηκε νωρίτερα έχει descriptors που αφορούν το χρώμα, το σχήμα και την υφή. Το σύνολο αυτό είναι ικανό να περιγράψει και να διαχειριστεί περιεχόμενο βίντεο που αφορά για παράδειγμα ειδήσεις, μια εφαρμογή χρήσιμη για το Τμήμα Δημοσιογραφίας και το Εργαστήριο Ηλεκτρονικών ΜΜΕ. Για περιεχόμενο αυτού του είδους όπου δεν υπάρχει πολύ συχνή εναλλαγή του υπόβαθρου και παρουσιάζει μεγάλη στατικότητα θα μπορούσαμε να πούμε πως οι περιγραφείς κίνησης δεν είναι τοσο απαραίτητοι..το ίδιο θα μπορούσαμε να αναφέρουμε και για τη χρήση των key frames, καθώς δεν απαιτείται για τέτοιου είδους περιεχόμενο και κατηγοριοποίηση κάποια απόλυτη εφαρμογή των τεχνικών που αναλύθηκαν νωρίτερα. Μια συχνή και «τυχαία» επιλογή είναι ικανή να περιγράψει την αλλαγή του περιεχομένου. Βέβαια το ιδανικό θα ήταν να μπορούσε να χρησιμοποιηθεί κάποια από τις τεχνικές για τη σωστή εξαγωγή των key frames. Όταν υπάρει η παρουσίαση κάποιου θέματος με το κατάλληλο βίντεο το περιεχόμενο προφανώς και αλλάζει δραματικά αφού τα πλάνα θα είναι εντελώς διαφορετικά από αυτά ενός τηλεοπτικού στούντιο και ατόμων με μικρή εώς μηδενική κινητικότητα. Τα χρώματα και τα σχήματα που θα περιέχονται πλέον θα είναι νέα και αυτό θα αποτυπώνεται στους descriptors. Για παράδειγμα για βίντεο αθλητικού περιεομένου και συγκεκριμένα ποδοσφαίρου θα μπορούσαμε να πούμε πως το κυρίαρχο χρώμα είναι το πράσινο του γηπέδου, ένα χρώμα που δε θα συναντήσουμε στο κύριο μέρος των ειδήσεων αφού στο στούντιο λόγω της χρήσης του green box κάτι τέτοιο απαγορεύεται. Ίσως ενδιαφέρον θα ήταν η απεικόνιση κάποιων περιγραφέων ήχου ώστε να ξεχωρίσουμε για παράδειγμα την ομιλία ενός εκφωνητή από μιας εκφωνήτριας. (π.χ. περιγραφείς της χροιάς) 99

110 Βέβαια το ιδανικό είναι να έχουμε όσο το δυνατόν περισσότερους περιγραφείς και να τους χρησιμοποιούμε κατά βούληση σε κάθε περίπτωση για την οποία έχουμε εκ των προτέρων κάποια γνώση για το περιεχόμενο. 100

111 ΚΕΦΑΛΑΙΟ 6: ΣΥΜΠΕΡΑΣΜΑΤΑ Στην παρούσα διπλωματική εργασία αναλύθηκε όλο το πλαίσιο για την περιγραφή οπτικοακουστικού περιεχομένου με βάση τα εργαλεία που προσφέρει η ομάδα MPPEG-7. Μετά από την αρχική ανάλυση σχετικά με το MPEG-7 παρουσιάστηκαν κυρίως οι descriptors ήχου και βίντεο με τους κανόνες, τη φιλοσοφία και το πεδίο χρήσης του καθενός. Περαιτέρω έγινε αναφορά και στις μεθόδους ανάλυσης του βίντεο και στις τεχνικές που μπορούν να εξάγουν τα εικονοπλαίσια (key frames) και τους αλγόριθμους κατάτμησης. Τέλος με την ανάπτυξη μιας εφαρμογής τα παραπάνω παρουσιάστηκαν σε κάποιο βαθμό για το πως μπορεί να διαχειριστεί το πολυμεσικό περιεχόμενο του βίντεο. Τα εξαγόμενα αποτελέσματα μπορούν να αποθηκεύονται σε γλώσσα σχήματος XML, μια γλώσσα που μπορεί να χρησιμοποιηθεί περαιτέρω για κατηγοριοποίηση των αποτελεσμάτων και είναι ιδιαίτερα σημαντική για περιεχόμενο και δεδομένα που διακινούνται μέσω του διαδικτύου. Σε αυτό το σημείο αξίζει να σημειωθεί πως προσπάθειες διαχείρισης πολυμεσικού περιεχομένου με άλλα προγραμματα όπως π.χ. LabVIEW, δεν είχαν τα επιθυμητά αποτελέσματα. Η πολυπλοκότητα των αλγορίθμων των descriptors σε C++ δεν απέδιδε τα τελικά χαρακτηριστικά που έπρεπε να εξαχθούν και τα dll δεν μπορούσαν να εμφανίσουν όλες τις δυνατότητες τους στο LabVIEW. Παρολαυτά στο Παράρτημα Β περιγράφεται η διαδικασία με την οποία δημιουργείται ένα dll και η μετέπειτα εισαγωγή του και επεξεργασία του στο LabVIEW. Το MPEG-7, μετά από τη μελέτη του, συμπεραίνεται πως είναι σε θέση να καλύψει πλήρως τις ανάγκες περιγραφής οποιουδήποτε πολυμεσικού περιεχομένου, καθώς περιέχει έτοιμα σχήματα περιγραφής που καλύπτουν την περιγραφή του αρχείου του πολυμέσου (αρχείου ήχου, εικόνας και video). 101

112 ΠΑΡΑΡΤΗΜΑ Α: ΚΩΔΙΚΑΣ ΤΩΝ ΟΠΤΙΚΩΝ ΠΕΡΙΓΡΑΦΕΩΝ Στο σημείο αυτό παρουσιάζονται κάποια μέρη του κώδικα όπως αυτά φαίνονται μέσα από τα δημιουργηθέντα αρχεία της MFC καθώς και τα header files των Color Space, Face Recognition και Region Shape descriptors. Color Structure Descriptor (CSD) περιγραφέας δομής χρώματος μεγέθους 64, Ν=64 CSD = [h1, h2,... hn] Scalable Color Descriptor SCD = [c1, c2,..., cn], N = 128 numofcoefficients Dominant Color Descriptor int m_percentage; // MPEG-7 values: 0-32 (5 bit) int m_colorvalue[3]; // MPEG-7 values: 12 bit, ColorValue of DominantColor (LUV color space, float) int m_colorvariance[3]; ColorVariance of DominantColor (float) // MPEG-7 values: 0,1 (1 bit), Color Layout Descriptor Y, Cr, Cb σύγκριση DC με AC CLD = [ {DYdc, DYac i}, {DCBdc, DCBac j}, {DCRdc, DCRac k} ] Edge Histogram Descriptor // EHD Output values as char array of size GetSize() (fixed at 80) Contour Shape Descriptor χρησιμοποιεί τη grayscale εικόνα a_channel(mask), y_channel(grayscale) Clobal Curvature Prototype Curvature Highiest Peak Y, Highiest Peak X 102

113 Homogeneous Texture Descriptor // This function uses a single-band grayscale image, ( f->gray ), image size must be > 128x128 // Use f->setgray( Mat& gray ); to set the grayscale image before calling this function // layerflag: 0:base-layer 32-components 1:full-layer 62 components (both energy and deviation) average Standard Deviation 30 Energy values 30 Energy Deviation values Header file του Color Space Descriptor 103

114 Header file του Face Recognition Descriptor Header file του Region Shape Descriptor 104

115 ΠΑΡΑΡΤΗΜΑ B: ΕΝΣΩΜΑΤΩΣΗ ΚΩΔΙΚΑ ΣΤΟ LabVIEW Δημιουργία.dll σε Visual Studio 2012 Βήματα: New Project -> Templates -> Visual C++ -> Win32 Console Application Name: simpledll -> OK (π.χ.) Application Settings: Application type -> DLL, Additional Options -> Empty project (επιλογή μαζί με τα άλλα που είναι επιλεγμένα ήδη) Παράθυρο διαλόγου για έναρξη δημιουργίας του dll στο Microsoft Visual Studio Header Files: δεξί κλικ, Add -> New Item Επιλογή: Header File (.h) Name: simpleh.h (ίδιο όνομα για ευκολία και μη εμφάνιση προβλημάτων) Add 105

116 Γραφή κώδικα στο header αρχείο (ή αντιγραφή-επικόλληση υπάρχοντος κώδικα.h αρχείου) Source Files: δεξί κλικ, Add -> New Item Επιλογή: C++ File (.cpp) Name: simplecpp.cpp Γραφή κώδικα στο source αρχείο (ή αντιγραφή-επικόλληση υπάρχοντος κώδικα.cpp αρχείου) Build -> Build Solution Πεδίο εισαγωγής των αρχείων header και source (εδώ έχουμε τα αρχεία ColourLayout.h και ColourLayout.cpp) Πεδίο εξόδου και επιτυχής υλοποίησης ύστερα από την εντολή Build Σημειώσεις: Στον κώδικα του.cpp αρχείου θα πρέπει να καλείται το αρχείο header με το ακριβές όνομα του (π.χ. simpleh.h) για να γίνει η υλοποίηση της λύσης και η δημιουργία του.dll Στον κώδικα του.h αρχείου θα πρέπει να είναι γραμμένες εντολές τύπου EXPORT ώστε το.dll αρχείο να έχει εξόδους που θα αξιοποιηθούν αργότερα στο LabVIEW Οι εντολές EXPORT μπαίνουν μόνο για μεταβλητές που είναι μεθόδου public ή protected και όχι για μεθόδου private. 106

117 Εισαγωγή.dll σε LabVIEW 2011 Βήματα: Επιλογή Blank VI Εμφάνιση Block Diagram από επιλογή Window -> Show Block Diagram Εμφάνιση του Functions Palette από επιλογή View -> Functions Palette Εύρεση του Call Library Function Node (για ευκολία μέσα από την επιλογή Search) Επιλογή του εικονιδίου και «σύρσιμο» του στην επιφάνεια εργασίας του Block Diagram Δεξί κλικ πάνω στο εικονίδιο του Call Library Function Node και επιλογή Configure Στην καρτέλα Function: εύρεση του επιθυμητού dll από την επιλογή Library name or path πατώντας τον κίτρινο φάκελο Επιλογή του αρχείου και εισαγωγή Παράθυρο διαλόγου Functions Palette και εύρεση του Call Library Function Node 107

118 Επεξεργασία.dll σε LabVIEW 2011 Στην καρτέλα Function και στις επιλογές Thread και Calling convention επιλέγουμε Run in UI thread και C αντίστοιχα Στο πεδίο Function name εισάγουμε το όνομα της συνάρτησης που θα επιστρέφει το dll. Στην περίπτωση αυτή ελέγχουμε τις εξόδους του header αρχείου από τον πηγαίο κώδικα σε C++ και τοποθετούμε τα ίδια ονόματα. Έπειτα επιλέγουμε την καρτέλα Parameters. Εδώ θα δηλωθεί το είδος της συνάρτησης και ταυτόχρονα θα εισαχθούν και οι τυχόν μεταβλητές που αυτή μπορεί να εξαρτάται Δηλώνουμε το όνομα και τον τύπο της συνάρτησης που θα επιστρέφεται. Το default όνομα είναι return type, αλλά η μετονομασία δε μας επηρεάζει καθώς η ονομασία που θα αναγράφεται είναι αυτή που δηλώθηκε νωρίτερα στην καρτέλα Function. Αν η συνάρτηση μας εξαρτάται από μεταβλητές π.χ. πίνακες, δείκτες, κτλ θα πρέπει σε αυτό το σημείο να εισαχθούν μέσα στην συνάρτηση μας. Αυτό γίνεται μέσα από την επιλογή +. Πατώντας το + δημιουργείται μια μεταβλητή μέσα στη συνάρτηση μας όπου τα προεπιλεγμένα στοιχεία του είναι Name: arg1, Type: Numeric, Data type: Signed-32bit Integer, Pass: Value. Αλλάζοντας τις επιλογές δημιουργούμε το όνομα και τον τύπο της μεταβλητής σύμφωνα με τον τύπο τους όπως είναι και στο header αρχείο. Σκοπός μας είναι να φτιάξουμε τη συνάρτηση όπως ακριβώς είναι στο αρχείο header του πηγαίου κώδικα. Για το σκοπό αυτό υπάρχει το πεδίο Function prototype που μας δείχνει τα ονόματα και τους τύπους των συναρτήσεων και των μεταβλητών που δημιουργούμε. Για να δημιουργήσουμε τη συνάρτηση και τις μεταβλητές όπως αυτές εμφανίζονται στον πηγαίο κώδικα θα πρέπει να ακολουθήσουμε τους παρακάτω κανόνες. Μεταβλητή τύπου: void: type: void αν στον κώδικα μας έχουμε void name();, δεν προσθέτουμε μεταβλητή, αφήνοντας την επιλογή void name(void); που έχει εξαρχής το LabVIEW 108

119 int: type: numeric, data type: signed 32-bit integer short: type: numeric, data type: signed 16-bit integer long: type: numeric, data type: signed 32-bit integer long long: type: numeric, data type: signed 64-bit integer float: type: numeric, data type: 4-byte Single int *: type: numeric, data type: Signed Pointer-sized Integer (name* arg): type: Instance Data Pointer (η μεταβλητή και το όνομα που θα εμφανίζεται είναι Instance Data Pointer χωρίς να μπορούμε να βάλουμε αυτό που επιθυμούμε-έχει ο πηγαίος μας κώδικας, πχ name) Παράθυρο διαλόγου της καρτέλας Function 109

120 Παράθυρο διαλόγου της καρτέλας Parameters 110

Δείτε περισσότερα