Περιεχόµενα ΠΡΟΛΟΓΟΣ...1 ΠΕΡΙΕΧΟΜΕΝΑ...2 ΕΙΣΑΓΩΓΗ...4

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Περιεχόµενα ΠΡΟΛΟΓΟΣ...1 ΠΕΡΙΕΧΟΜΕΝΑ...2 ΕΙΣΑΓΩΓΗ...4"

Transcript

1 Πρόλογος Στη διάρκεια των τελευταίων δεκαετιών έχει δειχθεί ιδιαίτερο ενδιαφέρον για τη διαχείριση και τη διασπορά των οπτικοακουστικών πληροφοριών οι οποίες παρέµεναν για αρκετό διάστηµα απρόσιτες έξω από τα όρια των οργανισµών και των εταιρειών οι οποίες τις παρήγαγαν. Τέτοιοι οργανισµοί όπως οι ιδιοκτήτες αρχείων πολυµεσικού περιεχοµένου ή οι παραγωγοί τηλεοπτικών εκποµπών στοχεύουν συγκεκριµένα στη βελτίωση των τεχνικών που χρησιµοποιούνται τόσο στην οργάνωση όσο και στην πώληση αυτών των αρχείων σε εξωτερικούς πελάτες. Η αρχειοποίηση, ο χαρακτηρισµός και η ανάκτηση αυτού του υλικού που είναι αποθηκευµένο σε βάσεις δεδοµένων πολυµεσικού περιεχοµένου είναι θέµατα υψηλής σπουδαιότητας κυρίως εξαιτίας της µεγάλης ποσότητας των πληροφοριών που περιέχουν. Παρόλα αυτά, η εξαγωγή των χρήσιµων πληροφοριών από ολόκληρα τα δεδοµένα και η εφαρµογή αυτών των πληροφοριών σε πρακτικά συστήµατα όπως οι µηχανές αναζήτησης αρχείων εικόνων ή βίντεο παραµένουν ανοιχτά ζητήµατα. Το κυριότερο εµπόδιο ήταν η έλλειψη ενός απλού, κατανοητού και ευέλικτου προτύπου αναπαράστασης των δεδοµένων το οποίο δίνει τη δυνατότητα διαλειτουργικών, κλιµακούµενων και αποδοτικών εφαρµογών. Το πρότυπο MPEG-7 σκοπεύει στην τυποποίηση ορισµένων εργαλείων που είναι κατάλληλα για την περιγραφή πολυµεσικών δεδοµένων προκειµένου να ξεπεραστεί το προαναφερθέν εµπόδιο. Το MPEG-7 µε την πάροδο του χρόνου εξελίσσεται σε ένα πολύ σηµαντικό καθοδηγητή για νέα έρευνα στους τοµείς της ανάλυσης, της αποθήκευσης, της εξέτασης και του φιλτραρίσµατος της πολυµεσικής πληροφορίας, σε σχέση µε άλλα πρότυπα. Ο σκοπός της παρούσης Διπλωµατικής εργασίας είναι ο χαρακτηρισµός αντικειµένων από ένα αρχείο βίντεο και η τυποποίηση αυτής της πληροφορίας σε φόρµα συµβατή µε το πρότυπο MPEG-7, σε προγραµµατιστικό περιβάλλον LabView. Θα ήθελα να ευχαριστήσω τον επιβλέποντα της εργασίας αυτής, καθηγητή κ. Γεώργιο Παπανικολάου, που µου έδωσε την ευκαιρία να ασχοληθώ µε ένα θέµα που παρουσιάζει ιδιαίτερο ενδιαφέρον. Επίσης, θα ήθελα να ευχαριστήσω για την πολύτιµη βοήθεια του, τον υποψήφιο διδάκτορα, κ. Κωνσταντίνο Αβδελίδη, του οποίου η βοήθεια στη διεκπεραίωση αυτής της εργασίας υπήρξε καταλυτική. Θεσσαλονίκη, Νοέµβριος 2006 Κων/να Δηµητριάδου 1

2 Περιεχόµενα ΠΡΟΛΟΓΟΣ...1 ΠΕΡΙΕΧΟΜΕΝΑ...2 ΕΙΣΑΓΩΓΗ VIDEO 1.1. Εισαγωγή στο βίντεο Αναλογικά Συστήµατα Κωδικοποίηση Χρώµατος HDTV Ψηφιακά Συστήµατα Συµπίεση Βίντεο Το πρότυπο JPEG Το πρότυπο MPEG Χαρακτηριστικά Συµπίεσης Βίντεο MPEG Χαρακτηριστικά Συµπίεσης Βίντεο MPEG Χαρακτηριστικά Συµπίεσης Βίντεο MPEG Codecs στη Σύλληψη- Συµπίεση Βίντεο Απαιτήσεις σε Hardware/ Software Τεχνολογία DV Επεξεργασία Βίντεο και Προγράµµατα Επεξεργασίας ΤΟ ΠΡΟΤΥΠΟ MPEG Εισαγωγή στο πρότυπο MPEG Σκοπός του προτύπου MPEG Τύποι εργαλείων Πλάνο εργασίας Εφαρµογές και απαιτήσεις του προτύπου Γλώσσα περιγραφής ορισµού Ορισµοί τύπων Τύποι δεδοµένων της XML Περιγραφή περιεχοµένου πολυµέσων.51 2

3 2.10. Σχήµατα περιγραφής πολυµέσων Μηχανισµοί περιγραφής Οπτικοί περιγραφείς Οπτικοί περιγραφείς για εικόνες και βίντεο Οπτικοί περιγραφείς χρώµατος Οπτικοί περιγραφείς υφής Οπτικοί περιγραφείς σχήµατος Περιγραφείς κίνησης για βίντεο ΑΠΑΙΤΗΣΕΙΣ ΚΑΙ ΕΡΓΑΛΕΙΑ ΠΕΡΙΓΡΑΦΗΣ 3.1. Εισαγωγή στην εφαρµογή Απαιτήσεις περιγραφής Σύνδεση απαιτήσεων- εργαλείων Δηµιουργία λίστας εργαλείων περιγραφής Επιλογή εργαλείων που χρήζουν περιορισµού ΠΑΡΑΔΕΙΓΜΑ ΕΦΑΡΜΟΓΗΣ 4.1. Περιβάλλον ανάπτυξης Παρουσίαση υλοποίησης ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΜΕΛΛΟΝΤΙΚΕΣ ΕΞΕΛΙΞΕΙΣ.105 ΠΑΡΑΡΤΗΜΑ ΒΙΒΛΙΟΓΡΑΦΙΑ

4 Εισαγωγή Η διαδικασία χαρακτηρισµού κινούµενων περιοχών από βίντεο µε το πρότυπο περιγραφής MPEG-7 αποτελεί το αντικείµενο αυτής της Διπλωµατικής εργασίας. Ειδικότερα, στο πρώτο κεφάλαιο περιγράφονται η διαδικασία σάρωσης του βίντεο, τα διεθνή αναλογικά συστήµατα που χρησιµοποιούνται µαζί µε τα χαρακτηριστικά τους, καθώς επίσης αναφέρεται και η κωδικοποίηση των χρωµάτων. Το πρώτο κεφάλαιο συνεχίζει περιγράφοντας τα ψηφιακά συστήµατα που χρησιµοποιούνται ευρέως τα τελευταία χρόνια, τη συµπίεση βίντεο (κωδικοποιητέςαποκωδικοποιητές ) για να περιγράψει στο τέλος τους αλγορίθµους συµπίεσης ακίνητων εικόνων (JPEG) και να καταλήξει στα πρότυπα συµπίεσης κινούµενων εικόνων (MPEG-1, MPEG-2, MPEG-4). Το δεύτερο κεφάλαιο αναφέρεται αναλυτικότερα στο πρότυπο περιγραφής MPEG-7 αναλύοντας το σκοπό της προέλευσής του, τη δοµή της οργάνωσής του, τις δυνατές εφαρµογές του, τους µηχανισµούς περιγραφής και τέλος τα εργαλεία που χρησιµοποιούνται στις διάφορες εφαρµογές. Το τρίτο κεφάλαιο αναφέρεται στις απαιτήσεις της συγκεκριµένης εφαρµογής και δηµιουργεί µία λίστα εργαλείων που προσαρµόζεται σ αυτές τις απαιτήσεις. Στο τέταρτο κεφάλαιο περιγράφεται βήµα προς βήµα η εφαρµογή όπου γίνεται ο χαρακτηρισµός των αντικειµένων του βίντεο σε φόρµα αποδεκτή από το MPEG-7 πρότυπο. Η όλη διαδικασία γίνεται σε προγραµµατιστικό περιβάλλον LabView της εταιρείας National Instruments και χρησιµοποιήθηκε επίσης η βιβλιοθήκη IMAQ Vision της ίδιας εταιρείας. Στο πέµπτο κεφάλαιο αναφέρονται τα συµπεράσµατα και οι µελλοντικές εξελίξεις της περιγραφής και τέλος δίνονται κάποια παραρτήµατα που βοηθούν στην καλύτερη κατανόησή της. 4

5 1ο ΚΕΦΑΛΑΙΟ Το Video 1.1.Εισαγωγή στο βίντεο Το ανθρώπινο µάτι έχει τη ιδιότητα ότι, όταν εµφανιστεί στον αµφιβληστροειδή µία εικόνα, η εικόνα αυτή διατηρείται για κάποια millisecond πριν εξασθενήσει. Αν µία ακολουθία εικόνων σχεδιάζεται γραµµή προς γραµµή µε 50 εικόνες/ δευτερόλεπτο, το µάτι δεν παρατηρεί ότι βλέπει διακριτές εικόνες. Όλα τα συστήµατα βίντεο (για παράδειγµα η τηλεόραση) εκµεταλλεύονται αυτή την αρχή προκειµένου να παράγουν κινούµενες εικόνες. 1.2.Αναλογικά Συστήµατα Για να κατανοήσουµε το βίντεο, είναι καλύτερα να ξεκινήσουµε µε την απλή παλιοµοδίτικη ασπρόµαυρη τηλεόραση. Για να παραστήσει µία κάµερα τη δισδιάστατη εικόνα που βρίσκεται µπροστά της ως µία µονοδιάστατη τάση σε συνάρτηση µε το χρόνο, σαρώνει την εικόνα µε µία ακτίνα ηλεκτρονίων, µε γρήγορο ρυθµό οριζόντια και πιο αργό ρυθµό κατακόρυφα, καταγράφοντας την ένταση του φωτός σε κάθε σηµείο. Στο τέλος της σάρωσης, που ονοµάζεται καρέ (frame), η ακτίνα επιστρέφει στην αρχή. Εκπέµπεται η ένταση του φωτός ως συνάρτηση του χρόνου, και οι δέκτες επαναλαµβάνουν την ίδια διαδικασία σάρωσης για να ανακατασκευάσουν την εικόνα. Το µοτίβο σάρωσης που ακολουθείται τόσο από την κάµερα όσο και από το δέκτη φαίνεται στο παρακάτω σχήµα. (Παρεµπιπτόντως οι κάµερες CCD ολοκληρώνουν αντί να σαρώνουν, αλλά µερικές κάµερες και όλες οι οθόνες σαρώνουν ). 5

6 Σχ. 1.1: Το µοτίβο σάρωσης που χρησιµοποιείται για το βίντεο και την τηλεόραση NTSC Οι ακριβείς παράµετροι σάρωσης διαφέρουν από χώρα σε χώρα. Το σύστηµα που χρησιµοποιείται στη Βόρεια και Νότια Αµερική και την Ιαπωνία έχει 525 γραµµές σάρωσης, λόγο οριζόντιας προς κατακόρυφη διάσταση ίσο µε 4:3 και 30 καρέ/ δευτερόλεπτο. Το Ευρωπαϊκό σύστηµα έχει 625 γραµµές σάρωσης, τον ίδιο λόγο διαστάσεων 4:3, και 25 καρέ/ δευτερόλεπτο. Και στα δύο συστήµατα δεν εµφανίζονται λίγες γραµµές στην κορυφή και στη βάση (έτσι ώστε να προσοµοιώνεται µία ορθογώνια εικόνα στους παλαιότερους καθοδικούς σωλήνες, οι οποίοι ήταν καµπυλωτοί). Μόνο 483 από τις 525 γραµµές σάρωσης του NTSC και 576 από τις 625 γραµµές σάρωσης των PAL/ SECAM εµφανίζονται. Η ακτίνα απενεργοποιείται κατά την κατακόρυφη επανασάρωση (retrace) έτσι πολλοί σταθµοί ειδικά στην Ευρώπη χρησιµοποιούν το διάστηµα αυτό για να εκπέµπουν τηλεκείµενο ( TeleΤext )- δηλαδή σελίδες κειµένου που περιέχουν πληροφορίες για νέα, καιρό, αθλητικά, τιµές µετοχών κλπ. Αν και τα 25 καρέ/ δευτερόλεπτο είναι αρκετά για τη σύλληψη οµαλής κίνησης, σε αυτό το ρυθµό καρέ πολλοί άνθρωποι, ειδικά οι µεγαλύτεροι σε ηλικία, αντιλαµβάνονται ότι η εικόνα τρεµοπαίζει επειδή η παλιά εικόνα εξασθενεί στον αµφιβληστροειδή πριν εµφανιστεί η νέα. Αντί να αυξηθεί ο ρυθµός καρέ, γεγονός που 6

7 θα απαιτούσε τη χρήση ακόµα περισσότερου από το σπάνιο εύρος ζώνης, έχει ακολουθηθεί µία διαφορετική προσέγγιση. Αντί οι γραµµές σάρωσης να εµφανίζονται µε τη σειρά, πρώτα εµφανίζονται όλες οι περιττές γραµµές σάρωσης και µετά εµφανίζονται όλες οι άρτιες γραµµές σάρωσης. Κάθε ένα από αυτά τα µισά καρέ ονοµάζεται πεδίο (field). Πειράµατα έχουν δείξει ότι, αν και οι άνθρωποι παρατηρούν το τρεµόπαιγµα στα 25 καρέ / δευτερόλεπτο δεν το παρατηρούν στα 50 πεδία/ δευτερόλεπτο. Αυτή η τεχνική ονοµάζεται πλεκτή σάρωση (interlacing). Η άπλεκτη (noninterlaced) τηλεόραση ή βίντεο ονοµάζεται προοδευτική (progressive). Σηµειώνουµε ότι οι κινηµατογραφικές ταινίες εµφανίζουν 24 καρέ/ δευτερόλεπτο. Για τη καλύτερη κατανόηση της πλεκτής και της προοδευτική σάρωσης παρουσιάζουµε τις παρακάτω εικόνες και σχήµατα. Πλεκτή σάρωση (interlacing) upper lower e Σχ. 1.2.: Πλεκτή Σάρωση Προοδευτική σάρωση (noninterlaced) Οverscan και ζώνες ασφάλειας Ζώνη ασφάλειας δράσης Ζώνη ασφάλειας τίτλων Σχ. 1.3: Προοδευτική Σάρωση 7

8 Το έγχρωµο βίντεο χρησιµοποιεί το ίδιο µοτίβο σάρωσης όπως και το µονόχρωµο (ασπρόµαυρο) µε τη διαφορά ότι αντί η εικόνα να εµφανίζεται µε µία κινούµενη ακτίνα, χρησιµοποιεί τρεις ακτίνες που κινούνται σε συνδυασµό. Χρησιµοποιείται µία ακτίνα για κάθε ένα από τα 3 πρωτεύοντα προσθετικά χρώµατα: το κόκκινο, το πράσινο και το µπλε (RGB, από τις λέξεις red, green και blue). Η τεχνική αυτή λειτουργεί επειδή οποιοδήποτε χρώµα µπορεί να κατασκευαστεί από ένα γραµµικό συνδυασµό κόκκινου, πράσινου και µπλε µε τις κατάλληλες εντάσεις. Ωστόσο, για να γίνει µετάδοση σε ένα µόνο κανάλι, τα τρία σήµατα χρώµατος πρέπει να συνδυαστούν σε ένα µόνο σύνθετο (composite) σήµα. Όταν επινοήθηκε η έγχρωµη τηλεόραση, ήταν τεχνικά εφικτές διάφορες µέθοδοι απεικόνισης του χρώµατος και οι διάφορες χώρες έκαναν διαφορετικές επιλογές, γεγονός που οδήγησε σε συστήµατα τα οποία εξακολουθούν να είναι ασύµβατα µεταξύ τους. Σε όλες τις χώρες, µία πολιτική απαίτηση ήταν ότι τα προγράµµατα που θα µεταδίδονταν έγχρωµα θα έπρεπε να µπορούν να ληφθούν από τις ασπρόµαυρες τηλεοράσεις. Κατά συνέπεια, η απλούστερη µέθοδος η απλή κωδικοποίηση των σηµάτων RGB χωριστά- δεν ήταν αποδεκτή. Επιπλέον, το RGB δεν είναι και η πιο αποδοτική µέθοδος. Το πρώτο έγχρωµο σύστηµα τυποποιήθηκε στις Η.Π.Α από την Εθνική Επιτροπή Τηλεοπτικών Προτύπων (National Television Standards Comittee), το ακρωνύµιο της οποίας έδωσε στο πρότυπο το όνοµά του : NTSC. Η έγχρωµη τηλεόραση παρουσιάστηκε στην Ευρώπη αρκετά χρόνια αργότερα, σε µια εποχή όπου η τεχνολογία είχε προοδεύσει σηµαντικά, οδηγώντας σε συστήµατα µε καλύτερη αντοχή στο θόρυβο και καλύτερα χρώµατα. Τα συστήµατα αυτά ονοµάζονται SECAM (SEquentiel Couleur Avec Memoire), το οποία χρησιµοποιείται στη Γαλλία και την Ανατολική Ευρώπη, και PAL (Phase Alternating Line), το οποίο χρησιµοποιείται στην υπόλοιπη Ευρώπη. Η διαφορά στην ποιότητα του χρώµατος ανάµεσα στο NTSC και τα PAL/ SECAM έχει οδηγήσει στον αστεϊσµό ότι το NTSC σηµαίνει Ποτέ Ξανά το Ίδιο Χρώµα (Never Twice the Same Color).Οι ιδιότητες των συστηµάτων PAL και NTSC όπως αναφέρθηκαν παραπάνω περιγράφονται στον παρακάτω πίνακα. [4], [15] 8

9 Αναλογικό Βίντεο (Βασικά Μεγέθη) Συστήµατα PAL (Phase Alternating Line) NTSC (National Television Systems Committee) Ταχύτητα Κάθετη εναλλαγής ανάλυση πλαισίων Λόγος εικόνας : ,97 4:3 Πιν.1.1: Χαρακτηριστικά Συστηµάτων Βίντεο 1.3.Κωδικοποίηση Χρώµατος RGB Σύµφωνα µε την επικρατέστερη σήµερα θεωρία περί χρωµατικής αντίληψης (διατυπωµένης από τους επιστήµονες Young και Helmholtz), το ανθρώπινο µάτι διαθέτει 3 είδη φωτοευαίσθητων νεύρων (αισθητήρων): ένα το οποίο ευαισθητοποιείται σε φωτεινές ακτίνες µήκους κύµατος γύρω στα 650 nm (νανόµετρα), που αντιστοιχούν στο κόκκινο (Red), ένα ευαίσθητο σε ακτίνες µήκους κύµατος γύρω στα 510nm, οι οποίες αποτελούν το πράσινο (Green) και ένα το οποίο ανταποκρίνεται σε ακτίνες µήκους περίπου 475nm, δηλαδή στο µπλε (Blue). Όλα τα υπόλοιπα χρώµατα που αντιλαµβανόµαστε, προκύπτουν ως µείγµα αυτών των τριών βασικών χρωµάτων. Συνεπώς µια καλή µέθοδος κωδικοποίησης του χρώµατος στις ταινίες (η καλύτερη ως προς την ακρίβεια απόδοσης) είναι χρησιµοποιώντας τα τρία αυτά βασικά χρώµατα, Red, Green, Blue, για τη δηµιουργία της παλέτας όλων των υπόλοιπων. Αυτή η µέθοδος ονοµάστηκε RGB και είναι η επικρατέστερη στο χώρο των υπολογιστών και των εκτυπώσεων. Συγκεκριµένα, για κάθε pixel της ταινίας, µε 9

10 αυτή τη µέθοδο, θα δεσµεύονται τόσα bits µνήµης, όσο το βάθος χρώµατος που χρησιµοποιεί η ταινία, 32 bits για 32bit χρώµα, 24bits για 24 bpp βάθος χρώµατος κ.ο.κ.! Τα bits αυτά τα διαιρούµε µε το 8 για να πάρουµε τα bytes της µνήµης που θα δεσµευθούν για κάθε pixel (π.χ. 4 και 3 αντίστοιχα). Για να µπορούν οι έγχρωµες µεταδόσεις να εµφανίζονται στους ασπρόµαυρους δέκτες και τα τρία συστήµατα συνδυάζουν γραµµικά τα σήµατα RGB σε ένα σήµα λαµπρότητας (luminance, δηλαδή φωτεινότητα) και δύο σήµατα χρωµατικότητας (chrominance, δηλαδή χρώµατος) αν και κάθε σύστηµα χρησιµοποιεί διαφορετικούς συντελεστές για την κατασκευή αυτών των σηµάτων από τα σήµατα RGB. Περιέργως το µάτι είναι πολύ πιο ευαίσθητο στο σήµα λαµπρότητας παρά στο σήµα χρωµατικότητας, έτσι τα τελευταία δεν χρειάζεται να µεταδίδονται µε την ίδια ακρίβεια. Έτσι το σήµα λαµπρότητας µπορεί να εκπέµπεται στην ίδια συχνότητα µε το παλιό ασπρόµαυρο σήµα, ώστε να λαµβάνεται από τις ασπρόµαυρες τηλεοράσεις. Τα δύο σήµατα χρωµατικότητας εκπέµπονται σε στενότερες ζώνες σε υψηλότερες συχνότητες. Μερικές τηλεοράσεις έχουν χειριστήρια που ονοµάζονται φωτεινότητα (brightness), απόχρωση (hue), και κορεσµός (saturation)- ή φωτεινότητα, χροιά και χρώµα- για ξεχωριστό έλεγχο των σηµάτων αυτών. Η κατανόηση της λαµπρότητας και της χρωµατικότητας είναι απαραίτητη για την κατανόηση του τρόπου λειτουργίας της συµπίεσης του βίντεο. Κωδικοποίηση video Component RGB YUV Y: φωτεινότητα (luminance) U: Πληροφορία χρώµατος (Cb) V: Πληροφορία χρώµατος (Cr) Y/C Y: σήµα φωτεινότητας (luma) C: σήµα χρώµατος (crhroma) Composite Σύνθετο σήµα (ένα) 10

11 YUV Ο ανθρώπινος εγκέφαλος είναι πιο ευαίσθητος στην φωτεινότητα παρά στο χρώµα. Σύµφωνα λοιπόν µε τη µέθοδο YUV, δίνεται προτεραιότητα στην απόδοση της σωστής φωτεινότητας και λιγότερο στο χρώµα. Συγκεκριµένα, το Y αποδίδει την φωτεινότητα (luminance), ενώ τα άλλα δύο (U, γνωστό και ως Cr, και το V, γνωστό και ως Cb), την χρωµατική πληροφορία. Το αυθεντικό YUV λέγεται και 4:2:2, καθώς για κάθε οµάδα των 4 pixels, η απόδοση της φωτεινότητας γίνεται και στα 4 pixels, ενώ του χρώµατος µόνο στα 2. Έτσι η ποιότητα δε µειώνεται σε αισθητό επίπεδο, ενώ από την άλλη εξοικονοµούνται 30% bits σε σχέση µε το RGB! Υπάρχουν αρκετές τροποποιήσεις του YUV, η σηµαντικότερη από τις οποίες είναι η YV12 (4:2:0). Αντίθετα µε το τι µπορεί να νοµίζει κάποιος µελετώντας το σχεδιάγραµµα, το YV12 δεν προσφέρει κατώτερη ποιότητα. Στην πράξη µάλιστα προσφέρει εφάµιλλη του RGB 24! Ακόµη είναι αρκετά γρηγορότερο κατά το encoding καθώς και κατά την αναπαραγωγή! Το µόνο ενδεχοµένως αρνητικό σηµείο είναι ότι πρέπει να υποστηρίζεται από την κάρτα γραφικών για την αναπαραγωγή! Ωστόσο είναι αρκετά διαδεδοµένο και σχεδόν καµία κάρτα πλέον δεν είναι ασύµβατη. [3], [4], [15] Luminance, Y = 0,299R + 0,587G + 0,114B Color Difference (blue), CB (also known as U) = 0,493(B Y) Color Difference (red), CR (also known as V) = 0,877(R Y) Πιν.1.2: Ο παραπάνω πίνακας περιγράφει αριθµητικά τον τρόπο που µοιράζονται τα bits της πληροφορίας σε κάθε οµάδα pixels 11

12 Σχ.1.4.: Σχηµατική περιγραφή του YUV 1.4.HDTV Τα τελευταία χρόνια υπάρχει σηµαντικό ενδιαφέρον για την Τηλεόραση Υψηλής Ευκρίνειας ή HDTV (High Definition TeleVision), η οποία εµφανίζει λεπτοµερέστερες εικόνες διπλασιάζοντας περίπου το πλήθος των τιµών σάρωσης. Οι ΗΠΑ, η Ευρώπη και η Ιαπωνία έχουν όλες αναπτύξει συστήµατα HDTV, όλα διαφορετικά και όλα αµοιβαία ασύµβατα. Οι βασικές αρχές της HDTV από πλευράς σάρωσης, λαµπρότητας, χρωµατικότητας και ούτω καθεξής είναι παρόµοιες µ αυτές των υπαρχόντων συστηµάτων. Ωστόσο και τα τρία συστήµατα έχουν τον ίδιο λόγο διαστάσεων 16:9 αντί για 4:3, ώστε να ταιριάζουν καλύτερα µε τη µορφή που χρησιµοποιείται για τις ταινίες (οι οποίες καταγράφονται σε φιλµ 35mm το οποίο έχει λόγο διαστάσεων 3:2). [3], [4], [15] 1.5.Ψηφιακά Συστήµατα Η απλούστερη αναπαράσταση του ψηφιακού βίντεο είναι µε τη µορφή µίας ακολουθίας καρέ, µε κάθε καρέ να αποτελείται από ένα ορθογώνιο πλέγµα εικονοστοιχείων (ονοµαζόµενα και πίξελ από τη συνένωση των λέξεων picture 12

13 elements). Κάθε εικονοστοιχείο µπορεί να είναι ένα µόνο bit, το οποίο να παριστάνει είτε το µαύρο είτε το λευκό. Η ποιότητα ενός τέτοιου συστήµατος είναι παρόµοια µε αυτή που θα λαµβάνατε αν στέλνατε µία φωτογραφία µε φαξ- απαίσια. Το επόµενο βήµα προς τα πάνω είναι η χρήση 8 bit ανά εικονοστοιχείο για την αναπαράσταση 256 επιπέδων του γκρι. Η µέθοδος αυτή δίνει ασπρόµαυρο βίντεο υψηλής ποιότητας. Για το έγχρωµο βίντεο τα καλά συστήµατα χρησιµοποιούν 8 bit για καθένα από τα χρώµατα RGB, αν και όλα σχεδόν τα συστήµατα αναµιγνύουν τα χρώµατα σε ένα σύνθετο σήµα βίντεο για τη µετάδοση. Αν και η χρήση 24 bit ανά εικονοστοιχείο περιορίζει το πλήθος των χρωµάτων στα 16 εκατοµµύρια περίπου, το ανθρώπινο µάτι δεν µπορεί καν να διακρίνει τόσα χρώµατα, πόσο µάλλον περισσότερα. Οι ψηφιακές έγχρωµες εικόνες παράγονται µε τη χρήση τριών ακτινών σάρωσης, µία για κάθε χρώµα. Η γεωµετρία είναι ίδια µε αυτή του αναλογικού συστήµατος, µε τη διαφορά ότι οι συνεχόµενες γραµµές σάρωσης αντικαθίστανται από τακτοποιηµένες σειρές διακριτών εικονοστοιχείων. Για να παραγάγει οµαλή κίνηση, το ψηφιακό βίντεο, όπως και το αναλογικό, πρέπει να εµφανίζουν τουλάχιστον 25 καρέ/ δευτερόλεπτο. Αφού, όµως, οι καλές οθόνες υπολογιστών σαρώνουν συνήθως ξανά την οθόνη 75 φορές ανά δευτερόλεπτο (ή και παραπάνω) µε βάση εικόνες αποθηκευµένες στη µνήµη, δεν απαιτείται πλεκτή σάρωση, οπότε συνήθως δε χρησιµοποιείται. Ο απλός ανασχεδιασµός του ίδιου καρέ τρεις φορές στη σειρά είναι αρκετός για να εξαλείψει το τρεµόπαιγµα. Με άλλα λόγια, η οµαλότητα της κίνησης εξαρτάται από το πλήθος των διαφορετικών εικόνων ανά δευτερόλεπτο, ενώ το τρεµόπαιγµα εξαρτάται από το πλήθος φορών που σχεδιάζεται η οθόνη ανά δευτερόλεπτο. Οι δύο αυτές παράµετροι είναι διαφορετικές. Μία ακίνητη εικόνα που σχεδιάζεται µε 20 καρέ/ δευτερόλεπτο δεν θα έχει ανώµαλη κίνηση, αλλά θα τρεµοπαίζει επειδή το κάθε καρέ θα εξασθενεί στον αµφιβληστροειδή πριν εµφανιστεί το επόµενο. Μία ταινία µε 20 διαφορετικά καρέ ανά δευτερόλεπτο, όπου το κάθε καρέ θα σχεδιάζεται τέσσερις φορές στη σειρά, δεν θα τρεµοπαίζει αλλά η κίνηση θα φαίνεται ανώµαλη. Η σηµασία αυτών των δύο παραµέτρων γίνεται προφανής όταν εξετάσουµε το εύρος ζώνης που απαιτείται για τη µετάδοση ψηφιακού βίντεο µέσω ενός δικτύου. Οι τρέχουσες οθόνες υπολογιστών χρησιµοποιούν συνήθως λόγο διαστάσεων 4:3, έτσι ώστε να µπορούν να χρησιµοποιούν τους φτηνούς καθοδικούς σωλήνες που έχουν σχεδιαστεί για την καταναλωτική αγορά τηλεοράσεων. 13

14 Το ψηφιακό βίντεο δηµιουργείται είτε µε ψηφιοποίηση του αναλογικού βίντεο µέσω της κάρτας σύλληψης είτε µε χρήση της τεχνολογίας DV. Ένα ενδεικτικό σχήµα είναι το παρακάτω. Είσοδος composite (VHS, 8mm) Είσοδος Y/ C ή S-Video (S-VHS, Hi8) Είσοδος ήχου Είσοδος Έξοδος ψηφιακού βίντεο ήχου (ΙΕΕΕ 1394 ή Firewire) Εικ.1.1.: Ψηφιακό Βίντεο και είσοδοι αυτού Χαρακτηρίζεται από τη συχνότητα δειγµατοληψίας (sampling rate), την ταχύτητα εναλλαγής των πλαισίων (frame rate), το µέγεθος των πλαισίων (frame size) και το χρωµατικό βάθος (color depth). Το µέγεθος του αρχείου ψηφιακού βίντεο προκύπτει από τον παρακάτω τύπο: Μέγεθος του αρχείου ψηφιακού βίντεο = Μέγεθος πλαισίου (pixels) x ταχύτητα εναλλαγής πλαισίων x χρωµατικό βάθος (bits) x διάρκεια (sec) 14

15 Οι συνηθισµένες αναλύσεις είναι 720x576, 1024x768, 1280x960 και 1600x1200. Εποµένως, αντικαθιστώντας στον παραπάνω τύπο και για ανάλυση π.χ. 720x576 προκύπτει το µέγεθος του αρχείου ψηφιακού βίντεο: (720 x 576) (pixels) x 25 x 24 (bits) x 1 (sec) = (pixels) x 25 x 24 (bits) x 1 (sec) = bits = bytes = = KB = 29,66 MB [3],[4] Για ένα λεπτό = 29,66 x 60 =1779,78 MB 1.6. Συµπίεση Βίντεο Είναι γεγονός ότι η µετάδοση ασυµπίεστου βίντεο είναι εξωπραγµατική. Ευτυχώς, µεγάλος όγκος έρευνας τις τελευταίες δεκαετίες έχει οδηγήσει σε διάφορες τεχνικές και αλγόριθµους συµπίεσης οι οποίοι κάνουν εφικτή τη µετάδοση βίντεο. Όλα τα συστήµατα συµπίεσης απαιτούν δύο αλγόριθµους: έναν για συµπίεση των δεδοµένων στην προέλευση και άλλον έναν για την αποσυµπίεσή τους στον προορισµό. Στη βιβλιογραφία οι αλγόριθµοι αυτοί αναφέρονται ως αλγόριθµοι κωδικοποίησης (encoding) και αποκωδικοποίησης (decoding) αντίστοιχα. Οι αλγόριθµοι αυτοί παρουσιάζουν κάποιες ασυµµετρίες, οι οποίες είναι απαραίτητο να γίνουν κατανοητές. Καταρχήν, σε πολλές εφαρµογές ένα έγγραφο πολυµέσων (για παράδειγµα, µία ταινία) θα κωδικοποιηθεί µόνο µία φορά (όταν αποθηκεύεται στο διακοµιστή πολυµέσων) αλλά θα αποκωδικοποιηθεί χιλιάδες φορές (όταν τη βλέπουν οι πελάτες). Αυτή η ασυµµετρία σηµαίνει ότι είναι αποδεκτό ο αλγόριθµος κωδικοποίησης να είναι αργός και να απαιτεί ακριβό υλικό, µε την προϋπόθεση ότι ο αλγόριθµος αποκωδικοποίησης θα είναι γρήγορος και δεν θα απαιτεί ακριβό υλικό. Πολλά πρακτικά συστήµατα συµπίεσης καταβάλλουν µεγάλες προσπάθειες για να κάνουν την αποκωδικοποίηση γρήγορη και απλή, ακόµα και µε το κόστος να είναι η κωδικοποίηση αργή και περίπλοκη. Από την άλλη πλευρά, στα πολυµέσα πραγµατικού χρόνου, όπως στη βιντεοδιάσκεψη, η αργή κωδικοποίηση είναι απαράδεκτη. Η κωδικοποίηση θα πρέπει να πραγµατοποιείται άµεσα σε πραγµατικό χρόνο. Έτσι τα πολυµέσα πραγµατικού 15

16 χρόνου χρησιµοποιούν διαφορετικούς αλγόριθµους ή παραµέτρους από την αποθήκευση βίντεο στο δίσκο, συχνά µε σηµαντικά χαµηλότερη συµπίεση. Μία δεύτερη ασυµµετρία είναι ότι η διαδικασία κωδικοποίησης/ αποκωδικοποίησης δεν χρειάζεται να είναι αναστρέψιµη. Αυτό σηµαίνει ότι, όταν συµπιέζεται, µεταδίδεται και στο τέλος αποσυµπιέζεται ένα απλό αρχείο, ο χρήστης αναµένει να λάβει ξανά το αρχικό αρχείο, µε ακρίβεια µέχρι και το τελευταίο bit. Στα πολυµέσα δεν υπάρχει αυτή η απαίτηση. Είναι συνήθως αποδεκτό ότι το σήµα βίντεο µετά την κωδικοποίηση και την αποκωδικοποίηση θα είναι ελαφρώς διαφορετικό από το αρχικό. Όταν η αποκωδικοποιηµένη έξοδος δεν είναι ακριβώς ίδια µε την αρχική είσοδο, το σύστηµα λέγεται απωλεστικό (lossy). Αν η είσοδος και η έξοδος είναι πανοµοιότυπες, το σύστηµα είναι µη απωλεστικό (lossless). Τα απωλεστικά συστήµατα είναι σηµαντικά, επειδή η αποδοχή της απώλειας µικρής ποσότητας πληροφορίας µπορεί να δώσει τεράστια κέρδη στον εφικτό λόγο συµπίεσης. Η κωδικοποίηση του βίντεο είναι η διαδικασία της συµπίεσης και αποσυµπίεσης ενός ψηφιακού σήµατος βίντεο. Το ψηφιακό βίντεο είναι η αναπαράσταση µίας οπτικής φυσικής σκηνής, χωρικά και χρονικά δειγµατοληπτηµένη. Μία σκηνή δειγµατοληπτείται σε ένα σηµείο στο χρόνο για να δώσει ένα καρέ (µία αναπαράσταση ολόκληρης της οπτικής σκηνής σε εκείνο το σηµείο στο χρόνο) ή ένα πεδίο (που αποτελείται από περιττές και άρτιες γραµµές από χωρικά δείγµατα). Η δειγµατοληψία επαναλαµβάνεται κατά διαστήµατα (1/25 ή 1/30 του δευτερολέπτου) για να παράγει ένα κινούµενο σήµα βίντεο. Μία σκηνή ενός φυσικού ή πραγµατικού χρόνου βίντεο αποτελείται από πολλαπλά αντικείµενα καθένα από τα οποία έχει το δικό του χαρακτηριστικό σχήµα, υφή, βάθος, και φωτισµό. Το χρώµα και η φωτεινότητα ενός φυσικού βίντεο αλλάζει κατά τη διάρκεια του βίντεο. Χαρακτηριστικά ενός τυπικού βίντεο τα οποία είναι σχετικά µε επεξεργασία και συµπίεση βίντεο περιλαµβάνουν χωρικά χαρακτηριστικά (η µεταβολή της υφής µέσα σε µία σκηνή, αριθµός και σχήµα των αντικειµένων, χρώµα κτλ) και χρονικά χαρακτηριστικά (κίνηση των αντικειµένων, αλλαγές στο φωτισµό, κίνηση της κάµερας κτλ). [3],[4] 16

17 1.7.Το πρότυπο JPEG Το βίντεο είναι απλώς µία ακολουθία εικόνων (µαζί µε ήχο). Αν µπορούσε να βρεθεί ένας καλός αλγόριθµος για την κωδικοποίηση µίας µόνο εικόνας, θα µπορούσε να εφαρµοστεί αυτός ο αλγόριθµος σε κάθε εικόνα διαδοχικά ώστε να επιτευχθεί συµπίεση του βίντεο. Υπάρχουν καλοί αλγόριθµοι συµπίεσης ακίνητων εικόνων, έτσι θα αρχίσουµε από εκεί τη µελέτη της συµπίεσης βίντεο. Το πρότυπο της Μικτής Οµάδας Ειδικών στη Φωτογραφία ή JPEG (Joint Photographic Experts Group) για τη συµπίεση ακίνητων εικόνων συνεχών τόνων (για παράδειγµα φωτογραφιών) αναπτύχθηκε από ειδικούς στη φωτογραφία οι οποίοι εργάστηκαν υπό την αιγίδα των ITU, ISO και IEC (ένας ακόµη οργανισµός προτύπων). Το πρότυπο αυτό είναι σηµαντικό για τα πολυµέσα επειδή, σε µία πρώτη προσέγγιση, το πρότυπο πολυµέσων για τις κινούµενες εικόνες MPEG, είναι απλώς η κωδικοποίηση JPEG κάθε καρέ, συν κάποια επιπλέον χαρακτηριστικά για κωδικοποίηση και ανίχνευση κίνησης µεταξύ των καρέ. Το JPEG έχει τέσσερις καταστάσεις λειτουργίας και πολλές επιλογές. Μοιάζει περισσότερο µε λίστα µε ψώνια παρά µε έναν αλγόριθµο. Για τους σκοπούς µας, όµως, µόνο η ακολουθιακή απωλεστική κατάσταση λειτουργίας (lossy sequential mode) έχει νόηµα και η οποία απεικονίζεται στην παρακάτω εικόνα. Επιπλέον, θα επικεντρωθούµε στον τρόπο µε τον οποίο το JPEG θα χρησιµοποιείται συνήθως για την κωδικοποίηση 24µπιτων εικόνων σε µορφή RGB, και θα παραλείψουµε κάποιες από τις δευτερεύουσες λεπτοµέρειες για λόγους απλότητας. Το standard αυτό θα έπρεπε να είναι ικανό να καλύψει τις πολλαπλές ανάγκες που πηγάζουν από τις διαφορετικές εφαρµογές της συµπίεσης εικόνας (πολλαπλές αναλύσεις, χώρους χρωµάτων (color spaces), ποιότητες συµπιεσµένης εικόνας κ.λ.π), να συµβαδίζει στην απόδοση µε τις πιο νέες τεχνολογίες στην συµπίεση εικόνας και να µην είναι ιδιαίτερα απαιτητικό σε υπολογιστική ισχύ. Για να ικανοποιηθούν όλες οι παραπάνω απαιτήσεις το JPEG υλοποιήθηκε µε διάφορους τρόπους : Lossless encoding. Με αυτή την επιλογή η εικόνα συµπιέζεται µε τέτοιο τρόπο ώστε να εξασφαλίζεται η ακριβής επανασύνθεση της. Το lossless encoding έχει σαν βάση του µια απλή µέθοδο πρόβλεψης η οποία προβλέπει ένα δείγµα Χ στην εικόνα συνδυάζοντας τις τιµές µέχρι τριών γειτονικών του δειγµάτων. Αυτή η πρόβλεψη αφαιρείται από την κανονική τιµή του δείγµατος Χ και το σφάλµα συµπιέζεται χωρίς 17

18 απώλειες (losslesly) χρησιµοποιώντας κάποια από τις ήδη γνωστές µεθόδους που βασίζονται στην εντροπία (π.χ. Huffman, Arithmetic). Ο λόγος συµπίεσης µε αυτόν τον τρόπο λειτουργίας παραµένει σχετικά χαµηλός. Sequential encoding. Σ αυτή την περίπτωση η εικόνα συµπιέζεται µε ένα πέρασµα (από αριστερά στα δεξιά και από πάνω έως κάτω). H µέθοδος που χρησιµοποιείται σαν βάση είναι ο µετασχηµατισµός DCT ο οποίος αποτελεί την βάση και στα υπόλοιπα επίπεδα λειτουργίας του JPEG. Progressive encoding. Σ αυτό το επίπεδο η εικόνα συµπιέζεται µε πολλαπλά περάσµατα (scans) και έχει εφαρµογές σε περιπτώσεις που ο χρόνος µετάδοσης είναι µεγάλος και ο χρήστης προτιµάει να βλέπει την εικόνα να σχηµατίζεται σιγά σιγά µε πολλαπλά περάσµατα που της βελτιώνουν την ποιότητα. Το παραπάνω επιτυγχάνεται µε το να στέλνονται σταδιακά οι κβαντοποιηµένες DCT συνιστώσες και µάλιστα πρώτη η DC συνιστώσα η οποία περιέχει την περισσότερη πληροφορία και µετά οι AC συνιστώσες µε σειρά από χαµηλές σε ψηλές συχνότητες. Hierarchical encoding. Με το hierarchical encoding η εικόνα συµπιέζεται σε διαφορετικές αναλύσεις έτσι ώστε αν κάποιος θέλει να δει την εικόνα σε µικρή ανάλυση να µην χρειαστεί να την αποσυµπιέσει πρώτα στην κανονική της ανάλυση. Αυτό το επίπεδο µπορεί να θεωρηθεί υποπερίπτωση του progressive encoding. Aπό τα παραπάνω επίπεδα αυτό που χρησιµοποιείται περισσότερο είναι το sequential. O αλγόριθµος που το υλοποιεί είναι παρόµοιος µε αυτόν του DCT συστήµατος συµπίεσης που αναφέραµε πιο πριν και µπορεί να περιγραφεί από τα παρακάτω βήµατα : Υπολογισµός των DCT συνιστωσών. Αρχικά η εικόνα χωρίζεται σε blocks µεγέθους 8x8. Για να αποµακρύνουµε το DC επίπεδο σε καθένα από αυτά τα blocks µεταβάλουµε τις τιµές των pixels αφαιρώντας από την τιµή του καθενός µια σταθερά c=2 n-1 όπου n είναι το βάθος της εικόνας και 2 n ο µέγιστος αριθµός διαβαθµίσεων του γκρίζου. Έτσι για παράδειγµα για 8-bit εικόνες αφαιρούµε 128 από την τιµή του κάθε pixel. Στη συνέχεια εφαρµόζουµε τον δυσδιάστατο DCT και µετατρέπουµε τα δεδοµένα έντασης σε δεδοµένα συχνότητας που µας δείχνουν πόσο γρήγορα αλλάζουν οι εντάσεις. Οι τιµές εισόδου και εξόδου έχουν ακρίβεια 8-bit. Κβαντοποίηση των DCT συνιστωσών. Ο JPEG χρησιµοποιεί γραµµική κβάντιση (linear quantization) που σηµαίνει ότι κάθε DCT συντελεστής διαιρείται µε έναν παράγοντα κβάντισης και στρογγυλεύεται σε ένα ακέραιο τον οποίο και παίρνουµε 18

19 σαν αποτέλεσµα. Για αυτό το σκοπό χρησιµοποιείται ένας πίνακας 8x8 αποτελούµενος από παράγοντες κβάντισης ξεχωριστούς για κάθε συνιστώσα. Αυτός ο πίνακας σώζεται στο JPEG αρχείο και µπορεί να είναι είτε σταθερός είτε ένας που προσαρµόζεται στα δεδοµένα εισόδου προκειµένου να βελτιστοποιήσει το αποτέλεσµα. Οι περισσότεροι πίνακες έχουν χαµηλό παράγοντα (γύρω στα 15) για τον DC συντελεστή και µεγαλύτερους παράγοντες (γύρω στα 100) για τον συντελεστή ψηλών συχνοτήτων. Οι τιµές του πίνακα αναδιανέµονται σε µονοδιάστατο διάνυσµα χρησιµοποιώντας την zig-zag διάταξη όπου οι συντελεστές χαµηλότερης συχνότητας προηγούνται των υπολοίπων. Με αυτό τον τρόπο οι τελευταίοι συντελεστές στην σειρά (ψηλών συχνοτήτων) θα έχουν τιµή 0 γεγονός που αυξάνει την απόδοση της lossless συµπίεσης που εφαρµόζεται στο τελευταίο στάδιο. Σχ.1.5.: Βήµατα JPEG κωδικοποίησης Lossless συµπίεση. Οι µή µηδενικοί κβαντοποιηµένοι AC συντελεστές συµπιέζονται συνήθως µε µια τροποποιηµένη µέθοδο Huffman coding που ονοµάζεται Variable Length Code (VLC) ή µε αριθµητική κωδικοποίηση. Ο DC συντελεστής µεταχειρίζεται µε ειδικό τρόπο γιατί αυτοί τείνουν να είναι όµοιοι σε κάθε block. Γι αυτό για την κωδικοποίηση του χρησιµοποιείται κάποια µέθοδος DPCM που χρησιµοποιεί την συσχέτιση µε τον DC συντελεστή του προηγούµενου block. Για έγχρωµες εικόνες στα παραπάνω στάδια προστίθεται ένα ακόµα. Πριν εφαρµοστεί ο DCT πάνω στα blocks η εικόνα µετασχηµατίζεται από την RGB απεικόνιση της (όπου το κάθε χρώµα σχηµατίζεται από τον συνδυασµό των χρωµάτων Red, Green, Blue) σε µια άλλη απεικόνιση γνωστή σαν YUV. H απεικόνιση αυτή χρησιµοποιεί 3 συστατικά το Y, Cb και Cr που αντιστοιχούν στην φωτεινότητα, ποσότητα µπλέ και ποσότητα κόκκινου και για τα οποία ισχύουν οι παρακάτω σχέσεις: Y = 0.299R G B 19

20 C b = 0.168R G + 0.5B C r = 0.5R G B O λόγος αυτού του µετασχηµατισµού είναι ότι το ανθρώπινο µάτι είναι πολύ λιγότερο ευαίσθητο στις αλλαγές των χρωµάτων C b, C r από ότι στις αλλαγές της φωτεινότητας Υ και συνεπώς µπορούµε να κάνουµε υπο δειγµατοληψία και να πάρουµε µία τιµή ανά 2 σε κάθε κατεύθυνση. Έτσι για κάθε 2x2 pixels χρησιµοποιούµε 4 τιµές Υ και µία τιµή C b, C r κάνοντας έτσι συµπίεση της τάξης του 50% χωρίς µάλιστα να χάνουµε αισθητά σε ποιότητα εικόνας. Σχ.1.6: Αντιστοιχία Y, C b και C r τιµών Στα πλεονεκτήµατα της µεθόδου είναι ότι τα καταφέρνει πολύ καλά σε φυσικές εικόνες αλλά όχι και σε τεχνητά φτιαγµένες όπως τα σκίτσα. Επίσης δεν έχει µεγάλη εφαρµογή σε εικόνες που δείχνουν γράµµατα και γραφικές παραστάσεις ή σχήµατα. Ένα ακόµα µειονέκτηµα της µεθόδου είναι ότι υπάρχει δυσαναλογία (tradeoff) ανάµεσα στο λόγο συµπίεσης και την ποιότητα της εικόνας όπως επίσης στην ταχύτητα εκτέλεσης και στην ποιότητα εικόνας. Δηλαδή, ότι κερδίζουµε στο ένα το χάνουµε από το άλλο. Προετο ιµασία τµηµάτ ων Διακριτός συνηµιτον οειδής µετασχηµα τισµός Κβαντι σµός Διαφορ ικός Κβαντι σµός Κωδικοποί ηση τρέχοντος µήκους Στατιστική κωδικοποίηση εξόδου Σχ.1.7.: Η λειτουργία του JPEG στην ακολουθιακή απωλεστική κατάσταση Το JPEG είναι περίπλοκο. Εφόσον όµως συχνά οδηγεί σε συµπίεση 20:1 ή και καλύτερη, χρησιµοποιείται ευρέως. Η αποκωδικοποίηση µιας εικόνας JPEG απαιτεί 20

21 την εκτέλεση του αλγόριθµου σε αντίστροφα βήµατα. Το JPEG είναι σχεδόν συµµετρικό: η αποκωδικοποίηση διαρκεί τόσο χρόνο όσο και η κωδικοποίηση. Αυτή η ιδιότητα δεν ισχύει για όλους τους αλγόριθµους συµπίεσης. [3], [4], [8], [25] 1.8. Το πρότυπο MPEG Τελικά, φτάσαµε στην καρδιά του θέµατος µας: τα πρότυπα της Οµάδας Ειδικών Κινούµενων Εικόνων ή MPEG (Moving Pictures Experts Group). Ο βασικός στόχος του standard δεν ήταν να καθορίσει µια συγκεκριµένη µέθοδο συµπίεσης όπως µε το JPEG αλλά αντίθετα να προσδιορίσει µία συµπιεσµένη ακολουθία bits (bit stream) η οποία θα καθορίζει από µόνη της την µέθοδο και τον τρόπο αποσυµπίεσης της. Γι αυτό o αλγόριθµος συµπίεσης µπορεί να πάρει διαφορετικές µορφές ανάλογα µε τον κατασκευαστή. Το MPEG αρχικά αναπτύχθηκε σαν ειδικό standard για εφαρµογές πολυµέσων (multimedia) και πιο συγκεκριµένα για να εξυπηρετεί ανάγκες διανοµής, αποθήκευσης και ανάκτησης video και ήχου από CD-ROM. Γι αυτό το λόγο έπρεπε να φτάνει ρυθµούς bit (bit rates) της τάξης των 1.5 Μbps και συνεπώς η χρονική καθυστέρηση της διαδικασίας συµπίεσης αποσυµπίεσης να µην υπερβαίνει το 1 sec. Έτσι δηµιουργήθηκε το MPEG-1 standard. Ένα άλλο χαρακτηριστικό του MPEG-1 είναι η δυνατότητα τυχαίας προσπέλασης των frames µέσα σε ένα περιορισµένο χρονικό διάστηµα. Δηλαδή τα frames µπορούν να αποσυµπιεστούν µε διαφορετική σειρά. Παρέχει επίσης τη δυνατότητα για γρήγορη κίνηση µπροστά και πίσω του video σήµατος όπως επίσης και ανάποδη κίνηση. Το standard υποστηρίζει διάφορες τεχνικές όπως motion estimation, motion compensated prediction, DCT, quantization και VLC. Επίσης χρησιµοποιεί ένα είδος πρόβλεψης της κίνησης (motion interpolation) και προς τις δύο κατευθύνσεις (bidirectional). Πριν τα εφαρµόσει όµως αυτά χωρίζει το σήµα (sequence) σε χρονικά blocks που αποτελούνται από συγκεκριµένο αριθµό frames και λέγονται group of pictures (GOP). Συνήθως ένα τέτοιο group αποτελείται από 15 frames (pictures) που σηµαίνει ότι είναι περίπου µισό δευτερόλεπτο video. 21

22 Σχ.1.8.: Διάταξη των frames σε µια MPEG σειρά To πρώτο frame στο GOP ονοµάζεται I-frame και συµπιέζεται µε DCT µεθόδους συµπίεσης στατικής εικόνας (intraframe coded) χωρίς να χρησιµοποιούµε πρόβλεψη από προηγούµενα ή επόµενα. Τα υπόλοιπα blocks στο GOP ονοµάζονται P-frames και B-frames. Στα P-frames χρησιµοποιούµε πρόβλεψη που βασίζεται στο προηγούµενο Ι-frame ή P-frame (forward) και συµπιέζουµε το σφάλµα πρόβλεψης. Για τα B-frames χρησιµοποιούµε πρόβλεψη βασισµένοι είτε µόνο στο προηγούµενο Ι/P-frame (forward) είτε στο επόµενο I/P-frame (backward) είτε και στα δύο (bidirectional). Σε ορισµένες εφαρµογές µπορεί να υπάρξουν και D-frames τα οποία περιέχουν µόνο την DC συνιστώσα και χρησιµεύουν για εφαρµογές αναζήτησης (browsing). Στο ακόλουθο σχήµα γίνεται αντιληπτός ο τρόπος µετάδοσης των frames από τον αποστολέα, έτσι ώστε να είναι δυνατή η αποκωδικοποίηση στον παραλήπτη. Σχ.1.9.: Διατάξεις εµφάνισης και λήψης των frames στο παραλήπτη Παρόλα τα καλά χαρακτηριστικά του όµως το MPEG-1 δεν ήταν αρκετό να εξυπηρετήσει εµπορικές εφαρµογές ψηφιακής τηλεόρασης. Γι αυτό έγινε µια δεύτερη προσπάθεια από το ίδιο group να βελτιώσουν την απόδοση του όσον αφορά την ποιότητα της εικόνας, αυξάνοντας το απαιτούµενο bit rate στα 3-15 Μbps. Η προσπάθεια αυτή οδήγησε στη δηµιουργία του MPEG-2 standard το οποίο συν τοις άλλοις υποστηρίζει interlaced video formats και παρέχει βαθµωτή αποσυµπίεση σε 22

23 πολλαπλές αναλύσεις. Για την υλοποίηση του έχουν προστεθεί καινούργια είδη frames (frame pictures και field pictures) για να υποστηρίξουν interlaced video, επίσης προβλέπεται πιο αναλυτική κβαντοποίηση των DCT συντελεστών και υιοθετείται η δυνατότητα να γίνει alternate scanning εναλλακτικά του zig-zag scanning. Η πιο πρόσφατη δουλειά της ίδιας οµάδας είναι το MPEG-4 το οποίο βρίσκεται αυτό το καιρό στη διαδικασία τυποποίησης. Το MPEG-4 έχει ως σκοπό τον συγχρονισµό και αλληλεπίδραση διαφορετικών τύπων media και την παροχή ενός ενοποιηµένου τρόπου µετάδοσης. Παρέχεται η δυνατότητα µετάδοσης στους εξής ρυθµούς : low (<64 kbps), intermediate (64-384kbps), και high (384-4Mbps) bit rates. Διαδικασίες για τον αρχικό σχεδιασµό των απαιτήσεων για το MPEG-7 έχουν επίσης ξεκινήσει. Το τελευταίο φαίνεται ότι θα είναι βελτιστοποιηµένο έτσι ώστε να µπορεί να υποστηρίζει διαδικασίες αναζήτησης µέσα στο περιεχόµενο. Πρόκειται για τους κύριους αλγόριθµους που χρησιµοποιούνται για τη συµπίεση του βίντεο, και είναι διεθνή πρότυπα από το Επειδή οι ταινίες περιέχουν τόσο εικόνες όσο και ήχο, το MPEG µπορεί να συµπιέσει και ήχο και βίντεο. Η παρούσα Διπλωµατική εργασία ασχολείται µε το βίντεο οπότε θα εξετάσουµε τη συµπίεση του βίντεο. Ειδικότερα για το MPEG-1, o στόχος του ήταν να παράγει έξοδο ποιότητας βιντεοκασέτας (352x240 για το NTSC) χρησιµοποιώντας ρυθµό µετάδοσης bit ίσο µε 1,2 Mbps. Μία εικόνα 352x240 µε 24 bit/ εικονοστοιχείο και 25 καρέ/ δευτερόλεπτο απαιτεί 50,7 Mbps, έτσι η µείωση του ρυθµού µετάδοσης στα 1,2 Mbps δεν είναι και τόσο απλή υπόθεση. Απαιτείται ένας παράγοντας συµπίεσης ίσος µε 40.Το MPEG-1 µπορεί να µεταδοθεί µέσω γραµµών µετάδοσης καλωδίων σύστροφου ζεύγους σε µέτριες αποστάσεις. Το MPEG-1 χρησιµοποιείται επίσης για την αποθήκευση ταινιών σε CD-ROM. Το επόµενο πρότυπο στην οικογένεια MPEG ήταν το MPEG-2 το οποίο σχεδιάστηκε αρχικά για συµπίεση βίντεο ποιότητας εκποµπής στα 4 έως 6 Mbps, έτσι ώστε να µπορεί να χωρέσει σε ένα κανάλι εκποµπής NTSC ή PAL. Αργότερα το MPEG-2 επεκτάθηκε έτσι ώστε να υποστηρίζει υψηλότερες αναλύσεις, συµπεριλαµβανοµένης της HDTV. Είναι πια πολύ συνηθισµένο, αφού αποτελεί τη βάση για το DVD και την ψηφιακή δορυφορική τηλεόραση. Το MPEG-1 έχει τρία µέρη: ήχος, βίντεο και σύστηµα, το οποίο ενοποιεί τα δύο πρώτα όπως φαίνεται στο παρακάτω σχήµα.. 23

24 Σήµα ήχου Κωδικοποιη τής ήχου Ρολόι Πολυπλέκτης συστήµατος Έξοδος MPEG-1 Σήµα βίντεο Κωδικοποιη τής βίντεο Σχ.1.10: Συγχρονισµός ροών ήχου και βίντεο στο MPEG-1 Οι κωδικοποιητές ήχου και βίντεο λειτουργούν ανεξάρτητα, γεγονός που δηµιουργεί το ζήτηµα του τρόπου συγχρονισµού των δύο ροών στον παραλήπτη. Το πρόβληµα αυτό λύνεται αν χρησιµοποιήσουµε ένα ρολόι συστήµατος στα 90 khz, το οποίο θα στέλνει την τρέχουσα τιµή χρόνου και στους δύο κωδικοποιητές. Οι τιµές αυτές έχουν µήκος 33 bit, ώστε να επιτρέπουν στις ταινίες να διαρκούν 24 ώρες χωρίς ανακύκλωση των τιµών. Οι χρονοσφραγίδες αυτές περιλαµβάνονται στην κωδικοποιηµένη έξοδο και διαδίδονται µέχρι τον παραλήπτη, ο οποίος µπορεί να τις χρησιµοποιήσει για να συγχρονίσει τις ροές ήχου και βίντεο. [4],[8] 1.9. Χαρακτηριστικά Συµπίεσης βίντεο MPEG-1 Στις ταινίες υπάρχουν δύο είδη πλεονασµών: χωρικοί και χρονικοί. Το MPEG-1 τους αξιοποιεί και τους δύο. Οι χωρικοί πλεονασµοί µπορούν να αξιοποιηθούν αν κωδικοποιήσουµε κάθε καρέ χωριστά µε το JPEG. Η προσέγγιση αυτή χρησιµοποιείται περιστασιακά, ειδικά όταν απαιτείται τυχαία προσπέλαση σε κάθε καρέ, όπως συµβαίνει κατά το µοντάρισµα παραγωγών βίντεο. Με αυτόν τον τρόπο λειτουργίας, µπορεί να επιτευχθεί συµπιεσµένο εύρος ζώνης της τάξης των 8 έως 10 Mbps. Μπορούµε να επιτύχουµε και πρόσθετη συµπίεση αν εκµεταλλευτούµε το γεγονός ότι τα διαδοχικά καρέ είναι συχνά σχεδόν πανοµοιότυπα. Αυτό το φαινόµενο είναι µικρότερο απ ότι ίσως φαίνεται αρχικά, επειδή πολλοί σκηνοθέτες αλλάζουν 24

25 σκηνή κάθε 3 ή 4 δευτερόλεπτα. Ωστόσο, ακόµα και µία ακολουθία 75 πολύ παρόµοιων καρέ δυνητικά παρέχει δυνατότητα µεγάλης µείωσης σε σχέση µε την απλή κωδικοποίηση κάθε καρέ σε µορφή JPEG. Για τις σκηνές τις οποίες η κάµερα και το φόντο είναι στατικά και στις οποίες κινούνται αργά ένας ή δύο ηθοποιοί, όλα σχεδόν τα εικονοστοιχεία θα είναι πανοµοιότυπα από καρέ σε καρέ. Στην περίπτωση αυτή, η απλή αφαίρεση κάθε καρέ από το προηγούµενο και η χρήση του JPEG στη διαφορά αποδίδει µια χαρά. Ωστόσο, για σκηνές όπου η κάµερα κινείται ή µεγεθύνει την εικόνα, η τεχνική αυτή αποτυγχάνει πλήρως. Αυτό που χρειάζεται είναι κάποιος τρόπος αντιστάθµισης αυτής της κίνησης. Αυτό ακριβώς είναι που κάνει το MPEG, και αυτή είναι και η βασική διαφορά ανάµεσα στο MPEG και το JPEG. Η έξοδος του MPEG αποτελείται από τέσσερα είδη καρέ: 1. Καρέ I (Intracoded, Ενδοκωδικοποιηµένα): Αυτόνοµες ακίνητες εικόνες κωδικοποιηµένες µε JPEG. 2. Καρέ P (Predictive, Προγνωστικά): Διαφορά τµήµατος προς τµήµα ως προς το τελευταίο καρέ. 3. Καρέ B (Bidirectional, Διπλής Κατεύθυνσης): Διαφορές µε το τελευταίο και επόµενο καρέ. 4. Καρέ D (DC-coded, Κωδικοποιητής DC): Μέσες τιµές τµηµάτων που χρησιµοποιούνται για γρήγορη κίνηση. Τα καρέ I είναι απλώς ακίνητες εικόνες που είναι κωδικοποιηµένες µέσω µιας παραλλαγής του JPEG, τα οποία έχουν λαµπρότητα πλήρους ανάλυσης και χρωµατικότητα µισής ανάλυσης σε κάθε άξονα. Τα καρέ I είναι απαραίτητο να εµφανίζονται περιοδικά στη ροή εξόδου, για τρεις λόγους. Το MPEG-1 µπορεί να χρησιµοποιηθεί για µετάδοση πολυδιανοµής, µε τους θεατές να συντονίζονται όποτε θέλουν. Αν όλα τα καρέ εξαρτώνταν από τους προκατόχους τους φτάνοντας µέχρι το πρώτο καρέ, όποιος έχανε το πρώτο καρέ δε θα µπορούσε ποτέ να αποκωδικοποιήσει κανένα επόµενο καρέ. Αν λαµβανόταν εσφαλµένα ένα καρέ, δεν θα ήταν δυνατή η περαιτέρω αποκωδικοποίηση. Αν δεν υπήρχαν εσφαλµένα καρέ I, τότε όταν χρειαζόταν γρήγορη κίνηση προς τα εµπρός ή προς τα πίσω ο αποκωδικοποιητής θα έπρεπε να υπολογίσει κάθε καρέ που θα προσπερνούσε, έτσι ώστε να γνωρίζει την πλήρη τιµή του καρέ στο 25

26 οποίο θα σταµατούσε. Για τους λόγους αυτούς εισάγονται καρέ I στη ροή εξόδου µία ή δύο φορές ανά δευτερόλεπτο. Αντίθετα, τα καρέ P κωδικοποιούν τις διαφορές µεταξύ καρέ. Βασίζονται στην ιδέα των µακροτµηµάτων (macroblock), τα οποία καλύπτουν 16x16 εικονοστοιχεία στο χώρο της λαµπρότητας και 8x8 εικονοστοιχεία στο χώρο της χρωµατικότητας. Το µακροτµήµα κωδικοποιείται ψάχνοντας στο προηγούµενο καρέ για τον εαυτό του ή για κάτι που να είναι ελαφρώς διαφορετικό από αυτό. [4], [8] Χαρακτηριστικά Συµπίεσης Βίντεο MPEG-2 Η κωδικοποίηση του MPEG-2 είναι κατά βάση παρόµοια µε την κωδικοποίηση του MPEG-1, µε καρέ I, καρέ P και καρέ B. Δεν υποστηρίζονται όµως τα καρέ D. Επιπλέον, ο διακριτός συνηµιτονοειδής µετασχηµατισµός χρησιµοποιεί τµήµα 10x10, αντί για τµήµα 8x8 δίνοντας έτσι 50% περισσότερους συντελεστές άρα και καλύτερη ποιότητα. Αφού το MPEG-2 έχει ως στόχο τις τηλεοπτικές εκποµπές αλλά και το DVD υποστηρίζει τόσο τις προοδευτικές όσο και τις πεπλεγµένες εικόνες, σε αντίθεση µε το MPEG-1 που υποστηρίζει µόνο προοδευτικές εικόνες. Διαφέρουν επίσης και κάποιες άλλες µικρές λεπτοµέρειες ανάµεσα στα δύο πρότυπα. Αντί να υποστηρίζει µόνο ένα επίπεδο ανάλυσης το MPEG-2 υποστηρίζει τέσσερα επίπεδα: χαµηλή (352x240), κύρια (720x480), υψηλή-1440 (1440x1152) και υψηλή (1920x1080). Η χαµηλή ανάλυση προορίζεται για τις βιντεοκασέτες και για προς τα πίσω συµβατότητα µε το MPEG-1. Η κύρια ανάλυση είναι η συνηθισµένη ανάλυση για εκποµπές NTSC. Οι άλλες δύο αναλύσεις χρησιµοποιούνται για την HDTV. Για έξοδο υψηλής ποιότητας, το MPEG-2 συνήθως λειτουργεί στα 4-8 Mbps.Τα χαρακτηριστικά των MPEG-1 και MPEG-2 codec είναι: MPEG-1 Video CD- Ποιότητα VHS Video CD- Ποιότητα VHS MPEG-1, MPEG-1, PAL, PAL, 352x288, 352x288, fps, fps, CBR CBR (Constant (Constant bitrate) bitrate) kbits/sec kbits/se MPEG-1 MPEG-1 Audio Layer Audio II, Layer 44100Hz, II, 44100Hz, Stereo, Stereo, 224kbits/sec 224kbits/sec 26

27 MPEG-2 Super Video CD 2 γλώσσες-4 υπότιτλοι MPEG-2, PAL, 480x576, 25 fps CBR ή VBR έως 2520 kbits/sec MPEG-1 Audio Layer II, 44100Hz, Stereo, 224kbits/sec DVD 8 γλώσσες- 9 κάµερες-32 υπότιτλοι ποιότητα BETA MPEG-2, PAL, 720x576, 25 fps CBR ή VBR 700 έως 9200 kbits/sec MPEG-1 Audio Layer II, 48000Hz, Stereo, kbits/sec ή ή Dolby Digital (AC-3), 48000Hz, 6 ch, kbits/sec ή ή Linear PCM, 48000Hz, Stereo, 1536kbits/sec [4],[8],[15] Χαρακτηριστικά Συµπίεσης Bίντεo MPEG-4 Κάποια χαρακτηριστικά που ξεχωρίζουν το πρότυπο MPEG-4 από τα προηγούµενα πρότυπα συµπίεσης είναι τα παρακάτω: Ικανοποιητική συµπίεση των αλληλουχιών βίντεο τόσο της πλεκτής όσο και της προοδευτικής σάρωσης. Τα βασικά εργαλεία συµπίεσης υπερτερούν έναντι των αντιστοίχων εργαλείων των προτύπων MPEG-1 και MPEG-2. Προαιρετικά επιπλέον εργαλεία βελτιώνουν περαιτέρω την ικανότητα συµπίεσης. Κωδικοποίηση των αντικειµένων του βίντεο (ιδιαίτερα των µη οµαλών σχηµάτων των αντικειµένων µιας σκηνής βίντεο). Αυτή είναι µία νέα αντίληψη για τα πρότυπα κωδικοποίησης βίντεο και δίνει τη δυνατότητα για ανεξάρτητη κωδικοποίηση των αντικειµένων που βρίσκονται στο φόντο σε σχέση µε τα αντικείµενα που βρίσκονται στο προσκήνιο µιας σκηνής βίντεο. Υποστήριξη για ικανοποιητική µετάδοση σε πρακτικά δίκτυα. Τα εργαλεία ανθεκτικότητας στο σφάλµα βοηθούν έναν αποκωδικοποιητή να επανέλθει από τα σφάλµατα µετάδοσης και να διατηρήσει µία επιτυχή συνοχή στο βίντεο σε ένα επιρρεπές στα σφάλµατα περιβάλλον δικτύου. Επιπλέον, εργαλεία κωδικοποίησης µπορούν να υποστηρίξουν ευέλικτη µετάδοση για µία κλίµακα από κωδικοποιηµένους ρυθµούς bit. 27

28 Κωδικοποίηση της συστατικής δοµής των ακίνητων εικόνων. Αυτό σηµαίνει, για παράδειγµα, ότι οι ακίνητες εικόνες µπορούν να κωδικοποιηθούν και να µεταδοθούν µέσα στο ίδιο πλαίσιο εργασίας σαν αλληλουχίες κινούµενων εικόνων βίντεο. Τα εργαλεία κωδικοποίησης της υφής µπορούν επιπλέον, να χρησιµοποιηθούν σε συνδυασµό µε την παροχή δυναµικής κίνησης των αντικειµένων. Κωδικοποίηση των ζωντανών κινούµενων αντικειµένων όπως τα δισδιάστατα και τρισδιάστατα πλέγµατα, τα κινούµενα πρόσωπα και τα κινούµενα ανθρώπινα σώµατα. Κωδικοποίηση εξειδικευµένων εφαρµογών όπως ποιότητα βίντεο «studio». Σ αυτό το είδος εφαρµογής η οπτική ποιότητα είναι ίσως πιο σηµαντική από την υψηλή συµπίεση. [8], [25] Codecs στη σύλληψη- συµπίεση video Α) Χωρική (ενδοπλαισιακή)- Πλήρως επεξεργάσιµο M-JPEG (*.avi) DV (*.avi) HUFFYUV (*.avi) Cinepak της Radius (*.avi) Διάφοροι συµπιεστές καρτών σύλληψης (*.avi) Β) Χρονική (διαπλαισιακή) - µερικώς επεξεργάσιµο MPEG -1 (*.mpg) [VCD] MPEG -2 (*.mpg) [SVCD DVD] MPEG -4 (*.avi) Quick Time (*.mov) Real Media (*.rm) Windows Media Video (*.wmv) 28

29 1.13. Απαιτήσεις σε Hardware/ Software Για σύλληψη Video Κάρτα σύλληψης video - ήχου Κεντρική Μονάδα Επεξεργασίας (CPU) Σκληρός δίσκος Δίαυλος δεδοµένων (Data bus) Λογισµικό σύλληψης Codec σύλληψης Κατάλληλο λειτουργικό Για επεξεργασία Video Κάρτα γραφικών Μνήµη RAM Οθόνη Λογισµικό επεξεργασίας Codec αποθήκευσης [4],[15] Τεχνολογία DV Η τεχνολογία DV (Digital Video) είναι µία πλήρως ψηφιακή παραγωγή, επεξεργασία και αποθήκευση της οπτικοακουστικής πληροφορίας. Τα πλεονεκτήµατά της είναι η µεγαλύτερη ανάλυση, η καλύτερη απόδοση χρωµατικής πληροφορίας καθώς και ο υψηλός λόγος σήµατος προς θόρυβο. Τα χαρακτηριστικά της συνοψίζονται στον παρακάτω πίνακα. 29

30 DV S-VHS/Hi8 VHS/8mm Κάθετη ανάλυση 500 (γραµµές) Κωδικοποίηση χρώµατος Component Y/C Composite Λόγος σήµατος προς 60 θόρυβο (S/N σε db) Πιν.1.3.: Χαρακτηριστικά τεχνολογίας DV Η συλλογή των ψηφιακών Video Clip γίνεται µε τους παρακάτω τρόπους: Μέσω κάρτας σύλληψης από αναλογικό Video Μέσω κάρτας σύλληψης µε τηλεοπτικό δέκτη, από τηλεοπτικό σήµα Αντιγραφή video clip από κάµερα DV Αντιγραφή αρχείων video από διάφορα αποθηκευτικά µέσα Κατέβασµα αρχείων video από το διαδίκτυο Απόσπαση video τίτλων (extraction) από DVD, SVCD, VCD Σύλληψη της απεικόνισης της οθόνης του υπολογιστή [4],[15] Επεξεργασία Βίντεο και προγράµµατα επεξεργασίας Η επεξεργασία ενός βίντεο παρουσιάζει µεγάλο ενδιαφέρον και περιλαµβάνει τις παρακάτω ενέργειες: Σύλληψη ή εισαγωγή video Αντιγραφή, αποκοπή, επικόλληση video clip Εισαγωγή εφφέ αλλαγής πλάνου Μοντάζ καναλιών video 30

31 Εφαρµογή ειδικών φίλτρων σε video clip Εισαγωγή αρχείων ήχου Εισαγωγή αρχείων εικόνας και γραφικών Εισαγωγή κειµένου και τίτλων Animation σε video clip, τίτλους και γραφικά Ρύθµιση έντασης clip ήχου Αλλαγή χρονικής διάρκειας video clip Μείξη καναλιών ήχων Εξαγωγή και συµπίεση video, εικόνας, ήχου Τα προγράµµατα επεξεργασίας είναι το Premiere της Adobe, το Final Cut της Apple, το Media Composer της Avid κ.α. [4],[15] 31

32 2ο Κεφαλαίο Το πρότυπο MPEG Εισαγωγή στο πρότυπο MPEG-7 Από το 1988 έως σήµερα το Moving Picture Expert Group (MPEG) έχει αναπτύξει πρότυπα συµπίεσης ήχου και εικόνας τα όποια έχουν αλλάξει ριζικά τον τρόπο µε τον οποίο το ηχητικό, οπτικό ή οπτικοακουστικό περιεχόµενο παράγεται, διανέµεται και φτάνει τελικά στους καταναλωτές µέσα από µια πληθώρα συσκευών. Το πρότυπο MPEG είναι στενά συνδεδεµένο µε ακουστικά και τηλεοπτικά µέσα σε ψηφιακή µορφή. Πριν από την εµφάνιση του MPEG ο µόνος τρόπος για τη µεταφορά και αποθήκευση ήχου και εικόνας ήταν µε αναλογικά µέσα. Το MPEG έφερε την επανάσταση στο χώρο των πολυµέσων παρέχοντας τεράστιες δυνατότητες µεταφοράς και αποθήκευσης εικόνας, ήχου και βίντεο σε ψηφιακή µορφή. Αρχικά τα πρότυπα MPEG-1 και MPEG-2 βοήθησαν πολύ προς αυτή την κατεύθυνση. Δόθηκε η δυνατότητα σε µεγάλα αρχεία ήχου να διαχειριστούν, να αποθηκευθούν καθώς και να µεταδοθούν πιο εύκολα. Η ψηφιακή µορφή των δεδοµένων εισήγαγε στο χώρο της τηλεόρασης τη δυνατότητα αποθήκευσης πολλών τηλεοπτικών προγραµµάτων στο εύρος ζώνης που χρησιµοποιούνταν προηγουµένως για να φέρει ένα τηλεοπτικό πρόγραµµα. Η µετάβαση από την αναλογική στην ψηφιακή µορφή των δεδοµένων οδήγησε στην εφεύρεση νέων δίσκων µεγαλύτερης χωρητικότητας ως µέσα αποθήκευσης, τα γνωστά DVDs.Η είσοδος του MPEG-2 στο χώρο της βιοµηχανίας των πολυµέσων είχε ως αποτέλεσµα την κατάλληλη ανταπόκριση δεδοµένων στην ψηφιακή τηλεόραση, τόσο στην εκποµπή από δορυφόρο όσο και στην καλωδιακή τηλεόραση. Το MPEG-4 στη συνέχεια επέκτεινε τη δυνατότητα µεταφοράς εικόνας, ήχου και βίντεο σε νέα περιβάλλοντα όπως το Διαδίκτυο. Η ιδέα που υπήρχε στο µυαλό των ανθρώπων που απαρτίζουν την οµάδα του MPEG από το 1993 ήταν η διαδικασία ανάπτυξης ενός προτύπου το οποίο θα αναπαριστούσε µια οπτικοακουστική πληροφορία η οποία θα περιέγραφε ή θα 32

33 εξέφραζε τη σηµασιολογική έννοια της πληροφορίας και άρα θα ωθούσε τους ανθρώπους να ανακαλύψουν τι υπάρχει σε µια οµάδα οπτικοακουστικών αντικειµένων χωρίς να πρέπει στην πραγµατικότητα να έχουν πρόσβαση στην ίδια την πληροφορία. Σε αντίθεση λοιπόν µε τα προηγούµενα πρότυπα κωδικοποίησης (MPEG-1, MPEG-2 και MPEG-4) το MPEG-7 εστιάζει στην αναπαράσταση της πληροφορίας για το περιεχόµενο και όχι στο ίδιο το περιεχόµενο. Η αρχική αυτή ιδέα επίσηµα άρχισε να τίθεται σε εφαρµογή µόλις το Ο σκοπός του προτύπου MPEG-7 που επίσηµα λέγεται «Multimedia Content Description Interface» είναι να παρέχει µια πλούσια οµάδα από τυποποιηµένα εργαλεία για να περιγράψει το περιεχόµενο ενός πολυµεσικού υλικού. Σταδιακά λοιπόν δηµιουργήθηκε η «κοινότητα του MPEG-7» η οποία κλήθηκε να επιλύσει ορισµένες ασάφειες και διαφορές που ενέπιπταν από την αρχή της σύνθεσής της. Για παράδειγµα, δεν ήταν σαφές ποια ήταν η διαφορά ανάµεσα στο τι χρειαζόταν σε έναν αλγόριθµο ή σε µία εφαρµογή και τι απαιτήσεις είχε ένα πρότυπο. Δεν ήταν επίσης σαφές ποιες ήταν οι διασυνδέσεις στις οποίες αναφερόταν το πρότυπο. Ακόµα λιγότερο σαφές ήταν το τι χαρακτήριζε έναν «MPEG-7 κωδικοποιητή» και ποιες ήταν οι ακριβείς συναρτήσεις για τη βελτιστοποίηση του κωδικοποιητή οι οποίες ήταν το θέµα της προτυποποίησης και γι αυτό το λόγο αναφέρονταν και στον «MPEG-7 αποκωδικοποιητή». Επιπλέον η διάκριση ανάµεσα στους ακουστικούς ή οπτικούς περιγραφείς (Audio or Visual Descriptors) και στα Σχήµατα Περιγραφής (Description Schemes) φαινόταν αδύνατη. Παρόλο που το πρότυπο MPEG-7 από την έναυση της χρησιµοποίησης του είχε να αντιµετωπίσει τις παραπάνω δυσκολίες αποδείχθηκε εντούτοις και αποδεικνύεται συνεχώς ότι είναι ένα στέρεο και αποδοτικό πρότυπο. Ενώ τα ακουστικά κοµµάτια παρέχουν µόνο ακουστικούς περιγραφείς και τα οπτικά κοµµάτια µόνο οπτικούς περιγραφείς, τα κοµµάτια από τα Σχήµατα Περιγραφής Πολυµέσων (MDS) παρέχουν τυποποιηµένα σχήµατα περιγραφής που περιέχουν τόσο ακουστικούς όσο και οπτικούς περιγραφείς. Η γλώσσα περιγραφής του ορισµού (DDL) παρέχει µια τυποποιηµένη γλώσσα για να εκφράζει τα σχήµατα περιγραφής, ενώ τα κοµµάτια των Συστηµάτων παρέχουν την απαραίτητη σύνδεση η οποία κάνει εφικτή τη χρήση του προτύπου σε πρακτικά περιβάλλοντα. Από τα παραπάνω γίνεται σαφές ότι ενώ τα MPEG-1, MPEG-2 και MPEG-4 έδωσαν τα εργαλεία µε τα οποία η αφθονία του οπτικοακουστικού περιεχοµένου είναι 33

34 υπαρκτή το MPEG-7 παρέχει τα µέσα µε τα οποία είναι δυνατή η πλοήγηση σ αυτό το πλούσιο περιεχόµενο. [1],[4] 2.2. Σκοπός του προτύπου MPEG-7 Το θέµα της παρούσης Διπλωµατικής εργασίας είναι ο χαρακτηρισµός αντικειµένων από video µε το MPEG-7. Είναι λοιπόν σαφές ότι αυτό που θα µας απασχολήσει παρακάτω είναι κυρίως η χρησιµοποίηση του προτύπου και των εργαλείων του σε οπτικό επίπεδο. Ο απώτερος λοιπόν σκοπός του οπτικού προτύπου MPEG-7 είναι η παροχή τυποποιηµένων περιγραφών για εικόνες ή video µε τη βοήθεια κάποιων εργαλείων τα οποία βοηθούν τους χρήστες και τις εφαρµογές να αναγνωρίσουν, να κατηγοριοποιήσουν ή και να φιλτράρουν τις εικόνες ή το video. Το πρότυπο από την αρχή της ανάπτυξης του έως σήµερα έχει σαν στόχο να προσδιορίσει ένα συγκεκριµένο τρόπο για να περιγράψει οποιοδήποτε τύπο πληροφορίας ανεξάρτητα τόσο από τον τρόπο µε τον οποίο αυτή αναπαρίσταται όσο και από το µέσο αποθήκευσής της. Το επόµενο βήµα για την επίτευξη αυτού του στόχου είναι η γρήγορη και αποδοτική αναγνώριση της σχετικής πληροφορίας και η αποδοτική διαχείρισή της. Οι περιγραφές αυτές είναι είτε µε τη µορφή κειµένου είτε όχι. Για την πλήρη και αποδοτική αξιοποίηση του MPEG-7 ήταν απαραίτητο να ικανοποιηθούν κάποιες καλώς ορισµένες απαιτήσεις. Οι απαιτήσεις αυτές οι οποίες θα αναφερθούν αναλυτικότερα παρακάτω έχουν άµεση σχέση µε τα εργαλεία του προτύπου. Τα πλεονεκτήµατα του MPEG-7 σε σχέση µε άλλα πρότυπα που επιχειρούν να περιγράψουν ανάλογο περιεχόµενο είναι η αυξηµένη ικανότητα επικοινωνίας και συνεργασίας ανάµεσα σε διαφορετικά συστήµατα και σε διαφορετικούς χρήστες στους οποίους απευθύνεται το πρότυπο. Για παράδειγµα δεν επιτρέπουν όλα τα πρότυπα την έρευνα σε διαφορετικές αποθήκες πληροφοριών και ειδικότερα δεν διευκολύνουν την ανταλλαγή περιεχοµένων ανάµεσα σε διαφορετικές βάσεις δεδοµένων που χρησιµοποιούν διαφορετικά συστήµατα περιγραφής. Η αυξηµένη αυτή δυνατότητα επικοινωνίας και παρεµβολής του χρήστη σε συνδυασµό µε την παροχή τυποποιηµένων υπηρεσιών µε χαµηλότερο σχετικά κόστος καθιστούν το MPEG-7 ένα ολοκληρωµένο, τεχνικά ορθό και εξαιρετικά χρήσιµο πρότυπο περιγραφής. [1], [5] 34

35 2.3. Τύποι εργαλείων Στην προσπάθεια των παραγόντων του MPEG-7 να επιτύχουν τον στόχο που είχαν θέσει από την αρχή της ανάπτυξης του προτύπου ήταν προφανές ότι έπρεπε να δηµιουργήσουν µια οµάδα εργαλείων. Τα εργαλεία αυτά είναι: Οι περιγραφείς (τα στοιχεία) Τα σχήµατα περιγραφής (οι δοµές) Μία γλώσσα περιγραφής του ορισµού (DDL) και Έναν αριθµό από εργαλεία του Συστήµατος Αναλυτικότερα: Οι Περιγραφείς Σχ.2.1.: Εργαλεία του MPEG-7 Ένας περιγραφέας ορίζει τη σύνταξη και τη σηµασία ενός ιδιαίτερου χαρακτηριστικού σε ένα οπτικοακουστικό περιεχόµενο, όπου αυτό το ιδιαίτερο χαρακτηριστικό το οποίο περιγράφεται, δηλώνει κάτι σε κάποιον (το χρήστη). Για παράδειγµα, το χρώµα σε µια εικόνα είναι ένα χαρακτηριστικό. Πιθανοί περιγραφείς 35

36 που ανταποκρίνονται στο χαρακτηριστικό του χρώµατος είναι: το ιστόγραµµα χρώµατος, το RGB διάνυσµα ή µια σειρά χαρακτήρων. Μία τιµή ενός περιγραφέα είναι µία ένδειξη για µία ορισµένη οµάδα δεδοµένων. Για παράδειγµα, η τιµή RGB = (255,255,255) ή colorstring = red δηλώνει ότι το χρώµα είναι κόκκινο. Ο παρακάτω πίνακας δείχνει κάποιους από τους σύγχρονους περιγραφείς οι οποίοι έχουν ενσωµατωθεί στο ΧΜ (experimentation Model) ή έχουν υποστεί ουσιαστικά πειράµατα (core experiments). Οι περιγραφείς χωρίζονται σε Ακουστικούς και Οπτικούς. Είδος Χαρακτηριστικό Περιγραφέας Οπτικό Ακουστική Βασικές Δοµές Χρώµα Υφή Σχήµα Κίνηση Σχολιασµός οµιλίας Ηχητική χροιά (ηχόχρωµα) Μελωδία Σχέδιο πλέγµατος Ιστόγραµµα Θέση χρώµατος Κυρίαρχο χρώµα Ιστόγραµµα χρώµατος Κβαντισµός χρώµατος Ένταση χωρικής κατανοµής εικόνας Οµογενής υφή Αντικείµενο που αναπηδάει σε κουτί Σχήµα βασισµένο σε µια περιοχή Σχήµα βασισµένο σε περίγραµµα Περιγραφέας τρισδιάστατου σχήµατος Κίνηση της βιντεοκάµερας ή φωτ.µηχανής Τροχιά της κίνησης του αντικειµένου Παραµετρική κίνηση του αντικειµένου Δραστηριότητα κίνησης Χαρακτηριστικά της τροχιάς της κίνησης όπως ταχύτητα, κατεύθυνση, επιτάχυνση Ροή λέξεων και φωνηµάτων συν µεταδεδοµένα Αναλογία άρτιων προς περιττές αρµονικές (συχνότητες) Συνοχή αρµονικών Περίγραµµα και ρυθµός της µελωδίας Πίν. 2.1:.Αναφορά στους περιγραφείς 36

37 Κάθε περιγραφέας ορίζεται από κανονιστικά και µη-κανονιστικά µέρη. Τα κανονιστικά µέρη του περιγραφέα αποτελούνται από τη σύνταξη, τη σηµασιολογία καθώς και από τη δυαδική αναπαράσταση αυτών. Τα προαιρετικά, µη- κανονιστικά µέρη είναι η προτεινόµενη εξαγωγή και οι µέθοδοι συνταιριάσµατος µε βάση την οµοιότητα. Πολλά χαµηλού επιπέδου χαρακτηριστικά µπορούν να εξαχθούν από το περιεχόµενο αυτόµατα όπως για παράδειγµα το ιστόγραµµα χρώµατος. Οι προτεινόµενοι αλγόριθµοι για την εξαγωγή των χαρακτηριστικών περιλαµβάνονται στα µη- κανονιστικά µέρη ορισµένων περιγραφέων. Η ίδια προσέγγιση ισχύει και στο κριτήριο οµοιότητας ανάµεσα στις τιµές κάποιου περιγραφέα στον οποίο τα αποτελέσµατα ταξινοµούνται µε βάση το βαθµό οµοιότητας µε το εξεταζόµενο αντικείµενο. Μία συνιστώµενη µέθοδος οµοιότητας µπορεί να διευκρινιστεί µέσα σε ένα µη- κανονιστικό συστατικό κάποιου περιγραφέα που ωστόσο δεν είναι απαραίτητο για τη διαδραστική επικοινωνία και συνεργασία. Κάποια θέµατα που µένουν ανοιχτά όσον αφορά τους περιγραφείς και επιδέχονται περαιτέρω επεξεργασία είναι τα παρακάτω: 1. Αν είναι δυνατόν να τυποποιηθούν κάποιοι περιγραφείς όπως η χροιά για παράδειγµα χωρίς ωστόσο να τυποποιηθεί η εξαγωγή χαρακτηριστικών και οι άλλες µέθοδοι οµοιότητας. 2. Πώς κάποιος µπορεί να συγκρίνει την απόδοση των περιγραφέων µε επικαλυπτόµενη λειτουργικότητα στα πειράµατα 3. Πως κάποιος µπορεί να συνδέσει το διαδικαστικό κώδικα όπως την εξαγωγή ή τις µεθόδους οµοιότητας στην περιγραφή 4. Πως κάποιος µπορεί να ορίσει σύνθετους περιγραφείς όπως πίνακες µε παραµέτρους στην γλώσσα ορισµού περιγραφής και 5. Υπό ποιες προϋποθέσεις ένας σύνθετος περιγραφέας γίνεται σχήµα περιγραφής. Τα Σχήµατα Περιγραφής Ένα σχήµα περιγραφής διευκρινίζει τη δοµή και την σηµασιολογία των σχέσεων ανάµεσα στα µέρη που το απαρτίζουν, τα οποία µπορεί να είναι είτε Περιγραφείς είτε Σχήµατα Περιγραφής. Οι παρακάτω έννοιες χρησιµοποιούνται στα Σχήµατα Περιγραφής για να περιγράψουν το οπτικοακουστικό περιεχόµενο: 37

38 Η συντακτική δοµή η οποία είναι η φυσική και λογική δοµή του οπτικοακουστικού περιεχοµένου (για παράδειγµα: δοµές βασισµένες σε χωρικά τµήµατα ή χωρικές περιοχές) Η σηµασιολογική δοµή η οποία είναι η διάσπαση που βασίζεται σε σηµασιολογική ερµηνεία π.χ. δοµές βασισµένες σε χρονικά γεγονότα ή σε χωρικά αντικείµενα ή και τα δύο. Οι Συντακτικές, σηµασιολογικές συνδέσεις οι οποίες είναι οι σχέσεις ανάµεσα σε συντακτικά και σηµασιολογικά στοιχεία. Το Γενικό Οπτικοακουστικό Σχήµα Περιγραφής αναπαριστά την ενοποίηση όλων των εισηγήσεων και των προτάσεων για τα σχήµατα Περιγραφής µέσα σε ένα Σχήµα Περιγραφής. Αυτό αποτελείται από τα παρακάτω µέρη: Μία οµάδα από Συντακτικά Σχήµατα περιγραφής της δοµής π.χ. φυσικά χαρακτηριστικά όπως τµήµατα, περιοχές, χρώµα, υφή και κίνηση περιγράφονται εδώ. Μία οµάδα από Συντακτικά Σχήµατα περιγραφής της δοµής π.χ. σηµασιολογικά χαρακτηριστικά όπως αντικείµενα, ηθοποιοί ή γεγονότα όπως ένα γκολ σε έναν αγώνα ή µία διαφήµιση περιγράφονται εδώ. Τα Σχήµατα περιγραφής που περιγράφουν τις συντακτικές και τις σηµασιολογικές συνδέσεις που συσχετίζουν τα συντακτικά στοιχεία µε τα σηµασιολογικά στοιχεία. Τα συνοπτικά Σχήµατα Περιγραφής (Summary DS) που καθιστούν εφικτό το κλιµακούµενο ψάξιµο σε σύνολο πληροφοριών που βρίσκονται σε επίπεδα διαφορετικής πολυπλοκότητας. Τα Σχήµατα Περιγραφής Μεταπληροφοριών (MetaInfo DS) περιέχουν περιγραφείς που φέρουν πληροφορίες που αφορούν το συγγραφέα ή τον εκδότη π.χ. Σχήµατα περιγραφής που αναφέρονται στα δικαιώµατα, στο σκοπό δηµιουργίας και στην αναγνώριση του προτύπου. Τα σχήµατα περιγραφής που αφορούν το µέσο (MediaInfo DS) περιέχουν πληροφορίες που σχετίζονται µε το µέσο αποθήκευσης π.χ. σε ποια µορφή βρίσκεται ένα αρχείο, η διάρκεια, το µέγεθος, ο ήχος, το χρώµα και η µορφή συµπίεσης. 38

39 Τα σχήµατα περιγραφής που περιγράφουν τα διάφορα υποδείγµατα (model DS) παρέχουν ένα τρόπο περιγραφής των µεθόδων κατάταξης των οπτικοακουστικών δεδοµένων ή την αντιστοιχία ανάµεσα σε ένα σύγχρονο οπτικοακουστικό περιεχόµενο και σε κάποιο άλλο περιεχόµενο διαφορετικού υποδείγµατος. Ένα από τα µεγαλύτερα προβλήµατα µε την εργασία των Σχηµάτων Περιγραφής είναι το µέγεθος και η πολυπλοκότητα του Γενικού Οπτικοακουστικού Σχήµατος Περιγραφής. Υπάρχει µία σοβαρή ποσότητα λειτουργικοτήτων περίσσειας και επικάλυψης ανάµεσα στα διαφορετικά σχήµατα περιγραφής που έχουν προταθεί και έχουν συµπεριληφθεί. Κάποιες από τις προτάσεις οι οποίες έχουν ενσωµατωθεί είναι εξαιρετικά πολύπλοκες και αµφίβολης εφαρµοσιµότητας. Εκτός από µία βιβλιοθήκη που παρέχει απλά σχήµατα περιγραφής πολλοί χρήστες ενδεχοµένως που θέλουν απλά δοµές µεταδεδοµένων των πολυµέσων διπλού επιπέδου ίσως βρουν το MPEG-7 πολύπλοκο και φοβηθούν να το χρησιµοποιήσουν. Η Γλώσσα Περιγραφής Ορισµού Η γλώσσα περιγραφής του ορισµού (DDL) είναι η γλώσσα η οποία επιτρέπει τη δηµιουργία νέων περιγραφέων και σχηµάτων περιγραφής. Επιπλέον επιτρέπει την επέκταση και την τροποποίηση των ήδη υπαρχόντων σχηµάτων περιγραφής. Η γλώσσα περιγραφής του ορισµού οφείλει να εκφράζει τις χωρικές, χρονικές, δοµικές και εννοιολογικές σχέσεις ανάµεσα στα στοιχεία ενός σχήµατος περιγραφής και ανάµεσα στα σχήµατα περιγραφής γενικότερα. Οφείλει να παρέχει ένα πλούσιο υπόδειγµα για συνδέσεις και αναφορές ανάµεσα σε µία ή περισσότερες περιγραφές και στα δεδοµένα τα οποία αυτή περιγράφει. Επίσης, η γλώσσα περιγραφής του ορισµού πρέπει να είναι ικανή να πιστοποιεί τους τύπους δεδοµένων του περιγραφέα, τόσο τους απλούς όπως είναι για παράδειγµα οι ακέραιοι αριθµοί, το κείµενο, η ηµεροµηνία ή ο χρόνος όσο και τους πιο σύνθετους όπως τα ιστογράµµατα και οι τύποι δεδοµένων απαριθµητών. Επιπλέον πρέπει να είναι ένα είδος πλατφόρµας που να µην εξαρτάται από την κάθε εφαρµογή ούτε και από το µηχάνηµα ή από το χρήστη που θα την εκτελέσει. Η γενική οµοφωνία στο πρότυπο του MPEG-7 ήταν ότι η γλώσσα περιγραφής του ορισµού θα πρέπει να είναι βασισµένη στη σύνταξη της XML (Extensible Markup Language). 39

40 Είναι γεγονός πως προηγήθηκαν πολλές συναντήσεις και συνεδριάσεις των ιθυνόντων της οµάδας του MPEG-7 για την κατάληξη της επιλογής της XML ως γλώσσα στην οποία θα βασιστεί η DDL για να αναπτύξει το πρότυπο της. Η αναφορά αυτών των στοιχείων ξεφεύγει από τους σκοπούς της παρούσης Διπλωµατικής εργασίας γι αυτό και είναι σκόπιµη η παράλειψη τους. Η γλώσσα περιγραφής του ορισµού (DDL) είναι µία γλώσσα σχηµατικής αναπαράστασης που αναπαριστά τα αποτελέσµατα που παρουσιάζουν οπτικοακουστικά δεδοµένα σαν µία οµάδα από συντακτικούς, δοµικούς και άλλους περιορισµούς µε τους οποίους οι έγκυροι περιγραφείς, τα σχήµατα περιγραφής και οι περιγραφές οφείλουν να συµµορφώνονται. Επίσης παρέχει συντακτικούς κανόνες τους οποίους οι χρήστες µπορούν να συνδυάσουν, να επεκτείνουν και να βελτιώσουν ήδη υπάρχοντες περιγραφείς και σχήµατα περιγραφής για να δηµιουργήσουν περιγραφές ορισµών που είναι εξειδικευµένοι για κάθε εφαρµογή. Ο σκοπός του σχήµατος του MPEG-7 είναι να ορίσει µία κλάση από MPEG-7 έγγραφα. Τα παραδείγµατα του MPEG-7 είναι XML έγγραφα τα οποία συµµορφώνονται στους κανόνες του σχήµατος του MPEG-7 εκφράζονται µέσω της DDL και περιγράφουν οπτικοακουστικό περιεχόµενο. Επιπροσθέτως, δεδοµένης µίας περιγραφής του προτύπου MPEG-7 ένας αναλυτής λέξεων της γλώσσας περιγραφής ορισµού (DDL) πρέπει να ελέγξει αν εφαρµόζονται οι κανόνες οι οποίοι εκφράζονται στο αντίστοιχο MPEG-7 σχήµα (δηλαδή την οµάδα των σχηµάτων περιγραφής ή των περιγραφέων που ορίζονται χρησιµοποιώντας την γλώσσα περιγραφής του ορισµού). Πριν προχωρήσουµε στις εφαρµογές που έχουν γίνει ή πρόκειται να πραγµατοποιηθούν µε το MPEG-7 καλό θα ήταν να αναφέρουµε το πλάνο βάσει του οποίου ξεκίνησε η δηµιουργία του MPEG-7. [1],[5], [7], [10],[11] 2.4. Πλάνο Εργασίας Ανάµεσα στον Οκτώβρη του 1996 και του 1998 ορίστηκαν ο σκοπός, οι επιδιώξεις και οι απαιτήσεις για το πρότυπο MPEG-7. Το τέλος αυτού του σταδίου σηµατοδοτήθηκε από µία ανοιχτή πρόσκληση για προτάσεις τον Οκτώβρη του 1998 η οποία ζητούσε τη βοήθεια από σχετικές τεχνολογίες τα επιτεύγµατα των οποίων θα ταίριαζαν µε τις απαιτήσεις του προτύπου. Προς απάντηση αυτής της πρόσκλησης 40

41 περίπου 60 εταιρείες υπέβαλαν συνολικά περίπου 400 προτάσεις. Οι προτάσεις αυτές εκτιµήθηκαν και αξιολογήθηκαν, σε µία συνάντηση που έγινε το Φεβρουάριο του 1999 στο Λάνκαστερ, ανάλογα µε την ικανότητά τους να ικανοποιούν τις απαιτήσεις του προτύπου. Οι σοβαρές προτάσεις και τα στοιχεία που προέκυψαν επιλέχθηκαν για να ενσωµατωθούν στην επόµενη φάση συνεργασίας. Οι συµµετέχοντες που πήραν µέρος στη διαµόρφωση και εκτίµηση των προτάσεων και στην προοδευτική ανάπτυξη του MPEG-7 ήταν εκφωνητές, κατασκευαστές ηλεκτρονικών συστηµάτων, δηµιουργοί και διαχειριστές οπτικοακουστικού περιεχοµένου, εκδότες και στελέχη διαχείρισης δικαιωµάτων πνευµατικής περιουσίας, προµηθευτές τηλεπικοινωνιακών υπηρεσιών καθώς και ακαδηµαϊκοί ερευνητές. Κατά τη διάρκεια της επόµενης φάσης συνεργασίας τα επιλεγµένα στοιχεία από διάφορες προτάσεις ενσωµατώθηκαν σε ένα κοινό µοντέλο, το πειραµατιζόµενο µοντέλο (experimation model, ή XM). Ο σκοπός ήταν να επιτευχθεί το καλύτερο δυνατό µοντέλο το οποίο στην ουσία θα ήταν ένα προσχέδιο του προτύπου. Το πειραµατιζόµενο µοντέλο εκσυγχρονιζόταν και βελτιωνόταν συνεχώς µε µία επαναλαµβανόµενη διαδικασία µέχρι το MPEG-7 να φτάσει στην αρµόδια επιτροπή του σχεδίου µετά από πολλές παρεµβάσεις και βελτιώσεις που εισήγαγε η οµάδα του MPEG-7. Οι βελτιώσεις που επετεύχθησαν έγιναν µέσω των ουσιαστικών πειραµάτων ή Core Experiments. Τα ουσιαστικά αυτά πειράµατα καθορίστηκαν για να δοκιµάσουν τα υπάρχοντα εργαλεία έναντι καινούριων συνεισφορών και προτάσεων, µέσα στο πλαίσιο εργασίας του πειραµατιζόµενου µοντέλου και σύµφωνα µε τις καλώς ορισµένες συνθήκες και κριτήρια δοκιµασίας. Στην τελική φάση, αυτά τα τµήµατα από το πειραµατιζόµενο µοντέλο τα οποία ανταποκρίνονται στα κανονιστικά στοιχεία του προτύπου τυποποιήθηκαν.. Σ αυτό το σηµείο οφείλουµε να παρατηρήσουµε ότι το πρότυπο διαµορφώνεται και βελτιώνεται συνεχώς µε τις διαρκείς εισηγήσεις των µελών της οµάδας εργασίας του MPEG-7 παράλληλα βέβαια και µε τη συνεχή πρόοδο της τεχνολογίας στον τοµέα των οπτικοακουστικών συστηµάτων και των πολυµέσων ως γενικότερου τοµέα έρευνας και ανάπτυξης. Το τελικό πρότυπο του MPEG-7 δοµείται σε δέκα µέρη ως εξής: 1. Τα Συστήµατα: διευκρινίζουν τα εργαλεία που χρειάζονται για να προετοιµάσουν τις περιγραφές για αποδοτική µεταφορά και αποθήκευση, που 41

42 επιτρέπουν το συγχρονισµό ανάµεσα στο περιεχόµενο και τις περιγραφές καθώς και τα εργαλεία που σχετίζονται µε τη διαχείριση και την προστασία της πνευµατικής περιουσίας. 2. Τη Γλώσσα Περιγραφής του ορισµού : Διευκρινίζει τη γλώσσα που θα ορίζει νέα σχήµατα περιγραφής και νέους περιγραφείς. 3. Οπτικό τµήµα: Διευκρινίζει τους περιγραφείς και τα σχήµατα περιγραφής που ασχολούνται αποκλειστικά µε οπτική πληροφορία. 4. Ακουστικό τµήµα: Διευκρινίζει τους περιγραφείς και τα σχήµατα περιγραφής που ασχολούνται αποκλειστικά µε την ακουστική πληροφορία. 5. Γενικές οντότητες και σχήµατα περιγραφής πολυµέσων (MDS): Διευκρινίζουν τους περιγραφείς και τα σχήµατα περιγραφής που ασχολούνται µε τα γενικά χαρακτηριστικά των πολυµέσων δηλ. µη εξειδικευµένα στον ήχο ή την εικόνα. 6. Λογισµικό αναφοράς: Περιλαµβάνει το λογισµικό που ανταποκρίνεται στα εργαλεία τα οποία συµπεριλαµβάνονται στο πρότυπο. 7. Δοκιµασία συµµόρφωσης: Ορίζει κατευθυντήριες γραµµές και διαδικασίες για να ελέγξουν αν συµµορφώνονται οι περιγραφές και τα τερµατικά µε τους κανόνες και τις απαιτήσεις του προτύπου. 8. Εξαγωγή και χρήση των περιγραφών του MPEG-7: Παρέχει πληροφορίες στην εξαγωγή και τη χρήση κάποιων εργαλείων περιγραφής λαµβάνοντας υπόψη το Λογισµικό Αναφοράς. Αυτό το τµήµα είναι µία τεχνική αναφορά και όχι πρότυπο. Βασικά απευθύνεται στην εκδοχή κειµένου του οπτικού µέρους του Πειραµατιζόµενου Μοντέλου το οποίο περιγράφει όλα τα κανονιστικά και µη οπτικά εργαλεία που υλοποιούνται στο Λογισµικό του µοντέλου. 9. Επίπεδα και προφίλ: Ένα προφίλ περιγραφής παρέχει ένα µέσο επιλογής και περιορισµού των εργαλείων περιγραφής από το σχήµα MPEG-7, έτσι ώστε οι περιγραφές να είναι συµµορφωµένες µε το περιεχόµενό τους. Τα εργαλεία περιγραφής σε ένα προφίλ περιγραφής υποστηρίζουν µία οµάδα από λειτουργικότητες που ανήκουν σε µία βασική κατηγορία εφαρµογών. Ένα επίπεδο περιγραφής ορίζει περαιτέρω περιορισµούς έτσι ώστε να περιορίσει την πολυπλοκότητα των περιγραφών συµµόρφωσης για ένα δεδοµένο προφίλ περιγραφής. Τέτοιοι περιορισµοί µπορεί να είναι περιορισµοί στη σύνταξη ή στη σηµασιολογία των επιλεγµένων εργαλείων περιγραφής. 42

43 10. Ορισµός Σχήµατος: Ο ορισµός σχήµατος συγκεντρώνει όλα τα εργαλεία περιγραφής που αναφέρονται στις προηγούµενες τυποποιήσεις, υποδεικνύει ένα καθορισµένο όνοµα και διευκρινίζει την συνακόλουθη σύνταξη περιγραφής σε ένα απλό σχήµα χρησιµοποιώντας τη γλώσσα περιγραφής ορισµού. Παρακάτω θα αναφερθούµε στις εφαρµογές που υλοποιούνται µε το MPEG-7 και στις προϋποθέσεις που υπεισέρχονται σε κάθε εφαρµογή. [1], [10], [22],[28] 2.5. Εφαρµογές και Απαιτήσεις Υπάρχει µία πληθώρα εφαρµογών και τοµείς εφαρµογών οι οποίοι επωφελούνται ή θα επωφεληθούν ενδεχοµένως από το πρότυπο MPEG-7. Παραδείγµατα αυτών των εφαρµογών είναι: Ψηφιακές βιβλιοθήκες (κατάλογος εικόνων, αρχεία φωνής κτλ) Ποικιλία µέσων εκφώνησης (κανάλια ραδιοφωνίας και τηλεόρασης) Πολυµέσα (προσωποποιηµένη ηλεκτρονική υπηρεσία παροχής ειδήσεων, εξουσιοδότηση µέσων) Οι δυνατές εφαρµογές καλύπτουν µία ευρεία κλίµακα από διάφορους τοµείς οι οποίοι είναι: Εκπαίδευση Δηµοσιογραφία (π.χ. αναζήτηση των διαφόρων οµιλιών που έχει δώσει ένας συγκεκριµένος πολιτικός χρησιµοποιώντας, το όνοµά του, τη φωνή του ή το πρόσωπό του) Πολιτιστικές υπηρεσίες (µουσεία, γκαλερί τέχνης κτλ ) Αρχεία κινηµατογραφικών ταινιών, βίντεο, ραδιοφώνου ή και φωτογραφιών Ψυχαγωγία (βίντεο κατά προσωπική απαίτηση, αναζήτηση ενός παιχνιδιού, καραόκε κτλ ) Υπηρεσίες εξερεύνησης (παρακολούθηση, αναγνώριση ανθρωπίνων χαρακτηριστικών, επιχειρηµατολογία κτλ) Συστήµατα πληροφοριών γεωγραφίας 43

44 Αίσθηση και γνώση εξ αποστάσεως (χαρτογραφία, οικολογία, διαχείριση φυσικών πόρων) Τηλεϊατρική και βιοιατρικές εφαρµογές Οι εφαρµογές του προτύπου περιλαµβάνουν παραδείγµατα εφαρµογών τα οποία από τη µία πλευρά µπορούν να βελτιωθούν χρησιµοποιώντας το πρότυπο όσο και παραδείγµατα που µπορούν να κατασταθούν εφικτά µέσω του MPEG-7. Αυτά τα παραδείγµατα εφαρµογών οργανώνονται σε τρεις κατηγορίες. 1. Εφαρµογές έλξης: Εφαρµογές όπως η αποθήκευση και η ανάκτηση σε οπτικοακουστικές βάσεις δεδοµένων, µεταφορά εικόνων και βίντεο για επαγγελµατική παραγωγή, εµπορικές µουσικές εφαρµογές, βιβλιοθήκες µε ηχητικά εφέ, βάσεις δεδοµένων ιστορικών οµιλιών, ανάκτηση ταινιών µε αξιοµνηµόνευτα ακουστικά γεγονότα καθώς επίσης καταγραφή και ανάκτηση εµπορικών σηµάτων. 2. Εφαρµογές ώθησης: εφαρµογές όπως επιλογή και φιλτράρισµα κατευθυνόµενη από το χρήστη, προσωποποιηµένες υπηρεσίες τηλεόρασης, έξυπνη εµφάνιση πολυµέσων εγκαταστάσεις πρόσβασης πληροφοριών για άτοµα µε ειδικές ανάγκες. 3. Εξειδικευµένες επαγγελµατικές εφαρµογές: αυτές είναι εφαρµογές που σχετίζονται ιδιαίτερα µε ένα εξειδικευµένο επαγγελµατικό περιβάλλον, όπως το τηλε-εµπόριο, βιοιατρική, γνώση και µάθηση εξ αποστάσεως, καθώς επίσης εφαρµογές εκπαίδευσης και εξερεύνησης. [1], [22],[25] 2.6. Γλώσσα Περιγραφής Ορισµού Ο σκοπός αυτής της ενότητας είναι η µερική εµβάθυνση στη γλώσσα περιγραφής του ορισµού έτσι ώστε να είµαστε σε θέση να κατανοήσουµε τη δοµή και το περιεχόµενο των εγγράφων του MPEG-7. Η γλώσσα περιγραφής του ορισµού οφείλει να εκφράζει τις δοµικές, κληρονοµικές, χωρικές, χρονικές, χωροχρονικές και θεµελιώδεις σχέσεις ανάµεσα στα στοιχεία µέσα σε ένα σχήµα περιγραφής και ανάµεσα στα σχήµατα περιγραφής. Όπως αναφέραµε προηγουµένως η γλώσσα περιγραφής του ορισµού βασίζεται στη δοµή της XML 44

45 και επιπλέον πρέπει να πιστοποιεί η ίδια τη σύνταξη των MPEG-7 εγγράφων ανάµεσα στα σχήµατα περιγραφής (περιεχόµενο και δοµή) και στους περιγραφείς (τύποι δεδοµένων). Η γλώσσα XML αποτελείται από τρεις κατηγορίες από συστατικά του σχήµατος. Τα κυριότερα από αυτά είναι: Συλλογή Ονοµάτων καθώς και το περίβληµα του σχήµατος γύρω από τους ορισµούς και τις δηλώσεις. Δηλώσεις στοιχείων Δηλώσεις χαρακτηριστικών Δηλώσεις τύπων οι οποίοι µπορεί να είναι απλοί, σύνθετοι, τύποι παραγόµενοι από κάποιους άλλους τύπους καθώς και ανώνυµοι τύποι. Τα δευτερεύοντα συστατικά είναι Ορισµοί οµάδας χαρακτηριστικών Ορισµοί οµάδας υποδειγµάτων (µοντέλων) Ορισµοί περιορισµού οµοιότητας Ορισµοί σηµειώσεων Η τρίτη οµάδα χαρακτηριστικών είναι τα λεγόµενα βοηθητικά χαρακτηριστικά η χρήση των οποίων είναι η συνεισφορά στα άλλα προαναφερθέντα χαρακτηριστικά και δεν µπορούν να σταθούν µόνα τους. Αυτά είναι: Σχολιασµός Οµάδες υποδειγµάτων (µοντέλων) Μόρια Σύµβολα υποκατάστασης Τα ονόµατα στην XML παρέχουν µία απλή µέθοδο προσδιορισµού γενικών ονοµάτων για τύπους στοιχείων ή ονόµατα χαρακτηριστικών µέσα σε ένα XML έγγραφο. Ένα σύνολο ονοµάτων που προσδιορίζεται µε ένα ενιαίο χαρακτηριστικό αναφοράς προέλευσης (URI) χρησιµοποιείται στα XML έγγραφα σαν τύποι στοιχείων και ονόµατα χαρακτηριστικών. Τα αρµόδια ονόµατα αποτελούνται από ένα πρόθεµα ονόµατος το οποίο αντιστοιχεί στο χαρακτηριστικό αναφοράς προέλευσης, 45

46 ένα σύµβολο : (άνω και κάτω τελεία) και το κύριο µέρος (ένας τύπος στοιχείων ή ένα όνοµα κάποιου χαρακτηριστικού). Αυτός ο συνδυασµός παράγει αναγνωριστές για τα συστατικά του σχήµατος τα οποία είναι µοναδικά παγκοσµίως και έτσι επαναχρησιµοποιήσιµα, π.χ. mpeg7:videosegmenttype. Στα πλαίσια του προτύπου MPEG-7 ο µηχανισµός της έκτασης των ονοµάτων δίνει τη δυνατότητα στους περιγραφείς και τα σχήµατα περιγραφής να επαναχρησιµοποιηθούν και να συνδυαστούν έτσι ώστε να δηµιουργήσουν νέα σχήµατα. Κάθε ορισµός ενός σχήµατος περιγραφής πρέπει να αρχίζει µε ένα πρόθεµα έτσι ώστε να αναγνωρίζει το τρέχον όνοµα ή τα άλλα εισαγόµενα ονόµατα. Το υποχρεωτικό πρόθεµα αποτελείται από ένα XML στοιχείο του σχήµατος, το οποίο περιλαµβάνει τα ακόλουθα χαρακτηριστικά: xmlns: Ένας ενιαίος αναγνωριστής προέλευσης στα ονόµατα του σχήµατος XML xmlns:mpeg7: Ένας ενιαίος αναγνωριστής προέλευσης του MPEG-7 σχήµατος που χρησιµοποείται για να πιστοποιήσει τα σχήµατα περιγραφής και τους περιγραφείς του MPEG-7 targetnamespace: Ο ενιαίος αναγνωριστής προέλευσης µε τον οποίο το τρέχον σχήµα πρέπει να αναγνωριστεί xmlns:xxx: Αναφορές σε άλλα εισαγόµενα σχήµατα και συντοµεύσεις οι οποίες αναφέρονται σε ορισµούς αυτών των εξωτερικών σχηµάτων, π.χ. το xmlns:dc: στο παρακάτω παράδειγµα συσχετίζει το πρόθεµα dc: µε το χώρο ονοµάτων του Dublin Core, το οποίο τοποθετείται στο δοσµένο αναγνωριστή προέλευσης. Δηλαδή: <schema xmlns= xmlns:mpeg7= xmlns:dc= targetnamespace= > [1], [7] </schema> 46

47 2.7. Ορισµοί Τύπων Στο XML σχήµα υπάρχει µία στοιχειώδη διαφορά ανάµεσα στους ορισµούς τύπων (οι οποίοι δηµιουργούν νέους τύπους) και σε δηλώσεις οι οποίες δίνουν τη δυνατότητα εµφάνισης στοιχείων και χαρακτηριστικών µε συγκεκριµένα ονόµατα και τύπους. Οι ορισµοί τύπων ορίζουν εσωτερικά συστατικά του σχήµατος τα οποία µπορούν να χρησιµοποιηθούν σε άλλα συστατικά του σχήµατος είτε αυτά είναι άλλα στοιχεία ή χαρακτηριστικά είτε ορισµοί άλλων τύπων. Για παράδειγµα, παρακάτω πρώτα ορίζουµε τον απλό τύπο Postcode το οποίο είναι ένα αλφαριθµητικό µήκους ίσο µε 7. < simpletype name= Postcode /> <restriction base= string > <length value= 7 /> </restriction> < /simpletype> Μπορούµε στη συνέχεια να δηλώσουµε ή χαρακτηριστικά τα οποία είναι αυτού του τύπου και µπορούν να εµφανιστούν σε έγγραφα τύπου XML. Δηλαδή µπορούµε να δηλώσουµε ένα στοιχείο µε το όνοµα MyPostcode, το οποίο είναι τύπου Postcode. < element name= MyPostcode type= Postcode /> H XML παρέχει απλούς, σύνθετους και παραγόµενους ορισµούς τύπων τους οποίους αναλύουµε παρακάτω. Ορισµοί απλών τύπων Οι απλοί τύποι δε µπορούν να έχουν παράγωγα στοιχεία και δε φέρουν χαρακτηριστικά. Τόσο τα στοιχεία όσο και τα χαρακτηριστικά µπορούν να δηλωθούν ότι έχουν απλούς τύπους. Η XML παρέχει ένα µεγάλο αριθµό από ολοκληρωµένους απλούς τύπους οι οποίοι χωρίζονται σε στοιχειώδεις και σε παραγόµενους. Εκτός από 47

48 τους ολοκληρωµένους απλούς τύπους νέοι απλοί τύποι µπορούν να προκύψουν από την εφαρµογή περιορισµών στους ήδη υπάρχοντες απλούς τύπους. Αυτοί οι περιορισµοί διακρίνονται σε όψεις όπως η όψη απαρίθµησης σε ένα αλφαριθµητικό (enumeration facet) ή στη µέγιστη ή ελάχιστη τιµή ενός ακεραίου. Π.χ. <simpletype name= directiontype > <restriction base= string > <enumeration value= left /> <enumeration value= right /> </restriction> </simpletype> <simpletype name= unsigned6 > <restriction base= nonnegativeinteger > <mininclusive value= 0 /> <maxinclusive value= 63 /> </restriction> </simpletype> <element name= direction <element name= length type= directiontype /> type= unsigned6 /> Παρακάτω φαίνονται έγκυρα παραδείγµατα από τα ορισµένα στοιχεία: <direction>left</direction> <length>36</length> Ορισµοί σύνθετων τύπων Ένας ορισµός σύνθετου τύπου είναι µία οµάδα από δηλώσεις χαρακτηριστικών και ένας τύπος περιεχοµένου εφαρµόσιµος στα χαρακτηριστικά και στα παράγωγα ενός στοιχείου το οποίο δηλώνεται ότι είναι αυτού του σύνθετου τύπου. Οι ορισµοί σύνθετων τύπων παρέχουν τα παρακάτω: Περιορισµούς στην εµφάνιση και στο περιεχόµενο των χαρακτηριστικών 48

49 Περιορισµούς στα παράγωγα στοιχεία (να είναι κενά ή να συµµορφώνονται σε ένα συγκεκριµένο µόνο στοιχείο ή σε ένα ανάµεικτο µοντέλο περιεχοµένου) Παραγωγή σύνθετων τύπων από άλλους απλούς ή σύνθετους τύπους µέσω επεκτάσεων ή περιορισµών. Οι νέοι σύνθετοι τύποι ορίζονται χρησιµοποιώντας το στοιχείο σύνθετου τύπου (complextype) και τέτοιοι ορισµοί περιέχουν συνήθως µία οµάδα από δηλώσεις στοιχείων, αναφορές στοιχείων και δηλώσεις χαρακτηριστικών. Οι δηλώσεις δεν είναι οι ίδιες τύποι αλλά µάλλον µία συσχέτιση ανάµεσα σε ένα όνοµα και στους περιορισµούς οι οποίοι καθορίζουν την εµφάνιση αυτού του ονόµατος στα έγγραφα που ορίζονται από το σχετικό σχήµα. Τα στοιχεία δηλώνονται χρησιµοποιώντας το στοιχείο element και τα χαρακτηριστικά χρησιµοποιώντας το στοιχείο attribute. Για παράδειγµα, ο Οργανισµός στο παρακάτω παράδειγµα ορίζεται σαν σύνθετος τύπος και µέσα στον ορισµό του Οργανισµού βλέπουµε τρεις δηλώσεις στοιχείων και µία δήλωση ενός χαρακτηριστικού. <complextype name="organization"> <element name="organizationname" type="string"/> <element name="contactperson" type="individual" minoccurs="0" maxoccurs="unbounded"/> <element name="address" type="place" minoccurs="0"/> <attribute name="id" type="id" use= required /> </complextype> Το επακόλουθο αυτού του ορισµού είναι ότι οποιοδήποτε στοιχείο που εµφανίζεται σε ένα παράδειγµα και του οποίου ο τύπος δηλώνεται ότι είναι Οργανισµός (Organization) πρέπει να αποτελείται από τρία στοιχεία και ένα χαρακτηριστικό. Αυτά τα στοιχεία πρέπει να λέγονται OrganizationName, ContactPerson and Address. Το πρώτο από αυτά τα στοιχεία θα περιέχει ένα αλφαριθµητικό, το δεύτερο θα περιέχει το σύνθετο τύπο Individual και το τρίτο το σύνθετο τύπο Place. Οποιοδήποτε στοιχείο του οποίου ο τύπος δηλώνεται ότι είναι Organization πρέπει να εµφανίζει ένα χαρακτηριστικό που λέγεται id και να περιέχει ένα ID. [1], [7] 49

50 2.8. Τύποι Δεδοµένων της XML Οι παρακάτω τύποι δεδοµένων βασίζονται στη γλώσσα XML αλλά παράλληλα πρέπει να ικανοποιούν τις απαιτήσεις της γλώσσας περιγραφής ορισµού του MPEG- 7. Οι τύποι δεδοµένων χωρίζονται στους στοιχειώδεις και τους παραγόµενους. Οι ολοκληρωµένοι βασικοί τύποι δεδοµένων είναι: string; boolean; float; double; decimal; timeduration [ISO 8601]; recurringduration; binary; urireference; ID; IDREF; ENTITY; NOTATION; QName. Οι παρακάτω τύποι δεδοµένων οι οποίοι προέρχονται από τους βασικούς τύπους δεδοµένων παρέχονται επίσης από την XML. Αυτοί είναι: language [RFC 1766]; IDREFS; ENTITIES; NMTOKEN, NMTOKENS; Name, NCName; integer, nonpositiveinteger, negativeinteger, nonnegativeinteger, positiveinteger; long, unsignedlong; int, unsignedint; short, unsignedshort; byte, unsignedbyte; timeinstant, time, timeperiod; date, month, year, century; recurringdate, recurringday. [7] 2.9.Περιγραφή Περιεχοµένου Πολυµέσων 50

51 Ο βασικότερος στόχος του προτύπου είναι το να παρέχει ένα σύνολο µεθόδων και εργαλείων για τις διαφορετικές κλάσεις περιγραφής περιεχοµένου πολυµέσων. Ο όρος κλάσεις περιγραφής σηµαίνει διαφορετικές πιθανές οπτικές από τις οποίες θα καλυφθεί κάποιο οπτικοακουστικό περιεχόµενο. Βασικό σηµείο είναι το γεγονός ότι κάθε οντότητα µπορεί να περιγραφεί µε πολλαπλούς τρόπους, ανάλογα µε το πως θα χρησιµοποιηθεί. Έτσι, το πρότυπο MPEG-7 πρέπει να συµπεριλάβει όλες αυτές τις µεθόδους και µάλιστα να τις καταστήσει συµπληρωµατικές. Τέσσερις είναι οι θεµελιώδεις κλάσεις περιγραφής των δεδοµένων (αντικείµενα της περιγραφής): α) κλάση αντιγραφής (transcriptive), β) φυσική (physical), γ) διαισθητική (perceptual) δ) βασισµένη στο µέσο (medium-based). Πάνω από αυτές τις δοµές βρίσκεται µία περιγραφή αρχιτεκτονικής, η οποία δίνει τη σχέση µεταξύ µεγάλων τµηµάτων των δεδοµένων και τη σχέση µεταξύ των υποκειµένων κλάσεων περιγραφής. Υπάρχει και η περιγραφή σχολιασµού, που περιλαµβάνει κάθε είδους σχόλια πάνω στο περιεχόµενο, βρίσκεται πάνω από όλα τα υπόλοιπα επίπεδα και σχετίζεται µε όλα. Συνήθως, κάθε περιγραφή πραγµατικής ζωής σύµφωνα µε το πρότυπο MPEG-7 θα χρησιµοποιεί µία, το πολύ δύο από τις θεµελιώδεις κλάσεις. Παρακάτω αναφέρονται µε περισσότερες λεπτοµέρειες οι πιθανοί τύποι περιγραφής που µπορεί να συναντηθούν: Medium-based description class: Είναι απαραίτητη η περιγραφή του µέσου µέσα στο οποίο εκφράζονται τα δεδοµένα. Μία περιγραφή βασισµένη στο µέσο εισάγει χαµηλού επιπέδου, επιφανειακά χαρακτηριστικά που περιγράφουν το ίδιο το µέσο εγγραφής / αναπαραγωγής. Υπάρχουν πολλές τεχνικές για λήψη κάποιων περιγραφών µέσω ανάλυσης εικόνας και ήχου. Άλλα χρησιµοποιούµενα απλά χαρακτηριστικά είναι κάποια metadata όπως για παράδειγµα το frame rate ενός video. Η κωδικοποίηση αυτών των περιγραφών είναι πιο εύκολη κατά τη διαδικασία δηµιουργίας του περιεχοµένου. Physical description class: Η συγκεκριµένη προσέγγιση περιλαµβάνει όλα τα υπολογιστικά χαρακτηριστικά που δεν ανταποκρίνονται στις ανθρώπινες αισθήσεις. Μιλώντας πρακτικά, µπορούµε να αντλήσουµε αυτά τα χαρακτηριστικά εύκολα από τα ακατέργαστα δεδοµένα των πολυµέσων. Έχουν ξεκάθαρες τιµές και καλά 51

52 δηµιουργηµένους αλγόριθµους για άντληση (για παράδειγµα, µιλάµε για στάθµη ή ισχύ ήχου αντί για τη διαισθητική έννοια θόρυβος). Perceptual description class: Η διαισθητική οπτική διαχωρίζει κατ αρχήν τα µέσα σε αντικείµενα. Αυτά είναι περιγραφές κάποιων χαρακτηριστικών, όπως το χρώµα, η υφή και η χροιά. Η αναγνώριση προτύπων ή κλάσεων είναι ο στυλοβάτης της σηµερινής τεχνολογίας. Τα αντικείµενα περιγράφουν την ίδια την εικόνα ή τον ήχο αλλά δεν αποδίδουν γενικά τη δοµή της καταγραφόµενης (ή δηµιουργούµενης) σκηνής µέσα στα δεδοµένα. Transcription description class: Αυτή η κλάση περιγραφής τυπικά παριστάνει την αναδόµηση (ή διακωδικοποίηση) της δοµής που περιλαµβάνεται στα δεδοµένα. Για παράδειγµα, στη µουσική, η κλάση αυτή προοριζόταν να υπηρετήσει ως την ακριβή µεταγραφή της ίδιας της µουσικής, δηλ. νότες ή µουσικός σκοπός. Σε αυτή την κλάση περιλαµβάνονται αντίγραφα διαλόγων και οι συνδέσεις τους µε το αντίστοιχο οπτικοακουστικό υλικό. Για την περίπτωση του οπτικού υλικού, η κλάση µπορεί να σχετίζεται µε τις τρισδιάστατες θέσεις και κάποια χαρακτηριστικά των ορατών αντικειµένων ή µε ένα προσεκτική περιγραφή του σεναρίου της σκηνής. Βεβαίως, η απόκτηση όλου αυτού του δοµικού πλούτου από ένα απλό video ή ήχο, χωρίς να δίνεται καµία επιπλέον πληροφορία, υπερβαίνει τις δυνατότητες της σηµερινής τεχνολογίας. Παρ όλα αυτά, η αδυναµία αυτή, δεν περιορίζει τη χρησιµότητα της transcription description class. Υπάρχει πάντα περισσότεροι του ενός τρόποι για διασφάλιση µίας περιγραφής. Έξυπνα συστήµατα κάµερας, χρησιµοποιούν κάποιες παραµέτρους του υπό εγγραφή video (όπως ανίχνευση κίνησης) ή υλικά (όπως κάτοπτρα), για να δώσουν λύσεις στο πρόβληµα της ανάκτησης της δοµής από την εικόνα. Architectural description class: Πάνω από τρεις προαναφερθείσες κλάσεις περιγραφής υπάρχει η αρχιτεκτονική κλάση. Αυτή περιγράφει τα δοµικά υλικά των άλλων κλάσεων και συνεπώς τα δεδοµένα που αυτές περιγράφουν. Με αυτή την κλάση µπορούµε να ανακτήσουµε πληροφορίες περί της σύνδεσης και της σχέσης µεταξύ κάποιων τµηµάτων δεδοµένων, χωρίς να είναι απαραίτητο να γνωρίζουµε τα ίδια τα δεδοµένα. Η αρχιτεκτονική κλάση καλείται επίσης συντακτική δοµή, και δεν µπορεί παρά να στηρίζεται σε χαµηλότερου επιπέδου σηµασιολογικά στοιχεία. Το 52

53 είδος περιγραφής που εισάγεται από τη συγκεκριµένη κλάση µπορεί να δηµιουργηθεί µε διάφορους τρόπους: άµεσα από έναν χρήστη, ως υποπροϊόν µίας αυτόµατης ανάλυσης ή να εξυπακούεται από ένα επακριβές αντίγραφο. Annotative description class: Η συγκεκριµένη κλάση βρίσκεται στην κορυφή όλων των υπόλοιπων κλάσεων και των δεδοµένων που περιέχουν αυτές. Είναι η περιοχή που περιέχει ανθρώπινες επισηµάνσεις (συνήθως) και άλλες αναλύσεις που γίνονται πάνω στα µετα-δεδοµένα (metadata). Στην πρώιµη µορφή της, η κλάση αυτή, όσον αφορά στη µουσική ήταν ο χώρος όπου οι µουσικολόγοι χρησιµοποιούσαν για σχολιασµό διαφόρων χαρακτηριστικών ενός µουσικού κοµµατιού. Συνήθη σχόλια για τη µουσικολογία αποτελούν µουσικές φόρµες (που αναφέρονται στην αρχιτεκτονική), οι ίδιες οι νότες (που συνδέονται µε την καταγραφή του κοµµατιού), το συναισθηµατικό περιεχόµενο της µουσικής (που συνδέεται µε τα ίδια τα δεδοµένα) και σχέσεις µε άλλα κοµµάτια (που συνδέονται µε άλλες περιγραφές) Το πρότυπο MPEG-7 επιχειρεί να διασφαλίσει τους φορµαλισµούς για να υποστηριχθούν οι απαιτήσεις των διάφορων περιγραφικών κλάσεων. Σηµειώνεται ότι αν και η φαινοµενική πολυπλοκότητα µπορεί να είναι αποθαρρυντική, η ποικιλία των επιπέδων περιγραφής επιτρέπει ευέλικτους και εκφραστικούς τρόπους επαρκούς αναπαράστασης του περιεχοµένου µε µία επίσηµη δοµή. Αποτελεσµατική επαναχρησιµοποίηση των περιγραφών µε βάση το πρότυπο MPEG-7, επιτυγχάνεται µε προσαρµογή τους στις ανάλογες ανάγκες. Αυτό οδηγεί σε τροποποίηση και κατάλληλο χειρισµό ήδη υπαρχουσών δοµών. Τέλος, όποια και να είναι τα χαρακτηριστικά ενός οπτικοακουστικού εγγράφου, εξάγονται αυτόµατα από κατάλληλο αλγόριθµο που τρέχει σε υπολογιστικό περιβάλλον, είτε από άνθρωπο-ειδικό. Για επιτέλεση αυτής της λειτουργίας καθίστανται απολύτως απαραίτητες επίσηµες προδιαγραφές της εξαγόµενης οντότητας ή χαρακτηριστικού. Οι προδιαγραφές αυτές είναι είτε ατοµικές, είτε αντιπροσωπεύουν άθροισµα βαρών ή ακολουθία παραγώγων κάποιου αριθµού χαρακτηριστικών. Παράδειγµα τέτοιων χαρακτηριστικών από το χώρο της µουσικής είναι η χροιά µουσικού τόνου, ενώ όσο αφορά σε οπτικά αντικείµενα µπορεί να είναι η σύνθεση της εικόνας. Εν κατακλείδι, από τη στιγµή που το περιεχόµενο των πολυµέσων χτίζεται πάνω σε χρονικούς και χωρικούς περιορισµούς (συγκεκριµένα 53

54 περιορισµούς παρουσίασης), είναι προφανές ότι οι χωρικές και χρονικές απαιτήσεις επηρεάζουν τη σηµασιολογία και τη δοµή µίας περιγραφής. [1], [16], [25] Σχήµατα Περιγραφής Πολυµέσων Τα Σχήµατα Περιγραφής του MPEG-7 επεκτείνουν τους περιγραφείς του MPEG-7 συνδυάζοντας είτε µόνο περιγραφείς είτε άλλα σχήµατα περιγραφής µέσα σε πιο πολύπλοκες δοµές και ορίζοντας πάντα τις σχέσεις ανάµεσα στους περιγραφείς και τα σχήµατα περιγραφής. Στο MPEG-7 τα σχήµατα περιγραφής κατηγοριοποιούνται σε οπτικά ή ακουστικά ή γενικά σ αυτά που χαρακτηρίζουν την περιγραφή πολυµέσου. Για παράδειγµα, τα γενικά σχήµατα περιγραφής ανταποκρίνονται στα αµετάβλητα µεταδεδοµένα που σχετίζονται µε τη δηµιουργία, την παραγωγή, τη χρήση και τη διαχείριση των πολυµέσων καθώς επίσης στη σηµασιολογία και τα µοντέλα περιγραφής. Τυπικά, τα Σχήµατα Περιγραφής Πολυµέσων αναφέρονται σε όλα τα είδη των µέσων που αποτελούνται από ακουστικά, οπτικά ή δεδοµένα κειµένου, ενώ οι εξειδικευµένοι περιγραφείς όπως αυτοί του χρώµατος, της υφής,του σχήµατος της µελωδίας κτλ, αναφέρονται ειδικά στον ακουστικό ή οπτικό τοµέα.όπως και οι περιγραφείς έτσι και τα Σχήµατα Περιγραφής µπορούν σε ορισµένες περιπτώσεις να βασιστούν σε αυτόµατα εργαλεία άλλα σε άλλες περιπτώσεις απαιτείται ανθρώπινη παρέµβαση. Στο παρακάτω σχήµα φαίνεται η οργάνωση των Σχηµάτων Περιγραφής του MPEG-7. 54

55 Ï ñãüí ù óç Dåñéå ï ì Yí ï õ Óõëëï ã? & Ôáî éí üì çóç Ì ï í ôyëï Áëëçëå!ßäñáóç?ñ?óôç Ì Yóá Äçì éï õñãßá & Dáñáãù ã? Äéá åßñéóç Dåñéå ï ì Yí ï õ? ñ?óç Dëï?ãçóç & Dñüóâáóç Dåñßëçø ç Dñï ôéì?óåéò ñçóô? í Äï ì éêyò!ôõ Yò Dåñéãñáö? Dåñéå ï ì Yí ï õ Åí í ï éï ëï ãéêyò!ôõ Yò Äéáöï ñï!ï ßçóç Ô?!ï é äåäï ì Yí ù í & Äï ì Yò ÂáóéêÜ Óôï é åßá Ó?í äåóì ï é & Åí ôï!éóì üò ì Yóù í ÂáóéêÜ DSs Σχ.2.2.: Οργάνωση των MDS Στο κατώτερο επίπεδο βρίσκονται τα βασικά στοιχεία. Αυτά σχετίζονται µε βασικούς τύπους δεδοµένων, µαθηµατικές δοµές, συνδέσµους και εντοπισµούς µέσων καθώς επίσης και βασικά Σχήµατα Περιγραφής τα οποία βρίσκονται σαν στοιχειώδη συστατικά πιο πολύπλοκων Σχηµάτων Περιγραφής. Βασισµένες σ αυτό το κατώτερο επίπεδο µπορούν να οριστούν τα στοιχεία της περιγραφής και της διαχείρισης του περιεχοµένου. Αυτά τα στοιχεία περιγράφουν το περιεχόµενο από διαφορετικές οπτικές. Προς το παρόν πέντε οπτικές ορίζονται: Δηµιουργία και Παραγωγή, Μέσα, Χρήση, Δοµικές Πτυχές και Εννοιολογικές Πτυχές. Τα τρία πρώτα στοιχεία απευθύνουν κυρίως πληροφορία που σχετίζεται µε τη διαχείριση του περιεχοµένου ενώ τα δύο τελευταία σχετίζονται µε την περιγραφή αντιληπτής πληροφορίας. Ο παρακάτω πίνακας ορίζει ακριβέστερα την λειτουργικότητα κάθε οµάδας στοιχείων: 55

56 Οµάδες στοιχείων Δηµιουργία& Παραγωγή Χρήση Λειτουργικότητα Μετά-Πληροφορίες που περιγράφουν τη δηµιουργία και την παραγωγή του περιεχοµένου:τυπικά χαρακτηριστικά όπως τίτλοι, δηµιουργοί, κατάταξη, σκοπός της δηµιουργίας κτλ. Αυτή η πληροφορία προέρχεται τις περισσότερες φορές από το συγγραφέα και δε µπορεί να εξαχθεί απευθείας από το περιεχόµενο. Μετά-Πληροφορίες που σχετίζονται µε τη χρήση του περιεχοµένου.: τυπικά χαρακτηριστικά που περιλαµβάνουν κατόχους δικαιωµάτων, πρόσβαση δικαιωµάτων, δηµοσίευση και οικονοµικές πληροφορίες. Αυτές οι πληροφορίες είναι πολύ πιθανό να υπόκεινται σε αλλαγές κατά τη διάρκεια του χρόνου ζωής του οπτικοακουστικού περιεχοµένου. Μέσα Περιγραφή των µέσων αποθήκευσης: Τυπικά χαρακτηριστικά που περιλαµβάνουν τη µορφή της αποθήκευσης (format), την κωδικοποίηση του οπτικοακουστικού περιεχοµένου, στοιχεία για την ταυτοποίηση των µέσων. Πρέπει να σηµειωθεί εδώ ότι διάφορα είδη µέσων αποθήκευσης για το ίδιο οπτικοακουστικό περιεχόµενο µπορούν να περιγραφούν. Δοµικές Πτυχές Εννοιολογικές Πτυχές Περιγραφή του οπτικοακουστικού περιεχοµένου από την οπτική της δοµής του. Η περιγραφή είναι δοµηµένη γύρω από τα τµήµατα τα οποία αναπαριστούν φυσικά χωρικά, χρονικά ή χωρο-χρονικά συστατικά του οπτικοακουστικού περιεχοµένου. Κάθε τµήµα µπορεί να περιγραφεί µε χαρακτηριστικά βασισµένα στο σήµα (χρώµα, υφή, σχήµα, κίνηση, ακουστικά χαρακτηριστικά) και κάποια στοιχειώδη σηµασιολογικά πληροφορία. Περιγραφή του οπτικοακουστικού περιεχοµένου από την οπτική των εννοιολογικών ορισµών. Πρέπει να σηµειωθεί εδώ ότι προς το παρόν αυτό το τµήµα των Σχηµάτων Περιγραφής είναι σε πειραµατικό στάδιο και τα στοιχεία του δεν περιλαµβάνονται στο πειραµατικό µοντέλο. Πιν.2.2.: Στοιχεία Περιγραφής και Διαχείρισης Περιεχοµένου Οι πέντε οµάδες στοιχείων παρουσιάζονται στον παραπάνω πίνακα σαν ξεχωριστές οντότητες. Όπως θα δούµε παρακάτω αυτές συσχετίζονται και µπορούν εν µέρει να περιλαµβάνονται η µία στην άλλη. Για παράδειγµα, τα στοιχεία Μέσων ή Δηµιουργίας και Παραγωγής µπορούν να προσαρτηθούν σε µεµονωµένα τµήµατα που εµπλέκονται µε τη δοµική περιγραφή του περιεχοµένου. Σε µερικά µέρη της περιγραφής του περιεχοµένου µπορεί να δοθεί έµφαση ενώ άλλα ελαχιστοποιηθούν ή ακόµη και να απορριφθούν ανάλογα µε την εφαρµογή. µπορεί να Εκτός από την άµεση περιγραφή του περιεχοµένου που παρέχεται από τις πέντε οµάδες των στοιχείων που παρουσιάστηκαν στον παραπάνω πίνακα, ορίζονται επιπλέον εργαλεία για πλοήγηση και πρόσβαση. Υποστηρίζεται ψάξιµο σε σύνολο πληροφοριών (browsing) από τα στοιχεία περίληψης και ακόµη παρέχονται πληροφορίες σχετικά µε τις πιθανές παραλλαγές του περιεχοµένου. Οι παραλλαγές του οπτικοακουστικού περιεχοµένου µπορούν να αντικαταστήσουν το πρωτότυπο, 56

57 εάν αυτό κριθεί απαραίτητο, µε σκοπό να προσαρµόσουν διαφορετικές πολυµεσικές παρουσιάσεις στις δυνατότητες των τερµατικών πελατών, των συνθηκών του δικτύου ή τις προτιµήσεις του χρήστη. Άλλη µία οµάδα εργαλείων, η οργάνωση περιεχοµένου (content organization) απευθύνεται στην οργάνωση του περιεχοµένου µε ταξινόµηση, κατά ορισµό των συλλογών και κατά διαµόρφωση. Τελικά, η τελευταία οµάδα εργαλείων που ορίζεται σαν Αλληλεπίδραση µε το χρήστη (User Interaction) περιγράφει τις προτιµήσεις του χρήστη που σχετίζονται µε την κατανάλωση του πολυµεσικού υλικού. [1], [11], [16],[22],[27] Μηχανισµοί Περιγραφής 1. Εργαλεία Αναφοράς στο Μέσο, Σύνδεσης και Εντοπισµού: Σ αυτή την ενότητα εισάγουµε τα εργαλεία περιγραφής του MPEG-7 για τη σύνδεση και τον εντοπισµό, τα οποία αναφέρονται σε περιγραφές MPEG-7, συνδέουν αυτές τις περιγραφές µε το πολυµεσικό περιεχόµενο και ορίζουν και το χρόνο σ αυτό το περιεχόµενο. Τα εργαλεία διακρίνονται στις παρακάτω κατηγορίες: Αναφορές σε Descriptors και Description Schemes (References): Data Types Description Schemes idref Relation DS xpath xpathselector Affective DS xpathfield href Ordering Key DS O Μοναδικός Ταυτοποιητής (Unique Identifiers): UniqueID χρησιµοποιείται για να ταυτοποιήσει µοναδικά ένα αντικείµενο όπως ένα πολυµεσικό περιεχόµενο ή µία MPEG-7 περιγραφή. Εντοπιστές Μέσων (Media Locators): Οι εντοπιστές µέσων συνδέουν ένα στοιχείο περιγραφής (που περιέχει τον εντοπιστή µέσου) µε το πολυµεσικό 57

58 περιεχόµενο. Υπάρχουν 3 είδη εντοπιστών µέσων: ο generic MediaLocator, ο TemporalSegmentLocator και ο ImageLocator. Ο MediaLocator µπορεί να συνδέσει το πολυµεσικό περιεχόµενο χρησιµοποώντας ένα κοινό ταυτοποιητή URI προκειµένου να αναφερθεί σε αυτό ή εναλλακτικά µπορεί να συµπεριλάβει το πολυµεσικό περιεχόµενο µέσα του. Ο TemporalSegmentLocator εντοπίζει ένα τµήµα σε ένα οποιοδήποτε πολυµεσικό περιεχόµενο όπως audio ή video. Η χρονική περίοδος του τµήµατος µπορεί να διευκρινιστεί χρησιµοποιώντας τύπους δεδοµένων που ορίζουν το χρόνο ή ορίζοντας την αρχή και το µήκος σε bytes του τµήµατος µέσα στο µέσο. Ο ImageLocator εντοπίζει µία εικόνα ή ένα απλό frame σε ένα video. Περιορίζεται σε χρονικά σηµεία αντί για χρονικές περιόδους. Χρόνος (Time): Οι τύποι δεδοµένων που περιγράφουν το χρόνο χρησιµοποιούνται εναλλακτικά ανάλογα µε το σκοπό της περιγραφής και είναι οι παρακάτω: MediaTimePoint MediaDuration MediaRelIncrTimePoint IncrDuration RelTimePoint Duration TimePoint 2. Βασικά Εργαλεία: Τα βασικά εργαλεία περιγραφής είναι µία βιβλιοθήκη από Σχήµατα Περιγραφής και Τύπους Δεδοµένων τα οποία χρησιµοποιούνται σαν κύρια συστατικά για την παραγωγή πιο πολύπλοκων και πιο εξειδικευµένων λειτουργικά εργαλείων περιγραφής που περιέχονται στο πρότυπο. Τα διαθέσιµα εργαλεία χωρίζονται στις παρακάτω υποκατηγορίες: Περιγραφή Σχέσεων και Γραφηµάτων: Κάποιες περιγραφές πολυµεσικού περιεχοµένου αναπαριστώνται καλύτερα ως γραφήµατα µε παραδείγµατα από διάφορα σχήµατα περιγραφής που συνδέονται µεταξύ τους µε σχέσεις όπως για παράδειγµα η περιγραφή µιας αφηγηµατικής ή χωρικής διαµόρφωσης των οντοτήτων που υπάρχουν 58

59 σε µία εικόνα. Το σχήµα περιγραφής που χρησιµοποιείται είναι το EntityRelatioshipGraph. Περιγραφή Κειµένου (Text Annotation): Η περιγραφή του πολυµεσικού περιεχοµένου χρησιµοποώντας φυσική γλώσσα ονοµάζεται σχολιασµός κειµένου. Η πρακτική αυτή που χρησιµοποιεί σχόλια κειµένου για να ερευνήσει και να τακτοποιήσει το πολυµεσικό περιεχόµενο είναι µακροσκελής και κουραστική. Το MPEG-7 χρησιµοποιεί τα παρακάτω εργαλεία για να εντάξει τα σχόλια κειµένου στις περιγραφές. TextAnnotation (DS) Language (A) KeywordAnnotation (DT) FreeTextAnnotation (DT) StructuredAnnotatio (DT) DependencyStructure (DT) ClassifiicationScheme (DS) TermUse (DT) ControlledTermUse (DT) Περιγραφή προσώπων και τόπων: Σ αυτή την ενότητα εισάγουµε τα εργαλεία περιγραφής του MPEG-7 για την περιγραφή προσώπων και τόπων. Στο MPEG-7, τα πρόσωπα (π.χ. ηθοποιοί, σκηνοθέτης), οι διάφοροι οργανισµοί (π.χ. εταιρείες) και οι διάφορες οµάδες ατόµων αντιµετωπίζονται σαν αντιπρόσωποι (agents). Ένας αντιπρόσωπος είναι µία οντότητα υπεύθυνη για µία πράξη. Οι τύποι δεδοµένων και τα σχήµατα περιγραφής που χρησιµοποιούνται για τους αντιπροσώπους είναι: Person DS PersonGroup DS Organization DS Ενώ το σχήµα περιγραφής που περιγράφει τον τόπο είναι το Place DS. Για την περιγραφή της συναισθηµατικής κατάστασης των προσώπων χρησιµοποιείται το Affective Description Scheme ενώ για την 59

60 οργάνωση των δεδοµένων χρησιµοποιείται το OrderingKey Description Scheme. Για την περιγραφή της χρονικής σειράς των γεγονότων χρησιµοποιείται ο περιγραφέας TemporalInterpolation. 3. Περιγραφή Μέσων (MediaInformation): Η περιγραφή των χαρακτηριστικών των µέσων του περιεχοµένου περιέχεται στο MediaInformation Descrption Scheme. Αυτό αποτελείται από ένα προαιρετικό περιγραφέα, τον MediaIdentification καθώς και από ένα ή περισσότερα MediaProfile description schemes. Ο περιγραφέας MediaIdentification ταυτοποιεί την οντότητα του περιεχοµένου ανεξάρτητα από τα διαθέσιµα προφίλ και τις σχετικές υποδείξεις του κάθε µέσου. Περιλαµβάνει ένα µοναδικό ταυτοποιητή και προαιρετικές πληροφορίες για το οπτικοακουστικό πεδίο (ανάλογα βέβαια µε την εφαρµογή). Το MediaProfile description scheme επιτρέπει την περιγραφή του προφίλ ενός µέσου µίας οντότητας περιεχοµένου και αποτελείται από τους παρακάτω περιγραφείς και σχήµατα περιγραφής: Τον MediaFormat Descriptor Το MediaInstance description scheme Το MediaTranscodingHints Descriptor και Το MediaQuality Descriptor. 4. Περιγραφή της Δηµιουργίας του Περιεχοµένου: Τα εργαλεία της πληροφορίας για τη δηµιουργία περιγράφουν πληροφορίες που σχετίζονται µε το δηµιουργό καθώς και τη διαδικασία παραγωγής του περιεχοµένου. Αυτές οι πληροφορίες δε µπορούν να αποσπασθούν απευθείας από το περιεχόµενο. Η περιγραφή της δηµιουργίας του περιεχοµένου περιλαµβάνεται στο CreationInformation description scheme το οποίο αποτελείται από το Creation description scheme, ένα προαιρετικό Classification description scheme και κανένα ή πολλά RelatedMaterial description schemes. 60

61 5. Περιγραφή της Χρήσης του Περιεχοµένου: Οι πληροφορίες για τη χρήση του περιεχοµένου περιλαµβάνονται στο UsageInformation description scheme το οποίο περιέχει ένα προαιρετικό τύπο δεδοµένων τον Rights data type, έναν προαιρετικό Financial data type καθώς επίσης και κανένα ή περισσότερα Availability description schemes και UsageRecord description schemes. 6. Περιγραφή της Δοµής του Περιεχοµένου: Τα εργαλεία για την περιγραφή του περιεχοµένου περιγράφουν τη χωρική και χρονική δοµή του πολυµεσικού περιεχοµένου καθώς και την προέλευση του µέσου σαν µία οµάδα από διασυνδεδεµένα τµήµατα. Τα εργαλεία περιγράφουν τα τµήµατα, τα χαρακτηριστικά τους, τις ιεραρχικές αποσυνθέσεις τους καθώς και τις δοµικές σχέσεις ανάµεσα στα τµήµατα. Αναλυτικότερα: Οντότητες τµηµάτων (Segment entities): Τα εργαλεία του MPEG-7 που περιγράφουν τα τµήµατα των οντοτήτων περιγράφουν τµήµατα του πολυµεσικού περιεχοµένου στο χώρο, στο χρόνο καθώς και στην πηγή του µέσου. Προέρχονται από το Segment description scheme το οποίο είναι ένα γενικό είδος το οποίο αναπαριστά αυθαίρετα τµήµατα ή ενότητες του πολυµεσικού περιεχοµένου. Τα σχήµατα περιγραφής που προέρχονται από το Segment description scheme περιγράφουν γενικευµένους ή πιο εξειδικευµένους τύπους των τµηµάτων. Οι κυριότεροι τύποι δεδοµένων και σχήµατα περιγραφής που χρησιµοποιούνται είναι: Stillregion description scheme VideoSegment description scheme MovingRegion description scheme AudioSegment description scheme AudioVisualSegment description scheme AudioVisualRegion description scheme StillRegion 3D description scheme ImageText description scheme VideoText description scheme InkSegment description scheme MultimediaSegment description scheme 61

62 AnalyticClip description scheme AnalyticTransition description scheme Mosaic description scheme Χαρακτηριστικά τµηµάτων (Segment Attributes): Οποιοδήποτε είδος του τµήµατος µπορεί να περιγραφεί µε βάση την πληροφορία του µέσου, την πληροφορία δηµιουργίας, την πληροφορία χρήσης, τα σχόλια κειµένου, τα οπτικά, τα ηχητικά ή και άλλα χαρακτηριστικά. Εξειδικευµένα χαρακτηριστικά όπως ο χαρακτηρισµός συνδεδεµένων συστατικών του τµήµατος, η σηµασία του τµήµατος καθώς και η σηµασία κάποιων περιγραφέων µπορούν επίσης να περιγραφούν. Οι περιγραφείς, τα σχήµατα περιγραφείς και οι τύποι δεδοµένων που χρησιµοποιούνται είναι οι ακόλουθοι: Mask descriptor SpatialMask descriptor TemporalMask descriptor SpatioTemporalMask descriptor InkSegment description scheme SceneGraph descriptor MediaSpaceMask descriptor OrderedGroupDataSetMask descriptors MatchingHint descriptor PointOfView descriptors InkMediaInfo description scheme HandWritingRecogInformation description scheme HandWritingRecogResult description scheme Διασπάσεις τµήµατος (Segment Decompositions): Τα εργαλεία που περιγράφουν τις διασπάσεις του τµήµατος περιγράφουν την αποσύνθεση ή τη διαίρεση των τµηµάτων σε υποτµήµατα. Τα σχήµατα περιγραφής και οι περιγραφείς που χρησιµοποιούνται είναι οι ακόλουθοι: SegmentDecomposition description scheme SpatialSegmentDecomposition description scheme TemporalSegmentDecomposition description scheme 62

63 SpatioTemporalSegmentDecomposition description scheme MediaSourceDecomposition description scheme Στο παρακάτω σχήµα φαίνονται αποσυνθέσεις τµηµάτων µε διάφορες παραλλαγές. Σχ.2.3.: Παραδείγµατα από αποσυνθέσεις τµηµάτων: (α) και (b) χωρίς κενό ή επικαλύψεις, (c) και (d) µε κενά και επικαλύψεις Σηµασιολογία Περιεχοµένου (Content Semantics): Η περιγραφή της εννοιολογίας του πολυµεσικού περιεχοµένου µπορεί να γίνει καλύτερα αντιληπτή αν αναλυθεί αρχικά το πώς οι εννοιολογικές περιγραφές κατασκευάζονται γενικότερα. Ένας τρόπος περιγραφής της σηµασιολογίας είναι αρχίζοντας µε γεγονότα, που γίνονται αντιληπτά ως περιστατικά όταν συµβαίνει κάτι. Αντικείµενα, άνθρωποι και τόποι καταλαµβάνουν τέτοια περιστατικά καθώς και τους χρόνους στους οποίους συµβαίνουν. Κάποιες περιγραφές µπορεί να συγκεντρώνονται σε πιο πρόσφατες απόψεις, µε ή χωρίς γεγονότα και κάποιες µπορούν να αρχίσουν ακόµα µε ένα µέρος, ή ένα αντικείµενο ή να περιγράψουν διάφορα συσχετιζόµενα γεγονότα. Επιπλέον, αυτές οι οντότητες µπορούν να έχουν ιδιότητες και καταστάσεις οι οποίες περνούν κάτι που έχει περιγραφεί και προχωράει. Υπάρχουν αλληλοσυσχετίσεις ανάµεσα σ αυτές τις οντότητες. Τα εργαλεία που χρησιµοποιούνται γι αυτές τις περιγραφές είναι: Concept description scheme AbstractionLevel data type SemanticBase description scheme 63

64 Semantic description scheme SemanticBag description scheme Object description scheme AgentObject description scheme Event description scheme SemanticPlace description scheme SemanticTime description scheme SemanticState description scheme Extent data type Position data type BaseRelation description scheme Graph description scheme Στο παρακάτω σχήµα φαίνεται αναλυτικότερα η δοµή της περιγραφής του εννοιολογικού περιεχοµένου. Σχ.2.4.: Εργαλεία για την περιγραφή εννοιολογικών απόψεων 7. Πλοήγηση και Ανακεφαλαίωση Περιεχοµένου (Navigation and Summarization): Η ενότητα αυτή περιγράφει τα πεδία της πλοήγησης και της περίληψης µε τα σχετικά εργαλεία τους. Τα εργαλεία χωρίζονται σε κατηγορίες ανάλογα µε τη χρησιµότητα τους και είναι τα παρακάτω: Εργαλεία Περίληψης ή Σύνοψης: Τα εργαλεία αυτά χρησιµοποιούνται συνήθως για να διευκρινίσουν τις περιλήψεις από 64

65 διάφορα οπτικοακουστικά δεδοµένα τα οποία υποστηρίζουν σειριακή και ιεραρχική πλοήγηση και φαίνονται παρακάτω: HierarchicalSummary description scheme SequentialSummary description scheme Name attribute Source ID attribute SourceLocator attribute SourceInformation attribute SummarySegmentGroup description scheme SummaryThemeList description scheme SummarySegment description scheme VisualSummaryComponent description scheme AudioSummaryComponent description scheme TextualSummaryComponent description scheme HighlightSegment description scheme HighlightSummary description scheme Εργαλεία επιµερισµού και αποσύνθεσης των θεµάτων: Τα εργαλεία αυτά περιγράφουν διαχωρισµούς σηµάτων βίντεο, εικόνας και ήχου µε βάση το χώρο και τη συχνότητα. Είναι τα παρακάτω: ViewSet description scheme ViewTree description scheme ViewGraph description scheme FrequencyTree description scheme FrequencyPartition description scheme Εργαλεία Μεταβλητότητας Περιεχοµένου: Τα εργαλεία αυτά περιγράφουν τη µεταβλητότητα του πολυµεσικού περιεχοµένου και είναι τα: VariationSet description scheme Variation description scheme VariationRelationships description scheme 65

66 8. Οργάνωση του Περιεχοµένου (Content Organization): Δεδοµένης της ανάγκης για οργάνωση του πολυµεσικού περιεχοµένου, το MPEG-7 παρέχει εργαλεία για την περιγραφή συλλογών και µοντέλων. Εργαλεία Συλλογών: Τα εργαλεία αυτά περιγράφουν συλλογές πολυµεσικού περιεχοµένου, τµήµατα, περιγραφείς ή διάφορες έννοιες. Μπορούν να χρησιµοποιηθούν για την περιγραφή ενός άλµπουµ µε τραγούδια, µία οµάδα αντικειµένων, ή µία οµάδα από περιγραφείς χρωµατικών χαρακτηριστικών. Τα εργαλεία συλλογών είναι: ContentCollection description scheme SegmentCollection description scheme Mixed Collection description scheme Structured Collection description scheme Εργαλεία Μοντέλων: Τα εργαλεία µοντέλων περιλαµβάνουν πιθανοτικά µοντέλα, αναλυτικά µοντέλα και µοντέλα ταξινόµησης. Τα εργαλεία που χρησιµοποιούνται: α) για τα πιθανοτικά µοντέλα είναι: ProbabilityModel description scheme Gaussian description scheme β) για τα αναλυτικά µοντέλα είναι: AnalyticModel description scheme Cluster description scheme Examples description scheme ProbabilityModelClass description scheme και γ) για τα µοντέλα ταξινόµησης είναι: Classifier description scheme ClusterSet description scheme ExamplesSet description scheme και ProbabilityModelClassifier description scheme 66

67 11. Αλληλεπίδραση µε το χρήστη (User Interaction): Τα εργαλεία αλληλεπίδρασης µε το χρήστη που παρέχει το MPEG-7 µπορολυν να χρησιµοποιηθούν για να περιγράψουν τις προσωπικές προτιµήσεις και τους τρόπους χρήσης της πληροφορίας από τους χρήστες. Οι περιγραφές των προτιµήσεων των χρηστών δίνουν τη δυνατότητα αυτόµατης ανακάλυψης, επιλογής και σύστασης ή αρχειοποίησης του πολυµεσικού περιεχοµένου. Εποµένως, το κύριο όφελος αυτών των εργαλείων είναι η βελτιωµένη χρησιµότητα των συσκευών των πολυµέσων µέσω της προσωποποίησης. Τα εργαλεία είναι: UserPreference description scheme UserIdentifier description scheme PreferenceType description scheme UsagePreferences description scheme BrowsingPreferences description scheme SummaryPreferences description scheme FilteringAndSearchPreferences description scheme ClassificationPreferences description scheme CreationPreferences description scheme SourcePreferences description scheme [1], [11], [22], [25], [26] Οπτικοί Περιγραφείς Ο κύριος σκοπός του οπτικού προτύπου MPEG-7 είναι να παρέχει τυποποιηµένες περιγραφές από εικόνες ή βίντεο οι οποίες βοηθούν τους χρήστες να αναγνωρίσουν, να κατηγοριοποιήσουν ή να φιλτράρουν τις εικόνες ή τα βίντεο. Αυτοί οι περιγραφείς µπορούν να χρησιµοποιηθούν για να συγκρίνουν, να φιλτράρουν ή να εξετάσουν τις εικόνες ή τα βίντεο βάσει οπτικών περιγραφών βασισµένες σε κείµενο και βάσει περιγραφών µη βασισµένες σε κείµενο. Θα χρησιµοποιηθούν διαφορετικά σε διαφορετικούς τοµείς και σε διαφορετικά περιβάλλοντα εφαρµογών. 67

68 Επιλεγµένα παραδείγµατα εφαρµογών περιλαµβάνουν τις ψηφιακές βιβλιοθήκες (κατάλογοι εικόνων και βίντεο), σε επιλεγµένες εκποµπές µέσων (τηλεοπτικά κανάλια) καθώς και πολυµεσικές εφαρµογές. Επιπλέον οι περιγραφείς των οπτικών χαρακτηριστικών του MPEG-7 επιτρέπουν στους χρήστες να εκτελούν τα παρακάτω παραδείγµατα: Γραφικά: Να τραβούν µερικές γραµµές σε µία οθόνη και να παίρνουν ως επιστροφή µία οµάδα εικόνων που περιέχει παρόµοια γραφικά ή λογότυπα. Εικόνες: Να ορίζουν αντικείµενα τα οποία περιέχουν διάφορα χρώµατα και υφές και να τους επιστρέφεται παραδείγµατα ανάµεσα στα οποία επιλέγουν τα πιο ενδιαφέροντα. Βίντεο: Σε µία δεδοµένη οµάδα από αντικείµενα σε ένα βίντεο να περιγράφουν κινήσεις των αντικειµένων, κινήσεις της κάµερας ή σχέσεις ανάµεσα στα αντικείµενα και να τους επιστρέφεται µία λίστα από βίντεο µε όµοιες ή ανόµοιες χρονικές ή χωρικές σχέσεις. Δραστηριότητα στο βίντεο: Σε ένα δεδοµένο περιεχόµενο ενός βίντεο να περιγράφουν δράσεις και να λαµβάνουν µία λίστα από βίντεο στην οποία συµβαίνουν παρόµοιες δράσεις. Οι οπτικοί περιγραφείς του MPEG-7 περιγράφουν βασικό οπτικοακουστικό περιεχόµενο των µέσων βασιζόµενοι στην οπτική πληροφορία. Για τις εικόνες και το βίντεο, το περιεχόµενο µπορεί να περιγραφεί για παράδειγµα από το σχήµα των αντικειµένων, το µέγεθος τους, την υφή τους, το χρώµα τους, την κίνησή τους ή την κίνηση της κάµερας. Αυτοί οι περιγραφείς χρειάζεται να αποσπαστούν από το οπτικοακουστικό περιεχόµενο της εικόνας ή του βίντεο. Οφείλουµε να σηµειώσουµε σ αυτό το σηµείο ότι ο περιγραφέας των δεδοµένων του MPEG-7 θα µπορούσε να τοποθετηθεί µαζί µε το σχετικό οπτικοακουστικό υλικό, στο ίδιο ρεύµα δεδοµένων ή στο ίδιο σύστηµα αποθήκευσης. Εναλλακτικά οι περιγραφείς θα µπορούσαν να τοποθετηθούν οπουδήποτε αλλού εφόσον µπορούν να συνδέσουν ικανοποιητικά το υλικό µε τις περιγραφές. Μόλις οι περιγραφείς του MPEG-7 είναι διαθέσιµοι κατάλληλες µηχανές αναζήτησης µπορούν να τεθούν σε ισχύ έτσι ώστε να ψάξουν και να φιλτράρουν οπτικό υλικό βασισµένες σε κατάλληλα µέτρα οµοιότητας. Οι πρακτικές εφαρµογές των µηχανών αναζήτησης χρειάζονται αυτά τα µέτρα οµοιότητας για να ταιριάξουν 68

69 το περιεχόµενο βασισµένες σε έναν ισορροπηµένο συνδυασµό των οπτικών περιγραφέων (όπως το χρώµα ή την υφή) και µπορούν επιπλέον να περιλαµβάνουν συγκρίσεις και αναζητήσεις βασισµένες σε κείµενο. Γι αυτό το σκοπό το MPEG-7 ορίζει τα Σχήµατα Περιγραφής τα οποία περιγράφουν συνδυασµούς των περιγραφέων µε έναν κατάλληλο τρόπο. [1], [10], [22] 2.13.Οπτικοί Περιγραφείς για Εικόνες και Βίντεο Οι περιγραφείς του MPEG-7 οι οποίοι αναπτύχθηκαν µπορούν ευρέως να ταξινοµηθούν σε γενικούς οπτικούς περιγραφείς και σε εξειδικευµένους οπτικούς περιγραφείς. Οι πρώτοι περιλαµβάνουν το χρώµα, την υφή και το σχήµα ενώ οι τελευταίοι εξαρτώνται από την κάθε εφαρµογή και περιλαµβάνουν τη αναγνώριση και την ταυτοποίηση των ανθρώπινων προσώπων. Αυτή η τυποποίηση των εξειδικευµένων περιγραφέων είναι ακόµη υπό ανάπτυξη γι αυτό και η παρούσα διπλωµατική εργασία θα συγκεντρωθεί στους γενικούς περιγραφείς που χρησιµοποιούνται στις περισσότερες εφαρµογές Οπτικοί Περιγραφείς Χρώµατος (Color Descriptors) Το χρώµα είναι ένα από τα πιο ευρέως χρησιµοποιούµενα χαρακτηριστικά στην ανάκτηση της εικόνας και του βίντεο. Τα χαρακτηριστικά του χρώµατος είναι σχετικά ανθεκτικά στις αλλαγές των χρωµάτων που βρίσκονται ως φόντο σε µία εικόνα ή ένα βίντεο και επιπλέον είναι ανεξάρτητα από το µέγεθος της εικόνας ή τον προσανατολισµό της. Οι περιγραφείς χρώµατος µπορούν να χρησιµοποιηθούν για να περιγράψουν το περιεχόµενο είτε σταθερών εικόνων είτε βίντεο. Αξιοσηµείωτος σχεδιασµός και πειραµατική εργασία έχουν παίξει ρόλο στο MPEG-7 έτσι ώστε να επιτευχθούν περιγραφείς χρωµάτων για αποτελεσµατικό συνταίριασµα οµοιότητας. Κανένας µεµονωµένος γενικός περιγραφέας χρώµατος που υπάρχει δε µπορεί να χρησιµοποιηθεί για όλες τις προβλεπόµενες εφαρµογές. Σαν αποτέλεσµα έχουµε την τυποποίηση µιας ποικιλίας περιγραφέων, καθένας κατάλληλος για την επίτευξη ειδικών λειτουργικοτήτων συνταιριάσµατος οµοιότητας. Παρακάτω, θα εξηγήσουµε συνοπτικά τη λειτουργία κάθε παρεχόµενου περιγραφέα. Χρωµατικές Συνιστώσες (Color Spaces): Για να επιτραπεί η διαλειτουργικότητα ανάµεσα σε πολλούς περιγραφείς χρώµατος κανονιστικές 69

70 συνιστώσες χρώµατος περιορίζονται στα HSV (hue-saturation value) και HMMD (hue-min-max-diff). Το HSV είναι γνωστό color space και είναι πολύ διαδεδοµένο στις εφαρµογές εικόνας. Το HMMD είναι ένα νέο color space ορισµένο από το MPEG και χρησιµοποιείται µόνο στον περιγραφέα της δοµής του χρώµατος (CSD) όπως εξηγείται παρακάτω. Περιγραφέας Κλιµακούµενου Χρώµατος (Scalable Color Descriptor): Μία από τις πιο βασικές περιγραφές των χρωµατικών χαρακτηριστικών παρέχεται περιγράφοντας την κατανοµή των χρωµάτων στις εικόνες. Αν αυτή η κατανοµή µετριέται σε µία ολόκληρη εικόνα τα γενικά χαρακτηριστικά των χρωµάτων µπορούν να περιγραφούν. Η παρακάτω εικόνα και το σχήµα απεικονίζουν παραδείγµατα από έγχρωµες εικόνες και τις αντίστοιχες χρωµατικές κατανοµές σε ένα ιστόγραµµα χρώµατος. Σχ.2.5.:Ιστογράµµατα χρωµάτων των εικόνων Ο γενικός περιγραφέας κλιµακούµενου χρώµατος του MPEG-7 είναι ένα ιστόγραµµα χρωµάτων που κωδικοποιείται µε έναν µετασχηµατισµό Haar. Χρησιµοποιεί τις HSV χρωµατικές συνιστώσες ενιαία κβαντισµένες σε 255 bins. Για να φτάσουµε σε µία συµπαγή αναπαράσταση πρέπει οι τιµές των κουτιών του ιστογράµµατος να είναι µη-ενιαία κβαντισµένες σε µία κλίµακα από 16 bits/ιστόγραµµα για µία πρόχειρη αναπαράσταση µίας κατανοµής χρώµατος ενώ απαιτούνται πάνω από 1000 bits/ιστόγραµµα για υψηλής ποιότητας εφαρµογές. Περιγραφέας Κυρίαρχου Χρώµατος (Scalable Color Descriptor) : Αυτός ο περιγραφέας χρώµατος σκοπεύει να περιγράψει τόσο γενικές όσο και τοπικές χωρικές κατανοµές χρώµατος στις εικόνες για υψηλής ταχύτητας ανάκτηση και ξεφύλλισµα. Σε αντίθεση µε την προσέγγιση του ιστογράµµατος χρώµατος αυτός ο περιγραφέας 70

71 φτάνει σε µία πιο συµπαγή αναπαράσταση µε κόστος τη χαµηλότερη επίδοση σε κάποιες εφαρµογές. Τα χρώµατα σε µία δεδοµένη περιοχή µαζεύονται σε ένα µικρό αριθµό από αντιπροσωπευτικά χρώµατα. Ο περιγραφέας αποτελείται από αντιπροσωπευτικά χρώµατα, τα ποσοστά τους σε µία περιοχή, χωρική συνοχή του χρώµατος και χρωµική διακύµανση. Περιγραφέας Χρωµατικής Διάταξης (Color Layout Descriptor): Αυτός ο περιγραφέας σχεδιάζεται για να περιγράψει τη χωρική κατανοµή του χρώµατος σε µία αυθαίρετα σχηµατισµένη περιοχή. Η κατανοµή του χρώµατος σε κάθε περιοχή µπορεί να περιγραφεί χρησιµοποιώντας τον Περιγραφέα Κυρίαρχου Χρώµατος όπως περιγράφεται παραπάνω. Η χωρική κατανοµή του χρώµατος είναι µία αποτελεσµατική περιγραφή για ανάκτηση βασισµένη σε σκίτσο, φιλτράρισµα περιεχοµένου χρησιµοποιώντας την τοποθέτηση δεικτών σε εικόνες και οπτικοποίηση. Περιγραφέας Δοµής Χρώµατος (Color Structure Descriptοr, CSD): Ο σκοπός της περιγραφής της δοµής του χρώµατος είναι να εκφράσει τα τοπικά χρωµατικά χαρακτηριστικά στις εικόνες. Γι αυτό το σκοπό οµάδες των 8x8 pixels σαρώνουν όλη την εικόνα σε ένα ξεχωριστό παράθυρο. Σε κάθε αλλαγή του δοµικού στοιχείου (block) υπολογίζεται πόσες φορές ένα συγκεκριµένο χρώµα περιέχεται στο δοµικό αυτό στοιχείο και µ αυτό τον τρόπο κατασκευάζεται ένα χρωµατικό ιστόγραµµα. Περιγραφέας Οµάδας Πλαισίων (GoF, Group of Frames)/ Οµάδας Εικόνων (GoP, Group of Pictures): Ο περιγραφέας χρωµάτων οµάδας πλαισίων ή εικόνων ορίζει µία δοµή η οποία απαιτείται για να αναπαραστήσει χαρακτηριστικά χρώµατος µίας συλλογής παρόµοιων πλαισίων ή πλαισίων βίντεο που δηµιουργούνται από την περιγραφή της δοµής του χρώµατος. Είναι χρήσιµος για την ανάκτηση βάσεων δεδοµένων µε εικόνες και βίντεο, οµαδοποίηση γυρισµάτων βίντεο, συνταίριασµα εικόνας µε ένα τµήµα και άλλες παρόµοιες εφαρµογές. Αποτελείται από average, median και intersection ιστογράµµατα τα οποία υπολογίζονται από τα µεµονωµένα ιστογράµµατα του κάθε πλαισίου. [1], [10], [22] 71

72 2.15. Οπτικοί Περιγραφείς Υφής (Texture Descriptors) Η υφή αναφέρεται στα οπτικά υποδείγµατα τα οποία έχουν ιδιότητες οµογένειας ή µη, οι οποίες προέρχονται από την παρουσία πολλαπλών χρωµάτων ή πολλαπλών εντάσεων του κάθε χρώµατος σε µία εικόνα. Είναι µία ιδιότητα σχεδόν κάθε επιφάνειας που περιλαµβάνει σύννεφα, δέντρα, πλίνθους, τρίχες και άλλα κατασκευάσµατα. Περιλαµβάνει σηµαντικές δοµικές πληροφορίες για τις επιφάνειες καθώς και για τη σχέση αυτών µε το περιβάλλον τους. Η περιγραφή διαφορετικών υφών σε εικόνες χρησιµοποιώντας κατάλληλους περιγραφείς υφής παρέχει αποτελεσµατικά µέσα για συνταίριασµα οµοιότητας και τελικά ανάκτηση. Για να δείξουµε τις ιδιότητες της υφής µία συλλογή από εικόνες µε διαφορετικές υφές η κάθε µία φαίνονται στην παρακάτω εικόνα. Εικ.2.1.: Παραδείγµατα εικόνων µε διαφορετικές υφές Στις παραπάνω εικόνες χρησιµοποιώντας τους οπτικούς περιγραφείς υφής του MPEG-7 οι δύο εικόνες στη βάση θα εκτιµούνταν µεταξύ τους ως παρόµοιας υφής ενώ συγκρινόµενες µε τις εικόνες στην κορυφή θα εκτιµούνταν ως λιγότερο παρόµοιες. Το MPEG-7 έχει καθορίσει κατάλληλους περιγραφείς υφής οι οποίοι µπορούν να χρησιµοποιηθούν για µία ποικιλία εφαρµογών και εργασιών. Για 72

73 ανάκτηση οµοιότητας οι περιγραφείς υφής µπορούν να χρησιµοποιηθούν ανεξάρτητα ή σε συνδυασµό µε άλλους περιγραφείς του MPEG-7. Περιγραφέας Οµογενούς Υφής (Homogenous Texture Descriptors): Ο Περιγραφέας Οµογενούς Υφής περιγράφει κατευθυντικότητα, τραχύτητα και οµαλότητα των διαφόρων µορφών στις εικόνες και είναι πιο κατάλληλος για έναν ποιοτικό χαρακτηρισµό της υφής η οποία έχει οµογενείς ιδιότητες. Μπορεί να χρησιµοποιηθεί για συνταίριασµα οµοιότητας εικόνα προς εικόνα σε µία βάση δεδοµένων υφής των εικόνων. Προκειµένου να περιγραφεί η υφή, η ενέργεια και η ενεργειακή απόκλιση µιας εικόνας οι τιµές εξάγονται από ένα σχεδιάγραµµα συχνότητας. Ο περιγραφέας βασίζεται σε µία προσέγγιση µε τράπεζα φίλτρων η οποία χρησιµοποιεί ευαίσθητα φίλτρα κλίµακας και προσανατολισµού. Κατάλληλες περιγραφές αποκτώνται στο επίπεδο συχνότητας υπολογίζοντας τις µέσες τιµές και τις τυπικές αποκλίσεις των συντελεστών συχνότητας. Ένας radon µετασχηµατισµός ακολουθούµενος από ένα µετασχηµατισµό Fourier µπορεί να χρησιµοποιηθεί έτσι ώστε να επιτευχθεί κατάλληλη υπολογιστική αποδοτικότητα για εφαρµογές χαµηλής πολυπλοκότητας. Για να φτάσουµε σε περιγραφή υφής κατάλληλης κλίµακας, ανεξαρτήτου περιστροφής το εύρος συχνοτήτων χωρίζεται σε 30 κανάλια µε ίση διαίρεση στη γωνιακή κατεύθυνση και διαίρεση οκτάβας στην ακτινική κατεύθυνση όπως φαίνεται στο παρακάτω σχήµα. Σχ.2.6.: Συχνοτικό διάγραµµα για την εξαγωγή του περιγραφέα οµογενούς υφής του MPEG-7 Τα µεµονωµένα κανάλια χαρακτηριστικών φιλτράρονται χρησιµοποιώντας Gabor συναρτήσεις δύο διαστάσεων. 73

74 Αναζήτηση Υφής (Texture Browsing): Αυτός ο περιγραφέας προσδιορίζει την αναζήτηση της υφής. Συσχετίζει τον αντιληπτικό χαρακτηρισµό της υφής που είναι παρόµοιος µε τον ανθρώπινο χαρακτηρισµό, όσον αφορά την οµαλότητα, την τραχύτητα και την κατευθυντικότητα. Η εκπροσώπηση αυτή είναι πολύ χρήσιµη για εφαρµογές αναζήτησης και γενικευµένη ταξινόµηση των υφών. Το Regularity Component αντιπροσωπεύει την οµαλότητα της υφής. Μία υφή λέγεται οµαλή εάν έχει µία µορφή που επαναλαµβάνεται περιοδικά, έχει ξεκάθαρες κατευθυντικότητες και είναι ενιαίας κλίµακας. Παραδείγµατα φαίνονται στις παρακάτω εικόνες: Εικ.2.2.: Οµαλότητα Υφής Το Direction Component αντιπροσωπεύει την κυρίαρχη κατεύθυνση και χαρακτηρίζει την κατευθυντικότητα της υφής. Το Scale Component αναπαριστά την τραχύτητα της υφής που αντιστοιχεί στους αντίστοιχους κυρίαρχους προσανατολισµούς που ορίζει το Direction Component. Ιστόγραµµα Άκρων (Edge Histogram): Στην προσπάθεια να παραχθούν περιγραφές για τις εικόνες µε µη οµογενή υφή το MPEG-7 όρισε έναν περιγραφέα ιστογράµµατος άκρων. Αυτός ο περιγραφέας συλλαµβάνει τη χωρική κατανοµή των άκρων µε την ίδια λογική µε τον Περιγραφέα Χρωµατικής Διάταξης. Η εξαγωγή του περιγραφέα περιλαµβάνει διαίρεση της εικόνας σε 16 µη επικαλυπτόµενα τµήµατα ίσου µεγέθους. Οι πληροφορίες για τα άκρα υπολογίζονται για κάθε τµήµα και τα άκρα διαιρούνται σε 5 κατηγορίες: κάθετα, οριζόντια, 45 ο, 135 ο, και τα µη κατευθυντικά άκρα. Εκφράζονται σαν ένα 5-bin ιστόγραµµα, ένα για κάθε τµήµα της εικόνας. Ο περιγραφέας είναι ανεξάρτητος της όποιας κλίµακας και υποστηρίζει τόσο το συνταίριασµα που είναι ευαίσθητο στην περιστροφή όσο και αυτό που είναι ανεξάρτητο της όποιας περιστροφής. Επιπλέον είναι πολύ συνοπτικός επειδή κάθε bin του ιστογράµµατος δεν είναι οµοιόµορφα κβαντισµένο και για την κβάντιση χρησιµοποιούνται 3 bits. Αυτό έχει σαν αποτέλεσµα έναν περιγραφέα µεγέθους 240 bits. [1], [10], [22] 74

75 2.16. Οπτικοί Περιγραφείς Σχήµατος Σε πολλές εφαρµογές στις βάσεις δεδοµένων των εικόνων, το σχήµα των αντικειµένων της κάθε εικόνας παρέχει ένα ισχυρό οπτικό στοιχείο για το συνταίριασµα οµοιότητας. Τυπικά παραδείγµατα τέτοιων εφαρµογών είναι οι δυαδικές εικόνες µε γραπτούς χαρακτήρες, τα εµπορικά σήµατα, τα περιγράµµατα των αντικειµένων πριν αυτά χωριστούν σε τµήµατα καθώς και τα όρια των δισδιάστατων και τρισδιάστατων εικονικών αντικειµένων. Στην ανάκτηση της εικόνας απαιτείται συνήθως ο περιγραφέας του σχήµατος να είναι ανεξάρτητος της κλίµακας, της περιστροφής και της µετατόπισης. Οι πληροφορίες του σχήµατος µπορεί να είναι δύο ή τριών διαστάσεων ανάλογα µε τη φύση του αντικειµένου και εξαρτώµενες από την κάθε εφαρµογή. Γενικά, η περιγραφή δισδιάστατου σχήµατος µπορεί να χωριστεί σε 2 κατηγορίες: σ αυτήν που βασίζεται στο περίγραµµα και σ αυτή που βασίζεται σε µία περιοχή. Η πρώτη κατηγορία χρησιµοποιεί µόνο πληροφορίες των ορίων των αντικειµένων και είναι κατάλληλη για να περιγράψει αντικείµενα τα οποία έχουν παρόµοια χαρακτηριστικά στο περίγραµµά τους. Η δεύτερη κατηγορία χρησιµοποιεί το σχήµα ολόκληρης της επιφάνειας (περιοχής) του αντικειµένου προκειµένου να δώσει µία αξιόλογη περιγραφή η οποία χρησιµοποιείται συνήθως όταν τα αντικείµενα έχουν παρόµοιες χωρικές κατανοµές των εικονοστοιχείων (pixels) τους. Ανάλογα µε την κάθε εφαρµογή ή τα χαρακτηριστικά των αντικειµένων είναι χρήσιµες και οι δύο παραπάνω κατηγορίες περιγραφής του σχήµατος των αντικειµένων. Περιγραφέας Σχήµατος 3 διαστάσεων-φάσµα Σχήµατος: Ο περιγραφέας σχήµατος 3 διαστάσεων του MPEG-7 χρησιµοποιείται για να συγκρίνει φυσικά ή εικονικά αντικείµενα. Ο περιγραφέας βασίζεται στην ιδέα του φάσµατος του σχήµατος. Γενικά µιλώντας, το φάσµα του σχήµατος ορίζεται σαν το ιστόγραµµα από ένα δείγµα ενός σχήµατος υπολογισµένο σε ολόκληρη την τρισδιάστατη επιφάνεια. Το ίδιο το δείγµα του σχήµατος µετράει τα τοπικά κυρτά τµήµατα της κάθε τοπικής τρισδιάστατης επιφάνειας. Χρησιµοποιούνται ιστογράµµατα των 100 bins που το κάθε ένα είναι κβαντισµένο σε 12 bits. Περιγραφέας βασισµένος στην περιοχή-art (Region Shape): Η περιγραφή του MPEG-7 που βασίζεται στην περιοχή ART (Angular Radial 75

76 Transformation) δηλαδή γωνιακός και ακτινικός µετασχηµατισµός ανήκει στην τάξη των µεθόδων σταθερών αποκλίσεων για την περιγραφή των σχηµάτων. Ο περιγραφέας είναι κατάλληλος για σχήµατα τα οποία µπορούν καλύτερα να περιγραφούν µε τις επιφάνειες των σχηµάτων (περιοχές) παρά µε τα περιγράµµατα αυτών. Η κύρια ιδέα πίσω από τις σταθερές αποκλίσεις είναι να χρησιµοποιηθούν αποκλίσεις βασισµένες στις περιοχές οι οποίες είναι ανεξάρτητες από τους µετασχηµατισµούς που τυχόν υπόκεινται τα χαρακτηριστικά του σχήµατος. Προκειµένου να επιτευχθεί αυτός ο στόχος ο περιγραφέας ART εφαρµόζει έναν σύνθετο γωνιακό- ακτινικό µετασχηµατισµό ο οποίος ορίζεται σε πολικές συντεταγµένες σε µία µονάδα δίσκου. Οι συντελεστές των συναρτήσεων βάσης του µετασχηµατισµού ART κβαντίζονται και χρησιµοποιούνται για το συνταίριασµα. Ο περιγραφέας είναι εξαιρετικά συµπαγής (140 bits/περιοχή) και επιπλέον πολύ ανθεκτικός στο θόρυβο τµηµατοποίησης. Παραδείγµατα µε συνταίριασµα οµοιότητας ανάµεσα σε πολλά και ποικίλα σχήµατα χρησιµοποιώντας τον περιγραφέα ART φαίνονται στα παρακάτω σχήµατα: Σχ.2.7.: Παραδείγµατα πολλών σχηµάτων που µπορούν να περιγραφούν χρησιµοποιώντας τον περιγραφέα του MPEG-7 που βασίζεται στην περιοχή. Για παράδειγµα τα σχήµατα στο σετ α) θα εκτιµόντουσαν παρόµοιες µεταξύ τους και διαφορετικές από τα σχήµατα στα υπόλοιπα σετ. Περιγραφέας Σχήµατος βασισµένος στο Περίγραµµα (Contour Shape): Τα αντικείµενα στα οποία τα χαρακτηριστικά των σχηµάτων τους εκφράζονται καλύτερα µε περιγραφές περιγράµµατος µπορούν να περιγράφονται χρησιµοποιώντας τον περιγραφέα σχήµατος του MPEG-7 που βασίζεται στο περίγραµµα των αντικειµένων. Αυτός ο περιγραφέας βασίζεται στις αναπαραστάσεις των τµηµάτων καµπυλότητας που φαίνονται στα περιγράµµατα των αντικειµένων. 76

77 Επιπλέον περιλαµβάνει τις τιµές της εκκεντρότητας και της κυκλικότητας των πρωτοτύπων καθώς και των φιλτραρισµένων περιγραµµάτων. Ο περιγραφέας περιγράµµατος χρησιµοποιεί ένα αντικείµενο ως παράδειγµα για το συνταίριασµα και δείχνει τα ύψη της πιο εξέχουσας κορυφής και τις οριζόντιες και κάθετες θέσεις των υπολοίπων κορυφών στην επονοµαζόµενη εικόνα περιγράµµατος που χρησιµοποιείται ως δείγµα προς σύγκριση. Το µέσο µέγεθος του περιγραφέα είναι 122 bits/περίγραµµα. Τα παρακάτω σχήµατα επιδεικνύουν το συνταίριασµα οµοιότητας που επιτυγχάνεται στον περιγραφέα περιγράµµατος. Σχ.2.8.: Παραδείγµατα σχηµάτων που µπορούν να περιγραφούν χρησιµοποιώντας τον περιγραφέα σχήµατος που βασίζεται στο περίγραµµα των αντικειµένων. Η εικόνα (α) δείχνει παραδείγµατα µε σχήµατα τα οποία κατέχουν παρόµοια επιφάνεια (περιοχή) ενώ έχουν διαφορετικές ιδιότητες περιγράµµατος. Αντίθετα, στις εικόνες (b)-(d) τα αντικείµενα σε κάθε σετ έχουν παρόµοιο περίγραµµα αλλά κατέχουν διαφορετικές επιφάνειες. Περιγραφέας τρισδιάστατων σχηµάτων (3D Shape): Γενικά, το σχήµα ενός τρισδιάστατου αντικειµένου µπορεί προσεγγιστικά να περιγραφεί µε έναν περιορισµένο αριθµό από δισδιάστατα σχήµατα τα οποία λαµβάνονται ως δισδιάστατα snapshots από διαφορετικές οπτικές γωνίες. Μ αυτό τον τρόπο οι περιγραφείς δισδιάστατων σχηµάτων του MPEG-7 µπορούν να χρησιµοποιηθούν για να περιγράψουν κάθε δισδιάστατο σχήµα που προέρχεται από τα snapshots του τρισδιάστατου αντικειµένου. Ένα συνταίριασµα οµοιότητας ανάµεσα στα τρισδιάστατα αντικείµενα περιλαµβάνει πολλαπλά ζευγάρια από δισδιάστατες όψεις που λαµβάνονται για κάθε ένα από τα αντικείµενα. Γενικότερα, µία καλή παρουσίαση για τρισδιάστατα σχήµατα έχει επιτευχθεί χρησιµοποιώντας τον περιγραφέα σχήµατος του MPEG-7 που βασίζεται στο περίγραµµα των αντικειµένων. [1], [10] 77

78 2.17. Περιγραφείς Κίνησης για Βίντεο (Motion Descriptors) Όλοι οι περιγραφείς του MPEG-7 που περιγράφηκαν παραπάνω για το χρώµα, τη δοµή και το σχήµα των αντικειµένων µπορούν εύκολα να χρησιµοποιηθούν για να επιδειχθεί η αλληλουχία των εικόνων σε ένα βίντεο. Για παράδειγµα, οι περιγραφείς χρώµατος και υφής χρησιµοποιούνται συχνά για τη χρονική τµηµατοποίηση ενός βίντεο όπως µε την ανίχνευση των ορίων των πλάνων, τον εντοπισµό των εφφέ διάλυσης της κάµερας κτλ. Η περιγραφή των χαρακτηριστικών της κίνησης στις αλληλουχίες των εικόνων ενός βίντεο παρέχουν ακόµη περισσότερα δυνατά στοιχεία όσων αφορά το περιεχόµενο του. Γενικά, η περιγραφή της κίνησης στις αλληλουχίες ενός βίντεο µε πεδία κίνησης µπορεί να είναι πολύ ακριβή όσον αφορά τον αριθµό των bits σε µία εικόνα ακόµα κι αν τα διανύσµατα στο πεδίο κίνησης είναι προσεγγιστικά. Το πρότυπο MPEG-7 έχει αναπτύξει περιγραφείς οι οποίοι αιχµαλωτίζουν τα απαραίτητα χαρακτηριστικά κίνησης από το πεδίο κίνησης σε συνοπτικές, σαφείς και αποτελεσµατικές περιγραφές. Τα κυριότερα χαρακτηριστικά παρέχονται από την κίνηση της κάµερας και από τις κινήσεις των αντικειµένων. Περιγραφέας Δραστηριότητας της Κίνησης (Motion Activity Descriptor): Σε ένα τµήµα ενός βίντεο (όπως ένα δεδοµένο σύνολο από frames) το επίπεδο της γενικής δραστηριότητάς του, η ταχύτητα της κίνησης ή η δράση σε µία σκηνή αιχµαλωτίζεται από τον περιγραφέα Δραστηριότητας της Κίνησης. Ο περιγραφέας περιγράφει αν µία σκηνή µπορεί να γίνει αντιληπτή από έναν θεατή ως αργή, γρήγορη ή σκηνή δράσης. Τα παραδείγµατα υψηλής «δράσης» περιλαµβάνουν σκηνές όπως αγώνες ποδοσφαίρου ή µπάσκετ. Από την άλλη πλευρά σκηνές που προέρχονται από ένα δελτίο ειδήσεων θα αποτελούσαν πλάνα χαµηλού επιπέδου δράσης. Ο περιγραφέας της έντασης της δράσης της κίνησης δίνει τη δυνατότητα επιλογής των τµηµάτων από ένα βίντεο ενός προγράµµατος τα οποία µπορούν να κατηγοριοποιηθούν από αυτά τα χαρακτηριστικά. Ο περιγραφέας µετράει την ένταση της κίνησης βασισµένος σε σταθερές αποκλίσεις των µέτρων των διανυσµάτων κίνησης. Οι σταθερές αποκλίσεις κβαντίζονται σε 5 τιµές δράσης. Προαιρετικά, η κατεύθυνση της κίνησης και η χωρική και χρονική κατανοµή της 78

79 δράσης της κίνησης µπορούν να εξαχθούν σαν περιγραφές και να χρησιµοποιηθούν για το συνταίριασµα οµοιότητας. Περιγραφέας της Κίνησης της Κάµερας (Camera Motion Descriptor): Η κίνηση µίας κάµερας ή ενός εικονικού σηµείου σε µία σκηνή µπορεί να περιγραφεί από τον περιγραφέα της κίνησης της κάµερας, το µοντέλο του οποίου φαίνεται στο σχήµα που ακολουθεί. Σχ.2.9.: Μοντέλο του MPEG-7 για την περιγραφή της κίνησης της κάµερας. Η κάµερα είναι τοποθετηµένη στο σηµείο Ο και η προβολή της εικόνας είναι στο επίπεδο που διέρχεται από το σηµείο Ρ και είναι κάθετο στον άξονα z. Αυτός ο περιγραφέας εξηγεί λεπτοµερώς τις παραµέτρους της συνολικής κίνησης που είναι παρούσες κάθε χρονική στιγµή σε µία σκηνή. Σε ορισµένες εφαρµογές, αυτές οι παράµετροι παρέχονται απευθείας από την κάµερα. Είναι επίσης δυνατό να υπολογιστούν αυτές οι παράµετροι της κάµερας από τις εντάσεις των εικονοστοιχείων της εικόνας χρησιµοποιώντας ένα κατάλληλο µοντέλο κάµερας και τεχνικές υπολογισµού της κίνησης. Ο περιγραφέας µπορεί να χρησιµοποιηθεί για να αντλήσει πληροφορίες από την αλληλουχία των εικόνων του βίντεο βασισµένος σε σταθερές παραµέτρους, όπως π.χ. σκηνές µε πολύ ζούµ ή σκηνές µε οµογενή κίνηση. Επιπλέον, είναι δυνατή η άντληση πληροφοριών οι οποίες επιτρέπουν το συνταίριασµα οµοιότητας της κίνησης σε συγκεκριµένες χρονικές περιόδους (αν η 79

80 οµογενής κίνηση της κάµερας συνέβη για παράδειγµα ανάµεσα στο 10ο και στο 20ο δευτερόλεπτο του βίντεο). Παράµετροι Παραµόρφωσης (Warping Parameters): Ένας άλλος τρόπος για να εκτιµήσουµε την κίνηση σε µία σκηνή βασίζεται στον περιγραφέα παραµόρφωσης της κίνησης. Εδώ, η συνολική κίνηση εκφράζεται µέσω ενός ξωτικού, φαντάσµατος ή µωσαϊκού που υπάρχει σε µία σκηνή ενός βίντεο. Περιγραφέας της Τροχιάς της Κίνησης (Motion Trajectory Descriptor): Η περιγραφή της κίνησης στην αλληλουχία ενός βίντεο µπορεί να γίνει ανεξάρτητα για κάθε κινούµενο αντικείµενο χρησιµοποιώντας τον περιγραφέα της τροχιάς της κίνησης. Ο περιγραφέας αυτός εξηγεί λεπτοµερώς τις εκτοπίσεις των αντικειµένων στη διάρκεια του χρόνου σα να περιγράφει δηλαδή την τροχιά ενός κινούµενου αντικειµένου. Επιτρέπει το συνταίριασµα των τροχιών των αντικειµένων για αναζήτηση πληροφοριών κίνησης σε ένα βίντεο, υπερ-σύνδεση του βίντεο καθώς και άλλες παρεµφερείς εφαρµογές. Για παράδειγµα, σε εφαρµογές παρακολούθησης της κυκλοφορίας σε µία βάση δεδοµένων βίντεο, η κίνηση των αυτοκινήτων και των πεζών µπορεί να περιγραφεί και να αποθηκευτεί χρησιµοποιώντας τον περιγραφέα της τροχιάς της κίνησης του MPEG-7. Παρέχονται οι δυνατότητες αναζήτησης πληροφοριών που µπορούν να εκτελεστούν µε τη βοήθεια των περιγραφέων έτσι ώστε να επιτραπεί η γρήγορη πρόσβαση σε σκηνές µε την απαιτούµενη κίνηση των αντικειµένων. Πιθανές αναζητήσεις περιλαµβάνουν έρευνα για τα αντικείµενα τα οποία «περνούν κοντά από µία συγκεκριµένη περιοχή» ή «αντικείµενα τα οποία κινούνται πιο γρήγορα από το επιτρεπόµενο όριο ταχύτητας». [1], [10], [22] 80

81 3ο Κεφάλαιο Απαιτήσεις και Εργαλεία Περιγραφής 3.1. Εισαγωγή στην εφαρµογή Στο κεφάλαιο αυτό παρουσιάζεται η απεικόνιση των βιβλιοθηκών και των εργαλείων του προτύπου MPEG-7 που χρησιµοποιήθηκαν σε προγραµµατιστικό περιβάλλον LabView. Η διαδικασία που ακολουθήθηκε έχει ως εξής: παρουσιάζονται τα βήµατα δηµιουργίας συγκεκριµένων σχηµάτων περιγραφής και η εφαρµογή καταλήγει στη µετάφραση της οντολογίας των δεδοµένων σε γλώσσα XML Απαιτήσεις περιγραφής Στην παρούσα παράγραφο θα γίνει µία ανάλυση των προς περιγραφή χαρακτηριστικών του προσώπου. Πέρα από τις όποιες διαφοροποιήσεις το ανθρώπινο κεφάλι έχει ορισµένα βασικά χαρακτηριστικά. Έτσι θα ονοµατίσουµε τα βασικά χαρακτηριστικά στην εµπρός όψη ενός ανθρώπινου κεφαλιού. Η εφαρµογή αρκέστηκε στην περιγραφή των κύριων χαρακτηριστικών του προσώπου έτσι ώστε να είναι γενική και να αποτελέσει αργότερα τη βάση για την περιγραφή περισσότερων χαρακτηριστικών. Στην παρακάτω εικόνα φαίνονται τα βασικά χαρακτηριστικά του ανθρώπινου κεφαλιού. 81

82 Μαλλιά Πρόσωπο Δεξί φρύδι Δεξί µάτι Δεξί αυτί Δεξί µάγουλο Μύτη Στόµα Μέτωπο Αριστερό φρύδι Αριστερό µάτι Αριστερό αυτί Αριστερό µάγουλο Πηγούνι Εικ.3.1.: Κεφάλι Αναφοράς Τα εξωτερικά χαρακτηριστικά κάθε ανθρώπου εξαρτώνται από την µορφολογία των κρανιακών οστών. Έτσι εξηγείται και η διαφορετικότητα ανάµεσα στα πρόσωπα καθώς επίσης και τα κοινά χαρακτηριστικά που έχουν οι άνθρωποι µιας φυλής µεταξύ τους (π.χ. οι Κινέζοι έχουν σχιστά µάτια). Το ανθρώπινο κεφάλι εκτός από τη συγκεκριµένη µορφολογία που οφείλεται στην κατανοµή των κρανιακών οστών διαθέτει και δυνατότητα κίνησης εντός ορισµένων ορίων που προσδιορίζονται τόσο από τη µορφολογία των οστών, τη σπονδυλική στήλη όσο και από την κίνηση και µορφολογία των µυών. Η εφαρµογή που ακολουθεί εστιάζει στην περιγραφή χαρακτηριστικών του ανθρώπινου κεφαλιού σε εικόνα βίντεο. Σε αντίθεση λοιπόν µε τη στατική εικόνα, η περιγραφή σε εικόνα βίντεο πρέπει να περιλαµβάνει τόσο χρονικά όσο και χωρικά χαρακτηριστικά. Στην περίπτωση δηλαδή του βίντεο η αλλαγή της θέσης του κεφαλιού προσδιορίζεται σε σχέση µε το πλαίσιο του βίντεο. Εποµένως οι παράγοντες που καθορίζουν την κίνηση των χαρακτηριστικών του ανθρώπινου κεφαλιού σε µία εικόνα βίντεο, εφόσον η λήψη έχει γίνει µε σταθερή κάµερα, είναι η κίνηση του κρανίου και η κίνηση του σώµατος. Δεδοµένου ότι ο σκοπός της εργασίας είναι η περιγραφή των βασικών χαρακτηριστικών του προσώπου, παράγοντες όπως οι συνθήκες λήψης φωτισµού, η κίνηση των µυών του προσώπου και η κίνηση του κεφαλιού και του σώµατος 82

83 µπορούν να αποτελέσουν τη µελλοντική εξέλιξη της παρούσας περιγραφής. Το πρότυπο MPEG-7 µε τα εργαλεία που παρέχει καλύπτει σε µεγάλο βαθµό τις απαιτήσεις που παρουσιάζονται στην εφαρµογή και στην επόµενη παράγραφο δίνεται η σύνδεση ανάµεσα στις απαιτήσεις της εφαρµογής και στα εργαλεία που παρέχει το MPEG-7 για την τυποποίηση της περιγραφής. [26] 3.3. Σύνδεση Απαιτήσεων-Εργαλείων Η εφαρµογή που ακολουθεί αναφέρεται σε ένα βίντεο ενός οµιλούντος ή όχι ανθρώπινου κεφαλιού. Είναι γνωστό ότι στο ανθρώπινο κεφάλι και ιδιαίτερα στην αναπαράσταση αυτού στις δύο διαστάσεις µίας εικόνας βίντεο υπάρχουν κάποια σαφή χαρακτηριστικά. Σε κάθε περίπτωση όµως, για κάθε κεφάλι υπάρχουν κάποιοι περιορισµοί στην εµφάνιση (π.χ. ένα στόµα µόνο). Στη διάρκεια της λήψης του βίντεο τα χαρακτηριστικά του προσώπου θα αλλάζουν θέσεις λόγω της φυσικής κίνησης που προκύπτει από την οµιλία και την εκφραστικότητα. Για την περιγραφή µιας τέτοιας συµπεριφοράς, στο MPEG-7 (MDS part) ορίζεται το MovingRegion DS το οποίο παρέχει τη δυνατότητα ορισµού κινούµενων περιοχών σε εικόνα βίντεο. Στην επόµενη ενότητα αναφέρονται λεπτοµέρειες για το MovingRegion DS και τα υπόλοιπα εργαλεία που συµπεριλήφθηκαν στην εφαρµογή. [1], [26] 3.4. Δηµιουργία Λίστας Εργαλείων Περιγραφής Στην παρούσα ενότητα θα γίνει η επιλογή των εργαλείων του MPEG-7 που θα χρησιµοποιηθούν. Έτσι για το οπτικό µέρος απαιτείται ο ελάχιστος αριθµός εργαλείων από το Visual Part του MPEG-7: SpatioTemporalLocator Datatype SpatioTemporalLocator Datatype FigureTrajectory Datatype RegionLocator Datatype RegionLocator Datatype 83

84 BoxList Datatype TemporalInterpolation Datatype Παρακάτω θα οριστούν οι βασικοί τύποι που καθορίζονται από το MPEG-7 για το MDS κοµµάτι της περιγραφής το οποίο περιγράφει την εννοιολογική σχέση µεταξύ των περιγραφών καθώς και την τελική δοµή της περιγραφής. Οι βασικοί τύποι είναι: MPEG-7 Base Types MPEG-7 Base type generic DS Visual D Visual DS Header datatype MPEG-7 root element MPEG-7 type MPEG-7 element Complete description top-level types CompleteDescription Top-level Type Content description top-level types ContentDescriprion Top-level type ContentEntity Top-level Type Multimedia content entity tools MultimediaContent Content Entity Video Content Entity Οι βοηθητικοί τύποι δεδοµένων του MPEG-7 που προέρχονται από τους βασικούς και προορίζονται για την περιγραφή πιο σύνθετων δεδοµένων είναι: zerotoone datatype zerotoone datatype vector datatypes integervector datatype floatvector datatype 84

85 Matrix datatypes IntegerMatrix datatype mimetype datatype mimetype datatype xpath datatypes xpath datatype xpathref datatype xpathselector datatype xpathabsoluteselector datatype xpathfield datatype regioncode datatype regioncode datatype Reference datatypes referencegrp attribute group Reference datatype UniqueID datatype UniqueID datatype Time datatype Time datatype timepoint datatype timepoint datatype duration datatype duration datatype timeproperty attribute group timepropertygrp attribute group MediaTime datatype MediaTime datatype mediatimepoint datatype mediatimepoint datatype mediaduration datatype mediaduration datatype MediaIncrDuration datatype MediaIncrDuration datatype MediaRelTimePoint datatype 85

86 mediatimeoffset datatype MediaRelTimePoint datatype MediaRelIncrTimePoint datatype mediarelincrtimepoint datatype mediatimeproperty attribute group mediatimepropertygrp attribute group MediaLocator datatype MediaLocator datatype InlineMedia datatype InlineMedia datatype Textual datatypes TextualBase datatype Textual datatype TextAnnotation datatype TextAnnotation datatype termreferencetype datatype termreference datatype Place DS Place DS Παρακάτω αναφέρονται ορισµένα Description Schemes που περιγράφουν τη δηµιουργία και την ταυτοποίηση του υλικού της περιγραφής. Αυτά είναι: MediaInformation DS MediaInformation DS MediaProfile DS MediaProfile DS MediaInstance DS MediaInstance DS CreationInformation DS CreationInformation DS Creation DS Creation DS Title datatype 86

87 Στη συνέχεια αναφέρονται τα Description Schemes που καλύπτουν τις απαιτήσεις της περιγραφής της συγκεκριµένης εφαρµογής και θα αναλυθούν λεπτοµερέστερα παρακάτω. Segment DS Segment DS SegmentDecomposition DS SegmentDecomposition DS SpatioTemporalSegmentDecomposition DS TemporalSegmentDecomposition DS Mask D Mask D TemporalMask D TemporalMask D SpatioTemporalMask D SpatioTemporalMask D VideoSegment DS VideoSegment DS VideoSegment decomposition DSs VideoSegmentSpatioTemporalDecomposition DS MovingRegion DS MovingRegion DS Από τα παραπάνω εργαλεία που παρέχει το MPEG-7 και χρησιµοποιήθηκαν στη συγκεκριµένη εφαρµογή γίνεται εκτενής αναφορά σ αυτά που χρήζουν περιορισµού λόγω εφαρµογής. Στα υπόλοιπα υπονοείται ότι η περιγραφή τους είναι ίδια µε αυτή που ορίζεται από το πρότυπο. [1], [7], [23], [26] 3.5. Επιλογή εργαλείων που χρήζουν περιορισµού 87

88 Αρχικά θα αναφερθούµε στο MediaLocator Datatype. Ο MediaLocator εισάγει το χρήστη φυσικά στο πολυµεσικό περιεχόµενο (το βίντεο στο παράδειγµά µας) χρησιµοποιώντας έναν ενιαίο ταυτοποιητή (URI). Η περιγραφή της πληροφορίας για τη δηµιουργία του περιεχοµένου περιλαµβάνεται στο CreationInformation DS το οποίο περιλαµβάνει το Creation DS όπου εισάγεται ο Title Datatype που περιέχει τον τίτλο του περιεχοµένου. Το Creation DS περιλαµβάνει το CreationCoordinates element που εισάγει κάποια επιπλέον στοιχεία για το περιεχόµενο (π.χ. την τοποθεσία που γυρίστηκε το βίντεο). Ο TemporalMask Descriptor περιγράφει τον εντοπισµό των χρονικά συνδεδεµένων περιοχών ενός τµήµατος του βίντεο. Περιλαµβάνει το MediaTime Datatype στον οποίο ορίζονται το MediaTimePoint Datatype και το MediaDuration Datatype.Το MediaTimePoint ορίζεται µε την ακόλουθη σύνταξη: -YYYY-MM- DDThh: mm: ss: nfn η οποία περιλαµβάνει τη χρονιά (Υ), το µήνα (Μ), τη µέρα (D), ένα διαχωριστή (Τ), τις ώρες (h), τα λεπτά (m), τα δευτερόλεπτα (s) και το 1/Ν είναι ένα κλάσµα του δευτερολέπτου και το n είναι ο αριθµός αυτών των κλασµάτων. Το MediaDuration ορίζεται µε την ακόλουθη σύνταξη: (-) PnDTnHnMnSnNnF. Σ αυτή τη σύνταξη, κάθε τµήµα της διάρκειας περιλαµβάνει ένα µετρητή ακολουθούµενο από ένα γράµµα που δείχνει τη µονάδα κάθε τµήµατος η οποία µετράται. P είναι ο διαχωριστής που δείχνει την αρχή της διάρκειας, οι µέρες δείχνονται από τον D, o T διαχωρίζει το χρόνο από τις µέρες, το H δείχνει τις ώρες, το Μ τα λεπτά, το S τα δευτερόλεπτα και το τµήµα που ορίζει τα κλάσµατα του δευτερολέπτου χρησιµοποιεί την ίδια σύνταξη µε το MediaTimePoint. Ο SpatioTemporalLocator datatype περιγράφει τις χωροχρονικές περιοχές της αλληλουχίας ενός βίντεο και περιλαµβάνει λειτουργίες εντοπισµού ειδικά για εφαρµογές υπερµέσων. Αποτελείται από το FigureTrajectory Datatype και τον ParameterTrajectory Datatype. Dåñéï? Áí áöï ñüò Êßí çóç Dåñéï? Áí áöï ñüò Êßí çóç Dåñéï? Áí áöï ñüò Êßí çóç 88

89 Σχ.3.1.: Χωροχρονικές περιοχές αναφοράς σε ένα τµήµα ενός βίντεο Ο FigureTrajectory Datatype περιγράφει µία χωροχρονική περιοχή µε τροχιές των αντιπροσωπευτικών σηµείων της περιοχής αναφοράς. Οι περιοχές αναφοράς αναπαρίστανται από τρία είδη σχηµάτων: ορθογώνια, ελλείψεις και πολύγωνα. Στη συγκεκριµένη εφαρµογή χρησιµοποιήθηκαν τα ορθογώνια τα οποία σύµφωνα µε το πρότυπο αναπαρίστανται από τα τρία διανύσµατα των τριών κορυφών τους. Οι τροχιές παρεµβάλλονται µεταξύ τους µε τον TemporalInterpolation Descriptor όπως φαίνεται στο παρακάτω σχήµα. TemporalInterpolationD TemporalInterpolationD TemporalInterpolationD Σχ.3.2: Παρεµβολή των τροχιών του FigureTrajectory Datatype O TemporalInterpolation Descriptor χαρακτηρίζει τη χρονική παρεµβολή χρησιµοποιώντας συνδεδεµένα πολυώνυµα. Μπορεί να χρησιµοποιηθεί για να προσεγγίσει πολυδιάστατες µεταβλητές οι οποίες αλλάζουν µε το χρόνο, όπως η θέση ενός αντικειµένου στην αλληλουχία ενός βίντεο. Στο παρακάτω σχήµα οι πραγµατικές τιµές αναπαρίστανται από πέντε γραµµικές συναρτήσεις παρεµβολής και δύο συναρτήσεις παρεµβολής δευτέρου βαθµού. 89

90 χ 2 παρεµβολές δευτέρου βαθµού 5 γραµµικές παρεµβολές 25 πραγµατικά δεδοµένα χρόνος t Σχ.3.3.: Συναρτήσεις παρεµβολών Το KeyTimePoint διευκρινίζει την σειρά των χρονικών σηµείων κάθε σηµείου αναφοράς. Ο αριθµός των χρονικών σηµείων στη σειρά πρέπει να είναι ίσος µε τη τιµή του KeyPointNum. Τα χρονικά σηµεία είναι πάντα κατανεµηµένα σε αύξουσα σειρά. Το KeyTimePoint υποστηρίζει τρεις τύπους περιγραφής χρονικών διαστηµάτων: το MediaTimePointType, το MediaRelTimePointType και το MediaRelIncrTimePointType. Το KeyValue προσδιορίζει την τιµή κάθε χρονικού σηµείου. Ο αριθµός των εµφανίσεων του KeyValue σε ένα InterpolatedValue πρέπει να είναι ίσος µε την τιµή του KeyPointNum. Η σειρά των KeyValue οφείλει να είναι συγχρονισµένη µε τη σειρά του KeyTimePoint. Το type προσδιορίζει το είδος του χρονικού σηµείου. Αν αυτό είναι startpoint τότε το χρονικό σηµείο είναι το αρχικό σηµείο της παρεµβολής. Αν είναι firstorder ή secondorder τότε το χρονικό σηµείο ακολουθεί τη γραµµική ή τη δευτεροβάθµια συνάρτηση παρεµβολής αντίστοιχα, όπως φαίνεται και στο ακόλουθο σχήµα. 90

91 key point #0 KeyValue 18.6 type startpoint key point #2 KeyValue 12.2 type firstorder key point #1 KeyValue 23.8 type secondorder param -2.0 key point #3 KeyValue 14.1 type secondorder param 3.1 Σχ.3.4.: Παράδειγµα της τιµής και του είδους του χρονικού σηµείου Ο ParameterTrajectory Datatype περιγράφει µία χωροχρονική περιοχή βάσει µιας περιοχής αναφοράς και τις τροχιές των παραµέτρων της κίνησης. Οι περιοχές αναφοράς περιγράφονται χρησιµοποιώντας τον περιγραφέα RegionLocator. Τα µοντέλα παραµετρικής κίνησης προσδιορίζουν ένα χάρτη αντιστοίχησης ανάµεσα στην περιοχή αναφοράς και σε µία περιοχή ενός αυθαίρετου frame. Επειδή, κατά κύριο λόγο, στην εφαρµογή η κίνηση των χαρακτηριστικών του προσώπου είναι στοχαστική και δεν ακολουθεί κάποια συγκεκριµένα παραµετρικά µοντέλα κίνησης χρησιµοποιήθηκε ο περιγραφέας FigureTrajectory για την περιγραφή µίας χωροχρονικής περιοχής. Η δοµική πλευρά του MPEG-7 εφοδιάζει τις περιγραφές µε το γενικό σχήµα Segment Description Scheme και τις επεκτάσεις του οι οποίες µπορούν να χρησιµοποιηθούν για την περιγραφή της δοµή του πολυµεσικού περιεχοµένου στο χώρο και στο χρόνο. Τα σχήµατα περιγραφής τµηµάτων παρέχουν µία πλούσια βάση περιγραφής της δοµής του πολυµεσικού περιεχοµένου ακολουθώντας τρεις γενικούς άξονες: τα χαρακτηριστικά, τις δοµικές αποσυνθέσεις και τις σχέσεις. Τα χαρακτηριστικά ενός τµήµατος δίνουν χωροχρονική πληροφορία, πληροφορία για το µέσο, για τη προτεραιότητα των πληροφοριών, καθώς και την προτεραιότητα των πληροφοριών που δίνονται από µία συγκεκριµένη οπτική γωνία. Η δοµική αποσύνθεση περιγράφει τη δοµική περιγραφή του τµήµατος της πολυµεσικής πληροφορίας. Η δοµική αποσύνθεση φαίνεται καλύτερα στο παρακάτω σχήµα 91

92 Σχ.3.5.: Αποσυνθέσεις τµηµάτων στο χώρο, στο χώρο, στο χώρο-χρόνο καθώς και αναφορά της πηγής του µέσου για τις διάφορες αποσυνθέσεις. Οι σχέσεις περιγράφουν τις δοµικές σχέσεις ανάµεσα στα τµήµατα δηλαδή τις χωρικές, χρονικές, χωροχρονικές και άλλες εννοιολογικές σχέσεις ανάµεσα στα τµήµατα. Το πιο γενικό από τα σχήµατα περιγραφής τµηµάτων το Segment DS παρέχει σχεδόν όλα τα κοινώς χρησιµοποιούµενα σχήµατα περιγραφής τα οποία εφαρµόζονται σε πιο εξειδικευµένα σχήµατα όπως: το VideoSegment DS, το AudioSegment DS, το StillRegion DS και άλλα. Στο παρακάτω σχήµα παρουσιάζονται παραδείγµατα ενός τµήµατος βίντεο, µίας κινούµενης περιοχής, ενός ηχητικού τµήµατος, ενός οπτικοακουστικού τµήµατος και µίας οπτικοακουστικής περιοχής που αποτελείται από µία κινούµενη περιοχή και ένα ηχητικό τµήµα και µία οπτικοακουστική περιοχή που αποτελείται από µία ακίνητη εικόνα. 92

93 Σχ.3.6.: Παραδείγµατα οπτικών, ηχητικών και οπτικοακουστικών τµηµάτων Το VideoSegment DS περιγράφει ένα χρονικό διάστηµα τµήµατος ενός βίντεο, το οποίο µπορεί να αντιστοιχεί σε µία αλληλουχία από frame, σε ένα µόνο frame ή σε ολόκληρο το βίντεο. Το τµήµα του βίντεο ενδέχεται να είναι συνεχόµενο ή διακοπτόµενο στο χρόνο. Το VideoSegment DS παρέχει τα στοιχεία που είναι ικανά να περιγράψουν χρονικές, οπτικές καθώς και ιδιότητες δοµικών αποσυνθέσεων. Τα σχήµατα δοµικών αποσυνθέσεων παρέχουν ποικίλους τρόπους περιγραφής της διάσπασης ενός τµήµατος στο χώρο (SpatialDecomposition), στο χρόνο (TemporalDecomposition) και ακόµα και στα δύο (SpatioTemporalDecomposition). Το MovingRegion description scheme είναι µία επέκταση του Segment DS για να περιγράψει δισδιάστατες κινούµενες περιοχές. Το MovingRegion DS παρέχει επίσης µία πλούσια οµάδα από εργαλεία περιγραφής τα οποία οµαδοποιούνται σε τρία µέρη: στον εντοπισµό θέσης (SpatioTemporalLocator, SpatioTemporalMask), στην περιγραφή χαρακτηριστικών (Visualdscriptor, VisualDescriptionScheme κ.α.) και στην αποσύνθεση (SpatialDecomposition κ.τ.λ.). [1], [7], [23], [25], [26] 93

94 SpatioTemporal segment (MovingRegion) (a) συνδεδεµένη κινούµενη περιοχή (β) µη συνδεδεµένη κινούµενη περιοχή Σχ.3.7.: Παραδείγµατα από συνδεδεµένες και µη συνδεδεµένες κινούµενες περιοχές Στην συγκεκριµένη εφαρµογή οι κινούµενες περιοχές (moving regions) είναι τα χαρακτηριστικά του προσώπου στα οποία το πρότυπο εφαρµόζει συγκεκριµένη κωδικοποίηση που φαίνεται στον παρακάτω πίνακα. 94

95 Μύτη Αριστερό µάτι Δεξί µάτι Αριστερό φρύδι Δεξί φρύδι Στόµα Μαλλιά Αριστερό αυτί Δεξί αυτί Αριστερό µάγουλο Δεξί µάγουλο πηγούνι Μέτωπο Πρόσωπο PRI_NOSE PRI_LEYE PRI_REYE PRI_LEYEBROW PRI_REYEBROW PRI_MOUTH PRI_HAIR PRI_LEAR PRI_REAR PRI_LCHEEK PRI_RCHEEK PRI_CHIN PRI_FOREHEAD PRI_FACE Πίνακας 3.1. : Κωδικοποίηση χαρακτηριστικών [20],[26] 4ο Κεφάλαιο 95

96 Παράδειγµα εφαρµογής 4.1. Περιβάλλον ανάπτυξης Η πλατφόρµα προγραµµατισµού που χρησιµοποιήθηκε στην εφαρµογή είναι το LabView της εταιρείας National Instruments, και πιο συγκεκριµένα η έκδοση 7.1. Το LabView είναι µία γραφική γλώσσα προγραµµατισµού η οποία χρησιµοποιεί εικόνες αντί για γραµµές κειµένου για τις διάφορες εφαρµογές. Σε αντίθεση µε τις γλώσσες προγραµµατισµού όπου οι κώδικες είναι γραµµένοι σε κείµενο και οι εντολές καθορίζουν την εκτέλεση του προγράµµατος, στο LabView η εκτέλεση των προγραµµάτων καθορίζεται από τη ροή των δεδοµένων. Στο LabView o χρήστης δουλεύει πάνω σε µία επιφάνεια εργασίας µε µία οµάδα εργαλείων και αντικειµένων. Η επιφάνεια εργασίας είναι γνωστή ως front panel. Στο front panel καταλήγουν τα στοιχεία ελέγχου (controls) και τα στοιχεία ένδειξης (indicators). Για τον έλεγχο των αντικειµένων του front panel προστίθεται ο κώδικας µε τη µορφή γραφικών αναπαραστάσεων. Ο κώδικας περιέχεται στο block diagram. Η οργάνωση των προγραµµάτων βασίζεται στα εικονικά όργανα (virtual instruments) τα οποία αντιστοιχούν είτε σε οµάδες συναρτήσεων είτε σε απλές συναρτήσεις. Κατά κάποιο τρόπο το block diagram µοιάζει µε ένα διάγραµµα ροής. Επιπλέον χρησιµοποιήθηκε η βιβλιοθήκη IMAQ Vision της εταιρείας National Instruments και η AVI Library της εταιρείας Alliance Vision για την εισαγωγή κάποιων έτοιµων VIs απαραίτητων για την εφαρµογή. Η βιβλιοθήκη IMAQ Vision περιέχει VIs που σχετίζονται κυρίως µε την επεξεργασία της εικόνας ενώ η AVI Library περιέχει VIs που σχετίζονται µε την επεξεργασία των AVI αρχείων Παρουσίαση υλοποίησης Για την υλοποίηση δηµιουργήθηκε η βιβλιοθήκη FaceMPEG-7.llb όπου περιέχονται όλα τα VIs που χρειάστηκαν στην εφαρµογή. Η υλοποίηση προκύπτει από το συνδυασµό των απαιτούµενων εργαλείων που αναφέρθηκαν στο προηγούµενο κεφάλαιο και του προγραµµατιστικού προγράµµατος LabView. Το video που επιλέχθηκε για την υλοποίηση παρουσιάζει έναν οµιλούντα άνθρωπο, στον οποίο είναι 96

97 ευδιάκριτα τα χαρακτηριστικά του προσώπου του. Η επιλογή αυτή έγινε για τη διευκόλυνση της εφαρµογής Σχηµατικά η παρουσίαση της εφαρµογής έχει ως εξής: Άνοιγµα του αρχείου video Διαδικασία επιλογής χαρακτηριστικών προς περιγραφή Κλείσιµο του αρχείου Εξαγωγή των χαρακτηριστικών Μετάφραση της οντολογίας σε γλώσσα XML Σχ.4.1.: Σχηµατική απεικόνιση της εφαρµογής Αρχικά το πρόγραµµα διαβάζει το βίντεο frame by frame µε το AVI- Readframe.vi της βιβλιοθήκης AVI Library. Με το εργαλείο IMAQConstruct ROI επιλέγουµε, µε ένα ορθογώνιο, ένα χαρακτηριστικό του προσώπου, αφού πρώτα δηλώσουµε στο front panel ποιο χαρακτηριστικό (id) θα είναι αυτό. Σε κάθε frame µπορούµε να επιλέξουµε ένα ή περισσότερα χαρακτηριστικά τα οποία θα φαίνονται πάνω στο ίδιο frame µε το IMAQOverlay ROI της βιβλιοθήκης IMAQ Vision. Σχ.4.2.: Επιλογή χαρακτηριστικών (block diagram) 97

98 Στη συνέχεια, για κάθε ορθογώνιο που περιέχει ένα χαρακτηριστικό συγκεντρώσαµε τις συντεταγµένες των τριών κορυφών του σε ένα πίνακα. Όπως ορίζει και το πρότυπο, η πρώτη κορυφή είναι η επάνω αριστερά, η δεύτερη είναι η επάνω δεξιά και η τρίτη η κάτω αριστερά. Με το εργαλείο AddSelectedVideoFeatures2MPEG7Cluster.vi περάσαµε τις πληροφορίες για τις συντεταγµένες των ορθογωνίων, µαζί µε τις πληροφορίες για τη χρονική στιγµή που επιλέχθηκε κάθε χαρακτηριστικό σε ένα vertex. Η διαδικασία που ακολουθήθηκε απεικονίζεται σχηµατικά στο παρακάτω block diagram, όπου φαίνεται η εισαγωγή του id, των συντεταγµένων x1, x2, x3, y1, y2, y3 και της χρονικής στιγµής που επιλέγεται κάθε id. Σαν έξοδο έχουµε το σχηµατισµό ενός cluster, του vertex του οποίου οι πληροφορίες οδηγούνται απευθείας στο τελικό cluster. 98

99 Σχ.4.3.: Προσθήκη πληροφοριών στο τελικό Cluster εξής: Τα βήµατα που ακολουθήθηκαν για την αποπεράτωση της εφαρµογής είναι τα 1. Δηµιουργούµε το σχήµα MediaLocator το οποίο περιέχει την πληροφορία εντοπισµού του προς περιγραφή αρχείου. 2. Δηµιουργούµε το σχήµα CreationInformation που περιέχει τις πληροφορίες του τίτλου του περιεχοµένου και της περιοχής όπου γυρίστηκε το βίντεο. 3. Δηµιουργούµε το σχήµα TemporalMask το οποίο περιέχει το σχήµα MediaTime όπου περιέχονται οι πληροφορίες για το χρονικό σηµείο εκκίνησης του βίντεο (MediaTimePoint) καθώς και για τη διάρκειά του (MediaDuration). Για να βρούµε το MediaTimePoint, µε τη συγκεκριµένη µορφή που ορίζεται από το πρότυπο κατασκευάσαµε το Frame2TimeStamp.vi το οποίο αντιστοιχεί κάθε frame του βίντεο σε µία ορισµένη χρονική στιγµή, όπως φαίνεται στο σχήµα

100 Σχ.4.4. Αντιστοιχία frame µε TimePoint 4. Με την εντολή Run (Ctrl+Run) τρέχουµε την εφαρµογή. 5. Διαλέγουµε το αρχείο AVI κάποια στοιχεία του οποίου θέλουµε να περιγράψουµε. 6. Διαλέγουµε π.χ. στο πρώτο frame του βίντεο τη µύτη και το στόµα, στο τρίτο frame το δεξί µάτι και το στόµα, στο έβδοµο το µέτωπο και τη µύτη και ούτω καθ εξής. Σκοπός µας είναι η παρακολούθηση της θέσης και της κίνησης των χαρακτηριστικών του προσώπου στη διάρκεια το βίντεο. Επιπλέον µε το εργαλείο Feature2ROI.vi µπορούµε, µε το πάτηµα ενός κουµπιού να πάµε σε κάθε frame και να δούµε ποια χαρακτηριστικά έχουµε επιλέξει. Εναλλακτικά, δίνεται η δυνατότητα στο χρήστη να δει σε ποια frames έχει επιλεγεί ένα συγκεκριµένο χαρακτηριστικό. Η εφαρµογή έχει τη δυνατότητα να προχωράει το βίντεο frame frame µπροστά-πίσω. Τα επιλεγµένα στοιχεία στο front panel φαίνονται ως εξής: 100

101 Τα χαρακτηριστικά που επελέγησαν µε τις πληροφορίες που περιέχουν όπως οι συντεταγµένες τριών σηµείων των ορθογωνίων των επιλεγµένων περιοχών (έτσι ορίζονται από το πρότυπο) φαίνονται στον πίνακα του front panel: 101

102 7. Τα δεδοµένα από τον παραπάνω πίνακα περνούν στο σχήµα SpatioTemporalDecomposition που έχουµε δηµιουργήσει. Αυτό περιέχει το σχήµα MovingRegion όπου µε το attribute id δηλώνεται η προς περιγραφή κινούµενη περιοχή, το KeyTimepoint που δηλώνει το χρονικό σηµείο της επιλογής του κάθε χαρακτηριστικού, το InterpolationFunctions που αναφέρει τις συντεταγµένες τριών σηµείων από κάθε κινούµενη περιοχή και το MediaTime που αναφέρει τη χρονική στιγµή έναρξης της περιγραφής κάθε κινούµενης περιοχής και τη διάρκεια αυτής. 102

103 8. Τελευταίο βήµα της διαδικασίας είναι η µετάφραση της οντολογίας σε γλώσσα Xml και η αποθήκευση της εξόδου σε ένα XML αρχείο, αφού δώσουµε πρώτα τον προορισµό αποθήκευσης. Το αρχείο XML της περιγραφής της εφαρµογής όπως φαίνεται σε περιβάλλον LabView είναι: 103

104 . 104

Βίντεο και κινούµενα σχέδια

Βίντεο και κινούµενα σχέδια Βίντεο και κινούµενα σχέδια Περιγραφή του βίντεο Ανάλυση του βίντεο Κωδικοποίηση των χρωµάτων Μετάδοση τηλεοπτικού σήµατος Συµβατικά τηλεοπτικά συστήµατα Τεχνολογία Πολυµέσων 06-1 Περιγραφή του βίντεο

Διαβάστε περισσότερα

Βίντεο. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 06-1

Βίντεο. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 06-1 Βίντεο Εισαγωγή Χαρακτηριστικά του βίντεο Απόσταση θέασης Μετάδοση τηλεοπτικού σήματος Συμβατικά τηλεοπτικά συστήματα Ψηφιακό βίντεο Εναλλακτικά μορφότυπα Τηλεόραση υψηλής ευκρίνειας Κινούμενες εικόνες

Διαβάστε περισσότερα

Κωδικοποίηση βίντεο (H.261 / DVI)

Κωδικοποίηση βίντεο (H.261 / DVI) Κωδικοποίηση βίντεο (H.261 / DVI) Αρχές κωδικοποίησης βίντεο Εισαγωγή στο H.261 Κωδικοποίηση βίντεο Ροή δεδοµένων Εισαγωγή στο DVI Κωδικοποίηση ήχου και εικόνων Κωδικοποίηση βίντεο Ροή δεδοµένων Τεχνολογία

Διαβάστε περισσότερα

Τι συσχετίζεται με τον ήχο

Τι συσχετίζεται με τον ήχο ΗΧΟΣ Τι συσχετίζεται με τον ήχο Υλικό Κάρτα ήχου Προενυσχιτής Equalizer Ενισχυτής Ηχεία Χώρος Ανθρώπινη ακοή Ψυχοακουστικά φαινόμενα Ηχητική πληροφορία Σημείο αναφοράς 20 μpa Εύρος συχνοτήτων Δειγματοληψία

Διαβάστε περισσότερα

2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ 2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Περιγραφή πληροφορίας. Η πληροφορία περιγράφεται σαν μία ή περισσότερες χρονικές ή χωρικές μεταβλητές. Μετατρέπει την φυσική ποσότητα σε ηλεκτρικό σήμα To σήμα αναπαριστά το

Διαβάστε περισσότερα

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1 Αρχές κωδικοποίησης Απαιτήσεις κωδικοποίησης Είδη κωδικοποίησης Κωδικοποίηση εντροπίας Διαφορική κωδικοποίηση Κωδικοποίηση μετασχηματισμών Στρωματοποιημένη κωδικοποίηση Κβαντοποίηση διανυσμάτων Τεχνολογία

Διαβάστε περισσότερα

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ 2 Κωδικοποίηση εικόνας Ακολουθία από ψηφιοποιημένα καρέ (frames) που έχουν συλληφθεί σε συγκεκριμένο ρυθμό frame rate (π.χ. 10fps,

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του

Διαβάστε περισσότερα

Βασικές έννοιες. Αναλογικό Βίντεο. Ψηφιακό Βίντεο. Κινούμενα γραφικά (animation)( Πλαίσιο (frame, καρέ) Ρυθμός πλαισίων (frame rate)

Βασικές έννοιες. Αναλογικό Βίντεο. Ψηφιακό Βίντεο. Κινούμενα γραφικά (animation)( Πλαίσιο (frame, καρέ) Ρυθμός πλαισίων (frame rate) 8. Video & ΠΟΛΥΜΕΣΑ Βασικές έννοιες Πλαίσιο (frame, καρέ) Ρυθμός πλαισίων (frame rate) Αναλογικό Βίντεο Τύποι αναλογικού σήματος Κωδικοποίηση αναλογικού βίντεο Ψηφιακό Βίντεο Σύλληψη, ψηφιοποίηση, δειγματοληψία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 4: ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ Ακαδηµαϊκό Έτος 004 005, Χειµερινό Εξάµηνο Καθ.: Νίκος Τσαπατσούλης ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ Η εξέταση αποτελείται από δύο µέρη. Το πρώτο περιλαµβάνει

Διαβάστε περισσότερα

Κωδικοποίηση βίντεο (MPEG)

Κωδικοποίηση βίντεο (MPEG) Κωδικοποίηση βίντεο (MPEG) Εισαγωγή στο MPEG-2 Κωδικοποίηση βίντεο Κωδικοποίηση ήχου Ροή δεδοµένων Εισαγωγή στο MPEG-4 οµή σκηνών Κωδικοποίηση ήχου και βίντεο Τεχνολογία Πολυµέσων 11-1 Εισαγωγή στο MPEG-2

Διαβάστε περισσότερα

Συστήµατα και Αλγόριθµοι Πολυµέσων

Συστήµατα και Αλγόριθµοι Πολυµέσων Συστήµατα και Αλγόριθµοι Πολυµέσων Ιωάννης Χαρ. Κατσαβουνίδης Οµιλία #5: Αρχές Επεξεργασίας Σηµάτων Πολυµέσων 7 Νοεµβρίου 2005 Επανάληψη Θεωρία Πληροφορίας Εντροπία: H ( P) i= 0 Κωδικοποίηση Huffman 3

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 6: Βίντεο Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 6: Βίντεο Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 6: Βίντεο Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Συµπίεση Εικόνας: Το πρότυπο JPEG

Συµπίεση Εικόνας: Το πρότυπο JPEG ΒΕΣ : Συµπίεση και Μετάδοση Πολυµέσων ΒΕΣ Συµπίεση και Μετάδοση Πολυµέσων Συµπίεση Εικόνας: Το πρότυπο JPEG ΒΕΣ : Συµπίεση και Μετάδοση Πολυµέσων Εισαγωγή Σχεδιάστηκε από την οµάδα Joint Photographic Experts

Διαβάστε περισσότερα

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ 3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ ΑΝΑΓΚΗ ΣΥΜΠΙΕΣΗΣ ΔΕΔΟΜΕΝΩΝ Local Multimedia Π.χ. Μία ταινία 90 min απαιτεί 120 GB, και τα σημερινά μέσα αποθήκευσης < 25 GB. Άρα σήμερα είναι αδύνατη η αποθήκευση και η

Διαβάστε περισσότερα

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1 Αρχές κωδικοποίησης Απαιτήσεις κωδικοποίησης Είδη κωδικοποίησης Βασικές τεχνικές κωδικοποίησης Κωδικοποίηση Huffman Κωδικοποίηση µετασχηµατισµών Κβαντοποίηση διανυσµάτων ιαφορική κωδικοποίηση Τεχνολογία

Διαβάστε περισσότερα

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1 Εικόνα Εισαγωγή Ψηφιακή αναπαράσταση Κωδικοποίηση των χρωμάτων Συσκευές εισόδου και εξόδου Βάθος χρώματος και ανάλυση Συμβολική αναπαράσταση Μετάδοση εικόνας Σύνθεση εικόνας Ανάλυση εικόνας Τεχνολογία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 422: ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ Ακαδηµαϊκό Έτος 2004 2005, Χειµερινό Εξάµηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΕΠΑΝΑΛΗΨΗ Το τρέχον έγγραφο αποτελεί υπόδειγµα τελικής

Διαβάστε περισσότερα

Τι συσχετίζεται με τον ήχο

Τι συσχετίζεται με τον ήχο ΗΧΟΣ Τι συσχετίζεται με τον ήχο Υλικό Κάρτα ήχου Προενυσχιτής Equalizer Ενισχυτής Ηχεία Χώρος Ανθρώπινη ακοή Ψυχοακουστικά φενόμενα Ηχητική πληροφορία Εύρος συχνοτήτων Δειγματολιψία (συχνότιτα και Μέγεθος

Διαβάστε περισσότερα

Group (JPEG) το 1992.

Group (JPEG) το 1992. Μέθοδοι Συμπίεσης Εικόνας Πρωτόκολλο JPEG Συμπίεση Εικόνας: Μείωση αποθηκευτικού χώρου Ευκολία στη μεταφορά αρχείων Δημιουργήθηκε από την ομάδα Joint Photographic Experts Group (JPEG) το 1992. Ονομάστηκε

Διαβάστε περισσότερα

Κωδικοποίηση βίντεο (MPEG)

Κωδικοποίηση βίντεο (MPEG) (MEG) Εισαγωγή στο MEG-1 Κωδικοποίηση βίντεο οµή βίντεο Κωδικοποίηση ήχου Ροή δεδοµένων Τεχνολογία Πολυµέσων 11-1 Εισαγωγή στο MEG-1 MEG (Motion ictures Experts Group) ίντεο και ήχος υψηλής ποιότητας ιανοµή

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα 9: Αναλογικό Βίντεο. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Τεχνολογία Πολυμέσων. Ενότητα 9: Αναλογικό Βίντεο. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ Τεχνολογία Πολυμέσων Ενότητα 9: Αναλογικό Βίντεο Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG Κωδικοποίηση ήχου Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-1 Κωδικοποίηση καναλιού φωνής

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 15: Συμπίεση Ψηφιακού Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 15: Συμπίεση Ψηφιακού Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Συστήματα Πολυμέσων Ενότητα 15: Συμπίεση Ψηφιακού Βίντεο Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 12: Κωδικοποίηση βίντεο: H.26x Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 12: Κωδικοποίηση βίντεο: H.26x Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 12: Κωδικοποίηση βίντεο: H.26x Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου

Διαβάστε περισσότερα

Κωδικοποίηση εικόνων κατά JPEG

Κωδικοποίηση εικόνων κατά JPEG Κωδικοποίηση εικόνων κατά JPEG Εισαγωγή Προετοιµασία της εικόνας ρυθµός Ακολουθιακός απωλεστικός ρυθµός Εκτεταµένος απωλεστικός ρυθµός Μη απωλεστικός ρυθµός Ιεραρχικός ρυθµός Τεχνολογία Πολυµέσων 09-1

Διαβάστε περισσότερα

Επεξεργασία Χαρτογραφικής Εικόνας

Επεξεργασία Χαρτογραφικής Εικόνας Επεξεργασία Χαρτογραφικής Εικόνας ιδάσκων: Αναγνωστόπουλος Χρήστος Αρχές συµπίεσης δεδοµένων Ήδη συµπίεσης Συµπίεση εικόνων Αλγόριθµος JPEG Γιατί χρειαζόµαστε συµπίεση; Τα σηµερινά αποθηκευτικά µέσα αδυνατούν

Διαβάστε περισσότερα

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων ΓΤΠ 61 Ηλεκτρονικοί Υπολογιστές στις Γραφικές Τέχνες Πολυµέσα και Συµπίεση εδοµένων Εισαγωγή Βασικές Έννοιες Ταξινόµηση Τεχνικών Συµπίεσης Συµπίεση Κειµένου Συµπίεση Εικόνας Συµπίεση Ήχου Συµπίεση Video

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου

Διαβάστε περισσότερα

ΕΙΔΗ ΠΛΑΙΣΙΩΝ Ενδο-πλαισιακή κωδικοποίηση (Intra- frame Coding): Δια-πλαισιακή κωδικοποίηση (Inter-frame Coding):

ΕΙΔΗ ΠΛΑΙΣΙΩΝ Ενδο-πλαισιακή κωδικοποίηση (Intra- frame Coding): Δια-πλαισιακή κωδικοποίηση (Inter-frame Coding): ΕΙΔΗ ΠΛΑΙΣΙΩΝ Ενδο-πλαισιακή κωδικοποίηση (Intraframe Coding): κάθε εικόνα αντιμετωπίζεται και κωδικοποιείται ανεξάρτητα από τις υπόλοιπες (όπως στο JPEG) Δια-πλαισιακή κωδικοποίηση (Inter-frame Coding):

Διαβάστε περισσότερα

Εισαγωγή στη σχεδιοκίνηση (animation)

Εισαγωγή στη σχεδιοκίνηση (animation) Εισαγωγή στη σχεδιοκίνηση (animation) Σχεδιοκίνηση (animation) είναι η ταχεία εναλλαγή εικόνων-σχεδίων ώστε να δίνεται η αίσθηση πραγματοποίησης συμβάντων σε πραγματικό χρόνο. Μέσω του animation προστίθεται

Διαβάστε περισσότερα

Εικόνες και γραφικά. Τεχνολογία Πολυµέσων 05-1

Εικόνες και γραφικά. Τεχνολογία Πολυµέσων 05-1 Εικόνες και γραφικά Περιγραφή στατικών εικόνων Αναπαράσταση γραφικών Υλικό γραφικών Dithering και anti-aliasing Σύνθεση εικόνας Ανάλυση εικόνας Μετάδοση εικόνας Τεχνολογία Πολυµέσων 05-1 Περιγραφή στατικών

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 4: ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ Ακαδηµαϊκό Έτος 004 005, Χειµερινό Εξάµηνο Θεωρητικές Ασκήσεις (# 3): 1. Ο διακριτός µετασχηµατισµός συνηµίτονου (Discrete Cosine Transform)

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 7: Συμπίεση Εικόνας κατά JPEG. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 7: Συμπίεση Εικόνας κατά JPEG. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 7: Συμπίεση Εικόνας κατά JPEG Θρασύβουλος Γ. Τσιάτσος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Ψηφιακό Βίντεο. ΕΣ 200: ημιουργία Περιεχομένου ΙΙ. Περιεχόμενα - Βιβλιογραφία. Περιεχόμενα. Βιβλιογραφία. Βασικές έννοιες

Ψηφιακό Βίντεο. ΕΣ 200: ημιουργία Περιεχομένου ΙΙ. Περιεχόμενα - Βιβλιογραφία. Περιεχόμενα. Βιβλιογραφία. Βασικές έννοιες ΕΣΔ 200: Δημιουργία Περιεχομένου ΙΙ Ψηφιακό Βίντεο Περιεχόμενα Βασικές έννοιες Ψηφιακό βίντεο Πρότυπα ψηφιακού βίντεο Αποθήκευση ψηφιακού βίντεο Μετάδοση ψηφιακού βίντεο Περιεχόμενα - Βιβλιογραφία Βιβλιογραφία

Διαβάστε περισσότερα

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Εισαγωγή

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Εισαγωγή ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ 1 Εισαγωγή Το μάθημα «Αρχές Ψηφιακής Τηλεόρασης» εξετάζει τις τεχνολογίες και τους μηχανισμούς που παρεμβάλλονται για να διανεμηθεί

Διαβάστε περισσότερα

Θέματα Συστημάτων Πολυμέσων. Ενότητα #3: Ιδιότητες μέσων Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

Θέματα Συστημάτων Πολυμέσων. Ενότητα #3: Ιδιότητες μέσων Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών Θέματα Συστημάτων Πολυμέσων Ενότητα #3: Ιδιότητες μέσων Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Εισαγωγή. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Εισαγωγή. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT Περιεχόµενα ΕΠΛ : Συστήµατα Πολυµέσων Συµπίεση εικόνων: Το πρότυπο JPEG Εισαγωγή Ο µετασχηµατισµός DCT Το πρότυπο JPEG Προετοιµασία εικόνας / µπλοκ Ευθύς µετασχηµατισµός DCT Κβαντισµός Κωδικοποίηση ηµιουργία

Διαβάστε περισσότερα

ΨΗΦΙΑΚΗΕΠΕΞΕΡΓΑΣΙΑVIDEO ΣΠΟΥ ΑΣΤΗΣ: ΠΑΣΜΑΤΖΙ ΗΣ ΙΩΑΝΝΗΣ

ΨΗΦΙΑΚΗΕΠΕΞΕΡΓΑΣΙΑVIDEO ΣΠΟΥ ΑΣΤΗΣ: ΠΑΣΜΑΤΖΙ ΗΣ ΙΩΑΝΝΗΣ ΨΗΦΙΑΚΗΕΠΕΞΕΡΓΑΣΙΑVIDEO ΣΠΟΥ ΑΣΤΗΣ: ΠΑΣΜΑΤΖΙ ΗΣ ΙΩΑΝΝΗΣ ΣΚΟΠΟΣ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ Ο σκοπός της πτυχιακής εργασίας είναι να αποκτηθεί εµπειρία στη παραγωγή video. Στα πλαίσια της εργασίας παράχθηκε οπτικοαουστικό

Διαβάστε περισσότερα

Δ11 Δ12. Συμπίεση Δεδομένων

Δ11 Δ12. Συμπίεση Δεδομένων Συμπίεση Δεδομένων 2013-2014 Κωδικοποιητές εικονοροής (Video) Δρ. Ν. Π. Σγούρος 2 Κωδικοποιητές Εικονοροών ITU-T VCEG H.261 (1990) ISO/IEC MPEG H.263 (1995/9 6) MPEG-2 (H.262) (1994/9 5) H.263+ (1997/98)

Διαβάστε περισσότερα

ΒΕΣ 04: Συµπίεση και Μετάδοση Πολυµέσων. Περιεχόµενα. Βιβλιογραφία. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

ΒΕΣ 04: Συµπίεση και Μετάδοση Πολυµέσων. Περιεχόµενα. Βιβλιογραφία. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT ΒΕΣ : Συµπίεση και Μετάδοση Πολυµέσων Συµπίεση εικόνων: Το πρότυπο JPEG Περιεχόµενα Εισαγωγή Ο µετασχηµατισµός DCT Το πρότυπο JPEG Προετοιµασία εικόνας / µπλοκ Ευθύς µετασχηµατισµός DCT Κβαντισµός Κωδικοποίηση

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 13: Κωδικοποίηση βίντεο: MPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 13: Κωδικοποίηση βίντεο: MPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 13: Κωδικοποίηση βίντεο: MPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου

Διαβάστε περισσότερα

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ. Οι διαφάνειες έχουν βασιστεί στο βιβλίο «Εισαγωγή στην επιστήμη των υπολογιστών» του B. Forouzanκαι Firoyz Mosharraf(2 η έκδοση-2010) Εκδόσεις Κλειδάριθμος Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου

Διαβάστε περισσότερα

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Τεράστιες ανάγκες σε αποθηκευτικό χώρο ΣΥΜΠΙΕΣΗ Τεράστιες ανάγκες σε αποθηκευτικό χώρο Παράδειγμα: CD-ROM έχει χωρητικότητα 650MB, χωρά 75 λεπτά ασυμπίεστου στερεοφωνικού ήχου, αλλά 30 sec ασυμπίεστου βίντεο. Μαγνητικοί δίσκοι χωρητικότητας

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ 6 6.0 ΤΗΛΕΟΡΑΣΗ ΕΙΣΑΓΩΓΗ

ΕΝΟΤΗΤΑ 6 6.0 ΤΗΛΕΟΡΑΣΗ ΕΙΣΑΓΩΓΗ ΕΝΟΤΗΤΑ 6 60 ΤΗΛΕΟΡΑΣΗ ΕΙΣΑΓΩΓΗ Η τηλεόραση είναι σήμερα ένα από τα πιο σημαντικά επικοινωνιακά συστήματα Δεν υπάρχει άνθρωπος, στις ανεπτυγμένες χώρες, που να μην αφιερώνει ορισμένες ώρες την ημέρα μπροστά

Διαβάστε περισσότερα

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακό βίντεο. Αναλογικό βίντεο / ψηφιοποίηση Διεπαφές Εκτίμηση κίνησης μπλοκ

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακό βίντεο. Αναλογικό βίντεο / ψηφιοποίηση Διεπαφές Εκτίμηση κίνησης μπλοκ Ψηφιακό βίντεο Αναλογικό βίντεο / ψηφιοποίηση Διεπαφές Εκτίμηση κίνησης μπλοκ Αναλογικό βίντεο SECAM PAL NTSC Ρυθμός πλεγμάτων (Hz) 50 50 59,94 Αριθμός ενεργών γραμμών ανά καρέ 576 576 480 Σχήμα εικονοστοιχείου

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 14: Εισαγωγικά Θέματα Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 14: Εισαγωγικά Θέματα Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Συστήματα Πολυμέσων Ενότητα 14: Εισαγωγικά Θέματα Βίντεο Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Εφαρμογές που συνδυάζουν ταυτόχρονα πολλαπλά μέσα : Κί Κείμενο, Εικόνα, Ήχος, Video, Animation. Στα υπερμέσα η πρόσπέλαση της πληροφορίας γίνεται

Εφαρμογές που συνδυάζουν ταυτόχρονα πολλαπλά μέσα : Κί Κείμενο, Εικόνα, Ήχος, Video, Animation. Στα υπερμέσα η πρόσπέλαση της πληροφορίας γίνεται Τι είναι Πολυμέσα και τι Υπερμέσα Εφαρμογές που συνδυάζουν ταυτόχρονα πολλαπλά μέσα : Κί Κείμενο, Εικόνα, Ήχος, Video, Animation Στα πολυμέσα η προσπέλαση της πληροφορίας γίνεται με γραμμικό τρόπο (προκαθορισμένη

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 16: Διαμορφώσεις και Πρότυπα Ψηφιακού Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής

Συστήματα Πολυμέσων. Ενότητα 16: Διαμορφώσεις και Πρότυπα Ψηφιακού Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Συστήματα Πολυμέσων Ενότητα 16: Διαμορφώσεις και Πρότυπα Ψηφιακού Βίντεο Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Δ10. Συμπίεση Δεδομένων

Δ10. Συμπίεση Δεδομένων Συμπίεση Δεδομένων 203-204 Κωδικοποίηση εικονοροής (Video) Δρ. Ν. Π. Σγούρος 2 Ανάλυση Οθονών Δρ. Ν. Π. Σγούρος 3 Πρωτόκολλα μετάδοσης εικονοροών Πρωτόκολλο Ρυθμός (Hz) Φίλμ 23.976 ATSC 24 PAL,DVB-SD,DVB-HD

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης Θρασύβουλος Γ. Τσιάτσος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1 Ήχος Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Κβαντοποίηση δειγμάτων Παλμοκωδική διαμόρφωση Συμβολική αναπαράσταση μουσικής Τεχνολογία Πολυμέσων και Πολυμεσικές

Διαβάστε περισσότερα

Πολυμέσα. Συμπίεση δεδομένων Κωδικοποίηση MPEG. Δρ. Γεώργιος Π. Παυλίδης ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ

Πολυμέσα. Συμπίεση δεδομένων Κωδικοποίηση MPEG. Δρ. Γεώργιος Π. Παυλίδης ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Πολυμέσα Συμπίεση δεδομένων Κωδικοποίηση MPEG Δρ. Γεώργιος Π. Παυλίδης Συμπίεση Δεδομένων Περιεχόμενα Γνωστοίαλγόριθμοισυμπίεσης MPEG Χρησιμοποίηση Εφαρμογές Εκμάθηση Σχεδίαση Διασύνδεση χρήστη Υπηρεσίες

Διαβάστε περισσότερα

Επεξεργασία Χαρτογραφικής Εικόνας

Επεξεργασία Χαρτογραφικής Εικόνας Επεξεργασία Χαρτογραφικής Εικόνας ιδάσκων: Αναγνωστόπουλος Χρήστος Αλγόριθµος JPEG για έγχρωµες εικόνες Είδη αρχείων εικόνων Συµπίεση video και ήχου Μπλόκ x Τιµές - 55 Αρχική πληροφορία, 54 54 75 6 7 75

Διαβάστε περισσότερα

ΒΕΣ 04: Συμπίεση και Μετάδοση Πολυμέσων. Βίντεο (Video)

ΒΕΣ 04: Συμπίεση και Μετάδοση Πολυμέσων. Βίντεο (Video) ΒΕΣ 04: Συμπίεση και Μετάδοση Πολυμέσων Βίντεο (Video) Περιεχόμενα Εισαγωγή Βίντεο και πολυμεσικές εφαρμογές Αναπαράσταση Βίντεο Πρότυπα αναλογικού βίντεο Ψηφιακό βίντεο Πρότυπα ελεγκτών αναπαράστασης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 4: ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ Θεωρητικές Ασκήσεις (# ): ειγµατοληψία, κβαντοποίηση και συµπίεση σηµάτων. Στην τηλεφωνία θεωρείται ότι το ουσιαστικό περιεχόµενο της

Διαβάστε περισσότερα

Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο

Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο Αλέξανδρος Ελευθεριάδης Αναπ. Καθηγητής & Marie Curie Chair Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών eleft@di.uoa.gr,

Διαβάστε περισσότερα

Συμπίεση Δεδομένων

Συμπίεση Δεδομένων Συμπίεση Δεδομένων 2013-2014 JPEG 2000 Δρ. Ν. Π. Σγούρος 2 JPEG 2000 Βασικά χαρακτηριστικά Επιτρέπει συμπίεση σε εξαιρετικά χαμηλούς ρυθμούς όπου η συμπίεση με το JPEG εισάγει μεγάλες παραμορφώσεις Ενσωμάτωση

Διαβάστε περισσότερα

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Γιατί Συµπίεση; Βιβλιογραφία

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Γιατί Συµπίεση; Βιβλιογραφία Περιεχόµενα ΕΠΛ 422: Συστήµατα Πολυµέσων Συµπίεση εδοµένων: Εισαγωγή, Κατηγορίες Τεχνικών Συµπίεσης Βιβλιογραφία Γιατί Συµπίεση εδοµένων; Μερικά παραδείγµατα Ορισµός Συµπίεσης Συµπίεση και Πολυµεσικές

Διαβάστε περισσότερα

Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο

Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο Αλέξανδρος Ελευθεριάδης Αναπ. Καθηγητής & Marie Curie Chair Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών eleft@di.uoa.gr,

Διαβάστε περισσότερα

ΒΑΣΙΚΑ ΘΕΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΒΑΣΙΚΑ ΘΕΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΒΑΣΙΚΑ ΘΕΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1. Τι είναι δεδοµένα και τι πληροφορίες; Δώστε δύο παραδείγµατα δεδοµένων και δύο παραδείγµατα πληροφοριών εδοµένο είναι το σύμβολο μιας συγκεκριµένης έννοιας, ενός αντικειµένου,

Διαβάστε περισσότερα

Συµπίεση Ψηφιακών Εικόνων: Συµπίεση µε Απώλειες. Πρότυπα Συµπίεσης Εικόνων

Συµπίεση Ψηφιακών Εικόνων: Συµπίεση µε Απώλειες. Πρότυπα Συµπίεσης Εικόνων ΤΨΣ 5: Ψηφιακή Επεξεργασία Εικόνας ΤΨΣ 5 Ψηφιακή Επεξεργασία Εικόνας Συµπίεση Ψηφιακών Εικόνων: Συµπίεση µε απώλειες Πρότυπα Συµπίεσης Εικόνων Τµήµα ιδακτικής της Τεχνολογίας και Ψηφιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

Πολυμεσικές Εφαρμογές

Πολυμεσικές Εφαρμογές Πολυμεσικές Εφαρμογές Ενότητα 7: ΒΙΝΤΕΟ Γεώργιος Στυλιαράς Σχολή Οργάνωσης και Διοίκησης Επιχειρήσεων Τμήμα Διαχείρισης Πολιτισμικού Περιβάλλοντος και Νέων Τεχνολογιών ΕΙΣΑΓΩΓΙΚΑ Αναλογικό και ψηφιακό

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Συστήματα Πολυμέσων Ενότητα 12: Συμπίεση Ψηφιακού Ήχου Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

DIP_06 Συμπίεση εικόνας - JPEG. ΤΕΙ Κρήτης

DIP_06 Συμπίεση εικόνας - JPEG. ΤΕΙ Κρήτης DIP_06 Συμπίεση εικόνας - JPEG ΤΕΙ Κρήτης Συμπίεση εικόνας Το μέγεθος μιας εικόνας είναι πολύ μεγάλο π.χ. Εικόνα μεγέθους Α4 δημιουργημένη από ένα σαρωτή με 300 pixels ανά ίντσα και με χρήση του RGB μοντέλου

Διαβάστε περισσότερα

MPEG-4 : Διαδραστικές εφαρμογές πολυμέσων

MPEG-4 : Διαδραστικές εφαρμογές πολυμέσων MPEG-4 : Διαδραστικές εφαρμογές πολυμέσων Συμπίεση οπτικοακουστικών δεδομένων για το Διαδίκτυο Οπτικοί δίσκοι Ψηφιακή τηλεόραση (επίγεια, δορυφορική) Συμβατότητα με MPEG-1 και MPEG-2 Συνθετική σκηνή Εισαγωγή

Διαβάστε περισσότερα

Α.Τ.Ε.Ι. Ηρακλείου Ψηφιακή Επεξεργασία Εικόνας ιδάσκων: Βασίλειος Γαργανουράκης. Ανθρώπινη Όραση - Χρωµατικά Μοντέλα

Α.Τ.Ε.Ι. Ηρακλείου Ψηφιακή Επεξεργασία Εικόνας ιδάσκων: Βασίλειος Γαργανουράκης. Ανθρώπινη Όραση - Χρωµατικά Μοντέλα Ανθρώπινη Όραση - Χρωµατικά Μοντέλα 1 Τι απαιτείται για την όραση Φωτισµός: κάποια πηγή φωτός Αντικείµενα: που θα ανακλούν (ή διαθλούν) το φως Μάτι: σύλληψη του φωτός σαν εικόνα Τρόποι µετάδοσης φωτός

Διαβάστε περισσότερα

Αντοχή (ruggedness) στο θόρυβο μετάδοσης Αποτελεσματική αναγέννηση (regeneration) Δυνατότητα ομοιόμορφου σχήματος (uniform format) μετάδοσης Όμως:

Αντοχή (ruggedness) στο θόρυβο μετάδοσης Αποτελεσματική αναγέννηση (regeneration) Δυνατότητα ομοιόμορφου σχήματος (uniform format) μετάδοσης Όμως: ΨΗΦΙΑΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ Πλεονεκτήματα: Αντοχή (ruggedness) στο θόρυβο μετάδοσης Αποτελεσματική αναγέννηση (regeneration) Δυνατότητα ομοιόμορφου σχήματος (uniform format) μετάδοσης Όμως: Αύξηση απαίτησης εύρους

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση 12 η. Θεωρία Χρώματος και Επεξεργασία Έγχρωμων Εικόνων

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση 12 η. Θεωρία Χρώματος και Επεξεργασία Έγχρωμων Εικόνων Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Παρουσίαση 12 η Θεωρία Χρώματος και Επεξεργασία Έγχρωμων Εικόνων Εισαγωγή (1) Το χρώμα είναι ένας πολύ σημαντικός παράγοντας περιγραφής, που συχνά απλουστεύει κατά

Διαβάστε περισσότερα

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004 Ενδιάµεση Εξέταση: Οκτώβριος 4 ΜΕΡΟΣ Β: ΑΣΚΗΣΕΙΣ Άσκηση (25 µονάδες): Μια εικόνα αποχρώσεων του γκρι και διαστάσεων 25 x pixel έχει κωδικοποιηθεί κατά PCM µε βάθος χρώµατος 3 bits /pixel. Οι τιµές φωτεινότητας

Διαβάστε περισσότερα

Η ανάγκη για συμπίεση

Η ανάγκη για συμπίεση Πρότυπα συμπίεσης Η ανάγκη για συμπίεση High-Definition Television (HDTV) 1920x1080 30 frames per second (full motion) 8 bits για κάθε κανάλι χρώματος 1.5 Gb/sec! Κάθε κανάλι 6 MHz Max data rate: 19.2

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 14: Κωδικοποίηση βίντεο: Η.264 Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 14: Κωδικοποίηση βίντεο: Η.264 Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 14: Κωδικοποίηση βίντεο: Η.264 Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου

Διαβάστε περισσότερα

Βίντεο και κινούµενα σχέδια

Βίντεο και κινούµενα σχέδια Βίντεο και κινούµενα σχέδια Συµβατικά τηλεοπτικά συστήµατα Ψηφιακό βίντεο Τηλεόραση υψηλής ευκρίνειας Κινούµενα σχέδια Έλεγχος κινουµένων σχεδίων Μετάδοση κινουµένων σχεδίων Τεχνολογία Πολυµέσων 06-1 Συµβατικά

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΚΗ I. 7 η ΔΙΑΛΕΞΗ Γραφικά με Υπολογιστή

ΠΛΗΡΟΦΟΡΙΚΗ I. 7 η ΔΙΑΛΕΞΗ Γραφικά με Υπολογιστή ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ - ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΤΟΥΡΙΣΤΙΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ ΚΑΙ ΕΠΙΧΕΙΡΗΣΕΩΝ ΦΙΛΟΞΕΝΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗ I 7 η ΔΙΑΛΕΞΗ Γραφικά με Υπολογιστή ΧΑΣΑΝΗΣ ΒΑΣΙΛΕΙΟΣ

Διαβάστε περισσότερα

VIDEO ΚΑΙ ΕΦΑΡΜΟΓΕΣ. Υπάρχουσες εφαρμογές:

VIDEO ΚΑΙ ΕΦΑΡΜΟΓΕΣ. Υπάρχουσες εφαρμογές: VIDEO ΚΑΙ ΕΦΑΡΜΟΓΕΣ Υπάρχουσες εφαρμογές: Αναπαραγωγή αποθηκευμένου οπτικοακουστικού υλικού (εκπαιδευτικές/ψυχαγωγικές π.χ. video on demand) Οπτικοακουστική επικοινωνία πραγματικού χρόνου (ένας-προς-έναν

Διαβάστε περισσότερα

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1 Ήχος και φωνή Φύση του ήχου Ψηφιοποίηση µε µετασχηµατισµό Ψηφιοποίηση µε δειγµατοληψία Παλµοκωδική διαµόρφωση Αναπαράσταση µουσικής Ανάλυση και σύνθεση φωνής Μετάδοση φωνής Τεχνολογία Πολυµέσων 4-1 Φύση

Διαβάστε περισσότερα

Έγχρωµο και Ασπρόµαυρο Φως

Έγχρωµο και Ασπρόµαυρο Φως Έγχρωµο και Ασπρόµαυρο Φως Χρώµα: κλάδος φυσικής, φυσιολογίας, ψυχολογίας, τέχνης. Αφορά άµεσα τον προγραµµατιστή των γραφικών. Αν αφαιρέσουµε χρωµατικά χαρακτηριστικά, λαµβάνουµε ασπρόµαυρο φως. Μόνο

Διαβάστε περισσότερα

Ραδιοτηλεοπτικά Συστήματα Ενότητα 4: Ψηφιοποίηση και συμπίεση σημάτων εικόνας

Ραδιοτηλεοπτικά Συστήματα Ενότητα 4: Ψηφιοποίηση και συμπίεση σημάτων εικόνας ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Ραδιοτηλεοπτικά Συστήματα Ενότητα 4: Ψηφιοποίηση και συμπίεση σημάτων εικόνας Δρ. Νικόλαος- Αλέξανδρος Τάτλας Τμήμα Ηλεκτρονικών

Διαβάστε περισσότερα

χωρίςναδηµιουργείταιαίσθησηαπώλειαςτηςποιότηταςτηςανακατασκευασµένηςεικόνας.

χωρίςναδηµιουργείταιαίσθησηαπώλειαςτηςποιότηταςτηςανακατασκευασµένηςεικόνας. Το πρότυπο JPEG για κωδικοποίησηση εικόνας Το JPEG, που υιοθετήθηκε από την Joint Photographic Experts Group, είναι ένα πρότυπο που χρησιµοποιείταιευρέωςγιατησυµπίεσηακίνητωνεικόνων, µε µέσο λόγο συµπίεσης

Διαβάστε περισσότερα

2.0 ΒΑΣΙΚΕΣ ΓΝΩΣΕΙΣ-ΟΡΟΛΟΓΙΕΣ

2.0 ΒΑΣΙΚΕΣ ΓΝΩΣΕΙΣ-ΟΡΟΛΟΓΙΕΣ 2.0 ΒΑΣΙΚΕΣ ΓΝΩΣΕΙΣ-ΟΡΟΛΟΓΙΕΣ Η σάρωση ενός εγγράφου εισάγει στον υπολογιστή μια εικόνα, ενώ η εκτύπωση μεταφέρει στο χαρτί μια εικόνα από αυτόν. Για να αντιληφθούμε επομένως τα χαρακτηριστικά των σαρωτών

Διαβάστε περισσότερα

Τι είναι τα πολυμέσα;

Τι είναι τα πολυμέσα; ΕΝΟΤΗΤΑ Κεφάλαιο 3: Πολυμέσα Α τάξη Λέξεις Κλειδιά: Ανάλυση εικόνας, αναλογικό σήμα, αλληλεπιδραστικότητα (interactivity), βάθος χρώματος, δειγματοληψία, εικονοστοιχείο (pixel), Πολυμέσα (Multimedia),

Διαβάστε περισσότερα

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βίντεο και Πολυµεσικές Εφαρµογές. Βιβλιογραφία. Καγιάφας [2000]: Κεφάλαιο 5, [link]

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βίντεο και Πολυµεσικές Εφαρµογές. Βιβλιογραφία. Καγιάφας [2000]: Κεφάλαιο 5, [link] Περιεχόµενα ΕΠΛ 422: Συστήµατα Πολυµέσων Βίντεο και Πολυµεσικές Εφαρµογές Περιορισµοί Από υπολογιστή σε τηλεόραση Επεξεργασία στον υπολογιστή Φορµά (format) εγγραφής και αποθήκευσης βίντεο Βασικές αρχιτεκτονικές

Διαβάστε περισσότερα

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βίντεο (Video) Εισαγωγή. Βιβλιογραφία. Καγιάφας [2000]: Κεφάλαιο 5, [link]

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βίντεο (Video) Εισαγωγή. Βιβλιογραφία. Καγιάφας [2000]: Κεφάλαιο 5, [link] Περιεχόµενα ΕΠΛ 422: Συστήµατα Πολυµέσων Βίντεο (Video) Εισαγωγή Βίντεο και πολυµεσικές εφαρµογές Αναπαράσταση Βίντεο Πρότυπα αναλογικού βίντεο Ψηφιακό βίντεο Πρότυπα ελεγκτών αναπαράστασης ψηφιακού βίντεο

Διαβάστε περισσότερα

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. MPEG 2 bitstream και πολυπλεξία

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. MPEG 2 bitstream και πολυπλεξία ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ 3 MPEG 2 bitstream και πολυπλεξία 2 Μικρότερο δομικό στοιχείο: Το block 8x8 με τους συντελεστές DCT είτε για τη φωτεινότητα ή

Διαβάστε περισσότερα

Μέγεθος οθόνης 32 ίντσες (82 cm) Το µέγεθος της οθόνης µετριέται σε ίντσες ή

Μέγεθος οθόνης 32 ίντσες (82 cm) Το µέγεθος της οθόνης µετριέται σε ίντσες ή Τεχνικά χαρακτηριστικά για Τηλεόραση LCD 16/9 LE32S81 Με µοντέρνο σχήµα και σε λαµπερό µαύρο χρώµα, µε διαγώνια 82εκατ. η τηλεόραση LCD LE32S81 της Samsung δεν θα περάσει απαρατήρητη. Με τα δύο ηχεία της

Διαβάστε περισσότερα

Ραδιοτηλεοπτικά Συστήματα Ενότητα 2: Παραγωγή και Μετάδοση Τηλεοπτικού Σήματος

Ραδιοτηλεοπτικά Συστήματα Ενότητα 2: Παραγωγή και Μετάδοση Τηλεοπτικού Σήματος ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Ραδιοτηλεοπτικά Συστήματα Ενότητα 2: Παραγωγή και Μετάδοση Τηλεοπτικού Σήματος Δρ. Νικόλαος- Αλέξανδρος Τάτλας Τμήμα Ηλεκτρονικών

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 5: Εικόνα Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 5: Εικόνα Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 5: Εικόνα Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη. Περιεχόµενα ΕΠΛ 422: Συστήµατα Πολυµέσων Συµπίεση Ήχου Μέθοδοι συµπίεσης ηχητικών σηµάτων DPCM Συµπίεση σηµάτων οµιλίας Κωδικοποίηση µε βάση την αντίληψη Χαρακτηριστικά και εφαρµογές Ψυχοακουστική (psychoacoustics)

Διαβάστε περισσότερα

Συστήµατα και Αλγόριθµοι Πολυµέσων

Συστήµατα και Αλγόριθµοι Πολυµέσων Συστήµατα και Αλγόριθµοι Πολυµέσων Ιωάννης Χαρ. Κατσαβουνίδης Οµιλία #3: Αρχές Επεξεργασίας Σηµάτων Πολυµέσων 10 Οκτωβρίου 005 Επανάλειψη (1) ειγµατοληψία επανα-δειγµατοληψία Τεχνικές φίλτρων (συνέλειξη)

Διαβάστε περισσότερα

Δίκτυα Θεωρία

Δίκτυα Θεωρία Δίκτυα Θεωρία 2016-17 Κεφάλαιο 5 1. Τι γνωρίζετε για τα Δίκτυα Ευρείας Περιοχής; Τα τοπικά δίκτυα αποτελούν πολύ καλή λύση για επικοινωνία με περιορισμένη, όμως, απόσταση κάλυψης. Για να ικανοποιηθεί η

Διαβάστε περισσότερα

ITU-T : H.261 (1990), H.262 (1996), H.263 (1995) MPEG-1, MPEG-2, MPEG-4. Αποθήκευση, Μετάδοση, Επικοινωνίες, ίκτυα

ITU-T : H.261 (1990), H.262 (1996), H.263 (1995) MPEG-1, MPEG-2, MPEG-4. Αποθήκευση, Μετάδοση, Επικοινωνίες, ίκτυα Συµπίεση/κωδικοποίηση βίντεο ITU-T : H.261 (1990), H.262 (1996), H.263 (1995) Συνδιάσκεψη : ISDN, ATM, LANs, Internet, PSTN MPEG-1, MPEG-2, MPEG-4 Αποθήκευση, Μετάδοση, Επικοινωνίες, ίκτυα 1 H.261 : εισαγωγή

Διαβάστε περισσότερα

Θέματα Συστημάτων Πολυμέσων. Ενότητα # 7: JPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

Θέματα Συστημάτων Πολυμέσων. Ενότητα # 7: JPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών Θέματα Συστημάτων Πολυμέσων Ενότητα # 7: JPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Θέματα Συστημάτων Πολυμέσων. Ενότητα # 8: MPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

Θέματα Συστημάτων Πολυμέσων. Ενότητα # 8: MPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών Θέματα Συστημάτων Πολυμέσων Ενότητα # 8: MPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάλυση Διατάξεων Εκπομπής σε Συστήματα Ψηφιακής Τηλεόρασης Υψηλής Ευκρίνειας

Ανάλυση Διατάξεων Εκπομπής σε Συστήματα Ψηφιακής Τηλεόρασης Υψηλής Ευκρίνειας ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΑΥΤΟΜΑΤΙΣΜΟΥ Ανάλυση Διατάξεων Εκπομπής σε Συστήματα Ψηφιακής Τηλεόρασης Υψηλής Ευκρίνειας Φλώρος Άγγελος ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Διαβάστε περισσότερα

Εφαρμογές Πληροφορικής

Εφαρμογές Πληροφορικής Εφαρμογές Πληροφορικής Κεφάλαιο 11 Πολυμέσα ΜΕΡΟΣ Α 1. Υπερκείμενο Ποιός είναι ο κόμβος, ποιός ο σύνδεσμος και ποιά η θερμή λέξη; 1 2. Υπερμέσα Χαρακτηριστικά Κόμβος (Node) Αποτελεί τη βάση πληροφοριών

Διαβάστε περισσότερα

Ερωτήσεις Απαντήσεις επανάληψης κεφ.9 (Πολυμέσα).

Ερωτήσεις Απαντήσεις επανάληψης κεφ.9 (Πολυμέσα). 14 ο Γυμνάσιο Περιστερίου 1 Ερωτήσεις Απαντήσεις επανάληψης κεφ.9 (Πολυμέσα). Μάθημα 9.1 Ο κόσμος των Πολυμέσων 1. Τι είναι μια Εφαρμογή Πολυμέσων. Λογισμικό στο οποίο χρησιμοποιούνται πολλά και διαφορετικά

Διαβάστε περισσότερα

Γιώργος Τζιρίτας Τµήµα Επιστήµης Υπολογιστών http://www.csd.uoc.gr/~tziritas

Γιώργος Τζιρίτας Τµήµα Επιστήµης Υπολογιστών http://www.csd.uoc.gr/~tziritas Συµπίεση/κωδικοποίηση βίντεο Γιώργος Τζιρίτας Τµήµα Επιστήµης Υπολογιστών http://www.csd.uoc.gr/~tziritas Άνοιξη 2009 1 Εφαρµογή Απαίτηση Παρα- µόρφωση Μετάδοση Πρότυπο ικτυακό βίντεο 1,5 Mbps Υψηλή Internet

Διαβάστε περισσότερα

MPEG-4: Βασικά Χαρακτηριστικά

MPEG-4: Βασικά Χαρακτηριστικά MPEG-4 MPEG-4: Βασικά Χαρακτηριστικά Σχεδιάστηκε ώστε να καλύπτει ευρύ φάσμα ρυθμών, από 5 kbps εώς 10 Mbps Εκτός από τη συμπίεση δίνει έμφαση και στην αλληλεπίδραση με το χρήστη Χρησιμοποιεί αντικείμενα

Διαβάστε περισσότερα

Εισαγωγή. Τεχνολογία Πολυµέσων 01-1

Εισαγωγή. Τεχνολογία Πολυµέσων 01-1 Εισαγωγή Τι είναι τα πολυµέσα Ποιοι εµπλέκονται στα πολυµέσα Χαρακτηριστικά των µέσων Απαιτήσεις πολυµέσων Ιδιότητες πολυµέσων Μετάδοση πολυµέσων οµή συστηµάτων πολυµέσων Τεχνολογία Πολυµέσων 01-1 Τι είναι

Διαβάστε περισσότερα