ΖΩΝΤΑΝΗ ΜΕΤΑΔΟΣΗ ΟΠΤΙΚΟΑΚΟΥΣΤΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΥΨΗΛΗΣ ΕΥΚΡΙΝΕΙΑΣ ΜΕΣΩ ΕΥΡΥΖΩΝΙΚΟΥ ΔΙΚΤΥΟΥ IP



Σχετικά έγγραφα
Βίντεο. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 06-1

VIDEO ΚΑΙ ΕΦΑΡΜΟΓΕΣ. Υπάρχουσες εφαρμογές:

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Κωδικοποίηση βίντεο (H.261 / DVI)

Βίντεο και κινούµενα σχέδια

Συστήματα Πολυμέσων. Ενότητα 15: Συμπίεση Ψηφιακού Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Τεχνολογία Πολυμέσων. Ενότητα # 12: Κωδικοποίηση βίντεο: H.26x Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Τεχνολογία Πολυμέσων. Ενότητα # 6: Βίντεο Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τι συσχετίζεται με τον ήχο

Κωδικοποίηση βίντεο (MPEG)

Αντοχή (ruggedness) στο θόρυβο μετάδοσης Αποτελεσματική αναγέννηση (regeneration) Δυνατότητα ομοιόμορφου σχήματος (uniform format) μετάδοσης Όμως:

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Θέματα Συστημάτων Πολυμέσων. Ενότητα #3: Ιδιότητες μέσων Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

Κωδικοποίηση βίντεο (MPEG)

Μοντέλο Επικοινωνίας Δεδομένων. Επικοινωνίες Δεδομένων Μάθημα 6 ο

Πολυμέσα. Συμπίεση δεδομένων Κωδικοποίηση MPEG. Δρ. Γεώργιος Π. Παυλίδης ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακό βίντεο. Αναλογικό βίντεο / ψηφιοποίηση Διεπαφές Εκτίμηση κίνησης μπλοκ

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Εισαγωγή

Συμπίεση Δεδομένων

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Τεχνολογία Πολυμέσων. Ενότητα 9: Αναλογικό Βίντεο. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Βασικές έννοιες. Αναλογικό Βίντεο. Ψηφιακό Βίντεο. Κινούμενα γραφικά (animation)( Πλαίσιο (frame, καρέ) Ρυθμός πλαισίων (frame rate)

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

Τεχνολογία Πολυμέσων. Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. MPEG 2 bitstream και πολυπλεξία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

Τεχνολογία Πολυμέσων. Ενότητα # 14: Κωδικοποίηση βίντεο: Η.264 Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ανάλυση Διατάξεων Εκπομπής σε Συστήματα Ψηφιακής Τηλεόρασης Υψηλής Ευκρίνειας

Δ11 Δ12. Συμπίεση Δεδομένων

Συστήματα Πολυμέσων. Ενότητα 7: Συμπίεση Εικόνας κατά JPEG. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

Δ10. Συμπίεση Δεδομένων

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Μετάδοση πληροφορίας - Διαμόρφωση

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

Τεχνολογία Πολυμέσων. Ενότητα # 13: Κωδικοποίηση βίντεο: MPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Μετάδοση πληροφορίας - Διαμόρφωση

Συστήματα Πολυμέσων. Ενότητα 16: Διαμορφώσεις και Πρότυπα Ψηφιακού Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής

ΕΙΔΗ ΠΛΑΙΣΙΩΝ Ενδο-πλαισιακή κωδικοποίηση (Intra- frame Coding): Δια-πλαισιακή κωδικοποίηση (Inter-frame Coding):

Βίντεο και κινούµενα σχέδια

Συστήματα Πολυμέσων. Ενότητα 14: Εισαγωγικά Θέματα Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Ψηφιακό Βίντεο. ΕΣ 200: ημιουργία Περιεχομένου ΙΙ. Περιεχόμενα - Βιβλιογραφία. Περιεχόμενα. Βιβλιογραφία. Βασικές έννοιες

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΚΡΗΤΗΣ

ΒΕΣ 04: Συµπίεση και Μετάδοση Πολυµέσων. Περιεχόµενα. Βιβλιογραφία. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

Η ανάγκη για συμπίεση

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Εισαγωγή. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

Τα ηλεκτρονικά σήματα πληροφορίας διακρίνονται ανάλογα με τη μορφή τους σε δύο κατηγορίες : Αναλογικά σήματα Ψηφιακά σήματα

ΚΕΦΑΛΑΙΟ 7 ΕΠΕΞΕΡΓΑΣΙΑ ΚΑΙ ΜΕΤΑΔΟΣΗ ΨΗΦΙΑΚΩΝ ΔΕΔΟΜΕΝΩΝ

Τμήμα Λογιστικής. Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. Μαθήματα 6 και 7 Αναπαράσταση της Πληροφορίας στον Υπολογιστή. 1 Στέργιος Παλαμάς

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

ΕΝΟΤΗΤΑ ΤΗΛΕΟΡΑΣΗ ΕΙΣΑΓΩΓΗ

Συµπίεση Εικόνας: Το πρότυπο JPEG

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Κωδικοποίηση εικόνων κατά JPEG

DVB (DVB-S, DVB-C, DVB-T, DVB-H)

Τηλεπικοινωνιακά Συστήματα Ι

Group (JPEG) το 1992.

Εφαρμογές Πληροφορικής

ΒΕΣ 04: Συμπίεση και Μετάδοση Πολυμέσων. Βίντεο (Video)

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Πολυπλεξία. Creative Commons License 3.0 Share-Alike

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΚΡΗΤΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

MPEG-4: Βασικά Χαρακτηριστικά

Εικόνες και γραφικά. Τεχνολογία Πολυµέσων 05-1

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ - PCM (ΜΕΡΟΣ Α)

Τι συσχετίζεται με τον ήχο

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

ΠΑΡΑΓΩΓΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ

ΣΧΕΔΙΑΣΗ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΧΡΗΣΗ ΥΠΟΛΟΓΙΣΤΩΝ (E-CAD) ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Κεφάλαιο 1 Ε Π Α Ν Α Λ Η Ψ Η

ΥΠΟΥΡΓΕΙΟ ΠΑΙΔΕΙΑΣ ΚΑΙ ΠΟΛΙΤΙΣΜΟΥ ΔΙΕΥΘΥΝΣΗ ΑΝΩΤΕΡΗΣ ΚΑΙ ΑΝΩΤΑΤΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΥΠΗΡΕΣΙΑ ΕΞΕΤΑΣΕΩΝ ΠΑΓΚΥΠΡΙΕΣ ΕΞΕΤΑΣΕΙΣ 2013

χωρίςναδηµιουργείταιαίσθησηαπώλειαςτηςποιότηταςτηςανακατασκευασµένηςεικόνας.

Εισαγωγή. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 01-1

ηµοτικό ιαδικτυακό Ραδιόφωνο και Τηλεόραση

ΠΛΗ21 Κεφάλαιο 1. ΠΛΗ21 Ψηφιακά Συστήματα: Τόμος Α Κεφάλαιο: 1 Εισαγωγή

Εφαρμογές που συνδυάζουν ταυτόχρονα πολλαπλά μέσα : Κί Κείμενο, Εικόνα, Ήχος, Video, Animation. Στα υπερμέσα η πρόσπέλαση της πληροφορίας γίνεται

Κεφάλαιο 3 Πολυπλεξία

Συστήματα Επικοινωνιών ΙI

Α.Τ.Ε.Ι. Ηρακλείου Ψηφιακή Επεξεργασία Εικόνας ιδάσκων: Βασίλειος Γαργανουράκης. Ανθρώπινη Όραση - Χρωµατικά Μοντέλα

Εισαγωγή στη σχεδιοκίνηση (animation)

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

«Επικοινωνίες δεδομένων»

Συστήματα Πολυμέσων. Ενότητα 11: Χαρακτηριστικά Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Ιστορική Αναδρομή. Σύγχρονες τάσεις στις τηλεπικοινωνίες και τεχνολογίες αιχμής, ΤΕΕ, Αθήνα, 10 Ιαν.,

ΣΧΕΔΙΑΣΗ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΧΡΗΣΗ ΥΠΟΛΟΓΙΣΤΩΝ (E-CAD) ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ Χ. Βέργος Καθηγητής

Κεφάλαιο 2. Οργάνωση και διαχείριση της Πληροφορίας στον. Υπολογιστή

Πληροφορική Εφαρμογές Πολυμέσων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ Η/Υ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΖΩΝΤΑΝΗ ΜΕΤΑΔΟΣΗ ΟΠΤΙΚΟΑΚΟΥΣΤΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΥΨΗΛΗΣ ΕΥΚΡΙΝΕΙΑΣ ΜΕΣΩ ΕΥΡΥΖΩΝΙΚΟΥ ΔΙΚΤΥΟΥ IP Επιβλέπων Καθηγητής: Παπανικολάου Γεώργιος Εκπόνηση: Χρηστάκη Κυριακή ΑΕΜ: 5909 1

2

Ευχαριστίες Με την ολοκλήρωση της πτυχιακής μου εργασίας θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή μου, κύριο Παπανικολάου Γεώργιο, για την ευκαιρία που μου δόθηκε να ασχοληθώ με το συγκεκριμένο θέμα. Παράλληλα θα ήθελα να ευχαριστήσω όλους τους συναδέλφους με τους οποίους συνεργαστήκαμε για την υλοποίηση της συγκεκριμένης εφαρμογής χωρίς τους οποίους το εγχείρημα δε θα μπορούσε να ολοκληρωθεί. 1 3

Περίληψη Αντικείμενο της παρούσας διπλωματικής εργασίας αποτελεί η μετάδοση οπτικοακουστικού περιεχομένου μέσω ευρυζωνικού δικτύου που βασίζεται στο πρωτόκολλο IP. Το ενδιαφέρον κινείται στην υλοποίηση εφαρμογών με τεχνολογίες βίντεο υψηλής ευκρίνειας (HD) και επεξεργασίας και μετάδοσης σε πραγματικό χρόνο. Σαν πρακτική εφαρμογή παρουσιάζεται το εγχείρημα της ζωντανής μετάδοσης του Φεστιβάλ Ντοκιμαντέρ Θεσσαλονίκης σε διάφορα πανεπιστημιακά ιδρύματα της χώρας. Αναλυτικότερα: Το 1 ο Κεφάλαιο αναφέρεται στις βασικές αρχές ψηφιοποίησης ακουστικού και οπτικού σήματος. Περιγράφονται τα κύρια γνωρίσματα του βίντεο και αναλύονται τα κυρίαρχα πρότυπα SDTV και HDTV. Στο 2 ο Κεφάλαιο περιγράφονται οι αρχές συμπίεσης των οπτικοακουστικών σημάτων με ιδιαίτερη αναφορά στο πρότυπα που χρησιμοποιήθηκαν στο παρόν εγχείρημα. Το 3 ο Κεφάλαιο αναφέρεται στα πρωτόκολλα μετάδοσης δεδομένων μέσω δικτύου IP και στην ενθυλάκωση των συμπιεσμένων οπτικοακουστικών δεδομένων σε πακέτα προς αποστολή. Στο 4 ο Κεφάλαιο περιγράφεται το δίκτυο ΕΔΕΤ μέσω του οποίου έγινε η μετάδοση και οι τρόποι μετάδοσης multicast και unicast πολυμεσικών δεδομένων. Στο 5 ο Κεφάλαιο αναλύεται το VLC, το βασικό πρόγραμμα που χρησιμοποιήθηκε στο εγχείρημα κ επέτρεψε τη παραλαβή του μεταδιδόμενου ζωντανού οπτικοακουστικού σήματος και την αναπαραγωγή του. Το 6 ο Κεφάλαιο διαπραγματεύεται το πρακτικό μέρος του εγχειρήματος. Περιγράφεται η όλη διαδικασία, τα στάδια της προ-παραγωγής και της υλοποίησης και ο απαραίτητος εξοπλισμός που χρησιμοποιήθηκε. 4

Abstract The present graduate thesis describes the project of real-time transmission of the Documentary Festival of Thessaloniki at educational institutes across country. Emphasis is given to the implementation of the project with High Definition video technologies, and processing and transmitting in real-time over a broadband network based on the IP Internet Protocol. In more details: The first chapter refers to the basic principles of digitization of video and audio signals. They are also described the main features of video and the most widespread SDTV and HDTV standards. The second chapter analyzes the principles of audiovisual signal compression, with particular reference to the standards used in this project. The third chapter refers to data transmission protocols over an IP network and the process of encapsulation of compressed audiovisual data in packets. The fourth Chapter describes the multicast and unicast transmission methods and the GRNET network that constituted the network on which the application was based on. The fifth chapter analyzes VLC, the streaming media player used in this project. The sixth chapter deals with the practical part of the project. There are described the entire process and the stages of pre-production and implementation. 5

6

Περιεχόμενα Περίληψη... 4 1 Ψηφιακό Βίντεο και ήχος... 10 1.1 Ψηφιοποίηση αναλογικού σήματος... 10 1.2 Ψηφιακό βίντεο... 12 1.2.1 Βασικά χαρακτηριστικά ψηφιακού βίντεο... 12 1.2.2 Τηλεοπτικά πρότυπα SDTV... 17 1.2.2.1 Το πρότυπο NTSC... 17 1.2.2.2 Το πρότυπο PAL... 18 1.2.2.3 Το πρότυπο SECAM... 19 1.2.3 Πρότυπα HDTV... 20 1.3 Ψηφιακός ήχος... 21 1.3.1 Ψηφιοποίηση ηχητικού σήματος... 21 1.3.2 Κωδικοποίηση PCM... 21 2 Πρότυπα συμπίεσης ήχου και εικόνας... 23 2.1 Το πρότυπο συμπίεσης MPEG... 23 2.1.1 Βασικές αρχές συμπίεσης κατά MPEG-2... 26 2.1.2 Τύποι εικόνας MPEG-2... 34 2.1.3 Πολυπλεξία και συγχρονισμός... 36 2.1.4 Ροές MPEG-2... 37 2.2 Συμπίεση Ήχου... 39 2.2.1 Το πρότυπο MPEG-1 Layer 2... 39 2.2.2 Το πρότυπο AC-3... 40 3 Πρωτόκολλα μεταφοράς δικτύου... 49 3.1 Το πρωτόκολλο UDP... 49 3.2 Το Πρωτόκολλο RTP... 51 3.2.1 Δομή πακέτου RTP... 52 3.2.2 Ενθυλάκωση Συμπιεσμένου Τηλεοπτικού σήματος HDTV... 57 3.2.2.1 Ενθυλάκωση MPEG-2 Ροής Μεταγωγής και Ροής Προγράμματος... 59 3.2.2.2 Ενθυλάκωση των Στοιχειωδών Ροών MPEG-2... 60 7

3.3 Το πρωτόκολλο ελέγχου RTCP... 68 3.3.1 Τύποι πακέτων RTCP... 69 3.3.1.1 RTCP Αναφορές Παραλήπτη (RR)... 70 3.3.1.2 RTCP - Αναφορές αποστολέα (SR)... 73 3.3.1.3 RTCP Περιγραφή πηγής (SDES)... 74 3.3.1.4 RTCP Έλεγχος μελών (BYE)... 77 3.3.1.5 RTCP Πακέτα ορισμένα από την εφαρμογή (APP)... 77 3.4 ΕμπροσθόδοτηΔιόρθωσηΣφαλμάτων (Forward Error Correction FEC)... 78 4 Δικτυακή διασύνδεση... 88 4.1 Τεχνολογίες Οπτικής Μετάδοσης Δεδομένων... 88 4.2 Μορφές μετάδοσης δεδομένων σε δίκτυα... 90 4.2.1 Μετάδοση Unicast... 91 4.2.1.1 Εσωτερικά Πρωτόκολλα Πύλης Δικτύου... 91 4.2.1.2 Εξωτερικά πρωτόκολλα Πύλης Δικτύου... 93 4.2.2 Μετάδοση Multicast... 94 4.2.2.1 Το πρωτόκολλο διαχείρισης IGMP... 95 4.2.2.2 Intra-domain πρωτόκολλα δρομολόγησης... 96 4.2.2.3 Inter-domain πρωτόκολλα δρομολόγησης... 100 4.2.3 Μετάδοση multicast μέσω του δικτύου ΕΔΕΤ... 107 4.2.3.1 Το δίκτυο ΕΔΕΤ... 107 4.2.3.2 Multicast μετάδοση στο ΕΔΕΤ... 108 5 Το λογισμικό VLCMediaPlayer... 113 5.1 Ιστορία του VLC... 113 5.2 Γενικά χαρακτηριστικά... 114 5.3 Αρχιτεκτονική του VLC... 115 5.4 Χρήση του VLC για τη μετάδοση του Φεστιβάλ Ντοκιμαντέρ... 117 5.4.1 Εφαρμογή λήψης Multicast μετάδοσης... 118 5.4.2 Εφαρμογή λήψης Unicast μετάδοσης... 119 6 Το εγχείρημα της ζωντανής ευρυζωνικής μετάδοσης... 120 6.1 Αρχιτεκτονική του συστήματος μετάδοσης - λήψης... 122 6.2 Αναλυτική περιγραφή του εγχειρήματος της μετάδοσης... 124 6.2.1 Προπαραγωγή... 125 6.2.1.1 Ομάδα παραγωγής... 125 8

6.2.1.2 Προετοιμασία... 125 6.2.2 Τα στάδια της παραγωγής και μετάδοσης... 126 6.2.2.1 Πηγές εικόνας & ήχου... 126 6.2.2.2 Επεξεργασία και μίξη οπτικοακουστικών πηγών... 127 6.2.2.3 Κωδικοποίηση... 128 6.2.2.4 Δημιουργία πακέτων μετάδοσης και αποστολή... 128 6.2.2.5 Προεπισκόπηση της ροής μετάδοσης... 129 6.2.2.6 Επικοινωνία με τους δέκτες υποβολή ερωτήσεων απομακρυσμένων θεατών 130 6.2.3 Σύστημα λήψης και αναπαραγωγής... 133 Παράρτημα Α Αναλυτικά στοιχεία εξοπλισμού... 136 A.1 Κάμερες... 136 A.2 Μονάδα αποθήκευσης οπτικοακουστικού υλικού... 136 A.3 Κονσόλα Μίξης της Εικόνας... 137 A.4 Κονσόλα Μίξης Πολυκάναλου Ήχου... 140 Α.5 A/D μετατροπέας... 140 Α.6 Συσκευή Ενσωμάτωσης Ήχου και Εικόνας (Embedder)... 141 Α.7 Κωδικοποιητής... 141 Α.7.1 Χαρακτηριστικά... 142 Α.7.2 Ρυθμίσεις και δυνατότητες... 147 Α.8 Μεταγωγέας (Cisco 3750)... 154 Βιβλιογραφία... 156 9

1 Ψηφιακό Βίντεο και ήχος [1] [2] 1.1 Ψηφιοποίηση αναλογικού σήματος Το αναλογικό σήμα που συλλαμβάνεται από τον φυσικό κόσμο μετατρέπεται σε ψηφιακή μορφή μέσω της διαδικασίας της ψηφιοποίησης. Αυτή η μετατροπή είναι απαραίτητη, έτσι ώστε οι ψηφιακές συσκευές να μπορέσουν να επεξεργαστούν, να αποθηκεύσουν και να μεταφέρουν αναλογικές τιμές των σημάτων. Η ψηφιοποίηση περιλαμβάνει δύο διαφορετικές διαδικασίες. Το αναλογικό σήμα δειγματοληπτείται (χρονικά ή χωρικά) και κβαντίζεται. Οι δύο αυτές διαδικασίες μπορούν να λάβουν χώρα σε οποιαδήποτε σειρά αν και συνήθως η δειγματοληψία προηγείται της κβάντισης. Κατά τη δειγματοληψία,μια συνεχής συνάρτηση του χρόνου, όπως είναι ένα ηχητικό σήμα, δειγματοληπτείται κρατώντας ένα σύνολο διακριτών τιμών κάθε μία από τις οποίες είναι συνάρτηση της κατανομής της έντασης σε ένα μικρό χρονικό διάστημα. Μια συνεχής συνάρτηση δύο διαστάσεων, όπως η εικόνα, δειγματοληπτείται αντιστοιχίζοντας σε κάθε στοιχείο του πλέγματος υπό δειγματοληψία μία τιμή που είναι συνάρτηση της κατανομής της έντασης σε μία μικρή περιοχή του χώρου. Το σήμα, το πλάτος του οποίου παίρνει συνεχείς τιμές, κβαντίζεται χωρίζοντας το εύρος των τιμών του πλάτους σε διαστήματα. Εν συνεχεία σε καθένα από αυτά τα διαστήματα εκχωρείται ένα διακριτό, αριθμημένο επίπεδο. Πλεονεκτήματα ψηφιακής αναπαράστασης Το μεγαλύτερο πλεονέκτημα της ψηφιακής αναπαράστασης είναι η ομοιομορφία. Όλα τα είδη πληροφορίας μπορούν να έρθουν σε ψηφιακή μορφή και να αντιμετωπισθούν με τον ίδιο τρόπο και από το ίδιο υλικό (ίδια μέσα αποθήκευσης, ίδια δίκτυα. 10

Η μετάδοση ψηφιακών σημάτων αντί για αναλογικά έχει πολλά ακόμα πλεονεκτήματα πέραν της ολοκλήρωσης. Είναι λιγότερο ευαίσθητη στον θόρυβο, η διαδικασία αναγέννησης του μεταδιδόμενου σήματος είναι πιο εύκολη, μπορεί να υλοποιηθεί διαδικασία ανίχνευσης και διόρθωσης λαθών και, τέλος, η κρυπτογράφηση της πληροφορίας είναι επίσης πιο εύκολη. Η πληροφορία που βρίσκεται αποθηκευμένη στον υπολογιστή μπορεί να χρησιμοποιηθεί με διάφορους τρόπους: Να υποστεί επεξεργασία με στόχο την ανάλυση της σημασιολογίας της ή την βελτίωση της ποιότητας της. Να δημιουργηθούν δομές δεδομένων που επιταχύνουν και διευκολύνουν την αναζήτηση. Να χρησιμοποιηθεί εύκολα για την δημιουργία νέων πολυμεσικών εγγράφων. Μειονεκτήματα της Ψηφιακής Αναπαράστασης Το κύριο μειονέκτημα της ψηφιακής αναπαράστασης συνεχών μέσων είναι η παραμόρφωση που εισάγει η διαδικασία δειγματοληψίας και κβαντοποίησης. Αφενός, αγνοώντας κάποιες τιμές του αναλογικού σήματος χάνουμε πληροφορία και αφετέρου, η προσέγγιση της πραγματικής τιμής του σήματος με μια από τις διαθέσιμες στάθμες περιέχει πάντοτε κάποιο ποσοστό λάθους. Αυτή η παραμόρφωση ελαττώνεται όσο αυξάνεται η συχνότητα δειγματοληψίας και το μήκος της λέξης. Τότε όμως αυξάνεται και ο όγκος που καταλαμβάνει η πληροφορία και κατά συνέπεια απαιτούνται μεγαλύτερα αποθηκευτικά μέσα, πιο γρήγορα μέσα μετάδοσης και ταχύτερες μονάδες επεξεργασίας. Η σημερινή τεχνολογία και οι προβλέψεις για το μέλλον δείχνουν ότι αυτό το μειονέκτημα θα ξεπεραστεί ακόμα και για τους πιο απαιτητικούς τύπους πληροφορίας. 11

1.2 Ψηφιακό βίντεο 1.2.1 Βασικά χαρακτηριστικά ψηφιακού βίντεο [3][4][5][6] Λόγος διαστάσεων εικόνας Η αναλογία της οριζόντιας και της κάθετης διάστασης του καρέ ενός βίντεο ονομάζεται λόγος διαστάσεων εικόνας (aspectratio). Ο λόγος διαστάσεων είναι ανεξάρτητος από το απόλυτο μέγεθος ή την ανάλυση της εικόνας. Ο λόγος διαστάσεων μπορεί να εκφραστεί ως απόλυτη διάσταση (4x3), αναλογία (4:3), κλάσμα (4/3) ή ως δεκαδικός ισοδύναμος της αναλογίας (1,33). Εικόνα 1.1.1 Τυπικοί λόγοι διαστάσεων εικόνας Γραμμές και ανάλυση εικόνας Ένα βίντεο καρέ συγκροτείται από γραμμές. Περισσότερες γραμμές ανά καρέ, έχει σαν αποτέλεσμα μεγαλύτερη ανάλυση της εικόνας. Η ανάλυση πιο 12

συγκεκριμένα αναφέρεται στον αριθμό των εικονοστοιχείων που απαρτίζουν την εικόνα και έχει τη μορφή χxψ. Ο πρώτος αριθμός αντιπροσωπεύει την οριζόντια και ο δεύτερος την κατακόρυφη ανάλυση του κάδρου. Έτσι για παράδειγμα μια εικόνα με ανάλυση 1920x1080 έχει 1920 εικονοστοιχεία ανά γραμμή και 1080 εικονοστοιχεία ανά στήλη (συνολικά 2.073.600 εικονοστοιχεία). Τα πρότυπα Υψηλής Ευκρίνειας (HighDefinition) υπερτερούν των προτύπων Standard Definition καθώς όπως φανερώνει και το όνομά τους έχουν μεγαλύτερη ανάλυση. Για παράδειγμα το τηλεοπτικό πρότυπο PAL χρησιμοποιεί 576 γραμμές ενώ ένα τυπικό φορμά HighDefinition 1080 γραμμές (1920x1080). Λόγος διαστάσεων εικονοστοιχείου Το pixel συνήθως παραπέμπει σε φυσικό εικονοστοιχείο σε οθόνη βίντεο που εκπέμπει φως. Αλλά το pixel είναι επίσης ένας όρος για το δείγμα της έντασης του φωτός, ένας συνδυασμός των δεδομένων για αποθήκευση μίας τιμής χρωματικότητας και φωτεινότητας. Όταν αποθηκεύεται στην ταινία ή σε κάποιο μέσο αποθήκευσης, η ένταση του pixel δεν έχει έμφυτο σχήμα, ύφος ή πλάτος, αλλά είναι απλώς μία τιμή δεδομένων. Για παράδειγμα, ένα pixel μπορεί να έχει τιμή 255, ενώ ένα άλλο 150. Η τιμή του pixel ορίζει την ένταση του αντίστοιχου σημείου στην οθόνη. Η μαθηματική σχέση που περιγράφει το οριζόντιο μήκος ενός pixel σε σύγκριση με το ύψος του ονομάζεται PixelAspectRatio (PAR). Τα περισσότερα σύγχρονα συστήματα απεικόνισης περιγράφουν μια εικόνα ως ένα πλέγμα πολύ πυκνό αλλά με τετράγωνα εικονοστοιχεία. Ωστόσο, ορισμένα συστήματα απεικόνισης, ειδικά εκείνα που πρέπει να διατηρήσουν τη συμβατότητα με το αναλογικό πρότυπο ευκρίνειας, ορίζουν την εικόνα ως πλέγμα με ορθογώνια εικονοστοιχεία, στα οποία το πλάτος είναι διαφορετικό από το ύψος. Το ποσοστό αυτό, δηλώνεται με τον όρο PixelAspectRatio. 13

Σάρωση Μία τηλεοπτική εικόνα αποτελείται από παράλληλες οριζόντιες γραμμές που σαρώνονται από την μία πλευρά στην άλλη. Η σάρωση μπορεί να είναι είτε προοδευτική (Progressivescanning) είτε πεπλεγμένη (InterlacedScanning). Κατά την Πεπλεγμένη Σάρωση, η εικόνα σαρώνεται πρώτα κατά τις περιττές γραμμές και έπειτα επιστρέφοντας στην κορυφή της εικόνας σαρώνονται οι άρτιες γραμμές. Η εικόνα που δημιουργείται με την σάρωση των περιττών ή των άρτιων γραμμών ονομάζεται πεδίο (field). Με την πλήρη σάρωση των περιττών και των άρτιων γραμμών σχηματίζεται ένα πλαίσιο (frame). Κάθε πλαίσιο δηλαδή αποτελείται από τα δύο πεδία. Ο λόγος που χρησιμοποιείται η προοδευτική σάρωση είναι ότι το μέγεθος της απαιτούμενης πληροφορίας που χρειάζεται να μεταδοθεί, μειώνεται στο μισό. Εικόνα 1.1.2 Πεπλεγμένη Σάρωση Κατά την Προοδευτική Σάρωση κάθε γραμμή σαρώνεται διαδοχικά με κατεύθυνση από πάνω προς τα κάτω και από αριστερά προς τα δεξιά. Η προοδευτική σάρωση πλεονεκτεί σε ποιότητα σε σχέση με την πεπλεγμένη αλλά απαιτεί τη μετάδοση διπλάσιου όγκου πληροφορίας. 14

. Εικόνα 1.1.3 Προοδευτική Σάρωση εικόνας Ρυθμός καρέ Ως γνωστόν με τον όρο καρέ εννοούμε μία μεμονωμένη εικόνα από αυτές που απαρτίζουν το βίντεο. Ο ρυθμός σύλληψης των καρέ αντιστοιχεί λοιπόν στον αριθμό των μεμονωμένων εικόνων που μια κάμερα συλλαμβάνει ανά δευτερόλεπτο ή αντίστοιχα αναπαράγει μία συσκευή αναπαραγωγής βίντεο. Ο ρυθμός καρέ μετριέται σε fps (framespersecond) ή Hz. Αν ο αριθμός είναι αρκετά υψηλός, τότε η κίνηση της εικόνας φαίνεται ομαλή στο ανθρώπινο μάτι. Συνηθισμένοι ρυθμοί καρέ είναι τα 29.97, 59.94 και 24 fps. Τον ρυθμό αυτό πολλές σύγχρονες συσκευές προβολής μπορούν να τον πολλαπλασιάσουν ψηφιακά για ακόμη ομαλότερη κίνηση. Όσο μεγαλύτερος ο ρυθμός καρέ, τόσο μεγαλύτερη είναι και η πυκνότητα δεδομένων, κατ επέκταση τόσο μεγαλύτερο και το αρχείο βίντεο που δημιουργείται ή το εύρος ζώνης που απαιτείται για τη μετάδοσή του. Για τον λόγο αυτό ο ρυθμός καρέ συχνά αναφέρεται και ως «χρονική ανάλυση». Κωδικοποίηση χρώματος Τα σήματα βίντεο χωρίζονται σε διάφορα κανάλια-συνιστώσες για εγγραφή και μετάδοση. Υπάρχουν διαφορετικές μέθοδοι που χωρίζεται το χρωματικό κανάλι και αυτό εξαρτάται από το βίντεο φορμά. Η εξέλιξη της τεχνολογίας οδήγησε στην ανάπτυξη και χρήση τριών βασικών σχημάτων κωδικοποίησης: 15

Component Y/C Composite Ένα Componentσήμα μεταφέρει 3 διαφορετικές συνιστώσες για κάθε χρώμα RGB (Red, Green, Blue), με βάση τις οποίες αναπαράγει την πληροφορία της έγχρωμης εικόνας στο δέκτη. Το RGB: είναι το φυσικό (native) φορμά για τους περισσότερους υπολογιστές που επεξεργάζονται γραφικά και αρχεία βίντεο. Επίσης, αυτό το σήμα χρησιμοποιείται στις παραδοσιακές CRT αλλά και επίπεδες (flatpanel) οθόνες. Με βάση το κόκκινο, πράσινο και μπλε σήμα μπορεί να αποδοθεί κάθε συνδυασμός κάθε χρώματος, καθώς και γκρι αναπαράστασης εικόνας από μαύρο (όχι σήμα σε οποιοδήποτε κανάλι) σε άσπρο (πλήρης σήμα σε κάθε κανάλι). Τα RGB σήματα δεν έχουν χωριστό luma κανάλι, γιατί σήματα μαύρο-άσπρο μπορούν να αναπαρασταθούν από ίσο σύνολο των R, G και B σημάτων. ToComponent YUV ή Y C C είναι άλλη μια κωδικοποίηση τύπου B R: component που χρησιμοποιεί τις εξής χρωματικές συνιστώσες: Y- φωτεινότητα, U-πληροφορία χρώματος B-Y, V-πληροφορία χρώματος R- Y. Ο όρος YUV χρησιμοποιήθηκε για αναλογική κωδικοποίηση του χρώματος στην τηλεόραση, ενώ ο όρος Y C C χρησιμοποιήθηκε για την B R ψηφιακή κωδικοποίηση των πληροφοριών χρώματος κατάλληλο ακόμη και για συμπίεση εικόνας και μετάδοση, όπως MPEG και JPEG. Σήμερα, ο όρος YUV χρησιμοποιείται ευρέως στη βιομηχανία των υπολογιστών για να περιγράψει μορφές αρχείων που έχουν κωδικοποιηθεί με χρήση Y C C.9 B R Ο τύπος σήματος Y/C μεταφέρει δύο συνιστώσες: τη Y- φωτεινότητα και την C- χρωματικότητα. Το σήμα χρώματος C προκύπτει συνθέτοντας τα δύο σήματα U & V. Καμιά φορά αναφέρεται λανθασμένα και ως S-Video10. 16

Το σήμα Composite δημιουργήθηκε για να χρησιμοποιηθεί στην τηλεόραση με στόχο να προσφέρει μεγαλύτερη συμπίεση έγχρωμου σήματος. Είναι μια σύνθετη πηγή τριών σημάτων Y, U και V με παλμούς συγχρονισμού. Τα σήματα Luma (Y) και Chroma (U και V) συνδυάζονται σε ένα σήμα βίντεο Composite για εκπομπή. Το σήμαluma αντιπροσωπεύει τη φωτεινότητα (luminance), ενώ το σήμα Chroma αντιπροσωπεύει την χρωματικότητα. Σήμερα, σχεδόν όλα τα ψηφιακά βίντεο φορμά είναι Component(Y C C ).Χαρακτηριστικά, οι υπολογιστές αποθηκεύουν B R πληροφορία εικόνας χρησιμοποιώντας RGB, αν και πολλά Component (Y C C ) φορμά, μπορούν τώρα να είναι η φυσική εξέλιξη στον υπολογιστή B R (όπως το DV). 1.2.2 Τηλεοπτικά πρότυπα SDTV [7][8] Τα τρία βασικά τηλεοπτικά πρότυπα είναι το NTSC, το PAL και το SECAM. Τα συστήματα αυτά δημιουργήθηκαν ως εναλλακτικές μέθοδοι κωδικοποίησης της τηλεοπτικής πληροφορίας και λόγω των διαφορών τους είναι μεταξύ τους ασύμβατα. 1.2.2.1 Το πρότυπο NTSC ΤοNTSC (NationalTelevisionSystemsCommittee) είναιτοπρώτοπρότυποπουεμφανίστηκε (1953) και χρησιμοποιείται σήμερα σε πολλές πολιτείες της αμερικάνικης ηπείρου αλλά και σε πολλές ασιατικές χώρες συμπεριλαμβανόμενης της Ιαπωνίας. Στο συγκεκριμένο σύστημα, που διαφοροποιείται από τα υπόλοιπα, χρησιμοποιεί 525 γραμμές σάρωσης και συχνότητα 30 εικόνων/sec. Όπως και στα άλλα δύο πρότυπα, έτσι και εδώ έχουμε τρία σήματα τα οποία πρέπει να διαμορφωθούν και να αποσταλούν, το σήμα φωτεινότητας (Υ), και οι διαφορές του μπλε και του κόκκινου από αυτό (Β-Υ και R-Υ αντίστοιχα). Η επιλογή αυτή έχει γίνει για να έχουμε όμοια επίπεδα ισχύος στα τρία σήματα ώστε η επεξεργασία τους να γίνεται με όμοιο τρόπο. Στην περίπτωση του NTSC,λοιπόν, έχουμε τη διαμόρφωση των 17

χρωματοδιαφορών ώστε τελικά να παράγεται ένα σήμα. Το νέο σήμα μαζί με το σήμα φωτεινότητας υφίστανται μαζί μία νέα διαμόρφωση ώστε να παραχθεί το τελικό σύνθετο σήμα. Τα βασικά του χαρακτηριστικά αναφέρονται στον παρακάτω πίνακα: Σύστημα NTSC Γραμμές ανά πεδίο (Lines / Field) 525/60 Οριζόντια συχνότητα (Horizontal Frequency) 15.734 khz Κατακόρυφη συχνότητα (Vertical Frequency) 60 Hz Συχνότητα χρωματικού φέροντος (Color Sub Carrier 3.579545 mhz Frequency) Εύρος ζώνης βίντεο (VideoBandwidth) 4.2 mhz Συχνότητα ηχητικού φέροντος ( SoundCarrier) 4.5 mhz Πίνακας 1.1 Χαρακτηριστικά προτύπου NTSC Το πρόβλημα που εμφανίστηκε στο NTSCείναι ότι ο θόρυβος που επικάθεται στο σήμα κατά τη διαδικασία διαμόρφωσης μετάδοσης αποδιαμόρφωσης έχει ως αποτέλεσμα την αλλοίωση των χρωμάτων. Τελικά σε ένα τέτοιο σύστημα, λόγω της τυχαιότητας του θορύβου υπάρχει αβεβαιότητα για το χρώμα. 1.2.2.2 Το πρότυπο PAL Το PAL (PhaseAlternativeLine)αναπτύχθηκε στην Ευρώπη το 1967.Ο αριθμός των γραμμών σάρωσης που χρησιμοποιεί είναι 625 και η συχνότητα ανανέωσης της εικόνας είναι 25 πλαίσια ανά δευτερόλεπτο (50 πεδία ανά δευτερόλεπτο). Μια σημαντική διαφορά που υπάρχει με το σύστημα NTSCείναι ότι διαθέτει μια διαδικασία αυτόματης διόρθωσης του σφάλματος του χρώματος λόγω θορύβου. Στην πράξη κάθε σειρά υφίσταται διαμόρφωση με διαφορά φάσης 180 ο από την προηγούμενη. Έτσι ο προσθετικός θόρυβος επηρεάζει τα χρώματα δύο συνεχόμενων σειρών με διαφορετικό τρόπο, τέτοιο ώστε ο τελικός μέσος όρος είναι περίπου το αρχικό σήμα. Το μάτι, λοιπόν, βλέπει το συνολικό αποτέλεσμα που είναι αισθητά πιο κοντά στο πραγματικό από ότι στην περίπτωση του NTSC. 18

Τα βασικά του χαρακτηριστικά φαίνονται στον παρακάτω πίνακα: Σύστημα PAL B,G,H Γραμμές ανά πεδίο (Lines / Field) 625/50 Οριζόντια συχνότητα (Horizontal Frequency) 15.625 khz Κατακόρυφη συχνότητα (Vertical Frequency) 50 Hz Συχνότητα χρωματικού φέροντος (Color Sub Carrier 4.433618 MHz Frequency) Εύρος ζώνης βίντεο (VideoBandwidth) 5.0 MHz Πίνακας 1.1.1Χαρακτηριστικά προτύπου PAL 1.2.2.3 Το πρότυπο SECAM Το SECAMεμφανίστηκε παράλληλα με το PALκαι χρησιμοποιήθηκε κυρίως στη Γαλλία και στη Σοβιετική Ένωση. Χρησιμοποιεί τον ίδιο αριθμό γραμμών σάρωσης και την ίδια συχνότητα ανανέωσης. Το SECAMβασίστηκε σε μια διαφορετική φιλοσοφία κατά την οποία εκτός από το σήμα φωτεινότητας αποστέλλονται και τα δύο σήματα χρωματικότητας ξεχωριστά και διαδοχικά (SequencedeCouleurAvecMemoire). Κατά συνέπεια το ένα χρώμα φτάνει πάντα με μία καθυστέρηση που αντισταθμίζεται από ειδικά κυκλώματα. Φυσικά, για να διατηρηθεί ο ίδιος ρυθμός σάρωσης και το ίδιο εύρος ζώνης συχνοτήτων για μετάδοση, το ίδιο σήμα χρωματικότητας χρησιμοποιείται για δύο σειρές αντί για μία, διαφορά πάντως που δεν γίνεται ιδιαίτερα αντιληπτή από το ανθρώπινο μάτι. Για την καλύτερη μετάδοση του σήματος χρησιμοποιήθηκε διαμόρφωση συχνότητας (FM) που είναι ανθεκτικότερη στο θόρυβο. Έτσι, όμως, δημιουργήθηκε ένα νέο πρόβλημα λόγω του περιορισμένου φάσματος που χρησιμοποιείται για τη μετάδοση ενός σήματος με θεωρητικά άπειρο φάσμα (σήμα FM). Τα βασικά του χαρακτηριστικά φαίνονται στον παρακάτω πίνακα: Σύστημα SECAM B,G,H Γραμμές ανά πεδίο (Lines / Field) 625/50 Οριζόντια συχνότητα (Horizontal Frequency) 15.625 khz Κατακόρυφη συχνότητα (Vertical Frequency) 50 Hz Εύρος ζώνης βίντεο (VideoBandwidth) Συχνότητα ηχητικού φέροντος ( SoundCarrier) 5.0 MHz Πίνακας 1.3 Χαρακτηριστικά προτύπου SECAM 19

1.2.3 Πρότυπα HDTV ToHDTV αποτελεί το σύγχρονο πρότυπο ψηφιακής τηλεοπτικής μετάδοσης και χρησιμοποιείται από τα ψηφιακά τηλεοπτικά συστήματα ATSC (Αμερική) και DVB (Ευρώπη). Έχουν ορισθεί διάφορα πρότυπα για το HDTV που διαφοροποιούνται ως προς την ποιότητα της ανάλυσης (1080 ή 720 γραμμές), τον τρόπο σάρωσης της εικόνας και τον αριθμό των πλαισίων που σαρώνονται ανά δευτερόλεπτο. Στον παρακάτω πίνακα παρουσιάζονται τα κύρια HDformats και τα χαρακτηριστικά τους: Λόγος πλευρών Ανάλυση εικόνας Σάρωση Ρυθμός καρέ 720p 16x9 1280x720 Προοδευτική 23.976, 29.97, 59.94 1080i 16x9 1920x1080 Πεπλεγμένη 29.97, 59.94 1080p 16x9 1920x1080 Προοδευτική 23.976, 24, 25p, 29.97, 59.94 Πίνακας 1.1.2 Κύρια HD πρότυπα Pixel/καρέ 921,600 2,073,600 2,073,600 20

1.3 Ψηφιακός ήχος [6] 1.3.1 Ψηφιοποίηση ηχητικού σήματος Όπως έχει προαναφερθεί η διαδικασία ψηφιοποίησης ενός ηχητικού σήματος περιλαμβάνει τα στάδια της δειγματοληψίας και της κβάντωσης. Οι τυποποιημένες τιμές συχνότητας δειγματοληψίας για ένα αρχείο ήχου μπορεί να είναι 48 khz, 44.1 khz και 11.025 khz. Οι συχνότητες αυτές προκύπτουν από το θεώρημα του Nyquist σύμφωνα με το οποίο η μέγιστη συχνότητα αναλογικού σήματος που μπορεί να αποδοθεί χωρίς αλλοίωση ή παραποίηση είναι το μισό της συχνότητας δειγματοληψίας. Η μεγαλύτερη συχνότητα που μπορεί να γίνει αντιληπτή από το αισθητήριο της ακοής είναι τα 20 khz, οπότε ο νόμος του Nyquist καλύπτεται για τις συχνότητες δειγματοληψίας 48 khz και 44.1 khz. Η συχνότητα δειγματοληψίας των 11.025 khz αφορά την ψηφιοποίηση ομιλίας καθώς η συχνότητα της οξύτερης φωνής δεν ξεπερνά τα 10 khz. Για την κβάντωση των ηχητικών σημάτων χρησιμοποιούνται 8 bit, 16 bit ή 24 bit. Προκύπτουν συνεπώς διάφορα επίπεδα δειγμάτων και διαφορετική ακρίβεια. Το τελικό ψηφιακό σήμα δημιουργείται εφαρμόζοντας μία από τις υπάρχουσες τεχνικές κωδικοποίησης. 1.3.2 Κωδικοποίηση PCM Η κωδικοποίηση PCM αποτελεί μία από τις απλούστερες και πιο ευρέως διαδεδομένες μεθόδους κωδικοποίησης ήχου. Στην PCM το πλήθος των σταθμών κβάντωσης κατανέμεται εξίσου σε όλος το εύρος των τιμών του σήματος. Πρόκειται δηλαδή για μία μέθοδος γραμμικής ομοιόμορφης κωδικοποίησης. Η PCM αποτελεί μία μη συμπιεσμένη μορφή κωδικοποίησης ήχου γεγονός που αυξάνει πολύ το μέγεθος των παραγόμενων ψηφιακών αρχείων. Το γεγονός αυτόοδήγησε στην ανάπτυξη μορφών PCM όπως ημulawpcm και η A-lawPCM οι οποίες χρησιμοποιούν λογαριθμική κωδικοποίηση, γεγονός που επιτρέπει την αντιστοίχηση περισσότερων πληροφοριών στις χαμηλές περιοχές συχνοτήτων και λιγότερων στις υψηλές 21

επιτυγχάνοντας έναν καλό βαθμό συμπίεσης. Ο λόγος που προτιμάται η λογαριθμική κωδικοποίηση σε σχέση με τη γραμμική είναι γιατί επιτυγχάνει να εξομοιώνει καλύτερα τον τρόπο με τον οποίο τα ανθρώπινο αυτί αντιλαμβάνεται τον ήχο. Χρησιμοποιώντας 8 bits λογαριθμική κωδικοποίηση καλύπτεται το ίδιο εύρος τιμών με 14 bits γραμμική κωδικοποίηση 22

2 Πρότυπα συμπίεσης ήχου και εικόνας [2] [9] 2.1 Το πρότυπο συμπίεσης MPEG Τα αρχικά MPEG προέρχονται από τις λέξεις Moving Picture ExpertsGroup (Ομάδα Ειδικών στην Κινούμενη Εικόνα). Πρόκειται για μία επιτροπή που δρα στα πλαίσια του Διεθνούς Οργανισμού τυποποίησης. Επίσημα είναι γνωστή σαν ISO/IEC JTC1/SC29/WG11. Ιδρύθηκε το 1988 και είναι μέλος του JTC1 (Joint ISO/IEC TechnicalCommitteeonInformationTechnology - Ενωμένη Τεχνική επιτροπή ΙSO/IEC στην Τεχνολογία της Πληροφορικής). Το όνομα MPEG έχει επικρατήσει όμως να αναφέρεται και στην οικογένεια των τυποποιήσεων (standards) που δημιουργήθηκαν από την ομάδα MPEG και χρησιμοποιούνται για τη μετάδοση οπτικών και ηχητικώνκαι άλλων τύπων δεδομένων σε ψηφιακή συμπιεσμένη μορφή. Η οικογένεια MPEG περιλαμβάνει τα standards MPEG-1, MPEG-2, MPEG-4, MPEG-7, MPEG-21. Πιοαναλυτικά : MPEG-1 - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s Αναπτύχθηκε για την αποθήκευση και ανάκτηση κινούμενης εικόνας και ήχου σε ψηφιακά μέσα με ρυθμό μετάδοσης μέχρι 1,5 Μbits/sec. H εικόνα έχει ανάλυση 352x240 pixels (NTSC) ή 352x288 pixels (PAL) και η ποιότητά της είναι σε επίπεδα VHS video. Χρησιμοποιείται κυρίως για την αποθήκευση video σε CD-ROM, Video-CD και CD-i και όπου αλλού χρειάζεται μικρό (σε σχέση με το MPEG-2) bandwidth. To MPEG-1 μπορεί να χρησιμοποιηθεί σε εφαρμογές με ρυθμό μετάδοσης 4-5 Mbits/sec, αλλά τα αποτελέσματα δεν είναι τόσο καλά, όσο στην κανονική περιοχή λειτουργίας του. 23

MPEG-2 - Generic coding of moving pictures and associated audio information Αναπτύχτηκε για εφαρμογή στην ψηφιακή τηλεόραση. H βασική ανάλυση της εικόνας ακολουθεί το τηλεοπτικό πρότυπο CCIR-601 (broadcastquality - ποιότητα εκπομπής) δηλαδή 704x480 pixels (NTSC) ή 704x576 pixels (PAL) και υποστηρίζει εικόνα πλεκτής σάρωσης (interlaced). Ο ρυθμός μετάδοσης κυμαίνεται από 3 ως 10 Mbits/sec. Οι εφαρμογές του είναι στην καλωδιακή τηλεόραση (CableTV), στη δορυφορική (DirectBroadcastingSatellite TV) αλλά αναμένεται να επεκταθεί και στην επίγεια τηλεόραση. Επίσης χρησιμοποιείται στην αποθήκευση κινηματογραφικών ταινιών στα DVD (DigitalVideoDisk). MPEG-4 - Coding of audio-visual objects Ο όρος audio visualobjects (AV-objects) είναι γενικός και σημαίνει διάφορες οντότητες που απαρτίζουν την εικόνα και οι οποίες μπορούν κωδικοποιητής και αποκωδικοποιητής να χειρισθούν αυτόνομα και ανεξάρτητα από τις υπόλοιπες. Με τον όρο οντότητες πάλι εννοούμε σχήματα και ήχους, φυσικούς ή computergenerated που χρησιμοποιούνται για να αναπαραστήσουν άλλα ομοειδή αντικείμενα. Είναι ένα πρότυπο για εφαρμογές επικοινωνίας πολυμέσων (multimediacomunications) δηλαδή εφαρμογές όπως video-phone, video-conference, video e-mail, electronicnews και πολλές άλλες. Η ανάλυση της εικόνας είναι 176x144 pixels σε σχετικά χαμηλούς ρυθμούς μετάδοσης που κυμαίνονται ανάμεσα στα 4.8 και 64 Κbits/sec, κατάλληλα δηλαδή για μετάδοση σε δίκτυα με μικρό διαθέσιμο εύρος ζώνης ανά συνδρομητή, όπως το Internet. MPEG-7- MultimediaContentDescriptionInterface Δημιουργήθηκε για να αποτελέσει ένα πρότυπο περιγραφής όλων των ειδών οπτικοακουστικής πληροφορίας, από πρωταρχικά στοιχεία μέχρι ολοκληρωμένες δουλειές, ανεξάρτητα του format στο οποίο είναι κωδικοποιημένα και ανεξάρτητα του μέσου στο οποίο είναι αποθηκευμένα. Αντίθετα με τα προηγούμενα standards, το MPEG-7 παρέχει τα εργαλεία, αντί για τη συμπίεση και αναπαραγωγή των δεδομένων, για την περιγραφή των 24

ίδιων των δεδομένων. Ο όρος πουχρησιμοποιείται σε αυτή την περίπτωση είναι metadata και αποδίδει ακριβώς αυτάτα δεδομένα(meta-data) που χρησιμοποιούνται για περιγραφή των data πουαποτελούν τα ωφέλιμα δεδομένα για αναπαραγωγή. MPEG-21- MultimediaFramework ΤοMPEG -21 διαφέρει σημαντικά με τα προηγούμενα πρότυπα MPEG, καθώς δεν αναφέρεται στην κωδικοποίηση του περιεχομένου όπως τα MPEG 1-2-4, ούτε και στη σημασιολογική περιγραφή του, όπως το MPEG-7, αλλά έρχεται να ενοποιήσει τα πριν από αυτό πρότυπα, ορίζοντας αρχικά ένα πλαίσιο για τη συνεργασία των άλλων προτύπων και έπειτα καλύπτοντας οποιαδήποτε άλλα κενά προκύπτουν στην αλυσίδα της μετάδοσης multimedia από έναν χρήστη σε έναν άλλο. Σε γενικές γραμμές το MPEG-1 έχει αντικατασταθεί από το MPEG-2 το οποίο είναι μια βελτίωση του, που προσφέρει καλύτερη εικόνα και λόγους συμπίεσης και είναι συμβατό με το MPEG-1 (backwardscompatible). Αυτό σημαίνει ότι συσκευές MPEG-2 μπορούν να χειριστούν σήματα συμπιεσμένα με MPEG-1 (αλλά όχι το αντίστροφο). Ενδιάμεσα υπήρξε και το MPEG-3 το οποίο ήταν προσανατολισμένο στην τεχνολογία της Τηλεόραση Υψηλής Ευκρίνειας (HDTV) αλλά εγκαταλείφθηκε αφού διαπιστώθηκε ότι το MPEG-2 μπορεί με κάποιες αλλαγές στη σύνταξη των προδιαγραφών να χρησιμοποιηθεί το ίδιο καλά στην HDTV. Έτσι η δουλειά που είχε γίνει πάνω στο MPEG-3 ενσωματώθηκε στο MPEG-2. 25

[2] [10] 2.1.1 Βασικές αρχές συμπίεσης κατά MPEG-2 Γενικά το πρότυπο MPEG δεν προδιαγράφει την διαδικασία κωδικοποίησης απλά ορίζει τη δομή των κωδικοποιημένων bitstream. Ακολουθεί μία περιγραφή των γενικών αρχών και των βημάτων της κωδικοποίησης. Είναι γεγονός, ότι οι εικονοσειρές περιέχουν ένα σημαντικό ποσοστό στατιστικού και υποκειμενικού πλεονασμού μέσα και ανάμεσα στα frames. Ο στόχος της κωδικοποίησης των εικονοσειρών είναι η μείωση του ρυθμού μετάδοσης των bit που απαιτούνται για την αποθήκευση και την μετάδοσή τους διερευνώντας τόσο τον στατιστικό όσο και τον υποκειμενικό πλεονασμό και κωδικοποιώντας ένα ελάχιστο απαιτούμενο ποσό πληροφορίας χρησιμοποιώντας τεχνικές κωδικοποίησης εντροπίας. Κάτι τέτοιο καταλήγει σε συμπίεση των δεδομένων του κωδικοποιημένου βίντεο σε σχέση με το αρχικό που δεν έχει υποστεί επεξεργασία. Η απόδοση των τεχνικών συμπίεσης βίντεο εξαρτάται από το ποσό του πλεονασμού που περιέχεται στα δεδομένα εικόνων αλλά και από την τεχνική που χρησιμοποιείται για την κωδικοποίηση. Τα πρακτικά σχήματα κωδικοποίησης στοχεύουν σε μία ισορροπία μεταξύ της απόδοσης της κωδικοποίησης (υψηλό επίπεδο συμπίεσης με ικανοποιητική ποιότητα) και της πολυπλοκότητας εκτέλεσης της. Ανάλογα με τις απαιτήσεις της εκάστοτε εφαρμογής μπορεί να εφαρμοστεί απωλεστική (με απώλειες) ή μη-απωλεστική (χωρίς απώλειες) κωδικοποίηση των δεδομένων. Ο στόχος της μη-απωλεστικής κωδικοποίησης είναι η μείωση του όγκου των δεδομένων για την αποθήκευση ή μετάδοση μιας εικόνας ή ενός βίντεο διατηρώντας όμως την ποιότητα του αρχικού αρχείου. Ο στόχος της απωλεστικής κωδικοποίησης, από την άλλη πλευρά, είναι η επίτευξη ενός συγκεκριμένου ρυθμού μετάδοσης για την αποθήκευση και τη μετάδοση. Αυτή η μέθοδος εφαρμόζεται στις τεχνικές κωδικοποίησης κατά MPEG. Οι περισσότερες εφαρμογές απαιτούν μετάδοση video μέσω καναλιών με περιορισμένο εύρος ζώνης ή/και την αποτελεσματική αποθήκευση του video. Σε αυτές τις εφαρμογές επιτυγχάνεται υψηλή συμπίεση του video μέσω της υποβάθμισης της ποιότητας της εικόνας. Η ποιότητα της εικόνας που προκύπτει μετά την αποκωδικοποίηση είναι μειωμένη σε σχέση με αυτήν της αρχικής εικόνας. Όσο χαμηλότερος είναι ο επιθυμητός ρυθμός μετάδοσης, 26

τόσο μεγαλύτερη η συμπίεση των δεδομένων και τόσο πιο εμφανείς οι παραμορφώσεις που προκύπτουν εξαιτίας της κωδικοποίησης. Ο τελικός στόχος των απωλεστικών τεχνικών συμπίεσης είναι η βελτιστοποίηση της ποιότητας της εικόνας (με βάση υποκειμενικά και αντικειμενικά κριτήρια) για ένα δεδομένο ρυθμό μετάδοσης. Οι τεχνικές κωδικοποίησης MPEG είναι από την φύση τους στατιστικές. Οι εικονοσειρές συνήθως περιέχουν στατιστικούς πλεονασμούς, τόσο στη χωρική όσο και στη χρονική διάσταση. Η βασική στατιστική αρχή πάνω στην οποία βασίζονται οι MPEG τεχνικές συμπίεσης είναι η συσχέτιση μεταξύ των pixel σε μια εικόνα του video αλλά και μεταξύ διαδοχικών εικόνων. Έτσι, θεωρείται ότι η τιμή ενός pixel μπορεί να υπολογιστεί από την τιμή των γειτονικών pixel του ίδιουframe (Interframe κωδικοποίηση) χρησιμοποιώντας την ιδιότητα του χωρικού πλεονασμού, ή από pixel γειτονικών frame ( Interframe κωδικοποίηση) χρησιμοποιώντας την ιδιότητα του χρονικού πλεονασμού. Οι MPEG αλγόριθμοι συμπίεσης εφαρμόζουν Διακριτό Συνημιτονικό Μετασχηματισμό (DCT) σε 8x8 τμήματα (block) της εικόνας για να εντοπίσουν τη χωρική συσχέτιση μεταξύ των pixel. Επιπλέον, αν η συσχέτιση μεταξύ των pixel γειτονικών frame είναι μεγάλη, χρησιμοποιούνται Interframe τεχνικές πρόβλεψης της κίνησης μεταξύ των frame. Ουσιαστικά, τα σχήματα κωδικοποίησης MPEG είναι ένας συνδυασμός τεχνικών τμηματικής πρόβλεψης της κίνησης και εφαρμογής Διακριτού Συνημιτονικού Μετασχηματισμού έτσι ώστε να επιτευχθεί η μέγιστη συμπίεση των δεδομένων. Διακριτός συνημιτονικός μετασχηματισμός Ο Διακριτός Συνημιτονικός Μετασχηματισμός (DiscreteCosineTransform) είναι μία μέθοδος που βρίσκει μεγάλη εφαρμογή στην ψηφιακή συμπίεση γενικά αλλά και στο MPEG ειδικότερα. Με το μετασχηματισμό DCT μπορούμε να μεταφέρουμε την πληροφορία που περικλείει η εικόνα από το πεδίο του χώρου στο πεδίο της συχνότητας (αφηρημένο πεδίο), όπου η περιγραφή της μπορεί να γίνει με σημαντικά μικρότερο πλήθος bits, για διάφορους λόγους. 27

Ο μετασχηματισμός DCT ορίζεται ως εξής : Για κάθε pixel (x,y) εφαρμόζοντας τον τύπο : DCT (i,j) = C(i)C (j) ( ) [ ( ) ] [ ( ) ] όπου C(x) = 0.7071, x =0 C(x) = 1, x >0 παίρνουμε την τιμή DCT(i,j) που είναι η τιμή του συντελεστή του μετασχηματισμού στο πεδίο της συχνότητας. Έτσι αντιστοιχίζουμε τις τιμές των pixels στις αντίστοιχες τιμές συντελεστών. Οι συντελεστές αυτοί μεταφέρουν ο καθένας ένα κομμάτι της αρχικής πληροφορίας (αυτό που αντιστοιχεί στο κομμάτι του φάσματος που περιγράφει). Επειδή όμως έχει παρατηρηθεί ότι η ανθρώπινη όραση αντιλαμβάνεται πολύ περισσότερο τα φαινόμενα που σχετίζονται με χαμηλές συχνότητες όπως (π.χ. χρώματα με μικρότερα μήκη κύματος), ενώ δείχνει κάποια ανοσία σε υψίσυχνες περιοχές του σήματος (π.χ. ακμές της εικόνας), οι συντελεστές του μετασχηματισμού που αντιστοιχούν σε χαμηλές συχνότητες έχουν μεγαλύτερη βαρύτητα από αυτούς που περιγράφουν τις υψηλές συχνότητες και για το λόγο αυτό οι πρώτοι περιγράφονται με τη μεγαλύτερη δυνατή ακρίβεια.. Κατά την αναπαραγωγή γίνεται η αντίστροφη διαδικασία με τη βοήθεια του μετασχηματισμού IDCT (InverseDiscreteCosineTransform - Αντίστροφος Διακριτός Μετασχηματισμός Συνημίτονων), που περιγράφεται από τον τύπο: Pixel(x,y) = ( ) ( ) ( ) [ ( ) ] [ ( ) ] Το αποτέλεσμα είναι να πάρουμε πίσω σχεδόν ανέπαφη την αρχική πληροφορία (εκτός από κάποια αναπόφευκτα σφάλματα στρογγυλοποίησης). 28

Τμηματική Πρόβλεψη Κίνησης Η τμηματική πρόβλεψη κίνησης είναι μία διαδικασία με την οποία μπορεί να εκτελεστεί δια-πλαισιακή (Inter-frame) κωδικοποίηση και να περιγραφεί η αλληλουχία εικόνων ως σειρά ομοιοτήτων και διαφορών. Εναλλακτικά από το να κωδικοποιήσουμε ανεξάρτητα τα δύο πλαίσια μπορούμε να περιγράψουμε τη δεύτερη εικόνα με το να τη χωρίσουμε σε ίσα τμήματα και να φτιάξουμε ένα πίνακα που να περιέχει τμήματα που έχουν μείνει ίδια και διανύσματα που να δείχνουν τη νέα θέση των τμημάτων που άλλαξαν θέση. Έτσι αν έχουμε ήδη αποστείλει την πρώτη εικόνα μπορούμε να στείλουμε τη δεύτερη σαν ένα πίνακα 20 διανυσμάτων και ορισμένων σταθερών τμημάτων, που προφανώς έχει πολύ μικρότερο μέγεθος. Το παραπάνω είναι μία καλή προσέγγιση της μεθόδου αλλά στην πραγματικότητα οι πραγματικές εικόνες δεν θα είναι τόσο όμοιες μεταξύ τους όσο η σκακιέρα. Θα έχουν κάποια κοινά τμήματα που αλλάζουν θέση από πλαίσιο σε πλαίσιο αλλά θα υπάρχουν και τμήματα που αλλάζουν θέση διατηρώντας το σχήμα τους αλλά μεταβάλλεται το χρώμα τους, καθώς και άλλα που δεν υπάρχουν σε προηγούμενο πλαίσιο αλλά εμφανίζονται σε κάποιο για πρώτη φορά. Για την κάλυψη αυτών των περιπτώσεων χρησιμοποιείται μία πιο βελτιωμένη εκδοχή της παραπάνω ιδέας (ή για την ακρίβεια διάφορες εκδοχές της παραπάνω ιδέας). Η σύνταξη του MPEG καθορίζει πως θα αναπαρίσταται η πληροφορία για την κίνηση του κάθε macroblock, ότι θα γίνεται δηλαδή αυτή η αναπαράσταση με τη χρήση διανυσμάτων κίνησης, αλλά δεν καθορίζει πως τα διανύσματα αυτά θα υπολογίζονται και για το λόγο αυτό εμφανίζονται διάφορες υλοποιήσεις της μεθόδου εύρεσης των διανυσμάτων κίνησης οι οποίες στηρίζονται όλες στην ελαχιστοποίηση μίας συνάρτησης που υπολογίζει την ταύτιση του τρέχοντος με το macroblock αναφοράς. Αν και μπορεί να χρησιμοποιηθεί κάθε συνάρτηση σφάλματος που υπάρχει, η πιο συχνά χρησιμοποιούμενη συνάρτηση είναι η Απόλυτη Διαφορά (AE - AbsoluteError) η οποία δίνεται από τον παρακάτω τύπο : 29

( ) ( ) ( ) Στην παραπάνω εξίσωση το f(i,j) και g(i,j) αντιπροσωπεύουν τις συντεταγμένες των pixels στο τρέχον και το macroblock αναφοράς αντίστοιχα. Το macroblock αναφοράς που καθορίζεται από το διάνυσμα (dx,dy)αντιπροσωπεύει την περιοχή αναζήτησης. Το macroblock που παράγει το μικρότερο σφάλμα αντιστοιχεί στην τιμή του διανύσματος που ψάχνουμε. Υποδειγματοληψία και παρεμβολή Οι MPEG τεχνικές κωδικοποίησης κάνουν εκτεταμένη χρήση της υποδειγματοληψίας και της κβάντισης πριν την κωδικοποίηση. Ο βασικός σκοπός της υποδειγματοληψίας είναι η μείωση της διάστασης του video εισόδου και κατά συνέπεια η μείωση του αριθμού των pixel που θα κωδικοποιηθούν. Αξίζει να αναφερθεί ότι σε ορισμένες εφαρμογές το video υποδειγματοληπτείται και στη χρονική διάσταση για να μειωθεί ο αριθμός των frame. Αυτή η τεχνική θεωρείται μία από τις πιο απλές τεχνικές συμπίεσης και εκμεταλλευόμενη συγκεκριμένα χαρακτηριστικά του ανθρώπινου ματιού, αφαιρεί τον υποκειμενικό πλεονασμό που εμπεριέχεται στο video.για παράδειγμα, η ανθρώπινη όραση είναι λιγότερη ευαίσθητη στις χρωματικές μεταβολές παρά σε εκείνες της φωτεινότητας και έτσι απαιτούνται λιγότερα δεδομένα χρωματικής πληροφορίας για να δημιουργηθεί η αίσθηση της ποιοτικής εικόνας στον θεατή. Όπως είναι γνωστό, για την κωδικοποίηση της εικόνας δε χρησιμοποιούμε τρία ανεξάρτητα σήματα για τις συνιστώσες R,G,B παρόλο που κάθε χρώμα μπορεί να περιγραφεί από αυτές και άλλο ένα για τη φωτεινότητα, αλλά στην πράξη χρησιμοποιείται μόνο αυτό της φωτεινότητας (Υ) και δύο άλλα (Cr) και (Cb) που περιέχουν τις πληροφορίες για τα R,G,B αν συνδυαστούν με τη φωτεινότητα σύμφωνα με τους παρακάτω τύπους: 30

Y = 0,30R + O,59G + 0,14B Cr = 0,74(R-Y) - 0,27(B-Y) = 0,60R + 0,28G + 0,32B (για το NTSC) Cb = 0,48(R-Y) + 0,41(B-Y) = 0,21R + 0,52G + 0,31B Και Y = 0,30R + O,59G + 0,11B Cr = 0,493(B-Y) = -0,15R - 0,29G + 0,44B (για το PAL) Cb = 0,877(R-Y) = 0,62R - 0,52G - 0,10B Έτσι κατά την δειγματοληψία, μπορούν να ψηφιοποιηθούν λιγότερα δείγματα από τις συνιστώσες χρώματος (υποδειγματοληψία χρώματος) σε σχέση με το σήμα φωτεινότητας μειώνοντας έτσι τον όγκο των δεδομένων. Κατά την αποκωδικοποίηση η πληροφορία χρώματος που λείπει αναπαράγεται από τον μέσο όρο των γειτονικών pixel. Το πρότυπο MPEG 2 δίνει τρεις επιλογές σχετικά με την υποδειγματοληψία χρώματος: Το μοντέλο 4:4:4 Στην απεικόνιση αυτή οι πίνακες φωτεινότητας και χρωματικότητας έχουν το ίδιο μέγεθος και στις τρεις διαστάσεις. Εικόνα 2.1 Δειγματοληψία χρώματος - Μοντέλο 4:4:4 [11] 31

Το μοντέλο 4:2:0 Στην απεικόνιση αυτή, οι πίνακες χρωματικότητας έχουν το μισό μέγεθος από τον πίνακα φωτεινότητας στην οριζόντια αλλά και στην κάθετη διάσταση. Ο πίνακας φωτεινότητας Υ πρέπει να έχει άρτιο αριθμό στοιχείων. Εικόνα 2.2 Δειγματοληψία χρώματος - Μοντέλο 4:2:0 [11] Το μοντέλο 4:2:2 Στην απεικόνιση αυτή οι πίνακες χρωματικότητας έχουν το μισό μέγεθος από τον πίνακα φωτεινότητας στην οριζόντια διάσταση αλλά το ίδιο μέγεθος στην κάθετη διάσταση. Ο πίνακας φωτεινότητας πρέπει να έχει άρτιο αριθμό στοιχείων. Εικόνα 2.3 Δειγματοληψία χρώματος - Μοντέλο 4:4:2 32

Κβαντοποίηση (Quantization) Η μέθοδος που μας βοηθάει να απαλλαγούμε από σημαντικό μέρος της πληροφορίας είναι η κβαντοποίηση. Με τον όρο κβαντοποίηση γενικά εννοούμε τη μετατροπή ενός σήματος άπειρων (η πάρα πολλών) τιμών σε ένα σήμα ορισμένων διακριτών τιμών π.χ. η κβαντοποίηση μιας εικόνας που περιέχει εκατομμύρια χρώματα οδηγεί σε μία εικόνα που έχει 256 διαφορετικές τιμές για το χρώμα (πρότυπο JPEG). Με άλλα λόγια κβαντοποίηση είναι ο περιορισμός των bits με τα οποία περιγράφουμε τα δείγματα του σήματος (προφανώς το 256 έχει πολύ λιγότερα bits από τους τεράστιους αριθμούς με τους οποίους έπρεπε να περιγράψουμε τα δείγματά μας αν δεν γινόταν κβαντοποίηση). Είναι προφανές ότι η κβαντοποίηση εισάγει σφάλμα ανάλογο με τον αριθμό τον bits που απορρίπτονται και κατά συνέπεια ευθύνεται στο μεγαλύτερο βαθμό για την απώλεια πληροφορίας κατά τη συμπίεση (lossycompression) σε αντίθεση με το μετασχηματισμό DCT που είναι μία, σε μεγάλο βαθμό αντιστρεπτή διαδικασία. Για να περιγράψουμε όσο περισσότερες από τις τιμές του σήματος γίνεται με δοσμένο αριθμό bits, διαιρούμε τις τιμές των δειγμάτων είτε με σταθερές τιμές (uniformquantization) είτε με πίνακες κβαντοποίησης (quantizationtables). Στη συγκεκριμένη περίπτωση, δηλαδή στο πρότυπο MPEG χρησιμοποιείται η δεύτερη μέθοδος και μάλιστα υπάρχει ένας πίνακας για τα πλαίσια που έχουν κωδικοποιηθεί με ενδοπλαισιακή (intra-framecoding) και ένας για αυτά με διαπλαισιακή (inter-frame coding). 33

2.1.2 Τύποι εικόνας MPEG-2 Σε ένα σήμα (bitstream) MPEG υπάρχουν τριών ειδών πλαίσια: I(IntraFrames): Το είδος αυτό των πλαισίων κάνει χρήση του Intra-frameCoding. Τα πλαίσια τύπου Ι είναι τα μόνα που είναι κωδικοποιημένα στο σύνολό τους και η αποκωδικοποίηση τους μπορεί να γίνει χωρίς αναφορά σε κάποιο άλλο. Είναι κατά συνέπεια τα μεγαλύτερα σε μήκος και αποτελούν σημεία αναφοράς κατά την τυχαία προσπέλαση ενός σήματος.εφαρμογές που απαιτούν τυχαία αναζήτηση, γρήγορη αναπαραγωγή κατά μπροστά ή κατά πίσω μπορούν να χρησιμοποιούν I πλαίσια σχετικά συχνότερα. Ι πλαίσια μπορούν επίσης να χρησιμοποιηθούν και στις γρήγορες αλλαγές σκηνών ή σε άλλες περιπτώσεις όπου η εκτίμηση κίνησης είναι αναποτελεσματική. P (PredictedFrames): Τα πλαίσια τύπου P είναι βασισμένα σε ένα προηγούμενο I ή P πλαίσιο. Με τη σειρά τους μπορούν να αποτελέσουν και αυτά σημεία αναφοράς για επόμενα πλαίσια και αυτός είναι και ο λόγος που συμβάλλουν στην εισαγωγή και διάδοση σφαλμάτων, αφού η διαδικασία πρόβλεψης κίνησης δεν μπορεί να είναι 100% ακριβής. Δεν έχουν το μέγεθος των I πλαισίων γιατί δεν έχουν περιγραφεί με την ίδια ακρίβεια, δηλαδή παρουσιάζουν μεγαλύτερο ποσοστό συμπίεσης. Β (Bi-directionalframes): Τα πλαίσια τύπου Bείναι πλαίσια που δημιουργούνται λαμβάνοντας το μέσο όρο, σε επίπεδο macroblock, ενός προηγούμενο και ενός επόμενου πλαισίου I ή P.Δε συντελούν τόσο πολύ στη διάδοση σφαλμάτων γιατί δεν χρησιμοποιούνται ως σημεία αναφοράς και επιπλέον μειώνουν σημαντικά το σφάλμα παίρνοντας το μέσο όρο από δύο πλαίσια. Μπορούμε να πούμε ότι ο «κύκλος ζωής» τους περιορίζεται μόνο σε αυτά και δεν επεκτείνεται με το να 34

κληροδοτούν πληροφορίες σε άλλα πλαίσια, κάτι που πολλές φορές, σε συνδυασμό και με την υπολογιστική πολυπλοκότητα που απαιτούν για την κωδικοποίηση και αποκωδικοποίηση, τα κάνει μη επιθυμητά από τους κατασκευαστές. Η διαδικασία της κωδικοποίησης περιλαμβάνει συνδυασμό των αντίστοιχων macroblocks που παρουσιάζουν μικρές διαφορές με τα αντίστοιχα των πλαισίων αναφοράς (προηγούμενο και επόμενο), δηλαδή αφαίρεση του μέσου όρου των άλλων δύο από το τρέχον πλαίσιο, συνδυασμό των διανυσμάτων κίνησης των πλαισίων αναφοράς (που συνδυάζονται όπως και τα αντίστοιχα macroblocks, δηλαδή λαμβάνεται ο μέσος όρος τους), και στη συνέχεια την ίδια διαδικασία με τα I και P πλαίσια, για την κωδικοποίηση του macroblock που προκύπτει. Ο κύριος λόγος ύπαρξης των B πλαισίων είναι η κάλυψη της περίπτωσης, κάποιες πληροφορίες της εικόνας να υπάρχουν σε επόμενα πλαίσια και να μην υπάρχουν στα προηγούμενα. Συνεπώς, η πρόβλεψη τους με τα P πλαίσια θα ήταν αδύνατη. Σαν παράδειγμα μπορούμε να αναφέρουμε μία πόρτα που ανοίγει ξαφνικά. Η πληροφορία για το τι βρίσκεται πίσω από την πόρτα υπάρχει στα επόμενα πλαίσια, και όχι στα προηγούμενα, και για να εμφανιστεί και στο τρέχον πλαίσιο πρέπει να ληφθούν σα σημεία αναφοράς και το προηγούμενο και το επόμενο. Κάθε αλληλουχία εικόνων που ξεκινά από ένα I πλαίσιο και φτάνει μέχρι το επόμενο (χωρίς να το συμπεριλαμβάνει) ονομάζεται «Σύνολο Εικόνων» ή GroupofPictures (GOP) και αποτελεί τη μικρότερη μονάδα που μπορεί να αποκωδικοποιηθεί ανεξάρτητα, χωρίς να γίνονται αναφορές σε άλλο GOP. Προκειμένου να γίνει η επεξεργασία της εικόνας και η διαδικασία πρόβλεψης της κίνησης, το κάθε πλαίσιο (frame) της εικόνας χωρίζεται σε τμήματα που ονομάζονται slices. Τα slices περιέχουν μία σειρά macroblocks, οποία όπως φανερώνει και το όνομά τους περιέχουν μία σειρά από blocks. Ο ρόλος των slices είναι να περιορίσουν τη διάδοση των λαθών (errorpropagation). Αν ένα slice ληφθεί με λάθος παραλείπεται χωρίς να χάνουμε όλη την εικόνα. Γενικά τα slices βοηθούν στην απόκρυψη των σφαλμάτων (errorconcealment). 35

2.1.3 Πολυπλεξία και συγχρονισμός [12] Από τις βασικές λειτουργίες της κωδικοποίησης MPEG-2 είναι ο συνδυασμός, ή πολυπλεξία, δεδομένων από διαφορετικού τύπου πολυμέσα σε μία ενιαία ροή που μπορεί να μεταδοθεί μέσω ενός τηλεπικοινωνιακού καναλιού ή να αποθηκευθεί σε μία μονάδα αποθήκευσης. Η μέθοδος πολυπλεξίας που χρησιμοποιείται στα συστήματα MPEG-2, όπως και στα συστήματα MPEG-1, είναι η πολυπλεξία πακέτων (PacketMultiplexing). Με την πολυπλεξία πακέτων, τα πακέτα δεδομένων από τις διάφορες στοιχειώδεις ροές, ήχου, βίντεο, δεδομένων, κλπ, παρεμβάλλονται το ένα μετά το άλλο στην ενιαία ροή MPEG-2. Είναι λογικό, εφόσον έχουμε να κάνουμε με πολυμεσικές πληροφορίες, να υπάρχει η απαίτηση να διατηρείται ένας αυστηρός συγχρονισμός μεταξύ των στοιχειωδών ροών όταν αυτές αποκωδικοποιούνται και αναπαράγονται σε διάφορες οθόνες εξόδου ή άλλου τύπου συσκευές. Όταν χρησιμοποιείται η μέθοδος της πολυπλεξίας πακέτων η καθυστέρηση μεταξύ της κωδικοποίησης και της αποκωδικοποίησης μπορεί να διαφέρει λόγω του ότι τα πακέτα μπορεί να ποικίλουν σε μέγεθος και συχνότητα εμφάνισης. Επιπλέον, αν ο ήχος και το βίντεο έχουν επεξεργαστεί ξεχωριστά πριν από την πολύπλεξή τους θα πρέπει να υπάρχει κάποιος μηχανισμός ανάκτησης του συγχρονισμού. Ο συγχρονισμός επιτυγχάνεται με τη χρήση Χρονοσφραγίδων (Timestamps) και Αναφορών Ρολογιού (ClockReferences). Οι χρονοσφραγίδες είναι πεδία δεδομένων μήκους 33 bit τα οποία υποδεικνύουν τη χρονική στιγμή, σύμφωνα με ένα Ρολόι Χρονισμού Συστήματος (SystemsTimeClock STC), που μία Μονάδα Παρουσίασης (πλαίσια βίντεο, ήχος κλπ.) πρέπει να αποκωδικοποιηθεί και να παρουσιαστεί από μία συσκευή εξόδου. Οι αναφορές ρολογιού είναι πεδία μήκους 42 bit που υποδεικνύουν στον αποπολυπλέκτη ποιος πρέπει να είναι ο STC χρόνος όταν αυτές λαμβάνονται. 36

Ο συγχρονισμός και η αποκωδικοποίηση απαιτούν την ύπαρξη κάποιας ενδιάμεσης μνήμης (buffer) στον αποκωδικοποιητή για να αποθηκεύονται τα λαμβανόμενα συμπιεσμένα δεδομένα πριν την αποκωδικοποίηση και παρουσίασή τους. Όταν η τιμή του STC του αποκωδικοποιητή ταυτιστεί με μία συγκεκριμένη χρονοσφραγίδα, η αντίστοιχη Μονάδα Παρουσίασης αφαιρείται από την μνήμη και περνάει στην αποκωδικοποίηση. 2.1.4 Ροές MPEG-2 [12] Τα πακέτα PES των διάφορων στοιχειωδών ροών μιας πολυμεσικής εφαρμογής συνδυάζονται μεταξύ τους για να σχηματίσουν ένα Πρόγραμμα (Program). Κάθε Πρόγραμμα έχει το δικό του ρολόι STC για των συγχρονισμό των ροών. Στο σχήμα κωδικοποίησης MPEG έχουν καθοριστεί τρεις τύποι μη στοιχειωδών ροών για τη μετάδοση και την αποθήκευση τον Προγραμμάτων. Ο πρώτος τύπος ονομάζεται Ροή Προγράμματος (ProgramStream PS) και είναι κατάλληλη για την αποθήκευση Προγραμμάτων δεδομένων ή για τη μετάδοση τους σε περιβάλλονται σχετικά απαλλαγμένα από σφάλματα. Η Ροή Προγράμματος μεταφέρει ένα Πρόγραμμα και απαρτίζεται από Δέσμες (Packs) πολυπλεγμένων δεδομένων. Κάθε Δέσμη αποτελείται από την κεφαλίδα Δέσμης, από έναν μεταβλητό αριθμό πολυπλεγμένων πακέτων PES και από κάποια επιπλέον βοηθητικά δεδομένα. Ο δεύτερος τύπος ροής ονομάζεται Ροή Μεταγωγής (TransportStream - TS) και έχει οριστεί για μετάδοση μέσω δικτύων επιρρεπή σε λάθη. Όπως και η Ροή Προγράμματος αποτελούνται από πολυπλεγμένες στοιχειώδεις ροές και από επιπλέον βοηθητικά δεδομένα. Η κύρια διαφορά τους είναι ότι στη Ροή Μεταγωγής τα σχετικά μεγάλα και μεταβλητού μήκους πακέτα PES τεμαχίζονται σε μικρότερα πακέτα TS σταθερού μήκους 188 byte. Ο εντοπισμός και η διόρθωση λαθών σε πακέτα σταθερού μήκους είναι ευκολότερη και ταχύτερη διαδικασία. Μία άλλη διαφορά έιναι ότι η Ροή 37

Μεταγωγής μπορεί να μεταφέρει πολλαπλά Προγράμματα, το καθένα με το δικό του Ρολόι STC, σε αντίθεση με τη Ροή Προγράμματος που μεταφέρει μόνο ένα Πρόγραμμα. Τέλος υπάρχει και ένας τρίτος τύπος ροής, η Ροή PES που χρησιμοποιείται για ορισμένες λειτουργίες σε συγκεκριμένες υλοποιήσεις. Δεν συστήνεται για μετάδοση ή αποθήκευση δεδομένων καθώς δεν είναι ανθεκτική απέναντι σε λάθη και παρουσιάζει περιορισμός σε λειτουργίες όπως η τυχαία προσπέλαση. 38

2.2 Συμπίεση Ήχου [13] Κατά την ψηφιοποίηση ακουστικών σημάτων παράγονται αρχεία μεγάλου μεγέθους. Αυτό οδήγησε στην ανάγκη ανάπτυξης της τεχνολογίας συμπίεσης των ηχητικών δεδομένων. Οι εφαρμοζόμενοι αλγόριθμοι συμπίεσης μπορούν να μειώσουν σημαντικά το εύρος ζώνης των σημάτων και τις απαιτήσεις για την αποθήκευση και την μετάδοση ήχου υψηλής ποιότητας. Για να γίνουν κατανοητά τα πλεονεκτήματα της μετάδοσης συμπιεσμένου ψηφιακού ήχου μέσα από δίκτυα, ας θεωρήσουμε σαν παράδειγμα την περίπτωση του προτύπου που χρησιμοποιείται στα CD. Το CD πρότυπο είναι μια 16-bit γραμμική PCM διαδικασία, η οποία έχει ένα μεγάλο μειονέκτημα: το μέγεθος εύρους ζώνης του ψηφιακού σήματος που καταλαμβάνει σε ένα σύστημα μετάδοσης. Ένα στερεοφωνικό CD μεταδίδει πληροφορία με ρυθμό 1,411 Mbps, το οποίο απαιτεί ένα σήμα με εύρος ζώνης περίπου 700 kηz για να αποφευχθεί η παραμόρφωση του ψηφιακού σήματος. Στην πραγματικότητα, επιπρόσθετα bit προστίθενται για την κωδικοποίηση καναλιού, το συγχρονισμό, και τη διόρθωση σφαλμάτων. Αυτό αυξάνει την απαίτηση σε εύρος ζώνης στο 1,5 ΜΗz. Αν αυτό συγκριθεί, με τα 20 kηz που χρειάζονται για να μεταδοθεί ένα στερεοφωνικό αναλογικό σήμα, βλέπουμε ότι προκύπτει μια τεράστια αύξηση στην απαίτηση εύρους ζώνης. Από τα πολυάριθμα συστήματα συμπίεσης που χρησιμοποιούνται θα ακολουθήσει ανάλυση δύο εξ αυτών,ευρέως διαδεδομένων, του MPEG-1 και του AC-3. 2.2.1 Το πρότυπο MPEG-1 Layer 2 Tο πρότυπο που έγκειται το ψηφιακό ήχο είναι το Mpeg-1 Audio και δεν αποτελεί ένα αλγόριθμο συμπίεσης αλλά μια οικογένεια τριών διαφορετικών τεχνικών κωδικοποίησης και συμπίεσης. Και τα τρία αυτά στάδια στηρίζονται στην ίδια αρχή, δηλαδή η συμπίεση ολοκληρώνεται με το συνδυασμό ενός είδος κωδικοποίησης μετασχηματισμού και sub-banddivision ενώ οι διαφορές 39