Περιεχόμενα. 4.1 Χαρακτηριστικά του ήχου... 58 4.2 Ψηφιοποίηση με μετασχηματισμό... 59 4.3 Ψηφιοποίηση με δειγματοληψία... 60. Πρόλογος...



Σχετικά έγγραφα
Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Τεχνολογία Πολυμέσων. Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Κωδικοποίηση βίντεο (MPEG)

Τεχνολογία Πολυμέσων. Ενότητα # 12: Κωδικοποίηση βίντεο: H.26x Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 14: Κωδικοποίηση βίντεο: Η.264 Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων

Κωδικοποίηση βίντεο (MPEG)

Εισαγωγή. Τεχνολογία Πολυµέσων 01-1

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 11: Χαρακτηριστικά Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Βίντεο. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 06-1

Κωδικοποίηση βίντεο (H.261 / DVI)

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Πολυμέσα πάνω από κινητά δίκτυα

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Τεχνολογία Πολυμέσων. Ενότητα # 1: Εισαγωγή Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

Κωδικοποίηση εικόνων κατά JPEG

Διαδικασία Ψηφιοποίησης (1/2)

ΜΟΥΣΙΚΗ ΚΑΙ ΥΠΟΛΟΓΙΣΤΕΣ

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας

Εισαγωγή. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 01-1

Συμπίεση Πολυμεσικών Δεδομένων

Συστήματα Επικοινωνιών ΙI

Πολυμέσα σε Δίκτυα Κινητών Συσκευών

Αφήγηση Μαρτυρία. Μουσική. Ενίσχυση μηνύματος Μουσική επένδυση Ηχητικά εφέ

Θέματα Συστημάτων Πολυμέσων. Ενότητα #3: Ιδιότητες μέσων Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ, 2007 ΘΡ. ΤΣΙΑΤΣΟΣ

Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης MPEG-1 layer I, layer II, layer III

Τεχνολογία Πολυμέσων. Ενότητα # 13: Κωδικοποίηση βίντεο: MPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Συγχρονισµός πολυµέσων

Τηλεπικοινωνιακά Συστήματα Ι

Συστήματα Πολυμέσων. Ενότητα 7: Συμπίεση Εικόνας κατά JPEG. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

MPEG-4: Βασικά Χαρακτηριστικά

Πληροφορική Εφαρμογές Πολυμέσων

ΠΛΗ21 Κεφάλαιο 1. ΠΛΗ21 Ψηφιακά Συστήματα: Τόμος Α Κεφάλαιο: 1 Εισαγωγή

Μάθημα: Ακουστική και Ψυχοακουστική

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

MPEG-4 : Διαδραστικές εφαρμογές πολυμέσων

Κεφάλαιο 4 Συμπίεση Ήχου

Ψηφιακή Επεξεργασία Σηµμάτων

Τεχνολογία Πολυμέσων. Ενότητα # 15: Συγχρονισμός πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Πληροφορική Εφαρμογές Πολυμέσων

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Δ10. Συμπίεση Δεδομένων

Ψηφιακή Επεξεργασία Εικόνας

Εγγυημένη ποιότητα υπηρεσίας

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική Ι. Ενότητα 9 : Συμπίεση δεδομένων. Δρ. Γκόγκος Χρήστος

Συνεχής ροή πολυµέσων

Συμπίεση Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Συστήματα πολυμέσων. Εισαγωγή Υλικό συστημάτων πολυμέσων Λογισμικό συστημάτων πολυμέσων Συστήματα πραγματικού χρόνου Χρονοπρογραμματισμός

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ - PCM (ΜΕΡΟΣ Α)

Δίκτυα ATM. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 21-1

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 6 η : Συμπίεση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 17: Πρωτόκολλα μετάδοσης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

Συστήματα Επικοινωνιών

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΚΡΗΤΗΣ

Τεχνολογία Πολυμέσων. Ενότητα # 6: Βίντεο Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 3: Συστήματα πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Κατηγορίες τεχνικών συµπίεσης. Τεχνικές Συµπίεσης

Τεχνολογία Πολυμέσων. Ενότητα 3: Ψηφιοποίηση της Πληροφορίας. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Εφαρµογές των πολυµέσων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΣΥΜΠΙΕΣΗ ΚΑΙ ΜΕΤΑΔΟΣΗ ΠΟΛΥΜΕΣΩΝ. Εισαγωγή. Κλήμης Νταλιάνης Λέκτορας ΠΔ 407/80

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Ιόνιο Πανεπιστήμιο Τμήμα Τεχνών Ήχου και Εικόνας. Ακαδημαϊκό Έτος

Δ11 Δ12. Συμπίεση Δεδομένων

MPEG-4: Διαδραστικές εφαρμογές πολυμέσων

Εφαρμογές των πολυμέσων

Μάθημα 7 ο. Συμπίεση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Μετάδοση video στα κινητά 3 ης γενιάς: Δομή και απαιτούμενα πρωτόκολλα κωδικοποίησης

Θέματα Συστημάτων Πολυμέσων. Ενότητα # 8: MPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

ΠΑΡΑΓΩΓΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ

Τεχνολογία Πολυμέσων. Ενότητα # 20: Υπηρεσίες καλύτερης προσπάθειας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

υπολογιστικών συστημάτων. Παρουσίαση με τίτλο "Περιεχόμενο, διαδικασία μαθήματος και εισαγωγή"

Θέματα Συστημάτων Πολυμέσων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Τεχνολογία Πολυμέσων. Ενότητα # 2: Εφαρμογές πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Κεφάλαιο 2. Οργάνωση και διαχείριση της Πληροφορίας στον. Υπολογιστή

Transcript:

Περιεχόμενα Πρόλογος...13 1 Εισαγωγή...17 1.1 Χαρακτηριστικά των μέσων... 18 1.2 Ιδιότητες των συστημάτων πολυμέσων... 19 1.3 Δομή των συστημάτων πολυμέσων... 20 1.4 Δικτυακά συστήματα πολυμέσων... 21 1.5 Μετάδοση πολυμέσων... 25 1.6 Απαιτήσεις των συστημάτων πολυμέσων... 28 1.7 Ποιοι εμπλέκονται στα πολυμέσα... 30 2 Εφαρμογές των πολυμέσων...33 2.1 Κατηγοριοποίηση εφαρμογών... 33 2.2 Σύγχρονες εφαρμογές... 35 2.3 Ασύγχρονες εφαρμογές... 39 2.4 Εφαρμογές αλληλεπίδρασης... 41 2.5 Εφαρμογές διανομής... 42 3 Συστήματα πολυμέσων...45 3.1 Υλικό συστημάτων πολυμέσων... 46 3.2 Λογισμικό των συστημάτων πολυμέσων... 49 3.3 Συστήματα πραγματικού χρόνου... 50 3.4 Χρονοπρογραμματισμός διεργασιών... 52 4 Ήχος...57 4.1 Χαρακτηριστικά του ήχου... 58 4.2 Ψηφιοποίηση με μετασχηματισμό... 59 4.3 Ψηφιοποίηση με δειγματοληψία... 60

8 ΤΕΧΝΟΛΟΓΙΑ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΠΟΛΥΜΕΣΙΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ 4.4 Κβαντοποίηση δειγμάτων... 63 4.5 Παλμοκωδική διαμόρφωση... 64 4.6 Συμβολική αναπαράσταση μουσικής... 65 5 Εικόνα...69 5.1 Ψηφιακή αναπαράσταση εικόνας... 70 5.2 Κωδικοποίηση των χρωμάτων... 71 5.3 Συσκευές εισόδου και εξόδου εικόνων... 73 5.4 Βάθος χρώματος και ανάλυση εικόνων... 76 5.5 Συμβολική αναπαράσταση εικόνων... 78 5.6 Μετάδοση εικόνων... 79 5.7 Σύνθεση εικόνων... 79 5.8 Ανάλυση εικόνων... 81 6 Βίντεο...83 6.1 Χαρακτηριστικά του βίντεο... 84 6.2 Απόσταση θέασης... 86 6.3 Μετάδοση τηλεοπτικού σήματος... 87 6.4 Συμβατικά τηλεοπτικά συστήματα... 91 6.5 Ψηφιακό βίντεο... 92 6.6 Εναλλακτικά μορφότυπα ψηφιακού βίντεο... 94 6.7 Τηλεόραση υψηλής ευκρίνειας... 95 6.8 Κινούμενες εικόνες... 97 6.9 Μετάδοση κινουμένων εικόνων... 99 7 Θεωρία πληροφορίας... 101 7.1 Κανάλια μετάδοσης... 101 7.2 Αμοιβαία και εσωτερική πληροφορία... 103 7.3 Παραδείγματα πληροφορίας... 105 7.4 Μέση πληροφορία και εντροπία... 108 7.5 Παραδείγματα εντροπίας... 109 7.6 Εφαρμογές θεωρίας πληροφορίας... 112 8 Αρχές κωδικοποίησης... 115 8.1 Απαιτήσεις κωδικοποίησης... 116 8.2 Είδη κωδικοποίησης... 117 8.3 Κωδικοποίηση εντροπίας... 120 8.4 Διαφορική κωδικοποίηση... 121 8.5 Κωδικοποίηση μετασχηματισμών... 122 8.6 Στρωματοποιημένη κωδικοποίηση... 123 8.7 Κβαντοποίηση διανυσμάτων... 124

Περιεχόμενα 9 9 Κωδικοποίηση εντροπίας... 127 9.1 Κωδικοποίηση Shannon Fano... 128 9.2 Κωδικοποίηση Huffman... 130 9.3 Αριθμητική κωδικοποίηση... 132 9.4 Kωδικοποίηση με παράθυρο: LZ77... 136 9.5 Kωδικοποίηση με παράθυρο: LZSS... 138 9.6 Kωδικοποίηση με λεξικό: LZ78... 139 9.7 Kωδικοποίηση με λεξικό: LZW... 141 10 Κωδικοποίηση ήχου... 145 10.1 Κωδικοποίηση καναλιού για τη φωνή... 145 10.2 Κωδικοποίηση πηγής για τη φωνή... 148 10.3 Αντιληπτική κωδικοποίηση του ήχου... 150 11 Κωδικοποίηση εικόνων: JPEG... 155 11.1 Προετοιμασία της εικόνας... 156 11.2 Επεξεργασία εικόνας... 159 11.3 Κβαντοποίηση συντελεστών... 161 11.4 Κωδικοποίηση εντροπίας... 163 11.5 Εκτεταμένος απωλεστικός τρόπος λειτουργίας... 164 11.6 Μη απωλεστικός τρόπος λειτουργίας... 165 11.7 Ιεραρχικός τρόπος λειτουργίας... 166 11.8 Μορφότυπο αρχείων... 167 12 Κωδικοποίηση βίντεο: H.26x... 169 12.1 Κωδικοποίηση βίντεο... 170 12.2 Το πρότυπο H.261... 174 12.3 Κωδικοποίηση βίντεο στο H.261... 175 12.4 Ρεύμα δεδομένων στο H.261... 178 12.5 Το πρότυπο H.263... 179 12.6 Ανάκαμψη από σφάλματα στο H.263... 181 13 Κωδικοποίηση βίντεο: MPEG... 183 13.1 Το πρότυπο MPEG-1... 184 13.2 Ομάδες εικόνων... 188 13.3 Ρεύματα δεδομένων στο MPEG-1... 189 13.4 Το πρότυπο MPEG-2... 191 13.5 Το πρότυπο MPEG-4... 194 13.6 Κωδικοποίηση στο MPEG-4... 197

10 ΤΕΧΝΟΛΟΓΙΑ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΠΟΛΥΜΕΣΙΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ 14 Συγχρονισμός πολυμέσων... 201 14.1 Απαιτήσεις συγχρονισμού... 202 14.2 Αντιμετώπιση προβλημάτων συγχρονισμού... 205 14.3 Κατανεμημένος συγχρονισμός... 206 14.4 Μέθοδοι προδιαγραφών συγχρονισμού... 208 14.5 Πλαίσιο αναφοράς συγχρονισμού... 211 15 Πολυεκπομπή... 213 15.1 Μοντέλα πολυεκπομπής... 214 15.2 Αλγόριθμοι δρομολόγησης... 215 15.3 Αντιμετώπιση της ετερογένειας... 218 15.4 Έλεγχος ανάδρασης... 220 15.5 Πολυεκπομπή στο Διαδίκτυο... 223 15.6 Προβλήματα υλοποίησης... 226 16 Πρωτόκολλα μετάδοσης πολυμέσων... 229 16.1 Τα βασικά πρωτόκολλα του Διαδικτύου... 231 16.2 Το πρωτόκολλο RTP... 233 16.3 Δομή πακέτων RTP... 235 16.4 Το πρωτόκολλο RTCP... 238 17 Ροή πολυμέσων... 241 17.1 Ροή πολυμέσων από εξυπηρετητές ιστοσελίδων... 242 17.2 Ροή πολυμέσων από εξυπηρετητές μέσων... 244 17.3 Το πρωτόκολλο RTSP... 246 18 Τηλεδιάσκεψη... 249 18.1 Το πρότυπο H.320... 250 18.2 Το πρότυπο H.324... 251 18.3 Το πρότυπο H.323... 252 18.4 Τηλεδιάσκεψη με το SIP... 255 18.5 Έλεγχος πυλών... 260 19 Υπηρεσίες καλύτερης προσπάθειας... 263 19.1 Τι σημαίνει καλύτερη προσπάθεια... 264 19.2 Αντιμετώπιση της καθυστέρησης... 265 19.3 Αντιμετώπιση της απώλειας... 268

Περιεχόμενα 11 20 Εγγυημένη ποιότητα υπηρεσίας... 275 20.1 Απαιτήσεις της ποιότητας υπηρεσίας... 276 20.2 Μηχανισμοί κατηγοριοποίησης... 280 20.3 Μηχανισμοί χρονοπρογραμματισμού... 281 20.4 Μηχανισμοί επιτήρησης... 286 20.5 Ενοποιημένες υπηρεσίες... 288 20.6 Διαφοροποιημένες υπηρεσίες... 289 21 Δίκτυα ATM... 291 21.1 Εικονικά κυκλώματα και διαδρομές... 292 21.2 Πακέτα και κελιά... 294 21.3 Δρομολόγηση και προώθηση κελιών... 295 21.4 Ιεραρχία πρωτοκόλλων... 298 21.5 Επίπεδα προσαρμογής... 300 21.6 Ποιότητα υπηρεσίας... 302 21.7 Υποστήριξη IP... 305 22 Πολυμέσα σε δίκτυα 3G... 309 22.1 Κυψελωτά δίκτυα... 310 22.2 Δίκτυα 3G / UMTS... 313 22.3 Το πολυμεσικό υποσύστημα IP... 318 22.4 Η πολυμεσική υπηρεσία εκπομπής/πολυεκπομπής... 324 22.5 Ποιότητα υπηρεσίας... 329 Βιβλιογραφία... 335 Γλωσσάρι... 337 Ευρετήριο... 345

Κωδικοποίηση ήχου Λόγω της ευρύτατης χρήσης του τηλεφωνικού δικτύου, η μετάδοση φωνής με αποδοτικό τρόπο έχει τεράστια οικονομική σημασία, ιδιαίτερα σε κανάλια μετάδοσης με περιορισμένο εύρος ζώνης, όπως τα δίκτυα κινητής τηλεφωνίας. Από την άλλη πλευρά, η αποδοτική κωδικοποίηση της μουσικής με υψηλή ποιότητα είναι κρίσιμη για τη μουσική βιομηχανία, ενώ η κωδικοποίηση φωνής, μουσικής και άλλων ήχων είναι πολύ σημαντική για την κινηματογραφική βιομηχανία. Το αποτέλεσμα είναι ότι έχουν αναπτυχθεί πολλές μέθοδοι κωδικοποίησης ήχου είτε ειδικά για την ανθρώπινη φωνή, είτε γενικότερα για μουσικά ηχητικά σήματα. Σε όλες αυτές τις μεθόδους, αποσκοπούμε να δώσουμε στον παραλήπτη την καλύτερη δυνατή αναπαράσταση του ήχου που παράγεται από τον αποστολέα, με όσο το δυνατόν χαμηλότερη κατανάλωση εύρους ζώνης. Ανεξάρτητα από τη φύση του ήχου, σε όλες τις τεχνικές αρχικά γίνεται δειγματοληψία του σήματος μέσω της μεθόδου PCM με τον κατάλληλο ρυθμό δειγματοληψίας και πλήθος bit ανά δείγμα, και στη συνέχεια τα δείγματα αναλύονται για να μπορέσουν να κωδικοποιηθούν με μικρότερο αριθμό bit. Στο κεφάλαιο αυτό, αρχικά θα μελετήσουμε τεχνικές κωδικοποίησης της φωνής, ξεκινώντας με τις τεχνικές κωδικοποίησης καναλιού που χρησιμοποιούνται στη σταθερή τηλεφωνία και συνεχίζοντας με τις πιο περίπλοκες τεχνικές κωδικοποίησης πηγής που χρησιμοποιούνται στην κινητή τηλεφωνία και στην τηλεφωνία μεταξύ υπολογιστών. Στη συνέχεια, θα παρουσιάσουμε την αντιληπτική κωδικοποίηση η οποία είναι κατάλληλη για πιο περίπλοκα σήματα από τη φωνή, και συγκεκριμένα για μουσική, δίνοντας ως παράδειγμα τις τεχνικές κωδικοποίησης ήχου που χρησιμοποιούνται στα πρότυπα MPEG. 10.1 Κωδικοποίηση καναλιού για τη φωνή Όταν χρησιμοποιούμε κωδικοποίηση καναλιού για τη φωνή, δεν λαμβάνουμε υπόψη τις ιδιαιτερότητες της φωνής, παρά μόνο τη γενική συμπεριφορά των διαδοχικών δειγμάτων ενός φωνητικού σήματος. Η βασική παρατήρηση είναι ότι το σήμα μεταβάλλεται ομαλά, δηλαδή οι διαφορές των διαδοχικών δειγμάτων είναι συνήθως μικρότερες από τις απόλυ-

146 ΤΕΧΝΟΛΟΓΙΑ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΠΟΛΥΜΕΣΙΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ τες τιμές τους. Όπως έχουμε παρατηρήσει σε προηγούμενο κεφάλαιο, τα σήματα στα ο- ποία διαδοχικά δείγματα έχουν διαφορές μικρότερες από τις απόλυτες τιμές τους είναι ιδανικά για εφαρμογή τεχνικών διαφορικής κωδικοποίησης. Στην Εικόνα 10.1 φαίνεται η δομή ενός απλού κωδικοποιητή που χρησιμοποιεί διαφορική PCM (differential PCM, DPCM). Αφού η φωνή περάσει από ένα φίλτρο αποκοπής των υψηλότερων από τις επιθυμητές συχνότητες για τους λόγους που έχουμε αναλύσει σε προηγούμενο κεφάλαιο, ψηφιοποιείται με δειγματοληψία και μετά τα δείγματα κβαντοποιούνται. Στο στάδιο αυτό, συνήθως χρησιμοποιούμε την ίδια τεχνική με το πρότυπο G.711 που εφαρμόζεται στην τηλεφωνία, δηλαδή το φίλτρο αποκόπτει τις συχνότητες άνω των 3,5 KHz, η δειγματοληψία γίνεται με ρυθμό 8 KHz και 8 bit ανά δείγμα, οπότε ο ρυθμός δεδομένων είναι 64 Kbps. Επιπλέον η κβαντοποίηση είναι λογαριθμική έτσι ώστε τα τμήματα του σήματος που είναι πιο σημαντικά για την ανθρώπινη ακοή να κβαντοποιούνται με μεγαλύτερη λεπτομέρεια. Δείγματα PCM Δείγματα DPCM Φίλτρο ADC - Μνήμη + Αποκωδικοποιημένο δείγμα Εικόνα 10.1 Απλή κωδικοποίηση DPCM. Για κάθε δείγμα, ο κωδικοποιητής υπολογίζει τη διαφορά του τρέχοντος δείγματος από το προηγούμενο, το οποίο διατηρεί σε μια τοπική μνήμη, παράγοντας τη διαφορά ως έξοδο. Όμως, αντί να ενημερώσει τη μνήμη με το τρέχον δείγμα έτσι ώστε να προετοιμαστεί για το επόμενο, ο κωδικοποιητής αποθηκεύει στη μνήμη του το άθροισμα της προηγούμενης αποθηκευμένης τιμής και της διαφοράς που παρήγαγε στην έξοδο. Αυτό γίνεται διότι γενικά το τρέχον δείγμα δεν ισούται με την προηγούμενη αποθηκευμένη τιμή συν τη διαφορά που μεταδόθηκε αφού οι διαφορές κωδικοποιούνται με περιορισμένο πλήθος bit για οικονομία στο εύρος ζώνης. Αφού ο αποκωδικοποιητής δεν γνωρίζει το τρέχον δείγμα παρά μόνο τη διαφορά που έλαβε, τότε με αποθήκευση στη μνήμη του κωδικοποιητή της ίδιας προσέγγισης του τρέχοντος δείγματος που θα υπολογίσει και ο αποκωδικοποιητής, τα δύο άκρα θα είναι συγχρονισμένα. Αν αποθηκεύαμε το ίδιο το τρέχον δείγμα, τότε η επόμενη διαφορά θα υπολογιζόταν στον κωδικοποιητή από το δείγμα αυτό, ενώ στον αποκωδικοποιητή θα υπολογιζόταν από την προσέγγιση του δείγματος, με αποτέλεσμα τη σταδιακή διεύρυνση της απόκλισης ανάμεσα στα δύο άκρα. Η απόκλιση των διαφορών που στέλνονται από τις πραγματικές τιμές τους λόγω της εξοικονόμησης bit σημαίνει ότι οι τεχνικές DPCM εισάγουν θόρυβο κβαντοποίησης όταν

10 Κωδικοποίηση ήχου 147 δεν διαθέτουν επαρκή bit ανά διαφορά. Επομένως η συμπίεση που επιτυγχάνουμε για ποιότητα ανάλογη με αυτή του προτύπου G.711 είναι μικρή, δηλαδή από τα 64 Kbps μπορούμε να πάμε μόλις στα 56 Kbps με χρήση 7 bit για κάθε διαφορά. Δείγματα PCM Δείγματα DPCM Φίλτρο ADC - Βάρη + Μνήμη 3 Μνήμη 2 Μνήμη 1 Αποκωδικοποιημένα δείγματα Εικόνα 10.2 Σύνθετη κωδικοποίηση DPCM. Για να βελτιώσουμε την απόδοση της τεχνικής DPCM, αντί να χρησιμοποιούμε την προσέγγιση του προηγούμενου δείγματος για τον υπολογισμό της διαφοράς με το τρέχον δείγμα, χρησιμοποιούμε έναν σταθμισμένο μέσο μιας σειράς προσεγγίσεων προηγούμενων δειγμάτων, όπως φαίνεται στην Εικόνα 10.2. Μετά από κάθε βήμα, η παλαιότερη προσέγγιση απορρίπτεται από τη μνήμη, όλες οι άλλες προσεγγίσεις μετακινούνται κατά μία θέση, και εισάγεται στη μνήμη η τελευταία προσέγγιση. Η στάθμιση συνήθως γίνεται με ακέραιη αριθμητική για λόγους απόδοσης. Για παράδειγμα, μπορούμε να σταθμίζουμε την πιο πρόσφατη προσέγγιση με 50% και τις δύο προηγούμενες με 25%, πράγμα που επιτυγχάνεται με αριθμητική ολίσθηση προς τα δεξιά κάθε προσέγγισης κατά ένα ή δύο bit, αντίστοιχα, και πρόσθεση των προσεγγίσεων. Με αυτό τον τρόπο προσεγγίζουμε την ποιότητα του G.711 μόνο με 48 Kbps. Για να βελτιώσουμε την ποιότητα του ήχου με το ίδιο εύρος ζώνης ή να μειώσουμε το απαιτούμενο εύρος ζώνης για την ίδια ποιότητα ήχου, εισάγουμε τεχνικές προσαρμογής της κωδικοποίησης στα χαρακτηριστικά της φωνής. Μία τέτοια τεχνική προσαρμοστικής διαφορικής PCM (adaptive differential PCM ή ADPCM) χρησιμοποιείται στο πρότυπο G.721 όπου η πρόβλεψη γίνεται με μνήμη οκτώ προσεγγίσεων προηγούμενων δειγμάτων και το πλήθος bit ανά διαφορά μεταβάλλεται δυναμικά. Έτσι προκύπτει ρυθμός μετάδοσης 32 Kbps με ποιότητα ανάλογη αυτή του G.711. Το πρότυπο G.721 έχει ενσωματωθεί στο γενικότερο πρότυπο G.726 το οποίο υποστηρίζει ρυθμούς μετάδοσης 16, 24, 32 και 40 Kbps με διαφορετικά επίπεδα ποιότητας. Ο ρυθμός μετάδοσης 32 Kbps του G.721/G.726 χρησιμοποιείται ευρύτατα στην ασύρματη τηλεφωνία.

148 ΤΕΧΝΟΛΟΓΙΑ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΠΟΛΥΜΕΣΙΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ Ένα εναλλακτικό πρότυπο, το G.722, κωδικοποιεί ήχο με διπλάσιο εύρος συχνοτήτων από το G.711, δηλαδή μέχρι 7 KHz, με τον ίδιο ρυθμό μετάδοσης των 64 Kbps. Στο G.722, η φωνή διασπάται σε δύο περιοχές συχνοτήτων, μία περιοχή κάτω από τα 3,5 KHz που καλύπτει τις συχνότητες της κλασικής τηλεφωνίας, και μία περιοχή πάνω από τα 3,5 KHz και κάτω από τα 7 KHz η οποία παρέχει πρόσθετες πληροφορίες για τη χροιά της φωνής. Στη χαμηλή περιοχή συχνοτήτων γίνεται δειγματοληψία στα 8 KHz και κωδικοποίηση ADPCM στα 48 Kbps. Στην υψηλή περιοχή συχνοτήτων, αν και η δειγματοληψία γίνεται στα 16 KHz αφού η μέγιστη συχνότητα είναι διπλάσια, λόγω της χαμηλότερης σημασίας της για το ανθρώπινο αυτί η κωδικοποίηση ADPCM γίνεται μόλις στα 16 Kbps, δηλαδή χρησιμοποιούνται πολύ λιγότερα bit ανά δείγμα. 10.2 Κωδικοποίηση πηγής για τη φωνή Η ανθρώπινη φωνή έχει μελετηθεί λεπτομερώς τόσο ως ηχητικό σήμα όσο και ως φορέας σημασιολογικού περιεχομένου. Αν και υπάρχουν αρκετά συστήματα αναγνώρισης φωνής τα οποία μπορούν να χρησιμοποιηθούν και για την κωδικοποίησή της, στην ενότητα αυτή θα επικεντρωθούμε στις τεχνικές κωδικοποίησης οι οποίες εκμεταλλεύονται τα ιδιαίτερα χαρακτηριστικά της φωνής για τη μείωση του ρυθμού μετάδοσης, αλλά όχι και το σημασιολογικό της περιεχόμενο. Οι κωδικοποιητές που λειτουργούν με τέτοιες μεθόδους ονομάζονται κωδικοποιητές φωνής (vocoders) διότι η απόδοσή τους είναι βελτιστοποιημένη για την ανθρώπινη φωνή. Η ροή των δεδομένων σε έναν κωδικοποιητή φωνής φαίνεται στην Εικόνα 10.3: ο κωδικοποιητής αναλύει τα χαρακτηριστικά του ψηφιοποιημένου σήματος για να εξαγάγει τα βασικά χαρακτηριστικά τους, τα προσαρμόζει σε ένα παραμετρικό μοντέλο της ανθρώπινης φωνής, και στέλνει τις παραμέτρους του μοντέλου στον αποκωδικοποιητή χρησιμοποιώντας ένα μοντέλο πρόβλεψης των παραμέτρων για να εξοικονομήσει εύρος ζώνης. Ο αποκωδικοποιητής χρησιμοποιεί το ίδιο μοντέλο πρόβλεψης για να εξαγάγει τις παραμέτρους του μοντέλου και στη συνέχεια, με γεννήτριες ήχων, αναδημιουργεί το αρχικό σήμα με βάση το παραμετρικό μοντέλο της φωνής. Στις τεχνικές γραμμικής κωδικοποίησης με πρόβλεψη (linear predictive coding ή LPC), ο κωδικοποιητής σε κάθε βήμα εξετάζει μία ομάδα ψηφιοποιημένων δειγμάτων φωνής έτσι ώστε να εξαγάγει τα βασικά χαρακτηριστικά τους. Ο κωδικοποιητής διακρίνει τους φωνητικούς (voiced) ήχους, δηλαδή αυτούς που παράγονται μέσω των φωνητικών χορδών, οπότε εξαρτώνται ιδιαίτερα από τον ομιλητή, από τους μη φωνητικούς (unvoiced) ήχους οι οποίοι παράγονται με τις φωνητικές χορδές ανοιχτές, οπότε δεν εξαρτώνται ιδιαίτερα από τον ομιλητή. Οι φωνητικοί ήχοι περιγράφονται από τη βασική συχνότητα και ένταση του σήματος που παράγεται από τις φωνητικές χορδές και τις σχηματιστικές συχνότητες (formants) του σήματος οι οποίες παράγονται από το λαιμό και το στόμα του ομιλητή, ενώ οι μη φωνητικοί ήχοι περιγράφονται ως θόρυβοι. Οι πληροφορίες αυτές στέλνονται στον παραλήπτη κωδικοποιημένες με βάση ένα μοντέλο πρόβλεψης.

10 Κωδικοποίηση ήχου 149 Φωνή Εξαγωγή χαρακτηριστικών Κωδικοποίηση παραμέτρων Αποκωδικοποίηση παραμέτρων Κωδικοποιημένο σήμα Σύνθεση ήχου Φωνή Εικόνα 10.3 Λειτουργία κωδικοποιητή και αποκωδικοποιητή φωνής. Ο αποκωδικοποιητής από την πλευρά του ανακατασκευάζει τις παραμέτρους της φωνής με βάση το μοντέλο πρόβλεψης. Στη συνέχεια, για να παραγάγει τους φωνητικούς ήχους, χρησιμοποιεί μια γεννήτρια ηχητικών παλμών, η οποία παράγει το βασικό ήχο και ένα φίλτρο που προσομοιώνει τις σχηματιστικές συχνότητες, ενώ για να παραγάγει τους μη φωνητικούς ήχους, χρησιμοποιεί μια γεννήτρια θορύβου. Οι παράμετροι του μοντέλου για την επόμενη ομάδα δειγμάτων προβλέπονται από ένα γραμμικό συνδυασμό των παλαιότερων παραμέτρων. Επομένως, αρκεί να στέλνει ο κωδικοποιητής κάθε φορά τις διαφορές των παραμέτρων της τρέχουσας ομάδας από τις τιμές που δίνει το μοντέλο πρόβλεψης. Για παράδειγμα, όταν χρησιμοποιούνται 10 προηγούμενα σύνολα παραμέτρων, η κωδικοποίηση ονομάζεται LPC-10 και πετυχαίνει ρυθμούς μετάδοσης της τάξης των 2,4 Kbps. Το μειονέκτημα των τεχνικών LPC είναι ότι ο ήχος που παράγουν είναι εμφανώς συνθετικός όταν το διαθέσιμο εύρος ζώνης είναι περιορισμένο. Για να βελτιώσουμε την ποιότητα του ήχου, αντί να ανασυνθέτουμε τη φωνή από τα βασικά χαρακτηριστικά της, μπορούμε να χρησιμοποιούμε έτοιμα πρότυπα ήχου από μια βιβλιοθήκη, η οποία ονομάζεται βιβλίο κωδικών προτύπων (template codebook). Επειδή η φωνή διαφέρει από ομιλητή σε ομιλητή, στην πραγματικότητα χρησιμοποιούνται δύο τέτοια βιβλία κωδικών, ένα σταθερό (fixed), το οποίο είναι προκαθορισμένο από τον αλγόριθμο, και ένα προσαρμοστικό (adaptive), το οποίο σχηματίζεται κατά την κωδικοποίηση και αποκωδικοποίηση. Σε αυτές τις τεχνικές γραμμικής πρόβλεψης διεγειρόμενης με κωδικούς (code excited linear prediction ή CELP), ο κωδικοποιητής εντοπίζει τα πρότυπα που ταιριάζουν καλύτερα στην τρέχουσα ομάδα δειγμάτων ήχου και στέλνει την κωδική λέξη που επιλέγει στον α- ποκωδικοποιητή, ενημερώνοντας παράλληλα το προσαρμοστικό βιβλίο κωδικών. Για να βελτιωθεί η ποιότητα του ήχου, χρησιμοποιούνται και εδώ τεχνικές πρόβλεψης της επόμενης κωδικής λέξης από ένα γραμμικό συνδυασμό των προηγούμενων έτσι ώστε να αποστέλλονται μόνο οι διαφορές από τις προβλεπόμενες τιμές των παραμέτρων. Υπάρχουν πολλά πρότυπα που βασίζονται σε τεχνικές CELP. Το πρότυπο G.728 με ρυθμό μετάδοσης 16 Kbps χρησιμοποιείται σε εφαρμογές τηλεφωνίας όπου το εύρος ζώνης είναι περιορισμένο, το G.729 με ρυθμό μετάδοσης 8 Kbps χρησιμοποιείται στην κινη-

150 ΤΕΧΝΟΛΟΓΙΑ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΠΟΛΥΜΕΣΙΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ τή τηλεφωνία (για την ακρίβεια, χρησιμοποιείται η παραλλαγή του, η G.729a), ενώ το G.723.1 με ρυθμό μετάδοσης 5,3 ή 6,3 Kbps χρησιμοποιείται στην τηλεδιάσκεψη στο Διαδίκτυο. Κοινό χαρακτηριστικό αυτών των προτύπων είναι ότι όσο μειώνεται ο ρυθμός μετάδοσης, τόσο αυξάνεται η καθυστέρηση κωδικοποίησης αφού χρειάζεται η επεξεργασία μεγαλύτερου πλήθους δειγμάτων σε κάθε βήμα κωδικοποίησης. Γενικά, οι τεχνικές αυτές απαιτούν μεγαλύτερη υπολογιστική ισχύ από τις τεχνικές LPC λόγω της ανάγκης αναζήτησης του βέλτιστου προτύπου στο βιβλίο κωδικών. Παρατηρούμε ότι, λόγω της αύξησης της διαθέσιμης επεξεργαστικής ισχύος, οι τεχνικές κωδικοποίησης φωνής σταδιακά αξιοποιούν όλο και πιο περίπλοκους αλγορίθμους. Ένα παράδειγμα του τρόπου με τον οποίο η τεχνολογική πρόοδος επηρεάζει την απόδοση των συστημάτων κωδικοποίησης είναι η συνάρτηση του Flanagan, η οποία φαίνεται στην Εικόνα 10.4. Η συνάρτηση αυτή είναι ένας εμπειρικός κανόνας πρόβλεψης για την ποιότητα που μπορεί να επιτευχθεί στη συμπιεσμένη φωνή ανάλογα με το διαθέσιμο ρυθμό μετάδοσης. Το 2000, ένας ρυθμός μετάδοσης της τάξης των 8 Kbps προσέφερε αποδεκτή ποιότητα φωνής, και αυτός είναι στην πραγματικότητα ο ρυθμός μετάδοσης που χρησιμοποιείται από τα περισσότερα συστήματα κινητής τηλεφωνίας δεύτερης γενιάς. Στα συστήματα τρίτης γενιάς, οι κωδικοποιητές πετυχαίνουν παρόμοια ποιότητα φωνής με 4 Κbps, συνεχίζοντας έτσι τη σταδιακή βελτίωση της ποιότητας που είναι δυνατό να επιτευχθεί για δεδομένο ρυθμό μετάδοσης. Η βελτίωση αυτή φαίνεται από τις τρεις καμπύλες της εικόνας που αντιστοιχούν στο τεχνολογικό επίπεδο τριών διαφορετικών δεκαετιών (θα μπορούσαμε να προσθέσουμε άλλη μία καμπύλη πάνω από αυτές τις τρεις για την τρέχουσα δεκαετία). Ποιότητα άριστη καλή 2000 ικανοποιητική επαρκής 1990 χαμηλή 1980 1 2 4 8 16 32 64 kbps Εικόνα 10.4 Ποιότητα ήχου σε σχέση με το ρυθμό δεδομένων. 10.3 Αντιληπτική κωδικοποίηση του ήχου Όταν κωδικοποιούμε ήχο γενικής χρήσης αντί για φωνή, δεν μπορούμε να χρησιμοποιήσουμε τις τεχνικές κωδικοποίησης πηγής που είδαμε παραπάνω αφού είναι σχεδιασμένες με βάση τις ιδιαιτερότητες της ανθρώπινης φωνής. Μπορούμε ωστόσο να εκμεταλλευτούμε τα χαρακτηριστικά της ανθρώπινης ακοής έτσι ώστε να αποφύγουμε τη μετάδοση ήχων που δεν γίνονται αντιληπτοί. Στις τεχνικές αντιληπτικής κωδικοποίησης (perceptual coding) του ήχου χρησιμοποιούμε ένα ψυχοακουστικό (psychoacoustical) μοντέλο της

10 Κωδικοποίηση ήχου 151 ανθρώπινης ακοής για να εντοπίσουμε τα μη αντιληπτά τμήματα ενός ακουστικού σήματος και να μην τα συμπεριλάβουμε στο κωδικοποιημένο σήμα. Πρόκειται δηλαδή για τεχνικές απωλεστικής κωδικοποίησης προσαρμοσμένες στην ανθρώπινη ακοή. Ένα βασικό χαρακτηριστικό της ανθρώπινης ακοής είναι ότι είναι πιο ευαίσθητη σε ορισμένες περιοχές συχνοτήτων. Συγκεκριμένα, το δυναμικό εύρος (dynamic range) της ανθρώπινης ακοής, δηλαδή ο λόγος ανάμεσα στο πιο δυνατό και το πιο ασθενές σήμα που γίνεται αντιληπτό, εξαρτάται έντονα από τη συχνότητα του σήματος. Το δυναμικό εύρος του αυτιού μεγιστοποιείται στην περιοχή συχνοτήτων από τα 1 έως τα 5 KHz, ενώ μειώνεται σε μεγαλύτερες και μικρότερες περιοχές συχνοτήτων. Tο όριο της ακοής (threshold of hearing), δηλαδή η ελάχιστη ένταση που πρέπει να έχει ένα σήμα για να γίνει αντιληπτό, εξαρτάται και αυτό από τη συχνότητα του σήματος με παρόμοιο τρόπο, δηλαδή το όριο έχει πιο χαμηλές τιμές στην περιοχή συχνοτήτων από τα 1 έως τα 5 KHz. Στα σύνθετα σήματα που αποτελούνται από πολλές συχνότητες, όπως αυτά που έ- χουμε στη μουσική, παρατηρείται ένα φαινόμενο που ονομάζεται απόκρυψη συχνοτήτων (frequency masking): ένα ισχυρό σήμα σε μία συχνότητα επηρεάζει τοπικά το δυναμικό εύρος του αυτιού, μειώνοντάς το στις γειτονικές συχνότητες, αυξάνοντας έτσι το όριο της ακοής στις συχνότητες αυτές. Αυτό σημαίνει ότι ένα ασθενές σήμα, το οποίο, αν ήταν μόνο του, θα γινόταν αντιληπτό, δεν θα γίνει αντιληπτό όταν την ίδια στιγμή υπάρχει ένα ισχυρό σήμα σε μια γειτονική συχνότητα. Το εύρος των συχνοτήτων που επηρεάζονται από το φαινόμενο της απόκρυψης εξαρτάται από τις εμπλεκόμενες συχνότητες και γενικά αυξάνεται όσο αυξάνεται η συχνότητα του ισχυρού σήματος. Συνεπώς, αν αναλύσουμε ένα σήμα στις συχνότητές του, μπορούμε να εντοπίσουμε ποια τμήματα του σήματος αποκρύπτουν τα γειτονικά τους και σε ποιο βαθμό. Ασυμπίεστα Δεδομένα Ήχου Ψυχοακουστικό Μοντέλο Φιλτράρισμα Μετασχηματισμός Έλεγχος Κβαντοποίηση Κωδικοποίηση εντροπίας Συμπιεσμένα Δεδομένα Ήχου Εικόνα 10.5 Βήματα κωδικοποίησης ήχου στο πρότυπο MPEG-1.

152 ΤΕΧΝΟΛΟΓΙΑ ΠΟΛΥΜΕΣΩΝ ΚΑΙ ΠΟΛΥΜΕΣΙΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ Ένα άλλο φαινόμενο που μπορούμε να εκμεταλλευτούμε για να εντοπίσουμε μη αντιληπτά σήματα είναι η απόκρυψη χρόνου (temporal masking): ένα ισχυρό σήμα αποκρύπτει τα πιο ασθενή σήματα στην ίδια περιοχή συχνοτήτων για κάποιο χρονικό διάστημα πριν και μετά την εμφάνισή του, πάλι σε βαθμό που εξαρτάται από τη συχνότητα του σήματος. Συνεπώς, αν επεξεργαστούμε ένα αρκετά μεγάλο σύνολο δειγμάτων ήχου, μπορούμε να εντοπίσουμε τα πιο ισχυρά σήματα και να υπολογίσουμε τα πιο ασθενή σήματα που αποκρύπτονται από αυτά στο ίδιο χρονικό διάστημα. Η πιο γνωστή εφαρμογή της αντιληπτικής κωδικοποίησης είναι η τεχνική κωδικοποίησης ήχου που χρησιμοποιείται στο ηχητικό τμήμα του προτύπου MPEG-1. Αν και το MPEG-1 περιλαμβάνει και τεχνικές κωδικοποίησης βίντεο τις οποίες θα μελετήσουμε σε επόμενο κεφάλαιο, το ηχητικό μέρος του χρησιμοποιείται ευρύτατα για κωδικοποίηση μουσικής, οπότε θα το μελετήσουμε σε αυτή την ενότητα. Υπάρχουν τρία επίπεδα (layers) κωδικοποίησης ήχου στο MPEG-1, με αυξανόμενο βαθμό πολυπλοκότητας, έτσι ώστε να μπορούν να υλοποιηθούν σε συσκευές διαφορετικών δυνατοτήτων. Γενικά, μια υλοποίηση υψηλότερου επιπέδου μπορεί να χρησιμοποιηθεί και στην αποκωδικοποίηση και των χαμηλότερων επιπέδων αν και, στην πραγματικότητα, το επίπεδο 3 διαφέρει αρκετά από τα επίπεδα 1 και 2. Αντίθετα, το επίπεδο 1 είναι μια απλούστερη μορφή του επιπέδου 2. Η υλοποίηση επιπέδου 3 είναι το γνωστό και ευρύτατα διαδεδομένο MP3, που σημαίνει MPEG-1 Audio Layer 3. Στην Εικόνα 10.5 δίνεται ένα περίγραμμα των κωδικοποιήσεων MPEG-1 (τα πλαίσια με διακεκομμένες γραμμές χρησιμοποιούνται μόνο σε ορισμένα επίπεδα). Σε όλα τα επίπεδα του MPEG-1, ο ήχος αρχικά ψηφιοποιείται με μία από τρεις συχνότητες δειγματοληψίας, 48 KHz (όπως στο σύστημα DAT), 44,1 KHz (όπως στο μουσικό CD) και 32 KHz (όπως σε ορισμένα συστήματα ADPCM), πάντα με κβαντοποίηση 16 bit ανά δείγμα και ανά κανάλι. Τα δείγματα του ήχου ομαδοποιούνται σε πακέτα διαδοχικών δειγμάτων, στα οποία το πλήθος των δειγμάτων εξαρτάται από το επίπεδο. Στα επίπεδα 1 και 2, τα δείγματα διαχωρίζονται με φίλτρα σε 32 υποπεριοχές συχνοτήτων με ελαφρές επικαλύψεις στα άκρα τους, ενώ στο επίπεδο 3 τα δείγματα μετασχηματίζονται από το πεδίο του χρόνου στο πεδίο των συχνοτήτων με τον τροποποιημένο μετασχηματισμό DCT (modified DCT ή MDCT). Στη συνέχεια, το ψυχοακουστικό μοντέλο χρησιμοποιεί τις πληροφορίες από τα φίλτρα ή τους συντελεστές συχνοτήτων για να εντοπίσει τυχόν φαινόμενα απόκρυψης συχνοτήτων και απόκρυψης χρόνου, έτσι ώστε να εκτιμηθεί ποια μέρη του σήματος μπορούν να συμπιεστούν απωλεστικά χωρίς να γίνει αντιληπτή η απώλεια πληροφοριών. Το ψυχοακουστικό μοντέλο κατανέμει τα διαθέσιμα bit κωδικοποίησης στις υποζώνες ή τους συντελεστές συχνοτήτων ανάλογα με τη σημαντικότητά τους έτσι ώστε τα πιο σημαντικά τμήματα του σήματος να κβαντοποιούνται με περισσότερες λεπτομέρειες. Στα επίπεδα 1 και 2, οι κβαντοποιημένες τιμές κάθε υποζώνης κωδικοποιούνται με την τεχνική PCM, ενώ στο επίπεδο 3 χρησιμοποιείται κωδικοποίηση Huffman για περαιτέρω μείωση του ρυθμού μετάδοσης. Η κωδικοποίηση του ήχου μπορεί να γίνει με ένα σήμα, με δύο ανεξάρτητα σήματα, ή με δύο στερεοφωνικά (δηλαδή εξαρτημένα) σήματα. Έτσι, στο MPEG-1, ένα στερεοφωνικό σήμα μπορεί να εκληφθεί είτε ως δύο ανεξάρτητα κανάλια είτε ως κοινό στέρεο (joint stereo). Στο κοινό στέρεο, το MPEG-1 αξιοποιεί τον

10 Κωδικοποίηση ήχου 153 πλεονασμό ανάμεσα στα εξαρτημένα κανάλια, πετυχαίνοντας έτσι μεγαλύτερο βαθμό συμπίεσης αφού συνήθως τα δύο κανάλια έχουν παρόμοιο περιεχόμενο. Σε κάθε επίπεδο ορίζονται 14 ρυθμοί δεδομένων για την έξοδο του κωδικοποιητή. Η ελάχιστη τιμή είναι 32 Kbps για όλα τα επίπεδα, ενώ η μέγιστη εξαρτάται από το επίπεδο. Το επίπεδο 1 υποστηρίζει μέχρι 448 Kbps, το επίπεδο 2 μέχρι 384 Kbps και το επίπεδο 3 μέχρι 320 Kbps. Η ποιότητα του ήχου δεν είναι απαραίτητα ανάλογη με το ρυθμό δεδομένων αφού η αυξανόμενη πολυπλοκότητα οδηγεί σε μεγαλύτερο βαθμό συμπίεσης. Δηλαδή, το επίπεδο 3 μπορεί να πετύχει καλύτερα αποτελέσματα από τα επίπεδα 1 και 2 ακόμη και με χαμηλότερο ρυθμό δεδομένων. Για τα επίπεδα 1 και 2, ο αποκωδικοποιητής δεν απαιτείται να υποστηρίζει μεταβλητό ρυθμό δεδομένων, αλλά στο επίπεδο 3 υπάρχει και η δυνατότητα μεταβολής του ρυθμού δεδομένων με δυναμική αλλαγή του επιλεγμένου ρυθμού κατά τη διάρκεια της κωδικοποίησης. Στο πρότυπο MPEG-2 έχουν γίνει διάφορες προσθήκες σε σχέση με το MPEG-1 από πλευράς κωδικοποίησης ήχου. Το MPEG-2 επιτρέπει ρυθμούς δειγματοληψίας ελαττωμένους κατά το ήμισυ σε σχέση με αυτούς του MPEG-1, δηλαδή 16, 22,05 και 24 KHz, έτσι ώστε να υποστηρίζονται καλύτερα ρυθμοί χαμηλότεροι από τα 64 Kbps ανά κανάλι. Επιπλέον, το MPEG-2 υποστηρίζει κωδικοποίηση πολυκαναλικού (multichannel) ήχου ο ο- ποίος μπορεί να αποτελείται από μέχρι και πέντε κανάλια πλήρους εύρους ζώνης (αριστερό, δεξιό, κεντρικό και δύο περιφερειακά κανάλια), καθώς και ένα κανάλι βελτίωσης χαμηλών συχνοτήτων (low frequency enhancement ή LFE), το οποίο αναπαράγει συχνότητες από 15 Hz έως 120 Hz. Η πολυκαναλική κωδικοποίηση παρέχει συμβατότητα και με το MPEG-1, το οποίο είναι υποσύνολο του MPEG-2 από πλευράς δυνατοτήτων. L C R L R LS LFE RS LS RS (α) (β) L C R L R LFE (γ) LFE (δ) Εικόνα 10.6 Διατάξεις πολυκαναλικού ήχου στο MPEG-2.