Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Σχετικά έγγραφα
Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Ψηφιακή Επεξεργασία Σηµμάτων

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΜΟΥΣΙΚΗ ΚΑΙ ΥΠΟΛΟΓΙΣΤΕΣ

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακός ήχος. Χαρακτηριστικά σήματος ήχου Ψηφιοποίηση ήχου Συνθετικοί ήχοι MIDI

MPEG-4: Διαδραστικές εφαρμογές πολυμέσων

MPEG-4 : Διαδραστικές εφαρμογές πολυμέσων

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

ITU-T : H.261 (1990), H.262 (1996), H.263 (1995) MPEG-1, MPEG-2, MPEG-4. Αποθήκευση, Μετάδοση, Επικοινωνίες, ίκτυα

Διαδικασία Ψηφιοποίησης (1/2)

Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης MPEG-1 layer I, layer II, layer III

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τηλεπικοινωνιακά Συστήματα Ι

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Περιεχόμενα. 4.1 Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Πρόλογος...

ΠΑΡΑΓΩΓΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Κεφάλαιο 4 Συμπίεση Ήχου

Γιώργος Τζιρίτας Τµήµα Επιστήµης Υπολογιστών

Ψηφιακές Τηλεπικοινωνίες

Συμπίεση Δεδομένων

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

ΨΗΦΙΟΓΡΑΦΙΚΕΣ ΕΙΚΟΝΕΣ

Ψηφιακή Επεξεργασία Σημάτων

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Συμπίεση Δεδομένων

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων

Κωδικοποίηση βίντεο (MPEG)

Συστήματα Επικοινωνιών ΙI

ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ, 2007 ΘΡ. ΤΣΙΑΤΣΟΣ

Ευρυζωνικά δίκτυα (2) Αγγελική Αλεξίου

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακό βίντεο. Αναλογικό βίντεο / ψηφιοποίηση Διεπαφές Εκτίμηση κίνησης μπλοκ

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Συστήματα Επικοινωνιών ΙI

Ψηφιακή Επεξεργασία Εικόνας

Ανάκτηση πολυμεσικού περιεχομένου

1/3/2009. Τα ψηφιακά ηχητικά συστήματα πρέπει να επικοινωνήσουν με τον «αναλογικό» ανθρώπινο κόσμο. Φλώρος Ανδρέας Επίκ. Καθηγητής.

Ψηφιακή Επεξεργασία Σηµμάτων

Τεχνολογία Πολυμέσων. Ενότητα # 13: Κωδικοποίηση βίντεο: MPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΕΙΔΗ ΠΛΑΙΣΙΩΝ Ενδο-πλαισιακή κωδικοποίηση (Intra- frame Coding): Δια-πλαισιακή κωδικοποίηση (Inter-frame Coding):

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Τεχνολογία Πολυμέσων. Ενότητα # 14: Κωδικοποίηση βίντεο: Η.264 Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Θ.Ε. ΠΛΗ22 ( ) 2η Γραπτή Εργασία

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Ραδιοτηλεοπτικά Συστήματα Ενότητα 3: Θεωρία Ψηφιοποίησης

2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

Τηλεπικοινωνίες. Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ ΜΕΤΑΤΡΟΠΗ ΑΝΑΛΟΓΙΚΟΥ ΣΗΜΑΤΟΣ ΣΕ ΨΗΦΙΑΚΟ

Συστήματα Επικοινωνιών ΙI

Κωδικοποίηση βίντεο (MPEG)

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακή Εικόνα. Χωρική ανάλυση Αρχεία εικόνων

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Εργαστήριο Ηλεκτρoακουστικής Άσκηση 2 - Σελίδα 1 ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΣΚΗΣΗ 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Φυσικής Εισαγωγή στα Συστήματα Τηλεπικοινωνιών Συστήματα Παλμοκωδικής Διαμόρφωσης

Κωδικοποίηση βίντεο (H.261 / DVI)

Τηλεπικοινωνιακά Συστήματα Ι

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Τηλεπικοινωνιακά Συστήματα ΙΙ

Συμπίεση Πολυμεσικών Δεδομένων

Συστήµατα και Αλγόριθµοι Πολυµέσων

Ιατρικά Ηλεκτρονικά. Χρήσιμοι Σύνδεσμοι. ΙΑΤΡΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ - ΔΙΑΛΕΞΗ 5α. Σημειώσεις μαθήματος: E mail:

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Πολυμεσικές Εφαρμογές

Μετάδοση σήματος PCM

Κεφάλαιο 2. Οργάνωση και διαχείριση της Πληροφορίας στον. Υπολογιστή

Παράμετροι σχεδίασης παλμών (Μορφοποίηση παλμών)

Ακουστική)και)Ψυχοακουστική

Συμπίεση Δεδομένων

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

Συμπίεση Δεδομένων

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών

Μάθημα 7 ο. Συμπίεση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 6 η : Συμπίεση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Αρχές Τηλεπικοινωνιών

ιαφορική εντροπία Σεραφείµ Καραµπογιάς

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB )

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Υπολογιστικά συστήµατα: ψηφιακά µέσα

Επικοινωνίες I FM ΔΙΑΜΟΡΦΩΣΗ. Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Ημιτονοειδή σήματα Σ.Χ.

Ψηφιακή Επεξεργασία Εικόνων

Συμπίεση Δεδομένων

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

Transcript:

Κωδικοποίηση ήχου Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής T. Painter and A. Spanias, Perceptual Coding of Digital Audio, Proceedings of the IEEE, pp. 451-513, April 2000. P. Noll, MPEG digital audio coding, IEEE Signal Processing Magazine, pp. 59-81, Sept. 1997.

Καμπύλες ηχηρότητας Fletcher-Munson 2

Όριο ακοής Καθαροί τόνοι, περιβάλλον χωρίς θόρυβο 3

Ακουστική σκίαση συχνοτήτων 4 4

Κρίσιμες ζώνες συχνοτήτων (1/2) Σύστημα ακοής: επικαλυπτόμενα φίλτρα Εύρος ζώνης 50 έως 100 Hz για σήματα κάτω των 500 Hz και μέχρι 5000 Hz για υψηλές συχνότητες 25 κρίσιμες ζώνες b=13 arctan(0.76 f )+3.5 arctan ( f 2 56.25 ) Δf =25+75 (1+1.4 f 2 )0.69 f khz, Δf Hz 5

Κρίσιμες ζώνες συχνοτήτων (2/2) 6

Ακουστική χρονική σκίαση 7 Χρονική διάρκεια τόνου σκίασης 7

Τεχνολογίες κλειδιά Ακουστική σκίαση Προσδιορισμός μιας συνάρτησης της συχνότητας: σήμα / επίπεδο σκίασης Βήμα κβαντισμού κι επομένως κατανομή bits Διαφανής συμπίεση = χωρίς αντιληπτή διαφορά Συμπίεση στο πεδίο του μετασχηματισμού 8

Συμπίεση MPEG-1 CD-Audio : 2 x 44100 samples/sec x 16 bits/sample = 1.41 Mbits/sec Διαφανής ποιότητα Βαθμός συμπίεσης Layer I 384 kbits/sec DCC 4 Layer II 192 kbits/sec DAB, CD-I, DVD 8 Layer III 128 kbits/sec ISDN, Internet, Δορυφορικό 12 Δειγματοληψία : 32 khz, 44.1 khz, 48 khz 9

Συμπίεση MPEG-1 (Layers I και II) Φίλτρα ανάλυσης Κβαντιστής FFT Κατανομή πόρων και συντελεστών Συνάρτηση μάσκας 32 φίλτρα ίσου εύρους : 750 Hz για 48 khz Βαθυπερατό φίλτρο και διαμόρφωση μέσω DCT Κβαντιστής ελεγχόμενος από δυναμική κατανομή bits Χρονικά πλαίσια (8 ms / 24 ms για 48 khz) 10

Layers I και II : Φίλτρα ανάλυσης 32 φίλτρα ίσου εύρους : 750 Hz για 48 khz Βαθυπερατό φίλτρο και διαμόρφωση μέσω DCT Ανάλυση σε 32 ζώνες συχνοτήτων Quadrature-Mirror Filter h k (n)=h(n)cos( (2 k 1) π n +φ k ) 2M k = 1,, M=32 n = 1,, N=512 11

Συμπίεση MPEG-1 (Layer II) Ισχύς Δυναμική κατανομή bits (128 kbits/sec) Οριο σκίασης Σήμα/σκιά Αριθμός bits Ισχύς σφάλματος 12

Συμπίεση MPEG-1 (Layer III) / MP3 Φίλτρα ανάλυσης MDCT FFT Συνάρτηση μάσκας Κβαντιστής Κώδικας Huffman Κωδικοποίηση Τροποποιημένος DCT (50% επικάλυψη μπλοκ, 6/18 συντελεστών) καλύτερη φασματική ανάλυση Μη ομοιόμορφος κβαντισμός 32 πίνακες κωδίκων Huffman και διαστήματα «μηδέν» 13

Συμπίεση MPEG-1 (Layer III) / MP3 14

Συμπίεση MPEG-2 AAC (1/2) Κωδικοποίηση Προ-επεξεργασία Φίλτρα ανάλυσης Περιορισμός θορύβου Ζευγάρωμα Πρόβλεψη Στέρεο Μοντέλο αντίληψης Τροποποιημένος DCT (50% επικάλυψη μπλοκ) καλύτερη φασματική ανάλυση Κβαντιστής Ελεγχος Κωδικοποίηση Μη ομοιόμορφος κβαντισμός Κωδικοποίηση Huffman 15

Συμπίεση MPEG-2 AAC (2/2) Περισσότερες συχνότητες δειγματοληψίας 8 khz 96 khz Πολυκαναλικά σήματα Περιορισμός θορύβου μέσω της κατανομής των σφαλμάτων κβαντισμού στο χρόνο χρησιμοποιώντας πρόβλεψη στο πεδίο των συχνοτήτων 16

Τύποι κωδικοποίησης ήχου MPEG-4 Συνθετική φωνή (TTS) 200-1200 bits/sec κείμενο, παράμετροι προσωδίας, ρυθμού ομιλίας,... διεθνές αλφάβητο φωνημάτων Συνθετική μουσική (SAOL) δομή ορχήστρας, περιγραφή συνθετικής μουσικής Παραμετρική κωδικοποίηση φωνής/ήχου 2-4 kbits/sec στα 8 khz 4-16 kbits/sec στα 8 khz ή 16 khz Κωδικοποίηση φωνής με γραμμική πρόβλεψη (CELP) 6-24 kbits/sec στα 8 khz ή 16 khz Κωδικοποίηση ήχου (MPEG-4 AAC) 17

Συμπίεση MPEG-4 AAC Βασικό σχήμα : MPEG-2 AAC Αντικατάσταση θορύβου μέσω γένεσης σημάτων τύπου θορύβου στον αποκωδικοποιητή Κλιμάκωση του δυαδικού κώδικα 24 kbits/s (mono), 40 kbits/s (stereo), 56 kbits/s (stereo) Διανυσματικός κβαντισμός για υψηλή συμπίεση Μεγαλύτερη αντοχή σε σφάλματα μετάδοσης 18

Συμπίεση MPEG-4 AAC / MP4 Αντικατάσταση ζωνών τύπου «θορύβου» μέσω γένεσης σημάτων θορύβου στον αποκωδικοποιητή (παραμετρική μοντελοποίηση) Μακροχρόνια πρόβλεψη χρήσιμη για στάσιμα αρμονικά σήματα Διανυσματικός κβαντισμός μετά από διεμπλοκή και στάθμιση Έκδοση για μικρή καθυστέρηση (20 ms) Ισχυρή προστασία από σφάλματα μετάδοσης Κλιμάκωση ποιότητας με αριθμητική κωδικοποίηση (έκδοση 2) Τυπικός στόχος : 24 kbits/sec/channel 19

Βασικές παράμετροι σημάτων φωνής Φωνή τηλεφώνου Φωνή ευρείας ζώνης Συχνότητες Hz Δειγματοληψία khz bits/sample kbits/sec 200-3400 8 8 64 50-7000 16 8 128 Υψηλός ρυθμός : 32 kbits/sec Μέσος ρυθμός : 8 kbits/sec Χαμηλός ρυθμός : 4 kbits/sec Πολύ χαμηλός ρυθμός : 2 kbits/sec 20

Χαρακτηριστικά σήματος φωνής (1/2) Μη στάσιμο σήμα, με στάσιμα χαρακτηριστικά για μικρά διαστήματα, 5-20 msec Φωνήεντα : περιοδικά σήματα διαμορφωμένες καθαρές συχνότητες (αρμονικές) Σύμφωνα : ευρεία ζώνη, σήματα τύπου θορύβου Συχνότητες συντονισμού της φωνητικής κοιλότητας 21

Χαρακτηριστικά σήματος φωνής (2/2) 22

Παραμετρική κωδικοποίηση ήχου 23

Κωδικοποίηση γραμμικής πρόβλεψης (LPC) Μοντέλο διέγερσης 2 καταστάσεων Κέρδος, θεμελιώδης συχνότητα και απόφαση φωνήεν (ναι/όχι), θόρυβος LPC-10 2,4 kbits/sec 24

Κωδικοποίηση με ανάλυση μέσω σύνθεσης Η διέγερση προσδιορίζεται με βελτιστοποίηση κλειστού βρόχου Διέγερση + + + + AL(z) A(z) MSE W(z) + + Βραχυχρόνιο φίλτρο : διαμόρφωση φωνής Μακροχρόνιο φίλτρο : θεμελιώδης συχνότητα Στάθμιση σφάλματος : ανθρώπινη ακοή Διέγερση μέσω κωδικοποιημένων σημάτων διάρκειας 5 ms Λεξικό 1024 διανυσμάτων με 40 συνιστώσες 25