Ψηφιακή Επεξεργασία Σηµμάτων Διάλεξη 3: DSP for Audio ΚΩΔΙΚΟΠΟΙΗΣΗ ΚΑΙ ΣΥΜΠΙΕΣΗ ΗΧΗΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΤΟ ΠΡΟΤΥΠΟ ISO/IEC 11172-3 MPEG-1 Δρ. Θωµμάς Ζαρούχας Επιστηµμονικός Συνεργάτης Μεταπτυχιακό Πρόγραµμµμα: Τεχνολογίες και Συστήµματα Ευρυζωνικών Εφαρµμογών και Υπηρεσιών 1
Γενικά χαρακτηριστικά - Συχνότητες Δειγµατοληψίας 32, 44.1 και 48 khz - Ρυθµοί Δεδοµένων Επίπεδο Ι (Layer I): 32 ~ 448 kbps (demo 96 kbps) Επίπεδο ΙΙ (Layer II): 32 ~ 384kbps Επίπεδο ΙΙΙ (Layer III): 32 ~ 320 kbps - Τρόποι Λειτουργίας Μονοφωνικός Στερεοφωνικός Συνδυασµένος Στερεοφωνικός Διπλός µονοφωνικός
Γενικό Διάγραµµα του MPEG-1 Κωδικοποιητή Ηχητικό Σήµα PCM Πολυφασική Ανάλυση 32 Περιοχών Ανάθεση bits και Κωδικοποίηση Πολυπλέκτης Κωδικοποιηµένο Ηχητικό Σήµα Ψυχοακουστικό Μοντέλο Συµπληρωµατικά Δεδοµένα
Διάγραµµα MPEG-1 Κωδικοποιητή Επιπέδων Ι και ΙΙ Ηχητικό Σήµα PCM Τράπεζα Φίλτρων 32 περιοχών FFT 1024 σηµείων 0 31 Ψυχοακουστικό Μοντέλο Γραµµικός Κβαντιστής 0 31 Κωδικοποίηση Πληροφορίας Πλευράς Πολυπλέκτης Κωδικοποιηµένο Ηχητικό Σήµα
Σύγκριση Παραµέτρων Επιπέδου Ι και ΙΙ Παράµετροι MPEG-1 Επίπεδο I MPEG-1 Επίπεδο II Μήκος Πλαισίου (δείγµατα) 384 1152 Περιοχές 32 32 Δείγµατα ανά Περιοχή 12 36 FFT (δείγµατα) 512 1024 Ανάθεση bit (bits) 4 2 µε 4 ανάλογα µε την περιοχή Πληροφορία Επιλογής Συντελεστών Κλίµακας (bits) - 2 ανά περιοχή Συντελεστές Κλίµακας (bits) Οµαδοποίηση Δειγµάτων 6 ανά περιοχή 6 µε 18 ανά περιοχή (selectable) - 3 ανά περιοχή (granule)
Οµαδοποίηση Δειγµάτων στα Επίπεδα Ι και ΙΙ block 36 δειγµάτων Πολυφασική Τράπεζα Δηµιουργία blocks SB 1 Ηχητικό Σήµα PCM SB 2 SB 3 SB 32 block 12 δειγµάτων Επίπεδο I Επίπεδο II και III
Δοµή Πλαισίου για το Επίπεδο Ι Header CRC Ανάθεση bits Συντελεστές Κλίµακας Δεδοµένα 12 bit: Sync 20 bit: System info 16 bit 4 bit Δοµή Πλαισίου για το Επίπεδο ΙΙ 6 bit Δείγµατα Περιοχών Header CRC Ανάθεση Bits SCFSI Συντελεστές Κλίµακας Δεδοµένα 12 bit: Sync 20 bit: System info 16 bit Περιοχές Χαµ. Συχν. 4 bit Περιοχές Μεσ. Συχν. 3 bit Περιοχές Υψ. Συχν. 2 bit 2 bit 00 01 10 11 6 bit Δείγµατα Περιοχών
Επίπεδο Ι και ΙΙ - Η διαδικασία κωδικοποίησης είναι παρόµοια και στα δυο επίπεδα - Σηµαντική µείωση του ρυθµού δεδοµένων εξασφαλίζεται µε την αποτελεσµατικότερη κωδικοποίηση των bits της διαδικασίας ανάθεσης και των συντελεστών κλίµακας. Ο αριθµός των bit µεταβάλλεται από 0 έως 4 ως συνάρτηση της συχνοτικής περιοχής Χρήση 2 bit για την κωδικοποίηση της πληροφορίας επιλογής συντελεστών κλίµακας. Σηµαντική µείωση του ρυθµού δεδοµένων για τους συντελεστές κλίµακας στο Επίπεδο ΙΙ - Αποκωδικοποίηση Η διαδικασία της αποκωδικοποίησης απαιτεί σηµαντικά µικρότερη υπολογιστική ισχύ. Η σχέση για το Επίπεδο Ι είναι 1:2, ενώ για το Επίπεδο ΙΙ είναι 1:3.
Γενικό Διάγραµµα του MPEG-1 Αποκωδικοποιητή Κωδικοποιηµένο Ηχητικό Σήµα Αποπολύπλεξη και Έλεγχος Λαθών 0 31 Αποκωδικοποίηση Πληροφορίας Πλευράς Αντίστροφος Κβαντιστής 0 31 Τράπεζα Σύνθεσης 32 Περιοχών Ηχητικό Σήµα PCM
Κωδικοποιητής MPEG-1 Επιπέδου ΙΙΙ 0 0 Ηχητικό Σήµα PCM Τράπεζα Φίλτρων 32 περιοχών FFT 1024 σηµείων 31 MDCT 575 Ψυχοακουστικό Μοντέλο Μη-Οµοιόµορφος Midtread Κβαντιστής Κωδικοποίηση Πληροφορίας Πλευράς Huffman Κωδικοποίηση Πολύπλεξη Κωδικοποιηµένο Ηχητικό Σήµα
Τράπεζα Φίλτρων - Απόκριση Συχνότητας db Συχνότητα (Hz)
Ψυχοακουστικό Μοντέλο - Το Ψυχοακουστικό Μοντέλο 1 είναι υπολογιστικά απλούστερο και παρέχει την απαραίτητη ακρίβεια για υψηλούς ρυθµούς δεδοµένων. - Το Ψυχοακουστικό Μοντέλο 2 παρουσιάζει µεγαλύτερη πολυπλοκότητα και χρησιµοποιείται για χαµηλότερους ρυθµούς δεδοµένων. - Η έξοδος και για τα δύο Ψυχοακουστικά Μοντέλα είναι ο λόγος σήµατος προς επικάλυψη (signal to mask ratio SMR)
Ψυχοακουστικό Μοντέλο - Γενικό Διάγραµµα των Ψυχοακουστικών Μοντέλων FFT Τονικές και µη-τονικές Συνιστώσες Εφαρµογή Συνάρτησης Διασποράς Υπολογισµός Συνάρτησης Επικάλυψης Λόγος Σήµατος προς Επικάλυψη
Ψυχοακουστικό Μοντέλο - Λόγος Σήµατος προς Επικάλυψη (SMR) db 32 περιοχές
Διαδικασία Ανάθεσης bits - Καθορίζει τον αριθµό των bits που πρέπει να ανατεθεί ανά περιοχή µε βάση την πληροφορία από το Ψυχοακουστικό Μοντέλο. - Για τα Επίπεδα Ι και ΙΙ υπολογίζεται αρχικά ο λόγος επικάλυψης προς θόρυβο (MNR) MNR = SNR SMR (db), ανά συχνοτική περιοχή Στη συχνοτική περιοχή µε το µικρότερο MNR, ανατίθενται επιπλέον bits Υπολογίζεται ο λόγος σήµατος προς θόρυβο και επαναπροσδιορίζεται ο λόγος επικάλυψης προς θόρυβο Η διαδικασία επαναλαµβάνεται µέχρις ότου ανατεθούν όλα τα διαθέσιµα bits
Διαδικασία Ανάθεσης bits - Ρυθµός δεδοµένων 96 kbps bits 32 περιοχές
Διαδικασία Ανάθεσης bits - Ρυθµός δεδοµένων 128 kbps bits 32 περιοχές
Διαδικασία Ανάθεσης bits - Στο Επίπεδο ΙΙΙ η διαδικασία ανάθεσης bits και ο κβαντισµός πραγµατοποιούνται µε τη βοήθεια δυο ένθετων βρόχων Ο εξωτερικός βρόχος (distortion control loop) ελέγχει τον θόρυβο κβαντισµού Ο εσωτερικός βρόχος (rate control loop) προσαρµόζει τα βήµατα του µη-οµοιόµορφου κβαντιστή - Χρήση µη-οµοιόµορφου κβαντιστή Τύπου Midtread Βασική εξίσωση: ( ) is i xr à φασµατική συνιστώσα quant à βήµα κβαντισµού ( ) 0.75 xr i = nint 0.0946 quant
Η πολυπλοκότητα του κωδικοποιητή είναι µεγαλύτερη συγκριτικά µε τον αποκωδικοποιητή Percentage of function time 20% 23% Psychoacoustic Model Hybrid Filter Bank Bit Allocation & Quantization Huffman Coding, etc 39% 18%
Γενικό Διάγραµµα του MPEG-1 Αποκωδικοποιητή Κωδικοποιηµένο Ηχητικό Σήµα Αποπολύπλεξη Παλµοσειράς Ανασύσταση Φασµατικών Συνιστωσών Πεδίο Συχνότητας Χρόνου Ηχητικό Σήµα PCM Βοηθητική Πληροφορία
Αποκωδικοποιητής MPEG-1 Επιπέδου ΙΙΙ Κωδικοποιηµένο Ηχητικό Σήµα Αποπολύπλεξη και Έλεγχος Λαθών Huffman Αποκωδικ. Αποκωδικοποίηση Πληροφορίας Πλευράς Αποκλιµάκωση 0 575 Αντίστροφος MDCT 0 31 Τράπεζα Φίλτρων 32 Περιοχών Ηχητικό Σήµα PCM
Αποκωδικοποίηση - Ποσοστό % του ολικού χρόνου αποκωδικοποίησης 320 kb/s @ 44.1kHz 14% 19% 16% 25% 26% Subband Synthesis IMDCT Huffman Decoding Bitstream parsing Dequantization
Αποκωδικοποίηση - Ποσοστό % του ολικού χρόνου αποκωδικοποίησης 128 kb/s @ 44.1kHz 9% 15% 34% Subband Synthesis IMDCT Huffman Decoding 10% Bitstream parsing Dequantization 32%
Αρχικό Σήµα vs Κωδικοποιηµένο Σήµα - Αρχικό Ηχητικό Σήµα - Κωδικοποιηµένο Ηχητικό Σήµα (96 kbps) - Διαφορά Πλάτος Δείγµατα
Εφαρµογές - Επίπεδο Ι Οικιακές ηχογραφήσεις (τυπική παροχή 192 kbps) - Επίπεδο ΙΙ Οικιακές και επαγγελµατικές εφαρµογές Δίσκους DVD (τυπική παροχή 128 kbps) Ψηφιακό ραδιόφωνο DAB - Επίπεδο ΙΙΙ Τηλεπικοινωνιακές εφαρµογές Δίκτυα υπολογιστών Δορυφορικά κανάλια (τυπική παροχή 64~96 kbps)
Ευχαριστώ! E-mail: thzarouxas@upatras,gr Web: https://openeclass.teimes.gr