Περιεχόµενα ΕΠΛ 422: Συστήµατα Πολυµέσων Συµπίεση Ήχου Μέθοδοι συµπίεσης ηχητικών σηµάτων DPCM Συµπίεση σηµάτων οµιλίας Κωδικοποίηση µε βάση την αντίληψη Χαρακτηριστικά και εφαρµογές Ψυχοακουστική (psychoacoustics) Συνοπτική εικόνα Το MPEG-1 Audio frame Bits Allocation Βιβλιογραφία Μέθοδοι συµπίεσης ηχητικών σηµάτων Καγιάφας [2]: Κεφάλαιο 5, [link] Halsall [21]: Chapter 4, pp. 173-19 Peter Noll, "MPEG Digital Audio Coding," IEEE Signal Processing Magazine, September 1997, pp. 59-81 Karlheinz Brandenburg, "MP3 and AAC explained," Proceedings of the AES 17th International Conference on High Quality Audio Coding, Florence, Italy, 1999. Davis Pan, "A Tutorial on MPEG/Audio Compression," IEEE Multimedia Vol. 2, No. 7, 1995, pp. 6-74. DPCM Συµπίεση σηµάτων οµιλίας LPC (Linear Predictive Coding) Αναγνώριση από το σήµα οµιλίας των χαρακτηριστικών: Pitch Duration ( ιάρκεια) Ένταση και χρήση τους για τη σύνθεση οµιλίας στον δέκτη CELP (Code Excited Linear Prediction) Πιο εξελιγµένη µορφή από την LPC η οποία χρησιµοποιεί µια σειρά από µοντέλα για την προσοµοίωση της φωνητικής οδού και επιτυγχάνει ποιότητα οµιλίας µορφής τηλεδιάσκεψης Το LPC και το CELP επιτυγχάνουν ρυθµούς µετάδοσης έως και 2.4 ή 4.8 Kbps αντίστοιχα Κωδικοποίηση µε βάση την αντίληψη
Κωδικοποίηση µε βάση την αντίληψη Υπάρχουν πολλοί αλγόριθµοι κωδικοποίησης µε βάση την αντίληψη οι κυριότεροι από τους οποίους βασίζονται στο πρότυπο MPEG (Moving Picture Expert Groups) Είναι αλγόριθµοι συµπίεσης µε απώλειες και βασίζονται στη λογική της µη µετάδοσης του τµήµατος εκείνου ενός ηχητικού (ή οπτικού) σήµατος το οποίο δεν µπορεί να γίνει αντιληπτό από τα ανθρώπινα αισθητήρια όργανα Για την συµπίεση ήχου λαµβάνονται τρία βασικά χαρακτηριστικά του ακουστικού συστήµατος του ανθρώπου: ιακριτική ικανότητα αντίληψης συχνοτήτων από το αυτί (critical band) Φασµατική κάλυψη (Spectral masking) Χρονική κάλυψη (Temporal masking) Χαρακτηριστικά και εφαρµογές To MPEG-1 είναι πρότυπο κωδικοποίησης βίντεο και audio: Προβλεπόµενος ρυθµός µετάδοσης 1.5 Mbits/sec συνολικά, περίπου 1.2 Mbits/sec για βίντεο και.3 Mbits/sec για τον ήχο Υπενθυµίζεται ότι για ασυµπίεστο ήχο ποιότητας CD απαιτούνται 44,1 samples/sec * 16 bits/sample * 2 channels > 1.4 Mbits/sec. Άρα χρειάζεται συµπίεση της τάξης του 4.5 έως 5 προς 1. Με το MPEG-1 audio και λόγο συµπίεσης 6:1 (ρυθµός µετάδοσης 256 kbits/sec) και σε βέλτιστες συνθήκες ακρόασης ακόµη και έµπειροι ακροατές αδυνατούν να αναγνωρίσουν το συµπιεσµένο από τον ασυµπίεστο ήχο. Το MPEG audio υποστηρίζει συχνότητες δειγµατοληψίας 32, 44.1 και 48 KHz. Υποστηρίζονται ένα ή δύο κανάλια σε τέσσερις δυνατούς συνδυασµούς: Μονοφωνικός ήχος (Monophonic - single audio channel) ύο µονοφωνικά κανάλια (Dual-monophonic - two independent channels, e.g., English and French) Στερεοφωνικός ήχος (Stereo) Στερεοφωνικός ήχος µε εκµετάλλευση του πλεονασµού της πληροφορίας ανάµεσα στα δύο κανάλια. Ψυχοακουστική (psychoacoustics) Ψυχοακουστική => Ακουστική Ικανότητα σε σχέση µε τη συχνότητα Εξέταση των δυνατοτήτων του ανθρώπινου ακουστικού συστήµατος: Ακουστική ικανότητα σε σχέση µε τη συχνότητα ιακριτική ικανότητα αυτιού σε σχέση µε τη συχνότητα Φασµατική κάλυψη Χρονική κάλυψη Sound Pressure Level (db) => 12 1 8 6 4 2 Threshold in quiet 5 1 15 2 frequency (khz) =>
Ψυχοακουστική => ιακριτική ικανότητα αυτιού σε σχέση µε τη συχνότητα (Critical Bands) Φασµατική κάλυψη και Χρονική κάλυψη Το αυτί µπορεί να διακρίνει συχνότητες που: Απέχουν >1 Hz µεταξύ τους για συχνότητες <5 Hz π.χ. µπορεί να διακρίνει τις συχνότητες 45 Hz και 33 Hz ανεξάρτητα την ισχύ που έχει καθεµία από αυτές (εφόσον φυσικά η ένταση τους ξεπερνά την ελάχιστη ακουστή τιµή) δεν µπορεί να διακρίνει όµως τις συχνότητες 45 Hz και 4 Hz (διαφέρουν λιγότερο από 1 Hz) και ακούει τη ισχυρότερη από αυτές Για συχνότητες > 5 Hz η διακριτική ικανότητα του αυτιού επιδεινώνεται σύµφωνα µε τη σχέση: Ελάχιστη απόσταση συχνοτήτων στη συχνότητα f = f / 5 (f σε Hz) Η διακριτική ικανότητα του αυτιού σε σχέση µε τις συχνότητες οδήγησε στη χρήση φίλτρων ανάλυσης σε ζώνες (subband filters) στο πλαίσιο της κωδικοποίησης µε βάση την αντίληψη Συνοπτική Εικόνα Ψυχοακουστική => Βήµατα κωδικοποίησης µε βάση την αντίληψη: Χρήση 12 x 32 δείγµατα (samples) Ανάλυση κάθε οµάδας 32 δειγµάτων σε 32 ζώνες συχνοτήτων (για δειγµατοληψία στα 48 khz κάθε ζώνη έχει εύρος 75 Hz). Υπολογισµός της κάλυψης (φασµατικής και χρονικής) για κάθε ζώνη συχνοτήτων (χρησιµοποιώντας το σύνολο των 12 x 32 = 384 δείγµατα) Αν η ισχύς σε κάποια ζώνη συχνοτήτων είναι µικρότερη από το κατώφλι κάλυψης τότε αυτή η ζώνη συχνοτήτων δεν κωδικοποιείται ( bits) Σε διαφορετική περίπτωση υπολογίζουµε τον αριθµό των bits που απαιτούνται για την κωδικοποίηση της έντασης του σήµατος που υπερβαίνει το κατώφλι κάλυψης (1 bit προσθέτει 6.2 db σηµατοθορυβικού λόγου) Μορφοποίηση του frame και µετάδοση Συνοπτική Εικόνα (ΙΙ)
Το MPEG-1 Audio frame Bit Allocation Επικεφαλίδα (header) 32 bits CRC (Cyclic Redundancy Code) -16 bits, προαιρετικό για έλεγχο σφαλµάτων Bit allocation: ηλώνει τον αριθµό των bits που χρησιµοποιούνται για την κωδικοποίηση των δειγµάτων σε κάθε µία από της 32 ζώνες. Κάθε δείγµα µπορεί να κωδικοποιηθεί σε -15 bits άρα χρειάζονται 4 bits για να µας δώσουν αυτή την πληροφορία Scale factors: Για τις ζώνες συχνοτήτων που δεν έχουν µηδενικό bit allocation η µέγιστη τιµή κάθε µιας από τις 32 ζωνες (στο σύνολο των 12 οµάδων) κωδικοποιείται µε 6 bits. είγµατα (Samples): κωδικοποίηση των 384 (12 x 32) δειγµάτων µε βάση των αριθµό των bits που υποδηλώνονται στο πεδίο bit allocation. Συµπληρωµατικά δεδοµένα (Ancillary data): προαιρετικά Masking threshold in guiet (db) => 18 16 14 12 1 8 6 4 2 5 1 15 2 25 3 Ακουστική ικανότητα στις 32 ζώνες Spectral Masking (db) => 4 35 3 25 2 15 1 5 5 1 15 2 25 3 Κατώφλι φασµατικής κάλυψης ανά ζώνη Bit Allocation (ΙΙ) Bit Allocation (ΙΙΙ) Global Masking Threshold (db) => 18 16 14 12 1 8 6 4 2 Sound Pressure Level (db) => 7 6 5 4 3 2 1 Original Signal Signal to Mask Ratio (db) => 5-5 -1 5 1 15 2 25 3 Συνολικό κατώφλι (masking threshold) 5 1 15 2 25 3 Ισχύ σήµατος ανά ζώνη -15 5 1 15 2 25 3 ιαφορά ισχύος σήµατος από κατώφλι κάλυψης (ανά ζώνη)
Bit Allocation (ΙV) Bit Allocation (V) 16 Bit Allocation 5 SNR due to bit Allocation Number of Assigned Bits => 14 12 1 8 6 4 2 Signal to Mask Ratio & Signal to Noise Ratio -5-1 -15 5 1 15 2 25 3 Απαιτούµενα bits για κωδικοποίηση ανά ζώνη 5 1 15 2 25 3 Περιθώριο ασφαλείας (διαφορά µπλε από κόκκινο) Υπολογισµός βαθµού συµπίεσης Στο παράδειγµα µας έχουµε 12 x 32 = 384 δείγµατα Σε ασυµπίεστη µορφή απαιτούνται 768 bytes (16 bits / δείγµα) Με βάση τον αλγόριθµο που περιγράψαµε έχουµε: 32 bits επικεφαλίδα 128 bits για καθορισµό του bits allocation 8 x 6 = 48 bits για κωδικοποίηση των 8 µη µηδενικών scaling factors 25 bits για κωδικοποίηση των δειγµάτων (8 µη µηδενικά δείγµατα µε αριθµό bits όπως υπολογίστηκε νωρίτερα) Σύνολο: 233 bits => 3 bytes Συµπίεση περίπου 25:1!