Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης MPEG-1 layer I, layer II, layer III



Σχετικά έγγραφα
Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ, 2007 ΘΡ. ΤΣΙΑΤΣΟΣ

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Ψηφιακή Επεξεργασία Σηµμάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

ΜΟΥΣΙΚΗ ΚΑΙ ΥΠΟΛΟΓΙΣΤΕΣ

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Αντίστοιχα σημαντικό ήταν το Mp3, όσον αφορά την ταχύτητα των συνδέσεων στο Internet.

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 11: Χαρακτηριστικά Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

ΠΑΡΑΓΩΓΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ

ΨΗΦΙΟΓΡΑΦΙΚΕΣ ΕΙΚΟΝΕΣ

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων

Ψηφιακή Επεξεργασία Σηµμάτων

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Κεφάλαιο 4 Συμπίεση Ήχου

Τηλεπικοινωνιακά Συστήματα Ι

Αρώνη Ιωάννα (Α.Μ. 655) κ. Παπαδάκης Νικόλαος

Φυσική για Μηχανικούς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Τεχνολογία Πολυμέσων. Ενότητα 3: Ψηφιοποίηση της Πληροφορίας. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Περιεχόμενα. 4.1 Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Πρόλογος...

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Γιατί Συµπίεση; Βιβλιογραφία

Ψηφιακή Αναπαράσταση Σήματος: Δειγματοληψία, Κβαντισμός και Κωδικοποίηση

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας

Φυσική για Μηχανικούς

Κωδικοποίηση βίντεο (MPEG)

Φυσική για Μηχανικούς

Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ. ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

Ευρυζωνικά δίκτυα (2) Αγγελική Αλεξίου

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Από τις τριγωνομετρικές συναρτήσεις στο Mp3

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ακουστική)και)Ψυχοακουστική

ITU-T : H.261 (1990), H.262 (1996), H.263 (1995) MPEG-1, MPEG-2, MPEG-4. Αποθήκευση, Μετάδοση, Επικοινωνίες, ίκτυα

Πολυμεσικές Εφαρμογές

Συµπίεση Εικόνας: Το πρότυπο JPEG

ΒΑΣΙΚΑ ΘΕΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Φυσική για Μηχανικούς

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Αλληλεπίδραση με εφαρμογές ήχου

Τι συσχετίζεται με τον ήχο

Δίκτυα Απευθείας Ζεύξης

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΚΟΥΣΤΙΚΕΣ ΣΤΑΘΜΕΣ, ΜΕΤΡΗΣΕΙΣ, ΘΟΡΥΒΟΣ, ΗΧΟΜΟΝΩΣΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ

Τηλεπικοινωνιακά Συστήματα Ι

Εφαρµογές Προσαρµοστικών Συστηµάτων: Καταστολή ηχούς, Ισοστάθµιση καναλιού και ανίχνευση συµβόλων

ΚΩ ΙΚΟΠΟΙΗΣΗ ΟΜΙΛΙΑΣ. Μικρότερος ρυθµός µετάδοσης Μεγαλύτερη χωρητικότητα. Νοε-06 Γ.Ι.Στεφάνου 1

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

Κωδικοποίηση βίντεο (H.261 / DVI)

Τηλεπικοινωνιακά Συστήματα ΙΙ

Συστήματα Επικοινωνιών ΙI

Ψηφιακή Επεξεργασία Σημάτων

Αφήγηση Μαρτυρία. Μουσική. Ενίσχυση μηνύματος Μουσική επένδυση Ηχητικά εφέ

Ψηφιακή Επεξεργασία Σηµμάτων

Υπερβολικός ή ανεπιθύμητος ήχος με αποτέλεσμα ενόχληση ή απώλεια ακοής (φυσικής ή τεχνητής προέλευσης)

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Συµπίεση Ψηφιακών Εικόνων: Συµπίεση µε Απώλειες. Πρότυπα Συµπίεσης Εικόνων

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Κατηγορίες τεχνικών συµπίεσης. Τεχνικές Συµπίεσης

ΒΕΣ 04: Συµπίεση και Μετάδοση Πολυµέσων. Περιεχόµενα. Βιβλιογραφία. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

1/3/2009. Τα ψηφιακά ηχητικά συστήματα πρέπει να επικοινωνήσουν με τον «αναλογικό» ανθρώπινο κόσμο. Φλώρος Ανδρέας Επίκ. Καθηγητής.

Συστήµατα και Αλγόριθµοι Πολυµέσων

Θέµα 1: Φασµατική ανάλυση. Συναρτήσεις παραθύρου. Ψηφιακά φίλτρα. Ανάλυση σε Χρόνο-Συχνότητα (Φασµατογράφηµα).

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Εισαγωγή. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

Ασκήσεις στα Συστήµατα Ηλεκτρονικών Επικοινωνιών Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

Ραδιοτηλεοπτικά Συστήματα Ενότητα 3: Θεωρία Ψηφιοποίησης

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Εφαρµογές ήχου στα Πολυµέσα. Βιβλιογραφία. Ήχος και Πολυµέσα

Τηλεπικοινωνίες. Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Ακαδηµαϊκό Έτος , Εαρινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Επεξεργασία Χαρτογραφικής Εικόνας

Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας

Κωδικοποίηση βίντεο (MPEG)

Ευρυζωνικά δίκτυα (4) Αγγελική Αλεξίου

Συστήματα Πολυμέσων. Ενότητα 7: Συμπίεση Εικόνας κατά JPEG. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήµατα ιάχυτου Φάσµατος (Spread

«Επικοινωνίες δεδομένων»

Ψηφιακές Τηλεπικοινωνίες. Διαμόρφωση Παλμών κατά Πλάτος

8. ΔΙΑΜΟΡΦΩΣΗ: ΓΕΝΙΚΗ ΘΕΩΡΗΣΗ Ορισμoί Εμπλεκόμενα σήματα

ΠΛΗ 22: Βασικά Ζητήματα Δίκτυα Η/Υ

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

3 ο ΚΕΦΑΛΑΙΟ ΕΡΩΤΗΣΕΙΣ ΑΥΤΟΕΞΕΤΑΣΗΣ. 1) Nα αναφερθούν κάποια είδη πληροφοριών που χρησιμοποιούνται για επικοινωνία.

Φυσικό Επίπεδο Σήµατα & Κωδικοποίηση. Ενότητα Β

Παράμετροι σχεδίασης παλμών (Μορφοποίηση παλμών)

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

Ο Ήχος ως Σήμα & η Ακουστική Οδός ως Σύστημα

Διάλεξη 8. Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων. Αντιληπτό ύψος καθαρού τόνου Απόλυτο ύψος

Τι συσχετίζεται με τον ήχο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Τι είναι το JPEG2000?

Transcript:

ΒΕΣ 4 Συµπίεση και Μετάδοση Πολυµέσων Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης layer I, layer II, layer III Εισαγωγή Υπάρχουν πολλοί αλγόριθµοι κωδικοποίησης µε βάση την αντίληψη οι κυριότεροι από τους οποίους βασίζονται στο πρότυπο MPEG (Moving Picture Expert Groups) Είναι αλγόριθµοι συµπίεσης µε απώλειες και βασίζονται στη λογική της µη µετάδοσης του τµήµατος εκείνου ενός ηχητικού (ήοπτικού) σήµατος το οποίο δεν µπορεί να γίνει αντιληπτό από τα ανθρώπινα αισθητήρια όργανα Για την συµπίεση ήχου λαµβάνονται τρία βασικά χαρακτηριστικά του ακουστικού συστήµατος του ανθρώπου: Ακουστική ικανότητα των ανθρώπων στις διάφορες συχνότητες ιακριτική ικανότητα αντίληψης συχνοτήτων από το αυτί (critical bands) Φασµατική κάλυψη (Spectral masking) 1

Κωδικοποίηση µε βάσητην αντίληψη: Βασικό διάγραµµα Buffer => Οµαδοποίηση δειγµάτων (π.χ. 1152 δείγµατα) FFT => Υπολογισµός του φάσµατος του σήµατος µε βάσηταανωτέρω οµαδοποιηµένα δείγµατα Masking thresholds => Υπολογισµός φασµατικής κάλυψης µε βάσητην ισχύ των επιµέρους συχνοτήτων Parameter allocation => Καθορισµός των bits που θα χρησιµοποιηθούν για την κωδικοποίηση των δειγµάτων (ανά ζώνη συχνοτήτων) Ψυχοακουστική Εξέταση των δυνατοτήτων του ανθρώπινου ακουστικού συστήµατος: Ακουστική ικανότητα σε σχέση µε τη συχνότητα (threshold of hearing) ιακριτική ικανότητα αυτιού σε σχέση µε τη συχνότητα (critical bands) Φασµατική κάλυψη (spectral masking) Χρονική κάλυψη (temporal masking) 12 Threshold in quiet Sound Pressure Level (db) => 1 8 6 4 2 5 1 15 2 frequency (khz) => 2

Ακουστική ικανότητα σε σχέση µε τη συχνότητα Sound Pressure Level (db) => 12 1 8 6 4 2 Threshold in quiet Το διάγραµµα τουσχήµατος δίνει την ακουστική ικανότητα των ανθρώπων σε σχέση µε τη συχνότητα. Μεγαλύτερη ευαισθησία (ακουστική ικανότητα) στις συχνότητες 2-4kHz Συχνότητες µεισχύµικρότερη από τη από τη ελάχιστη ακουστή µπορούν να απαλειφθούν κατά τη διαδικασία της κωδικοποίησης χωρίς να υπάρξει αντιληπτή διαφορά στην ποιότητα. Για παράδειγµα µια συχνότητα 15kHz µεισχύµικρότερη από 4 db δεν είναι ακουστή 5 1 15 2 frequency (khz) => 18 Ακουστική ικανότητα σε σχέση µετη συχνότητα (λογαριθµική κλίµακα) Threshold of human hearing, for pure tones 16 14 12 Sound Pressure in db 1 8 6 4 2 1.5 2 2.5 3 3.5 4 4.5 Frequency (log1 axis) - power of 1 in Hz 3

Το ανθρώπινο αυτί έχει περιορισµένη διακριτική ικανότητα. Μέσα σε µια περιορισµένη κριτική περιοχή εύρους ζώνης συγχέει (δεν µπορεί να διαχωρίσει) τις συχνότητες που ακούει Η διακριτική ικανότητα του αυτιού µπορεί να προσοµοιωθεί µετο άθροισµα µιας σειράς ζωνοπερατών φίλτρων µε εύρος ζώνης: ιακριτική ικανότητα αυτιού σε σχέση µε τη συχνότητα (Critical Bands) Περίπου 1 Hz για συχνότητες <5 Hz Κάθε περιοχή που αντιστοιχεί στο εύρος ζώνης ενός ζωνοπερατού φίλτρου ονοµάζεται κρίσιµη περιοχή συχνοτήτων (critical band) Η διακριτική ικανότητα του αυτιού, σε σχέση µε τις συχνότητες, εντός της κρίσιµης περιοχής συχνοτήτων είναι σχετικά περιορισµένη ενώ αντίθετα το αυτί µπορεί πολύ εύκολα να διακρίνει συχνότητες που ευρίσκονται σε διαφορετικά critical bands π.χ. µπορεί να διακρίνει τις συχνότητες 37 Hz και 43 Hz ανεξάρτητα την ισχύ που έχει καθεµία από αυτές (εφόσον φυσικά η ένταση τους ξεπερνά την ελάχιστη ακουστή τιµή) γιατί υπάγονται σε διαφορετικά critical bands (band # 4, band # 5) ενώ δεν µπορεί να διακρίνει τις συχνότητες 65 Hz και 74 Hz γιατί υπάγονται στο ίδιο critical bands (band # 7). ιακριτική ικανότητα αυτιού σε σχέση µε τησυχνότητα(ιι) Περίπου 1 Hz για συχνότητες <5 Hz (συν.) Το φαινόµενο της φασµατικής κάλυψης είναι ισχυρότερο εντός ενός critical band Σύµφωνα µετησχέσηbw = 25 +75 {1+1.4 (f/1) 2 }.69, (για συχνότητες f > 5 Hz) Η διακριτική ικανότητα του αυτιού σε σχέση µε τις συχνότητες οδήγησε στη χρήση φίλτρων ανάλυσης σε ζώνες (subband filters) στο πλαίσιο της κωδικοποίησης µε βάση την αντίληψη 4

Layer I Κωδικοποίηση ήχου µετο πρότυπο Κασέτα DCC της Philips Συµπίεση 4:1 Ποιότητα µέτρια Ρυθµός µετάδοσης 384 Kbps/κανάλι Layer II Ψηφιακό ραδιόφωνο DAB, VideoCD & DVD Συµπίεση 6:1 & 8:1 Ποιότητα εφάµιλλη του CD Ρυθµός µετάδοσης βελτιστοποιηµένος στην περιοχή 192 ή 256 kbps / κανάλι Layer III (mp3) Αρχεία mp3 στο διαδίκτυο Συµπίεση 1:1 & 12:1 Ποιότητα εφάµιλλη του CD Ρυθµός µετάδοσης 128 Kbps για στερεοφωνικό ήχο (64 kbps/κανάλι) Συνοπτική εικόνα Βήµατα κωδικοποίησης στο, layer I & II: 1. Χρήση 36 x 32 δείγµατα = 1152 (samples) Με δειγµατοληψία 48 samples /sec αυτό αντιστοιχεί σε διάρκεια 24 ms 2. Ανάλυση κάθε οµάδας 1152 δειγµάτων σε 32 ζώνες συχνοτήτων (για δειγµατοληψία στα 48 khz κάθε ζώνη έχει εύρος 75 Hz). 3. Υπολογισµός του µέγιστου συντελεστή (scalefactor) σε κάθε ζώνη συχνοτήτων (οµάδα 36 samples) 4. Υπολογισµός της κάλυψης (φασµατικής και χρονικής) για κάθε ζώνη συχνοτήτων (χρησιµοποιώντας το σύνολο των 36 x 32 = 1152 δείγµατα µε χρήση του FFT) 5. Αν η ισχύς σε κάποια ζώνη συχνοτήτων είναι µικρότερη από το κατώφλι κάλυψης τότε αυτή η ζώνη συχνοτήτων δεν κωδικοποιείται ( bits) 6. Σε διαφορετική περίπτωση υπολογίζουµε τον αριθµό τωνbits που απαιτούνται για την κωδικοποίηση της έντασης του σήµατος που υπερβαίνει το κατώφλι κάλυψης (1 bit προσθέτει 6.2 db σηµατοθορυβικού λόγου) 7. Μορφοποίηση του frame και µετάδοση 5

Συνοπτική εικόνα (II) Layer I και II 6

Το Audio frame Για κάθε 1152 δείγµατα σχηµατίζεται ένα πλαίσιο από bits που περιλαµβάνει τα ακόλουθα: Επικεφαλίδα (header) CRC (Cyclic Redundancy Code) -16 bits, προαιρετικό για έλεγχο σφαλµάτων Επιµερισµός bits (Bit Allocation): ηλώνει τον αριθµό τωνbits που χρησιµοποιούνται για την κωδικοποίηση των δειγµάτων σε κάθε µία από της 32 ζώνες. Κάθε δείγµα µπορεί να κωδικοποιηθεί σε -15 bits άρα χρειάζονται 4 bits για να µας δώσουν αυτή την πληροφορία Scale factors: Για τις ζώνες συχνοτήτων που δεν έχουν µηδενικό bit allocation η µέγιστη τιµή κάθεµιας από τις 32 ζωνες (στοσύνολοτων36 δειγµάτων) κωδικοποιείται µε 6 bits. είγµατα (Samples): κωδικοποίηση των 1152 (36 x 32) δειγµάτων µε βάση των αριθµότωνbits που υποδηλώνονται στο πεδίο bit allocation. Συµπληρωµατικά δεδοµένα (Ancillary data): προαιρετικά Επικεφαλίδα (Header) Η επικεφαλίδα αποτελείται από 32 bits και τα εξής πεδία: Κώδικας συγχρονισµού 16 bits (SYNC = 1111111111111111) Πληροφορίες καναλιού 2 bits (SI = Stereo Information) Monophonic => Code Dual Monophonic => Code 1 Stereo => Code 1 Joint Stereo => Code 11 Πληροφορίες Bit Ρate 4 bit (BR = Bit Rate) 32 kbps => Code 1 46 kbps => Code 1 kbps => Code 448 kbps => Code 111 Συχνότητα δειγµατοληψίας 2 bits (SR = Sampling Rate) 32 khz => Code 44.1 khz => Code 1 48 khz => Code 1 other => Code 11 (η συχνότητα ορίζεται στα επόµενα 8 bits) 7

Επιµερισµός bits (bit allocation) Το σήµα εισόδου διαχωρίζεται σε οµάδες 1152 δειγµάτων Κάθε οµάδα 1152 αναλύεται σε 32 ζώνες συχνοτήτων Υπολογίζεται η ακουστική ικανότητα σε κάθε µια από τις 32 ζώνες συχνοτήτων Υπολογίζεται η φασµατική κάλυψη εξαιτίας ισχυρών συχνοτήτων (µε τη βοήθεια του µετασχηµατισµού FFT) Υπολογίζεται ποιες ζώνες συχνοτήτων θα είναι ακουστές µετά από το συνδυασµό ακουστικής ικανότητας και φασµατικής κάλυψης Υπολογίζεται ο αριθµός των bits µε τον οποίο θα κωδικοποιηθούν τα δείγµατα εντός κάθε ζώνης συχνοτήτων Amplitude.2.15.1.5 -.5 -.1 -.15 -.2 1152 (32x36) samples buffered είγµατα σήµατος εισόδου 1 2 3 4 5 6 7 8 9 1 11 Sample Number Το διάγραµµα τουσχήµατος δίνει τις τιµές των πρώτων 1152 δειγµάτων ενός σήµατος µουσικής. Τα δείγµατααυτάθαπρέπεινα κωδικοποιηθούν µεκάποια bits το καθένα Στο τµήµατουσήµατος που αντιπροσωπεύεται από τα δείγµατα του σχήµατος υπάρχουν συχνότητες που δεν είναι ακουστές (ακουστική ικανότητα) και συχνότητες που είναι ισχυρές και καλύπτουν γειτονικές τους (φασµατική κάλυψη) Τα δύο αυτά φαινόµενα λειτουργούν αθροιστικά (για παράδειγµα η ακουστική ικανότητα στη συχνότητα 8kHz απαιτεί ένταση τουλάχιστον 2 db γιαναείναι ακουστή. Αν εξαιτίας της παρουσίας µιας ισχυρής συχνότητας στα 6kHz έχουµε φασµατική κάλυψη ύψους 15 db στη συχνότητα 8kHz τότε συνολικά η συχνότητα 8kHz θα είναι ακουστή αν έχει ένταση µεγαλύτερη από 35 db. 8

Amplitude Amplitude.5 -.5.4.2 -.2 Samples in the 1st Frequency zone [ Fs/64] 5 1 15 2 25 3 35 Samples in the 2nd Frequency zone [Fs/64 2*Fs/64] -.4 5 1 15 2 25 3 35 4 ιαχωρισµός δειγµάτων σε 32 ζώνες συχνοτήτων Το διάγραµµα τουσχήµατος δίνει τις τιµές δειγµάτων που αντιστοιχούν στις 3 πρώτες ζώνες συχνοτήτων. Κάθε ζώνη συχνοτήτων καλύπτει ένα διάστηµα Fs/64 (Fs = Sampling frequency) Το δείγµα µε την ισχυρότερη ένταση σε κάθε ζώνη αποτελεί το scaling factor της ζώνης αυτής Στο παράδειγµατουσχήµατος έχουµε: Ζώνη 1 => scaling factor το δείγµα 29 Ζώνη 2 => scaling factor το δείγµα 15 Ζώνη 3 => scaling factor το δείγµα 14.2 Samples in the 3rd Frequency zone [2*Fs/64 3*Fs/64] Amplitude.1 -.1 -.2 5 1 15 2 25 3 35 Ένταση των scaling factors (σε db) 1 9 8 7 6 5 4 3 2 Amplitude of scaling factors (db) Το διάγραµµα τουσχήµατος δίνει τις τιµές των scaling factors σε db. Οι τιµές αυτές θα συγκριθούν µετα επίπεδα ακουστικής ικανότητας + φασµατικής κάλυψης. Για όσες ζώνες τα scaling factors έχουν ένταση µεγαλύτερη από το άθροισµατων ανωτέρω επιπέδων τα δείγµατα στις ζώνες αυτές θα µεταδοθούν ενώ στις υπόλοιπες θα αγνοηθούν. 1 5 1 15 2 25 3 Frequency zone 9

25 2 15 1 Ακουστική ικανότητα ανά ζώνη συχνοτήτων Hearing thresholds in quiet Το διάγραµµα τουσχήµατος δίνει την ακουστική ικανότητα ανά ζώνη συχνοτήτων. Τα επίπεδα ακουστικής ικανότητας λαµβάνονται ως οι ελάχιστες τιµές σε κάθε ζώνη. Για παράδειγµα η ακουστική ικανότητα στη ζώνη 1 (συχνότητες -69 Hz) είναι καλύτερη στη συχνότητα 69 Hz. Εποµένως το επίπεδο ακουστότητας λαµβάνεται σε αυτή την τιµή 3 Hearing thresholds in quiet for zone 1 (freq [ 69Hz]) 5 25 5 1 15 2 25 3 Frequency zone 2 15 1 5 1 2 3 4 5 6 7 Frequency (Hz) 6 5 4 3 2 Spectral Masking per frequency zone Υπολογισµός Φασµατικής Κάλυψης Το διάγραµµα τουσχήµατος δίνει την φασµατική κάλυψη ανά ζώνη συχνοτήτων µε βάσητα1152 δείγµατα. 9 8 7 6 Ο υπολογισµός της φασµατικής κάλυψης έγινε µετηβοήθειατουµετασχηµατισµού FFT 124 σηµείων. Φασµατική κάλυψη δίνουν µόνο οι συχνότητες µε ένταση πάνω από 6 db Power Spectrum of input signal (1152 samples) 1 5 1 15 2 25 3 Frequency zone 5 4 3 2 1.5 1 1.5 2 Frequency (Hz) x 1 4 1

25 2 15 1 Total masking thresholds Συνολική κάλυψη Το διάγραµµα τουσχήµατος δίνει το συνολικό κατώφλι ακουστότητας (ακουστική ικανότητα + φασµατική κάλυψη) ανά ζώνη συχνοτήτων µε βάσητα 1152 δείγµατα. Οι ζώνες συχνοτήτων των οποίων η ένταση των scaling factors υπερβαίνει το συνολικό κατώφλι ακουστότητας θα κωδικοποιηθούν ενώ τα δείγµατα στις υπόλοιπες θα αγνοηθούν 1 9 Amplitude of scaling factors (db) 5 8 7 5 1 15 2 25 3 Frequency zone 6 5 4 3 2 1 5 1 15 2 25 3 Frequency zone 1 5-5 -1-15 -2 Ζώνες που κωδικοποιούνται Difference between Scaling Factors amplitude and total thresholds Οι ζώνες συχνοτήτων των οποίων η ένταση των scaling factors υπερβαίνει το συνολικό κατώφλι ακουστότητας θα κωδικοποιηθούν ενώ τα δείγµατα στις υπόλοιπες θα αγνοηθούν Απότοδιπλανόσχήµα φαίνεται ότι θα κωδικοποιηθούν τα δείγµατα στις ζώνες συχνοτήτων 1-17. Τα bits πουθαδιατεθούνγιατην κωδικοποίηση των δειγµάτων σε κάθε ζώνη υπολογίζονται διαιρώντας τις θετικές τιµές του διαγράµµατος µετο6 και στρογγυλοποιώντας προς την µεγαλύτερη ακέραια τιµή -25 5 1 15 2 25 3 35 Frequency zone 11

number of bits 16 14 12 1 8 6 4 Bit allocation per zone Επιµερισµός bit ανά ζώνη συχνοτήτων Στο σχήµα δίνεταιοαριθµός των bits µε τα οποία θα κωδικοποιηθούν τα δείγµατα σε κάθε ζώνη συχνοτήτων Τα δείγµατα σε 15 ζώνες δεν µεταδίδονται Με περισσότερα bits κωδικοποιούνται τα δείγµατα στη ζώνη 1 (15 bits) και µε λιγότερα τα δείγµατα στη ζώνη 1 (4 bits) Συνολικά για την κωδικοποίηση όλων των δειγµάτων χρειάζονται: 36*(15+14+12+12+ +7) = 5544 bits 2 5 1 15 2 25 3 Frequency zone Υπολογισµός βαθµού συµπίεσης Στο παράδειγµα µας έχουµε 36 x 32 = 1152 δείγµατα Σε ασυµπίεστη µορφή απαιτούνται 234 bytes (16 bits / δείγµα) Με βάση τον αλγόριθµο που περιγράψαµεέχουµε: 32 bits επικεφαλίδα 128 bits για καθορισµό τουbit allocation 17 x 6 = 12 bits για κωδικοποίηση των 17 scaling factors που αντιστοιχούν στις ζώνες συχνοτήτων οι οποίες είναι ακουστές 154 x 36 = 5544 bits για κωδικοποίηση των δειγµάτων (17 µη µηδενικές οµάδες δειγµάτων µε αριθµό bits όπως υπολογίστηκε νωρίτερα) Σύνολο: 586 bits => 726 bytes Συµπίεση περίπου 3.17:1 12

Layer III (mp3) ιαφορές του, Layer III σε σχέση µε το, Layer II Οι βασικές διαφορές του, Layer III (mp3) σε σχέση µετο, Layer II είναι: ΗχρήσητουMDCT (Modified Discrete Cosine Transform) για υποδιαίρεση του φάσµατος συχνοτήτων σε 576 ζώνες αντί για 32 µεστόχο την καλύτερη εκµετάλλευση της φασµατικής κάλυψης και τις διακριτικής ικανότητας Χρησιµοποιούνται 18 συντελεστές MDCT για κάθε µια από τις 32 ζώνες Τελικά δηµιουργούνται συνολικά 32 Χ 18 = 576 ζώνες στο φάσµα συχνοτήτων υναµικός επιµερισµός bits ανά ζώνη συχνοτήτων ώστε να µπορεί να επιτευχθεί το ζητούµενο από το χρήστη bit rate Χρήση κωδικοποίησης Huffman επί της κωδικοποίησης των δειγµάτων (codewords) για να επιτευχθεί περαιτέρω συµπίεση. 13

Χαρακτηριστικά του, Layer III Το µέγεθος και η ποιότητα των αρχείων ήχου καθορίζονται από τον ρυθµό µετάδοσης των δεδοµένων (bit rate). Το πρότυπο MP3 υποστηρίζει αρκετούς προκαθορισµένους ρυθµούς µετάδοσης δεδοµένων. Τα αρχεία µε µεγαλύτερο bit rate θα ακούγονται καλύτερα από αυτά µε µικρότερο bit rate. Συχνότητα Channels Bit rate Συµπίεση Ποιότητα 2.5 khz Mono 8 kbps 96:1 Τηλεφωνική 4.5 khz Mono 16 kbps 48:1 Βραχέα (SW) 11 khz Stereo 56..64 kbps 26.. 24:1 FM 15 khz Stereo 96 kbps 16:1 CD like >15 khz Stereo 112..128 kbps 14..12:1 CD Χαρακτηριστικά του, Layer III (II) Συµπίεση αρχείων ήχου µπορείναφτάσεικαιτο85% Με ρυθµό µετάδοσης (bit rate) άνω των 128 Kbps η διαφορά από το πρωτότυπο CD δεν γίνεται αντιληπτή. Το αποτέλεσµα είναιναέχουµε µουσικά αρχεία 4-6 λεπτών που κανονικά θα καταλάµβαναν χώρο 4-7 MB, να πιάνουν τώρα χώρο µόλις 3-7MB. 14