Κωδικοποίηση ήχου Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-1
Κωδικοποίηση καναλιού φωνής είγµατα PCM είγµατα DPCM Φίλτρο ADC - Μνήµη + Κωδικοποίηση φωνής Αποκωδικοποιηµένο δείγµα Αρχικά ψηφιοποίηση στα 64 kbps (G.711) Στη συνέχεια κωδικοποίηση πηγής ή καναλιού Κωδικοποίηση DPCM Κωδικοποίηση διαφορών αντί τιµών δειγµάτων Γενικά µεταδίδουµε µία προσέγγιση της διαφοράς Σε κάθε βήµα ξεκινάµε από την προηγούµενη προσέγγιση Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-2
Κωδικοποίηση καναλιού φωνής είγµατα PCM είγµατα DPCM Φίλτρο ADC - Βάρη + Μνήµη 3 Μνήµη 2 Μνήµη 1 Αποκωδικοποιηµένα δείγµατα Κωδικοποίηση DPCM µε πρόβλεψη Πρόβλεψη µε βάση γραµµικό συνδυασµό παλιών προβλέψεων Καλύτερες προσεγγίσεις µε λιγότερα bit Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-3
Κωδικοποίηση καναλιού φωνής Κωδικοποίηση ADPCM Χρήση πολλών τιµών για πρόβλεψη Μεταβολή του βήµατος κβαντοποίησης G.721: ποιότητα G.711 στα 32 kbps Χρήση των 8 προηγούµενων τιµών για πρόβλεψη G.726: περιλαµβάνει και επεκτείνει τα G.721 και G.723 Υποστηρίζει ρυθµούς 16, 24, 32 και 40 Kbps G.722: 64 kbps για εύρος ζώνης 7 KHz Χωρίζουµε τη φωνή σε δύο ζώνες συχνοτήτων Κωδικοποίηση κάθε ζώνης µε ADPCM 0-3,5 KHz: κωδικοποίηση µε 48 kbps 3,5-7 KHz: κωδικοποίηση µε 16 kbps Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-4
Κωδικοποίηση πηγής φωνής Φωνή Εξαγωγή χαρακτηριστικών Κωδικοποίηση παραµέτρων Αποκωδικοποίηση παραµέτρων Κωδικοποιηµένο σήµα Σύνθεση ήχου Φωνή Κωδικοποιητές φωνής (vocoders) Χρήση παραµετρικού µοντέλου της ανθρώπινης φωνής Εξαγωγή χαρακτηριστικών και προσαρµογή σε µοντέλο Φωνητικοί ήχοι: παράγονται µε κλειστές φωνητικές χορδές Σχηµατιστικές συχνότητες: παράγονται από λαιµό και στόµα Μη φωνητικοί ήχοι: παράγονται µε ανοιχτές φωνητικές χορδές Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-5
Κωδικοποίηση πηγής φωνής Αποκωδικοποίηση φωνής Παραγωγή βασικού ήχου και τροποποίησή του Οι φωνητικοί ήχοι παράγονται από γεννήτρια συχνοτήτων Οι µη φωνητικοί ήχοι παράγονται από γεννήτρια θορύβου Τροποποίηση µε βάση παραµέτρους µοντέλου Τελική τροποποίηση µε βάση τόνο και ένταση Γραµµική προβλεπτική κωδικοποίηση (LPC) Οι φωνητικοί ήχοι παράγονται από γεννήτρια συχνοτήτων Τροποποιούνται από φίλτρο σχηµατιστικών συχνοτήτων Οι µη φωνητικοί ήχοι παράγονται από γεννήτρια θορύβου Πρόβλεψη παραµέτρων από προηγούµενες οµάδες δειγµάτων LPC-10: γραµµικός συνδυασµός 10 οµάδων δειγµάτων Ρυθµοί µετάδοσης έως και 2,4 Kbps Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-6
Κωδικοποίηση πηγής φωνής Γραµµική πρόβλεψη διεγειρόµενη µε κωδικούς (CELP) Χρήση βιβλιοθήκης έτοιµων προτύπων Προσθήκη προσαρµοσµένων προτύπων Ο κωδικοποιητής εντοπίζει το καλύτερο ταίριασµα Ενηµέρωση προσαρµοσµένων προτύπων Πρόβλεψη παραµέτρων για µείωση του εύρους ζώνης G.728: 16 kbps Κατάλληλο για τηλεδιάσκεψη σε δίκτυα ISDN G.729: 8 kbps Χρησιµοποιείται στην κινητή τηλεφωνία (G.729a στο GSM) G.723.1: 5,3 ή 6,3 kbps Κατάλληλο για τηλεδιάσκεψη σε δίκτυα PSTN Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-7
Κωδικοποίηση πηγής φωνής Ποιότητα άριστη καλή 2000 ικανοποιητική 1990 επαρκής χαµηλή 1980 1 2 4 8 16 32 64 Kbps Η αποδοτική κωδικοποίηση έχει κόστος Αυξάνεται σηµαντικά η καθυστέρηση κωδικοποίησης Συνάρτηση Flanagan Καµπύλες ποιότητας ρυθµού µετάδοσης Κάθε δεκαετία αντιστοιχεί σε νέα καµπύλη Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-8
Αντιληπτική κωδικοποίηση Κωδικοποίηση γενικών ήχων εκτός φωνής Η κωδικοποίηση πηγής δεν είναι εφικτή εν γνωρίζουµε τα χαρακτηριστικά της πηγής Γνωρίζουµε όµως τα χαρακτηριστικά της ακοής Αντιληπτική κωδικοποίηση Χρήση ψυχοακουστικού µοντέλου της ακοής Εντοπισµός των µη αντιληπτών τµηµάτων του ήχου Κωδικοποίησή τους µε µικρή ακρίβεια ή καθόλου υναµικό εύρος της ακοής Πλέον ισχυρό / πλέον ασθενές αντιληπτό σήµα Εξαρτάται από την περιοχή συχνοτήτων Μεγιστοποιείται στην περιοχή 2-5 KHz Σήµατα που ακούγονται εκεί, δεν ακούγονται αλλού Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-9
Αντιληπτική κωδικοποίηση Απόκρυψη συχνοτήτων Τα ισχυρά σήµατα µειώνουν τοπικά το δυναµικό εύρος Στις γειτονικές συχνότητες ανεβαίνει το κάτω όριο Το εύρος της επίδρασης εξαρτάται από τη συχνότητα Απόκρυψη χρόνου Τα ισχυρά σήµατα αποκρύπτουν τα ασθενή για λίγη ώρα Το εύρος της επίδρασης εξαρτάται από τη συχνότητα Αξιοποίηση των αποκρύψεων Αναλύουµε το σήµα σε περιοχές συχνοτήτων Σε κάθε περιοχή εντοπίζουµε τα ισχυρά σήµατα Υπολογίζουµε την επίδρασή τους στα ασθενή σήµατα Σε κάθε περιοχή έχουµε διαφορετική επίδραση Κωδικοποιούµε τα ασθενή σήµατα µε µικρότερη ακρίβεια Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-10
Κωδικοποίηση ήχου MPEG MPEG Audio Layer 1, 2, 3 Τυποποιήθηκε στα πλαίσια του MPEG-1 Τρία επίπεδα µε προς τα πίσω συµβατότητα Πιο δηµοφιλές το επίπεδο 3 (MP3) Ψηφιοποίηση σήµατος 48, 44,1 ή 32 KHzµε 16 bit Βασική κωδικοποίηση Επεξεργασία πακέτου δειγµάτων MP1/2: διάκριση σε 32 ζώνες µε φίλτρα MP3: επιπλέον µετασχηµατισµός MDCT Κάθε ζώνη διακρίνεται σε 18 υποζώνες Μεγαλύτερη ακρίβεια στην απόκρυψη θορύβου Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-11
Κωδικοποίηση ήχου MPEG Στερεοφωνικά σήµατα Ανεξάρτητη ή εξαρτηµένη κωδικοποίηση (joint stereo) Ψυχοακουστικό µοντέλο Ξεκινάει µε FFT 1024 σηµείων ή την έξοδο του MDCT Εκτίµηση σηµασίας κάθε ζώνης/συντελεστή Κατανοµή των διαθέσιµων bit ανάλογα µε τη σηµασία Κβαντοποίηση Λογαριθµική κβαντοποίηση των συντελεστών Χρήση παράγοντα κβαντοποίησης για σταθερό ρυθµό bit Κωδικοποίηση εντροπίας MP1/2: PCM MP3: Huffman σε ζεύγη συντελεστών Επιλογή ενός πίνακα Huffman ανάλογα µε την είσοδο Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-12
Κωδικοποίηση ήχου MPEG ιπλός βρόχος προσαρµογής της κβαντοποίησης Εσωτερικός: ανάλογα µε έξοδο κωδικοποίησης εντροπίας Ρυθµίζει τον καθολικό παράγοντα κβαντοποίησης Εξωτερικός: ανάλογα µε θόρυβο σε κάθε ζώνη του σήµατος Ρυθµίζει παράγοντες κβαντοποίησης ανά ζώνη Τελική κωδικοποίηση Επίπεδα 1 και 2: σταθερός ρυθµός bit Επίπεδο 3: προαιρετικά και µεταβλητός ρυθµός bit Αλλαγή σε κάθε πλαίσιο (frame) ήχου Ρυθµός δεδοµένων: τουλάχιστον 32 Kbps Επίπεδο 1: Μέχρι 448 Kbps Επίπεδο 2: Μέχρι 384 Kbps Επίπεδο 3: Μέχρι 320 Kbps Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-13
Κωδικοποίηση ήχου MPEG Εξαρτηµένη στερεοφωνική κωδικοποίηση (joint stereo) Ο άνθρωπος αντιλαµβάνεται το στέρεο µε δύο τρόπους ιαφορές στο χρονισµό των καναλιών ιαφορές στην ένταση των καναλιών Κωδικοποίηση έντασης (intensity) Στις χαµηλές συχνότητες δεν αντιλαµβανόµαστε τον χρονισµό Συνένωση δεξιού/αριστερού καναλιού Προσθήκη πληροφορίας για τις διαφορές εντάσεων Καλύτερη ποιότητα ήχου σε χαµηλό ρυθµό bit Κεντρική-πλευρική κωδικοποίηση (mid-side) Το κεντρικό κανάλι είναι το άθροισµα δεξιού/αριστερού Το πλευρικό κανάλι είναι η διαφορά τους Μη απωλεστικός µετασχηµατισµός Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-14
Κωδικοποίηση ήχου MPEG Πολυκαναλικός ήχος MPEG-2 Μέχρι πέντε κανάλια πλήρους εύρους Κεντρικό, εµπρός, περιφερειακά Κανάλι βελτίωσης µπάσων (LFE) Συχνότητες 15-120 Hz Επιτρέπονται διάφοροι συνδυασµοί Πολύγλωσση οµιλία και σχολιασµός Κινηµατογραφικός ήχος 5.1 Άλλες προσθήκες του MPEG-2 Υποδιπλάσιοι ρυθµοί δειγµατοληψίας Αποδοτικό µε 64 Kbps ανά κανάλι Συµβατότητα µε MPEG-1 L C R L R LS LFE RS LS RS (α) (β) L C R L R LFE LFE (γ) (δ) Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-15
Κωδικοποίηση ήχου MPEG Μορφή αρχείων MPEG-1 Το αρχείο µπορεί να έχει κάποια ιδιαίτερη κεφαλίδα Εξαρτάται από το µορφότυπο, όχι από το πρότυπο Το αρχείο διακρίνεται σε πλαίσια (frames) ήχου ιάρκεια 24 msστα 48 KHz Κάθε πλαίσιο έχει µία κεφαλίδα Επιτρέπει την άµεση έναρξη της απωκοδικοποίησης Λέξη χρονισµού: έλεγχος για περιοδική εµφάνιση Μπορεί να εµφανίζεται και στα δεδοµένα Ρυθµός bit: επιτρέπει αλλαγή ανά πλαίσιο Συχνότητα δειγµατοληψίας: επιτρέπει αλλαγή ανά πλαίσιο Επίπεδο: 1, 2, 3 ή παραλλαγές Τρόπος κωδικοποίησης: στέρεο, κοινό στέρεο, κ.λπ. Bit προστασίας: χρησιµοποιούνται ελάχιστα Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-16
Κωδικοποίηση ήχου MPEG Προβλήµατα της ψηφιακής κωδικοποίησης ήχου ιαφέρουν από αυτά που εµφανίζονται στον αναλογικό ήχο Απώλεια ποιότητας Εµφανίζεται σε συγκεκριµένες περιοχές συχνοτήτων εν µοιάζει µε την αναλογική αρµονική παραµόρφωση Μπορεί να αλλάζει σε κάθε διάστηµα κωδικοποίησης Εξαφάνιση συχνοτήτων λόγω χαµηλού ρυθµού bit Αναγκαστικός µηδενισµός ορισµένων συντελεστών Προ-ηχώ (pre-echo) Απότοµη αλλαγή στο µέσο ενός διαστήµατος κωδικοποίησης Παράγει θόρυβο λόγω ανεπαρκούς ρυθµού bit Ο θόρυβος απλώνεται σε όλο το διάστηµα κωδικοποίησης ιπλή οµιλία (double speak) Οφείλεται στη διαφορά περιόδου του σήµατος και της κωδικοποίησης Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-17
Κωδικοποίηση ήχου MPEG MPEG-2 Advanced Audio Coding (AAC) Νέος κωδικοποιητής, πιο αποδοτικός από το MPEG-1 Μείωση ρυθµού bit κατά 30% για ίδια ποιότητα εν διατηρεί προς τα πίσω συµβατότητα Ίδια βασική δοµή αλλά µε πολλές βελτιώσεις Βασικός κωδικοποιητής ήχου και για το MPEG-4 Βελτιώσεις κωδικοποίησης Έως και 1024 ζώνες συχνοτήτων (αντί για 576) Χρησιµοποιείται µόνο MDCT, όχι φίλτρα Η περίοδος κωδικοποίησης είναι µικρότερη Βελτιωµένη εξαρτηµένη στερεοφωνική κωδικοποίηση Κωδικοποίηση (Huffman) σε τετράδεςσυντελεστών Πρόβλεψη συντελεστών σε κάθε συχνότητα Χρησιµοποιείται πολύ σπάνια Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-18
Κωδικοποίηση ήχου MPEG Βελτιώσεις ποιότητας Μειωµένη προ-ηχώ (pre-echo) Οφείλεται στη µικρότερη περίοδο κωδικοποίησης Χρονική µορφοποίηση θορύβου (TNS) Αποφυγή του φαινοµένου της διπλής οµιλίας Μορφή αρχείων AAC Audio Data Interchange Format (ADIF) Όλες οι πληροφορίες είναι σε µία κεφαλίδα Αποκωδικοποίηση µόνο από την αρχή του αρχείου Audio Data Transport Stream (ADTS) Κεφαλίδες ανά πλαίσιο ήχου Παρόµοιο µε το MPEG-1 Επιτρέπει όµως και πλαίσια µεταβλητού µεγέθους Επίπεδο 4 στην κεφαλίδα του πλαισίου Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-19