Βασικές Τεχνολογίες Κωδικοποίησης και συμπίεσης φωνής στα Τηλεπικοινωνιακά Δίκτυα: Τεχνικές, Τυποποιήσεις και Εφαρμογές

Σχετικά έγγραφα
Τμήμα Μηχανικών Η/Υ και Πληροφορικής

ΚΩ ΙΚΟΠΟΙΗΣΗ ΟΜΙΛΙΑΣ. Μικρότερος ρυθµός µετάδοσης Μεγαλύτερη χωρητικότητα. Νοε-06 Γ.Ι.Στεφάνου 1

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Διαδικασία Ψηφιοποίησης (1/2)

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Συστήματα Πολυμέσων. Ενότητα 11: Χαρακτηριστικά Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Συστήματα Επικοινωνιών

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων

Ψηφιακή Επεξεργασία Σηµμάτων

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Επικοινωνιών ΙI

Περιεχόμενα. 4.1 Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Πρόλογος...

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ITU-R F (2011/04)

ηµοτικό ιαδικτυακό Ραδιόφωνο και Τηλεόραση

Μοντέλο Επικοινωνίας Δεδομένων. Επικοινωνίες Δεδομένων Μάθημα 6 ο

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Τηλεπικοινωνιακά Συστήματα ΙΙ

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

ΠΤΥΧΙΑΚΗ. Θέμα πτυχιακής: Voice over IP. Ονοματεπώνυμο: Κόκκαλη Αλεξάνδρα

Συστήματα Επικοινωνιών ΙI

Τηλεπικοινωνίες. Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Προσομοίωση Συστήματος Επικοινωνίας Software Radio. Καλοχριστιανάκης Μιχάλης Επόπτης: Α. Τραγανίτης

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Τηλεπικοινωνιακά Συστήματα Ι

Ευρυζωνικά δίκτυα (2) Αγγελική Αλεξίου

Τηλεπικοινωνιακά Συστήματα Ι

Μετάδοση πληροφορίας - Διαμόρφωση

Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Φυσικής Εισαγωγή στα Συστήματα Τηλεπικοινωνιών Συστήματα Παλμοκωδικής Διαμόρφωσης

Μετάδοση πληροφορίας - Διαμόρφωση

Εισαγωγή στις Τηλεπικοινωνίες / Εργαστήριο

Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο

Συμπίεση Πολυμεσικών Δεδομένων

Ψηφιακή Επεξεργασία Σημάτων

Σταθερή περιβάλλουσα (Constant Envelope)

Παναγιώτης Μαθιόπουλος Ph.D.

Δίκτυα Θεωρία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΚΡΗΤΗΣ

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Συστήματα Επικοινωνιών ΙI

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Ιατρική Πληροφορική ΔΡ. Π. ΑΣΒΕΣΤΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΒΙΟΪΑΤΡΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ Τ. Ε. Χρήσιμοι Σύνδεσμοι

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Δορυφορική ψηφιακή τηλεόραση

ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ ΜΕΤΑΤΡΟΠΗ ΑΝΑΛΟΓΙΚΟΥ ΣΗΜΑΤΟΣ ΣΕ ΨΗΦΙΑΚΟ

ITU-T : H.261 (1990), H.262 (1996), H.263 (1995) MPEG-1, MPEG-2, MPEG-4. Αποθήκευση, Μετάδοση, Επικοινωνίες, ίκτυα

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες

Πολυμέσα σε Δίκτυα Κινητών Συσκευών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης MPEG-1 layer I, layer II, layer III

Τηλεπικοινωνιακά Συστήματα ΙΙ

Ψηφιακή Επεξεργασία Εικόνας

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

Κωδικοποίηση βίντεο (MPEG)

Ψηφιακή Μετάδοση Αναλογικών Σηµάτων

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Επίγεια ψηφιακή τηλεόραση

2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ TE ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΔΙΚΤΥΩΝ

Τεχνολογία Πολυμέσων. Ενότητα # 12: Κωδικοποίηση βίντεο: H.26x Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ - PCM (ΜΕΡΟΣ Α)

Δ13b. Συμπίεση Δεδομένων

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Οι βασικές βαθμίδες του συστήματος των δορυφορικών επικοινωνιών δίνονται στο παρακάτω σχήμα :

Τι συσχετίζεται με τον ήχο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ψηφιακή Επεξεργασία Εικόνας

MPEG-4: Βασικά Χαρακτηριστικά

Συμπίεση Δεδομένων

ΤΕΧΝΟΛΟΓΙΑ ΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Εισαγωγή στις Τηλεπικοινωνίες

Μετάδοση σήματος PCM

Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο

Δομή της παρουσίασης

Συστήματα Επικοινωνιών

Παράμετροι σχεδίασης παλμών (Μορφοποίηση παλμών)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΣΥΜΠΙΕΣΗ ΚΑΙ ΜΕΤΑΔΟΣΗ ΠΟΛΥΜΕΣΩΝ. Εισαγωγή. Κλήμης Νταλιάνης Λέκτορας ΠΔ 407/80

Εισαγωγή στις Τηλεπικοινωνίες

Παράδοση: Δευτέρα 6 Οκτωβρίου Ονοματεπώνυμο:.

Συστήματα Πολυμέσων. Ενότητα 8: Συμπίεση Εικόνας κατά JPEG Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Βασικές έννοιες και ιστορική αναδρομή

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Γιατί Συµπίεση; Βιβλιογραφία

Ψηφιακές Τηλεπικοινωνίες

Τηλεπικοινωνιακά Συστήματα Ι

Βασικές έννοιες και ιστορική αναδρομή

Αρχές Δικτύων Επικοινωνιών. Επικοινωνίες Δεδομένων Μάθημα 4 ο

Ο ΗΓΟΣ ΕΠΙΜΟΡΦΩΤΗ. Το εκπαιδευτικό υλικό υπόκειται σε Άδεια Χρήσης Creative Commons Αναφορά Μη-Εµπορική Χρήση Όχι Παράγωγο Έργο v. 3.

Τηλεπικοινωνιακά Συστήματα ΙΙ

Μετάδοση video στα κινητά 3 ης γενιάς: Δομή και απαιτούμενα πρωτόκολλα κωδικοποίησης

Transcript:

Βασικές Τεχνολογίες Κωδικοποίησης και συμπίεσης φωνής στα Τηλεπικοινωνιακά Δίκτυα: Τεχνικές, Τυποποιήσεις και Εφαρμογές Δρ. Σωτήρης Καραμπέτσος, Καθηγητής Εφαρμογών, Τμήμα Ηλεκτρονικής, ΤΕΙ ΑΘΗΝΑΣ

ΒΑΣΙΚΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΚΩΔΙΚΟΠΟΙΗΣΗΣ ΚΑΙ ΣΥΜΠΙΕΣΗΣ ΦΩΝΗΣ ΣΤΑ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΑ ΔΙΚΤΥΑ: ΤΕΧΝΙΚΕΣ, ΤΥΠΟΠΟΙΗΣΕΙΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΠΕΡΙΛΗΨΗ Η κωδικοποίηση ή συμπίεση φωνής (speech coding or compression) αποτελεί ένα από τα σημαντικότερα πεδία έρευνας της επεξεργασίας φωνής, με πλήθος εφαρμογών κυρίως στον κλάδο των επικοινωνιών. Ο σκοπός της διάλεξης είναι αφενός η παρουσίαση των βασικότερων τεχνικών και αλγορίθμων που έχουν προταθεί και χρησιμοποιούνται στην κωδικοποίησης φωνής και αφετέρου η περιγραφή των τυποποιήσεων (standards) που συνιστούν την τεχνολογία αιχμής καθώς και οι εφαρμογές τους. Επιπρόσθετα, παρουσιάζονται τα κυριότερα ζητήματα που αφορούν την σχεδίαση ενός σχήματος κωδικοποίησης και δίνονται οι παράμετροι που αφορούν την λειτουργικότητα ενός κωδικοποιητή και έχουν τον ρόλο των απαιτήσεων και κατ επέκταση των προδιαγραφών ενός συστήματος. Επιπλέον, συζητώνται οι σύγχρονες (τυποποιημένες) τεχνικές αξιολόγησης της απόδοσης ενός συστήματος κωδικοποίησης φωνής.. Ι. ΣΚΟΠΟΣ - ΕΙΣΑΓΩΓΗ Η φωνή αποτελεί ίσως τον πιο πρόσφορο τρόπο επικοινωνίας μεταξύ των ανθρώπων, με αποτέλεσμα η πλειοψηφία των δικτύων επικοινωνιών να περιλαμβάνει ώς υπηρεσία την μεταφορά φωνής με αξιόπιστο τρόπο. Απο την άλλη πλευρά, στις επικοινωνίες δεδομένων, είναι γνωστή η ανάγκη για οικονομία σε εύρος ζώνης η οποία συνεπάγεται την ανάπτυξη τεχνικών που συντελούν σε αυτό το σκοπό. Στις επικοινωνίες ή υπηρεσίες με φωνή (voice communications) και ιδιαίτερα στις ψηφιακές επικοινωνίες, οι τεχνικές αυτές ορίζουν τον τομέα της κωδικοποίησης ή συμπίεσης φωνής. Ο σκοπός της κωδικοποίησης φωνής είναι η αναπαράσταση του σήματος της φωνής με ελάχιστο αριθμό απο bits, ενώ ταυτόγχρονα να διατηρείται η καταληπτότητα και η φυσικότητα. Η μείωση του απαιτούμενου αριθμού απο bits οδηγεί σε λιγότερη απαίτηση στο ρυθμό μετάδοσης (bit rate) άρα και στο απαιτούμενο εύρος ζώνης. Βέβαια, η διατήρηση της καταληπτότητας και της φυσικότητας και η κωδικοποίηση με ελάχιστο αριθμό απο bits, είναι στόχοι αντικρουόμενοι (tradeoff) και ο σκοπός της σχεδίασης ενός επιτυχημένου κωδικοποιητή είναι είτε η εύρεση βέλτιστης λύσης μεταξύ των παραπάνω στόχων, γεγονός αρκετά δύσκολο, είτε η προσαρμογή του στις απαιτήσεις κάποιας εφαρμογής με θέσπιση συγκεκριμένων προδιαγραφών.

Οι οργανισμοί και οι ομάδες που είναι υπεύθυνοι για την θέσπιση των προδιαγραφών και την τυποποίηση των δικτύων επικοινωνιών και κατ επέκταση των υποσυστημάτων που τα αποτελούν, χωρίζονται ανάλογα με το είδος του δικτύου και τις εφαρμογές. Μερικοί από αυτούς, οι οποίοι θέτουν τυποποιήσεις για τα υποσυστήματα κωδικοποίησης φωνής, είναι οι εξής: 1) ITU-T (International Telecommunications union Telecommunication Standardization Sector) που είναι υπεύθυνος κυρίως για την τυποποίηση των τηλεφωνικών δικτύων (PSTN), 2) ETSI (European Telecommunications Standards Institute)/GSM (Group Speciale Mobile) που είναι υπεύθυνο για την τυποποίηση συστημάτων κυψελωτής τηλεφωνίας, 3) ETSI / 3GPP (Third Generation Partnership Project) και 3GPP2 όμοια την κυψελωτή τηλεφωνία, 4) MPEG (Moving Pictures Experts Group) που ανήκει στον διεθνή οργανισμό ISO (International Organization for Standardization) και είναι υπεύθυνο για τυποποίηση συστημάτων πολυμέσων, 5) IETF (Internet Engineering Task Force) που είναι υπεύθυνο για την ανάπτυξη πρωτοκόλλων που θα επιτρέπουν την ενσωμάτωση των διαφόρων υποσυστημάτων. Στην περίπτωση των συστημάτων κωδικοποίησης φωνής έχουν προταθεί αρκετές τεχνικές και έχουν προκύψει αρκετές τυποποιήσεις. Οι αρχικές προσπάθειες ήταν εστιασμένες στην ανάπτυξη κωδικοποιητών φωνής στενής ζώνης φάσματος (narrowband speech coding) λόγω της ανάγκης για εξοικονόμηση φάσματος (τηλεφωνικά δίκτυα - PSTN). Η τεχνολογική πρόοδος και οι απαίτηση για υπηρεσίες υψηλής ποιότητας, οδήγησαν στην ανάπτυξη συστημάτων κωδικοποίησης ευρείας ζώνης (wideband speech coding) καθώς και σε νέες τυποποιήσεις προς τον σκοπό αυτό. Με τον όρο στενή ζώνη εννοούμε ότι το σήμα φωνής δειγματοληπτείται με ρυθμό 8KHz και φιλτράρεται έτσι ώστε το φάσμα του να περιορίζεται στην ζώνη συχνοτήτων 200-3400Hz. Αντίθετα, στην επεξεργασία ευρείας ζώνης η δειγματοληψία γίνεται στα 16KHz ενώ το εύρος ζώνης που διατηρείται είναι στην περιοχή 50-7000Hz. Στις επικοινωνίες φωνής, η διαφορά μεταξύ ευρείας και στενής ζώνης έγκειται στην καλύτερη ποιότητα και καταληπτότητα καθώς στην πρώτη περίπτωση η πληροφορία που περιέχεται στις υψηλές συχνότητες διατηρείται. Ένα παράδειγμα του φάσματος στενής και ευρείας ζώνης του σήματος φωνής φαίνεται στο σχήμα 1. Ο απαιτούμενος ρυθμός μετάδοσης (για streaming πραγματικού χρόνου) είναι 64 kbps στην περίπτωση στενής ζώνης για 8bit/sample και 256 kbps στην περίπτωση ευρείας ζώνης για 16bit/sample. Είναι φανερή λοιπόν η ανάγκη για μείωση του απαιτούμενου ρυθμού μετάδοσης μέσω τεχνικών συμπίεσης.

Η κωδικοποίηση φωνής εμπεριέχεται σε πληθώρα εφαρμογών και σχεδόν σε όλα τα σύγχρονα δίκτυα επικοινωνιών. Ενδεικτικά αναφέρουμε τις παρακάτω εφαρμογές: Σχήμα 1: Φάσμα σήματος φωνής στενής και ευρείας ζώνης για έμφωνο και άφωνο ήχο. Κινητές επικοινωνίες 3ης και 4ης γενιάς: Ένας από τους βασικούς στόχους είναι οι υπηρεσίες πολυμέσων και η αυξημένη ποιότητα σε σχέση με το σταθερό τηλεφωνικό δίκτυο. Τηλεφωνία σε δίκτυα ευρείας ζώνης (Broadband Packet Networks) και ISDN. Ο σκοπός είναι η μεταφορά φωνής σε δίκτυα όπως xdsl, ATM, Frame Relay, Broadband ISDN για υπηρεσίες VoIP (Voice over IP), τηλεδιάσκεψη κ.α. Εφαρμογές διαδικτύου: Ο σκοπός είναι η μεταφορά φωνής για εφαρμογές virtual reality, chat, εκπαίδευση κ.α. Ψηφιακή τηλεόραση και ραδιοφωνία (Digital TV and Radio Broadcasting).

Ο σκοπός της διάλεξης είναι αφενός η παρουσίαση των βασικότερων τεχνικών και αλγορίθμων που έχουν προταθεί και χρησιμοποιούνται στην κωδικοποίησης φωνής και αφετέρου η περιγραφή των τυποποιήσεων που συνιστούν την τεχνολογία αιχμής καθώς και οι εφαρμογές τους. Επιπρόσθετα, παρουσιάζονται τα κυριότερα ζητήματα που αφορούν την σχεδίαση ενός σχήματος κωδικοποίησης και δίνονται οι παράμετροι που αφορούν την λειτουργικότητα ενός κωδικοποιητή και έχουν τον ρόλο των απαιτήσεων και κατ επέκταση των προδιαγραφών ενός συστήματος. Επιπλέον, συζητώνται οι σύγχρονες (τυποποιημένες) τεχνικές αξιολόγησης της απόδοσης ενός συστήματος κωδικοποίησης φωνής. Η περαιτέρω οργάνωση της διάλεξης έχει ως εξής. Η δεύτερη ενότητα περιγράφει τις βασικές τεχνικές κωδικοποίησης φωνής δίνοντας έμφαση αφενός στους αλγόριθμους που χρησιμοποιούνται σήμερα και αφετέρου σε εκείνους που λειτουργούν ως μέτρο σύγκρισης για καινούργιους. Η τρίτη ενότητα περιγράφει τις σύγχρονες τυποποιήσεις για συστήματα κωδικοποίησης φωνής και παραθέτει τα πεδία εφαρμογής συζητώντας τις κρίσιμες παραμέτρους για την υιοθέτηση τους. Η τέταρτη ενότητα αφορά τα κριτήρια αξιολόγησης ενός συστήματος κωδικοποίησης φωνής. Τέλος, η διάλεξη κλείνει με την πέμπτη ενότητα όπου συνοψίζονται τα κυριότερα σημεία. Σχήμα 2 Κατηγορίες κωδικοποιητών και συγκριτικά αποτελέσματα μεταξύ ρυθμού μετάδοσης και ποιότητας. II. ΤΕΧΝΙΚΕΣ ΚΩΔΙΚΟΠΟΙΗΣΗΣ ΦΩΝΗΣ Η κωδικοποίηση και η συμπίεση γενικότερα, στηρίζεται σε πλεοναστικές ιδιότητες που εμπεριέχονται στα δεδομένα. Στην περίπτωση του σήματος φωνής τέτοια ιδιότητα είναι η «ψευδό» στασιμότητα (quasistationary) η οποία έχει σαν αποτέλεσμα την εμφάνιση προβλεψιμότητας. Με άλλα λόγια, το σήμα φωνής είναι δυναμικό αλλά με σχετικά αργές

μεταβολές. Τα συστήματα κωδικοποίησης φωνής χωρίζονται σε τρεις κατηγορίες: α) κωδικοποιητές κυματομορφής (waveform coders), b) κωδικοποιητές πηγής (source coders / vocoders), c) υβριδικοί κωδικοποιητές (hybrid coders) ή κωδικοποιητές ανάλυσης μέσω σύνθεσης (AbS Analysis-by-Synthesis). Από άποψη ποιότητας, η πρώτη κατηγορία είναι καλύτερη αλλά με υψηλούς ρυθμούς μετάδοσης ενώ η τρίτη δίνει συγκρίσιμα αποτελέσματα σε χαμηλότερους ρυθμούς. Χειρότερη είναι η δεύτερη κατηγορία, η οποία όμως επιτυγχάνει πολύ μικρούς ρυθμούς μετάδοσης. Στο σχήμα 2 φαίνεται ένα συγκριτικό γράφημα για τις τεχνικές. Στις επόμενες παραγράφους περιγράφεται η αρχή λειτουργίας και οι βασικές τεχνικές κάθε κατηγορίας. A. Κωδικοποιητές κυματομορφής (waveform coders) Οι κωδικοποιητές κυματομορφής λειτουργούν απευθείας στο σήμα δίχως να θεωρούν κάποιο μοντέλο για το σήμα. Στην κατηγορία αυτή ανήκουν οι ευρέως χρησιμοποιούμενες τεχνικές PCM (Pulse Code Modulation), DPCM (Differential PCM), Log-PCM (A-law και μ-law PCM) και ADPCM (Adaptive Differential PCM). Στην DPCM χρησιμοποιείται φίλτρο πρόβλεψης και ουσιαστικά κωδικοποιείται τα σφάλμα μεταξύ του αρχικού σήματος (ή δείγματος) και του αυτού που προκύπτει από την πρόβλεψη. Έτσι, μειώνεται αρκετά η δυναμική περιοχή άρα και το πλήθος των bits που απαιτούνται. Στην ADPCM η ιδέα επεκτείνεται έτσι ώστε το φίλτρο πρόβλεψης και η κβάντιση να προσαρμόζονται στα χαρακτηριστικά του σήματος. Το δομικό διάγραμμα της ADPCM φαίνεται στο σχήμα 3. Σχήμα 3 Δομικό διάγραμμα κωδικοποίησης ADPCM Πέρα από το πεδίο του χρόνου, οι κωδικοποιητές κυματομορφής λειτουργούν έμμεσα και στο πεδίο της συχνότητας μέσω της κωδικοποίησης σε ζώνες συχνοτήτων (sub-band coding). Συνήθως γίνεται χρήση QMF (Quadrature Mirror Filters) φίλτρων και υποδειγματοληψία (decimation) ενώ

το πλεονέκτημα είναι ότι για κάθε ζώνη αφιερώνεται διαφορετικός αριθμός από bits που εξαρτάται από τα χαρακτηριστικά της ανθρώπινης ακοής. Σημειώνουμε ότι κάθε ζώνη κωδικοποιείται με PCM ή ADPCM ή και με τεχνικές που θα δούμε αργότερα. Τέλος, υπάρχουν τεχνικές που βασίζονται σε μετασχηματισμούς (πχ DCT-Discrete Cosine Transform) οι οποίες κωδικοποιούν τους συντελεστές του μετασχηματισμού. Όμοια, σε συντελεστές που θεωρούνται σημαντικοί στην καταληπτότητα ανατίθενται περισσότερα bits. B. Vocoders Οι κωδικοποιητές πηγής στηρίζονται στο απλοποιημένο γραμμικό μοντέλο πηγής - φίλτρου παραγωγής της φωνής. Έτσι, οι παράμετροι που κωδικοποιούνται είναι οι συντελεστές του φίλτρου, η θεμελιώδης συχνότητα και η ένδειξη για έμφωνο/άφωνο ήχο. Οι παράμετροι ανανεώνονται κάθε 10 20 msec ενώ στο δέκτη η διέγερση είναι λευκός θόρυβος ή περιοδική παλμοσειρά. Στους κωδικοποιητές πηγής η απόδοση σε ποιότητα είναι φτωχή αλλά ο ρυθμός μετάδοσης είναι πολύ χαμηλός. C. Υβριδικοί κωδικοποιητές (hybrid coders) ή κωδικοποιητές ανάλυσης μέσω σύνθεσης (AbS Analysis-by- Synthesis) Οι κωδικοποιητές ανάλυσης μέσω σύνθεσης αποτελούν τεχνολογία αιχμής καθώς επιτυγχάνουν χαμηλούς ρυθμούς μετάδοσης με σχετικά υψηλή ποιότητα. Η κυριότερη διαφορά με τους κωδικοποιητές πηγής έγκειται στην αντιμετώπιση του σήματος διέγερσης καθώς αυτή προσδιορίζεται μέσω ανάλυσης του σήματος φωνής και ελαχιστοποίησης της απόστασης (ή ελαχιστοποίηση του σφάλματος) του αυθεντικού από το ανακατασκευασμένο σήμα. Η ιδέα πρωτοεμφανίστηκε με την πολυπαλμική διέγερση (MPE Multi Pulse Excitation) και κατόπιν αναπτύχθηκε μέσω των τεχνικών RPE (Regular Pulse Excitation) και CELP (Code Excited Linear Prediction). Το γενικό δομικό διάγραμμα στο οποίο βασίζονται οι κωδικοποιητές ανάλυσης μέσω σύνθεσης φαίνεται στο σχήμα 4. Σε γενικές γραμμές, η αρχή λειτουργίας έχει ως εξής. Το σήμα φωνής χωρίζεται σε πλαίσια από τα οποία μέσω ανάλυσης (είτε γραμμική πρόβλεψη είτε άλλη ανάλυση) προκύπτουν οι συντελεστές του φίλτρου σύνθεσης και η κατάλληλη διέγερση μέσω της οποίας επιτυγχάνεται πιστότερη (υπό κάποιο κριτήριο) παραγωγή του αρχικού σήματος (short-term analysis). Αυτές οι παράμετροι τελικά μεταδίδονται κωδικοποιημένες. Επιπλέον, στον κωδικοποιητή χρησιμοποιείται είτε φίλτρο είτε κάποιο κωδικό-βιβλίο (codebook) ώστε να προβλέπεται και η θεμελιώδης συχνότητα του σήματος (long-term analysis). Πρακτικά, αφενός λόγω του μεγάλου αριθμού δοκιμών για την εύρεση της κατάλληλης διέγερσης και αφετέρου για αποδοτικότερη κωδικοποίηση, χρησιμοποιείται διανυσματική κβάντιση (vector quantization) και

κατασκευάζονται codebooks με πιθανές διεγέρσεις. Για παράδειγμα, 1024 πιθανές διεγέρσεις χρειάζονται 10 bit για αναπαράσταση. Έτσι στο δέκτη στέλνεται μόνο ο δείκτης στο codebook. Η προσέγγιση της κατάλληλης διέγερσης είναι ο παράγοντας που διαχωρίζει την MPE από την RPE και την CELP. Στην MPE χρησιμοποιείται καθορισμένος αριθμός παλμών, οπότε κωδικοποιείται η θέση και το πλάτος, ενώ στην RPE καθορίζεται και η θέση σε σχέση με το πρώτο παλμό άρα κωδικοποιείται μόνο η τελευταία μαζί με τα πλάτη. Στην CELP χρησιμοποιείται όπως είπαμε διανυσματική κβάντιση. Σχήμα 4 Δομικό διάγραμμα κωδικοποίησης με ανάλυση μέσω σύνθεσης Τέλος, σημαντικό γνώρισμα αποτελεί η χρήση φίλτρου που έχει το ρόλο ρύθμισης του φάσματος του σφάλματος ώστε αυτό να βρίσκεται πάντα σε χαμηλότερο επίπεδο σε σχέση με αυτό της φωνής. Η ιδέα απεικονίζεται στο σχήμα 5 οπού φαίνεται η επίδραση του φίλτρου. Στην περίπτωση της CELP, ο συνδυασμός με κανόνες ταξινόμησης για κάποιο πλαίσιο φωνής οδηγεί σε χαμηλότερους ρυθμούς μετάδοσης χωρίς αλλοίωση της ποιότητας. Τέλος, το σχήμα 6 δίνει το γενικό δομικό διάγραμμα ενός συστήματος κωδικοποίησης CELP η οποία περιλαμβάνεται, όπως θα δούμε, σχεδόν σε όλες τις πρόσφατες τυποποιήσεις.

Σχήμα 5 Επίδραση του φίλτρου βαρύτητας Σχήμα 6 Δομικό διάγραμμα συστήματος κωδικοποίησης CELP III. ΤΥΠΟΠΟΙΗΣΕΙΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ Πριν παρουσιάσουμε τις τυποποιήσεις είναι σκόπιμο να αναφερθούμε στα ζητήματα και στις παραμέτρους που χαρακτηρίζουν ένα σύστημα κωδικοποίησης φωνής. Όπως αναφέρθηκε, ο σημαντικότερος παράγοντας είναι ο απαιτούμενος ρυθμός μετάδοσης σε σχέση με την επιτευχθείσα

ποιότητα και καταληπτότητα του σήματος. Όσο μεγαλύτερος είναι ο ρυθμός τόσο λιγότερη αλλοίωση εμφανίζει το τελικό σήμα. Στην κωδικοποίηση φωνής ο στόχος είναι να επιτευχθεί ποιότητα ισάξια του αρχικού σήματος. Όπως θα δούμε αναλυτικότερα στην τέταρτη ενότητα, η ποιότητα αξιολογείται με υποκειμενικά ακουστικά τεστ (subjective listening tests) απο ανθρώπους που συνήθως είναι ειδικοί στην επεξεργασία φωνής. Η αξιολόγηση μέσω (μέσης) βαθμολογίας σε κλίμακα 0-5 (5: άριστη ποιότητα) και ονομάζεται MOS (Mean Opinion Score). Βέβαια, γίνεται προσπάθεια για ανάπτυξη αντικειμενικών κριτηρίων αξιολόγησης που βασίζονται σε μετρήσεις επι του σήματος. Ένας ακόμη παράγοντας είναι η πολυπλοκότητα λειτουργίας ενός κωδικοποιητή (και αποκωδικοποιητή) η οποία μετράται σε εντολές ανα δευτερόλεπτο ή αλλιώς MIPS (Million Instructions Per Second). Η απαίτηση σε MIPS αποτελεί σημαντικό παράγοντα ανάμεσα σε δύο συστήματα που προσφέρουν ισάξια ποιότητα για ίδιο ρυθμό μετάδοσης. Σημαντική παράμετρος είναι και η καθυστέρηση που σχετίζεται με την κωδικοποίηση. Σημαντική καθυστέρηση προκαλεί αλλοίωση στη "ροή" της φωνής με αποτέλεσμα μή αποδεκτό. Η ITU-T έχει θεσπίσει τυποποιήσεις και στο θέμα της καθυστέρησης. Ενδεικτικά αναφέρουμε οτι η απόδεκτή καθυστέρηση είναι της τάξης των 250 msec. Επιπλέον, η καθυστέρηση εξαρτάται άμεσα απο τη διάρκεια ενός πλαισίου φωνής (frame) καθώς αυτό επεξεργάζεται (κατ' ελάχιστο) ένας κωδικοποιητής. Άλλες παράμετροι που δεν σχετίζονται άμεσα την κωδικοποίηση, αλλά χαρακτηρίζουν την συμπεριφορά ενός συστήματος κωδικοποίησης φωνής όταν ενσωματώνεται σε δικτυακές υπηρεσίες είναι η αντιμετώπιση των διασυνδέσεων (interconnections tandem connections) ανάμεσα σε διαφορετικά δίκτυα και οι απώλειες πακέτων (packet losses). Για παράδειγμα, στην πρώτη περίπτωση, συχνά χρειάζεται αποκωδικοποίηση και επανακωδικοποίηση με αποτέλεσμα να προκαλείται αλλοίωση της ποιότητας και σημαντική καθυστέρηση ειδικότερα όταν πραγματοποιείται ξανά δειγματοληψία και κωδικοποίηση με διαφορετικού τύπου κωδικοποιητή. Πίθανες μη βέλτιστες λύσεις στο πρόβλημα αυτό αποτελούν τεχνικές όπως αυτή της αντιστοίχησης των παραμέτρων ενός κωδικοποιητή σε αυτές ενός άλλου. Η διαδικασία αυτή ονομάζεται transcoding και συνήθως επιφέρει απώλειες στην τελική ποιότητα. Η περίπτωση απώλειας πακέτων συνήθως αντιμετωπίζεται είτε στη σχεδίαση σχεδίαση κωδικοποιητών με εύρωστη συμπεριφορά στην απώλεια bits είτε με τεχνικές αντιμετώπισης απώλειας πακέτων (packet concealment) οι οποίες συνοδεύουν κάθε σύγχρονο κωδικοποιητή. Τέλος, σε σχέση με την ποιότητα, ένα σύστημα κωδικοποίησης φωνής πρέπει να συμπεριφέρεται εύρωστα ανέξαρτητα του ομιλητή και της γλώσσας που χρησιμοποιείται ετσι ώστε να μην εμφανίζονται αποκλίσεις στην απόδοσή του. Όλα τα παραπάνω χαρακτηριστικά αποτελούν τις προϋποθέσεις και της προδιαγραφές για την τυποποίηση ενός συστήματος κωδικοποίησης. Η διαδικασία τυποποίησης είναι χρονοβόρα και αποτελείται από διαδοχικές φάσεις με διαφορετικό σκοπό. Συνήθως η τυποποίηση ξεκινάει με των προσδιορισμό των απαιτήσεων και των στόχων (terms of reference) στο πλαίσιο της εφαρμογής. Εκεί τίθενται οι απαιτήσεις σε ρυθμό μετάδοσης, καθυστέρηση, πολυπλοκότητα, ποιότητα υπό διαφορετικές συνθήκες κα.

Έπειτα ακολουθεί η φάση πρόκρισης (qualification phase) στην οποία οι κωδικοποιητές ελέγχονται ως προς τις απαιτήσεις. Ακολουθεί η φάση επιλογής (selection phase) στην οποία γίνεται έλεγχος πληρότητας των προϋποθέσεων-απαιτήσεων υπό κάποιων στόχων (της εφαρμογής) που πρέπει να επιτυγχάνονται. Όποιο σύστημα αποδώσει καλύτερα στον τελευταίο έλεγχο επιλέγεται για τυποποίηση και περνάει τη φάση χαρακτηρισμού (characterization phase) στην οποία ελέγχεται και χαρακτηρίζεται ως προς την επίδοσή του, για διάφορες λειτουργικές απαιτήσεις. Οι επόμενες παράγραφοι συνοψίζουν τις τυποποίησεις που έχουν επικρατήσει ανα τομέα εφαρμογής και δίνουν τα βασικά χαρακτηριστικά για κάθε μια. Συγκεκριμένα, θα αναφερθούμε στις τυποποίησεις που υπάρχουν για τους εξής τομείς εφαρμογών: α) Δίκτυο σταθερής τηλεφωνίας (PSTN), β) Δίκτυο κινητής (κυψελωτής) τηλεφωνίας, γ) Διαδίκτυο και ασύρματα δίκτυα (WLAN) δ) Δορυφορικά δίκτυα. A. ίκτυο σταθερής τηλεφωνίας (PSTN) Οι αρχικές τυποποιήσεις στο δίκτυο σταθερής (ψηφιακής) τηλεφωνίας αφορούσαν κωδικοποίηση στενής ζώνης. με ρυθμό μετάδοσης 64 kbps. Η τυποποίηση G.711 υποστηρίζει αυτό το ρυθμό και η τεχνική που χρησιμοποιεί είναι η λογαριθμική PCM (log-pcm). Ένα επιπλέον χαρακτηριστικό της G.711 ήταν η εύρωστη αντιμετώπιση των πολλαπλών διασυνδέσεων. Άλλες μεταγενέστερες τυποποίησεις στενής ζώνης είναι οι εξής: Η G.726 που χρησιμοποιεί ADPCM και λειτουργεί σε ρυθμούς 40, 32, 24, 26 kbps. Η G.728 που χρησιμοποιεί CELP χαμηλής καθυστέρησης και λειτουργεί σε ρυθμό 16 kbps. Η G.729 που χρησιμοποιεί CS-ACELP (conjugate structure Algebraic CELP) και λειτουργεί σε ρυθμό 8 kbps. Ο πίνακας 1 παρουσιάζει συγκριτικά τα χαρακτηριστικά κάθε τυποποίησης. Οι τιμές MOS αναφέρονται σε απλή κωδικοποίηση/αποκωδικοποίηση χωρίς να περιλαμβάνουν τα υπόλοιπα προβλήματα που αναφέρθηκαν. Λειτουργεί σε ρυθμούς 64 (υψηλότερη ποιότητα), 56 και 48 kbps και χρησιμοποιείται ευρέως ως πρότυπο για τηλεδιάσκεψη (H.323 videoconferencing). Πίνακας 1: Σύγκριση χαρακτηριστικών σε τυποποίησεις κωδικοποιητών για δίκτυο σταθερής τηλεφωνίας.

Στην περίπτωση κωδικοποίησης ευρείας ζώνης οι τυποποίησεις συνοψίζονται στις εξής: Η τυποποίηση G.722 χωρίζει το σήμα σε δύο ζώνες συχνοτήτων (subband coding) και χρησιμοποιεί ADPCM για κάθε ζώνη. Η τυποποίηση G.722.1 λειτουργεί σε ρυθμούς 24 και 32 kbps και η κωδικοποίηση βασίζεται σε ανάλυση με τράπεζες φίλτρων ή αλλιώς στον μετασχηματισμό που ονομάζεται MLT (Modulated Lapped Transform). Η G.722.1 αποδίδει καλύτερα για μουσική παρά για φωνή λόγω της ανάλυσης με τράπεζες φίλτρων. Από την άλλη πλευρά μια πρόσφατη τυποποίηση, η G.722.2, εγκεκριμένη απο την ITU-T και τυποποιημένη απο την 3GPP ταιριάζει καλύτερα στην φωνή αφού χρησιμοποιεί ACELP. Η G.722.2 ή αλλιώς AMR- WB (adaptive multirate wideband) υποστηρίζει πολλαπλούς ρυθμούς μετάδοσης από 6,6 έως 23.85 kbps. Η G.722.2 επιτυγχάνει παρόμοια επίπεδα ποιότητας (τιμές MOS), σε σχέση με τους άλλους κωδικοποιητές, για χαμηλότερους ρυθμούς μετάδοσης. Ο πίνακας 2 παρουσιάζει συγκριτικά, τα χαρακτηριστικά κάθε τυποποίησης ευρείας ζώνης. Πίνακας 2: Σύγκριση χαρακτηριστικών σε τυποποίησεις κωδικοποιητών ευρείας ζώνης για δίκτυο σταθερής τηλεφωνίας. B. ίκτυο κινητής τηλεφωνίας Στην κινητή τηλεφωνία οι απαιτήσεις για μετάδοση φωνής δεν περιορίζονται μόνο στην ποιότητα αλλά εκτείνονται και στην εύρεση διάφορων μηχανισμών όπως, π.χ. για αντιμετώπιση λαθών λόγω της ασύρματης μετάδοσης. Οι τυποποιήσεις που έχουν επικρατήσει βασίζονται σε όμοιες τεχνικές με αυτές του δικτύου σταθερής τηλεφωνίας αποφεύγοντας όμως τεχνικές όπως η ADPCM ή PCM. Στον πίνακα 3 παρουσιάζονται κάποιες τυποποίησεις για κωδικοποιητές της κινητής τηλεφωνίας. Στην ευρώπη χρησιμοποιείται η τυποποίηση RPE-LTP (Regular Pulse Excitation Long Term Prediction) GSM με ρυθμό μετάδοσης 13 kbps. Η παραπάνω τεχνική αποτελεί γενίκευση της RELP. Πιο καινούργιες τυποποιήσεις είναι η G.722.2 που είδαμε προηγουμένως καθώς η "εξέλιξη" της που είναι ο κωδικοποιητής VMR-WB (Variable Rate Multimode - Wideband) που βασίζεται στην ίδια τεχνολογία αλλά υποστηρίζει πολλαπλούς τρόπους λειτουργίας με διαφορετικό ρυθμό μετάδοσης που επιλέγεται βάση της κατάστασης του σήματος, του δικτύου και της προσφερόμενης ποιότητας υπηρεσίας. Ο παραπάνω κωδικοποιητής τυποποίηθηκε απο την 3GPP2 και λειτουργεί με μέσους ρυθμούς απο 5.77 έως 9.14 kbps. Επίσης, προορίζεται και για επιπλέον εφαρμογές όπως VoIP

και πολυμέσα. Τέλος, έχει την ικανότητα διαχείρισης και σημάτων στενής ζώνης με επαναδειγματοληψία σε (εσωτερικό) ρυθμό 12.8KHz και ξανά μετατροπή σε 8KHz. Σαν γενική παρατήρηση μπορούμε να πούμε οτι η ποιότητα που επιτυγχάνουν οι κωδικοποίητες κινητής τηλεφωνίας μειώνεται κατα την διασύνδεση με το σταθερό δίκτυο (ή με άλλο δίκτυο κινητής τηλεφωνίας που χρησιμοποιεί διαφορετική τυποποίηση) λόγω των διαδοχικών κωδικοποιήσεων και αποκωδικοποιήσεων. Πίνακας 3: Σύγκριση μεταξύ κωδικοποιητών φωνής για κινητή τηλεφωνία. C. ιαδίκτυο και ασύρματα δίκτυα Η προσπάθεια στα δίκτυα μεταγωγής πακέτου επικεντρώνεται στην εφαρμογή της μεταφοράς φωνής πάνω απο IP πρωτόκολλο (VoIP). Για το σκοπό αυτό, έχουν υιοθετηθεί ήδη υπάρχοντες τυποποίησεις απο τις οποίες η κωδικοποίηση που χρησιμοποιείται όμως πρέπει να είναι ανθεκτική ή/και να συμπληρώνεται απο τεχνικές που επιφέρουν εύρωστη συμπεριφορά σε θέματα όπως η ποιότητα, η καθυστέρηση, η απώλειες πακέτων σε συνδυασμό οτι απαγορεύεται η αναμετάδοση κτλ. Οι τυποποιήσεις που χρησιμοποιούνται μαζί με τα κύρια χαρακτηριστικά τους συνοψίζονται στον πίνακα 4. Επιπλέον, η σύσταση G.722.2 έχει πάλι προταθεί για το σκοπό αυτό. Πίνακας 4: Χαρακτηριστικά τυποποιημένων κωδικοποιητών για VoIP. Αναφορικά με τις απώλειες πακέτων κάθε τυποποίηση "ντύνεται" με τους κατάλληλους αλγόριθμους με σκοπό την αντιμετώπιση τους. Ο εκάστοτε αλγόριθμος εξαρτάται απο την τεχνική που χρησιμοποιεί κάθε κωδικοποιητής. Για παράδειγμα, στην περίπτωση του G.729 που χρησιμοποιεί CELP η απώλεια πακέτων αντιμετωπίζεται με

επαναχρησιμοποίηση των παραμέτρων από προηγούμενο πλαίσιο φωνής (επανάληψη σήματος πηγής, επανάληψη των παραμέτρων του φίλτρου κα.). Άλλη τεχνική βασίζεται σε παρεμβολή (interpolation) των παραμέτρων για κάθε πλαίσιο σε βάρος όμως της καθυστέρησης. Άλλοι πρόσφατοι κωδικοποιητές με σκοπό το VoIP είναι: α) ο ilbc ο οποίος τυποποιήθηκε απο την IETF στο RFC 3951. Η τεχνική που χρησιμοποιεί βασίζεται στη γραμμική πρόβλεψη και λειτουργεί με ρυθμούς 13.33 και 15.2 kbps, β) ο BV16 (BroadVoice16) o οποίος αφενός χρησιμοποιεί κωδικοποίηση στενής ζώνης με ρυθμό μετάδοσης 16 kbps αλλά αφετέρου είναι ειδικά σχεδιασμένος για VoIP και Voice over DSL υψηλής ποιότητας και χαμηλής καθυστέρησης και πολυπλοκότητας. Η περίπτωση μεταφοράς φωνής σε ασύρματα δίκτυα (WLAN) επικεντρώνεται σχεδόν στα ίδια προβλήματα με τα δίκτυα μεταγωγής πακέτου αλλά με αυξημένη ευαισθησία σε λάθη μετάδοσης, τα οποία συμβαίνουν συχνότερα. Οι κωδικοποιητές που χρησιμοποιούνται έιναι αυτοί που περιγράφονται στις ήδη αναφερθείσες τυποποίησεις G.711 και G.729Α ενώ πρασπάθεια γίνεται στην σχεδίαση πρωτοκόλλων ετσί ώστε να δίνεται προτεραιότητα σε δεδομένα φωνής ή σε απόπειρα μετάδοση φωνής ή τα σημαντικά bits να προστατεύονται κτλ, έτσι ώστε να διασφαλίζεται ικανοποιητική επικοινωνία με φωνή. Τέλος, σημαντική τυποποίηση που θα μπορούσε να χρησιμοποιηθεί σε όλες τις προαναφερθείσες εφαρμογές, είναι η συλλογή εργαλείων MPEG-4. Στην περίπτωση της φωνής συναντάμε δύο κωδικοποιητές με δυνατότητες που δεν προσφέρονται στις υπόλοιπες τυποποιήσεις, όπως για παράδειγμα η υποστήριξη κλιμακούμενου ρυθμού μετάδοσης (bit rate scalability). Ο πρώτος κωδικοποιητής ονομάζεται HVXC (Harmonic Vector Excitation Coder) και λειτουργεί σε ρυθμούς μετάδοσης 2 και 4 kbps. Η αρχή λειτουργίας του βασίζεται σε γραμμική πρόβλεψη και ανάλυση του λάθους πρόβλεψης. Ο δευτερος κωδικοποιητής χρησιμοποιεί CELP με διέγερση MPE ή RPE. Στην περίπτωση κωδικοποίησης στενής ζώνης υποστηρίζει 28 ρυθμούς μετάδοσης που κυμαίνονται απο 3.85 έως 12,2 kbps ενώ στην κωδικοποίησης ευρείας ζώνης υποστηρίζει 30 ρυθμούς μετάδοσης που κυμαίνονται απο 10.9 έως 23,8 kbps. D. ορυφορικά δίκτυα Στην περίπτωση των δορυφορικών επικοινωνιών και δικτύων συναντάμε τυποποιήσεις για κωδικοποιητές που βασίζονται στην τεχνική MELP (Mixed Excitation Linear Prediction). Συγκεκριμένα, οι τυποποιήσεις είναι οι εξής: α) MELP codec απο το υπουργείο άμυνας των ΗΠΑ με ρυθμούς 2.4 και 1.2 kbps, β) MELPe (MELP enhanced) για την 4951 τυποποίηση του NATO STANAG. Υποστηρίζει ρυθμούς 2.4 και 1.2 kbps ενώ κωδικοποιεί ταυτόγχρονα πολλαπλά πλαίσια φωνής. Απο την άλλη πλευρά, κωδικοποιητές "πολυζωνικής" διέγερσης (MBE Multi Band Excitation) οι οποίοι δεν εξαρτώνται απο το μοντέλο της γραμμικής πρόβλεψης αλλά προσδιορίζουν την φωνή μέσω ανάλυσης σε

ζώνες συχνοτήτων, έχουν τυποποιηθεί για εφαρμογές δορυφορικών επικοινωνιών. Για παράδειγμα αναφέρουμε τις τυποποιήσεις του INMARSAT για τους κωδικοποιητές IMBE (Improved Multi Band Excitation) και ΑΜΒΕ (Advanced Multi Band Excitation) με ρυθμούς μετάδοσης 4.15kbps και 3.6kbps αντίστοιχα. IV. ΤΕΧΝΙΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ Όπως αναφέρθηκε αρκετές φορές στις προηγούμενες ενότητες, ο σκοπός κάθε τεχνικής κωδικοποίησης φωνής είναι η διατήρηση της ποιότητας του σήματος σε ίδιο επίπεδο με το αυθεντικό. Με άλλα λόγια, στόχος είναι η διατήρηση της φυσικότητας και της καταληπτότητας της φωνής. Για το σκοπό αυτό έχουν αναπτυχθεί διάφορες τεχνικές αξιολόγησης που βασίζονται είτε σε υποκειμενικά είτε σε αντικειμενικά κριτήρια. Τα υποκειμενικά κριτήρια βασίζονται σε κρίσεις απο ομάδες ανθρώπων ενώ για τα αντικειμενικά γίνεται προσπάθεια έυρεσης μετρικών που να συμβαδίζουν με την ανθρώπινη αντιληψιμότητα. Στην ενότητα αυτή αναπτύσσουμε μερικές απο τις τεχνικές που χρησιμοποιούνται σήμερα και λειτουργούν ως μέτρο σύγκρισης μεταξύ των κωδικοποιητών. A. Mean Opinion Score - MOS Η τεχνική αυτή βασίζεται σε βαθμολόγηση της παραγόμενης φωνής μετά απο κωδικοποίηση και αποκωδικοποίηση. Η βαθμολόγηση γίνεται σε κλίμακα 1-5 ώς εξής: κακή (1), φτωχή (2), μέτρια (3), καλή (4), τέλεια (5). Υπεύθυνοι για την βαθμολόγηση είναι συνήθως ομάδες ανθρώπων (ειδικοί ή μη ειδικοί στο χώρο) ενώ η τελική MOS αξιολόγηση προκύπτει με μέσο όρο των επιμέρους βαθμολογιών. Η διακύμανση του MOS δείχνει την πιστότητα του ελέγχου. Η τεχνική ανήκει στην κατηγορία υποκειμενικής αξιολόγησης και εμφανίζει αρκετές αποκλίσεις μεταξύ πειραμάτων. Παρόλα αυτά παραμένει η πιο διαδεδομένη μέθοδος αξιολόγησης. B. EMBSD (Enhanced Modified Bark Spectral Distance) Πρόκειται για αντικειμενική μέθοδο αξιολόγησης η οποια βασίζεται σε φασματική μετρική μεταξύ αυθεντικού και αποκωδικοποιημένου σήματος. Η μετρική λαμβάνει υπόψη την κλίμακα συχνότητας κατα Bark η οποία σχετίζεται με την ανάλυση και της ιδιότητες της ανθρώπινης ακοής. Υψηλές τιμές της μετρικής δείχνουν υψηλή αλλοίωση ενώ το αντίθετο συμβαίνει για χαμηλές τιμές. Πολλές φορές οι EMBSD τιμές αντιστοιχούνται σε MOS τιμές για πιο ξεκάθαρη εικόνα της ποιότητας.

C. DRT (Diagnostic Rhyme Test) Το DRT είναι υποκειμενικό τεστ που σαν σκοπό έχει την αξιολόγηση της καταληπτότητας στο παραγόμενο σήμα φωνής. Πάλι, ομάδες ανθρώπων καλούνται να προσδιορίσουν αν ξεχωρίζουν, κυρίως την εκφώνηση συμφώνων σε ομάδες λέξεων που ενδεχομένως να μην είναι αντιληπτά (πχ pool-tool) και να πούν ποια λέξη εκφωνήθηκε. Σε κάθε ζεύγος λέξεων αλλάζει μονο μια φωνητική ιδιότητα (πχ. ένρινα, άφωνα κα.). Η βαθμολογία DRT προκύπτει ως ποσοστό μεταξύ των λέξεων που ακούστηκαν και αυτών που τελικά αναγνωρίστηκαν σωστά. D. Segmental Signal-to-Noise Ratio (SNR) Πρόκειται για την απλούστερη μέθοδο αντικειμενικής αξιολόγησης στην οποία υπολογίζεται ο μέσος σηματοθορυβικός λόγος μεταξύ αυθεντικού και αποκωδικοποιημένου σήματος φωνής. Ουσιαστικά ορίζεται σαν ο λόγος της ενέργειας μεταξύ του αυθεντικού σήματος και του λάθους μεταξύ αυθεντικού και αποκωδικοποιημένου σήματος σε ένα πλαίσιο ανάλυσης. Το τελικό SNR προκύπτει σαν ο μέσος όρος των επιμέρους. E. PESQ (Perceptual Evaluation of Speech Quality) Πρόκειται για πρόσφατη αντικειμενική τεχνική αξιολόγησης η οποία είναι τυποποιημένη απο την ITU-T (P.862). Η καινοτομία της έναντι των υπολοίπων έγκειται στην προσπάθεια συνολικής αξιολόγησης των παραμέτρων που χαρακτηρίζουν ένα σύστημα κωδικοποίησης φωνής σε κάποια απο τις εφαρμογές που περιγράψαμε. Για παράδειγμα, η PESQ ανταπεξέρχεται, πέρα απο την ποιότητα, στην αξιολόγηση παραμέτρων όπως απώλειες πακέτων και transcoding. Υπάρχουν όμως και παράμετροι (πχ καθυστέρηση) στις οποίες η PESQ δεν ανταπεξέρχεται. V. ΣΥΝΟΨΗ Η διάλεξη ασχολήθηκε με το ζήτημα της κωδικοποίησης φωνής για εφαρμογές στον τομέα των επικοινωνιών και για υπηρεσίες υψηλής ποιότητας. Ειδικότερα, συζητήθηκαν οι κυριότερες τεχνικές επεξεργασίας σήματος και αλγόριθμοι που χρησιμοποιούνται στην κωδικοποίηση φωνής και παρουσιάστηκαν οι σημαντικότερες τυποποιήσεις για κάθε τομέα εφαρμογής. Επιπλέον, έγινε αναφορά στις σημαντικότερες παραμέτρους που χαρακτηρίζουν ένα σύστημα κωδικοποίησης φωνής και έχουν τον ρόλο τυπικών απαιτήσεων. Τέλος, έγινε μια συνοπτική αναφορά στις χρησιμοποιούμενες τεχνικές αξιολόγησης των συστημάτων κωδικοποίησης.

ΑΝΑΦΟΡΕΣ [1] J. D. Gibson, "Speech Coding Methods, Standards, and Applications," IEEE Circuits and Systems Magazine, Vol. 5, No. 4, Fourth Quarter 2005. [2] T.F. Quatieri, Discrete-Time Speech Signal Processing: Principles and Practice, Prentice-Hall, Inc., Englewood Cliffs, NJ, 2002. [3] Speech Coding and Synthesis, Edited by W.B. Kleijn and K.K. Paliwal, Elsevier, 1995. [4] J.P. Campbell, Jr., T.E. Tremain, and V.C. Welch, The federal standard 1016 4800 bps CELP voice coder", Digital Signal Processing, Academic Press, vol. 1, no. 3, pp. 145- -155, 1991. [5] A. Gersho, "Advances in speech and audio compression, "Proceedings of The IEEE, vol. 82, pp. 900-918, June 1994. [6] A. S. Spanias, "Speech Coding: A Tutorial Review." Proceedings of the IEEE, vol.82, Oct. 1994. [7] M. Budagavi and J. D. Gibson, "Speech Coding in Mobile Radio Communications, "Proceedings of the IEEE, vol. 86, pp. 1402-1412, July, 1998. [8] T. Painter and A. Spanias, "Perceptual Coding of Digital Audio," Proceedings of the IEEE, vol. 88, pp. 451-513, April 2000. [9] B. Bessette, et al, "The adaptive multirate wideband speech codec (AMR-WB)," IEEE Trans. on Speech and Audio Processing, vol. 10, pp. 620-636, Nov. 2002. [10] B. Goode, "Voice Over Internet Protocol (VoIP)," Proceedings of the IEEE, vol. 90, pp. 1495-1517, Sept. 2002 ΣΗΜΕΙΩΣΗ: Τα σχήματα της διάλεξης έχουν ως πηγή την παραπάνω βιβλιογραφία και δεν είναι δημιουργίας του συγγραφέα. Χρησιμοποιούνται σε αυτή την διάλεξη μόνο για εκπαιδευτικούς σκοπούς.