ΣΙ ΗΡΟΠΟΥΛΟΣ ΠΑΝΑΓΙΩΤΗΣ 1.ΚΩ ΙΚΟΠΟΙΗΣΗ ΟΜΙΛΙΑΣ 2.ΑΝΘΡΩΠΟΜΟΡΦΙΚΕΣ ΒΑΘΜΙ ΕΣ ΙΑΣΥΝ ΕΣΗΣ ΧΡΗΣΤΗ

Σχετικά έγγραφα
Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ο Ήχος. Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΑΝΑΠΤΥΓΜA - ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΟΓΙΚΩΝ ΣΗΜΑΤΩΝ. Περιγράψουµε τον τρόπο ανάπτυξης σε σειρά Fourier ενός περιοδικού αναλογικού σήµατος.

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ

Εισαγωγή στα Προσαρµοστικά Συστήµατα

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18

Από τις τριγωνομετρικές συναρτήσεις στο Mp3

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Γενική εικόνα τι είναι σήµα - Ορισµός. Ταξινόµηση σηµάτων. Βασικές ιδιότητες σηµάτων. Μετατροπές σήµατος ως προς το χρόνο. Στοιχειώδη σήµατα.

Θέµα 5 ο Σύνθεση Οµιλίας

Δομικά Υλικά Μάθημα ΙΙΙ. Ηχος & Ηχητικά Φαινόμενα

Μάθηµα 12 ο : Πολλαπλή πρόσβαση µε διαίρεση κώδικα (CDMA, code division multiple access)

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Τηλεπικοινωνικακά Συστήματα Ι - Ενδεικτικές Ερωτήσεις Ασκήσεις 1)

Πολυπλεξία. Creative Commons License 3.0 Share-Alike

Τα ηλεκτρονικά σήματα πληροφορίας διακρίνονται ανάλογα με τη μορφή τους σε δύο κατηγορίες : Αναλογικά σήματα Ψηφιακά σήματα

ΠΛΗ21 Κεφάλαιο 1. ΠΛΗ21 Ψηφιακά Συστήματα: Τόμος Α Κεφάλαιο: 1 Εισαγωγή

Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ. ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

ΕΡΓΑΣΤΗΡΙΟ ΦΥΣΙΚΗΣ ΟΠΤΙΚΗΣ - ΟΠΤΟΗΛΕΚΤΡΟΝΙΚΗΣ & LASER ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΧΗΜΕΙΑΣ & Τ/Υ ΑΣΚΗΣΗ ΝΟ7 ΟΠΤΙΚΗ FOURIER. Γ. Μήτσου

Εισαγωγή στις Τηλεπικοινωνίες

Ασκήσεις στα Συστήµατα Ηλεκτρονικών Επικοινωνιών Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ. Εισαγωγή στα Σήµατα Εισαγωγή στα Συστήµατα Ανάπτυγµα - Μετασχηµατισµός Fourier Μετασχηµατισµός Z

7. Ταλαντώσεις σε συστήµατα µε πολλούς βαθµούς ελευθερίας

«Επικοινωνίες δεδομένων»

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Κωδικοποίηση βίντεο (MPEG)

Μοντέλο Επικοινωνίας Δεδομένων. Επικοινωνίες Δεδομένων Μάθημα 6 ο

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Εισαγωγή στην Ανάλυση Συστηµάτων Αυτοµάτου Ελέγχου: Χρονική Απόκριση και Απόκριση Συχνότητας

Βέλτιστα Ψηφιακά Φίλτρα: Φίλτρα Wiener, Ευθεία και αντίστροφη γραµµική πρόβλεψη

Ακαδηµαϊκό Έτος , Εαρινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

4. Ποιο από τα παρακάτω δεν ισχύει για την ευαισθησία ενός δέκτη ΑΜ; Α. Ευαισθησία ενός δέκτη καθορίζεται από την στάθμη θορύβου στην είσοδό του.

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

Μουσική Ακουστική Οργανολογία. Επανάληψη στο Εργαστήριο

Περιεχόμενα. 4.1 Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Πρόλογος...

Εφαρµογές Προσαρµοστικών Συστηµάτων: Καταστολή ηχούς, Ισοστάθµιση καναλιού και ανίχνευση συµβόλων

ΜΕΤΡΗΣΗ ΚΑΙ ΦΑΣΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΜΗ ΙΟΝΙΖΟΥΣΑΣ ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΗΣ ΑΚΤΙΝΟΒΟΛΙΑΣ

Περίληψη ιπλωµατικής Εργασίας

ΚΩ ΙΚΟΠΟΙΗΣΗ ΟΜΙΛΙΑΣ. Μικρότερος ρυθµός µετάδοσης Μεγαλύτερη χωρητικότητα. Νοε-06 Γ.Ι.Στεφάνου 1

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

«Επικοινωνίες δεδομένων»

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ - PCM (ΜΕΡΟΣ Α)

Σεραφείµ Καραµπογιάς ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

Φασµατογράφος NMR. Μαγνήτης. ΑποσυζευκτÞò Β 2 Β 3. ÄÝκτηò S N. ΚανÜλι κλειδþìατοò. Β 1 Ποìπüò ADC. (data points) (data points) Επεξεργασßα.

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΣΚΟΠΟΙ Η αισθητοποίηση του φαινοµένου του ηχητικού συντονισµού Η κατανόηση της αρχής λειτουργίας των πνευστών οργάνων ΥΛΙΚΑ-ΟΡΓΑΝΑ

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Τηλεπικοινωνίες. Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Kalman Filter Γιατί ο όρος φίλτρο;

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σηµμάτων

Γραµµικά και Μη Γραµµικά Συστήµατα Μετάδοσης

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανολογίας

Τηλεπικοινωνιακά Συστήματα ΙΙ

Ύψος Συχνότητα Ένταση Χροιά. Ο ήχος Ο ήχος είναι μια μορφή ενέργειας. Ιδιότητες του ήχου. Χαρακτηριστικά φωνής

Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Φυσικής Εισαγωγή στα Συστήματα Τηλεπικοινωνιών Συστήματα Παλμοκωδικής Διαμόρφωσης

δ[n kp ], k Z (1) 1 cos πn, N 1 n N 1 + N 2 2N

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΘΟΡΥΒΟΣ Αξιολόγηση και µέτρα αντιµετώπισης

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

Ευαισθησία πειράµατος (Signal to noise ratio = S/N) ιάρκεια πειράµατος (signal averaging)) ιάρκεια 1,38 1,11 0,28 5,55. (h) πειράµατος.

Αφήγηση Μαρτυρία. Μουσική. Ενίσχυση μηνύματος Μουσική επένδυση Ηχητικά εφέ

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ψηφιακή Επεξεργασία Σηµμάτων

Προσομοίωση Συστήματος Επικοινωνίας Software Radio. Καλοχριστιανάκης Μιχάλης Επόπτης: Α. Τραγανίτης

Βίντεο και κινούµενα σχέδια

Εισαγωγή στα ψηφιακά Συστήµατα Μετρήσεων

ΑΝΑΛΥΣΗ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΤΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟ FOURIER

Συγχρονισµός πολυµέσων

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB )

Μεταβατική Ανάλυση - Φάσορες. Κατάστρωση διαφορικών εξισώσεων. Μεταβατική απόκριση. Γενικό μοντέλο. ,, ( ) είναι γνωστές ποσότητες (σταθερές)

2. ΚΕΦΑΛΑΙΟ ΕΙΣΑΓΩΓΗ ΣΤΑ ΣΥΣΤΗΜΑΤΑ. Γενικά τι είναι σύστηµα - Ορισµός. Τρόποι σύνδεσης συστηµάτων.

ΑΣΚΗΣΗ 208 ΚΥΚΛΩΜΑ ΣΥΝΤΟΝΙΣΜΟΥ ΕΝ ΣΕΙΡΑ U U (3)

Ο Παλμογράφος στη Διδασκαλία της Τριγωνομετρίας. Εφαρμογές της Τριγωνομετρίας σε πραγματικά προβλήματα και ενδιαφέρουσες επεκτάσεις

Συστήµατα και Αλγόριθµοι Πολυµέσων

Προβλήµατα κατά τη µετάδοση σήµατος Τρόποι αντιµετώπισης

ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΠΑΝΩ ΣΤΑ ΚΥΜΑΤΑ (Εισαγωγή)

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2017 Α ΦΑΣΗ

Μετάδοση πληροφορίας - Διαμόρφωση

Στάσιμα κύματα - Μέτρηση της ταχύτητας του ήχου με το σωλήνα Kundt

Μετάδοση πληροφορίας - Διαμόρφωση

= = = = 2. max,1 = 2. max,2

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Επικοινωνίες I SSB Παραγωγή - Αποδιαμόρφωση FM Διαμόρφωση

ΘΕΜΑ : ΨΗΦΙΑΚΑ ΗΛΕΚΤΡΟΝΙΚΑ DIGITAL ELECTRONICS

Συναρτήσεις Συσχέτισης

, όπου οι σταθερές προσδιορίζονται από τις αρχικές συνθήκες.

εδάφους Την οργάνωση και τα βασικά χατακτηριστικά ενός δορυφορικού σταθµού

Transcript:

ΣΙ ΗΡΟΠΟΥΛΟΣ ΠΑΝΑΓΙΩΤΗΣ 1.ΚΩ ΙΚΟΠΟΙΗΣΗ ΟΜΙΛΙΑΣ 2.ΑΝΘΡΩΠΟΜΟΡΦΙΚΕΣ ΒΑΘΜΙ ΕΣ ΙΑΣΥΝ ΕΣΗΣ ΧΡΗΣΤΗ ΘΕΣΣΑΛΟΝΙΚΗ 2005

ΚΩ ΙΚΟΠΟΙΗΣΗ ΟΜΙΛΙΑΣ Η ανθρώπινη φωνή είναι αποτέλεσµα συνεργασίας των πνευµόνων, των φωνητικών χορδών και της περιοχής άρθρωσης(στοµατική και ρινική κοιλότητα). Οι πνεύµονες πιέζουν αέρα προς την επιγλωττίδα, οι φωνητικές χορδές δονούνται και διακόπτουν το ρεύµα αέρα, παράγοντας έτσι ένα ψευδό-περιοδικό κύµα πίεσης. Η συχνότητα του σήµατος πίεσης ονοµάζεται στοιχειώδης συχνότητα και οι ώσεις της πίεσης, τονικές ώσεις. Η τονική συχνότητα είναι υπεύθυνη για την µελωδία της φωνής αν µιλούσαµε µε σταθερή στοιχειώδη συχνότητα θα ακουγόµασταν πολύ µονότονοι. Οι τονικές ώσεις διεγείρουν τον αέρα στο στόµα, και για κάποιους ήχους και στην ρινική κοιλότητα. Όταν αυτές συντονίζονται εκπέµπουν έναν ήχο, που είναι το σήµα οµιλίας. Και οι δύο κοιλότητες λειτουργούν ως αντηχεία µε χαρακτηριστικές συχνότητες συντονισµού. Από τη στιγµή που η µορφή τους µπορεί να αλλάξει σε τόσο µεγάλο βαθµό, είµαστε ικανοί να προφέρουµε τόσο διαφορετικούς ήχους. Η πρώτη µηχανή που προσπαθούσε να παράγει ανθρώπινους ήχους κατασκευάστηκε το 1779 από τον Christian Kratzenstein και αποτελούταν από ένα σύστηµα αντηχείων. ΤΑ ΑΝΤΗΧΕΙΑ ΤΟΥ KRATZENSTEIN Όταν κάποιος φυσούσε απ την µία άκρη από την άλλη ακουγόταν τα 5 φωνήεντα α,ι,ε,ο,ου. Λίγα χρόνια αργότερα το 1791 ο Wolgfang von Kempelen εισήγαγε την οµιλούσα µηχανή του που έχοντας εξοµοιωτές της γλώσσας και των χειλιών κατάφερνε να προφέρει και κάποια από τα σύµφωνα. Την δεκαετία του 1810 ο Charles Wheatstone µε µία παρόµοια µηχανή παρήγαγε µερικές ολόκληρες λέξεις. Τα πειράµατα µε µηχανικά και ηµιηλεκτρικά αναλογικά ηχητικά συστήµατα συνεχίστηκαν µέχρι το 1960 περίπου χωρίς αξιοσηµείωτες επιτυχίες Ηλεκτρική συσκευή που πετύχαινε σύνθεση κάποιων φωνηέντων εισήχθηκε το 1922 από τον Stewart. Παρ ολ αυτά η πρώτη ηλεκτρική µηχανή που µπορεί να θεωρηθεί συνθέτης φωνής είναι ο Vocoder του

Η.Dudley.Το όνοµα Vocoder προέρχεται από σύντµηση των λέξεων Voice και Encoder. ηµιουργήθηκε την δεκαετία του 1930 για να µειώσει το εύρος ζώνης που καταλαµβάνει η οµιλία όταν µεταδίδεται. Αυτό επετεύχθει, ανακτώντας την πληροφορία της οµιλίας από το ηχητικό σήµα και µεταδίδοντας αυτήν µε µειωµένο ρυθµό µετάδοσης. Μία σειρά από ζωνοδιαβατά φίλτρα χρησιµοποιούνται για να σπάσουν το αρχικό σήµα σε ζώνες συχνοτήτων,τα βάρη των οποίων, αφού µεταδοθούν αρκούν για να επανασυνθέσουν αρκετά καλά το ηχητικό σήµα. Ένα τέτοιο σύστηµα παρουσιάστηκε για πρώτη φορά στην ιεθνή Έκθεση της Νέας Υόρκης το 1939. Σήµερα χρησιµοποιούνται κυρίως κωδικοποιητές δύο κατηγοριών: φάσης και γραµµικής πρόβλεψης. PHASE VOCODERS Στην κατηγορία αυτή, το σήµα θεωρείται ότι αποτελείται από ένα άθροισµα ηµιτονοειδών κυµάτων, το πλάτος και την συχνότητα των οποίων προσπαθούµε να βρούµε. Για να γίνει αυτό περνάµε το σήµα από µία τράπεζα φίλτρων, µε την έξοδο του καθενός να εκφράζεται σαν ένα µεταβλητό µε τον χρόνο πλάτος στην συγκεκριµένη κεντρική συχνότητα. ΣΧΗΜΑ 1

Η τράπεζα φίλτρων πρέπει να ικανοποιεί 3 περιορισµούς: 1.Η κρουστική απόκριση των ζωνοδιαβατών φίλτρων πρέπει να διαφέρει µόνο στην κεντρική συχνότητα της ζώνης διέλευσης τους. 2.Οι κεντρικές συχνότητες να είναι ισοµερώς κατανεµηµένες σε όλο το φάσµα από 0 ως το µισό της συχνότητας δειγµατοληψίας. 3.Η συνισταµένη κρουστική απόκριση να προσεγγίζει ικανοποιητικά µία σταθερή συνάρτηση σε όλη την έκταση του φάσµατος. Η τελευταία προϋπόθεση εξασφαλίζει πως σε καµία συχνοτική συνιστώσα δεν δίνεται δυσανάλογο βάρος. Εξαιτίας των προδιαγραφών τα µοναδικά ζητούµενα στη σχεδίαση µιας τράπεζας φίλτρων είναι ο αριθµός αυτών και η ανεξάρτητη απόκριση τους. Ο αριθµός των φίλτρων πρέπει να είναι τέτοιος ώστε να µην υπάρχει πάνω από ένα µέρος του σήµατος µέσα στην ζώνη διέλευσης κάποιου φίλτρου. Η ανάλυση της λειτουργίας αυτών γίνεται µε βάση το παρακάτω σχήµα: ΣΧΗΜΑ 2 Αρχικά το σήµα οδηγείται σε δύο παράλληλους δρόµους και ετερωδυνόνεται µέσω ενός µείκτη συχνότητας ίση µε την κεντρική συχνότητα του φίλτρου και ενός χαµηλοπερατού φίλτρου. Μόνο τα µ έρη του σήµατος που είναι στη γειτονιά της κεντρικής συχνότητας διέρχονται απ το φίλτρο. Έτσι παράγονται δύο στενά ίδια σήµατα µε διαφορά φάσης π/2. Τα διαχωρισµένα σήµατα οδηγούνται σε ένα µετατροπέα καρτεσιανών σε κυλινδρικές συντεταγµένες. Το αποτέλεσµα προφανώς θα έχει σταθερό µε τον χρόνο πλάτος. Η κεντρική συχνότητα υπολογίζεται µετρώντας την φάση σε δύο χρονικές στιγµές και διαιρώντας µε τον χρόνο. Για να µπορεί να γίνει αυτό η φάση πρέπει να ξεδιπλωθεί ώστε να µην παίρνει τιµές µόνο στο διάστηµα [0,360] αλλά σε όλο το R+. Τέλος, προσθέτοντας την κεντρική συχνότητα του φίλτρου λαµβάνουµε το επιθυµητό επεξεργασµένο σήµα.

LINEAR PREDICTIVE CODING VOCODERS Η κωδικοποίηση γραµµικής πρόβλεψης είναι µία από τις πιο διαδεδοµένες τεχνικές κωδικοποίησης καλής ποιότητας οµιλίας σε χαµηλό ρυθµό µετάδοσης. Αυτή προσπαθεί να προσεγγίσει τον τρόπο παραγωγής της ανθρώπινης φωνής, υποθέτοντας πως παράγεται από ένα βοµβητή στο τέλος ενός σωλήνα. Οι LPC αναλύουν το ηχητικό σήµα εκτιµώντας τις αντηχήσεις, αφαιρούν την επίδραση τους στο σήµα και υπολογίζουν την ένταση και τη συχνότητα του εναποµείναντος τόνου. Η διαδικασία αυτή ονοµάζεται αντίστροφο φιλτράρισµα και το εναποµείναν σήµα υπόλειµµα. Οι αριθµοί που εκφράζουν τις αντηχήσεις και το υπόλειµµα µπορούν να αποθηκευτούν ή να µεταδοθούν κάπου αλλού. Οι σύνθεση γίνεται αντιστρέφοντας την επεξεργασία:µε το υπόλειµµα παράγεται ένας αρχικός τόνος, ο οποίος οδηγείται σ ένα φίλτρο µε απόκριση που ορίζουν οι αποθηκευµένες τιµές των αντηχήσεων. Επειδή τα σήµατα οµιλίας µεταβάλλονται πολύ γρήγορα µε τον χρόνο, αυτή η διαδικασία γίνεται σε µικρά κοµµάτια του λόγου που ονοµάζονται frames. Συνήθως, 30 µε 50 frames το δευτερόλεπτο δίνουν κατανοητό λόγο µε καλή συµπίεση. Το βασικότερο πρόβληµα στους LPC Vocoders έχει να κάνει µε τον καθορισµό των αντηχήσεων του ηχητικού σήµατος. Η βασική λύση είναι µία εξίσωση διαφορών που εκφράζει κάθε δείγµα σαν γραµµικό συνδυασµό των προηγούµενων. Αυτή η εξίσωση ονοµάζεται γραµµικής πρόβλεψης κι από κει προέρχεται το όνοµα αυτών των κωδικοποιητών. Οι συντελεστές της εξίσωσης καθορίζουν τις αντηχήσεις, έτσι το LPC σύστηµα πρέπει να τους προσεγγίζει όσο γίνεται καλύτερα. Η βελτιστοποίηση γίνεται ελαχιστοποιώντας το µέσο τετραγωνικό σφάλµ α µεταξύ του προβλεπόµενου και του πραγµατικού σήµατος. Η µ έθοδος αυτή δίνει ικανοποιητικά αποτελέσµατα για τους περισσότερους φθόγγους, όµως σε ρινικούς ήχους λόγω της εισαγωγής ενός ακόµα κλάδου στον ηχητικό σωλήνα ο αλγόριθµος οφείλει να γίνει πιο πολύπλοκος. Εάν οι συντελεστές πρόβλεψης είναι ακριβείς, τότε µετά από αντίστροφο φιλτράρισµα καταλήγουµε σε ένα καθαρό τόνο. Σε ένα τέτοιο σήµα µπορούµε αρκετά εύκολα να υπολογίσουµε το πλάτος και τη συχνότητα του και να τα κωδικοποιήσουµε. υστυχώς, όµως, υπάρχουν κάποια σύµφωνα τα οποία παράγονται µε αρκετά στοχαστική ροή αέρα και ακούγονται σα σφύριγµα. Γι αυτό ο LPC κωδικοποιητής πρέπει να αποφασίζει για κάθε frame αν η ηχητική πηγή είναι τόνος ή σφύριγµα, να αποθηκεύει αυτή τη πληροφορία και στην πρώτη περίπτωση να

υπολογίζει τη συχνότητα, ενώ στη δεύτερη την ένταση αυτής. Βεβαίως, εξαιτίας αυτής της προσέγγισης, σύµφωνα που παράγονται από συνδυασµό τόνου και στοχαστικής ροής αέρα (π.χ. δέλτα) δε θα ακούγονται φυσιολογικά. Τα παραπάνω προβλήµατα δε θα υπήρχαν αν αποθηκεύαµε ολόκληρο το υπόλειµµα. Κάτι τέτοιο θα είχε σαν αποτέλεσµα να µην υπάρχει καµία συµπίεση, αφού το υπόλειµµα χρειάζεται τον ίδιο αριθµό bits µε το αρχικό σήµα. Αυτό είναι απαγορευτικό αφού ο αρχικός µας στόχος ήταν η συµπίεση του σήµατος. Έτσι, διάφορες τροποποιήσεις προσπάθησαν να βελτιώσουν την απόδοση του απλού LPC (LPC-10e) χωρίς να µειώσουν την συµπίεση σηµαντικά. Οι πιο πετυχηµένες χρησιµοποιούν ένα βιβλίο κωδίκων (codebook), έναν πίνακα, δηλαδή, τυπικών υπολειµµάτων αποθηκευµένο στο σύστηµα. Κατά τη λειτουργία, ο αναλυτής λαµβάνει ένα σήµα, το οποίο συγκρίνει µε όλα όσα βρίσκονται στον πίνακα υπολογίζοντας ποιο είναι το κοντινότερο και στη συνέχεια στέλνει τον κωδικό αυτού. Ο συνθέτης παίρνει τον κωδικό, αποκαθιστά το υπόλειµµα που αντιστοιχεί σ αυτόν και το χρησιµοποιεί για να διεγείρει το καθορισµένο φίλτρο. Τέτοιες µέθοδοι ονοµάζονται CELP (Code Excited Linear Prediction). SPECTRAL MODELING SYNTHESIS VOCODERS Πρόκειται για µία σχετικά καινούργια τεχνολογία που αρχικά αναπτύχθηκε στο πανεπιστήµιο του Stanford και τα τελευταία χρόνια χρησιµοποιείται όλο και περισσότερο. Σ αυτήν τη µέθοδο ο ήχος χωρίζεται σ µία περιοδική συνιστώσα, που αναλύεται µε την ίδια περίπου µέθοδο που ακολουθείται και στους κωδικοποιητές φάσης, και µία στοχαστική συνιστώσα που αναλύεται σαν φιλτραρισµένος λευκός θόρυβος. Κατά την ανασύνθεση, διάφορες τεχνικές δίνουν αρκετά µεγάλες δυνατότητες για επεξεργασία, συµπεριλαµβανοµένης και την µορφοποίηση της χροιάς, αλλά δυστυχώς φαίνεται ότι λειτουργούν πολύ καλύτερα µε συγκεκριµένο τύπο ήχων από ότι µε άλλους. Επειδή µε τα σήµατα οµιλίας ο συγκεκριµένος τύπος κωδικοποιητή παρουσιάζει σηµαντικά προβλήµατα προς το παρόν η χρήση του περιορίζεται σε πειραµατικές διατάξεις. ΣΥΓΚΡΙΣΗ ΤΩΝ ΣΗΜΑΝΤΙΚΟΤΕΡΩΝ ΤΥΠΩΝ ΚΩ ΙΚΟΠΟΙΗΤΩΝ ΟΜΙΛΙΑΣ Και οι τρεις µέθοδοι κωδικοποίησης οµιλίας έχουν κάποιες κοινές ικανότητες, όπως η δυνατότητα ξεχωριστού χειρισµού του τόνου και της

διάρκειας του σήµατος, που τις έκαναν τις πιο δηµοφιλείς στον τοµ έα τους. Εν γένει, όµως η καθεµία απ αυτές έχει τα ιδιαίτερα χαρακτηριστικά της. Αναλυτικότερα, οι κωδικοποιητές φάσης έχουν το πλεονέκτηµα να είναι εύκολοι στο χειρισµό, να αποδίδουν αρκετά καλά σε ένα µεγάλο εύρος αρµονικών και µη αρµονικών ήχων. Συνήθως είναι η καλύτερη ή ευκολότερη µέθοδος για χρήση όταν έχουµε να κάνουµε µε πολύ χαµηλής ή πολύ υψηλής τονικότητας και όταν ο στόχος µας είναι η πιστή αναπαραγωγή του αρχικού σήµατος οµιλίας. Όµως, είναι αρκετά περιορισµένοι όσον αφορά την επεξεργασία της οµιλίας. Αν αυξήσουµε την διάρκεια, πολλές φορές εισάγονται ανεπιθύµητες αλλοιώσεις(µεταλλική χροιά, ηχώ, θόρυβος).επίσης, µετατόπιση του τόνου προκαλεί µετατόπιση και των αρµονικών κάτι που οδηγεί πολλές φορές σε αλλαγή του φασµατικού περιεχοµένου του σήµατος. Τέλος, συχνά η ανάλυση οφείλει να είναι ειδικά κατασκευασµένη για συγκεκριµένο τύπο επανασύνθεσης µε αποτέλεσµα να µην λειτουργεί το ίδιο καλά σε άλλους. Οι κωδικοποιητές γραµµικής πρόβλεψης δουλεύουν αρκετά καλά και για τονικούς και για στοχαστικούς ήχους. Η µετατροπή του τόνου δεν προκαλεί µετατόπιση των αρµονικών αντίθετα µε τις προαναφερθείσες τεχνικές. Επίσης παρέχει µεγάλες δυνατότητες για τροποποιήσεις. Για τους παραπάνω λόγους οι κωδικοποιητές LPC χρησιµοποιούνται ευρέως παρόλη την σαφώς µεγάλη πολυπλοκότητα και την αρκετά απρόβλεπτη συµπεριφορά. Ένα άλλο µειονέκτηµα τους είναι ότι κατά την ανασύνθεση παράγουν ένα απλοποιηµένο υπερβολικά αρµονικό µοντέλο οµιλίας, κάτι που υπό συνθήκες µπορεί να γίνει αντιληπτό από το ανθρώπινο αυτί. EΕΦΑΡΜΟΓΕΣ ΤΩΝ VOCODERS Oι Vocoders αρχικά εισήχθησαν κατά τη διάρκεια του δευτέρου παγκοσµίου πολέµου για να ασφαλίσουν τις ραδιοεπικοινωνίες µεταξύ των συµµάχων από τις δύο µεριές του Ατλαντικού. Άρχισαν να χρησιµοποιούνται πιο ευρέως κατά την διάρκεια της δεκαετίας του 1970, µετά δηλαδή την παρουσίαση των phase vocoders το 1966. Σήµερα βρίσκουν πολλές εφαρµογές σε διάφορους τοµείς, οι κυριότερες ων οποίων είναι: 1. Συµπίεση της πληροφορίας που µεταφέρει η φωνή, µε κυριότερη χρήση στην κινητή τηλεφωνία. Για να καταγραφεί η ανθρώπινη φωνή, η συχνότητα της οποίας κυµαίνεται από 500Ηz ως 8kHz,απαιτείται εύρος ζώνης 64kbit/s ενώ ένας κωδικοποιητής οµιλίας παρέχει καλή εξοµοίωση της φωνής µε εύρος ζώνης που κυµαίνεται από 2400bit/s (LPC-10) ως

32kbit/s (ADPCM), δηλαδή συµπίεση από 2 ως 26 φορές. Εκτός του βαθµού συµπίεσης άλλοι παράµετροι που χαρακτηρίζουν έναν Vocoder είναι : α)η ποιότητα φωνής στην έξοδο του συστήµατος β)η πολυπλοκότητα του αλγορίθµου γ)η ανθεκτικότητα σε θόρυβο και σφάλµατα µετάδοσης. 2. Κρυπτογράφηση φωνής σε περιπτώσεις απόρρητων και ευαίσθητων συνδιαλέξεων(stu III). 3. Καλλιτεχνικές εφαρµογές. Στον κινηµατογράφο χρησιµοποιήθηκε Vocoder για πρώτη φορά στην ταινία η οδύσσεια του διαστήµατος του Stanley Kubrick, όπου η φωνή του υπολογιστή HAL παράγεται από κωδικοποιητή οµιλίας. Από τότε, αρκετές φορές οι φωνές ροµπότ ή φανταστικών µηχανών προέκυψαν από την χρήση Vocoders. Η κυριότερη καλλιτεχνική εφαρµογή των Vocoders είναι στη µουσική, όπου εισήχθησαν, πάλι, σε ταινία του Stanley Cubrick, στο κουρδιστό πορτοκάλι (1971) αυτή την φορά. Εκεί, ο συνθέτης Wendy Carlos έβαλε έναν κωδικοποιητή να τραγουδήσει το φωνητικό µέρος της ενάτης συµφωνίας του Beethoven. Τα χρόνια που ακολούθησαν οι Vocoders χρησιµοποιήθηκαν κατά κόρο από σπουδαίους µουσικούς όπως οι Pink Floyd(sheep), οι Kraftwerk(we are the robots), οι Styx(Mr Robotto) κ.α.. υστυχώς, όµως οι µηχανές αυτές βοήθησαν και ατάλαντους ή τυχάρπαστους τραγουδιστές να κρύψουν την ανύπαρκτη φωνή τους πίσω από τον µεταλλικό επεξεργασµένο ήχο τους. 4.Συστήµατα αναγνώρισης ή παραγωγής οµιλίας (speech-totext,synthetic speech). Τα συστήµατα αναγνώρισης οµιλίας µπορούν να χρησιµοποιηθούν σε µία σειρά εφαρµογών όπως υπαγόρευση κειµένου, φωνητική αναγνώριση για λόγους ασφαλείας, έλεγχος φωνής για άτοµα µε αναπηρία κ.α. Oι συνθέτες οµιλίας βρίσκουν επίσης πολλές εφαρµογές οι κυριότερες των οποίων είναι: τεχνητή οµιλία για άτοµα φωνητικά ανάπηρα, οι µηχανές διαβάσµατος για τους τυφλούς και οι µηχανές διδασκαλίας για δυσλεξικούς (και όχι µόνο). υστυχώς η τεχνολογία αυτή ακόµα βρίσκεται σε πειραµατικό στάδιο και τα περισσότερα από τα παραπάνω δεν κυκλοφορούν ευρέως προς το παρόν.