Ήχος και φωνή Φύση του ήχου Ψηφιοποίηση µε µετασχηµατισµό Ψηφιοποίηση µε δειγµατοληψία Παλµοκωδική διαµόρφωση Αναπαράσταση µουσικής Ανάλυση και σύνθεση φωνής Μετάδοση φωνής Τεχνολογία Πολυµέσων 4-1
Φύση του ήχου Παράγεται από την ταλάντωση της ύλης ηµιουργεί µεταβολές στην πίεση του αέρα Μεταδίδεται µε κυµατοειδή µορφή Μετάδοση και σε στερεά / υγρά εν µπορεί να µεταδοθεί στο κενό Κυµατοµορφή (waveform) Αναπαράσταση των µεταβολών της πίεσης Επαναλαµβάνεται σε τακτά διαστήµατα Περίοδος κυµατοµορφής Οι φυσικοί ήχοι δεν είναι αυστηρά περιοδικοί Οι περιοδικοί ήχοι είναι γενικά πιο µουσικοί Τεχνολογία Πολυµέσων 4-2
Φύση του ήχου Πίεση αέρα Πλάτος Περίοδος Συχνότητα (frequency): αντίστροφο της περιόδου Κύκλοι ανά δευτερόλεπτο (Hertz, Hz) Πλάτος (amplitude): ένταση του ήχου Μετατόπιση του κύµατος από το µέσο όρο Ακουστοί ήχοι: 2 Hz - 2 khz Ακουστικά σήµατα (acoustic signals) Τεχνολογία Πολυµέσων 4-3
Ψηφιοποίηση µε µετασχηµατισµό Ηχητική κυµατοµορφή: αναλογικό σήµα Οποιαδήποτε τιµή σε οποιαδήποτε στιγµή Αναπαράσταση µε πεπερασµένες πλήθος τιµών Αναπαράσταση µε τιµές πεπερασµένης ακρίβειας Ψηφιοποίηση: µετατροπή αναλογικού σε ψηφιακό Περίπλοκη µαθηµατική συνάρτηση g(t) Θεώρηµα Fourier Η g(t) µπορεί να αναλυθεί σε (άπειρες) συναρτήσεις f=1/t: θεµελιώδης συχνότητα a n και b n : αρµονικές (harmonics) του σήµατος g( t) = 1 2 c + n= 1 a n sin(2πnft) + Τεχνολογία Πολυµέσων 4-4 n= 1 b n cos(2πnft)
Ψηφιοποίηση µε µετασχηµατισµό b n = 2 Τ Τ g( t)cos(2πnft) dt Υπολογισµός συντελεστών g(t) Ανασύνθεση µε χρήση των συντελεστών Οι συντελεστές είναι µία σειρά αριθµών Προβλήµατα µε τους συντελεστές Περιορισµένη ακρίβεια πράξεων Περιορισµένη ακρίβεια αποθήκευσης Προσέγγιση των πραγµατικών συντελεστών Περιορισµένο πλήθος συντελεστών Προσέγγιση της αρχικής κυµατοµορφής c = 2 Τ Τ a n g( t) dt = 2 Τ Τ g( t)sin(2πnft) dt Τεχνολογία Πολυµέσων 4-5
Ψηφιοποίηση µε µετασχηµατισµό 1 1 1 1 1 1 Τεχνητή κυµατοµορφή εν είναι περιοδική Άπειρη επανάληψη Ενέργεια αρµονικής (RMS) εν µειώνεται µε το n Μέτρια προσέγγιση 1 1 a + 2 2 n b n Τεχνολογία Πολυµέσων 4-6
Ψηφιοποίηση µε δειγµατοληψία Ψηφιοποίηση µε δειγµατοληψία Μέτρηση πλάτους κυµατοµορφής Κάθε µέτρηση ονοµάζεται δείγµα (sample) ιακριτή διάσταση χρόνου Analog to digital converter (ADC) Digital to analog converter (DAC) Ρυθµός δειγµατοληψίας (sampling rate) Μετριέται σε Hz (δείγµατα ανά δευτερόλεπτο) 44,1 khz στα CD, 8 KHz στην τηλεφωνία Θεώρηµα δειγµατοληψίας του Nyquist Έστω σήµα µε µέγιστη συχνότητα F Ρυθµός δειγµατοληψίας τουλάχιστον 2F Αποφεύγεται η απώλεια πληροφορίας Τεχνολογία Πολυµέσων 4-7
Ψηφιοποίηση µε δειγµατοληψία Ύψος δείγµατος Ύψος δείγµατος +.75 +.5 +.25 -.25 είγµατα -.5 -.75 είγµατα Κβαντοποίηση (quantization) των δειγµάτων Αναπαράσταση συνεχών µε διακριτές τιµές ιακριτή διάσταση πλάτους Επηρεάζει την ποιότητα 16 bits: 65536 τιµές στα CD, 8 bits: 256 τιµές στην τηλεφωνία Λιγότερες τιµές, µεγαλύτερο σφάλµα Σφάλµα κβαντοποίησης Τεχνολογία Πολυµέσων 4-8
Παλµοκωδική διαµόρφωση Παλµοκωδική διαµόρφωση (PCM) Χρησιµοποιείται στην τηλεφωνία εν έχει µνήµη: κάθε δείγµα είναι ανεξάρτητο Γραµµική (linear) κβαντοποίηση Ίσα διαστήµατα τιµών δειγµάτων Μία τιµή ανά διάστηµα Συνεχή δείγµατα στο διάστηµα [,1) 25 διαθέσιµες τιµές ιάστηµα [,4): τιµή, διάστηµα [4,8): τιµή 1, Λογαριθµική (logarithmic) κβαντοποίηση Λογαριθµίζουµε το σήµα και µετά κβαντοποιούµε Η κβαντοποίηση γίνεται γραµµικά Το ένα άκρο των τιµών έχει µεγαλύτερη ακρίβεια Τεχνολογία Πολυµέσων 4-9
Παλµοκωδική διαµόρφωση Φωνητική τηλεφωνία: πρότυπο ITU G.711 Λογαριθµική κβαντοποίηση: ακρίβεια στα χαµηλά πλάτη Χρήση compressor/expander ή compander A-law στην Ευρώπη, µ-law στην Αµερική και την Ιαπωνία Εύρος συχνοτήτων 3.1-3.5 khz Ρυθµός δειγµατοληψίας 8 khz, τιµές των 8 bit (ή 7 bit) Ισοδύναµα µε 12-14 bit σε γραµµική κβαντοποίηση Ρυθµός µετάδοσης 64 Kbps Μουσικό CD: πρότυπο CD-DA Γραµµική κβαντοποίηση: ίδια ακρίβεια παντού Εύρος συχνοτήτων 2 khz Ρυθµός δειγµατοληψίας 44,1 khz, τιµές των 16 bit Ρυθµός µετάδοσης 1,411 Mbps για στερεοφωνικό ήχο Τεχνολογία Πολυµέσων 4-1
Παλµοκωδική διαµόρφωση Ύψος δείγµατος 15 1 5 Απότοµες µεταβολές Προσαρµοζόµενη παλµοκωδική διαµόρφωση (ADPCM) ιαφορά από την προηγούµενη τιµή του δείγµατος Χρειάζεται πρόσηµο και απόλυτη τιµή διαφοράς Απαιτείται µνήµη: βασιζόµαστε σε προηγούµενο δείγµα Επιτρέπονται µικρές διαφορές µεταξύ τιµών Με 7 bit, οι διαφορές είναι [-64,+63] Πρότυπο ITU G.721: 32 Kbps Παρόµοια ποιότητα µε G.711 µέσω ADPCM Τεχνολογία Πολυµέσων 4-11
Αναπαράσταση µουσικής Συµβολική αναπαράσταση: πρότυπο MIDI Προδιαγραφές υλικού διασύνδεσης Προδιαγραφές µορφοποίησης δεδοµένων Τα µηνύµατα MIDI περιγράφουν γεγονότα (events) Ενέργειες που µπορεί να εκτελέσει ένας µουσικός 16 µονοφωνικά ή πολυφωνικά κανάλια 128 τυποποιηµένα όργανα Αναπαραγωγή ψηφιοποιηµένων ήχων Σύνθεση µέσω γεννητριών συχνοτήτων Πλεονεκτήµατα και µειονεκτήµατα Οικονοµική αναπαράσταση υνατότητα συµβολικής επεξεργασίας Αποτέλεσµα ανάλογα µε το υλικό Κατάλληλο µόνο για µουσικά όργανα Τεχνολογία Πολυµέσων 4-12
Ανάλυση και σύνθεση φωνής Οάνθρωπος χρησιµοποιεί ορισµένες συχνότητες Ο άνθρωπος δεν µιλάει συνέχεια Κατάργηση της σιωπής (silence suppression) Σηµασιολογικό (semantic) περιεχόµενο Αναγνώριση στοιχείων (όχι περιεχοµένου) της φωνής Συµβολική (symbolic) αναπαράσταση της φωνής Ανασύνθεση φωνής από την περιγραφή Ορολογία σύνθεσης φωνής Φώνηµα (phone) Αλλόφωνα (allophones) Μόρφηµα (morph) Φωνητικοί (voiced) ήχοι Μη φωνητικοί (unvoiced) ήχοι Τεχνολογία Πολυµέσων 4-13
Μετάδοση φωνής Αναλογικό σήµα οµιλίας Αναλογικό / Ψηφιακό Ανάλυση Οµιλίας Επανακατασκευή Κωδικοποιηµένο σήµα οµιλίας Αναλογικό / Ψηφιακό Μεγάλη οικονοµική σηµασία Φωνητική και κινητή τηλεφωνία Κωδικοποίηση πηγής (vocoding) Αναλογικό σήµα οµιλίας ιαίρεση φωνής σε οµάδες συχνοτήτων Γεννήτρια φωνητικών παλµών και γεννήτρια θορύβου Μέχρι και 3 Kbps, µε µέτρια ποιότητα Τεχνολογία Πολυµέσων 4-14
Μετάδοση φωνής Αναλογικό σήµα οµιλίας Αναγνώριση Οµιλίας Κωδικοποιηµένο σήµα οµιλίας Σύνθεση Οµιλίας Αναλογικό σήµα οµιλίας Μέθοδοι ανάλυσης/σύνθεσης Ανάλυση φωνής (αποστολέας) Σύνθεση φωνής (παραλήπτης) Μέχρι και 5 bps, αλλά µε διαφορετική φωνή Κωδικοποίηση σήµατος εν λαµβάνονται υπόψη οι ιδιαιτερότητες της φωνής Αποδοτική κωδικοποίηση ήχου γενικής µορφής Μουσική: CD-DA στα 1,411 Mbps Φωνής: PCM στα 64 Kbps, ADPCM στα 32 Kbps Τεχνολογία Πολυµέσων 4-15
Μετάδοση φωνής Ποιότητα άριστη καλή ικανοποιητική επαρκής 2 199 Ποιότητα άριστη καλή ικανοποιητική επαρκής 2 Σήµα CD Σήµα τηλεφώνου χαµηλή 198 χαµηλή 1 2 4 8 16 32 64 kbps 1/8 1/4 1/2 1 2 4 8 16 bit/δείγµα Ποιότητα ανάλογα µε ρυθµό µετάδοσης (Flanagan) Τηλεφωνική ποιότητα: µέχρι 8 Kbps Βελτιώνεται µε το χρόνο Ποιότητα ανάλογα µε bits κβαντοποίησης Μουσικό CD: µέχρι 2 bits 1/8 της απλής κωδικοποίησης Τεχνολογία Πολυµέσων 4-16