Ήχος Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Κβαντοποίηση δειγμάτων Παλμοκωδική διαμόρφωση Συμβολική αναπαράσταση μουσικής Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1
Χαρακτηριστικά του ήχου Παράγεται από την ταλάντωση της ύλης Δημιουργεί μεταβολές στην πίεση του αέρα Μεταδίδεται με κυματοειδή μορφή Μετάδοση και σε στερεά / υγρά Δεν μπορεί να μεταδοθεί στο κενό Κυματομορφή (waveform) Αναπαράσταση των μεταβολών της πίεσης Ακουστοί ήχοι: 20 Hz - 20 khz Ακουστικά σήματα (acoustic signals) Αντιληπτά από το ανθρώπινο αυτί Κάτω από 20 Hz: υπόηχοι Πάνω από 20 khz: υπέρηχοι Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-2
Χαρακτηριστικά του ήχου Πίεση Πλάτος Χρόνος Περίοδος κυματομορφής Περίοδος Οι περιοδικοί ήχοι είναι γενικά πιο μουσικοί Συχνότητα (frequency): αντίστροφο της περιόδου Κύκλοι ανά δευτερόλεπτο (Hertz, Hz) Πλάτος (amplitude): ένταση του ήχου Μετατόπιση του κύματος από το μέσο όρο Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-3
Ψηφιοποίηση με μετασχηματισμό Ηχητική κυματομορφή: αναλογικό σήμα Οποιαδήποτε τιμή σε οποιαδήποτε στιγμή Αναπαράσταση με πεπερασμένες πλήθος τιμών Αναπαράσταση με τιμές πεπερασμένης ακρίβειας Ψηφιοποίηση: μετατροπή αναλογικού σε ψηφιακό Περίπλοκη μαθηματική συνάρτηση g(t) Θεώρημα Fourier Η g(t) μπορεί να αναλυθεί σε (άπειρες) συναρτήσεις f=1/t: θεμελιώδης συχνότητα a n και b n : αρμονικές (harmonics) του σήματος g( t) = 1 2 c + n= 1 a n sin(2πnft) + Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-4 n= 1 b n cos(2πnft)
Ψηφιοποίηση με μετασχηματισμό b n = 2 Τ Τ 0 g( t)cos(2πnft) dt Υπολογισμός συντελεστών g(t) Ανασύνθεση με χρήση των συντελεστών Οι συντελεστές είναι μία σειρά αριθμών Ενέργεια αρμονικής (RMS) Δεν μειώνεται με το n Προβλήματα με τους συντελεστές 2 Τ Περιορισμένη ακρίβεια πράξεων Περιορισμένη ακρίβεια αποθήκευσης Περιορισμένο πλήθος συντελεστών c = Τ 0 Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-5 a n g( t) dt = 2 Τ Τ 0 g( t)sin(2πnft) dt a + 2 2 n b n
Ψηφιοποίηση με δειγματοληψία Αναλογικό σήμα Φίλτρο ADC Ψηφιακό σήμα Κωδικοποιητής Ψηφιακό σήμα DAC Φίλτρο Αναλογικό σήμα Αποκωδικοποιητής Ψηφιοποίηση με δειγματοληψία Μέτρηση πλάτους κυματομορφής Κάθε μέτρηση ονομάζεται δείγμα (sample) Διακριτή διάσταση χρόνου Analog to digital converter (ADC) Digital to analog converter (DAC) Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-6
Ψηφιοποίηση με δειγματοληψία Ύψος δείγματος Δείγματα Χρόνος Ρυθμός δειγματοληψίας (sampling rate) Μετριέται σε Hz (δείγματα ανά δευτερόλεπτο) 44,1 khz στα CD, 8 KHz στην τηλεφωνία Θεώρημα δειγματοληψίας του Nyquist Έστω σήμα με μέγιστη συχνότητα F Ρυθμός δειγματοληψίας τουλάχιστον 2F Αποφεύγεται η απώλεια πληροφορίας Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-7
Ψηφιοποίηση με δειγματοληψία Πλάτος Αρχικό σήμα Ψευδώνυμο σήμα Χρόνος Γιατί βάζουμε φίλτρο πριν τον κωδικοποιητή; Έστω ότι κάνουμε δειγματοληψία στα 2f Hz Οι συχνότητες άνω των f Hz δεν αναπαρίστανται σωστά Η ανεπαρκής δειγματοληψία οδηγεί σε ψευδώνυμα σήματα Μαύρες κουκκίδες: επαρκής δειγματοληψία Λευκές κουκκίδες: ανεπαρκής δειγματοληψία Το φίλτρο αποκόπτει τις συχνότητες άνω των f Hz Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-8
Ψηφιοποίηση με δειγματοληψία Γιατί βάζουμε φίλτρο μετά τον αποκωδικοποιητή; Τα δείγματα αναπαράγονται περιοδικά Κάθε δείγμα διαρκεί μέχρι να αναπαραχθεί το επόμενο Το σήμα εξόδου έχει τετραγωνική κυματομορφή Το φίλτρο αποκόπτει τις συχνότητες άνω των f Hz Επιτρέπεται η διέλευση μόνο της πρώτης αρμονικής Η προσέγγιση του σήματος μοιάζει περισσότερο στο αρχικό Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-9
Κβαντοποίηση δειγμάτων + 0,75 Ύψος δείγματος + 0,50 + 0,25 0 0,25 0,50 0,75 Δείγματα Χρόνος Κβαντοποίηση (quantization) των δειγμάτων Αναπαράσταση συνεχών με διακριτές τιμές Διακριτή διάσταση πλάτους Επηρεάζει την ποιότητα 16 bits: 65536 τιμές, 8 bits: 256 τιμές Λιγότερες τιμές, μεγαλύτερο σφάλμα Σφάλμα κβαντοποίησης Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-10
Κβαντοποίηση δειγμάτων Πόσα επίπεδα κβαντοποίησης χρειαζόμαστε; Δεν υπάρχει κάποιο γενικό θεώρημα Εκτιμούμε το σφάλμα κβαντοποίησης ανάλογα με τα bit Θέτουμε ένα άνω όριο στο σφάλμα κβαντοποίησης Υπολογίζουμε το πλήθος bit που επιτυγχάνει το όριο Υπολογισμός σφάλματος κβαντοποίησης Έστω το σήμα εισόδου έχει πλάτος V έως +V Έστω ότι διαθέτουμε n bit για την κβαντοποίηση Πλάτος διαστήματος q = 2V / 2 n (γραμμική κβαντοποίηση) Το μέγιστο σφάλμα κβαντοποίησης είναι q/2 = V / 2 n (το μισό) Δυναμικό εύρος εισόδου Έστω ότι το ελάχιστο αντιληπτό σήμα έχει πλάτος v Το δυναμικό εύρος ορίζεται ως 20 log 10 (V/v) db Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-11
Κβαντοποίηση δειγμάτων Πρώτη προσέγγιση: χρήση δυναμικού εύρους Σφάλμα κβαντοποίησης < ελάχιστο αντιληπτό σήμα V / 2 n < v ισοδυναμεί με log 10 (V/v) < n log 10 2 = 0,3 n Σε όρους δυναμικού εύρους: 20 log 10 (V/v) < 6 n Αν το δυναμικό εύρος είναι 40 db τότε n >= 7 Δεύτερη προσέγγιση: χρήση SNR Ισχύς σήματος / ισχύς θορύβου > x db Το SNR ορίζεται ως 10 log 10 (V/(q/2)) 2 = 20 log 10 (V/(q/2)) Η ισχύς είναι ανάλογη με το τετράγωνο του πλάτους Με αντικατάσταση του q/2 έχουμε 20 log 10 (V/(V / 2 n )) Τελικά λοιπόν 20 log 10 2 n = 6 n Έστω ότι θέλουμε SNR > 40 db (όπως παραπάνω) Για να ισχύει 6 n > 40 db πρέπει πάλι n >= 7 Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-12
Παλμοκωδική διαμόρφωση Παλμοκωδική διαμόρφωση (PCM) Απλή περιοδική δειγματοληψία Δεν έχει μνήμη: κάθε δείγμα είναι ανεξάρτητο Γραμμική (linear) κβαντοποίηση Ίσα διαστήματα τιμών δειγμάτων Μία τιμή ανά διάστημα Απλή στην υλοποίηση Μουσικό CD: πρότυπο CD-DA Γραμμική κβαντοποίηση: ίδια ακρίβεια παντού Εύρος συχνοτήτων 20 khz Ρυθμός δειγματοληψίας 44,1 khz, τιμές των 16 bit Ρυθμός μετάδοσης 1,411 Mbps για στερεοφωνικό ήχο Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-13
Παλμοκωδική διαμόρφωση Λογαριθμική (logarithmic) κβαντοποίηση Λογαριθμίζουμε το σήμα και μετά κβαντοποιούμε Η ίδια η κβαντοποίηση γίνεται γραμμικά Το ένα άκρο των τιμών έχει μεγαλύτερη ακρίβεια Φωνητική τηλεφωνία: πρότυπο ITU G.711 Λογαριθμική κβαντοποίηση: ακρίβεια στα χαμηλά πλάτη Χρήση compressor/expander ή compander Τροποποίηση κυμματομορφής πριν/μετά τη δειγματοληψία A-law στην Ευρώπη, μ-law στην Αμερική και την Ιαπωνία Εύρος συχνοτήτων 3.1-3.5 khz Ρυθμός δειγματοληψίας 8 khz, τιμές των 8 bit (ή 7 bit) Ισοδύναμα με 12-14 bit σε γραμμική κβαντοποίηση Ρυθμός μετάδοσης 64 Kbps Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-14
Συμβολική αναπαράσταση μουσικής Συμβολική αναπαράσταση: πρότυπο MIDI Προδιαγραφές υλικού διασύνδεσης Προδιαγραφές μορφοποίησης δεδομένων Τα μηνύματα MIDI περιγράφουν γεγονότα (events) Ενέργειες που μπορεί να εκτελέσει ένας μουσικός Πάτημα και απελευθέρωση πλήκτρων Συχνότητα και εφφέ των ήχων 16 κανάλια γεγονότων Ελέγχουν ένα ή περισσότερα όργανα Κάθε όργανο μπορεί να είναι μονοφωνικό ή πολυφωνικό General MIDI: 128 τυποποιημένα όργανα Βιολί, πιάνο, κλπ Δεν προδιαγράφεται ο ακριβής ήχος Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-15
Συμβολική αναπαράσταση μουσικής Σύνθεση ήχου Χρήση γεννήτρια συχνοτήτων (FM) Τροποποίηση ήχου με φίλτρα Αναπαραγωγή ψηφιοποιημένων ήχων (wavetable) Αποθηκευμένα δείγματα Ανά όργανο ή και ανά νότα Πλεονεκτήματα και μειονεκτήματα MIDI Οικονομική αναπαράσταση Δυνατότητα συμβολικής επεξεργασίας Αποτέλεσμα ανάλογα με το υλικό Μπορεί να διαφέρει σημαντικά από συσκευή σε συσκευή Κατάλληλο μόνο για μουσικά όργανα Βασίζεται στη δομή συγκεκριμένων ήχων Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-16