Συμπίεση Πολυμεσικών Δεδομένων Εισαγωγή στο πρόβλημα και επιλεγμένες εφαρμογές Κώστας Μπερμπερίδης Εργαστήριο Σημάτων & Τηλεπικοινωνιών Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Ψηφιακή Αναπαράσταση Συμπίεση για Αποθήκευση ή/και Μετάδοση Η ψηφιακή αναπαράσταση των δεδομένων έχει σαφή πλεονεκτήματα: μεγαλύτερη ανοσία σε «θόρυβο» ευελιξία στην ανταλλαγή εύρους ζώνης και ισχύος τεχνικές κρυπτογράφησης και προστασίας ευκολία υλοποίησης σε υλικό (VLSI) Αν τα δεδομένα είναι Αναλογικά, θα πρέπει να μετατραπούν σε Ψηφιακά (πώς ;) Ερώτηση: Χάνεται πληροφορία κατά τη μετατροπή A/D; Τα πολυμεσικά δεδομένα είναι κατά βάση αναλογικά. 2
Θεωρία Πληροφορίας Βασικός στόχος της Συμπίεσης: η αποδοτική αναπαράσταση των δεδομένων που παράγει μια πηγή πληροφορίας Το πρόβλημα της συμπίεσης είναι επίσης γνωστό ως κωδικοποίηση πηγής (source coding) Το αντικείμενο της συμπίεσης δεδομένων ανήκει στον ευρύτερο χώρο της θεωρίας πληροφορίας (information theory) 3
Κωδικοποίηση Πηγής Στόχος: η αποδοτική αναπαράσταση/κωδικοποίηση/συμπίεση της πληροφορίας/σήματος/εξόδου μιας πηγής Ερωτήματα που προκύπτουν: πώς ορίζεται η πληροφορία μιας πηγής; πότε μια πηγή εξάγει περισσότερη πληροφορία; μπορώ να τη μετρήσω μαθηματικά; τι παθαίνει η πληροφορία μιας πηγής όταν εφαρμόζω κάποια επεξεργασία (π.χ. μετατροπή A/D); πόσο πολύ μπορώ να συμπιέσω τα δεδομένα μιας πηγής; Απαντήσεις δίνονται μέσα από τη θεωρία πληροφορίας και τις τεχνικές κωδικοποίησης πηγής 4
Πηγές Πληροφορίας Η έξοδος της πηγής είναι κάτι τυχαίο και άγνωστο, μια τυχαία διαδικασία (αν είναι κάτι σταθερό ή γενικότερα ντετερμινιστικό, δεν υπάρχει λόγος να το μεταδώσουμε ή να το αποθηκεύσουμε) Παραδείγματα πηγών πληροφορίας: ακολουθία από bits χαρακτήρες ASCII ήχος (ομιλία) εικόνα video Διάκριση ως προς το χρόνο: συνεχούς χρόνου (π.χ. αναλογικό ηχητικό σήμα) διακριτού χρόνου (δειγματοληπτημένο σήμα ή σύμβολα) Διάκριση ως προς τις δυνατές τιμές (αλφάβητο): συνεχείς τιμές (π.χ. αναλογικό σήμα) διακριτές τιμές (π.χ. ASCII) 5
Πηγές Πληροφορίας (2) Αν η πηγή είναι αναλογική τότε απαιτείται: Μετατροπή της πηγής από συνεχούς σε διακριτού χρόνου δειγματοληψία το σήμα πρέπει να έχει πεπερασμένο εύρος ζώνης αν είναι κατωπερατό με μέγιστη συχνότητα f max, τότε η συνθήκη Nyquist μας λέει ότι αρκεί να το δειγματοληπτήσω με και μπορώ να ανακατασκευάσω το αναλογικό σήμα από τα δείγματα του χωρίς απώλειες Οι πηγές που μας ενδιαφέρουν, έχουν περιορισμένο εύρος ζώνης f s 2 f ή μπορούμε να το περιορίσουμε εμείς με φιλτράρισμα Περίπτωση στοχαστικών σημάτων: ανακατασκευή με μηδενικό MSE Συμπέρασμα: αρκεί να μελετήσω τις πηγές διακριτού χρόνου max 6
Πληροφορία Η θεωρητική ανάλυση παρουσιάζεται για πηγές πληροφορίας με διακριτό αλφάβητο λόγω ευκολίας (μπορεί να γενικευτεί σε πηγές με συνεχές αλφάβητο) Αλφάβητο Διακριτής Πηγής: Φ= s s 1, 2 sn { } Παράδειγμα: ο καιρός στην Ελλάδα κάθε 15 Αυγούστου s 1 : χιόνι s 2 : βροχή s 3 : λιακάδα Πότε δίνεται περισσότερη πληροφορία; όταν τυχαίνει το σύμβολο s 1 ή το s 3 ; με τι σχετίζεται η πληροφορία που φέρει κάθε σύμβολο; 7
Μέτρο Πληροφορίας (1) Ιδιότητες του μέτρου της πληροφορίας: 1. 2. 3. 4. ( ) = 0 ( ) = 1 I s for p s k ( ) 0 0 ( ) 1 I s for p s k ( ) > ( ) ( ) < ( ) I s I s for ps ps k l k l k k ( ) = ( ) + ( ), ά ά I s s I s I s s s k l k l εαν k l στατιστικ ανεξ ρτητα 5. Μικρή αλλαγή στην πιθανότητα μικρή αλλαγή στην πληροφορία (συνεχής συνάρτηση) 8
Μέτρο Πληροφορίας (2) Η Πληροφορία ενός συμβόλου (Information) s i με πιθανότητα εμφάνισης p(s i ) ορίζεται ως ( ) I s i 1 = log = log p s ( ) i ( ) p s i Βάση του λογαρίθμου συνήθως χρησιμοποιείται το 2 με μονάδα μέτρησης bit δεν ταυτίζεται με το bit που γνωρίζουμε ως δυαδικό ψηφίο Σύνθετη πηγή: (, ) = ( ) + ( ) I s a I s I a i j i j 9
Μέτρο Πληροφορίας (3) Παρατηρήσεις: 1. Φθίνουσα 2. Πεδίο ορισμού (που ορίζεται;) 3. Όρια (τι συμβαίνει στα άκρα;) 4. Είναι συνεχής; 10
Διακριτή Πηγή Χωρίς Μνήμη Discrete Memoryless Source (DMS): διακριτού χρόνου διακριτού αλφαβήτου τα σύμβολα στην έξοδό της είναι ανεξάρτητα ακολουθούν την ίδια κατανομή πιθανότητας Περιγράφεται πλήρως από: το αλφάβητο Φ= s,, 1 sn { } και τις πιθανότητες εμφάνισης p,, 1 pn { } Ειδικές Περιπτώσεις: Δυαδική Πηγή Χωρίς Μνήμη: Φ= { 0,1} { p,1 p} Για p=0.5, Δυαδική Συμμετρική Πηγή Χωρίς Μνήμη 11
Εντροπία Η εντροπία μιας DMS ορίζεται ως Φυσική Σημασία: N Φ = = H pi s p log p ( ) ( ) 2 i i i i i= 1 i= 1 εκφράζει τη μέση αβεβαιότητα που έχω για την πηγή είναι ο μέσος όρος της πληροφορίας των συμβόλων N Όσο μεγαλύτερη εντροπία έχει μια πηγή, τόσο περισσότερη πληροφορία φέρει, και τόσο περισσότερα bits χρειάζονται για την κωδικοποίησή της 12
Συνάρτηση Δυαδικής Εντροπίας Αν έχω δυαδική DMS Φ={0,1}, με πιθανότητες εμφάνισης {p,1-p}, τότε ορίζεται η συνάρτηση δυαδικής εντροπίας H p = plog p 1 p log 1 p b ( ) ( ) ( ) 2 2 Παρατηρήσεις: 1. ελαχιστοποιείται όταν p=0 ή 1, Η(0)=Η(1)=0 2. μεγιστοποιείται όταν τα σύμβολα είναι ισοπίθανα, Η(0.5)=1 13
Εντροπία Ομοιόμορφης Πηγής Είδαμε ότι η εντροπία της δυαδικής DMS μεγιστοποιείται για ισοπίθανα σύμβολα Γενίκευση: Η εντροπία μιας Ν-αδικής DMS μεγιστοποιείται όταν τα σύμβολά της ακολουθούν ομοιόμορφη κατανομή, δηλαδή p i =1/N για i=1,,n Συμπέρασμα: Η εντροπία φράσσεται ως 0 H Φ log ( ) 2 N όπου N το πλήθος του αλφαβήτου και το άνω όριο επιτυγχάνεται για ομοιόμορφη πηγή 14
Κωδικοποίηση Πηγής Στόχος: Η αποδοτική αναπαράσταση μιας Μιαδικής πηγής Κώδικες μεταβλητού μήκους: Αξιοποιεί τη γνώση των στατιστικών ιδιοτήτων της πηγής Λειτουργικές απαιτήσεις: Οι κωδικές λέξεις είναι δυαδικές Ο κώδικας είναι μοναδικά αποκωδικοποιήσιμος Μέσο μήκος κώδικα N i= 1 ( ) ( ) L= p si l s i 15
Θεώρημα Κωδικοποίησης Πηγής ή «Το Πρώτο Θεώρημα του Shannon» (1948) Χρησιμότητα: πόσο μπορούμε να συμπιέσουμε μια πηγή χωρίς να εισάγουμε σφάλματα; Θεώρημα: Έστω πηγή με εντροπία H που κωδικοποιείται ώστε να παρέχει ρυθμό R (bits/έξοδο πηγής). Αν R>H, η πηγή μπορεί να κωδικοποιηθεί με οσοδήποτε μικρή πιθανότητα σφάλματος Αν R<H, όσο πολύπλοκος κι αν είναι ο κωδικοποιητής πηγής, η πιθανότητα σφάλματος θα είναι μακριά από το 0 Σχόλια: Όπου R μπορείτε να θεωρήσετε το μέσο μήκος κώδικα (\bar{l}) ο Shannon δίνει την ικανή και αναγκαία συνθήκη όμως δεν προτείνει κάποιο αλγόριθμο/μεθοδολογία για να φτιάξουμε έναν κωδικοποιητή όταν R>H R<H : Data compression, Rate-Distortion Theory 16
Ομοιόμορφη Πηγή: H(X)=log 2 N Ειδικές Περιπτώσεις δε μπορεί να συμπιεστεί κάθε ακολουθία εξόδου είναι δυνατή (τυπική) και ισοπίθανη Πηγές με μνήμη: ο ρυθμός εντροπίας παίζει τον ίδιο ρόλο με την εντροπία για στατικές πηγές ο ρυθμός εντροπίας συγκλίνει γρήγορα στην τελική τιμή Παράδειγμα πηγής με μνήμη: αγγλικό κείμενο για n=1 (αγνοώντας τη μνήμη), H(X)=4.03 bits/letter για μπλοκ γραμμάτων (π.χ. n=10) συγκλίνει στην τιμή H(X)=1.3 bits/letter 17
Μη απωλεστική κωδικοποίηση δεδομένων - Προθεματικοί κώδικες - Αλγόριθμος Huffman
Προθεματικοί κώδικες Αλγόριθμοι κωδικοποίησης (συμπίεσης) πηγής Επιτυγχάνουν ρυθμούς κωδικοποίησης κοντά στην εντροπία (στο όριο συμπίεσης χωρίς απώλειες) Κωδικοποίηση από σταθερό σε μεταβλητό μήκος: είσοδος: μπλοκ συμβόλων σταθερού μήκους (μήκος μπλοκ 1 ) έξοδος: μπλοκ bits μεταβλητού μήκους (κωδική λέξη) Πρόβλημα: Συγχρονισμός πώς μπορώ να βρω τα όρια των μπλοκ στην έξοδο για να γίνει η αποκωδικοποίηση Λύση: Προθεματικός Καμμία κωδική λέξη δεν αποτελεί πρόθεμα κάποιας άλλης» μοναδικά αποκωδικοποιήσιμος (κάθε έξοδος αντιστοιχεί σε μοναδική είσοδο)» άμεσος (επιτρέπει απευθείας αποκωδικοποίηση) 19
Μέσο Μήκος Κώδικα Έστω DMS με πιθανότητες εμφάνισης p(s i ) και ένας κωδικοποιητής πηγής που αναθέτει l(s i ) bits στο σύμβολο s i Εάν ένας κώδικας είναι προθεματικός έχει τις εξής ιδιότητες: Kraft-McMillan inequality (αναγκαία και ικανή) i= 1 Φράγματα στο μέσο μήκος. N l( si ) 2 1 Μπορεί να κατασκευαστεί προθεματικός για τον οποίο: H( X) L< H( X) + 1 20
Αποδοτικότητα Κώδικα Η αποδοτικότητα ενός κώδικα ορίζεται ως H( X) η = 1 L και δείχνει πόσο κοντά βρίσκεται ο κωδικοποιητής στο όριο συμπίεσης της πηγής (εντροπία) Ένας κώδικας είναι αποδοτικός, όσο το η πλησιάζει στο 1 21
Ν-οστής Τάξης Επέκταση Πηγής Ο προθεματικός κώδικας (π.χ. ο αλγόριθμος Huffman) θεωρεί ένα μπλοκ από σύμβολα ως επεκτεταμένη είσοδο και τα κωδικοποιεί ως ένα σύνθετο σύμβολο, δηλαδή έστω s i και s j θέτει σ κ =(s i,s j ) με πιθανότητα εμφάνισης p(σ κ )=p(s i )p(s j ) για πηγή χωρίς μνήμη Γενικεύεται σε n-οστή επέκταση της πηγής και ισχύει ( n) ( n ) n < + 1 H X L H X Μέσο μήκος κώδικα της επεκταμένης ακολουθίας πηγής L= Ln n 22
Ν-οστής Τάξης Επέκταση Πηγής (2) Για πηγή χωρίς μνήμη, αποδεικνύεται ( n ) = nh ( X ) H X Προκύπτει H X L< H X + ( ) ( ) 1 n Συμπέρασμα: Η n-οστής τάξης επέκταση μιας πηγής αποφέρει κώδικες που είναι ολοένα και πιο κοντά στο όριο συμπίεσης (εντροπία) της πηγής lim n L = H X ( ) Ερώτηση: Γιατί δε χρησιμοποιώ ένα πολύ μεγάλο n, ώστε να πετύχω συμπίεση κοντά στο όριο της εντροπίας; 23
Βήματα Αλγορίθμου Huffman (1) Δημιουργία Δυαδικού Δέντρου: 1. Διάταξε τις εισόδους κατά φθίνουσα σειρά πιθανοτήτων 2. Συγχώνευσε τα δύο σύμβολα με τις μικρότερες πιθανότητες και δημιούργησε νέο «σύμβολο» 3. Ανάθεσε στα δύο σύμβολα «0» και «1» 4. Ταξινόμησε εκ νέου τη λίστα των συμβόλων 5. Επανέλαβε τα παραπάνω μέχρι όλα τα σύμβολα συγχωνευτούν σε ένα τελικό σύμβολο Δημιουργήθηκε ένα δυαδικό δέντρο: ρίζα: το τελικό σύνθετο σύμβολο φύλλα: τα αρχικά σύμβολα ενδιάμεσοι κόμβοι: σύνθετα σύμβολα 24
Βήματα Αλγορίθμου (2) Ανάθεση Bits σε Σύμβολα Εισόδου 1. Ξεκίνα από τη ρίζα και κινήσου προς ένα φύλλο 2. Η ακολουθία των bits που συναντώνται είναι η ακολουθία κωδικοποίησης 3. Επανέλαβε για όλα τα σύμβολα (φύλλα) 25
Παράδειγμα Huffman Προθεματική αντιστοίχηση: s 0 : 1 s 1 : 00 s 2 : 01 Μονοσήμαντη και άμεση αποκωδικοποίηση 1 0100011 00 s s s s s s 0 2 1 2 0 1 26
Χαρακτηριστικά Huffman Μειονέκτημα: απαιτεί να γνωρίζει εκ των προτέρων τις πιθανότητες εμφάνισης των συμβόλων της πηγής δε μπορεί να χρησιμοποιηθεί σε εφαρμογές πραγματικού χρόνου Βέλτιστος: ανάμεσα σε όλους τους προθεματικούς κώδικες (άρα μονοσήμαντα αποκωδικοποιήσιμους και άμεσους) πετυχαίνει το ελάχιστο μέσο μήκος κώδικα Συμβάσεις: Ο τρόπος ανάθεσης 0 και 1 Η ταξινόμηση σε φθίνουσα σειρά (σχετίζεται με τη διασπορά του κώδικα) 27
Απωλεστική Κωδικοποίηση Θεωρία Ρυθμού - Παραμόρφωσης
Θεωρία Ρυθμού-Παραμόρφωσης Θεώρημα Κωδικοποίησης Πηγής: αν έχω αρκετά μεγάλο μπλοκ δεδομένων, μπορώ να φτάσω κοντά στην εντροπία Πιθανά Προβλήματα: > διακριτή πηγή: η πηγή να έχει πολύ μεγάλη εντροπία (πολλά bits/symbol) αλλά οι πόροι (αποθήκευσης, μετάδοσης) να είναι περιορισμένοι > αναλογική πηγή: - χάνεται πληροφορία κατά την κβάντιση - άπειρο πλήθος bits για ιδανική αναπαράσταση Συμπέρασμα: Πολλές φορές κατά την κωδικοποίηση πηγής δε μπορώ να φτάσω στην εντροπία Εισάγεται κάποια παραμόρφωση Πώς σχετίζεται η παραμόρφωση με τη συμπίεση; Η απάντηση προαπαιτεί να οριστούν κάποια μεγέθη 29
Ρυθμός vs Παραμόρφωση Αν δε μπορώ να διαθέσω H(X) bits/έξοδο, τα σφάλματα είναι αναπόφευκτα Ερώτηση: Για δεδομένο ρυθμό bits/έξοδο, ποιος είναι ο ελάχιστος ρυθμός σφαλμάτων; Αντίστροφο Ερώτημα: Για δεδομένη παραμόρφωση, ποιος είναι ο ελάχιστος ρυθμός bits/έξοδο; Αλλά, πώς ορίζεται η παραμόρφωση; 30
Παραμόρφωση Κατά την κωδικοποίηση/αποκωδικοποίηση μιας πηγής, πόσο «κοντά» είναι το αναπαραχθέν σήμα στο αρχικό; Επιθυμητές ιδιότητες μέτρου παραμόρφωσης αντιστρόφως ανάλογο της εγγύτητας/πιστότητας (μεγάλη εγγύτητα μικρή παραμόρφωση) απλό και μαθηματικά εύχρηστο να ενσωματώνει στοιχεία από τη διαδικασία αντίληψης Παράδειγμα αντίληψης: ηχητικό σήμα: το αυτί δεν αντιλαμβάνεται τη φάση σήμα εικόνας: το μάτι είναι ευαίσθητο στη φάση 31
Παραμόρφωση (2) Παραμόρφωση Hamming (πηγές με διακριτό αλφάβητο) d H xx, ˆ ( ) 1, x = 0, x= Παραμόρφωση Τετραγωνικού Σφάλματος (πηγές συνεχούς αλφαβήτου) (, ˆ) = ( ˆ) 2 d xx x x Αν έχω ένα μπλοκ από n δείγματα πηγής, ορίζω d n 1 = xˆ xˆ ( n n x, xˆ ) d( x, ˆ ) i xi n i = 1 είναι ο μέσος όρος των παραμορφώσεων ανεξάρτητο της θέσης του σφάλματος μέσα στο μπλοκ 32
Παραμόρφωση (3) Η έξοδος της πηγής είναι τυχαία διαδικασία Η απόσταση αρχικού σήματος και αναπαραγωγής είναι επίσης τυχαία διαδικασία Η μέση τιμή της είναι η παραμόρφωση του κωδικοποιητή ( n ˆ n X, X ) (, ˆ) D= E d = E d X X η δεύτερη ισότητα υποθέτει στασιμότητα της πηγής δηλαδή ότι τα δείγματα της τυχαίας διαδικασίας κάθε χρονική στιγμή ακολουθούν την ίδια κατανομή 33
Θεώρημα Ρυθμού-Παραμόρφωσης Θεώρημα: Ο ελάχιστος αριθμός bits/έξοδο που απαιτείται για να αναπαραχθεί μια πηγή χωρίς μνήμη με παραμόρφωση μικρότερη ή ίση του D ονομάζεται συνάρτηση ρυθμού-παραμόρφωσης, R(D), και είναι R D ( ) = min I( X; Xˆ ) ( ˆ ): (, ˆ ) D p xx E d X X Η ποσότητα I(X;Y) καλείται αμοιβαία πληροφορία Φυσική Σημασία: τι πληροφορία μαθαίνω για την τυχαία μεταβλητή Χ αν γνωρίζω την τυχαία μεταβλητή Υ I X Y H X H X Y ( ; ) = ( ) ( ) 34
Κβάντιση δειγμάτων αναλογικών πηγών
Εισαγωγή Αναλογική πηγή: μετά από δειγματοληψία γίνεται διακριτού χρόνου άπειρος αριθμός bits/έξοδο για τέλεια αναπαράσταση Θεωρία Ρυθμού-Παραμόρφωσης: θεμελιώδης σχέση ανάμεσα σε ρυθμό bits/έξοδο του κωδικοποιητή παραμόρφωση που εισάγεται Διάκριση Κβαντιστών Βαθμωτός Κβαντιστής: κάθε δείγμα της πηγής κβαντίζεται (κωδικοποιείται) ξεχωριστά Διανυσματικός Κβαντιστής: τα δείγματα κβαντίζονται κατά μπλοκ 36
Βαθμωτή Κβάντιση Κάθε δείγμα (έξοδος της πηγής) κβαντίζεται χωριστά Γενικά x(n) πραγματικός αριθμός Απαιτεί άπειρο αριθμό bits για τέλεια αναπαράσταση Χωρίζω το σύνολο των πραγματικών σε N μη επικαλυπτόμενες περιοχές, R k, k=1,,n, με όρια α κ-1 και α κ Για κάθε περιοχή επιλέγεται μια αντιπροσωπευτική τιμή Αν η έξοδος x ανήκει στην R k, κβαντίζεται στο Στέλνουμε τη δυαδική αναπαράσταση της περιοχής k, Απαιτούνται R=log 2 N bits/έξοδο Παρατήρηση: τα bits αναπαράστασης μειώθηκαν από άπειρα σε log 2 N αλλά εισήχθηκε παραμόρφωση xˆk xˆk 37
Παράδειγμα Βαθμωτής Κβάντισης Περιοχές: R 1 =(-,α 1 ] R 2 =(α 1, α 2 ]... R 8 =(α 7, ) Τιμές κβάντισης: xˆ,, xˆ 1 8 38
Συνάρτηση Κβάντισης Συνάρτηση Κβάντισης ( ) = Q x x x R ˆi i Μη γραμμική Μη αναστρέψιμη όλα τα σημεία της R k απεικονίζονται στο ίδιο σημείο ένα ποσό πληροφορίας χάνεται ανεπιστρεπτί Μέτρο στιγμιαίας παραμόρφωσης: τετραγωνικό σφάλμα (, ˆ) ( ) ( ) 2 2 d xx = x Q x = x Παραμόρφωση ( ) 2 2 (, ˆ ) ( ) D= E d X X = E X Q X = E x 39
Θόρυβος Κβάντισης Το τελικό (κβαντισμένο) σήμα μπορεί να εκφραστεί ως xˆ = Q( x) = x x Η δεύτερη ποσότητα (\tilde{x}) καλείται θόρυβος κβάντισης Στόχος: ο θόρυβος κβάντισης να έχει μικρή ισχύ P X 2 = E X Πιο σημαντικός στόχος: η ισχύς του θορύβου να είναι μικρή σε σχέση με την ισχύ του αρχικού σήματος (κανονικοποίηση) Ορισμός: Λόγος Σήματος προς Θόρυβο Κβάντισης (Signal to Quantization Noise Ratio, SQNR) 2 E X PX SQNR = = 2 E X PX 40
Ομοιόμορφη και Μη Ομοιόμορφη Κβάντιση Ομοιόμορφη κβάντιση: Περιοχές ίδιου εύρους και τιμές εξόδου τα κέντρα των περιοχών Μη Ομοιόμορφη κβάντιση: Χαλαρώνουμε τις παραπάνω συνθήκες Αποτέλεσμα: αν η πηγή δεν είναι ομοιόμορφη, δεν υπάρχει λόγος για ομοιόμορφο κβαντιστή λιγότεροι περιορισμοί κατά την ελαχιστοποίηση ο κβαντιστής έχει καλύτερες επιδόσεις Σχεδιασμός Κβαντιστή: ελαχιστοποιώ την παραμόρφωση ως προς x i, α i, δηλαδή ως προς (2Ν-1) παραμέτρους 41
Συνθήκες Lloyd-Max Οι συνθήκες: 1. τα άκρα των περιοχών κβάντισης δίνονται από τον αριθμητικό μέσο των γειτονικών τιμών κβάντισης 2. οι τιμές κβάντισης είναι τα κέντρα μάζας των περιοχών κβάντισης είναι αναγκαίες για να είναι βέλτιστος ένας βαθμωτός κβαντιστής Ερώτημα: Αν ξέρω την pdf της πηγής και με βάση τις παραπάνω συνθήκες, μπορώ να σχεδιάσω το βέλτιστο κβαντιστή; 42
Αλγόριθμος Lloyd-Max Πρακτική λύση: ένας επαναληπτικός αλγόριθμος οι δύο συνθήκες ικανοποιούνται εναλλάξ Αλγόριθμος: 1. Επέλεξε τυχαία ή ομοιόμορφα τις περιοχές κβάντισης 2. Υπολόγισε τις τιμές κβάντισης ως τα κέντρα μάζας των περιοχών 3. Υπολόγισε τα άκρα των περιοχών ως το μέσο όρο των γειτονικών τιμών κβάντισης 4. Επανέλαβε τα βήματα 2 και 3 έως ότου συγκλίνει η διαδικασία Αποτέλεσμα: με αυτόν τον τρόπο μπορώ να σχεδιάσω το βέλτιστο μη ομοιόμορφο κβαντιστή για οποιαδήποτε πηγή 43
Βαθμωτός vs Διανυσματικός Βαθμωτή κβάντιση: κάθε έξοδος κβαντίζεται ξεχωριστά Παράδειγμα: κβάντιση με 2bits/έξοδο 44
Βαθμωτός vs Διανυσματικός Διανυσματική κβάντιση: μπλοκ εξόδων κβαντίζονται ταυτόχρονα Παράδειγμα: θεωρούμε δύο δείγματα εξόδου μαζί απεικονίζονται στο επίπεδο χωρίζω το επίπεδο σε 16 περιοχές απαιτούνται 4 bits/ζεύγος εξόδων δηλαδή 2bits/έξοδο ίδιος ρυθμός με τη βαθμωτή Ερώτηση: ποιο είναι το κέρδος; 45
Απάντηση: Διανυσματική Κβάντιση οι περιοχές μπορεί να μην είναι ορθογώνιες έτσι μπορώ να πετύχω μικρότερη παραμόρφωση κατά την κβάντιση με τον ίδιο ρυθμό R 46
Γενίκευση: Διανυσματική Κβάντιση (2) μπορώ να πάρω n δείγματα εξόδου ταυτόχρονα αυτά αναπαρίστανται στον n-διάστατο Ευκλείδιο χώρο ο βέλτιστος κβαντιστής σχεδιάζεται στο συγκεκριμένο χώρο Ρυθμός: Χωρίζω τον n-διάστατο χώρο σε K περιοχές απαιτούνται log 2 K bits για να τις δεικτοδοτήσω R = log 2 n K bits/έξοδο 47
Βέλτιστος Διανυσματικός Κβαντιστής Κριτήρια σχεδίασης Γενικεύσεις του βαθμωτού 1. Η περιοχή R i είναι το σύνολο των σημείων που ικανοποιεί { x n : x xˆ x xˆ, } R = < j i i i j 2. Οι τιμές κβάντιστης είναι τα κέντρα μάζας των περιοχών 1 xˆ = ( ) i xf d P R R X x x X i ( ) i Ο σχεδιασμός του κβαντιστή γίνεται με γενίκευση του επαναληπτικού αλγορίθμου που είδαμε 48
Σχόλια Η διανυσματική κβάντιση έχει πολλές εφαρμογές, π.χ. κωδικοποίηση ομιλίας κωδικοποίηση video Η διανυσματική κβάντιση για να είναι αποδοτική προϋποθέτει συσχέτιση μεταξύ των δειγμάτων εξόδου της πηγής (δηλαδή να έχουμε πηγή με μνήμη) γιατί; Αποδεικνύεται ότι για στατικές και εργοδικές πηγές, ο βέλτιστος διανυσματικός κβαντιστής προσεγγίζει τα όρια της συνάρτησης ρυθμού παραμόρφωσης για n 49
Παράδειγμα 1: Συμπίεση Φωνής
Τεχνικές Κωδικοποίησης Φωνής Κωδικοποίηση Φωνής: Ιδιαίτερα χρήσιμη διαδικασία αν αναλογιστούμε ότι μεγάλο μέρος της διακινούμενης πληροφορίας είναι φωνή και ότι μέσω της συμπίεσης της μπορεί να επιτευχθεί σημαντική μείωση του απαιτούμενου εύρους ζώνης (μέχρι και 4-5 φορές, χωρίς αισθητή υποβάθμιση της ποιότητας). Γενική κατηγοριοποίηση των τεχνικών 1) Waveform Coding - Temporal - Spectral (Transform) 2) Model-based Coding Παρόμοια κατηγοριοποίηση ισχύει και σε άλλου τύπου αναλογικές πηγές, π.χ. εικόνα ή video (η φυσική σκηνή είναι σχεδόν πάντα αναλογική)
Τεχνικές Κωδικοποίησης Φωνής
Τεχνικές Κωδικοποίησης Φωνής Ιεραρχική κατηγοριοποίηση των διαφόρων τεχνικών κωδικοποίησης
Τεχνικές Κωδικοποίησης Φωνής Ένα βασικό μοντέλο παραγωγής φωνής Απαιτείται η εκτίμηση των εξής: Οι παράμετροι της βασικής φωνητικής οδού Το αν το φώνημα είναι εύφωνο (voiced) ή άφωνο (unvoiced) Η θεμελιώδης συχνότητα (pitch) Η μέση ισχύς του φωνήματος
Τεχνικές Κωδικοποίησης Φωνής Κωδικοποιητές φωνής (Vocoders) τύπου LPC (Linear Predictive Coding) Ένας LPC Vocoder μοντελοποιεί τη φωνητική οδό ως ένα γραμμικό σύστημα τύπου all-pole με συνάρτηση μεταφοράς: Προσδιορισμός των συντελεστών του LPC Vocoder : To τρέχον δείγμα γράφεται ως γραμμικός συνδυασμός προηγουμένων δειγμάτων : min{σ e 2 n} w.r.t. α k R α = r (R = Toeplitz) (Levinson-Durbin Alg.)
Τεχνικές Κωδικοποίησης Φωνής Διάγραμμα βαθμίδων ενός κωδικοποιητή LPC Απαιτούμενη πληροφορία στον δέκτη: - Συντελεστές LPC (κβαντισμένοι) - Voiced/unvoiced decision - Pitch period - Gain
Τεχνικές Κωδικοποίησης Φωνής Διάφορες εναλλακτικές μέθοδοι δημιουργίας του σήματος διέγερσης στον αποκωδικοποιητή LPC LPC Vocoder MPE-LPC (Multipulse Excitation) Χρήση πολλών παλμών ανά περίοδο με μεταβαλλόμενα πλάτη και θέσεις CELP (Code Excited LP) Χρήση ενός προκαθορισμένου codebook με σήματα διέγερσης
Τεχνικές Κωδικοποίησης Φωνής Διάγραμμα βαθμίδων της διαδικασίας code book search του συστήματος κωδικοποίησης CELP (Code Excited Linear Predictive) Οι βασικές διαδικασίες στον κωδικοποιητή CELP: - Υπολογισμός των δύο προβλεπτών (LTP, STP) από το εκάστοτε τμήμα φωνής (Long Term & Short Term Prediction) - Εύρεση της βέλτιστης διέγερσης (από το codebook). Το αντικειμενικό σφάλμα ανακατασκευής (error) υφίσταται περαιτέρω μετασχηματισμό σύμφωνα με τον αντιληπτικό μηχανισμό μας (perceptual masking)
Τεχνικές Κωδικοποίησης Φωνής Τεχνικές κωδικοποίησης που χρησιμοποιούνται σε διάφορα συστήματα κινητών επικοινωνιών Πρότυπο Τύπος Υπηρεσίας Κωδικοποιητ ής Φωνής Bit Rate (kbps) GSM Cellular RPE-LTP 13 CD-900 Cellular SBC 16 USDC (IS-54) Cellular VSELP 8 IS-95 Cellular CELP 1.2, 2.4, 4.8, 9.6 IS-95 PCS PCS CELP 14.4 PDC Cellular VSELP 4.5, 6.7, 11.2 CT2 Cordless ADPCM 32 DECT Cordless ADPCM 32 PHS Cordless ADPCM 32 DCS-1800 PCS RPE-LTP 13 PACS PCS ADPCM 32 Συστήματα 3ης γενιάς: Adaptive Multirate (AMR) speech codec Το σύστημα επιτρέπει συμπίεση σε διαφορετικούς ρυθμούς ανάλογα με τις συνθήκες. Στον πυρήνα του συστήματος είναι η τεχνική ACELP (Algebraic CELP) που είναι κατά βάση η CELP με διαφορετικό coodbook design and search.
Τεχνικές Κωδικοποίησης Φωνής Αξιολόγηση της απόδοσης διαφόρων τεχνικών κωδικοποίησης με βάση τον δείκτη MOS (Mean Opinion Score)