Πηγές Πληροφορίας και Κωδικοποίηση Πηγής

Σχετικά έγγραφα
( ) log 2 = E. Σεραφείµ Καραµπογιάς

ιαφορική εντροπία Σεραφείµ Καραµπογιάς

Θεώρημα κωδικοποίησης πηγής

Ψηφιακές Τηλεπικοινωνίες. Θεωρία Ρυθμού Παραμόρφωσης

Σεραφείµ Καραµπογιάς. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6.3-1

Εισαγωγή στη θεωρία πληροφορίας

Τι είναι σήµα; Ωςσήµαορίζεταιέναφυσικόµέγεθοςτοοποίοµεταβάλλεταισεσχέσηµετοχρόνοή το χώρο ή µε οποιαδήποτε άλλη ανεξάρτητη µεταβλητή ή µεταβλητές.

Τηλεπικοινωνιακά Συστήματα ΙΙ

Ψηφιακές Τηλεπικοινωνίες

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Ψηφιακές Τηλεπικοινωνίες

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 : Πληροφορία και Εντροπία Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Θεωρία πληροφοριών. Τεχνολογία Πολυµέσων 07-1

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 4η διάλεξη (4η έκδοση, 11/3/2013)

0, αλλιώς. Σεραφείµ Καραµπογιάς. Παράδειγµα 1 Η πηγή X(t) είναι στατική Gaussian µε µέση τιµή µηδέν και φασµατική πυκνότητα ισχύος.

Συμπίεση Δεδομένων

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Συμπίεση Δεδομένων

Θέματα Συστημάτων Πολυμέσων

( x) Η ΕΝΝΟΙΑ ΤΗΣ ΤΥΧΑΙΑΣ ΜΕΤΑΒΛΗΤΗΣ - ΠΙΘΑΝΟΤΗΤΑΣ. Βασικά αξιώµατα και ιδιότητες της πιθανότητας. Σεραφείµ Καραµπογιάς

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 2η διάλεξη (3η έκδοση, 11/3)

Ψηφιακές Τηλεπικοινωνίες

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

EE728 (22Α004) - Προχωρημένα Θέματα Θεωρίας Πληροφορίας 3η σειρά ασκήσεων Διακριτά και Συνεχή Κανάλια. Παράδοση: Έως 22/6/2015

ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ

Αναλογικές και Ψηφιακές Επικοινωνίες

Ασκήσεις στο µάθηµα «Επισκόπηση των Τηλεπικοινωνιών»

Θεωρία Πληροφορίας. Διάλεξη 5: Διακριτή πηγή πληροφορίας με μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ. Εισαγωγή στα Σήµατα Εισαγωγή στα Συστήµατα Ανάπτυγµα - Μετασχηµατισµός Fourier Μετασχηµατισµός Z

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 12η διάλεξη

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Θέματα Συστημάτων Πολυμέσων

Βασικά στοιχεία της θεωρίας πιθανοτήτων

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 11η διάλεξη

Θεωρία της Πληροφορίας 3 ο Εξάμηνο

Πρόλογος 1. 1 Μαθηµατικό υπόβαθρο 9

Αθανάσιος Χρ. Τζέμος Τομέας Θεωρητικής Φυσικής. Εντροπία Shannon

Συμπίεση Δεδομένων

Μάθημα Επισκόπηση των Τηλεπικοινωνιών

Συμπίεση χωρίς Απώλειες

Δίαυλος Πληροφορίας. Η λειτουργία του περιγράφεται από:

Βασικά στοιχεία της θεωρίας πιθανοτήτων

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 10η διάλεξη (2η έκδοση, 7/5/2013)

Ο Βέλτιστος Φωρατής. Σεραφείµ Καραµπογιάς

Επεξεργασία Στοχαστικών Σημάτων

Κεφάλαιο 2 Πληροφορία και εντροπία

Συμπίεση Πολυμεσικών Δεδομένων

KΕΦΑΛΑΙΟ 1 ΧΡΗΣΙΜΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΝΝΟΙΕΣ. { 1,2,3,..., n,...

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μοντέλο Επικοινωνίας Δεδομένων. Επικοινωνίες Δεδομένων Μάθημα 6 ο

1 1 c c c c c c = 1 c = 1 28 P (Y < X) = P ((1, 2)) + P ((4, 1)) + P ((4, 3)) = 2 1/ / /28 = 18/28

Οικονομικό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής ΠΜΣ Κρυπτογραφία και Εφαρμογές

Τυχαία μεταβλητή (τ.μ.)

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Απαντήσεις σε απορίες

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

Παλµοκωδική ιαµόρφωση

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 10η διάλεξη

Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 6η διάλεξη

Σημείωμα Αδειοδότησης

Η Έννοια της τυχαίας ιαδικασίας

Παράδειγµα ενός ηλεκτρικού συστήµατος

Δομές Δεδομένων και Αλγόριθμοι

1 Βασικές Έννοιες Θεωρίας Πληροφορίας

Ψηφιακή Επεξεργασία Εικόνας


Ευρυζωνικά δίκτυα (2) Αγγελική Αλεξίου

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

Τηλεπικοινωνίες. Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ

22Α004 - Προχωρημένα Θέματα Θεωρίας Πληροφορίας Τελική Εξέταση

X(t) = A cos(2πf c t + Θ) (1) 0, αλλού. 2 cos(2πf cτ) (9)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Στοχαστικές Στρατηγικές

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Σήματα και Συστήματα. Διάλεξη 6: Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Μάθημα 7 ο. Συμπίεση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

ΚΑΤΑΝΟΜΕΣ ΠΙΘΑΝΟΤΗΤΑΣ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ (Συνέχεια)

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 11η διάλεξη

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

Σεραφείµ Καραµπογιάς ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ

Μέρος ΙΙ. Τυχαίες Μεταβλητές

Ψηφιακή Μετάδοση Αναλογικών Σηµάτων

Συμπίεση Δεδομένων

Παρεµβολή και Προσέγγιση Συναρτήσεων

5.1 Θεωρητική εισαγωγή

Κωδικοποίηση Πηγής. Η λειτουργία ενός συστήματος επικοινωνίας (γενικό διάγραμμα):

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

Συμπίεση Πολυμεσικών Δεδομένων

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Γραφική αναπαράσταση ενός ψηφιακού σήµατος

Transcript:

Πηγές Πληροφορίας και Κωδικοποίηση Πηγής Τηλεπικοινωνιακά συστήµατα Τα τηλεπικοινωνιακά συστήµατα είναι σχεδιασµένα για να διαβιβάζουν πληροφορία. Σε κάθε τηλεπικοινωνιακό σύστηµα υπάρχει µια πηγή που παράγει την πληροφορία, και σκοπός του συστήµατος είναι η διαβίβαση της εξόδου της πηγής στονπροορισµότης. Πληροφορία κοινή αντίληψη Σεραφείµ Καραµπογιάς Η διαισθητική και κοινή αντίληψη της πληροφορίας παραπέµπει σε κάθε καινούριαγνώσηγιακάτι (πληροφορία = νέαγνώση). Η έξοδος µιας πηγής πληροφορίας είναι µια χρονικά-µεταβαλλόµενη συνάρτηση, χωρίς δυνατότητα πρόβλεψης (εάν ήταν δυνατή η πρόβλεψή της, δεν θαυπήρχελόγοςµετάδοσήςτης), µπορείναθεωρηθείωςµιατυχαίαδιαδικασία. Ο σχεδιαστής τηλεπικοινωνιακών συστηµάτων σχεδιάζει ένα σύστηµα που διαβιβάζει την έξοδο µιας τυχαίας διαδικασίας (πηγή πληροφορίας) σ' έναν προορισµό µέσα από ένα τυχαία συµπεριφερόµενο µέσο (κανάλι) εξασφαλίζοντας µικρή παραµόρφωση.

Πληροφορία µία διαισθητική προσέγγιση Καθέναςαντιλαµβάνεταιδιαισθητικάτηνέννοιατηςπληροφορίας. Η ποιοτική περιγραφή της πληροφορίας δεν είναι αρκετή απαιτείται ένα ποσοτικό µέτρο της πληροφορίας και µαθηµατική µοντελοποίηση των πηγών πληροφορίας. Πληροφορία προσέγγιση µηχανικού Η πληροφορία σε ένα µήνυµα είναι ο χρόνος που απαιτείται για την µετάδοσή του. Μηνύµατα µε µεγάλη πιθανότητα εµφάνισης µπορούν να µεταδοθούν σε συντοµότερο χρόνο από ότι µηνύµατα µε µικρή πιθανότητα εµφάνισης. Η έξοδος µιας πηγής πληροφορίας µπορεί να γίνει πιο συµπαγής, και συνεπώς να διαβιβασθεί ή να αποθηκευθεί ευκολότερα. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-2

Πηγές Πληροφορίας Η έξοδος µιας πηγής πληροφορίας είναι µία χρονικά-µεταβαλλόµενη συνάρτηση χωρίς δυνατότητα πρόβλεψης. Οι πηγές πληροφορίας µπορούν να µοντελοποιηθούν µε τυχαίες διαδικασίες, των οποίων οι ιδιότητες εξαρτώνται από τη φύση της πηγής. Οι πηγές πληροφορίας µπορούν να ταξινοµηθούν σε δύο κατηγορίες: αναλογικές (ή συνεχών τιµών) διακριτές Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-3

Όταν µοντελοποιούµε σήµατα οµιλίας, το φάσµα ισχύος της προκύπτουσας τυχαίας διαδικασίας καλύπτει περίπου την περιοχή των 3 34 Hz, κι αυτό διότι η φασµατική πυκνότητα ισχύος του σήµατος οµιλίας καταλαµβάνει αυτή τη ζώνη συχνοτήτων. S X ( f ) Σεραφείµ Καραµπογιάς 34 3 3 34 f Τυπικό φάσµα ισχύος σήµατος οµιλίας Όλες οι πηγές έχουν πεπερασµένο εύρος ζώνης, εποµένως είναι δυνατή η δειγµατολήπτηση µε ρυθµό Nyquist ή µεγαλύτερο και να ανακατασκευασθούν από τις τιµές των δειγµάτων. Ηπηγήµοντελοποιείταιωςµιατυχαίαδιαδικασίαδιακριτούχρόνου{ X } i i= Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-4

Το απλούστερο µοντέλο πηγής πληροφορίας που µελετάµε, είναι η διακριτή πηγή χωρί-µνήµη (Discrete Memoryless Source, DMS). Η DMS είναι µια τυχαία διαδικασία διακριτού-χρόνου και διακριτού-πλάτους, στην οποία όλα τα X i δηµιουργούνταιανεξάρτηταµεταξύτουςαλλάµετηνίδιακατανοµήπιθανότητας. Εποµένως, µία DMS δηµιουργεί µία σειρά από ανεξάρτητες πανοµοιότυπης κατανοµής (independent and identically distributed i.i.d.) τυχαίες µεταβλητές που λαµβάνουν τιµή από ένα διακριτό σύνολο. Το σύνολο των τιµών της τυχαίας µεταβλητής X είναι A = { a a K }, 2, a N Η συνάρτηση πιθανότητας µάζας (PMF) για τη διακριτή τυχαία µεταβλητή X είναι ( X = a ) γιακάθε i=, 2, K N pi = p i, Πηγή πληροφορίας K X X, X, X,, K 2, X 2 Μαθηµατικό Μοντέλο για µια πηγή διακριτού χρόνου Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-5

Το Πληροφοριακό Περιεχόµενο ενός Μηνύµατος Όταν δίνεται µια πηγή πληροφορίας πώς να υπολογίσουµε το ρυθµό µε τον οποίο η πηγή παράγει την πληροφορία. Σε διαισθητική βάση, η ποσότητα πληροφορίας που δεχόµαστε µε την γνώση της εµφάνισης ενός γεγονότος σχετίζεται µε την πιθανότητα εµφάνισης του γεγονότος. Ένα λογικό µέτρο της πληροφορίας µιας εξόδου της πηγής πρέπει να είναι φθίνουσα και συνεχής συνάρτηση της πιθανότητας της εξόδου αυτής. Όσο πιο απίθανο είναι το γεγονός, τόσο πιο µεγάλη πληροφορία µεταφέρει. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-6

Ηποσότητατηςπληροφορίαςπουπαρέχειµίαέξοδος (σύµβολο) α j µεπιθανότητα p j ικανοποιείτιςσυνθήκες: Το περιεχόµενο της πληροφορίας της εξόδου α j εξαρτάται µόνο από την πιθανότητατηςα j καιόχιαπότηντιµήτηςα j. Συµβολίζουµεαυτήτησυνάρτησηµε I(p j ) καιτηνονοµάζουµειδία-πληροφορίαήπληροφοριακόπεριεχόµενο. Ηιδία-πληροφορίαείναιµίασυνεχήςσυνάρτησητης p j. Η ιδία-πληροφορία είναι µία φθίνουσα συνάρτηση του ορίσµατός της. ( pk ) > I( p j ) αν pk p j I < Όταν δεχόµαστε δύο ανεξάρτητες εξόδους, η ολική ιδία-πληροφορία που παίρνουµε είναι το άθροισµα των ιδίων-πληροφοριών που µεταφέρει κάθε µία από τις δύο εξόδους Αν p j = ( j) ( j 2 ) ( j) ( j 2 ) ( p ) I( p ) p p τότε I ( p ) = I + j Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-7

Μια συνεχής συνάρτηση της p k που ικανοποιεί τις παραπάνω συνθήκες είναι η λογαριθµική συνάρτηση, µπορούµε λοιπόν να ορίσουµε ιδία-πληροφορία µε την I( p k ) = log = log ( p k p k ) Η βάση του λογαρίθµου ορίζει τη µονάδα µέτρησης της πληροφορίας Ότανηβάσηείναιτο 2, ηπληροφορίαµετριέταισε bit. Όταν χρησιµοποιείται φυσικός λογάριθµος, η πληροφορία µετριέται σε nap. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-8

Η πληροφορία που παρέχεται από µία µη αναγνωρισθείσα έξοδο που αποτελείται από Μ σύµβολα θα είναι ίση µε το άθροισµα της συνεισφοράς καθ ενόςαπότανσύµβολατουαλφάβητουτηςπηγήςκαιδίνεταιαπότησχέση I total = N i= ( M p ) log( p ) ( bit) i i Η µέση ιδία-πληροφορία ανά σύµβολο λέγεται και εντροπία της πηγής (ρυθµός της πηγής). Γενικά η εντροπία µιας διακριτής τυχαίας µεταβλητής X ορίζεται από τη σχέση H I M N total ( X ) = = p I ( p ) = p log( p ) i= i i N i= i i bits symbol Η H(X) είναι µία συνάρτηση του PMF της τυχαίας µεταβλητής. Η εντροπία αποτελεί ένα µέτρο της αβεβαιότητας για έξοδο της πηγής (κατά µέσο όρο). Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-9

Παρατηρούµε ότι ο ορισµός της Η βασίζεται στη χρονική µέση τιµή Για να ισχύει ο ορισµός αυτός και για µέση τιµή συνόλου πρέπει η πηγή να είναι εργοδική, δηλαδή, ( X ) = E[ log ( )] H 2 p i Σεραφείµ Καραµπογιάς Η εντροπία µιας πηγής πληροφορίας είναι ένα µέτρο της αβεβαιότητας ή ισοδύναµα του πληροφοριακού περιεχοµένου της πηγής. Επίσης η εντροπία αποτελεί ένα µέτρο του αριθµού των bits πληροφορίας που χρειάζονται κατά µέσο όρο για να µεταδώσουµε την πληροφορία που περιέχεται στην µεταβλητή X, υπό την προϋπόθεση ότι έχει χρησιµοποιηθεί ένα βέλτιστος αλγόριθµος κωδικοποίησης. Με άλλα λόγια κάθε έξοδος της πηγής απαιτεί H(X) bits για ουσιαστικά χωρίς σφάλµατα αναπαράσταση. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-

Για µία πηγή µε ένα αλφάβητο από Ν σύµβολα, η µέγιστη εντροπία κατορθώνεται όταν οι πιθανότητες των συµβόλων είναι ίσες οπότε p p p = 2 = L = N = N H = max log 2 N bits ( ) symbol Αν symbols r S sec είναι ο σταθερός ρυθµός µε τον οποίο εκπέµπονται τα σύµβολα από την πηγή, ορίσουµε το µέσο ρυθµό (παροχής) της πληροφορίας από της πηγής ως R = r S H bits sec Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-

Παράδειγµα Να βρεθεί η εντροπία µιας πηγής που εκπέµπει ένα από τα τρία σύµβολα Α, Β και C σε στατιστικάανεξάρτητηακολουθίαµεπιθανότητααντίστοιχα /2, /4 και /4. Απάντηση: H=, 5 bits symbol Παράδειγµα Μια διακριτή πηγή εκπέµπει ένα από πέντε σύνβολα κάθε msec. Οι πιθανότητες των συµβόλων είναι /2, /4, /8, /6, και /6 αντίστοιχα. Να βρεθεί η εντροπία της πηγής και ο µέσος ρυθµός πληροφορίας. Απάντηση: H=, 875 bits symbol R=875 bits sec Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-2

Στη δυαδική πηγή χωρίς µνήµη µε πιθανότητες p και p, αντίστοιχα έχουµε H = p ( p) log ( ) log ( p) 2 2 p Η συνάρτηση αυτή, που συµβολίζεται µε H b (p), είναι γνωστή ως η συνάρτηση δυαδικής εντροπίας. Η συνάρτηση δυαδικής εντροπίας µεγιστοποιείται όταν p =,5. Η µέγιστη τιµής της είναι H b (,5) =, δηλαδή,τοαποτέλεσµαµπορείναµεταφερθείµε bit. H b ( p),5, 5 p Η συνάρτηση δυαδικής εντροπίας Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-3

Για δύο ή περισσότερες τυχαίες µεταβλητές εισάγουµε τη συνδυασµένη και την υποσυνθήκη εντροπία. Έννοιες ιδιαίτερα σηµαντικές για πηγές µε µνήµη. Η συνδυασµένη εντροπία δύο διακριτών τυχαίων µεταβλητών (X,Υ) ορίζεται από τη σχέση H = ( X, Y) p ( x, y ) log( p( x, y )) x, y Η σχέση γενικεύεται για περισσότερες τυχαίες µεταβλητές Σεραφείµ Καραµπογιάς Η συνδυασµένη εντροπία είναι απλά η εντροπία µιας τυχαίας διανυσµατικής µεταβλητής Παράδειγµα ύο δυαδικές τυχαίες µεταβλητές X και Y κατανέµονται σύµφωνα µε τη συνδυασµένηκατανοµή p(x = Y = ) = p(x =, Y = ) = p(x = Y = ) = /3. Υπολογίστε τις H(X), H(Y) και H(X,Y). Απάντηση: H(X) =,983, H(Y) =,983και H(X,Y) =,585. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-4

Υποσυνθήκη εντροπία Η PMF της τυχαίας µεταβλητής X δεδοµένης της τιµής y της τυχαίας µεταβλητής Y είναι p (x y) Η υποσυνθήκη εντροπία της τυχαίας µεταβλητής X δεδοµένης της τιµής y της τυχαίας µεταβλητής Y ορίζεται από τη σχέση H = ) ( X Y = y) p ( x y ) log( p ( x y ) x η οποια διαισθητικά είναι η ποσότητα αβεβαιότητας στη Χ όταν γνωρίζουµε ότι Υ = y. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-5

Η υποσυνθήκη εντροπία είναι η σταθµισµένη µέση τιµή των παραπάνω ποσοτήτων για όλα τα y και υποδηλώνει την εντροπία (ή την αβεβαιότητα) της τυχαίας µεταβλητής X όταν είναι γνωστή η τυχαία µεταβλητή Y, δηλαδή, Η υποσυνθήκη εντροπία µιας διακριτής τυχαίας µεταβλητής X δεδοµένης της τυχαίας µεταβλητής Y ορίζεται από τη σχέση H ( X Y) = p( x y) p( y) log( p( x y) ) = x, y x, y p( x, Αποδεικνύεταιότι H(X,Y) = H(Y) + H(X Y). y) log ( p( x y) ) Σεραφείµ Καραµπογιάς Επειδή η Y µπορεί να παρέχει κάποια πληροφορία για τη X είναι H(X Y) H(X). Το περιεχόµενο της πληροφορίας του ζεύγους (X,Y) είναι ίσο προς το πληροφοριακό περιεχόµενο της Y συν το πληροφοριακό περιεχόµενο της X όταν είναι γνωστή η Y Η σχέση αυτή επίσης δηλώνει ότι η ίδια πληροφορία µεταφέρεται είτε εµφανίζοντας το ζεύγος (X,Y), ή αποκαλύπτοντας πρώτα το Y και στη συνέχεια την αποµένουσα πληροφορία στο Χ. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-6

Αν X n δηλώνειτηνέξοδοµιαςδιακριτήςπηγήςτηχρονικήστιγµή n, τότε ΗΗ(Χ 2 Χ ) υποδηλώνειτηνκαινούργιαπληροφορίαπουπαρέχειηέξοδος X 2 της πηγήςσεκάποιονπουγνωρίζειτηνέξοδο X. Γενικά Η (Χ n Χ, Χ 2,, Χ n- ) δηλώνειτηνκαινούργιαπληροφορίαπουπαρέχειη έξοδος X n τηςπηγήςσεκάποιονπουέχειπαρατηρήσειτηνακολουθία (Χ, Χ 2,, Χ n- ). Ο ρυθµός εντροπίας µιας στατικής τυχαίας διαδικασίας διακριτού χρόνου ορίζεται από την H ( X X, X K X ) = lim H n 2,, n n Αποδεικνύεται ότι ένας εναλλακτικός ορισµός του ρυθµού εντροπίας για πηγές µε µνήµη είναι H = lim H 2, K, n n ( X, X X ) Ορυθµόςτηςεντροπίαςπαίζειτορόλοτηςεντροπίαςγιαπηγέςµεµνήµη. n Σεραφείµ Καραµπογιάς Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-7

ΘΕΩΡΗΜΑ ΚΩ ΙΚΟΠΟΙΗΣΗΣ ΠΗΓΗΣ Τοθεώρηµααυτόκαθορίζειέναθεµελιώδεςόριοστορυθµό, µετονοποίοηέξοδος µιας πηγής πληροφορίας µπορεί να συµπιεστεί χωρίς να προκληθεί µεγάλη πιθανότητα σφάλµατος. Σε ακολουθίες από εξόδους µιας DMS µήκους n κάθε γράµµα α ι i =, 2,, N επαναλαµβάνεταιµευψηλήπιθανότητα (πουφτάνειτο καθώςτο n ) περίπου np i φορές. Μεάλλαλόγιαασυµπτωτικά σχεδόνόλεςοιακολουθίεςείναιπερίπου ισοπίθανες. Οιακολουθίες xπουέχουντηνπαραπάνωδοµήονοµάζονταιτυπικέςακολουθίες. Η πιθανότητα µιας τυπικής ακολουθίας είναι P n p log p i= i 2 i= N n p N n p p i i i i i i n H( X ) ( = ) p = 2 log X x = 2 = = Παρατηρούµε ότι για µεγάλο n σχεδόν όλες οι ακολουθίες εξόδου µήκους n της n H( X ) πηγής (τυπικέςακολουθίες) είναιισοπίθανεςµεπιθανότηταπερίπου 2. Ο συνολικός αριθµός των τυπικών ακολουθιών είναι σχεδόν 2. Η πιθανότητα του συνόλου των µη τυπικών ακολουθιών είναι αµελητέα.. N Σεραφείµ Καραµπογιάς n H ( X ) Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-8

Παρατηρούµε ότι παρόλο που µία πηγή µε µέγεθος αλφαβήτου N µπορεί να παράγει N n ακολουθίες µήκους n, µπορούµε να λάβουµε υπόψιν το σύνολο των τυπικών ακολουθιών και να αµελήσουµε τις άλλες εξόδους και η πιθανότητα να έχουµε χάσει κάτι πλησιάζει στο µηδέν καθώς το n τείνει στο άπειρο. Το σύνολο των τυπικών ακολουθιώνµε 2 n H (X ) Τοσύνολοτωντυπικώνκαιτωνµητυπικών ακολουθιών. Αυτή είναι η ουσία της συµπίεσης δεδοµένων, δηλαδή, της πρακτικής της αναπαράστασης της εξόδου της πηγής µε ένα αριθµό ακολουθιών µικρότερο από εκείνο που η πηγή παράγει στην πραγµατικότητα. Επειδή ο συνολικός αριθµός των τυπικών ακολουθιών (µε µήκος n) είναι περίπου 2 n H ( X ) χρειαζόµαστε n H ( X ) bits γιανατιςαναπαραστήσουµε. Παρατηρούµεότικατάµέσοόρο, κάθεέξοδοςτηςπηγήςαπαιτεί H ( X ) bits γιαµία ουσιαστικά χωρίς σφάλµατα αναπαράσταση. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-9

Για µία πηγή της οποίας η PMF είναι οµοιόµορφα κατανεµηµένη έχουµε H ( X) = log N έτσι το πλήθος των τυπικών ακολουθιών είναι n H( X ) n log N n 2 = 2 Αυτό σηµαίνει ότι ο αριθµός των τυπικών ακολουθίων της πηγής µήκους n είναι ίσοςπροςτοσυνολικόαριθµότωνεξόδων τηςπηγήςκαικαµίασυµπίεσηδενείναι δυνατή. = N Σεραφείµ Καραµπογιάς Εάν η πηγή έχει µνήµη τότε οι έξοδοι δεν είναι ανεξάρτητες και για αυτό φανερώνουν πληροφορία για τις επόµενες εξόδους. Σεµίαπηγήµεµνήµηορυθµόςµετονοποίοπαράγεταιηκαινούργιαπληροφορία ελαττώνεταικαθώςόλοκαιπερισσότερεςέξοδοιτηςπηγήςεµφανίζονται. Γενικά γιαπηγέςµεµνήµηµαςενδιαφέρειορυθµόςεντροπίαςη(χ n Χ, Χ 2,, Χ n- ) Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-2

Θεώρηµα κωδικοποίησης πηγής Σεραφείµ Καραµπογιάς Θεώρηµα Κωδικοποίησης Πηγής. Μία πηγή εντροπίας (ή ρυθµού εντροπίας) H µπορεί να κωδικοποιηθεί µε αυθαίρετα αυθέρετα µικρή πιθανότητα σφάλµατος σε οποιοδήποτερυθµό R (bits / έξοδοπηγής) εφόσον R > H. Αντίστροφα, αν R < H, η πιθανότητα σφάλµατος θα παραµένει µακριά από το µηδέν, ανεξάρτητα από την πολυπλοκότητα του κωδικοποιητή και του αποκωδικοποιητή που χρησιµοποιούνται Ο κωδικοποιητής πηγής αντιστοιχεί δυαδικές κωδικές λέξεις στα πακέτα συµβόλων της πηγής και παράγει στην έξοδο του µια δυαδική ακολουθία. Το θεώρηµα κωδικοποίησης πηγής δίνει µόνο αναγκαίες και ικανές συνθήκες για τηνύπαρξηκωδίκωνπηγής. ίνει επίσης ένα φράγµα στο ρυθµό µε τον οποίο η πηγή µπορεί να συµπιεσθεί (κωδικοποιηθεί) γιααξιόπιστηανακατασκευή. εν προσφέρει συγκεκριµένους αλγορίθµους για να σχεδιασθούν κώδικες που να προσεγγίζουν αυτό το φράγµα. Υπάρχουν δύο γνωστοί αλγόριθµοι που οι επίδοσείς τους είναι πολύ κοντά στο φράγµα της εντροπίας. Ο αλγόριθµος κωδικοποίησης πηγής του Huffman Ο αλγόριθµος κωδικοποίησης πηγής του Lempel-Ziv. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-2

Ο Αλγόριθµος Huffman Κωδικοποίησης Πηγής Στην κωδικοποίηση Huffman µπλοκ συµβόλων σταθερού µήκους από τη έξοδο της πηγής απεικονίζονται σε µεταβλητού µήκους µπλοκ δυαδικών συµβόλων. Αυτό καλείται κωδικοποίηση από σταθερό σε µεταβλητό µπλοκ. Οι συχνότερα εµφανιζόµενες ακολουθίες εξόδου σε βραχύτερες δυαδικές ακολουθίες Στην κωδικοποίηση µεταβλητού µήκους πρέπει να υπάρχει ένας και µοναδικός τρόπος για να διαχωρίζουµε τη λαµβανόµενη δυαδική ακολουθία σε κωδικές λάξεις Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-22

Κωδικές Λέξεις Σύµβολο a a 2 a 3 a 4 a 5 Πιθανότητα p = 2 p 2 = p 4 3 = p 8 4 = p 6 5 = 6 Κώδικας Κώδικας 2 Κώδικας 3 Κώδικας 4 αυτό-συγχρονιζόµενοι κώδικες άµεσος µονοσήµαντα αποκωδικοποιήσιµοι µη µονοσήµαντα αποκωδικοποιήσιµος Στουςκώδικες και 3 καµίακωδικήλέξηδενείναιπρόθεµαµιαςάλληςλέµεότι ικανοποιούν τη συνθήκη προθέµατος. Γιατοκώδικα τοµέσοµήκοςλέξηςείναι E(L) = 3/6. Ενώγιατοκώδικα 3 το µέσο µήκος λέξης είναι E(L) = 3/6. Ο ποιο ενδιαφέρων είναι ο κώδικας 3 και είναι ένα παράδειγµα κώδικα Huffman. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-23

ιατάξτε τις εξόδους της πηγής κατά φθίνουσα σειρά των πιθανοτήτων τους Σεραφείµ Καραµπογιάς Συγχωνεύστε τις δύο λιγότερο πιθανές εξόδους σε µία µοναδική έξοδο, και θέστε ως πιθανότητα της το άθροισµα των δύο πιθανοτήτων Αν ο αριθµός των εξόδων που αποµένουν είναι 2, τότε προχωρήστε στο επόµενο βήµα. ιαφορετικά, επανέλθετε στο βήµα. Αυθαίρετα αντιστοιχίστε το και το ως κωδικές λέξεις για τις δύο εξόδους που αποµένουν Αν µια έξοδος είναι το αποτέλεσµα της συγχώνευσης δύο εξόδων σε προηγούµενο βήµα, προσαρτήστεστηντρέχουσακωδικήλέξη καιτο γιανααποκτήσετετηνκωδικήλέξηγια τις προηγούµενες εξόδους το βήµα 5. Αν καµία έξοδος δεν προηγείται άλλης σταµατήστε. p = 2 p 2 = p 3 = p 4 = p 5 = 4 8 6 6 8 4 Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-24 2

Έχουµεήδηδειότιοικώδικες Huffmanείναιβέλτιστοιµετηνέννοιαότιγιαµια δεδοµένηπηγήπαρέχουνκώδικα µεελάχιστοµέσοµήκοςκωδικήςλέξης. Οι κώδικες Huffman παρουσιάζουν ισχυρή εξάρτηση από τις πιθανότητες (τη στατιστική) της πηγής. Η στατιστική της πηγής πρέπει να είναι γνωστή από πριν για νασχεδιάσουµεένανκώδικα Huffman. Το άλλο πρόβληµα µε τους κώδικες Huffman είναι ότι αν ο κώδικας είναι σχεδιασµένος για µπλοκ µήκους ενός συµβόλου αξιοποιεί µόνο τη συχνότητα εµφάνισηςτωνσυµβόλωντηςπηγήςκαιόχιτηµνήµητης. Ο αλγόριθµος Lempel-Ziv Ο αλγόριθµος Lempel-Ziv ανήκει στην κατηγορία των καθολικών (universal) αλγορίθµων κωδικοποίησης πηγής, δηλαδή αλγορίθµων που είναι ανεξάρτητοι από τη στατιστική της πηγής. Ο αλγόριθµος αυτός είναι ένα σχήµα κωδικοποίησηςαπόµπλοκµεταβλητούµήκουςσεσταθερούµήκους. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-25

... Περιεχόµενο Λεξικού Κωδική Λέξη ιευθύνσεις Λεξικού 6 5 4 3 2 9 8 7 6 5 4 3 2 Σεραφείµ Καραµπογιάς Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-26

Η αµοιβαία πληροφορία µεταξύ δύο διακριτών µεταβλητών X και Y δηλώνεται µε I(X;Y) και ορίζεται από την I ( X ; Y) = H ( X ) H ( X Y ) Η H(X) - H(X Y) είναι η ποσότητα πληροφορίας που παρέχεται από την τυχαία µεταβλητήυγιατηντυχαίαµεταβλητή X. Με άλλα λόγια αποτελεί ένα µέτρο της πληροφορίας της τυχαίας µεταβλητής X που περιέχεται στη µεταβλητή Y. Μίασηµαντικήιδιότηταείναι I ( X; Y ) = H ( X ) + H ( Y ) H ( X, Y ). Παράδειγµα Έστω X και Y δυαδικέςτυχαίεςµεταβλητέςµε P( X =, Y= ) = P( X =,Y = ) = P( X =, Y = ) = /3. ΝαβρεθείηI( X; Y ) Παρατηρούµεότι P( X = ) = P( Y = ) = 2/3, εποµένωςη( Χ ) = Η( Y ) =,99. Το ζεύγος (X,Y) είναι ένα τυχαίο διάνυσµα κατανεµηµένο οµοιόµορφα σε τιµές (,), (,) και (,) εποµένωςη( Χ, Υ ) = log3 =,585 καιη(χ Υ ) = Η ( Χ, Υ ) Η ( Υ ) =,666. Άρα I ( X; Y ) = H ( X ) H ( X Y ) =,253. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-27

Κωδικοποίηση µε απώλειες - Προβλήµατα Σεραφείµ Καραµπογιάς Αν η έξοδος µιας συνεχούς πηγής αναπαρασταθεί µε πεπερασµένο αριθµό bits/σύµβολο τότε πόσο κοντά µπορεί να είναι η συµπιεσµένη έκδοση µε την αρχική; Ανοαριθµόςτωνδιαθέσιµων bits/έξοδοείναιµικρότεροςαπό H ( X ), δενείναι δυνατή η ανάκτηση της πηγής χωρίς σφάλµατα και µερικά σφάλµατα θα είναι αναπόφευκτα. Για δεδοµένο αριθµό bits/σύµβολο, ποιος είναι ο ελάχιστος ρυθµός σφαλµάτων που µπορεί να επιτευχθεί; Ποιος είναι ο ελάχιστος αριθµών bits/έξοδο που απαιτείται για να αναπαραγάγουµε την πηγή µε καθορισµένο επίπεδο παραµόρφωσης. Ένα καλό µέτρο παραµόρφωσης, δηλαδή, ένα µέτρο της πιστότητας ή εγγύτητας της αναπαραγόµενης προς την αρχική έξοδο της πηγής, πρέπει να ικανοποιεί τις ιδιότητες Πρέπει να είναι µια καλή προσέγγιση της διαδικασίας αντίληψης Πρέπει να είναι απλό, ώστε να είναι µαθηµατικά εύχρηστο. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-28

Παραµόρφωση Hamming Σεραφείµ Καραµπογιάς Γενικά, ένα µέτρο παραµόρφωσης είναι η απόσταση µεταξύ του x και της αναπαραγωγής του x. ˆ Στη διακριτή περίπτωση ένα µέτρο παραµόρφωσης, είναι η παραµόρφωση Hamming, µεταξύ του και της αναπαραγωγής του, που ορίζεται από την x ) ), x x d H ( x, x) =, αλλιώς x ) Στη συνεχή περίπτωση χρησιµοποιείται η παραµόρφωση του τετραγωνικού σφάλµατος. ) ) d H ( x, x) = ( x x) 2 Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-29

Συνάρτηση Ρυθµού-Παραµόρφωσης Μέτρο παραµόρφωσης ανά γράµµα µιας ακολουθίας συµβόλων είναι d n n ) n ( ) = ) x, x d( x, x ) n i= Αφού η έξοδος µιας πηγής είναι µία τυχαία διαδικασία, το τυχαία µεταβλητή. i i d n n (, X ) X ) είναι µία Ορίζουµε ως παραµόρφωση για την πηγή την αναµενόµενη τιµή της τυχαίας αυτής µεταβλητής, δηλαδή, ) n n n ) ) D= E[ d( X, X )] = E[ d( X i, X i) ] = E[ d( X, X) ] n i= Σεραφείµ Καραµπογιάς στο τελευταίο βήµα χρησιµοποιήθηκε η παραδοχή της στατικότητας της πηγής Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-3

Η αρχική µας ερώτηση µπορεί να επαναδιατυπωθεί ως εξής: Για µια δεδοµένη πηγή πληροφορίας χωρίς µνήµη µε αλφάβητο X και κατανοµή πιθανότητας p(x), ένα αλφάβητο ανακατασκευής X και ένα µέτρο παραµόρφωσης d(x, x) πουορίζεταιγιαόλατα x X και x X, ποιος είναι ο ελάχιστος αριθµός των bits/έξοδο, R, της πηγής που απαιτείται για να εξασφαλίζει ότι η µέση παραµόρφωση µεταξύ της ακολουθίας εξόδου της πηγής και της αντίστοιχης ανακτηθείσας εξόδου της πηγής δεν υπερβαίνει κάποια συγκεκριµένη D. O R είναι µία φθίνουσα συνάρτηση της D. Η σχέση µεταξύ R και D δίνεται από τη συνάρτηση ρυθµού-παραµόρφωσης R ( D) = p ( X X) min ) I ; ) ( x x) : E[ d( X, X )] D ) Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-3

n X R R 2 R 2 nr R R 3 4 R i nr i 2 nr bits 64748 K Κωδικοποιητής Αποκωδικοποιητής ) ) x i X n x ) i n x X Ο χώρος των ακολουθιών εξόδου µήκους n, δηλαδή ο X n nr χωρίζεται σε 2 περιοχές n Ανηέξοδος x τηςπηγήςανήκειστηνπεριοχή i, ηδυαδικήαναπαράστασητου i διαβιβάζεται στον αποκωδικοποιητή. nr Επειδή i 2, η δυαδική αναπαράσταση είναι µήκους nr, εποµένως η κωδικοποίηση γίνεται σ ένα ρυθµό R bits/έξοδο πηγής. Ο αποκωδικοποιητής, αφού λάβει τη δυαδική αναπαράσταση του i, παράγει µια προκαθορισµένη ακολουθία x ) n τέτοια ώστε η µέση απόσταση (παραµόρφωση) από τις x ακολουθίες στην περιοχή i να είναι ελάχιστη. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6-32