ΕΑΠ / ΘΕ ΠΛΗ22 ΒΑΣΙΚΑ ΖΗΤΗΜΑΤΑ ΙΚΤΥΩΝ Η/Υ DRAFT ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΚΩ ΙΚΟΠΟΙΗΣΗΣ ΠΗΓΕΣ ΚΩ ΙΚΟΠΟΙΗΣΗ ΠΗΓΗΣ - ΚΩ ΙΚΕΣ ΕΛΕΓΧΟΥ ΣΦΑΛΜΑΤΟΣ Βασίλης Ζορκάδης Μέλος ΣΕΠ ΠΛΗ22 24--28
ΕΑΠ ΠΛΗ22 ΕΝΟΤΗΤΑ 2 ΠΗΓΕΣ ΚΩ ΙΚΟΠΟΙΗΣΗ ΠΗΓΗΣ Ο σκοπός της ενότητας αυτής είναι η µεθοδολογική προσέγγιση στην επίλυση ασκήσεων, οι οποίες αναφέρονται στα ακόλουθα: Υπολογισµό της ποσότητας πληροφορίας της πηγής (υπολογισµό της εντροπίας, της µέγιστης ποσότητας πληροφορίας, τον πλεονασµό και το µέσο ρυθµό πληροφορίας διακριτής πηγής πληροφορίας χωρίς µνήµη και µε µνήµη). Εξέταση κωδίκων ως προς το αν είναι µη ιδιάζοντες (non-sngular), µοναδικά α- ποκωδικοποιήσιµοι και άµεσοι (ή στιγµιαίοι) και υπολογισµός της επίδοσή τους, καθώς και εξέταση ισχύος της ανίσωσης του Kraft και του Θεωρήµατος Κωδικοποίησης Πηγής. Εφαρµογή αλγορίθµού κωδικοποίησης Fano. Εφαρµογή αλγορίθµου κωδικοποίησης Shannon. Εφαρµογή αλγορίθµου κωδικοποίησης Huffman. Υπολογισµό της εντροπίας και κωδικοποίηση πηγών Markoff. Υπολογισµό του πλεονασµού εξάρτησης και του ολικού πλεονασµού διακριτής πηγής πληροφορίας µε µνήµη. ΠΟΣΟΤΗΤΑ ΠΛΗΡΟΦΟΡΙΑΣ ΤΗΣ ΠΗΓΗΣ Για τον υπολογισµό της εντροπίας, της µέγιστης ποσότητας πληροφορίας, του πλεονασµού και του µέσου ρυθµού πληροφορίας διακριτής πηγής πληροφορίας χωρίς µνήµη εφαρµόζουµε απλά τις αντίστοιχες σχέσεις που περιέχονται στο βιβλίο Θεωρία Πληροφορίας και Κωδικοποίησης. Η εντροπία (ή µέση ποσότητα πληροφορίας) διακριτής πηγής χωρίς µνήµη υπολογίζεται µε τη σχέση (2.), η µέγιστη εντροπία των συµβόλων της πηγής από τη σχέση (2.2), ο πλεονασµός της πηγής από τη σχέση (2.3) και ο µέσος ρυθµός πληροφορίας της πηγής από τη σχέση (2.4) του βιβλίου. Οι σχέσεις αυτές παρατίθενται στη συνέχεια (όπου n το πλήθος των συµβόλων του αλφαβήτου της πηγής p η πιθανότητα επιλογής του συµβόλου s, η πηγή παράγει σύµβολα µε ρυθµό r s symbols/sec και q είναι το πλήθος των δυνατών µηνυµάτων): Η εντροπία συµβόλων της διακριτής πηγής H ( S) n p ( s ) log p( s ) bts symbol / Βασίλης Ζορκάδης
ΕΑΠ ΠΛΗ22 Η µέγιστη εντροπία συµβόλων της πηγής n max H ( S) log bts / symbol n n Ο πλεονασµός της διακριτής πηγής H ( S) red max H ( S) Ο µέσος ρυθµός πληροφορίας της πηγής R r H ( S) bts / sec s Μέσο πληροφορικό περιεχόµενο µηνυµάτων διακριτής πηγής H ( M ) n p ( m ) log p( m ) bts symbol / είτε τα παραδείγµατα και τις ασκήσεις αυτοαξιολόγησης του βιβλίου. Ακολουθούν ασκήσεις µε τις λύσεις τους. Άσκηση Μια πηγή πληροφορίας παράγει σύµβολα, τα οποία ανήκουν στο αλφάβητο S{φ, χ, ψ, ω}. Οι πιθανότητες των συµβόλων αυτών είναι ½, ¼, /8 και /8,αντίστοιχα. Θεωρώντας την πηγή χωρίς µνήµη, ζητείται να υπολογίσετε. Το µέσο πληροφορικό περιεχόµενο των συµβόλων της πηγής, 2. Το µέσο πληροφορικό περιεχόµενο των µηνυµάτων της πηγής αποτελούµενων από δύο σύµβολα, 3. Τον πλεονασµό της πηγής και 4. Το µέσο ρυθµό πληροφορίας της πηγής για ρυθµό 5 συµβόλων /sec. Απάντηση. Το µέσο πληροφορικό 4 περιεχόµενο των συµβόλων είναι H ( S ) p log p log log log log (28/6),75 bts/symbol. 2 2 4 4 8 8 8 8 2. Για τον υπολογισµό του µέσου πληροφορικού περιεχοµένου των µηνυµάτων της πηγής αποτελούµενων από 2 σύµβολα, υπολογίζουµε πρώτα τις (συνδυασµένες) πιθανότητες δηµιουργίας των µηνυµάτων αυτών. Αφού η πηγή είναι χωρίς µνήµη, για τον υπολογισµό της πιθανότητας κάθε µηνύµατος αρκεί να πολλαπλασιάσουµε τις πιθανότητες παραγωγής των συµβόλων από τα απαρτίζουν. Συνολικά έχουµε 6 µηνύµατα. p p(φ,φ)/4, p 2 p(φ,χ)/8, p 3 p(φ,ψ)/6, p 4 p(φ,ω)/6, p 5 p(χ,φ)/8, p 6 p(χ,χ)/6, p 7 p(χ,ψ)/32, p 8 p(χ,ω)/32, p 9 p(ψ,φ)/6, p p(ψ,χ)/32, p p(ψ,ψ)/64, p 2 p(ψ,ω)/64, Βασίλης Ζορκάδης 2
ΕΑΠ ΠΛΗ22 p 3 p(ω,φ)/6, p 4 p(ω,χ)/32, p 5 p(ω,ψ)/64, p 6 p(ω,ω)/64. Εποµένως, H Παρατηρούµε ότι H(M)2 Η(S). 3. red-h(s)/maxh(s)-h(s)/log4-(,75/2),25/2/8,25. 4. RrH(S)5x(,75)26,25 bts/sec. Άσκηση 2 Μια πηγή πληροφορίας παράγει σύµβολα, τα οποία ανήκουν στο αλφάβητο S{α, β, γ, δ, ε, ζ, η}. Οι πιθανότητες των συµβόλων αυτών είναι /32, /6, /8, /8, /8, /2 και /32, αντίστοιχα. Θεωρώντας την πηγή χωρίς µνήµη, ζητείται να προσδιορίσετε ή να υπολογίσετε. Το σύµβολο της πηγής µε το πιο χαµηλό πληροφορικό περιεχόµενο. 2. Τα σύµβολα της πηγής µε το πιο υψηλό πληροφορικό περιεχόµενο. 3. Το µέσο πληροφορικό περιεχόµενο των συµβόλων της πηγής, 4. Το µέσο πληροφορικό περιεχόµενο των µηνυµάτων της πηγής αποτελούµενων από δύο σύµβολα. 5. Τον πλεονασµό της πηγής, και, 6. Το µέσο ρυθµό πληροφορίας της πηγής για ρυθµό 25 συµβόλων /sec. Λύση Το πληροφορικό περιεχόµενο ενός συµβόλου χ δίνεται από τον αρνητικό λογάριθµο της πιθανότητας παραγωγής του (δείτε σελ. 28 του βιβλίου).. Εποµένως, το σύµβολο µε την πιο υψηλή πιθανότητα παραγωγής έχει το πιο χα- µηλό πληροφορικό περιεχόµενο. Στην προκειµένη περίπτωση, για το σύµβολο ζ έχουµε H(ζ)-log(/2) bts. 2. Το σύµβολο µε την πιο µικρή πιθανότητα παραγωγής έχει το πιο υψηλό πληροφορικό περιεχόµενο. Στην προκειµένη περίπτωση, τα σύµβολα α και η έχουν την πιο χαµηλή πιθανότητα παραγωγής, η οποία είναι ίση µε /32, δηλαδή H(α)Η(η)-log(/32)5 bts. 3. Το µέσο πληροφορικό περιεχόµενο των συµβόλων της πηγής υπολογίζεται µε τη βοήθεια της σχέσης (2.) (σελίδα 48 του βιβλίου) H ( S ) 7 6 ( M ) p log p (56/6) 3,5 bts/message. p log p log log log 32 32 6 6 8 8 (35/6) 2,875 bts/symbol. log 8 8 log 8 8 log 2 2 log 32 32 4. Για τον υπολογισµό του µέσου πληροφορικού περιεχοµένου των µηνυµάτων της πηγής αποτελούµενων από 2 σύµβολα, αφού η πηγή είναι χωρίς µνήµη, αρκεί να πολλαπλασιάσουµε τη µέση ποσότητα πληροφορίας συµβόλων µε το πλήθος των συµβόλων από τα οποία αποτελούνται τα µηνύµατα. ηλαδή, H(M)2 Η(S)4,375 bts. 5. red-h(s)/maxh(s)-h(s)/log7-(2,875/2,8)-,78,286. 6. RrH(S)25x(2,875)27343,75 bts/sec. Βασίλης Ζορκάδης 3
ΕΑΠ ΠΛΗ22 Άσκηση 3 Μια πηγή πληροφορίας παράγει σύµβολα, τα οποία ανήκουν στο αλφάβητο S{τ, υ, φ, χ, ψ, ω}. Οι πιθανότητες των συµβόλων αυτών είναι ¼, ¼, /8, /8, /8 και /8, αντίστοιχα. Θεωρώντας την πηγή χωρίς µνήµη, ζητείται να υπολογίσετε. Το πληροφορικό περιεχόµενο του συµβόλου τ και το πληροφορικό περιεχόµενο του συµβόλου ω. 2. Το µέσο πληροφορικό περιεχόµενο των συµβόλων της πηγής, 3. Το µέσο πληροφορικό περιεχόµενο των µηνυµάτων της πηγής αποτελούµενων από δύο σύµβολα. 4. Τον πλεονασµό της πηγής (log62,585) και 5. Το µέσο ρυθµό πληροφορίας της πηγής για ρυθµό 5 συµβόλων /sec. Απάντηση. Το πληροφορικό περιεχόµενο του συµβόλου τ δίνεται από τον αρνητικό λογάριθµο της πιθανότητας παραγωγής του (δείτε σελ. 28 του βιβλίου), δηλαδή H(τ)-log(/4)2 bts. Κατά τον ίδιο τρόπο υπολογίζουµε το πληροφορικό περιεχόµενο του συµβόλου ω, είναι δηλαδή H(ω)-log(/8)3 bts. 2. Το µέσο πληροφορικό περιεχόµενο των συµβόλων της πηγής H ( S ) log log log log log log (2/8) 2,5 bts/symbol. 4 4 4 4 8 8 8 8 8 8 8 8 3. Για τον υπολογισµό του µέσου πληροφορικού περιεχοµένου των µηνυµάτων της πηγής αποτελούµενων από 2 σύµβολα, υπολογίζουµε πρώτα τις (συνδυασµένες) πιθανότητες δηµιουργίας των µηνυµάτων αυτών. Αφού η πηγή είναι χωρίς µνήµη, για τον υπολογισµό της πιθανότητας κάθε µηνύµατος αρκεί να πολλαπλασιάσουµε τις πιθανότητες παραγωγής των συµβόλων από τα οποία αποτελείται. Συνολικά έχουµε 36 µηνύµατα. Παρατηρούµε ότι από τα 36 µηνύµατα, 4 έχουν πιθανότητα παραγωγής ίση µε (/6), 6 µηνύµατα έχουν πιθανότητα παραγωγής (/64) και 6 µηνύµατα έ- χουν πιθανότητα παραγωγής (/32). p p(τ,τ)/6, p 2 p(τ,υ)/6, p 3 p(τ,φ)/32, p 4 p(τ,χ)/32, p 5 p(τ,ψ)/32, p 6 p(τ,ω)/32, p 7 p(υ,τ)/6, p 8 p(υ,υ)/6, p 9 p(υ,φ)/32, p p(υ,χ)/32, p p(υ,ψ)/32, p 2 p(υ,ω)/32, p 3 p(φ,τ)/32, p 4 p(φ,υ)/32, p 5 p(φ,φ)/64, p 6 p(φ,χ)/64, p 7 p(φ,ψ)/64, p 8 p(φ,ω)/64, p 9 p(χ,τ)/32, p 2 p(χ,υ)/32, p 2 p(χ,φ)/64, p 22 p(χ,χ)/64, p 23 p(χ,ψ)/64, p 24 p(χ,ω)/64, p 25 p(ψ,τ)/32, p 26 p(ψ,υ)/32, p 27 p(ψ,φ)/64, p 28 p(ψ,χ)/64, p 29 p(ψ,ψ)/64, p 3 p(ψ,ω)/64, p 3 p(ω,τ)/32, p 32 p(ω,υ)/32, p 33 p(ω,φ)/64, p 34 p(ω,χ)/64, p 35 p(ω,ψ)/64, p 36 p(ω,ω)/64. Εποµένως, 6 p log p Βασίλης Ζορκάδης 4
H ( M ) 36 p log p Παρατηρούµε ότι H(M)2 Η(S). ΕΑΠ ΠΛΗ22 (32/64) 5 bts/message. 4 6 log 6-6 64 log 64-6 32 log 32 4. red-h(s)/maxh(s)-h(s)/log6-(2,5/2,585)-,967,328. 5. RrH(S)5x(2,5)25 bts/sec. Άσκηση 4 Θεωρούµε µια διακριτή πηγή πληροφορίας, έναν τηλέγραφο, το αλφάβητο της οποίας έχει δύο σύµβολα, την τελεία (dot) και την παύλα (dash). Η πιθανότητα εµφάνισης (ή εκποµπής) της τελείας είναι διπλάσια αυτής της παύλας. Η χρονική διάρκεια εκπο- µπής της τελείας είναι.2 sec, ακολουθούµενη από παύση εκποµπής διάρκειας επίσης,2 sec, ενώ η χρονική διάρκεια εκποµπής της παύλας είναι 3-πλάσια αυτής της τελείας, ακολουθούµενη επίσης από παύση εκποµπής διάρκειας,2 sec. Να υπολογισθεί. Η µέση ποσότητα πληροφορίας των συµβόλων της πηγής, 2. Η µέση διάρκεια των συµβόλων, 3. Ο πλεονασµός της διακριτής πηγής και 4. Ο µέσος ρυθµός πληροφορίας της πηγής. Απάντηση. P ( dot) 2P( dash) P ( dot) + P( dash) 2P(dash) + P(dash) P(dash) /3 P ( dot) 2 / 3 Εποµένως η µέση ποσότητα πληροφορίας είναι: H ( X ) P( dot) log 2 ( P( dot) ) + P( dash) log 2 ( P( dash) ) H ( X ).667(.585) +.333* (.585).92bts / symbol 2. Γνωρίζω ότι t dot.2sec και εποµένως t dash 3 *.2sec.6sec Η µέση διάρκεια του συµβόλου είναι TSymbol P( dot) * tdot + P( dash) * tdash + t space.5333sec/ symbol και ο µέσος ρυθµός πληροφορίας r.875symbol / sec T symbol 3. εδοµένου ότι ο αριθµός των συµβόλων είναι 2, ο πλεονασµός της διακριτής πηγής H ( S).92 red.8 log n log 2 2 2 4. Ο µέσος ρυθµός πληροφορίας της πηγής δίνεται από Βασίλης Ζορκάδης 5
ΕΑΠ ΠΛΗ22 R rh ( X ).875 * (.92).725bts / symbol ΚΩ ΙΚΟΠΟΙΗΣΗ ΠΗΓΗΣ Για την αποτελεσµατική παράσταση και µεταφορά της πληροφορίας χρησιµοποιούνται κατάλληλοι κώδικες, οι οποίοι πρέπει να πληρούν τρεις ιδιότητες, να είναι µη ιδιάζοντες, µοναδικά αποκωδικοποιήσιµοι και άµεσοι ή στιγµιαίοι, δηµιουργούνται δε µε τη βοήθεια αλγορίθµων κωδικοποίησης (δείτε την αντίστοιχη ενότητα του βιβλίου). Η ανισότητα του Kraft και το θεώρηµα κωδικοποίησης της πηγής ισχύουν στην περίπτωση άµεσων κωδίκων. Η επίδοση ενός κώδικα εκφράζεται µε το αντίστοιχο µέγεθος που υπολογίζεται από τη σχέση (2.9) του βιβλίου. είτε τα παραδείγ- µατα και τις ασκήσεις αυτοαξιολόγησης που περιέχονται στο βιβλίο. Ιδιότητες Κωδίκων Σύµφωνα µε τους ορισµούς του βιβλίου, ένας κώδικας, του οποίου οι κωδικές λέξεις είναι διαφορετικές, λέγεται µη ιδιάζων, ενώ αν και όλες οι δυνατές ακολουθίες κωδικών λέξεων του κώδικα είναι διαφορετικές, τότε ο κώδικας λέγεται µοναδικά αποκωδικοποιήσιµος. Τέλος, ένας κώδικας, ελεύθερος προθέµατος, δηλαδή κώδικας του οποίου καµιά από τις κωδικές λέξεις δεν αποτελεί πρόθεµα άλλης κωδικής λέξης, λέγεται άµεσος ή στιγµιαίος κώδικας, αφού µια κωδική λέξη µόλις λαµβάνεται στον προορισµό µπορεί αµέσως να αποκωδικοποιηθεί. Παρατηρούµε ότι ένας κώδικας ελεύθερος προθέµατος πληροί και τις δύο πρώτες ι- διότητες, αφού τότε δεν είναι δυνατόν να υπάρχουν κωδικές λέξεις, αλλά ούτε και ακολουθίες κωδικών λέξεων (αντιστοιχούσες σε διαφορετικές ακολουθίες συµβόλων της πηγής) που ταυτίζονται. Άσκηση 5 Θεωρούµε τους ακόλουθους κώδικες Ι, ΙΙ, ΙΙΙ και IV: Ι ΙΙ ΙΙΙ ΙV φ χ ψ Βασίλης Ζορκάδης 6
ΕΑΠ ΠΛΗ22 ω Ζητείται να εξετάσετε αν οι κώδικες Ι, ΙΙ, ΙΙΙ και IV είναι. µη-ιδιάζοντες, 2. µοναδικά αποκωδικοποιήσιµοι, 3. άµεσοι. Απάντηση. Όλοι οι κώδικες είναι µη ιδιάζοντες, αφού ο καθένας αποτελείται από διαφορετικές κωδικές λέξεις. 2. Όλοι οι κώδικές είναι µοναδικά αποκωδικοποιήσιµοι εκτός του I. Σε σχέση µε τον κώδικα Ι, παρατηρούµε ότι η ακολουθία κωδικών λέξεων θα µπορούσε να προκύψει από διάφορες ακολουθίες συµβόλων όπως χψ ή χφω, κλπ. 3. Μόνο οι κώδικες ΙΙ και ΙV είναι άµεσοι. Στην περίπτωση του κώδικα Ι, αν ο δέκτης λάβει το δεν θα ξέρει αν είναι η πρώτη κωδική λέξη ή το ο κωδικό σύµβολο της 3 ης κωδικής λέξης κοκ. Σχετικά µε τον κώδικα ΙΙΙ, όταν ο δέκτης λάβει τα δεν µπορεί ξέρει αν είναι η 2 η κωδική λέξη ή τα 2 πρώτα σύµβολα της 3 ης κωδικής λέξης κοκ. Άσκηση 6 Ζητείται να εξεταστεί αν οι ακόλουθοι κώδικες είναι µη ιδιάζοντες, µοναδικά αποκωδικοποιήσιµοι και άµεσοι:. {,,, }, 2. {,,, }, 3. {,,, }, 4. {,,, }, 5. {,,, }, 6. {,,,, }, 7. {,, }, 8. {,, }. Απάντηση Όλοι οι κώδικες είναι µη ιδιάζοντες, αφού οι κωδικές τους λέξεις είναι διαφορετικές. Σχετικά µε τις άλλες δύο ιδιότητες ισχύουν τα ακόλουθα:. Ο κώδικας αυτός δεν είναι µοναδικά αποκωδικοποιήσιµος, αφού η ακολουθία µπορεί να προέλθει είτε από τη 2 η κωδική λέξη ακολουθούµενη από την 4 η και πάλι τη 2 η είτε από τη 2 η ακολουθούµενη από την η, την 3 η και πάλι την η κ.λπ. Αφού ο κώδικας δεν είναι µοναδικά αποκωδικοποιήσιµος, δεν µπορεί να είναι άµεσος. Βασίλης Ζορκάδης 7
ΕΑΠ ΠΛΗ22 2. Ο κώδικας αυτός είναι µοναδικά αποκωδικοποιήσιµος, αφού όλες οι ακολουθίες κωδικών λέξεων είναι διαφορετικές (επειδή όλες οι κωδικές λέξεις έχουν το ίδιο µήκος και είναι διαφορετικές µεταξύ τους). Επίσης, ο κώδικας είναι άµεσος, αφού ο παραλήπτης µόλις λάβει δύο δυαδικά ψηφία τα αποκωδικοποιεί. 3. Ο κώδικας αυτός δεν είναι µοναδικά αποκωδικοποιήσιµος, αφού, για παράδειγµα, η ακολουθία είναι η 2 η και η η κωδική λέξη ή µόνο η 3 η κωδική λέξη. 4. Ο κώδικας αυτός δεν είναι µοναδικά αποκωδικοποιήσιµος, αφού, για παράδειγµα, η ακολουθία είναι η η και η 2 η κωδική λέξη ή µόνο η 4 η κωδική λέξη. 5. Ο κώδικας αυτός είναι µοναδικά αποκωδικοποιήσιµος, αφού όλες οι δυνατές α- κολουθίες κωδικών λέξεων είναι διαφορετικές. Επίσης, ο κώδικας είναι άµεσος, αφού κάθε κωδική λέξη τελειώνει µε το κωδικό σύµβολο και ο παραλήπτης µπορεί να αποκωδικοποιήσει αµέσως µόλις λάβει, λαµβάνοντας υπόψη και όλα τα που προηγήθηκαν. 6. Ο κώδικας είναι µοναδικά αποκωδικοποιήσιµος. Ο κώδικας δεν είναι άµεσος, α- φού η η κωδική λέξη αποτελεί πρόθεµα της 5 ης κωδικής λέξης (και η 3 η της 4 ης ). 7. Ο κώδικας αυτός είναι µοναδικά αποκωδικοποιήσιµος, αφού όλες οι κωδικές λέξεις είναι διαφορετικές και αρχίζουν από. Όµως δεν είναι άµεσος, αφού αν ο παραλήπτης λάβει δεν γνωρίζει αν αυτά απαρτίζουν τη 2 η κωδική λέξη ή είναι τα δύο πρώτα κωδικά σύµβολα της ης κωδικής λέξης και έτσι δεν µπορεί να προχωρήσει αµέσως στην αποκωδικοποίηση, αλλά πρέπει να περιµένει και το ε- πόµενο κωδικό σύµβολο. 8. Ο κώδικας αυτός δεν είναι µοναδικά αποκωδικοποιήσιµος, αφού η ακολουθία µπορεί να προκύψει είτε από την η κωδική λέξη ακολουθούµενη από την 3 η και πάλι την 3 η κωδική λέξη είτε από τη 2 η ακολουθούµενη από τη 2 η και την η κωδική λέξη είτε από τη 2 η ακολουθούµενη από την η και την 3 η κ.λπ. Ανισότητα του Kraft, Θεώρηµα Κωδικοποίησης Πηγής και Επίδοση Κωδίκων Η ανισότητα του Kraft περιορίζει τα δυνατά σύνολα µηκών κωδικών λέξεων που πληρούν την ιδιότητα της αµεσότητας στην αποκωδικοποίηση. Υπενθυµίζεται η ανισότητα του Kraft, σχέση (2.6) του βιβλίου, όπου n το πλήθος των συµβόλων της πηγής, q το πλήθος των συµβόλων του κωδικού αλφάβητου (συνήθως q2) και l τα µήκη των κωδικών λέξεων. Αντίστροφα, δεδοµένου ενός συνόλου µηκών κωδικών λέξεων που ικανοποιούν την ανισότητα (2.6), υπάρχει ένας άµεσος κώδικας µε κωδικές λέξεις που έχουν αυτά τα µήκη. n q l (2.6) Εφιστάται η προσοχή στο ότι η ανισότητα του Kraft υποδηλώνει ότι υπάρχει άµεσος κώδικας µε µήκη κωδικών λέξεων l και όχι ότι κάθε κώδικας µε µήκη λέξεων l είναι άµεσος (δείτε σελίδα 55 του βιβλίου). Άσκηση 7 Βασίλης Ζορκάδης 8
ΕΑΠ ΠΛΗ22 ίδεται πηγή που εκπέµπει τα σύµβολα Α{α,β,γ,δ} µε πιθανότητες εµφάνισης {.6,.3,.8,.2}, αντίστοιχα.. Να δείξετε ότι δεν υπάρχει άµεσος και µοναδικά αποκωδικοποιήσιµος δυαδικός κώδικας µε µήκη κωδικών λέξεων {,2,2,3}. 2. Να βρεθεί ένας βέλτιστος µοναδικά αποκωδικοποιήσιµος δυαδικός κώδικας. Ποια είναι η βέλτιστη και ποια η ελάχιστη τιµή του µέσου µήκους κωδικής λέξης; Σε ποια περίπτωση ο βέλτιστος κώδικας παράγει µήκη κωδικών λέξεων που είναι ε- πίσης ελάχιστα; ώστε ένα τέτοιο παράδειγµα. Απάντηση. Γνωρίζουµε από το θεώρηµα της ανισότητας Kraft ότι ένας άµεσος και µοναδικά αποκωδικοποιήσιµος δυαδικός κώδικας πρέπει να πληροί την ανισότητα Kraft. Παρατηρούµε όµως ότι ο κώδικας µε µήκη κωδικών λέξεων {,2,2,3} δεν πληροί την ανισότητα Kraft αφού 4 l 2 + + +.5 +.25 +.25 +.25.25 > και άρα δεν 2 2 3 2 2 2 2 µπορεί να υπάρχει ένας άµεσος και µοναδικά αποκωδικοποιήσιµος δυαδικός κώδικας µε αυτά τα µήκη. 2. Γνωρίζουµε ότι η κωδικοποίηση Huffman κατασκευάζει βέλτιστους κώδικες. Κωδικοποιώντας κατά Huffman όπως απεικονίζεται στο σχήµα έχουµε α.6, β.3.4 γ.8. δ.2 α β γ δ Το µέσο µήκος κωδικής λέξης σύµφωνα µε τον παραπάνω πίνακα δίνεται από τη σχέση 4 L pl.6*+.3*2 +.8*3 +.2*3.5 Βασίλης Ζορκάδης 9
ΕΑΠ ΠΛΗ22 και αυτό είναι το βέλτιστο µέσο µήκος του κώδικα. Γνωρίζουµε όµως από το θεώρηµα κωδικοποίησης πηγής (βλ. θεώρηµα 2., σελ. 55 του βιβλίου) ότι Η(X) L. Άρα η ελάχιστη τιµή του µέσου µήκους κωδικής λέξης log p l log p +. q q είναι ίση µε την εντροπία της πηγής η οποία στη συγκεκριµένη περίπτωση είναι διαφορετική από το L. Η(Χ)-(.6)log(.6)-(.3)log(.3)-(.8)log(.8)-(.2)log(.2).36 bts. Για να ισχύει η ισότητα του θεωρήµατος κωδικοποίησης και άρα να έχουµε βέλτιστο και ελάχιστο µήκος ίσα θα πρέπει οι πιθανότητες εµφάνισης των συµβόλων να είναι δυνάµεις του 2. ηλαδή, για να έχουµε µέσο µήκος κωδικών λέξεων ίσο µε την εντροπία της πηγής, θα έπρεπε οι πιθανότητες να ήταν τέτοιες ώστε να προέκυπταν ακέραιοι για όλα τα (-log(p()), δηλαδή οι πιθανότητες (/2, /4, /8 και /8) που είναι πιο κοντά στις δεδοµένες. (Βέβαια για 4 σύµβολα, θα µπορούσαµε να έχουµε και τις πιθανότητες (/4, /4, /4, /4), αλλά αυτές αποκλίνουν πολύ περισσότερο από τις δεδοµένες.) Θεώρηµα 2. (Θεώρηµα κωδικοποίησης πηγής) Θεωρούµε ένα κωδικό αλφάβητο αποτελούµενο από q σύµβολα και n κωδικές λέξεις των n συµβόλων της πηγής, καθώς και τις πιθανότητες εµφάνισης των συµβόλων της πηγής P {p, p 2,..., p n }. Αν ισχύει η (2.6), τότε ισχύει και η ακόλουθη ανισότητα (l είναι τα µήκη και Η(C) το µέσο πληροφορικό περιεχόµενο των κωδικών λέξεων ή των συµβόλων της πηγής): H ( C) log q n p l (2.7) Το µέσο µήκος των κωδικών λέξεων δεν µπορεί να είναι µικρότερο από το µέσο πληροφορικό περιεχόµενο της πηγής σε µονάδα µέτρησης που προκύπτει µε βάση του λογάριθµου το q (δείτε το βιβλίο). Η ισότητα ισχύει όταν οι πιθανότητες εκποµπής των συµβόλων είναι αρνητικές δυνά- µεις του q (q2 στην περίπτωση δυαδικού κώδικα), δηλαδή όταν οι ποσότητες log q p είναι ακέραιοι αριθµοί. είτε σχετικά τις σελίδες 56-57 του βιβλίου. Αν οι ποσότητες Βασίλης Ζορκάδης log p l log p +. q q
ΕΑΠ ΠΛΗ22 log q p δεν είναι ακέραιοι αριθµοί, στην περίπτωση κωδίκων που σχηµατίζονται µε τον αλγόριθµο κωδικοποίησης του Shannon, τα µήκη των κωδικών λέξεων επιλέγονται σύµφωνα µε την ανισωτική σχέση Κώδικες που σχηµατίζονται µε τους αλγόριθµους κωδικοποίησης του Fano και του Huffman µπορεί να περιέχουν κωδικές µε µήκος µικρότερο της ποσότητας log q p. Για παράδειγµα, αν θεωρήσουµε µια πηγή που εκπέµπει τρία σύµβολα µε πιθανότητες {,4,,3,,3}, τόσο ο αλγόριθµος κωδικοποίησης του Huffman όσο και του Shannon οδηγούν στον δυαδικό κώδικα {,, } ή τον {,, }. Η η κωδική λέξη έχει µήκος που είναι µικρότερο του log 2,4,32. Ένα µέτρο της αποδοτικότητας ενός κώδικα είναι η επίδοσή του, η οποία παίρνει τιµή στο διάστηµα (, ]. Η τιµή υποδηλώνει άριστο κώδικα, δηλαδή µέσο µήκος κωδικών λέξεων ίσο µε την εντροπία των συµβόλων της πηγής. Η διαφορά της τιµής της επίδοσης από το υποδηλώνει τον πλεονασµό που εισάγεται από τη χρήση του κώδικα. (Εφιστάται ωστόσο η προσοχή και στην ύπαρξη και του εγγενούς πλεονασµού που υπάρχει σε µια πηγή και ο οποίος υποδηλώνει την απόσταση ή διαφορά της ε- ντροπίας της πηγής από τη µέγιστη εντροπία.) Επίδοση του κώδικα a n H ( C) p l log q (2.9) ΑΛΓΟΡΙΘΜΟΙ ΚΩ ΙΚΟΠΟΙΗΣΗΣ FANO, SHANNON και HUFFMAN Στο βιβλίο περιγράφονται οι αλγόριθµοι κωδικοποίησης του Fano, του Shannon και του Huffman. Γνωρίζουµε ότι ο αλγόριθµος κωδικοποίησης του Huffman, για δεδο- µένες πιθανότητες, οδηγεί στο σχηµατισµό βέλτιστων κωδίκων. Εποµένως, όταν ζητείται η εύρεση βέλτιστου κώδικα για δεδοµένες πιθανότητες, τότε εφαρµόζουµε τον αλγόριθµο κωδικοποίησης του Huffman. Ωστόσο, δεν αποκλείεται, σε κάποιες περιπτώσεις, και οι αλγόριθµοι κωδικοποίησης του Fano και του Shannon να οδηγούν σε κώδικες ίσης επίδοσης µε αυτή του κώδικα Huffman. Σε δυαδικό κώδικα Huffman, oι δύο κωδικές λέξεις µε το µεγαλύτερο µήκος, έχουν το ίδιο µήκος, µε κατάλληλη διευθέτηση δε αυτές διαφέρουν µόνον ως προς το τελευ- Βασίλης Ζορκάδης
ΕΑΠ ΠΛΗ22 ταίο κωδικό σύµβολο και αντιστοιχούν στα σύµβολα της πηγής µε τις δύο πιο χαµηλές πιθανότητες παραγωγής. Στη συνέχεια παρατίθενται ασκήσεις µε ερωτήµατα σχετικά µε την εφαρµογή των ανωτέρω αλγορίθµων κωδικοποίησης. είτε επίσης και τα παραδείγµατα και ασκήσεις του βιβλίου. Άσκηση 8 Μια πηγή παράγει 8 διαφορετικά σύµβολα, τα Α, Β, Γ,, Ε, Ζ, Η και Θ, µε πιθανότητες /8, /4, /6, /32, /4, /32, /8 και /8, αντίστοιχα. Ζητούνται τα ακόλουθα:. Ποιο γράµµα (σύµβολο) µεταφέρει τη µεγαλύτερη ποσότητα πληροφορίας και ποιο τη µικρότερη; 2. Αν σκεφτώ µια λέξη που πρέπει να µαντέψετε και σας πω το πρώτο γράµµα της, ποιο θα είναι µεγαλύτερης χρησιµότητας το Β ή το Ζ; 3. Να σχηµατιστεί κώδικας σύµφωνα µε τον αλγόριθµο του Huffman, µε δυαδικό κωδικό αλφάβητο. 4. Να υπολογιστεί και να σχολιαστεί η επίδοση του κώδικα Huffman. Απάντηση. Σύµφωνα µε τους ορισµούς στην Ενότητα.4 του βιβλίου, τη µεγαλύτερη ποσότητα πληροφορίας µεταφέρουν τα γράµµατα µε τη µικρότερη πιθανότητα εµφάνισης. Στην περίπτωσή µας, τα γράµµατα µε πιθανότητα /32, δηλαδή τα και Ζ. Από την άλλη πλευρά, τη µικρότερη ποσότητα πληροφορίας µεταφέρουν τα γράµµατα Β και Ε. 2. Το Ζ, αφού έχει µεγαλύτερη ποσότητα πληροφορίας. (Πρακτικά σηµαίνει ότι µειώνεται έτσι κατά πολύ περισσότερο η αβεβαιότητα σε σχέση µε τη ζητούµενη λέξη.) 3. Κώδικας Huffman Σύµβολα ΒS /4 /4 /4 /4 /2 ½ () ΕS 2 /4 /4 /4 /4 ¼ () ½ () ΑS 3 /8 /8 /8 /4 ¼ () ¼ () ΗS 4 /8 /8 /8 /8 () ¼ () ΘS 5 /8 /8 /8 () /8 () Κώδικας ΓS 6 /6 /6 () /8 () S 7 /32 () /6 () ΖS 8 /32 () Βασίλης Ζορκάδης 2
ΕΑΠ ΠΛΗ22 4. To πληροφοριακό περιεχόµενο των συµβόλων και το µέσο µήκος των κωδικών λέξεων που προέκυψαν είναι ίσα µε 2,625. Εποµένως, η επίδοση του κώδικα είναι, αφού logqlog2 (δείτε τύπο 2.9 του βιβλίου, σελ. 57). Εποµένως, ο αλγόριθµος του Huffman µας οδήγησε σε έναν άριστο κώδικα. Άσκηση 9 Για την πηγή της άσκησης 8, ζητούνται τα ακόλουθα:. Να σχηµατιστεί κώδικας σύµφωνα µε τον αλγόριθµο του Fano, µε δυαδικό κωδικό αλφάβητο. 2. Να σχηµατιστεί κώδικας σύµφωνα µε τον αλγόριθµο του Shannon, µε δυαδικό κωδικό αλφάβητο. Απάντηση. Τα σύµβολα της πηγής αφού διαταχθούν σε τάξη φθίνουσας πιθανότητας χωρίζονται σε δύο οµάδες µε το δυνατόν ίσες αθροιστικές πιθανότητες (δείτε τον πίνακα). Τα δύο πρώτα σύµβολα περιλαµβάνονται στην η οµάδα και τα υπόλοιπα στη 2 η οµάδα. Επιλέγουµε το ως το πρώτο κωδικό σύµβολο των κωδικών λέξεων της ης οµάδας και το για τις κωδικές λέξεις της 2 ης οµάδας. Η πρώτη ο- µάδα χωρίζεται σε 2 υποοµάδες µε ένα σύµβολο η καθεµία. Επιλέγουµε και πάλι το για την η υποοµάδα και το για τη 2. Έτσι καταλήγουµε στις κωδικές λέξεις των δύο πρώτων συµβόλων του πίνακα, τις και. Κατά τον ίδιο τρόπο συνεχίζουµε και σε σχέση µε τη δεύτερη οµάδα, την οποία χωρίζουµε σε δύο υποοµάδες, εκ των οποίων η η περιλαµβάνει το 3 ο και το 4 ο σύµβολο του πίνακα και η άλλη όλα τα υπόλοιπα σύµβολα. Έτσι, καταλήγουµε στις ζητούµενες κωδικές λέξεις (δείτε τον πίνακα). Κώδικας Fano Σύµβολα Πιθανότητες Κώδικας ΒS /4 () ΕS 2 /4 () ΑS 3 /8 () ΗS 4 /8 () ΘS 5 /8 () ΓS 6 /6 () S 7 /32 () ΖS 8 /32 () 2. Κώδικας Shannon Σύµβολα Πιθανότητες P Μήκος l Ανάπτυγµα Κωδικές Βασίλης Ζορκάδης 3
ΕΑΠ ΠΛΗ22 Πηγής Συµβόλων του P Λέξεις BS /4 P l 2. ES 2 /4 P 2 /4 l 2 2. AS 3 /8 P 3 /2 l 3 3. HS 4 /8 P 4 5/8 l 4 3. ΘS 5 /8 P 5 6/8 l 5 3. ΓS 6 /6 P 6 7/8 l 6 4. S 7 /32 P 7 5/6 l 7 5. ΖS 8 /32 P 8 3/32 l 8 5. Άσκηση Μια πηγή παράγει διαφορετικά σύµβολα, τα Α, Β, Γ,, Ε, Ζ, Η, Θ, I και K µε πιθανότητες,25,,25,,25,,25,,625,,625,,625,,625,,625 και,625, αντίστοιχα. Ζητούνται τα ακόλουθα:. Η εντροπία της πηγής. 2. Να σχηµατιστεί κώδικας σύµφωνα µε τον αλγόριθµο του Fano, µε δυαδικό κωδικό αλφάβητο. 3. Να σχηµατιστεί κώδικας σύµφωνα µε τον αλγόριθµο του Shannon, µε δυαδικό κωδικό αλφάβητο. 4. Οι επιδόσεις των κωδίκων που προκύπτουν από τα ερωτήµατα 2 και 3. Απάντηση. Η εντροπία της πηγής υπολογίζεται ως ακολούθως: H ( S ) p log p log log log log 4 4 8 8 8 8 8 8 log log log log 6 6 6 6 6 6 6 6 (5/6) 3,25 bts/symbol. 6 log 6 6 log 6 2. Τα σύµβολα της πηγής δίνονται σε τάξη φθίνουσας πιθανότητας (δείτε τον πίνακα). Χωρίζονται δε σε οµάδες και υποοµάδες ως ακολούθως: Τα τρία πρώτα σύµβολα περιλαµβάνονται στην η οµάδα και τα υπόλοιπα στη 2 η οµάδα. Ε- πιλέγουµε το ως το πρώτο κωδικό σύµβολο των κωδικών λέξεων της ης οµάδας και το για τις κωδικές λέξεις της 2 ης οµάδας. Η πρώτη οµάδα χωρίζεται σε 2 υποοµάδες µε ένα σύµβολο η πρώτη και δύο σύµβολα η δεύτερη. Επιλέγουµε και πάλι το για την η υποοµάδα και το για τη 2 η υποοµάδα. Έτσι καταλήγουµε στην κωδική λέξη του Α, η οποία είναι η Βασίλης Ζορκάδης 4
ΕΑΠ ΠΛΗ22. Η 2 η υποοµάδα χωρίζεται περαιτέρω σε δύο υποοµάδες µε ένα σύµβολο η καθεµιά, το Β η πρώτη και το Γ η δεύτερη. Αποδίδοντας και πάλι το στην πρώτη υποοµάδα και το στη δεύτερη υποοµάδα οδηγούµαστε στις κωδικές λέξεις για το Β και για το Γ. Κατά τον ίδιο τρόπο συνεχίζουµε και σε σχέση µε τη δεύτερη οµάδα, την οποία χωρίζουµε σε δύο υποοµάδες κ.λπ. Έτσι, καταλήγουµε στις ζητούµενες κωδικές λέξεις (δείτε τον πίνακα). Κώδικας Fano Σύµβολα Πιθανότητες Κώδικας Α /4 () Β /8 () Γ /8 () /8 () Ε /6 () Ζ /6 () Η /6 () Θ /6 () Ι /6 () Κ /6 () 3. Κώδικας Shannon Σύµβολα Πηγής Πιθανότητες Συµβόλων P Μήκος l Ανάπτυγµα του P Κωδικές Λέξεις Α /4 P l 2. Β /8 P 2 /4 l 2 3. Γ /8 P 3 3/8 l 3 3. /8 P 4 4/8 l 4 3. Ε /6 P 5 5/8 l 5 4. Ζ /6 P 6 /6 l 6 4. Η /6 P 7 2/6 l 7 4. Θ /6 P 8 3/6 l 78 4. Ι /6 P 9 4/6 L 8 4. Κ /6 P 5/6 l 4. 5. Και για τον κώδικα Fano και για τον κώδικα Shannon, το µέσο µήκος των κωδικών λέξεων που προκύπτει είναι ίσο µε την εντροπία της πηγής. Εποµένως, η απόδοση των κωδίκων αυτών είναι, δηλαδή είναι άριστοι κώδικες. Βασίλης Ζορκάδης 5
a ( H ( S) p l ) log 2 2 ΕΑΠ ΠΛΗ22 3,25. 3,25 Άσκηση ιακριτή πηγή παράγει 6 σύµβολα µε τις ακόλουθες πιθανότητες: P(/2, 2/2, 3/2, 4/2, 5/2, 6/2). Zητούνται:. Να σχηµατιστεί κώδικας σύµφωνα µε τον αλγόριθµο του Huffman, µε δυαδικό κωδικό αλφάβητο. 2. Να σχηµατιστεί κώδικας σύµφωνα µε τον αλγόριθµο του Huffman, µε κωδικό αλφάβητο αποτελούµενε από τρία σύµβολα, τα, και 2. 3. Να υπολογιστεί και να σχολιαστεί η επίδοση του κώδικα Huffman και για τις δύο περιπτώσεις (ερώτηµα και 2). Απάντηση. Κώδικας Huffman µε δύο κωδικά σύµβολα Σύµβολα Κώδικας S 6/2 6/2 6/2 9/2 2/2 () S 2 5/2 5/2 6/2 6/2 () 9/2 () S 3 4/2 4/2 5/2 () 6/2 () S 4 3/2 3/2 () 4/2 () S 5 2/2 () 3/2 () S 6 /2 () 2.α Κώδικας Huffman µε τρία κωδικά σύµβολα Σύµβολα Κώδικας S 6/2 6/2 /2 () S 2 5/2 5/2 6/2 () 2 S 3 4/2 4/2 () 5/2 (2) S 4 3/2 3/2 () S 5 2/2 () 3/2 (2) 2 S 6 /2 () 2 Παρατηρούµε ότι στο ο βήµα συγχωνεύτηκαν µόνον δύο σύµβολα σε ένα και κατά τη δεύτερη συγχώνευση έλαβαν µέρος 3 σύµβολα, έτσι ώστε να έχουµε στο τέλος τρία σύµβολα. Βασίλης Ζορκάδης 6
ΕΑΠ ΠΛΗ22 Ακολούθως, δηλαδή στον κώδικα 2.β, έχουµε στο 2 ο βήµα συγχώνευση δύο συµβόλων και, τέλος στο 2.γ, έχουµε στο τέλος δύο σύµβολα. Όπως θα δούµε και στην απάντηση του ερωτήµατος 3, ο πιο αποδοτικός κώδικας προκύπτει όταν στο ο βήµα συγχώνευσης, εφόσον είναι αναγκαίο, λαµβάνουν µέρος λιγότερα σύµβολα από το πλήθος των κωδικών συµβόλων. 2.β Κώδικας Huffman µε τρία κωδικά σύµβολα Σύµβολα Κώδικας S 6/2 6/2 9/2 () S 2 5/2 6/2 6/2 () S 3 4/2 5/2 () 6/2 (2) S 4 3/2 () 4/2 () 2 S 5 2/2 () 2 S 6 /2 (2) 22 2.γ Κώδικας Huffman µε τρία κωδικά σύµβολα Σύµβολα Κώδικας S 6/2 6/2 5/2 () S 2 5/2 6/2 () 6/2 () S 3 4/2 5/2 () 2 S 4 3/2 () 4/2 (2) S 5 2/2 () S 6 /2 (2) 2 4. Για τον υπολογισµό της απόδοσης των κωδίκων, υπολογίζουµε πρώτα την εντροπία της πηγής: 6 6 6 5 5 4 4 3 3 2 2 H ( S) p log p log log log log log log 2 2 2 2 2 2 2 2 2 2 2 2 Ακολούθως υπολογίζουµε το µέσο µήκος των κωδικών λέξεων για κάθε περίπτωση και την αντίστοιχη απόδοση. υαδικός κώδικας 6 p l 6 2 + 2 2 Κατά συνέπεια H ( S ) a 6 ( p l ) log 2 5 2 2 Τριαδικός κώδικας 2.α 6 p l 6 2 Κατά συνέπεια 5 + 2 + 2 + 2 4 2 2,4 2,43 4 2 + 3 3 2 + 4,9875. + 2 3 2 + 3 2 2 2 2 + 4 + 3 2 2 5 2 34 2 2,43,62 2,4bts / symbol Βασίλης Ζορκάδης 7
a ( 6 H ( S ) p l ) log 2 3 ΕΑΠ ΠΛΗ22 2,4,94.,62 *,58 Τριαδικός κώδικας 2.β 6 p l 6 2 Κατά συνέπεια H ( S ) a 6 ( p l ) log 5 + 2 2 2 + 2 4 2 + 2 3 2 2,4,74 *,58 3 + 2 2 2 + 2,886. 2 36 2,74 Τριαδικός κώδικας 2.γ 6 p l 6 2 Κατά συνέπεια H ( S ) a 6 ( p l ) log 5 + 2 2 2 3 + 2 4 2 + 3 2,4 2 *,58 3 2 + 3,76. 2 2 + 3 2 42 2 2. Παρατηρούµε ότι ο δυαδικός κώδικας είναι σχεδόν άριστος. Στην περίπτωση του τριαδικού κώδικα, ο κώδικας 2.α εµφανίζει επίσης πολύ καλή απόδοση. Αντίθετα, ο κώδικας 2.γ έχει την πιο χαµηλή απόδοση, επειδή κατά την κωδικοποίηση, στο τελευταίο βήµα, απέµειναν λιγότερα σύµβολα από το πλήθος των κωδικών συµβόλων. Όπως αναφέρθηκε και ανωτέρω, ο πιο αποδοτικός κώδικας προκύπτει όταν, εφόσον είναι α- ναγκαίο σε κάποια συγχώνευση να λάβουν λιγότερα σύµβολα από το πλήθος των κωδικών συµβόλων, η συγχώνευση των δύο συµβόλων σε ένα λαµβάνει µέρος στο ο βήµα συγχώνευσης. Άσκηση 2 Θεωρούµε µια τυχαία µεταβλητή (πηγή) που παίρνει (παράγει) 4 διαφορετικές τιµές (σύµβολα) µε πιθανότητες {/3, /3, ¼, /2}. Ζητούνται τα ακόλουθα:. να σχηµατιστεί δυαδικός κώδικας σύµφωνα µε τον αλγόριθµο του Ηuffman για την πηγή αυτή. 2. να δείξετε ότι υπάρχουν δύο βέλτιστα σύνολα µηκών των 4 κωδικών λέξεων, τα (, 2, 3, 3) και (2, 2, 2, 2). Επίσης, ζητείται 3. Να εξεταστεί ποιοι από τους ακόλουθους κώδικες και για ποιο λόγο δεν µπορεί να προκύψουν σύµφωνα µε τον αλγόριθµο κωδικοποίησης του Huffman για καµία συνάρτηση πιθανότητας µάζας πηγής (PMF) που παράγει 2, 3 και 4 σύµβολα, α- ντίστοιχα: {, }, {,, }, {,,, }. Βασίλης Ζορκάδης 8
Απάντηση. Σύµβολα ΕΑΠ ΠΛΗ22 S /3 /3 2/3 () S 2 /3 /3 () /3 () S 3 /4 () /3 () S 4 /2 () Κώδικας 2. Όπως γνωρίζουµε, ο κώδικας Huffman είναι ο βέλτιστος κώδικας για δεδοµένες πιθανότητες εµφάνισης των συµβόλων (σελίδα 63 του βιβλίου). Στην προκειµένη περίπτωση, η επίδοση του βέλτιστου κώδικα που προέκυψε σύµφωνα µε τον αλγόριθµο κωδικοποίησης του Huffman υπολογίζεται από τον τύπο (2.9) της σελίδας 57 του βιβλίου: a ( 4 H ( S) p l ) log 2 2,85539 2,93. Τώρα, αν απλά θεωρήσουµε ότι τα 4 σύµβολα της πηγής κωδικοποιούνται ως,, και, αντίστοιχα, τότε το µέσο µήκος των µηκών των κωδικών λέξεων είναι επίσης 2, αφού 2x(/3)+2x(/3)+2x(/4)+2x(/2)2x2, όπως και στην περίπτωση των µηκών (, 2, 3, 3) που προέκυψαν µε την εφαρµογή του αλγόριθµου του Huffman, η επίδοση και του κώδικα αυτού είναι ίση µε,93. Εποµένως και ο κώδικας αυτός είναι βέλτιστος. 3. Ο κώδικας {, } δεν µπορεί να προκύψει ως αποτέλεσµα της εφαρµογής του αλγόριθµου κωδικοποίησης Huffman σε πηγή µε 2 σύµβολα, αφού στην περίπτωση αυτή ο αλγόριθµος θα αποδώσει σε ένα σύµβολο την κωδική λέξη-σύµβολο και στο άλλο το. Ο κώδικας {,, } µπορεί να προκύψει στην περίπτωση πηγής µε 3 σύµβολα. Όσο για τον κώδικα {,,, }, και αυτός µπορεί να προκύψει. Για παράδειγµα θα µπορούσε να προκύψει στο ανωτέρω ερώτηµα 4. αν µετά τη συγχώνευση των S3 και S4, η πιθανότητα του συγχωνευµένου συµβόλου είχε τεθεί στην η θέση (γραµµή) και όχι την 3 η που διαλέξαµε ανωτέρω. Επίσης, θα µπορούσε να προκύψει για πηγή 4 συµβόλων και συνάρτηση πιθανότητας µάζας {2,5 2,5 2,5 2,5}. Άσκηση 3 Βασίλης Ζορκάδης 9
ΕΑΠ ΠΛΗ22 ίδεται διακριτή πηγή, η οποία παράγει 7 διαφορετικά σύµβολα, τα Α, Β, Γ,, Ε, Ζ και Η µε τις ακόλουθες πιθανότητες, αντίστοιχα: {/5, /5, /3, /5, /5, /5, /5}.. Ζητείται να σχηµατιστεί δυαδικός κώδικας σύµφωνα µε τον αλγόριθµο του Ηuffman. 2. Ζητείται να σχηµατιστεί δυαδικός κώδικας σύµφωνα µε τον αλγόριθµο του Fano. 3. Ζητείται να σχηµατιστεί 3-αδικός κώδικας σύµφωνα µε τον αλγόριθµο του Ηuffman για τις ανωτέρω πιθανότητες εµφάνισης των συµβόλων. 4. Επίσης, ζητείται 5. Να συγκριθούν οι κώδικες που προκύπτουν στα ερωτήµατα και 2 ως προς την επίδοσή τους. Απάντηση. Κώδικας Huffman µε δύο κωδικά σύµβολα Σύµβολα Κώδικας Γ /3 /3 /3 /3 2/5 9/5 () Α /5 /5 /5 4/5 /3 () 2/5 () Ε /5 /5 /5 /5 () 4/5 () Β /5 2/5 2/5 () /5 () /5 /5 () 2/5 () Ζ /5 () /5 () Η /5 () 2. Τα σύµβολα της πηγής δίνονται σε τάξη φθίνουσας πιθανότητας (δείτε τον πίνακα). Χωρίζονται δε σε οµάδες και υποοµάδες ως ακολούθως: Τα δύο πρώτα σύµβολα περιλαµβάνονται στην η οµάδα και τα υπόλοιπα στη 2 η οµάδα. Επιλέγουµε το ως το πρώτο κωδικό σύµβολο των κωδικών λέξεων της ης οµάδας και το για τις κωδικές λέξεις της 2 ης οµάδας. Η πρώτη οµάδα χωρίζεται σε 2 υποοµάδες µε ένα σύµβολο η πρώτη και ένα η δεύτερη. Επιλέγουµε και πάλι το για την η υποοµάδα και το για τη 2. Έτσι καταλήγουµε στην κωδική λέξη του Γ, η οποία είναι η κοκ. Κώδικας Fano Σύµβολα Πιθανότητες Κώδικας Βασίλης Ζορκάδης 2
ΕΑΠ ΠΛΗ22 Γ /3 Α /5 Ε /5 Β /5 /5 Ζ /5 Η /5 3. Κώδικας Huffman µε τρία κωδικά σύµβολα Σύµβολα S Γ /3 /3 7/5 () S 2 Α /5 /5 /3 () 2 S 3 Ε /5 /5 () /5 (2) S 4 Β /5 3/5 () 2 S 5 /5 () /5 (2) S 6 Ζ /5 () S 7 Η /5 (2) 2 Κώδικας 4. Για τον υπολογισµό της απόδοσης των κωδίκων, υπολογίζουµε πρώτα την εντροπία της πηγής: 7 H ( S) p log p log 2 log 4 log 2,5 bts / symbol 3 3 5 5 5 5 Ακολούθως υπολογίζουµε το µέσο µήκος των κωδικών λέξεων για κάθε περίπτωση και την αντίστοιχη απόδοση. υαδικός κώδικας Huffman 7 p l 2 5 Κατά συνέπεια a ( 7 H ( S ) p l ) log 4 + 4 5 2 2 38 5 2,5 2,53 υαδικός κώδικας Fano 7 p l 2 5 Κατά συνέπεια a ( 7 H ( S ) p l ) log 4 + 4 5 2 2 38 5 2,5 2,53 2,53,9868. 2,53,9868. Βασίλης Ζορκάδης 2
ΕΑΠ ΠΛΗ22 Παρατηρούµε ότι οι δυαδικοί κώδικες είναι σχεδόν άριστοι. ΠΗΓΕΣ MARKOFF Οι πηγές Markoff αποτελούν µοντέλα µελέτης πηγών µε µνήµη (δείτε την ενότητα 2.2 του βιβλίου). Χαρακτηρίζονται από το βάθος της µνήµης ή την τάξη της στατικής µαρκοβιανής που την αναπαριστά και τον πίνακα µετάβασης. Οι πηγές Markoff, lλαµβάνοντας υπόψη την εξάρτηση που υφίσταται στις πιθανότητες εκποµπής διαδοχικών συµβόλων, οδηγούν σε αποδοτικότερη κωδικοποίηση πηγής. Αυτό επιτυγχάνεται µε δύο τρόπους: είτε µε την κωδικοποίηση ακολουθιών συµβόλων της πηγής µήκους ίσου µε την τάξη της µαρκοβιανής αλυσίδας που χρησιµοποιείται για τη µοντελοποίηση ης πηγής µε µνήµη είτε µε τη δηµιουργία ξεχωριστών κωδίκων για κάθε δυνατή κατάσταση της πηγής µε αποτέλεσµα διαφορετικές κωδικές λέξεις για κάθε ένα από τα σύµβολα της πηγής ανάλογα µε την κατάσταση από την οποία εκπέµπεται. Εποµένως, τα ερωτήµατα που µπορούν να τεθούν σε ασκήσεις είναι η εύρεση των πιθανοτήτων εκποµπής των συµβόλων της πηγής, Στις ακόλουθες ασκήσεις, τα ερωτήµατα αυτά απαντώνται µε υποδειγµατικό τρόπο. Άσκηση 4 Μια διακριτή πηγή µε µνήµη εκπέµπει τα σύµβολα φ, χ, ψ και ψ. Η παραγωγή των συµβόλων σχηµατίζει µια στατική Μαρκοβιανή αλυσίδα πρώτης τάξης, η οποία χαρακτηρίζεται από τον ακόλουθο πίνακα µετάβασης:,2,2,6,4,,4, P.,5,3,2,4,4,2 Ζητείται να υπολογιστούν. Οι πιθανότητες παραγωγής των συµβόλων φ, χ, ψ και ω. 2. Η εντροπία της πηγής. 3. Το µέσο πληροφορικό περιεχόµενο µηνυµάτων αποτελούµενων από δύο σύµβολα. 4. Ο πλεονασµός, ο πλεονασµός εξάρτησης και ο ολικός πλεονασµός της διακριτής πηγής. Βασίλης Ζορκάδης 22
Απάντηση ΕΑΠ ΠΛΗ22. Για τον υπολογισµό των πιθανοτήτων παραγωγής των δεδοµένων συµβόλων καταστρώνουµε και επιλύουµε σύστηµα πέντε εξισώσεων µε τέσσερις αγνώστους, όπως στην άσκηση αυτοαξιολόγησης 2.8 και το παράδειγµα 2.. Θεωρώντας π p(φ), π 2 p(χ), π 3 p(ψ), π 4 p(ω), έχουµε () π π P(φ/φ)+π 2 P(φ/χ)+π 3 P(φ/ψ) + π 4 P(φ/ω) π 2 (4/)+ π 3 (5/)+π 4 (4/), (2)π 2 π P(χ/φ)+π 2 P(χ/χ)+π 3 P(χ/ψ)+π 4 P(χ/ω)π (2/)+π 2 (/)+π 3 (3/)+π 4 (4/), (3) π 3 π P(ψ/φ)+ π 2 P(ψ/χ)+ π 3 P(ψ/ψ)+ π 4 P(ψ/ω) π (2/)+π 2 (4/)+π 4 (2/), (4)π 4 π P(ω/φ)+π 2 P(ω/χ)+π 3 P(ω/ψ)+π 4 P(ω/ω)π (6/)+π 2 (/)+π 3 (2/), (5)π + π 2 + π 3 + π 4. Αντικαθιστώντας την εξίσωση () σε όλες τις άλλες λαµβάνουµε το ακόλουθο σύστηµα 4 εξισώσεων µε 3 αγνώστους: (α) 82π 2 4 π 3 + 48 π 4, (β) 9π 3 48 π 2 +28 π 4, (γ) 76π 4 34 π 2 +5 π 3, (δ) 4π 2 + 5 π 3 + 4 π 4. Από 5x(β)+9x(γ) και από 5x(α)+4x(δ) (για να εξαλείψουµε το π 3 ) λαµβάνουµε τις ακόλουθες δύο εξισώσεις µε δύο αγνώστους που µας επιτρέπουν να υπολογίσουµε τα π 2 και π 4 : 544π 4 546π 2 και 79π 2-6π 4 4. Από τις 2 αυτές εξισώσεις λαµβάνουµε π 2,2454 και π 4,2463. Από τη (β) µπορούµε να λάβουµε π 3,275 και τέλος π,37. 2. Για τον υπολογισµό της εντροπίας της πηγής Markoff εφαρµόζουµε τους τύπους 2.2. και 2.3 του βιβλίου (σελ. 73). Η εντροπία των συµβόλων που εκπέµπεται από κάθε κατάσταση δίνεται κατωτέρω: Η(Κ )--,2log,2-,2log,2-,6log,6,379 Η(Κ 2 )-,4λογ,4-,log,-,4log,4-,log,,729 Η(Κ 3 )-,5λογ,5-,3log,3--,2log,2,4854 Η(Κ 4 )-,4λογ,4-,4log,4-,2log,2-,529 Βασίλης Ζορκάδης 23
ΕΑΠ ΠΛΗ22 Για να υπολογίσουµε την εντροπία της πηγής αρκεί να υπολογίσουµε τη µέση τιµή των ανωτέρω, λαµβάνοντας υπόψη και τη βαρύτητα καθεµιάς κατάστασης (δηλαδή την πιθανότητά της): Η(S),37x,379 +,2454x,729 +,275x,4854 +,2463x,529,57 bts/symbol. 3. Πρώτα πρέπει να υπολογίσουµε τις πιθανότητες όλων των δυνατών µηνυµάτων µήκους δύο συµβόλων. Κατόπιν µπορούµε να εφαρµόσουµε τον τύπο 2.4 του βιβλίου (σελ. 73) για τον υπολογισµό της ζητούµενης µέσης ποσότητας πληροφορίας. Για τον υπολογισµό της πιθανότητας του µηνύµατος (φ,χ), η οποία είναι συνδυασµένη πιθανότητα, αρκεί να πολλαπλασιάσουµε την πιθανότητα p(φ) µε την πιθανότητα P(χ/φ), δηλαδή p(m 2 ) p(φ,χ)π P 2 π P(χ/φ),6. Κατά τον ίδιο τρόπο υπολογίζουµε και τις πιθανότητες των υπόλοιπων 5 µηνυµάτων: p(m ) p(φ,φ)π P π P(φ/φ), p(m 3 ) p(φ,ψ)π P 3 π P(ψ/φ),6, p(m 4 ) p(φ,ω)π P 4 π P(ω/φ),842, p(m 5 ) p(χ,φ)π 2 P 2 π 2 P(φ/χ),986, p(m 6 ) p(χ,χ)π 2 P 22 π 2 P(χ/χ),2454, p(m 7 ) p(χ,ψ)π 2 P 23 π 2 P(ψ/χ),986, p(m 8 ) p(χ,ω)π 2 P 24 π 2 P(ω/χ),2454, p(m 9 ) p(ψ,φ)π 3 P 3 π 3 P(φ/ψ),375, p(m ) p(ψ,χ)π 3 P 32 π 3 P(χ/ψ),6225, p(m ) p(ψ,ψ)π 3 P 33 π 3 P(ψ/ψ), p(m 2 ) p(ψ,ω)π 3 P 34 π 3 P(ω/ψ),45, p(m 3 ) p(ω,φ)π 4 P 4 π 4 P(φ/ω),9852, p(m 4 ) p(ω,χ)π 4 P 42 π 4 P(χ/ω),9852, p(m 5 ) p(ω,ψ)π 4 P 43 π 4 P(ψ/ω),4926, p(m 6 ) p(ω,ω)π 4 P 44 π 4 P(ω/ω). Εποµένως, Η(M)- p(m )log p(m )- p(m 2 )log p(m 2 )- - p(m 6 )log p(m 6 ) 3,49 bts/message Βασίλης Ζορκάδης 24
ΕΑΠ ΠΛΗ22 4. Για τον υπολογισµό του πλεονασµού, του πλεονασµού εξάρτησης και του ολικού πλεονασµού (τύποι 2.7 και 2.8 του βιβλίου, σελ. 74), υπολογίζουµε πρώτα την εντροπία πηγής χωρίς µνήµη. Η χωρίς µνήµη (S) -,37log,37-,2454log,2454-,275log275-,2463log,2463,987 Η µέγιστη εντροπία της πηγής χωρίς µνήµη είναι βεβαίως 2, αφού έχουµε 4 σύµβολα. Εποµένως, red-(,987/2),6, red εξ -(,57/,987),236 και red ολ -(,57/2),242. Άσκηση 5 Μια πηγή Markoff εκπέµπει τα σύµβολα χ, ψ και ω. Η πηγή χαρακτηρίζεται από τον ακόλουθο πίνακα µετάβασης (Μαρκοβιανή αλυσίδα πρώτης τάξης):,5 P,5,5,25,5,5.,25 Ζητείται να υπολογιστούν. Η εντροπία της πηγής. 2. Το µέσο πληροφορικό περιεχόµενο µηνυµάτων αποτελούµενων από δύο σύµβολα. 3. Ο πλεονασµός, ο πλεονασµός εξάρτησης και ο ολικός πλεονασµός της διακριτής πηγής. Απάντηση Για τον υπολογισµό των πιθανοτήτων παραγωγής των χ, ψ και ω καταστρώνουµε και επιλύουµε σύστηµα τεσσάρων εξισώσεων µε τρεις αγνώστους, κατά ανάλογο τρόπο µε την άσκηση αυτοαξιολόγησης 2.8 και το παράδειγµα 2.. Θεωρώντας π p(χ), π 2 p(ψ) και π 3 p(ω), έχουµε () π π P(χ/χ)+π 2 P(χ/ψ)+π 3 P(χ/ω) π (,5)+ π 2 ()+ π 3 (,5), (2)π 2 π P(ψ/χ)+π 2 P(ψ/ψ)+π 3 P(ψ/ω)π ()+π 2 (,5)+π 3 (,25), (3) π 3 π P(ω/χ)+ π 2 P(ω/ψ)+ π 3 P(ω/ω) π (,5)+π 2 (,5)+π 3 (,25), (4)π + π 2 + π 3. Βασίλης Ζορκάδης 25
ΕΑΠ ΠΛΗ22 Από την () λαµβάνουµε,5π,5 π 3 και εποµένως π π 3 και από τη (2),5π 2,25 π 3 και εποµένως 2π 2 π 3. Η (3) δεν µας προσφέρει κάτι. Αντικαθιστώντας τα αποτελέσµατα αυτά στην (4) λαµβάνουµε π 3 +,5 π 3 + π 3, δηλαδή π 3,4 και εποµένως π,4 και π 2,2. 5. Για τον υπολογισµό της εντροπίας της πηγής Markoff εφαρµόζουµε τους τύπους 2.2. και 2.3 του βιβλίου (σελ. 73). Η εντροπία των συµβόλων που εκπέµπεται από κάθε κατάσταση δίνεται κατωτέρω: Η(Κ )-,5log,5--,5log,5, Η(Κ 2 ) - -,5log,5-,5log,5, Η(Κ 3 )-,5log,5-,25log,25-,25log,25,5, Για να υπολογίσουµε την εντροπία της πηγής αρκεί να υπολογίσουµε τη µέση τιµή των ανωτέρω, λαµβάνοντας υπόψη και τη βαρύτητα καθεµιάς κατάστασης (δηλαδή την πιθανότητά της): Η(S),4x +,2x +,4x,5,2 bts/symbol. 6. Πρώτα πρέπει να υπολογίσουµε τις πιθανότητες όλων των δυνατών µηνυµάτων µήκους δύο συµβόλων. Κατόπιν µπορούµε να εφαρµόσουµε τον τύπο 2.4 του βιβλίου (σελ. 73) για τον υπολογισµό της ζητούµενης µέσης ποσότητας πληροφορίας. Για τον υπολογισµό της πιθανότητας του µηνύµατος (χ,χ), η οποία είναι συνδυασµένη πιθανότητα, αρκεί να πολλαπλασιάσουµε την πιθανότητα p(χ) µε την πιθανότητα P(ψ/χ), δηλαδή p(m ) p(χ,χ)π P π P(χ/χ),4x,5,2. Κατά τον ίδιο τρόπο υπολογίζουµε και τις πιθανότητες των υπόλοιπων 8 µηνυµάτων. Έτσι λοιπόν λαµβάνουµε: p(m ) p(χ,χ)π P π P(χ/χ),2, p(m 2 ) p(χ,ψ)π P 2 π P(ψ/χ), p(m 3 ) p(χ,ω)π P 3 π P(ω/χ),2, p(m 4 ) p(ψ,χ)π 2 P 2 π 2 P(χ/ψ), p(m 5 ) p(ψ,ψ)π 2 P 22 π 2 P(ψ/ψ),, p(m 6 ) p(ψ,ω)π 2 P 23 π 2 P(ω/ψ),, p(m 7 ) p(ω,χ)π 3 P 3 π 3 P(χ/ω),2, p(m 8 ) p(ω,ψ)π 3 P 32 π 3 P(ψ/ω),, Βασίλης Ζορκάδης 26
ΕΑΠ ΠΛΗ22 p(m 9 ) p(ω,ω)π 3 P 33 π 3 P(ω/ω),. Εποµένως, Η(M)- p(m )log p(m )- p(m 2 )log p(m 2 )- - p(m 9 )log p(m 9 ) 2,72 bts/message Ισχύει ακόµα(δείτε σελίδα 25 του βιβλίου): Η(Μ)Η(Χ,Υ) Η(Χ)+Η(S) Η χωρίς µνήµη (S)+Η(S),52+,22,72 bts/message 7. Για τον υπολογισµό του πλεονασµού, του πλεονασµού εξάρτησης και του ολικού πλεονασµού (τύποι 2.7 και 2.8 του βιβλίου, σελ. 74), υπολογίζουµε πρώτα την εντροπία πηγής χωρίς µνήµη. Η χωρίς µνήµη (S)-,4log,4-,2log,2-,4log,4,52 bts/symbol Η µέγιστη εντροπία της πηγής χωρίς µνήµη είναι log3,585 bts, αφού έχουµε 3 σύµβολα. Εποµένως, red-(,52/,585),4, red εξ -(,2/,52),2 και red ολ -(,2/,585),243. Άσκηση 6 Μια πηγή Markoff εκπέµπει τα σύµβολα α, β και γ. Η πηγή χαρακτηρίζεται από τον ακόλουθο πίνακα µετάβασης (Μαρκοβιανή αλυσίδα πρώτης τάξης): 4 4 2 P. 4 2 4 2 2 Ζητείται να υπολογιστούν 5. Οι πιθανότητες εκποµπής των συµβόλων α, β και γ, δηλαδή οι p(α), p(β) και p(γ). 6. Η εντροπία της πηγής. 7. Το µέσο πληροφορικό περιεχόµενο µηνυµάτων αποτελούµενων από δύο σύµβολα. 8. Ο πλεονασµός, ο πλεονασµός εξάρτησης και ο ολικός πλεονασµός της διακριτής πηγής. Απάντηση. Για τον υπολογισµό των πιθανοτήτων παραγωγής των α, β και γ καταστρώνουµε και επιλύουµε σύστηµα τεσσάρων εξισώσεων µε τρεις αγνώστους, κατά ανάλο- Βασίλης Ζορκάδης 27
ΕΑΠ ΠΛΗ22 γο τρόπο µε την άσκηση αυτοαξιολόγησης 2.8 και το παράδειγµα 2.. Θεωρώντας π p(α), π 2 p(β) και π 3 p(γ), έχουµε () π π P(α/α)+π 2 P(α/β)+π 3 P(α/γ) π (,25)+ π 2 (,25)+ π 3 (,5), (2) π 2 π P(β/α)+π 2 P(β/β)+π 3 P(β/γ)π (,25)+π 2 (,5)+π 3 (,5), (3) π 3 π P(γ/α)+ π 2 P(γ/β)+ π 3 P(γ/γ) π (,5)+π 2 (,25)+π 3 (), (4)π + π 2 + π 3. Από την (3) λαµβάνουµε: π 3,5π +,25π 2. Αντικαθιστώντας το αποτέλεσµα αυτό στις άλλες εξισώσεις (), (2) και (4) λαµβάνουµε το ακόλουθο σύστηµα 3 εξισώσεων µε 2 αγνώστους: (α) π π,25+ π 2,25+π 3 (,5),25π +,25π 2 +(,5)(,5π +,25π 2 ),5π +,375π 2, δηλαδή,5π,375 π 2, (β) π 2,25π +,5π 2 +(,5)(,5π +,25π 2 ),5π +,625π 2, δηλαδή,375π 2,5π, (γ) π + π 2 +,5π +,25π 2,5π +,25π 2. Από τις (α και γ) ή (β και γ) λαµβάνουµε,5π +,25π 2,25π 2 +,25π 2 2,375π 2 και εποµένως π 2,42, π,36 και π 3,263. 2. Για τον υπολογισµό της εντροπίας της πηγής Markoff εφαρµόζουµε τους τύπους 2.2. και 2.3 του βιβλίου (σελ. 73). Η εντροπία των συµβόλων που εκπέµπεται από κάθε κατάσταση δίνεται κατωτέρω: Η(Κ )-,25log,25-,25log,25-,5log,5,5, Η(Κ 2 ) -,25log,25-,5log,5-,25log,25,5, Η(Κ 3 )-,5log,5-,5log,5-, Για να υπολογίσουµε την εντροπία της πηγής αρκεί να υπολογίσουµε τη µέση τι- µή των ανωτέρω, λαµβάνοντας υπόψη και τη βαρύτητα καθεµιάς κατάστασης (δηλαδή την πιθανότητά της): Η(S),36x,5 +,42x,5 +,263x,3685 bts/symbol. 3. Πρώτα πρέπει να υπολογίσουµε τις πιθανότητες όλων των δυνατών µηνυµάτων µήκους δύο συµβόλων. Κατόπιν µπορούµε να εφαρµόσουµε τον τύπο 2.4 του βιβλίου (σελ. 73) για τον υπολογισµό της ζητούµενης µέσης ποσότητας πληροφορίας. Βασίλης Ζορκάδης 28
ΕΑΠ ΠΛΗ22 Για τον υπολογισµό της πιθανότητας του µηνύµατος (α,β), η οποία είναι συνδυασµένη πιθανότητα, αρκεί να πολλαπλασιάσουµε την πιθανότητα p(α) µε την πιθανότητα P(β/α), δηλαδή p(m 2 )p(α,β)π P 2 π P(β/α),36x,25,75. Κατά τον ίδιο τρόπο υπολογίζουµε και τις πιθανότητες των υπόλοιπων 8 µηνυµάτων: p(m ) p(α,α)π P π P(α/α),75, p(m 3 ) p(α,γ)π P 3 π P(γ/α),58, p(m 4 ) p(β,α)π 2 P 2 π 2 P(α/β),5, p(m 5 ) p(β,β)π 2 P 22 π 2 P(β/β),2, p(m 6 ) p(β,γ)π 2 P 23 π 2 P(γ/β),5, p(m 7 ) p(γ,α)π 3 P 3 π 3 P(α/γ), 35, p(m 8 ) p(γ,β)π 3 P 32 π 3 P(β/γ),35, p(m 9 ) p(γ,γ)π 3 P 33 π 3 P(γ/γ). Εποµένως, Η(M)- p(m )log p(m )- p(m 2 )log p(m 2 )- - p(m 9 )log p(m 9 ) 2,93 bts/message 4. Για τον υπολογισµό του πλεονασµού, του πλεονασµού εξάρτησης και του ολικού πλεονασµού (τύποι 2.7 και 2.8 του βιβλίου, σελ. 74), υπολογίζουµε πρώτα την εντροπία πηγής χωρίς µνήµη. Η χωρίς µνήµη (S)-,36log,36-,42log,42-,263log,263,525+,525+,5,56 bts/symbol Η µέγιστη εντροπία της πηγής χωρίς µνήµη είναι,585 bts, αφού έχουµε 3 σύµβολα. Εποµένως, red-(,56/,585),6, red εξ -(,3685/,56),23 και red ολ -(,3685/,585),37. Άσκηση 7 ίδεται ο πίνακας µετάβασης τριών καταστάσεων στατικής πηγής Markoff ης τάξης, η οποία παράγει τα σύµβολα φ, χ και ψ: U n U n+ S S 2 S 3 S P /2 P 2 /4 P 3 /4 S 2 P 2 /4 P 22 /2 P 23 /4 Βασίλης Ζορκάδης 29
ΕΑΠ ΠΛΗ22 S 3 P 3 P 32 /2 P 33 /2 Συµβολίζουµε µε S, S 2, S 3, τις τρεις καταστάσεις της πηγής, µε U n την κατάσταση που βρίσκεται η πηγή τη χρονική στιγµή n,2,, και µε [P j ] τις στατικές πιθανότητες µετάβασης, για κάθε χρονική στιγµή n, από την κατάσταση S στη κατάσταση S j. ( είτε την κατωτέρω επεξήγηση!) Σχεδιάζουµε τρεις δυαδικούς κώδικες C, C 2, C 3 (ένα για κάθε µία από τις καταστάσεις S, S 2 και S 3 ), αποτελούµενους από τρεις κωδικές λέξεις ο καθένας, όσες και τα σύµβολα της πηγής (δείτε και πάλι την κατωτέρω επεξήγηση). Έτσι, για κάθε σύµβολο της πηγής έχουµε σε κάθε έναν από τους τρεις κώδικες ενδεχοµένως διαφορετική κωδική λέξη, η οποία και χρησιµοποιείται σύµφωνα µε την εκάστοτε κατάσταση της πηγής. Με βάση αυτή τη µέθοδο κωδικοποίησης της στατικής πηγής Markoff, υιοθετούµε τις ακόλουθες αρχές: Για κάθε χρονική στιγµή n και παρoύσα κατάσταση U n S, επιλέγουµε το κώδικα C που αντιστοιχεί στη κατάσταση S, Στέλνουµε την κωδική λέξη c j του κώδικα C που αντιστοιχεί στο j, εκτελώντας συγχρόνως µετάβαση στην κατάσταση U n+ S j, Επαναλαµβάνουµε τα παραπάνω βήµατα για το επόµενο σύµβολο, κοκ. Ζητούνται τα ακόλουθα: α) Σχεδιάστε κατά Huffman τους τρεις δυαδικούς κώδικες C, C 2, C 3, και υπολογίστε το µέσο µήκος της κωδικής λέξης του επόµενου συµβόλου, υποθέτοντας ότι η κατάσταση προέλευσης είναι U n S,,2,3. β) Ποιος είναι ο µέσος αριθµός δυαδικών ψηφίων κωδικοποίησης για κάθε σύµβολο της πηγής? γ) Πώς σχετίζεται το τελευταίο µε την εντροπία Η(U) της πηγής (αλυσίδας) Markoff? δ) Ο πλεονασµός, ο πλεονασµός εξάρτησης και ο ολικός πλεονασµός της διακριτής πηγής. (Επεξήγηση: Ο µηχανισµός εναλλαγής των τριών καταστάσεων εικονίζεται στο ακόλουθο διάγραµµα. Σε κάθε χρονική στιγµή n, η µετάβαση από µία κατάσταση U n S στην επόµενη U n+ S j συνοδεύεται από την εκποµπή ενός εκ των τριών συµβόλων, φ, χ, ψ. / /2 S φ /4 /4 S 2 χ /4 /2 S 3 ψ /2 Σύµφωνα και µε τον πίνακα µετάβασης, όταν είναι γνωστή η κατάσταση προέλευσης U n S, τα τρία σύµβολα φ, χ, ψ, που εκπέµπονται εν δυνάµει, εκπέµπονται µε αντί- Βασίλης Ζορκάδης 3
ΕΑΠ ΠΛΗ22 στοιχες πιθανότητες P j, j, 2, 3, και οδηγούν την επόµενη χρονική στιγµή n+ στην αντίστοιχη κατάσταση προορισµού U n+ S j. Παρατηρείστε ότι, ανεξάρτητα από τη κατάσταση προέλευσης U n S, το σύµβολο (φ ή χ ή ψ) που εκπέµπεται κατά τη µετάβαση, ορίζεται µόνον από την κατάσταση προορισµού U n+ S j. Οι πιθανότητες µετάβασης [P j ] παίζουν σηµαντικό ρόλο στον τρόπο µε τον οποίο ο µηχανισµός εναλλαγής των καταστάσεων αντανακλάται στη σειρά συµβόλων που παράγεται από την πηγή Markoff. Παρατηρείστε στο συγκεκριµένο παράδειγµα ότι επειδή η πιθανότητα µετάβασης P 3 Pr [S /S 3 ] από την κατάσταση S 3, στην κατάσταση S είναι µηδενική, το σύµβολο φ δεν εκπέµπεται ποτέ µετά το σύµβολο ψ. Άρα οι πιθανότητες µετάβασης [P j ] παίζουν σηµαντικό ρόλο στον τρόπο µε τον οποίο ο µηχανισµός εναλλαγής των καταστάσεων της πηγής Markoff πρέπει να κωδικοποιηθεί για να επιτύχουµε βέλτιστη συµπύκνωση/συµπίεση. Για να επιτύχουµε βέλτιστη επίδοση, δηλαδή µεγιστοποίηση του επιπέδου συµπίεσης της πηγής, σχεδιάζουµε κατά κανόνα τρεις δυαδικούς κώδικες C, C 2, C 3 (ένα για κάθε µία από τις καταστάσεις S, S 2 και S 3 ), έτσι ώστε ο συνολικός κώδικας να παράγει, αντίστοιχα µε τη σειρά καταστάσεων της πηγής, δηλαδή αντίστοιχα µε τη σειρά των παραγοµένων συµβόλων φ, χ, ψ, µια σειρά δυαδικών ψηφίων. Σύµφωνα µε τα παραπάνω, ο κώδικας C [c, c 2, c 3 ] ορίζεται από τις πιθανότητες µετάβασης [P j ] της κατάστασης S, ο κώδικας C 2 [c 2, c 22, c 23 ] από τις πιθανότητες µετάβασης [P 2j ] της κατάστασης S 2, και ο κώδικας C 3 [c 3, c 32, c 33 ] από τις πιθανότητες µετάβασης [P 3j ] της κατάστασης S 3. Παρατηρείστε ότι τα σύµβολα φ, χ, ψ, κωδικοποιούνται ενδεχοµένως µε διαφορετικές κωδικές λέξεις ανάλογα µε την κατάσταση προέλευσης S, S 2, S 3.) Απάντηση: (α) Για λόγους ευκολίας, χρησιµοποιούµε το συµβολισµό του Τόµου Α, του βιβλίου Θεωρίας της Πληροφορίας & Κωδικοποίησης, σελ. 69-76. Από τον δεδοµένο πίνακα µετάβασης της στατικής πηγής U n U n+ S S 2 S 3 S P /2 P 2 /4 P 3 /4 S 2 P 2 /4 P 22 /2 P 23 /4 S 3 P 3 P 32 /2 P 33 /2 Markoff ης τάξης, η οποία εκπέµπει τα τρία σύµβολα, φ, χ και ψ, µπορούµε να υπολογίσουµε τις [p, p 2, p 3 ], οι οποίες συµβολίζουν τις πιθανότητες των τριών καταστάσεων της πηγής, S, S 2 και S 3. Βασίλης Ζορκάδης 3
ΕΑΠ ΠΛΗ22 Από την περιγραφή της στατικής πηγής Markoff ης τάξης, γνωρίζουµε ότι κάθε µετάβαση από µία κατάσταση U n στην επόµενη U n+, συνοδεύεται από την εκποµπή ε- νός εκ των τριών συµβόλων, φ, χ, ψ. Η παρoούσα κατάσταση U n S συνδέεται µε την εκποµπή του τελευταίου παραχθέντος συµβόλου Χ n, ενώ η επόµενη κατάσταση U n+ S j χαρακτηρίζεται από την εκποµπή του εποµένου συµβόλου Χ n+. Οι πιθανότητες εκποµπής των τριών συµβόλων εξαρτώνται από τη κατάσταση που βρίσκεται η πηγή σε δεδοµένη χρονική στιγµή n. εδοµένου ότι η πηγή Markoff που µας δίνεται είναι ης τάξης, καθώς επίσης και στατική, ένας τρόπος κωδικοποίησης που αποδεικνύεται αποτελεσµατικός είναι να σχεδιασθούν τρεις διαφορετικοί δυαδικοί κώδικες C, C 2, και C 3, ένας για κάθε µία από τις καταστάσεις S, S 2 και S 3. Με βάση τις πιθανότητες µετάβασης [P j ], και εφαρµόζοντας τον αλγόριθµο Huffman για κάθε προηγούµενη (η παρούσα) κατάσταση U n S (S, S 2, S 3 ) χωριστά, έχουµε: S Κώδικας Huffman C l j c P ½ ½ () c 2 P 2 ¼ () ½ () 2 c 3 P 3 ¼ () 2 S 2 Κώδικας Huffman C 2 l j c 2 P 2 ¼ () ½ () 2 c 22 P 22 ½ ½ () c 23 P 23 ¼ () 2 S 3 Κώδικας Huffman C 3 l j c 3 P 3 -- -- c 32 P 32 ½ () c 33 P 33 ½ () Άρα, το κατά Huffman µέσο µήκος της κωδικής λέξης του επόµενου συµβόλου, για τις τρεις καταστάσεις S, S 2, και S 3, υποθέτοντας ότι η προηγούµενη κατάσταση είναι δεδοµένη, είναι:,3,5,l E[l j / U n S ] j l P j,5 2 δυαδικά ψηφία για κάθε σύµβολο. j,, 3 β) Ο µέσος αριθµός δυαδικών ψηφίων κωδικοποίησης για κάθε σύµβολο της πηγής είναι ο µέσος όρος L του L, µε βάση τις στατικές πιθανότητες [p, p 2, p 3 ], των τριών καταστάσεων S3, S 2, S 3 : L E[L ] pe[l j / U n S ]. Οι στατικές πιθανότητες [p, p 2, p 3 ], υπολογίζονται µε βάση τη σχέση (σελ. 7 του βιβλίου): Βασίλης Ζορκάδης 32