INTRODUCERE ÎN COMPRESIA DATELOR

INTRODUCERE ÎN COMPRESIA DATELOR Compresia datelor se ocupă cu reprezetarea iformaţiei îtr-o formă compactă. Acest lucru se realizează pri idetificarea şi extragerea redudaţei di date. Datele pot fi caractere ditr-u fişier text, umere ce reprezită eşatioae ale uor semale vocale sau de imagie etc. Exemple de compresie [2]: - codul Morse, care alocă literelor ce apar mai des î cuvite mai puţie seme (liie, puct) şi celor mai rare, mai multe seme; - alfabetul Braille, care foloseşte tablouri de pucte de dimesiui 2x3, î care puctele sut distribuite î fucţie de probabilităţile de apariţie a literelor î cuvite. Î aceste exemple de compresie s-a folosit structura statistică a cuvitelor, dar mai există şi alte caracteristici ale semalelor ce pot fi folosite î scopul realizării compresiei. Astfel, î timpul vorbirii, costrucţia fizică a cavităţii bucale dictează tipul de suete ce se produc, adică mecaica producerii vorbirii impue structura vorbirii, pri urmare, î loc de a trasmite vorbirea îsăşi, s-ar putea trasmite iformaţii cu privire la coformaţia cavităţii bucale, care ar putea fi folosite la recepţie petru a sitetiza vorbirea. Î acest ses, o catitate adecvată de iformaţie privid coformaţia cavităţii bucale poate fi reprezetată mai compact decât umerele ce reprezită eşatioaele semalului vocal. 1

Î compresie mai pot fi folosite caracteristicile utilizatorului datelor. De multe ori, câd se trasmit semale soore sau vizuale, acestea sut destiate percepţiei umae, dar oameii au posibilităţi de percepţie limitate. De exemplu, oameii u pot auzi frecveţe foarte îalte, pe care, îsă, uele aimale le pot percepe. Aşadar, u are rost a trasmite iformaţii ce u pot fi percepute, astfel îcât iformaţiile irelevate u mai trebuie trasmise. Cu toate că î ultimul timp capacitatea de stocare şi trasmitere a iformaţiei a crescut mult (de exemplu compact discul şi fibra optică), aceasta u răspude pe depli ceriţelor practice, motiv care justifică ecesitatea compresiei fişierelor de dimesiui mari ce trebuie stocate sau trasmise. Î cazul stocării, petru a creşte volumul de date ce poate fi stocat, cum este cazul fişierelor grafice, se folosesc metode care comprimă datele la stocare şi le decomprimă la redare. Î cazul trasmiterii, lăţimea de badă a semalelor digitale este foarte mare, î comparaţie cu a caalelor dispoibile, astfel îcât compresia datelor la emiţător este absolut ecesară petru a putea folosi caalul. La recepţie are loc operaţia de decompresie. De exemplu, semalul TV de îaltă defiiţie, HDTV, ecesită petru trasmiterea fără compresie aproximativ 884 Mbiţi/secudă. Petru a trasmite această catitate mare de iformaţie, ar fi ecesar u caal cu bada de cca. 220 MHz. Folosid compresia, este ecesar a trasmite mai puţi de 20 Mbiţi /sec, care, împreuă cu semalul audio, pot fi trasmişi îtr-o badă de 6 MHz. Tehici de compresie şi decompresie Tehicile sau algoritmii de compresie şi de decompresie cuprid doi algoritmi: uul care furizează reprezetarea X pe mai puţii biţi a 2 c

semalului de itrare X şi algoritmul de recostrucţie care operează asupra lui X c, petru a produce semalul recostruit ˆX. Schemele de compresie se împart î două clase: - compresie fără pierderi, câd X = Xˆ ; - compresie cu pierderi, câd X Xˆ. Î acest caz se realizează o compresie mai mare. Compresia fără pierderi După cum arată umele, aceasta u implică pierderea de iformaţie, datele iiţiale fiid refăcute exact di cele compresate. Această compresie se foloseşte de obicei petru semale discrete ca text, date geerate de calculator, uele tipuri de iformaţie video, deoarece refacerea exactă este eseţială î cazul textelor (sesul comuicării), uor imagii (imagistică petru diagostic), umere (comuicări bacare) etc. Compresia cu pierderi Compresia cu pierderi coduce la o rată de compresie superioară cu preţul pierderii de iformaţie, datele care au fost supuse compresiei eputâd fi refăcute exact. Această compresie este mai eficietă câd se aplică semalelor imagistice sau soore, caz î care pierderea de iformaţie di afara percepţiei vizuale sau auditive umae poate fi tolerată. Multe tehici de compresie cu pierderi pot fi ajustate la diferite ivele de calitate. Evidet, creşterea acurateţei semalului refăcut se obţie cu preţul uei compresii mai reduse. Volumul compresiei depide atât de mărimea redudaţei sursei, cât şi de eficieţa reducerii acesteia. 3

Evaluarea compresiei U algoritm de compresie poate fi evaluat î fucţie de: - ecesarul de memorie petru implemetarea algoritmului; - viteza algoritmului pe o aumită maşiă; - raportul de compresie; - calitatea recostrucţiei. De obicei, ultimele două criterii sut eseţiale î adoptarea algoritmului de compresie. Uzual, performaţele compresiei pot fi exprimate pri raportul de compresie şi rata de compresie. Raportul de compresie este raportul ditre umărul de biţi ecesar reprezetării datelor îaite şi după compresie. Rata de compresie reprezită umărul mediu de biţi ecesar reprezetării uui eşatio. Î compresia cu pierderi, versiuea recostruită diferă de variata origială şi, petru a determia eficieţa algoritmului de compresie, trebuie să existe mijloace de apreciere a difereţei ditre semalul origial şi cel recostruit. Difereţa ditre semalul origial şi cel recostruit se umeşte distorsiue. Tehicile de compresie cu pierderi se folosesc de obicei petru compresia semalelor aalogice, care se mai umesc forme de udă, motiv petru care compresia semalelor aalogice mai poartă deumirea de codarea formelor de udă. Î cazul codării semalelor video şi soore destiatarul este, de obicei, omul, al cărui răspus este dificil de apreciat, motiv petru care se folosesc măsuri aproximative de determiare a calităţii recostrucţiei. Alţi termei folosiţi î aprecierea difereţei ditre semalul origial şi cel refăcut este fidelitatea şi calitatea. Acestea sut cu atât 4

mai ridicate, cu cât difereţa ditre versiuea recostruită şi cea origială a sursei este mai mică. Modelare şi codare Ceriţele recostrucţiei sut cele ce impu dacă compresia este cu sau fără pierderi, schema exactă depizâd de u umăr de factori. Uii di cei mai importaţi sut impuşi de caracteristicile datelor destiate compresiei, de exemplu, o tehică de compresie poate fi eficietă petru compresia uui text, dar total ieficietă petru imagii. Fiecare aplicaţie prezită particularităţi specifice. Dezvoltarea algoritmilor de compresie petru o varietate de date cupride două faze: - prima fază se referă de obicei la modelare, câd se îcearcă extragerea iformaţiei despre orice redudaţă di date şi descrierea acesteia sub forma uui model; - a doua fază este codarea. Difereţa ditre date şi model se umeşte secveţă reziduală. Î cotiuare sut prezetate câteva exemple de modelare a datelor. Exemplul 1. Fie secveţa de eşatioae { x } = {9,11,11,11,14,13,15,17,16,17,20,21}, petru = 1,12. Dacă se doreşte a se trasmite sau stoca reprezetarea biară a acestor umere, ar fi ecesari 5 biţi/eşatio. U model sugerat de reprezetarea eşatioaelor secveţei, care ar ecesita mai puţii biţi, ar putea fi o dreaptă, descrisă de ecuaţia: xˆ = + 8; = 1, 2, 5

Î Fig. 1 s-au reprezetat eşatioaele secveţei. Fig. 1 Difereţa ditre date şi model, adică eroarea reziduală, este dată de secveţa: e ˆ = x x = {0,1,0, 1, 1, 1,0,1, 1, 1,1,1} Secveţa reziduală coţie umai trei valori, umerele { 1,0,1}, care pot fi codate cu 2 biţi, de exemplu: 1 00 0 01 1 10 şi, pri urmare, se obţie compresia pri trasmiterea sau stocarea parametrilor modelului şi secveţa reziduală. 6

Exemplul 2. Fie secveţa x = {27, 28, 29, 28, 26, 27, 29, 28, 30, 32, 34, 36, 38}, cu reprezetarea di Fig. 2. Fig. 2 Se observă că secveţa u urmează o lege simplă, ca î cazul precedet, î schimb, fiecare valoare este apropiată de precedeta. Se presupue că se trasmite prima valoare, apoi se trasmite difereţa faţă de valoarea precedetă. Astfel, secveţa trasmisă ar fi: 1, 1, -1, -2, 1, 2, -1, 2, 2, 2, 2, 2. Petru trasmiterea acestei secveţe sut ecesare 4 umere {-1, 1, -2, 2}, care pot fi codate cu 2 biţi, după cum urmează: 1 00 1 01 2 10 2 11 7

La fel ca î cazul precedet, umărul valorilor disticte a fost redus, fiecare umăr fiid reprezetat pe u umăr mai mic de biţi, efectuâdu-se astfel compresia. Decodorul adaugă fiecare valoare recepţioată la valoarea precedetă decodată petru a obţie secveţa recostruită. Tehicile care folosesc valorile trecute ale secveţei petru a estima valoarea curetă şi apoi codează eroarea de predicţie sau reziduală se umesc predictive. Î cazul redudaţei de tip statistic, sursele geerează mesaje cu diferite probabilităţi, caz î care este avatajos a asiga coduri biare de lugimi diferite, diferitelor simboluri. Exemplul 3. Fie secveţa de mesaje m a r e a b/ e b/ t a a a r e b/ t a a a a r e b/ m a r e, tipică petru toate secveţele geerate de sursă. Se observă că secveţa este formată di şase mesaje diferite. Petru a reprezeta şase mesaje, sut ecesari 3 biţi/mesaj. Î loc de a proceda astfel, se poate folosi codul di Tabelul 1. Tabelul 1 a 1 e 000 r 001 b/ 010 m 0110 t 0111 Se observă că s-a atribuit cuvâtul cu u sigur bit mesajului care apare cel mai des si cel mai lug cuvât mesajului care apare cel mai rar. Cu acest cod rezultă 75 biţi petru îtreaga secveţă. Cum sut 8

27 mesaje î secveţă, rezultă că sut atribuiţi 2,7 biţi/mesaj. Aceasta îseamă u raport de compresie 1,08. Î cazul textelor, împreuă cu redudaţa statistică, există redudaţă î forma cuvitelor care se repetă mai des. Avatajul acestui tip de redudaţa costă î posibilitatea costruirii uei liste de cuvite şi apoi să se reprezite poziţia lor î listă. Acest tip de compresie se umeşte tehică de dicţioar. Adesea, structura sau redudaţa datelor devie mai evidetă, dacă se cosideră grupuri de mesaje. Prelimiarii matematice petru compresia fară pierderi Shao a defiit iformaţia ataşată uui eveimet A, care se produce cu probabilitatea pa, ( ) ca fiid [87] ia ( ) = log x pa ( ) (1) Cosideraţii asupra bazei logaritmului vor fi făcute ulterior. Cu alte cuvite, cu cât probabilitatea uui eveimet este mai mică, cu atât iformaţia adusă de acesta este mai mare, şi ivers. Caracterul subiectiv al uui eveimet este greu măsurabil, motiv petru care iformaţia asociată uui eveimet va fi măsurată matematic cu relaţia (1), ea fiid eliberată de caracterul său sematic. O altă proprietate a acestei defiiţii matematice a iformaţiei este că iformaţia obţiută la producerea a doua eveimete idepedete este suma iformaţiilor obţiute la producerea eveimetelor idividuale. iab ( ) = ia ( ) + ib ( ) (2) Uitatea de măsură a iformaţiei depide de baza logaritmului. Petru baza 2 uitatea de măsură se umeşte bit; baza e uitatea de măsură se umeşte at; 9

baza 10 uitatea de măsură se umeşte hartley. De obicei se foloseşte baza 2, care u este dispoibilă î calculator. Petru a folosi baza e cu care operează calculatoarele, se ţie cot că l x log 2 x =. l 2 Dacă se dispue de o mulţime de eveimete idepedete A i, care reprezită mulţimile realizărilor uui eveimet S, astfel îcât A i = S, (3) atuci iformaţia medie asociată eveimetului este dată de H = p( A) i( A) = p( A)log p( A) (4) i i i i x i i care se umeşte etropia asociată experimetului. Shao a arătat că dacă experimetul este o sursă care furizează mesajele A i ditr-o mulţime A, atuci etropia este o măsură a umărului mediu de simboluri biare ecesare codării ieşirii sursei. De asemeea, Shao a arătat că u algoritm de compresie fără pierderi optim poate coda mesajele sursei cu u umăr mediu de biţi, cel puţi egal cu etropia sursei [87]. Mulţimea mesajelor, umite şi mesaje, defieşte alfabetul sursei. Petru o sursă S cu alfabetul A = {1, 2, m} care geerează secveţa { x1, x2,, x }, etropia este [1], [34]: 1 H( S) = lim G (5) ude m m m G =... p( x = i, x = i,..., x = i )log p( x = i,.., x = i ) 1 1 2 2 1 1 i = 1 i = 1 i = 1 1 2 10

Dacă fiecare elemet di secveţă este idepedet şi idetic distribuit, (i.i.d), rezultă atuci m ( 1 1)log ( 1 1) (6) i = 1 G = p x = i p x = i 1 Modelul statistic i.i.d. îseamă că variabilele aleatoare sut idepedete şi sut caracterizate de aceeaşi lege de repartiţie. Î acest caz etropia devie: m 1 1 1 1 i i (7) i = 1 i = 1 HS ( ) = px ( = i)log px ( = i) = px ( )log px ( ) 1 1 Petru multe surse relaţiile (5) şi (7) u sut idetice. Petru a face deosebire ître ele, catitatea calculată cu (7) se umeşte etropia de ordiul îtâi a sursei, iar (5) etropia sursei. Î geeral, u este posibil a cuoaşte etropia uei surse fizice, aceasta trebuid estimată. Estimarea etropiei depide de presupuerile asupra statisticii sursei. Exemplul 4. Fie secveţa de eşatioae: {1, 2, 3, 2, 3, 4, 5, 4, 5, 6, 7, 8, 9, 8, 9, 10} Petru această secveţă probabilităţile de apariţie petru fiecare umăr sut 1 p(1) = p(2) = p(7) = p(10) = 16 2 p(2) = p(3) = p(4) = p(5) = p(8) = p(9) = 16 Presupuâd secveţa i.i.d., etropia sa este aceeaşi cu etropia de ordiul 1, dată de relaţia (7). 11

16 H( S) = pi ( )log pi ( ) = 3,25 biţi 1 Aceasta îseamă că cea mai buă schemă de codare petru această secveţă o poate coda la 3,25 biţi/mesaj. Dacă se presupue că există corelaţie ître mesajele sursei şi aceasta se îlătură, reţiâd umai difereţa ître valorile eşatioaelor vecie, se ajuge la secveţa reziduală: {1, 1, 1, -1, 1, 1, 1,-1, 1, 1, 1, 1, 1, 1, 1} Această secveţă este costituită umai di două valori 1 şi 1, cu probabilităţile: 13 3 p (1) = şi p( 1) = 16 16 Î acest caz etropia este 0,7 biţi /mesaj. Evidet, cuoscâd umai această secveţă u se va putea recostrui origialul. Receptorul trebuie să cuoască procesul pri care a fost geerată secveţa reziduală di cea origială. Procesul depide de presupuerile asupra redudaţei sau structurii secveţei. Aceste presupueri determiă modelul petru secveţă. Î exemplul cosiderat modelul este x = x + r 1 ude x este al -lea elemet al secveţei origiale şi r, al -lea elemet al secveţei reziduale. Acest model este static, deoarece rămâe ivariat, oricare ar fi. Modelul care se modifică odată cu se umeşte adaptiv. Exemplul 5. Fie următoarea secveţă: 1, 2, 1, 2, 3, 3, 3, 3, 1, 2, 3, 3, 3, 3, 1, 2, 3, 3, 1, 2. 12

Evidet, î aceste date există o aumită redudaţă. Dacă se cosideră fiecare mesaj separat, este dificil de extras redudaţa di date. Petru acest caz, 1 1 p(1) = p(2) = ; p (3) = ; 4 2 rezultă H( S ) =1,5 biţi/mesaj. Secveţa coţie 20 de mesaje, deci î total sut ecesari 1,5 x 20 = 30 de biţi petru a reprezeta secveţa. Î cotiuare se cosideră secveţa observată î blocuri de lugime 2. Astfel, se observă că sut umai două mesaje 12 şi 33 cu probabilităţile: 1 1 p (12) = ; p (33) = ; 2 2 rezultâd H( S ) =1 bit /mesaj Cum î secveţă sut 10 astfel de grupe de două mesaje, rezultă u ecesar de 10 biţi petru a reprezeta îtreaga secveţă. Teoria spue că îtotdeaua se poate extrage redudaţa di date, pri cosiderarea blocurilor de date di ce î ce mai mari, dar î practică există limitări la această abordare. Petru a evita aceste limitări, se va îcerca obţierea uui model cât mai exact petru date şi să se codeze sursa coform modelului. Modele U model bu petru date coduce la algoritmi de compresie eficieţi. Petru a dezvolta algoritmi care efectuează operaţii matematice asupra datelor, acestea trebuie modelate matematic. 13

Modele fizice Dacă se cuoaşte ceva despre mecaismul de geerare a datelor, se poate folosi această iformaţie petru costruirea modelului. De exemplu, î aplicaţiile referitoare la vorbire, cuoaşterea mecaismului de producere a vorbirii poate fi folosit la costruirea uui model matematic petru procesul vorbirii eşatioate. Modele probabilistice Cel mai simplu model statistic petru sursă este de a presupue că fiecare mesaj furizat de sursă este idepedet de celelalte şi fiecare se produce cu aceeaşi probabilitate. Acesta este umit model de igoraţă si ar putea fi util câd u se cuoaşte imic despre sursă. Următorul pas î creşterea complexităţii modelului este de a păstra presupuerea asupra idepedeţei, dar de a îlătura presupuerea de probabilitate egală petru mesaje. Î acest caz se alocă fiecărui mesaj o probabilitate î fucţie de frecveţa de furizare a mesajului respectiv. Petru o sursă care geerează mesaje ditr-u alfabet S = { s1,..., s M } se poate folosi modelul de probabilitate P = { p( s1), p( s2),..., p( s M )} Cu acest model se poate calcula etropia sursei cu relaţia (7) şi pot fi costruite coduri eficiete petru reprezetarea mesajelor di S, adică se poate folosi u umăr mediu miim de biţi petru fiecare mesaj. Dacă se reuţă la presupuerea de idepedeţă, se pue problema găsirii uui mod de a descrie depedeţa datelor, aşa cum este î cazul modelelor Markov. 14

Modele Markov Uul ditre cele mai răspâdite moduri de reprezetare a depedeţei ître date este folosirea modelului Markov [49]. Petru modelarea datelor, î compresia fără pierderi se foloseşte u model particular umit laţ Markov discret. Fie { x } secveţa observată. Aceasta secveţă se zice că este u model Markov de ordi k, dacă: px ( x,... x,..) = px ( x,... x ), (8) 1 k 1 k adică simbolul x depide umai de ultimele k mesaje x,..., 1 x k Mulţimile { xi 1,..., xi k}, i =, 1,..., reprezită stările procesului. Dacă mărimea alfabetului sursei este l, umărul de stări este. k l. Cel mai des folosit model Markov este cel de ordiul 1, petru care: px ( x, x...) = px ( x ) (9) 1 2 1 Relaţiile (8) şi (9) idică existeţa depedeţei ître eşatioae, dar modul î care a fost itrodusă această depedeţă u este explicit. Se pot dezvolta diferite modele de ordiul 1, î fucţie de presupuerile asupra modului de itroducere a depedeţei ître eşatioae. Dacă se presupue că depedeţa a fost itrodusă liiar, secveţa de date ar putea fi văzută ca ieşirea uui filtru liiar excitat cu zgomot alb. Ieşirea acestui filtru este dată de ecuaţia cu difereţe [36]: x = ρx 1 + w (10) ude w este zgomot alb. Acest model se foloseşte frecvet la dezvoltarea algoritmilor petru vorbire şi imagie. Folosirea modelului Markov u ecesită prezumţia de liiaritate. De exemplu, fie o imagie biară, care are umai două feluri de pixeli - albi şi egri. Se ştie că apariţia uui pixel alb la observarea următoare 15

depide î oarecare măsură dacă pixelul curet este alb sau egru. Pri urmare, se poate modela succesiuea de pixeli cu u laţ Markov. Defiid stările S a şi S corespuzătoare cazului câd pixelul curet este alb, respectiv egru, probabilităţile de traziţie pa ( / ) şi p ( / a ) şi probabilităţile fiecărei stări ps ( a ) şi ps ( ), modelul Markov poate fi reprezetat ca î Fig. 3. i= 1 Fig. 3 pa ( / a) = 1 p ( / a) k Î geeral, etropia uui proces cu M = l stări fiite, S i, este valoarea medie a etropiei fiecărei stări: M k H = p( Si) H( Si); M = l (11) l H( S ) = p( S S )log p( S S ); (12) i j i j i j= 1 ude ps ( S) este probabilitatea de trecere di starea i î starea j. j i Folosirea modelelor Markov î compresia textelor Modelele Markov sut utile î compresia textelor, deoarece probabiltatea de apariţie a uei litere este iflueţată de precedetele. Fie cuvâtul oritorig. Se presupue că s-a procesat deja oritori şi 16

urmează a se coda următoarea literă. Dacă u se ţie seama de cotext şi se tratează litera ca o surpriză, probabilitatea să apară litera g este relativ scăzută. Dacă se foloseşte u model Markov de ordiul Ι, probabilitatea să urmeze g creşte cosiderabil. Cu creşterea ordiului modelului Markov (de la la i, la ri ş.a.m.d.) probabilitatea literei g devie mai mare, ceea ce coduce la o etropie scăzută. Model de surse compuse Î multe aplicaţii u este potrivit a se folosi u sigur model petru a descrie sursa, caz î care se poate defii o sursă compusă, care poate fi văzută ca o combiaţie de diverse surse, di care ua este activă la u momet dat. Fiecare di acestea este descrisă de u model propriu. 17