GMS L7 7 Multimediálny obsah a jeho získavanie Multimédiá predstavujú integráciu textu, obrazu, grafiky, zvuku, animácií a videa za účelom sprostredkovania informácií. Pri prehrávaní multimediálnej aplikácie na počítači musí byť používateľovi umožnené, aby sa zúčastnil tohoto sprostredkovávania interaktívne tzn., aby mal možnosť zasiahnuť do priebehu multimediálneho programu. Interaktivita je jednou z najdôležitejších vlastností multimediálnej aplikácie. Tento pojem vyjadruje skutočnosť, že používateľ musí mať možnosť zasahovať do behu programu a ovplyvňovať dianie na obrazovke podľa svojich predstáv. To robí multimediálne aplikácie podobné knihe, ktorú môžeme otvoriť na ľubovoľnej strane, listovať v nej dopredu i dozadu alebo si vyhľadať inú kapitolu. 7.1 Text Text je najstarším a najjednoduchším prostriedkom sprostredkovávania informácie. Písomná podoba textu sa stala a v súčasnej dobe stále je základnou formou záznamu informácie. Podľa odhadov je dnes 80-90% všetkých informácií uložených ako voľný text v rôznych prirodzených jazykoch. Zmeny technológie práce s textom vždy charakterizovali určité prelomové obdobie vývoja ľudstva. K záznamu písanej informácie slúžili rôzne materiály, od hlinených tabuliek, cez pergamen až po papier, ktorý je zatiaľ hlavným nositeľom písanej informácie aj v súčasnosti. Taktiež aj spôsob záznamu informácie prekonal v histórii svoj vývoj, od tlačenia, rytia, a písania rôznymi materiálmi až po moderné tlačové technológie. Vznik a rozvoj výpočtovej techniky znamená pre efektívne využitie informácii ďalší prelom. Po krátkom období, keď počítače slúžili iba na výpočty, sa veľmi rýchlo rozšírilo využívanie počítačov aj pre spracovanie textových informácii. Dnes je to naopak, objem vlastných výpočtov je v porovnaní s objemom práce s textovými informáciami výrazne nižší. Digitalizácia informácie zmazala z hľadiska technológie spracovania, uchovania a prenosu informácie rozdiel medzi textovou, zvukovou a obrazovou informáciou. Umožnila tak automatizáciu spracovania všetkých typov dát a bola nutným predpokladom vzniku novej informačnej kategórie, ktorú nazývame multimédiá. 1
V multimediálnej aplikácii hrá text veľmi významnú úlohu (predstavuje viac ako 50% údajov aplikácie). V súčasnosti asi najpoužívanejším nástrojom na prípravu a spracovanie textovej informácie je počítač. Poznáme tri základné druhy textu: Lineárny text - tiež sa nazýva bežný text. Pozostáva zo skupiny znakov, ktoré sú kódované v rôznych formátoch. Môže byť logicky členený na slová, vety a odstavce a pod. Hypertext - je charakteristický tým, že bežný text je doplnený systémom odkazov slúžiacich na prístup k doplňujúcim informáciám. Tieto väzby sa definujú pri príprave dokumentu (sú pevné a nedajú sa neskôr meniť). Tento typ textovej informácie je vhodný pre použitie pri výučbových a prezentačných aplikáciách. Fulltext - je založený na myšlienke nájsť vybrané slovo či slovné spojenie obsiahnuté v textoch všetkých dostupných dokumentov. Nejde pritom o sekvenčné hľadanie zadaného reťazca v celom objeme dát, ale o premyslený systém indexovania textu. Lineárny alebo bežný text pozostáva zo skupiny znakov, ktoré sú kódované v rôznych formátoch. Táto skupina znakov môže byť ďalej logicky členená na slová, vety, odstavce čo je dôležité pre používateľa multimediálnej aplikácie, aby získal obsahovo a jazykovo správny, zrozumiteľný a prehľadný text. V multimediálnej aplikácii hrá text významnú rolu, predstavuje priemerne viac ako 50 % dát použitých v aplikácii. Podiel a význam textu závisí od typu aplikácie. Pri tvorbe aplikácie je dôležité rozoznať dve rozdielne úlohy textu: 1. Obsahová úloha textu text odovzdáva užívateľovi aplikácie určitý obsah dát, takže je potrebné zabezpečiť nielen jeho obsahovú a jazykovú správnosť ale takisto zrozumiteľnosť a prehľadnosť. 2. Komunikačná úloha textu prostredníctvom textu môže používateľ komunikovať s aplikáciou, či už formou príkazov, výberom volieb z menu alebo čítaním rôznych upozornení, poznámok či doporučení ako ďalej pokračovať v komunikácii. Základnou charakteristikou hypertextu je skutočnosť, že bežný text je doplnený systémom odkazov, ktoré slúžia na ďalšie rozvinutie pojmov a prístupu k doplňujúcim informáciám. Hypertextové väzby sa definujú pri príprave dokumentu. Tieto väzby sú pevné, t.j. používateľ ich nemôže meniť. Preto sú modernejšie systémy pre určité zmiernenie nevýhody pevnej
GMS L7 štruktúry pripravených väzieb doplnené možnosťou definovať tzv. používateľské záložky. Tie potom umožňujú rýchlo sa presunúť na často využívané miesto v texte. Ďalšou doplňujúcou funkciou býva zvyčajne jednoduché vyhľadávanie ľubovoľného textového reťazca. Hypertextové systémy sú vhodné predovšetkým pre výukové, informačné, konzultačné a prezentačné programy. Môžu byť určené ako laickým používateľom, tak aj odborníkom. V oboch prípadoch hypertextové väzby postupne umožňujú prenikať stále hlbšie do danej problematiky. Filozofia a technológia riešenia hypertextu dovoľuje vytvoriť ľubovoľne štruktúrovaný materiál a zároveň každá ďalšia úroveň hypertextových odkazov prináša podrobnejšie a špeciálnejšie informácie. Určitou nevýhodou je skutočnosť, že pri práci s takýmto dokumentom môže dôjsť k strate orientácie v texte. Preto by mali byť k dispozícii funkcie zobrazenia prehľadu členenia dokumentu a systém by mal byť doplnený ďalšími funkciami umožňujúcimi ľahšiu orientáciu v dokumente. Na rozdiel od hypertextových systémov je fulltext založený na myšlienke nájsť ľubovoľné slovo či slovné spojenie obsiahnuté v textoch všetkých dostupných dokumentov a sprístupniť ich používateľovi. Výnimkou obyčajne bývajú obmedzené množiny slov, ktorých informačná hodnota je prakticky nulová ako napr. spojky, predložky a pod., ktoré nie je možné takto vyhľadať. Pri prehľadávaní sa pritom nejedná o sekvenčné hľadanie zadaného reťazca v celom objeme dát, ale o premyslený systém indexovania textu, ktorého zdrojový tvar preto musí pred vstupom do systému prekonať patričnú prípravu. Fulltextové systémy vznikali pôvodne ako prostriedok pre riešenie špeciálnych, obyčajne spravodajských úloh vyhľadávania informácií vo veľkých objemoch dát. Dnes sú dostupné i pre úlohy každodennej praxe všetkých užívateľov. Fulltextové systémy je možné rozčleniť podľa účinnosti vyhľadávania a ďalších rozširujúcich funkcií do troch generácií: 1. Prvá generácia - vyhľadávanie iba samostatných slov a ich základných odvodenín. 2. Druhá generácia - vyhľadávanie kombinácií niekoľkých slov spojených pomocou logických a vzdialenostných operátorov 3
3. Tretia generácia - použitie i tzv. pojmového vyhľadávania; takéto systémy majú definované špeciálne slovníky pojmov, podľa ktorých nájdu napríklad po požiadavke na Holandsko i texty, v ktorých sa vyskytuje slovo Nizozemsko a pod. Na vyhľadávacie funkcie fulltextového systému sú kladené predovšetkým tieto požiadavky: rýchlosť (vyhľadávanie musí byť rýchle a nesmie závisieť na množstve prehľadávaných dát), presnosť (vyhľadávané slová musia reprezentovať práve tie pojmy, ktoré mal užívateľ na mysli), úplnosť (systém musí nájsť všetky slová a aj ich gramatické a významové tvary, ktoré je možné v špecifikovanej množine dát nájsť). V praxi sa dnes postupne presadzujú fulltextové systémy doplnené hypertextovými väzbami. Pochopiteľne i u týchto prostriedkov je možné nájsť rôzne vývojové varianty. 7.2 Grafika Obrázok môže jednoducho a názorne vysvetliť to, čo by sme prostredníctvom textu zložito a zdĺhavo vysvetľovali. Vloženie obrázku k textu vo forme jednoduchej schémy, nakreslenia grafu k práve diskutovaným dátam alebo doplnenie fotografie k textu encyklopédie sú jednoduchými ukážkami širokého využitia obrazu a grafiky v komunikácii s počítačom. Obrázok môže jednoducho a názorne vysvetliť to, čo by sme textom zložito a zdĺhavo opisovali. Spôsob začlenenia obrazu do multimediálnej aplikácie záleží od typu aplikácie. Obraz je vo všeobecnosti reprezentovaný údajmi, ktoré sa na pamäťovom médiu uchovávajú vo forme grafických formátov. Grafický formát jednoznačne definuje typ dátového súboru a priamo ovplyvňuje niektoré dôležité kvalitatívne parametre pre jeho následné spracovanie a zobrazenie. Grafické formáty môžeme rozdeliť do troch skupín: 1. Vektorové formáty - pozostávajú z geometrických objektov (priamky, krivky, plochy a pod.). Tieto informácie sa uchovávajú v textovej forme (výhoda z hľadiska nezávislosti od platformy). Vektorová grafika pozostáva z množstva geometrických objektov so špecifickou priestorovou pozíciou. Typickými geometrickými objektmi sú priamky, krivky a plochy. Obraz je teda definovaný sadou týchto objektov. Ako príklad môžno uviesť jednoduchú kresbu
GMS L7 pozostávajúcu z čiar, kriviek atď.. Každý objekt je jednoznačne identifikovaný svojím typom a skupinou vlastností, ktoré bližšie definujú jeho správanie a modifikujú jeho konečný vzhľad. Medzi ďalšie výhody patrí jednoduchá manipulácia s objektmi, ktoré je možné bez rizika deformácie ľubovoľne transformovať. Inou výhodou je jednoduchá čitateľnosť a možnosť editácie za pomoci ľubovoľného textového editora. Veľkosť vektorových súborov je závislá od počtu objektov 2. Rastrové formáty (bitové mapy) - obraz je reprezentovaný maticou číselných hodnôt definujúcich farbu jednotlivých bodov tejto matice. Tieto obrazové body sa nazývajú pixely a vytvárajú celkový obraz, ktorý má byť vytvorený. Rastrová grafika je uchovávaná väčšinou v binárnej forme. O rastrových alebo bitmapových dátach hovoríme vtedy, keď je obraz reprezentovaný maticou číselných hodnôt špecifikujúcich farbu jednotlivých obrazových bodov. Tieto obrazové body, vytvárajú celkový obraz, ktorý má byť zobrazený. Typickým príkladom je fotografia, ktorej konečný obraz vytvára množina rôzne farebných bodov. Každý prvok matice definuje farbu prislúchajúceho bodu. Rastrové dáta sa najčastejšie uchovávajú v binárnej forme, čo umožňuje jednoduchšiu implementáciu kompresných metód. Fyzická reprezentácia rastrových dát v súboroch je rôzna, a je založená na nasledovných prístupoch. Scan lines je najjednoduchší prístup k reprezentácii rastrovej informácie. Rastrové matice sú zložené z riadkov, ktoré z pohľadu grafického formátu predstavujú ucelený súbor dát, ktorý je systematicky čítaný, transformovaný a posielaný na výstup, kde transformáciou môže byť kompresia, zarovnanie alebo iná potrebná úprava. Medzi klady tohoto prístupu patrí jednoduchá orientácia, resp. pohyb v matici, pretože možno veľmi jednoducho vypočítať offset ľubovoľného riadku v súbore. Planar data je druhý z používaných prístupov reprezentácie dát, pri ktorom je vstupná matica rastrových dát transformovaná na niekoľko čiastkových matíc, tzv. rovín, s totožnými rozmermi uchovávajúcimi rôzne časti informácie. Jednoduchým príkladom, založenom na zákonitostiach zobrazovacieho adaptéra VGA, môže byť uloženie grafických dát so 16 farbami kódovanými indexom do farebnej palety so šírkou 4 bitov do 4 príslušných rovín. Každá z rovín uchováva pre každý pixel informáciu o šírke jedného bitu. Ďalšie rozdelenie dokumentuje špecifiká logického usporiadania grafických dát vo výstupnom súbore. Coherent - je jednoduchší a často volený spôsob, ktorého základom je súvislé uloženie grafických dát. Rastrová matica je uložená postupne po svojich riadkoch, čo 5
umožňuje nahliadať na grafické dáta ako na dvojrozmerné pole. Tento prístup je charakteristický jednoduchou orientáciou a pohybom v dátach. Strips je metóda, pre ktorú sú charakteristické vysoké pamäťové nároky. Napríklad na uloženie true color rastrovej matice s rozmermi 1024 x 768 je potrebných približne 2,3 MB. Z hľadiska programátora je jednoduchšie pracovať s blokmi dát s veľkosťou mocniny čísla dve, zhora ohraničenou hodnotou maximálnej dostupnej pamäte. Preto sú obrazové dáta logicky rozdelené do tzv. pásov s vopred určenou konštantnou veľkosťou. Vnútorné usporiadanie pritom nie je vopred určené. Potom na strane kódera, resp. dekódera sa spracúvajú grafické dáta blokovo, čo má nemalý význam napr. pri niektorých kompresných metódach. Tiles je prístup rozširujúci myšlienku obrazových pásov, čo dodáva aplikáciám vyšší stupeň flexibilnosti. Používané dlaždice môžu, ale nemusia mať totožné rozmery. 3. Metasúbory. Metasúbory vznikli ako kombinácia oboch predošlých prístupov, sú schopné uchovávať vektorové aj rastrové dáta, čo dodáva spracúvaným dátam určitý stupeň komplexnosti. Hlavnou črtou metasúborov je ich portabilita. Kvalita zobrazenia je daná predovšetkým kvalitou výstupného zariadenia a vo veľkej miere závisí od dvoch parametrov: rozlíšenie - udáva počet bodov obrazu. Platí pravidlo, že čím viac bodov tvorí obraz, tým je zobrazenie jemnejšie a kvalitnejšie. Rozlíšenie je dané výstupným zariadením a udáva sa v rôznych jednotkách (pixel, dpi). farebná hĺbka - udáva počet farieb, ktoré môže pixel nadobúdať. Čím väčší počet farieb požadujeme, tým viac informácii treba pre každý bod uchovávať. Čím väčšie je rozlíšenie obrazu a väčšia farebná škála, tým je lepšia kvalita zobrazenia, ale taktiež stúpajú nároky na priestor na uchovávanie a spracovanie obrazu. Preto sa často stretávame s pojmom kompresia obrazových dát a v súvislosti s tým aj s pojmom grafické formáty. Obrazové údaje sú náročné na pamäť a tiež na pamäťové externé médiá (HD, CD disky, DVD). Ich veľkosť je možné zmeniť pomocou kompresie údajov. Spôsob kódovania a použitá metóda kompresie údajov priamo ovplyvňujú veľkosť súboru pre uloženie obrazu. Veľkosť (súvisí to s voľbou grafického formátu) a počet obrázkov môže významne ovplyvniť výslednú veľkosť multimediálnej aplikácie (a nielen jej, ale platí to všeobecne o všetkých aplikáciách využívajúcich grafiku).
GMS L7 Na dokumentovanie dôležitosti kompresie môžeme použiť údaje z experimentu. Vytvorme testovací obrázok o veľkosti 100 x 100 bodov (pozri obr. 1). Obr. 1 Testovací obrázok (100 x 100 bodov) Tento testovací obrázok uložíme do rôznych grafických formátov (používajúcich rôznu kompresiu) a porovnáme ich. Zistené údaje sú uvedené v tabuľke 1. Tabuľka 1 Porovnanie veľkosti formátov testovaného obrázku Formát údajov BMP GIFF JPEG PCX PNG TIFF WMF Počet farieb 256 256 16 M 256 256 256 16 M Veľkosť súboru (v bitoch) 11078 1547 2702 2640 1398 3166 12214 Rozmer obrázku 100 x 100 100 x 100 100 x 100 100 x 100 100 x 100 100 x 100 100 x 100 (v bodoch) Kompresný algoritmus nepoužitý nepoužitý Huffmanov RLE LZ77 LZW nepoužitý WMF 14000 BMP 12000 10000 8000 6000 4000 2000 0 12214 11078 3166 2702 2640 Veľkosť súboru (v bitoch) 1547 1398 TIFF JPEG PCX GIFF PNG Obr. 2 Graf veľkostí jednotlivých grafických formátov 7
Jednotlivé údaje dokumentuje graf, ktorý znázorňuje veľkosti súborov jednotlivých formátov (pozri obr. 2). 7.2.1 Kompresia obrazových dát Úlohou kompresie dát je redukovať redundantnú informáciu vo vstupných dátach. V počítačovej grafike sa používajú aj metódy, ktoré pri redukcii redundantnej informácie túto informáciu určitým spôsobom degenerujú. Sú to metódy tzv. stratovej kompresie. Spôsob kódovania a použitá metóda kompresie dát priamo ovplyvňujú veľkosť súboru pre uloženie obrazu. Veľkosť súboru je dôležitým parametrom, pretože pri nesprávnej voľbe grafického formátu a veľkom počte obrázkov, môže veľkosť multimediálnej aplikácie neúmerne narastať. Dôležitou vlastnosťou je prenositelnosť medzi aplikačnými programami a platformami. Určitá skupina grafických formátov je podporovaná väčšinou aplikačných programov, ktoré umožňujú vstup a výstup grafického formátu bez dodatočnej konverzie. Tieto formáty sa časom stali neoficiálnymi štandardmi grafických dát. Účelom každého formátu dát je uplatnenie takého algoritmu kódovania a následne dekódovania obsahu obrazu tak, aby sa dosiahla maximálna úspora priestoru pre uchovanie súboru pri zachovaní požadovanej kvality. Veľká väčšina grafických formátov teda využíva algoritmus založený na metóde LZW, RLC, ale existujú aj ďalšie metódy. Metóda RLC predpokladá, že sa obrázok skladá z oblastí. Každá táto oblasť je vyplnená výplňovým vzorom. Opis obrazu potom vznikne tak, že je obraz poprekladaný vodorovnými priamkami, ktoré prechádzajú jednotlivými oblasťami. V kóde sú potom zachytené priesečníky priamok s týmito oblasťami. Obraz je tak opísaný vo forme zoznamu čiar a oblastí. Metóda Run-Length (RLE) sa používa hlavne pre grafický formát PCX. Ku kompresii dát dochádza vtedy, keď sa opakujú aspoň tri rovnaké bajty. Túto postupnosť bajtov kompresný algoritmus nahradí dvoma bajtmi, pričom v prvom je uložený počet opakovaní a v druhom hodnota, ktorá sa má opakovať. Táto podmienka je splnená napr. pri veľkých farebných plochách. Rozpoznávací znak je uvedený v prvom bajte. Pokiaľ sa jeho dva najvyššie bity rovnajú jednej, ide o kódovanú dvojicu. Tento jednoduchý rozpoznávací znak však skrýva podstatnú nevýhodu. Akonáhle vlastné obrazové dáta obsahujú bajty, ktoré majú dva
GMS L7 najvyššie bity rovné jednej, musia sa komprimovať i vtedy keď sa neopakujú. Našťastie sa táto situácia v praxi vyskytuje veľmi zriedka. Metóda LZW (Lempela, Ziv a Welch) vznikla v roku 1978. Rôzne varianty tejto metódy sú patentované firmami IBM, Unisys a Compuserve. Metóda spočíva v zisťovaní redundancie vo vstupnom reťazci bodov obrazu, ktoré je možné potom vyjadriť opakovaním dielčích častí, nazývaných fráza. Výstupný popis obrazu potom obsahuje už len opisy jednotlivých fráz a odkazy na miesta ich výskytu. Pri kompresii i dekompresii sa vytvárajú tabuľky kódov, ktoré reprezentujú nájdené redundancie bodov obrazu. Ide o dve tabuľky; prvá obsahuje tzv. prefixy a druhá tzv. sufixy. Obidve sú indexované v rozmedzí 0 až 4095. Indexom sú v oboch prípadoch kódy, ktoré pri kompresii vznikajú. Tieto kódy môžu byť trojakého typu: 1. Kódy reprezentujúce znaky a tieto znaky sú kopírované. 2. Špeciálne kódy napr. koniec súboru. 3. Kódy reprezentujúce komprimované dáta. Veľkou výhodou tejto kompresie je jej jednoduchosť a ľahká implementovateľnosť a aj pomerne veľká rýchlosť kompresie a nenáročnosť na systémové zdroje. Nevýhodou je predovšetkým pomerne malý kompresný pomer. Táto metóda je teda vhodná pre aplikácie a produkty kritické z hľadiska času a naopak vďaka svojmu malému kompresnému pomeru je menej vhodný pre archivačné programy. Mladšou skupinou sú algoritmy pre kompresiu obrazových dát pracujúce na základe početnosti znakov v kódovaných dátach. Kompresor najprv zistí pravdepodobnosti výskytu jednotlivých znakov a každému výskytu priradí kód. Kódy sa líšia svojou bitovou dĺžkou. Bitovo kratší kód sa priradí znakom s častejším výskytom a dlhší, znakom s menej častým výskytom. Potom sa načíta znak po znaku, nájde sa pre ne priradený kód a ten sa pošle na výstup. Algoritmy tejto skupiny sa líšia spôsobom, akým sa kódovanie realizuje. Do tejto skupiny algoritmov patria: 1. Huffmanove kódovanie - tento spôsob kódovania je využitý aj v archivačných programoch ako PKZIP a ARJ a je súčasťou formátu JPEG. Kódovanie sa realizuje pomocou binárnych stromov. 9
2. Shannon-Fanovo kódovanie je v podstate rovnaké ako Huffmanove. Rozdiel spočíva v algoritme konštruovania binárneho stromu. Huffmanove kódovanie je v tejto oblasti o niečo precíznejšie a teda aj zložitejšie, čo prináša lepšie výsledky. Shannon-Fanovo je jednoduchšie, a to na úkor výsledného kompresného pomeru. 3. Aritmetické kódovanie je to nová ale zatiaľ nie celkom využívaná metóda. Metóda odstraňuje nedostatky Huffmanovho kódovania a teda je efektívnejšia. Dnes už existujú algoritmy, ktoré túto metódu obsahujú a ich kompresné pomery sú dobré. 7.2.2 Grafické formáty V súčasnosti sa môžeme stretnúť s veľkým množstvom rôznych grafických formátov, pričom každý formát ma svoje klady aj zápory. Napriek tomu sa niektoré formáty stávajú štandardmi v tej ktorej oblasti použitia. JPEG Je štandardizovaný mechanizmus pre kompresiu statického obrazu. Bol vytvorený organizáciou Joint Photographic Experts Group pre kompresiu tzv. plnofarebných a šedých obrazov reálneho sveta. Nerealistické obrazy, ktoré obsahujú len dve farby napr. text, sú komprimované len v malom kompresnom pomere. JPEG nepracuje s čiernobielymi obrazmi a nepodporuje ani video. Kompresia obrazov reálneho sveta je ale naozaj vynikajúca. Pohybuje sa okolo 5-20 %. V porovnaní so súbormi GIF s maximálne 256 farbami sú súbory JPEG rádovo 1,5 až 3 krát menšie, a pritom obsahujú 3x viac informácií (až 16 777 200 farieb). Tento druh kompresie stráca z obrazu niektoré dáta a teda nie je vhodný tam, kde je nutné dáta v obrazoch zachovať pre maximálnu presnosť. Úroveň, v akej sa budú tieto informácie strácať, sa dá nastaviť pri kompresii do tohoto formátu v rozmedzí 1-100. V rozsahu 1-20 sú zmeny obyčajne nepostrehnuteľné. Od 20 do 40 sú pri bližšom skúmaní zjavné a u vyšších hodnôt sú straty dát výraznejšie. Dáta sú vo formáte JPEG komprimované, ale pred vlastnou kompresiou je nutné previesť tzv. diskrétnu kosínusovú transformáciu (DCT), ktorá je ťažiskovým miestom tohoto formátu. Na diskrétnej kosínovej transformácii je založené veľké množstvo algoritmov pre kompresiu obrazu (JPEG, MPEG, H.261). Algoritmus je vhodný u obrazov, kde sa farby a odtiene menia plynulo. Tam, kde sú rýchle zmeny vo farbách bodov vedľa seba, je veľmi málo efektívny.
GMS L7 Algoritmus spočíva v prevode obrazu do vhodného tzv. farebného priestoru, čo zahrňuje napr. rozklad niektorých farieb na dve zložky tak, že na jednu z nich je ľudské oko citlivejšie a na druhú menej. Potom sa vytvoria skupiny 8 x 8 bodov a stanoví sa priemerná farba v rámci skupiny a najčastejšie zmeny v rámci tejto skupiny. Od týchto hodnôt sa vychádza pri samotnej transformácii DCT. Algoritmus spriemeruje farby tak, aby prechody boli o niečo plynulejšie pomocou zmien v zložkách, na ktoré je ľudské oko menej citlivé. Potom z dát vyberajú tzv. neplynulé a komprimujú sa Huffmanovým alebo aritmetickým kódovaním. Tzv. plynulé dáta sa pri kompresii strácajú. Pri dekompresii takto vytvorených dát je nutné určitým spôsobom začisťovať miesta, ktoré kompresor vynechal a premeniť tak skoky medzi farbami do pôvodného plynulého prechodu. JBIG Je metóda pre kompresiu obrazov s dvoma farbami a to čiernou a bielou a využíva sa u faxov. JBIG je skratka Joint Bi-level Image Experts Group. JBIG používa ku kompresii metódy progresívneho i sekvenčného kódovania a nestráca informácie z kódovaných dát. Progresívne kódovanie zaisťuje, že bitová mapa bude k príjemcovi vysielaná postupne, a príjemca môže bitovú mapu skladať od menšieho k väčšiemu detailu. Metóda používa postupné zdvojovanie úrovne rozlíšenia. Okrem toho sa obraz delí na vodorovné pruhy konštantnej veľkosti a tie sú kódované nezávisle na sebe. Sekvenčné kódovanie je kódovanie obrazu zhora nadol bez prekladania. Pre kompresiu obrazu sa používa aritmetické kódovanie realizované Q-Coderom. JBIG má veľmi dobré výsledky u obrazov s textom a jednoduchými objektmi. Ale i u zložitejších obrazov dosahuje pomerne dobrého kompresného pomeru. PCX Tento formát nazývaný aj CompuServe Graphics Metafile je veľmi rozšírený v prostredí MS- DOS. Formát vyvinula firma Zsoft pre svoj program Paintbrush. Patrí medzi tzv. bitmapové formáty. To znamená, že v súbore sú uložené informácie o jednotlivých grafických bodoch, a z týchto bodov je potom zostavený výsledný obraz. Na začiatku dátového súboru PCX je vždy hlavička dlhá 128 bajtov, po nej nasledujú vlastné obrazové dáta, u VGA s 256 farbami je ešte tzv. oddeľovač nasledovaný paletou farieb dlhou 256 x 3 bajtov. Pri ukladaní dát je pre úsporu miesta použitá jednoduchá kompresia RLE. 11
Obrazové dáta sú v súbore uložené po jednotlivých linkách. V prípade, že sa obrázok skladá z viacerých bitových rovín, sú zložky riadku pre jednotlivé bitové roviny umiestnené v súbore za sebou. To znamená, že pri načítaní súboru by sme mali zapísať do video RAM riadok, prepnúť na nasledujúcu grafickú stránku vo video RAM a na tento riadok zapísať opäť dáta z ďalšej bitovej roviny, a to opakovať až do vyčerpania všetkých bitových rovín. TIFF Formát TIFF (Tagged Image File Format) je veľmi rozšírený pre ukladanie rastrových obrazov, predovšetkým v oblasti DTP. Vznikol v roku 1986 zásluhou firiem Aldus a Microsoft. Je to formát s niekoľkými typmi kompresných schém, špeciálnymi funkciami riadenia obrazu a s mnohými ďalšími vlastnosťami. Naviac jeho koncepcia umožňuje neustály vývoj. Formát umožňuje ukladať informácie nielen v jednobitovej a osembitovej forme, ale aj v 24 bitovej forme. Je nezávislý na platforme, ale jednoduchšie grafické programy si s ním neporadia. Súbor musí byť najprv kompletne nečítaný aby ho bolo možné zobraziť. To spôsobuje hlavne u WWW nepríjemné čakacie doby. Existuje niekoľko verzií napr. čiernobiely, farebný pomocou RGB, farebný pomocou palety, s kompresiou a bez kompresie. GIF Formát GIF (Graphics Interchange Format) vyvinula firma CompuServe a znamená dobrú kvalitu obrazu pri únosnom objeme dát. Používa sa metóda kompresie LZW. Kompresný pomer je 1 : 2. Pri tomto formáte funguje tzv. postupná výstavba obrazu a už v priebehu prenosu obrazových dát je možno obraz v kvalite redukovanej na 1/8 sledovať, potom sa informácia postupne po krokoch zdvojuje, až je po ukončení prenosu obrázok kompletný. Formát umožňuje skrátenie drahých prenosových časov napr. v prostredí siete internet. PNG Formát PNG (Portable Network Graphic Format) obsahuje oproti GIF väčšieho zhustenia obrazových dát a vyššiu kvalitu. Aby bolo možné získať z obrázkov ešte viac v podstate prebytočných informácií, vybavili autori štandard tzv. predpovednou funkciou. Vzhľadom k tomu, že obrázky obvykle vykazujú plynulé prechody jednotlivých oblastí, je niekedy potreba uložiť len malé odchýlky od predpovedí. To sa môže ale v závislosti na programe, ktorým sa pokúsime o kompresiu, vypomstiť. Pokiaľ sa totiž rozhodneme pre nesprávnu predpovednú funkciu, nieje výsledkom zlepšenie až o 30 %, ktorého sa obvykle dosahuje, ale
GMS L7 často i zhoršenie a zvýšenie spotreby pamäte oproti obyčajnému PNG bez použitia tejto funkcie. Preto je potrebné účinok predpovednej funkcie pred vlastnou kompresiou vyskúšať na malom výreze. Rovnako ako pri formáte GIF funguje i u PNG postupná výstavba obrazu; už v priebehu prenosu je možno obraz v kvalite redukovanej na 1/64 sledovať, potom sa informácie postupne po krokoch zdvojujú, až je po ukončení prenosu obrázok kompletný. Táto náplasť pre príliš nedočkavých používateľov síce zaberie približne 8 % pamäte, ale často umožňuje podľa potreby zastavenie prenosu už v počiatočných štádiách. Vzhľadom k tomu, že formát umožňuje skrátenie drahých prenosových časov, predpokladá sa, že sa PNG dočká širokého uplatnenia. BMP BMP (Microsoft Bitmap) je štandardný formát používaný v prostredí Microsoft Windows. Je podporovaný drvivou väčšinou aplikačných programov na platforme PC. Pri vývoji BMP sa zohľadňoval faktor hardvérovej nezávislosti. Cieľom teda nebolo vytvoriť tzv. formát ušitý na mieru určitému zariadeniu s prispôsobením organizácie dát a dátových štruktúr, ako to implementuje napr. PCX, ale vytvoriť špecifikáciu grafického formátu zohľadňujúcu faktor nezávislosti od organizácie videopamäte grafického adaptéra a iných konštrukčných špecifík koncových zariadení. Kompresná schéma použitá vo formáte BMP vychádza z myšlienky byt-ovo orientovaného RLE. Je podporovaná kompresia obrazových dát so 4 a 8-bitovou farebnou hĺbkou. Kompresia 24-bitových predlôh by si vyžiadala špeciálnu RGB schému pracujúcu s 24-bitovými entitami. V praxi sa drvivá väčšina BMP súborov uchováva bez kompresie, čo umožňuje rýchly prístup ku grafickej informácii. Treba si uvedomiť, že RLE vedie v praxi k zväčšeniu celkovej dĺžky obrazových dát. Priaznivé kompresné výsledky sa dosahujú v určitých špeciálnych prípadoch, napr. v počítačom generovaných obrazoch vo forme schém. Nevýhodou je však veľký objem dát a ďalšia nevýhoda je v tom, že pri ľubovoľnej zmene veľkosti obrázku sa podstatne zhoršuje kvalita. 7.3 Animácia Animáciu môžeme charakterizovať ako rýchlo sa pohybujúci sled statických obrazov za sebou. Predstavuje kombinovaný typ údajov. Zahŕňa v sebe obraz, grafiku, zvuk a pohyb v čase a môže mať veľa podôb, od jednoduchého presunu textu po obrazovke až po zložité animácie 3D objektov. Pohyb môžeme docieliť viacerými spôsobmi, ako sú presun objektu po 13
trajektórii, zmena farby daného objektu, zmena farby pozadia. Medzi zložitejšie techniky patrí pohyb kamery vzhľadom na objekt (niekedy je to realizované zmenou jeho veľkosti). Počítačová animácia je sekvencia počítačom generovaných obrazov, ktoré môžu byť kombinované so zvukom. Výsledný pohyb vznikne rýchlym prehrávaním jednotlivých statických obrazov (je nutné, aby mali malé rozdiely v usporiadaní scény). Minimálna frekvencia prehrávania je 24 snímkov za sekundu (naše oko už vtedy nereaguje na prechody medzi jednotlivými obrázkami). S animáciou sa môžeme stretnúť napríklad aj pri surfovaní po internete. Animovaný GIF na www stránke je asi najpoužívanejším príkladom jednoduchej animácie. Pozrime sa napr. na animáciu skákajúcej loptičky. Realizácia takejto animácie vo formáte "animovaný GIF" vyžaduje, aby sme si pripravili jednotlivé statické obrázky. Môžeme to urobiť pomocou ľubovoľného grafického editora alebo priamo špecializovaným programom na tvorbu animovaných GIF obrázkov. Skupina statických obrázkov by mohla vyzerať napríklad tak, ako je to uvedené na obr. 3: Obr. 3 Jednotlivé statické obrázky pre vytvorenie animácie Obrázok 4 ukazuje (samozrejme iba staticky) výsledok po preložení jednotlivých obrázkov do vrstiev a uložení do jedného súboru formátu animovaný GIF. Obr. 4 Výsledný animovaný obrázok (animovaný GIF)
GMS L7 Animácia je teda definovaná ako sekvencia počítačom generovaných obrázkov, ktoré môžu byť kombinované so zvukom. Pomocou týchto pohyblivých obrázkov je možné vytvoriť obdobu trikového kresleného filmu. Animácia si veľmi rýchlo osvojila oblasť vizualizácie dejov, ktoré v reálnom svete nie sú pozorovateľné. Týmto spôsobom je možné vizualizovať scény, ktoré ešte reálne neexistujú. Základný význam má animácia v oblasti simulácie. Proces vytvorenia animácie v počítači je pomerne zložitý. Pozostáva z nasledujúcich krokov: vytvorenie obrázkov, resp. grafiky, synchronizácia pohybu zo zvukom, uloženie animácie do súboru, prehrávanie animácie v aplikácii. Najnáročnejším krokom v tomto procese je tvorba jednotlivých obrázkov. Pri synchronizácii, výpočte pohybu a zmeny tvaru objektu sa používa interpolácia. 7.4 Zvuk Zvuk (audio) hral v počítačových aplikáciach pôvodne len doprovodnú úlohu. Rôzne druhy pípnutí slúžili ako upozornenie na chybu alebo výzva pre používateľa na zadanie odpovede. Neskôr sa objavovali jednoduché zvuky v súvislosti s animovanými počítačovými hrami. Až s príchodom zvukových kariet a odpovedajúceho programového vybavenia sa zvuk stal jedným z typov dát nesúcich určitú informáciu a začal plniť obsahovú funkciu. Zvuk je možné využiť napr. vo výukových programoch vo forme hudobných ukážok alebo pri korekcii výslovnosti pri výučbe cudzieho jazyka. Zvuk je vlastne spojitý signál, ktorého základnými parametrami sú amplitúda a frekvencia. Zvukové dáta môžeme rozdeliť na tri skupiny: hlas, hudba a šum. Hlas môže byť použitý buď ako vstupný zdroj dát alebo ako výstup dát z počítača. Šumy a hudba slúžia väčšinou k podfarbeniu vizuálne podávanej informácie na obrazovke ale môžu byť aj zdrojom informácie. 7.4.1 Fyzikálna podstata a charakteristiky zvuku Zvuk môžeme vnímať len za určitých podmienok. Musí existovať: zdroj zvuku, prostredie, ktorým sa šíri a perceptor (sluchový orgán, snímač). Zjednodušene je zvuk kmitanie akejkoľvek hmoty. Prostredím, ktorým sa šíri zvukový rozruch od chvejúceho sa telesa k 15
nášmu uchu je najčastejšie vzduch. Jediné prostredie, ktorým sa zvuk nemôže šíriť, je vákuum. Naše sluchové orgány zhromažďujú tieto vibrácie a umožňujú mozgu interpretovať ich. Kmity, ktoré vytvárajú zvuk, nie sú výsledkom pohybu celého objemu "tam a späť". Ak by to platilo, celá atmosféra by sa musela hýbať zakaždým, keď sa vytvorí aj najmenší zvuk! Namiesto toho, sa kmity objavujú medzi jednotlivými molekulami látky a šíria sa v látke vo forme zvukových vĺn. Zvukové vlny sa šíria látkou tak, že každá molekula vráža do vedľajšej a vracia sa do pôvodnej polohy. V dôsledku toho sa v látke striedajú oblasti, v ktorých je hmota hustejšia, nazývané zhluky, s oblasťami, kde je hmota redšia, nazývané zriedenia. Zvuk sa šíri vzduchom všetkými smermi od zdroja. Fyzikálnou príčinou vzniku zvuku je chvejúce sa teleso. Ak je kmitanie zdroja zvuku pravidelné, vnímame tón, t.j. hudobný zvuk. Ak zvuk vzniká nepravidelným chvením telesa, vnímame ho ako hluk, napr. vŕzganie, šramot, hukot a praskot. Zvuk je teda kmitanie vzduchu, ktoré vnímame uchom a vyvoláva v mozgu sluchový vnem. Zvuk s frekvenciou pod 20 Hz sa nazýva infrazvuk a nad 20 khz ultrazvuk. Pravidelné kmitanie zdroja zvuku vydáva tón. Výška tónu je určená frekvenciou kmitania zdroja zvuku. Ladička je zdroj zvuku, ktorý vydáva tón s presne stanovenou výškou. Tóny rovnakej výšky, ktoré znejú rozlične majú rozličnú farbu. Ľudské ucho je uspôsobené rozkladať zložený zvuk na jeho jednoduchšie zložky. Najnižšia hladina hlasitosti pre rôzne frekvencie je rôzna (prah hlasitosti). Prah bolesti je najvyššia hladina hlasitosti. Zvuk sa šíri pružnými pevnými, kvapalnými a plynnými látkami. Rýchlosť šírenia zvuku vo vzduchu je cca 340 m/s. Pri zvýšení teploty vzduchu o 1 C sa zvýši rýchlosť o 0,6 m/s. Pri dopade zvuku na prekážku sa zvuk odráža a mení sa smer jeho šírenia. Pre odraz zvuku platí rovnaký zákon ako pre odraz svetla. Pre zjednodušenie fyzikálnych úvah sa zvukové vlny znázorňujú pomocou tzv. vlnových funkcií alebo vlnoplôch. Ak by bola látka v kľude (žiaden zvuk, žiadne mechanické vlnenie), hustota častíc by sa v látke nemenila t.j. vlnová funkcia by vyzerala ako vodorovná os x. Zvukové vlny sa často znázorňujú aj pomocou tzv. vlnoplôch. Ak si zvuk predstavíme ako vlnenie napr. na povrchu jazera, potom vlnová funkcia znázorňuje pohľad na vlny z boku a vlnoplocha pohľad zhora.
GMS L7 Obr. 5 Vlnová funkcia a vlnoplocha Vlnová dĺžka Vlnová dĺžka je vodorovná vzdialenosť medzi dvoma za sebou idúcimi rovnocennými bodmi vlny. To znamená, že vlnová dĺžka je vodorovná dĺžka jedného cyklu vlny. Obr. 6 Vlnová dĺžka Perióda Perióda je čas potrebný na jeden celý cyklus vlny ("časová dĺžka" cyklu vlny). Teda, perióda je množstvo času potrebné na to, aby vlna prešla vzdialenosť rovnú jednej vlnovej dĺžke. 17
Obr. 7 Perióda zvukovej vlny Frekvencia Každý cyklus zvuku obsahuje jeden zhluk (oblasť so zvýšeným tlakom) a jedno zriedenie (oblasť, kde je tlak menší ako normálny). Frekvencia zvukovej vlny vyjadruje počet cyklov, ktoré prejdú daným miestom za jednu sekundu. Fyzikálnou jednotkou je 1 Hertz (1 Hz). Ak sa zdroj pohybuje "hore-dole" s frekvenciou 900 Hz, potom generuje každú sekundu 900 zhlukov a za každým z nich nasleduje zriedenie a spolu vytvárajú zvukovú vlnu, ktorej frekvencia je 900 Hz. Frekvencia určuje výšku zvuku (tónu). Čím je frekvencia vyššia, tým je výška zvuku vyššia. Každý tón má svoju frekvenciu. V hudobnej akustike bol ako základný tón stanovený tón s frekvenciou 440 Hz (označenie a1, tzv. komorné a). V technickej praxi sa ako základný tón používa tón s frekvenciou 1 khz (tzv. referenčný tón). Ľudia môžu normálne počuť zvuk s frekvenciami v rozsahu 20 až 20 000 Hz (20 khz). Amplitúda Amplitúda zvukovej vlny je graficky reprezentovaná maximálnou hodnotou vlnovej funkcie. Keď uvažujeme hlasný zvuk, vlna je vysoká a amplitúda veľká. Naopak, menšia amplitúda reprezentuje tichší zvuk.
GMS L7 Obr. 8 Amplitúda zvukovej vlny Hlasitosť zvuku opisujeme fyzikálnou veličinou intenzita zvuku. Jednotkou intenzity zvuku v logaritmickej mierke je bel, značka B. V praxi sa používa 10-krát menšia jednotka decibel (db). Rozsah intenzít zvuku, ktoré môžeme vnímať sluchom, je pomerne veľký. Najtichšiemu zvuku, ktorý ľudské ucho zaregistruje je priradená intenzita 0 db. Táto hodnota sa nazýva aj prah počuteľnosti. Zvuku, ktorý môže poškodiť naše ucho, tzv. prah bolesti, odpovedá intenzita 120 db. Ľudská reč má približne 60 decibelov. Hlasitosť vnímaného zvuku závisí od týchto faktorov: ako silno bolo rozochvené teleso, ktoré je zdrojom zvukového rozruchu, od vzdialenosti zdroja zvuku od nášho ucha a od prostredia, ktorým sa zvukový rozruch k šíri, na našom sluchovom ústrojenstve, ktoré nie je rovnako citlivé na všetky frekvencie tónov zachytiteľných sluchom. Ľudské ucho je najcitlivejšie na tóny o frekvenciách od 2-4 khz. 7.4.2 Zvukové javy Aj keď napr. klarinet a trúbka hrajú ten istý tón (rovnaká výška, rovnaká základná frekvencia), znejú veľmi odlišne. Túto odlišnosť spôsobuje farba tónu. Tieto dva hudobné nástroje sa líšia v množstve a type tzv. vyšších harmonických frekvencií. Vyššie harmonické frekvencie (vhf) sú tóny, ktorých frekvencie sú celočíslenými násobkami základnej frekvencie vlny. 19
Napr. ak a je hrané na 440 Hz, frekvencie vhf budú 880 Hz, 1320 Hz atď. Vyššie harmonické frekvencie sú očíslované v poradí nárastu frekvencie. Teda, prvá harmonická je základná frekvencia, druhá je dvojnásobkom základnej atď. Obr. 9 Vyššie harmonické vlnové frekvencie Grafy zvukových vĺn sa nazývajú vlnové priebehy, resp. vlnové funkcie. Vlnový priebeh tónu ladičky neobsahuje žiadne vhf, iba základnú frekvenciu. Vyššie harmonické tóny vytvárajú so základným tónom zložený zvuk s periódou, ktorá je zhodná s periódou základného tónu. Tento zložený zvuk náš sluch vníma ako jediný tón (psychoakustika). Stupnica Tóny hudobných nástrojov sú usporiadané v tzv. oktávach. Vždy, keď výška tónu vzrastie o oktávu, frekvencia zvuku sa zdvojnásobí. Obr. 10 Oktávy hudobných nástrojov
GMS L7 Obr. 11 Vlnové priebehy hudobných nástrojov Každý nástroj produkuje vhf, ktorých odpovedajúca intenzita závisí od typu a výroby nástroja a spôsobu, akým sa naň hrá. Vlnová funkcia klarinetu obsahuje veľké množstvo tretej, piatej a siedmej vhf a menšie množstvo druhej, štvrtej a šiestej vhf a samozrejme prvú harmonickú frekvenciu, základnú frekvenciu. Vlnová funkcia tónu trúbky pozostáva z veľkého množstva tretej vhf a niečo z druhej, štvrtej a piatej vhf, spolu so základnou frekvenciou. Harmonická syntéza je spôsob, ako vzniká zvuková vlna z jej harmonických častí. Čím presnejšie priblíženie k vlnovému priebehu daného hudobného nástroja chceme dosiahnuť, tým viac vhf je potrebných pri syntéze zvuku daného nástroja. Elektronické hudobné nástroje používajú série vhf, ktorých rôzne amplitúdy sa dajú upraviť tak, aby mali tvar požadovanej vlnovej funkcie hudobného nástroja. Zvuk, ktorý produkujú syntezátory je takmer nerozpoznateľný od zvuku reálneho nástroja. Opak harmonickej syntézy je harmonická analýza, pri ktorej sa zvuk rozkladá na svoje zložky, tj. vhf. To vyžaduje komplexnú matematiku nazývanú Fourierova analýza (Jean Baptiste Joseph Fourier, francúzky matematik, ktorý študoval periodické funkcie). Majme dva rovnaké zdroje zvuku umiestnené v rovnakej vzdialenosti od pozorovateľa (napr. 3 m) a oba zdroje budú vydávať rovnaký zvuk. Vlnová dĺžka zvukových vĺn nech je 1m. Zdroje nech vibrujú synchrónne (pohybujú sa naraz dopredu a späť). Vzhľadom na rovnakú vzdialenosť zdrojov, zhluky zvukovej vlny od jedného zdroja sa vždy v rovnakom okamihu stretávajú so zhlukmi z druhého zdroja. Rovnako to platí aj o zriedeniach. Jeden z princípov, 21
ktoré platia pre zvuk je lineárna superpozícia, ktorá hovorí, že výsledná vlna sa rovná sumácii jednotlivých vĺn, ktorých zložením vznikla. Teda, amplitúda resp. tlakové výkyvy, kde sa stretávajú rovnaké vlny sa rovnajú dvojnásobku amplitúdy jednotlivých vĺn. Nárast amplitúdy reprezentuje nárast hlasitosti zvuku. Keď nastane takáto situácia hovoríme, že vlny sú v rovnakej fáze a ilustrujú tzv. "konštruktívnu interferenciu (skladanie vĺn) ". Obr. 12 Skladanie zvukových vĺn konštruktívna interferencia Ale, ak zmeníme jednu z premenných veličín, výsledný zvuk je takmer opačný ako bol. Posuňme jeden zo zdrojov o 0,5 m (1/2 vlnovej dĺžky) ďalej. Budeme predpokladať, že hlasitosť tohto zdroja sa zvýši tak, že amplitúda ostáva konštantná. Takéto posunutie spôsobí to, že zhluky jedného zdroja sa stretávajú so zriedeniami druhého zdroja a naopak. Hovoríme, že vlny sú v opačnej fáze. Tentoraz, odvolávajúc sa na princíp lineárnej superpozície, je výsledkom skladania vzájomné vyrušenie sa vĺn. Zriedenia jednej vlny sú vykompenzované zhlukmi druhej vlny a tak vytvárajú konštantný tlak vzduchu. Konštantný tlak vzduchu pre nás znamená to, že prakticky nepočujeme žiaden zvuk prichádzajúci zo zdrojov. Tento jav sa nazýva "deštruktívna interferencia".
GMS L7 Obr. 13 Skladanie zvukových vĺn - deštruktívna interferencia Akustické rázy (takty) Čo sa stane pri prekrytí dvoch zvukových vĺn s rôznou frekvenciou. Dve ladičky sú vedľa seba, jedna vydáva zvuk o frekvencii 440 Hz a druhá zvuk o frekvencii 438 Hz. Ak uvedieme do činnosti obe ladičky (ktoré majú rovnaké amplitúdy) v ten istý okamžik, nebudeme počuť konštantný zvuk. Namiesto toho, hlasitosť kombinovaného zvuku bude rásť a klesať. Zakaždým keď sa zhluk stretne so zhlukom alebo zriedenie so zriedením, nastáva konštruktívna interferencia a amplitúda rastie. Zakaždým, keď zhluk stretáva zriedenie a naopak, nastáva deštruktívna interferencia, hlasitosť klesá. Tieto periodické zmeny hlasitosti sa nazývajú rázy. V našom prípade budeme počuť hlasitosť rásť a klesať 2-krát za sekundu, lebo platí 440-438=2. Teda frekvencia rázov je 2 Hz. Hudobníci pri ladení počúvajú rázy, aby zistili, či ich nástroj je naladený. Hudobník počúva ladičku, ktorá vydáva čistý tón a hrá danú notu na svojom nástroji. Ak počuje rázy, potom vie, že jeho nástroj je rozladený. V momente, keď rázy zmiznú, je nástroj naladený. 23
Obr. 14 Konštruktívna a deštruktívna interferencia Difrakcia (ohyb zvukovej vlny na prekážke) je jav charakteristický pre vlny všeobecne, nielen pre zvukové vlny. Z vlastnej skúsenosti vieme, že zvuk sa šíri aj za prekážku, ktorá mu stojí v ceste. Napríklad, ak je stereo prehrávač pustený v izbe s otvorenými dverami, zvuk počujeme nielen priamo pred dverami, ale šíri sa do celej miestnosti. Tento jav fyzikálne vysvetľuje tzv. Huygensov princíp. Obr. 15 Ohyb zvukovej vlny na prekážke Ohyb vlnenia na prekážke je najvýraznejší, ak je rozmer prekážky porovnateľný s vlnovou dĺžkou vlnenia. V inom prípade vzniká za prekážkou tzv. akustický tieň - priestor kam sa
GMS L7 vlnenie nedostane. Ak by sme stáli v oblasti akustického tieňa nepočuli by sme žiaden zvuk napriek tomu, že by na prekážku pred vami dopadal. Ak zvuk, ktorý sa šíri vzduchom narazí na prekážku, prekážka ho z časti pohltí, z časti sa od nej odráža a šíri sa vzduchom späť. Pri neveľkej prekážke sa zvuk šíri aj za ňu, nastáva ohyb. Aj ozvena je spôsobená odrazom zvuku od pevnej prekážky. Naše ucho je schopné rozoznať dva po sebe nasledujúce zvukové signály, ak medzi nimi uplynie doba najmenej 0,1 s (tj. ak uplynie doba kratšia, zvuky splývajú). Ak chceme počuť úplnú ozvenu nášho hlasu (resp. volanie, pískanie), musíme byť od odrážajúcej steny aspoň tak ďaleko, aby zvuk prešiel dráhu k stene a späť za 0,1 s. Zvuk (rýchlosť šírenia 340 m/s) prejde za 0,1 s dráhu 34 metrov. Teda naša vzdialenosť od steny nesmie byť menšia ako 17 m. Ak sa k nám približuje auto so zapnutými sirénami, zvuk, ktorý počujeme je vyšší ako keby auto stálo. Je to preto, lebo zvukové vlny pred pohybujúcim sa autom sa navzájom stláčajú. To zapríčiňuje, že do nášho ucha za jednu sekundu dopadne viac kmitov. Viac kmitov znamená zvýšenie tónu. V momente, keď nás auto míňa sa tón znižuje. Za ním sa zvukové vlny zrieďujú a menej kmitov za jednu sekundu znamená, že budeme počuť nižší tón. Táto zmena výšky tónu je známa ako Dopplerov jav (efekt). 7.4.3 Vnímanie zvuku človekom Zvuk vnímame sluchovým orgánom. Ľudské ucho je veľmi zložitá sústava, ktorá reaguje na tlakovú zložku akustického poľa. Zvuk prichádza zvukovodom k bubienku, ktorý sa rozochveje vynútenými kmitmi. Bubienok oddeľuje vonkajšie ucho od stredného ucha. Aby si poslucháč uvedomil zvuk, musí sluchový orgán zistiť jeho kmitočet, čiže uskutočniť analýzu. Pri vysokých kmitočtoch je maximum presne vyjadrené. Príslušné nervy signalizujú do mozgu miesto najväčšieho podráždenia a tým nepriamo i kmitočet vnímaného zvuku. Pri vysokých kmitočtoch nestačí sluchový nerv prenášať tak vysokú frekvenciu impulzov. Sluchový orgán reaguje na tlak (najčastejšie tlak vzduchu) a patrí preto medzi mechanoreceptory. Je zo všetkých mechanoreceptorov najcitlivejší, zaznamenavá energiu už o hodnote asi 5x10 na 23 Joula. Orgánom sluchu je ucho (latinsky auris). Ľudské ucho vníma zvukové vlny v rozsahu frekvencií 16-20 000 Hz a najcitlivejšie je na tóny v oblasti okolo 1000-3000 Hz (hovorené slovo). Je schopné rozlíšiť približne 400 000 rozličných druhov zvukov. U zvierat (krysa, pes) je rozsah vnímania zvukových vĺn posunutý väčšinou k vyšším 25
frekvenciám. Tak napríklad mačka vníma zvukové vlnenie o frekvenciách 60 Hz - 65 000 Hz, pes 15 Hz - 50 000 Hz (ultrazvukové píšťalky) a mola dokáže vnímať vlnenie o frekvencii až 150 000 Hz. Vnem zvuku zjednodušene Vonkajšie ucho zachytáva zvukový rozruch, ktorý sa šíri prostredím od miesta vzniku a vedie ho k bubienku. Jeho pružná blana sa dopadajúcim mechanickým vlnením (zvukom) rozkmitá a následnom sa rozkmitajú aj malé kostičky priliehajúce k bubienku z druhej strany. Tieto kostičky sú mimochodom najmenšie v ľudskom tele a prenášajú rozruch ďalej do vnútorného ucha. Vo vnútornom uchu sa tieto mechanické vibrácie pretransformujú na elektrické impulzy a tie sa v mozgu interpretujú ako sluchový vnem (tj. človek vníma zvuk). Obr. 16 Schéma sluchového orgánu Hlavné časti sluchového orgánu vonkajšie ucho o ušnica o zvukovod o ušný bubienok stredné ucho o kladívko (malleus) o nákovka (incus) o strmienok (stapes)
GMS L7 o eustachova trubica vnútorné ucho o oválne okienko o polkruhovité kanáliky o slimák o sluchový nerv Sluch, ako jeden z našich zmyslov nám dáva množstvo informácií. Napríklad o našom okolitom prostredí, o určitých fyzikálnych vlastnostiach predmetov, o vzdialenosti a polohe zdroja zvuku atď. Analýza sluchovej scény je proces, ktorým vnímame smer, hlasitosť, tón a množstvo rôznych zvukov naraz. Je to zložitá ľudská schopnosť. Naše okolie nás obklopuje konštantným zvukom. Aj tie najmenšie vibrácie a ozveny nám pomáhajú určiť okolitý priestor. Napríklad, či ide o menšie alebo o väčšie priestranstvo môžeme určiť z ozveny, lebo zvuk na menšom priestranstve produkuje menej ozven ako na väčšom priestranstve. Najjednoduchším spôsobom ako môžeme určiť polohu zdroja je porovnávanie intenzity zvuku v našich ušiach. Ak počujeme zvuk o väčšej intenzite (hlasnejší) v pravom uchu, vieme, že zvuk prichádza odniekiaľ sprava. Analogicky to platí aj pre ľavú stranu. Podobne môžeme využiť celkovú intenzitu zvuku tj. tichší zvuk prichádza z väčšej diaľky ako hlasnejší zvuk. Porovnávanie vnemu ľavého a pravého ucha a celkovej intenzity sú robené automaticky, bez nášho vedomia a umožňujú nám rýchlo a ľahko určiť približnú polohu pôvodcu zvuku. Ďalej pri určovaní polohy zdroja zvuku samozrejme využívame videnie, odraz, ozvenu a pohyb hlavy napr. zvuky vzbudené blízko produkujú oveľa menej ozvien, ako zvuky vzbudené ďaleko. Pojem ušnicová odozva hovorí o fakte, že ušnica odfiltruje určité frekvencie zvuku v závislosti na smere, z ktorého zvuk prichádza. Vnímame to ako jemnú zmenu kvality zvuku. V dôsledku toho vieme túto zmenu kvality využiť na určenie toho, či zvuk prichádza spredu, zdola, spoza alebo zhora. Zo zvuku, aký určitý objekt vydáva, sa dajú určiť niektoré fyzikálne vlastnosti tohto objektu napr. ak pustíme loptu na mäkký povrch, vydá iný zvuk, ako keby bola pustená na tvrdý povrch. 27
7.4.4 Reprezentácia (záznam) zvuku Nahrávanie zvuku sa, tak ako väčšina technológií, vyvíjalo od jednoduchších k dokonalejším a zložitejším postupom. V princípe sa snažilo okopírovať a využiť spôsob akým ľudia prijímajú zvuk. Prvé jednokanálové mono nahrávky vyústili do dvojkanálového sterea. Novšie technológie ako 3D zvuk a ďalšie pokroky digitálnej techniky posúvajú tento proces ďalej. Tieto nahrávky sú stále lepšou imitáciou procesu, ktorým ľudské ucho prijíma a reprodukuje zvuk. Zvuk môžeme definovať ako zmenu tlaku prostredia. Takáto zmena tlaku je veľmi nevhodná na diaľkový prenos. Treba nájsť niečo, na čo zvuk premeniť (pretransformovať) a čo sa dá ľahko a bez väčších skreslení prenášať na ľubovoľnú vzdialenosť. V praxi sa na tento účel používa elektrický signál. Elektromagnetická indukcia Pri zázname a nasledovnom prehrávaní zvuku má veľký význam jav elektromagnetickej indukcie. V princípe ide o vznik indukovaného napätia, spôsobený zmenou magnetického poľa napr. ak do cievky v pokoji vkladáme a vzápätí vyberáme magnet, tak v cievke sa indukuje elektrické napätie. Prúd je tým väčší, čím rýchlejšie magnet vkladáme a vyberáme. A funguje to aj naopak t.j. ak máme magnet voľne vložený v dutine cievky a cievkou necháme prechádzať elektrický prúd, vzniká v cievke magnetické pole a to potom pôsobí na magnet v jej vnútri. Čím väčší prúd cievkou tečie, tým je magnetické pole cievky silnejšie. Na pretransformovanie akustického signálu (zvuku) na elektrický, slúži mikrofón. V praxi môže byť zvuk charakterizovaný zmenou tlaku prostredia (podtlak, pretlak). Táto zmena tlaku vyvoláva pohyb membrány. Membrána rozkmitá magnet v cievke a jeho pohyb spôsobí vznik príslušného prúdu v cievke t.j. zmena zvuku sa zmenila na elektrický signál. Analogicky, ale obrátene, je to u reproduktorov t.j. elektrický signál privedený na cievku v nej vytvorí magnetické pole. Vplyvom magnetického poľa sa magnet spojený s membránou pohne. Rozkmitaná membrána reproduktora rozkmitá vzduch pred reproduktorom t.j. z elektrického signálu dostávame zvuk. Na tomto princípe sú založené všetky druhy zvukového záznamu. Najpoužívanejšie sú gramofónová platňa, magnetický pás a digitálny disk.
GMS L7 Zvuk na gramofónovej platni je zaznamenaný v drážke vyrytej na povrchu platne. Pohybujúca sa po nej ihla sníma (sleduje) jej nepravidelný tvar. Rýchlosť, s ktorou sa hrot pohybuje od jednej strany drážky k druhej určuje výšku tónu. Rozsah vychýlenia určuje hlasitosť. Pri magnetickom páse je zvuk zaznamenaný v podobe magnetickej stopy. Na páse sa vytvára magnetický obraz zaznamenávaných zvukov tým, že sa čiastočky magneticky orientujú zhodne s vytváraným magnetickým poľom. Pri prehrávaní sa pás pohybuje pred hlavou a vybudzuje v nej elektrické impulzy odpovedajúce magnetizácii pásu v danom mieste.. Pri reprodukcii zvuku z CD média laserový lúč číta stopu v podobe binárneho kódu (ako série jamôk a prázdnych miest na povrchu disku reprezentujúce 0 a 1 a ten potom D/A prevodník prevedie na akustický signál. 7.4.5 Digitálny zvuk Na to aby sme mohli zvuk spracovať počítačom musí byť najprv digitalizovaný, čiže transformovaný zo spojitého signálu na číslicový. Kvalita digitálneho záznamu zvuku závisí na kvalite analógového signálu a jednak na kvalite prevodu. Prevod je charakterizovaný vzorkovacou frekvenciou a rozlíšením (počtom kvantovacích stupňov). Pri digitalizácii sa vychádza z tzv. Nyquistovho teorému, ktorý hovorí, že spojitý signál musí byť vzorkovaný dvojnásobnou frekvenciou ako je frekvencia vzorkovaného signálu. Digitalizácia sa robí pomocou analógovo-digitálneho prevodníku. Táto metóda sa nazýva pulzno-kódová modulácia PCM (Pulse Code Modulation). Celý proces digitalizácie pozostáva z troch krokov: 1. Odstránenie vyšších frekvencií, ako dvojnásobok frekvencie vzorkovaného signálu. 2. Vzorkovanie analógového signálu a meranie úrovne jednotlivých vzoriek. 3. Priradenie digitálnych hodnôt nameraným úrovniam. Pri prehrávaní zvuku sa používa digitálno-analógový prevodník a celý proces pozostáva z dvoch krokov: 1. Generovanie napätia na základe digitálnej hodnoty vzorky. 2. Filtrovanie signálu pre vytvorenie hladkej analógovej zvukovej vlny. 29
Za účelom štandardizácie digitálneho zvuku boli navrhnuté štyri kvalitatívne formáty uvedené v tabuľke 2. Tabuľka 2 Formáty digitálneho zvuku Vzorkovacia frekvencia Parametre vzorkovania 8 khz 8 bit A-law PCM, -law-pcm, mono 11,025 khz 8 bit linear PCM, mono a stereo 22,05 khz 8 bit linear PCM, mono a stereo 44,1 khz 16 bit linear PCM, mono a stereo Súbory vznikajúce pri najvyššej vzorkovacej frekvencii sú pomerne rozsiahle a preto sa často znižuje vzorkovacia frekvencia. Nie je to však jediná možnosť ako redukovať množstvo dát vznikajúcich pri digitalizácii. Ďalšou možnosťou je použitie inej bitovej hĺbky digitálneho signálu. Bitová hĺbka tiež nazývaná aj kvantovanie a určuje takisto kvalitu výsledného digitálneho záznamu, pretože určuje hodnotu odstupu signál/šum a dynamiku záznamu. Pre zaznamenávanie hudby na štandardných hudobných kompaktných diskoch sa používa formát CD-DA. Kvalita zvuku je veľmi vysoká, používa sa vzorkovacia frekvencia 44,1 khz a 16 bitové lineárne vzorkovanie, ktoré zaručuje lineárny frekvenčný rozsah do 20 khz, rozlíšenie 16 bitov a dosahuje sa dynamika 96 db a nelineárne skreslenie rádu tisícin percenta. Pri nástupe zvuku do oblasti počítačov postupne pribudli ďalšie formáty a bolo nutné vytvoriť aj normy, ktoré opisujú formáty pre prenos digitálnych signálov a vzájomné prepojovanie prístrojov. Medzi najpoužívanejšie štandardy patrí napr. AES/EBU a S/PDIF, ktoré opisujú formát signálu pre prenos. Pre definíciu štruktúry dátových súborov sa najčastejšie používajú formáty WAV, AIFF, SDII, QuickTime. Pre zaznamenávanie reči sa presadili formáty A-law-PCM a μ-law-pcm pracujúce s logaritmickým kvantovaním, ktoré dosahuje lepšiu kvalitu zvuku pri nižšej bitovej šírke ako systémy s lineárnym kvantovaním. Pre prenos hudobných dát sa používa formát MIDI. Predstavuje prístup v spôsobe spracovania hudby, ktorý umožňuje skladať a vytvárať hudbu na počítači. MIDI formát je tvorený predpismi, ktoré určujú ako sa má tón vytvoriť. Nekódujú sa tóny, ale informácie o tom, aké klávesy a akou rýchlosťou boli stlačené. Tieto dáta sú zapísané sekvencerom na základe akcií prevedených MIDI nástrojom, väčšinou klávesnicou MIDI nástroja. Tóny sú tvorené syntetizérom na základe príkazov, ktoré mu posiela sekvencer. MIDI má mnoho
GMS L7 výhod, pretože uloženie dát vedie k veľkej úspore kapacity pamäte. MIDI súbory a funkcie sekvencera dovoľujú nekonečné kombinácie editovania, je možné meniť zvuky nástrojov a tempo bez veľkých znalostí hudby. Pomocou funkcií sekvencera a syntetizátora je možné vytvoriť tóny a zvukové efekty, ktoré by nebolo možné reálne zahrať. Kvalita zvuku závisí predovšetkým na MIDI zariadení. 7.4.6 Digitálne audio formáty WAV WAV (Wave format) bol vytvorený firmou Microsoft pre platformu PC/Windows. Dnes sa používa ako univerzálny formát. Dáta sú nekomprimované navzorkované zvuky podobne ako na audio CD. Zvuk môže byť mono alebo stereo, s rôznou frekvenciou vzorkovania a bitovou hĺbkou (rozlíšením) 8 alebo 16 bitov. CD kvalita je stereo, 44 100 Hz, 16 bitov. Dnes sa môžeme stretnúť aj so súbormi WAV, ktoré obsahujú zvuk skomprimovaný ako MP3. Formát sa nehodí pre prenos po internete, lebo v pôvodnej verzii je príliš veľký. MP3 MP3 (MPEG-1 Audio Layer-3) je štandardný algoritmus a formát pre kompresiu zvuku do veľmi malého súboru (pomer až 1:12 pri zachovaní kvality). Mieru kompresie udáva takzvaný bitrate, počet bitov, ktoré sa pri prehrávaní spracujú za sekundu. Najčastejšie sa stretáváme s bitrate 128 Kb/s, 192 Kb/s alebo aj so súbormi s premenlivým bitrate. Kompresia je založená na orezaní záznamu o zvuky, ktoré ľudský mozog nemôže vnímať. Môžeme sa stretnúť aj so staršou verziou MP2 vhodnou pre prenos audio súborov po internetu. MIDI MIDI (Musical Instrument Digital Interface) je formát používaný pre záznam a prehrávanie zvukov na syntetizátoroch. Hardvérovo ho podporuje aj mnoho zvukových kariet. V súbore je zapísané len čo sa má hrať. Preto už aj pri malej veľkosti súboru možno dosiahnuť veľmi pekné nahrávky. Ďalšie formáty sú: WMA OGG Vorbis AIFF (Apple) 31
Real Media (RA) 7.4.7 Kompresia zvukových dát Kompresia audiosúborov je v súčasnosti veľmi dôležitá najmä z hľadiska multimediálnej komunikácie pomocou počítačových sietí. Cez internet sa v čoraz väčšej miere prehrávajú audio súbory, ktoré obohacujú webové stránky serverov. Ak sa prehráva audiosúbor priamo zo servera, vyžaduje sa, aby boli transportované malé množstvá dát. Je dôležité, aby sa z prenesených dát dostatočne verne reprodukovala hudobná nahrávka alebo hovorené slovo. Nastáva určitý rozpor, keď malé prenášané množstvá dát nepostačujú na verné reprodukovanie hudby a naopak, veľké prenášané množstvá dát sú zasa nevyhovujúce z hľadiska plynulosti prehrávania audiosúborov. Dôležitú úlohu tu preto zohráva počet prenesených bitov za jednotku času tzv. dátová priepustnosť. Čím je dátová priepustnosť menšia, tým sa prenáša menšie množstvo dát. To má za následok horšiu kvalitu prenášaného zvuku. Preto treba hľadať kompromis medzi množstvom prenášaných dát za jednotku času a kvalitou. V súčasnosti existujú audiokompresné technológie, ktoré dokážu pri dátových priepustnostiach pohybujúcich sa okolo 100 kbit/s, dosiahnuť audiokvalitu adekvátnu CD kvalite, t.j. 44,1 khz pri 16-bitovom rozlíšení a stereo móde. Komprimovaním audio ale aj video nahrávok sa zaoberá pracovná skupina MPEG (Motion Picture Experts Group). Obdobne ako pri grafickom formáte JPEG aj zvukové súbory MPEG sú komprimované algoritmami založenými na stratovej kompresii. Zvukové informácie nezahrnuté do výsledného komprimovaného súboru sú takmer nepostrehnuteľné pre ľudský kognitívny systém, pretože ľudský mozog interpretuje zvuky a hudbu inakšie, než sú zaznamenané. Informácie nezahrnuté do komprimovaného zvukového súboru nie sú počuteľné ľudským uchom a výsledný dojem z prehrávania takéhoto súboru je takmer nerozoznateľný od originálu. To je podstata psychoakustického princípu, používaného pri MPEG audiokompresii. Poslucháč ani na veľmi kvalitnom prehrávači nemusí postrehnúť tento rozdiel. Pri MPEG kompresii sa takisto využíva skutočnosť, že šum nie je počuteľný v hlasných pasážach. Tento jav, ktorý sa nazýva aj maskovací efekt, je princípom psychoakustického efektu.
GMS L7 Maskovací efekt využíva vlastnosť, že ak máme zvukový tón s frekvenciou 1 000 Hz a ďalší s frekvenciou 1100 Hz, ktorý má o 18 db nižšiu úroveň, nie je počuteľný, pretože je maskovaný prvým, silnejším tónom. Iný tón, takisto s úrovňou o 18 db nižšou, ale na frekvencii 2 000 Hz, bude však už počuteľný. Maskovací efekt spočíva v tom, že sa môže zvyšovať šumová úroveň okolo silného signálu, pretože tento šum nebude ľudským uchom počuteľný. Zvyšovať šumovú úroveň je to isté ako znižovať počet bitov pre záznam, čo v konečnom dôsledku predstavuje kompresiu. Stratová kompresia založená na MPEG technike je veľmi efektívna a dosahujú sa ňou vysoké kompresné pomery. Takéto hodnoty sú zaujímavé nielen pre prenos cez internet, ale aj pre záznam na bežné pamäťové médiá. Testovania preukázali, že pri dátovej redukcii 1 : 10 sa takmer zachová originálna kvalita hudobnej nahrávky. MPEG-1 Audio Layer III (MP3) Súbory komprimované touto technológiou sú známe ako MP3 súbory. Nejde o samostatný formát, ale MP3 je súčasťou MPEG-1 video formátu vyvinutého skupinou MPEG (Moving Pictures Expert Group) začiatkom 90-tych rokov 20. storočia. Príčinou ich popularity nie je len vysoký kompresný pomer pri výbornej kvalite zvuku, ale aj dostupnosť výkonných aplikácií, ktoré umožňujú kompresiu a takisto aj on-line dekompresiu hudobnej nahrávky počas práce s ostatnými aplikáciami. Súbory tohoto typu sa šíria nielen medzi počítačovými fanúšikmi, ale začínajú sa uplatňovať pri hudobných dielach amatérskych hudobných skupín. Kompresnú metódu vyvinuli vo Fraunhoferovom inštitúte v SRN. V roku 1987 sa tu začali práce na kódovaní audiosignálu v rámci projektu EUREKA EU-147 s názvom Digital Audio Broadcasting. Spolu s univerzitou v Erlangene navrhli a zostavili veľmi výkonný algoritmus, ktorý je štandardizovaný ako ISO-MPEG Audio Layer 3. Layer 3 je časť MPEG audio kódovacieho štandardu definovaného komisiou ISO / IEC WG11. Použitím techniky Layer 3 sa dosahujú nasledujúce kompresné pomery: 1 : 12 pre CD kvalitu (rozdiel v kvalite medzi originálom a komprimovaným súborom je takmer nepostrehnuteľný), 1 : 24 pre FM stereo kvalitu, 1 : 48 pre rádiovú kvalitu s krátkymi vlnami, 1 : 96 pre veľmi malé prenosové rýchlosti na sieti a pri najmenšej kvalite audio. 33
Vzhľadom na vysoké kompresné pomery sú v súčasnosti súbory MP3 jednou z volieb na prenos audioinformácií cez internet. Keďže sa prenáša menšie množstvo informácií, je nezanedbateľná aj celková úspora nákladov vyplývajúca z menších časov na prenos súborov. Veľkosť výsledného súboru závisí od veľkosti dátového toku udávaného v kilobitoch za sekundu. Platí vzťah, že čím je väčší dátový tok, tým je lepšia kvalita. Pri dátovom toku 256 kb/s je rozpoznanie rozdielu medzi originálom a kópiou prakticky už problematické. Pre bežné archivovanie hudby postačuje tok 128 kb/s a v prípade náročnejších skladieb 192 kb/s. ďalej samozrejme platí aj vzťah, že čím bude väčší dátový tok použitý pri kompresii, tým bude aj väčší objem údajov a teda výsledný súbor. Konkrétne veľkosti sú uvedené v tabuľke 3. Vo všeobecnosti platí, že pri dátovom toku 128 kb/s (CD kvalita) sú súbory vo formáte MP3 desať krát menšie ako originál. Tabuľka 3 Závislosť dátového toku a objemu údajov pri formáte MP3 Dátový tok (kb/s) Objem údajov (MB) WAV (nekomprimovaný) 37,2 96 kb/s 2,5 128 kb/s 3,3 160 kb/s 4,2 192 kb/s 5 256 kb/s 6,7 320 kb/s 8,4 TwinVQ Súbory majú extenziu VQF, sú menšie, ale vyžadujú pri kódovaní a prehrávaní väčšie výkony ako pri MP3. Ide o stratovú kompresiu. Formát TwinVQ (Transform Domain Weighted Interleave Vector Quantization) bol vyvinutý v Human Laboratories Interface, patriacom renomovanej spoločnosti Nippon Telegram and Telephone Corporation. Zaujímavosťou metódy TwinVQ je, že jednotlivé dáta nie sú priamo komprimované, ale sa skladajú do určitých segmentov vzoriek. Segmenty vzoriek sú porovnávané s vopred
GMS L7 pripravenými štandardnými vzorkami. Štandardný vzor, ktorý je najpodobnejší, sa vyberie ako audioreprezentant a počet asociovaných vzoriek je prenesený ako kompresný kód. Skreslenie pri kódovaní je minimálne dokonca i pri nízkych dátových priepustnostiach. Audionahrávka je regenerovaná pri zachovaní zvukovej vernosti originálnej nahrávke. Dekódovanie alebo tzv. regenerovanie audia z hudobných vzoriek sa uskutočňuje v reálnom čase, čo umožňuje obdobne ako pri MP3 súboroch dekódovanú hudbu zároveň aj počúvať. Formát TwinVQ svojou štruktúrou zaručuje ochranu autorských práv a obmedzenia pre distribúciu. Vlastná tvorba súboru VQF je obdobná ako pri MP3 súboroch. Existujú kodéry, ktoré umožňujú kódovať audiosúbory na základe kompresnej technológie TwinVQ až do kompresného pomeru 1:17 pre CD kvalitu. Audio kvalita komprimovaných súborov dosahuje vysokú úroveň a je takmer zhodná s originálnou nahrávkou. Ďalšie audio formáty Medzi novšie audioformáty patria AAC (Advanced Audio Coding), WMA9 (Windows Media Audio), Dolby AC-3, RealAudio8 a OggVorbis. Obvykle postačuje pre dosiahnutie CD kvality nižší dátový tok ako v prípade MP3. Formát AAC je integrovaný v štandarde MPEG-4 a počíta sa s ním pre zvukovú stopu pre filmy. Ide však o licencovaný formát a držiteľmi sú AT&T, Dolby, Fraunhofer a Sony. Tento formát implementovala v plnej miere zatiaľ len firma Apple do svojo multimediálneho nástroja Quicktime 6 a prostredníctvom on-line obchodu i-tunes ponúka hudbu na stiahnutie v tomto formáte. AAC má pri dátovom toku 128 kb/s lepší zvuk ako MP3. OggVorbis je dimenzovaný pre variabilný dátový tok (VBR) a poskytuje v tomto režime lepšie výsledky ako pri konštantnom toku (CBR). Tento jediný z uvedených formátov patrí do kategórie Open Source a dosahuje CD kvalitu už pri 64 kb/s. WMA dosahuje zatiaľ len priemerné výsledky. 7.4.8 Audio kodeky Pôvod slova "codec" (kodek je poslovenčené)) pochádza zo slov "encode" a "decode". Kodek je softvér v podobe knižnice (v prostredí Windows je to soubor s príponou DLL), ktorý zabezpečuje možnosť prehrávania, komprimovania a dekomprimovania audio súborov, ktoré uchovávajú iný, ako lineárny formát zvuku (teda komprimovaný v určitom pomere k originálu, z ktorého bol komprimovaný súbor získaný). V každom audio kodeku je 35
integrovaný model možností ľudského sluchu (psychoakustický model). Podľa tohto modelu kodér určuje, ktoré informácie originálnej skladby sú nadbytočné. Najznámejším príkladom je formát MP3 (MPEG I, Layer 3), ktorý ako každý iný podobný formát (WMA, OGG, VQF...) potrebuje mať nainštalovaný kodek, aby bolo možné do neho hudbu transformovať a prípadne ju zase spätne transformovať do pôvodného súboru. Najpoužívanejším MP3 kodekom je kvalitní Lame, ktorý vytlačil starší Blade. Niektoré kodeky sú už vo Windows obsiahnuté, ostatné sú buď součásťou programov (encoder/decoder, grabber, prehrávač), ktoré ich potrebujú, alebo je nutné ich nainštalovať samostatne. Medzi najpoužívanejšie zvukové kodeky patrí lineární PCM (predstavuje štandard pre záznam digitálneho zvuku), ADPCM, MSADPCM, GSM, Fraunhofer IIS MPEG Layer-3, Windows Media Audio, profesionálny AAC (normy MPEG-2 alebo MPEG-4), ATRAC3 a ďalšie. 7.4.9 Extrakcia hudobných stôp (grabovanie, ripovanie) Grabber resp. ripper sú programy slúžiace na kopírovanie stôp z hudobných CD na hard disk. Tento proces se nazývá audio extrakcia a počas neho číta CD mechanika digitálne audio zo stopy na CD a transformuje ho do zvoleného zvukového formátu a ten zapisuje v podobe súboru na hard disk (1 audio stopa = 1 súbor). Čím nižšou rýchlosťou grabujeme (grab = vytrhnúť, zhrabnúť, rip = roztrhnúť, rozpárať), tým je proces audio extrakcie presnejší. Pre veľmi presné výsledky a bezproblémovú korekciu chýb sa odporúča nepoužívať väčšie rýchlosti CD mechaniky ako 4x. Audio stopy môžeme pri extrakcii transformovať do štandardného formátu WAV (nekomprimovaný, vhodný pre budúce zásahy do nahrávky alebo opätovné napálenie) alebo priamo do niektorého z kompresných formátov, napr. do MP3. Väčšina dnešných grabovacích programov vie zároveň okrem samotnej extrakcie audia realizovať aj jeho kompresiu, a to súčasne. Mnoho programov je vlastne kombináciou grabberu a enkodéra/dekodéra, poprípade aj prehrávača. Medzi známe patria napr. Audiograbber, Exact Audio Copy, Easy CD-CD Extractor, Win DAC, FreeRIP,, Easy CD- Ripper.
GMS L7 Exact Audio Copy - seznam audio stop, úplně dole je datová stopa (multimediální prezentace kapely) 7.4.10 Zvuk v MMA Zvuk mal spočiatku v MMA len sprievodnú úlohu (signalizácia nejakého stavu a pod.). Neskôr s príchodom vhodného hardvéru (zvukových kariet) a odpovedajúceho programového vybavenia sa zvuk stal jedným z typov údajov nesúcich určitú informáciu a začal plniť obsahovú funkciu. Je ho možné využiť napr. vo výučbových programoch vo forme slovných komentárov, hudobných ukážok alebo pri simulovaní správnej výslovnosti pri vyučovaní cudzieho jazyka. Zvuk si môžeme predstaviť ako spojitý signál, ktorého základnými parametrami sú amplitúda a frekvencia. Zvukové údaje môžeme rozdeliť do troch základných skupín: 1. Hlas - je používaný ako vstupný alebo výstupný zdroj údajov. 37