Analýza databázy hovoriacich Mobildat DIPLOMOVÁ PRÁCA DUŠAN VIDIEČAN ŽILINSKÁ UNIVERZITA V ŽILINE Elektrotechnická fakulta Katedra telekomunikácií Študijný odbor: TELEKOMUNIKÁCIE Vedúci diplomovej práce: Ing. Martin Paralič Stupeň kvalifikácie: inžinier (Ing.) Dátum odovzdania diplomovej práce: 19. 05. 2006 ŽILINA 2006
Abstrakt Práca je zameraná na popis a skúmanie možností využitia databázy Mobildat. Podrobnejšie sa zaoberá jednou z možností využitia databázy, ktorou je formantová analýza. Ďalej práca popisuje základné metódy analýzy luďskej reči. Na ich základe sa dajú určiť frekvenčné hodnoty formantov ľudskej reči pre jednotlivé samohlásky. Tieto hodnoty sú taktiež v práci uvedené.
Žilinská univerzita v Žiline, Univerzitná knižnica ANOTAČNÝ ZÁZNAM - DIPLOMOVÁ PRÁCA Názov práce: Analýza databázy hovoriacich Mobildat Priezvisko a meno:vidiečan Dušan školský rok: 2005/2006 Fakulta elektrotechnická Katedra telekomunikácií Počet strán: 36 Počet obrázkov: 9 Počet tabuliek: 4 Počet grafov: 0 Počet príloh: 7 Použitá lit.: 7 Anotácia v slovenskom (českom) jazyku: Práca je zameraná na popis a skúmanie možností využitia databázy Mobildat. Podrobnejšie sa zaoberá jednou z možností využitia databázy, ktorou je formantová analýza. Ďalej práca popisuje základné metódy analýzy luďskej reči. Na ich základe sa dajú určiť frekvenčné hodnoty formantov ľudskej reči pre jednotlivé samohlásky. Tieto hodnoty sú taktiež v práci uvedené. Anotácia v cudzom jazyku ( angl. resp. nemecký): This work is focused on the description and search of possibilities of exploitation database Mobildat. It deals with one of the possibilities of exploitation in detail, that is formant analysis. The work describes basic methods of analysis human speech. On the their ground is possible to define frequency values of formants human speech for vowels. This values are noticed in work, too. Kľúčové slová: ARR, LPC, LSP, kepstrum, formant, formantova analýza, Mobildat, Speechdat, databáza, spektrum, kepstrálna analýza Vedúci práce: Ing. Martin Paralič Recenzent práce: Ing. Milan Rusko Dátum odovzdania práce: 19.5.2006 Pri vyplňovaní nepoužívajte skratky! Formulár vypisujte strojom alebo paličkovým písmom!
Obsah Zoznam obrázkov a tabuliek Zoznam použitých skratiek Zoznam použitých symbolov Úvod...1 1 Databáza Mobildat...2 1.1 Štruktúra doprovodného súboru...2 1.1.1 Záhlavie doprovodného súboru...3 1.1.2 Telo doprovodného súboru...6 2 Analýza možností využitia databázy Mobildat...7 2.1 Rozpoznávanie reči...7 2.2 Meranie kvantity krátkych a dlhých slovenských samohlások...9 2.1 Formantová analýza...11 3 Formy analýzy ľudskej reči...14 3.1 Reč a rečový signál...14 3.2 Model rečovej komunikácie...15 3.3 Fyziologický model vzniku reči...16 3.4 Proces vytvárania reči človekom...18 3.5 Elementy artikulačnej fonetiky pri tvorení znelých zvukov...19 3.6 Prehľad metód analýzy formantov...21 3.6.1 Banka digitálnych filtrov...22 3.6.2 Fourierova transformácia...25 3.6.3 Lineárna prediktívna analýza...24 3.6.4 Lineárne spektrálne páry...28 3.6.5 Kepstrálna analýza...29 4 Formanty pre slovenský jazyk...32 Záver...34 Zoznam použitej literatúry...36
Zoznam obrázkov a tabuliek Obrázky Obr. 2.1. Bloková schéma automatického merania kvantity v rečovej databáze...11 Obr. 3.1. Rečový komunikačný reťazec...16 Obr. 3.2. Hlasové ústroje človeka...17 Obr. 3.3. Zjednodušený fyziologický model produkcie reči...19 Obr. 3.4. Postupnosť operácií pri konverzii rečového signálu na súbor...21 Obr. 3.5. Prehľad metód analýzy formantov...22 Obr. 3.6. Model spektrálnej analýzy rečového signálu bankou filtrov...23 Obr. 3.7. LPC model produkcie reči...25 Obr. 3.8. Nuly polynómu z jeho palindromickej a antipalindromickej časti...29 Tabuľky Tab. 3.1. Frekvenčné hodnoty formantov...20 Tab. 4.1. Frekvenčné hodnoty formantov...33 Tab. 4.2. Frekvenčné hodnoty formantov pre mužov...33 Tab. 4.3. Frekvenčné hodnoty formantov pre ženy...33
Zoznam použitých skratiek LHD LBD ELF CMT DBN VOL SES REG ENV NET PHM SCD SEX AGE ACC DIR SRC CCD CRP REP RED RET BEG END SAM SNB začína ním záhlavie doprovodného súboru končí ním záhlavie doprovodného súboru ukončuje doprovodný súbor a kontroluje náhodné skrátenie súboru identifikuje poznámkový riadok identifikuje názov databázy identifikuje CD-ROM identifikuje číslo sekcie identifikuje volací región identifikuje volacie prostredie identifikuje telefónna sieť identifikuje model telefónu identifikuje kód volajúceho identifikuje pohlavie volajúceho identifikuje vek volajúceho identifikuje nárečie volajúceho identifikuje adresár, v ktorom sa nachádza zvukový súbor identifikuje názov zvukového súboru identifikuje súhrnný kód identifikuje súhrnné opakovanie identifikuje miesto, kde bol nahrávací prístroj lokalizovaný identifikuje dátum nahrávania zvukového súboru identifikuje čas nahrávania zvukového súboru počiatočné pole špecifikujúce počiatočný bod reči vo vnútri dátového súboru koncové pole špecifikujúce počiatočný bod reči vo vnútri dátového súboru identifikuje vzorkovaciu frekvenciu v Hz identifikuje počet bytov na vzorku
SBF SSB QNT LBR LBO AAR DTW HMM FFT DFT LPC LSP identifikuje poradie vzorkovacích bytov identifikuje počet významných bitov na vzorku identifikuje kvantovanie špecifikujúce kódovanie zvuku obsahuje informácie o získaní okna špecifikuje rozčlenenie toho, čo rečník predniesol automatický rozpoznávač reči dymamické časové krivenie skryté Markovove modely rýchla Fourierova transformácia diskrétna Fourierova transformácia lineárne prediktívne kódovanie lineárne spektrálne páry
Zoznam použitých symbolov H(z) k pre s(n) { S i ( n) } i= 1,2... Q s(f) w(n) N u(n) G Q a i E R m (i) ϖ F v h(n) u(n) s ˆ( n) prenosová funkcia filtra konštanta, najčastejšie v rozsahu 0,4 až 1 rečový signál pásmovo obmedzené zložky rečového signálu spektrum rečového signálu s(n) oknovacia funkcia šírka okna budiaca postupnosť koeficient zosilnenia rád modelu lineárne predikčné koeficienty stredná kvadratická chyba krátkodobá autokorelačná funkcia m tého mikrosegmentu kruhová frekvencia vzorkovacia frekvencia impulzová odozva budiaca funkcia komplexné kepstrum
Úvod Ľudská reč je súvislý, časovo premenný proces. Je nositeľom určitej informácie od rečníka k poslucháčovi a je zakódovaná a zároveň prenášaná pomocou akustického vlnenia. Reč je vytváraná ovplyvňovaním výdychového prúdu vzduchu z pľúc hlasovým ústrojenstvom človeka, začínajúceho hlasivkami a končiaceho perami. Pozorovaním rečoveho signálu (získaného napr. z mikrofónu), sa dá zistiť, že takýto signál obsahuje oblasti, ktoré sú viacmenej periodické, vtedy ide o znelé časti reči. A nájdeme v ňom tiež oblasti, ktoré majú charakter šumu, tieto časti sú neznelé. Znelosť, prípadne neznelosť je spôsobená tým, či výdychový prúd vzduchu z pľúc rozkmitá hlasivkovú štrbinu alebo nie. Súčasná doba je charakteristická veľkým rozmachom digitálneho spracovania reči, ktoré vychádza z akustickej analýzy reči. Cieľom akustickej analýzy reči je konverzia rečového signálu na súbor vektorových parametrov signálu. Takáto parametrizácia je založená na hľadaní vhodného modelu rečového signálu, ktorý najlepšie aproximuje jeho zvolenú charakteristiku. Parametre, reprezentujúce prenosovú funkciu vokáloveho traktu, sa získavajú estimáciou obálky spektra rečového signálu. Najpoužívanejšie algoritmy estimácie obálky spektra sú opísané v kap. 3.6. Základom väčšiny metód akustickej analýzy reči je predpoklad, že sa vlastnosti rečového signálu v priebehu času menia pomaly. To vede k možnosti aplikácie tzv. metód krátkodobé analýzy, pri ktorých sa rečový signál spracuváva po jednotlivých krátkych úsekoch dĺžky od 10 do 30 ms. Na týchto úsekoch je ľudská reč relatívne stabilizovaná a môžeme ju klasifikovať. V súčasnosti sa veľmi často používajú systémy automatickej rečovej komunikácie. Jadrom každého systému automatickej rečovej komunikácie je blok automatickej klasifikácie reči. Väčšina klasifikátorov reči pracuje na základe učenia. K učeniu je potrebné pomerne veľké množstvo rečových dát, spoločne s textovým popisom ich obsahu. Ak chceme získať kvalitný klasifikátor reči, rečové dáta musia byť vyvážené vzhľadom pohlavie, vek, nárečie a región hovoriacich. Aby bolo rovnomerné zastúpenie hovoriacich pre celú oblasť využitia klasifikátora (napr. pre Slovensko). Hlavne na tento účel bola vytvorená databáza MobilDat, ktorá je popísaná v kap.1.
1 Databáza Mobildat Databáza MobilDat je určená predovšetkým na učenie a testovanie klasifikátorov telefónnej reči. Databáza je plne kompatibilná so špecifikáciou Speechdat a obsahuje nahrávky 50 rôznych prehovorov od 1000 rôznych hovoriacich (k dispozícii je 500 nahrávok od mužov a 500 od žien.), teda spolu obsahuje 50000 zvukových súborov. Nahrávka pozostáva z poväčšine čítaného textu vo forme samostatných slov a predpísaných viet, no objavujú sa aj položky, ktoré obsahujú spontánne (nečítané) odpovede (príklad nahrávky je uvedený v prílohe č.1). Hovoriacimi sú obyvatelia Slovenska bez rečníckych skúseností a prehovory sú prednášané štýlom bežným pri telefonovaní. Od každého hovoriaceho sú nahrané takéto prehovory: aplikačné slová, veta obsahujúca aplikačné slovo, izolované číslo izolovaná číslica, reťazec desiatich izolovaných číslic, spojené číslice (PIN kód, číslo kreditnej karty, telefónne čísla,..), dátumy, hláskované slová (mestá, umelé slová,...), množstvo peňazí, prirodzené čislo, názov mesta, názov firmy, spontánne odpovede na otázky, foneticky bohaté vety, foneticky bohaté slová, vyjadrenia času (absolútneho, relatívneho). Databáza je vyvážená vzhľadom na tieto parametre hovoriacich: pohlavie, vek, nárečie a región. Databáza má svoje zvukové súbory sú uložené v nasledujúcom formáte: bitové rozlíšenie 8-bit, vzorkovacia frekvencia 8-kHz, A-law kódovanie (odporúčanie CCITT G.711). Ku každému zvukovému súboru existuje príslušný anotačný doprovodný súbor vo formáte ASCII SAM (jeho štruktúra je v prílohe). Zvukové súbory obsahujú telefónnu reč, takže pri práci s databázou sa dajú očakávať použiteľné výsledky od 300 do 3400 Hz. Táto oblasť sa dá považovať za dostatočnú pre náš výskum, pretože pokrýva väčšinu pásma výskytu významných formantov samohlások, ktoré sú hlavnými nositeľmi energie rečového signálu. 1.1 Štruktúra doprovodného súboru Je to textový súbor kde každý riadok môže mať dĺžku 80 znakov a končí s <CR><LF> (podľa MS DOS formátu). Vždy začína s mnemonockým LHD: a končí s ELF:.
Mnemonické LBD: delí doprovodný súbor do dvoch sekcií, a to sú: ZÁHLAVIE a TELO doprovodného súboru. 1.1.1 Záhlavie doprovodného súboru Záhlavie doprovodného súboru začína s mnemonickým LHD: a končí mnemonickým LBD:. Identifikačné riadky: Začínajú mnemonickým LHD:, ktorý identifikuje formát (napr. SAM) a verziu (napr. 5.10). ELF: ukončuje doprovodný súbor a kontroluje náhodné skrátenie súboru. mnem. formát položky príklad komentár LHD: %s, %d.%02d SAM, 5.10 formát + verzia ELF: koniec doprovodného súboru CMT: identifikuje poznámkový riadok mnem. formát položky príklad komentár CMT: %.75s toto je komentár komentárový riadok V databáze sa niekedy nevyskytuje mnemonické CMT:, pretože to nie je potrebné. Riadky sekcie: DBN: identifikuje názov databázy; VOL: identifikuje CD-ROM, kde je daný súbor nahraný. Číslovať sa začína od 1 ; SES: identifikuje číslo sekcie, to je kód priradený nahrávacej sekcii v závislosti od času jej zozbierania, je to jednoducho postupnosť štyroch čísel začínajúcich 0000 a končiacich 9999. mnem. formát položky príklad komentár MobilDatSK Slovak_Mo DBN: %.75s bile_network (MobilDatSK_Slovenská_ názov databázy Mobilná_Sieť) VOL: %.11s MOBIL3SK_01 identifikácia CD-ROM SES: %04d 0345 číslo sekcie
Riadky nahrávacích pomerov: REG: identifikuje volací región; ENV: identifikuje volacie prostredie; NET: identifikuje telefónna sieť; PHM: identifikuje model telefónu. mnem. formát položky príklad komentár REG: %.75s zapad (západ) volací región ENV: %.75s street (ulica) volacie prostredie NET: %.75s Mobile (mobilná) telefónna sieť PHM: %.75s cellular (bunkový) model telefónu Riadky volajúcich SCD: identifikuje kód volajúceho; SEX: identifikuje pohlavie volajúceho; AGE: identifikuje vek volajúceho; ACC: identifikuje nárečie volajúceho; mnem. formát položky príklad komentár SCD: %04d 0000 kód volajúceho SEX: %c M pohlavie volajúceho AGE: %d 53 vek volajúceho ACC: %.75s zapad (západ) nárečie volajúceho Riadky súboru DIR: identifikuje adresár, v ktorom sa nachádza zvukový súbor; SRC: identifikuje názov zvukového súboru; CCD: identifikuje súhrnný kód; CRP: identifikuje súhrnné opakovanie; REP: identifikuje miesto, kde bol nahrávací prístroj lokalizovaný; RED: identifikuje dátum nahrávania zvukového súboru; RET: identifikuje čas nahrávania zvukového súboru, pričom formát času je HH:MM:SS. :SS je nastavené na :00.
BEG: počiatočné pole špecifikujúce počiatočný bod reči vo vnútri dátového súboru. Je nastavené na nulu. END: koncové pole špecifikujúce počiatočný bod reči vo vnútri dátového súboru. To sa zhoduje s dĺžkou súboru mínus jedna. mnem. formát položky príklad komentár DIR: \\%.8s\\...\\%.8s \\MOBIL3SK\BLOCK00\ priečinok zvukového súboru SES0000 SRC: %8s.%.3s B30000A1.SKA meno zvukového súboru CCD: %.2s A1 súhrnný kód CRP: %.02d súhrnné opakovanie (SDB) REP: %s, %s, %s UI SAV, Bratislava, Slovakia nahrávacie miesto: miesto, mesto, krajina RED: %02d/%.3s/%4d 26/Apr/2004 dátum nahrávania RET: %02d:%02d:%02d 14:09:00 čas nahrávania (:SS = :00) BEG: %lu 0 začínajúca pozícia END: %lu 23112 končiaca pozícia Riadky kódovania dátového súboru SAM: identifikuje vzorkovaciu frekvenciu v Hz (nastavená na 8000); SNB: identifikuje počet bytov na vzorku (nastavené na 1); SBF: identifikuje poradie vzorkovacích bytov. Nie je podstatné pri A-law kódovaní a preto je prázdne SSB: identifikuje počet významných bitov na vzorku (nastavené na 8); QNT: identifikuje kvantovanie špecifikujúce kódovanie zvuku t.j. A-LAW. mnem. formát položky príklad komentár SAM: %d 8000 vzorkovacia frekvencia SNB: %d 1 počet bytov na vzorku SBF: %2s poradie vzorkovacích bytov SSB: %d 8 počet významných bitov na vzorku QNT: %.75s A-LAW kvantovanie
1.1.2 Telo doprovodného súboru Telo doprovodného súboru začína s mnemonickým LBD:, ktoré ho oddeľuje od záhlavia. Tu sú popísané všetky položky vyslovené rečníkom. LBR: riadok obsahuje informácie o získaní okna (označený počas nahrávky) a okamžitý text, t.j. to čo rečník predniesol; LBO: špecifikuje rozčlenenie toho, čo rečník predniesol (ortograficky). Použité orografické texty sú písané použitím množiny znakov ISO-8859-2 (Latin 2). mnem. formát položky príklad komentár LBD: kľúčové slovo tela súboru LBR: %lu, %lu, %d, %d, %d, %s LBO: 0,59752,8,-6538, 7050,1 4 5 8 7 0 2 9 3 6 označenie počas nahrávky: začiatok, koniec, zisk, min, max, prednesený text (ortograficky) %lu, %lu, %lu, %s 0,11236,22472, stop ortografické značenie: začiatok, stred, koniec, ortograficky popísaný text Konkrétny príklad doprovodného súboru je uvedený v prílohe č.2.
2 Analýza možností využitia databázy Mobildat Vybudovanie rečovej databázy slovenskej reči je nevyhnutné pre vývoj automatizovaných systémov rozpoznávania reči (databáza slúži predovšetkým pre účely ich učenia a testovania), identifikácie či verifikácie hovoriaceho a identifikácie jazyka (1). Ďalej budú spomenuté niektoré konkrétne spôsoby využitia databázy. 2.1 Rozpoznávanie reči Počutá reč sa v uchu rozkladá na jednotlivé frekvencie. Do mozgu prichádzajú vzruchy podľa toho, ako intenzívne je daná frekvencia vo zvuku zastúpená. Prijaté vzruchy sa v mozgu porovnávajú so slovníkom obsahujúcim asi 50000 slov (Psutka, 1995). Ľudské ucho má vynikajúcu rozlišovaciu schopnosť a mozog dokáže podľa kontextu vyraďovať nevhodných kandidátov. Preto je pre človeka ľahké rozoznávať aj veľmi podobné slová. Systém pre automatické rozpoznávanie reči stojí pred rovnakou úlohou ako ľudské ucho a mozog, teda malé odlišnosti zvukov musí zanedbať, lebo odlišnosti hovoria iba o rôznom rečníkovi a podobne malé odlišnosti musí zohľadniť. Tieto zmeny totiž znamenajú aj odlišný význam. Vzhľadom na to, že hlasy ľudí sú veľmi rôznorodé a slová veľmi podobné je to naozaj zložitá úloha. Z uvedených skutočností vyplýva, že je náročnejšie vytvoriť systém, ktorý by rozumel každému človeku hovoriacemu v danom jazyku, ako vytvoriť systém, ktorý by rozumel iba jednému konkrétnemu človeku. V praxi to zatiaľ funguje tak, že počas spracovania zvukových vzoriek (podrobnosti viď nižšie) sa buď použijú vzorky od viacerých ľudí, takto natrénovaný rozpoznávač potom má potenciál rozpoznať veľa ľudí, alebo vzorky len jedného hlasu, takto vytvorený rozpoznávač má ambíciu dosť presne rozumieť jednému človeku.
Postup trénovania akustického modelu: K natrénovaniu modelu je potrebné pomerne veľké množstvo rečových dát spoločne s textovým popisom ich obsahu. Ak chceme získať kvalitný klasifikátor reči, ktorý je nezávislý na konkrétnom hovoriacom, potom je nutné použiť databázu, kde sú uložené nahrávky získané minimálne od niekoľko stoviek hovoriacich. Vytvorenie takejto databázy by bolo časovo a finančne veľmi náročné. Aby bolo možné databázu použiť na učenie klasifikátora reči, musí navyše obsahovať okrem súborov s vlastnými nahrávkami zvukových súborov aj textové súbory. Tie musia obsahovať informácie o tom aké slová sa vyskytujú v nahrávke, prípadne hlásky alebo vety, prípadne nejaké ďalšie informácie ako napríklad vek rečníka, typ nahrávacieho zariadenia, miesto a dátum nahrávania, atď. A práve na tento účel bola vytvorená a je vhodné použiť databázu Mobildat. Postup samotného trénovania bude popísaný v nasledujúcich krokoch: Výber dát na trénovanie Ide o súpis všetkých dostupných rečových dát určených na trénovanie (samotná databáza Mobildat je rozdelená na učiacu a testovaciu časť). Nasleduje odstránenie všetkých problémových dát, t.j. dát obsahujúcich omyly, prerieknutia alebo odseknuté slova (vety) následkom predčasného či oneskoreného reagovania na záznam. Parametrizácia rečových nahrávok Vybrané rečové záznamy je potrebné pre účely učenia parametrizovať na zvolené koeficienty. Bežnými metódami parametrizácie rečového signálu, založenými na metóde krátkodobej analýzy sú napr. Melove koeficienty. Príprava slovníka a tvorba súboru s fonetickou transkripcíou Slovník sa získa napríklad z databázy Mobildat. Následne je prevedená jeho fonetická transkripcia. Fonetická transkripcia je rozpis slov na jednotlivé fonémy. Tento rozpis je nutný, pretože nie vždy sa slová čítajú, tak ako sa píšu. Napríklad slovo antibiotika sa vo skutočnosti číta skôr ako antybyjotyka, tak sa i foneticky rozpisuje. (ďalší príklad: c (cesta) je v MobilDat-e popísané ako t_s (t_sesta)). Ak máme teda, už vytvorený potrebný slovník, rozpoznávanie prebieha tak, že zo zvuku snímaného mikrofónom sa vypočítajú pozorovania podľa zvoleného algoritmu
(samozrejme musí ísť o ten istý algoritmus aký sa použil pri vytváraní slovníka) a následne sa porovnávajú s hodnotami slovníka. Vzhľadom na rôznorodosť reči nebudú vypočítané pozorovania nikdy rovnaké ako tie v slovníku, ale budú podobné. Preto je nutné hľadať podobné vzory a nestačí len porovnávať. Na hľadanie podobností sa používajú v rozpoznávaní reči nasledujúce prístupy: Dynamic Time Warping (DTW) Neurónové siete Skryté Markovove modely (HMM). 2.2 Meranie kvantity krátkych a dlhých slovenských samohlások Časovou, silovou a tónovou (resp. výškovou) moduláciou artikulačného prúdu (hlasu) vznikajú suprasegmentálne javy, ktoré sa na základné (segmentálne) jednotky navrstvujú alebo sa medzi ne vsúvajú (pauza). Ako jediný zo všetkých suprasegmentálnych javov má práve protiklad dlhých a krátkych samohlások a slabičného r, l schopnosť rozlišovať významy slov a tvarov, napr. latka látka, krik krík, sud súd, pokladnička pokladníčka, roztrhať roztŕhať atď. Názory na pomer krátkych a dlhých nositeľov slabičnosti sa v slovenskej jazykovede postupne menili. Podľa Paulinyho (1979, s. 141) Slovenská dlhá samohláska je skutočne dlhá, je totiž dva razy dlhšia ako krátka samohláska. Rovnako tak dvojnásobok dĺžky krátkej samohlásky majú diftongy a dvojnásobne dlhé sú aj dlhé slabičné spoluhlásky [r:], [l:]. Experimentálny výskum skutočného pomeru zvukovej realizácie krátkych a dlhých sonánt (Sabol 1984) však ukázal, že ich pomer je približne 1 : 1,6, keď trvanie krátkej sonanty bolo 79 ms a dlhej sonanty 125 ms. V závislosti od tempa reči v jednotlivých štýloch je tento pomer 1 : 1,34 (hovorový štýl), 1 : 1,66 (publicistický štýl) a 1 : 1,64 (umelecký štýl). Realizáciu kvantity samozrejme ovplyvňuje nielen jazykový štýl, ale aj poradie slabiky v slove, druh vokálu či hláskové okolie. Podľa Sabola optimálne trvanie krátkej sonanty je 60 100 ms a dlhej sonanty 100 140 ms. Pomer jednotlivých krátkych a dlhých vokálov vychádzal v uvedenej štúdii J. Sabola takto (3):
krátky vokál dlhý vokál a 86 ms á 135 ms e 76 ms é 99 ms i 74 ms í 99 ms o 73 ms ó 145 ms u 77 ms ú 110 ms Vzhľadom na to, že výskum kvantity v slovenskej jazykovede sa opiera najmä o údaje nachádzajúce sa v spomínanej štúdii, je tu možnosť využiť už vytvorenú špecializovanú databázu pre rozpoznávanie a syntézu reči (MobilDat) a zmerať na nej kvantitu krátkych a dlhých slovenských samohlások a porovnať získané hodnoty s uvedenými. Okrem zistenia absolútnej doby trvania, o ktorej sa dá predpokladať, že sa vzhľadom na charakter uvedenej databázy (telefónne nahrávky rečových prehovorov 1000 hovoriacich) bude podstatne odlišovať, je tu možnosť zmerať aj zachovanie pomeru krátkych a dlhých vokálov pri rozdielnych absolútnych dĺžkach. Taktiež by bola zaujímavé pozorovať analýzu rozptylu variačného rozpätia týchto dĺžok u väčšej skupiny hovoriacich, existenciu signifikantných rozdielov v kvantite krátkych a dlhých vokálov a ich pomeru u mužov a žien. Spôsoby merania kvantity krátkych a dlhých slovenských samohlások: Na samotné meranie by sa realizovalo pomocou automatického systému (obr. 2.1), ktorý by: 1. vyhľadal všetky výskyty požadovaného slova v databáze 2. k týmto výskytom by našiel zvukovú realizáciu celého prehovorenia 3. automaticky identifikoval začiatok a koniec úseku rečového signálu.
Samohláska Výber slova Nájdenie zvuku Vyseknutie fonémy Určenie dĺžky Štatistická analýza Obr. 2.1. Bloková schéma automatického merania kvantity v rečovej databáze 4. na základe anotovaného textu by sa našla (pomocou fonémového rozpoznávača) nami hľadaná samohláska 5. odmerala by sa jej dĺžka 6. z vyhodnotenia by sme na záver vylúčili neprirodzené dlhé hlásky, ktoré by očividne vznikli zaváhaním, alebo inou chybou hovoriaceho, a ich dĺžka by už teda nebola riadená jednoduchým vzťahom krátka/dlhá samohláska. Týmto spôsobom by bolo možné realizovať automatický akustický výskum kvantity na telefónnej rečovej databáze určenej pre učenie klasifikátora reči (3). 2.3 Formantová analýza Fyzikálnou podstatou reči je chvenie vzduchu, ktoré vnímame ako zvuk. Zdrojom zvukovej podoby jednotlivých hlások je výdychový prúd vzduchu z pľúc, ktorý je modifikovaný artikulačnými orgánmi človeka hlasivkami, hrdelnou dutinou, ústnou a nosnou, zubami, jazykom, čeľusťami a perami. Hlasivky sa pod tlakom výdychového prúdu vzduchu pri vytváraní znelých hlások rozkmitávajú, čím vzniká tzv. základní tón ľudského hlasu. Okrem toho sa v akustickom spektre hlások objavuje viacero vyšších zosilnených tónov, ktoré vznikajú rezonanciou v dutinách hlasového traktu. Týmto tónom sa u samohlások hovorí formanty. Z hľadiska vnímania reči sú pre určenie samohlások
najdôležitejšie prvé dva až tri formanty, ktoré sú pre každú samohlásku iné. Vyššie formanty, ktoré zostávajú pre všetky samohlásky rovnaké, obsahujú značnú časť informácie o farbe hlasu rečníka. Rozdiely v anatomickej stavbe artikulačných orgánov jednotlivých ľudí majú vplyv na akustické vlastnosti rečového signálu a prejavujú sa individuálnymi odchýlkami hlavne v hodnotách frekvencie základného hlasivkového tónu a vo frekvencii a šírke pásma jednotlivých formantov a rezonančných frekvencií. Napríklad frekvencia základného hlasivkového tónu sa u väčšiny ľudí pohybuje pri bežnom rozhovore v rozmedzí 150 až 400 Hz, pričom u žien je v priemerne dvakrát vyšší ako u mužov, a u detí vo veku okolo desať rokov sa pohybuje okolo hodnoty 300 Hz. Podobne frekvencie formantov sú u žien asi o 17 % a u detí vo veku okolo desať rokov asi o 25 % vyššie ako u mužov. Súčasné metódy rozpoznávania rečníka sa dajú rozdeliť do dvoch skupín podľa toho, akú informáciu pre rozpoznávanie využívajú. V reči je možné nájsť v podstate dva druhy informácie, ktorá charakterizuje rečníka charakteristiky nižšej úrovne a charakteristiky vyššej úrovne. Charakteristiky nižšej úrovne sú také charakteristiky, ktoré sa môžu zmerať a číselne vyjadriť. Patria sem teda napríklad vyššie zmienené hodnoty základného hlasivkového tónu, frekvencie, šírky pásma formantov a rezonančných frekvencií. Okrem toho sem patria tiež tempo reči, ktoré sa prejaví v rôznej dĺžke konkrétnych slov i v časovom kolísaní vnútri slov, intonácia a prízvuk, ktoré sa môžu popísať priebehom základného hlasivkového tónu, alebo hlasitosť, ktorá súvisí s amplitúdou rečového signálu. K charakteristikám vyššej úrovne patria dialekt, štýl reči a tiež špecifické spôsoby slovného vyjadrovania ako napríklad využívanie konkrétnych slov alebo konkrétnych druhov smiechu. Zatiaľ čo charakteristiky nižšej úrovne je možné pomerne ľahko využiť v automatických systémoch rozpoznávania rečníka, charakteristiky vyššej úrovne sa v takýchto systémoch v súčasnej dobe nevyužívajú, pretože je pomerne obtiažne ich číselne vyjadriť. Aj tak majú pri rozpoznávaní človeka podľa hlasu veľký význam. Podľa nich je možné totiž rozlíšiť, aké má daná osoba vzdelanie a povolanie, odkiaľ pochádza a podobne. Využitie týchto charakteristík má veľké možnosti napríklad v kriminalistike. Experti z tejto oblasti dokážu významným spôsobom znížiť okruh ľudí, ktorí prichádzajú do úvahy ako možní páchatelia. Nevýhodou charakteristík vyššej úrovne však je, že sú závislé na jazyku, akým daná osoba hovorí. Preto sa množstvo pracovísk po celom svete pokúša vyvinúť metódy, ktoré by boli jazykovo nezávislé. Tieto metódy sú založené na
pravdepodobnostnom modele rečníka, ktorý sa vytvára z charakteristík nižšej úrovne získaných z dostupných príhovorov daného rečníka.
3 Formy analýzy formantov ľudskej reči 3.1 Reč a rečový signál Komunikácia hovorenou rečou je jedným z predpokladov úspešných medziľudských vzťahov. V priebehu vývoja sa hovorená reč ukázala byť najlepším prostriedkom komunikácie medzi ľuďmi. Človeka však od nepamäti zaujímalo zvládnuť veci zdanlivo neprebádané, preto s postupným vývojom ľudskej spoločnosti sa zdokonaľovali aj spôsoby komunikácie hovorenou rečou, vznikali rečové komunikačné technológie, ktoré umožňovali komunikáciu medzi ľuďmi hovorenou rečou v reálnom čase aj na diaľku. Telefón sa stal nevyhnutnou súčasťou ľudskej existencie a telefónna sieť vo svojej drôtovej aj bezdrôtovej podobe obopína ako pavučina celú zemeguľu. V poslednom desaťročí však začala zemeguľu obopínať ďalšia sieť. Je to multimediálna telekomunikačná sieť, ktorá je integráciou počítačovej a telekomunikačnej siete. Počítače sa z výskumných ústavov postupne cez priemyselnú a komerčnú sféru dostali až do domácností. Podobne ako telefón pred niekoľkými desaťročiami, počítače a multimediálne telekomunikačné siete sa v súčasnosti stávajú veľmi dôležitým nástrojom získavania a prenosu informácií. Očakáva sa, že v blízkej budúcnosti počítače a multimediálne telekomunikačné siete budú poskytovať ľahký a rýchly prístup k množstvu informácií a služieb, ktoré zásadným spôsobom ovplyvnia každodenný život človeka. Zatiaľ čo používanie telefónu od začiatku bolo a stále je veľmi jednoduchou činnosťou, ktorú dokáže zvládnuť aj dieťa, používanie počítača je náročnejšie. Dokonca aj v priemyselne vyspelých krajinách iba časť populácie vie pracovať s počítačom a využívať ho naplno. Dôvodom je nedokonalé rozhranie medzi človekom a počítačom a z toho vyplývajúci pre človeka neprirodzený spôsob komunikácie s počítačom, obyčajne prostredníctvom klávesnice (prípadne počítačovej myši) a monitora. Takéto rozhranie je navyše absolútne nevyhovujúce pre kategóriu telesne či inak postihnutých ľudí, alebo ľudí, ktorých ruky sú zaneprázdnené inou činnosťou.
Jednou z veľmi dôležitých oblastí výskumu a vývoja v oblasti počítačových komunikačných technológií je vývoj tzv. interaktívnych rozhraní medzi človekom a počítačom, ktoré by komunikáciu človeka s počítačom čo najviac zjednodušili a priblížili človeku. Víziou, ktorá láka a fascinuje vedcov a inžinierov už niekoľko desaťročí, je vývoj takého rozhrania medzi človekom a počítačom, ktoré by človeku umožňovalo komunikáciu s počítačom hovorenou rečou. Pre mnohých z nich možnosť voľne komunikovať so strojom je zároveň výzvou na pochopenie procesov generovania a vnímania reči v medziľudskej komunikácii hovorenou rečou. 3.2 Model rečovej komunikácie Reč je základným komunikačným prostriedkom medzi ľuďmi. Integrálnou súčasťou tzv. rečového komunikačného reťazca (speech chain) je aj vnínanie reči (obr. 3.1). Produkcia reči človekom začína myšlienkou, ktorú hovoriaci chce odovzdať poslucháčovi. Táto myšlienka vzniká v mozgu rečníka, kde sa najprv vyberú vhodné slová a frázy reprezentujúce danú myšlienku. Ich usporiadaním podľa naučených gramatických pravidiel daného jazyka a pridaním ďalších lokálnych a globálnych charakteristických čŕt, ako napr. intonácia a prízvuk, zdôrazňujúcich aspekty celkového významu, nadobudne myšlienka lingvistickú (jazykovú) formu. Na základe takejto abstrakcie mozog vyrobí sekvenciu motorických príkazov, ktoré uvádzajú do pohybu sústavu artikulačných svalov vokálneho traktu a ten vygeneruje myslený rečový prúd v podobe akustického vlnenia. Prirodzeným prenosovým médiom reči je vzduch, ktorým sa akustické vlnenie prenáša ku sluchovým orgánom poslucháča aj samotného hovoriaceho. Akustické vlnenie, prijaté sluchovými ústrojmi vonkajšieho ucha poslucháča, je v strednom a vnútornom uchu transformované na sériu neurologických impulzov a interpretované v sluchovej časti mozgu ako slová a vety, vyjadrujúce myšlienky hovoriaceho. V prípade vlastného rečníka ide o spätnú väzbu, ktorá mu umožňuje priebežne monitorovať a riadiť činnosť hlasových orgánov. Jej strata výrazne prispieva k degradácii kvality rečového prejavu (napr. zajakávanie). Produkcia a vnímanie reči navzájom súvisia. Výskum v tejto oblasti, cielený aj na aplikácie v oblasti automatického rozpoznávania reči, sa sústreďuje na modelovanie produkcie a aj percepcie reči.
Obr. 3.1. Rečový komunikačný reťazec 3.3 Fyziologický model vzniku reči Ľudský hlas vzniká rýchlym pohybom vzduchu v hlasových ústrojoch človeka (obr. 3.2). Hlasové ústroje človeka začínajú bránicou a pľúcami, pokračujú priedušnicou, hrtanom a hltanom a končia nosovou a ústnou dutinou. V hrtane, medzi štítnou a hlasivkovou chrupavkou, sú napnuté dva pružné väzy hlasivky (vocal folds), medzi ktorými je úzka hlasivková štrbina (glottis). Priestor za hlasivkami sa nazýva vokálovým traktom (vocal tract). Pri pokojnom dýchaní sú hlasivky uvoľnené a vzduch z pľúc medzi nimi nerušene prechádza. Pri rozprávaní sa hlasivky napnú a ich okraje sa zovrú. Vzduch, ktorý je pri rozprávaní za pomoci bránice vytláčaný z pľúc, prúdi hrtanom, zväčšuje tlak na hlasivky a vynúti si rozovretie hlasivkovej štrbiny. Rozovretím hlasivkovej štrbiny sa zväčší rýchlosť vzduchu v štrbine, tlak sa zmenší a hlasivky sa k sebe opäť priblížia.
Tento dej sa periodicky opakuje, ako u tzv. piestovej píšťaly. Kmitaním hlasiviek vznikajú periodicky sa opakujúce vzduchové víry, ktoré postupujú ďalej hlasovým traktom, sú modulované pohybmi artikulačných ústrojov hlasového traktu (mäkké a tvrdé podnebie, jazyk, ďasná, zuby, pery, nosová dutina) a opúšťajú ho v podobe akustického vlnenia (reči, spevu a pod.). Obr. 3.2. Hlasové ústroje človeka Vyššie opísaný spôsob produkcie reči je typickým spôsobom produkcie tzv. znelých zvukov reči. Znelé zvuky (voiced sounds) sú charakteristické vokálovosťou sluchového vnemu, ktorý je daný periodickým budením hlasového traktu, vznikajúcim v hlasivkách. Typickými znelými zvukmi hovorenej slovenčiny sú hlásky a, e, i, o, u. Reč človeka sa však neskladá iba zo znelých zvukov, ale aj neznelých a zmiešaných zvukov. Neznelé zvuky (unvoiced sounds) vznikajú pretláčaním vzduchového prúdu cez úžinu alebo záver, ktoré vytvárajú artikulačné orgány na niektorom mieste hlasového traktu, napr. medzi perami, zubami, jazykom a podnebím a pod. Neznelé zvuky sú charakteristické svojou šumovou štruktúrou alebo tzv. explozívnosťou. Typickým neznelým zvukom je napr. šumová hláska s, alebo explozívna hláska t. Zmiešané zvuky (mixed sounds) vznikajú kombinovaním periodického kmitania hlasiviek a súčasného vytvorenia zúženia alebo záveru na niektorom mieste hlasového traktu. Typickým príkladom takého zvuku je znelá sykavka z, alebo znelá výbušná hláska d.
3.4 Proces vytvárania reči človekom Zdrojom rečových kmitov, ktoré sú fyzikálnou reprezentáciou reči, sú rečové orgány. Skladajú sa z hlasiviek, nosnej ústnej a hrdelnej trubice, mäkkého a tvrdého podnebia, zubov a jazyka. K týmto orgánom (obr. 3.3) treba ešte pridať zdroj hlasovej energie, t. j. pľúca a dýchacie svaly. Zdrojom akustickej energie pri tvorení všetkých samohlások a vôbec všetkých znelých hlások je kmitanie hlasiviek. Priestor medzi hlasivkami tvorí hlasivkovú štrbinu. Ak človek mlčí, potom chrupavky držia hlasivkovú štrbinu odkrytú, takže ňou môže bez odporu prechádzať vzduch potrebný na dýchanie. Pri vytváraní jednotlivých rečových zvukov sa hlasivky zvierajú a rozťahujú. Pod tlakom vzduchu, ktorý vychádza z pľúc, sa stiahnuté hlasivky stávajú pružnými a začínajú kmitať. Frekvencia kmitov závisí na tlaku vzduchu a na svalovom napätí hlasiviek. Táto frekvencia je u jednotlivcov rôzna a pohybuje sa v rozmedzí 150 až 400 Hz. Frekvencia kmitu hlasiviek F 0 charakterizuje základný tón ľudského hlasu, ktorý je prítomný pri tvorení všetkých samohlások a znelých spoluhlások. Reč inteligentného človeka je charakterizovaná určitou akustickou štruktúrou (amplitúdovo-frekvenčným časovým spektrom), lingvistickou štruktúrou (gramatikou a skladbou) a subjektívnym vplyvom osobnosti rečníka (intonácia, rytmus, farba hlasu a pod.). Za najmenšiu jednotku reči, ktorá môže rozlišovať jednotlivé slová, možno považovať fonému (hlásku). Fonémy sú od seba odlíšené spôsobom a miestom vzniku, činnosťou artikulujúceho orgánu, alebo celkovým sluchovým dojmom. Pri vytváraní rôznych hovorených výrazov, prostredníctvom hlasového ústrojenstva, je človek schopný svojimi artikulačnými orgánmi vytvoriť okolo dvanásť odlišných polôh, tzv. diferenciálnych príznakov. Fonémy sa spájajú do postupností vyslovených celkov, v ktorých nachádzame ďalšiu stavebnú jednotku slabiku. Slovo je určitou kombináciou slabík, pričom ich počet tvorí vždy celé číslo.
Obr. 3.3. Zjednodušený fyziologický model produkcie reči Pri vytváraní reči prichádzame do styku s dvoma zvukovými zdrojmi: hlasivkový zdroj s kváziperiodickým (kváziharmonickým) spektrom, šumový zdroj s aperiodickým (neharmonickým) spektrom. 3.5 Elementy artikulačnej fonetiky pri tvorení znelých zvukov Ako už bolo spomenuté, frekvencia kmitov hlasiviek F 0 charakterizuje základný tón ľudského hlasu, ktorý je prítomný pri tvorení všetkých znelých zvukov (samohlásky a znelé spoluhlásky). Písmená rozdeľujeme na samohlásky a spoluhlásky. Samohlásky (vokály) pri artikulácii samohlások je snahu udržať priechod vzduchu hlasivkovým traktom čo najvoľnejší. V akustickom spektre každej samohlásky sa okrem základného tónu objavuje rada vyšších zosilnených tónov, ktoré vznikajú rezonanciou v dutinách hlasového traktu. Tieto tóny nazývame formanty a označujeme ich číslami F 1, F 2,..., F n, pričom F 1 je formant s najnižšou frekvenciou. Pre slovenské samohlásky sú najdôležitejšie formanty F 1 a F 2. Predpokladá sa, že ich výška a intenzita závisí predovšetkým na usporiadaní, dĺžke, tvare a priereze ústnej ale aj hrdelnej dutiny.
Samohlásky z hľadiska rozpoznávanie reči nepredstavujú problém, pretože vznikajú znelým (periodickým) budením vokálneho traktu (okrem šepotu). Počas trvania samohlásky je poloha artikulačných orgánov relatívne stála. Pre jednotlivé samohlásky potom platia rozsahy frekvencií znázornených v tab. 3.1 (Kráľ, 1989). F 1 (Hz) F 2 (Hz) F 3 (Hz) u: 326 967 2059 o: 481 1084 2194 a: 682 1315 2293 e: 452 1718 2365 i: 285 1916 2656 Tab. 3.1. Frekvenčné hodnoty formantov Spoluhlásky (konsonanty) predstavujú pri rozpoznávaní reči, z hľadiska ich rozoznateľnosti v rečovom prúde, omnoho väčší problém než samohlásky. Na rozdiel od samohlások, nie všetky spoluhlásky majú formanty. Ich trvanie je kratšie a spektrum ich nepopisuje dostatočne presne. Na rozdiel od vokálov sa za základnú črtu spoluhlások považuje prítomnosť charakteristického šumu v akustickom spektre hlások. Spoluhlásky sú vytvárané vzduchovou turbulenciou, ktorá vniká trením vydychovaného prúdu vzduchu o prekážku vytvorenú jednotlivými artikulátormi, ako sú napríklad špička jazyka, zuby, pery. Ďalej môžeme spoluhlásky rozdeliť na znelé a neznelé. Ak vyslovujeme neznelé spoluhlásky, sú hlasivky od seba oddialené podobne ako pri voľnom dýchaní a prepúšťajú vydychovaný prúd vzduchu bez toho, aby vytvárali hlas. Znelé spoluhlásky sú naopak pri tvorení sprevádzané prítomnosťou základného hlasivkového tónu. Pri vytváraní väčšiny spoluhlások uzatvára mäkké podnebie cestu vydychovanému prúdu vzduchu z dutiny hrdelnej do dutiny nosnej. Nosná dutina sa teda zúčastňuje procesu artikulácie vtedy, keď mäkké podnebie uvoľní priechod vzduchu do dutiny. Nastane to pri vyslovovaní nosových spoluhlások.
3.6 Prehľad metód analýzy formantov Problém analýzy a reprezentácie ľudskej reči je veľmi rozsiahly kvôli variabilite rečového signálu, limitáciám používaných matematických vzorov a kvôli našim obmedzeným vedomostiam a ľudskom vnímaní a analýze reči. Základom väčšiny metód analýzy akustického signálu reči je predpoklad, že sa jeho vlastnosti v priebehu času menia pomaly. Tento predpoklad vedie na aplikáciu tzv. metód krátkodobej analýzy, pri ktorých sa úseky rečového signálu vydeľujú a spracovávajú tak, akoby to boli oddelené krátke zvuky. Tieto segmenty, či lepšie povedané mikrosegmenty sú reprezentované časovým úsekom 10 až 30 ms. Výsledkom analýzy je potom číslo alebo súbor čísel, ktoré popisujú daný mikrosegment. Pretože mikrosegmenty na seba nadväzujú, dostávame časové postupnosti čísel, ktoré popisujú daný výsledný celok. Pretože rečový signál je nestacionárny, analýza sa musí vykonať po krátkom časovom segmente rámci. A/D konverzia Zoskupova nie vzoriek do rámcov Preemfázová filtrácia Oknovanie Kódovanie Rečový signál Obr. 3.4. Postupnosť operácií pri konverzii rečového signálu na súbor Parametre rečového signálu Z obr. 3.4 nám vyplýva, že rečový signál je najprv digitalizovaný. Vzorky sú zoskupené do skupín nazývaných rámce. Preemfázový digitálny filter má za úlohu kompenzovať pokles obálky spektra signálu smerom k vyšším frekvenciám a tiež percepčne zdôrazniť najdôležitejšie oblasti frekvenčného spektra. Najčastejšie sa používa digitálny filter s jedným koeficientom, ktorý má prenosovú funkciu: H(z) = 1+k pre z -1 (3.1) kde konštanta k pre je najčastejšie v rozsahu 0,4 až 1.
Aby sa eliminovali náhle zmeny v charaktere signálu na okrajoch rámcov, je signál násobený oknovacou funkciou. Najčastejšie sa používa Hammingovo okno. Takto upravený signál je potom po rámcoch transformovaný do súborov parametrov reprezentujúcich obálku spektra signálu. Na obr. 3.5 sú znázornené najčastejšie používané základné metódy analýzy formantov ľudskej reči. Metóda banky filtrov bola prvou používanou metódou (v analógovej forme). Lineárne predikčné metódy boli uvedené v 70 tych rokoch a boli dominantnou metódou až do začiatku 80 tych rokov. V súčasnosti je lineárna predikcia často používaná v rôznych aplikáciách spracovania reči. Banka digitálnych filtrov Odhad energie Koeficienty banky filtrov Rečový signál Fourierova Transformácia Banka filtrov Kepstrum FT koeficienty banky filtrov FT kepstrálne koeficienty LPC koeficienty Banka filtrov LPC koeficienty banky filtrov Lineárna predikcia Kepstrum LPC kepstrálne koeficienty Obr. 3.5. Prehľad metód analýzy formantov 3.6.1 Banka digitálnych filtrov Použitie bánk číslicových filtrov patrí medzi základné metódy akustickej analýzy reči. Principiálny náčrt spektrálneho analyzátora rečového signálu na báze banky filtrov je na
obr. 3.6. Rečový signál s(n), vstupujúci do banky filtrov, je v jej jednotlivých paralelných vetvách rozložený do dielčích, pásmovo obmedzených signálových zložiek { S i n) } i 1,2... Q ( =. Vhodným výberom počtu a šírky pásiem sa dajú efektívne detekovať fonetická štruktúra reči a využiť informácie obsiahnuté vo výstupných signáloch jednotlivých filtrov, napr. pre účinnú klasifikáciu hlások, či slov. Filtre rozdeľujú frekvenčné pásmo do subpásiem, v ktorých sa uskutočňuje meranie energie signálu. Cieľom analýzy signálu bankou filtrov je odhad výkonu rečového signálu v jednotlivých frekvenčných pásmach. Obr. 3.6. Model spektrálnej analýzy rečového signálu bankou filtrov 3.6.2 Fourierova transformácia Táto metóda bude popísaná len okrajovo, pretože je jej princíp dostatočne známy (je popísaná napr. v literatúre Zimmermann J.: Spektrografická a škálografická analýza akustického rečového signálu, 2002). Takže je dostatočne známa a navyše v porovnaní
s LPC (popísaná v kap. 3.6.3) neposkytuje toľko možností týkajúcich sa nastavení (LPC umožňuje zvoliť počet koeficientov a teda aj presnosť spektra). Hovorená reč môže byť vo frekvenčnej oblasti reprezentovaná ako kompozícia spektrálnej obálky charakterizujúcej vlastnosti hlasového ústrojenstva a jemnej štruktúry charakterizujúcej budenie. Ako sa mení budenie a tvar hlasového ústrojenstva vytvárajú sa rozdielne zvuky a mení sa aj spektrum signálu. Pretože je rečový signál vo všeobecnosti nestacionárny, vo frekvenčnej oblasti sa pracuje s jeho približnou predstavou, v tomto prípade budeme hovoriť o krátkodobej spektrálnej analýze. Najčastejšie používanou metódou na transformáciu signálu do frekvenčnej oblasti sa používa konečná Fourierova transformácia resp. krátkodobá diskrétna Fourierova transformácia (DFT). Pri spracovaní metódou DFT sú čas aj frekvencie diskrétne a získané koeficienty sa ďalej využívajú v spektrálnych analyzátoroch. DFT je definovaná rovnicou: N 1 n= 0 2Πf j fv S(f) = s( n) e w( n), (3.2) kde s(f) je spektrum rečového signálu s(n) a w(n) je oknovacia funkcia. Šírka okna N je závislá na type analýzy. Pričom veľká šírka poskytuje dobrú frekvenčnú rozlíšiteľnosť, ale malú časovú rozlíšiteľnosť. Rýchla Fourierova transformácia (FFT) je účinná implementácia DFT. Často sa využíva práve pre jednoduchosť tejto implementácie a relatívnu šumovú imunitu (napr. v porovnaní s lineárnou predikčnou analýzou). 3.6.3 Lineárna prediktívna analýza Lineárne prediktívne kódovanie (Linear Predictive Coding LPC) je relatívne rýchla metóda analýzy rečového signálu, ktorá umožňuje získanie spektrálnej obálky. Táto metóda sa snaží na krátkodobom základe odhadnúť parametre modelu vytvárania reči priamo z rečového signálu. Patrí do skupiny parametrických metód a využíva metódu najmenších štvorcov. Výsledky podávané touto metódou sú veľmi presné a pri
prijateľných výpočtových nárokoch. Preto je lineárne prediktívne kódovanie jedna z najpoužívanejších analýz rečového signálu. Hoci je táto metóda známa už od 70 tych rokov, je stále často využívaná z týchto dôvodov: Poskytuje dostatočne presný model rečového signálu. Spôsob ako LPC vychádza z analytického modelu produkcie reči presne vystihuje charakteristiky rečového traktu. Metóda LPC je z matematického hľadiska presná, jednoduchá a smeruje priamo k softwarovej aj hardwarovej realizácii. Zložitosť výpočtov u LPC je podstatne menšia ako u metód využívajúcich banku filtrov. Princíp metódy je založený na predpoklade, že n tá vzorka rečového signálu môže byť nahradená lineárnou kombináciou predchádzajúcich Q vzoriek a budiacej postupnosti u(n), čo sa dá vyjadriť nasledovne: (3.3) kde G je koeficient zosilnenia, Q rád modelu a a i sú lineárne predikčné koeficienty. Proces modelovania reči takýmto spôsobom vychádza z nasledujúceho obrázku: Generátor periodických impulzov p(n) G Model hlasového traktu N p u(n) H ( z) = Q 1+ G i= 1 a i z i s(n) Generátor náhodného šumu n(n) { a i} i = 1, 2,..., Q Obr. 3.7. LPC model produkcie reči
Prenosovú funkciu modelu H(z) je možné napísať v tvare: (3.4) Na výpočet predikčných koeficientov a i a koeficientu zosilnenia G sa používa metóda najmenších štvorcov. Vychádza sa z odhadu n tej vzorky s(n), ktorý je lineárnou kombináciou predchádzajúcich vzoriek: (3.5) a strednej kvadratickej chyby E: (3.6) Hodnoty predikčných koeficientov a i zistíme pomocou nájdenia minima funkcie E: (3.7) Riešením dostaneme sústavu rovníc: (3.8) Pri riešení tejto sústavy rovníc sa dá postupovať autokorelačnou alebo kovariačnou metódou. Prevažne sa využíva autokorelačná metóda, ktorá predpokladá, že signál je nulový mimo skúmaného intervalu konečnej dĺžky N. Zavádza sa teda krátkodobá autokorelačná funkcia m tého mikrosegmentu: (3.9) Sústavu rovníc potom je možné vyjadriť: (3.10)
Pretože výpočet autokorelačnej funkcie je obmedzený na konečný interval <0,N-1>, tak sa mikrosegmenty vážia vhodnou váhovacou funkciou, najčastejšie Hammingovou. Hore popísaný LP model je normovaný vzhľadom na výkon rečového signálu. Na zistenie skutočného výkonu rečového signálu je potrebné určiť hodnotu zisku G. Ten sa vypočíta z celkovej chyby lineárnej predikcie ako: (3.11) Koeficienty LPC je možné použiť aj na výpočet spektrálnej obálky signálu. Ak vo vzťahu (3.4) použijeme substitúciu z = e jϖ (j v tomto prípade označuje imaginárnu jednotku), potom: H ( jϖ ) = Q 1+ i= 1 G a i e jiϖ (3.12) kde ϖ je kruhová frekvencia, pre ktorú platí vzťah ϖ = 2πf / Fv, kde F v je vzorkovacia frekvencia v Hz. Koeficienty LPC môžeme použiť tiež na výpočet kepstrálnych koeficientov, čo bude podrobne prebrané v kapitole 3.6.5. 3.6.4 Lineárne spektrálne páry Ďalšie parametre, ktoré obsahujú tú istú informáciu ako LPC koeficienty, sú frekvencie Lineárnych Spektrálnych Párov (LSP). Na to, aby sme mohli použiť LSP, je potrebné sa naučiť matematický postup, ktorý bude aplikovaný na polynóm v menovateľovi funkcie LPC. Polynóm stupňa P: M m 2 M 2 M 1 M ( x) = pm x = a0 + a1x + a2x +... + am 2 x + am 1x am x (3.13) m= 0 a +
je nazývaný Palindromický ak: a = (3.14) m a M m a = a M a Antipalindromický ak: 0 a 1 = a M 1 2 = a M 2 a m a M m a atď. = (3.15) potom 1 x a = a M 0 a 1 = am 1 2 = am 2 2 + 2x + je palindromický, zatiaľ čo a atď. x 2 3 + x x je antipalindromický. Nie je zložité dokázať, že výsledkom dvoch palindromických alebo antipalindromických polynómov je palindromický polynóm a výsledkom palindromického a antipalindromické polynómu je antipalindromický polynóm. Teraz si ukážeme, že každý reálny polynóm, ktorého všetky nuly ležia na jednotkovej kružnici, je buď palindromický alebo antipalindromický. Najjednoduchším príkladom sú x + 1 a x 1, ktoré sú jednoznačne palindromické a antipalindromické navzájom. Ďalším príkladom je polynóm druhého stupňa s párom komplexne združených núl, ktoré ležia na jednotkovej kružnici: a( x) = ( x e iφ )( x e iφ ) = x 2 e iφ x e iφ x + e iφ e iφ = x 2 2cos( φ) + 1 (3.16) Toto je jednoznačne palindromický polynóm. Každý reálny polynóm, ktorý má k párov komplexne združených núl, bude výsledkom k palindromických polynómov, takže je palindromický. Ak má polynóm k párov komplexne združených núl a koreň +1, taktiež bude palindromický, ak má koreň 1 bude antipalindromický. Tohto tvrdenie nemusí byť vždy pravdivé; nie každý palindromický polynóm má všetky svoje nuly na jednotkovej kružnici. Hlavnou myšlienkou LSP je definovať palindromický a antipalindromický polynóm. Každý polynóm a(x) môže byť zapísaný ako suma palindromického polynómu p(x) a antipalindromického polynómu q (x) : 1 a m = ( pm + qm ) kde 2 p q m m = a = a m m + a a M m M m (3.17)
Na dokončenie tohto celého, potrebujeme zaviesť, že a m je polynóm stupňa M+1 a a = 0 M +1. 1 a m = ( pm + qm ) kde 2 p q m m = a = a m m + a a M + 1 m M + 1 m (3.18) Teraz a m = pm = qm = 1, ale pm a q m sú polynómy stupňa M+1. Obr. 3.8. Nuly polynómu z jeho palindromickej a antipalindromickej časti Na obr. 3.8 sú x-ká nuly náhodne vybratého polynómu desiateho rádu (musí mať nuly vo vnútri jednotkovej kružnice). Kolieska a štvorčeky sú nuly polynómov p(x) a q(x). Je zaujímavé si všimnúť, že všetky sú na jednotkovej kružnici a striedajú sa navzájom. 3.6.5 Kepstrálna analýza Kepstrálna analýza sa sa využíva pri oddeľovaní signálov, ktoré vznikli konvolúciou dvoch alebo viacerých zložiek. Cieľom analýzy je určiť parametre systému, t.j. vydeliť jednotlivé členy konvolútneho súčinu. Všeobecná schéma systému, ktorý tento problém
rieši, je založená na využití toho, že z obraz konvolútneho súčinu dvoch signálov je súčinom príslušných obrazov týchto signálov. Ak využijeme súčet logaritmov príslušných obrazov, dá sa po inverznej transformácii týchto obrazov získať tzv. kepstrum signálov, z ktorého vhodne zvoleným lineárnym filtrom môžeme obe transformované zložky od seba oddeliť a v ďalšom spracovaní ich spätným procesom individuálne rekonštruovať. Lineárnou filtráciou kepstra rečového signálu je teda možné oddelene eliminovať ako budenie, tak aj impulzovú odozvu hlasového traktu. Ak vieme, že signál hlasovej produkcie v časovej oblasti s(n) je možné vyjadriť konvolúciou impulzovej odozvy modelu hlasovej produkcie h(n) a budiacou funkciou u(n): s( n) = u( n) h( n) (3.19) a z vyššie uvedeného nám vyplýva, že pri analýze reči sa snažíme oddeliť zo známeho s(n) signál h(n), z dôvodu obsahu dôležitých informácií o vokálnom trakte rečníka považovaných za rozhodujúce pre analýzu, potom v rovine z vzťah (3.19) nadobudne tvar: S ( z) = U ( z) H ( z) (3.20) a po použití substitúcie z = ej2πf vzťah (3.20) bude vyjadrený vo frekvenčnej oblasti: S ( f ) = U ( f ) H ( f ) (3.21) V kepstrálnej analýze je S(f) podobné logaritmovaniu, kde je signál budenia a vokálneho traktu v logaritmickej škále oddelený: S ˆ( f ) = log( S( f )) = log( U ( f )) + log( H ( f )) (3.22) v diskrétnej časovej oblasti bude platiť: s ˆ( n) = uˆ( n) + hˆ( n) (3.23) kde postupnosťou s ˆ( n) nazývame komplexné kepstrum, z ktorého je možné jednoduchým spôsobom získať charakteristiky vokálneho traktu.