Speech Recognition using Phase Information based on Long-Term Analysis



Σχετικά έγγραφα
Fourier transform, STFT 5. Continuous wavelet transform, CWT STFT STFT STFT STFT [1] CWT CWT CWT STFT [2 5] CWT STFT STFT CWT CWT. Griffin [8] CWT CWT

Estimation, Evaluation and Guarantee of the Reverberant Speech Recognition Performance based on Room Acoustic Parameters

Buried Markov Model Pairwise

An Automatic Modulation Classifier using a Frequency Discriminator for Intelligent Software Defined Radio

MIDI [8] MIDI. [9] Hsu [1], [2] [10] Salamon [11] [5] Song [6] Sony, Minato, Tokyo , Japan a) b)

[5] F 16.1% MFCC NMF D-CASE 17 [5] NMF NMF 3. [5] 1 NMF Deep Neural Network(DNN) FUSION 3.1 NMF NMF [12] S W H 1 Fig. 1 Our aoustic event detect

SNR F0 [2], [3], [4] F0 F0 F0 F0 F0 TUSK F0 TUSK F0 6 TUSK 6 F0 2. F0 F0 [5] [6] [7] p[8] Cepstrum [9], [10] [11] [12] [13] F0 [14] F0 [15] DIO[16] [1

Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Vol.4-DCC-8 No.8 Vol.4-MUS-5 No.8 4// 3 3 Hanning (T ) 3 Hanning 3T (y(t)w(t)) dt =.5 T y (t)dt. () STRAIGHT F 3 TANDEM-STRAIGHT[] 3 F F 3 [] F []. :

n 1 n 3 choice node (shelf) choice node (rough group) choice node (representative candidate)

40 3 Journal of South China University of Technology Vol. 40 No Natural Science Edition March

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»

Development of a Seismic Data Analysis System for a Short-term Training for Researchers from Developing Countries

*,* + -+ on Bedrock Bath. Hideyuki O, Shoichi O, Takao O, Kumiko Y, Yoshinao K and Tsuneaki G

3: A convolution-pooling layer in PS-CNN 1: Partially Shared Deep Neural Network 2.2 Partially Shared Convolutional Neural Network 2: A hidden layer o

Αξιολόγηση της αισθητικής αξίας δασογεωργικών και γεωργικών συστημάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ

ΜΕΛΕΤΗ ΑΠΟΤΙΜΗΣΗΣ ΠΑΡΑΓΟΜΕΝΗΣ ΕΝΕΡΓΕΙΑΣ Φ/Β ΣΥΣΤΗΜΑΤΩΝ ΕΓΚΑΤΕΣΤΗΜΕΝΩΝ ΣΕ ΕΛΛΑ Α ΚΑΙ ΤΣΕΧΙΑ

Ψηφιακή Επεξεργασία Φωνής

Δυνατότητα Εργαστηρίου Εκπαιδευτικής Ρομποτικής στα Σχολεία (*)

ER-Tree (Extended R*-Tree)

Φύλλο1. ΠΕΡΙΟΧΗ ΠΡΟΣΛΗΨΗΣ ΑΒΡΑΜΙΔΟΥ ΜΑΡΙΚΑ ΔΗΜΗΤΡΙΟΣ Γ Αθηνών ΑΒΡΑΜΙΔΟΥ ΣΟΦΙΑ ΔΗΜΗΤΡΙΟΣ Λασίθι ΑΓΓΕΛΗ ΑΝΔΡΟΜΑΧΗ ΒΑΣΙΛΕΙΟΣ

ΠΑΥΛΙΝΑ ΠΕ11 25,5 ΚΑΒΑΛΑΣ ΑΝΑΤ. ΑΤΤΙΚΗ

Detection and Recognition of Traffic Signal Using Machine Learning

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. του Φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

Σύγκριση Πραγματολογικών Ικανοτήτων σε Παιδιά Σχολικής Ηλικίας με Διάχυτες Αναπτυξιακές Διαταραχές και Νοητική Υστέρηση

Ανάλυση Προτιμήσεων για τη Χρήση Συστήματος Κοινόχρηστων Ποδηλάτων στην Αθήνα

ΖΩΝΟΠΟΙΗΣΗ ΤΗΣ ΚΑΤΟΛΙΣΘΗΤΙΚΗΣ ΕΠΙΚΙΝΔΥΝΟΤΗΤΑΣ ΣΤΟ ΟΡΟΣ ΠΗΛΙΟ ΜΕ ΤΗ ΣΥΜΒΟΛΗ ΔΕΔΟΜΕΝΩΝ ΣΥΜΒΟΛΟΜΕΤΡΙΑΣ ΜΟΝΙΜΩΝ ΣΚΕΔΑΣΤΩΝ

EM Baum-Welch. Step by Step the Baum-Welch Algorithm and its Application 2. HMM Baum-Welch. Baum-Welch. Baum-Welch Baum-Welch.

Η Διδακτική Ενότητα «Γνωρίζω τον Υπολογιστή», στα πλαίσια των Προγραμμάτων Σπουδών της Πληροφορικής: μια Μελέτη Περίπτωσης.

Vol. 31,No JOURNAL OF CHINA UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb

Evolution of Novel Studies on Thermofluid Dynamics with Combustion

ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ ΜΟΝΑΔΑΣ ΘΡΑΥΣΤΗΡΑ ΜΕ ΧΡΗΣΗ P.L.C. AUTOMATION OF A CRUSHER MODULE USING P.L.C.

Ανάκτηση Εικόνας βάσει Υφής με χρήση Eye Tracker

H επίδραση της γονικής παρουσίας και του παιχνιδιού σε επώδυνες διαδικασίες στα παιδιά

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και. Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του. Πανεπιστημίου Πατρών

Research of Han Character Internal Codes Recognition Algorithm in the Multi2lingual Environment

ΘΕΜΑΤΙΚΗ ΕΥΡΕΤΗΡΙΑΣΗ ΚΑΙ ΚΑΘΙΕΡΩΣΗ ΟΡΟΛΟΓΙΑΣ ΣΤΙΣ ΤΕΧΝΙΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ: Η ΕΜΠΕΙΡΙΑ ΣΤΟ ΤΕΕ

Stress Relaxation Test and Constitutive Equation of Saturated Soft Soil

Nov Journal of Zhengzhou University Engineering Science Vol. 36 No FCM. A doi /j. issn

IPSJ SIG Technical Report Vol.2014-CE-127 No /12/6 CS Activity 1,a) CS Computer Science Activity Activity Actvity Activity Dining Eight-He

ΕΦΑΡΜΟΓΗ ΕΥΤΕΡΟΒΑΘΜΙΑ ΕΠΕΞΕΡΓΑΣΜΕΝΩΝ ΥΓΡΩΝ ΑΠΟΒΛΗΤΩΝ ΣΕ ΦΥΣΙΚΑ ΣΥΣΤΗΜΑΤΑ ΚΛΙΝΗΣ ΚΑΛΑΜΙΩΝ

A study of geometric dependency of cepstrum on vocal tract length

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Διερεύνηση ακουστικών ιδιοτήτων Νεκρομαντείου Αχέροντα

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

2 ~ 8 Hz Hz. Blondet 1 Trombetti 2-4 Symans 5. = - M p. M p. s 2 x p. s 2 x t x t. + C p. sx p. + K p. x p. C p. s 2. x tp x t.

CSJ. Speaker clustering based on non-negative matrix factorization using i-vector-based speaker similarity

Analysis of prosodic features in native and non-native Japanese using generation process model of fundamental frequency contours

Resurvey of Possible Seismic Fissures in the Old-Edo River in Tokyo

ΤΜΗΜΑ ΕΚΠΑΙ ΕΥΤΙΚΗΣ ΚΑΙ ΚΟΙΝΩΝΙΚΗΣ ΠΟΛΙΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΚΑΤΕΥΘΥΝΣΗ: ΣΥΝΕΧΙΖΟΜΕΝΗ ΕΚΠΑΙ ΕΥΣΗ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

HIV HIV HIV HIV AIDS 3 :.1 /-,**1 +332

Quick algorithm f or computing core attribute

Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

GPU. CUDA GPU GeForce GTX 580 GPU 2.67GHz Intel Core 2 Duo CPU E7300 CUDA. Parallelizing the Number Partitioning Problem for GPUs

Design and Fabrication of Water Heater with Electromagnetic Induction Heating

Σχέση µεταξύ της Μεθόδου των ερµατοπτυχών και της Βιοηλεκτρικής Αντίστασης στον Υπολογισµό του Ποσοστού Σωµατικού Λίπους

þÿ Ç»¹º ³µÃ ± : Ãż²» Ä Â

ΓΙΑΝΝΟΥΛΑ Σ. ΦΛΩΡΟΥ Ι ΑΚΤΟΡΑΣ ΤΟΥ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕ ΟΝΙΑΣ ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ

Διπλωματική Εργασία. του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

ΙΩΑΝΝΗ ΑΘ. ΠΑΠΑΪΩΑΝΝΟΥ

Δυσκολίες που συναντούν οι μαθητές της Στ Δημοτικού στην κατανόηση της λειτουργίας του Συγκεντρωτικού Φακού

1 n-gram n-gram n-gram [11], [15] n-best [16] n-gram. n-gram. 1,a) Graham Neubig 1,b) Sakriani Sakti 1,c) 1,d) 1,e)

[15], [16], [17] [6] [2] [5] Jiang [6] 2.1 [6], [10] Score(x, y) y ( 1) ( 1 ) b e ( 1 ) b e. O(n 2 ) Jiang [6] (word lattice reranking)

ΜΟΡΙΑ ΠΙΝΑΚΑ ΣΕΙΡΑ ΠΙΝΑΚΑ ΠΕΡΙΟΧΗ ΤΟΠΟΘΕΤΗΣΗΣ ΠΙΝΑΚΑΣ ΑΑ ΕΠΩΝΥΜΟ ΟΝΟΜΑ ΠΑΤΡΩΝΥΜΟ ΚΛΑΔΟΣ ΤΡΙΤΕΚΝΟ Σ ΔΙΕΥΘΥΝΣΗ ΕΚΠ/ΣΗΣ

,,, (, ) , ;,,, ; -

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. «Προστασία ηλεκτροδίων γείωσης από τη διάβρωση»

Η ΔΙΑΣΤΡΕΥΛΩΣΗ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕΣΩ ΤΩΝ SOCIAL MEDIA ΤΗΝ ΤΕΛΕΥΤΑΙΑ ΠΕΝΤΑΕΤΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΗΣ ΑΝΑΣΤΑΣΙΑΣ-ΜΑΡΙΝΑΣ ΔΑΦΝΗ

Spectrum Representation (5A) Young Won Lim 11/3/16

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΑΝΘΡΩΠΙΣΤΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΦΙΛΟΛΟΓΙΑΣ

Discriminative Language Modeling Based on Risk Minimization Training

ΠΑΤΡΩΝΥΜΟ / ΟΝΟΜΑ ΣΥΖΥΓΟΥ 1 ΑΓΟΡΑΣΤΟΥ ΜΑΡΙΑ ΤΟΥ ΔΗΜΗΤΡΙΟΥ 2 ΑΘΑΝΑΣΙΑΔΗΣ ΙΩΑΝΝΗΣ ΤΟΥ ΠΑΥΛΟΥ 3 ΑΚΤΣΟΓΛΟΥ ΣΩΚΡΑΤΗΣ ΤΟΥ ΓΕΩΡΓΙΟΥ

Retrieval of Seismic Data Recorded on Open-reel-type Magnetic Tapes (MT) by Using Existing Devices

Ο ΔΕΙΚΤΗΣ ΑΝΘΡΩΠΙΝΗΣ ΑΝΑΠΤΥΞΗΣ ΣΤΗΝ ΕΛΛΑΔΑ ΤΟ 1991 & 2001 HUMAN DEVELOPMENT INDEX IN GREECE IN 1991 & 2001

CorV CVAC. CorV TU317. 1

ΟΙ Υ ΡΟΓΕΩΛΟΓΙΚΕΣ ΣΥΝΘΗΚΕΣ ΣΤΗΝ ΛΕΚΑΝΗ ΠΟΤΑΜΙΑΣ ΚΑΙ Η ΑΛΛΗΛΟΕΠΙ ΡΑΣΗ ΤΟΥ Υ ΑΤΙΚΟΥ ΚΑΘΕΣΤΩΤΟΣ ΜΕ ΤΗ ΜΕΛΛΟΝΤΙΚΗ ΛΙΓΝΙΤΙΚΗ ΕΚΜΕΤΑΛΛΕΥΣΗ ΣΤΗΝ ΕΛΑΣΣΟΝΑ

High order interpolation function for surface contact problem

Παιδί βαρήκοο ή με διαταραχή στο φάσμα του αυτισμού;

«Συμπεριφορά μαθητών δευτεροβάθμιας εκπαίδευσης ως προς την κατανάλωση τροφίμων στο σχολείο»

Simplex Crossover for Real-coded Genetic Algolithms

Neutralization E#ects of Acidity of Rain by Cover Plants on Slope Land

Supporting Information

Development of the Nursing Program for Rehabilitation of Woman Diagnosed with Breast Cancer

GUI

Analysis of energy consumption of telecommunications network and application of energy-saving techniques

Quantum dot sensitized solar cells with efficiency over 12% based on tetraethyl orthosilicate additive in polysulfide electrolyte

c Key words: cultivation of blood, two-sets blood culture, detection rate of germ Vol. 18 No

Table of Contents 1 Supplementary Data MCD

Approximation of distance between locations on earth given by latitude and longitude

Study on Re-adhesion control by monitoring excessive angular momentum in electric railway traction

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ

ΚΛΙΜΑΤΟΛΟΓΙΑ CLIMATOLOGY

Analysis of the Low-Frequency Ferrite Antenna. Kazuaki Abe (CASIO COMPUTER CO., LTD.), Jun-ichi Takada (Tokyo Institute of Technology)

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΑΓΡΟΤΙΚΕΣ ΣΤΑΤΙΣΤΙΚΕΣ ΜΕ ΕΡΓΑΛΕΙΑ ΓΕΩΠΛΗΡΟΦΟΡΙΚΗΣ

Wiki. Wiki. Analysis of user activity of closed Wiki used by small groups

Comparison of Evapotranspiration between Indigenous Vegetation and Invading Vegetation in a Bog

Web 論 文. Performance Evaluation and Renewal of Department s Official Web Site. Akira TAKAHASHI and Kenji KAMIMURA

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ηλεκτρικές δοκιµές σε καλώδια µέσης τάσης - ιαδικασίες επαλήθευσης και υπολογισµού αβεβαιότητας ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Transcript:

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. 441 8580 1 1 E-mail: {kyama,sueyoshi,nakagawa}@slp.cs.tut.ac.jp MFCC Liu 2 1 1 90% MFCC 20% Abstract Speech Recognition using Phase Information based on Long-Term Analysis Kazumasa YAMAMOTO, Eiichi SUEYOSHI, and Seiichi NAKAGAWA Department of Computer Science and Engineering, Toyohashi University of Technology 1 1 Hibarigaoka, Tempaku-cho, Toyohashi, 441 8580 Japan E-mail: {kyama,sueyoshi,nakagawa}@slp.cs.tut.ac.jp Current speech recognition systems use mainly amplitude spectrum-based features such as MFFC for acoustic feature parameters, while discarding phase spectral information. The results of perceptual experiments, however, suggested that phase spectral information based on long-term analysis includes certain linguistic information. In this paper, we propose the use of phase features based on long-term analysis for speech recognition. We use two types of parameters: the delta phase parameter as a group delay and analytic group delay features. Isolated word and continuous digit recognition experiments were performed, resulting in a greater than 90% word or digit accuracy for each of the experiments. The experimental results confirmed that a long-term phase spectrum includes sufficient information for recognizing speech. Furthermore, combining likelihoods of MFCC and long-term group delay cepstrum outperformed the baseline MFCC by relatively 20% for clean speech. Key words speech recognition, phase information, long-term analysis, group delay spectrum 1. Mel-frequency cepstral coefficients; MFCC MFCC 25ms 10ms [1] [4] Oppenheim [5] Liu [1] Liu 1

[1] 192ms 192ms 256ms Paliwal [2] MFCC [6] [4] 256ms 2ms Shi [3] [7], [8] [10] [9] 100ms (Group Delay) 1) 2) 2 2. 2. 1 t x(t) w(τ) f S(f, t) S(f, t) = x(t + τ)w(τ) exp{ jfτ}dτ = S(f, t) exp{jθ(f, t)} (1) S(f, t) x(t) θ(f, t) x(t) θ(f, t) θ(f, t) = S(f, t). (2) 4 0-4 4 0-4 1 Fig. 1 frequency unwrapping frequency Phase unwrapping. [10] [11] MFCC 2. 2 G(f) = dθ(f) df θ(f) f x(t) (3) (2) π +π 1 1 (DFT) 2 2. 2. 1 2 lf 2

4 2 0-2 Unwrapped phase spectrum frequency DCT (MFMGDCC) [13] 30ms 3. lf K K K K K K 2 lf Calculate the slope of the spectrum Fig. 2 Calculation of lf parameters. = ΣK k=1k(θ(l f + k) θ(l f k)) 2Σ K k=1 k2 (4) l f DFT f K K DFT 16kHz 0 8000Hz 256ms 4096 DFT 0 2047 30 31 66 ( 2048/31) K 33 (= 66/2) 2. 2. 2 2 [12] G ana(f) = X R(f)Y R (f) + X I (f)y I (f) X(f) 2 (5) X R (f) X I (f) x(t) Y R (f) Y I (f) t tx(t) (5) G ana (f) X R (f) X I (f) 2 1 1 (DCT) (Long-Term Group Delay Cepstrum; LTGDC) Hegde DCT [12] Zhu 3. 1 3. 1. 1 CIAIR-VCV [14] 30 125 20 16kHz 25ms MFCC 100ms 256ms 10ms 4 2. 2. 1 lf 10/20/30 2. 2. 2 30 LTGDC 10/20 4 9 38 MFCC 12MFCC+12 MFCC +12 MFCC + Pow + Pow MFCC 25ms 10ms 30 HMM HMM 23 8 HTK-3.4.1 1 3. 1. 2 1 2 3 MFCC 25ms 90% MFCC 99.5% 3 2 LTGDC lf MFCC 1 http://htk.eng.cam.ac.uk/ 3

1 lf [%] Table 1 Word recognition rates using the lf parameters [%]. Dimension of parameters 25 ms 100 ms 256 ms 10 47.3 95.1 96.3 20 48.3 96.1 97.1 30 51.5 96.3 97.1 2 30 [%] Table 2 Word recognition rates using the 30-dimensional movingaveraged group delay features [%]. Points of M-A 25 ms 100 ms 256 ms 4 pts 7.6 68.6 84.3 9 pts 13.7 83.1 91.2 3 LTGDC [%] Table 3 Word recognition rates using the LTGDC [%]. Dimension of parameters 25 ms 100 ms 256 ms 10 17.9 96.3 95.8 20 11.2 93.9 97.0 4 30 lf [%] Table 4 Recognition results altering the frame shift for the 30- dimensional lf parameters [%]. Frame shift [ms] 25 ms 100 ms 256 ms 10 51.5 96.3 97.1 20 31.8 97.0 98.1 40 21.7 93.2 96.9 10ms lf 4 40ms 3. 2 3. 2. 1 CENSREC-1 (AURORA-2J) [15] 5 CENSREC-1 Table 5 Comparison of connected digit recognition results for CENSREC-1 database with various analysis window length. Digit accuracy [%] Window Length Test Set Parameter 25ms 64ms 128ms 256ms MFCC 48.21 45.43 44.06 30.43 A lf 8.82 26.15 39.77 46.14 LTGDC 28.90 9.02 35.05 32.87 MFCC 42.64 42.55 44.80 38.61 B lf 6.52 31.94 43.24 51.57 LTGDC 13.84 26.05 47.05 47.53 CENSREC-1 110 55 55 8440 G.712 A Subway Babble Car Exhibition G.712 B Restaurant Street Airport Station G.712 C MIRS SNR 7 20 15 10 5 0 5dB / SNR 1001 30 10 LT- GDC 25ms 64ms 128ms 256ms CENSREC-1 39 MFCC LTGDC MFCC 3. 2. 2 5 A B 20dB 0dB 2 MFCC 256ms LTGDC 25ms MFCC 25ms LTGDC 128ms 2 CENSREC-1 4

6 6(a) MFCC (b) (c) LTGDC Ave. 20dB 0dB MFCC 10% LTGDC 90% Babble Restaurant Airport MFCC CENSREC-1 128ms LTGDC 25ms MFCC 50-best LTGDC LTGDC MFCC L MF CC LTGDC L LT GDC L comb = αl MF CC + (1 α)l LT GDC, (6) α 0.4 6(d) MFCC 10% MFCC LTGDC MFCC 10% SNR 20% LTGDC MFCC 4. MFCC LTGDC SNR MFCC LTGDC MFCC Hegde (MGD) [12] G mod (f) = sign X R(f)Y R (f) + X I (f)y I (f) S c (f) 2γ β, (7) S c (f) 2 β γ MGD LTGDC 5. [1] Liu, L., He, J., and Palm, G., Effects of phase on the perception of intervocalic stop consonants, Speech Communication, Vol.22, No.4, pp.403 417, 1997. [2] Paliwal, K. K. and Alsteris, L. D., Usefulness of phase spectrum in human speech perception, Proc. Eurospeech 2003, pp.2117 2120, 2003. [3] Shi, G., Shanechi, M. M., and Aarabi, P., On the importance of phase in human speech recognition, IEEE Transactions on Audio, Speech, and Language Processing, Vol.14, No.5, pp.1867 1874, 2006. [4] Kazama, M., Gotoh, S., Tohyama, M., Houtgast T., On the significance of phase in the short term Fourier spectrum for speech intelligibility, The Journal of the Acoustical Society of America, Vol.127, No.3, pp.1432 1439, 2010. [5] Oppenheim, A. V. and Lim, J. S., The importance of phase in signals, Proc. of the IEEE, Vol.69, No.5, pp.529 541, 1981. [6] Alsteris, L. D. and Paliwal, K. K., ASR on speech reconstructed from short-time Fourier phase spectra, Proc. IC- SLP 2004, 2004. [7] Schlüter, R. and Ney, H., Using phase spectrum information for improved speech recognition performance, Proc. ICASSP 2001, Vol.1, pp.133 136, 2001. [8] Aarabi, P., Shi, G., Shanechi, M. M., and Rabi, S. A., Phase-based speech processing, World Scientific, 2005. [9] Kubo, Y., Okawa, S., Kurematsu, A., and Shirai, K., A comparative study on AM and FM features, Proc. INTER- SPEECH 2008, pp.642 645, 2008. [10] Wang, L., Minami, K., Yamamoto, K., and Nakagawa, S., Speaker identification by combining MFCC and phase information in noisy environments, Proc. ICASSP 2010, pp.4502 4505, 2010. [11],,,, 2009, 1-P-17, pp.161 164, 2009. [12] Hegde, R. M., Murthy, H. A., and Gadde, V. R. R, Significance of the modified group delay feature in speech recognition, IEEE Transactions on Audio, Speech, and Language 5

6 CENSREC-1 Table 6 Digit accuracy for CENSREC-1 database (a) Digit accuracy using MFCC (baseline) [%] Clean 99.75 99.67 99.88 99.69 99.75 99.67 99.88 99.69 20dB 97.88 72.16 84.97 97.78 80.99 83.52 80.11 82.78 15dB 84.77 53.51 55.56 88.58 57.54 60.85 57.26 55.29 10dB 57.02 37.58 37.22 60.78 38.66 39.78 42.38 38.26 5dB 28.40 21.19 21.12 27.15 18.94 23.22 27.17 22.12 0dB 10.53 6.17 10.53 11.32 7.46 12.52 13.72 10.27 5dB 7.03 1.66 7.84 7.99 0.74 7.77 7.46 7.28 Ave. 55.72 38.12 41.88 57.12 40.72 43.98 44.13 41.74 (b) Digit accuracy using only lf parameters [%] Clean 92.82 92.53 92.48 92.07 92.82 92.53 92.48 92.07 20dB 70.71 81.32 76.29 67.91 80.81 77.36 83.03 76.61 15dB 55.70 69.07 54.91 53.47 70.06 62.79 66.90 52.64 10dB 34.76 49.21 25.26 33.82 49.89 39.75 40.41 28.17 5dB 19.13 28.42 13.33 17.37 30.40 19.98 21.50 15.30 0dB 10.81 14.72 9.22 9.97 15.23 11.91 12.14 9.94 5dB 8.50 8.98 8.29 8.45 9.30 8.22 8.53 8.45 Ave. 38.22 48.55 35.80 36.51 42.36 44.80 36.53 34.84 (c) Digit accuracy using only LTGDC [%] Clean 90.70 90.60 92.31 92.38 90.70 90.60 92.31 92.38 20dB 61.47 83.65 81.96 42.36 82.38 72.61 84.70 81.06 15dB 42.55 75.39 67.79 22.43 73.17 56.32 73.43 67.20 10dB 23.67 59.04 43.63 6.54 57.54 37.88 51.18 42.61 5dB 10.93 36.70 18.76 2.16 36.94 20.34 28.93 21.32 0dB 4.30 16.51 11.06 5.52 18.08 8.74 14.91 11.72 5dB 4.21 9.70 8.68 2.44 10.72 6.95 10.20 9.16 Ave. 28.58 54.26 44.64 12.73 53.62 39.18 50.63 44.78 (d) Digit accuracy with rescoring and likelihood combination of MFCC and LTGDC [%] Clean 99.79 99.67 99.94 99.75 99.79 99.67 99.94 99.75 20dB 98.22 75.79 87.56 97.84 84.19 85.85 83.36 85.53 15dB 87.14 56.05 59.14 88.71 60.79 63.30 60.63 59.06 10dB 59.78 39.39 39.34 61.15 41.14 41.87 44.65 40.51 5dB 29.63 22.61 21.86 26.57 20.57 24.88 28.78 23.73 0dB 12.47 7.80 10.17 10.74 8.41 12.91 15.87 11.45 5dB 8.11 3.20 8.05 8.15 2.49 7.92 9.19 7.93 Ave. 57.45 40.33 43.72 57.00 43.02 45.76 46.66 44.06 Processing, Vol.15, No.1, pp.190 202, 2007. [13] Zhu, D. and Paliwal, K. K., Product of power spectrum and group delay function for speech recognition, Proc. ICASSP 2004, Vol.I, pp.i-125 I-128, 2004. [14] CIAIR Children Voice Speech Corpus (CIAIR-VCV). Online: http://db.ciair.coe.nagoya-u.ac.jp/eng/dbciair/ dbciair2/kodomo.htm, accessed on 23 Apr. 2010. [15] Nakamura, S. et al., AURORA-2J: An evaluation framework for Japanese noisy speech recognition, IEICE Transactions on Information and Systems, Vol.E88-D, No.3, pp.535 544, 2005. 6