[15], [16], [17] [6] [2] [5] Jiang [6] 2.1 [6], [10] Score(x, y) y ( 1) ( 1 ) b e ( 1 ) b e. O(n 2 ) 2.3. 2.2 Jiang [6] (word lattice reranking)



Σχετικά έγγραφα
1 n-gram n-gram n-gram [11], [15] n-best [16] n-gram. n-gram. 1,a) Graham Neubig 1,b) Sakriani Sakti 1,c) 1,d) 1,e)

Applying Conditional Random Fields to Japanese Morphologiaical Analysis

(String-to-Tree ) KJ [11] best 1-best 2. SMT 2. [9] Brockett [2] Mizumoto [10] Brockett [2] [10] [15] ê = argmax e P(e f ) = argmax e M m=1 λ

Faruqui [7] WordNet [15] FrameNet [2] PPDB [8]

{takasu, Conditional Random Field

An Analysis of Problems in Grammatical Error Correction of ESL Writings Using a Large Learner Corpus of English

Re-Pair n. Re-Pair. Re-Pair. Re-Pair. Re-Pair. (Re-Merge) Re-Merge. Sekine [4, 5, 8] (highly repetitive text) [2] Re-Pair. Blocked-Repair-VF [7]

(Statistical Machine Translation: SMT[1]) [2]

1530 ( ) 2014,54(12),, E (, 1, X ) [4],,, α, T α, β,, T β, c, P(T β 1 T α,α, β,c) 1 1,,X X F, X E F X E X F X F E X E 1 [1-2] , 2 : X X 1 X 2 ;

Buried Markov Model Pairwise

: Monte Carlo EM 313, Louis (1982) EM, EM Newton-Raphson, /. EM, 2 Monte Carlo EM Newton-Raphson, Monte Carlo EM, Monte Carlo EM, /. 3, Monte Carlo EM

Εξόρυξη Γνώμης: Δημιουργία Ελληνικού Λεξικού Πόρου

GPGPU. Grover. On Large Scale Simulation of Grover s Algorithm by Using GPGPU

MIDI [8] MIDI. [9] Hsu [1], [2] [10] Salamon [11] [5] Song [6] Sony, Minato, Tokyo , Japan a) b)


ΕΚΛΟΓΙΚΗ ΠΕΡΙΦΕΡΕΙΑ ΕΒΡΟΥ

Quick algorithm f or computing core attribute


Fourier transform, STFT 5. Continuous wavelet transform, CWT STFT STFT STFT STFT [1] CWT CWT CWT STFT [2 5] CWT STFT STFT CWT CWT. Griffin [8] CWT CWT

Stabilization of stock price prediction by cross entropy optimization

EM Baum-Welch. Step by Step the Baum-Welch Algorithm and its Application 2. HMM Baum-Welch. Baum-Welch. Baum-Welch Baum-Welch.

ΕΠΙΚΡΑΤΕΙΑΣ

Study of urban housing development projects: The general planning of Alexandria City

n 1 n 3 choice node (shelf) choice node (rough group) choice node (representative candidate)

Ταξινόμηση και διαχρονική παρακολούθηση των βοσκόμενων δασικών εκτάσεων στη λεκάνη απορροής του χειμάρρου Μπογδάνα Ν. Θεσσαλονίκης

An Efficient Calculation of Set Expansion using Zero-Suppressed Binary Decision Diagrams


SocialDict. A reading support tool with prediction capability and its extension to readability measurement

No. 7 Modular Machine Tool & Automatic Manufacturing Technique. Jul TH166 TG659 A

Twitter 6. DEIM Forum 2014 A Twitter,,, Wikipedia, Explicit Semantic Analysis,

CSJ. Speaker clustering based on non-negative matrix factorization using i-vector-based speaker similarity

1,a) 1,b) 2 3 Sakriani Sakti 1 Graham Neubig 1 1. A Study on HMM-Based Speech Synthesis Using Rich Context Models

Toward a SPARQL Query Execution Mechanism using Dynamic Mapping Adaptation -A Preliminary Report- Takuya Adachi 1 Naoki Fukuta 2.

Η ανάπτυξη της μορφολογικής επίγνωσης στα Ελληνικά: μία διερευνητική μελέτη

ΤΕΙ ΘΕΣΣΑΛΙΑΣ. Αναγνώριση προσώπου με επιλογή των κατάλληλων κυρίων συνιστωσών. ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε ΚΑΒΒΑΔΙΑ ΑΛΕΞΑΝΔΡΟΥ.

Εικονικά Περιβάλλοντα Μάθησης για Παιδιά με Αυτισμό: Επισκόπηση Πεδίου και Προτάσεις Σχεδιασμού

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΑΣΟΛΟΓΙΑΣ ΚΑΙ ΦΥΣΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΤΟΜΕΑΣ ΣΧΕ ΙΑΣΜΟΥ ΚΑΙ ΑΝΑΠΤΥΞΗΣ ΦΥΣΙΚΩΝ ΠΟΡΩΝ

Study on the Strengthen Method of Masonry Structure by Steel Truss for Collapse Prevention

42. διαβάζει την εφηµερίδα (α) ή να διαβάζει την εφηµερίδα (β) ii) Ορίζουµε το ενδεχόµενο

Applying Markov Decision Processes to Role-playing Game

Automatic extraction of bibliography with machine learning

HIV HIV HIV HIV AIDS 3 :.1 /-,**1 +332

3: A convolution-pooling layer in PS-CNN 1: Partially Shared Deep Neural Network 2.2 Partially Shared Convolutional Neural Network 2: A hidden layer o

ER-Tree (Extended R*-Tree)

Speech Recognition using Phase Information based on Long-Term Analysis

Research on real-time inverse kinematics algorithms for 6R robots

Πανεπιστήµιο Μακεδονίας Τµήµα ιεθνών Ευρωπαϊκών Σπουδών Πρόγραµµα Μεταπτυχιακών Σπουδών στις Ευρωπαϊκές Πολιτικές της Νεολαίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ΠΡΟΣΩΠΙΚΑ ΣΤΟΙΧΕΙΑ ΣΠΟΥΔΕΣ

J. of Math. (PRC) Banach, , X = N(T ) R(T + ), Y = R(T ) N(T + ). Vol. 37 ( 2017 ) No. 5

(Statistical Machine Translation: SMT [1])

GPU. CUDA GPU GeForce GTX 580 GPU 2.67GHz Intel Core 2 Duo CPU E7300 CUDA. Parallelizing the Number Partitioning Problem for GPUs

Χαρτογράφηση θορύβου

ΓΛΩΣΣΙΚΗ ΕΝΑΛΛΑΓΗ, ΑΝΤΑΓΩΝΙΣΤΙΚΕΣ ΓΡΑΜΜΑΤΙΚΕΣ KAI ΔΙΑΓΛΩΣΣΑ: ΑΚΟΜA ΜΙΑ ΔΙΑΣΤΑΣΗ ΤΟΥ «ΚΥΠΡΙΑΚΟΥ».

[1] DNA ATM [2] c 2013 Information Processing Society of Japan. Gait motion descriptors. Osaka University 2. Drexel University a)

The State of the Art and Difficulties in Automatic Chinese Word Segmentation

Research of Han Character Internal Codes Recognition Algorithm in the Multi2lingual Environment

Development of the Nursing Program for Rehabilitation of Woman Diagnosed with Breast Cancer

Kenta OKU and Fumio HATTORI

CAP A CAP

A hybrid approach to compiling bilingual dictionaries of medical terms from parallel corpora

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

( ) , ) , ; kg 1) 80 % kg. Vol. 28,No. 1 Jan.,2006 RESOURCES SCIENCE : (2006) ,2 ,,,, ; ;

Ανάλυση Προτιμήσεων για τη Χρήση Συστήματος Κοινόχρηστων Ποδηλάτων στην Αθήνα

ΔΙΠΛΩΜΑΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

Vol.7 No (Mar. 2014) Latent Dirichlet Allocation LDA Twitter LDA

ΠΕΡΙ ΑΠΕΙΛΟΥΜΕΝΩΝ ΖΩΩΝ...ΑΝΘΡΩΠΩΝ ΕΡΓΑ.

Ευφυές Σύστημα Ανάλυσης Εικόνων Μικροσκοπίου για την Ανίχνευση Παθολογικών Κυττάρων σε Εικόνες Τεστ ΠΑΠ

ΝΕΑ ΔΗΜΟΚΡΑΤΙΑ ΓΡΑΦΕΙΟ ΤΥΠΟΥ

The Algorithm to Extract Characteristic Chord Progression Extended the Sequential Pattern Mining

Text Mining using Linguistic Information

Analysis of energy consumption of telecommunications network and application of energy-saving techniques

/MAC DoS. A Coding Scheme Using Matched Filter Resistant against DoS Attack to PHY/MAC Layer in Wireless Communications

«ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ ΓΔΓΟΜΔΝΩΝ ΣΟΝ ΔΛΛΑΓΗΚΟ ΥΩΡΟ»

ΔΘΝΙΚΗ ΥΟΛΗ ΓΗΜΟΙΑ ΓΙΟΙΚΗΗ ΙΗ ΔΚΠΑΙΓΔΤΣΙΚΗ ΔΙΡΑ

FSM Toolkit Exercises Part II

ΠΣΤΥΙΑΚΗ ΔΡΓΑΙΑ. Μειέηε Υξόλνπ Απνζηείξσζεο Κνλζέξβαο κε Τπνινγηζηηθή Ρεπζηνδπλακηθή. Αζαλαζηάδνπ Βαξβάξα

FX10 SIMD SIMD. [3] Dekker [4] IEEE754. a.lo. (SpMV Sparse matrix and vector product) IEEE754 IEEE754 [5] Double-Double Knuth FMA FMA FX10 FMA SIMD

Το νομικό πλαίσιο προστασίας των προσωπικών δεδομένων και της ιδιωτικής ζωής με έμφαση στον τομέα των ηλεκτρονικών επικοινωνιών.

1 (forward modeling) 2 (data-driven modeling) e- Quest EnergyPlus DeST 1.1. {X t } ARMA. S.Sp. Pappas [4]

ΠΣΤΧΛΑΚΘ ΕΡΓΑΛΑ ΜΕΣΡΘΕΛ ΟΠΣΛΚΟΤ ΒΑΚΟΤ ΑΣΜΟΦΑΛΡΑ ΜΕ ΘΛΛΑΚΟ ΦΩΣΟΜΕΣΡΟ ΕΚΟ

ΘΕΜΑΤΙΚΗ ΕΥΡΕΤΗΡΙΑΣΗ ΚΑΙ ΚΑΘΙΕΡΩΣΗ ΟΡΟΛΟΓΙΑΣ ΣΤΙΣ ΤΕΧΝΙΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ: Η ΕΜΠΕΙΡΙΑ ΣΤΟ ΤΕΕ

Automatic Domain2Specific Term Extraction and Its Application in Text Cla ssification

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ. 1.3.Ξένες γλώσσες Αγγλικά πολύ καλά 1.4.Τεχνικές γνώσεις

ΜΑΡΙΟΛΑΚΟΣ Η., ΦΟΥΝΤΟΥΛΗΣ Ι., ΣΠΥΡΙΔΩΝΟΣ Ε., ΑΝΔΡΕΑΔΑΚΗΣ Ε., ΚΑΠΟΥΡΑΝΗ, Ε.

Ηλεκτρονικά σώματα κειμένων και γλωσσική διδασκαλία: Διεθνείς αναζητήσεις και διαφαινόμενες προοπτικές για την ελληνική γλώσσα

Η ΑΝΑΚΥΚΛΩΣΗ ΤΩΝ ΞΥΛΙΝΩΝ ΚΑΤΑΣΚΕΥΩΝ ΚΑΙ Η ΣΗΜΑΣΙΑ ΤΗΣ ΣΤΗΝ ΠΡΟΣΤΑΣΙΑ ΤΟΥ ΦΥΣΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Η µαθηµατική και διδακτική διάσταση της γνώσης των µελλοντικών εκπαιδευτικών της πρωτοβάθµιας σχετικά µε την έννοια του κλάσµατος

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΦΙΛΟΣΟΦΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΙΤΑΛΙΚΗΣ ΦΙΛΟΛΟΓΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟΣ ΚΥΚΛΟΣ ΣΠΟΥΔΩΝ ΚΑΤΕΥΘΥΝΣΗ: ΛΟΓΟΤΕΧΝΙΑ-ΠΟΛΙΤΙΣΜΟΣ

ΓΕΩΜΕΣΡΙΚΗ ΣΕΚΜΗΡΙΩΗ ΣΟΤ ΙΕΡΟΤ ΝΑΟΤ ΣΟΤ ΣΙΜΙΟΤ ΣΑΤΡΟΤ ΣΟ ΠΕΛΕΝΔΡΙ ΣΗ ΚΤΠΡΟΤ ΜΕ ΕΦΑΡΜΟΓΗ ΑΤΣΟΜΑΣΟΠΟΙΗΜΕΝΟΤ ΤΣΗΜΑΣΟ ΨΗΦΙΑΚΗ ΦΩΣΟΓΡΑΜΜΕΣΡΙΑ

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Bayesian modeling of inseparable space-time variation in disease risk

HOSVD. Higher Order Data Classification Method with Autocorrelation Matrix Correcting on HOSVD. Junichi MORIGAKI and Kaoru KATAYAMA

Security in the Cloud Era

Υ ΡΟΓΕΩΛΟΓΙΚΕΣ ΣΥΝΘΗΚΕΣ ΚΑΙ ΠΡΟΒΛΗΜΑΤΑ ΥΠΟΒΑΘΜΙΣΗΣ ΤΗΣ ΠΟΙΟΤΗΤΑΣ ΤΩΝ ΥΠΟΓΕΙΩΝ ΝΕΡΩΝ ΣΤΗΝ ΠΕΡΙΟΧΗ ΜΕΣΣΗΝΗΣ, Ν.ΜΕΣΣΗΝΙΑΣ

ΚΛΙΜΑΤΟΛΟΓΙΑ CLIMATOLOGY

ΔΘΝΙΚΗ ΥΟΛΗ ΓΗΜΟΙΑ ΓΙΟΙΚΗΗ ΚΑ ΔΚΠΑΙΓΔΤΣΙΚΗ ΔΙΡΑ ΣΔΛΙΚΗ ΔΡΓΑΙΑ

AΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ

Supplementary Materials for Evolutionary Multiobjective Optimization Based Multimodal Optimization: Fitness Landscape Approximation and Peak Detection

J. of Math. (PRC) 6 n (nt ) + n V = 0, (1.1) n t + div. div(n T ) = n τ (T L(x) T ), (1.2) n)xx (nt ) x + nv x = J 0, (1.4) n. 6 n

Transcript:

1,a) 1 2 10 1. [6] [1], [6], [8], [10], [11] 2 n n+1 C 2 O(n 2 ) 1 153-8505 4-6-1 a) kaji@tkl.iis.u-tokyo.ac.jp [10] [19], [23] [6] [6] (3 ) 10 (1) (2) 3 c 2012 Information Processing Society of Japan 1

b C 1 : C 2 : C 3 : C 4 : C 5 : C 6 : e 1 [10] [15], [16], [17] [6] 10 2. Jiang [6] 2.1 [6], [10] ( 1) ( 1 ) b e ( 1 ) b e 2.2 Jiang [6] (word lattice reranking) 2 1: T 2: E // 3: for i =1...n do 4: C 5: for l =1...min(i, K) do 6: w c i l+1 c i l+2...c i 7: for t T do 8: C C (w, t) 9: end for 10: end for 11: C k E 12: end for 13: return E 2 [2] [5] ŷ =argmaxscore(x, y), (1) y L(x) L(x) x ŷ Score(x, y) y L(x) L(x) O(n 2 ) ŷ 2.3 Jiang [6] [6] Jiang ( E) c 2012 Information Processing Society of Japan 2

( 2) i c i c i (i.e., w = c i l+1 c i l+2...c i t ) C (5-10 ) l K (5 ) C k E c i E K O(n 2 ) (5 ) K K Jinag [6] K 3. ( 3) x W (2 ) w W (4 ) E W [15], [16], [20] O(n 2 ) *1 3.1 3.2 3.3 3.1 x W ( 3 2 ) [16] : *1 1: E 2: W WordGenerator(x) 3: for w W do 4: T PosTagGenerator(x, w) 5: for t T do 6: E E (w, t) 7: end for 8: end for 9: return E 3 b =argmaxλ w F w (x, b) b b = b 1... b n b i B I 2 c i Λ w F w (x, b) Λ w [3] 1 2-gram 2 c i n-gram n-gram Neubig [15] α W : W = i=1...α W i W i i α 3.2 w T ( 3 4 ) β T x w t [15]: Λ t F t (x, w, t) F t (x, w, t) () ( 2) w t 2 Λ t β α c 2012 Information Processing Society of Japan 3

n-gram c i 1, c i, c i+1, c i 2,c i 1, c i 1,c i, c i,c i+1, c i+1,c i+2, c i 3,c i 2,c i 1, c i 2,c i 1,c i, c i 1,c i,c i+1 c i,c i+1,c i+2, c i+1,c i+2,c i+3 n-gram c i 1, c i, c i+1, c i 2,c i 1, c i 1,c i, c i,c i+1, c i+1,c i+2, c i 3,c i 2,c i 1, c i 2,c i 1,c i, c i 1,c i,c i+1, c i,c i+1,c i+2, c i+1,c i+2,c i+3 l, r, i, l, s, r, s, i, s 1 c i c i (1) (2) (3) (4) (5) (6) 6 c i 1 c i+1 r( l) ( ) i s (1 2 3 4 5 ) w, t length(w),t c i,t, c i,c i+1,t, c j 1,t, c j 2,c j 1,t c i 1,t, c i 2,c i 1,t, c i 3,c i 2,c i 1,t, c j,t, c j,c j+1,t, c j,c j+1,c j+2,t d, d, t 2 w = c ic i+1...c j 1 t length(w) w 1 2 3 4 5 d w t 3.3 O(n) W O(n) W = i=1...α W i W i αn i=1...α O( W ) =O(n) 3 (3 ) O(n) (5 ) n O(n) ( O( E ) =O(n) ) α n O(n) 4. Huang[5] Score(x, y) ŷ ŷ =argmaxscore(x, y) y L(x) =argmaxλ F(x, y) y L(x) F(x, y) Λ 4.1 1 (Nakagawa[13] BIES 4 ) c i,c i+1,b c i,i c i 2-gram c i c i+1 c i 1-gram c i 2 2-gram 4.2 Λ 2 L(x) L(x) c 2012 Information Processing Society of Japan 4

KC 30,608 4028 3764 KNBC 3453 385 348 BCCWJ 47,547 6144 5741 3 3 Λ (3.1 3.2 ) 10 9 1 5. 5.1 5.2 5.3 5.4 5.5 5.1 version 4.0 [11] NTT version 1.0 [4] [12] 3 KC KNBC BCCWJ ( 3) JUMAN versiono 7.0 *2 UniDic version 1.3.12 *3 KC KNBC JUMAN BCCWJ UniDic 5.2 2 4 Jiang [6] K 20 K=5, 10, 20 3 *2 http://nlp.ist.i.kyoto-u.ac.jp/en/index.php?nlpresources *3 http://www.tokuteicorpus.jp/dist 5.3 k {2, 4, 8, 16...256} θ% {(α, β) α, β {2, 4, 8,...,256}} (α, β) θ KC BCCWJ 99 KNBC 97 KNBC 99% 5.4 4 Time #Cand 1 ( ) F 1 Size 1 *4 2 6 w W ( 3 2 ) F 1 (p <0.01) bootstrap resampling 1000 F 1 F 1 4 [18], [22] 10 30 *4 c 2012 Information Processing Society of Japan 5

KC KNBC BCCWJ Time #Cand. F 1 Size Time #Cand. F 1 Size Time #Cand. F 1 Size (K=5) 20 22 212 97.25 356 1.2 1.3 137 92.72 235 25 26 163 97.33 276 (K=10) 31 32 400 97.92 88.9 2.0 2.1 250 93.48 235 43 44 301 98.08 69.0 (K=20) 62 63 702 97.94 88.9 3.6 3.8 413 93.42 235 88 90 516 98.18 69.0 1.8 2.6 30.4 97.94 60.8 0.12 0.18 24.8 93.92 99.2 2.3 3.1 23.3 98.10 46.6 4 100 99 100 (%) 99.5 99 (K=5) (K=20) 98.5 0 500 1,000 1,500 (%) 98 97 (K=5) 96 (K=20) 95 0 200 400 600 800 1,000 (%) 99.5 (K=5) (K=20) 99 0 500 1,000 1,500 4 ( : KC: KNBC : BCCWJ) (#Cand) F 1 K K F 1 (K=5)K=5 F 1 F 1 K F 1 (K=20) n n +1 *5 ( 4) k {1, 2, 4, 8, 16} K 10 20 K=10 2 α =32 β {1, 2, 4, 8, 16} 2 4 3.3 W 5 5.5 JUMAN *6 MeCab [10] *7 Kytea [15] *8 5 3 F 1 *5 *6 http://nlp.ist.i.kyoto-u.ac.jp/en/index.php?juman *7 http://code.google.com/p/mecab *8 http://www.phontron.com/kytea c 2012 Information Processing Society of Japan 6

160 120 80 40 0 0 100 200 300 100 80 60 40 20 0 0 50 100 150 250 200 150 100 50 0 0 100 200 300 400 5 ( : KC: KNBC : BCCWJ) KC KNBC BCCWJ JUMAN 95.37 93.85 N/A MeCab 95.45 91.60 96.31 Kytea 96.95 90.91 97.10 97.94 93.92 98.10 5 F 1 F 1 bootstrap resampling F 1 (p <0.01) 4 KNBC JUMAN F 1 1400 / JUMAN MeCab Kytea 2100 / 29000 / 3200 / F 1 6. Nakagawa [14] Kruengkrai [9] Zhang [21], [22] [23] (= ) 7. 10 [7], [24] [1] Asahara, M. and Matsumoto, Y.: Extened Models and Tools for High-performance Part-of-speech Tagger, Proceedings of COLING, pp. 21 27 (2000). [2] Collins, M.: Discriminative Reranking for Natural Language Parsing, Proceedings of ICML, pp. 175 182 (2000). [3] Collins, M.: Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms, Proceedings of EMNLP, pp. 1 8 (2002). [4] Hashimoto, C., Kurohashi, S., Kawahara, D., Shinzato, K. and Nagata, M.: Construction of a Blog Corpus with Syntactic, Anaphoric, and Semantic Annotations (In Japanese), Journal of Natural Language Processing, Vol. 18, No. 2, pp. 175 201 (2011). [5] Huang, L.: Forest Reranking: Discriminative Parsing with Non-local Features, Proceedings of ACL, pp. 586 594 (2008). [6] Jiang, W., Mi, H. and Liu, Q.: Word Lattice Reranking for Chinese Word Segmentation and Part-of-Speech Tagging, Proceedings of Coling, pp. 385 392 (2008). [7] Kaji, N. and Kitsuregawa, M.: Splitting Noun Compounds via Monolingual and Bilingual Paraphrasing: A Study on Japanese Katakana Words, Proceedings of EMNLP, pp. 959 969 (2011). [8] Kruengkrai, C., Sornlertlamvnich, V. and Isahara, H.: A Conditional Random Field Framework for Thai Morphological Analysis, Proceedings of LREC, pp. 2419 2424 (2006). [9] Kruengkrai, C., Uchimoto, K., Kazama, J., Wang, Y., Torisawa, K. and Isahara, H.: An Error-Driven Word- Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging, Proceedings of ACL, pp. 513 521 (2009). [10] Kudo, T., Yamamoto, K. and Matsumoto, Y.: Applying Conditional Random Fields to Japanese Morphological Analysis, Proceedings of EMNLP, pp. 230 237 (2004). [11] Kurohashi, S. and Nagao, M.: Building a Japanese Parsed Corpus while Improving the Parsing System, Proc 2012 Information Processing Society of Japan 7

ceedings of LREC, pp. 719 724 (1998). [12] Maekawa, K.: Balanced corpus of contemporary written Japanese, Proceedings of the 6th Workshop on Asian Language Resources, pp. 101 102 (2008). [13] Nakagawa, T.: Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information, Proceedings of Coling, pp. 466 472 (2004). [14] Nakagawa, T. and Uchimoto, K.: A Hybrid Approach to Word Segmentation and POS Tagging, Proceedings of ACL, Demo and Poster Sessions, pp. 217 220 (2007). [15] Neubig, G., Nakata, Y. and Mori, S.: Pointwise Prediction for Robust Adaptable Japanese Morphological Analysis, Proceedings of ACL, pp. 529 533 (2011). [16] Peng, F., Feng, F. and McCallum, A.: Chinese Segmentation and New Word Detection using Conditional Random Fields, Proceedings of Coling, pp. 562 568 (2004). [17] Shi, Y. and Wang, M.: A Dual-layer CRFs Based Joint Decoding Method for Cascaded Segmentation and Labeling Tasks, Proceedings of IJCAI, pp. 1707 1712 (2007). [18] Sun, W.: A Stacked Sub-Word Model for Joint Chinese Word Segmentation and Part-of-Speech Tagging, Proceedings of ACL, pp. 1385 1394 (2011). [19] Uchimoto, K., Sekine, S. and Isahara, H.: The Unknown Word Problem: a Morphological Analysis of Japanese Using Maximum Entropy Aided by a Dictionary, Proceedings of EMNLP, pp. 91 99 (2001). [20] Xue, N.: Chinese Word Segmentation as Character Tagging, Computatioinal Linguistics and Chinese Language Processing, Vol. 8, No. 1, pp. 29 48 (2003). [21] Zhang, Y. and Clark, S.: Joint Word Segmentation and POS Tagging Using a Single Perceptron, Proceedings of ACL, pp. 888 896 (2008). [22] Zhang, Y. and Clark, S.: A Fast Decoder for Joint Word Segmentation and POS Tagging Using a Single Discriminative Model, Proceedings of EMNLP, pp. 843 852 (2010). [23] Shift-Reduce 14 (2008). [24] 19 pp. 908 911 (2013). c 2012 Information Processing Society of Japan 8