亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于規(guī)則和統(tǒng)計的日語分詞和詞性標(biāo)注的研究

        2010-06-05 09:02:36姜尚仆陳群秀
        中文信息學(xué)報 2010年1期
        關(guān)鍵詞:助詞分詞日語

        姜尚仆,陳群秀

        (1. 清華大學(xué) 信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室,北京 100084; 2. 清華大學(xué) 計算機(jī)科學(xué)與技術(shù)系,北京 100084)

        1 引言

        規(guī)則和統(tǒng)計相結(jié)合的研究方法是當(dāng)前計算語言學(xué)界主流的研究方法,是今后發(fā)展的方向。本文對基于規(guī)則和統(tǒng)計的日語分詞和詞性標(biāo)注進(jìn)行了研究,提出了一個準(zhǔn)確率較高的基于規(guī)則和統(tǒng)計的日語分詞和詞性標(biāo)注算法。

        日語分詞和詞性標(biāo)注是以日語為源語言的機(jī)器翻譯系統(tǒng)的第一個模塊,是其重要組成部分。日語分詞和詞性標(biāo)注還被廣泛應(yīng)用于日語的各種自然語言處理的任務(wù)中。因此,日語分詞和詞性標(biāo)注算法的研究有著重要的意義。和中文類似,日語的詞語之間沒有明顯的分隔符,日語詞法分析也包括了分詞和詞性標(biāo)注兩個部分。

        對于序列標(biāo)注,近年來提出了很多算法,包括HMM[1]、ME[2-3]、CRFs[4]和感知器[5]等。中文分詞和詞性標(biāo)注通常被看成一類序列標(biāo)注問題,而采用字標(biāo)注的方法,例如對每個字標(biāo)注B/I[6]或者B/M/E/S[7]來實(shí)現(xiàn)詞語切分。然而,在日語分詞中,這種方法并不能取得很好的效果[8],這一是由于日語詞語相對較長,而字標(biāo)注的窗口較小,不能獲取足夠的上下文特征,二是由于日語中大量存在的假名作為一種拼音文字,沒有實(shí)際的語義。而通常來說,基于詞典的日語分詞算法,即使是最大匹配,也能獲得80%以上的正確率。詞典能提供詞性、鄰接關(guān)系、詞形變換規(guī)則等很多先驗(yàn)知識,這些都是字符特征無法獲得的。對于未登錄詞(OOV),也可以通過抽取詞語中的字符特征來進(jìn)行識別[9]。因此,一些基于詞特征的分詞算法成為了日語分詞的主流算法。文獻(xiàn)[10]使用基于詞的2階HMM,并對某些容易產(chǎn)生歧義的詞語添加了3階特征,以達(dá)到效率和效果的平衡。文獻(xiàn)[11]使用了字和詞的混合HMM,分別處理未登錄詞和登錄詞的情況。文獻(xiàn)[8]則使用了基于CRFs的方法,和常用的CRFs不同的是,它使用了基于詞的特征。

        另一方面,傳統(tǒng)的分詞和詞性標(biāo)注方法將兩個步驟串行執(zhí)行,帶來了誤差累積的問題。近年來,很多研究都在嘗試將兩者合二為一[13-15]。實(shí)驗(yàn)證明,聯(lián)合的方法無論是分詞正確性還是詞性標(biāo)注正確性都有了一定提高。

        本文提出了一種基于規(guī)則和統(tǒng)計的日語分詞和詞性標(biāo)注方法。類似于文獻(xiàn)[12,14]中文分詞和詞性標(biāo)注的方法,本文使用基于感知器的統(tǒng)計模型,并采用了聯(lián)合分詞和詞性標(biāo)注。不同的是,在此基礎(chǔ)上增加了鄰接屬性這種基于規(guī)則的特征。我們使用的特征模板和文獻(xiàn)[8]中類似,但由于感知器和CRFs相比模板選擇更為靈活,因此除了鄰接屬性的特征外,還添加了詞性的Trigram特征。實(shí)驗(yàn)結(jié)果表明:該方法和開源詞法分析系統(tǒng)MeCab在分詞和詞性標(biāo)注的準(zhǔn)確性上相當(dāng)。

        2 基于規(guī)則的日語分詞和詞性標(biāo)注研究

        基于規(guī)則的分詞算法是早期日語分詞的常用算法。這種方法的優(yōu)點(diǎn)是事先總結(jié)歸納好的規(guī)則可以覆蓋絕大部分的語言事實(shí),準(zhǔn)確性高并且計算比較簡單,速度快。本節(jié)首先介紹日語的詞語特征,在此基礎(chǔ)上介紹了基于規(guī)則的使用鄰接表的分詞算法。

        2.1 日語詞語特征

        和中文類似,日語的詞語間沒有分隔符,然而,日語又具有一些有別于中文的特點(diǎn),了解這些特點(diǎn),對于進(jìn)行較好的日語詞法分析有著重要的意義。日語主要具有如下一些詞法特征:

        1) 日語依靠助詞或者助動詞的黏著來表示每個詞語在句中的成分,因此助詞和助動詞的正確識別對詞法分析的正確性非常重要。

        日語中助詞(Particle)和助動詞(Auxiliary Verb)可以統(tǒng)稱為附屬詞,從語法功能上和中文的助詞比較接近。日語中有三種字符類型:平假名(Hiragana)、片假名(Katakana)和漢字。漢字常用于實(shí)詞,而且數(shù)量眾多,比較不容易產(chǎn)生切分和詞性標(biāo)注的歧義。片假名一般用于外來詞匯,出現(xiàn)較少且分界明顯。而平假名一共只有50多個字符,卻廣泛存在于各種詞性中,尤其是在附屬詞中數(shù)量繁多且詞語長度較短,詞語邊界的劃分更加困難。因此,在日語的詞法分析中,附屬詞通常會詞匯化(Lexicalized),即詞語本身作為和詞性類似特征來使用[8,10]。

        2) 日語的動詞、形容詞、形容動詞和助動詞有活用形。

        對于屬于這些詞性的詞,其原始形態(tài)被稱為基本形。而根據(jù)這些詞在句子中的不同成分和作用,又有連體形、連用形、未然形、終止形、假定形、命令形、推量形等不同的活用形。

        詞語的活用會影響到鄰接關(guān)系。例如,連體形后面通常會連接體言。這種活用形的匹配關(guān)系可以用來確定一些分詞或者詞性標(biāo)注的結(jié)果,因此,將這種匹配關(guān)系引入分詞算法是可能會有幫助的。其中一種引入的方法就是鄰接屬性和鄰接表。

        2.2 鄰接屬性和鄰接表

        詞性標(biāo)注算法通常使用N-gram模型來表示連續(xù)n個詞語詞性之間的相關(guān)性。然而,僅僅使用詞性的N-gram模型表示能力有限,往往不能描述復(fù)雜的語法性質(zhì)。ME和CRFs成功的解決了這個問題,通過引入各種復(fù)雜的、可重疊的特征模板,實(shí)現(xiàn)了性能的提高。例如,在中文詞性標(biāo)注中,字符的特征被廣泛應(yīng)用[6-7]。

        同樣,在日語詞法分析中,僅僅依靠詞性的N-gram模型是不夠的。對于兩個相鄰的詞語,一些細(xì)化的詞類別,例如動詞、形容詞、形容動詞和助動詞的活用形類型,人名、地名等命名實(shí)體等都可以作為鄰接關(guān)系的特征來使用。

        基于鄰接表的分詞算法就是這樣一種對相鄰詞語可能的搭配進(jìn)行分析的算法。鄰接表是事先根據(jù)語言學(xué)規(guī)律歸納總結(jié)出來的一套用來表示日語相鄰詞語之間可能的鄰接組合的規(guī)則。我們對每個詞語都指定了一個左鄰接屬性和一個右鄰接屬性。任意兩個相鄰的詞語,后一個的左鄰接屬性和前一個的右鄰接屬性的組合決定了這兩個詞語之間的匹配程度。我們用人工總結(jié)歸納出102種左鄰接屬性和99種右鄰接屬性,并定義任意的一對組合能否匹配,這種匹配關(guān)系就是鄰接表。例如,在詞典中有這樣的詞條:

        五 8 6分 11 66

        它表示“五”(五)的右鄰接屬性和左鄰接屬性分別為8(代表“JRN8 數(shù)詞”)和6(代表“JLN6 數(shù)詞”),“分”(分鐘)的右鄰接屬性和左鄰接屬性分別為11(代表“JRNB 単位”)和66(代表“JSF9 後助數(shù)詞”)。如果“五”的右鄰接屬性8和“分”的左鄰接屬性66的組合在鄰接表中存在,則“五分”就成為一個可能的詞語搭配。

        除了人工指定相鄰兩個鄰接屬性對能否匹配的方法,這種匹配規(guī)則也可以使用概率模型來表示,并利用分詞語料庫進(jìn)行參數(shù)估計。由于鄰接屬性通過人工分析了各種可能會影響相鄰詞語搭配的特征,因此能實(shí)現(xiàn)較好的分詞和詞性標(biāo)注結(jié)果,同時又不會造成過擬合。

        2.3 詞典構(gòu)成

        我們使用的詞典由名詞詞典、形容詞詞典等18部分類詞典組成的大規(guī)模的詞典,共有詞條72.7萬。每個詞條除了詞語本身以外,還記錄了詞語的詞性、左鄰接屬性和右鄰接屬性。對于動詞、形容詞、形容動詞和助動詞這些有活用形的詞語,我們根據(jù)一個動詞基本形詞典,通過活用形變化規(guī)則,生成其所有活用形的詞條。例如下面的動詞詞條:

        あたら 56 9 あたる

        表示“あたら”所對應(yīng)的基本型為“あたる”,其右鄰接屬性和左鄰接屬性分別為56(表示“JEM5 未然a-nal”)和9(表示“JLV1 動詞”)。

        3 在基于統(tǒng)計的框架下加入基于規(guī)則的特征

        由于基于規(guī)則的方法靈活性較差并且對語言事實(shí)的覆蓋面不夠全面等固有缺陷,結(jié)合基于統(tǒng)計的方法往往能為性能帶來較大提升。本文使用了基于統(tǒng)計的感知器算法[5]作為整個算法的框架,在其中融合基于規(guī)則的特征。感知器算法是CRFs的一種替代算法,并且具有和CRFs類似的性能。這種方法被廣泛應(yīng)用于詞性標(biāo)注[5]和中文分詞[12,14-15]中。

        3.1 特征模板

        本文選取的特征模板如表1所示。在基本模板中,對未登錄詞使用了基于字符的特征,對助詞、助動詞和標(biāo)點(diǎn)等詞語進(jìn)行了詞匯化(見2.1節(jié)),并使用了詞性的Trigram特征。此外,還加入了鄰接屬性(見2.2節(jié))的特征,由于鄰接屬性和詞性基本上是多對一的關(guān)系,因此沒有使用鄰接屬性和詞性結(jié)合的特征。

        表1 本文算法使用的特征模板①

        3.2 參數(shù)訓(xùn)練

        輸入:訓(xùn)練集(X,Y)

        算法:

        Fort=1…T,i=1…N

        3.3 解碼算法

        由于感知器算法的訓(xùn)練參數(shù)過程只依賴于解碼,它處理特征模板的能力強(qiáng)大而靈活。對于復(fù)雜的特征模板,通常可以使用集束搜索(Beam Search)算法[12]進(jìn)行解碼。文獻(xiàn)[14]提出了多重集束搜索(Multi-beam Search)算法對使用單一感知器進(jìn)行聯(lián)合分詞和詞性標(biāo)注的解碼方法進(jìn)行改進(jìn),解決使用集束搜索由于搜索空間過大導(dǎo)致的準(zhǔn)確性下降的問題。集束搜索和多重集束搜索用啟發(fā)式的方法對搜索空間進(jìn)行壓縮,通常能得到較優(yōu)解,而且速度較快。

        由于本文使用的特征狀態(tài)空間比較簡單,使用Viterbi算法不但可以求得最優(yōu)解,而且速度也不慢。因此,本文使用Viterbi算法來進(jìn)行解碼,狀態(tài)轉(zhuǎn)移方程為:

        其中,score(p′,p,r,lex)是當(dāng)前狀態(tài)的得分,w是當(dāng)前詞語,p″,p′,p是最后三個詞語的詞性。當(dāng)w需要詞匯化時,lex=w;否則lex=NULL。Uni,bi和tri分別表示當(dāng)前位置Unigram, Bigram和Trigram特征的得分。

        4 實(shí)驗(yàn)和結(jié)果分析

        4.1 訓(xùn)練數(shù)據(jù)

        實(shí)驗(yàn)使用的訓(xùn)練語料是北京外國語大學(xué)的日漢雙語語料庫,里面的文章來自日語小說原著和翻譯。我們從中選取了7MB的日語原文,對它進(jìn)行了預(yù)處理,劃分出段落46 730段,句子114 228句,然后分別使用一個基于字詞混合HMM的分詞系統(tǒng)(使用了文獻(xiàn)[11]中的方法)和開源日語分詞系統(tǒng)MeCab對這些句子進(jìn)行詞法分析,其中有10 475句切分結(jié)果完全一致。在切分不同的句子中,取出部分針對句子不一致的部分進(jìn)行修正,共整理出11 000句句子作為訓(xùn)練語料。由于資源有限,暫時沒有對這部分訓(xùn)練語料進(jìn)行人工校對。

        4.2 測試集

        日語分詞目前還沒有公開的評測,因此我們自己構(gòu)建了一個小規(guī)模的測試集。測試語料來源于網(wǎng)頁,共有9 154句日語句子。使用的對比系統(tǒng)是基于字詞混合HMM的分詞系統(tǒng)和開源日語分詞系統(tǒng)MeCab。其中第一個系統(tǒng)使用了文獻(xiàn)[11]中的框架,利用詞典來識別登錄詞,利用字特征來識別未登錄詞,并加入了基于統(tǒng)計的鄰接屬性規(guī)則(見2.2節(jié))。MeCab使用的是文獻(xiàn)[8]中基于詞的CRFs的算法。由于MeCab使用的詞性分類標(biāo)準(zhǔn)和我們標(biāo)注的標(biāo)準(zhǔn)差異較大,因此MeCab在這個數(shù)據(jù)集上詞性標(biāo)注的準(zhǔn)確率無法得到。為了比較,實(shí)驗(yàn)結(jié)果中添加了文獻(xiàn)[8]中列出的MeCab在Kyoto Corpus上的實(shí)驗(yàn)結(jié)果作為參考。對于本文提出的方法,分別測試了使用基本特征模板(見表1)和基本模板加鄰接屬性兩種情況,實(shí)驗(yàn)結(jié)果如表2所示。

        表2 實(shí)驗(yàn)結(jié)果

        4.3 結(jié)果分析

        實(shí)驗(yàn)結(jié)果表明,在只使用基本模板的情況下,本文的方法比其他方法略差。而加上鄰接屬性模板后系統(tǒng)的性能超過了基于字詞混合HMM的方法,和MeCab的性能基本相當(dāng)。一方面,由于感知器算法采用了判別訓(xùn)練,在訓(xùn)練集較小的情況下比HMM的生成模型具有更好的效果;另一方面,相對于基本模板,由于加入了鄰接屬性的特征,相鄰詞語的搭配將更加符合語法規(guī)則。下面給出一個正確分詞和詞性標(biāo)注的例子:

        ①本文使用的詞性:名詞N,量詞U,助詞X,動詞V,形容詞AJ,形容動詞AV,助動詞XV,接助詞XC,連體詞L,連續(xù)詞C,副詞D,代詞P,數(shù)詞M,感嘆詞I,標(biāo)點(diǎn)T,格助詞XN,副助詞XD,系助詞S,終助詞XE,接頭詞H。

        分詞和詞性標(biāo)注錯誤的情況大多數(shù)是由于未登錄詞導(dǎo)致的,可見系統(tǒng)在處理未登錄詞方面的能力還較弱。這一方面是由于實(shí)驗(yàn)中使用的詞典還不完善,其中存在一些錯誤和遺漏;另一方面也是由于使用的未登錄詞的特征模板相對簡單。此外,分詞正確但詞性標(biāo)注錯誤的情況也較多。實(shí)驗(yàn)中使用的訓(xùn)練語料是抽取了兩個已有系統(tǒng)分詞相同的部分,由于兩個系統(tǒng)的詞性標(biāo)注標(biāo)準(zhǔn)不一致,詞性標(biāo)注選取了前一個系統(tǒng)的結(jié)果,且沒有經(jīng)過人工校對,這些問題可能會對參數(shù)估計產(chǎn)生不良影響。日語中存在一些形容連用和副詞等常見的多詞性的情況也常常產(chǎn)生錯誤。下面是一個錯誤的例子:

        原文: この庭はよく叡山を借景としたものです。(譯文: 這個是借睿山為遠(yuǎn)景而造的庭院。)結(jié)果: この L 庭 N は XS よく AJ 叡山 N を XN 借景 N と XN し V た XV もの N です XV 。 T 人工: この L 庭 N は XS よく D 叡山 N を XN 借景 N と XN し V た XV もの N です XV 。 T

        よく在這里有兩種詞性,并且語法上都是合理的,結(jié)果選擇了錯誤的那個詞性。要避免這種錯誤一方面需要提高訓(xùn)練語料的規(guī)模和質(zhì)量,一方面可能需要引入其他的特征或使用其他的模型。

        5 結(jié)論和展望

        本文提出了一種基于規(guī)則和統(tǒng)計的日語分詞和詞性標(biāo)注方法,并且使用基于單一感知器的聯(lián)合分詞和詞性標(biāo)注算法進(jìn)行訓(xùn)練和解碼。由于鄰接屬性特征的引入,算法的正確性得到了較大提高,超過了基于字詞混合HMM的系統(tǒng),和開源日語詞法分析系統(tǒng)MeCab的性能基本相當(dāng)。鄰接屬性作為一種人工確定的標(biāo)準(zhǔn),具有很高的區(qū)分能力,我們僅僅使用了一些簡單的特征模板,就得到了較好的結(jié)果,而且訓(xùn)練和解碼過程也很簡單。分詞和詞性標(biāo)注聯(lián)合的算法和串行算法相比,也能有效減少誤差傳遞。

        當(dāng)然,更多的特征可能會對結(jié)果有進(jìn)一步的提高,例如更高階的N-gram特征,或者更多的字符特征。我們只在未登錄詞中使用了字符特征,實(shí)際上,字符特征可能對已登錄詞的識別也有幫助。此外多重集束搜索算法的提出也保證了加入更多特征后的解碼過程仍然可解。

        [1] Lawrence. R. Rabiner. A tutorial on hidden markov models and selected applications in speech recogonition[C]//Proceedings of IEEE, 1989.

        [2] Patnaparkhi and Adwait. A maximum entropy part-of-speech tagger[C]//Proceedings of the EMNLP, 1996.

        [3] A. McCallum, D. Freitag, and F. Pereira. Maximum entropy markov models for information extraction and segmentation[C]//Proceedings of ICML, 2000.

        [4] J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of ICML, 2001.

        [5] Michael Collins. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms[C]//Proceedings of EMNLP, 2002.

        [6] F. Peng, F. Feng, and A. McCallum. Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of COLING, 2004.

        [7] N. Xue and L. Shen. Chinese word segmentation as LMR tagging[C]//Proceedings of ACL SIGHAN Workshop, 2003.

        [8] T. Kudo, K. Yamamoto, and Y. Matsumoto. Applying conditional random fields to Japanese morphological analysis[C]//Proceedings of EMNLP, 2004.

        [9] K. Uchimoto, C. Nobata, A. Yamada, S. Sekine, H. Isahara. Morphological analysis of the spontaneous speech corpus[C]//Proceedings of COLING, 2002.

        [10] M. Asahara. Corpus-based Japanese morphological analysis[D]. Japan: NAIST, 2003.

        [11] T. Nakagawa. Chinese and Japanese word segmentation using word-level and character-level information[C]//Proceedings of COLING, 2004.

        [12] Y. Zhang and S. Clark. Chinese segmentation with a word-based perceptron algorithm[C]//Proceedings of ACL, 2007.

        [13] H. Ng and J. Low. Chinese part-of-speech tagging: one-at-a-time or all-at-once? Word-based or character-based?[C] //Proceedings of EMNLP, 2004.

        [14] Y. Zhang and S. Clark. Joint word segmentation and POS tagging using a single perceptron[C]//Proceedings of ACL, 2008.

        [15] W. Jiang, L. Huang, Q. Liu, Y. Lu. A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of ACL, 2008.

        猜你喜歡
        助詞分詞日語
        從推量助動詞看日語表達(dá)的曖昧性
        韓國語助詞的連續(xù)構(gòu)成與復(fù)合助詞的區(qū)分
        日語中的“強(qiáng)調(diào)”表達(dá)研究——以助詞為中心
        明朝日語學(xué)習(xí)研究
        甘肅教育(2020年17期)2020-10-28 09:02:32
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        日語中“間投助詞”與“終助詞”在句中適用位置的對比考察
        長江叢刊(2018年6期)2018-11-14 16:42:08
        江永桃川土話的助詞
        值得重視的分詞的特殊用法
        關(guān)于日語中的“のた”和“の”的研究
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        国产青草视频在线观看| 成人av一区二区三区四区| 国产三级一区二区三区在线观看 | 国产农村妇女毛片精品久久| 99久久亚洲精品无码毛片| 亚洲熟妇20| 中文精品久久久久中文| 麻豆国产精品伦理视频| 澳门蜜桃av成人av| 粗大的内捧猛烈进出看视频| 国产精自产拍久久久久久蜜| 亚洲www视频| 一级午夜理论片日本中文在线| 久久久免费看少妇高潮| 三年的高清电影免费看| 人人妻人人澡人人爽人人精品电影| 欧美精品一区二区精品久久| 国产麻豆剧传媒精品国产av蜜桃| 亚洲成年国产一区二区| 成人丝袜激情一区二区| 天堂新版在线资源| 亚洲国产高清在线一区二区三区| 欧洲国产精品无码专区影院| av成人资源在线观看| av免费在线播放一区二区| 欧美性受xxxx黑人猛交| 无码熟妇人妻av在线影片| 中文字幕乱码人妻无码久久久1| 漂亮人妻被强中文字幕乱码| 少妇激情av一区二区三区| 三年片大全在线观看免费观看大全 | 成人看片黄a免费看那个网址 | 久久精品99久久香蕉国产色戒| 午夜高清福利| 亚洲码无人客一区二区三区 | 欲女在线一区二区三区| 欧美大肥婆大肥bbbbb| 亚洲中文欧美日韩在线| 国产高清视频在线不卡一区| 中文字幕久久久人妻无码| 亚洲成成品网站源码中国有限公司|