李萍,楊勇,賽買提·艾力,任鴿
(新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,烏魯木齊 830054)
基于HMM 的維吾爾語詞性標(biāo)注研究
李萍,楊勇,賽買提·艾力,任鴿
(新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,烏魯木齊 830054)
在維吾爾語與漢語的機(jī)器翻譯的研究中,詞性標(biāo)注起到很大的作用,詞性標(biāo)注也是自然語言處理的基礎(chǔ)性工作。介紹基于隱馬爾可夫模型的詞性標(biāo)注算法和詞性標(biāo)注器Citar,并且將Citar標(biāo)注器應(yīng)用到維吾爾語上進(jìn)行詞性標(biāo)注。為了能對維吾爾語進(jìn)行詞性標(biāo)注,在在布朗詞性標(biāo)注集的基礎(chǔ)上,定義一套適用于維吾爾語的詞性標(biāo)注集,采用基于隱馬爾可夫模型的方法,對部分維吾爾語進(jìn)行詞性標(biāo)注實(shí)驗(yàn),經(jīng)過實(shí)驗(yàn)表明,Citar標(biāo)注器能準(zhǔn)確對維吾爾語進(jìn)行詞性標(biāo)注,從而表明此標(biāo)注器適用于維吾爾語。
機(jī)器翻譯;詞性標(biāo)注;隱馬爾可夫模型;詞性標(biāo)注集;維吾爾語
詞性標(biāo)注[1-3]是自然語言處理的基礎(chǔ),其中機(jī)器翻譯[4-5]、信息抽取[6-7]、信息檢索、信息識(shí)別等的研究都要在詞性標(biāo)注的研究基礎(chǔ)上。詞性標(biāo)注是將句子中的詞語標(biāo)記上詞性屬性,詞性標(biāo)注的難點(diǎn)在于一個(gè)詞在不同的語境環(huán)境可能有不同的屬性,另外對于未登錄詞的處理也是詞性標(biāo)注中的一大難點(diǎn)。漢語中的詞性標(biāo)記還涉及一個(gè)分詞問題,先要對句子進(jìn)行分詞,而像英語、維語這類的語言,其詞與詞之間存在空格,相比于漢語的詞性標(biāo)記,這類語言的詞性標(biāo)注相對容易些。
維吾爾語是阿爾泰語系,所有的詞語由32個(gè)字母構(gòu)成,但是每個(gè)字母有不同的變形,在構(gòu)成不同的詞語的時(shí)候其字形不一樣,這種變形加大了維吾爾語詞性標(biāo)注的難度。詞性標(biāo)注的難點(diǎn)主要是對兼類詞和未登錄詞的處理。目前對于維吾爾語詞性標(biāo)注的研究主要是集中于兩個(gè)方面,一個(gè)方面是維吾爾語詞性標(biāo)注集的研究與設(shè)計(jì),第二個(gè)方面是詞性標(biāo)注算法在維吾爾語上的應(yīng)用。文獻(xiàn)[8]主要研究的是基于詞典的詞性標(biāo)注,構(gòu)建了《現(xiàn)代維語電子詞典》用于維吾爾語的詞性標(biāo)注,使用的標(biāo)注集是小標(biāo)記集。文獻(xiàn)[9]使用了最大熵模型對維吾爾語進(jìn)行了詞性標(biāo)記,并且標(biāo)記的時(shí)候結(jié)合了維吾爾語的詞綴作為標(biāo)記特征。文獻(xiàn)[10]將三階隱馬爾可夫模型運(yùn)用到了維吾爾語的詞性標(biāo)注,并且改進(jìn)了Viterbi算法。文獻(xiàn)[11]使用感知器訓(xùn)練算法和Viterbi算法對維吾爾語進(jìn)行了詞性標(biāo)注,同樣在標(biāo)注時(shí)結(jié)合了詞的特征。對維吾爾語的自動(dòng)化標(biāo)注目前使用的標(biāo)注集大部分是新疆大學(xué)多語種信息技術(shù)實(shí)驗(yàn)室制定的,也有部分研究是專門關(guān)于標(biāo)記集的制定。本文采用的以布朗語料庫制定的詞性標(biāo)記集為基礎(chǔ)并結(jié)合了維吾爾語的詞性特征篩選出來,使得基于隱馬爾科夫模型標(biāo)注器Citar適用于維吾爾語的詞性標(biāo)注。
隱馬爾科夫模型是由五元組μ=(S,O,A,B,π)構(gòu)成的,S為模型中的隱含狀態(tài)集合,在詞性標(biāo)注問題中對應(yīng)的是詞性,O為模型中的觀察狀態(tài),在詞性標(biāo)注問題中對應(yīng)的是單詞,π為初始化狀態(tài)概率矩陣,A為隱含狀態(tài)轉(zhuǎn)移概率矩陣,B為觀察狀態(tài)轉(zhuǎn)移概率矩陣。
為了對大量維吾爾語詞語進(jìn)行標(biāo)注,需要先得到一個(gè)合適的隱馬爾科夫模型。本文采用Citar標(biāo)注器對維吾爾語進(jìn)行模型的訓(xùn)練以及詞性的標(biāo)注。由于Citar標(biāo)注器適應(yīng)的是英文,在應(yīng)用方面有相應(yīng)的區(qū)別。在訓(xùn)練之前首先要確定維吾爾語的標(biāo)記集,由于在詞性標(biāo)注問題上,大部分的標(biāo)記集都是由布朗語料庫中的標(biāo)記集演變而來,因此根據(jù)Brown語料庫的87個(gè)標(biāo)記集[12-13]以及大眾維語里出現(xiàn)的詞性[14],篩選出用于維吾爾語詞性標(biāo)注的標(biāo)記集如表1所示,這里只針對常見的維吾爾語詞性確定了標(biāo)記集,還有待進(jìn)一步完善。
表1 維吾爾語詞性標(biāo)記集
采用此標(biāo)記集對部分語料的人工標(biāo)注結(jié)果如圖1所示。
2.1 模型訓(xùn)練
本文使用了維吾爾語日常用語的1000句進(jìn)行人工標(biāo)注,根據(jù)人工詞性標(biāo)注的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行模型訓(xùn)練,通過實(shí)驗(yàn)數(shù)據(jù)的訓(xùn)練,可以得到兩個(gè)模型文件lexicon和ngrams,其中l(wèi)exicon模型文件主要是統(tǒng)計(jì)詞型和詞性標(biāo)記的組合在訓(xùn)練集合中出現(xiàn)的次數(shù),ngrams模型文件主要是一元詞性和二元詞性在訓(xùn)練集中的出現(xiàn)次數(shù)。模型訓(xùn)練的命令為:”./citar-train../../corups/w4.txt lexicon ngrams”,生成的模型文件如圖2和圖3所示:
圖1 維吾爾語詞性標(biāo)注人工標(biāo)注結(jié)果
圖2 lexicon
圖3 ngrams
2.2 詞性標(biāo)注
圖4 詞性標(biāo)注結(jié)果
結(jié)合維吾爾語的特點(diǎn),為了能高效對維吾爾語進(jìn)行詞性標(biāo)注,本文提出了將基于HMM的Citar標(biāo)注器應(yīng)用于維吾爾語中進(jìn)行詞性標(biāo)注。在布朗詞性標(biāo)注集的基礎(chǔ)上,提取出了維吾爾語常用的詞性標(biāo)注集,通過實(shí)驗(yàn)表明,Citar標(biāo)注器非常適用于維吾爾語的詞性標(biāo)注,這也為以后的研究奠定了基礎(chǔ)。不足的是維吾爾語詞性標(biāo)注集不是很齊全,另外由于維吾爾語的書寫規(guī)則,使得詞性標(biāo)注的應(yīng)用存在困難,另外模型訓(xùn)練時(shí)人工標(biāo)注語料較少,真正對詞性進(jìn)行標(biāo)注時(shí)測試數(shù)據(jù)集較少,下一步工作就是獲取更多的人工標(biāo)注語料,在大規(guī)模的測試集上進(jìn)行實(shí)驗(yàn),并對結(jié)果進(jìn)行評(píng)測。
[1]陳莉.基于HMM的柯爾克孜語基本詞性標(biāo)注研究[D].新疆大學(xué),2013.
[2]王海波,祖漪清,力提甫,等.基于功能詞綴串的維吾爾語詞性標(biāo)注方法[J].中文信息學(xué)報(bào),2013,27(5):179-183.
[3]洪銘材,張闊,唐杰,等.基于條件隨機(jī)場(CRFs)的中文詞性標(biāo)注方法[J].計(jì)算機(jī)科學(xué),2006,33(10):148-151.
[4]劉群.統(tǒng)計(jì)機(jī)器翻譯綜述[J].中文信息學(xué)報(bào),2003,17(4):1-12.
[5]楊攀,李淼,張建.基于短語統(tǒng)計(jì)翻譯的漢維機(jī)器翻譯系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2009,29(07):2022-2025.
[6]李保利,陳玉忠.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(10):1-5.
[7]李萍,朱建波,周立新,廖彬.基于快速構(gòu)建模板的購物信息抽取方法[J].計(jì)算機(jī)應(yīng)用,2014,34(3):733-737.
[8]玉素甫·艾白都拉,阿布都熱依木·沙力.現(xiàn)代維語語料庫的詞類標(biāo)注研究.民族語文,2005(4):63-66.
[9]帕里旦·吐爾遜,艾山·吾買爾爾,吐爾根·依布拉音,等.基于最大熵的維吾爾語詞性標(biāo)注模型:第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)[Z].烏魯木齊:201017-20.
[10]陳鵬.隱馬爾可夫模型在維吾爾語詞性標(biāo)注中的應(yīng)用[J].電腦知識(shí)與技術(shù)(學(xué)術(shù)交流),2006(4):127-128.
[11]卡哈爾江·阿比的熱西提帕提古力·依馬木買合木提·買買提吐爾根·依布拉音.基于感知器算法的維吾爾語詞性標(biāo)注研究[J].中文信息學(xué)報(bào).2014,28(5).
[12]Eric Atwell.Automatic Mapping Among Lexico-Grammatical Annotation Models[eb/ol].[2015-9-29].http://www.scs.leeds.ac.uk/ccalas/ tagsets/brown.html.
[13]Brants T.TnT:a Statistical Part-of-Speech Tagger[C].Proceedings of the Sixth Conference on Applied Natural Language Processing. Association for Computational Linguistics,2000:224-231.
[14]馬德元,塔西普拉提,烏買爾.大眾維語[M].新疆:新疆大學(xué)出版社,1997:1-100.
Research on Uyghur Part-of-Speech Tagging Model Based on Hidden Markov Model
LI Ping,YANG Yong,SAI Mai Ti·Ai Li,REN Ge
(College of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054)
The part-of-speech tagging plays a very important role in the research on machine translation in Uyghur and Chinese.The part-ofspeech tagging is the groundwork for natural language processing.Introduces the part-of-speech tagging algorithm based on HMM and the part-of-speech tools named Citar,improves Citar in order to make the part-of-speech tagging tools apply to the Uyghur.On the basis of brown part-of-speech tagging sets,defines part-of-speech tagging sets used in the Uyghur for the part-of-speech tagging of Uyghur. Uses the method based on hidden Markov model,carried out the part of speech tagging experiment.The experiment result show that Citar has a good result on the part-for-speech tagging of Uyghur and the label machine is suitable for the Uyghur.
Machine Translation;Part-of-Speech Tagging;HMM;Part-of-Speech Tagging Sets;Uyghur
1007-1423(2017)07-0011-04
10.3969/j.issn.1007-1423.2017.07.003
李萍(1989-),女,湖南株洲人,講師,碩士,研究方向?yàn)樽匀徽Z言處理、信息檢索、信息抽取
楊勇(1979-),男,陜西漢中人,副教授,博士,研究方向?yàn)樽匀徽Z言處理
賽買提·艾力(1983-),男,新疆烏魯木齊人,講師,碩士,研究方向?yàn)樽匀徽Z言處理
任鴿(1986-),女,新疆烏魯木齊人,講師,碩士,研究方向?yàn)樽匀徽Z言處理
2016-12-22
2017-02-10
新疆師范大學(xué)優(yōu)秀青年教師科研啟動(dòng)基金項(xiàng)目(No.XJNU201420)