亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于HMM 的維吾爾語詞性標(biāo)注研究

2017-04-22 08:34:41李萍楊勇賽買提艾力任鴿

現(xiàn)代計(jì)算機(jī) 2017年7期

關(guān)鍵詞：模型研究

李萍，楊勇，賽買提·艾力，任鴿

（新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，烏魯木齊 830054）

基于HMM 的維吾爾語詞性標(biāo)注研究

李萍，楊勇，賽買提·艾力，任鴿

（新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，烏魯木齊 830054）

在維吾爾語與漢語的機(jī)器翻譯的研究中，詞性標(biāo)注起到很大的作用，詞性標(biāo)注也是自然語言處理的基礎(chǔ)性工作。介紹基于隱馬爾可夫模型的詞性標(biāo)注算法和詞性標(biāo)注器Citar，并且將Citar標(biāo)注器應(yīng)用到維吾爾語上進(jìn)行詞性標(biāo)注。為了能對維吾爾語進(jìn)行詞性標(biāo)注，在在布朗詞性標(biāo)注集的基礎(chǔ)上，定義一套適用于維吾爾語的詞性標(biāo)注集，采用基于隱馬爾可夫模型的方法，對部分維吾爾語進(jìn)行詞性標(biāo)注實(shí)驗(yàn)，經(jīng)過實(shí)驗(yàn)表明，Citar標(biāo)注器能準(zhǔn)確對維吾爾語進(jìn)行詞性標(biāo)注，從而表明此標(biāo)注器適用于維吾爾語。

機(jī)器翻譯；詞性標(biāo)注；隱馬爾可夫模型；詞性標(biāo)注集；維吾爾語

0 引言

詞性標(biāo)注[1-3]是自然語言處理的基礎(chǔ)，其中機(jī)器翻譯[4-5]、信息抽取[6-7]、信息檢索、信息識(shí)別等的研究都要在詞性標(biāo)注的研究基礎(chǔ)上。詞性標(biāo)注是將句子中的詞語標(biāo)記上詞性屬性，詞性標(biāo)注的難點(diǎn)在于一個(gè)詞在不同的語境環(huán)境可能有不同的屬性，另外對于未登錄詞的處理也是詞性標(biāo)注中的一大難點(diǎn)。漢語中的詞性標(biāo)記還涉及一個(gè)分詞問題，先要對句子進(jìn)行分詞，而像英語、維語這類的語言，其詞與詞之間存在空格，相比于漢語的詞性標(biāo)記，這類語言的詞性標(biāo)注相對容易些。

維吾爾語是阿爾泰語系，所有的詞語由32個(gè)字母構(gòu)成，但是每個(gè)字母有不同的變形，在構(gòu)成不同的詞語的時(shí)候其字形不一樣，這種變形加大了維吾爾語詞性標(biāo)注的難度。詞性標(biāo)注的難點(diǎn)主要是對兼類詞和未登錄詞的處理。目前對于維吾爾語詞性標(biāo)注的研究主要是集中于兩個(gè)方面，一個(gè)方面是維吾爾語詞性標(biāo)注集的研究與設(shè)計(jì)，第二個(gè)方面是詞性標(biāo)注算法在維吾爾語上的應(yīng)用。文獻(xiàn)[8]主要研究的是基于詞典的詞性標(biāo)注，構(gòu)建了《現(xiàn)代維語電子詞典》用于維吾爾語的詞性標(biāo)注，使用的標(biāo)注集是小標(biāo)記集。文獻(xiàn)[9]使用了最大熵模型對維吾爾語進(jìn)行了詞性標(biāo)記，并且標(biāo)記的時(shí)候結(jié)合了維吾爾語的詞綴作為標(biāo)記特征。文獻(xiàn)[10]將三階隱馬爾可夫模型運(yùn)用到了維吾爾語的詞性標(biāo)注，并且改進(jìn)了Viterbi算法。文獻(xiàn)[11]使用感知器訓(xùn)練算法和Viterbi算法對維吾爾語進(jìn)行了詞性標(biāo)注，同樣在標(biāo)注時(shí)結(jié)合了詞的特征。對維吾爾語的自動(dòng)化標(biāo)注目前使用的標(biāo)注集大部分是新疆大學(xué)多語種信息技術(shù)實(shí)驗(yàn)室制定的，也有部分研究是專門關(guān)于標(biāo)記集的制定。本文采用的以布朗語料庫制定的詞性標(biāo)記集為基礎(chǔ)并結(jié)合了維吾爾語的詞性特征篩選出來，使得基于隱馬爾科夫模型標(biāo)注器Citar適用于維吾爾語的詞性標(biāo)注。

1 基于HMM 的詞性標(biāo)注算法

隱馬爾科夫模型是由五元組μ=（S，O，A，B，π）構(gòu)成的，S為模型中的隱含狀態(tài)集合，在詞性標(biāo)注問題中對應(yīng)的是詞性，O為模型中的觀察狀態(tài)，在詞性標(biāo)注問題中對應(yīng)的是單詞，π為初始化狀態(tài)概率矩陣，A為隱含狀態(tài)轉(zhuǎn)移概率矩陣，B為觀察狀態(tài)轉(zhuǎn)移概率矩陣。

為了對大量維吾爾語詞語進(jìn)行標(biāo)注，需要先得到一個(gè)合適的隱馬爾科夫模型。本文采用Citar標(biāo)注器對維吾爾語進(jìn)行模型的訓(xùn)練以及詞性的標(biāo)注。由于Citar標(biāo)注器適應(yīng)的是英文，在應(yīng)用方面有相應(yīng)的區(qū)別。在訓(xùn)練之前首先要確定維吾爾語的標(biāo)記集，由于在詞性標(biāo)注問題上，大部分的標(biāo)記集都是由布朗語料庫中的標(biāo)記集演變而來，因此根據(jù)Brown語料庫的87個(gè)標(biāo)記集[12-13]以及大眾維語里出現(xiàn)的詞性[14]，篩選出用于維吾爾語詞性標(biāo)注的標(biāo)記集如表1所示，這里只針對常見的維吾爾語詞性確定了標(biāo)記集，還有待進(jìn)一步完善。

表1 維吾爾語詞性標(biāo)記集

采用此標(biāo)記集對部分語料的人工標(biāo)注結(jié)果如圖1所示。

2 實(shí)驗(yàn)

2.1 模型訓(xùn)練

本文使用了維吾爾語日常用語的1000句進(jìn)行人工標(biāo)注，根據(jù)人工詞性標(biāo)注的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行模型訓(xùn)練，通過實(shí)驗(yàn)數(shù)據(jù)的訓(xùn)練，可以得到兩個(gè)模型文件lexicon和ngrams，其中l(wèi)exicon模型文件主要是統(tǒng)計(jì)詞型和詞性標(biāo)記的組合在訓(xùn)練集合中出現(xiàn)的次數(shù)，ngrams模型文件主要是一元詞性和二元詞性在訓(xùn)練集中的出現(xiàn)次數(shù)。模型訓(xùn)練的命令為：”./citar-train../../corups/w4.txt lexicon ngrams”，生成的模型文件如圖2和圖3所示：

圖1 維吾爾語詞性標(biāo)注人工標(biāo)注結(jié)果

圖2 lexicon

圖3 ngrams

2.2 詞性標(biāo)注

圖4 詞性標(biāo)注結(jié)果

3 結(jié)語

結(jié)合維吾爾語的特點(diǎn)，為了能高效對維吾爾語進(jìn)行詞性標(biāo)注，本文提出了將基于HMM的Citar標(biāo)注器應(yīng)用于維吾爾語中進(jìn)行詞性標(biāo)注。在布朗詞性標(biāo)注集的基礎(chǔ)上，提取出了維吾爾語常用的詞性標(biāo)注集，通過實(shí)驗(yàn)表明，Citar標(biāo)注器非常適用于維吾爾語的詞性標(biāo)注，這也為以后的研究奠定了基礎(chǔ)。不足的是維吾爾語詞性標(biāo)注集不是很齊全，另外由于維吾爾語的書寫規(guī)則，使得詞性標(biāo)注的應(yīng)用存在困難，另外模型訓(xùn)練時(shí)人工標(biāo)注語料較少，真正對詞性進(jìn)行標(biāo)注時(shí)測試數(shù)據(jù)集較少，下一步工作就是獲取更多的人工標(biāo)注語料，在大規(guī)模的測試集上進(jìn)行實(shí)驗(yàn)，并對結(jié)果進(jìn)行評(píng)測。

[1]陳莉.基于HMM的柯爾克孜語基本詞性標(biāo)注研究[D].新疆大學(xué)，2013.

[2]王海波，祖漪清，力提甫，等.基于功能詞綴串的維吾爾語詞性標(biāo)注方法[J].中文信息學(xué)報(bào)，2013，27（5）:179-183.

[3]洪銘材，張闊，唐杰，等.基于條件隨機(jī)場（CRFs）的中文詞性標(biāo)注方法[J].計(jì)算機(jī)科學(xué)，2006，33（10）:148-151.

[4]劉群.統(tǒng)計(jì)機(jī)器翻譯綜述[J].中文信息學(xué)報(bào)，2003，17（4）:1-12.

[5]楊攀，李淼，張建.基于短語統(tǒng)計(jì)翻譯的漢維機(jī)器翻譯系統(tǒng)[J].計(jì)算機(jī)應(yīng)用，2009，29（07）:2022-2025.

[6]李保利，陳玉忠.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用，2003，39（10）:1-5.

[7]李萍，朱建波，周立新，廖彬.基于快速構(gòu)建模板的購物信息抽取方法[J].計(jì)算機(jī)應(yīng)用，2014，34（3）:733-737.

[8]玉素甫·艾白都拉，阿布都熱依木·沙力.現(xiàn)代維語語料庫的詞類標(biāo)注研究.民族語文，2005（4）:63-66.

[9]帕里旦·吐爾遜，艾山·吾買爾爾，吐爾根·依布拉音，等.基于最大熵的維吾爾語詞性標(biāo)注模型:第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)[Z].烏魯木齊:201017-20.

[10]陳鵬.隱馬爾可夫模型在維吾爾語詞性標(biāo)注中的應(yīng)用[J].電腦知識(shí)與技術(shù)（學(xué)術(shù)交流），2006（4）:127-128.

[11]卡哈爾江·阿比的熱西提帕提古力·依馬木買合木提·買買提吐爾根·依布拉音.基于感知器算法的維吾爾語詞性標(biāo)注研究[J].中文信息學(xué)報(bào).2014，28（5）.

[12]Eric Atwell.Automatic Mapping Among Lexico-Grammatical Annotation Models[eb/ol].[2015-9-29].http://www.scs.leeds.ac.uk/ccalas/ tagsets/brown.html.

[13]Brants T.TnT:a Statistical Part-of-Speech Tagger[C].Proceedings of the Sixth Conference on Applied Natural Language Processing. Association for Computational Linguistics，2000:224-231.

[14]馬德元，塔西普拉提，烏買爾.大眾維語[M].新疆：新疆大學(xué)出版社，1997:1-100.

Research on Uyghur Part-of-Speech Tagging Model Based on Hidden Markov Model

LI Ping，YANG Yong，SAI Mai Ti·Ai Li，REN Ge
（College of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054）

The part-of-speech tagging plays a very important role in the research on machine translation in Uyghur and Chinese.The part-ofspeech tagging is the groundwork for natural language processing.Introduces the part-of-speech tagging algorithm based on HMM and the part-of-speech tools named Citar,improves Citar in order to make the part-of-speech tagging tools apply to the Uyghur.On the basis of brown part-of-speech tagging sets,defines part-of-speech tagging sets used in the Uyghur for the part-of-speech tagging of Uyghur. Uses the method based on hidden Markov model,carried out the part of speech tagging experiment.The experiment result show that Citar has a good result on the part-for-speech tagging of Uyghur and the label machine is suitable for the Uyghur.

Machine Translation;Part-of-Speech Tagging;HMM;Part-of-Speech Tagging Sets;Uyghur

1007-1423（2017）07-0011-04

10.3969/j.issn.1007-1423.2017.07.003

李萍（1989-），女，湖南株洲人，講師，碩士，研究方向?yàn)樽匀徽Z言處理、信息檢索、信息抽取

楊勇（1979-），男，陜西漢中人，副教授，博士，研究方向?yàn)樽匀徽Z言處理

賽買提·艾力（1983-），男，新疆烏魯木齊人，講師，碩士，研究方向?yàn)樽匀徽Z言處理

任鴿（1986-），女，新疆烏魯木齊人，講師，碩士，研究方向?yàn)樽匀徽Z言處理

2016-12-22

2017-02-10

新疆師范大學(xué)優(yōu)秀青年教師科研啟動(dòng)基金項(xiàng)目（No.XJNU201420）