亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HMM 的維吾爾語詞性標(biāo)注研究

        2017-04-22 08:34:41李萍楊勇賽買提艾力任鴿
        現(xiàn)代計(jì)算機(jī) 2017年7期
        關(guān)鍵詞:模型研究

        李萍,楊勇,賽買提·艾力,任鴿

        (新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,烏魯木齊 830054)

        基于HMM 的維吾爾語詞性標(biāo)注研究

        李萍,楊勇,賽買提·艾力,任鴿

        (新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,烏魯木齊 830054)

        在維吾爾語與漢語的機(jī)器翻譯的研究中,詞性標(biāo)注起到很大的作用,詞性標(biāo)注也是自然語言處理的基礎(chǔ)性工作。介紹基于隱馬爾可夫模型的詞性標(biāo)注算法和詞性標(biāo)注器Citar,并且將Citar標(biāo)注器應(yīng)用到維吾爾語上進(jìn)行詞性標(biāo)注。為了能對維吾爾語進(jìn)行詞性標(biāo)注,在在布朗詞性標(biāo)注集的基礎(chǔ)上,定義一套適用于維吾爾語的詞性標(biāo)注集,采用基于隱馬爾可夫模型的方法,對部分維吾爾語進(jìn)行詞性標(biāo)注實(shí)驗(yàn),經(jīng)過實(shí)驗(yàn)表明,Citar標(biāo)注器能準(zhǔn)確對維吾爾語進(jìn)行詞性標(biāo)注,從而表明此標(biāo)注器適用于維吾爾語。

        機(jī)器翻譯;詞性標(biāo)注;隱馬爾可夫模型;詞性標(biāo)注集;維吾爾語

        0 引言

        詞性標(biāo)注[1-3]是自然語言處理的基礎(chǔ),其中機(jī)器翻譯[4-5]、信息抽取[6-7]、信息檢索、信息識(shí)別等的研究都要在詞性標(biāo)注的研究基礎(chǔ)上。詞性標(biāo)注是將句子中的詞語標(biāo)記上詞性屬性,詞性標(biāo)注的難點(diǎn)在于一個(gè)詞在不同的語境環(huán)境可能有不同的屬性,另外對于未登錄詞的處理也是詞性標(biāo)注中的一大難點(diǎn)。漢語中的詞性標(biāo)記還涉及一個(gè)分詞問題,先要對句子進(jìn)行分詞,而像英語、維語這類的語言,其詞與詞之間存在空格,相比于漢語的詞性標(biāo)記,這類語言的詞性標(biāo)注相對容易些。

        維吾爾語是阿爾泰語系,所有的詞語由32個(gè)字母構(gòu)成,但是每個(gè)字母有不同的變形,在構(gòu)成不同的詞語的時(shí)候其字形不一樣,這種變形加大了維吾爾語詞性標(biāo)注的難度。詞性標(biāo)注的難點(diǎn)主要是對兼類詞和未登錄詞的處理。目前對于維吾爾語詞性標(biāo)注的研究主要是集中于兩個(gè)方面,一個(gè)方面是維吾爾語詞性標(biāo)注集的研究與設(shè)計(jì),第二個(gè)方面是詞性標(biāo)注算法在維吾爾語上的應(yīng)用。文獻(xiàn)[8]主要研究的是基于詞典的詞性標(biāo)注,構(gòu)建了《現(xiàn)代維語電子詞典》用于維吾爾語的詞性標(biāo)注,使用的標(biāo)注集是小標(biāo)記集。文獻(xiàn)[9]使用了最大熵模型對維吾爾語進(jìn)行了詞性標(biāo)記,并且標(biāo)記的時(shí)候結(jié)合了維吾爾語的詞綴作為標(biāo)記特征。文獻(xiàn)[10]將三階隱馬爾可夫模型運(yùn)用到了維吾爾語的詞性標(biāo)注,并且改進(jìn)了Viterbi算法。文獻(xiàn)[11]使用感知器訓(xùn)練算法和Viterbi算法對維吾爾語進(jìn)行了詞性標(biāo)注,同樣在標(biāo)注時(shí)結(jié)合了詞的特征。對維吾爾語的自動(dòng)化標(biāo)注目前使用的標(biāo)注集大部分是新疆大學(xué)多語種信息技術(shù)實(shí)驗(yàn)室制定的,也有部分研究是專門關(guān)于標(biāo)記集的制定。本文采用的以布朗語料庫制定的詞性標(biāo)記集為基礎(chǔ)并結(jié)合了維吾爾語的詞性特征篩選出來,使得基于隱馬爾科夫模型標(biāo)注器Citar適用于維吾爾語的詞性標(biāo)注。

        1 基于HMM 的詞性標(biāo)注算法

        隱馬爾科夫模型是由五元組μ=(S,O,A,B,π)構(gòu)成的,S為模型中的隱含狀態(tài)集合,在詞性標(biāo)注問題中對應(yīng)的是詞性,O為模型中的觀察狀態(tài),在詞性標(biāo)注問題中對應(yīng)的是單詞,π為初始化狀態(tài)概率矩陣,A為隱含狀態(tài)轉(zhuǎn)移概率矩陣,B為觀察狀態(tài)轉(zhuǎn)移概率矩陣。

        為了對大量維吾爾語詞語進(jìn)行標(biāo)注,需要先得到一個(gè)合適的隱馬爾科夫模型。本文采用Citar標(biāo)注器對維吾爾語進(jìn)行模型的訓(xùn)練以及詞性的標(biāo)注。由于Citar標(biāo)注器適應(yīng)的是英文,在應(yīng)用方面有相應(yīng)的區(qū)別。在訓(xùn)練之前首先要確定維吾爾語的標(biāo)記集,由于在詞性標(biāo)注問題上,大部分的標(biāo)記集都是由布朗語料庫中的標(biāo)記集演變而來,因此根據(jù)Brown語料庫的87個(gè)標(biāo)記集[12-13]以及大眾維語里出現(xiàn)的詞性[14],篩選出用于維吾爾語詞性標(biāo)注的標(biāo)記集如表1所示,這里只針對常見的維吾爾語詞性確定了標(biāo)記集,還有待進(jìn)一步完善。

        表1 維吾爾語詞性標(biāo)記集

        采用此標(biāo)記集對部分語料的人工標(biāo)注結(jié)果如圖1所示。

        2 實(shí)驗(yàn)

        2.1 模型訓(xùn)練

        本文使用了維吾爾語日常用語的1000句進(jìn)行人工標(biāo)注,根據(jù)人工詞性標(biāo)注的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行模型訓(xùn)練,通過實(shí)驗(yàn)數(shù)據(jù)的訓(xùn)練,可以得到兩個(gè)模型文件lexicon和ngrams,其中l(wèi)exicon模型文件主要是統(tǒng)計(jì)詞型和詞性標(biāo)記的組合在訓(xùn)練集合中出現(xiàn)的次數(shù),ngrams模型文件主要是一元詞性和二元詞性在訓(xùn)練集中的出現(xiàn)次數(shù)。模型訓(xùn)練的命令為:”./citar-train../../corups/w4.txt lexicon ngrams”,生成的模型文件如圖2和圖3所示:

        圖1 維吾爾語詞性標(biāo)注人工標(biāo)注結(jié)果

        圖2 lexicon

        圖3 ngrams

        2.2 詞性標(biāo)注

        圖4 詞性標(biāo)注結(jié)果

        3 結(jié)語

        結(jié)合維吾爾語的特點(diǎn),為了能高效對維吾爾語進(jìn)行詞性標(biāo)注,本文提出了將基于HMM的Citar標(biāo)注器應(yīng)用于維吾爾語中進(jìn)行詞性標(biāo)注。在布朗詞性標(biāo)注集的基礎(chǔ)上,提取出了維吾爾語常用的詞性標(biāo)注集,通過實(shí)驗(yàn)表明,Citar標(biāo)注器非常適用于維吾爾語的詞性標(biāo)注,這也為以后的研究奠定了基礎(chǔ)。不足的是維吾爾語詞性標(biāo)注集不是很齊全,另外由于維吾爾語的書寫規(guī)則,使得詞性標(biāo)注的應(yīng)用存在困難,另外模型訓(xùn)練時(shí)人工標(biāo)注語料較少,真正對詞性進(jìn)行標(biāo)注時(shí)測試數(shù)據(jù)集較少,下一步工作就是獲取更多的人工標(biāo)注語料,在大規(guī)模的測試集上進(jìn)行實(shí)驗(yàn),并對結(jié)果進(jìn)行評(píng)測。

        [1]陳莉.基于HMM的柯爾克孜語基本詞性標(biāo)注研究[D].新疆大學(xué),2013.

        [2]王海波,祖漪清,力提甫,等.基于功能詞綴串的維吾爾語詞性標(biāo)注方法[J].中文信息學(xué)報(bào),2013,27(5):179-183.

        [3]洪銘材,張闊,唐杰,等.基于條件隨機(jī)場(CRFs)的中文詞性標(biāo)注方法[J].計(jì)算機(jī)科學(xué),2006,33(10):148-151.

        [4]劉群.統(tǒng)計(jì)機(jī)器翻譯綜述[J].中文信息學(xué)報(bào),2003,17(4):1-12.

        [5]楊攀,李淼,張建.基于短語統(tǒng)計(jì)翻譯的漢維機(jī)器翻譯系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2009,29(07):2022-2025.

        [6]李保利,陳玉忠.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(10):1-5.

        [7]李萍,朱建波,周立新,廖彬.基于快速構(gòu)建模板的購物信息抽取方法[J].計(jì)算機(jī)應(yīng)用,2014,34(3):733-737.

        [8]玉素甫·艾白都拉,阿布都熱依木·沙力.現(xiàn)代維語語料庫的詞類標(biāo)注研究.民族語文,2005(4):63-66.

        [9]帕里旦·吐爾遜,艾山·吾買爾爾,吐爾根·依布拉音,等.基于最大熵的維吾爾語詞性標(biāo)注模型:第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)[Z].烏魯木齊:201017-20.

        [10]陳鵬.隱馬爾可夫模型在維吾爾語詞性標(biāo)注中的應(yīng)用[J].電腦知識(shí)與技術(shù)(學(xué)術(shù)交流),2006(4):127-128.

        [11]卡哈爾江·阿比的熱西提帕提古力·依馬木買合木提·買買提吐爾根·依布拉音.基于感知器算法的維吾爾語詞性標(biāo)注研究[J].中文信息學(xué)報(bào).2014,28(5).

        [12]Eric Atwell.Automatic Mapping Among Lexico-Grammatical Annotation Models[eb/ol].[2015-9-29].http://www.scs.leeds.ac.uk/ccalas/ tagsets/brown.html.

        [13]Brants T.TnT:a Statistical Part-of-Speech Tagger[C].Proceedings of the Sixth Conference on Applied Natural Language Processing. Association for Computational Linguistics,2000:224-231.

        [14]馬德元,塔西普拉提,烏買爾.大眾維語[M].新疆:新疆大學(xué)出版社,1997:1-100.

        Research on Uyghur Part-of-Speech Tagging Model Based on Hidden Markov Model

        LI Ping,YANG Yong,SAI Mai Ti·Ai Li,REN Ge
        (College of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054)

        The part-of-speech tagging plays a very important role in the research on machine translation in Uyghur and Chinese.The part-ofspeech tagging is the groundwork for natural language processing.Introduces the part-of-speech tagging algorithm based on HMM and the part-of-speech tools named Citar,improves Citar in order to make the part-of-speech tagging tools apply to the Uyghur.On the basis of brown part-of-speech tagging sets,defines part-of-speech tagging sets used in the Uyghur for the part-of-speech tagging of Uyghur. Uses the method based on hidden Markov model,carried out the part of speech tagging experiment.The experiment result show that Citar has a good result on the part-for-speech tagging of Uyghur and the label machine is suitable for the Uyghur.

        Machine Translation;Part-of-Speech Tagging;HMM;Part-of-Speech Tagging Sets;Uyghur

        1007-1423(2017)07-0011-04

        10.3969/j.issn.1007-1423.2017.07.003

        李萍(1989-),女,湖南株洲人,講師,碩士,研究方向?yàn)樽匀徽Z言處理、信息檢索、信息抽取

        楊勇(1979-),男,陜西漢中人,副教授,博士,研究方向?yàn)樽匀徽Z言處理

        賽買提·艾力(1983-),男,新疆烏魯木齊人,講師,碩士,研究方向?yàn)樽匀徽Z言處理

        任鴿(1986-),女,新疆烏魯木齊人,講師,碩士,研究方向?yàn)樽匀徽Z言處理

        2016-12-22

        2017-02-10

        新疆師范大學(xué)優(yōu)秀青年教師科研啟動(dòng)基金項(xiàng)目(No.XJNU201420)

        猜你喜歡
        模型研究
        一半模型
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        3D打印中的模型分割與打包
        人妻无码ΑV中文字幕久久琪琪布 尤物AV无码色AV无码麻豆 | 性无码一区二区三区在线观看| 4hu四虎永久在线观看| 日韩AV不卡一区二区三区无码| 日韩少妇无码一区二区免费视频| 日本女同性恋一区二区三区网站| 国产aⅴ丝袜旗袍无码麻豆| 美利坚合众国亚洲视频| 婷婷伊人久久大香线蕉av| 蜜桃视频一区二区三区在线观看| 精品久久久久久无码不卡| 91精品国产色综合久久不| 日韩女优精品一区二区三区| 免费a级作爱片免费观看美国| 国产黑丝在线| 久久精品国产亚洲一级二级| 风骚人妻一区二区三区| 国产精品一区二区在线观看| 日韩在线第二页| 精品av一区二区在线| 狠狠色噜噜狠狠狠8888米奇| 无套内射蜜桃小视频| 野外三级国产在线观看| 一二三四在线观看韩国视频| 妺妺窝人体色www婷婷| 女人夜夜春高潮爽a∨片| 亚洲中文字幕日产喷水| 精品三级国产一区二区三 | 国产黄大片在线观看画质优化 | 台湾自拍偷区亚洲综合| 国语对白免费观看123| 国产麻传媒精品国产av| 国产av无码专区亚洲avjulia | 欧美伊人久久大香线蕉在观 | 色视频日本一区二区三区| 国产在线观看91一区二区三区| 中文字幕一区二区人妻性色| 色窝窝无码一区二区三区2022| 日本久久视频在线观看| 免费看又色又爽又黄的国产软件| 日韩精品一区二区三区在线观看|