亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        采用CRF模型的哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)自動(dòng)抽取技術(shù)研究

        2016-12-01 09:25:25木合亞提尼亞孜別克古力沙吾利塔里甫達(dá)吾勒阿布都哈依爾
        關(guān)鍵詞:規(guī)則特征信息技術(shù)

        木合亞提·尼亞孜別克,古力沙吾利·塔里甫,達(dá)吾勒·阿布都哈依爾

        (1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊 830046;2.新疆大學(xué)新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆烏魯木齊 830046;3.新疆醫(yī)科大學(xué)中醫(yī)學(xué)院,新疆烏魯木齊 830011)

        ?

        采用CRF模型的哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)自動(dòng)抽取技術(shù)研究

        木合亞提·尼亞孜別克1,2,古力沙吾利·塔里甫3,達(dá)吾勒·阿布都哈依爾1,2

        (1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊 830046;2.新疆大學(xué)新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆烏魯木齊 830046;3.新疆醫(yī)科大學(xué)中醫(yī)學(xué)院,新疆烏魯木齊 830011)

        研究哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)自動(dòng)識(shí)別方法.采用基于條件隨機(jī)場(chǎng)(CRF)的方法,針對(duì)哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)的組成形式、定界規(guī)則等術(shù)語(yǔ)自動(dòng)識(shí)別標(biāo)注問(wèn)題,結(jié)合哈薩克語(yǔ)本身詞性、詞邊界、術(shù)語(yǔ)類別標(biāo)注的特征,分析不同特征組合對(duì)術(shù)語(yǔ)識(shí)別的影響,并探討最有效的組合.結(jié)果表明,CRF模型正確識(shí)別率為83.08%,召回率為80.13%,F值為80.57%.

        哈薩克語(yǔ);信息技術(shù);術(shù)語(yǔ)抽??;條件隨機(jī)場(chǎng)

        隨著哈薩克語(yǔ)信息技術(shù)的日益普及,新聞、出版和語(yǔ)言研究領(lǐng)域里哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)越來(lái)越受到重視,同時(shí),術(shù)語(yǔ)識(shí)別在在線翻譯、搜索引擎等信息技術(shù)研究熱點(diǎn)領(lǐng)域也起著重要作用.

        目前常見(jiàn)的術(shù)語(yǔ)抽取方法有3大類:① 基于規(guī)則的方法;② 基于統(tǒng)計(jì)的方法;③ 規(guī)則方法與統(tǒng)計(jì)方法相結(jié)合的混合策略技術(shù).國(guó)外開(kāi)展術(shù)語(yǔ)研究比較早,20世紀(jì)80年代有Choueka等[2]的研究;Maynard等[3]研究了醫(yī)學(xué)領(lǐng)域的術(shù)語(yǔ)抽取,計(jì)算了術(shù)語(yǔ)上下文不同部分的相對(duì)重要程度和術(shù)語(yǔ)與上下文的相似性;Nakagaw等[4]提出了一種新的參數(shù)GM/FGM及其計(jì)算公式.在國(guó)內(nèi),張鋒等通過(guò)計(jì)算字串的互信息得到候選術(shù)語(yǔ)[5];劉豹等應(yīng)用基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法研究科技術(shù)語(yǔ)自動(dòng)抽取[6];賈美英等使用條件隨機(jī)場(chǎng)的方法分別在軍事情報(bào)領(lǐng)域和汽車領(lǐng)域進(jìn)行術(shù)語(yǔ)抽取實(shí)驗(yàn),結(jié)果令人滿意[7-8].文中在以上研究基礎(chǔ)上,選擇適合哈薩克語(yǔ)言特點(diǎn)的方法,對(duì)哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)進(jìn)行識(shí)別.

        1 哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)

        1.1 信息技術(shù)術(shù)語(yǔ)概述

        文中分析哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)的特點(diǎn),借助已有的研究成果,制定哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)標(biāo)準(zhǔn),認(rèn)為只要符合標(biāo)注標(biāo)準(zhǔn)的都是哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)[9-10].標(biāo)注標(biāo)準(zhǔn)如下:

        1.2 語(yǔ)料庫(kù)的選擇

        目前沒(méi)有標(biāo)注好的哈薩克語(yǔ)信息技術(shù)標(biāo)準(zhǔn)語(yǔ)料,要求人工標(biāo)注.文中從《漢哈英俄信息與計(jì)算技術(shù)名詞術(shù)語(yǔ)詞典》[11]中抽取和篩選2 646個(gè)哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)進(jìn)行學(xué)習(xí)和分析,統(tǒng)計(jì)結(jié)果顯示,簡(jiǎn)單術(shù)語(yǔ)占18.37%,由2個(gè)詞組成的術(shù)語(yǔ)占68.03%,由3個(gè)詞組成的術(shù)語(yǔ)占10.88%,由4,5,6個(gè)詞組成的術(shù)語(yǔ)分別占1.36%,0.52%,0.34%,由7個(gè)及以上詞組成的復(fù)雜術(shù)語(yǔ)占0.5%.

        以來(lái)自“天山網(wǎng)”、“廣播網(wǎng)站”、“哈薩克軟件網(wǎng)”等網(wǎng)站的哈薩克文新聞,中小學(xué)信息技術(shù)教材的文本信息作為文中系統(tǒng)的訓(xùn)練和測(cè)試語(yǔ)料.

        2 訓(xùn)練語(yǔ)料庫(kù)的建立

        哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)抽取系統(tǒng)利用有監(jiān)督的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法.文中設(shè)計(jì)出基于規(guī)則的哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)抽取系統(tǒng),并以此系統(tǒng)的術(shù)語(yǔ)抽取結(jié)果作為訓(xùn)練語(yǔ)料.

        2.1 哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)抽取規(guī)則

        2.2 基于規(guī)則的哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)抽取系統(tǒng)框架

        圖1中的原始語(yǔ)料是為本系統(tǒng)準(zhǔn)備的從各種哈薩克文網(wǎng)站和中小學(xué)信息技術(shù)教材中獲取的語(yǔ)料.原始語(yǔ)料是通過(guò)目前實(shí)驗(yàn)室使用的哈薩克語(yǔ)詞法分析系統(tǒng)獲得的已經(jīng)單詞提取、詞綴提取和詞性標(biāo)注的熟語(yǔ)料.基于規(guī)則的系統(tǒng)中熟語(yǔ)料作為輸入,通

        圖1 系統(tǒng)框架Fig 1System framework

        過(guò)哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)詞典和哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)搭配規(guī)則庫(kù)進(jìn)行過(guò)濾,候選術(shù)語(yǔ)標(biāo)注語(yǔ)料再通過(guò)人工方法修改生成訓(xùn)練語(yǔ)料.文中根據(jù)詞在術(shù)語(yǔ)中位置的不同,為術(shù)語(yǔ)規(guī)定了不同的角色,B表示術(shù)語(yǔ)的開(kāi)始,I表示術(shù)語(yǔ)的中間,對(duì)不能構(gòu)成術(shù)語(yǔ)的詞,一律為0.

        圖2和圖3分別表示本系統(tǒng)中所使用的熟語(yǔ)料和訓(xùn)練語(yǔ)料.

        圖2 系統(tǒng)熟語(yǔ)料Fig 2Systems familiar with corpus

        圖3 系統(tǒng)訓(xùn)練語(yǔ)料Fig 3System training corpus

        3 基于條件隨機(jī)場(chǎng)的哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)抽取方法

        從圖4可知,訓(xùn)練模塊利用訓(xùn)練語(yǔ)料庫(kù)和事前定義好的特征模板從文本中抽取特征,再利用CRF模型進(jìn)行訓(xùn)練,便可獲得每個(gè)特征的相關(guān)參數(shù).標(biāo)注哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)時(shí),通過(guò)特征模板和訓(xùn)練語(yǔ)料特征模板抽取特征,根據(jù)哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)系統(tǒng)訓(xùn)練得到的參數(shù),進(jìn)行哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)標(biāo)注.

        圖4 抽取系統(tǒng)框架Fig 4Extaction system framework

        3.1 特征模板選取

        由于哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)的構(gòu)成具有很大的隨意性,提取信息技術(shù)術(shù)語(yǔ)所具有的上下文語(yǔ)言信息,對(duì)于提高術(shù)語(yǔ)標(biāo)注率是必要的.

        在CRF模型中選擇適當(dāng)?shù)奶卣髂0宸浅V匾猍6],文中把哈薩克語(yǔ)信息技術(shù)術(shù)語(yǔ)特征模板分為原子特征模板和復(fù)合特征模板,分別為:

        1)原子模板只考慮一種因素,文中所用的原子特征模版主要是詞干、詞綴、詞性和左右詞的術(shù)語(yǔ)標(biāo)注信息,例如,CWord(當(dāng)前詞)、RWord(右邊第一個(gè)詞)、LPos(左邊第一個(gè)詞的詞性)、CAffix(前詞的后綴)、RIT(右邊第1個(gè)詞的it標(biāo)注).

        2)復(fù)合模板考慮的因素是2個(gè)或更多,簡(jiǎn)單的說(shuō),就是各個(gè)原子模板的相互組合.根據(jù)具體情況,取6個(gè)模板進(jìn)行實(shí)驗(yàn).具體模板參數(shù)如下:

        模板1 [RRPos,RRIT,RWord,RAffix,RPos,RIT,CPos,CIT,CWord,CAffix,LLPos,LLIT,LWord,LAffix,LPos,LIT],觀察特征空間的所有單詞對(duì)實(shí)驗(yàn)結(jié)果的影響.

        模板2 [CPos,CIT,CWord,CAffix,LLPos,LLIT,LWord,LAffix,LPos,LIT],觀察候選詞左邊2個(gè)詞對(duì)實(shí)驗(yàn)結(jié)果的影響.

        模板3 [RRPos,RRIT,RWord,RAffix,RPos,RIT,CPos,CIT,CWord,CAffix],觀察候選詞右邊2個(gè)詞對(duì)實(shí)驗(yàn)結(jié)果的影響.

        模板4 [RWord,RAffix,RPos,RIT,CPos,CIT,CWord,CAffix, LWord,LAffix,LPos,LIT],觀察候選詞左邊和右邊各1個(gè)詞對(duì)實(shí)驗(yàn)結(jié)果的影響.

        模板5 [RWord,RAffix,RPos,RIT,CPos,CIT,CWord,CAffix,LLPos,LLIT,LWord,LAffix,LPos,LIT],觀察候選詞左邊2個(gè)詞和右邊1個(gè)詞對(duì)實(shí)驗(yàn)結(jié)果的影響.

        模板6 [RRPos,RRIT,RWord,RAffix,RPos,RIT,CPos,CIT,CWord,CAffix,LWord,LAffix,LPos,LIT],觀察候選詞左邊1個(gè)詞和右邊2個(gè)詞對(duì)實(shí)驗(yàn)結(jié)果的影響.

        3.2 特征的選擇

        在條件隨機(jī)場(chǎng)模型中常見(jiàn)的特征選擇方法有兩種.一種方法是在訓(xùn)練樣本中選擇出現(xiàn)次數(shù)高于一個(gè)常數(shù)N的特征,叫做頻度的選擇法[8]267:

        (1)

        其中,C是特征空間;X是訓(xùn)練樣本;N是一個(gè)常數(shù).頻度選擇法效率高,而且實(shí)現(xiàn)簡(jiǎn)單,但是存在一定的冗余特征.另一種方法是增量選擇法,具體思想就是如果某特征加入后能提高系統(tǒng)的效果,就保留,否則刪除該特征.文中特征選擇使用了基于頻度的方法.雖然該方法不能保證得到最小特征集,但它能獲得盡可能多的特征,實(shí)驗(yàn)表明它具有良好的性能.

        4 實(shí)驗(yàn)結(jié)果與分析

        文中采用以下幾個(gè)指標(biāo):術(shù)語(yǔ)抽取的準(zhǔn)確率P、召回率R、F值,計(jì)算方法為[10]495

        (2)

        (3)

        (4)

        本系統(tǒng)從各類哈薩克文網(wǎng)站和中小學(xué)信息技術(shù)教材中整理出大小為10.3 MB的語(yǔ)料作為訓(xùn)練語(yǔ)料進(jìn)行試驗(yàn),測(cè)試結(jié)果如表1所示.

        表1 實(shí)驗(yàn)結(jié)果(%)Tab 2Demonstration

        可見(jiàn),基于規(guī)則方法的語(yǔ)料選擇,語(yǔ)料的規(guī)模沒(méi)有具體標(biāo)準(zhǔn),對(duì)語(yǔ)料處理方法不同得到的詞庫(kù)就不同,缺乏統(tǒng)一的標(biāo)準(zhǔn)和處理方法.基于條件隨機(jī)場(chǎng)方法的準(zhǔn)確率比基于規(guī)則方法的準(zhǔn)確率更高.

        [1] 徐鍵.術(shù)語(yǔ)相似度計(jì)算方法研究[M].廣州:中山大學(xué)出版社,2012.

        [2] CHOUEKA Y,KLEIN T,NEUWITZ E.Automatic retrieval of frequent idiomatic and collocational expressions in a large corpus[J].JournaloftheAssociationofLiteraryandLinguisticComputing,1983,4(1):34.

        [3] MAYNARD D,ANANIADOU S.Identifying contextual information for multi-word term extraction[J].Sandrini,1999:212.

        [4] NAKAGAW H,MORI T,A simple but powerful automatic term extraction method[C]//ProceedingsoftheSecondInternationalWorkshoponComputationalTerminology.Taipei:Association for Computatienal Linguistics,2002:29.

        [5] 張鋒,許云,侯艷,等.基于互信息的中文術(shù)語(yǔ)抽取系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2005,22(5):72.

        [6] 劉豹,張桂平,蔡?hào)|風(fēng).基于統(tǒng)計(jì)和規(guī)則相結(jié)合的科技術(shù)語(yǔ)自動(dòng)抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(23):147.

        [7] 賈美英,楊炳儒,鄭德權(quán),等.采用CRF技術(shù)的軍事情報(bào)術(shù)語(yǔ)自動(dòng)抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(32):126.

        [8] 李麗雙,黨延忠,張婧,等.基于條件隨機(jī)場(chǎng)的汽車領(lǐng)域術(shù)語(yǔ)抽取[J].大連理工大學(xué)學(xué)報(bào),2013,53(2):267.

        [9] 趙偉.條件隨機(jī)場(chǎng)在蒙古語(yǔ)詞切分中的應(yīng)用[D].呼和浩特:內(nèi)蒙古大學(xué),2009.

        [10] 向曉雯.基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別[D].廈門:廈門大學(xué),2006.

        [11] 哈那提·葉列杰夫,賽力克·孫哈泰.漢哈英俄信息與計(jì)算技術(shù)名詞術(shù)語(yǔ)詞典[Z].烏魯木齊:新疆科學(xué)技術(shù)出版社,2010.

        (責(zé)任編輯 惠松騏)

        Research on automatic Kazakh information technology term extraction using CRF mode1

        MUHEYAT Niyazbek1,2,KUNSAULE Talp3,DAWEL Abilhayer1,2

        (1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,Xinjiang,China;2.Key Laboratory of Multilingual Information Technology,Xinjiang University,Urumqi 830046,Xinjiang,China;3.College of Chinese Medicine,Xinjiang Medical University,Urumqi 830011,Xinjiang,China)

        This paper purpose of research on automatic Kazakh information technology term extraction,a conditional random fields based method for term extraction is introduced,which intends to be used in Kazakh information technology process.This method takes the field term extraction as an issue of sequence marking,the term distribution quantitative information technology as training feature leverages,the CRF toolkit to generate a field term character template and uses the template for field term extraction.Experimental results show that:statistics-based approach to solve Kazakh information technology term extraction is valid,test accuracy of 83.08%.

        Kazakh language;information technology;term extraction;conditional random field

        10.16783/j.cnki.nwnuz.2016.01.012

        2014-11-03;修改稿收到日期:2015-03-29

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61462084);新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室開(kāi)放課題資助項(xiàng)目(XJDX0905-2013-03 )

        木合亞提·尼亞孜別克(1967—),男,新疆塔城人,副教授.主要研究方向?yàn)樽匀徽Z(yǔ)言與信息處理.

        E-mail:muheyatn@xju.edu.cn

        TP 391.1

        A

        1001-988Ⅹ(2016)01-0053-04

        猜你喜歡
        規(guī)則特征信息技術(shù)
        撐竿跳規(guī)則的制定
        新一代信息技術(shù)征稿啟示
        數(shù)獨(dú)的規(guī)則和演變
        新一代信息技術(shù)征稿啟示
        新一代信息技術(shù)征稿啟示
        信息技術(shù)在幼兒教育中的有效應(yīng)用
        甘肅教育(2020年2期)2020-09-11 08:00:44
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        抓住特征巧觀察
        一级黄片草逼免费视频| 久久亚洲sm情趣捆绑调教| 欧美日韩精品一区二区三区高清视频 | 最近日本免费观看高清视频| 精品视频入口| 高清亚洲成av人片乱码色午夜 | 亚洲精品中文字幕免费专区| 国产亚洲精品久久久ai换| 99久久免费国产精品2017| 男女男在线精品免费观看| 国产在线一区二区三区乱码| 国产中文字幕乱人伦在线观看| 澳门精品无码一区二区三区| 精品粉嫩国产一区二区三区| 亚洲一区二区三区综合免费在线| 一本久久伊人热热精品中文字幕| 欧美日韩综合网在线观看| 综合久久青青草免费观看视频| 亚洲一区二区免费在线观看视频| 亚洲va中文字幕| 久久精品国产亚洲AV高清特级| 黄色大片国产精品久久| 丰满少妇高潮惨叫久久久| 一二三四在线视频观看社区| 国产av专区一区二区三区| 国产精品髙潮呻吟久久av| 少妇被爽到高潮喷水久久欧美精品| aaaaa级少妇高潮大片免费看| 大陆啪啪福利视频| 青青草成人免费在线视频| 中文字幕人妻少妇引诱隔壁| 亚洲欧美日韩综合在线观看| 国产高清不卡在线视频| 国产精品久久久久久av| 亚洲狠狠婷婷综合久久| 日本人妻少妇精品视频专区| 19款日产奇骏车怎么样| 精精国产xxxx视频在线播放| 久久久精品电影| 亚洲精品一区二区网站| 曰欧一片内射vα在线影院|