亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合CRF與規(guī)則的老撾語(yǔ)軍事領(lǐng)域命名實(shí)體識(shí)別方法

        2020-08-19 07:01:08何陽(yáng)宇易綿竹李宏欣
        計(jì)算機(jī)工程 2020年8期
        關(guān)鍵詞:語(yǔ)料命名軍事

        何陽(yáng)宇,晏 雷,易綿竹,李宏欣,3

        (1.中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué)(洛陽(yáng)校區(qū)),河南 洛陽(yáng) 471003;2.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500; 3.密碼科學(xué)技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100878)

        0 概述

        隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)已經(jīng)成為軍事情報(bào)獲取的重要來(lái)源,但海量冗雜的數(shù)據(jù)也帶來(lái)了“信息過(guò)載”的問(wèn)題,命名實(shí)體識(shí)別(Named Entity Recognition,NER)是解決這一問(wèn)題的有效手段。“命名實(shí)體”是在第六屆消息理解會(huì)議(MUC-6)上首次使用的,可以簡(jiǎn)單地定義為“任何一個(gè)可以被專(zhuān)有名稱(chēng)指代的事物”[1]。在這次會(huì)議上,命名實(shí)體識(shí)別也作為信息抽取(Information Extraction,IE)的子任務(wù)被提出[2],之后迅速成為大數(shù)據(jù)分析、文本意義理解、語(yǔ)義表示、知識(shí)管理等研究領(lǐng)域的關(guān)鍵技術(shù)之一。近年來(lái)興起的以知識(shí)圖譜為基礎(chǔ)的智能檢索,其核心單元即為實(shí)體。

        命名實(shí)體識(shí)別即識(shí)別文本中的專(zhuān)有名稱(chēng),并將其劃分到預(yù)先定義的類(lèi)別。按照技術(shù)手段可以分為基于規(guī)則的方法、基于統(tǒng)計(jì)的方法以及深度學(xué)習(xí)的方法[3]。最早出現(xiàn)的命名實(shí)體識(shí)別系統(tǒng)大多是基于規(guī)則的,從20世紀(jì)90年代開(kāi)始,統(tǒng)計(jì)方法逐漸成為主流。常用的統(tǒng)計(jì)模型有支持向量機(jī)(Support Vector Machine,SVM)、最大熵模型(Maximum Entropy,ME)、隱馬爾可夫模型(Hidden Markov Model,HMM)、條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)等,這類(lèi)模型通常將實(shí)體識(shí)別任務(wù)形式化為從文本輸入到特定目標(biāo)結(jié)構(gòu)的預(yù)測(cè),使用統(tǒng)計(jì)模型來(lái)建模輸入與輸出之間的關(guān)聯(lián),并使用機(jī)器學(xué)習(xí)方法來(lái)學(xué)習(xí)模型的參數(shù)。例如,隱馬爾可夫模型將命名實(shí)體識(shí)別視為字符串分類(lèi)問(wèn)題[4],條件隨機(jī)場(chǎng)模型則將實(shí)體識(shí)別轉(zhuǎn)化為序列標(biāo)注問(wèn)題[5]。最近廣受歡迎的深度學(xué)習(xí)也被應(yīng)用到了命名實(shí)體識(shí)別任務(wù)中,目前主要的命名實(shí)體深度學(xué)習(xí)架構(gòu)有兩類(lèi)[6]:一類(lèi)是神經(jīng)網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)(NN-CRF)架構(gòu)[7],在該架構(gòu)中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)被用來(lái)學(xué)習(xí)每一個(gè)詞位置處的向量表示,基于該向量表示,NN-CRF解碼該位置處的最佳標(biāo)簽;另一類(lèi)是采用滑動(dòng)窗口分類(lèi)的思想使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)句子中每一個(gè)N-gram的表示,然后預(yù)測(cè)該N-gram是否為一個(gè)目標(biāo)實(shí)體[8]。深度學(xué)習(xí)的方法雖然省去了統(tǒng)計(jì)方法中特征選取的過(guò)程,但需要更大規(guī)模的訓(xùn)練語(yǔ)料。對(duì)于老撾語(yǔ)這種低資源語(yǔ)言,構(gòu)建大型標(biāo)注語(yǔ)料庫(kù)所需的人力和物力成本短期內(nèi)是暫時(shí)無(wú)法承受的,將大量未標(biāo)注或少量人工標(biāo)注的數(shù)據(jù)集用于訓(xùn)練老撾語(yǔ)命名實(shí)體識(shí)別的統(tǒng)計(jì)模型更符合研究現(xiàn)狀[9],并且實(shí)踐證明單純基于統(tǒng)計(jì)的方法會(huì)使?fàn)顟B(tài)搜索空間非常龐大,加入一定的規(guī)則等先驗(yàn)性知識(shí)也是有必要的。

        關(guān)于老撾語(yǔ)命名實(shí)體識(shí)別的成果較少,老撾國(guó)內(nèi)幾乎沒(méi)有專(zhuān)門(mén)研究,僅有文獻(xiàn)[10]借助命名實(shí)體識(shí)別來(lái)提升老撾語(yǔ)分詞的效果,其中的實(shí)體識(shí)別部分主要是利用規(guī)則的方法對(duì)人名和地名進(jìn)行識(shí)別。國(guó)內(nèi)主要有昆明理工大學(xué)對(duì)此進(jìn)行了研究,其成果基本都采用機(jī)器學(xué)習(xí)的方法[11-12],取得了一定的成果,但囿于語(yǔ)料規(guī)模和質(zhì)量,其識(shí)別結(jié)果難以泛化[13-14]。如果直接移植到軍事領(lǐng)域,準(zhǔn)確率可能會(huì)大幅下降。此外,盡管其中加入了一些規(guī)則和特征,但存在制定不準(zhǔn)確、覆蓋不全等問(wèn)題,這勢(shì)必也會(huì)影響識(shí)別效果。

        本文提出一種融合CRF和規(guī)則的老撾語(yǔ)軍事領(lǐng)域命名實(shí)體識(shí)別方法。首先在分析老撾語(yǔ)軍事領(lǐng)域文本的基礎(chǔ)上,選取了詞、詞性、指界詞、通名和詞典等特征訓(xùn)練得到CRF模型,從而實(shí)現(xiàn)老撾語(yǔ)軍事領(lǐng)域命名實(shí)體的自動(dòng)識(shí)別。然后對(duì)輸出結(jié)果中的錯(cuò)例進(jìn)行分析,并通過(guò)人工制定規(guī)則來(lái)提升識(shí)別性能。

        1 老撾語(yǔ)軍事領(lǐng)域命名實(shí)體識(shí)別類(lèi)型

        命名實(shí)體識(shí)別任務(wù)通常針對(duì)人名、地名和機(jī)構(gòu)名三大類(lèi)專(zhuān)有名詞,結(jié)合具體研究領(lǐng)域和任務(wù),本文需在此基礎(chǔ)上進(jìn)行增改。經(jīng)綜合考量,最終將老撾語(yǔ)軍事領(lǐng)域命名實(shí)體分為人名(PER)、地名(LOC)、軍事機(jī)構(gòu)名(ORG)、武器裝備名(WE)和軍用設(shè)施名(FAC)等類(lèi)型。

        從廣義上來(lái)講,人名包括本名、別名、乳名、筆名、藝名等,但本文僅識(shí)別本名,即人的正式姓名稱(chēng)謂;地名是指某一特定空間位置上自然或人文地理實(shí)體的專(zhuān)有名稱(chēng),自然地理實(shí)體包括山、河、湖、海、島等,而人文地理實(shí)體包括國(guó)家、省、市、縣、村等,即通常所說(shuō)的行政地名;軍事機(jī)構(gòu)名可再分為指揮機(jī)構(gòu)、編制單位、科研機(jī)構(gòu)、軍工企業(yè)、教育培訓(xùn)機(jī)構(gòu)和醫(yī)療機(jī)構(gòu)等幾大類(lèi);武器裝備名是武裝力量用于實(shí)施和保障戰(zhàn)斗行動(dòng)的武器、武器系統(tǒng)和軍事技術(shù)器材等的名稱(chēng),包括槍械、火炮、坦克、裝甲戰(zhàn)斗車(chē)輛、作戰(zhàn)飛機(jī)、戰(zhàn)斗艦艇、彈藥、導(dǎo)彈、水雷等戰(zhàn)斗裝備以及雷達(dá)、聲吶、通信指揮器材、軍用測(cè)繪器材、野戰(zhàn)工程機(jī)械、軍用車(chē)輛、保障艦船、輔助飛機(jī)、情報(bào)處理裝備、電子對(duì)抗裝備等保障裝備[15];軍事設(shè)施名是指用于軍事目的的建筑、場(chǎng)地和設(shè)備等的專(zhuān)有名稱(chēng),主要包括指揮工程、作戰(zhàn)工程、軍用機(jī)場(chǎng)、港口、碼頭、營(yíng)區(qū)、訓(xùn)練場(chǎng)、試驗(yàn)場(chǎng)、軍用洞庫(kù)、倉(cāng)庫(kù)、軍用通信、偵察、導(dǎo)航、觀測(cè)臺(tái)站和測(cè)量、導(dǎo)航、助航標(biāo)志、軍用公路、鐵路專(zhuān)用線、軍用通信輸電線路、軍用輸油輸水管道等。本文結(jié)合老撾實(shí)際情況,以軍事工程、軍事基地、軍事交通設(shè)施、各類(lèi)場(chǎng)地和塔臺(tái)站為重點(diǎn)識(shí)別對(duì)象。

        2 老撾語(yǔ)命名實(shí)體識(shí)別的難點(diǎn)

        老撾語(yǔ)命名實(shí)體識(shí)別既有所有語(yǔ)言面臨的共同難點(diǎn),也具有其獨(dú)特的個(gè)性難點(diǎn),對(duì)此進(jìn)行剖析有助于后續(xù)研究,具體如下:

        1)英語(yǔ)等西方語(yǔ)言單詞之間一般都有空格,并且專(zhuān)有名稱(chēng)首字母需大寫(xiě),因此其實(shí)體邊界非常易于確定,只需完成實(shí)體分類(lèi)任務(wù)即可。而老撾語(yǔ)卻不具備這樣的先天優(yōu)勢(shì),其缺乏豐富的詞形變化和明顯的形態(tài)標(biāo)志,并且沒(méi)有天然的詞邊界,分詞、淺層句法分析等過(guò)程都會(huì)影響老撾語(yǔ)命名實(shí)體識(shí)別的效果。

        2)豐富的語(yǔ)料資源對(duì)于命名實(shí)體識(shí)別任務(wù)來(lái)說(shuō)相當(dāng)重要,這也正是老撾語(yǔ)的不足。研究力量薄弱、關(guān)注度低等原因造成了可供老撾語(yǔ)命名實(shí)體識(shí)別使用的語(yǔ)料極為匱乏,專(zhuān)門(mén)針對(duì)軍事領(lǐng)域的電子化資源則幾乎沒(méi)有,唯一的解決辦法就是通過(guò)多渠道自行構(gòu)建。即便如此,因?yàn)槊麑?shí)體是一個(gè)相對(duì)開(kāi)放的集合,新的命名實(shí)體會(huì)不斷涌現(xiàn),規(guī)模再大的語(yǔ)料庫(kù)也難以做到及時(shí)更新和完全覆蓋。

        3)部分實(shí)體拼寫(xiě)較為隨意,尤其是外來(lái)詞,有時(shí)甚至不符合老撾語(yǔ)的拼寫(xiě)規(guī)則,老撾國(guó)內(nèi)也沒(méi)有權(quán)威機(jī)構(gòu)對(duì)此進(jìn)行規(guī)范管理。

        5)老撾語(yǔ)中存在大量縮略詞,這些縮略詞往往就是命名實(shí)體,其形式較為多樣,很難總結(jié)出規(guī)則,且有時(shí)會(huì)出現(xiàn)多個(gè)命名實(shí)體對(duì)應(yīng)同一縮略詞的現(xiàn)象。軍事領(lǐng)域具有特殊性,文本表達(dá)通常言簡(jiǎn)意賅,因此縮略詞的使用更為常見(jiàn)。

        6)根據(jù)不同的任務(wù)和目的,實(shí)體的類(lèi)別不再局限于人名、地名和機(jī)構(gòu)名,出現(xiàn)越來(lái)越多的開(kāi)放類(lèi)別實(shí)體,本文所要識(shí)別的“武器裝備名”等就屬于此種情況。為了提高識(shí)別精度,便于后續(xù)應(yīng)用,實(shí)體劃分的顆粒度也越來(lái)越小,如本文中的地名可被細(xì)化為國(guó)家、省、市、縣、村等。

        3 基于CRF的老撾語(yǔ)軍事領(lǐng)域命名實(shí)體識(shí)別

        3.1 條件隨機(jī)場(chǎng)

        條件隨機(jī)場(chǎng)自2001年LAFFERTY等人[5]提出以來(lái),因其簡(jiǎn)單的操作原理和良好的性能在自然語(yǔ)言處理等領(lǐng)域迅速受到了廣泛歡迎。之后,MCCALLUM[16]率先將其用于命名實(shí)體識(shí)別。經(jīng)過(guò)不斷改進(jìn),其成為目前命名實(shí)體識(shí)別中最成功的方法[17]。它是一種用于分割和標(biāo)注序列數(shù)據(jù)的概率化結(jié)構(gòu)模型,在已知觀察序列X的情況下,計(jì)算輸出標(biāo)注序列Y的條件概率P(Y|X)。

        與隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)等其他序列標(biāo)注模型相比,CRF弱化了獨(dú)立性假設(shè),只需考慮已經(jīng)出現(xiàn)的觀察序列的特性,能夠充分利用上下文信息,易于融合不同的特征,同時(shí)其在全局范圍內(nèi)進(jìn)行參數(shù)優(yōu)化和解碼,避免了MEMM和其他判別式馬爾可夫模型會(huì)出現(xiàn)的標(biāo)記偏置(Label Bias)問(wèn)題。CRF和MEMM之間的關(guān)鍵區(qū)別在于,MEMM使用每個(gè)狀態(tài)的指數(shù)模型來(lái)確定當(dāng)前狀態(tài)的下一個(gè)狀態(tài)的條件概率,而CRF則利用單個(gè)指數(shù)模型來(lái)計(jì)算整個(gè)標(biāo)注序列和給定觀察序列的聯(lián)合概率。因此,在不同狀態(tài)下不同特征的權(quán)重可以相互替換[5]。

        CRF可以被視作一種無(wú)向圖模型或者馬爾可夫隨機(jī)場(chǎng)[18]。從理論上來(lái)講,只要在標(biāo)注序列中表示一定的條件獨(dú)立性,其圖結(jié)構(gòu)可以是任意的,但一般用來(lái)解決序列標(biāo)注問(wèn)題的是最為簡(jiǎn)單且常見(jiàn)的一階鏈?zhǔn)浇Y(jié)構(gòu),如圖1所示。

        圖1 條件隨機(jī)場(chǎng)鏈?zhǔn)浇Y(jié)構(gòu)Fig.1 Chain structure of CRF

        本文定義:X=x1,x2,…,xn為給定的觀察序列,即由n個(gè)詞組成的老撾語(yǔ)語(yǔ)料,Y=y1,y2,…,yn為輸出的標(biāo)注序列,即為被預(yù)測(cè)出的實(shí)體標(biāo)注序列。那么,輸出序列的條件概率可定義為:

        (1)

        其中,Z(X)為歸一化因子,它可使所有可能狀態(tài)序列概率之和為1,可由式(2)得出,tj(yi-1,yi,X,i)為轉(zhuǎn)移函數(shù),表示對(duì)于觀察序列X在當(dāng)前位置i及前一位置i-1上標(biāo)注的轉(zhuǎn)移概率,sk(yi,X,i)為狀態(tài)函數(shù),表示當(dāng)前位置i的標(biāo)注概率。以上兩個(gè)函數(shù)統(tǒng)稱(chēng)為特征函數(shù),都依賴于局部特征。在命名實(shí)體識(shí)別過(guò)程中,當(dāng)滿足特征模板條件時(shí),取值為1,否則取值為0,λj和μk分別為tj和sk對(duì)應(yīng)的權(quán)值,可以通過(guò)最大似然函數(shù)在模型訓(xùn)練集上估算出來(lái)。

        (2)

        在得出特征函數(shù)權(quán)值后,模型訓(xùn)練過(guò)程便基本完成。將觀察序列X(即測(cè)試語(yǔ)料)輸入此模型,概率最大的命名實(shí)體標(biāo)注序列Y′便可通過(guò)維特比算法解碼得出:

        Y′=argmaxP(Y│X,λ)

        (3)

        3.2 特征選取

        在利用CRF模型進(jìn)行命名實(shí)體識(shí)別的任務(wù)中,最為關(guān)鍵的一步就是構(gòu)建與待識(shí)別對(duì)象相關(guān)聯(lián)的特征模板,它直接影響識(shí)別系統(tǒng)的性能。

        在制定特征模板時(shí),需要先確定“觀察窗口”,即當(dāng)前位置詞的前后n個(gè)詞及其標(biāo)注所構(gòu)成的上下文語(yǔ)境。窗口大小的取值相當(dāng)重要,開(kāi)口過(guò)大會(huì)增加計(jì)算成本,影響模板通用性,出現(xiàn)過(guò)擬合現(xiàn)象;而開(kāi)口太小則可能遺漏重要信息。結(jié)合老撾語(yǔ)軍事領(lǐng)域文本特點(diǎn)和老撾語(yǔ)語(yǔ)言規(guī)律,本文將窗口大小設(shè)置為5,即包括當(dāng)前詞及其前后各2個(gè)詞。下面對(duì)所選取的各類(lèi)原子特征進(jìn)行闡釋:

        1)詞特征:將詞本身作為特征,記為Fwi(i=-2,-1,0,1,2)(下同),w0表示當(dāng)前詞,w-1表示當(dāng)前詞左邊第1個(gè)詞,w-2表示當(dāng)前詞左邊第2個(gè)詞,w+1表示當(dāng)前詞右邊第1個(gè)詞,w+2表示當(dāng)前詞右邊第2個(gè)詞。

        2)詞性特征:該特征也是與待標(biāo)注詞本身相關(guān)的特征,記為Fpi,pi對(duì)應(yīng)wi的詞性。

        表1 老撾語(yǔ)命名實(shí)體通名(部分)Table 1 General names of named entities in Laotian(partial)

        表2 老撾語(yǔ)實(shí)體識(shí)別指界詞示例Table 2 Examples of Laotian entity recognition boundary words

        5)詞典特征:表示為Fdi,英、漢語(yǔ)等的命名實(shí)體識(shí)別研究已證明這一特征具備高度預(yù)測(cè)能力,尤其是針對(duì)地名等規(guī)模相對(duì)穩(wěn)定的實(shí)體類(lèi)型非常有效。本文主要通過(guò)以下3個(gè)渠道構(gòu)建常見(jiàn)詞詞典,即現(xiàn)有資源、網(wǎng)絡(luò)爬蟲(chóng)和基于Word2vec的相似詞推薦。

        現(xiàn)有資源包括《老漢-漢老軍事詞典》[20]和老撾國(guó)家統(tǒng)計(jì)局出版的《2017統(tǒng)計(jì)年鑒》[21]等。前者是目前國(guó)內(nèi)唯一的老撾語(yǔ)軍事領(lǐng)域詞典,共收錄1.4萬(wàn)余詞條;后者對(duì)老撾主要山脈、河流以及省、縣、村等行政單位進(jìn)行了統(tǒng)計(jì)。

        網(wǎng)路爬蟲(chóng)主要針對(duì)老撾人民軍官網(wǎng)、老撾國(guó)防部官網(wǎng)以及維基百科老撾語(yǔ)版涉及軍事的頁(yè)面信息。前兩個(gè)網(wǎng)站內(nèi)有專(zhuān)門(mén)介紹軍隊(duì)組織架構(gòu)等方面的內(nèi)容,可直接提取存入詞典。對(duì)于維基百科的爬取,只針對(duì)頁(yè)面標(biāo)題,因?yàn)榫S基百科每一個(gè)頁(yè)面幾乎都是對(duì)該頁(yè)面標(biāo)題的解釋,而每一個(gè)標(biāo)題多數(shù)情況下都代表一個(gè)實(shí)體。

        基于Word2vec的相似詞推薦的原理是訓(xùn)練語(yǔ)料生成詞向量(Word Embedding)文件,然后以向量間的余弦距離(Cosine Distance)度量詞語(yǔ)之間的相似度。可利用現(xiàn)有資源和網(wǎng)絡(luò)爬蟲(chóng)獲得的實(shí)體作為種子詞集進(jìn)行相似詞推薦,為保證質(zhì)量,將推薦閾值設(shè)定為5,其余過(guò)程不再贅述。

        將以上3個(gè)渠道獲取的實(shí)體詞條匯總后,根據(jù)準(zhǔn)確性、廣泛性和相關(guān)性原則,需要?jiǎng)h除重復(fù)項(xiàng)、非名詞詞語(yǔ)、名詞化的動(dòng)詞和形容詞以及領(lǐng)域相關(guān)性較低的詞,最終形成的常見(jiàn)詞詞典共包含5 134個(gè)實(shí)體詞條。

        根據(jù)上述各原子特征,本文依次進(jìn)行組合疊加,構(gòu)成如表3所示的特征模板。

        表3 老撾語(yǔ)軍事領(lǐng)域命名實(shí)體識(shí)別組合特征模板Table 3 Combined feature templates of named entity recognition in Laotian military field

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 語(yǔ)料獲取及處理

        老撾語(yǔ)目前還沒(méi)有公開(kāi)的命名實(shí)體標(biāo)注語(yǔ)料,本文實(shí)驗(yàn)所采用的語(yǔ)料均為精通老撾語(yǔ)人士手工構(gòu)建,主要來(lái)源為老撾人民軍、老撾國(guó)防部等官方網(wǎng)站以及老撾通訊社KPL、ABClaosnews等老撾語(yǔ)主流網(wǎng)站的軍事類(lèi)新聞,語(yǔ)料規(guī)模約為22.5M。將這些語(yǔ)料進(jìn)行分詞和詞性標(biāo)注等預(yù)處理后,由人工按照表4所示方法進(jìn)行實(shí)體標(biāo)注,然后使用標(biāo)簽集BISO對(duì)實(shí)體進(jìn)行編碼表示,B表示實(shí)體的首詞部分,I表示實(shí)體的非首詞部分,S表示單個(gè)詞構(gòu)成的實(shí)體,O表示非實(shí)體。本文5個(gè)類(lèi)型實(shí)體對(duì)應(yīng)的標(biāo)簽分別為{BPER,IPER,SPER,BLOC,ILOC,SLOC,BORG,IORG,SORG,BWE,IWE,SWE,BFAC,IFAC,SFAC,O}。最終經(jīng)過(guò)處理獲得實(shí)驗(yàn)所需語(yǔ)料,其中,4/5作為訓(xùn)練語(yǔ)料,1/5作為測(cè)試語(yǔ)料。

        表4 老撾語(yǔ)命名實(shí)體人工標(biāo)注示例Table 4 Examples of named entities manual labeling in Laotian

        4.2 結(jié)果分析

        為綜合評(píng)價(jià)系統(tǒng)性能,模型訓(xùn)練完成后,將準(zhǔn)確率(P)、召回率(R)以及F測(cè)度值(F-measure)作為評(píng)價(jià)指標(biāo)進(jìn)行測(cè)試,具體定義分別為:

        (4)

        (5)

        (6)

        本文針對(duì)不同的組合特征進(jìn)行了5組實(shí)驗(yàn),以對(duì)比各個(gè)特征對(duì)識(shí)別結(jié)果的影響,如表5~表9所示。

        表5 基于組合特征1的識(shí)別結(jié)果(實(shí)驗(yàn)1)Table 5 Recognition results based on combined feature 1 (experiment 1) %

        表6 基于組合特征2的識(shí)別結(jié)果(實(shí)驗(yàn)2)Table 6 Recognition results based on combined feature 2 (experiment 2) %

        表7 基于組合特征3的識(shí)別結(jié)果(實(shí)驗(yàn)3)Table 7 Recognition results based on combined feature 3 (experiment 3) %

        表8 基于組合特征4的識(shí)別結(jié)果(實(shí)驗(yàn)4)Table 8 Recognition results based on combined feature 4 (experiment 4) %

        表9 基于組合特征5的識(shí)別結(jié)果(實(shí)驗(yàn)5)Table 9 Recognition results based on combined feature 5 (experiment 5) %

        4.3 基于規(guī)則的后處理

        完成基于CRF模型的實(shí)體識(shí)別之后,本文對(duì)錯(cuò)誤識(shí)別結(jié)果進(jìn)行了分析,嘗試加入適當(dāng)?shù)南闰?yàn)性知識(shí),即能夠表達(dá)語(yǔ)言確定性的規(guī)則,以期能夠進(jìn)一步提升系統(tǒng)性能。部分規(guī)則描述如下:

        1)人名規(guī)則:造成人名錯(cuò)誤識(shí)別的原因是當(dāng)上下文無(wú)明顯特征時(shí),將臨近的詞作為人名的一部分或者將人名的一部分歸入其他詞,這可以通過(guò)詞長(zhǎng)LPER(即音節(jié)數(shù)量)規(guī)則來(lái)處理。本文以隨機(jī)搜集的500個(gè)老撾人名為樣本,進(jìn)行音節(jié)數(shù)量的分布統(tǒng)計(jì),如圖2所示。從圖2可以看出,老撾人名詞長(zhǎng)一般介于3~8之間,其中以5和6居多,占樣本總數(shù)的84.6%,因此可制定人名識(shí)別規(guī)則為3≤LPER≤8。

        圖2 老撾人名詞長(zhǎng)分布Fig.2 Word length distribution of Lao name

        4)武器裝備名規(guī)則:武器裝備名絕大部分是以其型號(hào)結(jié)尾,而型號(hào)主要由大寫(xiě)英文字母、阿拉伯?dāng)?shù)字、羅馬數(shù)字和符號(hào)“-”“+”等要素構(gòu)成,同時(shí)規(guī)定有無(wú)通名等價(jià)。

        5)軍事設(shè)施名規(guī)則:軍事設(shè)施名面臨的識(shí)別難點(diǎn)同樣是人名和地名的嵌套現(xiàn)象,因此可采用與機(jī)構(gòu)名類(lèi)似的規(guī)則。

        規(guī)則制定完成后,選擇上述識(shí)別結(jié)果最好的實(shí)驗(yàn)5作為基礎(chǔ),利用規(guī)則進(jìn)行后處理,結(jié)果如表10所示。與前5個(gè)實(shí)驗(yàn)的總體識(shí)別結(jié)果對(duì)比如圖3所示。

        表10 加入規(guī)則后的識(shí)別結(jié)果(實(shí)驗(yàn)6)Table 10 Recognition results after adding rules (experiment 6) %

        圖3 老撾語(yǔ)命名實(shí)體識(shí)別總體結(jié)果變化趨勢(shì)Fig.3 Change trend of overall results of Laotian named entity recognition

        可以看出,加入規(guī)則后的系統(tǒng)實(shí)體識(shí)別能力有了較為顯著的提升,其中機(jī)構(gòu)名、武器裝備名和軍事設(shè)施名的準(zhǔn)確率、召回率和F測(cè)度值均提高了4個(gè)到5個(gè)百分點(diǎn)。由此證明了融合CRF和規(guī)則的方法具有可行性和有效性,可以在一定程度上彌補(bǔ)CRF模型的不足。

        5 結(jié)束語(yǔ)

        本文采用融合CRF和規(guī)則的方法對(duì)老撾語(yǔ)軍事領(lǐng)域命名實(shí)體識(shí)別進(jìn)行了研究。通過(guò)分析領(lǐng)域?qū)嶓w特點(diǎn),選取詞、詞性、通名、指界詞和詞典等特征進(jìn)行組合作為CRF模型的特征模板,利用測(cè)試語(yǔ)料進(jìn)行測(cè)試,并對(duì)測(cè)試結(jié)果進(jìn)行錯(cuò)例分析,人工制定具有針對(duì)性的規(guī)則進(jìn)行后處理,進(jìn)一步提升識(shí)別效果。實(shí)驗(yàn)結(jié)果表明,該選取特征可有效解決老撾語(yǔ)軍事領(lǐng)域命名實(shí)體識(shí)別問(wèn)題。由于目前沒(méi)有公開(kāi)的老撾語(yǔ)大型實(shí)體標(biāo)注語(yǔ)料庫(kù),本文所用語(yǔ)料庫(kù)為自行構(gòu)建并且初次使用,語(yǔ)料的規(guī)模和質(zhì)量還需進(jìn)一步加強(qiáng),下一步將嘗試引入遷移學(xué)習(xí)技術(shù)[22]和自學(xué)習(xí)技術(shù)[23]來(lái)解決老撾語(yǔ)資源缺乏的現(xiàn)狀,同時(shí)將對(duì)軍事文件名、軍事活動(dòng)名等更多類(lèi)別的軍事領(lǐng)域?qū)嶓w識(shí)別進(jìn)行研究。

        猜你喜歡
        語(yǔ)料命名軍事
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
        軍事幽默:局
        軍事文摘(2009年9期)2009-07-30 09:40:44
        軍事
        軍事幽默
        軍事文摘(2009年5期)2009-06-30 01:01:04
        国产av天堂成人网| 天堂国产一区二区三区| 日产无人区一线二线三线乱码蘑菇| 亚洲黄视频| 婷婷开心五月综合基地| 亚洲人成网站色在线入口口| 精品国产拍国产天天人| 一国产区在线观看| 亚洲一区二区三区成人在线| 老熟女富婆激情刺激对白| 在线成人一区二区| 精品视频入口| 久久五月精品中文字幕| 无码专区一ⅴa亚洲v天堂| 欧美午夜精品一区二区三区电影| 色噜噜狠狠色综合中文字幕| 成人全部免费的a毛片在线看| 亚洲第一狼人天堂网亚洲av| 亚洲依依成人亚洲社区| 久久午夜无码鲁丝片直播午夜精品| 男女性行为免费视频网站| 国产精品免费av片在线观看| 男女真实有遮挡xx00动态图| 亚洲一区二区三区99区| 蜜桃尤物在线视频免费看| 免费无码一区二区三区蜜桃大| 亚洲av无码一区二区乱子仑| 国产视频在线观看一区二区三区| 国产精品毛片无遮挡| 国产精品第一二三区久久蜜芽| 亚洲视频在线观看青青草| 一区二区三区人妻少妇| 牲欲强的熟妇农村老妇女| 制服无码在线第一页| 玖玖资源站亚洲最大的网站| 小鲜肉自慰网站| 妺妺窝人体色www聚色窝韩国| 国产一区三区二区视频在线观看| 欧美激情一区二区三区| 日韩A∨精品久久久久| 日本大片在线一区二区三区|