亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合領(lǐng)域多詞特征的英文武器裝備名識(shí)別研究

        2019-06-17 10:01:58雷樹杰邢富坤王聞慧
        關(guān)鍵詞:詞形語(yǔ)料實(shí)體

        雷樹杰 邢富坤 王聞慧

        1(戰(zhàn)略支援部隊(duì)信息工程大學(xué)洛陽(yáng)校區(qū) 河南 洛陽(yáng) 471003)2(青島大學(xué)外語(yǔ)學(xué)院 山東 青島 266000)

        0 引 言

        命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理任務(wù)中一項(xiàng)基礎(chǔ)性的工作,可以為自動(dòng)文摘(Automatic Summarization)、自動(dòng)問(wèn)答(Question and Answering)和機(jī)器翻譯(Machine translation)等更復(fù)雜的自然語(yǔ)言處理任務(wù)提供支持。對(duì)于軍事領(lǐng)域的信息處理而言,軍事類命名實(shí)體的識(shí)別同樣起著基礎(chǔ)性的作用,而武器裝備名就是一類非常重要的軍事類命名實(shí)體。

        1 英文武器裝備名識(shí)別概述

        武器裝備是武裝力量用于實(shí)施和保障戰(zhàn)斗行動(dòng)的武器、武器系統(tǒng)和軍事技術(shù)器材的統(tǒng)稱,通常分為戰(zhàn)斗裝備和保障裝備。戰(zhàn)斗裝備是指在軍事行動(dòng)中直接殺傷敵人有生力量和破壞敵方各種設(shè)施的技術(shù)手段,如槍械、作戰(zhàn)飛機(jī)、導(dǎo)彈等。保障裝備是為了有效使用戰(zhàn)斗裝備所必需的軍事技術(shù)器材,如雷達(dá)、軍用測(cè)繪器材、野戰(zhàn)工程機(jī)械等。武器裝備名可分為類名與具體名,類名是某類武器裝備名的統(tǒng)稱,如槍(gun)、戰(zhàn)斗機(jī)(fighter)等。具體名則專指某一款武器裝備的名稱,如“M1”、“J-20”都屬于具體名。從軍事領(lǐng)域自然語(yǔ)言處理任務(wù)需求看,武器裝備的類名與具體名都是重要的軍事領(lǐng)域?qū)S行畔?,都?yīng)作為武器裝備名稱予以分析研究。

        對(duì)命名實(shí)體的識(shí)別研究主要受到了如CoNLL(Conference on Computational Natural Language Learning)等評(píng)測(cè)會(huì)議的影響,其研究也主要集中在對(duì)人名、地名、組織機(jī)構(gòu)名、時(shí)間和數(shù)字表達(dá)式的識(shí)別上[1],對(duì)武器裝備名的識(shí)別研究還較少。這一方面是由于其領(lǐng)域特殊性,另一方面也源于該領(lǐng)域語(yǔ)言資源的稀缺。

        早期的命名實(shí)體識(shí)別方法大都是基于規(guī)則的,20世紀(jì)90年代之后,基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)方法逐漸成為主流。在這方面的代表工作主要有文獻(xiàn)[2]采用人工標(biāo)注語(yǔ)料訓(xùn)練最大熵模型(Maximum Entropy Model),對(duì)英文與德文中的人名、地名、機(jī)構(gòu)名以及其他實(shí)體名進(jìn)行識(shí)別,取得不錯(cuò)的效果;文獻(xiàn)[3]采用自助取樣方法(Bootstrapping Method)對(duì)統(tǒng)計(jì)模型識(shí)別出的時(shí)間表達(dá)式進(jìn)行迭代、拓展和篩選,在識(shí)別準(zhǔn)確率和召回率上都取得很大的提升;文獻(xiàn)[4]利用支持向量機(jī)(Support Vector Machine)對(duì)命名實(shí)體進(jìn)行了識(shí)別,獲得了很好的效果;文獻(xiàn)[5]利用Hellinger PCA獲取詞向量并用Structural SVM-HMM作為學(xué)習(xí)模型對(duì)波斯語(yǔ)當(dāng)中的命名實(shí)體進(jìn)行了識(shí)別,取得了較好效果。

        綜合來(lái)看,現(xiàn)階段對(duì)命名實(shí)體的識(shí)別研究從方法和效果上都取得了很大進(jìn)步,但仍存在需要改進(jìn)的地方。首先,對(duì)特定領(lǐng)域?qū)嶓w關(guān)注不夠,而特定領(lǐng)域?qū)嶓w具有區(qū)別于一般命名實(shí)體的領(lǐng)域特征,需要給予專門研究;其次,識(shí)別模型使用的語(yǔ)言特征較為單一,基本限定在詞形、詞性等普通語(yǔ)言特征,缺少對(duì)專門領(lǐng)域知識(shí)特征的研究與應(yīng)用;最后,在以CRF為代表的序列標(biāo)注模型中,標(biāo)注單位限定為詞,而由于很大一部分實(shí)體特征是由多個(gè)詞組合而成,因此單獨(dú)以詞為標(biāo)注單元對(duì)有效提取和利用語(yǔ)言特征具有消極影響。

        基于以上問(wèn)題,本研究對(duì)CRF標(biāo)注模型做了兩點(diǎn)改進(jìn):一是在模型使用中融合了武器裝備名自身獨(dú)有的構(gòu)造特征,豐富模型使用特征的范圍;二是將模型標(biāo)注單元由詞擴(kuò)展到多詞單元,以便模型能更好地利用領(lǐng)域特征。

        2 構(gòu)造模式與特征

        英文武器裝備名涉及面廣,命名種類多樣。本文通過(guò)維基百科等渠道收集整理6 402條武器裝備名稱,并基于名稱實(shí)例及命名特點(diǎn),對(duì)英文武器裝備名的構(gòu)造模式與特征進(jìn)行了研究。

        2.1 構(gòu)成成分及分類

        針對(duì)英文武器裝備名的總體命名特點(diǎn),本文用兩層分類體系對(duì)武器裝備名進(jìn)行描述:第一層是對(duì)武器裝備名的總體性描述;第二層是對(duì)描述性要素的具體劃分。任何一個(gè)武器裝備名都可以用該分類體系進(jìn)行描述。

        第一層分類將武器裝備名內(nèi)部構(gòu)成成分分為型號(hào)(A)、別稱(N)、描述(P)、縮寫(R)四類。第二層分類將第一層分類中的型號(hào)(A)做進(jìn)一步區(qū)分,區(qū)分為系列E和具體型號(hào)V;對(duì)第一層分類中的描述(P)也做了具體區(qū)分。描述類(P)的第二層分類信息如表1所示。

        表1 描述類要素及舉例

        續(xù)表1

        2.2 構(gòu)造模式

        基于該分類體系,本文對(duì)收集整理的6 402條英文武器裝備名進(jìn)行人工標(biāo)注,分析了每一條名稱的構(gòu)造模式與特征,并對(duì)標(biāo)注后的結(jié)果進(jìn)行了統(tǒng)計(jì)分析。表2是對(duì)武器裝備名構(gòu)造模式的統(tǒng)計(jì)結(jié)果。

        表2 武器裝備名構(gòu)成模式統(tǒng)計(jì)結(jié)果

        統(tǒng)計(jì)結(jié)果顯示,英文武器裝備名具有明顯的構(gòu)造規(guī)律:其構(gòu)成成分類型相對(duì)有限,其構(gòu)造模式相對(duì)集中穩(wěn)定。具體來(lái)講,英文武器裝備名的構(gòu)成成分類型在本文的分類體系下只有19種,而64.41%的武器裝備名的構(gòu)造模式集中在10個(gè)主要構(gòu)造模式上。該結(jié)果表明本文針對(duì)英文武器裝備名構(gòu)建的兩層分類體系具有很強(qiáng)的描述能力,也反映出英文武器裝備名具有明顯的領(lǐng)域特征,且該領(lǐng)域特征是自動(dòng)識(shí)別的重要依據(jù)。

        此外,在調(diào)查所得的詞條數(shù)為6 402的領(lǐng)域詞典中,有1 205條詞條由兩個(gè)或兩個(gè)詞以上組成,占比為18.82%。這說(shuō)明多詞單元在英文武器裝備名的構(gòu)成成分中占了相當(dāng)一部分比例。這也要求對(duì)這些多詞單元進(jìn)行組合,以充分利用武器裝備名的領(lǐng)域特征。

        3 基于改進(jìn)CRF的識(shí)別模型

        英文武器裝備名識(shí)別的任務(wù)是在文本中識(shí)別出武器裝備名的邊界并將其正確歸類,該任務(wù)與一般的命名實(shí)體識(shí)別任務(wù)類似,都可以歸為序列標(biāo)注任務(wù)?;诖耍疚氖褂眯蛄袠?biāo)注模型CRF開展相關(guān)實(shí)驗(yàn)工作,并結(jié)合武器裝備名識(shí)別任務(wù)對(duì)CRF模型進(jìn)行改進(jìn)。

        3.1 CRF簡(jiǎn)介

        條件隨機(jī)場(chǎng)(conditional random fields,CRFs)是由J. Lafferty于2001年提出,并迅速在自然語(yǔ)言處理領(lǐng)域得到廣泛應(yīng)用[7]。自誕生以來(lái),CRF模型被廣泛應(yīng)用于序列標(biāo)注問(wèn)題當(dāng)中,其定義了如下條件概率:

        (1)

        式中:X為觀測(cè)序列,Y為輸出標(biāo)識(shí)序列,λj是特征函數(shù)Fj(Y,X)的權(quán)重,需要從訓(xùn)練樣本中估計(jì)出來(lái),1/Z(X)是歸一化因子,特征函數(shù)Fj(Y,X)包含了轉(zhuǎn)移函數(shù)和狀態(tài)函數(shù)兩個(gè)部分。 CRF選擇了指數(shù)函數(shù)作為其模型,這是由于指數(shù)函數(shù)能夠在符合所有邊緣分布的前提下使得熵值最大,符合最大熵原則。相對(duì)于隱馬爾科夫模型(hidden Markov models, HMM)而言,CRF消除了獨(dú)立性假設(shè),因此能對(duì)整個(gè)序列內(nèi)部的信息和外部觀測(cè)信息進(jìn)行有效利用。而相對(duì)于最大熵馬爾科夫模型(maximum-entropy Markov model, MEMM)對(duì)每一個(gè)狀態(tài)都有不同的指數(shù)模型而言,CRF采用了單個(gè)指數(shù)模型,因此能有效避免標(biāo)記偏置問(wèn)題。

        3.2 CRF標(biāo)注模型的改進(jìn)

        本文對(duì)CRF標(biāo)注模型的改進(jìn)主要有以下兩點(diǎn):

        一是將武器裝備名的構(gòu)造特征加入識(shí)別模型,從而豐富CRF模型所使用的特征。目前,利用CRF進(jìn)行命名實(shí)體識(shí)別一般都是基于詞形、詞性等語(yǔ)言特征[8],這些特征具有提取容易,準(zhǔn)確性較高的優(yōu)點(diǎn),被廣泛應(yīng)用在語(yǔ)言序列標(biāo)注問(wèn)題中,具有較強(qiáng)的通用性。但是由于詞形、詞性都屬于淺層語(yǔ)言學(xué)特征,雖然對(duì)命名實(shí)體的識(shí)別具有一定的指示作用,但難以表征出特定領(lǐng)域的專業(yè)特征,因此難以滿足面向特定領(lǐng)域?qū)嶓w的識(shí)別需求。針對(duì)武器裝備名的識(shí)別任務(wù),本研究引入武器裝備名的構(gòu)造特征,將構(gòu)造特征與一般語(yǔ)言特征融合使用,從而豐富識(shí)別模型所依賴的特征,希望能夠?qū)?shí)體識(shí)別起到支持作用。在實(shí)際識(shí)別中,本文將表1中構(gòu)成武器裝備名的18個(gè)構(gòu)造特征補(bǔ)充進(jìn)特征模板。在對(duì)文本進(jìn)行分詞處理后,會(huì)對(duì)每一個(gè)詞判斷其是否屬于這18個(gè)構(gòu)造特征中的一類,如果屬于其中某一類,就將該類的類別特征作為這個(gè)詞的一個(gè)特征標(biāo)簽,如果不屬于其中任何一類,則將其特征標(biāo)簽設(shè)為“O”。這樣,識(shí)別模型就有了可以依賴的領(lǐng)域特征。如在對(duì)“F-18 Super Hornet jets”這個(gè)武器裝備名的識(shí)別中,識(shí)別模型就多了“F”的領(lǐng)域特征“系列E”,“-18”的領(lǐng)域特征“具體型號(hào)V”,“Super Hornet”的領(lǐng)域特征“別稱N”,以及“jets”的領(lǐng)域特征“基本類型K”這些領(lǐng)域信息來(lái)對(duì)該武器裝備名進(jìn)行識(shí)別。

        二是將多詞組合作為標(biāo)注單元。傳統(tǒng)的CRF模型一般都是基于詞進(jìn)行序列標(biāo)注,如圖1所示。其中X={x1,x2,…,xn}是觀測(cè)序列,Y={y1,y2,…,yn}是狀態(tài)序列。

        圖1 傳統(tǒng)的CRF模型

        但對(duì)于英文武器裝備名而言,有很多構(gòu)成成分是由兩個(gè)詞甚至兩個(gè)詞以上構(gòu)成,如在“USS Ronald Reagan(美國(guó)海軍軍艦羅納德·里根號(hào))”這個(gè)武器裝備名當(dāng)中,其構(gòu)成成分分為“USS”與“Ronald Reagan”兩個(gè)部分,而“Ronald Reagan”對(duì)應(yīng)特征“具體型號(hào)V”,但如果將其分為兩個(gè)詞 “Ronald”和“Reagan”后,這兩個(gè)獨(dú)立的詞不對(duì)應(yīng)任何一個(gè)武器裝備名專有的特征,造成特征缺失,其直接影響就是模型可依賴的識(shí)別特征缺失,造成識(shí)別效果降低。這樣的例子還有很多,如“F-18 Super Hornet jets”中的“Super Hornet(超級(jí)大黃蜂)”,“UH-60L Black Hawk helicopters”中的“Black Hawk(黑鷹)”等。為解決此問(wèn)題,本研究在利用CRF進(jìn)行實(shí)體識(shí)別時(shí),將特征提取工作分為兩步,第一步進(jìn)行多詞單元的識(shí)別,第二步進(jìn)行特征提取。這樣就使得由多個(gè)詞構(gòu)成的特征能夠被有效提取出來(lái),為識(shí)別模型提供支持。多詞單元識(shí)別基于前期調(diào)查總結(jié)的英文武器裝備名特征詞表,利用最長(zhǎng)匹配方法進(jìn)行識(shí)別。改進(jìn)后的CRF模型如圖2所示。相較于圖1中傳統(tǒng)的CRF模型而言,改進(jìn)后的模型觀測(cè)序列X={x1_x2,x3,x4_x5,…,xn}。其中,x1與x2、x4與x5被組合為一個(gè)多詞單元。狀態(tài)序列Y={y1,y2,…,yn}。

        圖2 基于多詞單元的CRF模型

        3.3 武器裝備名識(shí)別框架

        在前期對(duì)武器裝備名構(gòu)成模式特征分析的基礎(chǔ)上,本文提取出可以支持CRF模型的武器裝備名構(gòu)造特征集。在此特征集的支持下,本文對(duì)人工標(biāo)注的訓(xùn)練文本進(jìn)行多詞組合與特征標(biāo)注,并以此訓(xùn)練CRF模型,得到針對(duì)英文武器裝備名的識(shí)別模型,并利用該識(shí)別模型對(duì)測(cè)試文本中的武器裝備名進(jìn)行了識(shí)別,具體流程如圖3所示。

        圖3 武器裝備名識(shí)別框架

        4 實(shí) 驗(yàn)

        4.1 實(shí)驗(yàn)語(yǔ)料的選擇與加工

        本文收集了110篇美國(guó)國(guó)防部官網(wǎng)2017年度的新聞報(bào)道作為待標(biāo)注語(yǔ)料,并對(duì)其中的英文武器裝備名進(jìn)行了人工標(biāo)注。本文選取了其中80篇作為訓(xùn)練語(yǔ)料,另外30篇作為測(cè)試語(yǔ)料。

        在對(duì)110篇新聞報(bào)道完成標(biāo)注后,本文抽取出其中所包含的英文武器裝備名,并利用上文所述的兩層分類體系對(duì)所有武器裝備名進(jìn)行了人工標(biāo)注。標(biāo)注完成后,本文統(tǒng)計(jì)總結(jié)了這些武器裝備名的構(gòu)成成分和構(gòu)成模式,并做成了包含(構(gòu)成成分—構(gòu)成成分類型對(duì))的領(lǐng)域詞典作為構(gòu)造特征集。該特征集作為包含了英文武器裝備名構(gòu)造規(guī)律特征的語(yǔ)言資源參與到了對(duì)武器裝備名的識(shí)別當(dāng)中。領(lǐng)域特征集如表3所示,表中第一列是武器裝備名構(gòu)成成分,第二列是該成分所屬構(gòu)成類型。

        本文采用了三元素標(biāo)注集,三個(gè)元素為{B-MILEQP,I-MILIQP,O}。其中,“B-MILEQP”表示一個(gè)英文武器裝備名的起始部分,“I-MILIQP”表示英文武器裝備名的非起始部分,“O”表示非英文武器裝備名成分。

        4.2 評(píng)測(cè)標(biāo)準(zhǔn)

        只有對(duì)文本當(dāng)中一個(gè)完整武器裝備名的各個(gè)部分全部標(biāo)注正確并且對(duì)該武器裝備名的后一個(gè)其他成分沒有標(biāo)注為“I-MILIQP”,本文才視為對(duì)該武器裝備名識(shí)別成功,部分標(biāo)注正確或標(biāo)注超出了該武器裝備名的界限則視為標(biāo)注失敗。

        為了更加全面地描述實(shí)驗(yàn)效果,本文設(shè)置了六個(gè)評(píng)價(jià)指標(biāo),各個(gè)指標(biāo)定義如表4所示。

        表4 評(píng)價(jià)指標(biāo)

        其中,整體標(biāo)注的正確率Pw用來(lái)評(píng)價(jià)模型對(duì)整體文本的標(biāo)注情況;武器裝備名識(shí)別的準(zhǔn)確率Pm與召回率Rm用來(lái)評(píng)價(jià)模型對(duì)武器裝備名的識(shí)別情況;F值則用來(lái)綜合評(píng)價(jià)模型對(duì)武器裝備名的識(shí)別情況;為了排除模型對(duì)某一特定武器裝備名多次識(shí)別成功或失敗所造成的對(duì)總體評(píng)價(jià)指標(biāo)的影響,本文設(shè)置了武器裝備名type識(shí)別的召回率Rtype這一指標(biāo),在這一指標(biāo)下,對(duì)同一武器裝備名的多次識(shí)別成功只計(jì)算一次;而未登錄詞識(shí)別的召回率Ruk則用來(lái)評(píng)價(jià)模型對(duì)未登錄詞的泛化能力。

        4.3 CRF特征模板

        為了驗(yàn)證英文武器裝備名的構(gòu)造規(guī)律對(duì)武器裝備名識(shí)別的有效性,本文設(shè)計(jì)了三個(gè)特征模板,如表5所示。

        表5 特征模板

        在特征模板一中,選取了當(dāng)前詞詞形本身、當(dāng)前詞前后各兩個(gè)詞形、當(dāng)前詞與前一個(gè)詞的組合、當(dāng)前詞與后一個(gè)詞的組合、是否包含數(shù)字、是否包含大寫字母共九個(gè)特征作為特征模板,該特征模板主要包含了詞形特征。特征模板二除了包含特征模板一中的所有特征外,還包含了表1中18個(gè)英文武器裝備名的構(gòu)造特征作為語(yǔ)言學(xué)特征來(lái)支持對(duì)命名實(shí)體的識(shí)別。特征模板三包含了特征模板二中的所有特征,區(qū)別在于:在該特征模板中,所有非詞形特征被歸并為一列,對(duì)于一個(gè)詞可能擁有多個(gè)非詞形特征的情況,本文將其所擁有的多個(gè)非詞形特征連寫。如Missile這個(gè)詞就擁有“包含大寫字母”H、基本類型K與附屬C三個(gè)非詞形特征,其特征連寫為“HKC”。在此基礎(chǔ)上,特征模板三還包含了當(dāng)前詞前后兩個(gè)詞的非詞形特征、當(dāng)前詞的非詞形特征與前一個(gè)詞的非詞形特征的組合、當(dāng)前詞的非詞形特征與后一個(gè)詞的非詞形特征的組合共六個(gè)特征。

        需要說(shuō)明的是,由于能力有限,本文未能精確地將武器裝備名的每個(gè)部分標(biāo)為該部分在當(dāng)前實(shí)體中所屬的構(gòu)造特征,而是將其所有可能的構(gòu)造特征全部賦予該部分。如在“Brimstons Missile”這個(gè)詞條中,“Missile(導(dǎo)彈)” 的構(gòu)造特征是基本類型K。在“Alleigh Burke-class Missile Destroyer”中,“Missile”表示該驅(qū)逐艦攜帶有導(dǎo)彈,其構(gòu)造特征屬于附屬C。本文并未進(jìn)行這樣的區(qū)分,而是把基本類型K與附屬C這兩個(gè)構(gòu)造特征都賦給了文本中的“Missile”作為其構(gòu)造特征,再加上該詞本身?yè)碛写髮懽帜柑卣?,使得文本中所有的“Missile”都擁有H、K、C三個(gè)特征標(biāo)注。由此也引出了上文提到的特征模板三中的特征連寫。

        4.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

        為了驗(yàn)證本文對(duì)CRF改進(jìn)的有效性,本文對(duì)基于詞進(jìn)行序列標(biāo)注與基于多詞單元進(jìn)行序列標(biāo)注在三個(gè)特征模板下都做了實(shí)驗(yàn)。三個(gè)特征模板所包含特征的層層遞進(jìn)性能驗(yàn)證英文武器裝備名的構(gòu)造特征對(duì)識(shí)別效果的有效性。此外,本文在以下兩種情況下都做了上述實(shí)驗(yàn):一種情況是未將測(cè)試語(yǔ)料中的未登錄詞的構(gòu)成成分包含在領(lǐng)域詞典中,另一種情況是將測(cè)試語(yǔ)料中的未登錄詞的構(gòu)成成分包含在領(lǐng)域詞典中。在第一種情況下,由于領(lǐng)域詞典的不完備性,包含了多個(gè)詞的未登錄詞并沒有被合并為多詞單元,因此難以驗(yàn)證多詞單元對(duì)識(shí)別效果提升的有效性。在第二種情況下,測(cè)試語(yǔ)料當(dāng)中的多詞單元都能得到合并,因此能驗(yàn)證基于多詞單元進(jìn)行序列標(biāo)注對(duì)識(shí)別效果的提升作用。

        4.4.1包含未登錄詞影響的實(shí)驗(yàn)

        該實(shí)驗(yàn)沒有將測(cè)試語(yǔ)料當(dāng)中的未登錄詞構(gòu)成成分包含在領(lǐng)域詞典中,以此來(lái)驗(yàn)證基于改進(jìn)CRF的識(shí)別模型在開放測(cè)試集上的識(shí)別效果,實(shí)驗(yàn)結(jié)果如表6、表7所示。

        表6 包含未登錄詞影響的實(shí)驗(yàn)結(jié)果1

        表7 包含未登錄詞影響的實(shí)驗(yàn)結(jié)果2

        4.4.2去除未登錄詞影響的實(shí)驗(yàn)

        該實(shí)驗(yàn)將測(cè)試語(yǔ)料當(dāng)中的未登錄詞的構(gòu)成成分包含在領(lǐng)域詞典中,以此來(lái)驗(yàn)證多詞單元對(duì)CRF模型識(shí)別效果的提升作用,實(shí)驗(yàn)結(jié)果如表8、表9所示。

        表8 去除未登錄詞的影響的實(shí)驗(yàn)結(jié)果1

        表9 去除未登錄詞的影響的實(shí)驗(yàn)結(jié)果2

        4.4.3結(jié)果分析

        本文從四個(gè)方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析:

        (1) 武器裝備名的構(gòu)造特征對(duì)于識(shí)別效果的影響 從實(shí)驗(yàn)結(jié)果可以看到,無(wú)論是否將未登錄詞的構(gòu)成成分包含在領(lǐng)域詞典當(dāng)中,隨著英文武器裝備名構(gòu)造特征和其上下文構(gòu)造特征的加入,CRF對(duì)英文武器裝備名識(shí)別的準(zhǔn)確率、召回率和F值都獲得了極大的提升,其中召回率更是得到一倍左右的提升,整體標(biāo)注正確率也提升近三個(gè)百分點(diǎn),最高達(dá)到99%以上。這顯示了英文武器裝備名構(gòu)造特征對(duì)于識(shí)別效果的顯著提升作用,并證明武器裝備名構(gòu)造特征在提升識(shí)別效果方面有著相較于其他淺層語(yǔ)言學(xué)特征不可比擬的優(yōu)越性。如在特征模板一,“F-35”這個(gè)詞條未被識(shí)別出來(lái)。而在特征模板二與特征模板三,由于加入“F”的構(gòu)造特征“系列E”與“-35”的構(gòu)造特征“具體型號(hào)V”,該詞條就被成功識(shí)別出。

        (2) 多詞組合特征對(duì)識(shí)別效果的影響 在4.4.2節(jié)的實(shí)驗(yàn)中,隨著序列標(biāo)注從基于詞變?yōu)榛诙嘣~單元,識(shí)別的各個(gè)評(píng)價(jià)指標(biāo)都有了極大的提升。這是因?yàn)楫?dāng)標(biāo)注序列變?yōu)槎嘣~單元后,更多的構(gòu)造特征可以加入到識(shí)別當(dāng)中,這樣就帶來(lái)了識(shí)別準(zhǔn)確率和召回率的雙重提升。從另一個(gè)意義上講,多詞單元的組合也是將本文前期調(diào)查的語(yǔ)言學(xué)規(guī)則加入模型當(dāng)中,一定程度上實(shí)現(xiàn)了“規(guī)則+統(tǒng)計(jì)”的識(shí)別模式。

        (3) 武器裝備名type的識(shí)別效果分析 武器裝備名type的召回率體現(xiàn)的是識(shí)別模型對(duì)不同武器裝備名type的識(shí)別能力,排除了模型對(duì)同一武器裝備名type的多次識(shí)別而導(dǎo)致的識(shí)別評(píng)價(jià)指標(biāo)虛高的情況。從表6、表7、表8與表9可以看出,當(dāng)加入武器裝備名構(gòu)造特征后,武器裝備名type的召回率Rtype有了大幅提升,提升效果在25%以上,尤其是當(dāng)排除未登錄詞的影響且標(biāo)注序列變?yōu)槎嘣~單元后,Rtype更是提升了45%以上。這一指標(biāo)變化也印證武器裝備名領(lǐng)域特征與多詞單元對(duì)于CRF模型的有效支持作用。

        (4) 未登錄武器裝備名的識(shí)別效果分析 對(duì)于未登錄詞的識(shí)別是命名實(shí)體識(shí)別模型效果的一個(gè)重要評(píng)價(jià)指標(biāo),該指標(biāo)反映的是模型的泛化能力。表6與表7中的Ruk就是識(shí)別模型對(duì)于測(cè)試語(yǔ)料中未登錄詞的召回率。從表中可以看到,在武器裝備名構(gòu)造特征對(duì)識(shí)別模型的支持下,未登錄詞的召回率提升了25%以上。這體現(xiàn)了在武器裝備名構(gòu)造特征支持下的CRF模型具有更強(qiáng)的泛化能力。

        但本文的方法也存在一定程度的局限性,本文統(tǒng)計(jì)了改進(jìn)的識(shí)別模型識(shí)別出錯(cuò)的原因類型,主要有兩點(diǎn):

        (1) 模型的泛化能力雖有提高,但依然存在能力不足的問(wèn)題,主要體現(xiàn)在對(duì)未登錄詞的識(shí)別方面。這主要是由于領(lǐng)域特征詞典的覆蓋度不足。如在4.4.1節(jié)實(shí)驗(yàn)當(dāng)中,隨著標(biāo)注序列變?yōu)槎嘣~單元,識(shí)別的各個(gè)指標(biāo)都存在一定程度的下降。這是因?yàn)閷?shí)驗(yàn)中有大量未登錄詞構(gòu)成成分未包含在領(lǐng)域特征詞典中,這導(dǎo)致大量多詞單元不能組合到一起,其構(gòu)造特征也相應(yīng)不能支持模型對(duì)該武器裝備名的識(shí)別,因此導(dǎo)致了指標(biāo)的下降。

        (2) 武器裝備名構(gòu)成特征過(guò)強(qiáng)的泛化能力導(dǎo)致模型將不是武器裝備名的詞條識(shí)別為武器裝備名。如“CTF-70”本意是美國(guó)太平洋艦隊(duì)第七艦隊(duì)的戰(zhàn)斗指揮部——第70特遣隊(duì)。但由于該詞條包含了本文特征模板中的“大寫字母”、“數(shù)字”、“具體型號(hào)”(“-70”也是一個(gè)具體型號(hào)),這使得識(shí)別模型將其誤判為武器裝備名。

        而這兩點(diǎn)不足也是下一步研究要解決的主要問(wèn)題。

        5 結(jié) 語(yǔ)

        本文抽取了美國(guó)國(guó)防部官網(wǎng)的110篇新聞報(bào)道,對(duì)其中的武器裝備名進(jìn)行了標(biāo)注,并依據(jù)筆者前期的研究成果對(duì)這些武器裝備名的構(gòu)成成分進(jìn)行了分析,得到了包含了對(duì)(構(gòu)成成分,構(gòu)成成分類型)的領(lǐng)域詞典。在調(diào)查結(jié)果的支持下,針對(duì)已有CRF應(yīng)用在命名實(shí)體識(shí)別領(lǐng)域的缺點(diǎn),本文對(duì)CRF做了兩方面的改進(jìn):一是將英文武器裝備名的構(gòu)造特征加入到了CRF中;二是依據(jù)英文武器裝備名的構(gòu)造特征將CRF從基于詞進(jìn)行序列標(biāo)注拓展為基于多詞單元進(jìn)行序列標(biāo)注。實(shí)驗(yàn)結(jié)果顯示,英文武器裝備名的構(gòu)造特征和多詞單元都能夠很好地提升CRF對(duì)英文武器裝備名的識(shí)別效果。在接下來(lái)更深一步的研究中,可以將深度神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到對(duì)武器裝備名的識(shí)別中,以期達(dá)到更好的效果。

        本文的研究思路、方法和成果不僅能夠支持軍事領(lǐng)域相關(guān)的英文信息處理工作,也能夠?qū)ζ渌Z(yǔ)種和其他相關(guān)領(lǐng)域的研究提供重要借鑒意義。

        猜你喜歡
        詞形語(yǔ)料實(shí)體
        詞形變換解題指導(dǎo)
        韓國(guó)學(xué)校語(yǔ)法中副詞形語(yǔ)尾的變遷
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        帶前置功能的詞形《 в сопоставлениис 》的結(jié)構(gòu)與搭配
        山東青年(2018年7期)2018-11-06 06:13:12
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        午夜福利理论片高清在线观看| 日韩精品夜色二区91久久久| 国产一区二区精品尤物| 国产免费AV片在线看| 国产人妖在线免费观看| 日本刺激视频一区二区| 国产成人无码av| 亚洲精品国产精品国自产观看| 老熟女熟妇嗷嗷叫91| 国产亚洲精品视频网站| 亚洲国产一区二区中文字幕| av在线免费观看网站,| 国产成人小视频| 特级毛片a级毛片免费播放| 欧美日一本| 亚洲综合在不卡在线国产另类| 亚洲国产精品无码久久久| 吃奶还摸下面动态图gif| 一区二区三无码| 亚洲精品久久蜜桃av| 久久99精品久久久久久9蜜桃| 台湾无码av一区二区三区| 2019年92午夜视频福利| 西西人体大胆视频无码| 不卡视频在线观看网站| 亚洲乱码一区二区三区在线观看| 国产精品久久久久久av| 国产女人水真多18毛片18精品| 免费一区二区三区在线视频| 爆乳午夜福利视频精品| 久久久一本精品久久久一本| av在线免费观看麻豆| 日本少妇春药特殊按摩3| 国产精品一区二区 尿失禁| 在线视频一区二区日韩国产| 久久久2019精品视频中文字幕| 日本女优爱爱中文字幕| 深夜日韩在线观看视频| 国产亚洲精品a片久久久| 日本高清www午色夜高清视频| 亚洲无码夜夜操|