單赫源,張海粟,吳照林
(1.國防信息學(xué)院信息化建設(shè)系,湖北 武漢 430010; 2.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,陜西 西安 710077)
小粒度策略下基于CRFs的軍事命名實(shí)體識(shí)別方法
單赫源1,2,張海粟1,吳照林1
(1.國防信息學(xué)院信息化建設(shè)系,湖北 武漢 430010; 2.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,陜西 西安 710077)
軍事命名實(shí)體(Military Named Entities,MNEs)內(nèi)部嵌套關(guān)系復(fù)雜、語法區(qū)分不明顯,從而影響實(shí)體識(shí)別效果,針對這一問題,提出了一種小粒度策略下基于條件隨機(jī)場(Conditional Random Fields,CRFs)的MNEs識(shí)別方法。運(yùn)用小粒度策略,結(jié)合手工構(gòu)建的MNEs標(biāo)注語料進(jìn)行建模,采用CRFs模型識(shí)別出不可再分的小粒度MNEs,再通過對小粒度MNEs進(jìn)行組合得到完整的MNEs。最后,通過實(shí)驗(yàn)對該方法進(jìn)行了驗(yàn)證,結(jié)果表明:在作戰(zhàn)文書語料的開放測試中,MNEs識(shí)別的召回率達(dá)到72%以上,準(zhǔn)確率達(dá)到85%以上。
條件隨機(jī)場; 軍事命名實(shí)體; 命名實(shí)體識(shí)別; 小粒度策略
作戰(zhàn)文書是軍隊(duì)指揮鏈路中主要的信息載體,具有組織指揮、溝通聯(lián)絡(luò)作用,是部隊(duì)行動(dòng)的直接依據(jù)。準(zhǔn)確識(shí)別出作戰(zhàn)文書中的部隊(duì)、裝備、地點(diǎn)和任務(wù)等命名實(shí)體,是實(shí)現(xiàn)文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的跨模態(tài)關(guān)聯(lián),進(jìn)而使計(jì)算機(jī)理解作戰(zhàn)文書語義的前提,是提高指揮信息系統(tǒng)輔助決策能力的一個(gè)基礎(chǔ)性工作。命名實(shí)體識(shí)別方法包括基于規(guī)則和基于機(jī)器學(xué)習(xí)2類[1]?;谝?guī)則的命名實(shí)體識(shí)別方法對固定句式中的命名實(shí)體識(shí)別效果較好,但對領(lǐng)域知識(shí)要求高,且可移植性較差;與之相比,基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法對領(lǐng)域知識(shí)要求較低,具有良好的跨領(lǐng)域移植性。基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法通常都需要大量的標(biāo)注語料,由于軍事命名實(shí)體(Military Named Entities,MNEs)內(nèi)部存在著嵌套關(guān)系,因此訓(xùn)練集的標(biāo)注粒度影響MNEs的識(shí)別效果。目前,對機(jī)器學(xué)習(xí)模型訓(xùn)練集的標(biāo)注主要有2種方法:1)對實(shí)體進(jìn)行完整標(biāo)注,標(biāo)注實(shí)體的左右邊界和實(shí)體的內(nèi)部組成部分[2-6];2)對簡單實(shí)體和嵌套實(shí)體分別進(jìn)行標(biāo)注[7-10],并分別采用不同的實(shí)體識(shí)別方法。以上方法不同程度地存在著實(shí)體標(biāo)注復(fù)雜、耗時(shí)費(fèi)力等問題。為此,基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法,筆者提出一種小粒度策略下基于條件隨機(jī)場(Conditional Random Fields,CRFs)[11]的MNEs識(shí)別方法,在訓(xùn)練集中標(biāo)注MNEs時(shí)依據(jù)小粒度策略,使被標(biāo)注的MNEs粒度最小,在此基礎(chǔ)上訓(xùn)練CRFs模型并采用該模型實(shí)現(xiàn)對MNEs的識(shí)別,不但能降低訓(xùn)練集標(biāo)注的復(fù)雜度,還有助于提高機(jī)器學(xué)習(xí)方法識(shí)別MNEs的準(zhǔn)確度。最后,通過實(shí)驗(yàn)對該方法進(jìn)行驗(yàn)證。
作戰(zhàn)文書中的MNEs包括單位類實(shí)體、地理類實(shí)體、裝備類實(shí)體、任務(wù)類實(shí)體和時(shí)間類實(shí)體。MNEs構(gòu)成受有關(guān)條例和規(guī)范的約束,通常以軍語等術(shù)語及其組合的形式在作戰(zhàn)文書中呈現(xiàn),具有獨(dú)特的構(gòu)成特點(diǎn),具體如下:
1)單位類命名實(shí)體中的序列標(biāo)志多采用阿拉伯?dāng)?shù)字。如“陸軍第××集團(tuán)軍”“炮兵團(tuán)第×營”等。
2)標(biāo)志部隊(duì)編制的單位類命名實(shí)體右邊界一般有軍、師、旅、團(tuán)、營、連、排、班等代表層級(jí)的字符,多個(gè)標(biāo)志部隊(duì)編制的命名實(shí)體經(jīng)常以組合的方式出現(xiàn),如“機(jī)械化步兵第×師第×團(tuán)第×營”。
3)標(biāo)志地區(qū)和地點(diǎn)的地理類命名實(shí)體經(jīng)常以省、市、縣、鄉(xiāng)、鎮(zhèn)、村、莊、集、隊(duì)、寨、溝、山、峪、壩等字符作為右邊界。與單位類命名實(shí)體類似,標(biāo)志地點(diǎn)的命名實(shí)體也經(jīng)常疊加組合。
4)標(biāo)志坐標(biāo)的命名實(shí)體通常緊貼作戰(zhàn)文書中首次出現(xiàn)的標(biāo)志地點(diǎn)的命名實(shí)體右邊界。標(biāo)志坐標(biāo)的命名實(shí)體通常以“(”開始,以“)”結(jié)束,經(jīng)緯度之間用“,”區(qū)分。
5)在標(biāo)志作戰(zhàn)編成的單位類命名實(shí)體或標(biāo)志武器裝備的裝備類命名實(shí)體中,漢字、字母、數(shù)字和符號(hào)經(jīng)常組合出現(xiàn),如“T字布”“垂直/短距起降飛機(jī)”等。
6)MNEs存在全稱和簡稱,如全稱為“機(jī)械化步兵第×師”,簡稱為“機(jī)步第×師”。
7)MNEs中的詞語大都是規(guī)范的固定組合,不能任意增減、改換。
MNEs識(shí)別的難度在于:中文文本中詞語邊界沒有空格等明顯的區(qū)分標(biāo)志,也沒有大小寫等字形上的區(qū)別;MNEs內(nèi)部嵌套關(guān)系復(fù)雜,實(shí)體內(nèi)部經(jīng)常嵌套其他命名實(shí)體;MNEs的全稱、簡稱并存現(xiàn)象普遍。這些都使得選擇區(qū)分度高的MNEs分類特征較為困難,從而增加了識(shí)別的難度。
2.1 小粒度策略
小粒度策略是在命名實(shí)體標(biāo)注過程中,針對作戰(zhàn)文書中MNEs構(gòu)成復(fù)雜且全稱、簡稱混合的特點(diǎn)所采取的一種命名實(shí)體標(biāo)注策略。小粒度策略的內(nèi)容是在標(biāo)注MNEs時(shí)僅標(biāo)注不可再分的MNEs,不可再分是指若去掉實(shí)體開頭或結(jié)尾的任何一個(gè)字符,都將引起歧義或使實(shí)體不再具有意義,如:“1團(tuán)2營3連”,根據(jù)小粒度策略,分別標(biāo)注為“1團(tuán)”“2營”和“3連”3個(gè)不可再拆分的部隊(duì)編制實(shí)體。小粒度策略可有效地減小命名實(shí)體構(gòu)成的差異化對命名實(shí)體識(shí)別的影響,采用該策略后,只需將識(shí)別結(jié)果中連續(xù)出現(xiàn)的小粒度MNEs組合在一起,并以最后一個(gè)實(shí)體的標(biāo)注作為合并后實(shí)體的標(biāo)注,即可獲得完整的MNEs。
2.2 CRFs模型
(1)
式中:Z(x)為標(biāo)準(zhǔn)化因子,只依賴于詞語序列,其表達(dá)式為
(2)
λk為通過訓(xùn)練得到的第k個(gè)特征函數(shù)的權(quán)重,反映了特征函數(shù)代表的事件發(fā)生的可能性;fk(yi,yi-1,x)為特征函數(shù),其一般表示形式為
(3)
在小粒度策略下,基于CRFs的MNEs識(shí)別方法的識(shí)別步驟包括預(yù)處理、訓(xùn)練集標(biāo)注、特征模板選擇、識(shí)別模型訓(xùn)練和預(yù)測等。
實(shí)驗(yàn)材料是特征尺寸為65 nm、直徑為300 mm的12英寸銅晶圓。采用美國APPLIED MATERIALS公司生產(chǎn)的Reflexion? LK型拋光機(jī),配備Rohm and Haas公司生產(chǎn)的Politex? Reg型拋光墊。拋光工藝參數(shù)為:拋頭轉(zhuǎn)速78 r/min,拋盤轉(zhuǎn)速80 r/min,體積流量300 mL/min,拋光壓力5.2 kPa,拋光時(shí)間60 s。
3.1 預(yù)處理
預(yù)處理是對原始的作戰(zhàn)文書進(jìn)行分詞和詞性標(biāo)注,使原始文本中隱含的詞語、詞性和上下文等特征能夠顯式表達(dá)。筆者采用中科院ICTCLAS工具[13]實(shí)現(xiàn)作戰(zhàn)文書的分詞和詞性標(biāo)注,其含義示例如表1所示。
表1 ICTCLAS詞性標(biāo)注的含義示例
3.2 訓(xùn)練集標(biāo)注
訓(xùn)練集標(biāo)注是通過人工方式將訓(xùn)練集中的MNEs標(biāo)注出來,為CRFs模型的訓(xùn)練提供樣板。筆者以詞作為作戰(zhàn)文書語料的切分粒度,使用“BIO”標(biāo)注方法,采取小粒度策略標(biāo)注訓(xùn)練集,得到訓(xùn)練集的實(shí)體標(biāo)注序列。其中:B(Begin)表示實(shí)體開始(左邊界);I(Internal)表示實(shí)體內(nèi)部及結(jié)尾(右邊界);O(Other)表示除實(shí)體外的其他詞、字和標(biāo)點(diǎn)。根據(jù)作戰(zhàn)文書的特點(diǎn),選擇標(biāo)注10類MNEs,其標(biāo)注方法如表2所示。
表2 MNEs的類別及標(biāo)注方法
例如:對句子[機(jī)步第×師為集團(tuán)軍左翼突擊上陸梯隊(duì)。]采用中科院ICTCLAS工具進(jìn)行分詞和詞性標(biāo)注后,其MNEs標(biāo)注如表3所示,得到MNEs標(biāo)注序列為[B-Str,I-Str,I-Str,I-Str,O,B-Str,B-Az,B-Org,I-Org,I-Org,I-Org,O]。
表3 句子[機(jī)步第×師為集團(tuán)軍左翼突擊上陸梯隊(duì)。]的分詞、詞性標(biāo)注和MNEs標(biāo)注
3.3 特征模板選擇
CRFs模型最大的優(yōu)點(diǎn)就是能夠綜合使用字、詞、詞性和上下文信息等特征。在小粒度策略下采用CRFs模型進(jìn)行MNEs識(shí)別時(shí),特征選擇影響MNEs識(shí)別的效果,可選擇的特征主要有詞語特征、詞性特征和上下文特征等。特征模板是在CRFs模型訓(xùn)練和識(shí)別MNEs時(shí)所要使用的預(yù)定義的識(shí)別特征組合方式。如:句子[集團(tuán)軍前進(jìn)指揮所信息通信樞紐開設(shè)在××莊。]在經(jīng)過分詞、詞性標(biāo)注和人工標(biāo)注實(shí)體后,其MNEs標(biāo)注如表4所示,選擇詞語和詞性作為識(shí)別特征。若特征%x[0,0]為句子中的詞[開設(shè)],則特征模板中所代表的特征及其內(nèi)容如表5所示。
表4 句子[集團(tuán)軍前進(jìn)指揮所信息通信樞紐開設(shè)在××莊。]的分詞、詞性標(biāo)注和MNEs標(biāo)注
表5 特征模板中所代表的特征及其內(nèi)容
3.4 識(shí)別模型訓(xùn)練和預(yù)測
識(shí)別模型訓(xùn)練的實(shí)質(zhì)是獲得CRFs模型的最優(yōu)化參數(shù)。在得到經(jīng)過訓(xùn)練的CRFs模型后,要利用測試集對模型性能進(jìn)行測評,以判斷識(shí)別方法的優(yōu)劣。通常采用召回率R、準(zhǔn)確率P和F值3個(gè)指標(biāo)對訓(xùn)練后的CRFs模型的性能進(jìn)行評價(jià),其計(jì)算方法分別如下:
(4)
(5)
(6)
經(jīng)過測評后,可選擇識(shí)別效果較好的模型對作戰(zhàn)文書中的MNEs進(jìn)行預(yù)測。
4.1 實(shí)驗(yàn)條件設(shè)置
筆者通過構(gòu)建一個(gè)小規(guī)模實(shí)驗(yàn)語料來驗(yàn)證以上方法的有效性。采用中科院ICTCLAS工具進(jìn)行分詞和詞性標(biāo)注,對分詞后的作戰(zhàn)文書語料進(jìn)行MNEs的手工標(biāo)注。選擇作戰(zhàn)文書200份,共計(jì)26 242字、534句;選擇其中的374句作為訓(xùn)練集,共計(jì)15 790字;其他160句作為測試集,共計(jì)10 452字。實(shí)驗(yàn)所用計(jì)算機(jī)的配置為:處理器Intel Core 2 Duo E7500 2.93 GHz,內(nèi)存容量為4 GB,操作系統(tǒng)為Windows7 旗艦版64位。實(shí)驗(yàn)采用召回率R、準(zhǔn)確率P和F值作為評價(jià)指標(biāo)。
語料文件由輸入、標(biāo)注對序列構(gòu)成。CRFs模型的訓(xùn)練和測試采用CRFs工具CRF++0.53[14],其參數(shù)C的取值對CRFs模型的效果有較大影響,C越大,CRFs擬合訓(xùn)練數(shù)據(jù)的程度越高,但過大的C值會(huì)引發(fā)過度擬合。因此,參數(shù)C的取值和特征模板都需要通過多次實(shí)驗(yàn)進(jìn)行擇優(yōu)選擇。筆者通過在實(shí)驗(yàn)中調(diào)整C值和遞加特征的方法來觀察算法的效果,從而選取合適的C值與特征模板。實(shí)驗(yàn)選用的初始特征模板如表6所示。
表6 實(shí)驗(yàn)選用的初始特征模板
4.2 實(shí)驗(yàn)結(jié)果分析
4.2.1 特征變化對算法性能的影響
表7 在初始特征模板下參數(shù)C=10的MNEs識(shí)別結(jié)果
由表7可見:在使用初始特征模板時(shí),采用本文的方法識(shí)別MNEs的準(zhǔn)確率達(dá)到85.32%,召回率達(dá)到72.99%。
在增加特征U07(%x[-2,0]/%x[-1,0])以及U08(%x[1,0]/%x[2,0])后,模型訓(xùn)練時(shí)間上升為25 min。在擴(kuò)展特征模板下參數(shù)C=10的MNEs識(shí)別結(jié)果如表8所示??梢钥闯觯涸谠黾釉~語上下文特征數(shù)量后,召回率下降,而準(zhǔn)確率得到小幅度提升??梢姡涸~語上下文特征的增加對識(shí)別的準(zhǔn)確度影響不大,但對算法性能有較大影響。因此在采用本文方法識(shí)別MNEs時(shí)應(yīng)選擇合適的上下文窗口:詞語、詞性和詞性上下文等特征以5詞窗口為宜;而詞語上下文特征以3詞窗口為宜。
表8 在擴(kuò)展特征模板下參數(shù)C=10的MNEs識(shí)別結(jié)果
4.2.2 算法參數(shù)對識(shí)別結(jié)果的影響
為調(diào)整本文方法在生成模型時(shí)過度擬合和不擬合之間的平衡度,在擴(kuò)展特征模板基礎(chǔ)上,分別改變參數(shù)C的取值。當(dāng)參數(shù)C=2,4,6,8,10時(shí),得到在擴(kuò)展特征模板下變參數(shù)的MNEs識(shí)別準(zhǔn)確率、召回率和模型訓(xùn)練時(shí)間,分別如圖1、2所示。表9為在擴(kuò)展特征模板下參數(shù)C=2的MNEs識(shí)別結(jié)果。
圖1 在擴(kuò)展特征模板下變參數(shù)的MNEs識(shí)別準(zhǔn)確率、召回率
圖2 在擴(kuò)展特征模板下變參數(shù)的模型訓(xùn)練時(shí)間
項(xiàng)目標(biāo)注數(shù)量正確識(shí)別錯(cuò)誤識(shí)別召回率/%準(zhǔn)確率/%F值實(shí)體總數(shù)115583613571.0889.630.793部隊(duì)編制3693123884.5589.140.868作戰(zhàn)編成1971023051.7877.270.620地名2471991680.5792.560.861坐標(biāo)1761761100.0099.440.997方位趨向22124.5533.330.080裝備型號(hào)369525.0064.290.360任務(wù)71014.29100.000.250時(shí)間185127.7883.330.417日期204220.0066.670.308數(shù)量6312019.05100.000.320
由圖1可見:隨著C值增大,召回率得到提升,而準(zhǔn)確率下降;當(dāng)C=10時(shí),召回率出現(xiàn)大幅下降,而準(zhǔn)確率出現(xiàn)較大反彈??梢?過小或過大的C值都會(huì)降低召回率,其取值在4~8之間較為合適。
由圖2可見:隨著C值增大,模型訓(xùn)練時(shí)間從17 min上升為25 min。這表明:在增加特征數(shù)量的同時(shí),若適當(dāng)減小C值,不但可以防止出現(xiàn)過度擬合,而且可以有效縮短模型訓(xùn)練時(shí)間。
綜合以上2點(diǎn)考慮,筆者設(shè)置參數(shù)C=4。
4.2.3 實(shí)體數(shù)量和特征對識(shí)別結(jié)果的影響
由表7-9可見:在所標(biāo)注的10種MNEs中,部隊(duì)編制實(shí)體、地名實(shí)體和坐標(biāo)實(shí)體的識(shí)別結(jié)果較好。其中:坐標(biāo)實(shí)體識(shí)別的召回率達(dá)到100%,準(zhǔn)確率達(dá)到98.88%以上,這是因?yàn)樽鴺?biāo)實(shí)體的特征非常明顯,與其他實(shí)體的區(qū)分度高;而地名實(shí)體之所以識(shí)別效果好,很大程度上是因?yàn)榈孛c坐標(biāo)經(jīng)常一起出現(xiàn),提高了地名實(shí)體識(shí)別的準(zhǔn)確率。
4.2.4 實(shí)體標(biāo)注粒度對識(shí)別結(jié)果的影響
在使用擴(kuò)展特征模板且C=4時(shí),不同標(biāo)注粒度下部隊(duì)編制實(shí)體和作戰(zhàn)編成實(shí)體識(shí)別結(jié)果如表10所示。由于在MNEs中經(jīng)常存在實(shí)體嵌套現(xiàn)象,因此不同的實(shí)體標(biāo)注粒度會(huì)影響識(shí)別結(jié)果。MNEs存在2種嵌套類型:1)實(shí)體嵌套僅表示實(shí)體的層級(jí),組合后實(shí)體的類別不會(huì)改變,如大粒度標(biāo)注的實(shí)體[反坦克導(dǎo)彈連第3營]由小粒度標(biāo)注的部隊(duì)編制實(shí)體[反坦克導(dǎo)彈連]和部隊(duì)編制實(shí)體[第3營]組成,仍為部隊(duì)編制實(shí)體;2)不同實(shí)體組合后類別發(fā)生改變,如由小粒度標(biāo)注的部隊(duì)編制實(shí)體[集團(tuán)軍]、方位趨向?qū)嶓w[左翼]、作戰(zhàn)編成實(shí)體[突擊梯隊(duì)]可組合成大粒度標(biāo)注的作戰(zhàn)編成實(shí)體[集團(tuán)軍左翼突擊梯隊(duì)]。因此,若MNEs的標(biāo)注粒度大,則會(huì)出現(xiàn)命名實(shí)體內(nèi)部嵌套其他命名實(shí)體的現(xiàn)象,勢必會(huì)降低詞作為實(shí)體特征的區(qū)分度,進(jìn)而影響識(shí)別結(jié)果。
表10 不同標(biāo)注粒度下部隊(duì)編制實(shí)體和作戰(zhàn)編成實(shí)體識(shí)別結(jié)果
針對MNEs識(shí)別的任務(wù)需求,筆者提出了一種小粒度策略下基于CRFs的MNEs識(shí)別方法,并通過實(shí)驗(yàn)進(jìn)行了驗(yàn)證,結(jié)果表明:在作戰(zhàn)文書語料的開放測試中,該方法的MNEs識(shí)別召回率達(dá)到72%以上,準(zhǔn)確率達(dá)到85%以上,說明該方法具有良好的MNEs識(shí)別效果。由于該方法預(yù)處理環(huán)節(jié)使用的是通用分詞工具,使得在分詞過程中對軍事術(shù)語切分不準(zhǔn)確,甚至1個(gè)術(shù)語會(huì)有多種切分方式,在一定程度上影響了MNEs識(shí)別效果;此外,該方法僅使用了詞語、詞性和上下文作為識(shí)別特征,對MNEs的領(lǐng)域特征利用還不充分,在一定程度上也制約了MNEs識(shí)別效果的提高。為了進(jìn)一步提高M(jìn)NEs識(shí)別效果,下一步筆者將采取以下2項(xiàng)措施改進(jìn)本文方法:1)通過使用由軍事術(shù)語構(gòu)成的用戶詞典來提高原始語料的分詞精度,以改善詞語特征;2)通過引入領(lǐng)域規(guī)則和增加外部語義特征來提高不同MNEs之間的區(qū)分度。
[1] 王丹,樊興華.面向短文本的命名實(shí)體識(shí)別[J].計(jì)算機(jī)應(yīng)用,2009,29(1):143-145.
[2] 姜文志,顧佼佼,叢林虎.CRF與規(guī)則相結(jié)合的軍事命名實(shí)體識(shí)別研究[J].指揮控制與仿真,2011,33(8):13-15.
[3] 高強(qiáng),游宏梁.基于層疊模型的國防領(lǐng)域命名實(shí)體識(shí)別研究[J].現(xiàn)代圖書情報(bào)技術(shù),2012,28(11):47-51.
[4] 伊迪,周俊生,曲維光.基于聯(lián)合模型的中文嵌套命名實(shí)體識(shí)別[J].南京師大學(xué)報(bào)(自然科學(xué)版),2014,37(3):29-35.
[5] 鞠久朋,張偉偉,寧建軍,等.CRF與規(guī)則相結(jié)合的地理空間命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程,2011,37(7):210-212.
[6] 馮艷紅,于紅,孫庚,等.基于詞向量和條件隨機(jī)場的領(lǐng)域術(shù)語識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2016,36(11):3146-3151.
[7] 王春雨,王芳.基于條件隨機(jī)場的農(nóng)業(yè)命名實(shí)體識(shí)別研究[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2014,37(1):132-135.
[8] 俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J].通信學(xué)報(bào),2006,27(2):87-94.
[9] 姜文志,顧佼佼,胡文萱,等.基于多模型結(jié)合的軍事命名實(shí)體識(shí)別[J].兵工自動(dòng)化,2011,30(10):90-93.
[10] 萬靜,涂喆,馮曉.基于條件隨機(jī)場的醫(yī)藥領(lǐng)域癥狀信息抽取[J].北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,43(1):98-103.
[11] LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[EB/OL].[2016-09-10].http:∥angieyen.bol.ucla.edu/ie/articles/lafferty-crf%20probabilistc-2001.pdf.
[12] 施水才,王鍇,韓艷鏵,等.基于條件隨機(jī)場的領(lǐng)域術(shù)語識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):147-149.
[13] 張華平.ICTCLAS2013版 [EB/OL].(2013-11-05) [2016-06-10].http:∥ictclas.nlpir.org/.
[14] TAKU K.CRF++ Toolkit [EB/OL].(2003-01-06) [2016-09-10].http:∥crfpp.sourceforge.net/.
(責(zé)任編輯: 尚彩娟)
A Military Named Entity Recognition Method Based on CRFs with Small Granularity Strategy
SHAN He-yuan1,2,ZHANG Hai-su1,WU Zhao-lin1
(1.Department of Information Construction,PLA Academy of National Defense Information,Wuhan 430010,China;2.Information and Navigation College,Air Force Engineering University,Xi’an 710077,China)
The recognition of Military Named Entities (MNEs) is restrained by the complex nested relation of MNEs and obscure grammatical distinction.To resolve this problem,the authors put forward MNEs recognition method based on Conditional Random Fields (CRFs) model with small granularity strategy.The authors construct a marked corpus to train the model,and use the model to recognize small granularity MNEs which can’t be divided,then get the complete MNEs by composing small granularity MNEs.Finally,the method is verified by the experiment,the results show that the recall rate and the precise rate of MNEs recognition is 72% and 85% respectively in the open test of operational document corpus.
Conditional Random Fields (CRFs); Military Named Entities (MNEs); Named Entity Re-cognition (NER); small granularity strategy
1672-1497(2017)01-0084-06
2016-11-11
單赫源(1979-),男,博士研究生。
TP391.1
A
10.3969/j.issn.1672-1497.2017.01.018