游 飛,張 激,邱 定,于銘華
1(華東計(jì)算技術(shù)研究所 系統(tǒng)平臺(tái)部,上海 201808)2(華東計(jì)算技術(shù)研究所 總師辦,上海 201808)
科學(xué)技術(shù)的進(jìn)步推進(jìn)著軍事武器裝備的快速更迭,同時(shí)信息處理技術(shù)的快速發(fā)展,我軍的高度信息化時(shí)代正式到來(lái).在日常軍事訓(xùn)練和行動(dòng)中,產(chǎn)生了大量的以電子文本形式存在的信息.如何高效自動(dòng)化地處理這些海量的文本成為急需解決的問(wèn)題.
命名實(shí)體識(shí)別 (Named Entity Recognition,NER)已經(jīng)成為許多自然語(yǔ)言處理應(yīng)用的重要步驟,例如問(wèn)答系統(tǒng)、信息提取和機(jī)器翻譯[1],是自然語(yǔ)言處理中的一項(xiàng)重要的基礎(chǔ)工作.然而命名實(shí)體識(shí)別的效果受限于特定的領(lǐng)域和語(yǔ)言,這就需要為不同領(lǐng)域不同語(yǔ)言量身定制一套識(shí)別系統(tǒng).
命名實(shí)體識(shí)別最初是在第六屆MUC會(huì)議作為一個(gè)子任務(wù)提出的[2].命名實(shí)體識(shí)別的主要任務(wù)是識(shí)別文本中出現(xiàn)的專有名稱和數(shù)量短語(yǔ),并對(duì)其加以歸類.早期的命名實(shí)體基于字典和規(guī)則的方法識(shí)別,字典和規(guī)則的編寫(xiě)需要語(yǔ)言專家的參與,且不能完全覆蓋所有的實(shí)體.之后,人們開(kāi)始提出基于將統(tǒng)計(jì)的方法,統(tǒng)計(jì)的方法能夠有效的捕捉到命名實(shí)體的位置或特征現(xiàn)象,接著用維特比(Viterbi)算法求解最佳的狀態(tài)序列.基于統(tǒng)計(jì)方法的優(yōu)點(diǎn)是不需要豐富的語(yǔ)言學(xué)知識(shí)、可移植性較好,缺點(diǎn)是需要大量的人工進(jìn)行語(yǔ)料的標(biāo)注.基于統(tǒng)計(jì)方法主要的有:Bikel等人[3]最早將隱馬爾科夫(Hidden Markov Model,HMM)方法用于命名實(shí)體識(shí)別.Ratnaparkhi等人[4]提出最大熵 (Maximum Entropy,EM)模型用于語(yǔ)言分類的問(wèn)題.
中文的命名實(shí)體的研究緊跟其后,始于上世紀(jì)90年代初.由于語(yǔ)言的特性,中文的命名實(shí)體識(shí)別的難度較難,效果較差.命名實(shí)體識(shí)別任務(wù)中涉及到分詞和詞法分析等任務(wù),英文中詞的邊界明顯,詞性特性特征顯著,而中文中存在一詞多義,詞邊界模糊等現(xiàn)象.國(guó)內(nèi)的孫茂松等[5]較早地對(duì)中文人名進(jìn)行識(shí)別.俞鴻魁等[6]基于層疊隱馬爾科夫模型進(jìn)行中文命名實(shí)體識(shí)別,達(dá)到較高的識(shí)別準(zhǔn)確率.姜文志等[7]基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)和規(guī)則的方法對(duì)軍事命名實(shí)體進(jìn)行了識(shí)別.
最近,由于深度學(xué)習(xí)能夠從大量的無(wú)標(biāo)記的語(yǔ)料中學(xué)習(xí)特征,利用深度學(xué)習(xí)模型解決命名實(shí)體識(shí)別已經(jīng)成為的趨勢(shì)[8].深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)領(lǐng)域,它能夠通過(guò)構(gòu)造深度神經(jīng)網(wǎng)絡(luò) (Deep Neural Networks,DNN)模型學(xué)習(xí)高層的特征[9].Dr.Ronan Collobert等人[10]基于深度神經(jīng)模型處理詞性標(biāo)注、命名實(shí)體識(shí)別等問(wèn)題,并取得了當(dāng)時(shí)最好水平.
在軍事信息處理領(lǐng)域,軍事專有名詞的識(shí)別是非常重要的一項(xiàng)工作.目前許多軍事信息處理系統(tǒng)的實(shí)體基于字典、規(guī)則或統(tǒng)計(jì)的方法.本文主要研究詞的向量的表示和詞向量模型的訓(xùn)練,借鑒已有的深度神經(jīng)網(wǎng)絡(luò)模型,在訓(xùn)練集上訓(xùn)練模型,觀察不同參數(shù)下的測(cè)試結(jié)果.
深度神經(jīng)網(wǎng)絡(luò)從狹義上講是一個(gè)具有多層感知機(jī)模型,近些年深度神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用在自然語(yǔ)言處理的許多任務(wù)中并取得了顯著的效果,如:詞性標(biāo)注、命名實(shí)體識(shí)別、語(yǔ)塊識(shí)別等.本文基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建出武器名稱識(shí)別的模型.模型的結(jié)構(gòu)如圖1所示.底層是神經(jīng)網(wǎng)絡(luò)的輸入層,即連續(xù)化的詞向量窗口.由于模型的輸入是固定的格式,本文將固定維度的詞向量和詞性向量作為輸入,通過(guò)中間隱層的非線性變換,學(xué)習(xí)到高層的特征,即詞的上下文的特征,本文將詞對(duì)應(yīng)實(shí)體識(shí)別的四種狀態(tài),作為網(wǎng)絡(luò)模型的輸出.最后通過(guò)再結(jié)合訓(xùn)練集的狀態(tài)轉(zhuǎn)移概率求得句子的最佳標(biāo)注序列.
圖1 深度神經(jīng)網(wǎng)絡(luò)模型
將每個(gè)詞語(yǔ)表示成一個(gè)低維的實(shí)數(shù)向量,那么任意兩個(gè)詞語(yǔ)之間的距離可以用歐式距離表示.這種特征表示可以解決機(jī)器學(xué)習(xí)中維數(shù)災(zāi)難和局部泛化等問(wèn)題[10].與傳統(tǒng)的基于統(tǒng)計(jì)記錄上下特征的方法相比,它可以更好的捕捉到數(shù)據(jù)之間的固有聯(lián)系,而且不需要進(jìn)行人工標(biāo)注.
在基于基于詞向量特征的命名實(shí)體識(shí)別任務(wù)中,常把訓(xùn)練集的單詞W,表示為一個(gè)固定維度的列向量,作為深度神經(jīng)的輸入.該向量可以很好的表示句子信息和語(yǔ)義相似度.理想狀態(tài)下,DNN的輸入為若干詞語(yǔ)的存儲(chǔ)矩陣是一個(gè)詞語(yǔ)向量的維度,而W是領(lǐng)域詞語(yǔ)字典的大小.在命名實(shí)體識(shí)別任務(wù)中,當(dāng)前的句子能夠很好的體現(xiàn)的詞語(yǔ)之間的關(guān)聯(lián),而句子之間的詞語(yǔ)關(guān)聯(lián)較弱.因?yàn)镈NN模型的輸入是固定的格式,本文大小為W的窗口作為輸入,窗口中間是當(dāng)前詞為Mi,則它前后的(k-1/2)個(gè)詞語(yǔ)代表它的上下文,即為詞序?qū)τ谖挥诰淝昂途湮驳漠?dāng)前詞,本文動(dòng)窗口的前部或尾部做隨機(jī)填充處理,考慮到詞性在特定語(yǔ)言中有普遍的規(guī)律,本文選用參考北大計(jì)算所詞性標(biāo)注集簡(jiǎn)表,選用常用的詞性14個(gè),并將其他詞性視為統(tǒng)一詞性,將窗口中每個(gè)詞映射到15維的詞性向量中,并將詞性向量與詞向量拼接,即把這W個(gè)詞語(yǔ)的特征向量作為模型的輸入.
兩層隱藏層進(jìn)行非線性變換,變換后的窗口向量為:
對(duì)于軍事武器名稱識(shí)別任務(wù),在給定電子文本中,利用當(dāng)前詞語(yǔ)的上下文環(huán)境,識(shí)別該詞是否為武器名稱,故設(shè)計(jì)輸出層的節(jié)點(diǎn)個(gè)數(shù)為4,對(duì)應(yīng)詞語(yǔ)的四個(gè)狀態(tài)標(biāo)注值:集合中四種狀態(tài)的含義為:B代表該詞語(yǔ)為武器名稱的第一個(gè)詞,I代表武器名稱的中間詞,E代表武器名稱的尾部詞,O代表該詞語(yǔ)不是武器名稱.
輸出層的輸入來(lái)自上層隱藏層的輸出,該輸入為一個(gè)h3維的向量z,輸出層的非線性變換為為該層的變換矩陣,b4該層的偏置矩陣,h4為輸出層神經(jīng)單元的個(gè)數(shù).變換后得到一個(gè)沒(méi)有歸一化的h4維向量,本文用Softmax函數(shù)對(duì)其進(jìn)行歸一化處理,zi表示輸出向量的第i個(gè)值:
命名實(shí)體識(shí)別的輸出是一個(gè)狀態(tài)序列標(biāo)記的問(wèn)題.對(duì)于句子的一種標(biāo)記序列為在已知上下文得分和狀態(tài)轉(zhuǎn)移得分的情況下,計(jì)算最高得分的標(biāo)記路徑的問(wèn)題可以通過(guò)維特比(Viterbi)算法求解.算法的遞推關(guān)系如下.
正式啟動(dòng)并全面推進(jìn)漢江流域加快實(shí)施最嚴(yán)格水資源管理制度試點(diǎn)。分解落實(shí)漢江“三條紅線”、及時(shí)完善了漢江水量分配成果、提出了多種保護(hù)區(qū)劃分方案等,進(jìn)一步完善了漢江流域用水總量、用水效率控制指標(biāo)體系。組織完成了漢江、嘉陵江、岷江、沱江、赤水河水量分配方案,啟動(dòng)了金沙江、烏江、牛欄江河流水量分配方案工作。加強(qiáng)水功能區(qū)管理,積極推進(jìn)水功能區(qū)監(jiān)測(cè)、評(píng)估、考核與管理體系建設(shè)。編制完成了《南水北調(diào)中線一期工程水量調(diào)度方案》,完成了沙沱、魯?shù)乩?、瀑布溝?0個(gè)工程蓄水計(jì)劃和調(diào)度方案審查,加強(qiáng)了節(jié)水型社會(huì)建設(shè)。
初始化:
遞推關(guān)系:
式中λ為學(xué)習(xí)率,取其值為0.02.為下降的梯度,參數(shù)的估計(jì)采用最大似然估計(jì)的方法,即:
為了避免在訓(xùn)練過(guò)程中出現(xiàn)參數(shù)過(guò)擬合的發(fā)生,在模型的每層激活函數(shù)加入dropout正則化,dropout的參數(shù)設(shè)置為0.2.
在詞的向量表示部分,本文采用開(kāi)源工具包word2 vec,該工具實(shí)現(xiàn)了Mikolov等人提出的連續(xù)詞袋(constant bag of words)模型[11,12]的向量表示.該模型的訓(xùn)練語(yǔ)料來(lái)自搜狐實(shí)驗(yàn)室全網(wǎng)中文新聞數(shù)據(jù)(SogouCA)2012年6月至7月的語(yǔ)(http://www.Sogou.com/labs/resource/ca.php),大小共計(jì) 711MB.使用北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所的云分詞服務(wù)對(duì)該語(yǔ)料進(jìn)行分詞后,利用word2vec學(xué)習(xí)詞語(yǔ)的向量表示,詞向量的維度為100維至400維,步長(zhǎng)為60維.
由于目前沒(méi)有較權(quán)威開(kāi)放的中文軍事語(yǔ)料[13],本文爬取環(huán)球軍事網(wǎng)、中華網(wǎng)等軍事網(wǎng)站文章共7500篇,對(duì)武器名稱進(jìn)行標(biāo)注后作為實(shí)驗(yàn)語(yǔ)料,隨機(jī)抽取其中80%(6000篇文章)作為訓(xùn)練集,剩下的20%(1500篇文章)作為測(cè)試數(shù)據(jù).本實(shí)驗(yàn)設(shè)置3組實(shí)驗(yàn).
實(shí)驗(yàn)一.利用詞向量表示模型,對(duì)訓(xùn)練集進(jìn)行詞的向量表示,設(shè)置詞性向量維數(shù)為15,將其與詞向量拼接作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入.標(biāo)注推斷僅考慮詞的上下文得分.構(gòu)建并訓(xùn)練4層神經(jīng)網(wǎng)絡(luò)模型,各層神經(jīng)單元個(gè)數(shù)為 250,150,100,4.在詞向量的維度訓(xùn)練上,設(shè)置維度在100至400之間,步長(zhǎng)為60,觀測(cè)試驗(yàn)結(jié)果.
實(shí)驗(yàn)二.利用詞向量表示模型,對(duì)訓(xùn)練集進(jìn)行詞的向量表示.設(shè)置詞性向量維數(shù)為15,將其與詞向量拼接作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入.標(biāo)注推斷僅考慮詞的上下文得分.構(gòu)建并訓(xùn)練5層神經(jīng)網(wǎng)絡(luò)模型,各層神經(jīng)單元個(gè)數(shù)為 250,200,150,100,4.設(shè)置詞向量的維度為280,觀測(cè)試驗(yàn)結(jié)果.
實(shí)驗(yàn)三.利用詞向量表示模型,對(duì)訓(xùn)練集進(jìn)行詞的向量表示.設(shè)置詞性向量維數(shù)為15,將其與詞向量拼接作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入.標(biāo)注推斷結(jié)合詞的上下文得分和狀態(tài)轉(zhuǎn)移得分.構(gòu)建并訓(xùn)練5層神經(jīng)網(wǎng)絡(luò)模型,各層神經(jīng)單元個(gè)數(shù)為 250,200,150,100,4.設(shè)置詞向量的維度為280,觀測(cè)試驗(yàn)結(jié)果.
本實(shí)驗(yàn)以F-1值作為實(shí)驗(yàn)評(píng)判標(biāo)準(zhǔn)準(zhǔn)確F-1值表示如下:
對(duì)三組實(shí)驗(yàn)結(jié)果做如下分析.
圖2表示詞向量維數(shù)的增加,F-1值的變化情況.在維度為100至400之間,F-1值緩慢上升.在維度為 280 時(shí)達(dá)到最大,為 0.9021,在 340 維度時(shí),有所下降.這說(shuō)明詞向量的維度不是越大越好,它存在局部最優(yōu)值,這可能與文本長(zhǎng)度和文本詞語(yǔ)分布有關(guān).
圖2 不同緯度下 F-1 值的分布
在詞向量表示的最優(yōu)維度(280維)的情況下,表1是三組不同實(shí)驗(yàn)情況下的F-1值.試驗(yàn)二的F-1值為0.9076,較實(shí)驗(yàn)一(280維)的識(shí)別效果提升了0.609%,說(shuō)明增加一層隱層捕獲了更多的特征信息.實(shí)驗(yàn)三的F-1值為0.9102,較實(shí)驗(yàn)二的識(shí)別效果提升了0.396%,說(shuō)明融合狀態(tài)的轉(zhuǎn)移得分,可以提升命名實(shí)體的性能.
表1 三組試驗(yàn)結(jié)果 F-1 值
我國(guó)擁有漫長(zhǎng)的國(guó)界線和海岸線,提升軍事信息智能處理能力具有重要的戰(zhàn)略意義.命名實(shí)體識(shí)別作為自然語(yǔ)言處理的重要一環(huán),是軍事信息化建設(shè)上的基礎(chǔ),如智能問(wèn)答、信息提取、輿情分析等.本文針對(duì)軍事文本中常出現(xiàn)的幾類武器名詞,提出了基于詞向量特征利用深度神經(jīng)網(wǎng)絡(luò)模型,再融合詞性和狀態(tài)轉(zhuǎn)移得分的特征,在測(cè)試數(shù)據(jù)集上達(dá)到0.9102的識(shí)別精準(zhǔn)度.
由于實(shí)驗(yàn)基于移動(dòng)窗口來(lái)代表詞語(yǔ)的前后文,移動(dòng)窗口不能捕獲詞語(yǔ)在句子中的特征.下一步待改進(jìn)的是如何捕獲基于語(yǔ)義的特征,以及如何減少深層網(wǎng)絡(luò)的訓(xùn)練時(shí)間.
1 McCallum A,Li W. Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons. Proceedings of the Seventh Conference on Natural Language Learning at Hlt-Naacl.Edmonton,Canada.2003.188–191.
2 Grishman R,Sundheim B. Message understanding conference-6:A brief history. Proceedings of the 16th Conference on Computational Linguistics. Copenhagen,Denmark.1996.466–471.
3 Bikel DM,Schwartz R,Weischedel RM.An algorithm that learns what’s in a name.Machine Learning,1999,34(1-3):211–231.
4 Ratnaparkhi A.A simple introduction to maximum entropy models for natural language processing. IRCS Technical Reports.Pennsylvania:University of Pennsylvania,1997.
5 孫茂松,黃昌寧,高海燕,等.中文姓名的自動(dòng)辨識(shí).中文信息學(xué)報(bào),1995,9(2):16–27.
6 俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別.通信學(xué)報(bào),2006,27(2):87–94.
7 姜文志,顧佼佼,叢林虎.CRF與規(guī)則相結(jié)合的軍事命名實(shí)體識(shí)別研究.指揮控制與仿真,2011,33(4):13–15.
8 Collobert R,Weston J,Bottou L,et al.Natural language processing (Almost)from scratch.The Journal of Machine Learning Research,2011,12(1):2493–2537.
9 Hinton GE,Salakhutdinov RR.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504–507.[doi:10.1126/science.1127647]
10 Mansur M,Pei W,Chang B.Feature-based neural language model and chinese word segmentation.Proceedings of the 6th International Joint Conference on Natural Language Processing.Nagoya,Japan,2013:1271–1277.
11 Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space. Computer Science,2013.
12 Mikolov T,Sutskever I,Chen K,et al. Distributed representations of words and phrases and their compositionality.Advances in Neural Information Processing Systems,2013,(26):3111–3119.
13 馮蘊(yùn)天,張宏軍,郝文寧.面向軍事文本的命名實(shí)體識(shí)別.計(jì)算機(jī)科學(xué),2015,42(7):15–18.[doi:10.11896/j.issn.1002-137X.2015.07.004]