薛亮 周游
(中國(guó)人民解放軍91977部隊(duì) 北京100000)
在軍事活動(dòng)中,全面、準(zhǔn)確掌握信息,并對(duì)信息進(jìn)行準(zhǔn)確快速的分析非常重要。本文基于艦船知識(shí)圖譜,采用知識(shí)圖譜技術(shù)實(shí)現(xiàn)艦船信息分析識(shí)別。知識(shí)圖譜技術(shù)作為新興的信息識(shí)別分析技術(shù),有助于用戶快速準(zhǔn)確獲得知識(shí)。
根據(jù)面向的知識(shí)領(lǐng)域不同,基于知識(shí)圖譜的信息分析識(shí)別系統(tǒng)分為面向開(kāi)放領(lǐng)域的信息分析識(shí)別系統(tǒng)[1~3]和面向特定領(lǐng)域的信息分析識(shí)別系統(tǒng)。面向特定領(lǐng)域的信息分析識(shí)別系統(tǒng)擁有更加深入和準(zhǔn)確的領(lǐng)域知識(shí),適用于特定領(lǐng)域的問(wèn)題,相較于普適性的面向開(kāi)放領(lǐng)域的信息分析識(shí)別系統(tǒng)更具有研究意義和實(shí)用性。本文將艦船領(lǐng)域作為所研究的特定領(lǐng)域,基于艦船知識(shí)圖譜,對(duì)信息分析識(shí)別技術(shù)[4]進(jìn)行研究,實(shí)現(xiàn)自動(dòng)化軍事信息系統(tǒng),幫助艦員快速獲取艦船相關(guān)信息。信息識(shí)別分析常用的方法有基于語(yǔ)義解析的方法(Semantic Pars?ing-based methods)[5~9]和基于信息檢索的方法(In?formation retrieve-based methods)[10~14],當(dāng)前主流的處理方法是將過(guò)程分為命名實(shí)體識(shí)別、屬性映射和答案選擇三個(gè)步驟。命名實(shí)體識(shí)別找出自然語(yǔ)句中的命名實(shí)體,屬性映射找到問(wèn)句詢問(wèn)的屬性,答案選擇結(jié)合前兩步的結(jié)果查詢知識(shí)圖譜獲得問(wèn)句答案。命名實(shí)體識(shí)別和屬性映射的結(jié)果決定了答案選擇的結(jié)果,故提高命名實(shí)體識(shí)別和屬性映射準(zhǔn)確率是知識(shí)庫(kù)問(wèn)答的主要研究點(diǎn)。
命名實(shí)體識(shí)別問(wèn)題的經(jīng)典模型為CRF模型,屬性映射問(wèn)題可以轉(zhuǎn)化為相似度計(jì)算問(wèn)題,經(jīng)典模型為Siamese網(wǎng)絡(luò),本文為這兩個(gè)經(jīng)典模型分別引入BERT[15]+Bi-LSTM[16]機(jī)制,以期對(duì)兩個(gè)模型的正確率有所提高,進(jìn)而提升信息識(shí)別分析系統(tǒng)的效果。
本文主要對(duì)信息識(shí)別分析系統(tǒng)的命名實(shí)體識(shí)別和屬性映射模型進(jìn)行研究,以下對(duì)這兩個(gè)模型進(jìn)行介紹。
信息識(shí)別分析的命名實(shí)體識(shí)別任務(wù)是指將自然語(yǔ)言問(wèn)句中的主要命名實(shí)體識(shí)別出來(lái),以作為在知識(shí)庫(kù)中進(jìn)行搜索的實(shí)體。實(shí)體識(shí)別任務(wù)往往被轉(zhuǎn)化為序列標(biāo)注任務(wù)。中文自然語(yǔ)言處理的基本單位一般是經(jīng)過(guò)分詞后的中文詞語(yǔ)或者漢字字符。為了避免分詞結(jié)果對(duì)后續(xù)結(jié)果產(chǎn)生影響,本文不對(duì)問(wèn)句進(jìn)行分詞處理,直接將漢字字符作為輸入。
命名實(shí)體識(shí)別任務(wù)是指對(duì)于中文句子X(jué)={x1,x2,…,xt},訓(xùn)練一個(gè)模型,由該模型判斷X中每個(gè)中文字符對(duì)應(yīng)的標(biāo)簽,得到標(biāo)簽序列Y={y1,y2,…,yt}。
命名實(shí)體識(shí)別任務(wù)的經(jīng)典模型是CRF模型,本文在經(jīng)典模型的基礎(chǔ)上引入BERT+Bi-LSTM機(jī)制,對(duì)其進(jìn)行改進(jìn)。具體模型如圖1所示,由BERT特征表示層、Bi-LSTM層和CRF層組成。
圖1 命名實(shí)體識(shí)別模型
特征表示層使用BERT模型在大規(guī)模語(yǔ)料上進(jìn)行預(yù)訓(xùn)練,得到漢字在多維空間的映射。Bi-LSTM層利用本身的優(yōu)勢(shì),捕獲語(yǔ)句的上下文信息,為字向量加入更多信息。CRF層對(duì)序列進(jìn)行標(biāo)注,利用相鄰標(biāo)簽之間的影響,在句子程度上最優(yōu)化句子中每個(gè)字的標(biāo)簽。
對(duì)于預(yù)測(cè)的標(biāo)簽序列y={ y1,y2,…,yt},CRF模型對(duì)其進(jìn)行評(píng)分。評(píng)分依據(jù)是Bi-LSTM層的輸出和標(biāo)簽間的狀態(tài)轉(zhuǎn)移概率。評(píng)分函數(shù)為
其中,矩陣P取決于Bi-LSTM層的輸出,矩陣A是由標(biāo)簽間的狀態(tài)轉(zhuǎn)移概率組成的矩陣,Ai,j代表標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的概率。
輸入為x時(shí)的正確標(biāo)簽序列y的條件概率用softmax函數(shù)計(jì)算:
其中,yx是對(duì)應(yīng)輸入x的所有可能的標(biāo)簽序列組合。
模型訓(xùn)練時(shí),優(yōu)化函數(shù)采用最大化似然函數(shù):
模型在預(yù)測(cè)最優(yōu)標(biāo)簽序列采用Viterbi算法:
信息識(shí)別分析的屬性映射任務(wù)是指從候選屬性集中選取出與不包含命名實(shí)體的問(wèn)句匹配度最高的屬性。屬性映射任務(wù)最主要的問(wèn)題是自然語(yǔ)言與屬性之間的語(yǔ)義鴻溝。如何找到與自然語(yǔ)言最匹配的屬性是該任務(wù)的關(guān)鍵。目前的主流解決方法是計(jì)算問(wèn)句和屬性之間的相似度。這種解決方法使屬性映射任務(wù)最核心的研究?jī)?nèi)容轉(zhuǎn)變成問(wèn)句和屬性的向量表征和向量之間的相似度計(jì)算。
向量相似度計(jì)算問(wèn)題較為有效的模型是Sia?mese網(wǎng)絡(luò)。本文在此模型上添加BERT、Bi-LSTM,以期使問(wèn)句和屬性的向量表征更加準(zhǔn)確,包含更多語(yǔ)義信息。具體模型如圖2所示,由BERT特征表示層、Bi-LSTM層和CRF層組成。
圖2 屬性映射模型
候選屬性集由問(wèn)句中實(shí)體相關(guān)的所有屬性組成,對(duì)應(yīng)問(wèn)句中詢問(wèn)的內(nèi)容,與命名實(shí)體無(wú)關(guān),因此在對(duì)問(wèn)句做特征表示時(shí)不包含命名實(shí)體部分。BERT表征和Bi-LSTM編碼過(guò)程與命名實(shí)體識(shí)別模型類似,不做贅述。相似度計(jì)算的輸入為經(jīng)過(guò)BERT和Bi-LSTM處理后得到的問(wèn)句語(yǔ)義向量和屬性語(yǔ)義向量,對(duì)二者進(jìn)行余弦相似度計(jì)算,衡量其相似度。余弦相似度計(jì)算公式如下:
實(shí)驗(yàn)選用艦船領(lǐng)域知識(shí)圖譜作為知識(shí)庫(kù),其中包含219個(gè)實(shí)體,34個(gè)屬性以及4501個(gè)三元組。知識(shí)庫(kù)三元組的形式為<實(shí)體,屬性,屬性值>。圖3展示了艦船領(lǐng)域知識(shí)圖譜的部分?jǐn)?shù)據(jù)。
圖3 局部艦船知識(shí)圖譜
將每個(gè)三元組改寫成一個(gè)問(wèn)句,其頭實(shí)體為問(wèn)句中的命名實(shí)體,屬性為問(wèn)句的屬性,尾實(shí)體為問(wèn)題的答案。對(duì)問(wèn)題進(jìn)行BIO實(shí)體標(biāo)注。完成實(shí)體標(biāo)注的問(wèn)句作為命名實(shí)體識(shí)別的實(shí)驗(yàn)數(shù)據(jù)。在實(shí)體識(shí)別數(shù)據(jù)集上,將問(wèn)句中標(biāo)注為命名實(shí)體的部分刪除,即可得到問(wèn)句的屬性。將去除掉命名實(shí)體的問(wèn)句作為屬性映射的實(shí)驗(yàn)數(shù)據(jù)。以9∶1的比例將問(wèn)句分為訓(xùn)練集和測(cè)試集。
本文選取命名實(shí)體識(shí)別和屬性映射部分得分最高的候選項(xiàng)作為預(yù)測(cè)結(jié)果。對(duì)某一個(gè)特定問(wèn)題,預(yù)測(cè)一個(gè)命名實(shí)體和一個(gè)屬性,進(jìn)而通過(guò)在知識(shí)庫(kù)中查詢命名實(shí)體和屬性得到問(wèn)題的唯一答案。模型是否有效,取決于模型得到的答案與問(wèn)題實(shí)際答案是否相符。若相符,則模型預(yù)測(cè)正確,否則預(yù)測(cè)不正確。因此,對(duì)于本文模型的效果評(píng)估采用準(zhǔn)確率作為指標(biāo)。命名實(shí)體識(shí)別、屬性映射和最終答案預(yù)測(cè)都有各自的準(zhǔn)確率。根據(jù)這三個(gè)準(zhǔn)確率可以完成對(duì)模型的評(píng)估。準(zhǔn)確率計(jì)算公式為
命名實(shí)體識(shí)別對(duì)比模型如下。
1)CNN+CRF:Collobert等[14]提出的模型,該模型采用CNN獲取語(yǔ)義信息,CRF進(jìn)行標(biāo)簽預(yù)測(cè)。
2)Bi-LSTM+CRF:Lample等[15]提出的模型,該模型基于Bi-LSTM和CRF完成實(shí)體識(shí)別任務(wù)。
3)Bi-LSTM+CNN:Chiu等[16]提出的模型,該將字符級(jí)別的特征和詞級(jí)別的特征通過(guò)CNN結(jié)合,然后基于結(jié)合后的特征,運(yùn)用雙向LSTM進(jìn)行命名實(shí)體識(shí)別。
4)CNN+CNN+LSTM:Shen等[17]提出的模型,該模型對(duì)字符和單詞進(jìn)行卷積編碼,對(duì)編碼后的特征利用LSTM進(jìn)行標(biāo)簽解碼。
5)BERT+Bi-LSTM+CRF:本文提出的模型,本模型基于BERT預(yù)訓(xùn)練字向量進(jìn)行文本向量表征,利用Bi-LSTM和CRF進(jìn)行命名實(shí)體識(shí)別。
屬性映射對(duì)比模型如下:
1)Word2Vec+Bi-LSTM:使用Word2Vec模型訓(xùn)練詞向量,使用Bi-LSTM獲取文本高級(jí)特征。
2)Siamese+Word2Vec+Bi-LSTM:使用Word2Vec模型訓(xùn)練詞向量,使用Bi-LSTM獲取文本高級(jí)特征,使用Siamese結(jié)構(gòu)獲取特征相似性。
3)BERT+Bi-LSTM:使用BERT訓(xùn)練字向量,使用Bi-LSTM獲取文本高級(jí)特征。
4)Siamese+BERT+Bi-LSTM:本文采用的模型,使用BERT訓(xùn)練字向量,使用Bi-LSTM獲取文本高級(jí)特征,使用Siamese結(jié)構(gòu)獲取特征相似性。
實(shí)驗(yàn)結(jié)果如表1、表2所示。
表1 命名實(shí)體識(shí)別準(zhǔn)確率
本文提出的命名實(shí)體識(shí)別模型在訓(xùn)練集和測(cè)試集上分別取得了91.58%和90.24%的準(zhǔn)確率,優(yōu)于其他對(duì)比模型;屬性映射模型在訓(xùn)練集和測(cè)試集上分別取得了89.65%和87.36%的成績(jī),同樣優(yōu)于其他對(duì)比模型。由對(duì)比試驗(yàn)結(jié)果可知,對(duì)自然語(yǔ)言進(jìn)行向量表征時(shí)引入BERT和Bi-LSTN有利于獲取更多語(yǔ)義信息,更好地構(gòu)建多維向量。
信息分析識(shí)別系統(tǒng)最終在命名實(shí)體識(shí)別和屬性映射的基礎(chǔ)上進(jìn)行答案選擇。將命名實(shí)體識(shí)別的結(jié)果作為頭實(shí)體,屬性映射的結(jié)果作為屬性,查詢知識(shí)圖譜得到尾實(shí)體,將尾實(shí)體作為問(wèn)句的最終答案。將尾實(shí)體與標(biāo)準(zhǔn)答案進(jìn)行對(duì)比,得到正確率為78.93%。最終答案選擇的準(zhǔn)確率遠(yuǎn)低于命名實(shí)體識(shí)別和屬性映射各自的準(zhǔn)確率,原因是前兩步的結(jié)果共同決定了最終答案,需要兩步均得到正確結(jié)果的最終結(jié)果才是正確的,錯(cuò)誤累加會(huì)使準(zhǔn)確率進(jìn)一步降低。
本文對(duì)基于艦船知識(shí)圖譜的艦船信息分析識(shí)別技術(shù)進(jìn)行了研究,提出了基于BERT+Bi-LSTM+CRF的命名實(shí)體識(shí)別技術(shù)和基于Siamese+BERT+Bi-LSTM的屬性映射技術(shù)的信息分析識(shí)別模型。在艦船領(lǐng)域知識(shí)圖譜上進(jìn)行的仿真實(shí)驗(yàn)表明,本文提出的模型可以達(dá)到較高的準(zhǔn)確率。