姜麗婷,古麗拉·阿東別克,馬雅靜
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046;2. 新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊830046;3. 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心 哈薩克和柯?tīng)柨俗握Z(yǔ)文基地,新疆 烏魯木齊830046)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展與普及,網(wǎng)絡(luò)文本呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì),大量短文本、不規(guī)范的實(shí)體命名以及實(shí)體上下文短缺給實(shí)體消歧帶來(lái)了巨大的挑戰(zhàn)。實(shí)體消歧的結(jié)果對(duì)信息檢索[1]、智能問(wèn)答[2]等一系列自然語(yǔ)言處理任務(wù)具有重要意義。因此,如何在面臨上述困難的情況下取得較好實(shí)體消歧結(jié)果備受科研者關(guān)注。
實(shí)體消歧(Entity Disambiguation,ED)是將自然語(yǔ)言文本中存在歧義的實(shí)體正確地連接到外部知識(shí)庫(kù)的工程。目前的實(shí)體消歧任務(wù)分為兩種類型: 基于聚類的實(shí)體消歧方法和基于實(shí)體鏈接的實(shí)體消歧方法[3]?;诰垲惖姆椒鎸?duì)的是目標(biāo)實(shí)體列表沒(méi)有給定的情況,而基于實(shí)體鏈接的方法可以將待消歧的實(shí)體映射到外部知識(shí)庫(kù)對(duì)應(yīng)的候選實(shí)體集合中,本文主要針對(duì)后者進(jìn)行研究。
隨著后續(xù)智能問(wèn)答等任務(wù)對(duì)知識(shí)圖譜的要求越來(lái)越高,單靠早期的實(shí)體聚類消歧已經(jīng)不能滿足任務(wù)的需要,現(xiàn)在的主流方法是實(shí)體鏈接消歧。實(shí)體鏈接消歧的本質(zhì)是計(jì)算實(shí)體指稱項(xiàng)與候選實(shí)體的相似度,選擇相似度最大的候選實(shí)體作為鏈接的目標(biāo)實(shí)體[4]。郭劍毅等[5]提出融合詞向量和主題模型的領(lǐng)域?qū)嶓w消歧方法,結(jié)合文檔全局上下文信息和文檔局部上下文信息,分別計(jì)算上下文相似度、類別指稱相似度、領(lǐng)域主題關(guān)鍵字相似度,并進(jìn)行融合,選擇相似度高的作為消歧結(jié)果。楊曉等[6]結(jié)合LDA(Latent Dirichlet Allocation)主題模型和局部社區(qū)發(fā)現(xiàn)思想提出了一種改進(jìn)的命名實(shí)體消歧方法,使用LDA主題模型計(jì)算候選實(shí)體間的語(yǔ)義相關(guān)度,其次使用PageRank算法,高效地使用尋找最優(yōu)子圖作為消歧結(jié)果。
目前,深度學(xué)習(xí)蓬勃發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等方法被用于實(shí)體消歧任務(wù)中,但仍存在一些問(wèn)題: ①上下文文本特征提取不充分; ②語(yǔ)義信息獲取的較少。
針對(duì)以上問(wèn)題,本文提出了一個(gè)新的模型,混合卷積網(wǎng)絡(luò)(Mixed Convolution Network,MCN)。首先從知識(shí)庫(kù)中獲取待消歧實(shí)體的候選實(shí)體集,并進(jìn)行一一拼接,用來(lái)擴(kuò)展句子信息;使用BERT模型進(jìn)行特征提取,并將特征輸入到注意力機(jī)制中,使得各個(gè)特征更加明顯。與此同時(shí),構(gòu)建短文本的依存樹(shù),獲得鄰接矩陣,將特征分別輸入到CNN與GCN模型中,提取文本特征與語(yǔ)義特征,最后,將二者獲得的語(yǔ)義特征進(jìn)行融合,完成消歧任務(wù)。
利用深度學(xué)習(xí)方法進(jìn)行自然語(yǔ)言處理時(shí),需要將文本表示為向量的形式,作為神經(jīng)網(wǎng)絡(luò)模型的輸入。
實(shí)體消歧任務(wù)主要是根據(jù)上下文解決句子中含有歧義的實(shí)體具體指代的問(wèn)題,有些詞向量表示方法并不能體現(xiàn)一詞多意的問(wèn)題,例如,Word2Vec,故本文使用Google提出的BERT模型[7]進(jìn)行特征提取。BERT模型采用的是雙向Transformer模型的Encoder作為特征提取器,在實(shí)體消歧任務(wù)中將文本進(jìn)行向量化表示。采用前向和后向訓(xùn)練模型對(duì)短文本的語(yǔ)義理解會(huì)更加深刻,可以提取到隱藏的深層語(yǔ)義信息,最大程度為短文本實(shí)體消歧任務(wù)的完成提供充分的語(yǔ)義信息。相較于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),該模型可以捕獲待消歧實(shí)體上下文中更長(zhǎng)距離的語(yǔ)義依賴,比RNN更高效。 BERT 使用了兩種策略, 分 別是Masked LM (MLM)和Next Sentence Prediction (NSP)。本文通過(guò)NSP策略的啟發(fā),將待消歧實(shí)體與候選實(shí)體集結(jié)合作為整體模型的輸入。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks),是深度學(xué)習(xí)(Deep Learning)的代表算法之一[8-9]。其主要思想有局部感受野(Local Receptive Fields)、權(quán)值共享(Shared Weights)和池化(Pooling),受生物自然視覺(jué)認(rèn)知機(jī)制啟發(fā)而來(lái),最早由LeCun等人[10]提出并應(yīng)用在手寫(xiě)字體識(shí)別任務(wù)中(MINST),并且現(xiàn)在被廣泛用于自然語(yǔ)言處理中,結(jié)果顯示其性能不亞于RNN。
在短文本實(shí)體消歧任務(wù)中,CNN通過(guò)卷積核在文本中進(jìn)行一維的滑動(dòng)來(lái)提取句子中的局部特征信息。因?yàn)槲谋鹃L(zhǎng)度較短,且待消歧實(shí)體與其周?chē)脑~一般是高度相關(guān)的,所以卷積后包含的局部特征中,不僅包含詞本身所具有的特征,還包含了上下文詞的特征信息。其次,使用不同滑動(dòng)窗口對(duì)文本進(jìn)行卷積操作,可以獲得圍繞待消歧實(shí)體詞的不同的特征,將這些特征融合后可以得到更全面的局部語(yǔ)義特征,對(duì)實(shí)體消歧任務(wù)而言,可以更加準(zhǔn)確地判別出實(shí)體所指含義。
在完成特征的提取之后,還需要對(duì)卷積后的結(jié)果進(jìn)行進(jìn)一步的篩選,篩選得到對(duì)實(shí)體消歧任務(wù)更有用的語(yǔ)義特征。這一操作被稱之為池化(pooling),常見(jiàn)的pooling有兩種,分別為最大池化(max pooling)和平均池化(mean pooling)。
(1)
(2)
其中,L0=X。
Attention 機(jī)制最早被應(yīng)用在計(jì)算機(jī)視覺(jué)領(lǐng)域中,隨后,該機(jī)制[16]及其變體[17]被廣泛應(yīng)用到了NLP任務(wù)中。注意力機(jī)制(Attention) 首先需要產(chǎn)生查詢向量(Query,Q)、鍵向量(Key,K) 和值向量(Value,V),上述三個(gè)向量決定最終的注意力權(quán)重。
第一步是將Query和每個(gè)Key進(jìn)行相似度計(jì)算得到權(quán)重;第二步一般是使用softmax 函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化處理;最后將權(quán)重和相應(yīng)的鍵值Value 進(jìn)行加權(quán)求和, 得到最后的 Attention, 如式(3)所示。
(3)
其中,Q為Query,K為Key,V為Value。當(dāng)dk較小時(shí),乘法注意力和加法注意力效果相差無(wú)幾,但是當(dāng)dk比較大時(shí),如果不使用scale factor,則加法注意力效果好,因?yàn)槌朔ńY(jié)果比較大,容易進(jìn)入softmax函數(shù)的“飽和區(qū)”,梯度較小。其結(jié)構(gòu)如圖1所示。
圖1 注意力機(jī)制結(jié)構(gòu)圖
本文將注意力機(jī)制引入實(shí)體消歧模型是為了將BERT模型產(chǎn)生的詞向量進(jìn)行篩選。短文本中蘊(yùn)含的主要信息是有限的,注意力機(jī)制可以將文本中對(duì)于判別實(shí)體屬于具體指代的詞給予較高的權(quán)重,同時(shí)對(duì)與實(shí)體消歧任務(wù)影響較小的詞賦予較低的權(quán)重。從眾多信息中選擇對(duì)實(shí)體消歧任務(wù)更關(guān)鍵的信息可以使得后續(xù)模型更好地學(xué)習(xí)特征,從而訓(xùn)練出分類準(zhǔn)確率較高的分類器。
短文本具有口語(yǔ)化嚴(yán)重、上下文語(yǔ)義信息不充足的特點(diǎn),這些特點(diǎn)使得實(shí)體消歧任務(wù)在短文本領(lǐng)域面臨著巨大挑戰(zhàn)。為了解決上述問(wèn)題,本文使用BERT進(jìn)行特征提取,并結(jié)合自注意力機(jī)制、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)提出了短文本實(shí)體消歧方法。利用該方法可以提取到更加充分的文本特征,采用卷積神經(jīng)網(wǎng)絡(luò)提取文本向量的局部特征,圖卷積神經(jīng)網(wǎng)絡(luò)提取文本的語(yǔ)義、語(yǔ)法依存特征,融合二者捕獲的語(yǔ)義特征,并通過(guò)全連接層完成實(shí)體消歧任務(wù)。全連接層使用ReLU激活函數(shù),通過(guò)加入ReLU層加速隨機(jī)梯度下降的收斂速度[18],其模型如圖2所示。
圖2 實(shí)體消歧模型
給定一條文本=(w1,w2,…,wn)作為輸入的短文本,實(shí)體消歧就是對(duì)短文本中第i個(gè)實(shí)體以及上下文進(jìn)行特征提取,同時(shí)與外部知識(shí)庫(kù)中的每個(gè)候選實(shí)體進(jìn)行匹配,以此來(lái)判斷短文本中的實(shí)體屬于什么類型。實(shí)體消歧的本質(zhì)在于消解一個(gè)詞在不同語(yǔ)境環(huán)境下的不同含義。例如,“這家果園的蘋(píng)果真的是太好吃了,又脆又甜”,該句中的“蘋(píng)果”是一種水果,而不是手機(jī)生產(chǎn)公司的蘋(píng)果。
由于深度學(xué)習(xí)模型無(wú)法直接對(duì)文字進(jìn)行處理,就需要先對(duì)文本進(jìn)行向量化表示。最初使用one-hot表示方法將文本轉(zhuǎn)化為可計(jì)算的數(shù)值。后來(lái)出現(xiàn)了分布式表征,如Word2Vec。Word2Vec 是Google于2013年開(kāi)源推出的一個(gè)用于獲取詞向量的工具包,因其簡(jiǎn)單、高效而引起了諸多關(guān)注。Word2Vec 就是把單詞轉(zhuǎn)換成向量。其本質(zhì)上是一種單詞聚類的方法,作為實(shí)現(xiàn)單詞語(yǔ)義推測(cè)、句子情感分析等的一種手段。Word2Vec主要有兩種方法: CBOW(通過(guò)附近詞預(yù)測(cè)中心詞)、Skip-gram(通過(guò)中心詞預(yù)測(cè)附近詞)。由于短文本能提供的上下文語(yǔ)義信息十分有限,并且Word2vec產(chǎn)生的詞向量是靜態(tài)的,并不能體現(xiàn)詞在不同語(yǔ)境下含義的特殊性,所以在實(shí)體消歧任務(wù)中,采用Word2vec技術(shù)生成的詞向量取得的精度有限,這一點(diǎn)在本文3.4節(jié)中得到了驗(yàn)證。所以采用Google提出的BERT模型進(jìn)行特征提取,將一個(gè)句子輸入到BERT模型,經(jīng)過(guò)BERT模型的特征提取及語(yǔ)義推理,輸出這條句子的表示,表示為一個(gè)向量,將向量作為輸入,傳遞給后續(xù)模型。BERT模型采用Transformer的Encoder結(jié)構(gòu)[17],通過(guò)多頭注意力機(jī)制生成的詞向量能體現(xiàn)詞在當(dāng)前句子中的特定語(yǔ)義。
本文提出MCN模型,將卷積神經(jīng)網(wǎng)絡(luò)與圖卷積網(wǎng)絡(luò)并行結(jié)合。因數(shù)據(jù)屬于短文本范疇,特征詞少,詞頻、詞共現(xiàn)頻率等信息不能得到充分利用,往往會(huì)丟失詞語(yǔ)間潛在的語(yǔ)義關(guān)聯(lián)關(guān)系,并且文本形式不規(guī)范,導(dǎo)致傳統(tǒng)的文本預(yù)處理和文本表示方法不夠準(zhǔn)確。為了獲取更多的短文本上下文語(yǔ)義信息,使得實(shí)體周?chē)纳舷挛恼Z(yǔ)義更加突出,本文將知識(shí)庫(kù)中的候選實(shí)體集取出,與待消歧文本進(jìn)行拼接作為一個(gè)句子,作為整個(gè)模型的輸入。獲得文本之后,采用BERT模型構(gòu)建表示向量,如式(4)所示。
S= (s1,s2,…,sm,w1,w2,…,wn)
(4)
其中,s1,s2,…,sm表示待消歧文本向量,w1,w2,…,wn表示候選實(shí)體文本向量。與此同時(shí),使用原始文本進(jìn)行依存樹(shù)的構(gòu)建,獲得文本的鄰接矩陣,依存關(guān)系如圖3所示。
圖3 依存關(guān)系
模型分兩部分同時(shí)進(jìn)行,第一部分將通過(guò)自注意力機(jī)制的文本向量輸入卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,分別使用大小為(3,4,5)的卷積核進(jìn)行卷積,將卷積的結(jié)果分別進(jìn)行最大池化和均值池化,并以拼接的方式融合提取到的語(yǔ)義信息。這樣做的目的是減小特征提取的誤差,使得特征更加抽象且明顯,其結(jié)合如式(5)所示。
s=concat_x⊕concat_y
(5)
其中,concat_x為最大池化結(jié)果concat_y為平均池化結(jié)果。
第二部分將文本向量與鄰接矩陣結(jié)合作為圖卷積網(wǎng)絡(luò)(GCN)的輸入,通過(guò)兩層GCN獲取文本的語(yǔ)義依賴信息,將卷積神經(jīng)網(wǎng)絡(luò)與圖卷積網(wǎng)絡(luò)提取的特征結(jié)合,經(jīng)過(guò)一個(gè)全連接層,最后采用sigmoid激活函數(shù)進(jìn)行分類。
本文使用梯度下降優(yōu)化算法Adam進(jìn)行模型訓(xùn)練,損失函數(shù)為最小化交叉熵,使用線性模型正則化中的Early Stopping方法解決過(guò)擬合問(wèn)題,來(lái)降低每個(gè)參數(shù)的有效規(guī)模。其中,Early Stopping是在訓(xùn)練中計(jì)算模型在驗(yàn)證集上的表現(xiàn),當(dāng)模型在驗(yàn)證集上的表現(xiàn)開(kāi)始下降的時(shí)候,停止訓(xùn)練,這樣能有效避免繼續(xù)訓(xùn)練導(dǎo)致過(guò)擬合的問(wèn)題。交叉熵的公式如式(6)所示。
(6)
本文根據(jù)待消歧實(shí)體從知識(shí)庫(kù)種獲取候選實(shí)體集,并將其一一拼接,構(gòu)造為分類文本,利用訓(xùn)練得到的MCN模型對(duì)測(cè)試文本進(jìn)行預(yù)測(cè),具體過(guò)程如算法1所示。
算法1 基于MCN的短文本實(shí)體消歧輸入: 待消歧實(shí)體(mention),知識(shí)庫(kù)輸出: 類別標(biāo)簽0或11.Begin2.對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將數(shù)據(jù)中的特殊字符轉(zhuǎn)換,刪除書(shū)名號(hào)等,并將數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集;3.從知識(shí)庫(kù)中獲得候選實(shí)體集,將待消歧實(shí)體與候選實(shí)體拼接,并且根據(jù)kb_id與subject_id構(gòu)造分類標(biāo)簽;4.kfold =KFold(n_splits=5,shuffle=False);5.For i,(tra_index, val_index)∈k fold(train[0])6. Beign7. 將訓(xùn)練文本輸入BERT模型中,獲得表示向量,同時(shí)將文本表示為鄰接矩陣;8. 表示向量作為注意力機(jī)制的輸入,并經(jīng)過(guò)注意力機(jī)制,結(jié)果作為卷積神經(jīng)網(wǎng)絡(luò)的輸入9. concat_x=[],concat_y=[];10. For index,filter_size∈[3,4,5]11. Begin12. 卷積層,卷積核分別為3,4,5;13. 平均值池化,追加到concat_x;14. 最大值池化,追加到concat_y;15. End16. concat_x,concat_y拼接;17. 將表示向量與鄰接矩陣作為GCN模型的輸入;18. 經(jīng)過(guò)2層的GCN模型;19. 將步驟16與步驟18得到的結(jié)果結(jié)合,經(jīng)過(guò)全連接層進(jìn)行分類;20. 利用訓(xùn)練好的MCN模型進(jìn)行預(yù)測(cè),得到分類結(jié)果,若為1,則分類正確,若為0,分類錯(cuò)誤21. End22.End
本文在BERT提取特征的基礎(chǔ)上結(jié)合MCN模型完成中文短文本實(shí)體消歧任務(wù),將文本特征向量化表示,輸入模型進(jìn)行迭代訓(xùn)練,最后進(jìn)行預(yù)測(cè),輸出預(yù)測(cè)值。實(shí)驗(yàn)環(huán)境如表1所示。
表1 實(shí)驗(yàn)環(huán)境
數(shù)據(jù)集采用全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS 2019)評(píng)測(cè)任務(wù)中的面向中文短文本的實(shí)體識(shí)別與鏈指任務(wù)數(shù)據(jù)(Entity Recognition and Linking,ERL)。ERL數(shù)據(jù)集中訓(xùn)練集共有90 000條數(shù)據(jù),外部知識(shí)庫(kù)共有399 252條數(shù)據(jù)。數(shù)據(jù)取自搜索Query、微博、用戶對(duì)話內(nèi)容、文章標(biāo)題等,均為中文短文本。本文采用的數(shù)據(jù)集是從數(shù)據(jù)中隨機(jī)抽取的9 000條數(shù)據(jù),其中,8 000條作為訓(xùn)練數(shù)據(jù),1 000條作為測(cè)試數(shù)據(jù)。本文主要使用五折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),該方法能更好地驗(yàn)證模型的泛化能力。其中,五折交叉驗(yàn)證是將數(shù)據(jù)集劃分為5個(gè)大小相似的互斥子集,每個(gè)子集盡可能保持?jǐn)?shù)據(jù)分布一致性,從數(shù)據(jù)集中分層采樣得到。每次用4個(gè)子集的并集作為訓(xùn)練集,余下的子集作為測(cè)試集,這樣就可以獲得5組訓(xùn)練/測(cè)試集,從而可以進(jìn)行5次訓(xùn)練和測(cè)試,最終得到5個(gè)測(cè)試結(jié)果的均值。實(shí)驗(yàn)數(shù)據(jù)樣例如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)樣例
自然語(yǔ)言處理領(lǐng)域中評(píng)估是一個(gè)重要環(huán)節(jié),常用的評(píng)價(jià)標(biāo)準(zhǔn)為準(zhǔn)確率P(Precision)、召回率R(Recall)及F值(F-Measure)[19]。P是評(píng)估捕獲的成果中目標(biāo)成果所占的比例,R是召回目標(biāo)類別的比例,而F值則是綜合這二者指標(biāo)的評(píng)估指標(biāo),用于綜合反映整體效果,當(dāng)參數(shù)α=1時(shí),就是最常見(jiàn)的F1。具體計(jì)算如(7)~式(9)所示。
(7)
其中,TP、TN、FP、FN的含義如表3所示。表3是根據(jù)分類結(jié)果建立的混淆矩陣,用來(lái)介紹評(píng)價(jià)指標(biāo)的計(jì)算方式。
表3 混淆矩陣表
3.4.1 對(duì)比模型介紹
為了證明實(shí)驗(yàn)?zāi)P偷挠行?,本文選取了若干深度學(xué)習(xí)模型在相同的環(huán)境下與MCN模型進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中將待消歧文本與候選實(shí)體文本拼接,模型中特征向量使用Google提出的BERT模型進(jìn)行訓(xùn)練得到。
(1)Word2Vec-BiLSTMBiLSTM是RNN的一種,是由前向的LSTM與后向的LSTM組合而成?;赪ord2Vec的文本向量表示,通過(guò)BiLSTM可以更好地捕捉雙向的語(yǔ)義依賴。
(2)BERT-BiLSTM采用BERT作為文本向量化表示技術(shù),在相同的下游模型下,比較BERT和Word2vec兩種文本表示方法對(duì)實(shí)體消歧任務(wù)的影響。
(3)BERT-CNN使用CNN模型的核心在于捕捉文本的局部相關(guān)性,用來(lái)提取句子中類似N-gram的關(guān)鍵信息。
(4)BERT-GCN根據(jù)原始文本構(gòu)造依存樹(shù),進(jìn)而得到鄰接矩陣,與文本向量化表示結(jié)合后,經(jīng)過(guò)兩層GCN網(wǎng)絡(luò)進(jìn)行分類。
(5)BERT-ATT-CNN使用BERT模型對(duì)文本進(jìn)行向量化表示,結(jié)合self-attention機(jī)制和CNN模型對(duì)中文短文本進(jìn)行分類。
(6)BERT-ACNN-BiLSTM并行采用ATT-CNN模型與BiLSTM模型,一個(gè)提取局部特征,另一個(gè)提取全局特征,將兩種互補(bǔ)模型提取的特征融合,進(jìn)行分類。
(7)BERT-MCN本文提出的模型,將卷積神經(jīng)網(wǎng)絡(luò)與圖卷積網(wǎng)絡(luò)結(jié)合,經(jīng)過(guò)全連接層進(jìn)行分類。
3.4.2 實(shí)驗(yàn)結(jié)果分析
本文算法與其他算法在相同的數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表4所示。
表4 CCKS數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
由表4可知,在下游模型均采用BiLSTM的情況下,用BERT進(jìn)行詞的向量化表示取得的消歧精度要明顯高于Word2Vec,這是因?yàn)椋珺ERT生成的詞向量是動(dòng)態(tài)的,能夠反映詞在具體語(yǔ)境下的真正語(yǔ)義,這對(duì)同名實(shí)體歧義的消解至關(guān)重要。
表4中BERT-CNN模型取得的精度結(jié)果要優(yōu)于BERT-BiLSTM,這是短文本的特性所決定的,在短文本的自然語(yǔ)言處理任務(wù)中,文本的長(zhǎng)度較短,詞間距離較短,BiLSTM模型處理長(zhǎng)文本的優(yōu)勢(shì)沒(méi)有得以體現(xiàn),所以用CNN作為下游消歧模型效果較好。而通過(guò)Attention機(jī)制進(jìn)一步提取BERT產(chǎn)生的語(yǔ)義向量能夠使得模型捕獲重要語(yǔ)義的能力進(jìn)一步提升,所以,BERT-ATT-CNN模型取得的F1值要比BERT-CNN的高2.89%。和BiLSTM和CNN模型相比,GCN能獲取不同文本詞與詞之間語(yǔ)義依存關(guān)系,而非僅關(guān)注當(dāng)前文本的語(yǔ)義表示。所以,BERT-GCN取得的消歧F1值要比BERT-BiLSTM和BERT-CNN分別高2.90%和1.40%。
考慮中文短文本語(yǔ)義信息有限這一難點(diǎn),本文通過(guò)拼接待消歧文本和知識(shí)庫(kù)文本來(lái)擴(kuò)展語(yǔ)義信息。在此基礎(chǔ)上,結(jié)合了ATT-CNN模型捕獲的單句語(yǔ)義和GCN模型捕獲的詞間依存關(guān)系,通過(guò)并行的方式融合二者的語(yǔ)義信息也規(guī)避了過(guò)深的深度學(xué)習(xí)模型在訓(xùn)練中可能出現(xiàn)的梯度消失等系列問(wèn)題。所以在中文短文本實(shí)體消歧任務(wù)中,MCN模型取得了優(yōu)于其他對(duì)比模型的精度。
本文提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與圖卷積網(wǎng)絡(luò)的短文本實(shí)體消歧方法,采用的實(shí)體消歧方法并沒(méi)有像傳統(tǒng)實(shí)體消歧方法那樣使用待消歧實(shí)體上下文文本特征與候選實(shí)體上下文文本特征進(jìn)行相似度計(jì)算,而是將數(shù)據(jù)按照唯一的編號(hào)做成分類數(shù)據(jù),再進(jìn)行分類。MCN模型以并行的方式結(jié)合CNN與GCN兩種模型,融合了兩種模型的優(yōu)勢(shì)。針對(duì)短文本具有噪聲大、特征少的特點(diǎn)以及CNN在池化時(shí)會(huì)丟失一部分特征的問(wèn)題,MCN模型在CNN通道中使用了均值池化和最大值池化,并且引入了注意力機(jī)制,豐富了特征信息。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在短文本實(shí)體消歧任務(wù)中取得了優(yōu)于主流模型的精度結(jié)果。
但是,本文的研究還存在諸多不足,如存在外部知識(shí)庫(kù)中找不到訓(xùn)練數(shù)據(jù)對(duì)應(yīng)實(shí)體的情況。如果存在切實(shí)可行且高效的實(shí)體消歧技術(shù)解決該問(wèn)題,那么實(shí)體消歧任務(wù)的精度將可能會(huì)被提高。