白鑫竹,孟佳娜,許明鑫,齊 鵬,江 烽
(大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連 116650)
隨著問答系統(tǒng)的出現(xiàn),用戶獲取想要的知識變得十分便捷。第一個問答系統(tǒng)理論是在1960年代由艾倫麥席森圖靈提出著名的圖靈測試[1]。隨著人工智能的興起而產(chǎn)生巨大更迭,具有代表性的問答系統(tǒng)越來越多,傳統(tǒng)問答系統(tǒng)也面臨新的挑戰(zhàn)。
具有代表性的問答系統(tǒng)包括Baseball、Lunar等系統(tǒng)。Baseball問答系統(tǒng)是最早在實(shí)際生活運(yùn)動領(lǐng)域中發(fā)揮作用的系統(tǒng)之一;Lunar系統(tǒng)應(yīng)用在科研領(lǐng)域,分析月球中礦石成分。兩者都可以解決簡單的問題,缺點(diǎn)是必須使用固定的提問形式,如果問題本質(zhì)相同但換了一種說法就會導(dǎo)致識別不出來用戶意圖,這些系統(tǒng)靈活性較低,可處理數(shù)據(jù)匱乏,應(yīng)用效率低下。1980年計(jì)算語言學(xué)快速發(fā)展,研究重心轉(zhuǎn)向利用語言學(xué)改進(jìn)固定式問答,提升準(zhǔn)確率的同時(shí)提高問題多樣化,典型代表系統(tǒng)為UnixConsultant系統(tǒng)[2]。在后續(xù)十年里,互聯(lián)網(wǎng)的發(fā)展及數(shù)據(jù)量爆炸式增長,出現(xiàn)了基于數(shù)據(jù)庫檢索匹配的問答系統(tǒng)[1],它從用戶輸入的問題中提取關(guān)鍵詞,在文本庫或網(wǎng)頁中搜索匹配文檔。這種方法與以往相比取得更好的效果并降低了成本,但采用的數(shù)據(jù)來自網(wǎng)頁或文檔中抽取的非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)未能規(guī)范化,導(dǎo)致處理效果并不理想。
直到知識圖譜(Knowledge Graph)[3]的出現(xiàn),填補(bǔ)了傳統(tǒng)問答知識庫[1]結(jié)構(gòu)化程度低,缺乏高質(zhì)量知識,單一性和局限性的缺陷。將數(shù)據(jù)整合為一個結(jié)構(gòu)化的系統(tǒng),優(yōu)化了數(shù)據(jù)的質(zhì)量。智能問答系統(tǒng)也由基于文檔形式的智能問答轉(zhuǎn)變?yōu)榛谥R圖譜的智能問答,實(shí)現(xiàn)問答結(jié)果的多樣化,迎來質(zhì)的飛躍[4]。健康醫(yī)療、政務(wù)、金融學(xué)、旅游推薦等領(lǐng)域應(yīng)用多與時(shí)間相關(guān),因此產(chǎn)生了較多與時(shí)間密切相關(guān)的時(shí)序數(shù)據(jù),具有高度動態(tài)的特點(diǎn),表現(xiàn)出復(fù)雜的時(shí)間特性。在知識應(yīng)用過程中,歷史事件必須限定在特定時(shí)間才具有參考價(jià)值,說明知識存在時(shí)效性。傳統(tǒng)方法是面向三元組建模,其相似性評估計(jì)算僅涉及實(shí)體和關(guān)系,缺乏時(shí)間維度信息,因此并不適合于動態(tài)知識庫的問答。
針對上述問題,本文提出結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)和動態(tài)知識圖譜的方法,對時(shí)序問題的實(shí)體和語義相似關(guān)系進(jìn)行一定程度的區(qū)分。本文利用時(shí)間一致性信息排除候選三元組中的干擾項(xiàng),引入時(shí)間信息將三元組拓展為四元組表示,提升實(shí)體、關(guān)系表示學(xué)習(xí)的質(zhì)量以及知識推理的準(zhǔn)確性。
知識圖譜是智能化信息檢索與知識推理最常用的技術(shù),2012年由谷歌提出并用于智能化語義搜索[5]。當(dāng)前有代表性的知識圖譜產(chǎn)品包括當(dāng)DBpedia,YAGO,CN-DBpedia,搜狗知立方等。問答系統(tǒng)[6]是知識圖譜的重要應(yīng)用方向,輸入問題后能從知識圖譜中快速找到正確的答案,并呈現(xiàn)給用戶。
傳統(tǒng)知識圖譜的研究主要集中在靜態(tài)知識圖譜,靜態(tài)知識圖譜的事實(shí)不會隨著時(shí)間的變化而變化,而一些與時(shí)間緊密相關(guān)的事件的知識,則需要用包含時(shí)間信息的動態(tài)知識圖譜進(jìn)行描述。時(shí)序知識圖譜是一個多關(guān)系有向圖,關(guān)系上帶有時(shí)間戳信息,Jiang等[6]2016年首次將時(shí)間信息編碼到知識圖譜的表示學(xué)習(xí)中,將時(shí)序知識圖譜中帶有時(shí)間戳信息的三元組建模為四元組(h,r,t,τ),表示三元組在時(shí)間間隔內(nèi)有效或者在時(shí)間點(diǎn)τ時(shí)有效,提出了TransE-TAE-ILP模型。時(shí)序知識圖譜表示為K={(h,r,t,τ)|h,t∈ε,r∈R,τ∈T},其中ε是實(shí)體集合,R是關(guān)系,T是時(shí)間戳信息集合。TransE-TAE-ILP模型如圖1。
圖1 TransE-TAE-ILP模型圖
相比靜態(tài)知識表示,時(shí)序知識圖譜引入時(shí)間實(shí)體和關(guān)系的信息編碼表示,捕獲知識圖譜中時(shí)間信息和事實(shí)的動態(tài)性質(zhì),能緩解語義相似關(guān)系混淆。并將時(shí)間信息融入表示學(xué)習(xí)的過程中,捕獲知識圖譜中的時(shí)間一致性信息,減少模型預(yù)測的干擾項(xiàng),利用時(shí)間信息輔助時(shí)間序列進(jìn)行預(yù)測。
高效準(zhǔn)確的答案選擇是知識圖譜問答的研究重點(diǎn),主流方法是用深度學(xué)習(xí)模型尋找問答對之間的語義關(guān)系,CNN(Convolutional Neural Network)被證明在答案選擇任務(wù)中并且取得了不錯的效果[7],隨后LSTM(LongShortTermModel)也被證明對答案選擇任務(wù)有較好作用[8]。注意力機(jī)制也為豐富句子語義提供了新思路,Zhang[9]等人在混合神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,將注意力機(jī)制引入中文問答選擇并證明可以捕捉更多問答對的有效特征。但是深度學(xué)習(xí)模型和注意機(jī)制的研究思路只考慮挖掘問答文本本身的語義關(guān)系,而沒有考慮到聯(lián)系外部知識,基于實(shí)體嵌入[10]、關(guān)系嵌入的方法解決了這個問題。RNN(Recurrent Neural Network)被證明能夠從文本序列和短語角度提取有效語義信息,解決了口語化嚴(yán)重的問題[10]。
圖的結(jié)構(gòu)是不規(guī)則的,是無限維的一種數(shù)據(jù),所以沒有平移不變性。每個節(jié)點(diǎn)的周圍結(jié)構(gòu)都是獨(dú)一無二的,這種結(jié)構(gòu)的數(shù)據(jù)使傳統(tǒng)的CNN、RNN失效。而Graph Convolutional Network(GCN)可以基于圖結(jié)構(gòu)從原始節(jié)點(diǎn)的特征中提取特征信息,加入GCN能夠從未訓(xùn)練的節(jié)點(diǎn)中提取特征。SpanBERT能夠更好地表示和預(yù)測文本的分詞情況,加入SpanBERT能夠融合雙向語言模型,從而學(xué)到單詞上下文語義。LSTM在序列建模問題上有一定優(yōu)勢,具有長時(shí)記憶功能。實(shí)現(xiàn)起來簡單,解決了長序列訓(xùn)練過程中存在的梯度消失和梯度爆炸的問題。LSTM能計(jì)算時(shí)間序列中各個觀測值之間的依賴性,更好地用于預(yù)測。
為了充分捕捉時(shí)序問答文本語義特征,本文提出SpanBERT-GCN-LSTM答案選擇模型。通過引入外部知識圖譜,強(qiáng)化問答文本中的時(shí)序?qū)嶓w關(guān)系信息。首先用SpanBERT獲取問題相關(guān)KG事實(shí),構(gòu)建問題相關(guān)的KG子圖以及它們之間的相互聯(lián)系,采用LSTM編碼歷史,用相關(guān)的時(shí)間事實(shí)來擴(kuò)充候選圖并傳到下游任務(wù)。受GRAFT-Net模型[11]的啟發(fā),用GCN構(gòu)建節(jié)點(diǎn)分類模塊,整體模型架構(gòu)圖如圖2。
圖2 整體模型架構(gòu)圖
時(shí)間推理是從非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù)中提取時(shí)間信息,構(gòu)建時(shí)序知識圖譜中的時(shí)間維度,對輸入到模型的問題簡單處理,包括實(shí)體提取和時(shí)間信息提取兩個步驟。因?yàn)橛行﹩栴}中的時(shí)間信息不可用,所以把這樣的信息刪除掉以免對時(shí)序知識圖譜的構(gòu)建產(chǎn)生影響。時(shí)間的表達(dá)是多樣的,為防止在時(shí)間信息的獲取過程中,直接使用對模型的訓(xùn)練產(chǎn)生影響,因此使時(shí)間信息規(guī)范化并分類。再用subject和object替換問題中的重點(diǎn)詞使文本在訓(xùn)練模型中更通用,動態(tài)實(shí)體推理模型如圖3。
低維向量ve表示實(shí)體e在時(shí)間t的特征嵌入。實(shí)體的潛在表示根據(jù)實(shí)體間關(guān)系而隨時(shí)間變化,基于深度遞歸神經(jīng)網(wǎng)絡(luò)的更新函數(shù),本文捕獲向量空間中實(shí)體動態(tài)。σ表示更新函數(shù),主體實(shí)體es和對象實(shí)體eo表示被subject和object替換的實(shí)體,在時(shí)間t發(fā)生的事件是實(shí)體es的第p個事件,同時(shí)是實(shí)體eo的第q個事件,其中tp、tq觀測到事件的時(shí)間tp-1、tq-1是預(yù)測上一個事件的時(shí)間,W表示參數(shù)權(quán)重,b表示偏置,subject和object的嵌入分別為:
(1)
(2)
圖3 動態(tài)實(shí)體推理模型
SpanBERT是BERT的一種擴(kuò)展,在本文中執(zhí)行問題解析任務(wù),識別時(shí)態(tài)知識圖譜中問題相關(guān)的事實(shí)。與BERT的區(qū)別其一,BERT的處理目標(biāo)token是隨機(jī)不確定的,SpanBERT的目標(biāo)token是連續(xù)不間斷的。SpanBERT不再對隨機(jī)的單個token 添加掩膜,而是對隨機(jī)對鄰接分詞添加掩膜。X=(x1,x2,…xn)表示輸入序列,通過迭代抽取提煉出子集Z∈X并進(jìn)行mask操作。首選通過幾何分布選取跨度,然后半隨機(jī)地選取span的范圍,直到達(dá)到序列的15%。SpanBERT模型如圖4。
圖4 SpanBERT模型圖
其二,SpanBERT改進(jìn)BERT只能對單個分詞訓(xùn)練的缺點(diǎn),提出訓(xùn)練目標(biāo)span-boundary-objective (SBO)進(jìn)行模型訓(xùn)練。通過對分詞添加掩膜,使模型依據(jù)其所在語境預(yù)測整個分詞。獲取span范圍內(nèi)分詞位置計(jì)算目標(biāo)函數(shù),xs和xe表示起始位置和結(jié)束位置編碼,目標(biāo)分詞的位置嵌入表示為pi-s+1,計(jì)算邊界外相鄰分詞的表示xs-1和xe+1,將f(·)實(shí)現(xiàn)為具有GeLU激活函數(shù)和層歸一化的前饋網(wǎng)絡(luò)。
zi=f(xs-1,xe+1,pi-s+1)。
(3)
另外,SBO使模型在邊界詞中存儲其分詞級別的信息,使得模型的調(diào)優(yōu)更佳容易。
圖卷積神經(jīng)網(wǎng)絡(luò)[13]及其變種是在圖形結(jié)構(gòu)中捕獲內(nèi)容和結(jié)構(gòu)特征的代表性模型。知識圖譜也是一種圖形結(jié)構(gòu),因此圖神經(jīng)網(wǎng)絡(luò)模型可以應(yīng)用其中。Li等[14]通過關(guān)系感知GCN捕獲知識圖譜內(nèi)的結(jié)構(gòu),通過門控循環(huán)組件自回歸建模歷史知識圖譜序列,提出了基于圖卷積網(wǎng)絡(luò)的新型循環(huán)進(jìn)化網(wǎng)絡(luò)。本文利用圖卷積網(wǎng)絡(luò)模塊從問題表示的語義信息中獲取隱含時(shí)間特征,獲得時(shí)間序列結(jié)合靜態(tài)信息提升知識表示學(xué)習(xí)的質(zhì)量,與靜態(tài)知識圖譜的嵌入拼接得到時(shí)間關(guān)系嵌入矩陣,解決無法準(zhǔn)確定位時(shí)間的問題。
2.3.1 特征
鄰接矩陣A∈RN×N是用0或1填充的N×N矩陣,N是節(jié)點(diǎn)總數(shù)。鄰接矩陣中的值表示節(jié)點(diǎn)對之間的相連關(guān)系,Aij=1表示節(jié)點(diǎn)i和節(jié)點(diǎn)j有關(guān)系,否則Aij=0。將圖表示為鄰接矩陣,包含每個節(jié)點(diǎn)的特征或?qū)傩?,并以張量的形式將其提供給網(wǎng)絡(luò)。有向圖中共有1、2、3、4、5五個節(jié)點(diǎn),(1,2)、(1,3)、(1,4)、(2,3)、(2,5)、(4,4)六條邊如(a)。根據(jù)圖可以得到矩陣如(b),同理通過矩陣也可以得到圖譜的結(jié)構(gòu)。為了能夠聚合自身的信息,在圖的某個節(jié)點(diǎn)上加一個自環(huán),GCN特征提取如圖5。
a)有向圖 b)鄰接矩陣圖圖5 GCN特征提取
2.3.2 聚合鄰居信息過程
GCN具有獨(dú)特的消息共享機(jī)制,能在相鄰節(jié)點(diǎn)之間執(zhí)行聚合,是傳遞和更新消息的過程,圖中任一節(jié)點(diǎn)進(jìn)行特征更新,更高階鄰居節(jié)點(diǎn)的信息隨之更新并被聚合。源節(jié)點(diǎn)距離最高鄰居節(jié)點(diǎn)之間的階數(shù)也叫聚合半徑,基于聚合半徑和模型層數(shù)的關(guān)系,通過自適應(yīng)性聚合半徑的學(xué)習(xí)機(jī)制,增加跳躍連接來聚合模型每層節(jié)點(diǎn)的輸出,聚合后的節(jié)點(diǎn)特征擁有混合性的聚合半徑,上層任務(wù)可對其進(jìn)行選擇性的監(jiān)督學(xué)習(xí)。圖模型的四層輸出都通過跳躍連接連接到最終的聚合層,聚合操作可以去拼接、平均池化、最大池化等。聚合層的輸出作為整個模型的輸出送到相應(yīng)的監(jiān)督任務(wù)中進(jìn)行學(xué)習(xí),聚合過程流程圖如圖6。
圖6 聚合過程流程圖
2.3.3 端到端學(xué)習(xí)
GCN對于圖數(shù)據(jù)的學(xué)習(xí)模式是從數(shù)據(jù)端到任務(wù)端的。GCN可以適應(yīng)圖數(shù)據(jù)的內(nèi)在規(guī)律,例如屬性信息、結(jié)構(gòu)信息等。圖數(shù)據(jù)中屬性信息根據(jù)類型劃分并編碼,整合表示為該節(jié)點(diǎn)屬性的特征向量。而結(jié)構(gòu)信息的處理,是用圖的統(tǒng)計(jì)特征代替知識圖中節(jié)點(diǎn)的結(jié)構(gòu)信息,例如節(jié)點(diǎn)的跨度、節(jié)點(diǎn)本身、節(jié)點(diǎn)的PageRank值等,然后將這個代表節(jié)點(diǎn)結(jié)構(gòu)信息的特征向量與代表節(jié)點(diǎn)的屬性信息的特征向量合并傳到下游任務(wù)。
2.4.1 LSTM模型
本文引入LSTM進(jìn)行路徑編碼,LSTM的核心算法在于信息傳輸?shù)穆窂郊伴T結(jié)構(gòu)。LSTM的“記憶”被叫做細(xì)胞,信息傳輸?shù)穆窂奖环Q為細(xì)胞狀態(tài),能讓信息在序列串中進(jìn)行傳遞。信息的增減通過門結(jié)構(gòu)來實(shí)現(xiàn),門結(jié)構(gòu)在訓(xùn)練過程中會去學(xué)習(xí)信息的保留或忘記,LSTM模型如圖7。
遺忘門用來決定哪些信息應(yīng)該丟棄或保留。前一個隱藏狀態(tài)的信息ht-1和當(dāng)前輸入xt的信息同步傳遞到sigmod函數(shù)中去,輸出結(jié)果介于0和1,W表示更新函數(shù)的權(quán)重,bf表示遺忘門的偏置。
ft=σ(Wf·[ht-1,xt]+bf)。
(4)
it=σ(Wi·[ht-1,xt+bi]),
(5)
(6)
輸出門用于確認(rèn)下一步隱藏狀態(tài)的值,通過當(dāng)前的細(xì)胞狀態(tài)、上時(shí)刻的輸出ht-1與當(dāng)前的輸入xt,bo表示輸出門的偏置,得到隱藏狀態(tài)的信息作為當(dāng)前時(shí)刻的輸出,把新的隱藏狀態(tài)傳遞到下個時(shí)間步長。
ot=σ(Wo·[ht-1,xt]+bo)。
(7)
2.4.2 CRF模型
條件隨機(jī)場CRF是一個概率分布模型,輸入條件為一組隨機(jī)變量的情況,輸出結(jié)果為另一組隨機(jī)變量。本文引入CRF模型對每個詞標(biāo)注對應(yīng)實(shí)體類型的BIO標(biāo)記,用B-Person標(biāo)記關(guān)鍵詞的首字母、I-Person表示關(guān)鍵詞的除首字母的其他部分、O-表示除關(guān)鍵詞外的信息,CRF的特征函數(shù)可以構(gòu)建上下文特征、詞本身特征和詞性特征等,BIO標(biāo)注圖如圖8。
圖6 聚合過程流程圖
圖7 LSTM模型
圖8 BIO標(biāo)注圖
TimeQuestions數(shù)據(jù)集是遍歷八個KGQA數(shù)據(jù)集,搜索其中與時(shí)間相關(guān)的問題編譯而成的,包括有16181個問題。測試集中使用[13]編譯的字典標(biāo)記信號詞,只如果問題中至少有一個時(shí)態(tài)信號詞,它就成為一個候選時(shí)態(tài)問題。為了消除數(shù)據(jù)集假陽性,對候選集進(jìn)行過濾,手動驗(yàn)證每個問題答案的正確性,并用正確答案替換不正確的。并手動標(biāo)記每個問題的時(shí)態(tài)問題類別,分別是顯式、隱式、時(shí)態(tài)或序號答案類別,這樣能構(gòu)建更高效自動分類器。以3:1:1的比例分割數(shù)據(jù),創(chuàng)建訓(xùn)練集包含9 708個問題,開發(fā)集包含3 236個問題和測試集包含3 237個問題,數(shù)據(jù)集樣式見表1。
表1 數(shù)據(jù)集樣式
3.2.1 基線模型
Uniqorn方法使用微調(diào)BERT模型,從RDF數(shù)據(jù)或文本語料庫中檢索與問題相關(guān)證據(jù),并使用Group Steiner Trees的圖算法處理輸入回答復(fù)雜問題,是文獻(xiàn)[6]的擴(kuò)展。GRAFT-Net方法首次采用R-GCNs在異構(gòu)圖譜上進(jìn)行問答,從包含文本和知識庫的特定問題子圖中提取答案實(shí)體和關(guān)系。PullNet是一個集成框架,從語料庫里學(xué)習(xí)要檢索的內(nèi)容并將GRAFT-Net擴(kuò)展到多跳問題場景,同時(shí)利用異構(gòu)信息進(jìn)行推理以找到最佳答案。本文方法和基線模型在問答方面的的實(shí)驗(yàn)結(jié)果如表所示。通過觀察得出結(jié)論,本文的方法是優(yōu)于基線模型的,在五種答案類型上都有顯著效果提升。模型在P@1的性能對比見表2。
表2 模型在P@1的性能對比
3.2.2 模型比較
P@n指前n個結(jié)果的準(zhǔn)確度,P指的是精確值,實(shí)驗(yàn)結(jié)果見表3。假設(shè)有每個樣本對應(yīng)n個候選,yi= 0或1分別表示第i個結(jié)果相關(guān)或不相關(guān), 則計(jì)算公式為
(8)
表3 P@1結(jié)果
MRR(Mean Reciprocal Rank)又名平均倒數(shù)排名,其中Reciprocal是指“倒數(shù)的”的意思。ki是第i次搜索的結(jié)果中與問題最相關(guān)結(jié)果的位置,其倒數(shù)就是返回結(jié)果的質(zhì)量,ranki是指第i個四元組鏈接預(yù)測排名。第一個結(jié)果匹配,分?jǐn)?shù)為1,第二個匹配分?jǐn)?shù)為1/2,第n個匹配分?jǐn)?shù)為1/n,如果沒有匹配的句子分?jǐn)?shù)為0,實(shí)驗(yàn)結(jié)果見表4。最終的分?jǐn)?shù)為所有得分之和,計(jì)算公式為
(9)
表4 MRR結(jié)果
HITS@n該指標(biāo)在本文中是指在鏈接預(yù)測中排名小于n的四元組的平均占比,計(jì)有多少正確的四元組最終的排序是在topN,值越大越好,實(shí)驗(yàn)結(jié)果見表5。計(jì)算方法如下:
(10)
表5 Hit@5結(jié)果
為了驗(yàn)證時(shí)間信息在模型中的有效性,在本次實(shí)驗(yàn)中所用的數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),比較了訓(xùn)練數(shù)據(jù)集中時(shí)間信息的占比大小對模型結(jié)果的影響??梢钥吹匠ソM件模塊在復(fù)雜的推理數(shù)據(jù)上的表現(xiàn),隨著時(shí)間信息的增加,模型的效果會更好,時(shí)間信息對于訓(xùn)練時(shí)態(tài)推理模型的作用如圖9。
圖9 消融實(shí)驗(yàn)結(jié)果圖
通過比較本文方法和基線方法在問答方面的性能,統(tǒng)計(jì)不同評測指標(biāo)在每個類別與基線模型的比較,能看出本文方法明顯優(yōu)于基線模型。知識圖譜的路徑推理機(jī)制常復(fù)雜QA的答案搜尋,它在KG子集中識別主體結(jié)構(gòu),并從帶噪聲的圖中剔除無關(guān)信息,但實(shí)驗(yàn)結(jié)果表明,單純的路徑預(yù)測本身不足以回答時(shí)間問題,因此優(yōu)化時(shí)間推理模型很重要。
為解決問題的時(shí)間意圖識別,本文工作核心是用不同種類的時(shí)間事實(shí)擴(kuò)展GCN模型的范圍,使其可以識別到時(shí)間信號編碼。通過研究發(fā)現(xiàn),答案類型是時(shí)間的問題最簡單,例如以“when”開頭的問題,這類帶有明確時(shí)態(tài)表達(dá)的問題需要推理,但明確的年份會使其更容易找到答案。GCN主要用于處理帶有隱性時(shí)態(tài)表達(dá)的問題。從消融研究可以看出,該模型在本文方法的整體表現(xiàn)中都發(fā)揮積極的作用。
本文提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的時(shí)序知識圖譜問答模型SpanBERT-GCN-LSTM,先用SpanBERT處理問題獲取詞向量,然后在KG中計(jì)算與問題相關(guān)的緊湊子圖,用LSTM提取并融合信息,最后構(gòu)建圖卷積網(wǎng)絡(luò)預(yù)測答案,通過時(shí)間感知實(shí)體嵌入和對時(shí)間關(guān)系的關(guān)注來增強(qiáng)GCN模型。通過對比目前知識圖譜問答領(lǐng)域的主流模型,進(jìn)一步證明了本文所提出模型的優(yōu)越性。在后續(xù)的研究中,向現(xiàn)有知識圖譜中添加新增知識,以新增數(shù)據(jù)為輸入,進(jìn)一步優(yōu)化數(shù)據(jù)集中實(shí)體關(guān)系,提升問答的效果。
大連民族大學(xué)學(xué)報(bào)2023年1期