靳 州,楊振艦
(天津城建大學 計算機與信息工程學院,天津 300384)
知識圖譜(knowledge graph,KG)是結構化存儲知識的知識庫,通常采用三元組(頭實體,關系,尾實體)的形式描述現(xiàn)實世界的事實,例如三元組(奧巴馬,總統(tǒng),美國),其中“奧巴馬”表示頭實體,“美國”表示尾實體,“總統(tǒng)”表示“奧巴馬”和“美國”之間的關系.
然而,知識圖譜是不完整的,需要基于已有事實進行補全和完善.受到表示學習的啟發(fā),研究人員提出知識表示學習(knowledge representation learning,KRL),將知識圖譜映射到低維向量空間[1],學習實體和關系的嵌入表示.知識表示學習緩解了數(shù)據(jù)稀疏性,實現(xiàn)了多源信息的融合,保留了知識圖譜的結構信息.
Goel等人提出歷時嵌入(diachronic embedding,DE),通過激活函數(shù)掩蓋部分嵌入權重,學習時間實體嵌入[2].DE是方法無關的,可擴展到任意靜態(tài)表示方法,且表現(xiàn)出先進的性能,本文圍繞DE展開研究工作.針對上述問題,本文提出了一種關系感知的時間嵌入(relation-aware temproal embedding,RTE).本文的主要貢獻如下:
(1)本文提出一種關系感知的時間嵌入(relationaware temproal embedding,RTE),可擴展到任何靜態(tài)表示學習方法.
(2)本文提出一種高效的融合機制,耦合靜態(tài)特征和時間特征,并研究不同融合機制方案對RTE的影響.
(3)本文將RTE與DistMult和SimplE結合,提出RTE-DistMult和RTE-SimplE,在基準數(shù)據(jù)集上取得了先進的實驗結果.
近年來,知識表示學習受到高度關注,研究人員提出各種表示學習方法、學習實體和關系的嵌入表示,并通過評分函數(shù)判定事實元組是否有效[3].本文將相關工作劃分為靜態(tài)表示學習方法和時間表示學習方法.
靜態(tài)表示學習方法忽略了知識圖譜的時間屬性,時間表示學習方法利用時間信息擴展了靜態(tài)表示學習方法.García-Durán等人[4]通過字符LSTM組合關系時間戳擴展TransE DistMult.Goel等人通過掩蓋部分嵌入權重,學習歷時實體嵌入DE,擴展TransE、DistMult和SimplE.DE是方法無關的,可擴展任意靜態(tài)表示方法,且在基準上展現(xiàn)強大的性能.通過改進DE,本文提出一種新穎的時間嵌入表示,擴展現(xiàn)有的靜態(tài)表示方法.
正確事實中的實體應該包含時間信息,通過給三元組標注時間戳或時間間隔,可獲得事實四元組.受到歷時嵌入DE的啟發(fā),本文提出一種關系感知的時間嵌入(relation-aware temproal embedding,RTE).
歷時嵌入DE按照維度劃分為靜態(tài)特征和時間特征,并利用激活函數(shù)和實體權重學習時間特征.使用表示DE,定義如下
其中,av和ωv,bv是實體相關的向量;σ是激活函數(shù).的γd部分表示時間特征,(1-γ)d部分表示靜態(tài)特征.DE使用超參數(shù)γ控制時間特征的占比,限制了時間特征的表達.同時,DE的時間特征只使用了實體相關的權重,忽視了關系對時間實體嵌入的影響.
本文提出一種關系感知的時間嵌入RTE.不同于DE的維度劃分,RTE學習了關系感知的時間特征,并使用zvs和zvt分別表示靜態(tài)特征和時間特征.RTE顯式建模zvs,定義如下
其中,vs是實體特定的向量.RTE引入關系權重,建模了關系與時間之間的潛在關聯(lián),學習關系感知的時間特征zvt,定義如下
其中,vt,ωv和bt是實體相關的向量;ωr是關系特定的向量;σ是激活函數(shù).類似DE,本文使用sin作為激活函數(shù).本文提出一種簡單有效的融合機制,耦合靜態(tài)特征和時間特征,學習時間關系感知的時間嵌入zRTE,定義如下
本文通過實驗研究了各種融合方案對zRTE的影響.已有的時間表示學習方法通常利用時間信息僅擴展一個靜態(tài)表示學習方法,例如TTransE[5]和HyTE[6].RTE是方法無關的,可擴展任意的靜態(tài)嵌入方法(例如TransE,DistMult,SimplE).
本文將時間嵌入RTE與DistMult和SimplE結合,提出RTE-DistMult和RTE-SimplE.
RTE-DistMult使用向量eRTE表示實體時間嵌入,對角矩陣Mr=diag(r)表示關系嵌入,定義如下評分函數(shù)
本文使用時間嵌入RTE替換DistMult和SimplE中的靜態(tài)嵌入,有效捕捉了頭尾實體在時間空間的潛在語義交互.
知識圖譜中的事實被劃分為訓練集、驗證集和測試集.本文通過最小批隨機梯度下降算法學習方法參數(shù).對于最小批B中的事實四元組,本文生成兩種查詢(v,r,?,t)和(?,r,u,t).對于(v,r,?,t),生成候選集合C(f,v),對于(?,r,u,t),生成候選集合C(f,u).然后,本文使用二分類交叉熵損失函數(shù)訓練方法的參數(shù),定義如下
算法1展示了RTE方法的訓練過程.RTE模型采用Xavier[7]初始化方式,將實體和關系初始化為均勻分布的隨機向量.在算法的迭代循環(huán)過程中,首先對實體嵌入和關系嵌入進行歸一化,然后從知識圖譜訓練集中隨機抽取一小批次三元組作為訓練樣本,通過隨機替換訓練集中每個三元組的實體或關系,生成負三元組集合.集合由成對的正三元組和負三元組組成.最后,通過最小化損失函數(shù),迭代更新實體嵌入和關系嵌入,直到算法在驗證集上性能收斂或達到最大迭代次數(shù).
算法1 RTE模型訓練算法
本文在時間標記的標準數(shù)據(jù)集ICEWS14和ICWES05-15上進行鏈接預測實驗,與不同的基準方法進行比較,評估RTE-DistMult和RTE-SimplE的性能.
ICEWS14和ICEWS05-15是時間知識圖譜ICEWS的子集.ICEWS是一個包含時間戳和政治事件的知識庫.ICEWS提供從1995年到2015年發(fā)生的,由實體(例如國家、地區(qū)、總統(tǒng))和關系(例如訪問、會面、談判)組成的政治事實.ICEWS14對應2014年的事實,ICEWS05-15對應2005年4月1日到2016年3月31日的事實.ICEWS14包含7 128個實體,230個關系,365個時間戳和90 730個三元組.ICEWS05-15包含10 488個實體,251個關系,4 017個時間戳和479 329個三元組.表1展示了數(shù)據(jù)集的統(tǒng)計信息.
表1 數(shù)據(jù)集的統(tǒng)計信息
對比基準可分為靜態(tài)表示學習方法和時間表示學習方法.對于靜態(tài)表示學習方法,選擇TransE、DistMult和SimplE進行對比;對于時間表示學習方法,選擇TTransE、TA-DistMult、DE-DistMult和DESimplE進行對比.
鏈接預測的目的是預測給定事實缺失的實體.為驗證RTE-DistMult和RTE-SimplE的性能,在ICEWS14和ICEW05-15數(shù)據(jù)集上進行鏈接預測實驗.按照TransE過程,對正確四元組進行負采樣,分別用于頭實體預測和尾實體預測.對于測試集中的每個四元組,使用實體集合中的所有實體替換頭實體或尾實體,構造候選四元組集合.然后,按照評分函數(shù)計算的得分降序排列候選四元組,存儲正確實體的排名,并按照評價指標計算實體的預測結果.考慮到候選四元組可能存在知識圖譜,按照TransE的設置,從候選四元組集合中,剔除存在訓練集、驗證集和測試集的候選四元組.為評估方法性能,選擇兩個標準指標:Mean Reciprocal Rank(MRR)和Hits at N(Hits@N).MRR表示所有正確實體的平均倒數(shù)排名,Hit@N表示正確實體排在前n個預測實體中的比例.方法的鏈接預測性能越好,MRR越高或Hits@N越高.
本文使用Pytorch框架實現(xiàn)RTE-DistMult和RTESimplE,并在單個GPU上進行實驗.對于基準方法,引用原始論文中報告的實驗結果.根據(jù)方法在驗證集上的MRR指標,通過網(wǎng)格搜索尋找最佳超參數(shù).本文將學習率lr設置為0.001,從{256,512,1024}中選擇批大小B,從{50,100,200,300,4005,00}中選擇維度d,從{1,5,10,20,50,100,200}中選擇訓練樣本的負采樣個數(shù)ne.在不同數(shù)據(jù)集上最佳的參數(shù)配置如下:在ICEWS14上,對于RTE-DistMult,B=512,d=500,ne=100,對于RTE-SimplE,B=512,d=500,ne=200;在ICEWS05-15上,對于RTE-DistMult,B=256,d=500,ne=100對于RTE-SimplE,B=256,d=500,ne=200.
表2展示了RTE-DistMult和RTE-SimplE在基準數(shù)據(jù)集上的鏈接預測結果.從表2中可以看出:①RTE-DistMult明顯優(yōu)于其他基于DistMult的基準TA-DistMult和DE-DistMult,RTE-SimplE優(yōu)于基于SimplE的基準DE-SimplE,由此顯示了RTE相較于DE的優(yōu)越性.②RTE-SimplE優(yōu)于RTE-DistMult,證明SimplE具有較強的表現(xiàn)力.③RTE-SimplE在各個評價指標上取得先進的性能,進一步表明RTE的有效性.
表2 ICEWS14和ICEWS05-15數(shù)據(jù)集上的結果
本文在公式(2)中使用正切和正弦作為融合系數(shù),為了研究不同融合方案對RTE的影響,進一步進行RTE變體的實驗.表3展示了RTE-DistMult的變體在ICEWS14上的實驗結果.從表3中可以看出:相較于其他融合方案(sigmoid,relu等[8]),tanh和sin的組合產(chǎn)生更好的性能,可能由于tanh對應于平滑的特征切換,可模擬實體的特征選擇,sin對應多個開關的特征切換,模擬時間的特征選擇(在某個時間開始并在某個時間結束).
表3 RTE-DistMult的變體在ICEWS14數(shù)據(jù)集上的結果
圖1a和圖1b分別顯示了RTE-SimplE和DESimplE在ICEWS14數(shù)據(jù)集上的MRR值與維度和負采樣之間的關系.圖2a和圖2b分別顯示了RTEDistMult和DE-DistMult在ICEWS14數(shù)據(jù)集上的MRR值與維度和負采樣之間的關系.從圖1a和圖2a可以看出,隨著維度的增加,RTE-DistMult和DEDistMult的MRR指標迅速增大,逐漸趨于平穩(wěn),達到峰值后略有下降,性能的輕微下降可能是由于參數(shù)過多導致過擬合.從圖1b和圖2b可以看出,隨著負采樣值變大,MRR指標平穩(wěn)增長至最大值.增大負采樣率可以在一定程度上提升方法的性能.圖1和圖2的結果表明RTE-DistMult始終優(yōu)于DE-DistMult,RTE-SimplE始終優(yōu)于DE-SimplE,驗證了RTE的有效性和優(yōu)越性.
圖1 RTE-SimplE和DE-SimplE在ICEWS14數(shù)據(jù)集上的MRR值
圖2 RTE-DistMult和DE-DistMult在ICEWS14數(shù)據(jù)集上的MRR值
本文提出一種關系感知的時間實體嵌入RTE,學習關系感知的時間特征,并通過一種簡單有效的融合機制耦合靜態(tài)特征和時間特征.RTE是方法無關的,可擴展到任何靜態(tài)知識表示學習方法.本文將RTE與DistMult和SimplE結合,提出RTE-DistMult和RTESimplE,并在基準數(shù)據(jù)集上設計了對比實驗.實驗結果驗證了RTE的有效性.