隋國華,李陶然,劉 昊,陳 林,汪 衛(wèi)
(1.中國石油化工股份有限公司 勝利油田分公司物探研究院,山東 東營 257022;2.復旦大學 計算機科學技術學院,上海 200438)
知識圖譜作為符號主義發(fā)展的產(chǎn)物,被認為是許多人工智能系統(tǒng)的重要組成部分[1]。知識圖譜的本質(zhì)是由蘊藏在圖片、文本、音頻、數(shù)據(jù)庫中的海量知識組成的大規(guī)模異構語義網(wǎng)絡,其使用實體與關系進行知識表示,并通過三元組或圖數(shù)據(jù)結構的形式進行存儲[2]。知識圖譜的概念一經(jīng)提出就受到商業(yè)和學術界的廣泛關注,也因此誕生了許多具有代表性的知識圖譜,如百科類通用知識圖(Freebase、DBpedia、YAGO 等)、概念圖譜(Probase IsA)以及領域特定知識圖譜(GeoNames 等)[3]。在醫(yī)學方面,生物醫(yī)學發(fā)展至今已經(jīng)具備了一套完善的知識體系,包括且不限于藥物、基因、疾病、蛋白、通路等實體及其之間的相互關系,也隨之誕生了一些較為有名的醫(yī)療數(shù)據(jù)集,如DrugBank[4]、Yamanishi_08[5]、Chem2Bio2RDF[6]等。知識圖譜的概念被提出后,這些數(shù)據(jù)集也陸續(xù)被轉(zhuǎn)變?yōu)閷念I域知識圖譜,并應用于各類醫(yī)學圖譜的研究中。
文獻[3]介紹了知識圖譜的研究方向。知識圖譜天然具備不完整性,這主要是由于圖譜中的知識一般都是通過規(guī)則或深度學習模型從結構化與非結構化的原始數(shù)據(jù)中自動抽取而來,原始數(shù)據(jù)的信息缺失、規(guī)則的不完備以及模型的錯誤預測都會導致最終知識的缺失。此外,現(xiàn)實世界中的知識會隨著時間不斷變化,新知識不斷產(chǎn)生的同時已有的部分知識也會失效。以上兩點原因使得封閉世界假設在知識圖譜上不再成立[2],因此,近五年來,知識圖譜補全(Knowledge Graph Completion,KGC)與關系預測(Relation Prediction,RP)成為圖譜研究的熱點分支。上述兩者本質(zhì)上都是基于已知的事實或知識推斷得出隱藏事實或知識的過程[7],因此,可以將它們歸為知識圖譜推理。然而,在領域知識圖譜的推理方面,現(xiàn)有的主流推理模型多數(shù)是針對缺失信息的百科知識圖譜遷移而來,在領域知識圖譜上的應用具有很大的局限性。例如,百科圖譜的實體類別缺失迫使相關研究采用同構的處理方式,這必然會導致語義信息的丟失進而影響推理性能。而領域知識圖譜存儲的知識往往較為完備,針對領域圖譜的模型研究應當利用其異構性。此外,現(xiàn)有的推理模型僅考慮圖譜本身包含的信息,通過統(tǒng)計的方法學習其中蘊含的特征,忽略了人為定義的先驗規(guī)則在推理任務中能提供的幫助。領域知識圖譜往往包含更多的領域相關語義信息,如何將領域知識作為先驗知識來指導模型推理同樣值得研究。
本文以醫(yī)學領域知識圖譜為例,分析領域圖譜區(qū)別于百科圖譜的顯著特點,提出一種基于翻譯的TransSep 模型,通過為不同類別的節(jié)點分配特定的獨立表示空間來提升模型的表達能力。同時,考慮到現(xiàn)有研究大多忽略了關系預測與三元組分類2 個推理任務之間的關聯(lián)性,提出一種將兩者聯(lián)合訓練、迭代負采樣的訓練策略,從而提高關系預測與三元組分類的效果。在此基礎上,基于元路徑(meta-path)的思想將領域知識融合到知識推理的過程中,進一步提高模型的推理性能。
知識圖譜表示學習是知識圖譜研究中非常重要的一個領域,其主要任務是學習圖譜中實體與關系的一種低維度表示,并將其應用到各類下游任務中。目前表示學習的相關工作主要分為以下幾種:
1)基于翻譯的知識圖譜表示學習。
TransE[8]是知識圖譜表示學習的經(jīng)典模型,它基于翻譯的思想,將關系建模為頭實體到尾實體的翻譯,即對于一個三元組,如果頭實體向量加上關系向量與尾實體向量距離越近,則該三元組的得分越高。后來的許多研究均參考翻譯距離的思想,并針對不足之處進行了改進,如:TransR[9]將實體與關系嵌入到2 個不同的向量空間,以解決實體與關系共用同一個嵌入空間的局限性;TransH[10]將實體與關系映射到一個超平面,以更好地擬合一對多、多對多等復雜關系。
2)基于相似度的知識圖譜表示學習。
TransF[11]將翻譯距離改為翻譯相似度,使用向量點積進行衡量?;谡Z義相似度思想的模型DistMult[12]將TransE[8]中的加法距離改為乘法 距離,其受益于交換律,在對稱關系較多的圖譜中表現(xiàn)出了更好的性能。
3)基于神經(jīng)網(wǎng)絡的知識圖譜表示學習。
NTN 模型[13]先利用多層感知機對原始向量進行轉(zhuǎn)換,再與關系向量進行雙線性變換,以此來提高模型的特征枚舉空間;ConvE[14]使用卷積神經(jīng)網(wǎng)絡層來學習實體與關系之間的深層特征關系。
4)基于隨機游走的知識圖譜表示學習。
近幾年,基于隨機游走的模型(如DeepWalk[15]、Node2vec[16]等)也受到了廣泛的關注與研究。通過假設“圖中距離相近的節(jié)點應具有相似特征”,以圖譜中的每一個實體作為起點,通過隨機訪問鄰居節(jié)點得到隨機游走序列,使用自然語言處理(Natural Language Processing,NLP)領域的詞向量嵌入模型來預訓練實體的嵌入表示。雖然隨機游走模型在一些實體相關的下游任務中能取得較好的表現(xiàn),但是實體之間的關系往往遠比NLP 領域中詞與詞之間的前后文關系更復雜。隨機游走完全拋棄了實體的類型信息以及關系類型信息,較難被應用于關系預測、子圖預測等任務中。在此基礎上,文獻[17]針對異構信息網(wǎng)絡中相似性搜索任務提出了元路徑的概念,文獻[18]通過預定義的元路徑來指導隨機游走序列生成策略,提出Metapath2vec/Metapath2vec++的隨機游走改進模型。
5)基于圖卷積網(wǎng)絡的知識圖譜表示學習。
受到卷積神經(jīng)網(wǎng)絡在計算機視覺領域良好表現(xiàn)的啟發(fā),圖神經(jīng)網(wǎng)絡模型旨在通過類似卷積操作的GNN 層,使每一個實體聚合周邊鄰居實體的特征[19]。目前,被廣泛使用的圖神經(jīng)網(wǎng)絡可以分為基于頻域特征的圖卷積神經(jīng)網(wǎng)絡(Graph Convolution Neural Network,GCN)與基于空域特征的圖注意力神經(jīng)網(wǎng) 絡(Graph Attention Neural Network,GAT)兩大類[20]。GCN[21]基于圖信號處理理論設計了圖卷積層,利用鄰接矩陣的拉普拉斯變換來聚合鄰居節(jié)點的信息。GAT[22]通過在圖神經(jīng)網(wǎng)絡中引入注意力層,讓模型自動學習鄰居實體對于中心實體的重要程度,越重要的鄰居特征越容易被聚合。
不同的知識圖譜表示學習推理模型雖然在表示空間、關系映射方式、三元組得分函數(shù)定義上各有不同,但是這些模型幾乎都具有一個相同的特點,即將所有實體都嵌入到一個相同的表示空間中。在面對實體類別完備的領域知識圖譜時,這種做法會在一定程度上造成類別信息損失,進而影響模型的學習能力。
本文提出一種基于翻譯的推理模型TransSep,該模型針對領域知識圖譜而設計,模型通過為不同類別的實體建立各自獨立的向量空間,有效處理圖譜的異構性,同時使用交替迭代負采樣的訓練策略,通過關系預測與三元組分類2 個任務對模型進行聯(lián)合訓練,最后將領域知識通過元路徑引入TransSep。本文模型框架如圖1 所示。
圖1 TransSep 模型框架Fig.1 Framework of TransSep model
2.1.1 領域知識圖譜的特點
以醫(yī)學領域知識圖譜為例,精準醫(yī)學知識圖譜本體圖如圖2 所示,圖中數(shù)字為對應的實體數(shù)量。該圖譜與百科知識圖譜的不同之處主要體現(xiàn)在如下4 個方面:
圖2 精準醫(yī)學知識圖譜本體結構Fig.2 Ontology structure of precise medical knowledge graph
1)不同類別實體數(shù)量差異較大。
圖2 展示了圖譜實體數(shù)量分布,此分布符合生物醫(yī)學客觀知識規(guī)律,該特點會導致部分關系的頭尾實體數(shù)量不均,這一特點被稱為圖譜的不平衡性[23]。如果建模時沒有考慮關系的不平衡性,則可能導致關系翻譯或映射能力不足,進而導致推理效果下降。同時,實體類別的巨大數(shù)量差異直接導致了三元組數(shù)量的巨大差異,調(diào)查發(fā)現(xiàn)最大差異可達150 多倍。
2)實體類別唯一且類別之間沒有重疊或包含關系。
醫(yī)療圖譜中的每個類別都存在特異性,如基因(Gene)與蛋白(Protein)在醫(yī)學領域是完全獨立的2 個概念,不存在一個既是基因又是蛋白的物質(zhì)?;诖颂攸c,可對每種不同類型的實體使用維度特異的獨立表示空間,在提升圖譜嵌入枚舉空間與靈活性的同時還能將類別信息融合到模型中。另外,圖譜中沒有對每個類別再做細分,如藥物對蛋白質(zhì)的作用可以進一步細分為51 種不同的子關系。細分類別對推理性能的影響也值得探索。
3)類型之間關系確定,且以非對稱關系為主。
該特點同樣源自于生物醫(yī)學客觀知識,如基因與蛋白2 種類別之間的聯(lián)系必然是基因指導蛋白編碼,而非其他。該特點意味著某些對頭尾實體順序不敏感的模型可能在此圖譜中表現(xiàn)不佳。
4)存在明星實體與邊緣實體。
明星實體指度(Degree)顯著高于其他節(jié)點的實體,邊緣實體則相反。例如基因?qū)嶓w中有5 個明星基因可以分別導致500 多種不同的疾病,但是同時也有66 247 個邊緣基因沒有任何疾病記錄。在推理過程中,度越高的實體越會出現(xiàn)在三元組集合中,被訓練的次數(shù)越多,越容易得到最優(yōu)解甚至產(chǎn)生過擬合。另外,醫(yī)療圖譜中也存在孤立節(jié)點,該類節(jié)點無法在關系推理中提供任何有價值的信息,因此,在進行推理時需要將它們?nèi)コ?/p>
2.1.2 獨立表示空間
在第2.1.1 節(jié)中提到,醫(yī)療知識圖譜不存在類別缺失和包含關系,因此,可以將各個類別分配到各自的特征空間中,定義如下:
其中:h、t分別代表三元組頭尾實體的嵌入向量;femb為模型的嵌入層;?、t表示實體編號;type(e)代表實體e的類別。
嵌入層也可以由圖1(b)直觀地表示,可以看出,不同類型的實體被嵌入到維度不盡相同的獨立向量空間中,這種特定于實體類別的獨立表示空間的模型結構能增強模型的表示能力。對于實體數(shù)量較多的實體類別(如Gene),可以賦予更高的向量維度,進而擬合更復雜的語義關系;反之,將實體數(shù)量較少的實體類別映射到較小的維度,可以在防止過擬合的同時加速收斂。此外,由于每一個實體在其類別嵌入空間中僅學習自己區(qū)別于其他同類別實體的語義特征,因此,該結構還能在一定程度上融合實體類別信息,避免實體嵌入到同一空間后造成的類別信息丟失問題。
2.1.3 映射翻譯距離與得分函數(shù)
對于關系預測任務,需要為關系定義一種表示形式(如翻譯距離、語義相似度),并基于此定義一個三元組的得分函數(shù),得分越高的三元組越可能是正確的知識。本文基于第1 節(jié)中的翻譯距離思想,提出映射翻譯距離模型,該模型使用特定于實體類別的獨立表示空間,并將關系r視為頭實體? 表示空間到尾實體t表示空間的一種翻譯:
使用基于映射翻譯距離表示關系,可以有效應對圖譜中的不平衡性問題。由于頭尾實體的數(shù)量存在差距,翻譯模型會導致經(jīng)過關系翻譯后的頭實體局限于尾實體中的一小片空間。而本節(jié)將2 種類型實體之間的關系建模為模式映射,可以將頭實體空間中的節(jié)點映射(翻譯)到尾實體空間的對應語義位置,從而有效解決上述局限性問題。
本文也使用翻譯距離作為三元組的得分函數(shù),即頭實體? 經(jīng)過關系r映射(翻譯)后,在尾實體嵌入空間與尾實體t的距離,距離越小三元組得分越高,因此,得分函數(shù)定義為映射翻譯距離的相反數(shù):
對于關系預測任務,本文采用現(xiàn)有研究中主流的margin-base 損失函 數(shù)[8,10-11,15,23,26]作為模 型的訓 練目標,該損失函數(shù)通過隨機負采樣,使得正三元組樣本的得分與負三元組樣本的得分差盡可能大,并通過間隔參數(shù)γ來判斷結果優(yōu)劣。損失函數(shù)如下:
已有研究對于三元組分類任務的處理本質(zhì)上與關系預測是相同的,其做法一般是直接基于三元組得分函數(shù)設置一個閾值,得分超過閾值的三元組視為正確,反之為錯誤,然后利用驗證集分類準確率確定閾值的取值[10,23]。這種做法僅利用了關系預測任務訓練出的得分函數(shù)作為一種三元組分類的依據(jù),實際類似評估推理任務學習能力好壞的一個指標,而非一個新的任務。本文認為三元組分類是一個可以單獨進行訓練的重要任務:一方面,一個優(yōu)秀的三元組分類器可以在關系推理前快速過濾掉分類為負的樣本,縮小預測時的搜索空間;另一方面,三元組分類可以與關系預測相結合,互相指導對方的負采樣過程,第2.3 節(jié)將具體討論這一點。因此,本文提出三元組特征空間,將頭實體與尾實體通過關系r投射到三元組空間中,并在該空間中訓練一個三元組分類器。具體來說,對于每一種關系類型r,訓練2 個映射矩陣2 個映射矩陣分別將頭實體與尾實體向量從其原始嵌入空間中映射到三元組空間Rd,并將兩者映射后的向量相連接,得到三元組的向量表示,如下:
其中:htriple、ttriple分別指頭尾實體映射到三元組空間的特征向量;“‖”指向量連接操作。在得到三元組的向量表示后,將其輸入一個分類器,預測該三元組是否正確。為了簡化模型,本文采用單全連接層加Sigmoid 激活函數(shù)作為分類器,并使用上述關系預測任務中預訓練的實體嵌入表示作為其初始特征向量,該模型的損失函數(shù)如下:
其中:y(i)代表第i個樣本的標簽;fθ代表三元組分類函數(shù)。
第2.2 節(jié)中提到,三元組分類能在訓練過程中與關系預測任務相結合,互相指導對方的負采樣過程。具體來說,在關系預測任務中排名靠前的負樣本,應使其在三元組分類任務中盡可能地被判別為負例,而在三元組分類任務中誤判為正的負樣本,應使其在關系預測任務中擁有更低的得分。通過將這2 個任務相結合,在每一個訓練輪次中,關系預測任務與三元組分類任務對實體嵌入向量進行交替訓練并指導下一個輪次中對方的負采樣,可以在互相提升對方效果的同時學習到一個適用于2 個任務的更優(yōu)的實體嵌入表示。式(10)、式(11)給出負采樣三元組的定義:
推理模型TransSep 本質(zhì)上僅基于圖譜自身統(tǒng)計信息,只能學習到圖譜本身所包含的結構與關系特征,而先驗的邏輯規(guī)則往往能提供豐富的語義信息,因此,本節(jié)從元路徑的角度出發(fā),將領域知識融合到TransSep 模型中。
2.4.1 醫(yī)學圖譜中的元路徑
元路徑定義為異構圖譜上由某些種類的實體和關系共同構成的一條序列,用來描述序列頭尾實體之間的相似度或關聯(lián)程度。一條由元路徑構成的序列可以定義如下:
其中:T、R分別代表圖譜的節(jié)點類型和關系類型。
表1 列舉了幾條精準醫(yī)學圖譜上的元路徑,其語義可以表示為:P1代表“2 個不同的藥可以治療同一種疾病”;P3代表“2 種藥各自治療的疾病是由同一種基因造成的”。
表1 預定義的元路徑 Table 1 Pre-defined meta-paths
對于醫(yī)學圖譜推理任務,元路徑可以提供豐富的規(guī)則信息,例如在預測“一個藥能治療哪個疾病”時,通過元路徑P1進行隨機游走可以得到多條形如“Drug→Disease→Drug→…→Disease→Drug”的游走序列。當某藥物與某疾病可以通過多條游走序列連通時,則該藥物通??梢灾委熢摷膊?。這種模式在醫(yī)學圖譜或其他通用圖譜中都是普遍存在的,其表達的語義為“若許多其他藥物能和藥物A 共同治療某種疾病,且這些其他藥物又能治療疾病B,則藥物A 也有可能治療疾病B”。因此,預定義若干元路徑,可以使得推理模型在預測某一實體的關系時考慮元路徑上其他實體對關系的影響,以獲得更好的推理結果。
2.4.2 基于元路徑的統(tǒng)一實體嵌入預訓練
圖嵌入預訓練模型被證明可以有效提升各種下游任務的效果[12,16,27]。受此啟發(fā),本文使用第1 節(jié)中提到的Metapath2vec++模型對推理模型中隨機初始化的實體嵌入向量進行預訓練。Metapath2vec++模型的前提假設為“出現(xiàn)在同一條元路徑上的相鄰實體擁有相似特征”,正符合醫(yī)學圖譜推理中實體間應存在的關系。Metapath2vec++基于skip-gram 算法,其要求所有嵌入向量維度統(tǒng)一,無法直接適用于TransSep 模型。因此,本文在模型中加入統(tǒng)一實體嵌入預訓練層用以兼容Metapath2vec++。具體來說,該層先對所有類別的實體利用Metapath2vec++預訓練嵌入到一個統(tǒng)一的高維表示空間中,然后每一種實體類別再分別映射到該類別的獨立表示空間中,定義如下:
其中:epre表示實體e經(jīng)過Metapath2vec++預訓練后的嵌入向量;e為式(1)定義的獨立表示空間向量;dpre為統(tǒng)一 的預訓 練表示 空間維 度;dτ為實體e對應類別τ=type(e)的獨立表示空間維度。加入基于元路徑的統(tǒng)一實體嵌入預訓練層后,整個模型的結構如圖1(a)所示。預訓練模型的損失函數(shù)如下:
其中:ecenter表示skip-gram 窗口中的中心節(jié)點嵌入向量;epos與eneg分別表示窗口內(nèi)的鄰居節(jié)點與負采樣節(jié)點的嵌入向量為負采樣的概率分布。
2.4.3 基于元路徑的圖注意力聚合
基于元路徑的圖注意力聚合包括如下2 個方面:
1)元路徑內(nèi)的圖注意力聚合。
受到文獻[28-29]的啟發(fā),在推理模型中加入圖注意力神經(jīng)網(wǎng)絡層(GAT)不僅可以聚合元路徑鄰居實體的特征信息,還能學習每個元路徑鄰居對特定關系預測任務的重要程度。因此,本文進一步對TransSep 模型進行改進,在關系預測模型中融入元路徑圖注意力神經(jīng)網(wǎng)絡層,以充分利用元路徑提供的規(guī)則信息。
對于一個實體e與元路徑P,所有從e出發(fā)通過該元路徑能到達的實體e'(包含e自身)構成了該實體e在該元路徑P上的鄰居實體集合,記為N Pe??紤]到主流的注意力算法要求相同維度的特征向量,因此,本文基于Bahdanau 注意力對GAT 層進行改進。具體來說,對于一個實體e與其在元路徑P上的鄰居e',e'對e的重要程度定義如下:
其中:τ 與τ′分別為e與e'的向量長度。得到所有元路徑鄰居對實體e的重要程度后,使用Softmax 計算每個鄰居的權重:
最后對元路徑鄰居的特征進行加權平均,得到實體e經(jīng)過該GAT 層聚合鄰居特征后的輸出,如下:
由于上述GAT 層的作用是學習一個元路徑內(nèi)部鄰居實體相互之間的重要性并聚合鄰居特征,因此,可以稱其為元路徑內(nèi)的圖注意力層,圖1(c)直觀地展示了該層結構。
2)元路徑間的圖注意力聚合。
元路徑內(nèi)的圖注意力層可以讓實體聚合一條元路徑模式內(nèi)鄰居節(jié)點的特征。然而,預定的元路徑可以存在不止一條,當同一個實體同時出現(xiàn)在多條元路徑中時,不同元路徑提供的語義信息的重要程度也不同。因此,還需要一個元路徑間的圖注意力層聚合同一實體來自不同元路徑中的信息。具體來說,假設存在n條元路徑{P1,P2,…,Pn},實體e經(jīng)過元路徑內(nèi)的圖注意力層后輸出為{eP1,eP2,…,eP}n,記第i條元路徑的重要程度為,其定義如下:
此時可以通過Softmax 得到每條元路徑的權重αPi,然后加權得出元路徑間GAT 層的輸出特征向量:
在關系預測模型中加入上述元路徑內(nèi)與元路徑間圖的注意力層后,式(4)中的三元組得分函數(shù)變?yōu)槿缦拢?/p>
本文實驗數(shù)據(jù)來自近年來國家重點研發(fā)計劃“精準醫(yī)學知識圖譜構建”項目產(chǎn)出的精準醫(yī)學知識圖譜,項目組在過去幾年中從醫(yī)療序列關系、醫(yī)學詞典、診斷指南等信息源中構建出包含12 個類別、300 多萬個實體以及接近500 萬條關系的領域知識圖譜。
對比模型選取翻譯距離模型TransE[8]及其變體CONVTRANSE[30]和SIM+GCN+CONVTRANSE[31]、語義相 似度模 型DistMult[12]及其變 體TriModel[32]和ComplEx[33],另外還加入沒有元路徑指導的隨機游走模型Node2vec[16]。當連續(xù)3 個輪次的平均驗證集損失不再下降時,認為模型已經(jīng)收斂。
實驗使用的評價指標如下:
1)MR(Mean Rank)。MR 表示對于所有測試集三元組,正確的實體? 或t在所有實體中排名的平均值。該指標越小,說明模型越能賦予正三元組高置信度。
2)Hit@N。Hit@N表示正 確實體? 或t排在前N名的概率。該指標越大,說明模型的推理效果越好。N通常的取值包括1、3、10、50 等,現(xiàn)有研究一般使用Hit@10 作為實驗結果對比標準[34]。
3)F1 值。F1 值反映了模型的精確率和召回率,當兩者都高時,F(xiàn)1 值才會取得較高的值。
3.3.1 TransSep 本體結構性能評估
由于醫(yī)學圖譜中存在大量一對多的關系,因此對于一個測試集三元組(?,r,t),可能存在多個實體e滿足(?,r,e)∈G,且e≠t,這些正樣本會有較高的得分而排在預測結果中較前的名次,從而對測試集中尾實體t的排名造成較大影響,因此,本文所有實驗結果均采用將上述所有正樣本e排除后的指標,后續(xù)不再特別聲明。實驗結果如表2 所示,其中,最優(yōu)數(shù)據(jù)用加粗標注,次優(yōu)數(shù)據(jù)用下劃線標注。從表2 可以看出,本文提出的TransSep 模型在關系預測任務中各項指標表現(xiàn)均優(yōu)于其他主流模型。
表2 關系預測的實驗結果 Table 2 Experimental results of relation prediction
3.3.2 引入元路徑的TransSep 性能評估
本節(jié)對加入元路徑圖嵌入預訓練后的模型進行實驗,基于生物醫(yī)學背景知識,共預定義3 條metapath,其路徑與語義依據(jù)如下:
1)表1 中的P1,2 種藥能治療同一種疾病,3 個元素間應具有相關聯(lián)的特征。
2)表1 中的P3,2 種藥分別能治療同一基因引起的2 種疾病,5 個元素間應該具有相關聯(lián)的特征。
3)Protein→Gene→Disease→Gene→Protein,2 種蛋白分別由2 個能導致同一疾病的基因編碼,5 個元素間應具有相關聯(lián)的特征。
模型的預訓練過程使用小批次隨機梯度下降方式,并采用噪聲對比估計來加速訓練過程。實驗結果如表3 所示。
表3 元路徑的實驗結果 Table 3 Experimental results of meta-path
在 表3 中,MP2v 是僅使 用Metapath2vec++的TransSep模型,MPAtt 是僅使 用GAT 的TransSep 模型。從表3 可以看出,沒有元路徑指導的隨機游走模型Node2vec[16]預訓練對關系預測任務具有一定的提升效果,但是對三元組分類沒有明顯幫助,而加入元路徑信息的Metapath2vec++相比隨機游走模型進一步優(yōu)化了關系預測模型的表現(xiàn),同時也在一定程度上提升了三元組分類的效果。
相比預訓練,元路徑注意力層對關系預測任務的提升效果更加明顯,這主要是由于元路徑注意力層參數(shù)更復雜,使其能更有效地表示元路徑鄰居之間的相互關系。同時,相比預訓練,該層的參數(shù)可以不斷訓練,因此,能更好地學習元路徑對具體任務提供的信息。由于兩者分別在數(shù)據(jù)輸入層和編碼層與TransSep 相融合,因此可以將兩者全部融入推理模型中。從實驗結果可以看到,融合兩者的模型取得了最優(yōu)表現(xiàn)。
此外,無論是預訓練還是注意力層,元路徑對三元組分類任務的效果提升都較為有限。本文認為這是由于不引入元路徑的TransSep 模型已經(jīng)對“三元組是否正確”這一粗粒度問題的判斷較為準確,而元路徑中包含的額外規(guī)則信息僅能對更細粒度的預測任務提供幫助,即“在正確的三元組中,哪個三元組的置信度更大”。雖然元路徑信息的融合使得模型變得更復雜,但是考慮到關系預測是圖譜推理任務中最重要的部分,本文認為引入額外的預訓練過程是合理且有意義的做法。
大多數(shù)的深度學習任務可以完全隨機地對所有樣本進行訓練集與測試集的劃分。然而,知識圖譜推理任務卻由于表示學習的不可遷移性而不具備上述特性。舉例來說,如果一個實體的度很小或僅為1,則當其被掩蓋劃分進測試集時,訓練集中將失去關于該節(jié)點的大部分乃至全部信息,導致模型難以預測該關系。醫(yī)療圖譜存在明星節(jié)點與邊緣節(jié)點的異質(zhì)性,基于上述考慮,本文進一步研究數(shù)據(jù)集劃分對醫(yī)療圖譜推理結果的影響,分別針對明星實體(度大于200)、普通實體(度介于2 與200 之間)、邊緣實體(度等于1)以及隨機劃分測試集這4 種情況下的推理效果進行實驗,結果如表4 所示。
表4 數(shù)據(jù)集劃分的實驗結果 Table 4 Experimental results of datasets partition
實驗結果驗證了上述觀點,即邊緣實體僅有的關系特征被掩蓋后,其嵌入向量無法得到學習,模型也無法對其進行預測,而模型對明星實體的關系預測表現(xiàn)也較差,本文認為這是由于明星實體呈現(xiàn)的關系過于復雜,模型更容易欠擬合。從上述結果中可以得出結論,推理模型較難應對圖譜中存在的異質(zhì)性問題,因此,不同的數(shù)據(jù)集劃分策略對推理結果會產(chǎn)生不同的影響。在進行推理任務對比研究時應固定訓練集與測試集,以避免數(shù)據(jù)集劃分對結果造成干擾。
第2.1.1 節(jié)提到醫(yī)療圖譜中的類別可以進一步拆分,本節(jié)對此進行實驗,比較Target 關系是否拆分對關系預測效果的影響,結果如表5 所示。
表5 關系拆分的實驗結果 Table 5 Experimental results of relation partition
從表5 可以看出,將Target 關系拆分成51 種子關系后,模型效果有顯著提升,這是由于模型的關系枚舉空間大幅增加,不再受限于使用單一關系映射來表示所有藥物與蛋白之間的聯(lián)系。這一結果表明,更具體的關系不僅可以在模型中融合更多的語義特征,還能提升模型的表示能力。因此,在未來的研究中可以從生物醫(yī)學角度考慮將每種關系拆分成子關系的可能性,以提高關系推理的效果。
元路徑中規(guī)則的語義信息也會造成模型效果的差異,現(xiàn)有大多數(shù)關于元路徑的研究[17-18,29]中都使用類似表1 中P1的簡單語義元路徑,也有一些研究[35]將元路徑設計為包含多種類別實體的復雜模式。本文設計并對比分析4 種不同的元路徑對推理模型效果的影響,分別對應 簡單1-hop 關系(如P1、P2)、2-hop 關系(如P3)以及復雜關系模式(如P4),具體如表1 所示,其中,P4表示生物醫(yī)學領域的一種典型鏈路,其語義可以理解為“一個基因編碼了一個蛋白,當其發(fā)生突變時會導致一種疾?。ㄓ捎诘鞍桩惓1磉_),另有一種藥是該蛋白的靶向藥(抑制蛋白),因此,此藥可以治療該疾病”,在上述語義示例中可以看出,基因、蛋白、疾病、藥這4 個實體具有強烈的相互關系。
實驗共分3 組進行,為了保證實驗中所有實體類別都出現(xiàn)在元路徑中,每組實驗可能使用不止一條元路徑。實驗結果如表6 所示,可以看出,包含生物學意義與更豐富語義信息的元路徑P4對推理模型的效果提升最大。
表6 不同的元路徑設計對推理效果的影響 Table 6 The impact of different meta-path designs on inference effect
基于上述結論,本文提出以下2 點建議:
1)包含更多語義的復雜模式比簡單元路徑更能在全局上提供信息,且該模式應盡可能具備某種現(xiàn)實意義。以此為依據(jù)設計元路徑可以提升元路徑規(guī)則對推理模型的影響。
2)可以將不同關系類型的推理任務進行拆分,即對每種類型的關系(或多個具有強相互關聯(lián)的關系)訓練不同的推理模型,并引入包含該特定關系的元路徑以提升其推理效果。
增加元路徑的數(shù)量也會帶來一些問題:
1)增加元路徑的數(shù)量會直接導致模型復雜度提升。假設實體的數(shù)量為n,實體類別的數(shù)量為N,預訓練窗口大小為k,實體的平均嵌入維度為d,則每增加1 條元路徑,都會使得預訓練的樣本數(shù)量增加kn,圖注意力層的訓練參數(shù)數(shù)量增加Nd2。
2)增加元路徑的數(shù)量意味著每個實體擁有的平均元路徑鄰居數(shù)量增多,由于GAT 層難以并行計算,因此過多的元路徑無論對模型的訓練還是預測都會造成很大的計算開銷。
3)過多的元路徑可能會導致模型表示能力下降,尤其是在預訓練過程中,增加元路徑數(shù)量就要求實體的嵌入向量能表示出更多的復雜關系,每條不同的元路徑都可能將嵌入向量往不同的方向優(yōu)化,導致模型對每一條元路徑規(guī)則的擬合效果都不理想。
出于上述考慮,本文對元路徑的數(shù)量進行實驗。具體來說,對于表1 中定義的4 條元路徑,實驗依次測試不使用元路徑以及在模型中分別融入{P1}、{P1,P2}、{P1,P2,P3}、{P1,P2,P3,P4}時的推理效果,實驗結果如表7 所示。
表7 元路徑數(shù)量對推理效果的影響 Table 7 The impact of the number of meta-paths on inference effect
從表7 可以看出,在前3 條元路徑增加的過程中,模型由于獲得了更多的規(guī)則信息,表現(xiàn)出了更好的推理效果。然而,對于P4,即使第4.3 節(jié)中證明了該元路徑比前3 條更有效,在前3 條的基礎上將其加入后也沒有較為明顯的效果提升,還顯著增加了模型的計算開銷。因此,在設計與選擇元路徑時,需要在元路徑的數(shù)量、模型的計算開銷、推理的效果之間取得一個平衡。結合表7 結果與第4.3 節(jié)中的結論,本文認為在醫(yī)療圖譜推理任務的實際應用中,應傾向于較少的元路徑數(shù)量,每條元路徑應盡可能符合某種生物學意義,或?qū)μ囟愋偷年P系預測具有指導作用,且元路徑應能覆蓋所有的實體類別,以便提供更多的語義信息。同時,考慮到醫(yī)療圖譜中并非所有關系類型都是可推理的,也有一部分關系缺乏推理的實際應用價值,因此,可以進一步明確推理的關系類型,針對每種關系訓練不同的模型以獲得更優(yōu)的效果。
本文基于知識圖譜表示學習技術,以精準醫(yī)學知識圖譜為例,針對領域知識圖譜推理任務進行研究。首先,闡述知識圖譜嵌入與知識圖譜推理的各類主流模型結構、方法論及其局限性;然后,考慮到上述模型在領域知識圖譜中缺乏遷移與泛化能力,分析所研究的領域圖譜區(qū)別于通用百科圖譜的結構特點,并基于翻譯距離原則提出針對領域圖譜優(yōu)化的推理模型TransSep,該模型在推理任務中取得了較好的表現(xiàn);最后,考慮到生物醫(yī)學本身作為一個研究型學科,其知識體系中的一些規(guī)律可以作為先驗規(guī)則融合到深度學習推理模型中,為推理任務提供更多的語義信息,因此,基于異構網(wǎng)絡中元路徑的概念,將領域規(guī)則融合到TransSep 模型中,進一步提升關系預測任務的效果。
本文的工作對于在領域圖譜中使用圖嵌入與深度學習技術進行推理具有一定的啟發(fā)。隨著知識圖譜的發(fā)展,工業(yè)級知識圖譜的應用正在快速普及[7],而某一領域中的領域規(guī)則往往容易得到。如何針對特定領域設計更優(yōu)的推理模型、在模型中融合領域內(nèi)部規(guī)則信息以及對領域規(guī)則進行選擇,將是下一步的重點研究方向。