摘 要:多數(shù)鏈接預(yù)測模型是解釋性較差的黑盒模型,因此不少學(xué)者提出了針對鏈接預(yù)測的解釋方法,但這些方法存在著解釋的目標(biāo)模型單一、缺乏泛化能力、解釋結(jié)果準(zhǔn)確率不足等缺陷。為彌補這些不足,提出一種基于邊擾動的鏈接預(yù)測的解釋方法。首先利用廣度優(yōu)先搜索得到從頭實體到尾實體的所有路徑,隨后搜索路徑所經(jīng)過實體的鄰居節(jié)點,形成待解釋三元組的訓(xùn)練子圖;然后采用邊擾動的方式在訓(xùn)練子圖上重新訓(xùn)練嵌入模型,計算每條邊對預(yù)測結(jié)果的影響程度;最后通過雙向的束搜索得到對預(yù)測結(jié)果影響程度最大的路徑,作為待解釋三元組的解釋路徑。實驗表明,該方法在公共數(shù)據(jù)集上的性能超過了大多數(shù)的鏈接預(yù)測解釋方法,ACC相較于最先進的方法提升了2.3%,AUPR提升了1.9%。同時在生物醫(yī)學(xué)數(shù)據(jù)集上針對使用鏈接預(yù)測技術(shù)的藥物重定位任務(wù)進行結(jié)果的解釋實驗,其解釋體現(xiàn)了良好的可理解性、啟發(fā)性。提出了一種不依賴于特定模型且有效的解釋方法,該方法通過邊擾動和路徑搜索得到解釋路徑,使結(jié)果的解釋更加直觀和易于理解,同時能夠為不同領(lǐng)域的知識圖譜應(yīng)用提供支持。
關(guān)鍵詞: 知識圖譜; 鏈接預(yù)測; 可解釋性; 模型無關(guān)性
中圖分類號: TP18 文獻標(biāo)志碼: A 文章編號: 1001-3695(2025)02-014-0425-06
doi: 10.19734/j.issn.1001-3695.2024.07.0287
Edge perturbation-based link prediction interpretation
Chen Gengjing1, Guo Gongde1’, Lin Shishui2
(1.College of Computer amp; Cyber Security, Fujian Normal University, Fuzhou 350117, China; 2.Dept. of Orthopedic Surgery, Shengli Clinical Medical College of Fujian Medical University, Fuzhou University Affiliated Provincial Hospital, Fuzhou 350001, China)
Abstract:Most link prediction models are black-box models with poor interpretability. Many scholars have proposed interpretability methods for link prediction. However, these methods often have limitations such as being tailored to a single target model, lacking generalizability, and having insufficient accuracy in the interpretation results. To address these shortcomings, this paper proposed a link prediction interpretation method based on edge perturbation. Firstly, the method used breadth-first search to obtain all paths from the head entity to the tail entity and then search for the neighboring nodes of the entities in these paths to form a training subgraph for the target triplet. Then, the method applied edge perturbation to the subgraph and retrained the embedding model to calculate the influence of each edge on the prediction result. Finally, bidirectional beam search identified the path with the greatest influence on the prediction result, which served as the explanation path for the target triplet. Experiments show that the proposed method outperforms most link prediction interpretation methods on public datasets, improving accuracy (ACC) by 2.3% and area under the precision-recall curve (AUPR) by 1.9% compared to the state-of-the-art methods. Additionally, interpretation experiments on biomedical datasets for the task of drug repurposing using link prediction techniques demonstrate good understandability and inspiration. The main contribution of this paper is the proposal of an effective interpretation method that does not depend on a specific model, which obtains the interpretation paths through edge perturbation and path search, making the interpretation of the results more intuitive and easier to understand, while providing support for knowledge graph applications in different domains.
Key words:knowledge graph(KG); link prediction; interpretability; model independence
0 引言
知識圖譜(KG)是對事實的結(jié)構(gòu)化表示[1],由實體、關(guān)系和語義描述組成。在資源描述框架下,知識圖譜可以用(頭實體;關(guān)系;尾實體)或(主語;謂語;賓語)形式的事實三元組表示。隨著知識圖譜的廣泛應(yīng)用,大型知識圖譜的構(gòu)建和維護變得至關(guān)重要。然而,現(xiàn)實中的知識圖譜往往是稀疏的,尤其是一些大型的知識圖譜,其圖結(jié)構(gòu)可能更加稀疏。為了自動補全這些大型的知識圖譜,鏈接預(yù)測任務(wù)一直是數(shù)據(jù)挖掘領(lǐng)域中一項十分熱門的研究。鏈接預(yù)測任務(wù)主要通過圖結(jié)構(gòu)中的已知信息來預(yù)測一些潛在或是缺失的三元組關(guān)系,借此來完善知識圖譜。
由于芯片算力迅速增長,深度學(xué)習(xí)模型進入了飛速發(fā)展時代,尤其在語音識別、機器視覺、自然語言理解等領(lǐng)域。受益于前者,鏈接預(yù)測的研究趨勢逐漸從傳統(tǒng)方法[2]向深度學(xué)習(xí)模型[3]轉(zhuǎn)變。但有著巨大參數(shù)量與計算量的深度學(xué)習(xí)模型使得人們更加難以具體地了解模型的決策過程,這種“黑盒”特性限制了它們廣泛應(yīng)用在對公平性、隱私性和安全性要求較高的領(lǐng)域中[4]。例如在金融領(lǐng)域中,利用知識圖譜所構(gòu)建的推薦系統(tǒng)[5],不合適的推薦選項會帶來因為精度不足而導(dǎo)致的利益損失,同時數(shù)據(jù)安全性也會受到挑戰(zhàn)[6]。而在智能醫(yī)療中,采用知識圖譜構(gòu)建的專家問診系統(tǒng)一旦無法對診斷的病情給出合理的判斷依據(jù),將無法讓醫(yī)護人員與病人信服。
1 相關(guān)工作
近年來,學(xué)者們逐漸關(guān)注到可解釋性對理解知識圖譜推理結(jié)果能起到的巨大幫助,知識圖譜當(dāng)中的信息不但可以用來推理、預(yù)測,更可以用來解釋模型所得到的結(jié)果,以輔助科研人員開展一些創(chuàng)新性的研究。Xiong等人[7]使用馬爾可夫決策過程找到有價值的推理路徑,并將推理路徑作為預(yù)測結(jié)果的解釋。Xian等人[8]通過從粗到細的神經(jīng)符號來生成推理路徑,作為推薦結(jié)果的解釋。Luo等人[9]通過深度神經(jīng)網(wǎng)絡(luò)參數(shù)化解釋的生成過程,使得其可以集體解釋多個實例來提供對GNN模型全局性的理解,但也會使得泛化能力更容易受到訓(xùn)練數(shù)據(jù)集質(zhì)量和多樣性的影響,如果訓(xùn)練數(shù)據(jù)不能充分代表實際應(yīng)用中的圖結(jié)構(gòu),那么生成的解釋可能不夠準(zhǔn)確或全面。Yuan等人[10]通過生成能夠最大化特定預(yù)測類別的圖模式來解釋模型的預(yù)測結(jié)果,因此這種方法也是為了提供對GNN模型的全局性理解,但它依賴于圖規(guī)則以確保生成圖的質(zhì)量,而這些規(guī)則需要針對不同的應(yīng)用領(lǐng)域進行定制,泛用性有待提升。Ying等人[11]通過最大化互信息來量化預(yù)測概率的變化,為任何基于圖神經(jīng)網(wǎng)絡(luò)的模型提供解釋,因為它是通過優(yōu)化任務(wù)來識別子圖結(jié)構(gòu)和節(jié)點特征的小子集,解釋的可讀性不強且性能表現(xiàn)依賴于GNN模型的內(nèi)部結(jié)構(gòu)和參數(shù)。姚俊萍等人[12]則是將知識圖譜轉(zhuǎn)換為單關(guān)系圖后,利用GNNExplai-ner[11]生成鏈接預(yù)測結(jié)果的解釋子圖,但是由于其在轉(zhuǎn)換單關(guān)系圖時丟棄一部分的信息,所以生成的結(jié)果連通性較差,可讀性不佳。
雖然已有了一些對深度學(xué)習(xí)模型進行解釋的方法,但現(xiàn)有方法都存在一些不足。首先是對模型的限制,部分方法大多是對特定模型的預(yù)測結(jié)果進行解釋,如GNN模型,即泛用性不強,無法對其他的鏈接預(yù)測模型進行應(yīng)用。其次,大部分方法都是針對圖分類任務(wù)所設(shè)計的,得到的結(jié)果多為離散的子圖,其解釋性、可讀性稍弱于頭尾實體之間的路徑。最后,一些利用強化學(xué)習(xí)的方法所得到的解釋高度依賴于所選路徑的相關(guān)性和準(zhǔn)確性,一旦預(yù)測的結(jié)果有誤,也會影響生成的解釋。不同于上述工作,本文提出了一個基于邊擾動的鏈接預(yù)測解釋方法。該方法是一個模型無關(guān)性的方法,能夠應(yīng)用于大多數(shù)的鏈接預(yù)測模型,同時針對知識圖譜的方向性、稀疏性,能夠給出一個在頭尾節(jié)點之間的路徑作為解釋。經(jīng)測試,本文方法在準(zhǔn)確率上優(yōu)于目前大多數(shù)的預(yù)測解釋方法,且可有效地應(yīng)用于藥物重定位領(lǐng)域,為醫(yī)藥人員的工作提供一定程度的輔助與啟示。
2 方法
2.1 問題定義
一般而言,知識圖譜G={E,V,F(xiàn)},E表示連接兩個節(jié)點邊的集合,V表示圖中節(jié)點的集合,F(xiàn)是事實的集合,通過(h,r,t)三元組的形式存儲,h表示頭實體,r表示關(guān)系,t表示尾實體。當(dāng)給定一個知識圖譜嵌入模型M時,它將會對三元組(h,r,t)給出一個置信度的分?jǐn)?shù)s(h,r,t)=M(eh,er,et),其中eh是頭實體h的嵌入,er是關(guān)系r的嵌入,et是尾實體t的嵌入。對于知識圖譜中沒有直接鏈接的兩個實體ha和hb,知識圖譜嵌入模型M將給出這兩個實體之間具有關(guān)系ra的置信度。因此在進行解釋工作前,對知識圖譜作出如下假設(shè):
a)針對知識圖譜當(dāng)中的每一個關(guān)系ri∈R,都存在一個逆關(guān)系r-1i∈R,使得(hi,ri,ti)與(ti,r-1i,hi)的語義相同。如在生物醫(yī)學(xué)知識圖譜中,(colistin,may treat,cholangitis)與(cholangitis,may be treated by, colistin)有著相同的語義,都表示克利斯汀(colistin)可以治愈膽管炎(cholangitis)。
b)(h,r,t)的解釋I(h,r,t)與其語義相同、關(guān)系互逆的(t,r-1,h)的解釋I(t,r-1,h)是等價的,兩者都可以反映出相同的語義,即I(h,r,t,) I(t,r-1,h)。
c)當(dāng)頭實體h和尾實體t確定時,它們之間的關(guān)系r唯一的。
對于知識圖譜G中不存在直接關(guān)聯(lián)的有序?qū)嶓w對(h,t),可通過嵌入模型M給出這兩個實體之間具有關(guān)系r的三元組(h,r,t),h與t之間可通過多條多跳的路徑將其連接起來。三元組(h,r,t)的解釋工作就是尋找對模型給出預(yù)測結(jié)果正向引導(dǎo)最強的一條路徑,將其作為預(yù)測結(jié)果的解釋I(h,r,t)。
2.2 核心思想
傳統(tǒng)因果關(guān)系指的是在基于一系列變量X=(x1,x2,…,xn}對預(yù)測目標(biāo)Y使用函數(shù)f(·)進行預(yù)測時,假如|f({x1,x2,…,xn})-Y|lt;|f({x1,x2,…,xn}\xi)-Y|,即預(yù)測目標(biāo)Y時去除變量xi導(dǎo)致了誤差的增加,則可認(rèn)為xi與目標(biāo)Y存在因果關(guān)系。Lin等人[13]將傳統(tǒng)因果關(guān)系拓展到了圖分類的解釋任務(wù),如果在網(wǎng)絡(luò)當(dāng)中刪除一個節(jié)點或者邊,能夠明顯地干擾預(yù)測結(jié)果、顯著地降低預(yù)測結(jié)果的置信度,那么所刪除的節(jié)點或者邊就與結(jié)果有著一定的因果關(guān)系。但由于知識圖譜中的數(shù)據(jù)具備依賴性、關(guān)聯(lián)性,直接采用這種思想所得到可能會有偏差,所以本文提出了一個基于邊擾動的鏈接預(yù)測解釋方法(edge perturbation-based link prediction interpretation, EP-LPI),將因果關(guān)系的思想進行拓展以解釋鏈接預(yù)測的結(jié)果。文獻[14,15]的實驗證明,頭尾實體周圍的鄰域信息將會影響鏈接預(yù)測任務(wù)的精度,即如果某個鄰域信息的三元組對鏈接預(yù)測結(jié)果有顯著的提升作用,可以認(rèn)為該三元組與預(yù)測結(jié)果具有因果關(guān)系。因此在對知識圖譜的鏈接預(yù)測結(jié)果進行因果分析時,首先定義邊的重要度:當(dāng)給定一個已訓(xùn)練的知識圖譜嵌入模型和一個知識圖譜的實例Gc,嵌入模型計算三元組(h,r,t)的置信度記為δ(h,r,t)∈Gc,在知識圖譜實例中刪除邊ej后,(h,r,t)的置信度記為δ(h,r,t)∈Gc\{ej},其中ej∈Gc。通過這兩個定義,可以量化ej對目標(biāo)嵌入模型,得到三元組(h,r,t)置信度的因果貢獻,即可以理解為ej的重要度。更準(zhǔn)確地說,ej的重要度定義為模型所給出置信度的改變,如式(1)所示。
Δδ,ej=δ(h,r,t)∈Gc\{ej}-δ(h,r,t)∈Gc(1)
為了計算δ(h,r,t)∈Gc和δ(h,r,t)∈Gc\{ej},首先訓(xùn)練知識圖譜嵌入模型M,然后在Gc和不包括邊ej的Gc\{ej}上分別計算(h,r,t)置信度,這兩者的置信度如式(2)(3)所示。
δ(h,r,t)∈Gc=M(Gc,eh,er,et)(2)
δ(h,r,t)∈Gc\{ej}=M(Gc\{ej},eh′,er′,et′)(3)
當(dāng)給定計算圖中邊的因果貢獻后,可以相應(yīng)地對邊進行排序,選擇最相關(guān)的若干條邊組成從h到t的一條路徑作為(h,r,t)預(yù)測結(jié)果的解釋路徑。但由于在實際應(yīng)用時計算圖中所有邊的重要度會產(chǎn)生大量的計算開銷,所以EP-LPI采用貪心算法在頭尾節(jié)點之間雙向搜索重要度最高的若干條邊,將這些邊組成鏈接預(yù)測結(jié)果的解釋。EP-LPI中尋找解釋路徑的算法流程如圖1所示。
由于大型知識圖譜存在完備性不高、圖結(jié)構(gòu)較稀疏的缺點,所以如果不限制對于(h,r,t)所產(chǎn)生的解釋長度,所得到的解釋路徑的可讀性將大大降低。同時,每一條邊的重要度并不是獨立的,例如,由于環(huán)路的存在,某個節(jié)點的1跳鄰居也可能是同一節(jié)點的2跳鄰居,在實際應(yīng)用時進一步合并各種圖規(guī)則以保證路徑的連通性、可讀性。如在圖1中,atopic dermatitis、allergic rhinitis、seborrheic dermatitis這三個節(jié)點可能存在雙向的關(guān)系,即形成環(huán)路,當(dāng)搜索從節(jié)點atopic dermatitis到節(jié)點cyclosporine的最優(yōu)路徑時,有可能得到一個冗余的路徑,因此在圖中去除了環(huán)路以避免循環(huán)引用。
2.3 解釋搜索算法
本文利用貪心算法與邊的重要度設(shè)計了一種尋找鏈接預(yù)測結(jié)果解釋的算法。首先利用廣度優(yōu)先搜索的方式從頭實體h出發(fā),逐跳查找與當(dāng)前實體所連接的邊,計算這些邊的重要度,并根據(jù)重要度進行降序排序。為了縮小搜索空間,只選擇重要度最高的k條邊所連接的節(jié)點作為下一條的目標(biāo),直到解釋路徑達到長度l。
算法1 解釋路徑搜索算法
輸入:知識圖譜Gc;三元組(h,r,t);知識圖譜嵌入模型M;解釋路徑長度l、k。
輸出: 長度為l的解釋路徑P。
初始化隊列Q,集合P
在Gc上訓(xùn)練模型M
Q.push(h) //將頭節(jié)點壓入隊列Q
while Q不為空:
s=Q.pop()
P.pop() //彈出不合適的路徑
初始化數(shù)組H
for e∈{(s,ri,tj)|ri∈E,tj∈V}:
將e從Gc內(nèi)移除,重新訓(xùn)練模型M,得到(h,r,t)新的嵌入表示(eh′,er′,et′)
Δδ,e=M(Gc,eh,er,et)\-M(Gc\e,eh,er,et)
//計算e邊的重要度
H.push(map(e,Δδ,e)) //將(e,Δδ,e)組成映射,壓入數(shù)組H中
end for
sort(H) //對數(shù)組H進行降序排序
for i in(1,k)
if e not in P
P.push(e) //將邊e作為候選,壓入鏈接解釋路徑P中
Q.push(e.tail) //將邊e所連接的尾實體壓入隊列Q
if (len(P)=l)//如果長度滿足要求,就返回找到的解釋路徑
return P
end if
end if
end for
通常知識圖譜的數(shù)據(jù)不完整且圖結(jié)構(gòu)較為稀疏,從頭實體到尾實體單向搜索所得到的解釋路徑可能無法滿足所設(shè)定的長度要求,但(h,r,t)的解釋與其語義相同、關(guān)系互逆的(t,r-1,h)的解釋是等價的,所以采用一種雙向搜索的方式來更好地得到所需要的解釋路徑,從尾實體到頭實體再運用一次算法1求得解釋路徑,最后根據(jù)路徑的平均重要度選取較高的路徑作為對(h,r,t)的解釋。具體流程如算法2所示。
算法2 雙向搜索算法
輸入:需要進行解釋的三元組(h,r,t)。
輸出:解釋路徑I。
pathForward=findExplanation(Gc,h,r,t)
//根據(jù)算法1計算(h,r,t)的解釋路徑
fI=calculate(pathForward)//根據(jù)正向的解釋路徑計算平均重要度
pathBackward=findExplanation(Gc,t,r-1,h)
//根據(jù)算法1計算(t,r-1,h)的解釋路徑
bI=calculate(pathBackward)
//根據(jù)反向的解釋路徑計算平均重要度
if(fIgt;bI): //選擇平均重要度的解釋路徑作為最后的解釋路徑
return pathForward
else
return pathBackward
end if
2.4 子圖構(gòu)建策略
當(dāng)知識圖譜數(shù)量龐大、含有較多的實體時,在整個知識圖譜上對嵌入模型進行微調(diào)以適應(yīng)每次修改的變化會浪費較多的算力與時間,這種做法不切實際。因為鏈接預(yù)測所需要的信息大部分是由頭尾節(jié)點附近的語義信息所提供的[16],所以為了有效地減少模型重新訓(xùn)練的成本,本文設(shè)計了一種基于子圖的嵌入重新訓(xùn)練策略。
對于給定三元組(h,r,t),構(gòu)建屬于該事實的訓(xùn)練子圖過程如下:首先通過廣度優(yōu)先搜索算法搜索所有從頭實體h到尾實體t且長度小于l的路徑Ph→t={p1,p2,…,pm},合并路徑上的所有節(jié)點Vh→t=Vp1∪Vp2∪…∪Vpm,將節(jié)點集合Vh→t與節(jié)點間所連接的邊Eh→t構(gòu)建屬于該三元組的主要子圖g1;然后遍歷完整的知識圖譜,搜索所有與節(jié)點集合Vh→t相連接的節(jié)點Vh→t′={vi|(vi,vj)∈G,vj∈Vh→t}與連接兩者的邊Eh→t′={ei|(vi,vj)∈G,vj∈Vh→t,ei∈E},其中(vi,vj)表示在知識圖譜G中存在的邊將vi和vj相連,將節(jié)點集合Vh→t′與節(jié)點間所連接的邊Eh→t′構(gòu)建屬于該三元組的衍生子圖g2;最后,將主要子圖與衍生子圖進行合并,得到了用于微調(diào)嵌入模型的訓(xùn)練子圖gtrain=g1∪g2。訓(xùn)練子圖如圖2所示。
2.5 評價指標(biāo)
本文參照目前大多數(shù)解釋性任務(wù)的實驗設(shè)置,將該任務(wù)轉(zhuǎn)換為了二分類任務(wù)進行評價。因此采用三種常見的二分類指標(biāo)來評估本文方法的性能。
a)準(zhǔn)確率(accuracy):表示模型正確預(yù)測的樣本占總樣本的比例,如式(4)所示。
accuracy=TP+TNTP+FP+TN+FN(4)
b)接收器工作特征曲線下面積 AUROC(area under the ROC curve):這是根據(jù)真陽性率(TPR)和假陽性率(FPR)的變化得到的曲線下的面積,用來評估模型對于不同閾值下的分類能力。AUROC 值越接近1,說明模型能更好地區(qū)分正例和負例,具有更好的分類性能,如式(7)所示。
c)精確回憶曲線下面積 AUPR(area under precision/recall curve):PR 曲線繪制了精確率(precision)和召回率(recall)之間的關(guān)系。AUPR 表示 PR 曲線下方的面積,用來評估模型在不同召回率下的精確度。AUPR 值越接近1,說明模型在保持較高召回率的同時,具有更高的精確率,即模型的預(yù)測結(jié)果更加可信,如式(10)所示。
3 實驗和結(jié)果
本章主要分析EP-LPI方法的有效性與兼容性,判斷其是否適用于各類的知識圖譜嵌入模型。
3.1 數(shù)據(jù)集
為了對解釋性能力進行評估,選取了由文獻[17]所整理的Family-rr數(shù)據(jù)集。它是一個包含有多個家庭成員之間親情關(guān)系的知識圖譜數(shù)據(jù)集,利用該文獻所提出的RuLES工具,首先提取出了數(shù)據(jù)集中具備“mother”關(guān)系的鏈接路徑作為本文評估的ground-truth。但本文方法考慮到三元組所對應(yīng)的逆關(guān)系三元組之間的路徑也會影響到對三元組進行解釋,因此也提取出“son”和“daughter”關(guān)系的鏈接路徑作為評估ground-truth的補充。本文對Family-rr數(shù)據(jù)集進行了預(yù)處理,確保了每一個三元組(h,r,t)都存在對應(yīng)的逆關(guān)系三元組(t,r-1,h)。
同時,為了檢驗本文方法的實際應(yīng)用效果,在生物醫(yī)學(xué)信息本體系統(tǒng)(biomedical informatics ontology system, BIOS)[18]數(shù)據(jù)庫上進行測試,BIOS是一個收錄了2 848萬醫(yī)學(xué)概念、5 456萬醫(yī)學(xué)術(shù)語、1.12億條醫(yī)學(xué)三元組的知識圖譜,本文從數(shù)據(jù)庫中篩選一部分醫(yī)藥信息構(gòu)成用于解釋藥物重定位的數(shù)據(jù)集。數(shù)據(jù)集信息如表1所示。
3.2 實驗設(shè)置
為了檢驗本文方法的EP-LPI的性能,選取了目前先進的六種解釋性算法進行對比。
a)PGPR[19]。這是一種基于強化學(xué)習(xí)的解釋方法,該方法設(shè)計了一個合理的獎勵策略、剪枝操作和多跳評分函數(shù),然后利用圖的搜索算法搜索出評分最高的路徑作為鏈接預(yù)測的解釋。
b)ELPE[20]。使用 graph Transformer[21]的變體作為編碼器來歸納聚合鄰域信息,然后使用強化學(xué)習(xí)方法作為解碼器來預(yù)測頭部和尾部實體之間的推理路徑。
c)CRIAGE[22]。通過使用敏感性分析的方法,確定對預(yù)測鏈路最有影響力的事實。另外,還評估了模型對添加虛假事實的敏感性。
d)CAFE[8]。從用戶配置文件中獲取用戶行為信息,并作為一種粗略的指導(dǎo),然后在該指導(dǎo)下,利用細粒度的路徑搜索算法推導(dǎo)出解釋路徑。
e)KGEP[23]。首先利用擾動的思想來搜索最關(guān)鍵的實體,然后搜索實體之間最重要的邊來得到解釋路徑。
f)PaGE-Link[24]:首先通過剪枝操作刪除節(jié)點周圍的部分信息,然后借助掩碼學(xué)習(xí)的方式尋找出較為重要的邊組成解釋路徑。
數(shù)據(jù)集按照9∶0.5∶0.5的比例劃分訓(xùn)練集、測試集和驗證集。本文選取RotatE[25]作為本文方法中的知識圖譜嵌入模型,并在訓(xùn)練集和驗證集上訓(xùn)練知識圖譜的實體嵌入向量和關(guān)系嵌入向量。訓(xùn)練RotatE模型時,使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置在{0.5,0.1,0.01,0.001},使用xavier初始化的方式初始化實體嵌入向量和關(guān)系嵌入向量,且兩者的維度都設(shè)置為256,batch_size設(shè)置為128,epoch設(shè)置為1 000。在對嵌入向量進行微調(diào)時,將使用已經(jīng)訓(xùn)練好的模型參數(shù),epoch設(shè)置為40,batch_size設(shè)置為1,使得模型能根據(jù)子圖進行準(zhǔn)確的微調(diào)。
3.3 對比實驗
本文與上述六種方法在Family-rr數(shù)據(jù)集進行了性能對比,結(jié)果如表2所示??梢钥吹?,EP-LPI與基線模型相比,在ACC上提升了1.5%,在AUPR上提升了1.4%。
PGPR、ELPE和CAFE模型這三者都是采用強化學(xué)習(xí)的方式來指導(dǎo)知識圖譜的路徑推理。雖然PGPR所設(shè)計的軟獎勵策略和用戶條件行動剪枝策略可以提高知識圖譜推理的效果,但由于知識圖譜稀疏性,當(dāng)實體或關(guān)系缺乏足夠的數(shù)據(jù)支持,就會導(dǎo)致獎勵信號無法有效到達目標(biāo)節(jié)點,解釋路徑的正確率也會下降。ELPE則是一個結(jié)合了特征表示學(xué)習(xí)和推理的聯(lián)合框架,它的重點在于對新興實體進行歸納表示學(xué)習(xí),因為新興實體在知識圖譜中的信息較少,所以學(xué)習(xí)到的表示可能不夠準(zhǔn)確或上下文信息不恰當(dāng),路徑推理的性能就會受到限制,生成解釋的精度也會下降。而CAFE借助用戶檔案來引導(dǎo)路徑搜索過程,得出推理路徑,但在搜索過程中同時考慮了由用戶檔案所得到的用戶行為信息,因此在解釋性的精度上要優(yōu)于純粹的強化學(xué)習(xí)方法。當(dāng)知識圖譜中添加或移除一個事實時,CRIAGE使用一階泰勒展開來近似估計目標(biāo)事實的預(yù)測分?jǐn)?shù)變化,但這種近似可能無法準(zhǔn)確反映實際的嵌入變化。KGEP則是使用了敏感性的分析找出對鏈接預(yù)測影響最大的實體,但是在搜索時忽略了知識圖譜的稀疏性與方向性。PaGE-Link中刪除實體周圍鄰居信息的操作雖然使得圖的理解、搜索變得更簡單,但也可能導(dǎo)致關(guān)鍵信息的丟失、解釋結(jié)果精度的降低。而EP-LPI則是利用重要性來搜索對預(yù)測結(jié)果影響最大的邊,但由于考慮到了雙向的路徑,所以性能相比KGEP有所提升。同時,由于本文所設(shè)計的子圖構(gòu)建策略是針對每一個三元組構(gòu)建一個更加精細的上下文子圖,對使用了全局訓(xùn)練的嵌入?yún)?shù)進行微調(diào)操作,相比采用強化學(xué)習(xí)的方法能更好地得到解釋路徑。
3.4 模型無關(guān)性
為了驗證EP-LPI是否能夠適配不同的知識圖譜嵌入模型,選取了多個較為經(jīng)典的嵌入模型進行測試,分別是TransE[26]、RotatE、DistMult[27]、ComplEx[28]。在訓(xùn)練TransE、DistMult和ComplEx 時,使用了與訓(xùn)練RotatE一樣的參數(shù)設(shè)置,其性能結(jié)果如圖3所示。從圖3可以看到,所提方法能夠較好地適配不同的知識圖譜嵌入模型,四個嵌入模型的ACC、AUC、AUPR指標(biāo)都較為接近。
3.5 時間復(fù)雜度
EP-LPI的時間復(fù)雜度只與知識圖譜的規(guī)模以及待計算重要性的邊的數(shù)量有關(guān)。當(dāng)給定一個知識圖譜G={E,V,F(xiàn)}以及待解釋的三元組(h,r,t)時,假設(shè)頭實體h和尾實體t之間的最長路徑的長度為L,路徑的分支數(shù)為K,那么在第一跳和最后一跳時需要計算的邊的數(shù)量為K,路徑中間的節(jié)點所計算的邊數(shù)為K2,單向搜索時需要計算的邊的數(shù)量則為2K+(L-2)·K2。由于采用了雙向搜索的策略,所以整體的計算量為4K+2(L-2)·K2。
模型的訓(xùn)練時間和微調(diào)時間是一次性的時間成本,當(dāng)為任何給定的三元組實例(h,r,t)生成解釋時,將會均攤所耗費的時間成本,因此在計算時間開銷上可以舍去這一項。
3.6 參數(shù)分析
為了獲取方法中各個嵌入模型的最佳參數(shù),探索了不同的特征向量維度對實驗結(jié)果的影響。具體的實驗結(jié)果如圖4和5所示。依舊是對較為經(jīng)典的4個嵌入模型進行測試,分別將特征維度設(shè)置為32、64、128、256。從圖4可以看出,隨著嵌入維度的增加,方法的正確率也在上升,尤其是從128維增加到256維時,正確率提升的幅度最為明顯。這說明,當(dāng)嵌入維度增加時,所提方法能夠更好地學(xué)習(xí)到知識圖譜當(dāng)中的實體信息和關(guān)系信息。
但從圖5也可看出,隨著嵌入維度的增加,AUC提升的效果并不如ACC一樣明顯,甚至隨著維度的上升,還有下降的趨勢,說明維度過大時會產(chǎn)生大量的冗余信息,對模型造成負面影響。
3.7 實際應(yīng)用:藥物重定位
藥物重定位指的是對已經(jīng)用于臨床治療的藥物探索新的適用癥或用途,現(xiàn)有的大部分工作都是在知識圖譜上進行鏈接預(yù)測任務(wù),來推測重定位的候選藥物。為了檢驗本文方法的實際應(yīng)用效果,在BIOS數(shù)據(jù)集上進行藥物重定位任務(wù)的解釋工作。根據(jù)其得到的結(jié)果,隨機選取了4個重定位藥物-疾病的解釋路徑進行人工查驗,解釋結(jié)果如圖6所示。
特應(yīng)性皮炎(atopic dermatitis)和單純性苔蘚 (lichen simplex)癥狀相似,而他克莫司(tacrolimus)是一種免疫抑制劑,可以通過抑制免疫系統(tǒng)的反應(yīng)來減輕單純性苔蘚的癥狀,因此他克莫司也可以治愈特應(yīng)性皮炎。同樣地,幼兒特應(yīng)性皮炎與成年的特應(yīng)性皮炎癥狀相似,環(huán)孢菌素(cyclosporine)作為治療幼兒特應(yīng)性皮炎的藥物,也可以用來治特應(yīng)性皮炎。哌拉西林(piperacillin)主要用于治療革蘭陰性細菌引起的感染,如膽管炎,而萬古霉素(vancomycin)與哌拉西林是在住院感染時常使用的抗生素組合治療方案,因此萬古霉素也可以用于治療膽管炎(cholangitis)。賽妥珠單抗(certolizumab)和英夫利西單抗(infliximab)藥效相似,而英夫利西單抗則是一種用于治療炎癥性腸病(inflammatory bowel disease,IBD)的藥物,因此賽妥珠單抗也可以用于治療炎癥性腸病。
4 結(jié)束語
本文提出了一種基于邊擾動的鏈接預(yù)測解釋方法,與主要側(cè)重某一種鏈接預(yù)測模型的解釋任務(wù)的類似工作不同,本文方法具備模型無關(guān)性,且預(yù)測結(jié)果有著良好的精度。構(gòu)建出三元組的主要子圖后,通過邊的重要性進行雙向搜索,選擇最重要的邊構(gòu)成預(yù)測結(jié)果的解釋路徑。藥物重定位的解釋實驗也表明,本文方法能夠有效地給出模型推測出重定位藥物的原因,本文隨機選擇的四個重定位藥物-疾病解釋路徑都具備著較好的可讀性、啟示性。
借助邊擾動的操作來確定邊的重要性,使得本文方法能夠適用于大多數(shù)的鏈接預(yù)測模型,同時考慮到知識圖譜的稀疏性,采用雙向搜索的策略則避免了生成的解釋路徑可讀性較差。但本文方法在對解釋路徑的分析方面也存在著局限性,目前的分析主要依靠與規(guī)則提取出的ground-truth進行比對,本質(zhì)上還是一種定性的評價,缺乏對解釋結(jié)果的量化評估指標(biāo),因此只能依靠人工對解釋路徑進行查驗、分析。后續(xù)可從邏輯規(guī)則的角度出發(fā),對搜索到的解釋路徑進行量化分析,以評估其價值。
現(xiàn)有的鏈接預(yù)測方法大多只提供了預(yù)測結(jié)果,而沒有給出相應(yīng)的原因,但從本文所設(shè)計的實驗可以看出,本文方法可以有效地尋找到對模型預(yù)測結(jié)果最重要的一條路徑,且針對藥物重定位的案例分析,也可看出所得到的解釋路徑是合理有效的,能為醫(yī)療工作者提供一定的參考價值,提升預(yù)測結(jié)果的可信度。
參考文獻:
[1]Ji Shaoxiong, Pan Shirui, Cambria E, et al. A survey on knowledge graphs: representation, acquisition, and applications [J]. IEEE Trans on Neural Networks and Learning Systems, 2021, 33(2): 494-514.
[2]趙博, 王宇嘉, 倪驥. 知識圖譜的增強CP分解鏈接預(yù)測方法 [J]. 計算機應(yīng)用研究, 2023, 40(5): 1396-1401. (Zhao Bo, Wang Yujia, Ni Ji. Enhanced canonical polyadic decomposition link prediction embedding method of knowledge graph [J]. Application Research of Computers, 2023, 40(5): 1396-1401.)
[3]Baghershahi P, Hosseini R, Moradi H. Self-attention presents low-dimensional knowledge graph embeddings for link prediction [J]. Knowledge-Based Systems, 2023, 260: article ID 110124.
[4]Doshi-Velez F, Kim B. Towards a rigorous science of interpretable machine learning [EB/OL]. (2017-02-28). https://arxiv. org/abs/1702. 08608.
[5]張波, 趙鵬, 張金金, 等. 基于用戶潛在興趣的知識感知傳播推薦算法 [J]. 計算機應(yīng)用研究, 2022, 39(9): 2615-2620. (Zhang Bo, Zhao Peng, Zhang Jinjin, et al. Knowledge-aware propagation recommendation algorithm based on user’s potential interest [J]. Application Research of Computers, 2022, 39(9): 2615-2620.)
[6]Kim B, Khanna R, Koyejo O O. Examples are not enough, learn to criticize! Criticism for interpretability [J]. Advances in Neural Information Processing Systems, 2016, 29: 2288-2296.
[7]Xiong W, Hoang T, Wang W Y. DeepPath: a reinforcement learning method for knowledge graph reasoning [EB/OL]. (2017-07-20). https://arxiv. org/abs/1702. 08608.
[8]Xian Yikun, Fu Zuohui, Zhao Handong, et al. CAFE: coarse-to-fine neural symbolic reasoning for explainable recommendation [C]// Proc of the 29th ACM International Conference on Information amp; Knowledge Management. New York: ACM Press, 2020: 1645-1654.
[9]Luo Dongsheng, Cheng Wei, Xu Dongkuan, et al. Parameterized explainer for graph neural network [J]. Advances in Neural Information Processing Systems, 2020, 33: 19620-19631.
[10]Yuan Hao, Tang Jiliang, Hu Xia, et al. XGNN: towards model-level explanations of graph neural networks [C]// Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York: ACM Press, 2020: 430-438.
[11]Ying Z, Bourgeois D, You Jiaxuan, et al. GNNExplainer: generating explanations for graph neural networks [J]. Advances in Neural Information Processing Systems, 2019, 32: 9244-9255.
[12]姚俊萍, 袁聰, 李曉軍, 等. 面向知識圖譜鏈接預(yù)測任務(wù)的解釋子圖生成模型 [J]. 計算機應(yīng)用研究, 2024, 41(2): 375-380. (Yao Junping, Yuan Cong, Li Xiaojun, et al. Interpretive subgraph generation model for knowledge graph link prediction task [J]. App-lication Research of Computers, 2024, 41(2): 375-380.)
[13]Lin Wanyu, Lan Hao, Li Baochun. Generative causal explanations for graph neural networks [C]// Proc of the 38th International Conference on Machine Learning. New York: ACM Press, 2021: 6666-6679.
[14]Shang Chao, Tang Yun, Huang Jing, et al. End-to-end structure-aware convolutional networks for knowledge base completion [C]// Proc of AAAI Conference on Artificial Intelligence. New York: ACM Press, 2019: 3060-3067.
[15]Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph convolutional networks [C]// Proc of the 15th International Conference on Semantic Web. Berlin: Springer, 2018: 593-607.
[16]Zhang Muhan, Chen Yixin. Link prediction based on graph neural networks [J]. Advances in Neural Information Processing Systems, 2018, 31: 5171-5181.
[17]Ho V T, Stepanova D, Gad-Elrab M H, et al. Rule learning from knowledge graphs guided by embedding models [C]// Proc of the 17th International Semantic Web Conference on Semantic Web. Berlin: Springer, 2018: 72-90.
[18]Yu Sheng, Yuan Zheng, Xia Jun, et al. BIOS: an algorithmically generated biomedical knowledge graph [EB/OL]. (2022-03-18). https://arxiv. org/abs/2203. 09975
[19]Xian Yikun, Fu Zuohui, Muthukrishnan S, et al. Reinforcement knowledge graph reasoning for explainable recommendation [C]// Proc of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2019: 285-294.
[20]Bhowmik R, de Melo G. Explainable link prediction for emerging entities in knowledge graphs [C]// Proc of the 19th International Semantic Web Conference on Semantic Web. Berlin: Springer, 2020: 39-55.
[21]Yun S, Jeong M, Kim R, et al. Graph transformer networks [J]. Advances in Neural Information Processing Systems, 2019, 32: 11983-11993.
[22]Pezeshkpour P, Tian Yifan, Singh S. Investigating robustness and interpretability of link prediction via adversarial modifications [EB/OL]. (2019-03-02). https://arxiv. org/abs/1905. 00563.
[23]潘小琴. 基于可解釋性知識圖譜的藥物重定位 [D]. 湖南: 湖南大學(xué), 2022. (Pan Xiaoqin. Drug repositioning based on interpretable knowledge graph[D]. Hunan: Hunan University, 2022.)
[24]Zhang Shichang, Zhang J, Song Xiang, et al. PaGE-Link: path-based graph neural network explanation for heterogeneous link prediction [C]// Proc of ACM Web Conference. New York: ACM Press, 2023: 3784-3793.
[25]Sun Zhiqing, Deng Zhihong, Nie Jianyun, et al. RotatE: knowledge graph embedding by relational rotation in complex space [EB/OL]. (2019-02-26). https://arxiv. org/abs/1902. 10197.
[26]Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data [J]. Advances in Neural Information Processing Systems, 2013, 26: 2787-2795.
[27]Yang Bishan, Yih W, He Xiaodong, et al. Embedding entities and relations for learning and inference in knowledge bases [EB/OL]. (2014-12-20). https://arxiv. org/abs/1412. 6575.
[28]Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction [C]// Proc of International Conference on Machine Learning. New York: ACM Press, 2016: 2071-2080.