融合Bi-LSTM與多頭注意力的分層強化學(xué)習(xí)推理方法

2025-03-09 00:00:00李衛(wèi)軍劉世俠劉雪洋丁建平蘇易礌王子怡

計算機應(yīng)用研究 2025年1期

摘要：知識推理作為知識圖譜補全中一項重要任務(wù)，受到了學(xué)術(shù)界的廣泛關(guān)注。針對知識推理可解釋性差、不能利用隱藏語義信息和獎勵稀疏的問題提出了一種融合Bi-LSTM與多頭注意力機制的分層強化學(xué)習(xí)方法。將知識圖譜通過譜聚類分簇，使智能體分別在簇與實體間進行推理，利用Bi-LSTM與多頭注意力機制融合模塊對智能體的歷史信息進行處理，可以更有效地發(fā)現(xiàn)和利用知識圖譜隱藏的語義信息。Hight智能體通過分層策略網(wǎng)絡(luò)選擇目標(biāo)實體所在的簇，指導(dǎo)Low智能體進行實體間的推理。利用強化學(xué)習(xí)智能體可以有效地解決可解釋性差的問題，并通過相互獎勵機制對兩個智能體的動作選擇以及搜索路徑給予獎勵，以解決智能體獎勵稀疏的問題。在FB15K-237、WN18RR、NELL-995三個公開數(shù)據(jù)集上的實驗結(jié)果表明，提出的方法能夠捕捉序列數(shù)據(jù)中的長期依賴關(guān)系對長路徑進行推理，并且在推理任務(wù)中的性能優(yōu)于同類方法。

關(guān)鍵詞：知識推理；分層強化學(xué)習(xí)；Bi-LSTM；多頭注意力機制

中圖分類號：TP391.1"" 文獻標(biāo)志碼：A"" 文章編號：1001-3695（2025）01-010-0071-07

doi： 10.19734/j.issn.1001-3695.2024.06.0197

Hierarchical reinforcement learning knowledge reasoning method integrating Bi-LSTM and multi-head attention

Abstract： Knowledge reasoning is a critical task in knowledge graph completion and has garnered significant academic attention. Addressing issues such as poor interpretability， inability to utilize hidden semantic information， and sparse rewards， this paper proposed a hierarchical reinforcement learning method integrating Bi-LSTM and multi-head attention mechanisms. The knowledge graph was clustered via spectral clustering， enabling agents to reason between clusters and entities. The Bi-LSTM and multi-head attention mechanism module processed the agent’s historical information， effectively uncovering and utilizing hidden semantic information in the knowledge graph. The high-level agent selected the cluster containing the target entity through a hierarchical policy network， guiding the low-level agent in entity reasoning. Reinforcement learning allows the agents to solve interpretability issues， and a mutual reward mechanism addresses sparse rewards by rewarding agents’ action choices and search paths. Experimental results on FB15K-237， WN18RR， and NELL-995 datasets show that the proposed method captures long-term dependencies in sequential data for long-path reasoning， outperforming similar methods in reasoning tasks.

Key words：knowledge reasoning; layered reinforcement learning; Bi-LSTM; multi-head attention mechanism

0 引言

隨著云計算、物聯(lián)網(wǎng)等技術(shù)的快速發(fā)展，知識圖譜（know-ledge gragh， KG）因其優(yōu)異的可解釋性和強大的表達能力獲得了眾多學(xué)者的關(guān)注［1］，被廣泛應(yīng)用于各個領(lǐng)域，產(chǎn)生了許多大規(guī)模知識圖譜，如FreeBase［2］、DBpedia［3］等。然而，無論是自動化還是人工構(gòu)建的知識圖譜都存在著不完備的問題，這種知識圖譜的不完整性將會影響到智能問答、知識預(yù)測和智能推薦等一些基于推理的下游任務(wù)效果［4，5］。因此，需要利用已有的推理技術(shù)進一步從知識圖譜中挖掘出缺失且更深層次的實體與關(guān)系之間的聯(lián)系，進而完善知識圖譜。

知識推理是從已有的知識中推理出實體間可能存在的關(guān)系或?qū)傩灾?，對知識圖譜進行補全的方法［6］。近年來，許多研究者對知識推理的相關(guān)技術(shù)進行了深入的研究，并取得了一定的進展。例如基于嵌入的推理方法TransE［7］和 ConvE［8］，它們將知識圖譜中的三元組映射到連續(xù)的向量空間中得到其向量表示，通過計算向量之間的相似度完成推理。然而基于嵌入的推理方法具有可解釋性較低和多跳推理路徑效果不佳的局限性。因此，Lao等人［9］將知識圖譜表示為有標(biāo)記的有向圖，利用鄰近度量給每個邊的標(biāo)簽序列給予權(quán)重，提出了使用隨機游走進行路徑尋找的路徑排序算法（path-ranking algorithm， PRA）來解決此類問題。Gardner等人［10］提出了一種PRA的變體，該變體通過計算向量空間的特征相似性來進行推理。但是上述基于路徑的推理方法未考慮路徑的可靠性計算問題，難以適用于大規(guī)模知識圖譜。為了解決多跳問題的推理需求，許多研究者提出了一系列的方法，如MultiKR［11］、SRGCN［12］、ConvHiA［13］等，通過多跳推理來尋找目標(biāo)實體，并生成完整的推理路徑，增強了模型的可解釋性。在多跳推理模型中，基于強化學(xué)習(xí)的知識推理方法因其在可解釋性和性能等方面的優(yōu)勢，受到了廣泛關(guān)注。DeepPath［14］和MINERVA［15］模型使用強化學(xué)習(xí)（reinforcement learning， RL）來解決知識圖譜推理中的馬爾可夫決策問題，將路徑學(xué)習(xí)過程構(gòu)建為強化學(xué)習(xí)以進行復(fù)雜的多跳推理。

然而，在強化學(xué)習(xí)推理任務(wù)中，現(xiàn)有的方法還存在一些不足。一方面智能體在推理長路徑時往往效果不佳，不能夠很好地理解實體與關(guān)系間隱藏的語義，另一方面稀疏知識圖譜還會導(dǎo)致智能體獎勵稀疏的問題。為此，本文提出一種融合Bi-LSTM和多頭注意力的分層強化學(xué)習(xí)的知識推理方法（hierarchical reinforcement learning integrating Bi-LSTM and multi-head attention， HRL-BM），如圖1所示。本文的主要貢獻如下：

a）采用分層強化學(xué)習(xí)方法進行分層推理，提出了一種包含路徑信息的獎勵機制對智能體的動作選擇給予獎勵，以解決可解釋性差和獎勵稀疏的問題。

b）通過融合雙向長短期記憶網(wǎng)絡(luò)與多頭注意力機制，處理智能體的歷史信息，進一步提取實體與關(guān)系間隱藏的語義信息。

c）在FB15K-237、WN18RR和NELL-995公開數(shù)據(jù)集上進行了對比實驗與消融實驗。結(jié)果表明，與其他方法相比，本文方法在各項指標(biāo)上均取得良好的效果，并且所提出的各個組件均對方法性能的提升具有積極作用。

1 相關(guān)工作

知識圖譜的不完整性對其實際的應(yīng)用帶來了很大的阻礙，需要不斷地對其進行補充和擴展。因此需要利用知識推理技術(shù)進一步從語義網(wǎng)和其他相應(yīng)的知識庫挖掘出缺失的和更深層次的實體與關(guān)系之間的聯(lián)系，實現(xiàn)知識圖譜補全和知識圖譜去噪等。現(xiàn)有的知識推理方法大致可以分為基于嵌入的推理方法、基于路徑的推理方法和基于強化學(xué)習(xí)的推理方法三類。

1.1 基于嵌入與路徑知識推理

基于嵌入的知識推理方法可以將實體和關(guān)系映射到連續(xù)的向量空間中，尋找最優(yōu)的嵌入方法和維度，在保留實體各自特征的同時學(xué)習(xí)實體之間的關(guān)系［16］。TransE方法不能很好地處理關(guān)系的映射屬性，為了平衡模型容量和效率，Wang等人［17］提出了TransH，將關(guān)系建模為超平面，并在超平面上進行平移操作。與TransH不同的是，Trouillon等人［18］提出的ComplEx利用復(fù)雜的嵌入組合來處理知識圖譜中的二元關(guān)系。Ji等人［19］在TransE的基礎(chǔ)上提出的TransD同時考慮了實體和關(guān)系的多樣性，利用動態(tài)構(gòu)造映射矩陣對實體和關(guān)系進行映射。但是TransD難以推理隱藏實體，因此Wang等人［20］提出的KNN-KGE根據(jù)嵌入空間的實體和知識存儲的距離來計算鄰居節(jié)點，以提高推理性能。Yao等人［21］將知識圖譜中的三元組作為文本序列，以實體描述和關(guān)系描述為輸入計算三元組的評分函數(shù)，提出了一種知識圖譜雙向編碼表示轉(zhuǎn)換器KG-BERT。但基于嵌入的知識推理技術(shù)將實體和關(guān)系轉(zhuǎn)換為單一的向量進行計算，不能利用到關(guān)系路徑和隱藏語義信息。

基于路徑的知識推理方法可以有效地從知識圖譜中獲取實體之間的關(guān)系信息，通過分析和利用路徑信息可以推理出實體之間的隱藏關(guān)系。Lao等人［22］利用路徑約束隨機游走模型解析文本與背景知識中的語義。Wang等人［23］提出的KPRN模型通過利用路徑中的順序依賴關(guān)系，對路徑進行推理。翟社平等人［24］利用采樣器在實體對之間游走，為推理器提供可靠的推理策略，推理器通過提取關(guān)系路徑的語義特征，在語義空間中推理出關(guān)系路徑?；诼窂降闹R推理方法具有很好的可解釋性，但當(dāng)知識圖譜稀疏時，對于路徑特征的提取效果往往不好。

1.2 基于強化學(xué)習(xí)的知識推理

強化學(xué)習(xí)由于其在可解釋性和性能等方面的優(yōu)勢，迅速成為了研究知識推理領(lǐng)域的熱門技術(shù)?；趶娀瘜W(xué)習(xí)的推理方法是將實體之間的路徑游走建模為馬爾可夫決策過程，并使用基于策略的智能體搜索推理路徑［25］。

Xiong等人［14］首次將強化學(xué)習(xí)應(yīng)用于學(xué)習(xí)知識圖譜中的關(guān)系路徑，將尋徑問題表示為一個可以用RL智能體解決的順序問題。但是由于模型簡單，訓(xùn)練過程相對較為復(fù)雜，需要消耗大量的計算資源。因此，Das等人［15］提出的MINERVA模型是在輸入問題的條件下使用強化學(xué)習(xí)有效搜索圖中答案提供路徑的方法，不需要進行預(yù)訓(xùn)練。與基于路徑的MINERVA模型類似，Liu等人［26］提出了一種基于強化學(xué)習(xí)的邏輯嵌入知識推理模型RKLE來提高推理路徑的整體可信度。而Shen等人［27］在DeepPath的基礎(chǔ)上開發(fā)了M-Walk模型，模型將循環(huán)神經(jīng)網(wǎng)絡(luò)和蒙特卡羅樹搜索結(jié)合起來搜索目標(biāo)節(jié)點。但是由于使用隨機采樣的特點，可能會導(dǎo)致相同路徑被多次采樣。以上三種方法都是采用單層強化學(xué)習(xí)進行推理，沒有考慮動作空間的層次結(jié)構(gòu)，并且在長推理鏈上的性能不佳。Wan等人［28］提出了一種新的分層強化學(xué)習(xí)RLH模型來學(xué)習(xí)知識圖譜推理過程，使用分層機制將每個完整的動作空間劃分為更小的空間，可以學(xué)習(xí)到隱含的多重語義信息。Zhang等人［29］提出了一個雙智能體強化學(xué)習(xí)框架CURL允許智能體相互共享狀態(tài)和路徑信息，智能體之間進行協(xié)同搜索目標(biāo)實體以解決長路徑推理問題。Zhu等人［30］采用了一種完全不同的分層方式來分解動作空間，將強化學(xué)習(xí)推理任務(wù)分解為關(guān)系檢測和實體推理兩個過程，提出了SBS模型，能夠很好地處理實體和關(guān)系中的一對多問題。Jiang等人［31］為了防止智能體進入探索虛假路徑，定義了一個路徑虛假度量，并設(shè)計了同時考慮答案準(zhǔn)確性和路徑合理性的獎勵模型。

2 研究方法

從以上研究可以發(fā)現(xiàn)，基于嵌入和路徑的推理方法存在可解釋性差的問題，基于強化學(xué)習(xí)的知識推理方法存在不能夠利用隱藏語義信息進行推理和獎勵稀疏的問題。為此，本文提出了HRL-BM方法將知識推理看作是一個馬爾可夫序列決策過程（Markov sequence decision process，MDP）。首先使用譜聚類算法對知識圖譜進行分簇，利用Hight智能體在簇間進行游走推理找到目標(biāo)實體所在的簇，并指導(dǎo)Low智能體在當(dāng)前簇中的實體進行推理。其次，多智能體分別在簇與實體之間進行推理，并通過雙向長短期記憶網(wǎng)絡(luò)（bidirectional long short-term memory， Bi-LSTM）與多頭注意力融合模塊對歷史信息進行處理，Bi-LSTM生成歷史特征，再利用多頭注意力機制對歷史特征進行權(quán)重分配，以挖掘隱含的語義信息。此外，為解決獎勵稀疏問題，提出了一種包含路徑信息的相互獎勵機制，對智能體的動作給予獎勵，提高推理的準(zhǔn)確度。

2.1 強化學(xué)習(xí)

知識圖譜中含有多個事實三元組，通常定義為一個有向圖G={（es，r，et），es，et∈Euclid Math OneEAp，r∈Euclid Math OneRAp}，Euclid Math OneEAp表示實體集合，Euclid Math OneRAp表示關(guān)系集合，其中es是源實體，et是目標(biāo)實體。使用譜聚類對原始知識圖譜G劃分為N個簇，并將知識推理中智能體游走過程建模為馬爾可夫決策過程（Markov decision process， MDP），MDP主要由〈S，A，P，R〉四部分組成，下面對強化學(xué)習(xí)模塊進行詳細介紹。

由于Hight智能體是在所劃分的簇中進行游走，所以其狀態(tài)空間由原始簇以及當(dāng)前訪問簇組成。Low智能體的狀態(tài)空間由源實體、查詢關(guān)系和訪問實體組成，狀態(tài)表示為st（st∈S），式（1）（2）分別表示Hight智能體和Low智能體的狀態(tài)空間。

sHt=（ct，cs）∈SH（1）

sLt=（et，（es，rq））（2）

其中：ct與cs分為當(dāng)前簇與原始簇；et為當(dāng)前智能體訪問實體；es與rq分別為源實體與查詢關(guān)系。

推理過程中，Hight智能體的動作空間為當(dāng)前實體的鄰居簇，Low智能體在實體之間進行游走，以找到目標(biāo)實體。其動作空間包含實體所有的出邊，即步驟t的可能動作集合At∈A，具體表示如式（3）（4）所示。

AHt={c′|（ct，c′）∈G}（3）

ALt={（r′，e′）|（et，r′，e′）∈G}（4）

其中：AHt為Hight智能體的動作空間；ALt為Low智能體的動作空間。由于Hight智能體在簇中的路徑通常比在實體中的路徑短，所以在AHt添加一個停止動作，使得兩個智能體同步在同一個簇中進行推理。

轉(zhuǎn)換函數(shù)δ是環(huán)境將轉(zhuǎn)移到下一個狀態(tài)的概率分布，表示如式（5）所示。

δ（st，At）=δ（et，（es，rq），At）（5）

2.2 獎勵函數(shù)

在知識推理的過程中，智能體從源實體到目標(biāo)實體的路徑越短，經(jīng)過的中間節(jié)點和關(guān)系越少，可以減少誤差累計，提高整體推理的效率。所以本模型通過設(shè)置路徑效率獎勵來鼓勵智能體選擇較短的路徑，路徑效率獎勵表示如式（6）所示。

在探索路徑時，由于實體與關(guān)系在向量空間中具有類似的狀態(tài)表示，智能體在游走的過程中容易反復(fù)選擇相似路徑，從而陷入局部最優(yōu)。為了讓智能體在推理過程中探索更多不同的路徑，模型引入了路徑多樣性獎勵，路徑多樣性獎勵如式（7）所示。

其中：|F|是推斷出的路徑數(shù)量；p是路徑嵌入向量。Hight和Low智能體默認獎勵只考慮到了是否能到達最終目標(biāo)簇或?qū)嶓w，在一定步數(shù)內(nèi)成功到達目標(biāo)簇或?qū)嶓w，獎勵+1，但會導(dǎo)致兩個智能體的路徑難以保持一致的問題，并且當(dāng)知識圖譜中的信息不完整時，會導(dǎo)致獎勵稀疏問題。所以兩個智能體的最終獎勵由路徑效率、路徑多樣性獎勵和協(xié)作獎勵三部分組成。

R（sHt）=rH（sHT）+Φ（sHt，sLt）·rL（sLT）" t∈［1，T］（8）

R（sLt）=rL（sLT）+Φ（sLt，sHt）·rH（sHT）" t∈［1，T］（9）

RH=λ1Reff+λ2Rdiv+λ3R（sHt）（10）

RL=λ1Reff+λ2Rdiv+λ3R（sLt）（11）

其中：Φ（sHt，sLt）是一個評價函數(shù)，用來衡量兩個智能體動作的一致性；λi是權(quán)重參數(shù)∑λi=1；RH、RL分別為Hight與Low智能體的獎勵函數(shù)；rH（sHT）為Hight智能體的默認獎勵，rL（sLT）為Low智能體的默認獎勵。

2.3 Bi-LSTM與多頭注意力融合模塊

模型使用Bi-LSTM與多頭注意力融合模塊對智能體的歷史信息進行處理，理解上下文信息，捕獲其中的隱藏語義，并且在加入多頭注意力機制之后，智能體可以關(guān)注到不同的特征與關(guān)系。在Bi-LSTM與多頭注意力融合模塊中，Bi-LSTM為智能體提供細粒度的序列特征，多頭注意力機制優(yōu)化全局信息的權(quán)重分配，可以充分提高知識推理的性能。

2.3.1 Bi-LSTM網(wǎng)絡(luò)

雙向長短期記憶網(wǎng)絡(luò)Bi-LSTM是長短期記憶網(wǎng)絡(luò)（long short-term memory， LSTM）的一種擴展，通過在序列的前向和后向上分別運行兩個獨立的LSTM來處理序列數(shù)據(jù)。在每個時間步，正向LSTM按照序列的順序處理數(shù)據(jù)，而反向LSTM按照序列的逆序處理數(shù)據(jù)，Bi-LSTM框架如圖2所示。為了提高推理的效果，在模型中分別使用兩個獨立的Bi-LSTM來編碼Hight智能體與Low智能體的歷史信息，并且允許兩個智能體之間的狀態(tài)共享。分別從正向和反向兩個方向進行迭代，生成隱藏狀態(tài)向量Hfw=（hfw1，hfw2，…，hfwL）與Hbw=（hbw1，hbw2，…，hbwL），其中ht表示如式（12）（13）所示。

hfwt=LSTM（at，WH［hfHt－1，hfLt－1］）（12）

hbwt=LSTM（at，WL［hbLt－1，hbHt－1］）（13）

其中：智能體的動作at作為LSTM的輸入；ht為隱藏狀態(tài)向量。為了兩個智能體之間可以共享路徑信息，在智能體的隱藏狀態(tài)中將另一個智能體的狀態(tài)加入，即每個隱藏狀態(tài)取決于智能體之前的隱藏狀態(tài)、另一個智能體之前的狀態(tài)、智能體之前的動作。然后利用Bi-LSTM捕捉長距離的依賴關(guān)系，隱藏層ht計算過程如下所示。

其中： ft、it、ot變量分別表示遺忘門、輸入門和輸出門;帶有相應(yīng)門下標(biāo)的W和b表示可學(xué)習(xí)權(quán)值和相應(yīng)的偏置。然后Bi-LSTM輸出的隱藏狀態(tài)ht將hfwt和hbwt串聯(lián)起來，即ht=［hfwt，hbwt］，可以有效地捕獲輸入中的上下文信息和依賴關(guān)系。

2.3.2 多頭注意力機制

由于LSTM缺乏自適應(yīng)關(guān)注特定區(qū)域的能力，可能導(dǎo)致學(xué)習(xí)過程中的冗余或信息丟失，不能全面地捕捉實體之間的相關(guān)性和聯(lián)系。將引入多頭注意力機制從不同的視角學(xué)習(xí)語義特征，可以幫助本文方法更準(zhǔn)確地理解復(fù)雜的語義關(guān)系。因此，應(yīng)用多頭注意力對Bi-LSTM輸出的歷史信息ht分配權(quán)重，多頭注意力中的查詢Q、鍵K、值V表達如式（20）所示。

（Q，K，V）=（WQ，WK，WV）·H（20）

其中：W為權(quán)重矩陣；H表示Bi-LSTM單元的輸出。為了檢索V中最重要的特征，采用縮放點積法對注意力進行計算：

多頭注意力框架如圖3所示，多頭注意力機制是Q、K、V經(jīng)過不同的線性變換h次，在這些投影版本上并行執(zhí)行注意力函數(shù)，將這些注意力權(quán)重與值進行加權(quán)求和，以得到每個頭部的輸出。最后，將所有頭部的輸出連接起來，并再次進行線性變換（投影），從而得到最終的輸出值，如式（22）（23）所示。

ht=concat（head1，…，headh）Wo（22）

headi=attention（QWQi，KWKi，VWVi） 1≤i≤h（23）

2.3.3 策略網(wǎng)絡(luò)

策略網(wǎng)絡(luò)用來指導(dǎo)Hight智能體和Low智能體選擇下一個簇和實體。為了預(yù)測下一個動作，本方法將狀態(tài)信息式（1）（2）與歷史信息拼接，然后通過ReLU函數(shù)與動作集合進行相乘，得到下一個動作的概率分布，智能體在其中選擇一個分數(shù)最高的動作作為下一時刻的動作選擇，低級策略網(wǎng)絡(luò)偽代碼如算法1所示。本方法的策略網(wǎng)絡(luò)計算公式如式（24）（25）所示。

πHθ（aHt|sHt）=σ（AHt×WH2ReLU （WH1［ct;hHt］））（24）

πLθ（aLt|sLt）=

σ（ALt×WL2ReLU （WL1［et;rq;hLt］））（25）

其中：πHθ與πLθ分別為高級策略網(wǎng)絡(luò)、低級策略網(wǎng)絡(luò)；ct表示簇嵌入；hHt與hLt為經(jīng)過多頭注意力機制處理后的歷史信息。Hight智能體通過高級策略網(wǎng)絡(luò)，選擇分數(shù)最高的作為下一個動作，跳轉(zhuǎn)到相應(yīng)的簇中以指導(dǎo)Low智能體進行推理。Low智能體通過低級策略網(wǎng)絡(luò)，選擇概率較高的實體作為下一個動作，最后通過相互獎勵模塊對智能體的選擇給予獎勵。

算法1 低級策略網(wǎng)絡(luò)

輸入：當(dāng)前實體嵌入et，查詢關(guān)系rq，歷史ht，最大步長length。

輸出：智能體下一步動作選擇at。

1 begin

2" for et+1←（et，rt+1，et+1） do;

3"" Step=0，et=es;

4"" while Steplt;length and et≠etarget;

//判斷步數(shù)是否小于最大步長以及是否到達目標(biāo)實體

5""" calculate ht←Bi-LSTM（et，rq，ht－1）; //利用Bi-LSTM對歷史信息進行編碼

6""" calculate ht←multi-head（ht）; //利用多頭注意力機制對編碼的歷史信息聚焦

7""" πLθ（aLt|sLt）=σ（ALt×WL2 ReLU （WL1［et;rq;hLt］））;

8""" select at at from πLθ（aLt|sLt）;

9""" step+1；

10" end while;

11 "end for；

12 end

3 實驗

3.1 環(huán)境搭建

為了保證實驗的有效性，本文利用PyTorch框架對模型的實驗環(huán)境進行搭建，并在單張NVIDIA GeForce RTX 4090GPU上進行實驗。實驗過程中使用Bi-LSTM與多頭注意力融合模塊對搜索歷史進行編碼，Bi-LSTM的隱藏維度大小設(shè)置為200，多頭注意力中的嵌入維度大小為400，頭數(shù)為8。模型具體的參數(shù)設(shè)置如下：實體與關(guān)系嵌入的維度為50；批處理大小batch_size在FB15K-237 、WN18RR和NELL-995中分別設(shè)置為256、256和128；最大路徑長度設(shè)置為3。

3.2 數(shù)據(jù)集與評價分析

本文實驗采用知識推理領(lǐng)域通用的三個數(shù)據(jù)集FB15K-237［7］、WN18RR［8］和NELL-995［14］來評估本方法的有效性。其中FB15K-237是FreeBase的子集，通過刪除FB15K中大量可逆關(guān)系數(shù)據(jù)創(chuàng)建得來，對數(shù)據(jù)集進行過濾，只保留一組反向或重復(fù)關(guān)系中的一個從而得到237個關(guān)系。WN18RR是Wordnet的一個子集，提供語義知識，通過去除可逆三元組對來減少數(shù)據(jù)冗余，消除了反向關(guān)系事實，避免了在表示任務(wù)中信息泄露的問題。NELL-995是卡內(nèi)基梅隆大學(xué)開發(fā)的一個NELL系統(tǒng)中的第995次迭代產(chǎn)生的數(shù)據(jù)集，使用關(guān)系泛化或haswikipediaurl刪除三元組，選擇具有top-200關(guān)系的三元組。數(shù)據(jù)集的統(tǒng)計信息如表1所示。本文實驗使用ConvE對數(shù)據(jù)集進行預(yù)訓(xùn)練以獲取實體的嵌入表示，將預(yù)訓(xùn)練的實體嵌入進行聚類，使用實體的聚類標(biāo)簽構(gòu)建集群圖，以便Hight智能體進行集群級別的探索。

知識推理任務(wù)的評價方式通常是通過對鏈接預(yù)測的結(jié)果進行分析，鏈接預(yù)測是對預(yù)測三元組中缺失的部分進行預(yù)測。因此，在實驗中采用前k命中率（hits@k）和平均倒數(shù)排名（MRR）兩個評價指標(biāo)對方法的性能進行評價。

前k命中率（hits@k）指標(biāo)指的是前k個結(jié)果中命中的概率。式（26）為hits@k的計算公式，ranki為第i個三元組的鏈接預(yù)測排名，|N|為三元組集合個數(shù)，I為indicator函數(shù)，若條件真則函數(shù)值為1，否則為0。

平均倒數(shù)排名（MRR）常用于評估模型預(yù)測答案的排名，指的是三元組在所有候選的三元組中評分倒數(shù)排名的均值，其計算公式如式（27）所示。

3.3 實驗分析

為了驗證方法的有效性，將HRL-BM與TransE［7］、ConvE［8］、ComplEx［18］、KG-BERT［21］、PRA［9］、DeepPath［14］、MINERVA［15］、M-Walk［24］、RLH［28］、CURL［29］、A*Net［32］十一種方法在三個公開數(shù)據(jù)集上進行對比實驗，如表2所示。其中TransE、ConvE、ComplEx、KG-BERT是基于嵌入的方法，PRA是基于路徑的方法，DeepPath、MINERVA、RLH、M-Walk、CURL是基于強化學(xué)習(xí)的方法。

表2中，模型在數(shù)據(jù)集中的最優(yōu)性能均以粗體標(biāo)出，由表2可知，HRL-BM在三個數(shù)據(jù)集上的hits@1、hits@3、hits@10、MRR性能指標(biāo)均有明顯提升。在FB15K-237數(shù)據(jù)集上MRR的值比平均排名第2的CURL高出9.5百分點。FB15K-237數(shù)據(jù)集中含有很多“多對一”和“一對多”的關(guān)系，更貼近現(xiàn)實生活場景，HRL-BM在其中性能有明顯提升。這表明本文方法對復(fù)雜關(guān)系有著良好的性能，并且具有較強的魯棒性。在WN18RR與NELL-995數(shù)據(jù)集中，HRL-BM大部分的性能表現(xiàn)均有提高，并且比CURL的性能平均高出3.3、6.4百分點。而在NELL-995中有些結(jié)果的性能要比ConvE模型低，原因是NELL-995數(shù)據(jù)集相比于其他兩個數(shù)據(jù)集路徑長度較小，而基于嵌入的模型結(jié)構(gòu)較為簡單，在保證性能的同時，降低了計算復(fù)雜度，這也證明HRL-BM在長路徑推理方面的優(yōu)勢，并且在短路徑推理中性能也優(yōu)于大部分基于嵌入的模型?；谇度氲哪Ｐ碗m然簡單，但大部分的性能指標(biāo)都要比基于路徑的模型優(yōu)秀。導(dǎo)致這種現(xiàn)象的原因是基于嵌入的方法通常具有更強的泛化能力，并且由于知識圖譜數(shù)據(jù)的稀疏性，某些實體之間可能沒有直接的鏈接路徑，基于路徑的方法可能無法找到有效的路徑來進行推理，而基于嵌入的方法則可以通過學(xué)習(xí)實體和關(guān)系的連續(xù)表示來彌補路徑上的切實信息，從而提高了推理性能。但由于不能提供推理路徑，此類方法的推理可解釋性較低。而基于強化學(xué)習(xí)的

知識推理方法可以記錄智能體在環(huán)境中的決策路徑，增強了可解釋性。

HRL-BM通過對知識圖譜進行聚類，使用分層強化學(xué)習(xí)進行推理，降低了智能體動作空間的大小，提高了推理效率，并且與其他基于強化學(xué)習(xí)的推理方法不同的是，本文采用了Bi-LSTM與多頭注意力融合模塊對智能體的搜索歷史進行編碼，可以學(xué)習(xí)到更復(fù)雜和隱藏的語義信息。HRL-BM在FB15K-237數(shù)據(jù)集上的性能比另外兩個數(shù)據(jù)集有顯著提升，原因是FB15K -237 數(shù)據(jù)集包含更多的1對m的關(guān)系，而HRL-BM采用Bi-LSTM與多頭注意力融合模塊可以聚焦在高度相關(guān)的關(guān)系之中，從而提高推理的準(zhǔn)確度。

3.4 消融實驗

為了進一步分析在HRL-BM中加入Bi-LSTM與多頭注意力機制融合模塊、包含路徑信息的相互獎勵機制對推理效果的影響，在FB15K-237、WN18RR和NELL-995數(shù)據(jù)集上進行了消融實驗。表3中呈現(xiàn)了消融實驗的結(jié)果，其中HRL-BM表示本文模型的性能，-BM表示本文模型去除Bi-LSTM與多頭注意力融合模塊的效果;-multi-head表示HRL-BM刪除多頭注意力機制模塊；-Bi-LSTM表示HRL-BM刪除Bi-LSTM模塊；-reward表示HRL-BM刪除相互獎勵機制，采用0-1獎勵函數(shù)。

由表3可知，在原模型的基礎(chǔ)上分別刪除Bi-LSTM與多頭注意力融合模塊、多頭注意力模塊、Bi-LSTM模塊以及相互獎勵機制后，各項指均有所下降。因此，多頭注意力在本方法中可以更全面地捕捉實體之間的關(guān)系和特征；Bi-LSTM能夠同時考慮過去和未來的上下文信息，這意味著它在處理序列數(shù)據(jù)時，通過考慮雙向的上下文信息，Bi-LSTM能夠?qū)W習(xí)到更豐富和復(fù)雜的特征表示。這些特征對于提高推理的準(zhǔn)確性至關(guān)重要；刪除相互獎勵機制后，性能下降最為明顯，因此，相互獎勵機制能夠鼓勵智能體選擇所需資源更少、更快到達目標(biāo)實體的路徑，減少智能體在已經(jīng)探索過的路徑上重復(fù)游走。綜上所述，Bi-LSTM與多頭注意力機制融合模塊和路徑獎勵模塊對模型的推理性能存在一定的影響。而在NELL-995數(shù)據(jù)集上影響最大，是因為其數(shù)據(jù)集規(guī)模較小，其中包含的關(guān)系較少，對分層策略進行關(guān)系選擇時影響較大。在WN18RR數(shù)據(jù)集中，刪除多頭注意力模塊之后，hits@3與hits@10指標(biāo)下降了，而hits@1指標(biāo)卻上升了，原因是多頭注意力機制允許本方法同時關(guān)注輸入的不同部分，刪除它使模型更加偏向于關(guān)注局部信息，而非全局信息。在hits@1指標(biāo)上，方法更專注于最直接或最顯著的線索，會提升其性能，但隨著預(yù)測排名的增加（即hits@3和hits@10），需要更多的全局信息來作出準(zhǔn)確的預(yù)測，這時本方法的表現(xiàn)會下降。在刪除各個模塊之后，模型性能雖然有所下降，但是與其他方法相比也具有一定的優(yōu)勢，進一步證明了HRL-BM的有效性。

3.5 案例研究

為了證明本文模型在路徑推理上的有效性，本文對路徑對立進行了研究，如圖4所示。圖4中的例子是從NELL-995數(shù)據(jù)集中得到的，從圖4中的例子可以說明本文模型在執(zhí)行各種推理任務(wù)時的路徑推理能力。并且在包含逆關(guān)系的推理過程中，智能體還可以通過逆三元組對已作出的錯誤選擇進行糾正，回到上一步的實體中重新進行推理。

短路徑推理：SteveDelanoSmithSubPartOfOrganization？

SteveDelanoSmithathleteplaysforteamMiami HeatSubPartOfOrganizationNBA

長路徑推理：Barack ObamaPersonLanguage？

Barack ObamabornInHonolululocatedInHawaiiisStateIn

United StateshasOfficialLanguageEnglish

包含逆關(guān)系的推理：LeBron JamesSubPartOfOrganization？

LeBron JamesSportGameTeam－1SportGamesSportGameTeam

Los Angeles LakersSubPartOfOrganizationNBA

3.6 迭代次數(shù)研究

為了探究本文模型使用Bi-LSTM與多頭注意力融合模塊之后的效果，在FB15K-237數(shù)據(jù)集上進行了實驗，并在同一實驗環(huán)境下與CURL模型的hits@1性能進行對比，實驗結(jié)果如圖5所示?？梢钥闯觯珻URL模型相比，本文模型在2 000次迭代之后性能即可達到最優(yōu)性能，并且在后續(xù)的迭代過程中，模型的性能有所下降但逐漸趨近平穩(wěn)。而CURL模型在1 500～3 000的迭代次數(shù)時，模型效果較差，在3 000迭代次數(shù)之后效果有所提升，直到5 000次迭代時，CURL模型的性能達到最優(yōu)值，但仍與本文模型的性能有所差距?？梢钥闯?，本文模型在加入Bi-LSTM與多頭注意力融合模塊之后，達到最優(yōu)性能所需的總訓(xùn)練時間明顯少于CURL模型，并且本文模型在較少的迭代次數(shù)下即能達到最優(yōu)性能，體現(xiàn)出較高的訓(xùn)練效率和性能穩(wěn)定性。

3.7 參數(shù)分析

本節(jié)通過參數(shù)實驗來驗證模型參數(shù)的有效性，分別對路徑長度與多頭注意力中的頭數(shù)兩個參數(shù)對模型的性能影響進行了實驗。

3.7.1 路徑長度實驗

在知識推理的過程中，推理路徑的長度對模型的性能會產(chǎn)生很大的影響。短路徑中通常包含更直接和相關(guān)的信息，模型可以更容易地利用這些信息進行連接預(yù)測，但是短路徑可能會忽略一些重要的背景知識和上下文信息。長路徑可以包含更多的信息，但是也可能導(dǎo)致推理過程中信息的稀疏性增加，使得智能體難以聚焦到關(guān)鍵信息上，圖6展示了HRL-BM在FB15K-237數(shù)據(jù)集中，不同路徑長度的hits@1效果。

如圖6所示，橫軸為路徑長度，縱軸為模型hits@1的值。當(dāng)路徑長度為3時，模型取得最優(yōu)性能，此時hits@1的值為0.642 6；當(dāng)路徑長度為6時，取得次優(yōu)性能，此時hits@1的值為0.638，并且在其他路徑長度中模型的性能均優(yōu)于對比算法。由圖6的實驗結(jié)果可知，本文通過分層強化學(xué)習(xí)與相互獎勵機制提高了推理效果，并且在長路徑上效果表現(xiàn)優(yōu)異，證明了HRL-BM模型中Bi-LSTM與多頭注意力融合模塊對長路徑中的隱藏語義和上下文信息提取效果良好，可以很好地解決長路徑推理的問題。

3.7.2 注意力頭數(shù)實驗

在強化學(xué)習(xí)知識推理中，本文研究了多頭注意力機制中的注意力頭數(shù)對實驗效果的影響。實驗使用FB15K-237數(shù)據(jù)集，并且推理路徑長度設(shè)為3，固定其他超參數(shù)，通過設(shè)置不同數(shù)量的注意力頭進行實驗，實驗效果如圖7所示。當(dāng)注意力頭數(shù)增加時，模型的效果有所提升。這是因為增加注意力頭數(shù)可以提供更多的注意力權(quán)重組合，模型可以從中提取出實體的隱藏信息和上下文信息，有助于智能體進行推理，但是過多的注意力頭數(shù)有可能增加過擬合的風(fēng)險。由圖7的實驗結(jié)果可知，當(dāng)注意力頭數(shù)為8時，實驗效果最佳。

4 結(jié)束語

本文提出了一種融合Bi-LSTM與多頭注意力的分層強化學(xué)習(xí)推理方法HRL-BM。HRL-BM通過分層強化學(xué)習(xí)把知識推理分解為兩個馬爾可夫序列決策過程，通過多智能體分別進行推理。通過Bi-LSTM與多頭注意力融合模塊對智能體歷史信息進行處理，對策略網(wǎng)絡(luò)進行更新，提高智能體動作選擇的準(zhǔn)確度。此外引入包含路徑信息的獎勵機制對智能體的動作選擇以及挖掘出來的路徑及時給予獎勵，避免了獎勵稀疏的問題。實驗結(jié)果表明，HRL-BM的推理性能優(yōu)于同類對比方法，能夠更準(zhǔn)確和高效地搜索答案。未來可以進一步探索如何在強化學(xué)習(xí)框架中更有效地結(jié)合LLM，以增強語義理解和推理能力。例如考慮在模型的預(yù)訓(xùn)練階段通過BERT提取實體和關(guān)系的上下文表示，增強模型的語義理解能力，并通過利用LLM的多任務(wù)學(xué)習(xí)能力，使智能體能夠同時處理多種類型的推理任務(wù)，從而提高模型的泛化能力。

參考文獻：

［1］杜雪盈，劉名威，沈立煒，等. 面向鏈接預(yù)測的知識圖譜表示學(xué)習(xí)方法綜述［J］. 軟件學(xué)報， 2024， 35（1）： 87-117. （Du Xue-ying， Liu Mingwei， Shen Liwei， et al. Survey on representation lear-ning methods of knowledge graph for link prediction［J］. Journal of Software Science， 2024， 35（1）： 87-117.）

［2］Bollacker K， Evans C， Paritosh P， et al. FreeBase： a collaboratively created graph database for structuring human knowledge ［C］// Proc of ACM SIGMOD International Conference on Management of Data.New York：ACM Press， 2008： 1247-1250.

［3］Lehmann J， Isele R， Jakob M， et al. DBpedia—a large-scale， multilingual knowledge base extracted from Wikipedia ［J］. Semantic Web， 2015， 6（2）： 167-195.

［4］Wu Wenqing， Zhu Zhenfang， Qi Jiangtao， et al. A dynamic graph expansion network for multi-hop knowledge base question answering ［J］. Neurocomputing， 2023，515：37-47.

［5］Cui Hai， Peng Tao， Xiao Feng， et al. Incorporating anticipation embedding into reinforcement learning framework for multi-hop know-ledge graph question answering ［J］. Information Sciences： An International Journal， 2023，619：745-761.

［6］馬昂，于艷華，楊勝利，等. 基于強化學(xué)習(xí)的知識圖譜綜述［J］. 計算機研究與發(fā)展， 2022， 59（8）： 1694-1722. （Ma Ang， Yu Yanhua， Yang Shengli， et al. Survey of knowledge graph based on reinforcement learning ［J］. Journal of Computer Research and Development， 2022， 59（8）： 1694-1722.）

［7］Bordes A， Usunier N， Garcia-Duran A， et al. Translating embeddings for modeling multi-relational data ［C］// Advances in Neural Information Processing Systems. 2013： 2787-2795.

［8］Dettmers T， Minervini P， Stenetorp P， et al. Convolutional 2D knowledge graph embeddings ［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2018： 1811-1818.

［9］Lao Ni， Cohen W W. Relational retrieval using a combination of path-constrained random walks ［J］. Machine Learning， 2010， 81： 53-67.

［10］Gardner M， Talukdar P， Kisiel B， et al. Improving learning and inference in a large knowledge-base using latent syntactic cues ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2013： 833-838.

［11］Shang Bin， Zhao Yinliang， Wang Chenxin， et al. Multi-hop know-ledge reasoning with deep reinforcement learning ［C］// Proc of the 7th International Conference on Computational Intelligence and Applications. Piscataway，NJ：IEEE Press， 2022： 27-31.

［12］Wang Zikang， Li Linjing， Zeng D. SRGCN： graph-based multi-hop reasoning on knowledge graphs ［J］. Neurocomputing， 2021， 454： 280-290.

［13］Li Dengao， Miao Shuyi， Zhao Baofeng， et al. ConvHiA： convolutio-nal network with hierarchical attention for knowledge graph multi-hop reasoning ［J］. International Journal of Machine Learning and Cybernetics， 2023， 14（7）： 2301-2315.

［14］Xiong W， Hoang T， Wang W Y. DeepPath： a reinforcement learning method for knowledge graph reasoning ［EB/OL］. （2018-07-07）.https：//arxiv.org/abs/1707. 06690.

［15］Das R， Dhuliawala S， Zaheer M， et al. Go for a walk and arrive at the answer： reasoning over paths in knowledge bases using reinforcement learning ［EB/OL］. （2018-12-30）. https：//arxiv.org/abs/1711. 05851.

［16］Liu Xinliang， Mao Tingyu， Shi Yanyan， et al. Overview of know-ledge reasoning for knowledge graph ［J］. Neurocomputing， 2024， 585：127571.

［17］Wang Zhen， Zhang Jianwen， Feng Jianlin， et al. Knowledge graph embedding by translating on hyperplanes ［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press，2014： 1112-1119.

［18］Trouillon T， Welbl J， Riedel S， et al. Complex embeddings for simple link prediction ［C］//Proc of the 33rd International Conference on Machine Learning. 2016： 2071-2080.

［19］Ji Guoliang， He Shizhu， Xu Liheng， et al. Knowledge graph embedding via dynamic mapping matrix ［C］// Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing （volume 1： Long papers）. Palo Alto， CA： AAAI Press， 2015： 687-696.

［20］Wang Peng， Xie Xin， Wang Xiaohan， et al. Reasoning through memorization： nearest neighbor knowledge graph embeddings ［C］//Proc of CCF International Conference on Natural Language Processing and Chinese Computing. Cham： Springer， 2023： 111-122.

［21］Yao Liang， Mao Chengsheng， Luo Yuan. KG-BERT： BERT for knowledge graph completion ［EB/OL］. （2019-09-11）. https：//arxiv.org/abs/1909. 03193.

［22］Lao N， Subramanya A， Pereira F， et al. Reading the Web with learned syntactic-semantic inference rules ［C］// Proc of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012： 1017-1026.

［23］Wang Xiang， Wang Dingxian， Xu Canran， et al. Explainable reaso-ning over knowledge graphs for recommendation ［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2019： 5329-5336.

［24］翟社平，亢鑫年，李方怡，等. 融合關(guān)系路徑與實體鄰域信息的知識圖譜補全方法［J］. 計算機工程與應(yīng)用， 2024， 60（13）： 136-142. （Zhai Sheping， Kang Xinnian， Li Fangyi， et al. Incorporating relation path and entity neighborhood information for knowledge graph completion method ［J］. Computer Engineering and Applications， 2024， 60（13）： 136-142.）

［25］劉世俠，李衛(wèi)軍，劉雪洋，等. 基于強化學(xué)習(xí)的知識圖譜推理研究綜述［J］. 計算機應(yīng)用研究， 2024， 41（9）： 2561-2572. （Liu Shixia， Li Weijun， Liu Xueyang， et al. Review of reinforcement learning based knowledge graph reasoning research ［J］. Application Research of Computers， 2024， 41（9）： 2561-2572.

［26］Liu Ruinan， Yin Guisheng， Liu Zechao. Learning to walk with logical embedding for knowledge reasoning ［J］. Information Sciences， 2024， 667： 120471.

［27］Shen Yelong， Chen Jianshu， Huang P S， et al. M-walk： learning to walk over graphs using Monte Carlo tree search ［C］// Advances in Neural Information Processing Systems. 2018： 6787-6798.

［28］Wan Guojia， Pan Shirui， Gong Chen， et al. Reasoning like human： hierarchical reinforcement learning for knowledge graph reasoning ［C］//Proc of International Joint Conference on Artificial Intelligence. 2021： 1926-1932.

［29］Zhang Denghui， Yuan Zixuan， Liu Hao， et al. Learning to walk with dual agents for knowledge graph reasoning ［C］// Proc of AAAI Conference on Artificial Intelligence. 2022： 5932-5941.

［30］Zhu Aanjie， Ouyang Deqiang， Liang Shuang， et al. Step by step： a hierarchical framework for multi-hop knowledge graph reasoning with reinforcement learning ［J］. Knowledge-Based Systems， 2022， 248： 108843.

［31］Jiang Chunyang， Zhu Tianchen， Zhou Haoyi， et al. Path spuriousness-aware reinforcement learning for multi-hop knowledge graph reasoning ［C］// Proc of the 17th Conference of the European Chapter of the Association for Computational Linguistics. 2023： 3181-3192.

［32］Zhu Zhaocheng， Yuan Xinyu， Galkin M， et al. A*Net： a scalable path-based reasoning approach for knowledge graphs ［C］//Advances in Neural Information Processing Systems. 2024： 59323-59336.

計算機應(yīng)用研究2025年1期

計算機應(yīng)用研究的其它文章: 小數(shù)據(jù)集上基于語義的局部注意視覺Transformer方法; 一種基于旋轉(zhuǎn)-平移解耦優(yōu)化的在線稠密重建算法; 單目RGB穿衣人體的手部精細化重建; 基于視角統(tǒng)一的手姿態(tài)估計優(yōu)化方法; 基于互相關(guān)和旋轉(zhuǎn)約束的視覺慣性里程計在線時間校準(zhǔn)算法; 適用于智能醫(yī)療的匿名基于身份的認證密鑰協(xié)商協(xié)議

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合Bi-LSTM與多頭注意力的分層強化學(xué)習(xí)推理方法