摘 要:【目的】針對基于知識圖譜的強化學(xué)習(xí)推薦算法只考慮推薦結(jié)果的可解釋性,沒有考慮推薦結(jié)果的多樣性問題,提出一種新的基于知識圖譜的強化學(xué)習(xí)推薦算法。在解決推薦結(jié)果可解釋性問題的基礎(chǔ)上,提高推薦結(jié)果的多樣性和準(zhǔn)確性?!痉椒ā客ㄟ^提出一種針對推薦結(jié)果多樣性的評價指標(biāo)ETD,并在算法的路徑推理模塊中引入Random_Beam_Search搜索算法,提高推薦結(jié)果的多樣性。同時,強化學(xué)習(xí)模塊引入注意力機制,提高推薦結(jié)果的準(zhǔn)確性。【結(jié)果】與具有可解釋性的PGPR推薦算法相比,該推薦算法在Beauty數(shù)據(jù)集上推薦結(jié)果多樣性提高了28.4%,準(zhǔn)確性提高了0.056百分點;在Clothing數(shù)據(jù)集上推薦結(jié)果準(zhǔn)確性提高了0.035百分點?!窘Y(jié)論】該推薦算法不僅解決了推薦系統(tǒng)的可解釋性問題,還提高了推薦結(jié)果的多樣性與準(zhǔn)確性。
關(guān)鍵詞:推薦算法;知識圖譜;多樣性
中圖分類號:TP187" " "文獻(xiàn)標(biāo)志碼:A" " 文章編號:1003-5168(2024)20-0031-06
DOI:10.19968/j.cnki.hnkj.1003-5168.2024.20.006
Research on Reinforcement Learning Recommendation Algorithm Based on Knowledge Graph
Abstract:[Purposes] In response to the problem that knowledge graph based reinforcement learning recommendation algorithms only consider the interpretability of recommendation results without considering the diversity of recommendation results, this paper proposes a new knowledge graph based reinforcement learning recommendation algorithm to improve the diversity and accuracy of recommendation results while solving the interpretability problem of recommendation results. [Methods] This article proposes an evaluation metric ETD for the diversity of recommendation results, and introduces the Randome_Beam_Search search algorithm in the path inference module of the algorithm to improve the diversity of recommendation results. At the same time, an attention mechanism is introduced in the reinforcement learning module to improve the accuracy of recommendation results. [Findings] Compared with the interpretable PGPR recommendation algorithm, the algorithm proposed in this article improved the diversity of recommendation results by 28.4% and accuracy by 0.056 percentage points on the Beauty dataset; the accuracy of recommendation results on the Clothing dataset improved by 0.035 percentage points. [Conclusions] The algorithm proposed in this article not only solves the interpretability problem of recommendation systems, but also improves the diversity and accuracy of recommendation results.
Keywords: recommendation algorithms; knowledge graphs; diversity
0 引言
隨著互聯(lián)網(wǎng)與移動端設(shè)備的高速發(fā)展,信息數(shù)據(jù)呈現(xiàn)出指數(shù)級增長,為解決信息過載問題,推薦系統(tǒng)應(yīng)運而生。傳統(tǒng)的基于協(xié)同過濾[1]的推薦系統(tǒng)是根據(jù)用戶歷史交互數(shù)據(jù)進(jìn)行建模的,基于內(nèi)容的推薦系統(tǒng)[2]根據(jù)物品的特征和內(nèi)容信息對物品進(jìn)行分類和推薦,這兩種方法在推薦的準(zhǔn)確性和推薦結(jié)果多樣性方面都存在局限性,并有冷啟動問題。對此,有學(xué)者將深度學(xué)習(xí)引入到推薦算法中,如基于深度神經(jīng)網(wǎng)絡(luò)[3]的推薦算法、基于卷積神經(jīng)網(wǎng)絡(luò)[4]的推薦算法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)[5]的推薦算法和基于圖神經(jīng)網(wǎng)絡(luò)[6]的推薦算法。這些深度網(wǎng)絡(luò)模型極大地提高了推薦算法的準(zhǔn)確性,但隨著推薦算法的不斷發(fā)展,當(dāng)前不僅對推薦算法的準(zhǔn)確性要求較高,而且要求推薦結(jié)果具有一定的可解釋性和多樣性,對此有學(xué)者通過構(gòu)建知識圖譜與強化學(xué)習(xí)相結(jié)合的推薦算法來解決推薦結(jié)果的可解釋性問題,但是對推薦結(jié)果多樣性問題的研究依然較少。
基于上述問題,本研究提出多樣性評價指標(biāo)ETD(Explanation Type Diversity),并將Random_Beam_Search搜索算法引入到推薦算法的路徑推理模塊中,以此來提高推薦結(jié)果的多樣性。在Amazon提供的Beauty數(shù)據(jù)集和Clothing數(shù)據(jù)集上進(jìn)行驗證本研究所提算法,得到了理想的實驗結(jié)果。
1 相關(guān)技術(shù)研究現(xiàn)狀
1.1 基于知識圖譜的推薦系統(tǒng)研究現(xiàn)狀
自Google提出知識圖譜以來,將知識圖譜引入到推薦系統(tǒng)便成為研究熱點。Liu等[7]設(shè)計出名為CGAT的推薦算法,該算法采用偏置的隨機游走抽樣過程,在KG中提取了目標(biāo)實體的上下文信息,還引入注意力機制對上下文信息進(jìn)行區(qū)分,提高了個性化推薦的準(zhǔn)確性。Zhu等[8]提出的KARN算法將知識圖譜與注意力機制進(jìn)行結(jié)合,捕捉用戶的點擊歷史序列中的歷史興趣信息,同時采用注意力神經(jīng)網(wǎng)絡(luò)來推理用戶與項目之間的路徑,以此來推斷潛在的用戶意圖,提高了推薦算法的準(zhǔn)確性。Wang等[9]在用戶—物品交互建?;A(chǔ)上引入知識圖譜,將物品與屬性相連,提出名為KGAT的算法,使用注意力機制對知識圖譜進(jìn)行高階建模,提高了推薦結(jié)果的準(zhǔn)確性。Ma等[10]為解決用戶對項目之間存在不相關(guān)路徑問題,提出一種名為KR-GCN的推薦算法,減少了錯誤連接的概率,提高了推薦結(jié)果的可解釋性。
1.2 基于知識圖譜的強化學(xué)習(xí)推薦算法研究現(xiàn)狀
基于知識圖譜的強化學(xué)習(xí)推薦算法利用強化學(xué)習(xí)訓(xùn)練智能體在知識圖譜中進(jìn)行遍歷得到推薦路徑,進(jìn)而可以通過可視化路徑、高亮關(guān)鍵路徑或提供路徑的文字描述來實現(xiàn)推薦算法的可解釋性。阮小蕓等[11]基于真實的簡歷數(shù)據(jù)集來構(gòu)建人才社會經(jīng)歷知識圖譜,并在此知識圖譜上設(shè)計出分層強化學(xué)習(xí)智能體來提高知識圖譜的推理效率,解決了推薦結(jié)果的可解釋性問題。Xian等[12]基于電子商務(wù)數(shù)據(jù)集構(gòu)建知識圖譜,將其作為輸入在深度強化學(xué)習(xí)模型中進(jìn)行訓(xùn)練,得到推薦策略,進(jìn)而通過搜索算法得到推薦路徑,解決了推薦系統(tǒng)的可解釋性問題。劉語晗[13]將知識圖譜引入到推薦算法中,通過展示推薦結(jié)果與知識圖譜之間的關(guān)系,向用戶解釋推薦背后的原因和邏輯,增強了推薦結(jié)果的可解釋性,但是推薦結(jié)果多樣性較低。
綜上所述,若僅將知識圖譜融入推薦算法中,可以提高推薦算法的準(zhǔn)確性,但無法解決推薦算法存在的可解釋性問題;而將知識圖譜與強化學(xué)習(xí)相結(jié)合構(gòu)建的推薦算法可以解決可解釋性,但沒有考慮推薦結(jié)果的多樣性問題。因此,本研究對基于知識圖譜和強化學(xué)習(xí)的推薦算法進(jìn)行改進(jìn),并對路徑推理模塊進(jìn)行特殊設(shè)計,在解決知識圖譜可解釋性問題的基礎(chǔ)上提高推薦結(jié)果的多樣性。
2 基于知識圖譜的強化學(xué)習(xí)推薦算法
2.1 模型整體框架
本研究所提的基于知識圖譜的強化學(xué)習(xí)推薦算法主要包含三個模塊,即知識圖譜模塊、強化學(xué)習(xí)模塊、路徑推理模塊,整體框架如圖1所示。
2.2 知識圖譜模塊
在知識圖譜模塊中引入馬爾科夫決策過程,使知識圖譜融入推薦算法。知識圖譜的某一t時刻節(jié)點狀態(tài)[st]的三元組定義為[u, et, ht],其中u代表初始的用戶,[et]表示智能體推理到t時刻所到達(dá)的實體,[ht]表示t時刻以前的推理路徑,可以表示為[u0,r1,e1,…,rt,et]。將初始狀態(tài)[s0]定義為[u,u,?]、將最終狀態(tài)[sT]定義為[u,eT,hT]。智能體的行為空間[At]代表在[t]時刻實體[et]的所有的連接邊,但不包括[et]歷史的實體與關(guān)系。
式中:[…]表示點乘操作,即[e0]到[ei]所組成的多維向量與[ei]到[ek]所組成的多維向量進(jìn)行點乘操作;[e、r]分別代表實體與關(guān)系的多維向量。
推薦算法的獎勵函數(shù)[Rt]表示為當(dāng)且僅當(dāng)推薦項目[ZT]屬于動作空間[At]剪枝后的推薦目標(biāo)集合時,用戶[u]與推薦的項目[ZT]之間的相似性,見式(2)。
式中:[E]表示知識圖譜中所有項目;[fu,i]表示[u, i]兩個節(jié)點之間的評分函數(shù);[fu, ZT]表示[u, ZT]兩個節(jié)點之間的評分函數(shù)。
2.3 強化學(xué)習(xí)模塊
將狀態(tài)[st]作為輸入,依次經(jīng)過全連接、激活函數(shù)、[dropout]操作,得到下一個模塊的輸入[x1],見式(3)。
[x1=dropout σst?W1]" " " " (3)
式中:[σ]表示的是[ReLU]激活函數(shù)。
將[x1]通過注意力層得到的結(jié)果經(jīng)過激活函數(shù)[tanh],獲得注意力權(quán)重[attention_weights],見式(4)。
[attention_weights=tanhx1?Attention]" "(4)
將[attention_weights]經(jīng)過全連接層和[softmax]激活操作,得到概率分布結(jié)果[x2],見式(5)。
[][x2=softmaxattention_weights?W2]" " (5)
將[x2]與[x1]相乘,得到具有注意力機制的結(jié)果[x],見式(6)。
[x=x1?x2]" " (6)
該算法最終目標(biāo)是學(xué)習(xí)得到一個隨機策略[π],使得對于任何初始用戶[s0]都可以得到其最大化的累積獎勵,具體表達(dá)見式(10)。
式中:[γ]是折扣因子;[Rt+1]表示在[t]時刻所得到的獎勵值。
為了讓智能體探索更多的路徑,本研究引入正則化概念來使[θ]最大化,具體定義見式(11)。
式中:R代表的是從狀態(tài)S到狀態(tài)[ST]的一個累積獎勵;[v(s)]表示得到的價值網(wǎng)絡(luò)。
引入正則化的目的是避免參數(shù)過大出現(xiàn)過擬合,累積獎勵減去當(dāng)前的價值可以求得其歷史路徑的值,這樣有利于提高模型找到最優(yōu)目標(biāo)的效率。
2.4 路徑推理模塊
本研究選用Random_Beam_Search搜索算法進(jìn)行路徑推理,具體流程如圖2所示。
3 實驗
3.1 數(shù)據(jù)集介紹
本研究使用Amazon提供的Beauty數(shù)據(jù)集和Clothing數(shù)據(jù)集進(jìn)行算法驗證。Beauty數(shù)據(jù)集的實體包括用戶、推薦給用戶的商品、商品的特點、商品類別、商品品牌,數(shù)量分別為:22 363、12 101、22 564、248、2 077個;Clothing數(shù)據(jù)集的實體與Beauty數(shù)據(jù)集類型一致,其數(shù)量分別為:39 387、23 033、21 366、1 193、1 182個。兩個數(shù)據(jù)集的關(guān)系詳細(xì)數(shù)據(jù)見表1。
3.2 評價指標(biāo)及基準(zhǔn)模型介紹
本研究選取NDCG、Recall、HR、Precision這四個指標(biāo)作為推薦性能的評價指標(biāo),為了使研究推薦結(jié)果具有多樣性,本研究將用戶人均得到的推薦結(jié)果中可解釋的種類定義為ETD,該值將作為評價推薦結(jié)果多樣性的指標(biāo),其越大代表推薦結(jié)果的多樣性越好。具體定義是將全部用戶定義為U,其包含i個用戶,針對每一用戶u,通過本研究所提Random_Beam_Search算法可以得到不同種類的路徑數(shù)量為[Lu],將每個用戶獲取的不同種類的路徑數(shù)量[Lu]求和,取均值得到ETD的數(shù)值,ETD公式定義,見式(12)。
本研究選擇以下五種算法作為推薦算法的基線進(jìn)行實驗分析。
①貝葉斯個性化排序(BPR)推薦算法[14]是一個基于矩陣分解的推薦算法,針對每一個用戶進(jìn)行喜好排序,但不能用于全局的評分優(yōu)化。
②聯(lián)合表示學(xué)習(xí)(JRL)算法[15]是top-N推薦中首次聯(lián)合表示學(xué)習(xí)模型,其利用神經(jīng)網(wǎng)絡(luò)中的多模式格式將多種不同數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行融合學(xué)習(xí),得到用戶與物品的表示向量,進(jìn)而實現(xiàn)用戶的推薦。
③協(xié)作知識庫嵌入(CKE)[16]算法是一個基于點模型集成、矩陣分解和異構(gòu)數(shù)據(jù)格式的現(xiàn)代神經(jīng)網(wǎng)絡(luò)管理系統(tǒng),利用知識庫中的異構(gòu)信息來提高推薦算法的質(zhì)量。
④知識圖注意力網(wǎng)絡(luò)(KGAT)[9]算法強調(diào)在知識圖譜中交互數(shù)據(jù)之間的關(guān)系,并在圖神經(jīng)網(wǎng)絡(luò)框架下以顯式且端對端的方式實現(xiàn)了知識圖譜中高階關(guān)系的建模。
⑤策略引導(dǎo)路徑推理(PGPR)算法將知識圖譜引入到強化學(xué)習(xí)中,解決了推薦算法的可解釋性問題。
3.3 推薦結(jié)果性能分析
在Beauty數(shù)據(jù)集和Clothing數(shù)據(jù)集中對本研究所提推薦算法進(jìn)行性能分析,選取目標(biāo)用戶的前10個推薦結(jié)果進(jìn)行研究分析,具體實驗結(jié)果見表2。
由表2可知,相較于BPR、JRL、CKE、KGAT和PGPR,本研究所提推薦算法在推薦結(jié)果準(zhǔn)確性方面有著明顯優(yōu)勢。在Amazon Beauty數(shù)據(jù)集中,與基于top-N排序的推薦算法JRL相比,本研究所提算法準(zhǔn)確率提高了0.217百分點,與PGPR算法相比,該算法準(zhǔn)確性提高了0.056百分點;在Amazon Clothing數(shù)據(jù)集中,本研究所提算法的準(zhǔn)確率較基于top-N排序的推薦算法JRL提高了0.321百分點,較PGPR算法提高了0.035百分點。
3.4 推薦結(jié)果多樣性分析
本研究將貪婪搜索算法引入到PGPR,得到G-PGPR模型,PGPR模型是采用Beam-Search搜索算法進(jìn)行路徑的搜索,本研究設(shè)計了Random-Beam-Search搜索算法在同一時間復(fù)雜度下,不僅解決了Beam-Search搜索算法陷入局部最優(yōu)解的可能,還擴(kuò)大了搜索的范圍,提高了推薦結(jié)果的多樣性。在Amazon Beauty數(shù)據(jù)集上進(jìn)行測試得到的具體結(jié)果見表3。
由表3可知,G-PGPR模型雖然在搜索時效方面有優(yōu)勢,但推薦結(jié)果較差,本研究所提出的Random-Beam-Search搜索算法在搜索效率方面與PGPR模型相比效率提高了14%,推薦結(jié)果的多樣性提高了28.4%。
4 結(jié)語
為提高基于知識圖譜的強化學(xué)習(xí)推薦算法的準(zhǔn)確性。本研究將注意力機制引入到強化學(xué)習(xí)推薦算法,利用注意力機制來顯式地表示知識圖譜中不同實體或關(guān)系的關(guān)注程度,從而提高了推薦結(jié)果的準(zhǔn)確性。針對推薦結(jié)果多樣性的量化分析,本研究定義了ETD評分指標(biāo),并提出用Random_Beam_Search搜索算法來提高推薦結(jié)果的多樣性。該算法在Amazon Beauty數(shù)據(jù)集與Amazon Clothing數(shù)據(jù)集上進(jìn)行測試得到的推薦結(jié)果的準(zhǔn)確性與多樣性與其他經(jīng)典算法相比有著明顯的優(yōu)勢。未來可以將其與動態(tài)知識圖譜進(jìn)行結(jié)合,為用戶進(jìn)行實時推薦,讓用戶獲得更好的推薦體驗。
參考文獻(xiàn):
[1]CUI Z, XU X, XUE F, et al. Personalized recommendation system based on collaborative filtering for IoT scenarios[J]. IEEE Transactions on Services Computing, 2020, 13(4): 685-695.
[2]PAZZANI M J, BILLSUS D. Content-based recommendation systems[M]. The adaptive web: methods and strategies of web personalization. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007: 325-341.
[3]祝鈞桃, 姚光樂, 張葛祥, 等. 深度神經(jīng)網(wǎng)絡(luò)的小樣本學(xué)習(xí)綜述[J]. 計算機工程與應(yīng)用, 2021, 57(7):22-33.
[4]周飛燕, 金林鵬, 董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計算機學(xué)報, 2017, 40(6): 1229-1251.
[5]楊麗, 吳雨茜, 王俊麗, 等. 循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計算機應(yīng)用, 2018, 38(S2): 1-6,26.
[6]吳靜, 謝輝, 姜火文. 圖神經(jīng)網(wǎng)絡(luò)推薦系統(tǒng)綜述[J]. 計算機科學(xué)與探索, 2022, 16(10): 2249-2263.
[7]LIU Y, YANG S, XU Y, et al. Contextualized graph attention network for recommendation with item knowledge graph[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 35(1): 181-195.
[8]ZHU Q, ZHOU X, WU J, et al. A knowledge-aware attentional reasoning network for recommendation[J]. Proceedings of the AAAI conference on artificial intelligence. 2020, 34(4): 6999-7006.
[9]WANG X, HE X N, CAO Y X, et al. Kgat: Knowledge graph attention network for recommendation[J]. arxiv, 2019: 950-958.
[10]MA T, HUANG L, LU Q, et al. Kr-gcn: Knowledge-aware reasoning with graph convolution network for explainable recommendation[J]. ACM Transactions on Information Systems, 2023, 41: 1-27.
[11]阮小蕓,廖健斌,李祥,等.基于人才知識圖譜推理的強化學(xué)習(xí)可解釋推薦研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(6):36-50.
[12]XIAN Y, FU Z, MUTHUKRISHNAN S, et al. Reinforcement k-nowledge graph reasoning for explainable recommendation[J]. Proceedings of the 42nd international ACM SI-GIR conference on research and development in inform-ation retrieval. 2019: 285-294.
[13]劉語晗. 基于知識圖譜的可解釋推薦算法研究[D]. 北京:北京郵電大學(xué),2021.
[14]RENDLE S, FREUDENTHALER C, GANTNER Z, et al. BPR: Bayesian personalized ranking from implicit feedback[J]. arXiv preprint arXiv, 2012.
[15]ZHANG Y , AI Q , CHEN X ,et al.Joint Representation Learning for Top-N Recommendation with Heterogeneous Information Sources[C]//The 26th ACM International Conference on Information and Knowledge Management (CIKM 2017).ACM, 2017.
[16]ZHANG W, YUAN Q, HAN J, et al. Collaborative multi le-vel embedding learning from reviews for rating prediction[J]. IJCAI,2016,16: 2986-2992.