融合循環(huán)知識(shí)圖譜和協(xié)同過濾電影推薦算法

2020-01-17 01:42:28張亞釧卜榮景李晉源

計(jì)算機(jī)工程與應(yīng)用 2020年2期

李浩，張亞釧，康雁，楊兵，卜榮景，李晉源

云南大學(xué) 軟件學(xué)院，昆明650091

1 引言

隨著信息化社會(huì)的推廣和普及，互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展使得信息以爆炸式增長的態(tài)勢呈現(xiàn)在用戶面前，用戶難以從信息過載難題下獲得對自己真正有用的那部分信息，因此如何有效地為用戶篩選信息是大數(shù)據(jù)時(shí)代的一個(gè)課題。推薦系統(tǒng)研究的主要問題就是如何從這些過載的信息中找到每個(gè)用戶感興趣的內(nèi)容，并把這些內(nèi)容推送給用戶。

協(xié)同過濾算法是推薦領(lǐng)域應(yīng)用廣泛的算法。傳統(tǒng)的推薦算法不需要預(yù)先獲得用戶或物品的特征數(shù)據(jù)，僅依賴于用戶的歷史行為數(shù)據(jù)對用戶進(jìn)行建模，從而為用戶進(jìn)行推薦。該算法多數(shù)采用最近鄰技術(shù)，利用用戶歷史喜好信息計(jì)算用戶之間的距離，然后利用目標(biāo)用戶的最近鄰居對商品評價(jià)的加權(quán)評分值來預(yù)測目標(biāo)用戶對特定商品的喜好程度，但常常面臨著數(shù)據(jù)稀松和推薦結(jié)果挖法解釋等問題。

因此學(xué)者考慮利用知識(shí)圖譜來完善基于內(nèi)容的推薦系統(tǒng)中對用戶和物品的特征描述從而提升推薦效果。輔助信息可以豐富對用戶和物品的描述、增強(qiáng)推薦算法的挖掘能力，從而有效地解決稀疏性和冷啟動(dòng)問題，提高推薦結(jié)果的精確性、多樣性和可解釋性，所以如何根據(jù)具體推薦場景的特點(diǎn)將各種輔助數(shù)據(jù)有效地融入推薦算法成為推薦系統(tǒng)研究領(lǐng)域的熱點(diǎn)和難點(diǎn)，并且混合方法可以彌補(bǔ)基于內(nèi)容推薦在多樣性的不足[1]。

為了有效的推薦，本文依據(jù)混合推薦的基本思路，結(jié)合深度學(xué)習(xí)，在循環(huán)網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合協(xié)同過濾和知識(shí)圖譜，提出一個(gè)高效的推薦模型：RKGE-CF（Recurrent Knowledge Graph Embedding based on Collaborative Filtering）。主要內(nèi)容包括：（1）采用了循環(huán)知識(shí)圖嵌入，自動(dòng)學(xué)習(xí)實(shí)體和實(shí)體之間路徑的語義表示，以表征用戶對物品的偏好，得到更好的推薦結(jié)果。（2）在知識(shí)圖譜中同時(shí)加入外部評分，作為學(xué)習(xí)權(quán)重，更好地表達(dá)用戶的偏好程度。（3）改進(jìn)了協(xié)同過濾算法，在傳統(tǒng)的相似度計(jì)算中加入懲罰因子，以消除熱門物品和不活躍用戶對結(jié)果的影響。（4）利用不同的融合方法將內(nèi)涵知識(shí)與外部評分結(jié)果融合，得到最優(yōu)的融合推薦結(jié)果。（5）在公開數(shù)據(jù)集MovieLens 和IMDB 上進(jìn)行測試，測試結(jié)果在多維度上進(jìn)行比較，不斷調(diào)節(jié)參數(shù)，達(dá)到最優(yōu)推薦性能。實(shí)驗(yàn)結(jié)果表明，本文所提出的框架在一定程度提高了推薦的準(zhǔn)確性。

2 相關(guān)工作

2.1 基于協(xié)同過濾的推薦

傳統(tǒng)的推薦系統(tǒng)算法可以分為協(xié)同過濾推薦、基于內(nèi)容推薦和混合推薦三種。Sarwar等[2]提出一種基于物品的預(yù)測算法，建立物品相似度的預(yù)計(jì)算模型，提高推薦系統(tǒng)修改的在線可伸縮性。Fletcher等[3]利用基于個(gè)性化的協(xié)同過濾為用戶提供個(gè)性化新歌推薦。Hernando等[4]提出一種基于將評價(jià)矩陣分解成兩個(gè)非負(fù)矩陣的協(xié)同過濾算法預(yù)測用戶口味的新技術(shù)。Liu 等[5]提出一種采用關(guān)聯(lián)挖掘技術(shù)從論文上下文中計(jì)算出用于協(xié)同過濾的引用論文之間的相似性。基于內(nèi)容的推薦能夠很好地解決用戶行為數(shù)據(jù)稀疏和新用戶的冷啟動(dòng)問題，通過使用向量空間模型、線性分類、線性回歸等方法對用戶興趣特征和物品特征進(jìn)行建模，為用戶推薦與他感興趣的內(nèi)容相似的物品。江周峰等[6]提出一種結(jié)合社會(huì)化標(biāo)簽的基于內(nèi)容的推薦算法，可以較好地識(shí)別模糊標(biāo)簽。Shu J等[7]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的基于內(nèi)容的推薦算法，文本信息被直接用于進(jìn)行基于內(nèi)容的推薦而無需標(biāo)記?；旌贤扑]指將多種推薦技術(shù)進(jìn)行混合相互彌補(bǔ)缺點(diǎn)，從而獲得更好的推薦效果。Chu 等[8]將視覺信息視為中間體，整合基于內(nèi)容的推薦和協(xié)同過濾，具有很高的實(shí)用性。Subramaniam等[9]提出一種基于貝葉斯算法的非個(gè)性化推薦，在計(jì)算最小網(wǎng)頁加載時(shí)間的電影預(yù)測和推薦因子方面被證明是有效的。

2.2 基于深度學(xué)習(xí)的推薦

深度學(xué)習(xí)通過學(xué)習(xí)一種深層次非線性網(wǎng)絡(luò)結(jié)構(gòu)，表征用戶和物品相關(guān)的海量數(shù)據(jù)。源異構(gòu)數(shù)據(jù)中進(jìn)行自動(dòng)特征學(xué)習(xí)并將不同數(shù)據(jù)映射到一個(gè)相同的隱空間，從而獲取用戶和物品的深層次統(tǒng)一特征表示，將深度學(xué)習(xí)用在推薦系統(tǒng)上具有更好的抗噪性和有效性。Rumelhart等[10]提出的自編碼器（Autoencoder，AE）通過對用戶和物品的相關(guān)信息進(jìn)行隱層特征表示，應(yīng)用于推薦系統(tǒng)中用戶對物品的偏好預(yù)測。Smolensky P等[11]提出的受限玻爾茲曼機(jī)（Restricted Boltzmann Machine，RBM）通過重構(gòu)學(xué)習(xí)用戶評分矩陣對推薦系統(tǒng)中的未知評分進(jìn)行預(yù)測。Hinton 等[12-13]提出的深度信念網(wǎng)絡(luò)（Deep Belief Network，DBN）采用貪婪追逐算法訓(xùn)練多層非線性變量連接組成的生成式模型，從而從無標(biāo)記數(shù)據(jù)中獲取更深層次的特征表示，多數(shù)應(yīng)用于音樂數(shù)據(jù)的推薦。隨著卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）[14-15]的出現(xiàn)避免了前面所提及的復(fù)雜特征提取和重構(gòu)學(xué)習(xí)從而獲取物品的低維空間表示，減少了推薦模型中的參數(shù)數(shù)量，成為推薦系統(tǒng)研究的熱點(diǎn)。由于CNN 未考慮到建模數(shù)據(jù)之間的序列影響，循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）應(yīng)運(yùn)而生，并由此研究出更加有效建模長期依賴關(guān)系的長短時(shí)記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）[16-17]和門控循環(huán)單元（Gated Recurrent Unit，GRU）[18]，廣泛應(yīng)用于結(jié)合社交網(wǎng)絡(luò)的推薦。

2.3 基于知識(shí)圖譜的推薦

知識(shí)圖譜作為一種新興類型的輔助數(shù)據(jù)源引起了越來越多學(xué)者的關(guān)注，現(xiàn)有的將知識(shí)圖譜引入推薦系統(tǒng)的工作分為以LibFM 為代表的通用的基于特征的推薦算法[19]和以PER、MetaGraph 為代表的基于路徑的推薦算法[20]，前者將知識(shí)圖譜弱化為物品屬性，統(tǒng)一地把用戶和物品的屬性作為推薦算法的輸入，然而該方法無法高效地利用知識(shí)圖譜的全部信息；后者將知識(shí)圖譜視為一個(gè)異構(gòu)信息網(wǎng)絡(luò)，然后構(gòu)造物品之間的基于meta-path或meta-graph的特征，充分且直觀地利用知識(shí)圖譜的網(wǎng)絡(luò)結(jié)構(gòu)，不過工作量大。吳璽煜等[21]使用知識(shí)圖譜表示學(xué)習(xí)方法，將語義數(shù)據(jù)嵌入到低維空間，并將物品語義信息融入?yún)f(xié)同過濾推薦。Zhang 等[22]分別用網(wǎng)絡(luò)嵌入、多層降噪自動(dòng)編碼機(jī)、層疊卷積自編碼器獲取結(jié)構(gòu)化知識(shí)的向量化表示、文本知識(shí)特征、圖片知識(shí)特征，緊接著將這三類特征融合進(jìn)協(xié)同集成學(xué)習(xí)框架實(shí)現(xiàn)個(gè)性化推薦，實(shí)驗(yàn)證明基于深度學(xué)習(xí)的知識(shí)圖譜推薦算法在推薦效果上優(yōu)于基于協(xié)同過濾的傳統(tǒng)推薦模型。

現(xiàn)有的方法局限于考慮物品外在的物品-用戶評分矩陣信息，忽視了物品自身的信息。本文所提出的模型考慮到語義問題，將實(shí)體嵌入到低維空間里，還保持圖中原有的結(jié)構(gòu)和語義信息，通過知識(shí)圖譜語義網(wǎng)絡(luò)引入額外的一些輔助信息作為輸入，豐富實(shí)體之間的語義關(guān)聯(lián)，使推薦結(jié)果更加精確。此外，知識(shí)圖譜發(fā)散不同的關(guān)系連接種類和歷史記錄，提升了推薦結(jié)果的多樣性和可解釋性。

3 RKGE-CF架構(gòu)

本章將分塊介紹RKGE-CF的具體內(nèi)部結(jié)構(gòu)。首先采用了循環(huán)知識(shí)圖的電影推薦模型，去自動(dòng)學(xué)習(xí)實(shí)體和實(shí)體之間路徑的語義表示，以表征用戶對物品的偏好，在知識(shí)圖譜的基礎(chǔ)上結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，形成循環(huán)知識(shí)圖譜?？紤]到電影實(shí)體之間關(guān)系序列長度等問題，本文利用循環(huán)知識(shí)圖譜，較為方便地學(xué)習(xí)實(shí)體關(guān)系的語義，能夠?qū)Σ煌L度的序列進(jìn)行建模，特別適用于建模路徑，捕獲實(shí)體和實(shí)體對之間的整個(gè)路徑的語義的能力較好。對于多條路徑與不同長度可能連接實(shí)體，網(wǎng)絡(luò)能捕獲所有可能的關(guān)系。

在加入一批遞歸的循環(huán)神經(jīng)網(wǎng)絡(luò)后，可以鏈接相同的實(shí)體對的路徑，也就是完成了實(shí)體之間的關(guān)聯(lián)。再對實(shí)體對的路徑的語義進(jìn)行建模，將路徑無縫地融合到推薦模型中，使得每個(gè)實(shí)體和關(guān)系可以通過學(xué)習(xí)得到對應(yīng)的低維向量。既保持圖中原有結(jié)構(gòu)或語義信息，同時(shí)還方便鏈接相同語義實(shí)體的路徑，再將這些路徑融合到推薦中，提高推薦精確度。因此一組好的實(shí)體向量可以充分且完全地表示實(shí)體之間的相互關(guān)系，利用循環(huán)知識(shí)圖譜特征學(xué)習(xí)可以很方便地將數(shù)據(jù)特征引入各種推薦系統(tǒng)算法中。

然后加入了協(xié)同過濾的推薦，包括基于物品的協(xié)同過濾和基于用戶的協(xié)同過濾。對于協(xié)同過濾的推薦，系統(tǒng)會(huì)執(zhí)行最近鄰搜索，計(jì)算相關(guān)的相似度之后得到推薦結(jié)果。循環(huán)知識(shí)圖譜可以學(xué)習(xí)到推薦關(guān)系中的內(nèi)涵知識(shí)，協(xié)同過濾可以很好地使用外部評分，本文提出的方法將內(nèi)涵知識(shí)和外部評分進(jìn)行組合，有效地提高推薦的效率。

循環(huán)知識(shí)圖譜嵌入模型框架如圖1所示，主要由上下兩部分組成。上部分是循環(huán)知識(shí)圖譜嵌入，下部分是結(jié)合基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾。

3.1 循環(huán)知識(shí)圖譜（RKGE）

在本節(jié)將具體介紹循環(huán)知識(shí)圖譜的詳細(xì)結(jié)構(gòu)信息，包括語義路徑、LSTM網(wǎng)絡(luò)層和輸出層。同時(shí)本文使用真實(shí)數(shù)據(jù)集Movielens 1M 和相應(yīng)的IMDB 數(shù)據(jù)集進(jìn)行循環(huán)知識(shí)圖譜的構(gòu)建。

3.1.1 語義路徑

知識(shí)圖譜是一種特殊網(wǎng)絡(luò)，其中每個(gè)節(jié)點(diǎn)代表現(xiàn)實(shí)世界中的實(shí)體，而節(jié)點(diǎn)間的邊表示實(shí)體之間的關(guān)系。知識(shí)圖譜一般用三元組形式表示內(nèi)涵知識(shí)，每個(gè)三元組包括一個(gè)頭實(shí)體、一個(gè)尾實(shí)體以及它們之間的關(guān)系，這是知識(shí)圖譜的基本表示形式。

本文實(shí)驗(yàn)中使用電影相關(guān)的數(shù)據(jù)集，用戶實(shí)體對應(yīng)觀看過的電影，電影實(shí)體包含演員、導(dǎo)演和電影類型等信息。

圖3 電影知識(shí)圖譜

如圖2所示，將電影特征放入知識(shí)圖譜就可得到電影知識(shí)圖譜三元組是基礎(chǔ)的三元組，表示該導(dǎo)演指導(dǎo)了這部電影。藍(lán)色表示為電影實(shí)體，綠色表示為人物實(shí)體，箭頭描述的是人物與電影之間的關(guān)系，意味該人物參演或指導(dǎo)了該電影。將類似的多個(gè)三元組相互連接便形成知識(shí)圖譜，如圖3。

圖2 三元組

在RKGE-CF 模型中，包含一批LSTM 結(jié)構(gòu)，每個(gè)LSTM 學(xué)習(xí)指定路徑的語義表示。實(shí)體對(ui,vj)的路徑長度是動(dòng)態(tài)的，對于長度為T 的任意路徑pl可表示為：

其中e0=ui,eT=vj。LSTM通過學(xué)習(xí)每個(gè)實(shí)體的語義表示和整個(gè)路徑的單個(gè)表示來對路徑進(jìn)行編碼。為了充分利用知識(shí)圖譜中的實(shí)體關(guān)系，首先挖掘出實(shí)體間具有不同語義的路徑，然后將這些路徑無縫地融合到循環(huán)網(wǎng)絡(luò)批處理中進(jìn)行有效推薦。為了提高模型的效率，用長度約束枚舉的路徑，即只使用長度小于閾值的路徑。

因此可以根據(jù)知識(shí)圖譜中內(nèi)容，挖掘出實(shí)體間不同語義的路徑。在抽取出的關(guān)系路徑后，可以根據(jù)關(guān)鍵路徑推斷出用戶的偏好關(guān)系，便于推薦，如圖4。

以威廉和阿波羅13 號(hào)的偏好關(guān)系為例，可得到以下路徑：

圖4 語義路徑推理

以上捕捉到的路徑（1）描述的是屬于同一種電影類型之間的特征關(guān)系；路徑（2）描述的是由同一位導(dǎo)演指導(dǎo)的其他電影。因此可以推斷出威廉可能會(huì)喜歡的電影是《阿波羅13 號(hào)》。所以基于以上的關(guān)系路徑，結(jié)合相關(guān)偏好信息進(jìn)行合理推測。但是，連接相同實(shí)體對于不同的路徑通常具有不同的語義關(guān)系，意味著在描述用戶的偏好和品位方面具有不同的重要性，某些路徑可能比其他路徑更能描述用戶的偏好。為了充分利用知識(shí)圖譜中的路徑進(jìn)行推薦，不僅需要捕獲不同路徑的語義，還需要捕獲它們在描述用戶對物品的偏好的顯著性。然后將這些路徑無縫地融合到LSTM 批處理中進(jìn)行有效推薦。

由于知識(shí)圖譜的體積大、復(fù)雜度高，存在大量連接實(shí)體對的路徑，這些路徑可能包含不同順序、不同長度的不同實(shí)體類型和關(guān)系類型。為了提高模型的效率，只使用長度小于閾值的路徑…。較短的路徑表示了兩個(gè)實(shí)體之間的近鄰關(guān)系密切，如果使用較長的路徑，兩個(gè)實(shí)體之間就存在大量的噪聲關(guān)系，并且它們之間的近鄰關(guān)系就越微弱，遙遠(yuǎn)的兩個(gè)實(shí)體會(huì)在一定程度上失去語義意義。

3.1.2 LSTM網(wǎng)絡(luò)層

在上部分中，將模型中用戶-物品實(shí)體對看成序列，序列中的元素是路徑中的實(shí)體，并使用由嵌入層和注意門隱藏層組成的LSTM 對路徑進(jìn)行編碼。該體系結(jié)構(gòu)包含一批LSTM，LSTM 通過學(xué)習(xí)每個(gè)實(shí)體的語義表示和整個(gè)路徑的單個(gè)表示來對路徑進(jìn)行編碼。

在嵌入層對pl中的每個(gè)實(shí)體et學(xué)習(xí)一個(gè)分布式表示plt，該plt將et映射到一個(gè)低維向量并捕獲該實(shí)體的語義，然后將此新表示作為輸入提供給隱藏層，以學(xué)習(xí)編碼整個(gè)路徑的單個(gè)表示。注意門控隱藏層為了學(xué)習(xí)路徑表示，考慮路徑中實(shí)體的嵌入和這些實(shí)體的順序，采用基于流的方法對路徑的開始實(shí)體到結(jié)束實(shí)體的序列進(jìn)行編碼，最終得到整個(gè)路徑的表示hlT。

用alt表示步驟t 處的注意門，它是[0,1]之間的標(biāo)量值。t 時(shí)刻的隱藏狀態(tài)可表示為：

其中，注意門alt平衡了前一個(gè)隱藏狀態(tài)hl(t-1)和當(dāng)前候選隱藏狀態(tài)的輸入貢獻(xiàn)。通過充分考慮當(dāng)前時(shí)間步長的輸入，進(jìn)一步給出了當(dāng)前候選隱藏狀態(tài)：

其中，W,H 分別是前一步和當(dāng)前步的線性變換參數(shù)，b是偏置項(xiàng)，σ 是sigmoid激活函數(shù)。最后，根據(jù)當(dāng)前時(shí)間步長的輸入觀測值和相鄰觀測值在兩個(gè)方向上的信息，建立了注意門的模型：

其中，σ 是sigmoid激活函數(shù)，用于將注意門的范圍控制在[0,1]之間；M 為權(quán)重向量，b′為注意層的偏置項(xiàng)；“；”表示量之間的連接。總結(jié)從開始到步驟t 的路徑，總結(jié)從結(jié)束到步驟t 的路徑，由下式給出：

通過將ui和vj之間的限定路徑同時(shí)合并到相應(yīng)的注意門控網(wǎng)絡(luò)中，得到所有ui和vj的實(shí)體關(guān)系。由于ui和vj之間有多條路徑連接，不同的路徑在建模它們之間的關(guān)系時(shí)會(huì)有不同的影響程度。因此，通過池化操作來區(qū)分不同向量的最重要特性，max-pooling 層可形式化表示為：

若ui和vj之間的路徑為s 條，其通過LSTM 學(xué)習(xí)后，最后隱藏狀態(tài)為h1T1,h2T2,…,hSTS，其中TS 為最后一步。通過池化層獲得所有路徑上最顯著的特性。然后采用全連接層，進(jìn)一步量化ui和vj的關(guān)系（接近度）。完成模型訓(xùn)練后，通過根據(jù)接近度評分對物品進(jìn)行排序，并向ui推薦得分最高的前K 個(gè)物品。

3.2 協(xié)同過濾（CF）

模型的下半部分，主要描述的是協(xié)同過濾算法的實(shí)現(xiàn)過程。同時(shí)使用了基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾算法。分別得到兩個(gè)不同的Top-K 推薦結(jié)果，在與之前循環(huán)知識(shí)圖譜得到的結(jié)果融合，可以得到最終的Top-K 結(jié)果。

首先把每個(gè)的用戶或物品當(dāng)作向量，然后計(jì)算其他所有的用戶或物品與其他的相似度，有了兩兩之間相似度之后，系統(tǒng)也推薦給用戶。循環(huán)知識(shí)圖譜可以學(xué)習(xí)到推薦關(guān)系中的內(nèi)涵知識(shí)，協(xié)同過濾可以很好地使用外部評分，提出的方法將內(nèi)涵知識(shí)和外部評分進(jìn)行組合，有效地提高推薦的效率。

基于用戶的協(xié)同過濾中，根據(jù)用戶的歷史行為計(jì)算用戶與其他用戶之間的相似度時(shí)，計(jì)算如下式：

其中，N(u),N(v)分別表示用戶u,v 過正反饋的電影集合。如果用戶對于冷門的物品采取過相似的行為，更能表達(dá)出兩者之間的相似度。所以特別加入懲罰因子，以此來懲罰用戶之間共同電影列表中熱門電影相似度的影響。

基于物品的協(xié)同過濾中，計(jì)算物品與物品之間的相似度時(shí)，通過下式：

其中，N(i),N(j)分別表示喜歡電影i 和喜歡電影j 的用戶數(shù)。因?yàn)榛钴S用戶對物品相似度計(jì)算的貢獻(xiàn)會(huì)小于不活躍的用戶，所以也加入懲罰因子以此降低影響。

4 循環(huán)知識(shí)圖譜和協(xié)同過濾融合算法

4.1 融合流程

由上一章可知，循環(huán)知識(shí)圖嵌入采用了一種新的遞歸網(wǎng)絡(luò)架構(gòu)，該架構(gòu)包含一批遞歸網(wǎng)絡(luò)，用于對鏈接相同實(shí)體對的路徑的語義建模，這些路徑無縫地融合到推薦中，并選擇一條好的推薦路徑進(jìn)行Top-K 推薦。同時(shí)，利用協(xié)同過濾收集用戶行為以獲得其對物品的顯式或隱式信息，以基于物品協(xié)同過濾和基于用戶協(xié)同過濾分別給出Top-K 推薦。模型最后將三種方法給出的Top-K 推薦結(jié)果進(jìn)行融合，得到最終的推薦列表。圖5描述了循環(huán)知識(shí)圖譜與協(xié)同過濾融合的流程，將兩部分的推薦結(jié)果融合，能更好地提高推薦效率。

圖5 知識(shí)圖譜與協(xié)同過濾融合

4.2 融合算法

為了實(shí)現(xiàn)循環(huán)知識(shí)圖譜對協(xié)同過濾算法的支撐，本文針對實(shí)體內(nèi)涵知識(shí)和外部評分的情況，提出了兩種不同的結(jié)果融合算法。根據(jù)循環(huán)知識(shí)圖譜得出的推薦列表和協(xié)同過濾算法得到的推薦列表，經(jīng)過融合算法可以抽取出相同或排名靠前的結(jié)果進(jìn)行融合，得到新的推薦結(jié)果。由此得到的推薦結(jié)果，一方面可以提高推薦的有效性，另一方面可以解釋每個(gè)推薦結(jié)果的來源，使得協(xié)同過濾和循環(huán)知識(shí)圖譜結(jié)果得以相互彌補(bǔ)。

在下列兩個(gè)算法中L和E 是基于用戶和基于物品的協(xié)同過濾要推薦給用戶的物品集合，對于集合當(dāng)中的每一個(gè)對象{L0,L1,…,Ln} 和{E0,E1,…,En} 按照預(yù)測評分進(jìn)行排序，也就是說L和E 是兩個(gè)有序數(shù)列。內(nèi)涵知識(shí)近鄰集T 也根據(jù)預(yù)測評分排序得到一個(gè)有序數(shù)列。

算法1 概述了內(nèi)涵知識(shí)與外部評分的第一種融合方式，將該融合方式記為循環(huán)抽取融合（Loop Extraction Fusion，LEF）?；谟脩舻膮f(xié)同過濾、基于物品的協(xié)同過濾和基于循環(huán)知識(shí)圖譜生成的物品集合通過遍歷，依次將三個(gè)集合中的物品放入Top-K 推薦集合T 中，在放入推薦集合T 的過程中，要保證放入的對象不存在于T 中，也就是要保證推薦集合T 中對象的唯一性。

算法1 融合算法LEF

輸入：基于用戶的協(xié)同過濾近鄰集：Set L={L0,L1,…,Ln}；基于物品的協(xié)同過濾近鄰集：Set E={E0,E1,…,En}；內(nèi)涵知識(shí)近鄰集：Set T={T0,T1,…,Tn}。

輸出：Top-K 推薦集C={C0,C1,…,Ck}。

1. for i(0 ≤i ≤n) do

2. If Li?C：

3. C.append(Li)；

4. If Len( )C ==k:break；

5. If Ei?C：

6. C.append(Ei)；

7. If Len( )C ==k:break；

8. If Ti?C:

9. C.append(Ti)；

10. If Len( )C ==k:break；

11. end do

12. 輸出Top-K 推薦集Set C

算法2描述了內(nèi)涵知識(shí)與外部評分的第二種融合方式，將該融合方式記為循環(huán)比較融合（Loop Comparison Fusion，LCF）?；谟脩舻膮f(xié)同過濾、基于物品的協(xié)同過濾和基于循環(huán)知識(shí)圖譜生成的物品集合通過遍歷，分別判定每個(gè)集合中當(dāng)前對象是否存在于另外兩個(gè)集合，若存在，則將當(dāng)前集合的當(dāng)前對象放入Top-K 推薦集合T 中，在放入推薦集合T 的過程中，也要保證放入的對象不存在于T 中，保證推薦集合T 中對象的唯一性。

算法2 融合算法LCF

輸入：基于用戶的協(xié)同過濾近鄰集：L={L0,L1,…,Ln}；基于物品的協(xié)同過濾近鄰集：E={E0,E1,…,En}；內(nèi)涵知識(shí)近鄰集：T={T0,T1,…,Tn}。

輸出：Top-K 推薦集C={C0,C1,…,Ck}。

1. for i(0 ≤i ≤n) do

2. If Li?C && (Liin E||Liin T):

3. C.append(Li)；

4. If Len( )C ==k:break；

5. If Ei?C && (Eiin L||Eiin T)

6. C.append(Ei)；

7. If Len( )C ==k:break；

8. If Ti?C && (Tiin L||Tiin E):

9. C.append(Ei)；

10. If Len( )C ==k:break；

11. end do；

12. 輸出Top-K 推薦集Set C

5 實(shí)驗(yàn)及結(jié)果分析

5.1 實(shí)驗(yàn)設(shè)置

5.1.1 數(shù)據(jù)集

為測試模型的有效性，利用了真實(shí)的數(shù)據(jù)集MovieLens中的IM-1M來進(jìn)行驗(yàn)證。該數(shù)據(jù)集在Movielens 1M和相應(yīng)的IMDB數(shù)據(jù)集的基礎(chǔ)上進(jìn)行構(gòu)建，數(shù)據(jù)集詳細(xì)信息如表1。在前期的循環(huán)知識(shí)圖譜構(gòu)建和后期的測試中，都使用了該數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。其中Movielens 1M包含電影元數(shù)據(jù)信息和用戶屬性信息，也包括多個(gè)用戶對多部電影的評分?jǐn)?shù)據(jù)，每個(gè)用戶至少有20 個(gè)評分記錄。將Movielens 1M 數(shù)據(jù)集與IMDB 數(shù)據(jù)集映射鏈接，得到實(shí)驗(yàn)數(shù)據(jù)（數(shù)據(jù)集下載地址分別為http：//groplens.org/datatsets/movielens/和http：//www.imdb.com/）。

表1 數(shù)據(jù)集信息

在實(shí)驗(yàn)數(shù)據(jù)集中每個(gè)用戶對應(yīng)多個(gè)已觀看的電影，并且將用戶對電影評分小于等于閾值r 的數(shù)據(jù)作為負(fù)反饋，再對模型進(jìn)行訓(xùn)練。r={0,1,2,3,4}以獲得不同的外部評分對于內(nèi)涵知識(shí)的影響。其中，0表示用戶未對該電影有過評分行為。

5.1.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)在GPU服務(wù)器上運(yùn)行，詳細(xì)信息見表2。

表2 實(shí)驗(yàn)環(huán)境

5.2 評價(jià)指標(biāo)

在模型的損失函數(shù)部分，將推薦問題作為二分類問題進(jìn)行處理，所以在給定的訓(xùn)練集中將通過優(yōu)化以下參數(shù)進(jìn)行學(xué)習(xí)，公式如下：

根據(jù)公式和訓(xùn)練模型，可以很容易地進(jìn)行端到端訓(xùn)練。在遞歸層中采用時(shí)間反向傳播算法對參數(shù)進(jìn)行更新，在其他部分采用普通的反向傳播對參數(shù)進(jìn)行更新。為每個(gè)用戶隨機(jī)抽取未評分的物品作為負(fù)面實(shí)例，其數(shù)量與他的評級物品相同。連接用戶及其負(fù)面實(shí)例的路徑也被用來幫助平衡模型學(xué)習(xí)。

在推薦系統(tǒng)的評價(jià)指標(biāo)中，使用準(zhǔn)確率（Precision）和MRR（Mean Reciprocal Rank）來評價(jià)模型的推薦能力。

準(zhǔn)確率描述的是推薦系統(tǒng)中給出的最終推薦列表中有多少比例的用戶是發(fā)生過的用戶-物品評分記錄，準(zhǔn)確率（Precision）公式如下：

其中，R(u)是根據(jù)用戶在訓(xùn)練集上的行為給用戶做出的推薦列表，T(u)是用戶在訓(xùn)練集上。同時(shí)Precision@K(K=1,5,10,15)表示的是評測推薦系統(tǒng)的準(zhǔn)確率，并且選取不同的推薦列表長度K ，計(jì)算出多組準(zhǔn)確率，以便對比。

MRR 是平均倒數(shù)排名，表示最終推薦列表在被評價(jià)系統(tǒng)給出結(jié)果中的排序取倒數(shù)作為準(zhǔn)確度，再對所有的數(shù)據(jù)取平均，公式如下：

其中，m 表示用戶個(gè)數(shù)，vj是在最終的推薦列表中正確的推薦物品，test(ui)是ui的測試數(shù)據(jù)集中物品集合，rank(ui,vj)是ui的推薦列表中vj的位置。推薦列表中第一個(gè)在推薦列表結(jié)果中物品所在的排列位置。本文實(shí)驗(yàn)中計(jì)算的是K=10 時(shí)的MRR數(shù)值，進(jìn)行對比。

5.3 實(shí)驗(yàn)對比

為了驗(yàn)證實(shí)驗(yàn)結(jié)果的有效性，和9種算法在上述數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn)對比，包括最新的協(xié)同過濾與知識(shí)圖譜相結(jié)合的算法CKE和RKGE，以證明該模型具有良好的性能。分別介紹如下：

MostPop：向所有用戶推薦熱門物品，但不屬于個(gè)性化推薦算法。

BPRMF：基于矩陣因子分解的貝葉斯后驗(yàn)優(yōu)化的個(gè)性化得分排序算法，本身不優(yōu)化用戶對物品的評分，只是借評分來優(yōu)化用戶對物品的排序。

NCF：神經(jīng)協(xié)同過濾算法，是一種基于神經(jīng)網(wǎng)絡(luò)的推薦方法。主要用于解決在含有隱式反饋的基礎(chǔ)上進(jìn)行推薦的協(xié)同過濾問題。

LIBFM：基于潛在特征因子的一種經(jīng)典的矩陣分解模型，其中將圖譜中的物品屬性當(dāng)作原始特征放入該模型。

HeteRs：提出了一種基于圖的推薦方法，其中利用馬爾可夫鏈整合知識(shí)圖譜。

HeteRec：使用潛在因子模型混合元路徑的個(gè)性化推薦方法。

GraphLF：基于圖形的方法個(gè)性化的Pagerank方法，再通過邏輯推理來發(fā)現(xiàn)用戶偏好。

CKE：最近提出了一種基于協(xié)同過濾結(jié)合知識(shí)圖譜嵌入的方法，在知識(shí)圖譜的幫助下更好地學(xué)習(xí)物品的潛在信息。

RKGE：利用知識(shí)圖譜嵌入和一組遞歸網(wǎng)絡(luò)結(jié)構(gòu)，自動(dòng)學(xué)習(xí)實(shí)體之間的路徑及語義關(guān)系，從而更好地描述物品對用戶的偏好信息。

5.4 實(shí)驗(yàn)結(jié)果分析

分別使用融合方法1（LEF）和融合方法2（LCF）在MovieLens數(shù)據(jù)集上進(jìn)行了Top-1、Top-5、Top-10、Top-15和MRR 的推薦，曲線展示了在RKGE 的基礎(chǔ)上分別加入userCF和itemCF、同時(shí)加入userCF和itemCF（下文中統(tǒng)一稱為CF），以及在同時(shí)加入userCF 和itemCF 基礎(chǔ)上對RKGE 加入不同評分的變化情況。在下面所有的數(shù)據(jù)RKGE(r0,r1,r2,r3,r4)代表了不同的外部評分對于內(nèi)涵知識(shí)的影響，其中r0 表示未添加外部評分。例如，RKGE(r2)表示對電影評分小于等于2的數(shù)據(jù)作為負(fù)反饋，再對模型進(jìn)行訓(xùn)練。

從表3中可以看出LEF的推薦性能優(yōu)秀，當(dāng)Top-K推薦的K 值比較大時(shí)，模型也能夠保持相對較好的性能，同時(shí)加入CF 的推薦結(jié)果會(huì)明顯優(yōu)于單獨(dú)加入user-CF或itemCF；在選擇了評分小于1作負(fù)反饋時(shí)，綜合推薦結(jié)果略優(yōu)于其他分?jǐn)?shù)，不同Precision下的比較曲線見圖6。

表3 融合算法1（LEF）精確度數(shù)據(jù)

圖6 融合算法1（LEF）精確度對比

從表4中可以看出LCF整體的性能都要優(yōu)于LEF，也可以從圖7中看出，隨著推薦個(gè)數(shù)的增加性能不會(huì)再有所增加；同時(shí)在選擇了評分小于1 作負(fù)反饋時(shí)，綜合推薦結(jié)果略優(yōu)于其他分?jǐn)?shù)。

表4 融合算法2（LCF）精確度數(shù)據(jù)

表5 對比了LEF 和LCF 兩種融合方法在不同維度下的MRR 值。圖8 展示了LEF 和LCF 在MRR 上的對比曲線。只加入userCF或itemCF時(shí)LCF優(yōu)于LEF。但是同時(shí)加入CF后，LEF會(huì)明顯優(yōu)于LCF，這也說明了EF更適用于多推薦列表的融合。兩種融合方法，都是評分1以下作為負(fù)反饋時(shí)效果最好。

最后表6 將本文提出的模型與MostPop、BPRMF、

圖7 融合算法2（LCF）精確度對比

表5 兩種融合方法MRR數(shù)據(jù)

圖8 兩種融合算法MRR對比

表6 十種方法精確度對比

LIBMF、NCF、HeteRS、HeteRec、GraphLF、CKE、RKGE進(jìn)行了對比實(shí)驗(yàn)，圖9中在不同的Top-1、Top-5和Top-10上都可以看出本文提出的模型遠(yuǎn)遠(yuǎn)優(yōu)于其他模型，并且當(dāng)K 值較大時(shí)也能保持優(yōu)秀的推薦性能。

圖9 十種方法精確度對比

6 結(jié)束語

本文提出了一種基于循環(huán)知識(shí)圖譜嵌入的混合推薦模型，該模型既可以通過協(xié)同過濾發(fā)現(xiàn)用戶的現(xiàn)有興趣，也可以通過知識(shí)圖譜挖掘用戶的潛在興趣，將兩種結(jié)果融合，得到個(gè)性化的推薦結(jié)果。模型將循環(huán)神經(jīng)網(wǎng)路、知識(shí)圖譜和協(xié)同過濾相結(jié)合，模型可以自動(dòng)學(xué)習(xí)實(shí)體之間的路徑關(guān)系，推斷出偏好關(guān)系。同時(shí)在知識(shí)圖譜中加入外部評分，作為學(xué)習(xí)權(quán)重，更好地表達(dá)用戶的偏好程度。最后利用不同的融合方法將內(nèi)涵知識(shí)與外部評分結(jié)果融合，得到最優(yōu)的融合推薦結(jié)果。結(jié)果表明，本文所提出的框架在推薦的準(zhǔn)確性、MRR 對比現(xiàn)有的模型取得了更好的效果。該模型也有一些待優(yōu)化的部分，例如在融合方法能不能更好地調(diào)節(jié)比例，這也為接下來的工作提出了新的思路。

此外，本文所提出的方法，同樣適合于音樂、圖書等推薦場景。但是不同的產(chǎn)品領(lǐng)域相對于電影推薦會(huì)存在著評分刻度差異、領(lǐng)域之間相關(guān)性不同、情感差異等問題。為了實(shí)現(xiàn)遷移學(xué)習(xí)，可以嘗試在其他場景中，提取用戶和物品的標(biāo)簽，通過添加神經(jīng)網(wǎng)絡(luò)對用戶、物品和評分等內(nèi)容特征進(jìn)行學(xué)習(xí)，得到用戶內(nèi)涵知識(shí)或特征等信息，然后再遷移到目標(biāo)任務(wù)中。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放