馮興杰 曾云澤
(中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300300)
在電商網(wǎng)站購(gòu)物的過程中,商品的評(píng)分對(duì)用戶的購(gòu)買決策起到了指導(dǎo)作用。特別是對(duì)于未曾接觸過的商品,用戶會(huì)更傾向于嘗試購(gòu)買評(píng)分高的商品。準(zhǔn)確地預(yù)測(cè)出用戶對(duì)未接觸過的商品的評(píng)分,能夠指導(dǎo)推薦系統(tǒng)將商品推薦給潛在的客戶,是電商公司創(chuàng)收的有效途徑。在評(píng)分預(yù)測(cè)任務(wù)中,矩陣分解(Matrix Factorization,MF)是最經(jīng)典的模型[1]。MF僅依賴于用戶-物品的評(píng)分矩陣,將用戶和物品特征映射為在同一隱空間的隱因子向量。然而,評(píng)分僅能表示用戶對(duì)物品的整體滿意程度,不能對(duì)潛在方面作出合理解釋。例如,一間餐館獲得高評(píng)分,但是卻不能指出究竟是其服務(wù)態(tài)度好還是菜品美味所導(dǎo)致的。所以,MF不能很好地學(xué)習(xí)出用戶在物品不同方面的潛在偏好。另外,當(dāng)評(píng)分矩陣稀疏(一個(gè)用戶評(píng)分過的物品僅占總物品數(shù)量的極少部分)時(shí),MF的評(píng)分預(yù)測(cè)精度將受到嚴(yán)重影響。
為了解決以上問題,研究人員將研究重點(diǎn)轉(zhuǎn)移至評(píng)論文本。伴隨著評(píng)分的評(píng)論文本,直觀地展示了該用戶對(duì)物品具體某一方面的評(píng)價(jià),能很好地刻畫用戶偏好和物品特點(diǎn)。很多使用評(píng)論文本來進(jìn)行推薦任務(wù)的相關(guān)方法被陸續(xù)提出。以往經(jīng)典的工作都是使用主題模型LDA(Latent Dirichlet Allocation)[2]來自動(dòng)地從評(píng)論文本提取出不同方面的信息[3-6]。近年來由于深度學(xué)習(xí)的強(qiáng)大學(xué)習(xí)能力,研究人員逐漸使用深度學(xué)習(xí)技術(shù)來取代LDA處理評(píng)論文本,學(xué)習(xí)出更好的用戶偏好和物品特點(diǎn)[7-12]。
盡管這些方法都比僅使用評(píng)分?jǐn)?shù)據(jù)的MF取得了更好的效果,但是它們都忽略了一個(gè)重要問題:一個(gè)用戶對(duì)某一方面的關(guān)注程度(偏好程度)會(huì)隨物品的改變而改變。推薦系統(tǒng)領(lǐng)域中的用戶隱因子向量,其不同維度分別表示用戶對(duì)不同方面的喜好程度。現(xiàn)在的相關(guān)工作都是假設(shè)該向量面對(duì)不同物品時(shí)是相同的。然而,現(xiàn)實(shí)中一個(gè)用戶對(duì)該物品可能只關(guān)注這方面的問題,但是對(duì)另一個(gè)物品又很關(guān)心另一方面的問題,即使該兩個(gè)物品屬于同種類的商品。例如,對(duì)于一部昂貴的平板電腦,一個(gè)用戶會(huì)同時(shí)對(duì)除了基礎(chǔ)功能外的額外幾個(gè)方面都有高標(biāo)準(zhǔn)的要求,例如AI攝像功能、具有一定的系統(tǒng)開發(fā)支持、超長(zhǎng)的待機(jī)能力、良好的外放音效等。但是,如果是一部廉價(jià)的平板電腦,用戶的注意力將從上述幾方面轉(zhuǎn)移到對(duì)基礎(chǔ)功能的要求:接收Wi-Fi信號(hào)的質(zhì)量、屏幕分辨率等。
受到該直觀例子的啟發(fā),本文提出一種能夠準(zhǔn)確捕獲一個(gè)用戶對(duì)不同物品各方面不同關(guān)注程度(偏好程度)的模型DARR(Dynamic Aspect Attentional Rating Regression with Reviews)。在DARR中,采用兩個(gè)CNN從評(píng)論中分別提取用戶偏好和物品特征。對(duì)于每個(gè)用戶-物品對(duì),它們從CNN學(xué)習(xí)到的特征表示將會(huì)送入因子分解機(jī)來指導(dǎo)最終隱因子的學(xué)習(xí)。其中,DARR通過一個(gè)注意力網(wǎng)絡(luò)來捕獲用戶的注意力向量,來表示用戶對(duì)物品不同方面的關(guān)注程度。最后,基于用戶和物品注意力交互的隱因子,預(yù)測(cè)出用戶對(duì)未知物品的評(píng)分。
到目前為止,結(jié)合評(píng)論文本進(jìn)行評(píng)分預(yù)測(cè)任務(wù)的相關(guān)工作眾多,它們主要分為兩類:基于主題模型的方法;基于深度學(xué)習(xí)的方法。
在深度學(xué)習(xí)流行前,對(duì)文本數(shù)據(jù)進(jìn)行特征提取的熱門方法為主題模型LDA。在2013年,基于主題模型的開山之作HFT[3]由McAuley和Leskovec提出。其先從評(píng)分矩陣中分解出評(píng)分?jǐn)?shù)據(jù)的隱因子,然后用LDA提取評(píng)論文本的隱主題因子,最終通過矩陣分解[1]來執(zhí)行評(píng)分預(yù)測(cè)任務(wù)。隨后很多工作受到他們啟發(fā),開始注意到隱藏在評(píng)論文本中的隱因子。文獻(xiàn)[13]提出的RMR采取類似的思路,其將主題模型與基于評(píng)分?jǐn)?shù)據(jù)的混合高斯模型相結(jié)合,使得評(píng)分預(yù)測(cè)精度進(jìn)一步提高。但是文獻(xiàn)[4]認(rèn)為L(zhǎng)DA只能挖掘詞語級(jí)別的主題分布,不能準(zhǔn)確表達(dá)復(fù)合主題的分布,因此提出TopicMF模型。TopicMF通過非負(fù)矩陣分解得到每條評(píng)論的潛在主題,并與用戶和商品的潛在因子建立映射關(guān)系,最后主題分布反映了用戶偏好和商品特性。盡管自2016年起,基于評(píng)論文本的評(píng)分預(yù)測(cè)研究開始更傾向于深度學(xué)習(xí)方法,但是文獻(xiàn)[14]仍采取LDA處理評(píng)論文本。在該模型中,概率模型用于捕獲用戶偏好及商品的隱因子,隨機(jī)游走部分則負(fù)責(zé)構(gòu)建全局的潛在關(guān)聯(lián)來預(yù)測(cè)用戶對(duì)未評(píng)分商品的偏好。
上述的相關(guān)工作,大都是通過主題模型來對(duì)評(píng)論文本挖掘出用戶或商品潛在的特征分布,然而基于詞袋模型的主題模型不能保留詞序信息,忽略了在情感分析中極其重要的局部上下文信息。另外,以深度學(xué)習(xí)的角度來看,這些方法學(xué)習(xí)到的都是淺層線性特征,未能充分挖掘出深度的非線性隱因子特征。為了解決該問題,近年來的大部分工作大都是使用卷積神經(jīng)網(wǎng)絡(luò)來處理評(píng)論文本。
由于CNN在自然語言處理取得巨大的成功,Kim等[7]受其啟發(fā)并提出了ConvMF。在基于評(píng)論文本進(jìn)行評(píng)分預(yù)測(cè)的研究領(lǐng)域內(nèi),ConvMF是首次采用卷積神經(jīng)網(wǎng)絡(luò)從評(píng)論文本產(chǎn)生物品更深層的隱表達(dá)的方法。該方法考慮了單詞的上下文信息,產(chǎn)生出比主題模型更為合理的物品隱因子向量。然而,ConvMF認(rèn)為評(píng)論文本只能揭示物品的特點(diǎn),而忽略了評(píng)論文本中的用戶偏好成分。為了捕獲評(píng)論中用戶的偏好成分,Zheng等[8]提出的DeepCoNN將評(píng)論集拆分為用戶評(píng)論集(每用戶的歷史評(píng)論進(jìn)行合并處理)、物品評(píng)論集(各物品的歷史評(píng)論進(jìn)行合并處理)。然后分別使用兩個(gè)并行的CNN從用戶評(píng)論集和物品評(píng)論集中提取它們的隱因子。拆分評(píng)論集并使用CNN的思想隨后啟發(fā)了很多相關(guān)研究。Catherine等[9]基于DeepCoNN進(jìn)行拓展,在雙CNN學(xué)習(xí)的過程中,額外要求模型能預(yù)測(cè)出待預(yù)測(cè)評(píng)分的評(píng)論的隱表達(dá)。因此該模型實(shí)際是先預(yù)測(cè)目標(biāo)評(píng)論,然后再基于該評(píng)論來預(yù)測(cè)評(píng)分。本文認(rèn)為該做法無疑會(huì)增加模型學(xué)習(xí)的時(shí)間花銷,不能很好地滿足推薦系統(tǒng)在線更新參數(shù)的實(shí)時(shí)性要求。同樣受DeepCoNN所啟發(fā)的是,Wu等[10]將CNN與雙向GRU網(wǎng)絡(luò)結(jié)合,提出DRMF。但是該方法最后的預(yù)測(cè)評(píng)分仍采用基于矩陣分解的內(nèi)積形式,預(yù)測(cè)效果仍存在提升空間。Chen等[11]提出NARRE模型,通過注意力機(jī)制對(duì)每條評(píng)論都進(jìn)行打分,并將注意力得分與用戶隱因子結(jié)合提高表達(dá)質(zhì)量。但是,Wang等[12]指出以往基于CNN的方法都可能會(huì)忽略詞頻信息,并提出能同時(shí)結(jié)合主題模型與CNN的WCN,其中主題模型能捕獲詞頻信息來彌補(bǔ)CNN的不足。該方法一定程度上能解決可能丟失詞頻問題,但是在本文實(shí)驗(yàn)中并不是在任何數(shù)據(jù)集上都有效。
盡管上述的相關(guān)研究都能解決不同方面的問題,但是它們都基于一種假設(shè):用戶對(duì)不同方面的偏好權(quán)重不隨物品的改變而發(fā)生變化。在現(xiàn)實(shí)中該假設(shè)是不成立的,特別是在面對(duì)不同物品千變?nèi)f化的特點(diǎn)的情況下。因此本文同時(shí)結(jié)合評(píng)論文本和評(píng)分矩陣,設(shè)計(jì)出一種注意力神經(jīng)網(wǎng)絡(luò)來捕獲用戶對(duì)不同物品的動(dòng)態(tài)注意力偏好向量。
給定一個(gè)包含N個(gè)樣本的數(shù)據(jù)集D,其中每個(gè)樣本(u,i,rui,wui)表示用戶u對(duì)物品(也就是商品)i寫了一條評(píng)論wui及相應(yīng)的評(píng)分rui。本文的目標(biāo)是預(yù)測(cè)出用戶對(duì)未知物品的評(píng)分。
CNN文本處理器的結(jié)構(gòu)如圖1所示。在第一層,詞映射函數(shù)f:M→Rd將評(píng)論的每個(gè)單詞映射為d維向量,然后將給定的評(píng)論文本轉(zhuǎn)化為長(zhǎng)度固定為T的詞嵌入矩陣中(只截取評(píng)論文本中的前T個(gè)單詞,對(duì)長(zhǎng)度不足的文本則進(jìn)行填充處理)。
圖1 CNN文本處理器結(jié)構(gòu)
詞映射層后的是卷積層,其包含m個(gè)神經(jīng)元,每個(gè)神經(jīng)元對(duì)應(yīng)的卷積核K∈Rt×d用于對(duì)詞向量進(jìn)行卷積運(yùn)算提取特征。假設(shè)V1:T是文本長(zhǎng)度為T的詞嵌入矩陣,第j個(gè)神經(jīng)元產(chǎn)生的特征為:
zj=ReLU(V1:T*Kj+bj)
(1)
式中:bj為偏倚項(xiàng);*表示卷積運(yùn)算;ReLU是非線性激活函數(shù)。
在滑動(dòng)窗口t的作用下,第j個(gè)神經(jīng)元產(chǎn)生的特征為z1,z2,…,zj(T-t+1)。將該特征進(jìn)行max-pooling運(yùn)算,其主要用于捕獲擁有最大值的最重要的特征,定義為:
oj=max(z1,z2,…,zj(T-t+1))
(2)
最后卷積層的輸出為m個(gè)神經(jīng)元輸出的拼接結(jié)果,定義為:
O=[o1,o2,…,om]
(3)
通常O會(huì)接著送入全連接層,其中包含權(quán)重矩陣W∈Rm×n和偏置項(xiàng)g∈Rn,具體公式為:
X=ReLU(WO+g)
(4)
DARR從輸入階段到評(píng)分預(yù)測(cè)階段的整體流程如圖2所示。
圖2 DARR整體結(jié)構(gòu)
DARR共包括4大部分:
(1) 輸入。在輸入階段,DARR將用戶評(píng)論、物品評(píng)論、用戶編號(hào)、物品編號(hào)輸入模型。對(duì)于用戶評(píng)論,本文使用CNN處理器進(jìn)行特征提取得到CNN_U,同理物品評(píng)論可以得到CNN_I。對(duì)于用戶編號(hào),其先進(jìn)行one-hot編碼轉(zhuǎn)化為二進(jìn)制稀疏向量,然后通過嵌入層映射為稠密的向量表達(dá)pu,同理可以得到物品的qi。隨后將CNN_U、CNN_I、pu、qi送入下一階段。
(2) 特征融合。特征融合階段的目的是將CNN_U、CNN_I、pu、qi進(jìn)行合理的融合,使得模型對(duì)用戶和物品能更好地建模。在很多以往的工作中[15-16],不同的融合策略被廣泛應(yīng)用于提高推薦性能,例如:拼接、相加、各元素間相乘。這里為了簡(jiǎn)單實(shí)現(xiàn),采取相加的策略,其他的融合策略留待未來工作進(jìn)行探索。對(duì)于用戶來說,CNN_U和pu是分別來自評(píng)論文本和評(píng)分矩陣的因子,其屬于非同源隱因子。為了進(jìn)一步充分利用深度學(xué)習(xí)在非線性空間的建模能力,本文在融合后多添加一個(gè)全連接層(內(nèi)含非線性激活函數(shù)ReLU),將非同源隱因子映射到同一隱空間(對(duì)于物品同理)。
(3) 注意力交互。設(shè)U∈Rk和I∈Rk分別表示用戶u和物品i的隱向量(它們從特征融合階段得到),其中k為隱向量的維度。注意力交互階段的輸出F作為評(píng)分預(yù)測(cè)階段的輸入,設(shè)用戶-物品對(duì)的隱表達(dá)為F=[f1,f2,…,fk],其計(jì)算過程為:
F=aui?(U?I)
(5)
式中:?表示向量元素間相乘;aui是用戶u對(duì)物品i的注意力向量。從式(5)可知,F(xiàn)的第k維因子為fk=aui·Uk·Ik,其表示U和I個(gè)第k維因子之間的就交互。而且,對(duì)于每個(gè)用戶-物品對(duì),都存在一個(gè)注意力權(quán)值aui來調(diào)整用戶和物品第k維交互的重要程度,也就是用戶u對(duì)物品i的第k方面的關(guān)注程度。因此對(duì)于每個(gè)用戶-物品對(duì),aui都是不相同的,其中aui的計(jì)算見3.2節(jié)。
(6)
式中:b是全局偏置項(xiàng);wi是一次項(xiàng)的權(quán)重;〈vi,vj〉表示向量?jī)?nèi)積,其用于捕獲二階項(xiàng)交互的權(quán)重。
本節(jié)主要介紹一種注意力機(jī)制,用于捕獲用戶u對(duì)物品i的第k方面的關(guān)注程度aui。由于評(píng)論文本直觀地表達(dá)了用戶u的偏好和物品i的特點(diǎn),因此這里需要用到從評(píng)論文本提取得到的特征CNN_U和CNN_I。同時(shí),為了在特征融合階段得到更好的用戶-物品的交互特征F,本文將注意力向量定義為:
(7)
(8)
盡管本文在輸入階段使用到了評(píng)論文本,但是模型最終目標(biāo)是實(shí)現(xiàn)評(píng)分預(yù)測(cè)任務(wù)。因此其屬于回歸問題,常用的目標(biāo)函數(shù)為平方損失函數(shù)[18-19]:
(9)
亞馬遜評(píng)論公開數(shù)據(jù)集由McAuley等[3]搜集并公布,其包含24個(gè)子集,每個(gè)對(duì)應(yīng)一種商品類型。本文采用其5-core版本(每個(gè)用戶和商品最少有5條評(píng)論)的3個(gè)類別,它們分別為Beauty、Pet_Supplies(PS)、Cell_Phones_and_Accessories(CPA)。本文模型所需的每條評(píng)論共有4種特征:用戶ID、物品ID、評(píng)論內(nèi)容、該物品所得評(píng)分(1到5分)。3個(gè)數(shù)據(jù)集對(duì)應(yīng)的統(tǒng)計(jì)信息如表1所示。
表1 數(shù)據(jù)集信息
由表1可知,盡管每個(gè)數(shù)據(jù)集的用戶數(shù)和物品數(shù)非常豐富,但是用戶和物品產(chǎn)生的交互(評(píng)分)實(shí)際占評(píng)分矩陣中的極小部分,也就是所謂的評(píng)分?jǐn)?shù)據(jù)稀疏問題。另外,3個(gè)數(shù)據(jù)集的平均每商品的被評(píng)分?jǐn)?shù)僅為17.864,而平均每條評(píng)論包含的單詞數(shù)為90.652,這表明數(shù)據(jù)集中存在及其豐富的文本信息,如何有效結(jié)合評(píng)分?jǐn)?shù)據(jù)和評(píng)論文本是本文的研究重點(diǎn)。
為了驗(yàn)證本文模型的性能,本文采取在評(píng)分預(yù)測(cè)相關(guān)工作中普遍使用的MSE(均方誤差)作為評(píng)估指標(biāo),其值越小代表模型預(yù)測(cè)得越準(zhǔn)確。
(10)
為了評(píng)估DARR的評(píng)分預(yù)測(cè)性能,本文選擇將目前最經(jīng)典的評(píng)分預(yù)測(cè)模型作為對(duì)比模型,包括:LFM[1],HFT[3],ConvMF[7],DeepCoNN[8]和WCN[12]。
從表2可知,本文實(shí)驗(yàn)的對(duì)比模型大體可以分為兩類:非深度學(xué)習(xí)模型,深度學(xué)習(xí)模型。另外最值得一提的是,本文模型DARR認(rèn)為用戶隱因子應(yīng)該隨用戶-物品對(duì)的不同而發(fā)生改變,因此具有其他模型所沒有的捕獲動(dòng)態(tài)隱因子的能力。
表2 對(duì)比模型比較
(1) LFM:最經(jīng)典的矩陣分解算法,本文實(shí)驗(yàn)過程中使用僅包含全局偏倚項(xiàng)的版本,但是該模型僅僅使用評(píng)分?jǐn)?shù)據(jù)作為輸入,評(píng)分性能的提高嚴(yán)重受其數(shù)據(jù)稀疏所影響。本文以LFM作為各種矩陣分解算法的代表。
(2) HFT:為了緩解數(shù)據(jù)稀疏的影響,該模型首次將評(píng)分?jǐn)?shù)據(jù)和評(píng)論數(shù)據(jù)共同學(xué)習(xí)來預(yù)測(cè)評(píng)分。在本文實(shí)驗(yàn)中,以HFT作為使用LDA處理評(píng)論文本一類模型的代表。
(3) ConvMF:此模型是首次引入CNN處理評(píng)論文本來進(jìn)行評(píng)分預(yù)測(cè)的模型,因此可以將其視為使用深度學(xué)習(xí)方法基于評(píng)論文本進(jìn)行評(píng)分預(yù)測(cè)的開山之作。
(4) DeepCoNN:該模型開創(chuàng)同時(shí)使用兩個(gè)CNN來分別處理用戶評(píng)論集、物品評(píng)論集的研究思路,目前很多相關(guān)研究都是沿用該思路。
(5) WCN:該模型可以看作是對(duì)DeepCoNN的直接改進(jìn),其在每個(gè)CNN通道學(xué)習(xí)的同時(shí),額外添加一層加入隱主題因子的網(wǎng)絡(luò),來提高DeepCoNN可能丟失的詞頻信息。
本文模型DARR的實(shí)現(xiàn)基于Tensorflow,并得益于GPU加速技術(shù)的支持,結(jié)合CNN作為文本特征提取器的模型才能快速訓(xùn)練收斂。為了實(shí)驗(yàn)的公平性,參照對(duì)比模型的文獻(xiàn),采取相同的劃分策略:隨機(jī)將實(shí)驗(yàn)數(shù)據(jù)集劃分為訓(xùn)練集(80%)、驗(yàn)證集(10%)和測(cè)試集(10%)。但是由于本文使用的是亞馬遜5-core版本的數(shù)據(jù)集,其每個(gè)用戶至少包含5條評(píng)論,因此本文將數(shù)據(jù)集處理為每用戶60%條評(píng)論放入訓(xùn)練集,并將另外的40%分別平均放入驗(yàn)證集和測(cè)試集。在實(shí)驗(yàn)中,深度學(xué)習(xí)模型的卷積核個(gè)數(shù)都設(shè)置為50,卷積核大小為3,詞向量維度設(shè)置為100。不同的batch size和學(xué)習(xí)率對(duì)深度學(xué)習(xí)是否收斂到極值點(diǎn)至關(guān)重要,本文batch size和學(xué)習(xí)率的選取范圍分別為[128,256,512,1 024]和[0.001,0.002,0.003,0.005,0.01]。每種深度學(xué)習(xí)模型取得最佳結(jié)果的batch size和學(xué)習(xí)率都不一樣,因此本文進(jìn)行多次實(shí)驗(yàn),將其最優(yōu)參數(shù)組合時(shí)對(duì)應(yīng)的結(jié)果進(jìn)行展示。
在3個(gè)數(shù)據(jù)集上進(jìn)行的對(duì)比結(jié)果如表3所示。其中*表示對(duì)比模型中性能最佳的結(jié)果,粗體表示在該數(shù)據(jù)集上性能最佳的結(jié)果。
表3 各種算法在3個(gè)數(shù)據(jù)集上的結(jié)果
3個(gè)數(shù)據(jù)集的稀疏度都為99%,僅利用評(píng)分?jǐn)?shù)據(jù)而忽略了評(píng)論數(shù)據(jù)的LFM受數(shù)據(jù)稀疏的影響嚴(yán)重,其效果最差。HFT添加評(píng)論數(shù)據(jù),很好地緩解了評(píng)分?jǐn)?shù)據(jù)稀疏的影響,但是其使用LDA處理評(píng)論文本的方式丟失了上下文信息。
為了解決該問題,ConvMF使用CNN代替LDA取得了一定程度的性能提升,但是ConvMF僅考慮物品評(píng)論集而忽略了用戶評(píng)論集,其結(jié)果不如同時(shí)考慮用戶和物品評(píng)論集的DeepCoNN。但是卷積核滑動(dòng)掃描的方式可能會(huì)丟失詞頻信息,因此WCN將擅長(zhǎng)捕獲詞頻信息的LDA融入CNN。但WCN只能在平均每條評(píng)論包含的單詞數(shù)最多的CPA上取得較好的結(jié)果,在另外兩個(gè)評(píng)論文本較短的數(shù)據(jù)集都不如DeepCoNN,因此CNN可能丟失的詞頻信息并不是極其重要的影響因素。另外,WCN通過額外添加一個(gè)LDA的網(wǎng)絡(luò)會(huì)增大模型訓(xùn)練的時(shí)間成本,不能很好地滿足推薦系統(tǒng)在線實(shí)時(shí)更新參數(shù)的要求。所以,DARR仍只采取CNN作為文本特征提取器,并發(fā)現(xiàn)以往的模型都只能學(xué)習(xí)出用戶和物品的靜態(tài)隱因子,未合理運(yùn)用注意力機(jī)制解決該問題,其推薦性能的提高受到了限制。本文通過一個(gè)注意力網(wǎng)絡(luò)來學(xué)習(xí)出用戶和物品的動(dòng)態(tài)隱因子。實(shí)驗(yàn)結(jié)果驗(yàn)證了該猜想,考慮了動(dòng)態(tài)隱因子的DARR更符合用戶的關(guān)注點(diǎn)會(huì)隨物品變化而改變的現(xiàn)實(shí)情境,因此DARR在3個(gè)數(shù)據(jù)集上取得了最佳的結(jié)果。
為了探索本文注意力機(jī)制對(duì)模型的影響,以下針對(duì)注意力部分設(shè)置了4種不同的DARR變體:
(1) DARR-1:該變體直接取消注意力機(jī)制部分,也就是將用戶u和物品i的隱向量U和I拼接為一個(gè)向量,然后送入因子分解機(jī)進(jìn)行預(yù)測(cè)評(píng)分。
(2) DARR-2:對(duì)注意力計(jì)算部分進(jìn)行修改,僅考慮評(píng)分矩陣隱因子來計(jì)算注意力權(quán)重,也就是將式(7)修改為:
(3) DARR-3:對(duì)注意力計(jì)算部分進(jìn)行修改,僅考慮評(píng)論數(shù)據(jù)隱因子來計(jì)算注意力權(quán)重,也就是將式(7)修改為:
(4) DARR-4:對(duì)注意力計(jì)算部分進(jìn)行修改,考慮同時(shí)結(jié)合評(píng)分?jǐn)?shù)據(jù)和評(píng)論數(shù)據(jù)的融合特征,也就是將式(7)修改為:
(5) DARR:在變體(4)的基礎(chǔ)上,添加評(píng)論隱因子,也就是式(7)。
在不同隱因子數(shù)目(U和I的維度)的條件下,各變體和DARR的性能表現(xiàn)如圖3所示。
(a) Beauty
(b) PS
(c) CPA圖3 隱因子數(shù)量對(duì)模型的影響對(duì)比
DARR-1直接取消注意力機(jī)制,用戶和物品的隱向量不隨“用戶-物品”對(duì)的不同而改變,該靜態(tài)隱因子的策略和以往工作相同(LFM,HFT,ConvMF,DeepCoNN和WCN),不符合現(xiàn)實(shí)中用戶關(guān)注點(diǎn)隨物品變化而發(fā)生轉(zhuǎn)變的情景,因此其結(jié)果最差。DARR-2對(duì)注意力的計(jì)算進(jìn)行修改,其僅考慮評(píng)分矩陣中隱因子的影響而忽略了評(píng)論文本的隱因子。盡管該策略能根據(jù)注意力權(quán)重得出動(dòng)態(tài)隱因子,取得比DARR-1更好的效果,但是其忽略了能直觀表達(dá)用戶偏好和物品特點(diǎn)的評(píng)論數(shù)據(jù),未能充分挖掘注意力機(jī)制的效力。DARR-3僅考慮評(píng)論數(shù)據(jù)隱因子,由于評(píng)論文本中含有豐富的用戶偏好信息和物品特點(diǎn)信息,其對(duì)建模更有利,其效果相比DARR-2有大幅提升。DARR- 4使用同時(shí)結(jié)合評(píng)分?jǐn)?shù)據(jù)和評(píng)論數(shù)據(jù)的融合特征,在DARR-3的基礎(chǔ)上性能得到進(jìn)一步的提高,其與標(biāo)準(zhǔn)版的DARR性能不相上下。但是,由于融合特征是由評(píng)分隱因子和評(píng)論隱因子結(jié)合產(chǎn)生,可能會(huì)影響評(píng)論文本中用戶偏好和物品特征信息,因此標(biāo)準(zhǔn)版的DARR在DARR- 4的基礎(chǔ)上再次加入評(píng)論隱因子CNN_U和CNN_I。從實(shí)驗(yàn)結(jié)果來看,大部分情況下DARR會(huì)比DARR-4取得更好的結(jié)果。該實(shí)驗(yàn)有力地驗(yàn)證了DARR的注意力機(jī)制能有效捕捉用戶-物品對(duì)的注意力權(quán)重來提高評(píng)分預(yù)測(cè)精度。
以往基于評(píng)論進(jìn)行評(píng)分預(yù)測(cè)的相關(guān)工作都假設(shè)某用戶對(duì)任一物品的關(guān)注點(diǎn)是相同的。但是現(xiàn)實(shí)中用戶的關(guān)注點(diǎn)會(huì)隨物品的改變而轉(zhuǎn)變。因此,本文設(shè)置一種注意力機(jī)制來捕獲動(dòng)態(tài)隱因子,使得每用戶對(duì)每物品的隱因子都不相同。在3個(gè)公開數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了本文模型的有效性。
未來工作主要在本文模型特征融合階段設(shè)置特定的注意力機(jī)制,使得分別來自評(píng)分矩陣和評(píng)論文本的非同源隱因子進(jìn)行更有效的融合來提高隱因子的表達(dá)質(zhì)量。