侯雲(yún)峰
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
可解釋推薦[1]是近年來推薦系統(tǒng)領(lǐng)域的一個(gè)熱點(diǎn)研究方向,它旨在向用戶推薦物品的同時(shí),對(duì)推薦結(jié)果做出一定的解釋??山忉屚扑]能提升推薦的用戶體驗(yàn),增加推薦的透明度和用戶可信度。隨著互聯(lián)網(wǎng)的發(fā)展,尤其是電子商務(wù)的日益蓬勃,用戶對(duì)物品的評(píng)論不斷增加,這些評(píng)論數(shù)據(jù)反映了用戶對(duì)物品潛在的偏好,因此利用用戶評(píng)論數(shù)據(jù)為推薦做出解釋是現(xiàn)有很多可解釋推薦工作的研究興趣點(diǎn)之一[2]。
現(xiàn)有的可解釋推薦工作面臨一個(gè)問題:推薦結(jié)果缺乏定量的解釋,即不能定量地去評(píng)估用戶在物品某一方面的喜好,這使得推薦的說服力會(huì)有所欠缺。例如,對(duì)同一部電影,雖然用戶A和用戶B都評(píng)了4分(用戶評(píng)分上限為5分),但是用戶A更看重電影的故事情節(jié),用戶B更看重電影的陣容,即不同用戶對(duì)電影在不同主題上的興趣是不一樣的;又比如兩部電影a和b,它們的平均打分都是4.5分,但是電影a的陣容更具吸引力,電影b的3d效果更加奪目,即兩部電影在不同主題上擁有不同的優(yōu)勢(shì)?,F(xiàn)有的方法并不能評(píng)估這種細(xì)粒度的差異。
為了解決這一問題,本文提出一種稱之為基于主題的矩陣分解模型(Topic-based Matrix Factorization,TMF),用于定量評(píng)估用戶在特定主題上的偏好程度,以及物品在某個(gè)主題上的情感傾向,并利用這些評(píng)估信息用于物品的推薦。首先,我們?cè)O(shè)計(jì)兩套評(píng)估標(biāo)準(zhǔn)分別評(píng)估用戶對(duì)某個(gè)主題的偏好以及物品在某個(gè)主題上的情感傾向。然后,我們將用戶偏好信息和物品情感傾向信息融入到矩陣分解模型中,用于提升商品推薦的準(zhǔn)確率。
本文研究了可解釋推薦中推薦結(jié)果不能定量解釋這一問題,并提出了兩套評(píng)估標(biāo)準(zhǔn)分別用于評(píng)估用戶在主題上的偏好和物品在主題上的情感傾向,評(píng)估的結(jié)果用于推薦結(jié)果的定量解釋。同時(shí),我們提出了一種模型TMF,用于融合這些評(píng)估信息以提升推薦結(jié)果的準(zhǔn)確率。
為了對(duì)用戶評(píng)論數(shù)據(jù)中的主題信息進(jìn)行定量評(píng)估,首先,我們需要從用戶評(píng)論數(shù)據(jù)中提取出主題。這里的主題是指物品在某一方面的特征,它是對(duì)物品更細(xì)粒度的刻畫,比如電影的陣容、特效、故事情節(jié)、背景音樂……為了提取主題,我們使用潛在狄利克雷分布(LDA)[3]對(duì)評(píng)論文本中蘊(yùn)含的主題和其相關(guān)詞進(jìn)行提取。同時(shí),我們分別從用戶和物品的角度,對(duì)用戶和物品在主題上的相關(guān)詞信息進(jìn)行采集,即對(duì)用戶和物品在各個(gè)主題上的相關(guān)詞頻率進(jìn)行統(tǒng)計(jì)。然后,我們提出兩種評(píng)估方法,分別對(duì)用戶在特定主題上的偏好以及物品在特定主題上的情感傾向進(jìn)行定量評(píng)估。我們定義用戶在特定主題上的偏好評(píng)估公式為:
其中,m代表用戶,t代表主題,ctm是用戶m所有評(píng)論中對(duì)主題t提到的次數(shù),cm是用戶m的評(píng)論總數(shù),A是數(shù)據(jù)集的最高評(píng)分?jǐn)?shù),一般數(shù)據(jù)集的最高評(píng)分為5分。該公式衡量了用戶對(duì)特定主題的偏好程度。我們定義物品在特定主題上的情感傾向評(píng)估公式為:
通過以上兩個(gè)公式,我們可以計(jì)算出用戶對(duì)各個(gè)主題的偏好程度以及物品在各個(gè)主題上的情感傾向。由此,我們以上兩個(gè)公式分別建立一個(gè)用戶-主題偏好矩陣P和物品-主題情感矩陣Q。
由矩陣分解[4]和兩個(gè)偏好矩陣P、Q,我們定義一個(gè)新的模型,即主題矩陣分解TMF的目標(biāo)函數(shù)為:
其中,R是評(píng)分矩陣,U和V分別是用戶和物品的潛因子矩陣,S和W是引入的因子矩陣。對(duì)于上式,我們使用梯度下降法求解,求解算法如下:
輸入:打分矩陣R,用戶-主題偏好矩陣P和物品-主題偏好矩陣Q。
初始化矩陣U和V以及S和W的值,每一個(gè)元素取0~1之間的隨機(jī)數(shù);
計(jì)算目標(biāo)函數(shù)的初始值J0;
梯度下降,更新U、V、S、W的值;
我們使用了亞馬遜數(shù)據(jù)集驗(yàn)證我們的模型TMF的推薦性能,以RMSE(Root Mean Square Error)和MAE(Mean Absolute Error)為評(píng)估指標(biāo),選取了 PMF、NMF、HFT、LDAMF等四個(gè)常見的推薦算法作為對(duì)比方法,實(shí)驗(yàn)結(jié)果如下:
圖1
從圖中可以看出,我們的方法TMF在推薦性能上明顯優(yōu)于其他四種對(duì)比方法,原因是TMF融合了評(píng)論信息,因此比沒有融合評(píng)論信息的PMF和NMF效果好;同時(shí),TMF能定量分析用戶和物品在主題層次上的差異,這對(duì)于提升推薦性能有所幫助,因此比HFT和LDAMF更好。
另外,我們分別分析了主題數(shù)L和潛因子數(shù)K對(duì)推薦性能的影響,分析結(jié)果如下:
圖2
可以看出,當(dāng)主題數(shù)L為5的時(shí)候,推薦性能最好。
圖3
由圖可知,當(dāng)潛因子數(shù)K為35的時(shí)候,推薦性能最佳。
我們也通過實(shí)驗(yàn)分析了對(duì)同一物品打分相同的兩個(gè)用戶在主題偏好上的差異:
圖4
圖中,橫坐標(biāo)是主題,縱坐標(biāo)是用戶的主題偏好度。從圖中我們可以看出,雖然兩個(gè)用戶對(duì)該物品賦予了相同的評(píng)分,但是他們?cè)凇耙魳贰焙汀安倏v感”兩個(gè)主題上的偏好差異較大。因此,證明我們的TMF模型可以成功抓住主題層次上的偏好差異,對(duì)推薦結(jié)果做出定量的解釋。
本文研究了可解釋推薦中推薦解釋定量評(píng)估的問題,并提出了模型主題矩陣分解(TMF)。TMF能夠定量評(píng)估用戶在特定主題上的偏好,以及物品在特定主題上的情感傾向,因此TMF可以定量為用戶解釋推薦特定物品的原因。同時(shí),TMF通過融入用戶在主題上的偏好信息以及物品在主題上的情感傾向信息,能有效提升推薦的性能。我們通過了一系列實(shí)驗(yàn)來證明TMF模型的有效性。
參考文獻(xiàn):
[1]王春才,邢暉,李英韜.推薦系統(tǒng)的推薦解釋研究[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2016(02):41-43+80.
[2]王偉,王洪偉,孟園.協(xié)同過濾推薦算法研究:考慮在線評(píng)論情感傾向[J].系統(tǒng)工程理論與實(shí)踐,2014,34(12):3238-3249.
[3]荀靜,劉培玉,楊玉珍,張艷輝.基于潛在狄利克雷分布模型的多文檔情感摘要[J].計(jì)算機(jī)應(yīng)用,2014,34(06):1636-1640.
[4]李英明.矩陣分解在數(shù)據(jù)挖掘中的應(yīng)用[D].浙江大學(xué),2014.