亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于3因素概率圖模型的長尾推薦方法

        2021-09-13 02:17:56馮晨嬌王智強梁吉業(yè)
        計算機研究與發(fā)展 2021年9期
        關(guān)鍵詞:用戶方法模型

        馮晨嬌 宋 鵬 王智強 梁吉業(yè)

        1(計算智能與中文信息處理教育部重點實驗室(山西大學(xué)) 太原 030006) 2(山西財經(jīng)大學(xué)應(yīng)用數(shù)學(xué)學(xué)院 太原 030006) 3(山西大學(xué)經(jīng)濟與管理學(xué)院 太原 030006)

        互聯(lián)網(wǎng)時代,伴隨電子商務(wù)的迅猛發(fā)展,推薦系統(tǒng)日益受到廣泛的關(guān)注.一方面,推薦系統(tǒng)能夠給用戶提供其可能感興趣的商品、服務(wù)等各類信息,進而有效提升用戶的信息獲取效率.另一方面,推薦系統(tǒng)可以幫助商家有效分析用戶偏好,從而增加商品銷售數(shù)量和銷售種類.自1992年郵件過濾系統(tǒng)Tapestry問世以來,推薦系統(tǒng)已滲透于各個領(lǐng)域,包括:娛樂性的電影、音樂、游戲等;內(nèi)容性的個性化新聞、文檔推薦、網(wǎng)頁推薦等;電子商務(wù)性的書籍推薦、商品推薦等;服務(wù)性的旅游推薦、房屋租賃推薦等;社交性的朋友推薦等.隨著這些應(yīng)用系統(tǒng)的有效推廣,推薦方法的研究受到了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注.

        推薦方法中,用戶評分是數(shù)據(jù)建模的重要基礎(chǔ).然而,在現(xiàn)實的推薦場景中,用戶給予項目的評分或者選擇項目的頻次是一個典型的長尾現(xiàn)象,符合帕累托定律.推薦系統(tǒng)中,所謂長尾是指長尾項,俗稱冷門項目,最早由Anderson[1]提出.其區(qū)別于冷啟動問題,冷啟動問題是指針對新用戶或新項目的推薦,而長尾項或者說冷門項目是指只有少數(shù)人給予評分的項目.

        在電子商務(wù)等應(yīng)用場景中,長尾項有其獨特的價值,并日益受到重視.文獻[2]指出對長尾項的推薦是推薦系統(tǒng)有效性的重要評測指標(biāo).一方面,長尾項往往是用戶獨有的興趣,對長尾項的抓取是提升個性化推薦精度的關(guān)鍵所在;進一步地,長尾推薦可以給用戶帶來不同程度的驚喜度和滿意度[3-4].另一方面,對于商家來說,長尾推薦是其收益提升的重要途徑.文獻[5]指出亞馬遜網(wǎng)站30%~40%的圖書銷售業(yè)績源自于那些難以在實體店發(fā)現(xiàn)的書目,在此基礎(chǔ)上,文章進一步強調(diào)長尾商品是支撐電子商務(wù)業(yè)績增長的重要驅(qū)動力.文獻[6]以亞馬遜網(wǎng)站200類圖書為樣本,開展了長尾商品的推薦效應(yīng)研究,結(jié)果表明,最冷門的20%圖書商品可實現(xiàn)50%的業(yè)績增長.文獻[7]指出推薦系統(tǒng)的設(shè)計不應(yīng)僅僅關(guān)注熱門商品,面向長尾商品的推薦系統(tǒng)研究可有效提高冷門產(chǎn)品的銷售業(yè)績,進而實現(xiàn)商家的利潤最大化.

        事實上,稀疏性是制約推薦系統(tǒng)性能提升的重要影響因素.特別地,對于長尾項而言,其數(shù)據(jù)稀疏程度更加凸顯.因此,從現(xiàn)有研究進展來看,諸多成果通過增加信息源來緩解數(shù)據(jù)稀疏問題,進而開展長尾推薦研究.文獻[8-12]利用用戶信息(如社會網(wǎng)絡(luò)、用戶屬性、用戶評論和文本挖掘)或產(chǎn)品屬性等額外的信息源來挖掘用戶的個性化偏好和長尾項之間的關(guān)系.另一方面,相關(guān)研究成果通過引入多樣性指標(biāo)提升系統(tǒng)的新穎性推薦性能,進而促進長尾項的推薦效果[13-15].從推薦方法研究路徑來看,現(xiàn)有成果已由單一追求預(yù)測精度向“準(zhǔn)確性+新穎性”綜合考量的方向發(fā)展,相應(yīng)地,其在一定程度上促進了長尾項的推薦.然而,多樣性指標(biāo)尚缺乏統(tǒng)一的度量,且其和準(zhǔn)確性、新穎性之間的內(nèi)在關(guān)聯(lián)也存在不同的觀點[16-18],因此,多樣性指標(biāo)的非一致性問題也給長尾推薦建模帶來了新的困惑.

        與以往研究不同,本文試圖在不引入額外信息源的基礎(chǔ)上,同時回避多樣性指標(biāo)的非一致性問題,將影響長尾項推薦的3個因素引入概率圖模型.其中,3個因素分別是用戶活躍度、項目非流行度和用戶-項目偏好水平.在實際的推薦場景中,從用戶視角來看,與新用戶或非活躍用戶相比,活躍用戶更傾向于選擇一些冷門項目,因此,用戶活躍度是長尾項推薦的重要影響因素之一;從項目視角來看,項目的非流行程度決定了其是否歸屬于長尾項目,相應(yīng)地,項目非流行度自然是長尾推薦的重要影響因素之二;從用戶對項目的評價視角來看,偏好水平越高,越可能表明用戶對該項目具有個性化偏好,而長尾項目往往是用戶個性化偏好的現(xiàn)實表現(xiàn),因此,用戶-項目偏好水平則是長尾推薦的重要影響因素之三.基于上述分析,本文引入前述3個因素構(gòu)造二項分布隨機變量,在概率圖模型框架下構(gòu)建了一個新的長尾推薦方法,進而實現(xiàn)推薦精度與新穎性的相對均衡.

        1 相關(guān)研究

        早期的長尾推薦多采用聚類方法開展相關(guān)研究.文獻[8]通過評分數(shù)目的多少將所有的項目分為長尾項和熱門項,在此基礎(chǔ)上,基于項目屬性對長尾項聚類,通過同一類中長尾項評分的共享,增加長尾推薦中可用的評分數(shù)目,進而運用已有的預(yù)測模型進行推薦.文獻[9]進一步對文獻[8]方法進行了改進,提出一個自適應(yīng)聚類方法.其與文獻[8]方法的主要區(qū)別在于不再硬性劃分長尾項和熱門項,而是通過評分數(shù)目的自適應(yīng)聚類實現(xiàn)長尾推薦.然而,文獻[9]方法仍然面臨著聚類個數(shù)難以確定、初始類中心點選擇困難等問題.

        近年來,諸多成果基于多樣性、新穎性、相似性等指標(biāo)的設(shè)計與改進來促進長尾項目的推薦.文獻[13]基于3個目標(biāo)實現(xiàn)推薦列表的優(yōu)化,即提高準(zhǔn)確性、提升多樣性以及降低項目流行度.其中,給出的多目標(biāo)優(yōu)化問題通過模擬退火算法進行問題求解.文獻[15]給出一種“資源”分配策略,即給予高評分項目與非流行項目相對均衡的推薦機會,進而在保持一定推薦準(zhǔn)確性的同時,增加推薦方案的多樣性,并提高長尾推薦效果.文獻[19]基于推薦結(jié)果準(zhǔn)確性與多樣性的權(quán)衡,提出了一種多目標(biāo)進化推薦方法,在此基礎(chǔ)上可獲得一組推薦方案的帕累托解,相應(yīng)地,特定的目標(biāo)用戶可根據(jù)其行為偏好在若干推薦列表中進行選擇.文獻[20]提出了一種在保證推薦精度的同時降低推薦集中度的策略,即用評分和流行度指標(biāo)的加權(quán)得到新的推薦排序指標(biāo).文獻[21]提出了一個長尾推薦的多目標(biāo)框架,在此框架下,設(shè)計了2個相互沖突的目標(biāo)函數(shù),分別刻畫推薦方法的準(zhǔn)確性與新穎性,進而基于相應(yīng)的多目標(biāo)進化算法構(gòu)建推薦生成策略.可以看出,現(xiàn)有的推薦方法不再單純追求準(zhǔn)確率的提升,而是尋求準(zhǔn)確性、多樣性、新穎性等不同視角融合的折中(trade-off)推薦方案.

        總體來看,諸多學(xué)者基于聚類、多目標(biāo)優(yōu)化等方法開展了長尾推薦方法研究,并在一定程度上提升了長尾項目推薦的效果.然而,聚類算法中,聚類個數(shù)設(shè)置、初始中心點選擇等共性難題制約了其在實際中的應(yīng)用.類似地,多目標(biāo)優(yōu)化算法中全局最優(yōu)解、帕累托解的求解也仍然是其難點所在.特別是長尾推薦中存在的典型的數(shù)據(jù)稀疏問題,使得上述算法的有效求解變得更加困難.從現(xiàn)有研究進展來看,概率圖模型因其可對真實世界中存在的依賴關(guān)系提供具有可解釋性的數(shù)據(jù)建模與問題求解路徑而逐漸受到重視.尤其對于推薦系統(tǒng)而言,“算法黑箱”是其飽受詬病的重要因素,相應(yīng)地,長期以來,推薦系統(tǒng)的可解釋性研究一直是學(xué)術(shù)界與工業(yè)界共同關(guān)注的問題.因此,基于概率圖模型的推薦方法因其在可解釋性方面的優(yōu)勢而日益受到重視[22-24].然而,從已有成果來看,鮮有研究基于概率圖模型開展長尾推薦的算法設(shè)計.進一步地,本文試圖以可解釋性為切入,基于用戶、項目及其關(guān)聯(lián)關(guān)系,提出基于用戶活躍度、項目非流行度和用戶-項目偏好水平的3因素概率圖模型,進而在準(zhǔn)確性、新穎性之間給出相對均衡的長尾項目推薦生成策略.

        2 長尾推薦方法

        本文基于概率圖模型開展長尾推薦研究.概率圖模型(probabilistic graphical model,PGM),簡稱圖模型,是指一種用圖結(jié)構(gòu)來描述多元隨機變量之間條件獨立關(guān)系的概率模型.圖模型通過假設(shè)已知觀測變量條件下隱變量的條件分布,來表達2類變量之間的關(guān)系,并對變量及其潛在結(jié)構(gòu)給出一種可視化表示.該模型中的條件分布,通常被稱為后驗概率.然而,這個后驗概率往往難以直接計算.一般地,機器學(xué)習(xí)和統(tǒng)計方法通常利用KL(Kullback-Leibler)散度將后驗概率分布求解轉(zhuǎn)換為其近似分布的求解,這里的近似分布稱為變分分布,相應(yīng)地,其推斷方法稱為變分推斷[25].為了減少變分推斷的計算復(fù)雜性,現(xiàn)有研究成果通常利用平均場理論,給出含有未知參數(shù)的隱變量的變分分布假設(shè).這種近似推斷策略將一個難以計算的后驗概率問題轉(zhuǎn)化為求解分布中未知參數(shù)的優(yōu)化問題.

        2.1 模型中變量描述

        推薦系統(tǒng)中主要包括用戶、項目及評分3部分.具體地,rij為第i個用戶對第j個項目的評分.評分通常采用5分制,1分代表最弱的偏好,5分代表最強的偏好.為了方便,本文將項目集分為熱門項目集和長尾項目集.事實上,用戶對項目的評分數(shù)值通常由用戶對項目的行為偏好所決定,因此,推薦系統(tǒng)的首要環(huán)節(jié)就是對用戶的行為偏好進行建模.進一步地,由于不同用戶的評分尺度往往不同,且不同項目其質(zhì)量也不相同,因而,建模時則需考慮用戶偏置與項目偏置.相應(yīng)地,用戶活躍度、項目非流行度等作為長尾項推薦的重要影響因素,其在建模時也需考慮活躍度偏置與流行度偏置.因此,在構(gòu)建長尾推薦模型之前,本節(jié)首先給出模型中的相關(guān)變量描述.

        對于第i位用戶:

        對于第j個項目:

        對于每一個評分rij:

        1)xij=1表示用戶ui評價過的項目yj是長尾項目,xij~Bernoulli(σ(dicjzij)),其中σ(·)表示sigmoid函數(shù),其中x=(xij)m×n.xij受3個因素影響:

        ① 第i位用戶的活躍度di.用戶活躍度越大,即用戶越活躍,其評分項目越可能是長尾項.

        2.2 3因素概率圖模型

        面向長尾推薦的3因素概率圖模型(three-factor based probabilistic graphical model,TFPGM)是生成模型.圖1為該模型的板塊表示.圖1中節(jié)點表示隨機變量,實心節(jié)點是觀測變量,空心節(jié)點是隱變量;有向邊表示概率依存關(guān)系;矩形表示重復(fù),其中的數(shù)字表示重復(fù)次數(shù).

        Fig.1 Three-factor based probabilistic graphical model圖1 3因素概率圖模型

        TFPGM模型的具體生成過程為:

        1)用戶偏置ai、項目偏置bj、用戶潛在特征向量ui、熱門項目潛在特征向量vj和長尾項目潛在特征向量wj共同生成連續(xù)型隱變量zij,進一步地,zij生成可觀測評分rij.

        2)用戶活躍度di、項目非流行度cj和用戶-項目偏好水平zij這3個因素共同作用生成xij.

        3)用戶活躍度偏置αi生成用戶活躍度di,活躍度di生成可觀測比值ni.

        模型是以觀測變量和隱變量組合的聯(lián)合概率分布,設(shè)為p(R,x,η,θ,a,b,c,d,U,V,W,α,β),其中R,x,η,θ是觀測變量,z,a,b,c,d,U,V,W,α,β是隱變量.為了方便起見,記為Θ,聯(lián)合概率分布簡記為p(R,x,η,θ,Θ).σR,σz,σa,σb,σU,σV,σW,σθ,ση,σc,σd,σα,σβ是超參數(shù).目標(biāo)是學(xué)習(xí)模型的后驗概率分布p(Θ|R,x,θ,η),在此基礎(chǔ)上進行概率推斷.但是由于該模型含有多個隱變量,直接計算后驗概率分布是困難的,所以采用變分推斷方法用變分分布q(Θ)近似后驗分布.其目標(biāo)變換為尋找q*(Θ)使得KL散度D(q(Θ)‖p(Θ|R,x,θ,η))達到最小.為了降低計算復(fù)雜度,通常利用平均場理論給出q(Θ)的含有未知參數(shù)的概率分布.由變分推斷理論,KL散度達到最小等價于證據(jù)下界最大[22].證據(jù)下界為

        L(q)=Eq(lnp(R,x,θ,η,Θ))-Eq(lnq(Θ)),

        其中,Eq表示關(guān)于q(Θ)的數(shù)學(xué)期望.故此,首先建立聯(lián)合概率分布

        其中,Iij是示性函數(shù),Iij=1表示有評分,Iij=0表示評分項缺失.其次,根據(jù)平均場理論及變分推斷,本文建立了一個隱變量之間相互獨立且分布來自于正態(tài)分布的變分分布

        設(shè)Ξ={μzij,Λzij,μui,Λui,μai,Λai,μdi,Λdi,μαi,Λαi,μvj,Λvj,μwj,Λwj,μbj,Λbj,μcj,Λcj,μβj,Λβj}是q(Θ)的參數(shù),即變分參數(shù).

        最后,定義證據(jù)下界

        其中

        (1)

        同理:

        (2)

        Eq(lnp(xij|σ(dicjzij)))是Bernoulli-log似然,利用文獻[26]中的不等式:

        可以得到相應(yīng)的下界:

        (3)

        (4)

        (5)

        (6)

        (7)

        (8)

        (9)

        (10)

        (11)

        (12)

        再迭代更新第i位用戶的全局變分參數(shù)Λui,μui,Λai,μai,Λdi,μdi,Λαi,μαi:

        (13)

        (14)

        (15)

        (16)

        (17)

        (18)

        (19)

        (20)

        最后迭代更新第j個項目的全局變分參數(shù)Λvj,μvj,Λwj,μwj,Λbj,μbj,Λcj,μcj,Λβj,μβj:

        (21)

        (22)

        (23)

        (24)

        (25)

        (26)

        (27)

        (28)

        (29)

        (30)

        直至收斂.其中I(xij)表示示性函數(shù),即當(dāng)xij=1時取1;當(dāng)xij=0時取0.

        基于上述思想及相關(guān)計算,變分推斷的長尾項推薦方法的步驟如算法1.

        算法1.長尾項推薦變分算法.

        輸入:可觀測評分R、長尾示性矩陣x、更新步長ρ、迭代次數(shù)iter_num;

        輸出:變分參數(shù)Ξ.

        ① 隨機初始化全局變分參數(shù)

        ② whileiter

        ③iter=iter+1;

        ④ forrij是R的元素

        ⑤ while不收斂

        利用式(9)~(12)計算ξij,λij,Λzij,μzij;

        ⑥ end while

        ⑦ end for

        ⑧ fori=1,2,…,m

        ⑨ end for

        ⑩ forj=1,2,…,n

        2.3 概率推斷

        (31)

        3 實驗結(jié)果與分析

        本節(jié)引入實驗需要的數(shù)據(jù)集;介紹了代表準(zhǔn)確性、多樣性和新穎性的評價指標(biāo);引入了TFPGM及其對比算法開展實驗比較分析.

        3.1 數(shù)據(jù)集

        本文選擇了3個數(shù)據(jù)集ML-100k,ML-lm(1)https://grouplens.org/datasets/movielens/,F(xiàn)ilm-Trust(2)https://www.librec.net/datasets.html.上述數(shù)據(jù)集中的評分均是以5分制給出,即最高為5分,最低為1分.數(shù)據(jù)集ML-100k中有943個用戶對1 680個項目給出的100 000個評分,數(shù)據(jù)集密度為6.3%.數(shù)據(jù)集ML-lm中有6 040個用戶對3 952個項目給出的1 000 209個評分,數(shù)據(jù)集密度為4.19%.FilmTrust數(shù)據(jù)集包括1 508個用戶對2 071個項目給出的35 497個評分,數(shù)據(jù)集密度為1.14%.

        本文利用巴萊多定律(也叫二八定律)將項目分為熱門項目和長尾項目.其方法是將項目按照評分數(shù)量由高到低排列,取后20%的項目為長尾項目[27].按此方法,ML-100k,數(shù)據(jù)集中評分數(shù)量少于6個的項目是長尾項;ML-lm數(shù)據(jù)集中評分數(shù)量少于14個的項目是長尾項;FilmTrust數(shù)據(jù)集中評分數(shù)量少于2個的項目是長尾項.

        3.2 評價指標(biāo)

        本文選擇了5個指標(biāo),具體包括:與準(zhǔn)確性相關(guān)的平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean squared error,RMSE)、召回率(Recall)、與多樣性相關(guān)的平均列表內(nèi)距離(in list distance,ILD)[28]、與流行度相反的新穎性(Novelty)[21],用于刻畫長尾推薦性能.具體公式為

        其中,|·|表示集合中元素的個數(shù);Rtest表示5折交叉驗證法中隨機選擇出的1折測試集;Ii表示面向第i位用戶推薦的前k個物品集合,I表示面向所有用戶推薦的前k個物品集合;Ti表示測試集中面向第i位用戶推薦的物品集合;d(i,j)表示第i個項目和第j個項目的距離,本文采用余弦距離;Li表示第i位用戶的topN列表,Uj表示評分過項目j的用戶集合.這5個指標(biāo)中,MAE,RMSE表示預(yù)測評分的準(zhǔn)確率,衡量預(yù)測評分與真實評分之間的誤差,該值越小,誤差越小.Recall表示topN推薦預(yù)測的召回率,該值越大,說明預(yù)測的topN和真實的topN之間越一致.上述3個準(zhǔn)確性指標(biāo)的計算均采用5折交叉驗證方法.ILD表示推薦結(jié)果的多樣性,該值越大,推薦的覆蓋面越大.Novelty表示推薦結(jié)果的平均流行度,該值越小,推薦結(jié)果越新穎.為了降低隨機初始化導(dǎo)致的誤差,本文在計算ILD和Novelty指標(biāo)時,重復(fù)10次取平均值.

        3.3 對比實驗

        為了說明本文方法的有效性,選擇了其他經(jīng)典方法作為對比實驗,具體有:

        1)概率矩陣分解(probabilistic matrix factori-zation,PMF)方法[22].PMF是已知用戶評分,給出用戶潛在特征和項目潛在特征的后驗概率,并以對數(shù)后驗概率最大化為目標(biāo)函數(shù)得到用戶潛在特征矩陣和項目潛在特征矩陣的估計值,最后通過兩者的內(nèi)積來預(yù)測未知評分.該方法的核心參數(shù)是潛在特征空間維數(shù),本文設(shè)為30.

        2)k近鄰?fù)扑](knearest neighbor recommen-dation,kNN)方法[29].kNN是利用目標(biāo)用戶近鄰的項目評分的加權(quán)平均值作為預(yù)測評分,此方法的核心是近鄰的確定和權(quán)重的設(shè)置.本文均以皮爾遜相關(guān)系數(shù)為依據(jù)給出近鄰和權(quán)重,且采用基于用戶的近鄰?fù)扑].該方法的核心參數(shù)是近鄰數(shù),本文設(shè)為30.

        3)基于變分推斷的概率圖模型(probabilistic graphical model based on variation inference,PGMVI).事實上,圖2所示的概率圖模型在推薦系統(tǒng)中更多地稱為矩陣分解模型.一般地,由于矩陣分解其最終目標(biāo)函數(shù)是二次函數(shù),因此,通常采用梯度下降法求解.需要說明的是,由于3因素概率圖模型的復(fù)雜性(如2.2節(jié)所示),本文采用了變分推斷求解參數(shù).與此相對應(yīng),本文針對圖2的矩陣分解模型引入變分推斷算法,其預(yù)測公式為

        (32)

        Fig.2 Probabilistic graphical model圖2 概率圖模型

        該模型與TFPGM涉及到的參數(shù)在表1中列示.由于2個模型有共同的參數(shù),為了清晰地比較2個模型的效果,令相同參數(shù)的取值一致;考慮表1的簡潔性,TFPGM方法中與PGMVI相同的參數(shù)不再重復(fù)列示.不同算法迭代步長均為0.3,迭代100次,變量初始化采用相同的策略.

        Tabel 1 Parameter Settings表1 參數(shù)設(shè)定

        3.4 實驗結(jié)果分析

        本節(jié)通過5個評價指標(biāo)在3個數(shù)據(jù)集上運行4種算法來進行對比研究.本文提出的方法是在適當(dāng)保持準(zhǔn)確性前提下,提高推薦新穎性.為了便于比較,本文將實驗結(jié)果如表2所示.

        Tabel 2 Performance Comparison of Different Recommendation Methods表2 不同推薦方法在性能上的比較

        從表2可以看出,在準(zhǔn)確性方面,kNN方法在MAE,RMSE取到最優(yōu)值的情況最多,PGMVI,TFPGM的表現(xiàn)稍差;而召回率指標(biāo)上,在3個不同的數(shù)據(jù)集,PGMVI,TFPGM,PMF分別是最優(yōu).在多樣性方面,各種方法則沒有表現(xiàn)出明顯的優(yōu)勢.如前文所述,“多樣性可優(yōu)化精確性”[16]“多樣性提升需以精確性為代價”[17,20]導(dǎo)致的非一致性問題為推薦系統(tǒng)建模帶來了新的困惑,而本文實驗結(jié)果中多樣性指標(biāo)表現(xiàn)出的不確定性也進一步印證了其存在的非一致性問題.在新穎性方面,TFPGM在所有數(shù)據(jù)集上均達到最優(yōu),其次是PGMVI,且TFPGM,PGMVI顯著優(yōu)于kNN和PMF.實驗結(jié)果驗證了變分推斷方法對長尾推薦的有效性.進一步地,從新穎性指標(biāo)來看,TFPGM優(yōu)于PGMVI,這歸功于模型中添加的3因素變量,其在推薦方法中起到了促進長尾推薦的作用.

        需要著重強調(diào)的是,PMF在準(zhǔn)確性指標(biāo)MAE,RMSE上的效果稍差.其原因在于,本文在整體實驗部分采用了準(zhǔn)確性與新穎性的折中策略[18],即對新穎性的追求在一定程度上損失了精度.為了更好地說明這一問題,以PMF為例,表3列示了“精度優(yōu)先”策略、“精確性與新穎性折中”策略的實驗結(jié)果.

        從表3可以看出,精度優(yōu)先策略下,PMF在3個數(shù)據(jù)集上的MAE,RMSE指標(biāo)均表現(xiàn)出較好的性能,但在新穎性指標(biāo)上則表現(xiàn)較差;折中策略下,PMF在3個數(shù)據(jù)集上的新穎性指標(biāo)均表現(xiàn)較好,而在準(zhǔn)確性方面則表現(xiàn)較差.事實上,從現(xiàn)有研究成果來看,準(zhǔn)確性與新穎性的均衡特性具有普遍性[18,21,30],因此,本文的實驗分析均采用折中策略.

        Tabel 3 Performance Comparison of PMF Based on Two Strategies表3 PMF基于2種策略的性能比較

        新穎性作為長尾推薦的重要評價指標(biāo),表2表明,PGMVI和TFPGM在新穎性指標(biāo)上明顯優(yōu)于PMF和kNN.為了進一步比較PGMVI和TFPGM方法在新穎性指標(biāo)上的差異,本節(jié)取top 3,top 5,top 7,top 10的不同推薦場景對上述2種方法的長尾推薦性能進行對比.

        圖3~5分別給出了PGMVI和TFPGM方法在3個數(shù)據(jù)集的4種推薦場景下的比較結(jié)果.可以看出,TFPGM均優(yōu)于PGMVI方法.實際上,2種方法的關(guān)鍵區(qū)別在于3因素概率圖模型從用戶、項目及其關(guān)聯(lián)關(guān)系3維視角引入了長尾推薦的重要影響要素.進一步比較2種方法的預(yù)測式(31)(32),相對于概率圖模型而言,3因素概率圖模型預(yù)測公式中包含參數(shù)μwj.由于參數(shù)μwj受到μdi,μcj,μzij的影響,這使得如果參數(shù)μdi,μcj,μzij數(shù)值較大,則μwj的值較大,相應(yīng)地,在topN推薦中其對應(yīng)的評分項則更容易被推薦.同時,由于上述變分參數(shù)恰好是3因素di,cj,zij的變分參數(shù),因此,當(dāng)參數(shù)μdi,μcj,μzij數(shù)值較大時,xij=1的概率也較大,即增加了長尾項目推薦的可能性.

        Fig.3 Comparison of Novelty on ML-100k圖3 Novelty在ML-100k數(shù)據(jù)集上的比較

        Fig.4 Comparison of Novelty on ML-1m圖4 Novelty在ML-1m數(shù)據(jù)集上的比較

        需要進一步說明的是,盡管本文方法是準(zhǔn)確性與新穎性的均衡調(diào)節(jié),但其在準(zhǔn)確性上也表現(xiàn)出相應(yīng)的優(yōu)勢.為了更清晰地展現(xiàn)不同的topN推薦場景下4種方法的推薦精度,本文以Recall指標(biāo)為例,分別在top 10,top 100,top 200,top 300,top 400,top 500的不同推薦場景下進行了實驗比較.圖6~8表明,在3個數(shù)據(jù)集上,隨著推薦項目數(shù)量的增加,所有算法的召回率持續(xù)增加;在ML-100k和Film-Trust中 PGMVI和TFPGM有明顯優(yōu)勢,在ML-1m中4種方法差異不大.可見,本文提出的TFPGM方法,在保證一定精度的前提下提高了推薦的新穎性.

        Fig.6 Comparison of Recall on ML-100k圖6 Recall在ML-100k數(shù)據(jù)集上的比較

        Fig.7 Comparison of Recall on ML-1m圖7 Recall在ML-1m數(shù)據(jù)集上的比較

        Fig.8 Comparison of Recall on FilmTrust圖8 Recall在FilmTrust數(shù)據(jù)集上的比較

        4 總 結(jié)

        本文面向推薦場景中的長尾現(xiàn)象,以提高推薦系統(tǒng)的可解釋性為切入,著眼于用戶、項目以及兩者之間內(nèi)在關(guān)聯(lián)的統(tǒng)一性,基于用戶活躍度、項目非流行度、用戶-項目偏好水平3個長尾推薦的重要影響因素,提出了基于概率圖模型的長尾推薦方法.4種方法、3組數(shù)據(jù)集、5個評價指標(biāo)的比較實驗,驗證了本文方法在推薦準(zhǔn)確性與新穎性之間的均衡調(diào)節(jié)作用.本文研究成果對于提升長尾推薦性能、發(fā)現(xiàn)用戶個性化偏好具有重要的科學(xué)價值,在電商網(wǎng)站、社交媒體等各類推薦場景中具有廣泛的應(yīng)用前景.

        需要說明的是,本文的長尾推薦方法僅考慮了用戶對項目的評分矩陣信息,未來研究中可以圍繞社交網(wǎng)絡(luò)等多源信息的引入,進一步挖掘用戶的個性化偏好,進而給出更加優(yōu)良的長尾推薦方法.此外,進一步挖掘多樣性與準(zhǔn)確性、多樣性與新穎性之間的內(nèi)在關(guān)聯(lián),也值得繼續(xù)深入探討.

        猜你喜歡
        用戶方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        人妻有码中文字幕在线| 精品丝袜一区二区三区性色| 国产一级r片内射免费视频| 在线日本高清日本免费| 国产福利不卡视频在线| 亚洲国产性夜夜综合另类| 国产三级不卡在线观看视频| 加勒比精品视频在线播放| 久久婷婷色香五月综合缴缴情 | 日本一本草久国产欧美日韩| 日韩av一区二区三区在线观看| 国产三级国产精品国产专播| 日韩中文字幕有码午夜美女| 国产在热线精品视频| 疯狂撞击丝袜人妻| 少妇太爽了在线观看| 性做久久久久久久| 久久av一区二区三区下| 国产精品一区二区三区播放| 欧洲乱码伦视频免费| 亚洲av综合色区无码一二三区| 成人爽a毛片一区二区免费| 男人天堂AV在线麻豆| 亚洲天堂av在线免费播放| 一本大道道久久综合av| 免费人妻无码不卡中文字幕系| 午夜成人理论无码电影在线播放| 国产欧美精品在线一区二区三区| 亚洲欧洲美洲无码精品va | 精品丰满人妻无套内射| 中国丰满大乳乳液| a级福利毛片| 久久精品国产亚洲av蜜桃av| 蜜桃网站免费在线观看视频| 少妇被又大又粗又爽毛片久久黑人| 欧美日韩视频无码一区二区三| 黄视频国产| 亚洲美女主播一区二区| 中文字幕色偷偷人妻久久一区| 无码人妻一区二区三区免费看| 另类老妇奶性生bbwbbw|