融合項(xiàng)目質(zhì)量與時(shí)間的矩陣分解協(xié)同過濾算法

2022-06-28 02:55:46崔麗莎

軟件導(dǎo)刊 2022年6期

邵超，崔麗莎

（河南財(cái)經(jīng)政法大學(xué)計(jì)算機(jī)與信息工程學(xué)院，河南鄭州 450046）

0 引言

20 世紀(jì)90 年代以來，隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展，信息量呈現(xiàn)爆炸式增長，人們面對浩如煙海的信息無所適從。針對“信息超載”問題，個(gè)性化推薦系統(tǒng)能夠“主動(dòng)”推薦用戶感興趣的信息和資源，并已在電子商務(wù)［1］、視頻音樂推薦［2］等領(lǐng)域廣泛應(yīng)用?，F(xiàn)階段，傳統(tǒng)推薦算法主要包括基于關(guān)聯(lián)規(guī)則的推薦（Association Rules Based）［3］、基于內(nèi)容的推薦（Content Based）［4］、協(xié)同過濾推薦（Collaborate Filtering）［5］等。其中，協(xié)同過濾推薦算法是目前應(yīng)用最廣泛的推薦技術(shù)。

協(xié)同過濾推薦又分為基于內(nèi)存（Memory-Based）、基于模型（Model-Based）和混合（Hybrid-CF）的協(xié)同過濾推薦。其中，基于內(nèi)存的協(xié)同過濾推薦通過用戶歷史行為數(shù)據(jù)挖掘用戶偏好，尋找存在共同經(jīng)驗(yàn)的群體推薦用戶感興趣的項(xiàng)目，在此基礎(chǔ)上又可細(xì)分為基于用戶和基于項(xiàng)目兩類。然而該方法存在數(shù)據(jù)稀疏、冷啟動(dòng)、用戶興趣遷移等問題。隨后，提出了基于模型的協(xié)同過濾推薦，該算法在協(xié)同過濾推薦的基礎(chǔ)上，利用機(jī)器學(xué)習(xí)思想建立各類模型進(jìn)行推薦，例如聚類［6］、分類［7］、矩陣分解［8］、神經(jīng)網(wǎng)絡(luò)［9］等。相較于前者，該類方法推薦效果更佳，混合協(xié)同過濾推薦則主要通過融合以上兩種方法進(jìn)行推薦。

目前，改進(jìn)協(xié)同過濾算法主要通過挖掘用戶的潛在偏好，改進(jìn)相似度計(jì)算，優(yōu)化最近鄰選擇以提升推薦質(zhì)量。何明等［10］結(jié)合用戶評分和項(xiàng)目類型信息構(gòu)建用戶興趣偏好矩陣，基于此對用戶進(jìn)行聚類。王衛(wèi)紅等［11］引入用戶對項(xiàng)目類型的平均評分和用戶屬性構(gòu)建用戶偏好，將其填充后對用戶進(jìn)行聚類。李志軍［12］引入評分比例因子和商品屬性改進(jìn)項(xiàng)目相似度計(jì)算，結(jié)合用戶評分構(gòu)建用戶對商品的喜好矩陣。以上研究均根據(jù)用戶評分和項(xiàng)目類型信息構(gòu)建用戶偏好，有助于緩解數(shù)據(jù)稀疏性，提高推薦效果。然而，此類研究并未在產(chǎn)生候選集時(shí)考慮用戶對項(xiàng)目類型的偏好，忽略了用戶評分越早對用戶當(dāng)前偏好的反映程度越低的興趣遷移問題。文獻(xiàn)［13-14］通過引入時(shí)間權(quán)重因子分別改進(jìn)了用戶評分相似度與物品相似度度量公式，卻未在構(gòu)建用戶偏好時(shí)考慮時(shí)間因素的影響。陸航等［15］引入時(shí)間衰減函數(shù)到標(biāo)簽權(quán)重計(jì)算中，卻忽視了用戶評分對用戶偏好的反映程度。文獻(xiàn)［15-16］考慮了項(xiàng)目質(zhì)量對用戶評分存在的影響，分別將項(xiàng)目質(zhì)量作為差異影響因子與懲罰因子，優(yōu)化計(jì)算用戶評分差異相似度與改進(jìn)相似度計(jì)算公式。然而，該類研究僅將項(xiàng)目質(zhì)量應(yīng)用于改進(jìn)相似度計(jì)算中，忽略了項(xiàng)目質(zhì)量可通過影響用戶評分而影響挖掘用戶偏好。

此外，由于矩陣分解具有良好的可擴(kuò)展性和評分預(yù)測準(zhǔn)確性，有助于緩解數(shù)據(jù)稀疏，故而得到廣泛關(guān)注并產(chǎn)生了多種變體。馬瑩雪等［17-18］通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)用戶和項(xiàng)目的特征向量，將其集成在矩陣分解模型上產(chǎn)生預(yù)測評分。王運(yùn)等［19-20］利用用戶屬性信息和項(xiàng)目標(biāo)簽信息獲取用戶相似度和項(xiàng)目相似度，將其融入PMF 模型中實(shí)現(xiàn)推薦。Luo 等［21］探尋標(biāo)簽與項(xiàng)目的關(guān)聯(lián)，并在矩陣分解中添加時(shí)間影響因子優(yōu)化用戶偏好，取得了良好效果。然而，這些算法仍存在以下不足：①神經(jīng)網(wǎng)絡(luò)模型復(fù)雜且對數(shù)據(jù)具有依賴性；②僅考慮用戶和項(xiàng)目的屬性信息，忽略了用戶的興趣遷移；③未考慮項(xiàng)目自身質(zhì)量對評分的影響。

為解決上述問題，本文提出了一種融合時(shí)間因素、項(xiàng)目質(zhì)量及項(xiàng)目類型信息的矩陣分解協(xié)同過濾算法，首先引入項(xiàng)目評分標(biāo)準(zhǔn)差作為衡量項(xiàng)目質(zhì)量對用戶評分影響程度的質(zhì)量因子，消除由項(xiàng)目自身質(zhì)量產(chǎn)生的評分誤差，并引入時(shí)間權(quán)重因子反映用戶興趣的動(dòng)態(tài)變化；然后，結(jié)合修正的用戶評分和項(xiàng)目類型信息獲取用戶當(dāng)前的項(xiàng)目類型偏好，以此產(chǎn)生推薦候選集；最后，基于修正后的用戶——項(xiàng)目評分，采用矩陣分解預(yù)測用戶對候選集中的項(xiàng)目進(jìn)行評分，將評分最高的N個(gè)項(xiàng)目推薦給用戶。

本文的主要貢獻(xiàn)有以下3 個(gè)方面：①在用戶項(xiàng)目類型偏好構(gòu)建和評分預(yù)測中引入項(xiàng)目評分標(biāo)準(zhǔn)差，作為衡量影響程度的質(zhì)量因子；②在用戶——項(xiàng)目類型興趣度計(jì)算中引入時(shí)間權(quán)重因子，以獲取用戶當(dāng)前的項(xiàng)目類型偏好；③在候選集生成過程中考慮了用戶當(dāng)前項(xiàng)目類型偏好，以此優(yōu)化候選集。

1 相關(guān)概念

1.1 相關(guān)定義

項(xiàng)目質(zhì)量：項(xiàng)目自身的質(zhì)量屬性。以電影為例，當(dāng)拍攝質(zhì)量較高時(shí)，通常會(huì)導(dǎo)致觀眾無論是否喜歡該類型的電影，都會(huì)評于高分。

時(shí)間因素：用戶的興趣并非一成不變，而是隨著時(shí)間呈動(dòng)態(tài)變化。

用戶對項(xiàng)目類型的偏好：以電影為例，電影具有多種類型。例如，喜劇、動(dòng)作片等，而用戶對各種類型的偏好不盡相同。

1.2 用戶興趣變化

傳統(tǒng)協(xié)同過濾算法假定用戶的興趣是固定的，不會(huì)隨著時(shí)間的推移而動(dòng)態(tài)變化，因此將用戶所有的歷史行為看作同等影響力，以此計(jì)算用戶偏好和尋找最近鄰，推薦與目標(biāo)用戶偏好相似的項(xiàng)目。然而，這種假定在現(xiàn)實(shí)生活中并不成立，人們的興趣往往不會(huì)一成不變，而是隨著時(shí)間的推移不斷發(fā)生變化。因此，必須在推薦過程中考慮用戶的興趣變化。

由于用戶興趣會(huì)隨著時(shí)間變化，所以用戶的評分行為越早，代表用戶偏好與用戶當(dāng)前偏好的一致性就越弱，在當(dāng)前的推薦過程中所占的權(quán)重也越小。因此，為不同時(shí)刻的評論分配不同的權(quán)重，能夠準(zhǔn)確反映用戶興趣的動(dòng)態(tài)變化，提升推薦質(zhì)量。目前有以下4 種產(chǎn)生時(shí)間權(quán)重的方法［22］：模擬遺忘曲線［23］、建立線性時(shí)間函數(shù)［24］、建立非線性時(shí)間函數(shù)［25］、時(shí)間窗技術(shù)［26］。

1.3 矩陣分解

矩陣分解可在一定程度上緩解傳統(tǒng)基于近鄰模型的數(shù)據(jù)稀疏性等問題，目前在推薦領(lǐng)域已有廣泛應(yīng)用。其基本思想［8］是將一個(gè)高維稀疏的原始用戶——項(xiàng)目評分矩陣R∈Rn×m分解為兩個(gè)低維潛在特征矩陣，即用戶潛在特征矩陣P∈Rn×f和項(xiàng)目潛在特征矩陣Q∈Rf×m，如式（1）所示：

其中，用戶u和項(xiàng)目i的特征向量分別由pu和qi表示，用戶u對項(xiàng)目i的評分如式（2）所示：

實(shí)際上，矩陣分解是通過最小化預(yù)測評分與實(shí)際評分的差異以尋找最優(yōu)pu和qi，目標(biāo)函數(shù)如式（3）所示：

2 融合項(xiàng)目質(zhì)量和時(shí)間的矩陣分解推薦算法

隨著時(shí)間變化，用戶對項(xiàng)目的興趣會(huì)生變化，越早的評分行為對用戶當(dāng)前興趣的反映程度越弱。同時(shí)，用戶對項(xiàng)目的評分在一定程度上也會(huì)受到項(xiàng)目自身質(zhì)量的影響，從而導(dǎo)致用戶興趣偏好的計(jì)算存在偏差，影響推薦效果?；诖?，本文在構(gòu)建用戶——項(xiàng)目類型興趣度矩陣和采用矩陣分解預(yù)測用戶評分時(shí)，引入項(xiàng)目評分標(biāo)準(zhǔn)差作為衡量項(xiàng)目質(zhì)量影響用戶評分的質(zhì)量因子，同時(shí)引入融合信息保持期的時(shí)間權(quán)重因子，修正用戶評分，提高用戶——項(xiàng)目類型興趣度計(jì)算未評分項(xiàng)的評分預(yù)測準(zhǔn)確度。然后，根據(jù)用戶當(dāng)前項(xiàng)目類型偏好優(yōu)化推薦候選集。最后，基于修正后的用戶——項(xiàng)目評分，采用矩陣分解預(yù)測用戶對候選集中項(xiàng)目的評分，并將top-N 項(xiàng)目推薦給用戶。本文算法主要由3部分組成：①構(gòu)建用戶——項(xiàng)目類型興趣度矩陣；②產(chǎn)生推薦候選集；③預(yù)測評分并生成推薦。算法的整體框架如圖1所示。

2.1 構(gòu)建用戶——項(xiàng)目類型興趣度矩陣

準(zhǔn)確獲悉用戶偏好是實(shí)現(xiàn)高質(zhì)量推薦的必要條件，而用戶偏好不僅與用戶歷史評分相關(guān)，與項(xiàng)目類型的聯(lián)系更為密切。例如，用戶1 更喜歡動(dòng)作片、喜劇，用戶2 更喜歡音樂劇、文藝片，因此在推薦過程中應(yīng)針對不同用戶的偏好，推薦符合的項(xiàng)目。考慮到項(xiàng)目的標(biāo)簽信息中包含項(xiàng)目的類型信息。因此，用戶對項(xiàng)目的點(diǎn)擊或評價(jià)行為可在一定程度上反映用戶對該類項(xiàng)目的偏好態(tài)度。此外，用戶對項(xiàng)目的實(shí)際評分可具體反映用戶的偏好程度。基于此，本文根據(jù)用戶——項(xiàng)目評分和項(xiàng)目類型信息計(jì)算用戶對項(xiàng)目類型的興趣度，構(gòu)建用戶——項(xiàng)目類型興趣度矩陣（UTI），獲得用戶當(dāng)前項(xiàng)目類型偏好，如式（4）所示：

其中，Inter(u)t表示用戶u對項(xiàng)目類型t的興趣度，Iu，t表示用戶u評價(jià)過的且項(xiàng)目類型為t的項(xiàng)目集合，ru，i表示用戶u對項(xiàng)目i的實(shí)際評分。如式（4）所示，興趣度Inter(u)t的大小由兩個(gè)因素決定：①項(xiàng)目類型出現(xiàn)的次數(shù)；②用戶對該項(xiàng)目類型的偏好程度。如果一個(gè)項(xiàng)目類型在用戶的歷史評價(jià)行為中出現(xiàn)頻率越高，越能說明用戶對該類型感興趣。同理，用戶對一個(gè)項(xiàng)目類型的評分越高，說明對該類型的興趣程度越高。

Fig.1 Algorithm framework圖1 算法框架

然而，由于用戶對項(xiàng)目類型的興趣會(huì)隨著時(shí)間推移而發(fā)生變化，故用戶對項(xiàng)目的歷史評分對用戶當(dāng)前興趣的反映程度在逐漸下降。此外，項(xiàng)目自身質(zhì)量也會(huì)對用戶興趣產(chǎn)生影響。例如，用戶1 喜歡動(dòng)作片，不喜歡文藝片，雖然影片1 為文藝片，但是由于該影片劇情扣人心弦、好評如潮，用戶1 為其評分5 分，然而該評分無法證明用戶1 對文藝片的興趣度為5。因此，需要對用戶評分進(jìn)行修正，消除項(xiàng)目質(zhì)量帶來的評分誤差。

2.1.1 修正用戶——項(xiàng)目評分

步驟1：引入質(zhì)量因子消除項(xiàng)目質(zhì)量對用戶評分產(chǎn)生的偏差。

文獻(xiàn)［16］將項(xiàng)目評分標(biāo)準(zhǔn)差作為衡量項(xiàng)目質(zhì)量影響用戶評分的質(zhì)量因子，如式（5）所示。

其中，WQ(i)表示項(xiàng)目i的質(zhì)量因子權(quán)重，Ni表示項(xiàng)目i的評分總個(gè)數(shù)，ri，m表示項(xiàng)目i的第m個(gè)評分,表示項(xiàng)目i的平均分。項(xiàng)目i的離散性越大，對用戶偏好的反映程度越高，質(zhì)量權(quán)重也就越大。

項(xiàng)目的評分越集中，標(biāo)準(zhǔn)差越小，說明項(xiàng)目質(zhì)量對用戶評分的影響越大，就越難反映用戶的興趣偏好；反之，項(xiàng)目評分越分散，說明項(xiàng)目質(zhì)量對用戶評分的影響越小，對用戶興趣偏好的反映程度越高。

本文采用公式（6）消除項(xiàng)目質(zhì)量帶來的用戶評分偏差。

其中，ru，i'表示修正后用戶u對項(xiàng)目i的評分，ru，i表示用戶u對項(xiàng)目i的原始評分，WQ(i)則是由公式（5）計(jì)算出的質(zhì)量權(quán)重。

最后，利用如式（7）所示的最小——最大標(biāo)準(zhǔn)化公式將加權(quán)修正后的評分映射到評分區(qū)間［1，5］，標(biāo)準(zhǔn)化后記為

其中，表示標(biāo)準(zhǔn)化后的評分，R表示標(biāo)準(zhǔn)化前的評分，Rmax和Rmin分別表示標(biāo)準(zhǔn)化前評分的最大值和最小值。

步驟2：引入時(shí)間因子模擬用戶興趣的動(dòng)態(tài)變化。

本文參考文獻(xiàn)［27］建立融合信息保持期的時(shí)間衰減函數(shù)，獲得不同時(shí)刻的時(shí)間權(quán)重，如式（8）所示。

其中，λ=表示衰減因子，T0表示信息半衰期，即信息經(jīng)過T0的時(shí)間，影響力減少一半；T'表示信息保持期，即信息在T'時(shí)間內(nèi)影響力保持不變；t=tnow-tu，i，tnow表示用戶u最晚評分時(shí)間，tu，i表示用戶u對項(xiàng)目i的評分時(shí)間。

步驟3：通過公式（9）對用戶評分進(jìn)行引入時(shí)間權(quán)重的加權(quán)處理。最后，將加權(quán)修正后的評分再次利用公式（7）進(jìn)行最小——最大標(biāo)準(zhǔn)化，標(biāo)準(zhǔn)化后記為，即為既消除了項(xiàng)目質(zhì)量的影響，又能夠體現(xiàn)用戶興趣變化的用戶評分。

2.1.2 構(gòu)建用戶——項(xiàng)目類型興趣度矩陣

步驟1：根據(jù)基于項(xiàng)目質(zhì)量和時(shí)間因素修正的用戶評分建立用戶——項(xiàng)目評分矩陣R，如式（10）所示。

假設(shè)現(xiàn)有一組用戶u1、u2、u3、u4對項(xiàng)目i1、i2、i3的評分，引入質(zhì)量因子和時(shí)間因子加權(quán)修正后的矩陣R如表1所示。

步驟2：根據(jù)項(xiàng)目所具有的類型信息構(gòu)建項(xiàng)目類型矩陣T，當(dāng)項(xiàng)目i具備類型t時(shí)，對應(yīng)t項(xiàng)的值記為1，否則為0，如式（11）所示。

Table 1 User-item rating matrix（R）表1 用戶——項(xiàng)目評分矩陣（R）

假設(shè)根據(jù)上述項(xiàng)目i1、i2、i3的類型信息構(gòu)建的項(xiàng)目類型矩陣T如表2所示。

Table 2 Item type matrix（T）表2 項(xiàng)目類型矩陣（T）

步驟3：根據(jù)矩陣R和T構(gòu)建用戶——項(xiàng)目類型興趣度矩陣UTI，具體步驟如下：

Step1：根據(jù)用戶——項(xiàng)目評分矩陣R獲取用戶評價(jià)過的項(xiàng)目及評分。例如，u1評價(jià)過項(xiàng)目i1，i2和i3，評分分別為3、5、2。

Step2：根據(jù)項(xiàng)目類型矩陣T獲取每個(gè)項(xiàng)目的類型信息。例如，項(xiàng)目i1擁有t1和t3兩種類型。

Step3：根據(jù)公式（4）計(jì)算用戶——項(xiàng)目類型興趣度。例如，u1對t1的興趣度為Inter1，1=1 × 3=3；u1對t2的興趣度為Inter1，2=1 × 5+1 × 2=7；u1對t3的興趣度為Inter1，3=1×3+1×5=8；u1對t4的興趣度為Inter1，4=1 × 2=2。

Step4：將Step3 計(jì)算得到的用戶——項(xiàng)目類型興趣度，利用公式（7）進(jìn)行標(biāo)準(zhǔn)化，映射到評分區(qū)間。以u1為例，對各類型的興趣度標(biāo)準(zhǔn)化后分別為：

最后，得到的用戶——項(xiàng)目類型興趣度矩陣UTI如表3所示。

Table 3 User-item type interest matrix（UTI）表3 用戶——項(xiàng)目類型興趣度矩陣（UTI）

由表3 可見，用戶u1對t2和t3的興趣度很大，而對t1和t4的興趣度較小，說明用戶u1更加偏好具有t2和t3類型的項(xiàng)目。

2.2 引入項(xiàng)目類型偏好優(yōu)化候選集

考慮到用戶對不同項(xiàng)目類型具有不同的興趣度，為其推薦感興趣類型的項(xiàng)目可在一定程度上提高推薦的準(zhǔn)確率，滿足用戶的個(gè)性化需求。因此，本文引入用戶對項(xiàng)目的類型偏好改進(jìn)項(xiàng)目候選集的選擇。具體步驟如下：

步驟1：設(shè)置類型偏好閾值，獲取用戶當(dāng)前項(xiàng)目類型偏好。將參數(shù)θ作為判斷用戶對項(xiàng)目類型偏好程度的閾值，當(dāng)興趣度≥θ時(shí)，說明用戶當(dāng)前對該項(xiàng)目類型感興趣，反之則說明不感興趣。以閾值作為劃分條件，以便于根據(jù)UTI矩陣獲取每個(gè)用戶當(dāng)前的項(xiàng)目類型偏好。

步驟2：生成符合用戶偏好的候選集。根據(jù)步驟1 步得到的用戶當(dāng)前項(xiàng)目類型偏好，將具有該類屬性的未評分項(xiàng)目組成推薦候選集。

2.3 矩陣分解預(yù)測評分

由于用戶對項(xiàng)目的原始評分無法體現(xiàn)用戶的興趣變化，同時(shí)還受到項(xiàng)目質(zhì)量的影響而產(chǎn)生評分偏差。因此，本文引入質(zhì)量和時(shí)間因子修正后的用戶評分進(jìn)行矩陣分解，通過尋找用戶、項(xiàng)目的潛在特征向量實(shí)現(xiàn)對候選集中項(xiàng)目的評分預(yù)測，并向用戶推薦top-N 項(xiàng)目。

2.4 算法描述

融合時(shí)間因素、項(xiàng)目質(zhì)量和項(xiàng)目類型信息的矩陣分解協(xié)同過濾算法的具體流程如算法1所示。

算法1：融合項(xiàng)目質(zhì)量和時(shí)間因素的矩陣分解協(xié)同過濾算法。

輸入：帶有時(shí)間戳的用戶評分信息（u.data），項(xiàng)目類型信息（u.item），目標(biāo)用戶u，半衰期T0，信息保持期T'，類型偏好閾值θ，矩陣分解潛在特征數(shù)k，推薦列表長度N。

輸出：針對目標(biāo)用戶u生成的top-N 推薦列表。

步驟1：引入質(zhì)量和時(shí)間因子修正用戶評分。根據(jù)公式（9）計(jì)算基于質(zhì)量和時(shí)間加權(quán)后的用戶評分，并利用公式（7）標(biāo)準(zhǔn)化到評分區(qū)間，得到修正的用戶——項(xiàng)目評分

步驟2：構(gòu)建用戶——項(xiàng)目類型興趣度矩陣UTI。分別根據(jù)公式（10）、公式（11）構(gòu)建用戶——項(xiàng)目評分矩陣R和項(xiàng)目類型矩陣T，再根據(jù)公式（4）計(jì)算用戶對項(xiàng)目類型的興趣度，并標(biāo)準(zhǔn)化到評分區(qū)間，構(gòu)建UTI矩陣。

步驟3：根據(jù)步驟2 得到的UTI矩陣，結(jié)合類型偏好閾值θ，獲取用戶u當(dāng)前的項(xiàng)目類型偏好。

步驟4：根據(jù)步驟3 中獲得的用戶項(xiàng)目類型偏好，將具有該類型屬性的未評分項(xiàng)作為推薦候選集。

步驟5：矩陣分解。將步驟2 中構(gòu)建的矩陣R分解為代表用戶潛在偏好特征的矩陣P和代表項(xiàng)目潛在偏好特征的矩陣Q。

步驟6：預(yù)測評分。根據(jù)公式（2），預(yù)測用戶u對項(xiàng)目i的評分。

步驟7：產(chǎn)生top-N 推薦列表。對于推薦候選集中的所有項(xiàng)目，重復(fù)步驟6，計(jì)算用戶u對所有候選集中項(xiàng)目的預(yù)測評分并排序，并將預(yù)測評分最高的top-N 作為推薦列表。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)設(shè)置

MovieLens 數(shù)據(jù)集是經(jīng)典電影評分?jǐn)?shù)據(jù)集，本文使用其中的MovieLens-100K 數(shù)據(jù)集和MovieLens-1M 數(shù)據(jù)集分。

由圖2、圖3 可見，QTW-MFCF 算法的準(zhǔn)確率和召回率別進(jìn)行實(shí)驗(yàn)，將其記為M1和M2，對數(shù)據(jù)集的詳細(xì)描述如表4所示。

Table 4 Description of data sets表4 數(shù)據(jù)集描述

數(shù)據(jù)集一共包含19 種電影類型，本文實(shí)驗(yàn)中使用除unknown 類型外的18 種類型，并將用戶近期20%的評分?jǐn)?shù)據(jù)作為測試集，剩下的80%則作為訓(xùn)練集以挖掘用戶偏好。

為了檢驗(yàn)QTW-MFCF 算法的性能，本文將其與傳統(tǒng)基于物品的協(xié)同過濾算法（IBCF）、結(jié)合評分比例因子和商品屬性的協(xié)同過濾算法（RFIA-CF）［12］、基于用戶評分偏好模型、融合時(shí)間因素和物品屬性的協(xié)同過濾算法（PTPItem-CF）［14］、融合用戶偏好和物品相似度的概率矩陣分解推薦算法（UPIS-PMF）［19］、融合時(shí)間的矩陣分解協(xié)同過濾算法（MFTWCF）［28］及融合項(xiàng)目質(zhì)量的矩陣分解協(xié)同過濾算法（QW-MFCF）進(jìn)行分析比較實(shí)驗(yàn)。

3.2 實(shí)驗(yàn)指標(biāo)

目前有多個(gè)指標(biāo)可用來評價(jià)推薦算法的性能，而對于top-N 推薦則一般采用準(zhǔn)確率（precision）、召回率（recall）及F1值度量，計(jì)算公式如式（12）-式（14）所示。

其中，U表示所有用戶集合，R(u)表示用戶u推薦的top-N 項(xiàng)目列表，T(u)表示測試集中用戶u的實(shí)際評價(jià)項(xiàng)目列表。

3.3 結(jié)果分析

QTW-MFCF 算法中一共涉及了4 個(gè)參數(shù)，即矩陣分解的潛在特征個(gè)數(shù)k，用戶對項(xiàng)目類型偏好的閾值θ，信息半衰期T0及信息保持期T'，下面分別設(shè)置實(shí)驗(yàn)確定4 個(gè)參數(shù)，并在不同推薦列表長度下與IBCF 算法、RFIA-CF 算法、PTP-Item-CF 算法、UPIS-PMF 算法、MFTWCF 算法和QW-MFCF 算法進(jìn)行性能比較。

3.3.1 潛在特征個(gè)數(shù)k對實(shí)驗(yàn)結(jié)果的影響

Fig.2 Influence of k on results in M1 dataset圖2 M1數(shù)據(jù)集中潛在特征個(gè)數(shù)k對結(jié)果的影響

Fig.3 Influence of k on results in M2 dataset圖3 M2數(shù)據(jù)集中潛在特征個(gè)數(shù)k對結(jié)果的影響

實(shí)驗(yàn)設(shè)置推薦列表長度N=10，類型偏好閾值θ=3，信息半衰期T0=30，信息保持期T'=3，通過比較不同k值的準(zhǔn)確率和召回率確定最優(yōu)潛在特征個(gè)數(shù)k。首先，實(shí)驗(yàn)以間隔為5 確定最優(yōu)k值范圍；然后，以間隔為1 確定最優(yōu)k值。圖2、圖3 分別給出了潛在特征個(gè)數(shù)k在M1和M2數(shù)據(jù)集上的結(jié)果。隨k的逐漸增大呈現(xiàn)先增大后減小的趨勢。在M1數(shù)據(jù)集上，當(dāng)k值的取值范圍為［15，20］時(shí)，k=19 時(shí)效果最好，準(zhǔn)確率和召回率分別比k=10 時(shí)提高了6.78%和7.62%；在M2數(shù)據(jù)集上，當(dāng)k值的取值范圍為［25，30］時(shí)，k=28 時(shí)效果最好，準(zhǔn)確率和召回率分別比k=10 時(shí)提高了11.6% 和21.76%。實(shí)驗(yàn)結(jié)果證實(shí)，潛在特征個(gè)數(shù)k的選取對矩陣分解效果的優(yōu)劣至關(guān)重要，還可看出M1數(shù)據(jù)集的最優(yōu)k值相較M2數(shù)據(jù)集更接近其所包含的電影類型種類，這可能是由于M2數(shù)據(jù)集內(nèi)包含的項(xiàng)目數(shù)量更多，且每個(gè)項(xiàng)目類型屬性不唯一，使項(xiàng)目間存在更多的類型組合差別。

3.3.2 類型偏好閾值θ對實(shí)驗(yàn)結(jié)果的影響

本文設(shè)置推薦列表長度N=10，信息半衰期T0=30，信息保持期T'=3，M1和M2數(shù)據(jù)集的潛在特征數(shù)k分別為19和28，比較類型偏好閾值θ分別取1、2、3、4 時(shí)的準(zhǔn)確率和召回率。

Fig.4 Influence of θ on results in M1 dataset圖4 M1數(shù)據(jù)集中類型偏好閾值θ對結(jié)果的影響

由圖4、圖5 可見，在M1和M2數(shù)據(jù)集上都是θ=2 時(shí)效果最好。M1的準(zhǔn)確率和召回率相較于θ=1 時(shí)分別提高了0.778%和0.428%，而M2的準(zhǔn)確率和召回率則相較于θ=1時(shí)分別提高了1.338%和0.763%。該結(jié)果說明根據(jù)用戶的項(xiàng)目類型偏好對候選集進(jìn)行優(yōu)化，可進(jìn)一步提高推薦效果。此外，當(dāng)閾值θ>2 后，M1和M2數(shù)據(jù)集的準(zhǔn)確率和召回率都存在明顯的下降趨勢，這主要是因?yàn)殡S著閾值θ的不斷增大，推薦列表中項(xiàng)目的多樣性不斷減小，以致于無法滿足用戶的個(gè)性化需求，造成推薦效果不佳。

Fig.5 Influence of θ on results in M2 dataset圖5 M2數(shù)據(jù)集中類型偏好閾值θ對結(jié)果的影響

3.3.3 信息半衰期T0對實(shí)驗(yàn)結(jié)果的影響

本文設(shè)置推薦列表長度N=10，類型偏好閾值θ=3，信息保持期T'=1，M1和M2數(shù)據(jù)集的潛在特征數(shù)k分別為19和28，信息半衰期T0取值范圍為10～60，間隔為5。

Fig.6 Influence of T0 on results in M1 dataset圖6 M1數(shù)據(jù)集中信息半衰期T0對結(jié)果的影響

Fig.7 Influence of T0 on results in M2 dataset圖7 M2數(shù)據(jù)集中信息半衰期T0對結(jié)果的影響

由圖6、圖7 可見，在M1數(shù)據(jù)集上T0=40 時(shí)，即時(shí)間經(jīng)過40 天，用戶評分的影響力衰減為原來的一半時(shí)，效果最好；而在M2數(shù)據(jù)集上，當(dāng)T0=15 時(shí)推薦效果最好，說明M2中的用戶興趣遷移現(xiàn)象相較M1更頻繁，而實(shí)際上M2所包含的項(xiàng)目數(shù)量大約為M1的2.5 倍，用戶擁有的選擇性更大，因此興趣遷移更容易發(fā)生。

3.3.4 信息保持期T'對實(shí)驗(yàn)結(jié)果的影響

本文設(shè)置推薦列表長度N=10，類型偏好閾值θ=3，信息半衰期T0=30，M1和M2數(shù)據(jù)集的潛在特征數(shù)k分別為19和28，比較不同信息保持期T'下的準(zhǔn)確率和召回率。由圖8、圖9 可見，盡管在M1和M2數(shù)據(jù)集上，算法的準(zhǔn)確率和召回率隨T'增大呈現(xiàn)出不同的變化趨勢，但都當(dāng)T'=3 時(shí)結(jié)果最優(yōu)，說明用戶興趣在3 天內(nèi)保持不變，與實(shí)際相符合，具有一定合理性。

Fig.8 Influence of T'on results in M1 dataset圖8 M1數(shù)據(jù)集中信息保持期T'對結(jié)果的影響

Fig.9 Influence of T'on results in M2 dataset圖9 M2數(shù)據(jù)集中信息保持期T'對結(jié)果的影響

（5）算法性能對比

實(shí)驗(yàn)通過設(shè)置不同推薦列表長度N來比較各算法的準(zhǔn)確率和召回率，以此檢測算法性能。N的取值范圍為［5，30］，間隔為5。

由圖10、圖11 可見，隨著N不斷增大，在兩個(gè)數(shù)據(jù)集上各算法的準(zhǔn)確率均有不同程度的下降，而召回率則相反。其中，本文提出的QTW-MFCF 算法的準(zhǔn)確率和召回率在不同推薦長度N都最高。表5 給出了在top-10 推薦下，不同數(shù)據(jù)集上各算法的準(zhǔn)確率、召回率及QTW-MFCF算法相對各對比算法的提升率。

Fig.10 Performance contrast of each algorithm with different recom?mend lengths N on M1 dataset圖10 M1數(shù)據(jù)集不同推薦列表長度N下各算法的性能比較

從圖10、圖11及表5可見，在M1和M2數(shù)據(jù)集上，QTW-MFCF 算法推薦效果最好。經(jīng)過實(shí)驗(yàn)證明在推薦過程中利用類型偏好優(yōu)化候選集可獲得更好的推薦準(zhǔn)確度。

Fig.11 Performance contrast of each algorithm with different recom?mend lengths N on M2 dataset圖11 M2數(shù)據(jù)集不同推薦列表長度N下各算法的性能比較

Table 5 Comparison of precision and recall of each algorithm on dif?ferent data sets表5 不同數(shù)據(jù)集上各算法的準(zhǔn)確率和召回率比較

續(xù)表

4 結(jié)語

本文提出的QTW-MFCF 算法，通過消除項(xiàng)目質(zhì)量影響和融合時(shí)間因素構(gòu)建用戶——項(xiàng)目類型偏好，基于此對推薦候選集進(jìn)行優(yōu)化。實(shí)驗(yàn)證明，該算法推薦的準(zhǔn)確率和召回率均有所提高，證明了在挖掘用戶偏好時(shí)應(yīng)考慮用戶興趣變化和項(xiàng)目質(zhì)量對用戶行為的影響，但該算法在提高推薦準(zhǔn)確率的同時(shí)，會(huì)損失部分推薦多樣性。因此，下一步將考慮在保持現(xiàn)有推薦準(zhǔn)確率的同時(shí)提高推薦多樣性。例如，在考慮項(xiàng)目類型偏好的同時(shí)，增加人與人之間的信任關(guān)系［29］對用戶行為的影響，并以此擴(kuò)展推薦候選集，提高推薦質(zhì)量。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放