亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于標(biāo)簽挖掘的個(gè)性化推薦算法

2024-03-21 02:00:28時(shí)光洋于萬(wàn)鈞

計(jì)算機(jī)工程與設(shè)計(jì) 2024年3期

關(guān)鍵詞：用戶模型

時(shí)光洋，于萬(wàn)鈞，陳穎

(上海應(yīng)用技術(shù)大學(xué) 計(jì)算科學(xué)與信息工程學(xué)院，上海 201418)

0 引言

推薦算法的價(jià)值在于幫助用戶解決信息過(guò)載問(wèn)題，做出更好選擇?，F(xiàn)有的推薦算法一部分主要有，深度矩陣分解算法[1]、強(qiáng)化學(xué)習(xí)推薦算法[2]、用戶記憶網(wǎng)絡(luò)順序推薦[3]。它們的特點(diǎn)是加強(qiáng)了對(duì)隱含特征的學(xué)習(xí)，通過(guò)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練來(lái)提升推薦效果，但對(duì)于存在的顯式特征沒(méi)有充分挖掘出價(jià)值。例如，用戶使用的標(biāo)簽信息和用戶評(píng)分[4]。對(duì)此，有部分研究人員是關(guān)注標(biāo)簽信息的挖掘，Lin等[5]利用層次結(jié)構(gòu)分析標(biāo)簽之間的關(guān)聯(lián)特征，但沒(méi)有考慮到用戶自身對(duì)于不同標(biāo)簽的喜好程度大小。Zhu等[6]對(duì)標(biāo)簽推薦列表長(zhǎng)度進(jìn)行了優(yōu)化，考慮了列表中標(biāo)簽的相關(guān)性，卻忽略了不同標(biāo)簽所占的權(quán)重。Dai等[7]從評(píng)論中提取出特征及其情感程度，構(gòu)建用戶商品的特征權(quán)重，在計(jì)算方式中沒(méi)有考慮到用戶使用標(biāo)簽的顯式作用對(duì)于用戶商品特征權(quán)重的影響。

為解決上述問(wèn)題，本文從用戶對(duì)標(biāo)簽興趣和用戶對(duì)標(biāo)簽的評(píng)分信息兩個(gè)方面展開(kāi)研究，提升對(duì)用戶興趣挖掘的準(zhǔn)確性。主要工作在以下幾個(gè)方面：

(1)對(duì)用戶所使用的標(biāo)簽進(jìn)行操作，通過(guò)自定義函數(shù)確定用戶對(duì)標(biāo)簽偏好值：分別計(jì)算用戶對(duì)標(biāo)簽喜好值和用戶對(duì)標(biāo)簽依賴度，將兩者進(jìn)行乘積運(yùn)算得到用戶標(biāo)簽偏好值。

(2)將用戶對(duì)物品評(píng)分遷移為用戶對(duì)所使用的標(biāo)簽評(píng)分，以此來(lái)計(jì)算標(biāo)簽在同一用戶所使用的所有標(biāo)簽中所占權(quán)重。當(dāng)其它用戶使用相同標(biāo)簽時(shí)，則用戶間相似度高。

(3)將標(biāo)簽偏好值與標(biāo)簽權(quán)重進(jìn)行線性組合，從而計(jì)算出用戶最終的標(biāo)簽興趣度。引入矩陣分解算法，對(duì)評(píng)分進(jìn)行預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果表明，相比于其它評(píng)分預(yù)測(cè)算法，本文算法模型預(yù)測(cè)精準(zhǔn)度有所提高，取得較好效果。

1 相關(guān)工作

1.1 計(jì)算標(biāo)簽相似度方法

Jaccard標(biāo)簽相似度、皮爾遜系數(shù)標(biāo)簽相似度和TF-IDF標(biāo)簽相似度是主要計(jì)算標(biāo)簽相似度的推薦方法?；贘accard標(biāo)簽相似度主要是利用集合操作來(lái)處理標(biāo)簽，不同標(biāo)簽所占權(quán)重缺乏考慮，導(dǎo)致推薦精度較低。皮爾遜相關(guān)系數(shù)計(jì)算標(biāo)簽相似度是將用戶所打標(biāo)簽看作變量，計(jì)算它們之間的皮爾遜相關(guān)系數(shù)，但皮爾遜相關(guān)系數(shù)假設(shè)數(shù)據(jù)是正態(tài)分布的，如果數(shù)據(jù)未能滿足這個(gè)假設(shè)，計(jì)算結(jié)果可能會(huì)失效。TF-IDF標(biāo)簽相似度計(jì)算根據(jù)標(biāo)簽使用次數(shù)，忽略了評(píng)分信息因素。

1.1.1 Jaccard標(biāo)簽相似度

Jaccard相似系數(shù)定義請(qǐng)參見(jiàn)文獻(xiàn)[8]，計(jì)算公式如下[8]

(1)

1.1.2 皮爾遜相關(guān)系數(shù)標(biāo)簽相似度計(jì)算方法

皮爾遜相關(guān)系數(shù)是用于度量?jī)蓚€(gè)變量X和Y之間的相關(guān)性，其值介于-1與1之間。相關(guān)系數(shù)的絕對(duì)值越大，相關(guān)性越強(qiáng)，反之相反。皮爾遜相關(guān)系數(shù)計(jì)算公式如下[9]

(2)

1.1.3 TF-IDF標(biāo)簽相似度計(jì)算方法

令標(biāo)簽集合T={t1，t2，…，td}，d為標(biāo)簽數(shù)量。wi表示給物品i打上標(biāo)簽ti的用戶數(shù)量。每個(gè)標(biāo)簽ti對(duì)應(yīng)權(quán)重為wi，全部標(biāo)簽對(duì)應(yīng)的權(quán)重集合為W={w1，w2，…，wd}。對(duì)標(biāo)簽集T進(jìn)行統(tǒng)計(jì)，得出所有標(biāo)簽被用戶使用次數(shù)的集合D，D={d1，d2，…，dd}，其中dj表示標(biāo)簽ti被用戶使用次數(shù)。TF-IDF計(jì)算步驟分為以下幾步[10]：

步驟1 計(jì)算標(biāo)簽詞頻(TF)，即每個(gè)標(biāo)簽i在每個(gè)物品使用次數(shù)。計(jì)算公式如下所示

(3)

步驟2 為計(jì)算標(biāo)簽的逆文檔頻率(IDF)，用以表示標(biāo)簽的常見(jiàn)度，利用以下公式進(jìn)行計(jì)算

(4)

步驟3 合成IF-IDF公式，計(jì)算公式如下

TF-IDF=TFi*IDFi

(5)

1.2 矩陣分解模型

1.2.1 隱語(yǔ)義模型

隱語(yǔ)義模型(latent factor model，LFM)是推薦系統(tǒng)領(lǐng)域一個(gè)熱門(mén)研究問(wèn)題，核心思想是通過(guò)隱含特征關(guān)聯(lián)用戶興趣和物品，通過(guò)矩陣分解對(duì)用戶-物品評(píng)分矩陣R進(jìn)行分解，分解成用戶-特征矩陣P和物品-特征矩陣Q[11]。其結(jié)構(gòu)如圖1所示。

圖1 矩陣分解模型

其中，K表示特征個(gè)數(shù)。

令pj和qk分別代表用戶潛在特征向量和物品潛在特征向量，評(píng)分預(yù)測(cè)計(jì)算公式如下

(6)

(7)

式中：μ表示用戶評(píng)分均值，bj表示用戶偏置項(xiàng)，bk表示物品偏置項(xiàng)。

1.2.2 隱式反饋SVD++模型

LFM和帶有偏置項(xiàng)隱語(yǔ)義模型(BiasSVD)都過(guò)度依賴用戶-物品評(píng)分矩陣，BiasSVD模型中雖然加入評(píng)分平均分μ、用戶偏置項(xiàng)bj和物品偏置項(xiàng)bk，卻沒(méi)有考慮顯示用戶歷史行為對(duì)用戶評(píng)分預(yù)測(cè)的影響。在SVD++模型中，考慮了用戶對(duì)其所有有過(guò)評(píng)分行為的物品的隱式反饋[12]。所以隱式反饋SVD++模型的預(yù)測(cè)表達(dá)式為

(8)

式中：Nk表示物品ik受到用戶的評(píng)分集合，xv表示用戶uv的特征向量。

根據(jù)上文描述，本文主要是在現(xiàn)有理論TF-IDF算法和SVD++模型基礎(chǔ)上，將用戶對(duì)標(biāo)簽的依賴度和用戶標(biāo)簽興趣相似度的概念結(jié)合起來(lái)，并將其引入到SVD++模型中。這樣做可以提升模型的推薦效果。具體而言，利用TF-IDF算法計(jì)算每一個(gè)用戶對(duì)標(biāo)簽的依賴度，即某個(gè)用戶對(duì)某個(gè)標(biāo)簽感興趣的程度。通過(guò)這種方式，可以更加準(zhǔn)確地描述用戶的興趣特點(diǎn)，從而提高推薦系統(tǒng)的推薦質(zhì)量。另一方面，在傳統(tǒng)的SVD++模型中，主要考慮了用戶對(duì)物品的評(píng)分?jǐn)?shù)據(jù)，并未考慮用戶興趣的細(xì)節(jié)。為了更準(zhǔn)確地描述用戶的興趣特點(diǎn)，本文引入了用戶標(biāo)簽興趣相似度的概念，通過(guò)標(biāo)簽來(lái)反映用戶之間的相似度。通過(guò)這種方式，將用戶對(duì)于標(biāo)簽興趣引入到SVD++模型中，從而更好地體現(xiàn)用戶的個(gè)性化需求和偏好。綜上所述，本文通過(guò)引入TF-IDF算法計(jì)算用戶對(duì)標(biāo)簽的依賴度以及用戶標(biāo)簽興趣相似度的概念，對(duì)傳統(tǒng)的SVD++模型進(jìn)行了改進(jìn)，以提高推薦系統(tǒng)的性能和準(zhǔn)確性。

2 用戶標(biāo)簽興趣度和標(biāo)簽權(quán)重

2.1 建立用戶-資源評(píng)分矩陣

令用戶集合為U={u1，u2，…，um}，物品集合為V={v1，v2，…，vn}，且|U|=m，|V|=n。建立用戶-物品評(píng)分矩陣為R，R=[rij]m×n是一個(gè)m×n的用戶-物品評(píng)分矩陣，rij表示用戶ui對(duì)物品vj的評(píng)分，其中i=1，2，…，m，j=1，2，…，n。對(duì)于物品的評(píng)分完全是根據(jù)用戶是否愿意給物品打分或用戶是否與物品發(fā)生過(guò)交互，用戶沒(méi)有與物品產(chǎn)生過(guò)交互或者用戶不愿給物品打分，那么用戶u對(duì)于物品v的評(píng)分不存在，則rij=0。在實(shí)際推薦中，用戶與物品發(fā)生交互的次數(shù)遠(yuǎn)少于物品本身數(shù)量，并且存在發(fā)生交互沒(méi)有打分情況。在兩種因素下，用戶-物品評(píng)分矩陣R通常是一個(gè)稀疏的矩陣。矩陣R如下

(9)

令標(biāo)簽集合為T(mén)={t1，t2，…，td}，且|T|=d。將用戶對(duì)物品的評(píng)分看作為用戶對(duì)物品及其相關(guān)標(biāo)簽的評(píng)分，并構(gòu)建用戶-標(biāo)簽評(píng)分矩陣P，puitj代表用戶ui對(duì)于標(biāo)簽tj的評(píng)分，其中m=1，2，…，m，t=1，2，…，d。矩陣P如下

(10)

根據(jù)用戶-標(biāo)簽評(píng)分矩陣P，構(gòu)建用戶-標(biāo)簽交互矩陣Z=[zut]m×d，zuitj代表用戶ui是否與標(biāo)簽tj發(fā)生交互，當(dāng)put≠0時(shí)，zut=1即用戶u與標(biāo)簽t發(fā)生交互，反之zut=0則未發(fā)生交互。zut計(jì)算公式為

(11)

2.2 用戶對(duì)標(biāo)簽偏好值

標(biāo)簽是用戶描述、整理、分享網(wǎng)絡(luò)內(nèi)容的一種新的形式，也是反映用戶自身的興趣和態(tài)度。用戶對(duì)于標(biāo)簽的喜好可以使用二元關(guān)系表示，如“喜歡”或“不喜歡”；也可以使用“連續(xù)數(shù)值”表示喜好程度。二元方法表示雖然簡(jiǎn)單明了，但是描述精度不夠，對(duì)標(biāo)簽進(jìn)行喜好程度大小排序時(shí)，無(wú)法區(qū)分標(biāo)簽之間的差異。所以，這里采用“連續(xù)數(shù)值”來(lái)表達(dá)用戶對(duì)于標(biāo)簽的偏好值。

計(jì)算用戶對(duì)標(biāo)簽喜好值，相同標(biāo)簽用戶可能會(huì)用來(lái)標(biāo)記不同物品，不同的標(biāo)簽也會(huì)標(biāo)記相同的物品。因此，用戶對(duì)標(biāo)簽的喜好值計(jì)算公式如下，其中u∈U，t∈T

(12)

假設(shè)用戶評(píng)分次數(shù)較少，通過(guò)上面計(jì)算方法可能使得計(jì)算結(jié)果存在較大誤差，利用TF-IDF算法計(jì)算用戶對(duì)標(biāo)簽的依賴程度。首先，計(jì)算TF-IDF算法中TF部分，即標(biāo)簽使用頻率，計(jì)算公式如下

(13)

目前，社交標(biāo)簽的使用已經(jīng)成為一種普遍現(xiàn)象，導(dǎo)致互聯(lián)網(wǎng)中存在“馬太效應(yīng)[13]”，即隨著熱門(mén)標(biāo)簽的展示次數(shù)增多，它們變得越來(lái)越受歡迎，冷門(mén)標(biāo)簽隨著使用次數(shù)較少變得越來(lái)越冷門(mén)。事實(shí)上，冷門(mén)標(biāo)簽的使用能夠更好體現(xiàn)出用戶的個(gè)性和特點(diǎn)，為了消除馬太效應(yīng)的影響，更加準(zhǔn)確的挖掘用戶偏好，本文利用TF-IDF算法中IDF部分，對(duì)熱門(mén)標(biāo)簽進(jìn)行數(shù)值懲罰。公式如下

(14)

綜合上述，用戶對(duì)標(biāo)簽依賴度數(shù)值計(jì)算公式為

TF-IDF(u，t)=TF(u，t)×IDF(u，t)

(15)

綜合考慮，用戶對(duì)于標(biāo)簽的主觀喜好值和利用TF-IDF算法計(jì)算用戶對(duì)于標(biāo)簽的依賴度數(shù)值，可以得到用戶對(duì)于標(biāo)簽的偏好值為

Pre(u，t)=Deg(u，t)×TF-IDF(u，t)

(16)

2.3 標(biāo)簽權(quán)重值

在用戶對(duì)物品進(jìn)行評(píng)分時(shí)，通常情況下會(huì)同時(shí)給物品打上自己喜歡的標(biāo)簽，這些標(biāo)簽代表了用戶對(duì)物品的主觀評(píng)價(jià)[14]。例如，當(dāng)用戶觀看了一部動(dòng)漫電影并且非常喜歡，為了表達(dá)他們的喜愛(ài)，用戶可能給這部電影評(píng)分為5分，并添加“cartoon”這個(gè)標(biāo)簽。這個(gè)標(biāo)簽在用戶打過(guò)的所有標(biāo)簽中的權(quán)重會(huì)更大，如果其它用戶也使用了這個(gè)標(biāo)簽來(lái)標(biāo)記自己看過(guò)的物品，那么可以認(rèn)為這些用戶之間的相似度較高。

通過(guò)利用物品評(píng)分來(lái)計(jì)算標(biāo)簽權(quán)重，計(jì)算公式如下

(17)

2.4 用戶標(biāo)簽興趣度

用戶對(duì)標(biāo)簽的興趣度表示了用戶對(duì)該標(biāo)簽的興趣程度的大小，若用戶對(duì)于某個(gè)標(biāo)簽的興趣度較大，則類似標(biāo)簽或該標(biāo)簽標(biāo)注的其它物品可以向用戶推薦。計(jì)算用戶對(duì)標(biāo)簽的興趣程度，定義函數(shù)Int(u，t)，其中u∈U，t∈T。綜合考慮用戶對(duì)標(biāo)簽偏好值和標(biāo)簽權(quán)重對(duì)用戶標(biāo)簽興趣度的影響，將標(biāo)簽偏好值Pre(u，t) 和標(biāo)簽權(quán)重Wu，v(t) 進(jìn)行線性組合，函數(shù)Int(u，t) 計(jì)算公式為

Int(u，t)=α×Pre(u，t)+β×Wu，v(t)

(18)

式中：α和β分別表示用戶對(duì)標(biāo)簽偏好值和標(biāo)簽權(quán)重的權(quán)重，α和β的具體取值在實(shí)驗(yàn)結(jié)果中得出。

3 基于標(biāo)簽挖掘的個(gè)性化推薦算法

3.1 用戶標(biāo)簽興趣相似度

用戶標(biāo)簽興趣相似度被用來(lái)衡量用戶之間的興趣相似性的大小，如果兩個(gè)用戶之間的標(biāo)簽興趣相似度越大，那么表示他們的興趣更為相似，反之則相反。定義函數(shù)Sim(uj，uv)，其中uj∈U，uv∈U。計(jì)算公式如下

(19)

式中：Int(uj，tl) 和Int(uv，tl) 分別代表用戶uj和用戶uv對(duì)標(biāo)簽tl的興趣度，Tj，v表示用戶uj和用戶uv共同使用過(guò)標(biāo)簽的集合。

3.2 改進(jìn)的SVD++模型

SVD++模型是在BiasSVD模型基礎(chǔ)之上，根據(jù)實(shí)際推薦中用戶評(píng)分行為較少來(lái)進(jìn)行改進(jìn)的，進(jìn)一步引入隱式反饋信息。在隱式反饋中，假設(shè)存在一個(gè)與每個(gè)用戶進(jìn)行過(guò)隱式交互的物品集合相對(duì)應(yīng)的k維隱向量。通過(guò)將與用戶有過(guò)隱式交互的物品的隱向量相加，可以從一個(gè)新的維度來(lái)表示用戶的興趣愛(ài)好。這種改進(jìn)方法能夠提升一定的模型性能，但是還存在著不足。首先，沒(méi)有考慮社會(huì)化標(biāo)簽的使用網(wǎng)站中存在“馬太效應(yīng)”。其次，用戶對(duì)物品打分后，使用的標(biāo)簽在一定程度上反映出了用戶對(duì)于該標(biāo)簽的喜好程度，物品評(píng)分能夠類似于標(biāo)簽所占權(quán)重。對(duì)此，標(biāo)簽評(píng)分權(quán)重往往被忽視。

為解決以上問(wèn)題，在SVD++算法模型的基礎(chǔ)上將用戶標(biāo)簽興趣相似度引入其中，對(duì)SVD++算法模型進(jìn)行改進(jìn)。通過(guò)利用用戶標(biāo)簽興趣相似度，可以計(jì)算用戶之間的相似度。這種改進(jìn)方法具有以下優(yōu)勢(shì)：首先，在計(jì)算用戶對(duì)標(biāo)簽偏好時(shí)，能夠更準(zhǔn)確地考慮到他們的興趣相似度，考慮社會(huì)化標(biāo)簽的“馬太效應(yīng)”，對(duì)熱門(mén)標(biāo)簽進(jìn)行了數(shù)值懲罰，在一定程度上能夠緩解“馬太效應(yīng)”。其次，通過(guò)物品評(píng)分來(lái)計(jì)算出標(biāo)簽權(quán)重，并引入最終的用戶對(duì)于標(biāo)簽的興趣度，使得最終結(jié)果更加具有泛化性。改進(jìn)后的計(jì)算公式為

(20)

損失函數(shù)用于衡量模型預(yù)測(cè)評(píng)分與實(shí)際評(píng)分之間的差異。模型的準(zhǔn)確度與損失函數(shù)值呈負(fù)相關(guān)，即模型準(zhǔn)確度越高，損失函數(shù)值越小。然而，過(guò)小的損失函數(shù)值可能導(dǎo)致模型出現(xiàn)過(guò)擬合，從而降低了其泛化能力。為了提高模型的泛化能力，引入正則項(xiàng)用于限制損失函數(shù)的下降幅度，確保在具有較高預(yù)測(cè)精度下，模型仍具備良好的泛化能力。計(jì)算公式如下

(21)

使用隨機(jī)梯度下降(stochastic gradient descent，SGD)法進(jìn)行參數(shù)迭代，直到測(cè)試集誤差不在變化。公式如下

(22)

(23)

(24)

(25)

(26)

3.3 算法步驟

本文所提出的基于標(biāo)簽挖掘的個(gè)性化推薦算法記為PRMT模型，該算法大體分為輸入和輸出兩步，根據(jù)用戶、物品、標(biāo)簽和評(píng)分生成用戶-物品評(píng)分矩陣、用戶-標(biāo)簽評(píng)分矩陣和用戶-標(biāo)簽交互矩陣。算法流程如下：

算法：基于標(biāo)簽挖掘的個(gè)性化推薦算法

輸入：R：用戶-資源評(píng)分矩陣；P：用戶-標(biāo)簽評(píng)分矩陣；Y：用戶-標(biāo)簽交互矩陣；正則化系數(shù)λ、權(quán)重系數(shù)λ1，α，β和學(xué)習(xí)率η

步驟：S1：讀取數(shù)據(jù)并劃分訓(xùn)練集和測(cè)試集，根據(jù)式(9)～式(11)分別構(gòu)建用戶-物品評(píng)分矩陣R、用戶-標(biāo)簽評(píng)分矩陣P和用戶-標(biāo)簽交互矩陣Y；

S2：根據(jù)式(12)～式(16)計(jì)算用戶對(duì)于標(biāo)簽偏好值；

S3：根據(jù)式(17)計(jì)算用戶標(biāo)簽權(quán)重；

S4：利用S2和S3計(jì)算所得值，根據(jù)式(18)計(jì)算用戶標(biāo)簽興趣度；

S5：利用S4計(jì)算所得值，根據(jù)式(19)用戶間偏好相似度；

S6：將SVD++模型進(jìn)行改進(jìn)，將S5所得的用戶偏好相似度帶入改進(jìn)后的SVD++模型，即本文所提算法模型PRMT；

S7：訓(xùn)練PRMT模型，根據(jù)式(20)～式(26)訓(xùn)練迭代參數(shù)，來(lái)尋找各參數(shù)的最優(yōu)值，若模型迭代達(dá)到損失函數(shù)閥值，則進(jìn)行S8，否則繼續(xù)本步驟；

4 實(shí)驗(yàn)及結(jié)果分析

4.1 衡量標(biāo)準(zhǔn)

為了衡量本文提出算法模型效果，使用均方根誤差(root mean square error，RMSE)和平均絕對(duì)誤差(mean absolute error，MAE)進(jìn)行檢驗(yàn)，作為實(shí)驗(yàn)結(jié)果衡量標(biāo)準(zhǔn)。反映測(cè)試值與真實(shí)值之間的誤差，RMSE和MAE值的大小與推薦精度呈負(fù)相關(guān)，即RMSE和MAE值越小，推薦精度越高。RMSE和MAE計(jì)算公式如下

(27)

(28)

4.2 數(shù)據(jù)集

本實(shí)驗(yàn)采用MovieLens數(shù)據(jù)集中的ml-25M，ml-25M數(shù)據(jù)集是MovieLens數(shù)據(jù)集中最大版本，包含了25 000 096條評(píng)分?jǐn)?shù)據(jù)和1 109 927條標(biāo)簽數(shù)據(jù)，以及58 000部電影和280 000名用戶，包括多個(gè)用戶對(duì)電影的評(píng)分和標(biāo)簽，電影評(píng)分范圍在0.5～5之間。同一用戶可以給多個(gè)電影標(biāo)注不同標(biāo)簽，且同一電影可以被不同用戶標(biāo)注不同標(biāo)簽。

對(duì)于數(shù)據(jù)集的處理，首先，我們利用用戶編號(hào)和電影編號(hào)作為合并字段，將標(biāo)簽編號(hào)合并到含有用戶編號(hào)、電影編號(hào)和評(píng)分的文件中；其次，對(duì)標(biāo)簽使用次數(shù)進(jìn)行統(tǒng)計(jì)，將使用次數(shù)低于5次的標(biāo)簽以及所在行的全部數(shù)據(jù)刪除，對(duì)處理后標(biāo)簽數(shù)據(jù)重新進(jìn)行編號(hào)；最后，檢查處理后的數(shù)據(jù)，查看是否有異常值或空值，然后保存到新文件中，用于后面模型訓(xùn)練。部分具體數(shù)據(jù)示例見(jiàn)表1。

表1 部分處理后數(shù)據(jù)集展示

4.3 參數(shù)確定

圖2 各參數(shù)實(shí)驗(yàn)結(jié)果

根據(jù)圖2中的實(shí)驗(yàn)結(jié)果曲線變化，可以得出：

(1)不同參數(shù)值的情況下，RMSE的值有增有減，其變化規(guī)律趨勢(shì)無(wú)法確定。從圖中變化曲線我們可以看出，對(duì)于參數(shù)值的選擇不能一味的增大或減小，只有通過(guò)大量實(shí)驗(yàn)，選擇最為合適的參數(shù)值，才能保證模型預(yù)測(cè)精度達(dá)到最佳。

(2)當(dāng)α=0.4，β=0.3，λ=0.09，λ1=0.001時(shí)，RMSE的值最小，算法模型的精準(zhǔn)度最大。

4.4 多模型之間推薦結(jié)果對(duì)比

本文選擇對(duì)比模型有，LFM、SVD++、概率矩陣分解[15](PMF)、電影相似性協(xié)同過(guò)濾推薦模型[16](UB-HUS)、信任感知和領(lǐng)域?qū)＜业膮f(xié)同過(guò)濾模型[17](TrustMF)、個(gè)性化馬爾可夫鏈和社交網(wǎng)絡(luò)聯(lián)合模型[18](JSR)、基于概率矩陣分解的協(xié)同過(guò)濾模型[19](IC-US-PMF)、用戶標(biāo)簽相似度的矩陣分解模型[20](UTagJMF)，進(jìn)行對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 不同模型之間對(duì)比

根據(jù)圖3曲線變化，可以得知，PMF模型的RMSE和UB-HUS模型的MAE預(yù)測(cè)精度均為最低。模型TrustMF、JSR、IC-US-PMF、UTagJMF的MAE和RMSE值都有所下降，但都沒(méi)有低于模型LFM和SVD++，而本文所提模型PRMT的RMSE和MAE值是最低的。

對(duì)此，將與本文所提模型PRMT性能最為相近的兩個(gè)模型LFM和SVD++作為基準(zhǔn)對(duì)比模型，將其單獨(dú)拿出與PRMT模型對(duì)比RMSE和MAE。結(jié)果如圖4所示。

圖4 3種模型之間比較

根據(jù)圖4實(shí)驗(yàn)結(jié)果，能夠得出以下結(jié)論：

(1)3種模型中，LFM模型RMSE和MAE值依舊最大，分別為0.9242和0.6855，模型預(yù)測(cè)精度依然最低。

(2)SVD++模型RMSE和MAE分別為0.8883和0.6448，相對(duì)于LFM模型預(yù)測(cè)精度提升4.04%和4.07%；PRMT模型RMSE和MAE分別為0.8742和0.6348，相對(duì)于LFM模型和SVD++模型預(yù)測(cè)精度在RMSE分別提升了5%和1.41%，MAE分別提升了5.07%和1%。

(3)3種模型在ml-25數(shù)據(jù)集上，PRMT模型RMSE和MAE值最小，表明預(yù)測(cè)精度最高。由此可見(jiàn)，本文算法模型明顯優(yōu)于其它幾個(gè)模型，具有良好的預(yù)測(cè)精度。

5 結(jié)束語(yǔ)

推薦系統(tǒng)目前在各個(gè)領(lǐng)域都有所應(yīng)用，矩陣分解算法是推薦系統(tǒng)中一個(gè)重要算法。本文所提算法，主要從用戶對(duì)于標(biāo)簽的偏好值和標(biāo)簽權(quán)重來(lái)進(jìn)行融合實(shí)驗(yàn)，在一定程度上挖掘出了用戶更深層次的興趣，算法綜合考慮標(biāo)簽對(duì)于推薦精度的影響，同時(shí)對(duì)傳統(tǒng)算法模型進(jìn)行了改進(jìn)，在一定程度上提高了推薦精度和改善推薦效果。

對(duì)于后續(xù)研究可以利用神經(jīng)網(wǎng)絡(luò)來(lái)深入挖掘用戶興趣的潛在特征，進(jìn)一步提高推薦精度和效果。