亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于標(biāo)簽挖掘的個(gè)性化推薦算法

        2024-03-21 02:00:28時(shí)光洋于萬(wàn)鈞
        關(guān)鍵詞:用戶模型

        時(shí)光洋,于萬(wàn)鈞,陳 穎

        (上海應(yīng)用技術(shù)大學(xué) 計(jì)算科學(xué)與信息工程學(xué)院,上海 201418)

        0 引 言

        推薦算法的價(jià)值在于幫助用戶解決信息過(guò)載問(wèn)題,做出更好選擇?,F(xiàn)有的推薦算法一部分主要有,深度矩陣分解算法[1]、強(qiáng)化學(xué)習(xí)推薦算法[2]、用戶記憶網(wǎng)絡(luò)順序推薦[3]。它們的特點(diǎn)是加強(qiáng)了對(duì)隱含特征的學(xué)習(xí),通過(guò)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練來(lái)提升推薦效果,但對(duì)于存在的顯式特征沒(méi)有充分挖掘出價(jià)值。例如,用戶使用的標(biāo)簽信息和用戶評(píng)分[4]。對(duì)此,有部分研究人員是關(guān)注標(biāo)簽信息的挖掘,Lin等[5]利用層次結(jié)構(gòu)分析標(biāo)簽之間的關(guān)聯(lián)特征,但沒(méi)有考慮到用戶自身對(duì)于不同標(biāo)簽的喜好程度大小。Zhu等[6]對(duì)標(biāo)簽推薦列表長(zhǎng)度進(jìn)行了優(yōu)化,考慮了列表中標(biāo)簽的相關(guān)性,卻忽略了不同標(biāo)簽所占的權(quán)重。Dai等[7]從評(píng)論中提取出特征及其情感程度,構(gòu)建用戶商品的特征權(quán)重,在計(jì)算方式中沒(méi)有考慮到用戶使用標(biāo)簽的顯式作用對(duì)于用戶商品特征權(quán)重的影響。

        為解決上述問(wèn)題,本文從用戶對(duì)標(biāo)簽興趣和用戶對(duì)標(biāo)簽的評(píng)分信息兩個(gè)方面展開(kāi)研究,提升對(duì)用戶興趣挖掘的準(zhǔn)確性。主要工作在以下幾個(gè)方面:

        (1)對(duì)用戶所使用的標(biāo)簽進(jìn)行操作,通過(guò)自定義函數(shù)確定用戶對(duì)標(biāo)簽偏好值:分別計(jì)算用戶對(duì)標(biāo)簽喜好值和用戶對(duì)標(biāo)簽依賴度,將兩者進(jìn)行乘積運(yùn)算得到用戶標(biāo)簽偏好值。

        (2)將用戶對(duì)物品評(píng)分遷移為用戶對(duì)所使用的標(biāo)簽評(píng)分,以此來(lái)計(jì)算標(biāo)簽在同一用戶所使用的所有標(biāo)簽中所占權(quán)重。當(dāng)其它用戶使用相同標(biāo)簽時(shí),則用戶間相似度高。

        (3)將標(biāo)簽偏好值與標(biāo)簽權(quán)重進(jìn)行線性組合,從而計(jì)算出用戶最終的標(biāo)簽興趣度。引入矩陣分解算法,對(duì)評(píng)分進(jìn)行預(yù)測(cè)。

        實(shí)驗(yàn)結(jié)果表明,相比于其它評(píng)分預(yù)測(cè)算法,本文算法模型預(yù)測(cè)精準(zhǔn)度有所提高,取得較好效果。

        1 相關(guān)工作

        1.1 計(jì)算標(biāo)簽相似度方法

        Jaccard標(biāo)簽相似度、皮爾遜系數(shù)標(biāo)簽相似度和TF-IDF標(biāo)簽相似度是主要計(jì)算標(biāo)簽相似度的推薦方法?;贘accard標(biāo)簽相似度主要是利用集合操作來(lái)處理標(biāo)簽,不同標(biāo)簽所占權(quán)重缺乏考慮,導(dǎo)致推薦精度較低。皮爾遜相關(guān)系數(shù)計(jì)算標(biāo)簽相似度是將用戶所打標(biāo)簽看作變量,計(jì)算它們之間的皮爾遜相關(guān)系數(shù),但皮爾遜相關(guān)系數(shù)假設(shè)數(shù)據(jù)是正態(tài)分布的,如果數(shù)據(jù)未能滿足這個(gè)假設(shè),計(jì)算結(jié)果可能會(huì)失效。TF-IDF標(biāo)簽相似度計(jì)算根據(jù)標(biāo)簽使用次數(shù),忽略了評(píng)分信息因素。

        1.1.1 Jaccard標(biāo)簽相似度

        Jaccard相似系數(shù)定義請(qǐng)參見(jiàn)文獻(xiàn)[8],計(jì)算公式如下[8]

        (1)

        1.1.2 皮爾遜相關(guān)系數(shù)標(biāo)簽相似度計(jì)算方法

        皮爾遜相關(guān)系數(shù)是用于度量?jī)蓚€(gè)變量X和Y之間的相關(guān)性,其值介于-1與1之間。相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng),反之相反。皮爾遜相關(guān)系數(shù)計(jì)算公式如下[9]

        (2)

        1.1.3 TF-IDF標(biāo)簽相似度計(jì)算方法

        令標(biāo)簽集合T={t1,t2,…,td},d為標(biāo)簽數(shù)量。wi表示給物品i打上標(biāo)簽ti的用戶數(shù)量。每個(gè)標(biāo)簽ti對(duì)應(yīng)權(quán)重為wi,全部標(biāo)簽對(duì)應(yīng)的權(quán)重集合為W={w1,w2,…,wd}。對(duì)標(biāo)簽集T進(jìn)行統(tǒng)計(jì),得出所有標(biāo)簽被用戶使用次數(shù)的集合D,D={d1,d2,…,dd},其中dj表示標(biāo)簽ti被用戶使用次數(shù)。TF-IDF計(jì)算步驟分為以下幾步[10]:

        步驟1 計(jì)算標(biāo)簽詞頻(TF),即每個(gè)標(biāo)簽i在每個(gè)物品使用次數(shù)。計(jì)算公式如下所示

        (3)

        步驟2 為計(jì)算標(biāo)簽的逆文檔頻率(IDF),用以表示標(biāo)簽的常見(jiàn)度,利用以下公式進(jìn)行計(jì)算

        (4)

        步驟3 合成IF-IDF公式,計(jì)算公式如下

        TF-IDF=TFi*IDFi

        (5)

        1.2 矩陣分解模型

        1.2.1 隱語(yǔ)義模型

        隱語(yǔ)義模型(latent factor model,LFM)是推薦系統(tǒng)領(lǐng)域一個(gè)熱門(mén)研究問(wèn)題,核心思想是通過(guò)隱含特征關(guān)聯(lián)用戶興趣和物品,通過(guò)矩陣分解對(duì)用戶-物品評(píng)分矩陣R進(jìn)行分解,分解成用戶-特征矩陣P和物品-特征矩陣Q[11]。其結(jié)構(gòu)如圖1所示。

        圖1 矩陣分解模型

        其中,K表示特征個(gè)數(shù)。

        令pj和qk分別代表用戶潛在特征向量和物品潛在特征向量,評(píng)分預(yù)測(cè)計(jì)算公式如下

        (6)

        (7)

        式中:μ表示用戶評(píng)分均值,bj表示用戶偏置項(xiàng),bk表示物品偏置項(xiàng)。

        1.2.2 隱式反饋SVD++模型

        LFM和帶有偏置項(xiàng)隱語(yǔ)義模型(BiasSVD)都過(guò)度依賴用戶-物品評(píng)分矩陣,BiasSVD模型中雖然加入評(píng)分平均分μ、用戶偏置項(xiàng)bj和物品偏置項(xiàng)bk,卻沒(méi)有考慮顯示用戶歷史行為對(duì)用戶評(píng)分預(yù)測(cè)的影響。在SVD++模型中,考慮了用戶對(duì)其所有有過(guò)評(píng)分行為的物品的隱式反饋[12]。所以隱式反饋SVD++模型的預(yù)測(cè)表達(dá)式為

        (8)

        式中:Nk表示物品ik受到用戶的評(píng)分集合,xv表示用戶uv的特征向量。

        根據(jù)上文描述,本文主要是在現(xiàn)有理論TF-IDF算法和SVD++模型基礎(chǔ)上,將用戶對(duì)標(biāo)簽的依賴度和用戶標(biāo)簽興趣相似度的概念結(jié)合起來(lái),并將其引入到SVD++模型中。這樣做可以提升模型的推薦效果。具體而言,利用TF-IDF算法計(jì)算每一個(gè)用戶對(duì)標(biāo)簽的依賴度,即某個(gè)用戶對(duì)某個(gè)標(biāo)簽感興趣的程度。通過(guò)這種方式,可以更加準(zhǔn)確地描述用戶的興趣特點(diǎn),從而提高推薦系統(tǒng)的推薦質(zhì)量。另一方面,在傳統(tǒng)的SVD++模型中,主要考慮了用戶對(duì)物品的評(píng)分?jǐn)?shù)據(jù),并未考慮用戶興趣的細(xì)節(jié)。為了更準(zhǔn)確地描述用戶的興趣特點(diǎn),本文引入了用戶標(biāo)簽興趣相似度的概念,通過(guò)標(biāo)簽來(lái)反映用戶之間的相似度。通過(guò)這種方式,將用戶對(duì)于標(biāo)簽興趣引入到SVD++模型中,從而更好地體現(xiàn)用戶的個(gè)性化需求和偏好。綜上所述,本文通過(guò)引入TF-IDF算法計(jì)算用戶對(duì)標(biāo)簽的依賴度以及用戶標(biāo)簽興趣相似度的概念,對(duì)傳統(tǒng)的SVD++模型進(jìn)行了改進(jìn),以提高推薦系統(tǒng)的性能和準(zhǔn)確性。

        2 用戶標(biāo)簽興趣度和標(biāo)簽權(quán)重

        2.1 建立用戶-資源評(píng)分矩陣

        令用戶集合為U={u1,u2,…,um},物品集合為V={v1,v2,…,vn},且|U|=m,|V|=n。建立用戶-物品評(píng)分矩陣為R,R=[rij]m×n是一個(gè)m×n的用戶-物品評(píng)分矩陣,rij表示用戶ui對(duì)物品vj的評(píng)分,其中i=1,2,…,m,j=1,2,…,n。對(duì)于物品的評(píng)分完全是根據(jù)用戶是否愿意給物品打分或用戶是否與物品發(fā)生過(guò)交互,用戶沒(méi)有與物品產(chǎn)生過(guò)交互或者用戶不愿給物品打分,那么用戶u對(duì)于物品v的評(píng)分不存在,則rij=0。在實(shí)際推薦中,用戶與物品發(fā)生交互的次數(shù)遠(yuǎn)少于物品本身數(shù)量,并且存在發(fā)生交互沒(méi)有打分情況。在兩種因素下,用戶-物品評(píng)分矩陣R通常是一個(gè)稀疏的矩陣。矩陣R如下

        (9)

        令標(biāo)簽集合為T(mén)={t1,t2,…,td},且|T|=d。將用戶對(duì)物品的評(píng)分看作為用戶對(duì)物品及其相關(guān)標(biāo)簽的評(píng)分,并構(gòu)建用戶-標(biāo)簽評(píng)分矩陣P,puitj代表用戶ui對(duì)于標(biāo)簽tj的評(píng)分,其中m=1,2,…,m,t=1,2,…,d。矩陣P如下

        (10)

        根據(jù)用戶-標(biāo)簽評(píng)分矩陣P,構(gòu)建用戶-標(biāo)簽交互矩陣Z=[zut]m×d,zuitj代表用戶ui是否與標(biāo)簽tj發(fā)生交互,當(dāng)put≠0時(shí),zut=1即用戶u與標(biāo)簽t發(fā)生交互,反之zut=0則未發(fā)生交互。zut計(jì)算公式為

        (11)

        2.2 用戶對(duì)標(biāo)簽偏好值

        標(biāo)簽是用戶描述、整理、分享網(wǎng)絡(luò)內(nèi)容的一種新的形式,也是反映用戶自身的興趣和態(tài)度。用戶對(duì)于標(biāo)簽的喜好可以使用二元關(guān)系表示,如“喜歡”或“不喜歡”;也可以使用“連續(xù)數(shù)值”表示喜好程度。二元方法表示雖然簡(jiǎn)單明了,但是描述精度不夠,對(duì)標(biāo)簽進(jìn)行喜好程度大小排序時(shí),無(wú)法區(qū)分標(biāo)簽之間的差異。所以,這里采用“連續(xù)數(shù)值”來(lái)表達(dá)用戶對(duì)于標(biāo)簽的偏好值。

        計(jì)算用戶對(duì)標(biāo)簽喜好值,相同標(biāo)簽用戶可能會(huì)用來(lái)標(biāo)記不同物品,不同的標(biāo)簽也會(huì)標(biāo)記相同的物品。因此,用戶對(duì)標(biāo)簽的喜好值計(jì)算公式如下,其中u∈U,t∈T

        (12)

        假設(shè)用戶評(píng)分次數(shù)較少,通過(guò)上面計(jì)算方法可能使得計(jì)算結(jié)果存在較大誤差,利用TF-IDF算法計(jì)算用戶對(duì)標(biāo)簽的依賴程度。首先,計(jì)算TF-IDF算法中TF部分,即標(biāo)簽使用頻率,計(jì)算公式如下

        (13)

        目前,社交標(biāo)簽的使用已經(jīng)成為一種普遍現(xiàn)象,導(dǎo)致互聯(lián)網(wǎng)中存在“馬太效應(yīng)[13]”,即隨著熱門(mén)標(biāo)簽的展示次數(shù)增多,它們變得越來(lái)越受歡迎,冷門(mén)標(biāo)簽隨著使用次數(shù)較少變得越來(lái)越冷門(mén)。事實(shí)上,冷門(mén)標(biāo)簽的使用能夠更好體現(xiàn)出用戶的個(gè)性和特點(diǎn),為了消除馬太效應(yīng)的影響,更加準(zhǔn)確的挖掘用戶偏好,本文利用TF-IDF算法中IDF部分,對(duì)熱門(mén)標(biāo)簽進(jìn)行數(shù)值懲罰。公式如下

        (14)

        綜合上述,用戶對(duì)標(biāo)簽依賴度數(shù)值計(jì)算公式為

        TF-IDF(u,t)=TF(u,t)×IDF(u,t)

        (15)

        綜合考慮,用戶對(duì)于標(biāo)簽的主觀喜好值和利用TF-IDF算法計(jì)算用戶對(duì)于標(biāo)簽的依賴度數(shù)值,可以得到用戶對(duì)于標(biāo)簽的偏好值為

        Pre(u,t)=Deg(u,t)×TF-IDF(u,t)

        (16)

        2.3 標(biāo)簽權(quán)重值

        在用戶對(duì)物品進(jìn)行評(píng)分時(shí),通常情況下會(huì)同時(shí)給物品打上自己喜歡的標(biāo)簽,這些標(biāo)簽代表了用戶對(duì)物品的主觀評(píng)價(jià)[14]。例如,當(dāng)用戶觀看了一部動(dòng)漫電影并且非常喜歡,為了表達(dá)他們的喜愛(ài),用戶可能給這部電影評(píng)分為5分,并添加“cartoon”這個(gè)標(biāo)簽。這個(gè)標(biāo)簽在用戶打過(guò)的所有標(biāo)簽中的權(quán)重會(huì)更大,如果其它用戶也使用了這個(gè)標(biāo)簽來(lái)標(biāo)記自己看過(guò)的物品,那么可以認(rèn)為這些用戶之間的相似度較高。

        通過(guò)利用物品評(píng)分來(lái)計(jì)算標(biāo)簽權(quán)重,計(jì)算公式如下

        (17)

        2.4 用戶標(biāo)簽興趣度

        用戶對(duì)標(biāo)簽的興趣度表示了用戶對(duì)該標(biāo)簽的興趣程度的大小,若用戶對(duì)于某個(gè)標(biāo)簽的興趣度較大,則類似標(biāo)簽或該標(biāo)簽標(biāo)注的其它物品可以向用戶推薦。計(jì)算用戶對(duì)標(biāo)簽的興趣程度,定義函數(shù)Int(u,t),其中u∈U,t∈T。綜合考慮用戶對(duì)標(biāo)簽偏好值和標(biāo)簽權(quán)重對(duì)用戶標(biāo)簽興趣度的影響,將標(biāo)簽偏好值Pre(u,t) 和標(biāo)簽權(quán)重Wu,v(t) 進(jìn)行線性組合,函數(shù)Int(u,t) 計(jì)算公式為

        Int(u,t)=α×Pre(u,t)+β×Wu,v(t)

        (18)

        式中:α和β分別表示用戶對(duì)標(biāo)簽偏好值和標(biāo)簽權(quán)重的權(quán)重,α和β的具體取值在實(shí)驗(yàn)結(jié)果中得出。

        3 基于標(biāo)簽挖掘的個(gè)性化推薦算法

        3.1 用戶標(biāo)簽興趣相似度

        用戶標(biāo)簽興趣相似度被用來(lái)衡量用戶之間的興趣相似性的大小,如果兩個(gè)用戶之間的標(biāo)簽興趣相似度越大,那么表示他們的興趣更為相似,反之則相反。定義函數(shù)Sim(uj,uv),其中uj∈U,uv∈U。計(jì)算公式如下

        (19)

        式中:Int(uj,tl) 和Int(uv,tl) 分別代表用戶uj和用戶uv對(duì)標(biāo)簽tl的興趣度,Tj,v表示用戶uj和用戶uv共同使用過(guò)標(biāo)簽的集合。

        3.2 改進(jìn)的SVD++模型

        SVD++模型是在BiasSVD模型基礎(chǔ)之上,根據(jù)實(shí)際推薦中用戶評(píng)分行為較少來(lái)進(jìn)行改進(jìn)的,進(jìn)一步引入隱式反饋信息。在隱式反饋中,假設(shè)存在一個(gè)與每個(gè)用戶進(jìn)行過(guò)隱式交互的物品集合相對(duì)應(yīng)的k維隱向量。通過(guò)將與用戶有過(guò)隱式交互的物品的隱向量相加,可以從一個(gè)新的維度來(lái)表示用戶的興趣愛(ài)好。這種改進(jìn)方法能夠提升一定的模型性能,但是還存在著不足。首先,沒(méi)有考慮社會(huì)化標(biāo)簽的使用網(wǎng)站中存在“馬太效應(yīng)”。其次,用戶對(duì)物品打分后,使用的標(biāo)簽在一定程度上反映出了用戶對(duì)于該標(biāo)簽的喜好程度,物品評(píng)分能夠類似于標(biāo)簽所占權(quán)重。對(duì)此,標(biāo)簽評(píng)分權(quán)重往往被忽視。

        為解決以上問(wèn)題,在SVD++算法模型的基礎(chǔ)上將用戶標(biāo)簽興趣相似度引入其中,對(duì)SVD++算法模型進(jìn)行改進(jìn)。通過(guò)利用用戶標(biāo)簽興趣相似度,可以計(jì)算用戶之間的相似度。這種改進(jìn)方法具有以下優(yōu)勢(shì):首先,在計(jì)算用戶對(duì)標(biāo)簽偏好時(shí),能夠更準(zhǔn)確地考慮到他們的興趣相似度,考慮社會(huì)化標(biāo)簽的“馬太效應(yīng)”,對(duì)熱門(mén)標(biāo)簽進(jìn)行了數(shù)值懲罰,在一定程度上能夠緩解“馬太效應(yīng)”。其次,通過(guò)物品評(píng)分來(lái)計(jì)算出標(biāo)簽權(quán)重,并引入最終的用戶對(duì)于標(biāo)簽的興趣度,使得最終結(jié)果更加具有泛化性。改進(jìn)后的計(jì)算公式為

        (20)

        損失函數(shù)用于衡量模型預(yù)測(cè)評(píng)分與實(shí)際評(píng)分之間的差異。模型的準(zhǔn)確度與損失函數(shù)值呈負(fù)相關(guān),即模型準(zhǔn)確度越高,損失函數(shù)值越小。然而,過(guò)小的損失函數(shù)值可能導(dǎo)致模型出現(xiàn)過(guò)擬合,從而降低了其泛化能力。為了提高模型的泛化能力,引入正則項(xiàng)用于限制損失函數(shù)的下降幅度,確保在具有較高預(yù)測(cè)精度下,模型仍具備良好的泛化能力。計(jì)算公式如下

        (21)

        使用隨機(jī)梯度下降(stochastic gradient descent,SGD)法進(jìn)行參數(shù)迭代,直到測(cè)試集誤差不在變化。公式如下

        (22)

        (23)

        (24)

        (25)

        (26)

        3.3 算法步驟

        本文所提出的基于標(biāo)簽挖掘的個(gè)性化推薦算法記為PRMT模型,該算法大體分為輸入和輸出兩步,根據(jù)用戶、物品、標(biāo)簽和評(píng)分生成用戶-物品評(píng)分矩陣、用戶-標(biāo)簽評(píng)分矩陣和用戶-標(biāo)簽交互矩陣。算法流程如下:

        算法:基于標(biāo)簽挖掘的個(gè)性化推薦算法

        輸入:R:用戶-資源評(píng)分矩陣;P:用戶-標(biāo)簽評(píng)分矩陣;Y:用戶-標(biāo)簽交互矩陣;正則化系數(shù)λ、權(quán)重系數(shù)λ1,α,β和學(xué)習(xí)率η

        步驟:S1:讀取數(shù)據(jù)并劃分訓(xùn)練集和測(cè)試集,根據(jù)式(9)~式(11)分別構(gòu)建用戶-物品評(píng)分矩陣R、用戶-標(biāo)簽評(píng)分矩陣P和用戶-標(biāo)簽交互矩陣Y;

        S2:根據(jù)式(12)~式(16)計(jì)算用戶對(duì)于標(biāo)簽偏好值;

        S3:根據(jù)式(17)計(jì)算用戶標(biāo)簽權(quán)重;

        S4:利用S2和S3計(jì)算所得值,根據(jù)式(18)計(jì)算用戶標(biāo)簽興趣度;

        S5:利用S4計(jì)算所得值,根據(jù)式(19)用戶間偏好相似度;

        S6:將SVD++模型進(jìn)行改進(jìn),將S5所得的用戶偏好相似度帶入改進(jìn)后的SVD++模型,即本文所提算法模型PRMT;

        S7:訓(xùn)練PRMT模型,根據(jù)式(20)~式(26)訓(xùn)練迭代參數(shù),來(lái)尋找各參數(shù)的最優(yōu)值,若模型迭代達(dá)到損失函數(shù)閥值,則進(jìn)行S8,否則繼續(xù)本步驟;

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 衡量標(biāo)準(zhǔn)

        為了衡量本文提出算法模型效果,使用均方根誤差(root mean square error,RMSE)和平均絕對(duì)誤差(mean absolute error,MAE)進(jìn)行檢驗(yàn),作為實(shí)驗(yàn)結(jié)果衡量標(biāo)準(zhǔn)。反映測(cè)試值與真實(shí)值之間的誤差,RMSE和MAE值的大小與推薦精度呈負(fù)相關(guān),即RMSE和MAE值越小,推薦精度越高。RMSE和MAE計(jì)算公式如下

        (27)

        (28)

        4.2 數(shù)據(jù)集

        本實(shí)驗(yàn)采用MovieLens數(shù)據(jù)集中的ml-25M,ml-25M數(shù)據(jù)集是MovieLens數(shù)據(jù)集中最大版本,包含了25 000 096條評(píng)分?jǐn)?shù)據(jù)和1 109 927條標(biāo)簽數(shù)據(jù),以及58 000部電影和280 000名用戶,包括多個(gè)用戶對(duì)電影的評(píng)分和標(biāo)簽,電影評(píng)分范圍在0.5~5之間。同一用戶可以給多個(gè)電影標(biāo)注不同標(biāo)簽,且同一電影可以被不同用戶標(biāo)注不同標(biāo)簽。

        對(duì)于數(shù)據(jù)集的處理,首先,我們利用用戶編號(hào)和電影編號(hào)作為合并字段,將標(biāo)簽編號(hào)合并到含有用戶編號(hào)、電影編號(hào)和評(píng)分的文件中;其次,對(duì)標(biāo)簽使用次數(shù)進(jìn)行統(tǒng)計(jì),將使用次數(shù)低于5次的標(biāo)簽以及所在行的全部數(shù)據(jù)刪除,對(duì)處理后標(biāo)簽數(shù)據(jù)重新進(jìn)行編號(hào);最后,檢查處理后的數(shù)據(jù),查看是否有異常值或空值,然后保存到新文件中,用于后面模型訓(xùn)練。部分具體數(shù)據(jù)示例見(jiàn)表1。

        表1 部分處理后數(shù)據(jù)集展示

        4.3 參數(shù)確定

        圖2 各參數(shù)實(shí)驗(yàn)結(jié)果

        根據(jù)圖2中的實(shí)驗(yàn)結(jié)果曲線變化,可以得出:

        (1)不同參數(shù)值的情況下,RMSE的值有增有減,其變化規(guī)律趨勢(shì)無(wú)法確定。從圖中變化曲線我們可以看出,對(duì)于參數(shù)值的選擇不能一味的增大或減小,只有通過(guò)大量實(shí)驗(yàn),選擇最為合適的參數(shù)值,才能保證模型預(yù)測(cè)精度達(dá)到最佳。

        (2)當(dāng)α=0.4,β=0.3,λ=0.09,λ1=0.001時(shí),RMSE的值最小,算法模型的精準(zhǔn)度最大。

        4.4 多模型之間推薦結(jié)果對(duì)比

        本文選擇對(duì)比模型有,LFM、SVD++、概率矩陣分解[15](PMF)、電影相似性協(xié)同過(guò)濾推薦模型[16](UB-HUS)、信任感知和領(lǐng)域?qū)<业膮f(xié)同過(guò)濾模型[17](TrustMF)、個(gè)性化馬爾可夫鏈和社交網(wǎng)絡(luò)聯(lián)合模型[18](JSR)、基于概率矩陣分解的協(xié)同過(guò)濾模型[19](IC-US-PMF)、用戶標(biāo)簽相似度的矩陣分解模型[20](UTagJMF),進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。

        圖3 不同模型之間對(duì)比

        根據(jù)圖3曲線變化,可以得知,PMF模型的RMSE和UB-HUS模型的MAE預(yù)測(cè)精度均為最低。模型TrustMF、JSR、IC-US-PMF、UTagJMF的MAE和RMSE值都有所下降,但都沒(méi)有低于模型LFM和SVD++,而本文所提模型PRMT的RMSE和MAE值是最低的。

        對(duì)此,將與本文所提模型PRMT性能最為相近的兩個(gè)模型LFM和SVD++作為基準(zhǔn)對(duì)比模型,將其單獨(dú)拿出與PRMT模型對(duì)比RMSE和MAE。結(jié)果如圖4所示。

        圖4 3種模型之間比較

        根據(jù)圖4實(shí)驗(yàn)結(jié)果,能夠得出以下結(jié)論:

        (1)3種模型中,LFM模型RMSE和MAE值依舊最大,分別為0.9242和0.6855,模型預(yù)測(cè)精度依然最低。

        (2)SVD++模型RMSE和MAE分別為0.8883和0.6448,相對(duì)于LFM模型預(yù)測(cè)精度提升4.04%和4.07%;PRMT模型RMSE和MAE分別為0.8742和0.6348,相對(duì)于LFM模型和SVD++模型預(yù)測(cè)精度在RMSE分別提升了5%和1.41%,MAE分別提升了5.07%和1%。

        (3)3種模型在ml-25數(shù)據(jù)集上,PRMT模型RMSE和MAE值最小,表明預(yù)測(cè)精度最高。由此可見(jiàn),本文算法模型明顯優(yōu)于其它幾個(gè)模型,具有良好的預(yù)測(cè)精度。

        5 結(jié)束語(yǔ)

        推薦系統(tǒng)目前在各個(gè)領(lǐng)域都有所應(yīng)用,矩陣分解算法是推薦系統(tǒng)中一個(gè)重要算法。本文所提算法,主要從用戶對(duì)于標(biāo)簽的偏好值和標(biāo)簽權(quán)重來(lái)進(jìn)行融合實(shí)驗(yàn),在一定程度上挖掘出了用戶更深層次的興趣,算法綜合考慮標(biāo)簽對(duì)于推薦精度的影響,同時(shí)對(duì)傳統(tǒng)算法模型進(jìn)行了改進(jìn),在一定程度上提高了推薦精度和改善推薦效果。

        對(duì)于后續(xù)研究可以利用神經(jīng)網(wǎng)絡(luò)來(lái)深入挖掘用戶興趣的潛在特征,進(jìn)一步提高推薦精度和效果。

        猜你喜歡
        用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        Camera360:拍出5億用戶
        100萬(wàn)用戶
        亚洲欧洲巨乳清纯| 在线人妻va中文字幕| 亚洲av在线播放观看| 日本啪啪一区二区三区| 国产精品女同二区五区九区| 国产三级精品三级在专区中文| 国产高清人肉av在线一区二区| 国产精品国产三级国产剧情| 一边摸一边做爽的视频17国产| 吃奶呻吟打开双腿做受视频| 精品国产aⅴ无码一区二区 | 国产精品久久久久久久专区| 国产在线欧美日韩一区二区| 久青青草视频手机在线免费观看| 亚洲一区二区懂色av| 久久午夜精品人妻一区二区三区| 妺妺窝人体色www看美女| 粗大猛烈进出高潮视频| 影音先锋男人站| 全免费a级毛片免费看视频 | 丁香六月久久| 亚洲国产精品成人av| 亚洲激情一区二区三区视频| 91色老久久偷偷精品蜜臀懂色| 国产后入清纯学生妹| 韩国19禁无遮挡啪啪无码网站| 亚洲免费av电影一区二区三区| 亚洲精品日本久久久中文字幕| 91熟女av一区二区在线| 99国产精品久久一区二区三区| 疯狂做受xxxx国产| 午夜dj在线观看免费视频| AV无码中文字幕不卡一二三区| 国产人妖在线免费观看| 五月激情在线视频观看| 国产av一区二区三区性入口| 亚洲成av人影院| 色94色欧美sute亚洲线路二| 精品国产群3p在线观看| 亚洲成片在线看一区二区| 日韩精品中文字幕第二页|