亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙因子混合加權(quán)相似度的協(xié)同過濾推薦算法

        2020-12-01 03:19:14王留芳劉鎮(zhèn)鎮(zhèn)魏藍(lán)吳正江
        關(guān)鍵詞:用戶

        王留芳,劉鎮(zhèn)鎮(zhèn),魏藍(lán),吳正江

        (1.河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000;2.鶴壁汽車工程職業(yè)學(xué)院 電子工程系,河南 鶴壁 458030;3.廈門大學(xué) 信息學(xué)院,福建 廈門 361005)

        0 引 言

        近年來,關(guān)于高校圖書館圖書個(gè)性化推薦[1]算法很多,主要有基于用戶的協(xié)同過濾推薦算法[2]、基于知識(shí)的推薦算法[3],基于內(nèi)容的推薦算法[4]、混合推薦算法[5]等。其中,基于用戶的協(xié)同過濾推薦算法是應(yīng)用比較成功的一種算法,它的基本思想是尋找與目標(biāo)用戶興趣相似的鄰居用戶[6],然后把鄰居用戶感興趣的項(xiàng)目推薦給目標(biāo)用戶。它的優(yōu)勢(shì)是把用戶分成近鄰和非近鄰,推薦準(zhǔn)確度高,能夠發(fā)現(xiàn)用戶潛在興趣,個(gè)性化程度高。但是存在以下問題:一、數(shù)據(jù)稀疏問題。當(dāng)圖書資料較多、借閱讀者較少時(shí),出現(xiàn)用戶之間興趣的相似度不準(zhǔn)確問題,或者不同讀者之間借閱的圖書資料重復(fù)率較低時(shí),無法找到相似近鄰用戶;二、冷啟動(dòng)[7問題。它是基于用戶對(duì)項(xiàng)目的歷史評(píng)分來預(yù)測(cè)推薦,當(dāng)新書剛錄入推薦系統(tǒng),沒有讀者對(duì)該圖書評(píng)分,或者當(dāng)新生讀者剛加入系統(tǒng)時(shí),沒有對(duì)圖書評(píng)分,所以無法預(yù)測(cè)評(píng)分,導(dǎo)致推薦結(jié)果不準(zhǔn)確。

        針對(duì)以上問題,本文在修正余弦相似度算法的基礎(chǔ)上引入基于用戶屬性的相似度算法,并將兩者加權(quán)混合,該算法充分利用用戶屬性不受數(shù)據(jù)稀疏和冷啟動(dòng)影響的優(yōu)勢(shì),避免了傳統(tǒng)計(jì)算方法的缺點(diǎn),并通過實(shí)驗(yàn)驗(yàn)證該算法的準(zhǔn)確性。

        1 傳統(tǒng)的相似度算法

        基于用戶的協(xié)同過濾推薦算法重要步驟就是計(jì)算用戶之間的相似度,相似度公式不同,相似度值也會(huì)不同。目前,用戶之間的相似度計(jì)算方法主要有余弦(cosine)相似性[8]、皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)相似性[[9]、修正余弦相似度等[10],如式(1)~(3)所示。

        (1)

        (2)

        simcc(u,v)=

        (3)

        下面用一個(gè)例子說明幾種相似度計(jì)算方法的缺點(diǎn),表1是一個(gè)User-Book評(píng)分矩陣[11],有3個(gè)用戶,分別是user1,uer2,user3,4本書,分別是book1,book2,book3,book4,表2~4給出使用3種相似度計(jì)算方法得到的用戶間的相似度。

        表1 用戶評(píng)分矩陣

        表2 余弦相似度

        表3 皮爾遜相關(guān)系數(shù)相似度

        從表2~4可以看出,采用以上3種相似度計(jì)算公式存在以下問題:

        (1)對(duì)相似度較低的用戶得出的相似度較高。例如表1中user1和user3對(duì)book1和book2的評(píng)分為(4,3)和(2,1),兩者對(duì)book1和book2的喜好可能相反,而表2中user1和user3的相似度為0.975,表3中user1和user3的相似度為0.892,說明在數(shù)據(jù)稀疏的情況下,用余弦相似度算法和皮爾遜相關(guān)系數(shù)相似度算法,使原本較低相似度的兩個(gè)用戶呈現(xiàn)出較高的相似度。

        表4 修正余弦相似度

        (2)對(duì)相似度較高的用戶得出較低的相似度。例如表1中,user1和user2的評(píng)分向量分別為(4,3,5,4)和(4,3,3,4),兩者相似度極高,而表3用皮爾遜相關(guān)系數(shù)相似度算法得出的相似度為0,表4修正余弦相似度算法得出的相似度為-0.316,使原本較高相似的兩個(gè)用戶,計(jì)算結(jié)果較低。

        以上例子說明,在數(shù)據(jù)稀疏的情況下,用傳統(tǒng)相似度算法得到的相似度不準(zhǔn)確,導(dǎo)致推薦結(jié)果精度不高。

        2 本文相似性算法

        為了提高推薦結(jié)果的精度,本文引入閾值、雙因子,基于用戶屬性的相似度算法,提高傳統(tǒng)相似度算法的準(zhǔn)確性。

        2.1 閾值定義

        閾值是判斷目標(biāo)用戶和其他用戶數(shù)據(jù)是否稀疏的一個(gè)臨界值,初始值為平均借閱量,閾值初始值會(huì)隨著平均借閱量的變化而變化,所以閾值要階段性(一周或一個(gè)月)尋優(yōu)。當(dāng)讀者的借閱量小于閾值時(shí),存在數(shù)據(jù)稀疏問題,閾值的公式為

        TDn=TDn-1±[TDn-1/5]·J,

        (4)

        2.2 雙因子定義

        引入雙因子,是為了在數(shù)據(jù)稀疏的情況下,自動(dòng)調(diào)整傳統(tǒng)相似性算法與基于用戶屬性相似算法的權(quán)重,雙因子使用sigmoid函數(shù)定義,假設(shè)a,b為雙因子,其公式為

        (5)

        (6)

        式中:a為目標(biāo)讀者u的數(shù)據(jù)稀疏權(quán)重;lend(u)為目標(biāo)讀者u的借閱量;TD為閾值;b是近鄰讀者v的數(shù)據(jù)稀疏權(quán)重;lend(u)為讀者v的借閱量。

        2.3 基于讀者屬性的相似度算法

        基于讀者屬性[12]的相似度算法是以讀者的屬性為參數(shù),讀者屬性越相似讀者的偏好就越接近,不存在數(shù)據(jù)稀疏和冷啟動(dòng)問題。

        讀者屬性主要包括讀者卡號(hào)、身份證、姓名、年齡、密碼、專業(yè)、學(xué)院、注冊(cè)日期、性別、年級(jí)等。讀者屬性相似度計(jì)算公式為

        simattr(u,v)=∑i∈attr(i)wi·attr(u,v,i),

        (7)

        式中:wi為讀者u和讀者v的第i個(gè)屬性權(quán)重;attr(u,v,i)為第i個(gè)屬性的相似度。

        2.4 雙因子混合相似性算法

        從文獻(xiàn)[5]實(shí)驗(yàn)可知:皮爾遜相關(guān)系數(shù)相似性算法simp(u,v)和修正余弦相似度算法simcc(u,v)誤差較低,但是,相比之下simcc(u,v)算法誤差曲線比較平滑,最大值與最小值之間的差值較小,所以,選擇simcc(u,v)與基于讀者屬性的相似度算法加權(quán)混合形成一種新的相似度算法simtfcc(u,v),公式為

        simtfcc(u,v)=(1-a)(1-b)simattr(u,v)+

        absimcc(u,v)。

        (8)

        從公式(5)、(6)可以看出,a,b的值隨著閾值與讀者借閱的差值變化而變化。當(dāng)讀者借閱量lend(u),lend(v)與閾值TD相等時(shí),a,b的值均為0.5,當(dāng)lend(u),lend(v)的值大于閾值時(shí),即讀者借閱量不稀疏時(shí),修正余弦相似度算法simcc(u,v)的權(quán)重增加,當(dāng)lend(u),lend(v)的值小于閾值時(shí),即讀者借閱量稀疏時(shí),基于讀者屬性相似性算法simattr(u,v)權(quán)重增加。

        2.5 最終預(yù)測(cè)推薦算法

        為目標(biāo)用戶預(yù)測(cè)推薦,使用文獻(xiàn)[4]中的協(xié)同推薦公式

        2.6 算法描述

        (1)輸入讀者姓名或讀者ID。

        (2)根據(jù)公式(4)計(jì)算閾值TD,閾值尋優(yōu)。

        (3)根據(jù)公式(5)~(6)計(jì)算雙因子a,b的值。

        (4)根據(jù)公式(8)計(jì)算輸入目標(biāo)讀者和其他讀者的相似性。

        (5)根據(jù)讀者之間的相似度大小,選取前top_k近鄰[13]。

        (6)根據(jù)近鄰讀者的偏好,預(yù)測(cè)目標(biāo)讀者的偏好圖書評(píng)分。

        (7)根據(jù)公式(9),選取推薦結(jié)果。

        3 結(jié)果與分析

        3.1 實(shí)驗(yàn)環(huán)境

        以高校圖書館讀者借閱數(shù)據(jù)為數(shù)據(jù)集,共包含11 870個(gè)讀者對(duì)352 597冊(cè)書的107 272借閱信息量。讀者屬性中對(duì)讀者相似性影響的信息包括專業(yè)、性別、年級(jí)、年齡等,根據(jù)參考文獻(xiàn)可知:讀者的屬性權(quán)重影響從大之小依次是專業(yè)(權(quán)重為μ1=0.4)、年級(jí)(權(quán)重為μ2=0.3)、性別(μ3=0.2)、年齡(μ4=0.1),且μ1+μ2+μ3+μ4=1。

        3.2 評(píng)價(jià)標(biāo)準(zhǔn)

        評(píng)分預(yù)測(cè)常用的評(píng)價(jià)指標(biāo)有均方根誤差[14](root mean square error,RMSE)和平均絕對(duì)誤差[15](mean absolute error,MAE),在協(xié)同過濾中RMSE用來檢測(cè)預(yù)測(cè)的評(píng)分與真實(shí)測(cè)試集中的評(píng)分偏離程度,相對(duì)于MAE而言,加大了誤差懲罰力度。RMSE的偏離程度越大,推薦的質(zhì)量越差,推薦準(zhǔn)確度越低。公式為

        (10)

        3.3 實(shí) 驗(yàn)

        3.3.1 閾值尋優(yōu)實(shí)驗(yàn)

        由公式(5)~(6)可知,雙因子的值是由閾值的大小和讀者借閱量決定的,由公式(4)可知,閾值的初始值是讀者的平均借閱量。隨著借閱量的變化,初始閾值也會(huì)發(fā)生變化,所以要對(duì)閾值進(jìn)行階段性尋優(yōu)。最優(yōu)閾值是保證推薦結(jié)果正確性的前提條件。

        圖1 雙因子混合相似度simtfcc(u,v)算法的推薦結(jié)果

        從圖1可以看到,使用雙因子混合相似度simtfcc(u,v)推薦算法,在近鄰數(shù)20~25間,閾值TD=8時(shí),RMSE最小,推薦效果最好,所以下面的實(shí)驗(yàn)中取閾值[17]為8。

        3.3.2 與傳統(tǒng)相似度比較

        在雙因子相似性[18]計(jì)算公式(8)中,根據(jù)以上實(shí)驗(yàn)取閾值TD=8,表1中,讀者的借閱量為4本書,當(dāng)讀者的借閱量小于閾值8時(shí),存在數(shù)據(jù)稀疏問題,在此情況下,對(duì)表1進(jìn)行相似性計(jì)算,結(jié)果如表5所示。

        從表5可以看出,在數(shù)據(jù)稀疏的情況下,改進(jìn)后的相似性算法已經(jīng)克服了傳統(tǒng)相似性算法的弊端,提高了相似度計(jì)算的準(zhǔn)確性。

        表5 雙因子混合相似度算法(1)

        在冷啟動(dòng)的情況下,TD=8,目標(biāo)讀者的借閱量lend(u)為0,代入公式(5)中,得到a的值大約等于0,這時(shí)修正余弦相似性算法的權(quán)重ab大約為0。

        雙因子混合加權(quán)相似度算法變?yōu)閟imtfcc(u,v)=simattr(u,v),此時(shí)對(duì)表1進(jìn)行相似度計(jì)算,結(jié)果如表6所示。

        表6 雙因子混合相似度算法(2)

        從表6可以看出,在冷啟動(dòng)的情況下,利用改進(jìn)后的相似度算法得到的相似度與實(shí)際的相似度是一致的,克服了傳統(tǒng)相似度不準(zhǔn)確的問題。

        3.3.3 與傳統(tǒng)的推薦算法比較

        本實(shí)驗(yàn)選取閾值為8時(shí)雙因子混合相似度推薦算法與3種傳統(tǒng)相似度推薦算法在不同近鄰下的對(duì)比,如圖2所示。根據(jù)圖2,得到各種相似算法的RMSE數(shù)據(jù),如表7所示。

        圖2 協(xié)同過濾算法和改進(jìn)后的混合推薦算法對(duì)比

        從圖2和表7可以看出,使用雙因子混合相似度simtfcc(u,v)推薦算法,在閾值TD=8時(shí),近鄰在20~25之間,預(yù)測(cè)評(píng)分與真實(shí)評(píng)分的偏離度RMSE的值在0.183 738 389~0.183 561 899間,此值比使用傳統(tǒng)相似度simc(u,v),simp(u,v),simcc(u,v)相似度算法得到的值要小,說明使用雙因子混合相似度算法推薦效果較好。

        表7 協(xié)同過濾算法和改進(jìn)后的混合推薦算法結(jié)果對(duì)比

        4 結(jié) 語

        本文提出一種基于雙因子混合相似度算法,該算法需要引入閾值判斷數(shù)據(jù)是否稀疏,用雙因子來平衡協(xié)同過濾相似度算法和基于讀者屬性相似度算法的權(quán)重,該算法一方面在一定程度上解決了數(shù)據(jù)稀疏和冷啟動(dòng)問題,提高了推薦精度,但是該算法中的閾值需要階段性尋優(yōu),閾值是否為最優(yōu),對(duì)計(jì)算相似度的結(jié)果影響很大;另一方面,在冷啟動(dòng)時(shí),還需要深入挖掘讀者屬性隱含的信息來判斷讀者之間的相似度,這需要進(jìn)一步深入研究。

        猜你喜歡
        用戶
        雅閣國內(nèi)用戶交付突破300萬輛
        車主之友(2022年4期)2022-08-27 00:58:26
        您撥打的用戶已戀愛,請(qǐng)稍后再哭
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年5期)2016-11-28 09:55:15
        兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        挖掘用戶需求尖端科技應(yīng)用
        Camera360:拍出5億用戶
        100萬用戶
        亚州AV无码乱码精品国产 | 国产一区二区三区仙踪林| 国产精品精品自在线拍| 无码一区二区三区老色鬼| 99久久精品国产自在首页| 国产av麻豆精品第一页| 插鸡网站在线播放免费观看| 国产精品沙发午睡系列990531 | 色综合久久中文综合久久激情| 男子把美女裙子脱了摸她内裤| 偷拍美女上厕所一区二区三区| 亚洲av永久无码精品三区在线| 国产AV无码专区亚洲AⅤ| 国产精品一区二区三密桃| 国产饥渴的富婆一凶二区| 国产午夜福利精品一区二区三区 | 高清无码精品一区二区三区| 亚洲最大的av在线观看| 国产一区二区三区精品免费av| 欧美精品一区二区蜜臀亚洲| 亚洲AV成人无码国产一区二区 | 亚洲不卡在线免费视频| 男女高潮免费观看无遮挡| 一区二区国产在线观看| 亚洲综合免费在线视频| 国产自拍视频在线观看网站| 国产高潮刺激叫喊视频| 国产艳妇av在线出轨| 韩国黄色三级一区二区| 美女扒开屁股让男人桶| 精品国产av 无码一区二区三区| 日韩成人精品日本亚洲| 人妻在线有码中文字幕| 亚洲精品久久久av无码专区| 亚洲精品你懂的在线观看| 大香蕉久久精品一区二区字幕| 中文字幕亚洲熟女av| 日本50岁丰满熟妇xxxx| 人妖另类综合视频网站| 精品国产亚洲一区二区三区四区| 久久综合九色综合久99|