亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        評分預測問題中個性化推薦模型的研究

        2016-06-17 03:18:08孟利民應頌翔
        浙江工業(yè)大學學報 2016年2期

        孟利民,趙 維,應頌翔

        (浙江工業(yè)大學 信息工程學院,浙江 杭州 310023)

        ?

        評分預測問題中個性化推薦模型的研究

        孟利民,趙維,應頌翔

        (浙江工業(yè)大學 信息工程學院,浙江 杭州 310023)

        摘要:評分預測問題的主要任務是通過分析用戶的歷史評分數(shù)據(jù)集,預測給定用戶對新物品的評分,是推薦系統(tǒng)中最熱門的問題之一.評分數(shù)據(jù)表征了用戶對物品的明確觀點,具有很高的挖掘價值.在對平均值預測模型、基于用戶的鄰域模型(UserCF)以及基于奇異值分解的模型(SVD)等進行了全面分析和研究的基礎上,對各個模型進行了不同程度的改進,最后使用MoiveLens的公開數(shù)據(jù)集將傳統(tǒng)模型和改進后的模型進行對比測試.測試結(jié)果表明:改進后的新模型相比傳統(tǒng)的推薦模型在推薦結(jié)果的精度上有了不同程度的提高.

        關鍵詞:推薦模型;鄰域模型;矩陣分解;加權(quán)融合

        人們已經(jīng)進入信息過載(Information overload)的時代[1].用戶面臨的煩惱是從紛繁復雜的信息中找到感興趣的信息;商戶需要應對的困難是讓信息獨具魅力,吸引大批用戶的關注.為了決上述矛盾,推薦系統(tǒng)作為一個重要的工具,發(fā)揮著巨大的作用[2-4].為了滿足提供用戶個性化服務的需求,推薦系統(tǒng)在網(wǎng)商平臺的商品推薦、新聞媒體推薦、音樂和電影推薦等多個領域內(nèi)得到廣泛應用.個性化推薦起源于上世紀90年代,最早使用個性化推薦技術(shù)的有GroupLens[5]和Ringo[6]等系統(tǒng);2006年在線DVD租賃公司Netflix Prize宣布將一百萬美金獎勵給能夠比其已有推薦算法精確度提高10%的團隊(衡量方法是均方差RMSE),大獎在2009年被四個團隊共同獲得,他們采用了各種技術(shù)的混合推薦方法提高了準確度[7].國內(nèi)的研究起步相對較晚,2009年7月,國內(nèi)首個個性化推薦系統(tǒng)科研團隊北京百分點信息科技有限公司成立;阿里巴巴集團在2015年3月舉辦了總獎金高達一百萬元人民幣的主題為穿衣搭配算法和移動電商推薦的“天池大數(shù)據(jù)競賽”.

        有一部分網(wǎng)站(口碑外賣)利用了進度條評分系統(tǒng),有一部分網(wǎng)站(天貓,京東)利用五星評分系統(tǒng),有一部分網(wǎng)站(Youtube)只需要用戶選擇喜愛還是不喜愛.以上每一種方法都有它們的優(yōu)勢和不足之處,但目標都是希望能夠獲得用戶對物品的明確興趣.評分預測問題就是分析和利用收集到的評分數(shù)據(jù),預測給定用戶對給定物品是否感興趣、感興趣的程度,以此來決定該物品是否應該推薦給該用戶.預測模型的好壞將直接影響預測結(jié)果的準確性,準確地將用戶感興趣的物品推薦給用戶,會增加用戶對網(wǎng)站的滿意度和依賴度.當前流行的預測模型中,基于鄰域的模型[8]在實際的推薦系統(tǒng)中應用最廣,但卻面臨著如數(shù)據(jù)稀疏度極大、物品和用戶數(shù)量的快速增長導致的存儲空間和計算量急劇增大等問題.研究人員針對以上問題,在對Netflix的開源數(shù)據(jù)大量分析的基礎上,研究出了基于矩陣分解的一系列模型[9].推薦系統(tǒng)不會使用單一模型進行推薦,在推薦時,往往會結(jié)合多個模型,從而給出更加精確的推薦結(jié)果.筆者在分析了平均值預測模型、鄰域模型及SVD[10]等的基礎上,對各個模型進行了不同程度的改進,最后使用MoiveLens的公開數(shù)據(jù)將傳統(tǒng)模型和改進后的模型進行對比測試,結(jié)果表明改進后的新模型相比傳統(tǒng)的推薦模型在推薦結(jié)果的精度上有了不同程度的提高.

        1預測模型

        (1)

        式中Test為測試集合中用戶對物品的評分數(shù)據(jù)集.

        1.1平均值預測模型

        平均值預測模型主要分為全局平均值模型[2]、用戶評分平均值模型[2]及物品評分平均值模型[2]等.

        全局平均值模型為

        (2)

        式中:Train為訓練集;u為一給定用戶;i為一給定物品;rui為用戶u對物品i的評分.下同.

        用戶評分平均值模型為

        (3)

        式中N(u)為用戶u的評分集合.

        物品評分平均值模型為

        (4)

        式中N(i)為物品i被評分的集合.

        1.2基于鄰域的預測模型

        基于用戶的鄰域模型[2](UserCF)和基于物品的鄰域模型[2](ItemCF)是兩種最常見的基于鄰域的預測模型.

        UserCF預測值定義為

        (5)

        ItemCF預測值定義為

        (6)

        1.3基于矩陣分解的預測模型

        (7)

        為防止過擬合,得到

        λ(‖pu‖+‖qi‖)2

        (8)

        式中:λ(‖pu‖+‖qi‖)2為防止過擬合項;λ為正則化參數(shù).

        為使損失函數(shù)C(p,q)最小,使用隨機梯度下降法[15-18]:第一步分別對p,q的求偏導數(shù),第二步迭代以更新p,q的值.其表達式為

        (9)

        2模型的改進和融合

        2.1改進的基于用戶的領域模型

        原模型為

        (10)

        UserCF影響預測準確性的因素:一是在選擇K個最相似用戶時wuv的選?。欢穷A測階段r′的選取.傳統(tǒng)的UserCF使用的度量標準是Pearsoncorrelation,其表達式為

        (11)

        式中I為u和v兩用戶的評分交集.

        wuv的計算結(jié)果被用來作為K個最相似用戶的選擇依據(jù),wuv越大則相似性越大.在日常生活中,每一個領域都有“專家”,這些“專家”在對應的領域投入的時間和精力比普通人多,因此對所在領域發(fā)生的事物評價也往往更具有參考價值.從這個角度出發(fā),反過來思考,認為相比其他人投入時間和精力更多的人在該領域的評價更有參考價值.實驗使用的數(shù)據(jù)集是電影的評分數(shù)據(jù),可以認為那些評價電影數(shù)量較大的人相比于電影評價數(shù)量很少的人的評分更具有參考價值,于是把相似度度量標準wuv修改為

        (12)

        式中:number(v)表示用戶v的評分數(shù)量;ave代表全部用戶評分總數(shù)的均值,經(jīng)過上述修改后,模型加入了“評分物品數(shù)量”這一權(quán)重因子,即與目標用戶評價相同物品的評分相近并且評價過較多物品的用戶們將被認為與目標用戶更相似.

        在進行評分預測時,UserCF中的wuv沒有涉及到時間上下文因素,實際上人們的興趣會隨時間發(fā)生變化:在很短的間隔時間內(nèi),與目標用戶相似的用戶對相同的物品給出了近似的評價,這樣表示該用戶與目標用戶興趣更加相似,說明該用戶的評價更具參考價值.另外,與目標用戶評分物品的交集占各自評分物品數(shù)量的比重越大,也能從一定程度反映兩者間相似度越高.于是將wuv修改為

        (13)

        式中:tui,tvi分別為用戶u和v對物品i評分時的時間信息;N(u),N(v)分別為用戶u,v評分過物品的總數(shù);I為用戶u,v評分過的物品交集;μ為興趣度變化快慢,這與實驗對象的選取有關,通過反復實驗獲得.

        用戶之間的相似度最直觀的體現(xiàn)就是找到兩個用戶同時評價過的所有物品,計算每個物品的評分差值的絕對值并求和然后做歸一化處理,值越小,相似度越高.熱門物品和不那么熱門的物品是不同的,如果一個物品比較冷門,并且兩個用戶的評分接近,那么認為這兩個用戶更相似.于是對熱門物品進行“懲罰”,最終得到相似度為

        (14)

        式中:abs(rui-rvi)為用戶u,v對物品i的評分差值的絕對值;s為評分步長由評分規(guī)則決定;l為正整數(shù),需要反復實驗獲得;l×s作為一個分界線,超過該分界線,則兩用戶對同一物品意見差別極大;N(i),N(u),N(v)分別代表物品i被評分的數(shù)量,用戶u,v評分物品的數(shù)量.將這一模型稱為D_UserCF.

        2.2BiasSVD和T-SVD

        1.3節(jié)提到的LFM,其評分預測公式為

        (15)

        實際上,每個評分系統(tǒng)都有與用戶不相關同也和物品不相關的特性,用戶也有與物品不相關的特性,物品也有與用戶不相關的特性.把評分預測公式修改為

        (16)

        該模型稱為BiasSVD,其中μ代表全局評分均值,bi代表物品i評分偏置項,代表物品在被評分時與用戶不相關的特性,bu代表用戶u的評分偏置項,代表用戶在評分時與物品不相關的特性.加入偏置項后,損失函數(shù)為

        ‖qi‖2+‖bi‖2+‖bu‖2)

        (17)

        最小化損失函數(shù)為

        (18)

        在原有基礎上加入時間信息,進而得到損失函數(shù)為

        ‖qi‖2+‖btui‖2)

        (19)

        最小化損失函數(shù)為

        (20)

        2.3模型加權(quán)融合

        (21)

        式中γi為第i個預測器的權(quán)重.

        實驗中,分別選取平均值預測模型、UserCF和SVD中評分精確度最接近的兩個模型進行加權(quán)融合,為降低預測誤差,使用最小二乘法計算得到γ0,γ1,γ2的值.

        誤差平方和為

        (22)

        根據(jù)極值存在的必要條件有

        (23)

        3實驗

        實驗設備:阿里云服務器,操作系統(tǒng)為CentOS release 6.6,CPU型號:Intel(R) Xeon(R) CPU E5-2630 0@2.30 GHz 4核,內(nèi)存大?。?.00 GB.

        3.1實驗說明

        實驗中使用的數(shù)據(jù)來自MoiveLens,內(nèi)容包含用戶7 000多人,影片15 000多部,評分數(shù)據(jù)90多萬條.MoiveLens規(guī)定任意用戶需要對大于等于15部的電影進行過評分.把數(shù)據(jù)集依據(jù)時間戳降序排列后分為訓練集X和測試集Y,其中X為全集的90%,Y為全集的10%,再將X用上述方式分為X1和X2,在X1上訓練不同的預測器,然后在X2上測試,同時獲得融合系數(shù),接下來把加權(quán)融合后的模型在Y上進行測試,即可獲得最后的預測值.為了方便描述,把融合后的均值模型稱為UI-average;把選擇k個近鄰用戶過程中,計算相似度時加了評價數(shù)量權(quán)重的UserCF算法稱為W_UserCF,把預測過程中加入了時間信息的算法稱為T_UserCF,融合得到的模型稱為WT_UserCF,再對WT_UserCF和D_UserCF進行加權(quán)平均,得到WTD_UserCF;T-SVD和Bias-SVD融合后得到的模型稱為TB-SVD.

        UserCF中近鄰用戶數(shù)量k是一個重要參數(shù),在保證準確度的情況下,取k=25,對于改進的模型T_UserCF還有一個用戶興趣度變化快慢的參數(shù)μ,通過交叉測試,取μ=10-7.SVD模型中有3個重要參數(shù),隱特征向量維數(shù)f,正則化參數(shù)λ和學習速率α,在保證正確的情況下取f=100,α的選取會影響迭代次數(shù),這里選取α=0.025,迭代次數(shù)約為30次結(jié)束,通過交叉試驗得到λ=0.04.

        3.2實驗結(jié)果與分析

        從表1~3的實驗結(jié)果可以看出:對傳統(tǒng)算法的每一次改進,算法在預測準確度上有了不同程度的提高,通過加權(quán)融合所得到的預測模型在準確度上超越了其他模型.

        表1 均值模型

        表2 基于用戶的領域模型

        表3 基于矩陣分解的SVD模型

        4結(jié)論

        首先對平均值預測模型、UserCF及SVD等進行了全面的分析和研究,在此基礎上對各模型進行修改和融合.對均值模型進行了加權(quán)融合,得到了UI-average,相比Item-average精確到提升了0.072 4,對基于用戶的鄰域模型進行了相似度的修改,最后得到的融合模型相比原模型精確度到提升了0.047 3,通過對Bias-SVD和T-SVD融合獲得的TB-SVD,相比原模型精確度也有一定提升.實驗結(jié)果表明:改進后的新模型相比原來的模型在推薦結(jié)果上都更加接近于真實值.

        參考文獻:

        [1]YANG C C, CHEN H, HONG K. Visualization of large category map for internet browsing[J]. Decision support systems,2003,35(2):89-102.

        [2]項亮.推薦系統(tǒng)實踐[M].北京:人民郵電出版社,2012.

        [3]冷亞軍,陸青,梁昌勇.協(xié)同過濾推薦技術(shù)綜述[J].模式識別與人工智能,2014,27(8):720-734.

        [4]許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學報,2009,20(2):350-362.

        [5]RESNICK P, IACOVOU N, SUCHAK M, et al. GroupLens: an open architecture for collaborative filtering of netnews[C]// In proceedings of the 1994 Acm Conference on Computer Supported Cooperative Work. Chapel Hill: Acm,1994:175-186.

        [6]SHARDANAND U, MAES P. Social information filtering: algorithms for automating “word of mouth”[C]// Proceedings of Acm CHI’95 Conference on Human Factors in Computing Systems. Denver: Acm,1995:210-217.

        [7]ZHOU Y, WILKINSON D, SCHREIBER R, et al. Large-scale parallel collaborative filtering for the netflix prize[C]//Algorithmic Aspects in Information and Management. Berlin:Springer,2008:337-348.

        [8]HERLOCKER J L, KONSTAN J A, Terveen L G, et al. Evaluating collaborative filtering recommender systems[J]. Acm transactions on information systems,2004,22(1):5-53.

        [9]BENNETT J, LANNING S, NETFLIX N, et al. The netflix prize[EB/OL]. [2015-09-15]. https://www.cs.uic.edu/~liub/KDD-cup-2007/NetflixPrize-description.pdf.

        [10]GOLUB G H, REINSCH C. Singular value decomposition and least squares solutions[M]. Berlin: Linear AlgebraSpringer,1971:134-151.

        [11]XIANG L, YANG Q. Time-dependent models in collaborative filtering based recommender system[J]. Web intelligence & intelligent agent technologies,2009(1):450-457.

        [12]KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer,2009,42(8):30-37.

        [13]KOREN Y. Collaborative filtering with temporal dynamics[J]. Communications of the Acm,2010,53(4):89-97.

        [14]KOREN Y. Factor in the neighbors: scalable and accurate collaborative filtering[J]. Acm transactions on knowledge discovery from data,2010,4(1):1-24.

        [15]哈林頓.機器學習實戰(zhàn)[M].北京:人民郵電出版社,2013.

        [16]肖剛,吳利群,張元鳴,等.一種基于協(xié)作頻度聚類的Web服務信任評估方法[J].浙江工業(yè)大學學報,2014,42(4):393-399.

        [17]劉端陽,王良芳.基于語義詞典和詞匯鏈的關鍵詞提取算法[J].浙江工業(yè)大學學報,2013,41(5):545-551.

        [18]孟利民,包軼名.基于局部特征的圖像插值算法在B/S視頻監(jiān)控中的應用[J].浙江工業(yè)大學學報,2015,43(2):217-221.

        (責任編輯:陳石平)

        Research on the personalized recommendation model in rating prediction

        MENG Limin, ZHAO Wei, YING Songxiang

        (College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China)

        Abstract:Rating prediction is one of the hottest issues in the recommendation system. Its main task is to predict a user’s rating for a new item based on the analysis of user’s history rating data. The rating data reveal the user’s view on items clearly and it will be of high mining value. The average prediction model, the neighborhood-based user model and the singular value decomposition-based model are studied and improved with certain degrees. Based on the MoiveLens’s public data set, the traditional model and the improved model are compared. The test results show that the improved model is better than the traditional model in prediction accuracy.

        Keywords:recommendation model; neighborhood model; matrix factorization; weighted fusion

        收稿日期:2015-10-20

        基金項目:國家自然科學基金資助項目(61372087)

        作者簡介:孟利民(1963—),女,浙江金華人,教授,研究方向為無線通信與網(wǎng)絡多媒體數(shù)字通信,E-mail:mlm@zjut.edu.cn.

        中圖分類號:TP391

        文獻標志碼:A

        文章編號:1006-4303(2016)02-0119-05

        亚洲av无码乱码国产精品fc2| 毛片av在线尤物一区二区| 91久久国产精品综合| 91精品国产综合久久熟女| 亚洲中文字幕久久无码精品| 午夜精品久久久久久| 欧美在线日韩| 粉嫩的18在线观看极品精品| 极品尤物人妻堕落沉沦| 亚洲另类欧美综合久久图片区| 久久尤物AV天堂日日综合| 性色av手机在线观看| 国产日韩厂亚洲字幕中文| 亚洲av高清在线一区二区三区| 99久久免费国产精品2017| 日韩国产有码在线观看视频| 一区二区日本影院在线观看| 产美女被爽到高潮免费a| 无码国模国产在线观看| 狠狠躁狠狠躁东京热无码专区| 国产成人AV乱码免费观看| 亚洲av在线观看播放| 无码人妻人妻经典| 国产喷水在线观看| 啪啪网站免费观看| 全国一区二区三区女厕偷拍| 久久久久亚洲av综合波多野结衣| 国产成人久久777777| 久久婷婷国产综合精品| 男奸女永久免费视频网站| 国产亚洲欧洲aⅴ综合一区| 久久久久久久久久久国产| 亚洲欧美久久婷婷爱综合一区天堂 | 国产天堂网站麻豆| 国产一区二区毛片视频| 狠狠色噜噜狠狠狠8888米奇| 日本高清色倩视频在线观看| 国产精品不卡无码AV在线播放| 亚洲一区二区国产一区| 国产精品狼人久久久久影院| 久久九九青青国产精品|