亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于加權(quán)信息熵相似性的協(xié)同過濾算法

        2012-12-03 01:22:58劉文龍張桂蕓朱薔薔
        關(guān)鍵詞:信息熵計(jì)算方法相似性

        劉文龍,張桂蕓,陳 喆,朱薔薔

        (1.天津師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,天津300387;2.天津師范大學(xué) 城市與環(huán)境科學(xué)學(xué)院,天津300387)

        0 引言

        互聯(lián)網(wǎng)技術(shù)的快速發(fā)展使我們進(jìn)入了信息爆炸的時(shí)代[1],用戶需要處理大量毫無意義的信息和垃圾數(shù)據(jù).個(gè)性化推薦系統(tǒng)是一種解決信息過載問題的工具,而協(xié)同過濾技術(shù)是推薦系統(tǒng)中最為成功的技術(shù)之一,尤其是在電子商務(wù)領(lǐng)域里的應(yīng)用[2].它是基于這樣一種假設(shè):興趣愛好相似的用戶對(duì)相同項(xiàng)目的評(píng)價(jià)相似.實(shí)現(xiàn)協(xié)同過濾技術(shù)時(shí),依據(jù)所建立模型的種類,可以分為基于用戶的協(xié)同過濾和基于項(xiàng)目的協(xié)同過濾[3].由于在實(shí)際應(yīng)用中,項(xiàng)目數(shù)量更加穩(wěn)定,并往往遠(yuǎn)低于用戶數(shù)量,因此,基于項(xiàng)目的協(xié)同過濾方法更為常用[4].它的大體步驟如下:①收集項(xiàng)目信息,如用戶的瀏覽購買和評(píng)價(jià)記錄;②根據(jù)收集的信息計(jì)算項(xiàng)目的K鄰近集合;③通過K鄰近集合進(jìn)行分析計(jì)算產(chǎn)生對(duì)目標(biāo)用戶的推薦.作者選擇基于項(xiàng)目的協(xié)同過濾算法對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析驗(yàn)證.

        由上面介紹的協(xié)同過濾技術(shù)步驟可以看出,相似性計(jì)算是協(xié)同過濾技術(shù)的核心.傳統(tǒng)的相似度計(jì)算方法有余弦相似性(Cosine)[5]、Pearson相似相關(guān) 系 數(shù)[5]、修 正 的 余 弦 相 似 性[5]、Spear man相似性.其中,Pearson相似相關(guān)系數(shù)是最為常用的相似度計(jì)算方法,Pearson相關(guān)系數(shù)用于衡量兩個(gè)向量之間的線性關(guān)系.設(shè)項(xiàng)目i和項(xiàng)目j共同評(píng)分的用戶集合為Uij,利用Pearson相關(guān)系數(shù)得到兩者相似性為Si m(i,j)

        式中:Ru,i,Ru,j分別為用戶u 對(duì)項(xiàng)目i和j的評(píng)

        1 基于加權(quán)信息熵的相似度計(jì)算方法NNWD

        1.1 算法的提出

        傳統(tǒng)的相似度計(jì)算方法在協(xié)同過濾技術(shù)中存在一定弊端,如:①在數(shù)據(jù)高維稀疏的情況下,用戶之間關(guān)注圈交集(共同評(píng)分項(xiàng)目)的規(guī)模大多偏小且不一致,傳統(tǒng)的相似性度量方法容易過分地夸大或者縮小用戶間的真實(shí)相似性[6];②受數(shù)據(jù)稀疏等影響,推薦精度較低[6];③Pearson相關(guān)系數(shù)必須滿足數(shù)據(jù)之間的線性關(guān)系以及殘差相互獨(dú)立且均值為0等假設(shè)[6].當(dāng)這些條件不滿足時(shí),其計(jì)算準(zhǔn)確度將會(huì)降低.

        例如對(duì)于項(xiàng)目I1和I2,首先找出I1和I2共同評(píng)分的用戶評(píng)分,I1(2,1,2,1)和I2(5,4,5,4),用Pearson相關(guān)系數(shù)計(jì)算I1與I2的相似性Si m(I1,I2)=1,完全正相關(guān),相似度最高,而實(shí)際上I1的評(píng)分普遍偏低,I2的評(píng)分普遍偏高,他們的相似度沒有那么高.對(duì)于I3(4,5,4,5)和I2(5,4,5,4),Si m(I2,I3)=-1,完全負(fù)相關(guān),相似度最低,而I3與I2的普遍評(píng)分都比較高,他們的相似度沒有那么低.對(duì)于判斷I1(2,1,2,1)與I4(2,1,2,2),I1(2,1,2,1)與I5(2)誰更相似時(shí),由于I1與I5只有一個(gè)項(xiàng)目評(píng)分一樣,用Pearson相關(guān)系數(shù)計(jì)算Si m(I1,I5)=1,Si m(I1,I4)=0.5774,而I1與I4有3個(gè)項(xiàng)目評(píng)分一致,它們相似度應(yīng)該更高.對(duì)于某些項(xiàng)目的評(píng)分,像I(1,1,1,1)和I(5,5,5,5),用傳統(tǒng)的相似度計(jì)算方法無法準(zhǔn)確計(jì)算它們之間的相似度.

        1.2 NN WD算法設(shè)計(jì)

        信息熵是信息論中用于度量信息混亂程度的一個(gè)概念.信息越混亂,信息熵越大.對(duì)于給定的樣本集X,它的信息熵公式為

        式中:N為X 中分類的數(shù)量;p(xi)為X中第i類元素出現(xiàn)的概率.將信息熵用于項(xiàng)目之間相似度的計(jì)算,兩個(gè)項(xiàng)目之間評(píng)分差異的信息熵越大,表示兩個(gè)項(xiàng)目差異越混亂,相似度也就越低.基于信息熵的相似度計(jì)算步驟如下:

        (1)假設(shè)項(xiàng)目I1和I2共同評(píng)分的用戶集合為U={u1,u2,…,un},I1和I2的共同評(píng)分為I1=(Ru1,I1,Ru2,I1,Ru3,I1,…,Run,I1)和 I2= (Ru1,I2,Ru2,I2,Ru3,I2,…,Run,I2),I1和 I2的 評(píng) 分 差 異 度D(I1,I2)定義為

        (2)根據(jù)公式(2),計(jì)算差異度的信息熵為

        這里N表示di的種類數(shù),極端情況下若di全都相同,則N=1.考慮到評(píng)分差異對(duì)相似度的影響,越大,相似度越低.所以計(jì)算信息熵時(shí),加入權(quán)重更加合理.同時(shí)兩個(gè)項(xiàng)目擁有的共同評(píng)價(jià)數(shù)n也會(huì)對(duì)相似度產(chǎn)生影響,n越大,相似度越大,所以加入1/n作為權(quán)重.新的加權(quán)差異信息熵的計(jì)算公式為

        式中:n為項(xiàng)目I1和I2的共同評(píng)分集合大小;di為第i項(xiàng)評(píng)分的差值;Ni為di在評(píng)分差異度集合D中出現(xiàn)的次數(shù).由公式可知,NWD(I1,I2)取值范圍為0到+∞,NWD(I1,I2)越大相似度越低.

        (3)將NWD(I1,I2)歸一化到 0,[]1由于NWD(I1,I2)越大相似度越低,所以采用如下歸一化方法[6]

        其中 Max(NWDIa)表示NN WDIa集合中最大值;Min(NWDIa)表示NN WDIa集合中最小值;NN WDIa就是歸一化之后的相似度,取值范圍為0到1,值越大,項(xiàng)目間的相似度越高.

        NNWD(Nor malized New Weighted Differences)算法是利用兩個(gè)項(xiàng)目之間的差異,將項(xiàng)目間共同評(píng)分的交集大小和差異大小作為權(quán)值加入到差異信息熵公式去,最后進(jìn)行歸一化處理,形成了歸一化的新加權(quán)差異信息熵(NN WD)算法.

        2 數(shù)據(jù)實(shí)驗(yàn)及結(jié)果分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí) 驗(yàn) 采 用 Movie Lens 站 點(diǎn) (http://movielens.u mn.edu)的實(shí)驗(yàn)數(shù)據(jù),共匯總了用戶943個(gè),項(xiàng)目(影片)1 682個(gè),以及用戶對(duì)影片產(chǎn)生的100 000條評(píng)分記錄,數(shù)據(jù)集稀疏度為1-100 000/(943×1 682)≈0.93 695[7],非常稀疏.用戶評(píng)分從1到5五個(gè)等級(jí).數(shù)據(jù)集按80%和20%劃分成訓(xùn)練集和測試集.

        2.2 預(yù)測評(píng)分和度量方法

        將相似性最高的若干項(xiàng)目作為目標(biāo)項(xiàng)目Ia的鄰居集合M={I1,I2,…,Ik},其中Ia?M,集合M中的項(xiàng)目按照與Ia相似度從高到低排列.根據(jù)K個(gè)最相似鄰居預(yù)測目標(biāo)用戶u對(duì)項(xiàng)目Ia的評(píng)分,公式為[8]:

        式中:Ru,I為用戶u對(duì)I的評(píng)分;和RI為Ia和I的平均評(píng)分;sim(Ia,I)為Ia和I的相似度.

        平均絕對(duì)誤差(MAE)是最常用的用于統(tǒng)計(jì)測試集精準(zhǔn)度的度量方法[9].設(shè)用戶u對(duì)項(xiàng)目的預(yù)測值集合為{p1,p2,…,pn},用戶u的實(shí)際評(píng)分集合為{q1,q2,…,qn},平均絕對(duì)誤差 MAE 定義為[10]

        2.3 實(shí)驗(yàn)結(jié)果及分析

        取測試集中10個(gè)項(xiàng)目來預(yù)測目標(biāo)用戶對(duì)它們的評(píng)分.分別取最鄰近集合大小K為10到60,步長為10,在同一數(shù)據(jù)環(huán)境下,與基于余弦相似性的協(xié)同過濾、基于Pearson相似性的協(xié)同過濾、基于Spear man相似性的協(xié)同過濾進(jìn)行比較.最終結(jié)果如圖1所示,可以看出基于信息熵的相似度計(jì)算方法一定程度上優(yōu)于其它方法.

        圖1 不同的相似度計(jì)算方法產(chǎn)生的結(jié)果Fig.1 The result of different similarity calculation methods

        進(jìn)而計(jì)算當(dāng)K=70,80,90時(shí),用NN WD方法的 MAE值分別為0.5741,0.5712和0.5665.

        3 結(jié)論

        作者將信息論中的信息熵理論應(yīng)用到協(xié)同過濾算法的相似度計(jì)算當(dāng)中,又考慮到不同的差異度對(duì)相似性的影響,對(duì)信息熵計(jì)算方法進(jìn)行相應(yīng)的加權(quán).運(yùn)用基于項(xiàng)目相似性的協(xié)同過濾算法進(jìn)行試驗(yàn)比較,相對(duì)于傳統(tǒng)的方法提高了預(yù)測精度.

        [1] 劉建國,周濤,王秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)[J].自然科學(xué)進(jìn)展,2009,19(1):1-14.

        [2] 許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2):350-362.

        [3] 李濤.推薦系統(tǒng)中若干關(guān)鍵問題研究[D].南京:南京航空航天大學(xué),2009.

        [4] 羅辛,歐陽元新,熊璋,等.通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1437-1445.

        [5] PANG Huan-li,ZHOU Lian-zhe,LIU Hai-mei.Personalization Portal System Based on Collaborative Filtering Algorith m[A].Inter national Conference on Co mputer,Mechatronics,Contr ol and Electronic Engineering(CMCE)[C].Changchun,JL,China:IEEE Industrial Electronics Society,2010:383-386.

        [6] 夏培勇.個(gè)性化推薦技術(shù)中的協(xié)同過濾算法研究[D].青島:中國海洋大學(xué),2011.

        [7] 鄧愛林,朱揚(yáng)勇,施伯樂.基于項(xiàng)目評(píng)分預(yù)測的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2003,14(9):1621-1628.

        [8] 吳月萍,鄭建國.協(xié)同過濾推薦算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(09):3019-3021.

        [9] 黃國言,李有超,高建培,等.基于項(xiàng)目屬性的用戶聚類協(xié)同過濾推薦算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(5):1038-1041.

        [10]孫小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動(dòng)問題研究[D].浙江:浙江大學(xué),2005.

        猜你喜歡
        信息熵計(jì)算方法相似性
        一類上三角算子矩陣的相似性與酉相似性
        浮力計(jì)算方法匯集
        基于信息熵可信度的測試點(diǎn)選擇方法研究
        淺析當(dāng)代中西方繪畫的相似性
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        低滲透黏土中氯離子彌散作用離心模擬相似性
        隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
        基于信息熵的IITFN多屬性決策方法
        不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
        韩日无码不卡| 久久无码av中文出轨人妻| 亚洲中文字幕无码一区| 欧美日韩国产成人综合在线影院| 国产一区二区三区涩涩涩 | 日韩女优精品一区二区三区| 中文字幕乱码亚洲精品一区| 这里只有久久精品| 国产又粗又猛又黄色呦呦| 午夜精品久久99蜜桃| 久久只精品99品免费久23| 亚洲欧美综合在线天堂| 超碰观看| 91精品人妻一区二区三区水蜜桃| 成人免费看aa片| 国产成人无码av在线播放dvd | 亚洲日韩精品欧美一区二区 | 五月天国产精品| 精品国产一区二区三区毛片| 男女18视频免费网站| 亚洲中文字幕久久精品无码喷水| 日本视频中文字幕一区在线| 青青草最新在线视频观看| 国产精品主播在线一区二区| 欧美成人免费全部| 国产丝袜一区二区三区在线不卡| 一区二区三区黄色一级片| 中文字幕人妻丝袜成熟乱| 18禁超污无遮挡无码免费游戏| 午夜国产精品久久久久| 白白色最新福利视频二| 亚洲男同gay在线观看| 亚洲精品日韩自慰喷水白浆| 丰满少妇一区二区三区专区| 日韩在线观看入口一二三四 | 中文无码一区二区三区在线观看 | 久久青青草原亚洲av无码麻豆| 国产日韩在线播放观看| 一区二区三区视频偷拍| 亚洲国产日韩a在线乱码| 亚洲视频一区|