亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于資源特征的協(xié)同過濾算法的研究

        2012-08-15 02:01:46徐德智廖暉寰
        關(guān)鍵詞:余弦權(quán)重向量

        王 偉,徐德智,廖暉寰

        (中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙 410083)

        隨著網(wǎng)絡(luò)的迅速發(fā)展,資源數(shù)量也成倍地增長(zhǎng)。所面臨的問題已經(jīng)不是如何找到資源,而是怎樣從資源海洋中找到自己所需要的資源。用戶獲取所需資源最常用的手段就是搜索關(guān)鍵詞和瀏覽推薦資源。以往簡(jiǎn)單的搜索和推薦資源并沒有考慮用戶的個(gè)性化需求(即沒有針對(duì)性),找到的資源可能與用戶需要的資源差距很大。此外,有時(shí)候用戶也無法準(zhǔn)確地把自己的需求形象地表示出來。

        所謂推薦引擎,就是不需要用戶額外的勞動(dòng),就可以根據(jù)用戶的個(gè)性化特征推測(cè)用戶可能感興趣的資源,然后再將其推薦給用戶。個(gè)性化推薦在某些領(lǐng)域已經(jīng)取得了成功,最有名的有亞馬遜推薦系統(tǒng)、Pandora音樂推薦系統(tǒng)等。目前,個(gè)性化服務(wù)的研究已經(jīng)越來越受重視,尤其是在電子商務(wù)領(lǐng)域和搜索引擎領(lǐng)域。

        1 相關(guān)研究

        目前,針對(duì)推薦引擎的理論已經(jīng)有很多研究,推薦主要可以分為基于內(nèi)容的推薦、協(xié)同過濾推薦和混合推薦。協(xié)同過濾推薦又可分為基于用戶的推薦、基于項(xiàng)目的推薦和基于模型的推薦。參考文獻(xiàn)[1]中論述了推薦引擎的工作原理和其中涉及的各種推薦機(jī)制。參考文獻(xiàn)[2]和[3]中論述了在協(xié)同推薦算法中加入了用戶背景信息,將用戶或者資源進(jìn)行分類以提高推薦的準(zhǔn)確度。參考文獻(xiàn)[4]在協(xié)同推薦算法中加入時(shí)間因素以跟蹤用戶的短期興趣和長(zhǎng)期興趣。以往的協(xié)同推薦算法都是根據(jù)用戶以往對(duì)于資源的興趣評(píng)分來推測(cè)該用戶對(duì)其他未評(píng)分的物品的興趣評(píng)分,它只考慮用戶對(duì)物品的態(tài)度,而忽略了物品本身的屬性和特征,因此對(duì)于新物品的推薦有“冷啟動(dòng)”問題。此外,它還具有數(shù)據(jù)稀疏性問題。

        針對(duì)以往協(xié)同過濾推薦算法的不足,本文提出了基于資源特征的協(xié)同過濾推薦算法。通過記錄和分析用戶在網(wǎng)站上的動(dòng)態(tài)行為,將用戶對(duì)于資源的喜好轉(zhuǎn)化為用戶對(duì)于關(guān)鍵詞的興趣權(quán)重,將用戶興趣的變化轉(zhuǎn)化為用戶興趣關(guān)鍵詞權(quán)重的變化,以此建立用戶興趣模型。最后,通過建立用戶興趣模型與資源模型間的關(guān)聯(lián)達(dá)到資源推薦的目的。它不僅沒有“冷啟動(dòng)”問題和數(shù)據(jù)稀疏性問題,而且能夠跟蹤用戶的長(zhǎng)期興趣和短期興趣。

        2 相似度策略

        常用的相似度計(jì)算方法主要有歐氏距離、余弦相似性、相關(guān)相似性和修正的余弦相似性。本文采用余弦相似性[5]方法計(jì)算兩個(gè)空間向量的相似度。

        設(shè)用戶 U1的關(guān)鍵詞集合為 A,U2的關(guān)鍵詞集合為B。如果U2為用戶,則取集合A和B的并集作為標(biāo)準(zhǔn)關(guān)鍵詞集合S,即S=A∪B;如果 U2為資源,則取集合 B作為標(biāo)準(zhǔn)關(guān)鍵詞集合S,即S=B。

        設(shè)U1對(duì)應(yīng)于 S的權(quán)重向量為 x,U2對(duì)應(yīng)于 S的權(quán)重向量為 y,則x、y為 n維項(xiàng)空間上的向量。x與 y之間的相似性可以通過向量間的余弦夾角度量。因此U1和U2的相似性 Sim(U1,U2)為:

        式中,分子為兩個(gè)向量的內(nèi)積,分母為兩個(gè)向量模的乘積。

        3 基于資源特征的協(xié)同推薦算法

        本文提出的基于資源特征的協(xié)同推薦算法以用戶對(duì)于所有興趣關(guān)鍵詞的權(quán)重向量來描述用戶,以最喜歡目標(biāo)資源的多個(gè)用戶的興趣權(quán)重向量來描述目標(biāo)資源,通過計(jì)算目標(biāo)資源向量與其他資源向量之間的相似度來查找與該資源最相似的資源,從而達(dá)到推薦的目的。整個(gè)推薦流程如圖1所示。

        圖1 基于資源特征的協(xié)同推薦模型

        3.1 信息收集

        本文的信息收集不同于以往的協(xié)同推薦算法,它通過收集用戶在網(wǎng)站上的動(dòng)態(tài)行為來作為用戶的興趣源。以基礎(chǔ)教育資源網(wǎng)為例,能夠表達(dá)用戶愛好的操作行為主要有瀏覽、播放、下載、預(yù)覽、推薦、收藏、刪除收藏、分享、搜索、評(píng)分、評(píng)論、購(gòu)買等。不同的行為所表達(dá)的用戶對(duì)于資源的愛好程度不一定相同(例如瀏覽和收藏表達(dá)的用戶愛好程度不一致)。因此,當(dāng)用戶執(zhí)行該類操作時(shí),需要記錄用戶操作的類型和訪問時(shí)間作為用戶興趣的依據(jù)。

        3.2 用戶興趣建模

        考慮到網(wǎng)站的性能需求,用戶興趣模型的更新是周期性的,即離線進(jìn)行。用戶興趣模型的建立和更新分為以下幾個(gè)步驟:

        (1)將用戶行為記錄轉(zhuǎn)化為用戶關(guān)鍵詞興趣權(quán)重,并把對(duì)應(yīng)關(guān)鍵詞的最后訪問時(shí)間設(shè)定為該行為的發(fā)生時(shí)間,然后刪除該行為記錄。在將用戶的行為轉(zhuǎn)化為用戶興趣關(guān)鍵詞權(quán)重時(shí),根據(jù)行為的不同對(duì)應(yīng)關(guān)鍵詞的權(quán)重增量也不同,例如瀏覽時(shí)與資源相關(guān)的關(guān)鍵詞的興趣權(quán)重分別增加a,而收藏時(shí)與資源相關(guān)的關(guān)鍵詞的興趣權(quán)重分別增加2a,刪除收藏則對(duì)應(yīng)關(guān)鍵詞權(quán)重增量為-2a。關(guān)鍵詞興趣權(quán)重值最大不應(yīng)超過Wmax(最大權(quán)重值Wmax為常數(shù)),且不能小于0(小于0則刪除該記錄)。

        (2)根據(jù)時(shí)間窗(為一常數(shù))更新所有興趣關(guān)鍵詞權(quán)重。用戶的興趣可能會(huì)隨著時(shí)間的變化而變化,對(duì)于那些用戶不再感興趣的關(guān)鍵詞,其興趣權(quán)重應(yīng)下降。因此,如果當(dāng)前時(shí)間與某關(guān)鍵詞的訪問時(shí)間之差大于時(shí)間窗t時(shí),則對(duì)應(yīng)關(guān)鍵詞的權(quán)重 W會(huì)減少 b(b為常量),如果W≤0,則刪除該關(guān)鍵詞記錄。

        (3)以用戶為單位采用極差變換法標(biāo)準(zhǔn)化用戶興趣關(guān)鍵詞權(quán)重。因?yàn)橥ㄟ^以上步驟獲得的用戶興趣模型是不標(biāo)準(zhǔn)的,需要進(jìn)行標(biāo)準(zhǔn)化處理之后才能正確分析出用戶的興趣。

        3.3 推薦的產(chǎn)生

        推薦結(jié)果的產(chǎn)生可以分為以下幾個(gè)步驟(相似度計(jì)算采用本文第2節(jié)介紹的余弦相似度計(jì)算方法):

        (1)建立矩陣 A=(aij)m×n, 其中 m 為資源數(shù)量,n 為最喜歡目標(biāo)資源的前n個(gè)用戶。矩陣的第i行記為Ai。

        (2)計(jì)算目標(biāo)資源R與所有用戶興趣模型的相似度,相似度最高的前n個(gè)用戶(也可以取相似度大于某個(gè)臨界值的所有用戶)即為最喜歡該資源的前n個(gè)用戶。設(shè)最喜歡目標(biāo)資源 R的用戶集合 V={v1,v2,…,vn},目標(biāo)資源 R與用戶 V[i]的相似度為 Sim(V[i],R),其中V[i]∈V。 設(shè) A0=Sim(V[i],R),其中 i=0,1,…,N-1。

        (3)分別計(jì)算用戶 V[i]的興趣模型與其他所有資源模型的相似度。設(shè)用戶V[i]對(duì)資源j的相似度為Sim(V[i],j),則 aij=Sim(V[i],j),其中 V[i]∈V;i=0,1,…,n-1;j=1,…,m-1。

        (4)計(jì)算目標(biāo)資源與其他資源之間的相似度。矩陣的每一個(gè)行向量都表示一個(gè)資源,其中A0為目標(biāo)資源的向量。通過計(jì)算矩陣 A0與(Ai)T(i=1,2,…,m-1)的余弦相似度,選取相似度最高的前k個(gè)資源即為與目標(biāo)資源最相似的資源,也就是推薦的資源列表。

        4 實(shí)驗(yàn)結(jié)果和分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文基于北京國(guó)之源公司提供的基礎(chǔ)教育資源測(cè)試數(shù)據(jù)集對(duì)上述算法的有效性進(jìn)行了測(cè)試,并與傳統(tǒng)的協(xié)同過濾推薦算法進(jìn)行了比較。此數(shù)據(jù)集包含各類數(shù)據(jù)共9萬多條,數(shù)據(jù)集采用高中一年級(jí)的語文資源數(shù)據(jù)約3 000條,測(cè)試用戶數(shù)量為100,每個(gè)用戶至少訪問過30個(gè)資源。

        4.2 度量標(biāo)準(zhǔn)

        推薦質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)采用平均絕對(duì)誤差MAE(即通過計(jì)算預(yù)測(cè)的用戶評(píng)分與實(shí)際的用戶評(píng)分之間的誤差)來度量,MAE值越小,推薦質(zhì)量越高。

        用戶u對(duì)于目標(biāo)資源R的真實(shí)評(píng)分Pu,R可表示為:

        式中,Sim(u,R)為用戶 u與目標(biāo)資源 R的余弦相似度。

        設(shè)目標(biāo)資源 R 的最近鄰集合為 Np={r1,r2,…,rn},資源 R與資源 ri的相似度為 sim (R,ri)(其相似度計(jì)算按第3.3節(jié)的步驟進(jìn)行),其中 ri∈Np。則用戶 u對(duì)于資源R的預(yù)測(cè)評(píng)分 Qu,R可表示為[6]:

        式中,Sim(u,ri)為用戶 u與資源 ri的余弦相似度。

        設(shè)預(yù)測(cè)的用戶評(píng)分集合為{p1,p2,…,pn},對(duì)應(yīng)的用戶實(shí)際評(píng)分集合為{q1,q2,…,qn},則平均絕對(duì)誤差 MAE可表示為:

        4.3 實(shí)驗(yàn)結(jié)果

        通過對(duì)本文所提出的基于資源特征的協(xié)同過濾算法進(jìn)行測(cè)試和與傳統(tǒng)的協(xié)同過濾推薦算法進(jìn)行比較可知,本文算法MAE值比傳統(tǒng)算法低。實(shí)驗(yàn)結(jié)果如圖2所示。

        圖2 基于項(xiàng)目特征的協(xié)同過濾推薦算法

        從圖中可以看出,本文的基于資源特征的協(xié)同過濾推薦的準(zhǔn)確性要比傳統(tǒng)的基于項(xiàng)目的協(xié)同過濾推薦算法高;鄰居數(shù)太少,會(huì)使推薦的準(zhǔn)確率降低,而鄰居數(shù)太多,則對(duì)推薦的準(zhǔn)確性影響不大。

        4.4 實(shí)驗(yàn)結(jié)果分析與比較

        本文所提出的基于資源特征的協(xié)同過濾推薦算法與傳統(tǒng)的基于項(xiàng)目的協(xié)同過濾推薦算法的主要不同點(diǎn)在于用戶興趣的表現(xiàn)方式不同。傳統(tǒng)的基于項(xiàng)目的協(xié)同過濾推薦算法是以資源整體為單位來表示用戶的興趣,而基于項(xiàng)目關(guān)鍵詞的協(xié)同過濾推薦算法是以資源特征為單位來表示用戶的興趣。

        與傳統(tǒng)的基于項(xiàng)目的協(xié)同過濾推薦算法相比,本文所提出的基于資源特征的協(xié)同過濾推薦算法可以跟蹤用戶的短期興趣和長(zhǎng)期興趣,不存在數(shù)據(jù)稀疏性問題和新資源的“冷啟動(dòng)”問題,所需的顯示用戶反饋比較少,但是計(jì)算的復(fù)雜度比傳統(tǒng)算法高。

        本文根據(jù)以往協(xié)同推薦算法的不足,提出了一種基于資源特征的協(xié)同過濾推薦算法。通過在基礎(chǔ)教育資源網(wǎng)上的實(shí)驗(yàn)結(jié)果表明,該算法解決了數(shù)據(jù)稀疏性問題和新資源的“冷啟動(dòng)”問題。同時(shí),它還能夠跟蹤用戶的興趣變遷,而推薦質(zhì)量也有所提高。下一步的工作是研究根據(jù)用戶的背景和用戶的關(guān)鍵詞興趣模型對(duì)用戶進(jìn)行聚類,以減少相似資源的計(jì)算開銷并提高推薦的準(zhǔn)確性。

        1]趙晨琳,馬春娥.探索推薦引擎內(nèi)部的秘密,第1部分:推薦引 擎初探 [EB/OL].(2011-03-16)[2012-03-02].http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/.

        [2]吳一帆,王浩然.結(jié)合用戶背景信息的協(xié)同過濾推薦算法[J].計(jì)算機(jī)應(yīng)用,2008,28(11):2972-2974.

        [3]劉旭東,葛俊杰,陳德人.一種基于聚類和協(xié)同過濾的組合推薦算法[J].計(jì)算機(jī)工程與科學(xué),2010,32(12): 125-127.

        [4]戰(zhàn)守義,井新.加入時(shí)間因素的個(gè)性化信息過濾技術(shù)[J].北京理工大學(xué)學(xué)報(bào),2005,25(9):782-785.

        [5]曾子明,于小鵬.電子商務(wù)推薦系統(tǒng)與智能談判技術(shù)[M].武漢:武漢大學(xué)出版社,2008:30-118.

        [6]SARWAR B, KARYPIS G, KONSTON J, et al.Itembased collaborative filtering recommendation algorithms[C].In:Proceedings of the 10th international conference on World Wide Web, 2001:285-295.

        猜你喜歡
        余弦權(quán)重向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        權(quán)重常思“浮名輕”
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        兩個(gè)含余弦函數(shù)的三角母不等式及其推論
        向量垂直在解析幾何中的應(yīng)用
        分?jǐn)?shù)階余弦變換的卷積定理
        圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        av高清视频在线麻豆免费观看| 少妇人妻偷人精品无码视频| 亚洲AV综合A∨一区二区| 国产在线拍91揄自揄视精品91| 亚洲天堂精品一区入口| 毛片无码国产| 成年视频国产免费观看| 蜜桃视频一区二区三区在线| 人妻一区二区三区在线看| 无码人妻精品一区二区三区9厂| √天堂中文官网8在线| 日韩少妇无码一区二区免费视频| 青青青爽在线视频免费播放| 偷看农村妇女牲交| 亚洲欧美日韩在线一区| 亚洲A∨日韩Av最新在线| 成av人大片免费看的网站| 亚洲av无码久久| 久久AV老司机精品网站导航| 粉嫩av一区二区在线观看| 人妻制服丝袜中文字幕| 亚洲色国产欧美日韩| 久久精品国产亚洲AⅤ无码| 国产三级在线观看不卡| 真人做爰试看120秒| 亚洲av无码不卡| 久久精品国产亚洲AV香蕉吃奶| 国产中文色婷婷久久久精品| 人妻仑乱a级毛片免费看| 日韩无码视频淫乱| 91大神蜜桃视频在线观看| 亚洲男人天堂一区二区| 国产尤物精品福利视频| 亚洲无码性爱视频在线观看| 色婷婷久久综合中文蜜桃| 99精品人妻无码专区在线视频区| 日韩爱爱网站| 欧洲熟妇色xxxx欧美老妇多毛| 国产精品美女白浆喷水| 亚洲一区二区av免费观看| 成人内射国产免费观看|