亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于用戶(hù)對(duì)項(xiàng)目屬性偏好的推薦算法

2016-11-11 09:40:01陳伶紅徐華中吳友宇

武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版) 2016年5期

關(guān)鍵詞：用戶(hù)模型

陳伶紅，徐華中，李鮑，吳友宇

(1.武漢理工大學(xué) 自動(dòng)化學(xué)院，湖北武漢 430070；2.武漢理工大學(xué) 信息工程學(xué)院，湖北武漢 430070)

一種基于用戶(hù)對(duì)項(xiàng)目屬性偏好的推薦算法

陳伶紅1，徐華中1，李鮑1，吳友宇2

(1.武漢理工大學(xué) 自動(dòng)化學(xué)院，湖北武漢 430070；2.武漢理工大學(xué) 信息工程學(xué)院，湖北武漢 430070)

針對(duì)協(xié)同過(guò)濾推薦算法中存在的數(shù)據(jù)稀疏性問(wèn)題，提出了一種基于用戶(hù)偏好模型的混合聚類(lèi)推薦算法。利用用戶(hù)-項(xiàng)目評(píng)分矩陣參考TF-IDF和信息熵的原理得到了用戶(hù)對(duì)項(xiàng)目屬性的偏好模型，并以此為基礎(chǔ)數(shù)據(jù)進(jìn)行用戶(hù)聚類(lèi)、相似度計(jì)算和最近鄰查詢(xún)，然后對(duì)用戶(hù)未評(píng)分的項(xiàng)目進(jìn)行評(píng)分預(yù)測(cè)，進(jìn)而產(chǎn)生推薦。實(shí)驗(yàn)表明，基于用戶(hù)對(duì)項(xiàng)目屬性偏好的混合聚類(lèi)推薦算法與傳統(tǒng)的協(xié)同過(guò)濾和基于用戶(hù)-項(xiàng)目評(píng)分矩陣的聚類(lèi)算法相比，在推薦精度上表現(xiàn)出一定的優(yōu)越性。

推薦算法；協(xié)同過(guò)濾；用戶(hù)偏好；SOM；K-means

隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展，人們逐漸從信息匱乏的時(shí)代走入了信息過(guò)載的時(shí)代。推薦系統(tǒng)能夠有效地解決信息過(guò)載問(wèn)題，在電子商務(wù)領(lǐng)域得到了廣泛的應(yīng)用，其中推薦算法則是最核心的技術(shù)點(diǎn)。協(xié)同過(guò)濾推薦算法是目前最為成熟的一種推薦算法[1]，可分為基于用戶(hù)的協(xié)同過(guò)濾和基于項(xiàng)目的協(xié)同過(guò)濾?；谟脩?hù)的協(xié)同過(guò)濾推薦算法主要是依據(jù)用戶(hù)的歷史評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶(hù)間的相似度，找到目標(biāo)用戶(hù)的最近鄰居，目標(biāo)用戶(hù)對(duì)未評(píng)分項(xiàng)目的評(píng)分可以通過(guò)其近鄰對(duì)該項(xiàng)目的評(píng)分進(jìn)行預(yù)測(cè)，將評(píng)分最高的前N個(gè)項(xiàng)目推薦給目標(biāo)用戶(hù)。但是隨著電子商務(wù)系統(tǒng)規(guī)模的擴(kuò)大，用戶(hù)數(shù)量和項(xiàng)目數(shù)量的增加，導(dǎo)致用戶(hù)-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)出現(xiàn)嚴(yán)重的稀疏性，用戶(hù)相似度計(jì)算十分耗時(shí)，并且很難找到相似的用戶(hù)集，使得推薦質(zhì)量下降。為此，許多學(xué)者將數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的方法與協(xié)同過(guò)濾相結(jié)合。如曹渝昆提出了一種基于Web挖掘和Fuzzy Art神經(jīng)網(wǎng)絡(luò)的電子商務(wù)顧客分類(lèi)方法，可以縮小目標(biāo)顧客的鄰居用戶(hù)搜索范圍，縮短推薦時(shí)間[2]，但是此方法主要挖掘的是隱式數(shù)據(jù)，對(duì)數(shù)據(jù)處理技術(shù)要求較高；成桂蘭等提出一種基于SOM和K-means混合聚類(lèi)的推薦算法[3]，該方法在一定程度上縮短了最近鄰查詢(xún)時(shí)間，提高了推薦效率和推薦質(zhì)量，但是稀疏的用戶(hù)-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)使得某些可能相似的用戶(hù)因缺少共同評(píng)分項(xiàng)目而導(dǎo)致相似度較低；胡新明提出了一種引用文本分類(lèi)中的TF-IDF算法將用戶(hù)對(duì)商品的評(píng)分矩陣轉(zhuǎn)化為用戶(hù)對(duì)商品屬性評(píng)分矩陣的推薦算法，在較少數(shù)據(jù)量的情況下得到與基于用戶(hù)商品評(píng)分矩陣推薦算法同質(zhì)量甚至更高質(zhì)量的推薦結(jié)果[4]，但是該方法忽略了商品屬性在不同商品集合間以及商品集合內(nèi)的分布情況；袁漢寧等提出了基于MI聚類(lèi)的協(xié)同推薦算法[5]，通過(guò)多示例聚類(lèi)計(jì)算用戶(hù)的最近鄰居集，但是在計(jì)算用戶(hù)間相似度時(shí)仍然使用用戶(hù)-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)，稀疏的用戶(hù)-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)使得某些可能相似的用戶(hù)因缺少共同評(píng)分項(xiàng)目而導(dǎo)致相似度較低。

針對(duì)上述問(wèn)題，筆者提出了一種基于用戶(hù)對(duì)項(xiàng)目屬性偏好模型的混合聚類(lèi)推薦算法，考慮到項(xiàng)目屬性在用戶(hù)喜歡和不喜歡的集合間以及集合內(nèi)的分布情況，借鑒文本分類(lèi)中TF-IDF算法并引進(jìn)信息熵建立用戶(hù)對(duì)項(xiàng)目屬性的偏好模型，然后用SOM算法對(duì)該模型中的用戶(hù)進(jìn)行粗聚類(lèi)，將其聚類(lèi)中心和聚類(lèi)簇?cái)?shù)目作為K-means聚類(lèi)算法的初始聚類(lèi)質(zhì)心和聚類(lèi)簇?cái)?shù)目，在目標(biāo)用戶(hù)所在的聚類(lèi)簇中計(jì)算用戶(hù)相似度并尋找近鄰，對(duì)未評(píng)分的項(xiàng)目進(jìn)行預(yù)測(cè)。

1 用戶(hù)偏好模型

用戶(hù)對(duì)項(xiàng)目屬性的偏好模型是進(jìn)行用戶(hù)聚類(lèi)和相似度計(jì)算的基礎(chǔ)，通過(guò)分析用戶(hù)-項(xiàng)目評(píng)分矩陣和項(xiàng)目-屬性矩陣，建立用戶(hù)對(duì)項(xiàng)目中出現(xiàn)的所有屬性的偏好權(quán)重矩陣。

考慮包含m個(gè)用戶(hù)和n個(gè)項(xiàng)目的系統(tǒng)，令用戶(hù)集合U={U1,U2,…,Um}(i=1,2,…,m)，項(xiàng)目集合I={I1,I2,…,In}(j=1,2,…,n)，用戶(hù)-項(xiàng)目評(píng)分矩陣如表1所示，其中元素rij表示第i個(gè)用戶(hù)對(duì)第j個(gè)項(xiàng)目的評(píng)分值。

表1 用戶(hù)-項(xiàng)目評(píng)分矩陣

項(xiàng)目屬性集合表示為F={f1,f2,…,fs}(k=1,2,…,s)，項(xiàng)目-屬性矩陣如表2所示，其中元素ajk表示項(xiàng)目Ij的特征屬性：

(1)

參考TF-IDF算法的原理，如果屬性fj在集合Li中出現(xiàn)的次數(shù)越多，說(shuō)明用戶(hù)越偏好具有該屬性的項(xiàng)目，則屬性fj應(yīng)該賦予較大的權(quán)重。根據(jù)以上論述得到偏好權(quán)重wik為：

(2)

但由式(2)得出的用戶(hù)對(duì)項(xiàng)目屬性的偏好權(quán)重存在如下問(wèn)題：①?zèng)]有考慮到屬性fj在集合Li和集合Qi之間的分布情況。如果屬性fj在集合Li中出現(xiàn)較多，而在集合Qi中出現(xiàn)較少，則說(shuō)明用戶(hù)比較偏好具有該屬性的項(xiàng)目，該屬性應(yīng)該賦予較高的權(quán)重。如果屬性fj比較均勻地分布在集合Li和Qi中，說(shuō)明用戶(hù)對(duì)具有該屬性的項(xiàng)目沒(méi)有特別偏好，該屬性值應(yīng)該賦予較低的權(quán)重。②沒(méi)有考慮到屬性fj在集合Li中的分布情況。在集合Li中出現(xiàn)頻率較高的屬性的權(quán)重應(yīng)該比出現(xiàn)頻率較低的屬性要高。如果屬性fj在集合Li中出現(xiàn)的頻率較低，則該屬性應(yīng)該被賦予較小的權(quán)重。考慮到以上兩種情況，參考文獻(xiàn)[6]在文本分類(lèi)中引入信息熵來(lái)改善TF-IDF算法，引進(jìn)信息熵來(lái)計(jì)算用戶(hù)對(duì)項(xiàng)目屬性偏好的模型。

若給定的概率分布為P=(p1,p2,…,pn)，則由該分布傳遞的信息量稱(chēng)為P的熵，即：

(3)

屬性fj在集合Li和Qi中的概率分布為Poc=(NLik/NRik,NQik/NRik)(其中NQik表示集合Qi中具有屬性fj的項(xiàng)目個(gè)數(shù))，記Hoc(Poc)為屬性fj的類(lèi)間信息分布熵。屬性fj在集合Li中的概率分布為Pic=NLik/NLi，記Hic(Pic)為屬性fj的類(lèi)內(nèi)信息分布熵。

由以上分析可知，Hoc(Poc)越大則屬性fj的權(quán)重越小，Hic(Pic)越大則屬性fj的權(quán)重越大。得到改進(jìn)后的用戶(hù)Ui對(duì)屬性fj的偏好權(quán)重為：

(4)

其中對(duì)Hoc做了一定的修改，常數(shù)1是為了防止Hoc(Poc)=0，使得1/(Hoc+1)分布在[0，1]區(qū)間。根據(jù)式(4)建立用戶(hù)-項(xiàng)目屬性偏好矩陣如表3所示。

表3 用戶(hù)-項(xiàng)目屬性偏好矩陣

2 推薦過(guò)程

推薦算法主要分為5個(gè)過(guò)程：生成用戶(hù)-項(xiàng)目屬性偏好模型、用戶(hù)聚類(lèi)、用戶(hù)相似度計(jì)算和最近鄰居查詢(xún)、評(píng)分預(yù)測(cè)、生成推薦。

(1)生成用戶(hù)-項(xiàng)目屬性偏好模型。通過(guò)式(4)生成用戶(hù)-項(xiàng)目屬性偏好模型，作為用戶(hù)聚類(lèi)和相似度計(jì)算的數(shù)據(jù)基礎(chǔ)。

(2)用戶(hù)聚類(lèi)。為了縮短用戶(hù)相似度計(jì)算的時(shí)間、縮小用戶(hù)最近鄰居查詢(xún)范圍，需要對(duì)用戶(hù)進(jìn)行聚類(lèi)，將用戶(hù)-項(xiàng)目屬性偏好矩陣中項(xiàng)目屬性偏好比較相似的用戶(hù)分配到同一聚類(lèi)簇中，使同一聚類(lèi)簇中的用戶(hù)相似度盡可能高，不同聚類(lèi)簇中的用戶(hù)相似度盡可能低。常用的聚類(lèi)算法有SOM神經(jīng)網(wǎng)絡(luò)、K-means聚類(lèi)算法、層次聚類(lèi)算法、FCM聚類(lèi)算法等[7]。SOM算法進(jìn)行聚類(lèi)時(shí)，網(wǎng)絡(luò)收斂時(shí)間過(guò)長(zhǎng)，通常網(wǎng)絡(luò)需要訓(xùn)練上萬(wàn)次才能收斂。K-means算法的初始聚類(lèi)質(zhì)心選擇不當(dāng)，很難得到較好的聚類(lèi)效果，在大規(guī)模數(shù)據(jù)集上收斂較慢。因此采用SOM與K-means聚類(lèi)相結(jié)合的混合聚類(lèi)模型對(duì)用戶(hù)進(jìn)行聚類(lèi)，聚類(lèi)流程為：①將步驟(1)中得到的用戶(hù)-項(xiàng)目屬性偏好矩陣作為聚類(lèi)的輸入數(shù)據(jù)，通過(guò)SOM對(duì)輸入訓(xùn)練較少的次數(shù)進(jìn)行粗聚類(lèi)，輸出聚類(lèi)簇ClusterSOM、神經(jīng)元的權(quán)值ωSOM、聚類(lèi)簇?cái)?shù)目K；②將ωSOM作為原始質(zhì)心Ooriginal，對(duì)于每一個(gè)簇內(nèi)元素不為0的聚類(lèi)簇，尋找與Ooriginal距離最近的元素作為該簇最終的質(zhì)心OSOM；③以K、OSOM作為K-means聚類(lèi)的聚類(lèi)簇?cái)?shù)目和初始聚類(lèi)質(zhì)心，對(duì)用戶(hù)進(jìn)一步聚類(lèi)，輸出用戶(hù)聚類(lèi)結(jié)果ClusterResult。

(3)用戶(hù)相似度計(jì)算和最近鄰居查詢(xún)。計(jì)算目標(biāo)用戶(hù)Ui與所在聚類(lèi)簇cindex中其他用戶(hù)的相似度。用戶(hù)相似性的度量標(biāo)準(zhǔn)主要有余弦法、修正余弦法和基于相關(guān)性的相似性度量等[8]，筆者選用余弦法來(lái)計(jì)算用戶(hù)間的相似度：

(5)

其中，ωu和ωv分別為用戶(hù)u和用戶(hù)v的項(xiàng)目屬性偏好向量。

(6)

(4)評(píng)分預(yù)測(cè)。找到目標(biāo)用戶(hù)Ui針對(duì)目標(biāo)項(xiàng)目Iij的最近鄰用戶(hù)集合MKnear后，通過(guò)集合MKnear中的用戶(hù)對(duì)目標(biāo)項(xiàng)目Iij評(píng)分的加權(quán)平均值來(lái)描述目標(biāo)用戶(hù)Ui對(duì)目標(biāo)項(xiàng)目Iij的評(píng)分。評(píng)分預(yù)測(cè)公式為：

(5)生成推薦。重復(fù)步驟(3)和步驟(4)，預(yù)測(cè)目標(biāo)用戶(hù)Ui對(duì)所有未評(píng)分項(xiàng)目的評(píng)分，選擇預(yù)測(cè)評(píng)分最高的N個(gè)項(xiàng)目推薦給目標(biāo)用戶(hù)Ui。

3 實(shí)驗(yàn)過(guò)程與結(jié)果分析

3.1 數(shù)據(jù)集

實(shí)驗(yàn)采用MovieLens(ml-100K)數(shù)據(jù)集，該數(shù)據(jù)集包含了943個(gè)用戶(hù)對(duì)1 682部電影的10萬(wàn)個(gè)評(píng)分。實(shí)驗(yàn)采用五折交叉驗(yàn)證法，將實(shí)驗(yàn)數(shù)據(jù)平分成5個(gè)互不相交的數(shù)據(jù)子集，每次選擇其中一個(gè)數(shù)據(jù)子集作為測(cè)試集，其余4個(gè)子集作為訓(xùn)練集，如此循環(huán)5次，取每次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。當(dāng)用戶(hù)對(duì)項(xiàng)目的評(píng)分過(guò)少時(shí)，難以發(fā)現(xiàn)用戶(hù)對(duì)項(xiàng)目屬性的偏好，因此在每次實(shí)驗(yàn)中，找出測(cè)試集中評(píng)分項(xiàng)目少于20個(gè)的用戶(hù)，從測(cè)試集和測(cè)試集中剔除這些用戶(hù)的評(píng)分?jǐn)?shù)據(jù)。MovieLens數(shù)據(jù)集中的項(xiàng)目是電影，根據(jù)電影類(lèi)別，將電影劃分為19個(gè)類(lèi)別，0～18分別代表19個(gè)項(xiàng)目類(lèi)別屬性，如表4所示。電影類(lèi)別屬性為Unknown的電影不能表示出用戶(hù)對(duì)某一具體屬性的偏好程度，因此將電影類(lèi)別屬性為Unknown的項(xiàng)目從訓(xùn)練集和測(cè)試集中剔除。

表4 電影類(lèi)別屬性

3.2 性能評(píng)價(jià)

實(shí)驗(yàn)采用平均絕對(duì)誤差MAE[9]來(lái)度量推薦的準(zhǔn)確性，MAE值越低推薦結(jié)果越準(zhǔn)確，其計(jì)算公式為：

(8)

式中：pi為預(yù)測(cè)評(píng)分；qi為實(shí)際評(píng)分。

3.3 結(jié)果分析

根據(jù)HERLOCKER等[10]的研究結(jié)果，在真實(shí)環(huán)境中最近鄰用戶(hù)數(shù)量設(shè)置為20～50比較合理，筆者采用的MovieLens數(shù)據(jù)集共有943個(gè)用戶(hù)，設(shè)置SOM的輸出神經(jīng)元數(shù)目為6×6，鄰居查詢(xún)個(gè)數(shù)Knear=[5 10 15 20 25 30 35 40 45 50 55 60 65 70]來(lái)進(jìn)行對(duì)比實(shí)驗(yàn)，以驗(yàn)證筆者提出算法的優(yōu)越性。

將筆者提出的利用TF-IDF和信息熵挖掘用戶(hù)偏好模型，進(jìn)行SOM+K-means聚類(lèi)和用戶(hù)相似度計(jì)算的推薦算法稱(chēng)為算法1；將利用TF-IDF挖掘用戶(hù)偏好模型，進(jìn)行SOM+K-means聚類(lèi)和用戶(hù)相似度計(jì)算的推薦算法稱(chēng)為算法2；將利用用戶(hù)-項(xiàng)目評(píng)分矩陣，進(jìn)行SOM+K-means聚類(lèi)和用戶(hù)相似度計(jì)算的推薦算法稱(chēng)為算法3；將傳統(tǒng)的基于用戶(hù)的協(xié)同過(guò)濾推薦算法稱(chēng)為算法4；將基于MI聚類(lèi)的協(xié)同推薦算法稱(chēng)為算法5(根據(jù)文獻(xiàn)[5]中的描述，選擇聚類(lèi)個(gè)數(shù)K=20時(shí)推薦效果最好，選擇表4中1～18的電影屬性類(lèi)別作為實(shí)例的內(nèi)容特征)。

圖1 算法1～算法5的對(duì)比實(shí)驗(yàn)結(jié)果

圖1所示為算法1～算法5的對(duì)比實(shí)驗(yàn)結(jié)果，可以看出基于SOM+K-means聚類(lèi)的推薦算法比傳統(tǒng)的協(xié)同過(guò)濾推薦算法效果更好；使用用戶(hù)偏好模型進(jìn)行聚類(lèi)和相似度計(jì)算的推薦效果比使用用戶(hù)-項(xiàng)目評(píng)分矩陣的推薦效果更好；使用TF-IDF和信息熵相結(jié)合挖掘的用戶(hù)偏好模型比使用TF-IDF挖掘的用戶(hù)偏好模型的推薦效果更好。算法1、算法2比算法5的效果好，算法5比算法3、算法4的效果更好，說(shuō)明算法5通過(guò)多示例聚類(lèi)得到的最近鄰集合，比以用戶(hù)-項(xiàng)目評(píng)分矩陣為數(shù)據(jù)基礎(chǔ)進(jìn)行聚類(lèi)得到的最近鄰居集合更為準(zhǔn)確。由于算法5計(jì)算用戶(hù)相似度時(shí)使用的是用戶(hù)-項(xiàng)目評(píng)分矩陣，不能更好地挖掘用戶(hù)間的相似性，使得推薦結(jié)果不如算法1準(zhǔn)確。

圖2所示為算法1、算法2、算法4的用戶(hù)相似度計(jì)算、最近鄰查詢(xún)及評(píng)分預(yù)測(cè)的時(shí)間，可以看出當(dāng)15

圖2 不同算法的相似度計(jì)算、最近鄰查詢(xún)及評(píng)分預(yù)測(cè)的時(shí)間

圖3 不同SOM聚類(lèi)中心下推薦算法的實(shí)驗(yàn)結(jié)果

圖3所示為不同SOM聚類(lèi)中心下推薦算法的實(shí)驗(yàn)結(jié)果。SOM聚類(lèi)結(jié)束時(shí)，外星權(quán)向量位于輸入向量聚類(lèi)的中心，該實(shí)驗(yàn)中SOM訓(xùn)練次數(shù)較少并未完全收斂，因此選擇各聚類(lèi)簇中離外星權(quán)向量最近的一點(diǎn)作為SOM的聚類(lèi)中心(Center1),文獻(xiàn)[3]將SOM聚類(lèi)結(jié)束時(shí)各聚類(lèi)簇中元素的平均值作為SOM的聚類(lèi)中心(Center2)，Center1的推薦效果較Center2要好，即SOM聚類(lèi)中心的選取比文獻(xiàn)[3]更合理。

4 結(jié)論

筆者為了解決評(píng)分矩陣稀疏性問(wèn)題，通過(guò)TF-IDF算法和信息熵生成用戶(hù)對(duì)項(xiàng)目屬性偏好的模型，然后以此為數(shù)據(jù)基礎(chǔ)進(jìn)行用戶(hù)聚類(lèi)和相似度計(jì)算，使得相似用戶(hù)之間的相關(guān)性增強(qiáng)，縮短了最近鄰用戶(hù)的查詢(xún)時(shí)間，通過(guò)五折交叉對(duì)比實(shí)驗(yàn)得出，筆者提出的算法具有更高的推薦質(zhì)量和效率。但筆者研究的前提是假設(shè)用戶(hù)興趣不會(huì)發(fā)生變化，然而在實(shí)際研究中，用戶(hù)的興趣是會(huì)隨時(shí)間發(fā)生變化的，因此需要將時(shí)間因素同項(xiàng)目屬性等結(jié)合起來(lái)，以提高推薦系統(tǒng)的準(zhǔn)確性，這將是下一步研究的重點(diǎn)。

[1] 劉魯,任曉麗.推薦系統(tǒng)研究進(jìn)展及展望[J].信息系統(tǒng)學(xué)報(bào),2008 (1): 82-90.

[2] 曹渝昆.基于神經(jīng)網(wǎng)絡(luò)和模糊邏輯的智能推薦系統(tǒng)研究[D].重慶：重慶大學(xué)，2006.

[3] 成桂蘭，劉旭東，陳德人.基于混合聚類(lèi)的個(gè)性化推薦算法[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版)，2011，33(3)：379-381.

[4] 胡新明.基于商品屬性的電子商務(wù)推薦系統(tǒng)研究[D].武漢：華中科技大學(xué)，2012.

[5] 袁漢寧，周彤，韓言妮.基于MI聚類(lèi)的協(xié)同過(guò)濾推薦算法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版)，2015，40(2)：253-257.

[6] 李原.中文文本分類(lèi)中分詞和特征選擇方法研究[D].長(zhǎng)春：吉林大學(xué)，2011.

[7] 馮曉蒲，張鐵峰.四種聚類(lèi)方法之比較[J].微型機(jī)與應(yīng)用，2010，29(16)：1-3.

[8] SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]∥Proceedings of the 10th International Conference on World Wide Web. [S.l.]:[s.n.], 2001: 285-295.

[9] KARYPIS G. Evaluation of item-based top-n recommendation algorithms[C]∥Proceedings of the Tenth International Conference on Information and Knowledge Management. [S.l.]:[s.n.], 2001: 247-254.

[10] HERLOCKER J L, KONSTAN J A, BORCHERS A, et al. An algorithmic framework for performing collaborative filtering[C]∥Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]:[s.n.], 1999:230-237.

CHEN Linghong:Postgraduate; School of Automation, WUT, Wuhan 430070, China.

A Recommendation Algorithm Based on Users’ Preference of Item Features

CHENLinghong,XUHuazhong,LIBao,WUYouyu

Considering the problem of data sparsity in traditional collaborative filtering recommendation algorithm, a hybrid clustering recommendation algorithm based on users’ preference is proposed. The users’ preference model is obtained by using user-item rating matrix and referring to the principle of TF-IDF and information entropy, which is the basic data of users clustering, similarity calculation and nearest neighbor query. Item recommendation is accomplished after predicting the rates for the no-rated items. Experiment shows that the hybrid clustering recommendation algorithm based on user p

for project attributes has some advantages over the traditional collaborative filtering and clustering algorithm based on user-item scoring matrix.

recommendation algorithm; collaborative filtering; users’ preference; SOM; K-means

2095-3852(2016)05-0616-05

2016-05-25.

陳伶紅(1991-)，女，湖北武漢人，武漢理工大學(xué)自動(dòng)化學(xué)院碩士研究生.

TP301.6 DOI：10.3963/j.issn.2095-3852.2016.05.021