個(gè)性化推薦算法研究

2014-08-28 07:59:20陳潔敏李建國蔡奕彬

華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2014年5期

陳潔敏，湯庸，李建國，蔡奕彬

(華南師范大學(xué)計(jì)算機(jī)學(xué)院，廣州 510631)

在網(wǎng)絡(luò)數(shù)據(jù)爆炸的年代，人們面對的是海量信息，例如亞馬遜上面有數(shù)百萬種獨(dú)特的商品，Google Music曲庫有過千萬首歌，Del.icio.us上面有超過10億的網(wǎng)頁收藏，淘寶在線商品數(shù)已經(jīng)超過了8億件，新浪微博用戶數(shù)及騰訊微信用戶數(shù)均超過5億．用戶在海量的信息中難以找到自己感興趣的信息，這就是所謂的“信息過載(information overload)”問題，搜索引擎和推薦系統(tǒng)是目前解決該問題的主要技術(shù)．與搜索引擎相比，用戶更青睞于使用個(gè)性化推薦系統(tǒng)，因?yàn)樗苤鲃?dòng)地從用戶注冊信息、用戶瀏覽日志、歷史評分記錄和項(xiàng)目信息等方面進(jìn)行分析，從而挖掘用戶的興趣偏好和項(xiàng)目的特征，然后為用戶實(shí)現(xiàn)個(gè)人感興趣信息的私人定制，并根據(jù)用戶需求和項(xiàng)目信息的變化及時(shí)調(diào)整推薦的內(nèi)容和服務(wù)方式，實(shí)現(xiàn)“以用戶為中心”的個(gè)性化服務(wù)．個(gè)性化推薦系統(tǒng)具有良好的發(fā)展和應(yīng)用前景，目前電子商務(wù)網(wǎng)站、社交網(wǎng)站、電影和視頻網(wǎng)站、個(gè)性化音樂網(wǎng)絡(luò)電臺、個(gè)性化閱讀和個(gè)性化廣告等領(lǐng)域都使用了不同形式的推薦系統(tǒng)并獲得巨大的效益．本文闡述了推薦系統(tǒng)概念定義，對比各類推薦算法優(yōu)點(diǎn)和缺點(diǎn)，總結(jié)了常用數(shù)據(jù)集和評測指標(biāo)，最后提出未來面臨的主要問題及可能的研究方向．

1 推薦系統(tǒng)概念定義

推薦系統(tǒng)利用輸入的數(shù)據(jù)來預(yù)測系統(tǒng)對象未來潛在的喜好和興趣，將個(gè)性化推薦對象的清單推送給用戶．因此，系統(tǒng)用戶、推薦對象及個(gè)性化推薦算法是推薦系統(tǒng)的重要組成部分．推薦系統(tǒng)根據(jù)用戶注冊信息、歷史行為數(shù)據(jù)和需求為用戶建模，例如用戶年齡、職業(yè)、愛好、社交網(wǎng)絡(luò)關(guān)系等，同時(shí)也根據(jù)推薦對象的相關(guān)信息來構(gòu)造對象模型，最后推薦算法根據(jù)推薦策略、用戶信息和對象信息為用戶進(jìn)行個(gè)性化推薦．一般的推薦系統(tǒng)模型流程如圖1所示[1-2]．

圖1 推薦系統(tǒng)模型

(1)

2 推薦算法的主要分類

推薦系統(tǒng)利用不同的信息源為用戶提供預(yù)測和項(xiàng)目的推薦，推薦算法在這個(gè)過程中起著重要的作用．根據(jù)可用信息不同，例如標(biāo)簽、信任度、社交網(wǎng)絡(luò)關(guān)系、人口統(tǒng)計(jì)信息等，及對各種評測指標(biāo)的考慮，目前流行的推薦算法主要分為四大類：基于內(nèi)容的推薦算法、協(xié)同過濾推薦算法、基于知識的推薦算法和混合的推薦算法(圖2)．下面對該4類算法進(jìn)行介紹并對比優(yōu)缺點(diǎn)．

圖2 常用推薦算法分類

2.1 基于內(nèi)容的推薦算法

基于內(nèi)容的推薦(content-based recommendation)也稱為基于內(nèi)容的信息過濾推薦，它不需要用戶對推薦對象進(jìn)行評價(jià)，而是把推薦對象的內(nèi)容特征抽取出來，然后從用戶以往選擇對象的內(nèi)容特征去學(xué)習(xí)用戶的偏好興趣，最后與用戶偏好興趣匹配度較高的對象將被推薦給用戶．

在基于內(nèi)容的推薦算法中，f(u,c)為被推薦對象c對用戶u的效用函數(shù)，主要利用對象內(nèi)容特征和用戶資料模型．對象內(nèi)容特征(Content(c))一般釆用基于TF-IDF[4]權(quán)重的向量空間模型(Vector Space Model)模型進(jìn)行表示[5]．用機(jī)器學(xué)習(xí)的方法來獲取用戶的資料模型(ContentBasedProfile(u))，例如神經(jīng)網(wǎng)絡(luò)、決策樹、貝葉斯分類算法等[2]．基于內(nèi)容的推薦算法中的效用函數(shù)f(u,c)可表示為[3]：

f(u,c)=score(ContentBasedProfile(u),Content(c)).

(2)

Score的計(jì)算可以采用不同方法，例如可以用二者的余弦相似度計(jì)算，如：

f(u,c)=cos(wu,wc)=

(3)

最后按所得到的f數(shù)值對對象排序，將最前面的項(xiàng)目作為推薦對象．雖然該算法的推薦結(jié)果比較符合用戶的喜好，但缺乏新穎度和驚喜度．

2.2 協(xié)同過濾推薦

協(xié)同過濾推薦(collaborative filtering recommendation)是推薦系統(tǒng)中最為流行且應(yīng)用廣泛的算法，它基于系統(tǒng)里其他用戶的評分記錄或其他歷史數(shù)據(jù)(例如，在亞馬遜上用戶購買商品的歷史記錄)．目前2種主要的協(xié)同推薦技術(shù)是基于內(nèi)存的協(xié)同推薦和基于模型的協(xié)同推薦，前者利用歷史數(shù)據(jù)來尋找相似的推薦項(xiàng)目，后者通過歷史數(shù)據(jù)構(gòu)造預(yù)測模型，再通過模型進(jìn)行評分預(yù)測，它們的不同在于對用戶-項(xiàng)目評分矩陣的分析和使用方式上的差異．

2.2.1 基于內(nèi)存的協(xié)同推薦基于內(nèi)存的協(xié)同推薦(memory-based collaborative filtering)也稱為啟發(fā)式的協(xié)同推薦，主要直接利用用戶的歷史數(shù)據(jù)來提供預(yù)測結(jié)果，例如用戶-電影的評分矩陣．根據(jù)考慮角度的不同，可以分為基于項(xiàng)目 (Item-based)和基于用戶(User-based)的協(xié)同推薦．前者是根據(jù)項(xiàng)目之間的相似度來尋找與目標(biāo)項(xiàng)目近似的項(xiàng)目集，后者則利用用戶之間相似的興趣偏好來獲得近鄰用戶集，這2種基于近鄰的推薦算法主要依賴用戶數(shù)與項(xiàng)目數(shù)的比例，當(dāng)用戶數(shù)大大超過項(xiàng)目數(shù)時(shí)，基于項(xiàng)目的系統(tǒng)推薦能提供更準(zhǔn)確的推薦，反之亦然．

基于用戶的協(xié)同推薦的基本步驟：首先尋找與用戶歷史評分行為相似的其他用戶形成近鄰用戶集，然后根據(jù)近鄰用戶的歷史偏好或評分來為目標(biāo)用戶進(jìn)行推薦或評分預(yù)測．在User-based模型中，用戶之間的相似度可以選擇不同的相似度函數(shù)來計(jì)算，例如皮爾遜相關(guān)系數(shù)：

(4)

確定鄰居集合后，由于不同用戶對項(xiàng)目的評分標(biāo)準(zhǔn)存在差異，User-based模型先對評分進(jìn)行歸一化，同時(shí)由于用戶評分存在波動(dòng)性，可以引入對評分波動(dòng)情況的考慮，例如Z-scores歸一化方法，通過引入用戶評分偏差值σ來平衡用戶間的差異:

(5)

2.2.2 基于模型的推薦算法由于用戶規(guī)模和項(xiàng)目數(shù)量的快速增長，數(shù)據(jù)集的稀疏問題會更嚴(yán)重，例如neflix的電影評分?jǐn)?shù)據(jù)集將近99%的數(shù)據(jù)缺失，那么基于內(nèi)存的協(xié)同算法的計(jì)算量將大規(guī)模增長，同時(shí)由于數(shù)據(jù)的稀疏問題，其推薦結(jié)果的質(zhì)量無疑會下降．因此，文獻(xiàn)[6]、[7]提出了基于模型的推薦算法(model-based collaborative filtering)，主要思想是利用用戶對項(xiàng)目的評分來構(gòu)造一個(gè)評分預(yù)測模型，其中使用了多種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的計(jì)算模型[7-8]，然后通過該模型實(shí)現(xiàn)對未知評分的預(yù)測．常用模型有貝葉斯網(wǎng)絡(luò)[9-10]、聚類算法[11-12]、降維的技術(shù)、圖模型和回歸模型等．

(1)基于貝葉斯網(wǎng)絡(luò)的協(xié)同過濾. 貝葉斯網(wǎng)絡(luò)是一種基于概率推理的圖形化網(wǎng)絡(luò)，也是目前不確定知識表達(dá)和推理領(lǐng)域最有效的理論模型之一．貝葉斯網(wǎng)絡(luò)包括兩部分：有向無環(huán)圖及條件概率表．其中圖里的節(jié)點(diǎn)代表隨機(jī)變量，節(jié)點(diǎn)間的有向邊代表了節(jié)點(diǎn)間的概率依賴關(guān)系，條件概率表中每一行代表一對節(jié)點(diǎn)之間的條件概率值，該值反映了關(guān)系的強(qiáng)度[6]．

基于樸素貝葉斯的協(xié)同過濾算法認(rèn)為用戶或者項(xiàng)目都具有某些吸引人的特征，用戶對該類特征的偏好是短期穩(wěn)定的，因此可以利用貝葉斯理論分析用戶或項(xiàng)目特征值．假設(shè)用戶和項(xiàng)目屬性組成特征集X={x1,x2,…,xn}，將推薦項(xiàng)目分為2類：推薦給用戶的項(xiàng)目集合c1和不推薦給用戶的項(xiàng)目集合c2，p(xi|c1)、p(xi|c2)分別表示項(xiàng)目在推薦、不推薦給用戶的項(xiàng)目集合中出現(xiàn)特征值xi的概率，然后選擇概率最大的類別作為項(xiàng)目所屬類別．令X表示特征集合，C表示類別集合，則樸素貝葉斯分類模型：

(6)

(2)基于聚類的協(xié)同過濾.根據(jù)聚類對象的不同可分為基于用戶聚類和基于項(xiàng)目聚類的協(xié)同過濾．該方法首先依據(jù)用戶-項(xiàng)目評分矩陣對用戶或項(xiàng)目進(jìn)行聚類，然后通過計(jì)算目標(biāo)用戶或項(xiàng)目與各類別的相似度，為其找到所屬的類別，最后通過所屬類別尋找用戶或項(xiàng)目的最近鄰作推薦．常用的聚類方法可以分為：基于密度的方法、基于劃分的方法、基于神經(jīng)網(wǎng)絡(luò)的方法、基于模糊聚類的方法以及層次聚類的方法．在聚類分析模型中只將目標(biāo)用戶或項(xiàng)目與預(yù)先聚類好的簇進(jìn)行比較，而不必再與整個(gè)數(shù)據(jù)集進(jìn)行比較，所以在系統(tǒng)的實(shí)時(shí)性和可擴(kuò)展性等問題上要比傳統(tǒng)的協(xié)同過濾方法優(yōu)越[13]．

(3)基于降維技術(shù)的協(xié)同過濾.隨著用戶和項(xiàng)目數(shù)量大規(guī)模增加，可用于預(yù)測評分的數(shù)據(jù)維度隨之增加，維數(shù)災(zāi)難[14]所帶來的各種問題將無法避免，例如在高維空間上搜索最近鄰居將非常困難并造成系統(tǒng)性能下降．因此不少學(xué)者引入降維技術(shù)把高維數(shù)據(jù)映射到低維空間中，從而提高系統(tǒng)的伸縮性．常用的降維技術(shù)有奇異值分解(singular value decomposition)、概率潛在語義分析(probabilistic latent semantic analysis)、主成分分析(principle component analysis)、最大邊際矩陣分解(maximum margin matrix factorization)等．

(4)基于圖模型的協(xié)同過濾.基于圖模型的協(xié)同過濾是以圖論作為理論基礎(chǔ)，將用戶的歷史行為數(shù)據(jù)用圖的形式表示，用戶、項(xiàng)目和標(biāo)簽等信息可以看作圖結(jié)構(gòu)中不同類型的節(jié)點(diǎn)，分析不同節(jié)點(diǎn)之間的關(guān)系，構(gòu)造關(guān)系網(wǎng)絡(luò)圖．常用的基于圖模型的協(xié)同推薦算法有二分圖和三分圖．前者節(jié)點(diǎn)有2類，分別代表用戶和項(xiàng)目，節(jié)點(diǎn)間的邊代表用戶對項(xiàng)目的評分；后者比前者多了標(biāo)簽節(jié)點(diǎn)[15]．如圖3A所示，該二分圖有3個(gè)用戶節(jié)點(diǎn)和4個(gè)項(xiàng)目節(jié)點(diǎn)，邊的權(quán)值為用戶對項(xiàng)目的評分．三分圖(圖3B)多了6個(gè)標(biāo)簽節(jié)點(diǎn)，用戶3-項(xiàng)目2-標(biāo)簽1之間的邊代表用戶3對項(xiàng)目2打了標(biāo)簽1．

圖3 基于圖模型的協(xié)同過濾

根據(jù)計(jì)算原理不同，可以分為基于物資擴(kuò)散、熱傳導(dǎo)和資源分配的二分圖/三分圖協(xié)同推薦．在基于物資擴(kuò)散的二分圖協(xié)同推薦中，用戶相似度為

(7)

其中k(u)表示用戶u的度，k(i)表示項(xiàng)目i的度，rui=1表示用戶u對項(xiàng)目i進(jìn)行了評分，否則rui=0．基于物資擴(kuò)散的三分圖協(xié)同推薦增加了用戶到標(biāo)簽的計(jì)算：

(8)

2.2.3 基于知識的推薦很多推薦算法都無法解決冷啟動(dòng)問題，因此不少專家提出基于知識的推薦(knowledge-based recommendation)，希望利用用戶的需求愛好、產(chǎn)品知識和功能知識來為用戶推薦項(xiàng)目，該方法在某種程度可以看成是一種推理(inference)技術(shù)．該方法可以分為3類: 基于約束的推薦(constraint based recommendation)[16]、基于實(shí)例的推薦(case based recommendation)[17]和基于知識推理的推薦系統(tǒng)．由于不需要用戶的歷史行為數(shù)據(jù)，所以不存在冷啟動(dòng)問題，但也存在不少問題，例如如何獲取、如何表示領(lǐng)域知識以及在推薦系統(tǒng)中采用哪種交互模式等．

2.2.4 混合的推薦組合推薦(hybrid recommendation)是多種推薦算法的組合，希望通過不同推薦算法的組合達(dá)到保留優(yōu)點(diǎn)避免缺點(diǎn)的應(yīng)用效果，在組合方式上，主要有7種組合思路[18]：加權(quán)融合、切換、混合、特征組合、級聯(lián)、特征擴(kuò)充及元層次混合．這7種思路又分成3種基本設(shè)計(jì)方式：整體式、流水線式和并行式．雖然理論上存在多種組合方法，但不同的組合思路適用于不同的應(yīng)用場景．按推薦算法組合發(fā)生的階段及融合的程度可以把組合推薦分為前融合、中融合和后融合[19-21]：(1)前融合：對各種推薦算法進(jìn)行直接融合，統(tǒng)一在一個(gè)框架模型里，從算法層次看是深度融合;(2)中融合：在以某種推薦算法為主的框架模型上，融合另一種推薦算法的部分特征;(3)后融合：直接將多種推薦算法各自計(jì)算得到的結(jié)果進(jìn)行融合．

常用的混合推薦有：(1)將協(xié)同推薦和基于內(nèi)容推薦單獨(dú)運(yùn)行的結(jié)果進(jìn)行組合推薦；(2)將基于內(nèi)容推薦的特征融合到某種協(xié)同推薦中；(3)建立具有基于內(nèi)容推薦和協(xié)同推薦特點(diǎn)的預(yù)測模型．

各種推薦算法都存在自身的優(yōu)、缺點(diǎn)，有各自適用的環(huán)境和數(shù)據(jù)源，在推薦的效果方面也存在差異(表1).

表1 常用協(xié)同過濾算法及其優(yōu)缺點(diǎn)Table 1 The advantages and disadvantages of collaborative algorithms

3 評測的方法及指標(biāo)

3.1 評測方法

評價(jià)推薦系統(tǒng)的方法一般分為3種：離線實(shí)驗(yàn)(offline experiment)、在線實(shí)驗(yàn)(online experiment)和用戶調(diào)查(user study)[20]．離線實(shí)驗(yàn)是將用戶數(shù)據(jù)集分為訓(xùn)練集和測試集，訓(xùn)練集用于用戶興趣模型構(gòu)造，測試集用于對模型性能測試．該方法利用用戶的歷史數(shù)據(jù)進(jìn)行測試，不需要真正用戶的參與，比在線實(shí)驗(yàn)的成本低，適用于對不同推薦算法的比較和過濾，然而由于缺乏實(shí)際用戶參與，算法的預(yù)測質(zhì)量難以保證．因此當(dāng)完成離線實(shí)驗(yàn)后，還需要進(jìn)行在線實(shí)驗(yàn)．在線實(shí)驗(yàn)是根據(jù)用戶在線實(shí)時(shí)反饋或事后問卷調(diào)查等結(jié)果來衡量推薦系統(tǒng)的表現(xiàn)[20]．用戶調(diào)查是讓測試用戶來完成被測試的推薦系統(tǒng)的一系列任務(wù)并對測試用戶的行為進(jìn)行記錄．優(yōu)點(diǎn)在于測試到推薦系統(tǒng)對用戶行為的影響，體現(xiàn)用戶主觀的指標(biāo)以及出現(xiàn)錯(cuò)誤后容易彌補(bǔ)，但是該方法由于成本高和需要大量人員參與，從而讓測試的范圍和次數(shù)受到了限制．

3.2 評測指標(biāo)

任何推薦算法都需要通過評測，這樣才能評估它的推薦質(zhì)量．常用的推薦評測指標(biāo)有：用戶滿意度(user preference)、預(yù)測準(zhǔn)確度(accuracy)、覆蓋率(coverage)、多樣性(diversity)和新穎性(novelty)等．

3.2.1 用戶滿意度作為評測推薦系統(tǒng)的最重要指標(biāo)之一，用戶滿意度描述用戶對推薦結(jié)果的滿意程度．一般可采用調(diào)查問卷或用戶在線行為數(shù)據(jù)分析的形式來獲取用戶滿意度．

3.2.2 預(yù)測的準(zhǔn)確度預(yù)測準(zhǔn)確度用于衡量推薦算法預(yù)測用戶對項(xiàng)目興趣偏好的能力，主要是采用統(tǒng)計(jì)學(xué)的方法來量化推薦系統(tǒng)產(chǎn)生的預(yù)測評分與實(shí)際評分之間的誤差．常用的預(yù)測準(zhǔn)確度分為評分預(yù)測準(zhǔn)確度、使用預(yù)測準(zhǔn)確度和排序準(zhǔn)確度．

常用評分預(yù)測有平均絕對誤差(Mean Absolute Error， MAE)、歸一化平均絕對誤差(Normalized Mean Absolute Error， NMAE)、均方根誤差(Root Mean Squared Error， RMSE)、歸一化均方根誤差(Normalized Root Mean Squared Error， NRMSE)[22]．

平均絕對誤差(MAE)是最常用的評估方法之一，它是通過統(tǒng)計(jì)預(yù)測值和真實(shí)評分值之間的絕對誤差值得到的，計(jì)算公式為：

(9)

均方根誤差(RMSE)與MAE相比，RMSE加大了對預(yù)測不準(zhǔn)的用戶項(xiàng)目評分的懲罰，因而對系統(tǒng)的評測更加苛刻．其計(jì)算公式如下：

(10)

Top-N推薦屬于使用預(yù)測準(zhǔn)確度，由推薦網(wǎng)站采用個(gè)性化的推薦列表為用戶提供推薦．這類推薦的重點(diǎn)在于分類準(zhǔn)確率，常用分類衡量指標(biāo)有準(zhǔn)確率(precision)和召回率(recall)．

3.2.3 覆蓋率覆蓋率[22]體現(xiàn)的是推薦系統(tǒng)挖掘長尾的能力，主要通過研究推薦對象在推薦列表中出現(xiàn)次數(shù)的分布來描述，適用于那些需要為用戶找出所有感興趣商品的系統(tǒng)．常用覆蓋率有預(yù)測覆蓋率(prediction coverage) 、帶權(quán)預(yù)測覆蓋率(weighted prediction coverage)、用戶覆蓋率(user coverage)、種類覆蓋率(catalog coverage)和帶權(quán)種類覆蓋率(weighted catalog coverage)等[23]．

預(yù)測覆蓋率表示系統(tǒng)可以預(yù)測評分的項(xiàng)目占所有項(xiàng)目的比例，該指標(biāo)依賴于推薦算法和輸入值，定義為：

(11)

其中IP表示系統(tǒng)可以預(yù)測評分的項(xiàng)目集，I為所有項(xiàng)目集．

帶權(quán)預(yù)測覆蓋率[23]主要考慮了項(xiàng)目的效用性，該效用性主要從準(zhǔn)確性、新穎性和推薦有效性等方面獲?。胷(i)代表項(xiàng)目i的效用值，定義為：

(12)

用戶覆蓋率(UCOV)表示推薦算法能為多大比例用戶計(jì)算推薦結(jié)果的能力，與準(zhǔn)確性指標(biāo)結(jié)合使用，常用于分析新用戶對系統(tǒng)影響．

3.2.4 多樣性、新穎性和驚喜度一個(gè)良好的推薦系統(tǒng)應(yīng)該能為用戶提供多樣化的選擇，即推薦結(jié)果應(yīng)具有多樣性．在推薦系統(tǒng)中，多樣性可以從個(gè)體層面和總體層面進(jìn)行評估．個(gè)體層面主要考慮的是推薦系統(tǒng)對單用戶推薦項(xiàng)目的多樣性，主要計(jì)算推薦項(xiàng)目差異平均值；總體層面則是衡量推薦系統(tǒng)對所有用戶推薦不同項(xiàng)目的能力[24]．

新穎性[25]和驚喜度是最近2年推薦系統(tǒng)領(lǐng)域比較關(guān)注的指標(biāo)．新穎的推薦是指給用戶推薦那些他們以前沒有聽說過的物品．新穎度是為了度量推薦列表中物品對于用戶的新穎程度．某種程度上，驚喜度同時(shí)兼顧了新穎性和準(zhǔn)確度．

4 推薦算法的常用數(shù)據(jù)集

隨著推薦系統(tǒng)的廣泛應(yīng)用，目前大部分推薦算法所用數(shù)據(jù)集都是來源現(xiàn)實(shí)的推薦系統(tǒng)，每年數(shù)據(jù)挖掘與知識發(fā)現(xiàn)競賽都采用企業(yè)提供的實(shí)際應(yīng)用數(shù)據(jù)集．但有時(shí)候?yàn)榱藴y試一些特定應(yīng)用領(lǐng)域的算法需要采用人工數(shù)據(jù)集，但該類數(shù)據(jù)應(yīng)用具有局限性．目前在推薦算法研究中，已經(jīng)有很多被研究人員公認(rèn)的標(biāo)準(zhǔn)測試數(shù)據(jù)集并且成為推薦算法性能測試的基礎(chǔ)和依據(jù)．常用公認(rèn)的標(biāo)準(zhǔn)測試數(shù)據(jù)集有:

(1)騰訊微博數(shù)據(jù)集.騰訊微博數(shù)據(jù)集是由2012年的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)競賽(Kdd-cup)所提供的．該數(shù)據(jù)集是從騰訊 4.25億微博用戶中的50天數(shù)據(jù)采樣得到，包含有200多萬活躍用戶、6千被推薦用戶或信息源、3億多條推薦記錄及其300多萬個(gè)收聽動(dòng)作，7 000多萬條訓(xùn)練記錄，3 000多萬條測試記錄．該數(shù)據(jù)集的規(guī)模超過已往的 KDD Cup比賽．

(2)Netflix數(shù)據(jù)集[26]. 該數(shù)據(jù)集來自著名的電影網(wǎng)站Netflix．包含480 189位用戶對17 770部電影的100 480 507條評分記錄，與MovieLen評分不同，其數(shù)據(jù)為區(qū)間[1,5]的離散整數(shù)值，這是目前規(guī)模最大的電影評分?jǐn)?shù)據(jù)集．由于Netflix比賽己經(jīng)結(jié)束，該數(shù)據(jù)集已不對外公開．

(3)CiteULike數(shù)據(jù)集[27].CiteULike是由著名的施普林格出版社(Springer)提供的一個(gè)免費(fèi)協(xié)助用戶存儲、管理和分享學(xué)術(shù)文章的網(wǎng)站，用戶可以收藏自己喜歡的論文并給它們打上標(biāo)簽．CiteULike公布了一個(gè)包含了用戶收藏論文及給論文打標(biāo)簽的數(shù)據(jù)集．這個(gè)數(shù)據(jù)集包含52 689個(gè)用戶，1 793 954篇論文以及2 119 200個(gè)用戶和論文之間的關(guān)系．

表2 推薦系統(tǒng)評價(jià)標(biāo)準(zhǔn)分類Table 2 Evaluation criteria of recommendation systems

(4)Yahoo!音樂數(shù)據(jù)集[28].Yahoo!音樂數(shù)據(jù)集包含了用戶對單曲、專輯、歌手以及流派等不同的音樂元素的評分．評分區(qū)間是0～100之間的整數(shù)，總共涉及1 000 990個(gè)用戶、624 961個(gè)音樂元素以及262 810 175條評分記錄．

5 總結(jié)與展望

推薦系統(tǒng)可應(yīng)用于不同領(lǐng)域，在海量個(gè)性化需求的驅(qū)動(dòng)下，隨著云計(jì)算、個(gè)性化服務(wù)、人工智能、決策科學(xué)和信息檢索等領(lǐng)域發(fā)展的推動(dòng)，其發(fā)展應(yīng)用迅速并取得很好的研究成果．但也存在下面幾個(gè)問題，而這些問題也是未來研究的熱點(diǎn)[20,29-32]．

(1)上下文感知推薦系統(tǒng)．上下文包含多種多樣的信息，例如時(shí)間、位置和情感等．因此上下文感知推薦系統(tǒng)的主要任務(wù)就是如何將上下文信息應(yīng)用到推薦算法當(dāng)中，從而提高推薦的精確度和用戶滿意度．

(2)推薦的實(shí)時(shí)性研究．由于數(shù)據(jù)量的龐大，推薦系統(tǒng)的推薦精度和實(shí)時(shí)性一直都是一對矛盾．目前大部分系統(tǒng)采用離線計(jì)算，某種程度上是以推薦質(zhì)量為代價(jià)的，因此如何有效提高推薦系統(tǒng)的推薦質(zhì)量并兼顧系統(tǒng)的實(shí)時(shí)性，需要做進(jìn)一步深入的研究．

(3)稀疏性和冷啟動(dòng)研究．這2個(gè)問題一直是推薦系統(tǒng)的研究難點(diǎn)，它們可以導(dǎo)致協(xié)同過濾模式的運(yùn)行效率和推薦精確度較低．盡管很多學(xué)者對該問題進(jìn)行研究并提出解決辦法，但效果并不十分顯著，還需要對其進(jìn)行研究．

參考文獻(xiàn)：

[1] Pazzani M J, Billsus D. Content-based recommendation systems[M]∥Brusilovsky P,Kobsa A,Nejdl W.The Adaptive Web. Berlin,Heidelberg: Springer-Verlag,2007,4321:325-341.

[2] Melville P, Mooney R J, Nagarajan R. Content-boosted collaborative filtering for improved recommendations[C]∥Proceeding of the 18th national conference on artificial intelligence.Edmonton: AAAI Press, 2002: 187-192.

[3] Adomavicius G，Tuzhilin A．Toward the next generation recommender systems：A survey of the state-of-the-art and possible extensions[J]．IEEE Trans on Knowledge and Data Engineering，2005，17(6):734-749.

[4] Belkin N,Croft B．Information filtering and information retrieval[J]．Communications of the ACM，1992，35(12)：29-37.

[5] Shardanand U, Maes P. Social information filtering: Algorithms for automating ‘Word of Mouth’[C]∥Proceedings of the ACM SIGCHI conference on human factors in computing systems.Denver:ACM Press, 1995:210-217.

[6] Breese J, Hecherman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C]∥Proceedings of the 14th conference on uncertainty in artificial intelligence (UAI’98). San Francisco: Morgan Kaufmann Publishers, 1998:43-52.

[7] Sarwar B,Konstan J,Riedl J. Incremental singular value decomposition algorithms for highly scalable recommender systems[C]∥Proceedings of the 5th international conference on computer and information science. Dhaka,Bangladesh, 2002.

[8] Koren Y. Factorization meets the neighborhood: A multifaceted collaborative filtering model[C]∥Proceedings of the 14th ACM SIGKDD international conference on knowledge discovery and data mining. Las Vegas, USA, 2008.

[9] Su X, Khoshgoftaar T M.Collaborative filtering for multi-class data using belief nets algorithms[C]∥Proceedings of the 18th IEEE international conference on tools with artificial intelligence. Arlington, USA, 2006.

[10] Miyahara K, Pazzani M J. Collaborative filtering with the simple Bayesian classifier[C]∥Proceedings of the 6th pacific rim international conference on artificial intelligence. Melbourne, Australia, 2000.

[11] Connor M, Herlocker J. Clustering items for collaborative filtering[C]∥Proceedings of the ACM SIGIR workshop on recommender systems. Berkeley, California, 1999.

[12] Sarwar B,Karypis G,Konstan J, et al. Recommender systems for large-scale e-commerce: Scalable neighborhood formation using clustering[C]∥Proceedings of the 5th international conference on computer and information technology. Dhaka,Bangladesh, 2002.

[13] Kohrs A, Merialdo B. Cluster for collaborative filtering application[C]∥Proceedings of the international conference on computational intelligence for modelling control and automation. Amsterdam: IOS Press, 1999: 199-204.

[14] 楊風(fēng)召. 高維數(shù)據(jù)挖掘技術(shù)研究[M].南京:東南大學(xué)出版社, 2007.

[15] Zhang Z K, Zhou T, Zhang Y C. Personalized recommendation via integrated diffusion on User-Item-Tag tripartite graphs[J]. Physica A, 2010, 389: 179-186.

[16] Felfernig A，Kiener A．Knowledge-based interactive selling of financial services with FSAdvisor[C]∥Proceedings of the 17th innovative applications of artificial intelligence conference (AAAI)．Pittsburgh: AAAI Press， 2005: 1475-1482．

[17] Bridge D, G?ker M H, McGinty L, et al. Case-based recommender systems[J]. Knowledge Engineering Review, 2005, 20(3):315-320.

[18] Robin B. Hybrid recommender systems: Survey and experiments[R]. Fullerton: California State University,2003.

[19] Claypool M, Gokhale A, Miranda T, et al. Combining content-based and collaborative filters in an online newspaper[C]∥Proceedings of the ACM SIGIR ′99 workshop on recommender systems: Algorithms and evaluation. Berkeley: ACM,1999.

[20] 項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].3版.北京:人民郵電出版社, 2012:41-43.

[21] 徐海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報(bào), 2009,20(2): 350-362.

[22] Zhou T, Su R Q, Liu R R, et al. Accurate and diverse recommendations via eliminating redundant correlations[J]. New Journal of Physics, 2009, 11:123008-123026.

[23] Ge M, Delgado-Battenfeld C, Jannach D. Beyond accuracy: Evaluating recommender systems by coverage and serendipity[C]∥Proceedings of the fourth ACM conference on recommender systems. New York: ACM, 2010: 257-260.

[24] Celma O, Herrera Venue P. A new approach to evaluating novel recommendations[C]∥Proceedings of the 2008 ACM conference on recommender systems. New York: ACM, 2008: 179-186.

[25] Adomavicius G, Kwon Y.Maximizing aggregate recommendation diversity: A graph-theoretic approach[C]∥Proceeding of RecSys workshop on novelty and diversity in recommender systems. Chicago, USA, 2011:3-10.

[26] Bennett J, Lanning S. The netflix prize[C]∥Proceedings of KDD cup and workshop. San Jose: ACM, 2007.

[27] Zlatif V, Ghoshal G, Caldarelli G. Hypergraph topological quantities for tagged social networks[J]. Physical Review E, 2009, 80:8pp.

[28] Dror G, Koenigstein N, Koren Y, et al. The Yahoo! music dataset and KDD-cup’2011[DB/OL].(2011-06-30)[2014-02-10].http:∥webscope.sandbox.yahoo.com/catalog.php?datatype=c.

[29] 馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(7):1282-1288.

Ma H W,Zhang G W,Li P. Survey of collaborative filtering algorithms[J]. Journal of Chinese Computer Systems,2009,30(7):1282-1288.

[30] 曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào), 2002,13(10):1952-1961.

Zeng C, Xing C X, Zhou L Z. A survey of personalization technology[J]. Journal of Software, 2002,13(10):1952-1961.

[31] 夏培勇.個(gè)性化推薦技術(shù)中的協(xié)同過濾算法研究[D].青島:中國海洋大學(xué),2011.

Xia P Y. Research on collaborative filtering algorithm of personalized recommendation technology[D].Qingdao: Ocean University of China,2011.

[32] 任磊.推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].上海:華東師范大學(xué),2012.

Ren L. Research on some key issues of recommender systems[D].Shanghai:East China Normal University,2012.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放