亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        個(gè)性化推薦算法研究

        2014-08-28 07:59:20陳潔敏李建國蔡奕彬
        關(guān)鍵詞:協(xié)同預(yù)測算法

        陳潔敏, 湯 庸, 李建國, 蔡奕彬

        (華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣州 510631)

        在網(wǎng)絡(luò)數(shù)據(jù)爆炸的年代,人們面對的是海量信息,例如亞馬遜上面有數(shù)百萬種獨(dú)特的商品,Google Music曲庫有過千萬首歌,Del.icio.us上面有超過10億的網(wǎng)頁收藏,淘寶在線商品數(shù)已經(jīng)超過了8億件,新浪微博用戶數(shù)及騰訊微信用戶數(shù)均超過5億.用戶在海量的信息中難以找到自己感興趣的信息,這就是所謂的“信息過載(information overload)”問題,搜索引擎和推薦系統(tǒng)是目前解決該問題的主要技術(shù).與搜索引擎相比,用戶更青睞于使用個(gè)性化推薦系統(tǒng),因?yàn)樗苤鲃?dòng)地從用戶注冊信息、用戶瀏覽日志、歷史評分記錄和項(xiàng)目信息等方面進(jìn)行分析,從而挖掘用戶的興趣偏好和項(xiàng)目的特征,然后為用戶實(shí)現(xiàn)個(gè)人感興趣信息的私人定制,并根據(jù)用戶需求和項(xiàng)目信息的變化及時(shí)調(diào)整推薦的內(nèi)容和服務(wù)方式,實(shí)現(xiàn)“以用戶為中心”的個(gè)性化服務(wù).個(gè)性化推薦系統(tǒng)具有良好的發(fā)展和應(yīng)用前景,目前電子商務(wù)網(wǎng)站、社交網(wǎng)站、電影和視頻網(wǎng)站、個(gè)性化音樂網(wǎng)絡(luò)電臺、個(gè)性化閱讀和個(gè)性化廣告等領(lǐng)域都使用了不同形式的推薦系統(tǒng)并獲得巨大的效益.本文闡述了推薦系統(tǒng)概念定義,對比各類推薦算法優(yōu)點(diǎn)和缺點(diǎn),總結(jié)了常用數(shù)據(jù)集和評測指標(biāo), 最后提出未來面臨的主要問題及可能的研究方向.

        1 推薦系統(tǒng)概念定義

        推薦系統(tǒng)利用輸入的數(shù)據(jù)來預(yù)測系統(tǒng)對象未來潛在的喜好和興趣,將個(gè)性化推薦對象的清單推送給用戶.因此,系統(tǒng)用戶、推薦對象及個(gè)性化推薦算法是推薦系統(tǒng)的重要組成部分.推薦系統(tǒng)根據(jù)用戶注冊信息、歷史行為數(shù)據(jù)和需求為用戶建模,例如用戶年齡、職業(yè)、愛好、社交網(wǎng)絡(luò)關(guān)系等,同時(shí)也根據(jù)推薦對象的相關(guān)信息來構(gòu)造對象模型,最后推薦算法根據(jù)推薦策略、用戶信息和對象信息為用戶進(jìn)行個(gè)性化推薦.一般的推薦系統(tǒng)模型流程如圖1所示[1-2].

        圖1 推薦系統(tǒng)模型

        (1)

        2 推薦算法的主要分類

        推薦系統(tǒng)利用不同的信息源為用戶提供預(yù)測和項(xiàng)目的推薦,推薦算法在這個(gè)過程中起著重要的作用.根據(jù)可用信息不同,例如標(biāo)簽、信任度、社交網(wǎng)絡(luò)關(guān)系、人口統(tǒng)計(jì)信息等,及對各種評測指標(biāo)的考慮,目前流行的推薦算法主要分為四大類:基于內(nèi)容的推薦算法、協(xié)同過濾推薦算法、基于知識的推薦算法和混合的推薦算法(圖2).下面對該4類算法進(jìn)行介紹并對比優(yōu)缺點(diǎn).

        圖2 常用推薦算法分類

        2.1 基于內(nèi)容的推薦算法

        基于內(nèi)容的推薦(content-based recommendation)也稱為基于內(nèi)容的信息過濾推薦,它不需要用戶對推薦對象進(jìn)行評價(jià),而是把推薦對象的內(nèi)容特征抽取出來,然后從用戶以往選擇對象的內(nèi)容特征去學(xué)習(xí)用戶的偏好興趣,最后與用戶偏好興趣匹配度較高的對象將被推薦給用戶.

        在基于內(nèi)容的推薦算法中,f(u,c)為被推薦對象c對用戶u的效用函數(shù),主要利用對象內(nèi)容特征和用戶資料模型.對象內(nèi)容特征(Content(c))一般釆用基于TF-IDF[4]權(quán)重的向量空間模型(Vector Space Model)模型進(jìn)行表示[5].用機(jī)器學(xué)習(xí)的方法來獲取用戶的資料模型(ContentBasedProfile(u)),例如神經(jīng)網(wǎng)絡(luò)、決策樹、貝葉斯分類算法等[2].基于內(nèi)容的推薦算法中的效用函數(shù)f(u,c)可表示為[3]:

        f(u,c)=score(ContentBasedProfile(u),Content(c)).

        (2)

        Score的計(jì)算可以采用不同方法,例如可以用二者的余弦相似度計(jì)算,如:

        f(u,c)=cos(wu,wc)=

        (3)

        最后按所得到的f數(shù)值對對象排序,將最前面的項(xiàng)目作為推薦對象.雖然該算法的推薦結(jié)果比較符合用戶的喜好,但缺乏新穎度和驚喜度.

        2.2 協(xié)同過濾推薦

        協(xié)同過濾推薦(collaborative filtering recommendation)是推薦系統(tǒng)中最為流行且應(yīng)用廣泛的算法,它基于系統(tǒng)里其他用戶的評分記錄或其他歷史數(shù)據(jù)(例如,在亞馬遜上用戶購買商品的歷史記錄).目前2種主要的協(xié)同推薦技術(shù)是基于內(nèi)存的協(xié)同推薦和基于模型的協(xié)同推薦,前者利用歷史數(shù)據(jù)來尋找相似的推薦項(xiàng)目,后者通過歷史數(shù)據(jù)構(gòu)造預(yù)測模型,再通過模型進(jìn)行評分預(yù)測,它們的不同在于對用戶-項(xiàng)目評分矩陣的分析和使用方式上的差異.

        2.2.1 基于內(nèi)存的協(xié)同推薦 基于內(nèi)存的協(xié)同推薦(memory-based collaborative filtering)也稱為啟發(fā)式的協(xié)同推薦,主要直接利用用戶的歷史數(shù)據(jù)來提供預(yù)測結(jié)果,例如用戶-電影的評分矩陣.根據(jù)考慮角度的不同,可以分為基于項(xiàng)目 (Item-based)和基于用戶(User-based)的協(xié)同推薦.前者是根據(jù)項(xiàng)目之間的相似度來尋找與目標(biāo)項(xiàng)目近似的項(xiàng)目集,后者則利用用戶之間相似的興趣偏好來獲得近鄰用戶集,這2種基于近鄰的推薦算法主要依賴用戶數(shù)與項(xiàng)目數(shù)的比例,當(dāng)用戶數(shù)大大超過項(xiàng)目數(shù)時(shí),基于項(xiàng)目的系統(tǒng)推薦能提供更準(zhǔn)確的推薦,反之亦然.

        基于用戶的協(xié)同推薦的基本步驟:首先尋找與用戶歷史評分行為相似的其他用戶形成近鄰用戶集,然后根據(jù)近鄰用戶的歷史偏好或評分來為目標(biāo)用戶進(jìn)行推薦或評分預(yù)測.在User-based模型中,用戶之間的相似度可以選擇不同的相似度函數(shù)來計(jì)算,例如皮爾遜相關(guān)系數(shù):

        (4)

        確定鄰居集合后,由于不同用戶對項(xiàng)目的評分標(biāo)準(zhǔn)存在差異,User-based模型先對評分進(jìn)行歸一化, 同時(shí)由于用戶評分存在波動(dòng)性,可以引入對評分波動(dòng)情況的考慮,例如Z-scores歸一化方法,通過引入用戶評分偏差值σ來平衡用戶間的差異:

        (5)

        2.2.2 基于模型的推薦算法 由于用戶規(guī)模和項(xiàng)目數(shù)量的快速增長,數(shù)據(jù)集的稀疏問題會更嚴(yán)重,例如neflix的電影評分?jǐn)?shù)據(jù)集將近99%的數(shù)據(jù)缺失,那么基于內(nèi)存的協(xié)同算法的計(jì)算量將大規(guī)模增長,同時(shí)由于數(shù)據(jù)的稀疏問題,其推薦結(jié)果的質(zhì)量無疑會下降.因此,文獻(xiàn)[6]、[7]提出了基于模型的推薦算法(model-based collaborative filtering),主要思想是利用用戶對項(xiàng)目的評分來構(gòu)造一個(gè)評分預(yù)測模型,其中使用了多種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的計(jì)算模型[7-8],然后通過該模型實(shí)現(xiàn)對未知評分的預(yù)測.常用模型有貝葉斯網(wǎng)絡(luò)[9-10]、聚類算法[11-12]、降維的技術(shù)、圖模型和回歸模型等.

        (1)基于貝葉斯網(wǎng)絡(luò)的協(xié)同過濾. 貝葉斯網(wǎng)絡(luò)是一種基于概率推理的圖形化網(wǎng)絡(luò),也是目前不確定知識表達(dá)和推理領(lǐng)域最有效的理論模型之一.貝葉斯網(wǎng)絡(luò)包括兩部分:有向無環(huán)圖及條件概率表.其中圖里的節(jié)點(diǎn)代表隨機(jī)變量,節(jié)點(diǎn)間的有向邊代表了節(jié)點(diǎn)間的概率依賴關(guān)系,條件概率表中每一行代表一對節(jié)點(diǎn)之間的條件概率值,該值反映了關(guān)系的強(qiáng)度[6].

        基于樸素貝葉斯的協(xié)同過濾算法認(rèn)為用戶或者項(xiàng)目都具有某些吸引人的特征,用戶對該類特征的偏好是短期穩(wěn)定的,因此可以利用貝葉斯理論分析用戶或項(xiàng)目特征值.假設(shè)用戶和項(xiàng)目屬性組成特征集X={x1,x2,…,xn},將推薦項(xiàng)目分為2類:推薦給用戶的項(xiàng)目集合c1和不推薦給用戶的項(xiàng)目集合c2,p(xi|c1)、p(xi|c2)分別表示項(xiàng)目在推薦、不推薦給用戶的項(xiàng)目集合中出現(xiàn)特征值xi的概率,然后選擇概率最大的類別作為項(xiàng)目所屬類別.令X表示特征集合,C表示類別集合,則樸素貝葉斯分類模型:

        (6)

        (2)基于聚類的協(xié)同過濾.根據(jù)聚類對象的不同可分為基于用戶聚類和基于項(xiàng)目聚類的協(xié)同過濾.該方法首先依據(jù)用戶-項(xiàng)目評分矩陣對用戶或項(xiàng)目進(jìn)行聚類,然后通過計(jì)算目標(biāo)用戶或項(xiàng)目與各類別的相似度,為其找到所屬的類別,最后通過所屬類別尋找用戶或項(xiàng)目的最近鄰作推薦.常用的聚類方法可以分為:基于密度的方法、基于劃分的方法、基于神經(jīng)網(wǎng)絡(luò)的方法、基于模糊聚類的方法以及層次聚類的方法.在聚類分析模型中只將目標(biāo)用戶或項(xiàng)目與預(yù)先聚類好的簇進(jìn)行比較,而不必再與整個(gè)數(shù)據(jù)集進(jìn)行比較,所以在系統(tǒng)的實(shí)時(shí)性和可擴(kuò)展性等問題上要比傳統(tǒng)的協(xié)同過濾方法優(yōu)越[13].

        (3)基于降維技術(shù)的協(xié)同過濾.隨著用戶和項(xiàng)目數(shù)量大規(guī)模增加,可用于預(yù)測評分的數(shù)據(jù)維度隨之增加,維數(shù)災(zāi)難[14]所帶來的各種問題將無法避免,例如在高維空間上搜索最近鄰居將非常困難并造成系統(tǒng)性能下降.因此不少學(xué)者引入降維技術(shù)把高維數(shù)據(jù)映射到低維空間中,從而提高系統(tǒng)的伸縮性.常用的降維技術(shù)有奇異值分解(singular value decomposition)、概率潛在語義分析(probabilistic latent semantic analysis)、主成分分析(principle component analysis)、最大邊際矩陣分解(maximum margin matrix factorization)等.

        (4)基于圖模型的協(xié)同過濾.基于圖模型的協(xié)同過濾是以圖論作為理論基礎(chǔ),將用戶的歷史行為數(shù)據(jù)用圖的形式表示,用戶、項(xiàng)目和標(biāo)簽等信息可以看作圖結(jié)構(gòu)中不同類型的節(jié)點(diǎn),分析不同節(jié)點(diǎn)之間的關(guān)系,構(gòu)造關(guān)系網(wǎng)絡(luò)圖.常用的基于圖模型的協(xié)同推薦算法有二分圖和三分圖.前者節(jié)點(diǎn)有2類,分別代表用戶和項(xiàng)目,節(jié)點(diǎn)間的邊代表用戶對項(xiàng)目的評分;后者比前者多了標(biāo)簽節(jié)點(diǎn)[15].如圖3A所示,該二分圖有3個(gè)用戶節(jié)點(diǎn)和4個(gè)項(xiàng)目節(jié)點(diǎn),邊的權(quán)值為用戶對項(xiàng)目的評分.三分圖(圖3B)多了6個(gè)標(biāo)簽節(jié)點(diǎn),用戶3-項(xiàng)目2-標(biāo)簽1之間的邊代表用戶3對項(xiàng)目2打了標(biāo)簽1.

        圖3 基于圖模型的協(xié)同過濾

        根據(jù)計(jì)算原理不同,可以分為基于物資擴(kuò)散、熱傳導(dǎo)和資源分配的二分圖/三分圖協(xié)同推薦.在基于物資擴(kuò)散的二分圖協(xié)同推薦中,用戶相似度為

        (7)

        其中k(u)表示用戶u的度,k(i)表示項(xiàng)目i的度,rui=1表示用戶u對項(xiàng)目i進(jìn)行了評分,否則rui=0.基于物資擴(kuò)散的三分圖協(xié)同推薦增加了用戶到標(biāo)簽的計(jì)算:

        (8)

        2.2.3 基于知識的推薦 很多推薦算法都無法解決冷啟動(dòng)問題,因此不少專家提出基于知識的推薦(knowledge-based recommendation),希望利用用戶的需求愛好、產(chǎn)品知識和功能知識來為用戶推薦項(xiàng)目,該方法在某種程度可以看成是一種推理(inference)技術(shù).該方法可以分為3類: 基于約束的推薦(constraint based recommendation)[16]、基于實(shí)例的推薦(case based recommendation)[17]和基于知識推理的推薦系統(tǒng).由于不需要用戶的歷史行為數(shù)據(jù),所以不存在冷啟動(dòng)問題,但也存在不少問題,例如如何獲取、如何表示領(lǐng)域知識以及在推薦系統(tǒng)中采用哪種交互模式等.

        2.2.4 混合的推薦 組合推薦(hybrid recommendation)是多種推薦算法的組合,希望通過不同推薦算法的組合達(dá)到保留優(yōu)點(diǎn)避免缺點(diǎn)的應(yīng)用效果,在組合方式上,主要有7種組合思路[18]:加權(quán)融合、切換、混合、特征組合、級聯(lián)、特征擴(kuò)充及元層次混合.這7種思路又分成3種基本設(shè)計(jì)方式:整體式、流水線式和并行式.雖然理論上存在多種組合方法,但不同的組合思路適用于不同的應(yīng)用場景.按推薦算法組合發(fā)生的階段及融合的程度可以把組合推薦分為前融合、中融合和后融合[19-21]:(1)前融合:對各種推薦算法進(jìn)行直接融合,統(tǒng)一在一個(gè)框架模型里,從算法層次看是深度融合;(2)中融合:在以某種推薦算法為主的框架模型上,融合另一種推薦算法的部分特征;(3)后融合:直接將多種推薦算法各自計(jì)算得到的結(jié)果進(jìn)行融合.

        常用的混合推薦有:(1)將協(xié)同推薦和基于內(nèi)容推薦單獨(dú)運(yùn)行的結(jié)果進(jìn)行組合推薦;(2)將基于內(nèi)容推薦的特征融合到某種協(xié)同推薦中;(3)建立具有基于內(nèi)容推薦和協(xié)同推薦特點(diǎn)的預(yù)測模型.

        各種推薦算法都存在自身的優(yōu)、缺點(diǎn),有各自適用的環(huán)境和數(shù)據(jù)源,在推薦的效果方面也存在差異(表1).

        表1 常用協(xié)同過濾算法及其優(yōu)缺點(diǎn)Table 1 The advantages and disadvantages of collaborative algorithms

        3 評測的方法及指標(biāo)

        3.1 評測方法

        評價(jià)推薦系統(tǒng)的方法一般分為3種:離線實(shí)驗(yàn)(offline experiment)、在線實(shí)驗(yàn)(online experiment)和用戶調(diào)查(user study)[20].離線實(shí)驗(yàn)是將用戶數(shù)據(jù)集分為訓(xùn)練集和測試集,訓(xùn)練集用于用戶興趣模型構(gòu)造,測試集用于對模型性能測試.該方法利用用戶的歷史數(shù)據(jù)進(jìn)行測試,不需要真正用戶的參與,比在線實(shí)驗(yàn)的成本低,適用于對不同推薦算法的比較和過濾,然而由于缺乏實(shí)際用戶參與,算法的預(yù)測質(zhì)量難以保證.因此當(dāng)完成離線實(shí)驗(yàn)后,還需要進(jìn)行在線實(shí)驗(yàn).在線實(shí)驗(yàn)是根據(jù)用戶在線實(shí)時(shí)反饋或事后問卷調(diào)查等結(jié)果來衡量推薦系統(tǒng)的表現(xiàn)[20].用戶調(diào)查是讓測試用戶來完成被測試的推薦系統(tǒng)的一系列任務(wù)并對測試用戶的行為進(jìn)行記錄.優(yōu)點(diǎn)在于測試到推薦系統(tǒng)對用戶行為的影響,體現(xiàn)用戶主觀的指標(biāo)以及出現(xiàn)錯(cuò)誤后容易彌補(bǔ),但是該方法由于成本高和需要大量人員參與,從而讓測試的范圍和次數(shù)受到了限制.

        3.2 評測指標(biāo)

        任何推薦算法都需要通過評測,這樣才能評估它的推薦質(zhì)量.常用的推薦評測指標(biāo)有:用戶滿意度(user preference)、預(yù)測準(zhǔn)確度(accuracy)、覆蓋率(coverage)、多樣性(diversity)和新穎性(novelty)等.

        3.2.1 用戶滿意度 作為評測推薦系統(tǒng)的最重要指標(biāo)之一,用戶滿意度描述用戶對推薦結(jié)果的滿意程度.一般可采用調(diào)查問卷或用戶在線行為數(shù)據(jù)分析的形式來獲取用戶滿意度.

        3.2.2 預(yù)測的準(zhǔn)確度 預(yù)測準(zhǔn)確度用于衡量推薦算法預(yù)測用戶對項(xiàng)目興趣偏好的能力,主要是采用統(tǒng)計(jì)學(xué)的方法來量化推薦系統(tǒng)產(chǎn)生的預(yù)測評分與實(shí)際評分之間的誤差.常用的預(yù)測準(zhǔn)確度分為評分預(yù)測準(zhǔn)確度、使用預(yù)測準(zhǔn)確度和排序準(zhǔn)確度.

        常用評分預(yù)測有平均絕對誤差(Mean Absolute Error, MAE)、歸一化平均絕對誤差(Normalized Mean Absolute Error, NMAE)、均方根誤差(Root Mean Squared Error, RMSE)、歸一化均方根誤差(Normalized Root Mean Squared Error, NRMSE)[22].

        平均絕對誤差(MAE)是最常用的評估方法之一,它是通過統(tǒng)計(jì)預(yù)測值和真實(shí)評分值之間的絕對誤差值得到的,計(jì)算公式為:

        (9)

        均方根誤差(RMSE)與MAE相比,RMSE加大了對預(yù)測不準(zhǔn)的用戶項(xiàng)目評分的懲罰,因而對系統(tǒng)的評測更加苛刻.其計(jì)算公式如下:

        (10)

        Top-N推薦屬于使用預(yù)測準(zhǔn)確度,由推薦網(wǎng)站采用個(gè)性化的推薦列表為用戶提供推薦.這類推薦的重點(diǎn)在于分類準(zhǔn)確率,常用分類衡量指標(biāo)有準(zhǔn)確率(precision)和召回率(recall).

        3.2.3 覆蓋率 覆蓋率[22]體現(xiàn)的是推薦系統(tǒng)挖掘長尾的能力,主要通過研究推薦對象在推薦列表中出現(xiàn)次數(shù)的分布來描述,適用于那些需要為用戶找出所有感興趣商品的系統(tǒng).常用覆蓋率有預(yù)測覆蓋率(prediction coverage) 、帶權(quán)預(yù)測覆蓋率(weighted prediction coverage)、用戶覆蓋率(user coverage)、種類覆蓋率(catalog coverage)和帶權(quán)種類覆蓋率(weighted catalog coverage)等[23].

        預(yù)測覆蓋率表示系統(tǒng)可以預(yù)測評分的項(xiàng)目占所有項(xiàng)目的比例,該指標(biāo)依賴于推薦算法和輸入值,定義為:

        (11)

        其中IP表示系統(tǒng)可以預(yù)測評分的項(xiàng)目集,I為所有項(xiàng)目集.

        帶權(quán)預(yù)測覆蓋率[23]主要考慮了項(xiàng)目的效用性,該效用性主要從準(zhǔn)確性、新穎性和推薦有效性等方面獲?。胷(i)代表項(xiàng)目i的效用值,定義為:

        (12)

        用戶覆蓋率(UCOV)表示推薦算法能為多大比例用戶計(jì)算推薦結(jié)果的能力,與準(zhǔn)確性指標(biāo)結(jié)合使用,常用于分析新用戶對系統(tǒng)影響.

        3.2.4 多樣性、新穎性和驚喜度 一個(gè)良好的推薦系統(tǒng)應(yīng)該能為用戶提供多樣化的選擇,即推薦結(jié)果應(yīng)具有多樣性.在推薦系統(tǒng)中,多樣性可以從個(gè)體層面和總體層面進(jìn)行評估.個(gè)體層面主要考慮的是推薦系統(tǒng)對單用戶推薦項(xiàng)目的多樣性,主要計(jì)算推薦項(xiàng)目差異平均值;總體層面則是衡量推薦系統(tǒng)對所有用戶推薦不同項(xiàng)目的能力[24].

        新穎性[25]和驚喜度是最近2年推薦系統(tǒng)領(lǐng)域比較關(guān)注的指標(biāo).新穎的推薦是指給用戶推薦那些他們以前沒有聽說過的物品.新穎度是為了度量推薦列表中物品對于用戶的新穎程度.某種程度上,驚喜度同時(shí)兼顧了新穎性和準(zhǔn)確度.

        4 推薦算法的常用數(shù)據(jù)集

        隨著推薦系統(tǒng)的廣泛應(yīng)用,目前大部分推薦算法所用數(shù)據(jù)集都是來源現(xiàn)實(shí)的推薦系統(tǒng),每年數(shù)據(jù)挖掘與知識發(fā)現(xiàn)競賽都采用企業(yè)提供的實(shí)際應(yīng)用數(shù)據(jù)集.但有時(shí)候?yàn)榱藴y試一些特定應(yīng)用領(lǐng)域的算法需要采用人工數(shù)據(jù)集,但該類數(shù)據(jù)應(yīng)用具有局限性.目前在推薦算法研究中,已經(jīng)有很多被研究人員公認(rèn)的標(biāo)準(zhǔn)測試數(shù)據(jù)集并且成為推薦算法性能測試的基礎(chǔ)和依據(jù).常用公認(rèn)的標(biāo)準(zhǔn)測試數(shù)據(jù)集有:

        (1)騰訊微博數(shù)據(jù)集.騰訊微博數(shù)據(jù)集是由2012年的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)競賽(Kdd-cup)所提供的.該數(shù)據(jù)集是從騰訊 4.25億微博用戶中的50天數(shù)據(jù)采樣得到,包含有200多萬活躍用戶、6千被推薦用戶或信息源、3億多條推薦記錄及其300多萬個(gè)收聽動(dòng)作,7 000多萬條訓(xùn)練記錄,3 000多萬條測試記錄.該數(shù)據(jù)集的規(guī)模超過已往的 KDD Cup比賽.

        (2)Netflix數(shù)據(jù)集[26]. 該數(shù)據(jù)集來自著名的電影網(wǎng)站Netflix.包含480 189位用戶對17 770部電影的100 480 507條評分記錄,與MovieLen評分不同,其數(shù)據(jù)為區(qū)間[1,5]的離散整數(shù)值,這是目前規(guī)模最大的電影評分?jǐn)?shù)據(jù)集.由于Netflix比賽己經(jīng)結(jié)束,該數(shù)據(jù)集已不對外公開.

        (3)CiteULike數(shù)據(jù)集[27].CiteULike是由著名的施普林格出版社(Springer)提供的一個(gè)免費(fèi)協(xié)助用戶存儲、管理和分享學(xué)術(shù)文章的網(wǎng)站,用戶可以收藏自己喜歡的論文并給它們打上標(biāo)簽.CiteULike公布了一個(gè)包含了用戶收藏論文及給論文打標(biāo)簽的數(shù)據(jù)集.這個(gè)數(shù)據(jù)集包含52 689個(gè)用戶,1 793 954篇論文以及2 119 200個(gè)用戶和論文之間的關(guān)系.

        表2 推薦系統(tǒng)評價(jià)標(biāo)準(zhǔn)分類Table 2 Evaluation criteria of recommendation systems

        (4)Yahoo!音樂數(shù)據(jù)集[28].Yahoo!音樂數(shù)據(jù)集包含了用戶對單曲、專輯、歌手以及流派等不同的音樂元素的評分.評分區(qū)間是0~100之間的整數(shù),總共涉及1 000 990個(gè)用戶、624 961個(gè)音樂元素以及262 810 175條評分記錄.

        5 總結(jié)與展望

        推薦系統(tǒng)可應(yīng)用于不同領(lǐng)域,在海量個(gè)性化需求的驅(qū)動(dòng)下,隨著云計(jì)算、個(gè)性化服務(wù)、人工智能、決策科學(xué)和信息檢索等領(lǐng)域發(fā)展的推動(dòng),其發(fā)展應(yīng)用迅速并取得很好的研究成果.但也存在下面幾個(gè)問題,而這些問題也是未來研究的熱點(diǎn)[20,29-32].

        (1)上下文感知推薦系統(tǒng).上下文包含多種多樣的信息,例如時(shí)間、位置和情感等.因此上下文感知推薦系統(tǒng)的主要任務(wù)就是如何將上下文信息應(yīng)用到推薦算法當(dāng)中,從而提高推薦的精確度和用戶滿意度.

        (2)推薦的實(shí)時(shí)性研究.由于數(shù)據(jù)量的龐大,推薦系統(tǒng)的推薦精度和實(shí)時(shí)性一直都是一對矛盾.目前大部分系統(tǒng)采用離線計(jì)算,某種程度上是以推薦質(zhì)量為代價(jià)的,因此如何有效提高推薦系統(tǒng)的推薦質(zhì)量并兼顧系統(tǒng)的實(shí)時(shí)性,需要做進(jìn)一步深入的研究.

        (3)稀疏性和冷啟動(dòng)研究.這2個(gè)問題一直是推薦系統(tǒng)的研究難點(diǎn),它們可以導(dǎo)致協(xié)同過濾模式的運(yùn)行效率和推薦精確度較低.盡管很多學(xué)者對該問題進(jìn)行研究并提出解決辦法,但效果并不十分顯著,還需要對其進(jìn)行研究.

        參考文獻(xiàn):

        [1] Pazzani M J, Billsus D. Content-based recommendation systems[M]∥Brusilovsky P,Kobsa A,Nejdl W.The Adaptive Web. Berlin,Heidelberg: Springer-Verlag,2007,4321:325-341.

        [2] Melville P, Mooney R J, Nagarajan R. Content-boosted collaborative filtering for improved recommendations[C]∥Proceeding of the 18th national conference on artificial intelligence.Edmonton: AAAI Press, 2002: 187-192.

        [3] Adomavicius G,Tuzhilin A.Toward the next generation recommender systems:A survey of the state-of-the-art and possible extensions[J].IEEE Trans on Knowledge and Data Engineering,2005,17(6):734-749.

        [4] Belkin N,Croft B.Information filtering and information retrieval[J].Communications of the ACM,1992,35(12):29-37.

        [5] Shardanand U, Maes P. Social information filtering: Algorithms for automating ‘Word of Mouth’[C]∥Proceedings of the ACM SIGCHI conference on human factors in computing systems.Denver:ACM Press, 1995:210-217.

        [6] Breese J, Hecherman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C]∥Proceedings of the 14th conference on uncertainty in artificial intelligence (UAI’98). San Francisco: Morgan Kaufmann Publishers, 1998:43-52.

        [7] Sarwar B,Konstan J,Riedl J. Incremental singular value decomposition algorithms for highly scalable recommender systems[C]∥Proceedings of the 5th international conference on computer and information science. Dhaka,Bangladesh, 2002.

        [8] Koren Y. Factorization meets the neighborhood: A multifaceted collaborative filtering model[C]∥Proceedings of the 14th ACM SIGKDD international conference on knowledge discovery and data mining. Las Vegas, USA, 2008.

        [9] Su X, Khoshgoftaar T M.Collaborative filtering for multi-class data using belief nets algorithms[C]∥Proceedings of the 18th IEEE international conference on tools with artificial intelligence. Arlington, USA, 2006.

        [10] Miyahara K, Pazzani M J. Collaborative filtering with the simple Bayesian classifier[C]∥Proceedings of the 6th pacific rim international conference on artificial intelligence. Melbourne, Australia, 2000.

        [11] Connor M, Herlocker J. Clustering items for collaborative filtering[C]∥Proceedings of the ACM SIGIR workshop on recommender systems. Berkeley, California, 1999.

        [12] Sarwar B,Karypis G,Konstan J, et al. Recommender systems for large-scale e-commerce: Scalable neighborhood formation using clustering[C]∥Proceedings of the 5th international conference on computer and information technology. Dhaka,Bangladesh, 2002.

        [13] Kohrs A, Merialdo B. Cluster for collaborative filtering application[C]∥Proceedings of the international conference on computational intelligence for modelling control and automation. Amsterdam: IOS Press, 1999: 199-204.

        [14] 楊風(fēng)召. 高維數(shù)據(jù)挖掘技術(shù)研究[M].南京:東南大學(xué)出版社, 2007.

        [15] Zhang Z K, Zhou T, Zhang Y C. Personalized recommendation via integrated diffusion on User-Item-Tag tripartite graphs[J]. Physica A, 2010, 389: 179-186.

        [16] Felfernig A,Kiener A.Knowledge-based interactive selling of financial services with FSAdvisor[C]∥Proceedings of the 17th innovative applications of artificial intelligence conference (AAAI).Pittsburgh: AAAI Press, 2005: 1475-1482.

        [17] Bridge D, G?ker M H, McGinty L, et al. Case-based recommender systems[J]. Knowledge Engineering Review, 2005, 20(3):315-320.

        [18] Robin B. Hybrid recommender systems: Survey and experiments[R]. Fullerton: California State University,2003.

        [19] Claypool M, Gokhale A, Miranda T, et al. Combining content-based and collaborative filters in an online newspaper[C]∥Proceedings of the ACM SIGIR ′99 workshop on recommender systems: Algorithms and evaluation. Berkeley: ACM,1999.

        [20] 項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].3版.北京:人民郵電出版社, 2012:41-43.

        [21] 徐海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報(bào), 2009,20(2): 350-362.

        [22] Zhou T, Su R Q, Liu R R, et al. Accurate and diverse recommendations via eliminating redundant correlations[J]. New Journal of Physics, 2009, 11:123008-123026.

        [23] Ge M, Delgado-Battenfeld C, Jannach D. Beyond accuracy: Evaluating recommender systems by coverage and serendipity[C]∥Proceedings of the fourth ACM conference on recommender systems. New York: ACM, 2010: 257-260.

        [24] Celma O, Herrera Venue P. A new approach to evaluating novel recommendations[C]∥Proceedings of the 2008 ACM conference on recommender systems. New York: ACM, 2008: 179-186.

        [25] Adomavicius G, Kwon Y.Maximizing aggregate recommendation diversity: A graph-theoretic approach[C]∥Proceeding of RecSys workshop on novelty and diversity in recommender systems. Chicago, USA, 2011:3-10.

        [26] Bennett J, Lanning S. The netflix prize[C]∥Proceedings of KDD cup and workshop. San Jose: ACM, 2007.

        [27] Zlatif V, Ghoshal G, Caldarelli G. Hypergraph topological quantities for tagged social networks[J]. Physical Review E, 2009, 80:8pp.

        [28] Dror G, Koenigstein N, Koren Y, et al. The Yahoo! music dataset and KDD-cup’2011[DB/OL].(2011-06-30)[2014-02-10].http:∥webscope.sandbox.yahoo.com/catalog.php?datatype=c.

        [29] 馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(7):1282-1288.

        Ma H W,Zhang G W,Li P. Survey of collaborative filtering algorithms[J]. Journal of Chinese Computer Systems,2009,30(7):1282-1288.

        [30] 曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào), 2002,13(10):1952-1961.

        Zeng C, Xing C X, Zhou L Z. A survey of personalization technology[J]. Journal of Software, 2002,13(10):1952-1961.

        [31] 夏培勇.個(gè)性化推薦技術(shù)中的協(xié)同過濾算法研究[D].青島:中國海洋大學(xué),2011.

        Xia P Y. Research on collaborative filtering algorithm of personalized recommendation technology[D].Qingdao: Ocean University of China,2011.

        [32] 任磊.推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].上海:華東師范大學(xué),2012.

        Ren L. Research on some key issues of recommender systems[D].Shanghai:East China Normal University,2012.

        猜你喜歡
        協(xié)同預(yù)測算法
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        蜀道難:車與路的協(xié)同進(jìn)化
        基于MapReduce的改進(jìn)Eclat算法
        Travellng thg World Full—time for Rree
        “四化”協(xié)同才有出路
        汽車觀察(2019年2期)2019-03-15 06:00:50
        進(jìn)位加法的兩種算法
        不必預(yù)測未來,只需把握現(xiàn)在
        三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
        久久久久亚洲av成人人电影 | 久久天天躁狠狠躁夜夜中文字幕| 91麻豆精品激情在线观最新| 日本区一区二区三视频| 看全色黄大色大片免费久久久| 国产精品女主播在线播放| 99在线精品免费视频| 影音先锋每日av色资源站| av狼人婷婷久久亚洲综合| 久久午夜一区二区三区| 成人艳情一二三区| 国产精品美女一区二区三区| 国产成人一区二区三区视频免费蜜| 日本一区二区偷拍视频| 中文字幕av中文字无码亚| 一区二区传媒有限公司| 日韩亚洲欧美精品| 男女啪啪动态视频在线观看 | 久久久久久人妻一区精品| 日韩AV无码一区二区三区不卡毛片| 亚洲国产成人av第一二三区| 久久日日躁夜夜躁狠狠躁| 亚洲欧美成人一区二区在线电影 | 亚洲综合日韩一二三区| 337p西西人体大胆瓣开下部| 亚洲AV无码精品色欲av| 久久精品国产亚洲不卡| 欧美老熟妇乱子| 国产亚洲视频在线观看网址| 久久洲Av无码西西人体| 国产一区亚洲二区三区极品| 女人高潮被爽到呻吟在线观看| 亚洲日本va99在线| 免费观看国产激情视频在线观看| 国产精品成熟老女人| 十八岁以下禁止观看黄下载链接| 黑丝美女被内射在线观看| 日本激情网站中文字幕| 熟女人妻在线视频| 国产综合精品久久久久成人| 人妻少妇艳情视频中文字幕|