魏童童,馮 鈞,唐志賢,王 純
(河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)
隨著信息技術(shù)與互聯(lián)網(wǎng)的發(fā)展,人類逐漸從信息匱乏的時(shí)代步入了信息過(guò)載(Information Overload)和信息爆炸(Information Explosion)的時(shí)代。盡管傳統(tǒng)的服務(wù)性網(wǎng)站能解決用戶的檢索需求,但是它們都以同樣的排序結(jié)果呈現(xiàn)給用戶,并不考慮不同用戶興趣的差異性,導(dǎo)致用戶對(duì)推薦結(jié)果的滿意度比較低,因此個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生[1]。個(gè)性化推薦是挖掘用戶興趣和用戶在互聯(lián)網(wǎng)上的行為信息,向用戶推薦其可能感興趣的產(chǎn)品和信息?,F(xiàn)有的推薦算法包括協(xié)同過(guò)濾推薦算法、基于內(nèi)容的推薦算法以及基于模型的推薦算法等。其中協(xié)同過(guò)濾推薦算法應(yīng)用最廣泛,它是根據(jù)用戶配置文件信息,將用戶評(píng)級(jí)相似的用戶作為鄰居集,將與目標(biāo)用戶興趣相似的用戶所選擇的物品推薦給目標(biāo)用戶,比如Amazon、CDNow、MovieFinder 都采用該算法對(duì)用戶進(jìn)行推薦。但是在數(shù)據(jù)量呈指數(shù)增長(zhǎng)的壞境下,該算法面臨著許多新的挑戰(zhàn):1)數(shù)據(jù)稀疏性。用戶和項(xiàng)目數(shù)目龐大,但是對(duì)同一個(gè)項(xiàng)目評(píng)分的用戶又特別少,使得用戶和項(xiàng)目的交互數(shù)占所有可能存在的交互量的比例很小。2)冷啟動(dòng)。當(dāng)新用戶進(jìn)入系統(tǒng),沒有任何的交互信息,缺乏推薦計(jì)算的數(shù)據(jù)基礎(chǔ)。3)數(shù)據(jù)處理效率。數(shù)據(jù)龐大,算法執(zhí)行上在保證其準(zhǔn)確性的同時(shí),如何使得算法效率也得到提高。本文將從解決這3 個(gè)方面的問題考慮,挖掘用戶自身興趣與時(shí)下流行項(xiàng)目對(duì)用戶行為的影響,提出一種基于時(shí)序背景LDA 與協(xié)同過(guò)濾的混合推薦模型(TLDA-CF)。
針對(duì)傳統(tǒng)協(xié)同過(guò)濾推薦算法存在的3 個(gè)問題,國(guó)內(nèi)外的許多學(xué)者進(jìn)行了大量的研究。Huang 等[2]提出了不確定近鄰的協(xié)同過(guò)濾推薦算法,通過(guò)動(dòng)態(tài)地選擇鄰居計(jì)算用戶(項(xiàng)目)相似度解決數(shù)據(jù)稀疏性問題,但是由于不確定近鄰因子難以計(jì)算,使得用戶集與項(xiàng)目集不平衡。孫光福等[1]提出了基于時(shí)序行為的協(xié)同過(guò)濾推薦算法,通過(guò)用戶行為信息挖掘用戶(項(xiàng)目)的時(shí)序影響關(guān)系,將這種關(guān)系運(yùn)用到矩陣分解模型中,但是并沒有解決用戶網(wǎng)絡(luò)圖的稀疏性問題。Mobasher 等[3]提出了基于概率潛在語(yǔ)義分析模型(PLSA)的協(xié)同過(guò)濾推薦算法,對(duì)用戶進(jìn)行聚類,比傳統(tǒng)的協(xié)同過(guò)濾算法獲得更高的可擴(kuò)展性以及準(zhǔn)確性,最終實(shí)現(xiàn)對(duì)目標(biāo)用戶的推薦項(xiàng)目集。但是容易產(chǎn)生過(guò)擬合問題,只能對(duì)訓(xùn)練集中的文檔進(jìn)行分類。
主題模型通過(guò)對(duì)文字隱含主題進(jìn)行建模,基于統(tǒng)計(jì)學(xué)的思想探索單詞間的語(yǔ)義主題,能夠有效地解決傳統(tǒng)信息檢索中文檔相似度計(jì)算時(shí)忽略了單詞間同主題的問題。隨著主題模型的發(fā)展,大量的研究者將其應(yīng)用到推薦系統(tǒng)中。D.M.Blei 等[4]最早提出了LDA 模型,不僅解決了數(shù)據(jù)稀疏性問題,而且相比于關(guān)聯(lián)規(guī)則,運(yùn)行起來(lái)更加有效,但是因LDA 模型的計(jì)算量龐大,當(dāng)新用戶進(jìn)入系統(tǒng),不能及時(shí)更新模型,達(dá)不到實(shí)時(shí)推薦,而且未考慮用戶在不同的時(shí)間段的興趣差異性。Ramage 等[5]提出了基于標(biāo)簽的主題概率LDA 模型,利用標(biāo)簽的思想對(duì)推薦的內(nèi)容和用戶建立模型,在微博排序、用戶推薦上獲得了更好的可擴(kuò)展性,但是并不適用于用戶標(biāo)簽稀少的電子商務(wù)系統(tǒng)。陰紅志等[6]提出的時(shí)序背景感知混合模型(TCAM),通過(guò)挖掘時(shí)序背景內(nèi)容和用戶興趣來(lái)解決新聞?lì)惖膶?shí)時(shí)推薦問題,但是僅向新用戶推薦時(shí)下最熱門新聞,未考慮新用戶自身的興趣問題。
本文在綜合考慮用戶選擇受自身興趣和流行項(xiàng)目的雙重影響的基礎(chǔ)上,提出基于時(shí)序背景LDA 與協(xié)同過(guò)濾的混合推薦模型,結(jié)構(gòu)如圖1 所示。
圖1 基于時(shí)序背景LDA 與協(xié)同過(guò)濾的混合推薦模型結(jié)構(gòu)
模型分為離線推薦和在線推薦,離線部分實(shí)現(xiàn)大部分的計(jì)算處理,在線部分通過(guò)小部分計(jì)算實(shí)現(xiàn)實(shí)時(shí)推薦。其中,離線推薦根據(jù)用戶對(duì)項(xiàng)目的評(píng)分信息以及評(píng)分時(shí)間信息,預(yù)處理用戶-項(xiàng)目以及時(shí)間-項(xiàng)目文檔信息,建立基于Gibbs Sampling 算法采樣的LDA 模型,解決數(shù)據(jù)稀疏性問題,采用動(dòng)態(tài)權(quán)重平衡用戶選擇時(shí)受自身興趣和流行項(xiàng)目的影響,得到某時(shí)間段系統(tǒng)中的任意一個(gè)用戶選擇某項(xiàng)目的概率。在線推薦基于同領(lǐng)域的用戶相似原理解決新用戶的冷啟動(dòng)問題,運(yùn)用K-means 聚類算法對(duì)用戶進(jìn)行聚類,利用與新用戶相似的用戶選擇某項(xiàng)目的概率預(yù)測(cè)該新用戶選擇此項(xiàng)目的概率。對(duì)該新用戶下的項(xiàng)目進(jìn)行概率排序,選擇概率最高的前top-k 個(gè)項(xiàng)目推薦給該新用戶。如果是老用戶,直接利用離線推薦的結(jié)果,去掉已選擇的項(xiàng)目后進(jìn)行排序,選擇概率最高的前top-k個(gè)項(xiàng)目推薦給該老用戶。下面本文將對(duì)所提出的推薦算法過(guò)程進(jìn)行詳細(xì)介紹。
為了提高推薦項(xiàng)目的準(zhǔn)確性,在離線推薦采用基于Gibbs Sampling 算法采樣的LDA 模型,在傳統(tǒng)的用戶-項(xiàng)目二維LDA 模型上加入時(shí)間因素建立模型。綜合考慮用戶對(duì)項(xiàng)目的評(píng)分,用戶選擇該項(xiàng)目同時(shí)也受當(dāng)下流行項(xiàng)目的影響,并用概率的形式量化出來(lái),得到在時(shí)間段t 用戶u 對(duì)項(xiàng)目i 的選擇概率如公式(1)所示:
其中,p(i|θu)表示項(xiàng)目i 在用戶項(xiàng)目分布θ 用戶u上的概率,p(i|θ't)表示項(xiàng)目i 在時(shí)間項(xiàng)目分布θ't時(shí)間t 上的概率,λu表示用戶在不同時(shí)間段受流行項(xiàng)目影響的權(quán)值,1 -λu即用戶自身的對(duì)項(xiàng)目的興趣權(quán)值。由于不同的用戶受壞境的影響不同,并且同一個(gè)用戶在不同的時(shí)間段受環(huán)境影響也不同,所以在本文中,不再使用靜態(tài)權(quán)重,而是用動(dòng)態(tài)權(quán)重,更具有可解釋性,而本文的實(shí)驗(yàn)證明,動(dòng)態(tài)權(quán)重比靜態(tài)權(quán)重準(zhǔn)確率更高。
首先介紹主題概率模型LDA。LDA 模型是由D.M.Blei 等[4]于2003 年提出的一種非監(jiān)督的學(xué)習(xí)模型,引用詞袋的思想,將每篇文章視為很多個(gè)單詞組成,這些詞之間沒有順序關(guān)系,可以看做是個(gè)具有重復(fù)項(xiàng)的集合。一篇文檔可以有多個(gè)主題,而文檔中的每個(gè)單詞由這些主題生成。其基本思想是:
p(word|document)=∑topicp(word|topic)× p(topic|document) (2)
本文選取的主題模型是LDA,采用Gibbs Sampling 采樣估算LDA 超參數(shù)值。圖2 是LDA 模型圖。其中θ 是文檔主題概率分布,φ 是主題單詞概率分布,且都滿足Dirichlet 分布,α、β 分別是θ 和φ 的Dirichlet 的超參數(shù),K、N、M 分別是主題個(gè)數(shù)、單詞數(shù)和文檔數(shù)。本文取,β=0.01。
圖2 LDA 模型
該模型是基于每篇文檔由若干個(gè)主題構(gòu)成的概率分布,每個(gè)主題又是由若干個(gè)單詞構(gòu)成的概率分布這樣的假設(shè)上,首先生成一個(gè)文檔的主題分布,然后,要訓(xùn)練一個(gè)單詞要根據(jù)文檔的主題分布隨機(jī)選擇一個(gè)主題,再根據(jù)該主題的單詞分布隨機(jī)地選一個(gè)單詞,最終生成單詞集合。
Gibbs Sampling 采樣是目前LDA 模型中常用的采樣方法,簡(jiǎn)單有效,通過(guò)迭代得出文檔主題矩陣θ和主題單詞參數(shù)矩陣φ,估算公式如下所示:
其中,m 表示第m 個(gè)文檔,n 表示第n 個(gè)單詞,k 表示第k 個(gè)主題,表示第m 個(gè)文檔在主題k 除當(dāng)前主題下的次數(shù),表示第k 個(gè)主題對(duì)應(yīng)的第n 個(gè)單詞除當(dāng)前主題下的次數(shù),是主題k 在文檔m 上的預(yù)測(cè)值是單詞n 在主題k 上的預(yù)測(cè)值。2 個(gè)公式相乘,即是LDA 模型的Gibbs Sampling 公式。LDA主題模型的提出是為了解決利用文本信息挖掘用戶興趣的問題,更多地應(yīng)用在大規(guī)模文本隱式語(yǔ)義的分析,比如新聞、微博。但是,隨著LDA 技術(shù)的越來(lái)越成熟,以及大數(shù)據(jù)的興起,電子商務(wù)也在引進(jìn)LDA 模型進(jìn)行個(gè)性化推薦研究。
本文首先將用戶對(duì)項(xiàng)目的評(píng)分信息進(jìn)行如下處理:根據(jù)文獻(xiàn)[7]的思想,假設(shè)數(shù)據(jù)集中有n 個(gè)用戶和m 個(gè)項(xiàng)目,用戶對(duì)項(xiàng)目的評(píng)分為Ri,j,用戶的評(píng)分值是1 到5 的整數(shù),沒有做評(píng)分的視為評(píng)分為0,所以本文在數(shù)據(jù)預(yù)處理階段,將評(píng)分作為此項(xiàng)目被該用戶選擇的次數(shù),數(shù)值越高越符合用戶的興趣偏好,比如用戶1 對(duì)項(xiàng)目1 的評(píng)分是3,對(duì)項(xiàng)目2 的評(píng)分是1,對(duì)項(xiàng)目3 沒有評(píng)論,對(duì)項(xiàng)目4 的評(píng)分是2,那么記為:用戶u1={i1,i1,i1,i2,i4,i4}。將用戶作為文檔,項(xiàng)目作為單詞,建立LDA 模型,得到用戶項(xiàng)目矩陣W,對(duì)應(yīng)的wi,j即是公式(1)中用戶i 選擇項(xiàng)目j 的概率p(i|θu)。然后,將用戶與項(xiàng)目交互的時(shí)間信息做如下處理:對(duì)時(shí)間序列進(jìn)行分片,每個(gè)時(shí)間片收集該時(shí)間段中被訪問的項(xiàng)目,重復(fù)按不同的記錄,比如:時(shí)間段t1={i1,i1,i2,i2,i3,i4},將時(shí)間作為文檔,項(xiàng)目作為單詞建立LDA 模型,得到時(shí)間項(xiàng)目矩陣W',對(duì)應(yīng)的w'i,j即是公式(1)中時(shí)間片i 項(xiàng)目j 被選擇的概率p(i|θ't)。值得注意的是,對(duì)于面向用戶的主題數(shù)和面向時(shí)間的主題數(shù)并不需要相等,本文設(shè)置的主題數(shù)前者要大于后者。
用戶在面臨選擇時(shí),往往受流行項(xiàng)目的影響,很大一部分用戶根本就不知道自己想搜索什么,他們會(huì)趨向于那些訪問次數(shù)最多的項(xiàng)目。比如:當(dāng)某個(gè)用戶想去看電影,他更可能會(huì)去選擇票房高的電影,而不太可能會(huì)選擇票房低的電影。所以本文設(shè)置動(dòng)態(tài)權(quán)重時(shí),不從用戶自身興趣出發(fā),而從用戶受流行項(xiàng)目影響出發(fā)。假設(shè)在某個(gè)時(shí)間段t,將項(xiàng)目點(diǎn)擊次數(shù)最高的前k 個(gè)項(xiàng)目記為一個(gè)集合:Tt={Ii,Ij,...,Is},用戶u 在該時(shí)間段點(diǎn)擊的項(xiàng)目集為Su={Ih,Ij,...,Il},那么公式(1)中用戶u 受流行項(xiàng)目影響的動(dòng)態(tài)權(quán)值λu計(jì)算公式(5)如下所示:
至此,離線推薦完成,得到每個(gè)時(shí)間片中任意一個(gè)用戶對(duì)任意一個(gè)項(xiàng)目的選擇概率,由于LDA 模型計(jì)算量龐大,如果一個(gè)新用戶進(jìn)入系統(tǒng),該模型需要加入新用戶重新建立主題模型則浪費(fèi)大量的計(jì)算時(shí)間,達(dá)不到實(shí)時(shí)推薦的效果,因此下面介紹如何解決在線推薦問題。
當(dāng)一個(gè)老用戶進(jìn)入系統(tǒng),根據(jù)上文離線推薦得到的用戶對(duì)項(xiàng)目的選擇概率進(jìn)行排序,去掉已訪問過(guò)的項(xiàng)目后,選擇概率最高的top-k 個(gè)項(xiàng)目推薦給該用戶。那么對(duì)于新用戶進(jìn)入系統(tǒng),該如何推薦,這就是在線推薦的新用戶冷啟動(dòng)問題。如果將新用戶加入用戶-項(xiàng)目LDA 模型中,這樣的計(jì)算量之大根本無(wú)法滿足在線推薦的實(shí)時(shí)性要求。本文的思想是利用數(shù)據(jù)集中用戶屬性,對(duì)用戶進(jìn)行K-means 聚類。利用協(xié)同過(guò)濾算法根據(jù)新用戶的相似用戶對(duì)項(xiàng)目的選擇概率預(yù)測(cè)該新用戶對(duì)項(xiàng)目的選擇概率。
根據(jù)數(shù)據(jù)集中數(shù)值化后的用戶屬性對(duì)其進(jìn)行Kmeans 聚類,將用戶分為N 類。當(dāng)一個(gè)新用戶進(jìn)入系統(tǒng),首先計(jì)算出他所屬的類別,通過(guò)余弦公式即公式(6)計(jì)算與該類別內(nèi)的每個(gè)用戶相似度:
計(jì)算出與新用戶相似度最高的前k 個(gè)用戶,記為用戶集U,并用上面模型得出的用戶對(duì)項(xiàng)目的概率,對(duì)任意項(xiàng)目i∈T,通過(guò)概率預(yù)測(cè)公式(7)計(jì)算用戶選擇u 選擇項(xiàng)目i 的概率:
其中,Simu,v是用戶u 和用戶v 的相似度,pv,i是用戶v對(duì)項(xiàng)目i 的概率。最后,選擇前k 個(gè)概率最高的項(xiàng)目,推薦給用戶u。至此,得到對(duì)新用戶u 的推薦序列。
該方法通過(guò)用戶屬性對(duì)用戶進(jìn)行聚類,并運(yùn)用協(xié)同過(guò)濾算法的思想計(jì)算出新用戶的最近鄰用戶集,通過(guò)該新用戶的鄰居集預(yù)測(cè)用戶對(duì)項(xiàng)目的選擇概率,不僅解決了傳統(tǒng)的LDA 模型不能解決的新用戶冷啟動(dòng)問題,同時(shí)與傳統(tǒng)的協(xié)同過(guò)濾算法相比,將用戶相似度計(jì)算由整個(gè)用戶集計(jì)算縮減成局部用戶集計(jì)算,這樣降低了時(shí)間復(fù)雜度。
本文將所提出的算法,應(yīng)用到MovieLens 電影數(shù)據(jù)集中。MovieLens 是歷史最悠久的推薦系統(tǒng),由美國(guó)Minnesota 大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的GroupLens 項(xiàng)目組創(chuàng)辦,是一個(gè)非商業(yè)性質(zhì)的、以研究為目的的實(shí)驗(yàn)性站點(diǎn),該數(shù)據(jù)集是個(gè)性化推薦領(lǐng)域中最被廣泛應(yīng)用的數(shù)據(jù)集之一。MovieLens 數(shù)據(jù)集記錄了1997 年9 月19 日到1998 年4 月9 日,943 個(gè)用戶對(duì)1 682 部電影的10 萬(wàn)條評(píng)分記錄,每個(gè)用戶至少對(duì)20 部電影進(jìn)行評(píng)分,分值為1~5 的整數(shù)。數(shù)據(jù)稀疏度達(dá)到94%。
本文對(duì)基于時(shí)序背景LDA 與協(xié)同過(guò)濾的混合推薦模型進(jìn)行5 次實(shí)驗(yàn),每次隨機(jī)選取2 萬(wàn)條評(píng)分作為測(cè)試集,剩余8 萬(wàn)條評(píng)分作為訓(xùn)練集,取平均值作為結(jié)果進(jìn)行比較。
本文主要從3 個(gè)方面考慮算法的性能,分別是召回率(Recall)、準(zhǔn)確率(Precision),以及F1 值。在信息檢索與統(tǒng)計(jì)學(xué)分類中,召回率和精確率是被應(yīng)用最廣泛的用來(lái)評(píng)價(jià)結(jié)果質(zhì)量的2 個(gè)度量值。其中召回率也叫查全率,考察檢索出的相關(guān)文檔數(shù)與文檔庫(kù)中所有的相關(guān)文檔數(shù)的比值。精確率也叫查準(zhǔn)率,考察檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比值。由于召回率和準(zhǔn)確率是相互影響的,很難做到兩者都高,一般情況下,準(zhǔn)確率高,召回率低;召回率低,準(zhǔn)確率高。所以本文提出用F1 值作為衡量算法性能的最終標(biāo)準(zhǔn),具體的計(jì)算公式如下:
其中,R(u)是算法預(yù)測(cè)的點(diǎn)擊評(píng)價(jià)的電影集(訓(xùn)練集推算出來(lái)的信息),T(u)是真實(shí)點(diǎn)擊評(píng)價(jià)的電影集(測(cè)試集信息),本文以F1 作為最終的評(píng)測(cè)標(biāo)準(zhǔn)。
由于大量的研究表明,LDA 模型在算法準(zhǔn)確性上比傳統(tǒng)的協(xié)同過(guò)濾推薦算法更高,所以本文將所提出的算法在推薦效果上與傳統(tǒng)的LDA 模型進(jìn)行比較。將基于時(shí)序背景LDA 與協(xié)同過(guò)濾的混合推薦模型(TLDA-CF)推薦算法應(yīng)用到MovieLens 數(shù)據(jù)集中,通過(guò)取不同的推薦項(xiàng)目的個(gè)數(shù),對(duì)測(cè)試集中用戶選擇項(xiàng)目的信息進(jìn)行測(cè)試,與傳統(tǒng)的LDA 模型比較準(zhǔn)確率、召回率以及F1 值,如圖3 所示。
通過(guò)上述實(shí)驗(yàn)結(jié)果可以得到,基于時(shí)序背景LDA 與協(xié)同過(guò)濾的混合推薦模型通過(guò)加入時(shí)間因素,以及挖掘新用戶的興趣趨向建立模型,在推薦準(zhǔn)確率、召回率以及F1 值都優(yōu)于傳統(tǒng)的LDA 模型,使得考慮流行項(xiàng)目對(duì)用戶選擇趨向的影響是有理可循的。下面對(duì)動(dòng)態(tài)權(quán)重和靜態(tài)權(quán)重做對(duì)比,首先人工設(shè)置時(shí)序背景下流行項(xiàng)目對(duì)用戶選擇的影響權(quán)重u,設(shè)置不同的權(quán)值,并將實(shí)驗(yàn)結(jié)果與傳統(tǒng)LDA 模型以及本文所提出的TLDA-CF 算法對(duì)F1 值進(jìn)行比較,結(jié)果如圖4 所示。
圖3 TLDA-CF 與LDA 模型性能比較
由圖4 可以看出,當(dāng)u=0.2 時(shí)推薦效果優(yōu)于傳統(tǒng)的LDA 模型,表明在電影數(shù)據(jù)集中時(shí)序背景下流行項(xiàng)目對(duì)用戶選擇具有一定的影響這一假設(shè)是成立的,單純從用戶自身興趣出發(fā)挖掘用戶興趣并不準(zhǔn)確。隨著權(quán)重u 值的增大,推薦效果也越差,說(shuō)明對(duì)電影的推薦,用戶受自身興趣的影響高于時(shí)下流行電影。由于動(dòng)態(tài)權(quán)重考慮不同用戶的興趣差異性,以及在不同時(shí)間段用戶興趣的可變性,基于時(shí)序背景LDA 與協(xié)同過(guò)濾的混合推薦模型(TLDA-CF)在F1上的值均高于任何一條靜態(tài)權(quán)重的F1 值以及傳統(tǒng)的LDA 模型,即可證明動(dòng)態(tài)權(quán)重的推薦性能更好,本文所提出的算法在推薦性能上更加優(yōu)越。
圖4 動(dòng)態(tài)權(quán)重與靜態(tài)權(quán)重推薦效果比較
本文所提出的基于時(shí)序背景LDA 與協(xié)同過(guò)濾的混合推薦模型(TLDA-CF)推薦算法解決了協(xié)同過(guò)濾推薦算法面臨的數(shù)據(jù)稀疏性和冷啟動(dòng)問題,建立在線和離線雙重模式,提高了算法的效率,引用用戶聚類的思想將整個(gè)用戶集計(jì)算縮減成部分用戶集計(jì)算,降低了時(shí)間復(fù)雜度,實(shí)現(xiàn)了實(shí)時(shí)性推薦。
實(shí)驗(yàn)表明,基于時(shí)序背景LDA 與協(xié)同過(guò)濾的混合推薦模型比傳統(tǒng)的LDA 模型具有更高的準(zhǔn)確率、召回率,并且保留了LDA 模型解決數(shù)據(jù)稀疏性的功能。在線和離線的雙重模式下,將大量的計(jì)算留在離線執(zhí)行,實(shí)現(xiàn)在線推薦的實(shí)時(shí)性。考慮用戶興趣的動(dòng)態(tài)性,運(yùn)用集合的思想確定用戶受流行項(xiàng)目的動(dòng)態(tài)權(quán)重,比傳統(tǒng)的設(shè)置用戶選擇受自身興趣影響的固定權(quán)重更能體現(xiàn)出不同用戶行為之間的差異,更具有可解釋性。運(yùn)用K-means 聚類算法將用戶聚類,利用相似用戶的概率預(yù)測(cè)新用戶選擇某項(xiàng)目的概率,相比于傳統(tǒng)的協(xié)同過(guò)濾算法,不僅解決了新用戶冷啟動(dòng)問題,而且復(fù)雜度更低。本文的推薦算法不僅適用于電子商務(wù)上的推薦,而對(duì)于更受時(shí)序特征影響的新聞、微博類的推薦系統(tǒng)同樣適合。但是本文并沒有做到時(shí)間序列上流行項(xiàng)目的預(yù)測(cè),這將是以后研究的重點(diǎn)。
[1]孫光福,吳樂,劉淇,等.基于時(shí)序行為的協(xié)同過(guò)濾推薦算法[J].軟件學(xué)報(bào),2013,24(11):2721-2733.
[2]黃創(chuàng)光,印鑒,汪靜,等.不確定近鄰的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1369-1377.
[3]Mobasher B,Burke R,Sandvig J J.Model-based collaborative filtering as a defense against profile injection attacks[C]// Proceedings of the 21st National Conference on Artificial Intelligence and the 18th Innovative Applications of Artificial Intelligence Conference.2006,2:1388-1393.
[4]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[5]Ramage D,Dumais S,Liebling D.Characterizing microblogs with topic models[C]// Proceedings of the 4th International AAAI Conference on Weblogs and Social Media.2010:130-137.
[6]陰紅志.社會(huì)化媒體中若干時(shí)空相關(guān)的推薦問題研究[D].北京:北京大學(xué),2014.
[7]廉濤,馬軍,王帥強(qiáng),等.LDA-CF:一種混合協(xié)同過(guò)濾方法[J].中文信息學(xué)報(bào),2014,28(2):129-135.
[8]Burke R.Hybrid Web recommender systems[M]// The Adaptive Web.2007:377-408.
[9]祁奇.基于標(biāo)簽數(shù)據(jù)的用戶協(xié)同過(guò)濾[D].南京:南京大學(xué),2012.
[10]Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms[C]// Proceed-ings of the 10th International Conference on World Wide Web.2001:285-295.
[11]Sarwar B M.Sparsity,Scalability,and Distribution in Recommender Systems[D].University of Minnesota,2001.
[12]Goldberg D,Nichols D,Oki B M,et al.Using collaborative filtering to weave an information tapestry[J].Communications of the ACM,1992,35(12):61-70.
[13]Xie WenBo,Dong Qiang,Gao Hui.A probabilistic recommendation method inspired by latent Dirichlet allocation model[J].Mathematical Problems in Engineering,2014,2014,Article ID 979147.
[14]周濤.個(gè)性化推薦的十大挑戰(zhàn)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(7):48-61.
[15]Zhang Zi-Ke,Liu Chuang,Zhang Yi-Cheng,et al.Solving the cold-start problem in recommender systems with social tags[J].EPL (Europhysics Letters),2010,92 (2):28002-p1-28002-p6.
[16]Liu Nathan N,Zhao Min,Xiang Evan,et al.Online evolutionary collaborative filtering[C]// Proceedings of the 4th ACM Conference on Recommender Systems.2010:95-102.
[17]Wang Xuerui,McCallum A.Topics over time:A non-Markov continuous-time model of topical trends[C]// Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2006:424-433.