董堅峰,張玉峰,戴志強
(1.吉首大學 軟件學院,湖南 張家界427000;2.中山大學 管理學院,廣州510275;3武漢大學 信息資源研究中心,武漢430072)
選擇模型在機器學習過程中一直屬于研究熱點以及研究難點[1]。隨著互聯(lián)網(wǎng)技術的高速發(fā)展以及在各個領域里應用越來越廣泛的網(wǎng)絡應用,網(wǎng)絡數(shù)據(jù)所具有的時間與空間上的動態(tài)變化特征已不能被人所忽視,變得越來越重要。針對一些新聞、網(wǎng)頁等文本信息類構造文本推薦模型時,必須要充分考慮這些數(shù)據(jù)的時間與空間上的動態(tài)變化特征。一些專家學者為了在某種程度上解決這一問題,創(chuàng)建了貝葉斯非參數(shù)模型[13]。通過非參數(shù)貝葉斯先驗,能夠?qū)δP偷囊?guī)模自動改變,進而與數(shù)據(jù)的復雜性相適應。近幾年,貝葉斯非參數(shù)模型在相關領域如文本建模型領域[2]和推薦系統(tǒng)[3]等的作用越發(fā)重要。
狄利克雷過程混合模型具有應用靈活和推理算法高效的特點,目前在貝葉斯非參數(shù)模型中極為重要。作為混合模型組件的先驗,DP狄利克雷過程混合模型與參數(shù)型話題模型比較接近:在狄利克雷分布中隱含狄利克雷分配作用[4]。全部基于可交換的基本假設,包括狄利克雷分布混合模型和狄利克雷過程混合模型??山粨Q性假設在狄利克雷過程混合模型當中,標志著一個共享狄利克雷過程可產(chǎn)生全部數(shù)據(jù)單元,可交換性能夠通過混合模型的全部組件得到滿足,即組件的概率不隨著組件的順序變化而改變。不過,這個假設在大部分應用中都不成立。
文本建模在網(wǎng)絡應用中是應用廣泛的推薦技術。許多專家學者對文本的建模做了一些研究工作,文本存在的話題包括一個或者多個,其中單詞概率分布問題即指話題。新的話題伴隨時間的延續(xù)而產(chǎn)生,已存在的話題有可能消失或者發(fā)生其他變化。這種現(xiàn)象與空間上比較相類似,可能在某區(qū)域范圍之內(nèi)只出現(xiàn)一個話題,在不同的地點同一個話題的分布也會變化?;旌夏P徒M件在相關情景之中,與可交換性假設并不相符,其動態(tài)性在某種時間或者空間的協(xié)變量上持續(xù)存在。一些該領域的專家學者做了一些改進傳統(tǒng)混合模型考慮組件動態(tài)性的相關工作研究[5],大部分都考慮話題在時間上的動態(tài)性,比如,由Lin等[6]提出的馬爾科夫模型,對話題在離散時間協(xié)變量上的相關性處理就主要基于馬爾科夫鏈的狄利克雷過程[7]。
空間與時間相關性事實上也是有關聯(lián)性的[8]。一維歐幾里得空間通過時間被形式化,而二維歐幾里得空間被形式化成為地點。兩者從這個意義上講是一致的[9]。在給定協(xié)變量空間上我們可以考慮創(chuàng)建相關狄利克雷過程,混合模型的組件在生命周期內(nèi)以其為先驗,而組件參數(shù)在生命周期內(nèi)也會發(fā)生改變[10-12]。
傳統(tǒng)文本建模模型大多以可交換性的基本假設為前提,對文本數(shù)據(jù)時間與空間上的動態(tài)變化相關性考慮不周,無法對這些具有動態(tài)性的網(wǎng)絡數(shù)據(jù)進行有效建模。在動態(tài)數(shù)據(jù)建模的研究中,前人的工作多分別考慮隨離散時間、連續(xù)時間或地點變化的貝葉斯先驗,忽視了協(xié)變量的統(tǒng)一性。本文提出的貝葉斯非參數(shù)先驗函數(shù)式狄利克雷過程,可以發(fā)生任意協(xié)變量變化。在建模過程中,利用函數(shù)定義域中取值的變化改變混合模型組件參數(shù)。在函數(shù)空間上,通過投影和約束狄利克雷過程來獲取任意協(xié)變量空間相關參數(shù)空間上的狄利克雷過程。針對函數(shù)式狄利克雷過程,本文更進一步設計出了基于吉布斯采樣的高效推演算法。仿真實驗結果表明,本文提出的將函數(shù)式狄利克雷過程作為動態(tài)非參數(shù)先驗具有良好的有效性。
定義1 假設α為正實數(shù),概率空間Θ上任意隨機分布G,假如對概率空間Θ中可測變量能夠有限劃分隨機向量(G(A1),G(A2),…,G(A n)),并且符合狄利克雷模型分布,則其可以形式化表示為:(G(A1),G(A2),…,G(A n))~Dir(G0(A1),G0(A2),…,G0(A n)),則稱G為一個狄利克雷過程,記為G~DP(αG0)。
定義2 狄利克雷混合模型(DPM)指的是將貝葉斯層級模型的先驗設置為狄利克雷過程的模型。狄利克雷混合模型主要應用范圍為一些非參數(shù)聚類任務,其優(yōu)點為不用額外預先調(diào)整任務聚類數(shù)目,該模型能夠依據(jù)任務中得到的數(shù)據(jù)自主進行學習[13]。狄利克雷混合模型表示成產(chǎn)生式過程為:
式中:{x1,x2,…,x n}代表觀測到的數(shù)據(jù)信息,F(·)代表著變量為(θ1,θ2,…,θn)的似然方程,θi的選取過程為從DP中隨機抽取,符合可交換性假設。但在實際應用中這個假設并不是十分的科學合理,因此,本文提出協(xié)變量相關的狄利克雷過程來替換公式(1)中的G。
參數(shù)空間,即狄利克雷過程組件參數(shù)概率空間由(Ω,Σ)表示,其中協(xié)變量空間由Θ表示。構建某個概率測度D?時,可以在一個可數(shù)有限的連續(xù)函數(shù)空間上進行,而該概率測度中的某個組件都是函數(shù),并且這些函數(shù)是連續(xù)有限的,把它叫做functionalatom,即函數(shù)單元,其中協(xié)變量空間Θ的子空間由函數(shù)的定義域表示。任意索引Φ∈Θ由協(xié)變量空間給定,并且給定概率測度D?,首先,采取重歸一化和限定操作方法,主要針對D?,選擇函數(shù)單元f,其中定義域包含Φ。隨后從函數(shù)空間至參數(shù)空間,把相關函數(shù)單元投影為相應的單元f(Φ)。在這種情況下,可獲取概率測度DΦ,主要從概率空間Ω得到。
通過對以上步驟的總結,針對狄利克雷過程,給D?加上了一個先驗,進而得到以下公式:
通過上述公式可知,f上的概率分布由G?表示,一個連續(xù)函數(shù)空間由f表示,其中協(xié)變量空間上的子空間為其函數(shù)的定義域,而{f i}是G?獨立抽樣,為可數(shù)無限個,再者,ZΦ=∑i:Φ∈domain(f i)p i代表歸一化參數(shù),確保歸一化概率測度在任意協(xié)變量空間上的任意一點Φ。如例如所示,給定無向圖的全部節(jié)點集合?與?2共同組成協(xié)變量空間,而?中某個子集與節(jié)點子集合,以及?2中某個子集合屬于其對應函數(shù)單元的定義域,
(1)邊際分布
參考狄利克雷過程的性質(zhì)可知[14],通過投影和限定操作可知對某個狄利克雷過程依然屬于狄利克雷過程,所以,DΦ與在上述構建過程中都屬于狄利克雷過程。具體得出以下引理:
引理1 在(Ω,Σ)上表示狄利克雷過程,設D=∑p iδθi~DP(μ)。
1)隨機概率測度的計算,通過重歸一化和限定D到X上得到的值同樣是DP,Ω上的可測量子集由X?Ω表示。
2)對D進行投影,通過可測量函數(shù)g:Ω→Ω′計算得到的概率測度同樣是DP。
通過上述引理可知,得到Dφ邊際分布如下所示:
通過上式可知,在(Ω,Σ)上定義的一個測度為μφ,得到?A∈Σ,如下式所示:
(2)動態(tài)混合模型
可用于混合模型的非參數(shù)先驗為協(xié)變量相關的狄利克雷分布{Dφ}φ∈Θ。有可能重復的索引為φ1,…,φn,通過協(xié)變量空間形式化的給定,觀察(x1,φ1),…,(x n,φn)數(shù)據(jù),發(fā)現(xiàn)其來自以下產(chǎn)生式過程。
通過上式可知,參數(shù)θ的概率分布由Fθ(·)表示。對參數(shù)θi的混合模型的組件進行抽樣計算,計算得到觀察的數(shù)據(jù)x i,該數(shù)據(jù)在協(xié)變量θi處,通過該函數(shù)決定θi的具體數(shù)值,而在表達式中已經(jīng)通過積分的形式去掉了函數(shù)f i。
一些專家與學者提出基于截線權值與協(xié)變量數(shù)值關系來構造動態(tài)非參數(shù)貝葉斯先驗的方法[15]。但此類構造算法中狄利克雷過程原子的坐標信息是一定值,不能隨協(xié)變量的數(shù)值變化來進行調(diào)整。也有一部分專家學者提出一類基于中國餐館過程的構建動態(tài)非參數(shù)貝葉斯先驗方法[16],此種方法的缺點在于只考慮協(xié)變量空間是一維實數(shù)?,應用范圍不廣。
在上述內(nèi)容中,利用函數(shù)空間構建協(xié)變量相關的狄利克雷過程,介紹了一些方式方法。在機器學習過程中,為有效應用這種構建方法,需要使用G?的基分布,即Base distribution。在構建狄利克雷過程相關性時,起到?jīng)Q定性作用的是基分布,如果應用于不同的范圍,則相應的選擇也不一致。
為使相關內(nèi)容更為簡捷,設g:domain(g)→Ω為隨機函數(shù),在協(xié)變量空間中的獨立隨機子集上限定整個協(xié)變量空間中的隨機過程。具體內(nèi)容如下:
(1)通過domain(g)關于子集的分布抽樣決定函數(shù)的定義域。
(2)基過程(Base process),即這個隨機過程主要指對定義在整個協(xié)變量空間上的隨機過程{go(φ)}φ∈Θ進行抽樣go:Θ→Ω,得到相應的函數(shù)值,通過{go(φ)}φ∈Θ的具體實現(xiàn)得到go:Θ→Ω。綜上所述,限定)可得到隨機函數(shù)。在此計算過程中,可假定函數(shù)取值與定義域之間具有一定的獨立性。
在具體混合模型中,在協(xié)變量空間上,對混合模型組件的生命期限進行刻畫過程中,利用函數(shù)的定義域進行相關計算,所選擇的協(xié)變量和具體應用具有某種聯(lián)系[17]。比如,針對某些話題模型,因其隨時間變化而變化,很自然地把時間當作協(xié)變量,進而把一段時間的間隔當作函數(shù)的定義域,與?上的線段相對應,其中線段的起始點證明這個混合模型開始產(chǎn)生,而其終點則證明此混合模型組件已經(jīng)消失。在應用圖像分割過程中,可將?2上的某個連續(xù)區(qū)域當作混合模型組件的生命期限。并且針對這個混合模型的生命期限構建模型,在創(chuàng)建之前我們需要尋找一個合理的先驗分布,應用于函數(shù)的定義域中。
參照Kolmogrov extension theorem基本原理,即柯爾莫哥洛夫擴展定理可知,可對定義域的有限維邊際分布進行間接利用,對函數(shù)定義域的分 布 進 行 構 建,得 到。選擇的φ不同,構建的任意分布也各不相同。即可在度量為d:Ω×Ω→?的協(xié)變量空間上應用與直徑相關的φ。
通過上式可知,我們可將其當作比較特殊的模型之一,即協(xié)變量空間Θ={1,2,…}的動態(tài)非參數(shù)先驗考慮離散的固定長度的時間段為混合模型組件的生命期限。如果將{a i,a i+1,…,b i}設為協(xié)變量空間,當滿足條件時,馬爾科夫狄利克雷過程與我們的模型相互等價,這個過程與時間具有相關性。此結論與公式(4)~(8)的表述相同。其中,僅需進行簡單的修改,就可在連續(xù)協(xié)變量空間?上進行推廣。設[a i,b i)為定義域,并且,針對普通歐幾里得協(xié)變量空間Rd,上述公式可確保定義域的直徑較小,并且這種概率極高。
動態(tài)混合模型的非參數(shù)先驗利用函數(shù)式狄利克雷過程實現(xiàn),基過程的作用和標準狄利克雷過程混合模型中的基分布作用相似,兩者都可應用于混合模型組件的參數(shù)先驗,但是把基過程作為參數(shù)先驗時,如果給定的協(xié)變量發(fā)生變化,則也允許參數(shù)改變?;^程的選擇與標準狄利克雷過程混合模型相似,也和具體的應用密切相關。在選擇基過程時,可選取與數(shù)據(jù)似然分布共軛的基過程。在本章節(jié)隨后內(nèi)容中,重點分析應用過程中的三種共軛基過程。
常函數(shù)的基過程比較簡單,當協(xié)變量發(fā)生變化時,也允許混合模型的組件參數(shù)發(fā)生變化[18]。即 ?φ,go(φ)=c,c~H0,通過該式可知,Ω上的概率分布為H0。H0與數(shù)據(jù)似然概率在實際應用過程中共軛時,可設計較為簡單的折疊式吉布斯采樣算法。
由實數(shù)向量代表概率分布的參數(shù),即由θ∈R M代表Fθ(x),很自然地將會應用高斯分布描述θ的邊際分布,協(xié)變量間的相關性通過高斯過程進行刻畫。具體而言,設定一個協(xié)方差函數(shù)K(φ,φ′),一 個 平 均 函 數(shù)m(φ),可 將g0~GP(m,K)定義為基過程。
假設已知W數(shù)目,并且數(shù)據(jù)單元為離散性質(zhì),比如應用有限話題模型時,假設基過程為類別模型。以此為背景,有效應用W-單形表面,實現(xiàn)對g0(φ)的取值。由于該過程在有限的空間中,屬于一種特殊例子,在構建相關狄利克雷分布{g(φ)}φ∈Θ時,可應用函數(shù)式狄利克雷過程實現(xiàn),可將Ω=[W]設為參數(shù)空間。具體而言,假設,在常數(shù)空間上,由代表有限測度??偠灾?應用該過程計算得到相關概率測度。通過這種方法成功構建了基過程,該基過程主要基于相關狄利克雷分布。得到預測分布,實現(xiàn)了更加便捷的計算方式,由此可知,所應用的推理算法具有較高效率。
經(jīng)過觀察,假設n個數(shù)據(jù)X1:n的協(xié)變量分別為Φ1:n時,獲取劃分數(shù)據(jù)是此推理算法的主要目標,由于模型為非參數(shù)的,此算法實際之前并不明確所劃分的數(shù)目。而一個函數(shù)式狄利克雷過程實際就相當于一個劃分。詳細來講,與中國傳統(tǒng)餐館過程表示的餐桌分配相類似,為要求數(shù)據(jù)的函數(shù)分配Z1:n。通過對上述問題的形式化,形成數(shù)據(jù)X1:n的產(chǎn)生式過程,具體下述公式所示:
通過上述公式可知,在f1:n不重復的函數(shù)由表示,而函數(shù)則有c l次的發(fā)生。綜上所述,可將函數(shù)分配進行如下表示,即z i∈[K]。
在吉布斯采樣算法中,最關鍵的設計為預測分布[10]。其中x為給定的數(shù)據(jù)單元,而Φ屬于協(xié)變量索引,進而得到z,的預測分布。其主要依據(jù)為{z1:z(n-1),θ1:(n-1)},而混合狄利克雷過程,即Mixture of Dirichlet process為D?的后驗分布,應當重點關注狄利克雷過程混合模型與混合狄利克雷過程的區(qū)別,積分掉后驗分布中的狄利克雷過程,可獲取預測分布。
換而言之,對K個不同觀察值給定,并且等價于{z1:(n-1),θ1:(n-1)},而且在集合f中包含著第l個觀察,合計發(fā)生了c l次。可將進 一 步形式化,值得關注的是,每一個觀察位置在傳統(tǒng)狄利克雷過程后驗分布的分析過程中都是已知的,不過函數(shù)單元的明確位置在推導過程中并不明確,僅僅了解到每一個觀察有可能存在的區(qū)域部分。此類后驗分布即稱為混合狄利克雷過程[2]。詳細來講,給定函數(shù)為,其條件分布為,該函數(shù)D?后驗為DP(μ?+∑iciδfi?),最終獲取給定時D?的后驗分布公式如下所示:
雖然,很多狄利克雷過程的混合為DΦ,在給定θ的情況下,全部Φ∈domain(f)=θ的函數(shù),f對θ的影響是相同的。我們在這種情況下可對公式(12)進行簡化,得到下述公式:
根據(jù)上述條件,可積分掉公式(13)中的狄利克雷過程,進而獲得如下所示的預測分布z,:
在上述公式中,δK+1代表著對某個新的函數(shù)進行分配,而如上述兩個公式中的所示。
通過吉布斯采樣法可對全部函數(shù)的z1:n,z i∈[K]進行分配,其中函數(shù)的數(shù)目由K代表,伴隨迭代過程的進行,K的取值也將發(fā)生改變。另外,通過吉布斯采樣,還能夠?qū)Σ煌瘮?shù)出現(xiàn)的次數(shù)c0:K進行維護,而每次迭代為,利用此算法可重新采樣全部的z1:n,對每一個函數(shù)出現(xiàn)的次數(shù)進行更新。以下為Z n采樣方法,包括賦值至協(xié)變量Φn及數(shù)據(jù)單元x n上。
(1)輔助變量采樣:針對 每個k∈[K]中,對進行采樣,進一步明確的定義域是否存在Φn,針對的定義與公式(4)~(14)相同。
(2)一般采樣賦值:針對每個k∈[K],對進行采樣,其中為分配至已存在函數(shù)的概率,而p(z n=k+1)∞為分配至新函數(shù)的概率,而基過程在Φn處的邊際分布為和HΦn(·)。
(3)折疊采樣賦值:對F與G?進行適當?shù)倪x擇,可積分掉參數(shù),對折疊采樣算法進行設計。針對全部觀察數(shù)據(jù),其中數(shù)據(jù)x n由函數(shù)產(chǎn)生的概率表示如下式所示:
針對已改進的高斯混合模型進行模擬實驗。模擬產(chǎn)生了兩個高斯組件。再參照泊松分布原理,即新的高斯組件通過每一個時間片段產(chǎn)生數(shù)目平均可為0.4個。采用幾何分布形式,設定組件生命周期平均值為5,并且平均值呈布朗運動變化態(tài)勢,方差為1??蓪?0個時間片段進行模擬實驗,依據(jù)當前組件,將每個時間片段進行獨立抽樣,抽樣的數(shù)據(jù)點為200個。并可應用函數(shù)式狄利克雷過程混合模型,聚類產(chǎn)生的相關數(shù)據(jù),將時間片段設為協(xié)變量。將平均值為零的高斯過程設為基過程,其中式(8)為函數(shù)定義域分布。應用吉布斯采樣算法,進行5000次的迭代運算,得到聚類的結果數(shù)據(jù)。
度量真實結果與聚類結果間的差異,可應用信息差異Variation of information[19]實現(xiàn),再對所提模型進行評測,其中信息差異定義如下式所示:
對比兩種基線方法,即對比DPM標準狄利克雷過程混合模型與馬爾科夫狄利克雷過程混合(Markov-DPM)模型可知。協(xié)變量空間在以上設置中的時間片段是離散的,兩個過程相互等價。兩者間的差異性在于推理算法的不同,其中函數(shù)式狄利克雷過程應用的推理算法為批處理法,而馬爾科夫狄利克雷過程混合模型應用的推理算法為序列采樣法。
圖1 模擬數(shù)據(jù)的聚類實驗結果比較Fig.1 Comparison of clustering results of simulated data
由圖1所示實驗結果可知,每一時間片段的信息差異值顯示在上半部分,每一時間片段真實聚類數(shù)目顯示在下半部分。對比結果表明,與Markov-DPM相比,M-DPM在所有時間點的表現(xiàn)更具優(yōu)勢,主要原因在于批處理推理算法可應用全局信息,比Markov-DPM序列采樣算法更具優(yōu)勢。與此同時,由于應用動態(tài)數(shù)據(jù)構建模型更加科學,與標準狄利克雷過程混合模型DPM的表現(xiàn)相比,Markov-DPM與M-DPM的優(yōu)點更多。綜上所述,利用M-DPM得到的結果聚類數(shù)目與真實結果更貼近,與標準DPM聚類結果相比,具有明顯的優(yōu)勢。
實驗重點對1987年~2001年NIPS會議論文中的話題時間線進行分析[11]。該論文集共包含的文章有2484篇,屬于公開的數(shù)據(jù)集。每一個話題在話題模型中都與單詞分布相關,每篇文章也都與話題分布相關。我們的話題先驗利用了函數(shù)式狄利克雷過程,在時間辦變量上,每一個話題都存在一個生命周期,至少包含一個起點和終點,話題的分布在起點與終點間隨時間的變化而變化。對生命期限的先驗分布進行設置,設指數(shù)分布的參數(shù)為0.6,相關狄利克雷分布為基分布。圖2顯示了本實驗針對1987年~2001年NIPS會議論文中的話題時間線的挖掘結果,由實驗結果可知,發(fā)現(xiàn)產(chǎn)生了新的話題,而已存在的話題不見了,伴隨時間的變化,每一個話題權重最高的關鍵詞也在改變。
圖2 話題時間線挖掘結果Fig.2 Result of mining time series
表1 M-DPM和DPM發(fā)現(xiàn)話題的數(shù)目Table 1 M-DPM and DPM find the number of topics
因標準狄利克雷混合模型不考慮地點信息,經(jīng)過比較,如表1所示,顯示出了DPM在3個數(shù)據(jù)集上發(fā)現(xiàn)話題的數(shù)目,以及M-DPM在3個數(shù)據(jù)集上發(fā)現(xiàn)話題的數(shù)目。經(jīng)過對比可知,與DPM話題數(shù)目相比,M-DPM發(fā)現(xiàn)話題的數(shù)目更多一些,這是比較合理的情況,由于M-DPM對地點信息進行了認真的考慮,進一步約束了話題的范圍,M-DPM所發(fā)現(xiàn)的話題具有更清晰的意義。
在實驗中,對函數(shù)式狄利克雷過程挖掘隨空間變化的話題性能進行評測。在相關網(wǎng)站中對與GPS信息相關的圖片標簽數(shù)據(jù)進行抓取,并且對3個數(shù)據(jù)集進行抓取,具體包括National Park,Activities以及Landscape。為了分析過程更加方便,本文只把在美國領域范圍內(nèi)的GPS信息照片進行保留,并且把某些低頻標簽去除,這些低頻標簽出現(xiàn)的次數(shù)少于15次。最終分別得到了1505個圖片,11 868個圖片,2109個圖片的3個數(shù)據(jù)集,以及3個標簽,分別為2313個標簽,2381個標簽,2374個標簽。
另外,表2為M-DPM與DPM兩者比較的結果,我們采用似然性量化法,對M-DPM隨空間變化在話題模型上的表現(xiàn)進行評測。從表中數(shù)據(jù)可知,與應用狄利克雷過程做先驗的話題模型相比,應用函數(shù)式狄利克雷過程做先驗的話題模型優(yōu)勢更多一些。
表2 比較似然性Table 2 Comparative likelihood
本文提出了一種改進的主要基于函數(shù)式DPM模型過程動態(tài)推薦模型。該模型對傳統(tǒng)狄克雷混合模型在動態(tài)數(shù)據(jù)建模方面的問題進行改進,創(chuàng)建相關狄利克雷過程的參數(shù)與協(xié)變量空間聯(lián)系,同時狄利克雷過程仍然屬于邊際分布。應用函數(shù)式狄利克雷過程,可針對產(chǎn)生、消失以及參數(shù)改變的混合模型組件進行有效建模,并可作為動態(tài)先驗融入非參數(shù)混合模型。仿真實驗結果表明,與應用傳統(tǒng)狄利克雷過程做先驗的話題推薦模型相比,本文提出的推薦算法優(yōu)勢更加明顯。
[1]解男男,胡亮,努爾布力,等.基于Web日志挖掘的網(wǎng)頁推薦方法[J].吉林大學學報:理學版,2013,51(2):267-272.Xie Nan-nan,Hu Liang,Nurbolz,et al.Web recommender system based on Web lob minim[J].Journal of Jilin University(Science Edition),2013,51(2):267-272.
[2]董立巖,王越群,賀嘉楠,等.基于時間衰減的協(xié)同過濾推薦算法[J].吉林大學學報:工學版,2017,47(4):1268-1272.Dong Li-yan,Wang Yue-qun,He Jia-nan,et al.Collaborative filtering recommendation algorithm based on time decay[J].Journal of Jilin University(Engineering and Technology Edition)2017,47(4):1268-1272.
[3]Jiang J,Lu J,Zhang G,et al.Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop[C]∥Services,IEEE,2011:490-497.
[4]Chen W,Niu Z,Zhao X,et al.A hybrid recommendation algorithm adapted in e-learning environments[J].World Wide Web,2014,17(2):271-284.
[5]Qiu T,Chen G,Zhang Z K,et al.An item-oriented recommendation algorithm on cold-start problem[J].EPL,2011,95(5):58003.
[6]Lin K,Wang J,Wang M,et al.A hybrid recommendation algorithm based on Hadoop[D].Institute of Electrical and Electronics Engineers Inc.2014.
[7]Zhang J,Peng Q,Sun S,et al.Collaborative filtering recommendation algorithm based on user preference derived from item domain features[J].Physica A Statistical Mechanics&Its Applications,2014,396(2):66-76.
[8]Zhong Z,Sun Y,Wang Y,et al.An improved collaborative filtering recommendation algorithm not based on item rating[C]∥IEEE,International Conference on Cognitive Informatics&Cognitive Computing.IEEE,2015:230-233.
[9]Lu Z,Shen H.A security-assured accuracy-maximised privacy preservingcollaborative filtering recommendation algorithm[C]∥Proceedings of the 19th International Database Engineering&Applications Symposium,Yokohama,Japan,2015:72-80.
[10]Huang Y M,Kuo Y H,Chen J N,et al.NP-miner:a real-time recommendation algorithm by using web usage mining[J].Knowledge-Based Systems,2006,19(4):272-286.
[11]鄧愛林,左子葉,朱揚勇.基于項目聚類的協(xié)同過濾推薦算法[J].小型微型計算機系統(tǒng),2004,25(9):1665-1670.Deng Ai-lin,Zuo Zi-ye,Zhu Yang-yong.Collaborative filtering recommendation algorithm based on item clustering[J].Mimi-micro Systems,2004,25(9):1665-1670.
[12]Huang Z,Zeng D,Chen H.A comparison of collaborative-filtering recommendation algorithms for E-commerce[J].Intelligent Systems of IEEE,2007,22(5):68-78.
[13]嚴宇宇,陶煜波,林海.基于層次狄利克雷過程的交互式主題建模[J].軟件學報,2016(5):1114-1126.Yan Yu-yu,Tao Yu-bo,Lin Hai.Interactive topic modeling based on hierarchical Dirichlet Process[J].Journal of Software,2016(5):1114-1126.
[14]Caron F,Davy M,Doucet A.Generalized polya urn for time-varying Dirichlet process mixtures[C]∥Proceedings of Proc of UAI’07,Corvallis,Oregon,2007:33-40.
[15]Caron F,Davy M,Doucet A.Generalized Polya Urn for time-varying Dirichlet process mixtures[J].2012.
[16]Rabaoui A,Viandier N,Duflos E,et al.DPMs for the density estimation in a dynamic nonlinear modeling:application to GPS positioning in urban canyons[J].IEEE Transactions on Signal Processing,2012,60:1638-1655.
[17]Blei D M,Frazier P.Distance dependent Chinese restaurant processes[C]∥Proceedings of Proc of ICML’10,Haifa,Israel,2010:87-94.
[18]Zhang M,Hurley N.Avoiding monotony:improving the diversity of recommendation lists[C]∥Proceedings of Proceedings of the 2008 ACM Conference on Recommender Systems,ACM,2008:123-130.
[19]Xu M,Zhu J,Zhang B.Fast max-margin matrix factorization with data augmentation[C]∥Proceedings of the 30th International Conference on Machine Learning(ICML-13),2013:978-986.
[20]Li L,Chu W,Langford J,et al.Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms[J].Wsdm,2012:297-306.