亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隱含狄利克雷模型的文獻(xiàn)主題演化預(yù)測

2016-03-01 08:59:30茅利鋒

計(jì)算機(jī)技術(shù)與發(fā)展 2016年9期

關(guān)鍵詞：馬爾可夫概率矩陣

茅利鋒，張偉

(南京郵電大學(xué)計(jì)算機(jī)學(xué)院，江蘇南京 210023)

基于隱含狄利克雷模型的文獻(xiàn)主題演化預(yù)測

茅利鋒，張偉

(南京郵電大學(xué)計(jì)算機(jī)學(xué)院，江蘇南京 210023)

利用隱含狄利克雷分配模型(LDA)，根據(jù)科技文獻(xiàn)往年的主題變化來分析科技文獻(xiàn)主題的演化，是目前主題演化研究的熱點(diǎn)。根據(jù)科技論文的主題演化具有無后效性的特點(diǎn)，使用馬爾可夫鏈來預(yù)測主題的演化信息。該方法利用LDA模型獲取不同時(shí)段的主題，使用相似度等方法對相鄰時(shí)間窗口的主題進(jìn)行關(guān)聯(lián)，并根據(jù)主題的強(qiáng)度將主題分為熱門主題、普通主題和冷門主題，最后利用馬爾可夫鏈得到主題之間的強(qiáng)度轉(zhuǎn)移概率矩陣，對主題的強(qiáng)度變化趨勢進(jìn)行分析和預(yù)測。對NIPS論文集進(jìn)行實(shí)驗(yàn)表明，科技論文主題在長時(shí)間演化后，其狀態(tài)占比趨于穩(wěn)定，熱門主題、普通主題和冷門主題占比將保持在30%、60%和10%左右。說明該方法能有效地根據(jù)現(xiàn)有的主題演化結(jié)果對主題在未來幾年的演化信息進(jìn)行預(yù)測。

隱含狄利克雷分配模型;主題演化預(yù)測;馬爾可夫鏈;狀態(tài)轉(zhuǎn)移

0 引言

隨著Web2.0的快速發(fā)展，如何從承載著科學(xué)研究各個(gè)領(lǐng)域最新成果的科技文獻(xiàn)中挖掘出自己感興趣的主題并研究其發(fā)展方向，成為了困擾科研工作者的一個(gè)難題?？萍嘉墨I(xiàn)的主題演化主要研究一定時(shí)期內(nèi)期刊主題的變化程度以及不同主題隨時(shí)間變化的規(guī)律，這有助于揭示各領(lǐng)域在不同時(shí)期內(nèi)的變化規(guī)律以及重點(diǎn)研究對象，為科研工作者提供決策依據(jù)。

主題的發(fā)現(xiàn)和演化工作最早源于主題的探測和追蹤(Topic Detection and Tracking，TDT)研究［1］。TDT主要是基于統(tǒng)計(jì)知識，對文本進(jìn)行信息過濾，然后利用分類策略跟蹤相關(guān)主題，但它不能反映不同文本間詞匯的語義信息。為了解決這個(gè)問題，主題模型的方法被提出。隱含狄利克雷分配(Latent Dirichlet Alloca-tion，LDA)模型［2］，作為主題模型的一種，因?yàn)槠淇梢院芎玫啬M大規(guī)模語料的語義信息，越來越受到研究者的重視。

LDA模型在主題發(fā)現(xiàn)方面優(yōu)勢明顯，但是普通的LDA模型很難發(fā)現(xiàn)主題的演變過程［3-6］，因此如何將LDA模型應(yīng)用到主題演化研究中成為了科研工作者研究的重點(diǎn)。文中認(rèn)為科技論文的主題演化具有無后效性的特點(diǎn)，即一個(gè)主題將來處于什么狀態(tài)、取什么值，僅與它現(xiàn)在的狀態(tài)相關(guān)，與它過去處于什么狀態(tài)、取什么值無關(guān)。馬爾可夫鏈作為馬爾可夫過程的一種特殊情況，它表明事物的狀態(tài)由過去轉(zhuǎn)變到現(xiàn)在，由現(xiàn)在轉(zhuǎn)變到將來的過程，同樣具有無后效性［7］。因此，根據(jù)馬爾可夫鏈的特性，可以將它應(yīng)用到科技文獻(xiàn)的主題演化研究中，預(yù)測主題的狀態(tài)演變規(guī)律。

1 相關(guān)工作

Deerwester等首先提出了潛在語義索引(Latent Semantic Indexing，LSI)［8］，但是該方法缺乏數(shù)學(xué)理論支撐。隨后，Hofmann等［9］提出了概率潛在語義索引(Probabilistic Latent Semantic Indexing，PLSI)，該模型能對文本及其隱含主題構(gòu)建模型，在性能上優(yōu)于LSI模型，但易導(dǎo)致過擬合問題。為了克服這個(gè)問題，Blei等在PLSI的基礎(chǔ)上，引入了超參數(shù)，提出了隱含狄利克雷分配模型(Latent Dirichlet Allocation，LDA)。該模型克服了PLSI在理論上的缺陷，并且繼承了PLSI的降維優(yōu)勢，提出后得到了廣泛應(yīng)用。

基于靜態(tài)的主題模型方法很難發(fā)現(xiàn)主題的演變過程及趨勢變化，因此基于主題模型的演化模型被提出。Wang等［10］將時(shí)間作為主題模型的內(nèi)在變量，提出了TOT(Topic Over Time)模型。該模型可以表示主題在不同時(shí)刻的分布強(qiáng)度，能很好地揭示主題強(qiáng)度的變化趨勢。Xu等［11］又在此基礎(chǔ)上，加入了作者(Author)這一因素，提出了ATOT模型。不同于TOT模型，Griffiths等［12］提出了先獲取主題再離散到時(shí)間窗的方法。該方法首先用LDA模型獲取文本集合所有的主題，然后再利用文本的時(shí)間信息來衡量演化，在科技會議論文測試中取得了較好的結(jié)果。以上兩種方法都要求將文本集作為一個(gè)整體來處理，這會導(dǎo)致不同時(shí)間窗主題個(gè)數(shù)固定以及在線處理功能的缺失。因此，目前科研工作者主要集中于先離散到時(shí)間窗再獲取主題的方法，為以后每個(gè)時(shí)間窗內(nèi)的分析提供充分的靈活性。Blei等［13］提出的DTM(Dynamic Topic Model)就是其中的代表。該模型每個(gè)時(shí)間窗口的文本都是由LDA模型生成，然后使用KL距離(Kullback-Leibler divergence)計(jì)算不同時(shí)間窗內(nèi)主題分布的相似程度。在DTM模型的基礎(chǔ)上，Ahmed等［14］提出了iDTM模型，引入了HDP方法，解決了各時(shí)間窗口內(nèi)主題數(shù)固定的問題。Wei等［15］和 AlSumait等［16］分別提出了DMM(Dynamic Mixture Model)和 OLDA(Online LDA)，分別實(shí)現(xiàn)了連續(xù)時(shí)間模型和離散時(shí)間模型的在線化。Wang等［17］提出了OHDP(Online HDP)模型，解決了HDP方法難以處理大規(guī)模以及實(shí)時(shí)性要求高的文本流的難題。

以上方法都集中于如何使用或改進(jìn)LDA模型以實(shí)現(xiàn)對文本數(shù)據(jù)的動(dòng)態(tài)挖掘，沒有對其演化規(guī)律的預(yù)測進(jìn)行進(jìn)一步的研究。文中根據(jù)科技論文的演化具有無后效性的特點(diǎn)，引入馬爾可夫鏈來對主題的強(qiáng)度進(jìn)行演化預(yù)測。該方法采用先離散到時(shí)間窗再獲取主題的方法，然后依據(jù)主題的強(qiáng)度對主題進(jìn)行狀態(tài)劃分，根據(jù)馬爾可夫鏈計(jì)算主題強(qiáng)度的狀態(tài)轉(zhuǎn)移矩陣，憑借該矩陣可以總結(jié)出主題強(qiáng)度的演變規(guī)律并對未來幾年的主題強(qiáng)度演化進(jìn)行預(yù)測。

2 基礎(chǔ)理論

2.1 LDA模型

LDA模型［2］是一個(gè)三層變參數(shù)層次貝葉斯模型，它假設(shè)每個(gè)文檔都是由多個(gè)主題混合而成，而每個(gè)主題都是由多個(gè)詞的概率分布組成。通過這種隱變量模型，可以獲得觀測數(shù)據(jù)后面隱藏的主題分布，通過后驗(yàn)概率推斷來獲得這個(gè)隱藏的結(jié)構(gòu)。其具體生成過程如下:

(1)對于每個(gè)文檔d∈D，根據(jù)θd～Dir(α)，得到文檔d上主題的多項(xiàng)式分布參數(shù)θd。

(2)對于每個(gè)主題z∈K，根據(jù)φz～Dir(β)，得到主題z上詞匯的多項(xiàng)式分布參數(shù)φz。

(3)對于文檔d中的詞匯wd，j，根據(jù)多項(xiàng)分布zd，j～Mult(φz)，得到主題 zd，j，根據(jù)多項(xiàng)分布 wd，j～Mult(θz)得到詞匯wd，j。

為了得到LDA模型，首先要對θ和φ進(jìn)行推理。由于精確的推理很困難，一般都采用近似的推理方法，目前主要使用的有Variational Inference和Gibbs Sampling兩種方法。Gibbs Sampling因?yàn)閷?shí)現(xiàn)簡單，被廣泛采用。文中也采用Gibbs Sampling方法。

2.2 馬爾可夫鏈模型

馬爾可夫分析法［5］主要分析隨機(jī)事件未來發(fā)展變化的趨勢，即利用某一變量現(xiàn)在的狀態(tài)去預(yù)測其未來的狀態(tài)，以預(yù)測某未來時(shí)刻可能產(chǎn)生的變化，以便采用相應(yīng)的對策。

馬爾可夫過程是具有無后效性的隨機(jī)過程。無后效性是指當(dāng)過程在tm時(shí)刻所處的狀態(tài)為已知時(shí)，過程在大于tm的時(shí)刻所處的狀態(tài)的概率特性與過程在tm時(shí)刻所處的狀態(tài)有關(guān)，而與過程在tm時(shí)刻以前的狀態(tài)無關(guān)。通常把時(shí)間和狀態(tài)都離散的馬爾可夫過程稱為馬爾可夫鏈。

馬爾可夫鏈中需要使用轉(zhuǎn)移概率矩陣，轉(zhuǎn)移概率矩陣的定義如下:設(shè)系統(tǒng)的狀態(tài)有n個(gè)，系統(tǒng)在tm時(shí)刻處于狀態(tài)i，在下一時(shí)間tm+1轉(zhuǎn)為狀態(tài)j的概率為pij，則稱pij為一步轉(zhuǎn)移概率。將這些pij依序排列，即構(gòu)成一步轉(zhuǎn)移概率矩陣P。若系統(tǒng)經(jīng)過k次轉(zhuǎn)移后在時(shí)刻tm+k處于狀態(tài)j的概率為pij，則pij(k)稱為k步轉(zhuǎn)移概率。相應(yīng)的構(gòu)成k步轉(zhuǎn)移概率矩陣P(k)。

3 基于LDA模型的科技文獻(xiàn)主題演化研究

3.1 算法體系結(jié)構(gòu)

對于期刊主題而言，演化主要由三個(gè)方面組成。首先是主題在時(shí)間維度上的強(qiáng)度變化，也叫做主題的活躍度變化;然后是主題隨時(shí)間在內(nèi)容上的變化，即主題的內(nèi)容遷移;最后是主題隨時(shí)間的社會網(wǎng)絡(luò)變化，比如作者的變化。文中主要討論第一種變化，即主題的活躍度變化。

整體流程框架如圖1所示。

首先，針對不同時(shí)間窗口的文獻(xiàn)集，經(jīng)LDA模型得到每個(gè)時(shí)間窗口的主題;然后，計(jì)算各個(gè)時(shí)間窗口的主題強(qiáng)度和相鄰時(shí)間窗口的主題相似度，根據(jù)強(qiáng)度大小對主題狀態(tài)進(jìn)行劃分，根據(jù)相似度對相鄰時(shí)間窗口的主題進(jìn)行關(guān)聯(lián);最后，根據(jù)關(guān)聯(lián)信息統(tǒng)計(jì)計(jì)算得到狀態(tài)轉(zhuǎn)移概率矩陣，憑借狀態(tài)轉(zhuǎn)移概率矩陣對主題演化信息進(jìn)行預(yù)測。

3.2 主題識別及關(guān)聯(lián)

在傳統(tǒng)的TDT中，主題定義為由一個(gè)種子事件或活動(dòng)以及與其直接相關(guān)的事件或活動(dòng)的集合，而在LDA中，主題表示為分布在一組主題詞上的向量，即

其中，vi是與主題T相關(guān)的詞;pi是主題T在該詞上的概率分布。

同樣的，文獻(xiàn)則是這些主題上的多項(xiàng)分布，其表示如下:

經(jīng)LDA識別的主題在不同時(shí)間窗口是互相獨(dú)立的，為了分析主題的演化，需要對不同時(shí)間窗口的主題進(jìn)行關(guān)聯(lián)。研究者認(rèn)為主題的演化過程中必然存在內(nèi)容的延續(xù)與改變，相鄰時(shí)間窗口相關(guān)聯(lián)的主題必然存在著內(nèi)容的相似性，因此文中使用基于相似度的主題關(guān)聯(lián)方法，通過計(jì)算相鄰時(shí)間窗口的主題相似度來衡量主題內(nèi)容的延續(xù)性，并建立主題關(guān)聯(lián)。因?yàn)椴煌瑫r(shí)間窗口LDA的詞匯分布不相同，所以首先要把相鄰時(shí)間窗口的兩個(gè)詞匯表擴(kuò)充為一個(gè)詞匯表。為了方便起見，對于原本不屬于當(dāng)前時(shí)間窗口的詞匯，其概率取為0。

計(jì)算主題之間的相似度的方法常使用基于KL散度的方法和余弦相似度方法。文中使用余弦相似度方法。主題與主題之間的余弦相似度計(jì)算公式如下:

在關(guān)聯(lián)規(guī)則的選取中，采用最簡單的關(guān)聯(lián)規(guī)則，即認(rèn)為當(dāng)前時(shí)間窗口中的每個(gè)主題與下一時(shí)間窗口中相似度最高的主題之間存在關(guān)聯(lián)。

3.3 主題強(qiáng)度度量及狀態(tài)劃分

主題強(qiáng)度主要描述了主題熱門程度，在某一時(shí)刻關(guān)于某個(gè)主題的文章數(shù)量越多，說明該主題的強(qiáng)度越高。對時(shí)間窗口t內(nèi)的主題Tti，其主題強(qiáng)度S(Tti)計(jì)算公式如下:

其中，Dt為時(shí)間窗口t內(nèi)文檔的數(shù)目。

計(jì)算每個(gè)主題的強(qiáng)度后，根據(jù)強(qiáng)度的大小把主題的狀態(tài)劃分為熱門主題、普通主題和冷門主題，其具體的劃分方法如下所示:

(1)首先計(jì)算主題的平均強(qiáng)度:

其中，T為時(shí)間窗口t內(nèi)的主題數(shù)。

(2)對數(shù)據(jù)進(jìn)行分析，給出一個(gè)閾值εt。

3.4 轉(zhuǎn)移概率矩陣的建立及狀態(tài)預(yù)測

在計(jì)算狀態(tài)轉(zhuǎn)移概率前，首先要對隨機(jī)序列進(jìn)行無后效性檢驗(yàn)，若序列不具備無后效性，則不能當(dāng)作馬爾可夫鏈來對待。常用χ2統(tǒng)計(jì)量對隨機(jī)序列進(jìn)行馬氏性檢驗(yàn)。

由于數(shù)據(jù)的隨機(jī)性，準(zhǔn)確地確定轉(zhuǎn)移矩陣是馬爾可夫過程求解中的難題，文中使用統(tǒng)計(jì)估算法，其方法如下:

首先對一組或者幾組所需要研究的離散數(shù)據(jù)，按照3.3節(jié)提出的方法將狀態(tài)分為3種，結(jié)合馬爾可夫鏈的概念對這些離散數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，將從i狀態(tài)轉(zhuǎn)移到j(luò)狀態(tài)出現(xiàn)的次數(shù)統(tǒng)計(jì)到矩陣M(i，j)中，最后根據(jù)式(5)計(jì)算得到馬爾可夫鏈轉(zhuǎn)移矩陣。

在確定了馬爾可夫狀態(tài)轉(zhuǎn)移矩陣后，就可以對未來幾個(gè)時(shí)間窗口的狀態(tài)進(jìn)行預(yù)測，具體方法如下:

(1)確定初始狀態(tài)概率向量。選取一個(gè)初始時(shí)間窗口，以該時(shí)間窗口各主題狀態(tài)所占的比例為分向量，建立初始狀態(tài)概率向量S(0)。

(2)利用馬爾可夫鏈預(yù)測k年后的狀態(tài)，公式為:

4 實(shí)驗(yàn)結(jié)果與討論

文中選取了英文數(shù)據(jù)集 NIPS作為研究對象。NIPS會議是神經(jīng)計(jì)算和機(jī)器學(xué)習(xí)領(lǐng)域最好的會議之一，該數(shù)據(jù)集包含1988～2001年共14年會議1 879篇論文的全文數(shù)據(jù)，文中僅摘取了標(biāo)題和摘要作為實(shí)驗(yàn)的研究對象，并去除了停用詞和數(shù)詞。將數(shù)據(jù)集按照年份分為14個(gè)時(shí)間窗口，其中前10個(gè)時(shí)間窗口用來進(jìn)行主題發(fā)現(xiàn)和演化實(shí)驗(yàn)，后4個(gè)時(shí)間窗口用來進(jìn)行預(yù)測分析。

4.1 文獻(xiàn)主題挖掘及強(qiáng)度演化結(jié)果

對于文檔的建模過程，使用Gibbs Sampling進(jìn)行參數(shù)推演，迭代1 000次，模型參數(shù)α和β分別設(shè)置為50/K和0.01，K取值20。實(shí)驗(yàn)使用了開源的Gibbs Sampling工具GibbsLDA++。文中列舉時(shí)間窗口1強(qiáng)度最高的5個(gè)主題包含的主題信息(主題序號由LDA算法產(chǎn)生)，如表1所示，其強(qiáng)度從上往下依次降低。

從表1中可知，1988年NIPS會議的重點(diǎn)集中于網(wǎng)絡(luò)、模型、代碼優(yōu)化、模擬電路性能以及信息采集等方面。

根據(jù)3.2節(jié)的方法，計(jì)算主題之間的相似度，取相似度最高的主題作為關(guān)聯(lián)主題，以表1所列的五個(gè)主題為例，分析這五個(gè)主題在時(shí)間窗口1～10的主題強(qiáng)度變化，如圖2所示。

觀察圖2，發(fā)現(xiàn)主題3和主題5的曲線在時(shí)間窗口4的曲線發(fā)生了合并，分析這兩個(gè)主題在合并前的主題內(nèi)容，發(fā)現(xiàn)主題3在時(shí)間窗口1、2和3中均為關(guān)于模擬電路的內(nèi)容，而在時(shí)間窗口4其內(nèi)容轉(zhuǎn)移到了關(guān)于代碼優(yōu)化等方面的內(nèi)容，而主題5內(nèi)容隨時(shí)間變化區(qū)別不大，因此分析主題3隨著時(shí)間的進(jìn)行而逐漸消亡的可能性較大。主題7在時(shí)間窗口3和時(shí)間窗口5主題強(qiáng)度變化程度較大，分析該主題在時(shí)間窗口3、4、5和6的主題內(nèi)容，發(fā)現(xiàn)時(shí)間窗口4的主題內(nèi)容相較時(shí)間窗口3關(guān)于硬件方面的詞的比例顯著上升，而時(shí)間窗口6的主題內(nèi)容相較時(shí)間窗口5無顯著變化。主題2在時(shí)間窗口3、4和5經(jīng)歷了強(qiáng)度顯著下降又明顯上升的過程，同樣分析其在這三個(gè)時(shí)間窗口的主題內(nèi)容，發(fā)現(xiàn)在時(shí)間窗口3和時(shí)間窗口4主題內(nèi)容無明顯變化，而在時(shí)間窗口5主題內(nèi)容關(guān)于圖像方面的內(nèi)容比例顯著上升。同理，觀察其他主題，發(fā)現(xiàn)當(dāng)主題強(qiáng)度顯著上升時(shí)，其主題內(nèi)容均發(fā)生了比較明顯的變化，而主題強(qiáng)度明顯下降時(shí)，主題內(nèi)容變化不大。說明當(dāng)該主題產(chǎn)生了新的技術(shù)或者有新的發(fā)現(xiàn)時(shí)，其主題強(qiáng)度會在短時(shí)間提升，而當(dāng)主題在長時(shí)間一成不變的時(shí)候，其主題強(qiáng)度自然而然會下降。這說明一個(gè)主題要想長時(shí)間保持熱度，必須要隨時(shí)保持創(chuàng)新。

4.2 馬爾可夫鏈預(yù)測

根據(jù)表2，計(jì)算一步轉(zhuǎn)移概率矩陣P，得到:

根據(jù)P對時(shí)間窗口11～14的主題狀態(tài)進(jìn)行預(yù)測，結(jié)果如表3所示。

由表3可知，平均誤差在16.6%左右，因主題總數(shù)只有20，誤差在可接受范圍之內(nèi)。在主題窗口11～14，熱門主題、普通主題和冷門主題的數(shù)量變化不大，說明時(shí)間窗口1的主題隨著長時(shí)間的演變后，其狀態(tài)占比趨于穩(wěn)定，熱門主題、普通主題和冷門主題占比將保持在30%、60%和10%左右。

5 結(jié)束語

文中選用LDA模型，采用馬爾可夫鏈預(yù)測方法對科技論文主題的演化進(jìn)行了探索，并以NIPS會議的論文集為例對該方法的有效性進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，該方法在主題強(qiáng)度的演化中有一定的準(zhǔn)確度，能夠有效地反映出主題的熱度演變規(guī)律。

但是仍存在以下不足:首先，設(shè)置每個(gè)時(shí)間窗口內(nèi)主題的數(shù)量相同，這與實(shí)際并不相符;其次，關(guān)聯(lián)規(guī)則設(shè)置過于簡單，不能有效地顯示出主題演化過程中的主題消亡、合并、分裂等現(xiàn)象;最后，馬爾可夫鏈狀態(tài)轉(zhuǎn)移計(jì)算方法需要進(jìn)一步改進(jìn)。

因此，下一步研究中，將針對以上幾點(diǎn)不足，對基于LDA模型的科技論文演化方法進(jìn)行演化和改進(jìn)。

［1］ Allan J，Carbonell J，Doddington G，et al.Topic detection and tracking pilot study final report［R］.Virginia:Lansdowne，1998.

［2］ Blei D M，Ng A Y，Jordan M I.Latent Dirichlet allocation［J］. The Journal of Machine Learning Research，2003，3:993-1022.

［3］趙迎光，洪娜，安新穎.主題模型在主題演化方法中的應(yīng)用研究進(jìn)展［J］.現(xiàn)代圖書情報(bào)技術(shù)，2014，30(10):63-69.

［4］楚克明，李芳.基于LDA模型的新聞話題的演化［J］.計(jì)算機(jī)應(yīng)用與軟件，2011，28(4):4-7.

［5］趙旭劍，楊春明，李波，等.一種基于特征演變的新聞話題演化挖掘方法［J］.計(jì)算機(jī)學(xué)報(bào)，2014，37(4):819-832.

［6］胡艷麗，白亮，張維明.一種話題演化建模與分析方法［J］.自動(dòng)化學(xué)報(bào)，2012，38(10):1690-1697.

［7］ Karlin S.A first course in stochastic processes［M］.［s.l.］:Academic Press，2014.

［8］ Deerwester S，Dumais S，Landauer T，et al.Indexing by latent semantic analysis［J］.Journal of the American Society of Information Science，1990，41(6):391-407.

［9］ Hofmann T.Probabilistic Latent semantic indexing［C］//Proceedings of the 22nd annual international ACM SIGIR conference on research and development in information retrieval.

New York:ACM，1999:50-57.

［10］Wang X，McCallum A.Topics over time:a non-Markov continuous-time model of topical trends［C］//Proceedings of the 12th ACM SIGKDD international conference on knowledge discovery and data mining.［s.l.］:ACM，2006:424-433.

［11］Xu S，Shi Q，Qiao X，et al.Author-Topic over Time(AToT):a dynamic users＇interest model［M］//Mobile，ubiquitous，and intelligent computing.Berlin:Springer，2014:239-245.

［12］Griffiths T L，Steyvers M.Finding scientific topics［J］.Proceeding of the National Academy of Science，2004，101(S1):5228 -5235.

［13］Blei D M，Lafferty J D.Dynamic topic models［C］//Proceedings of the 23rd international conference on machine learning. ［s.l.］:［s.n.］，2006:113-120.

［14］ Ahmed A，Xing E P.Timeline:a dynamic hierarchical Dirichlet process model for recovering birth/death and evolution of topics in text stream［C］//Proceedings of the 26th conference on uncertainty in artificial intelligence.［s.l.］:AUAI Press，2010.

［15］Wei X，Sun J，Wang X.Dynamic mixture models for multiple time-series［C］//Proceedings of the 20th international joint conference on artificial intelligence.Hyderabad，India:［s.n.］，2007:2909-2914.

［16］Al Sumait L，Barbará D，Domeniconi C.On-line lda:adaptive topic models for mining text streams with applications to topic detection and tracking［C］//Proc of eighth IEEE international conference on data mining.［s.l.］:IEEE，2008:3-12.

［17］Wang C，Paisley J W，Blei D M.Online variational inference for the hierarchical Dirichlet process［C］//Proc of international conference on artificial intelligence and statistics.［s.l.］:［s. n.］，2011:752-760.

Topic Evolution and Prediction of Scientific Papers Based on Latent Dirichlet Allocation Model

MAO Li-feng，ZHANG Wei
(School of Computer Science＆Technology，Nanjing University of Posts and Telecommunications，Nanjing 210023，China)

According to the change of the topic of scientific papers in previous years，to analyze the evolution of scientific papers based on Latent Dirichlet Allocation(LDA)is the current research focus.Through the aftereffect for topic evolution of scientific paper，Markov Chain is used to predict the evolution information of topic.In this method，LDA is used first to obtain the topics in different time windows，then some calculation method like similarity is used to associate with topics in neighboring time window.According to the intensity of topics，these topics are divided into 3 states including popular，normal and cold.Finally，the state transition matrix which is gained by the Markov Chain is used to analyze and forecast the trend of topic evolution.The experiment on proceedings of NIPS shows that after a long period evolution，the state proportion of topics of scientific papers is stabilized，with hot 30%，normal 60%and cold 10%remained，which shows that this method can effectively predict the trend of topic evolution in the next few years according to the existing evolutionary information.

Latent Dirichlet Allocation;topic evolution and prediction;Markov Chain;state transition

TP301

1673-629X(2016)09-0034-05

10.3969/j.issn.1673-629X.2016.09.008

2015-12-12

2016-04-05< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間:

時(shí)間:2016-08-01

國家自然科學(xué)基金資助項(xiàng)目(61272422)

茅利鋒(1991-)，男，碩士，研究方向?yàn)樯鐣?jì)算;張偉，博士，教授，研究方向?yàn)橛?jì)算機(jī)病毒技術(shù)、網(wǎng)絡(luò)數(shù)據(jù)行為分析、Web應(yīng)用與數(shù)據(jù)安全等。

http://www.cnki.net/kcms/detail/61.1450.TP.20160801.0907.056.html