單 斌,李 芳
(上海交通大學 計算機科學與工程系 中德語言技術聯(lián)合實驗室,上海 200240)
互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息的一個主要渠道,突發(fā)新聞事件或新聞話題可以在互聯(lián)網(wǎng)上瞬間傳播,如何跟蹤該新聞話題或新聞事件的后續(xù)發(fā)展,是人們關心和需要迫切解決的問題。隨著時間的發(fā)展,新聞話題的內(nèi)容會發(fā)生變化,新聞話題的強度也會經(jīng)歷一個從高潮到低潮的過程。如何有效地組織這些大規(guī)模文檔,并且按時間順序來獲取文本集合中話題的演化,從而幫助用戶追蹤感興趣的話題,具有實際意義。更重要的是,在新聞專題報道和一些安全機構(gòu)針對犯罪探測和預防的任務中,更需要從文本集合中快速準確地追蹤話題的演化并且根據(jù)演化做出相應的預測。因此,話題演化研究具有現(xiàn)實的應用背景。
早在話題檢測與跟蹤(Topic Detection and Tracking,簡稱TDT)研究中,人們就已經(jīng)認識到對新話題的自動識別和已知話題的持續(xù)跟蹤的重要性。在TDT中,話題被定義為一個種子事件或活動以及與之相關的所有事件或活動[1]。話題跟蹤(Topic Tracking)主要就是跟蹤已知話題的后續(xù)報道,采用相似度計算公式來判斷新話題是否屬于已知話題,主要方法基于統(tǒng)計知識,對文本進行信息過濾,然后利用分類策略來跟蹤相關話題,但是TDT早期的研究并沒有有效利用語料的時間信息,在時間軸上分析話題的分布。
隨著話題模型[2-4]的興起,如何借助話題模型,引入文本語料的時間信息,研究話題隨時間的演化,成為在機器學習領域、文本挖掘領域研究的熱點。不同于TDT中話題的表示,話題模型假設:每篇文本是話題的混合分布,而每一個話題是一組詞語的混合分布[5]。話題模型借助話題可以很好地模擬文本的生成過程,對文本的預測也有很好的效果,因此在話題演化領域有著一定的優(yōu)勢,目前關于這方面的研究已經(jīng)有很多方法和成果[6-11]。
本文將主要關注基于Latent Dirichlet Allocation(簡稱LDA)話題模型[3]的話題演化方法。首先簡要的介紹LDA技術以及相關概念,第3部分著重介紹各種基于LDA的話題演化方法,第4部分對所有方法進行總結(jié)比較,第5部分介紹話題演化的評測方法,最后,對全文進行總結(jié),并對該研究方向進行展望。
在話題演化研究中,一個重要的任務就是獲取文本集合的話題。話題實際就是文本的一種降維表示。最早的文本降維技術是詞頻—反文檔頻率(Term Frequency-Inverse Document Frequency,簡稱tf-idf),但tf-idf無法在語義層面表示文本。隨后Deerwester等人[12]利用矩陣的奇異值分解技術對文本降維,即隱性語義索引(Latent Semantic Indexing,簡稱LSI)模型。Hofmann[2]在LSI基礎上提出了概率隱性語義索引模型(probabilistic Latent Semantic Indexing,簡稱pLSI),它假設每篇文檔是由多項式隨機變量(話題)混合而成,而文檔中每個詞,由一個話題產(chǎn)生,文檔中不同的詞可有不同的話題生成。但是pLSI模型參數(shù)數(shù)量隨著文集增長而線性增長,并且會產(chǎn)生過擬合的問題。
Blei等人[3]在2003年提出了Latent Dirichlet Allocation (簡稱LDA)模型。LDA模型是一個概率生成模型,同時也是一個話題模型,它的參數(shù)不會隨著文集增長而線性增長,有很好的泛化能力,是機器學習、信息檢索等領域很流行的一個模型。目前,為滿足不同的需求,出現(xiàn)了很多基于LDA的擴展模型和應用模型,例如文獻[13-14]。
下面先介紹LDA模型中使用的符號,見表1。
表1 文中用到的符號
LDA是三層的變參數(shù)層次貝葉斯模型,假設一篇文檔是由一些潛在的話題的多項式分布表示,而話題由一組詞的多項式分布組成。所以又叫話題模型。模型描述了文檔的生成過程,步驟如下:
1) 對于每個文檔d∈D,根據(jù)θd~Dir(α),得到多項式分布參數(shù)θd;
2) 對于每個話題z∈K,根據(jù)φz~Dir(β),得到多項式分布參數(shù)φz;
3) 對文檔d中的第i個詞wd,i
a) 根據(jù)多項式分布zd,i~Mult(θd),得到話題zd,i。
b) 根據(jù)多項式分布wd,i~Mult(φz),得到詞wd,i。
在LDA中,話題(Topic)由一組語義上相關的詞語以及詞語在該話題上出現(xiàn)的概率表示。即:話題z={(w1,p(w1|z)),…,(wV,p(wV|z))},其中p(wv|z)表示已觀測到話題z的情況下詞語wv出現(xiàn)的概率。
話題演化衡量的是同一話題隨時間推移表現(xiàn)出的動態(tài)性、發(fā)展性和差異性。話題的演化定義為話題隨時間的變化,而這個變化往往反應在兩方面,第一,就是話題強度隨著時間推移發(fā)生的變化,例如,四年一屆的奧運會,在奧運年受關注度高,而在非奧運年,受關注度低。第二,就是話題內(nèi)容隨著時間的推移而發(fā)生的變化,具體到基于LDA的話題,就是表示話題的詞語和詞語的分布概率的變化。例如:在奧運會前夕,大家關注奧運會的準備工作,奧運會結(jié)束后,大家關注對奧運會的總結(jié)和盤點。話題強度的演化衡量的是話題受關注程度的變化,話題內(nèi)容的演化衡量的是話題關注點的遷移,從而體現(xiàn)出話題的動態(tài)性、發(fā)展性和差異性。
目前基于LDA的話題演化方法,在內(nèi)容演化和強度演化上有各自不同的特點。根據(jù)引入時間方式的不同,我們總結(jié)了三種不同的演化方法:第一種方法是將時間作為可觀測變量結(jié)合到LDA模型中;第二種方法是在整個文本集合上用LDA模型生成話題,然后按文本的時間信息,根據(jù)話題后驗離散地分析話題隨時間的演化;第三種方法將文本集合先按一定時間粒度離散到相應的時間窗口,在每個窗口上運用LDA模型來獲取演化。下面依此對上述三種方法進行詳細闡述。
這種方法將文本的時間信息作為可觀測變量,結(jié)合到LDA話題模型中,指導文本集合上話題的分布,這樣,話題表現(xiàn)出在時間軸上強度的演化。
基于這種方法的代表模型是Topic Over Time(簡稱TOT)模型[6]。TOT模型不依賴于馬爾科夫假設,而是將時間看作連續(xù)的可觀測變量。TOT模型假設每個詞的生成不僅僅受到它所屬的話題的限制,同時也受到時間屬性的影響,因此可以更好的描述每個話題在不同時間窗口的強度。
TOT的模型生成過程與LDA模型類似,只是每個詞語wd,i多了一個時間屬性td,i,而td,i由連續(xù)貝塔(Beta)分布(td,i~Beta(ψzd,i))生成,其中ψzd,i為文檔d中詞語i的時間先驗分布。雖然同LDA模型一樣,話題內(nèi)容是不變的,但是由于TOT模型考慮了文本的時間信息,所以可以表示話題在不同時刻的分布強度,使得TOT模型生成的話題比原始LDA模型生成的話題在時間分布上更準確,也具有更好的可解釋性。
TOT模型的優(yōu)點是模型的時間是連續(xù)的,不會出現(xiàn)在離散時間的方法中時間粒度選取的問題,而在很多語料中,時間粒度的選取決定了最后結(jié)果的好壞。但是TOT模型所展示的話題在時間上的演化,僅僅是指話題強度的變化趨勢,而忽略了話題內(nèi)容的變化。另外,TOT是基于LDA模型的改進,所以TOT是離線的對文集進行處理,不具備擴展性,必須一次對所有的文檔運用TOT模型。對于新觀測到的文本,必須重新建模。
這種方法是在先忽略時間的情況下,在整個文本集合上運用LDA或者LDA的改進模型獲取話題,然后利用文本的時間信息檢查話題在離散時間上的分布來衡量演化,稱為后離散分析(Post-discretized Analysis)方法。
(1)
Dt表示屬于時間窗口t的文檔數(shù)量。
從而顯示了隨時間推移,強度明顯上升的熱話題(hot topic)和下降的冷話題(cold topic)。
另一種后離散分析的方法由Hall等人[7]在2008年提出,通過計算話題在以年為粒度的離散時間上分布的后驗概率來表示話題分布的強度。
(2)
其中每篇文檔僅屬于一個時間窗口td,且P(d|y)是一個常量1/C,表示文檔d在時間窗口y上出現(xiàn)的概率,P(z|d)表示話題z在文檔d上出現(xiàn)的概率,由該話題在文檔上出現(xiàn)次數(shù)的指示函數(shù)計算而來。這種方法很好地衡量了科學領域話題發(fā)展的趨勢。
以上兩種方法都主要應用于追蹤科學領域的話題強度演化,實驗文集也都來自于科學領域的會議或期刊。這是因為會議期刊的時間粒度是確定的(文獻[7]中實驗數(shù)據(jù)來自ACL,COLING會議,他們是每年舉行一次),而且每篇文章的內(nèi)容具有差異性,同時每一年發(fā)表的文章一定基于前幾年的研究結(jié)果,這保證了話題演化的特性。與TOT模型相同,它們衡量的話題演化是基于話題強度,而不是基于話題內(nèi)容的演化;另外這種方法也是基于在整個文集上一次性獲取話題,所以是離線的,很難擴展到基于流的數(shù)據(jù)集。不過比起下文提及的先離散再獲取話題(pre-discretized)的方法,post-discretized方法沒有話題對齊(align)的問題。但是很明顯,這種post-discretized的方法依賴于話題在時間上分布的后驗的計算方式,兩種方法對于強度的具體計算公式不同,但是,表現(xiàn)的意義確是相似的。
文本先根據(jù)其時間信息離散到時間序列上對應的時間窗口內(nèi),然后依次地處理每個時間窗口上的文本集合,最終形成話題隨時間的演化,因此被稱為先離散(pre-discretized)分析的方法。
先離散方法有各自不同的特點。從處理文集的類型上:有的模型處理的是封閉的文本集合,如文獻[8];有的處理基于流的數(shù)據(jù)集合,如文獻[17]。從演化的時間粒度上:很多模型的時間粒度,往往受限于模型處理的文本集合,有的以年為粒度,如文獻[8],有的可以以天為粒度,如文獻[9],有的模型可以從不同的時間粒度展現(xiàn)話題演化,如文獻[16],還有的模型基于連續(xù)的時間,如文獻[19]。
另外,在先離散分析的方法中,下一時刻的模型參數(shù)往往依賴于當前時刻(或前幾個時刻)的模型參數(shù)的后驗或者模型輸出結(jié)果。這種依賴表現(xiàn)為條件概率依賴[22]或者非條件概率依賴。本節(jié)將從這個角度詳細介紹這兩種基于先離散方法的模型。
3.3.1 基于條件概率的先離散方法
這種方法的主要思想是當前時刻的模型參數(shù)后驗作為下一時刻模型參數(shù)的條件分布引入模型,這樣從全局上看,整個話題演化模型依然是圖形模型(Graphic Model),但在模型參數(shù)推導過程中可能比較困難。另外對全局的處理使得通過一次建模就可以得到所有時刻的話題表示,但不具有在線添加新文本的功能,對于新到達的文本只能重新離散、全局建模。
這種方法的代表之一就是動態(tài)話題模型(Dynamic Topic Model,簡稱DTM)[8]。DTM先根據(jù)時間窗口分割文本集合,并假設話題數(shù)量K是固定的,即每個時間窗口的文本都由K個話題的LDA模型生成。
DTM用狀態(tài)空間模型來實現(xiàn)演化。在DTM中,實際獲取的演化特征是話題在文集上分布的演化以及詞語在話題上的分布的演化,即話題的分布強度和話題的內(nèi)容都在隨著時間而演化。
由于DTM將時間離散,所以演化的效果決定于時間粒度的選擇,粒度太大會導致演化并不真實,粒度太小使得在模型參數(shù)推導中引入太多的時間節(jié)點。為了解決DTM中時間粒度的問題,Chong Wang等人提出了連續(xù)時間的動態(tài)話題模型(Continuous Time Dynamic Topic Model,簡稱為CTDTM)[19]。CTDTM用布朗運動(Brownian Motion)模型來實現(xiàn)話題的演化過程,并將文本的時間差信息引入到參數(shù)演化的過程中,可以看作是選取最佳時間粒度下的DTM模型。所以,無論是DTM還是CTDTM,在獲取演化的能力上,是類似的。
另一種基于條件概率的先離散方法是動態(tài)混合模型(Dynamic Mixture Model,簡稱DMM)[17]。DMM與DTM(或CTDTM)相比,具有更強的時間假設。在DMM中的文本是嚴格按照時間順序先后到達的,每個時刻只到達一篇文本,從這個角度DMM可以看作在線的話題演化模型。DMM假設模型參數(shù)θ由前一時刻θt-1的混合分布生成。即:
θt+1|θt~Dir(ψθt)
(4)
從DMM的演化依賴關系上,說明了DMM假設連續(xù)兩篇文檔中話題的分布存在演化關系,所以更適用于獲取文本間更細微的內(nèi)容和強度的演化。
Multiscale Topic Tomography模型(簡稱MTTM)[16]也是基于這種方法的模型。但與前面的模型不同,MTTM更關注于多時間粒度的話題演化。MTTM用泊松過程來模擬文檔的生成,用泊松參數(shù)來表示詞語在話題上出現(xiàn)的期望次數(shù)。MTTM把時間重復的分割成相等地兩個時間窗口,最終時間窗口形成二叉樹的層次結(jié)構(gòu),進而假設父時間窗口上模型的泊松參數(shù)由其左右孩子時間窗口的泊松分布按一定比例組合成。
經(jīng)過參數(shù)推導簡化后,可以估計出不同粒度上的模型參數(shù),也就可以表示話題內(nèi)容和強度的演化。因而MTTM模型不僅體現(xiàn)出TOT模型衡量話題演化強度的性質(zhì),也體現(xiàn)出DTM模型衡量話題內(nèi)容演化的性質(zhì)。
3.3.2 基于非條件概率的先離散方法
基于非條件概率的方法中,當前時刻的模型參數(shù)后驗或輸出結(jié)果直接用來計算下一時刻的模型參數(shù),而不存在條件依賴的關系,這樣雖然每個時刻模型依然是圖形模型,但是從全局上看并不是一個圖形模型。非條件概率依賴的好處是:保持了Dirichlet先驗分布,從而使得模型的參數(shù)推導非常方便,而且由于獨立獲取每個時間窗口的話題,使得模型具有在線處理的能力,對于新到達的文本(或文本集合)可以增量處理。
據(jù)我們所知,最早提出對LDA模型按照文本達到時間來增量建模的方法是增量LDA(Incremental Latent Dirichlet Allocation,簡稱ILDA)[18]算法。ILDA算法利用了T.L Griffiths和M.Steyvers[15]中提出的用Gibbs采樣方法,估計LDA的話題后驗分布和LDA模型參數(shù)。其中每個時間段上的話題個數(shù),都由獨立的貝葉斯模型選擇方法來確定,因此ILDA的演化話題個數(shù)是可變的。ILDA算法獲取的演化是話題上詞語分布的演化,展現(xiàn)出話題內(nèi)容的變化。
OLDA模型不像DMM模型按嚴格的時間順序依次處理文本,同樣也不像DTM模型需要一次處理較大的文本集,OLDA模型的時間粒度可以介于DMM和DTM模型之間。更深入地,L.AlSumait等人[21]詳細地分析了關于OLDA中演化矩陣時間窗口大小δ和權重的ω的選擇方法,使得OLDA展現(xiàn)出更好的效果。
本節(jié)主要對第三部分提到的各種模型方法進行總結(jié)比較,見表2。根據(jù)話題演化任務關注的特征,我們選擇了是否在線,引入時間方式,時間粒度,話題數(shù)量等特征來比較。是否在線主要考察模型對于新觀測文本的處理能力; 引入時間的方式和時間粒度的選擇說明了模型獲取演化的細致程度;演化類型主要表明模型在強度演化和內(nèi)容演化兩方面的能力;最后話題數(shù)目主要說明模型對新話題或衰亡話題的探測。
表2 基于LDA話題演化方法比較
話題演化任務中,有一些常用的評測指標:話題的相似度、模型的泛化能力,以及演化結(jié)果的評測上。需要指出的是,在演化結(jié)果的評測上,目前并沒有統(tǒng)一的標準。
首先,在話題演化任務中,有一些方法中話題并不是對齊的[10],所以需要一些衡量話題相似度的方法來對齊話題。另外,即使有些話題模型的話題是對齊的,但是往往為了探測話題的產(chǎn)生[9],同樣需要衡量話題相似度。
采用比較多的話題相似度度量方法,是利用Kullback-Leibler差分距離的方法[5]。話題j1和話題j2的不相似度,由對稱的Kullback-Leibler距離衡量,即:
(9)
其中φ表示話題—詞語的分布參數(shù)。根據(jù)具體實驗,設定合適的閾值,可以判斷話題是否同一或者是否新生。
當然其他的一些距離度量方法也可用于話題相似度的衡量,如余弦距離,Jenson-Shannon距離等。
模型泛化能力是衡量模型對于未觀測到的數(shù)據(jù)的預測能力。比較公認的判斷方法是衡量模型的困惑度(Perplexity)。模型的困惑度往往與基礎(Baseline)模型的困惑度進行對比,來說明新模型對于預測未觀測數(shù)據(jù)有更好的能力。困惑度表示為:
(10)
困惑度越小,表示模型的泛化能力越強。
5.3.1 話題內(nèi)容演化評測
某一時間段話題內(nèi)容的表示是一組詞,也就是用模型在每個時間窗口t上的話題—詞語分布的后驗參數(shù)βt,z或φt,z,按照概率來排序,將出現(xiàn)頻率最高的W個詞語來顯示話題。話題內(nèi)容演化是否正確是根據(jù)人的判斷。
另外,話題在內(nèi)容上的變化也可以用同一個詞語(word)在同一個話題上出現(xiàn)的次數(shù)(即概率)隨時間的變化來表示。
5.3.2 話題強度演化評測
話題強度的演化圖,用坐標圖來表示,一般橫軸表示時間,縱軸表示話題k的概率,即p(k),這個概率可以由模型的后驗來得到。
在先離散的方法中,由于文本已經(jīng)被劃分到相應的時間窗口,所以可以直接利用時間窗口t中的每個文檔的參數(shù)θt,d={θt,d,1,…,θt,d,K}(文檔上話題的分布概率)的平均值來計算每個話題在t時刻的出現(xiàn)強度,以此來衡量話題強度的演化。
在后離散和引入時間觀測變量的方法中,要計算話題k在時間t上的后驗p(k|t)來得到話題的強度分布。一般來說,這要借助于文本的時間信息。
目前,話題內(nèi)容演化和話題強度演化沒有統(tǒng)一的評判標準,也沒有有效的量化比較,只是通過人工來自動判斷。上述這些評測方法是根據(jù)許多參考文獻總結(jié)的。
本文詳細介紹了基于LDA話題模型的話題演化各種不同的方法。按照引入時間的方式,將基于LDA的話題演化技術分為:直接把時間作為觀測變量引入模型、按時間后離散和先離散三種方法。直接將時間引入模型,可以自然地探測到話題強度的變化,無須考慮時間的粒度。后離散方法簡單,基于靜態(tài)的詞語集合和話題數(shù)目,不易擴展。先離散方法因為符合人們觀測文本信息的事實,受到更多關注。根據(jù)演化的不同特征,我們對比和總結(jié)了各種不同的方法,見表2, 不同的方法有其不同的特點,可以應用在不同的任務中。
但是基于LDA的話題演化課題依然處于研究階段。作者認為主要是該課題中還有很多需要解決的問題和技術難點。
首先,從我們的對比中可以看出,大多數(shù)基于LDA話題演化方法都假設話題數(shù)目是固定的,無法探測新話題的產(chǎn)生,舊話題的消亡和分裂,這不符合現(xiàn)實中的話題。如果假設不同時間段話題數(shù)目不同,那么這涉及到如何定義同一話題和相關話題,在話題模型里,如何定義和區(qū)分同一話題和相關話題具有一定的挑戰(zhàn)。目前的大多數(shù)研究都回避了這一問題,通過假設話題數(shù)目固定,不同時間段話題對齊,忽略了話題的消亡、分裂、遷移的可能。因此在今后的研究中,需要提出一種新的方法和明確的定義,來判斷同一話題或者相關話題,從而發(fā)現(xiàn)隨時間的話題演化關系。
其次,隨著LDA模型的廣泛使用,對LDA話題的表示和話題可解釋性問題備受學者的關注。很多學者致力于這方面的研究,有一些初步的結(jié)果。這些研究中,一種是基于LDA的擴展模型,通過引入其他的特征指導LDA話題生成,例如引入文章的作者信息(Author-Topic Model)[14]、科學研究論文中的參考文獻信息(Citation LDA)[23]等;另一種是通過半監(jiān)督或監(jiān)督的方法指導LDA話題的生成,如Supervised Topic Model[13];對話題的表示,最近的研究是通過對表示話題的詞語進行分析組合,用更有意義的詞組(n-gram)代替單個詞語來表示話題,如文獻[24]。因此,如何把自然語言處理技術以及其他的技術引入到基于LDA模型的話題演化任務中,構(gòu)造更明確清晰的話題演化,也將是我們面臨的又一項挑戰(zhàn)。
最后,雖然已經(jīng)有很多關于話題演化的研究,但是對于話題演化的評測,沒有一個評判標準,沒有統(tǒng)一的測試指標和相應的測試語料。目前,無論是話題強度還是內(nèi)容的演化,都是基于人們對話題的主觀理解。這種方法不具有可比性,對于話題未來的發(fā)展趨勢的預測也不是很科學。所以,提出一個話題演化的評判標準也是需要解決的問題之一。
盡管基于LDA話題演化研究存在著眾多挑戰(zhàn),但是,LDA話題模型能夠自動獲取海量文本信息的主題或話題,它是一種非監(jiān)督的方法,具有實際應用的前景,因此,基于LDA的話題演化研究仍然受到很多關注,發(fā)展也很快,我們相信,隨著研究的深入,問題的解決,話題演化研究一定會得到廣泛的實際應用。
[1] 洪宇,張宇,劉挺,等. 話題檢測與跟蹤的評測與研究綜述[J]. 中文信息學報,2007,21(6):71-87.
[2] Thomas Hofmann. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley,CA,USA,1999,50-57.
[3] David M. Blei,Andrew Y. Ng, Michael I. Jordan. Latent dirichlet allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022.
[4] T. Griffiths,M. Steyvers. A probabilistic approach to semantic representation[C]//Proceedings of the 24th Annual Conference of the Congnitive Science Society.Mahwah,NJ:Erlbaum,2002,381-386.
[5] M. Steyvers,T. Griffiths. Probabilistic topic models. In:T. Landauer, D. S. McNamara, S. Dennis, W. Kintsch (Eds.), handbook of Latent Semantic Analysis [M]. Hillsdale, NJ.. Erlbaum. 2007.
[6] X.Wang,A.McCallum. Topic over time:A non-markov continuous-time model of topical trends[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Philadelphia,PA,USA,2006:424-433.
[7] D.Hall,D.Jurafsky,C.D.Manning. Studying the history of ideas using topic models[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Honolulu,Hawaii,2008,363-371.
[8] D.M.Blei,J.D.Lafferty. Dynamic topic model[C]//Proceedings of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,2006:113-120.
[9] L.Alsumait,D.Barbara,C.Domeniconi. On-line LDA:Adaptive topic models of mining text streams with applications to topic detection and tracking[C]//Proceeding of the 8th IEEE International Conference on Data Mining.Washington,DC,USA:IEEE Computer Society,2008:3-12.
[10] 楚克明. 基于LDA新聞話題的演化[C]//第五屆全國信息檢索學術會議.上海,中國,2009:64-72.
[11] A.Gohr,A.Hinnerburg,R.Schult,M.Spiliopoulou. Topic evolution in a stream of documents[C]//Proceeding of the Society for Industrial and Applied Mathematics.2009:859-870.
[12] S.Deerwester,S.Dumais,T.Landauer,etc. Indexing by latent semantic analysis[J].Journal of the American Society of Information Science,1990,41(6):391-407.
[13] D.M.Blei,J.D.McAuliffe. Supervised topic models[C]//Proceeding of the 22nd Annual Conference on Neural Information Processing Systems,2008.
[14] M.Rosen-Zvi, T.Griffiths, M.Steyvers, etc. The
author-topic model for authors and documents[C]//Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence.Banff,Canada,2004:487-494.
[15] T.L.Griffiths,M.Steyvers. Finding scientific topics[C]//Proceeding of the National Academy of Science of United States of America,2004,101:5228-5235.
[16] R.M.Nallapati,S.Ditmore,J.D.Lafferty,etc. Multiscale topic tomography[C]//Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Jose,California,USA,2007:520-529.
[17] X.Wei,J.Sun,X.Wang. Dynamic mixture models for multiple time series[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligent.Hyderabad,India,2007:2909-2914.
[18] X.Song,C.Y.Lin,B.L.Tseng,etc. Modeling and predicting personal information dissemination behavior[C]//Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Chicago,Illinois,USA,2005:479-488.
[19] C.Wang,D.Blei,D.Heckerman. Continuous time dynamic topic models[C]//Proceeding of the 23rd Conference on Uncertainty in Artificial Intelligence,2008.
[20] D.M.Blei,J.D.Lafferty. Correlated topic model[C]//Advances in Neural Information Processing System 17.Cambridge,MA:MIT Press,2005.
[21] L.AlSumait,D.Barbara,C.Domeniconi. The role of semantic history on online generative topic modeling[R].http://www.ise.gmu.edu/~carlotta/publications/Siam_SemOLDA.pdf:2009.
[22] G.Shafer. Advances in the understanding and use of conditional independence[J].Annals of Mathematics and Artificial Intelligence,1997,21(1):1-11.
[23] R.Nallapati,A.Ahmed,E.P.Xing,etc. Joint latent topic models for text and citations[C]//Proceeding of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Las Vegas,Nevada,USA,2008:542-550.
[24] D.M.Blei,J.D.Lafferty. Visualizing topics with multi-word expressions[J]. The Journal of Machine Learning Research,2009,7.