賀 亮,李 芳
(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)
在這個(gè)信息爆炸的時(shí)代,科學(xué)技術(shù)的發(fā)展也日新月異,對(duì)于科技工作者來說,需要快速獲取相關(guān)領(lǐng)域的最新研究動(dòng)態(tài)。為了了解最新的研究工作,科技工作者會(huì)關(guān)注該領(lǐng)域的關(guān)鍵問題,這些問題都用到了什么樣的技術(shù),在眾多的技術(shù)中,哪些是目前的研究熱點(diǎn),哪些逐漸被人們淡忘。因此,對(duì)于科學(xué)技術(shù)趨勢(shì)的自動(dòng)分析研究,旨在幫助科學(xué)工作者從大量的學(xué)術(shù)會(huì)議和科技文獻(xiàn)中提取出有用的信息,具有重要地現(xiàn)實(shí)意義。
要進(jìn)行趨勢(shì)分析,首先需要從大量的語(yǔ)料集合中提取出潛在的語(yǔ)義信息,亦可稱之為話題。傳統(tǒng)的VSM模型使用關(guān)鍵字來表示話題。但這種表達(dá)方式比較局限于對(duì)文檔貢獻(xiàn)較大的詞,很多用于表示文檔的詞語(yǔ),由于存在二義性,對(duì)于文檔的語(yǔ)義上的描述,效果往往差強(qiáng)人意。為了克服VSM模型的這些缺點(diǎn),有學(xué)者提出了語(yǔ)義模型[1-2]。首先是LSI模型[1],可以利用SVD技術(shù)對(duì)文本降維;進(jìn)一步,在LSI模型中引入概率模型,得到pLSI模型[2],該模型是生成模型,它假設(shè)每篇文檔是由多項(xiàng)式隨機(jī)變量(話題)混合而成,而文檔中每個(gè)詞,由一個(gè)話題產(chǎn)生,文檔中不同的詞可有不同的話題生成。但是pLSI模型參數(shù)數(shù)量隨著文集增長(zhǎng)而線性增長(zhǎng),并且對(duì)于沒有觀測(cè)到的文本沒有很好的預(yù)測(cè)。Blei[3]提出的LDA模型可以挖掘大規(guī)模語(yǔ)料的語(yǔ)義信息,是機(jī)器學(xué)習(xí)、信息檢索等領(lǐng)域很流行的一個(gè)模型。LDA模型繼承了pLSI模型的所有優(yōu)點(diǎn),可以很好的產(chǎn)生話題的分布;同時(shí),LDA模型的參數(shù)數(shù)量也不會(huì)隨著文集增長(zhǎng)而線性增長(zhǎng),有很好的泛化能力。因此,本文將采用基于LDA模型的方法對(duì)科技文獻(xiàn)進(jìn)行分析研究。
本文的主要貢獻(xiàn)包括兩個(gè)方面: 1)利用話題模型即LDA模型對(duì)語(yǔ)料建模,挖掘出該領(lǐng)域中的研究熱點(diǎn)及相關(guān)技術(shù),提出一個(gè)針對(duì)話題的熱門程度和影響力衡量標(biāo)準(zhǔn);2)基于話題的強(qiáng)度,研究這些子領(lǐng)域以及技術(shù)在整個(gè)時(shí)間段上的趨勢(shì)變化。
本文的組織結(jié)構(gòu)如下: 第二章介紹相關(guān)的工作,在第三章給出了我們的研究方法,第四章是實(shí)驗(yàn)結(jié)果和分析,第五章為結(jié)論及展望。
目前對(duì)于科技文獻(xiàn)的研究,主要利用了科技文獻(xiàn)的作者、文本信息、引用信息和時(shí)間信息,去進(jìn)行話題的發(fā)現(xiàn)和趨勢(shì)的分析工作。
首先是發(fā)現(xiàn)話題(topic),即是挖掘文獻(xiàn)中的隱含的語(yǔ)義信息。目前主要有兩類方法可以發(fā)掘話題,第一類利用話題模型進(jìn)行話題發(fā)現(xiàn),這里話題的定義是一組詞的概率分布。根據(jù)文集的文本信息可以利用LDA以及其拓展模型(CTM、DTM等)進(jìn)行建模[4-5],發(fā)現(xiàn)話題;如果結(jié)合作者信息,有作者話題模型(ATM)以及其拓展模型(ACT、TATM等)[6-8],通過對(duì)該模型的推導(dǎo)可以得到每個(gè)作者在話題空間上的分布,通過分析該分布就可以了解在某一特定領(lǐng)域(話題)都有哪些專家,以及這些專家關(guān)注的研究領(lǐng)域(話題)是什么;結(jié)合文獻(xiàn)引用信息,既考慮到了文獻(xiàn)間引用關(guān)系對(duì)生成過程中的影響,又繼承話題模型(ITM)[9]。第二類方法則通過構(gòu)造網(wǎng)絡(luò)圖,利用文獻(xiàn)的文本信息以及文獻(xiàn)間的引用信息進(jìn)行話題發(fā)現(xiàn)。有學(xué)者使用詞組(term)來表示話題,然后利用詞組(term)在文集中的分布關(guān)系并結(jié)合文集之間的引用關(guān)系發(fā)現(xiàn)話題[10]。
從文集中發(fā)掘出話題信息后,就可以在話題空間上進(jìn)一步分析這些話題的特點(diǎn)。有學(xué)者利用LDA對(duì)文集建模得到的話題空間,再加入文獻(xiàn)之間引用的信息,去研究話題的特性。這些特性有話題的影響因子,用于衡量話題對(duì)文檔的影響;有話題的影響多樣性,衡量話題的影響范圍;有話題的年齡,衡量話題的新舊程度;還有話題的轉(zhuǎn)移度,衡量話題之間相互的影響[11]。
更進(jìn)一步,加入時(shí)間的信息,進(jìn)行話題的趨勢(shì)分析。有學(xué)者利用話題的后驗(yàn)概率去定義話題的強(qiáng)度,通過計(jì)算每個(gè)時(shí)間點(diǎn)上的強(qiáng)度得到其強(qiáng)度的趨勢(shì)變化[12-13],對(duì)這些話題的趨勢(shì)變化進(jìn)行分析,以獲得科技發(fā)展的一些特點(diǎn),例如,一些技術(shù)的應(yīng)用走向,是偏向理論性的研究還是偏向于實(shí)際應(yīng)用等等[13]。斯坦福大學(xué)的一個(gè)開源話題建模工具*http://www-nlp.stanford.edu/software/tmt/tmt-0.2/(tmt)也是基于這種方法進(jìn)行分析,通過簡(jiǎn)單地統(tǒng)計(jì)不同時(shí)間段詞頻能得到話題內(nèi)容隨時(shí)間的變化。有學(xué)者使用分時(shí)間段進(jìn)行話題建模,考慮各個(gè)時(shí)間段話題之間關(guān)聯(lián)的方法,可以從內(nèi)容上去分析話題的變化趨勢(shì)[5,9,14]。有學(xué)者在作者話題模型的基礎(chǔ)上,加入時(shí)間信息,利用話題與作者間對(duì)應(yīng)關(guān)系,從而可以分析這些作者的研究興趣如何隨時(shí)間推移而變化[8]。為了提出一種方法能夠針對(duì)任何文集, 例如,新聞報(bào)道[14],數(shù)字文獻(xiàn)等, 我們只考慮文獻(xiàn)的時(shí)間和文本信息,忽略作者和引用信息。采用LDA話題模型,找到潛在話題, 借鑒文獻(xiàn)[11-15]對(duì)話題的強(qiáng)度和影響力這兩個(gè)特性進(jìn)行研究,提出了不同的計(jì)算公式,通過這兩個(gè)特性的分析可以找到熱點(diǎn)話題和有影響力的話題,然后根據(jù)話題的強(qiáng)度再對(duì)它們進(jìn)行趨勢(shì)分析。
首先對(duì)文本集合應(yīng)用LDA建模,抽取文章的話題,然后,定量分析話題的強(qiáng)度和影響力,提供一套可靠有效的評(píng)價(jià)標(biāo)準(zhǔn),最后對(duì)熱點(diǎn)話題和有影響力話題進(jìn)行趨勢(shì)分析。話題強(qiáng)度主要描述了話題的受關(guān)注度,例如,討論某話題的文章數(shù)越多,就說明該話題的強(qiáng)度越高,可以認(rèn)為是熱門話題。話題的影響力則是指當(dāng)前話題對(duì)其他話題的影響力,如果一個(gè)話題對(duì)多個(gè)話題都有一定程度的影響,該話題可以認(rèn)為是具有影響力的話題。
首先,表1列出了本文使用的符號(hào)。
LDA模型是一個(gè)生成概率模型,是三層的變參數(shù)層次貝葉斯模型,首先假設(shè)詞由話題的概率分布混合產(chǎn)生, 而每個(gè)話題是在詞匯表上的一個(gè)多項(xiàng)式分布;其次假設(shè)文檔是潛在話題的概率分布的混合;最后針對(duì)每個(gè)文檔從Dirichlet分布中抽樣產(chǎn)生該文檔包含的話題比例,結(jié)合話題和詞的概率分布生成該文檔中的每一個(gè)詞匯。該模型描述文檔的生成過程,有以下步驟:
表1 文中使用到的符號(hào)
1) 對(duì)于每個(gè)文檔d,根據(jù)θd~Dir(α),得到多項(xiàng)式分布參數(shù)θd;
2) 對(duì)于每個(gè)話題topicz,根據(jù)φz~Dir(β),得到多項(xiàng)式分布參數(shù)φz;
3) 對(duì)文檔d中的第i個(gè)詞wi:
a) 根據(jù)多項(xiàng)式分布z~Mult(θd),得到話題z;
b) 根據(jù)多項(xiàng)式分布wi~Mult(φz),得到詞wi。
在一段時(shí)期內(nèi),如果文集中大多數(shù)文檔都是關(guān)于某一個(gè)話題的,那么該話題是熱門的。談及該話題的文檔數(shù)越多,就說明話題越熱門。一般地,話題的熱門程度通常使用話題強(qiáng)度進(jìn)行量化。話題強(qiáng)度描述了一個(gè)話題的受關(guān)注程度,本文使用文檔支持率作為話題強(qiáng)度的表示,具體定義為: 根據(jù)LDA話題抽取的結(jié)果,我們知道一個(gè)文檔上話題的分布并不均勻,也就是說文檔對(duì)于每個(gè)話題的貢獻(xiàn)度不同。也就是說,針對(duì)一個(gè)話題,有的文檔屬于重要文檔,有的文檔對(duì)于該話題并不是很重要。綜上,我們定義話題的支持文檔如下: 假設(shè)某一文檔d中有至少10%的詞是由話題z生成的,那么該文檔是話題z的支持文檔。 根據(jù)該定義,一篇文檔可以支持多個(gè)話題。
話題z在時(shí)間間隔t的文檔支持率計(jì)算公式如下:
(1)
話題的影響力使用其影響的多樣性(Impact Diversity)來衡量。我們基于這樣的假設(shè),一個(gè)話題在產(chǎn)生之后,可能會(huì)對(duì)之后的時(shí)間段的話題有影響,這種影響將通過文檔之間的關(guān)聯(lián)來體現(xiàn),如果前一時(shí)間段t話題z的支持文檔d與后一時(shí)間段t′話題z′的支持文檔d′是關(guān)聯(lián)的,那么可以認(rèn)為話題z對(duì)話題z′有一定的影響作用。
計(jì)算影響力時(shí)需要統(tǒng)計(jì)屬于不同話題的文章之間的關(guān)聯(lián)數(shù)量。每篇文章可表示為在話題空間上的分布θ(n1,n2,…,nk),nk表示話題k出現(xiàn)在該文檔中的概率,通過計(jì)算話題空間上分布的JS距離(Jensen-Shannon divergence)來判斷文章之間是否關(guān)聯(lián)。假設(shè)時(shí)間段t話題z的支持文檔d與后一時(shí)間段t′話題z′的支持文檔d′,在話題空間中的分布分別為θd和θd′,則它們的JS距離計(jì)算公式如下:
(2)
話題之間的影響作用可以使用這些話題的支持文檔關(guān)聯(lián)數(shù)量來計(jì)量,我們定義話題z對(duì)話題z′的影響程度為話題z對(duì)z′的影響作用占所有話題對(duì)z′影響作用的比例,提出一個(gè)計(jì)算話題影響程度的公式如下:
(3)
其中,分子表示話題z的支持文檔與后續(xù)所有時(shí)間段的話題z′的支持文檔關(guān)聯(lián)數(shù)量,分母表示話題z的支持文檔與后續(xù)所有時(shí)間段的文檔關(guān)聯(lián)數(shù)量。為了計(jì)量一個(gè)話題對(duì)其他所有話題的影響程度,我們定義話題z的影響力為話題z對(duì)所有話題的影響程度的熵,計(jì)算公式如下:
(4)
通過該公式計(jì)算出一個(gè)話題的影響力越大,說明它的影響范圍越廣;反之它的影響范圍較狹隘。
實(shí)驗(yàn)主要包括三個(gè)方面,一是熱門話題的實(shí)驗(yàn),采用文獻(xiàn)[14]提出的系統(tǒng)作為對(duì)比;二是研究話題的影響力,采用文獻(xiàn)[7]提出的方法作為對(duì)比;三是研究它們隨時(shí)間變化的趨勢(shì),采用斯坦福大學(xué)的TMT分析工具作為對(duì)比。
ACL論文集(ACL Anthology)*http://www.aclweb.org/anthology/作為實(shí)驗(yàn)的數(shù)據(jù)集,它包括1985年至2009年的ACL、COLING、EACL、EMNLP等眾多會(huì)議,總共11 072篇文章。以上語(yǔ)料只取標(biāo)題和摘要, 并過濾停用詞、 低頻詞等。本實(shí)驗(yàn)利用Gibbs Sampling方法進(jìn)行參數(shù)的推理。實(shí)驗(yàn)使用了開源的Gibbs Sampling工具*http://gibbslda.sourceforge.net/,模型參數(shù)α,β分別設(shè)置為 50/K和0.01,話題個(gè)數(shù)K設(shè)為100。
通過式(1)計(jì)算話題每年的強(qiáng)度,比較話題的強(qiáng)度,可以發(fā)現(xiàn)每年的熱門話題。表2展示了2006年至2009年每年最熱門的五個(gè)話題,話題名稱均為人工標(biāo)簽。
從表2可以看到,基于統(tǒng)計(jì)的機(jī)器翻譯(Stat. MT)是近幾年來最熱門的話題。眾所周知,自從統(tǒng)計(jì)技術(shù)在機(jī)器翻譯領(lǐng)域取得成效后,人們對(duì)其的研究熱情一直未減。統(tǒng)計(jì)技術(shù)也同樣應(yīng)用于計(jì)算語(yǔ)言學(xué)的其他方面,如依存關(guān)系句法分析(Dependency Parsing),熱門程度僅次于基于統(tǒng)計(jì)的機(jī)器翻譯。值得一提的還有情感分析(Sentiment)在近年的研究熱度迅速提升。
表2 2006年至2009年熱門話題
為了對(duì)以上結(jié)果進(jìn)行驗(yàn)證,我們選擇使用文獻(xiàn)[16]提出的一種基于句法分析(Parsing)和語(yǔ)義元組提取(Semantic Tuple Extraction)方法專門針對(duì)ACL論文集進(jìn)行分析的Searchbench系統(tǒng)。將我們得到的話題在該系統(tǒng)中查詢, 得到每年的文章數(shù)量,除以當(dāng)年文章總量得到話題權(quán)重,比較話題權(quán)重可以得到每年的熱門話題,與我們的結(jié)果進(jìn)行對(duì)比。表3展示了ACL-Searchbench系統(tǒng)得到的結(jié)果。
表3 2006年至2009年熱門話題(ACL-Searchbench)
通過與Searchbench系統(tǒng)得到的結(jié)果對(duì)比,可以看到找到的熱門話題大體上是一致的,只存在少量的話題或者是位置排名的差異,這說明了我們的方法是有效的。
文獻(xiàn)[7]提出一種話題影響力的計(jì)算方法,它利用文檔之間引用關(guān)系計(jì)算話題間影響概率,再計(jì)算這些影響概率的熵值,作為話題影響力。該方法作為Baseline與我們的方法進(jìn)行對(duì)比。
首先使用式(2)計(jì)算文檔之間的關(guān)聯(lián)度,閾值定為0.07,然后,利用式(3)式(4)計(jì)算話題的影響力。表4分別列出了影響力前五和后五的話題。
表4 話題影響力得分情況
結(jié)果顯示了影響力高的話題都是一些使用比較廣泛的技術(shù),例如,核方法(Kernel Method)、支持向量機(jī)(SVM)等在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)領(lǐng)域很流行的分類技術(shù),它們?cè)谟?jì)算語(yǔ)言學(xué)領(lǐng)域也發(fā)揮著很大的作用。而影響力較小的話題都是一些偏應(yīng)用方面的領(lǐng)域,比如說機(jī)器翻譯、詞義消歧(WSD)以及分詞(Word Segmentation)等,這些領(lǐng)域的特點(diǎn)是比較專一,影響面比較窄。
實(shí)驗(yàn)結(jié)果與Baseline-Impact方法的結(jié)果大體一致,雖然我們的方法計(jì)算量比Baseline-Impact大,但是不需要額外的文檔之間相互引用的信息,可以應(yīng)用于任何文檔集合。
本小節(jié)的實(shí)驗(yàn)是利用話題逐年的強(qiáng)度變化來分析話題的變化趨勢(shì),這些話題包括熱門話題,冷門話題,影響力大的以及影響力小的話題,以此了解計(jì)算語(yǔ)言學(xué)領(lǐng)域近20多年發(fā)展情況。我們使用斯坦福大學(xué)提供的一個(gè)開源話題建模工具(TMT)作為baseline方法對(duì)ACL文集進(jìn)行建模分析,與我們的方法得到的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比以及驗(yàn)證。
首先來看最近幾年的熱門話題的強(qiáng)度變化趨勢(shì)。從圖1可以看出基于統(tǒng)計(jì)方法的機(jī)器翻譯技術(shù)作為最熱門的話題從1999年開始,進(jìn)入了一個(gè)飛躍上升的階段。出現(xiàn)這個(gè)變化的原因,就是在1999年出現(xiàn)了一個(gè)機(jī)器翻譯的熱潮,其最主要的特征是基于統(tǒng)計(jì)的方法在這一領(lǐng)域開始占據(jù)主導(dǎo)地位,機(jī)器翻譯的質(zhì)量出現(xiàn)了一個(gè)跨越式的提高。這股熱潮持續(xù)至今,仍未現(xiàn)衰減之勢(shì)。同時(shí),基于統(tǒng)計(jì)的句法分析的強(qiáng)度也隨著這股熱潮不斷提升。而情感分析在2000年前一直都是比較冷門的話題,但現(xiàn)今研究者對(duì)它的青睞不斷增加。
圖1 熱門話題強(qiáng)度變化趨勢(shì)
圖2 熱門話題強(qiáng)度變化趨勢(shì)(baseline-TMT)
根據(jù)實(shí)驗(yàn)結(jié)果,圖3列出了一些冷門技術(shù)的變化趨勢(shì),包括語(yǔ)言識(shí)別(Speech Recognition)和聯(lián)并方法(Unification)。
圖3 冷門話題強(qiáng)度變化趨勢(shì)
圖4 冷門話題強(qiáng)度變化趨勢(shì)(baseline-TMT)
聯(lián)并方法是20世紀(jì)80年代末90年代初的研究熱點(diǎn),其后漸漸地淡出了研究者的視線。而語(yǔ)音識(shí)別技術(shù)的變化趨勢(shì)比較奇特,它在1989年至1994年有一個(gè)爆發(fā)式的高峰。究其緣由,是因?yàn)檫@幾年舉辦的DARPA語(yǔ)音及自然語(yǔ)言研討會(huì)(DARPA Speech and Natural Language Workshop),這些研討會(huì)產(chǎn)生了大量這方面技術(shù)的研究論文,而之后該技術(shù)的研究就進(jìn)入低谷。
通過對(duì)熱門話題和冷門話題的趨勢(shì)分析,可以看到統(tǒng)計(jì)技術(shù)的興起對(duì)這些熱門話題的強(qiáng)度上升起了很大的推動(dòng)作用;另一方面,冷門話題的下降趨勢(shì)也有不同的表現(xiàn)形式,有的是緩慢下降,有的是急速下降。
接下來看影響力比較高的話題變化趨勢(shì)情況,見圖5。
圖5 影響力高的話題強(qiáng)度變化趨勢(shì)
這幾個(gè)話題都是一些流行的技術(shù),首先是概率模型(Probabilistic Model),它在計(jì)算語(yǔ)言學(xué)的領(lǐng)域一直都是比較主流的技術(shù),它的強(qiáng)度變動(dòng)在2000年前呈波動(dòng)形式,之后呈上升趨勢(shì)。而支持向量機(jī)和核方法在20世紀(jì)90年代末開始興起,此后也越來越受到研究者重視,保持著上升的形式,成為了計(jì)算語(yǔ)言學(xué)領(lǐng)域中比較重要的分析方法。
而影響力較低的話題比較偏應(yīng)用,趨勢(shì)變化沒有固定的特點(diǎn),從圖7可以看到,有的呈現(xiàn)上升趨勢(shì),例如,基于統(tǒng)計(jì)的機(jī)器翻譯;有的呈現(xiàn)下降趨勢(shì),例如,語(yǔ)音識(shí)別。
圖7 影響力低的話題強(qiáng)度變化趨勢(shì)
圖8 影響力低的話題強(qiáng)度變化趨勢(shì)(baseline-TMT)
通過對(duì)影響力大的和影響力小的話題進(jìn)行趨勢(shì)分析,可以發(fā)現(xiàn)它們的強(qiáng)度變化趨勢(shì)與影響力大小是無關(guān)的,這也說明了話題強(qiáng)度和話題影響力這兩個(gè)指標(biāo)是相互獨(dú)立的兩個(gè)標(biāo)準(zhǔn),可以從不同方面去描述話題的特性。
通過與baseline-TMT方法得到結(jié)果進(jìn)行對(duì)比,我們發(fā)現(xiàn)這些話題的趨勢(shì)跟我們的方法得到的趨勢(shì)大體一致,且在變化方向上是一樣的。這也驗(yàn)證了我們方法的正確性和有效性。而在某些話題例如情感分析話題(sentiment),我們的方法得到它在2000年前的大部分年份強(qiáng)度都為零,說明當(dāng)時(shí)還沒產(chǎn)生這個(gè)話題,與實(shí)際情況相符。這也說明了我們的方法更為精確。
本文利用話題模型對(duì)科技文獻(xiàn)進(jìn)行建模分析。首先使用LDA話題建模,發(fā)現(xiàn)文集中隱含的話題。接著,使用兩個(gè)指標(biāo)——話題強(qiáng)度和話題影響力去研究話題的特性。同時(shí),對(duì)這些研究領(lǐng)域或技術(shù)受關(guān)注程度隨時(shí)間變化的趨勢(shì)進(jìn)行分析,發(fā)現(xiàn)它們的變化特點(diǎn)。
通過分析實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)利用話題模型能夠從大量文獻(xiàn)中發(fā)掘出有意義的信息。實(shí)驗(yàn)結(jié)果與實(shí)際情況相符合,說明我們的方法對(duì)科技文獻(xiàn)的分析是行之有效的。以下是對(duì)ACL論文集分析研究得到的一些結(jié)論: 1)最近比較熱門的研究領(lǐng)域包括機(jī)器翻譯、句法分析以及情感分析等;2)理論型的技術(shù)(例如,核方法、概率模型)往往有較大的影響范圍,可能會(huì)應(yīng)用到多個(gè)子領(lǐng)域,而應(yīng)用型的研究領(lǐng)域(例如,機(jī)器翻譯)的影響范圍比較窄;3)通過趨勢(shì)分析,可以了解計(jì)算語(yǔ)言學(xué)近二十多年來的發(fā)展情況,包括統(tǒng)計(jì)技術(shù)的流行大大促進(jìn)了機(jī)器翻譯和句法分析的研究,語(yǔ)音識(shí)別技術(shù)的研究熱潮興起與回落,聯(lián)并語(yǔ)法研究的逐步衰落等。
今后的工作將考慮如何進(jìn)一步挖掘話題的特點(diǎn),更好地探索話題之間的關(guān)聯(lián)。另外,從更多的角度去分析話題的變化趨勢(shì),例如,從內(nèi)容上分析話題在各個(gè)時(shí)間段的特點(diǎn)。
[1] S.Deerwester, S.Dumais, T.Landauer, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society of Information Science, 1990, 41(6):391-407.
[2] T.Hofmann. Probabilistic Latent Semantic Indexing[C]//Proceedings of the Twenty-Second Annual International SIGIR Conference, 1999.
[3] D.M.Blei,A.Y.Ng, M.I.Jordan. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022.
[4] D.M.Blei,J.D.Lafferty. A Correlated Topic Model of Science[J]. The Annals of Applied Statistics 2007,1(1):17-35.
[5] D.M.Blei, J.D.Lafferty. Dynamic Topic Model[C]//Proceedings of International conference on Machine Learning,2006,113-120.
[6] M. Rosen-Zvi,T. Griffths,M. Steyvers,et al. The Author-Topic Model for Authors and Documents[C]//Proceedings of the 20th Conference on Uncertainty in Artifcial Intelligence,2004.
[7] Jie Tang,Jing Zhang,Limin Yao,et al. ArnetMiner: Extraction and Mining of Academic Social Networks[C]//Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD).2008: 990-998.
[8] A.Daud,Juanzi Li,Lizhu Zhou et al. Exploiting Temporal Authors Interests via Temporal-Author-Topic Modeling[C]//Proceedings of ADMA,2009,LNAI 5687: 435-443.
[9] Q.He,B.Chen,J.Pei,et al. Detecting Topic Evolution in Scientific Literature: How Can Citations Help[C]//Proceeding of CIKM,2009: 957-966.
[10] Y.Jo,C.Lagoze,C. L.Giles. Detecting Research Topics via the Correlation between Graphs and Texts[C]//Proceedings of KDD,2007: 370-379.
[11] G.S.Mann,D.Mimno, A.McCallum. Bibliometric Impact Measures Leveraging Topic Analysis[C]//Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries,2006.
[12] T.L.Griffiths, M.Steyvers. Finding Scientific Topics[C]//Proceeding of the National Academy of Science,2004: 5228-5235.
[13] D.Hall,D.Jurafsky, C.D.Manning. Studying the History of Ideas Using Topic Models [C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing,2008: 363-371.
[14] 楚克明,李芳. 基于LDA話題關(guān)聯(lián)的話題演化[J]. 上海交通大學(xué)學(xué)報(bào),2010,44(11): 1501-1506.
[15] 單斌,李芳. 基于LDA話題演化研究方法綜述[J]. 中文信息學(xué)報(bào),2010,24(6):43-49.
[16] Ulrich Sch¨afer Bernd Kiefer Christian Spurk J¨org Steffen Rui Wang. The ACL Anthology Searchbench[C]//Proceedings of the ACL-HLT 2011 System Demonstrations: 7-13.