魏明川,朱俊杰,張 瑾,張 凱,程學(xué)旗,任 彥
(1. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100190;2. 中國(guó)科學(xué)院研究生院,北京 100190;3. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100190)
隨著互聯(lián)網(wǎng)信息的爆炸性增長(zhǎng),如何在海量信息里更快速、準(zhǔn)確地提取有用信息日益成為一大挑戰(zhàn)。由于傳統(tǒng)信息檢索技術(shù)在有效獲取有用信息方面作用有限,因而對(duì)如何有效地提煉各種文本信息知識(shí)提出了難題。話題檢測(cè)與跟蹤(Topic Detection and Tracking ,TDT)著力研究如何對(duì)網(wǎng)絡(luò)文本進(jìn)行高效組織和檢索。但某些話題對(duì)象存在持續(xù)時(shí)間長(zhǎng)、涵蓋事件多的特點(diǎn),如果直接用TDT中的定義事件組織專題,會(huì)導(dǎo)致事件個(gè)數(shù)隨著專題規(guī)模擴(kuò)大而爆炸增長(zhǎng);同時(shí),TDT無(wú)法發(fā)現(xiàn)話題中事件的關(guān)系,很難檢測(cè)話題中事件生成、衍化直至消亡的過(guò)程。針對(duì)以上問(wèn)題,很多研究都提出建立子話題層的解決方法,在話題層和新聞事件層生成子話題層,使之成為銜接話題和事件之間的橋梁,從而構(gòu)建出適合大規(guī)模數(shù)據(jù)自動(dòng)分析的完備組織模式。傳統(tǒng)子話題劃分方法一般都是基于詞元的向量空間模型或基于此模型的一些改進(jìn)方法,所得結(jié)果在重要性和多樣性上存在欠缺。
針對(duì)上述問(wèn)題,本文提出一種基于二元關(guān)鍵詞組的子話題劃分模型,并且利用吸收馬爾可夫鏈算法對(duì)生成的子話題進(jìn)行有效吸收提取,從而得到兼?zhèn)渲匾院投鄻有缘淖釉掝}結(jié)果。本文結(jié)構(gòu)如下: 第2節(jié)介紹相關(guān)工作;第3節(jié)介紹本文提出的子話題發(fā)現(xiàn)模型;第4節(jié)描述實(shí)驗(yàn)數(shù)據(jù)、評(píng)測(cè)標(biāo)準(zhǔn)、最終實(shí)驗(yàn)結(jié)果及其分析;第5節(jié)為總結(jié)和下一步工作展望。
作為話題表示模型的基本單元,關(guān)鍵詞是表示話題內(nèi)容和區(qū)分話題類型的主要元素,因此TDT的一個(gè)研究熱點(diǎn)是研究如何從大量文本中提取出能獨(dú)立代表一個(gè)話題的關(guān)鍵詞。
基于關(guān)鍵詞的話題研究方面,Makkonen[1]提出根據(jù)話題的4個(gè)要素,將詞語(yǔ)分成時(shí)間類、地點(diǎn)類、實(shí)體類、動(dòng)作類,從而將一個(gè)話題表示為一個(gè)語(yǔ)義向量{時(shí)間、地點(diǎn)、人物、事件}。在此思路下Hua-Jun Zeng[2]提出將詞語(yǔ)在文章的屬性具體表示為包括tf-idf、詞語(yǔ)長(zhǎng)度、內(nèi)部聚合相似度等概念,通過(guò)將詞語(yǔ)屬性進(jìn)行線性組合,計(jì)算詞語(yǔ)在文章中的權(quán)重,排序生成關(guān)鍵詞,但是對(duì)以上特征的具體選取并沒(méi)有較好的解決方案。王巍[3]只利用tf-idf特征值,將詞語(yǔ)位置分為標(biāo)題和正文,修正不同位置的關(guān)鍵詞tf-idf值并進(jìn)行線性組合,通過(guò)標(biāo)題長(zhǎng)度和正文長(zhǎng)度比進(jìn)行動(dòng)態(tài)調(diào)整,從而降低詞頻噪音。
子話題是話題(或子話題)內(nèi)一組相關(guān)事件或活動(dòng)的集合。目前子話題的研究大都是基于話題內(nèi)的子話題劃分,該方面研究并沒(méi)有太多新穎有效的模型或解決方案,主要思路還是延續(xù)基于關(guān)鍵詞的方案。
基于話題內(nèi)子話題的發(fā)現(xiàn)研究方面,袁繼鵬[4]提出計(jì)算每個(gè)關(guān)鍵詞的新穎度,并以此作為子話題分界的依據(jù)之一,其新穎度用分布密度來(lái)表征,從而得到子話題的分界點(diǎn),并最終以此分界點(diǎn)作為子話題衍化時(shí)間點(diǎn)。另外,李軍等人[5]提出基于話題模型的子話題劃分方法,方法用隱含語(yǔ)義空間表示文檔,采用層次聚類進(jìn)行子話題劃分。
以上方法都是基于1個(gè)關(guān)鍵詞的一元模式,但實(shí)際生活中很多事件很難用一個(gè)關(guān)鍵詞準(zhǔn)確描述,因此以上方案都存在子話題劃分準(zhǔn)確度不高,結(jié)果不夠理想的情況。本文提出了二元模式的子話題劃分方案,但該方案由于特定關(guān)鍵詞的權(quán)重唯一性,權(quán)重高的關(guān)鍵詞相互之間會(huì)生成冗余子話題,從而導(dǎo)致生成結(jié)果多樣性效果較差。
針對(duì)子話題多樣性質(zhì)量?jī)?yōu)化問(wèn)題,張瑾等人[6]提出基于圖的子話題劃分的多文檔文摘算法,算法中借助吸收馬爾可夫鏈來(lái)更新句子的貢獻(xiàn)度,并借助其收斂性實(shí)現(xiàn)文摘算法的穩(wěn)定性。但該算法的衰減過(guò)快,不能具體適應(yīng)本文的子話題模型。
針對(duì)此問(wèn)題,本文提出一種針對(duì)子話題的吸收馬爾可夫鏈算法(absorbing Markov chain subtopic, AMCSubtopic)來(lái)提升子話題多樣性質(zhì)量。
目前各大門(mén)戶網(wǎng)站及主要搜索引擎公司都提供熱點(diǎn)關(guān)鍵詞新聞服務(wù)(百度新聞首頁(yè)的熱詞新聞模塊)。將圍繞某一事件或與該事件密切相關(guān)的若干事件的新聞報(bào)道共同組織在一起全方位,多角度跟蹤報(bào)道新聞事件?;陉P(guān)鍵詞的話題演化分析通過(guò)計(jì)算話題文檔集合中詞語(yǔ)的權(quán)重,選出權(quán)重靠前的若干詞語(yǔ)作為話題描述信息,以此將話題文檔進(jìn)行分類從而形成子話題。對(duì)于新聞事件而言,其六要素特性(人物、時(shí)間、地點(diǎn)、起因、經(jīng)過(guò)、結(jié)果)往往要求描述每個(gè)事件至少涵蓋兩個(gè)到多個(gè)關(guān)鍵詞。但關(guān)鍵詞具有詞義獨(dú)立性,因此過(guò)多關(guān)鍵詞來(lái)描述子話題反而會(huì)導(dǎo)致子話題的聚焦性失衡;而且實(shí)際系統(tǒng)的運(yùn)行效率會(huì)隨著子話題的關(guān)鍵詞規(guī)模的增多而增大。因此模型在詞元個(gè)數(shù)選擇上存在較大商榷性。
表1 關(guān)鍵詞子話題模型對(duì)比結(jié)果
如表1的初步實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),一元關(guān)鍵詞描述信息過(guò)于粗略,而多元關(guān)鍵詞存在信息冗余。綜合復(fù)雜度和有效性兩個(gè)方面,本文提出基于二元關(guān)鍵詞的子話題模型,該模型不但能夠避免單關(guān)鍵詞表征意思失衡,同時(shí)也降低了系統(tǒng)時(shí)間復(fù)雜度。模型核心特征在于二元關(guān)鍵詞組合的tf-idf值,計(jì)算方式如下:
話題T共有n篇文檔語(yǔ)料D{d1,d2,…,dn},每篇文檔語(yǔ)料都含有若干關(guān)鍵詞,所有的關(guān)鍵詞集合為W{w1,w2,…,wm},每個(gè)關(guān)鍵詞在語(yǔ)料D中都有其特定的tf-idf值,將tf-idf分開(kāi)為集合TF{tf1,tf2,…,tfm}和IDF{idf1,idf2,…idfm},對(duì)于任意一個(gè)關(guān)鍵詞Wi滿足式(1)。
其中tfik表示關(guān)鍵詞Wi在文檔Dk中的詞頻值。對(duì)于模型而言,其關(guān)鍵詞組WiWj的聯(lián)合初始聯(lián)合TF-IDF計(jì)算公式如式(2)所示。
(2)
對(duì)每篇語(yǔ)料分別算出每個(gè)子話題對(duì)應(yīng)兩個(gè)關(guān)鍵詞的tf-idf值,并取其最小值,這樣做有兩個(gè)目的:
1) 能保證兩個(gè)關(guān)鍵詞作為一個(gè)聯(lián)合整體被納入考慮;
2) 能保證兩個(gè)關(guān)鍵詞組和對(duì)應(yīng)文檔語(yǔ)料有合適的相關(guān)度。
通過(guò)式(2)計(jì)算出來(lái)的聯(lián)合初始tf-idf值并不能作為真正的評(píng)判結(jié)果指標(biāo)進(jìn)行子話題劃分,否則會(huì)引入高頻關(guān)鍵詞兩兩生成高頻子話題簇,導(dǎo)致生成結(jié)果多樣性質(zhì)量不好。例如,“食品安全”話題下的一批文檔,按照以上聯(lián)合初始tf-idf值計(jì)算出來(lái)的前7個(gè)熱點(diǎn)子話題結(jié)果如下:
{1“產(chǎn)品 市場(chǎng)”;2“安全 市場(chǎng)”;3“市場(chǎng) 年中”;4“安全 生產(chǎn)”;5“企業(yè) 市場(chǎng)”;6“企業(yè) 安全”;7“產(chǎn)品 安全”}。
以上結(jié)果雖然跟話題有較大關(guān)聯(lián)性,但結(jié)果實(shí)際主要由關(guān)鍵詞組{“產(chǎn)品”;“市場(chǎng)”;“安全”;“生產(chǎn)”}組合生成。結(jié)果的覆蓋冗余性過(guò)高, 多樣性不足。為了解決以上問(wèn)題,我們引入了以下的AMCSubtopic算法。
張瑾等人[6]提出用吸收馬爾可夫鏈來(lái)改進(jìn)文摘質(zhì)量, Zhu xiaojin等人[7]提出用吸收馬爾可夫鏈來(lái)提升結(jié)果多樣性。為了更好地評(píng)價(jià)二元關(guān)鍵詞組模型,本文借鑒以上工作,提出基于子話題先驗(yàn)的關(guān)鍵詞組策略模型SubtopicRank,對(duì)指定話題t的多文檔語(yǔ)料而言,令F=[f1,f2,…,fl]T表示關(guān)鍵詞組重要性得分向量,面向子話題的先驗(yàn)分布R=[r1,r2,…,rl]T,則SubtopicRank策略可以表示為式(3)。
f(t+1)=λr+ (1-λ) ·M·f(t)
(3)
其中M是轉(zhuǎn)移概念矩陣,λ是置信度參數(shù),本文模型λ為0,即不考慮先驗(yàn)知識(shí)。為了同時(shí)考慮子話題的重要性、新穎性和多樣性,我們引入吸收馬爾可夫鏈。將已入選的關(guān)鍵詞組中兩個(gè)關(guān)鍵詞對(duì)應(yīng)的狀態(tài)都設(shè)定為吸收狀態(tài)?;诖艘胛漳P?,其模型轉(zhuǎn)移矩陣見(jiàn)式(4)和式(5)。
其中N為n*n的矩陣,為
β為衰減系數(shù)。因此SubtopicRank策略公式即式(3)轉(zhuǎn)化為式(6)。
對(duì)于式(2)而言,算法AMCSubtopic目的是利用其吸收特性,對(duì)聯(lián)合初始tf-idf值進(jìn)行重排序。因此根據(jù)式(6),我們可以得到如下計(jì)算聯(lián)合tf-idf值的公式:
在引入AMCSubtopic算法后,子話題模型得以很好解決子話題新穎性、重要性和多樣性的問(wèn)題,而本文具體實(shí)現(xiàn)方案即針對(duì)二元關(guān)鍵詞組聯(lián)合tf-idf值進(jìn)行重排序,并設(shè)定閾值,取出排名靠前的K個(gè)二元關(guān)鍵詞組作為子話題生成結(jié)果。
模型流程如下:
2) 得到二元關(guān)鍵詞組初始權(quán)重: 按式(2)計(jì)算得到每個(gè)關(guān)鍵詞組的初始權(quán)重值、排序;
3) 得到最終子話題: 將關(guān)鍵詞組按序放入待吸收隊(duì)列中,每次取出隊(duì)列中最大權(quán)重條目作為吸收子話題,然后根據(jù)AMCSubtopic算法更新隊(duì)列中剩余條目權(quán)重值,重新排序,重復(fù)以上過(guò)程直至隊(duì)列為空。
具體算法實(shí)現(xiàn)過(guò)程如下:
輸入:n篇t話題下的文檔語(yǔ)料,每篇文檔限定的關(guān)鍵詞數(shù)x,衰減模型中衰減系數(shù)β,最終子話題個(gè)數(shù)s。
輸出:s個(gè)子話題
fori←0ton
do
Wi=DivideDocIntoWord(Di)
MergeWord(&G,Wi)
done
SortWordByTf(&G)
fori←0tog-1
forj←0tog-1
do
Make2Keywords(&F,gj,gj+1)
done
done
SortWordByTf(&F)
len=0
whilelen!=s
do
Slen=PopFromBegin(&F)
UpdateByMarkov(&F,β)
len++
done
為了評(píng)測(cè)子話題發(fā)現(xiàn)模型生成結(jié)果質(zhì)量,本文共設(shè)計(jì)3種指標(biāo)進(jìn)行評(píng)測(cè)。子話題中聯(lián)合關(guān)鍵詞組的tf值可作為該子話題和對(duì)應(yīng)文檔的相關(guān)度。兩個(gè)關(guān)鍵詞如果在一篇文獻(xiàn)中同時(shí)出現(xiàn)過(guò),表示該子話題和該篇文檔相關(guān)聯(lián)?;诖吮疚脑O(shè)計(jì)了子話題覆蓋度cr、子話題獨(dú)立度dr兩個(gè)關(guān)于子話題及文檔相關(guān)度的評(píng)測(cè)指標(biāo)。
子話題覆蓋度(cr)為所有子話題關(guān)聯(lián)文檔的并集和原始文檔集的相似度,cr越大,說(shuō)明子話題關(guān)聯(lián)文檔并集和原始文檔集余越接近。cr為1表示子話題關(guān)聯(lián)文檔并集和原始文檔集重合;而dr表示任一子話題和其他所有子話題關(guān)聯(lián)文檔集的差異情況,dr越大,說(shuō)明子話題之間關(guān)聯(lián)的文檔交集越小,說(shuō)明子話題之間多樣性越強(qiáng),如果dr為1,表示子話題之間完全獨(dú)立。
為更形象體現(xiàn)子話題之間獨(dú)立性,我們?cè)O(shè)計(jì)了第三個(gè)評(píng)價(jià)指標(biāo): 關(guān)鍵詞的獨(dú)立度wr。已知每個(gè)子話題stk有兩個(gè)關(guān)鍵詞sTWk={stwk1,stwk2},對(duì)于獨(dú)立性不高子話題集而言,各個(gè)子話題之間重復(fù)關(guān)鍵詞較多,因此wr是一個(gè)描述子話題集關(guān)鍵詞之間的重復(fù)情況的指標(biāo)。公式如下:
wr越高,說(shuō)明子話題之間關(guān)鍵詞重復(fù)度越低,對(duì)應(yīng)子話題獨(dú)立性越高,反之亦然。
本文使用某在線系統(tǒng),人工配置9個(gè)新聞話題進(jìn)行數(shù)據(jù)采集,得到文檔數(shù)量和相應(yīng)話題名稱如表2所示。
表2 待檢測(cè)話題
系統(tǒng)采集源都是來(lái)自中國(guó)境內(nèi)的各個(gè)新聞網(wǎng)站,因此數(shù)據(jù)源可靠且準(zhǔn)確。為了更好評(píng)價(jià)相似話題的子話題結(jié)果,我們選用了話題4和話題5、話題2和話題7兩組相似度較高的話題集用于評(píng)測(cè)。
4.2.1 對(duì)比測(cè)試
根據(jù)以上9個(gè)話題數(shù)據(jù)集,本文使用測(cè)試模型1為原始二元關(guān)鍵詞子話題模型,模型2為引入AMCSubtopic的子話題模型,測(cè)試中分別取每個(gè)話題集的前20個(gè)子話題結(jié)果進(jìn)行測(cè)試。實(shí)驗(yàn)基于子話題覆蓋率,多樣性和獨(dú)立度生成的實(shí)驗(yàn)結(jié)果分別如圖1、圖2和圖3所示。
圖1 子話題覆蓋率結(jié)果圖
圖2 子話題多樣性結(jié)果圖
圖3 子話題關(guān)鍵詞獨(dú)立度結(jié)果圖
圖1中顯示模型2在9組話題測(cè)試結(jié)果中其子話題的覆蓋率都高于模型1,說(shuō)明模型2中子話題結(jié)果并集對(duì)原始語(yǔ)料的覆蓋度有所提升, 從而更好全面體現(xiàn)出話題內(nèi)容概要。
圖2中模型2在子話題多樣性上性能較模型1有了大幅度提升,多樣性平均提升了約10%,從而說(shuō)明了AMCSubtopic對(duì)子話題冗余信息處理非常優(yōu)秀。
結(jié)合圖1、圖2結(jié)果可以看出,基于AMCSubtopic的子話題發(fā)現(xiàn)模型不僅提升了子話題結(jié)果并集的覆蓋度,還減少了子話題之間彼此的信息冗余,尤其在信息冗余處理上,效果非常明顯。
圖3是驗(yàn)證子話題多樣性更直觀的結(jié)果圖。而圖3中模型2的子話題關(guān)鍵詞組基本沒(méi)有重復(fù),而模型1的子話題組關(guān)鍵詞重復(fù)情況比較嚴(yán)重,從而說(shuō)明模型2的多樣性的確優(yōu)于模型1,也印證了本文引入AMCSubtopic的想法初衷。
4.2.2 人工評(píng)價(jià)
為了更好的評(píng)測(cè)結(jié)果,我們從AMCSubtopic模型生成的子話題結(jié)果截取前10個(gè)進(jìn)行人工標(biāo)注測(cè)試。我們邀請(qǐng)了20個(gè)不同工作領(lǐng)域的用戶進(jìn)行測(cè)試,用戶按重要度遞減標(biāo)注出每個(gè)話題前5個(gè)子話題作為熱點(diǎn)Top5結(jié)果。對(duì)比人工標(biāo)注的Top5和模型自動(dòng)生成的Top5結(jié)果,根據(jù)排名給出權(quán)重值得出標(biāo)注結(jié)果和自動(dòng)結(jié)果的匹配度,從而評(píng)價(jià)模型性能。
AMCSubtopic模型生成的9組話題top5子話題和對(duì)應(yīng)的人工標(biāo)注匹配結(jié)果如表3所示。
從表3可以看出,AMCSubtopic模型自動(dòng)生成的子話題結(jié)果基本和用戶信息需求基本完全吻合,9組結(jié)果中有5組結(jié)果能夠完全吻合,最低的也能達(dá)到80.00%,說(shuō)明本文實(shí)現(xiàn)的子話題切分模型已經(jīng)能夠有效的生成符合用戶需求的子話題結(jié)果,從而達(dá)到子話題檢測(cè)目的。
但人工標(biāo)注的匹配結(jié)果還不能完全達(dá)到100%,說(shuō)明子話題結(jié)果質(zhì)量還有優(yōu)化空間。分析結(jié)果時(shí)發(fā)現(xiàn),以實(shí)體作為一個(gè)關(guān)鍵詞的子話題結(jié)果往往更能夠符合用戶要求,因此本文下一步工作方向?qū)⒔Y(jié)合實(shí)體,實(shí)現(xiàn)更高質(zhì)量的子話題發(fā)現(xiàn)模型。另外,通過(guò)表3可以看出,話題4、5和話題2、7之間生成的top5子話題結(jié)果比較接近,而該兩組話題本身之間存在較大相似性,從而說(shuō)明通過(guò)子話題之間關(guān)系可以反推出對(duì)應(yīng)話題間關(guān)系。因此,本文的另一個(gè)工作方向就是基于子話題關(guān)系分析話題間關(guān)系。
表3 Top5子話題統(tǒng)計(jì)結(jié)果表
由于傳統(tǒng)話題檢測(cè)方法對(duì)于選擇事件粒度比較困難,因此對(duì)于一些小粒度事件的發(fā)現(xiàn)及追蹤有較大難度,本文提出的基于二元關(guān)鍵詞子話題劃分模型能夠有效解決該方面的問(wèn)題,并且在模型中引入了吸收馬爾可夫鏈算法,從而能夠有效實(shí)現(xiàn)子話題的代表性和多樣性。通過(guò)人工標(biāo)注測(cè)試,生成了和用戶標(biāo)注較為吻合的子話題結(jié)果,從而驗(yàn)證了模型的可實(shí)用性。但文本僅僅引入關(guān)鍵詞組的tf-idf屬性,在分析具體系統(tǒng)運(yùn)行結(jié)果中我們發(fā)現(xiàn)某些實(shí)體關(guān)鍵詞對(duì)子話題的劃分也起到一定正相關(guān)的影響。因此本文下一步的研究點(diǎn)將納入考慮實(shí)體關(guān)鍵詞對(duì)子話題劃分的影響。另外,我們將繼續(xù)拓展子話題關(guān)系模型的研究,研究子話題之間衍化和話題之間基于子話題的關(guān)聯(lián)分析等。
[1] Makkonen J,Ahonen-MykaHand SalmenkiviM Applying semantic classes in event detection and tracking[C]//Proceedings of International Conference on Natural Language Processing(ICON) Mumbai, India,2002: 175-183.
[2] Hua-Jun Zeng,Qi-Cai He, Zheng chen, et al. Learning to Cluster Web Search Results[C]//Proceedings of SIGIR’04, July, Sheffield, South Yorkshire, UK,2004:25-29.
[3] 王巍. 基于關(guān)鍵詞和時(shí)間點(diǎn)的網(wǎng)絡(luò)話題演化分析.[D]. 復(fù)旦大學(xué)中國(guó)優(yōu)秀碩士學(xué)位論文. 2009.
[4] 袁繼鵬. 網(wǎng)絡(luò)輿情話題演化及話題重要度分析[D],中國(guó)科學(xué)院計(jì)算技術(shù)研究所碩士學(xué)位論文, 2012.
[5] 李軍,李娟子. 新聞專題內(nèi)子話題劃分. 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系[C]//Proceedings of the Fourth National Conference of Information Retrieval and Content Security,2008,Vol.1.
[6] 張瑾. 面向Web話題的多文檔文摘關(guān)鍵技術(shù)研究[D]. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所博士學(xué)位論文,2009.
[7] Zhu Xiaojin,Goldberg A B,Van Gael J,et al. Improving diversity in ranking using absorbing random walks[C]//Proceedings of Human Language Technologies:the Annual Conference of the North American Chapter of the Association for Computational Linguistics.Rochester:NAACL,2007:97-104.
[8] 洪宇,張宇,劉挺,等.話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J].中文信息學(xué)報(bào),2007,21(6):72-57.
[9] 駱衛(wèi)華,于滿泉,許洪波,等.基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J]. 中文信息學(xué)報(bào),2006,20(1):29-36.
[10] 張瑾,許洪波. 基于動(dòng)態(tài)內(nèi)容的文摘方法研究[C]. 第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(NCIRCS 2007),蘇州, 2007.
[11] 張瑾,王小磊,許洪波. 自動(dòng)文摘評(píng)價(jià)方法綜述[J]. 中文信息學(xué)報(bào), 2008,22(3):81-88.
[12] 王燦輝.Web環(huán)境下的新聞專題構(gòu)建和話題挖掘研究[D],清華大學(xué)博士學(xué)位論文, 2008.
[13] 文利娟.Web社區(qū)中話題的發(fā)現(xiàn)與排序[D],武漢理工大學(xué)碩士學(xué)位論文, 2009.
[14] 賈自艷,何清,張海俊,等. 一種基于動(dòng)態(tài)進(jìn)化模型的時(shí)間檢測(cè)和追蹤算法[J],計(jì)算機(jī)研究與發(fā)展, 2004,41(7):1273-1280.