謝林燕, 張素香, 戚銀城
(1.華北電力大學(xué) 電子與通信工程系 河北 保定 071003; 2.國網(wǎng)信息通信有限公司 北京 100053)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人類已經(jīng)進入了信息爆炸和信息過載的時代,海量的網(wǎng)絡(luò)媒體信息使得人們在獲取信息時產(chǎn)生了一種咨詢焦慮,因此,建立以話題為主線的信息組織模式,快速有效地檢測出用戶感興趣的信息成為新的研究熱點.話題檢測與跟蹤[1](topic detection and tracking, TDT)技術(shù)就是在這種背景下產(chǎn)生并發(fā)展起來的.話題檢測是TDT測評任務(wù)中的一項任務(wù),它是將新聞數(shù)據(jù)流中的報道歸入不同的話題,并在必要的時候建立新話題的技術(shù).
目前,已有很多學(xué)者針對話題檢測展開研究,文獻(xiàn)[2]通過分析大量英文報道的特征,提出基于內(nèi)容分析的話題檢測算法,通過內(nèi)容分析將話題表示成標(biāo)識中心向量和內(nèi)容中心向量.文獻(xiàn)[3]提出利用計算時間相似度和地點相似度進行話題檢測,但是沒有將兩者結(jié)合起來.文獻(xiàn)[4]提出了一種時間相似度和地點相似度計算方法,并結(jié)合兩者進行話題檢測.目前,多數(shù)話題檢測算法是以語法信息為基礎(chǔ)計算話題和報道的相似度,最終完成話題檢測任務(wù).然而,影響話題檢測系統(tǒng)性能的一個重要因素是相似話題[1]的區(qū)分,如兩次不同的海嘯事故,因為描述這些事件的報道所使用的詞匯大部分是相同的.針對這一問題作者提出了基于層疊模型的話題檢測方法,首先識別話題和報道中的實體信息,同時改進時間相似度和地點相似度的計算方法,在底層通過計算文本內(nèi)容相似度進行話題檢測,在高層結(jié)合時間相似度和地點相似度,融合三類相似度的計算結(jié)果作為最后的判別標(biāo)準(zhǔn),以此來克服相似話題難以區(qū)分的問題.實驗結(jié)果表明,該方法很好地提高了檢測精度.
提出的話題檢測系統(tǒng)如圖1所示,主要包括建立新聞報道模型與話題模型、基于層疊模型的話題檢測方法和話題檢測算法3部分.
1.1.1預(yù)處理與報道模型 文本預(yù)處理包括分詞和去停用詞兩部分.分詞是自然語言處理研究的出發(fā)點,本系統(tǒng)首先對輸入的文本進行分詞,然后為了降低后續(xù)處理流程的復(fù)雜度,提高檢測精度,要去除停用詞.
(1)
(2)
其中,tfi是termi在報道S中的詞頻,N是所有已輸入報道的總數(shù),ni是N篇報道中含有termi的報道的數(shù)量.
圖1 話題檢測系統(tǒng)框圖Fig.1 Topic detection system chart
1.1.2話題模型 話題模型通常以質(zhì)心表示,而質(zhì)心也是通過向量空間模型描述的,因此,通過提取特征和計算特征權(quán)值將特定話題表示為質(zhì)心.從已收集的話題語料中隨機抽取若干篇作為訓(xùn)練語料形成相應(yīng)話題,采用基于文檔頻率的方法選取文本特征.文檔頻率主要是統(tǒng)計所有不同詞在話題中的文檔的頻次,并將這些詞按照其頻次的高低順序排列,在該排列中抽取特定數(shù)目的詞作為話題特征項.話題特征項的權(quán)重計算方法如下:
(3)
其中,weight(term,T)表示特征項term在話題T中的權(quán)重;Si是話題T中包含的新聞報道;N為話題T包含新聞報道的總數(shù)量;ω(term,Si)是特征項term在Si中的權(quán)重值.
一個事件涉及到的時間、地點信息在解決相似話題難以區(qū)分的問題中起著不可忽視的作用.作者提出了基于層疊模型的話題檢測方法,多層次、多角度地分析話題和報道中的相似性,將基于baseline模型[2]的計算結(jié)果作為底層檢測,在高層結(jié)合時間、地點信息的相似度,三類相似度融合的結(jié)果用于完成話題檢測任務(wù).
1.2.1話題和報道的內(nèi)容相似度計算 采用夾角余弦函數(shù)作為內(nèi)容相似度的計算方法.假設(shè)報道S與話題T的向量空間模型分別為S=(ws1,ws2,…,wsn)和T=(wt1,wt2,…,wtn),那么報道S與話題T的相似度計算公式為
(4)
1.2.2話題和報道的地點相似度計算 對文獻(xiàn)[4]提出的地點相似度的計算方法進行了改進,首先建立與話題相關(guān)的地點詞典,將話題中涉及的重要地點信息收集到該詞典中,形成話題地點向量,然后提取報道的地點信息形成報道地點向量,進行地點相似度計算,計算公式為
(5)
其中,mi為該話題的地點向量,mj為新聞報道Si的地點向量.
1.2.3話題和報道的時間相似度計算 時間信息在自然語言處理相關(guān)領(lǐng)域中起著重要的作用[6].在話題檢測中,可以利用時間信息判斷報道是否與某話題的后續(xù)報道相關(guān),當(dāng)報道時間與話題事件發(fā)生的時間差距增大時,認(rèn)為兩者之間的相關(guān)性減弱,因此將這一特點融入了話題檢測中.作者改進了文獻(xiàn)[4]中提出的時間相似度計算方法,利用新聞報道的發(fā)布時間與話題事件的發(fā)生時間差來表示話題和后續(xù)報道之間的相關(guān)性.算法改進后,緩解了相似話題難以區(qū)分的問題.為完成該任務(wù),必須將報道和話題中的時間信息規(guī)范化,精確到天,時間信息的格式為:2010-11-23,計算公式為
sim(ti,tj)=-|ti-tj|,
(6)
其中,ti為新聞報道Si發(fā)布的時間,tj為話題事件T發(fā)生的時間.
1.2.4基于層疊模型的話題與報道相似度計算 將基于文本內(nèi)容、時間、地點計算出的相似度加以融合,通過線性組合的方式得到最終的相似度,計算公式為
sim(Si,T)=cos(Si,T)+αsim(mi,mj)-βsim(ti,tj),
(7)
其中,α與β為設(shè)定的參數(shù).本實驗中,α=0.4,β=0.000 1.
以Single-Pass聚類策略為基礎(chǔ)實現(xiàn)話題檢測算法,該算法按新聞報道輸入的先后順序依次處理信息流中的報道,直到所有的報道處理完畢,具體過程如下:
1)對新聞報道進行預(yù)處理,然后利用1.1.1節(jié)和1.1.2節(jié)中的特征權(quán)重計算方法計算報道和話題中各個詞的權(quán)重值,分別建立報道模型和話題模型.
2)計算新聞報道與話題的相似度,與預(yù)設(shè)的閾值進行比較,報道與話題的相似度高于閾值,則判定該報道與話題相關(guān),否則判定該報道與話題不相關(guān).
3)重復(fù)上述過程直到信息流中的所有報道都處理完畢.
實驗采用的性能指標(biāo)為正確率(P)、召回率(R)和F1測試值,計算公式如下:
采用從互聯(lián)網(wǎng)收集到的新聞報道作為評測語料,該語料包含725篇中文報道,定義了包括韓朝開戰(zhàn)、韓國前總統(tǒng)金大中去世、法國總統(tǒng)薩科齊訪華、云南盈江地震、索馬里海盜、韓國羅老號火箭墜毀等10個話題.隨機選取4篇與韓朝開戰(zhàn)相關(guān)的新聞報道作為訓(xùn)練語料,構(gòu)建話題模型,剩余721篇新聞報道作為測試語料,其中選取韓朝開戰(zhàn)事件作為本次實驗的相關(guān)話題,其余話題作為與該話題不相關(guān)的反例話題,共計220篇報道.
設(shè)計了如下3個實驗:
實驗一 采用基于傳統(tǒng)TF-IDF權(quán)重計算的baseline模型完成話題檢測任務(wù);
實驗二 采用基于歸一化TF-IDF權(quán)重計算的baseline模型完成話題檢測任務(wù);
實驗三 采用基于層疊模型完成話題檢測任務(wù).
實驗對比結(jié)果見表1.
表1 實驗結(jié)果Tab.1 Experimental results
由上述實驗結(jié)果可以得出以下結(jié)論:
1)通過設(shè)定不同的相似度閾值發(fā)現(xiàn),隨著該值的增大,正確率提高,召回率下降.
2)通過比較實驗一和實驗二的實驗結(jié)果,實驗二中構(gòu)建的系統(tǒng)模型的召回率在同等實驗條件下均高于實驗一,同時F1測試值與實驗一相比,也有所改進,這說明基于歸一化TF-IDF權(quán)重計算的baseline系統(tǒng)模型的檢測性能優(yōu)于基于傳統(tǒng)TF-IDF權(quán)重計算的baseline模型.
3)通過比較實驗二和實驗三的實驗結(jié)果,基于歸一化TF-IDF權(quán)重計算的baseline模型的話題檢測方法的性能指標(biāo),在同等條件下低于結(jié)合新聞特征的檢測結(jié)果,這說明將時間和地點信息應(yīng)用到話題檢測中是一種行之有效的方法.
對實驗結(jié)果進行分析可知,未能正確檢測識別新聞報道的原因主要有以下3種:
1)實驗設(shè)定的反例中,存在與目標(biāo)話題類似的話題語料,如“韓國前總統(tǒng)金大中去世”和“韓國羅老號火箭墜毀”兩個事件中,均涉及到韓國的一些地名(如“首爾”、“青瓦臺”等),它們在兩個不同的話題中均出現(xiàn),造成結(jié)果誤判.
2)實驗中存在部分與目標(biāo)話題相關(guān)的新聞報道,語料篇幅偏短,涉及到的特征不夠明顯,因此在相似度計算中,計算結(jié)果偏低,隨著相似度閾值的提高,對這部分相關(guān)語料就會誤判.
3)實驗語料中涉及一些關(guān)鍵人名,如“韓朝開戰(zhàn)”事件中出現(xiàn)的官員名稱“崔泰?!?、“金星煥”等,對于區(qū)分相似話題可以起到作用,作者未對關(guān)鍵人名進行考慮.
提出了基于層疊模型的話題檢測方法.該方法通過分析新聞報道語料的特點,充分考慮了報道中地點、時間等信息,并結(jié)合基于baseline模型的相似度計算結(jié)果,將三類相似度的計算結(jié)果進行線性組合,以此結(jié)果為依據(jù),進行報道和話題的相似度檢測,從而完成話題檢測任務(wù).實驗結(jié)果表明,基于層疊模型的話題檢測方法能夠提高檢測性能指標(biāo).
參考文獻(xiàn):
[1] 洪宇,張宇,劉挺,等.話題檢測與跟蹤的評測及研究綜述[J].中文信息學(xué)報,2007,21(6):71-87.
[2] 趙華,趙鐵軍,張姝,等.基于內(nèi)容分析的話題檢測研究[J].哈爾濱工業(yè)大學(xué)學(xué)報,2006,38(10):1740-1743.
[3] Jin Y,Myaeng S H,Jung Y. Use of place information for improved event tracking[J].Information Processing and Management,2007,43(2):365-378.
[4] 薛曉飛,張永奎,任曉東.基于新聞要素的新事件檢測方法研究[J].計算機應(yīng)用,2008,28(11):2975-2977.
[5] 劉海峰,王元元,劉守生.一種組合型中文文本分類特征選擇方法[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版, 2007, 25(4):208-211.
[6] Li Baoli, Li Wenjie, Lu Qin.Topic tracking with time granularity reasoning[J]. ACM Transactions on Asian Language Information Processing,2006,5(4):388-412.