彭 冰工人日報社,吉林長春 130022
一種新聞事件演化建模方法研究
彭冰
工人日報社,吉林長春130022
摘要事件演化關系模型是一個科學的新聞事件演化建模方法,它有利于準確發(fā)掘新聞話題中各子事件之間存在的潛在關系。其具體方法是利用事件的內容相似性、時間關系、命名實體以及關聯(lián)信息構建新聞演化關系模型。本文通過具體的建模實驗,對該方法的可行性進行了探析。
關鍵詞新聞事件;演化;建模方法
新聞報道中,一個新聞話題不僅僅是單一事件的報道,它還具有一個完整的時間演化結構。而從新聞話題中掌握各個子事件的演化脈絡也并不是一件容易的事情。構建事件演化關系模型,基于新聞事件的多層次特性,通過計算機技術發(fā)掘事件之間存在的演化關系,是本文對新聞事件演化建模的研究方向。
一個完整的新聞事件演化方式可以是由一個事件分裂成多個事件,也可能是多個事件相融合并合成一個事件,還可能是由單一的一個事件演變發(fā)展成另一個單一事件。確定新聞事件之間存在演化關系,應滿足兩個條件:事件發(fā)生的時間具有先后關系;事件內容之間相互關聯(lián),其中,事件發(fā)生的時間所構成的先后關系,表示該事件的演化方向。
在對新聞事件演化進行研究前,應該收集新聞話題,并生成新聞事件集,事件集中統(tǒng)一新聞話題的報道應為兩篇以上篇。本文主要對事件演化關系建模方法進行研究,基于避免出現(xiàn)報道聚類誤差的原因,新聞話題的收集采取人工方式進行,最終生成事件集。
就計算目標來說,文本中的特征關聯(lián)度和互信息相似度較高,模糊匹配策略可以用于計算事件命名實體間的關聯(lián)度,當相同的命名實體都在一個事件中有出現(xiàn),則稱之為一次關聯(lián)。因此,本文把在一個文本中共同出現(xiàn)兩個不同特征的概率進行替換,替換對象是它們在一個完整事件集中共同出現(xiàn)的事件個數(shù),對特征在事件中的權重值進行計算,具體公式為:
其中,w(fA)表示特征fA在事件A中權重;rela(fA,fB)表示事件A中特征fA與事件B中特征fB的關聯(lián)度;cooc(fA,fB)表示特征fA與fB共同出現(xiàn)的事件個數(shù);表示特征fA出現(xiàn)的事件數(shù);sioc(fA)表示特征fA單獨出現(xiàn)的事件數(shù)。
4.1 實驗資料
實驗資料是利用網絡從中國新聞網中采集的2009 年2月22日至4月22日關于山西2009年“2·22屯蘭礦難”的相關報道,共計682篇。本研究對這一新聞話題所涉及的各個事件進行匯總,共158篇報道,構成8個事件,見表1。
表1 2009年山西“2·22屯蘭礦難”話題涉及事件
以表1中的事件發(fā)生的時間為基礎,由相關專家小組,分析并構建出具體的事件演化關系,同時對演化關系的正確性和完整性進行驗證。
4.2 實驗結果分析
本文中演化關系模型的主要對象是新聞事件的相似性、新聞事件命名實體特征關聯(lián)度(CS*FA),參與比較的關系模型有:CS模型、CS*DF模型以及事件內容相似性模型。計算演化關系模型中不同閾值λ下的召回率、準確率,事件演化關系模型的系統(tǒng)性能隨著實體特征關聯(lián)度、新聞報道接近度的增加而增加,CS*FA關系模型表現(xiàn)最為明顯,具體如圖1所示。
本文提出的事件關系建模方法中,在進行自動的演化關系探測時,當λ為0.04時,分別有正確演化關系線10條,錯誤演化關系線3條,丟失的演化關系線6條,如圖2所示。
現(xiàn)代社會中,網絡上的新聞事件報道數(shù)量巨大,為了能夠及時、準確地了解新聞事件的來由與發(fā)展歷程,本文基于事件的內容相似性、時間關系、命名實體以及關聯(lián)信息構建新聞演化關系模型。本文所研究的事件演化關系建模方法,可以將同一新聞話題中各事件之間的潛在演化發(fā)展脈絡良好呈現(xiàn)出來。
參考文獻
[1]張輝,李國輝,徐新文,等.詞網絡的新聞事件關聯(lián)建模[J].國防科技大學學報,2014,4:169-176.
[2]張凱.新聞演化規(guī)律的動力學與可視化——以三個典型新聞事件為例[J].新聞與傳播研究,2014,02:80-99,128.
[3]蔣華.演化優(yōu)化與演化建模方法及其應用研究[D].武漢大學,2013.
[4]王偉,趙東巖.中文新聞事件本體建模與自動擴充[J].計算機工程與科學,2012,4:171-176.
作者簡介:彭冰,主任記者,工作單位:工人日報社,研究方向:新聞傳播,現(xiàn)當代文學等
中圖分類號G2
文獻標識碼A
文章編號1674-6708(2015)141-0013-02