歐偉明 翟利志 路瑜亮 周云 萇軍紅 韓彥忠
摘要:通過構建新聞專題的事件脈絡,可以輔助讀者識別事件演化發(fā)展階段,把控事件的全局性信息。隨著專題事件的演化發(fā)展,相關新聞會持續(xù)不斷出現(xiàn)對事件進行報道。為了保障事件脈絡的完整性和時效性,需要從最新新聞數(shù)據(jù)流中追蹤相關新聞,對事件脈絡進行持續(xù)跟蹤更新。提出了一種面向新聞的專題事件脈絡持續(xù)跟蹤構建方法,采用K-means聚類和基于凝聚式的層次聚類方法檢測事件發(fā)展階段,構建以時間為主線、各發(fā)展階段為分支的事件發(fā)展演化脈絡,保障事件脈絡的完整性和連續(xù)性;綜合實體、關鍵詞和文本3個維度的相似度特征從新聞數(shù)據(jù)流中持續(xù)跟蹤與專題事件相關的新聞數(shù)據(jù),將追蹤到的新聞事件同時更新到事件文本向量和已構建的事件脈絡中,實現(xiàn)對事件脈絡的持續(xù)跟蹤構建。
關鍵詞:事件脈絡;新聞專題;事件跟蹤;文本聚類
中圖分類號:TP319文獻標志碼:A文章編號:1008-1739(2022)20-61-8
隨著互聯(lián)網(wǎng)技術的發(fā)展,人們很容易獲取關于事件詳情的新聞信息。海量且紛繁的新聞使讀者容易迷失在局部信息中,難以獲得總結性的信息,喪失對信息的全局把控。因此,檢測新聞事件演化發(fā)展的關鍵階段,通過事件之間存在的時序以及邏輯關系等特征,形成整個新聞事件在發(fā)生與發(fā)展全生命周期中的一個完整的多層次事件脈絡,是迫切需要解決的問題。Nallapati等[1]提出事件脈絡的觀點,通過事件模型捕捉新聞主題中事件的豐富結構及其依賴性。隨著專題事件的持續(xù)演化發(fā)展,會持續(xù)不斷出現(xiàn)對事件的報道?,F(xiàn)有的事件脈絡構建研究都是基于已有的歷史新聞構建事件脈絡,沒有對新聞數(shù)據(jù)進行持續(xù)跟蹤,不能持續(xù)跟進事件發(fā)展演化動態(tài),構建的事件脈絡也不能持續(xù)自動更新,事件脈絡缺乏時效性和完整性。
針對上述問題,本文提出了一種面向新聞專題的事件脈絡持續(xù)跟蹤構建方法。首先,對已有專題事件的相關新聞文本進行分詞等預處理;其次,采用K-means聚類和基于凝聚式的層次聚類方法檢測事件發(fā)展階段,構建以時間為主線,各發(fā)展階段為分支的事件發(fā)展演化脈絡,保障事件脈絡的完整性和連續(xù)性;然后,綜合實體、關鍵詞和文本3個維度的相似度特征,從新聞數(shù)據(jù)流中持續(xù)跟蹤與專題事件相關的新聞數(shù)據(jù),將追蹤到的新聞事件同時更新到事件相似庫和已構建的事件脈絡中,實現(xiàn)對事件脈絡的持續(xù)跟蹤構建。
針對新聞信息嚴重過載,使得人們難以掌握事件發(fā)展演化關鍵階段的問題,國內(nèi)很多學者開始研究事件脈絡構建方法,以便于全局把控事件的發(fā)展演化過程。模型按照所用到的算法,可分為2類:基于聚類算法的脈絡分析模型和基于圖優(yōu)化算法的脈絡分析模型。
Shou等[2]基于聚類算法對推文進行聚類,通過TCV-Rank摘要技術生成任意時間段的在線摘要和歷史摘要,并自動生成在線和歷史摘要時間軸。Vossen等[3]提出了一種將文本相似度、時間相似度和實體相似度相結合的檢索事件相關新聞的相似度計算方法,通過在事件的時間軸上添加與高潮點相關的橋接關系形成事件脈絡,提供了一個將事件時間序列表示為故事線的形式化模型,并實現(xiàn)了從大量新聞流中為該模型提取數(shù)據(jù)。Bin等[4]提出了一種基于多線索的細粒度事件摘要方法,構建一個個細粒度的、進化的、關聯(lián)豐富的事件脈絡。Liu等[5]采用2層文檔聚類方法生成故事樹,自動將數(shù)據(jù)流聚集成事件,同時將樹中相關的事件連接起來,描述事件的發(fā)展脈絡。Lin等[6]通過圖優(yōu)化算法從微博數(shù)據(jù)中提取事件脈絡,有效改善脈絡不連貫問題。Shen等[7]利用圖優(yōu)化算法對網(wǎng)絡新聞多文檔摘要建模,建立各摘要之間的聯(lián)系。付佳兵等[8]提出了一種基于詞覆蓋的新聞事件脈絡鏈構建方法,利用新聞的評論信息來定位新聞事件的轉折點,用主題相似與稀疏差異的思想以及RPCA方法對文檔進行邏輯建模,利用隨機游走以及圖遍歷的方法,量化并生成可解釋且具有很好邏輯連貫性的脈絡鏈。陳黎明等[9]對相關新聞進行動態(tài)追蹤時,根據(jù)新聞關鍵詞的詞頻-逆類別頻率(TF-ICF)和熱度對事件關鍵詞進行反饋更新,采用有主干和分支的故事樹結構展現(xiàn)事件發(fā)展脈絡,利用新聞熱詞定位事件發(fā)展的關鍵節(jié)點,生成故事的主干結構。樊笑冰等[10]提出基于命名實體敏感的分層新聞故事線生成方法,在無監(jiān)督的情況下充分利用新聞信息構造層次化、多視點的事件脈絡。
上述事件脈絡構建方法都是面向當前的歷史新聞,沒有持續(xù)跟蹤最新相關新聞數(shù)據(jù),不能持續(xù)跟進事件發(fā)展演化動態(tài),構建的事件脈絡缺乏完整性。事件追蹤作為傳統(tǒng)TDT的子任務,對新聞媒體信息流進行已知話題的持續(xù)跟蹤,被廣泛用于獲取事件相關的信息。馮軍等軍[11]提出了基于樸素貝葉斯網(wǎng)絡模型的微博話題追蹤算法,在改進型DF的文本特征選擇方法的基礎上,通過構建樸素貝葉斯網(wǎng)絡模型,設計并實現(xiàn)對微博話題的追蹤系統(tǒng)。陳黎明等[12]提出了一種基于關鍵詞的話題追蹤方法,利用有話題傾向性的關鍵詞來表示新聞文本進而提升話題追蹤效果,并采用基于詞活力的更新策略來動態(tài)調(diào)整話題關鍵詞。屈慶濤[13]使用N-Gram語言模型,利用新聞報道中詞語間的語序關系進行文本表示,根據(jù)貝葉斯分類算法進行話題追蹤。
相比于以往的事件脈絡構建方法,本文綜合實體、關鍵詞和文本3個維度的相似度特征對新聞事件持續(xù)跟蹤,并將追蹤到的新聞事件同時更新到事件相似庫和事件脈絡中,實現(xiàn)對事件脈絡的持續(xù)跟蹤構建,更能體現(xiàn)事件演化發(fā)展的完整性。
2.1術語定義
陳黎明等[9]對事件脈絡相關的術語做了定義,具體如下所示。
4.2事件脈絡跟蹤更新
構建事件脈絡后,從新增新聞數(shù)據(jù)流中跟蹤與該專題事件相關的新聞數(shù)據(jù),并將追蹤到的新聞數(shù)據(jù)更新到已構建的事件脈絡中。從新聞網(wǎng)站上爬取的32篇新聞數(shù)據(jù)作為干擾新聞數(shù)據(jù),將這些干擾數(shù)據(jù)與新聞專題的17篇新增新聞數(shù)據(jù)合并在一起作為新增新聞數(shù)據(jù)流,進行事件脈絡跟蹤更新實驗。
圖4展示了從新增新聞數(shù)據(jù)流中追蹤到相關新聞數(shù)據(jù)后,對事件脈絡的更新結果。實驗結果顯示,這17篇新聞數(shù)據(jù)均被追蹤到“馬來西亞亞航客機失聯(lián)”新聞專題中,在新事件脈絡中增加了2個新的子事件“印尼調(diào)查員駁斥亞航客機墜海前爆炸之說”和“亞航客機事故調(diào)查將涉及傳感器失靈問題”,并將追到的新聞數(shù)據(jù)更新到已有的子事件中,實現(xiàn)了對事件脈絡的持續(xù)跟蹤構建。
針對新聞專題事件脈絡的完整性和時效性問題,提出了一種事件脈絡持續(xù)跟蹤構建方法,通過聚類算法將零散的新聞聚合成事件分支和子事件,實現(xiàn)多層次的事件脈絡構建。通過綜合實體、關鍵詞和文本3個維度的相似度特征從新聞數(shù)據(jù)流中持續(xù)跟蹤與專題事件相關的新聞數(shù)據(jù),將追蹤到的新聞事件同時更新到事件文本向量和已構建的事件脈絡中,實現(xiàn)對事件脈絡的持續(xù)跟蹤更新,從而可以輔助讀者實時掌握新聞專題的演化、發(fā)展、變化的全周期過程。
當前,事件脈絡構建方法的聚類效果并不理想,該方法將不同的子事件或事件分支劃分為一個子事件或事件分支,導致事件階段缺失。后續(xù)需要針對該問題對事件脈絡構建方法進行進一步研究,以構建出一個兼顧低冗余事件階段和完整事件階段的事件脈絡。
[1] NALLAPATI R,F(xiàn)ENG A, PENG F C,et al.Event Threading Within News Topics[C]//Proceedings of the Thirteenth ACM on International Conference on Information and Knowledge Management, Washington D.C.: ACM, 2004: 446-453.
[2] SHOU L D,WANG Z H,CHEN K,et al. Sumblr: Continuous Summarization of Evolving Tweet Streams[C]//International ACM SIGIR Conference on Research & Development in Information Retrieval.NewYork:ACM, 2013:546-558.
[3] VOSSEN P,CASELLI T,KONTZOPOULOU Y. Storylines for Structuring Massive Streams of News[C]//First Workshop on Computing News Storylines.Beijing:ACL,2015:40-49.
[4] BIN G,OUYANG Y,ZHANG C,et al. CrowdStory: Fine-grained Event Storyline Generation by Fusion of Multi-modal Crowdsourced Data[C]//Proceedings of ACM Interactive,Mobile,Wearable and Ubiquitous Technologies. Las Vegas:ACM,2017:287-299.
[5] LIU B,NIU D, LAI K F,et al.Growing Story Forest Online from Massive Breaking News[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management.New York:ACM,2017:267-279.
[6] LIN C, LIN C, LI J X, et al. Generating Event Storylines from Microblogs[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management.NewYork:ACM, 2012:389-402.
[7] SHEN C,LIT.Multi-document Summarization via the Minimum Dominating Set[C]//The 23rd International Conference on Computational Linguistics.Beijing:Association for Computational Linguistics,2010:467-479.
[8]付佳兵,董守斌.一種基于詞覆蓋的新聞事件脈絡鏈構建方法[J].北京大學學報(自然科學版),2016,52(1):104-112.
[9]陳黎明,黃瑞章,秦永彬,等.面向新聞事件的故事樹構建方法[J].計算機工程與設計,2020,41(7):1910-1919.
[10]樊笑冰,饒元,王碩,等.基于命名實體敏感的分層新聞故事線生成方法[J].中文信息學報,2021,35(1):113-124.
[11]馮軍軍,賀曉春,王海沛.基于樸素貝葉斯網(wǎng)絡的微博話題追蹤技術研究[J].計算機與數(shù)字工程,2017,45(11): 2244-2247.
[12]陳黎明.面向網(wǎng)絡輿情的話題檢測與追蹤方法研究[D].貴陽:貴州大學,2020.
[13]屈慶濤,劉其成,牟春曉.基于N-Gram語言模型的并行自適應新聞話題追蹤算法[J].山東大學學報(工學版), 2018,48(6):37-43.
[14]石劍飛,閆懷志,牛占云.基于凝聚的層次聚類算法的改進[J].北京理工大學學報,2008(1):66-69.
[15]黃瑞章,劉于雷,梁山雪.一種基于標題高頻切分的新聞熱點短語提取方法:CN107562843A[P].2018-01-09[2022-07-10].