于 強,徐志棟,時 斌,魏 偉,任鵬程
1(中國石油大學(華東)計算機科學與技術學院,青島 266580)
2(中國人民解放軍國防大學 國家安全學院,北京 100091)
3(青島海爾空調(diào)電子有限公司,青島 266101)
4(青島海爾智能技術研發(fā)有限公司,青島 266101)
信息技術的發(fā)展促進交流方式的轉變,眾多網(wǎng)絡媒體、社交平臺成為大眾了解信息、獲取信息的重要來源,催生了網(wǎng)絡輿情這一社會輿論獨特表現(xiàn)形式的產(chǎn)生與發(fā)展.網(wǎng)絡輿論具有強大的社會監(jiān)督能力[1,2],但如果網(wǎng)絡輿論失控,將會給社會安定帶來不利影響.在眾多類型的人類知識中,事理邏輯是一種非常重要且普遍存在的知識,許多人工智能應用依賴于對事理邏輯知識的深刻理解,但目前的研究缺少針對輿情事件因果動態(tài)演化過程的分析,難以對輿情事件發(fā)展方向進行有效預測[3].本文依據(jù)采集的輿情數(shù)據(jù)挖掘因果事件邏輯,構建事理知識圖譜,通過文本向量化融合增強事理知識圖譜的泛化性.針對目標事件,實現(xiàn)了根據(jù)事理知識圖譜中相似事件的演化方向,預測其未來發(fā)展.
目前在網(wǎng)絡輿情事件推演方面已經(jīng)出現(xiàn)過諸多研究,前期學者們多利用模糊推理作為演化規(guī)則來探究輿情的演化規(guī)律.比如張春嬌[4],黨小超等[5]分別考慮信息在傳遞過程中普遍存在模糊性的特點,結合元胞自動機理論和模糊推理算法建立了網(wǎng)絡輿情傳播的模糊元胞自動機模型;Ding 等[6]利用模糊元胞自動機分析了不同觀點持有者對輿情發(fā)展的影響.然而基于推理規(guī)則的方法往往停留在對輿情熱度、情感等表象的研究,忽視了核心輿情事件發(fā)展規(guī)律,泛化性難以保證.近年來得益于計算機技術有力發(fā)展,學者們開始運用大數(shù)據(jù)、人工智能技術研究網(wǎng)絡輿情演化規(guī)律.比如蘭月新等[7]定性的分析了大數(shù)據(jù)環(huán)境下網(wǎng)民情緒特征和分類,構建了網(wǎng)民情緒演化機理微分方程模型分析網(wǎng)民情緒演化趨勢;曾子明等[8]等構建了基于BP 神經(jīng)網(wǎng)絡的輿情熱度趨勢預測模型用于預測突發(fā)傳染病事件的發(fā)展趨勢;Yang 等[9]利用多類別支持向量機進行觀點挖掘以及情感分析,實現(xiàn)了對輿情的趨勢以及熱度預測,但該類方法在可解釋性上存在欠缺.
哈爾濱工業(yè)大學劉挺教授團隊率先提出“事理圖譜(Event Logic Graph,ELG)”[10,11]概念,其本質(zhì)是事件邏輯知識庫,用于揭示現(xiàn)實世界事件的演化模式和發(fā)展邏輯,對于認識人類行為和社會發(fā)展變化規(guī)律具有重要的意義.目前基于事理圖譜進行輿情事件預測研究正處于起步階段,單曉紅等[12]、夏立新等[13]、Li等[14]在這一領域做出了一些探索,但在輿情邏輯事件抽取與泛化方面仍有待加強.本文在傳統(tǒng)通過模式匹配抽取事件基礎上,研究了基于神經(jīng)網(wǎng)絡的事件識別與抽取方法,優(yōu)化了事理知識圖譜中邊權重計算方式,實驗結果證明本文提出的輿情推演方法有效,可以較好地揭示輿情事件演化規(guī)律,從而為輿情管控提供支持.
基于事理知識圖譜的輿情推演方法如圖1所示.
圖1 輿情推演流程
首先處理原始輿情語料,識別、抽取出因果事件元組;其次對事件進行融合減少冗余,完成事理知識圖譜構建與泛化;最終根據(jù)圖譜中事件節(jié)點的演化規(guī)律對目標輿情事件的可能發(fā)展動向進行研判.
本文以因果關系邏輯為基礎構建事理知識圖譜,將其分為了兩個過程.首先對文本進行分析,判斷識別是否含有因果邏輯,然后再抽取事件元組.
1)因果邏輯識別
我們將事件因果關系邏輯識別作為文本分類任務處理,設計了基于BERT的因果邏輯事件識別模型.BERT[15]是谷歌團隊于2018年底發(fā)布的基于雙向Transformer[16]的大規(guī)模預訓練語言模型,在多項自然語言處理任務中獲取了最好效果.
我們對標準的BERT 模型進行了改進,在BERT模型輸出層取得所有輸入字符對應的輸出向量后對接文本分類器,分類器選擇包括長短時記憶網(wǎng)絡BiLSTM、循環(huán)卷積神經(jīng)網(wǎng)絡RNN,用于對BERT 輸出的向量再次進行計算,判斷其是否含有因果邏輯語義.進一步,我們使用了原始的BiLSTM、RNN 以及Transformer模型處理相同的實驗數(shù)據(jù),以對比分析BERT 模型的加入以及不同BERT 模型改進方式對結果造成的影響,各個模型的準確率在實驗部分給出.實驗結果顯示BERT-BiLSTM 模型能夠得到最好的識別分類效果,后續(xù)處理分析將基于BERT-BiLSTM 模型處理結果進行.
用于因果邏輯識別的BERT-BiLSTM 模型如圖2所示.
對于任意輸入文本序列,在完成數(shù)據(jù)清洗之后處理為單個字符的形式輸入模型,便可自動判斷其是否屬于因果邏輯性描述.
圖2 因果邏輯識別
從圖2可以明顯看到BERT 模型由嵌入層、編碼層、輸出層3 部分構成,關鍵部分是雙向Transformer結構,實質(zhì)是一個基于“自注意力機制”的深度網(wǎng)絡,即通過計算同一個句子中的詞與詞之間的關聯(lián)程度調(diào)整權重系數(shù)矩陣以表征詞:
其中,Q,K,V是字向量矩陣,dk是Embedding的維度,多頭注意力機制通過多個不同的線性變化對Q,K,V進行投影,通過公式(2)(3)將不同Attention結果拼接起來.
其中,W是權重矩陣,由此模型可以實現(xiàn)對文本重點特征的聚焦提取.編碼器結構如圖3所示.
圖3 Transformer 編碼器
2)因果邏輯抽取
在篩選得到含有因果邏輯事件描述的文本之后,本文通過BiLSTM-CRF[17]算法獲取因果事件元組.BiLSTM-CRF 算法已被成功應用于實體命名識別工作中,取得了良好的效果.而元事件抽取與實體命名識別有許多共通之處,所以本文將BiLSTM-CRF 算法引用到元事件抽取過程中.類比于命名實體抽取方法,本文采用序列標注任務中經(jīng)典的BIO 標注體系[18]對數(shù)據(jù)進行標注,具體使用的標注標簽如下:
(1)詞語的位置:B (開始),I (內(nèi)部),E (結束);
(2)語義角色信息:C (原因),R (結果);
(3)事件的序號:1–N(每個對應序號為同一事件的因、果);
(4)其他詞語:O.
例如,對于“受特大暴雨影響,242 國道洛南段部分路段被沖毀.”,標注結果如表1所示.因果邏輯事件抽取模型需要對輸入序列中的每一個詞語進行類別判斷,然后為其輸出一個類別標簽,標簽代表了序列的類別和邊界,元事件抽取過程如圖4所示.
表1 標注示例
圖4 元事件抽取過程
本文將提取到的元事件轉化為圖譜“因 →果”形式,即以事件為節(jié)點,因果關系為邊構建事理知識圖譜.事理知識圖譜可以表示為EventGraph={Nodes,Edges,Trans forms},其中Nodes={n1,n2,···,nk}為節(jié)點,即元事件集合;Edges={e1,e2,···,ek}為邊,即因果關系,每一條邊都是由原因事件指向結果事件;Trans forms={t1,t2,···,tk}為邊的權重,用于計算某一原因事件造成特定結果事件的可能性.
對于抽取結果中重復的因果事件描述可能造成圖譜冗余問題,本文分兩種情形處理:
① 重復描述同一輿情事件存在的因果邏輯.
② 屬于不同輿情事件但內(nèi)容相同的因果邏輯,例如“暴雨引發(fā)山體滑坡”事件,在“2019年7月上中旬長江中下游洪水”,“四川‘8·20’強降雨特大山洪、泥石流災害”等輿情事件中都存在.
我們將事件文本向量化處理,通過相似度計算解決以上兩種問題.具體方法如下:對所有輿情事件進行分詞處理獲得原始語料數(shù)據(jù),使用Word2Vec[19]模型處理所有原始數(shù)據(jù),得到單詞向量,使用事件文本組成詞的向量和平均值作為事件向量,公式為:
其中,wi是事件ni的組成詞匯,wivec為對應單詞向量,nivec為事件節(jié)點ni的向量.
進一步,計算事件之間向量余弦相似度[20],計算公式為:
其中,Sim(ni,j)為事件節(jié)點ni與nj的相似度.若兩個事件相似度高于預定閾值:
針對情形①,刪除重復描述,即同一事件內(nèi)每種因果邏輯只保留一條記錄;
針對情形②,合并為同一事件節(jié)點,并增加對應邊的權重.如圖5所示,陰影節(jié)點表示兩個事件高度相似,權重代表某一事件發(fā)生過的次數(shù).
圖5 相似事件歸并
輿情事件推演是在已知某一事件發(fā)生之后,推測它可能導致的后續(xù)事件,本文構建的輿情推演方法具體步驟如圖6.
圖6 事件推演
為保持一致,對于目標輿情事件我們使用第3.2 節(jié)中同樣的向量化方法進行表示.遍歷已構建的事理知識圖譜,基于式(5)計算目標輿情事件與圖譜各個節(jié)點的相似度,找到相似度最高的節(jié)點.如果相似度最大值小于預設閾值,說明圖譜中沒有目標事件對應節(jié)點,無法進行推演.否則根據(jù)圖譜中后續(xù)節(jié)點推測現(xiàn)實中可能發(fā)生的事件.若某節(jié)點有多個后續(xù)事件,根據(jù)邊權重系數(shù)計算可能發(fā)生概率.如圖7所示,在“泥石流發(fā)生”所引發(fā)的后續(xù)事件中,“淹沒村鎮(zhèn)”發(fā)生概率為4/11,且發(fā)生可能性低于 “沖毀公路設施”.
圖7 事件發(fā)生概率計算示例
相似度閾值的設置對模型推演效果有著顯著的影響.若相似度閾值設置過小會造成事件過度匹配,即事理知識圖譜中不存在的事件記錄匹配到了事件知識,造成錯誤的推演結果;相反,若相似度閾值設置過大會造成事件欠缺匹配,即事理知識圖譜存在的事件記錄未匹配到事件知識,同樣造成推演結果的錯誤.本文在進行多次實驗之后選定相似度閾值為0.72,相關實驗過程及結果見第4 節(jié)的輿情推演實驗部分.
自然災害給生產(chǎn)活動帶來巨大損失同時,還會引發(fā)社會輿論的關注.災害輿情具有突發(fā)性強、內(nèi)容復雜、信息數(shù)量龐大等特點,當自然災害發(fā)生時,積極有效的輿情應對工作對救災工作順利開展、社會維持穩(wěn)定和增強政府公信力有著重要意義.
本文選取了2019年引發(fā)輿論關注的全國十大自然災害事件[21],包括“1909 號超強臺風‘利奇馬’”、“6月上中旬廣西廣東江西等6 省(區(qū))洪澇災害”、“貴州水城‘7·23’特大山體滑坡災害、“四川‘8·20’強降雨特大山洪泥石流災害”、“7月上中旬長江中下游洪水”、“南方地區(qū)夏秋冬連旱”、“四川長寧6.0 級地震”、“四川木里‘3·30’森林火災”、“山西鄉(xiāng)寧‘3·15’滑坡災害”、“青海玉樹等地雪災”.使用網(wǎng)絡爬蟲工具獲取輿情數(shù)據(jù)信息,共搜集12000 余條輿情數(shù)據(jù),使用本文提出的方法,構成事理知識圖譜共含有1256個節(jié)點(事件)、842 條邊(因果關系),部分實例如圖8.
圖8 自然災害事理知識圖譜(部分)
1)因果邏輯輿情事件識別
本文搜集了2020年“南方水災”這一引發(fā)輿情高度關注的自然災害事件信息,對數(shù)據(jù)進行人工標注構建測試數(shù)據(jù)集,共包含3000 余條輿情事件文本記錄,根據(jù)包含因果邏輯與否約各1500 條.數(shù)據(jù)中包括“content”的輿情事件內(nèi)容字段以及“l(fā)abel” 標注字段(0表示非因果邏輯,1表示包含因果邏輯).實驗對比基準文本分類模型與本文所使用的方法在數(shù)據(jù)集的效果,實驗結果如表2所示.
表2 模型結果對比
由表2結果可以看出,基于標準BERT 模型改進的BERT-RNN、BERT-BiLSTM 相對于基準RNN、Bi-LSTM 模型都取得了更好的識別結果,說明在此數(shù)據(jù)集上BERT 模型憑借其創(chuàng)新的訓練模式以及參數(shù)體量的優(yōu)勢能更加有效的識別出文本特征信息,從而取得更佳的分類效果.由于本數(shù)據(jù)集中數(shù)據(jù)信息都是完整的輿情事件記錄,文本長度較大,RNN 模型以及BERT-RNN 模型都未取得較好的效果,而LSTM 由于門控機制的存在,相對RNN 能夠更加高效的捕捉更長距離的依賴,實現(xiàn)了更好的分類效果,最終BERTBiLSTM 通過結合BERT 模型與BiLSTM 模型的優(yōu)勢,取得了最優(yōu)的分類效果.
2)輿情推演
鑒于在第3.3 節(jié)中介紹的輿情推演方法與某些推薦算法的工作過程存在異曲同工之處,本文移植了推薦算法的常用評價指標MRR[24]對輿情推演結果做出評價.
MRR使用正確檢索結果值在檢索結果中的排名來評估檢索系統(tǒng)的性能,是一個國際上通用的對搜索算法進行評價的機制,其計算公式為:
其中,Q為樣本query集合,|Q|表示Q中query個數(shù),ranki表示在第i個query中,第1個正確答案的排名.比如某測試集有3個query,結果中的第一個正確答案分別被排在第4,2,5 位,則該系統(tǒng)的MRR得分為(1/4+1/2+1/5)/3=0.3177.
在本文中基于已構建事理知識圖譜為測試事件(因)推測可能后續(xù)事件(果),出現(xiàn)多個推測結果情況時則是根據(jù)邊的權重系數(shù)大小進行排序.我們對2020年“南方水災”數(shù)據(jù)中的因果信息進行了人工篩選與抽取,共得到166個因果事件對作為測試數(shù)據(jù).使用MRR評價指標進行評分,最高準確率得分為0.716,這證明了本文所提出方法的有效性.
同時,本文分析了使用各不同因果識別模型以及不同事件相似度閾值設置下對模型結果造成的影響,圖9顯示了不同相似度閾值設置下模型推演結果準確率的變化.
圖9 相似度閾值-準確率影響
通過實驗結果表明,相似度閾值的變化會對模型推演性能造成一定的影響.若相似度閾值設置過小會造成事件過度匹配;相反,若相似度閾值設置過大會造成事件欠缺匹配.在設置事件相似度計算閾值為0.72時可以在本文數(shù)據(jù)集上取得最優(yōu)結果.
本文同時分析了使用不同事件識別模型對最終推演結果的影響,實驗過程事件相似度閾值設置為0.72,結果如圖10所示.
圖10 事件識別模型對應模型推演結果準確率
結果表明,不同因果邏輯事件識別模型處理結果的差異進一步影響到了因果元事件抽取效果及事理知識圖譜的構建,并最終擴散到模型推演效果.選擇更好的因果邏輯事件識別模型可以增強事理知識圖譜對于輿情事件邏輯信息的表達能力,從而提高輿情推演結果的準確率.
本文提出了一種基于事理知識圖譜的輿情事件推演分析方法,具體介紹了因果邏輯事件識別與提取、事理知識圖譜的構建、輿情事件演化分析方法,并通過實驗驗證了本文提出方法的有效性與先進性.輿情事件分析作為輿情治理的核心問題之一,研究輿情事件演化過程對于維護社會長治久安具有重要意義.
誠然,本文工作仍有可以改進之處,主要在于因果邏輯抽取層面,未來工作將進一步探討如何更加準確地對事件邊界進行界定.