沙海潮 ,馮 鈞 ,杭婷婷 ,成建國
(1. 河海大學(xué)計算機與信息學(xué)院,江蘇 南京 210098;2. 水利部信息中心,北京 100053)
嘉陵江近年頻繁發(fā)生鉈污染突發(fā)水事件引起廣泛關(guān)注。當(dāng)下,互聯(lián)網(wǎng)信息具有透明公開、易于收集和充分反映民眾態(tài)度的特點,對互聯(lián)網(wǎng)大數(shù)據(jù)進行分析逐漸成為探究某一事件輿情的主要手段,在輔助處理突發(fā)水事件方面也起到不可或缺的作用。氣象數(shù)據(jù)是分析和描述區(qū)域氣候特征及其變化的資料,能夠客觀真實地反映事件發(fā)生的自然場景??紤]疫情前后,相關(guān)行業(yè)態(tài)勢也與事件發(fā)展息息相關(guān)。對于處理涉水突發(fā)事件,成建國等[1]利用熱詞和情感詞包,構(gòu)建情感向量,分析把握網(wǎng)絡(luò)輿情傾向。張穎[2]綜合文獻和案例分析法及定量研究法對一系列涉水事件的網(wǎng)絡(luò)輿情進行梳理研究。
目前,網(wǎng)絡(luò)輿情情感分析常用的方法主要有基于情感詞典[3]、機器學(xué)習(xí)[4]和深度學(xué)習(xí)[5-6]的方法?;谇楦性~典的方法,需要充分標(biāo)注好情感詞典,準(zhǔn)備語法規(guī)則,利用知識庫進行整合計算,如:王燦偉等[7]將情感符號與詞典結(jié)合計算微博中情感值,并且實現(xiàn)主題歸類;Ebrahimi 等[8]提出將情感極性與對象和立場融合,通過對數(shù)線性聯(lián)合建模將三者聯(lián)系起來。基于傳統(tǒng)機器學(xué)習(xí)的情感分析方法已經(jīng)普遍應(yīng)用,該類方法在相關(guān)研究領(lǐng)域取得不錯效果,主要通過統(tǒng)計文本中的特征,發(fā)現(xiàn)其與分類結(jié)果的關(guān)系,如:奠雨潔等[9]利用不同特征的提取方法,使用 SVM、隨機森林和梯度提升決策樹對特征進行立場檢測,最后結(jié)合各類分類器進行融合;Pang 等[10]結(jié)合樸素貝葉斯、最大熵及支持向量機多種機器學(xué)習(xí)方法進行文本的情感分類?;谏疃葘W(xué)習(xí)的方法主要將各類文本分詞轉(zhuǎn)化為詞向量的形式,通過神經(jīng)網(wǎng)絡(luò)提取特征信息,完成文本的情感分析,如:張仰森等[11]通過 Word2Vec 詞向量映射,提出利用基于 LSTM(Long Short-Term Memory)模型改進的 Bi-LSTM 實現(xiàn)雙向注意力機制,進行文本情感分析。
由于 Bi-LSTM 模型對文本情感分析具有優(yōu)秀的表現(xiàn),而 Hacker news 事件熱度排名算法在突出熱門事件與遴選用戶關(guān)注度較高的事件時表現(xiàn)出色,因此,本研究選取 2021 年嘉陵江鉈污染突發(fā)水事件進行網(wǎng)絡(luò)輿情分析,并結(jié)合該流域氣象數(shù)據(jù)及相關(guān)涉事企業(yè)、地區(qū)疫情信息進行整體性的綜合分析。
事件熱度是整體事件推文熱度的集合,事件推文熱度的依據(jù)是微博、今日頭條、微信等相關(guān)自媒體平臺中,作者發(fā)表的博客、新聞、文章等受到關(guān)注,點贊,轉(zhuǎn)發(fā)的程度評價。
目前學(xué)術(shù)界沒有確定的標(biāo)準(zhǔn)指標(biāo)體系定量描述事件推文熱度。本研究將以下 3 個方面作為熱度評價的一級指標(biāo)[12]:
1)作者特征熱度影響力。推文作者的個人信息對事件熱度有著比較重要的影響,例如微博大 V、官方賬號等作者的影響力要明顯強于普通用戶。Gupta 等[13]和 AI-Khalif 等[14]選擇作者粉絲數(shù)、是否被認證等作為參考特征。本研究在此基礎(chǔ)上對作者信息做進一步處理,選擇粉絲數(shù)、發(fā)博率、活躍天數(shù) 3 個指標(biāo)作為反映作者特征熱度影響力的二級指標(biāo)。
2)內(nèi)容特征熱度影響力。推文內(nèi)容自身對熱度影響力也有一定的貢獻價值。Wang 等[15]和 Castillo 等[16]678-680將文本統(tǒng)計特征和長度、所含標(biāo)簽數(shù)等作為評價指標(biāo)。本研究選擇字數(shù)和圖片充實度、出現(xiàn)及時性等指標(biāo)作為內(nèi)容特征熱度影響力的二級指標(biāo)。
3)傳播特征熱度影響力。推文傳播特征最能夠反映推文的影響力程度。Castillo 等[16]680-682選取 Tweet 轉(zhuǎn)發(fā)深度作為信息傳播特征,其中轉(zhuǎn)發(fā)的次數(shù)和節(jié)點數(shù)等參數(shù)作為影響力因子。本研究補充選取點贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù) 3 個指標(biāo)作為傳播特征熱度影響力的二級指標(biāo)[17]。
在比較各指標(biāo)相對重要性的情況下,建立事件熱度層次分析模型。通過文獻調(diào)研與專家調(diào)查法[18-19],依據(jù)比例標(biāo)度表,對事件推文熱度 A 設(shè)定一級指標(biāo) Bi和二級指標(biāo) Ci,具體指標(biāo)如表1 所示。
表1 事件推文熱度評價指標(biāo)
構(gòu)建完成的推文熱度 A 和一級指標(biāo)的判斷矩陣如下:
需要對判斷矩陣檢驗滿意一致性,一致性檢驗標(biāo)準(zhǔn)如下:
式中:λmax是矩陣的最大特征根;n 為矩陣的階數(shù);RI 為平均隨機一致性指標(biāo);CR 為一致性比率;CI為一致性指標(biāo)。
通過計算得出 CRA= 0.021 4,CRB1= 0.036 0,CRB2= 0.047 6,CRB3= 0.010 2,均通過一致性檢驗。計算得出事件推文熱度各層次權(quán)重,對應(yīng) A 和Bi的權(quán)重 WA,WB1,WB2,WB3分別為
本研究將利用 Hacker news 排名算法進行進一步的模型構(gòu)建,主要公式為
式中:r 為事件推文熱度;P 為推文得票數(shù);t 為天數(shù);G 為重力因子,通常設(shè)置 G = 1.8。
從式 (3) 可以看出:越短時間內(nèi)得票數(shù)越多的推文排名將會靠前,隨著時間增加,推文排名會逐漸下降。
本研究依據(jù)層次分析模型與各層次權(quán)重矩陣,在 Hacker news 算法上加以修改,利用時間因子特性構(gòu)建推文熱度模型,具體公式如下:
式中:rB1,rB2,rB3分別為作者、內(nèi)容和傳播特征影響力熱度。
利用式 (7) 進行數(shù)據(jù)標(biāo)準(zhǔn)化處理,將 3 類熱度數(shù)值限制在 0~1 之間,計算公式如下:
式中:x,F(xiàn) (x) 分別為標(biāo)準(zhǔn)化前后的熱度數(shù)值。計算事件推文總體熱度公式為
Bi-LSTM 是在單向 LSTM 基礎(chǔ)上改進而得的,LSTM 是一種時間遞歸神經(jīng)網(wǎng)絡(luò),由 Hochreiter 和 Schmidhuber[20]在1997 年提出,適用于處理和預(yù)測文本之間的聯(lián)系,被廣泛運用在情感分析領(lǐng)域。
LSTM 典型結(jié)構(gòu)如圖1 所示,包括:
圖1 LSTM 基本結(jié)構(gòu)
1)遺忘門。決定上一時刻單元 ct-1保持到現(xiàn)在時刻單元 ct的程度。
2)輸入門。該結(jié)構(gòu)決定輸入 Xt保留多少到下一時刻的 ct中。
3)輸出門。該結(jié)構(gòu)控制隱藏層 ht保存至下一單元的數(shù)值。
圖1 中:輸入 Xt為 Word2Vec 訓(xùn)練得出的參數(shù)矩陣;ht-1為上一時刻隱藏層輸入;ft,it,,ot均為中間狀態(tài)變量;ct,ht分別為進入下一 Bi-LSTM 單元的記憶層與隱藏層參數(shù);σ,tanh 分別表示 Sigmoid 與雙曲正切激活函數(shù);模型參數(shù)每次更新的計算復(fù)雜度為 O (w),其中 w = wf+ wi+ wc+ wo,wi,wo,wc,wf分別為輸入、輸出、記憶及隱藏單元具體參數(shù)數(shù)量, w 為各單元參數(shù)總和。
本研究利用關(guān)鍵詞查找等方法爬取涉水?dāng)?shù)據(jù)。在數(shù)據(jù)預(yù)處理中,利用 Jieba 分詞等操作,通過Word2Vec 模型進行語料的詞嵌入工作,將得到的詞向量作為 Bi-LSTM 輸入引入模型,涉水?dāng)?shù)據(jù)獲取與處理流程如圖2 所示。Word2Vec 包括 CBOW 和Skip-gram 2 種訓(xùn)練模型[21],本研究選用 Skip-gram模型進行訓(xùn)練。
圖2 數(shù)據(jù)獲取與處理流程
圖3 是本研究應(yīng)用中的基本 Bi-LSTM 模型結(jié)構(gòu)。Bi-LSTM 作為循環(huán)神經(jīng)網(wǎng)絡(luò)的拓展,將前向 LSTMl和后向 LSTMr相結(jié)合,前向 LSTM 單元輸出 hl,后向 LSTM 單元輸出 hr,最后拼接前后向隱藏層得到輸出 hc,進行邏輯回歸得到情感傾向。Bi-LSTM 可以包含前向和后向的語料信息,克服單向LSTM 只能寄存單向信息的弱點,在處理上下文隱藏信息關(guān)系中有更好的表現(xiàn)。該模型輸入為評論語料經(jīng) Word2Vec 訓(xùn)練成的隱藏層參數(shù)矩陣,輸出為二分類的語料情感傾向。
圖3 情感分析 Bi-LSTM 模型
數(shù)據(jù)推文采用網(wǎng)絡(luò)爬取百度、微博等媒體網(wǎng)站,以嘉陵江、鉈污染、隴南和漢中等關(guān)鍵字進行爬取,共獲取數(shù)據(jù) 4 901 條。經(jīng)整理,得到的數(shù)據(jù)集字段包括作者粉絲數(shù)、作者地區(qū)、文章內(nèi)容、點贊數(shù)、評論數(shù)和轉(zhuǎn)發(fā)數(shù)等。
根據(jù)作者地區(qū)信息,可知事件關(guān)注公眾的地區(qū)分布情況,具體分布如圖4 所示。從圖4 可以看出:華東、西北地區(qū)用戶關(guān)注度較高,占比共約為40%;東北地區(qū)用戶對該事件關(guān)注度較為薄弱;其他地區(qū)用戶關(guān)注度較為均衡。
圖4 事件推文數(shù)據(jù)集用戶地區(qū)分布
本事件輿情實驗測評數(shù)據(jù)采用 NLPCC2013 和2014 中文評論情感評測任務(wù)公共數(shù)據(jù)集。該實驗數(shù)據(jù)集主要來自新浪微博,每個數(shù)據(jù)集按一定比例分為訓(xùn)練集和測試集。原數(shù)據(jù)集共分為 happiness,like,anger,sadness,fear,disgust,surprise,none 等 8 種情感標(biāo)簽。本研究將 happiness 和 like 作為正面情感,anger,sadness,fear,disgust 和 surprise,作為負面情感,具體數(shù)據(jù)集如表2 所示。
表2 事件輿情模型測評數(shù)據(jù)集
同時,實驗采集嘉陵江鉈污染事件有關(guān)新浪微博評論 1 218 條,今日頭條、百度等新聞平臺評論1 582 條,具體內(nèi)容如表3 所示。將使用測評結(jié)果較好的模型進行事件輿情的情感分析。
表3 嘉陵江鉈污染事件評論數(shù)據(jù)集
1)時間方面。依據(jù)事件熱度模型以 d 為單位劃分,累積 1 d 的推文熱度總量,以此分析本次嘉陵江鉈污染事件隨時間發(fā)展的熱度變化情況。根據(jù)2021 年 1 月 20—31 日嘉陵江鉈污染事件統(tǒng)計的時間熱度趨勢如圖5 所示。
圖5 事件時間熱度趨勢
從圖5 可以看出,微博用戶關(guān)注響應(yīng)事件的時間較晚,但熱度上升速度快,且相較新聞方面,微博用戶對該事件表現(xiàn)得更加活躍,說明:一方面微博短時間內(nèi)信息傳播的效率高、速率快,并且用戶反應(yīng)較為強烈;另一方面微博具有一定的滯后性,第一時間獲取事件的手段受限。從新聞數(shù)據(jù)看出:新聞平臺的時效性較強,用戶能夠更快得知新聞事件的信息;同時,新聞平臺發(fā)布信息具有延續(xù)性、完整性,用戶可以更長期地關(guān)注事件發(fā)展情況。但由于新聞平臺播報也具有流動性、分散性,且不具備微博話題的聚集性特點,所以很難短時間內(nèi)形成關(guān)注度峰值,需要更長時間的累積。
2)空間方面。以省份作為區(qū)分,將同一地區(qū)的推文熱度累加求和,并選取事件發(fā)生初始期和活躍期進行空間熱度分析??臻g上的熱度變化反映:包含甘肅、陜西兩省的西北地區(qū),包含四川等省份的西南地區(qū)用戶關(guān)注量增長幅度較大,熱度較高;華中地區(qū)熱度增長幅度平穩(wěn),熱度保持穩(wěn)定;華北、華東、華南及東北地區(qū)用戶隨事件發(fā)展熱度增長幅度較小,熱度有降溫的趨勢。
本實驗使用 Python 語言作為實際編程語言。所有實驗都在配備 2.4 GHz 6 核 Xeon CPU,60 GB RAM 和 Nvidia GeForce GTX 1080 Ti 的 Linux 服務(wù)器上進行。本實驗設(shè)置詞向量維度為 256 維,并調(diào)整優(yōu)化模型各類參數(shù),其中 SVM 與樸素貝葉斯的參數(shù)設(shè)置為默認,即懲罰項設(shè)置為 1.0,CNN(卷積神經(jīng)網(wǎng)絡(luò))設(shè)置過濾器數(shù)量為 128 個,LSTM 與 Bi-LSTM 隱藏層為 128 個,本實驗訓(xùn)練迭代次數(shù) epoch設(shè)置為 200 次(各模型準(zhǔn)確率在 100 次迭代后基本變化較?。S?xùn)練采用的優(yōu)化函數(shù)為隨機梯度下降方法。本實驗學(xué)習(xí)率設(shè)置為 0.01,具體原因如圖6 所示,圖中各模型基本在 0.01 附近得到最好表現(xiàn)。
圖6 學(xué)習(xí)率與準(zhǔn)確率關(guān)系
NLPCC 數(shù)據(jù)集測試任務(wù)結(jié)果如表4 所示,從表中可以看出 Bi-LSTM 模型在準(zhǔn)確率與召回率方面均表現(xiàn)優(yōu)異,故在收集得到的嘉陵江輿論數(shù)據(jù)集上使用 Bi-LSTM 模型進行輿情分析。
表4 NLPCC 數(shù)據(jù)集測試任務(wù)結(jié)果 %
經(jīng)上述實驗,選取訓(xùn)練完成的 Bi-LSTM 模型應(yīng)用在本次嘉陵江鉈污染事件的評論數(shù)據(jù)集上。利用算法,按照表5 所示的情感得分作為統(tǒng)計區(qū)間對全體用戶的評論進行情感區(qū)分。
表5 情感得分統(tǒng)計區(qū)間
經(jīng)過模型統(tǒng)計,微博、新聞 2 種評論綜合情感得分分別為 1.495 和 1.660 分,具體各區(qū)間評論數(shù)分布情況如圖7 所示。從圖7 可以看出:新聞與微博評論都表現(xiàn)出,負面評論相對密集且集中,中性評論偏少,正面評論較為稀疏;微博評論較新聞平臺呈現(xiàn)更加偏負面的情緒,含有較多極端負面觀點。結(jié)果表明公眾對于該事件負面情緒占據(jù)主導(dǎo),缺乏理性客觀的評論。
圖7 情感得分數(shù)值分布
在此基礎(chǔ)上,對得到的微博及新聞評論按時間順序進行分割,1 月 20—31 日情感得分時間趨勢如圖8 所示。根據(jù)情感得分,分析群眾情緒分布的時間變化趨勢如下:群眾負面情緒有所好轉(zhuǎn),但仍維持較高比例;中性情緒比例上升,主要由一些負面情緒的群眾轉(zhuǎn)變而來,群眾開始關(guān)注政府應(yīng)急措施、相關(guān)涉事企業(yè)的調(diào)查結(jié)果及后續(xù)影響等;正面的情緒比例有所波動,普遍處于較低水平。
圖8 情感得分時間趨勢
本研究結(jié)合流域相關(guān)時間段氣象水文情況,對涉事流域鉈含量監(jiān)測情況輿情的后續(xù)影響及其控制效果進行探究,并在疫情因素影響下,分析涉事行業(yè)整體態(tài)勢與本次水污染的聯(lián)系。
氣候特征對水文和水資源產(chǎn)生直接影響,近年來,隨著全球氣候的逐漸變化,氣候?qū)λY源的影響越發(fā)顯著。短時間的流域降水及蒸發(fā)量與河流的水位、流量有相應(yīng)關(guān)聯(lián),據(jù)此,對陜西省漢中市和甘肅省隴南市兩地 2021 年 1 月的降雨量和蒸發(fā)量進行探究,具體如圖9 所示。
圖9 2021 年 1 月漢中和隴南兩地降雨量和蒸發(fā)量
2021 年 1 月流域鉈含量監(jiān)測情況如表6 所示,將鉈含量監(jiān)測情況與降雨和蒸發(fā)量相關(guān)聯(lián),可見漢中市和隴南市 1 月中上旬的降雨稀少,同期蒸發(fā)量普遍偏高,導(dǎo)致河水流量下降,使得水體溶解氧含量降低,有害物質(zhì)含量增加,造成河水中的有毒物質(zhì)濃度升高,水污染加劇。鉈污染事件發(fā)生之前數(shù)天中,漢中市與隴南市都處在蒸發(fā)量較高時段,其中:隴南市日蒸發(fā)量均達到 40 mm;漢中市不僅出現(xiàn)該月最高蒸發(fā)量,而且基本處于月平均蒸發(fā)量以上。需要注意的是:隴南市、漢中市部分地區(qū) 1 月 24 日發(fā)生小規(guī)模降雨,造成有毒物質(zhì)的二次沖刷,對應(yīng)鉈含量表中 26 日 2 段河水鉈含量上升超標(biāo)。
表6 流域鉈含量監(jiān)測情況
由于嘉陵江鉈含量再次超標(biāo),對應(yīng)時間段中負面輿情有相對上升的趨勢,期間追責(zé)與溯源的輿情體現(xiàn)得更加明顯。該時間段后,隨著鉈含量達標(biāo),負面輿情略顯緩和,整體輿情得到控制,公眾輿情趨于正面、理性。
略陽鋼鐵與成州鋅冶煉廠作為地區(qū)主要金屬加工、冶煉企業(yè),其生產(chǎn)活動受到宏觀因素的影響。
近年來,鋼鐵與鋅行業(yè)景氣度都有所回升,隨著技術(shù)手段的提高與生產(chǎn)效率的提升,鋼鐵與鋅冶煉企業(yè)的利潤進一步增厚。
鋅(SHFE 鋅)與鋼材(螺紋鋼、熱軋卷板)的價格在 2020 疫情期間呈現(xiàn)下降趨勢,而在 2020 年下半年兩者價格呈現(xiàn)大幅度上升態(tài)勢,甚至達到近 5 a 的峰值??梢?,在市場利潤的驅(qū)動下,考慮發(fā)生疫情延誤生產(chǎn)的情況,鋼鐵和鋅行業(yè)并沒有大規(guī)模減產(chǎn),反而維持增加產(chǎn)量。這樣很多工廠在有限時間內(nèi),提高產(chǎn)量的同時,可能會過度使用設(shè)備,造成相關(guān)設(shè)施檢修不及時、工人過度勞累等情況,進而產(chǎn)生生產(chǎn)作業(yè)方面的負面影響。
由于疫情期間相關(guān)行業(yè)的波動,民眾輿情反映出對于相關(guān)鋅和鋼材企業(yè)的復(fù)工復(fù)產(chǎn)、設(shè)備檢修、環(huán)境污染等問題的擔(dān)憂及疑慮。對比以往突發(fā)涉水事件,考慮鉈污染產(chǎn)生的危害,2021 年嘉陵江鉈污染突發(fā)事件發(fā)生后,輿情更加關(guān)注污染源頭企業(yè)、地區(qū)及污染后續(xù)影響區(qū)域等,有關(guān)部門對相應(yīng)輿情作出及時響應(yīng),有助于控制負面輿情的蔓延。
本研究深入挖掘社交、新聞平臺,以及各類搜索引擎的相關(guān)輿情評論數(shù)據(jù),對 2021 年嘉陵江鉈污染事件進行全面的分析與探討。通過事件熱度模型分析,關(guān)注本事件的用戶主要來自甘肅、江蘇、北京、廣東、陜西等省市,其中污染源地甘肅、陜西兩省的用戶較為密集。輿情分析得出:微博方面,事件熱度在 1 月 26 日達到峰值;新聞方面,事件熱度在 1 月 28 日達到峰值。隨著相關(guān)部門調(diào)查進展的及時播報及有關(guān)應(yīng)急措施的實施,事件關(guān)注度呈現(xiàn)下降趨勢。相較微博用戶,新聞平臺用戶表現(xiàn)相對理性。事件處置方面,相關(guān)部門及時向公眾公布涉事企業(yè),并實施一系列舉措保障居民生活用水安全,減輕水污染后續(xù)危害,有效舒緩安撫群眾情緒,避免負面情緒蔓延。
后續(xù)分析來看,本研究聯(lián)系流域氣象水文信息對鉈含量監(jiān)測情況進行梳理,其次結(jié)合疫情情況針對兩廠相關(guān)生產(chǎn)資料進行分析。鋼鐵與鋅價格利潤在疫情前期有逐步下行態(tài)勢,疫情后期則出現(xiàn)大幅度回暖。在高利潤驅(qū)動下,企業(yè)產(chǎn)量提升,設(shè)備使用率提高,用水量增加,水域水污染風(fēng)險提升。突發(fā)涉水事件如進行系統(tǒng)性的預(yù)防,能夠一定程度上緩沖污染帶來的負面輿情及水安全危害。