成建國(guó),張鴻星,唐 彥,王汪送,張 進(jìn),李曉東,馮 鈞
(1. 水利部水利信息中心,北京 100053;2. 水利部水資源司,北京 100053;3. 河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 210098)
突發(fā)涉水事件的輿情分析研究
成建國(guó)1,張鴻星2,唐 彥3,王汪送3,張 進(jìn)3,李曉東3,馮 鈞3
(1. 水利部水利信息中心,北京 100053;2. 水利部水資源司,北京 100053;3. 河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 210098)
互聯(lián)網(wǎng)信息公開(kāi)、迅速、透明且易于收集,對(duì)于突發(fā)性水利事件的分析,互聯(lián)網(wǎng)輿情大數(shù)據(jù)分析是一個(gè)發(fā)展趨勢(shì),這種方式能以較小代價(jià)快速獲取數(shù)據(jù),分析得到有價(jià)值的信息,正成為輔助常規(guī)水利事件監(jiān)測(cè)處理的有力方式。在研究和應(yīng)用現(xiàn)狀分析的基礎(chǔ)上,通過(guò)對(duì)搜索引擎、社交論壇和新聞報(bào)道等渠道采集相關(guān)數(shù)據(jù)并分析挖掘,提出面向突發(fā)事件的熱度和情感分析模型,并對(duì) 2017 年嘉陵江鉈污染突發(fā)事件,從 9 個(gè)情感維度進(jìn)行分析。微博用戶的陳述、憤怒、擔(dān)心的比重較大,論壇評(píng)論的用戶大部分都表示出較理性的心態(tài),新聞評(píng)論的網(wǎng)友多處于擔(dān)心和追責(zé)狀態(tài),負(fù)面情緒偏多。突發(fā)涉水事件的輿情傳播很快,因?yàn)槭录?yīng)急處理措施快速生效,水污染情況得到有效控制,事件輿情逐漸趨于穩(wěn)定。
突發(fā)性水利事件;大數(shù)據(jù)挖掘;輿情;事件熱度分析;情感分析
21 世紀(jì)以來(lái),新聞傳媒經(jīng)歷了去中心化變革,在深刻和廣泛影響社會(huì)公眾日常生活的同時(shí),也深刻改變甚至顛覆了傳統(tǒng)的輿情掌握和應(yīng)對(duì)模式,給政府部門應(yīng)對(duì)突發(fā)事件提供新渠道的同時(shí)也提出新的更高的要求,如何用好這一新渠道成為重要課題。
水與人民生活息息相關(guān),水的信息是網(wǎng)絡(luò)輿論關(guān)注的熱點(diǎn),一些負(fù)面信息的曝光很容易使相關(guān)單位走上輿論關(guān)注的風(fēng)口浪尖,成為網(wǎng)絡(luò)輿情的焦點(diǎn)。近年來(lái),多例有關(guān)環(huán)保部門的水污染事件引發(fā)了網(wǎng)絡(luò)一波又一波輿情熱議潮,如 2004 沱江“3· 02”特大水污染、2005 年韶關(guān)北江鎘污染等事故,2005 年松花江、2007 年太湖的水污染及 2015 年的甘肅隴星銻尾礦泄漏等事件。 國(guó)家環(huán)??偩终{(diào)查顯示,自 2005 年松花江特大水污染事件以來(lái),我國(guó)平均每?jī)扇毂惆l(fā)生一起與水有關(guān)的污染事故[1]。
水污染會(huì)對(duì)水資源保護(hù)工作造成重大影響,因此水利部門對(duì)水污染事件密切關(guān)注。目前,對(duì)涉水突發(fā)事件的監(jiān)測(cè)通常是通過(guò)衛(wèi)星遙感影像、地面水文、水質(zhì)站網(wǎng)的上報(bào)系統(tǒng)等方面獲悉,從而根據(jù)情況制定相應(yīng)的處置措施。但是,目前的監(jiān)測(cè)模式還存在很多不足,如衛(wèi)星遙感影像監(jiān)測(cè)無(wú)法做到全時(shí)態(tài)的覆蓋,也很難監(jiān)控水體水質(zhì)的變化;地面水文站網(wǎng)在覆蓋范圍和監(jiān)測(cè)頻次等方面都極有可能導(dǎo)致漏測(cè)、遲測(cè)。
互聯(lián)網(wǎng)時(shí)代,大家都喜歡通過(guò)微博、微信、QQ、論壇、新聞留言評(píng)論等互聯(lián)網(wǎng)平臺(tái)溝通交流?;ヂ?lián)網(wǎng)信息具有快速、公開(kāi)的特點(diǎn),人人均可收集分析,若能快速獲取涉水相關(guān)動(dòng)態(tài)數(shù)據(jù)并進(jìn)行分析處理,提取應(yīng)用,相對(duì)傳統(tǒng)監(jiān)測(cè)方式更具時(shí)效性、直觀性。在大數(shù)據(jù)時(shí)代,通過(guò)互聯(lián)網(wǎng)輿情大數(shù)據(jù)的方式針對(duì)水利事件進(jìn)行分析,正成為輔助常規(guī)水利事件監(jiān)測(cè)處理方面不可或缺的一種有效方式[2-3]。
在及時(shí)、直觀的同時(shí),互聯(lián)網(wǎng)信息也具有結(jié)構(gòu)化程度不高、數(shù)據(jù)隱蔽等特點(diǎn),給快速獲取和有效分析帶來(lái)了很大的挑戰(zhàn),也就是需要能夠在微信、微博、論壇、新聞等新媒體中及時(shí)獲取突發(fā)事件的相關(guān)數(shù)據(jù),并通過(guò)數(shù)據(jù)分析模型有效提取并準(zhǔn)確掌握輿情信息和走勢(shì)。
針對(duì)挑戰(zhàn),研究了一套具有水利特點(diǎn)的數(shù)據(jù)爬取詞庫(kù)和規(guī)則庫(kù),并研發(fā)了互聯(lián)網(wǎng)數(shù)據(jù)偵測(cè)系統(tǒng),及時(shí)抓取涉水突發(fā)事件互聯(lián)網(wǎng)輿情數(shù)據(jù)。在此基礎(chǔ)上,研究了一套基于改進(jìn)熱詞權(quán)重的事件熱度分析模型,并設(shè)計(jì)了一個(gè)基于情感向量的情感分析模型。
網(wǎng)絡(luò)輿情的研究有很多,主要體現(xiàn)在以下 2 個(gè)方面:
1)在事件分析方面。ZHANG X M[4],SAKAKI T[5],NGUYEN D T[6]等著手于事件的演變過(guò)程進(jìn)行分析。ZHOU D Y 等[7]提出使用基于詞典的方式過(guò)濾無(wú)關(guān)詞,利用貝葉斯模型進(jìn)行事件提取和分類。ADEDOYIN-Olowe M 等[8]通過(guò)學(xué)習(xí)的方式對(duì)不同領(lǐng)域應(yīng)用不同的事件窗口檢測(cè)事件,然而,這個(gè)方法偏向于持續(xù)時(shí)間短的事件。一些學(xué)者還從地理位置等方面著手對(duì)地點(diǎn)鮮明的事件進(jìn)行探測(cè)研究[9-10]。
2)在情感分析方面。WEN S Y 等[11]針對(duì)微博數(shù)據(jù)的情感分析,設(shè)計(jì)了一種通過(guò)使用情感詞典和支持向量機(jī)分析每一條微博句子獲得 2 種情感標(biāo)簽的方法,然后通過(guò)綜合分析 2 種情感標(biāo)簽組成的結(jié)果集獲得最終的情感分類。LI S S 等[12]通過(guò)使用因子圖模型解決情感標(biāo)簽的上下文依賴問(wèn)題,將句子的情感標(biāo)簽與上下文語(yǔ)境有效地聯(lián)系起來(lái)。RAO Y H 等[13]設(shè)計(jì)的情感分析方法中,主要針對(duì)短文本的情感詞稀疏性提出主題層次的最大熵模型(TME),TME 通過(guò)對(duì)潛在主題、多種情感標(biāo)簽和人工打分進(jìn)行綜合建模生成主題特征。TANG D Y 等[14]針對(duì)現(xiàn)有 Twitter 的數(shù)據(jù),使用深度置信網(wǎng)絡(luò)進(jìn)行了詞性表達(dá)的分析。李巖等[15]設(shè)計(jì)了基于短文本聚類及用戶評(píng)論情感分析的微博輿情系統(tǒng)。王志國(guó)[16]針對(duì)微博文本分類的相關(guān)技術(shù),對(duì)社會(huì)熱點(diǎn)描述的微博文本信息進(jìn)行了分類提取。SHEN Y 等[17]將情感詞分類,構(gòu)建了詞語(yǔ)權(quán)重字典用來(lái)計(jì)算博文情感值。張瑜等[18]將主題分類模型引入到輿情監(jiān)測(cè)中,并在此基礎(chǔ)上,以時(shí)間脈絡(luò)進(jìn)行面向主題的情感分析。柳位平等[19]采用種子詞庫(kù) HowNet 語(yǔ)義相似度計(jì)算的方法構(gòu)建了中文基礎(chǔ)情感詞詞典。周詠梅等[20]提出構(gòu)建基于 HowNet 和 SentiWordNet 的中文情感詞典法。
本研究借鑒情感分析法,對(duì)突發(fā)性事件的網(wǎng)絡(luò)輿情進(jìn)行情感和熱度分析,并以“嘉陵江鉈污染”事件為例,基于新浪微博、論壇及新聞評(píng)論數(shù)據(jù)進(jìn)行研究。
每個(gè)事件都是由 1 組信息表示的,每個(gè)事件都有 1~2 個(gè)描述詞,比如“嘉陵江鉈污染”是 2017 年5 月嘉陵江鉈污染事件的描述字。通過(guò)智能網(wǎng)絡(luò)爬取系統(tǒng)從微博和百度平臺(tái)中把包含這個(gè)描述詞相關(guān)數(shù)據(jù)爬取到,這組信息可以是任意長(zhǎng)度的文本、單詞等。每條信息由平臺(tái)、時(shí)間、內(nèi)容組成。事件熱度分析模型將優(yōu)先處理與數(shù)據(jù)庫(kù)熱詞匹配的問(wèn)題,提出熱詞的 3 個(gè)特征:TF-IDF 特征及詞相關(guān)度和長(zhǎng)度,并定義熱詞的動(dòng)態(tài)權(quán)重。
2.1 定義熱詞的動(dòng)態(tài)權(quán)重
給定一個(gè)單詞wi和一個(gè)時(shí)間T,其權(quán)重WT是詞的重要性IT、詞相關(guān)度RT和長(zhǎng)度Lwi的乘積,計(jì)算公式為
所以,時(shí)間T的熱詞選取問(wèn)題定義如下:對(duì)數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理得到N個(gè)常用候選熱詞集Hcw,對(duì)Hcw中單詞的動(dòng)態(tài)權(quán)重進(jìn)行降序排列,得到一個(gè)函數(shù):f(x) =y,
式中:y表示Hcw中前x個(gè)詞的累計(jì)動(dòng)態(tài)權(quán)重,通過(guò)圖形變換和極值求得最適合的熱詞數(shù)目對(duì)Hcw進(jìn)行一次篩選得到事件熱詞集合HW。
2.2 事件的熱度向量
給定時(shí)間段Tn,得到熱詞集合HW,則事件熱度向量記為EPTn,與時(shí)間間隔ti內(nèi)的事件熱度記為EPti可以分別由公式 (2) 和 (3) 表示:
式中:Wti(wi) 和Fwi分別表示熱詞HW的權(quán)重和在時(shí)間間隔ti內(nèi)出現(xiàn)的次數(shù)。
傳統(tǒng)的基于情感詞典的文本情感分類,是對(duì)人的記憶和判斷思維最簡(jiǎn)單的模擬??梢愿鶕?jù)特定情況記憶一些基本詞匯,如積極詞語(yǔ)有“樂(lè)觀”、“信任”,消極詞語(yǔ)有“抱怨”、“憤怒”、“追責(zé)”,中性詞語(yǔ)有“陳述”、“提醒”、“答疑”、“擔(dān)心”等共9 個(gè)情感詞包,從而在大腦中形成一個(gè)基本的語(yǔ)料庫(kù)。情感分析由文本的預(yù)處理、分詞、相似度比較及生成情感向量等部分組成,以對(duì)微博文本進(jìn)行情感分析。
3.1 文本的預(yù)處理
由網(wǎng)絡(luò)爬蟲(chóng)等工具從微博、論壇和新聞報(bào)道上爬取出的原始語(yǔ)料,帶有大量不需要的信息,需要對(duì)語(yǔ)料進(jìn)行處理。本研究處理的微博評(píng)論集合樣例如表 1 所示。
表 1 處理后的論壇評(píng)論集合
3.2 評(píng)論內(nèi)容的分詞
給定處理后的評(píng)論集合 C = {c1,c2,…,cm},每一條評(píng)論 ci都以句子的形式存在,因此可以表示成詞組的有限序列,即 ci= < S1,S2,…,Sm>,其中Si是一個(gè)中文詞組。使用中文分詞器對(duì)評(píng)論內(nèi)容進(jìn)行分詞,從而形成一組組詞組序列 Si,如表 1 中的第 1 條微博評(píng)論,經(jīng)過(guò)中文分詞之后形成的詞組序列為:<怎么、最近、我、大、廣元、的、新聞、這么、多 >。
3.3 情感向量的計(jì)算
在《知網(wǎng)》中,每個(gè)詞是由概念進(jìn)行描述的,而每個(gè)概念又是由義原描述的,所有的義原通過(guò)一個(gè)有層次的樹(shù)狀結(jié)構(gòu)組織到一起。對(duì)于詞語(yǔ) S1和S2,如果 S1描述為 S11,S12,…,S1n,S2描述為 S21,S22,…,S2n,則 S1和 S2的相似度為概念之間的相似度的最大值[21],計(jì)算公式如下:
這樣 2 個(gè)詞語(yǔ)之間的相似度就轉(zhuǎn)化為概念之間的相似度,同樣概念之間的相似度又會(huì)轉(zhuǎn)化為義原之間的相似度計(jì)算,其中 2 個(gè)義原之間的相似度計(jì)算如下:
式中:p1,p2表示義原;d 表示 p1和 p2在義原樹(shù)體系上的路徑長(zhǎng)度;a 是一個(gè)可調(diào)節(jié)的參數(shù)。相似度范圍在 0~1 之間,越高表示越相似。
多條記錄的情感分類結(jié)果如表 2 所示。
根據(jù)相似度比較得到的情感分類結(jié)果,若相似,則該情感分類設(shè)置為 1,否則視為 0。本研究使用情感向量 E ={ei1,ei2,…,ei9} 描述每一條評(píng)論的情感屬性,其中第 i 行表示第 i 條評(píng)論。情感向量生成的結(jié)果如表 3 所示,若該條評(píng)論只有屬于某一種情緒的詞語(yǔ),則該情緒對(duì)應(yīng)的值為 1,其他維度的值都為 0。
1)情感詞包的情感向量和,表示所有評(píng)論的每一個(gè)詞包的情感向量之和 wj,計(jì)算公式如下:
式中:j 表示第 j 個(gè)情感詞包,取值為 1~9。
2)根據(jù)最后的情感向量的和,得出情緒分布圖。情感傾向的計(jì)算公式如下:
式中:+ 表示 1~2 號(hào)正向情感維度;-表示 6~9 號(hào)負(fù)向情感維度,將其求和之后可得該條評(píng)論的情感值。
本研究針對(duì)評(píng)論中的情感詞提取并做情感傾向性分析,情感分析算法具體步驟如下:
a. 對(duì)于每條評(píng)論 ci,使用中文分詞器進(jìn)行分詞,形成 < S1,S2,…,Sn>。
b. 對(duì)于每一組詞組序列 < S1,S2,…,Sn>,利用公式 (4) 及 (5) 對(duì)每個(gè)詞語(yǔ)與已有詞包中的詞語(yǔ)進(jìn)行相似度比較,判定詞語(yǔ)的情緒分類。
c. 對(duì)于每一組詞組序列 < S1,S2,…,Sn>,根據(jù)已經(jīng)判定的情緒分類計(jì)算每種情緒占的比例,從而形成一條情感向量 e ={e1,e2,…,en},其中 n 表示有n 種情緒分類。
d. 將所有的情感向量集中起來(lái),形成情感向量矩陣 M,利用公式 (6) 即可計(jì)算出評(píng)論集合 C 中每種情緒所占的比例。
e. 對(duì)每一列情感詞包的情感向量求和后,利用公式 (7) 得到情緒分布圖。
表 2 記錄情感分類表
表 3 情感向量表
2017 年 5 月 5 日 18 時(shí),四川省廣元市環(huán)境監(jiān)測(cè)中心站監(jiān)測(cè)發(fā)現(xiàn)嘉陵江入川斷面水質(zhì)異常,西灣水廠水源地水質(zhì)鉈元素超標(biāo) 4.6 倍。廣元市立即采取凈水處理、泄洪、加密監(jiān)測(cè)等應(yīng)急措施,經(jīng)與相關(guān)專家及部門綜合研判,初步判定污染源為川陜界上游輸入型、一次性污染團(tuán)。廣元市西灣水廠立即停產(chǎn),并啟動(dòng)城市應(yīng)急供水。2017 年 6 日晚上 9 點(diǎn),監(jiān)測(cè)數(shù)據(jù)顯示西灣水廠水源地水質(zhì)鉈元素濃度已降至 0.000 1 mg/L,達(dá)到國(guó)家標(biāo)準(zhǔn),上游無(wú)新增污染物,嘉陵江流域水質(zhì)趨于穩(wěn)定;5 月 7 日 8 時(shí)開(kāi)始恢復(fù)性供水; 截至 5 月 7 日晚上 10 點(diǎn),嘉陵江廣元流域鉈濃度持續(xù)呈穩(wěn)步下降趨勢(shì)。
本次試驗(yàn)采用嘉陵江鉈污染事件,通過(guò)對(duì)各大平臺(tái)收集的數(shù)據(jù)進(jìn)行整理、分詞,提取高權(quán)重關(guān)鍵詞可以看出,群眾主要關(guān)注的是污染地區(qū)(嘉陵江、廣元、西灣水廠)、環(huán)境污染、超標(biāo)指數(shù)、飲水、危害、影響、追責(zé)和情緒抒發(fā)等方面:根據(jù)每條評(píng)論的情感向量,生成評(píng)論的情感向量矩陣,并進(jìn)行統(tǒng)計(jì)求和得到如表 4 所示的不同媒體平臺(tái)的情感向量。
根據(jù)微博評(píng)論情感分類結(jié)果可以得出圖 1 所示的分析結(jié)果。從圖中可以明顯看出微博方面,陳述、憤怒、擔(dān)心的比重較大。例如,有網(wǎng)友客觀地指出“我們國(guó)家整體的自來(lái)水質(zhì)著實(shí)有很大上升空間”;也有網(wǎng)友憂心“鉈是劇毒啊,四川和重慶的朋友當(dāng)心了!”。微博上的網(wǎng)友部分情緒達(dá)到憤怒,抱怨和擔(dān)憂也有較大比重;也有部分較理性,總體處于偏負(fù)面狀態(tài)。
根據(jù)論壇評(píng)論情感分類結(jié)果可以得出圖 2 所示的分析結(jié)果。論壇方面,陳述、答疑的比例較大。例如:有吧友答復(fù)“應(yīng)該沒(méi)有影響哦,有水就放心用,也可以儲(chǔ)備點(diǎn)嘛”;也有網(wǎng)友進(jìn)行調(diào)侃式的抱怨道“城區(qū)套路深,我已回農(nóng)村!”。論壇評(píng)論的用戶大部分都表示出了一種比較理性的心態(tài)。
表 4 微博、論壇、新聞評(píng)論的綜合情感向量
圖 1 微博情緒分布柱狀圖
圖 2 論壇情緒分布柱狀圖
根據(jù)新聞評(píng)論情感分類結(jié)果可以得出圖 3 所示的分析結(jié)果。新聞評(píng)論層面的追責(zé)、陳述、憤怒的比重較大。部分網(wǎng)友表示“不找出真兇,將嚴(yán)重削弱某某某的社會(huì)信任度”,憤慨地表明追責(zé)的必要性;也有網(wǎng)友進(jìn)行答疑“不要瞎說(shuō),受污染的水源必須在入川前截流”,陳述客觀事實(shí),安撫群眾。新聞評(píng)論的網(wǎng)友多處于憂心忡忡和憤懣追責(zé)狀態(tài),總體較為負(fù)面。
圖 3 新聞評(píng)論情緒分布柱狀圖
從情感柱狀圖中,可以看到對(duì)此事件的情感傾向,有對(duì)此事表達(dá)憤怒的,有擔(dān)心的,有信任和樂(lè)觀的,從而形成帶有負(fù)能量的、中性的、正能量的情感傾向。微博、新聞評(píng)論及論壇的樣本的情感分布圖如圖 4~6 所示,從分布可以看出,負(fù)面、較負(fù)面的情緒占據(jù)了主導(dǎo)地位,正面和較正面的情緒相對(duì)來(lái)說(shuō)少很多。與微博和新聞評(píng)論的樣本分布有一定的不同,論壇情緒分布呈現(xiàn)出不一樣的傾向,其中,正面、較正面的比例超過(guò) 50%,而負(fù)面、較負(fù)面的情緒占比遠(yuǎn)小于另外 2 種數(shù)據(jù)源中的情形。論壇情緒相對(duì)正面的原因可能是其用戶參與及時(shí)度不及微博與新聞評(píng)論。2017 年 5 月 9 日開(kāi)始輿情趨于穩(wěn)定;5月 10 日 20 時(shí)起,嘉陵江各監(jiān)測(cè)斷面全線達(dá)標(biāo);5 月 11 日,廣元市人民政府終止應(yīng)急響應(yīng)。
圖 4 微博情感分布圖
圖 5 論壇情感分布
圖 6 新聞情感分布圖
2017 年 5 月 5—10 日,廣元市人民政府第一時(shí)間發(fā)布官方信息《嘉陵江水質(zhì)污染應(yīng)急監(jiān)測(cè)快報(bào)》第84 期,及時(shí)通報(bào)事件進(jìn)展和監(jiān)測(cè)情況,全國(guó) 70 余家媒體平臺(tái)跟蹤轉(zhuǎn)載。職能部門持續(xù)開(kāi)展輿情監(jiān)測(cè),對(duì)媒體和公眾普遍關(guān)注問(wèn)題主動(dòng)答疑釋惑,對(duì)穩(wěn)定社會(huì)情緒起到積極作用。
互聯(lián)網(wǎng)信息公開(kāi)、透明,且易與收集,對(duì)于突發(fā)性水利事件的分析,互聯(lián)網(wǎng)輿情大數(shù)據(jù)分析是突發(fā)事件數(shù)據(jù)收集的有效手段。通過(guò)對(duì)搜索引擎及論壇和新聞報(bào)道的相關(guān)數(shù)據(jù)進(jìn)行采集和大數(shù)據(jù)挖掘,提出了面向突發(fā)事件的事件熱度和情感分析模型,為了驗(yàn)證模型的有效性,對(duì)嘉陵江鉈污染突發(fā)事件的輿情進(jìn)行了深入分析討論,發(fā)現(xiàn)廣大網(wǎng)民對(duì)涉水突發(fā)事件所持有的態(tài)度、觀點(diǎn)、評(píng)論,識(shí)別出情感傾向,更好地理解用戶的行為,為政府部門更好應(yīng)對(duì)處置突發(fā)涉水事件提供支撐。本模型相對(duì)以往監(jiān)測(cè)的方式,具有真實(shí)性、時(shí)效性,可以準(zhǔn)確分析把控輿情和事件發(fā)展態(tài)勢(shì),實(shí)現(xiàn)正面宣傳、正確引導(dǎo)網(wǎng)絡(luò)輿情,幫助制定有效措施減少涉水突發(fā)事件的損失和負(fù)面影響,有助于強(qiáng)化地方監(jiān)測(cè)預(yù)警體系建設(shè),推進(jìn)部門間、區(qū)域間環(huán)境應(yīng)急聯(lián)動(dòng),提高環(huán)境風(fēng)險(xiǎn)防范和應(yīng)急能力,確保國(guó)家環(huán)境安全。
當(dāng)然,針對(duì)中文的情感分析還有許多值得研究的地方。例如分析微博等社交網(wǎng)絡(luò)圖片,豐富情感詞庫(kù),提升分詞匹配速度和準(zhǔn)確率,這些都需要結(jié)合涉水突發(fā)事件的特點(diǎn),采用深度學(xué)習(xí)等新技術(shù)進(jìn)行進(jìn)一步分析和挖掘。
[1] 崔偉中,劉晨. 松花江和沱江等重大水污染事件的反思[J]. 水資源保護(hù),2006 (1): 1-4.
[2] 馮鈞,許瀟,唐志賢,等. 水利大數(shù)據(jù)及其資源化關(guān)鍵技術(shù)研究[J]. 水利信息化,2013 (4): 6-9.
[3] 馮鈞,唐志賢,盛震宇,等. 水利數(shù)據(jù)中心數(shù)據(jù)交換平臺(tái)設(shè)計(jì)探討[J]. 水利信息化,2014 (1): 15-19.
[4] ZHANG X M, CHEN X M, CHEN Y, et al. Event detection and popularity prediction in microblogging[J]. Neurocomputing, 2015 (149): 1469-1480.
[5] SAKAKI T, OKAZAKI M, MATSUO Y. Tweet analysis for real-time event detection and earthquake reporting system development[J]. IEEE Transactions on Knowledge & Data Engineering, 2013, 25 (4): 919-931.
[6] NGUYEN D T, JUNG J E. Real-time event detection for online behavioral analysis of big social data[J]. Future Generation Computer Systems, 2017 (66): 137-145.
[7] ZHOU D Y, CHEN L Y, HE Y L. An unsupervised framework of exploring events on twitter: Filtering, extraction and categorization[C]//Twenty-Ninth AAAI Conference on Arti fi cial Intelligence. Imego:AAAI Press, 2015: 2468-2474.
[8] ADEDOYIN-Olowe M, GABER M M, DANCAUSA C M, et al. A rule dynamics approach to event detection in Twitter with its application to sports and politics[J]. Expert Systems with Applications, 2016, 55: 351-360.
[9] ZHANG C, ZHOU G Y, YUAN Q, et al. GeoBurst: Real-time local event detection in geo-tagged tweet streams[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2016: 513-522.
[10] GUO J J, GONG Z G. A nonparametric model for event discovery in the geospatial-temporal space[C]//ACM International on Conference on Information and Knowledge Management. New York:ACM, 2016: 499-508.
[11] WEN S Y, WAN X J. Emotion classi fi cation in microblog texts using class sequential rules[C]//Proceedings of the Twenty-Eighth AAAI conference on Arti fi cial Intelligence. Quebec:Association for the Advancement of Arti fi cial Intelligence, 2014: 187-193.
[12] LI S S, HUANG L ,WANG R, et al.Sentence-level emotion classification with label and context dependence[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics. Beijing:Association for Computational Linguistics, 2015: 1045-1053.
[13] RAO Y H, XIE H R, LI J, et al. Social emotion classi fi cation of short text via topic-level maximum entropy model[J]. Information & Management, 2016 (53) : 978-986.
[14] TANG D Y, QIN B, LIU T, et al. Learning sentence representation for emotion classi fi cation on microblogs[J]. Natural Language Processing and Chinese Computing, 2013, 400: 212-223.
[15] 李巖,韓斌,趙劍. 基于短文本及情感分析的微博輿情分析[J]. 計(jì)算機(jī)應(yīng)用與軟件,2013 (12): 240-243.
[16] 王志國(guó). 網(wǎng)絡(luò)輿情監(jiān)控過(guò)程中微博文本分類處理的實(shí)現(xiàn)方法[J]. 圖書(shū)情報(bào)導(dǎo)刊,2016 (12): 129-133.
[17] SHEN Y, LI S C, ZHENG L, et al. Emotion mining research on microblog[C]// Web Society, 2009.SWS'09.1st IEEE Symposium on. Lanzhou: IEEE, 2009: 71-75.
[18] 張瑜,李兵,劉晨玥. 面向主題的微博熱門話題輿情監(jiān)測(cè)研究——以“北京單雙號(hào)限行常態(tài)化”輿情分析為例[J]. 中文信息學(xué)報(bào),2015 (5): 143-151,159.
[19] 柳位平,朱艷輝,栗春亮,等. 中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J]. 計(jì)算機(jī)應(yīng)用,2009 (10): 2875-2877.
[20] 周詠梅,楊佳能,陽(yáng)愛(ài)民. 面向文本情感分析的中文情感詞典構(gòu)建方法[J]. 山東大學(xué)學(xué)報(bào)(工學(xué)版),2013 (6): 27-33.
[21] 劉群,李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].中文計(jì)算語(yǔ)言學(xué),2002,7 (2): 59-76.
Study on public opinion analysis of sudden water events
CHENG Jianguo1, ZHANG Hongxing2, TANG Yan3, WANG Wangsong3, ZHANG Jin3, LI Xiaodong3, FENG Jun3
(1. Water Resources Information Center, the Ministry of Water Resources, Beijing 100053, China; 2. Water Resources Division, the Ministry of Water Resources, Beijing 100053, China; 3. College of Computer and Information, Hohai University, Nanjing 211100, China)
Internet information disclosure is transparency and easy to collect. For the analysis of sudden water events, Internet public opinion analysis is a large trend of development. This analysis can be very small input to obtain valuable information, and get valuable result, is becoming an indispensable way to assist in the routine monitoring of water events. On the basis of analyzing the research and application situation, through search engine, micro-blog, forums and Internet news reports big data related to water incident event, the article proposes an event heat analysis model and emotional analysis model. Both models are used for discovering the public opinion of the Jialing River thallium pollution in 2017. It is analyzed from nine emotional dimension, is discovered that statement, anger and worrisome are the main emotions in micro-blog, the forum users expresses a rather rational emotion, while the news commenters are more negative, expressing a strong desire to find the people and organization accountable for this incident. The public sentiment become stable since the incident is emergency disposal plan works effectively.
sudden water event; big data mining; public opinion; event heat analysis; sentiment analysis
P426.616
A
1674-9405(2017)04-0021-07
10.19364/j.1674-9405.2017.04.005
2017-06-30
國(guó)家自然科學(xué)基金項(xiàng)目(61370091)
成建國(guó)(1978-),男,貴州畢節(jié)人,高級(jí)工程師,從事水利信息化和水文水資源研究、建設(shè)及行業(yè)管理工作。