董悅 王夢(mèng)
摘要:在社會(huì)計(jì)算視角的指導(dǎo)下,借助自然語(yǔ)言處理中的情感分析和主題建模技術(shù)建構(gòu)食品安全網(wǎng)絡(luò)輿情的計(jì)算模型,并選取網(wǎng)絡(luò)輿情案例對(duì)該計(jì)算模型進(jìn)行了驗(yàn)證性應(yīng)用。本文首先對(duì)該事件的評(píng)論文本進(jìn)行情感極性分析確定用戶情緒極性,通過(guò)語(yǔ)義網(wǎng)分析提取評(píng)論數(shù)據(jù)中不同網(wǎng)友觀念的相互聯(lián)系,并利用詞頻分析以及LDA主題模型,最后得出在海量數(shù)據(jù)面前,傳統(tǒng)的輿情研究方法顯然已經(jīng)無(wú)能為力,需要在大數(shù)據(jù)路徑技術(shù)上介入,并在不斷發(fā)展中探求情感和主題分類(lèi)要素在此類(lèi)研究中的新作用。
Abstract: Under the guidance of social computing perspective, the calculation model of food safety network public opinion is constructed by means of sentiment analysis and topic modeling technology in natural language processing, and the network model public opinion case is selected to verify the application model. This paper first analyzes the emotional polarity of the comment text of the event to determine the user's emotional polarity, and extracts the interconnection of different netizens' ideas in the comment data through Semantic Web analysis, and uses word frequency analysis and LDA theme model to finally concludes that in front of massive data, traditional lyric research methods are obviously powerless, and need to intervene in the big data path technology, and explore the new role of emotion and subject classification elements in such research in the continuous development.
關(guān)鍵詞:文本分析;網(wǎng)絡(luò)輿情;情感分析;主題建模
Key words: text analysis;network public opinion;sentiment analysis;topic modeling
中圖分類(lèi)號(hào):G2? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2019)34-0169-04
0? 引言
最近幾年電子信息通信、云計(jì)算、數(shù)據(jù)存儲(chǔ)與共享技術(shù)快速發(fā)展,“大數(shù)據(jù)”成為人們關(guān)注的焦點(diǎn),也成為現(xiàn)階段生活、工作的重點(diǎn)話題。大數(shù)據(jù)也成為新的流行詞匯被廣泛關(guān)注。
基于食品安全危機(jī)問(wèn)題,采用大數(shù)據(jù)方法應(yīng)用下的網(wǎng)絡(luò)輿情分析,挖掘在具體情境下所透露的社會(huì)現(xiàn)象和問(wèn)題是本次研究的主要意義。與數(shù)據(jù)相應(yīng)而生的數(shù)據(jù)分析方法已經(jīng)很容易被公眾接受,數(shù)據(jù)分析方法成為研究輿情的核心關(guān)鍵技術(shù)。在海量數(shù)據(jù)面前,準(zhǔn)確有效的對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析,促進(jìn)相關(guān)機(jī)構(gòu)的科學(xué)決策和有效溝通,為公眾解決實(shí)際問(wèn)題和提供滿意的答復(fù)是至關(guān)重要的,如果缺乏一個(gè)統(tǒng)一規(guī)范并可操作方案將對(duì)網(wǎng)絡(luò)平臺(tái)和政府部門(mén)的工作帶來(lái)極大的不便利。因此,在文本處理技術(shù)的基礎(chǔ)條件下,選取“2018”年非洲豬瘟蔓延至中國(guó)”為案例,融合情感分析和主題建模,創(chuàng)建一個(gè)合適正確的社會(huì)計(jì)算模型,分析食品安全網(wǎng)絡(luò)輿情,為實(shí)現(xiàn)標(biāo)準(zhǔn)化、操作化的食品安全網(wǎng)絡(luò)輿情分析提供借鑒。
對(duì)于突發(fā)的具有較大影響的食品安全問(wèn)題通常能快速的引起社會(huì)關(guān)注而導(dǎo)致網(wǎng)絡(luò)平臺(tái)上出現(xiàn)大量帶有豐富情感的觀點(diǎn),從而形成豐富的輿請(qǐng)分析語(yǔ)料,運(yùn)用數(shù)據(jù)驅(qū)動(dòng)的內(nèi)容分析技術(shù)對(duì)這一類(lèi)的文本進(jìn)行分析,從而挖掘語(yǔ)料中的情感、關(guān)系及主題是許多人研究的重點(diǎn)。在以往的相關(guān)研究中,網(wǎng)絡(luò)輿情分析主要體現(xiàn)在傾向性分析和聚類(lèi)分析。在傾向性分析中,OConnor等人,遵循語(yǔ)義方法,用情感分析技術(shù),了解網(wǎng)民對(duì)重大事件的看法。在聚類(lèi)分析方法中,謝思發(fā)等借助具有優(yōu)勢(shì)的Hadoop平臺(tái),挖掘微博中的熱點(diǎn)詞。馬彬等采用基于線索樹(shù)的雙層聚類(lèi)的話題檢測(cè)方法,對(duì)垃圾微博進(jìn)行過(guò)濾,解決了稀疏數(shù)據(jù)的問(wèn)題。吳堅(jiān)、沙晶隨機(jī)森林樹(shù)的算法對(duì)網(wǎng)絡(luò)輿情的文本信息進(jìn)行分類(lèi),并比較了基于KNN,SVM,SMO等方法對(duì)信息分類(lèi)的量化性能。
1? 主要方法
1.1 網(wǎng)絡(luò)輿情情感分析
情感分析也可以叫做情感挖掘、傾向性分析、意見(jiàn)挖掘、觀點(diǎn)抽取,可以分析人們對(duì)服務(wù)、產(chǎn)品、組織、問(wèn)題、事件、主題等實(shí)體以及屬性的評(píng)價(jià)、觀點(diǎn)、態(tài)度、情感。
網(wǎng)絡(luò)平臺(tái)上的文本包含了大量觀點(diǎn)和情感,傳統(tǒng)的針對(duì)主題等分析方法可能會(huì)浪費(fèi)其中包含的情緒性、傾向性信息??梢酝ㄟ^(guò)情感分析對(duì)網(wǎng)絡(luò)輿情中出現(xiàn)的意見(jiàn)和觀點(diǎn)文本進(jìn)行識(shí)別,深入的挖掘并分析帶有主觀意見(jiàn)和情緒的內(nèi)容,完成情感計(jì)算的過(guò)程。
1.2 網(wǎng)絡(luò)輿情語(yǔ)義網(wǎng)絡(luò)
根據(jù)情感分析的結(jié)果可以將文本標(biāo)注為積極情感和消極情感兩個(gè)類(lèi)別,利用這兩個(gè)類(lèi)別的文本可以進(jìn)行語(yǔ)義網(wǎng)絡(luò)的構(gòu)建。語(yǔ)義網(wǎng)絡(luò)是由大量常識(shí)概念構(gòu)成的,是分析社會(huì)網(wǎng)絡(luò)時(shí)常用的聯(lián)系網(wǎng)絡(luò)。構(gòu)建一個(gè)完整的語(yǔ)義網(wǎng)絡(luò)主要包括網(wǎng)絡(luò)節(jié)點(diǎn)和有向線段,各個(gè)語(yǔ)義之間的從屬關(guān)系和內(nèi)在聯(lián)系通過(guò)箭頭的方向來(lái)表示。觀察不同詞之間的關(guān)系不僅僅只是觀察最初的幾個(gè)單詞關(guān)系。每個(gè)節(jié)點(diǎn)之間相互連接的一種組合。對(duì)于網(wǎng)絡(luò)輿情的語(yǔ)義網(wǎng)分析可以分為正面評(píng)論的語(yǔ)義網(wǎng)絡(luò)和負(fù)面評(píng)論的語(yǔ)義網(wǎng)絡(luò)兩個(gè)部分。
1.3 網(wǎng)絡(luò)輿情L(zhǎng)DA模型
主題建模本質(zhì)是一種快速的非監(jiān)督機(jī)器學(xué)習(xí)算法,目的是為了發(fā)現(xiàn)文本中隱含的主題和各個(gè)主題之間的關(guān)聯(lián)變化,主要通過(guò)對(duì)文本或語(yǔ)料庫(kù)中的詞相似分布規(guī)律詞集的聚類(lèi)來(lái)實(shí)現(xiàn)。
在研究社會(huì)網(wǎng)絡(luò)輿情這一問(wèn)題時(shí),不能單獨(dú)的觀察情感分析或主題建模的結(jié)果,不能將兩種方法割裂開(kāi)來(lái),本文在實(shí)際建構(gòu)網(wǎng)絡(luò)輿情分析的社會(huì)計(jì)算模型時(shí),綜合使用情感分析、語(yǔ)義網(wǎng)絡(luò)和主題建模的方法闡述如何科學(xué)有效地對(duì)食品安全輿情進(jìn)行分析。
2? 建構(gòu)食品安全網(wǎng)絡(luò)輿情分析的社會(huì)計(jì)算模型
大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情分析都是從數(shù)據(jù)收集開(kāi)始對(duì)食品安全網(wǎng)絡(luò)輿情進(jìn)行分析的步驟又可以分為對(duì)所有網(wǎng)絡(luò)輿情數(shù)據(jù)的情感分析、語(yǔ)義網(wǎng)絡(luò)、主題建模。
3? 網(wǎng)絡(luò)輿情分析案例研究
3.1 數(shù)據(jù)來(lái)源及預(yù)處理
2018年8月以來(lái),非洲豬瘟蔓延至中國(guó)打亂了國(guó)內(nèi)生豬市場(chǎng)原本正常的流通秩序。本文根據(jù)實(shí)際情況爬取了2018年12月15日至2019年3月31日搜狐、騰訊和新浪等網(wǎng)站上用戶對(duì)事件的評(píng)論,最終整理了9937條評(píng)論文本。對(duì)在線用戶的評(píng)論文本進(jìn)行情感極性分析確定用戶情緒極性。
通過(guò)數(shù)據(jù)預(yù)處理,將原始數(shù)據(jù)中存在的噪聲去除,得到高質(zhì)量、規(guī)范化以及可以進(jìn)行后續(xù)分析的有效數(shù)據(jù),提高分析的可靠度和精準(zhǔn)度。數(shù)據(jù)去除 “哈哈哈”、“啊啊”、 ”這樣存在連續(xù)重復(fù)的語(yǔ)料。在分詞過(guò)程中刪除空的評(píng)論以及數(shù)字和英文符號(hào)等影響分詞的標(biāo)點(diǎn)。
3.2 情感分析
將數(shù)據(jù)樣本通過(guò)分詞得到詞向矩陣,對(duì)評(píng)論中出現(xiàn)的高頻詞進(jìn)行統(tǒng)計(jì),通過(guò)“清華大學(xué)李軍中文褒貶義詞典”對(duì)數(shù)據(jù)中帶有主觀情感成分的文本進(jìn)行語(yǔ)義分析,識(shí)別該文本的情感傾向。
非洲豬瘟事件中呈現(xiàn)正面情感的評(píng)論達(dá)到26.1%,呈現(xiàn)負(fù)面情感的評(píng)論占總數(shù)的14.5%,呈現(xiàn)中立情感的評(píng)論占總數(shù)的59.4%。從整體上看非洲豬瘟事件在各大門(mén)戶網(wǎng)站上的評(píng)論信息還是傾向于正面的。豬瘟事件每日網(wǎng)絡(luò)情感的平均得分也佐證了這次食品安全事件中網(wǎng)絡(luò)輿情情感是傾向于正面的,每日網(wǎng)絡(luò)情感平均值大部分為正數(shù),雖然情感得分也出現(xiàn)了負(fù)數(shù),但沒(méi)有連續(xù)的趨勢(shì)。
圖2中可以看出2019年一月的情感平均值為正且波動(dòng)不大。從二月至三月情感出現(xiàn)較大波動(dòng)。在三月份有媒體報(bào)道三全食品股份有限公司生產(chǎn)的灌湯水餃在湖南湘西、甘肅酒泉兩市抽檢出疑似非洲豬瘟病毒核酸陽(yáng)性。非洲豬瘟病毒的灌湯水餃?zhǔn)欠駮?huì)對(duì)人體造成危害也成為人們關(guān)注的焦點(diǎn)。部分消費(fèi)者在網(wǎng)上發(fā)泄自己的不滿情緒,這導(dǎo)致了從三月初開(kāi)始情感得分的大幅波動(dòng)。
在以周為時(shí)間跨度計(jì)算的各情感評(píng)論的數(shù)量上來(lái)看,在疫情發(fā)生后的兩周(2018_50和2018_51),評(píng)論數(shù)量達(dá)到了高峰,評(píng)論的情感傾向以中立為主,其次是正面評(píng)論,負(fù)面評(píng)論最少。之后七周,評(píng)論數(shù)量迅速減少,在2019年第七周,評(píng)論數(shù)量出現(xiàn)了反彈,但是以正面評(píng)價(jià)占比最大,負(fù)面評(píng)價(jià)占比最少。之后各個(gè)情感傾向的評(píng)論數(shù)量呈現(xiàn)下降趨勢(shì),網(wǎng)民對(duì)非洲豬瘟事件的關(guān)注度逐漸歸零。
從以上圖可以看出政府對(duì)于非洲豬瘟事件反應(yīng)及時(shí),采取的措施較為合理,治理的方法比較得當(dāng),效果良好。使網(wǎng)絡(luò)上正面和中立情感始終占了主流,在疫情持續(xù)的時(shí)期內(nèi),網(wǎng)絡(luò)輿情穩(wěn)定可控。
3.3 正負(fù)向評(píng)論對(duì)比及關(guān)系研究
經(jīng)過(guò)前文的情感分析,可以標(biāo)注出哪些是屬于積極情感,哪些歸屬于負(fù)面情感,利用這些文本進(jìn)行語(yǔ)義網(wǎng)絡(luò)的構(gòu)建。
從正向評(píng)論與負(fù)向評(píng)論的對(duì)比詞云圖以及各自的語(yǔ)義網(wǎng)絡(luò)圖可以發(fā)現(xiàn),在負(fù)面評(píng)論中,主要以病毒、感染、豬肉為高頻詞,并且成為語(yǔ)義網(wǎng)絡(luò)的核心,大部分評(píng)論圍繞著病毒的感染,體現(xiàn)出網(wǎng)民對(duì)于病毒傳播的擔(dān)憂和恐慌情緒以及對(duì)食品安全問(wèn)題的不滿情緒。在正面評(píng)論中,主要以政府、企業(yè)、部門(mén)、食品為高頻詞,并且成為語(yǔ)義網(wǎng)絡(luò)的核心,大部分評(píng)論圍繞著企業(yè)責(zé)任、政府部門(mén)的措施和食品安全問(wèn)題,一方面體現(xiàn)了網(wǎng)民對(duì)于食品安全的重視,對(duì)于政府和企業(yè)的監(jiān)督,另一方面也體現(xiàn)出網(wǎng)民對(duì)于政府部門(mén)各企業(yè)處理措施的認(rèn)可。
3.4 主題模型分析結(jié)果
對(duì)于網(wǎng)絡(luò)輿情數(shù)據(jù),借助R語(yǔ)言中的主題模型函數(shù)包構(gòu)建豬瘟事件的主題,將主題數(shù)確定為23個(gè),進(jìn)一步探索將23個(gè)主題大致組合為6類(lèi),將語(yǔ)料庫(kù)中最為核心的6個(gè)主題呈現(xiàn)出來(lái)即主要概括了網(wǎng)絡(luò)上豬瘟事件輿情數(shù)據(jù)的主要關(guān)切。
以這6大主題為線索,可以具體分為以下幾個(gè)觀點(diǎn):
其一是介紹了這次豬瘟事件基本情況,還包括這一事件會(huì)造成的后果以及處理方法等。這一類(lèi)主題種主要關(guān)注的是非洲豬瘟傳入中國(guó)的基本情況以及網(wǎng)民對(duì)如何處理提出的疑問(wèn),主要包括處理方式和邊防檢疫兩個(gè)方面。公安部在這次災(zāi)害發(fā)生后,也加強(qiáng)了疫區(qū)的勤務(wù)部署,維護(hù)治安和秩序并呼吁廣大人民群眾提供打擊豬瘟相關(guān)犯罪的信息。
其二主要表達(dá)了公眾對(duì)食品安全和政府部門(mén)相關(guān)工作的關(guān)注。各地區(qū)政府部門(mén)對(duì)此事有了積極的響應(yīng),高度重視非洲豬瘟防治工作,加強(qiáng)各部門(mén)協(xié)作聯(lián)制聯(lián)防。
其三是主要是公眾對(duì)豬瘟病毒提出了一些預(yù)防措施,具體提出了豬瘟和豬流感的防治問(wèn)題。2018年年末也有團(tuán)隊(duì)研制了今珠多糖注射液并擁有專(zhuān)利權(quán)的豬瘟疫苗,用作緊急預(yù)防。
其四是各地區(qū)豬瘟的情況,希望公眾可以理性的應(yīng)對(duì)豬瘟事件。對(duì)于2018年8月14日日本在防止“豬瘟”過(guò)程呼吁乘客“不要攜帶豬肉制品”,臺(tái)灣為防止豬瘟禁止大陸游客參觀養(yǎng)豬場(chǎng)等一系列新聞在網(wǎng)絡(luò)上也引起熱議。相關(guān)負(fù)責(zé)人也再次強(qiáng)調(diào):非洲豬瘟病毒雖對(duì)豬有致命危險(xiǎn)但對(duì)人沒(méi)有危害。