張聰聰,李思彤,湯 藝,殷復蓮
?
基于數(shù)據(jù)挖掘的國際涉華輿情分析關鍵技術研究
張聰聰,李思彤,湯 藝,殷復蓮*
(中國傳媒大學 信息工程學院,北京 100024)
針對新媒體時代國際涉華輿情廣度和強度急劇增強的問題,本文提出了基于數(shù)據(jù)挖掘的國際涉華輿情分析方案,采用數(shù)據(jù)挖掘相關技術得出周邊與非周邊國家在熱點事件上的輿情共性與差異。本文對中美貿(mào)易戰(zhàn)進行Twitter和微博全面數(shù)據(jù)分析對比,深入探究其微博轉(zhuǎn)發(fā)結(jié)構(gòu),得到了國際涉華輿情的特點以及我國輿情演變機制。
涉華輿情;數(shù)據(jù)挖掘;數(shù)據(jù)分析;微博轉(zhuǎn)發(fā)結(jié)構(gòu)
一直以來,西方媒體在輿論場都處于主導地位。隨著互聯(lián)網(wǎng)技術的發(fā)展,大數(shù)據(jù)時代的來臨使得以推特、微博為代表的自媒體取代傳統(tǒng)媒體成為輿論的重要產(chǎn)生地。新型媒體領域的出現(xiàn)將改變輿情的整體格局,對我國也是一個不可錯失的機遇。準確把握新媒體領域國際輿論場的走向,有利于正確判斷我國所處國際輿情的新形態(tài),有利于推進中國國際傳播能力建設,有利于向世界展現(xiàn)真實、立體、全面的中國。
數(shù)據(jù)挖掘(Data Mining),指“通過仔細分析大量數(shù)據(jù)來揭示有意義的新的關系、趨勢和模式的過程”[1]。傳統(tǒng)的數(shù)據(jù)挖掘包括分析用戶地域分布,性別分布、情感走向以及詞云制作,如今為更好的挖掘潛在價值,輿情轉(zhuǎn)發(fā)結(jié)構(gòu)和輿情預警被廣泛研究。西方媒體已經(jīng)通過數(shù)據(jù)挖掘的方式進行新聞報道,發(fā)現(xiàn)其中的新穎點并對此進行深度剖析,不僅在呈現(xiàn)上更加簡明而且更加有說服力。彭博新聞社開設的數(shù)據(jù)挖掘類欄目今日圖表將彭博新聞、彭博數(shù)據(jù)與彭博分析結(jié)合起來,全面解讀數(shù)據(jù)挖掘在新聞報道中的應用。國內(nèi)在此方面開展較晚,架構(gòu)仍不清晰,但主流媒體都在紛紛跟進[2-3]。
本文主要是基于“Python+Google+Selenium”的平臺進行數(shù)據(jù)的爬取[4],對爬取的數(shù)據(jù)做清洗、集中;其次利用R語言做出熱點事件周邊國家和非周邊國家整體內(nèi)容詞云,分析得出兩者關注點的差異之處;之后以微博平臺為例,做出中美貿(mào)易戰(zhàn)多關鍵點型轉(zhuǎn)發(fā)結(jié)構(gòu),最終以可視化系統(tǒng)的形式呈現(xiàn)以上全部分析結(jié)果。
通過Python工具對國內(nèi)和國外的社會媒體、新聞網(wǎng)站和政府機構(gòu)進行數(shù)據(jù)獲取,采集得到有關中國的各類文本以及數(shù)值型數(shù)據(jù)。對國家進行區(qū)域分類,因地制宜通過MySQL建立各區(qū)域的數(shù)據(jù)庫,為后續(xù)各類研究奠定堅實的基礎。
圖1 國際涉華輿情分析方案
通過使用跨學科研究方法融合應用,進行關注焦點分析、用戶標簽分析、事件走向趨勢分析、地域分布分析、性別比例分析以及意見領袖的挖掘。利用意見領袖進行微博轉(zhuǎn)發(fā)結(jié)構(gòu)的繪制,微博轉(zhuǎn)發(fā)結(jié)構(gòu)分為單關鍵點型、鏈式型以及多關鍵點型。單關鍵點型微博信息傳播速度快,關鍵點為強勢微博用戶節(jié)點,但輿情挖掘深度稍低;鏈式型結(jié)構(gòu)信息傳播速度較慢,但針對性強;多關鍵點型結(jié)構(gòu)輿情傳播深度高,影響范圍廣[6]。
具體而言使用R語言對數(shù)據(jù)進行可視化處理,顯示熱點事件內(nèi)容詞云,以進行周邊國家和非周邊國家的“中國觀”分析;以微博和Twitter平臺為例,以進行輿情內(nèi)容、用戶畫像、情感傾向分析;深入微博進行意見領袖的挖掘,對輿情事件發(fā)生過程中的輿情傳播特征進行分析。
本文選取“博鰲亞洲論壇”、“中美貿(mào)易戰(zhàn)”、“全國兩會”、“金正恩訪華”、“嫦娥四號登月”5個熱點事件,基于“Python+Selenium+Google”平臺采集周邊國家和非周邊國家政府、媒體、娛樂網(wǎng)站數(shù)據(jù),同時利用R語言進行數(shù)據(jù)預處理、數(shù)據(jù)分析以及詞云繪制;對于中美貿(mào)易戰(zhàn)深入解讀,利用Python分詞然后導入WordArts制作詞云以及分析事件的整體內(nèi)容詞云、用戶簡介詞云、情感傾向[7]、地域信息、男女比例等。
實驗一 周邊與非周邊國家內(nèi)容詞云對比
周邊國家包含俄羅斯、日本、新加坡以及韓國,非周邊國家包含澳大利亞、美國、英國。以下選取兩個事件進行整體內(nèi)容對比展示。
圖2 周邊國家--中美貿(mào)易戰(zhàn)
圖3 非周邊國家--中美貿(mào)易戰(zhàn)
對于“中美貿(mào)易戰(zhàn)”,從詞云對比圖可以看出,周邊國家更關注“經(jīng)濟”、“貿(mào)易”、“關稅”以及如何和平解決,而從非周邊國家關注熱詞“戰(zhàn)爭、全球、冷戰(zhàn)、經(jīng)濟”等可以看出輿論聲音強烈,而且態(tài)度更加強硬。
圖4 周邊國家—博鰲亞洲論壇
圖5 非周邊國家—博鰲亞洲論壇
對于博鰲亞洲論壇,周邊國家的詞云熱詞為“亞洲、海南、經(jīng)濟、貿(mào)易、發(fā)展”,表明周邊國家更多是考慮此次會議會如何推動自身發(fā)展,而非周邊國家詞云顯示“習近平、特朗普、講話”為熱詞,表明他們更傾向于關注領導人之間的對話。
實驗二 微博和Twitter輿情分析和對比
本實驗以中美貿(mào)易戰(zhàn)為例。中美貿(mào)易戰(zhàn),起源于美國總統(tǒng)唐納德。特朗普于2018年3月22日簽署備忘錄,宣布依據(jù)1974年貿(mào)易法第301條對中國進口的商品征收關稅,中國商務部做出反制措施向128種美國進口商品征稅。中美雙方曾于2018年5月達成和平共識,但2018年7月特朗普政府正式對中國商品加征25%關稅,中方報復措施也在之后即行實施。中美貿(mào)易戰(zhàn)實則是美國霸權(quán)主義遏制中國崛起的手段,隨著時間推移國際形勢對我們將更加有利;同時我們應正確辨認有利因素和不利條件,解決好貿(mào)易糾紛[8]。
(1)熱度趨勢走向圖
圖6 熱度趨勢圖
從熱度圖可以看出,國內(nèi)外整體熱度圖走向基本是一致的,說明中美貿(mào)易戰(zhàn)這件事給雙方都帶來了影響。但是特朗普于2018年3月22日簽署備忘錄后2018年3月23日在國內(nèi)立即引起熱議,而國外民眾則是在2018年4月在美國政府發(fā)布加征關稅商品清單時熱度才達到頂峰。而且相較于第一次的關注度,在2018年7月6日美國對華征稅清單第一部分正式生效時,國內(nèi)關注度不如上次;而國外民眾則達到該事件關注頂峰。這種差異說明國內(nèi)對于中美貿(mào)易戰(zhàn)的關注是集中在這件事背后對中國發(fā)展的深遠影響,而國外民眾(絕大多數(shù)為美國)可能更關注加征關稅商品清單,這與他們的生活直接相關。
(2)內(nèi)容詞云圖
圖7 中美貿(mào)易戰(zhàn)-微博
圖8 中美貿(mào)易戰(zhàn)-Twitter
微博詞云圖顯示的熱詞為“經(jīng)濟、市場、貿(mào)易、談判、股市”,可見國內(nèi)民眾還是希望和平解決貿(mào)易糾紛,最終實現(xiàn)經(jīng)濟繁榮,雙方共贏;Twitter詞云圖熱詞為“War、Go、Talk、Fight、Economy、Win”,可以看出國外民眾絕大部分還是希望通過談判以求得和解,但是仍有小部分激進分子企圖挑起戰(zhàn)爭,鞏固美國的霸權(quán)主義。
(3)用戶標簽詞云圖
圖9 微博用戶標簽詞云
圖10 Twitter用戶標簽詞云
從該事件兩個平臺的用戶關注者的詞云圖來看,絕大多大數(shù)為商人、證券分析師、股民、政治家以及其他涉及到經(jīng)濟的一些行業(yè),說明中美貿(mào)易戰(zhàn)不僅是中國和美國的貿(mào)易沖突,更和國際經(jīng)濟市場密切相關,所以應妥善解決以避免經(jīng)濟市場的動蕩。
(4)情感傾向
圖11 情感傾向圖
從對比可以看出,國內(nèi)民眾對于此事件大多持積極態(tài)度,堅持維護國家利益;相比之下,國外民眾持中立態(tài)度,觀望者較多,同時有小部分民眾直接表示不支持此種做法,但是仍有民眾選擇支持政府決定。
(5)微博用戶地域分布圖、性別分布圖
圖12 微博用戶地域分布圖
從上圖可以看出(由藍到黃表示關注用戶越來越多),對于中美貿(mào)易戰(zhàn)比較關注的用戶仍集中在北京、上海和廣東這些一線大城市,其次是沿海城市如山東、江蘇和浙江,而內(nèi)陸或者偏遠的西部地區(qū)則關注度較低。
圖13 微博用戶性別分布圖
從上圖可以看出,對于中美貿(mào)易戰(zhàn),由于涉及政治、經(jīng)濟等領域知識,在所觀察人群中男性關注度遠遠高于女性。
實驗三 微博轉(zhuǎn)發(fā)結(jié)構(gòu)圖
微博是一種基于用戶關系的信息分享、傳播以及獲取的平臺,涵蓋了從個人導向到群體導向,從簡單信息傳播到整體輿論網(wǎng)絡行為協(xié)作的的多元化功能?;谛畔鞑ツP徒⒕W(wǎng)狀的微博轉(zhuǎn)發(fā)結(jié)構(gòu)模型,有利于預測用戶的轉(zhuǎn)發(fā)行為,進而可以預測當前事件的傳播速度和傳播范圍[9]。本文以中美貿(mào)易戰(zhàn)為例,采用多關鍵點模型,選取大V節(jié)點作為中心繪制微博轉(zhuǎn)發(fā)結(jié)構(gòu)模型。
圖14 微博轉(zhuǎn)發(fā)結(jié)構(gòu)圖
本文選取轉(zhuǎn)發(fā)量最高的三個節(jié)點(占豪2106、新浪財經(jīng)1261、任澤平878)作為意見領袖,并以其為轉(zhuǎn)發(fā)中心點做出中美貿(mào)易戰(zhàn)傳播結(jié)構(gòu),由此我們可以清晰的看見該事件的傳播路徑。同時這種層級的網(wǎng)狀結(jié)構(gòu)能快速找到改變輿論走勢的關鍵性節(jié)點,一方面有利于政府在輿情初期控制輿情發(fā)展趨勢,另一方面有助于識別破壞國家安全的反動分子和維護社會和諧穩(wěn)定[10]。
本文選取2018年度上半年的5個熱點涉華事件,整體比較周邊國家和非周邊國家在熱點事件上關注點的不同之處,有利于我國因地制宜,在國際社會中贏得更為友善的輿論空間[11];重點比較了社交平臺微博和Twitter,詳細分析了對于中國貿(mào)易戰(zhàn)兩平臺的關注趨勢走向、關注點、關注者基本標簽的差異以及情感傾向的不同,有利于新聞工作者的研究工作以及我國媒體對外國家形象的傳播;此外本文給出了對于此事件多關鍵點模型的微博轉(zhuǎn)發(fā)結(jié)構(gòu)圖,達到了輔助決策的目的。
[1] 王光宏、蔣平: 《數(shù)據(jù)挖掘綜述》[J]. 同濟大學學報自然科學版, 2004(2): P246.
[2] 史尤昭. 數(shù)據(jù)挖掘技術研究與應用[J]. 軟件, 2015, 36(11): 38-42.
[3] 卓廣平. 數(shù)據(jù)挖掘開發(fā)及應用研究[J]. 軟件, 2015, 36(5): 81-83.
[4] 王鐵剛. 社交媒體數(shù)據(jù)的獲取分析[J]. 軟件, 2015, 36(2): 86-91.
[5] 尹培培. 大數(shù)據(jù)時代的網(wǎng)絡輿情分析系統(tǒng)[J]. 廣播電視技術, 2013(15): 44-47.
[6] 劉繼、李磊. 基于微博用戶轉(zhuǎn)發(fā)行為的輿情信息傳播模式分析[J]. 情報雜志, 2013-7, 32(7): 75.
[7] 王非. 基于微博的情感新詞發(fā)現(xiàn)研究[J]. 軟件, 2015, 36(11): 06-08.
[8] 姚枝仲. 形勢正在發(fā)生對我有利的變化[N]. 光明日報, 2018-8-21(15).
[9] 劉瑋. 基于用戶行為特征的微博轉(zhuǎn)發(fā)預測研究[J]. 計算機學報, 2016-10, 39(10): 1994.
[10] 張軍芳. 對我國涉華國際輿情研究的解讀與反思—以1998-2011年間190篇相關論文危機為基礎的分析[J]. 新聞記者, 2012: 58.
[11] 董堅峰. 基于Web挖據(jù)的突發(fā)事件網(wǎng)絡輿情預警研究[J]. 現(xiàn)代情報, 2014-2, 34(2): 51.
Research on Key Technologies of International Public Opinion Analysis Based on Data Mining
ZHANG Cong-cong, LI Si-tong, TANG Yi, YIN Fu-lian*
(Communication University of China, Beijing 100024, China)
Aiming at the problem of the vastness and intensity of international sensationalism in China in the new media era, this paper proposes an international public opinion analysis program based on data mining and uses related techniques to obtain the similarities and differences between the surrounding and non-surrounding countries in hot events.This paper analyzes the comprehensive data of Twitter and Weibo in the China-US trade war , deeply explores its microblog forwarding structure, and obtains the characteristics of international sensationalism in China and the evolution mechanism of China's public opinion.
International sensationalism; Data mining; Data analysis; Microblog forwarding structure
TP391
A
10.3969/j.issn.1003-6970.2018.12.039
張聰聰(1997-),女,本科生,主要研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘;李思彤(1997-),女,本科生,主要研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘;湯藝(1997-),男,本科生,主要研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘。
殷復蓮(1982-),女,副教授,主要研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘。
張聰聰,李思彤,湯藝,等. 基于數(shù)據(jù)挖掘的國際涉華輿情分析關鍵技術研究[J]. 軟件,2018,39(12):172-176