逯海玥,芮小平,李潤(rùn)奎
(1.河海大學(xué)水文水資源學(xué)院,南京 211100;2.河海大學(xué)地球科學(xué)與工程學(xué)院,南京 211100;3.中國(guó)科學(xué)院大學(xué)資源與環(huán)境學(xué)院,北京 100049)
霧霾是一種由于空氣中存在的灰塵、水分、煙霧、水蒸氣而造成空氣水平能見度小于10 km的天氣現(xiàn)象[1-2],其產(chǎn)生根源于PM2.5,是空氣中動(dòng)力學(xué)當(dāng)量直徑小于等于2.5 μm的顆粒物[3]。目前,霧霾較往年雖出現(xiàn)好轉(zhuǎn),但在北方地區(qū)仍時(shí)有發(fā)生,對(duì)社會(huì)生活、經(jīng)濟(jì)發(fā)展,尤其是對(duì)人們的身心健康產(chǎn)生了極其嚴(yán)重的威脅。有研究表明,在空氣污染物濃度尤其是PM2.5濃度過(guò)高的情況下,生活在這種污染空氣中的人們,會(huì)因此而產(chǎn)生急性的健康風(fēng)險(xiǎn),進(jìn)而誘發(fā)心血管等疾病[4-5];此外,空氣污染不僅與人類的多種疾病有關(guān),還對(duì)人類的心理也有較為明顯的影響,Ho等[6]通過(guò)研究證實(shí),即使是短期霧霾也會(huì)造成心理壓力,使人產(chǎn)生心理障礙,Gu 等[7]利用多種計(jì)量經(jīng)濟(jì)學(xué)方法分析空氣污染對(duì)于心理健康的影響,發(fā)現(xiàn)PM2.5濃度越高,人類的緊張、抑郁、無(wú)力、煩躁四種負(fù)面情緒會(huì)更突出。
互聯(lián)網(wǎng)時(shí)代,人們?cè)絹?lái)越傾向于在社交平臺(tái)上發(fā)表看法、表達(dá)情感、探索自己感興趣的新聞。微博作為一種社交平臺(tái),具有內(nèi)容簡(jiǎn)短、傳播迅速、實(shí)時(shí)性強(qiáng)等特點(diǎn),在一定程度上改變了人們獲取、交流、表達(dá)信息的方式[8]。微博公開化的特點(diǎn)使得其具有多源用戶,以及多主題的內(nèi)容,各年齡階層、各社會(huì)性質(zhì)的人們都可以根據(jù)自己的需要發(fā)布不同主題的內(nèi)容,比如新聞、事件評(píng)論、情感表達(dá)等,因此微博數(shù)據(jù)是開展各種輿情研究的良好數(shù)據(jù)源[9]。當(dāng)霧霾污染嚴(yán)重時(shí),人們會(huì)在微博平臺(tái)發(fā)布、轉(zhuǎn)發(fā)、評(píng)論相關(guān)微博,這些微博內(nèi)容包含了許多圍繞霧霾污染所產(chǎn)生的觀點(diǎn)信息,而不同城市受霧霾的影響程度不同,人們對(duì)霧霾的態(tài)度也因此而異,以北方受霧霾污染嚴(yán)重的典型城市為例,采集、分析微博數(shù)據(jù),挖掘其中蘊(yùn)含的話題信息,旨在為城市網(wǎng)絡(luò)輿論引導(dǎo)、環(huán)保政策制定等提供理論指引。
當(dāng)前,中外有大量研究利用微博數(shù)據(jù)對(duì)霧霾發(fā)生時(shí)網(wǎng)民的關(guān)注點(diǎn)進(jìn)行探討、分析。曾子明等[10]根據(jù)微博數(shù)據(jù)和以往的研究定義了微博影響力特征變量和用戶可信度,采用LDA(latent dirichlet allocation)主題模型,對(duì)2016年微博中與霧霾有關(guān)的謠言進(jìn)行精準(zhǔn)識(shí)別,降低了用戶的信息焦慮;Yang等[11]應(yīng)用框架理論對(duì)微博進(jìn)行文本分析,發(fā)現(xiàn)中國(guó)官方媒體對(duì)于霧霾的關(guān)注點(diǎn)集中于政府關(guān)注、輿論勸阻管理、輿論影響因素、社會(huì)霧霾相關(guān)新聞及外部霧霾相關(guān)新聞5個(gè)層面;Zhang等[12]利用微博數(shù)據(jù),分析人們對(duì)霧霾感知的季節(jié)性差異,發(fā)現(xiàn)春夏秋冬人們的關(guān)注點(diǎn)分別側(cè)重于霧霾成因、積極情緒、防治措施及健康影響4個(gè)方面;Wang等[13]對(duì)微博內(nèi)容進(jìn)行文本分析,以哈爾濱市微博數(shù)據(jù)為例,發(fā)現(xiàn)霧霾期間用戶的關(guān)注內(nèi)容分為三大類:情感表達(dá)與觀點(diǎn)闡述、信息提示、個(gè)體情境感知;Lin[14]對(duì)新加坡霧霾危機(jī)期間的微博數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)分析,發(fā)現(xiàn)當(dāng)環(huán)境危機(jī)發(fā)生時(shí),傳統(tǒng)媒體和新媒體在報(bào)道相關(guān)新聞、應(yīng)對(duì)重大事件、向公眾發(fā)布信息等方面采取不同的方式。
目前現(xiàn)有研究大多是對(duì)同一地區(qū)進(jìn)行相關(guān)分析,很少有研究涉及不同地區(qū)霧霾輿情關(guān)注點(diǎn)的空間差異性研究,基于此,考慮空間差異,將不同地區(qū)納入研究范圍,利用共詞網(wǎng)絡(luò)法首次探索霧霾情形下微博網(wǎng)民的輿情響應(yīng),及不同城市對(duì)霧霾關(guān)注程度的差異性。首先,抓取以“霧霾”為主的微博數(shù)據(jù),根據(jù)TF-IDF(term frequency-inverse document frequency)算法提取出每條微博的關(guān)鍵詞匯,利用微博關(guān)鍵詞的共現(xiàn)關(guān)系構(gòu)建共現(xiàn)三元組,進(jìn)而構(gòu)建共詞網(wǎng)絡(luò),然后,通過(guò)社區(qū)探測(cè)算法挖掘出話題社區(qū),以此為基礎(chǔ),對(duì)比不同城市地區(qū)輿情話題的差異及差異程度,從輿情發(fā)展的角度為城市應(yīng)對(duì)霧霾提供差異化理論指引,如針對(duì)大眾情緒異?,F(xiàn)象,政府應(yīng)作出及時(shí)、恰當(dāng)?shù)那榫w引導(dǎo),避免不良行為的發(fā)生;對(duì)于霧霾所造成的負(fù)面影響,如健康威脅、交通影響,應(yīng)采取相應(yīng)措施減輕損害,提升生活幸福感;針對(duì)其他不同的關(guān)注點(diǎn),采取相應(yīng)策略,促進(jìn)城市可持續(xù)發(fā)展。
目前,話題挖掘方法主要分為三大類。第一類方法是文本聚類法,以聚類假設(shè)作為理論依據(jù),依據(jù)文本詞元素之間的相似度,選取某種相似性規(guī)則進(jìn)行聚類。路榮等[15]對(duì)微博文本進(jìn)行聚類識(shí)別出了新聞話題;又如楊波等[16]提出了基于詞向量和增量聚類的短文本聚類算法(improved single-pass algorithm based on word embedding, ISWE),聚類準(zhǔn)確率明顯提高;再如何諾等[17]改進(jìn)了K均值聚類算法,成功克服K均值初始聚類中心比較敏感的問(wèn)題。聚類方法會(huì)出現(xiàn)數(shù)據(jù)稀疏、維度爆炸的現(xiàn)象,無(wú)法保證聚類結(jié)果與主題的相關(guān)性。
第二類方法是主題模型法,主要有三種:PLSA(probabilistic latent semantic analysis)、LDA(latent dirichlet allocation)和改進(jìn)的LDA模型。PLSA主題提取的過(guò)程就是高維空間到低維空間的降維過(guò)程[18],但PLSA不能直觀理解主題信息。Blei等[19]提出了LDA主題模型,解決了此難題。LDA由文檔層、主題層及主題詞語(yǔ)層構(gòu)成,可用來(lái)生成文檔主題[20],但傳統(tǒng)LDA模型不適用于短文本,因此許多學(xué)者考慮多種特征,提出了基于LDA的改進(jìn)模型,以更好地應(yīng)用于微博短文本的分析。如吳楠[21]提出LDA-SP(latent dirichlet allocation-single pass)混合模型,基于單通道算法(single-pass,SP)進(jìn)行語(yǔ)義相似度聚類。微博等社交媒體中的數(shù)據(jù)種類豐富、長(zhǎng)短不一,多數(shù)微博具有共性內(nèi)容,此種情況下,主題模型適應(yīng)性較差,無(wú)法全面地提取主題信息。
第三類方法是基于社區(qū)的共詞分析法,考慮社交媒體的網(wǎng)絡(luò)化特性,利用關(guān)鍵詞節(jié)點(diǎn)構(gòu)建共詞網(wǎng)絡(luò),含有相同關(guān)鍵詞越多的微博社區(qū)連接越緊密,所以共詞網(wǎng)絡(luò)可以表示成“網(wǎng)絡(luò)-社區(qū)、主題-節(jié)點(diǎn)、邊”的形式[22],話題提取取決于對(duì)包含不同詞匯的微博社區(qū)的劃分,且微博社區(qū)間的模塊度[23]決定了微博社區(qū)劃分的精確度,即同一微博社區(qū)內(nèi)部要含有盡可能多的相同關(guān)鍵詞,而不同微博社區(qū)間要含有盡可能少的相同關(guān)鍵詞。例如,丁晟春等[24]考慮微博在傳播過(guò)程中的微博特征和用戶行為,發(fā)現(xiàn)了魏則西事件的潛在主題;方興林[25]采用共詞分析法,得到微博上中國(guó)政務(wù)研究領(lǐng)域的熱點(diǎn)信息;李磊等[26]改進(jìn)了傳統(tǒng)的共現(xiàn)分析法,結(jié)合社會(huì)網(wǎng)絡(luò)分析識(shí)別出社交媒體輿情信息中的主要話題;王艷東等[27]利用共詞網(wǎng)絡(luò)法在網(wǎng)絡(luò)輿情文本數(shù)據(jù)中挖掘話題社區(qū),探測(cè)出災(zāi)情發(fā)展階段及態(tài)勢(shì)。這類方法可自動(dòng)識(shí)別話題數(shù)目,以網(wǎng)絡(luò)社區(qū)為話題基本單位,將現(xiàn)實(shí)社會(huì)網(wǎng)絡(luò)映射到虛擬網(wǎng)絡(luò)空間中,符合微博內(nèi)容具有小社團(tuán)聚集性的特點(diǎn),在話題挖掘領(lǐng)域具有很大的優(yōu)勢(shì);因此選擇共詞分析法,進(jìn)行霧霾情形下,不同城市中人們對(duì)霧霾關(guān)注點(diǎn)的差異以及差異程度的研究。
圍繞“霧霾”一詞采集微博數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行去噪、分詞、去停用詞等預(yù)處理操作,通過(guò)TI-IDF法提取關(guān)鍵詞、進(jìn)而構(gòu)建關(guān)鍵詞共現(xiàn)三元組,再利用Gephi軟件構(gòu)建共詞網(wǎng)絡(luò),最后,通過(guò)Louvain社區(qū)發(fā)現(xiàn)法來(lái)探測(cè)霧霾事件下的話題社區(qū),結(jié)合節(jié)點(diǎn)Pagerank屬性分析不同區(qū)域?qū)F霾事件關(guān)注點(diǎn)的差異及差異程度。論文方法流程圖如圖1所示。
圖1 方法流程圖
關(guān)鍵詞是文本中起關(guān)鍵作用的、反映主題思想、可以代表中心概念的內(nèi)容,通常以詞語(yǔ)或詞組的方式呈現(xiàn)。其不僅要體現(xiàn)文本中的主題相關(guān)性,還需要將詞語(yǔ)的重要性反映出來(lái)[28],因此需要運(yùn)用一定的關(guān)鍵詞抽取技術(shù)篩選出對(duì)構(gòu)建共詞網(wǎng)絡(luò)貢獻(xiàn)度大的關(guān)鍵特征詞。在關(guān)鍵詞提取技術(shù)中,比較經(jīng)典的一種關(guān)鍵詞提取方法為TF-IDF算法[29-30],TF-IDF是一種常用于信息檢索和文本挖掘領(lǐng)域的加權(quán)方法,主要思想是:若一個(gè)詞語(yǔ)在一篇文檔中出現(xiàn)的頻率高,同時(shí)在其他文檔中出現(xiàn)較少,則該詞語(yǔ)具有良好的區(qū)分類別的能力,可用于文本分類、提取核心詞(即關(guān)鍵詞)、計(jì)算文檔間的相似程度、檢索排序等[31],其所代表的權(quán)重表示某一文檔中一個(gè)詞語(yǔ)相對(duì)其他詞語(yǔ)而言的重要程度[32],TF-IDF算法中TF(term frequency)指詞頻,IDF(inverse document frequency)指逆向文檔頻率,TF-IDF實(shí)際上指TF×IDF,意味著一個(gè)詞語(yǔ)的重要程度與該詞語(yǔ)在文本中出現(xiàn)的次數(shù)成正比,與該詞語(yǔ)在整個(gè)文本集合中出現(xiàn)的頻率成反比,這種計(jì)算詞語(yǔ)重要程度的方式可以有效減少常用詞對(duì)關(guān)鍵詞產(chǎn)生的影響,提高了關(guān)鍵詞與其所在文章間的相關(guān)程度。TF值體現(xiàn)了詞語(yǔ)對(duì)某文本的重要性,IDF體現(xiàn)了詞語(yǔ)對(duì)文本集合的重要性,若詞語(yǔ)在文本中TF值高(在該文本中出現(xiàn)次數(shù)多),IDF值高(在其他文本中出現(xiàn)次數(shù)少),則說(shuō)明該詞語(yǔ)能夠代表其所在文本的中心內(nèi)容。TF-IDF值具體計(jì)算公式為
(1)
共詞網(wǎng)絡(luò)的構(gòu)建取決于關(guān)鍵詞共現(xiàn)矩陣的形成,根據(jù)關(guān)鍵詞共現(xiàn)的頻率建立共現(xiàn)矩陣,是后續(xù)統(tǒng)計(jì)分析的基礎(chǔ)[33];共詞網(wǎng)絡(luò)是用以描述關(guān)鍵詞及共現(xiàn)關(guān)系的數(shù)學(xué)圖模型G=(V,E),其中V是一個(gè)非空集合,為關(guān)鍵詞構(gòu)成的節(jié)點(diǎn)(node),E也是一個(gè)非空集合,為關(guān)鍵詞間的共現(xiàn)關(guān)系組建的邊(edge),eij(G)為圖G中的節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間的共現(xiàn)邊,ωij為權(quán)重,是關(guān)鍵詞節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間的共現(xiàn)次數(shù)[34-35]。共詞網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 共詞網(wǎng)絡(luò)結(jié)構(gòu)示意圖
共詞分析最重要的一步即將構(gòu)建出來(lái)的共詞網(wǎng)絡(luò)可視化,直觀呈現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu),常用的共詞網(wǎng)絡(luò)分析工具有Gephi、NetDraw、Pajek、Ucinet等,選取Gephi將關(guān)鍵詞共詞網(wǎng)絡(luò)可視化。
共詞網(wǎng)絡(luò)的結(jié)構(gòu)通常不是雜亂無(wú)序,而會(huì)呈現(xiàn)一定的規(guī)律,一般來(lái)說(shuō),網(wǎng)絡(luò)中部分節(jié)點(diǎn)會(huì)聚集在一起成為小團(tuán)體,團(tuán)體連接越緊密,包含相同的關(guān)鍵詞越多,蘊(yùn)含的話題會(huì)越相似[22]。這種小團(tuán)體結(jié)構(gòu)也叫社區(qū),是常見于社會(huì)網(wǎng)絡(luò)中的一種介于宏觀與微觀之間的網(wǎng)絡(luò)結(jié)構(gòu)特征,在真實(shí)網(wǎng)絡(luò)中,同一個(gè)社區(qū)內(nèi)的節(jié)點(diǎn)往往具有相似功能或性質(zhì),比如引文網(wǎng)絡(luò)是具有論文引用關(guān)系的一些論文集,這些論文集傾向于研究相似的學(xué)科主題[36]。通過(guò)研究社區(qū)的結(jié)構(gòu),可以對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)與功能間的關(guān)系具有更深刻的理解,因此對(duì)共詞網(wǎng)絡(luò)中話題的發(fā)現(xiàn)與描述就可以轉(zhuǎn)化為對(duì)話題社區(qū)的發(fā)現(xiàn),社區(qū)包含的詞語(yǔ)就代表了話題的內(nèi)容。目前,常見社區(qū)發(fā)現(xiàn)算法有譜二分法、Kernighan-Lin算法、層次聚類算法等[37],但這些算法僅適用于小規(guī)模網(wǎng)絡(luò),而不適用于節(jié)點(diǎn)較多的大型網(wǎng)絡(luò),Louvain算法[23]對(duì)大規(guī)模網(wǎng)絡(luò)具有適用性,因此本文研究使用此算法來(lái)進(jìn)行共詞網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)。Louvain算法具有很好的社區(qū)劃分效果及效率,是社區(qū)發(fā)現(xiàn)算法中性能最好的算法之一[38],其基于模塊度[39]進(jìn)行最優(yōu)化、啟發(fā)式計(jì)算,具有計(jì)算結(jié)果解釋性強(qiáng)、支持大規(guī)模網(wǎng)絡(luò)的特點(diǎn),模塊度定義為
(2)
式(2)中:m為圖中邊的總數(shù);ki為所有指向節(jié)點(diǎn)i的連邊權(quán)重之和,kj為所有指向節(jié)點(diǎn)j的連邊權(quán)重之和;Ai,j為節(jié)點(diǎn)i,j之間的連邊權(quán)重;Ci和Cj分別表示節(jié)點(diǎn)i、j所屬社區(qū),當(dāng)i和j同屬一個(gè)社區(qū),δ=1,否則,不同屬一個(gè)社區(qū),δ=0。通過(guò)對(duì)模塊度不斷進(jìn)行優(yōu)化,可以劃分出具有不同話題內(nèi)容的社區(qū),且各社區(qū)內(nèi)部具有盡可能多的相同關(guān)鍵詞,社區(qū)與社區(qū)之間具有盡可能少的相同關(guān)鍵詞[16],可以清晰區(qū)別出不同話題社區(qū)。
主要采用兩種數(shù)據(jù):空氣質(zhì)量數(shù)據(jù)和微博數(shù)據(jù)。城市空氣質(zhì)量數(shù)據(jù)來(lái)源于世界空氣質(zhì)量指數(shù)網(wǎng)站(https://aqicn.org/map/china/cn/),收集范圍包含中國(guó)受霧霾污染最嚴(yán)重的華北地區(qū)典型城市,包括北京市、天津市、石家莊市、太原市、呼和浩特市,以及霧霾相對(duì)嚴(yán)重的東北地區(qū)城市沈陽(yáng)市、華東地區(qū)城市濟(jì)南市,數(shù)據(jù)收集時(shí)間為冬季,包括12月、1月、2月,此季節(jié)相對(duì)于其他季節(jié),霧霾最嚴(yán)重,相關(guān)微博數(shù)據(jù)較豐富,更具代表性及研究?jī)r(jià)值,數(shù)據(jù)內(nèi)容包括城市、日期、PM2.5、PM10、一氧化碳、二氧化氮和二氧化硫含量,由于PM2.5是霧霾污染產(chǎn)生的主要原因,現(xiàn)采用PM2.5含量來(lái)說(shuō)明霧霾污染的程度;微博數(shù)據(jù)通過(guò)后裔采集器抓取,以“霧霾”“空氣”等為搜索關(guān)鍵詞,抓取7個(gè)城市2017年冬季的相關(guān)微博數(shù)據(jù),每條微博的抓取內(nèi)容包括用戶ID、微博博文、時(shí)間范圍、點(diǎn)贊數(shù)及評(píng)論數(shù)等,最終共搜集到34 373條相關(guān)微博數(shù)據(jù),其中,北京市數(shù)據(jù)11 790條、濟(jì)南市數(shù)據(jù)6 140條、沈陽(yáng)市數(shù)據(jù)2 388條、石家莊市數(shù)據(jù)6 860條、太原市數(shù)據(jù)2 459條、天津市數(shù)據(jù)4 736條、呼和浩特市數(shù)據(jù)730條。
上述通過(guò)采集器獲取的微博原始內(nèi)容屬于非結(jié)構(gòu)化的數(shù)據(jù),存在許多噪聲,如重復(fù)數(shù)據(jù)、商業(yè)廣告、特殊符號(hào)等,計(jì)算機(jī)無(wú)法直接進(jìn)行處理,為了提高話題挖掘的準(zhǔn)確性和效率,需要進(jìn)行數(shù)據(jù)清洗、文本分詞以及過(guò)濾停用詞的預(yù)處理操作。本文利用Python語(yǔ)言編程剔除表情符號(hào)、標(biāo)簽、網(wǎng)頁(yè)鏈接等內(nèi)容以實(shí)現(xiàn)數(shù)據(jù)清洗,調(diào)用Python中的jieba庫(kù)對(duì)清洗過(guò)的數(shù)據(jù)分詞,然后,加載哈工大停用詞表過(guò)濾“我、的、了”等停用詞,最終將原始微博數(shù)據(jù)轉(zhuǎn)為由若干詞語(yǔ)組成的結(jié)構(gòu)化數(shù)據(jù),以便后續(xù)分析,數(shù)據(jù)預(yù)處理結(jié)果如表1所示。
表1 微博文本預(yù)處理示例
對(duì)于預(yù)處理后的微博文本,利用Python實(shí)現(xiàn)jieba庫(kù)中的TF-IDF算法,計(jì)算每個(gè)詞語(yǔ)的TF-IDF值也即該詞語(yǔ)的重要性值,經(jīng)排序得到排名靠前的若干詞語(yǔ),即可得到每條微博的關(guān)鍵特征詞,本文設(shè)定提取每條微博TF-IDF權(quán)重最大的前70個(gè)關(guān)鍵詞,詞性范圍包括n(名詞)、nr(人名)、ns(地名)、f(方位詞)、a(形容詞)、v(動(dòng)詞)、z(狀態(tài)詞),以便構(gòu)建出內(nèi)容清晰、規(guī)模適中的共詞網(wǎng)絡(luò);同樣,利用Python編程統(tǒng)計(jì)關(guān)鍵詞節(jié)點(diǎn)之間的關(guān)系頻數(shù)構(gòu)建共現(xiàn)矩陣,借助字典數(shù)據(jù)結(jié)構(gòu)將共現(xiàn)矩陣轉(zhuǎn)換為共現(xiàn)三元組,便于存儲(chǔ),共現(xiàn)三元組示例如表2所示。
表2 關(guān)鍵詞共現(xiàn)三元組示例
Gephi軟件基于Java虛擬機(jī),跨平臺(tái)、開源,可用于分析各種復(fù)雜網(wǎng)絡(luò)[40]。首先,將共現(xiàn)三元組導(dǎo)入Gephi軟件中,統(tǒng)計(jì)得到網(wǎng)絡(luò)的節(jié)點(diǎn)個(gè)數(shù)與邊條數(shù),計(jì)算節(jié)點(diǎn)重要性——Pagerank大小,并根據(jù)節(jié)點(diǎn)Pagerank值、邊與節(jié)點(diǎn)間的權(quán)重設(shè)置節(jié)點(diǎn)與邊的外觀;其次,為使網(wǎng)絡(luò)清晰可觀,根據(jù)邊拓?fù)渲械亩确秶禂?shù)對(duì)邊進(jìn)行過(guò)濾,降低網(wǎng)絡(luò)復(fù)雜度,同時(shí)保留重要節(jié)點(diǎn);最后,調(diào)整網(wǎng)絡(luò)布局,采用軟件內(nèi)置的力引導(dǎo)布局算法,將節(jié)點(diǎn)模擬為原子,利用原子間的引力和斥力做迭代運(yùn)動(dòng),調(diào)整每個(gè)節(jié)點(diǎn)的位置,使網(wǎng)絡(luò)具有最平衡的結(jié)構(gòu),本文選擇社區(qū)探測(cè)效果最明顯的Fruchterman Reingold算法,分別得到7個(gè)城市包含子話題社區(qū)的共詞網(wǎng)絡(luò),如圖3所示。
圖3 包含子話題社區(qū)的共詞網(wǎng)絡(luò)
3.4.1 宏觀層面
運(yùn)行Gephi軟件的統(tǒng)計(jì)分析模塊,得到各城市微博宏觀層面的網(wǎng)絡(luò)概況,如表3所示。各網(wǎng)絡(luò)參數(shù)定義如下。
表3 城市微博共詞網(wǎng)絡(luò)概況
平均度:表示圖中每個(gè)節(jié)點(diǎn)所連接邊的平均數(shù),衡量網(wǎng)絡(luò)節(jié)點(diǎn)的活躍度,值越小代表節(jié)點(diǎn)間連接越少。
圖密度:表示網(wǎng)絡(luò)節(jié)點(diǎn)間連接的疏密程度,值越大代表節(jié)點(diǎn)連接密集。
模塊化指數(shù):表示網(wǎng)絡(luò)的模塊化程度,值越大代表模塊化程度越高。
平均聚類系數(shù):表示節(jié)點(diǎn)抱團(tuán)或聚類的總體跡象,值越大代表節(jié)點(diǎn)關(guān)聯(lián)越緊密;和平均路徑長(zhǎng)度一起,反映網(wǎng)絡(luò)的小世界特性。
平均路徑長(zhǎng)度:表示任意兩個(gè)節(jié)點(diǎn)之間距離的平均值,反映網(wǎng)絡(luò)中節(jié)點(diǎn)間的分離程度,值越小代表節(jié)點(diǎn)關(guān)聯(lián)越緊密。
綜合考慮各網(wǎng)絡(luò)參數(shù),對(duì)7個(gè)城市共詞網(wǎng)絡(luò)參數(shù)值進(jìn)行比較,觀察得節(jié)點(diǎn)數(shù)與邊條數(shù)同向變化,將兩者合并為網(wǎng)絡(luò)規(guī)模,得如表4度量排序情況。
表4 城市共詞網(wǎng)絡(luò)度量排序表(降序)
分析表3及表4可知,7個(gè)城市的微博共詞網(wǎng)絡(luò)規(guī)模各異,但觀察發(fā)現(xiàn),規(guī)模大的網(wǎng)絡(luò)中,模塊化程度不一定高,節(jié)點(diǎn)間的聯(lián)系不一定緊密,因此,僅依靠網(wǎng)絡(luò)的宏觀概況難以看出網(wǎng)絡(luò)中各社區(qū)的細(xì)微差異,因此需結(jié)合社區(qū)內(nèi)部節(jié)點(diǎn)的屬性來(lái)深入分析不同城市共詞網(wǎng)絡(luò)在話題社區(qū)方面的差異。
3.4.2 微觀層面
共詞網(wǎng)絡(luò)圖中,節(jié)點(diǎn)顏色決定話題社區(qū)內(nèi)容,節(jié)點(diǎn)大小決定話題社區(qū)大小,結(jié)合圖3中不同顏色的節(jié)點(diǎn)內(nèi)容及Gephi中節(jié)點(diǎn)屬性可以得到表5所示的話題社區(qū)情況,進(jìn)而定量分析在霧霾事件下,7個(gè)城市人民輿情關(guān)注點(diǎn)的差異。
表5 北京市共詞網(wǎng)絡(luò)話題社區(qū)示例
由于篇幅限制,沒(méi)有展示剩余話題社區(qū)詳情,利用同樣的分析方法可得到表6所示的話題社區(qū)簡(jiǎn)表。
分析表6可知,霧霾發(fā)生時(shí),按照對(duì)話題的關(guān)注程度,北京市關(guān)注話題依次為探討原因、霧霾治理、樂(lè)觀態(tài)度、直觀感受、旅行娛樂(lè),濟(jì)南市關(guān)注話題依次為直觀感受、旅行娛樂(lè)、交通影響、風(fēng)景名勝、應(yīng)對(duì)措施,沈陽(yáng)市關(guān)注話題依次為直觀感受、呼吁倡導(dǎo)、航班取消、樂(lè)觀態(tài)度、放假休息,石家莊市關(guān)注話題依次為直觀感受、負(fù)面情緒、霧霾治理、健康威脅、交通影響,太原市關(guān)注話題依次為直觀感受、霧霾治理、樂(lè)觀態(tài)度、交通管制、航班取消,天津市關(guān)注話題依次為直觀感受、專家解釋、健康威脅、呼吁倡導(dǎo)、日常生活,呼和浩特市關(guān)注話題依次為官方發(fā)聲、霧霾治理、政府整治、直觀感受。
表6 各市共詞網(wǎng)絡(luò)話題社區(qū)一覽表
同時(shí),各市關(guān)注點(diǎn)有交叉部分,在對(duì)霧霾直觀感受方面,每個(gè)城市人民在霧霾發(fā)生時(shí)都會(huì)對(duì)此描述所見所想,但程度有深有淺,由深及淺依次為石家莊市、濟(jì)南市、沈陽(yáng)市、太原市、天津市、北京市、呼和浩特市;在對(duì)霧霾治理的討論方面,有4個(gè)城市對(duì)其有所關(guān)注,按關(guān)注程度依次為北京市、太原市、呼和浩特市、石家莊市;呼吁倡導(dǎo)方面,按討論程度,沈陽(yáng)市優(yōu)于天津市;旅行娛樂(lè)方面,北京市和濟(jì)南市關(guān)注程度相當(dāng);樂(lè)觀態(tài)度方面,按程度依次為北京市、太原市、沈陽(yáng)市;在霧霾對(duì)交通影響的討論方面,按程度為濟(jì)南市、石家莊市;對(duì)于航班取消的關(guān)注,按程度為濟(jì)南市、太原市;在霧霾對(duì)健康造成威脅的關(guān)注上,依次為天津市、石家莊市。
除共同關(guān)注話題外,每個(gè)城市有其獨(dú)有的關(guān)注點(diǎn),北京市人民側(cè)重于對(duì)造成霧霾的原因進(jìn)行探討,濟(jì)南市人民會(huì)具體討論應(yīng)對(duì)霧霾的措施,沈陽(yáng)市人民在霧霾天氣下較關(guān)注放假休息,石家莊市人民對(duì)霧霾的耐受性可能不如其他幾個(gè)城市,太原市人民對(duì)于交通管制給予更多的關(guān)注,天津市人民較關(guān)注專家對(duì)霧霾現(xiàn)象的解釋說(shuō)明,而呼和浩特市較重視官方媒體所作出的回應(yīng)以及政府對(duì)霧霾污染進(jìn)行整治,在7個(gè)城市中,呼和浩特市空氣質(zhì)量最好,在一定程度上得益于對(duì)霧霾的及時(shí)關(guān)注與積極應(yīng)對(duì)。
利用基于社區(qū)的共詞網(wǎng)絡(luò)法探究霧霾污染時(shí),不同城市的人們?cè)谖⒉┲嘘P(guān)注點(diǎn)的差異性,以華北地區(qū)、華東地區(qū)、東北地區(qū)7個(gè)典型城市為研究地區(qū),得出如下結(jié)論。
(1)雖然每個(gè)城市對(duì)霧霾的關(guān)注點(diǎn)有細(xì)微差異,但發(fā)生霧霾污染時(shí),各城市人民都會(huì)對(duì)其有及時(shí)感知,并會(huì)討論霧霾所帶來(lái)的各方面影響。
(2)出于對(duì)健康生活的需要,各城市人民對(duì)霧霾治理都有不同程度的關(guān)注,如霧霾治理、呼吁倡導(dǎo)、應(yīng)對(duì)措施等關(guān)注內(nèi)容。
(3)同時(shí),多數(shù)城市對(duì)霧霾事件的態(tài)度以樂(lè)觀為主,少數(shù)城市會(huì)出現(xiàn)情緒異常,如石家莊市共詞網(wǎng)絡(luò)中的難受、無(wú)奈、抑郁等關(guān)鍵詞。
研究結(jié)果對(duì)城市健康發(fā)展可起到一定的理論指導(dǎo)作用,如針對(duì)大眾情緒異常,采取措施實(shí)現(xiàn)提前心理干預(yù),降低不良行為的發(fā)生概率;針對(duì)霧霾污染對(duì)身體健康造成的負(fù)面影響,增設(shè)相關(guān)醫(yī)療部門,調(diào)配醫(yī)療資源以滿足健康需求;針對(duì)霧霾天氣導(dǎo)致的道路交通安全問(wèn)題,相關(guān)部門可加強(qiáng)安全提示、增加路面巡邏管控來(lái)減少交通事故的發(fā)生,為居民出行營(yíng)造良好的交通安全環(huán)境;管理人員可根據(jù)不同霧霾輿情關(guān)注點(diǎn),制定差異化應(yīng)對(duì)策略,實(shí)現(xiàn)對(duì)癥管理,提高管理效率。
利用關(guān)鍵詞間的共現(xiàn)關(guān)系構(gòu)建共詞網(wǎng)絡(luò),以Louvain社區(qū)探測(cè)算法發(fā)現(xiàn)話題社區(qū),以此為基礎(chǔ)單元研究關(guān)注點(diǎn)的差異性。其中,關(guān)鍵詞提取基于TF-IDF算法,會(huì)過(guò)濾掉某些重要詞語(yǔ),影響話題社區(qū)探測(cè)的準(zhǔn)確性;其次,本文話題挖掘基于靜態(tài)時(shí)間段,隨著時(shí)間發(fā)展,人們的關(guān)注點(diǎn)會(huì)發(fā)生變化,本文未在此方面做詳細(xì)研究,因此,改進(jìn)關(guān)鍵詞提取算法以及霧霾輿情動(dòng)態(tài)話題演化將是下一步研究的重點(diǎn)。