白玲瑋 魏莉
當前,中國面臨嚴重的環(huán)境污染問題,其中空氣質量問題日益突出,且已經(jīng)嚴重影響到人們的身體健康、生活水平甚至國民經(jīng)濟的發(fā)展??諝赓|量的定性、定量分析能夠幫助公眾了解現(xiàn)狀,為政府制定環(huán)境政策并采取有效措施提供科學依據(jù),從而達到進一步改善空氣質量的目的。而且空氣質量問題一直以來都是微博熱搜話題。根據(jù)LDA網(wǎng)絡輿情,從微博文本中提出主要觀點,可以有效地擴大個人的思想和認知,同時為輿論監(jiān)督和指導提供了堅實的基礎。
一、實證分析
(一)全國主要城市2016年空氣質量分析
首先,根據(jù)2016年1月1日至2017年1月1日全國367個城市平均AQI值繪制折線圖。可以看出,1月份平均AQI較高,2月到10月總體呈下降趨勢,空氣質量相對較好。11月份到12月份急劇上升,達到中度污染甚至重污染,這可能是受到北方地區(qū)進入供暖期后,煤炭等能源的燃燒增多的影響。緊接著研究發(fā)現(xiàn)我國六項空氣污染物指標中首要污染物為PM2.5,其次為 、PM10、 以及復合污染物。最后,收集2014年、2015年和2016年中國五大主要城市(北京、上海、廣州、沈陽、成都)的PM2.5每小時觀測值??芍獜?014 年到20016年,五個主要城市的PM2.5 觀測值均有所減小,且北京下降幅度最大??傮w來看,我國PM2.5 治理成效明顯。
(二)基于主題模型的新浪微博數(shù)據(jù)輿情分析
本文數(shù)據(jù)來自新浪微博用戶“人民日報”和“環(huán)保北京”。
1.語料預處理。很多用戶的微博內容字數(shù)較少,且部分含有大量無意義的信息,因此需要對數(shù)據(jù)進行篩選。本文篩選標準為:刪除字數(shù)少于兩個的、帶有廣告等與話題無關的微博,保留信息量較大的原創(chuàng)微博。篩選過后,對得到的470條微博數(shù)據(jù)進行預處理,利用R軟件進行分詞。首先提取名詞、動詞等具有實際意義的詞語,再去除標點、停用詞及數(shù)字,構建詞文檔矩陣,矩陣中共包括22305個分詞。
2.結果分析。根據(jù)得到的詞文檔矩陣,初步可以看出出現(xiàn)頻率較高的詞語有口罩、治理、北京、污染等。其中,口罩是出現(xiàn)頻率最高的詞語,以及防毒面具等關鍵詞說明在空氣質量問題上人們對空氣質量帶來的個人健康問題最為重視,尤其在2016年末,空氣污染最為嚴重的時候,口罩在熱點話題中的位置居高不下。還可以看出公眾對政府治理措施的高度關注,認為政府是否作為、監(jiān)管力度是否足夠在此事件中的影響很大。此外,關鍵詞房價值得注意,有國外學者認為房地產(chǎn)價格與空氣質量有一定的相關關系,但是國內此方面的研究還有待深入。
然后使用R軟件中的ida程序包進行訓練,使用快速壓縮Gibbs抽樣方法。主題個數(shù)k對LDA模型的最終結果影響很大,經(jīng)過反復實驗比較和判斷,最終確定主題個數(shù)為5,參數(shù) 和 的初始值為0和1。實驗結果如下:
由表1可知,每個topic的關鍵詞都能較為清楚地反映主題的內容。通過對比LDA模型提取的熱點主題與用于建模的470條微博內容,可以認為LDA模型在提取“空氣質量”熱點話題主題的應用上有較好的效果。5個Topic的關鍵詞反映的主題內容表明公眾對空氣質量、身體健康、情緒狀態(tài)、污染地區(qū)、治理措施的關注。綜上所述,LDA模型在空氣質量這一熱點微博主題挖掘中呈現(xiàn)了較好的效果,但是仍需進一步的完善和改進。
二、結語
從整體上看,2016年我國空氣質量呈現(xiàn)較為良好狀態(tài),在時空上有較為明顯的分布特征,由內陸向沿海地區(qū)、由北方向南方空氣質量呈變好趨勢,夏天空氣質量相對較好,且高污染城市易對周邊地區(qū)產(chǎn)生影響。第四季度特別是冬季的空氣質量較差,且易出現(xiàn)極端污染情況。我國的首要污染物為PM2.5,2016年在東北、華北地區(qū)對PM2.5的治理效果顯著,由于原本空氣質量污染嚴重,故采取治理措施后效果顯著。另外,LDA模型在空氣質量微博評論主題挖掘這一實際問題中呈現(xiàn)了較好的效果。模型挖掘得到公眾對于空氣質量這一熱點主題的關注主要表現(xiàn)在空氣質量情況、污染嚴重城市、自我防護措施等方面。(作者單位為山西財經(jīng)大學統(tǒng)計學院)