鄭 巖 孫 勇# 季 民 宋鵬飛 張立國
(1.山東科技大學(xué)測繪科學(xué)與工程學(xué)院,山東 青島 266590;2.山東省國土測繪院,山東 濟南 250013)
大氣質(zhì)量感知是人通過主觀的直接感受對客觀空氣質(zhì)量的反映[1]。公眾對于大氣質(zhì)量感知的滿意度是政府進行大氣污染評價的重要依據(jù)。受ZEITHAML[2]提出的消費品質(zhì)量感知啟發(fā),許多學(xué)者對大氣質(zhì)量感知進行了研究。張君等[3]通過大氣質(zhì)量感知研究表明,公眾對大氣污染的關(guān)注度在不斷提升。張文曉等[4]研究發(fā)現(xiàn),居民收入、人力資本水平、職業(yè)狀況會對大氣質(zhì)量感知滿意度產(chǎn)生影響。FEO等[5]研究發(fā)現(xiàn),垃圾處理廠及其產(chǎn)生的氣味對周邊居民的大氣質(zhì)量感知滿意度產(chǎn)生直接影響。這些研究基本上都采用的是紙質(zhì)調(diào)查問卷方式,這種方式研究成本大、覆蓋范圍窄、更新速度慢,不利于進行大氣質(zhì)量感知滿意度的動態(tài)跟蹤。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和普及,公眾更傾向于在網(wǎng)絡(luò)上發(fā)表言論,很多有關(guān)空氣質(zhì)量的投訴和建議平臺也應(yīng)運而生。這些平臺中的評論數(shù)量多、更新速度快、覆蓋范圍廣,利用公眾對于大氣質(zhì)量感知的各種情感色彩和情感傾向性的詞(即情感詞)進行情感分析[6-8],可獲得公眾對于大氣質(zhì)量感知的滿意度。因此,建立公眾對于大氣質(zhì)量感知的情感詞庫至關(guān)重要。目前,國內(nèi)僅有大連理工大學(xué)、臺灣大學(xué)和知網(wǎng)等的基礎(chǔ)情感詞庫,對大氣質(zhì)量感知的適用性較差。為此,本研究構(gòu)建了一套完整的大氣質(zhì)量感知領(lǐng)域情感詞庫,基于該領(lǐng)域情感詞庫分析大氣質(zhì)量感知滿意度,以提高利用網(wǎng)絡(luò)平臺進行大氣質(zhì)量感知滿意度評價的精度。
(1) 空氣質(zhì)量投訴網(wǎng)絡(luò)平臺數(shù)據(jù):來源于山東省環(huán)境公訴(信訪)平臺(http://124.128.64.175/tabid/202/Default.aspx)的公眾投訴數(shù)據(jù),主要提取了2011年6月至2018年10月的22 269條投訴數(shù)據(jù)。
(2) 網(wǎng)絡(luò)問卷調(diào)查數(shù)據(jù):為更精準(zhǔn)地獲取更多大氣質(zhì)量感知領(lǐng)域情感詞,自主設(shè)計了網(wǎng)絡(luò)調(diào)查問卷(http://123.206.81.238:8008/air/index.html),獲取了2018年12月至2019年2月的719條有效數(shù)據(jù),涵蓋山東省、江蘇省、湖北省、河北省、福建省、北京市和安徽省等地區(qū)。
基礎(chǔ)情感詞庫由基礎(chǔ)情感詞典和修飾詞詞典構(gòu)成。基礎(chǔ)情感詞典選用的是大連理工大學(xué)信息檢索研究室整理并標(biāo)注的中文情感詞典,包括動詞、名詞、形容詞、副詞、網(wǎng)絡(luò)用語和成語,每一個詞語都標(biāo)注了對應(yīng)的情感極性(中性、褒義和貶義),中性的情感強度為0,褒義和貶義的情感強度分別分為1、3、5、7、9共5個級別。修飾詞詞典包括否定詞和程度副詞。其中,程度副詞包括欠、稍、較、很、極其5個級別,本研究對這些程度副詞權(quán)重進行了量化賦值,欠為0.6、稍為0.8,較為1.2、很為2.0、極其為3.0。目前,這些程度副詞的權(quán)重量化基本僅憑經(jīng)驗賦值。
以空氣質(zhì)量投訴網(wǎng)絡(luò)平臺數(shù)據(jù)和網(wǎng)絡(luò)問卷調(diào)查數(shù)據(jù)作為原始文本語料,按圖1流程構(gòu)建領(lǐng)域情感詞典。領(lǐng)域情感詞典共包含2 137個詞語,包括詞語及其分類、極性和情感強度等注釋。
(1) 分詞處理
本研究采用Jieba分詞工具對原始文本語料進行分詞處理,但其對專業(yè)領(lǐng)域的新詞識別精度不高[9-10],因此本研究加入了大氣質(zhì)量感知領(lǐng)域的自定義詞典[11]。
(2) 結(jié)合基礎(chǔ)情感詞典去重
圖1 領(lǐng)域情感詞典的構(gòu)建Fig.1 Construction of domain emotion dictionary
在分詞處理的基礎(chǔ)上,將得到的分詞短語與基礎(chǔ)情感詞典中的詞語進行比對,去重后得到候選情感詞。
(3) 選擇與大氣質(zhì)量感知相關(guān)的情感詞
根據(jù)基礎(chǔ)情感詞典中的分類,分類選擇與大氣質(zhì)量感知相關(guān)的情感詞,作為初始領(lǐng)域情感詞(2 072個)。
(4) 補充網(wǎng)絡(luò)搜索領(lǐng)域情感詞
在百度百科中檢索“大氣污染”又獲取大氣質(zhì)量感知領(lǐng)域詞126個,與初始領(lǐng)域情感詞去重后合并,得到最終領(lǐng)域情感詞(2 137個)。
(5) 情感強度標(biāo)注
把領(lǐng)域情感詞典合并到基礎(chǔ)情感詞庫中就構(gòu)成了領(lǐng)域情感詞庫。隨機選取3 000條空氣質(zhì)量投訴網(wǎng)絡(luò)平臺數(shù)據(jù),利用情感詞庫進行大氣質(zhì)量感知滿意度計算。首先根據(jù)式(1)計算第m個短語的大氣質(zhì)量感知滿意度(E(Pm)),每個分句的大氣質(zhì)量感知滿意度取該分句中所有短語的大氣質(zhì)量感知滿意度最小值,所有分句大氣質(zhì)量感知滿意度最小值作為整條文本語句的大氣質(zhì)量感知滿意度。
表1 情感強度標(biāo)注準(zhǔn)則
E(Pm)=E(PW)×(-1)q×E(PA)
(1)
式中:E(PW)為某情感詞的情感強度;q為某情感詞的否定詞個數(shù);E(PA)為程度副詞的權(quán)重。
將3 000條空氣質(zhì)量投訴網(wǎng)絡(luò)平臺數(shù)據(jù)利用情感詞庫計算得到大氣質(zhì)量感知滿意度,與5人人工標(biāo)注的大氣質(zhì)量感知滿意度平均值進行對比,計算絕對誤差絕對值作為精度判斷依據(jù),結(jié)果如表2所示。本研究設(shè)定絕對誤差絕對值≤2為符合精度要求,否者為不符合。由表2可以得出,采用基礎(chǔ)情感詞庫計算得到的大氣質(zhì)量感知滿意度符合精度要求的條數(shù)只占33.1%,而利用領(lǐng)域情感詞庫計算得到的大氣質(zhì)量感知滿意度符合精度要求的條數(shù)高達93.9%。由此可見,大氣質(zhì)量感知領(lǐng)域情感詞典可為大氣質(zhì)量感知滿意度計算提供強有力的支撐。
表2 精度對比結(jié)果
利用空氣質(zhì)量投訴網(wǎng)絡(luò)平臺數(shù)據(jù)采用領(lǐng)域情感詞庫對山東省最近1年的投訴數(shù)據(jù)進行大氣質(zhì)量感知滿意度計算,并按地級市進行統(tǒng)計匯總(見圖2)。
圖2 山東省大氣質(zhì)量感知滿意度Fig.2 Atmospheric quality perception satisfaction of Shandong Province
由圖2可以看到,煙臺市、濰坊市、臨沂市、青島市4個地級市大氣質(zhì)量感知滿意度較差,而威海市和日照市兩個沿海的地級市大氣質(zhì)量感知滿意度相對較好一些。分析山東省各地級市工業(yè)收入發(fā)現(xiàn),工業(yè)收入排名靠前的城市投訴多,大氣質(zhì)量感知滿意度偏差。
由于空氣質(zhì)量投訴網(wǎng)絡(luò)平臺數(shù)據(jù)多為負向情感,具有一定的情感偏向性,為避免這種情感偏向性對計算結(jié)果造成的影響,進一步選用網(wǎng)絡(luò)問卷調(diào)查數(shù)據(jù)對更多省份(選擇回收數(shù)據(jù)大于10條的省份)進行大氣質(zhì)量感知滿意度計算,結(jié)果如圖3所示。
圖3 其他省份大氣質(zhì)量感知滿意度Fig.3 Atmospheric quality perception satisfaction of other provinces
由圖3可以看到,不同省份表現(xiàn)出不同的大氣質(zhì)量感知滿意度,福建省正向大氣質(zhì)量感知滿意度較高,而江蘇省、湖北省和河北省則具有較強烈的負向大氣質(zhì)量感知滿意度??傮w而言,公眾感知大氣污染越嚴(yán)重,該地區(qū)的整體大氣質(zhì)量越差,說明公眾大氣質(zhì)量感知滿意度能夠正確反映區(qū)域的整體大氣質(zhì)量狀況。
(1) 建立了大氣質(zhì)量感知領(lǐng)域情感詞庫并用于大氣質(zhì)量感知滿意度計算,計算精度高達93.9%,遠高于利用基礎(chǔ)情感詞庫計算得到的大氣質(zhì)量感知滿意度精度(33.1%),可有效計算大氣質(zhì)量感知滿意度。
(2) 山東省煙臺市、濰坊市、臨沂市、青島市4個地級市的大氣質(zhì)量感知滿意度較差,而威海市和日照市兩個沿海的地級市大氣質(zhì)量感知滿意度相對較好一些。工業(yè)收入排名靠前的城市投訴較多,大氣質(zhì)量感知滿意度偏差。
(3) 不同省份表現(xiàn)出不同的大氣滿意度,福建省正向大氣質(zhì)量感知滿意度較高,而江蘇省、湖北省和河北省則具有較強烈的負向大氣質(zhì)量感知滿意度。公眾大氣質(zhì)量感知滿意度能夠正確反映區(qū)域的整體大氣質(zhì)量狀況。