宋鵬飛孫 勇季 民張立國鄭 巖
1山東科技大學(xué)測繪與空間信息學(xué)院,山東 青島,266590
2山東建筑大學(xué)測繪地理信息學(xué)院,山東 濟南,250101
3山東省國土測繪院,山東 濟南,250000
隨著我國經(jīng)濟的快速發(fā)展,不斷出現(xiàn)的區(qū)域性大氣污染事件[1],已成為政府和公眾關(guān)注的焦點。目前大氣質(zhì)量監(jiān)測主要依賴的是國控站點,這些站點大多分布在城市,且點位稀疏,通過這些站點的長時序監(jiān)測,可為宏觀區(qū)域大氣質(zhì)量變化分析提供實測依據(jù),但對頻發(fā)的局域性或區(qū)域性大氣污染事件的監(jiān)測則顯得有些不力。而公眾是空氣質(zhì)量的直接感知者[2],對空氣質(zhì)量的滿意度評價則可以成為政府職能部門進行大氣環(huán)境治理的基礎(chǔ)[3]。自從人類進入互聯(lián)網(wǎng)時代,人們在網(wǎng)絡(luò)上進行大氣質(zhì)量的議論和評價已經(jīng)成為常態(tài),通過收集公眾對大氣質(zhì)量投訴的輿情信息,并加以空間化,可有效地反映出區(qū)域性大氣污染狀況分布,這不僅能夠提高民眾的政治參與度[4],而且還能夠為政府部門對區(qū)域性大氣污染事件的監(jiān)管與治理提供決策依據(jù)。
關(guān)于空間化方法,國內(nèi)外學(xué)者均進行了諸多研究,王明明等[5]利用夜間燈光數(shù)據(jù)進行了山東省鄉(xiāng)鎮(zhèn)級人口數(shù)據(jù)的空間化;尹言軍等[6]利用FME軟件對浮動車的交通數(shù)據(jù)進行了空間化。自然語言處理(natural language processing,NLP)技術(shù)也得到了快速發(fā)展,尤其在中文分詞和詞性標(biāo)注等方面[7-9],Matci等[10]將自然語言處理融入到地理編碼中,通過地址分解、錯誤修正及基于NLP的地址重組,實現(xiàn)了地址標(biāo)準(zhǔn)化;許普樂等[11]在大數(shù)據(jù)環(huán)境下,基于貝葉斯推理進行了海量中文地名地址的快速匹配。目前關(guān)于大氣質(zhì)量輿情信息的地址匹配和空間定位尚未有相關(guān)文獻,本文以山東省環(huán)境保護廳公眾投訴平臺爬取的大氣質(zhì)量輿情數(shù)據(jù)為基礎(chǔ),通過使用基于條件隨機場(conditional random field,CRF)模型的中文分詞和詞性標(biāo)注等方法,進行了大眾重點投訴區(qū)域的地址匹配和空間可視化表達(dá),可為山東省從宏觀到中小尺度下的大氣質(zhì)量監(jiān)測提供一定的參考。
大氣污染輿情數(shù)據(jù)來源于山東省環(huán)境保護廳公眾投訴平臺爬取的公眾投訴信息,其中主要包含:投訴的大氣污染類型、投訴時間、投訴內(nèi)容以及針對投訴的處理狀態(tài)、答復(fù)情況等,其中,大氣污染類型主要包括了飛塵、惡臭/異味、油煙、機動車/移動源、工業(yè)廢氣、煙塵以及其他大氣污染等;投訴內(nèi)容以自然語言形式存在,需要對其進行分析和處理,以提取其中的中文地址信息和大氣污染專題輿情語義信息。
在對大氣質(zhì)量輿情信息進行處理時主要用到了自然語言處理技術(shù)中的中文文辭和詞性標(biāo)注,主要的算法有隱馬爾科夫模型(hidden Markov model,HMM)、最大熵模型、CRF模型等[12],鑒于CRF模型的性能優(yōu)勢,本文選擇使用CRF模型來進行中文分詞,并使用HMM模型對無法識別的未登錄詞進行標(biāo)注。
1)CRF模型。
CRF模型在進行分詞時,不僅能夠統(tǒng)計某個詞出現(xiàn)的頻率,而且還將上下文語境也納入考量范圍內(nèi),在對數(shù)據(jù)中的一些未登錄詞,例如工廠名稱等,具有良好的切分效果。其中最常用的是線性條件隨機場模型,在隨機變量X取值為x的條件下,隨機變量Y取值為y的條件概率[13]。
2)HMM模型。
HMM模型包含一個可見的狀態(tài)序列和一個隱藏狀態(tài)序列,這兩個序列概率相關(guān),并由5個參數(shù)組成[14],可以用一個五元組{N,M,η,A,B}表示。其中,N表示隱藏狀態(tài)的數(shù)量,每一個狀態(tài)的概率可以有確定的值,也可以進行分析確定;M表示可見狀態(tài)的數(shù)量,通過訓(xùn)練集獲??;η=ηi表示每一個隱藏狀態(tài)初始時刻發(fā)生的概率;A={aij}表示隱藏狀態(tài)的轉(zhuǎn)移矩陣,即從隱藏狀態(tài)1到隱藏狀態(tài)2事件發(fā)生的概率;B={bij}表示混淆矩陣,即在某個隱藏狀態(tài)的條件下可見狀態(tài)發(fā)生的概率。
在大氣污染空間化分析與評價中,需要將公眾輿情數(shù)據(jù)中的地址信息進行解析提取,并通過地址匹配方法,實現(xiàn)空間位置轉(zhuǎn)化,其數(shù)據(jù)處理過程可包括:數(shù)據(jù)預(yù)處理、自然語言處理、詞性提取、地址匹配等。其中,數(shù)據(jù)預(yù)處理包括了內(nèi)容提取和去停用詞等兩個步驟,自然語言處理包括了中文分詞和詞性標(biāo)注等兩個過程,如圖1所示。
圖1 大氣輿情數(shù)據(jù)空間化過程Fig.1 Air Public Opinion Data Spatialization Process
數(shù)據(jù)預(yù)處理就是對公眾投訴的輿情數(shù)據(jù)進行內(nèi)容提取及停用詞去除。首先為了便于管理和數(shù)據(jù)讀寫的方便,通過設(shè)計相應(yīng)的數(shù)據(jù)庫結(jié)構(gòu),將獲取的公眾投訴數(shù)據(jù)轉(zhuǎn)存入數(shù)據(jù)庫,并將包含位置信息的數(shù)據(jù)內(nèi)容以單獨字段進行存儲,以提高數(shù)據(jù)分析過程中的讀寫效率,同時通過去除一些特殊符號、停用詞等,實現(xiàn)對數(shù)據(jù)內(nèi)容的清洗。
借助CRF模型對公眾投訴內(nèi)容進行中文分詞,將分詞結(jié)果在百度詞庫中進行字符串匹配,查找詞性,無法識別成功的詞語既為未登錄詞,緊接著運用HMM模型對其進行詞性標(biāo)注。由于同一個詞在不同的語句中具有多種詞性,并且在不同應(yīng)用領(lǐng)域中也存在諸多未登錄詞,從而造成詞性標(biāo)注存在諸多難點,為此,將詞語的詞性劃分為普通名詞、普通動詞、代詞、形容詞等24類,如表1所示。為了進一步確定專有名稱,又劃分了人名(PER)、地名(LOC)、機構(gòu)名(ORG)、時間(TIME)這4類專名詞性,這些詞性分類為自然語言處理過程中的詞性標(biāo)注提供了有力支撐。
表1 詞性標(biāo)注表Tab.1 Part of Speech Tag
詞性標(biāo)注分析完成后,須將其中的地名(LOC)和機構(gòu)名(ORG)進行提取,由于公眾投訴內(nèi)容中可能會包括工廠污染排放問題,因此提取的工廠名稱會被標(biāo)注為機構(gòu)名。詞性提取完成后,須按照提取的地點名稱和機構(gòu)名稱實現(xiàn)投訴信息的空間定位,即地址匹配。所謂地址匹配是使用地理編碼將地址信息轉(zhuǎn)為經(jīng)緯度坐標(biāo),并將地址匹配結(jié)果定位到地圖上,通過制作熱力圖實現(xiàn)大氣污染輿情信息的空間化。地址匹配時,根據(jù)提取的地名和機構(gòu)名的情況,主要包括以下3種組合情況:①若解析后的詞性只有地名沒有機構(gòu)名,則只對地名進行地址匹配;②若解析后的詞性只有機構(gòu)名沒有地名,則只對機構(gòu)名進行地址匹配;③若既有地名也有機構(gòu)名,則對機構(gòu)名和地名進行判斷:機構(gòu)名中如果包含地名,則選擇機構(gòu)名進行地址匹配,如果不包含則通過“地名+機構(gòu)名”的方法進行地址匹配。
本文選取了山東省環(huán)境保護廳公眾投訴平臺上的2017年2月到2018年10月共5 000條公眾投訴 信息,按照前述大氣質(zhì)量輿情信息空間化方法對這些數(shù)據(jù)進行了處理和分析,以區(qū)縣為單元進行了統(tǒng)計,并運用GIS的核密度分析功能,制作了山東省大氣污染投訴熱力分布圖,通過空間化結(jié)果可以看出,公眾投訴的重點區(qū)域主要是淄博、濰坊、濟南、萊蕪以及棗莊等地市,東部沿海地區(qū)的總體情況較好,但是也有一些公眾投訴比較集中的地方,如青島、煙臺等地市的市區(qū)范圍。
為了驗證輿情空間化分析結(jié)果與權(quán)威機構(gòu)或部門發(fā)布數(shù)據(jù)的一致性,本文獲取了山東省生態(tài)環(huán)境廳發(fā)布的2017年山東省17地市空氣質(zhì)量排名(見表2)和山東省2018年4月-10月綜合空氣指數(shù)排名(見圖2),從與表2、圖2的對比中可以看出,公眾輿情數(shù)據(jù)分析結(jié)果和權(quán)威機構(gòu)發(fā)布的結(jié)果基本一致,只有魯西北和魯西南地區(qū)的情況與權(quán)威機構(gòu)發(fā)布的數(shù)據(jù)有所偏差,其原因可能與當(dāng)?shù)毓姷木S權(quán)意識和地區(qū)經(jīng)濟發(fā)展?fàn)顩r有關(guān)。
表2 2017年山東省各市空氣質(zhì)量排名Tab.2 Air Quality Ranking of Cities in Shandong Province in 2017
圖2 山東省2018年4月-10月綜合空氣指數(shù)排名Fig.2 Shandong Province Comprehensive Air Index Rankings from April to October 2018
根據(jù)公眾投訴數(shù)據(jù)的投訴類別分析,公眾投訴內(nèi)容主要集中在工礦企業(yè)的廢氣排放,尤其是一些空氣質(zhì)量較差的城市,廢氣排放占很大一部分比重,如投訴比較嚴(yán)重的淄博市。圖3為從山東省生態(tài)環(huán)境廳獲取的與公眾投訴輿情數(shù)據(jù)時間同步的淄博市空氣質(zhì)量綜合指數(shù)(air quality index,AQI)的月際變化趨勢數(shù)據(jù),通過圖3可以看出,淄博市空氣質(zhì)量指數(shù)呈現(xiàn)一定的周期性變化,尤其在12月份致次年的1月份,大氣污染最為嚴(yán)重,通過與公眾投訴數(shù)據(jù)的對比分析,也反映了公眾投訴情況在這個期間也最為集中。
圖3 淄博市2017年2月-2018年10月空氣質(zhì)量數(shù)據(jù)圖Fig.3 Zibo City Air Quality Data Map from February 2017 to October 2018
另外,國家發(fā)布的各地市的空氣質(zhì)量狀況數(shù)據(jù)大多來自于國控監(jiān)測站點,這些站點分布相對稀疏,因而針對一些局域性大氣污染事件無法有效地發(fā)現(xiàn)。如圖4所示,煙臺市的監(jiān)測站點主要分布在東北部沿海地區(qū),這些站點監(jiān)測的煙臺市總體城市空氣質(zhì)量狀況在山東省排名第2,全國排名123。而從圖2煙臺區(qū)域可以看出有投訴集中分布的情況,并且在萊州有化工污染和粉塵污染投訴較為集中的情形,這說明當(dāng)?shù)卮嬖谄髽I(yè)非法排放有毒有害氣體和非法采礦事件的發(fā)生。因此,通過將公眾投訴的輿情信息進行空間化,可有效反映較小時空尺度下的區(qū)域性大氣污染狀況,可實現(xiàn)對國控監(jiān)測站點監(jiān)測結(jié)果的強有力補充。
圖4 煙臺市空氣質(zhì)量監(jiān)測站點分布Fig.4 Distribution of Air Quality Monitoring Stations in Yantai City
針對國控監(jiān)測站點無法有效監(jiān)測較小時空尺度下的區(qū)域性大氣污染事件,本文提出了基于自然語言處理的大氣質(zhì)量輿情數(shù)據(jù)的空間化方法,通過對輿情數(shù)據(jù)進行中文分詞、詞性標(biāo)注、地址匹配等處理過程,以熱力圖或核密度圖的方式實現(xiàn)了公眾投訴數(shù)據(jù)的空間定位與轉(zhuǎn)化,通過進一步與國家權(quán)威部門發(fā)布的污染結(jié)果數(shù)據(jù)的對比分析,表明本文提出的方法能夠從更細(xì)尺度上實現(xiàn)對大氣污染狀況的動態(tài)監(jiān)測,能夠有效提高公眾對大氣質(zhì)量監(jiān)控的參與度,可為國控監(jiān)測站點的大氣環(huán)境監(jiān)測提供有益的補充。