亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理的大氣質(zhì)量輿情空間化方法

        2022-04-02 08:06:38宋鵬飛孫勇季民張立國鄭
        測繪地理信息 2022年2期
        關(guān)鍵詞:山東省模型

        宋鵬飛孫 勇季 民張立國鄭 巖

        1山東科技大學(xué)測繪與空間信息學(xué)院,山東 青島,266590

        2山東建筑大學(xué)測繪地理信息學(xué)院,山東 濟南,250101

        3山東省國土測繪院,山東 濟南,250000

        隨著我國經(jīng)濟的快速發(fā)展,不斷出現(xiàn)的區(qū)域性大氣污染事件[1],已成為政府和公眾關(guān)注的焦點。目前大氣質(zhì)量監(jiān)測主要依賴的是國控站點,這些站點大多分布在城市,且點位稀疏,通過這些站點的長時序監(jiān)測,可為宏觀區(qū)域大氣質(zhì)量變化分析提供實測依據(jù),但對頻發(fā)的局域性或區(qū)域性大氣污染事件的監(jiān)測則顯得有些不力。而公眾是空氣質(zhì)量的直接感知者[2],對空氣質(zhì)量的滿意度評價則可以成為政府職能部門進行大氣環(huán)境治理的基礎(chǔ)[3]。自從人類進入互聯(lián)網(wǎng)時代,人們在網(wǎng)絡(luò)上進行大氣質(zhì)量的議論和評價已經(jīng)成為常態(tài),通過收集公眾對大氣質(zhì)量投訴的輿情信息,并加以空間化,可有效地反映出區(qū)域性大氣污染狀況分布,這不僅能夠提高民眾的政治參與度[4],而且還能夠為政府部門對區(qū)域性大氣污染事件的監(jiān)管與治理提供決策依據(jù)。

        關(guān)于空間化方法,國內(nèi)外學(xué)者均進行了諸多研究,王明明等[5]利用夜間燈光數(shù)據(jù)進行了山東省鄉(xiāng)鎮(zhèn)級人口數(shù)據(jù)的空間化;尹言軍等[6]利用FME軟件對浮動車的交通數(shù)據(jù)進行了空間化。自然語言處理(natural language processing,NLP)技術(shù)也得到了快速發(fā)展,尤其在中文分詞和詞性標(biāo)注等方面[7-9],Matci等[10]將自然語言處理融入到地理編碼中,通過地址分解、錯誤修正及基于NLP的地址重組,實現(xiàn)了地址標(biāo)準(zhǔn)化;許普樂等[11]在大數(shù)據(jù)環(huán)境下,基于貝葉斯推理進行了海量中文地名地址的快速匹配。目前關(guān)于大氣質(zhì)量輿情信息的地址匹配和空間定位尚未有相關(guān)文獻,本文以山東省環(huán)境保護廳公眾投訴平臺爬取的大氣質(zhì)量輿情數(shù)據(jù)為基礎(chǔ),通過使用基于條件隨機場(conditional random field,CRF)模型的中文分詞和詞性標(biāo)注等方法,進行了大眾重點投訴區(qū)域的地址匹配和空間可視化表達(dá),可為山東省從宏觀到中小尺度下的大氣質(zhì)量監(jiān)測提供一定的參考。

        1 輿情數(shù)據(jù)來源及相關(guān)算法

        1.1 數(shù)據(jù)來源

        大氣污染輿情數(shù)據(jù)來源于山東省環(huán)境保護廳公眾投訴平臺爬取的公眾投訴信息,其中主要包含:投訴的大氣污染類型、投訴時間、投訴內(nèi)容以及針對投訴的處理狀態(tài)、答復(fù)情況等,其中,大氣污染類型主要包括了飛塵、惡臭/異味、油煙、機動車/移動源、工業(yè)廢氣、煙塵以及其他大氣污染等;投訴內(nèi)容以自然語言形式存在,需要對其進行分析和處理,以提取其中的中文地址信息和大氣污染專題輿情語義信息。

        1.2 自然輿情信息處理模型

        在對大氣質(zhì)量輿情信息進行處理時主要用到了自然語言處理技術(shù)中的中文文辭和詞性標(biāo)注,主要的算法有隱馬爾科夫模型(hidden Markov model,HMM)、最大熵模型、CRF模型等[12],鑒于CRF模型的性能優(yōu)勢,本文選擇使用CRF模型來進行中文分詞,并使用HMM模型對無法識別的未登錄詞進行標(biāo)注。

        1)CRF模型。

        CRF模型在進行分詞時,不僅能夠統(tǒng)計某個詞出現(xiàn)的頻率,而且還將上下文語境也納入考量范圍內(nèi),在對數(shù)據(jù)中的一些未登錄詞,例如工廠名稱等,具有良好的切分效果。其中最常用的是線性條件隨機場模型,在隨機變量X取值為x的條件下,隨機變量Y取值為y的條件概率[13]。

        2)HMM模型。

        HMM模型包含一個可見的狀態(tài)序列和一個隱藏狀態(tài)序列,這兩個序列概率相關(guān),并由5個參數(shù)組成[14],可以用一個五元組{N,M,η,A,B}表示。其中,N表示隱藏狀態(tài)的數(shù)量,每一個狀態(tài)的概率可以有確定的值,也可以進行分析確定;M表示可見狀態(tài)的數(shù)量,通過訓(xùn)練集獲??;η=ηi表示每一個隱藏狀態(tài)初始時刻發(fā)生的概率;A={aij}表示隱藏狀態(tài)的轉(zhuǎn)移矩陣,即從隱藏狀態(tài)1到隱藏狀態(tài)2事件發(fā)生的概率;B={bij}表示混淆矩陣,即在某個隱藏狀態(tài)的條件下可見狀態(tài)發(fā)生的概率。

        2 大氣輿情數(shù)據(jù)空間化方法

        在大氣污染空間化分析與評價中,需要將公眾輿情數(shù)據(jù)中的地址信息進行解析提取,并通過地址匹配方法,實現(xiàn)空間位置轉(zhuǎn)化,其數(shù)據(jù)處理過程可包括:數(shù)據(jù)預(yù)處理、自然語言處理、詞性提取、地址匹配等。其中,數(shù)據(jù)預(yù)處理包括了內(nèi)容提取和去停用詞等兩個步驟,自然語言處理包括了中文分詞和詞性標(biāo)注等兩個過程,如圖1所示。

        圖1 大氣輿情數(shù)據(jù)空間化過程Fig.1 Air Public Opinion Data Spatialization Process

        2.1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理就是對公眾投訴的輿情數(shù)據(jù)進行內(nèi)容提取及停用詞去除。首先為了便于管理和數(shù)據(jù)讀寫的方便,通過設(shè)計相應(yīng)的數(shù)據(jù)庫結(jié)構(gòu),將獲取的公眾投訴數(shù)據(jù)轉(zhuǎn)存入數(shù)據(jù)庫,并將包含位置信息的數(shù)據(jù)內(nèi)容以單獨字段進行存儲,以提高數(shù)據(jù)分析過程中的讀寫效率,同時通過去除一些特殊符號、停用詞等,實現(xiàn)對數(shù)據(jù)內(nèi)容的清洗。

        2.2 中文地名地址標(biāo)注

        借助CRF模型對公眾投訴內(nèi)容進行中文分詞,將分詞結(jié)果在百度詞庫中進行字符串匹配,查找詞性,無法識別成功的詞語既為未登錄詞,緊接著運用HMM模型對其進行詞性標(biāo)注。由于同一個詞在不同的語句中具有多種詞性,并且在不同應(yīng)用領(lǐng)域中也存在諸多未登錄詞,從而造成詞性標(biāo)注存在諸多難點,為此,將詞語的詞性劃分為普通名詞、普通動詞、代詞、形容詞等24類,如表1所示。為了進一步確定專有名稱,又劃分了人名(PER)、地名(LOC)、機構(gòu)名(ORG)、時間(TIME)這4類專名詞性,這些詞性分類為自然語言處理過程中的詞性標(biāo)注提供了有力支撐。

        表1 詞性標(biāo)注表Tab.1 Part of Speech Tag

        2.3 詞性提取及地址匹配

        詞性標(biāo)注分析完成后,須將其中的地名(LOC)和機構(gòu)名(ORG)進行提取,由于公眾投訴內(nèi)容中可能會包括工廠污染排放問題,因此提取的工廠名稱會被標(biāo)注為機構(gòu)名。詞性提取完成后,須按照提取的地點名稱和機構(gòu)名稱實現(xiàn)投訴信息的空間定位,即地址匹配。所謂地址匹配是使用地理編碼將地址信息轉(zhuǎn)為經(jīng)緯度坐標(biāo),并將地址匹配結(jié)果定位到地圖上,通過制作熱力圖實現(xiàn)大氣污染輿情信息的空間化。地址匹配時,根據(jù)提取的地名和機構(gòu)名的情況,主要包括以下3種組合情況:①若解析后的詞性只有地名沒有機構(gòu)名,則只對地名進行地址匹配;②若解析后的詞性只有機構(gòu)名沒有地名,則只對機構(gòu)名進行地址匹配;③若既有地名也有機構(gòu)名,則對機構(gòu)名和地名進行判斷:機構(gòu)名中如果包含地名,則選擇機構(gòu)名進行地址匹配,如果不包含則通過“地名+機構(gòu)名”的方法進行地址匹配。

        3 實例分析

        3.1 輿情信息空間化

        本文選取了山東省環(huán)境保護廳公眾投訴平臺上的2017年2月到2018年10月共5 000條公眾投訴 信息,按照前述大氣質(zhì)量輿情信息空間化方法對這些數(shù)據(jù)進行了處理和分析,以區(qū)縣為單元進行了統(tǒng)計,并運用GIS的核密度分析功能,制作了山東省大氣污染投訴熱力分布圖,通過空間化結(jié)果可以看出,公眾投訴的重點區(qū)域主要是淄博、濰坊、濟南、萊蕪以及棗莊等地市,東部沿海地區(qū)的總體情況較好,但是也有一些公眾投訴比較集中的地方,如青島、煙臺等地市的市區(qū)范圍。

        3.2 輿情空間化分析結(jié)果與發(fā)布數(shù)據(jù)對比

        為了驗證輿情空間化分析結(jié)果與權(quán)威機構(gòu)或部門發(fā)布數(shù)據(jù)的一致性,本文獲取了山東省生態(tài)環(huán)境廳發(fā)布的2017年山東省17地市空氣質(zhì)量排名(見表2)和山東省2018年4月-10月綜合空氣指數(shù)排名(見圖2),從與表2、圖2的對比中可以看出,公眾輿情數(shù)據(jù)分析結(jié)果和權(quán)威機構(gòu)發(fā)布的結(jié)果基本一致,只有魯西北和魯西南地區(qū)的情況與權(quán)威機構(gòu)發(fā)布的數(shù)據(jù)有所偏差,其原因可能與當(dāng)?shù)毓姷木S權(quán)意識和地區(qū)經(jīng)濟發(fā)展?fàn)顩r有關(guān)。

        表2 2017年山東省各市空氣質(zhì)量排名Tab.2 Air Quality Ranking of Cities in Shandong Province in 2017

        圖2 山東省2018年4月-10月綜合空氣指數(shù)排名Fig.2 Shandong Province Comprehensive Air Index Rankings from April to October 2018

        3.3 輿情信息市級對比分析

        根據(jù)公眾投訴數(shù)據(jù)的投訴類別分析,公眾投訴內(nèi)容主要集中在工礦企業(yè)的廢氣排放,尤其是一些空氣質(zhì)量較差的城市,廢氣排放占很大一部分比重,如投訴比較嚴(yán)重的淄博市。圖3為從山東省生態(tài)環(huán)境廳獲取的與公眾投訴輿情數(shù)據(jù)時間同步的淄博市空氣質(zhì)量綜合指數(shù)(air quality index,AQI)的月際變化趨勢數(shù)據(jù),通過圖3可以看出,淄博市空氣質(zhì)量指數(shù)呈現(xiàn)一定的周期性變化,尤其在12月份致次年的1月份,大氣污染最為嚴(yán)重,通過與公眾投訴數(shù)據(jù)的對比分析,也反映了公眾投訴情況在這個期間也最為集中。

        圖3 淄博市2017年2月-2018年10月空氣質(zhì)量數(shù)據(jù)圖Fig.3 Zibo City Air Quality Data Map from February 2017 to October 2018

        另外,國家發(fā)布的各地市的空氣質(zhì)量狀況數(shù)據(jù)大多來自于國控監(jiān)測站點,這些站點分布相對稀疏,因而針對一些局域性大氣污染事件無法有效地發(fā)現(xiàn)。如圖4所示,煙臺市的監(jiān)測站點主要分布在東北部沿海地區(qū),這些站點監(jiān)測的煙臺市總體城市空氣質(zhì)量狀況在山東省排名第2,全國排名123。而從圖2煙臺區(qū)域可以看出有投訴集中分布的情況,并且在萊州有化工污染和粉塵污染投訴較為集中的情形,這說明當(dāng)?shù)卮嬖谄髽I(yè)非法排放有毒有害氣體和非法采礦事件的發(fā)生。因此,通過將公眾投訴的輿情信息進行空間化,可有效反映較小時空尺度下的區(qū)域性大氣污染狀況,可實現(xiàn)對國控監(jiān)測站點監(jiān)測結(jié)果的強有力補充。

        圖4 煙臺市空氣質(zhì)量監(jiān)測站點分布Fig.4 Distribution of Air Quality Monitoring Stations in Yantai City

        4 結(jié)束語

        針對國控監(jiān)測站點無法有效監(jiān)測較小時空尺度下的區(qū)域性大氣污染事件,本文提出了基于自然語言處理的大氣質(zhì)量輿情數(shù)據(jù)的空間化方法,通過對輿情數(shù)據(jù)進行中文分詞、詞性標(biāo)注、地址匹配等處理過程,以熱力圖或核密度圖的方式實現(xiàn)了公眾投訴數(shù)據(jù)的空間定位與轉(zhuǎn)化,通過進一步與國家權(quán)威部門發(fā)布的污染結(jié)果數(shù)據(jù)的對比分析,表明本文提出的方法能夠從更細(xì)尺度上實現(xiàn)對大氣污染狀況的動態(tài)監(jiān)測,能夠有效提高公眾對大氣質(zhì)量監(jiān)控的參與度,可為國控監(jiān)測站點的大氣環(huán)境監(jiān)測提供有益的補充。

        猜你喜歡
        山東省模型
        一半模型
        山東省交通運輸研究會正式成立
        RCEP對山東省高質(zhì)量對外開放的影響
        山東省德州市雜技團《蹬傘》
        眷 戀
        ——山東省濟寧市老年大學(xué)之歌
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        The improvement of campus ecological environment under the economic development
        新生代(2018年23期)2018-11-13 22:41:10
        山東省即墨市
        3D打印中的模型分割與打包
        国产精品狼人久久久久影院| 精品人伦一区二区三区蜜桃91| av在线高清观看亚洲| 亚洲国产中文字幕一区| 亚洲夫妻性生活免费视频| 国产丝袜美女| 欧美一区二区三区视频在线观看| 国产精品欧美一区二区三区不卡| 久久精品国产99国产精2020丨| 香港三级日本三级a视频| 亚洲色偷偷综合亚洲av伊人| 999国产精品亚洲77777| 思思久久96热在精品不卡| 久久久99久久久国产自输拍| 国内自拍视频在线观看h| 国产高清不卡二区三区在线观看 | 亚洲高清一区二区三区在线观看 | 在办公室被c到呻吟的动态图| 国产午夜鲁丝片av无码| 91制服丝袜| 无码人妻专区一区二区三区| 亚洲24小时免费视频| av日韩一区二区三区四区| 国产精品视频一区二区三区不卡| 和外国人做人爱视频| 日韩精品一区二区三区视频| 精品人妻中文av一区二区三区| 中文无码免费在线| 野花视频在线观看免费| 乱中年女人伦av一区二区| 日韩成人极品在线内射3p蜜臀| 思思99热精品免费观看| 99免费视频精品| 国产毛片精品一区二区色| 国产av在线观看一区二区三区| 久久综合九色综合97欧美| 无码熟妇人妻av在线影片| 精品国产国产AV一区二区| 99日本亚洲黄色三级高清网站| 国产盗摄一区二区三区av| 熟女中文字幕一区二区三区|