伯鑫,唐千紅,王駿,王成鑫,4,朱榮杰,5,王彤,李涵
(1.生態(tài)環(huán)境部環(huán)境工程評(píng)估中心,北京100012;2.中國(guó)氣象局公共氣象服務(wù)中心,北京10081;3.天氣科技(北京)有限公司,北京100081;4.四川大學(xué)建筑與環(huán)境學(xué)院,四川成都610065;5.天津大學(xué)環(huán)境科學(xué)與工程學(xué)院,天津300354;6.陜西省環(huán)境調(diào)查評(píng)估中心,陜西西安710000;7.重慶市生態(tài)環(huán)境工程評(píng)估中心,重慶401121)
2019年,生態(tài)環(huán)境部發(fā)布《建設(shè)項(xiàng)目環(huán)境影響報(bào)告書(表)編制監(jiān)督管理辦法》[1],要求對(duì)全國(guó)環(huán)評(píng)文件開展技術(shù)復(fù)核工作,并規(guī)定“鼓勵(lì)利用大數(shù)據(jù)手段開展復(fù)核工作”。2020年,生態(tài)環(huán)境部發(fā)布《關(guān)于嚴(yán)懲弄虛作假提高環(huán)評(píng)質(zhì)量的意見》[2],提出“生態(tài)環(huán)境部推進(jìn)大數(shù)據(jù)在線自動(dòng)查重,對(duì)各地審批的環(huán)評(píng)文件及時(shí)開展智能校核”。2020年,我國(guó)公布了《中華人民共和國(guó)刑法修正案(十一)(草案二次審議稿)》[3],明確提出環(huán)境影響評(píng)價(jià)機(jī)構(gòu)及相關(guān)人員的造假行為“入刑”,進(jìn)一步強(qiáng)化了環(huán)評(píng)造假行為懲罰力度。
針對(duì)環(huán)評(píng)報(bào)告大氣環(huán)境影響預(yù)測(cè)章節(jié),本研究團(tuán)隊(duì)結(jié)合《環(huán)境影響評(píng)價(jià)技術(shù)導(dǎo)則大氣環(huán)境》等要求,已開展了大量技術(shù)復(fù)核工作[4~6],發(fā)現(xiàn)一些環(huán)評(píng)單位在空氣質(zhì)量模型參數(shù)設(shè)置、數(shù)據(jù)處理方面存在一些錯(cuò)誤問題,例如篡改氣象數(shù)據(jù)、錯(cuò)誤使用氣象數(shù)據(jù)等。
大氣環(huán)境影響技術(shù)復(fù)核工作主要審查氣象、地形、污染源、坐標(biāo)投影、地表參數(shù)、模型輸入及輸出文件等[7~8],輸入模型的氣象文件格式主要是SFC格式文件(AERMOD模型)、MET格式 文 件(ADMS模 型)、DAT格 式 文 件(CALPUFF模型)等,氣象要素包括風(fēng)速、風(fēng)向、云量、溫度、降水、云底高度、相對(duì)濕度等,時(shí)間分辨率為1h。但由于氣象數(shù)據(jù)存儲(chǔ)量大,氣象要素的技術(shù)復(fù)核以人工審查為主,較為繁瑣,難以實(shí)現(xiàn)復(fù)核的自動(dòng)化、智能化應(yīng)用。目前,國(guó)內(nèi)氣象數(shù)據(jù)主要應(yīng)用于公眾服務(wù)、交通、旅游、農(nóng)業(yè)、水利等領(lǐng)域[9],尚未應(yīng)用于環(huán)評(píng)技術(shù)復(fù)核業(yè)務(wù)。
針對(duì)上述問題,本研究以中國(guó)氣象局實(shí)時(shí)監(jiān)測(cè)、質(zhì)控、發(fā)布的權(quán)威氣象數(shù)據(jù)為基礎(chǔ),建立了一套基于氣象大數(shù)據(jù)的環(huán)評(píng)技術(shù)復(fù)核原型系統(tǒng),依托機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析技術(shù),通過云端服務(wù)方式對(duì)環(huán)評(píng)業(yè)務(wù)使用的氣象數(shù)據(jù)進(jìn)行智能化、自動(dòng)化復(fù)核,旨在為環(huán)評(píng)業(yè)務(wù)的監(jiān)督管理提供技術(shù)支持。
本研究團(tuán)隊(duì)總結(jié)了環(huán)評(píng)氣象復(fù)核的工作難點(diǎn):(1)氣象數(shù)據(jù)存儲(chǔ)量大,通過人工方式逐條復(fù)核耗時(shí)長(zhǎng)、易出錯(cuò)。(2)針對(duì)氣象數(shù)據(jù)的弄虛作假行為較為隱蔽,如通過篡改少數(shù)時(shí)段的氣象數(shù)據(jù)來實(shí)現(xiàn)模擬濃度達(dá)標(biāo)。(3)復(fù)核人員需要掌握一定氣象專業(yè)知識(shí),否則難以滿足地方復(fù)核業(yè)務(wù)化需求。
本研究建立了基于氣象大數(shù)據(jù)的環(huán)評(píng)技術(shù)復(fù)核原型系統(tǒng)(以下簡(jiǎn)稱原型系統(tǒng)),依托機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析技術(shù)開展環(huán)評(píng)氣象復(fù)核工作,快速識(shí)別環(huán)評(píng)氣象數(shù)據(jù)中存在的弄虛作假行為,降低復(fù)核審查成本,有效提升監(jiān)督管理效率。該系統(tǒng)主要分為以下幾個(gè)模塊(圖1)。
圖1 基于氣象大數(shù)據(jù)的環(huán)評(píng)技術(shù)復(fù)核原型系統(tǒng)技術(shù)路線圖
1.1.1 氣象大數(shù)據(jù)平臺(tái)
氣象大數(shù)據(jù)平臺(tái)存儲(chǔ)了自1949年以來經(jīng)過中國(guó)氣象局實(shí)時(shí)監(jiān)測(cè)、質(zhì)控和發(fā)布的各類權(quán)威數(shù)據(jù)集。這些數(shù)據(jù)包含全國(guó)2400多個(gè)國(guó)家級(jí)地面氣象觀測(cè)站、6萬多個(gè)區(qū)域自動(dòng)氣象站、近200部天氣雷達(dá)、2000多個(gè)土壤水分觀測(cè)站、1000多個(gè)交通氣象觀測(cè)站、300多個(gè)雷電觀測(cè)站、120個(gè)探空氣象觀測(cè)站、7顆在軌風(fēng)云衛(wèi)星的氣象監(jiān)測(cè)數(shù)據(jù)等。每年新增數(shù)據(jù)存儲(chǔ)量600TB左右,涵蓋降水、溫度、風(fēng)力風(fēng)向等30余種氣象要素,并均已實(shí)現(xiàn)觀測(cè)自動(dòng)化,觀測(cè)頻率達(dá)到分鐘級(jí),平均氣象觀測(cè)站間距20公里,鄉(xiāng)鎮(zhèn)覆蓋率達(dá)到98%。
氣象大數(shù)據(jù)平臺(tái)作為環(huán)評(píng)技術(shù)復(fù)核原型系統(tǒng)的基礎(chǔ)支撐,可支持對(duì)任何種類、任意氣象要素、任意空間范圍、任意時(shí)間范圍、任意精度的環(huán)評(píng)氣象數(shù)據(jù)比對(duì)分析,能夠有效滿足不同環(huán)評(píng)業(yè)務(wù)的氣象數(shù)據(jù)審查場(chǎng)景,實(shí)現(xiàn)“一站式”復(fù)核。
1.1.2 環(huán)評(píng)氣象數(shù)據(jù)預(yù)處理模塊
環(huán)評(píng)氣象數(shù)據(jù)預(yù)處理模塊用于對(duì)上傳的環(huán)評(píng)氣象文件進(jìn)行大數(shù)據(jù)分析前的預(yù)處理。由于環(huán)評(píng)業(yè)務(wù)中不同環(huán)境空氣質(zhì)量模型對(duì)輸入的氣象數(shù)據(jù)文件在數(shù)據(jù)結(jié)構(gòu)、特征值、數(shù)據(jù)處理方式等方面有不同的要求,因此,通過脫密脫敏、坐標(biāo)轉(zhuǎn)換、格式轉(zhuǎn)換、特征值轉(zhuǎn)換、異常值檢測(cè)、數(shù)據(jù)質(zhì)量控制和可用性檢測(cè)等多個(gè)預(yù)處理流程,可以將不同種類的環(huán)評(píng)氣象文件處理為標(biāo)準(zhǔn)的、統(tǒng)一的、結(jié)構(gòu)化的氣象數(shù)據(jù)文件,進(jìn)而輸入大數(shù)據(jù)分析模型進(jìn)行分析評(píng)分。
1.1.3 基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)分析模塊
大數(shù)據(jù)分析模塊承擔(dān)著對(duì)輸入的環(huán)評(píng)氣象數(shù)據(jù)文件進(jìn)行比對(duì)分析和評(píng)分的工作。大數(shù)據(jù)分析模塊在接收到環(huán)評(píng)氣象數(shù)據(jù)后,將從氣象大數(shù)據(jù)平臺(tái)中獲取對(duì)應(yīng)種類、氣象要素、空間范圍、時(shí)間范圍、時(shí)空精度的權(quán)威數(shù)據(jù),并對(duì)兩類數(shù)據(jù)進(jìn)行初步的比對(duì)和殘差運(yùn)算。
然后對(duì)兩類數(shù)據(jù)的殘差進(jìn)行特征提取,進(jìn)而采用多種方法開展多維度的統(tǒng)計(jì)分析工作,如時(shí)序分析、統(tǒng)計(jì)分析、聚合分析、空間分析等,最終由評(píng)價(jià)模型輸出環(huán)評(píng)氣象數(shù)據(jù)文件的復(fù)核評(píng)分。為便于理解,本文將對(duì)數(shù)據(jù)分析環(huán)節(jié)中涉及到的部分關(guān)鍵統(tǒng)計(jì)指標(biāo)進(jìn)行展示和介紹,具體詳見本文1.2統(tǒng)計(jì)指標(biāo)。
采用基于機(jī)器學(xué)習(xí)的評(píng)價(jià)模型對(duì)環(huán)評(píng)氣象數(shù)據(jù)復(fù)核的優(yōu)勢(shì)在于:隨著復(fù)核數(shù)據(jù)文件的增多,系統(tǒng)會(huì)對(duì)存在造假行為的環(huán)評(píng)氣象數(shù)據(jù)文件進(jìn)行持續(xù)性標(biāo)注,從而推動(dòng)模型對(duì)其造假行為特征不斷迭代,進(jìn)一步提升環(huán)評(píng)氣象數(shù)據(jù)復(fù)核的準(zhǔn)確性。
1.1.4 交互頁面
為了提升環(huán)評(píng)氣象數(shù)據(jù)復(fù)核工作的效率,原型系統(tǒng)提供了便利易用的前端交互界面,用戶根據(jù)頁面指引可快速對(duì)須審查的環(huán)評(píng)氣象文件進(jìn)行復(fù)核。具體業(yè)務(wù)流程(圖2)如下:在用戶登錄系統(tǒng)中,上傳審查的環(huán)評(píng)氣象文件到原型系統(tǒng),原型系統(tǒng)自動(dòng)將審查各氣象要素,并與中國(guó)氣象局權(quán)威氣象數(shù)據(jù)集中的相應(yīng)數(shù)據(jù)對(duì)比分析,進(jìn)行智能復(fù)核并自動(dòng)生成復(fù)核報(bào)告。
圖2 基于氣象大數(shù)據(jù)的環(huán)評(píng)技術(shù)復(fù)核原型系統(tǒng)業(yè)務(wù)流程圖
本研究選取平均偏差,平均絕對(duì)誤差,均方根誤差,相關(guān)系數(shù)等作為統(tǒng)計(jì)指標(biāo),其計(jì)算方法見公式(1)-(4)。
平均偏差(Bias),指氣象要素觀測(cè)平均值和模型分析平均值的差值。
平均絕對(duì)誤差(AE),指對(duì)氣象要素觀測(cè)值與模型分析值的差值絕對(duì)值進(jìn)行平均。
均方根誤差(RMSE),指對(duì)氣象要素觀測(cè)值與模型分析值差值平方和的均值開方。
相關(guān)系數(shù)(Corr):衡量氣象要素觀測(cè)值與模型分析值的線性相關(guān)程度。
式中,N為統(tǒng)計(jì)時(shí)次的個(gè)數(shù)為中國(guó)氣象局?jǐn)?shù)據(jù)中氣象臺(tái)站j在第i個(gè)時(shí)段的觀測(cè)值;xo
ij為模式輸出數(shù)據(jù)提取的氣象臺(tái)站j在第i個(gè)時(shí)段的分析值為分析時(shí)段內(nèi)中國(guó)氣象局?jǐn)?shù)據(jù)中氣象臺(tái)站j觀測(cè)值的平均值為分析時(shí)段內(nèi)模式輸出數(shù)據(jù)提取的氣象臺(tái)站j分析值的平均值。
為驗(yàn)證原型系統(tǒng)可靠性,本研究選取典型環(huán)評(píng)氣象數(shù)據(jù)案例,定量評(píng)估了氣象數(shù)據(jù)有效性,識(shí)別疑似造假行為。
該環(huán)評(píng)案例預(yù)測(cè)文件中氣象數(shù)據(jù)整體錯(cuò)位1h,并且每日21-24時(shí)風(fēng)速、氣溫?cái)?shù)據(jù)存在異常。其中風(fēng)速存在1785個(gè)時(shí)次的偏差,占總數(shù)據(jù)的20.4%,風(fēng)速偏差的時(shí)間分布存在明顯規(guī)律性,77.6%的風(fēng)速偏差出現(xiàn)在21-24時(shí);溫度存在1739個(gè)時(shí)次的偏差,占總數(shù)據(jù)的19.9%,溫度偏差的時(shí)間分布也存在明顯規(guī)律性,64.1%的溫度偏差出現(xiàn)在21-24時(shí)。復(fù)核結(jié)論為該環(huán)評(píng)預(yù)測(cè)文件中每天21-24時(shí)的風(fēng)速、溫度數(shù)據(jù)存在人為調(diào)整的痕跡。統(tǒng)計(jì)指標(biāo)結(jié)果見表1。
表1 模型氣象數(shù)據(jù)和地面氣象觀測(cè)站實(shí)測(cè)數(shù)據(jù)對(duì)比表
圖3 模型氣象數(shù)據(jù)和地面氣象觀測(cè)站實(shí)測(cè)數(shù)據(jù)偏差的時(shí)間分布圖
圖4 系統(tǒng)生成風(fēng)向偏差小時(shí)分布散點(diǎn)圖
該環(huán)評(píng)案例預(yù)測(cè)文件經(jīng)系統(tǒng)分析,8291個(gè)時(shí)次數(shù)據(jù)中共有3675個(gè)時(shí)次的風(fēng)向數(shù)據(jù)出現(xiàn)偏差,占總數(shù)據(jù)量的44.3%。并且兩者在部分月份的風(fēng)玫瑰圖存在明顯的差異。復(fù)核結(jié)論為該環(huán)評(píng)預(yù)測(cè)文件中部分月份的風(fēng)向數(shù)據(jù)存在人為調(diào)整的痕跡。
圖5 模型氣象數(shù)據(jù)和地面氣象觀測(cè)站實(shí)測(cè)數(shù)據(jù)的風(fēng)玫瑰對(duì)比圖(左為模型氣象數(shù)據(jù)的月風(fēng)玫瑰圖,右為氣象觀測(cè)站實(shí)測(cè)數(shù)據(jù)的月風(fēng)玫瑰圖)
該環(huán)評(píng)案例預(yù)測(cè)文件中云量數(shù)據(jù)經(jīng)原型系統(tǒng)分析,1808個(gè)時(shí)次數(shù)據(jù)中共有1784個(gè)時(shí)次的低云量數(shù)據(jù)出現(xiàn)偏差,占總數(shù)據(jù)量的98.673%。其中,中國(guó)氣象局地面氣象站實(shí)測(cè)云量數(shù)據(jù)大于模型云量數(shù)據(jù)的時(shí)次有1657個(gè),占比為92.9%;中國(guó)氣象局地面氣象站實(shí)測(cè)云量數(shù)據(jù)小于模型云量數(shù)據(jù)的時(shí)次有127個(gè),占比為7.1%。系統(tǒng)生成的低云量偏差小時(shí)分布散點(diǎn)圖(見圖6)。此外,該預(yù)測(cè)文件中的云高數(shù)據(jù)人為設(shè)定為定值808米,與實(shí)際情況不符,存在較大問題,導(dǎo)致結(jié)果失真。
圖6 云量數(shù)據(jù)復(fù)核結(jié)果
本研究建立了基于氣象大數(shù)據(jù)的環(huán)評(píng)技術(shù)復(fù)核原型系統(tǒng),實(shí)際復(fù)核案例應(yīng)用表明,該系統(tǒng)依托機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析技術(shù),突破了人工復(fù)核方法的瓶頸,提高了大氣技術(shù)復(fù)核工作的效率,為環(huán)評(píng)智能復(fù)核工作提供了新的技術(shù)方法。下一步建議管理部門要求環(huán)評(píng)單位將大氣預(yù)測(cè)模式輸入文本文件、氣象數(shù)據(jù)、地形數(shù)據(jù)、地表參數(shù)等作為四級(jí)聯(lián)網(wǎng)上傳附件內(nèi)容,以備抽查、復(fù)核。