陸秋琴, 蘭 瓊, 黃光球
(西安建筑科技大學 管理學院, 陜西 西安 710055)
隨著工業(yè)化的快速發(fā)展,區(qū)域性大氣污染日益突出,VOCs的大幅度排放引發(fā)了諸多環(huán)境問題。作為PM2.5和臭氧等大氣污染物的重要前體物,VOCs能發(fā)生光化學反應并生成有害的二次有機氣溶膠等物質[1-2]。部分VOCs易燃易爆,部分VOCs有毒,可以致癌、引起病變,嚴重危害人體健康[3],所以“十三五”生態(tài)環(huán)境保護規(guī)劃將VOCs納入大氣污染防治的重要模塊[4]。因此,對VOCs濃度進行預測研究,有助于掌握其發(fā)展和變化規(guī)律,對制定有效的污染防治對策具有重要意義。不同的研究方法拓展和推動了預測理論的發(fā)展,為其他行業(yè)的預測研究提供了參考。同時,該預測研究可為環(huán)境保護規(guī)劃提供重要的數(shù)據(jù)積累,對開展污染控制有著積極的參考意義,也促進了公眾參與和居民環(huán)保意識的提高。
當前,對VOCs等大氣污染物濃度的預測研究主要是在其排放清單的基礎上展開的,通過建立基準年的污染物排放清單,來實現(xiàn)其他時段的預測[5]。國內外學者還利用大氣排放因子S型曲線預測大氣污染物的未來排放趨勢[6-7];除此之外,還有基于情景分析法的污染物濃度預測,通過識別關鍵不確定因素,構建幾種可能出現(xiàn)的情景并分析內容[8];優(yōu)化模型也是污染物濃度預測的常見方法[9-10]。已經(jīng)提出的大氣污染濃度預測模型主要有回歸分析、灰色模型[11]、神經(jīng)網(wǎng)絡模型[12]、混沌模型[13]、基于時間序列的模型等[14],以及他們的組合和改進模型。最優(yōu)定權組合法大氣污染物濃度預測是基于多個空氣質量模式,以各單項空氣質量模式的組合預測誤差平方和最小為原則,構建出針對大氣污染的預測模型[15]。模糊綜合評價方法一般都是結合預測模型來使用。通過模糊聚類分析,將影響環(huán)境質量的各因素按主次區(qū)分,預測時考慮主要因素[16]。
以上研究還存在一些不足:①由于資金、地理條件等限制,對VOCs并不能做到全方位監(jiān)測,所獲取的數(shù)據(jù)和信息不太完整;②研究主要集中在數(shù)量預測方面,較少通過劃分區(qū)域精細到每一個網(wǎng)格進行研究;③預測過程中較少考慮氣象指標等因素對預測結果的影響。為了解決上述問題,本文提出基于網(wǎng)格劃分的空間關聯(lián)區(qū)域VOCs濃度預測方法,以實現(xiàn)區(qū)域內VOCs精細化預測研究。
根據(jù)選定區(qū)域建立相應的坐標系,建立原則為其中的每一點都能用坐標表示,可以取所選范圍比例尺為坐標刻度,獲取不同地方的坐標,形成區(qū)域坐標集合Rc:
Rc={(x1,y1),(x2,y2),…,(xn,yn)}
(1)
式中:(xi,yi)表示選定區(qū)域中的第i個坐標,用二維平面坐標表示,其中i=1,2,…,n;n表示區(qū)域坐標點總個數(shù)。
點云網(wǎng)格劃分算法是利用點與點之間的距離關系來實現(xiàn)網(wǎng)格劃分,基于一點搜索臨近點形成線段,根據(jù)線段中點臨近檢索第三點,連接三點形成一個三角網(wǎng)格。對其新邊進行中點臨近檢索,依次形成網(wǎng)格體系,具體步驟如下。
1) 獲取區(qū)域坐標點集合Rc,初始化一個種子網(wǎng)格。基于點p1=(xm1,ym1)進行臨近檢索到第二個坐標點p2=(xm2,ym2),連接兩點形成線段L(p1,p2),再基于線段L的中點臨近檢索第三點p3=(xm3,ym3),連接點p3形成第一個三角網(wǎng)格,如圖1所示。將網(wǎng)格形成過程中產(chǎn)生的每條邊存入集合El,開始時El=?。
圖1 種子網(wǎng)格
El=El∪(p1,p2)∪(p4,p3)∪…∪(pi,pj)
i,j=1,2,…,n
(2)
2) 在種子網(wǎng)格的基礎上進行網(wǎng)格擴充,利用中點檢索,形成原始網(wǎng)格。從邊集合El中獲取未進行中點檢索的邊Lh(h=1,2,…,l;l為邊的數(shù)量),其端點坐標為pi=(xmi,ymi)、pj=(xmj,ymj),計算其中點坐標Ci,j;從集合Rc檢索距離點Ci,j最近且未形成邊的點,中點邊與新點構造出兩條新邊,形成一個新的三角網(wǎng)格,并將新產(chǎn)生的邊存入集合El中。重復該步驟,直到邊集合El中不再提供外邊中點檢索為止。
(3)
(4)
3) 原始網(wǎng)格擴展,形成新網(wǎng)格。第二步結束形成一個原始網(wǎng)格,檢索集合Rc是否存在未形成邊的點,如果存在,則尋找新的種子網(wǎng)格重復第一、第二步,直到集合Rc不再有未形成邊的點為止,如圖2所示,此種情況下所選區(qū)域中存在大量的坐標點。在形成網(wǎng)格過程中,如果出現(xiàn)中斷現(xiàn)象,只需重復上述第一、第二步形成新的網(wǎng)格即可。
4) 編制網(wǎng)格順序碼,標識網(wǎng)格信息。在初始化種子網(wǎng)格時,將初始化的第一個三角網(wǎng)格編號為001,表示該區(qū)域的第一個網(wǎng)格。在網(wǎng)格擴充時,根據(jù)網(wǎng)格劃分步驟以及檢索點算法,對形成的新網(wǎng)格依次編號,最后輸出編號后的區(qū)域網(wǎng)格以及網(wǎng)格編號信息 [(pi,pj,pk),Num](k=1,2,…,n),如圖2所示。其中(pi,pj,pk)表示形成該網(wǎng)格的三個坐標點,即pi=(xmi,ymi)、pj=(xmj,ymj)、pk=(xmk,ymk),Num表示網(wǎng)格編號,其編號值范圍為0~999的整數(shù)。
圖2 原始網(wǎng)格及網(wǎng)格編號圖
1) 不規(guī)則劃分。根據(jù)所取點不規(guī)則形成大小不一的三角網(wǎng)格。
2) 劃分區(qū)域選點靈活。根據(jù)劃分需求可以隨意選取點,選點過程能有效避免山川、河流等地理條件的限制。
3) 自動編碼。在劃分過程中自動編碼表示網(wǎng)格,達到網(wǎng)格唯一性和明確性的要求。
4) 點利用率高。在網(wǎng)格劃分中采取三點為一的原因是可以將研究區(qū)域中所有的點全部劃分完,不會遺留未劃分的點。
1) 網(wǎng)格數(shù)據(jù)預估原理
在實現(xiàn)VOCs精細化監(jiān)管的過程中,將區(qū)域劃分成網(wǎng)格,在網(wǎng)格內設置監(jiān)測點,監(jiān)測設備在固定時段對網(wǎng)格內VOCs污染物進行監(jiān)測,能夠準確地標識該網(wǎng)格內VOCs污染物的監(jiān)測濃度值。但由于網(wǎng)格數(shù)眾多,并不是每一個網(wǎng)格都會設置監(jiān)測點,為了收集和計算未設置監(jiān)測點的網(wǎng)格數(shù)據(jù),以及預估其污染物發(fā)展態(tài)勢,采取克里金插值法,通過已知網(wǎng)格數(shù)據(jù)及其與未知網(wǎng)格之間的空間關聯(lián)性來預估未知網(wǎng)格數(shù)據(jù)。
2) 克里金插值法預估過程
克里金插值被稱為空間最優(yōu)無偏估計器,它是以變異函數(shù)理論和結構分析為基礎[17],所選變異函數(shù)由數(shù)學期望、隨機場內特定點的數(shù)學期望、方差運算組成。克里金插值法會根據(jù)所選的變異函數(shù)模型進行模擬,最終對待估點進行預估。
設區(qū)域網(wǎng)格坐標點pi處設有監(jiān)測點,監(jiān)測值為V(pi),i=1,2,…,n,則未設置監(jiān)測點p0的估計值可以通過周圍n個監(jiān)測點的監(jiān)測值V(pi)求得,即
(5)
式中:λi為監(jiān)測點pi的權重,λi的取值不僅要考慮監(jiān)測點與預測點之間的距離,而且需結合二者的空間分布關系來確定,樣點分布如圖3所示。
圖3 樣點分布圖
設p0為待估計點,已知其鄰域內有p1,p2,…,p8共8個采樣點,其位置如圖3所示,各點的權重分別是λ1,λ2,…,λ8,由于圖中p1、p2、p3、p6到p0的距離相同,并且有p2與p3、p1與p6關于p0對稱,則有λ2=λ3,但由于樣點p5、p7、p8與p6叢聚在一起,這種叢聚作用降低了樣點p6對待估計點p0的影響,p1是一個單獨的樣點不存在叢聚影響,而且點p6與p0之間存在點p4,由于點p4距離點p0更近,對p6存在屏蔽效應,所以λ1>λ6。
要得到無偏最優(yōu)估計值,必須滿足下面兩個條件:
a) 無偏估計,即E=[V(p0)-V*(p0)]=0
b) 估計方差最小,即
Var[V(p0)-V*(p0)]=min
則要求權重λi滿足下列方程:
(6)
1) 數(shù)據(jù)收集
現(xiàn)有的監(jiān)測設備不僅可以監(jiān)測到VOCs的濃度(即單位體積排放量),而且可以分析出該區(qū)域內VOCs不同組成成分的含量,并將監(jiān)測數(shù)據(jù)上傳至服務器進行存儲,對于設有監(jiān)測點的網(wǎng)格,通過監(jiān)測設備獲取到VOCs監(jiān)測值,并按照統(tǒng)一格式處理。已知監(jiān)測點的監(jiān)測數(shù)據(jù),通過克里金插值法計算未設有監(jiān)測點網(wǎng)格的VOCs組成成分預估值。將網(wǎng)格監(jiān)測數(shù)據(jù)與網(wǎng)格預估數(shù)據(jù)合并,得到區(qū)域網(wǎng)格的VOCs污染物濃度值,如表1所示。
表1 區(qū)域網(wǎng)格VOCs污染物濃度值
表1對VOCs主要成分依次劃分了編號:苯為1號、甲苯為2號、……、苯乙烯為12號,并結合單元網(wǎng)格順序碼,描述不同網(wǎng)格中不同成分的監(jiān)測濃度值,如V001(1)表示001號網(wǎng)格中苯的濃度值、V028(12)表示028號網(wǎng)格中苯乙烯的濃度值,依次收集得到區(qū)域網(wǎng)格VOCs污染物的濃度值。
2) 數(shù)據(jù)預處理
數(shù)據(jù)預處理是對收集到的網(wǎng)格數(shù)據(jù)進行整理的過程,通過研究區(qū)域每個網(wǎng)格的VOCs污染物濃度數(shù)據(jù),形成區(qū)域VOCs污染物數(shù)據(jù)集合:
(7)
式中:D表示整個研究區(qū)域網(wǎng)格VOCs組成成分濃度集合;vij表示第i網(wǎng)格內第j類污染物的濃度值。
1) VOCs預測模型特征
VOCs預測模型特征可分為兩大類型,VOCs污染物和氣象指標,具體特征如表2所示。
表2中VOCs污染物特征是指VOCs污染物的烷類、烴類、酯類、醇類、苯系物等具體監(jiān)測成分;氣象指標是指監(jiān)測當天的氣象特征。表2中所有特征形成特征向量集合F。
表2 VOCs特征表
2) VOCs預測模型原始訓練樣本數(shù)據(jù)集合
基于研究區(qū)域VOCs污染物數(shù)據(jù)特征以及時間維度,形成區(qū)域VOCs數(shù)據(jù)集VD:
(8)
式中:αt1,αt2,…,αti和βt1,βt2,…,βti是時序特征向量,分別表示某一時間段內區(qū)域VOCs污染物濃度集合和區(qū)域VOCs總濃度序列數(shù)據(jù);γ1,γ2,…,γm是非時序特征向量,包含氣象指標參數(shù)值、VOCs污染物特征。
3) VOCs預測模型構建
在上述數(shù)據(jù)處理的基礎上,運用隨機森林算法對研究區(qū)域VOCs濃度進行預測建模,建模過程如圖4所示。
圖4 基于隨機森林的區(qū)域VOCs預測建模過程
首先,利用Bootstrap方法從原始訓練樣本集VD中隨機抽取多個訓練樣本子集,對每個子集分別進行決策樹建模,然后利用測試集對各決策樹進行測試,綜合多棵決策樹測試結果,通過投票得出最終的預測模型。
原始訓練樣本子集由兩部分構成:一類為VD中區(qū)域VOCs總量數(shù)據(jù)集合βti,將其作為預測模型的輸出;另一類為對應的區(qū)域網(wǎng)格VOCs污染物平均濃度集合αti和非時序特征數(shù)據(jù)集合γm,將其作為預測模型輸入。
利用Bootstrap方法從VD隨機選取w個訓練樣本子集V1,V2,…,Vw,用于構建w棵分類回歸樹(CART)。由于訓練樣本集的選取采用有放回的采樣方法,在采樣過程中會有36.8%的原始樣本不會出現(xiàn)在采集的樣本集合中,這些數(shù)據(jù)稱為袋數(shù)(out-of-bag,OOB),對CART決策樹的誤差進行估計。對誤差估計取平均,便可得到隨機森林的泛化誤差估計值,由此可以對VOCs濃度預測模型的精度進行量化度量[18]。
對每個訓練樣本子集,采用CART算法生成一棵決策樹,共生成w棵決策樹。為保證決策樹構建的隨機性,采用隨機子空間思想,從VOCs特征集合F中隨機選取m個特征作為隨機特征變量,參與決策樹節(jié)點分裂過程,其中m≤log2(M+1),而M表示特征集合F的集合長度。此外,整個隨機森林中決策樹的棵數(shù)w需根據(jù)預測結果來調整。
1) VOCs濃度預測結果
當w棵樹構建完成后,利用測試集對數(shù)據(jù)進行仿真。將測試集數(shù)據(jù)Vk作為輸入,得到各決策樹模型預測的結果序列{fk1(V1),fk2(V2),…,fkw(Vw)},基于隨機森林算法的預測模型最終預測輸出的VOCs濃度采用投票方式產(chǎn)生:
k=1,2,…,n
(9)
式中:Fk為組合預測模型;fki為單棵決策樹預測模型;I為示性函數(shù);Yk為各決策樹預測的結果序列。將預測模型進行線性組合,即可得到區(qū)域VOCs濃度預測模型。
2) 性能評價指標
采用通用的模型誤差、擬合程度、效率作為度量指標,進行多模型量化評估,如平均相對誤差(MRE)和決定系數(shù)(R2)。其中R2表示模型輸入變量對輸出變量的解釋程度,也稱為擬合優(yōu)度,取值在0到1之間。MRE越小,R2越接近于1,說明模型準確度越高。
(10)
(11)
以西安市某區(qū)域涉及VOCs排放的企業(yè)為研究對象,企業(yè)清單來源于北極星網(wǎng)站,時間跨度為2018年6月至2018年12月。VOCs具體濃度數(shù)據(jù)通過企業(yè)年報、地方統(tǒng)計年鑒以及天氣后報網(wǎng)站獲得。將研究區(qū)域劃分成不同大小的網(wǎng)格,收集設有監(jiān)測設備網(wǎng)格的污染物數(shù)據(jù),通過克里金插值估計法計算出未設監(jiān)測設備網(wǎng)格的污染物數(shù)據(jù),形成VOCs數(shù)據(jù)集VD。
1) 網(wǎng)格劃分
通過點云網(wǎng)格算法對西安市某區(qū)進行網(wǎng)格劃分并且對網(wǎng)格進行編號。首先獲取該區(qū)的坐標點集合,初始化種子網(wǎng)格,然后在種子網(wǎng)格的基礎上繼續(xù)擴充,形成新的網(wǎng)格,以此類推,將整個區(qū)域的網(wǎng)格劃分完畢,并編制網(wǎng)格順序碼,標識網(wǎng)格信息,結果如圖5所示。
圖5 西安市某區(qū)網(wǎng)格劃分及編號圖
2) 數(shù)據(jù)集
研究區(qū)域中有部分網(wǎng)格設有監(jiān)測點,由監(jiān)測點獲取到網(wǎng)格VOCs監(jiān)測數(shù)據(jù),包括VOCs污染物組分中的甲苯、乙烯、苯乙烯等12種物質,具體監(jiān)測數(shù)值如表3所示。
表3 監(jiān)測點VOCs污染物濃度值
根據(jù)網(wǎng)格坐標點及VOCs污染物濃度值,構建一個40×40的網(wǎng)格,標注范圍為1~40,即使網(wǎng)格間距為1。創(chuàng)建矩陣S和Y分別存儲坐標值和觀測值(即VOCs污染物濃度值)用于預測,根據(jù)其預估點和已知數(shù)值網(wǎng)格坐標點的空間位置,形成預測值表面,如圖6所示。
注:黑色點表示原始散點數(shù)據(jù)
根據(jù)圖6中預測值表面,結合每個點的擬合誤差值,求解出待估點的預估值,擬合誤差值如圖7所示。
圖7 擬合誤差值
在λi滿足式(6)的條件下,將其相關數(shù)值代入式(5)計算出未設有監(jiān)測點網(wǎng)格的VOCs污染物預估值,具體數(shù)值如表4所示。
表4 預估點VOCs污染物濃度值
1) 模型構建及變量相關性分析
通過上述數(shù)據(jù)收集,獲得1 237組VOCs濃度數(shù)據(jù),按式(8)處理得到數(shù)據(jù)集VD形成原始訓練樣本集,將其劃分為訓練集和驗證集,構建隨機森林回歸模型預測VOCs污染物濃度。VOCs特征集合F作為變量參與決策樹的分裂,模型預測中每個特征所起的作用不同,其相關系數(shù)如表5所示。
表5 VOCs部分特征相關系數(shù)表
根據(jù)相關系數(shù)表,VOCs與異丁烷以及環(huán)戊烷的線性相關性最大,相關系數(shù)達到了0.8以上,但是異戊烷與丙烯、甲苯之間的相關系數(shù)也達到了0.8以上,即各因素之間存在多重共線性,不滿足相互獨立條件,不能直接進行線性回歸,所以采用隨機森林預測。
2) 模型訓練、驗證和評估
將原始數(shù)據(jù)集合分為訓練集和驗證集,由式(10)、(11)分別進行模型的訓練和驗證,并對模型訓練和驗證結果進行評估,如表6所示。
表6 模型評估參數(shù)表
表6中訓練集和驗證集的相關評估參數(shù)值相差很小,其決定系數(shù)R2以及解釋度均達到了98%以上,表明模型在自變量不發(fā)生變化的情況下,因變量的變異概率極小。模型訓練過程中,各特征參數(shù)的重要性如圖8所示。
圖8 VOCs特征影響系數(shù)表
圖8表明, VOCs污染物的預測中,烷烴類污染物重要性比較強,相對而言溫度及壓強作用比較小。
3) VOCs污染物濃度預測
從設有監(jiān)測點網(wǎng)格中選取19組數(shù)據(jù)作為預測集輸入模型,得到各決策樹的預測結果序列,再根據(jù)式(9)投票篩選出最優(yōu)預測結果,預測結果如表7所示。
表7 VOCs污染物濃度預測結果
4) 模型比較
本文是基于網(wǎng)格空間特性以及隨機森林回歸模型實現(xiàn)VOCs污染物濃度預測,現(xiàn)將預測結果與常用的BP神經(jīng)網(wǎng)絡預測結果進行比較,如表8所示。
表8給出了不同網(wǎng)格在兩種預測模型下的VOCs污染物預測值,未設置監(jiān)測點的網(wǎng)格VOCs污染物實際值用克里金插值預測結果代替;分別采用相對誤差和平均相對誤差對兩種模型進行分析。由表8可知,隨機森林模型和BP神經(jīng)網(wǎng)絡模型的VOCs總量預測值的平均誤差分別是3.15%和13.36%,由此可見,隨機森林回歸模型誤差更小。
表8 不同預測方法的結果對比
本次預測是根據(jù)區(qū)域空間關聯(lián)性以及VOCs污染物特征,對其濃度進行的精細化預測,意在解決監(jiān)測設備不能普及部署以及區(qū)域之間污染物的流動影響問題。
1) 各區(qū)域之間的污染物存在相互影響??死锝鸩逯捣ㄍㄟ^網(wǎng)格的空間地理位置來預估未設置監(jiān)測點的網(wǎng)格數(shù)據(jù);隨機森林模型基于污染物特征之間的相關關系預測污染物的濃度,隨機森林模型預測的結果更加精準。
2) 和BP神經(jīng)網(wǎng)絡模型相比,隨機森林模型誤差更小,其VOCs總濃度預測值的平均誤差為3.15%。模型構建過程考慮了氣象指標對預測結果的影響,更能體現(xiàn)出VOCs特征之間的關聯(lián)性及相互影響作用。
3) 運用基于隨機森林算法的預測模型預測區(qū)域VOCs總濃度,同時也可以預測其組成成分的濃度(如苯、甲苯、苯乙烯等),將其與國家VOCs排放控制標準限值進行對比,當超出限值時,結合區(qū)域網(wǎng)格編號信息[(pi,pj,pk),Num]獲得其坐標信息(pi,pj,pk),而坐標定位位置可為管理者超前管控提供依據(jù)。