周仿榮,文 剛*,馬 儀,張 輝,朱龍昌,楊可意,韓 舸
(1.電力遙感技術(shù)聯(lián)合實驗室(南方電網(wǎng)公司云南電網(wǎng)電力科學(xué)研究院),云南 昆明 650217;2.武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢 430079)
近年來,通過大量實驗室和自然環(huán)境的實驗發(fā)現(xiàn),電力污穢來源于絕緣子所處環(huán)境大氣中的污染物。宿志一[6]證實大氣污染是引起污閃事故的重要原因;胡霽[7]等發(fā)現(xiàn)利用PM2.5濃度觀測可以提高絕緣子等值鹽密(ESDD)的建模精度;熊宇[8]等將大氣質(zhì)量指數(shù)(AQI)引入ESDD 動態(tài)累積模型,成功提高模型預(yù)測精度;高嵩[9]等定量分析了降雨對污穢積累的沖刷作用。目前在單點尺度上利用大氣環(huán)境數(shù)據(jù)和氣象數(shù)據(jù)對電力污穢的積累預(yù)測取得較好的進(jìn)展。但是,利用這些驅(qū)動因子進(jìn)行區(qū)域性評估和電力污穢等級制圖尚需要進(jìn)一步探索[8,10]。要形成一種準(zhǔn)確的電力污穢等級圖繪制手段,還存在較大的差距[11-12]。
針對這一問題,本研究提出一種多源數(shù)據(jù)融合的電力污穢等級預(yù)測模型。在前人研究的基礎(chǔ)上進(jìn)一步引入夜間燈光遙感數(shù)據(jù)作為人類活動強度的量化指標(biāo),同時利用記錄污染源信息的文本數(shù)據(jù)生成空間化的污染源核密度,并采用網(wǎng)格化排放清單表征多種大氣污染物的排放量。以云南地區(qū)作為研究對象,利用形成的高維輸入屬性集合,以現(xiàn)有污區(qū)圖為目標(biāo),采取XGBOOST 進(jìn)行建模以完成污穢等級空間預(yù)測。
云南省位于我國西南部,大氣環(huán)境質(zhì)量在全國屬于上游水平[13],因此云南省與現(xiàn)有電力污穢累積研究有很大的區(qū)別。云南省2018—2020年大氣PM2.5數(shù)據(jù)顯示,其全省年最大PM2.5質(zhì)量濃度僅為53.2 μg/m3。由此可見PM2.5或AOD 不可能是該地區(qū)電力污穢的主要驅(qū)動因子,這為建立預(yù)測模型帶來了巨大挑戰(zhàn)。但也正是由于研究區(qū)的特殊性,在本地區(qū)能夠適用的建模方法具有更強的移植能力。
本文搜集到的多源數(shù)據(jù)信息主要分為四大類:遙感數(shù)據(jù)(包括夜間燈光數(shù)據(jù)[14]、歸一化植被指數(shù)數(shù)據(jù)、大氣環(huán)境數(shù)據(jù))污染排放企業(yè)位置文本數(shù)據(jù)、氣象數(shù)據(jù)、污染物網(wǎng)格化排放清單。本研究目標(biāo)是建立面域預(yù)測模型,需要對原始數(shù)據(jù)進(jìn)行預(yù)處理。將具有空間屬性的衛(wèi)星遙感數(shù)據(jù)和網(wǎng)格化排放清單統(tǒng)一到1 km的分辨率和相同的坐標(biāo)系,以獲得一致的空間數(shù)據(jù)。氣象數(shù)據(jù)采用克里金插值轉(zhuǎn)換為1 km分辨率的柵格型空間數(shù)據(jù)。污染企業(yè)信息將文本類型屬性轉(zhuǎn)換為點狀矢量數(shù)據(jù),再利用核密度分析和距離分析轉(zhuǎn)換為1 km分辨率的柵格數(shù)據(jù),并使用排放強度作為權(quán)重。
多源環(huán)境數(shù)據(jù)融合的電力污穢評估模型流程為:①搜集多源異構(gòu)數(shù)據(jù)。為了完成污穢的空間評估,要求所有建模數(shù)據(jù)是時空數(shù)據(jù)。搜集到的數(shù)據(jù)中表征排放源信息的數(shù)據(jù)是文本類型,主要包括經(jīng)緯度、排放強度分級和影響范圍分級數(shù)據(jù)。本研究采用核密度分析和距離分析的空間分析手段將文本數(shù)據(jù)轉(zhuǎn)換為空間數(shù)據(jù)。②對所有數(shù)據(jù)進(jìn)行時空配準(zhǔn)并進(jìn)行數(shù)據(jù)清洗并剔除異常值。③使用2020 版云南省污區(qū)圖作為標(biāo)簽圖層,利用XGBOOST 建立輸入數(shù)據(jù)到標(biāo)簽的映射關(guān)系,并采用十折交叉驗證法訓(xùn)練和驗證模型。④為了消除重采樣排放清單數(shù)據(jù)以及某一變量重要性較高引起的鋸齒效應(yīng),我們將采用引導(dǎo)濾波進(jìn)行平滑處理,以獲得云南全省污染等級的最終空間預(yù)測結(jié)果。
XGBOOST 是一種由GBDT(gradient boosting decision tree)算法發(fā)展而來的機器學(xué)習(xí)算法[15],其在集成學(xué)習(xí)的基礎(chǔ)上,結(jié)合梯度信息,完成了對目標(biāo)函數(shù)的優(yōu)化,獲得最優(yōu)解。相比于GBDT,XGBOOST除了運用了損失函數(shù)的一階導(dǎo)數(shù)信息外,還通過對損失函數(shù)的泰勒展開,獲取損失函數(shù)二階導(dǎo)數(shù)信息,更快獲得最優(yōu)解[16]。XGBOOST算法由一系列決策樹組合而成:
式中,F(xiàn)S(forest sets)為決策樹集合;xi為第i條數(shù)據(jù)的特征值所組成的向量;fn(xi)為第n個獨立決策樹,其中包含樹的結(jié)構(gòu)和權(quán)重信息;N為決策樹的總量;為第i條數(shù)據(jù)的預(yù)測值。
XGBOOST 定義了損失函數(shù)Loss,通過訓(xùn)練集提供的數(shù)據(jù)訓(xùn)練,可以獲取決策樹的相關(guān)信息。
式中,L(yi,)為預(yù)測值和真實值yi間的損失函數(shù),根據(jù)任務(wù)需求不同,選取的損失函數(shù)種類不同,本研究中選取multi-softmax作為預(yù)測值和真實值yi間的損失函數(shù)。M為訓(xùn)練集數(shù)量,Ω(fn)為決策樹的正則項,防止樹結(jié)構(gòu)過于復(fù)雜,產(chǎn)生過擬合現(xiàn)象。
XGBOOST通過多輪迭代獲取最優(yōu)解,其中第t輪的損失函數(shù)可表示為公式(3)。
為了方便后續(xù)求導(dǎo)過程,將公式(4)代入公式(3)可獲得t輪的損失函數(shù)的簡便表示。
為求取第t輪損失函數(shù)中葉子權(quán)重的最優(yōu)解,對第t輪迭代的損失函數(shù)Losst進(jìn)行二階泰勒展開可以得到公式(6):
式中,Δft(xi)為第t輪預(yù)測值與第t-1 輪迭代的增量;gi和hi分別為L(yi,? )的一階導(dǎo)數(shù)和二階導(dǎo)數(shù);Ij={i|q(xi=j)}為第j顆樹所有葉子的權(quán)重;為Ω(ft)的代數(shù)形式。
在公式(6)的基礎(chǔ)上對w求偏導(dǎo),可以得到第j棵樹的葉子權(quán)重在第t輪的迭代情況下的最優(yōu)數(shù)值
通過設(shè)定迭代次數(shù)和決策樹的結(jié)構(gòu)信息,我們可以獲得在給定數(shù)據(jù)集情況下訓(xùn)練好的XGBOOST 模型
引導(dǎo)濾波(guided filtering)和雙邊濾波(BF)、最 小 二 乘 濾 波 (WLS) 是 三 大 邊 緣 保 持(edge-perserving)濾波器[17]。他們在保持邊緣的基礎(chǔ)上,對圖像進(jìn)行了平滑操作。
引導(dǎo)濾波定義了在給定引導(dǎo)圖像I 和原始圖像p的條件下,輸出圖像q 可以表示為公式(8),其中wk為濾波核大小,ni為噪聲。
通過求解代價函數(shù)E(ak,bk),可獲得ak和bk,其中為正則約束項。
分別對ak和bk進(jìn)行求導(dǎo),可以獲得給定濾波窗口wk范圍內(nèi)的最優(yōu)估計值
本文使用十折交叉驗證法對構(gòu)建完成的數(shù)據(jù)集進(jìn)行訓(xùn)練,利用XGBOOST 模型在測試集上進(jìn)行驗證,最終取得了87%的精度。圖1~3 展示了電力系統(tǒng)現(xiàn)行的污區(qū)圖、基于多源遙感數(shù)據(jù)的XGBOOST 模型直接輸出結(jié)果以及采用引導(dǎo)濾波后的結(jié)果。
圖1 云南省2021年電力系統(tǒng)污區(qū)圖(審圖號:GS(2019)1822號)
對比圖1~3,發(fā)現(xiàn)對于電力系統(tǒng)最為關(guān)心的高風(fēng)險區(qū)域(1~3),圖2 與圖1 非常接近,很好地還原了由工業(yè)排放引起的局部高風(fēng)險區(qū)域。與熊宇等的結(jié)果相比,本研究結(jié)果對于重污染地區(qū)(1~2)的預(yù)測表現(xiàn)更為優(yōu)秀。這是由于本研究利用夜間燈光遙感產(chǎn)品更準(zhǔn)確地刻畫了人為排放的分布情況,同時XGBOOST算法的性能比支持向量機等傳統(tǒng)分類器更為優(yōu)越。
圖2 利用多源環(huán)境數(shù)據(jù)和XGBOOST算法得到的云南省電力系統(tǒng)污區(qū)圖(審圖號:GS(2019)1822號)
圖3 表明引入引導(dǎo)濾波可以顯著的抑制在局部空間上,由于排放清單的低空間分辨率導(dǎo)致的粗糙不平滑的邊緣??梢悦黠@觀察到,通過引導(dǎo)濾波卷積后的預(yù)測結(jié)果在空間分布上與污穢等級實測圖更接近,邊緣也更加平滑,更符合污穢等級分布的真實情況。
圖3 經(jīng)過引導(dǎo)濾波后的云南省電力系統(tǒng)污區(qū)圖(審圖號:GS(2019)1822號)
為了更好地定量評價本文所提方法的預(yù)測精度,表1 展示了最終預(yù)測結(jié)果與現(xiàn)行污區(qū)的混淆矩陣。從電網(wǎng)安全的角度看,較為嚴(yán)重污染等級(1~3)的地區(qū)更受重視,這些地區(qū)往往需要更為頻繁的清污工作。但是,從圖1 可以看出,1~3 等級的地區(qū)在面積上的占比不大。如果以總體精度為考察對象,最極端的模型可以通過將全部地區(qū)劃分為等級4來取得0.8以上的精度,這顯然與應(yīng)用初衷不相符。表1顯示,本文所提模型對于每一類的預(yù)測精度都達(dá)到0.8以上,并沒有通過犧牲1~3 類別預(yù)測精度來實現(xiàn)總體的高精度。這是本方法一個重要的特征和明顯的優(yōu)勢。這表明本方法得出的結(jié)果不僅具有數(shù)學(xué)意義上的有效性,更重要的是對于指導(dǎo)電力系統(tǒng)的實際工作具有巨大的價值。
表1 模型預(yù)測性能評價混淆矩陣
本文預(yù)測精度優(yōu)于傳統(tǒng)污穢等級預(yù)測方法,我們認(rèn)為這與引入了夜間燈光數(shù)據(jù)相關(guān)。夜間燈光數(shù)據(jù)很好地表征了與污染程度存在緊密相關(guān)性的人類活動的強度,使得高分辨率的夜間燈光數(shù)據(jù)在很大程度上彌補了排放數(shù)據(jù)低分辨率的缺陷,從另一個角度表征了預(yù)測點的環(huán)境污染情況,進(jìn)而使得預(yù)測精度獲得了提升。
決策樹中,子樹的分裂往往決定了最終整體樹的分類效果。特征參與子樹分裂的次數(shù)越多,該特征在分類中的作用越大。在上述預(yù)測精度的情況下,圖4按照數(shù)據(jù)集的統(tǒng)計順序給出了每種屬性數(shù)據(jù)參與子樹分裂的次數(shù)占總次數(shù)的頻率。從圖4 可見,污染氣體排放數(shù)據(jù)如OC、NOX、SO2、VOC以及NO2和SO2的遙感數(shù)據(jù)在預(yù)測中仍然起了較大作用,幾種排放數(shù)據(jù)的累計重要性占比達(dá)到了51.9%,超過一半。對于PM2.5和PM10,由于2 種數(shù)據(jù)在統(tǒng)計性質(zhì)上高度相關(guān),它們的重要性占比相近。此外,夜間燈光屬性占比達(dá)10.4%,證明了夜間燈光數(shù)據(jù)在實際分類過程中起到了很大作用,提高了預(yù)測精度。實驗結(jié)果表明,提高污染氣體遙感分辨率和精度,引入夜間燈光數(shù)據(jù),有助于提高污穢監(jiān)測的預(yù)測精度。
圖4 輸入?yún)?shù)在模型中的重要性排名
本文借助機器學(xué)習(xí)中XGBOOST 算法,利用包括大氣環(huán)境、氣象、夜間燈光遙感數(shù)據(jù)、污染源核密度,網(wǎng)格化排放清單表在內(nèi)的多源數(shù)據(jù),作為驅(qū)動因子對云南省進(jìn)行污穢等級預(yù)測,并與實測污穢等級分布進(jìn)行比較。實驗結(jié)果表明,本文所提方法在污穢等級預(yù)測上與現(xiàn)有污區(qū)圖吻合率達(dá)到87%,單一種類的預(yù)測精度均達(dá)到80%以上,表明了多源數(shù)據(jù)融合的電力污穢等級XGBOOST 預(yù)測模型在污穢等級預(yù)測上具有良好的潛力。