摘要:隨著我國人民生活水平和汽車制造技術(shù)水平的快速提升,社會汽車保有量迅速增長,然而汽車排放的有害物質(zhì)(CO、HC、NO)引發(fā)的城市大氣污染問題也日益嚴重。目前,遙感檢測技術(shù)在檢測汽車尾氣含量時容易受到天氣影響,導(dǎo)致取樣數(shù)據(jù)不準確等問題,給汽車監(jiān)管部門的精準執(zhí)法帶來了較大困難。文章利用遙感檢測儀對汽車尾氣數(shù)據(jù)進行采集,研究了精準預(yù)測汽車排放有害物質(zhì)(CO、HC、NO)數(shù)據(jù)的方案,提出了W-Gea算法,實現(xiàn)了對汽車尾氣數(shù)據(jù)的精準預(yù)測。
關(guān)鍵詞:W-Gea;汽車尾氣;預(yù)測算法;增強梯度
中圖分類號:TP312 文獻標志碼:A
0 引言
目前,基于遙感檢測技術(shù)的方法被廣泛用于汽車尾氣排放污染物含量的檢測,但存在一定的缺陷,在實際檢測過程中非常容易受到天氣的影響,從而導(dǎo)致檢測到的單個汽車尾氣排放數(shù)據(jù)中存在大量的異常和殘缺數(shù)據(jù)[1]。本文針對含有大量異常、殘缺的原始尾氣數(shù)據(jù)(CO、HC、NO)不能直接進行汽車尾氣監(jiān)測的問題,研究出精準的預(yù)測算法,以對這些異常、殘缺數(shù)據(jù)進行精準預(yù)測。
1 數(shù)據(jù)獲取
本文利用獲取到的完整汽車尾氣數(shù)據(jù)集進行汽車尾氣含量預(yù)測研究。遙感尾氣監(jiān)測系統(tǒng)基本原理如圖1所示。
將遙感尾氣檢測設(shè)備安裝在接近汽車排氣管的尾部,被測汽車按照平時正常行駛狀態(tài)分別在不同天氣(雨天、陰天、多云、晴天)下以不同的車速(10、30 km/h)行駛2 km,分別在20天里每天進行10次重復(fù)采集,獲取汽車尾氣數(shù)據(jù)結(jié)果(CO、HC、NO)。記錄10輛汽車的車牌號、車主信息、汽車速度、車身長度、車輛質(zhì)量、汽車排量、是否有汽車催化轉(zhuǎn)化器和當(dāng)天溫度信息。
2 汽車尾氣含量預(yù)測算法
2.1 加權(quán)增強梯度算法
一般的集成回歸樹的原理如圖2所示,基本思想是通過不斷地添加一個新的回歸樹,通過特征樹的分裂重新生長一棵樹。每次增加一棵新的回歸樹,本質(zhì)是通過特征屬性去訓(xùn)練學(xué)習(xí)這棵樹對應(yīng)的新函數(shù),目的是將前一棵樹訓(xùn)練學(xué)習(xí)完的殘差放到下一棵樹對應(yīng)的函數(shù)中去繼續(xù)訓(xùn)練學(xué)習(xí),這樣通過不斷的迭代、不斷的訓(xùn)練學(xué)習(xí)使得最后的預(yù)測值更加接近真實值。當(dāng)在設(shè)定空間完成K棵樹的訓(xùn)練學(xué)習(xí)后,就會得到最終的預(yù)測值。最終的預(yù)測值是將要預(yù)測樣本的特征值隨機地對應(yīng)到每棵樹的某個葉子節(jié)點上,經(jīng)過迭代、訓(xùn)練、學(xué)習(xí)后將每棵樹上對應(yīng)同一樣本特征的葉子節(jié)點上的數(shù)加在一起得到的值。
結(jié)合梯度提升樹和對權(quán)重自行選擇2種方法的高效融合實現(xiàn)加權(quán)增強梯度算法(Weighted Gradient Enhancement Algorithm,W-Gea)[2]。W-Gea對具有規(guī)律結(jié)構(gòu)化的數(shù)據(jù)有著很強的建模能力,可以對數(shù)據(jù)的特征進行自行選擇,不易發(fā)生數(shù)據(jù)過度擬合的情況,并且支持多線程并行處理。本節(jié)利用獲取的汽車尾氣數(shù)據(jù)建立W-Gea的預(yù)測模型。針對給出的訓(xùn)練學(xué)習(xí)的樣本數(shù)據(jù)集,W-Gea算法通過加強學(xué)習(xí)去迭代、訓(xùn)練、學(xué)習(xí)每次增加的回歸樹,并自行對影響遙感檢測技術(shù)檢測的不穩(wěn)定因素進行加權(quán)處理。
模型的輸入包括通過遙感檢測技術(shù)獲取的汽車尾氣中完整的CO、HC、NO含量(單位:g/km)、汽車速度、車身長度、汽車質(zhì)量、汽車排量、燒然是否有催化轉(zhuǎn)化器、當(dāng)天溫度。模型的標準輸出包括基于遙感檢測技術(shù)檢測的異常、殘缺汽車尾氣中CO、HC、NO的預(yù)測含量。
2.1.1 預(yù)測函數(shù)
W-Gea的預(yù)測函數(shù)P(x)為:
其中,yi為預(yù)測值,f(x)為回歸樹對應(yīng)的函數(shù),η為f(x)的設(shè)定空間,q(x)為樣本x對應(yīng)到回歸樹某個葉子節(jié)點上的特征值,w為該葉子節(jié)點的預(yù)測值,wq(x)為第k棵回歸樹對應(yīng)函數(shù)fk對樣本的預(yù)測值。
2.1.2 目標損失函數(shù)
W-Gea的目標損失函數(shù)L(P)為:
W-Gea在第t次迭代后的預(yù)測值為前t-1次迭代后的預(yù)測值與第t棵回歸樹的預(yù)測值之和,得:
y(t)i=y(t-1)i+ft(xi)(5)
目標損失函數(shù)為:
對目標函數(shù)L在yt-1i處進行泰勒展開式展開,可得:
其中,對一階梯度gi,二階梯度hi有:
對公式(7)進一步化簡得:
將:
帶入公式(10),可得化簡后的目標函數(shù):
定義一棵樹上的每個葉子節(jié)點上的特征值集合為:
Ij={i|q(xi)=j}(13)
目標損失函數(shù)轉(zhuǎn)化為一個一元二次函數(shù):
進一步化簡得:
其中
令公式(14)中目標損失函數(shù)L(t)1的導(dǎo)數(shù)為0,可得L(t)1的最小值,則該葉子節(jié)點最終的預(yù)測值:
L(t)1的最小值為:
進而通過不斷列舉出每棵樹的不同結(jié)構(gòu),并根據(jù)公式w*j迭代學(xué)習(xí)后確定最優(yōu)回歸樹結(jié)構(gòu)。但是回歸樹的葉子可無限增加,因此窮舉法不現(xiàn)實。W-Gea設(shè)計時加入了貪心算法,利用貪心算法去分割已經(jīng)存在的每棵樹的葉子節(jié)點,這樣就可避免窮舉法去增加不同結(jié)構(gòu)的樹。每一個葉子節(jié)點在進行分割前和分割后的增益為:
基于上述函數(shù)思想,對9個維度的輸入數(shù)據(jù)分別乘上平均權(quán)重作為W-Gea模型的輸入,權(quán)重計算公式為:
最后,選擇分割前與分割后增益Gain最大的葉子節(jié)點進行貪心算法的分割,定義最開始回歸樹的值為0,通過不斷分割、學(xué)習(xí)、迭代確定最終K棵回歸樹 的最優(yōu)結(jié)構(gòu),從而確立了W-Gea算法的模型,對汽車尾氣數(shù)據(jù)進行預(yù)測。
2.2 實驗結(jié)果與分析
本文將獲取的汽車尾氣完整數(shù)據(jù)作為驗證數(shù)據(jù)集,對獲取的汽車尾氣完整數(shù)據(jù)進行人為刪除部分數(shù)據(jù),將處理得到的數(shù)據(jù)集作為尾氣預(yù)測數(shù)據(jù)集。在尾氣預(yù)測數(shù)據(jù)集上訓(xùn)練預(yù)測模型,確定體現(xiàn)算法相對準確的4個指標:平均方根偏差(Mean Root Deviation,MRD)、相關(guān)系數(shù)R、擬合度(Degree of Fitting,DF)和平均絕對偏差(Mean Absolute Deviation,MAD)。MRD、R、DF和MAD指標定義如下:
CO尾氣含量預(yù)測如圖3和表1所示。
HC尾氣含量預(yù)測如圖4和表2所示。
NO尾氣含量預(yù)測如圖5和表3所示。
從實驗結(jié)果可以看出:W-Gea的尾氣含量預(yù)測算法準確性最好。在對CO、HC和NO尾氣含量預(yù)測時,相關(guān)系數(shù)R分別為0.87、0.85、0.86高于0.75、0.73、0.71(XGBoost)和0.64、0.70、0.66 (MLP)。從預(yù)測結(jié)果可以看出:對汽車尾氣污染物CO、HC、NO進行預(yù)測時,W-Gea算法的測試指標R和DF都高于XGBoost方法與MLP方法[3-4],其測試誤差MRD和MAD也最小,對CO、HC、NO的預(yù)測得到了相同的結(jié)論。
從圖3、圖4與圖5中的W-Gea曲線與真實值曲線比較可知,W-Gea的汽車尾氣含量預(yù)測的結(jié)果與真實的汽車尾氣數(shù)據(jù)結(jié)果幾乎重合,得出該算法模型對汽車尾氣測試樣本中汽車尾氣含量的預(yù)測結(jié)果更接近于真實值。因此,在基于不同測試指標對遙感技術(shù)檢測到的汽車尾氣中大量的異常數(shù)據(jù)、殘缺數(shù)據(jù)進行預(yù)測的表現(xiàn),可得W-Gea的尾氣含量預(yù)測算法模型與XGBoost方法和MLP方法相比,對汽車尾氣數(shù)據(jù)的預(yù)測效果具有更好的準確性。
3 結(jié)語
本文針對遙感檢測技術(shù)檢測汽車尾氣排放污染物數(shù)值時,檢測結(jié)果易受到天氣環(huán)境影響而得到異常、殘缺數(shù)值的問題,利用經(jīng)過處理得到的汽車尾氣測試數(shù)據(jù)集,建立本文中W-Gea的尾氣含量預(yù)測算法模型,對汽車尾氣排放的真實水平進行預(yù)測,并通過實驗證明W-Gea模型預(yù)測的準確度高于XGBoost算法和MLP方法。
參考文獻
[1]石于.我國機動車尾氣排放控制現(xiàn)狀與對策[J].智能城市應(yīng)用,2022(1):70-72.
[2]LUCA P D,NICOLA F.Energy consumption forecasts by gradient boosting regression trees[J].Mathematics,2023(5):1068.
[3]陳玉敏,魏陽,常政威,等.基于遙感數(shù)據(jù)和XGBoost算法的31個城市NO2、CO2濃度比率變化特征[J].地球科學(xué)與環(huán)境學(xué)報,2023(6):1355-1367.
[4]崔立卿,王勝男,袁海范,等.基于神經(jīng)網(wǎng)絡(luò)MLP和RBF的全社會用電量預(yù)測研究[J].電力大數(shù)據(jù),2023(9):31-39.
Research on accurate prediction of automobile exhaust data based on W-Gea algorithm
Abstract: With the continuous improvement of people’s living standard and the rapid improvement of automobile manufacturing technology in China, the number of vehicles in the society has grown rapidly, but the urban air pollution problem caused by harmful substances (CO, HC, NO) emitted by vehicles is also becoming more and more serious. At present, remote sensing detection technology is easy to be affected by weather when detecting automobile exhaust content, resulting in inaccurate sampling data and other problems, which brings great difficulties to accurate law enforcement by automobile regulators. In this paper, the remote sensing detector is used to collect the vehicle exhaust data, and the accurate prediction scheme of the vehicle emission harmful substances (CO, HC, NO) is studied, and the W-Gea algorithm is proposed to realize the accurate prediction of the vehicle exhaust data.
Key words: W-Gea; automobile exhaust; prediction algorithm; gradient enhancement