周漢勝, 李澤瑞, 周金華
(1.安徽醫(yī)科大學 生物醫(yī)學工程學院,安徽 合肥 230032; 2.合肥綜合性國家科學中心 人工智能研究院,安徽 合肥 230088)
隨著汽車保有量的增加,機動車等道路移動污染源已經(jīng)成為大氣污染的重要來源[1,2],其中,尾氣排放量超過排放標準的道路的高排放源所造成的大氣污染問題尤為突出。為緩解道路高排放源對大氣環(huán)境造成的不利影響,需要加強對道路高排放源的監(jiān)測與控制。如今,隨著遙感監(jiān)測技術(shù)的發(fā)展,道路遙感監(jiān)測技術(shù)在識別道路高排放源中發(fā)揮越來越重要的作用。
早期基于遙感監(jiān)測技術(shù)的道路高排放源識別方法需要對監(jiān)測數(shù)據(jù)中各種污染氣體體積分數(shù)設(shè)定限值,當排放尾氣中一種或多種污染氣體體積分數(shù)超過對應(yīng)限值時,該機動車將被認定為道路高排放源。例如,Rueff R M等人[3]將CO排放限值設(shè)為4 %,Stephens R D等人[4]將CO、HC 和NO的排放限值分別設(shè)定為3 %、0.3 %和0.2 %。但設(shè)定限值的方法均假設(shè)尾氣污染物在最佳空燃比條件下生成,未考慮尾氣中殘余氧氣對測量的影響[5]。考慮到設(shè)定限值方法的局限性,目前,已有研究人員利用相關(guān)技術(shù)挖掘道路遙感監(jiān)測數(shù)據(jù)中的潛在規(guī)律,探索道路高排放源識別的新方法。Li Z R等人[6]提出了基于加權(quán)極限學習機(extreme learning machine,ELM)的道路高排放源識別模型,并通過主動學習選取有價值的樣本進行標記,實驗結(jié)果表明:該方法提高了對高排放源的識別性能。這類方法大多需要利用尾氣遙感監(jiān)測數(shù)據(jù)及其對應(yīng)的正常和高排放源標簽來訓練模型,標簽通常來自機動車的尾氣檢測報告。然而部分在2次車檢之間,正常排放的機動車可能因尾氣處理系統(tǒng)故障等因素使尾氣超過排放標準,但其對應(yīng)的標簽卻仍為正常排放源,降低了正常排放源標簽的可信度,也使得這類模型的性能難以保證。
針對高排放源數(shù)據(jù)可信度高、正常排放源可信度低的情況,本文提出基于隨機傅里葉特征(random Fourier feature)[8]和非常稀疏映射(very sparse random projection)[9]的單類分類(one-class classification,OCC)寬度學習系統(tǒng)(broad learning system,BLS)[10]算法,即OCC-FS-BLS算法,只利用可信度較高的高排放源數(shù)據(jù)訓練模型。OCC-FS-BLS在OCC-BLS[7]的基礎(chǔ)上,引入隨機傅里葉特征和非常稀疏隨機映射(FS)對BLS的網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化,實現(xiàn)了對道路高排放源的有效識別。
BLS由Gong X等人提出,其結(jié)構(gòu)如圖1其已經(jīng)在計算機視覺、生物醫(yī)療、系統(tǒng)建模與預(yù)測、故障檢測與診斷和互聯(lián)網(wǎng)通信工程等領(lǐng)域中廣泛應(yīng)用[11]。
圖1 BLS的結(jié)構(gòu)
Zi=φ(XWi+Bi),i=1,2,…,n
(1)
其中,Zi∈RN×K為BLS第i個特征節(jié)點,Wi∈RN×K和Bi∈RN×K為線性隨機映射的權(quán)重和偏移量,φ()為激活函數(shù),n為特征結(jié)點的個數(shù)。所有的特征節(jié)點Zi拼接到一起得到Z∈RN×(n×K)。
特征節(jié)點再次線性隨機映射生成BLS增強節(jié)點
Hj=ζ(ZWj+Bj),j=1,2,…,m
(2)
其中,Hj∈RN×P,Wj∈R(n×K)×P和Bj∈RN×P為線性隨機映射的權(quán)重和偏移量,ζ()為激活函數(shù),m為增強結(jié)點的個數(shù)。將所有的Hj連接在一起得到H=[H1,…,Hm],H∈RN×(m×P),所有的特征節(jié)點和增強節(jié)點拼接在一起得到輸出層的輸入
A=[Z|H],A∈RN×D
(3)
其中,D=n×K+m×P。此時目標函數(shù)及其解析解
minL=‖β‖2+λ‖ε‖2,s.t.Aβ=y-ε
(4)
(5)
式中I為單位矩陣,λ為常系數(shù),用來調(diào)節(jié)正則項和經(jīng)驗損失項之間的關(guān)系。
上述BLS特征節(jié)點由輸入數(shù)據(jù)經(jīng)過線性隨機映射生成,但在面對某些任務(wù)時非線性特征映射可能發(fā)揮更重要的作用[12]。Gong X等人[11]將數(shù)據(jù)特征通過隨機傅里葉特征映射生成BLS特征節(jié)點,實驗結(jié)果表明,與其他基于核函數(shù)的方法相比,改進方案在UCI數(shù)據(jù)集上取得了最高的準確率。同時,為保證BLS的函數(shù)擬合能力,通常需要設(shè)置較大的節(jié)點數(shù)量,但也提高了引入冗余節(jié)點的可能性,降低模型的泛化能力和識別精度[13]。Chen C等人[14]為了緩解ELM隱含層中的冗余節(jié)點對模型泛化能力的影響,利用非常稀疏映射降低了隱含層的輸出維度,有效減少了隱含層中的冗余信息,并且比ELM識別準確率提升了6 %。
因此,為了提高BLS樣本數(shù)據(jù)特征學習能力同時緩解特征增強可能出現(xiàn)的節(jié)點冗余問題,BLS的特征節(jié)點由樣本數(shù)據(jù)的隨機傅里葉特征構(gòu)成,BLS的增強節(jié)點由特征節(jié)點進行非常稀疏映射構(gòu)成。改進BLS結(jié)構(gòu)如圖2所示。
圖2 改進BLS的結(jié)構(gòu)
OCC-BLS算法[7]流程為兩步:1)根據(jù)訓練數(shù)據(jù)計算輸出權(quán)重β;2)確定判定樣本正負類的閾值θ。
首先將訓練數(shù)據(jù)X再次輸入BLS中,根據(jù)權(quán)重β可以得到輸入數(shù)據(jù)對應(yīng)預(yù)測結(jié)果如下
ytrain=Aβ
(6)
考慮到訓練數(shù)據(jù)可能存在噪聲,以及避免模型過擬合,對于預(yù)測結(jié)果ytrain并不可全部視為目標類,需要進一步計算預(yù)測結(jié)果ytrain與目標類的距離,并按照一定的比例μ將與目標類最遠的若干訓練樣本視為異常類數(shù)據(jù)。計算預(yù)測標簽ytrain和目標類y之間的距離dtrain,將dtrain由大到小排列可以得到d,如下
dtrain=|ytrain-y|
(7)
d=Sort(dtrain)=[d1,d2,…,dN]
(8)
將d的第μ×N各元素定義為判定目標類和異常類的閾值θ=d?μ×N」,0<μ<1。根據(jù)定義,對于測試樣本Ztest∈R1×M的所屬類別判定準則如下
(9)
式中Atest為測試樣本經(jīng)過線性特征映射和線性增強映射生成的特征節(jié)點和增強節(jié)點的拼接。
OCC-FS-BLS的實現(xiàn)過程分為2步:1)將正類數(shù)據(jù)輸入到改進的BLS中,通過偽逆得到輸出權(quán)重β;2)再次將訓練數(shù)據(jù)輸入改進的BLS中,根據(jù)事先設(shè)定的比例系數(shù)μ確定判斷正負類樣本的閾值θ。
對于BLS的改進主要是通過隨機傅里葉特征生成特征節(jié)點,增強節(jié)點的生成方式由普通映射改為非常稀疏映射。根據(jù)文獻[8],隨機傅里葉特征可以根據(jù)以下計算得到
經(jīng)營能力提升指標的重點在于“提升”二字,應(yīng)通過上一個經(jīng)營年度該類指標的公示來引導學生發(fā)現(xiàn)經(jīng)營過程中相應(yīng)的問題,要有目標、有針對性的在新的年度經(jīng)營過程中提出相應(yīng)的策略,并不斷優(yōu)化該項指標。每后一年度的指標值較前一年度更好時則可獲得相應(yīng)分數(shù),否則不得分。
(10)
(11)
式中z(xi)∈R1×K,w∈RM×K,wi∈RM×1,p(wi)為高斯核函數(shù)的概率密度函數(shù),w~p(wi),b為[0,2π]上均勻分布的隨機向量,b∈R1×K。隨機傅里葉特征進行點積近似高斯核函數(shù)
(12)
其中,j=1,2,…,N,(xi,xj)∈R1×M,zk(xi)計算xi隨機傅里葉特征維度為k處的向量。根據(jù)式(10),將所有的樣本進行隨機傅里葉特征映射并組合到一起得到Zi=[z(x1)T,…,z(xN)T]T,Zi∈RN×K。將n次特征映射的結(jié)果組合到一起得到Z∈RN×(n×K)。
同時,將增強映射的隨機映射矩陣Wj改為非常稀疏隨機映射矩陣Fj,根據(jù)文獻[15]Fj服從如下分布
(13)
OCC-FS-BLS是在上述改進BLS基礎(chǔ)上所構(gòu)建的單類分類算法,其構(gòu)建方法與OCC-BLS相同。根據(jù)式(6)~式(9),可以確定OCC-FS-BLS中判斷正負類的閾值θ,當預(yù)測值到正類的距離大于閾值θ時認定為負類,反之認定為正類。
1)數(shù)據(jù)集的采集:實驗數(shù)據(jù)是通過安裝在主干道或者路口的各種遙感監(jiān)測設(shè)備采集的,所用設(shè)備包括移動式遙感監(jiān)測設(shè)備、橫穿式遙感監(jiān)測設(shè)備及垂直式遙感監(jiān)測設(shè)備。
2)數(shù)據(jù)集的處理與組成:原始數(shù)據(jù)中的缺失值用其所在特征的均值補全,同時,為了避免不同維度中數(shù)值的差異對模型分類的影響,對所有維度的數(shù)據(jù)進行歸一化。經(jīng)過以上預(yù)處理得到4 092條實驗數(shù)據(jù),其中,包含遙感檢測數(shù)據(jù)以及檢測機構(gòu)給出的對應(yīng)標簽。數(shù)據(jù)包含11個特征,分別是CO,HC,NO,CO2的濃度 、車速、加速度、VSP、風速、風向、溫度以及車牌顏色。在4 092條數(shù)據(jù)中,218個正類樣本(高排放源),3 874個負類樣本(正常排放源)。
3)數(shù)據(jù)集的劃分:根據(jù)文獻[16],將218個正類樣本隨機分成兩等份,一份作為訓練集,另一份和3 874個負類樣本并作測試集。
本文選取精確率P(precision)、召回率R(recall)和F1分數(shù)作為模型的評價指標。P反映了模型預(yù)測為道路高排放源樣本中預(yù)測正確的比例;R為實際高排放源樣本中被模型正確識別的比例;F1分數(shù)是綜合考慮精確率和召回率的評價指標。本文主要使用F1分數(shù)評估道路高排放源識別模型,但同時也需要對P和R分析,這可以給模型提供改進的方向。
實驗設(shè)置:考慮到數(shù)據(jù)集的不同劃分對實驗結(jié)果產(chǎn)生的影響,為提高實驗結(jié)果的可信度,隨機劃分5組訓練集和測試集,相同參數(shù)配置的模型在5組數(shù)據(jù)集分別實驗,取5次實驗中F1分數(shù)的平均值作為最終結(jié)果。
本文實驗選取了幾種主流的機器學習單分類算法作為對比方法,分別是OCELM[16]、OCCSVM[17]和OCC-BLS,同時,為證明隨機傅里葉特征和非常稀疏映射的有效性,與只使用隨機傅里葉特征的OCC-F-BLS以及只使用非常系數(shù)映射的OCC-S-BLS進行對比,實驗結(jié)果如表1所示。在所有的方法中,OCCFSBLS取得最高的F1分數(shù)和精確率P,分別達到了67.5 %和65.0 %,相比較非線性映射的OCCSVM 和OCFBLS,F(xiàn)1分數(shù)分別高出2.5 %和1.8 %。與線性隨機映射的 OCELM、OCC-BLS和OCC-S-BLS相比,OCC-FS-BLS的F1分數(shù)分別提升23.9 %、18.1 %和16.2 %。顯然,基于非線性隨機映射的模型更加適合道路高排放源識別。OCC-S-BLS的F1分數(shù)為51.3 %,比OCC-BLS高出1.9 %,F(xiàn)1分數(shù)提升的原因可能是非常稀疏映射緩解了BLS節(jié)點冗余帶來的不利影響,提高了模型擬合的準確性。OCC-F-BLS的F1分數(shù)相比OCC-BLS大幅提高了18.1 %,表明隨機傅里葉特征作為一種非線性映射方法生成BLS特征結(jié)點是有效的。相比較OCC-S-BLS和OCC-F-BLS,OCC-FS-BLS取得最高的F1分數(shù),說明通過隨機傅里葉特征映射和非常稀疏映射,同時改進BLS的特征節(jié)點和增強節(jié)點的生成方式有助于提升模型對正常排放源和高排放源的識別。
表1 各算法的F1、召回率和精確率 %
如圖3所示,為OCELM、OCC-SVM、OCC-BLS、OCC-S-BLS、OCC-F-BLS和OCC-FS-BLS的識別效果。圓點表示測試集中正常排放源樣本,三角形和星型分別表示訓練集和測試集中高排放源樣本,圖中落入深色區(qū)域的樣本會被模型預(yù)測為高排放源,落入淺色區(qū)域的點將被識別為正常排放源。在圖3(a)~(c)中,大部分道路高排放源落入深色區(qū)域被準確識別,但在深色區(qū)域內(nèi)同樣存在很多正常排放源樣本被錯誤識別。相比之下,在圖(d)~(f)中,OCC-F-BLS、OCC-SVM 和OCC-SF-BLS可以保證高排放源樣本盡可能多的落入深色區(qū)域,并顯著減少深色區(qū)域內(nèi)正常排放源的數(shù)量。為進一步了解OCC-F-BLS、OCC-SVM 和OCC-SF-BLS之間性能的差異,對圖3方框區(qū)域進行放大如圖4所示,相比較OCC-FS-BLS,OCC-F-BLS將很多正常排放源識別為高排放源,OCC-SVM將很多高排放源樣本錯誤的識別為正常排放源。
圖3 各算法分類結(jié)果的可視化
圖4 OCC-F-BLS、OCC-SVM和OCC-FS-BLS局部分類結(jié)果的可視化
面對道路尾氣排放遙感監(jiān)測數(shù)據(jù)中高排放源數(shù)據(jù)可信度高、正常排放源數(shù)據(jù)可信度低的問題,提出了基于隨機傅里葉特征和非常稀疏映射的OCC-BLS算法,可以僅利用可信度高的高排放源數(shù)據(jù)訓練模型,就可以對高排放源有效識別。實驗結(jié)果顯示,相比較對比方法,本文的方法在F1分數(shù)下取得了最好的識別結(jié)果。在日后的工作中,將通過直推學習構(gòu)建半監(jiān)督的單分類算法,充分利用有標簽和無標簽的樣本信息,進一步提高模型對高排放源數(shù)據(jù)的識別性能。