亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于特征采樣引導(dǎo)和集成RFELM的道路高排放源識(shí)別模型

2024-09-14 00:00:00周漢勝段培杰李澤瑞周金華

現(xiàn)代電子技術(shù) 2024年6期

摘 "要：機(jī)動(dòng)車排放的污染氣體會(huì)對(duì)環(huán)境造成嚴(yán)重危害，其中尾氣排放超標(biāo)的車輛是主要污染來源，因此實(shí)現(xiàn)對(duì)道路高排放源的有效識(shí)別具有重要意義。針對(duì)尾氣遙測(cè)數(shù)據(jù)，提出一種基于特征采樣引導(dǎo)和集成隨機(jī)傅里葉特征極限學(xué)習(xí)機(jī)（RFELM）的道路高排放源識(shí)別模型。首先對(duì)遙測(cè)數(shù)據(jù)進(jìn)行多次隨機(jī)采樣，構(gòu)建多組訓(xùn)練子集；然后對(duì)每組訓(xùn)練子集進(jìn)行多次特征采樣，并訓(xùn)練對(duì)應(yīng)的子分類器，根據(jù)組內(nèi)最優(yōu)子分類器的輸入特征更新特征采樣的概率與特征權(quán)重；最后對(duì)所有子分類器的驗(yàn)證分?jǐn)?shù)進(jìn)行排序，篩選出一定比例的RFELM組成分類器集合，采用加權(quán)投票法預(yù)測(cè)數(shù)據(jù)的標(biāo)簽。實(shí)驗(yàn)結(jié)果表明，相比于RFELM和隨機(jī)森林等算法，所提模型在真實(shí)的道路遙測(cè)數(shù)據(jù)上具有更好的識(shí)別效果，還有著更強(qiáng)的抗噪能力。

關(guān)鍵詞：道路高排放源識(shí)別；遙測(cè)數(shù)據(jù)；特征采樣；集成學(xué)習(xí)；隨機(jī)傅里葉特征極限學(xué)習(xí)機(jī)；子分類器

中圖分類號(hào)： TN957.52+3?34； X734.2 " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼： A " " " " " " " "文章編號(hào)： 1004?373X（2024）06?0124?07

On?road high?emitter identification model based on guided feature sampling and ensemble RFELM

ZHOU Hansheng1， 2， DUAN Peijie2， 3， LI Zerui1， 2， ZHOU Jinhua1

（1. School of Biomedical Engineering， Anhui Medical University， Hefei 230023， China;

2. Institute of Artificial Intelligence， Hefei Comprehensive National Science Center， Hefei 230088， China;

3. AHU?IAI AI Joint Laboratory， Anhui University， Hefei 230601， China）

Abstract： The pollution gas emitted by vehicles causes serious harm to the environment， among which the vehicles with excessive exhaust emissions are the major sources of pollutions. Therefore， it is of great significance to realize the effective identification of high?emitters on the road. A high?emitter identification model based on guided feature sampling and ensemble random Fourier feature extreme learning machines （RFELM） is proposed to classify the on?road remote sensing data. The remote sensing data is randomly sampled several times to construct multiple training subsets. Then， each training subset is sampled several times to train corresponding subclassifiers. The sampling probability and weight of feature are updated according to the input features of the optimal subclassifiers in the group. The validation scores of all subclassifiers are sorted， a certain proportion of RFELM is selected to form the classifier set， and the weighted voting method is used to predict the labels of the test data. The experimental results show that in comparison with RFELM， random forest and so on， the proposed model has better recognition performance and stronger noise resistance on real road remote sensing data.

Keywords： on?road high?emitter recognition; remote sensing data; feature sampling; ensemble learning; random Fourier feature extreme learning machine; subclassifier

0 "引 "言

據(jù)統(tǒng)計(jì)，機(jī)動(dòng)車在行駛過程中排放的有害氣體已成為大氣污染的主要來源[1]。為改善空氣質(zhì)量，需要加強(qiáng)對(duì)尾氣排放超標(biāo)機(jī)動(dòng)車的快速檢測(cè)和監(jiān)管控制。目前，越來越多的地區(qū)利用尾氣遙測(cè)技術(shù)實(shí)現(xiàn)對(duì)道路高排放源的識(shí)別。根據(jù)對(duì)機(jī)動(dòng)車排放遙測(cè)數(shù)據(jù)處理方法的不同，可以將道路高排放源識(shí)別方法分為設(shè)定限值方法和基于機(jī)器學(xué)習(xí)的方法。設(shè)定限值方法對(duì)限值的設(shè)置需要依賴一定的人工經(jīng)驗(yàn)，而機(jī)器學(xué)習(xí)方法通過挖掘機(jī)動(dòng)車尾氣監(jiān)測(cè)數(shù)據(jù)之間的內(nèi)在聯(lián)系和規(guī)律進(jìn)行決策，具有更高的科學(xué)性[2]。

基于機(jī)器學(xué)習(xí)算法的高排放源識(shí)別方法可以實(shí)現(xiàn)對(duì)道路高排放源的自動(dòng)識(shí)別與分類，極大地減少人力和物力成本，具有較高的研究?jī)r(jià)值和應(yīng)用前景。目前，已有研究人員根據(jù)尾氣遙測(cè)數(shù)據(jù)進(jìn)行有針對(duì)性的研究。曾君等人根據(jù)車輛怠速檢測(cè)結(jié)果和道路遙測(cè)數(shù)據(jù)構(gòu)建高排放車輛識(shí)別模型，通過引入主成分分析、K最近鄰思想、遺傳算法和機(jī)動(dòng)車比功率，實(shí)現(xiàn)了對(duì)高排放車輛的有效識(shí)別[3]。Guo等人將機(jī)動(dòng)車尾氣遙測(cè)數(shù)據(jù)和怠速檢測(cè)結(jié)果輸入到反向傳播神經(jīng)網(wǎng)絡(luò)中[4]，可以正確識(shí)別移動(dòng)污染源的比例達(dá)到81.63%。Wang等人引入了一個(gè)表征記憶模塊，通過迭代學(xué)習(xí)保留關(guān)鍵數(shù)據(jù)特征，并且重構(gòu)移動(dòng)源的時(shí)間序列特征，提高了對(duì)高排放源和正常排放源的識(shí)別準(zhǔn)確率[5]。Li等人研究了一種基于加權(quán)極限學(xué)習(xí)機(jī)的道路高排放源識(shí)別模型，通過主動(dòng)學(xué)習(xí)的方式選擇有價(jià)值的樣本進(jìn)行標(biāo)記。實(shí)驗(yàn)結(jié)果證明，該方法能夠提高對(duì)道路高排放源的識(shí)別性能[6]。Kang等人使用可信度高的高排放遙測(cè)數(shù)據(jù)構(gòu)建了基于單分類支持向量機(jī)和半監(jiān)督的單分類支持向量機(jī)的移動(dòng)污染源識(shí)別模型[7]。實(shí)驗(yàn)結(jié)果顯示，該方法提升了對(duì)道路高排放源和正常排放源識(shí)別的準(zhǔn)確性。

在道路高排放源識(shí)別任務(wù)中，所獲取到的數(shù)據(jù)除排放污染物濃度外，通常還包括機(jī)動(dòng)車信息與當(dāng)前環(huán)境信息。但是這類信息龐雜，一些特征會(huì)對(duì)模型性能起到相反的作用，降低模型的識(shí)別精度[8]，而重要特征與相關(guān)特征的組合可能達(dá)到最好的效果，但是在缺乏先驗(yàn)的前提下，無法判斷特征與特征組合的重要性。為此，本文提出一種基于特征采樣引導(dǎo)和集成RFELM的道路高排放源識(shí)別模型（RF?RFELMBagging）。首先，構(gòu)建多組訓(xùn)練子集與驗(yàn)證子集，在每組訓(xùn)練集上進(jìn)行特征的多次隨機(jī)采樣，并訓(xùn)練對(duì)應(yīng)的RFELM子分類器；然后，根據(jù)上一組數(shù)據(jù)集特征采樣的概率和最優(yōu)子分類器所使用的特征計(jì)算得到下一組特征采樣的概率，實(shí)現(xiàn)特征采樣引導(dǎo)；最后，在測(cè)試集上選取部分性能優(yōu)異的子分類器，通過加權(quán)投票的方式?jīng)Q定最終預(yù)測(cè)結(jié)果。根據(jù)實(shí)驗(yàn)結(jié)果，RF?RFELMBagging在道路高排放源識(shí)別任務(wù)中取得了較高的分類精度并具有較好的穩(wěn)定性，并對(duì)特征與特征組合的重要性進(jìn)行了分析。

1 "算法介紹

極限學(xué)習(xí)機(jī)（Extreme Learning Machine， ELM）是一種單隱含層前饋神經(jīng)網(wǎng)絡(luò)[9]，只需設(shè)置隱含層節(jié)點(diǎn)個(gè)數(shù)，隨機(jī)生成隱含層輸入權(quán)值與偏置，不用進(jìn)行迭代即可得到最優(yōu)解，具有泛化能力強(qiáng)和識(shí)別精度高的優(yōu)點(diǎn)。KELM是基于ELM 并引入核函數(shù)所提出的改進(jìn)算法，核函數(shù)能夠?qū)⑻卣饔成涞捷^高維空間，提高數(shù)據(jù)的可分性，已經(jīng)廣泛應(yīng)用于多個(gè)領(lǐng)域[10?11]。隨機(jī)傅里葉特征（Random Fourier Feature， RFF）[12]將數(shù)據(jù)特征映射至一個(gè)相對(duì)低維的特征空間，近似實(shí)現(xiàn)核映射的效果。受此啟發(fā)，本文通過RFF映射生成ELM的隱含層節(jié)點(diǎn)，構(gòu)建以RFELM為子分類器的集成學(xué)習(xí)算法。

1.1 "RFELM

具體來說，對(duì)于數(shù)據(jù)[x∈RN×m]，N表示樣本數(shù)， m表示輸入數(shù)據(jù)的維度。對(duì)應(yīng)標(biāo)簽的one?hot編碼[y∈RN×c]，c表示類別數(shù)。RFELM的隱含層節(jié)點(diǎn)通過RFF映射生成，RFF公式如下所示：

[fxi=2D[cosxiw1+b1，…，cosxiwj+bj，…，cosxiwD+bD]， "i=1，2，…，N] "（1）

式中：[fxi∈R1×D]；[xi]是輸入數(shù)據(jù)[x]中第[i]條數(shù)據(jù)，輸入數(shù)據(jù)[x]=[xT1，xT2，…，xTNT]；D為經(jīng)過RFF映射后的維度。

為滿足RFF映射結(jié)果接近高斯核函數(shù)，[wj]和[bj]符合以下要求：[wj∈Rm×1]服從高斯分布[N0，σ2]，[bj]服從均勻分布[U0，2π]，其中[j=1，2，…，D]；[σ2]是預(yù)定義的方差。輸入數(shù)據(jù)通過RFF映射生成ELM的隱含層節(jié)點(diǎn)，公式如下：

[A=fx1T，fx2T，…，fxNTT] " " （2）

目標(biāo)函數(shù)如下：

[min 12Aβ-y2+C2β2] "（3）

式中C為正則項(xiàng)系數(shù)，輸出層權(quán)重[β]公式為：

[β=IC+ATA-1ATy， "Ngt;D;I∈RD×DATIC+AAT-1y， "N≤D;I∈RN×N ] " " "（4）

1.2 "RF?RFELMBagging

1.2.1 "樣本采樣

首先在數(shù)據(jù)集上劃分出30%的測(cè)試集，隨后在剩余樣本中按照設(shè)定比例進(jìn)行K次隨機(jī)采樣，得到K組不同的訓(xùn)練集與驗(yàn)證集。

1.2.2 "特征采樣引導(dǎo)

在每一組訓(xùn)練集上進(jìn)行特征采樣時(shí)，為了能夠偏向選擇重要特征，本文會(huì)根據(jù)上一組訓(xùn)練集下子分類器的驗(yàn)證結(jié)果，對(duì)下一組的特征采樣進(jìn)行優(yōu)化，這一過程稱為特征采樣引導(dǎo)。

令[counti=counti1，…，countij，…，countim]，當(dāng)i=1時(shí)，設(shè)[count1=1，1，…，1]；當(dāng)igt;1時(shí)，會(huì)根據(jù)第i-1組訓(xùn)練集下對(duì)應(yīng)的最優(yōu)子分類器的輸入特征，將對(duì)應(yīng)[countij=counti-1j+1]。[pij]表示第i次特征采樣時(shí)，第j個(gè)特征的采樣概率，公式如下：

[pij=countijj=1mcountij] " " " " " （5）

同時(shí)，為了讓重要特征的作用放大，對(duì)特征進(jìn)行加權(quán)。由于采樣概率[pij]一定程度上能反映特征的重要性，因此對(duì)采樣概率進(jìn)行縮放，得到特征權(quán)重。具體公式為：

[wij=exppij-meanpistdpi] " " " " （6）

式中：[pi=pi1，…，pij，…，pim]；[wij]表示第[i]組訓(xùn)練集中第[j]個(gè)特征的權(quán)重，會(huì)放大一部分當(dāng)前認(rèn)為重要的特征，并縮小其他特征。

1.2.3 "訓(xùn)練與預(yù)測(cè)

在每組訓(xùn)練集上經(jīng)過L次特征隨機(jī)采樣后，分別訓(xùn)練得到L個(gè)子分類器，采用每個(gè)子分類器預(yù)測(cè)驗(yàn)證集得到驗(yàn)證分?jǐn)?shù)。最后在L×K個(gè)子分類器中根據(jù)驗(yàn)證分?jǐn)?shù)進(jìn)行排序，以選取一部分性能較好的子分類器，并利用它們的驗(yàn)證分?jǐn)?shù)作為權(quán)重，通過加權(quán)投票的方式?jīng)Q定最終的預(yù)測(cè)結(jié)果。

算法流程如圖1所示。

2 "實(shí)驗(yàn)與分析

2.1 "數(shù)據(jù)處理與評(píng)價(jià)指標(biāo)

2.1.1 "數(shù)據(jù)處理

本文采用道路遙測(cè)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)，數(shù)據(jù)特征包括機(jī)動(dòng)車類型、燃油規(guī)格、標(biāo)識(shí)類型、基準(zhǔn)質(zhì)量、最大總質(zhì)量、車檢年限、遙測(cè)年限、識(shí)別置信度、行駛速度、加速度、車長(zhǎng)、CO、HC、NO、CO2的實(shí)測(cè)濃度、不透光煙度、風(fēng)速、風(fēng)向、溫度、濕度、氣壓、不透光系數(shù)、最大不透光煙度和平均不透光煙度等，具體信息如表1所示。數(shù)據(jù)中高排放移動(dòng)源數(shù)量為138，其余為正常排放移動(dòng)源，數(shù)量為3 964。

由于原始數(shù)據(jù)存在缺失的情況，為了得到更多的訓(xùn)練數(shù)據(jù)，本文對(duì)數(shù)據(jù)進(jìn)行缺失值補(bǔ)全。使用KNN算法對(duì)缺失值進(jìn)行補(bǔ)全，具體過程為：計(jì)算缺失值所在樣本k個(gè)最近鄰居，根據(jù)所有鄰居對(duì)應(yīng)特征的均值來進(jìn)行填充；再對(duì)所有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化，使其均值為0，方差為1。

2.1.2 "評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)數(shù)據(jù)不同類別間樣本數(shù)量差異較大，存在類別分布不均衡的情況，在這種情況下，使用準(zhǔn)確率來評(píng)估算法的性能不夠全面。為了更客觀地評(píng)估模型的性能，在本文中使用F1分?jǐn)?shù)作為評(píng)價(jià)指標(biāo)。F1分?jǐn)?shù)是一個(gè)綜合考慮模型的精確率和召回率的指標(biāo)，其中精確率（Precision， P）定義為模型預(yù)測(cè)為高排放的樣本中真實(shí)高排放樣本的比例，召回率（Recall， R）定義為在真實(shí)高排放樣本中被模型正確檢測(cè)出來的比例。F1分?jǐn)?shù)公式如下：

[F1=2PRP+R] " " " " " " "（7）

通過使用F1分?jǐn)?shù)來評(píng)估模型性能，可以更好地衡量模型在本實(shí)驗(yàn)數(shù)據(jù)集上的表現(xiàn)。F1分?jǐn)?shù)越大，證明模型性能更好。

2.2 "實(shí)驗(yàn)結(jié)果

2.2.1 "對(duì)比實(shí)驗(yàn)

為驗(yàn)證RF?RFELMBagging算法的有效性，選取RFELM、SVM[13]、DT（Decision Tree）[14]、RF（Random Forest）[15]、AdaBoost[16]和DF[2]作為對(duì)比方法。RF?RFELMBagging算法中，設(shè)置K=50，L=20，篩選一半子分類器參與最終決策。RF和AdaBoost均使用1 000個(gè)子分類器，實(shí)驗(yàn)結(jié)果如表2所示。

從表2中可以看出，RF?RFELMBagging具有最高的F1分?jǐn)?shù)，達(dá)到了71.7%，并且還有較低的標(biāo)準(zhǔn)差，這表明本文算法識(shí)別性能較好并且具有穩(wěn)定性。DT、DF和AdaBoost方法表現(xiàn)良好，F(xiàn)1分?jǐn)?shù)分別達(dá)到了68.5%、59.2%和67.5%，說明這三種方法對(duì)高排放源有一定的識(shí)別能力，但仍低于本文算法的F1分?jǐn)?shù)。RFELM方法的F1分?jǐn)?shù)僅為39%，觀察R和P指標(biāo)發(fā)現(xiàn)，盡管其R指標(biāo)最高，但P指標(biāo)是所有方法中最低的，可能是模型容易將正常排放源錯(cuò)誤預(yù)測(cè)為高排放源。RF方法的表現(xiàn)較差，其R和P與RFELM相反，在所有方法中R指標(biāo)最低，P指標(biāo)最高，F(xiàn)1分?jǐn)?shù)為51.2%，可能是模型容易將高排放源錯(cuò)誤預(yù)測(cè)為正常排放源。SVM實(shí)驗(yàn)結(jié)果分類器并未傾向某一類別，但整體F1分?jǐn)?shù)并不高。綜上所述，RF?RFELMBagging方法在道路高排放源識(shí)別中取得了最好的識(shí)別結(jié)果。

2.2.2 "篩選比例δ對(duì)實(shí)驗(yàn)結(jié)果的影響

為了探究參與預(yù)測(cè)的子分類器數(shù)量對(duì)算法的影響，分別選取了篩選比例δ為[0.1，0.2，…，1]的RFELM進(jìn)行預(yù)測(cè)，實(shí)驗(yàn)結(jié)果如圖2所示。

從圖2中可以看出，RF?RFELMBagging的F1分?jǐn)?shù)隨著篩選比例δ的增加呈現(xiàn)先上升后下降的趨勢(shì)。上升的原因可能是參與預(yù)測(cè)的子分類器數(shù)量的增加，提高了模型的泛化能力。

為了解釋下降的原因，統(tǒng)計(jì)了所有的RFELM子分類器驗(yàn)證分?jǐn)?shù)，其分布情況如圖3所示。從圖3的分布結(jié)果可以看出，有相當(dāng)一部分子分類器驗(yàn)證分?jǐn)?shù)過低，當(dāng)這部分子分類器參與預(yù)測(cè)時(shí)會(huì)導(dǎo)致模型性能下降。

2.2.3 "抗噪實(shí)驗(yàn)

由于尾氣遙測(cè)數(shù)據(jù)采集于機(jī)動(dòng)車實(shí)際行駛環(huán)境，不可避免會(huì)存在噪聲，因此模型的抗噪能力對(duì)移動(dòng)污染源的識(shí)別具有重要意義。為了檢驗(yàn)?zāi)Ｐ偷目乖肼暷芰?，向?shù)據(jù)中引入不同程度的噪聲數(shù)據(jù)來驗(yàn)證模型的穩(wěn)定性。具體為在已經(jīng)標(biāo)準(zhǔn)化的數(shù)據(jù)中引入均值為0，方差分別為[0.1，0.2，…，0.5]的隨機(jī)高斯分布噪聲進(jìn)行實(shí)驗(yàn)，結(jié)果如表3所示。在噪聲逐漸增強(qiáng)的過程中，與其他算法相比，RF?RFELMBagging算法模型性能下降較緩，在不同方差的情況下都具有最好的性能。這表明RF?RFELMBagging在噪聲環(huán)境下，相比于其他對(duì)比算法有著更強(qiáng)的抗噪性。

2.2.4 "消融實(shí)驗(yàn)

與單純的Bagging算法相比，RF?RFELMBagging對(duì)使用的特征進(jìn)行了隨機(jī)采樣，并對(duì)特征采樣概率進(jìn)行了引導(dǎo)。為了證明隨機(jī)采樣以及特征采樣引導(dǎo)的作用，本文根據(jù)是否使用特征采樣引導(dǎo)和特征隨機(jī)采樣，分別進(jìn)行兩組實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如圖4所示。其中圖a）表示RF?RFELMBagging算法的特征采樣數(shù)量Min和Max在2～24之間時(shí)的實(shí)驗(yàn)結(jié)果，在Min=10和Max=14時(shí)，F(xiàn)1分?jǐn)?shù)最高達(dá)到80%。圖b）展示了RF?RFELMBagging未使用特征采樣引導(dǎo)策略的實(shí)驗(yàn)結(jié)果，此時(shí)特征的采樣概率始終相同，當(dāng)Min=8和Max=12時(shí)，未使用特征采樣引導(dǎo)方法的F1分?jǐn)?shù)最高為69%。

圖4b）中，當(dāng)Min和Max均為最大值時(shí)，此時(shí)算法退化為子分類器為RFELM的投票集成學(xué)習(xí)算法，F(xiàn)1分?jǐn)?shù)僅為59%，遠(yuǎn)低于最高F1分?jǐn)?shù)69%。這可能是因?yàn)槿刻卣髦邪瞬糠謱?duì)高排放源識(shí)別任務(wù)無關(guān)的特征，影響了重要特征的篩選與放大，而特征隨機(jī)采樣對(duì)提升道路高排放源識(shí)別精度是有效的。觀察圖a）與圖b）可以看出，使用了特征采樣引導(dǎo)的圖a）總體要優(yōu)于未使用的圖b），且最高F1分?jǐn)?shù)高出11%，這可能是因?yàn)樘卣鞑蓸右龑?dǎo)使得特征采樣更側(cè)重于當(dāng)前認(rèn)為重要的特征，該特征作為訓(xùn)練數(shù)據(jù)的組成部分，將有效提高RFELM的識(shí)別精度。在圖a）中，當(dāng)Min和Max均為最大值時(shí)，F(xiàn)1分?jǐn)?shù)僅為59%，遠(yuǎn)低于使用了特征隨機(jī)采樣和特征采樣引導(dǎo)的80%，說明使用特征隨機(jī)采樣和特征采樣引導(dǎo)對(duì)提升道路高排放識(shí)別是有效的。

2.2.5 "特征分析

在RF?RFELMBagging算法中，記錄了最后一組子分類器更新后的特征權(quán)重，在一定程度上可以體現(xiàn)這些特征在該次任務(wù)的重要性。RF和DT算法可以通過計(jì)算每個(gè)特征的基尼指數(shù)并歸一化來衡量尾氣遙測(cè)數(shù)據(jù)中各個(gè)特征的重要程度。本文將RF?RFELMBagging的特征權(quán)重進(jìn)行歸一化，表示各個(gè)特征的重要性，并與RF和DT計(jì)算的特征重要性進(jìn)行對(duì)照分析，如圖5所示。

由圖5可知，在DT算法中特征之間的重要性差異比較明顯，Opacity的重要性遠(yuǎn)高于其他特征，其次表現(xiàn)突出的是RC_CO2、ACC、RC_CO，而一些特征被認(rèn)為完全不重要，如OpacityPara、OpacityMax、OpacityAvg等。在RF算法中，RC_CO2、RC_CO、Opacity同樣有著比較突出的重要性，但OpacityPara和OpacityMax的特征重要性也很高，與DT的結(jié)果相悖。在RF?RFELMBagging中，ACC、RC_CO2、RC_CO的重要性與DT接近，與DT和RF不同的是，Opacity的特征重要性并不算突出。由此可見，RF?RFELMBagging與RF和DT類似，也可以評(píng)估單個(gè)特征的重要性。

本文通過Apriori算法[17]發(fā)掘RF?RFELMBagging被選擇分類器中出現(xiàn)的特征組合模式，特征組合的支持度表示特征組合出現(xiàn)的頻率，如表4所示。

在兩個(gè)特征的組合中，支持度排名前4的特征組合皆有RC_CO。其中（RC_CO2、RC_CO）的組合支持度為44.7%，為所有組合中的最高。這些結(jié)果表明RC_CO對(duì)于道路高排放源識(shí)別相當(dāng)重要，且與RC_CO2搭配最佳。3個(gè)特征的組合出現(xiàn)頻率最高的4個(gè)組合分別為（RC_CO2、RC_CO）與ACC、Speed和Length的組合，以及RC_CO、ACC和Speed的組合。4個(gè)特征的組合出現(xiàn)頻率最高的4個(gè)分別為（RC_CO2、RC_CO、ACC）與Speed、OpacityPara和RC_NO的組合，以及（RC_CO、RC_CO2、Speed）和OpacityPara的組合。結(jié)合未展示的關(guān)聯(lián)規(guī)則，發(fā)現(xiàn)被選擇的分類器多數(shù)以（RC_CO2、RC_CO）與其他特征的組合模式。RF?RFELMBagging呈現(xiàn)以固定特征組合為核心，再與其他多種特征結(jié)合構(gòu)建分類器的形式，這種形式的集成或許是其表現(xiàn)優(yōu)良性能的原因。

3 "結(jié) "論

機(jī)動(dòng)車尾氣遙測(cè)數(shù)據(jù)包含污染物濃度、車輛屬性和氣象環(huán)境等信息，然而無關(guān)的數(shù)據(jù)特征會(huì)影響道路高排放源的識(shí)別精度。為此，本文提出一種基于特征采樣引導(dǎo)和集成RFELM的識(shí)別模型，可以在無先驗(yàn)知識(shí)的前提下，探究重要特征及其組合對(duì)實(shí)驗(yàn)結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明，本文算法在提高道路高排放源的識(shí)別精度的同時(shí)，具有良好的抗噪能力。

注：本文通訊作者為李澤瑞。

參考文獻(xiàn)

[1] LI W， LU C， DING Y. A systematic simulating assessment within reach greenhouse gas target by reducing PM2.5 concen?trations in China [J]. Polish journal of environmental studies， 2017， 26（2）： 683?698.

[2] 許鎮(zhèn)義，王仁軍，張聰，等.基于深度特征聚類的高排放移動(dòng)污染源自動(dòng)識(shí)別[J].交通運(yùn)輸系統(tǒng)工程與信息，2021，21（6）：298?309.

[3] 曾君，郭華芳，胡躍明.基于遙感監(jiān)測(cè)的PKGV?ANN高排污車輛鑒別模型研究[C]//第二十七屆中國(guó)控制會(huì)議論文集.北京：北京航空航天大學(xué)出版社，2008：1065?1069.

[4] GUO H F， ZENG J， HU Y M. Neural network modeling of vehicle gross emitter prediction based on remote sensing data [C]// 2006 IEEE International Conference on Networking， Sensing and Control. Ft. Lauderdale， FL： IEEE， 2006： 943?946.

[5] WANG R J， XIA X S， XU Z Y. Identification of high emission mobile sources based on self?supervised representation network [C]// Asian Simulation Conference. Singapore： Springer， 2022： 419?430.

[6] LI Z R， KANG Y， Lü W J， et al. High?emitter identification model establishment using weighted extreme learning machine and active sampling [J]. Neurocomputing， 2021， 441： 79?91.

[7] KANG Y， LI Z R， Lü W J， et al. High?emitting vehicle identification by on?road emission remote sensing with scarce positive labels [J]. Atmospheric environment， 2021， 244： 117877.

[8] 李麗敏，溫宗周，宋玉琴.優(yōu)化K均值聚類在冗余特征剔除中的應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程，2019，47（11）：2836?2840.

[9] HUANG G B， ZHU Q Y， SIEW C K. Extreme learning machine： theory and applications [J]. Neurocomputing， 2006， 70（1/3）： 489?501.

[10] LI G H， TANG Y Z， YANG H. A new hybrid prediction model of air quality index based on secondary decomposition and improved kernel extreme learning machine [J]. Chemosphere， 2022， 305： 135348.

[11] 王青寧，施均道，何旺容，等.基于BEMD和KELM的路面病害檢測(cè)算法[J].現(xiàn)代電子技術(shù)，2023，46（9）：110?114.

[12] RAHIMI A， RECHT B. Random features for large?scale ker?nel machines [C]// Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver： ACM， 2007： 1177?1184.

[13] PLATT J. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods [J]. Advances in large margin classifiers， 1999， 10（3）： 61?74.

[14] LOH W Y. Classification and regression trees [J]. Wiley inter?disciplinary reviews： data mining and knowledge discovery， 2011， 1（1）： 14?23.

[15] BREIMAN L. Random forests [J]. Machine learning， 2001， 45： 5?32.

[16] HASTIE T， ROSSET S， ZHU J， et al. Multi?class adaboost [J]. Statistics and its interface， 2009， 2（3）： 349?360.

[17] BORGELT C， KRUSE R. Induction of association rules： Aprio?ri implementation [C]// Compstat： Proceedings in Computational Statistics. Berlin： Physica?Verlag HD， 2002： 395?400.