亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于蟻群參數(shù)優(yōu)化的LightGBM輻射源個(gè)體識(shí)別*

        2023-02-08 02:31:16顧楚梅曹建軍王保衛(wèi)徐雨芯
        關(guān)鍵詞:分類特征優(yōu)化

        顧楚梅,曹建軍,王保衛(wèi),徐雨芯

        (1.國(guó)防科技大學(xué)第六十三研究所,江蘇 南京 210007;2.南京信息工程大學(xué)計(jì)算機(jī)學(xué)院網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210044)

        1 引言

        無線通信領(lǐng)域中,輻射源發(fā)出的信號(hào)不僅包含了所需的信號(hào)信息還承載了輻射源內(nèi)部器件的固有硬件信息,通過提取這部分信息特征來識(shí)別不同輻射源個(gè)體的過程稱為輻射源個(gè)體識(shí)別SEI(Specific Emitter Identification)[1]。SEI一般由3個(gè)步驟組成:對(duì)接收到的原始輻射源信號(hào)進(jìn)行預(yù)處理;從預(yù)處理后的信號(hào)中提取輻射源物理層本質(zhì)細(xì)微特征,即射頻指紋RFF(Radio Frequency Fingerprint)特征;使用分類器識(shí)別信號(hào),以確定發(fā)射此信號(hào)的輻射源個(gè)體[2]。由于射頻指紋的可測(cè)性、唯一性和不可篡改性,SEI被廣泛應(yīng)用于軍事通信、情報(bào)偵察、電子對(duì)抗、無線網(wǎng)絡(luò)安全和設(shè)備診斷等軍用和民用領(lǐng)域[3]。但是,輻射源信號(hào)數(shù)據(jù)量大、提取到的射頻指紋特征維數(shù)高等問題增加了輻射源個(gè)體分類識(shí)別的難度,如何在降低特征維數(shù)的同時(shí)提高輻射源個(gè)體識(shí)別正確率是一個(gè)至關(guān)重要的問題。

        通常使用特征選擇FS(Feature Selection)方法來解決上述問題。特征選擇旨在根據(jù)某種評(píng)價(jià)標(biāo)準(zhǔn)從原始特征空間中消除不相關(guān)和冗余特征,選出高相關(guān)性特征組成特征子集,以獲得比使用所有特征更好的性能[4]。特征選擇方法通常分為3類:過濾式、封裝式和嵌入式。過濾式方法通過評(píng)估每一特征的鑒別能力過濾掉鑒別能力差的特征。該方法運(yùn)算時(shí)間短、獨(dú)立于學(xué)習(xí)算法且具有高泛化性,但依賴具體的度量標(biāo)準(zhǔn)。典型的過濾式特征選擇方法有方差分析、互信息和卡方檢驗(yàn)等[5]。封裝式方法由搜索策略和學(xué)習(xí)算法組成,將特征選擇封裝到學(xué)習(xí)算法中,通過學(xué)習(xí)算法的預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,并使用搜索策略調(diào)整特征子集。該方法所選擇的特征子集性能高且考慮了特征間的相互關(guān)系,但計(jì)算復(fù)雜度高。典型的封裝式方法有遞歸特征消除等[6]。嵌入式方法將特征選擇嵌入到學(xué)習(xí)算法中,學(xué)習(xí)算法結(jié)束的同時(shí)也得到了特征的重要性值。該方法效率較高、特征分辨力好,但依賴于指定學(xué)習(xí)算法。典型的嵌入式方法有:基于懲罰項(xiàng)的方法,例如Lasso等;基于樹模型的方法,包括決策樹DT(Decision Tree)、隨機(jī)森林RF(Random Forest)、梯度提升決策樹GBDT(Gradient Boosting Decision Tree)、極端梯度提升XGBoost(eXtreme Gradient Boosting)和輕量級(jí)梯度提升LightGBM(Light Gradient Boosting Machine)等[7]。

        嵌入式特征選擇方法解決了過濾式方法結(jié)果中冗余度較高及封裝式方法計(jì)算復(fù)雜度較大等問題,逐漸成為了特征選擇的研究熱點(diǎn)。文獻(xiàn)[8]為改進(jìn)現(xiàn)有的網(wǎng)絡(luò)入侵檢測(cè)多分類方法,提出了一種融合RF和GBDT的入侵檢測(cè)模型,首先使用GBDT對(duì)特征進(jìn)行重要性排序,并使用遞歸特征消除法進(jìn)行特征選擇,然后使用RF進(jìn)行特征變換,分類器選用GBDT,最后驗(yàn)證了該方法的優(yōu)越性。文獻(xiàn)[9]提出了一種基于XGBoost和RF特征選擇的堆疊模型,計(jì)算XGBoost模型和RF模型特征重要性值的調(diào)和平均數(shù),并將得到的調(diào)和平均數(shù)作為新的重要性值進(jìn)行特征選擇。相比于XGBoost和RF等特征選擇方法,該模型的F1值有所提升。文獻(xiàn)[10]提出了一種基于XGBoost和RF相結(jié)合的物聯(lián)網(wǎng)入侵檢測(cè)方法,使用XGBoost對(duì)特征進(jìn)行重要性評(píng)分并選出最優(yōu)特征組成特征子集,使用改進(jìn)的RF算法進(jìn)行分類,該模型能有效進(jìn)行特征選擇并合理分類。文獻(xiàn)[11]針對(duì)從傳感器中提取的特征數(shù)較多導(dǎo)致在學(xué)習(xí)過程中可能出現(xiàn)的過擬合問題,使用LightGBM特征選擇方法來減少特征集的維數(shù),實(shí)驗(yàn)結(jié)果表明LightGBM方法可以產(chǎn)生比現(xiàn)有Boosting算法更好的結(jié)果。文獻(xiàn)[12]設(shè)計(jì)了一種基于LightGBM的特征選擇方法來加快入侵檢測(cè)系統(tǒng)的訓(xùn)練和測(cè)試,根據(jù)特征重要性值對(duì)特征進(jìn)行排序,依次選取前h(h∈N*)個(gè)特征重要性值大的特征查驗(yàn)訓(xùn)練精度直到不再改善,根據(jù)實(shí)驗(yàn)結(jié)果選取了前12個(gè)特征重要性值大的特征構(gòu)成最優(yōu)特征子集并輸入到分類器中,不僅有效縮減了特征維度還優(yōu)化了精度。

        上述幾種基于樹的嵌入式特征選擇方法在各自研究背景和數(shù)據(jù)集上均能得到較優(yōu)的特征子集。在輻射源個(gè)體識(shí)別領(lǐng)域,為進(jìn)一步提高分類識(shí)別的正確率和運(yùn)算效率,本文提出了一種基于蟻群參數(shù)優(yōu)化的LightGBM輻射源個(gè)體識(shí)別方法ACO-LightGBM(Ant Colony Optimization_Light Gradient Boosting Machine)。該方法結(jié)合了提升小波包變換、蟻群算法、LightGBM方法和特征選擇思想,主要過程如下:

        (1) 選取12個(gè)統(tǒng)計(jì)特征參數(shù)和標(biāo)準(zhǔn)化相對(duì)能量,結(jié)合提升小波包分解與重構(gòu)方法提取特征并構(gòu)建特征參數(shù)體系。

        (2) 使用蟻群ACO(Ant Colony Optimization)算法優(yōu)化LightGBM參數(shù),包括最小葉子節(jié)點(diǎn)數(shù)據(jù)量(χ)、決策樹的數(shù)量(δ)、學(xué)習(xí)率(ε)、L1正則化項(xiàng)的權(quán)重(γ)、L2正則化項(xiàng)的權(quán)重(λ)和最小葉子節(jié)點(diǎn)樣本權(quán)重和(η)。參數(shù)的取值將影響特征選擇和最終的分類結(jié)果。

        (3) 使用優(yōu)化后的LightGBM獲得每個(gè)特征重要性值并進(jìn)行排序,使用序列后向搜索策略進(jìn)行特征選擇,比較搜索過程中各個(gè)特征子集的分類正確率,最后得到最優(yōu)特征子集。

        (4) 采用不同信噪比下的電臺(tái)數(shù)據(jù)集,對(duì)比GBDT、XGBoost和LightGBM特征選擇方法,綜合考慮分類正確率和特征個(gè)數(shù)等評(píng)估指標(biāo),實(shí)驗(yàn)結(jié)果表明本文所提方法性能更優(yōu)。

        2 LightGBM模型描述

        針對(duì)GBDT方法在處理大數(shù)據(jù)或高維特征時(shí)效率低和擴(kuò)展性差的問題,研究人員對(duì)GBDT算法進(jìn)行優(yōu)化,提出了LightGBM。LightGBM中的直方圖(Histogram)、基于梯度的單側(cè)采樣GOSS(Gradient-based One-Side Sampling)等算法的提出解決了上述問題[13],且提供了度量標(biāo)準(zhǔn)來衡量模型中特征的重要性。

        2.1 直方圖算法構(gòu)建決策樹

        每個(gè)樣本信息包含了樣本的特征取值、一階梯度值和二階梯度值。直方圖算法將連續(xù)的浮點(diǎn)特征值離散化為k個(gè)整數(shù),即將數(shù)據(jù)劃分為k個(gè)區(qū)域,每個(gè)區(qū)域構(gòu)成一個(gè)bin,并構(gòu)造一個(gè)寬度為k的直方圖,如圖1所示,每個(gè)bin中所包含的信息為樣本個(gè)數(shù)、一階梯度之和及二階梯度之和。離散化后的值作為索引在直方圖中累積統(tǒng)計(jì)量,遍歷一次數(shù)據(jù)后,直方圖累積了所有需要的統(tǒng)計(jì)量;然后將每一個(gè)bin對(duì)應(yīng)的直方圖作為分裂點(diǎn)計(jì)算分裂增益,候選分裂點(diǎn)個(gè)數(shù)為bin個(gè)數(shù)減1,遍歷尋找最優(yōu)分裂點(diǎn)。直方圖算法優(yōu)化了GBDT等算法按照樣本不同取值進(jìn)行分裂的方法,需要遍歷的分裂點(diǎn)個(gè)數(shù)更少,且使用整數(shù)代替原始數(shù)據(jù)的浮點(diǎn)值,減少了計(jì)算量和內(nèi)存消耗[14]。

        Figure 1 Construction process of histogram圖1 直方圖構(gòu)建過程

        在直方圖基礎(chǔ)上,LightGBM使用了帶有最大深度限制的按葉子生長(zhǎng)(leaf-wise)策略代替GBDT中按層生長(zhǎng)(level-wise)的決策樹生長(zhǎng)策略。2種生長(zhǎng)策略的對(duì)比如圖2所示。level-wise策略通過分裂每一層的葉子節(jié)點(diǎn)來構(gòu)建樹,不加區(qū)分地處理同一層葉子將消耗大量資源來分裂信息增益較低的節(jié)點(diǎn)。而leaf-wise策略從當(dāng)前所有葉子節(jié)點(diǎn)中找到分裂增益最大的葉子進(jìn)行分裂。相比于傳統(tǒng)方法,leaf-wise在分裂次數(shù)相同的情況下不僅避免了大量計(jì)算還降低了誤差。為避免leaf-wise方法生長(zhǎng)出深度較大的決策樹而引起過擬合問題,通過增加最大深度限制進(jìn)行約束[15]。

        Figure 2 Comparison of decision tree growth strategies圖2 決策樹生長(zhǎng)策略對(duì)比

        LightGBM中的決策樹基于給定的訓(xùn)練數(shù)據(jù)集通過多次迭代進(jìn)行構(gòu)建,在每一次迭代中使用損失函數(shù)的一階和二階梯度信息計(jì)算當(dāng)前樹的殘差并根據(jù)殘差值來擬合一棵新樹加入到當(dāng)前迭代樹中。迭代樹是由Z輪迭代生成的Z棵決策樹疊加而成[16]。

        2.2 GOSS算法

        GOSS算法的主要思想是排除權(quán)重較小的數(shù)據(jù),用權(quán)重大的數(shù)據(jù)計(jì)算信息增益。GBDT中每個(gè)數(shù)據(jù)雖然沒有原始數(shù)據(jù)權(quán)重,但都有不同的梯度值。根據(jù)信息增益的定義可知,梯度較小的數(shù)據(jù)在計(jì)算增益時(shí)發(fā)揮的作用較小,故可以剔除這些數(shù)據(jù)而留下梯度較大的數(shù)據(jù),但剔除數(shù)據(jù)通常會(huì)改變數(shù)據(jù)集的分布。

        使用決策樹來學(xué)習(xí)一個(gè)從輸入空間Xc到梯度空間G的映射函數(shù),數(shù)據(jù)集{x1,x2,…,xi,…,xn}的數(shù)據(jù)個(gè)數(shù)為n,xi是空間Xc中維度為c的向量。每一次梯度提升迭代中,在當(dāng)前模型中損失函數(shù)負(fù)梯度輸出的值表示為{g1,g2,…,gi,…,gn}。GOSS算法首先將數(shù)據(jù)按照梯度的絕對(duì)值從大到小進(jìn)行排序,然后保留前a個(gè)梯度絕對(duì)值較大的數(shù)據(jù)記為特征子集A,從剩余小梯度數(shù)據(jù)中隨機(jī)選取b個(gè)記為特征子集B,在集合A∪B上計(jì)算特征j在分裂點(diǎn)d的信息增益Vj(d)[17],如式(1)所示:

        (1)

        2.3 特征重要性

        LightGBM提供了2個(gè)度量標(biāo)準(zhǔn)來衡量模型中特征的重要性:split—每個(gè)特征在所有決策樹中被分割的總次數(shù);gain—特征在所有決策樹中作為分裂點(diǎn)所得到的信息增益。一個(gè)特征在所有決策樹中被分裂的次數(shù)越多或得到的信息增益值越大,此特征就越重要,對(duì)預(yù)測(cè)結(jié)果的影響越大[18]。

        對(duì)于特征j,決策樹選擇最優(yōu)分裂點(diǎn)dj*=arg maxdVj(d)并計(jì)算得到最大信息增益Vj(dj*),然后在點(diǎn)dj*處將數(shù)據(jù)分成左右孩子節(jié)點(diǎn)。特征j在單棵決策樹中節(jié)點(diǎn)d的重要性計(jì)算如式(2)所示:

        IMPim=wd·ΔV

        (2)

        其中,wd表示節(jié)點(diǎn)d的數(shù)據(jù)量與總數(shù)據(jù)量的比值,ΔV表示節(jié)點(diǎn)d分裂后左右葉子節(jié)點(diǎn)相比分裂前原節(jié)點(diǎn)的信息增益值。將每棵決策樹中特征j的重要性相加得到特征j基于模型LightGBM的特征重要性評(píng)分,評(píng)分越高,該特征對(duì)預(yù)測(cè)結(jié)果越有效[19]。

        3 基于提升小波包變換的特征提取

        特征提取是輻射源個(gè)體識(shí)別的關(guān)鍵步驟,提取到的特征直接影響到特征選擇和分類器的性能。原始輻射源信號(hào)數(shù)據(jù)量往往很大,輻射源個(gè)體識(shí)別的關(guān)鍵不在于使用所有數(shù)據(jù)對(duì)輻射源進(jìn)行描述,而在于使用其中有效特征來識(shí)別輻射源個(gè)體。特征提取旨在通過變換提取到有效的識(shí)別特征,使原始信號(hào)從高維數(shù)據(jù)空間轉(zhuǎn)化到低維特征空間[20]。

        輻射源個(gè)體識(shí)別中特征提取的方法通常有雙譜法、提升小波包分析法、Wigner-Ville和經(jīng)驗(yàn)?zāi)B(tài)分解法等[21]?;谔嵘〔ò治龇ㄓ休^好的時(shí)頻分辨能力和較高的運(yùn)算效率,本文采用此方法,通過其分解與重構(gòu)可以獲得更多特征信息,擴(kuò)大了有效識(shí)別特征集合[22]。

        本文選取了12個(gè)統(tǒng)計(jì)特征參數(shù):均值、平均幅值、方根幅值、標(biāo)準(zhǔn)差、有效值、峰-峰值,波形指標(biāo)、脈沖指標(biāo)、峰值指標(biāo)、偏斜度、峭度和峪度指標(biāo),并使用標(biāo)準(zhǔn)化相對(duì)能量。依據(jù)統(tǒng)計(jì)特征參數(shù)和標(biāo)準(zhǔn)化相對(duì)能量,結(jié)合提升小波包分解與重構(gòu),給出了特征參數(shù)體系。對(duì)于輻射源發(fā)出的信號(hào),首先使用先序分解后序搜索算法[23]對(duì)數(shù)據(jù)進(jìn)行最優(yōu)基分解,得到最佳小波包樹;然后,通過分解與重構(gòu)將最佳小波包樹調(diào)整為一棵兩層的滿二叉樹,滿二叉樹的葉子節(jié)點(diǎn)分別記作(2,0),(2,1),(2,2)和(2,3),計(jì)算4個(gè)頻帶內(nèi)系數(shù)的統(tǒng)計(jì)特征值和標(biāo)準(zhǔn)化相對(duì)能量;接著,分別對(duì)每一頻帶內(nèi)系數(shù)進(jìn)行單支重構(gòu),并分別提取相應(yīng)的統(tǒng)計(jì)特征;最后,對(duì)原信號(hào)重構(gòu)并提取重構(gòu)原信號(hào)的統(tǒng)計(jì)特征。

        將重構(gòu)原信號(hào)的12個(gè)統(tǒng)計(jì)特征參數(shù)(標(biāo)號(hào)為1~12)、小波包分解的第2層4個(gè)節(jié)點(diǎn)系數(shù)的各12個(gè)統(tǒng)計(jì)特征參數(shù)(標(biāo)號(hào)為13~60)、4個(gè)單支重構(gòu)信號(hào)的12個(gè)統(tǒng)計(jì)特征參數(shù)(標(biāo)號(hào)為61~108)及小波包分解的第2層4個(gè)節(jié)點(diǎn)系數(shù)的標(biāo)準(zhǔn)化相對(duì)能量(標(biāo)號(hào)為109~112),共112個(gè)特征依次編號(hào)。為全面描述輻射源信號(hào)信息,在幅值信號(hào)、I路信號(hào)和Q路信號(hào)上分別提取這112個(gè)特征并構(gòu)建特征集set={vi|vi=v1,v2,…,vn},n=336。

        4 LightGBM參數(shù)優(yōu)化和特征選擇

        為提升輻射源個(gè)體識(shí)別的正確率,可以對(duì)LightGBM的參數(shù)進(jìn)行優(yōu)化,并使用LightGBM算法獲取特征重要性值進(jìn)而進(jìn)行特征選擇,以達(dá)到提高算法正確率和運(yùn)算效率的目的。

        輻射源個(gè)體識(shí)別問題的本質(zhì)為分類問題。分類器的參數(shù)設(shè)置和特征子集的選擇會(huì)直接影響到最終的分類性能,故使用分類器的分類正確率和所選子集中的特征個(gè)數(shù)作為目標(biāo)函數(shù)。為提升輻射源個(gè)體識(shí)別正確率和運(yùn)算效率,根據(jù)目標(biāo)函數(shù),所求問題可以描述為:(1)LightGBM的6個(gè)參數(shù)為:最小葉子節(jié)點(diǎn)數(shù)據(jù)量(χ)、決策樹的數(shù)量(δ)、學(xué)習(xí)率(ε)、L1正則化項(xiàng)的權(quán)重(γ)、L2正則化項(xiàng)的權(quán)重(λ)和最小葉子節(jié)點(diǎn)樣本權(quán)重和(η),各參數(shù)在給定取值范圍內(nèi)取值;(2)從原始特征集合中選擇基數(shù)為q的一個(gè)特征子集subsetq;(3)將各參數(shù)取值和特征子集subsetq輸入分類器,得到的分類正確率A最大且特征個(gè)數(shù)q最小。具體數(shù)學(xué)模型如式(3)~式(5)所示:

        maxA(χ;δ;ε;γ;λ;η;subsetq)

        (3)

        minq

        (4)

        s.t.|subsetq|=q,1≤q≤n

        (5)

        其中,A為分類正確率,計(jì)算公式如式(6)所示:

        (6)

        數(shù)據(jù)輸入測(cè)試集前,已知正類(Positive)數(shù)據(jù)和負(fù)類(Negative)數(shù)據(jù),模型預(yù)測(cè)的數(shù)據(jù)也分為正負(fù)2類??梢缘贸?個(gè)指標(biāo):樣本真實(shí)類別為正類,模型識(shí)別結(jié)果也為正類TP(True Positive);樣本真實(shí)類別為正類,但模型識(shí)別結(jié)果為負(fù)類FN(False Negative);樣本真實(shí)類別為負(fù)類,但模型識(shí)別結(jié)果為正類FP(False Positive);樣本真實(shí)類別為負(fù)類,模型識(shí)別結(jié)果也為負(fù)類TN(True Negative)。

        5 求解模型的算法設(shè)計(jì)

        基于蟻群參數(shù)優(yōu)化的LightGBM輻射源個(gè)體識(shí)別方法框架如圖3所示。首先,對(duì)原始輻射源信號(hào)使用提升小波包進(jìn)行特征提取,并使用Z-score標(biāo)準(zhǔn)化對(duì)得到的特征數(shù)據(jù)集進(jìn)行處理,采用蟻群算法優(yōu)化LightGBM的6個(gè)參數(shù);然后,根據(jù)優(yōu)化后的LightGBM計(jì)算得到每個(gè)特征的重要性值,在此基礎(chǔ)上使用序列后向搜索策略進(jìn)行特征選擇,得到最優(yōu)特征子集;最后,將最優(yōu)特征子集輸入到分類器中識(shí)別輻射源個(gè)體。

        Figure 3 Framework of specific emitter identification of LightGBM based on ant colony parameters optimization圖3 基于蟻群參數(shù)優(yōu)化的LightGBM輻射源個(gè)體識(shí)別框架圖

        5.1 蟻群算法優(yōu)化LightGBM參數(shù)

        為提升輻射源個(gè)體識(shí)別的正確率,需要對(duì)LightGBM的一些參數(shù)進(jìn)行優(yōu)化。由于蟻群算法具有信息正反饋、采用并行分布式計(jì)算和魯棒性較強(qiáng)等優(yōu)點(diǎn),本文采用ACO算法優(yōu)化LightGBM的6個(gè)參數(shù)。

        ACO基于螞蟻覓食行為,設(shè)置多只螞蟻分頭并行進(jìn)行搜索,是一種群智能優(yōu)化算法。每只螞蟻會(huì)在行進(jìn)的路徑上釋放信息素,信息素量與解的質(zhì)量成正比。螞蟻路徑的選擇依據(jù)信息素濃度大小(初始信息素濃度相同)和啟發(fā)式信息,采用隨機(jī)局部搜索策略,使當(dāng)前最優(yōu)解上的信息素濃度較大,后續(xù)螞蟻選擇該解的概率也較大。通過禁忌表來控制合法解,所有螞蟻搜索完一次即迭代一次,每迭代一次需更新信息素,舍棄原螞蟻,新螞蟻進(jìn)行新一輪迭代[24]。

        以輻射源個(gè)體識(shí)別最大分類正確率作為參數(shù)優(yōu)化的目標(biāo),引用文獻(xiàn)[23]中基于圖的螞蟻系統(tǒng)算法求解,根據(jù)優(yōu)化參數(shù)問題構(gòu)造有向圖,如圖4所示。

        Figure 4 Construction digraph of parameters optimization圖4 參數(shù)優(yōu)化問題構(gòu)造圖的有向圖

        圖4中,需要優(yōu)化的參數(shù)個(gè)數(shù)為6,包括2個(gè)離散型參數(shù)(最小葉子節(jié)點(diǎn)數(shù)據(jù)量(χ)和決策樹的數(shù)量(δ))和4個(gè)連續(xù)型參數(shù)(學(xué)習(xí)率(ε)、L1正則化項(xiàng)的權(quán)重(γ)、L2正則化項(xiàng)的權(quán)重(λ)和最小葉子節(jié)點(diǎn)樣本權(quán)重和(η)),共設(shè)置7個(gè)節(jié)點(diǎn),各參數(shù)搜索空間大小為n(n=1001),其中參數(shù)χ和參數(shù)δ的取值為x1,x2∈{x|1≤x≤1001,x∈Z},參數(shù)ε的取值為x3∈{x|0.001≤x≤1.001},參數(shù)γ和參數(shù)λ的取值為x4,x5∈{x|0.00≤x≤10.00},參數(shù)η的取值為x6∈{x|0.01≤x≤10.01},x3取小數(shù)千分位,x4、x5和x6取小數(shù)百分位。有向圖的邊表示參數(shù)的備選取值,路徑映射為一個(gè)求得的參數(shù)組合。eu1表示參數(shù)最小葉子節(jié)點(diǎn)數(shù)據(jù)量(χ)的備選取值集中第u(1≤u≤n)個(gè)取值。在節(jié)點(diǎn)d1處人為設(shè)定螞蟻總數(shù)K,每只螞蟻根據(jù)有向圖邊上的信息素量和啟發(fā)式信息隨機(jī)獨(dú)立地向下一節(jié)點(diǎn)移動(dòng),構(gòu)造可行解,直到所有螞蟻均完成一次行走過程,一次迭代結(jié)束,迭代結(jié)束后按照一定規(guī)則對(duì)信息素進(jìn)行更新。

        (7)

        其中,K表示螞蟻總數(shù)量,k=1,2,…,K;τuv(t)為t(t=1,2,…)時(shí)刻邊euv上的信息素濃度值;α表示信息素的相對(duì)重要程度;ηu為啟發(fā)式因子,表示選擇第u個(gè)元素的期望程度;β表示啟發(fā)式因子的相對(duì)重要程度,LightGBM參數(shù)優(yōu)化問題中設(shè)定選擇每個(gè)候選值的期望程度相同,故暫不考慮ηu,設(shè)置β=0;tabuk為螞蟻k的禁忌表,記錄螞蟻?zhàn)哌^的邊。

        信息素量隨迭代次數(shù)動(dòng)態(tài)變化。當(dāng)一次迭代完成后,按照一定規(guī)則對(duì)信息素進(jìn)行更新,如式(8)所示:

        τuv(t)=(1-ρ)τuv(t-1)+Qφ′(tabut)

        (8)

        其中,ρ(0<ρ<1)為信息素?fù)]發(fā)系數(shù);tabut為t時(shí)刻選擇的參數(shù)路徑;φ′(tabut)為要進(jìn)行信息素增強(qiáng)路徑的目標(biāo)函數(shù)值,為信息素增量公式;Q為常數(shù),用于調(diào)節(jié)信息素增量的大小。

        ACO算法優(yōu)化LightGBM參數(shù)流程圖如圖5所示。在ACO算法優(yōu)化LightGBM參數(shù)的過程中,首先初始化ACO的參數(shù):螞蟻k和螞蟻總數(shù)量K、當(dāng)前迭代次數(shù)Nc和迭代總次數(shù)N、初始信息素濃度τuv(0)、信息素相對(duì)重要程度α、信息素?fù)]發(fā)系數(shù)ρ(0<ρ<1)、信息素強(qiáng)度常數(shù)Q,并設(shè)定LightGBM各個(gè)參數(shù)的取值范圍,其中使用離散化來處理連續(xù)型參數(shù)。依據(jù)路徑選擇概率公式(式(7))構(gòu)建某個(gè)可行解,并根據(jù)目標(biāo)函數(shù)來判斷當(dāng)前解是否為最優(yōu)解,若是最優(yōu)值則替換原參數(shù)值,若不是則保留原參數(shù)值。所有螞蟻搜索完即迭代一次后更新信息素值(式(8))并記錄當(dāng)前迭代的最優(yōu)解。算法終止條件為達(dá)到設(shè)定的迭代次數(shù),算法終止后輸出迭代過程中保留的最優(yōu)參數(shù)組合和最大分類正確率。

        Figure 5 Flow chat of using ACO to optimize the parameters of LightGBM圖5 ACO優(yōu)化LightGBM參數(shù)流程圖

        5.2 特征選擇

        采用LightGBM構(gòu)建迭代樹的過程來計(jì)算樣本的特征重要性值,并使用序列后向搜索策略[25]進(jìn)行特征選擇,把分類正確率最高且特征個(gè)數(shù)最小的特征子集作為特征選擇的結(jié)果。

        此處特征選擇問題可以分為2個(gè)階段:評(píng)估特征和搜索特征子集。評(píng)估特征時(shí),構(gòu)造迭代樹模型并利用樹結(jié)構(gòu)對(duì)每個(gè)特征進(jìn)行評(píng)價(jià)。具體過程為:首先使用直方圖算法構(gòu)建決策樹;然后,根據(jù)一階梯度值和二階梯度值來確定分割點(diǎn),每次都選取具有最大信息增益的特征進(jìn)行分割,并在每層分裂時(shí)使用貪心方法選取最佳分割點(diǎn)。一個(gè)特征可能被分割多次,特征被分割的次數(shù)越多,整棵樹的信息增益就越多,在特征選擇過程中優(yōu)先考慮選取這些特征。在搜索特征子集階段,首先將評(píng)估特征階段得到的重要性值進(jìn)行排序;然后采用基于LightGBM特征重要性值的序列后向搜索策略進(jìn)行特征選擇,即對(duì)于按照重要性排序后的特征全集,每次剔除一個(gè)重要性最低的特征得到一個(gè)特征子集,綜合考慮基于該特征子集的分類正確率和子集中特征的個(gè)數(shù)來確定最優(yōu)特征子集。

        6 實(shí)驗(yàn)與結(jié)果分析

        6.1 數(shù)據(jù)準(zhǔn)備

        實(shí)驗(yàn)在1臺(tái)i7-4770 3.40 GHz 4核處理器、24 GB內(nèi)存的電腦上運(yùn)行,開發(fā)環(huán)境為Python 3.8。

        實(shí)驗(yàn)數(shù)據(jù)來源于2個(gè)相同型號(hào)的電臺(tái)輻射源,采集環(huán)境為無噪聲環(huán)境,2個(gè)電臺(tái)發(fā)出的信號(hào)在10種不同的采集狀態(tài)下獲得,10種采集狀態(tài)下的信號(hào)具體參數(shù)如表1所示。

        Table 1 Signal parameters

        原始數(shù)據(jù)在無噪聲環(huán)境中采集得到。為驗(yàn)證所提方法在噪聲數(shù)據(jù)上的效果,添加高斯白噪聲將信噪比分別調(diào)整為10 dB和5 dB,并分別進(jìn)行特征提取得到相應(yīng)特征集合set10dB={vi|vi=v1,v2,…,vn}和set5dB={vi|vi=v1,v2,…,vn},n=336。

        6.2 特征值標(biāo)準(zhǔn)化

        為統(tǒng)一數(shù)據(jù)樣本的數(shù)量級(jí)、增加可比性及加快算法的收斂速度,對(duì)特征值進(jìn)行Z-score標(biāo)準(zhǔn)化處理[26],如式(9)所示:

        (9)

        Z-score標(biāo)準(zhǔn)化將數(shù)據(jù)轉(zhuǎn)換到某個(gè)范圍,且不會(huì)改變?cè)紨?shù)據(jù)的排列順序。標(biāo)準(zhǔn)化后,不同數(shù)量級(jí)的特征在數(shù)值上進(jìn)行了統(tǒng)一,尋優(yōu)過程更為平緩,更容易正確地收斂到最優(yōu)解。

        6.3 基于LightGBM重要性度量的特征選擇

        對(duì)于無噪聲特征集合setoriginal={vi|vi=v1,v2,…,vn},n=336,根據(jù)式(1)和式(2)計(jì)算每個(gè)特征的重要性值,圖6繪制出了前20個(gè)最重要特征的特征標(biāo)號(hào)-特征重要性值柱狀圖[27]。

        Figure 6 Ranking of features according their importance圖6 特征重要性排序

        為獲得最優(yōu)特征子集,將計(jì)算得到的特征重要性值從小到大進(jìn)行排序,并使用序列后向搜索策略進(jìn)行特征選擇。每次將重要性值最低的特征刪除得到相應(yīng)的特征子集,并計(jì)算基于該特征子集的分類正確率,綜合考慮該分類正確率和特征子集的大小選出最優(yōu)特征子集。特征選擇的結(jié)果如表2所示。

        Table 2 Results of feature selection

        表2中,當(dāng)特征重要性值為0時(shí),表示將所有特征輸入到分類器的分類正確率為98.0%;剔除重要性低的特征可以有效提高分類性能,當(dāng)選擇前28個(gè)重要性值大的特征,并將這28個(gè)特征組成的特征子集輸入到分類器中時(shí)得到最高正確率98.8%。由此可見:高維特征集中包含的不相關(guān)或冗余特征會(huì)影響模型性能,使用特征選擇方法不僅提高了輻射源個(gè)體識(shí)別的分類正確率,同時(shí)特征維數(shù)的減少也提高了運(yùn)算效率。

        6.4 蟻群算法優(yōu)化LightGBM參數(shù)

        為提高輻射源個(gè)體識(shí)別的分類正確率,使用蟻群算法來優(yōu)化LightGBM參數(shù)。待優(yōu)化的參數(shù)信息如表3所示。

        Table 3 Parameters of LightGBM to be optimized

        首先初始化蟻群算法的參數(shù):螞蟻總數(shù)量K=100,迭代總次數(shù)N=100,初始信息素濃度τuv(0)=1,信息素相對(duì)重要程度α=1,信息素?fù)]發(fā)系數(shù)ρ=0.8,信息素強(qiáng)度常數(shù)Q=1?;谠肼曅盘?hào)數(shù)據(jù)集,利用蟻群算法對(duì)LightGBM模型參數(shù)進(jìn)行優(yōu)化后,輻射源個(gè)體識(shí)別正確率隨蟻群算法迭代次數(shù)的變化趨勢(shì)如圖7所示。

        Figure 7 Curve of accuracy of SEI changing with the iteration times of ACO圖7 輻射源個(gè)體識(shí)別正確率隨ACO迭代次數(shù)變化曲線

        從圖7可以看出,利用ACO優(yōu)化后的LightGBM模型可以獲得比未優(yōu)化模型(98.0%)更高的分類正確率。隨著迭代次數(shù)的增加,分類正確率逐漸增加,在迭代次數(shù)為80時(shí)達(dá)到收斂,此時(shí)搜索到LightGBM模型的最優(yōu)參數(shù)組合,最高分類正確率為98.9%。采用ACO優(yōu)化后得到的LightGBM參數(shù)取值如表3所示。

        6.5 特征選擇方法對(duì)比分析

        對(duì)比方法使用基于樹模型的嵌入式特征選擇方法:GBDT、XGBoost和LightGBM。GBDT是集成算法Boosting的一種,每次訓(xùn)練的目的是找到一個(gè)能夠減少擬合殘差的函數(shù),在獲得訓(xùn)練結(jié)果的同時(shí)可以得到每個(gè)特征的重要性值;XGBoost是GBDT的改進(jìn)方法,具有速度快和支持自定義損失函數(shù)等優(yōu)點(diǎn);LightGBM是GBDT的改進(jìn)方法,在不降低預(yù)測(cè)正確率的同時(shí),大大加快了預(yù)測(cè)速度并降低了內(nèi)存消耗。

        使用上述3種對(duì)比方法與本文方法ACO_LightGBM在無噪聲信號(hào)數(shù)據(jù)集上進(jìn)行特征選擇,各方法所得的分類正確率與特征子集中特征個(gè)數(shù)q(特征個(gè)數(shù)最大取值為336,該值較大,故還取q=21,41,61,81,101,121,141,161,181,201,221,241,261,281,301,321進(jìn)行實(shí)驗(yàn)驗(yàn)證)的關(guān)系如圖8所示。

        Figure 8 Accuracy comparison of classification using different feature selection methods圖8 特征選擇分類正確率對(duì)比

        從圖8可以看出,當(dāng)特征個(gè)數(shù)q相同時(shí),相比于GBDT、XGBoost和LightGBM,使用ACO_LightGBM特征選擇方法選出的特征子集輸入到分類器中可以得到最高正確率,使用GBDT方法得到的正確率最低。這說明使用ACO_LightGBM方法選出的特征子集更能表示電臺(tái)的本質(zhì)特性,從而能區(qū)分2個(gè)電臺(tái),進(jìn)而分析電臺(tái)的危險(xiǎn)等級(jí),在現(xiàn)代數(shù)字化信息戰(zhàn)場(chǎng)取得優(yōu)勢(shì)。隨著特征個(gè)數(shù)q的增加,使用各特征選擇方法的分類正確率總體上呈現(xiàn)先增后減或先增后趨于平緩的趨勢(shì),這也滿足了特征選擇的目標(biāo),即在剔除不相關(guān)和冗余特征的同時(shí)提高分類正確率。

        在3個(gè)數(shù)據(jù)集setoriginal、set10dB和set5dB上分別進(jìn)行蟻群算法優(yōu)化LightGBM參數(shù)和特征選擇等實(shí)驗(yàn),并分別使用對(duì)比方法和本文ACO_LightGBM方法得到最優(yōu)特征子集,實(shí)驗(yàn)結(jié)果如表4所示。

        Table 4 Performance comparison of classification using different feature selection methods

        表4中,加粗值為最優(yōu)值,下劃線值為次優(yōu)值??梢钥闯?,ACO_LightGBM方法所得的最優(yōu)特征子集的分類正確率在3個(gè)數(shù)據(jù)集上均優(yōu)于對(duì)比方法的,最優(yōu)特征子集的特征個(gè)數(shù)也為一個(gè)相對(duì)較小的值。對(duì)于數(shù)據(jù)集setoriginal,ACO_LightGBM方法得到的分類正確率相比于GBDT、XGBoost和LightGBM方法的分別提高了1.40%,0.50%和0.40%,特征個(gè)數(shù)為次優(yōu)值;對(duì)于數(shù)據(jù)集set10dB,ACO_LightGBM方法得到的分類正確率分別提高了1.00%,1.10%和0.50%,但特征個(gè)數(shù)最多;對(duì)于數(shù)據(jù)集set5dB,ACO_LightGBM方法得到的分類正確率分別提高了1.50%,0.70%和1.60%,特征個(gè)數(shù)為次優(yōu)值。結(jié)合圖8和表4可知,當(dāng)特征個(gè)數(shù)q取4種方法的最優(yōu)值時(shí),ACO_LightGBM方法得到的分類正確率仍最大,綜合考慮分類正確率和特征個(gè)數(shù),ACO_LightGBM方法的性能最優(yōu)。

        7 結(jié)束語

        為提升輻射源個(gè)體識(shí)別的正確率和運(yùn)算效率,提出了一種基于蟻群參數(shù)優(yōu)化的LightGBM輻射源個(gè)體識(shí)別方法,該方法有以下2點(diǎn)貢獻(xiàn)。

        (1) 使用提升小波包變換提取特征并對(duì)特征值進(jìn)行標(biāo)準(zhǔn)化,以最大分類正確率和最小特征子集規(guī)模為目標(biāo)函數(shù),建立了使用LightGBM參數(shù)優(yōu)化和特征選擇的數(shù)學(xué)模型。

        (2) 使用蟻群算法,基于參數(shù)優(yōu)化問題的構(gòu)造圖,采用路徑選擇概率公式進(jìn)行路徑搜索,利用信息素更新公式,求解了LightGBM參數(shù)優(yōu)化問題;使用基于LightGBM特征重要性值的序列后向搜索策略求解了特征選擇問題。

        實(shí)驗(yàn)結(jié)果表明,相比于GBDT、XGBoost和LightGBM方法,本文提出的基于蟻群參數(shù)優(yōu)化的LightGBM輻射源個(gè)體識(shí)別方法選出的特征子集分類正確率最高,同時(shí)特征個(gè)數(shù)也相對(duì)較少,為提高輻射源個(gè)體識(shí)別正確率和運(yùn)算效率提供了新思路。

        未來的工作主要包括:在嵌入式特征選擇方法的基礎(chǔ)上,如何在保證分類正確率的同時(shí)進(jìn)一步縮減特征子集規(guī)模;為進(jìn)一步提升輻射源個(gè)體識(shí)別的正確率,考慮其他特征選擇方法,如封裝式方法和混合式方法等;對(duì)比信號(hào)數(shù)據(jù)集在不同分類器上得到的分類結(jié)果,以確定最適合信號(hào)數(shù)據(jù)集的分類器。

        猜你喜歡
        分類特征優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        分類算一算
        一道優(yōu)化題的幾何解法
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        在线永久看片免费的视频| 国产在线播放一区二区不卡| 熟妇熟女乱妇乱女网站| 国产午夜三级一区二区三| 91啦视频在线观看| 亚洲一区二区三区av天堂| 丰满少妇人妻无码| 国产成人综合色在线观看网站| 中文字幕精品久久久久人妻| 亚洲色中文字幕无码av| 亚洲欧美综合在线天堂| 青青草99久久精品国产综合| 国产一区三区二区视频在线观看| 日韩精品熟女中文字幕| 久久精品免费一区二区三区 | 熟女中文字幕一区二区三区 | 国产精品.xx视频.xxtv| 久久久久久岛国免费网站| 日韩一级精品视频免费在线看| 精品人妻伦一二三区久久| 久久夜色精品国产噜噜亚洲av | 草逼视频免费观看网站| а√天堂资源官网在线资源| 亚洲人成人影院在线观看| 免费高清视频在线观看视频| 国产精品网站91九色| 国精品无码一区二区三区在线蜜臀 | 精品久久久久久无码专区 | 射精情感曰妓女色视频| 亚洲一区二区观看网站| 日本一区二区精品高清| 亚洲国产一区二区a毛片| 在线观看日本一区二区 | 中文字幕一区久久精品| 亚洲欧美精品suv| 亚洲欧美在线观看一区二区| 永久免费看黄网站性色| 久久不见久久见免费影院| 日韩高清亚洲日韩精品一区| 国产在线精彩自拍视频| 免费无遮挡无码永久在线观看视频|