張金區(qū) 凌 毓 杜 平 李鄉(xiāng)儒 李 慧
(1 華南師范大學(xué)計(jì)算機(jī)學(xué)院 廣州 510631)
(2 廣東建設(shè)職業(yè)技術(shù)學(xué)院建筑信息學(xué)院 清遠(yuǎn) 511500)
單脈沖信號(hào)是指由宇宙天體發(fā)出的沒有固定周期的脈沖輻射信號(hào), 主要分為自轉(zhuǎn)型暫現(xiàn)射電源(Rotating Radio Transients, RRATs)和快速射電暴(Fast Radio Bursts, FRBs)兩類[1–3]. 隨著科技的不斷發(fā)展和天文觀測(cè)設(shè)備靈敏度的不斷提升,觀測(cè)接收的脈沖信號(hào)中夾雜著越來越多的干擾信號(hào), 受飛機(jī)、雷達(dá)、電離層等影響的干擾信號(hào)呈指數(shù)增長(zhǎng), 如何從海量觀測(cè)數(shù)據(jù)中準(zhǔn)確識(shí)別出屬于天體的單脈沖信號(hào)已成為天文數(shù)據(jù)處理的一項(xiàng)重要任務(wù). 為此, 國(guó)內(nèi)外學(xué)者進(jìn)行了大量的研究工作. 目前, 基于機(jī)器學(xué)習(xí)的方法已經(jīng)成為單脈沖信號(hào)挖掘的主要方法, 而如何設(shè)計(jì)和提取脈沖信號(hào)特征是影響機(jī)器學(xué)習(xí)性能的關(guān)鍵因素[4]. 通過篩選有效特征,不但能夠去除冗余特征, 在一定程度上降低了數(shù)據(jù)處理的計(jì)算量, 而且能夠提升識(shí)別準(zhǔn)確度. 這在高速大規(guī)模巡天背景下, 有助于提升單脈沖信號(hào)搜索的效率.
根據(jù)特征的來源和計(jì)算方式, 脈沖信號(hào)的特征主要分為3類, 分別是參數(shù)特征、統(tǒng)計(jì)特征和抽象特征. 參數(shù)特征是指在接收脈沖信號(hào)時(shí)由信號(hào)接收器、空間環(huán)境和數(shù)據(jù)處理管線等決定的一些特征.例如, 色散(Dispersion Measure, DM)是宇宙天體和地球之間沿信號(hào)傳播方向上的自由電子積分柱密度, 單位為pc·cm-3, 它由空間環(huán)境決定, 但是對(duì)脈沖信號(hào)的分類識(shí)別有重要影響, 是典型的參數(shù)特征. 同樣, 信噪比(S/N)是射電天文望遠(yuǎn)鏡接收到信號(hào)的電壓與同時(shí)記錄的噪聲電壓的比值. 信噪比越高, 即信號(hào)強(qiáng)度相對(duì)噪聲更大, 信噪比也是識(shí)別脈沖信號(hào)的主要依據(jù). 參數(shù)特征通常是在接收天體信號(hào)并做初步處理的時(shí)候直接記錄在數(shù)據(jù)文檔中, 后續(xù)可以直接讀取或者通過簡(jiǎn)單計(jì)算獲得, 其特點(diǎn)是特征獲取簡(jiǎn)單、含義明確, 對(duì)脈沖信號(hào)分類效果影響明顯.
統(tǒng)計(jì)特征是指通過對(duì)數(shù)據(jù)進(jìn)行觀察計(jì)算后, 人工設(shè)計(jì)出的一些具有描述意義的量化特征. 例如,Lyon等人基于脈沖輪廓曲線和DM-S/N曲線分別計(jì)算了4個(gè)無偏統(tǒng)計(jì)特征, 分別為曲線的均值、標(biāo)準(zhǔn)差、超額峰度與偏度, 這些特征在單脈沖信號(hào)分類中具有較好的性能[5]. Tan等人在Lyon等[5]無偏統(tǒng)計(jì)特征的基礎(chǔ)上,新增加了基于時(shí)間-相位圖、頻率-相位圖和脈沖輪廓圖的相關(guān)統(tǒng)計(jì)特征, 在分類時(shí), 極大地降低了假陽(yáng)率這一評(píng)價(jià)指標(biāo)[6]. 統(tǒng)計(jì)特征的特點(diǎn)是含義明確, 但是其設(shè)計(jì)受經(jīng)驗(yàn)影響大,并且容易遺漏掉重要的統(tǒng)計(jì)特征.
抽象特征是指那些不需要人工設(shè)計(jì), 直接由算法自動(dòng)提取的特征. 目前, 基于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算是最常用的抽象特征提取方法. 它利用不同的卷積核, 經(jīng)過多層卷積運(yùn)算, 最終輸出一系列特征, 這些特征沒有明確含義, 但對(duì)模型分類具有良好的效果, 正成為各領(lǐng)域應(yīng)用的主流, 在單脈沖信號(hào)識(shí)別方面也發(fā)揮著越來越重要的作用. 例如, Zhu等人設(shè)計(jì)了一個(gè)基于圖像的脈沖星分類系統(tǒng)PICS (Pulsar Image based Classification System), 該系統(tǒng)通過PRESTO (PulsaR Exploration and Search Toolkit)軟件輸出的4幅子圖進(jìn)行脈沖星信號(hào)的篩選, 并使用卷積神經(jīng)網(wǎng)絡(luò)從脈沖星候選體中自動(dòng)學(xué)習(xí)脈沖星的特征, 再利用支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural networks, ANN)、邏輯回歸等分類算法進(jìn)行脈沖星信號(hào)的分類[7].Wang等人根據(jù)PICS (the pulsar image-based classification system)系統(tǒng)提出了PICS-ResNet (Residual Networks)模型, 主要思路是使用ResNet替換了原來的CNN (Convolutional Neural Networks),通過在FAST (the Five-hundred-meter Aperture Spherical radio Telescope)與GBNCC(Green Bank North Celestial Cap)等觀測(cè)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn), 獲得了更高的分類性能[8]. 2020年, Agarwal等人基于8種深度網(wǎng)絡(luò)模型, 如VGG (Visual Geometry Group)和Densenet (Dense Convolutional Network)等網(wǎng)絡(luò)結(jié)構(gòu)提取的特征, 組建了11個(gè)深度學(xué)習(xí)模型, 已探測(cè)到了超過20顆脈沖星的2000多個(gè)單脈沖信號(hào)[9–10].
應(yīng)用表明, 基于卷積神經(jīng)網(wǎng)絡(luò)的抽象特征, 可以有效進(jìn)行脈沖信號(hào)的分類識(shí)別, 但是其可解釋性差, 含義不明確. 另外, 利用卷積神經(jīng)網(wǎng)絡(luò)提取的特征, 經(jīng)常包含冗余特征, 不但消耗計(jì)算資源, 而且在一定程度上影響分類結(jié)果的準(zhǔn)確性. 因此, 如何充分利用參數(shù)特征、統(tǒng)計(jì)特征和抽象特征各自的優(yōu)勢(shì), 對(duì)單脈沖信號(hào)的分類具有重要意義. 本文的目標(biāo)是設(shè)計(jì)一種集成多元特征的選擇和評(píng)價(jià)方法, 為基于機(jī)器學(xué)習(xí)的單脈沖信號(hào)分類提供特征選擇的方法和依據(jù).
在本文中, 直接使用Michilli等[11]工作中已標(biāo)注的單脈沖數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析. 該數(shù)據(jù)集來源于低頻射電聯(lián)合陣列巡天(LOFAR tied-array all-sky survey, LOTAAS)項(xiàng)目, 具體形成過程可見參考文獻(xiàn)[11–12]. 該數(shù)據(jù)集包含脈沖信號(hào)記錄374萬條, 歸屬于53066個(gè)脈沖事件, 其中35063個(gè)為射頻干擾事件, 18003個(gè)屬于47個(gè)已知脈沖星的脈沖事件. 屬于同一個(gè)脈沖的信號(hào)事件組成一個(gè)彌散脈沖組.
集成特征選擇的基本思路是從參數(shù)特征、統(tǒng)計(jì)特征和抽象特征構(gòu)成的特征集合中選擇最適合單脈沖信號(hào)分類的最優(yōu)特征組合. 其總體技術(shù)流程如圖1所示, 主要分為3步: 第1步是分別計(jì)算參數(shù)特征、統(tǒng)計(jì)特征和抽象特征,形成多元原始特征集合;第2步是利用單一特征選擇方法分別從混合特征集中提取最優(yōu)特征子集; 第3步是利用貪心策略從多個(gè)最優(yōu)特征子集中篩選最優(yōu)集成特征子集.
3.1.1 參數(shù)特征和統(tǒng)計(jì)特征設(shè)計(jì)
根據(jù)脈沖信號(hào)數(shù)據(jù)的特點(diǎn), 結(jié)合已有研究[11–12]中的特征設(shè)計(jì), 本文應(yīng)用的參數(shù)特征及統(tǒng)計(jì)特征如表1所示.
表1 參數(shù)特征及統(tǒng)計(jì)特征Table 1 Parameter features and statistical features
3.1.2 基于卷積神經(jīng)網(wǎng)絡(luò)的抽象特征提取
卷積神經(jīng)網(wǎng)絡(luò)通過利用卷積、激活、池化等處理, 可以從不同的感受野進(jìn)行多層特征提取, 在圖像分類識(shí)別等領(lǐng)域取得了成功的應(yīng)用. 利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)單脈沖信號(hào)的數(shù)據(jù)分布圖進(jìn)行抽象特征提取, 將大大增強(qiáng)單脈沖信號(hào)的特征來源. 本文搭建深度殘差收縮網(wǎng)絡(luò), 并將每個(gè)彌散脈沖組數(shù)據(jù)的信噪比與窗口寬度分布曲線形態(tài)圖像作為網(wǎng)絡(luò)模型的輸入, 依此提取單脈沖信號(hào)的抽象特征.
本文設(shè)計(jì)的深度殘差收縮網(wǎng)絡(luò)(Residual Shrinkage Distribution curve Feature extraction Network, RSDFNet)以He等人提出的深度殘差神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)[13], 在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入了殘差模塊. 其模型結(jié)構(gòu)如圖2所示, 以RSDFNet最后一層隱藏層作為特征提取層, 獲取從信噪比與窗口寬度分布曲線形態(tài)圖像中學(xué)習(xí)的抽象特征.
圖2 RSDFNet結(jié)構(gòu)示意圖. 圖中, X為6×224×244大小的輸入特征矩陣, conv表示執(zhí)行卷積操作, c表示通道, s表示步長(zhǎng), p表示池化窗口,c64s2p3即表示對(duì)64個(gè)通道數(shù)據(jù)執(zhí)行步長(zhǎng)為2的池化, 池化窗口為3×3. maxpool表示最大值池化, GAP為全局平均池化, 圖中兩條虛線表示的殘差運(yùn)算, 因通道數(shù)不同, 需要降采樣處理使通道數(shù)一致.Fig.2 Structure of RSDFNet. In the figure, X stands for input feature matrix with size of 6×224×244, conv represents convolution operation, c represents channel, s represents step size, and p represents pooling window. For example, c64s2p3 represents performing pooling with step size 2 on 64 channels data, and pooling window is 3×3. Maxpool represents maximum pooling, GAP represents global average pooling, and dashed lines represent different number of channels during residual operation. Down sampling is required to ensure a consistent number of channels.
多元混合特征集中不可避免地存在著眾多冗余特征和無效特征, 這些冗余特征不但會(huì)降低模型的運(yùn)算效率, 造成維數(shù)災(zāi)難, 而且會(huì)影響模型的準(zhǔn)確性. 因此, 如何篩選出最有用的特征, 對(duì)模型計(jì)算有重要意義, 然而如何評(píng)價(jià)一個(gè)特征對(duì)分類任務(wù)的重要性, 卻有眾多不同的方法. 本文首先利用卡方檢驗(yàn)[14]、互信息[15]、遞歸特征消除[16]、嵌入式特征選擇等方法進(jìn)行單一方法特征選擇, 分別篩選出每種方法的最優(yōu)特征子集. 然后, 將多種方法的最優(yōu)特征子集進(jìn)行篩選集成, 形成最優(yōu)集成特征組合, 以實(shí)現(xiàn)各種特征選擇方法的優(yōu)勢(shì)互補(bǔ).
3.2.1 基于卡方檢驗(yàn)的特征子集選擇
卡方檢驗(yàn)的基本思想是通過觀察實(shí)際值與理論值的偏差來確定理論值正確與否. 具體做法是先假設(shè)兩個(gè)變量是獨(dú)立的(“原假設(shè)”), 然后觀察實(shí)際值(觀察值)與理論值的偏差程度, 如果偏差足夠小則認(rèn)為兩者確實(shí)是相互獨(dú)立的,此時(shí)就接受原假設(shè);如果偏差大到一定程度, 則認(rèn)為兩者是相關(guān)的, 即否定原假設(shè)而接受備擇假設(shè). 在進(jìn)行單脈沖信號(hào)特征選擇的時(shí)候, 使用“提取的特征與待識(shí)別的單脈沖信號(hào)不相關(guān)”來做原假設(shè), 計(jì)算出的卡方值越大,說明對(duì)原假設(shè)的偏離越大, 此時(shí), 傾向認(rèn)為原假設(shè)的反面是正確的, 也就是卡方值越大, 特征與單脈沖信號(hào)的相關(guān)度越高. 卡方計(jì)算公式如(1)式所示:
其中,A為基于某項(xiàng)特征計(jì)算的實(shí)際值,E為理論值.
3.2.2 基于互信息的特征子集選擇
互信息(Mutual Information)可以用來度量?jī)蓚€(gè)隨機(jī)特征變量之間的相互依賴程度[15], 通常用于評(píng)價(jià)一個(gè)事件的出現(xiàn)對(duì)另一個(gè)事件出現(xiàn)所貢獻(xiàn)的信息量. 在分類中, 可看作是某個(gè)特征對(duì)于某個(gè)類別區(qū)分的貢獻(xiàn)度. 當(dāng)變量X與Y為離散隨機(jī)特征變量時(shí), 計(jì)算公式如下:
在公式中,I(X,Y)表示X和Y之間的互信息量,p(x,y)為X和Y的聯(lián)合概率分布函數(shù),p(x)和p(y)分別為X和Y的邊緣概率分布函數(shù),x表示變量集X中的一個(gè)成員,y表示變量集Y中的一員. 若互信息值為零, 則表明兩個(gè)隨機(jī)變量之間互相不提供任何信息, 相互獨(dú)立. 互信息值越大, 則表明這兩個(gè)變量之間的依賴程度越高.
3.2.3 基于遞歸特征消除的特征子集選擇
遞歸特征消除法是指在給定的特征集上訓(xùn)練一個(gè)模型, 根據(jù)模型的結(jié)果從特征集中移除最不重要的特征, 接著在剩余特征集上繼續(xù)訓(xùn)練, 不斷重復(fù)該過程, 直到集合中的特征數(shù)量達(dá)到指定值,即可選出最優(yōu)特征子集[16]. 在本文中, 選擇Light-GBM (Light Gradient Boosting Machine)模型, 進(jìn)行遞歸特征消除. LightGBM是一個(gè)基于決策樹的梯度提升框架, 在傳統(tǒng)的GBDT (Gradient-Boosting Decision Tree)算法上進(jìn)行了優(yōu)化, 支持多線程的并行計(jì)算, 在保證準(zhǔn)確率的同時(shí)降低了內(nèi)存的消耗, 訓(xùn)練速度也得到了極大程度的提高, 從而達(dá)到高效處理海量數(shù)據(jù)的目的[16].
3.2.4 嵌入式特征選擇
嵌入式特征選擇是在給定基學(xué)習(xí)器的情況下,將特征數(shù)據(jù)與模型結(jié)合在一起, 在模型的訓(xùn)練過程中篩選掉系數(shù)為零的特征數(shù)據(jù), 其計(jì)算代價(jià)較低, 特征選擇速度快, 能極大程度上對(duì)數(shù)據(jù)進(jìn)行降維. 本文選擇隨機(jī)森林和XGBoost (Extreme Gradient Boosting)學(xué)習(xí)器, 分別作為基模型, 進(jìn)行特征選擇[17–18]. 這兩種嵌入式學(xué)習(xí)器都能較好地對(duì)特征間的非線性關(guān)系進(jìn)行建模, 在特征選擇的過程中, 模型會(huì)計(jì)算特征的相關(guān)性系數(shù)和對(duì)模型性能的貢獻(xiàn)度指標(biāo), 當(dāng)相關(guān)性系數(shù)或貢獻(xiàn)度指標(biāo)低于設(shè)定閾值時(shí), 自動(dòng)舍棄該特征.
單一方法的特征選擇無法全面地對(duì)數(shù)據(jù)特征進(jìn)行評(píng)價(jià), 而綜合利用多種特征選擇方法的優(yōu)勢(shì),是彌補(bǔ)單一方法局限的有效途徑. 為此, 本文提出基于貪心策略的集成特征選擇方法,具體做法如下:
(1)使用每個(gè)單一方法提取的特征,按重要性從大到小排序. 假設(shè)第i個(gè)方法給出的特征子集為Si={si,j|i=1,2,3,4,5;j=1,2,3,··· ,m},si,j即表示第i個(gè)方法給出的特征子集中排序?yàn)閖的特征,m表示該特征子集中特征總個(gè)數(shù), 方法總數(shù)為n;
(2)取出各特征子集中排在首位的特征,放入緩沖集合B中, 對(duì)B包含的特征進(jìn)行去重后逐一輸入至LightGBM分類模型,得到對(duì)應(yīng)的分類性能,篩選出分類性能最好的特征, 記為c1. 將c1從B中取出,添加進(jìn)集成特征集C中;
(3)取出各特征子集中排在第2位的特征, 即si2, i= 1,2,3,4,5. 將新選擇的5個(gè)特征繼續(xù)放入集合B中并去重, 然后從B中逐一取出元素與第1輪已經(jīng)篩選出的最優(yōu)特征c1進(jìn)行組合并輸入至LightGBM分類模型中,得到對(duì)應(yīng)的分類性能.從中篩選出性能最好的特征組合, 將第2個(gè)篩選出的特征記為c2, 并將其從B中取出, 添加進(jìn)集成特征集C中;
以此類推,篩選出特征c3,c4,··· ,cm,直到篩選出特征子集中包含的所有特征. 最后, 得到按特征重要性排序的集成特征集C={ci|i= 1,2,3, ··· ,m}. 集成特征選擇方法的算法流程如下所示.
Algorithm: Ensemble feature selection method Input: Ordered feature set list Si; Number of single feature selectors n; Number of features m Output: Selected feature set C using ensemble feature selection method 1: Initialize temporary collection B and results feature collection C 2: for i = 1 to n:3: for j = 1 to m:4: B ←[B;sij]5: end for 6: Remove duplicate features in B 7: for k = 1 to size (B):8: Get out the kth feature bk 9: if bk is not in C:10: Compute classification performance of subsets {c1,...,ci-1,bk}11: end for 12: Record the best performance feature bl based on combination of bk and C 13: C ←[C;bl]14: end for 15: return C
在實(shí)驗(yàn)時(shí), 分別將屬于單脈沖的彌散脈沖組和射頻干擾彌散脈沖組按照6:2:2的比例進(jìn)行隨機(jī)分組, 劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集, 然后以綜合了精確率和召回率的F1值為主要評(píng)價(jià)指標(biāo), 主要實(shí)驗(yàn)結(jié)果如下.
隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展, 涌現(xiàn)了越來越多的網(wǎng)絡(luò)模型, 本文選取了部分代表性的網(wǎng)絡(luò)模型, 進(jìn)行單脈沖信號(hào)分類效果對(duì)比, 從而確定最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)并進(jìn)行抽象特征的提取. 在實(shí)驗(yàn)時(shí)首先對(duì)每個(gè)網(wǎng)絡(luò)通過自動(dòng)搜索方式單獨(dú)進(jìn)行參數(shù)調(diào)優(yōu), 獲得最佳效果. 各模型的實(shí)驗(yàn)結(jié)果如表2所示.
表2 不同卷積神經(jīng)網(wǎng)絡(luò)的分類結(jié)果比較Table 2 Classification results for different Convolutional Neural Networks
從中可以看出, 本文所使用的RSDFNet模型,F1值達(dá)到了95.3%, 在這些模型中的整體性能表現(xiàn)最好, 證明了RSDFNet具有較好的從信噪比與窗口寬度的分布曲線形態(tài)上學(xué)習(xí)和提取特征的能力.與ResDFNet相比, RSDFNet引入了殘差收縮模塊后F1值提高了0.4%.分析認(rèn)為由于彌散脈沖組中的信號(hào)事件是分別基于信號(hào)事件表中每條記錄的信號(hào)時(shí)間和色散值的鄰近程度直接聚類進(jìn)行分組而來, 沒有考慮其中的相關(guān)性, 其分布曲線形態(tài)圖上就容易存在非相關(guān)的噪聲事件點(diǎn)特征.RSDFNet通過注意力機(jī)制從分布曲線形態(tài)圖像上聚焦到這些不合理的特征點(diǎn), 通過軟閾值處理將其置為零, 進(jìn)而加強(qiáng)了模型在這些分布曲線形態(tài)圖上提取特征的能力.
本文主要通過RSDFNet模型的最后一層隱藏層提取輸入圖像包含的抽象特征, 該層的節(jié)點(diǎn)數(shù)不同, 對(duì)模型的分類性能也有一定影響. 為此, 通過調(diào)整抽象特征數(shù)量,即對(duì)RSDFNet最后一層隱藏層的節(jié)點(diǎn)數(shù)進(jìn)行調(diào)整, 觀察模型的分類性能以尋求更有質(zhì)量的特征, 得到的實(shí)驗(yàn)結(jié)果如圖3所示.
圖3 模型性能隨抽象特征個(gè)數(shù)的變化Fig.3 Variations of model performance with the number of abstract features
圖中可直觀地看到,隨著抽象特征個(gè)數(shù)的增加,模型的性能隨之而提升; 當(dāng)抽象特征個(gè)數(shù)達(dá)到16個(gè)時(shí), 模型的F1最高. 此后, 隨著特征個(gè)數(shù)的增加, 模型性能不再提升, 反而持續(xù)下降. 因此, 本文設(shè)置提取的抽象特征個(gè)數(shù)為16.
根據(jù)本文第3部分描述的單一特征選擇和集成特征選擇方法, 對(duì)單脈沖信號(hào)的所有混合特征進(jìn)行篩選, 不同特征選擇方法得出的特征重要性排序如表3所示.
表3 不同方法選擇特征的重要性排序Table 3 Feature importance ranking for different feature selection methods
表3中, 以“f+數(shù)字”命名的特征是基于深度殘差收縮網(wǎng)絡(luò)提取的抽象特征, 其他方式命名的為參數(shù)特征和統(tǒng)計(jì)特征. 從表中可以看出, 每種方法計(jì)算出的特征重要性排序明顯不同. 以互信息方法選擇的特征,把統(tǒng)計(jì)特征和參數(shù)特征作為重要的特征,而基于隨機(jī)森林的嵌入式特征選擇方法則把抽象特征作為重要的特征. 從集成特征選擇的結(jié)果看,抽象特征f9是最重要的特征, 然后是統(tǒng)計(jì)特征和參數(shù)特征. 總體上看, 單純依靠一類特征, 例如只使用統(tǒng)計(jì)特征或者只使用深度殘差收縮網(wǎng)絡(luò)的抽象特征, 都不是最好的特征集合. 通過對(duì)多元特征進(jìn)行集成選擇是構(gòu)建最優(yōu)特征集的有效方法.
在上一節(jié)中, 雖然得出了不同方法下特征的重要性排序, 但是能讓分類模型得到最優(yōu)結(jié)果的輸入特征數(shù)量仍不確定. 因此, 本節(jié)繼續(xù)討論輸入特征個(gè)數(shù)對(duì)模型性能的分析. 我們以LightGBM模型為例, 使用F1值為模型評(píng)價(jià)指標(biāo), 分別計(jì)算模型在不同輸入特征個(gè)數(shù)下的F1值. 選擇LightGBM是因?yàn)樵撃P拖啾扔赬GBoost等其他模型具有更快的訓(xùn)練速度和更高的效率, 而且適用于大規(guī)模數(shù)據(jù)的處理[19]. 另一方面, LightGBM本質(zhì)是一種基于樹的模型, 模型本身存在著較多的超參數(shù), 這些超參數(shù)會(huì)影響樹的結(jié)構(gòu)、訓(xùn)練的速度以及模型的擬合度等. 同時(shí), 這些超參數(shù)之間還存在相互影響, 如: 參數(shù)num_leaves既影響決策樹結(jié)構(gòu), 又可以控制擬合程度; max_bin既與效率相關(guān), 也與準(zhǔn)確率相關(guān), 還與擬合程度相關(guān). 因此在應(yīng)用時(shí)盡量避免手動(dòng)調(diào)整參數(shù), 最好是通過自動(dòng)搜索的方式確定超參數(shù). 本文選出了LightGBM模型中8個(gè)常用的超參數(shù), 使用麻雀搜索算法對(duì)這些參數(shù)進(jìn)行自動(dòng)調(diào)整, 這8個(gè)參數(shù)及其取值搜索范圍如表4所示.
表4 LightGBM超參數(shù)及取值搜索范圍Table 4 Super parameters and their value ranges for search of LightGBM
為了分析特征個(gè)數(shù)對(duì)模型性能的影響, 并比較單一特征選擇方法和集成特征選擇方法的表現(xiàn), 進(jìn)行相同特征個(gè)數(shù)下的對(duì)比實(shí)驗(yàn)分析. 按照表3中的特征重要性排序, 由小到大, 依此構(gòu)建不同特征選擇方法的特征子集, 分別輸入LightGBM模型進(jìn)行訓(xùn)練和分類結(jié)果預(yù)測(cè), 基于分類結(jié)果計(jì)算5種單一特征選擇方法的F1值, 取每個(gè)特征數(shù)量下5種單一方法特征子集的最大F1值和集成特征子集的F1值進(jìn)行比較. 其值隨著特征個(gè)數(shù)的變化如圖4所示.
圖4 單一特征選擇與集成特征選擇方法的F1值隨特征個(gè)數(shù)的變化Fig.4 Variations of F1-score with feature numbers for single method feature selection and ensemble feature selection
從圖4可以看出, 隨著輸入特征個(gè)數(shù)的增加,F1值也迅速提升, 大概在輸入8個(gè)特征的時(shí)候, 集成特征方法的F1值達(dá)到最大值, 在輸入10個(gè)特征的時(shí)候, 單一特征方法的F1值達(dá)到最大值. 后面隨著特征個(gè)數(shù)的增加, F1值都趨于平緩并略微下降. 這說明后續(xù)增加的特征可能屬于冗余特征或者無效特征, 由此看出, 單脈沖分類時(shí)并不是使用的特征個(gè)數(shù)越多越好.
從單一特征選擇和集成特征選擇的對(duì)比來看,在使用相同的特征數(shù)量下, 集成特征選擇方法的分類結(jié)果都比單一特征選擇的表現(xiàn)要好. 集成特征子集的F1值最高達(dá)到了99.2%, 在相同的特征數(shù)量下,集成特征選擇的F1值比單一特征選擇的F1值最高可提升1.8%, 說明了集成特征選擇方法的有效性.集成特征選擇方法結(jié)合了多種單一特征選擇的結(jié)果, 更容易找到區(qū)分能力較強(qiáng)的特征.
根據(jù)前面的分析, 可以看出篩選出的最優(yōu)特征集包含3個(gè)抽象特征和5個(gè)自定義特征. 這一方面說明依靠經(jīng)驗(yàn)設(shè)計(jì)的一些統(tǒng)計(jì)特征是有效的, 同時(shí)也說明僅僅依靠人工特征不一定能取得最佳效果. 本節(jié)進(jìn)一步分析神經(jīng)網(wǎng)絡(luò)提取的抽象特征對(duì)不同模型的性能增益情況. 我們通過實(shí)驗(yàn)對(duì)比只利用表1中的人工特征和結(jié)合RSDFNet提取的16個(gè)抽象特征之后, 在SVM (support vector machines)、KNN (K-Nearest Neighbors)、AdaBoost (Adaptive Boosting)和LightGBM等模型上對(duì)單脈沖信號(hào)的分類效果, 利用準(zhǔn)確度和F1值分析抽象特征對(duì)不同模型的分類效果性能增益情況. 這些模型的參數(shù)均通過自動(dòng)搜索的方式取得最優(yōu)值, 各模型實(shí)驗(yàn)結(jié)果如表5所示.
表5 抽象特征對(duì)不同模型的性能增益(UDF表示用戶自定義特征)Table 5 Performance improvement of abstract features on different models (UDF stands for Userdefined features)
通過表5可以看出, 增加抽象特征的輸入后,各模型的準(zhǔn)確率和F1值大都出現(xiàn)了相應(yīng)的提升,尤其是對(duì)KNN模型的提升最大, F1值最高提升了15%. 雖然KNN的準(zhǔn)確率和F1值提升最大, 但是LightGBM模型的準(zhǔn)確率和F1值在增加抽象特征之前和之后都是最高的. SVM模型的準(zhǔn)確率并沒有提升, 反而出現(xiàn)了略微下降, 一方面可能是因?yàn)镾VM分類界面通過少量特征就可以構(gòu)建, 另一方面可能是因?yàn)槌橄筇卣髦邪艘恍o效或冗余特征. 通過集成特征選擇, 可以進(jìn)一步篩選出最優(yōu)特征組合.
機(jī)器學(xué)習(xí)已成為單脈沖信號(hào)探測(cè)和識(shí)別的主要方法, 對(duì)脈沖信號(hào)的特征抽取成為影響機(jī)器學(xué)習(xí)效果的重要方面. 為此, 本文在參數(shù)特征、統(tǒng)計(jì)特征和抽象特征的基礎(chǔ)上, 設(shè)計(jì)了集成特征的選擇方法. 該方法首先利用卡方檢驗(yàn)、互信息、遞歸特征消除、嵌入式特征選擇等方法篩選出不同側(cè)面的最優(yōu)特征子集, 然后利用貪心策略從最優(yōu)特征合集中, 篩選出用于最終分類的特征組合.
根據(jù)對(duì)實(shí)驗(yàn)結(jié)果的分析, 可以得出, 不同的特征選擇方法, 其特征重要性的排序明顯不同, 特征選擇方法對(duì)分類精度有明顯影響. 當(dāng)特征數(shù)量較少時(shí), 不同特征選擇方法對(duì)分類結(jié)果的影響較大. 當(dāng)特征數(shù)量超過10個(gè)時(shí), 不同特征篩選方法的分類性能開始趨同. 與單一特征選擇方法相比, 基于集成特征的F1值可提高1.8%,說明集成特征選擇對(duì)單脈沖分類精度有較好的提升.
從集成特征的構(gòu)成來看, 集成方法選擇的特征包含了神經(jīng)網(wǎng)絡(luò)提取的抽象特征、參數(shù)特征和統(tǒng)計(jì)特征. 這說明單純依靠卷積神經(jīng)網(wǎng)絡(luò)的抽象特征或者單純依靠人工設(shè)計(jì)的統(tǒng)計(jì)特征, 都很難達(dá)到最優(yōu)的分類效果. 對(duì)多元特征進(jìn)行混合應(yīng)用是提升單脈沖信號(hào)分類的有效手段. 本文的工作, 給基于機(jī)器學(xué)習(xí)的單脈沖信號(hào)分類一種全新的認(rèn)知, 通過選取有效集成特征, 不但降低了特征個(gè)數(shù)而且提升了分類性能. 特征個(gè)數(shù)的降低進(jìn)一步減少了模型數(shù)據(jù)處理的計(jì)算量, 在高速大規(guī)模巡天背景下對(duì)提升海量天文數(shù)據(jù)的處理效率具有重要意義.