陳俊夫,皮德常,張 強
(1. 南京航空航天大學(xué)計算機科學(xué)與技術(shù)學(xué)院,南京 211106;2. 北京航天飛行控制中心,北京 100094)
衛(wèi)星是人類探測宇宙的重要設(shè)備,也是通信工具的主要載體。衛(wèi)星在惡劣的空間環(huán)境運行,一旦發(fā)生嚴(yán)重的故障是難以進(jìn)行修復(fù)的。及時有效的異常檢測和故障定位能夠保障衛(wèi)星安全可靠的運行[1]。因此,衛(wèi)星遙測數(shù)據(jù)異常檢測是衛(wèi)星故障早期預(yù)警中最為關(guān)鍵的一部分。
目前工程領(lǐng)域異常檢測的方法大體上可以分為兩類:基于模型的異常檢測方法和基于數(shù)據(jù)驅(qū)動的異常檢測方法?;谀P偷漠惓z測方法需要建立精準(zhǔn)的物理模型來描述飛行器工作特征,從而達(dá)到識別異常數(shù)據(jù)的目的。例如Li等[2]采用非線性加權(quán)最小二乘估計技術(shù)對燃?xì)廨啓C建立了性能模型,該模型能夠有效預(yù)測燃?xì)廨啓C性能的退化;胡宇等[3]采用三階容積積分方法近似描述發(fā)動機的非線性統(tǒng)計特征,改良了傳統(tǒng)的卡爾曼濾波異常檢測方法。然而,基于模型的異常檢測方法,需要具有豐富知識的領(lǐng)域?qū)<襾順?gòu)建物理模型。對于空間飛行器而言,往往有多個分系統(tǒng)組成,每個系統(tǒng)都有大量的傳感器,在飛行過程中會產(chǎn)生大量的、復(fù)雜的高維數(shù)據(jù),將導(dǎo)致基于模型的異常檢測方法在實際過程中操作難度很大。
基于數(shù)據(jù)驅(qū)動的異常檢測不需要依賴相關(guān)領(lǐng)域知識,通過對飛行器歷史數(shù)據(jù)建立有效的異常檢測模型。近年來,一些基于機器學(xué)習(xí)的方法在飛行器異常檢測領(lǐng)域中陸續(xù)出現(xiàn)。例如, Codetta-Raiteri等[4]提出了利用數(shù)據(jù)特征和基于概率圖模型的動態(tài)貝葉斯網(wǎng)絡(luò),對歐洲航天局火星探測器供配電系統(tǒng)的遙測數(shù)據(jù)進(jìn)行異常檢測;康旭等[5]針對高維復(fù)雜衛(wèi)星遙測分系統(tǒng)數(shù)據(jù),利用共享近鄰算法建立相關(guān)數(shù)據(jù)集空間,并利用角度偏離算法來對遙測數(shù)據(jù)進(jìn)行異常檢測。
隨著計算能力和神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的進(jìn)展,深度學(xué)習(xí)方法也開始用于高維時序數(shù)據(jù)的異常檢測。Zhao等[6]提出了一種面向風(fēng)力發(fā)電機組運行監(jiān)控和數(shù)據(jù)采集的深度學(xué)習(xí)方法。該方法利用自編碼器網(wǎng)絡(luò)的輸入和輸出重構(gòu)值,來計算重構(gòu)誤差,并將其定義為反映當(dāng)前健康狀況的狀態(tài)檢測指標(biāo)。文獻(xiàn)[7]提出了一種可以學(xué)習(xí)到相位相同的樣本特征的代表性特征自編碼器,用于檢測周期性遙測數(shù)據(jù)的異常。但是,目前的大多數(shù)異常檢測方法都忽視了遙測數(shù)據(jù)的不平衡性,即正常樣本和異常樣本之間的比例嚴(yán)重失衡,這對預(yù)測模型造成嚴(yán)重的影響。同時,忽略了這些深度學(xué)習(xí)模型的可遷移性。例如,利用已有訓(xùn)練好的某衛(wèi)星分系統(tǒng)異常檢測模型,去解決另一衛(wèi)星或者另一分系統(tǒng)異常檢測任務(wù)。當(dāng)目標(biāo)系統(tǒng)的異常標(biāo)簽樣本非常少時,通過模型遷移可以構(gòu)建一個性能優(yōu)秀的異常檢測模型。
針對上述問題和技術(shù)發(fā)展的需求,本文提出了一種無領(lǐng)域知識且代價敏感的一維卷積神經(jīng)網(wǎng)絡(luò)(cost-sensitiveone-dimensional CNN, cs-1dCNN)衛(wèi)星分系統(tǒng)異常檢測模型。它利用遷移學(xué)習(xí)實現(xiàn)對缺乏有標(biāo)簽數(shù)據(jù)的目標(biāo)衛(wèi)星分系統(tǒng)的異常檢測。該模型的卷積池化層,能有效提取衛(wèi)星遙測數(shù)據(jù)的局部序列視野,形成用于異常檢測的中間層序列特征。針對衛(wèi)星遙測數(shù)據(jù)樣本的不平衡問題,引入代價敏感訓(xùn)練策略,在每個訓(xùn)練批次內(nèi)動態(tài)修改交叉熵?fù)p失函數(shù),考慮了整體的樣本不平衡和局部小批量訓(xùn)練上的不平衡,利用微調(diào)預(yù)訓(xùn)練模型的遷移方法,對僅含少量有標(biāo)簽數(shù)據(jù)的目標(biāo)衛(wèi)星分系統(tǒng)進(jìn)行異常檢測。
本文提出一種基于1dCNN的異常檢測模型。為了更好理解這種模型的工作原理,本文先介紹傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡(luò)。
1989年LeCun等[8]提出卷積神經(jīng)網(wǎng)絡(luò)并在手寫數(shù)字?jǐn)?shù)據(jù)集上取得了不錯的效果。隨后,LeCun等[9]提出卷積層和池化層兩個概念,并構(gòu)建了LeNet-5這一多層卷積網(wǎng)絡(luò)結(jié)構(gòu)。
一般來講,CNN主要包含卷積層、池化層、全連接層和激活函數(shù)構(gòu)成。圖1展示了典型的CNN處理圖像分類任務(wù)的流程。圖像輸入CNN之后,需要通過若干次卷積池化操作,提取圖像的局部特征圖,再將特征圖輸入全連接層,對其進(jìn)行分類。在CNN訓(xùn)練過程,采用梯度下降來最小化目標(biāo)函數(shù),通過多次迭代來調(diào)節(jié)網(wǎng)絡(luò)權(quán)重。
圖1 CNN處理圖像分類任務(wù)Fig.1 CNN processes image classification task
1.1.1卷積層
CNN中的卷積層來自于數(shù)學(xué)中的卷積運算,式(1)闡述了數(shù)學(xué)卷積的定義。CNN中的二維卷積運算本質(zhì)是對卷積核函數(shù)矩陣與圖像矩陣進(jìn)行離散卷積運算,卷積過程如式(2)所示。
(1)
(2)
式中:f(x)和g(x)是實數(shù)集上兩個可積函數(shù),c(x)表示這兩函數(shù)的卷積結(jié)果;C(w,h)表示二維卷積結(jié)果,w和h分別表示圖像上的寬度軸和高度軸,K表示核函數(shù)矩陣,s和t分別表示卷積核在圖像寬度和高度軸上的坐標(biāo),I表示圖像矩陣,k表示卷積核矩陣的尺寸。
由式(2)可知,卷積核的尺寸小于輸入圖像尺寸,這使得在典型的CNN模型中,輸入圖像與輸出特征間具備稀疏連接的特性。將卷積核看作一個視覺窗口,在卷積層中通過設(shè)置多個卷積核,就可以得到更多圖像局部特征。同一卷積核在CNN進(jìn)行前向傳播時共享同一組參數(shù),使得卷積層具有平移不變性,并且減少了計算量。
1.1.2池化層
數(shù)據(jù)通過卷積層后,根據(jù)卷積核的數(shù)量產(chǎn)生對應(yīng)的數(shù)據(jù)通道數(shù)。池化層不改變通道數(shù)目,在不同的通道上單獨進(jìn)行。池化層主要是用來下采樣、降維、對特征進(jìn)行壓縮及減少計算量。與此同時,池化層能夠?qū)W(wǎng)絡(luò)實現(xiàn)非線性化并擴大CNN的感知視野。本文采用的是CNN中常用的最大池化層,選取數(shù)據(jù)區(qū)域內(nèi)最大值并作為該區(qū)域池化后的值,其機理可以描述為
(3)
式中:M表示通過最大池化層后得到的特征圖像矩陣,F(xiàn)表示輸入的特征圖像矩陣,h表示該特征圖像矩陣的尺寸,p表示池化區(qū)域的視野尺寸。
1.1.3全連接層
CNN在經(jīng)過一系列卷積池化層后,需要經(jīng)由若干全連接層進(jìn)行處理。第一個全連接層起到將數(shù)據(jù)“壓平”的作用,即將數(shù)據(jù)從多維度壓縮成一維數(shù)組。然后,該一維數(shù)組在全連接層的每層都采用式(4)計算。在CNN分類問題下,最終輸出值通過softmax激活函數(shù)進(jìn)行處理,其機理如式(5)所示。
(4)
(5)
其中,O為在k分類的條件下輸出的結(jié)果矩陣,Wi和bi分別代表第i個神經(jīng)元對應(yīng)的權(quán)重及偏置。本文面對的異常檢測問題實際上是一個二分類問題,所以k取值為2。
與二維CNN類似,1dCNN同樣具有平移不變性及稀疏連接等特點。不同之處在于應(yīng)用場景,二維CNN常用于處理圖像等二維數(shù)據(jù),1dCNN常用于處理時序數(shù)據(jù)等一維數(shù)據(jù)。因此,1dCNN在卷積層池化層的數(shù)值計算上存在差異,這種差異可以體現(xiàn)在式(6)和式(7)中:
(6)
(7)
式中:C(w)表示一維卷積結(jié)果,w表示時序數(shù)列的寬度(長度),K表示核函數(shù)矩陣,s表示卷積核在寬度軸上的坐標(biāo),I表示時序數(shù)列數(shù)組,k表示卷積核數(shù)組的尺寸;M表示通過池化后得到的特征序列,p表示池化區(qū)域的視野尺寸,F(xiàn)表示輸入的特征序列數(shù)組,h表示該特征序列數(shù)組的尺寸。
為便于理解1dCNN的工作原理,本文采用正弦型函數(shù)及一個卷積核函數(shù)構(gòu)造了一組示例。該正弦型函數(shù)的振幅為1,角頻率為0.01,初始相位為0。在此基礎(chǔ)上對1500時刻附近的數(shù)據(jù)進(jìn)行擾動,構(gòu)建的時序數(shù)據(jù)如圖2所示。
圖2 正弦函數(shù)時序數(shù)據(jù)Fig.2 Time series data of sine function
選取核函數(shù)尺寸為1000,步幅為500,提取的特征序列如圖3所示。
圖3 卷積核提取特征序列Fig.3 Feature sequences extracted by convolution kernel
圖3中,該卷積核獲取到時間序列的7個局部視野,并且能夠提取出異常時間序列片段的顯著特征。相對于原始時間序列,特征序列更顯得稀疏交互并且突出了關(guān)鍵信息。卷積核的尺寸應(yīng)該由時間序列的長度以及異常行為時間尺度決定。一般來講,當(dāng)時間序列長度相對于異常行為時間比例較高時,應(yīng)選擇視野較寬的卷積核,這樣可以避免提取大量無用稀疏特征。反之,在時間序列較短的情況下,要盡量選擇視野較窄的卷積核,以免提取不到邊緣特征。選擇合適的卷積核步幅,對于1dCNN進(jìn)行異常行為識別尤為重要。如果選取過長的卷積核步幅,對于具有異常特征的特征序列難以定位。另一方面,如果卷積核步幅過短,則提取出的特征序列則無法包含足夠的前后序列,從而難以判別是正常行為特征還是異常行為特征。
數(shù)據(jù)不平衡是異常檢測任務(wù)中的常見問題。地面站接收到的衛(wèi)星遙測數(shù)據(jù),絕大部分都是正常數(shù)據(jù)。系統(tǒng)將一個異常數(shù)據(jù)誤判為正常與把一個正常數(shù)據(jù)誤判為異常,所付出的代價是不同的。異常檢測系統(tǒng)寧可誤判正常數(shù)據(jù)為異常,也不能遺漏一個異常,顯然準(zhǔn)確地識別出異常數(shù)據(jù)更為重要。為了解決這一問題,將代價敏感應(yīng)用到了1dCNN的訓(xùn)練過程中,提出了代價敏感一維卷積神經(jīng)網(wǎng)絡(luò)(cs-1dCNN)模型。
代價敏感分類器[10]的主要優(yōu)點是區(qū)分處理多數(shù)樣本和少數(shù)樣本并考慮了誤分類成本的不同。分類結(jié)果可以表示為表1中的混淆矩陣。
表1 混淆矩陣Table 1 Confusion matrix
(8)
(9)
根據(jù)最小期望代價準(zhǔn)則,代價敏感分類器的期望風(fēng)險可以采用如下描述:
(10)
式中:R(i|X)表示給定輸入X分為i類的期望風(fēng)險,P(j|X)表示給定輸入X實際屬于j類的后驗概率,C(j,i)表示i類樣本被分類為j類時產(chǎn)生的代價。
準(zhǔn)確地計算后驗概率一直是數(shù)學(xué)中的未解難題。因此,在神經(jīng)網(wǎng)絡(luò)中應(yīng)用經(jīng)驗風(fēng)險代替計算后驗概率。經(jīng)驗風(fēng)險的計算如下所示:
(11)
(12)
運用不平衡比率作為代價敏感誤分類的懲罰,可以從整體上解決數(shù)據(jù)不平衡對分類任務(wù)造成模型偏向正常樣本擬合的問題。但是,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中采用小批量訓(xùn)練方式,固定的代價矩陣不能很好地適應(yīng)局部區(qū)域分布的不平衡。利用動態(tài)變化的誤分類代價權(quán)重進(jìn)行自適應(yīng)更新,不僅能考慮到整體的樣本不平衡,也能考慮到局部小批量訓(xùn)練上的不平衡。
本文提出的交叉熵?fù)p失函數(shù)表示如下:
l(θ)=λ×tn×(-ln(pn))+(1-tn)×
(-ln(1-pn))
(13)
式中:θ為分類器(1dCNN)的權(quán)重參數(shù),λ是本文提出的動態(tài)誤分類代價權(quán)重,tn和pn分別表示第n個期望輸出和預(yù)測輸出。
因此,訓(xùn)練階段整體交叉熵?fù)p失函數(shù)包含正樣本預(yù)測損失和負(fù)樣本預(yù)測損失。整體損失函數(shù),動態(tài)誤分類代價權(quán)重和優(yōu)化目標(biāo)通過式(14)、式(15)和式(16)表示:
(14)
λn=
(15)
θ*=argminE(θ)
(16)
定義1源域:源域包含大量有標(biāo)簽的數(shù)據(jù),記作Ds。在衛(wèi)星異常檢測任務(wù)中,源域是擁有人工標(biāo)簽的某衛(wèi)星遙測數(shù)據(jù)。
遷移學(xué)習(xí)通過映射函數(shù)將源域樣本和目標(biāo)域樣本映射到相同的分布空間,通過這種方式,使得源域樣本的知識能夠用于解決目標(biāo)域任務(wù)。本文進(jìn)行的衛(wèi)星異常檢測模型遷移任務(wù)如圖4所示。
圖4 衛(wèi)星異常檢測模型遷移任務(wù)Fig.4 Transfer task of satellite anomaly detection model
目前主流的遷移學(xué)習(xí)方法在圖像領(lǐng)域得到廣泛的運用[11],一些經(jīng)典的CNN框架如VGG和RESNET等都公開了其預(yù)訓(xùn)練模型。在衛(wèi)星遙測異常檢測領(lǐng)域,乃至整個一維序列數(shù)據(jù)方面,目前還沒有一個公認(rèn)的經(jīng)典網(wǎng)絡(luò)架構(gòu)。因此,為了讓遷移的效果得到保證,采用1dCNN進(jìn)行遷移學(xué)習(xí)。1dCNN和圖像領(lǐng)域的CNN類似,它能夠處理高維數(shù)據(jù),提取和選擇局部特征。
根據(jù)圖4,在源域上利用衛(wèi)星A數(shù)據(jù)訓(xùn)練1dCNN的特征提取和選擇能力,然后將神經(jīng)網(wǎng)絡(luò)的部分網(wǎng)絡(luò)層遷移到目標(biāo)域衛(wèi)星B中訓(xùn)練,并通過目標(biāo)域的少量有標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào),來保證目標(biāo)域異常檢測效果。本文提出的1dCNN和cs-1dCNN的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置將在第4.2節(jié)介紹。
本文所有實驗基于pytorch1.0和python3.7.1的編程環(huán)境。實驗數(shù)據(jù)來自某兩個衛(wèi)星(分別簡稱為衛(wèi)星A和衛(wèi)星B)的同一分系統(tǒng)的部分遙測數(shù)據(jù),衛(wèi)星數(shù)據(jù)屬性已被隱藏。本實驗隨機選取衛(wèi)星A和衛(wèi)星B各100000條數(shù)據(jù)記錄。其中,異常數(shù)據(jù)皆占比4%,即4000條異常數(shù)據(jù)。不選取兩衛(wèi)星的全體數(shù)據(jù)而是抽取兩衛(wèi)星數(shù)量相同的部分?jǐn)?shù)據(jù)的原因:一方面,選取同樣數(shù)量數(shù)據(jù)方便模型從衛(wèi)星A遷移到衛(wèi)星B,以及從衛(wèi)星B遷移到衛(wèi)星A的對比;另一方面,僅部分采樣衛(wèi)星遙測數(shù)據(jù)造成采樣數(shù)據(jù)的有偏分布,可以測試本文提出的遷移模型在映射源域到目標(biāo)域上的模型性能的魯棒性。
利用本文提出的方法對衛(wèi)星遙測數(shù)據(jù)異常檢測任務(wù)遷移分為如下三個步驟:數(shù)據(jù)預(yù)處理、使用源域數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練和使用目標(biāo)域數(shù)據(jù)進(jìn)行模型微調(diào)。實施的過程如圖5所示。
圖5 基于cs-1dCNN的遷移學(xué)習(xí)異常檢測模型框架Fig.5 Frame of transfer learning anomaly detection model based on cs-1dCNN
4.2.1評價指標(biāo)
由于衛(wèi)星異常檢測任務(wù)中樣本類別的不均衡性,正常樣本數(shù)目遠(yuǎn)遠(yuǎn)多于異常樣本數(shù)目。如果簡單地使用準(zhǔn)確率作為評價指標(biāo),那些傾向于將未知樣本分類為多數(shù)類的模型會被認(rèn)為是分類能力較好的模型,因此本實驗使用多個評價指標(biāo)度量模型的優(yōu)劣。這些評價指標(biāo)為:準(zhǔn)確率、精準(zhǔn)率、召回率及F1,其值分別如式(17)、式(18)和式(19)所示:
(17)
(18)
(19)
4.2.2對比方法及網(wǎng)絡(luò)結(jié)構(gòu)
將提出的模型與一些用于異常檢測或時序數(shù)據(jù)分類任務(wù)的遷移學(xué)習(xí)方法做了詳細(xì)的比較。對比方法共包括兩種非深度學(xué)習(xí)遷移和三種深度學(xué)習(xí)遷移方法。
SVM:支持向量機是經(jīng)典的機器學(xué)習(xí)算法,廣泛應(yīng)用于諸多分類任務(wù)。參考Aytar[12]提出的基于SVM的遷移算法,將其運用于本實驗的衛(wèi)星異常檢測任務(wù)上。
GFK:Gong等[13]提出一種基于核的方法,利用這種結(jié)構(gòu)集成無窮多個子空間來模擬從源到目標(biāo)域的幾何和統(tǒng)計特性的變化,對域遷移進(jìn)行建模。
TCN:Fawaz等[14]從一個預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對模型進(jìn)行微調(diào),而不是從零開始訓(xùn)練,提升了時間序列分類任務(wù)。
1dCNN:1dCNN是本文提出的基于一維卷積網(wǎng)絡(luò)的異常檢測模型。其結(jié)構(gòu)參數(shù)設(shè)置如表2和圖6所示。
cs-1dCNN:cs-1dCNN是在1dCNN基礎(chǔ)上引入一種代價敏感損失函數(shù),旨在解決遙測數(shù)據(jù)極度不平衡對于檢測結(jié)果的影響。
為了公平地對比實驗,本文提及的三種深度學(xué)習(xí)遷移模型都采用adam優(yōu)化器,學(xué)習(xí)率都為0.001,第一階矩為0.9,第二階矩為0.999。三種遷移模型都采用不凍結(jié)任何層的方式進(jìn)行微調(diào)。對于cs-1dCNN,衛(wèi)星A和衛(wèi)星B數(shù)據(jù)集的Uover都為24。
在本文的遷移學(xué)習(xí)任務(wù)中,當(dāng)源域和目標(biāo)域分別為衛(wèi)星A和衛(wèi)星B。為了提升遷移學(xué)習(xí)的效果,將衛(wèi)星A所有數(shù)據(jù)作訓(xùn)練集,以尋找最優(yōu)的模型參數(shù)。在每一個訓(xùn)練周期開始時,先隨機地將訓(xùn)練集切分成若干批次作為模型的輸入。通過最小化損失函數(shù)對模型參數(shù)進(jìn)行訓(xùn)練,每一個訓(xùn)練代數(shù)結(jié)束后,記錄模型的參數(shù)和模型在訓(xùn)練集上的F1值,最終選取F1值最高的模型參數(shù)作為衛(wèi)星B的預(yù)訓(xùn)練模型。若源域和目標(biāo)域分別為衛(wèi)星B和衛(wèi)星A,則將衛(wèi)星B所有數(shù)據(jù)作訓(xùn)練集,其余步驟類似。
圖7展示了cs-1dCNN模型在衛(wèi)星A遙測數(shù)據(jù)上的表現(xiàn)。橫坐標(biāo)為訓(xùn)練代數(shù),縱坐標(biāo)為F1,當(dāng)epoch為46時,之后連續(xù)10個epoch的表現(xiàn)都沒有提高。因此認(rèn)為模型參數(shù)在這一代已經(jīng)達(dá)到最優(yōu)。
表2 網(wǎng)絡(luò)1dCNN的參數(shù)Table 2 Parameters of 1dCNN
表3展示了各種模型從源域衛(wèi)星A遷移到目標(biāo)域衛(wèi)星B時,在異常檢測任務(wù)上的表現(xiàn)。表4展示了從源域衛(wèi)星B遷移到目標(biāo)域A時,各模型的表現(xiàn)。其中,采用5%的目標(biāo)域衛(wèi)星數(shù)據(jù)來微調(diào)三種深度學(xué)習(xí)預(yù)訓(xùn)練模型。而對于SVM和GFK兩種傳統(tǒng)模型,將5%的目標(biāo)域有標(biāo)簽數(shù)據(jù)與源域中有標(biāo)簽數(shù)據(jù)一起訓(xùn)練。剩余的95%數(shù)據(jù)作為測試集。針對樣本的不平衡分布,為了避免隨機性帶來的負(fù)遷移,抽取的方式按正負(fù)樣本比例1∶24抽取,隨機抽取20次取平均表現(xiàn)結(jié)果。
圖6 1dCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Architecture of 1dCNN
圖7 選擇最優(yōu)模型Fig.7 Choose the best model
表3 衛(wèi)星A遷移到衛(wèi)星B的異常檢測結(jié)果表現(xiàn)Table 3 Performance of anomaly detection when transferring from satellite A to satellite B
表4 衛(wèi)星B遷移到衛(wèi)星A的異常檢測結(jié)果表現(xiàn)Table 4 Performance of anomaly detection when transferring from satellite B to satellite A
通過比較表3和表4的結(jié)果不難發(fā)現(xiàn),本文提出的cs-1dCNN模型在多個指標(biāo)上優(yōu)于其他算法,具有更好的可遷移性。
在所有的實驗結(jié)果中,若僅看準(zhǔn)確率指標(biāo),所有的模型均取得了不錯的結(jié)果。這是由于衛(wèi)星遙測數(shù)據(jù)樣本極度不平衡導(dǎo)致的指標(biāo)失效,準(zhǔn)確率指標(biāo)無法體現(xiàn)更注重的異常樣本的分類結(jié)果。因此,在評價體系中添加了精準(zhǔn)率、召回率和F1這三種指標(biāo)來度量模型對異常樣本的檢測情況。
在所有的比較方法中,非深度學(xué)習(xí)方法,如遷移模型SVM和GFK的異常檢測結(jié)果較差,其F1值未能達(dá)到60%。尤其是GFK模型,在進(jìn)行遷移的過程中涉及到矩陣分解,在使用小樣本(僅5%目標(biāo)域數(shù)據(jù))進(jìn)行訓(xùn)練時,導(dǎo)致采樣失衡,效果很不理想。
對于三種基于深度學(xué)習(xí)的遷移模型,無論在衛(wèi)星A遷移到衛(wèi)星B,還是衛(wèi)星B遷移到衛(wèi)星A,異常檢測的效果都不錯(F1高于70%),均遠(yuǎn)優(yōu)于SVM和GFK模型。TCN和提出的1dCNN和cs-1dCNN模型,通過卷積核能夠提取遙測數(shù)據(jù)的中間特征。這些特征如圖3展示,往往能夠輔助異常檢測任務(wù),并且易于在相似的任務(wù)之間實現(xiàn)模型的遷移。
對于提出的1dCNN模型,從衛(wèi)星A遷移到衛(wèi)星B的異常檢測任務(wù)上,要比TCN模型的F1值高出3.7%,在衛(wèi)星B遷移到衛(wèi)星A任務(wù)上僅高出0.08%。TCN是當(dāng)前時序數(shù)據(jù)分類中前沿的模型,所構(gòu)建的1dCNN已經(jīng)能與之性能相近,在本實驗中略勝于它。總體來講,設(shè)計的1dCNN網(wǎng)絡(luò)結(jié)構(gòu)更深層次地提取了遙測數(shù)據(jù)的中間特征,更適合異常檢測任務(wù)。
盡管1dCNN和TCN模型已經(jīng)取得了不錯的分類效果,但它們的綜合表現(xiàn)依然不及引入代價敏感訓(xùn)練策略的cs-1dCNN模型。對于衛(wèi)星異常檢測而言,更應(yīng)該關(guān)注在準(zhǔn)確率不受影響的前提下,對異常樣本的識別。因此,進(jìn)一步觀察召回率和F1值這兩個能反映模型識別衛(wèi)星異常數(shù)據(jù)(不平衡類別中處于少量)的指標(biāo)。在1dCNN引入代價敏感分類策略后,可明顯觀察到召回率的大幅提升。提出的代價敏感策略,通過動態(tài)調(diào)整異常樣本訓(xùn)練時損失函數(shù)權(quán)重,能解決數(shù)據(jù)不平衡問題,并且能應(yīng)用于遷移模型。
為了研究目標(biāo)域的有標(biāo)簽數(shù)據(jù)量對模型異常檢測效果的影響,在微調(diào)預(yù)訓(xùn)練模型時,依次增加目標(biāo)域有標(biāo)簽數(shù)據(jù)的數(shù)量。以任務(wù)衛(wèi)星A遷移到衛(wèi)星B為例,圖7展示了當(dāng)目標(biāo)域的有標(biāo)簽數(shù)據(jù)分別占比為5%,10%,15%,20%時,TCN,1dCNN和cs-1dCNN的表現(xiàn)結(jié)果。
由圖7可知,隨著目標(biāo)域有標(biāo)簽樣本數(shù)量增加,TCN,1dCNN和cs-1dCNN模型在召回率和F1兩種指標(biāo)上都有提升。雖然三種模型的F1綜合指標(biāo)逐漸接近,但是cs-1dCNN仍領(lǐng)先另外兩種模型約5%。在樣本量從5%提升到20%時,三種模型的召回率分別提升了3.29%,3.62%和2.31%。但是,前兩種模型仍與cs-1dCNN有著約10%的差距。由此可見,采用代價損失訓(xùn)練策略可以很好地提升分類器對異常樣本的分類效果,這對樣本不平衡的遙測數(shù)據(jù)異常檢測任務(wù)尤其關(guān)鍵。
圖8 不同數(shù)量的有標(biāo)簽數(shù)據(jù)下異常檢測結(jié)果Fig.8 Anomaly detection results in different quantities of labelled data
針對衛(wèi)星遙測數(shù)據(jù)樣本分布不平衡和缺乏有標(biāo)簽的問題,提出一種代價敏感的一維卷積網(wǎng)絡(luò)模型,并對模型進(jìn)行遷移,解決了有標(biāo)簽數(shù)據(jù)不足情況下的衛(wèi)星遙測數(shù)據(jù)異常檢測問題。采用一維卷積核獲取衛(wèi)星高維數(shù)據(jù)的局部序列視野,并且能夠提取出異常序列數(shù)據(jù)片段的顯著特征。引入代價敏感訓(xùn)練策略,在每個訓(xùn)練批次內(nèi)動態(tài)修改交叉熵?fù)p失函數(shù),這樣不僅考慮了整體的樣本不平衡,也考慮了局部小批量訓(xùn)練上的不平衡。實驗證明提出的方法能夠解決小樣本不平衡衛(wèi)星遙測數(shù)據(jù)的異常檢測。
本文提出的衛(wèi)星遙測數(shù)據(jù)異常檢測模型目前僅在不同衛(wèi)星同一分系統(tǒng)之間的遷移。在未來的工作中,考慮研究不同衛(wèi)星不同分系統(tǒng)構(gòu)成的源域和目標(biāo)域之間的模型遷移。此外,如何衡量衛(wèi)星分系統(tǒng)遷移的可行性,避免負(fù)遷移對異常檢測效果造成影響,也是一個值得研究的內(nèi)容。