王 璐,溫顯斌
(天津理工大學 計算機科學與工程學院,天津 300384)
合成孔徑雷達(synthetic aperture radar,SAR)通過發(fā)送電磁波、雷達天線收集、數(shù)字化和存儲反射回波后形成圖像,即SAR圖像[1]。SAR圖像不受時間、天氣等因素影響,能在不同頻段和不同極化條件下得到高分辨率雷達圖像,在災(zāi)害預(yù)警、環(huán)境監(jiān)測、資源勘查、測繪和軍事等方面具有不可替代的優(yōu)勢。
近年來深度學習的發(fā)展日新月異,越來越多的深度學習方法被用來解決SAR圖像自動目標識別。MORI[2]利用譜聚類方法來得到超像素分割算法,PEI等[3]提出了多視圖深度學習(multiview deep learning framework)方法。
使用卷積網(wǎng)絡(luò)解譯圖像也存在著很多不足:由于卷積網(wǎng)絡(luò)中池化層的采用和標量神經(jīng)單元激活的限制,卷積網(wǎng)絡(luò)無法學習圖像數(shù)據(jù)中的空間層級信息,同時卷積網(wǎng)絡(luò)在計算過程中雖然能保留圖像對象的不變性,但卻失去了對象的同變性,這導致卷積網(wǎng)絡(luò)無法識別圖像內(nèi)對象之間的相對位置關(guān)系,從而影響了網(wǎng)絡(luò)對圖像的理解能力。SAR圖像由于其成像的特殊性具有很強的結(jié)構(gòu)信息,因此使用卷積網(wǎng)絡(luò)進行SAR圖像解譯效果差強人意。
SABOUR等[4]提出了膠囊網(wǎng)絡(luò),一方面,該網(wǎng)絡(luò)使用向量(膠囊)神經(jīng)元作為網(wǎng)絡(luò)的基本數(shù)據(jù)單元,相比于卷積網(wǎng)絡(luò),它表示的信息更加豐富,具有更大的容量。另一方面,膠囊網(wǎng)絡(luò)舍棄了池化層,并由動態(tài)路由算法取代。攜帶圖像信息的膠囊從底層向高層通過路由方法傳導,在保持其自身屬性不變(如旋轉(zhuǎn)角度,位移,尺寸等)的同時,還保持空間層級信息的不變。最后,膠囊網(wǎng)絡(luò)中的解碼網(wǎng)絡(luò)可以使重建的圖像不僅能保留原始圖像的圖形,而且還能保留圖形之間的相對空間關(guān)系。
當前用于研究SAR圖像自動目標識別(auto target recognition,ATR)的圖像是美國國防高級研究計劃署和空軍研究室提供的MSTAR圖像,采集該數(shù)據(jù)集的傳感器為高分辨率的聚束式SAR。MSTAR數(shù) 據(jù) 集 含 有2S1、BMP2、BRDM2、BTR70、BTR60、D7、T62、ZIL131、ZSU234、T72
等10類目標不同俯仰角的SAR圖像數(shù)據(jù)。本文使用MSTAR數(shù)據(jù)集中標準操作條件(standard operating conditions,SOC)下的數(shù)據(jù)集,SOC數(shù)據(jù)集中將俯仰角為17°的圖像作為訓練集,共有2 747張,將俯仰角為15°的目標作為測試集,共有2 426張。MSTAR數(shù)據(jù)集中10類光學圖像與SAR圖像對比如圖1所示。
圖1 MSTAR數(shù)據(jù)集中10類光學圖像與SAR圖像對比圖Fig.1 Comparison of optical images and SAR images in the MSTAR data set
MSTAR數(shù)據(jù)集較小,且SAR圖像固有的灰度性和紋理性構(gòu)成其較強的結(jié)構(gòu)信息。膠囊神經(jīng)網(wǎng)絡(luò)使用向量作為基本神經(jīng)元,網(wǎng)絡(luò)層數(shù)淺,能最大限度地保留圖像結(jié)構(gòu)信息和空間層級信息,保留了圖像的同變性。因此本文選擇膠囊神經(jīng)網(wǎng)絡(luò)作為圖像分類的基本框架,完成SAR圖像目標識別。
本文網(wǎng)絡(luò)架構(gòu)較淺,包含2個卷積層和1個完全連接層,網(wǎng)絡(luò)模型圖如圖2所示。
圖2 網(wǎng)絡(luò)模型圖Fig.2 Network model diagram
首先,分兩步對圖像進行預(yù)處理,即灰度化和雙線性插值,然后將圖像送入網(wǎng)絡(luò)中。本文網(wǎng)絡(luò)結(jié)構(gòu)中第1層是卷積層,Conv1有256個卷積核為9×9、步長為1的卷積單元,使用ReLU激活函數(shù)。這一層將像素強度轉(zhuǎn)換為局部特征探測器的活動,然后將其用作初級膠囊的輸入。通常將實例化的部分拼湊成熟悉的整體,而在膠囊網(wǎng)絡(luò)中初級膠囊是多維實體的最底層,從反圖形的角度來看,激活初級膠囊相當于反相呈現(xiàn)的過程。第2層初級膠囊層(primary capsules layer)是卷積膠囊層,共含有32個初級膠囊,初級膠囊是一個8維膠囊,即每個初級膠囊有32個卷積通道,每個通道中都含有一個8維膠囊(即每個初級膠囊含有8個卷積核為9×9、步長為2的卷積單元)。每個初級膠囊的輸出中包含256×81個Conv1單元的輸出信息,這些單元的接受野與膠囊中心位置重疊。在整個初級膠囊層中共有32×6×6個膠囊輸出(每個輸出是一個8維向量),每個膠囊在6×6的網(wǎng)格中共享權(quán)重。最后一層是主膠囊層(main layer),共有10個SAR圖像類別,每個類有1個16維膠囊,這些膠囊接收來自前面層中所有膠囊的輸入。
主膠囊層中每個膠囊的活動向量的長度表示每個類的實例的存在,并用于計算分類損失。在主膠囊層中,重構(gòu)SAR圖像,重構(gòu)譯碼器模型圖如圖3所示。
圖3 重構(gòu)譯碼器模型圖Fig.3 Reconstruction of the decoder model diagram
在訓練過程中,將圖像與信號層輸入的歐氏距離最小化,使用真實標簽作為重建目標。初級膠囊層中,Wij是每個ui(膠囊輸出)之間的權(quán)重矩陣,i∈(1,32×6×6),j∈(1,10)。在2個連續(xù)的膠囊層之間進行路由,Conv1與初級膠囊層之間因輸出維度不同不進行路由。所有的路由日志(bij)初始化為零。因此,最初將一個膠囊輸出(ui)以相等的概率(cij)發(fā)送給所有的父膠囊(v0,…,v9)。
在初級膠囊層和主膠囊層之間的路由過程中,使用一個如式(1)所示的非線性“壓縮”函數(shù)來確保短向量縮小到幾乎為零的長度,長向量縮小到略低于1的長度,并利用判別式來充分學習它的非線性。這個函數(shù)的特點是在模長很接近于0時起到放大作用,而不像原來的函數(shù)那樣全局都壓縮。
式中,vj為膠囊j的向量輸出,sj為其總輸入。sj的計算公式為:
除了第1層膠囊外,所有膠囊sj的總輸入是所有預(yù)測向量的加權(quán)和,來自下面層中的膠囊,是通過將下面層中的膠囊的輸出ui乘以權(quán)重矩陣Wij產(chǎn)生的,其計算方法為:
式中,cij為耦合系數(shù),由迭代動態(tài)路由過程確定。
膠囊i與上述主膠囊層中所有膠囊的耦合系數(shù)之和為1,由一個“路由softmax”確定,bij初始值是膠囊i耦合到膠囊j的對數(shù)先驗概率,cij的計算公式為:
對數(shù)先驗可以和其他權(quán)值一樣有區(qū)別地學習,通過測量膠囊i和膠囊i預(yù)測出的膠囊j之間的一致性來迭代地改進初始耦合系數(shù),該一致性用數(shù)積來表示。在計算將膠囊i與更高級別膠囊連接的所有耦合系數(shù)的新值之前,該協(xié)議被視為對數(shù)似然,并被添加到bij初始值中。動態(tài)路由算法表如表1所示。
表1 動態(tài)路由算法表Tab.1 Dynamic routing algorithm table
本文使用實例化向量的長度來表示膠囊實體存在的概率,使用一個單獨的邊緣損失函數(shù),其公式為:
式中,Lk為每個數(shù)字膠囊,正確分類時Tk=1,m+=0.95,m-=0.05,λ=0.5。λ降低了缺少數(shù)字類時停止初始學習以縮小所有數(shù)字膠囊的活動向量的長度的損失,總損失是所有數(shù)字膠囊損失的總和。
本文實驗使用SOC數(shù)據(jù)集,標準操作條件且訓練集和測試集中目標圖像僅俯仰角和方位角不同,SOC數(shù)據(jù)集目標類別、型號與數(shù)量表如表2所示。
表2 SOC數(shù)據(jù)集目標類別、型號與數(shù)量表Tab.2 Target category,model and number of SOC data set
SOC數(shù)據(jù)集主要用來驗證識別網(wǎng)絡(luò)的準確性,其訓練損失圖如圖4所示,測試損失圖如圖5所示,測試準確率圖如圖6所示。
圖4 訓練損失圖Fig.4 Training loss diagram
圖5 測試損失圖Fig.5 training loss diagram
圖6 測試準確率圖Fig.6 Test accuracy diagram
SOC數(shù)據(jù)集下識別結(jié)果混淆矩陣如表3所示。
表3 SOC數(shù)據(jù)集下識別結(jié)果混淆矩陣表(識別率:99.38%)Tab.3 Confusion matrix of recognition results in SOC data set(Recognition rate:99.38%)
將本文提出的膠囊-SAR ATR方法與其他7種SAR ATR算法進行比較,這些方法分別是支持向量機(support vector machine,SVM)[5]、自適應(yīng)升力(adaptive boosting,AdaBoost)[6]、條 件 高 斯 模 型(conditional gaussian models,CGM)[7]、迭代圖增厚(iterative graph thickening,IGT)[8],以及最近發(fā)布的3種基于卷積神經(jīng)網(wǎng)絡(luò)的方法:全卷積神經(jīng)網(wǎng)絡(luò)(all-convolutional neural network,A-ConvNet[9]、基于高速單元深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional highway unit network,DCHUN)[10]、基于遷移學習的卷積神經(jīng)網(wǎng)絡(luò)(transfer learning with convolutional neural network,CNN-TL)[11],SOC下不同方法的比較表如表4所示。
由表4可知,對于傳統(tǒng)方法SVM、AdaBoost、IGT和CGM進行SAR圖像識別,由于無法完整提取圖像特征,從而導致識別精度較低?;诰矸e神經(jīng)網(wǎng)絡(luò)的方法A-ConvNet、DCHUN和CNN-TL通過訓練圖像大幅提升了識別精度,但是網(wǎng)絡(luò)結(jié)構(gòu)一般較為復雜,參數(shù)量大。而本文提出的基于膠囊神經(jīng)網(wǎng)絡(luò)的識別方法通過訓練同一個數(shù)據(jù)集,得到了更高的準確率。膠囊神經(jīng)網(wǎng)絡(luò)對于小樣本數(shù)據(jù)集具有更加明顯的優(yōu)勢,保證參數(shù)量在合理的范圍內(nèi),更加充分地提取圖像信息,尤其適合SAR圖像這種對結(jié)構(gòu)信息敏感的圖像,因此膠囊在提取特征方面的魯棒性和路由算法的有效性使得識別精度有了提升。
表4 SOC下不同方法的比較表Tab.4 Comparison table of different methods in SOC
本文采用膠囊神經(jīng)網(wǎng)絡(luò)作為目標識別的基本網(wǎng)絡(luò)架構(gòu),有效保留了SAR圖像的同變性和結(jié)構(gòu)信息,充分學習了SAR圖像的圖像特征并準確識別。通過理論分析與實驗驗證發(fā)現(xiàn),該方法與其他方法相比,網(wǎng)絡(luò)結(jié)構(gòu)簡單、參數(shù)量小、準確率高。由于本文的訓練集過少,訓練效果仍有提升的空間,今后希望可以借助生成對抗網(wǎng)絡(luò)等方式生成更多可供訓練的樣本,進一步提升SAR圖像目標識別的準確性。同時,對于擴展操作條件下的SAR數(shù)據(jù)集,本文提出的方法的識別精度并不理想,希望在后續(xù)的科研工作中能夠提出一種泛化能力更強的方法,以便在不同的SAR圖像數(shù)據(jù)集中均能取得較高的識別精度。