康 妙計科峰*冷祥光邢相薇鄒煥新
①(國防科學技術大學電子科學與工程學院 長沙 410073)
②(北京市遙感信息研究所 北京 100192)
基于棧式自編碼器特征融合的SAR圖像車輛目標識別
康 妙①計科峰*①冷祥光①邢相薇②鄒煥新①
①(國防科學技術大學電子科學與工程學院 長沙 410073)
②(北京市遙感信息研究所 北京 100192)
該文提出了一種基于棧式自編碼器(Stacked AutoEncoder,SAE)特征融合的合成孔徑雷達(Synthetic Aperture Rader,SAR)圖像車輛目標識別算法。首先,該算法提取了SAR圖像的25種基線特征(baseline features)和局部紋理特征(Three-Patch Local Binary Patterns,TPLBP)。然后將特征串聯輸入SAE網絡中進行融合,采用逐層貪婪訓練法對網絡進行預訓練。最后利用softmax分類器微調網絡,提高網絡融合性能。另外,該文提取了SAR圖像的Gabor紋理特征,進行了不同特征之間的融合實驗。結果表明基線特征與TPLBP特征冗余性小,互補性好,融合后的特征區(qū)分性大。與直接利用SAE,CNN (Convolutional Neural Network)進行目標識別的算法相比,基于SAE的特征融合算法簡化了網絡結構,提高了識別精度與識別效率?;贛STAR數據集的10類目標分類精度達95.88%,驗證了算法的有效性。
SAR;目標識別;特征融合;棧式自編碼器;MSTAR
在合成孔徑雷達(Synthetic Aperture Rader,SAR)圖像目標識別應用中,單一特征難以全面描述目標特性,達到較高的識別精度。SAR圖像的特征級融合不僅可以增加圖像的特征信息,進行綜合分析及融合處理,而且能有效綜合各特征之間的優(yōu)勢獲得目標更全面的特征表達,最大程度降低訓練學習的復雜性。不同的特征組合對特征融合的影響不同,為提高識別的準確率和效率,需要針對SAR目標識別的具體問題選取最有效的識別特征。研究表明[1],在分類識別過程中,人的視覺系統(tǒng)會自動提取圖像的局部區(qū)域信息和全局結構信息,并對全局和局部信息進行融合。因此,在計算機視覺領域,很多學者探究了全局特征與局部特征的融合在人臉識別、場景分類、目標識別等各個方面的有效性[2–4]。目前,用于SAR目標識別的特征融合算法主要分為3類[5]:第1類是特征組合的方法,即按一定的權值將特征串接或并聯成新的特征向量[6,7];第2類是特征選擇,利用各種優(yōu)選方法,選擇最優(yōu)的特征組合,得到區(qū)分度更好的低維特征[8];第3類是特征變換,將原始特征變換為新的特征表達方式[9]。傳統(tǒng)的特征融合方法融合效率較低,融合后的特征冗余性較大,區(qū)分性不高。
棧式自編碼器[10](Stacked AutoEncoder,SAE)是一種無監(jiān)督的學習網絡,能通過非線性的簡單模型將原始數據轉化為更為抽象的表達,再利用最優(yōu)化的學習算法,實現有效的特征融合?;赟AE的特征融合,能充分減少特征之間的冗余,綜合特征之間的互補信息。另外,SAE結構相對簡單,能有效適應SAR圖像快速解譯的需求,在樣本較少的情況下訓練得到的網絡泛化能力更強。因此,在特征融合方面具有高效、魯棒的特點。目前,很多學者已經在這方面做了研究,文獻[11]利用灰度共生矩陣和Gabor小波變換提取SAR圖像的紋理特征,利用SAE對紋理特征進行融合優(yōu)化,提取出更高層的特征。但由于同一圖像的紋理特征之間冗余性較大,因而融合后信息量增加較小,融合效果提高不明顯。文獻[12]中利用主成分分析(Principal Components Analysis,PCA)對高光譜圖像的空間特征降維后,再利用SAE將光譜信息與空間特征進行融合,從而達到了較好的分類效果。由于光譜信息未進行處理,因此特征的維度較高,網絡結構較復雜。文獻[13]采用多層自編碼器提取SAR目標和陰影輪廓特征,并融合送入協(xié)同神經網絡(Synergetic Neural Network,SNN)進行識別,提升了分類精度。該算法需要分割目標陰影區(qū)域,預處理較復雜。
本文針對SAR圖像的目標識別問題,提取了SAR圖像的全局基線特征和TPLBP(Three-Patch Local Binary Patterns)局部紋理特征。一方面,基線特征在提取目標幾何特征參數時,將圖像進行了二值化處理,能有效減少相干斑噪聲的影響,但舍棄了大量的SAR圖像灰度信息。而SAR圖像的灰度值能反映目標在結構、粗糙度和物理特性上的差異。TPLBP特征通過對比局部區(qū)域內SAR圖像的灰度值得到圖像的紋理特性,能有效彌補基線特征灰度信息的缺失。同時,TPLBP特征通過對比圓形模塊之間的紋理特征,能有效應對幾何結構特征對方位角變化敏感的問題。另一方面TPLBP在提取特征的過程中,對目標像素和背景像素進行相同的特征提取步驟,對目標特性的描述不夠細致,而基線特征綜合了多種幾何結構參數,針對SAR目標區(qū)域的特性進行具體描述。因此,兩種特征能實現特征之間的優(yōu)勢互補,在維度較低的情況下,較為全面的描述SAR圖像特征。利用SAE對兩種特征進行融合,能有效綜合特征之間的優(yōu)勢,SAE的無監(jiān)督學習算法,在樣本較少的情況下,能有效防止網絡出現過擬合現象,得到更有效的深度融合特征。
為選取冗余性小,互補性大的融合特征,本文提取了SAR圖像的100維基線特征與128維的TPLBP (Three-Patch Local Binary Patterns)局部紋理特征?;€特征利用Fisher score[14,15]的方法對SAR圖像的幾何形狀特征進行選擇,將最有效的幾何形狀特征組成圖像的基線特征。TPLBP紋理特征則利用圖像區(qū)域之間LBP碼值對比,有效刻畫了SAR圖像目標的局部紋理特性。
2.1 基線特征
基線特征[16]是SAR圖像目標的幾何形狀特征參數的集合,能細致描述目標的結構特性。對于復值SAR圖像中(x,y)位置的像素點其幅值可表示為其中i(x,y)和q(x,y)分別為復值SAR圖像的實部和虛部。對像素點的幅值能量檢測,如式(1)所示。
為減少相干斑噪聲的影響,利用Kapur等人[17]提出的基于熵的自適應門限,得到二值化的圖像,通過形態(tài)學的膨脹[18],去除圖像區(qū)域內部非連通的部分。最后提取出膨脹后的二值圖像或原始二值圖像的幾何形狀特征,組成一個多維度的基線特征,如圖1所示。
再利用Fisher score衡量特征之間的類間與類內距離,對提取出的多個特征進行排序,選擇區(qū)分性最好的25種特征,組成100維的基線特征向量。具體特征見表1。
表1 基線特征Tab. 1 The selected baseline features
圖2為提取的MSTAR數據庫中BMP2的SAR切片的部分特征。圖中從左至右分別為能量檢測后的SAR切片、二值圖像和膨脹后的二值圖像。同時,圖像目標區(qū)域的質心、邊界矩形、極值和重心分別用藍、紫、綠和紅在圖中標出。
2.2 TPLBP特征
由于結構、粗糙度和物理特性的不同,目標對雷達回波的反射能力差異較大,在SAR圖像中產生豐富的紋理信息。SAR圖像紋理反映的目標信息隨目標方位角的變化不大,因此可以利用紋理特征進行目標識別。局部二值模式(Local Binary Patterns,LBP)是一種簡單有效的局部紋理提取算子,具有灰度不變性和旋轉不變性,能有效的利用圖像的空間信息,充分反映圖像的局部空間相關性。
傳統(tǒng)的LBP算子定義為在3×3的窗口內,以窗口中心像素灰度值為閾值,將相鄰的8個像素的灰度值與其進行比較,若周圍像素值大于中心像素值,則該像素點的位置被標記為1,否則為0。這樣,3×3鄰域內的8個點可產生8 bit的無符號數,即得到該窗口的LBP值,并用這個值來反映該區(qū)域的紋理信息。圖3為MSTAR數據庫中目標切片的LBP值的計算過程。受鄰域大小的限制,LBP算子不能描述大尺度的紋理信息,另外原始的LBP算子不具有旋轉不變性。因此不適合描述多方位角的SAR圖像目標。
Wolf等[19]對LBP算子進行了改進,提出了三斑塊局部二值模式 (TPLBP)。首先,對于圖像中的每個像素點,以該像素點為中心得到一個w×w大小的模塊Cp,以該模塊為中心,在距離半徑為r的范圍內,生成S個同等大小的模塊,每個模塊的中心像素點均通過LBP算法生成相應的LBP碼值。如圖4所示,選取MSTAR數據庫中SAR切片的某像素值作為中心點,當S=8,ω=3,a=2時,得到S個模塊的LBP值。
從S個模塊中取出圓周上間隔a個模塊的兩個模塊,將其中心像素點LBP碼值與中心模塊的中心像素點LBP碼值進行相似度計算。
然后,將兩模塊與中心模塊的中心像素點得到的相似度進行差值計算,從而得到一組二進制串,將其加權計算得到相應的TPLBP碼值,其定義如下:
其中,本文中設定τ=0.01。根據式(2)計算得到圖像中每個像素點的TPLBP碼值。然后將整幅圖像分割成非重疊的同等大小的矩形窗(B×B),并計算每個矩形窗中各TPLBP碼值的頻率值,即TPLBP碼值的統(tǒng)計直方圖。最后,將每個矩形窗的直方圖向量串聯形成整幅圖像的TPLBP特征向量。
TPLBP算子將像素間的灰度對比變?yōu)槟K之間的LBP值的比較,描述了鄰域模塊LBP編碼之間的相互關系,因而能有效抑制SAR相干斑噪聲的影響。圓形區(qū)域內的模塊選取使提取出的特征具有旋轉不變性,能有效克服幾何結構特征對方位角變化敏感的問題。另外參數r的選取使得TPLBP能夠對比不同尺度的區(qū)域內的紋理特征值,克服了LBP只能提取局部紋理特征的缺點,能更有效的描述大尺度的SAR圖像的紋理特征。
為提取基線特征和TPLBP特征之間的互補信息,實現特征之間的優(yōu)勢互補,本文采用了棧式自編碼器和softmax分類器對特征進行融合分類。為使網絡達到更好的融合效果,利用逐層貪婪訓練法對SAE網絡進行預訓練,再利用softmax分類器對網絡進行微調。
3.1 棧式自編碼器
自編碼人工神經網絡是一種無監(jiān)督的學習網絡,由3層網絡組成,輸入層和隱層組成編碼器,將輸入信號x編碼轉換為a。隱層和輸出層之間構成解碼器,將編碼a變換為輸出信號y。如圖5(a)所示,即
其中,xi和yi分別表示自編碼器第i個樣本的輸入和輸出,表示第l層第i單元與第l+1層第j單元之間的連接權值,b表示偏置項,nl和sl分別表示網絡層數和第l層的神經元數。公式第1項是一個均方差項,第2項是一個正則化項(也叫權重衰減項),其目的是減小權重的幅度,防止過度擬合。正則化可以視作一種能夠折中考慮小權值和最小化原來代價函數的方法。兩個要素的相對重要性由λ的值決定。
為了實現網絡稀疏性限制,需要在優(yōu)化目標函數中加入一個額外的稀疏懲罰因子,從而使得隱藏神經元的平均活躍度保持在較小范圍內。稀疏后的代價函數為:
其中β是控制稀疏性懲罰因子的權重,利用后向傳播算法,計算代價函數的偏導數,最后利用批量梯度下降法迭代更新參數W和b來求解模型的最優(yōu)解。
將前一層稀疏自編碼器的輸出作為其后一層自編器的輸入,多層稀疏自編碼器可組成棧式自編碼器。如圖5(b)所示。
采用逐層貪婪訓練法進行訓練,即在訓練某一層的參數時,將其它各層參數保持不變,逐層訓練。為得到更好的結果,預訓練過程完成之后,利用softmax分類器,對SAE進行微調。通過計算概率:
其中θj為參數向量,輸入xi所屬類別為概率最大的類別。利用softmax的分類結果與輸入樣本的標簽,構建分類器的代價函數,通過反向傳播算法,微調網絡的權值,訓練得到最優(yōu)的模型參數θ。微調過程利用全局監(jiān)督,使網絡進而收斂至全局最小解。因此棧式自編碼具有強大的特征表達能力,能更好的學習到輸入的特征中的深層特征。與隨機初始化網絡參數相比,棧式自編碼器通過無監(jiān)督的預訓練過程,使網絡參數初始化至容易收斂的值,相當于暗示了隱含層需要學習的內容,再引入稀疏性,防止網絡過擬合,提高了網絡的泛化能力。
3.2 融合框架
本文提出的特征融合框架主要分為三大部分,如圖6所示。
(1) 特征提取
首先,提取圖像的幾何形狀參數,得到100維的基線特征。再統(tǒng)計SAR圖像的TPLBP碼值的直方圖,將直方圖串接成SAR圖像的128維紋理特征向量。將基線特征和紋理特征串聯成特征向量。
(2) 特征融合
將得到的串聯向量作為SAE的輸入,利用SAE,融合原始特征中的互補信息,去除冗余信息。采用逐層貪婪訓練法,預訓練網絡。
(3) 分類
預訓練結束后,再利用帶標簽的訓練數據,將SAE得到的融合特征送入softmax分類器進行分類,根據分類結果與數據標簽之間的距離,利用反向傳播算法對網絡權值進行微調,得到訓練好的網絡。最后對測試樣本提取特征,送入網絡進行分類,得到識別結果。
為驗證算法的有效性,本文在MSTAR數據集上做了10類目標的識別實驗。該數據集是美國預先研究計劃局和空軍實驗室(DARPA/AFRL)聯合資助的面向SAR自動目標識別的公測數據集。利用X波段、HH極化方式聚束式合成孔徑雷達采集而來,分辨率為0.3 m×0.3 m。圖像大小主要有128×128像素、129×128像素、158×158像素等。該數據集包括BMP2,BRDM2,BTR60,BTR70,D7,T62,T72,ZIL131,ZSU234,2S1等10類軍事目標(見圖7),每類目標樣本均包含方位角間隔1°的樣本數據。本文分別選取了17°和15°俯仰角的SAR圖像作為訓練樣本和測試樣本。具體數據見表2。
表2 10類目標訓練、測試樣本數Tab. 2 Number of training samples and test samples
實驗設置:根據文獻[2]TPLBP算子的參數設為S=8,ω=3,a=1,r=12,τ=0.01,B=64,提取出圖像的128維TPLBP特征,再與提取的100維基線特征串聯,得到228維的特征向量,送入含兩個隱層的SAE中進行特征融合,再利用softmax分類器對網絡進行微調,最后利用融合特征分類。本文所有算法均在2.6 GHz CPU,8 G內存的條件下,使用Matlab R2014a編程實現。
4.1 SAE網絡結構對實驗結果的影響
神經網絡在訓練中,容易出現“過擬合”和“欠擬合”的問題。網絡結構太復雜,網絡會將噪聲當作信號一起擬合時,網絡產生較大的方差,此時網絡產生“過擬合”。若需要學習復雜的樣本,而網絡結構又過于簡單時,網絡將“欠擬合”。因此本文研究了棧式自編碼器結構對網絡性能的影響。
在訓練樣本一定的情況下,網絡神經元數目越多,網絡結構越復雜,“過擬合”現象越容易產生。因此,在達到相當精度的情況下,網絡的層數越少越好。我們選擇含兩個隱層的自編碼器進行特征融合,深入探究各層神經元數目對網絡泛化能力的影響。
施彥[20]等人指出,為防止網絡“過擬合”,一般來說網絡隱層神經元的數目與輸入層和輸出層數目之和相當比較合適,本文中原始輸入特征為228維,因此輸入層的數目為228,輸出層數目為10。因此設SAE兩個隱層的神經元的數目分別為L1,L2,其
權重衰減參數λ用于控制代價函數中均方差項和權重衰減項的相對重要性,當λ較小時,網絡偏好最小化原本的代價函數,而λ較大時網絡偏好更小的權值。本文取較小的λ值使網絡均方差項占的比例更多,權重衰減項的作用較小。稀疏性參數ρ通常是一個接近于0的較小的值,使網絡能獲得更好的泛化能力。參數β用于控制稀疏性懲罰因子的權重,β越大,網絡越稀疏。因此,設置參數如下ρ=0.1,β=3,λ=5e–4。
設置相同的網絡參數,將相同的特征數據輸入網絡,改變自編碼器兩個隱層神經元數目L1,L2的值,記錄分類精度。為保證實驗結果的準確性,對于L1,L2的每一組取值,將網絡訓練和測試過程進行5次,取平均分類精度作為最終的實驗結果。結果如圖8。
由結果可知,自編碼器各層神經元個數對網絡性能有很大影響。當第2個隱層的神經元數目L2固定時,分類準確度隨第1個隱層神經元的數目L1變化而變化,當L1取值在250附近時,網絡分類性能較好。同理,當L1固定時,L2取值160附近時,網絡性能較好。當L1=250,L2=160時,SAE融合得到的特征識別精度最高,達95.878%。從圖中我們也可以發(fā)現,網絡性能隨L1的變化起伏較L2而言更大,也就是說,第1個隱層數目對特征融合效果的影響較大。當特征輸入棧式自編碼器時,若第1個隱層對數據的重構誤差較大,則這種誤差將會在網絡中累積,因此,網絡的第1個隱層神經元數目取得相對多時,能增加其對輸入數據的擬合程度,有效提升網絡整體的性能。另外,在樣本數量一定的情況下,網絡神經元的數目并不是越多網絡性能越好。隨著神經元的增加,網絡模型的參數會增多,網絡參數的自由度增大,更有可能導致網絡過擬合。
4.2 SAE特征融合前后對比實驗
為探究基于SAE特征融合的算法有效性,本實驗分別提取了MSTAR數據集中17°俯仰角的SAR切片目標的100維基線特征與128維TPLBP特征。將特征串聯成228維向量后與SAE融合特征進行比較。利用文獻[21]中提出的t分布的隨機鄰域嵌入(tdistributed stochastic neighbor embeddingt-SEN)將串聯特征和融合特征可視化,可以在2維空間中得到特征的分布,結果如圖9。
從特征分布圖中可以看出,串聯后的特征在2維空間中存在類間混疊,類內分散。對于外形結構相似性大的目標,如BMP2,BTR70,T72,BRDM2,BTR60這5類目標,串聯特征在2維空間中的混疊程度較大,區(qū)分性較差。而經過棧式自編碼器融合后,10類目標的融合特征在空間分布上類間距離更大,類內距離更加緊湊,彼此之間基本沒有混疊??梢钥闯?,SAE改變了原始特征的空間分布,從而實現特征之間的深度融合。而BMP2,BTR70,BTR60這3類目標的融合特征在特征空間中分布仍然相對緊湊,一方面是因為這3類目標在外形結構,紋理特征上較為相似,其特征表達本身相似度也較高。同時,也說明融合后的特征性能受原始特征性能的影響較大。雖然SAE能夠通過重構輸入特征,從輸入數據中挖掘了更有效的信息,實現特征之間的優(yōu)勢互補,但融合后的特征性能仍然受到原始特征的約束。
另外,論文分別利用基線特征、紋理特征作為SAE網絡的訓練樣本,與融合特征的識別性能比較。其中,SAE網絡含兩個隱層,調整網絡結構和參數使分類性能達到最好。結果見表3。
表3 特征分類結果Tab. 3 Classification accuracy of features
上述結果可以看出,基線特征和TPLBP特征得到的目標識別精度分別為90.19%,90.40%,融合后的特征識別精度達95.88%,平均識別精度提高了5%以上。除BRDM2與ZSU234之外,其余目標類別的識別精度均高于單特征。另外,TPLBP特征對BTR60具有最差的分類性能,而基線特征在該類別上區(qū)分度較好,通過特征融合,該類別的分類精度提高至91.79%。當目標紋理特征區(qū)分度不大時,利用基線特征對目標幾何結構特性的描述,有效彌補了單一特征在某一類目標上的劣勢。說明基于SAE的特征融合充分綜合了基線特征中的幾何結構信息和TPLBP中的紋理信息,利用兩種特征中的互補信息,提高融合特征的可區(qū)分度。但總體上,融合特征在各個類別上的分類趨勢基本和原始特征保持一致,在BMP2這一類別上,兩類特征都表現較差,融合后雖然性能提升了近17%,但與別的類別相比,分類精度仍然最低。這說明特征融合在性能上受原始特征性能的限制,特征融合能實現特征間的優(yōu)勢互補,但不能完全彌補共同的劣勢,因此,選擇互補性大的特征能在特征維度較低的情況下有效提高融合效果。
4.3 不同特征的融合算法比較
為比較不同特征組合之間的融合性能,本文提取了SAR圖像的Gabor紋理特征,根據文獻[22],設置參數本文選取了5個尺度(v={0,1,2,3,4}),8個方向(μ={1,2,3,4,5,6,7,8})的Gabor濾波器,與SAR圖像卷積后,再將卷積后的圖像分成同等大小的兩個圖像塊,分別計算每一圖像塊的均值和方差,得到SAR圖像的160維Gabor紋理特征。利用棧式自編碼器,分別將基線特征和Gabor紋理特征、Gabor紋理特征和TPLBP局部紋理特征進行特征融合,得到融合精度為93.65%,92.00%,各類別的分類精度見表4。
表4 不同特征融合分類結果Tab. 4 Classification accuracy of different features
上述結果可以看出,基線特征與Gabor紋理特征的融合結果優(yōu)于Gabor特征和TPLBP特征的融合結果,原因在于基線特征與Gabor紋理特征分別描述了SAR圖像的幾何結構屬性和紋理特性,不同屬性的特征之間互補性較大,融合后的特征能更全面的描述目標。而Gabor特征和TPLBP特征都屬于紋理特征,特征之間的冗余性較大,互補性相對較小,因此融合后性能提高較少。而本文提出的將基線特征和TPLBP紋理特征進行融合的方法,融合后的分類結果比基線特征與Gabor特征的融合效果更好。主要原因如下:第一,與Gabor特征相比,TPLBP特征在描述SAR圖像的紋理特征上更具優(yōu)勢。TPLBP特征利用模塊之間的紋理對比,使得特征抗噪性更強,其對于大尺度的紋理描述也更具優(yōu)勢。第二,TPLBP特征與基線特征具有更強的互補性。TPLBP特征不僅彌補了基線特征在灰度信息上的缺失,其旋轉不變性對目標方位角變化不敏感。兩種特征在原理上相互補充,因此融合后識別性能提升較大。
4.4 與其他分類算法對比
為驗證算法的有效性,將本文算法與其他算法進行比較,如表5所示。文獻[23]利用稀疏表示(Sparse Representation based Classification,SRC)對MSTAR數據集的10類目標進行了分類,其分類精度為89.76%。將串聯的SAR圖像的基線特征和TPLBP紋理特征利用支持向量機(Support Vector Machines,SVM)分類器進行分類,得到的平均識別精度為90.73%。與SRC相比,基于SAE的特征融合特征表達更為有效,在分類性能上有所提高。與串聯特征直接送入SVM中分類相比,基于棧式自編碼器的特征融合算法在特征融合過程中,不僅能降低特征維度,同時通過改變特征在空間上的分布,提取出了區(qū)分性更好的融合特征。
表5 不同算法識別精度對比Tab. 5 Classification accuracy comparison of different algorithms
文獻[24]中提出了直接利用卷積神經網絡提取SAR圖像特征,再訓練softmax分類器,得到MSTAR數據集10類目標的分類精度為92.3%。本文利用含兩個隱層的SAE網絡,直接對SAR圖像進行特征提取,經預訓練和微調后,得到目標分類精度為93.6%。直接將圖片作為神經網絡的輸入,雖然網絡能提取的信息更豐富,但與輸入特征相比,其輸入數據量大大增加,原始SAR圖像切片的大小為128×128,而串聯特征的維度為228,復雜的輸入數據需要更多的標注樣本去擬合。在樣本數據一定的情況下,復雜的網絡輸入,更容易使網絡陷入欠擬合,導致網絡性能不夠穩(wěn)定。
另外,基于特征融合的SAE算法在時間復雜度也更具優(yōu)勢。直接將SAR圖像切片輸入SAE中,網絡輸入層的神經元數目為16384,而融合算法中用到的SAE網絡輸入層的數目為228,因此,在訓練過程中,本文算法需要訓練的參數數目大大減少,兩種算法的訓練時間和測試時間見表6,本文算法再測試時間和訓練時間上,速度提高了8~9倍。因此,在訓練樣本一定的情況下,基于SAE的特征融合能有效的減少神經元的數目,簡化網絡結構,提高算法效率。
表6 不同算法訓練時間與測試時間對比Tab. 6 Training time and testing time of different methods
本文探討了基于SAE的特征融合算法在SAR圖像自動目標識別問題上的有效性。選取了冗余性小,互補性大的TPLBP局部紋理特征和基線特征,利用棧式自編碼器的特征表達能力,將特征進行深度融合,提取出了區(qū)分度更大的深度特征。與其他算法相比,基于SAE的特征融合算法在特征選取、分類精度和時間效率上都具有優(yōu)勢。主要具有以下3個方面的特點:第一,選擇了互補性大的特征,為SAE提供了更豐富的融合信息,實現了特征之間優(yōu)勢互補,融合效果提升較大。第二,特征提取降低了數據維度,從而簡化了SAE的網絡結構,降低了算法時間復雜度。第三,SAE的無監(jiān)督學習算法,降低了深度模型對標注樣本的需求,改變了原始特征的空間分布,使特征融合更加有效。融合特征的選擇對目標識別具有較大的影響,本文應進一步研究合適的特征選擇算法,更深入的探究不同特征之間的關系,從而選擇出更具融合價值的特征,進一步提升識別的性能。
[1]Jiang Y,Chen J,and Wang R. Fusing local and global information for scene classification[J].Optical Engineering,2010,49(4): 047001–047001-10.
[2]Liu Z and Liu C. Fusion of color,local spatial and global frequency information for face recognition[J].Pattern Recognition,2010,43(8): 2882–2890.
[3]Mohamed R and Mohamed M. A Hybrid feature extraction for satellite image segmentation using statistical global and local feature[C]. Proceedings of the Mediterranean Conference on Information & Communication Technologies 2015. Springer International Publishing,2016: 247–255.
[4]Zou J,Li W,Chen C,et al.. Scene classification using local and global features with collaborative representation fusion[J].Information Sciences,2016,348: 209–226.
[5]王大偉,陳定榮,何亦征. 面向目標識別的多特征圖像融合技術綜述[J]. 航空電子技術,2011,42(2): 6–12. Wang Dawei,Chen Dingrong,and He Yizheng. A survey of feature-level image fusion based on target recognition[J].Avionics Technology,2011,42(2): 6–12.
[6]王璐,張帆,李偉,等. 基于Gabor濾波器和局部紋理特征提取的SAR目標識別算法[J]. 雷達學報,2015,4(6): 658–665. Wang Lu,Zhang Fan,Li Wei,et al.. A method of SAR target recognition based on Gabor filter and local texture feature extraction[J].Journal of Radars,2015,4(6): 658–665.
[7]Lin C,Peng F,Wang B H,et al.. Research on PCA and KPCA self-fusion based MSTAR SAR automatic targetrecognition algorithm[J].Journal of Electronic Science Technology,2012,10(4): 352–357.
[8]Huan R,Liang R,and Pan Y. SAR target recognition with the fusion of LDA and ICA[C]. 2009 International Conference on Information Engineering and Computer Science,IEEE,Wuhan,China,2009: 1–5.
[9]Chaudhary M D and Upadhyay A B. Fusion of local and global features using stationary wavelet transform for efficient content based image retrieval[C]. 2014 IEEE Students' Conference on Electrical,Electronics and Computer Science (SCEECS),IEEE,Bhopal,India,2014: 1–6.
[10]Hinton G E and Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786): 504–507.
[11]Geng J,Fan J,Wang H,et al.. High-Resolution SAR image classification via deep convolutional autoencoders[J].IEEE Geoscience&Remote Sensing Letters,2015,12(11): 1–5.
[12]Chen Y,Lin Z,Zhao X,et al.. Deep learning-based classification of hyperspectral data[J].IEEE Journal of Selected Topics in Applied Earth Observations&Remote Sensing,2014,7(6): 2094–2107.
[13]Sun Z,Xue L,and Xu Y. Recognition of SAR target based on multilayer auto-encoder and SNN[J].International Journal of Innovative Computing,Information and Control,2013,9(11): 4331–4341.
[14]Chen Y W and Lin C J. Combining SVMs with Various Feature Selection[M]. In Feature Extraction: Foundations and Applications,Guyon I,Gunn S,Nikravesh M,and Zadeh L A Berlin,Germany: Springer,2006: 315–324.
[15]Chen Y W. Combining SVMs with various feature selection strategies[D]. [Master. dissertation],National Taiwan University,2005.
[16]El Darymli K,Mcguire P,Gill E W,et al.. Characterization and statistical modeling of phase in single-channel synthetic aperture radar imagery[J].IEEE Transactions on Aerospace and Electronic Systems,2015,51(3): 2071–2092.
[17]Kapur J N,Sahoo P K,and Wong A K C. A new method for gray-level picture thresholding using the entropy of the histogram[J].Computer Vision,Graphics,and Image Processing,1985,29(3): 273–285.
[18]Mathworks. Morphology Fundamentals: Dilation and Erosion[OL]. http://tinyurl.com/q6zf.
[19]Wolf L,Hassner T,and Taigman Y. Descriptor based methods in the wild[C]. Workshop on Faces in Real-Life Images: Detection,Alignment,and Recognition,2008.
[20]施彥,韓力群,廉小親. 神經網絡設計方法與實例分析[M]. 北京: 北京郵電大學出版社,2009: 32–108. Shi Yan,Han Liqun,and Lian Xiao qin. Neural Network Design and Case Analysis[M]. Beijing: Beijing University of Posts and Telecommunications Press,2009: 32–108.
[21]Maaten L and Hinton G. Visualizing data using t-SNE[J].Journal of Machine Learning Research,2008,9: 2579–2605.
[22]Hu F,Zhang P,Yang R,et al.. SAR target recognition based on Gabor filter and sub-block statistical feature[C]. 2009 IET International Radar Conference,2009: 1–4.
[23]Song H,Ji K,Zhang Y,et al.. Sparse Representation-based SAR image target classification on the 10-class MSTAR data set[J].Applied Sciences,2016,6(1): 26.
[24]Morgan D A. Deep convolutional neural networks for ATR from SAR imagery[C]. SPIE Defense Security. International Society for Optics and Photonics,2015: 94750F-94750F-13.
康 妙(1992–),女,湖南新化人,2015年獲得大連理工大學學士學位,現攻讀國防科學技術大學碩士學位,研究方向為SAR自動目標識別、SAR艦船目標檢測。
E-mail: kangmiao15@gmail.com
計科峰(1974–),男,陜西長武人,博士,國防科學技術大學副教授,碩士生導師。主要研究方向為SAR圖像處理、判讀解譯、目標識別及海洋監(jiān)視應用。
E-mail: jikefeng@nudt.edu.cn
冷祥光(1991–),男,江西修水人,2015年畢業(yè)于國防科學技術大學攝影測量與遙感專業(yè),獲得工學碩士學位,現在攻讀博士學位,主要研究方向為遙感信息處理。
E-mail: luckight@163.com
SAR Target Recognition with Feature Fusion Based on Stacked Autoencoder
Kang Miao①Ji Kefeng①Leng Xiangguang①Xing Xiangwei②Zou Huanxin①
①(School of Electronic Science and Engineering,National University of Defense Technology,Changsha410073,China)
②(Beijing Institute of Remote Sensing Information,Beijing100192,China)
A feature fusion algorithm based on a Stacked AutoEncoder (SAE) for Synthetic Aperture Rader (SAR) imagery is proposed in this paper. Firstly,25 baseline features and Three-Patch Local Binary Patterns (TPLBP) features are extracted. Then,the features are combined in series and fed into the SAE network,which is trained by a greedy layer-wise method. Finally,the softmax classifier is employed to fine tune the SAE network for better fusion performance. Additionally,the Gabor texture features of SAR images are extracted,and the fusion experiments between different features are carried out. The results show that the baseline features and TPLBP features have low redundancy and high complementarity,which makes the fused feature more discriminative. Compared with the SAR target recognition algorithm based on SAE or CNN (Convolutional Neural Network),the proposed method simplifies the network structure and increases the recognition accuracy and efficiency. 10-classes SAR targets based on an MSTAR dataset got a classification accuracy up to 95.88%,which verifies the effectiveness of the presented algorithm.
Synthetic Aperture Rader (SAR); Target recognition; Feature fusion; Stacked AutoEncoder (SAE); Moving and Stationary Target Acquisition and Recognition (MSTAR)
TP751
A
2095-283X(2017)02-0167-10
10.12000/JR16112
康妙,計科峰,冷祥光,等. 基于棧式自編碼器特征融合的SAR圖像車輛目標識別[J]. 雷達學報,2017,6(2): 167–176.
10.12000/JR16112.
Reference format:Kang Miao,Ji Kefeng,Leng Xiangguang,et al.. SAR target recognition with feature fusion based on stacked autoencoder[J].Journal of Radars,2017,6(2): 167–176. DOI: 10.12000/JR16112.
2016-09-29;改回日期:2017-01-24;
2017-03-22
*通信作者: 計科峰 jikefeng@nudt.edu.cn
國家自然科學基金(61372163,61331015,61601035)
Foundation Items: The National Natural Science Foundation of China (61372163,61331015,61601035)