趙娟萍 郭煒煒 柳 彬 崔世勇 張?jiān)鲚x* 郁文賢
①(上海交通大學(xué)智能探測(cè)與識(shí)別上海市高校重點(diǎn)實(shí)驗(yàn)室 上海 200240)
②(德國(guó)宇航局遙感技術(shù)研究所 德國(guó)韋斯靈 82234)
基于概率轉(zhuǎn)移卷積神經(jīng)網(wǎng)絡(luò)的含噪標(biāo)記SAR圖像分類
趙娟萍①郭煒煒①柳 彬①崔世勇②張?jiān)鲚x*①郁文賢①
①(上海交通大學(xué)智能探測(cè)與識(shí)別上海市高校重點(diǎn)實(shí)驗(yàn)室 上海 200240)
②(德國(guó)宇航局遙感技術(shù)研究所 德國(guó)韋斯靈 82234)
合成孔徑雷達(dá)(Synthetic Aperture Radar, SAR)圖像分類是SAR圖像解譯的重要任務(wù)。以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)為代表的監(jiān)督學(xué)習(xí)方法需要大量已標(biāo)注的訓(xùn)練樣本。然而對(duì)于SAR圖像真值標(biāo)注而言,由于SAR特殊的成像機(jī)理,圖像受相干斑噪聲、幾何畸變和結(jié)構(gòu)缺失等因素影響較為嚴(yán)重,非直觀性較強(qiáng),使得SAR圖像人工標(biāo)注非常困難,極易出錯(cuò),從而導(dǎo)致CNN等模型學(xué)習(xí)和泛化性能急劇降低。針對(duì)這種含噪標(biāo)記條件下的SAR圖像分類問題,該文提出了一種基于概率轉(zhuǎn)移模型的卷積神經(jīng)網(wǎng)絡(luò)(Probability Transition CNN, PTCNN)方法,該方法在傳統(tǒng)CNN模型基礎(chǔ)上,基于含噪標(biāo)記與正確標(biāo)記之間的概率轉(zhuǎn)移模型,建立噪聲標(biāo)記轉(zhuǎn)移層,這種新的卷積網(wǎng)絡(luò)模型可潛在地校正錯(cuò)誤標(biāo)記,增強(qiáng)了含噪標(biāo)記下分類模型的魯棒性。與經(jīng)典CNN等模型相比,在構(gòu)建的16類SAR圖像地物數(shù)據(jù)集和MSTAR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該文方法相比于經(jīng)典CNN等模型,在保持SAR圖像分類性能的同時(shí)具有較好的抗噪性,能夠有效校正訓(xùn)練樣本中的標(biāo)注錯(cuò)誤,從而降低了SAR圖像有監(jiān)督分類任務(wù)對(duì)樣本標(biāo)注質(zhì)量的要求,具有一定的研究?jī)r(jià)值與應(yīng)用前景。
合成孔徑雷達(dá)(SAR)圖像分類;監(jiān)督學(xué)習(xí);含噪標(biāo)記;概率轉(zhuǎn)移卷積神經(jīng)網(wǎng)絡(luò)(PTCNN);深度特征
合成孔徑雷達(dá)(Synthetic Aperture Radar, SAR)全天時(shí)全天候的優(yōu)勢(shì)使其在軍用和民用領(lǐng)域中都有著非常廣泛的應(yīng)用。近年來,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[1]為代表的監(jiān)督學(xué)習(xí)方法在自然圖像理解,如圖像分類[2,3]、目標(biāo)檢測(cè)[4]、以及自然語言處理[5,6]等領(lǐng)域中取得了顯著成功。在SAR圖像解譯領(lǐng)域,學(xué)者們也對(duì)CNN應(yīng)用于SAR圖像分類和識(shí)別進(jìn)行了初步嘗試[7—13],在MSTAR數(shù)據(jù)集和地物分類數(shù)據(jù)集上[12]的測(cè)試結(jié)果顯示CNN能夠顯著提高SAR目標(biāo)識(shí)別和地物分類的準(zhǔn)確率,表明CNN對(duì)SAR圖像解譯同樣具有很大潛力。為了解決MSTAR數(shù)據(jù)規(guī)模小和避免過擬合問題,文獻(xiàn)[7,10]基于自編碼方法進(jìn)行網(wǎng)絡(luò)的預(yù)訓(xùn)練,文獻(xiàn)[11,13]對(duì)MSTAR原始數(shù)據(jù)進(jìn)行變換來增加樣本數(shù)量,文獻(xiàn)[9]將CNN作為一種特征提取器來提取MSTAR圖像深度特征,并結(jié)合SVM進(jìn)行MSTAR車輛目標(biāo)識(shí)別。最近,文獻(xiàn)[13]提出了一種全卷積神經(jīng)網(wǎng)絡(luò)(A-ConvNets)對(duì)MSTAR車輛目標(biāo)進(jìn)行識(shí)別,識(shí)別率達(dá)到了99%以上,取得了目前在MSTAR數(shù)據(jù)集上最好的效果。
雖然CNN在SAR圖像分類中取得了較好的效果,但是這種監(jiān)督學(xué)習(xí)方法需要大規(guī)模、正確標(biāo)注的訓(xùn)練樣本[14]。然而SAR特殊的成像機(jī)理(相干成像、主動(dòng)式、微波波段等)使得圖像存在嚴(yán)重的相干斑噪聲、幾何畸變與結(jié)構(gòu)缺失現(xiàn)象,圖像非直觀性強(qiáng)、理解難度大,即使經(jīng)驗(yàn)豐富的判讀專家也需要借助豐富的先驗(yàn)信息才能對(duì)SAR圖像進(jìn)行準(zhǔn)確判讀;對(duì)于非合作目標(biāo),先驗(yàn)信息的缺乏極易導(dǎo)致圖像錯(cuò)標(biāo)。SAR圖像中這種觀測(cè)樣本與其標(biāo)注不一致的現(xiàn)象造成SAR圖像解譯中的含噪標(biāo)記問題。在SAR圖像分類中,直接使用含噪標(biāo)記樣本進(jìn)行監(jiān)督學(xué)習(xí),必然會(huì)使得分類性能下降、模型復(fù)雜度上升和過擬合問題[15]。目前,含噪標(biāo)記條件下的圖像分類問題在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域也逐漸引起重視,主要的解決方法是通過改進(jìn)損失函數(shù)的正則化約束項(xiàng)來提高分類器對(duì)噪聲標(biāo)記的魯棒性[15,16],而且這些方法基于人工設(shè)計(jì)的特征,且特征提取與分類器訓(xùn)練分階段進(jìn)行,并不具備特征學(xué)習(xí)的能力,使得分類性能和對(duì)噪聲標(biāo)記的魯棒性進(jìn)一步降低。而近年來興起的CNN等深度模型由于參數(shù)多,雖然具有更強(qiáng)特征學(xué)習(xí)和表達(dá)能力,但更容易受到噪聲標(biāo)記的影響。
目前,針對(duì)這種SAR圖像解譯中廣泛存在的含噪標(biāo)記問題還鮮有研究。為解決該問題,克服含噪標(biāo)記條件下SAR圖像的分類識(shí)別性能和泛化性能下降問題,本文提出了一種基于概率轉(zhuǎn)移模型的卷積神經(jīng)網(wǎng)絡(luò)(Probability Transition CNN, PTCNN)方法,該方法在CNN模型基礎(chǔ)上,基于含噪標(biāo)記與正確標(biāo)記之間的概率轉(zhuǎn)移模型,建立了噪聲標(biāo)記轉(zhuǎn)移層,構(gòu)建了一種新的卷積網(wǎng)絡(luò)模型,其一方面能充分利用CNN較強(qiáng)的圖像表征能力,另一方面可潛在地對(duì)錯(cuò)誤標(biāo)記進(jìn)行校正,從而增強(qiáng)了含噪標(biāo)記條件下CNN模型的魯棒性,降低了經(jīng)典CNN方法對(duì)訓(xùn)練樣本標(biāo)注質(zhì)量的要求。本文分別在構(gòu)建的16類SAR圖像地物數(shù)據(jù)集和美國(guó)MSTAR數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分析了不同噪聲比例條件下SAR圖像分類性能,并與經(jīng)典CNN方法和支持向量機(jī)(Supported Vector Machine, SVM)算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明相比于傳統(tǒng)模型,本文提出的PTCNN模型具備較好的抗噪性,在含噪標(biāo)記條件下能夠保持較好的分類性能,從而有效降低了SAR圖像標(biāo)注質(zhì)量對(duì)分類器性能的影響。
針對(duì)含噪標(biāo)記條件下的SAR圖像分類問題,本文PTCNN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,該模型主要分為兩部分:(1)深度特征提取部分;(2)概率轉(zhuǎn)移模型部分。深度特征提取部分采用經(jīng)典的CNN模型提取訓(xùn)練樣本x的深度特征(圖中C1, C2, C3, C4, C5均表示卷積層,S1, S2表示降采樣層,F(xiàn)c6, Fc7,Fc8表示全連接層),概率轉(zhuǎn)移模型通過softmax分類器對(duì)深度特征進(jìn)行分類,提取訓(xùn)練樣本真值標(biāo)注y的后驗(yàn)概率含噪標(biāo)記問題中隨機(jī)變量之間的相互依賴關(guān)系如圖2所示,由貝葉斯原理可得含噪標(biāo)記的后驗(yàn)概率
圖1 概率轉(zhuǎn)移卷積神經(jīng)網(wǎng)絡(luò)Fig. 1 Probability transition convolutional neural network
圖2 SAR圖像含噪標(biāo)記模型Fig. 2 Model of SAR image noisy labels
CNN是一種典型的有監(jiān)督深度學(xué)習(xí)方法,其最初是受靈長(zhǎng)動(dòng)物視覺神經(jīng)機(jī)制的啟發(fā)而設(shè)計(jì)的一種具有深度學(xué)習(xí)能力的人工神經(jīng)網(wǎng)絡(luò)。CNN直接將原始圖像作為網(wǎng)絡(luò)輸入,有效避免了傳統(tǒng)算法中的特征提取和數(shù)據(jù)重建過程,提高了算法效率。但是,CNN并不是一個(gè)黑盒子,其內(nèi)部通過一系列數(shù)學(xué)運(yùn)算實(shí)現(xiàn)圖像表征。
具有局部連接和權(quán)值共享特性的卷積層是CNN的核心組成部分,該層每個(gè)神經(jīng)元的輸入與前一層的局部感受野(Receptive Field)連接,提取圖像局部特征。其中,同一特征圖中的神經(jīng)元提取前一層特征圖中不同位置的局部特征,而對(duì)單一神經(jīng)元來說其提取的特征是前一層若干不同特征圖中相同位置的局部特征。
為了使神經(jīng)網(wǎng)絡(luò)具有非線性擬合能力,需要將卷積等線性運(yùn)算得到的結(jié)果通過一個(gè)非線性的激活函數(shù)。激活函數(shù)為CNN網(wǎng)絡(luò)引入非線性特征,使其具有非線性擬合能力。激活函數(shù)不僅影響數(shù)據(jù)的映射方式,而且不同的激活函數(shù)因梯度不同還會(huì)影響反向傳播過程。因此,反向傳播算法要求激活函數(shù)具有連續(xù)、可微、單調(diào)非遞減的性質(zhì)。常用的激活函數(shù)有Sigmoid激活函數(shù)、tanh激活函數(shù)和ReLU激活函數(shù)。
降采樣層以采樣區(qū)域的大小為步長(zhǎng)來掃描圖像。該網(wǎng)絡(luò)層在有效減少模型參數(shù)的同時(shí)保留了圖像的結(jié)構(gòu)信息。常用的降采樣方法有最大值降采樣、均值降采樣等。
CNN訓(xùn)練過程中由于有標(biāo)記樣本規(guī)模小、網(wǎng)絡(luò)參數(shù)多,模型訓(xùn)練容易過擬合。Dropout層在每次迭代訓(xùn)練過程中隨機(jī)舍棄一些神經(jīng)元,僅利用剩下的神經(jīng)元參與訓(xùn)練,有效減少了模型參數(shù),能夠防止過擬合現(xiàn)象發(fā)生。
本文根據(jù)SAR圖像樣本庫(kù)構(gòu)建與標(biāo)注過程中變量之間的實(shí)際依賴關(guān)系,建立如圖2所示的SAR圖像含噪標(biāo)記模型,圖中yn,分別表示觀測(cè)樣本xn對(duì)應(yīng)的真值標(biāo)注和含噪標(biāo)注,和Q分別為深度特征提取參數(shù)集、softmax分類器參數(shù)集和概率轉(zhuǎn)移矩陣,本文假設(shè)含噪標(biāo)記數(shù)據(jù)集中共有N個(gè)訓(xùn)練樣本。
對(duì)于有噪聲標(biāo)記的SAR圖像數(shù)據(jù)集D=其中觀測(cè)樣本集為相應(yīng)的含噪標(biāo)注集為真值標(biāo)注集假設(shè)數(shù)據(jù)集共有K類,則。在模型訓(xùn)練過程中,如果網(wǎng)絡(luò)輸入的觀測(cè)樣本表示為xn∈X,輸入數(shù)據(jù)在前向傳播過程中通過CNN逐層非線性映射到區(qū)分性較強(qiáng)的深度特征空間為:
然后通過softmax分類器獲得輸入數(shù)據(jù)真值標(biāo)注的后驗(yàn)概率P(yn|xn),將其寫成矩陣形式為:
將式(3)表示為矩陣形式
最后,通過最小化含噪標(biāo)記條件下的正則化損失函數(shù)
如果Q=I,則有而理想情況下
3.1.1 SAR圖像地物數(shù)據(jù)集本文實(shí)驗(yàn)數(shù)據(jù)來源于中國(guó)武漢地區(qū)和上海交通大學(xué)閔行校區(qū)的兩景TerraSAR-X衛(wèi)星影像,其成像參數(shù)如表1所示。
針對(duì)這兩景TerraSAR-X影像,本文構(gòu)建了一個(gè)包含16類地物類型(港口、稀疏建筑區(qū)、池塘、橋梁、濕地、艦船、小溪、公路、運(yùn)動(dòng)場(chǎng)、沙灘、密集建筑區(qū)、河流、森林、道路、綠化帶、水體)共5336個(gè)正確標(biāo)記樣本的樣本庫(kù)。
表1 TerraSAR-X衛(wèi)星成像參數(shù)Tab. 1 TerraSAR-X satellite imaging parameters
本文SAR圖像地物樣本庫(kù)構(gòu)建借助德國(guó)宇航局的半自動(dòng)化人機(jī)交互軟件平臺(tái)[20]并結(jié)合實(shí)地調(diào)繪完成。經(jīng)過多視和上采樣處理后的兩景影像地距向像元尺寸在0.7 m~0.8 m之間,方位向像元尺寸均在0.6 m~0.7 m之間,因此將兩景圖像統(tǒng)一標(biāo)注是合理的。高分辨率SAR圖像中200×200的樣本尺寸(本數(shù)據(jù)集中每個(gè)切片對(duì)應(yīng)實(shí)際地表范圍約為150 m×130 m)能夠比較全面地反映圖像的類別信息[21,22],使得切片具有比較明顯的語義含義。表2所示為SAR地物樣本庫(kù)訓(xùn)練集和測(cè)試集,其中每類地物類型總量的60%用于訓(xùn)練,其余40%用于測(cè)試。
3.1.2 MSTAR數(shù)據(jù)集該部分實(shí)驗(yàn)數(shù)據(jù)來源為美國(guó)MSTAR計(jì)劃公布的地面靜止軍事目標(biāo)的聚束式SAR實(shí)測(cè)數(shù)據(jù)[23]。MSTAR數(shù)據(jù)集包含了軍用和民用的多種靜止軍事車輛目標(biāo),目標(biāo)方位角覆蓋了0°~360°。本文用MSTAR數(shù)據(jù)中的10類目標(biāo)并截取中間88×88大小的切片作為訓(xùn)練和測(cè)試樣本[13],其中訓(xùn)練集和測(cè)試集分別用15°方位角和17°方位角下的SAR樣本切片,訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集如表3所示。
3.2.1 類別噪聲仿真為了驗(yàn)證PTCNN模型的有效性,本文利用構(gòu)建的16類正確標(biāo)記TerraSAR-X地物數(shù)據(jù)集和MSTAR數(shù)據(jù)集仿真兩組含噪標(biāo)記樣本庫(kù)。含噪標(biāo)記仿真方法為:從每組訓(xùn)練集的每類樣本中隨機(jī)抽取一定比例(本文噪聲比例分別選取10%, 20%, 30%, 40%, 50%),將相應(yīng)類別標(biāo)記設(shè)置為噪聲標(biāo)記,其中標(biāo)記噪聲服從式(8)所示的均勻分布。
表2 SAR圖像地物分類訓(xùn)練與測(cè)試數(shù)據(jù)集Tab. 2 Training and testing set for SAR image land cover classification
其中,Pe表示訓(xùn)練集中每類樣本正確標(biāo)注的比例,則相應(yīng)的含噪標(biāo)記比例為1—Pe。
3.2.2 參數(shù)初始化本文將CNN作為一種特殊的特征學(xué)習(xí)方法,通過逐層線性或非線性映射從原始數(shù)據(jù)中提取圖像的深度特征。圖3(a)和圖3(b)分別為16類地物要素和MSTAR數(shù)據(jù)集車輛目標(biāo)的深度特征提取模塊網(wǎng)絡(luò)結(jié)構(gòu)。圖3(a)中“Conv1”、“Conv2”、“Conv3”、“Conv4”、“Conv5”層權(quán)值初始化為方差0.01的高斯分布,“Conv1”、“Conv3”層偏置設(shè)置為常數(shù)0,“Conv2”、“Conv4”、“Conv5”層偏置設(shè)置為常數(shù)1,“Norm1”、“Norm2”層局部窗口大小為5×5,縮放因子指數(shù)項(xiàng)β=0.75,“Fc6”, “Fc7”層權(quán)值初始化為方差0.05的高斯分布,偏置設(shè)置為常數(shù)1, “Fc8”層權(quán)值初始化為方差0.01的高斯分布,偏置初始化為常數(shù)0。圖3(b)中網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)初始化參照文獻(xiàn)[13]。
表3 用于訓(xùn)練和測(cè)試的MSTAR數(shù)據(jù)集Tab. 3 Training and testing set of MSTAR database
3.2.3 對(duì)比算法為了說明本文方法能夠一定程度上解決含噪標(biāo)記條件下的SAR圖像分類問題,降低錯(cuò)誤標(biāo)注對(duì)分類器性能的影響,提高分類模型對(duì)噪聲標(biāo)記的魯棒性,本文將PTCNN與經(jīng)典CNN方法和基于傳統(tǒng)特征的SVM算法進(jìn)行對(duì)比。兩組數(shù)據(jù)集中經(jīng)典CNN方法與PTCNN方法的區(qū)別都是僅僅缺少噪聲標(biāo)記轉(zhuǎn)移層。
圖3 深度特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Deep feature extraction structure
而由于SVM算法分類性能與特征選擇密切相關(guān),對(duì)于地物數(shù)據(jù)集,本文采用基于Gabor特征的SVM分類算法[20],這里提取的Gabor特征為48維(由4個(gè)方向、6個(gè)尺度下特征圖的均值和標(biāo)準(zhǔn)差依次組成),SVM分類器采用RBF核函數(shù),通過網(wǎng)格搜索法得到最佳誤差項(xiàng)懲罰參數(shù)C=8000.0,最佳核函數(shù)系數(shù)
對(duì)于MSTAR數(shù)據(jù)集,采用基于PCA特征的SVM算法[24],PCA特征采用圖像原始幅度信息,特征維數(shù)通過網(wǎng)格搜索尋優(yōu)法取35維。SVM分類器參數(shù)采用5次多項(xiàng)式核函數(shù),通過網(wǎng)格搜索法得到最佳誤差項(xiàng)懲罰參數(shù)C=1,最佳多項(xiàng)式系數(shù),最佳常數(shù)項(xiàng)值r=0[16]。
3.2.4 評(píng)價(jià)指標(biāo)評(píng)價(jià)指標(biāo)采用每種方法在每種噪聲比例下的分類準(zhǔn)確率、混淆矩陣。
3.3.1 地物數(shù)據(jù)集實(shí)驗(yàn)高分辨率TerraSAR-X影像豐富的地物類型和龐大的數(shù)據(jù)量為本實(shí)驗(yàn)提供了充足的數(shù)據(jù)源,地物樣本數(shù)據(jù)庫(kù)通過PTCNN模型,采用迭代優(yōu)化策略更新模型參數(shù)。模型訓(xùn)練采用基于動(dòng)量(momentum)法的SGD算法,初始學(xué)習(xí)率為0.001,每迭代400次學(xué)習(xí)率更新一次,衰減率為0.1,動(dòng)量設(shè)置為0.9,最大迭代次數(shù)設(shè)置為4000使損失函數(shù)收斂。
不同噪聲比例下的地物分類準(zhǔn)確率如表4所示。從表中可以看出,無論噪聲比例如何變化,PTCNN的分類準(zhǔn)確率都優(yōu)于其他兩種方法,且經(jīng)典CNN模型分類準(zhǔn)確率優(yōu)于基于Gabor特征的SVM分類算法。因此,在SAR圖像地物要素分類性能方面:PTCNN>經(jīng)典CNN>Gabor+SVM。
表4 不同標(biāo)記噪聲比例下的地物分類準(zhǔn)確率(%)Tab. 4 Land cover classification accuracies of different label noise fraction (%)
圖4(a)顯示了3種方法的地物分類準(zhǔn)確率隨噪聲比例的變化曲線。從圖中可以看出,本文PTCNN網(wǎng)絡(luò)在不同噪聲比例下地物分類準(zhǔn)確率保持在98.80%左右,基本不隨噪聲比例變化而變化,經(jīng)典CNN網(wǎng)絡(luò)和基于Gabor特征的SVM算法分類準(zhǔn)確率隨著噪聲比例的增加下降較明顯,其中SVM算法準(zhǔn)確率最低且隨噪聲比例增加下降速度最快。所以在抗噪性能方面:PTCNN>經(jīng)典CNN>Gabor+SVM。
圖4(b)為3種方法對(duì)車輛目標(biāo)的分類準(zhǔn)確率隨噪聲比例的變化曲線,從圖中可以看出,經(jīng)過20000次迭代更新,PTCNN模型在不同噪聲比例下準(zhǔn)確率最高,且隨噪聲比例的變化幅度較小,驗(yàn)證了PTCNN模型對(duì)噪聲的敏感性較低,體現(xiàn)出其較好的抗噪性能。而基于PCA特征的SVM算法比經(jīng)典CNN算法隨噪聲比例變化更緩慢,說明前者比后者抗噪性能好。說明PTCNN模型的抗噪性能最好,SVM算法次之,經(jīng)典CNN模型抗噪性能最差。
圖4 分類準(zhǔn)確率隨噪聲比例變化曲線Fig. 4 Classification accuracy varies with noise fraction
圖5 類別噪聲比例為30%時(shí)3種方法的測(cè)試混淆矩陣Fig. 5 Confusion matrix of three method with 30% noise fraction
圖5(a)、圖5(b)、圖5(c)分別是訓(xùn)練樣本噪聲比例為30%時(shí)3種算法測(cè)試結(jié)果的混淆矩陣,明顯可以看出PTCNN模型的測(cè)試準(zhǔn)確率最高,只有極個(gè)別樣本被錯(cuò)分,經(jīng)典CNN模型次之,基于Gabor特征的SVM算法測(cè)試準(zhǔn)確率最低。
圖5給出了含噪標(biāo)記條件下SAR圖像訓(xùn)練樣本的PTCNN特征、CNN特征和Gabor特征,采用t-SNE (t-distributed Stochastic Neighbor Embedding)方法分別將其特征分布映射到2維空間中并可視化(3種方法在不同噪聲比例下的特征分布如圖6所示,圖中不同顏色表示不同的含噪標(biāo)記,不同聚類表示預(yù)測(cè)的不同標(biāo)記)。從圖6第1列圖6(a1)~圖6(f1)可以看出不同標(biāo)記噪聲比例下的錯(cuò)標(biāo)樣本都被重新歸類,特征分布基本不隨噪聲比例變化而變化,從視覺上直觀地驗(yàn)證了PTCNN模型較好的抗噪性能和分類性能。同樣地,從圖6中第2列圖6(a2)~圖6(f2)可以看出經(jīng)典CNN特征受噪聲影響較大,且特征的可區(qū)分性隨標(biāo)記噪聲比例的增加越來越差。圖6第3列圖6(a3)~圖6(f3)可以看出傳統(tǒng)Gabor特征可區(qū)分性比深度特征差,且對(duì)噪聲比較敏感。
圖6 不同標(biāo)記噪聲比例下3種方法的特征分布Fig. 6 Feature distribution of three method with different noise label fractions
3.3.2 MSTAR數(shù)據(jù)集實(shí)驗(yàn)MSTAR數(shù)據(jù)集對(duì)車輛目標(biāo)分類的過程中,參數(shù)衰減系數(shù)設(shè)置為0.004,網(wǎng)絡(luò)學(xué)習(xí)率采用步進(jìn)式策略,基礎(chǔ)學(xué)習(xí)率設(shè)為0.001,每迭代500次學(xué)習(xí)速率更新1次,各層權(quán)重與偏置更新策略采用基于動(dòng)量(momentum)法的SGD算法,動(dòng)量設(shè)置為0.9,最大迭代次數(shù)設(shè)置為20000次,直至目標(biāo)函數(shù)收斂。不同噪聲比例下MSTAR車輛目標(biāo)分類準(zhǔn)確率如表5所示,同樣可以看出,不同噪聲比例下PTCNN模型對(duì)車輛目標(biāo)的分類準(zhǔn)確率優(yōu)于經(jīng)典CNN模型,而經(jīng)典CNN模型分類性能又優(yōu)于基于PCA特征的SVM算法。
表5 不同標(biāo)記噪聲比例下MSTAR車輛目標(biāo)分類準(zhǔn)確率(%)Tab. 5 Classification accuracies of MSTAR vehicle target with different noise fractions (%)
SAR圖像由于其特殊的成像機(jī)理使得圖像目視解譯困難,直接獲取大規(guī)模、高質(zhì)量標(biāo)注的訓(xùn)練樣本非常困難。本文針對(duì)含噪標(biāo)記條件下的SAR圖像分類問題,提出了一種基于概率轉(zhuǎn)移模型的卷積神經(jīng)網(wǎng)絡(luò)方法(PTCNN),首先提取訓(xùn)練樣本的CNN特征,然后基于錯(cuò)誤標(biāo)記與正確標(biāo)記之間的轉(zhuǎn)移概率模型,建立噪聲標(biāo)記轉(zhuǎn)移層,從而構(gòu)建了一種新的含噪標(biāo)記條件下的卷積網(wǎng)絡(luò)模型。對(duì)比實(shí)驗(yàn)采用基于傳統(tǒng)特征的概率轉(zhuǎn)移模型、采用經(jīng)典CNN模型和SVM算法,分析不同比例噪聲對(duì)SAR圖像分類性能的影響,對(duì)比驗(yàn)證了PTCNN模型相比經(jīng)典CNN模型,能夠利用含噪標(biāo)記樣本訓(xùn)練出分類性能較好的模型,并且能夠潛在校正含噪標(biāo)記,減小了含噪標(biāo)記對(duì)模型訓(xùn)練的影響,從而降低了SAR圖像分類任務(wù)對(duì)訓(xùn)練樣本標(biāo)注質(zhì)量的要求,具有一定的研究?jī)r(jià)值與應(yīng)用前景。
[1]Krizhevsky A, Sutskever I, and Hinton G E. Imagenet classification with deep convolutional neural networks[C].Advances in Neural Information Processing Systems, 2012:1097—1105.
[2]He K, Zhang X, Ren S,et al.. Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE transactions on pattern analysis and machine intelligence,2015, 37(9): 1904—1916. DOI: 10.1109/TPAMI.2015.2389824.
[3]Chan T H, Jia K, Gao S,et al.. PCANet: A simple deep learning baseline for image classification?[J].IEEE Transactions on Image Processing, 2015, 24(12): 5017—5032.DOI: 10.1109/TIP.2015.2475625.
[4]Chen X, Xiang S, Liu C L,et al.. Vehicle detection in satellite images by hybrid deep convolutional neural networks[J].IEEE Geoscience and remote sensing letters,2014, 11(10): 1797—1801. DOI: 10.1109/LGRS.2014.2309695.
[5]Kalchbrenner N, Grefenstette E, and Blunsom P. A convolutional neural network for modelling sentences[J].arXiv Preprint arXiv: 1404. 2188, 2014.
[6]Kim Y. Convolutional neural networks for sentence classification[J].arXiv Preprint arXiv: 1408. 5882, 2014.
[7]Chen S and Wang H. SAR target recognition based on deep learning[C]. 2014 International Conference on Data Science and Advanced Analytics (DSAA), Shanghai, 2014: 541—547.
[8]Wagner S. Combination of convolutional feature extraction and support vector machines for radar ATR[C]. 17th International Conference on Information Fusion (FUSION),Salamanca, 2014: 1—6.
[9]田壯壯, 占榮輝, 胡杰民, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的SAR圖像目標(biāo)識(shí)別研究[J]. 雷達(dá)學(xué)報(bào), 2016, 5(3): 320—325.Tian Zhuangzhuang, Zhan Ronghui, Hu Jiemin,et al.. SAR ATR Based on Convolutional Neural Networks[J].Journal of Radars, 2016, 5(3): 320—325.
[10]Li X, Li C, Wang P,et al.. SAR ATR based on dividing CNN into CAE and SNN[C]. 5th Asia-Pacific Conference on Synthetic Aperture Radar (APSAR), Singapore, 2015:676—679.
[11]Ding J, Chen B, Liu H,et al.. Convolutional Neural Network With Data Augmentation for SAR Target Recognition[J].IEEE Geoscience and Remote Sensing Letters, 2016, 13(3): 364—368.
[12]Zhao J, Guo W, Cui S,et al.. Convolutional neural network for SAR image classification at patch level[C]. International Geoscience and Remote Sensing Symposium (IGARSS),Beijing, 2016: 945—948.
[13]Chen S, Wang H, Xu F,et al.. Target Classification Using the Deep Convolutional Networks for SAR Images[J].IEEE Transactions on Geoscience and Remote Sensing, 2016,54(8): 4806—4817. DOI: 10.1109/TGRS.2016.2551720.
[14]Deng J, Dong W, Socher R,et al.. Imagenet: A large-scale hierarchical image database[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Miami Beach, Florida, 2009: 248—255.
[15]Zhu X and Wu X. Class noise vs. attribute noise: A quantitative study[J].Artificial Intelligence Review, 2004,22(3): 177—210. DOI: 10.1007/s10462-004-0751-8.
[16]Chang C C and Lin C J. LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology(TIST), 2011, 2(3): 27.
[17]Jia Y, Shelhamer E, Donahue J,et al.. Caffe: Convolutional architecture for fast feature embedding[C]. Proceedings of the 22nd ACM International Conference on Multimedia,Orlando, 2014: 675—678.
[18]Hecht-Nielsen R. Theory of the backpropagation neural network[C]. IEEE International Joint Conference on Neural Networks, 1989: 593—605.
[19]Bottou L. Stochastic gradient learning in neural networks[J].Proceedings of Neuro-Nmes, 1991, 91(8).
[20]Cui S, Dumitru C O, and Datcu M. Semantic annotation in earth observation based on active learning[J].International Journal of Image and Data Fusion, 2014, 5(2): 152—174.DOI: 10.1080/19479832.2013.858778.
[21]Popescu A A, Gavat I, and Datcu M. Contextual descriptors for scene classes in very high resolution SAR images[J].IEEE Geoscience and Remote Sensing Letters,2012, 9(1): 80—84. DOI: 10.1109/LGRS.2011.2160838.
[22]Singh J, Cui S, Datcu M,et al.. A survey of density estimation for SAR images[C]. 20th European of Signal Processing Conference (EUSIPCO), 2012: 2526—2530.
[23]Ross T D, Worrell S W, Velten V J,et al.. Standard SAR ATR evaluation experiments using the MSTAR public release data set[C]. Aerospace/Defense Sensing and Controls. International Society for Optics and Photonics,1998: 566—573.
[24]Wu T, Chen X, Ruang X W,et al.. Study on SAR target recognition based on support vector machine[C]. 2nd Asian-Pacific Conference on Synthetic Aperture Radar, 2009:856—859.
趙娟萍(1991—),女,陜西渭南人,學(xué)士,于2014年獲西安電子科技大學(xué)學(xué)士學(xué)位,2014年9月至今,在上海交通大學(xué)電子信息與電氣工程學(xué)院攻讀博士研究生。研究方向?yàn)槔走_(dá)圖像解譯、機(jī)器學(xué)習(xí)。
E-mail: juanpingzhao@sjtu.edu.cn
郭煒煒(1983—),男,江蘇南通人,博士,分別于2005年、2007年和2011年獲國(guó)防科技大學(xué)信息與通信工程專業(yè)學(xué)士、碩士和博士學(xué)位。2014年至今,在上海交通大學(xué)電子信息與電氣工程學(xué)院做博士后。主要從事圖像理解、模式識(shí)別與機(jī)器學(xué)習(xí)等方面的研究。
E-mail: gwnudt@163.com
柳 彬(1985—),男,湖南衡陽(yáng)人,博士,助理研究員,分別于2007年、2009年和2015年獲上海交通大學(xué)信息工程、信號(hào)與信息處理和信號(hào)與信息處理學(xué)士、碩士和博士學(xué)位。2012年10月至2013年4月在法國(guó)巴黎高科電信學(xué)院訪問研究。2015年12月,任上海交通大學(xué)電信學(xué)院信息技術(shù)與電氣工程研究院助理研究員。主要從事雷達(dá)圖像的分割分類、目標(biāo)檢測(cè)識(shí)別、多時(shí)相分析等方面的研究。
E-mail: bliu.rsti@sjtu.edu.cn
崔世勇(1984—),男,山東濰坊人,博士,德國(guó)宇航中心研究員。師從國(guó)際著名遙感影像信息挖掘?qū)W者M(jìn)ihai Datcu教授和國(guó)際著名SAR學(xué)者Otmar Loffeld教授。2013年從德國(guó)錫根大學(xué)畢業(yè)并獲得電子工程與計(jì)算機(jī)科學(xué)博士學(xué)位。從2009年至今,在德國(guó)宇航中心遙感技術(shù)所從事機(jī)器學(xué)習(xí)和圖像分析相關(guān)科研工作。在該領(lǐng)域已經(jīng)發(fā)表多篇國(guó)際學(xué)術(shù)期刊論文。擔(dān)任該領(lǐng)域主要期刊(IEEE TGRS, IEEE GRSL, IEEE JSTARS)的審稿人。主要研究方向包括:統(tǒng)計(jì)機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,計(jì)算機(jī)視覺,圖像分析與理解等方向。
E-mail: shiyong.cui@dlr.de
張?jiān)鲚x(1980—),男,山東金鄉(xiāng)人,博士,副研究員,分別于2001年、2003年和2008年獲國(guó)防科技大學(xué)應(yīng)用數(shù)學(xué)、計(jì)算數(shù)學(xué)和信息與通信工程專業(yè)學(xué)士、碩士和博士學(xué)位。2008年6月,任國(guó)防科大理學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)系講師;2014年2月,任上海交通大學(xué)電子信息與電氣工程學(xué)院副研究員。主要從事新體制雷達(dá)系統(tǒng)、雷達(dá)信號(hào)處理、壓縮感知理論等方面的研究。
E-mail: zenghui.zhang@sjtu.edu.cn
郁文賢(1964—),男,上海松江人,博士,教授,博士生導(dǎo)師,上海交通大學(xué)講席教授。中國(guó)第2代衛(wèi)星導(dǎo)航系統(tǒng)重大專項(xiàng)測(cè)試評(píng)估與試驗(yàn)驗(yàn)證專家組專家,高分辨率對(duì)地觀測(cè)系統(tǒng)重大專項(xiàng)專家委員會(huì)地面系統(tǒng)組專家,“十二五”總裝備部衛(wèi)星應(yīng)用技術(shù)專業(yè)組顧問,裝發(fā)部上海市“北斗導(dǎo)航與位置服務(wù)”共建重點(diǎn)實(shí)驗(yàn)室主任,上海交通大學(xué)學(xué)術(shù)委員會(huì)委員,雷達(dá)信號(hào)處理國(guó)防科技重點(diǎn)實(shí)驗(yàn)室學(xué)術(shù)委員會(huì)委員,“十一五”國(guó)家863計(jì)劃信息獲取與處理技術(shù)主題第一、第二屆專家組組長(zhǎng),“十一五”總裝備部雷達(dá)探測(cè)技術(shù)專業(yè)組專家,主要研究方向?yàn)橄冗M(jìn)探測(cè)技術(shù)和多維信號(hào)與信息處理,研究?jī)?nèi)容包括新型成像系統(tǒng)、微波圖像處理和解譯、信息融合、目標(biāo)識(shí)別等。
E-mail: wxyu@sjtu.edu.cn
s: The National Natural Science Foundation of China (61331015), The China Postdoctoral Science Foundation(2015M581618)
Convolutional Neural Network-based SAR Image Classification with Noisy Labels
Zhao Juanping①Guo Weiwei①Liu Bin①Cui Shiyong②Zhang Zenghui①Yu Wenxian①
①(Shanghai Key Laboratory of Intelligent Sensing and Recognition,Shanghai Jiaotong University,Shanghai200240,China)
②(Remote Sensing Technology Institute (IMF),German Aerospace Center (DLR),Wessling82234,Germany)
SAR image classification is an important task in SAR image interpretation. Supervised learning methods, such as the Convolutional Neural Network (CNN), demand samples that are accurately labeled.However, this presents a major challenge in SAR image labeling. Due to their unique imaging mechanism, SAR images are seriously affected by speckle, geometric distortion, and incomplete structural information. Thus,SAR images have a strong non-intuitive property, which causes difficulties in SAR image labeling, and which results in the weakened learning and generalization performance of many classifiers (including CNN). In this paper, we propose a Probability Transition CNN (PTCNN) for patch-level SAR image classification with noisy labels. Based on the classical CNN, PTCNN builds a bridge between noise-free labels and their noisy versions via a noisy-label transition layer. As such, we derive a new CNN model trained with a noisily labeled training dataset that can potentially revise noisy labels and improve learning capacity with noisily labeled data. We use a 16-class land cover dataset and the MSTAR dataset to demonstrate the effectiveness of our model. Our experimental results show the PTCNN model to be robust with respect to label noise and demonstrate its promising classification performance compared with the classical CNN model. Therefore, the proposed PTCNN model could lower the standards required regarding the quality of image labels and have a variety of practical applications.
SAR image classification; Supervised learning; Noisy labels; Probability Transition Convolutional Neural Network (PTCNN); Deep features
TN957.52
A
2095-283X(2017)05-0514-10
10.12000/JR16140
趙娟萍, 郭煒煒, 柳彬, 等. 基于概率轉(zhuǎn)移卷積神經(jīng)網(wǎng)絡(luò)的含噪標(biāo)記SAR圖像分類[J]. 雷達(dá)學(xué)報(bào), 2017,6(5): 514—523.
10.12000/JR16140.
Reference format:Zhao Juanping, Guo Weiwei, Liu Bin,et al.. Convolutional neural network-based SAR image classification with noisy labels[J].Journal of Radars, 2017, 6(5): 514—523. DOI: 10.12000/JR16140.
2016-12-06;改回日期:2017-04-07;網(wǎng)絡(luò)出版:2017-04-21
*通信作者: 張?jiān)鲚x zenghui.zhang@sjtu.edu.cn
國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61331015),中國(guó)博士后基金項(xiàng)目(2015M581618)