徐逸之,姚曉婧,李 祥,周 楠,胡 媛
(1. 中國科學(xué)院遙感與數(shù)字地球研究所,北京100094; 2. 中國科學(xué)院大學(xué),北京100049; 3. 蘇州中科天啟遙感科技有限公司,江蘇 蘇州 215163)
高分辨率遙感影像的目標(biāo)分類與識別是遙感影像智能化信息提取中的關(guān)鍵技術(shù),是精確制導(dǎo)、武器防御、海情監(jiān)控等軍事目標(biāo)識別系統(tǒng)的關(guān)鍵,也是提升減災(zāi)應(yīng)急、交通監(jiān)管、漁業(yè)海事等民用系統(tǒng)智能化水平的核心技術(shù)[1]。隨著傳感器技術(shù)的飛速發(fā)展,遙感影像的空間分辨率不斷提高。高空間分辨率遙感影像不僅降低了中低分辨率遙感影像中存在的混合像元問題,更提供了豐富的空間信息、幾何結(jié)構(gòu)和紋理信息,這為遙感影像上目標(biāo)的檢測提供了可能,因此研究基于高分辨率遙感影像的目標(biāo)檢測識別算法成為當(dāng)前的迫切需求。傳統(tǒng)遙感影像目標(biāo)檢測算法多使用人工構(gòu)造的淺層次特征,如HOG特征[2]、SIFT特征[3-4]等,識別效果嚴(yán)重依賴于專家知識及特征構(gòu)造中的有效性,很難充分挖掘影像中深層特征。在目標(biāo)檢測的精度和效率方面,難以滿足大范圍自動化應(yīng)用的需求,同時對于災(zāi)害應(yīng)急等實時性要求較高的工程應(yīng)用任務(wù)也十分局限。
近年來,深度學(xué)習(xí)算法在圖像分類、自然語言處理、降維、目標(biāo)檢測、運動建模、人工智能等領(lǐng)域取得前所未有的成果[5-11]。深度學(xué)習(xí)一般需大量的訓(xùn)練樣本才容易提取其特征,這與遙感圖像大數(shù)據(jù)的特性不謀而合。深度學(xué)習(xí)在遙感中的應(yīng)用引起廣泛重視,并在場景分類[12]、高光譜圖像分類[13-14]等方面取得顯著性成效。目標(biāo)檢測方面,Chen Xueyun[15-16]使用深度置信網(wǎng)絡(luò)和深度卷積網(wǎng)絡(luò)進行了飛機和車輛的檢測;Diao Wenhui[17]提出了一種基于稀疏深度置信網(wǎng)絡(luò)遙感影像目標(biāo)檢測方法,并在QuickBird影像上進行了飛機檢測試驗,達到了88.9%的準(zhǔn)確率,每張圖檢測時間為6.3 s;Han Junwei等[18]提出了一種基于深度玻爾茲曼機的遙感影像目標(biāo)檢測方法,并在3個光學(xué)遙感影像數(shù)據(jù)集上進行了試驗,證明了方法的有效性;高常鑫[19]使用棧式自編碼器來提取高分辨率遙感影像中目標(biāo)語義表征及上下文約束表征,以實現(xiàn)高精度目標(biāo)檢測。然而,這些方法都聚焦在使用深度學(xué)習(xí)算法來進行特征提取,然后使用提取的特征構(gòu)造分類器。檢測流程中并沒有給出目標(biāo)搜索的算法,而是需要使用掃描窗口來逐一判讀目標(biāo)位置,因而效率較低。Faster R-CNN算法首次提出使用區(qū)域建議網(wǎng)絡(luò)(regional proposal network,RPN)來提取候選區(qū)域,將候選區(qū)域提取與分類統(tǒng)一到同一框架,實現(xiàn)了端到端的目標(biāo)檢測過程,檢測精度和效率都得到了大幅提高。王萬國等[20]使用Faster R-CNN算法開展了無人機巡檢圖像電力小部件識別研究,達到每張近80 ms的識別速度和92.7%的準(zhǔn)確率。但是,F(xiàn)aster R-CNN算法由于使用了RoI池化層,各個RoI計算不共享,因此檢測速度依然較慢,無法達到實時性任務(wù)的需求。
全卷積網(wǎng)絡(luò)(fully convolutional networks)為目標(biāo)檢測提供了一種新的高效檢測框架,諸如殘差網(wǎng)絡(luò)(ResNet)[21]和GoogLeNets[22]等先進的圖像分類網(wǎng)絡(luò)均為全卷積網(wǎng)絡(luò)。類似地,可在物體檢測中用全卷積網(wǎng)絡(luò)。然而,現(xiàn)有研究表明,直接使用全卷積網(wǎng)絡(luò)進行目標(biāo)檢測效果遠差于該網(wǎng)絡(luò)的分類效果。主要原因在于物體分類要求平移不變性越大越好,因而平移不變性較好的全卷積結(jié)構(gòu)更受青睞,而物體檢測需要一些平移變化的定位表示。為了解決這一問題,R-FCN(regional-fully convolutional networks)[23]算法采用專門的卷積層構(gòu)建位置敏感分?jǐn)?shù)圖,每個空間敏感分?jǐn)?shù)圖編碼感興趣區(qū)域的相對空間位置信息。該方法在ImageNet挑戰(zhàn)賽、COCO目標(biāo)檢測任務(wù)中取得了較好的效果。
本文研究基于全卷積網(wǎng)絡(luò)的R-FCN算法在高分辨遙感影像目標(biāo)檢測中的應(yīng)用,并以飛機識別為例,比較Fast R-CNN[24]、Faster R-CNN[25]和R-FCN 3種算法的檢測精度和效率。
類似于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN),本文采用計算機視覺領(lǐng)域流行的目標(biāo)檢測策略,包括區(qū)域建議和區(qū)域分類兩步。用Faster R-CNN中的區(qū)域建議網(wǎng)絡(luò)(RPN)提取候選區(qū)域,該RPN為全卷積網(wǎng)絡(luò)。效仿Faster R-CNN,共享RPN和R-FCN的特征。R-FCN用來對RPN提取的感興趣區(qū)域分類。整體技術(shù)流程如圖1所示。
圖1 基于RFCN的飛機檢測流程
R-FCN在與RPN共享的卷積層后多加1個卷積層,該卷積層在整幅圖像上為每類生成k2個位置敏感分?jǐn)?shù)圖,有C類物體外加1個背景,因此有k2(C+1)個通道的輸出層。k2個分?jǐn)?shù)圖對應(yīng)描述位置的空間網(wǎng)格。如k×k=3×3,則9個分?jǐn)?shù)圖編碼單個物體類。
R-FCN最后用位置敏感RoI池化層,給每個RoI 1個分?jǐn)?shù)。與Faster R-CNN的RoI池化方式不同,這里使用選擇性池化。選擇性池化圖解:看上圖的淺藍色響應(yīng)圖像(top-left),摳出淺藍色方塊RoI,池化淺藍色方塊RoI得到淺藍色小方塊分?jǐn)?shù);其他顏色的響應(yīng)圖像同理。對所有顏色的小方塊投票(或池化)得到各個類別的響應(yīng)結(jié)果,也即C+1個類別得分,最后使用Softmax分類器進行分類。如圖2所示。
圖2 R-FCN網(wǎng)絡(luò)結(jié)構(gòu)
RPN網(wǎng)絡(luò)的輸入為一個卷積特征圖,使用一個k×k滑動窗口(本文使用3×3)掃描整個特征圖,得到一個256-d的特征圖,然后使用大小為1×1的卷積核對其進行卷積運算,得到一個2k(類別)通道的分?jǐn)?shù)圖和一個4k(邊界框)通道的分?jǐn)?shù)圖。試驗中采用3種不同尺寸(128、256、512)和3種不同比例(1∶1、1∶2、2∶1)組合成的9種基準(zhǔn)小窗口對包含目標(biāo)的窗口位置進行預(yù)測,使區(qū)域提議更準(zhǔn)確。
式中,rc(i,j)為第c類第(i,j)個桶的池化響應(yīng);zi,j,c為k2(C+1)個分?jǐn)?shù)圖中的輸出;(x0,y0)為RoI的左上角坐標(biāo);n為桶里的像素總數(shù);θ為網(wǎng)絡(luò)的參數(shù)。
每個RoI的損失函數(shù)為交叉熵?fù)p失與邊界框回歸損失的加權(quán)和
L(s,tx,y,w,h)=Lcls(Sc*)+λ[c*>0]Lreg(t,t*)
式中,c*是RoI的真實類別標(biāo)簽,c*=0說明RoI為背景。當(dāng)RPN產(chǎn)生的區(qū)域建議當(dāng)RoI與真實邊框的IoU(RoI與真實邊框交集的面積占它們并集面積的比例)超過0.5時,標(biāo)定為正樣本,否則為負(fù)樣本。Lcls使用Softmax損失函數(shù),Lreg使用SmoothL1損失函數(shù),計算方式參照文獻[26],同樣設(shè)置λ為1。
此外,在網(wǎng)絡(luò)訓(xùn)練過程中,使用在線難例挖掘(OHEM)[28]。在線難例挖掘是一種Hard Negative Mining的方式,用于啟發(fā)式地選擇出模型難以正確分類的樣本,從而使訓(xùn)練過程更為高效。假設(shè)每個圖像前向產(chǎn)生N個區(qū)域建議,計算所有建議的損失。按損失排序所有RoIs,選擇損失最高的B個RoIs,反向傳播過程只使用選擇的難樣本。
從谷歌地圖上選取了100張包含飛機的圖片,原始圖像大小近似為600×600像素,并人工標(biāo)注其中飛機樣本外邊框,如圖3所示。使用其中50%圖片樣本進行訓(xùn)練和驗證,剩余50%的圖片樣本用于測試。本次試驗中,用準(zhǔn)確率和召回率來評判識別的準(zhǔn)確性,其中召回率為正確識別飛機數(shù)量除以測試圖像中飛機總數(shù)量,準(zhǔn)確率為正確識別飛機數(shù)量除以模型識別出來飛機數(shù)量。
本文R-FCN方法中RPN網(wǎng)絡(luò)和檢測網(wǎng)絡(luò)使用ResNet-50/ResNet-101來構(gòu)建。ResNet-50(101)使用50(101)個卷積層,后接1個平均池化層和1個全連接層。刪除平均池層和全連接層,只使用卷積層來計算特征圖。使用ImageNet數(shù)據(jù)集對ResNet-51(101)網(wǎng)絡(luò)進行了預(yù)訓(xùn)練。ResNet-51中的最后一個卷積塊是2048-d,附加一個隨機初始化的1024-d的1×1卷積層,放在k2(C+1)通道卷積層之前,用于減小尺寸。
圖3 飛機樣本
在訓(xùn)練過程中,設(shè)置初始學(xué)習(xí)速率為0.001,每迭代2000次降低為原來的0.1倍,學(xué)習(xí)動量為0.9,正則化項系數(shù)為0.001 6,批處理大小為64。本文采用端到端(end-to-end)的方式來訓(xùn)練RPN網(wǎng)絡(luò)和R-FCN網(wǎng)絡(luò)。
本文所有試驗均在同一臺服務(wù)器上完成,采用GPU編程實現(xiàn)。試驗中使用GTX TITAN X顯卡(12 GB顯存),基于Caffe框架實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)模型。
首先,本文試驗了不同參數(shù)設(shè)置對平均準(zhǔn)確率均值(mAP)的影響。根據(jù)R-FCN論文結(jié)論可知,輸入影像的尺寸、最大迭代次數(shù)及是否使用OHEM對檢測精度有較大的影響,因此筆者進行了多組對比試驗確定最優(yōu)參數(shù)配置。表1展示了不同試驗設(shè)置情況下的檢測精度。從表1可知,不同參數(shù)配置下,R-FCN算法精度變化不明顯,均在90%左右浮動;使用OHEM能提高R-FCN算法精度;增大輸入影像尺寸和最大迭代次數(shù),R-FCN檢測精度并沒有提高,反而可能會降低。
表1 不同參數(shù)配置下R-FCN在測試集上mAP對比 (%)
然后,本文使用更深的ResNet-101構(gòu)建R-FCN網(wǎng)絡(luò),參數(shù)調(diào)優(yōu)過程同上,檢測精度見表1。從表1可知,使用更深的網(wǎng)絡(luò)結(jié)構(gòu),檢測精度幾乎不變,導(dǎo)致這一現(xiàn)象的原因可能是網(wǎng)絡(luò)太深造成了過擬合現(xiàn)象。使用以上確定的最優(yōu)參數(shù)配置,隨機從測試樣本中挑選了5張圖片進行測試,測試效果如圖4所示。從圖中可以看出,R-FCN方法能夠有效地識別各種尺寸、背景、光照條件下的飛機無錯檢和漏檢的情況。在檢測IoU閾值設(shè)定為0.5的情況下,召回率達到98.6%,對應(yīng)的準(zhǔn)確率為99.3%。
最后,筆者比較了R-FCN、Faster R-CNN、Fast R-CNN這3種方法在測試集上的識別精度和速度,見表2。需要說明的是,F(xiàn)ast R-CNN算法使用Selective Search生成候選區(qū)域,而Faster R-CNN和R-FCN算法使用區(qū)域建議網(wǎng)絡(luò)生成候選區(qū)域。為了使試驗結(jié)果具有可比性,保持3種方法使用的候選區(qū)域數(shù)量一致,都是300個。
圖4 基于R-FCN的飛機識別效果
從表2可以看出:①Fast R-CNN方法由于使用傳統(tǒng)Selective Search方式確定候選區(qū)域,而過程采用CPU運算,因而速度遠低于另外兩種基于GPU運算的方法;②Faster R-CNN+ZF/VGG16由于網(wǎng)絡(luò)結(jié)構(gòu)簡單(5層,16層),檢測速度較快,但精度較低,出現(xiàn)了較多錯檢和漏檢的情況;③使用ResNet-50(101)網(wǎng)絡(luò)結(jié)構(gòu)的Faster R-CNN算法,檢測精度得到了提高,但由于Faster R-CNN中RoI池化計算不共享,因而速度比同樣網(wǎng)絡(luò)結(jié)構(gòu)的R-FCN方法慢;④R-FCN方法采用全卷積網(wǎng)絡(luò)結(jié)構(gòu),RoI池化層共享計算,檢測精度高、速度快。綜合考慮,R-FCN方法目標(biāo)檢測效果優(yōu)于Faster R-CNN,遠優(yōu)于Fast R-CNN方法。
本文探討了基于全卷積網(wǎng)絡(luò)的R-FCN算法在高分辨遙感影像目標(biāo)檢測中的有效性,并分析了不同參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)對R-FCN檢測效果的影響,對比分析了Fast R-CNN算法、Faster R-CNN算法和R-FCN算法在飛機識別中的效果。結(jié)果表明,R-FCN方法比Fast R-CNN算法和Faster R-CNN識別精度更高,速度更快,識別準(zhǔn)確率達99.3%,識別速度達到每張180 ms,基本滿足高分辨遙感影像處理自動化實時處理需求。
[1] 劉揚,付征葉,鄭逢斌.高分辨率遙感影像目標(biāo)分類與識別研究進展[J].地球信息科學(xué)學(xué)報,2015,17(9):1080-1091.
[2] DALAL N,TRIGGS B.Histograms of Oriented Gradients for Human Detection[C]∥Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR’05).[S.l.]:IEEE,2005.
[3] LOWE D G.Object Recognition from Local Scale-invariant Features[C]∥Proceedings of the 7th IEEE International Conference on Computer Vision.Kerkyra:IEEE,1999.
[4] LOWE D G.Distinctive Image Features from Scale-invariant Keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[5] HINTON G E,SALAKHUTDINOV R R.Reducing the Dimensionality of Data with Neural Networks[J].Science,2006,313(5786):504-507.
[6] COLLOBERT R,WESTON J.A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning[C]∥Proceedings of the 25th International Conference on Machine Learning.Helsinki:ACM,2008.
[7] BENGIO Y.Learning Deep Architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
[8] MOHAMED A,SAINATH T N,DAHL G,et al.Deep Belief Networks Using Discriminative Features for Phone Recognition[C]∥IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Pragve:IEEE,2011.
[9] CHAN T,JIA K,GAO S,et al.PCANet: A Simple Deep Learning Baseline for Image Classification?[J].IEEE Transactions on Image Processing,2015,24(12):5017-5032.
[10] KAVUKCUOGLU K,RANZATO M,LECUN Y.Fast Inference in Sparse Coding Algorithms with Applications to Object Recognition[C]∥Proceedings of OPT 2008.[S.l.]:[s.n.],2008.
[11] SILVER D,HUANG A,MADDISON C J,et al.Mastering the Game of Go with Deep Neural Networks and Tree Search[J].Nature,2016,529(7587):484-489.
[12] ZHANG F,DU B,ZHANG L.Scene Classification via a Gradient Boosting Random Convolutional Network Framework[J].IEEE Transactions on Geoscience and Remote Sensing,2016,54(3):1793-1802.
[13] HU W,HUANG Y,WEI L,et al.Deep Convolutional Neural Networks for Hyperspectral Image Classification[J].Journal of Sensors,2015(2015):1-12.
[14] MA X,GENG J,WANG H.Hyperspectral Image Classification via Contextual Deep Learning[J].EURASIP Journal on Image and Video Processing,2015.https:∥doi.org/10.1186/s13640-015-0071-8.
[15] CHEN X,XIANG S,LIU C,et al.Aircraft Detection by Deep Belief Nets[C]∥2013 2nd IAPR Asian Conference on Pattern Recognition(ACPR 2013).Naha:IEEE,2013:54-58.
[16] CHEN X,XIANG S,LIU C,et al.Vehicle Detection in Satellite Images by Hybrid Deep Convolutional Neural Networks[J].IEEE Geoscience and Remote Sensing Letters,2014,11(10):1797-1801.
[17] DIAO W,SUN X,DOU F,et al.Object Recognition in Remote Sensing Images Using Sparse Deep Belief Networks[J].Remote Sensing Letters,2015,6(10):745-754.
[18] HAN J,ZHANG D,CHENG G,et al.Object Detection in Optical Remote Sensing Images Based on Weakly Supervised Learning and High-level Feature Learning[J].IEEE Transactions on Geoscience and Remote Sensing,2015,53(6):3325-3337.
[19] 高常鑫,桑農(nóng).基于深度學(xué)習(xí)的高分辨率遙感影像目標(biāo)檢測[J].測繪通報,2014(S1):108-111.
[20] 王萬國,田兵,劉越,等.基于RCNN的無人機巡檢圖像電力小部件識別研究[J].地球信息科學(xué)學(xué)報,2017,19(2):256-263.
[21] HE K,ZHANG X,REN S,et al.Deep Residual Learning for Image Recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016.
[22] SZEGEDY C,LIU W,JIA Y,et al.Going Deeper with Convolutions[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015.
[23] DAI J,LI Y,HE K,et al.R-FCN: Object Detection via Region-based Fully Convolutional Networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016.
[24] GIRSHICK R.Fast r-cnn[C]∥Proceedings of the IEEE International Conference on Computer Vision.[S.l.]:IEEE,2005.
[25] REN S,HE K,GIRSHICK R,et al.Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[26] SHRIVASTAVA A,GUPTA A,GIRSHICK R.Training Region-based Object Detectors with Online Hard Example Mining[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016.