袁國(guó)文,張彩霞,楊 陽,張文生,白江波
1.佛山科學(xué)技術(shù)學(xué)院 機(jī)電工程與自動(dòng)化學(xué)院,廣東 佛山 528000
2.中國(guó)科學(xué)院 自動(dòng)化研究所,北京 100080
3.廣東省智慧城市基礎(chǔ)設(shè)施健康監(jiān)測(cè)與評(píng)估工程技術(shù)研究中心,廣東 佛山 528000
我國(guó)海域遼闊,海洋資源豐富。近代以來,海域更是外國(guó)軍事侵入的重點(diǎn)區(qū)域,SAR圖像的檢測(cè)與解譯是海域軍事監(jiān)視與民事援助的重要組成部分,由于其自身成像時(shí)的噪聲干擾以及目標(biāo)形狀尺寸的多樣性,增加了SAR目標(biāo)的檢測(cè)難度。SAR目標(biāo)檢測(cè)分為傳統(tǒng)方法與深度學(xué)習(xí)方法,傳統(tǒng)方法一般分為3部分,檢測(cè)窗口設(shè)計(jì)、特征選擇、分類器設(shè)計(jì)[1],其中應(yīng)用最普遍的是基于恒虛警率的CFAR(constant false-alarm rate)系列算法[2],其利用艦船與海洋雜波統(tǒng)計(jì)特征的差異性,對(duì)艦船目標(biāo)進(jìn)行檢測(cè)分析,在當(dāng)代SAR圖像獲取技術(shù)日益成熟的情況下,計(jì)算復(fù)雜且人工參與度較高的傳統(tǒng)目標(biāo)檢測(cè)方法已經(jīng)無法滿足人們對(duì)SAR圖像處理的需求。
隨著深度學(xué)習(xí)的再次興起,專家學(xué)者們已經(jīng)構(gòu)建了一套較成熟的可見光目標(biāo)檢測(cè)框架,其中依托于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的檢測(cè)方法突出了其優(yōu)勢(shì),根據(jù)是否單獨(dú)生成特征候選區(qū)域,分為一階段與二階段檢測(cè)器,一階段檢測(cè)器以SSD(single shot multibox detector)、RetinaNet、YOLO(you only look once)等網(wǎng)絡(luò)為代表,二階段檢測(cè)器以R-CNN、Faster R-CNN等網(wǎng)絡(luò)為代表[3]。與此同時(shí),一部分專家學(xué)者將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到SAR圖像目標(biāo)檢測(cè)的過程中,2015年,史丹榮[4]在碩士論文中利用深度學(xué)習(xí)的限制玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)與CNN網(wǎng)絡(luò)分別進(jìn)行在SAR艦船圖像上的目標(biāo)檢測(cè)實(shí)驗(yàn),并分析了深度學(xué)習(xí)特別是CNN網(wǎng)絡(luò)在SAR圖像目標(biāo)檢測(cè)取得優(yōu)勢(shì)的原因。2016年,杜蘭等人[5]在SAR圖像訓(xùn)練樣本不足情況下,在已有完備數(shù)據(jù)集中獲取CNN分類模型的初始化參數(shù),并對(duì)其訓(xùn)練數(shù)據(jù)進(jìn)行補(bǔ)充,借助“四步訓(xùn)練法”獲得SAR目標(biāo)檢測(cè)模型,實(shí)驗(yàn)證明了其優(yōu)點(diǎn)。田壯壯等人[6]改進(jìn)CNN網(wǎng)絡(luò),將類別可分性度量加入誤差代價(jià)函數(shù),對(duì)特征分類使用支持向量機(jī)(support vector machine,SVM),在著名的美國(guó)運(yùn)動(dòng)和靜止目標(biāo)獲取與識(shí)別(moving and stationary target acquisition and recognition,MSTAR)SAR數(shù)據(jù)集中進(jìn)行驗(yàn)證,在3類與10類目標(biāo)數(shù)目情況下,平均識(shí)別率均達(dá)到91%以上。史鶴歡等人[7]利用PCA網(wǎng)絡(luò)進(jìn)行CNN網(wǎng)絡(luò)預(yù)訓(xùn)練,利用概率最大化下采樣增加魯棒性,最后在CNN網(wǎng)絡(luò)中對(duì)特征進(jìn)行局部對(duì)比度標(biāo)準(zhǔn)化,改進(jìn)算法在MSTAR數(shù)據(jù)集中取得96.97%的識(shí)別率,并實(shí)驗(yàn)驗(yàn)證了魯棒性能的提升。2017年,徐豐等人[8]將改進(jìn)的CNN應(yīng)用MSTAR數(shù)據(jù),對(duì)于10類模板取得了平均99%的識(shí)別準(zhǔn)確率,并在全極化SAR圖像地物分類中引入復(fù)數(shù)深度卷積網(wǎng)絡(luò)(complex-valued-CNN,CV-CNN),在Flevoland地區(qū)全極化L波段的數(shù)據(jù)中,使15類地物平均分類精度達(dá)到了95.97%。Kang等人[9]將Faster R-CNN與CFAR算法相結(jié)合,多次評(píng)估檢測(cè)網(wǎng)絡(luò)中分類得分相對(duì)較低的邊界框,通過提高小目標(biāo)檢測(cè)精度來提高整體的檢測(cè)精度。李君寶等人[10]針對(duì)MSTAR數(shù)據(jù)集,使用流行的CNN、Fast RCNN以及Faster RCNN等模型進(jìn)行實(shí)驗(yàn),驗(yàn)證了CNN網(wǎng)絡(luò)的優(yōu)越性并為以后的研究提供基準(zhǔn)。2018年,李健偉等人[11]提出基于PASCAL VOC的SSDD數(shù)據(jù)集,用于SAR艦船目標(biāo)檢測(cè),并將遷移學(xué)習(xí)、損失函數(shù)設(shè)計(jì),特征聚合等細(xì)節(jié)加入SAR目標(biāo)檢測(cè)的方法中,通過對(duì)比實(shí)驗(yàn),驗(yàn)證其方法在精度與檢測(cè)速度方面均有提升。Bentes等人[12]針對(duì)貨物、油輪、風(fēng)車、平臺(tái)和港口5個(gè)類別的公共數(shù)據(jù)集提出多輸入分辨率的CNN模型,驗(yàn)證了CNN網(wǎng)絡(luò)的優(yōu)越性。
根據(jù)上述文獻(xiàn)的閱讀分析發(fā)現(xiàn),困難樣本的特征有效提取問題,是提升樣本的最終檢測(cè)精度的重要方面,本文使用NAS-FPN[13]作為特征提取網(wǎng)絡(luò),通過解決FPN多尺度特征金字塔融合的問題來獲取圖像的有效特征,最終通過與一階段檢測(cè)器Libra R-CNN[14]網(wǎng)絡(luò)相結(jié)合的實(shí)驗(yàn)結(jié)果證明了融合后網(wǎng)絡(luò)的有效性。
SAR在成像過程中由于自身的成像模式易產(chǎn)生斑點(diǎn)噪聲影響,以及本身分辨率問題,均對(duì)目標(biāo)檢測(cè)模型的準(zhǔn)確率帶來危害[4],因此應(yīng)針對(duì)訓(xùn)練過程消弭或減弱此種問題。Libra R-CNN網(wǎng)絡(luò)通過分析現(xiàn)有檢測(cè)器模型,在采樣、特征、目標(biāo)水平,分別提出一種平衡方法,減輕對(duì)象檢測(cè)訓(xùn)練過程中的失衡,實(shí)現(xiàn)最佳訓(xùn)練并充分利用模型體系結(jié)構(gòu)的潛力。如圖1所示[14],Libra R-CNN網(wǎng)絡(luò)同樣利用CNN[15]網(wǎng)絡(luò)從圖像中提取特征,為了解決隨機(jī)采樣導(dǎo)致的困難樣本提取問題,在(a)處提出IoU平衡采樣(IoU-balanced sampling)方法;為了更優(yōu)的同時(shí)使用特征網(wǎng)絡(luò)中的高層與淺層信息,在(b)處使用平衡特征金字塔(balanced feature pyramid)方法;最后為了平衡分類與定位之間的相互影響,在(c)處提出平衡L1損失(balanced L1 loss)。
圖1 Libra R-CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Libra R-CNN network structure
(a)IoU平衡采樣
在隨機(jī)采樣中,從M個(gè)對(duì)應(yīng)的候選對(duì)象中抽取N個(gè)負(fù)樣本的概率為:
目標(biāo)檢測(cè)時(shí),每個(gè)樣本所做的貢獻(xiàn)度不同,為了更多地關(guān)注貢獻(xiàn)度較大的樣本——困難樣本,提高困難樣本被抽中的概率,根據(jù)IoU值將采樣間隔平均分為K個(gè)區(qū)間,并將N個(gè)所需的負(fù)樣本平均分配到每個(gè)區(qū)間,然后,從中統(tǒng)一選擇樣本。此時(shí)獲得了IoU平衡采樣下的選定概率:
(b)平衡特征金字塔
以FPN[16]網(wǎng)絡(luò)為基礎(chǔ),使用相同的深度集成平衡語義特征來增強(qiáng)多級(jí)特征,對(duì)四個(gè)水平的特征進(jìn)行縮放尺寸,整合,融合特征信息,最后再根據(jù)原特征圖尺寸,增強(qiáng)原特征。過程如圖2[14]所示。具體步驟如下:
圖2 平衡特征金字塔Fig.2 Balanced feature pyramid
步驟1利用插值法和最大池化法,將各級(jí)特征圖{C2,C3,C4,C5}變?yōu)榕cC4相同的尺寸。
步驟2將第一步特征整合為平衡的語義特征。
步驟3利用高斯非局部注意力機(jī)制,完善平衡的語義特征,增加特征差異度。
步驟4使用相同但相反的步驟重新縮放獲得的特征,增強(qiáng)原始特征。
(c)平衡L1損失
從Fast R-CNN[17]開始,目標(biāo)檢測(cè)中的分類和回歸都在多任務(wù)損失函數(shù)中處理,損失函數(shù)為:
其中,Lclc和Lloc分別代表分類和定位損失,p和u代表Lcls中的預(yù)測(cè)值與實(shí)際值,tu是分類u相應(yīng)的回歸結(jié)果,v是回歸目標(biāo)。Balanced L1 Loss是傳統(tǒng)smoothL1loss[18]的改進(jìn),對(duì)損失中關(guān)鍵點(diǎn)的回歸梯度進(jìn)行操作,定義Lb(x):
其中定義:
通過調(diào)節(jié)α、γ的值來實(shí)現(xiàn)分類與回歸損失函數(shù)之間的平衡。
通過閱讀論文發(fā)現(xiàn),針對(duì)噪聲較多的SAR圖像,較全面地兼顧圖像語義與細(xì)節(jié)特征,找到具有代表性的有效特征對(duì)人為設(shè)置的網(wǎng)絡(luò)來說是比較困難的,NAS-FPN網(wǎng)絡(luò)是一種借助神經(jīng)架構(gòu)搜索(NAS)[19]的特征金字塔網(wǎng)絡(luò),與原先的FPN網(wǎng)絡(luò)相比,NAS-FPN借鑒分類網(wǎng)絡(luò)架構(gòu)搜索方法NASNet,選擇以RNN作為控制器的強(qiáng)化學(xué)習(xí)搜索方法來構(gòu)建特征層集合,進(jìn)行特征融合構(gòu)造新特征層,搜索終止條件為填滿輸出金字塔的每一層。具體步驟如下:
(1)從特征層集合中選擇一個(gè)特征層作為輸入層。
(2)從特征層集合選擇另一個(gè)特征層作為第二個(gè)輸入層。
(3)確定輸出層的分辨率。
(4)確定特征層融合操作。
(5)將融合后的輸出層加入原有特征層集合中,擴(kuò)大特征層集合。
(6)遍歷(1)~(5),直至填滿特征層網(wǎng)絡(luò)。
本文選用在coco2017數(shù)據(jù)集訓(xùn)練成功的7層NASFPN網(wǎng)絡(luò),結(jié)果如圖3[13],其中GP為全局池化;R-C-B為ReLU-Conv-BatchNorm,輸入層用P3~P7表示,輸出層用P3~P7表示。
圖3 NAS-FPN網(wǎng)絡(luò)Fig.3 NAS-FPN network
為了驗(yàn)證改進(jìn)算法的有效性,本文選用中科院制作的SAR-Ship-Dataset[20],由102張Gaofen-3和108張Sentinel-1圖像切片而成,圖片大小為256×256,總數(shù)目43 819,按VOC格式標(biāo)注,按照7∶2∶1劃分?jǐn)?shù)據(jù)集,數(shù)據(jù)集樣本如圖4所示。
圖4 數(shù)據(jù)集樣本Fig.4 Sample data set
本文算法基于mmdetection[21]框架改進(jìn)而來,主要包括NAS-FPN與Libra R-CNN網(wǎng)絡(luò)及其融合網(wǎng)絡(luò),實(shí)驗(yàn)在Ubuntu 16.04.6上運(yùn)行,其中GPU選擇為Nvidia1080Ti,CUDA設(shè)置為10.0。NAS-FPN與Libra R-CNN網(wǎng)絡(luò)參數(shù)設(shè)置相同,以IOU大于0.5為閾值評(píng)估得分,訓(xùn)練周期為12,與mmdetection原有模型Libra R-CNN網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)主要改進(jìn)有以下幾點(diǎn):
(1)圖像尺寸均固定為640×640。
(2)優(yōu)化器由SGD替換為Adam優(yōu)化器,學(xué)習(xí)率為0.000 01。
(3)通過前期實(shí)驗(yàn)結(jié)果將批處理數(shù)設(shè)置為4。
(4)特征提取網(wǎng)絡(luò)由FPN替換為NAS-FPN。
(5)根據(jù)前期實(shí)驗(yàn)結(jié)果不進(jìn)行圖片翻轉(zhuǎn)。
最終模型架構(gòu)如圖5所示。
圖5 libra_rcnn-nasfpn網(wǎng)絡(luò)Fig.5 libra_rcnn-nasfpn network
目標(biāo)檢測(cè)過程中,檢測(cè)準(zhǔn)確性的評(píng)估指標(biāo)多數(shù)選擇為平均準(zhǔn)確率(map)。本文首先對(duì)NAS-FPN算法進(jìn)行實(shí)驗(yàn),然后將NAS-FPN網(wǎng)絡(luò)與平衡金字塔網(wǎng)絡(luò)結(jié)合進(jìn)行實(shí)驗(yàn),接著將NAS-FPN網(wǎng)絡(luò)與平衡L1損失結(jié)合進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。
表1 子網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果Table 1 Subnet experimental results
分析表1發(fā)現(xiàn),通過添加Balanced Feature Pyramid操作,平衡各級(jí)原特征層,增強(qiáng)原有特征,使目標(biāo)檢測(cè)平均精度提升了0.5個(gè)百分點(diǎn),而Balanced L1 Loss操作,通過平衡分類與回歸損失,為目標(biāo)檢測(cè)平均精度提升奉獻(xiàn)了1.4個(gè)百分點(diǎn)。最終不同模型下平均準(zhǔn)確率如表2所示。
表2 不同模型的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different models
表2中SSD-300與SSD-512為SAR-Ship-Dataset數(shù)據(jù)集提出時(shí)的檢測(cè)精度,通過比較發(fā)現(xiàn),將Libra R-CNN網(wǎng)絡(luò)與NAS-FPN結(jié)合后的網(wǎng)絡(luò)平均準(zhǔn)確率與NAS-FPN網(wǎng)絡(luò)相比提高4.4個(gè)百分點(diǎn),主要原因是因?yàn)樘砑拥?種訓(xùn)練過程中的平衡操作,有效地提高了困難樣本的檢測(cè)精度,與SSD相比分別提高2.1個(gè)百分點(diǎn)和1.0個(gè)百分點(diǎn),與Libra R-CNN網(wǎng)絡(luò)相比提高0.7個(gè)百分點(diǎn),綜合來看,本文的方法有效地提升了SAR目標(biāo)檢測(cè)的精度。
部分實(shí)驗(yàn)結(jié)果如圖6所示:其中上部分為NAS-FPN網(wǎng)絡(luò)結(jié)果,下部分為本文網(wǎng)絡(luò)融合后的實(shí)驗(yàn)結(jié)果,從相對(duì)應(yīng)的圖像中可以發(fā)現(xiàn),第二行的得分明顯高于第一行,佐證了融合后目標(biāo)檢測(cè)網(wǎng)絡(luò)的有效性。
圖6 實(shí)驗(yàn)結(jié)果對(duì)照?qǐng)DFig.6 Comparison chart of experimental results
本文通過研讀SAR目標(biāo)檢測(cè)相關(guān)文獻(xiàn),針對(duì)SAR圖像由于困難樣本提取影響目標(biāo)檢測(cè)精度問題,提出一種將NAS-FPN網(wǎng)絡(luò)與Libra R-CNN網(wǎng)絡(luò)融合后的SAR目標(biāo)檢測(cè)算法,同時(shí)在SAR-Ship-Dataset數(shù)據(jù)集中進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,融合后的網(wǎng)絡(luò)與單獨(dú)的NAS-FPN網(wǎng)絡(luò)或Libra R-CNN網(wǎng)絡(luò)相比,均取得了檢測(cè)精度的提升,證明了深度學(xué)習(xí)特別是卷積網(wǎng)絡(luò)在SAR目標(biāo)檢測(cè)中的有效性,在下一步的研究工作中,NASFPN網(wǎng)絡(luò)將會(huì)在更多的其他網(wǎng)絡(luò)模型中使用,以便驗(yàn)證其通用性。