常鵬飛,段云龍
(中國電子科技集團(tuán)公司第二十七研究所,河南 鄭州 450047)
隨著衛(wèi)星遙感技術(shù)及計(jì)算機(jī)視覺技術(shù)的發(fā)展和應(yīng)用,遙感圖像中的目標(biāo)檢測成為研究的熱點(diǎn)[1-2]。利用遙感圖像高效快速地檢測出飛機(jī)等典型的高價(jià)值目標(biāo)在模式識別、偵察探測等領(lǐng)域具有很高的應(yīng)用價(jià)值,同時(shí)也是遙感智能處理領(lǐng)域的重點(diǎn)研究問題。
多年來,國內(nèi)外許多學(xué)者對遙感圖像中飛機(jī)檢測技術(shù)進(jìn)行了廣泛而深入的研究,取得了一定的成果。Guang Shu利用顏色、紋理和亮度等低層特征構(gòu)建顯著圖實(shí)現(xiàn)飛機(jī)粗定位,訓(xùn)練AdaBoost級聯(lián)分類器,提取harr特征實(shí)現(xiàn)目標(biāo)檢測[3];李新德等人提出了利用DSmT進(jìn)行多特征融合后用PNN進(jìn)行分類的飛機(jī)目標(biāo)識別方法[4];蔡紅蘋等人提出了一種基于目標(biāo)輪廓與灰度特征的圓周頻率濾波法來實(shí)現(xiàn)飛機(jī)目標(biāo)的檢測[5]。雖然上述傳統(tǒng)算法在一定程度上解決了遙感圖像中飛機(jī)目標(biāo)檢測的問題,但是這些傳統(tǒng)算法依然存在特征難以設(shè)計(jì)選取、處理過程繁雜、識別精度低以及泛化能力差等不足。
近年來,隨著深度學(xué)習(xí)方法的異軍突起,基于深度學(xué)習(xí)的方法在推薦系統(tǒng)、智慧城市和計(jì)算機(jī)視覺等領(lǐng)域取得了令人矚目的成績,成為學(xué)術(shù)界和工業(yè)界研究的熱點(diǎn)[6-8]。同時(shí),深度學(xué)習(xí)方法在推動自然場景圖像目標(biāo)檢測技術(shù)的發(fā)展過程中起到了重要作用。與傳統(tǒng)方法相比,深度學(xué)習(xí)方法是一種端到端模型結(jié)構(gòu),可以學(xué)習(xí)到更豐富的語義信息和高層次的圖像特征表征,免去了以往繁瑣的數(shù)據(jù)預(yù)處理、特征提取和參數(shù)調(diào)優(yōu)等過程,同時(shí)能較好地免除復(fù)雜背景的干擾,提高檢測精度,具有較強(qiáng)的魯棒性和泛化能力。與R-CNN[9],SPP[10],F(xiàn)ast R-CNN[11]等其他基于目標(biāo)候選區(qū)的目標(biāo)檢測深度卷積神經(jīng)網(wǎng)絡(luò)模型相比,F(xiàn)aster R-CNN模型[12]在目標(biāo)檢測精度和檢測速度上具有明顯優(yōu)勢。2015年,F(xiàn)aster R-CNN模型在COCO目標(biāo)檢測比賽中取得第一名的優(yōu)異成績,并且在PASCAL VOC 2007和PASCAL VOC 2012上也有十分突出的表現(xiàn)。Faster R-CNN是目前最準(zhǔn)確、快速的目標(biāo)檢測模型之一。
雖然深度卷積神經(jīng)網(wǎng)絡(luò)模型Faster R-CNN在自然場景圖像目標(biāo)檢測任務(wù)中取得了優(yōu)異的表現(xiàn),但是由于缺乏公開且成熟的專門針對遙感圖像飛機(jī)目標(biāo)檢測的數(shù)據(jù)集,導(dǎo)致將Faster R-CNN模型用于遙感圖像飛機(jī)目標(biāo)檢測的應(yīng)用研究相對較少。鑒于此,本文構(gòu)建了全新的遙感圖像飛機(jī)目標(biāo)檢測數(shù)據(jù)集Airplane-2018,并基于該數(shù)據(jù)集進(jìn)行FasterR-CNN模型的遷移學(xué)習(xí)訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該方案可以較好地適應(yīng)遙感圖像飛機(jī)目標(biāo)檢測的應(yīng)用研究。
R-CNN和Fast R-CNN等基于目標(biāo)候選區(qū)的目標(biāo)檢測模型中,目標(biāo)候選區(qū)提取步驟獨(dú)立于整個(gè)深度網(wǎng)絡(luò)單獨(dú)存在,且難以融入GPU運(yùn)算,成為限制檢測速度的瓶頸。針對以上問題,Shaoqing Ren等人提出了Faster R-CNN模型,該算法引入?yún)^(qū)域生成網(wǎng)絡(luò)(Region Proposal Networks,RPN)來進(jìn)行目標(biāo)候選區(qū)的提取。
Faster R-CNN模型主要由2個(gè)模塊組成:RPN候選區(qū)生成模塊和Fast R-CNN檢測模塊,如圖1所示。具體又可以細(xì)分為4個(gè)單元:卷積層單元、區(qū)域生成網(wǎng)絡(luò)單元、RoI池化單元以及分類和回歸單元。
① 卷積層單元:包括一系列卷積和池化操作,用于提取圖像的特征,卷積層單元的權(quán)值參數(shù)為RPN候選區(qū)生成模塊和Fast R-CNN檢測模塊共享;
② 區(qū)域生成網(wǎng)絡(luò)單元:生成目標(biāo)候選區(qū),用于后續(xù)的目標(biāo)檢測與識別;
③ RoI池化單元:綜合卷積層特征和目標(biāo)候選區(qū)的信息,將目標(biāo)候選區(qū)在輸入圖像中的坐標(biāo)映射到最后一層特征中,對特征圖中對應(yīng)區(qū)域進(jìn)行池化操作,得到固定大小的池化結(jié)果;
④ 分類和回歸單元:用于判斷目標(biāo)候選區(qū)的類別并預(yù)測其準(zhǔn)確位置。
圖1 Faster R-CNN模型框架
Faster R-CNN模型將目標(biāo)候選區(qū)的提取、深度特征提取、目標(biāo)檢測和識別過程都融入到一個(gè)端到端的深度網(wǎng)絡(luò)模型中。所有的過程都可以在GPU中運(yùn)行,從而在不降低檢測精度的情況下,大大提高了檢測速度。
在遙感圖像飛機(jī)目標(biāo)檢測的應(yīng)用研究方面,目前缺乏公開且成熟的專門針對遙感圖像飛機(jī)目標(biāo)檢測的數(shù)據(jù)集。因此,本文構(gòu)建了遙感圖像飛機(jī)目標(biāo)檢測數(shù)據(jù)集Airplane-2018。Airplane-2018數(shù)據(jù)集從Google Earth上人工截取不同國家機(jī)場的衛(wèi)星圖像,如圖2所示。每幅影像大小在66×51個(gè)像素到 3 072×2 480個(gè)像素之間,分辨率在0.3~2 m之間。數(shù)據(jù)集構(gòu)建過程中,為了增加數(shù)據(jù)集的多樣性和適用性,盡量采集了來自不同傳感器,且在不同時(shí)間、不同季節(jié)、不同光照強(qiáng)度和不同成像視角的圖像。
圖2 機(jī)場圖像截取
深度學(xué)習(xí)訓(xùn)練過程中,為了防止過擬合現(xiàn)象,需要進(jìn)行數(shù)據(jù)擴(kuò)充[13]操作。常見的幾種數(shù)據(jù)擴(kuò)充方式有隨機(jī)裁剪、旋轉(zhuǎn)變化及色彩抖動等,過程如圖3所示。經(jīng)過數(shù)據(jù)擴(kuò)充,獲得數(shù)據(jù)集共計(jì)3 410幅圖像,15 056個(gè)飛機(jī)樣本。Airplane-2018數(shù)據(jù)集部分圖像樣例如圖4所示。由圖4中可以看出,數(shù)據(jù)集Airplane-2018數(shù)據(jù)集中圖像場景較為復(fù)雜,飛機(jī)目標(biāo)在整幅圖像中所占比例小,且圖中含有大量背景目標(biāo),如跑道、機(jī)庫和登機(jī)樓等。
圖3 數(shù)據(jù)擴(kuò)充
圖4 Airplane-2018數(shù)據(jù)集部分圖像樣例
本文使用開源軟件LabelImg對圖像中的飛機(jī)目標(biāo)人工進(jìn)行標(biāo)注,使用矩形框框選飛機(jī)目標(biāo),生成的標(biāo)注信息自動保存在XML文件中,如圖5所示。
圖5 飛機(jī)目標(biāo)區(qū)域信息標(biāo)簽提取
標(biāo)注信息中最重要的是
深度卷積神經(jīng)網(wǎng)絡(luò)之所以能在自然場景圖像目標(biāo)檢測任務(wù)中具有較高的準(zhǔn)確性和可靠性,得益于龐大的圖像數(shù)據(jù)集作為支撐,如 ImageNet[14],COCO[15],VOC[16]圖像數(shù)據(jù)集等。訓(xùn)練一個(gè)檢測正確率高、泛化能力強(qiáng)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,需要數(shù)據(jù)量充足的圖像數(shù)據(jù)。雖然本文構(gòu)建了遙感影像飛機(jī)目標(biāo)檢測數(shù)據(jù)集Airplane-2018,但是數(shù)據(jù)集的規(guī)模仍然較小。如果直接在Airplane-2018數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練學(xué)習(xí),會因網(wǎng)絡(luò)參數(shù)過多,導(dǎo)致訓(xùn)練不充分,產(chǎn)生過擬合現(xiàn)象,最終訓(xùn)練出來模型的泛化能力很差。因此,本文采用微調(diào)預(yù)訓(xùn)練模型的遷移學(xué)習(xí)[17-18]思路對模型進(jìn)行訓(xùn)練學(xué)習(xí)。
本文選擇使用在COCO數(shù)據(jù)集上預(yù)訓(xùn)練Faster R-CNN+Inception_ResNet_v2模型實(shí)現(xiàn)端到端的遷移學(xué)習(xí),訓(xùn)練過程在TensorFlow[19]深度學(xué)習(xí)開源框架下進(jìn)行,具體步驟如下:
① 將Airplane-2018數(shù)據(jù)集按照VOC 2012數(shù)據(jù)集文件夾結(jié)構(gòu)進(jìn)行劃分調(diào)整,調(diào)整后的文件夾結(jié)構(gòu)如圖6所示;
圖6 文件夾結(jié)構(gòu)
② 利用TensorFlow數(shù)據(jù)集轉(zhuǎn)化工具將數(shù)據(jù)集轉(zhuǎn)換成tfrecord格式;
③ 下載在COCO預(yù)訓(xùn)練的Faster R-CNN +Inception_ResNet_v2模型,并對訓(xùn)練配置文件pipeline.config進(jìn)行相應(yīng)修改;
④ 訓(xùn)練模型:python train.py-train_dir airplane/train_dir/--pipeline_config_path airplane/pipeline.config。
網(wǎng)絡(luò)模型訓(xùn)練的超參數(shù)設(shè)置如表1所示。
表1 網(wǎng)絡(luò)超參數(shù)設(shè)置
參數(shù)項(xiàng)取值基礎(chǔ)學(xué)習(xí)速率0.003動量0.9IoU閾值0.7最大候選區(qū)生成個(gè)數(shù)300
學(xué)習(xí)率初始設(shè)置為0.003,當(dāng)模型收斂到一個(gè)平穩(wěn)值時(shí),將學(xué)習(xí)率改為原來的1/10,即0.000 3,如此重復(fù)3次。網(wǎng)絡(luò)訓(xùn)練的誤差收斂曲線如圖7所示。
圖7 loss收斂曲線
誤差隨著迭代的次數(shù)增加而逐漸減小,逐漸趨于收斂。
本文實(shí)驗(yàn)在Centos7.4操作系統(tǒng)下,以配置了型號為NVIDIA GeForce GTX 970的GPU顯卡的機(jī)器為硬件平臺,選擇TensorFlow深度學(xué)習(xí)框架實(shí)現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)。
在測試數(shù)據(jù)集上的實(shí)驗(yàn)效果如圖8所示。由圖8(a)可以看出,在圖像背景較為復(fù)雜、飛機(jī)朝向不確定和飛機(jī)目標(biāo)聚集等情況下,本文訓(xùn)練的檢測模型依然有良好的檢測表現(xiàn),有較強(qiáng)的魯棒性。但同時(shí)還存在漏警、虛警的情況,如圖8(b)所示。在飛機(jī)目標(biāo)過小且聚集的情況下,容易出現(xiàn)漏警的情況;在外形輪廓與飛機(jī)相似的情況下,容易出現(xiàn)虛警的情況,進(jìn)一步降低虛警、漏警是下一步研究的重點(diǎn)。
圖8 飛機(jī)目標(biāo)檢測結(jié)果
通過設(shè)置不同的置信度閾值,在測試集上可以獲取多組不同閾值對應(yīng)的查準(zhǔn)率和查全率。根據(jù)多組數(shù)據(jù),以查全率為橫坐標(biāo),查準(zhǔn)率為縱坐標(biāo),可以畫出精度-召回曲線,如圖9所示。
圖9 精度-召回曲線
由圖9中可以看出,AP值為0.903 8,在查全率達(dá)到95%的情況下,查準(zhǔn)率可以達(dá)到85%。
本文主要探討了深度卷積神經(jīng)網(wǎng)絡(luò)模型Faster R-CNN在遙感圖像中對飛機(jī)目標(biāo)檢測的應(yīng)用。首先構(gòu)建了遙感圖像飛機(jī)目標(biāo)檢測數(shù)據(jù)集Airplane-2018,并在此基礎(chǔ)上,對Faster R-CNN模型采用微調(diào)預(yù)訓(xùn)練模型的遷移學(xué)習(xí)方法進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,F(xiàn)aster R-CNN模型在采用微調(diào)預(yù)訓(xùn)練模型的遷移學(xué)習(xí)方法訓(xùn)練后,在遙感圖像飛機(jī)目標(biāo)檢測上具有可行性且效果尚佳,在一定程度上滿足遙感圖像飛機(jī)目標(biāo)檢測的應(yīng)用需求,同時(shí)進(jìn)一步驗(yàn)證了遷移學(xué)習(xí)可以使深度卷積神經(jīng)網(wǎng)絡(luò)很好地適應(yīng)小數(shù)據(jù)集的應(yīng)用研究。
同時(shí),需要注意的是,由于目前缺乏公開且成熟的專門針對遙感圖像飛機(jī)目標(biāo)檢測的數(shù)據(jù)集,本文僅在自構(gòu)建的Airplane-2018數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),因此實(shí)驗(yàn)結(jié)果還存在一定的局限性。后續(xù)工作將對Airplane-2018數(shù)據(jù)集進(jìn)一步擴(kuò)充,并考慮將該數(shù)據(jù)集貢獻(xiàn)給開源社區(qū),以利于其他學(xué)者開展相關(guān)研究;同時(shí)繼續(xù)深入開展相關(guān)研究,將Faster R-CNN模型拓展到油罐、艦船等其他目標(biāo)的檢測中,提高遙感圖像的應(yīng)用價(jià)值。