史 通,王 潔,羅 暢,蔡啟航,王世強(qiáng)
(空軍工程大學(xué)防空反導(dǎo)學(xué)院,西安 710051)
空天遙感(aerospace remote sensing)泛指以飛機(jī)、氣球等航空飛行器和人造衛(wèi)星、宇宙飛船等航天飛行器為平臺,通過各類傳感系統(tǒng)對遠(yuǎn)距離目標(biāo)定時(shí)、定位、定性、定量并進(jìn)行數(shù)據(jù)通信的探測識別綜合技術(shù)。近年來,隨著衛(wèi)星、無人機(jī)等遙感平臺的迅猛發(fā)展以及傳感技術(shù)、通信技術(shù)的不斷改進(jìn),空天遙感技術(shù)也得到了極大的提高。遙感圖像數(shù)據(jù)已經(jīng)呈現(xiàn)出大量(volume)、高速(velocity)、多樣(vari-ety)、價(jià)值(value)的大數(shù)據(jù)典型的“4V”特點(diǎn)。
在當(dāng)前空天遙感應(yīng)用領(lǐng)域中,遙感圖像目標(biāo)識別是一項(xiàng)在軍用、民用方面都有著深遠(yuǎn)理論意義和巨大應(yīng)用價(jià)值的研究課題。民用方面,文獻(xiàn)[1]利用從Quick Bird上獲取的光學(xué)遙感圖像,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型進(jìn)行了棒球場、城市居民區(qū)、灌木叢、立交橋和停車場這5類城市目標(biāo)的分類實(shí)驗(yàn)。文獻(xiàn)[2]利用美國土地使用分類數(shù)據(jù)集UCM_LandUse,對農(nóng)田、建筑、河流等21類遙感目標(biāo)進(jìn)行分類,又利用武漢大學(xué)高分衛(wèi)星遙感圖像場景數(shù)據(jù)集HRSS,對工業(yè)區(qū)、商業(yè)區(qū)等19類城市目標(biāo)進(jìn)行分類,并對兩者進(jìn)行了分類效果的比較。軍用方面,文獻(xiàn)[3]提出了基于支持向量機(jī)(SVM)的遙感圖像艦船目標(biāo)識別方法,并同傳統(tǒng)分類器進(jìn)行了實(shí)驗(yàn)結(jié)果的對比分析,表明該方法具有良好的識別效果。文獻(xiàn)[4]著力于構(gòu)建了一個(gè)面向高分辨率光學(xué)遙感圖像的深度學(xué)習(xí)目標(biāo)識別系統(tǒng),以機(jī)場和飛行器目標(biāo)識別為例,實(shí)現(xiàn)了復(fù)雜場景下“大范圍、小目標(biāo)”的快速準(zhǔn)確定位。
從現(xiàn)有的研究成果來看,粗識別(rough recognition)的理論研究相當(dāng)成熟,也已經(jīng)在各個(gè)領(lǐng)域有了廣泛的應(yīng)用。但是,隨著不同場景實(shí)際應(yīng)用要求的不斷提高,對同一大類里的不同目標(biāo)進(jìn)行細(xì)分類(fine recognition)的需求也越來越迫切,所以更加細(xì)致的識別方法亟待研究。
本文就以不同種類飛機(jī)的細(xì)分類研究為目的,以民用客機(jī)、直升機(jī)、初級教練機(jī)、戰(zhàn)斗機(jī)、運(yùn)輸機(jī)和轟炸機(jī)這6類飛機(jī)為代表,注重于建立各類飛機(jī)的光學(xué)遙感圖像數(shù)據(jù)集,為日后飛機(jī)目標(biāo)識別的研究工作做好準(zhǔn)備。對不同種類飛機(jī)的細(xì)分類研究,在軍事應(yīng)用領(lǐng)域具有重要的意義,在戰(zhàn)略目標(biāo)偵察監(jiān)視,裝備戰(zhàn)斗力綜合評估和空軍基地功能判定等方面都能發(fā)揮顯著的作用。
遙感圖像目標(biāo)識別的方法有很多,除了前文提到的支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)這些方法外,還有小波包變換[5]、數(shù)據(jù)融合[6]、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)[7-8]等方法。但是,卷積神經(jīng)網(wǎng)絡(luò)因?yàn)槠渚植窟B接和權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)使之權(quán)值數(shù)量減少,自學(xué)習(xí)模型復(fù)雜度降低,成為目前研究最廣也是效果最好的一種方法。
卷積神經(jīng)網(wǎng)絡(luò)自20世紀(jì)60年代發(fā)展至今,已經(jīng)在圖像識別、語音識別、大數(shù)據(jù)分析等領(lǐng)域都取得了突出的成就。誕生于1994年的LeNet-5[8]是最早的也是最經(jīng)典的CNN模型,堪稱卷積神經(jīng)網(wǎng)絡(luò)的奠基之作,直接推動了深度學(xué)習(xí)的迅速發(fā)展。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。近年來,在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)的盛會中,越來越多更加優(yōu)秀的CNN模型被提出,比如2012年冠軍AlexNet(8層神經(jīng)網(wǎng)絡(luò)),2014年亞軍VGGNet(19層神經(jīng)網(wǎng)絡(luò)),2015年冠軍ResNet(152層神經(jīng)網(wǎng)絡(luò))等,在圖像識別等諸多領(lǐng)域不斷刷新著準(zhǔn)確率記錄。
圖1 LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)
要知道,這樣一個(gè)優(yōu)秀的CNN模型往往是依靠規(guī)模巨大的有標(biāo)記數(shù)據(jù)集訓(xùn)練出來的,而這些數(shù)據(jù)集的建立是經(jīng)過團(tuán)隊(duì)多年精心收集樣本完成的,是一項(xiàng)人力、物力資源耗費(fèi)極大的工作。在實(shí)際應(yīng)用中,由于應(yīng)用場景不同,識別任務(wù)不同,很少有合適的大規(guī)模的公開數(shù)據(jù)集能夠滿足訓(xùn)練出有針對性的網(wǎng)絡(luò)模型的需求。
盡管如此,以上優(yōu)秀模型的訓(xùn)練數(shù)據(jù)集一般都基于自然場景圖像。本文研究的主要是飛機(jī)的光學(xué)遙感圖像,它與自然場景圖像的成像原理相似,待識別目標(biāo)的邊線、形狀、顏色等基本圖像特征相近。那么,就可以借用這些基于大量自然場景圖像樣本訓(xùn)練好的CNN模型,用相對少量的特定場景數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行微調(diào)訓(xùn)練,從而構(gòu)建出適用于光學(xué)遙感圖像飛機(jī)目標(biāo)識別的CNN模型。這就是遷移學(xué)習(xí)(transfer learning)[9]在卷積神經(jīng)網(wǎng)絡(luò)方向的一大應(yīng)用,可以把它形象地稱為“站在巨人的肩膀上”。
對于本文來說,通過采集相對少量的上述6類飛機(jī)的光學(xué)遙感圖像,經(jīng)過一定的預(yù)處理,再對數(shù)據(jù)進(jìn)行存儲與標(biāo)記,建立起飛機(jī)遙感圖像數(shù)據(jù)集,作為CNN遷移源模型的微調(diào)訓(xùn)練集,為日后遙感圖像飛機(jī)目標(biāo)識別系統(tǒng)的搭建打下堅(jiān)實(shí)的基礎(chǔ)。
之所以選擇民用客機(jī)、直升機(jī)、初級教練機(jī)、戰(zhàn)斗機(jī)、運(yùn)輸機(jī)和轟炸機(jī)這6類飛機(jī)制作對應(yīng)的有標(biāo)記數(shù)據(jù)集,是因?yàn)檫@6類飛機(jī)的特征具有類間區(qū)別大、類內(nèi)差異小的特點(diǎn)。也就是說,這6類飛機(jī)相互之間容易區(qū)分,而且雖然每一類都還可以繼續(xù)細(xì)分出不同機(jī)型,但是這些不同機(jī)型之間的形狀差異比較小,對分類效果的影響可以忽略。這樣在圖像采集過程中,就不會受限于某一特定機(jī)型樣本圖像少的問題,拓寬了某一類飛機(jī)樣本圖像采集的廣度,極大地降低了采集難度。圖2展示了戰(zhàn)斗機(jī)類內(nèi)差異小的特點(diǎn)。
圖2 不同戰(zhàn)斗機(jī)型對比
在互聯(lián)網(wǎng)上,有很多比較專業(yè)的遙感影像庫可供有償下載,但是大多數(shù)針對性不強(qiáng)。而且本文想要采集圖像的各類飛機(jī)中還涉及到一些軍用飛機(jī),基本上沒有符合要求的現(xiàn)成的商業(yè)遙感影像庫。同時(shí),本數(shù)據(jù)集規(guī)模較小,為了提高數(shù)據(jù)集的質(zhì)量,決定通過谷歌地球(Google Earth)采集各類飛機(jī)的遙感圖像。
由于卷積神經(jīng)網(wǎng)絡(luò)具有泛化能力強(qiáng)的優(yōu)點(diǎn),圖像采集的難度被進(jìn)一步降低,只需要做到飛機(jī)輪廓清晰、整體結(jié)構(gòu)完整、以正方形裁剪,采集過程不必受限于角度、尺度、像素等因素。而且光照、濃霧、背景等干擾因素都可以不必在乎,這些因素反而還會增強(qiáng)神經(jīng)網(wǎng)絡(luò)模糊學(xué)習(xí)的能力。采集到的6類飛機(jī)的遙感圖像示例如圖3所示。
圖3 6類飛機(jī)的遙感圖像
雖說用于遷移學(xué)習(xí)的訓(xùn)練樣本是少量的,但是這種少量是相對于CNN遷移源模型百萬數(shù)量級的訓(xùn)練樣本來說的,所以至少應(yīng)該達(dá)到千數(shù)量級。以上種種方法雖然相對降低了飛機(jī)圖像的采集難度,但是這項(xiàng)工作仍然非常耗時(shí)耗力,比如采集到的初級教練機(jī)的樣本圖像只有250張,這是遠(yuǎn)遠(yuǎn)不夠的。
而數(shù)據(jù)增強(qiáng)(data augmentation)就能夠很好地解決這一問題。對少量的飛機(jī)樣本圖像進(jìn)行適當(dāng)?shù)男D(zhuǎn)變換、鏡像變換、亮度變換或?qū)Ρ榷茸儞Q,不僅能夠大大增加樣本圖像的數(shù)量,還可以模擬飛機(jī)的多種變化情況,增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。為了簡化后續(xù)操作,在圖像變換之前,需要對原始樣本圖像進(jìn)行歸一化處理,將圖像的尺寸歸一化為100*100像素。然后進(jìn)行4種旋轉(zhuǎn)變換、4種鏡像變換,那么樣本圖像將擴(kuò)充4*4=16倍。以單張圖像為例,預(yù)處理的操作步驟如圖4所示。上述操作都可以通過圖像批處理的方法實(shí)現(xiàn),那么初級教練機(jī)原始的250張樣本圖像將擴(kuò)充到4 000張,其樣本圖像示例如圖5所示。其他種類飛機(jī)的遙感圖像的數(shù)據(jù)增強(qiáng)同理。
圖4 圖像預(yù)處理的步驟
圖5 數(shù)據(jù)增強(qiáng)后的初級教練機(jī)圖像
至此,用于遷移學(xué)習(xí)的飛機(jī)遙感圖像數(shù)據(jù)集的建立工作已全部完成。本數(shù)據(jù)集是基于特定的應(yīng)用場景建立的,針對性強(qiáng),質(zhì)量較高。但是也存在有待加強(qiáng)的方面,比如,樣本類別不夠細(xì)化,圖像采集不夠智能等問題。
下一步的任務(wù)就是對CNN遷移源模型進(jìn)行適當(dāng)?shù)膮?shù)修改,再利用此數(shù)據(jù)集微調(diào)網(wǎng)絡(luò),使該模型更加適用于遙感圖像飛機(jī)目標(biāo)識別這一特定應(yīng)用場景,以期搭建出能夠應(yīng)用于軍事領(lǐng)域的遙感圖像飛機(jī)目標(biāo)識別系統(tǒng)。這對于把握軍事先機(jī)、分析軍事態(tài)勢、制定軍事策略從而贏得戰(zhàn)爭勝利是非常有利的。