都 凱
(垣曲縣測繪地理信息中心,山西垣曲 043700)
基于遙感影像的目標(biāo)檢測長期以來是遙感影像應(yīng)用領(lǐng)域的熱點研究任務(wù)之一[1-2]。隨著人工智能算法的快速發(fā)展,利用卷積神經(jīng)網(wǎng)絡(luò)對高分辨率遙感影像中海量的地物信息進(jìn)行自動化檢測的技術(shù)也取得了一系列的研究成果[3-4],被廣泛應(yīng)用在城市建筑規(guī)劃、林業(yè)資源調(diào)查、應(yīng)急救援等多個領(lǐng)域內(nèi)。其中在機場等區(qū)域內(nèi)拍攝的遙感影像包含有大量清晰的單體飛機目標(biāo),如何從覆蓋范圍廣泛、背景復(fù)雜的高分辨率遙感影像中快速、精準(zhǔn)地檢測出體積相對較小的飛機目標(biāo),具有重要的研究意義,并且在機場流量調(diào)度等方面具有重要的應(yīng)用價值。但現(xiàn)有的常規(guī)檢測模型體量大、結(jié)構(gòu)復(fù)雜,通常需要功耗較大的顯卡作為流暢推理的硬件支撐。針對此問題,很多專家學(xué)者提出適用于低算力終端設(shè)備的輕量級檢測模型。輕量化模型采用更少的層次來直接降低模型的計算量[5],同時通過多種卷積策略來降低計算參數(shù),目前相關(guān)研究已經(jīng)取得了很多成果。陳海燕等提出了一種能夠部署在Jetson TX2 上的便攜式的高原鼠兔目標(biāo)檢測方法[6],該方法以MobileNet 替換YOLOv3 主干網(wǎng)絡(luò)DarkNet53來構(gòu)建輕量級高原鼠兔目標(biāo)檢測模型,并利用剪枝、微調(diào)的方法對模型進(jìn)一步輕量化設(shè)計。實驗結(jié)果表明:該方法相比原始模型檢測速度提升了620%,同時檢測精度僅下降了1.05%。
針對低功耗硬件條件下的遙感影像飛機目標(biāo)檢測問題,提出一種輕量級檢測模型,以分組卷積核搭建基本提取網(wǎng)絡(luò),通過輕型通道注意力機制提高模型對局部正樣本特征的學(xué)習(xí)能力,通過特征強化網(wǎng)絡(luò)將多尺度特征圖進(jìn)行拼接,提高圖內(nèi)目標(biāo)紋理與形狀信息的豐富程度。
特征提取網(wǎng)絡(luò)是檢測模型的核心部件,卷積特征提取操作在模型運算過程中占了很大比例的計算量,具體卷積特征提取計算過程如圖1(a)所示??梢钥闯觯谔崛∵^程中卷積核組利用每個卷積核遍歷特征圖全部通道,并輸出通道數(shù)與卷積核個數(shù)相同的特征圖,特征提取的計算量如公式(1)所示:
圖1 特征提取層結(jié)構(gòu)圖
式中:E為一次卷積的計算量;Fin為輸入特征圖尺寸;M為特征圖通道數(shù);C為卷積核的平面尺寸;N為卷積核個數(shù),也是輸出特征圖的通道數(shù)。在這樣的結(jié)構(gòu)下,計算量隨著卷積層數(shù)的加深而大幅提升。針對此問題,本文使用分組卷積核[7]來代替常規(guī)卷積核進(jìn)行特征提取,讓不同的卷積核來對不同區(qū)域的特征圖進(jìn)行提取。首先將輸入的特征圖按照切分因子t進(jìn)行等分,然后將卷積核平均分配給t組特征圖,每個卷積核僅參與該組特征的提取計算,這就使得在卷積核輸出特征維度不變的前提下,計算量下降到了原來的分組卷積在顯著降低計算量的同時,也使得不同層特征圖之間的信息交流程度降低,進(jìn)而影響到模型對正樣本的學(xué)習(xí)情況。為恢復(fù)通道間的信息復(fù)雜程度,對分組卷積后的特征圖進(jìn)行通道混排,即將分組卷積后獲得的特征圖進(jìn)行交叉排列,最終分組卷積層的結(jié)構(gòu)如圖1(b)所示。本文檢測對象為小尺寸飛機目標(biāo),存在較為嚴(yán)重的正負(fù)樣本不均衡問題,為了提高模型對特征圖中正樣本特征的關(guān)注程度,本文在特征提取層末端設(shè)置了輕型注意力模型。輕型注意力機制從通道角度篩選重點區(qū)域特征,首先對輸入特征圖全局平均池化后,然后分別使用ReLU 與sigmoid 激活函數(shù)以及兩組通道局部交互的全連接層來計算各通道的權(quán)重,最后將權(quán)重賦予原始影像,具體計算過程如公式(2)公式(3)所示:
式中:σ為sigmoid 型激活函數(shù);ReLU 為線性整流函數(shù);xij為通道域全局池化;W、H為輸入特征圖的尺寸維度,W1、W2為通道注意力權(quán)重。為了保證模型在訓(xùn)練過程中不出現(xiàn)均值漂移問題,在分組卷積提取層后面使用批量歸一化層(Batch Normalization,BN)對特征進(jìn)行歸一化處理,然后使用計算量更小的LReLU 函數(shù)作為激活函數(shù),對所有特征進(jìn)行非線性激活,具體如公式(4)所示:
為了進(jìn)行多尺度特征信息的提取,要對提取后的特征圖進(jìn)行尺寸壓縮與通道擴張操作,本文使用平均池化層進(jìn)行下采樣,然后使用1×1 卷積核進(jìn)行通道壓縮。為了進(jìn)一步節(jié)約計算參數(shù),本文將池化步驟放置于通道調(diào)整過程之前,完整特征提取層結(jié)構(gòu)如圖1(c)所示。整個網(wǎng)絡(luò)設(shè)置5 層特征提取層,具體的結(jié)構(gòu)以及每層輸出特征圖尺寸如表1 所示:
表1 特征提取網(wǎng)絡(luò)結(jié)構(gòu)
特征提取網(wǎng)絡(luò)輸出5 個尺度的特征圖,若直接對其進(jìn)行多尺度運算則計算開銷過大。此外,大尺度特征圖包含豐富的目標(biāo)紋理信息,而小尺度特征圖內(nèi)含有較多的目標(biāo)輪廓信息。因此,本文設(shè)計了3 層的輕量化特征強化網(wǎng)絡(luò),通過對不同層的輸出特征圖進(jìn)行融合,來提高圖內(nèi)的特征信息豐富程度,具體的強化網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 特征強化網(wǎng)絡(luò)結(jié)構(gòu)圖
為了讓參與檢測的特征圖內(nèi)包含更多小尺度目標(biāo)特征,將提取網(wǎng)絡(luò)的前3 層的輸出特征圖進(jìn)行下采樣融合作為特征強化網(wǎng)絡(luò)首層,然后將其進(jìn)行2 次連續(xù)下采樣,并將下采樣后特征圖與提取網(wǎng)絡(luò)中同尺度的特征圖進(jìn)行拼接,最終獲得3 個尺度的輸出特征圖。本文訓(xùn)練模型的損失函數(shù)由目標(biāo)框回歸損失、分類損失與置信度損失3 部分組成,具體公式如式(5)、式(6)所示:
式中:S為最終金字塔輸出的特征圖尺度;B為每個格子預(yù)測邊框個數(shù);λcord、λobj、λnobj、λclass分別為預(yù)測邊框的中心坐標(biāo)誤差、邊框尺寸誤差、正負(fù)樣本類別誤差、預(yù)測置信度誤差方面的權(quán)重系數(shù);c= 1 為本文數(shù)據(jù)集中樣本的類別個數(shù);xi、yi、wi、hi、Ci、pi(c)為預(yù)測框的參數(shù)為真實目標(biāo)框的參數(shù)。
本文以開源遙感影像數(shù)據(jù)集AerialImage、FAIR1M 以及谷歌地圖內(nèi)包含飛機目標(biāo)的遙感影像來構(gòu)建數(shù)據(jù)集,將數(shù)據(jù)集內(nèi)影像按照4∶1 劃分為訓(xùn)練集和測試集。訓(xùn)練集內(nèi)的多源影像尺寸不一且背景復(fù)雜,直接對其進(jìn)行標(biāo)注訓(xùn)練難以達(dá)到理想的效果。因此,本文通過以下流程對訓(xùn)練集進(jìn)行增強處理:
1)圖像尺寸歸一化:首先采用832×832 像素大小的滑動窗口對原始影像進(jìn)行裁剪,在每個窗口的水平與垂直之間設(shè)置了15% 的窗口重合度。將裁剪后包含飛機目標(biāo)的影像進(jìn)行保留,然后進(jìn)行二次下采樣。
2)對于訓(xùn)練集中的部分光照不平衡的樣本,采用灰度世界算法進(jìn)行圖像質(zhì)量增強,并將增強后的樣本放入訓(xùn)練集。
3)針對小樣本個數(shù)不足問題,一方面采用圖像旋轉(zhuǎn)與扭曲操作來增加圖像樣本的數(shù)量;另一方面將部分飛機小樣本采用手工裁剪的方式放置在一張影像上,來增加單幅影像中樣本個數(shù)。
對所有樣本進(jìn)行標(biāo)注,然后使用訓(xùn)練集對模型進(jìn)行訓(xùn)練,最終參與訓(xùn)練的飛機樣本個數(shù)為1576 個。
為了充分的訓(xùn)練模型,同時在真實環(huán)境下測試模型的檢測性能,模型首先在安裝有大型顯卡的設(shè)備中進(jìn)行訓(xùn)練,然后遷移到低功耗的嵌入式硬件終端進(jìn)行測試,具體的實驗流程如圖3 所示,模型在訓(xùn)練和測試過程中的硬件配置與運行環(huán)境如表2所示。
表2 硬件配置及運行環(huán)境
圖3 實驗流程圖
在模型訓(xùn)練過程中,使用隨機梯度下降方法來優(yōu)化權(quán)重參數(shù),模型迭代次數(shù)為300 次,采取動態(tài)學(xué)習(xí)率機制,初始學(xué)習(xí)率為0.001,每訓(xùn)練100 次對學(xué)習(xí)率進(jìn)行縮放調(diào)節(jié)。完成訓(xùn)練后,將模型部署至低功耗嵌入式硬件內(nèi),利用測試數(shù)據(jù)集中對模型進(jìn)行測試,部分測試結(jié)果如圖4 所示,圖4 中紅框內(nèi)數(shù)字表示預(yù)測為該類物體的概率。
圖4 檢測結(jié)果示意圖
可以看出,本文所提出模型對于分布在跑道等背景簡單區(qū)域,以及航站樓機庫旁的多種尺度的飛機目標(biāo)均能夠?qū)崿F(xiàn)很好地檢出。為了對模型進(jìn)行全面評價,本文將平均精度均值(mean Average precision,mAP)、模型每秒檢測張數(shù)(Frame presecond)、訓(xùn)練后模型權(quán)重大小(理解為訓(xùn)練后模型保存的權(quán)重文件大?。?、每秒浮點計算量(Floating Point Operations per Second,F(xiàn)LOPS)理解為計算量,作為評價檢測模型性能指標(biāo),同時以經(jīng)典輕量級檢測模型Mobilenet-v3、Mobile-SSD 以及Shuffle-Net作為對比方法,對本文所提出模型進(jìn)行全面地衡量與評價,最終的評價結(jié)果如表3 所示。
表3 多目標(biāo)檢測性能評價結(jié)果表
由表3 可以看出:本文模型在測試數(shù)據(jù)集上的mAP 能夠達(dá)到0.89,同時相比其余三組對照模型分別提高了9.87%、25.35% 以及30.88%,說明模型在檢出精度方面能夠達(dá)到較高水平,明顯優(yōu)于同類輕量級模型;在檢測精度方面,本文提出模型在嵌入式硬件環(huán)境下能夠達(dá)到每張0.087 s 的水平,同時訓(xùn)練后的模型僅占43.41MB 大小,每秒浮點運算量達(dá)到了1.13×105的水平,說明模型在檢測速度方面具有較為明顯的優(yōu)勢,同時具備較小的體量以及模型運算量,適合部署在低功耗的硬件中展開計算。
本文針對在低功耗的星載、機載終端開展的對于高分辨率遙感影像中飛機目標(biāo)檢測問題,設(shè)計了一種基于輕量級卷積神經(jīng)網(wǎng)絡(luò)模型,并以AerialImage、FAIR1M 以及多個來源的衛(wèi)星遙感影像為基礎(chǔ),通過圖像質(zhì)量增強與樣本增強構(gòu)建了數(shù)據(jù)集,分別在高性能硬件和低功耗嵌入式硬件環(huán)境下完成了對模型的訓(xùn)練和測試,以3 個經(jīng)典的輕量化模型作為對照組,使用平均精度均值、每秒檢測圖片張數(shù)、訓(xùn)練后模型大小、每秒浮點計算量幾項客觀指標(biāo)對所有模型進(jìn)行評價,得出了以下結(jié)論:
1)本文所提出模型能夠?qū)Σ煌瑘鼍跋虏煌叽绲娘w機目標(biāo)實現(xiàn)精準(zhǔn)檢出,其檢測精度能夠達(dá)到0.89mAP,相比其余三組模型有著明顯地提高。
2)在檢測速度方面,本文模型在測試環(huán)境下可達(dá)到每張0.087 s 的檢測速度,優(yōu)于其余幾組對比模型,能夠?qū)嵤┛焖贆z測。
3)訓(xùn)練后模型大小僅有43.41MB,同時每秒浮點運算量僅有1.13 ×105,適合部署在輕量級的硬件設(shè)備上展開推理計算。
在接下來的研究過程中,首先將嘗試使用生成對抗網(wǎng)絡(luò)等方法進(jìn)行樣本多風(fēng)格化處理,并嘗試使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(NAS)對結(jié)構(gòu)進(jìn)行自動化地調(diào)優(yōu),來更好適應(yīng)任務(wù)數(shù)據(jù)。