王 輝, 繆仕城, 于立君, 綦志剛
(哈爾濱工程大學(xué)智能科學(xué)與工程學(xué)院,哈爾濱150001)
檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要課題,其主要任務(wù)是對(duì)圖像中的目標(biāo)進(jìn)行分類和定位,使用邊界框包圍感興趣的目標(biāo)并給出目標(biāo)類別[1-2]。近年來,隨著遙感技術(shù)的發(fā)展,遙感圖像的分辨率逐年攀升,這給目標(biāo)檢測(cè)帶來了全新的挑戰(zhàn)。目標(biāo)檢測(cè)模型無法直接提取和學(xué)習(xí)分辨率較高的圖像的特征;圖像中部分目標(biāo)(如飛機(jī)、汽車等)在整幅圖像中所占像素過小,檢測(cè)模型難以對(duì)其進(jìn)行檢測(cè)[3]。
針對(duì)高分辨率遙感圖像目標(biāo)檢測(cè)中存在的問題,設(shè)計(jì)并實(shí)現(xiàn)了基于注意力機(jī)制的目標(biāo)檢測(cè)模型,采用一定重疊率區(qū)域滑動(dòng)切割的方法處理高分辨率遙感圖像,實(shí)現(xiàn)了對(duì)圖像中不同目標(biāo)較為精確的分類和定位功能。
目標(biāo)檢測(cè)模型由區(qū)域的檢測(cè)框架快速卷積神經(jīng)網(wǎng)絡(luò)特征提取區(qū)域推薦算法(Region-Convolutional Nearal Network,F(xiàn)aster R-CNN)[4]和檢測(cè)主干網(wǎng)絡(luò)構(gòu)成。主干網(wǎng)絡(luò)包含特征提取網(wǎng)絡(luò)-殘差網(wǎng)絡(luò)模型(Residual Network Inception,ResNeXt-101)[5]、特征融合網(wǎng)絡(luò)-特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[6]和注意力機(jī)制[7](attention)。目標(biāo)檢測(cè)模型的整體結(jié)構(gòu)如圖1所示。
圖1 目標(biāo)檢測(cè)模型整體結(jié)構(gòu)
在主干網(wǎng)絡(luò)的殘差基本單元中引入注意力機(jī)制,借鑒了人類視覺注意力機(jī)制通過抑制無用信息來獲得更多關(guān)于目標(biāo)有用信息的思想[8-9]。注意力機(jī)制模型可以看作一個(gè)組合函數(shù),通過計(jì)算注意力的概率分布,突出某個(gè)關(guān)鍵輸入對(duì)輸出的影響,使網(wǎng)絡(luò)能更加注意輸入的相關(guān)部分,忽略非相關(guān)部分。使用的注意力機(jī)制屬于參數(shù)可微的軟注意力機(jī)制,包含空間域[10-11]和通道域兩個(gè)方面。
特征圖不同空間位置權(quán)值計(jì)算方法如下:使用池化方法對(duì)輸入特征圖采樣,對(duì)采樣后的特征圖進(jìn)行卷積提取目標(biāo)和源像素點(diǎn)內(nèi)容特征,對(duì)卷積得到的特征圖進(jìn)行張量乘法運(yùn)算(torch.matmul())得到與像素點(diǎn)內(nèi)容相關(guān)的注意力權(quán)值;對(duì)采樣后的特征圖進(jìn)行水平和豎直方向上的編碼,將目標(biāo)和源像素點(diǎn)空間位置編碼做差后進(jìn)行正余弦函數(shù)變換,得到位置編碼張量,位置編碼張量與目標(biāo)像素點(diǎn)的特征圖張量進(jìn)行乘法運(yùn)算得到與像素點(diǎn)空間相對(duì)位置有關(guān)的注意力權(quán)值。輸入特征圖與兩部分權(quán)值逐元素相加后輸出。
加入空間域注意力機(jī)制后的殘差基本單元結(jié)構(gòu)如圖2所示。方框中的數(shù)字分別為輸入特征圖的通道數(shù)、卷積核的大小和輸出特征圖的通道數(shù)??臻g域注意力位于卷積后,為卷積提取得到的特征圖賦予空間維度上的權(quán)值。
圖2 加入空間域注意力后的殘差基本單元
引入通道域注意力機(jī)制采用“壓縮和激勵(lì)”結(jié)構(gòu)[12-13]實(shí)現(xiàn),即對(duì)輸入特征圖在空間維度上進(jìn)行壓縮,在通道維度上使用非線性函數(shù)進(jìn)行激活。與空間域注意力類似,將通道域注意力引入主干網(wǎng)絡(luò)的殘差基本單元中,“壓縮”部分采用全局平均池化,“激勵(lì)”部分使用Sigmoid非線性函數(shù)。將空間域和通道域注意力機(jī)制引入殘差基本單元后的結(jié)構(gòu)如圖3所示。圖中H為特征圖的高度,W為特征圖的寬度,C為特征圖的長(zhǎng)度。
圖3 引入注意力機(jī)制后的殘差單元結(jié)構(gòu)
使用的高分辨率遙感圖像數(shù)據(jù)集有光學(xué)遙感圖像中目標(biāo)檢測(cè)數(shù)據(jù)庫(object DetectIon in Optical Remote sensing images,DIOR)[14]和航空影像中目標(biāo)檢測(cè)數(shù)據(jù)集(Dataset for Object deTection in Aerial images,DOTA)[15]。其中,DIOR數(shù)據(jù)集共包含23 463張大小為800×800的圖像,涵蓋20類目標(biāo)實(shí)例,數(shù)據(jù)集標(biāo)簽為xml格式,可以直接用來訓(xùn)練和測(cè)試模型;DOTA數(shù)據(jù)集共包含2 806張大小在800×800到4 000×4 000之間的圖像,涵蓋15類目標(biāo)實(shí)例,數(shù)據(jù)集標(biāo)簽為txt格式,無法直接用來訓(xùn)練和測(cè)試模型,需要先對(duì)其預(yù)處理。使用兩個(gè)數(shù)據(jù)集的目的在于驗(yàn)證模型的泛化能力。
采用一定重疊率的區(qū)域滑動(dòng)切割的方法對(duì)DOTA數(shù)據(jù)集進(jìn)行預(yù)處理,具體步驟如下:
步驟1使用1 000×1 000大小的區(qū)域,以800像素的步長(zhǎng)(重疊率為200像素)對(duì)原始圖像進(jìn)行滑動(dòng)切割,得到一系列分辨率較低的小圖;
步驟2將原始數(shù)據(jù)標(biāo)簽(標(biāo)簽數(shù)據(jù)為圖像中各個(gè)目標(biāo)的真實(shí)邊框的像素坐標(biāo)值、目標(biāo)類別和檢測(cè)難易度信息)按照切割得到的小圖進(jìn)行分割,即得到每張小圖的標(biāo)簽數(shù)據(jù);
步驟3將每張小圖對(duì)應(yīng)的txt格式的標(biāo)簽轉(zhuǎn)換為xml格式。
目標(biāo)檢測(cè)的一般過程分為訓(xùn)練和測(cè)試2個(gè)階段:訓(xùn)練階段使用訓(xùn)練集圖像對(duì)檢測(cè)模型進(jìn)行訓(xùn)練,測(cè)試階段使用測(cè)試集圖像對(duì)模型進(jìn)行測(cè)試,對(duì)測(cè)試結(jié)果進(jìn)行后處理得到檢測(cè)結(jié)果。基于區(qū)域的目標(biāo)檢測(cè)流程如圖4所示。
圖4 基于區(qū)域的目標(biāo)檢測(cè)流程
本文使用的檢測(cè)環(huán)境為MMdetection[16],使用單張NVIDIA GeForce GTX 1080Ti顯卡訓(xùn)練和測(cè)試模型,模型測(cè)試完成后對(duì)結(jié)果進(jìn)行處理得到檢測(cè)數(shù)值結(jié)果和可視化結(jié)果。數(shù)值結(jié)果為不同類別目標(biāo)的平均精度(Average Precision,AP)及各類別AP的平均值(mean Average Precision,mAP),反映模型的分類性能;可視化結(jié)果使用邊界框包圍目標(biāo),邊框外給出目標(biāo)類別和置信度得分,反映模型的定位性能。
將含有注意力機(jī)制和不含注意力機(jī)制的模型分別檢測(cè)DIOR數(shù)據(jù)集及DOTA數(shù)據(jù)集,并對(duì)檢測(cè)結(jié)果進(jìn)行了對(duì)比分析。
(1)DIOR數(shù)據(jù)集檢測(cè)結(jié)果。DIOR數(shù)據(jù)集檢測(cè)對(duì)比結(jié)果見表1。其中C1~C20分別為飛機(jī)、機(jī)場(chǎng)、棒球場(chǎng)、籃球場(chǎng)、橋、煙囪、大壩、高速路服務(wù)區(qū)、高速路收費(fèi)站、高爾夫球場(chǎng)、地面田徑場(chǎng)、港口、立交橋、船、體育場(chǎng)、存儲(chǔ)罐、網(wǎng)球場(chǎng)、火車站、汽車和風(fēng)車。由對(duì)比結(jié)果可見,在主干網(wǎng)絡(luò)中加入注意力機(jī)制,能提升主干網(wǎng)絡(luò)的特征提取能力,提高不同類別目標(biāo)的分類精度。模型檢測(cè)DIOR數(shù)據(jù)集的部分可視化結(jié)果如圖5(a)~(f)所示??梢?,圖像中的大部分目標(biāo)均能被模型準(zhǔn)確定位和識(shí)別,模型的整體定位性能較好。
表1 DIOR數(shù)據(jù)集檢測(cè)數(shù)值結(jié)果對(duì)比 %
圖5 DIOR數(shù)據(jù)集部分可視化結(jié)果
(2)DOTA數(shù)據(jù)集檢測(cè)結(jié)果。DOTA數(shù)據(jù)集檢測(cè)對(duì)比結(jié)果見表2。其中C1~C15分別表示飛機(jī)、棒球場(chǎng)、橋、地面田徑場(chǎng)、小型汽車、大型汽車、船、網(wǎng)球場(chǎng)、籃球場(chǎng)、存儲(chǔ)罐、足球場(chǎng)、環(huán)島、港口、游泳池、直升機(jī)。從對(duì)比結(jié)果可以看出,在主干網(wǎng)絡(luò)中加入注意力機(jī)制檢測(cè)DOTA數(shù)據(jù)集,能提升主干網(wǎng)絡(luò)的特征提取能力,提高絕大多數(shù)不同類別目標(biāo)的分類精度。模型檢測(cè)DOTA數(shù)據(jù)集的部分可視化結(jié)果如圖6(a)~(f)所示。由可視化結(jié)果可見,圖像中的大部分目標(biāo)均能被模型準(zhǔn)確定位和識(shí)別,模型的整體定位性能較好。
表2 DOTA數(shù)據(jù)集檢測(cè)數(shù)值結(jié)果對(duì)比 %
圖6 DOTA數(shù)據(jù)集部分可視化結(jié)果
針對(duì)高分辨率遙感圖像目標(biāo)檢測(cè)中存在的問題,借鑒人類視覺注意力機(jī)制,引入主干網(wǎng)絡(luò)的殘差基本單元,設(shè)計(jì)并實(shí)現(xiàn)了基于注意力機(jī)制的目標(biāo)檢測(cè)模型,并采用合適的方法處理高分辨率遙感圖像,實(shí)現(xiàn)了對(duì)圖像中不同目標(biāo)較為精確的定位和分類功能。由檢測(cè)數(shù)值結(jié)果的對(duì)比可見,加入注意力機(jī)制能提升網(wǎng)絡(luò)特征提取能力,提高檢測(cè)分類精度;分析可視化結(jié)果可以看出,模型的定位性能較佳,從模型檢測(cè)兩類數(shù)據(jù)集的結(jié)果上可以看出模型的泛化能力較強(qiáng)。