王文慶,龐穎,劉洋,楊東方,張萌
(1.西安郵電大學(xué) 自動(dòng)化學(xué)院,陜西 西安 710121;2.火箭軍工程大學(xué) 導(dǎo)彈工程學(xué)院,陜西 西安 710025)
空對地目標(biāo)檢測的目的是實(shí)現(xiàn)空對地場景下對目標(biāo)的識(shí)別和精確定位,也是在空基無人平臺(tái)遂行多種對地感知和認(rèn)知任務(wù)的關(guān)鍵技術(shù)[1]。近年來,隨著空基平臺(tái)在遂行自主巡視、主動(dòng)偵察監(jiān)視打擊和自然災(zāi)害預(yù)防等任務(wù)中發(fā)揮的作用越來越明顯,空基目標(biāo)檢測技術(shù)得到了越來越多的關(guān)注。通過研究新的空對地目標(biāo)檢測算法,提升空基平臺(tái)對地目標(biāo)檢測的自主性、準(zhǔn)確性和實(shí)時(shí)性,成為當(dāng)前空基無人領(lǐng)域研究的熱點(diǎn)問題[2]。
近年來,目標(biāo)檢測成為了計(jì)算機(jī)視覺和數(shù)字圖像處理的一個(gè)熱門方向,廣泛應(yīng)用于機(jī)器人導(dǎo)航、智能視頻監(jiān)控、工業(yè)檢測、航空航天等諸多領(lǐng)域,具有重要的現(xiàn)實(shí)意義。隨著深度卷積神經(jīng)網(wǎng)絡(luò)[3]的提出和發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測[4]算法利用深度卷積網(wǎng)絡(luò)對圖像不同特征信息進(jìn)行學(xué)習(xí),根據(jù)該特征對圖像中的目標(biāo)進(jìn)行描述,然后采用目標(biāo)分類和邊框回歸的方法對目標(biāo)進(jìn)行檢測。目前,基于深度學(xué)習(xí)的目標(biāo)檢測大致可劃分為單級(jí)目標(biāo)檢測算法[5-6]和兩級(jí)目標(biāo)檢測算法[7-9],單級(jí)式是在網(wǎng)格上進(jìn)行固定數(shù)量的預(yù)測;兩級(jí)式是先使用一個(gè)提議網(wǎng)絡(luò)尋找目標(biāo),然后再使用另一個(gè)網(wǎng)絡(luò)來微調(diào)這些提議并輸出最終預(yù)測結(jié)果。兩級(jí)目標(biāo)檢測算法在特征提取網(wǎng)絡(luò)之后,采用RPN(region proposal network)策略篩選目標(biāo)提案[10-11],再進(jìn)行目標(biāo)的分類和位置回歸。這類算法由于采用RPN策略對圖像中的目標(biāo)提案進(jìn)行預(yù)篩選,提高了目標(biāo)提案的質(zhì)量,所以具有較高的檢測精度,但此過程耗時(shí)較長,使得算法的實(shí)時(shí)性能較差。而單級(jí)目標(biāo)檢測算法則省略RPN過程,在特征提取網(wǎng)絡(luò)的基礎(chǔ)上添加額外的卷積層,再通過位置、尺度和縱橫比的密集采樣對目標(biāo)的類別和位置進(jìn)行回歸,提高了檢測算法的實(shí)時(shí)性能,但檢測精度相比于兩級(jí)算法較差,特別是對小目標(biāo)的檢測。實(shí)際中,由于空基平臺(tái)視距遠(yuǎn),復(fù)雜背景環(huán)境的的特點(diǎn),導(dǎo)致空對地成像的場景范圍大,場景中目標(biāo)的尺寸小,僅占圖像的小部分區(qū)域,且目標(biāo)自身包含的特征信息較少,難以消除復(fù)雜背景特征的干擾,這些難點(diǎn)給現(xiàn)有目標(biāo)檢測算法提出了挑戰(zhàn)。
通常,人眼在觀測目標(biāo)時(shí),并不是將全部視覺信息都盡收眼底,而是關(guān)注感興趣區(qū)域信息進(jìn)行識(shí)別。因此,本文仿照人眼視覺[12]和大腦感知圖像的過程,在深度學(xué)習(xí)SSD(single shot multibox detector)算法[13]的基礎(chǔ)上,將雙重注意機(jī)制應(yīng)用于空對地目標(biāo)檢測中,不僅關(guān)注通道中的目標(biāo)有效特征信息,同時(shí)也關(guān)注空間位置中的目標(biāo)重點(diǎn)區(qū)域,雙重優(yōu)勢更高效地對重要特征之處賦予新的權(quán)重,將之稱為基于雙重注意機(jī)制的空對地目標(biāo)智能檢測算法,簡稱為DAM(dual attention mechanism)-SSD。
近幾年,注意力機(jī)制在圖像、自然語言處理等領(lǐng)域中都取得了重要的突破,本身也是符合人腦和人眼的感知機(jī)制,被證明有益于提高模型的性能。本文選擇經(jīng)典的SSD算法作為基本框架,引入雙重注意機(jī)制,提出了一種新的空對地目標(biāo)檢測算法。本部分將從空間注意機(jī)制、通道注意機(jī)制和雙重注意機(jī)制的原理,DAM-SSD算法的網(wǎng)絡(luò)化描述和網(wǎng)絡(luò)損失函數(shù)優(yōu)化多個(gè)方面對算法進(jìn)行詳細(xì)介紹。
當(dāng)前許多目標(biāo)檢測算法通過融合多尺度的特征信息,感知目標(biāo)上下文信息,提高目標(biāo)的檢測精度。然而,空對地視角下的目標(biāo)尺寸比常規(guī)視角下的目標(biāo)尺寸都要小,所以包含的特征信息少;而且,由于目標(biāo)尺寸小,僅占場景的部分區(qū)域,大部分的復(fù)雜背景特征的干擾則會(huì)導(dǎo)致誤檢測和漏檢測等問題,給目標(biāo)檢測增添了困難。
如圖1所示,圖像中并不是所有的區(qū)域?qū)θ蝿?wù)的貢獻(xiàn)都是同樣重要的,只有任務(wù)相關(guān)的目標(biāo)區(qū)域才是需要關(guān)注的。傳統(tǒng)的目標(biāo)檢測算法通過融合不同尺度特征的方法[14],雖然能夠豐富目標(biāo)的特征信息,但難免會(huì)引入更多的背景干擾信息,阻礙檢測精度的提升。所以,空間注意機(jī)制就是尋找重點(diǎn)目標(biāo)區(qū)域特征信息進(jìn)行處理,抑制背景信息的干擾。由于在大部分情況下目標(biāo)檢測感興趣的區(qū)域只是圖像中的一小部分,因此空間注意力的本質(zhì)就是定位目標(biāo)區(qū)域并進(jìn)行一些變換或者獲取權(quán)重,從而減少背景信息干擾,提高檢測能力。
圖1 空間注意機(jī)制提取目標(biāo)區(qū)域示意圖
空對地視角下,對于目標(biāo)和場景的理解,與地面常規(guī)視角有著很大的不同。以汽車特征這一典型類型為例,在常規(guī)視角下,如圖2左半部分所示,觀察的汽車涵蓋了多角度的觀測結(jié)果,汽車的特征非常地完整豐富。然而在空對地視角下,如圖2右半部分所示,觀察的汽車都幾乎是一模一樣的空對地視覺下方形有效特征形狀,這時(shí)觀察到的目標(biāo)特征才是目標(biāo)檢測所需的目標(biāo)“有效”特征信息。
圖2 常規(guī)視角成像(左)和空對地視角成像(右) 對比示意圖
因?yàn)榭諏Φ貓鼍跋乱曈X單一,視距遠(yuǎn)的特點(diǎn),此時(shí)空對地視覺下的目標(biāo)形狀特征才是空對地目標(biāo)檢測的重要有效特征信息。同理,如圖3所示,特征層中每層通道包含著不同復(fù)雜特征信息,并不是所有通道都對目標(biāo)檢測有幫助,所以,通道注意機(jī)制通過目標(biāo)檢測網(wǎng)絡(luò)學(xué)習(xí)到不同通道對空對地目標(biāo)檢測的重要程度,重點(diǎn)關(guān)注重要通道。
圖3 通道注意學(xué)習(xí)重要通道示意圖
利用通道注意學(xué)習(xí)機(jī)制提升目標(biāo)檢測網(wǎng)絡(luò)性能,就是通過學(xué)習(xí)的方式來自動(dòng)獲取到每個(gè)特征通道對空對地目標(biāo)檢測的重要程度,然后依照這個(gè)重要程度提取有用的特征,通道的權(quán)重越高,代表著該通道包含目標(biāo)有效特征越重要。通道注意機(jī)制利用深度神經(jīng)網(wǎng)絡(luò),對特征信息復(fù)雜的空對地圖像特征通道進(jìn)行學(xué)習(xí),從而提高空對地目標(biāo)檢測精度。
雙重注意機(jī)制結(jié)合了空間與通道注意機(jī)制雙重優(yōu)勢,相比于單重注意機(jī)制(single attention mechanism,SAM)只關(guān)注空間的注意力機(jī)制效果更好。雙重注意機(jī)制不再平均考慮特征圖中全局的特征信息,而是重點(diǎn)關(guān)注場景中目標(biāo)區(qū)域和目標(biāo)有效特征信息[15]。
如圖4所示,首先,左側(cè)部分為通道注意結(jié)構(gòu),通過全局平均池化操作Fsq把卷積層Input的的每個(gè)二維的特征圖壓縮成一個(gè)實(shí)數(shù)ai,這個(gè)實(shí)數(shù)ai具有全局感受視野,然后利用可學(xué)習(xí)的參數(shù)W為每一個(gè)實(shí)數(shù)ai生成權(quán)重,通過可學(xué)習(xí)的方式建立與特征圖之間的相關(guān)性,最后用學(xué)習(xí)后包含全局不同重要程度通道特征B與原始特征圖Input進(jìn)行元素相乘,使輸出重點(diǎn)通道特征信息[16]。右側(cè)部分為空間注意結(jié)構(gòu),Conv(.)表示卷積操作,得到的D表示特征空間中整合多個(gè)更新權(quán)重通道信息后得到的概括特征圖,將特征空間中位置xy(x∈W,y∈H)處特征向量的注意權(quán)重axy進(jìn)行Softmax分類操作獲得位置概率權(quán)重pxy,通過可學(xué)習(xí)的方式建立與特征圖之間的相關(guān)性,最后用學(xué)習(xí)后包含全局空間不同重要程度位置區(qū)域特征D與特征圖進(jìn)行元素相乘,使輸出重點(diǎn)區(qū)域特征的信息。
雙重注意機(jī)制結(jié)構(gòu)通過篩選特征層中通道和空間上不同重要程度的有效特征信息和目標(biāo)區(qū)域,利用深度網(wǎng)絡(luò)學(xué)習(xí)的方式提升有效特征的權(quán)重并抑制復(fù)雜背景特征權(quán)重,從而提升空對地下目標(biāo)檢測精度。
本文選用以VGG16為特征提取網(wǎng)絡(luò)的SSD算法[17]作為目標(biāo)檢測算法的基本框架。SSD算法基本框架由VGG16網(wǎng)絡(luò)的前conv4_3層、VGG16網(wǎng)絡(luò)全連接層轉(zhuǎn)為的卷積層conv7以及額外4個(gè)遞減的卷積層conv8_2,conv9_2,conv10_2,conv11_2組成。在此基礎(chǔ)上,SSD算法在不同尺寸的特征圖中通過不同大小,縱橫比的目標(biāo)候選框?qū)Σ煌叽缒繕?biāo)的類別和位置進(jìn)行回歸。
本文提出的DAM-SSD算法,在SSD的基礎(chǔ)上,引入雙重注意機(jī)制,在增強(qiáng)特征圖中目標(biāo)特征表達(dá)能力的同時(shí),減小了復(fù)雜背景信息的干擾,提高了空對地目標(biāo)檢測算法的性能,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,左側(cè)為輸入圖像,此處以300×300大小的圖像為例,首先經(jīng)過VGG16網(wǎng)絡(luò)中的Conv4_3層將作為用于檢測的第1個(gè)特征圖,從后面新增的卷積層中提取Conv7,Conv8_2,Conv9_2,Conv10_2,Conv11_2作為檢測所用的特征圖,共提取了6個(gè)特征圖,其大小分別是(38×38),(19×19),(10×10),(5×5),(3×3),(1×1)。其次,為了有效利用特征圖中重點(diǎn)目標(biāo)區(qū)域和有效特征信息,本文設(shè)計(jì)了雙重注意信息機(jī)制融合模塊MAD,如圖5右側(cè)虛線框內(nèi)所示。利用DAM模塊學(xué)習(xí)得到特征中重點(diǎn)通道和目標(biāo)區(qū)域信息,將SSD前5個(gè)不同尺度特征圖通過其轉(zhuǎn)換融合,最終學(xué)習(xí)得到“重點(diǎn)關(guān)注”后的特征圖,進(jìn)行目標(biāo)檢測。
本文在傳統(tǒng)的SSD算法基礎(chǔ)上引入了雙重注意機(jī)制,通過學(xué)習(xí)通道和空間中的特征權(quán)重,描述圖像中的目標(biāo)區(qū)域信息。為此,在SSD算法損失函數(shù)[18]的基礎(chǔ)上,引入了雙重注意機(jī)制損失。因此,本文算法的損失函數(shù)可以描述為如下形式:
Lloss=Ldec+LDAM,
(1)
圖4 雙重注意機(jī)制結(jié)構(gòu)
式中:Lloss表示本文算法的損失函數(shù);Ldec表示目標(biāo)檢測器部分的損失函數(shù);LDAM表示本文引入的雙重注意機(jī)制損失函數(shù)。
Lconf(pDAM,[LDAM-label=1])],
(2)
式中:NDAM表示特征中匹配的注意力集中位置的數(shù)量;Lc_loc(·)表示smoothL1損失;Lconf(·)表示Softmax交叉熵?fù)p失。
在目標(biāo)檢測器損失函數(shù)部分,本文采用SSD算法的損失函數(shù),其形式描述如下:
(3)
式中:t表示目標(biāo)檢測器預(yù)測的檢測框位置參數(shù);Ndec表示檢測器匹配到的目標(biāo)檢測框的數(shù)量;t*表示圖像中標(biāo)注的目標(biāo)框位置參數(shù);pdec表示目標(biāo)檢測器預(yù)測的類別置信度;lob-label≥1表示圖像中標(biāo)注的目標(biāo)類別(lob-label=0表示圖像中背景區(qū)域的類別);Lloc(·)表示smoothL1損失;Lconf(·)表示Softmax交叉熵?fù)p失。
近幾年,深度學(xué)習(xí)下的目標(biāo)檢測常用的數(shù)據(jù)集包括PASCAL VOC[19],ImageNet,MS COCO等數(shù)據(jù)集,這些數(shù)據(jù)集大多以常規(guī)視角拍攝為主,用于研究者測試算法性能或者用于競賽。其雖然能夠?yàn)樯疃染矸e神經(jīng)網(wǎng)絡(luò)的特征提取提供豐富的訓(xùn)練資源,但這些數(shù)據(jù)集對應(yīng)的特征提取網(wǎng)絡(luò)也是建立在常規(guī)生活視角上,這與空基平臺(tái)的觀測視角有著很大的不同,對應(yīng)得到的圖像也存在很大的差異,無法滿足空對地背景下目標(biāo)檢測任務(wù)的需求。不僅如此,現(xiàn)有的空對地場景下的數(shù)據(jù)集數(shù)量相對較少,并且樣本的質(zhì)量和規(guī)模差異較大,所以導(dǎo)致在研究空對地目標(biāo)檢測算法中難度較大。為此,本文通過谷歌地球(Google Earth)、無人機(jī)拍攝和互聯(lián)網(wǎng)等途徑搜集了空對地場景中的飛機(jī)、汽車、卡車和船舶,制作了空對地目標(biāo)檢測任務(wù)數(shù)據(jù)集。根據(jù)本文算法的特點(diǎn)和空對地場景下目標(biāo)檢測的需求,在數(shù)據(jù)集標(biāo)注之前,將數(shù)據(jù)集中的圖像大小統(tǒng)一處理為300×300,之后再進(jìn)行標(biāo)注工作,從而得到本文數(shù)據(jù)集。
圖5 雙重注意機(jī)制智能檢測算法網(wǎng)絡(luò)結(jié)構(gòu)圖
最后,選用搜集制作的3 000張圖像及其標(biāo)注作為本文基于雙重注意機(jī)制的空對地目標(biāo)智能檢測算法的數(shù)據(jù)集,該數(shù)據(jù)集檢測的目標(biāo)包括飛機(jī)、汽車、卡車和船舶4種類別,將數(shù)據(jù)集按照7∶3的比例劃分為訓(xùn)練集和測試集參與訓(xùn)練過程。
本部分主要對DAM-SSD算法、SSD算法和單重注意機(jī)制目標(biāo)檢測算法(single attention mechanism-SSD,SAM-SSD)進(jìn)行了分析對比;采用單類目標(biāo)檢測精度(average precision,AP)和算法檢測精度(mean average precision,mAP)2種性能指標(biāo),用于評(píng)估模型的物體分類和定位性能。其中,單類目標(biāo)檢測精度(AP)主要用于評(píng)價(jià)算法模型檢測每一個(gè)目標(biāo)類型的性能好壞,具體計(jì)算過程如下:
(4)
式中:P表示檢測的精確率(Precesion),計(jì)算的是所有“正確被檢測”占所有“實(shí)際被檢測到的目標(biāo)”的比例;R表示檢測的召回率(Recall),計(jì)算的是所有“正確被檢測”占所有“實(shí)際應(yīng)該檢測到的目標(biāo)”的比例。一般計(jì)算AP值,通常以R為橫軸,P為縱軸,就可以畫出一條P-R曲線,P-R曲線下的面積就定義為AP,如公式(4)。
算法檢測精度(mAP)主要用于評(píng)價(jià)算法模型檢測所有或多個(gè)類型總體平均的性能好壞,具體計(jì)算過程如下:
(5)
式中:N表示檢測的類別數(shù)量;APi表示類別i的檢測精度。
為了驗(yàn)證DAM-SSD算法的性能,本部分將DAM-SSD算法與其他算法在結(jié)構(gòu)有效性、測試效果和驗(yàn)證訓(xùn)練曲線3方面上進(jìn)行對比實(shí)驗(yàn)。
首先,從結(jié)構(gòu)有效性對算法進(jìn)行分析,在相同數(shù)據(jù)集規(guī)模和參數(shù)條件下,對本文算法模型和其他算法模型進(jìn)行訓(xùn)練和對比實(shí)驗(yàn),評(píng)價(jià)指標(biāo)采用AP和mAP,結(jié)果如表1所示。
表1 不同算法在同一數(shù)據(jù)集下不同 類別目標(biāo)檢測精度對比
由表1可以得出結(jié)論,相比于SSD算法,DAM-SSD算法目標(biāo)檢測精度提高了4.35%,通過引入雙重注意機(jī)制,提取特征層中最值得關(guān)注的特征信息,提高目標(biāo)檢測的準(zhǔn)確性。
相比于SAM-SSD算法只關(guān)注空間位置的的重點(diǎn)特征,DAM-SSD算法通過關(guān)注特征層的通道與空間位置上的有效目標(biāo)信息和區(qū)域,目標(biāo)檢測精度提高了1.23%,同時(shí)不同類別的檢測精度均得到了提升。DAM-SSD算法利用本文雙重注意機(jī)制模塊的雙重優(yōu)勢,提高了空對地目標(biāo)檢測精度。
DAM-SSD算法與其他算法訓(xùn)練曲線對比實(shí)驗(yàn)如圖6所示,從藍(lán)色虛線框可以得到,在0~100 epoch內(nèi),當(dāng)3種算法達(dá)到同一mAP值時(shí),DAM-SSD算法所需訓(xùn)練代數(shù)最少,說明其訓(xùn)練速度最快;從黑色虛線框內(nèi)可以得到,3種算法中DAM-SSD最終訓(xùn)練驗(yàn)證結(jié)果精度值最高。
圖6 雙重注意機(jī)制智能檢測算法與其他 算法訓(xùn)練曲線對比實(shí)驗(yàn)
綜上,DAM-SSD算法與SSD算法和SAM-SSD算法相比,具有相對更快的訓(xùn)練速度,更高驗(yàn)證精度。
本文算法與SSD算法結(jié)果可視化對比實(shí)驗(yàn)如圖7所示,可以看出,本文算法比SSD算法檢測效果更準(zhǔn)確,對空對地場景下較密集目標(biāo)也有較好的檢測效果,可以證明,本文算法提升了空對地目標(biāo)檢測效果。
圖7 雙重注意機(jī)制智能檢測算法和SSD 算法結(jié)果可視化對比
本文提出的DAM-SSD算法,改變了傳統(tǒng)算法上對全局特征直接檢測的方式,通過在SSD算法基礎(chǔ)上,引入本文的雙重注意機(jī)制,針對空對地視覺單一和目標(biāo)有效特征少的問題,利用DAM模塊對通道和空間位置上重點(diǎn)關(guān)注的特征信息和區(qū)域進(jìn)行提取,篩選有效信息,繼而與原特征圖進(jìn)行融合轉(zhuǎn)換處理,有效避免復(fù)雜背景信息的干擾。從不同算法對比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本文提出的DAM-SSD算法,相比于比SSD算法和SAM-SSD算法在空對地目標(biāo)檢測性能上分別提高了4.35%和1.23%;同時(shí),DAM-SSD算法與其他2種算法相比,網(wǎng)絡(luò)訓(xùn)練結(jié)果達(dá)到更高精度且速度最快。以上結(jié)果表明,本文算法提升了空對地場景下目標(biāo)檢測精度。