宋 歡,沈 韜,曾 凱
(昆明理工大學 信息工程與自動化學院,昆明 650500) (昆明理工大學 云南省計算機技術應用重點實驗室,昆明 650500)
太赫茲(THz)被認為是最具發(fā)展?jié)摿Φ男屡d技術之一,已經(jīng)在生物醫(yī)學[1]、無線通信[2]、無損檢測[3]、安全檢查[4]等各個領域發(fā)揮重要作用.太赫茲成像是基于太赫茲波進行成像的技術,具有較低的光子能量和獨特的無損傷檢測特性,這些特性使得太赫茲技術在安檢反恐領域廣受關注.從太赫茲圖像中提取目標特征,自動并準確地對各類目標進行分類和定位,是提高安檢效率和實現(xiàn)智能化排查的關鍵,針對太赫茲圖像的目標檢測研究具有重要的現(xiàn)實意義.
近年來,深度學習在計算機視覺領域中取得了突破的進展.相比于傳統(tǒng)目標檢測算法,基于深層卷積神經(jīng)網(wǎng)絡的算法具有特征自動提取,泛化能力強等優(yōu)點[5].目前,基于深度學習的目標檢測算法主要分為兩類:1)兩階段檢測算法,如Faster R-CNN[6]、Mask R-CNN[7],該類方法具有較高的檢測精度,但是檢測速度較慢;2)單階段檢測算法,如SSD(Single Shot multibox Detector)[8]、YOLO(You Only Look Once)[9]、PeleeNet[10]算法,與兩階段法相比,該類方法在檢測速度上有較大提高,但檢測精度稍有不足.現(xiàn)有的目標檢測算法在自然光學圖像的檢測中取得了不錯的效果,然而與自然光學圖像不同,太赫茲圖像的特征受觀察角度、目標結構和材料等因素的影響,目標邊緣特征模糊,細節(jié)缺失[11].在實際的日常人體安檢中,要檢測的對象通常為人們隨身攜帶的手機、打火機、刀具、鑰匙等物品,待檢目標通常占據(jù)整個圖像的小部分,所涵蓋的特征信息量少.同時,太赫茲圖像分辨率較低,背景與目標亮度相近,目標在卷積神經(jīng)網(wǎng)絡中特征表征能力不足,不利于模型進行判斷,針對太赫茲圖像的目標檢測面臨諸多挑戰(zhàn).目前,已有很多學者基于深度學習的方法對太赫茲圖像中的目標檢測進行了研究,Xiao[12]等提出一種結合預處理和結構優(yōu)化的檢測框架,在Faster R-CNN網(wǎng)絡中加入去噪和增強模塊,并將網(wǎng)絡分層裁剪以減少卷積層和池化層的數(shù)量,有效提高了檢測精度和速度;Yang等[13]通過稀疏低秩分解方法挖掘太赫茲圖像的時空信息,實現(xiàn)對可疑對象的高精度自動檢測和識別;侯等[14]使用在線困難樣本挖掘緩解太赫茲圖像數(shù)據(jù)集中正負樣本失衡問題,進一步提升了檢測性能.上述方法取得了不錯的進展,但直接使用卷積神經(jīng)網(wǎng)絡提取特征,沒有關注不同特征對網(wǎng)絡檢測任務的不同貢獻程度,不利于在干擾較大的太赫茲圖像中提取有效特征,同時沒有考慮上下文信息對檢測太赫茲圖像中低分辨率目標的重要性.
為解決上述問題,論文提出一種融合多尺度注意力的目標檢測框架(MSAD-SSD).針對太赫茲圖像分辨率較低,特征信息模糊的問題,MSAD-SSD采用不同膨脹率的膨脹卷積[15]獲得多尺度特征圖,提高網(wǎng)絡的感受野,結合上下文信息加強網(wǎng)絡對目標表征的準確性.針對太赫茲圖像存在背景干擾的問題,使用通道注意力機制[16]增強目標的關鍵特征,抑制冗雜特征,提高網(wǎng)絡對重要特征的表征能力.本文的主要貢獻包括:
1)以SSD檢測框架為基礎,提出了一種融合多尺度注意力的目標檢測框架MSAD-SSD,使用ResNet101作為特征提取網(wǎng)絡,通過殘差連接使網(wǎng)絡在干擾較強的太赫茲圖像中提取更為穩(wěn)定有效的特征.
2)在ResNet101網(wǎng)絡中設計一種多尺度注意力模塊,該模塊通過多支路的膨脹卷積充分獲取目標的上下文信息,利用通道注意力機制生成顯著特征圖,使網(wǎng)絡重點關注圖像中的關鍵特征.
SSD算法是目前主流的一種單階段多框檢測算法,由基礎的特征提取網(wǎng)絡以及附加卷積層組成,采用金字塔結構的多尺度特征對目標進行檢測.SSD網(wǎng)絡通過深層網(wǎng)絡提取的特征信息檢測大物體,依賴淺層網(wǎng)絡提取的低層特征信息檢測小物體.鑒于此,增強SSD淺層網(wǎng)絡的特征提取和特征表達能力,可以有效提高太赫茲圖像中各類目標的檢測性能.
論文所提MSAD-SSD使用ResNet101作為特征提取網(wǎng)絡,ResNet101具有更深的網(wǎng)絡結構,能夠提高網(wǎng)絡的特征提取能力,同時通過卷積層之間的跳躍性連接將輸入直接傳遞到輸出,能夠有效避免特征信息的丟失,使網(wǎng)絡在干擾較強的太赫茲圖像中提取更為穩(wěn)定有效的特征.論文在ResNet101中設計多尺度注意力模塊構建MSAD-SSD檢測框架,MSAD-SSD網(wǎng)絡結構如圖1所示.
圖1 MSAD-SSD網(wǎng)絡結構圖Fig.1 Structure of MSAD-SSD
MSAD-SSD檢測框架以ResNet101作為特征提取網(wǎng)絡,并在淺層網(wǎng)絡Conv3后加入多尺度注意力模塊,特征經(jīng)多尺度注意力模塊后與Conv3層原始的輸出特征進行融合,輸入下一步的檢測模塊中.網(wǎng)絡通過卷積層Conv3、Conv5、Conv6、Conv7、Conv8、Conv9對輸入圖像進行特征提取,結合不同分辨率的特征映射用于預測不同大小的目標.其中Conv6、Conv7、Conv8、Conv9為原SSD網(wǎng)絡的附加卷積層.
太赫茲圖像對比度低,細節(jié)特征信息弱,目標在太赫茲圖像中呈現(xiàn)出不同亮度的特性,相似亮度的背景極易覆蓋目標的特征信息,造成干擾.因此,如何利用有限的特征信息準確檢測出目標,是太赫茲圖像檢測的難點.本文設計了一種多尺度注意力模塊,使用多尺度膨脹卷積擴展網(wǎng)絡的視野感知域,獲取豐富的上下文信息,有利于充分利用太赫茲圖像有限的特征信息.同時,引入通道注意力機制增強圖像中的關鍵特征,通道注意力機制通過學習的方式獲取特征間的依賴關系及各部分的重要程度,并根據(jù)重要性突出高頻信息,有利于抑制太赫茲圖像中與目標無關的背景信息,減少無關信息的干擾,多尺度注意力模塊如圖2所示.
圖2 多尺度注意力模塊Fig.2 Multi-scale attention moudle
多尺度注意力模塊并行引入了3個不同膨脹率的膨脹卷積,形成多支路膨脹卷積層.使用膨脹率為1、2、5,卷積核為3×3大小的膨脹卷積對輸入進行采樣,在特征圖上進行不同膨脹率的卷積運算,充分獲取目標的上下文信息,得到特征圖不同尺度和不同區(qū)域間的信息變化.隨后再分別經(jīng)通道注意力模塊學習特征圖各個通道的重要程度并賦予不同的權重,使網(wǎng)絡聚焦于目標的關鍵特征,最后不同分支的輸出進行特征融合,得到多尺度融合特征.
2.2.1 膨脹卷積
膨脹卷積也稱空洞卷積,最早被提出用于圖像分割.膨脹卷積在原卷積核中插入不同數(shù)量的空洞來擴展卷積的大小,可以在不增加計算復雜度的同時擴展卷積層的感受野.傳統(tǒng)卷積神經(jīng)網(wǎng)絡使用下采樣擴大網(wǎng)絡的接收范圍,但隨著下采樣次數(shù)的增加,會導致特征圖分辨率降低,丟失邊緣、紋理等細節(jié)信息,不利于目標的檢測.膨脹卷積在原始卷積的基礎上增加一個參數(shù)膨脹率,通過控制膨脹率的大小對卷積核進行不同數(shù)量的空洞填充,能夠擴展網(wǎng)絡的感受野而不降低特征圖的分辨率.
假設原始的卷積核大小為k,膨脹率為r,則經(jīng)過膨脹后卷積核的大小k′為:
k′=r(k-1)+1
(1)
卷積核經(jīng)過膨脹后的視野接收域為:
v=((k+1)×(r-1)+k)2
(2)
使用膨脹卷積可以有效地擴展網(wǎng)絡的視野接收域,獲得輸入圖像更全面和準確的表達.
2.2.2 通道注意力機制
Hu等人首次提出利用注意力機制對特征圖各通道間的依賴性進行建模,通過權重值大小表征各個通道的重要程度,獲得顯著性特征映射,指導網(wǎng)絡重點關注信息量豐富的特征,抑制冗雜特征的干擾,通道注意力模塊如圖3所示.
圖3 通道注意力模塊Fig.3 Channel attention moudle
輸入圖像經(jīng)過特征提取操作Ftr后得到維度為H×W×C的特征圖U,其中H為特征圖高度,W為特征圖寬度,C為通道數(shù).通道注意力機制通過以下步驟實現(xiàn):
1)通道特征權重提取:對H×W×C的特征圖,在每個通道上對特征圖的空間維度進行壓縮,轉換成維度為1×1×C的特圖征,通道數(shù)保持不變.
(3)
式中:uc為輸入特征的第c個通道特征,i、j對應特征圖上每一個像素點的位置,對輸入特征進行平均池化,得到輸出特征zc.
2)通道特征權重更新:特征經(jīng)FC(Fully Connected)全連接層進行通道信息融合,通過學習的方式獲取0~1之間的歸一化權重,該權重表征各個通道特征的重要程度.
S=Fex(z,W)=σ(W2δ(W1z))
(4)
3)權重映射:將上述歸一化后的輸出權重值與原輸入特征圖進行逐通道加權,得到經(jīng)權重映射后的輸出特征.
(5)
(6)
本文所有實驗均在Ubuntu 16.04系統(tǒng)下進行,采用深度學習框架Pytorch搭建實驗運行環(huán)境,編程語言為Python,硬件配置為:NVIDIA Geforce GTX 2060,顯存為16GB,通過GPU加速運算.實驗最大迭代次數(shù)為100000次,初始學習率為0.001,當網(wǎng)絡訓練至80000次時,學習率降為0.0001.批量大小為16,動量為0.9,權重衰減率為0.0005.
本文使用的太赫茲圖像數(shù)據(jù)集中包含安檢過程中幾種典型的隱匿物:手機、刀具和水瓶,共 2450張圖像,采用JPEG格式,按照8:2的比例隨機劃分為訓練集和測試集.
實驗采用目標檢測領域常用的模型評價指標:平均精度(Average Precision,AP)和平均精度均值(mean Average Precision,mAP)對模型的檢測效果進行定量的評估.平均精度AP由召回率(Recall)與準確率(Precision)共同決定,是評價模型在單類別檢測中檢測性能的直觀標準.
(7)
(8)
(9)
式中TP、FP、FN分別是真陽性、假陽性和假陰性的數(shù)目.
mAP值為多類目標的平均精度均值,通過mAP 值衡量模型在所有類別中的綜合檢測性能.
(10)
式中,N為數(shù)據(jù)集中待檢測目標的類別數(shù)目,本實驗中N=3.
3.3.1 準確率對比
為驗證所提方法的檢測性能,我們以對太赫茲圖像中隱匿物品的分類和定位為基礎,對比模型在手機(Phone)、刀具(Knife)、水瓶(Bottle)3種物品中的檢測平均精度,以及各類別的平均精度均值.將MSAD-SSD與目前主流的目標檢測算法:Faster R-CNN、R-FCN、YOLO v3、SSD算法進行了對比實驗,表1為數(shù)據(jù)集在不同算法下的準確率對比.
表1 不同算法下數(shù)據(jù)集的準確率(%)對比Table 1 Comparison of the accuracy(%) of the dataset under different algorithms
由表1可知,MSAD-SSD網(wǎng)絡對太赫茲圖像數(shù)據(jù)集中的3類目標:刀具、手機、水瓶均有較好的檢測效果.對比不同的目標檢測算法,其中Faster R-CNN的平均檢測精度為79.62%,R-FCN的平均檢測精度為78.44%,YOLO v3的平均檢測精度為80.65%,SSD的平均檢測精度為79.26%,MSAD-SSD的平均檢測精度為82.63%,證明論文所提方法對太赫茲圖像中各類目標檢測性能提升的有效性.
為直觀的展示所提方法對太赫茲圖像中目標的檢測效果,論文將MSAD-SSD與SSD算法在測試集中的檢測結果進行了對比分析.在檢測結果中,所有的檢出目標都用邊框標記其位置,并顯示該目標的所屬類別以及置信度值,檢測結果示例如圖4所示.
圖4 檢測結果對比圖Fig.4 Comparison of test results
其中,圖4(a)為SSD網(wǎng)絡的檢測結果圖,圖4(b)為MSAD-SSD網(wǎng)絡的檢測結果圖.太赫茲圖像中各類目標:手機、刀具、水瓶與人體的亮度相近,對比度低且邊緣特征模糊,導致SSD 算法不能準確檢測,造成部分目標漏檢.MSAD-SSD網(wǎng)絡提高了對目標細節(jié)特征的學習能力,能更好地區(qū)分人體和人體攜帶的物品,在圖4(b)的檢測結果中,能夠準確檢測出太赫茲圖像中的各類目標.
3.3.2 消融實驗
為驗證所提多尺度注意力模塊中通道注意力機制和膨脹卷積對模型檢測性能的影響,論文進行了消融實驗.其中Attention代表在SSD網(wǎng)絡中加入通道注意力機制;Dilated Conv代表在SSD網(wǎng)絡中加入膨脹卷積;MSAD代表在SSD網(wǎng)絡中加入論文所提多尺度注意力模塊,實驗結果如表2所示.
表2 不同方法對模型檢測性能的影響Table 2 Influence of different methods on the detection performance of model
實驗結果表明,在SSD網(wǎng)絡中引入通道注意力機制與多尺度膨脹卷積,能有效提高網(wǎng)絡的檢測性能.在SSD網(wǎng)絡的基礎上增加通道注意力機制,mAP值從79.26%提高到81.51%;在SSD網(wǎng)絡中引入多尺度膨脹卷積,mAP值從79.26%提高到80.45%.當在SSD網(wǎng)絡中加入所提多尺度注意力模塊時,能夠有效地增強目標的重要特征信息,擴大網(wǎng)絡的感受野,獲得更豐富的上下文信息,模型對太赫茲圖像中各類目標的平均檢測精度達到最佳,mAP值可提高至82.63%.
綜合上述實驗結果,論文所提MSAD-SSD檢測框架對太赫茲圖像中的可疑物品具有良好的檢測效果,可以有效地提高目標的檢測精度,提高了算法的適應性和準確性.
太赫茲圖像分辨率低,目標涵蓋信息量少,目標與背景之間對比度低,為了提高目標檢測算法對太赫茲圖像中可疑物品的檢測能力,論文以SSD為基礎,提出了一種融合多尺度注意力的目標檢測框架MSAD-SSD.MSAD-SSD引入不同膨脹率的膨脹卷積獲取多尺度特征圖,結合多個尺度的特征圖進行預測,對低分辨率的太赫茲圖像實現(xiàn)更準確的特征表達.同時,利用通道注意力機制對每個通道的特征進行權重分配,抑制背景信息并實現(xiàn)對重要特征的自適應增強.改進后的算法對太赫茲圖像具有較好的檢測效果,提高了太赫茲圖像中可疑物品的檢測精度.有利于在安檢過程中對人體攜帶的可疑物品做出準確警報,提高自動檢測的可靠性和準確性.
在后續(xù)工作中,我們將收集更多的太赫茲圖像擴充數(shù)據(jù)集,增加安檢過程中常見的可疑物品種類,保證所提方法對太赫茲圖像目標檢測的普適性.