亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進YOLOv3 的紅外目標檢測方法

        2022-03-12 05:56:22唐川明劉云峰張建林徐智勇
        計算機工程 2022年3期
        關鍵詞:尺度紅外卷積

        秦 鵬,唐川明,劉云峰,張建林,徐智勇

        (1.中國科學院光束控制重點實驗室,成都 610209;2.中國科學院光電技術研究所,成都 610209;3.中國科學院大學 電子電氣與通信工程學院,北京 100049)

        0 概述

        目標檢測是計算機視覺領域的重要研究方向,現(xiàn)有方法通常使用可見光圖像進行目標檢測,在黑夜、沙塵暴、大霧、雨天等缺少可見光光源、距離較遠、能見度較低的情況下,很難進行有效成像,檢測效果不佳[1]。紅外成像技術根據(jù)不同目標向外界散發(fā)的不同紅外輻射強度進行成像,無需借助外部環(huán)境光,不受雨雪風霜等天氣影響,具有全天候工作、可視距離遠等優(yōu)點[2]。紅外成像技術主要運用在目標捕獲、跟蹤、定位等軍事領域以及鐵路、煤礦、消防搶險、安防監(jiān)控等民用領域。

        傳統(tǒng)紅外目標檢測主要包括模板匹配、閾值分割、幀差等方法。LIU 等[3]提出將主成分分析得到的投影系數(shù)用作模板,并通過非線性相關性衡量匹配度。ZHANG 等[4]改進固定閾值識別方法,根據(jù)計算二維紅外通道中的亮度溫度直方圖,提出基于二維Otsu 和上下文測試的檢測算法。YIN 等[5]提出一種基于經(jīng)典W4 和幀差結(jié)合的算法,克服由背景突變引起的誤檢,消除幀差造成的空洞。然而,由于紅外圖像的紋理細節(jié)少、目標輪廓信息不明顯,在快速變化的復雜背景環(huán)境下容易產(chǎn)生錯檢漏檢,因此上述方法對紅外場景目標的檢測效果不理想。

        隨著科學技術的快速發(fā)展,依靠大數(shù)據(jù)管理和高性能計算的深度學習技術受到研究人員的廣泛關注并基于其提出一系列目標檢測方法?;谏疃葘W習的目標檢測方法在計算機視覺領域展現(xiàn)出超越傳統(tǒng)算法的優(yōu)越性能,其中,兩階段方法有R-CNN[6]、Fast R-CNN[7]、Faster R-CNN[8]等,單階段方法有SSD[9]、YOLO[10-12]等。但目前專門用于紅外目標檢測的深度學習算法較少,由于紅外目標的特性,因此直接使用這些通用的深度學習算法的檢測準確度不高。為解決上述問題,LEE 等[13]將輕量級卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)和增強的隨機森林相結(jié)合,改變原有的全連接方式,將CNN的輸出與增強的隨機森林相連接。HERRMANN等[14]提出一種紅外數(shù)據(jù)預處理策略,使紅外數(shù)據(jù)盡可能接近RGB 域,再使用紅外數(shù)據(jù)集進行訓練微調(diào),提升對紅外數(shù)據(jù)的檢測效果。WEI 等[15]借鑒MobileNetv2 輕量化網(wǎng)絡,將3 個特征輸出層進行自上而下的特征金字塔逐次連接,結(jié)合YOLOv3 檢測頭進行紅外目標預測,加快了網(wǎng)絡檢測速度。HU等[16]提出一種基于增強特征融合域的紅外目標檢測算法,將靜態(tài)目標模式分析與動態(tài)多幀相關檢測相結(jié)合,使用神經(jīng)網(wǎng)絡融合不同層次的紅外目標特征,通過增強目標特征抑制背景雜波和虛警率。

        上述研究工作從不同角度提升了對紅外目標檢測的性能,但對復雜背景的適應性不強,在檢測準確度和速度的平衡方面還有待提升。本文在YOLOv3模型的基礎上,提出改進的Effi-YOLOv3 模型。針對DarkNet53 模型規(guī)模大、訓練速度慢且對設備性能要求高的問題,使用輕量高效的EfficientNet 骨干網(wǎng)絡,降低內(nèi)存消耗,提升網(wǎng)絡模型的運行速度。由于目標尺度差異較大,淺層特征的感受野較小,通過模擬人類視覺的感受野機制,引入改進的感受野模塊(Receptive Field Block,RFB),在增加少量計算量的情況下,大幅增加網(wǎng)絡模型感受野。在檢測層部分,基于可變形卷積以及動態(tài)ReLU 激活函數(shù)構建DBD結(jié)構和CBD 結(jié)構,提升模型特征編碼靈活性,增加網(wǎng)絡模型容量。使用兼顧預測框與真值框長寬比偏差、重疊率和中心點距離的CIoU 損失代替原來的IoU 損失,加快網(wǎng)絡模型的訓練速度,提升預測框的回歸準確度。

        1 相關工作

        1.1 YOLOv3

        YOLOv3 是目標檢測中常用的單階段網(wǎng)絡,與兩階段網(wǎng)絡先產(chǎn)生候選區(qū)域再進行分類不同,YOLOv3在產(chǎn)生候選區(qū)域的同時進行分類,提升了網(wǎng)絡檢測速度。YOLOv3 的骨干網(wǎng)絡為由殘差結(jié)構組成的DarkNet53,殘差結(jié)構可以緩解深層網(wǎng)絡訓練時的梯度消失問題。YOLOv3 網(wǎng)絡結(jié)構如圖1 所示。為加強網(wǎng)絡對不同尺度目標的檢測精度,YOLOv3 采用類似FPN 的方式,將低層次的包含更多細粒度信息的特征層與高層次的包含較多語義信息的特征層進行特征融合,YOLOv3 中共進行兩次特征融合,形成3 個不同尺度的檢測層,分別對應檢測大尺度目標、中等尺度目標、小尺度目標。不同尺度的特征層會被劃分為S×S個網(wǎng)格,每個網(wǎng)格會生成3 個先驗框,共生成10 647 個先驗框進行預測,每個先驗框預測(B+C+N)維向量,其中,B表示4 個邊界框偏移量,C表示目標預測的置信度,N表示需要預測的類別總數(shù)。

        圖1 YOLOv3 網(wǎng)絡結(jié)構Fig.1 Structure of YOLOv3 network

        YOLOv3 損失函數(shù)由目標框位置損失Lloc、目標置信度損失Lconf和目標類別損失Lcls三個部分組成,其中,目標框位置損失包括中心點x、y產(chǎn)生的BCE Loss 和預測框長寬w、h產(chǎn)生的MSE Loss,目標類別損失為分類預測產(chǎn)生的BCE Loss。YOLOv3 損失函數(shù)定義如下:

        1.2 EfficientNet

        EfficientNet[17]是一個可以平衡縮放網(wǎng)絡輸入圖像分辨率、網(wǎng)絡寬度和網(wǎng)絡深度的模型,減少了模型參數(shù)量,增強了特征提取能力,使網(wǎng)絡處于高效平衡的狀態(tài)。EfficentNet 由多個MBConv 模塊構成,MBConv 中包含深度可分離卷積、Swish 激活函數(shù)以及Dropout 連接,并且在模塊中加入了SE 通道注意力機制。MBConv 模塊結(jié)構如圖2 所示。

        圖2 MBConv 模塊結(jié)構Fig.2 Structure of MBConv module

        Swish 激活函數(shù)計算公式如下:

        在Swish 函數(shù)中x為輸入,包含β個常數(shù)或者可訓練的參數(shù)。Swish 具備無上界、有下界、平滑、非單調(diào)的特點,將ReLU 替換為Swish 就能將Mobile NASNetA 在ImageNet 上的Top-1 分類準確率提升0.9%。

        深度可分離卷積是由逐通道卷積和逐點卷積組合而成。逐通道卷積中每一個通道被一個卷積核獨立計算,沒有利用不同通道在相同的空間區(qū)域上的特征信息。因此,使用逐點卷積將逐通道卷積產(chǎn)生的特征圖進行融合,逐點卷積的卷積核大小為1×1,對逐通道卷積產(chǎn)生的特征圖在深度方向進行加權組合,得到最終的輸出特征層。

        2 基于Effi-YOLOv3 的紅外目標檢測

        為解決YOLOv3 對于紅外目標檢測精度較低、計算復雜度較高的問題,本文提出一種基于Effi-YOLOv3 的紅外目標檢測方法。采用更輕量高效的EfficientNet-B2 作為目標特征提取表示的骨干網(wǎng)絡,提高網(wǎng)絡對目標表示的魯棒性和特征提取的高效性。通過添加改進的RFB 結(jié)構,增強網(wǎng)絡感受野。構建基于可變形卷積和動態(tài)ReLU 激活函數(shù)的DBD結(jié)構和CBD 結(jié)構,自適應調(diào)整卷積區(qū)域和通道激活率,提升模型表達能力。使用CIoU 損失加快模型收斂時間,提升預測框的準確率,最終實現(xiàn)對紅外目標更高效準確的檢測。

        2.1 骨干網(wǎng)絡

        為改善YOLOv3 的特征提取能力以及減少模型參數(shù),引入EfficientNet 作為特征提取骨干網(wǎng)絡。對應不同場景的需求,EfficientNet 系列網(wǎng)絡有B0~B7共8 種由小到大的網(wǎng)絡模型。針對紅外場景目標檢測任務,將EfficentNet-B2 去除最后的全局平均池化層、Dropout 層和全連接層后代替YOLOv3 原始的DarkNet53 網(wǎng)絡進行特征提取。

        EfficeintNet-B2 共有23 個MBConv 模 塊,為了進行多尺度的特征融合,取第8 個MBConv 模塊的輸出層為P3 層,取第16 個MBConv 模塊的輸出為P4 層,取第23 個MBConv 模塊的輸出為P5 層,將富有語義信息的高層特征通過上采樣后與具有較多空間細節(jié)信息的低層特征進行通道級聯(lián),使用1×1 卷積對不同通道的特征進行融合。由于紅外場景目標尺度變化較大,使用單一尺度特征層進行檢測不能同時兼顧不同尺度的目標,借鑒YOLOv3 的多尺度檢測策略,構建P3、P4 和P5 層特征融合后的3 種不同尺度的檢測層,分別針對大尺度目標、中等尺度目標、小尺度目標進行檢測,提升檢測的準確性和魯棒性。

        2.2 網(wǎng)絡感受野的增強

        網(wǎng)絡模型神經(jīng)節(jié)點對于感受野中不同位置像素的敏感度不同,對感受野中心區(qū)域的像素敏感度高,對感受野邊緣區(qū)域的像素敏感度低,并且從中心向邊緣快速衰減,符合二維高斯分布。在人類視覺系統(tǒng)中,視網(wǎng)膜對于同一幅圖像的不同區(qū)域的注意程度不同,在注視區(qū)域中心視覺靈敏程度最高,在周邊區(qū)域靈敏度低很多,突出注視區(qū)域信息。

        RFB[18]受人類視覺感受野結(jié)構啟發(fā),考慮視覺感受野大小和偏心率之間的關系以增大模型感受野,主要思想是采用不同尺寸卷積核和不同空洞率(rate)的空洞卷積,并對它們的結(jié)果進行級聯(lián)組合。為獲得不同尺度的局部特征信息,增大網(wǎng)絡模型的感受野,進而提升網(wǎng)絡的檢測精度,同時為減少卷積層參數(shù)誤差造成的估計均值的偏移,進一步改進RFB,獲得增強的網(wǎng)絡感受野,結(jié)構如圖3 所示。由于紅外成像中目標亮度高于背景亮度并且目標紋理特征弱,因此改進的RFB 在原有基礎上增加一條Maxpool 分支以突出待檢測目標,提升特征圖在區(qū)域內(nèi)的顯著性,保留更多的目標紋理信息。

        圖3 改進的RFB 模塊結(jié)構Fig.3 Structure of improved RFB module

        改進的RFB 模塊由具有不同大小的卷積核(類似Inception 結(jié)構)和不同空洞率的空洞卷積層構成,用于模擬人類視覺。首先將輸入的特征經(jīng)過1×1 的卷積進行降維,減少模塊的參數(shù)量,并保留1 個殘差邊連接到輸出層,有利于網(wǎng)絡訓練。多分支層由1×1、3×3、5×5 的卷積和Maxpool 構成,模擬不同多尺度的群體感受野,實際使用2 個3×3 卷積代替5×5 卷積,減少參數(shù)量。然后不同大小的卷積核連接對應空洞率為1、3、5 的3×3 空洞卷積用于模擬人類視覺中群體感受野尺度與偏心率之間的關系。最后將不同空洞卷積結(jié)果和使用1×1 卷積通道變換后的Maxpool 層級聯(lián)在一起進行通道融合,并與之前的殘差邊逐元素相加得到最終的輸出特征。

        2.3 可變形卷積和動態(tài)激活函數(shù)

        傳統(tǒng)卷積只能對固定區(qū)域進行計算,導致對幾何形變部分的建模受到限制??勺冃尉矸e[19]在一定程度上解決了上述問題,主要思想是通過對不同的卷積區(qū)域計算附加的偏置,改變原有的卷積計算位置,使其卷積區(qū)域貼合目標的幾何外形。引入可變形卷積,使其根據(jù)感興趣的目標區(qū)域自適應調(diào)整卷積區(qū)域,增強特征提取能力,減少背景信息的干擾。

        普通膨脹率為1 的3×3 卷積的采樣區(qū)域是一個規(guī)則的形狀R,R∈{(-1,-1),(-1,0),…,(1,1)}。對于輸入特征圖x中的位置p0,使用卷積核w加權計算得到輸出y(p0):

        如圖4 所示,可變形卷積在卷積操作時,額外對每個采樣點p0的感受野范圍pn計算偏移,增加二維的偏移量Δpk,將輸入圖像的像素值索引與對應的像素偏移量相加,并將變形后的像素索引范圍限制在輸入圖像尺寸范圍內(nèi)。

        圖4 可變形卷積計算流程Fig.4 Calculation process of deformable convolution

        由于不同區(qū)域像素對檢測性能的貢獻不同,當可變形卷積的區(qū)域大于目標所在區(qū)域時,會對非目標區(qū)域進行錯誤識別,因此在DCNv2[20]中對每一個偏移量預測權重Δmk,使其實現(xiàn)準確的特征提取??勺冃尉矸e的計算公式如下:

        計算得到的偏移量像素索引是一個浮點類型索引,為了使得到的像素值更加準確并且可以進行反向梯度傳導,還需要對浮點類型像素值坐標經(jīng)過雙線性插值得到輸出像素值。在初始化時,位置偏移Δpk=0,偏移權重Δmk=0.5,偏移層的學習率為原始層的0.1 倍。

        ReLU[21]是深度神經(jīng)網(wǎng)絡中常用的激活函數(shù),將輸入中的所有負值均設置為0,計算簡單高效。之后出現(xiàn)了Leaky ReLU、PReLU、RReLU 等多種ReLU函數(shù)的變體,但激活函數(shù)在推理階段均是靜態(tài)的。靜態(tài)激活函數(shù)在網(wǎng)絡運行之前設定激活率,在推理過程中激活函數(shù)對所有的輸入數(shù)據(jù)執(zhí)行相同的操作,缺乏靈活性。CHEN 等[22]提出動態(tài)ReLU(DYReLU)替換靜態(tài)的激活函數(shù)。

        動態(tài)ReLU 可以根據(jù)輸入特征來學習調(diào)節(jié)ReLU 的正值激活率和負值抑制率。對于一個給定的輸入向量x,動態(tài)激活函數(shù)被定義為分段函數(shù)fθ(x)(x),其中θ(x)為可學習的參數(shù),可為不同輸入x進行上下文信息編碼計算激活函數(shù)的參數(shù),fθ(x)(x)使用θ(x)計算的參數(shù)生成激活函數(shù),通過少量的額外計算可以帶來大幅的性能提升。

        傳統(tǒng)的靜態(tài)ReLU 函數(shù)定義為y=max{x,0},通道的激活函數(shù)為yc=max{xc,0},其中,xc為輸入向量x的第c個通道的值。ReLU 可以統(tǒng)一表示為分段線性函數(shù)。動態(tài)ReLU 通過輸入x={xc}調(diào)節(jié)使靜態(tài)的ReLU 變?yōu)閯討B(tài)的ReLU,其中線性系數(shù)是θ(x)的輸出。動態(tài)ReLU 函數(shù)定義如下:

        其中:K為函數(shù)的個數(shù);C為通道數(shù);激活函數(shù)參數(shù)不僅與當前對應通道輸入xc有關,還與其他輸入通道有關。動態(tài)ReLU 網(wǎng)絡結(jié)構如圖5 所示,其中:R為超參數(shù);C/R表示降維后的通道數(shù)量;2KC表示θ(x)輸出的參數(shù)。

        圖5 動態(tài)ReLU 網(wǎng)絡結(jié)構Fig.5 Structure of DY-ReLU network

        基于可變形卷積和動態(tài)ReLU 激活函數(shù),設計CBD、DBD、D3BD 等3 種基礎網(wǎng)絡模塊,其中:CBD由普通卷積(Conv)、BN 層、動態(tài)ReLU 函數(shù)組成;DBD 由可變形卷積(DCNv2)、BN 層、動態(tài)ReLU 函數(shù)組成;D3BD 由3 個可變形卷積、BN 層、動態(tài)ReLU函數(shù)組成。模塊結(jié)構如圖6 所示。

        圖6 CBD、DBD 和D3BD 模塊結(jié)構Fig.6 Structure of CBD,DBD and D3BD modules

        D3BD 相比DBD 和CBD 具有更強的特征提取能力,但是由于可變形卷積需要計算每一個卷積區(qū)域的偏移量以及對應偏移區(qū)域的權重比例,計算資源消耗相對較大,對模型運行速度產(chǎn)生較大影響。DBD 使用一個可變形卷積和動態(tài)ReLU 函數(shù),兼顧網(wǎng)絡運行速度和檢測精度。CBD 由于沒有使用可變形卷積,模型運行速度相對較快。在實際測試過程中,使用D3BD 網(wǎng)絡運行速度降幅較大,為平衡檢測速度和精度,選擇在不同的檢測層使用一次DBD 模塊,以實現(xiàn)對不同尺度目標的自適應性特征提取,后續(xù)網(wǎng)絡使用CBD 模塊。

        Effi-YOLOv3 網(wǎng)絡結(jié)構如圖7 所示。輸入圖像經(jīng)過改進的EfficientNet-B2 骨干網(wǎng)絡提取特征,其中P1 特征層分辨率為輸入圖像的1/2,P2 層分辨率為輸入圖像的1/4,以此類推,得到P3、P4、P5 等3 個有效特征層,其尺度大小分別為52×52、26×26、13×13,分別對應檢測小尺度目標、中等尺度目標、大尺度目標。為補充P5 層檢測大尺度目標時感受野不足的問題,在P5 層后使用改進的RFB 模塊增加淺層特征層的感受野,利用DBD 模塊使其適應大尺度的目標,得到P5_2 特征層,P5_2 特征經(jīng)過4 次CBD 卷積模塊得到P5_3。為進行不同尺度空間的特征融合,對P5_3 使用1 次CBD 卷積和上采樣后與P4 特征層進行通道間級聯(lián)融合,得到P4_1。為對中等尺度目標有更好的適應性,對P4_1 特征使用DBD 卷積得到P4_2,P4_2 特征經(jīng) 過4 次CBD 卷積之后得到P4_3。將P4_3 經(jīng)過1 次CBD 卷積和上采樣后的特征與P3特征層進行通道間級聯(lián),得到融合多尺度特征。針對小尺度目標檢測的P3_1,對P3_1 使用DBD 卷積得到更加適應小尺度目標檢測的P3_2,并對P3_2 進行4 次CBD 卷積,得到充分融合特征后的P3_3。最終將P3_3、P4_3、P5_3 分別進行1 次CBD 卷積和普通卷積,輸出尺度大小為13×13、26×26、52×52 的3 個YOLO 檢測頭。

        圖7 Effi-YOLOv3 網(wǎng)絡結(jié)構Fig.7 Structure of Effi-YOLOv3 network

        2.4 損失函數(shù)的改進

        IoU 是預測框與真值框之間的交并比,不僅可以用于正負樣本的判斷,而且是目標檢測中判斷預測框準確度的常用指標。YOLOv3 位置損失由中心點距離損失和預測框?qū)捀邠p失組合而成,不像IoU 能直觀地反映預測的準確度,因此考慮通過IoU 反映的預測框與真值框之間的偏差作為損失函數(shù)。IoU的計算公式如下:

        其中:A、B分別表示預測框、真值框區(qū)域;A∩B表示兩者之間的交集;A∪B表示兩者之間的并集。

        當預測框與真值框不重合時,IoU 值一直為0,直接使用IoU 作為損失存在一定缺陷。為解決上述問題,REZATOFIGHI 等[23]使用GIoU 作為損失函數(shù),使得預測框和真值框在沒有重疊時,也能較好反映兩者之間的重疊度。但當預測框和回歸框之間完全包含或者兩框在水平方向和垂直方向上時,此時的GIoU 損失會退化為普通的IoU 損失,降低了模型的收斂速度。由于預測框回歸包括重疊面積、長寬比和中心點距離3 個要素,因 此ZHENG 等[24]提 出DIoU 及CIoU。DIoU 將預測框與真值框的中心點距離加入了損失計算,CIoU 在DIoU 的基礎上將預測框的長寬比也加入損失函數(shù)計算中。

        其中:p2(b,bgt)表示預測框與真值框的中心點之間的歐氏距離;c表示能夠同時包圍預測框和真值框的最小閉包區(qū)域的對角線距離;α是度量長寬比相似性ν的權重系數(shù)。α與ν的定義如下:

        其中:w表示預測框?qū)挾?;h表示預測框高度;wgt表示真值框?qū)挾?;hgt表示真值框高度。

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集

        選擇FLIR 公司提供的紅外場景數(shù)據(jù)集,該數(shù)據(jù)集拍攝了美國加利福尼亞州的圣塔芭芭拉市的街道和高速公路,包含2017 年11 月至2018 年5 月的天氣變化以及一天中不同時間的場景,圖像背景有城市、山脈、隧道、樹木、建筑等,背景相對復雜。訓練集包含7 659 張紅外場景圖像,使用COCO 數(shù)據(jù)集格式進行標注,有22 372 位行人(person)、3 986 輛單車(bicycle)、41 260 輛汽車(car),共67 618 個目標。測試集包含1 360 張紅外場景圖像,有5 579 位行人、471 輛單車、5 432 輛汽車,共11 682 個目標。數(shù)據(jù)集中的目標尺寸分布如圖8 所示,該數(shù)據(jù)集中的目標尺寸分布中小尺寸的目標較多,不同目標間的尺寸跨度較大,并且場景中目標受到不同程度的遮擋,加大了檢測難度。

        圖8 FLIR 數(shù)據(jù)集目標尺寸分布Fig.8 FLIR dataset target size distribution

        3.2 評價指標

        通過平均精度均值(mean Average Precision,mAP),即各個類別的平均精度(Average Precision,AP)的均值來評價算法性能,mAP@0.5表示預測框與真值框的IoU大于等于0.5 的情況下的準確預測概率。在計算mAP前需要先計算查準率(P)和召回率(R)。查準率是指實際為正樣本且被準確預測為正樣本的數(shù)量與所有被預測為正樣本數(shù)量的比率,計算公式如下:

        其中:TTP表示實際為正樣本,模型預測也為正樣本的數(shù)量;FFP表示實際為負樣本,但模型預測為正樣本的數(shù)量。

        召回率是指實際為正樣本且被正確預測為正樣本的數(shù)量與所有實際為正樣本數(shù)量的比率,計算公式如下:

        其中:FFN表示實際為正樣本,但是模型預測為負樣本的數(shù)量。

        AP 計算公式如下:

        3.3 結(jié)果分析

        實驗計算機CPU型號為Intel Core i7-4790、GPU型號為GTX1080、運行內(nèi)存為16 GB、操作系統(tǒng)為Ubuntu18.04。編程語言為Python、深度學習框架為Pytorch1.4.0、CUDA 版本為10.1、cuDNN 版本為7.6.3。在訓練過程中,采用Adam優(yōu)化器對網(wǎng)絡參數(shù)進行優(yōu)化。在訓練初始階段,凍結(jié)骨干網(wǎng)絡,僅對分類頭進行訓練,設置學習率為0.001,batchsize 為16,訓練30 輪。之后將骨干網(wǎng)絡進行解凍,對整個網(wǎng)絡進行訓練,設置學習率為0.000 3,batchsize 為4,訓練170 輪。

        3.3.1 Effi-YOLOv3 與其他網(wǎng)絡模型的實驗結(jié)果對比

        將Effi-YOLOv3 與原始YOLOv3 的檢測效果進行對比,從圖9 可看出Effi-YOLOv3 在3 種類別檢測中均取得了較好的效果。Effi-YOLOv3 在單車類別的平均精度為53%,比YOLOv3 的42%提升了11 個百分點,行人檢測從62%提升到了74%,提升了12 個百分點,檢測效果提升明顯。在復雜背景下的目標檢測、遮擋情況下的目標檢測和小尺度目標檢測結(jié)果分別如圖10~圖12 所示。

        圖9 YOLOv3 和Effi-YOLOv3 對3 種目標的檢測結(jié)果對比Fig.9 Comparison of detection results of YOLOv3 and Effi-YOLOv3 for three targets

        圖10 復雜背景下的目標檢測結(jié)果Fig.10 Object detection results under complex background

        圖11 遮擋情況下的目標檢測結(jié)果Fig.11 Object detection results under occlusion

        圖12 小尺度目標檢測結(jié)果Fig.12 Small-scale object detection results

        為進一步驗證Effi-YOLOv3 模型性能,將其與YOLOv3、單階段的SSD、兩階段的Faster R-CNN 以及當前較為先進的EfficientDet 網(wǎng)絡模型進行對比實驗,結(jié)果如表1 所示。從表1 可以看出,Effi-YOLOv3模型對紅外目標的檢測精度遠高于其他網(wǎng)絡模型,相比YOLOv3 模型的mAP 提升9.9 個百分點,相比當前較為優(yōu)秀的EfficientDet-D1 模型的mAP 提升了4.7 個百分點。實驗結(jié)果證明了改進的Effi-YOLOv3模型對紅外目標檢測具有更好的性能。

        表1 紅外目標檢測實驗結(jié)果Table 1 Experimental results of infrared target detection

        3.3.2 消融實驗結(jié)果對比

        在復雜的深度學習網(wǎng)絡背景下,采用消融實驗檢驗去除網(wǎng)絡中某些模塊后的性能,有利于更好地理解網(wǎng)絡中不同模塊對網(wǎng)絡檢測性能的影響。為明確各個模塊對于網(wǎng)絡性能的影響,設置6 組實驗分別進行訓練,第1 組為原始的YOLOv3 模型,第2 組~第6 組為添加改進模塊的網(wǎng)絡模型,其中,“√”表示包含改進模塊,“×”表示不包含改進模塊。實驗結(jié)果如表2 所示。從表2 中可以看出:在第2 組實驗中,在更換骨干網(wǎng)絡為EfficientNet 后,模型大小壓縮為YOLOv3 的25.4%,在檢測精度相差不大的情況下,運行速度提升了4 frame/s,說明EfficientNet 骨干網(wǎng)絡相對DarkNet 更加輕量高效;第3 組實驗增加了RFB 模塊增強網(wǎng)絡感受野,與第2 組實驗的對比發(fā)現(xiàn),大中尺度目標car 和person 的平均精度明顯上升,分別提升了2.69 和6.11 個百分點,說明RFB 模塊增大了網(wǎng)絡模型的感受野,提升了網(wǎng)絡對大中尺度目標的檢測精度;第4 組實驗增加了可變形卷積自適應調(diào)整卷積的區(qū)域及權重,對不同尺度目標的檢測精度提升明顯,其中由于person 通常呈現(xiàn)不規(guī)則形狀,平均精度提升最多,增加了4.33 個百分點;第5 組實驗增加了DY-ReLU,使得每一層模型自適應地調(diào)整激活率,雖然增加了一定參數(shù)量并導致運行速度略微下降,但是極大提升了對小尺度目標的檢測精度;第6 組實驗使用CIoU 作為損失函數(shù),在幾乎不增加參數(shù)量的情況下,提升了整體預測框的檢測準確率,本組實驗即改進的Effi-YOLOv3 模型。綜上所述,改進的Effi-YOLOv3 模型相比原有YOLOv3模型具有明顯的性能提升,更加適合紅外場景目標檢測。

        表2 消融實驗結(jié)果Table 2 Ablation experiment results

        4 結(jié)束語

        為提升紅外場景目標檢測精度,本文提出基于Effi-YOLOv3 的紅外目標檢測方法。將高效的EfficientNet 骨干網(wǎng)絡與YOLOv3 網(wǎng)絡相結(jié)合降低模型參數(shù)量,提升特征提取能力。通過改進RFB 增大網(wǎng)絡的有效感受野,并基于可變形卷積和動態(tài)激活函數(shù)構建DBD 和CBD 結(jié)構,提升模型特征編碼的靈活性及增加模型容量。實驗結(jié)果表明,該方法能對紅外目標進行有效檢測,Effi-YOLOv3 模型參數(shù)量僅為YOLOv3 模型的33.3%,并且在運行速度比YOLOv3 模型略低的情況下,平均精度均值提升了9.9 個百分點。下一步將考慮采集更多的紅外場景圖像豐富訓練數(shù)據(jù)集,加強對紅外圖像的預處理提升紅外目標的辨識度,并且優(yōu)化網(wǎng)絡結(jié)構,增強模型泛化能力,在保證檢測精度的同時進一步加快網(wǎng)絡運行速度。

        猜你喜歡
        尺度紅外卷積
        網(wǎng)紅外賣
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        閃亮的中國紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        財產(chǎn)的五大尺度和五重應對
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應用
        電子制作(2019年7期)2019-04-25 13:17:14
        基于傅里葉域卷積表示的目標跟蹤算法
        基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        国产在线无码精品无码| 亚洲精品国产二区三区在线| 亚洲中文字幕高清视频| 日韩肥臀人妻中文字幕一区| 亚洲精品无码久久久久去q| 在线观看免费a∨网站| 天堂av无码大芭蕉伊人av孕妇黑人| 中文字幕高清视频婷婷| 国产夫妇肉麻对白| 中文字幕人妻丝袜美腿乱| 人妻无码ΑV中文字幕久久琪琪布| 青青草视频在线观看精品在线| 精品卡一卡二卡3卡高清乱码 | 黄片视频免费在线播放观看| 国产高清av首播原创麻豆| 亚洲综合国产精品一区二区99| 国产精品三级1区2区3区| 国产精品女同一区二区免费站| 熟女精品视频一区二区三区| 日韩永久免费无码AV电影| 男女后入式在线观看视频| 边添小泬边狠狠躁视频| 欧美性猛交xxxx黑人猛交| 大伊香蕉精品视频一区| 亚洲av日韩专区在线观看| 少妇激情一区二区三区视频| 欧美日韩另类视频| av天堂一区二区三区| 久久无码高潮喷水抽搐| 美丽的熟妇中文字幕| 国产av无码专区亚洲草草| 亚洲中文字幕人成乱码在线| 永久黄网站免费视频性色| 国产自产精品露脸刺激91在线 | 亚洲av专区国产一区| 性色av闺蜜一区二区三区| 国产综合久久久久影院| 久久国产精品国语对白| 国产做爰又粗又大又爽动漫| 久久伊人影院| 精品女同一区二区三区亚洲|