亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征增強的快速紅外目標檢測

        2023-02-18 01:40:24勇,張
        無線電工程 2023年1期
        關鍵詞:特征提取殘差紅外

        郭 勇,張 凱

        (1.福建信息職業(yè)技術學院 物聯(lián)網(wǎng)與人工智能學院,福建 福州 350003; 2.廈門大學 信息學院,福建 廈門 361005)

        0 引言

        紅外探測系統(tǒng)利用物體熱輻射收集目標信息,具有隱蔽性好、抗干擾能力強和受氣候、光線、煙霧影響小等特點,已廣泛應用于軍事偵察、視頻監(jiān)控和偽裝防護等領域[1]。目標檢測作為紅外探測系統(tǒng)的核心技術,主要完成目標定位與分類,受到國內(nèi)外研究人員的深度關注。

        近年來,基于卷積神經(jīng)網(wǎng)絡的深度學習目標檢測算法在性能上取得了巨大突破。以深度學習為基礎,文獻[2-6]將卷積神經(jīng)網(wǎng)絡的思想引入紅外目標檢測,探索出了一系列高效準確的檢測算法。但此類方法主要集中于以復雜的模型結構來提高目標檢測精度,忽略了檢測速度的重要性。當前,紅外系統(tǒng)逐漸小型化,常被搭載于無人駕駛汽車、無人機等智能設備上完成探測任務,對檢測精度和速度均提出了較高要求,因此在硬件資源有限的條件下,實現(xiàn)檢測精度與速度的最佳均衡是一項實踐意義重大的研究工作。

        基于以上分析,結合實際紅外應用場景特點,本文設計了基于特征增強的紅外目標檢測(Infrared Object Detection based on Feature Enhanced YOLO,F(xiàn)EID-YOLO)模型。FEID-YOLO屬于輕量級快速檢測模型,以YOLOv3[7]為基礎框架,利用ResVGG-5主干網(wǎng)絡替代原來的DarkNet53,降低模型計算量和提升檢測速度的同時,提取輸入圖像不同層次的特征,在此基礎上通過階梯式特征融合技術獲取魯棒和完備的預測特征圖,為末端目標預測提供有力支撐。在訓練階段,通過多尺度訓練和數(shù)據(jù)增強提升模型對復雜背景和不同尺度目標的適應能力。在FLIR ADAS紅外數(shù)據(jù)集上的實驗結果表明,F(xiàn)EID-YOLO模型的檢測精度可達57.31% mAP,且保持了每秒檢測幀數(shù)(Frames per Second,F(xiàn)PS)68.93的檢測速度,為模型在小型系統(tǒng)端的部署打下了基礎。

        1 紅外圖像特性分析

        目前,基于深度學習的目標檢測算法大多始于可見光領域,若要將其高效引入紅外圖像領域,對比可見光圖像與紅外圖像特性,并依此構建適合紅外場景的目標檢測模型十分重要。相較于可見光圖像,紅外圖像的質(zhì)量較低且目標特征有限,導致紅外目標的探測靈敏度、對比度和分辨率較低[8]。如果將在可見光領域中表現(xiàn)優(yōu)異的深度學習檢測模型直接用于紅外圖像目標檢測,勢必會導致性能急劇下降。因此,分析紅外圖像與可見光圖像特性,針對二者差異輔以特殊的特征處理手段是增強紅外目標檢測系統(tǒng)性能的有力措施。

        不同場景下配準好的可見光與紅外圖像如圖1所示。通過對比可見光與紅外的原圖像可以看出,可見光圖像中包含豐富的場景細節(jié)信息,且各類目標(車輛、行人和飛機)的幾何輪廓完整、紋理細節(jié)豐富、顏色多樣,易于檢測識別。反觀紅外圖像,不僅場景模糊、信噪比低、分辨率差,而且所包含目標的細節(jié)特征較弱、幾何結構缺失嚴重(如圖1 場景B紅外圖像中的飛機),導致紅外目標可利用的特征較少。由可見光與紅外圖像的三維分布圖可以看出,低溫目標(如圖1場景A中的車輛)在可見光圖像中更加突顯,而高溫目標(如行人和飛機尾翼部分)在紅外圖像中更加突顯,因此如何提取高魯棒性的目標特征是提升紅外多目標檢測性能的關鍵。分析二者的直方圖可以看出,相較于可見光圖像,紅外圖像的對比度更低,且其灰度分布與目標反射特性無線性關系,這無疑增加了目標檢測的難度。

        (a) 場景A可見光圖像與紅外圖像對比

        (b) 場景B可見光圖像與紅外圖像對比圖1 不同場景下的可見光圖像(子圖左上)、紅外圖像(子圖左下)及其三維分布圖(子圖中)和直方圖(子圖右)Fig.1 Visible images (upper left of sub-images), infrared images (lower left of sub-images) and 3D distribution maps (middle of sub-images) and histograms (right of sub-images) under different scenes

        紅外圖像的特性使得主流的目標檢測模型在應用于紅外場景時表現(xiàn)不佳,而實時目標檢測將更具挑戰(zhàn)性。分析紅外圖像特性可知,紅外目標主要呈現(xiàn)出幾何結構缺失、紋理細節(jié)不佳和像素強度分布較廣等特點。因此,構建的檢測模型必須具備魯棒且完備的目標特征提取能力,才能滿足后端的分類與定位需求。

        2 FEID-YOLO目標檢測模型

        基于前期分析,本文提出了FEID-YOLO紅外目標檢測模型,主要由3部分組成:輸入端、特征提取網(wǎng)絡和目標預測網(wǎng)絡,其結構如圖2所示。輸入端利用多尺度訓練和數(shù)據(jù)增強技術提高網(wǎng)絡訓練效率;特征提取網(wǎng)絡完成不同層次的特征提??;目標預測網(wǎng)絡首先對特征進行融合,而后輸入YOLO檢測層完成目標分類和定位。

        圖2 FEID-YOLO目標檢測網(wǎng)絡Fig.2 FEID-YOLO object detection network

        2.1 輸入端設置

        輸入圖像的尺寸對檢測模型的精度影響相當明顯,而多尺度訓練是提升檢測精度最有效的方法之一[9]。在特征提取網(wǎng)絡中,隨著網(wǎng)絡層的加深,原始圖像往往會被下采樣數(shù)十倍,導致小尺寸目標在特征圖中的響應有限,從而不易被檢測器捕獲。在訓練過程中,通過輸入更大、更多尺寸的圖像,不僅能夠增大小尺寸目標的特征響應,還能夠在一定程度上提高檢測模型對目標尺度的魯棒性。因此,在訓練階段FEID-YOLO每迭代10輪,即從{384,416,448,480,512,544,576,608}中隨機選擇一個新的數(shù)值作為下個10輪的圖像輸入尺寸。

        為了提升檢測模型的泛化能力,在訓練階段FEID-YOLO還引入了Mosaic[10]和PuzzleMix[11]兩種數(shù)據(jù)增強技術。Mosaic數(shù)據(jù)增強通過隨機縮放、隨機裁剪和隨機排布的方式將4幅圖像拼接成一幅圖像作為新的訓練數(shù)據(jù),不僅豐富了圖像背景,并且變相提高了訓練過程中的批量大小(Bach_size),節(jié)省了計算資源,整個過程如圖3所示。PuzzleMix數(shù)據(jù)增強首先隨機選擇2幅圖像并計算顯著性區(qū)域,通過裁剪出其中一幅圖像的顯著性區(qū)域并將其與另一幅圖像按比例相加混合,再經(jīng)精細優(yōu)化后構建出新的訓練數(shù)據(jù),整個過程如圖4所示。由于PuzzleMix加入了顯著性分析,因此避免了裁剪塊來源于原始圖像的非重要區(qū)域或者目標圖像的重要區(qū)域被裁剪塊遮擋等問題,保證了新生樣本的有效性,提升了訓練效率。

        圖3 Mosaic數(shù)據(jù)增強Fig.3 Data augment by Mosaic

        圖4 PuzzleMix數(shù)據(jù)增強Fig.4 Data augment by PuzzleMix

        2.2 特征提取網(wǎng)絡

        特征提取網(wǎng)絡作為檢測模型的主要組成部分,通常包含較深的網(wǎng)絡層數(shù),以此來提升模型的擬合能力,進而提取輸入圖像不同層次的特征圖[12]。但是隨著網(wǎng)絡的加深,其計算量也愈發(fā)龐大,進而影響檢測速度。因此對于實時目標檢測模型,在保證一定檢測精度的前提下減少網(wǎng)絡深度、降低計算量是特征提取網(wǎng)絡設計的關鍵。

        基于以上分析,設計了一個輕量級特征提取網(wǎng)絡ResVGG-5,其是在VGG[13]基礎上改進的5層卷積結構。ResVGG-5相當于將ResNet[14]中的精華思想應用到了VGG中,即在VGG網(wǎng)絡中加入了恒等映射(Identity)和卷積核為1×1的卷積(Conv 1×1)殘差分支,三者的比較如圖5所示。待檢測圖像輸入ResVGG-5后,共經(jīng)歷5個階段的處理,每一階段由卷積和殘差以不同的結合方式組建,輸出特征圖的尺寸為輸入的1/2,同時為了保留更多的特征信息,其通道數(shù)增加一倍。

        圖5 VGG,ResNet和ResVGG-5結構Fig.5 The structures of VGG, ResNet and ResVGG-5

        VGG在各特征提取階段均采用卷積核為3的卷積操作(Conv 3×3)提取圖像特征,Conv 3×3利于硬件部署和節(jié)省計算資源。ResNet在不同的特征提取階段分別引入了Identity和Conv 1×1兩種殘差塊,不僅解決了梯度消失問題,而且增強了特征重用和特征圖的完備性。相較于ResNet,ResVGG-5的殘差塊并沒有跨層,且整個網(wǎng)絡包含2種殘差結構,如圖5(c)中的藍框和紅框所示,藍框中的殘差結構僅僅包含Conv 1×1殘差分支,紅框中不僅包含Conv 1×1殘差分支還加入了Identity殘差分支。多分支的殘差結構相當于給網(wǎng)絡增加了多條梯度流動路徑,訓練一個這樣的網(wǎng)絡,類似于訓練了多個網(wǎng)絡,并將多個網(wǎng)絡融于一體,有利于提取更深層次、更加魯棒的特征表達。

        2.3 目標預測網(wǎng)絡

        在實際工程應用中,紅外系統(tǒng)探測的目標尺寸通常分布比較廣[15]。如果僅依據(jù)特征提取網(wǎng)絡的最高層特征圖來預測目標,雖然高層語義信息充足利于目標分類,但此時下采樣率為32,小尺寸目標的特征響應有限,甚至只占據(jù)特征圖的幾個點,進而影響目標定位精度。如果降低下采樣率,利用包含空間信息更加豐富的淺層特征圖進行目標預測,則會導致語義信息不足,進而影響目標識別精度。因此,為了充分利用高層特征的語義信息和淺層特征的空間信息,目標預測網(wǎng)絡在目標檢測之前首先進行特征融合,具體過程如圖6所示(圖中輸入圖像尺寸為416 pixel×416 pixel)。特征融合采用的是階梯式(Stairstep)結構[16],共需依次完成2組融合。由于每一組融合涉及到了不同尺度和通道數(shù)的2個階段的特征圖,因此每一組融合需要經(jīng)歷3個步驟。第1步,高階特征圖經(jīng)由一個Conv 1×1實現(xiàn)通道數(shù)量減半;第2步,通道變換后的高階特征圖通過步長為2的上采樣(Upsampling)實現(xiàn)尺度增倍;第3步,尺度和通道數(shù)相同的高低階特征圖以疊加方式完成融合。通過2組融合,最終得到尺寸為輸入圖像1/8(下采樣率為8)的融合特征圖,實現(xiàn)高低階特征圖在語義和空間上的結合,進一步增強了特征圖的表征能力。

        圖6 Stairstep特征融合方式Fig.6 Stairstep feature fusion method

        為了實現(xiàn)多尺度目標檢測,YOLOv3在3個不同尺度(下采樣率分別為8,16和32)的預測特征圖上獨立進行目標檢測,雖然提高了多尺度目標檢測的精度,但極易造成標簽重寫和無效邊框計算,從而影響檢測速度。因此,F(xiàn)EID-YOLO只保留了下采樣率為8的預測特征圖來進行目標檢測。此外,特征提取網(wǎng)絡中的雙殘差結構和目標預測網(wǎng)絡中的stairstep特征融合方式可匯總不同尺度目標的特征信息,保證了預測特征圖的魯棒性和完備性。最后,預測特征圖經(jīng)由2層Conv 3×3后輸入YOLO檢測頭得到包括目標位置坐標、邊框置信度和分類概率的預測結果。訓練階段,F(xiàn)EID-YOLO采用的損失函數(shù)與YOLOv3相同。

        在預測特征圖上實現(xiàn)紅外目標檢測的基本原理如圖7所示。其中,tx,ty,tw,th分別表示艦船目標邊框的中心點橫縱坐標、寬度和高度,Pobj表示邊框置信度,Pk表示目標分類概率,k是目標類別索引。待檢測圖像輸入特征提取網(wǎng)絡之前首先調(diào)整尺寸至416 pixel×416 pixel,經(jīng)特征提取和特征融合后輸出分辨率為52 pixel×52 pixel的預測特征圖,其每個像素點對應輸入圖像8 pixel×8 pixel大小的區(qū)域,以每個像素點為錨點產(chǎn)生6種錨框,根據(jù)錨框在特征圖上的特征映射計算出邊框坐標、置信度以及分類概率,從而得到目標預測結果,再將預測結果映射至原始圖像完成目標檢測。

        圖7 目標檢測原理Fig.7 Principle of object detection

        3 實驗與分析

        3.1 數(shù)據(jù)集

        FLIR ADAS紅外數(shù)據(jù)集[17]由FLIR公司于2018年發(fā)行,該數(shù)據(jù)集共包含14 452張圖像,其中9 214張含有目標標注框,場景為白天(60%)和夜間(40%)的加利福尼亞州圣巴巴拉市街道和公路,目標類別主要由人(28 151個)、汽車(46 692輛)和自行車(4 457輛)3類組成。實驗中選用11 152張圖像樣本作為訓練集,選用3 000張圖像樣本作為測試集。

        3.2 實驗設置

        算法基于Pytorch深度學習框架實現(xiàn),并在搭載Ubuntu操作系統(tǒng)、E5-2630v4 CPU、NVIDIA GTX1080Ti GPU (11 GB顯存)和64 GB RAM的硬件平臺上進行訓練和測試。網(wǎng)絡訓練時,設置初始學習率為0.001,Batch_size為8,訓練輪次為150,并采用動量為0.9的Momentum算法優(yōu)化訓練過程。

        為定量評估檢測模型性能,本文使用單類別的平均精度(Average Precision,AP)、平均精度均值(Mean Average Precision,mAP)和FPS三項指標對模型進行評估。

        3.3 檢測性能對比分析

        通過與Faster R-CNN[18],YOLOv3,YOLOv3-Tiny[19]進行比較來驗證所提模型的有效性。各檢測模型在FLIR ADAS紅外數(shù)據(jù)集上的檢測結果定量比較如表1和圖8所示。

        表1 基于FLIR ADAS數(shù)據(jù)集的不同檢測模型實驗結果Tab.1 Experimental results of different detection models based on FLIR ADAS datasets

        (a) 所有類別

        (b) 汽車

        (c) 人

        (d) 自行車圖8 不同檢測模型的各類別檢測精度與速度結果Fig.8 Detection accuracy and speed results of various categories of different detection models

        由各檢測模型的性能定量比較可知,應用廣泛的基準模型Faster R-CNN的mAP值達到了59.96%,YOLOv3的mAP值較前者略低,達到了58.02%,但由于Faster R-CNN采用的是二階檢測模式,相比于YOLOv3的一階檢測模式,其在計算量和檢測速度上并不占優(yōu)勢。YOLOv3-Tiny在YOLOv3的基礎上簡化了主干網(wǎng)和檢測頭,模型尺寸更小,檢測速度得以大幅提升,較YOLOv3其mAP值降低了5.77%,檢測速度提升了21.18幀/秒。FEID-YOLO的mAP值為57.31%,檢測速度達到了68.93幀/秒,與Faster R-CNN和YOLOv3相比,其在檢測精度上有一定損失,但是考慮到計算量的巨大差距(模型尺寸僅為Faster R-CNN的1/26,YOLOv3的1/12),因此該損失是可以接受的。此外,與同類檢測模型YOLOv3-Tiny相比,F(xiàn)EID-YOLO的mAP值提高了5.06%,檢測速度提升了9.29幀/秒,整體檢測性能提升幅度較大。

        3.4 消融實驗

        為了理解FEID-YOLO中采用的ResVGG-5雙殘差結構和stairstep特征融合方式對檢測效果的影響,表2給出了逐步增加相關模塊的消融實驗。其中,F(xiàn)EID-YOLO(VGG-5)的主干網(wǎng)絡為以VGG方式構建的5層卷積,且利用最高層輸出作為預測特征層,其mAP值為42.72%,檢測速度為78.21幀/秒。FEID-YOLO(ResVGG-5)以文中所提的ResVGG-5為主干網(wǎng)絡,較前者mAP提升了8.62%,說明ResVGG-5的雙殘差結構通過增加高低層的鏈接路徑,提升了特征圖的表征能力和魯棒性。在此基礎上,F(xiàn)EID-YOLO將stairstep特征融合結構引入檢測模型,mAP提升了5.96%,驗證了基于stairstep結構的特征融合可有效融合特征提取網(wǎng)絡的高層語義信息和淺層空間信息,為后端目標檢測提供完備的特征依據(jù)。

        表2 基于FLIR ADAS數(shù)據(jù)集的消融實驗Tab.2 Ablation experiment based on FLIR ADAS dataset

        3.5 可視化檢測結果

        為了進一步驗證FEID-YOLO模型在實際應用中的效果,圖9給出了不同場景下的目標檢測可視化結果。得益于較強的特征提取和處理能力,盡管各類目標處于不同的背景中呈現(xiàn)出不同的紅外特性,甚至存在遮擋問題,所提模型能正確地識別和定位出圖像中存在的絕大多數(shù)目標。但由于FLIR ADAS數(shù)據(jù)集的場景復雜度較高,在背景噪聲比較大且目標比較小的情況下,還是存在背景被識別為目標的問題,此外當目標呈密集分布時,也存在少量的虛警和重復檢測??偠灾現(xiàn)EID-YOLO模型在68.93幀/秒的檢測速度下,能達到可觀的檢測效果,為模型在小型系統(tǒng)端的部署打下了基礎。

        圖9 紅外目標檢測可視化結果Fig.9 The visualization results of infrared object detection

        4 結束語

        為了滿足小型紅外探測系統(tǒng)實時檢測的應用需求,提出了一種基于特征增強的快速紅外目標檢測模型。在實現(xiàn)過程中,為了降低模型計算量和提高檢測速度,設計了輕量化特征提取網(wǎng)絡,并利用雙殘差結構提升特征圖的魯棒性;針對現(xiàn)實中紅外目標尺度分布廣的問題,采用基于stairstep結構的特征融合方式充分融合高低層特征圖的語義信息和空間信息,提升預測特征圖的完備性。網(wǎng)絡訓練階段,還采用了多尺度訓練和數(shù)據(jù)增強技術來進一步提升模型的檢測性能。在FLIR ADAS紅外數(shù)據(jù)集上進行測試,與工業(yè)界廣泛應用的快速檢測模型Tiny-YOLOv3相比,提出的模型在檢測精度提升了5.06%的情況下,檢測速度提升了9.29幀/秒,驗證了其有效性和實用性。

        猜你喜歡
        特征提取殘差紅外
        基于雙向GRU與殘差擬合的車輛跟馳建模
        網(wǎng)紅外賣
        閃亮的中國紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        基于殘差學習的自適應無人機目標跟蹤算法
        基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
        自動化學報(2019年6期)2019-07-23 01:18:32
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應用
        電子制作(2019年7期)2019-04-25 13:17:14
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
        平穩(wěn)自相關過程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        日韩中文字幕一区二区高清| 亚洲av永久无码国产精品久久| 久久精品国产久精国产果冻传媒| 久久99精品国产麻豆不卡| 白天躁晚上躁麻豆视频| 久久婷婷色综合一区二区| 天天躁日日躁狠狠躁一区| 综合激情中文字幕一区二区| 国产麻豆一区二区三区在线播放| 水蜜桃在线精品视频网| 日本中文字幕婷婷在线| 日本真人边吃奶边做爽电影| 免费成人在线电影| 99无码精品二区在线视频| 亚洲综合网国产精品一区| 少妇性荡欲视频| 久久精品国产99国产精2020丨 | 中文亚洲成a人片在线观看| 欧美国产日韩a在线视频| 国产偷国产偷高清精品| 热门精品一区二区三区| 一区二区三区国产免费视频| 人妻仑乱a级毛片免费看| 少妇激情av一区二区| 久久久婷婷综合五月天| 国产精品成人av一区二区三区| 少妇人妻精品一区二区三区| 国产成人综合一区二区三区| 99久久久精品免费| 国产在线视频网友自拍| 91九色老熟女免费资源| 又色又爽又高潮免费视频观看| 日韩欧美区| 一区二区三区成人av| 一区二区三区国产在线视频| 插我一区二区在线观看| 亚洲色图+国产精品| 国产精品成人黄色大片| 夜夜爽夜夜叫夜夜高潮| 丰满岳乱妇久久久| 亚洲最大av免费观看|