亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于目標感知增強的無人機航拍目標檢測

2022-07-21 04:12:18王鼎山賈世杰

計算機工程與設計 2022年7期

王鼎山，賈世杰

(大連交通大學電氣信息工程學院，遼寧大連 116028)

0 引言

智能無人機近幾年在能源巡檢[1]、海上救援[2]、交通監(jiān)管[3]等領域內(nèi)獲得了越來越廣泛的應用，而目標檢測是實現(xiàn)無人機智能感知的關鍵技術之一，憑借著深度學習的優(yōu)勢，當前目標檢測發(fā)展日漸成熟，并建立了以Faster R-CNN[4]、R-FCN[5]、Cascade R-CNN[6]等為代表算法的兩階段檢測框架和以SSD[7,8]系列、YOLO[9-12]系列、RetinaNet[13]等算法為主的單階段檢測框架，在常規(guī)圖像數(shù)據(jù)集上，此類檢測算法取得了巨大的成功。然而，在航拍圖像中由于目標物體尺寸偏小、特征不明顯和分布不均勻的特性，使得這些通用目標檢測器無法充分發(fā)揮其潛能，導致航拍圖像中的目標檢測效果并不理想。

為了使目標檢測在無人機航拍圖像處理中獲得良好的性能，眾多研究者提出了不同的方法和策略來彌補檢測器的不足。Liang X等[14]提出的FS-SSD改進算法，從多類目標之間的相互作用考慮來進行空間上下文分析，充分利用了目標特征的鄰域信息，彌補了SSD在小目標檢測上存在的不足，但該方法依賴于相關權衡參數(shù)和距離閾值的設置，不利于模型的自適應學習。高楊等[15]運用多層特征融合的方式對Faster R-CNN進行了改進，提升了小目標的檢測精度，但是各層特征的融合并不總是有效，有時一些背景噪聲的干擾會影響特征圖的激活。Zhang X等[16]基于Cascade R-CNN級聯(lián)檢測的思想，提出一種多模型融合的航拍目標檢測器DSOD，有效提升了密集小目標的檢測性能。

上述檢測算法從不同的角度考慮，給出了針對航拍圖像目標檢測效果不佳的相應解決方案，但是很少通過優(yōu)化預測階段的特征來進一步提高檢測器的性能。在特征預測階段，檢測頭部作為最終結(jié)果的輸出端，尤其對小目標特征的推理預測影響著整體模型的魯棒性。因此，本文以YOLOv4為基線模型提出了一種具有目標感知增強的航拍檢測算法。其中，YOLOv4對網(wǎng)絡的梯度信息和目標定位信息進行了優(yōu)化，并探究了與多種實用檢測策略的最優(yōu)組合，有效地實現(xiàn)了檢測器速度與精度之間的最佳平衡。鑒于此，本文首先對其主干網(wǎng)絡引入了注意力機制，以在基礎特征之上構(gòu)建更有效的特征分量，從而提升目標在各層級的表征效果。其次借助上下文信息的優(yōu)勢，將特征金字塔結(jié)構(gòu)中的多尺度信息進行上下文匯總和篩選，從而細化中間特征。最后在特征預測階段，通過復用原始檢測信息和跨階段聚合主干網(wǎng)絡特征，重構(gòu)了檢測頭子網(wǎng)絡，以增強模型對目標的定位感知能力。最終在相應數(shù)據(jù)集上的評估，驗證了本文所提方法在無人機航拍目標檢測任務上的有效性。

1 網(wǎng)絡結(jié)構(gòu)與算法原理

如圖1所示為網(wǎng)絡模型的框架，主要包括3部分，第一部分為BCA-CSPDarknet53特征提取網(wǎng)絡，是在主干網(wǎng)絡的各中間層融合瓶頸連接注意力(bottleneck connection attention，BCA)來引導其特征輸出，以有效和自適應地處理每個階段之間特征區(qū)域的變化，形成分層映射的表征空間。第二部分是上下文細化模塊(context refinement module，CRM)，通過聚合上下文信息并對其篩選細化，以充分利用有效的目標上下文來提高檢測小目標的性能。第三部分是針對預測端的目標感知增強檢測頭(object-aware enhancement head，OAE-Head)，這一改進旨在突出主動響應目標位置特征，同時抑制背景信息。

圖1 網(wǎng)絡模型框架

1.1 BCA-CSPDarknet53特征提取網(wǎng)絡

BCA-CSPDarknet特征提取網(wǎng)絡的組成如圖2所示。本文在YOLOv4主干網(wǎng)絡中的每個CSPDarknet結(jié)構(gòu)層添加了BCA模塊(如圖2右側(cè)所示)，該模塊的設計結(jié)合了ECA[17]網(wǎng)絡，本文進而對該注意力網(wǎng)絡進行了級聯(lián)交互，以實現(xiàn)對中間特征的深度注意力編碼，通過短連接的方式來增強注意力特征之間的信息流通，充分利用注意力機制的優(yōu)勢。

圖2 BCA-CSPDarknet結(jié)構(gòu)

具體來說，假設輸入張量為X∈C×H×W，經(jīng)逐通道全局平均池化(global average pooling，GAP)操作可表示為

(1)

式中：H，W分別為特征圖X的高和寬，G表示1×1×C的全局信息表征圖。然后，采用一維卷積對G進行自適應通道映射變換，捕獲跨通道信息交互的相關性，以確定每個通道特征圖的權重，該操作可描述

V=σ(Fk(G))

(2)

式中： Fk(·) 表示卷積核大小k的一維卷積操作，σ為Sigmoid函數(shù)，V是生成的各通道權重激活值，其中k的取值由輸入特征圖的通道數(shù)自適應確定。公式如下

(3)

式中：γ和b是超參數(shù)，默認取值為2和1， |·|odd表示取最鄰近的奇數(shù)值。在得到各通道的權重分布后，與原始輸入特征進行信息交互，即

X′=V?X

(4)

式中：X′為第一注意力圖，?表示元素對應相乘。

在short skip的前饋過程中，將之前的注意力權重V和后一模塊中的全局信息表征G′合并，再經(jīng)過一維卷積進行特征變換和激活映射，確保從先前的注意力信息中繼續(xù)學習，避免其特征在每一步學習中產(chǎn)生較大的變化。隨后，與第一注意力圖相乘融合。此過程可表示為

X″=σ(Fk(V⊕G′))?X′

(5)

式中：X″為第二注意力圖，⊕表示元素對應相加。

最終堆疊BCA-CSPDarknet作為特征提取網(wǎng)絡，對每個階段目標信息的選擇和表征過程進行分層注意力映射，形成不同感知層次上相對準確且有效的視覺空間表征，以挖掘不同大小目標最有用的信息。

1.2 上下文細化模塊

CRM由信息聚合塊(information aggregation block，IAB)和信息校準塊(information calibration block，ICB)組成，如圖3所示。

圖3 CRM結(jié)構(gòu)

許多研究結(jié)果表明上下文信息對小目的推理識別具有積極作用，故IAB將不同尺度下隱含語義信息的特征圖，映射到共同的抽象空間進行合并，得到局部和全局上下文信息。將C3和C5特征圖分別進行平均池化下采樣和插值上采樣操作，使其與C4特征圖的尺度大小和空間維數(shù)相等，之后對統(tǒng)一映射的特征圖進行簡單的平均，即

(6)

式中：Ci表示第i層特征，L表示多尺度特征層數(shù)，fFA為聚合后的輸出特征。

由于上下文信息并不總是對網(wǎng)絡模型有用，需要對其進行篩選才能有效地利用[18]。因此，ICB負責對上下文信息進行細化處理，它能夠為每個空間位置的鄰域信息建立空間和通道間依賴關系，避免上下文當中無效信息的干擾，從而生成更具鑒別性的特征。該結(jié)構(gòu)有兩個并行分支，其中一支路徑保留原始空間信息，另一支用于壓縮全局信息以形成潛在的低維空間，其過程可描述為

(7)

式中： F1(·) 表示在原始尺度空間下對特征的卷積操作，所對應特征映射與輸入共享相同的分辨率； D(·) 為平均池化操作，對fFA進行低維空間映射， F2(·) 為小尺度空間下的卷積操作，進而通過雙線性插值上采樣U(·) 將低維表征映射至原始特征空間。

最后以f2作為參考特征信息，來指導原始特征空間內(nèi)的特征變換過程，即

fSC=F3(f2?f1)+(f2?f1)

(8)

式中： F3(·) 為過渡卷積操作，fSC為生成的校準特征。

1.3 目標感知增強模塊

航拍目標檢測中，小目標的感知識別往往很容易受到復雜背景的影響，而用于預測階段的特征圖可能仍存在背景干擾信息，而導致最終檢測結(jié)果是次優(yōu)的。為此，本文設計了OAE-Head檢測頭子網(wǎng)路，如圖4所示。

圖4 OAE-Head結(jié)構(gòu)

該結(jié)構(gòu)基于原始檢測頭部的輸出信息和主干網(wǎng)絡各階段的特征信息，通過一組非對稱卷積核與共享權重的原始檢測頭部卷積核來進一步優(yōu)化預測過程中的信息輸出。此過程復用了原始預測中的啟發(fā)式信息，對推理預測階段的開環(huán)特征計算更新為閉環(huán)特征優(yōu)化，以此來增強正確激活的特征區(qū)域，同時抑制背景信息[19]。

原始輸出支路上的推理實現(xiàn)過程為

yi=Wi*xi

(9)

式中：xi和yi分別表示第i層原始輸出分支的特征映射和輸出，Wi為對應檢測頭部的卷積濾波器，*表示卷積操作。

引入非對稱卷積后的OEM因其包含不同形式的卷積操作，在一定程度上能夠產(chǎn)生差異化的梯度，得到更細粒度的特征表示。此過程可描述為

(10)

式中：Wkm表示非對稱卷積濾波器，m=1，2，3時分別對應3×3，1×3和3×1的卷積核大小， ReLU(·) 為Leaky ReLU激活函數(shù)，x′i為該過程輸出的特征映射，并將其與xj結(jié)合，由共享卷積核輸出最終的預測信息

y′i=Wi*(x′i+xj)

(11)

式中：xj為對應主干網(wǎng)絡的各階段特征，y′i為第i層預測分支的最終輸出。

通過應用這種反饋策略與聚合方式可以達到去噪和優(yōu)化高級語義信息的目的，確保了對應尺度空間表征下目標相對位置的敏感性，加強了多尺度預測支路上的細節(jié)信息傳遞，提高了解的性能，從而獲得更準確的預測結(jié)果。

2 實驗及結(jié)果分析

本文使用公共的航拍圖像數(shù)據(jù)集VisDrone[20]進行實驗評估。此數(shù)據(jù)集由無人機從14個不同的城市拍攝采集，涵蓋了各類視角、多種尺度和不同密度下的目標對象，共有圖像10 209張，其中訓練集、驗證集和測試集分別有6471、548、3190張，標記的類別包括行人、車輛、自行車等10類常見目標。按照COCO數(shù)據(jù)集將面積小于32×32的物體定義為小目標的依據(jù)，VisDrone數(shù)據(jù)集中包含的小目標占比高達約60%[20]，為有效實現(xiàn)檢測任務帶來極大的挑戰(zhàn)。

實驗平臺采用的操作系統(tǒng)是內(nèi)存大小為16 GB的Ubuntu16.04，處理器為i7-7800X，GPU型號為NVIDIA RTX2060 8 GB顯卡，使用CUDA10.2加速庫及Pytorch-1.6.0深度學習框架。實驗設定訓練圖像的大小為608×608，采用Mosaic和CutMix數(shù)據(jù)增強方式，并進行了label smoothing標簽正則化操作。優(yōu)化器選擇SGD和Adam進行參數(shù)更新，初始學習率為1×10-4，學習率衰減方式為余弦退火算法，衰減下限為1×10-6，訓練批次大小為16，迭代150個epoch。

2.1 對比實驗

在VisDrone數(shù)據(jù)集上，采用COCO數(shù)據(jù)集的評價指標對所提方法與其它主流目標檢測算法和相關航拍目標檢測算法進行了對比實驗。從表1可知，本文算法的檢測精度較其它算法有顯著提升，AP值達到了26.26%，比原始YOLOv4算法提升了4.24%的精度，其中小目標的精度漲點約2%，其主要原因是本文利用上下文信息和原始預測信息優(yōu)化了深層特征，一方面將用于推理小目標特征的上下文信息進行聚合并細化，另一方面在多尺度預測端優(yōu)化輸出信息，從而提高了小目標的檢測精度。

表1 VisDrone測試集上不同算法的檢測結(jié)果對比/%

表2為VisDrone數(shù)據(jù)集上每個目標類別的AP。從中可知，在10類目標對象中，原始YOLOv4在無人機航拍圖像上的總體檢測性能要優(yōu)于其它算法，而且在眾多類別中，例如“tricycle”、“awning”等尺寸較小，且占比也較少的一些目標，其檢測精度相比DSOD都有一定的提升。而本文算法，對比原始YOLOv4則進一步提升了此類較難檢測目標的精度。

相對于“car”、“van”、“bus”這些占比較高且尺寸略大的目標，檢測精度則有約3%～5%的提升。這反映了本文基于YOLOv4的改進算法對增強各類目標對象的表征效果具有明顯的優(yōu)勢，從而提高了無人機航拍目標檢測的精度。

圖5展示了YOLOv4與本文算法在不同航拍場景下的檢測效果對比圖。從中可以觀察到，YOLOv4對離視點較遠的物體檢測效果差，存在很多漏檢目標，相比本文算法則能較好地檢測出其中的特定物體類別，即使在暗夜場景下也能有效地檢測出混淆在背景中的大部分目標，但對于重疊遮擋較為嚴重或尺寸極小的物體，仍存在一定的檢測難度?？傮w而言，本文算法能夠顯著提升無人機航拍圖像中小目標的檢測效果，且對不同視點和場景變化的泛化能力較強。

表2 VisDrone測試集上各類別檢測結(jié)果對比/%

圖5 不同航拍場景下的檢測效果對比

2.2 消融實驗

該實驗是對本文網(wǎng)絡架構(gòu)中新設計模塊的進一步分析，以驗證其有效性和評估在不同模塊組合下對算法性能的影響，見表3。從中可以觀察到，在原始網(wǎng)絡中添加BCA模塊后，相比YOLOv4算法，雖然AP75降低了0.33%，但整體的AP值提升了0.49%，且算法推理時間幾乎沒有增加，說明本文設計的注意力模塊輕量且對算法性能提升影響顯著。在只加入CRM后，AP值達到了22.65%，與添加BCA時相比又有0.14%的增長，但該模塊中的聚合操作增加了模型運算量，使得FPS有所下降。而引入OEM后，網(wǎng)絡的檢測精度提升最明顯，相比原始算法從22.02%提升到了24.63%，這也反映了OAE-Head檢測頭部對多層級特征信息的閉環(huán)優(yōu)化，更有利于增強網(wǎng)絡模型對目標的感知效果。另外，將3個模塊同時集成到原始框架中，AP最終可以達到26.26%，檢測速度減少了6.6 FPS。總體來說，本文所提方法在無人機航拍圖像中的目標檢測性能具有明顯增益。

表3 不同模塊的消融對比結(jié)果

3 結(jié)束語

本文基于YOLOv4提出了一種改進方法來解決無人機航拍目標檢測中小目標識別差的問題。利用注意力機制的優(yōu)點首先對特征提取網(wǎng)絡進行改進，以分層引導的方式來實現(xiàn)對階段級特征的精煉；設計CRM對特征金字塔輸出的多尺度特征進行聚合細化，從而平衡語義差異性并強化目標的特征表示；在預測層引入OAE重新利用了對更高階特征優(yōu)化后的映射，可有效提升對小目標的定位感知能力。從實驗結(jié)果可以觀察到，所提方法針對不同場景的航拍圖像具有一定的魯棒性和顯著的檢測優(yōu)勢。之后，本文將針對模型規(guī)模進行壓縮量化工作，以實現(xiàn)更高效準確的航拍目標檢測性能。