亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進Yolov4 的車輛弱目標檢測算法

2023-09-19 07:47:52項琦鑫

中國慣性技術學報 2023年8期

王坤，項琦鑫

（中國民航大學電子信息與自動化學院，天津 300300）

隨著中國汽車保有總量的逐年上升，行車安全問題日趨嚴重。得益于人工智能的發(fā)展，智能汽車系統(tǒng)通過車輛目標檢測來規(guī)避一定的行車風險。傳統(tǒng)的車輛目標檢測方法基于手工提取特征，檢測精度低且無法滿足車輛目標實時檢測的需求，深度學習近年來在水下檢測[1]、智慧醫(yī)療、導航定位[2,3]等領域取得巨大成功。根據(jù)目標邊框產(chǎn)生以及變化的過程，基于深度卷積神經(jīng)網(wǎng)絡（Deep Convolutional Neural Networks,DCNN）的目標檢測算法主要分為兩類，一類是以Faster R-CNN、Cascade RCNN 等為代表的two-stage算法，另一類是SSD、Yolo 系列算法[4,5]為代表的onestage 算法。由于two-stage 算法首先通過卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks,CNN）產(chǎn)生候選框，然后對相應候選框進行分類，而one-stage 算法將輸入圖片通過CNN 直接完成分類和定位任務，所以twostage 算法檢測精度較高，但是檢測速度遠遠不如onestage 算法。上述目標檢測算法在公開的通用數(shù)據(jù)集中已經(jīng)取得成功，可以滿足一般目標的檢測需要。小目標所占像素單元較少；遮擋目標有很多共享像素且可見像素有限，將類似遮擋目標或小目標這種可見像素或所占像素單元少的目標定義為弱目標。道路車輛目標中包含大量弱目標，上述算法對弱目標的檢測效果不甚理想。

當前的目標檢測算法無法有效完成遮擋目標及小目標等弱目標的檢測任務，存在大量漏檢和錯檢等問題。近年來，有不少學者針對小目標和遮擋目標等弱目標檢測展開研究。文獻[6]提出通過半空間捷徑模塊建立骨干網(wǎng)絡來加強背景感知能力，抑制復雜背景信息對小目標信息的干擾，同時引入特征金字塔增強模塊，通過細化的尺度層次提高小目標的特征表示。文獻[7]提出M-CBAM 注意力機制并添加到特征強化提取模塊中來過濾背景信息和克服物體重疊問題，同時引入自適應融合因子過濾多余的特征，有效緩解了復雜場景中小目標的漏檢和誤檢問題。上述文獻利用金字塔結構與注意力機制增強了特征提取能力，雖然減少了背景信息對小目標信息的干擾，但忽略了淺層特征層的細粒度特性和通道間的信息關聯(lián)對小目標檢測的重要性。

文獻[8]針對密集的遮擋目標改進Yolov4-Tiny 網(wǎng)絡結構，使用變形預測頭（Transformer Prediction Heads,TPH）替換錨點檢測頭并使用自注意力機制與TPH 集成“卷積塊注意模型”。改進后的Yolov4-Tiny 網(wǎng)絡能在目標密集的場景中定位關鍵的注意區(qū)域，對密集的遮擋目標進行準確有效的實時檢測。文獻[9]將深度殘差網(wǎng)絡作為Yolov3 的骨干網(wǎng)絡，設計不同尺度的卷積特征圖與殘差網(wǎng)絡對應尺度的特征圖進行融合，形成最終的特征金字塔執(zhí)行車輛預測任務，實驗結果表明提出的模型能更好地檢測出遮擋目標。上述文獻通過多尺度融合構建金字塔結構在一定程度上提升了遮擋目標的檢測精度，但是不同尺度的目標先驗框稀疏度不同，淺層也有大目標和中目標的存在，小目標不易分得檢測框，影響了小目標的檢測并忽略了融合特征帶來的計算量。

針對上述問題，本文以Yolov4 作為基礎模型，利用注意力機制與通道分割設計特征增強注意力模塊（Feature Enhancement Attention Block,FEAB），并添加至PANet 網(wǎng)絡。FEAB 利用淺層特征層的細粒度特性與通道間的信息關聯(lián)，增強小目標信息的提取能力；在骨干網(wǎng)絡與頸部網(wǎng)絡之間添加像素重組殘差模塊，通過超分辨率的方法將位于同一網(wǎng)格的多個遮擋目標中心點分離到不同網(wǎng)格中，克服Yolov4 錨框機制對被遮擋目標檢測的限制，提升車輛遮擋目標的檢測能力；考慮到車輛目標檢測的實時性需求，使用深度可分離卷積替換多尺度特征融合模塊的普通卷積，提升檢測速度。

1 Yolov4原理

如圖1 所示，Yolov4 的整體結構分為三個部分：使用CSPDarknet53[10]作為主干網(wǎng)絡Backbone、由SPP和特征融合模塊PANet[11]構成頸部Neck 以及與Yolov3 相同的3 檢測頭Head。

圖1 Yolov4 的網(wǎng)絡結構Fig.1 The network structure of Yolov4

圖1 中以416×416 的輸入圖像為例，將原始輸入圖像調(diào)整到416×416 大小并輸入到主干特征提取網(wǎng)絡CSPDarkNet53 中進行圖像特征提取，得到P1、P2、P3作為有效特征層輸入到由FPN 和PANet 構成的特征金字塔中進行特征加強提取，PANet 網(wǎng)絡獲取3 個尺度的有效特征圖并輸入Yolo Head 結構。通過解碼網(wǎng)絡處理并進行非極大值抑制后將最終結果顯示在原圖上，Yolov4 輸出三個不同尺寸的特征圖用于不同尺寸的物體預測。因為下采樣倍數(shù)越大，代表網(wǎng)絡的感受野越大，所以輸出的13×13、26×26、52×52 三個特征層分別實現(xiàn)大、中、小目標的檢測。檢測頭網(wǎng)絡將原始圖像分成K×K個網(wǎng)格，每個網(wǎng)格設置三個先驗框來預測目標邊界。每個網(wǎng)格的張量計算公式為：

其中，K代表網(wǎng)格數(shù)，3 代表先驗框個數(shù)，4 代表邊框坐標，1 代表邊框置信度，N代表對象類別數(shù)。

根據(jù)基本組件分成5 個部分，如圖2 所示。圖2(a)中的CBM 模塊是Yolov4 網(wǎng)絡結構中最小的組件，由Conv、Bn、Mish 激活函數(shù)三者組成；圖2(b)中的CBL模塊由Conv、Bn、Leaky_relu 激活函數(shù)三者組成；圖2(c)中的SPP 模塊采用1×1、5×5、9×9、13×13 的最大池化，進行多尺度融合，有效地增加感受野并分離出顯著的上下文特征；圖2(d)中的Res unit 殘差模塊借鑒了Resnet 網(wǎng)絡中的殘差結構，構建更深的網(wǎng)絡，特征圖使用add 進行張量相加，不增加通道；圖2(e)中的CSPX 模塊借鑒了CSPNet 思想，由三個卷積層和X個Res unit 模塊堆疊組成。

圖2 Yolov4 網(wǎng)絡組件Fig.2 Yolov4 network components

2 改進Yolov4的車輛弱目標檢測方法

在車輛目標檢測的實際應用中，被遮擋目標可見像素太少，小尺寸目標自身所占像素太少容易被忽略等難題一直困擾著研究人員。原始Yolov4 算法在通用數(shù)據(jù)集上表現(xiàn)出色，但是Yolov4 的錨框機制對遮擋目標的訓練檢測并不友好，同時Yolov4 忽視了淺層特征層的細粒度特性和通道間的信息關聯(lián)對小目標檢測的重要性。針對車輛弱目標普遍存在且不易檢測的問題，提出了改進Yolov4 的車輛弱目標檢測算法。

2.1 像素重組殘差模塊

在實際的交通場景中，嚴重遮擋的目標可見像素有限且有很多共享像素。Yolov4 確定錨框時，只有包含物體中心點的網(wǎng)格才被視為正確，多個目標的中心點位于同一網(wǎng)格時，Yolov4 只會保留一個目標，其余目標在訓練過程中會被忽略，這嚴重限制了Yolov4 對遮擋目標的檢測能力。為了在訓練時保留更多的遮擋目標，將多個嚴重遮擋目標的中心點分散到不同的網(wǎng)格中，引入像素重組模塊如圖3 所示。

圖3 像素重組原理圖Fig.3 Principle diagram of pixel shuffle

由圖3 可知，引入像素重組[12（]Pixel Shuffle,PS）將低分辨率（Low Resolution,LR）特征圖通過多次卷積核為f1的卷積操作，最終得到通道數(shù)為r2的特征圖，r是其分辨率。通過通道重組獲取高分辨率（High Resolution,HR）特征圖有效地擴大感受野并提供更多的上下文信息，通過超像素方式將同一網(wǎng)格的多個遮擋目標的中心點分散到不同網(wǎng)格中。但是由于邊界處的卷積都只涉及到相同的像素點，像素重組在邊界處存在反卷積層不平整的問題。

為了改善像素重組反卷積層不平整的問題并且使得網(wǎng)絡能完整學習相關特征，利用空洞卷積和非對稱卷積建立像素重組殘差模塊。超分辨率實質(zhì)上是從一張?zhí)卣鲌D變換到另一張相似特征圖的過程，特征不需要全學，通過學習殘差特征去恢復一些細節(jié)。為了從遮擋目標的有限可見像素中提取細化信息并生成可區(qū)分表示，本文提出像素重組殘差模塊，記為PS-R，結構如圖4 所示。由圖4 可知，分支1 采用不同大小和膨脹率的空洞卷積，不同的卷積核覆蓋不同的空間范圍。通過不同的感受野查看同一位置4 次。該層次結構從不同的感受野提取信息，不僅有細節(jié)信息還兼顧當前區(qū)域的全局信息。通過像素重組模塊改善遮擋目標的信息提取能力和可區(qū)分表示，但伴隨有反卷積層的不平整。分支2 使用非對稱卷積代替正方形卷積，在學習殘差特征信息的同時降低參數(shù)量的引入，分支1和2 元素求和后得到高分辨率特征層。

圖4 像素重組殘差模塊Fig.4 Pixel shuffle residual module

2.2 特征增強注意力雙分支模塊

原始Yolov4 網(wǎng)絡忽視了淺層特征層的細粒度信息和通道間信息的關聯(lián)對小目標檢測的重要性。針對此問題，提出具有對象感知能力的特征增強雙分支模塊FEAB，如圖5 所示。FEAB 模塊由兩個分支組成：注意力分支和基于通道分割的特征增強分支，其中特征增強分支通道分割得到子特征圖C1、C2。特征增強分支得到的增強特征圖C3，與注意力分支得到的歸一化重要性特征圖C4進行元素相乘，生成具有對象感知能力的增強特征圖。為了保留更多的細粒度信息，將具有對象感知的增強特征圖和輸入特征圖進行特征圖相加得到C5作為下一個卷積層的輸入特征圖。

圖5 特征增強注意力模塊Fig.5 Feature enhancement attention block

由圖5 可知，為了節(jié)約算力，注意力分支僅使用通道維度的平均池化去壓縮特征圖的所有通道獲得自我注意特征圖。在自我注意特征圖中，高像素值的語義信息被確定為重要通道，在后續(xù)處理中會得到更多的關注。用Sigmoid 激活函數(shù)對自我注意特征圖的所有通道進行歸一化得到歸一化重要性特征圖C4。特征增強分支對輸入特征圖進行通道分割，對得到的（C1，C2）進行不同的操作：C1不進行任何操作，保留淺層高分辨率特征圖的小目標信息和邊緣信息；C2分三個支路對其進行膨脹率不同的空洞卷積操作，獲取不同感受野的特征圖后進行Concat 操作，并使用非對稱卷積操作整理維度。將操作后的C1和C2進行Concat 操作獲得增強特征圖C3，與歸一化重要性特征圖元素相乘得到具有對象感知的增強特征圖。最后，將具有對象感知的增強特征圖與輸入特征圖進行元素求和，獲得最終的特征圖C5。

2.3 k-means++遺傳算法聚類

Yolov4的初始先驗框尺寸由Pascal VOC和COCO兩大通用數(shù)據(jù)集聚類確定，本文使用針對交通道路目標的車輛數(shù)據(jù)集KITTI 與UA-DETRAC 進行實驗。與通用數(shù)據(jù)集相比，車輛數(shù)據(jù)集的寬高比更大，初始先驗框的尺寸不適用于本文數(shù)據(jù)集。因此，本文使用k-means++聚類結合遺傳算法對道路車輛數(shù)據(jù)集的真實標注框進行聚類。通過對數(shù)據(jù)集中車輛及行人目標的形狀及特點進行分析，手動選取k-means++的初始聚類框，以此降低算法在初始聚類中心上帶來的誤差。使用Genetic Algorithm 遺傳算法，在k-means++聚類的結果上對聚類中心進行mutation 變異，遺傳算法隨機對先驗框的寬高比進行變異，將變異后更好的結果賦值給原有的先驗框。模型保留Yolov4 的三檢測頭結構，基于每個檢測層保留三個尺寸的先驗框，所以本文選取聚類中心k=9。在KITTI 數(shù)據(jù)集上的先驗框聚類結果是：[9，26]、[15，35]、[8，72]、[27，40]、[20，56]、[39，71]、[23，165]、[61，115]、[99，198]；在UA-DETRAC數(shù)據(jù)集上的先驗框聚類結果是：[12，17]、[16，23]、[22，29]、[32，31]、[27，43]、[40，44]、[57，51]、[63，83]、[103，115]。使用結合了遺傳算法的k-means++算法聚類得到的先驗框更貼合數(shù)據(jù)集包含的目標特點，保證訓練過程的進行。

2.4 深度可分離卷積

深度可分離卷積[13]由逐深度卷積和逐點卷積組合而成，為了提高網(wǎng)絡的表達能力，在卷積之后均使用BN 和ReLu 激活函數(shù)。與普通卷積相比，在精度不變的情況下，深度可分離卷積大幅減少了模型的參數(shù)量。在原有的加強特征提取結構中PANet 由普通卷積塊堆疊而成，引入太多計算量，因此，本文用深度可分離卷積替換PANet++中的普通卷積。假設輸入特征圖尺寸為DF×DF×M，卷積核尺寸為DK×DK×M，輸出特征圖尺寸為DF×DF×N。

深度可分離卷積與普通卷積的參數(shù)量之比為：

如式(2)所示，深度可分離卷積的參數(shù)量遠遠少于普通卷積，有效降低網(wǎng)絡的計算量，提升檢測速度。

2.5 改進的Yolov4網(wǎng)絡結構

本文提出的改進Yolov4的網(wǎng)絡結構如圖6所示，主要分為三部分：設計像素重組殘差模塊PS-R，通過超分辨率的方式將多個遮擋目標的中心點分散到不同網(wǎng)格中，遮擋目標在訓練中被更多的保留，有利于遮擋目標檢測；設計FEAB模塊并添加至PANet中構成PANet++，保留更多細粒度信息，同時加強淺層細粒度特征的提取與通道信息關聯(lián)，像素重組殘差模塊與特征增強注意力雙分支模塊均用于加強網(wǎng)絡的弱目標特征信息的提取能力；最后使用深度可分離卷積替換PANet++中的普通卷積，提升檢測速度。在通過非極大值抑制刪除多余的檢測窗口后，獲得最終的預測結果。

圖6 改進的Yolov4 結構Fig.6 The improved Yolov4 structure

3 實驗與結果分析

3.1 實驗環(huán)境

本文實驗運行的環(huán)境見表1。

表1 實驗運行環(huán)境Tab.1 Experimental operating environment

3.2 數(shù)據(jù)集

本文在兩個公共車輛數(shù)據(jù)集 KITTI 和UA-DETRAC 上進行實驗。KITTI 數(shù)據(jù)集包含8 個類別，訓練集中有7481 張圖片。數(shù)據(jù)集中的Misc 類別是雜項，舍棄這個類別。為了更好地進行自主駕駛算法的訓練和驗證，將數(shù)據(jù)集中的person 和pedestrians合并為一類，van、truck、tram 與car 合并為一類，最終分為Car、Person、Cyclist 這三個類別。UA-DETRAC數(shù)據(jù)集包含使用相機在中國北京和天津的24 個不同地點拍攝的10 個小時視頻。視頻以每秒25 幀的速度錄制，分辨率為960×540 像素。數(shù)據(jù)集包含82085 張圖片作為訓練集，56167 張圖片作為測試集。實驗中的訓練集和測試集的劃分如表2 所示。為了驗證模型的普適性，選擇使用Pascal VOC 2007 通用數(shù)據(jù)集來評估本文模型。Pascal VOC 2007 包含9963 張圖片，該數(shù)據(jù)集共有20 個物體類別。Pascal VOC 2007 的訓練集（5011 張圖片）被用來訓練網(wǎng)絡，而Pascal VOC 2007的測試集（4952 張圖片）則被用來測試。選擇Pascal VOC 2007 的車輛和行人等類別進行結果預測。模型被測試時使用全類別平均準確度（Mean Average Precision,MAP）作為評價的標準性能指標。所有的指標都按照Pascal VOC 標準計算。

表2 實驗數(shù)據(jù)集分布Tab.2 Experiment dataset distribution

3.3 參數(shù)設置

在Pytorch 框架上用預先訓練好的CSPDarknet53權重對骨干網(wǎng)絡進行凍結訓練。對網(wǎng)絡總共訓練150個epoch，包括50 個凍結訓練的epoch 和100 個解凍訓練的epoch?；贕PU 的內(nèi)存容量，當訓練被凍結時，PASCAL VOC 2007 的Batch size 大小為16；訓練不凍結時，Batch size 大小為 8。在 KITTI 和UA-DETRAC 數(shù)據(jù)集的訓練過程中，訓練凍結時的Batch size 大小為8，訓練不凍結時的Batch size 大小為4。實驗過程輸入圖片的尺寸為416×416，同時啟用了馬賽克數(shù)據(jù)增強，整個網(wǎng)絡采用隨機梯度下降法（Stochastic Gradient Descent，SGD）進行優(yōu)化，初始學習率為1×10-3，權重衰減為5×10-4，動量為0.9。正負樣本通過IoU 閾值來區(qū)分，大于設定閾值的認定為正樣本，小于設定閾值的是負樣本，兩個閾值中間的樣本會被拋棄，通常情況下負樣本會很多，所以通常選取較小的閾值來確定負樣本。考慮到正負樣本比例的均衡，本文將IoU 閾值設置為0.5。

3.4 評價指標

本文采用MAP 和每秒傳輸幀率（Frames Per Second,FPS）作為評價指標。MAP 是多個類別AP 的平均，其大小一定在[0，1]區(qū)間，越大越好；AP 值為Precision-recall 曲線下面的面積；P為準確率（Precision）；R為召回率（Recall）。計算公式為：

其中，PAP為單類別平均準確度；PMAP為全類別平均準確度；XTP為正確檢測的目標物體；XFP為錯誤檢測的目標物體；XFN為沒有檢測出的目標物體；XTN為正確檢測出的非目標物體。

3.5 實驗結果

3.5.1 消融實驗

為了驗證特征增強注意力雙分支模塊、像素重組殘差模塊、深度可分離卷積和k-means++結合遺傳算法獲得先驗框有利于模型精度和速度的提升，本文在KITTI 數(shù)據(jù)集上進行消融實驗，實驗結果如表3 所示。Yolov4 是原始模型；Yolov4-1 使用k-means++結合遺傳算法生成先驗框；Yolov4-2 只使用特征增強分支；Yolov4-3 只使用注意力分支；Yolov4-4 表示特征增強注意力雙分支模塊的引入；Yolov4-5 表示引入像素重組殘差模塊；Yolov4-6 表示引入深度可分離卷積；Yolov4-Our 表示以上三個模塊同時引入。實驗中除了原始Yolov4，其余實驗均使用k-means++結合遺傳算法生成先驗框。

表3 模塊的消融實驗Tab.3 Ablation experiments of modules

由表3 可知，使用原始Yolov4 模型時，在KITTI數(shù)據(jù)集上精度達到了94.4%。實驗結果表明，Yolov4-1通過使用k-means++結合遺傳算法生成先驗框，在沒有引入其他參數(shù)量的情況下，檢測算法精度提升0.4%。在考慮聚類方式帶來的提升時，Yolov4-2 通過特征增強分支在KITTI 數(shù)據(jù)集上比Yolov4 提高了1.2%的精度。Yolov4-3 通過注意力模塊加強了通道特征間的關聯(lián)性比Yolov4 精度提高了0.7%。與上述添加單分支的方法相比，Yolov4-4 的精度提高了1.4%，特征增強注意力雙分支模塊的性能優(yōu)于只添加單分支模塊，驗證了Yolov4 在PANet 中引入特征增強注意力雙分支模塊構成PANet++時，通過全局平均池化等局部跨通道交互操作增強了通道特征之間的相關性，通道分割后的卷積操作保留了更多細粒度特征。Yolov4-5 引入像素重組殘差模塊，通過像素重組的方式保留更多遮擋問題嚴重的目標信息，并使用殘差模塊解決像素重組特征層不平整的問題，精度提高了0.8%。上述模型加強了小目標和遮擋目標等弱目標的檢測能力，但是引入了更多的計算量。如Yolov4-6 所示，為了提升檢測速度，用深度可分離卷積替換特征加強提取網(wǎng)絡PANet++中的普通卷積，損失了少量的精度，但是檢測速度提升了約11%。Yolov4-Our 將上述幾種模塊同時引入網(wǎng)絡，精度相比于Yolov4 提升了1.9%，并且通過深度可分離卷積將檢測速度提升，雖然仍稍慢于原始Yolov4。

由于特征增強分支使用了通道分割，為了實驗的完整性，進行消融實驗來比較通道分割的選擇規(guī)則。在特征增強分支中，將輸入特征圖根據(jù)通道分為1/4，2/4，3/4 和4/4（4/4 表示特征圖未被分割），并對它們進行卷積操作。每個模型的精確度在KITTI 數(shù)據(jù)集上進行評估。與上述實驗一樣，在PANet 的26×26 和52×52 特征圖后添加特征增強注意力雙分支模塊，實驗結果如表4 所示。

表4 特征圖分割在KITTI 數(shù)據(jù)集上的檢測結果Tab.4 Detection results of feature map split on KITTI dataset

由表4 可知，當輸入特征圖被分成兩個相等的部分時獲得最高的精度。由于FPS 的差異很小，只考慮MAP，最終選擇將輸入特征圖在通道維度分為2 個子特征圖。應用于該消融實驗的所有特征增強注意力模塊都包含一個注意分支和一個特征增強分支。

3.5.2 不同模型間的對比實驗

選取Faster R-CNN、Cascade R-CNN、SSD、Yolov2、Yolov3、Yolov4 和Yolov4-Our 在使用相同參數(shù)的情況下，在KITTI 和UA-DETRAC 兩大車輛公共數(shù)據(jù)集上進行實驗對比分析，驗證改進Yolov4 的車輛弱目標檢測的有效性，實驗結果如表5 所示。

表5 不同模型在車輛數(shù)據(jù)集上的測試結果Tab.5 Test results of different models on the vehicle dataset

由表5 可知，Yolov4 模型與二階段模型Faster RCNN 和Cascade R-CNN 模型及一階段模型Yolov2 相比，在檢測速度和檢測精度上都得到大幅提升。在KITTI 和UA-DETRAC 車輛數(shù)據(jù)集上驗證，與SSD 相比，雖然檢測速度61.4 fps 慢于SSD，但是檢測精度分別提升了9.9%和7.1%；與Yolov3 相比，精度分別提升了5%和4.8%。與原始Yolov4 比較時，Yolov4-Our 在KITTI 和UA-DETRAC 數(shù)據(jù)集上的檢測精度分別提高了1.9%和2.4%，本文改進方法的PMAP值高于表中其他方法。Yolov4-Our 在特征圖輸入到PAN 前添加像素重組殘差模塊，通過超分辨率的方式將多個遮擋目標的中心點分散到不同網(wǎng)格中，在訓練中保留更多的遮擋目標；通過引入特征增強注意力雙分支模塊保留更多細粒度信息并加強通道間的信息關聯(lián)，提升了小目標的檢測能力。最后使用深度可分離卷積替換PANet++中的普通卷積，提升檢測速度。實驗結果表明，本文提出的算法精度提高，有效提升實際交通場景物體和遮擋物體等弱目標的檢測能力，算法檢測速度達到61.4 fps，高于車輛數(shù)據(jù)集視頻采集25 fps 的幀率，滿足車輛目標實時檢測的要求。

3.5.3 車輛目標預測結果

在KITTI 數(shù)據(jù)集和UA-DETRAC 數(shù)據(jù)集上，原始Yolov4 模型與Yolov4-Our 模型的預測結果如圖7-8 所示。左側(a)為原始Yolov4 模型的預測結果，右側(b)為Yolov4-Our 模型的預測結果。

圖7 KITTI 數(shù)據(jù)集上的預測結果Fig.7 Prediction results on KITTI dataset

從檢測效果對比來看，圖7(a)中原始Yolov4 對圖中紅色框標注的弱目標存在漏檢問題，圖7(b)的Yolov4-Our 模型成功將其檢測出來；圖8(a)中原始Yolov4 對圖中綠色框標注的弱目標存在漏檢問題，圖8(b)的Yolov4-Our 模型成功將其檢測出來。原有的Yolov4 模型忽略了通道之間的相關性，在特征融合過程中丟失過多細粒度信息，因此圖中弱目標漏檢的情況較多。Yolov4-Our 在骨干網(wǎng)中加入特征增強注意力模塊，它增強了信道特征與網(wǎng)絡細節(jié)信息之間的相關性，使網(wǎng)絡能夠更好地預測遺漏對象。被遮擋物體的可見像素比較少，而且Yolov4 確定錨框的機制，只有包含物體中心點的網(wǎng)格才會被視為正確的，當多個目標嚴重重疊時，它們的中心點位于同一個網(wǎng)格中，在訓練過程中只保留一個目標，其他的都忽略。通過像素重組殘差模塊從不同范圍提取的信息不僅有細節(jié)信息，而且有相對當前區(qū)域的全局信息。結果表明，相比于原始Yolov4 模型，Yolov4-Our 模型更好地檢測出了車輛小目標與遮擋目標，提升了弱目標檢測能力。

圖8 UA-DETRAC 數(shù)據(jù)集上的預測結果Fig.8 Prediction results on UA-DETRAC dataset

為了驗證通用性，利用通用數(shù)據(jù)集 Pascal VOC2007 對車輛類別進行了準確度和預測結果對比。在訓練過程開始前，使用k-means++結合遺傳算法生成先驗框，在Pascal VOC2007 上的先驗框聚類結果是：[11，18]、[20，40]、[42，28]、[40，76]、[78，54]、[74，148]、[140，112]、[192，243]、[459，401]，準確度對比如表6 所示。

表6 Pascal VOC2007 數(shù)據(jù)集結果Tab.6 Results on Pascal VOC2007 dataset

由表6 可知，在Pascal VOC2007 的Bicycle、Bus、Car 及Mbike 這些類別上，Yolov4-1 相較于Yolov4 只改變了聚類方式，卻帶來了精度上的提升，驗證了kmeans++與遺傳算法結合生成先驗框的有效性；Yolov4-Our 在精度上全面提升，最終的PMAP提升2.5%，驗證了模型的通用性。

Pascal VOC2007 上的預測結果對比如圖9 所示。圖9 顯示了Yolov4 和Yolov4-Our 模型在 Pascal VOC2007 數(shù)據(jù)集上的預測結果，對比圖9(a)(b)的檢測效果，可以看出，在對通用數(shù)據(jù)集的車輛類目標進行檢測時，本文提出的模型依然能夠檢測出更多的車輛遮擋目標與小目標這些像素不足的弱目標，有效增強了像素信息較少的弱目標特征提取能力，具有一定的通用性。

圖9 Pascal VOC2007 數(shù)據(jù)集上的預測結果Fig.9 Prediction results on Pascal VOC2007 dataset

4 結論

針對實際交通場景下存在大量可見像素較少的車輛弱目標，本文提出改進Yolov4 的車輛弱目標檢測算法。設計像素重組殘差模塊PS-R，通過超分辨率的方式將位于同一網(wǎng)格中的多個目標中心點分散到不同網(wǎng)格中，避免遮擋目標被Yolov4 錨框機制忽略，在網(wǎng)絡訓練中保留更多的遮擋目標，提升了遮擋車輛目標的檢測能力；設計特征增強注意力雙分支模塊FEAB 并添加至PANet 構成PANet++結構，保留更多淺層特征層的細粒度信息并加強通道關聯(lián)，提升了弱目標檢測性能；最后使用深度可分離卷積替換PANet++中的普通卷積，提升檢測速度。在訓練前，使用k-means++結合遺傳算法針對車輛數(shù)據(jù)集的目標樣本標注框生成更適用于車輛目標檢測的先驗框。相比于原始Yolov4 網(wǎng)絡，在滿足車輛檢測實時性的同時，改進后的Yolov4車輛弱目標檢測算法精度有所提升，對道路車輛小目標及遮擋目標等弱目標有更出色的檢測能力。