亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種迭代聚合的高分辨率網(wǎng)絡Anchor-free目標檢測方法

2022-01-15 09:13:24王新李喆張宏立

北京航空航天大學學報 2021年12期

王新，李喆，張宏立

（1.新疆大學電氣工程學院，烏魯木齊 830047； 2.新疆大學網(wǎng)絡與信息技術中心，烏魯木齊 830046）

目標檢測是圖像處理和計算機視覺研究中重要的研究方向，有廣闊的應用領域，如自動駕駛、視頻智能監(jiān)控及災害檢測等。

傳統(tǒng)目標檢測方法提取目標的特征，如SIFT［1］、HOG等，采用滑動窗口提取建議框，易受外界環(huán)境干擾，難以提取魯棒性強的特征，因此速度慢、魯棒性差。深度卷積神經(jīng)網(wǎng)絡算法的進步，推進了目標檢測領域的研究?；诰矸e神經(jīng)網(wǎng)絡的目標檢測方法可以歸納為2類，即兩階段目標檢測方法和單階段目標檢測方法［2］。兩階段目標檢測方法先生成輸入圖像的建議框，然后對建議框進行分類和位置回歸操作，最終得到檢測結果。R-CNN［3］將卷積神經(jīng)網(wǎng)絡應用于目標檢測，對圖像進行Selective Search后得到約2 000個特征框，使用卷積神經(jīng)網(wǎng)絡對其進行特征提取，最終通過SVM 分類器和回歸器對特征進行處理，得到檢測結果。由于Selective Search的過程耗費大量時間，輸出特征框有大量重復，導致R-CNN模型速度慢、效率低。Fast R-CNN［4］通過共享卷積神經(jīng)網(wǎng)絡提取的特征，即對圖像只進行一次卷積特征提取，降低了重復的計算過程，減少計算量的同時提高了檢測精度，但未能達到實時檢測的性能，訓練方式仍十分繁瑣。Faster R-CNN［5］通過區(qū)域推薦網(wǎng)絡（Region Proposal Network，RPN）輔助生成可能存在目標物體的建議框代替了Selective Search建議框提取方式，將建議框的特征送入檢測網(wǎng)絡，檢測物體的類別和邊框。

兩階段目標檢測方法雖然明顯地提高了檢測精度，但是因其訓練方式繁瑣、速度慢，在實時性要求較高的場景下難以實際應用。單階段目標檢測方法取消了區(qū)域推薦的步驟，通過卷積神經(jīng)網(wǎng)絡直接得到目標的類別和位置，一般情況下速度比兩階段的目標檢測方法快。Yolo［6］、SSD［7］是經(jīng)典的基于錨點的單階段目標檢測方法。Yolo將輸入圖像劃分為多個網(wǎng)格，通過在網(wǎng)格上放置錨點框進行目標檢測，錨點框的大小和高寬比作為超參數(shù)通過聚類方式獲得。SSD通過提取不同分辨率的特征圖進行檢測，在特征圖上放置錨點框完成目標檢測任務。

Anchor-free的目標檢測方法是一類新型的單階段目標檢測方法。Anchor-based的目標檢測方法依賴錨點框進行檢測，但是錨點框的應用帶來了許多弊端，如超參數(shù)過多、正負樣本不平衡。此外，Anchor-based的檢測方法為了消除重復的目標框引入了非極大抑制方法（Non-Maximum Suppression，NMS），這增加了方法的復雜性、計算量，從而降低了方法的檢測速度。Anchor-free的目標檢測方法不需要設定錨點框，直接通過學習輸入圖像的關鍵特征進行檢測。CornerNet［8］改變了傳統(tǒng)的對物體邊框進行預測的思路，將目標檢測預測物體框的問題轉化成對物體左上角和右下角的預測進而得到檢測結果，但檢測速度慢。FCOS［9］通過對特征圖像素級的回歸操作，回歸像素點到目標框的left、top、right、bottom邊之間的距離得到輸入圖像的檢測結果，像素級的操作也帶來了檢測速度慢的問題。ExtremeNet［10］通過熱力圖檢測對應物體的4個極值點和中心點，并通過幾何關系對關鍵點進行分組，進而得到結果。CenterNet（Objects as Points）［10-11］將目標看作物體的中心點，并通過估計目標中心點檢測物體，使用回歸方法直接得到物體的類別、寬高。訓練和測試階段無需NMS、RPN等，CenterNet很好地平衡了檢測速度與精度，簡潔有效。本文基于CenterNet提出了一種精度高、具有一定實時性的通用目標檢測方法CenterNet-DHRNet。為了減少圖像空間位置信息的損失，設計了一種深度特征聚合的高分辨率表征的網(wǎng)絡結構；同時，為了提高網(wǎng)絡對不同尺度物體的檢測效果引入空間金字塔池化，并用注意力機制提升檢測效果。

圖1 標注示意圖Fig.1 Schematic diagram of annotation

1 Center Net目標檢測方法

圖2 CenterNet總體結構Fig.2 Architecture of CenterNet

2 Center Net-DHRNet目標檢測方法

2.1 迭代聚合的高分辨率表征網(wǎng)絡設計

分類網(wǎng)絡會串聯(lián)卷積或者由卷積操作構成的特征提取模塊，相鄰模塊之間會存在一個下采樣過程，輸出含有豐富語義信息的低分辨率特征圖進行分類，如VGGNet［15］、ResNet等。這個過程對圖像識別任務來說效果顯著，但對檢測任務中輸出的低分辨率特征圖來說，盡管擁有豐富的高層語義特征，卻損失了大量的空間特征。ResNet18對輸入圖像進行32倍的下采樣，輸入圖像中存在的2個相鄰物體經(jīng)過32倍的下采樣后會處在同一個特征點中，很難檢測區(qū)分出來。輸入圖像中的物體如果是32×32的小目標或者更小，在經(jīng)過32倍的下采樣后會變成一個像素點甚至消失，難以提取特征進行檢測。因此，本文提出了一種基于深度特征聚合的高分辨表征網(wǎng)絡CenterNet-DHRNet。引入的高分辨表征網(wǎng)絡（HRNet）［16］可以在整個網(wǎng)絡的特征提取過程中保持高分辨率的表征，并逐步增加并行的子網(wǎng)。并行子網(wǎng)的分辨率逐步由高到低，形成不同分辨率的特征圖。包含4個并行子網(wǎng)的網(wǎng)絡結構示例如下所示：

式中：Nsr為第s階段的子網(wǎng)，其分辨率是第一階段子網(wǎng)的1／2r-1。網(wǎng)絡提取到的高分辨率特征圖適合目標定位和小尺度目標的檢測，低分辨率特征圖適合目標分類和大尺度目標的檢測。HRNet在不同分辨率的子網(wǎng)之間并行地連接，反復利用不同子網(wǎng)提取的特征圖進行多尺度的特征融合，有效利用了不同分辨率的特征圖，對Heatmap的預測效果會更好。

本文為更好利用不同分辨率的并行子網(wǎng)，改進了HRNet最后的特征融合方式。HRNet將低分辨率特征圖上采樣到與高分辨率特征圖相同尺度后，再將4個特征圖進行Concat操作，如圖3所示。

圖3 原始HRNet的特征融合方式Fig.3 Feature fusion method of original HRNet

原網(wǎng)絡雖然利用了不同分辨率的特征，但融合方式過于簡單不能充分利用不同分辨率的特征。因此，使用迭代聚合的特征融合方式，如圖4所示。這種特征融合方式充分利用了各個尺度的語義信息，將低分辨率的特征通過迭代聚合的方式與高分辨率的特征進行融合，可以最大化地利用骨干網(wǎng)絡提取的特征信息，從而對Heatmap有較好的預測結果，迭代聚合的公式為

圖4 迭代聚合的特征融合方式Fig.4 Feature fusion method of iterative aggregation

式中：G為聚合節(jié)點；x1，x2，…，xn為聚合節(jié)點的輸入。此外迭代聚合的特征融合方式較原方法增加了網(wǎng)絡的深度，提高了對困難樣本的學習能力。由于聚合節(jié)點輸入特征圖的尺寸不同，為了融合不同尺寸的特征圖，需要統(tǒng)一不同特征圖的尺度。本文采取的方法是通過轉置卷積將低分辨特征圖上采樣到與高分辨率特征圖相同的尺寸。轉置卷積相比基于插值的上采樣方法，可以通過訓練參數(shù)的方式達到更好的上采樣效果。

2.2 高效通道注意力機制

HRNet網(wǎng)絡可以充分提取圖像特征，網(wǎng)絡可以輸出4種不同尺度的特征圖，但其中有對最后檢測結果有效的特征，也有大量干擾最后檢測效果的特征。為了抑制無效特征，增強有效特征，讓網(wǎng)絡能自主區(qū)分不同特征圖通道之間的關聯(lián)性和有效性來提升檢測效果，本文引入了高效通道注意力機制ECA-Net［17］。ECA-Net與SENet［18］同屬于通道注意力機制，但ECA-Net引入的參數(shù)更少，不僅引入的額外計算很少幾乎可以忽略，而且效果更突出。首先，和SENet一樣進行Squeeze操作，具體是通過全局平均池化獲取每個通道的全局特征，輸出的全局特征的維度為C×1×1，C為通道數(shù)目，通道的全局特征反映了通道特征圖之間的關聯(lián)性和有效性。不同于SENet使用2個全連接層（降維過程和升維過程）來學習通道之間的非線性關系，ECA-Net則是直接使用一維卷積獲取局部通道之間的關系，避免了對特征進行降維。降維過程會造成關鍵信息的損失而且2個全連接層的使用也帶來了一定的參數(shù)量和計算量。因此，ECA-Net在增加極少計算量和參數(shù)量的情況下，效果仍然比SENet出色。接著，使用Sigmoid激活函數(shù)輸出反映通道重要性和關聯(lián)性的維度為C×1×1的新權值。最后，使用得到的新權值與輸入的特征圖進行乘積運算，完成對通道特征權值的重分配，抑制無效特征，增強有效特征。圖5為ECA-Net的示意圖。一般網(wǎng)絡在加入注意力機制時通常是串行地疊加使用，即在大部分卷積層后面加注意力機制。由于高分辨表征網(wǎng)絡具有多個并行子網(wǎng)的特殊性，本文僅在每個子網(wǎng)最后的輸出部分并行地添加ECA注意力機制，避免了串行疊加使用注意力機制造成過多的參數(shù)和計算開銷的問題，又保證了注意力機制的效果。

圖5 高效通道注意力機制Fig.5 Efficient channel attention network

2.3 多尺度感受野設計

在目標檢測任務中有不同尺度、不同類別的物體，也有相同類別但尺度不同的物體。由于距離相機遠近不同，即使是相同類別的物體也會有較大尺度上的差別，這就要求檢測方法能適應檢測對象不同尺度的變化。受deeplabv3+［19］啟發(fā)，本文設計空洞卷積空間金字塔池化并加入注意力機制（Essp）提高檢測器對多尺度物體的檢測效果。

空洞卷積［20］是對常規(guī)卷積操作的一種改進，常規(guī)卷積操作是圖像對應位置像素的權重之和，如3×3大小的常規(guī)卷積的感受野為9?？斩淳矸e則是在每個卷積核的采樣點之間添加間隔。3×3大小的空洞卷積由于在采樣點之間添加了間隔，其感受野相比于常規(guī)卷積會得到提高并且計算量與常規(guī)卷積相同?？斩淳矸e感受野計算如下：

式中：K為空洞卷積的感受野；rate為空洞卷積率；k為卷積核大小。

空洞卷積增加了感受野，而特征金字塔池化則是將不同空洞率的空洞卷積輸出值即多種尺度感受野的特征圖通過Concat的方式結合起來。由于提取了多種尺度的感受野特征圖，特征金字塔可以提高對不同尺度物體的檢測效果。Concat之后使用ECA-Net注意力機制優(yōu)化輸出結果。圖6為Espp結構圖?？斩淳矸e的空洞率設為1、2、3、6。

圖6 Espp結構Fig.6 Structure of Espp

本文將Espp應用于16倍下采樣特征圖中。32倍下采樣特征圖大小為16×16，常規(guī)卷積對其感受野已經(jīng)足夠大，不需要Espp提升感受野。為了不過度增加參數(shù)量和計算量，在4倍下采樣特征圖和16倍下采樣特征圖處不使用Espp。本文所提CenterNet-DHRNet方法結構如圖7所示。

圖7 CenterNet-DHRNet方法結構Fig.7 Structure of proposed CenterNet-DHRNet algorithm

3 實驗結果和分析

3.1 網(wǎng)絡訓練

為了驗證本文提出的CenterNet-DHRNet方法的有效性，在PASCAL VOC 2007和PASCAL VOC 2012目標檢測數(shù)據(jù)集上進行實驗。

實驗條件：操作系統(tǒng)為Ubuntu 18.04，深度學習開發(fā)環(huán)境為Pytorch0.4.1，CPU為i5-9600K，內存大小為32 GB，GPU為NVIDIA GTX 1080Ti，顯存為11 GB，CUDA9.0，CuDNN7.0。

訓練過程：使用Adam優(yōu)化器進行優(yōu)化訓練。訓練時利用圖像翻轉、平移、縮放等方法進行圖像增強，輸入網(wǎng)絡的圖像分辨率統(tǒng)一縮放為512×512。在訓練過程中使用逐步下降的學習率，初始學習率為1.25×10-4，在55Epoch和80Epoch下降為之前的1/10，訓練110Epoch，Batch size設為8。CenterNet-DHRNet方法使用遷移學習的方式進行訓練，將HRNet作為基礎的特征提取網(wǎng)絡，先使用HRNet在Imagenet上的預訓練權重初始化網(wǎng)絡的參數(shù)，再對網(wǎng)絡整體進行訓練。PASCAL VOC是一個通用目標檢測數(shù)據(jù)集，包含20個類別，被廣泛用于驗證目標檢測方法。CenterNet-DHRNet在PASCAL VOC 2007的訓練集驗證集和PASCAL VOC 2012的訓練集驗證集上訓練，最后使用PASCAL VOC 2007的測試集進行測試，訓練圖像16 551張，測試圖像4 952張。

3.2 損失函數(shù)

對于熱力圖中心點預測分支，由于每個目標的中心點只有一個，非目標中心的點卻有很多，造成正負樣本分布不平衡的問題，故使用改進的Focal-loss［21］損失函數(shù)解決正負樣本分布不均的問題，如下所示：

式中：λsize、λoff為對應損失函數(shù)的權重系數(shù)，分別為0.1、1。

3.3 實驗結果

評價指標：評價指標為平均精度（Average Precision，AP），平均精度可以綜合地反映檢測器的性能，用AP評價單個類別的檢測結果。對多個類別的檢測效果使用平均精度均值（mean Average Precision，mAP）進行評價。AP、mAP的值越高，表示檢測器的性能越好。交并比（Intersection over Union，IoU）的閾值為0.5，即認為IoU大于0.5的檢測結果是檢測成功的。使用每秒幀數(shù)（Frame Per Second，F(xiàn)PS）評價檢測速度。

在PASCAL VOC數(shù)據(jù)集上，本文將所提出的CenterNet-DHRNet方法與當前性能優(yōu)秀的方法進行對比，對比方法中包括兩階段目標檢測方法和單階段目標檢測方法。如表1所示，CenterNet-DHRNet方法相比于當前流行的SSD300、Yolov3方法在mAP指標上分別提高了4.7%和2.6%。CenterNet-DHRNet檢測效果比DSSD［22］好的同時檢測速度也大幅領先；在相同輸入圖像分辨率下，較原論文［11］在PASCAL VOC 2007數(shù)據(jù)集上的最好表現(xiàn)CenterNet-DLA的結果提高了1.2%，檢測速度不及CenterNet-DLA，但都達到了實時檢測的性能要求；在只損失3幀的情況下比未改進的CenterNet-HRNet提升了2.9%。

表1 PASCAL VOC數(shù)據(jù)集測試結果Table 1 Test results of PASCAL VOC dataset

網(wǎng)絡的訓練時間和模型復雜度如表2所示。

表2 PASCAL VOC數(shù)據(jù)集上訓練時間、模型復雜度對比Table 2 Comparison of training time and model complexity on PASCAL VOC dataset

由于本文方法CenterNet-DHRNet的網(wǎng)絡結構更復雜，導致了訓練時間增加和模型復雜度提高。

網(wǎng)絡的Loss曲線如圖8所示，網(wǎng)絡在110Epoch后Loss值收斂。由于本文方法CenterNet-DHRNet的網(wǎng)絡結構比CenterNet-HRNet復雜，在前期訓練的訓練過程中Loss值較大；其特征提取能力強于后者，因此網(wǎng)絡的收斂性要比后者好，最終收斂值好于后者。

圖8 Loss曲線對比Fig.8 Comparison of loss curve

表3列舉了不同方法在PASCAL VOC數(shù)據(jù)集上每個類別的AP，其中加粗的數(shù)據(jù)為對比結果中的最佳值。CenterNet-DHRNet在單個類別的AP對比中，只有一個電視類別比CenterNet-DLA低0.1%，20種類別中有13種優(yōu)于其他經(jīng)典方法中的最好結果，說明該方法性能和魯棒性優(yōu)秀，整體性能得到提高。由于盆栽植物類別數(shù)據(jù)量少、尺度變化大且小尺度目標的數(shù)量多，大多方法對其檢測效果都不理想。而本文方法在對比盆栽植物中的表現(xiàn)遠遠優(yōu)于其他方法，精度達到了59.0%，說明本文設計的高分辨率網(wǎng)絡能較好保留空間語義信息，迭代聚合的特征融合方式又充分利用這些保留的信息，從而進一步提升了檢測效果。在對比椅子、餐桌等容易受到遮擋的類別結果中同樣優(yōu)于其他方法，說明網(wǎng)絡的特征提取能力強，相較于其他方法能較好地排除干擾特征檢測受遮擋的物體，具有良好的魯棒性。

表3 不同方法在PASCAL VOC數(shù)據(jù)集上每個類別的AP比較Table 3 AP comparison of differ ent algorithms for each category on PASCAL VOC dataset

檢測結果的可視化對比如圖9所示。圖9（a）、（b）分別為原CenterNet方法在PASCAL VOC數(shù)據(jù)集上的可視化熱力圖和檢測結果。圖9（c）、（d）為本文CenterNet-DHRNet方法的可視化結果。顯然，本文方法所生成的熱力圖比原CenterNet方法所生成的熱力圖要清晰、明確。圖9（a）中的熱力圖模糊，產(chǎn)生了漏檢和誤檢問題。圖9（c）中的熱力圖清晰、準確，正確地檢測出了每個目標。對比圖9（d）和（b），可以看出本文方法很好地解決了原CenterNet方法存在的漏檢、誤檢問題。

圖9 CenterNet-DHRNet與原CenterNet在PASCAL VOC數(shù)據(jù)集上結果對比Fig.9 Comparison of results between CenterNet-DHRNet and original CenterNet on PASCAL VOC dataset

本文在PASCAL VOC數(shù)據(jù)集上進行消融實驗，表明CenterNet-DHRNet方法中每個改進模塊的有效性，實驗結果如表4所示。

表4 在PASCAL VOC數(shù)據(jù)集上的消融實驗Table 4 Ablation experiment on PASCAL VOC dataset

為了更好地驗證CenterNet-DHRNet方法，本文在KITTI數(shù)據(jù)集上進行了實驗。KITTI數(shù)據(jù)集采集于實際道路，圖像中所含目標密集，尺度變化大，遮擋較多，本文將其中目標分為3類：Car、Pedestrian和Cyclist，在KITTI數(shù)據(jù)集上訓練100個Epoch，初始學習率為1.25×10-4，學習率在55Epoch和80Epoch分別下降為之前的1/10。CenterNet-DHRNet與其他目標檢測方法的對比結果如表5、表6所示。

表5 KITTI數(shù)據(jù)集上不同目標檢測方法對比Table 5 Comparison of different object detection algorithms on KITTI dataset

表6 KITTI數(shù)據(jù)集上3類目標AP對比Table 6 Comparison of three types of object AP on KITTI dataset

實驗結果表明，CenterNet-DHRNet有更高的精度，且在每一個類別的精度上都有所提高。本文方法在KITTI數(shù)據(jù)集上的檢測結果如圖10所示。通過PASCAL VOC數(shù)據(jù)集和KITTI數(shù)據(jù)集上對比實驗結果可知，本文所提方法有效提升了檢測精度。

圖10 CenterNet-DHRNet在KITTI數(shù)據(jù)集上的檢測結果Fig.10 Detection results of CenterNet-DHRNet on KITTI dataset

4 結論

1）本文提出了一種高性能的目標檢測方法CenterNet-DHRNet，在PASCAL VOC和KITTI數(shù)據(jù)集上與其他主流方法進行了對比實驗。在PASCAL VOC測試數(shù)據(jù)集上mAP達到了81.9%，相比于CenterNet-DLA、Yolov3、SSD500、SSD300分別提高了1.2%、2.6%、3.0%、4.7%，且保持了一定的檢測速度。

2）針對常規(guī)卷積網(wǎng)絡下采樣過程中特征圖縮小、目標空間語義信息容易損失的問題，在整個網(wǎng)絡的設計中都保持了輸入圖像的高分辨率表示。迭代聚合的特征融合方式有效利用了不同尺度的特征圖和其中保留的空間語義信息，提高了檢測效果。