亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙角度多尺度特征融合的無錨框目標檢測算法

        2024-01-01 00:00:00王小玉魏鈺鑫蘆薦宇俞越
        哈爾濱理工大學學報 2024年4期
        關鍵詞:注意力機制目標檢測

        摘 要:針對無錨框目標檢測算法CenterNet中特征利用不充分且檢測精度不足的問題,提出一種基于雙角度多尺度特征融合的改進算法。首先,通過使用Res2Net網絡替換主干網絡,使網絡從更細粒度的角度提高網絡的多尺度表達能力。其次,使用重復加權雙向特征金字塔網絡從層級角度提升多尺度加權特征的融合能力。最后,加入坐標注意力機制,在避免增加計算資源消耗的前提下增強感受野,將坐標信息嵌入通道注意力中以提升模型對目標的定位提高模型的檢測精度。實驗結果表明:改進算法在PASCAL VOC數(shù)據(jù)集和KITTI數(shù)據(jù)集檢測準確率分別達到了82.3%和87.8%,與原CenterNet算法相比精度分別提升5.5%和2.4%。

        關鍵詞:目標檢測;注意力機制;無錨框;多尺度特征融合;CenterNet

        DOI:10.15938/j.jhust.2024.04.001

        中圖分類號: TP399

        文獻標志碼: A

        文章編號: 1007-2683(2024)04-0001-09

        Anchor-Free Object Detection Algorithm Based

        on Dual-Angle Multi-Scale Feature Fusion

        WANG Xiaoyu1, WEI Yuxin1, LU Jianyu1, YU Yue2

        (1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;

        2.School of Measurement-Control Technology and Communication Engineering,Harbin University of Science and Technology,Harbin 150080,China)

        Abstract:In response to the problem of insufficient feature extraction and insufficient detection accuracy in the anchor-free frame object detection algorithm CenterNet. We propose an improved algorithm based on dual-angle multi-scale feature fusion.Firstly, using a repeated weighted bidirectional feature pyramid network to enhance the fusion ability of multi-scale weighted features from a hierarchical perspective.Secondly, by replacing the backbone network with Res2Net network, the network can improve its multi-scale expression ability from a more fine-grained perspective.Finally, the coordinate attention mechanism is added to enhance the receptive field without consuming a lot of computing resources, and the coordinate information is embedded in the channel attention to improve the model′s target positioning and improve the detection accuracy of the model.The improved algorithm′s detection accuracy in the PASCAL VOC data set and KITTI data set reached 82.3% and 87.8% respectively. Compared with the original CenterNet algorithm, the accuracy increased by 5.5% and 2.4% respectively.

        Keywords:object detection; attention mechanism; anchor-free; multi-scale feature fusion; CenterNet

        0 引 言

        目標檢測是計算機視覺以及圖像處理領域的一個研究問題,其主要目標是在圖像中精確定位出各種目標的類別和位置信息[1。在過去的10年里,目標檢測在計算機視覺領域受到了大量的關注,隨著深度學習在目標檢測領域的大規(guī)模應用,目標檢測技術的精度和速度得到迅速提高,已被廣泛應用于行人檢測、人臉檢測、文字檢測、交通標志及信號燈檢測和遙感圖像檢測等領域[2-3。

        傳統(tǒng)的目標檢測方法大概分為區(qū)域選擇(滑窗)、特征提?。⊿IFT、HOG等)、分類器分類(Adaboos等)3個部分,但傳統(tǒng)的目標檢測方法主要有兩方面問題:一方面滑動窗口選擇策略沒有針對性、窗口有著大量的冗余,導致模型檢測耗費時間過長,在機載計算設備上難以進行實時檢測;另一方面手工設計的特征魯棒性較差。

        基于深度學習的主流目標檢測算法根據(jù)有無候選框生成階段分為雙階段目標檢測算法和單階段目標檢測算法兩類。雙階段目標檢測算法先對圖像提取候選框,然后對候選框區(qū)域進行修正得到最后的檢測結果,而單階段目標檢測算法直接對圖像進行計算生成檢測結果,前者檢測精度高于后者,但檢測速度卻比后者慢。雙階段目標檢測代表的算法主要有R-CNN[4、SPP-Net[5、Fast R-CNN、Faster R-CNN[6、FPN[7、MaskR-CNN[8;單階段目標檢測代表的算法主要有如YOLO[9、SSD[10、RetinaNet[11。

        以上介紹的目標檢測算法均為基于錨框(anchor-based)的目標檢測算法,在單階段目標檢測算法中,通過滑窗方式產生檢測所需的框,而在二階段目標檢測算法中,通過RPN生成候選區(qū)域,但是RPN本身仍然是對滑窗方式產生的錨框進行分類和回歸。而Anchor-Based目標檢測算法會有以下缺點:①Anchor-Based模型均勻采樣會導致正負樣本極度不均衡,不利于模型收斂;②錨框的生成通常需要做聚類分析,并且通過聚類分析得到的錨框不具有一般性,需要設計不同的錨框以適應不同的數(shù)據(jù)集;③需要引入大量的超參數(shù)來定義一系列長寬比和尺寸不一的錨框,這些超參數(shù)嚴重影響目標檢測的速度以及召回率等指標。所以,近年來出現(xiàn)了一種與以上兩種目標檢測方法不同的方式無錨框(anchor-free)目標檢測,無錨框目標檢測算法不預設錨框而直接通過確定關鍵點的方式來完成檢測,減少了網絡需要設置的超參數(shù)數(shù)量。而CenterNet[12就是無錨框目標檢測算法中非常優(yōu)秀的無錨框目標檢測算法。CenterNet的結構十分簡單,它直接檢測目標的中心點以及寬高,最后得到預測框。

        盡管CenterNet算法已經取得了不錯的檢測效果,但與現(xiàn)在主流的目標檢測算法還是存在差距。對此本文提出了一種基于雙角度多尺度特征融合的目標檢測算法(CenterNet with double angle multi-scale feature fusion,DAM-Centernt)。在避免增加計算資源消耗的前提下,引入Res2net[13作為骨干網絡以及使用重復加權雙向特征金字塔網絡(bidirectional feature pyramid network,BIFPN)[14提升網絡的多尺度特征表達能力,設計融合坐標注意力機制(coordinate attention,CA)[15的特征融合模塊,進一步增強融合特征的魯棒性和辨別性。本文算法較在KITTI和PASCAL VOC數(shù)據(jù)集較原算法檢測精度分別提升2.4%和5.5%,同時檢測速度滿足實時性要求。

        1 CenterNet目標檢測算法

        CenterNet是基于ANCHOR-FREE設計的一種單階段目標檢測方法。網絡結構主要由編碼器、解碼器和檢測頭3個部分構成。編碼器負責提取輸入圖像的特征,解碼器負責將編碼器的輸出進行多次上采樣調整特征大小,檢測頭會將輸入特征送到熱力圖預測分支、目標寬高預測分支和偏移量預測分支中,得到輸入圖像的檢測結果,CenterNet模型如圖1所示。

        對輸入圖像I∈RW×H×3,W表示輸入圖像的寬,H表示輸入圖像的高。目標是產生一個關鍵點熱力圖Y∈[0,1]W/R×H/R×C,R為熱力圖的下采樣倍數(shù),C為關鍵點的種類總數(shù),Yx,y,c=1表示檢測到的是關鍵點,Yx,y,c=0表示檢測到的是背景。

        對于真實框上的一個屬于第C類的關鍵點P屬于R2,可以得到在特征圖上的對應點P=[P/R],然后使用高斯核將真實框上的關鍵點放置到關鍵點熱力圖Y∈[0,1](W/R)×(H/R)×C中進行預測。高斯核計算如式(1)所示:

        Yx,y,c=exp(-(x-px)2-(y-py)22σ2p)(1)

        其中:px、py表示下采樣后中心關鍵點;σp為目標尺度自適應的標準方差。

        2 DAM-CENTERNT算法設計

        2.1 骨干網絡改進

        在諸多視覺任務中,高效的提取多尺度特征非常重要。然而,大多數(shù)現(xiàn)有的網絡架構都是在骨干網絡中提取一層或多層的基礎上使用了多尺度。因此,本文引入Res2net作為本文算法的骨干網絡。Res2net是一種基于Resnet改進的新的多尺度骨干結構,與大多數(shù)現(xiàn)有的在神經網絡通過分層來表示多尺度特征學習的方法不同,Res2net在更細粒度的層次上提高了網絡神經網絡的多尺度表示能力。它改進了Resnet的瓶頸殘差模塊使得網絡可以在更細粒度級別表示多尺度特征,并增加了每個網絡層的感受野。圖2是Resnet和Res2net對比圖,可以看出后者明顯在殘差單元(residual block)中插入了更多帶層級的殘差連接結構(hierarchical residual-like connections)。具體來說,Res2net將一個3×3的卷積核替換為多個3×3卷積,同時以特征金字塔的思想來融合特征。

        在Res2net的殘差模塊中輸入特征在經過1×1卷積后會被分為s組,分別命名為xi其中i∈{1,2,3,…,s}。每組特征圖通道數(shù)均為輸入特征圖通道數(shù)的1s。除了x1之外,其他每組特征圖都會經過一個3×3卷積,將每組特征圖的卷積操作用Ki來表示,xi經過Ki后的輸出用yi表示。除了x1之外,第i組的特征圖與前一組Ki-1的輸出相加的到輸出yi,yi的表達式定義如式(2)所示:

        yi=xi,i=1

        Ki(xi),i=2

        Ki(xi+yi-1),2lt;i≤s(2)

        最后,將這s組的輸出在通道維度拼接,進行1×1卷積操作。顯然第i組的卷積操作Ki()的輸入中包含了之前的多組輸入特征:{xj,j≤i},使得網絡可以提取不同感受野、多種尺度的特征,同時網絡可以在更加細粒度的水平上捕捉圖像的特征。

        2.2 重復加權雙向特征金字塔網絡

        在目標檢測中,融合不同層次的特征是提高模型性能的一個重要手段。淺層特征分辨率更高,包含更多位置、細節(jié)信息,但是由于經過的卷積更少,其語義性更低,噪聲更多。深層特征具有更強的語義信息,但是分辨率很低,對細節(jié)的感知能力較差。如何合理的將兩者融合,是改善模型的關鍵。

        本文引入重復加權雙向特征金字塔網絡作為本文算法的特征金字塔融合模塊,BiFPN是基于PANet改進的主要思想重復雙向跨尺度連接和帶權重的特征融合機制。BiFPN與PANet的對比具體如圖3所示。圖中pi(i=3,4,5,6,7) 表示特征金字塔圖層級。

        比起PANet結構BIFPN將只有一條輸入邊的節(jié)點刪除,因為這類節(jié)點只有一條輸入邊對網絡的特征融合并沒有幫助,所以它對特征網絡的貢獻有限。刪除此類節(jié)點不僅不會影響性能而且簡化了網絡。并且為了保證計算成本的情況下融合更多的特征,BIFPN在處于同一層的輸入和輸出節(jié)點處額外的添加了一條邊。與只有一個自底向上和一個自頂向下路徑的PANet不同,BIFPN將每個雙向路徑路徑當做一個特征網絡層來處理,并重復多次,來獲得質量更高的特征。

        當融合不同分辨率的特征時,常見的方法是將它們調整到相同的分辨率,然后對它們進行求和。然而,不同尺寸特征層適用于檢測不同大小目標[16,因此它們對輸出特征的貢獻通常是不相等的。所以BIFPN使用快速歸一化的方法為每個輸入增加一個額外的權重,并讓網絡學習每個輸入特征的重要性,計算方式如式(3)所示:

        O=∑iwiε+∑jWj×Ii(3)

        其中:wi≥0是通過在每個wi后應用Relu來確保的;Ii、O分別為融合前和融合后的特征,為防止分母出現(xiàn)為0導致數(shù)值不穩(wěn)定,設置ε=0.0001。以節(jié)點P4為例,定義:

        Ptd4=Conv(w1×Pin4+w2×fResize(Pin5)w1+w2+ε)(4)

        其中:Ptd4為自定向上路徑中的第4級的中間特征,將Pin4和下采樣后的Pin5帶入式(3)中得到式(4)。Pout4是自定向上路徑中的第4級的輸出特征,將Pin4、Ptd4和上采樣采樣后的Pin3帶入式(3)中得到式(5):

        Pout4=Conv(w1×Pin4+w2×Ptd4+w3×fResize(Pin3)w1+w2+w3+ε)(5)

        綜上所述,在CenterNet中加入BiFPN 模塊,可以增強模型的多尺度特征融合能力,提高了檢測性能。

        2.3 結合坐標注意力機制的特征融合模塊

        由于BiFPN會輸出尺寸分別為8,4,16,32,64大小的特征圖,但模型檢測只需要一個特征圖。所以,為充分利用這5個特征圖設計特征融合模塊(feature fusion module,F(xiàn)FM),提高網絡對于多尺度目標的檢測能力,F(xiàn)FM模塊如圖4所示。圖中CA為坐標注意力機制。

        由于5種分辨率特征圖通道數(shù)相同,只需要將尺寸統(tǒng)一即可。所以,利用轉置卷積[17對低分辨率特征進行上采樣,使5個特征圖分辨率相同。常用的上采樣方法有雙線性差值法(bilinear interpolation)和轉置卷積,由于轉置卷積的權值是可以學習的,可以使模型訓練出最優(yōu)的上采樣方法,因此本文選擇采用轉置卷積操作進行上采樣,然后對5個上采樣后的特征圖進行ConCat操作。為了增強有效特征,讓網絡能更關注對檢測有利的特征本文引入坐標注意力機制。

        現(xiàn)有的注意力機制如CBAM和ECANet通常使用全局平均池化操作(global average pooling,GAP)來獲得一個通道的全局信息。他們都只考慮了特征通道之間的聯(lián)系卻忽略了位置信息。因此本文采用坐標注意力機制CA作為本文的注意力機制模塊。CA注意力機制不僅考慮了通道信息,還考慮了方向相關的位置信息。因此,檢測模型可以對目標進行更為精準地定位與識別。并且,CA足夠的靈活和輕量,能夠簡單的插入到網絡模型的核心模塊中,具體如圖5所示。

        為了避免空間信息全部壓縮到通道中,CA注意力機制并沒有使用全局平均池化。而是對全局平均池化進行了分解,目的是能夠捕獲具有精準位置信息的遠程空間交互,計算方式如式(6)和式(7)所示:

        zhc(h)=1W∑0≤i≤Wxc(h,i)(6)

        zhc(w)=1H∑0≤j≤Wxc(j,w)(7)

        其中:zhc(h)為通道c中相對高度為h的輸出;zhc(w)通道c中相對寬度為w的輸出;xc(h,i)表示特征圖中坐標為(h,i),通道為c的分量;xc(j,w)表示特征圖中坐標為(j,w),通道為c的分量。

        上述2種變換分別沿兩個空間方向聚合特征,得到一對方向感知的特征圖。這與在通道注意力方法中產生單一的特征向量的SE不同。這2種轉換允許注意力模塊捕捉沿著一個空間方向的依賴關系,并保存另一個空間方向的精確位置信息,這有助于網絡更準確地定位感興趣的目標。

        經過上述2種變換后,將上面的變換進行CONCAT操作,然后使用卷積變換函數(shù)對其進行變換操作:

        f=δ(F1[zh,zw])(8)

        式中:[,]為沿空間維數(shù)的ConCat操作;δ為非線性激活函數(shù);F1為卷積變換函數(shù);f為對空間信息在水平方向和垂直方向進行編碼的中間特征映射。

        沿著空間維數(shù)將f分解為2個單獨的張量fh∈R(C/r)×H和fw∈R(C/r)×W。利用另外2個卷積變換Fh和Fw分別將fh和fw變換為具有相同通道數(shù)的張量到輸入X得到:

        gh=σ(FH(fh))(9)

        gw=σ(FW(fw))(10)

        這里σ是sigmoid激活函數(shù)。然后對輸出gh和gw進行擴展,分別作為attention weights。

        最后,Coordinate Attention Block的輸出寫成:

        yc(i,j)=xc(i,j)ghc(i)gjc(i)(11)

        2.4 算法整體框架

        本文算法結構分為編碼網絡、解碼網絡和檢測頭共3個部分。編碼網絡采用Res2Net-50作為骨干網絡,解碼網絡由重復加權雙向特征金字塔網絡和特征融合模塊構成。

        首先提取主干網絡的3層特征x1,x2,x3,但由于通道數(shù)與BIFPN的輸入特征通道數(shù)不同,所以,需要經過三次卷積將通道數(shù)由512,1024,2048消減到40,112,320。削減后的特征為x′1,x′2,x′3。

        利用BIFPN對消減后的特征進行多尺度特征融合,由于BIFPN的輸入需要5個特征圖pi(i=3,4,…,7),所以需要對削減后的特征進行進一步處理。其中p3,p4,p5是由x′1,x′2,x′3直接進行下采樣獲得,而p6,p7分別由p6,p7進行下采樣取得。處理后特征寬高分別為64,32,16,8,4通道數(shù)都是64。特征融合后的特征為p′i(i=3,4,…,7)。

        采用特征融合模塊FFM對BIFPN特征進行上采樣和拼接得到特征f1,最后將f1寬高由128調整到64后送入CA模塊中得到最終特征H。

        經過上述過程,所得到的特征H輸入檢測頭部分進行3部分預測,分別是目標的寬高、中心點熱力圖和偏置量,最終得到檢測結果O。本文所提DAM-CENTERNT方法結構如圖6所示。

        3 實驗結果與分析

        3.1 實驗設置

        實驗環(huán)境:操作系統(tǒng)為windows,深度學習框架為PyTorch1.7.1,CUDA版本為11.0,cudnn版本為8.0.5。CPU為i5-13500H,內存大小為32G,GPU為單張NVIDIA 3060Ti。

        數(shù)據(jù)集:本文采用了兩個數(shù)據(jù)集,第1個是通用目標數(shù)據(jù)集PASCAL VOC2007和2012的組合,包含訓練圖像16 551張,測試圖像4 952張,共有20個類別。第2種數(shù)據(jù)集KITTI,KITTI數(shù)據(jù)集是目前國際上自動駕駛場景下常用的數(shù)據(jù)集之一,擁有7 481張圖片,本文將訓練集、驗證集和測試集按照9∶1∶1的比例其分為訓練集5 984張,訓練集748張,測試集748張,原KITTI數(shù)據(jù)集共有Car,Van,Truck,Tram,Pedestrain,Person,Cyclist,Misc8種類別數(shù),為簡化檢測本文將Car、Van、Truck,Tram合并為Car類,把原來的Pedestrain,Person合并為現(xiàn)在的Pedestrain,原來的Cyclist類不變目標,Misc忽略,共計3種類別。

        訓練過程:初始學習率取0.0005,采用adam優(yōu)化器,Batch Size設置為16。首先使用Res2net在ImageNet上的預訓練模型訓練。在訓練過程中使用余弦退火算法動態(tài)調整學習率。分別在訓練PASCAL VOC和KITTI數(shù)據(jù)集上訓練100epoch和150epoch,兩次訓練前50輪凍結骨干網絡參數(shù)使其保持不變,50輪后解凍骨干網絡允許參數(shù)變化。

        3.2 評價指標

        為了更準確的評估算法的性能,選取均值平均精度(mean Average Precision, mAP)、平均精度(Average Precision, AP)和每秒幀數(shù)(frames per second, Fps)作為評價指標,mAP能夠反映所有類別的綜合檢測性能,AP能夠反映單個目標類別的檢測性能,fps代表了每秒檢測圖片的數(shù)量,能夠有效反映出算法的檢測速度。

        3.3 消融實驗

        為驗證本文策略的有效性,包括替換Res2Net骨干網絡、加入BiFPN和FFM特征融合模塊,進行消融實驗,從模型參數(shù)量、檢測精度兩方面進行分析對比,結果如表1所示。實驗1表示骨干網絡為ResNet50;實驗2表示將骨干網絡替換為Res2Net50;實驗3表示使用Res2Net50、BiFPN模塊時網絡;實驗4表示Res2Net50、BiFPN和FFM模塊時。消融實驗結果表明本文所做的各種改進方法可以在僅增加10%模型參數(shù)量的同時,有效提升模型的檢測精度。

        3.4 PASCAL VOC數(shù)據(jù)集實驗結果與分析

        表2為本文算法與當前主流目標檢測算法在PASCAL VOC數(shù)據(jù)集[20上的性能比較,本文算法與當前主流的SSD、YOLOv3方法在mAP指標上分別提升5.5%和3.0%。本文算法檢測性能優(yōu)于FCOS[21的同時檢測速度也有提升;對比原CenterNet算法在使用ResNet-101為骨干網絡時mAP提升3.6%,對比CenterNet算法使用DLA-34[22和Hourglass-104[23為骨干網絡時mAP提升1.7%和1.4%,雖然檢測速度要低于CenterNet-ResNet-101但也滿足實時檢測的要求。

        圖7為驗證特征是否得到充分提取對模型的輸出特征進行熱力圖可視化處理,直觀觀察模型對待檢測物體的關注程度,若特征得到充分利用那么模型對待檢測物體的關注程度應當更高。顯然,本文方法所生成的熱力圖比原CenterNet方法所生成的熱力圖要清晰、明確。由圖第1行可以看出原檢測算法只有成年人的特征清晰,其他待檢測物體的熱力圖非常模糊,而本文算法對所有待檢測物體生成的熱力圖都非常清晰、明確。此結論對比圖第2行更為明顯,原檢測算法對左下角的飛機的熱力圖并不如其他飛機明顯,而本文方法對所有飛機的熱力圖都非常清晰。

        表3為不同算法在PASCAL VOC數(shù)據(jù)集上每個類別的AP。在PASCAL VOC數(shù)據(jù)集的20種類別上本文算法在15種類別的檢測效果優(yōu)于其他算法且除了桌椅這個類別外其余類別算法精度與最優(yōu)算法差距并不明顯,說明該方法性能和魯棒性優(yōu)秀,整體性能得到提高。其中在多為小目標物體的鳥、以及盆栽植物上的檢測性能也要優(yōu)于其他算法。

        圖8為驗證本文算法的檢測性能,使用原始Centernet算法與本文算法對圖片進行預測,并選取部分有代表性的圖片進行說明,其中第1列為帶有真實框的原圖片,第2列為Centernet算法的檢測結果,第3列為本文算法的檢測結果。

        在第1行圖中,Centernet算法將手機誤檢為電視但本文算法并沒有誤檢,同時本文算法目標框的置信度分數(shù)都要高于原CenterNet算法。在第2行圖中由于狗的前方扶梯的遮擋,所以CenterNet算法并沒有將狗檢測出來,而本文算法卻并沒有受到扶梯遮擋的影響。在第3行圖中,CenterNet算法漏檢了3個標簽為人的物體,而本文算法不僅將全部真實框全部檢測了出來并且將圖像上方并未被真實框標記出來的人檢測了出來,表明了本文算法在復雜場景下的檢測性能。

        在第4行圖中CenterNet算法將圖像左邊的羊誤檢為牛,而本文算法并未誤檢同時將遠處未被標記的羊檢測出來并給出一定的置信分數(shù),表明了本文算法對小目標物體有著較好的檢測效果。

        實驗結果表明本文算法的檢測效果對比原檢測算法有明顯提升,而且對于復雜場景和有遮擋的物體的漏檢率誤檢率更低。

        3.5 KITTI數(shù)據(jù)集實驗結果與分析

        表4為不同目標檢測方法在KITTI數(shù)據(jù)集上檢測性能對比。由表4可知本文算法在檢測性能上達到最優(yōu),比當前主流算法Faster-R-CNN、Yolov3檢測精度分別提升12.2%、2.9%,較原CenterNet算法提升2.4%。表4為不同方法在KITTI數(shù)據(jù)集上每個類別的AP。由表4可知,本文算法較原CenterNet算法在Pedestrian這一類別上檢測性能提升13.5%。

        如圖9所示,在第一行中CenterNet算法漏檢了一個騎自行車的人,本文算法將其檢測出來并給出一定的置信分數(shù),在第二行的圖中CenterNet算法與本文算法都將所有真實框檢測出來,但本文算法均給出了更高的置信分數(shù)。

        實驗結果表明本文算法較原算法有著更好的檢測效果,而且對于復雜場景下的物體的漏檢率誤檢率更低。

        4 結 論

        針對無錨框目標檢測算法CenterNet中,特征利用不充分且檢測精度不足的問題。本文提出一種基于多角度多尺度特征融合的目標檢測算法DAM-Centernt,算法通過引入多尺度融合骨干網絡使得模型可以融合細粒度級的多尺度特征,同時使用層級多尺度融合模塊提高模型的檢測性能。最后,結合位置注意力機制,分別沿兩個空間方向聚合特征,保留不同尺度目標精確的位置信息。在PASCAL VOC數(shù)據(jù)集以及KITTI數(shù)據(jù)集上與其他主流算法進行對比實驗,結果表明:本文算法在PASCAL VOC數(shù)據(jù)集和KITTI數(shù)據(jù)集mAP分別達到了82.3%和87.8%,與原CenterNet算法相比精度分別提升5.5%、2.4%。實驗證明本文算法在保持一定檢測速度的前提下,均取得了最優(yōu)的檢測效果。

        參 考 文 獻:

        [1] 謝富,朱定局.深度學習目標檢測方法綜述.計算機系統(tǒng)應用,2022,31(2):1.

        XIE Fu,ZHU Dingju.Survey on Deep Learning Object Detection. Computer Systems amp;Application, 2022,3(2):1.

        [2] 李成嚴,馬金濤,趙帥.基于空間域注意力機制的車間人員檢測方法[J].哈爾濱理工大學學報,2022,27(2):92.

        LI Chengyan,MA Jintao,ZHAO Shuai.Workshop Staff Detection Method Based on Spatial Domain Attention Mechanism[J].Journal of Harbin University of Science and Technology,2022,27(2):92.

        [3] 尹芳,孟迪,李驁.改進ViBe的運動目標檢測算法[J].哈爾濱理工大學學報,2022,27(1):23.

        YIN Fang,MENG Di,LI Ao.Improvement Algorithm of ViBe in Moving Target Detection[J].Journal of Harbin University of Science and Technology,2022,27(1):23.

        [4] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580.

        [5] HE K, ZHANG X, REN S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904.

        [6] REN S, HE K, GIRSHICK R, et al. Faster R-cnn: Towards Real-time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137.

        [7] LIN T Y, DOLLR P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]/ /Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117.

        [8] HE K M,GKIOXARI G,DOLLR P,et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV), October 22-29,2017,Venice,Italy. IEEE,2017:2980.

        [9] REDMON J, DIWALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-time Object Detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779.

        [10]LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single Shot Multibox Detector [C]//European Conference on Computer Vision. Springer, Cham, 2016: 21.

        [11]LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980.

        [12]ZHOU X, WANG D, KRHENBHL P. Objects as Points[J]. arXiv Preprint arXiv:1904.07850, 2019.

        [13]GAO S H, CHENG M M, ZHAO K, et al. Res2net: A New Multi-scale Backbone Architecture[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 43(2): 652.

        [14]WANG Wenhai, XIE Enze, SONG Xiaoge, et al. Efficientand Accurate Arbitrary-shaped Text Detection with Pixelaggregation Network[C]//The IEEE/CVF International Conference on Computer Vision, Seoul, Korea, 2019:8439.

        [15]HOU Q, ZHOU D, FENG J. Coordinate Attention for Efficient Mobile Network Design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021: 13713.

        [16]石欣,盧灝,秦鵬杰,等.一種遠距離行人小目標檢測方法[J].儀器儀表學報,2022,43(5):136.

        SHI X,LU H,QIN P J,et al. A Long-distance Pedestrian Small Target Detection Method[J].Journal of Electronic Measurement and Instrumentation, 2022,43(5):136.

        [17]周濤,劉赟璨,陸惠玲,等.ResNet及其在醫(yī)學圖像處理領域的應用:研究進展與挑戰(zhàn)[J].電子與信息學報,2022,44(1):149.

        ZHOU T,LIU Y C, LU H L, et al. ResNet and Its Application to Medical Image Processing:Research Progress and Challenges[J].Journal of Electronics amp; Information Technology,2022,44(1):149.

        [18]WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module [C]//European Conference on Computer Vision. Cham: Springer, 2018: 319.

        [19]WANG Q,WU B,ZHU P,et al.ECA-Net:Efficient Channel At-tention for Deep Convolutional Neural Networks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway: IEEE Press,2019: 11534.

        [20]藍金輝,王迪,申小盼.卷積神經網絡在視覺圖像檢測的研究進展[J].儀器儀表學報,2020,41(4):167.

        LAN J h, WANG D, SHEN X P.Research Progress on Visual Image Detection Based on Convolutional Neural Network.[J].Journal of Electronic Measurement and Instrumentation, 2020,41(4):167.

        [21]TIAN Z,SHEN C H,CHEN H,et al.FCOS:Fully Convolutional One-stage Object Detection[C]//The IEEE/CVF International Conference on Computer Vision, Seoul, Korea, 2019: 9626.

        [22]YU F,WANG D,DARRELL T.Deep Layer Aggregation[J].arXiv:1707.06484,2017.

        [23]NEWELL A,YANG K,DENG J.Stacked Hourglass Networks for Human Pose Estimation[C]//European Conference on Computer Vision. Cham: Springer, 2016:483.

        (編輯:溫澤宇)

        猜你喜歡
        注意力機制目標檢測
        面向短文本的網絡輿情話題
        基于自注意力與動態(tài)路由的文本建模方法
        軟件導刊(2019年1期)2019-06-07 15:08:13
        基于深度學習的問題回答技術研究
        基于LSTM?Attention神經網絡的文本特征提取方法
        基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
        軟件工程(2017年11期)2018-01-05 08:06:09
        InsunKBQA:一個基于知識庫的問答系統(tǒng)
        視頻中目標檢測算法研究
        軟件(2016年4期)2017-01-20 09:38:03
        行為識別中的人體運動目標檢測方法
        移動機器人圖像目標識別
        基于背景建模法的運動目標檢測
        成人三级a视频在线观看| 国产麻豆国精精品久久毛片| 美女视频在线观看网址大全| 粗大的内捧猛烈进出看视频| 在线va免费看成| 精品国产性色av网站| 久久熟女少妇一区二区三区 | 丝袜美腿在线观看一区| 熟妇激情内射com| 日韩中文网| 18禁无遮挡无码网站免费| 亚洲AV无码一区二区二三区我 | 91精品国产色综合久久不卡蜜| 久久国产精品懂色av| 日本xxxx色视频在线观看免费| 另类老妇奶性生bbwbbw| 国产成人美女AV| 亚洲精品久久麻豆蜜桃| 天天做天天爱夜夜爽女人爽| 亚洲av无码精品色午夜果冻不卡| 音影先锋色天堂av电影妓女久久| 亚洲成a人一区二区三区久久| 欧美又粗又长又爽做受| 欧美午夜精品久久久久免费视| 亚洲av熟女天堂系列| 久久一二区女厕偷拍图| 欧美大屁股xxxx高潮喷水| 精品成人乱色一区二区| 人片在线观看无码| 国产亚洲午夜精品久久久| 久久精品国产成人| 99福利网| 国产视频免费一区二区| 加勒比一本heyzo高清视频| 精品少妇ay一区二区三区| 91久久精品一二三区蜜桃| 日本人视频国产一区二区三区| 50岁熟妇大白屁股真爽| 在线观看一区二区女同| 一区二区三区四区黄色av网站| 美丽人妻在夫前被黑人|