亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CNN和Transformer混合融合骨干的改進(jìn)型DETR目標(biāo)檢測(cè)方法研究

2022-02-16 12:10:08金祖亮

無線互聯(lián)科技 2022年23期

金祖亮

(重慶交通大學(xué)，重慶 400074)

0 引言

隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展，目標(biāo)檢測(cè)[1]領(lǐng)域涌現(xiàn)出高精度、低延遲的目標(biāo)檢測(cè)算法。目標(biāo)檢測(cè)算法提供目標(biāo)的類別和位置完成對(duì)目標(biāo)的分類和定位，這為自動(dòng)駕駛、醫(yī)療領(lǐng)域等提供了技術(shù)幫助。

目前，目標(biāo)檢測(cè)算法主要可以分為one-stage模型和two-stage模型。早期目標(biāo)檢測(cè)方法基于two-stage，例如Region-CNN(R-CNN)系列，其中Faster-RCNN[2]提出通過一個(gè)單獨(dú)的RPN網(wǎng)絡(luò)提供region proposal，對(duì)RPN中提取的ROI區(qū)域傳遞進(jìn)分類頭進(jìn)行分類，并在回歸頭中定邊界框位置。然而基于two-stage的方法精度很高，但速度卻很慢，并不滿足實(shí)時(shí)需求。

單階段的方法由一個(gè)端到端的網(wǎng)絡(luò)組成，并不包含RPN網(wǎng)絡(luò)，而是將所有位置視為潛在的proposal。單階段模型主要可以分為anchor-based和anchor-free檢測(cè)器，其中anchor-based需要使用anchor框輔助預(yù)測(cè)。最為熟知的方法就是YOLO[3]。YOLO將圖像特征視為網(wǎng)格，網(wǎng)格中心負(fù)責(zé)預(yù)測(cè)落在該網(wǎng)格的預(yù)測(cè)框，YOLO系列可以在保證預(yù)測(cè)精度的前提下，有著實(shí)時(shí)的檢測(cè)速度。anchor-free的模型不使用事先定義的anchor錨框，采用基于關(guān)鍵點(diǎn)的方式，通過預(yù)測(cè)關(guān)鍵點(diǎn)和寬高來回歸預(yù)測(cè)框，如FOCS[4]等。

但是，無論是anchor-based還是anchor-free的方法，都依賴于復(fù)雜的后處理如非極大值抑制的影響，這對(duì)目標(biāo)檢測(cè)性能表現(xiàn)有著巨大影響。Detection Transformer[5](DETR)作為真正的端到端網(wǎng)絡(luò)，不依賴于非極大值抑制后處理這種耗時(shí)的操作，DETR利用Transformer強(qiáng)大的全局建模能力，將目標(biāo)檢測(cè)看成集合預(yù)測(cè)的問題。DETR使用ResNet作為骨干網(wǎng)絡(luò)提取特征，但ResNet作為CNN網(wǎng)絡(luò)在全局信息提取能力上存在不足。但目標(biāo)檢測(cè)需要更強(qiáng)的全局建模能力，DETR通過在CNN骨干后使用Transformer網(wǎng)絡(luò)編碼器全局建模，但這帶來更大的計(jì)算量和復(fù)雜度。因此本文提出一種基于CNN和Transformer混合融合骨干的改進(jìn)型DETR目標(biāo)檢測(cè)方法，該方法主要包含兩個(gè)關(guān)鍵設(shè)計(jì)：使用Swin Transformer[6]作為特征提取網(wǎng)絡(luò)提取全局信息，并在每個(gè)模塊的分支上并聯(lián)ConvNeXt[7]塊提取局部信息，使用特征金字塔結(jié)構(gòu)對(duì)輸出的多尺度特征融合；借鑒使用DETR目標(biāo)檢測(cè)解碼器和預(yù)測(cè)頭完成目標(biāo)檢測(cè)任務(wù)。

1 算法設(shè)計(jì)

1.1 網(wǎng)絡(luò)整體設(shè)計(jì)

本文提出的網(wǎng)絡(luò)結(jié)構(gòu)整體如圖1所示，第一部分采用改進(jìn)的Swin Transformer模型作為骨干網(wǎng)絡(luò)，其主要思想是在特征圖像塊融合的層級(jí)輸出上并聯(lián)一個(gè)ConvNeXt塊，用于提取特征的局部信息，因此經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)ConvNeXt塊的多尺度特征圖擁有更好的全局信息和局部信息的融合。第二部分采用特征金字塔結(jié)構(gòu)對(duì)多尺度特征圖融合生成具有淺層特征信息和深層特征信息融合的特征圖。最后一個(gè)部分借鑒DETR網(wǎng)絡(luò)，由于本文使用的骨干網(wǎng)絡(luò)已經(jīng)具有強(qiáng)大的全局建模能力，輸出的特征圖帶有全局信息，因此本文僅使用DETR的解碼器和預(yù)測(cè)頭。

圖1 網(wǎng)絡(luò)整體設(shè)計(jì)

1.2 骨干網(wǎng)絡(luò)改進(jìn)

本文骨干網(wǎng)絡(luò)基于Swin Transformer模型改進(jìn)，Swin Transformer塊包含一個(gè)窗口自注意力(Windows Multi-head Self-Attention，W-MSA)模塊和一個(gè)移動(dòng)窗口自注意力(Shifted Windows Multi-Head Self-Attention,SW-MSA)模塊。W-MSA模塊就是在一個(gè)小窗口內(nèi)進(jìn)行多頭自注意力操作，SW-MSA能夠獲取窗口之間的信息，通過移動(dòng)窗口、特征移動(dòng)和mask3部分，使不同窗口之間的特征進(jìn)行交互。通過W-MSA模塊和SW-MSA模塊，骨干模型有著媲美VIT的全局建模能力，并且由于窗口注意力的存在，模型的局部建模能力也相當(dāng)優(yōu)秀，但相較于CNN系列網(wǎng)絡(luò)仍有不足。

本文選擇在層級(jí)結(jié)構(gòu)的輸出上通過ConvNeXt網(wǎng)絡(luò)增強(qiáng)局部信息的表達(dá)能力，從而為下游的檢測(cè)任務(wù)提供更好的特征表現(xiàn)。ConvNeXt塊在使用一個(gè)N×N的卷積后，通過多層感知機(jī)將特征通道數(shù)放大到原來的4倍，通過非線性激活函數(shù)GeLU后再連接一個(gè)全連接，恢復(fù)到原始通道數(shù)后與原始輸入殘差連接。因此ConvNeXt塊使用了和ResNet塊結(jié)構(gòu)完全相反的架構(gòu)，ConvNeXt塊的多層感知的隱藏維度為輸入的4倍，而ResNet則為輸入的1/4。

本文的特征金字塔不采用復(fù)雜的結(jié)構(gòu)，如改進(jìn)特征金字塔、加權(quán)雙向特征金字塔[11]等，這是因?yàn)樘卣鹘鹱炙Y(jié)構(gòu)可能會(huì)需要較大的計(jì)算量，從而導(dǎo)致推理速度變慢，本文的特征金字塔主要融合模塊2-4的輸出。

1.3 DETR解碼器和預(yù)測(cè)頭

DETR解碼器將目標(biāo)檢測(cè)任務(wù)看成集合預(yù)測(cè)任務(wù)，每個(gè)解碼器并行解碼N個(gè)對(duì)象查詢(Query,Q)。DETR解碼器首先會(huì)使N個(gè)對(duì)象查詢進(jìn)行自注意力操作，接著N個(gè)對(duì)象查詢，會(huì)與骨干網(wǎng)絡(luò)的特征轉(zhuǎn)換而成的鍵(Key,K)和值(Value,V)進(jìn)行交叉注意力操作。

最后的預(yù)測(cè)頭是由一個(gè)帶有非線性激活單元的ReLU激活函數(shù)、通道數(shù)為D層的3層感知機(jī)和1個(gè)線性投射層組成。預(yù)測(cè)頭的輸出包含圖像的中心坐標(biāo)和預(yù)測(cè)框的寬高，同時(shí)預(yù)測(cè)標(biāo)簽由softmax函數(shù)激活獲得。DETR的解碼器和預(yù)測(cè)頭不需要手工設(shè)計(jì)較為復(fù)雜的錨框，也不需要復(fù)雜的非極大值抑制后處理，因此可以認(rèn)為是一定意義上真正的端到端網(wǎng)絡(luò)。

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集

COCO2017數(shù)據(jù)集包含11.8萬個(gè)訓(xùn)練圖像和5 000個(gè)驗(yàn)證圖像。每個(gè)圖像都用邊界框和全景分割進(jìn)行標(biāo)注。COCO2017數(shù)據(jù)集包含80個(gè)類別，平均每幅圖像有7個(gè)實(shí)例目標(biāo)，其中在訓(xùn)練集上，同一幅圖像上最多有63個(gè)實(shí)例目標(biāo)，并且實(shí)例目標(biāo)也有大有小。

2.2 實(shí)驗(yàn)設(shè)置

本文使用AdamW優(yōu)化器，學(xué)習(xí)率使用1e-4，權(quán)重衰減為1e-7。模型的框架使用Pytorch1.12.1+Cuda11.6，模型訓(xùn)練采用的硬件設(shè)備為Intel i5-13600kf CPU，GeForce RTX 3090 GPU ，32 G內(nèi)存，操作系統(tǒng)為Ubuntu20.04。本文遵循DETR的訓(xùn)練策略，使用縮放增強(qiáng)，調(diào)整輸入圖像的大小，使短邊至少為480個(gè)像素，最多為800個(gè)像素，長(zhǎng)邊最多為1 333。同時(shí)在DETR解碼器上對(duì)象目標(biāo)查詢N被設(shè)置為100，解碼器層數(shù)設(shè)置為6層。

2.3 實(shí)驗(yàn)結(jié)果

本文提出的方法在不同環(huán)境場(chǎng)景下的預(yù)測(cè)如圖3所示。由圖可知，本文基于CNN和Transformer混合融合骨干的改進(jìn)型DETR目標(biāo)檢測(cè)方法，無論在密集場(chǎng)景還是昏暗環(huán)境都取得了不錯(cuò)的推理結(jié)果。本文提出的方法相較于DETR原始模型，能更好地預(yù)測(cè)小目標(biāo)，這歸結(jié)于強(qiáng)大的特征提取混合骨干對(duì)局部信息和全局信息的把握。

圖2 模型推理結(jié)果

同時(shí)本文對(duì)比了和DETR和Faster RCNN在模型性能上的表現(xiàn)如表1所示。

表1 COCO數(shù)據(jù)集模型對(duì)比結(jié)果

由表1可知，本文提出的方法，無論在小目標(biāo)還是大目標(biāo)上，都優(yōu)于DETR-R50的表現(xiàn)，在AP上至少提升3.8%，同時(shí)速度相較于更快的DETR-R50也是有所提升，超過了30FPS。盡管Swin Transformer相較于ResNet50模型有著更大的計(jì)算量和復(fù)雜度，但改進(jìn)的骨干網(wǎng)絡(luò)擁有強(qiáng)大的全局建模能力，從而使本文的方法并不使用復(fù)雜的DETR的編碼器，能夠更加有效地降低模型的計(jì)算量和復(fù)雜度。

3 結(jié)語

本文提出的基于CNN和Transformer混合融合骨干的改進(jìn)型DETR目標(biāo)檢測(cè)方法，在骨干模型上對(duì)DETR進(jìn)行改進(jìn)，通過融合Swin Transformer和ConvNeXt模型的優(yōu)勢(shì)，有效地融合了全局信息和局部信息，同時(shí)對(duì)層級(jí)結(jié)構(gòu)輸出的特征圖通過特征金字塔融合深層和淺層特征，因此在目標(biāo)檢測(cè)任務(wù)中比原始的DETR模型能夠取得更好的檢測(cè)結(jié)果。

相較于速度更快的DETR-R50，本文提出的模型在AP上提升1.6%，在FPS上提升10.7%，有更好的性能表現(xiàn)。而且本文提出的方法由于有著更好的特征提取能力，因此能夠在小目標(biāo)上比DETR模型有更好的表現(xiàn)，同時(shí)在昏暗的環(huán)境仍有著不錯(cuò)的性能表現(xiàn)。