亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Transformer目標(biāo)檢測研究綜述

2021-10-16 12:45:01尹航范文婷

現(xiàn)代信息科技 2021年7期

尹航范文婷

摘要：目標(biāo)檢測是計算機(jī)視覺領(lǐng)域三大任務(wù)之一，同時也是計算機(jī)視覺領(lǐng)域內(nèi)一個最基本和具有挑戰(zhàn)性的熱點(diǎn)課題，近一年來基于Transformer的目標(biāo)檢測算法研究引發(fā)熱潮。簡述Transformer框架在目標(biāo)檢測領(lǐng)域的研究狀況，介紹了其基本原理、常用數(shù)據(jù)集和常用評價方法，并用多種公共數(shù)據(jù)集對不同算法進(jìn)行對比以分析其優(yōu)缺點(diǎn)，在綜述研究基礎(chǔ)上，結(jié)合行業(yè)應(yīng)用對基于Transformer的目標(biāo)檢測進(jìn)行總結(jié)與展望。

關(guān)鍵詞：目標(biāo)檢測;Transformer;計算機(jī)視覺;深度學(xué)習(xí)

中圖分類號：TP391? ? ? 文獻(xiàn)標(biāo)識碼：A? ? 文章編號：2096-4706（2021）07-0014-04

A Summary of Research on Target Detection Based on Transformer

YIN Hang，F(xiàn)AN Wenting

（College of Information Science and Technology，Zhongkai University of Agriculture and Engineering，Guangzhou? 510225，China）

Abstract：Target detection is one of the three major tasks in the field of computer vision. At the same time，it is also a basic and challenging hot topic in the field of computer vision. In almost a year，the research of object detection algorithms based on Transformer has caused a boom. This paper sketches the research status of Transformer framework in the field of target detection，introduces its basic principle，common data sets and common evaluation methods，and compares different algorithms with several public data sets，so as to analyze their advantages and disadvantages. On the basis of summarizing the research，also combined the industry application，this paper summarizes and prospects of the object detection based on Transformer.

Keywords：target detection;Transformer;computer vision;deep learning

收稿日期：2021-02-26

基金項(xiàng)目：廣東省自然科學(xué)基金面上項(xiàng)目（2021A1515011605）

0? 引? 言

目標(biāo)檢測是計算機(jī)視覺領(lǐng)域的核心任務(wù)，是實(shí)現(xiàn)目標(biāo)跟蹤、行為識別的基礎(chǔ)，目前主流基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法分為一階段和兩階段類型。由于Transformer[1]框架在自然語言處理（NLP）領(lǐng)域取得巨大成功，研究者嘗試將其遷移到計算機(jī)視覺領(lǐng)域。

2018年，Parmar首次將Transformer應(yīng)用于圖像生成，提出Image Transformer模型[2]。2020年，Carion等人將CNN與Transformer結(jié)合，提出一個完備的端到端的DETR目標(biāo)檢測框架[3]，首次將Transformer應(yīng)用到目標(biāo)檢測。隨后的一年內(nèi)，類似算法不斷涌現(xiàn)：Zhu[4]等人提出借鑒可變卷積神經(jīng)網(wǎng)絡(luò)的Deformable DETR模型;Zheng[5]等人提出降低自我注意模塊計算復(fù)雜度的ACT算法;谷歌提出ViT模型[6]并應(yīng)用于圖像分類。圖1為近年來基于Transformer目標(biāo)檢測模型。

1? Transformer 模型

Transformer模型也稱為基于注意力機(jī)制模型，多應(yīng)用于自然語言處理領(lǐng)域，模型包括Encoder和Decoder兩部分，結(jié)構(gòu)如圖2所示。

其中Encoder編碼器由6個具有相同結(jié)構(gòu)的層組成，每層包含2個子層：多頭注意力和前饋網(wǎng)絡(luò)，每組子層進(jìn)行殘差連接，后做歸一化處理。每層Encoder輸出如式（1）所示：

（1）

其中，x為輸入序列。

Decoder解碼器與Encoder結(jié)構(gòu)類似，但多一個掩碼層，該層用于掩蓋未預(yù)測的信息，保證每次預(yù)測結(jié)果都只基于已知信息。Decoder層的輸入為Encoder的輸出和上一層Decoder的輸出，把Encoder層的輸出作為K和V，上一層Decoder層輸出作為Q，將Q、K、V輸入到注意力模塊進(jìn)行attention操作。Transformer通過Encoder編碼器對輸入序列進(jìn)行編碼，將編碼結(jié)果輸入到Decoder，最后將Decoder的輸出通過線性變換和一個Softmax層來預(yù)測下一個輸出，此框架具有較強(qiáng)的語義特征提取和長距離特征捕獲能力，其并行計算能力與CNN相當(dāng)。如果考慮圖像與文本的維度差異，將圖像轉(zhuǎn)換為序列，便可輸入到模型進(jìn)行處理，因此將Transformer遷移到計算機(jī)視覺領(lǐng)域是有理論依據(jù)、切實(shí)可行的。

2? 常用目標(biāo)檢測數(shù)據(jù)集及評價方法

2.1? 常用目標(biāo)檢測數(shù)據(jù)集

數(shù)據(jù)集是衡量和比較算法性能的共同基礎(chǔ)[7]。常用的目標(biāo)檢測數(shù)據(jù)集有VOC和COCO，行人檢測常用數(shù)據(jù)集有CityPersons，如表1所示。

2.2? 常用目標(biāo)檢測評價方法

目標(biāo)檢測常用評價方法包括：平均精度（AP）和每秒檢測圖片數(shù)量（FPS），行人檢測常用的評價方法為MR-2，下文進(jìn)行具體說明。

2.2.1? 平均精度

平均精度AP特指PR曲線下方面積，式（2）式（3）描述了精確度（Precision）與召回率（Recall）的計算公式。

（2）

（3）

在PR曲線基礎(chǔ)上，通過計算每個召回率對應(yīng)的準(zhǔn)確率求平均，可以獲得AP。

各類AP的平均mAP是最常用的指標(biāo)，它表示模型在所有類別上表現(xiàn)的好壞，通常數(shù)值越高表示效果越好。mAP公式為：

（4）

2.2.2? FPS

每秒檢測圖片數(shù)量（FPS）用于衡量模型的檢測速度，通常每秒處理圖片數(shù)量越多，模型效果越好。

2.2.3? MR-2

Log-average miss rate（MR-2）是行人檢測中最常用的度量標(biāo)準(zhǔn)，也被稱為漏檢率。它以對數(shù)標(biāo)度計算每個圖像的假陽性漏檢率，范圍為[0.01，100]。

3? 基于Transformer目標(biāo)檢測模型

3.1? CNN+Transformer目標(biāo)檢測模型

基于CNN+Transformer目標(biāo)檢測模型包括DETR和Deformable DETR。

3.1.1? DETR

2020年，Carion[1]等人成功將Transformer框架應(yīng)用于目標(biāo)檢測領(lǐng)域中，提出了DETR模型，將ResNet特征提取網(wǎng)絡(luò)與Transformer結(jié)合，把檢測任務(wù)分為特征提取和目標(biāo)預(yù)測兩個部分，整體結(jié)構(gòu)如圖3所示。

該模型將輸入圖片放入CNN特征提取網(wǎng)絡(luò)，得到低分辨率特征圖。將特征圖展平成一個序列并加上空間位置編碼后輸入到Transformer的編碼器中，得到各個物體編碼后的特征，隨后將其與Object Query輸入到解碼器中進(jìn)行并行解碼。與原始解碼器不同，該解碼器在做Multi-Head Attention時也加上了空間位置編碼，在解碼器中的每個輸出都連上一個前饋網(wǎng)絡(luò)用于預(yù)測目標(biāo)類型和邊界框。在訓(xùn)練時使用Hungarian loss來計算預(yù)測值與真實(shí)標(biāo)注之間的損失。

該模型在COCO和自定義數(shù)據(jù)集上的AP與Faster RCNN[6]效果相當(dāng)，但其在小目標(biāo)檢測上效果不如Faster RCNN，因此2020年10月Zhu[7]等人提出使用Deformable DETR來解決上述問題。

3.1.2? Deformable DETR

Deformable DETR借鑒了可變形卷積網(wǎng)絡(luò)的思想，使用可變形注意模塊代替DETR中Transformer注意力模塊，縮小K采樣范圍，讓Q與更有意義的K進(jìn)行比較，減少計算量，提升速度。對于小目標(biāo)檢測效果不佳的問題，該模型使用多尺度可變形注意力模塊，對不同尺度特征圖進(jìn)行可變形注意，將每層的注意力結(jié)果相加得到多尺度注意力，從而提高小目標(biāo)檢測效果，結(jié)構(gòu)如圖4所示。

該模型與DETR相比，收斂速度快10倍、小目標(biāo)檢測AP提升3.9%，大目標(biāo)檢測AP與Faster RCNN相比，提高4.6%。雖然該模型在訓(xùn)練速度和小目標(biāo)檢測上得到了很大的改進(jìn)，但對于遮擋目標(biāo)的檢測效果仍然不佳。

3.2? 基于Transformer特征提取網(wǎng)絡(luò)目標(biāo)檢測模型

2020年10月Dosovitskiy等[8]提出Vision Transformer（ViT）模型，在大型數(shù)據(jù)集JFT300M上的圖像分類效果超越當(dāng)前SOTA的結(jié)果，因此Beal等人利用ViT模型作為特征提取網(wǎng)絡(luò)，提出用于目標(biāo)檢測的ViT-FRCNN模型[9]。ViT-FRCNN模型結(jié)構(gòu)如圖5所示。

ViT-FRCNN模型首先將圖片分割成N個P×P子圖，將其按順序排列，轉(zhuǎn)換為序列化數(shù)據(jù)，隨后將其輸入到ViT網(wǎng)絡(luò)，將每個子圖的輸出重新組合成特征圖，輸入到含有RPN模塊的檢測網(wǎng)絡(luò)中實(shí)現(xiàn)預(yù)測。

3.3? 對比實(shí)驗(yàn)

本文為了衡量各基于Transformer目標(biāo)檢測模型的性能，基于公共數(shù)據(jù)集開展對比實(shí)驗(yàn)，如表2所示。通過對比實(shí)驗(yàn)，可見基于Transformer模型的目標(biāo)檢測精度優(yōu)于Faster RCNN模型，但檢測速度明顯不足。在基于COCO數(shù)據(jù)集的對比測試中發(fā)現(xiàn)，基于Transformer模型算法平均響應(yīng)時間為Faster RCNN模型的2.1倍;對水果、蔬菜等小目標(biāo)檢驗(yàn)測試平均響應(yīng)時間為Faster RCNN模型的2.8倍，高于人物等較大目標(biāo)檢測的平均響應(yīng)時間，由此可見基于Transformer模型目標(biāo)檢測在工業(yè)農(nóng)業(yè)生產(chǎn)等領(lǐng)域的實(shí)際應(yīng)用還不夠成熟。

4? 結(jié)? 論

本文對基于Transformer目標(biāo)檢測模型進(jìn)行了分析，雖然此類模型在目標(biāo)檢測任務(wù)中有較好表現(xiàn)，但仍存在許多不足。如DETR系列模型的檢測速度較慢，對小目標(biāo)檢測性能不佳;TSP模型提高了檢測速度，但大目標(biāo)檢測性能退化。目前，基于DETR算法的改進(jìn)主要是針對模型收斂速度和小目標(biāo)檢測，收斂速度的改進(jìn)通過調(diào)整注意力模塊的輸入來降低自注意的計算量來達(dá)到加速效果，而小目標(biāo)檢測任務(wù)則通過加入多尺度特征融合來實(shí)現(xiàn)。基于特征提取網(wǎng)絡(luò)的ViT-FRCNN系列模型提升了收斂速度，但平均精度有待提高。同時，實(shí)際目標(biāo)檢測應(yīng)用場景環(huán)境復(fù)雜，反光倒影、灰塵遮擋等各類噪聲突出，SIRR等算法可用于基于Transformer模型的前期去噪處理，提高整體精度。

參考文獻(xiàn)：

[1] VASWANI A，SHAZEER N，PARMAR N，et al. Attention is all you need [C]//Advances in Neural Information Processing Systems.Long Beach，2017：5998-6008

[2] PARMAR N，VASWANI A，USZKOREIT J，et al. Image Transformer [J/OL].arXiv：1802.05751 [cs.CV].（2018-02-15）.https：//arxiv.org/abs/1802.05751.

[3] CARION N，MASSA F，SYNNAEVE G，et al. End-to-End Object Detection with Transformers [M].Switzerland：Springer，2020.

[4] ZHU X Z，SU W J，LU L W，et al. Deformable DETR：Deformable Transformers for End-to-End Object Detection [J/OL].arXiv：2010.04159 [cs.CV].（2020-10-18）.https：//arxiv.org/abs/2010.04159.

[5] ZHENG M H，GAO P，WANG X G，et al. End-to-End Object Detection with Adaptive Clustering Transformer [J/OL].arXiv：2011.09315 [cs.CV].（2020-11-18）.https：//arxiv.org/abs/2011.09315v1.

[6] LIU L，OUYANG W L，WANG X G，et al. Deep Learning for Generic Object Detection：A Survey [J]. International Journal of Computer Vision，2020，128：261–318.

[7] DAI J F，QI H Z，XIONG Y W，et al. Deformable Convolutional Networks [C]//2017 IEEE International Conference on Computer Vision（ICCV）.Venice：IEEE，2017：764-773.

[8] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al. An Image is Worth 16x16 Words：Transformers for Image Recognition at Scale [J/OL].arXiv：2010.11929 [cs.CV].（2020-10-22）.https：//arxiv.org/abs/2010.11929.

[9] BEAL J，KIM E，TZENG E，et al. Toward Transformer-Based Object Detection [J/OL].arXiv：2012.09958 [cs.CV].（2020-12-17）.https：//arxiv.org/abs/2012.09958.

作者簡介：尹航（1978—），男，漢族，山東東明人，副教授，博士，研究方向：機(jī)器學(xué)習(xí)。