亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的目標(biāo)檢測與應(yīng)用

2025-03-28 00:00:00侯小燕

科技創(chuàng)新與應(yīng)用 2025年8期

摘" 要：對圖像或視頻進(jìn)行目標(biāo)檢測即對圖像上的目標(biāo)進(jìn)行定位和類別判斷，它是計(jì)算機(jī)視覺領(lǐng)域最基本和重要的任務(wù)之一。基于深度學(xué)習(xí)進(jìn)行目標(biāo)檢測的方法是當(dāng)前視覺目標(biāo)檢測領(lǐng)域的主流技術(shù)。該文回顧并分析近年來基于深度學(xué)習(xí)進(jìn)行目標(biāo)檢測的一些技術(shù)成果，總結(jié)提高目標(biāo)檢測性能的方法并調(diào)研目標(biāo)檢測在各個領(lǐng)域的不同應(yīng)用，同時(shí)提出當(dāng)前目標(biāo)檢測存在的一些問題和對應(yīng)的解決方法，最后針對目前存在的挑戰(zhàn)討論目標(biāo)檢測的發(fā)展方向。

關(guān)鍵詞：深度學(xué)習(xí)；目標(biāo)檢測；應(yīng)用；視覺領(lǐng)域；神經(jīng)網(wǎng)絡(luò)

中圖分類號：TP391" " " 文獻(xiàn)標(biāo)志碼：A" " " " " 文章編號：2095-2945（2025）08-0021-06

Abstract： Object detection for image or video is one of the most basic and important tasks in the field of computer vision. With the development of artificial intelligence and computer vision technology， object detection technology based on deep learning has developed rapidly， and has become the mainstream method in the field of visual object detection. This paper reviews some technical achievements of object detection based on deep learning in recent years. The methods to improve the performance of object detection is summarized， and different applications of object detection in various fields are investigated. At the same time， some problems existing in current object detection and corresponding solutions are proposed. Finally， the development direction of object detection is discussed according to the existing challenges.

Keywords： deep learning; object detection; application; vision domain; neural network

目標(biāo)檢測是將圖像或視頻中有不同外觀、形狀、姿態(tài)和光照的不同目標(biāo)進(jìn)行類別區(qū)分和定位，區(qū)別于圖像分類，目標(biāo)檢測不僅要求能夠識別目標(biāo)類別，還需要精確地定位目標(biāo)的位置。由于不同圖像或視頻上存在的目標(biāo)差異、背景差異、光照和遮擋等因素的影響，目標(biāo)檢測一直是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)和存在挑戰(zhàn)的問題。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展，基于深度學(xué)習(xí)的方法成為主流的目標(biāo)檢測方法。它將深度卷積網(wǎng)絡(luò)引入到目標(biāo)檢測領(lǐng)域，使目標(biāo)檢測取得了重大突破。區(qū)域卷積網(wǎng)絡(luò)R-CNN[1]是第一個將深度學(xué)習(xí)應(yīng)用到目標(biāo)檢測上的算法，是典型的雙階段網(wǎng)絡(luò)，它將目標(biāo)檢測任務(wù)分為候選區(qū)域提取和分類2個子任務(wù)進(jìn)行。之后逐步出現(xiàn)了新的網(wǎng)絡(luò)如Fast R-CNN[2]、Faster R-CNN[3]和SSD[4]、YOLO[5-12]系列、EfficientDet[13]、CenterNet[14]、FCOS[15]和DETR[16-23]系列等，它們的改進(jìn)進(jìn)一步提升了目標(biāo)檢測的精度和速度，同時(shí)也加入了各種策略來輔助性能提升，使目標(biāo)檢測技術(shù)取得了重大發(fā)展。

1" 基于神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法

卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)網(wǎng)絡(luò)，廣泛應(yīng)用于圖像處理的各個領(lǐng)域，包括目標(biāo)檢測、分割、分類、追蹤和文本識別等。它通過模擬生物的視知覺機(jī)制，利用卷積運(yùn)算對圖像進(jìn)行特征提取和分類，具有強(qiáng)大的表征學(xué)習(xí)能力和平移不變性，是深度學(xué)習(xí)領(lǐng)域的重要算法之一?；谏窠?jīng)網(wǎng)絡(luò)的目標(biāo)檢測技術(shù)的發(fā)展經(jīng)歷了從雙階段到單階段，從anchor-based到anchor-free、從網(wǎng)絡(luò)結(jié)構(gòu)大型化到輕量化的轉(zhuǎn)變，到目前為止，目標(biāo)檢測的性能已取得了顯著提升。表1為基于卷積網(wǎng)絡(luò)的目標(biāo)檢測的一些關(guān)鍵方法和分類。

1.1" 目標(biāo)檢測網(wǎng)絡(luò)

1.1.1" 雙階段anchor-based網(wǎng)絡(luò)

Anchor被稱為錨框或候選框，anchor-based網(wǎng)絡(luò)即基于錨框或候選框的網(wǎng)絡(luò)，首先設(shè)置目標(biāo)的大概位置作為預(yù)設(shè)框，然后在這些預(yù)設(shè)框的基礎(chǔ)上進(jìn)行篩選和微調(diào)，從而得到更準(zhǔn)確的預(yù)測框。它的本質(zhì)是加入了強(qiáng)先驗(yàn)信息，基于anchor回歸，讓模型去預(yù)測anchor與真實(shí)邊框的偏移，比從無到有的直接擬合物體的邊框容易一些。

anchor-based檢測框架可以分解為以下4個部分：錨框?qū)?yīng)特征層分配標(biāo)準(zhǔn)Assignment、錨框訓(xùn)練標(biāo)簽分配標(biāo)準(zhǔn)Ground-truth、網(wǎng)絡(luò)輸出與損失函數(shù)設(shè)計(jì)Output amp; Loss和預(yù)測階段Prediction。

雙階段檢測網(wǎng)絡(luò)包括2個階段：候選區(qū)域生成、候選區(qū)域分類及邊界框的回歸。在提議生成階段算法首先在輸入圖像中生成一系列可能包含某些對象的候選區(qū)域，這一階段通常利用選擇性搜索或區(qū)域提議網(wǎng)絡(luò)（Region Proposal Network， RPN）來完成。在提議分類階段，算法對第一階段生成的每個候選區(qū)域進(jìn)行對象類別預(yù)測和更精確的邊界框回歸。典型的雙階段anchor-based網(wǎng)絡(luò)有R-CNN、Fast R-CNN、Faster R-CNN等。3種網(wǎng)絡(luò)主要結(jié)構(gòu)對比見表2。

1.1.2" 單階段anchor-based網(wǎng)絡(luò)

區(qū)別于雙階段網(wǎng)絡(luò)，單階段網(wǎng)絡(luò)通過一個階段完成目標(biāo)的類別預(yù)測和邊界框回歸，從而簡化了檢測流程，實(shí)現(xiàn)更快的檢測推理速度。單階段anchor-based網(wǎng)絡(luò)在單一前向傳播中完成目標(biāo)檢測任務(wù)，無須生成候選區(qū)域，它們通過密集的錨框直接預(yù)測目標(biāo)的類別和位置。典型的單階段anchor-based網(wǎng)絡(luò)包括SSD、YOLO系列（YOLOX、YOLOv6、YOLOv8和YOLOv9除外）、RetinaNet和EfficientDet等[4-13，24]。

YOLO系列的網(wǎng)絡(luò)經(jīng)歷了從YOLOv1到Y(jié)OLOv9的發(fā)展歷程，在速度和準(zhǔn)確性上取得了非常大的提升。RetinaNet[24]采用ResNet50作為特征提取backbone，自頂向下的特征金字塔網(wǎng)絡(luò)FPN為特征融合模塊，最后從不同尺度的特征層上引出并行的分類和位置檢測頭來檢測不同大小的目標(biāo)。EfficientDet[13]對網(wǎng)絡(luò)寬度width、深度depth和分辨率resolution這3個維度進(jìn)行復(fù)合縮放，可以對網(wǎng)絡(luò)各個模塊的分辨率、深度和寬度進(jìn)行統(tǒng)一縮放，同時(shí)引入雙向加權(quán)特征金字塔BiFPN。anchor-based由于加入了人為先驗(yàn)分布，同時(shí)在訓(xùn)練的時(shí)候預(yù)測的值域變化范圍實(shí)際上較小，所以anchor-based的網(wǎng)絡(luò)更加容易訓(xùn)練也更加穩(wěn)定。

1.1.3" anchor-free網(wǎng)絡(luò)

由于anchor-based結(jié)構(gòu)本身存在一些問題：由于錨框的選擇存在尺寸、寬高比與數(shù)量等很多超參，檢測結(jié)果對于anchor設(shè)計(jì)的先驗(yàn)prior比較依賴，固定參數(shù)的選擇又會降低模型的泛化能力；密集的錨框設(shè)計(jì)會造成正負(fù)樣本嚴(yán)重不均衡問題，且導(dǎo)致計(jì)算成本增加；訓(xùn)練時(shí)需要設(shè)定IOU閾值，檢測精度對閾值設(shè)置較為敏感。為解決上述問題，anchor-free網(wǎng)絡(luò)應(yīng)運(yùn)而生。它們的區(qū)別在于是否使用預(yù)定義的anchor框來匹配真實(shí)的目標(biāo)框。anchor-free網(wǎng)絡(luò)不依賴預(yù)定義的錨框，而是直接在特征圖上預(yù)測目標(biāo)的位置和大小，它通常通過關(guān)鍵點(diǎn)檢測、中心點(diǎn)預(yù)測、逐像素等方式來實(shí)現(xiàn)目標(biāo)檢測。經(jīng)典的anchor-free網(wǎng)絡(luò)包括CornerNet、CenterNet和FCOS等。anchor-free本質(zhì)上是一種密集預(yù)測的方法，它的缺點(diǎn)是收斂比較慢，且容易產(chǎn)生更多假陽，同時(shí)由于每個位置只預(yù)測一個框，可能會導(dǎo)致一些重疊或遮擋區(qū)域無法被檢測到。

1.1.4" 基于transformer的改進(jìn)網(wǎng)絡(luò)

相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)，transformer的特征學(xué)習(xí)和表示能力更加強(qiáng)大，因此出現(xiàn)很多基于transformer框架改進(jìn)的目標(biāo)檢測網(wǎng)絡(luò)，最典型的比如DETR、Deformable DETR、Conditional DETR、Conditional DETR V2、Co-DETR、DAB-DETR、DN-DETR和DINO[16-23]等。此外還有其他一些基于transformer的改進(jìn)檢測網(wǎng)絡(luò)，transformer在抽取時(shí)空表征關(guān)系上的巨大優(yōu)勢使其在視覺目標(biāo)檢測上也效果顯著。

1.1.5" 輕量化檢測網(wǎng)絡(luò)

基于神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法在精度上能達(dá)到較高指標(biāo)，但由于存儲空間和功耗限制，這些模型在嵌入設(shè)備或移動端的存儲與計(jì)算仍然存在巨大挑戰(zhàn)。為了降低模型存儲，加快訓(xùn)練和推理速度，減小硬件功耗，很多研究者提出了輕量化的網(wǎng)絡(luò)結(jié)構(gòu)，也出現(xiàn)了一些其他方法，如對大模型進(jìn)行量化、剪枝、蒸餾等操作來減小模型參數(shù)量，從而提高移動端模型部署的成功率。輕量化檢測網(wǎng)絡(luò)通常采用輕量化結(jié)構(gòu)的網(wǎng)絡(luò)作為backbone和neck，現(xiàn)有的輕量化backbone如MobileNet系列、MnasNet、GhostNet和ShuffleNet系列等。此外，也存在通過降低網(wǎng)絡(luò)的寬度、深度和分辨率來減小網(wǎng)絡(luò)的結(jié)構(gòu)，如tinyYOLO、nanoDet[31]等。

1.2" 性能提升方法

神經(jīng)網(wǎng)絡(luò)可以通過大量技巧tricks去優(yōu)化訓(xùn)練效果，從而使檢測任務(wù)得到不錯的精度。本文介紹一些tips來提升網(wǎng)絡(luò)訓(xùn)練的性能，其中某些tricks并不是網(wǎng)絡(luò)訓(xùn)練的必要過程，而是一些啟發(fā)式建議。

網(wǎng)絡(luò)結(jié)構(gòu)合理正確，根據(jù)數(shù)據(jù)集設(shè)置合理的網(wǎng)絡(luò)大小和結(jié)構(gòu)。

訓(xùn)練數(shù)據(jù)和標(biāo)簽準(zhǔn)確，剔除無效和低質(zhì)量數(shù)據(jù)，數(shù)據(jù)類別均衡。

圖像增強(qiáng)，如翻轉(zhuǎn)、旋轉(zhuǎn)、形變變換、加噪、濾波、光照、顏色變換、裁剪、縮放和融合等。

使用合適的學(xué)習(xí)率策略，如warmup，采用學(xué)習(xí)率預(yù)熱加線性衰減的調(diào)度策略使得模型既能快速進(jìn)入最優(yōu)解的鄰域并進(jìn)行細(xì)致探索。

采用dropout正則化防止過擬合。

合理的batchsize設(shè)置能加速網(wǎng)絡(luò)收斂。

進(jìn)行難例挖掘，離線難例挖掘如TopK Loss和難分負(fù)樣本挖掘Hard Negative Mining（HNM），在線難例挖掘如OHEM，在訓(xùn)練過程中動態(tài)地選擇一些具有高損失的樣本作為訓(xùn)練樣本。

多尺度訓(xùn)練和測試，輸入不同尺度的圖片進(jìn)行模型訓(xùn)練能提高網(wǎng)絡(luò)精度。

數(shù)據(jù)集較小時(shí)可以使用交叉驗(yàn)證。

隨機(jī)權(quán)值平均通過平均多個模型參數(shù)來改善模型的訓(xùn)練和泛化能力。

激活函數(shù)選擇，采用GELU和Swish激活函數(shù)梯度更加平滑，使輸出的概率分別更加平滑，能夠自適應(yīng)地調(diào)整輸入信號的流動。

使用注意力機(jī)制提升網(wǎng)絡(luò)特征提取能力。

2" 目標(biāo)檢測的應(yīng)用和挑戰(zhàn)

目標(biāo)檢測網(wǎng)絡(luò)由于其出色的性能在很多領(lǐng)域得到了應(yīng)用，如安防、醫(yī)療、交通、商業(yè)、金融和教育等方向。主要應(yīng)用的內(nèi)容有行人檢測、自動駕駛領(lǐng)域的檢測、人臉檢測、醫(yī)學(xué)影像檢測、遙感目標(biāo)檢測、商品檢測和文本檢測等。

行人檢測在視頻監(jiān)控、智能駕駛、機(jī)器人和安防等領(lǐng)域起著非常重要的作用[34-35]。目前常用行人檢測方法如Faster R-CNN、SSD和YOLO系列在質(zhì)量較好的數(shù)據(jù)上都能取得不錯的效果。但行人檢測由于遮擋問題、行人無規(guī)則運(yùn)動、行人姿態(tài)變化、密集檢測、天氣條件、小目標(biāo)檢測和背景復(fù)雜等問題存在一定挑戰(zhàn)。

自動駕駛領(lǐng)域的檢測用于檢測和識別路上的車輛、行人、交通信號、車道線、路牌和障礙物等，以輔助智能化駕駛決策[36-37]。如根據(jù)目標(biāo)識別的遠(yuǎn)近來輔助決定是否剎車、識別并跟蹤前輛車的行為來保持與前輛車的安全距離，也可以進(jìn)行內(nèi)部監(jiān)控，如司機(jī)是否進(jìn)行疲勞駕駛、是否接打電話等。

人臉檢測和識別在金融、商業(yè)、教育和安防等領(lǐng)域有著廣泛的應(yīng)用，例如解鎖手機(jī)、商店刷臉支付、機(jī)場身份驗(yàn)證、銀行身份驗(yàn)證和罪犯驗(yàn)證等。目前常用的人臉檢測網(wǎng)絡(luò)有MTCNN[38]、retinaface[39]以及其他一些目標(biāo)檢測網(wǎng)絡(luò)如YOLO系列、SSD和anchor-free的目標(biāo)檢測網(wǎng)絡(luò)。但由于人臉的姿態(tài)、大小、光照、表情復(fù)雜、遮擋和畸變等問題，人臉檢測和識別也存在一定挑戰(zhàn)。

目標(biāo)檢測也用于醫(yī)療領(lǐng)域的識別和診斷，如胸外、泌尿、骨類和血管類等很多領(lǐng)域的影像處理。目前常用基于深度學(xué)習(xí)的醫(yī)學(xué)目標(biāo)檢測網(wǎng)絡(luò)有NNDection[40]、MedYOLO[41]等。由于某些器官或病灶在單一模態(tài)圖如計(jì)算機(jī)斷層CT或者核磁共振成像MRI等上不能清晰顯影，檢測任務(wù)常常需要基于多模態(tài)進(jìn)行，很多學(xué)者也提出了多模態(tài)檢測網(wǎng)絡(luò)[42-43]，利用多模態(tài)數(shù)據(jù)特征充分提高目標(biāo)檢測精度。醫(yī)學(xué)圖像檢測的難點(diǎn)在于：數(shù)據(jù)獲取和標(biāo)注困難，不同品牌、不同機(jī)器參數(shù)設(shè)置不同導(dǎo)致CT或MRI等圖像灰度變化范圍大且不一致。

自然語言處理NLP方面，文本檢測是NLP處理的基礎(chǔ)。文本檢測廣泛應(yīng)用于各個領(lǐng)域，如零售商標(biāo)檢測、快遞條碼檢測、車牌文字檢測和文字識別等。目前常用的文本檢測網(wǎng)絡(luò)有CTPN、SegLink、EAST、DBNet和ABCNet[44-47]等。文本檢測也存在一定挑戰(zhàn)：文本大小不一致，文本由于顏色、大小、形狀、字體、傾斜、語言以及長度等存在多樣性，自然場景中的文本缺乏通用性，光照條件不定，背景復(fù)雜，字符粘連和斷字，遮擋和模糊等。

許多研究基于深度學(xué)習(xí)的檢測方法對遙感圖上通用的對象類別如道路、建筑物、樹木、車輛、船舶、機(jī)場、飛機(jī)和市區(qū)等進(jìn)行檢測[48]，并取得了良好的效果。但遙感圖像因存在分辨率巨大、大小目標(biāo)分布不一致、目標(biāo)被云霧等遮擋、數(shù)據(jù)量較少和閾值不同等問題導(dǎo)致檢測也存在一定挑戰(zhàn)。

目標(biāo)檢測網(wǎng)絡(luò)也應(yīng)用在其他很多方面，如超市商品檢測并打印價(jià)格，智慧工地進(jìn)行如安全帽檢測、煙火檢測和進(jìn)入危險(xiǎn)區(qū)域報(bào)警等；目標(biāo)檢測可以進(jìn)行圖像搜索，進(jìn)行特定場景下人數(shù)統(tǒng)計(jì)，進(jìn)行圖像自動標(biāo)注、進(jìn)行目標(biāo)跟蹤，輔助目標(biāo)分割和分類，輔助身份驗(yàn)證，輔助其他相關(guān)的識別等。圖1為目標(biāo)檢測在不同場景下的應(yīng)用示例。

3" 結(jié)論

本文對基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行了分類總結(jié)和對比，給出了目標(biāo)檢測網(wǎng)絡(luò)的一些訓(xùn)練技巧；調(diào)研了目標(biāo)檢測在諸如行人檢測、自動駕駛領(lǐng)域的檢測、人臉檢測、醫(yī)學(xué)影像檢測、遙感目標(biāo)檢測、文本檢測和其他檢測等中的應(yīng)用，并分析了各個應(yīng)用目前存在的挑戰(zhàn)。針對小目標(biāo)和目標(biāo)比例特殊、圖像拍攝角度變化大、光照不好、遮擋、模糊和背景復(fù)雜等問題以及模型大小和實(shí)時(shí)檢測速度等問題，目標(biāo)檢測網(wǎng)絡(luò)在盡可能朝能克服這些問題的方向改進(jìn)，比如用動態(tài)視頻序列圖像代替單幀圖對存在模糊、遮擋、截?cái)嗟葐栴}的圖像進(jìn)行目標(biāo)檢測，比如利用雙目相機(jī)獲取深度信息輔助檢測，比如提升小目標(biāo)檢出率的一些tricks，比如減小模型大小并加快推理速度來滿足實(shí)時(shí)性的需求。隨著大模型的發(fā)展，也可能出現(xiàn)更通用的目標(biāo)檢測大模型。目標(biāo)檢測未來的發(fā)展將具有更快的速度、更高的精度、更強(qiáng)的魯棒和泛化性，并最終將應(yīng)用于人們生活的方方面面。

參考文獻(xiàn)：

[1] GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//In Proceedings of the IEEE conference on computer vision and pattern recognition，2014：580-587.

[2] GIRSHICK R. Fast r-cnn[C]//In Proceedings of the IEEE international conference on computer vision，2015：1440-1448.

[3] REN S， HE K， GIRSHICK R， et al. Faster r-cnn： Towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems， 2015（28）.

[4] LIU W， ANGUELOV D， ERHAN D， et al. Ssd： Single shot multibox detector[J]. In Computer Vision-ECCV 2016： 14th European Conference， Amsterdam， The Netherlands October 11-14 2016 Proceedings， 2016， Part I（14）：21-37.

[5] REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once： Unified， real-time object detection[C]//In Proceedings of the IEEE conference on computer vision and pattern recognition，2016：779-788.

[6] REDMON J， FARHADI A. YOLO9000： better， faster， stronger[C]//In Proceedings of the IEEE conference on computer vision and pattern recognition，2017：7263-7271.

[7] REDMON J， FARHADI A. Yolov3： An incremental improvement[J]. InComputer vision and pattern recognition 2018（1804）：1-6.

[8] BOCHKOVSKIY A， WANG C Y， LIAO H Y. Yolov4： Optimal speed and accuracy of object detection[J]. arxiv preprint arxiv：2004.10934，2020.

[9] GE Z， LIU S， WANG F， et al. Yolox： Exceeding yolo series in 2021[J]. arxiv preprint arxiv：2107.08430，2021.

[10] LI C， LI L， JIANG H， et al. YOLOv6： A single-stage object detection framework for industrial applications[J]. arxiv preprint arxiv：2209.02976，2022.

[11] WANG C Y， BOCHKOVSKIY A， LIAO H Y. YOLOv7： Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition，2023：7464-7475.

[12] WANG C Y， YEH I H， LIAO H Y. Yolov9： Learning what you want to learn using programmable gradient information[J]. arxiv preprint arxiv：2402.13616，2024.

[13] TAN M， PANG R， LE Q V. Efficientdet： Scalable and efficient object detection[C]//In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition，2020：10781-10790.

[14] DUAN K， BAI S， XIE L， et al. Centernet： Keypoint triplets for object detection[C]//In Proceedings of the IEEE/CVF international conference on computer vision， 2019：6569-6578.

[15] TIAN Z， CHU X， WANG X， et al. Fully convolutional one-stage 3d object detection on lidar range images[J]. Advances in Neural Information Processing Systems，2022 （35）：34899-34911.

[16] CARION N， MASSA F， SYNNAEVE G， et al. Zagoruyko S. End-to-end object detection with transformers[C]//In European conference on computer vision，2020 （Aug23）：213-229.

[17] ZHU X， SU W， LU L， et al. Deformable detr： Deformable transformers for end-to-end object detection[J]. arxiv 2020. arxiv preprint arxiv：2010.04159，2010.

[18] MENG D， CHEN X， FAN Z， et al. Conditional detr for fast training convergence[C]//In Proceedings of the IEEE/CVF international conference on computer vision，2021：3651-3660.

[19] CHEN X， WEI F， ZENG G， et al. Conditional detr v2： Efficient detection transformer with box queries[J]. arxiv preprint arxiv：2207.08914，2022.

[20] ZONG Z， SONG G， LIU Y. Detrs with collaborative hybrid assignments training[C]//In Proceedings of the IEEE/CVF international conference on computer vision，2023：6748-6758.

[21] LIU S， LI F， ZHANG H， et al. Dab-detr： Dynamic anchor boxes are better queries for detr[J]. arxiv preprint arxiv：2201.12329，2022.

[22] LI F， ZHANG H， LIU S， et al. Dn-detr： Accelerate detr training by introducing query denoising[C]//In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition，2022：13619-13627.

[23] ZHANG H， LI F， LIU S， et al. Dino： Detr with improved denoising anchor boxes for end-to-end object detection[J]. arxiv preprint arxiv：2203.03605，2022.

[24] LIN T Y， GOYAL P， GIRSHICK R， et al. Focal loss for dense object detection[C]//In Proceedings of the IEEE international conference on computer vision，2017：2980-2988.

[25] LAW H， DENG J. Cornernet： Detecting objects as paired keypoints[C]//In Proceedings of the European conference on computer vision （ECCV），2018：734-750.

[26] HOWARD A G， ZHU M， CHEN B， et al. Mobilenets： Efficient convolutional neural networks for mobile vision applications[J]. arxiv preprint arxiv：1704.04861，2017.

[27] SANDLER M， HOWARD A， ZHU M， et al. Mobilenetv2： Inverted residuals and linear bottlenecks[C]//In Proceedings of the IEEE conference on computer vision and pattern recognition，2018：4510-4520.

[28] HOWARD A， SANDLER M， CHU G， et al. Searching for mobilenetv3[C]//In Proceedings of the IEEE/CVF international conference on computer vision，2019：1314-1324.

[29] TAN M， CHEN B， PANG R， et al. Mnasnet： Platform-aware neural architecture search for mobile[C]//In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition，2019：2820-2828.

[30] HAN K， WANG Y， TIAN Q， et al. Ghostnet： More features from cheap operations[C]//In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition，2020：1580-1589.

[31] LYU R. Super fast and lightweight anchor-free object detection model[J]. real-time on mobile devices，2020.

[32] ZHANG X， ZHOU X， LIN M， et al. Shufflenet： An extremely efficient convolutional neural network for mobile devices[C]//In Proceedings of the IEEE conference on computer vision and pattern recognition，2018：6848-6856.

[33] MA N， ZHANG X， ZHENG H T， et al. Shufflenet v2： Practical guidelines for efficient cnn architecture design[C]// In Proceedings of the European conference on computer vision （ECCV），2018：116-131.

[34] DOLLAR P， WOJEK C， SCHIELE B， et al. Pedestrian detection： An evaluation of the state of the art[J]. IEEE transactions on pattern analysis and machine intelligence， 2011， 34（4）：743-761.

[35] BRUNETTI A， BUONGIORNO D， TROTTA G F， et al. Computer vision and deep learning techniques for pedestrian detection and tracking： A survey[J]. Neurocomputing， 2018， 26（300）：17-33.

[36] LI C， CAO Y， PENG Y. Research on automatic driving target detection based on YOLOv5s[J]. In Journal of Physics： Conference Series，2022， 2171（1）：012047.

[37] SHARMA M， GUPTA A K. An algorithm for target detection， identification， tracking and estimation of motion for passive homing missile autopilot guidance[J]. InMobile Radio Communications and 5G Networks： Proceedings of MRCN，2020， 2021：57-71.

[38] ZHANG K， ZHANG Z， LI Z， et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE signal processing letters. 2016， 23（10）：1499-1503.

[39] DENG J， GUO J， ZHOU Y， et al. Retinaface： Single-stage dense face localisation in the wild[J]. arxiv preprint arxiv：1905.00641，2019.

[40] BAUMGARTNER M， J？魨GER P F， ISENSEE F， et al. nnDetection： a self-configuring method for medical object detection[J]. InMedical Image Computing and Computer Assisted Intervention-MICCAI 2021： 24th International Conference， Strasbourg， France， September 27-October 1， 2021， Proceedings， 2021， Part V（24）：530-539.

[41] SOBEK J， MEDINA I J， MEDINA I B， et al. MedYOLO： A Medical Image Object Detection Framework[J]. Journal of Imaging Informatics in Medicine，2024（6）：1-9.

[42] CHARRON O， LALLEMENT A， JARNET D， et al. Automatic detection and segmentation of brain metastases on multimodal MR images with a deep convolutional neural network[J]. Computers in biology and medicine，2018， 1（95）：43-54.

[43] LI M， KUANG L， XU S， et al. Brain tumor detection based on multimodal information fusion and convolutional neural network[J]. IEEE access，2019，9（7）：180134-180146.

[44] SHI B， BAI X， BELONGIE S. Detecting oriented text in natural images by linking segments[C]//In Proceedings of the IEEE conference on computer vision and pattern recognition，2017：2550-2558.

[45] ZHOU X， YAO C， WEN H， et al. East： an efficient and accurate scene text detector[C]//In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition，2017：5551-5560.

[46] LIAO M， WAN Z， YAO C， et al. Real-time scene text detection with differentiable binarization[J]. In Proceedings of the AAAI conference on artificial intelligence，2020， 34（7）：11474-11481.

[47] LIU Y， CHEN H， SHEN C， et al. Abcnet： Real-time scene text spotting with adaptive bezier-curve network[C]// In proceedings of the IEEE/CVF conference on computer vision and pattern recognition，2020：9809-9818.

[48] LI Z， WANG Y， ZHANG N， et al. Deep learning-based object detection techniques for remote sensing images： A survey[J]. Remote Sensing，2022， 14（10）：2385.