亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的目標(biāo)檢測算法研究與應(yīng)用綜述

        2023-09-25 08:54:40張陽婷黃德啟王東偉賀佳佳
        關(guān)鍵詞:卷積精度特征

        張陽婷,黃德啟,王東偉,賀佳佳

        新疆大學(xué)電氣工程學(xué)院,烏魯木齊830017

        近年來,基于深度學(xué)習(xí)的目標(biāo)檢測算法在計(jì)算機(jī)視覺領(lǐng)域取得了長足的發(fā)展,與傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)相比,這些模型表現(xiàn)出卓越的性能,展示了深度學(xué)習(xí)技術(shù)的潛力。目標(biāo)檢測在于定位和分類物體,并識別物體類別。作為計(jì)算機(jī)視覺領(lǐng)域中的重要研究方向,目標(biāo)檢測發(fā)揮著關(guān)鍵作用,在人臉檢測[1]、行人檢測[2]、視頻檢測[3]、車輛檢測[4]等領(lǐng)域都有著廣泛的應(yīng)用。

        在計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測可以分為傳統(tǒng)目標(biāo)檢測和基于深度學(xué)習(xí)的目標(biāo)檢測兩類。傳統(tǒng)目標(biāo)檢測的算法主要有DP(deformable parts model)[5]、Selective Search(SIFT+SVM)[6]、Oxford-MKL(HOG+Cascade SVM)[7]、NLPR-HOGLBP(LBP/HOG+Latent SVM/Boosting)[8]等。

        但隨著技術(shù)及數(shù)據(jù)的發(fā)展,傳統(tǒng)的檢測算法明顯無法滿足人們的應(yīng)用需求。傳統(tǒng)特征雖然在某些方面可以幫助深度學(xué)習(xí)模型精度的提高,但對于傳統(tǒng)檢測算法來說,仍然存在一定的局限性。第一,大多采用滑動(dòng)窗口算法,其計(jì)算時(shí)間效率低下,為多流程的步驟處理,處理復(fù)雜且準(zhǔn)確度低。第二,特征設(shè)計(jì)與選擇極大程度上依賴于人工,其準(zhǔn)確度、客觀性、魯棒性與泛化性都受到了一定的制約。

        隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)成為計(jì)算機(jī)視覺鄰域研究的焦點(diǎn)。相較于傳統(tǒng)算法,它能夠充分學(xué)習(xí)到圖像的特征,性能大幅提升。2012年,Krizhevsky等人[9]提出AlexNet網(wǎng)絡(luò),是第一個(gè)現(xiàn)代深度卷積網(wǎng)絡(luò)的技術(shù)算法,引起了DCNN的研究熱潮。2014年,Girshick等人[10]提出一種基于卷積神經(jīng)網(wǎng)(convolutional neural network,CNN)的RCNN 網(wǎng)絡(luò),該網(wǎng)絡(luò)是目標(biāo)檢測領(lǐng)域的一個(gè)里程碑。2015 年,Redmon 等人[11]提出一種基于單個(gè)神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測系統(tǒng)YOLO(you only look once:unified,real-time object detection),目標(biāo)檢測技術(shù)有了新的發(fā)展。隨著研究人員深入探索,基于DCNN的目標(biāo)檢測算法突破了傳統(tǒng)算法的局限,使得目標(biāo)檢測進(jìn)入新的時(shí)期。

        隨著目標(biāo)檢測的快速發(fā)展,為滿足不同復(fù)雜應(yīng)用場景的需求,提高檢測精度的同時(shí),也需要優(yōu)化檢測速度以支持實(shí)時(shí)應(yīng)用。因此,在追求更優(yōu)檢測結(jié)果的同時(shí),準(zhǔn)確性與速度兩者同樣重要。文章的主要內(nèi)容如下:(1)綜述了深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的發(fā)展,對目前主流的兩階段目標(biāo)檢測算法架構(gòu)和單階段目標(biāo)檢測算法架構(gòu)的發(fā)展及優(yōu)缺點(diǎn)進(jìn)行歸納。(2)對近些年來用于目標(biāo)檢測的主干網(wǎng)絡(luò)進(jìn)行了分析,并比較了相關(guān)主干網(wǎng)絡(luò)的性能和參數(shù)。(3)總結(jié)了關(guān)于目標(biāo)檢測的數(shù)據(jù)集以及評價(jià)指標(biāo),對比了經(jīng)典算法的檢測精度,總結(jié)經(jīng)典目標(biāo)檢測算法的改進(jìn)策略。(4)對目標(biāo)檢測的應(yīng)用進(jìn)行總結(jié),對其中使用的技術(shù)進(jìn)行了詳細(xì)的分析。

        1 目標(biāo)檢測的體系結(jié)構(gòu)

        目標(biāo)檢測任務(wù)主要是找到圖像中的目標(biāo)位置并對其進(jìn)行分類。基于深度學(xué)習(xí)的目標(biāo)檢測算法代替?zhèn)鹘y(tǒng)的手動(dòng)選取特征,主要可以分為Two-stage 目標(biāo)檢測和One-stage 目標(biāo)檢測。Two-stage 目標(biāo)檢測算法先進(jìn)行區(qū)域生成,該區(qū)域稱為region proposal,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本分類。常見Two-stage 目標(biāo)檢測算法有:R-CNN[10]、Mask R-CNN[12]、SPPNet[13]、Fast R-CNN[14]和Faster R-CNN[15]等。One-stage 目標(biāo)檢測架構(gòu),通過DCNN直接進(jìn)行定位和分類,單階段目標(biāo)檢測可以在一個(gè)階段中可以直接生成目標(biāo)的類別概率和位置的坐標(biāo),不需要生成候選區(qū)域過程。常見One-stage目標(biāo)檢測算法有YOLO系列[11]、SSD[16]、DSSD[17]和FSSD[18]。

        1.1 雙階段目標(biāo)檢測架構(gòu)

        R-CNN:R-CNN(regions with CNN features)使用了DCNN 作為特征提取骨干網(wǎng)絡(luò),模型結(jié)構(gòu)如圖1 所示,但對每個(gè)候選區(qū)域特征的單獨(dú)提取沒有利用DCNN的特征共享能力,造成了大量計(jì)算資源的浪費(fèi),并且會消耗大量的存儲空間。王子琦等人[19]提出的改進(jìn)R-CNN算法,具有更好的泛化能力。

        圖1 R-CNN模型結(jié)構(gòu)Fig.1 R-CNN model structure

        SPPNet:它可以任意尺寸輸入,固定大小輸出,可對任意尺寸提取的特征進(jìn)行池化。如圖2 所示,SPP 層通常被放置在最后一層卷積之后,避免重復(fù)計(jì)算需要特征圖池化的部分,從而減少計(jì)算量,但SPPNet沒有實(shí)現(xiàn)端到端訓(xùn)練,減少了準(zhǔn)確性。

        圖2 SPPNet模型結(jié)構(gòu)Fig.2 SPPNet model structure

        Fast R-CNN:Fast R-CNN是在R-CNN算法的基礎(chǔ)上進(jìn)行了改進(jìn),與R-CNN/SPPNet 相比,減少了存儲空間的占用,具有更高的準(zhǔn)確性,但耗時(shí)較長,無法滿足實(shí)時(shí)應(yīng)用。

        Faster R-CNN:Faster R-CNN 中提出了候選區(qū)域網(wǎng)絡(luò)(RPN),以取代選擇性搜索算法來生成候選區(qū)域,它在精度和速度上都有很大的提高,結(jié)構(gòu)模型如圖3所示。

        圖3 Faster R-CNN模型結(jié)構(gòu)Fig.3 Faster R-CNN model structure

        但需要大量的樣本和計(jì)算資源,在實(shí)時(shí)應(yīng)用場景下速度還不夠快。趙珊等人[19]提出通道分離雙注意力機(jī)制的目標(biāo)檢測算法,通過改進(jìn)Faster+FPN主干網(wǎng)絡(luò)來提高小目標(biāo)的檢測精度,具有較好的應(yīng)用性。

        Mask R-CNN:Mask R-CNN是由Faster R-CNN和語義分割算法FCN 組成,進(jìn)行目標(biāo)分類和邊界框回歸并行的RoI預(yù)測分割,同時(shí)完成目標(biāo)檢測和實(shí)例分割。

        其中的RoIAlign 層使用了雙線性插值來實(shí)現(xiàn)像素級對齊,解決兩次量化導(dǎo)致的特征像素丟失和偏差,性能優(yōu)于Faster R-CNN。林娜等人[21]提出一種基于優(yōu)化Mask-RCNN 的提取算法,對高精度遙感圖像的提取具有實(shí)際的意義。

        Sparse R-CNN:Sparse R-CNN[22]利用了點(diǎn)云(point cloud)和對稱卷積(symmetric convolution)兩種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在減少運(yùn)算量與參數(shù)數(shù)量的同時(shí)達(dá)到更好的精度表現(xiàn)。在保持準(zhǔn)確性的同時(shí)還大大降低了計(jì)算成本,具有很高的實(shí)用價(jià)值兩階段的目標(biāo)檢測算法相較于傳統(tǒng)算法,性能大幅提升,表1總結(jié)了Two-stage目標(biāo)檢測算法優(yōu)勢以及局限。

        表1 Two-stage目標(biāo)檢測算法總體分析Table 1 Overall analysis of Two-stage target detection algorithm

        從表1 可以看出Two-stage 目標(biāo)檢測算法的優(yōu)點(diǎn)(1)準(zhǔn)確性高。能夠準(zhǔn)確地檢測出目標(biāo)物體,并且對于小目標(biāo)檢測效果也比較好。(2)可擴(kuò)展性強(qiáng)??梢酝ㄟ^改變網(wǎng)絡(luò)架構(gòu)和調(diào)整參數(shù)等方式來適應(yīng)不同的應(yīng)用場景和數(shù)據(jù)集。(3)穩(wěn)定性好。在噪聲和遮擋等情況下的表現(xiàn)相對穩(wěn)定。缺點(diǎn)(1)速度慢。需先生成候選框再進(jìn)行后續(xù)處理,檢測速度較慢。(2)復(fù)雜度高。由于需要進(jìn)行多次卷積、池化等操作,部署和使用都會帶來一定的困難。(3)特征重復(fù)計(jì)算。候選框的生成和后續(xù)處理是分開進(jìn)行的,導(dǎo)致重復(fù)計(jì)算。

        因此,在進(jìn)行Two-stage 目標(biāo)檢測算法時(shí)需要在保證模型準(zhǔn)確性的前提下來考慮如何優(yōu)化模型結(jié)構(gòu)和模型參數(shù)的設(shè)置,使得算法既可以獲得較高的檢測精度,又可以滿足實(shí)際應(yīng)用場景下的實(shí)時(shí)性要求。未來的發(fā)展趨勢將會朝向更深、更高效的方向發(fā)展,以提高模型的準(zhǔn)確性和速度。

        1.2 單階段目標(biāo)檢測架構(gòu)

        OverFeat:Sermanet等人[23]改進(jìn)AlexNet提出OverFeat算法,它利用DCNN的特征共享將目標(biāo)分類和目標(biāo)定位集成到一個(gè)網(wǎng)絡(luò)架構(gòu)中。OverFeat在速度上快于RCNN,但精度較低。

        YOLO:YOLO算法是一種端到端的神經(jīng)網(wǎng)絡(luò),YOLO是一種基于全局圖像信息進(jìn)行目標(biāo)預(yù)測的算法。其模型結(jié)構(gòu)如圖4 所示,相較于R-CNN 算法,YOLO 采用統(tǒng)一框架,在速度上更具優(yōu)勢。但它的網(wǎng)格單元只能預(yù)測兩個(gè)邊界框并且只能屬于同一類,因此YOLO不適用于密集的小目標(biāo)。

        圖4 YOLO模型結(jié)構(gòu)Fig.4 YOLO model structure

        SSD:SSD(single shot MultiBox detector)是一種基于單階段目標(biāo)檢測的方法,可以實(shí)現(xiàn)快速、高效、準(zhǔn)確的物體檢測。RCNN 算法和YOLO 算法在速度和準(zhǔn)確性方面有不同的優(yōu)缺點(diǎn)。RCNN 系列具有較高的檢測精度,但檢測的速度較慢。YOLO 雖然檢測速度快,但是在對小目標(biāo)的檢測效果較差。陳欣等人[24]提出了一種改進(jìn)型多尺度特征融合SSD方法,能夠降低小目標(biāo)的漏檢率。為了提高SSD 表達(dá)低層次特征圖的能力,DSSD使用ResNet101作為骨干網(wǎng)絡(luò),超越了以前的SSD框架。同樣,F(xiàn)SSD 將低層次的特征融合到基于SSD 的高層次特征中,旨在短時(shí)間內(nèi)提供多樣性模式集,減少了運(yùn)行時(shí)間。

        YOLOv2:YOLOv2[24]對YOLOv1進(jìn)行了改進(jìn),讓精度得到了提高。加入BN 層之后,能夠更好地對小目標(biāo)的物體進(jìn)行檢測,并且借鑒Faster R-CNN 的做法,YOLOv2 移除了YOLOv1 中的全連接層而采用了卷積核anchor boxes來預(yù)測邊界框,提高了檢測的精度。

        YOLOv3:YOLOv3[26]改進(jìn)了前期YOLO 算法的不足,改良了網(wǎng)絡(luò)的主干,利用多尺度特征圖進(jìn)行目標(biāo)檢測,采用單獨(dú)的神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行處理,將圖像分割成多個(gè)區(qū)域,并預(yù)測每個(gè)區(qū)域的概率和邊界框信息,從而實(shí)現(xiàn)了目標(biāo)檢測的全局感知和局部精度結(jié)合,取得了良好的檢測結(jié)果。

        YOLOv4:該算法由Alexey Bochkovskiy、Chien-Yao Wang 和Hong-Yuan Mark Liao 共同開發(fā),并于2020 年發(fā)布,采用了一系列的優(yōu)化策略,如快速測試、跨層連接和卷積操作等,使得其在保持高精度的同時(shí)可以實(shí)現(xiàn)更快的檢測速度。

        YOLOv5:2020年6月,Jocher等人提出YOLOv5[27]。在輸入端方面,采用了自適應(yīng)錨框計(jì)算和自適應(yīng)圖片放縮技術(shù),以獲取合適的錨框并減少模型計(jì)算量,并提高整個(gè)目標(biāo)檢測算法的性能表現(xiàn)和效果質(zhì)量。張艷等人[28]提出基于金字塔分割注意力與線性變換的輕量化目標(biāo)檢測算法PG-YOLOv5,提高了檢測的精度,更易部署。

        YOLOv7:YOLOv7[28]目標(biāo)檢測算法作為YOLO 系列的最新成果,相較于以往模型具有更高的檢測精度和更快的檢測速度。并且針對不同目標(biāo)檢測任務(wù),具有YOLOv7-w6、YOLOv7-d6等7種大小不同的模型,具有更強(qiáng)的適應(yīng)性,可以應(yīng)用在不同的工作環(huán)境。

        表2總結(jié)One-stage目標(biāo)檢測算法改進(jìn)方式、優(yōu)勢以及局限。從表2 可以看出,從算法性能來說,單階段目標(biāo)檢測算法的優(yōu)點(diǎn)(1)速度快。不需要生成候選框,直接在特征圖上進(jìn)行處理,檢測速度較快。(2)簡單高效。不需要多次卷積、池化等操作,模型較簡單,部署和使用都比較容易。(3)對小目標(biāo)檢測效果好。采用密集檢測的方式,對于小目標(biāo)檢測效果較好。缺點(diǎn)(1)準(zhǔn)確性稍遜:相對于兩階段目標(biāo)檢測,單階段目標(biāo)檢測的準(zhǔn)確性稍遜,對于小目標(biāo)、遮擋嚴(yán)重、光照暗淡等情況下的檢測效果更為有限。(2)容易過擬合。由于可能存在大量背景樣本,容易出現(xiàn)過擬合現(xiàn)象。

        表2 One-stage目標(biāo)檢測算法總體分析Table 2 Overall analysis of One-stage target detection algorithm

        隨著深度學(xué)習(xí)技術(shù)的進(jìn)步,許多單階段目標(biāo)檢測算法的性能已經(jīng)接近或超過兩階段模型,因此在準(zhǔn)確性方面具有一定優(yōu)勢。但較于兩階段算法,其檢測精度還有提升空間,對于小目標(biāo)和密集目標(biāo)的檢測效果可能不如兩階段算法,因此,在應(yīng)用單階段目標(biāo)檢測模型時(shí),需要根據(jù)具體應(yīng)用場景和需求選擇合適的算法,并對其進(jìn)行適當(dāng)?shù)恼{(diào)整和優(yōu)化。

        2 骨干網(wǎng)絡(luò)

        作為目標(biāo)檢測任務(wù)的基本組成部分,骨干網(wǎng)絡(luò)主要負(fù)責(zé)將圖像輸入轉(zhuǎn)換為對應(yīng)的特征圖輸出,并對輸入圖像進(jìn)行特征提取和表示,如表3 所示,總結(jié)比較了復(fù)雜骨干網(wǎng)絡(luò)和輕量級骨干網(wǎng)絡(luò),在表3 中TOP5 精度則是指預(yù)測結(jié)果在前5 名中與標(biāo)簽相同的標(biāo)檢測的骨干網(wǎng)絡(luò),主干網(wǎng)絡(luò)的TOP1 精度指的是在分類任務(wù)中,預(yù)測結(jié)果與標(biāo)簽完全相同的比例;而復(fù)雜骨干網(wǎng)(complex backbone network,CBN)的精度,在不影響輕量級骨干網(wǎng)絡(luò)(lightweight backbone network,LBN)準(zhǔn)確性的前提下,以合適的方式減少參數(shù)。

        表3 復(fù)雜骨干網(wǎng)絡(luò)(CBN)與輕量級骨干網(wǎng)絡(luò)(LBN)的比較Table 3 Comparison of complex backbone network(CBN)and lightweight backbone network(LBN)

        2.1 復(fù)雜的骨干網(wǎng)絡(luò)

        ZFNet:ZFNet 使用非池化層和去卷積層來可視化特征圖方法。ZFNet 主要采用更小的卷積核來增加深度,并利用重疊池化技術(shù)來充分利用每個(gè)像素信息。相對后續(xù)提出深度卷積神經(jīng)網(wǎng)絡(luò),如VGG、ResNet等,ZFNet網(wǎng)絡(luò)結(jié)構(gòu)較淺,可能會限制它在更復(fù)雜任務(wù)上的表現(xiàn)。

        VGGNet:VGGNet具有非常深的網(wǎng)絡(luò)結(jié)構(gòu),并且通過大量的卷積層和池化層來提取圖像特征。但同時(shí)也使用參數(shù)多,耗費(fèi)了更多的計(jì)算機(jī)資源,導(dǎo)致占用的內(nèi)存較多。劉猛等人[45]提出了基于迭代剪枝VGGNet 的方法,與輕量級的骨干網(wǎng)絡(luò)相比,具有較好的性能。

        Inception:Inception 使用密集的并行卷積層和池化操作來提取輸入圖像的高層次特征,并使用多個(gè)分支來處理不同尺度的信息。它通過分解卷積操作從而減少參數(shù)數(shù)量和計(jì)算量,同時(shí)保證了實(shí)現(xiàn)更深層次的網(wǎng)絡(luò)結(jié)構(gòu)。Inceptionv2中采用了更高效的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),提高了模型的性能和穩(wěn)定性。Inceptionv3 則在Inceptionv2的基礎(chǔ)上進(jìn)一步優(yōu)化了模型,加入了inception-residual模塊,以增大模型可訓(xùn)練深度。Inceptionv3相比Inceptionv2具有更高的精度和更好的魯棒性,但也因此在計(jì)算和存儲上需要更多的資源。兩個(gè)模型都在實(shí)際應(yīng)用中得到了廣泛的應(yīng)用。

        ResNet:ResNet 是一個(gè)殘差學(xué)習(xí)模塊,可以加深網(wǎng)絡(luò)的深度,增強(qiáng)了網(wǎng)絡(luò)的特征表示能力。與其他網(wǎng)絡(luò)結(jié)構(gòu)相比,ResNet 有非常深的網(wǎng)絡(luò)層數(shù),被廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)中。

        復(fù)雜骨干網(wǎng)絡(luò)常用于目標(biāo)檢測、圖像分類與分割,這些網(wǎng)絡(luò)可以提取高級語義特征,幫助識別和定位圖像中的目標(biāo)物。這些網(wǎng)絡(luò)可以學(xué)習(xí)人臉圖像中的特征表示,用于識別和驗(yàn)證人臉身份。同時(shí),復(fù)雜骨干網(wǎng)絡(luò)在醫(yī)學(xué)圖像分析領(lǐng)域具有重要應(yīng)用潛力。它們可用于醫(yī)學(xué)圖像的病變檢測、分割和分類,幫助醫(yī)生進(jìn)行疾病診斷和治療決策。復(fù)雜骨干網(wǎng)絡(luò)部署需要綜合考慮硬件資源、網(wǎng)絡(luò)結(jié)構(gòu)、模型優(yōu)化和部署框架等因素。

        2.2 輕量級骨干網(wǎng)絡(luò)

        骨干網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜,參數(shù)眾多,因此需要更多的計(jì)算資源以及更長的訓(xùn)練時(shí)間來達(dá)到較好的效果。而輕量級骨干網(wǎng)絡(luò)可以有效地縮短模型訓(xùn)練和推理所需的時(shí)間,從而提高實(shí)際應(yīng)用的效率和響應(yīng)速度。此外,在一些需要快速響應(yīng)和實(shí)時(shí)決策的場景下,使用輕量級骨干網(wǎng)絡(luò)也能夠減少傳輸和處理延遲,提高用戶體驗(yàn)和數(shù)據(jù)隱私性。

        SqueezeNet:SqueezeNet 的主要設(shè)計(jì)目標(biāo)是在保持較高準(zhǔn)確率的前提下,大幅壓縮模型大小和計(jì)算復(fù)雜度。SqueezeNet 中提出了新的網(wǎng)絡(luò)架構(gòu),稱為Fire Module,進(jìn)行特征提取與分類,其引入的Fire模塊用來增加神經(jīng)元數(shù)量、提取更強(qiáng)特征,但同時(shí)也增加了網(wǎng)絡(luò)的計(jì)算量。王文秀等人[46]提出了一種基于改進(jìn)SqueezeNet 的檢測算法,使模型更加輕量化。

        Xception:Xception 的全稱是Extreme Inception,它基于Inception架構(gòu),通過采用深度可分離卷積替代標(biāo)準(zhǔn)卷積,可以顯著減少卷積層的參數(shù)量,降低了計(jì)算復(fù)雜度和過擬合的風(fēng)險(xiǎn),同時(shí)準(zhǔn)確率也有所提高。黃英來等人[47]提出了一種改進(jìn)Xception 網(wǎng)絡(luò)模型的圖像分類方法,有較高的準(zhǔn)確性,但對于小數(shù)據(jù)集而言,可能會出現(xiàn)過擬合問題。

        MobileNet:MobileNet使用深度可分離卷積(depthwise separable convolution)架構(gòu),減少了需要學(xué)習(xí)的參數(shù)數(shù)量和計(jì)算復(fù)雜度。王志強(qiáng)等人[48]提出MCA-MobileNet模型,具有很高的計(jì)算效率和較小的模型。在移動(dòng)設(shè)備等資源受限的場景下實(shí)現(xiàn)高效的圖像分類和目標(biāo)檢測任務(wù)。MobileNetV2 針對MobileNet 存在的一些問題進(jìn)行了改進(jìn),使用的反向殘差神經(jīng)單元結(jié)構(gòu)使得它在同樣精度下?lián)碛懈〉哪P腕w積,并且其計(jì)算效率也相對更高。

        ShuffleNet:ShuffleNet使用了輕量化的組卷積(group convolution)和通道混洗(channel shuffle)技術(shù),可以在幾乎不損失準(zhǔn)確率的情況下大幅減少模型大小和計(jì)算資源,并且相對于MobileNet 等其他輕量級卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)更優(yōu)。ShuffleNetV2在精度、速度和模型大小等指標(biāo)上均優(yōu)于ShuffleNet,提供了更多的可配置參數(shù),如層間通道數(shù)比例、非線性激活函數(shù)選取等,在實(shí)際使用中可以進(jìn)行更微調(diào)的優(yōu)化。

        PeleeNet:PeleeNet 是一種輕量級卷積神經(jīng)網(wǎng)絡(luò)模型。采用密集連接思想和逐層縮減的方法設(shè)計(jì),緊密地連接預(yù)處理、特征提取和分類輸出而不犧牲準(zhǔn)確度。PeleeNet的參數(shù)量較小,適合在資源受限的環(huán)境下進(jìn)行嵌入式或移動(dòng)圖像分類任務(wù)。劉星等人[49]提出了一種PeleeNet與YOLOv3相結(jié)合的目標(biāo)檢測算法,具有較小的運(yùn)算量和參數(shù)量。但相對于一些較新的深度學(xué)習(xí)網(wǎng)絡(luò),PeleeNet在處理更大且更復(fù)雜的任務(wù)時(shí)精度可能會有所降低。

        輕量級骨干網(wǎng)絡(luò)廣泛應(yīng)用于移動(dòng)設(shè)備上的計(jì)算機(jī)視覺任務(wù),如智能手機(jī)、平板電腦和嵌入式系統(tǒng)等。由于輕量級骨干網(wǎng)絡(luò)具有較低的計(jì)算復(fù)雜度和模型大小,因此在需要實(shí)時(shí)響應(yīng)的應(yīng)用中得到廣泛應(yīng)用,例如視頻監(jiān)控、自動(dòng)駕駛和增強(qiáng)現(xiàn)實(shí)等。輕量級模型可以根據(jù)特定場景的需求進(jìn)行優(yōu)化和定制化。在針對人臉檢測、車輛檢測或工業(yè)場景中的物體檢測等特定任務(wù)中,可以通過設(shè)計(jì)輕量級模型,提高檢測的精度和效率。

        3 數(shù)據(jù)集與評價(jià)指標(biāo)

        3.1 數(shù)據(jù)集

        數(shù)據(jù)集通常包含多張圖片和每張圖片上對應(yīng)的目標(biāo)物體的位置、類別等信息。目標(biāo)檢測數(shù)據(jù)集的構(gòu)建需要大量的人工標(biāo)注和篩選,例如MNIST[47]、CIFAR-10[51]、ImageNet[52]、Open Images[53]、MS COCO[54]、Pascal VOC[55]、Tiny Images[56]、DOTA[57]、WIDER Face[58]、KITTI Vision Benchmark Suite[59]和MVTec AD[60]等數(shù)據(jù)集。這些數(shù)據(jù)集中涵蓋了各種不同的物體類別、尺度、姿態(tài)、光照等變化,以及復(fù)雜的背景干擾和遮擋情況,具有較高的多樣性和代表性。這些數(shù)據(jù)集的廣泛應(yīng)用推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域中的算法開發(fā)和技術(shù)進(jìn)步,在促進(jìn)圖像識別、目標(biāo)檢測、圖像分割等方面取得了重要成果,可以廣泛地驗(yàn)證和優(yōu)化目標(biāo)檢測算法的效果。

        ImageNet 是一個(gè)用于視覺對象識別軟件研究的大型可視化數(shù)據(jù)庫。用于評估算法性能的廣泛而多樣的圖像數(shù)據(jù)集,被認(rèn)為是深度學(xué)習(xí)革命的開始。復(fù)雜的數(shù)據(jù)集可以推動(dòng)實(shí)際應(yīng)用和計(jì)算機(jī)視覺任務(wù)。它使用了WordNet架構(gòu)的變體來對對象進(jìn)行分類,是一個(gè)巨大的視覺訓(xùn)練圖片庫。

        MS COCO 數(shù)據(jù)集是微軟公司提供的一個(gè)大型圖像理解數(shù)據(jù)集,其中包括了各種類型的物體和場景,并且圖像注釋非常詳細(xì)。圖像中包含了各種復(fù)雜的場景和擁有不同顏色、形狀、大小等屬性的物體。每張圖像都標(biāo)注了物體位置、類別、數(shù)量,以及與該物體有關(guān)聯(lián)的語義信息。被廣泛應(yīng)用于圖像識別、目標(biāo)檢測、圖像生成等多個(gè)任務(wù)的研究中。

        PASCAL VOC 數(shù)據(jù)集是經(jīng)典的圖像識別數(shù)據(jù)集。PASCAL VOC 在學(xué)術(shù)界廣泛使用,因?yàn)槠涮峁┝斯_和標(biāo)準(zhǔn)的基準(zhǔn)測試數(shù)據(jù)和評估協(xié)議,可以幫助研究者更好地比較算法的性能。相比其他大型數(shù)據(jù)集如ImageNet和COCO,PASCAL VOC的數(shù)據(jù)量相對較小,適合小規(guī)模模型訓(xùn)練和快速原型開發(fā)。

        DOTA(detection in aerial images)數(shù)據(jù)集是一個(gè)廣泛用于航空圖像目標(biāo)檢測的大規(guī)模數(shù)據(jù)集。它由中國科學(xué)技術(shù)大學(xué)所創(chuàng)建,具有多樣的標(biāo)注信息,這些圖像覆蓋了188個(gè)不同地區(qū)的遙感場景,包括城市、農(nóng)田、港口、森林等各種環(huán)境。包含15個(gè)常見的目標(biāo)類別,如飛機(jī)、船只、車輛、建筑物等。每個(gè)目標(biāo)類別都有不同的形狀和尺寸,從小型車輛到大型建筑物,覆蓋了各種實(shí)際場景中的目標(biāo)。為研究人員提供了一個(gè)豐富和多樣的航空圖像目標(biāo)檢測資源。

        WIDER Face數(shù)據(jù)集應(yīng)用于人臉檢測,它來自于不同的環(huán)境,包括戶外、戶內(nèi)、大規(guī)模人群、極端天氣等。其人臉實(shí)例具有不同的尺度、姿態(tài)、表情和遮擋情況。這些人臉特征增加了數(shù)據(jù)集的難度,要求算法具有較強(qiáng)的魯棒性和泛化能力。其大規(guī)模和多樣性成為人臉檢測算法研究的重要基準(zhǔn)。

        KITTI Vision Benchmark Suite數(shù)據(jù)集是一個(gè)廣泛用于自動(dòng)駕駛和計(jì)算機(jī)視覺任務(wù)的綜合數(shù)據(jù)集。該數(shù)據(jù)集基于真實(shí)世界的道路場景,涵蓋了不同的天氣條件下城市和鄉(xiāng)村道路的交通情況。數(shù)據(jù)集提供了豐富的標(biāo)注信息,包括車輛、行人、自行車等物體的邊界框標(biāo)注,道路標(biāo)記、語義分割等信息。這些標(biāo)注信息可用于算法訓(xùn)練和性能評估。

        MVTec AD 數(shù)據(jù)集針對工業(yè)質(zhì)量控制應(yīng)用中的缺陷檢測任務(wù)。每個(gè)產(chǎn)品類別都包含正常樣本和帶有各種常見和罕見缺陷的異常樣本。數(shù)據(jù)集的圖像是在實(shí)際工業(yè)生產(chǎn)環(huán)境中拍攝的,具有真實(shí)的光照條件和復(fù)雜的背景。這使得數(shù)據(jù)集更貼近實(shí)際應(yīng)用場景,并具有挑戰(zhàn)性。

        表4和表5 分別總結(jié)了One-stage 和Two-stage 檢測算法發(fā)表時(shí)所用的主干網(wǎng)絡(luò)、檢測速率、檢測時(shí)的GPU型號,以及在VOC2007 數(shù)據(jù)集、VOC2012 數(shù)據(jù)集和COCO 數(shù)據(jù)集上的檢測精度?!啊北硎緹o相關(guān)數(shù)據(jù),mAP值中的括號表示以其作為訓(xùn)練集。

        表4 One-stage目標(biāo)檢測算法性能對比Table 4 One-stage target detection algorithm performance comparison

        表5 Two-stage目標(biāo)檢測算法性能對比Table 5 Two-stage target detection algorithm performance comparison

        從表4 和表5 可以得知,One-stage 目標(biāo)檢測算法在同一系列算法中,其檢測精度不斷提高,甚至超過了Two-stage 目標(biāo)檢測算法的精度。另外,在相同的算法架構(gòu)下,主干網(wǎng)絡(luò)模型越深,輸入圖片尺寸越大,檢測精度也越高;但是在相同的GPU環(huán)境下,檢測速度會變慢。

        3.2 評價(jià)指標(biāo)

        評價(jià)指標(biāo)是評價(jià)目標(biāo)檢測算法方法好壞的重要依據(jù)。當(dāng)前,主要的性能評價(jià)標(biāo)準(zhǔn)有IoU(intersection over union)、Precision、Recall、AP和mAP(mean average precision)等指標(biāo)。

        IoU 是一種常用的評價(jià)目標(biāo)檢測算法性能的指標(biāo)。它是通過計(jì)算預(yù)測框與真實(shí)目標(biāo)框之間的重疊面積大小來量化目標(biāo)檢測算法的準(zhǔn)確率。當(dāng)IoU 為1 時(shí),表示預(yù)測框完全覆蓋了真實(shí)目標(biāo)框;當(dāng)IoU為0時(shí),表示兩個(gè)框沒有交集,預(yù)測錯(cuò)誤。不同任務(wù)和數(shù)據(jù)集可能需要不同的IoU閾值,通常情況下IoU閾值越高,算法的準(zhǔn)確率也越高,但同時(shí)漏檢率也會相應(yīng)地增加。

        其中TP表示真正例,F(xiàn)P表示假正例。精度越高,表示被視為目標(biāo)的檢測結(jié)果更準(zhǔn)確,但可能會漏檢部分實(shí)際存在的目標(biāo)。Precision、Recall公式定義如下:其中,Precisioncij表示類別Ci在第j張圖像中的準(zhǔn)確率,Recallcij表示類別Ci在第張圖像中的召回率。其中TP 表示真正例(預(yù)測目標(biāo)正確),F(xiàn)N 表示假反例(未檢測到的目標(biāo)),召回率越高,表示模型檢測到了更多的目標(biāo)。

        類別的平均精度(AP)如下所示:

        mAP 用于描述模型對所有目標(biāo)類別的檢測性能。在實(shí)際場景中,可能會有多個(gè)類別的目標(biāo)檢測,當(dāng)數(shù)據(jù)集有多個(gè)類別{C1,C2,…,Cn} ,mAP如式(4)所示:

        PR 曲線是由準(zhǔn)確率和召回率來構(gòu)建的曲線,可以更準(zhǔn)確地評估檢測器的性能。PR曲線的兩個(gè)指標(biāo)都聚集于正例,PR 曲線越靠近右上角越好。ROC(receiver operating characteristic)曲線是與PR曲線對應(yīng)的接受者操作特征曲線,它是一種比較均衡的評估方法。ROC曲線使用了假陽性率FPR 和真陽性率TPR,與PR 曲線不同的是,ROC曲線越靠近左上角,說明檢測器的性能越好。ROC曲線下面積可以更直觀地表示檢測器的好壞,通常AUC 值介于0.5 和1.0 之間,AUC 值越大表示性能越好。

        ROC 曲線兼顧正例和負(fù)例,適用于評估分類器的整體性能。如果想要評估相同的類別分布下正例的預(yù)測情況,宜選用PR曲線。在實(shí)際的應(yīng)用中,應(yīng)根據(jù)實(shí)際需要選擇PR曲線或ROC曲線。

        4 經(jīng)典目標(biāo)檢測算法的改進(jìn)策略

        4.1 模型結(jié)構(gòu)改進(jìn)

        通過改進(jìn)網(wǎng)絡(luò)模型的結(jié)構(gòu),可以提升目標(biāo)檢測算法的性能。引入更深的網(wǎng)絡(luò)結(jié)構(gòu)或者采用更輕量化的網(wǎng)絡(luò)可以提高算法的感受野和特征表示能力。

        4.1.1 引入更深的網(wǎng)絡(luò)結(jié)構(gòu)

        更深的網(wǎng)絡(luò)結(jié)構(gòu)可以提供更多的層次抽象表達(dá)能力,從而更好地捕捉數(shù)據(jù)中的特征信息,如ResNet、EfficientNet[63]等。這類網(wǎng)絡(luò)結(jié)構(gòu)通常由多個(gè)卷積層、池化層和全連接層組成,與淺層的網(wǎng)絡(luò)結(jié)構(gòu)相比,較深的網(wǎng)絡(luò)結(jié)構(gòu)可以提高模型的表現(xiàn)能力和性能,在一些復(fù)雜的任務(wù)中取得更好的效果。

        因網(wǎng)絡(luò)參數(shù)增加,其可以適應(yīng)各種不同規(guī)模度的圖像,相比較傳統(tǒng)的目標(biāo)檢測方法具有更強(qiáng)的泛化能力。足夠的訓(xùn)練數(shù)據(jù)量可以給予更深的網(wǎng)絡(luò)更強(qiáng)的適應(yīng)性和泛化能力,使其在不同數(shù)據(jù)集、不同場景下都能取得較好的效果,提高目標(biāo)檢測的準(zhǔn)確率和魯棒性。

        4.1.2 輕量級模型結(jié)構(gòu)

        通過設(shè)計(jì)輕量級的模型結(jié)構(gòu),以在保持較高準(zhǔn)確率的同時(shí)減少參數(shù)量和計(jì)算復(fù)雜度。常見的輕量化設(shè)計(jì)包括使用深度可分離卷積、輕量化的模塊設(shè)計(jì)、模型剪枝和模型量化等。

        輕量級模型相對于大型復(fù)雜模型具有更少的參數(shù),因此可以在計(jì)算資源受限的情況下實(shí)現(xiàn)較快的推斷速度。Google 團(tuán)隊(duì)[64]提出了MobileNetV3 模型,在保證精度的同時(shí),使計(jì)算量減少了15%。Han 等人[64]提出了GhostNet 輕量化模型,采用兩個(gè)卷積串聯(lián)的結(jié)構(gòu),利用低精度Full-Resolution Residual Connections(FRRC)解決信息流的問題。輕量級模型結(jié)構(gòu)可以為目標(biāo)檢測任務(wù)的快速實(shí)現(xiàn)、較弱計(jì)算資源設(shè)備上的部署和優(yōu)化等提供解決方案。

        常用的輕量級模型部署有剪枝、量化、蒸餾、模型壓縮等方法。設(shè)計(jì)輕量級的網(wǎng)絡(luò)結(jié)構(gòu)和層次結(jié)構(gòu),例如采用深度可分離卷積、shufflenet等網(wǎng)絡(luò)結(jié)構(gòu)來大大減小網(wǎng)絡(luò)參數(shù)量和計(jì)算負(fù)載。這些方法可以單獨(dú)或組合使用來優(yōu)化模型大小和性能,以適應(yīng)不同的部署環(huán)境。在實(shí)際應(yīng)用中,需要根據(jù)具體要求和限制來選擇適當(dāng)?shù)姆椒ㄟM(jìn)行輕量級模型部署。

        4.2 損失函數(shù)設(shè)計(jì)

        在目標(biāo)檢測領(lǐng)域,改進(jìn)損失函數(shù)是常見的研究主題。改進(jìn)損失函數(shù)可以引導(dǎo)目標(biāo)檢測算法更好地優(yōu)化模型。目標(biāo)檢測中常用的損失函數(shù)有交叉熵?fù)p失、平方損失和Smooth L1損失等,這些損失函數(shù)對于預(yù)測目標(biāo)類別和位置都有一定的優(yōu)劣性。改進(jìn)目標(biāo)檢測損失函數(shù)通常會引入一些正則化項(xiàng)或一些特定的度量指標(biāo),以增強(qiáng)模型的魯棒性并減少過擬合或偏差問題的發(fā)生。這有助于提高目標(biāo)檢測模型在新數(shù)據(jù)集上的泛化能力和可靠性。

        傳統(tǒng)的交叉熵?fù)p失等損失函數(shù)不能很好地適應(yīng)物體檢測任務(wù),而改進(jìn)后的損失函數(shù)可以更好地判斷目標(biāo)是否存在、位置是否準(zhǔn)確,從而提高模型的準(zhǔn)確度。并且有助于解釋模型處理過程中所做的決策,進(jìn)一步提高目標(biāo)檢測算法的可解釋性。修改成本函數(shù)的策略可以使模型學(xué)習(xí)更好地利用數(shù)據(jù),從而在相同時(shí)間內(nèi)獲得更快和更穩(wěn)定的收斂速度。

        4.3 區(qū)域生成方法改進(jìn)

        區(qū)域生成方法用于生成候選目標(biāo)框,改進(jìn)這一步驟可以提高目標(biāo)檢測算法的效率和準(zhǔn)確性。一種常見的策略是引入基于Anchor的方法,如Faster R-CNN、RetinaNet等,通過設(shè)計(jì)不同尺度和長寬比的Anchor 來生成候選框。另外,也有一些基于候選框生成的方法,如Selective Search、EdgeBoxes等方法,可以用于改進(jìn)區(qū)域生成的效果。

        改進(jìn)區(qū)域生成方法的輸入條件更加靈活和豐富,其圖像生成過程也可以提供更多的中間結(jié)果以及分別對應(yīng)不同目標(biāo)屬性的部分圖像信息,如顏色、紋理、形狀等。這使得該方法具有更強(qiáng)的可控性和可解釋性,在特定任務(wù)和應(yīng)用場景下具有較好的效果。

        4.4 上下文信息利用

        利用目標(biāo)周圍的上下文信息可以提升目標(biāo)檢測算法的準(zhǔn)確性。一種常見的策略是引入注意力機(jī)制,通過引入注意力機(jī)制,使模型能夠自動(dòng)學(xué)習(xí)重要區(qū)域和關(guān)鍵特征。此外,特征融合策略也可以用于擴(kuò)展模型的感受野并提升目標(biāo)檢測算法的性能。

        4.4.1 引入注意力機(jī)制

        通過引入注意力機(jī)制模塊,針對不同的目標(biāo)及環(huán)境特征,自適應(yīng)選擇和調(diào)整重要區(qū)域和特征,可以幫助模型在處理圖像時(shí)關(guān)注重要的目標(biāo)區(qū)域,從而提高檢測的精度和魯棒性。

        全局注意力(global attention):全局注意力是將圖像整體視為一個(gè)注意力矩陣,通過對整個(gè)圖像進(jìn)行權(quán)重計(jì)算,從而實(shí)現(xiàn)不同程度的區(qū)域加權(quán)。通常采用全連接層或卷積層實(shí)現(xiàn),能夠有效捕獲圖像基本特征和背景信息,但不能很好地處理局部目標(biāo)和噪聲。

        自適應(yīng)注意力(adaptive attention):自適應(yīng)注意力是指根據(jù)圖像的內(nèi)容和上下文,自動(dòng)調(diào)整注意力矩陣的大小和形狀,以更好地關(guān)注重要的目標(biāo)區(qū)域。比較常見的是基于空間注意力、通道注意力和特征注意力進(jìn)行計(jì)算和調(diào)整。

        多層次注意力(multilevel attention):多層次注意力通常將不同深度和尺度的特征分別建立注意力模塊,并分別計(jì)算每個(gè)位置和通道的權(quán)重,然后將所有注意力結(jié)果融合起來,并通過反饋機(jī)制對模型進(jìn)行優(yōu)化。能夠較好地處理不同尺度和復(fù)雜場景下的目標(biāo)檢測問題。

        注意力機(jī)制能夠自動(dòng)調(diào)整關(guān)注區(qū)域,在面對不同場景和任務(wù)時(shí)具有較好的適應(yīng)能力,能夠提高模型的泛化能力和可遷移性。

        4.4.2 特征融合策略

        特征融合是利用上下文信息進(jìn)行目標(biāo)檢測時(shí)廣泛應(yīng)用的一種策略。它將不同來源和不同維度的特征組合起來,以增強(qiáng)檢測模型對目標(biāo)的判別能力和魯棒性。常見的特征融合方法包括以下幾種:

        早期特征融合(early fusion):將不同分辨率和抽象級別的特征在輸入層直接拼接或相加,構(gòu)造多通道特征進(jìn)行統(tǒng)一處理。優(yōu)點(diǎn)是簡單易用,可以較好地保留圖像的粗略低級特征,但同時(shí)也容易導(dǎo)致過度擬合和冗余計(jì)算。

        晚期特征融合(late fusion):將不同層次或位置的特征分開提取、獨(dú)立處理,再在輸出層或后續(xù)模塊中融合,具有較好的靈活性和可擴(kuò)展性。

        注意力機(jī)制特征融合(attention-based fusion):通過引入學(xué)習(xí)到的注意力權(quán)重,自適應(yīng)選擇和調(diào)整不同特征的貢獻(xiàn)和重要性,從而實(shí)現(xiàn)針對性融合。

        特征融合是一種有力地利用上下文信息的策略,可以有效提高目標(biāo)檢測算法的性能和魯棒性,但需要根據(jù)具體應(yīng)用場景和數(shù)據(jù)情況選擇合適的方法和參數(shù)。

        4.5 數(shù)據(jù)增強(qiáng)技術(shù)

        通過合理的數(shù)據(jù)增強(qiáng)策略可以增加目標(biāo)檢測算法的訓(xùn)練樣本,提升模型的魯棒性和泛化能力。常見的數(shù)據(jù)增強(qiáng)技術(shù)包括隨機(jī)裁剪、縮放、旋轉(zhuǎn)、顏色變換等,還可以結(jié)合圖像語義分割、實(shí)例分割等任務(wù)進(jìn)行數(shù)據(jù)增強(qiáng)。

        5 應(yīng)用現(xiàn)狀

        目標(biāo)檢測技術(shù)已經(jīng)取得了很大的進(jìn)展,在圖像識別、目標(biāo)跟蹤、智能安防等應(yīng)用場景中顯示出極高的精度和效率,為實(shí)現(xiàn)智能化時(shí)代的到來奠定了堅(jiān)實(shí)的基礎(chǔ)。目標(biāo)檢測根據(jù)實(shí)際場景需求的不同,在技術(shù)的實(shí)現(xiàn)上也有所不同。在現(xiàn)實(shí)的應(yīng)用場景中,目標(biāo)檢測具有非常重要的現(xiàn)實(shí)意義,具有廣泛的應(yīng)用前景。本章主要列舉了當(dāng)前目標(biāo)檢測的重要應(yīng)用。目標(biāo)檢測技術(shù)的研究方向正在朝著高效、準(zhǔn)確和實(shí)時(shí)性方面發(fā)展,應(yīng)用場景也日益多樣化和廣泛。

        5.1 人臉檢測

        人臉檢測作為目標(biāo)檢測中最重要的應(yīng)用之一,與人們的日常生活密切相連。然而在現(xiàn)實(shí)世界中,由于人臉表征的多樣性、外部環(huán)境光照和手勢等因素的影響,人臉檢測任務(wù)具有挑戰(zhàn)性。

        傳統(tǒng)的人臉檢測主要基于滑動(dòng)窗口和手工特征提取器,利用人臉模板特征與檢測到的圖像特征進(jìn)行滑動(dòng)匹配,以確定人臉的位置。代表方法是Viola和Jones于2001年設(shè)計(jì)的VJ檢測算法[65]。這種算法使用了Haar特征和級聯(lián)AdaBoost 分類器構(gòu)建檢測器,能夠大大提高檢測速度和準(zhǔn)確率。隨著深度學(xué)習(xí)算法的逐漸發(fā)展,基于深度學(xué)習(xí)的人臉檢測技術(shù)也越來越成熟。

        隨著卷積神經(jīng)網(wǎng)絡(luò)的深入研究,基于卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測取得了很好的檢測結(jié)果。Najib等人[67]提出一種SSH,通過在不同尺度的特征圖上進(jìn)行檢測來實(shí)現(xiàn)多尺度人臉檢測,提高了檢測速度。Wu等人[68]建立了模板匹配方法,豐富了檢測模型。Jiang等人[69]在Faster R-CNN的基礎(chǔ)上提出了Face R-CNN,并添加了基于Softmax的中心損失,性能得到了提升,但檢測的速度較慢,無法滿足人臉檢測對速度的極高要求。Bazarevsky等人[70]提出了一種用于實(shí)時(shí)人臉檢測的輕量級網(wǎng)絡(luò)模型,具有較快的推理速度和較小的模型尺寸。在今后的研究中,隨著技術(shù)水平的發(fā)展,研究結(jié)果也將更加貼近實(shí)際應(yīng)用。

        5.2 顯著目標(biāo)檢測

        顯著性目標(biāo)檢測通過模仿人的視覺感知系統(tǒng),尋找最吸引視覺注意的目標(biāo),已被廣泛應(yīng)用于圖像理解、語義分割、目標(biāo)跟蹤等計(jì)算機(jī)視覺任務(wù)中?;谏疃葘W(xué)習(xí)的顯著性目標(biāo)檢測方向大致分為基于RGB 圖像、基于RGB-D/T圖像以及基于光場圖像的顯著性目標(biāo)檢測。

        1998年,Itti等人[71]提出了顯著目標(biāo)檢測方法,基于手工提取圖像特征進(jìn)行顯著性目標(biāo)檢測也得到了一定的發(fā)展。隨著深度學(xué)習(xí)的發(fā)展,此后的研究主要集中于基于深度學(xué)習(xí)技術(shù)開展。李俊文等人[72]提出一個(gè)輕量級顯著性目標(biāo)檢測模型,提高了檢測效率。Sheng等人[73]提出了一種輕量級MobileFaceNets模型,適用于在移動(dòng)設(shè)備上進(jìn)行高準(zhǔn)確度的實(shí)時(shí)人臉驗(yàn)證任務(wù)。與傳統(tǒng)手工特征提取方法相比,基于深度學(xué)習(xí)的輕量級目標(biāo)檢測模型可以充分利用大規(guī)模數(shù)據(jù)進(jìn)行模型訓(xùn)練,實(shí)現(xiàn)更精準(zhǔn)的特征提取和顯著目標(biāo)定位,具備更強(qiáng)的應(yīng)對復(fù)雜多變場景的能力。

        5.3 行人檢測

        行人檢測技術(shù)在智能交通系統(tǒng)、智能安防監(jiān)控、智能機(jī)器人等領(lǐng)域均擁有廣泛的應(yīng)用前景和價(jià)值,已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的重要研究方向之一。由于行人物體更容易受到人體姿態(tài)、外界光照和視角的影響,因此檢測難度也較高。

        在早期時(shí),行人檢測主要依賴于手工設(shè)計(jì)的特征進(jìn)行目標(biāo)表征,利用邊緣的方向和強(qiáng)度信息來描述行人的形狀和外觀。然而,手工特征只能利用行人外觀等淺層信息作為判斷依據(jù),這容易導(dǎo)致誤檢測和低準(zhǔn)確率問題的發(fā)生。

        隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,行人檢測引起了廣泛關(guān)注。Mao 等人[72]提出了HyperLearner,通過修改錨點(diǎn)的尺度來增強(qiáng)對行人和背景的識別。對于行人的多尺度問題,Li等人[75]根據(jù)大尺度和小尺度的差異設(shè)計(jì)了兩個(gè)子網(wǎng)絡(luò)進(jìn)行并行檢測,通過使用尺度感知來合并兩個(gè)子網(wǎng)絡(luò)。陳寧等人[76]對遮擋情形下的行人問題進(jìn)行了研究,總結(jié)了不同的方法。Tian等人[77]提出了DeepParts方法,將人體分為多個(gè)部分檢測后再進(jìn)行合并,解決了行人遮擋問題。Wang等人[78]提出了一種基于密集連接的輕量級目標(biāo)檢測網(wǎng)絡(luò)模型,適用于移動(dòng)設(shè)備上的實(shí)時(shí)行人檢測?;诰矸e神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在行人檢測領(lǐng)域的發(fā)展中具有重要推動(dòng)作用。

        5.4 遙感圖像檢測

        遙感圖像檢測是指利用遙感技術(shù)獲取的衛(wèi)星或航空影像數(shù)據(jù)進(jìn)行物體識別和分類的過程。遙感圖像檢測可以應(yīng)用于土地利用、環(huán)境監(jiān)測、城市規(guī)劃等領(lǐng)域,為決策者提供重要的信息支持。常見的遙感圖像檢測任務(wù)包括建筑物檢測、道路提取、農(nóng)作物識別、水域分類等。

        通過遙感技術(shù),可以獲取地表、海洋、大氣等多種地球物理參數(shù)信息,為資源調(diào)查和環(huán)境監(jiān)測提供了可靠數(shù)據(jù)支持。張大奇等人[79]提出了一種U-PSP-Net結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),證明了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在含陰影的冰川遙感影像中的可行性和有效性。李坤亞等人[80]改進(jìn)YOLOv5的遙感圖像目標(biāo)檢測算法,有效提高了檢測精度。Li等人[81]總結(jié)了基于光學(xué)遙感影像的船舶檢測與分類方法存在的問題和未來發(fā)展趨。遙感圖像檢測對農(nóng)田檢測、城市規(guī)劃、城市更新、軍事偵察等領(lǐng)域具有重要意義。

        6 總結(jié)與展望

        本文對基于深度學(xué)習(xí)的目標(biāo)檢測方法進(jìn)行了全面的回顧,主要包括兩個(gè)方面:檢測架構(gòu)和骨干網(wǎng)絡(luò)。綜合兩階段目標(biāo)檢測方法和單階段目標(biāo)檢測方法,總結(jié)歸納出它們各自的優(yōu)缺點(diǎn)。介紹了數(shù)據(jù)集和評價(jià)指標(biāo),并總結(jié)了目標(biāo)檢測的重要應(yīng)用。隨著目標(biāo)檢測技術(shù)的逐步發(fā)展,檢測精度在目前有了逐漸的提升。但隨著應(yīng)用場景的多元化發(fā)展,目標(biāo)檢測技術(shù)在改進(jìn)模型算法、數(shù)據(jù)預(yù)處理、深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計(jì)、模型優(yōu)化等方面仍然存在多種挑戰(zhàn)和待解決的問題。綜合當(dāng)前目標(biāo)檢測的研究現(xiàn)狀,對今后的研究做出如下展望:

        (1)多元化數(shù)據(jù)集:單一數(shù)據(jù)集包含信息較少,限制網(wǎng)絡(luò)作用發(fā)揮,檢測的效果較弱,建立多元化的數(shù)據(jù)集,可以用來訓(xùn)練多領(lǐng)域目標(biāo)檢測模型是未來的研究方向。

        (2)輕量化模型:目前存在的網(wǎng)絡(luò)模型架構(gòu)通常復(fù)雜、參數(shù)眾多,難以滿足邊緣設(shè)備實(shí)時(shí)檢測的需求。因此,在保證高準(zhǔn)確度的前提下,提升檢測速度,讓模型變得更加輕量化,顯得尤為重要。為此,研究人員正在積極探索諸如壓縮算法、量化方法、深度可分離卷積等輕量級技術(shù),來降低模型的計(jì)算量和存儲空間占用,從而使目標(biāo)檢測技術(shù)能夠更好地適應(yīng)實(shí)際場景中的需求。

        (3)小目標(biāo)檢測:隨著深度卷積神經(jīng)網(wǎng)絡(luò)的普及,基于深度學(xué)習(xí)的目標(biāo)檢測方法已成為主流。然而,一些方法在小目標(biāo)檢測方面存在較差的表現(xiàn),并且通過深層網(wǎng)絡(luò)對小目標(biāo)進(jìn)行特征提取容易出現(xiàn)語義信息丟失的問題。利用超分辨率重建來豐富小目標(biāo)的細(xì)節(jié)信息,如SRCNN、VDSR、EDSR等方法使用卷積層來學(xué)習(xí)低分辨率圖像的映射,對低分辨率圖像進(jìn)行學(xué)習(xí)和重建,能夠提高重建圖像的視覺質(zhì)量和對小目標(biāo)細(xì)節(jié)的還原能力。

        (4)多模態(tài)目標(biāo)檢測:多模態(tài)數(shù)據(jù)融合學(xué)習(xí)方法在提升微弱目標(biāo)檢測效果方面表現(xiàn)突出,相對于單一模態(tài)具有更加豐富的目標(biāo)信息,在許多應(yīng)用場景中有著廣泛的應(yīng)用。然而,多模態(tài)數(shù)據(jù)融合也會帶來計(jì)算量的增加,從而使得在計(jì)算資源受限的環(huán)境下難以實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測效果。因此,如何在保證目標(biāo)檢測準(zhǔn)確率的前提下,提高目標(biāo)檢測速度以滿足實(shí)時(shí)監(jiān)測需求,成為了未來發(fā)展的重要挑戰(zhàn)。為此,研究者正在積極探索一系列優(yōu)化策略,諸如網(wǎng)絡(luò)剪枝、混合精度訓(xùn)練、硬件加速等,以解決多模態(tài)數(shù)據(jù)融合過程中的瓶頸問題,推進(jìn)目標(biāo)檢測技術(shù)在實(shí)踐中的廣泛應(yīng)用。

        猜你喜歡
        卷積精度特征
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        如何表達(dá)“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠的四個(gè)特征
        基于DSPIC33F微處理器的采集精度的提高
        電子制作(2018年11期)2018-08-04 03:25:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        GPS/GLONASS/BDS組合PPP精度分析
        改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        国产小车还是日产的好 | 少妇三级欧美久久| 无码人妻少妇久久中文字幕蜜桃 | 亚洲最大在线视频一区二区| 日本在线播放不卡免费一区二区| 国产黄色一级到三级视频| 全国一区二区三区女厕偷拍| 亚洲精品国产成人久久av| 日韩少妇人妻中文字幕| 欧美精品videosse精子| 97人人超碰国产精品最新| 国产精品免费久久久久软件 | 呦泬泬精品导航| 国产一级黄色av影片| 亚洲一区在线二区三区| 中文字幕免费人成在线网站| 女人和拘做受全程看视频| 午夜dj在线观看免费视频 | 亚洲成av人片天堂网| 日本高清aⅴ毛片免费| 人妻在线中文字幕| 亚洲av中文无码乱人伦在线咪咕| 麻豆视频在线观看免费在线观看| 久久精品亚洲熟女av麻豆| 日韩经典午夜福利发布| 国精产品一区一区三区有限公司杨 | 84pao强力打造免费视频34 | 又爽又黄又无遮挡的激情视频| 国产精品黄网站免费观看| 亚洲国产剧情在线精品视| 国产精品国产三级在线专区| 久久综合国产精品一区二区| 美女网站免费观看视频| 日本高清h色视频在线观看| 呻吟国产av久久一区二区| 成人无码a级毛片免费| 深夜黄色刺激影片在线免费观看| 风韵丰满熟妇啪啪区老熟熟女| 人妻聚色窝窝人体www一区| 国产亚洲精品成人无码精品网站| 日韩视频午夜在线观看|