亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述*

2022-04-12 08:37:40包曉敏王思琪

傳感器與微系統(tǒng) 2022年4期

包曉敏，王思琪

(浙江理工大學(xué) 信息學(xué)院，浙江杭州 310018)

0 引言

目標(biāo)檢測(cè)(object detection)[1]將待測(cè)目標(biāo)的分割、識(shí)別、語義等高級(jí)視覺問題合為一體，對(duì)圖像中的物體進(jìn)行識(shí)別和定位，其準(zhǔn)確性和實(shí)時(shí)性是衡量整個(gè)計(jì)算機(jī)視覺系統(tǒng)的一項(xiàng)重要標(biāo)準(zhǔn)。目標(biāo)檢測(cè)的目的在于解決圖像的實(shí)例分割[2]和定位框表示，所以，對(duì)圖像進(jìn)行目標(biāo)檢測(cè)不僅要確定目標(biāo)的類別，還要判斷出其像素范圍[3]。當(dāng)前，目標(biāo)檢測(cè)被廣泛應(yīng)用于不同的領(lǐng)域[4～7]，例如農(nóng)業(yè)生產(chǎn)生活中的害蟲檢測(cè)[5]，醫(yī)學(xué)領(lǐng)域中對(duì)病變區(qū)域的檢測(cè)[6]，常見的視頻監(jiān)控[7]等等。

盡管傳統(tǒng)的機(jī)器學(xué)習(xí)檢測(cè)[8]方法在目標(biāo)識(shí)別方面取得了較好的成果，但依舊存在著不足：1)采用基于滑動(dòng)窗口的區(qū)域選擇策略，存在運(yùn)行成本和時(shí)間復(fù)雜度高等問題；2)由于待測(cè)目標(biāo)成像時(shí)存在多樣性變化和干擾，手動(dòng)選擇特征沒有較好的魯棒性。這使得傳統(tǒng)目標(biāo)檢測(cè)方法的準(zhǔn)確性和實(shí)時(shí)性存在著許多挑戰(zhàn)。如何能夠?qū)ξ矬w進(jìn)行精準(zhǔn)、實(shí)時(shí)檢測(cè)成為了當(dāng)前目標(biāo)檢測(cè)算法研究的關(guān)鍵問題。2012年的ILSVRC圖像分類比賽中，Alex提出了著名的AlexNet卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型[8]在極大地提高了圖片分類的準(zhǔn)確率同時(shí)縮短了檢測(cè)時(shí)間，擺脫了傳統(tǒng)檢測(cè)方法的困境，自此深度學(xué)習(xí)技術(shù)開始走進(jìn)主流學(xué)術(shù)界。與傳統(tǒng)的提取特征方法不同，深度學(xué)習(xí)依靠大量的數(shù)據(jù)，通過卷積神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)獲得有用的特征信息，從而對(duì)物體進(jìn)行更高精度的分類識(shí)別[9]。

1 兩階段深度學(xué)習(xí)算法

傳統(tǒng)的目標(biāo)檢測(cè)方法存在著魯棒性差、計(jì)算成本高等缺點(diǎn)，國內(nèi)外的學(xué)者們不斷在目標(biāo)檢測(cè)領(lǐng)域進(jìn)行探索，希望找到新的方法突破這一瓶頸。兩階段深度學(xué)習(xí)算法[15]通過選擇性搜索、邊界箱等常見區(qū)域選擇方法生成候選區(qū)域，接著在候選區(qū)域與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合提取特征并進(jìn)行回歸分類。這一類檢測(cè)算法需要分兩步完成，即先產(chǎn)生候選區(qū)域再進(jìn)行特征提取，被稱為兩階段深度學(xué)習(xí)算法，其具有準(zhǔn)確度高但速度相對(duì)慢的特點(diǎn)，典型的基于候選區(qū)域的檢測(cè)算法有區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-CNN，R-CNN)、空間金字塔池化網(wǎng)絡(luò)(spatial pyramid pooling-Net,SPP-Net)[16]、快速區(qū)域卷及神經(jīng)網(wǎng)絡(luò)(fast R-CNN)、快速區(qū)域卷及神經(jīng)網(wǎng)絡(luò)(faster R-CNN)和掩模卷積神經(jīng)網(wǎng)絡(luò)(mask R-CNN)。

1.1 R-CNN

在2014年，Girshick R等人[17]提出了R-CNN模型并在數(shù)據(jù)集Pascal VOC 2012上，將目標(biāo)檢測(cè)的重要驗(yàn)證指標(biāo)均值平均精度(mean average precision，mAP)提升到了53.3 %。該成果比這以前的最好結(jié)果提升了30 %，引起了學(xué)術(shù)界的廣泛關(guān)注。

R-CNN算法的具體流程為：1)通過選擇搜索(selective search)網(wǎng)絡(luò)對(duì)圖像的紋理、顏色等特征進(jìn)行分析，選取出2 000個(gè)大小不同的候選區(qū)域；2)對(duì)特征向量進(jìn)行歸一化處理；3)通過深度網(wǎng)絡(luò)對(duì)輸入的候選區(qū)域進(jìn)行前向計(jì)算獲得特征；4)訓(xùn)練支持向量機(jī)(support vector machine,SVM)分類器進(jìn)行分類；5)使用回歸器精細(xì)修正每個(gè)候選框的位置。圖1為R-CNN算法示意圖。

圖1 R-CNN算法示意[18]

相較于傳統(tǒng)的物體檢測(cè)方法，R-CNN通過選擇性搜索確定候選區(qū)域來進(jìn)行目標(biāo)檢測(cè)，從根本上提高了檢測(cè)效率。但是該算法依舊存在著明顯的缺點(diǎn)：1)候選區(qū)需要進(jìn)行歸一化處理，這容易導(dǎo)致圖像信息缺失；2)資源利用率低，在分類和回歸操作時(shí)CNN模型的參數(shù)沒有進(jìn)行同步修改；3)每一個(gè)候選區(qū)域都需要輸入到CNN中提取特征，占用大量磁盤空間，時(shí)間復(fù)雜度高。在數(shù)據(jù)集 Pascal VOC2007中，基于VGG卷積神經(jīng)網(wǎng)絡(luò)模型的R-CNN算法，檢測(cè)一張圖像的平均時(shí)間高達(dá)47 s。

1.2 SSP-Net

在2015年，He K M等人[16]在R-CNN模型的基礎(chǔ)上進(jìn)行改進(jìn)提出了SSP-Net模型，其在全連接層前接入了金字塔池化(spatial pyramid pooling，SPP)層來適應(yīng)任何尺寸的圖像輸入，解決了R-CNN模型由于歸一化導(dǎo)致的信息缺失問題。圖2為SPP-Net算法示意圖。

圖2 SPP-Net算法示意[19]

SPP-Net對(duì)R-CNN的特征提取步驟進(jìn)行了修改，這樣特征提取不再需要每個(gè)候選區(qū)域都經(jīng)過CNN，只需要將整張圖片輸入。感興趣區(qū)域(region of interest,ROI)特征可以直接從特征圖獲取，使得運(yùn)行速度得到了極大的提高。該算法仍然使用的是R-CNN框架，所以缺點(diǎn)十分明顯，在運(yùn)行時(shí)占用巨大的磁盤資源。

1.3 Fast R-CNN

在2015年， Girshick R團(tuán)隊(duì)[18]在之前的基礎(chǔ)上提出了Fast R-CNN算法，解決了之前存在的問題：1)訓(xùn)練分步過多導(dǎo)致訓(xùn)練速度慢，通過對(duì)整幅圖像進(jìn)行卷積操作，再從特征映射中選擇候選區(qū)域，極大地提高了訓(xùn)練速度；2)訓(xùn)練時(shí)間和內(nèi)存消耗比較大，R-CNN在訓(xùn)練SVM和回歸的時(shí)候需要用網(wǎng)絡(luò)訓(xùn)練的特征作為輸入，將特征保存在磁盤上再讀入。

Fast R-CNN結(jié)合了SPP-Net網(wǎng)絡(luò)的優(yōu)點(diǎn)，將R-CNN網(wǎng)絡(luò)進(jìn)行改進(jìn)：1)對(duì)整張待測(cè)圖像進(jìn)行卷積操作，減少重復(fù)計(jì)算；2)整張待測(cè)圖像歸一化后送入深度網(wǎng)絡(luò)，通過最后少數(shù)幾層處理每個(gè)候選框，提升了運(yùn)行速度；3)引入多任務(wù)損失(multi-task loss)函數(shù)，用深度網(wǎng)絡(luò)統(tǒng)一實(shí)現(xiàn)類別判斷和位置調(diào)整，減少內(nèi)存占用。圖3為Fast R-CNN算法示意圖。

學(xué)生天天與數(shù)學(xué)打交道，卻對(duì)生活中的數(shù)學(xué)熟視無睹，對(duì)數(shù)學(xué)缺乏興趣，解決實(shí)際問題的能力得不到鍛煉和提高。教學(xué)《可能性》時(shí)：以“分組摸球”比賽來探索可能性大小與什么有關(guān)，每組盒中有10個(gè)球，球的大小一樣(各組盒中放的球顏色數(shù)量不同），每次摸一個(gè)球，然后把球放進(jìn)去，攪拌后再摸。小組內(nèi)每人摸2次，組長統(tǒng)計(jì)好結(jié)果，然后全班統(tǒng)計(jì)各組摸到顏色，評(píng)出摸到紅色多的組獲勝，引導(dǎo)學(xué)生觀察、分析實(shí)驗(yàn)獲得的數(shù)據(jù)，討論交流發(fā)現(xiàn)：可能性的大小與在總數(shù)中所占數(shù)量的多少有關(guān)，在對(duì)比中更好地體會(huì)確定事件和不確定事件。

圖3 Fast R-CNN算法示意[20]

在同樣使用最大規(guī)模的網(wǎng)絡(luò)的情況下，在數(shù)據(jù)集PASCAL VOC 2007上進(jìn)行測(cè)試發(fā)現(xiàn)，F(xiàn)ast R-CNN相較于R-CNN的準(zhǔn)確率相似，但在訓(xùn)練和測(cè)試時(shí)間上有了明顯的縮短。表1為在VOC2007數(shù)據(jù)集上，基于VGG—16卷積網(wǎng)絡(luò)模型的R-CNN與Fast R-CNN訓(xùn)練和測(cè)試性能對(duì)比。

表1 基于VGG—16的R-CNN與Fast R-CNN算法性能對(duì)比

1.4 Faster R-CNN

在2015年，Ren S Q團(tuán)隊(duì)[19]在之前的基礎(chǔ)上提出了Faster R-CNN算法，該算法在簡單網(wǎng)絡(luò)的目標(biāo)檢測(cè)速度達(dá)到17 fps，在PASCAL VOC上準(zhǔn)確率為59.9 %，而復(fù)雜網(wǎng)絡(luò)下達(dá)到5 fps，準(zhǔn)確率78.8 %。

該算法將目標(biāo)檢測(cè)的4個(gè)基本步驟都整合在了一個(gè)深度網(wǎng)絡(luò)中，提高了算法的綜合性能，尤其在檢測(cè)速度方面。Faster R-CNN算法的具體流程：1)將待測(cè)圖像輸入卷積網(wǎng)絡(luò)中，生成特征映射；2)使用區(qū)域投標(biāo)網(wǎng)絡(luò)[20](region proposal network，RPN)，在生成候選區(qū)域的同時(shí)產(chǎn)生錨點(diǎn)(anchors)，通過判別函數(shù)判斷并使用邊框回歸調(diào)整Anchors以獲取準(zhǔn)確的候選區(qū)域, 圖4為RPN算法示意圖；3)通過RoI池化層，解決最后輸入全連接層的特征圖的尺寸大小不同的問題;4)通過完全連接層來分別判斷物體的類別和精準(zhǔn)位置。由于采用RPN代替Fast R-CNN算法的選擇性搜索方法，在檢測(cè)率相同的情況下，F(xiàn)aster R-CNN算法的檢測(cè)速度是之前的10倍。圖5為Faster R-CNN算法示意圖。

圖4 RPN算法示意[21]

圖5 Faster R-CNN算法示意[21]

1.5 Mask R-CNN

2017年He K M等人[22]在基于Faster R-CNN的基礎(chǔ)上進(jìn)行改進(jìn)提出了Mask R-CNN，該算法可以精確到像素級(jí)輸出，高質(zhì)量完成分割任務(wù)。此外兩者的輸出也有所不同。Faster R-CNN輸出為種類標(biāo)簽和box坐標(biāo)，而Mask R-CNN則會(huì)增加一個(gè)輸出，即物體掩膜(object mask)。

Mask R-CNN具有以下特點(diǎn)：1)通過引入感興趣區(qū)域聚集(RoI Align)層來替代Faster R-CNN采用的高校池以解決僅通過池化直接采樣導(dǎo)致特征圖譜在原圖的對(duì)應(yīng)位置與真實(shí)位置有所偏差的問題；2)多任務(wù)損失函數(shù)包括分類誤差、回歸誤差、分割誤差，即將識(shí)別預(yù)測(cè)和分割預(yù)測(cè)分割，掩膜分支針對(duì)每個(gè)RoI產(chǎn)生一個(gè)K×M×M二值的掩膜輸出，其中K為分類物體的類別數(shù)目。該算法在COCO數(shù)據(jù)集上測(cè)試效果都略優(yōu)于Faster R-CNN。圖6為Mask R-CNN算法示意圖。

圖6 Mask R-CNN算法示意[24]

2 單階段深度學(xué)習(xí)方法

以上介紹深度學(xué)習(xí)算法都屬于兩階段深度學(xué)習(xí)的算法，即分為候選區(qū)域生成和區(qū)域分類兩步，存在著實(shí)時(shí)性較差的缺點(diǎn)。接著介紹的是單階段深度學(xué)習(xí)方法[23]，即端對(duì)端、單階段對(duì)物體進(jìn)行檢測(cè)，對(duì)于一張待測(cè)圖像僅使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)不同目標(biāo)的類別與位置。這種端對(duì)端的檢測(cè)方法極大地提高了算法的運(yùn)行速度，滿足目標(biāo)檢測(cè)實(shí)時(shí)性的要求，典型的算法有YOLO(you only look once)系列、SSD(single shot multibox detector)系列。

2.1 YOLO

在2016年，Redmon J等人[24]提出YOLO算法使得基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法有了單階段和兩階段的區(qū)分。與之前兩階段目標(biāo)檢測(cè)算法最明顯的區(qū)別在于YOLO舍棄候選框提取，直接采用回歸的方法進(jìn)行物體分類和候選框預(yù)測(cè)[25]。這樣的改進(jìn)簡化了網(wǎng)絡(luò)結(jié)構(gòu)，將檢測(cè)速度提升至了Faster R-CNN的10倍左右。至此，基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法能夠滿足實(shí)時(shí)性的需求。YOLO v1首先將待測(cè)圖像進(jìn)行歸一化處理，然后將處理后的圖像輸入CNN中進(jìn)行特征提取以及邊界框置信度的預(yù)測(cè)，最后采用非極大值抑制(non-maximum suppression,NMS)算法過濾邊界框獲得最優(yōu)結(jié)果。但是算法只針對(duì)最后特征圖進(jìn)行分析，使得它對(duì)小目標(biāo)的檢測(cè)效果不佳，當(dāng)多個(gè)目標(biāo)出現(xiàn)在一個(gè)網(wǎng)格單元時(shí)不容易區(qū)分。圖7為YOLO v1算法示意圖。

圖7 YOLO v1算法示意[26]

時(shí)隔一年，Redmon J等人[27]在YOLO v1的基礎(chǔ)上進(jìn)行改進(jìn)提出了YOLO9000，該算法的檢測(cè)速度遠(yuǎn)遠(yuǎn)超過其他檢測(cè)算法，代表著當(dāng)時(shí)業(yè)界最先進(jìn)的檢測(cè)水平。YOLO9000相較于YOLO v1做出了以下改進(jìn)：1)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了優(yōu)化，在消除對(duì)其他正則化的依賴的同時(shí)，提高了收斂性；2)YOLO v2提高了分辨率，為了適應(yīng)高分辨率輸入，使用新的高分辨率分類器；3)使用卷積層預(yù)測(cè)邊界框位置并用標(biāo)準(zhǔn)歐氏距離的K-means聚類方法代替手動(dòng)選擇邊界框個(gè)數(shù)、形狀，以提高置信分?jǐn)?shù)；4)采用新的特征提取網(wǎng)絡(luò)模型Darknet—19，以提取到物體更精細(xì)的特征；5)采用多尺度圖像訓(xùn)練，通過采用不同分辨率的圖像進(jìn)行模型迭代訓(xùn)練，增強(qiáng)模型對(duì)多尺度圖像的預(yù)測(cè)魯棒性。

2018年，Redmon J等人[26]在YOLO v2的基礎(chǔ)上提出了效果更佳的YOLO v3算法，1)調(diào)整了網(wǎng)絡(luò)結(jié)構(gòu)，使用殘差網(wǎng)絡(luò)模型[29]Darknet—53進(jìn)行特征提取；2)采用多尺度特征進(jìn)行目標(biāo)檢測(cè)，借鑒特征金字塔網(wǎng)絡(luò)(feature pyramid networks,FPN)思想，通過采用了3個(gè)不同尺度的特征圖能獲得細(xì)粒度的特征；3)進(jìn)行分類時(shí)，采用多個(gè)單獨(dú)的Logistic分類器取代了SoftMax，提升了檢測(cè)速度與精度。

從YOLO算法被提出至今，一直在不斷地改進(jìn)提升，但依舊存在著物體定位準(zhǔn)確度低、召回率差等問題需要解決。

2.2 SSD

在2016年，Liu W等人[28]提出了SSD算法，解決了同時(shí)期YOLO算法存在的定位精度低、難以檢測(cè)小目標(biāo)等問題。SSD算法有以下改進(jìn)：1)采用CNN來直接進(jìn)行檢測(cè)，避免了YOLO方法在全連接之后再進(jìn)行檢測(cè)的操作；2)提出尺度不同的特征圖來對(duì)物體進(jìn)行檢測(cè)，通過快速檢測(cè)不同尺度特征圖的準(zhǔn)確度，明確區(qū)分預(yù)測(cè)；3)結(jié)合Faster R-CNN算法中的Anchor機(jī)制，通過大小不同的先驗(yàn)框在特征圖中獲取候選區(qū)域，提高了召回率。圖8為SSD算法示意圖。

圖8 SSD算法示意圖[31]

SSD通過對(duì)Faster R-CNN算法和YOLO算法的優(yōu)點(diǎn)結(jié)合，利用特征的金字塔結(jié)構(gòu)充分挖掘卷積層的特征信息，使得其在滿足檢測(cè)精度的同時(shí)保證了算法的速度，在一定程度上克服了YOLO算法難以檢測(cè)小目標(biāo)、定位不準(zhǔn)的缺點(diǎn)。

2017年，F(xiàn)u C Y等人[30]對(duì)SSD算法進(jìn)一步優(yōu)化提出了DSSD(deconvolutional single shot detector)算法，將SSD中的融合模塊采用反卷積代替?zhèn)鹘y(tǒng)的雙線性插值上采樣，將高層語義與低層特征信息進(jìn)行充分融合，進(jìn)一步提升了對(duì)小目標(biāo)的檢測(cè)精度。與此同時(shí)，隨著網(wǎng)絡(luò)的復(fù)雜度增加，算法的檢測(cè)速度有所下降。圖9為DSSD算法示意圖。

圖9 DSSD算法示意圖

同年，Li Z X等人[31]提出了FSSD(feature fusion single shot multibox detector)算法，通過借鑒FPN算法思想，將多尺度特征與信息融合，雖然對(duì)小目標(biāo)的檢測(cè)精度有所下降，檢測(cè)速度得到了明顯的提升。圖10為FSSD算法示意圖。

圖10 FSSD算法示意圖[31]

3 結(jié)束語

隨著科學(xué)技術(shù)的不斷發(fā)展，計(jì)算機(jī)的硬件基礎(chǔ)不斷增強(qiáng)，國內(nèi)外數(shù)據(jù)集的規(guī)模不斷擴(kuò)增，深度學(xué)習(xí)目標(biāo)檢測(cè)算法的檢測(cè)速度和精度也在不斷上升。但與此同時(shí)，目標(biāo)檢測(cè)依然存在著許多困難與挑戰(zhàn)：1)圖像背景與目標(biāo)狀態(tài)的融合；2)多層級(jí)、多維度的特征提取方法；3)基于深度學(xué)習(xí)的特征表達(dá)；4)基于核的支持向量機(jī)分類方法；5)高維數(shù)據(jù)的分類方法；6)深度學(xué)習(xí)理論性指導(dǎo)。相信隨著深度學(xué)習(xí)的不斷發(fā)展，越來越多的學(xué)者在目標(biāo)檢測(cè)領(lǐng)域不斷探究，將會(huì)涌現(xiàn)更好、更優(yōu)的算法。