亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)典型目標(biāo)檢測(cè)算法的改進(jìn)綜述

        2022-03-22 03:34:10王鑫鵬王曉強(qiáng)李雷孝楊艷艷
        關(guān)鍵詞:檢測(cè)模型

        王鑫鵬,王曉強(qiáng),林 浩,李雷孝,楊艷艷,孟 闖,高 靜

        1.內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,呼和浩特 010080

        2.天津理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,天津 300384

        3.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,呼和浩特 010080

        4.內(nèi)蒙古農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,呼和浩特 010011

        目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)的重要研究?jī)?nèi)容之一,隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法取得了巨大進(jìn)步。基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法在步驟上可分為單階段(one-stage)和雙階段(two-stage)兩種檢測(cè)方式。單階段目標(biāo)檢測(cè)是基于回歸的檢測(cè)算法,與雙階段相比,其檢測(cè)速度快但檢測(cè)精度較低,以YOLO[1]系列、SSD[2]系列算法為代表;雙階段目標(biāo)檢測(cè)是基于候選框的檢測(cè)算法,與單階段相反,其檢測(cè)速度慢但檢測(cè)精度高,以R-CNN[3]系列、SPPNet[4]、R-FCN[5]等算法為代表。隨著一些特征提取網(wǎng)絡(luò)的出現(xiàn),基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法的性能又得到進(jìn)一步提升。圖1為經(jīng)典算法及主流特征提取網(wǎng)絡(luò)出現(xiàn)的時(shí)間。

        圖1 經(jīng)典算法及主流特征提取網(wǎng)絡(luò)出現(xiàn)的時(shí)間Fig.1 Time of appearance of classic algorithms and mainstream feature extraction networks

        近幾年來(lái),基于深度學(xué)習(xí)的目標(biāo)檢測(cè)在交通、軍事、民生等各個(gè)領(lǐng)域都起著重要作用,例如車(chē)輛違規(guī)檢測(cè)[6]、地鐵乘客流量檢測(cè)[7]、行人和交通標(biāo)志檢測(cè)[8-9]、海域艦船[10]和遙感衛(wèi)星圖像[11]檢測(cè)、養(yǎng)殖個(gè)體檢測(cè)[12]等。但基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法在應(yīng)用過(guò)程中仍存在檢測(cè)目標(biāo)過(guò)小、檢測(cè)精度不夠、數(shù)據(jù)量不足等問(wèn)題,大量學(xué)者在傳統(tǒng)的算法中對(duì)此進(jìn)行了改進(jìn)。一些學(xué)者通過(guò)歸納這些改進(jìn)方法進(jìn)而形成綜述,Tong等人[13]就檢測(cè)目標(biāo)過(guò)小的問(wèn)題從多尺度特征、數(shù)據(jù)增強(qiáng)、上下文信息等多個(gè)方面對(duì)改進(jìn)方法進(jìn)行了分析總結(jié),但其忽略了特征提取網(wǎng)絡(luò)對(duì)于小目標(biāo)檢測(cè)的性能提升,而且數(shù)據(jù)增強(qiáng)部分只考慮了通過(guò)增加數(shù)據(jù)集中小目標(biāo)的數(shù)量和類(lèi)型來(lái)提高小目標(biāo)檢測(cè)性能,缺乏了多樣性;許德剛等人[14]和南曉虎等人[15]針對(duì)基于回歸和基于候選窗口的檢測(cè)框架,分別就目標(biāo)檢測(cè)的典型算法進(jìn)行了重點(diǎn)介紹和歸納分析,但因文中并沒(méi)有對(duì)算法的優(yōu)化方案做出很好的分類(lèi),所以不能清晰地理解改進(jìn)思想何時(shí)何步驟地運(yùn)用在檢測(cè)算法中。

        本文在對(duì)基于深度學(xué)習(xí)的典型目標(biāo)檢測(cè)算法的改進(jìn)總結(jié)中,首先提出常用數(shù)據(jù)集及算法的評(píng)價(jià)指標(biāo)。其次,依據(jù)目標(biāo)檢測(cè)的流程從數(shù)據(jù)處理、模型構(gòu)建、預(yù)測(cè)目標(biāo)及損失計(jì)算3個(gè)方面歸納了在算法中提到的改進(jìn)方法。最后結(jié)合當(dāng)前對(duì)改進(jìn)方法的研究現(xiàn)狀提出未來(lái)可進(jìn)行研究的方向。與上述綜述[13-15]相比,本文主要有以下突破:

        (1)總結(jié)出改進(jìn)深度學(xué)習(xí)的典型目標(biāo)檢測(cè)算法的通用方式。

        (2)豐富了相關(guān)數(shù)據(jù)增強(qiáng)技術(shù)。

        (3)歸納了通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來(lái)增加模型檢測(cè)精度的方法。

        (4)將檢測(cè)算法的步驟進(jìn)行了劃分,把可改進(jìn)的方法分別歸納到其所屬步驟中去,便于理解和操作。

        1 常用數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        1.1 常用數(shù)據(jù)集

        在基于深度學(xué)習(xí)的目標(biāo)檢測(cè)中,一個(gè)標(biāo)注信息精確、適用性強(qiáng)的數(shù)據(jù)集能為網(wǎng)絡(luò)訓(xùn)練和性能測(cè)試帶來(lái)有效的推動(dòng)作用,并進(jìn)一步促進(jìn)相關(guān)領(lǐng)域的進(jìn)步與發(fā)展。

        其中,ImageNet數(shù)據(jù)集在推進(jìn)計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)研究方面發(fā)揮著重要作用。2010—2017年舉辦的ILSVRC(ImageNet large scale visual recognition challenge)大賽中,一些網(wǎng)絡(luò)模型的出現(xiàn),如:AlexNet[16]、OverFeat[17]、GoogLeNet[18]、VGG[19]、ResNet[20]、SENet[21]等,更是極大推動(dòng)了目標(biāo)檢測(cè)的發(fā)展。ImageNet在計(jì)算機(jī)視覺(jué)中甚至被譽(yù)為算法性能評(píng)估的標(biāo)桿[22]。與ImageNet數(shù)據(jù)集類(lèi)似,Microsoft COCO因其豐富的圖片數(shù)量和多樣的任務(wù)種類(lèi),如:目標(biāo)檢測(cè)、關(guān)鍵點(diǎn)檢測(cè)、實(shí)例分割、上下文識(shí)別等,在機(jī)器視覺(jué)領(lǐng)域已經(jīng)成為了重要的性能衡量指標(biāo)。相關(guān)數(shù)據(jù)集對(duì)比如表1[23-31]。

        1.2 評(píng)價(jià)指標(biāo)

        基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要通過(guò)3個(gè)指標(biāo)進(jìn)行評(píng)價(jià):交并比(intersection of union,IoU)、檢測(cè)速度(frames per second,F(xiàn)PS)、平均精確度均值(mean average precision,mAP)。

        交并比指兩個(gè)框的重合程度,常常指預(yù)測(cè)框和真實(shí)框之間的重疊率,用來(lái)衡量模型的框回歸能力。FPS為一秒鐘處理圖片的數(shù)量,一秒鐘處理圖片的數(shù)量越多,模型的運(yùn)算能力越強(qiáng),體現(xiàn)了模型的運(yùn)算能力。衡量模型的分類(lèi)和檢測(cè)能力最直觀的就是mAP值,mAP值越大則說(shuō)明模型性能越好。

        求取mAP時(shí)會(huì)提前設(shè)置好IoU的閾值,當(dāng)IoU值大于閾值時(shí)才視為檢測(cè)正確,所以mAP在很大程度上能夠同時(shí)體現(xiàn)模型的定位和分類(lèi)能力。實(shí)際應(yīng)用中多采用FPS和mAP(或者AP值,當(dāng)檢測(cè)目標(biāo)只有一個(gè)類(lèi)別時(shí),mAP值也就變?yōu)榱薃P值)兩個(gè)值來(lái)同時(shí)評(píng)價(jià)一個(gè)模型的性能[32-33]。

        2 基于深度學(xué)習(xí)的典型目標(biāo)檢測(cè)算法的改進(jìn)

        深度學(xué)習(xí)的快速發(fā)展,增加了各經(jīng)典目標(biāo)檢測(cè)算法從多方面進(jìn)行改進(jìn)的可行性。該部分以算法的檢測(cè)流程為時(shí)間線,從數(shù)據(jù)處理、模型構(gòu)建、預(yù)測(cè)目標(biāo)及損失計(jì)算幾個(gè)方面總結(jié)了目前主要流行的改進(jìn)方法,并論述其特點(diǎn),使不同算法針對(duì)不同問(wèn)題都能夠表達(dá)出不錯(cuò)的適應(yīng)性。算法檢測(cè)流程所對(duì)應(yīng)的改進(jìn)方案如圖2所示。

        圖2 算法檢測(cè)流程所對(duì)應(yīng)的改進(jìn)方案Fig.2 Corresponding improvement scheme of algorithm detection flow

        2.1 數(shù)據(jù)處理

        網(wǎng)絡(luò)模型是基于數(shù)據(jù)來(lái)運(yùn)行的,一個(gè)實(shí)用性強(qiáng)的數(shù)據(jù)集對(duì)于網(wǎng)絡(luò)的測(cè)試和訓(xùn)練都起到了不可忽視的作用,在訓(xùn)練網(wǎng)絡(luò)之前對(duì)數(shù)據(jù)進(jìn)行合理操作更是提高了網(wǎng)絡(luò)模型的精準(zhǔn)度和泛化能力。對(duì)數(shù)據(jù)集的處理可分為兩方面,一是數(shù)據(jù)增強(qiáng),二是先驗(yàn)框的選取。數(shù)據(jù)增強(qiáng)技術(shù)很大程度上減小了網(wǎng)絡(luò)過(guò)擬合問(wèn)題,提高了模型的泛化性;對(duì)真實(shí)框進(jìn)行聚類(lèi)獲得的先驗(yàn)框,因尺寸更加符合檢測(cè)目標(biāo)的大小而增強(qiáng)了模型檢測(cè)精度,多見(jiàn)于單階段的目標(biāo)檢測(cè)算法中。

        2.1.1 數(shù)據(jù)增強(qiáng)

        在基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法中,數(shù)據(jù)增強(qiáng)技術(shù)分為有監(jiān)督和無(wú)監(jiān)督兩種。有監(jiān)督的數(shù)據(jù)增強(qiáng)技術(shù)可分為三類(lèi):幾何變化、色彩變換、混合變換;無(wú)監(jiān)督的數(shù)據(jù)增強(qiáng)技術(shù)可分為兩類(lèi):生成新數(shù)據(jù)、學(xué)習(xí)新的增強(qiáng)策略。相關(guān)數(shù)據(jù)增強(qiáng)方法對(duì)比如表2所示[34-43]。

        表2 相關(guān)數(shù)據(jù)增強(qiáng)方法對(duì)比Table 2 Comparison of related data augmentation methods

        每種數(shù)據(jù)增強(qiáng)對(duì)于模型性能的提升往往是有限的,為了使網(wǎng)絡(luò)模型學(xué)習(xí)到更加豐富的語(yǔ)義特征,對(duì)于數(shù)據(jù)增強(qiáng)方式的運(yùn)用往往是多種形式地結(jié)合[35,44-45],這種結(jié)合形式不僅使數(shù)據(jù)集實(shí)現(xiàn)了數(shù)量級(jí)上的跨越,還可針對(duì)性地解決模型應(yīng)用問(wèn)題,如利用隨機(jī)擦除或隨機(jī)裁剪來(lái)增強(qiáng)模型對(duì)噪聲和遮擋問(wèn)題的魯棒性,利用Mosaic增強(qiáng)來(lái)提高模型對(duì)小目標(biāo)的識(shí)別能力等?;旌献儞Q在圖片多樣性和檢測(cè)難度上要比幾何、色彩變換更加豐富與復(fù)雜,訓(xùn)練出的模型往往也更具健壯性,因此正逐漸被相關(guān)領(lǐng)域的學(xué)者所關(guān)注,圖片經(jīng)混合變換后的結(jié)果如圖3所示。在無(wú)監(jiān)督的數(shù)據(jù)增強(qiáng)技術(shù)中,生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)因其具有強(qiáng)大的學(xué)習(xí)和生成能力也受到了研究學(xué)者的熱愛(ài)[46-48],但由于網(wǎng)絡(luò)中生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間的交替訓(xùn)練,使得GAN式的數(shù)據(jù)增強(qiáng)相比于有監(jiān)督的數(shù)據(jù)增強(qiáng)方式,如:翻轉(zhuǎn)、隨機(jī)擦除等,在圖像的處理速度上要慢很多,因此對(duì)于無(wú)監(jiān)督方式在數(shù)據(jù)增強(qiáng)上的應(yīng)用也相應(yīng)的要比有監(jiān)督方式少。

        圖3 混合變換Fig.3 Hybrid transformation

        目前對(duì)于有監(jiān)督的數(shù)據(jù)增強(qiáng)策略的研究已經(jīng)趨于完善,把多種數(shù)據(jù)增強(qiáng)技術(shù)結(jié)合起來(lái)共同提高模型性能更是成為了主要需求,但對(duì)于無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)技術(shù)的探索仍然略顯匱乏。主要原因如下:(1)有監(jiān)督數(shù)據(jù)增強(qiáng)方式的廣泛使用,使得無(wú)監(jiān)督的數(shù)據(jù)增強(qiáng)方法在一定程度上不受重視。(2)目標(biāo)檢測(cè)算法逐漸向端到端的網(wǎng)絡(luò)發(fā)展,將數(shù)據(jù)增強(qiáng)方式集成到算法中已然成為了一種需求,但無(wú)監(jiān)督的數(shù)據(jù)增強(qiáng)方式因其復(fù)雜且計(jì)算量大的缺點(diǎn),在集成方面有一定的困難,應(yīng)用范圍受到了限制。(3)無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)方式所需的生成對(duì)抗網(wǎng)絡(luò)或強(qiáng)化學(xué)習(xí)相關(guān)技術(shù)繁雜多樣,對(duì)于研究人員的探索有了一定阻礙。

        2.1.2 先驗(yàn)框選擇

        在目標(biāo)檢測(cè)時(shí),模型會(huì)在網(wǎng)絡(luò)中利用先驗(yàn)框(Anchor)來(lái)確定目標(biāo)大概位置,之后通過(guò)預(yù)測(cè)的偏移量(offsets)和縮放系數(shù)來(lái)進(jìn)行先驗(yàn)框的調(diào)整,最終形成預(yù)測(cè)框。先驗(yàn)框設(shè)置得合理與否,極大地影響著最終模型檢測(cè)性能的好壞。

        先驗(yàn)框設(shè)置的方法可分為人工設(shè)置和真實(shí)框聚類(lèi)兩種,采用人工設(shè)置的算法有SSD、Faster-RCNN等,但人工設(shè)置的anchor并不能保證它們能夠很好地適應(yīng)數(shù)據(jù)集,從而導(dǎo)致模型的檢測(cè)結(jié)果受到影響,而聚類(lèi)算法的出現(xiàn)解決了手動(dòng)設(shè)置的不足。目前算法對(duì)于真實(shí)框的聚類(lèi)多采用K-means算法,如YOLO v2、YOLO v3算法等,對(duì)于該聚類(lèi)算法的不足,即聚類(lèi)結(jié)果對(duì)初始聚類(lèi)中心點(diǎn)的選擇具有強(qiáng)依賴(lài)性,一些學(xué)者也在相關(guān)算法中對(duì)此做出了改進(jìn),使得先驗(yàn)框的聚類(lèi)效果更好。相關(guān)聚類(lèi)算法及其改進(jìn)對(duì)比如表3所示[49-56]。

        表3 先驗(yàn)框聚類(lèi)方案Table 3 Anchor clustering scheme

        2.2 模型構(gòu)建

        合理地構(gòu)建模型,能夠有效增加模型的運(yùn)算效率,減少梯度消失和梯度爆炸問(wèn)題,也能讓網(wǎng)絡(luò)提取到更加豐富、全面的語(yǔ)義特征,提高模型的識(shí)別和分類(lèi)能力。構(gòu)建模型可分為兩部分:重建網(wǎng)絡(luò)結(jié)構(gòu)和更改激活函數(shù)。

        2.2.1 改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)

        通過(guò)優(yōu)化網(wǎng)絡(luò)模型的特征提取網(wǎng)絡(luò)來(lái)提高模型性能是目前最為常見(jiàn)的一種改進(jìn)方式。2015年ResNet網(wǎng)絡(luò)中首次提出了殘差模塊(Residual block),使卷積網(wǎng)絡(luò)變得更深的同時(shí)不易出現(xiàn)退化現(xiàn)象,COCO數(shù)據(jù)集標(biāo)準(zhǔn)指標(biāo)(mAP@[0.5,0.95])下相比VGG16獲得6%的提升。作為ResNet網(wǎng)絡(luò)的改進(jìn),DenseNet網(wǎng)絡(luò)[57]以建立前面所有層與當(dāng)前層的密集連接來(lái)實(shí)現(xiàn)特征重用,在參數(shù)量和計(jì)算成本更少的情況下可以實(shí)現(xiàn)比ResNet網(wǎng)絡(luò)更優(yōu)的性能。GoogLeNet網(wǎng)絡(luò)的核心部分為Inception模塊,該模塊通過(guò)不同的卷積核來(lái)提取圖像的特征信息,利用1×1的卷積核進(jìn)行降維,使得計(jì)算量明顯減少。特征金字塔網(wǎng)絡(luò)[58](feature pyramid networks,F(xiàn)PN)對(duì)于識(shí)別小目標(biāo)有著突出貢獻(xiàn)。PANet網(wǎng)絡(luò)[59]作為FPN網(wǎng)絡(luò)的一種改進(jìn),在FPN的基礎(chǔ)上增加了一條自底向上的信息傳遞路徑來(lái)彌補(bǔ)底層特征利用不充分的問(wèn)題,結(jié)構(gòu)如圖4所示。

        圖4 PANet模型Fig.4 PANet model

        全連接層的存在導(dǎo)致輸入圖片的大小必須統(tǒng)一,而SPPNet[4]的提出解決了這一問(wèn)題,使得輸入圖像的尺寸不受限制。與SPPNet作用一樣的還有ROI Pooling[60]。ResNeXt[61]作為ResNet與Inception模塊相結(jié)合的一種網(wǎng)絡(luò),主張通過(guò)增加基數(shù)(分支數(shù))來(lái)提升網(wǎng)絡(luò)的性能,每個(gè)分支都具有相同的結(jié)構(gòu),Inceptionv4可以看作該網(wǎng)絡(luò)的一種特殊形式。EfficientNet[62]不在追求某一維度(深度、寬度、圖像分辨率)上的增加來(lái)提高模型整體的準(zhǔn)確率,而是探索這三個(gè)維度之間最好的組合。Tan等人[63]在EfficientNet的基礎(chǔ)上,提出了一組目標(biāo)檢測(cè)框架EfficientDet,針對(duì)不同程度的資源限制,都能有不錯(cuò)的高性能。上述網(wǎng)絡(luò)的對(duì)比如表4所示。

        通過(guò)表4的總結(jié)可知,采用不同的網(wǎng)絡(luò)結(jié)構(gòu)能夠有不同的優(yōu)化方案:

        表4 相關(guān)網(wǎng)絡(luò)優(yōu)缺點(diǎn)對(duì)比Table 4 Comparison of advantages and disadvantages of related networks

        (1)在模型中引入更深層次的網(wǎng)絡(luò)(ResNet、DenseNet)可以提取更加豐富的語(yǔ)義信息,提高模型檢測(cè)效率。

        (2)FPN、PANet、BiFPN可以把卷積運(yùn)算后的多個(gè)尺度特征進(jìn)行融合,使不同層次、尺度的特征都能夠充分發(fā)揮自己所具有的信息,促進(jìn)小目標(biāo)的檢測(cè)。

        (3)GoogLeNet網(wǎng)絡(luò)中Inception模塊通過(guò)更小的卷積核來(lái)替代較大的卷積核,雖然略微增加了參數(shù)量,但大幅減少了計(jì)算量。在模型優(yōu)化中引入1×1卷積核來(lái)減少計(jì)算量是一個(gè)不錯(cuò)的選擇。

        (4)引入SPP網(wǎng)絡(luò)可以使模型的輸入不再局限于固定尺寸,使圖像輸入更加靈活;可以提取到豐富的多層次特征。

        (5)多維度增強(qiáng)或多結(jié)構(gòu)融合的思想,對(duì)于網(wǎng)絡(luò)的性能提升也是極為重要。

        一些學(xué)者在相關(guān)模型的網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)中為使檢測(cè)結(jié)果更加理想而引入了上述的優(yōu)化方案,相關(guān)文獻(xiàn)如表5所示[64-78]。其中GoogLeNet網(wǎng)絡(luò)的相關(guān)文獻(xiàn)為Inception模塊的典型優(yōu)化方法,優(yōu)化過(guò)程如圖5所示。

        表5 相關(guān)模型對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的部分改進(jìn)內(nèi)容Table 5 Some improvements of related models for network structure

        圖5 Inception模塊Fig.5 Inception modules

        為了更好地提高模型檢測(cè)精度,現(xiàn)如今的網(wǎng)絡(luò)結(jié)構(gòu)正逐漸向增加網(wǎng)絡(luò)模型的深度(殘差模塊)、寬度(Inception模塊)以及上下文特征提取能力[58-59,79-81]等方向發(fā)展,但這樣所導(dǎo)致的模型復(fù)雜化、冗余化,使得改進(jìn)后的算法更加難以應(yīng)用在實(shí)際生活場(chǎng)景中。優(yōu)化算法時(shí)考慮算法的應(yīng)用領(lǐng)域,與輕量型框架相結(jié)合來(lái)減少計(jì)算量,增加算法實(shí)時(shí)性的同時(shí)提高算法準(zhǔn)確性,不失為改進(jìn)算法中的一種合理方案。MobleNets系列[82-84]作為現(xiàn)模型算法中采用最多的輕量級(jí)框架之一,專(zhuān)門(mén)針對(duì)移動(dòng)端、嵌入式設(shè)備而提出,極大地減少了參數(shù)量和計(jì)算量,但輕量化模型的發(fā)展仍不夠全面,代表性算法還很少。

        2.2.2 優(yōu)化激活函數(shù)

        非線性的激活函數(shù)能提高網(wǎng)絡(luò)的非線性表達(dá)能力,增強(qiáng)對(duì)于特征信息的學(xué)習(xí),飽和非線性函數(shù)還可以限定網(wǎng)絡(luò)層的輸出范圍,防止因輸出過(guò)大而引起的計(jì)算錯(cuò)誤。常見(jiàn)的非線性激活函數(shù)有:Sigmod、Tanh、ReLU、Leaky ReLU、PReLU、Swish。

        2019年Howard等人[82]提出H-Swish函數(shù),該函數(shù)與Swish函數(shù)曲線近似相同,但H-Swish函數(shù)減少了計(jì)算量,增加了模型運(yùn)算速度。與此類(lèi)似,H-Sigmod函數(shù)作為Sigmod的改進(jìn),在函數(shù)曲線上也近似接近Sigmod函數(shù),同時(shí)與Sigmod函數(shù)相比增加了運(yùn)算效率。文獻(xiàn)[85]對(duì)SSD算法做出優(yōu)化,引入了注意力機(jī)制的殘差模塊,為使其能在嵌入式攝像設(shè)備中能夠有較快的檢測(cè)速率,進(jìn)一步將注意力模塊中的Sigmod激活函數(shù)替換為了H-Sigmod激活函數(shù),ReLU激活函數(shù)替換為H-Swish激活函數(shù),盡可能地減少了參數(shù)運(yùn)算,經(jīng)實(shí)驗(yàn)表明,在略微增加模型檢測(cè)精度的同時(shí)比原SSD算法的檢測(cè)速率提高了4.8倍。Sigmod函數(shù)與H-Sigmod函數(shù)、Swish函數(shù)與H-Swish函數(shù)圖像對(duì)比如圖6所示。

        圖6 Sigmod VS.H-Sigmod和Swish VS.H-SwishFig.6 Sigmod VS.H-Sigmod and Swish VS.H-Swish

        對(duì)各激活函數(shù)進(jìn)行對(duì)比分析,可以比較直觀地發(fā)現(xiàn)各函數(shù)的優(yōu)勢(shì),并可根據(jù)現(xiàn)實(shí)的算法需求更好地選擇適合的激活函數(shù),使得算法的表現(xiàn)更加優(yōu)異。表6總結(jié)了相關(guān)激活函數(shù)的優(yōu)缺點(diǎn)。

        表6 相關(guān)激活函數(shù)優(yōu)缺點(diǎn)對(duì)比Table 6 Comparison of advantages and disadvantages of related activation functions

        2.3 預(yù)測(cè)目標(biāo)及損失計(jì)算

        為防止預(yù)測(cè)目標(biāo)時(shí)同一類(lèi)別目標(biāo)上產(chǎn)生多個(gè)候選框,可采用非極大值抑制(non-maximum suppression,NMS)來(lái)進(jìn)行預(yù)測(cè)框的選取,減少候選框之間發(fā)生重疊的幾率。對(duì)于目標(biāo)檢測(cè)中的損失值計(jì)算,常見(jiàn)的可分為分類(lèi)損失、邊界框回歸損失、置信度損失(根據(jù)檢測(cè)算法應(yīng)用場(chǎng)景不同,也會(huì)加入其他方面的損失計(jì)算,比如Mask-RCNN算法中加入的mask掩碼損失)。

        2.3.1 預(yù)測(cè)框選取

        預(yù)測(cè)框的選取方法可以從兩個(gè)方面進(jìn)行改進(jìn),一是提高預(yù)測(cè)框選取的精度,二是提升NMS算法的運(yùn)算效率。提高預(yù)測(cè)框選取精度方面,目前主流的改進(jìn)方法考慮到了NMS算法存在篩選掉必要候選框、候選框包圍目標(biāo)不準(zhǔn)確、擁有高分類(lèi)分?jǐn)?shù)的候選框卻有低定位置信度等多種問(wèn)題,從多方面的改進(jìn)也促進(jìn)了NMS算法性能的大幅度提升;運(yùn)算速率方面,由于NMS算法中IoU的計(jì)算方式多為順序執(zhí)行,如YOLO V3[75]、YOLO9000[86]、Fater-RCNN[87]等網(wǎng)絡(luò)中的NMS算法,因此可通過(guò)GPU并行加速I(mǎi)oU矩陣運(yùn)算,提升矩陣的運(yùn)算效率。表7[88-96]從提升精度和速度兩方面總結(jié)了對(duì)于NMS算法的改進(jìn)。

        表7 NMS改進(jìn)方案Table 7 NMS improvement plans

        雖然上述算法都對(duì)NMS做出了一定程度上的優(yōu)化,但仍存在以下缺點(diǎn):

        (1)雖然Soft NMS減少了候選框數(shù)量,但對(duì)于端到端的網(wǎng)絡(luò),如YOLO、SSD算法,其產(chǎn)生的候選框數(shù)量要遠(yuǎn)小于區(qū)域建議網(wǎng)絡(luò)或滑動(dòng)窗口,使得Soft NMS對(duì)端對(duì)端的網(wǎng)絡(luò)顯得不是那么高效。

        (2)IoU-Guided NMS是基于IoU指標(biāo)進(jìn)行評(píng)價(jià)的,對(duì)于預(yù)測(cè)框與真實(shí)框之間關(guān)系的描述不夠全面。

        (3)DIoU NMS是在DIoU的基礎(chǔ)上提出的,所以也會(huì)有DIoU存在的問(wèn)題,如沒(méi)有考慮到兩框之間的長(zhǎng)寬比關(guān)系、計(jì)算較復(fù)雜而降低了運(yùn)算效率。

        (4)雖然SE在端到端網(wǎng)絡(luò)上有效,但相比Soft NMS只對(duì)候選框進(jìn)行抑制的操作,SE抑制和增強(qiáng)的做法顯然計(jì)算量更大。

        (5)Softer-NMS算法使得模型定位能力得到提升,但其是在KL Loss基礎(chǔ)上進(jìn)行的,如果想利用此方法對(duì)某算法做改進(jìn),則也需要改變算法的框回歸損失函數(shù)。

        (6)AdaptiveNMS算法由于是通過(guò)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)周邊的密集和稀疏的程度,需要額外添加密度預(yù)測(cè)模塊,造成計(jì)算開(kāi)銷(xiāo)。

        (7)Fast NMS允許冗余框去抑制其他框,導(dǎo)致其他框被錯(cuò)誤地抑制,精確值要比NMS差。

        (8)Cluster NMS因?yàn)槭堑鶩ast NMS的操作,所以運(yùn)算速率上比Fast NMS略低。

        (9)與Fast NMS具有類(lèi)似的并行化方法,所以也會(huì)和Fast NMS一樣會(huì)對(duì)框產(chǎn)生過(guò)多抑制。

        2.3.2 損失計(jì)算

        目前在目標(biāo)檢測(cè)方向上,損失計(jì)算主要針對(duì)網(wǎng)絡(luò)模型的分類(lèi)損失和邊界框回歸損失兩方面進(jìn)行改進(jìn)。

        在計(jì)算分類(lèi)損失時(shí),由于通過(guò)候選框選出來(lái)的候選樣本多是容易分類(lèi)的負(fù)樣本,且負(fù)樣本的數(shù)量遠(yuǎn)遠(yuǎn)超出正樣本,這種不平衡性就可能導(dǎo)致網(wǎng)絡(luò)難以收斂,過(guò)多的負(fù)樣本也會(huì)使模型的優(yōu)化方向受到影響。與CE(cross-entropy)loos未考慮正負(fù)樣本不平衡和難易樣本不平衡不同,F(xiàn)ocal損失[97]對(duì)于這種正負(fù)樣本比例失衡問(wèn)題提供了很好的解決方案,眾多文獻(xiàn)[98-102]更是直接將算法中的分類(lèi)損失替換為了Focal loss來(lái)解決正負(fù)樣本不平衡的問(wèn)題,以此加快網(wǎng)絡(luò)的訓(xùn)練和收斂速度。不同于在線難例挖掘算法[103](online hard example mining,OHEM),F(xiàn)ocal loss并沒(méi)有忽略容易分類(lèi)的樣本,而是減少了易分類(lèi)樣本的權(quán)重比例,使模型在訓(xùn)練時(shí)更加專(zhuān)注于難分類(lèi)的樣本。與Focal loss類(lèi)似,AP loss[104]、DR loss[105]也有效地解決了正負(fù)樣本不平衡的問(wèn)題,但與之不同的是,兩者不是通過(guò)調(diào)整樣本權(quán)重來(lái)調(diào)節(jié)樣本平衡性,而是將樣本分類(lèi)問(wèn)題轉(zhuǎn)化為某種方式的排序問(wèn)題。AP loss以正樣本預(yù)測(cè)框盡可能在負(fù)樣本之前為目的對(duì)預(yù)測(cè)框的得分進(jìn)行排序,以此解決了正負(fù)樣本失衡的問(wèn)題,DP loss則考慮將一個(gè)正樣本和一個(gè)負(fù)樣本作為排序?qū)Γ源私鉀Q正負(fù)樣本的不平衡性。經(jīng)實(shí)驗(yàn)表明,對(duì)于模型精確值的提升,兩者都要優(yōu)于Focal loss函數(shù)。另一方面,Class balanced loss[106]有效解決了因目標(biāo)類(lèi)別之間數(shù)據(jù)量差距較大而導(dǎo)致的分類(lèi)準(zhǔn)確率下降的問(wèn)題,從新的方向上提高了模型效率。

        邊界框回歸損失方面,除了傳統(tǒng)的損失函數(shù)外,如:Smooth L1 loss,IoU系列損失(DIoU[90]、CIoU[90]、GIoU[107]損失)大受學(xué)者們的歡迎,被廣泛應(yīng)用到算法的改進(jìn)中。

        IoUloss的缺點(diǎn)是:(1)當(dāng)真實(shí)框和預(yù)測(cè)框不相交時(shí)不能反應(yīng)兩者的距離情況,可能會(huì)出現(xiàn)loss一直不更新的情形;(2)IoU只能反映兩框之間交并比(面積)的關(guān)系,不能反映重合程度。2019年Rezatofighi等人[107]提出新的度量指標(biāo)GIoU,在IoU的基礎(chǔ)上考慮了重疊面積,當(dāng)預(yù)測(cè)框和真實(shí)框未相交時(shí),會(huì)通過(guò)兩框之間的關(guān)系來(lái)拉近兩者之間的距離,同時(shí)緩解了IoU損失值為1的尷尬,但:(1)當(dāng)真實(shí)框完全包含預(yù)測(cè)框時(shí),會(huì)使GIoU損失退化為IoU損失,從而無(wú)法區(qū)分它們的位置關(guān)系;(2)預(yù)測(cè)框和真實(shí)框未相交時(shí),GIoU損失會(huì)存在擴(kuò)大預(yù)測(cè)框來(lái)使兩者距離拉近的情況,需要更多次的迭代才能收斂。

        為了解決GIoU損失收斂慢和退化問(wèn)題,DIoU與CIoU進(jìn)一步加強(qiáng)了loss的收斂速度和模型的回歸精度。DIoU在原有IoU的基礎(chǔ)上考慮了重疊面積和中心點(diǎn)距離,根據(jù)兩框之間的中心點(diǎn)距離作為懲罰,使DIoU損失的收斂速度遠(yuǎn)大于GIoU損失;CIoU損失在DIoU損失的基礎(chǔ)上添加了長(zhǎng)寬比,并用v衡量長(zhǎng)寬比的相似性,將重疊面積、中心點(diǎn)距離、長(zhǎng)寬比相結(jié)合來(lái)提高框回歸精度,但具有相反的梯度值,導(dǎo)致了CIoU損失不能同時(shí)增大或減小預(yù)測(cè)框的長(zhǎng)與寬,進(jìn)而收斂速度受到一定影響。DIoU損失很好地解決了GIoU損失的退化問(wèn)題,DIoU與GIoU的退化問(wèn)題對(duì)比如圖7所示,其中藍(lán)色框代表真實(shí)框,綠色框代表預(yù)測(cè)框。

        圖7 DIoU與GIoU的退化問(wèn)題對(duì)比Fig.7 Comparison of degradation problems between DIoU and GIoU

        GIoU、DIoU、CIoU除了作為損失函數(shù)外,本質(zhì)上也是對(duì)于交并比的一種擴(kuò)展,所以在算法優(yōu)化上可將其作為損失函數(shù)進(jìn)行改進(jìn),也可將其作為交并比進(jìn)行改進(jìn)。GIoU、DIoU、CIoU損失函數(shù)經(jīng)YOLO v3算法在PASCAL VOC 2007上的性能對(duì)比如表8所示[90],其中AP=(AP50+AP55+…+AP95)/10,AP75(mAP@0.75),分別采用IoU與GIoU為度量指標(biāo)。

        表8 IoU系列損失函數(shù)性能對(duì)比Table 8 Performance comparison of IoU series loss function

        由對(duì)比可知:(1)通過(guò)對(duì)IoU損失的不斷改進(jìn),目標(biāo)的檢測(cè)精度得到顯著提升,其中CIoU損失使得算法的精度提升最高;(2)GIoU為度量指標(biāo)時(shí),由于框與框之間的判別標(biāo)準(zhǔn)變得更加苛刻,相比IoU為度量指標(biāo)時(shí),視為檢測(cè)正確的預(yù)測(cè)框會(huì)有所減少,所以檢測(cè)精度也會(huì)有所下降。

        2.4 其他方面

        檢測(cè)流程中除了上述基本的改進(jìn)方法之外,還有一些比較優(yōu)秀的方法,即:注意力機(jī)制(attention mechanism)和可變形卷積(deformable convolution)。

        注意力機(jī)制最早在視覺(jué)圖像領(lǐng)域中被提出,由于其能夠忽略低價(jià)值信息關(guān)注于感興趣信息而被學(xué)者廣泛關(guān)注。2017年SENet將注意力機(jī)制應(yīng)用到了通道維度,提升了模型對(duì)于通道的敏感度,作為輕量級(jí)的SE模塊能與現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,只需增加極少的運(yùn)算量就能實(shí)現(xiàn)模型性能的提升。同一年,Wang等人[108]將注意力機(jī)制和殘差網(wǎng)絡(luò)相結(jié)合,提出了殘差注意力網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)圖像的分類(lèi)任務(wù),在增加網(wǎng)絡(luò)模型深度的基礎(chǔ)上,注意力機(jī)制可使淺層網(wǎng)絡(luò)集中于背景信息,深層網(wǎng)絡(luò)專(zhuān)注于待分類(lèi)的目標(biāo),從而實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)于分類(lèi)能力的提升。Yuan等人[109]在Faster-RCNN的優(yōu)化上,結(jié)合注意力機(jī)制提出了一種輕量級(jí)網(wǎng)絡(luò)模型,該模型在Faster-RCNN的骨干網(wǎng)絡(luò)中引入特征注意力模塊(convolutional block attention module,CBAM)[110],從通道和空間兩個(gè)維度來(lái)提取網(wǎng)絡(luò)感興趣的特征圖,促進(jìn)網(wǎng)絡(luò)識(shí)別目標(biāo)的位置特征。

        可變形卷積[111]通過(guò)學(xué)習(xí)到的偏移量對(duì)卷積核的采樣點(diǎn)進(jìn)行偏移,使卷積核適應(yīng)檢測(cè)目標(biāo)的形狀變換而加強(qiáng)網(wǎng)絡(luò)對(duì)于形變物體的檢測(cè)能力,但這樣可能會(huì)引入無(wú)用的背景區(qū)域來(lái)干擾特征的提取,使算法的性能有所降低。2019年Zhu等人[112]提出可變形卷積的V2版本,加入了更多可變形卷積層來(lái)提高算法對(duì)于幾何形變的適應(yīng)能力,并通過(guò)模仿R-CNN的特征解決了無(wú)關(guān)上下文的問(wèn)題,使得該版本不論對(duì)于形變的檢測(cè)能力還是檢測(cè)精度上都得到了顯著提升,在目標(biāo)檢測(cè)和實(shí)例分割中產(chǎn)生著重要作用。文獻(xiàn)[113]在R-FCN算法改進(jìn)中,由于交通標(biāo)志的形狀不一的問(wèn)題,將可變形卷積和可變形位置敏感池化(deformable ROI pooling)與模型相結(jié)合,使模型針對(duì)不同形狀的交通標(biāo)志都能有不俗的檢測(cè)結(jié)果。Dai等人同時(shí)提出了可變形位置敏感池化與可變形卷積,原理都在原有的基礎(chǔ)上增加了一個(gè)offsets,能為模型提供很好的適應(yīng)能力。

        注意力機(jī)制及可變形卷積在目標(biāo)檢測(cè)上的應(yīng)用,極大推動(dòng)了算法改進(jìn)思想的浪潮。注意力機(jī)制的空間維度、通道維度、空間通道維度,以及注意力機(jī)制與殘差模塊相結(jié)合等創(chuàng)新性的構(gòu)思,加上可變形卷積的提出與優(yōu)化,使得改進(jìn)目標(biāo)檢測(cè)算法的可行性大大提高。

        3 總結(jié)與展望

        本文系統(tǒng)地闡述了近年來(lái)學(xué)者對(duì)于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法進(jìn)行改進(jìn)的方法,并對(duì)當(dāng)下熱門(mén)公開(kāi)數(shù)據(jù)集和算法評(píng)價(jià)指標(biāo)進(jìn)行了總結(jié)分析,同時(shí)希望通過(guò)算法流程性的歸納為相關(guān)領(lǐng)域的研究人員提供新的科研思路。對(duì)所列舉不同改進(jìn)策略的機(jī)制、優(yōu)勢(shì)、局限性、適用場(chǎng)景進(jìn)行提煉分析,對(duì)比表如表9所示。

        表9 不同改進(jìn)策略的對(duì)比Table 9 Comparison of different improvement strategies

        結(jié)合上述知識(shí)的分析與總結(jié),提出以下未來(lái)研究的方向。

        (1)視頻目標(biāo)檢測(cè)。目前深度卷積網(wǎng)絡(luò)對(duì)于靜態(tài)圖像的檢測(cè)相對(duì)于傳統(tǒng)方法有了很大的進(jìn)步,并逐步在視頻流的目標(biāo)檢測(cè)中發(fā)揮重要作用。但視頻流檢測(cè)目標(biāo)不僅要關(guān)注每一幀的消息,還要考慮幀與幀之間的關(guān)系,除此之外,相鄰幀之間包含的大量冗余特征、幀抖動(dòng)、幀模糊以及目標(biāo)之間的擁擠都會(huì)造成檢測(cè)效率的降低。因此對(duì)視頻目標(biāo)檢測(cè)算法做出更多總結(jié)[114],并在此基礎(chǔ)上提升模型對(duì)于視頻檢測(cè)的泛化性,增強(qiáng)高質(zhì)量語(yǔ)義特征的提取能力,加強(qiáng)相鄰幀關(guān)系的建立等多方面的特性,都將是未來(lái)熱門(mén)研究方向。

        (2)無(wú)監(jiān)督方式的數(shù)據(jù)增強(qiáng)方法?;谟斜O(jiān)督的數(shù)據(jù)增強(qiáng)由于其簡(jiǎn)單易操作的特性在目標(biāo)算法的改進(jìn)研究中占據(jù)主要地位,但其快速的發(fā)展間接阻礙了無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)的進(jìn)步。經(jīng)無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)生成的圖片質(zhì)量高、多樣性強(qiáng)等特點(diǎn)是有監(jiān)督方式難以替代的,未來(lái)在保證圖片質(zhì)量的情況下,利用輕量級(jí)框架提出一種實(shí)現(xiàn)較為簡(jiǎn)單且易集成的無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)方式將會(huì)極大推動(dòng)目標(biāo)檢測(cè)及圖像處理的發(fā)展。

        (3)結(jié)合多維度的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)?,F(xiàn)有網(wǎng)絡(luò)在深度、寬度、對(duì)于高分辨率圖像的處理上都已趨于完善,EfficientNet通過(guò)尋找三者之間的最優(yōu)解更是獲得檢測(cè)性能的大幅提升。但影響網(wǎng)絡(luò)性能的維度不止于這三種,經(jīng)實(shí)驗(yàn)證明,ResNeXt所提到的基數(shù)維度,相比提高網(wǎng)絡(luò)深度與寬度,其對(duì)于網(wǎng)絡(luò)性能的提升往往更加有效。未來(lái)利用神經(jīng)網(wǎng)絡(luò)搜索出深度、寬度、圖像分辨率、基數(shù)四個(gè)維度之間的最優(yōu)架構(gòu),甚至發(fā)現(xiàn)其他重要維度,都將對(duì)于網(wǎng)絡(luò)性能的提升將會(huì)有極大促進(jìn)作用。

        4 結(jié)束語(yǔ)

        目前對(duì)于優(yōu)化基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法具有很大的研究?jī)r(jià)值和理論意義,同時(shí)也會(huì)帶來(lái)很多困難與挑戰(zhàn),未來(lái)希望通過(guò)對(duì)目標(biāo)檢測(cè)算法的不斷優(yōu)化,給各個(gè)領(lǐng)域帶來(lái)不俗的貢獻(xiàn)。

        猜你喜歡
        檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        久久精品国产亚洲av麻豆床戏 | 亚洲熟少妇在线播放999| 久久精品无码一区二区三区不| 日本女优一区二区在线免费观看| 国产免费人成视频在线| 日韩av激情在线观看| 国产三级在线观看免费| 国模少妇无码一区二区三区| 天堂久久一区二区三区| 成年免费a级毛片免费看无码| 一本大道无码av天堂| 国产高潮流白浆免费观看不卡 | 亚洲一区亚洲二区视频在线| 欧美黑寡妇特a级做爰 | 一本色道久久88精品综合| 免费一级毛片在线播放不收费| 伊人影院在线观看不卡| 国产日产在线视频一区| 国产精品欧美一区二区三区| 91高清国产经典在线观看| 99精品又硬又爽又粗少妇毛片| 国产黄色av一区二区三区| 免费特级毛片| 亚洲精品成人av一区二区| 熟女少妇精品一区二区三区| 超碰97人人射妻| 青青草国产成人99久久| 日本久久精品在线播放| 久久精品国产亚洲av天| 国产特级毛片aaaaaaa高清| 国产精品久久久久…| 亚洲高清激情一区二区三区| 人人妻人人做人人爽| 日韩精品无码久久久久久| 一片内射视频在线观看| 亚洲国产色一区二区三区| 无码av免费一区二区三区试看| 亚洲av成人在线网站| 亚洲精品一区二区三区四区久久| 99国产精品久久久蜜芽| 久精品国产欧美亚洲色aⅴ大片|