車(chē)瑩
(云南師范大學(xué)信息學(xué)院,云南 昆明 650000)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域研究的重要基礎(chǔ),不論是實(shí)現(xiàn)圖像與文字的交互還是特定目標(biāo)的跟蹤,目標(biāo)檢測(cè)都能夠提供可靠有效的信息,因而目標(biāo)檢測(cè)在人工智能和信息技術(shù)等眾多領(lǐng)域都有廣泛的應(yīng)用,如機(jī)器視覺(jué)、智慧安保、醫(yī)學(xué)影像中的病灶檢測(cè)、自動(dòng)駕駛、行為理解、人機(jī)交互、基于內(nèi)容的圖像檢索、智能視頻監(jiān)控等[1-6]。目標(biāo)檢測(cè)的實(shí)時(shí)性和準(zhǔn)確性為目標(biāo)后續(xù)的追蹤與行為識(shí)別提供良好條件。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,豐富多樣的深度學(xué)習(xí)目標(biāo)檢測(cè)算法被提出。目前基于深度學(xué)習(xí)且應(yīng)用比較廣泛的目標(biāo)檢測(cè)算法可以分為兩類(lèi):
(1) 基于兩階段的目標(biāo)檢測(cè)算法如Mask R-CNN、fast-rcnn、faster-rcnn 等。兩階段目標(biāo)檢測(cè)算法先使用區(qū)域候選網(wǎng)絡(luò)(RPN)提取候選目標(biāo)信息,再利用檢測(cè)網(wǎng)絡(luò)完成對(duì)候選目標(biāo)的位置和類(lèi)別的預(yù)測(cè)和識(shí)別;
(2)基于一階段的目標(biāo)檢測(cè)算法如2016 年的yolo 算法、yolo900,2018 年的yolo v3 算法, 其中yolo v3 算法使用了darknet53 主干特征提取網(wǎng)絡(luò),該網(wǎng)絡(luò)借鑒了resnet 思想、ssd 目標(biāo)檢測(cè)算法。基于一階段的目標(biāo)檢測(cè)算法直接通過(guò)網(wǎng)絡(luò)端到端的輸出目標(biāo)的位置和類(lèi)別,無(wú)需預(yù)先提取區(qū)域候選網(wǎng)絡(luò),因此檢測(cè)速度更快,但較于二階段檢測(cè)模型其檢測(cè)的精度有待提高。
yolo v3 的主干特征提取網(wǎng)絡(luò)采用darknet53,darknet53 由5 個(gè)殘差塊構(gòu)成,每個(gè)殘差塊又包含若干殘差單元。
圖1 rfb 結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)逐層抽象的提取目標(biāo)特征,高層特征圖感受野較大,包含信息較多,可以準(zhǔn)確的檢測(cè)出目標(biāo)。低層特征分辨率高,幾何信息表征能力強(qiáng),但感受也較小,包含了目標(biāo)的細(xì)節(jié)、紋理信息。隨著卷積網(wǎng)絡(luò)的不斷加深,低層特征圖信息易丟失,因此對(duì)原yolo v3 網(wǎng)絡(luò)進(jìn)行改進(jìn)。采用增大感受野的rfb模塊,用于提取更多的特征信息。rfb 模塊包括級(jí)聯(lián)卷積層和空洞卷積。結(jié)構(gòu)如圖1 所示。
yolo v3 第三個(gè)、第四個(gè)殘差塊經(jīng)過(guò)降采樣輸出的特征圖包含的信息比高層特征圖要少,因此分別在其后面添加rfb 模塊,增加特征圖的感受野,用于提取更多特征信息。
傳統(tǒng)的錨框冗余去除算法直接將低于閾值的框去除,導(dǎo)致部分有重疊情況的目標(biāo)漏檢,因此需要對(duì)其進(jìn)行改進(jìn)行。柔性非極大值抑制方法對(duì)與最高分值的檢測(cè)框M 有重疊的相鄰檢測(cè)框的檢測(cè)分?jǐn)?shù)進(jìn)行衰減(而非將其分?jǐn)?shù)直接設(shè)置為0)。柔性非極大值抑制通過(guò)設(shè)置懲罰機(jī)制實(shí)現(xiàn)了過(guò)濾無(wú)效重疊檢測(cè)框和避免不同物體漏檢,并提升檢測(cè)精度。當(dāng)檢測(cè)框與最高分檢測(cè)框的iou 越大,其懲罰越大,懲罰公式如公式(1)所示:
Si為第i 個(gè)預(yù)測(cè)框的置信度,e 為自然底數(shù),
M 為置信度最大的預(yù)測(cè)框,bi為第i 個(gè)預(yù)測(cè)框,?為常數(shù)0.5,D 為已經(jīng)遍歷后的預(yù)測(cè)框集合。
實(shí)驗(yàn)環(huán)境包括windows10 操作系統(tǒng)、cuda、python、pytorch、opencv,表1。
表1 實(shí)驗(yàn)環(huán)境的硬件配置
voc2007 數(shù)據(jù)集為標(biāo)準(zhǔn)數(shù)據(jù)集,訓(xùn)練集5011 幅,測(cè)試集4952 幅,共計(jì)9963 幅圖,包含20 個(gè)種類(lèi)。
采用目標(biāo)檢測(cè)通用的評(píng)價(jià)指標(biāo)-map 值對(duì)實(shí)驗(yàn)進(jìn)行評(píng)價(jià)。
初始學(xué)習(xí)率為le-3,采用adam 優(yōu)化,batch size 為8。
在實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)參數(shù)設(shè)置相同的條件下,分別對(duì)yolo v3網(wǎng)絡(luò)和優(yōu)化后的網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的網(wǎng)絡(luò)map 值提升了1.46%,見(jiàn)表2。
表2 實(shí)驗(yàn)結(jié)果map 值
圖片檢測(cè)實(shí)驗(yàn)結(jié)果圖,見(jiàn)圖2。