朱子健,劉琪,陳紅芬,張貴陽(yáng),王福寬,霍炬
(1 哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱150001)
(2 哈爾濱工業(yè)大學(xué)電氣工程及自動(dòng)化學(xué)院,哈爾濱150001)
(3 常熟理工學(xué)院機(jī)械工程學(xué)院,江蘇蘇州215500)
(4 廣西大學(xué)機(jī)械工程學(xué)院,南寧530004)
紅外小目標(biāo)檢測(cè)在許多重要任務(wù)中起著至關(guān)重要的作用,例如現(xiàn)代防御、紅外監(jiān)視和空中交通管制等[1-3]。近年來(lái),陸地車(chē)輛偵察技術(shù)是戰(zhàn)場(chǎng)把控與監(jiān)視能力建設(shè)的關(guān)鍵研究方向。隨著低空空域的逐步開(kāi)放,無(wú)人機(jī)、四旋翼等小型飛行器,通過(guò)搭載紅外攝像頭,可以隱秘的完成對(duì)地面車(chē)輛的采集與跟蹤。然而,由于觀(guān)察距離長(zhǎng),目標(biāo)通常非常小弱,幾乎沒(méi)有或完全沒(méi)有形狀和紋理信息[4]。另一方面,由于地面環(huán)境的復(fù)雜性,車(chē)輛目標(biāo)可能存在遮擋,重疊,模糊等特點(diǎn)。
因此快速而又準(zhǔn)確檢測(cè)地面車(chē)輛目標(biāo)極具挑戰(zhàn)性。此外,由飛行器的運(yùn)動(dòng)引起的背景運(yùn)動(dòng)也使得路面復(fù)雜場(chǎng)景中弱小目標(biāo)的檢測(cè)變得更加困難。在過(guò)去的幾年里,許多針對(duì)無(wú)人機(jī)航拍圖像中的車(chē)輛目標(biāo)檢測(cè)的算法逐步涌現(xiàn)出來(lái)。隨著人工智能與神經(jīng)網(wǎng)絡(luò)的興起,卷積神經(jīng)網(wǎng)絡(luò)被廣泛運(yùn)用于目標(biāo)檢測(cè)之中。針對(duì)路面車(chē)輛檢測(cè),JOSEPH Redmon 提出的YOLO(You Only Look Once)[5]和HE Kaiming 提出的Faster-RCNN[6]都能通過(guò)訓(xùn)練COCO 數(shù)據(jù)集完成對(duì)明顯車(chē)輛目標(biāo)的高精度快速檢測(cè),但是在對(duì)微小車(chē)輛目標(biāo)的檢測(cè)任務(wù)中檢測(cè)能力較為一般?;谔卣魅诤系膯伟l(fā)多盒檢測(cè)器(Feature Fusion Single Shot Multibox Detector,F(xiàn)SSD)[7]的作者LI Zuoxin 等指出,特征融合技術(shù)是解決微小目標(biāo)識(shí)別的關(guān)鍵,他通過(guò)將不同尺度的不同層級(jí)聯(lián)在一起形成特征層,運(yùn)用連續(xù)下采樣來(lái)生成新的特征金字塔,最后將此饋送到多盒檢測(cè)器中預(yù)測(cè)最終的檢測(cè)結(jié)果。通過(guò)這一思想,JOSEPH Redmon 通過(guò)上采樣構(gòu)建特征金字塔,得到Y(jié)OLOv3 模型[8],使得YOLO 系列方法得到進(jìn)一步優(yōu)化發(fā)展。LIANG Xi 等提出了FS-SSD(Feature Fusion and Scaling-based Single Shot Detector)[9],他們使用平均池化操作添加反卷積模塊的額外縮放分支以形成特征金字塔,并融入上下文分析來(lái)提高微小車(chē)輛檢測(cè)精度。上述的方法在針對(duì)彩色圖像且少遮擋的車(chē)輛小目標(biāo)檢測(cè)中能發(fā)揮出優(yōu)異的特性,但是面對(duì)紅外灰度圖像,低分辨率、弱光源、強(qiáng)遮擋等等不利因素仍然會(huì)弱化檢測(cè)準(zhǔn)確率,造成虛警、漏檢等等狀況。并且對(duì)于眾多的通用目標(biāo)檢測(cè)算法,都無(wú)法很好的移植到紅外車(chē)輛小目標(biāo)檢測(cè)中,如Faster-RCNN 等兩步法在效率上不占優(yōu)勢(shì),YOLO 或是SSD 系列等方法在未引入特征融合以及FPN 技術(shù)前甚至無(wú)法勝任紅外小目標(biāo)的檢測(cè)。
另一方面,飛行器捕獲的車(chē)輛圖像通常具有幀間連續(xù)的特點(diǎn),因此對(duì)于紅外小目標(biāo)檢測(cè)衍生出兩類(lèi)方法:?jiǎn)螏瑱z測(cè)和序列幀檢測(cè)。對(duì)于前者,PHIPIP Chen[10]考慮到紅外圖像中目標(biāo)與背景的巨大差異,結(jié)合人類(lèi)視覺(jué)注意力機(jī)制,提出了局部對(duì)比度測(cè)量(Local Contrast Method,LCM)。在此基礎(chǔ)上也衍生出許多改進(jìn)策略,如多尺度局部對(duì)比度測(cè)量(Relative Local Contrast Measure,RLCM)[11]、基于多尺度補(bǔ)丁的對(duì)比度測(cè)量(Multiscale Patch-based Contrast Measure,MPCM)[12]、雙鄰域梯度法(Double-Neighborhood Gradient Method,DNGM)[13]等等。然而這些方法容易受到雜波與噪聲的干擾,從而導(dǎo)致檢測(cè)精度不高。對(duì)于序列幀檢測(cè),通常利用相鄰圖像間的強(qiáng)相關(guān)性來(lái)進(jìn)行檢測(cè)。SLC(Spatial Local Contrast)利用空間對(duì)比度增強(qiáng)目標(biāo),TLC(Temporal Local Contrast)利用時(shí)間對(duì)比度增強(qiáng)目標(biāo),STLCF(Spatial-temporal local contrast filter)[14]則結(jié)合二者形成時(shí)空對(duì)比度濾波器。這些方法通過(guò)序列圖像生成軌跡使得精度提升,但是他們忽略了運(yùn)動(dòng)的背景,時(shí)刻大幅度震動(dòng)的無(wú)人機(jī)平臺(tái)會(huì)導(dǎo)致背景運(yùn)動(dòng)加劇,從而產(chǎn)生大量虛警。在基于深度學(xué)習(xí)的紅外小目標(biāo)識(shí)別方面有許多學(xué)者給出一定的研究,WANG Huaichao[15]等考慮到了這一問(wèn)題,采用深度學(xué)習(xí)策略在空間上初步定位目標(biāo)信息,接著運(yùn)用圖匹配以及序列圖像的光流圖完成對(duì)虛警的剔除,增強(qiáng)了識(shí)別的可信度。但是,對(duì)于漏檢的情況他們并沒(méi)有做出優(yōu)化。文獻(xiàn)[16]介紹了一種基于CNN 的用于紅外圖像船舶檢測(cè)的目標(biāo)檢測(cè)器,它設(shè)計(jì)了一個(gè)TNet 來(lái)生成合成目標(biāo),并將檢測(cè)任務(wù)分為兩個(gè)步驟,包括候選目標(biāo)提取和候選識(shí)別。船舶檢測(cè)的過(guò)程比較復(fù)雜,無(wú)法端到端的實(shí)現(xiàn)。文獻(xiàn)[17]將紅外小目標(biāo)檢測(cè)作為分割任務(wù),設(shè)計(jì)了一個(gè)去噪和自動(dòng)編碼器網(wǎng)絡(luò),稱(chēng)為CDAE。CDAE 可以端到端地檢測(cè)紅外小目標(biāo),但是存在誤報(bào)的問(wèn)題。文獻(xiàn)[18]為了實(shí)現(xiàn)端到端檢測(cè),設(shè)計(jì)了一種高效的基于CNN 的目標(biāo)檢測(cè)器ISTDet。上述方法大多針對(duì)于單一的紅外空中目標(biāo),并且運(yùn)用各種技術(shù)手段來(lái)減少虛警。然而對(duì)于地面目標(biāo),存在多目標(biāo)且交錯(cuò)的場(chǎng)景,導(dǎo)致漏檢的概率遠(yuǎn)遠(yuǎn)大于虛警。通常來(lái)說(shuō),過(guò)分的剔除虛警無(wú)疑會(huì)產(chǎn)生漏檢,而通過(guò)強(qiáng)特征學(xué)習(xí)后能對(duì)漏檢做出彌補(bǔ),卻又會(huì)導(dǎo)致虛警的產(chǎn)生。因此針對(duì)無(wú)人機(jī)航拍地面車(chē)輛小目標(biāo)的檢測(cè),如何在漏檢與虛警之間找到平衡,是提高檢測(cè)魯棒性與準(zhǔn)確率的關(guān)鍵所在。
綜合考慮上述問(wèn)題,考慮到實(shí)際對(duì)車(chē)輛的拍攝情況是實(shí)時(shí)進(jìn)行的,無(wú)法從后續(xù)圖像來(lái)推測(cè)當(dāng)前圖像信息。因此本文采用單幀檢測(cè)辦法,提出一種端到端的紅外車(chē)輛目標(biāo)檢測(cè)的算法,即基于并行融合網(wǎng)絡(luò)的航拍紅外車(chē)輛小目標(biāo)檢測(cè)方法。首先利用基于并行殘差塊的網(wǎng)絡(luò)(Parallel Residual Net,PaRNet)。通過(guò)對(duì)并行殘差塊的重復(fù)堆疊完成主干網(wǎng)絡(luò)PaRNet 的搭建,并且在特征融合上充分抽取底層特征,從而實(shí)現(xiàn)對(duì)紅外車(chē)輛小目標(biāo)的高精度目標(biāo)檢測(cè)。
主干網(wǎng)絡(luò),作為目標(biāo)檢測(cè)框架中特征提取的模塊,在可信度與魯棒性上起著不可或缺的作用。通常來(lái)說(shuō),主干網(wǎng)絡(luò)都是由用于分類(lèi)的深度卷積神經(jīng)網(wǎng)絡(luò)演變而來(lái)[19]。如今,比較流行的深度卷積神經(jīng)網(wǎng)絡(luò)包括VGG[20],ResNet[21],GoogLeNet[22]和DenseNet[23]。這些網(wǎng)絡(luò)都是基于模塊化的思想,以卷積構(gòu)建塊為基礎(chǔ),我們所需要做的是找到最優(yōu)的局部構(gòu)造并在空間上重復(fù)它。
ResNet 是深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域重要的神經(jīng)網(wǎng)絡(luò)模型類(lèi)型。眾所周知,在加深神經(jīng)網(wǎng)絡(luò)層時(shí),由于訓(xùn)練精度的降低,很難學(xué)習(xí)從輸入到輸出的直接映射。然而ResNet 可以很好的克服這個(gè)問(wèn)題[24]。ResNet 引入了一種全新的網(wǎng)絡(luò)結(jié)構(gòu),稱(chēng)為殘差網(wǎng)絡(luò),它代表了一個(gè)前向反饋快捷網(wǎng)絡(luò)[25]。將x定義為神經(jīng)網(wǎng)絡(luò)模型的輸入。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型傾向于學(xué)習(xí)訓(xùn)練數(shù)據(jù)的輸入輸出映射H(x),而殘差網(wǎng)絡(luò)模型傾向于學(xué)習(xí)表示為F(x) =H(x) -x的映射函數(shù)。這樣就避免了學(xué)習(xí)從x到H(x)的直接映射,同時(shí)學(xué)習(xí)了它們之間的差異。此差值與零更為相近,更能收斂到預(yù)期的效果。殘差塊模型的結(jié)構(gòu)如圖1所示。對(duì)于淺層的網(wǎng)絡(luò)采用BasicBlock 的結(jié)構(gòu)形式(由兩層3×3 卷積核組成),對(duì)于深層的網(wǎng)絡(luò)則更適合采用BottleBlock 的形式(由一層3×3 卷積核以及兩層1×1 卷積核組成)。
圖1 殘差塊示意圖Fig.1 Residual block
ResNet 引入了殘差塊residual,在檢測(cè)精度上產(chǎn)生了飛躍,為網(wǎng)絡(luò)深度奠定了基礎(chǔ)。GoogLeNet 引入了Inception 塊,運(yùn)用并行運(yùn)算提高模型效率,但是隨著網(wǎng)絡(luò)寬度和深度的不斷增加,大量的3×3 卷積核與5×5 卷積核易于導(dǎo)致模型計(jì)算量驟增,產(chǎn)生梯度爆炸,在小數(shù)據(jù)集上有時(shí)會(huì)起到適得其反的效果[26-28]。本文在ResNet 的基礎(chǔ)上,提出了一種基于并行連接的卷積神經(jīng)網(wǎng)絡(luò),PaRNet。它主要由連續(xù)卷積與一些并行的殘差塊穿插而成,在較為輕量級(jí)的網(wǎng)絡(luò)上提升了模型泛化性能與準(zhǔn)確率。
在目標(biāo)檢測(cè)算法中,YOLO 系列因快速性與準(zhǔn)確性而廣泛被使用。YOLOv3 采用Darknet 作為主干特征提取網(wǎng)絡(luò)。在特征融合部分,YOLOv3 提取多特征層進(jìn)行目標(biāo)檢測(cè),一共提取三個(gè)特征層。三個(gè)特征層位于主干部分Darknet53 的中間層,中下層,底層。在獲得三個(gè)有效特征層后,利用這三個(gè)有效特征層進(jìn)行特征金字塔FPN 層的構(gòu)建,構(gòu)建方式如圖2所示。
圖2 YOLOv3 主干網(wǎng)絡(luò)與特征提取示意圖Fig.2 The backbone and feature map of YOLOv3
PaRNet 模型如圖3所示,首先采用多層連續(xù)卷積,這種連續(xù)的卷積結(jié)構(gòu)是典型的VGG 中的網(wǎng)絡(luò)結(jié)構(gòu),用連續(xù)少量的接收器域(5×5 和3×3 窗口)以增強(qiáng)特征學(xué)習(xí)能力,使得特征圖中單個(gè)元素的感受野變得廣闊。接著采用局部響應(yīng)規(guī)范化方法,來(lái)增強(qiáng)模型的泛化能力。然后采用基于并行的殘差塊來(lái)堆疊形成主干部分,這也是PaRNet 中至關(guān)重要的一部分。基于并行的殘差塊結(jié)構(gòu)如圖4所示,輸入部分被賦予兩條路徑,主干是通過(guò)傳統(tǒng)的殘差塊塊進(jìn)行圖像尺寸的壓縮。分支則是通過(guò)3×3 的最大池化層與1×1 的卷積層對(duì)圖像特征進(jìn)行充分提取后,與主干進(jìn)行通道維數(shù)的融合,從而獲取通道維數(shù)上的遞增。此結(jié)構(gòu)包含以下兩點(diǎn)貢獻(xiàn)。
圖3 PaRNet 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 PaRNet structure diagram
圖4 并行殘差塊設(shè)計(jì)示意圖Fig.4 Parallel residual block designing diagram
2.1.1 通道融合策略
本結(jié)構(gòu)中,有效深度的增加體現(xiàn)在圖像尺寸的減小,通道的擴(kuò)張則是由通道融合實(shí)現(xiàn)的。因此,某個(gè)特定尺度下圖像的多方位特征可以得到充分提取。通常,隨著網(wǎng)絡(luò)尺寸的不斷增加,過(guò)擬合的現(xiàn)象也越發(fā)嚴(yán)重,ResNet 雖然采用了估計(jì)殘差的形式,但是對(duì)于深度網(wǎng)絡(luò)仍會(huì)出現(xiàn)梯度消失的狀況。而并行的架構(gòu)會(huì)將網(wǎng)絡(luò)整體稀疏化,在優(yōu)化過(guò)程中能極大程度的緩解梯度爆炸和梯度消失的問(wèn)題。再則,并行架構(gòu)提升了計(jì)算資源的利用率,淺層的網(wǎng)絡(luò)可能可以達(dá)到與深層一樣的效果,起到了輕量化的作用。
通道融合策略完成了底層特征與頂層的融合。ResNet 通常在若干個(gè)殘差塊的最后一塊中進(jìn)行圖像尺寸的對(duì)半壓縮,而前面的所有部分均為同尺度的維數(shù)擴(kuò)張以及感受野的擴(kuò)大。如圖5所示,由于采用3×3的卷積核,為了保持尺寸不變,必須設(shè)置填充。因此下層圖像的每一塊像素都會(huì)獲取上層圖像中2×2 的感受野。以3 塊殘差塊為例,最下層中的每一像素獲取到中間層2×2 的感受野以及最頂層3×3 的感受野。在獲取頂層感受野時(shí),其中的9 個(gè)像素并不是同等待遇獲取的,內(nèi)圈的像素會(huì)得到多次的利用而四周的區(qū)域得不到充分使用。這種做法難免會(huì)丟失掉少量像素信息,而對(duì)于目標(biāo)本身就不占太多像素的紅外灰度圖像,會(huì)導(dǎo)致訓(xùn)練準(zhǔn)確度的下降。然后本文吸取GoogleNet 的部分思想,在此模型基礎(chǔ)上并聯(lián)網(wǎng)絡(luò),實(shí)現(xiàn)頂層特征與底層特征直接融合。在此支路中,所有像素均同等考慮,從上層獲取的特征一部分經(jīng)少量網(wǎng)絡(luò)后直接與底層特征相融合。因此豐富了圖像的理解與表達(dá),在針對(duì)小目標(biāo)或是傳統(tǒng)數(shù)據(jù)集時(shí)算法效能都有一定提升。
圖5 通道融合策略感受野示意圖Fig.5 Schematic diagram of the receptive field of channel fusion strategy
2.1.2 3 ×3 最大池化與1×1 卷積
3×3 最大池化用于緩解卷積層對(duì)位置的過(guò)度敏感性。它使模型可以抽取更廣范圍的特征并在一定程度上避免過(guò)擬合的發(fā)生。1×1 卷積核,可以改變通道維數(shù),起到不同通道間的信息交互,并且可以在保持特征層尺度輸出的前提下大幅增加非線(xiàn)性特性。值得注意的是,3×3 卷積,5×5 卷積或者并聯(lián)更多的分支網(wǎng)絡(luò),效果都適得其反。諸如3×3,5×5 等大容量卷積核會(huì)耗費(fèi)大量的參數(shù),與殘差塊并聯(lián)后會(huì)增大網(wǎng)絡(luò)整體的負(fù)載。為了適應(yīng)網(wǎng)絡(luò),學(xué)習(xí)率務(wù)必下調(diào),這樣反而破壞了ResNet 原有的思想。
根據(jù)ResNet 的網(wǎng)絡(luò)搭建方式,我們將若干個(gè)基于并行的殘差塊進(jìn)行串聯(lián),得到PaRNet-35 和PaRNet-51,如圖6所示,當(dāng)選擇“Basicblock”時(shí)為PaRNet-35,選擇“Bottleneck”時(shí)為PaRNet-51。它們都是由4 塊并行殘差塊組成,不同的是,PaRNet-51 網(wǎng)絡(luò)層數(shù)更深,因此在搭建殘差塊時(shí)采用BottleNeck 作為基礎(chǔ)塊。在通道上,采用[64,128,256,512,1024]遞增的形式來(lái)構(gòu)造。
圖6 PaRNet-35 與PaRNet-51 網(wǎng)絡(luò)示意圖Fig.6 Architecture of PaRNet-35 and PaRNet-51
將PaRNet-51 作為目標(biāo)檢測(cè)的主干網(wǎng)絡(luò),提出基于跨層連接的YOLOv3 來(lái)搭建特征金字塔實(shí)現(xiàn)高精度微小目標(biāo)檢測(cè)。如第1 節(jié)所述,已經(jīng)有很多算法試圖觀(guān)察并充分利用金字塔特征。一般而言,針對(duì)微小目標(biāo)的識(shí)別,通常需要更深層次的網(wǎng)絡(luò)以及更加細(xì)膩的特征。因此,我們分別提取第2,3,4 塊并行殘差塊的輸出特征,通過(guò)自下而上擴(kuò)大圖像尺寸的方式來(lái)進(jìn)行特征層的融合。在傳統(tǒng)的YOLOv3 基礎(chǔ)上,我們將上采樣操作全部替換為反卷積,從而更加充分的還原微小目標(biāo)的細(xì)節(jié)特征。
反卷積也被稱(chēng)為轉(zhuǎn)置卷積,在生成對(duì)抗網(wǎng)絡(luò)中第一次被提出[29]。反卷積其實(shí)就是卷積的逆過(guò)程。將底層的圖像通過(guò)卷積操作還原到尺寸更大或是原始尺寸的圖像,以此來(lái)反應(yīng)圖像中像素級(jí)別的特征[30-32]。較單純的上采樣相比,反卷積操作能挖掘到每個(gè)像素特征,還原更為精細(xì)的局部特征,如圖7所示,因此更適用于對(duì)小目標(biāo)的檢測(cè)工作。然而反卷積很容易有不均勻的重疊,特別是當(dāng)核尺寸不能被步長(zhǎng)整除的時(shí)候,會(huì)產(chǎn)生不均勻的重疊從而導(dǎo)致棋盤(pán)格效應(yīng)[33]。因此,我們?cè)谧詈笠粚臃淳矸e上設(shè)置步長(zhǎng)為1 來(lái)緩解此狀況。
圖7 反卷積與上采樣Fig.7 Deconvolution and upsampling
與此同時(shí),最底層的輸出特征,即通道數(shù)為2 048 的特征層,經(jīng)過(guò)重復(fù)卷積后,被融合到網(wǎng)絡(luò)的每一層中,而不是只針對(duì)前一層。我們同樣設(shè)置多層反卷積并在通道維數(shù)上進(jìn)行逐層與跨層的連接。更進(jìn)一步,第一塊并行殘差塊的輸出特征通過(guò)卷積層與最大池化層作用后,同樣與其它特征層進(jìn)行有效融合,以保證特征的完備性與全面性。具體結(jié)構(gòu)與如圖8所示。
圖8 基于跨層連接的特征融合示意圖Fig.8 Diagram of feature fusion based on cross-layer connection
反卷積模塊由2 個(gè)步幅為1 的2×2 反卷積層組成,每一層都由整流線(xiàn)性單元(ReLU)激活,然后進(jìn)行批量處理歸一化操作。與傳統(tǒng)的雙線(xiàn)性上采樣方法相比,反卷積層在提高特征層分辨率基礎(chǔ)上,更加注重圖像細(xì)粒度的識(shí)別,有助于提高網(wǎng)絡(luò)特征的代表性。輸入的微小變化會(huì)導(dǎo)致?lián)p失函數(shù)的較大變化,從而使得梯度變大并緩解梯度消失的問(wèn)題。反卷積模塊將特征圖放大后與淺層特征融合,通過(guò)連續(xù)卷積得到最終預(yù)測(cè)層。
將PaRNet運(yùn)用于公認(rèn)的CIFAR-10數(shù)據(jù)集和CIFAR-100數(shù)據(jù)集。并運(yùn)用通用標(biāo)準(zhǔn)去評(píng)估我們的網(wǎng)絡(luò),如TOP-1錯(cuò)誤率,TOP-5錯(cuò)誤率,準(zhǔn)確率等等。最后通過(guò)與ResNet等流行網(wǎng)絡(luò)的比較,驗(yàn)證本文方法的有效性。3.1.1 CIFAR-10 數(shù)據(jù)集
CIFAR-10 數(shù)據(jù)集[34]是由50 000 個(gè)訓(xùn)練圖像和10 000 個(gè)測(cè)試圖像組成的10 分類(lèi)圖像集。我們?cè)谟?xùn)練集中進(jìn)行實(shí)驗(yàn),并在測(cè)試集中進(jìn)行評(píng)估。在訓(xùn)練上,采用小批量梯度下降的方式進(jìn)行訓(xùn)練,學(xué)習(xí)率設(shè)置為0.1,動(dòng)量設(shè)置為0.1,批量設(shè)置為16,一共訓(xùn)練1 000 個(gè)周期。實(shí)驗(yàn)環(huán)境配置為GTX2070 + Ubuntu 16.04 +PyTorch 1.6.1 + CUDA 10.1 + CUDNN 7.6.5 + Python 3.6.9。將訓(xùn)練結(jié)果與相似層數(shù)的ResNet 和GoogLeNet 進(jìn)行了對(duì)比。
表1 展示了PaRNet-35 和PaRNet-51 的模型參數(shù)Params、浮點(diǎn)計(jì)算量FLOPs、TOP-1 錯(cuò)誤率以及TOP-5 錯(cuò)誤率。我們將其與傳統(tǒng)網(wǎng)絡(luò),如ResNet-50,ResNet-101 以及GoogLeNet 進(jìn)行了對(duì)比。從參數(shù)量與計(jì)算量上不難看出,相較于相似層數(shù)的網(wǎng)絡(luò)而言,PaRNet 擁有更多的參數(shù)但卻擁有更少的計(jì)算量,這得益于并行的優(yōu)勢(shì),反映出與GoogLeNet 網(wǎng)絡(luò)類(lèi)似的稀疏性。隨著網(wǎng)絡(luò)層數(shù)的加深,ResNet 在準(zhǔn)確率上會(huì)得到提升,而我們的網(wǎng)絡(luò)吸取了這一優(yōu)點(diǎn)。在前1 000 次的訓(xùn)練中,無(wú)論是PaRNet-35 還是PaRNet-51 網(wǎng)絡(luò),都能在低網(wǎng)絡(luò)負(fù)載的情況下得到更為精確的分類(lèi)結(jié)果。
表1 不同網(wǎng)絡(luò)在CIFAR-10 上的表現(xiàn)Table 1 Performance of different networks on CIFAR-10
圖9 是上述網(wǎng)絡(luò)在CIFAR-10 上正確率隨迭代周期的動(dòng)態(tài)變化趨勢(shì)。無(wú)論是在前期下降段速率以及震蕩情況,還是后期的平穩(wěn)程度與準(zhǔn)確度,PaRNet 都要優(yōu)于傳統(tǒng)的網(wǎng)絡(luò)。一方面,由于加入了并行模塊,網(wǎng)絡(luò)得以分流從而導(dǎo)致在前期獲得較大的下降梯度,因此PaRNet 網(wǎng)絡(luò)分類(lèi)誤差在整體上擁有更大的速降率。另一方面,PaRNet網(wǎng)絡(luò)模型更具有平穩(wěn)性與魯棒性。在周期達(dá)到500 之后時(shí),PaRNet曲線(xiàn)更為平滑。
圖9 CIFAR-10 數(shù)據(jù)集上不同網(wǎng)絡(luò)中TOP-1 值隨訓(xùn)練周期的變化圖Fig.9 The change of TOP-1 value in different networks with the training epochs on CIFAR-10
3.1.2 CIFAR-100 數(shù)據(jù)集
CIFAR-100 數(shù)據(jù)集[34]是由50 000 個(gè)訓(xùn)練圖像和10 000 個(gè)測(cè)試圖像組成的100 分類(lèi)圖像集,是一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集。運(yùn)用和上述相同的方式進(jìn)行訓(xùn)練與測(cè)試。
表2 展示了在復(fù)雜分類(lèi)任務(wù)的數(shù)據(jù)集上,PaRNet-35 和PaRNet-51 的TOP-1 誤差以及TOP-5 誤差。針對(duì)復(fù)雜的學(xué)習(xí)任務(wù),PaRNet 能表現(xiàn)出更高的準(zhǔn)確率。
表2 不同網(wǎng)絡(luò)在CIFAR-100 上的表現(xiàn)Table 2 Performance of different networks on CIFAR-100
圖10 展示了上述網(wǎng)絡(luò)在CIFAR-100 上正確率隨迭代周期的動(dòng)態(tài)變化趨勢(shì)。PaRNet 綜合了ResNet 與GoogLeNet 的優(yōu)勢(shì),一方面,隨著網(wǎng)絡(luò)加深,獲得的準(zhǔn)確率收益也增大;另一方面,PaRNet 也表現(xiàn)出了更快的收斂率與可信度。
圖10 CIFAR-100 數(shù)據(jù)集上不同網(wǎng)絡(luò)TOP-1 值隨訓(xùn)練周期的變化圖Fig.10 The change of TOP-1 value in different networks with the training epochs on CIFAR-100
本數(shù)據(jù)集采用的紅外數(shù)據(jù)為無(wú)人機(jī)對(duì)地拍攝的序列圖像[35]。單幀圖像分辨率為640×480、1 個(gè)波段、8 bit 位深。包括遮擋,錯(cuò)車(chē),平臺(tái)移動(dòng)等等特殊復(fù)雜連續(xù)場(chǎng)景。每個(gè)典型場(chǎng)景對(duì)應(yīng)1 個(gè)數(shù)據(jù)段、共計(jì)64 個(gè)數(shù)據(jù)段、每個(gè)數(shù)據(jù)段250 張圖像。如圖11 與圖12所示為列舉出的幾種典型場(chǎng)景中的圖片。
圖11 錯(cuò)車(chē)場(chǎng)景部分幀圖像Fig.11 Part of the frame image of the meeting
圖12 多目標(biāo)模糊場(chǎng)景部分幀圖像Fig.12 Part of the frame image of the multiple fuzzy targets
將48 個(gè)文件夾,共計(jì)12 000 張圖像作為訓(xùn)練集,其余的4 000 張圖像作為測(cè)試集。分別運(yùn)用經(jīng)典的YOLOv3 以及本文改進(jìn)的方法進(jìn)行訓(xùn)練與測(cè)試。在與上述相同的配置環(huán)境下進(jìn)行實(shí)驗(yàn)。運(yùn)用Adam(Adaptive Moment Estimation)算法進(jìn)行優(yōu)化,設(shè)計(jì)初始學(xué)習(xí)率為0.001,使用StepLR 機(jī)制來(lái)動(dòng)態(tài)減小學(xué)習(xí)率。由于網(wǎng)絡(luò)結(jié)構(gòu)的更改導(dǎo)致缺少對(duì)應(yīng)的預(yù)訓(xùn)練權(quán)重,因此我們?cè)谶\(yùn)用YOLOv3 算法訓(xùn)練時(shí)也去掉預(yù)訓(xùn)練權(quán)重。在訓(xùn)練方式上采用凍結(jié)訓(xùn)練,防止訓(xùn)練初期權(quán)值被破壞的同時(shí)加快訓(xùn)練速度。設(shè)置凍結(jié)訓(xùn)練世代為50 次,非凍結(jié)訓(xùn)練世代為100 次。對(duì)于計(jì)算檢測(cè)框中傳統(tǒng)的非極大抑制NMS(Non-Maximum Suppression)算法,我們將其改為文獻(xiàn)[36]中的soft-NMS 算法以解決車(chē)輛重疊程度大而導(dǎo)致的漏檢問(wèn)題。由于對(duì)于紅外車(chē)輛目標(biāo)而言,我們關(guān)注的是是否能正確無(wú)誤檢測(cè)車(chē)輛,而忽略給車(chē)輛分類(lèi)的正確性問(wèn)題,因此運(yùn)用傳統(tǒng)指標(biāo)mAP 對(duì)結(jié)果進(jìn)行評(píng)價(jià)意義不大。虛警率(False Alarm Rate,F(xiàn)AR)和漏檢率(Missed Detection Rate,MDR)由式(1)進(jìn)行計(jì)算得到。
式中,AlarmObj 為存在虛警的目標(biāo)數(shù)量;MissedObj 為存在漏檢的目標(biāo)數(shù)量;TotalObj 為圖像目標(biāo)總數(shù)量。
兼顧檢測(cè)的準(zhǔn)確性與實(shí)時(shí)性,得到5 個(gè)典型場(chǎng)景中的虛警率,漏檢率以及FPS(Frames Per Second)三個(gè)指標(biāo)如表3所示。由于通過(guò)測(cè)試,F(xiàn)ast-RCNN,SSD 以及FSSD 等傳統(tǒng)算法由于特征融合不夠深入或是對(duì)底層特征不敏感等劣勢(shì),在紅外車(chē)輛小目標(biāo)數(shù)據(jù)集上,幾乎無(wú)法完成對(duì)目標(biāo)的正常的檢測(cè)。而YOLOv4,YOLOv5 等改進(jìn)只是錦上添花而并未針對(duì)主體網(wǎng)絡(luò)架構(gòu)進(jìn)行大幅度改動(dòng)。在此將本文方法與YOLOv3 以及文獻(xiàn)[15]中提出的方法(在此稱(chēng)為FCR-G)進(jìn)行對(duì)比。
由表3 不難看出,針對(duì)于紅外拍攝的車(chē)輛小目標(biāo)而言,本文的改進(jìn)算法在精度上要優(yōu)于傳統(tǒng)的YOLOv3算法。首先,在時(shí)間上兩者差異并不大,可以說(shuō)都具有高效性。在精度上,本文的方法總體上達(dá)到了1.36%的虛警率以及0.01%的漏檢率,優(yōu)于傳統(tǒng)的YOLOv3 網(wǎng)絡(luò)。而相比于FCR-G 算法,兩者在漏檢與虛警上的差異并不大,但是由于無(wú)需后續(xù)的圖匹配以及光流處理,本文的算法顯得更為高效。
表3 不同序列場(chǎng)景上評(píng)估指標(biāo)值的計(jì)算Table 3 Calculation of evaluation index values in different sequence scenarios
將本文的算法與現(xiàn)有的針對(duì)紅外小目標(biāo)檢測(cè)的算法進(jìn)行對(duì)比。如引言所說(shuō),將這類(lèi)方法分為兩類(lèi),第一類(lèi)為未引入深度學(xué)習(xí)的一些基于局部特征對(duì)比的方法,另一類(lèi)則為基于深度學(xué)習(xí)的方法,其中也包括一些通用的目標(biāo)檢測(cè)的方法。表4 為與基于局部特征對(duì)比的一些方法的比較。表5 則為與基于深度學(xué)習(xí)方法的比較。在此處的漏檢率與虛警率取所有場(chǎng)景的平均值。由表4 得到,未采用深度學(xué)習(xí)的方法無(wú)論在效率還是精確度上都達(dá)不到要求。而從表5 中可以看到,本文提出的算法兼顧了精度與效率,在漏檢率、虛警率以及檢測(cè)周期上都有一定提升。
表4 不同算法能力評(píng)估對(duì)比(未采用深度學(xué)習(xí))Table 4 Comparison of different algorithm(without deep learning)
表5 不同算法能力評(píng)估對(duì)比(融合深度學(xué)習(xí))Table 5 Comparison of different algorithm(with deep learning)
綜上所述,本文提出的PaRNet 主干網(wǎng)絡(luò)具有較高的準(zhǔn)確率以及收斂速率,更重要的是其具有一定的魯棒性,對(duì)于復(fù)雜環(huán)境下的模糊目標(biāo)也具備一定的識(shí)別能力。另一方面,本文改進(jìn)后的算法加入了跨層的連接與更深程度的特征融合,使得網(wǎng)絡(luò)對(duì)底層小目標(biāo)的理解更為充分。最后引入的soft-NMS 算法也在一定程度上解決了車(chē)輛因錯(cuò)車(chē)而引起的重疊問(wèn)題。但是目標(biāo)在多目標(biāo)模糊場(chǎng)景下的高漏檢率還是不容忽視的。最后值得注意的是,對(duì)于航拍的紅外車(chē)輛小目標(biāo)檢測(cè)而言,虛警的情況是比較少見(jiàn)的,而漏檢卻處處存在,如何進(jìn)一步優(yōu)化網(wǎng)絡(luò)特征融合的模型是提高檢測(cè)精度的關(guān)鍵所在。圖13 展示了檢測(cè)效果圖。
圖13 檢測(cè)可視化Fig.13 Detection visualization
在處理低空航拍的紅外車(chē)輛小目標(biāo)檢測(cè)時(shí),由于背景復(fù)雜且包含運(yùn)動(dòng),傳統(tǒng)檢測(cè)方法無(wú)法得到準(zhǔn)確的檢測(cè)結(jié)果。本文提出了一種基于并行融合網(wǎng)絡(luò)模型的檢測(cè)方法,包括主干網(wǎng)絡(luò)PaRNet 的搭建設(shè)計(jì)以及對(duì)特征層的跨層連接。實(shí)驗(yàn)結(jié)果表明,在多個(gè)復(fù)雜的運(yùn)動(dòng)背景測(cè)試序列中,該方法能夠以較低的虛警率準(zhǔn)確檢測(cè)目標(biāo),其中整體虛警率僅為0.01%,漏檢率僅為1.36%。未來(lái),可以在網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練中加入上下文信息,引入時(shí)序信息,通過(guò)在相鄰幀之間引入卷積來(lái)進(jìn)一步提升算法性能。