陳 旭,吳 蔚,彭冬亮,谷 雨
〈圖像處理與仿真〉
Infrared-PV:面向監(jiān)控應(yīng)用的紅外目標(biāo)檢測(cè)數(shù)據(jù)集
陳 旭1,吳 蔚2,彭冬亮1,谷 雨1
(1. 杭州電子科技大學(xué) 自動(dòng)化學(xué)院,浙江 杭州 310018;2. 中國(guó)電子科技集團(tuán)第28研究所,江蘇 南京 210007)
紅外攝像機(jī)雖然能夠全天候24h工作,但是相比于可見(jiàn)光攝像機(jī),其獲得的紅外圖像分辨率和信雜比低,目標(biāo)紋理信息缺乏,因此足夠的標(biāo)記圖像和進(jìn)行模型優(yōu)化設(shè)計(jì)對(duì)于提高基于深度學(xué)習(xí)的紅外目標(biāo)檢測(cè)性能具有重要意義。為解決面向監(jiān)控應(yīng)用場(chǎng)景的紅外目標(biāo)檢測(cè)數(shù)據(jù)集缺乏的問(wèn)題,首先采用紅外攝像機(jī)采集了不同極性的紅外圖像,基于自研圖像標(biāo)注軟件實(shí)現(xiàn)了VOC格式的圖像標(biāo)注任務(wù),構(gòu)建了一個(gè)包含行人和車(chē)輛兩類(lèi)目標(biāo)的紅外圖像數(shù)據(jù)集(Infrared-PV),并對(duì)數(shù)據(jù)集中的目標(biāo)特性進(jìn)行了統(tǒng)計(jì)分析。然后采用主流的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型進(jìn)行了模型訓(xùn)練與測(cè)試,定性和定量分析了YOLO系列和Faster R-CNN系列等模型對(duì)于該數(shù)據(jù)集的目標(biāo)檢測(cè)性能。構(gòu)建的紅外目標(biāo)數(shù)據(jù)集共包含圖像2138張,場(chǎng)景中目標(biāo)包含白熱、黑熱和熱力圖3種模式。當(dāng)采用各模型進(jìn)行目標(biāo)檢測(cè)性能測(cè)試時(shí),Cascade R-CNN模型性能最優(yōu),mAP0.5值達(dá)到了82.3%,YOLO v5系列模型能夠兼顧實(shí)時(shí)性和檢測(cè)精度的平衡,推理速度達(dá)到175.4幀/s的同時(shí)mAP0.5值僅降低2.7%。構(gòu)建的紅外目標(biāo)檢測(cè)數(shù)據(jù)集能夠?yàn)榛谏疃葘W(xué)習(xí)的紅外圖像目標(biāo)檢測(cè)模型優(yōu)化研究提供一定的數(shù)據(jù)支撐,同時(shí)也可以用于目標(biāo)的紅外特性分析。
紅外圖像;數(shù)據(jù)集;監(jiān)控應(yīng)用;深度學(xué)習(xí);基準(zhǔn)測(cè)試
相比于可見(jiàn)光攝像機(jī),紅外攝像機(jī)能夠全天時(shí)全天候工作,因此在城市交通、軍事偵查、視頻監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用[1-2]。
雖然紅外圖像的目標(biāo)指示性較強(qiáng),但受傳感器探測(cè)性能、目標(biāo)成像距離、目標(biāo)幾何形狀等因素影響,紅外圖像通常分辨率低,缺乏豐富的邊緣和紋理信息,在復(fù)雜背景下目標(biāo)信雜比低[3],故早期的紅外圖像目標(biāo)檢測(cè)算法研究主要集中在弱小目標(biāo)檢測(cè)方面[4-5]。主要方法包括基于單幀圖像的跟蹤前檢測(cè)方法(detecting before tracking, DBT)和基于序列圖像的檢測(cè)前跟蹤方法(tracking before detecting, TBD)。DBT方法[6]主要利用單幀圖像中目標(biāo)-背景的差異信息進(jìn)行去噪、增強(qiáng)等,通過(guò)分割得到目標(biāo)位置,但是在低信雜比和復(fù)雜背景下虛警率較高。TBD方法利用運(yùn)動(dòng)目標(biāo)連續(xù)性和相似性進(jìn)行跟蹤檢測(cè),可通過(guò)目標(biāo)信息的長(zhǎng)時(shí)間積累實(shí)現(xiàn)目標(biāo)檢測(cè),但是在幀間差異較大時(shí)目標(biāo)檢測(cè)精度會(huì)下降,同時(shí)該類(lèi)算法實(shí)時(shí)性較差[2]。
隨著大數(shù)據(jù)和深度學(xué)習(xí)理論和技術(shù)的快速發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)的目標(biāo)檢測(cè)模型在可見(jiàn)光圖像目標(biāo)檢測(cè)與識(shí)別方面取得了遠(yuǎn)超傳統(tǒng)方法的性能。典型的目標(biāo)檢測(cè)模型可分為兩階段模型和單階段模型[7]。以Faster R-CNN[8]為代表的兩階段模型,首先通過(guò)區(qū)域建議網(wǎng)絡(luò)篩選候選目標(biāo)區(qū)域,然后在候選目標(biāo)區(qū)域進(jìn)行目標(biāo)分類(lèi)和位置精調(diào)。以SSD(single shot multibox detector)[9]和YOLO(You Only Look Once)系列[10]為代表的單階段模型,根據(jù)輸出的特征圖進(jìn)行回歸,輸出目標(biāo)位置、置信度和類(lèi)別等信息。雖然單階段算法具有實(shí)時(shí)性好的優(yōu)勢(shì),但檢測(cè)精度比雙階段算法略低。
將深度學(xué)習(xí)算法和模型應(yīng)用于紅外圖像目標(biāo)檢測(cè)時(shí),王文秀等人[11]針對(duì)傳統(tǒng)紅外檢測(cè)算法檢測(cè)率低、實(shí)時(shí)性差等問(wèn)題,采用改進(jìn)的AlexNet[12]深度網(wǎng)絡(luò)進(jìn)行紅外船只目標(biāo)識(shí)別,可快速準(zhǔn)確地識(shí)別出紅外船只目標(biāo),但該方法并不是一種端到端的方法,需通過(guò)分水嶺方法提取感興趣船只區(qū)域。針對(duì)該問(wèn)題,蔣志新[13]提出了一種基于改進(jìn)損失函數(shù)的Faster R-CNN海上紅外小目標(biāo)檢測(cè)方法,其是一種端到端的方法,通過(guò)樣本分類(lèi)的難易程度來(lái)調(diào)節(jié)權(quán)重,在加快模型訓(xùn)練收斂速度的同時(shí)提高了檢測(cè)精度,但該方法實(shí)時(shí)性較差,不利于工程實(shí)際應(yīng)用。針對(duì)紅外目標(biāo)檢測(cè)準(zhǔn)確率和實(shí)時(shí)性不足的問(wèn)題,陳鐵明等人[14]提出了一種基于改進(jìn)YOLO v3的紅外末制導(dǎo)目標(biāo)檢測(cè)方法。通過(guò)半實(shí)物仿真的方式獲得特種車(chē)輛、艦船和飛行器3類(lèi)目標(biāo)的紅外圖像,在自適應(yīng)學(xué)習(xí)率與動(dòng)量法聯(lián)合優(yōu)化下,對(duì)設(shè)計(jì)的紅外目標(biāo)數(shù)據(jù)集進(jìn)行驗(yàn)證,平均準(zhǔn)確率達(dá)到了77.89%,檢測(cè)速度達(dá)到25幀/s。針對(duì)紅外弱小目標(biāo)檢測(cè)難題,趙琰等人[15]在對(duì)紅外目標(biāo)特性進(jìn)行分析基礎(chǔ)上,通過(guò)簡(jiǎn)化YOLO v3網(wǎng)絡(luò)的處理流程,提升了對(duì)紅外弱小目標(biāo)檢測(cè)精度,實(shí)驗(yàn)使用的數(shù)據(jù)為包含無(wú)人機(jī)的紅外視頻序列。吳雙忱等人[16]將對(duì)小目標(biāo)的檢測(cè)問(wèn)題轉(zhuǎn)化為對(duì)小目標(biāo)位置分布的分類(lèi)問(wèn)題,檢測(cè)網(wǎng)絡(luò)由全卷積網(wǎng)絡(luò)和分類(lèi)網(wǎng)絡(luò)組成,其中分類(lèi)網(wǎng)絡(luò)通過(guò)引入注意力模塊(squeeze-and-excitation networks, SENet)[17],致力于解決復(fù)雜背景下低信噪比和存在運(yùn)動(dòng)模糊的小目標(biāo)檢測(cè)難題,取得了較好的檢測(cè)效果。李慕鍇等人[18]將SENet模塊引入到Y(jié)OLOv3骨干網(wǎng)絡(luò)中的殘差模塊,提高了骨干網(wǎng)絡(luò)特征提取能力,實(shí)現(xiàn)了復(fù)雜場(chǎng)景下紅外行人小目標(biāo)的有效檢測(cè),相比原算法實(shí)時(shí)性不變,誤檢率顯著減低。
基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法很大程度上依賴(lài)于均衡完備的樣本數(shù)據(jù),目前公開(kāi)的數(shù)據(jù)集以可見(jiàn)光圖像為主,主要包括VOC(PASCAL visual object classes)數(shù)據(jù)集[19]、COCO(microsoft common objects in context)數(shù)據(jù)集[20]、DOTA(dataset for object detection in aerial images)數(shù)據(jù)集[21]、DIOR(object detection in optical remote sensing images)[22]、UCAS-AOD[23]等,針對(duì)不同數(shù)據(jù)集的特點(diǎn)均提出了很多有效的改進(jìn)模型[24]??紤]到紅外圖像的特點(diǎn),將應(yīng)用于可見(jiàn)光圖像領(lǐng)域的深度目標(biāo)檢測(cè)模型應(yīng)用于紅外圖像時(shí),需要做出合理的改進(jìn),但首先要解決的就是面向具體應(yīng)用場(chǎng)景的紅外數(shù)據(jù)集構(gòu)建問(wèn)題。
韓國(guó)科學(xué)技術(shù)研究院構(gòu)建的多光譜行人數(shù)據(jù)集(KAIST)[25]每張圖像包含可見(jiàn)光圖像和紅外圖像兩個(gè)版本,圖像分辨率為640×480,分為person、people和cyclist三個(gè)類(lèi)別,該數(shù)據(jù)集的主要問(wèn)題是標(biāo)簽質(zhì)量較低,需對(duì)數(shù)據(jù)進(jìn)行重新標(biāo)注。菲力爾(FLIR)紅外數(shù)據(jù)集[26]圖片分辨率為640×512,只包含水平視角下的街道和高速路場(chǎng)景,主要面向自動(dòng)駕駛汽車(chē)應(yīng)用。OTCBVS(object tracking and classification in and beyond the visible spectrum)紅外數(shù)據(jù)集[27]用于測(cè)試和評(píng)估先進(jìn)的計(jì)算機(jī)視覺(jué)算法,包含人臉、車(chē)輛、行人和艦船等14種不同場(chǎng)景的圖像數(shù)據(jù),該數(shù)據(jù)集中目標(biāo)相對(duì)比較少,且場(chǎng)景較理想化。上述3個(gè)數(shù)據(jù)集的示例圖像如圖1所示。
圖1 紅外公開(kāi)數(shù)據(jù)集樣本示例
針對(duì)監(jiān)控領(lǐng)域的實(shí)際應(yīng)用需求,本文構(gòu)建了一個(gè)包含行人和車(chē)輛的紅外目標(biāo)檢測(cè)數(shù)據(jù)集,將其命名為Infrared-PV。該數(shù)據(jù)集包含十字路口、橫向馬路兩大主場(chǎng)景,包含地鐵口、廣場(chǎng)、公交站臺(tái)等不同背景區(qū)域。采集的紅外圖像類(lèi)型包含白熱目標(biāo)、黑熱目標(biāo)和熱力圖3種模式,總計(jì)包含2138張圖像,采用自研圖像標(biāo)注軟件實(shí)現(xiàn)了VOC格式的標(biāo)注任務(wù)。同時(shí)結(jié)合主流的深度目標(biāo)檢測(cè)模型給出了在該數(shù)據(jù)集上的檢測(cè)性能測(cè)試基準(zhǔn)。該數(shù)據(jù)集能夠?yàn)槊嫦虮O(jiān)控應(yīng)用的紅外圖像目標(biāo)檢測(cè)模型優(yōu)化研究提供一定的數(shù)據(jù)支撐。
使用FLIR公司的Tau2 336長(zhǎng)波非制冷紅外機(jī)芯配備25mm鏡頭采集視頻數(shù)據(jù),對(duì)該機(jī)芯極性進(jìn)行控制,包括黑熱和白熱兩種模式,此外還提供熱力圖模式。采集高度30m左右,聚焦距離大于250m,拍攝掃描視角范圍為0°~120°,分別在雨天、晴天、白天、夜晚等環(huán)境下采集多個(gè)場(chǎng)景的視頻圖像,然后通過(guò)3幀/s的下采樣率得到分辨率為720×576或640×480的圖像,構(gòu)建的數(shù)據(jù)集總計(jì)包含圖片2138張,主要考慮場(chǎng)景中的行人和車(chē)輛2類(lèi)目標(biāo),故將該數(shù)據(jù)集命名為Infrared-PV。不同極性下的樣本數(shù)量分布如表1所示,目標(biāo)示例圖像如圖2所示。從圖2可以看出,在不同極性下目標(biāo)的顯著性不同,在黑熱極性下,行人和車(chē)輛的輪廓信息更加明顯。從熱力圖模式看,行人、車(chē)輛目標(biāo)的底部和發(fā)動(dòng)機(jī)部分紅外熱輻射更高。
表1 Infrared-PV數(shù)據(jù)集不同極性圖像統(tǒng)計(jì)
圖2 不同極性目標(biāo)圖像
使用自研的圖像標(biāo)注軟件對(duì)構(gòu)建的Infrared-PV數(shù)據(jù)集進(jìn)行人工標(biāo)注,標(biāo)注格式為擴(kuò)展PASCAL VOC格式,保存本地文件為XML格式。設(shè)計(jì)的軟件與Labelme軟件類(lèi)似,支持圖片、視頻和VOC格式數(shù)據(jù)集的標(biāo)注,同時(shí)實(shí)現(xiàn)了對(duì)數(shù)據(jù)集的統(tǒng)計(jì)和數(shù)據(jù)增強(qiáng)功能,支持目標(biāo)類(lèi)別統(tǒng)計(jì)、長(zhǎng)寬分布統(tǒng)計(jì)等,并可檢測(cè)標(biāo)注過(guò)程中可能存在的漏標(biāo)、錯(cuò)標(biāo)等情況。圖3為設(shè)計(jì)的標(biāo)注軟件界面圖,界面上側(cè)為菜單欄,左側(cè)為待標(biāo)記圖像列表,右側(cè)為目標(biāo)信息顯示區(qū)域。與Labelme軟件不同,研制的標(biāo)注軟件支持以下兩方面功能:①通過(guò)修改配置文件支持額外語(yǔ)義信息的添加與保存。其中圖3右下角區(qū)域?yàn)檎Z(yǔ)義信息修改和顯示區(qū)。某一幅圖像對(duì)應(yīng)的目標(biāo)標(biāo)注內(nèi)容如表2所示,包括文件名、圖像分辨率、目標(biāo)位置和類(lèi)別信息,以及拍攝日期(date)、拍攝時(shí)間(time)、相機(jī)極性(polarity)、天氣信息(weather)等語(yǔ)義信息。②增量標(biāo)注功能。在已獲得少量標(biāo)注樣本的情況下,通過(guò)訓(xùn)練一個(gè)基于深度模型的目標(biāo)檢測(cè)器,輔助人工標(biāo)注,降低標(biāo)注工作量。為測(cè)試各檢測(cè)模型的檢測(cè)性能,本數(shù)據(jù)集對(duì)部分遮擋度小于50%的目標(biāo)進(jìn)行了標(biāo)注。
圖3 標(biāo)注軟件界面
表2 標(biāo)注信息
圖4為數(shù)據(jù)集典型場(chǎng)景的示例圖像。從圖2和圖4可以看出,黑熱極性下行人目標(biāo)的輪廓更加明顯,此時(shí)目標(biāo)對(duì)比度高于白熱極性情況。熱力圖圖像是場(chǎng)景中目標(biāo)熱輻射的偽彩色顯示,在該模式下很難得到目標(biāo)的輪廓信息。車(chē)輛目標(biāo)包括小轎車(chē)、公交車(chē)、貨車(chē)等幾種車(chē)型,目標(biāo)尺寸大于行人目標(biāo),雖然車(chē)輛目標(biāo)的尺度變化較大,但由于與背景差異顯著,故比較容易區(qū)分,部分遮擋和目標(biāo)重疊問(wèn)題是影響車(chē)輛目標(biāo)檢測(cè)精度的主要問(wèn)題。由于是室外場(chǎng)景,數(shù)據(jù)集中的圖像背景比較復(fù)雜,包括地鐵出入口、交通指示桿和建筑物等其他目標(biāo),這會(huì)給目標(biāo)檢測(cè)算法和模型帶來(lái)一定挑戰(zhàn),主要體現(xiàn)在虛警方面。
數(shù)據(jù)集中行人和車(chē)輛對(duì)應(yīng)的類(lèi)別分別為person和vehicle,在整個(gè)目標(biāo)中的占比分別為60.3%和39.7%,如表3所示。平均單張圖片包含20個(gè)左右目標(biāo),最多單張圖片目標(biāo)數(shù)超過(guò)100個(gè),說(shuō)明本紅外數(shù)據(jù)集目標(biāo)相對(duì)比較密集。從圖5(a)和圖5(b)目標(biāo)尺寸和占比分布可以看出,目標(biāo)主要分布在150×200大小范圍內(nèi),其中person類(lèi)別目標(biāo)長(zhǎng)寬分布在10×20像素~20×50像素不等,車(chē)輛分布在40×23像素~200×150像素不等,集中在整幅圖像尺寸的10%以下,說(shuō)明本紅外數(shù)據(jù)集多以中小目標(biāo)為主。從圖4可以看出,目標(biāo)相對(duì)比較密集,目標(biāo)間、背景與目標(biāo)間存在遮擋情況,因此可以用于評(píng)估各檢測(cè)算法或模型的檢測(cè)性能和適用性,為紅外弱小目標(biāo)檢測(cè)、紅外行人檢測(cè)、車(chē)輛檢測(cè)與跟蹤等研究方向提供一定的數(shù)據(jù)支撐。Infrared-PV紅外目標(biāo)檢測(cè)數(shù)據(jù)集的獲取地址為https://pan.baidu.com/ s/1j0gqBrtTjI89s2Mdp6xpEA(提取碼:4ftz)。
表3 Infrared-PV數(shù)據(jù)集類(lèi)別統(tǒng)計(jì)
圖4 Infrared-PV數(shù)據(jù)集圖像
圖5 目標(biāo)統(tǒng)計(jì)分析
以Faster R-CNN為代表的兩階段模型主要由3部分組成,即特征提取網(wǎng)絡(luò)、候選區(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN)網(wǎng)絡(luò)和分類(lèi)回歸網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)避免了傳統(tǒng)手工設(shè)計(jì)特征的局限性,能夠?qū)W習(xí)到更有利于目標(biāo)檢測(cè)與分類(lèi)的特征表示。候選區(qū)域建議網(wǎng)絡(luò)用于判別目標(biāo)和背景區(qū)域,這種端到端模型極大提高了目標(biāo)檢測(cè)的速度。分類(lèi)回歸網(wǎng)絡(luò)對(duì)候選目標(biāo)區(qū)域進(jìn)行類(lèi)別細(xì)分類(lèi)和位置預(yù)測(cè)的精調(diào)。在Faster R-CNN基礎(chǔ)上,研究學(xué)者提出了很多改進(jìn)模型,包括Cascade R-CNN[28]、Libra R-CNN[29]、DoubleHead R-CNN[30]等,這些模型顯著地提高了通用目標(biāo)檢測(cè)精度。
舍棄RPN模塊,直接對(duì)目標(biāo)類(lèi)型和位置進(jìn)行回歸的單階段模型,能夠?qū)崿F(xiàn)檢測(cè)精度和推理速度的平衡,逐漸成為研究的熱點(diǎn),其中最具代表性的模型為SSD、YOLO系列。其中YOLOv3[31]已被成功應(yīng)用于紅外目標(biāo)檢測(cè),并取得不錯(cuò)的效果。YOLO v3是單階段端到端全卷積網(wǎng)絡(luò),模型組成如下:以基于ResNet殘差網(wǎng)絡(luò)[32]的darknet53架構(gòu)作為特征提取網(wǎng)絡(luò),拓展了網(wǎng)絡(luò)的深度,降低了訓(xùn)練難度;采用類(lèi)似特征金字塔網(wǎng)絡(luò)(feature pyramid networks, FPN)[33]的思想,加強(qiáng)了高層語(yǔ)義信息對(duì)淺層細(xì)節(jié)特征的指導(dǎo);多尺度輸出層根據(jù)預(yù)設(shè)先驗(yàn)框?qū)ο袼攸c(diǎn)進(jìn)行回歸、分類(lèi)、后處理,提高了中小目標(biāo)檢測(cè)率。
基于注意力機(jī)制以及優(yōu)化的特征融合策略,文獻(xiàn)[34]提出了YOLO v4模型。v4版本相比于v3版本改進(jìn)如下:
①特征提取網(wǎng)絡(luò)設(shè)計(jì)方面,使用了加權(quán)殘差連接、跨階段局部網(wǎng)絡(luò)(cross stages partial network, CSPNet),通過(guò)加強(qiáng)網(wǎng)絡(luò)特征融合能力,設(shè)計(jì)了更優(yōu)的特征提取網(wǎng)絡(luò)CSPDarknet53;
②檢測(cè)分支設(shè)計(jì)方面,使用了SPP[35]、FPN、PANet[36]等特征融合策略,通過(guò)融合不同尺度的語(yǔ)義信息,提高了中小目標(biāo)的檢測(cè)和分類(lèi)性能;
③數(shù)據(jù)增強(qiáng)方面,綜合使用了Cutmix & Mosaic數(shù)據(jù)增強(qiáng)、DropBlock正則化、類(lèi)標(biāo)簽平滑、Ciou損失[37]、對(duì)抗訓(xùn)練等BoF & BoS(Bags of Freebies & Specials)手段,進(jìn)一步提高了檢測(cè)精度。
最新的YOLO v5網(wǎng)絡(luò)根據(jù)網(wǎng)絡(luò)深度和寬度不同,共包含s、m、l和x四種模型,其中s網(wǎng)絡(luò)模型結(jié)構(gòu)如圖6所示。YOLO v5模型改進(jìn)了特征提取網(wǎng)絡(luò)和特征融合模塊,用CSPNet模塊代替多層混合卷積,顯著降低模型復(fù)雜度,聯(lián)合Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)圖片縮放等手段,不僅保證了檢測(cè)精度,還消除了模型冗余,大大提高了推理的實(shí)時(shí)性。其中使用GTX 1080Ti顯卡的s模型推理時(shí)間低至2.5ms,在邊緣設(shè)備上也有很好的檢測(cè)效果。
為評(píng)估基于深度學(xué)習(xí)的紅外目標(biāo)檢測(cè)性能,本文在Infrared-PV數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),構(gòu)建了用于深度目標(biāo)檢測(cè)模型評(píng)估的指標(biāo),定性和定量分析了各模型在Infrared-PV紅外數(shù)據(jù)集上的性能。
采用的服務(wù)器配置如下:CPU為Intel(R) i7-6850K,64G內(nèi)存,兩塊NVIDIA GeForce GTX 1080Ti圖形處理器,操作系統(tǒng)為Ubuntu 18.04。所有模型使用雙卡分布式訓(xùn)練。
Infrared-PV紅外數(shù)據(jù)集以7:3比例隨機(jī)劃分,其中訓(xùn)練集共1496張圖像,測(cè)試驗(yàn)證集642張圖像。
本文使用的基準(zhǔn)算法為Faster R-CNN,YOLO v3,YOLO v4,YOLO v5目標(biāo)檢測(cè)算法,此外還和Cascade R-CNN、FCOS[38]模型的檢測(cè)性能進(jìn)行了對(duì)比分析。訓(xùn)練采用的目標(biāo)檢測(cè)框架和配置文件如表4所示。當(dāng)輸入網(wǎng)絡(luò)的圖像分辨率為608×608時(shí),YOLO系列各模型的錨框大小設(shè)置如表5所示。
YOLO v3和YOLO v4系列基于darknet的C語(yǔ)言官方實(shí)現(xiàn),其中YOLO v3模型初始學(xué)習(xí)率為0.01,批大小為64,子批大小(subdivisions)由顯存大小調(diào)整,訓(xùn)練總步長(zhǎng)為12500,在步長(zhǎng)為5000和10000時(shí)退火為前一步長(zhǎng)的10%;YOLO v4模型初始學(xué)習(xí)率為0.00001,批大小為8,退火步長(zhǎng)為18000和26000;其他為默認(rèn)設(shè)置。
表4 模型配置
表5 608×608分辨率下Infrared-PV目標(biāo)錨框
YOLO v5系列基于ultralytics的YOLO v5實(shí)現(xiàn),訓(xùn)練輪次(epoch)為200,批大小為64;采用SGD梯度下降優(yōu)化器,動(dòng)量為0.9;初始學(xué)習(xí)率0.01,預(yù)熱為3 epoch,采用余弦退火;其他為默認(rèn)設(shè)置。
Faster R-CNN、FCOS、Cascade R-CNN算法基于mmdetection[39]實(shí)現(xiàn)。其中超參數(shù)設(shè)置如下:epoch為50,批大小為8;SGD優(yōu)化器,動(dòng)量為0.9;初始學(xué)習(xí)率為0.02,在epoch為25和38時(shí)退火為前一步長(zhǎng)的33%;其他為默認(rèn)設(shè)置。
對(duì)檢測(cè)結(jié)果進(jìn)行分析,當(dāng)目標(biāo)檢測(cè)結(jié)果與真值的交并比(intersection over union, IOU)大于0.5認(rèn)為該目標(biāo)被檢測(cè)到,以單位時(shí)間推理圖片張數(shù)(frame per second, FPS)評(píng)估模型實(shí)時(shí)性,以各類(lèi)別的平均精度(average precision, AP)、召回率(recall)以及平均精度均值(mean average precision, mAP)來(lái)評(píng)估模型的檢測(cè)性能。
在基準(zhǔn)實(shí)驗(yàn)中,各模型的檢測(cè)性能如表6所示,檢測(cè)結(jié)果如圖7所示。由于沒(méi)有對(duì)Anchor進(jìn)行優(yōu)化,對(duì)行人等小目標(biāo)檢測(cè)效果不佳,故Faster R-CNN模型的mAP0.5只達(dá)到了65.6%,推理速度僅為16.08FPS;當(dāng)模型輸入尺寸為608×608時(shí),YOLO v3模型的檢測(cè)精度較416×416時(shí)提升5.8%。由圖7(c)和(d)可見(jiàn),網(wǎng)絡(luò)輸入尺寸的增加有利于小目標(biāo)檢測(cè)和位置框的精準(zhǔn)回歸,同時(shí)降低了虛警率,但實(shí)時(shí)性有所降低。YOLO v4模型的mAP0.5為78.97%,YOLO v5模型的mAP0.5最高,達(dá)到了80.7%。從圖7對(duì)比看出,YOLO v4模型的召回率高于YOLO v5模型,但是虛警率略高。總體而言,一階段算法對(duì)于遮擋和弱小目標(biāo)情況檢測(cè)率相對(duì)較高,雖然存在少量虛警,但能夠滿(mǎn)足檢測(cè)算法的實(shí)時(shí)性需求。
圖7 各基準(zhǔn)模型檢測(cè)效果對(duì)比(置信度:0.25)
表6 Infrared-PV數(shù)據(jù)集各檢測(cè)模型性能基準(zhǔn)(置信度:0.05)
注:加粗字體為該列最優(yōu)值 Note: Bold font is the optimal value
除基準(zhǔn)實(shí)驗(yàn)外,本文進(jìn)行了擴(kuò)充實(shí)驗(yàn)以驗(yàn)證其他模型在Infrared-PV數(shù)據(jù)集上的性能。本文使用先進(jìn)的骨干網(wǎng)絡(luò)ResNest[40]替換Faster R-CNN和Cascade R-CNN模型的主干網(wǎng)絡(luò),進(jìn)行了對(duì)比實(shí)驗(yàn)。
各模型的檢測(cè)指標(biāo)結(jié)果具體如表7所示。由表7可以看出,采用ResNest的兩階段檢測(cè)模型相比傳統(tǒng)ResNet特征提取網(wǎng)絡(luò)性能上有顯著提升,Cascade R-CNN模型mAP0.5提升了15.3%,達(dá)到了最高的檢測(cè)精度82.3%。由圖7(b)可見(jiàn),對(duì)于遮擋、小目標(biāo)上的實(shí)際效果最佳,優(yōu)于所有單階段算法,但是該模型實(shí)時(shí)性較差;在YOLOv4的基礎(chǔ)上裁剪模型為原大小的1/16,精度提高的同時(shí)實(shí)時(shí)性提高了一倍,說(shuō)明針對(duì)特定數(shù)據(jù)集,尤其是目標(biāo)類(lèi)別較少的情況下,通過(guò)裁剪卷積通道數(shù)能夠在不降低目標(biāo)檢測(cè)率的情況下,提高模型推理速度;FCOS模型對(duì)于紅外目標(biāo)檢測(cè)結(jié)果差強(qiáng)人意,主要是因?yàn)榧t外圖像紋理信息缺失,邊緣信息不明顯,像素框定位目標(biāo)困難,故mAP0.5較低。
表7 其他模型在紅外數(shù)據(jù)集的測(cè)試結(jié)果(置信度:0.05)
注:加粗字體為該列最優(yōu)值 Note: Bold font is the optimal value
本文構(gòu)建了一個(gè)包含行人和車(chē)輛2類(lèi)目標(biāo)的紅外圖像檢測(cè)數(shù)據(jù)集,對(duì)于采用的紅外視頻圖像采用自研的標(biāo)注軟件進(jìn)行了目標(biāo)標(biāo)注,然后對(duì)數(shù)據(jù)集的各項(xiàng)統(tǒng)計(jì)信息進(jìn)行了總結(jié)分析。結(jié)合目前主流基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型,給出了各模型在該數(shù)據(jù)集的檢測(cè)性能。該數(shù)據(jù)集的構(gòu)建能夠?yàn)橐曨l監(jiān)控場(chǎng)景下的紅外目標(biāo)檢測(cè),以及紅外圖像目標(biāo)特性分析提供一定的數(shù)據(jù)支撐。
[1] 陳錢(qián),隋修寶.紅外圖像處理理論與技術(shù)[M].北京:電子工業(yè)出版社, 2018.
CHEN Qian, SUI Xiubao.[M]. Beijing: Electronic Industry Press, 2018.
[2] 劉讓, 王德江, 賈平, 等. 紅外圖像弱小目標(biāo)探測(cè)技術(shù)綜述[J]. 激光與光電子學(xué)進(jìn)展, 2016,53(5): 050004.
LIU Rang, WANG Dejiang, JIA Ping, et al. Overview of detection technology for small and dim targets in infrared images[J]., 2016, 53(5): 050004.
[3] 武斌. 紅外弱小目標(biāo)檢測(cè)技術(shù)研究[D]. 西安: 西安電子科技大學(xué). 2009.
WU Bing. Research on Infrared Dim Target Detection Technology[D]. Xi'an: Xidian University, 2009.
[4] Rawat S S, Verma S K, Kumar Y. Review on recent development in infrared small target detection algorithms[J]., 2020, 167: 2496-2505.
[5] 李俊宏, 張萍, 王曉瑋, 等. 紅外弱小目標(biāo)檢測(cè)算法綜述[J]. 中國(guó)圖象圖形學(xué)報(bào), 2020, 25(9): 1739-1753.
LI Junhong, ZHANG Ping, WANG Xiaowei, et al. Infrared small-target detection algorithms: a survey[J]., 2020, 25(9): 1739-1753.
[6] 谷雨,劉俊,沈宏海, 等.基于改進(jìn)多尺度分形特征的紅外圖像弱小目標(biāo)檢測(cè)[J]. 光學(xué)精密工程,2020,28(6):1375-1386.
GU Yu, LIU Jun, SHEN Honghai, et al. Infrared image dim target detection based on improved multi-scale fractal features[J].,2020,28(6): 1375-1386.
[7] LIU L, OUYANG W, WANG X G, et al. Deep learning for generic object detection: a survey[J]., 2020, 128(2): 261-318.
[8] REN S Q, HE K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2017, 39(6): 1137-1149.
[9] LIU W, Anguelov D, Erhan D, et al. Ssd: single shot multibox detector[C]//, 2016: 21-37.
[10] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//, 2016: 779-788.
[11] 王文秀, 傅雨田, 董峰, 等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外船只目標(biāo)檢測(cè)方法[J]. 光學(xué)學(xué)報(bào), 2018, 38(7): 0712006.
WANG W X, FU Y T, DONG F, et al. Infrared ship target detection method based on deep convolutional neural network[J]., 2018, 38(7): 0712006.
[12] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]., 2017, 60(6): 84-90.
[13] 蔣志新. 基于深度學(xué)習(xí)的海上紅外小目標(biāo)檢測(cè)方法研究[D]. 大連: 大連海事大學(xué), 2019.
JIANG Z X. Research on the Detection Method of Marine Infrared Small Target Based on Deep Learning[D]. Dalian: Dalian Maritime University, 2019.
[14] 陳鐵明, 付光遠(yuǎn), 李詩(shī)怡, 等. 基于YOLO v3的紅外末制導(dǎo)典型目標(biāo)檢測(cè)[J]. 激光與光電子學(xué)進(jìn)展, 2019, 56(16): 155-162.
CHEN T M, FU G Y, LI S Y, et al. Infrared terminal guidance typical target detection based on YOLOv3[J]., 2019, 56(16): 155-162.
[15] 趙琰, 劉荻, 趙凌君. 基于Yolo v3的復(fù)雜環(huán)境紅外弱小目標(biāo)檢測(cè)[J]. 航空兵器, 2020, 26(6): 29-34.
ZHAO Y, LIU D, ZHAO L J. Infrared small target detection in complex environment based on Yolo v3[J]., 2020, 26(6): 29-34.
[16] 吳雙忱, 左崢嶸. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外小目標(biāo)檢測(cè)[J]. 紅外與毫米波學(xué)報(bào), 2019, 38(3): 371-380.
WU S C, ZUO Z G. Infrared small target detection based on deep convolutional neural network[J]., 2019, 38(3): 371-380.
[17] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//, 2018: 7132-7141.
[18] 李慕鍇, 張濤, 崔文楠. 基于Yolo v3的紅外行人小目標(biāo)檢測(cè)技術(shù)研究[J]. 紅外技術(shù), 2020, 42(2): 176-181.
LI M K, ZHANG T, CUI W N. Research on infrared pedestrian small target detection technology based on Yolo v3[J]., 2020, 42(2): 176-181.
[19] Everingham M, Eslami S A, Van Gool L, et al. The pascal visual object classes challenge: a retrospective[J]., 2015, 111(1): 98-136.
[20] LIN T Y, Maire M, Belongie S, et al. Microsoft coco: common objects in context[C]//, 2014: 740-755.
[21] XIA G S, BAI X, DING J, et al. DOTA: a large-scale dataset for object detection in aerial images[C]//, 2018: 3974-3983.
[22] LI K, WAN G, CHENG G, et al. Object detection in optical remote sensing images: a survey and a new benchmark[J]., 2020, 159: 296-307.
[23] ZHU H, CHEN X, DAI W, et al. Orientation robust object detection in aerial images using deep convolutional neural network[C]//2015(ICIP), 2015: 3735-3739.
[24] TAN M, PANG R, LE Q V. Efficientdet: scalable and efficient object detection[C]//, 2020: 10781-10790.
[25] Hwang S, Park J, Kim N, et al. Multispectral pedestrian detection: Benchmark dataset and baseline[C]//, 2015: 1037-1045.
[26] Teledyne FLIR Systems. FLIR ADAS Dataset[DB/OL] [2023-11-27]. https://www.flir.com/oem/adas/adas-dataset-form/.
[27] Davis J W, Keck M A. A two-stage template approach to person detection in thermal imagery[C]//2005, 2005, 1: 364-369.
[28] CAI Z, Vasconcelos N. Cascade r-cnn: delving into high quality object detection[C]//, 2018: 6154-6162.
[29] PANG J, CHEN K, SHI J, et al. Libra r-cnn: Towards balanced learning for object detection[C]//, 2019: 821-830.
[30] WU Y, CHEN Y, YUAN L, et al. Rethinking classification and localization for object detection[C]//, 2020: 10186-10195.
[31] Redmon J, Farhadi A. Yolov3: an incremental improvement [EB/OL] [2018-04-08]. https://arxiv.org/pdf/1804.02767.pdf.
[32] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//, 2016: 770-778.
[33] LINT Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//, 2017: 2117-2125.
[34] Bochkovskiy A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL] [2020-04-22]. https://arxiv.org/ pdf/2004.10934.pdf.
[35] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]., 2015, 37(9): 1904-1916.
[36] WANG K, LIEW J H, ZOU Y, et al. PaNet: Few-shot image semantic segmentation with prototype alignment[C]//, 2019: 9197-9206.
[37] ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//2020, 2020: 12993-13000.
[38] TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully convolutional one-stage object detection[C]//2019, 2019: 9627-9636.
[39] CHEN K, WANG J Q, PANG J M, et al. Mmdetection: open mmlab detection toolbox and benchmark[EB/OL][2019-06-17]. https:// arxiv.org /pdf/ 1906. 07155. pdf.
[40] ZHANG H, WU C R, ZHANG Z Y, et al. Resnest: Split-attention networks[EB/OL] [2020-04-19]. https://arxiv.org/pdf/2004.08955.pdf.
Infrared-PV: an Infrared Target Detection Dataset for Surveillance Application
CHEN Xu1,WU Wei2,PENG Dongliang1,GU Yu1
(1.,,310018,;2.28,210007,)
Although infrared cameras can operate day and night under all-weather conditions compared with visible cameras, the infrared images obtained by them have low resolution and signal-to-clutter ratio, lack of texture information,so enough labeled images and optimization model design have great influence on improving infrared target detection performance based on deep learning. First, to solve the lack of an infrared target detection dataset used for surveillance applications, an infrared camera was used to capture images with multiple polarities, and an image annotation task that outputted the VOC format was performed using our developed annotation software. An infrared image dataset containing two types of targets, person and vehicle, was constructed and named infrared-PV. The characteristics of the targets in this dataset were statistically analyzed. Second, state-of-the-art target detection models based on deep learning were adopted to perform model training and testing. Target detection performances for this dataset were qualitatively and quantitatively analyzed for the YOLO and Faster R-CNN series detection models. The constructed infrared dataset contained 2138 images, and the targets in this dataset included three types of modes: white hot, black hot, and heat map. In the benchmark test using several models, Cascade R-CNN achieves the best performance, where mean average precision when intersection over union exceeding 0.5 (mAP0.5) reaches 82.3%, and YOLOv5 model can achieve the tradeoff between real-time performance and detection performance, where inference time achieves 175.4 frames per second and mAP0.5drops only 2.7%. The constructed infrared target detection dataset can provide data support for research on infrared image target detection model optimization and can also be used to analyze infrared target characteristics.
infrared image, dataset, surveillance application, deep learning, benchmark test
TP391.9
A
1001-8891(2023)12-1304-10
2021-01-15;
2021-02-24.
陳旭(1997-),男,碩士研究生,主要從事圖像目標(biāo)識(shí)別、檢測(cè)與模型優(yōu)化研究。
谷雨(1982-),男,博士,副教授,主要從事多源信息融合、遙感圖像目標(biāo)檢測(cè)與識(shí)別方面的研究。E-mail:guyu@edu.hdu.cn。
浙江省自然科學(xué)基金資助項(xiàng)目(LY21F030010)。