亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多任務(wù)學(xué)習(xí)框架的紅外行人檢測(cè)算法

        2021-02-28 00:46:40茍于濤宋怡萱
        光電工程 2021年12期
        關(guān)鍵詞:分支行人紅外

        茍于濤,馬 梁,宋怡萱,靳 雷,雷 濤*

        基于多任務(wù)學(xué)習(xí)框架的紅外行人檢測(cè)算法

        茍于濤1,2,3,馬 梁1,2,3,宋怡萱1,2,3,靳 雷1,2,雷 濤1,2*

        1中國(guó)科學(xué)院光電探測(cè)技術(shù)研究室,四川 成都 610209;2中國(guó)科學(xué)院光電技術(shù)研究所,四川 成都 610209;3中國(guó)科學(xué)院大學(xué),北京 100049

        與高質(zhì)量可見光圖像相比,紅外圖像在行人檢測(cè)任務(wù)中往往存在較高的虛警率。其主要原因在于紅外圖像受成像分辨率及光譜特性限制,缺乏清晰的紋理特征,同時(shí)部分樣本的特征質(zhì)量較差,干擾網(wǎng)絡(luò)的正常學(xué)習(xí)。本文提出基于多任務(wù)學(xué)習(xí)框架的紅外行人檢測(cè)算法,其在多尺度檢測(cè)框架的基礎(chǔ)上,做出以下改進(jìn):1) 引入顯著性檢測(cè)任務(wù)作為協(xié)同分支與目標(biāo)檢測(cè)網(wǎng)絡(luò)構(gòu)成多任務(wù)學(xué)習(xí)框架,以共同學(xué)習(xí)的方式側(cè)面強(qiáng)化檢測(cè)器對(duì)強(qiáng)顯著區(qū)域及其邊緣信息的關(guān)注。2) 通過將樣本顯著性強(qiáng)度引入分類損失函數(shù),抑制噪聲樣本的學(xué)習(xí)權(quán)重。在公開KAIST數(shù)據(jù)集上的檢測(cè)結(jié)果證實(shí),本文的算法相較于基準(zhǔn)算法RetinaNet能夠降低對(duì)數(shù)平均丟失率(MR-2)4.43%。

        紅外行人檢測(cè);多任務(wù)學(xué)習(xí);顯著性檢測(cè)

        1 引 言

        目前,基于可見光圖像的行人檢測(cè)技術(shù)得到了飛速發(fā)展[1-2],通過與行人重識(shí)別[3-4]等技術(shù)相結(jié)合,在安防監(jiān)控、自動(dòng)駕駛等領(lǐng)域中具有較大的應(yīng)用價(jià)值。然而,受光照、煙霧、遮擋等干擾,僅依賴這類圖像作為檢測(cè)任務(wù)的解決方案難以在全天候復(fù)雜環(huán)境下實(shí)現(xiàn)較為魯棒的檢測(cè)。為此,文獻(xiàn)[5-7]等提出基于多傳感器信息融合的算法。但其數(shù)據(jù)獲取難度較大,硬件成本較高。由于紅外圖像能夠感知目標(biāo)所發(fā)射的指定波段的熱輻射信息,抗干擾能力強(qiáng),不受環(huán)境光照的影響[8]。因此,本文基于紅外圖像,通過利用空間顯著性信息,提升網(wǎng)絡(luò)對(duì)紅外行人的檢測(cè)能力。

        傳統(tǒng)的行人檢測(cè)算法主要通過滑動(dòng)窗口產(chǎn)生大量候選區(qū)域,提取區(qū)域內(nèi)手工特征,例如:HOG,SIFT等,再通過SVM等分類算法完成對(duì)候選區(qū)域內(nèi)容的判別。但這類方法人工干擾較強(qiáng),檢測(cè)精度較差。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,R-CNN系列[9],Yolo系列[10]等以不同的檢測(cè)思路實(shí)現(xiàn)了較高精度的目標(biāo)檢測(cè)。面向基于可見光圖像的行人檢測(cè)算法,Zhang等人[1]首先將Faster R-CNN在行人檢測(cè)中的應(yīng)用進(jìn)行了相關(guān)研究。為了有效地感知不同尺度大小的行人樣本,Li等人[2]引入尺度感知模塊。與上述方法相比,基于紅外圖像的檢測(cè)算法性能距離實(shí)際應(yīng)用存在較大的差距,主要存在以下幾個(gè)原因:

        1) 圖像質(zhì)量較差。由于紅外物理特性以及硬件設(shè)備的限制,紅外圖像往往成像模糊,分辨率較低。目前大多數(shù)紅外目標(biāo)檢測(cè)算法主要通過基于可見光圖像的檢測(cè)模型遷移而來,未能有效結(jié)合紅外圖像本身性質(zhì)對(duì)檢測(cè)算法進(jìn)行優(yōu)化。

        2) 噪聲樣本。由于溫度分布及拍攝環(huán)境的復(fù)雜性,紅外圖像中的部分樣本并不具備良好的特征信息,如圖1(a)紅框內(nèi)所示。這些噪聲樣本因遮擋、成像距離、環(huán)境等因素產(chǎn)生,與背景特征較為接近,加大了網(wǎng)絡(luò)學(xué)習(xí)的難度,容易使網(wǎng)絡(luò)陷入較強(qiáng)的數(shù)據(jù)擬合而難以學(xué)習(xí)到具有普適性的紅外行人特征。

        針對(duì)問題1),John等人[11]提出了一種自適應(yīng)模糊C-means與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的檢測(cè)模型,利用C-means分割算法對(duì)紅外行人目標(biāo)進(jìn)行分割并篩選候選框。Devaguptapu等人[12]通過Cycle-GAN將紅外圖像轉(zhuǎn)化為偽彩色圖像,并通過雙目標(biāo)檢測(cè)器進(jìn)行檢測(cè)。同年,Ghose等人[13]在保持原有紋理特征不變的情況下引入紅外圖像的顯著信息,使其在不同時(shí)段的丟失率均有所下降,但推理時(shí)大量的計(jì)算消耗導(dǎo)致其難以應(yīng)用于實(shí)際場(chǎng)景。針對(duì)問題2),最新的TC-Det[14]通過引入分類網(wǎng)絡(luò)分支,利用場(chǎng)景光照信息有效弱化噪聲標(biāo)簽的干擾。

        圖1 KAIST行人樣本可視化。(a) 不同尺度的部分行人樣本;(b) 尺度分布情況

        在深度學(xué)習(xí)技術(shù)中,多任務(wù)學(xué)習(xí)方式主要是通過共享相似任務(wù)間的有效信息,提升原有任務(wù)的表現(xiàn)。本文從多任務(wù)學(xué)習(xí)的角度出發(fā),對(duì)比分析獨(dú)立學(xué)習(xí)式及引導(dǎo)注意力式兩類分支結(jié)構(gòu)的設(shè)計(jì),使其具有對(duì)紅外圖像顯著區(qū)域的判別能力,最終以共享特征提取層的方式為檢測(cè)分支提供場(chǎng)景顯著信息,提升行人檢測(cè)性能。此外,根據(jù)樣本顯著性分析可知,這些紅外圖像中所存在的噪聲樣本和背景的差異較小,具有較弱的顯著性表達(dá)。因此,將協(xié)同分支所推理出目標(biāo)的顯著性信息引入至分類損失函數(shù)中,能夠有效弱化網(wǎng)絡(luò)對(duì)這些樣本的關(guān)注,提升網(wǎng)絡(luò)整體的泛化性能。

        本文的主要貢獻(xiàn)包括:

        1) 在目標(biāo)檢測(cè)網(wǎng)絡(luò)的基礎(chǔ)上添加顯著性檢測(cè)分支,使網(wǎng)絡(luò)具備紅外圖像顯著性檢測(cè)能力的同時(shí),能以共同學(xué)習(xí)的方式,強(qiáng)化檢測(cè)器對(duì)顯著區(qū)域的關(guān)注。

        2) 將顯著性檢測(cè)結(jié)果轉(zhuǎn)換為每個(gè)樣本的顯著性得分,并結(jié)合手工設(shè)計(jì)的Smooth Focal-Loss函數(shù)計(jì)算網(wǎng)絡(luò)分類損失,弱化噪聲樣本對(duì)網(wǎng)絡(luò)學(xué)習(xí)的干擾。

        3) 本文對(duì)整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行消融測(cè)試,并通過橫向?qū)Ρ戎髁鞯募t外檢測(cè)算法,證實(shí)了本文訓(xùn)練方式的有效性。最終,本文實(shí)現(xiàn)KAIST數(shù)據(jù)集上的MR-2相較于基準(zhǔn)算法RetinaNet[15]顯著降低4.43%,且僅作為訓(xùn)練方式不增加計(jì)算消耗。

        2 方法原理

        圖2 網(wǎng)絡(luò)整體框架示意圖

        2.1 引入顯著性檢測(cè)的多任務(wù)學(xué)習(xí)框架設(shè)計(jì)

        Ulman等人[17]將某一位置的顯著性定義為該位置在顏色、方向、深度等方面與周圍環(huán)境的差異程度,而圖像所對(duì)應(yīng)的顯著圖能夠有效顯示出該場(chǎng)景內(nèi)的突出區(qū)域。Ghose等人[13]首先提出將顯著圖通過通道替換的方式對(duì)紅外圖像進(jìn)行加強(qiáng),整體實(shí)驗(yàn)流程如圖3(a)所示。基于其實(shí)驗(yàn)結(jié)果分析可知,顯著圖作為一種顯式的空間注意力,能夠引導(dǎo)檢測(cè)器學(xué)習(xí)顯著區(qū)域。同時(shí),相比于傳統(tǒng)基于手工特征的顯著性檢測(cè)方法(如文獻(xiàn)[18-19]),深度學(xué)習(xí)方法加強(qiáng)了對(duì)語義特征的關(guān)注,有效降低了大量背景噪聲的干擾。該實(shí)驗(yàn)對(duì)訓(xùn)練集中的1702張圖像以及測(cè)試集中的362張圖像進(jìn)行了像素級(jí)的顯著區(qū)域標(biāo)注,并通過PICA-Net[20]和R3Net[16]兩種深度顯著性網(wǎng)絡(luò)預(yù)測(cè)出數(shù)據(jù)集中所有的顯著圖并進(jìn)行實(shí)驗(yàn)。雖然實(shí)驗(yàn)結(jié)果證實(shí)了利用顯著圖增強(qiáng)紅外行人檢測(cè)的有效性,但該方法作為一種數(shù)據(jù)增強(qiáng)手段,在實(shí)際應(yīng)用時(shí),需要通過額外的網(wǎng)絡(luò)對(duì)測(cè)試圖像進(jìn)行顯著性檢測(cè),嚴(yán)重影響了單幀行人檢測(cè)的推理速度。

        考慮到上述方法的局限性及顯著圖對(duì)紅外目標(biāo)檢測(cè)的強(qiáng)化作用,本文設(shè)計(jì)了一種多任務(wù)學(xué)習(xí)方式,即在訓(xùn)練過程中同時(shí)完成目標(biāo)檢測(cè)及顯著性檢測(cè)兩個(gè)任務(wù),具體流程如圖3(b)所示。其中,協(xié)同分支在該框架中主要有兩個(gè)作用:1) 學(xué)習(xí)紅外圖像顯著區(qū)域的判別能力,以共同學(xué)習(xí)的方式替代原先的注意力強(qiáng)化手段,引導(dǎo)檢測(cè)器關(guān)注顯著區(qū)域;2) 顯著性標(biāo)簽中包含顯著目標(biāo)精細(xì)的輪廓信息,與目標(biāo)框標(biāo)注相比,更有利于檢測(cè)器的學(xué)習(xí)。下面本文將從協(xié)同分支結(jié)構(gòu)的設(shè)計(jì)和學(xué)習(xí)方式進(jìn)行分析。

        2.1.1 協(xié)同分支結(jié)構(gòu)設(shè)計(jì)

        目前顯著性檢測(cè)網(wǎng)絡(luò)大多數(shù)基于全卷積框架的設(shè)計(jì),在采用特征提取網(wǎng)絡(luò)進(jìn)行不同層級(jí)的語義特征提取后,通過解碼器框架對(duì)其進(jìn)行解碼,最后由像素級(jí)的標(biāo)注信息進(jìn)行監(jiān)督學(xué)習(xí)。由于數(shù)據(jù)集中行人樣本尺度差異較大,本文采用經(jīng)典的單階段多尺度目標(biāo)檢測(cè)算法RetinaNet[15]作為實(shí)驗(yàn)的基準(zhǔn)檢測(cè)網(wǎng)絡(luò),特征提取部分采用ResNet50。最終,本文設(shè)計(jì)并測(cè)試了兩類不同共享層級(jí)的多任務(wù)學(xué)習(xí)框架,以判斷最優(yōu)共享方式的結(jié)構(gòu)。

        獨(dú)立學(xué)習(xí)式框架。目前大多數(shù)多任務(wù)學(xué)習(xí)模型采用獨(dú)立學(xué)習(xí)式的架構(gòu)[21-22],即不同分支共享特征提取模塊,以獨(dú)立并行的方式完成各自任務(wù)。這種架構(gòu)要求共享的特征能夠滿足不同任務(wù)的需要,并通過分支任務(wù)信息改善主任務(wù)的訓(xùn)練效果。在此基礎(chǔ)上,本文設(shè)計(jì)了以下三種模型架構(gòu),設(shè)計(jì)方案如圖4所示。

        (a) 多尺度級(jí)聯(lián)

        考慮將FPN輸出的每層特征沿通道方向進(jìn)行級(jí)聯(lián),再將級(jí)聯(lián)后的特征圖通過1′1′1024的卷積核進(jìn)行通道壓縮,該框架使顯著性分支的loss直接作用于原檢測(cè)特征,對(duì)檢測(cè)分支的歸納偏置較大,但由于特征壓縮卷積核的通道數(shù)過多,網(wǎng)絡(luò)學(xué)習(xí)難度較大。

        圖3 文獻(xiàn)[13]的方法與本文方法的整體框架對(duì)比。(a) 文獻(xiàn)[13]方法的整體檢測(cè)框架;(b) 本文所提方法

        圖4 三種獨(dú)立學(xué)習(xí)式網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方案。(a) 多尺度級(jí)聯(lián)式;(b) 多尺度并行式(PAR);(c) 流注式(CAS)

        (b) 多尺度并行式框架(PAR)

        將不同尺度層級(jí)的特征獨(dú)自進(jìn)行特征壓縮,卷積層參數(shù)共享,最后通過元素級(jí)相加得到最終結(jié)果。與框架(a)相比,框架(b)有效地降低了分支網(wǎng)絡(luò)的卷積層參數(shù),但由于每層特征最后相加時(shí)權(quán)重相同,在loss反傳時(shí)難以考慮不同尺度目標(biāo)的特征差異,因而造成精度的下降。

        (c) 流注式框架(CAS)

        考慮到Unet框架的設(shè)計(jì),本文將最高層語義特征P6通過雙線性插值不斷上采樣,并將每次上采樣后的結(jié)果D4~D6分別與P3~P5進(jìn)行元素級(jí)相加及1*1卷積,最后D3特征通過卷積層降低維度,輸出預(yù)測(cè)結(jié)果。相較于前兩個(gè)模型,框架(c)充分利用了不同尺度層級(jí)的特征。

        獨(dú)立學(xué)習(xí)式框架模型在多任務(wù)學(xué)習(xí)中最為普遍,其要求特征提取模塊具有容納兩種不同特征的能力,性能的提升主要通過分支網(wǎng)絡(luò)額外的信息標(biāo)注驅(qū)動(dòng)主任務(wù)分支的特征提取。同時(shí),由于兩個(gè)分支完全獨(dú)立,顯著性分支與檢測(cè)特征之間并未存在直接作用關(guān)系。

        引導(dǎo)注意力式框架。

        在引導(dǎo)注意力式框架中,協(xié)同分支在完成輔助任務(wù)的同時(shí),會(huì)將網(wǎng)絡(luò)中的特征表達(dá)作為空間或通道注意力對(duì)主任務(wù)模型中的特征進(jìn)行強(qiáng)化。本文以級(jí)聯(lián)模型為基礎(chǔ),將顯著性分支特征或最后預(yù)測(cè)結(jié)果以元素級(jí)相加的方式作用于原有檢測(cè)特征,具體模型結(jié)構(gòu)如圖5所示。

        圖5 兩種引導(dǎo)注意力式網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方案。(a) 結(jié)果強(qiáng)化式框架(Guided(a));(b) 特征強(qiáng)化式框架(Guided(b))

        (a) 結(jié)果強(qiáng)化式框架(Guided(a))

        直接將協(xié)同分支的預(yù)測(cè)結(jié)果通過最大值池化后分別與(P4~P6)進(jìn)行相加,為了使預(yù)測(cè)結(jié)果與原有特征的通道數(shù)相匹配,本文將預(yù)測(cè)結(jié)果在通道維度上復(fù)制256層。

        (b) 特征強(qiáng)化式框架(Guided(b))

        本文將FPN上每層特征經(jīng)過與高級(jí)特征元素級(jí)相加即等通道卷積后再作用回原特征,該方法將顯著性分支中的特征整體作為注意力對(duì)(P4~P6)進(jìn)行強(qiáng)化,其相加時(shí)兩邊通道數(shù)相對(duì)應(yīng)。

        引導(dǎo)注意力式框架擴(kuò)展了兩個(gè)分支所共享的網(wǎng)絡(luò),其將分支中的特征信息直接用于加強(qiáng)主網(wǎng)絡(luò)特征,例如文獻(xiàn)[14]。根據(jù)3.2的實(shí)驗(yàn)結(jié)果可知,流柱式框架(CAS)與引導(dǎo)注意力式框架Guided(b)相較于原始模型均有所提升??紤]到Guided(b)增加了推理階段的計(jì)算消耗,最終本文采用流柱式框架作為后續(xù)優(yōu)化的基礎(chǔ)框架。

        2.1.2 顯著性檢測(cè)標(biāo)注及損失函數(shù)

        本文基于文獻(xiàn)[13]的標(biāo)注,采用遷移學(xué)習(xí)的訓(xùn)練方法,完成協(xié)同分支的訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練框架如圖3(b)所示,首先將以ResNext101為特征提取結(jié)構(gòu)的R3Net[16]顯著性檢測(cè)網(wǎng)絡(luò)作為教師模型,通過已標(biāo)注的部分顯著性標(biāo)簽完成網(wǎng)絡(luò)訓(xùn)練后,再對(duì)學(xué)生模型,即協(xié)同分支雙線性插值后的結(jié)果進(jìn)行像素級(jí)監(jiān)督指導(dǎo)。本文通過KL-Loss計(jì)算兩種網(wǎng)絡(luò)檢測(cè)結(jié)果分布的相似性,使協(xié)同分支的顯著性檢測(cè)結(jié)果與R3Net接近,其中KL-Loss的計(jì)算為

        表1 R3Net顯著性檢測(cè)結(jié)果的定量分析

        2.2 基于樣本顯著性的分類損失函數(shù)設(shè)計(jì)

        RetinaNet算法針對(duì)目標(biāo)的分類損失采用Focal-Loss函數(shù)[15],該函數(shù)將預(yù)測(cè)得分與交叉熵?fù)p失相結(jié)合,使網(wǎng)絡(luò)更關(guān)注難分樣本,忽略大量易分樣本,從而緩解網(wǎng)絡(luò)正負(fù)樣本不平衡的問題。但在紅外行人檢測(cè)中,紅外圖像分辨率普遍較低,存在大量噪聲樣本。在Focal-Loss的影響下,網(wǎng)絡(luò)過度關(guān)注這些特征空間中的離群點(diǎn),而忽略了大量具有普適性特征的行人目標(biāo)。這種現(xiàn)象嚴(yán)重影響了網(wǎng)絡(luò)的泛化性能,導(dǎo)致網(wǎng)絡(luò)產(chǎn)生大量誤檢結(jié)果。

        圖6 教師網(wǎng)絡(luò)R3Net的部分顯著性檢測(cè)結(jié)果可視化。奇數(shù)列為紅外圖像,偶數(shù)列為顯著性檢測(cè)結(jié)果

        本文對(duì)不同顯著性強(qiáng)度的樣本進(jìn)行分析,部分樣本如圖7所示。本文發(fā)現(xiàn)這類特征質(zhì)量較差的樣本往往不具備良好的顯著性表達(dá)。因此,得益于多任務(wù)學(xué)習(xí)框架,本文考慮將協(xié)同分支所預(yù)測(cè)的顯著性檢測(cè)結(jié)果轉(zhuǎn)為顯著性得分,并作為樣本的先驗(yàn)信息引入目標(biāo)檢測(cè)的標(biāo)簽中,以合理方式降低顯著性較差的樣本權(quán)重,從而使網(wǎng)絡(luò)學(xué)習(xí)到更加泛化的行人特征。本文將從樣本顯著性得分因子的計(jì)算和分類損失設(shè)計(jì)兩個(gè)方面進(jìn)行分析。

        2.2.1 樣本顯著性得分因子計(jì)算

        2.2.2 Smooth Focal-Loss函數(shù)

        圖7 協(xié)同分支的部分顯著性檢測(cè)結(jié)果可視化。(a) 顯著性較強(qiáng)樣本;(b) 顯著性較差樣本

        圖8 (a) 不同參數(shù)下顯著性得分因子的映射函數(shù)曲線;(b) 部分映射結(jié)果可視化。紅框?yàn)闄z測(cè)label,數(shù)字為計(jì)算的顯著性得分因子Si

        2.3 算法整體計(jì)算步驟

        3 實(shí)驗(yàn)結(jié)果

        3.1 實(shí)驗(yàn)細(xì)節(jié)

        3.1.1 實(shí)驗(yàn)環(huán)境

        本文采用Pytorch框架完成所有算法的訓(xùn)練和測(cè)試。網(wǎng)絡(luò)ResNet50部分參數(shù)在ImageNet數(shù)據(jù)集中完成預(yù)訓(xùn)練,其余參數(shù)采用Xavier方法進(jìn)行初始化。本文采用Adam優(yōu)化器以0.0001的學(xué)習(xí)率在單個(gè)NVIDIA TITANX GPU上訓(xùn)練40輪。學(xué)習(xí)過程中,本文將單批數(shù)量設(shè)置為8,錨框長(zhǎng)寬比為0.42,并在4個(gè)不同尺度上分別設(shè)置[1, 1.4, 1.7]三個(gè)不同大小的框。在訓(xùn)練過程中,本文采用數(shù)據(jù)增強(qiáng)方法對(duì)樣本進(jìn)行隨機(jī)增強(qiáng),包括:隨機(jī)裁剪、縮放、翻轉(zhuǎn)、歸一化等方法,并通過隨機(jī)通道對(duì)比度、亮度等模擬紅外成像所產(chǎn)生的噪聲干擾。在測(cè)試過程中,本文采用閾值為0.3的非最大值抑制以去除預(yù)測(cè)過程產(chǎn)生的大量重復(fù)框。針對(duì)顯著性檢測(cè)網(wǎng)絡(luò)R3Net,本文采用0.9動(dòng)量,學(xué)習(xí)率為0.001的SGD優(yōu)化器,單批數(shù)量為10進(jìn)行9000次迭代訓(xùn)練。

        3.1.2 數(shù)據(jù)集

        本文在KAIST多光譜數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試。其中該數(shù)據(jù)集包含95328張配準(zhǔn)的可見光?遠(yuǎn)紅外圖像對(duì),并包含1182個(gè)獨(dú)立的行人樣本。本文僅采用紅外部分圖像用于本文的實(shí)驗(yàn)。本文采用與文獻(xiàn)[14]一致的實(shí)驗(yàn)方案,即訓(xùn)練集采用文獻(xiàn)[24]中提供的清洗后的訓(xùn)練標(biāo)注,而測(cè)試集采用文獻(xiàn)[6]提供的測(cè)試標(biāo)注,測(cè)試集按照行人檢測(cè)的合理設(shè)置[5]進(jìn)行測(cè)試。其中測(cè)試圖像有2252張圖像樣本組成,其包含1455張白天圖像與797張夜晚圖像供實(shí)驗(yàn)分析。為了完成顯著性檢測(cè)任務(wù)且保證實(shí)驗(yàn)的合理性,本文采用Ghost等人提供的1701張像素級(jí)標(biāo)注。這些標(biāo)注均從訓(xùn)練集中采集而不包含任何測(cè)試集信息。

        3.1.3 評(píng)估指標(biāo)

        針對(duì)行人檢測(cè),本文借助于KAIST標(biāo)準(zhǔn)評(píng)估工具對(duì)行人檢測(cè)結(jié)果進(jìn)行評(píng)估,其中采用對(duì)數(shù)平均丟失率(log-average miss rate,MR-2)對(duì)檢測(cè)性能進(jìn)行量化。該指標(biāo)計(jì)算方式為在[10-2, 100]中的單張圖片誤檢數(shù)(false positive per image,F(xiàn)PPI)按對(duì)數(shù)間隔均勻取9個(gè)點(diǎn),并由每個(gè)點(diǎn)所對(duì)應(yīng)的最小丟失率(miss rate,MR)的對(duì)數(shù)平均值計(jì)算所得。FPPI和MR的計(jì)算式如下:

        Precision為所有預(yù)測(cè)為正的樣本中,實(shí)際為正的樣本比例。Recall則為所有實(shí)際為正的樣本中能夠有效檢出的比例。其中AP指標(biāo)主要用于統(tǒng)一衡量Precision及Recall的整體情況,AP越大表明目標(biāo)檢測(cè)的綜合性能越強(qiáng)。由于本文僅針對(duì)行人單類目標(biāo)進(jìn)行分析,因此mAP與AP值相同。

        3.2 消融實(shí)驗(yàn)分析

        3.2.1 多任務(wù)學(xué)習(xí)框架性能測(cè)試

        本文在數(shù)據(jù)集中完成了2.1中設(shè)計(jì)的PAR、CAS、Guided(a)、Guided(b)這4種方案的性能測(cè)試,其中測(cè)試結(jié)果如表2、表3及圖9。

        通過對(duì)表2、表3及圖9的數(shù)據(jù)分析,本文可得到以下結(jié)論:

        1) 采用流注式的多任務(wù)網(wǎng)絡(luò)(CAS)丟失率低于基準(zhǔn)網(wǎng)絡(luò),這說明引入合理的顯著性檢測(cè)分支結(jié)構(gòu)能夠從側(cè)面強(qiáng)化行人檢測(cè)的性能。

        2) 引導(dǎo)式注意力模型(Guided(a))由于采用單通道復(fù)制的方法直接與原特征通道數(shù)匹配,破壞了原有的特征分布情況,MR-2上升7.86%。而模型(Guided(b))通過將與注意力特征重新結(jié)合,強(qiáng)化了特征提取網(wǎng)絡(luò),對(duì)原有檢測(cè)分支添加了近似自注意力的結(jié)構(gòu),MR-2下降0.21%。但在推理時(shí)仍需要保留分支網(wǎng)絡(luò),加大了計(jì)算消耗。

        3) 在獨(dú)立學(xué)習(xí)式框架中,多尺度并行框架相較于

        基準(zhǔn)網(wǎng)絡(luò)MR-2反而上升0.48%,其精度的損失主要來源于不同尺度目標(biāo)特征分布的差異性,由于不同層級(jí)分支網(wǎng)絡(luò)等權(quán)重的反向傳播分支損失,使其難以適應(yīng)這種差異性而進(jìn)行等效的優(yōu)化,造成了性能的下降??紤]到以上三點(diǎn),本文將采用CAS模型作為多任務(wù)學(xué)習(xí)的基本方案,并在此基礎(chǔ)上完成對(duì)基于顯著性的損失函數(shù)性能研究。

        表2 獨(dú)立學(xué)習(xí)式框架性能測(cè)試

        表3 引導(dǎo)注意力式框架性能測(cè)試

        3.2.2 基于樣本顯著性的分類損失函數(shù)性能研究

        表4 不同參數(shù)下的檢測(cè)性能對(duì)比實(shí)驗(yàn)

        3.3 與主流紅外行人檢測(cè)算法的對(duì)比分析

        本文將該算法與目前主流的紅外行人檢測(cè)算法Faster RCNN-T[13],F(xiàn)aster RCNN+SM[13],Bottom up[25],TC-thermal[14],TC-Det[14],RetinaNet[15](baseline),RetinaNet+SM進(jìn)行了對(duì)比,對(duì)比結(jié)果如表5所示。RetinaNet+SM在RetinaNet基礎(chǔ)上采用與文獻(xiàn)[13]相同的方式對(duì)原圖進(jìn)行顯著圖的堆疊。

        表中MR-2-all, MR-2-day, MR-2-night分別代表全天、僅白天、僅夜晚情況下的行人檢測(cè)丟失率,(CAS+Smooth FL)表示采用本文CAS分支模型且通過設(shè)計(jì)的Smooth Focal-Loss損失函數(shù)進(jìn)行優(yōu)化,根據(jù)表中數(shù)據(jù)可得本文的多任務(wù)學(xué)習(xí)相較于baseline能夠有效降低4.43%,其中白天下降4.23%,夜晚下降5.84%。由于本文設(shè)計(jì)的網(wǎng)絡(luò)框架強(qiáng)化了檢測(cè)器對(duì)顯著目標(biāo)的關(guān)注,誤檢現(xiàn)象大幅度減小,最終檢測(cè)效果如圖10所示。實(shí)驗(yàn)結(jié)果表明,采用本文多任務(wù)學(xué)習(xí)方式的檢測(cè)結(jié)果優(yōu)于直接對(duì)原圖進(jìn)行增強(qiáng)的方法(MR-2分別為20.25%與23.47%),且在測(cè)試階段無需通過額外的網(wǎng)絡(luò)進(jìn)行顯著性圖的預(yù)測(cè)。

        表5 KAIST 紅外行人檢測(cè)算法性能測(cè)試對(duì)比,其中+SM 表示采用文獻(xiàn)[13]的方式引入顯著圖

        圖10 5個(gè)場(chǎng)景下真實(shí)值及不同模型的檢測(cè)結(jié)果。

        (a) 真實(shí)值;(b) RetinaNet;(c) 本文模型檢測(cè)結(jié)果;(d) 協(xié)同分支顯著性檢測(cè)結(jié)果

        Fig. 10 Partial test results.

        (a) Ground-truth; (b) Baseline; (c) Ours detection result; (d) Saliency detection result of the auxiliary network

        4 結(jié) 論

        本文提出了一種用于紅外行人檢測(cè)的多任務(wù)學(xué)習(xí)框架。針對(duì)紅外圖像質(zhì)量較差,缺乏樣本色彩及細(xì)節(jié)信息的問題,引入顯著性檢測(cè)任務(wù),從側(cè)面引導(dǎo)檢測(cè)網(wǎng)絡(luò)對(duì)強(qiáng)顯著區(qū)域的關(guān)注。同時(shí),針對(duì)紅外圖像中存在大量噪聲樣本的問題,將協(xié)同分支顯著性檢測(cè)的結(jié)果映射為每個(gè)樣本的顯著性得分因子,在分類損失中抑制噪聲樣本對(duì)網(wǎng)絡(luò)學(xué)習(xí)的影響。最終,實(shí)驗(yàn)測(cè)試結(jié)果證實(shí)了方法的有效性,并能夠在不增加推理計(jì)算消耗的同時(shí),相較于基準(zhǔn)算法RetinaNet有效降低4.43 MR-2。但是,本文方法仍受限于大量手工設(shè)計(jì)的參數(shù)。如何使網(wǎng)絡(luò)以自適應(yīng)的方式適應(yīng)各種復(fù)雜場(chǎng)景將作為下一步研究的重點(diǎn)。

        [1] Zhang L L, Lin L, Liang X D,. Is faster R-CNN doing well for pedestrian detection?[C]//, 2016: 443–457.

        [2] Li J N, Liang X D, Shen S M,Scale-aware fast R-CNN for pedestrian detection[J].2018, 20(4): 985–996.

        [3] Zhang B H, Zhu S Y, Lv X Q,. Soft multilabel learning and deep feature fusion for unsupervised person re-identification[J]., 2020, 47(12): 190636.

        張寶華, 朱思雨, 呂曉琪, 等. 軟多標(biāo)簽和深度特征融合的無監(jiān)督行人重識(shí)別[J]. 光電工程, 2020, 47(12): 190636.

        [4] Zhang X Y, Zhang B H, Lv X Q,. The joint discriminative and generative learning for person re-identification of deep dual attention[J]., 2021, 48(5): 200388.

        張曉艷, 張寶華, 呂曉琪, 等. 深度雙重注意力的生成與判別聯(lián)合學(xué)習(xí)的行人重識(shí)別[J]. 光電工程, 2021, 48(5): 200388.

        [5] Hwang S, Park J, Kim N,. Multispectral pedestrian detection: Benchmark dataset and baseline[C]//, 2015: 1037–1045.

        [6] Liu J J, Zhang S T, Wang S,. Multispectral deep neural networks for pedestrian detection[Z]. arXiv preprint arXiv:1611.02644, 2016.

        [7] Wang R G, Wang J, Yang J,. Feature pyramid random fusion network for visible-infrared modality person re-identification[J]., 2020, 47(12): 190669.

        汪榮貴, 王靜, 楊娟, 等. 基于紅外和可見光模態(tài)的隨機(jī)融合特征金子塔行人重識(shí)別[J]. 光電工程, 2020, 47(12): 190669.

        [8] Zhang R Z, Zhang J L, Qi X P,. Infrared target detection and recognition in complex scene[J]., 2020, 47(10): 200314.

        張汝榛, 張建林, 祁小平, 等. 復(fù)雜場(chǎng)景下的紅外目標(biāo)檢測(cè)[J]. 光電工程, 2020, 47(10): 200314.

        [9] Ren S, He K, Girshick R,. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2016, 39(6): 1137–1149.

        [10] Redmon J, Divvala S, Girshick R,. You only look once: unified, real-time object detection[C]//, 2016: 779–788.

        [11] John V, Mita S, Liu Z,. Pedestrian detection in thermal images using adaptive fuzzy C-means clustering and convolutional neural networks[C]//, 2015: 246–249.

        [12] Devaguptapu C, Akolekar N, Sharma M M,. Borrow from anywhere: pseudo multi-modal object detection in thermal imagery[C]//, 2019: 1029–1038.

        [13] Ghose D, Desai S M, Bhattacharya S,Pedestrian detection in thermal images using saliency maps[C]//, 2019: 988–997.

        [14] Kieu M, Bagdanov AD, Bertini M,. Task-conditioned domain adaptation for pedestrian detection in thermal imagery[C]//, 2020: 546–562.

        [15] Lin T Y, Goyal P, Girshick R,. Focal loss for dense object detection[C]//, 2017: 2999–3007.

        [16] Deng Z J, Hu X W, Zhu L,R3Net: recurrent residual refinement network for saliency detection[C]//, 2018: 684–690.

        [17] Koch C, Ullman S. Shifts in selective visual attention: towards the underlying neural circuitry[J].1985, 4(4): 219–227.

        [18] Hou X D, Zhang L Q. Saliency detection: a spectral residual approach[C]//, 2007: 1–8.

        [19] Montabone S, Soto A. Human detection using a mobile platform and novel features derived from a visual saliency mechanism[J].2010, 28(3): 391–402.

        [20] Liu N, Han J W, Yang M H. PiCANet: learning pixel-wise contextual attention for saliency detection[C]//, 2018: 3089–3098.

        [21] Li C Y, Song D, Tong R F,. Illumination-aware faster R-CNN for robust multispectral pedestrian detection[J].2019, 85: 161–171.

        [22] Li C Y, Song D, Tong R F,. Multispectral pedestrian detection via simultaneous detection and segmentation[Z]. arXiv preprint arXiv:1808.04818, 2018.

        [23] Guo T T, Huynh C P, Solh M. Domain-adaptive pedestrian detection in thermal images[C]//, 2019: 1660–1664.

        Multi-task learning for thermal pedestrian detection

        Gou Yutao1,2,3, Ma Liang1,2,3, Song Yixuan1,2,3, Jin Lei1,2, Lei Tao1,2*

        1Photoelectric Detection Technology Laboratory, Chinese Academy of Sciences, Chengdu, Sichuan 610209, China;2Institute of Optics and Electronics, Chinese Academy of Sciences, Chengdu, Sichuan 610209, China;3University of Chinese Academy of Sciences, Beijing 100049, China

        The visualization of pedestrian samples in KAIST

        Overview:In recent years, pedestrian detection techniques based on visible images have been developed rapidly. However, interference from light, smoke, and occlusion makes it difficult to achieve robust detection around the clock by relying on these images alone. Thermal images, on the other hand, can sense the thermal radiation information in the specified wavelength band emitted by the target, which are highly resistant to interference, ambient lighting, etc, and widely used in security and transportation. At present, the detection performance of thermal images still needs to be improved, which suffers from the poor image quality of thermal images and the interference of some noisy samples to network learning.

        In order to improve the performance of the thermal pedestrian detection algorithm, we firstly introduce a saliency detection map as supervised information and adopt a framework of multi-task learning, where the main network completes the pedestrian detection task and the auxiliary network satisfies the saliency detection task. By sharing the feature extraction modules of both tasks, the network has saliency detection capability while guiding the network to focus on salient regions. To search for the most reasonable framework of the auxiliary network, we test four different kinds of design from the independent-learning to the guided-attentive model. Secondly, through the visualization of the pedestrian samples, we induce noisy samples that have lower saliency expressions in the thermal images and introduce the saliency strengths of different samples into the classification loss function by hand-designing the mapping function to relieve the interference of noisy samples on the network learning. To achieve this goal, we adopt a sigmoid function with reasonable transformation as our mapping function, which maps the saliency area percentage to the saliency score. Finally, we introduce the saliency score to the Focal Loss and design the Smooth Focal Loss, which can decrease the loss of low-saliency samples with reasonable settings.

        Extensive experiments on KAIST thermal images have proved the conclusions as follows. First, compared with other auxiliary frameworks, our cascaded model achieves impressive performance with independent design. Besides, compared with the RetinaNet, we decrease the log-average miss rate by 4.43%, which achieves competitive results among popular thermal pedestrian detection methods. Finally, our method has no impact on the computational cost in the inference process as a network training strategy. Although the effectiveness of our method has been proven, one still needs to set the super-parameters manually. In the future, how to enable the network to adapt to various detection conditions will be our next research point.

        Gou Y T, Ma L, Song Y X,Multi-task learning for thermal pedestrian detection[J]., 2021, 48(12): 210358; DOI:10.12086/oee.2021.210358

        Multi-task learning for thermal pedestrian detection

        Gou Yutao1,2,3, Ma Liang1,2,3, Song Yixuan1,2,3, Jin Lei1,2, Lei Tao1,2*

        1Photoelectric Detection Technology Laboratory, Chinese Academy of Sciences, Chengdu, Sichuan 610209, China;2Institute of Optics and Electronics, Chinese Academy of Sciences, Chengdu, Sichuan 610209, China;3University of Chinese Academy of Sciences, Beijing 100049, China

        Compared with high-quality RGB images, thermal images tend to have a higher false alarm rate in pedestrian detection tasks. The main reason is that thermal images are limited by imaging resolution and spectral characteristics, lacking clear texture features, while some samples have poor feature quality, which interferes with the network training. We propose a thermal pedestrian algorithm based on a multi-task learning framework, which makes the following improvements based on the multiscale detection framework. First, saliency detection tasks are introduced as an auxiliary branch with the target detection network to form a multitask learning framework, which side-step the detector's attention to illuminate salient regions and their edge information in a co-learning manner. Second, the learning weight of noisy samples is suppressed by introducing the saliency strength into the classification loss function. The detection results on the publicly available KAIST dataset confirm that our learning method can effectively reduce the log-average miss rate by 4.43% compared to the baseline, RetinaNet.

        thermal pedestrian detection; multi-task learning; saliency detection

        10.12086/oee.2021.210358

        * E-mail: taoleiyan@ioe.ac.cn

        茍于濤,馬梁,宋怡萱,等. 基于多任務(wù)學(xué)習(xí)框架的紅外行人檢測(cè)算法[J]. 光電工程,2021,48(12): 210358

        Gou Y T, Ma L, Song Y X,Multi-task learning for thermal pedestrian detection[J]., 2021, 48(12): 210358

        TP391.41;TN215

        A

        2021-11-12;

        2021-11-30

        茍于濤(1997-),男,碩士,主要從事基于深度學(xué)習(xí)的目標(biāo)檢測(cè)和多模圖像融合識(shí)別的研究。E-mail:gouyutao19@mails.ucas.ac.cn

        雷濤(1981-),男,博士,研究員,主要從事基于傳統(tǒng)方法及深度學(xué)習(xí)技術(shù)的圖像處理與分析、復(fù)雜場(chǎng)景下目標(biāo)檢測(cè)識(shí)別與跟蹤等方面的研究。E-mail:taoleiyan@ioe.ac.cn

        猜你喜歡
        分支行人紅外
        網(wǎng)紅外賣
        閃亮的中國(guó)紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        巧分支與枝
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
        電子制作(2019年7期)2019-04-25 13:17:14
        路不為尋找者而設(shè)
        一類擬齊次多項(xiàng)式中心的極限環(huán)分支
        我是行人
        基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
        生成分支q-矩陣的零流出性
        亚洲AV无码秘 蜜桃1区| 色婷婷一区二区三区四区成人网| 国产强被迫伦姧在线观看无码| 日日摸日日碰夜夜爽无码| 亚洲成a人片在线| 天堂岛国精品在线观看一区二区| 亚洲丰满熟女乱一区二区三区 | 国产精品丝袜久久久久久不卡| 伊人久久综在合线亚洲不卡| 日韩精品国产一区在线| 亚洲婷婷久悠悠色悠在线播放| √新版天堂资源在线资源| 欧美黑人又粗又大久久久 | 国产三级视频在线观看国产| 亚洲国产精品18久久久久久 | 国产成人无码18禁午夜福利p| 国产女精品视频网站免费| 麻豆av一区二区天堂| 日本二区在线视频观看| 香港三级日本三级a视频| 中文字幕久久久精品无码| 五月天亚洲av优女天堂| 人妻中文字幕在线中文字幕| 4hu四虎永久在线观看| 中文字幕久无码免费久久 | 亚洲一区二区国产一区| 亚洲精品久久| 91麻豆精品激情在线观看最新| 亚洲一区二区三区在线更新| 国产欧美综合一区二区三区| 婷婷五月六月综合缴情| 久久国产成人亚洲精品影院老金| 国产av麻豆精品第一页| 成人国产一区二区三区| 特级毛片a级毛片免费播放| 日韩人妻无码精品系列专区无遮 | 色天使久久综合网天天| 国产中老年妇女精品| 国产精品国产午夜免费看福利| 亚洲激情综合中文字幕| 色妞色视频一区二区三区四区|