閆夢(mèng)凱 錢(qián)建軍 楊 健
眾所周知,可見(jiàn)光人臉圖像中含有豐富的面部紋理、顏色等細(xì)節(jié)信息,然而紅外人臉圖像中含有面部熱信息,跨光譜人臉圖像能夠?qū)烧叩膬?yōu)點(diǎn)相結(jié)合,彌補(bǔ)各自的不足.另外,熱紅外相機(jī)能夠采集人臉面部的溫度信息,可用于快速推算人體體溫,這在公共場(chǎng)所的體溫篩查任務(wù)中有著重要的應(yīng)用價(jià)值.
在實(shí)際應(yīng)用中,跨光譜圖像的人臉檢測(cè)是必不可少的過(guò)程.可見(jiàn)光圖像中的人臉檢測(cè)較為容易,紅外圖像中的人臉檢測(cè)較難.原因是紅外圖像人臉的表征很弱,不同場(chǎng)景下采集的紅外圖像差異較大.如果分別對(duì)可見(jiàn)光圖像和紅外圖像進(jìn)行人臉檢測(cè)又需要耗費(fèi)雙倍的時(shí)間和計(jì)算資源.
為了有效地檢測(cè)紅外圖像中的人臉,通常利用雙目相機(jī)的位置關(guān)系,使用平移和旋轉(zhuǎn)參數(shù)將可見(jiàn)光圖像中檢測(cè)到的人臉邊界框投影至紅外圖像中,以此得到粗略的紅外人臉位置.由于雙相機(jī)之間存在視場(chǎng)不一致和成像時(shí)間差等缺點(diǎn),導(dǎo)致跨光譜圖像之間的像素?zé)o法嚴(yán)格對(duì)應(yīng),因此以該方式獲取的紅外人臉邊界框存在較大偏差,如圖1 中虛線邊界框所示.
圖1 跨光譜人臉檢測(cè)Fig.1 Cross-spectral face detection
針對(duì)上述問(wèn)題,本文對(duì)跨光譜圖像之間的偏差進(jìn)行了深入的分析,偏差主要是由雙相機(jī)視差和成像時(shí)間差導(dǎo)致的.相機(jī)的視差是指由于雙相機(jī)光軸無(wú)法完全重疊,導(dǎo)致視場(chǎng)存在一定的偏差.據(jù)所知,使用光線分束器可以將雙目相機(jī)的視場(chǎng)對(duì)齊,但是分束器成本高、調(diào)試難、并且有光損耗,應(yīng)用范圍較小.相機(jī)的成像時(shí)間差主要是由于雙相機(jī)成像時(shí)間不一致,導(dǎo)致采集到的圖像時(shí)間戳無(wú)法嚴(yán)格對(duì)齊,從而導(dǎo)致場(chǎng)景中動(dòng)態(tài)目標(biāo)的成像存在偏差.
為了克服雙目相機(jī)采集到的跨光譜圖像之間的偏差,準(zhǔn)確定位紅外圖像人臉,本文設(shè)計(jì)了候選框布置策略和跨光譜特征表示方法.候選框的布置利用了坐標(biāo)映射的結(jié)果,坐標(biāo)映射雖有偏差,但是能夠?yàn)楹蜻x框的布置提供較強(qiáng)的先驗(yàn)信息.跨光譜特征表示方法用于選擇能夠準(zhǔn)確表達(dá)紅外人臉位置的候選框.
本文還構(gòu)建了一個(gè)跨光譜人臉數(shù)據(jù)集,數(shù)據(jù)采集場(chǎng)景為人員進(jìn)出密集的樓宇出入口,涵蓋白天和夜晚場(chǎng)景,采集到的人臉圖像含有遮擋、不同姿態(tài)等情況.數(shù)據(jù)集中的紅外人臉圖像含有手工標(biāo)注的人臉邊界框,作為評(píng)估算法性能的基準(zhǔn).
本文主要貢獻(xiàn)如下:
1)深入分析了跨光譜相機(jī)的視差和成像時(shí)間差對(duì)跨光譜圖像偏差的影響.
2)提出了一種針對(duì)弱對(duì)齊圖像的跨光譜人臉檢測(cè)算法,依據(jù)跨光譜圖像之間的弱對(duì)齊關(guān)系布置候選框;為選擇最優(yōu)候選框,設(shè)計(jì)了跨光譜特征表示方法.
3)構(gòu)建了一個(gè)跨光譜人臉數(shù)據(jù)集(Cross-spectrum face,CSF).并在CSF和OTCBVS[1]上測(cè)試了人臉檢測(cè)算法的性能.實(shí)驗(yàn)結(jié)果證明,本文方法在紅外圖像中可以表現(xiàn)出更好性能.
人臉檢測(cè)的任務(wù)是檢測(cè)人臉在圖像中的具體位置以及大小,檢測(cè)結(jié)果通常用邊界框在圖像中的位置表示.早期的人臉檢測(cè)算法[2-3]采用密集滑動(dòng)窗口進(jìn)行采樣分類(lèi),檢測(cè)速度慢、精度低.后續(xù)基于AdaBoost 分類(lèi)器的算法[4-5]等在保證檢測(cè)精度的同時(shí)極大地提升了檢測(cè)速度,簡(jiǎn)單特征的優(yōu)化級(jí)聯(lián)框架[5]是當(dāng)時(shí)主流的人臉檢測(cè)框架.為了提升算法的魯棒性,文獻(xiàn)[6] 設(shè)計(jì)了基于可變形組件模型的人臉檢測(cè)算法,能夠檢測(cè)各種姿態(tài)的人臉,文獻(xiàn)[7] 利用稀疏表示提取泛化能力更好的面部特征.隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的人臉檢測(cè)算法逐漸代替了基于手工設(shè)計(jì)特征的方法.目前的一些基于深度學(xué)習(xí)的人臉檢測(cè)算法已取得了巨大的進(jìn)展,文獻(xiàn)[8-13]等人臉檢測(cè)算法在WIDER-face 數(shù)據(jù)集[14]上達(dá)到了非常好的檢測(cè)性能.但是基于深度學(xué)習(xí)的人臉檢測(cè)算法通常依賴(lài)大量的訓(xùn)練數(shù)據(jù),目前紅外圖像人臉數(shù)據(jù)集有限,使用深度學(xué)習(xí)方法檢測(cè)紅外人臉仍存在較大的挑戰(zhàn).現(xiàn)有的紅外圖像人臉檢測(cè)工作[15-18]很難達(dá)到令人滿(mǎn)意的結(jié)果.早期,有文章介紹了使用手工特征進(jìn)行紅外人臉檢測(cè)的方法,例如文獻(xiàn)[15]提出了兩種用于熱紅外人臉檢測(cè)的局部特征,文獻(xiàn)[18]提出了使用邊緣檢測(cè)、模板匹配以及兩者結(jié)合的紅外人臉檢測(cè)算法,文獻(xiàn)[19-20] 開(kāi)發(fā)了用于發(fā)熱篩查的移動(dòng)平臺(tái),該平臺(tái)利用可見(jiàn)光圖像定位人臉,并將人臉位置映射至紅外圖像中以獲取面部溫度信息.但是以上紅外人臉檢測(cè)算法檢測(cè)性能有限,對(duì)于環(huán)境復(fù)雜、有遮擋、面部較小等特征不明顯的面部,檢測(cè)結(jié)果不理想.
跨光譜圖像處理包含跨光譜圖像融合以及跨光譜圖像立體匹配等方面的工作.跨光譜圖像的融合的目的,是將可見(jiàn)光圖像和紅外圖像各自的優(yōu)勢(shì)結(jié)合起來(lái),文獻(xiàn)[21-22]提出了可見(jiàn)光和紅外配對(duì)的人臉數(shù)據(jù)集,用于活體人臉識(shí)別的研究,數(shù)據(jù)集中含有不同的姿勢(shì)、遮擋的人臉.文獻(xiàn)[23]提出了跨光譜行人數(shù)據(jù)集,紅外信息的引入能夠大大增強(qiáng)夜間行人的檢測(cè)性能.另外,文獻(xiàn)[24-28]介紹了跨光譜圖像融合的相關(guān)算法.跨光譜圖像立體匹配是依靠交叉光譜之間的匹配特征估計(jì)視差,通常由于跨光譜圖像之間存在差異導(dǎo)致特征匹配較為困難.為了克服特征匹配的困難.文獻(xiàn)[29]針對(duì)玻璃等材料在不同光譜中的不同表現(xiàn)設(shè)計(jì)了材料感知損失函數(shù),降低了材料對(duì)交叉光譜特征匹配的影響.文獻(xiàn)[30]針對(duì)交叉光譜外觀差異較大的問(wèn)題,提出了使用生成對(duì)抗網(wǎng)絡(luò)對(duì)圖像進(jìn)行風(fēng)格轉(zhuǎn)換,從而降低了交叉光譜之間的差異.此外,文獻(xiàn)[31]提出了弱對(duì)齊圖像對(duì)行人檢測(cè)的影響,并將對(duì)齊偏差融入損失函數(shù),提高了檢測(cè)性能,該文中明確指出跨光譜雙目相機(jī)采集到的圖像存在不嚴(yán)格對(duì)齊的情況.文獻(xiàn)[32]使用紅外相機(jī)獲取面部眼部的溫度進(jìn)行體溫測(cè)量,但是紅外圖像中人臉難以被檢測(cè),因此文中使用可見(jiàn)光與紅外圖像配對(duì)的方案,在可見(jiàn)光圖像中檢測(cè)到人臉后再將可見(jiàn)光與紅外圖像中的人臉通過(guò)可變形方法進(jìn)行對(duì)齊,從而獲取紅外圖像中人臉位置.以上工作表明,可見(jiàn)光圖像與紅外圖像之間存在較大的差異,包括像素位置無(wú)法對(duì)齊的差異和圖像特征的差異,這些差異導(dǎo)致跨光譜圖像的處理依然是一個(gè)極具挑戰(zhàn)的問(wèn)題.
跨光譜雙目相機(jī)采集到的圖像之間無(wú)法嚴(yán)格對(duì)齊,導(dǎo)致同一個(gè)人臉在不同的相機(jī)中的成像位置無(wú)法準(zhǔn)確對(duì)應(yīng),因此將可見(jiàn)光圖像中的人臉坐標(biāo)映射至紅外圖像中時(shí),會(huì)出現(xiàn)偏差.在以往的工作中,文獻(xiàn)[31]提出了跨光譜圖像行人檢測(cè)存在偏差,但是并未具體分析原因,僅從數(shù)據(jù)集的層面指出了存在該問(wèn)題.本節(jié)對(duì)跨光譜人臉圖像的坐標(biāo)映射進(jìn)行了推導(dǎo),分析了視差和雙相機(jī)成像時(shí)間差對(duì)坐標(biāo)映射的影響.
由于雙目相機(jī)的光軸無(wú)法完全重合,且可見(jiàn)光相機(jī)與紅外相機(jī)的鏡頭材質(zhì)不同,因此雙相機(jī)采集到的同一人臉很難實(shí)現(xiàn)精確的一一對(duì)應(yīng).本節(jié)以坐標(biāo)映射的方式推導(dǎo)了雙相機(jī)圖像之間的像素對(duì)應(yīng)關(guān)系,根據(jù)推導(dǎo)結(jié)果分析了人臉到鏡頭的距離與像素對(duì)應(yīng)偏差之間的關(guān)系.
可見(jiàn)光圖像和紅外圖像分別由可見(jiàn)光相機(jī)和紅外相機(jī)采集,根據(jù)相機(jī)的成像原理和雙相機(jī)之間的位置關(guān)系,可以推算出跨光譜圖像之間的像素關(guān)系.如圖2 所示,空間內(nèi)任意一點(diǎn)P 與其在可見(jiàn)光相機(jī)中成像位置的關(guān)系為R1,與其在紅外相機(jī)中成像位置的關(guān)系為R2,可見(jiàn)光相機(jī)與紅外相機(jī)之間的位置關(guān)系的R3.依據(jù)R1、R2、R3 可以推導(dǎo)出雙相機(jī)所拍攝的兩圖像之間的像素關(guān)系.
圖2 雙相機(jī)與空間內(nèi)任意一點(diǎn)的關(guān)系Fig.2 The relationship between dual cameras and any point in space
依據(jù)相機(jī)的成像原理,在相機(jī)坐標(biāo)系下,可以推導(dǎo)出空間中一點(diǎn)與其在圖像中成像位置的關(guān)系,如圖3 所示,是相機(jī)坐標(biāo)系下的一點(diǎn),是相機(jī)成像面上的一點(diǎn),相機(jī)成像原理為小孔成像,根據(jù)相似三角形相似原理,可得兩點(diǎn)的關(guān)系如式(1):
圖3 空間中任意一點(diǎn)在相機(jī)中的成像坐標(biāo)Fig.3 The imaging coordinates of any point in space in the camera
式中,f為相機(jī)焦距.
在相機(jī)成像面上,如圖4 所示,P點(diǎn)像素坐標(biāo)(u,v) 與其在圖像坐標(biāo)系下的坐標(biāo) (xu,yu) 的關(guān)系為式(2)~(3).
圖4 像素坐標(biāo)系與圖像坐標(biāo)系的關(guān)系Fig.4 The relationship between pixel coordinate system and image coordinate system
式中,u0、v0是圖像坐標(biāo)系原點(diǎn)O2在像素坐標(biāo)系下的位置.dx、dy 分別代表兩個(gè)像素點(diǎn)之間的實(shí)際距離.
根據(jù)式(1)~(3)可得,可見(jiàn)光相機(jī)坐標(biāo)系下一點(diǎn)(xc1,yc1,zc1) 與像素坐標(biāo)系下一點(diǎn) (u1,v1) 的關(guān)系R1 可表示為式(4)和式(5):
同理可得紅外相機(jī)坐標(biāo)系下一點(diǎn)(xc2,yc2,zc2)與像素坐標(biāo)系下一點(diǎn) (u2,v2) 的關(guān)系R2 可表示為式(6)和式(7):
雙相機(jī)之間存在一段空間距離的偏移,假設(shè)偏移量為p,那么雙相機(jī)坐標(biāo)系之間的關(guān)系R3 可表示為式(8)~(10).
根據(jù)式(4)~(10) 可得,可見(jiàn)光圖像中一點(diǎn)(u1,v1) 與紅外圖像中對(duì)應(yīng)位置點(diǎn) (u2,v2) 的關(guān)系為式(11)和式(12),該推導(dǎo)結(jié)果即為跨光譜圖像之間的像素對(duì)應(yīng)關(guān)系.
式(11)中的zc為相機(jī)坐標(biāo)系下物體的豎坐標(biāo),是點(diǎn)到相機(jī)鏡頭的距離,即為深度.
基于以上分析可得跨光譜圖像之間像素對(duì)應(yīng)關(guān)系可以等同為縮放和平移,縮放系數(shù)為常數(shù)au,av,平移系數(shù)為bu/zc+cu,cv,橫向平移系數(shù)與當(dāng)前像素點(diǎn)的深度zc相關(guān),縱向平移系數(shù)為常數(shù).
將可見(jiàn)光圖像像素坐標(biāo)映射至紅外圖像中時(shí),根據(jù)式(11)和式(12)可知,除了需要事先對(duì)偏移和縮放參數(shù)標(biāo)定,還需要獲取圖像中每個(gè)像素點(diǎn)準(zhǔn)確的深度信息.因此視差對(duì)坐標(biāo)映射的影響可以轉(zhuǎn)換為深度估計(jì)對(duì)坐標(biāo)映射的影響,深度值的估計(jì)的精度直接影響了坐標(biāo)映射的準(zhǔn)確程度.
本文通過(guò)實(shí)驗(yàn)證明了深度值對(duì)坐標(biāo)映射的影響.如圖5 所示,左列為可見(jiàn)光圖像,右列為與左列對(duì)應(yīng)的紅外圖像,從上至下人臉到鏡頭的距離由遠(yuǎn)及近.可見(jiàn)光人臉邊界框表示人臉在可見(jiàn)光圖像中的位置,紅外人臉邊界框是可見(jiàn)光圖像中的邊界框通過(guò)縮放和平移變換后的結(jié)果.由于深度信息未知,因此在實(shí)驗(yàn)中以較遠(yuǎn)處的人臉位置偏移為基準(zhǔn),將遠(yuǎn)處人臉對(duì)齊時(shí)的平移參數(shù)作為實(shí)驗(yàn)時(shí)的平移參數(shù),在圖5 中,將第1 行的圖像之間縮放和平移參數(shù)作為實(shí)驗(yàn)過(guò)程中的參數(shù).由圖5 可以看出,隨著距離的縮小,映射后的坐標(biāo)偏移越來(lái)越大,這是因?yàn)榫嚯x變近時(shí),平移量本應(yīng)當(dāng)隨著深度值的變小而變大,但是由于在實(shí)驗(yàn)過(guò)程中使用了固定的平移量,導(dǎo)致坐標(biāo)映射的偏差變大,這也驗(yàn)證了本文的推理結(jié)論.
圖5 不同深度下的跨光譜人臉圖像Fig.5 Cross-spectral face images at different depths
當(dāng)雙相機(jī)采集面對(duì)運(yùn)動(dòng)目標(biāo)時(shí),雙相機(jī)需完全同步工作才能保證采集到同一時(shí)刻的圖像,此過(guò)程往往需要使用軟件或硬件控制雙相機(jī)同時(shí)采集圖像,但是實(shí)際應(yīng)用時(shí)很難控制雙相機(jī)的采集時(shí)間絕對(duì)一致,即使是毫秒級(jí)別的誤差,在圖像上也會(huì)表現(xiàn)出較大的偏差.
可見(jiàn)光相機(jī)與紅外相機(jī)的工作方式不一致,可見(jiàn)光相機(jī)需要調(diào)節(jié)曝光時(shí)間來(lái)應(yīng)對(duì)外界光照的變化.在夜晚,曝光時(shí)間過(guò)短,會(huì)導(dǎo)致圖像過(guò)暗;曝光時(shí)間過(guò)長(zhǎng)會(huì)導(dǎo)致圖像失真.雖然紅外圖像的每幀采集時(shí)間固定,即便能夠獲取可見(jiàn)光相機(jī)的曝光時(shí)間,也很難保證雙相機(jī)的采集時(shí)間絕對(duì)一致.對(duì)于靜態(tài)的人臉,雙相機(jī)采集時(shí)間的影響基本可以忽略不計(jì),但是對(duì)于動(dòng)態(tài)移動(dòng)的人臉,尤其距離鏡頭較近時(shí)快速移動(dòng)的人臉,由于雙相機(jī)的采集時(shí)間差異,會(huì)導(dǎo)致跨光譜人臉坐標(biāo)映射存在一定偏差.
本文也通過(guò)實(shí)驗(yàn)驗(yàn)證了雙相機(jī)成像時(shí)間差對(duì)坐標(biāo)映射的影響.如圖6 所示,當(dāng)人臉在鏡頭前勻速移動(dòng)時(shí),可見(jiàn)光圖像中人臉坐標(biāo)映射到紅外圖像中后出現(xiàn)不同程度的偏差,并且偏差大小不穩(wěn)定.
圖6 含有運(yùn)動(dòng)目標(biāo)的跨光譜人臉圖像Fig.6 Cross-spectral face images with moving target
在實(shí)際應(yīng)用中,除上述影響以外,相機(jī)的控制信號(hào)觸發(fā)、相機(jī)硬件延遲等過(guò)程都需要一定的時(shí)間,并且可能由于相機(jī)工作環(huán)境不穩(wěn)定等不可抗因素導(dǎo)致圖像的采集時(shí)間會(huì)出現(xiàn)一定的抖動(dòng),從而加劇雙相機(jī)之間的偏差.
根據(jù)第2 節(jié)中對(duì)跨光譜雙相機(jī)之間的偏差分析,本節(jié)提出了消除誤差的跨光譜人臉檢測(cè)框架.首先針對(duì)距離對(duì)偏差的影響,提出了一種基于深度估計(jì)的偏差修正方法,隨后針對(duì)整體的偏差(雙相機(jī)視差和成像時(shí)間差導(dǎo)致的偏差)介紹了跨光譜人臉檢測(cè)框架,包括候選框布置策略以及跨光譜特征表示網(wǎng)絡(luò)的構(gòu)建與訓(xùn)練等.
根據(jù)對(duì)式(11)的分析,在可見(jiàn)光圖像人臉坐標(biāo)映射到紅外圖像坐標(biāo)系下的過(guò)程中,需獲取對(duì)應(yīng)像素點(diǎn)準(zhǔn)確的深度,本文提出了一種簡(jiǎn)潔的深度估計(jì)方式,即通過(guò)圖像中人臉大小粗略估計(jì)深度zc.
由于成年人的人臉大小之間差異較小,此處暫時(shí)假設(shè)所有人的人臉實(shí)際高度為b.根據(jù)相機(jī)的成像原理,如圖7 所示,a和b分別表示圖像中人臉的像素高度與實(shí)際三維空間中人臉高度,f為相機(jī)焦距,d為人臉到相機(jī)鏡頭的距離,可以得出:
圖7 人臉高度與其成像高度的關(guān)系Fig.7 Relationship between face height and image height
將式(18)代入等式(11),即可完成坐標(biāo)的初步映射.
實(shí)際情況下,每個(gè)人臉的大小有略微的差異,尤其是人臉圖像存在遮擋和姿態(tài)變化時(shí),會(huì)導(dǎo)致檢測(cè)器檢測(cè)到的人臉邊界框發(fā)生變化.此時(shí)的人臉高度估計(jì)不準(zhǔn)確,從而導(dǎo)致人臉到鏡頭的距離估計(jì)精度下降,因此基于人臉大小的邊界框坐標(biāo)映射僅能在一定程度上降低坐標(biāo)映射的偏差,并且只能針對(duì)距離遠(yuǎn)近的變化帶來(lái)的誤差進(jìn)行糾正.如需準(zhǔn)確檢測(cè)紅外圖像中的人臉位置,還要進(jìn)一步對(duì)坐標(biāo)映射后的位置進(jìn)行糾正.
為了彌補(bǔ)雙相機(jī)之間的偏差,準(zhǔn)確檢測(cè)紅外圖像中的人臉,本文設(shè)計(jì)了跨光譜人臉檢測(cè)框架,該框架在坐標(biāo)映射的基礎(chǔ)上對(duì)邊界框進(jìn)行修正,并且能夠提升紅外人臉檢測(cè)的精度.
本文的跨光譜人臉檢測(cè)框架主要包括候選框布置策略和跨光譜特征表示.依據(jù)坐標(biāo)映射的結(jié)果,可以獲取紅外人臉的大致位置,如圖1 中候選框?qū)?yīng)區(qū)域所示,候選框在此區(qū)域內(nèi)以坐標(biāo)映射后的人臉框大小為基準(zhǔn),由左至右密集布置.分別截取候選框位置對(duì)應(yīng)的紅外圖像和可見(jiàn)光圖像中檢測(cè)到的人臉圖像,截取到的圖像如圖8 中黃色虛線區(qū)域所示.使用跨光譜特征表示網(wǎng)絡(luò)分別提取每個(gè)紅外候選圖像的特征和可見(jiàn)光人臉圖像的特征,特征提取示意圖如圖8 中特征提取對(duì)應(yīng)區(qū)域所示,最后分別計(jì)算每個(gè)候選框?qū)?yīng)特征向量與可見(jiàn)光人臉對(duì)應(yīng)的特征向量之間的距離,與可見(jiàn)光人臉最近的候選框即為檢測(cè)結(jié)果,如圖8 中檢測(cè)結(jié)果對(duì)應(yīng)區(qū)域所示.
圖8 跨光譜人臉檢測(cè)框架Fig.8 Cross-spectral face detection framework
布置候選框是目標(biāo)檢測(cè)任務(wù)中常用的方法,其目的是找到所有可能涵蓋有目標(biāo)的區(qū)域,候選框的質(zhì)量與數(shù)量是影響最終檢測(cè)性能的重要因素.借助跨光譜圖像的優(yōu)勢(shì),根據(jù)可見(jiàn)光圖像提供的人臉位置先驗(yàn)信息,可以產(chǎn)生質(zhì)量較高,數(shù)量較少的候選框.根據(jù)第2 節(jié)中坐標(biāo)映射偏差的分析可知,坐標(biāo)映射的偏差主要存在于水平方向,因此以映射后的邊界框?yàn)橹行?分別向其左右密集布置候選框,能夠有效將真實(shí)的人臉邊界框涵蓋在內(nèi).
在圖像中,遠(yuǎn)處的人臉像素面積較小,近處的人臉像素面積較大,使用固定像素點(diǎn)步長(zhǎng)布置候選框不合理,過(guò)于稀疏的候選框布置會(huì)導(dǎo)致每個(gè)候選框之間的間距較大.而真實(shí)的人臉邊界可能存在于兩個(gè)候選框之間,最終可能導(dǎo)致定位不準(zhǔn)確.過(guò)于密集的候選框布置會(huì)增加候選框的數(shù)量,同時(shí)兩個(gè)候選框之間的圖像過(guò)于相似,不利于后續(xù)的精確定位.因此根據(jù)人臉的大小對(duì)候選框進(jìn)行布置,本文使用1/8 人臉框的橫向長(zhǎng)度為步長(zhǎng),并且最遠(yuǎn)布置到1/2 人臉橫向長(zhǎng)度,左右對(duì)稱(chēng)布置,每個(gè)人臉具有9 個(gè)候選框.
檢測(cè)框架第2 個(gè)步驟的關(guān)鍵是挑選出能準(zhǔn)確表達(dá)紅外人臉位置的候選框.本文在非常深的卷積神經(jīng)網(wǎng)絡(luò)(GG-very-deep-11 CNN,VGG11)[33]的基礎(chǔ)上設(shè)計(jì)了跨光譜特征表示網(wǎng)絡(luò),該網(wǎng)絡(luò)的卷積層與VGG11 一致,僅使用了一個(gè)全連接層(Fully connected layers,FC),最終網(wǎng)絡(luò)的輸出是維度為8 的特征向量.網(wǎng)絡(luò)結(jié)構(gòu)如圖9 所示,主要由卷積層、池化層和全連接層組成,“Conv 3 × 3,64”表示卷積的卷積核大小為3 × 3,輸出通道數(shù)為64,池化層的過(guò)濾器為2 × 2,步長(zhǎng)為2,全連接層的輸入向量的維度是512,輸出特征向量的維度是8.該方法用于表示可見(jiàn)光圖像和紅外候選框圖像之間的相似特征,根據(jù)所提取特征判斷候選框圖像與可見(jiàn)光圖像的相似程度,以此來(lái)選擇最優(yōu)候選框.網(wǎng)絡(luò)的訓(xùn)練方式如圖10 所示,訓(xùn)練的目的是使得可見(jiàn)光人臉的特征與對(duì)應(yīng)的紅外圖像人臉特征之間的距離盡可能小,而與背景特征之間的距離盡可能大.本文使用了FaceNet[34]中的三元損失函數(shù)來(lái)引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)鑒別特征.在FaceNet 中,三元損失函數(shù)能夠拉近同一個(gè)人臉的特征,而使不同人臉提取到的特征疏遠(yuǎn).此處,使用三元損失函數(shù)的目的是能夠?qū)⑼蝗说目梢?jiàn)光人臉特征與紅外人臉特征拉近,而使得偏離準(zhǔn)確人臉位置的候選框圖像特征與可見(jiàn)光人臉特征之間的距離變大.
圖9 跨光譜特征表示網(wǎng)絡(luò)Fig.9 Cross-spectral feature representation network
圖10 跨光譜特征表示網(wǎng)絡(luò)訓(xùn)練方式Fig.10 Cross-spectral feature representation network training method
由于候選框布置較為密集,相鄰候選框之間蘊(yùn)含的信息差異有限,尤其是靠近真實(shí)人臉位置的候選框,所以網(wǎng)絡(luò)提取到的特征極為相似.為了提高網(wǎng)絡(luò)對(duì)相似候選框圖像的分類(lèi)能力,獲取了含有部分人臉的負(fù)樣本用于訓(xùn)練網(wǎng)絡(luò).如圖11 所示,負(fù)樣本包括左右兩側(cè)7/8 的人臉、6/8 的人臉、5/8 的人臉、4/8 的人臉以及完全的背景部分.在訓(xùn)練過(guò)程中,將每種負(fù)樣本作為一類(lèi),即網(wǎng)絡(luò)的預(yù)測(cè)含有六類(lèi).此種負(fù)樣本的選取方式是為了使分類(lèi)器對(duì)相似候選框中的人臉具有更好的區(qū)分性,從而增強(qiáng)人臉檢測(cè)的準(zhǔn)確度.
圖11 含有部分人臉的負(fù)樣本Fig.11 Improved negative sample selection method
在測(cè)試階段,由于受材料等因素的影響,可能存在可見(jiàn)光圖像中含有人臉而紅外圖像中不含人臉的情況.例如,可見(jiàn)光相機(jī)可以透過(guò)玻璃拍攝到玻璃后的人臉,但是紅外相機(jī)只能采集到玻璃表面的紅外信息.此時(shí)由于紅外圖像中不含有人臉,導(dǎo)致所有候選框的置信度均較低,當(dāng)置信度低于某個(gè)閾值時(shí)檢測(cè)結(jié)果將被舍棄.
CSF 跨光譜數(shù)據(jù)集包含可見(jiàn)光相機(jī)和熱紅外相機(jī)同時(shí)采集的人臉圖像,采集場(chǎng)景為人員密集的樓宇出入口.值得說(shuō)明的是人臉數(shù)據(jù)采集的過(guò)程中,未對(duì)過(guò)往人員進(jìn)行任何行為約束,因此采集到的人臉圖像包含有遮擋、姿態(tài)變化等情況.
CSF 數(shù)據(jù)集主要包含測(cè)試集和訓(xùn)練集兩部分.測(cè)試集含有3 000 幀手工邊界框標(biāo)簽的數(shù)據(jù),其中包括白天8:00 至8:30 的數(shù)據(jù)1 500 幀,夜間19:30至21:30 的數(shù)據(jù)1 500 幀,用于測(cè)試算法性能的基準(zhǔn);訓(xùn)練集包含1 500 幀不含有手工標(biāo)簽的數(shù)據(jù),用于訓(xùn)練模型.測(cè)試集包含4 821 個(gè)人臉標(biāo)注框,單張圖像中最多含有7 個(gè)人臉標(biāo)注框.訓(xùn)練集共有2 155個(gè)人臉標(biāo)注框.
數(shù)據(jù)集中的圖像由跨光譜雙目相機(jī)進(jìn)行采集,可見(jiàn)光相機(jī)是邁德威視GigE 彩色工業(yè)相機(jī),紅外相機(jī)是FOTRIC 680 系列熱紅外相機(jī).
雙相機(jī)被固定在同一個(gè)平臺(tái)上,左、右擺放,光軸同向,如圖12 所示,兩相機(jī)固定在鋼板上,由于安裝精度原因,可能存在一定的誤差.可見(jiàn)光相機(jī)采用的光學(xué)鏡頭,紅外相機(jī)采用的是特殊材質(zhì)的鏡頭,因此無(wú)法實(shí)現(xiàn)鏡頭視場(chǎng)角的嚴(yán)格統(tǒng)一.雙相機(jī)均為網(wǎng)絡(luò)相機(jī),通過(guò)網(wǎng)線與采集控制設(shè)備相連接.使用電腦控制兩相機(jī)同時(shí)采集圖像,紅外相機(jī)的采集頻率保持30 Hz 不變,可見(jiàn)光相機(jī)由于隨著外界光照的變化需要自動(dòng)調(diào)整曝光時(shí)間,采集頻率也會(huì)隨之改變.由于保存每幀的數(shù)據(jù)需要巨大的存儲(chǔ)空間,所以在可見(jiàn)光圖像上檢測(cè)到人臉時(shí)才保存當(dāng)前幀數(shù)據(jù).除了保存可見(jiàn)光圖像和紅外圖像以外,存儲(chǔ)了紅外相機(jī)采集到的原始輻射值,以便后續(xù)進(jìn)一步開(kāi)展深入研究.
圖12 相機(jī)安裝位置Fig.12 Camera installation location
采集設(shè)備的環(huán)境含有正常光線,夜間照明不足等情況.如圖13 所示,左列為可見(jiàn)光圖像,右列為與可見(jiàn)光圖像對(duì)應(yīng)的紅外圖像;第1 行為白天光照較強(qiáng)的場(chǎng)景的可見(jiàn)光圖像,第2 行為夜間光照不足的場(chǎng)景.可見(jiàn)光相機(jī)曝光時(shí)間較長(zhǎng)會(huì)導(dǎo)致圖像的動(dòng)態(tài)性能較差,采集到的運(yùn)動(dòng)的人臉模糊,因此在夜間采集數(shù)據(jù)時(shí)可見(jiàn)光相機(jī)的曝光時(shí)間被限制在30 ms 以?xún)?nèi),并且盡可能保證可見(jiàn)光圖像中的人臉可以被檢測(cè)到.
如果不是極為細(xì)膩的口味,是不會(huì)知道,糖藕中的糯米球才是最好吃的。吸收了藕的清甜,卻沒(méi)有藕的渣口,代之以糯米的綿密,是江南甜點(diǎn)里登峰造極的東西。如日劇《白夜行》的女主角雪穗所說(shuō):“年輕時(shí)沒(méi)有嘗過(guò)美味,就不能培養(yǎng)真正的味覺(jué)?!?/p>
圖13 不同采集條件下的圖像Fig.13 Images under different acquisition conditions
本文實(shí)驗(yàn)是在CSF 數(shù)據(jù)集上和OTCBVS 數(shù)據(jù)集上,進(jìn)行跨光譜人臉檢測(cè)實(shí)驗(yàn).
OTCBVS 數(shù)據(jù)集是在室內(nèi)采集的可見(jiàn)光和紅外配對(duì)的數(shù)據(jù)集,其數(shù)據(jù)采集形式與CSF 數(shù)據(jù)集的采集形式一致,采用左右雙相機(jī),分別為可見(jiàn)光相機(jī)和紅外相機(jī).本文研究重點(diǎn)是跨光譜圖像的人臉檢測(cè)問(wèn)題,因此對(duì)該數(shù)據(jù)集中的1 500 幀紅外人臉進(jìn)行了人工標(biāo)注,以評(píng)估檢測(cè)算法的性能.
可見(jiàn)光圖像中的人臉檢測(cè)使用的是人臉檢測(cè)器(Dual shot face detector,DSFD)[3].
可見(jiàn)光與紅外圖像之間坐標(biāo)映射依據(jù)式(11)和式(12)進(jìn)行實(shí)驗(yàn),相機(jī)在使用前需要進(jìn)行標(biāo)定,以獲取平移和縮放參數(shù).其中縮放參數(shù)和縱向平移參數(shù)為常數(shù).依據(jù)式(11)可知橫向平移參數(shù)與當(dāng)前深度值相關(guān),但是深度值無(wú)法實(shí)時(shí)準(zhǔn)確獲取.因此在標(biāo)定時(shí)以較遠(yuǎn)處(約5 m)為基準(zhǔn)獲取橫向平移參數(shù),當(dāng)深度發(fā)生變化時(shí),再依據(jù)第3.1 節(jié)中的粗略補(bǔ)償方案對(duì)橫向平移量進(jìn)行粗略修正.
跨光譜特征表示網(wǎng)絡(luò)使用未標(biāo)注的紅外和可見(jiàn)光數(shù)據(jù)構(gòu)建訓(xùn)練集.DSFD 用來(lái)分別檢測(cè)可見(jiàn)光和紅外圖像中的人臉.在可見(jiàn)光圖像與紅外圖像中同時(shí)檢測(cè)到同一個(gè)人臉時(shí),將可見(jiàn)光人臉圖像保存,并按照紅外圖像中的正負(fù)樣本選取規(guī)則保存對(duì)應(yīng)的紅外圖像.在跨光譜特征表示網(wǎng)絡(luò)的訓(xùn)練階段,以可見(jiàn)光人臉圖像作為模板,將紅外人臉圖像作為正樣本,紅外圖像的非人臉區(qū)域作為負(fù)樣本,所有圖像的大小統(tǒng)一調(diào)整至 32×32,使用三元損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.通過(guò)損失函數(shù)的約束,可見(jiàn)光人臉圖像提取到的特征與紅外人臉圖像提取到的特征會(huì)趨于相似,而與紅外圖像非人臉區(qū)域提取到的特征差異變大.
在測(cè)試階段,分別提取可見(jiàn)光圖像的特征與紅外候選框圖像的特征,計(jì)算所有候選框特征與可見(jiàn)光人臉圖像特征的距離.由于三元損失函數(shù)約束正樣本時(shí)使用了二范數(shù)距離的平方,因此在測(cè)試階段計(jì)算特征相似度時(shí)仍使用相同的計(jì)算方式.將計(jì)算得到的距離進(jìn)行排序,距離最近的特征對(duì)應(yīng)的候選框?yàn)闄z測(cè)結(jié)果.
實(shí)驗(yàn)將紅外圖像中人臉檢測(cè)的準(zhǔn)確度作為檢測(cè)結(jié)果的評(píng)估標(biāo)準(zhǔn),采用平均正確率(Average precision,AP)作為人臉檢測(cè)的評(píng)價(jià)指標(biāo).Intersection over union (IoU)閾值分別選取0.5和0.3,IoU 為0.5 的AP 值是常用的目標(biāo)檢測(cè)評(píng)估標(biāo)準(zhǔn).此處也選取IoU 為0.3 時(shí),通過(guò)實(shí)驗(yàn)說(shuō)明本文方法相比于直接在紅外圖像中檢測(cè)人臉性能更好.
本節(jié)分別測(cè)試了坐標(biāo)映射、坐標(biāo)糾正以及本文提出的跨光譜人臉檢測(cè)算法在不同數(shù)據(jù)集上的性能,實(shí)驗(yàn)結(jié)果如表1~3 所示.
表1 測(cè)試集為CSF-白天的實(shí)驗(yàn)結(jié)果Table 1 Experiment results on CSF-day
實(shí)驗(yàn)結(jié)果顯示,僅通過(guò)坐標(biāo)映射得到的紅外人臉位置精度不高,粗略修正能夠在一定程度上提高檢測(cè)的精度,但是結(jié)果仍無(wú)法令人滿(mǎn)意.然而,本文提出的跨光譜人臉檢測(cè)算法能夠大幅提高檢測(cè)性能,并在IoU 為0.3 時(shí)的實(shí)驗(yàn)數(shù)據(jù)表明,本文算法仍有較大的提升空間.
此外,本文對(duì)候選框的召回率進(jìn)行了評(píng)測(cè).當(dāng)紅外人臉的真實(shí)邊界框與任一候選框的交并比大于設(shè)定閾值時(shí),即認(rèn)為該真實(shí)邊界框被召回.分別評(píng)估了交并比為0.5和0.3 情況下的召回率,結(jié)果如表4 所示.
表4 候選框召回率(%)Table 4 Proposal recall (%)
表2 測(cè)試集為CSF-夜間的實(shí)驗(yàn)結(jié)果Table 2 Experiment results on CSF-night
表3 測(cè)試集為OTCBVS 的實(shí)驗(yàn)結(jié)果Table 3 Experiment results on OTCBVS
表4 的實(shí)驗(yàn)結(jié)果顯示,本文的候選框布置策略所產(chǎn)生的候選框能夠?qū)⒔^大多數(shù)的真實(shí)人臉涵蓋在內(nèi),基本滿(mǎn)足人臉檢測(cè)需求.
為了探究候選框的布置策略對(duì)模型精度和效率的影響,本節(jié)依據(jù)第3.2 節(jié)的候選框設(shè)置策略,分別對(duì)模型進(jìn)行測(cè)試,并評(píng)估了測(cè)試精度和不同設(shè)置下的模型運(yùn)行時(shí)間.模型的訓(xùn)練及測(cè)試使用的GPU為NVIDIA TITAN V.實(shí)驗(yàn)結(jié)果如表5和表6 所示,表中1/8 代表含有1/8 步長(zhǎng)的候選框,1/8和2/8 表示含有1/8 步長(zhǎng)的候選框和2/8 步長(zhǎng)的候選框,以此類(lèi)推.在不同的候選框設(shè)置條件下,分別測(cè)試了當(dāng)IoU > 0.5 時(shí)模型的精度和模型處理單張圖像的時(shí)間.
表5和表6 的實(shí)驗(yàn)結(jié)果顯示,隨著候選框數(shù)量的增多,模型的精度也在逐步上升,時(shí)間消耗也隨之增加.當(dāng)候選框達(dá)到3/8 步長(zhǎng)時(shí),模型的精度基本達(dá)到最大值,也說(shuō)明了數(shù)據(jù)集中的人臉偏差基本分布在3/8 人臉寬度內(nèi).在實(shí)際應(yīng)用中可能由于相機(jī)型號(hào)不同,導(dǎo)致偏差略有增大或減小,可根據(jù)實(shí)際情況對(duì)候選框的布置策略進(jìn)行調(diào)整,以達(dá)到最佳的性能或速度.
表5 CSF 中候選框的選取對(duì)模型的影響Table 5 Influence of the selection of the proposal on the model in CSF
表6 OTCBVS 中候選框的選取對(duì)模型的影響Table 6 Influence of the selection of the proposal on the model in OTCBVS
為了證明不同難度的負(fù)樣本對(duì)模型訓(xùn)練的影響,本文設(shè)置了不同難度的負(fù)樣本用于訓(xùn)練模型,測(cè)試集數(shù)據(jù)使用的是CSF 中的測(cè)試集.實(shí)驗(yàn)結(jié)果見(jiàn)表7 所示.
表7 負(fù)樣本類(lèi)型對(duì)模型精度的影響Table 7 Effect of negative sample type on model accuracy
表7 的實(shí)驗(yàn)結(jié)果顯示,僅使用完全背景的圖像作為負(fù)樣本時(shí),訓(xùn)練得到的網(wǎng)絡(luò)性能不理想.使用含有部分人臉圖像作為負(fù)樣本時(shí),人臉占比面積越大,網(wǎng)絡(luò)性能越差.當(dāng)綜合使用所有負(fù)樣本時(shí),訓(xùn)練得到的網(wǎng)絡(luò)性能最佳.
為了進(jìn)一步證明跨光譜人臉檢測(cè)算法的優(yōu)越性,本文使用了當(dāng)前主流的人臉檢測(cè)算法在CSF數(shù)據(jù)集和OTCBVS 數(shù)據(jù)集上進(jìn)行了測(cè)試.分別使用在WIDER-face 數(shù)據(jù)集上訓(xùn)練好的模型的測(cè)試結(jié)果和使用紅外數(shù)據(jù)重新訓(xùn)練后的測(cè)試結(jié)果.為了保證實(shí)驗(yàn)的公平性,使用紅外數(shù)據(jù)訓(xùn)練主流檢測(cè)模型時(shí),應(yīng)用了與本文訓(xùn)練跨光譜特征提取網(wǎng)絡(luò)同樣的訓(xùn)練集.不同的是,本文算法在訓(xùn)練時(shí),僅用了人臉區(qū)域及其附近的圖像,而主流算法在訓(xùn)練時(shí)使用了完整的紅外圖像,測(cè)試數(shù)據(jù)使用的是CSF 測(cè)試集全部數(shù)據(jù)和OTCBVS 數(shù)據(jù)集的測(cè)試集.實(shí)驗(yàn)結(jié)果如表8和表9 所示,其中FaceBoxes[12]、S3FD[9]、Pyramidbox[13]、DSFD[8]、Tinyface[10]均為在WIDER-face 數(shù)據(jù)集上訓(xùn)練得到的人臉檢測(cè)模型,S3FD-IR和DSFD-IR 分別為S3FD和DSFD 在紅外數(shù)據(jù)上重新訓(xùn)練后的模型.
表8 CSF 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果Table 8 Comparative experiment results on CSF dataset
表9 OTCBVS 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果Table 9 Comparative experiment results on OTCBVS dataset
表8和表9 的實(shí)驗(yàn)結(jié)果顯示,使用現(xiàn)有的人臉檢測(cè)算法直接應(yīng)用在紅外圖像時(shí),檢測(cè)結(jié)果很不理想;即便使用紅外數(shù)據(jù)重新訓(xùn)練檢測(cè)模型,最終的檢測(cè)結(jié)果依然不能令人滿(mǎn)意.而本文提出的跨光譜人臉檢測(cè)顯著的優(yōu)于其他具有競(jìng)爭(zhēng)力的人臉檢測(cè)算法.
本節(jié)展示了DSFD 在紅外圖像中重新訓(xùn)練(DSFD-IR)的檢測(cè)結(jié)果、S3FD 在紅外圖像中重新訓(xùn)練(S3FD-IR)的檢測(cè)結(jié)果以及DSFD-本文算法的檢測(cè)結(jié)果的對(duì)比圖,如圖14 所示.其中左側(cè)一列為S3FD-IR 的檢測(cè)結(jié)果,中間一列為DSFD-IR 的檢測(cè)結(jié)果,右側(cè)一列為DSFD-本文算法的檢測(cè)結(jié)果,第1 至3 行為CSF 測(cè)試集中的部分檢測(cè)結(jié)果,第4 至5 行為OTCBVS 數(shù)據(jù)集中的部分檢測(cè)結(jié)果,每張圖像中,紅色邊界框表示算法檢測(cè)的人臉位置,綠色邊界框表示真實(shí)的人臉位置.
由圖14 第1 行的檢測(cè)結(jié)果可以看出,S3FDIR和DSFD-IR 的檢測(cè)結(jié)果中存在誤檢的情況,原因是紅外人臉數(shù)據(jù)面部細(xì)節(jié)特征不明顯,模型容易將熱量較高部分作為人臉的主要特征,因此發(fā)熱物體可能會(huì)被檢測(cè)器檢測(cè)為人臉,而本文的檢測(cè)算法不易誤檢,原因是可見(jiàn)光圖像的人臉檢測(cè)步驟過(guò)濾掉了大部分的背景區(qū)域.
由圖14 第2 行的檢測(cè)結(jié)果可以看出,S3FDIR和DSFD-IR 檢測(cè)結(jié)果的邊界框會(huì)包含脖子部分,導(dǎo)致邊界框不能完全表示人臉的位置,原因是在紅外圖像中脖子與人臉融為一體,模型難以準(zhǔn)確獲取其邊界.相比之下,本文的算法由于有可見(jiàn)光圖像對(duì)邊界框的約束,能夠得到較準(zhǔn)確的檢測(cè)結(jié)果.
由圖14 第3 行的檢測(cè)結(jié)果可以看出,DSFDIR 存在漏檢人臉的情況,當(dāng)人臉遮擋較為嚴(yán)重時(shí),DSFD-IR 算法難以檢測(cè)到人臉位置.
由圖14 第4 行的檢測(cè)結(jié)果可以看出,所有算法均漏檢了最右側(cè)的人臉,原因是紅外圖像中該人臉熱量較低,難以檢測(cè),本文算法依賴(lài)可見(jiàn)光圖像中的人臉檢測(cè)結(jié)果,當(dāng)可見(jiàn)光圖像中未檢測(cè)到人臉時(shí),紅外圖像中的人臉同樣會(huì)被漏檢.
由圖14 第5 行的檢測(cè)結(jié)果可以看出,S3FDIR 檢測(cè)到的人臉邊界框存在較大偏差,未能準(zhǔn)確表示人臉的位置,DSFD-IR 存在漏檢的情況,而本文的算法能夠較好的檢測(cè)紅外圖像中的人臉.
圖14 檢測(cè)結(jié)果對(duì)比圖Fig.14 Comparison of face detection results
通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的分析可知,S3FD-IR和DSFD-IR 檢測(cè)紅外圖像中的人臉時(shí)存在較多的檢測(cè)缺陷,而DSFD-本文算法能夠更好的檢測(cè)紅外圖像中的人臉位置.但是本文算法較為依賴(lài)可見(jiàn)光圖像中的檢測(cè)結(jié)果,可見(jiàn)光圖像中的人臉檢測(cè)性能較差時(shí),將直接影響最終的檢測(cè)結(jié)果.后續(xù)工作將考慮依靠紅外視頻幀之間的相關(guān)性對(duì)候選框進(jìn)行布置,降低對(duì)可見(jiàn)光圖像的依賴(lài).
本文提出了一種弱對(duì)齊跨光譜圖像的人臉檢測(cè)算法,該算法利用了可見(jiàn)光圖像與紅外圖像的弱對(duì)齊關(guān)系和兩者之間的一致特征,克服了跨光譜圖像之間的偏差,達(dá)到了準(zhǔn)確檢測(cè)紅外人臉的目的.與直接在紅外圖像中檢測(cè)人臉的算法相比,本文的算法速度更快,人臉位置檢測(cè)精度更高,模型訓(xùn)練成本更低.大量的實(shí)驗(yàn)證明,本文提出的跨光譜人臉檢測(cè)算法能夠快速準(zhǔn)確地檢測(cè)紅外圖像中的人臉.雖然本文的算法已經(jīng)能夠較好解決紅外人臉檢測(cè)難的問(wèn)題,但是算法部分模塊設(shè)計(jì)不夠細(xì)致,數(shù)據(jù)集的構(gòu)建也不夠完善,對(duì)可見(jiàn)光圖像中的人臉檢測(cè)結(jié)果依賴(lài)性強(qiáng).在后續(xù)的工作中,將深入挖掘可見(jiàn)光人臉與紅外人臉之間的一致特征,設(shè)計(jì)更加有效的跨光譜特征表示網(wǎng)絡(luò)和目標(biāo)函數(shù),依靠紅外圖像視頻幀之間的相關(guān)性設(shè)計(jì)候選框布置策略,以進(jìn)一步提升檢測(cè)性能,同時(shí)也會(huì)進(jìn)一步在更多場(chǎng)景下采集跨光譜人臉數(shù)據(jù),以增加數(shù)據(jù)集的多樣性.