鄺楚文,何 望
〈圖像處理與仿真〉
基于紅外與可見光圖像的目標(biāo)檢測算法
鄺楚文1,何 望2
(1.惠州經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,廣東 惠州 516057;2.華中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430074)
針對(duì)現(xiàn)有基于可見光的目標(biāo)檢測算法存在的不足,提出了一種紅外和可見光圖像融合的目標(biāo)檢測方法。該方法將深度可分離卷積與殘差結(jié)構(gòu)相結(jié)合,構(gòu)建并列的高效率特征提取網(wǎng)絡(luò),分別提取紅外和可見光圖像目標(biāo)信息;同時(shí),引入自適應(yīng)特征融合模塊以自主學(xué)習(xí)的方式融合兩支路對(duì)應(yīng)尺度的特征,使兩類圖像信息互補(bǔ);最后,利用特征金字塔結(jié)構(gòu)將深層特征逐層與淺層融合,提升網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的檢測精度。實(shí)驗(yàn)結(jié)果表明,所提網(wǎng)絡(luò)能夠充分融合紅外和可見光圖像中的有效信息,并在保障精度與效率的前提下實(shí)現(xiàn)目標(biāo)識(shí)別與定位;同時(shí),在實(shí)際變電站設(shè)備檢測場景中,該網(wǎng)絡(luò)也體現(xiàn)出較好的魯棒性和泛化能力,可以高效完成檢測任務(wù)。
目標(biāo)檢測;紅外與可見光圖像;深度學(xué)習(xí);自適應(yīng)融合
圖像目標(biāo)識(shí)別檢測技術(shù)作為數(shù)字圖像處理和模式識(shí)別領(lǐng)域中的一個(gè)重要分支,廣泛地應(yīng)用于自動(dòng)駕駛、醫(yī)療圖像、工業(yè)檢測、智能機(jī)器人、智能視頻監(jiān)控等諸多場景[1-2]。目標(biāo)檢測是通過分析目標(biāo)特征信息,對(duì)視頻或圖像中感興趣目標(biāo)區(qū)域進(jìn)行定位提取,并準(zhǔn)確識(shí)別出各個(gè)區(qū)域的目標(biāo)類別及其對(duì)應(yīng)的包圍框[3]。近年來,隨著深度學(xué)習(xí)在圖像處理領(lǐng)域的不斷突破,目標(biāo)檢測技術(shù)也得到了長足的進(jìn)步[4]。目前,大多數(shù)目標(biāo)檢測算法主要基于可見光圖像,可見光圖像雖然包含豐富的紋理和細(xì)節(jié)信息,但通常實(shí)際場景中各目標(biāo)所處環(huán)境錯(cuò)綜復(fù)雜,造成目標(biāo)存在遮擋、尺度變化范圍大、光照不均以及噪聲干擾等情況,使目測檢測技術(shù)的落地仍存在較大挑戰(zhàn)[5]。而紅外圖像主要利用熱輻射能量成像,受光照影響較少,但圖像對(duì)比度低,目標(biāo)紋理結(jié)構(gòu)等特征損失嚴(yán)重,較大地限制了其在目標(biāo)檢測領(lǐng)域中的應(yīng)用。因此,研究一種基于可見光與紅外圖像相結(jié)合的目標(biāo)檢測方法,可以有效實(shí)現(xiàn)性能互補(bǔ),同時(shí)降低光照、雨霧等噪聲干擾,對(duì)目標(biāo)檢測技術(shù)的發(fā)展以及實(shí)際場景的應(yīng)用都有較大的促進(jìn)作用。
傳統(tǒng)的目標(biāo)檢測算法流程主要為圖像預(yù)處理、候選框提取、特征提取、目標(biāo)分類以及后處理幾個(gè)步驟,盡管在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,但存在候選框眾多、特征設(shè)計(jì)復(fù)雜、算法遷移性差等問題[5]。為了緩解傳統(tǒng)算法的弊端,研究者將深度學(xué)習(xí)方法應(yīng)用于目標(biāo)檢測,通過端到端的訓(xùn)練方式,使目標(biāo)檢測精度得到大幅提升。盡管目前大多數(shù)目標(biāo)檢測研究工作是基于可見光圖像,但也有部分研究者對(duì)可見光和紅外圖像融合檢測進(jìn)行了探索。郝永平等[6]人利用雙通道深度殘差卷積網(wǎng)絡(luò)分別對(duì)可見光和紅外圖像進(jìn)行特征提取,并通過計(jì)算特征歐氏距離結(jié)合注意力機(jī)制實(shí)現(xiàn)對(duì)感興趣區(qū)域的目標(biāo)檢測。李舒涵等[7]人提出了一種基于紅外與可見光融合的交通標(biāo)志檢測方法,通過對(duì)兩種圖像中的目標(biāo)進(jìn)行粗定位后再結(jié)合卷積網(wǎng)絡(luò)對(duì)定位框進(jìn)行決策融合,實(shí)現(xiàn)交通標(biāo)志高效檢測。Xiao等[8]人利用差分最大損失函數(shù)指導(dǎo)紅外和可見光兩個(gè)支路的卷積網(wǎng)絡(luò)提取目標(biāo)特征,并設(shè)計(jì)特征增強(qiáng)和級(jí)聯(lián)語義擴(kuò)展模塊提升對(duì)不同尺度目標(biāo)的檢測。Banuls等[9]人提出了一種基于決策級(jí)融合的目標(biāo)檢測算法,利用改進(jìn)YOLOv3網(wǎng)絡(luò)對(duì)可見光和紅外圖像進(jìn)行分別檢測后再進(jìn)行加權(quán)融合提升目標(biāo)檢測效果。可見,基于深度學(xué)習(xí)的紅外與可見光融合的檢測方法可以有效提升目標(biāo)檢測效果,但大多數(shù)方法采用分別提取特征后再融合檢測,未能充分利用兩類圖像中目標(biāo)特征進(jìn)行信息互補(bǔ)。
針對(duì)上述情況,本文在結(jié)合前人研究成果的基礎(chǔ)上,提出了一種基于深度可分離卷積的特征交叉融合目標(biāo)檢測網(wǎng)絡(luò)模型。為了網(wǎng)絡(luò)保障效率,該模型以深度可分離卷積作為基本特征提取單元,構(gòu)建輕量級(jí)的雙支路特征提取結(jié)構(gòu),分別提取可見光和紅外圖像中目標(biāo)信息。同時(shí),利用雙支路特征交叉融合結(jié)構(gòu),對(duì)各階段提取的特征進(jìn)行充分融合互補(bǔ),并結(jié)合多層特征跳層融合實(shí)現(xiàn)不同尺度目標(biāo)高精度識(shí)別檢測。
本文所設(shè)計(jì)的紅外可見光融合目標(biāo)檢測網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)由特征提取模塊、特征融合模塊以及檢測模塊3部分構(gòu)成。針對(duì)紅外和可見光圖像,特征提取部分由兩個(gè)并列的相同結(jié)構(gòu)支路構(gòu)成,主要采用深度可分離卷積作為特征提取基本單元,結(jié)合LeakyReLU激活層、最大池化層、上采樣等操作,對(duì)紅外和可見光圖像特征信息由淺到深的高效提取。特征融合模塊通過線性組合方式對(duì)兩支路池化層特征進(jìn)行建模,利用自主學(xué)習(xí)方式實(shí)現(xiàn)紅外與可見光信息共享,使兩支路提取的特征進(jìn)行互補(bǔ),提升網(wǎng)絡(luò)特征多樣性。檢測模塊利用多個(gè)不同尺度的深層特征以逐層上采樣融合的操作構(gòu)建特征金字塔預(yù)測結(jié)構(gòu),使網(wǎng)絡(luò)在不同尺度上都具有強(qiáng)語義信息,保障網(wǎng)絡(luò)對(duì)不同尺度的目標(biāo)實(shí)現(xiàn)準(zhǔn)確檢測。
圖1 雙支路自適應(yīng)目標(biāo)檢測網(wǎng)絡(luò)整體結(jié)構(gòu)
特征提取作為目標(biāo)檢測的首要任務(wù),其提取的特征好壞直接決定目標(biāo)檢測模型的優(yōu)劣。對(duì)于傳統(tǒng)目標(biāo)檢測而言,特征主要靠人工設(shè)計(jì),如SIFT(Scale Invariant Feature Transform)、HOG(Histogram of Oriented Gradient)、Haar、DPM(Deformable Part Model)等[10],通過提取滑動(dòng)窗口中相應(yīng)特征并利用機(jī)器學(xué)習(xí)進(jìn)行分類,實(shí)現(xiàn)目標(biāo)檢測。而基于深度學(xué)習(xí)的目標(biāo)檢測方法擴(kuò)大了特征提取的范疇,利用端到端的訓(xùn)練學(xué)習(xí)方式自動(dòng)學(xué)習(xí)目標(biāo)特征,避免了人工設(shè)計(jì)特征的局限。因此,基于深度學(xué)習(xí)的檢測算法通常能夠獲得比傳統(tǒng)方法更優(yōu)的檢測效果?;诖?,本文借鑒目前經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò),設(shè)計(jì)了適用于紅外和可見光圖像的并列雙支路特征提取網(wǎng)絡(luò)。
為有效提取圖像中各目標(biāo)淺層和深層特征,本文所構(gòu)建的特征提取結(jié)構(gòu)采用多個(gè)不同特征尺度的子模塊串聯(lián)堆疊構(gòu)成,詳細(xì)結(jié)構(gòu)如表1所示。
表1 特征提取結(jié)構(gòu)
特征提取結(jié)構(gòu)由init模塊和多個(gè)stage模塊組成,如圖2所示。init模塊如圖2(a)所示,該結(jié)構(gòu)主要對(duì)原圖進(jìn)行特征預(yù)處理,采用步長為2的并列卷積和池化兩條支路提取目標(biāo)顯著特征,降低圖像維度的同時(shí)也過濾了部分噪聲,保障后續(xù)結(jié)構(gòu)對(duì)特征的深入提取。stage模塊如圖2(b)所示,主要利用卷積層、激活層以殘差結(jié)構(gòu)方式構(gòu)建,不同stage之間通過步長為2的2×2池化操作進(jìn)行降維。由于需要分別對(duì)紅外和可見光圖像進(jìn)行特征提取,為避免網(wǎng)絡(luò)計(jì)算量過大,stage模塊采用深度可分離卷積替代傳統(tǒng)卷積來提取特征,有效減少了網(wǎng)絡(luò)參數(shù)并降低了計(jì)算量。深度可分離卷積相對(duì)于傳統(tǒng)卷積雖然提取的特征信息有所降低,但雙支路的信息融合可以較好地彌補(bǔ)特征缺失等問題。同時(shí),stage模塊引入殘差結(jié)構(gòu)來避免網(wǎng)絡(luò)層數(shù)過深造成訓(xùn)練時(shí)出現(xiàn)梯度消失、梯度爆炸等問題,并以LeakyReLU作為激活函數(shù),如式(1)所示,降低神經(jīng)元“壞死”概率,使網(wǎng)絡(luò)更快收斂。
式中:a是偏移量,為一個(gè)較小數(shù)值的超參數(shù),默認(rèn)設(shè)置為0.02。由LeakyReLU公式可以看出,當(dāng)輸入小于零時(shí),函數(shù)的輸出不為零,求導(dǎo)之后導(dǎo)數(shù)為固定值,從而避免進(jìn)入負(fù)區(qū)間神經(jīng)元不學(xué)習(xí)的問題。
通常,可見光圖像包含豐富的顏色、紋理等信息,能夠提供較多的細(xì)節(jié)信息,但容易受到光照強(qiáng)度、天氣等影響;而紅外圖像利用目標(biāo)的熱輻射能量大小進(jìn)行成像,不受光照影響,但圖像對(duì)比度較低,會(huì)損失部分目標(biāo)的紋理、結(jié)構(gòu)等外觀特征。因此,通過融合紅外和可見光圖像信息,可以更好地增強(qiáng)和發(fā)現(xiàn)目標(biāo)[11-12]?;诖耍疚脑谔卣魈崛〗Y(jié)構(gòu)基礎(chǔ)上,設(shè)計(jì)了特征交叉融合模塊,使提取的紅外和可見光圖像信息互補(bǔ),融合結(jié)構(gòu)如圖3所示。
圖3 特征融合模塊
融合結(jié)構(gòu)考慮到網(wǎng)絡(luò)運(yùn)行效率,主要將特征提取過程中每個(gè)尺度的最后一層進(jìn)行融合,即init模塊最后一層和stage模塊之間的池化層(圖3中未畫出init層,取值為1,2,3,4)。同時(shí),融合結(jié)構(gòu)采用自主學(xué)習(xí)的線性加權(quán)方式來替代特征信息直接相加,避免融合時(shí)引入過多噪聲。具體融合計(jì)算過程如式(2)所示。
自主學(xué)習(xí)過程中權(quán)重迭代計(jì)算如式(3)(4)所示:
式中:x為待融合可見光特征圖上坐標(biāo)位置為(,)的像素值;同理,為待融合紅外特征圖上坐標(biāo)位置為(,)的像素值;,,,為待學(xué)習(xí)的權(quán)重;為融合后的對(duì)應(yīng)特征圖位置的輸出,表示利用誤差反向傳播更新權(quán)重。由式(2)可以看出,當(dāng)==1,==0時(shí),表明該層特征信息并不融合,通過自主學(xué)習(xí)的方式?jīng)Q定紅外和可見光圖像特征信息的融合程度,進(jìn)而達(dá)到最優(yōu)組合。
對(duì)于基于深度學(xué)習(xí)的目標(biāo)檢測算法而言,目前的檢測思路可根據(jù)預(yù)設(shè)框大致分為兩類:Anchor Based和Anchor-free檢測模型[4]。Anchor Based需要事先預(yù)設(shè)多個(gè)包圍框,預(yù)測時(shí)通過微調(diào)包圍框?qū)崿F(xiàn)檢測。Anchor Based又分為Two-stage和One-stage檢測模型,Two-stage模型檢測思路主要分為3個(gè)部分:候選區(qū)域生成、基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取和目標(biāo)定位分類,典型的網(wǎng)絡(luò)有R-CNN[13]系列網(wǎng)絡(luò);One-stage模型則舍棄了候選框的生成過程,直接在特征圖上對(duì)預(yù)設(shè)框進(jìn)行微調(diào)實(shí)現(xiàn)檢測,典型的網(wǎng)絡(luò)有YOLO(You Only Look Once)系列[14]、SSD(Single Shot MultiBox Detector)[15]等網(wǎng)絡(luò)。而Anchor-free模型則舍棄所有包圍框,直接根據(jù)提取的特征信息對(duì)目標(biāo)進(jìn)行定位識(shí)別,典型網(wǎng)絡(luò)有FCOS(Fully Convolutional One-Stage)[16]、LSNet(Light-Weight Siamese Network)[17]等網(wǎng)絡(luò)??紤]到不同檢測模型的效率和精度,本文基于One-stage模型設(shè)計(jì)了特征金字塔檢測模塊,如圖4所示。
檢測模塊以特征融合結(jié)構(gòu)的輸出作為輸入,由于特征融合的輸出為紅外和可見光兩個(gè)通道,故采用concat操作對(duì)兩路特征拼接后作為檢測輸入,即圖4中fuse部分。同時(shí),考慮到現(xiàn)實(shí)場景中各目標(biāo)大小差異十分明顯,本文采用多個(gè)不同維度的融合特征(fuse2~fuse5),以自上而下的方式構(gòu)建特征金字塔檢測結(jié)構(gòu),該結(jié)構(gòu)首先將融合后的深層特征通過點(diǎn)卷積調(diào)整特征通道與淺層特征一致;然后,上采樣至淺層特征尺度大小,并與淺層特征拼接;再將拼接后的特征信息進(jìn)行卷積操作,充分融合深層特征信息;將fuse5~fuse2的特征依次重復(fù)上述上采樣拼接融合操作,使檢測模塊能充分獲取全局以及局部特征信息;最后,分別利用4個(gè)尺度的特征對(duì)目標(biāo)類別和位置進(jìn)行預(yù)測,并將預(yù)測結(jié)果通過極大值抑制算法篩選出最優(yōu)目標(biāo)檢測框,進(jìn)而實(shí)現(xiàn)對(duì)各目標(biāo)的精準(zhǔn)檢測。而對(duì)于預(yù)設(shè)框的設(shè)置,利用k-means算法對(duì)訓(xùn)練集中的標(biāo)注框利用聚合,自動(dòng)生成一組適用于對(duì)應(yīng)場景的預(yù)設(shè)框。
圖4 金字塔檢測結(jié)構(gòu)
為有效驗(yàn)證本文所提的方法,實(shí)驗(yàn)分別采用搭載Titan Xp的高性能電腦以及NVIDIA Jetson TX2嵌入式平臺(tái)進(jìn)行實(shí)驗(yàn)。網(wǎng)絡(luò)采用caffe深度學(xué)習(xí)框架進(jìn)行構(gòu)建,通過公開數(shù)據(jù)集和實(shí)際變電站數(shù)據(jù)集分別對(duì)網(wǎng)絡(luò)的可行性和實(shí)際落地性進(jìn)行測試。為方便與其他同類網(wǎng)絡(luò)對(duì)比,網(wǎng)絡(luò)訓(xùn)練時(shí)的超參數(shù)主要參照文獻(xiàn)[8-9,14]進(jìn)行設(shè)置:采用小批次梯度下降方法(mini batch Stochastic Gradient Descent)優(yōu)化網(wǎng)絡(luò)參數(shù),并利用Momentum動(dòng)量算法加速優(yōu)化,動(dòng)量參數(shù)設(shè)置為0.9;初始學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)策略采用step模式,即迭代訓(xùn)練3萬次之后每迭代1萬次學(xué)習(xí)率降低十分之一;權(quán)值衰減系數(shù)設(shè)為0.0005,防止過擬合;對(duì)于損失函數(shù),由于目標(biāo)檢測是多任務(wù)模型,因此,訓(xùn)練時(shí)的損失為分類損失、置信度損失以及回歸框損失的疊加,具體的損失函數(shù)參考YOLO網(wǎng)絡(luò)[14]計(jì)算方式。
對(duì)于所提網(wǎng)絡(luò)的精度及效率評(píng)價(jià)分別采用均值平均精度(mAP)和網(wǎng)絡(luò)每秒處理圖像數(shù)量(FPS)來評(píng)價(jià)。均值平均精度指各個(gè)類別的平均精度的平均值,而針對(duì)目標(biāo)尺寸不同,又分為mAPs、mAPm、mAPl來衡量網(wǎng)絡(luò)對(duì)小中大目標(biāo)的檢測效果,以邊界框面積322和962作為區(qū)分邊界。
式(5)(6)(7)中:C為類別;(True Positives)C指一張圖像中的C類目標(biāo)正確預(yù)測的數(shù)量;(Total Object)C指該圖像中C類目標(biāo)總數(shù);PrecisionC指該圖像中C類目標(biāo)檢測精度;(Total Image)C指訓(xùn)練集中含C類目標(biāo)的圖像數(shù)量;(Classes)表示樣本中類別數(shù),APC指所有圖像中C類目標(biāo)的平均精度。式(8)為效率評(píng)價(jià)指標(biāo):為圖像數(shù)量,T指網(wǎng)絡(luò)處理第張圖像所消耗的時(shí)間。
為有效驗(yàn)證所提方法的可行性,實(shí)驗(yàn)采用李成龍教授團(tuán)隊(duì)構(gòu)建的RGBT210數(shù)據(jù)集[18]作為標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行測試。RGBT210數(shù)據(jù)集由具有相同的成像參數(shù)紅外和可見光攝像機(jī)在210種場景下采集的圖像構(gòu)成。該數(shù)據(jù)集包含約21萬張圖像,涵蓋約20多種目標(biāo)在不同時(shí)間段、不同光照強(qiáng)度下的紅外和可見光圖像對(duì)。由于該數(shù)據(jù)集較大,且大多數(shù)圖像相似,為了能快速驗(yàn)證所提網(wǎng)絡(luò),從中篩選出了5000張相似度較低的圖像進(jìn)行測試。篩選出的圖像包含汽車、行人、自行車、狗、風(fēng)箏等10種類別,將其歸一化圖像尺寸為512×448,并以7:1:2的比例構(gòu)建訓(xùn)練、驗(yàn)證及測試集,在搭載Titan Xp的電腦上進(jìn)行訓(xùn)練測試。
實(shí)驗(yàn)首先對(duì)所提網(wǎng)絡(luò)的單條支路進(jìn)行測試,即刪除融合模塊和紅外支路,只利用可見光支路進(jìn)行目標(biāo)檢測。網(wǎng)絡(luò)訓(xùn)練時(shí)設(shè)置batchsize為4,經(jīng)過約10萬次迭代收斂后,與同類型的目標(biāo)檢測網(wǎng)絡(luò)對(duì)比如表2所示。
表2 可見光網(wǎng)絡(luò)測試結(jié)果對(duì)比
由表2可以看出,本文所構(gòu)建的可見光單支路網(wǎng)絡(luò)與目前主流的高精度(Faster RCNN)和高效率(Shuffle+SSD)目標(biāo)檢測網(wǎng)絡(luò)相比,較好地平衡了網(wǎng)絡(luò)性能。同時(shí),網(wǎng)絡(luò)以深度可分離卷積替代傳統(tǒng)卷積,并引用了殘差、LeakyReLU激活函數(shù)等網(wǎng)絡(luò)構(gòu)建策略,與同類型網(wǎng)絡(luò)(YOLO)相比,所提網(wǎng)絡(luò)以較小的精度損失來換取網(wǎng)絡(luò)效率大幅提升。但相對(duì)于Faster RCNN,由于所提網(wǎng)絡(luò)為單步檢測,并且深度可分離卷積相對(duì)傳統(tǒng)卷積損失了部分特征信息,所以造成精度有所降低。為進(jìn)一步驗(yàn)證紅外與可見光雙支路結(jié)構(gòu)的特征互補(bǔ)性以及所提特征融合結(jié)構(gòu)的有效性,實(shí)驗(yàn)分別測試了可見光、紅外以及融合后的網(wǎng)絡(luò)性能,同時(shí),針對(duì)兩支路的融合結(jié)構(gòu),分別測試了直接相加(Eltwise)、拼接(Concat)以及本文所提的自適應(yīng)融合結(jié)構(gòu),實(shí)驗(yàn)結(jié)果如表3和圖5所示。
表3 不同結(jié)構(gòu)測試結(jié)果
圖5 單支路與融合支路目標(biāo)檢測結(jié)果
由表3和圖5可以看出,紅外圖像由于缺少較多細(xì)節(jié)信息,與可見光圖像相比,目標(biāo)檢測效果較差;而可見光受光照等影響,也造成部分目標(biāo)無法識(shí)別。通過兩支路融合的方式,使圖像特征信息更加豐富,網(wǎng)絡(luò)檢測精度也有較大提升,但由于引入了新的支路,網(wǎng)絡(luò)效率有一定的下降。同時(shí),不同的融合方式,對(duì)網(wǎng)絡(luò)性能也有一定的影響,Eltwise和Concat融合方式雖然增加了特征信息,但也引入了較多噪聲,而本文所提方法較好地緩解了噪聲的引入,使兩支路的有效信息能更好的互補(bǔ),檢測精度也更高。為更好地驗(yàn)證所提網(wǎng)絡(luò)的優(yōu)勢,實(shí)驗(yàn)分別與基于多級(jí)分層檢測[7]、基于特征級(jí)融合[8]以及基于決策級(jí)融合[19]的紅外與可見光聯(lián)合檢測網(wǎng)絡(luò)進(jìn)行了測試對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示,檢測效果如圖6所示。
表4 同類型網(wǎng)絡(luò)測試結(jié)果對(duì)比
圖6 紅外-可見光網(wǎng)絡(luò)檢測效果對(duì)比
根據(jù)上述結(jié)果可以看出,與同類型的紅外-可見光聯(lián)合檢測網(wǎng)絡(luò)相比,雖然融合方式提高目標(biāo)的顯著性,但也引入了更多的噪聲,如圖6文獻(xiàn)[7]中錯(cuò)誤檢測出car。同時(shí),對(duì)于復(fù)雜背景并且紅外圖像無法檢測的目標(biāo),各算法檢測效果較差,如圖6第3排中雨傘的檢測。盡管本文所提網(wǎng)絡(luò)未能在所有指標(biāo)中達(dá)到最優(yōu),但基本保持高精度和高效率的完成目標(biāo)檢測。同時(shí),由于自適應(yīng)融合的方式可以較好地避免噪聲的引入,所以網(wǎng)絡(luò)對(duì)淺層信息也進(jìn)行了融合,使網(wǎng)絡(luò)能更好地識(shí)別檢測出圖像中的小目標(biāo),并且對(duì)存在遮擋的目標(biāo)也有較好的檢測效果。
標(biāo)準(zhǔn)數(shù)據(jù)集的測試結(jié)果有效地驗(yàn)證了所提網(wǎng)絡(luò)的可行性,為了進(jìn)一步驗(yàn)證該網(wǎng)絡(luò)的泛化能力以及實(shí)際落地性,本文采用實(shí)際變電站場景下的設(shè)備圖像數(shù)據(jù),對(duì)網(wǎng)絡(luò)進(jìn)行測試驗(yàn)證。在實(shí)際變電站場景中,大多數(shù)設(shè)備需要巡檢機(jī)器人進(jìn)行紅外測溫來監(jiān)測設(shè)備狀況,但由于實(shí)際環(huán)境復(fù)雜,如何避免其他設(shè)備干擾,準(zhǔn)確定位出待測設(shè)備對(duì)機(jī)器人而言極為重要?;诖?,本文以搭載Jetson TX2變電站巡檢機(jī)器人為測試平臺(tái),通過機(jī)器人搭載的可見光和紅外相機(jī)對(duì)設(shè)備圖像進(jìn)行采集,并根據(jù)兩相機(jī)參數(shù),將采集的紅外和可見光圖像進(jìn)行裁剪使各目標(biāo)對(duì)齊。實(shí)驗(yàn)主要采集了斷路器、絕緣子、冷控箱、變壓器等6種變電站設(shè)備圖像,涵蓋了不同大小的目標(biāo),從中篩選出5000張重復(fù)率較低的圖像,利用公開標(biāo)注工具LabelImg對(duì)圖像中的各個(gè)目標(biāo)進(jìn)行手動(dòng)標(biāo)注,并調(diào)整圖像尺寸為512×448大小。將處理后的圖像以7:1:2的比例構(gòu)建訓(xùn)練、驗(yàn)證和測試集,在Jetson TX2平臺(tái)上進(jìn)行訓(xùn)練測試,測試結(jié)果如表5所示,檢測效果如圖7所示。
表5 可見光網(wǎng)絡(luò)測試結(jié)果對(duì)比
圖7 變電站設(shè)備檢測效果對(duì)比
根據(jù)實(shí)際場景中的實(shí)驗(yàn)結(jié)果可以看出,由于測試平臺(tái)的計(jì)算性能較低,各網(wǎng)絡(luò)的效率都相應(yīng)地下降到較低水平,但總體來看,本文所提網(wǎng)絡(luò)與同類型高效率網(wǎng)絡(luò)相比,基本達(dá)到相同的檢測效率。盡管效率仍相對(duì)較低,但相對(duì)于巡檢速度較慢的機(jī)器人而言,也基本能滿足其實(shí)時(shí)檢測的需求。同時(shí),在檢測精度方面,由于實(shí)際場景中的數(shù)據(jù)相對(duì)于標(biāo)準(zhǔn)數(shù)據(jù)集較為簡單,各方法在檢測精度上都有所提升,對(duì)于簡單的設(shè)備環(huán)境,各算法基本都能實(shí)現(xiàn)準(zhǔn)確檢測,如圖7第一排中對(duì)變電箱的檢測;但對(duì)于相對(duì)復(fù)雜的環(huán)境,如圖7第二、三排中,存在目標(biāo)過大、各目標(biāo)相互影響、背景復(fù)雜的情況,使各算法檢測效果受到較大影響。但通過整體對(duì)比,可以看出本文所提網(wǎng)絡(luò)的檢測效果基本與高精度網(wǎng)絡(luò)不相上下,并且可以達(dá)到高效率網(wǎng)絡(luò)的檢測效率。綜上可見,本文所提方法具有更強(qiáng)的魯棒性及泛化能力,可以很好地適用于巡檢機(jī)器人對(duì)變電站設(shè)備的檢測,使機(jī)器人能夠保持高精度高效率的完成檢測任務(wù)。
本文針對(duì)目前單一可見光目標(biāo)檢測算法存在的局限,提出了一種融合紅外和可見光圖像特征信息的深度神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測方法。該方法以深度可分離卷積為基本特征提取單元,結(jié)合高效率LeakyReLU激活函數(shù)和殘差結(jié)構(gòu)構(gòu)建并列的紅外-可見光特征提取支路;為有效融合紅外和可見光圖像中目標(biāo)特征信息,引入了自適應(yīng)特征融合模塊,利用自主學(xué)習(xí)的方式對(duì)兩支路中的有效信息進(jìn)行融合,避免了過多噪聲的引入;同時(shí),為保證網(wǎng)絡(luò)對(duì)不同大小目標(biāo)的準(zhǔn)確檢測,采用特征金字塔結(jié)構(gòu)方式融合不同維度的特征信息,并利用多個(gè)尺度特征分別對(duì)目標(biāo)進(jìn)行預(yù)測,提升了對(duì)不同大小目標(biāo)的檢測效果。通過在標(biāo)準(zhǔn)數(shù)據(jù)集以及實(shí)際變電站設(shè)備檢測場景中的實(shí)驗(yàn)結(jié)果表明,本文所提網(wǎng)絡(luò)有效地平衡了檢測精度與效率,可以較好地應(yīng)用于變電站巡檢機(jī)器人完成設(shè)備檢測任務(wù)。盡管本文所提網(wǎng)絡(luò)在一定程度上提高了目標(biāo)檢測效果,但仍有較多值得深入研究的地方,后續(xù)將嘗試引入注意力機(jī)制來進(jìn)一步提升檢測精度,并利用模型剪枝或知識(shí)蒸餾等策略,提高網(wǎng)絡(luò)的檢測效率。
[1] 孫怡峰, 吳疆, 黃嚴(yán)嚴(yán), 等. 一種視頻監(jiān)控中基于航跡的運(yùn)動(dòng)小目標(biāo)檢測算法[J]. 電子與信息學(xué)報(bào), 2019, 41(11):2744-2751.
SUN Yifeng, WU Jiang, HUANG Yan, et al. A track based moving small target detection algorithm in video surveillance [J]., 2019, 41(11): 2744-2751.
[2] LIN C, LU J, GANG W, et al. Graininess-aware deep feature learning for pedestrian detection[J]., 2020, 29: 3820-3834.
[3] 范麗麗, 趙宏偉, 趙浩宇, 等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測研究綜述[J]. 光學(xué)精密工程, 2020, 28(5): 161-173.
FAN Lili, ZHAO Hongwei, ZHAO Haoyu, et al. Overview of target detection based on deep convolution neural network[J]., 2020, 28(5): 161-173.
[4] 趙永強(qiáng), 饒?jiān)? 董世鵬, 等. 深度學(xué)習(xí)目標(biāo)檢測方法綜述[J]. 中國圖象圖形學(xué)報(bào), 2020, 288(4): 5-30.
ZHAO Yongqiang, RAO yuan, DONG Shipeng, et al. Overview of deep learning target detection methods[J]., 2020, 288(4): 5-30.
[5] 羅會(huì)蘭, 彭珊, 陳鴻坤. 目標(biāo)檢測難點(diǎn)問題最新研究進(jìn)展綜述[J].計(jì)算機(jī)工程與應(yīng)用, 2021, 57(5): 36-46.
LUO Huilan, PENG Shan, CHEN Hongkun. Overview of the latest research progress on difficult problems of target detection[J]., 2021, 57(5): 36-46.
[6] 郝永平, 曹昭睿, 白帆, 等. 基于興趣區(qū)域掩碼卷積神經(jīng)網(wǎng)絡(luò)的紅外-可見光圖像融合與目標(biāo)識(shí)別算法研究[J].光子學(xué)報(bào), 2021, 50(2): 15-16.
HAO Yongping, CAO Zhaorui, BAI fan, et al. Research on infrared visible image fusion and target recognition algorithm based on region of interest mask convolution neural network[J]., 2021, 50(2): 15-16.
[7] 李舒涵, 許宏科, 武治宇. 基于紅外與可見光圖像融合的交通標(biāo)志檢測[J]. 現(xiàn)代電子技術(shù), 2020, 43(3): 45-49.
LI Shuhan, XU Hongke, WU Zhiyu. Traffic sign detection based on infrared and visible image fusion [J]., 2020, 43(3): 45-49.
[8] XIAO X, WANG B, MIAO L, et al. Infrared and visible image object detection via focused feature enhancement and cascaded semantic extension[J]., 2021, 13(13): 2538.
[9] Banuls A, Mandow A, Vazquez-Martin R, et al. Object detection from thermal infrared and visible light cameras in search and rescue scenes[C]// 2020()., 2020: 380-386.
[10] 李章維, 胡安順, 王曉飛. 基于視覺的目標(biāo)檢測方法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(8): 7-15.
LI Zhangwei, HU Anshun, WANG Xiaofei. Overview of vision based target detection methods[J]., 2020, 56(8): 7-15.
[11] 汪廷. 紅外圖像與可見光圖像融合研究與應(yīng)用[D]. 西安: 西安理工大學(xué), 2019.
WANG Ting. Research and Application of Infrared Image and Visible Image Fusion[D]. Xi'an: Xi'an University of Technology, 2019.
[12] XIANG X, LV N, YU Z, et al. Cross-modality person re-identification based on dual-path multi-branch network[J]., 2019, 19(23):11706-11713.
[13] REN S, HE K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2017, 39(6): 1137-1149.
[14] Bochkovskiy A, WANG C Y, LIAO H. YOLOv4: Optimal speed and accuracy of object detection[J/OL]., https://arxiv.org/abs/2004.10934.
[15] LIU W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]//, 2016: 21-37.
[16] TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully convolutional one-stage object detection[C]// 2019()., 2020: 9626-9635.
[17] DUAN K, XIE L, QI H, et al. Location-sensitive visual recognition with cross-IOU loss[J/OL]., https://arxiv.org/abs/ 2104.04899.
[18] LI C, ZHAO N, LU Y, et al. Weighted sparse representation regularized graph learning for RGB-T object tracking[C]//, 2017: 1856-1864.
[19] 白玉, 侯志強(qiáng), 劉曉義, 等. 基于可見光圖像和紅外圖像決策級(jí)融合的目標(biāo)檢測算法[J]. 空軍工程大學(xué)學(xué)報(bào), 2020, 21(6): 53-59.
BAI Yu, HOU Zhiqiang, LIU Xiaoyi, et al. Target detection algorithm based on decision level fusion of visible and infrared images[J]., 2020, 21(6): 53-59.
Object Detection Algorithm Based on Infrared and Visible Light Images
KUANG Chuwen1,HE Wang2
(1.,516057,;2.,,430074,)
A target detection method based on infrared and visible image fusion is proposed to overcome the shortcomings of the existing target detection algorithms based on visible light. In this method, depth separable convolution and the residual structure are combined to construct a parallel high-efficiency feature extraction network to extract the object information of infrared and visible images, respectively. Simultaneously, the adaptive feature fusion module is introduced to fuse the features of the corresponding scales of the two branches through autonomous learning such that the two types of image information are complementary. Finally, the deep and shallow features are fused layer by layer using the feature pyramid structure to improve the detection accuracy of different scale targets. Experimental results show that the proposed network can completely integrate the effective information in infrared and optical images and realize target recognition and location on the premise of ensuring accuracy and efficiency. Moreover, in the actual substation equipment detection scene, the network shows good robustness and generalization ability and can efficiently complete the detection task.
object detection, infrared and visible light image, deep learning, adaptive fusion
TP391.41
A
1001-8891(2022)09-0912-08
2021-11-29;
2022-01-28.
鄺楚文(1984-),男,漢族,廣東珠海人,講師,研究方向:計(jì)算機(jī)科學(xué)與技術(shù),人工智能。E-mail:1952707159@qq.com。
國家自然科學(xué)基金項(xiàng)目(61972169)。