李一白,王彥林,閆 禹,胡敏濤,劉 賓,陳 平
(1.中北大學(xué)信息與通信工程學(xué)院,山西 太原030051;2.港珠澳大橋管理局,廣東 珠海519060)
人類行為通常與場(chǎng)景關(guān)聯(lián)才能判斷其準(zhǔn)確含義,識(shí)別關(guān)聯(lián)場(chǎng)景的行為對(duì)安防起到十分重要的作用[1]。在對(duì)安全要求較高的地方,與場(chǎng)景關(guān)聯(lián)的入侵行為是異常安全事件的重要警示信號(hào),之后進(jìn)一步對(duì)入侵目標(biāo)進(jìn)行跟蹤,能夠有效實(shí)現(xiàn)對(duì)行為的精準(zhǔn)分析。
在低照度條件下,可見光圖像質(zhì)量差無法準(zhǔn)確識(shí)別動(dòng)作,紅外攝像頭不受光照變化影響,可以全天候進(jìn)行與動(dòng)作有關(guān)的行為識(shí)別[2-4]。但紅外圖像缺乏場(chǎng)景細(xì)節(jié)信息,難以實(shí)現(xiàn)場(chǎng)景關(guān)聯(lián)的目標(biāo)分析。入侵行為的判斷依據(jù)是目標(biāo)在場(chǎng)景中的位置,需要融合紅外和可見光圖像,將紅外圖像的目標(biāo)和可見光圖像的場(chǎng)景細(xì)節(jié)融合到一張圖像中。
近年來,國(guó)內(nèi)外研究者提出了很多圖像融合方法[5]。紅外與可見光圖像融合時(shí)的重要準(zhǔn)則是保留紅外圖像的目標(biāo)信息,基于視覺顯著性的融合方法利用紅外圖像中熱源目標(biāo)相對(duì)背景比較突出的特點(diǎn),使用紅外顯著性圖指導(dǎo)圖像融合[6-7]。Piao等人提出利用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)生成表示每個(gè)像素顯著性的權(quán)值圖,根據(jù)權(quán)值圖加權(quán)融合[8]。這些融合方法是針對(duì)視角相同的共光軸圖像,視角存在差異的圖像融合要先進(jìn)行配準(zhǔn),現(xiàn)有的配準(zhǔn)方法主要是提取匹配特征點(diǎn)計(jì)算整個(gè)圖像的變換矩陣[9-11]。變換整個(gè)圖像的方法不適用于非平面場(chǎng)景配準(zhǔn),由于視差存在差異需要獨(dú)立分析和配準(zhǔn)每個(gè)目標(biāo)[12]。Nguyen提出一種非平面紅外與可見光視頻配準(zhǔn)算法,使用基于輪廓點(diǎn)的稀疏對(duì)應(yīng)方法對(duì)每個(gè)前景目標(biāo)進(jìn)行特征匹配、矯正和位置差異計(jì)算[13]。Sun提出采用多目標(biāo)跟蹤方法,獨(dú)立地分析和配準(zhǔn)每個(gè)前景目標(biāo)[14]。Bilodeau將相機(jī)標(biāo)定和立體匹配計(jì)算視差用于圖像配準(zhǔn),提取運(yùn)動(dòng)目標(biāo)根據(jù)各自的視差配準(zhǔn)[15]。上述融合方法在監(jiān)控場(chǎng)景下存在局限性:紅外和可見光攝像頭從不同視角拍攝同一場(chǎng)景時(shí),紅外和可見光圖像尺度不同,目標(biāo)形態(tài)差異大,配準(zhǔn)過程中復(fù)雜的特征點(diǎn)提取與匹配容易出現(xiàn)錯(cuò)誤,并且效率較低,而場(chǎng)景關(guān)聯(lián)的異常行為識(shí)別需要快速準(zhǔn)確定位目標(biāo)在可見光場(chǎng)景的位置。
圍繞監(jiān)控?cái)z像頭位置固定的不同視角場(chǎng)景配準(zhǔn),以及目標(biāo)行人腳不離開地面時(shí)的入侵行為識(shí)別問題,本文提出了一種不同視角下紅外與可見光圖像融合方法。預(yù)先設(shè)置標(biāo)志物建立紅外和可見光圖像的視場(chǎng)轉(zhuǎn)換模型,避免了復(fù)雜的圖像配準(zhǔn)過程。使用Mask R-CNN獲取紅外圖像中人的局部顯著性圖,根據(jù)位置點(diǎn)將每個(gè)人變換到可見光圖像中的對(duì)應(yīng)位置,使用紅外局部顯著性圖指導(dǎo)圖像融合,獲得的融合圖像可以用于闖入行為識(shí)別。
監(jiān)控場(chǎng)景會(huì)出現(xiàn)多個(gè)目標(biāo)的情況,由于常見的顯著性檢測(cè)算法無法將互相遮擋的目標(biāo)分開,導(dǎo)致無法獨(dú)立分析和融合每個(gè)目標(biāo)。使用Mask R-CNN網(wǎng)絡(luò)進(jìn)行實(shí)例分割,可以準(zhǔn)確獲得每個(gè)目標(biāo)的顯著性圖。
Mask R-CNN是一個(gè)多任務(wù)網(wǎng)絡(luò),同時(shí)實(shí)現(xiàn)目標(biāo)識(shí)別和像素級(jí)實(shí)例分割[16]。本文的方法是利用Mask R-CNN網(wǎng)絡(luò)獲取紅外圖像中每個(gè)人的顯著性權(quán)值圖,只需要網(wǎng)絡(luò)實(shí)例分割分支輸出的Mask。網(wǎng)絡(luò)結(jié)構(gòu)原理如圖1所示,主干網(wǎng)絡(luò)使用ResNet-101產(chǎn)生特征圖,并與空間金字塔(FPN)結(jié)合,融合低層目標(biāo)位置信息和高層特征語(yǔ)義信息。將特征圖輸入?yún)^(qū)域建議網(wǎng)絡(luò)(RPN),在特征圖上基于Anchor 機(jī)制產(chǎn)生大量大小不同的候選矩形框,采用非極大值抑制方式選出置信度靠前的矩形框,并確定框中是背景還是目標(biāo)物體。之后將數(shù)據(jù)輸入到ROIAlign層,使用雙線性插值方法將所有矩形框變成相同大小并進(jìn)一步分類和定位。網(wǎng)絡(luò)最后使用全卷積層對(duì)預(yù)測(cè)目標(biāo)進(jìn)行像素級(jí)分割生成Mask。Mask是一個(gè)二進(jìn)制矩陣,目標(biāo)部分元素值為True,背景部分元素值為False。圖像中每個(gè)實(shí)例分割目標(biāo)都會(huì)輸出一個(gè)Mask,將二進(jìn)制Mask中的元素True和False分別轉(zhuǎn)換成1和0,就可得到紅外顯著性圖。
圖1 Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖
紅外圖像與可見光圖像差異較大,由于地面材質(zhì)的反射率高,會(huì)導(dǎo)致地面出現(xiàn)人的倒影[17],如圖2所示。直接使用可見光數(shù)據(jù)集的預(yù)訓(xùn)練模型在紅外圖像上的檢測(cè)效果不好,地面倒影會(huì)干擾分割,并且預(yù)訓(xùn)練模型檢測(cè)物體類別太多,不只檢測(cè)分割人,
還會(huì)檢測(cè)出其他類別的物體,使融合受到干擾,因此需要使用Labelme制作自己的紅外分割數(shù)據(jù)集在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行數(shù)據(jù)增強(qiáng)。
圖2 紅外倒影
針對(duì)低照度下場(chǎng)景關(guān)聯(lián)的異常行為識(shí)別問題,紅外與可見光圖像融合的目的是定位紅外目標(biāo)在可見光場(chǎng)景的位置,不同視角圖像融合前的配準(zhǔn)不需要和傳統(tǒng)圖像配準(zhǔn)一樣使兩張圖片完全重合。利用監(jiān)控?cái)z像頭固定不動(dòng)的特點(diǎn),預(yù)先設(shè)置標(biāo)志物配準(zhǔn)紅外和可見光圖像中的地面,建立視場(chǎng)轉(zhuǎn)換模型,只需配準(zhǔn)一次,之后可直接使用視場(chǎng)轉(zhuǎn)換模型對(duì)每個(gè)目標(biāo)進(jìn)行變換,避免了紅外和可見光圖像特征點(diǎn)的檢測(cè)和匹配,可以提高視頻配準(zhǔn)效率。本文提出的圖像融合整體框架如圖3所示,整個(gè)過程主要分為兩部分:①預(yù)先配準(zhǔn)攝像頭計(jì)算視場(chǎng)轉(zhuǎn)換模型;②融合紅外圖像的人和可見光圖像的背景。
圖3 整體框架圖
(1)
式中,fx和fy分別為圖像x和y方向上的縮放比例。
一般情況下,圖像x和y方向上的縮放比例相同。計(jì)算圖像縮放矩陣需要紅外和可見光圖像中的兩對(duì)對(duì)應(yīng)點(diǎn),使用兩點(diǎn)在圖像中的坐標(biāo)計(jì)算兩點(diǎn)之間的距離,根據(jù)兩張圖片中對(duì)應(yīng)兩點(diǎn)的距離計(jì)算縮放比例。假設(shè)可見光圖像中兩個(gè)特征點(diǎn)的坐標(biāo)分別為(x1,y1)和(x2,y2),對(duì)應(yīng)在紅外圖像中的點(diǎn)的坐標(biāo)是(x3,y3)和(x4,y4),紅外圖像的縮放比例由式(2)計(jì)算:
(2)
縮放后紅外圖像中每一點(diǎn)的像素值使用雙線性插值計(jì)算。
(3)
(4)
投影變換矩陣有k0~k7八個(gè)參數(shù),至少需要紅外和可見光圖像中4對(duì)匹配的特征點(diǎn)計(jì)算。
圖像中不同人的形態(tài)有差別,因近大遠(yuǎn)小的成像規(guī)律,同一個(gè)人在場(chǎng)景中的不同位置大小也有差別,人身上只有與地面相交的點(diǎn)可以確定人的位置,稱之為位置點(diǎn)。尋找縮放后紅外圖像中每個(gè)人的位置點(diǎn),根據(jù)視場(chǎng)轉(zhuǎn)換模型和顯著性圖實(shí)現(xiàn)紅外和可見光圖像融合。
首先,使用Mask R-CNN獲取縮放后的紅外圖像顯著性圖,選取一個(gè)人的紅外顯著性圖S(x,y),獲取紅外顯著圖中的輪廓,設(shè)定輪廓面積閾值,去除誤檢測(cè)的小輪廓。
然后,根據(jù)得到的輪廓找到位置點(diǎn),計(jì)算平移變換矩陣。選取第i個(gè)輪廓Ci,輪廓最下方一點(diǎn)PA=(xa,ya)T為人的位置點(diǎn),將該點(diǎn)代入投影變換公式得到可見光圖像中對(duì)應(yīng)的點(diǎn)PB=(xb,yb)T,用于計(jì)算平移變換矩陣。獲得輪廓外接矩形區(qū)域Ri,將顯著性圖和縮放后紅外圖像的矩形區(qū)域根據(jù)位置點(diǎn)整體平移到可見光圖像對(duì)應(yīng)的位置,變換公式為式(5):
(5)
式中,dx=xb-xa,dy=yb-ya分別是水平和豎直方向的移動(dòng)距離。
將縮放后的紅外圖像和紅外顯著性圖S(x,y)中每個(gè)輪廓外接矩形區(qū)域平移,形成新的紅外顯著性圖Snew(x,y)和紅外圖像Inew(x,y)。紅外顯著性圖中的背景區(qū)域像素為0,人體目標(biāo)區(qū)域像素為1,使用紅外顯著性圖中的像素值作為融合時(shí)的權(quán)重,對(duì)紅外和可見光圖像進(jìn)行加權(quán)融合:
F(x,y)=Snew(x,y)·Inew(x,y)+(1-Snew(x,y))·V(x,y)
(6)
紅外圖像中的每個(gè)人都對(duì)應(yīng)一個(gè)顯著性圖,將每個(gè)人都按照上述過程融合,逐一使用顯著性圖指導(dǎo)人的局部融合。
實(shí)驗(yàn)使用??低暤目梢姽鈹z像頭和熱紅外攝像頭采集數(shù)據(jù),實(shí)驗(yàn)平臺(tái)在Linux系統(tǒng)上搭建,使用Tensorflow和Keras深度學(xué)習(xí)框架,訓(xùn)練網(wǎng)絡(luò)使用NVIDIA Tesla K80顯卡。
在預(yù)訓(xùn)練模型上使用自己制作的數(shù)據(jù)集訓(xùn)練Mask R-CNN,數(shù)據(jù)集包括自己拍攝的紅外數(shù)據(jù)和InfAR紅外數(shù)據(jù)集[19]中的200張圖片,使用Labelme制作分割標(biāo)簽,第i個(gè)人的標(biāo)簽為personi,并使用鏡像,旋轉(zhuǎn),縮放等數(shù)據(jù)增強(qiáng)方法增加數(shù)據(jù)集的數(shù)量。使用隨機(jī)梯度下降法對(duì)損失函數(shù)進(jìn)行收斂,網(wǎng)絡(luò)的head 部分訓(xùn)練10個(gè)epochs,初始學(xué)習(xí)率為0.001,然后用較小的學(xué)習(xí)率0.0001 微調(diào)整個(gè)網(wǎng)絡(luò),訓(xùn)練30個(gè) epochs后得到一個(gè)模型。
使用本文訓(xùn)練后的模型與FT顯著性檢測(cè)算法、預(yù)訓(xùn)練模型作對(duì)比,如圖4所示,圖4(a)為紅外圖像,圖像中兩個(gè)人與攝像頭距離不同,距離攝像頭近的人對(duì)距離遠(yuǎn)的人有遮擋,人在地面有明顯倒影。圖4(b)是FT顯著性算法得到的顯著性圖,兩個(gè)人是連在一起的。圖4(c)是使用預(yù)訓(xùn)練模型分割的結(jié)果,分割結(jié)果非常不好。受到地面倒影的影響,將地面倒影與人分割為一個(gè)實(shí)例目標(biāo),不能將兩個(gè)人分割開,并且紅外圖像的背景部分會(huì)出現(xiàn)錯(cuò)誤檢測(cè)的情況。圖4(d)是使用本文模型得到的分割結(jié)果,分割效果很好,可以將兩個(gè)人分割為兩個(gè)實(shí)例,分割出的兩個(gè)人輪廓準(zhǔn)確,不會(huì)受地面倒影的影響。
圖4 分割對(duì)比
使用相機(jī)標(biāo)定常用的棋盤格標(biāo)定板做配準(zhǔn)標(biāo)志物時(shí),為了使紅外攝像頭也能拍攝到棋盤格,需要使用高強(qiáng)度鹵素?zé)粽丈淦灞P格[15]。但將棋盤格平放在地面上時(shí)與攝像頭之間的角度太大,不能準(zhǔn)確檢測(cè)出棋盤格的角點(diǎn)。本文直接在地面上設(shè)置A,B,C,D四個(gè)點(diǎn)用于計(jì)算視場(chǎng)轉(zhuǎn)換模型,為了使紅外攝像頭也能拍到,使用裝有熱水的藍(lán)色小塑料瓶蓋作為一個(gè)點(diǎn),如圖5中(a)、(b)所示,紅外圖像中點(diǎn)的亮度高,可見光圖像中點(diǎn)為D點(diǎn),分別根據(jù)亮度和顏色特性提取紅外和可見光圖像中四個(gè)點(diǎn)的坐標(biāo)。
四點(diǎn)在紅外圖像中的坐標(biāo)分別為(108,188)、(177,184)、(84,239)、(166,234),在可見光圖像中的坐標(biāo)分別為(1083,705)、(1274,698)、(1129,997)、(1375,981)。已知四對(duì)點(diǎn)坐標(biāo)的情況下,可以直接使用Opencv中的findHomography函數(shù)計(jì)算投影變換矩陣。計(jì)算得到的縮放矩陣為:
圖5中(c)為縮放后的紅外圖像,(d)是配準(zhǔn)后的紅外圖像與可見光圖像疊加的結(jié)果,可以看出四個(gè)點(diǎn)以及地面可以完全重合。
圖5 地面配準(zhǔn)
實(shí)驗(yàn)中的人站在地面上,同一時(shí)刻紅外和可見光攝像頭分別從兩個(gè)角度拍攝的場(chǎng)景圖片差異較大,同一個(gè)人的形態(tài)和兩個(gè)人的相對(duì)位置都有差別。判斷融合效果的好壞,可以通過紅外圖像中的人與可見光圖像中原有的人的重疊程度判斷。
監(jiān)控場(chǎng)景中只有一個(gè)人時(shí),融合結(jié)果如圖6所示,融合圖像中紅外圖像中的人基本與可見光圖像中的人重疊,與地面相交區(qū)域重疊較好,可以將紅外圖像中的人移動(dòng)到可見光圖像中的對(duì)應(yīng)位置。場(chǎng)景中有兩個(gè)人,且紅外圖像中兩個(gè)人有重疊時(shí),如圖7所示,可以對(duì)每個(gè)人局部融合,融合后的圖像中兩個(gè)紅外人分別在可見光圖像相應(yīng)的位置。
圖6 單人融合
圖7 多人融合
場(chǎng)景中設(shè)置一條白色警戒線,當(dāng)光照不足時(shí)可見光攝像頭拍攝的圖像不清晰,紅外圖像只能看到人卻不能看到線,可以使用正常光線下可見光攝像頭拍攝的背景與紅外圖像融合,將紅外圖像中的人移動(dòng)到可見光圖像對(duì)應(yīng)的位置,再進(jìn)行入侵行為識(shí)別。通過人與警戒線的相對(duì)位置可以判斷融合是否準(zhǔn)確。圖8中(a)是正常光照下的可見光背景,(b)是紅外圖像,(c)是紅外圖像與可見光背景融合后的圖像,(d)是真實(shí)的可見光圖像。可以看出真實(shí)圖像中兩個(gè)人一個(gè)人在線前,另一個(gè)人在線后,融合后人與線的相對(duì)位置基本與實(shí)際相符。
圖8 融合用于入侵行為識(shí)別
針對(duì)監(jiān)控系統(tǒng)中存在兩個(gè)固定攝像頭從不同角度拍攝場(chǎng)景,光照不足時(shí)需要結(jié)合紅外和可見光圖像的優(yōu)點(diǎn)識(shí)別關(guān)聯(lián)場(chǎng)景的入侵行為,提出了一種基于顯著性檢測(cè)的不同視角下紅外與可見光圖像融合方法。實(shí)驗(yàn)結(jié)果表明,本文提出的基于標(biāo)志物的紅外與可見光圖像視場(chǎng)轉(zhuǎn)換模型,實(shí)現(xiàn)了不同視角圖像間目標(biāo)位置的變換。使用紅外數(shù)據(jù)集訓(xùn)練Mask R-CNN網(wǎng)絡(luò),解決了地面倒影干擾和實(shí)例分割紅外圖像行人不準(zhǔn)確的問題,可以得到每個(gè)行人各自的顯著性圖。將紅外圖像與清晰的可見光背景融合,通過融合圖像能定位人在場(chǎng)景中的準(zhǔn)確位置,可以解決低照度條件下識(shí)別入侵行為的問題。在未來的工作中,可以研究提高算法性能,進(jìn)一步將紅外和可見光圖像融合與行為識(shí)別結(jié)合,對(duì)全天候安防有重要意義。