陳文龍,張來線,孫華燕,郭惠超,王明乾
(1.航天工程大學 電子與光學工程系, 北京 101416; 2.航天工程大學 研究生院, 北京 101416)
目前軍事,生活中常用的光電裝備由于其光學系統(tǒng)對入射光線有很強的原路返回特性,這種特性稱為“貓眼”效應,具有該效應的光電目標稱為貓眼目標。貓眼目標識別是一個重要的問題,其廣泛應用于無源光學系統(tǒng)的識別,目前在反偵察、反狙擊、酒店反竊視等安保應用領域中都發(fā)揮著很重要的作用。在復雜場景中檢測貓眼目標存在著諸多難點,如行人走動、背景變化、光照變化等,使得背景中存在大量噪聲,這種情形下檢測貓眼目標十分困難,誤報率很高。國內(nèi)外針對這一技術難題進行了大量研究與探索。
目前,利用激光主動探測技術識別貓眼目標是熱門的研究領域,也是主要探測手段之一。相比國內(nèi),國外在此領域研究起步很早,已經(jīng)研制了多種成熟的光電探測設備。如英國研制的ELLIPSE反狙擊手激光檢測設備,法國的SLD系列的狙擊手探測裝置。在國內(nèi),同蘭娟等根據(jù)貓眼目標的特征提出基于圓度和偏心度識別方法;李麗等提出的貓眼目標快速識別方法與任熙明等人提出的形頻對偶準則方法相比雖然提高了算法速度,減少了算法所需的圖像數(shù)量,但識別速度仍然比較長。針對復雜場景的識別問題,王興賓等提出的基于視覺顯著性的貓眼目標識別方法與王喆堃等提出的基于OFSD配準算法的貓眼目標識別方法在算法速度和精度上有所提升,但都只能識別一個真實目標?;趥鹘y(tǒng)的圖像處理算法識別貓眼目標有其局限性,在算法精度和速度上難以平衡。隨著近年來深度學習的不斷完善發(fā)展,陸續(xù)有學者使用卷積神經(jīng)網(wǎng)絡來檢測貓眼目標,如柯學結(jié)合了機器學習和深度學習方法識別隱蔽相機,Liu等提出利用分類網(wǎng)絡檢測室內(nèi)微型相機,但是他們在檢測速度和檢測距離上有所缺陷難以得到應用。關鍵問題是由于貓眼目標在圖像中所占像素過少的原因,僅利用深度學習目標檢測算法識別貓眼目標效果較差,而傳統(tǒng)圖像處理算法由于其局限性又難以兼并速度與精度。如何在復雜環(huán)境下準確剔除假目標,并快速穩(wěn)定識別真實目標是一個急需解決的問題。
因此針對上述問題,本文中利用了貓眼目標的顯著性特征與孿生網(wǎng)絡的相似性檢測原理,通過傳統(tǒng)圖像處理方法與深度學習方法相結(jié)合的思路提升算法精度與檢測速度。相比于傳統(tǒng)圖像處理方法,該方法大大減少了檢測時間,同時也提升了識別準確率,該方法可滿足實際復雜場景中的實時性檢測。
本文算法流程如圖1所示。先對主被動圖像進行圖像預處理得到差分圖像,然后使用顯著性檢測方法來增強差分圖像中的貓眼目標;通過閾值分割在顯著圖中找出候選區(qū)域并將該區(qū)域返回差分圖像,對其候選區(qū)域使用綜合形狀度量值進一步判別得到候選目標區(qū)域;最后,利用本文中改進的基于SKNet21的孿生網(wǎng)絡對差分圖像中的候選目標區(qū)域進行貓眼目標識別,提取真實的貓眼目標。
孿生網(wǎng)絡簡單來說,是用神經(jīng)網(wǎng)絡來判別2個輸入的相似程度,輸出為相似度數(shù)值。例如它將2個圖像分別輸入到2個卷積神經(jīng)網(wǎng)絡中,通過Loss的計算,可以比較出2個圖像的相似程度。對于貓眼目標識別任務來說,計算圖像中候選目標區(qū)域與貓眼目標的相似程度可以判斷該區(qū)域是否為真實目標,這與傳統(tǒng)的貓眼目標識別問題類似,為解決貓眼目標識別問題提供了新的思路與途徑。
圖1 本文算法流程框圖
本文中采用的網(wǎng)絡模塊結(jié)構(gòu)如圖2所示,該網(wǎng)絡借鑒了一種改進的殘差網(wǎng)絡,即SKNet。其模型可以根據(jù)輸入信息的多尺度自適應地調(diào)整感受野的大小并選擇對分類有效的感受野捕捉到的信息。
圖2 SKNet模塊結(jié)構(gòu)示意圖
表1 SKNet21網(wǎng)絡結(jié)構(gòu)
為了達到算法處理的快速高效,同時降低網(wǎng)絡參數(shù)與計算量,本文中將SKNet模塊構(gòu)建成21層,即SKNet21,孿生網(wǎng)絡結(jié)構(gòu)如圖3所示。網(wǎng)絡采用3通道的候選目標區(qū)域作為輸入,輸入大小為105×105,經(jīng)過2個SKNet21網(wǎng)絡后,將得到的2個多維特征展開成一維向量,將這2個一維向量進行相減再進行絕對值求和,相當于求取了2個特征向量插值的1范數(shù)。接著對其結(jié)果進行2次全連接,全連接的輸出為一個神經(jīng)元,最后對其結(jié)果取Sigmoid,使其值在0~1,代表2個輸入圖片的相似程度。網(wǎng)絡預測推理時,輸入與分別是貓眼目標樣本與差分圖像中的候選目標區(qū)域。
圖3 本文孿生網(wǎng)絡結(jié)構(gòu)框圖
為了盡可能消除圖像噪聲,需對實驗采集的原始主動和被動圖像進行形態(tài)學處理,而Tophat變換可以起到抑制背景且增強目標的作用。由于貓眼目標的形狀并不是嚴格的圓形結(jié)構(gòu),因此本文中進行形態(tài)學處理時選取橢圓形狀的結(jié)構(gòu)元素。
設經(jīng)預處理后的主被動圖像分別為和,其灰度圖像尺寸大小為×,設是主動圖像與被動圖像的平均灰度差,如式(1)所示:
(1)
采用圖像差分方法消除主被動圖像的背景平均灰度差過大的影響,圖像差分運算如下式:
=-(+)
(2)
差分圖像中存在少許的虛警點,這些虛警點主要來自于圖像背景中的斑點狀強噪聲和強邊緣特征。因此,為了抑制這些難以去除的虛警,降低其對貓眼目標識別的影響,有必要引入圖像顯著性特征檢測。由于圖像背景復雜多樣,但經(jīng)過圖像差分后的貓眼目標在圖像里非常顯著,即貓眼目標與局部鄰域之間具有較高的對比度,從而具備顯著性。
在眾多的顯著性檢測方法中,光譜殘差(spectral residual,SR)方法具有較低的計算復雜度,無需先驗知識就能進行顯著性檢測。SR方法可以很好的濾除背景中的冗余,保留并突顯目標。因此,該方法能使貓眼目標在圖像中得到進一步增強,本文中簡要表示采用PFT計算顯著性區(qū)域的過程,公式如下:
A(f)=R([(,)])
(3)
()=I([(,)])
(4)
=log(())
(5)
()=()-()*()
(6)
(,)=(,)*[exp(()+())]
(7)
式中,(,)表示差分圖像,[·]和[·]分別為傅里葉變換和傅里葉逆變換,R和I分別是取傅里葉變換的振幅和相位,()和()分別為幅值和相位,()為幅值()的對數(shù)譜,()為譜殘差,()和(,)分別為二維的均值濾波器和高斯低通濾波器(=15),為了突顯及保留目標的形狀輪廓,其濾波器大小分別為3×3和5×5,為顯著圖。
在得到顯著圖后,先對顯著性區(qū)域進行粗檢測。為了防止閾值過高導致候選區(qū)域出現(xiàn)過度分割、貓眼目標特征不明顯的情況,將閾值設置為160,該閾值也能減少后續(xù)識別的可疑區(qū)域。最后,把以粗候選區(qū)域為中心的20×20區(qū)域作為候選區(qū)域。對于貓眼目標來說,僅是判斷灰度值是否足夠大還不夠,還要看其候選區(qū)域是否符合貓眼目標的其他光學特性。除了貓眼目標的亮度特性外,反射光斑的形狀也具有鮮明的特征。它在圖像中的表現(xiàn)為實心且近似圓形,可以依據(jù)反射光斑的這種形狀特征判別真實目標。貓眼目標的形狀特征選取綜合形狀度量值作為判別準則,只需對顯著圖中的全部候選區(qū)域進行圓形度的計算,計算時間增加很少,可忽略不計。本文圓形度的計算公式如下:
(8)
式中,為等效直徑,是面積與輪廓面積相等的圓的直徑,為輪廓的面積,其中,的計算公式如下:
(9)
則本文綜合形狀度量值的計算公式如下:
=|-1|
(10)
當候選區(qū)域中的輪廓形狀為理想的圓形時,綜合形狀度量值的理想值應為0。經(jīng)實驗證明,在計算時,的值應設為030,小于等于該值即可視為是候選目標區(qū)域。最后,使用本文提出的孿生網(wǎng)絡對差分圖像中的候選目標區(qū)域判別,提取真實貓眼目標。
對每次實驗采集到的每個場景的貓眼目標區(qū)域進行裁剪,裁剪的目標圖像總數(shù)為6 850,同時也在所有主動圖像中裁剪出各種虛假目標樣本圖像13 000張,裁剪大小為20×20。為了豐富數(shù)據(jù)樣本,根據(jù)貓眼目標的特性構(gòu)建貓眼目標樣本,在所有場景的被動圖像中隨機裁剪出大小為20×20的背景圖像用以構(gòu)造貓眼目標圖像,為了使構(gòu)造的目標圖像更具真實性,限定了裁剪的背景圖像的平均灰度,范圍在[80,120]。當目標與成像探測器距離較遠時,其輻射特性接近一個點源,在圖像中呈類高斯狀,可以用一個二維高斯函數(shù)來模擬,如式(11)所示:
(11)
圖4 部分貓眼目標圖像
搭建了文獻[6]的貓眼目標探測激光成像系統(tǒng)采集主被動圖像。圖5為探測系統(tǒng)結(jié)構(gòu)框圖,其中包括一個CCD工業(yè)相機,一個波長為532 nm的激光器,工業(yè)相機所采集的圖像尺寸大小為640×480。利用構(gòu)建的貓眼目標數(shù)據(jù)集對網(wǎng)絡進行訓練,數(shù)據(jù)集總共26 000張圖像,包含貓眼目標圖像和虛假目標圖像,隨機選取20 800張作為訓練集,5 200張作為測試集。實驗使用開源框架pytorch構(gòu)建基于SKNet21的孿生網(wǎng)絡,實驗環(huán)境是Inter(R)Core(TM)i7-9700F CPU@3.00 GHz,GPU內(nèi)存為12GB 的GTX TITIAN XP,系統(tǒng)內(nèi)存為64GB的Windows10操作系統(tǒng)。網(wǎng)絡訓練采用帶動量的SGD優(yōu)化器,交叉熵損失函數(shù)BCELoss,動量設置為0.9,初始學習率設為0.001,每隔10代下降到原來的0.92,每次學習的訓練樣本為30,總共迭代80代。訓練結(jié)束后,將評估結(jié)果最好的一次作為最終模型保存。實驗測試平臺為Windows10操作系統(tǒng),CPU為Inter(R)Core(TM)i5-7300U CPU@2.71 GHz,運行內(nèi)存為8 GB的筆記本電腦。
圖5 貓眼目標激光成像探測系統(tǒng)結(jié)構(gòu)框圖
準確率和虛警率是評估貓眼目標識別方法性能的重要指標,用于評價算法的檢測能力,二者定義為:
(12)
式中:表示檢測到的真實目標數(shù)量,表示所有真實目標的總數(shù),表示檢測到的虛假目標數(shù)量,表示所有測試圖像中檢出目標的總數(shù)。
使用本文方法對原始圖像預處理的實驗結(jié)果如圖6所示,圖6(a)中的貓眼目標用紅色方框標記。從圖中可以觀察出,經(jīng)過預處理后,圖6(b)中的貓眼目標相對于背景來說仍然顯著,而圖中大部分背景已經(jīng)被抑制,其背景灰度值很低。這說明了使用圖像預處理能很好的增大貓眼目標的對比度,同時有效減少了一些假目標區(qū)域。
圖6 圖像預處理實驗結(jié)果
為了評估圖像顯著性檢測機制在本文算法中的作用,在有無顯著性檢測方法的情況下對本文算法的檢測性能進行了評估。
檢測性能參數(shù)如表2所示,結(jié)果表明,在不含顯著性檢測方法下,檢測率和誤報率都更高。這是由于貓眼目標特征判別時容易將差分圖像中的斑點狀強噪聲和強邊緣特征等誤識別為貓眼目標進而造成虛警,而顯著性檢測方法有利于對這些虛警進行有效抑制。顯著性檢測結(jié)果如圖7(b)所示,從圖中可以看出,貓眼目標在圖像中被顯著增強,同時背景被有效抑制,這說明本文方法的有效性。
表2 有無顯著性檢測時的檢測性能參數(shù)
為了驗證本文網(wǎng)絡中SKNet模塊相比其他模塊的優(yōu)劣,實驗中選擇了ResNet、SENet、以及Res2Net一共3個模塊,并分別構(gòu)建相對應的孿生網(wǎng)絡進行訓練,將保存下來的模型結(jié)合本文所提的識別方法分別對260幀主被動圖像進行測試,并分別比較其準確率、誤報率以及運行速度和模型大小。
圖7 顯著性檢測結(jié)果圖
檢測性能參數(shù)如表3所示,從表3可看出,雖然SE-ResNet21網(wǎng)絡的檢測率很高,但是它的檢測時間最長且模型最大,并不適合實時性檢測和模型部署應用,而本文采用的SKNet21對于貓眼目標的檢測性能較好,在保證高檢測率的同時模型最小,運行速度最快,誤報率最低,其各方面表現(xiàn)都較好。
表3 不同網(wǎng)絡結(jié)構(gòu)的檢測性能參數(shù)
為了測試所提出方法的檢測性能,對所提方法進行驗證,并與文獻[8]方法進行了比較。實驗的圖像是在2種不同條件的典型場景下采集的。在貓眼目標附近增加了具有高反射率的貼紙作為干擾并隨貓眼目標一起被激光照射,所有圖片均在早上、中午和黃昏拍攝的,檢測設備與目標之間的距離在2個場景的距離分別約為80 m和130 m。
本文方法與文獻[8]方法的檢測結(jié)果如圖8所示,圖8(a1)和圖8(a2)是在不同背景下,其中圖8(a2)是在動態(tài)背景下。2個場景分別是在樹林中和有行人和汽車的過道上,其中(a1)(a2)是2幅含有貓眼目標的原始主動圖像,(b1)(b2)是基于本文方法的目標識別結(jié)果圖,(c1)(c2)是基于文獻[8]方法的目標識別結(jié)果圖,紅色矩形框標記的為最后識別出來的目標。
從圖8(c1)(c2)中可以看出,在無法完全濾除干擾目標時,文獻[8]的方法無法正確識別出貓眼目標,而且在圖像中出現(xiàn)2個貓眼目標時,該方法只能識別出一個目標;通過圖8(b1)可以看出,本文提出的方法不僅能濾除掉絕大部分的虛假目標,且對于無法去除的高反射率的虛假目標,通過貓眼目標特征判別以及本文提出的孿生網(wǎng)絡可以很好地識別出真實貓眼目標。圖8(b2)的結(jié)果說明了本文方法不僅可以很準確識別動態(tài)背景下的真實目標,而且能識別場景中的多個目標。
圖8 本文方法與文獻[8]方法檢測結(jié)果圖Fig.8 Comparison results between Ref.[8]and our method
為了定量評價,進一步證明本文方法的優(yōu)越性,選取了260張主被動圖像幀序列進行測試。將本文方法與文獻[8]方法以及文獻[12]的方法進行檢測性能對比,如表4所示。結(jié)果表明,本文方法能在復雜場景下具有更高的準確率和較低的誤報率,而測試多輪該圖像幀序列后,在2張主被動圖像的處理上平均用時約為0.26 s,遠快于文獻[8]方法。此外,從表4中可看出本文方法也比文獻[12]90.37%的準確率要高。
表4 3種方法的檢測性能參數(shù)
本文提出并驗證了基于孿生網(wǎng)絡與視覺顯著性的貓眼目標識別方法,主要包括圖像預處理、顯著性檢測與孿生網(wǎng)絡判別等步驟。實驗結(jié)果表明,本文方法能有效對背景進行抑制,使用孿生網(wǎng)絡能排除圖像中的高反射率虛假目標,本文方法準確率較高,在復雜環(huán)境中能夠準確識別出多個貓眼目標,識別速度更快,能夠滿足實時性要求。本文方法將貓眼目標識別問題與孿生網(wǎng)絡聯(lián)系在一起,提供了新的思路與途徑,也克服了在激光主動探測系統(tǒng)中使用深度學習方法的局限性。在未來研究中,可以針對硬件部署對網(wǎng)絡結(jié)構(gòu)與算法進行優(yōu)化設計,并可以就卷積神經(jīng)網(wǎng)絡與傳統(tǒng)檢測算法的結(jié)合展開研究。