楊 明,王 璇,高宏偉,2
(1 北華航天工業(yè)學院雙創(chuàng)中心, 河北廊坊 065000;2 榆林學院現(xiàn)代設計與先進制造技術研究中心, 陜西榆林 719000)
現(xiàn)有的紅外制導武器大都采用“發(fā)射前鎖定,發(fā)射后不管”模式,發(fā)射前操作手鎖定目標精度的高低將直接影響最終武器系統(tǒng)命中目標的精度[1]。為了降低操作手的捕獲誤差,往往通過加強操作手捕控操作訓練,提高操控的熟練程度以及對目標區(qū)域的熟悉程度。提高捕控精度,雖然能在一定程度上減小操作手的捕控誤差,但該方法十分依賴操作手的經(jīng)驗與技術,而且還存在主觀性強、重復性低、效率低下等缺點。
為了提升弱小區(qū)域的顯示質量,目前裝備大多采用多視場光學變焦和數(shù)碼變焦兩種設計模式進行變倍。前者是通過大視場捕獲目標,小視場瞄準跟蹤目標,但這無疑增加了光學系統(tǒng)設計復雜性,以及加工裝調難度,無法滿足現(xiàn)有導引頭小型化、模塊化、低成本的設計要求;后者則是通過相應的軟件算法設計對低分辨圖像進行超分辨重建,估計出相應的高分辨圖像。可以看出,采用超分辨重建電子變倍提升圖像質量是目前最經(jīng)濟可行的方案,然而目前武器裝備的電子變焦功能大多采用插值放大,雖然一定程度上放大了目標區(qū)域的尺寸,但并不能提供紋理清晰的高分辨圖像[2]。
基于插值的方法假設像素的灰度值是連續(xù)變化的,并利用鄰近像素的灰度值計算待插值像素的灰度值,該方法簡單易行,但重建圖像高頻信息缺失,圖像過于模糊。基于學習的超分辨重建算法則是通過算法模型學習出先驗知識,如稀疏特征、鄰域嵌入、低秩等進行特征學習[3]。由于圖像先驗知識依賴于實際問題的約束,所以基于知識重建的方法魯棒性不高。
近年來,以卷積神經(jīng)網(wǎng)絡為代表的深度網(wǎng)絡強調模型的深度,通過將低層次特征進行逐層組合優(yōu)化,獲得更加抽象的高層次特征,增強目標模型的表征能力,如VGG、ResNet等[4]都極大地提升了單幀圖像超分辨率重建的效果,然而大多數(shù)深度學習方法都沒有充分利用圖像局部特征,且硬件資源有限,很難通過簡單的增加網(wǎng)絡深度的策略提高重建圖像質量[5]。
為了讓卷積神經(jīng)網(wǎng)絡更好的勝任紅外導引頭或光電跟蹤系統(tǒng)電子變倍任務,適應現(xiàn)代戰(zhàn)爭對精確打擊與遠程攻擊能力的要求,文中重新設計卷積神經(jīng)網(wǎng)絡的結構,通過將低層次特征和高層次特征聚合連接形成新的特征,并采用雙參數(shù)損失函數(shù)來優(yōu)化訓練深度網(wǎng)絡,提高網(wǎng)絡模型的泛化能力。仿真實驗與掛飛驗證結果表明,文中所提出的電子變倍方法能夠生成具有豐富細節(jié)而清晰的高分辨紅外圖像,增強了目標鎖定的精度。
眾所周知,理論上深度模型網(wǎng)絡越深,其表達能力越強,能處理的訓練數(shù)據(jù)也更多;實際上,網(wǎng)絡越深,其優(yōu)化過程越困難,誤差回傳會導致梯度消失問題[5]。為了解決網(wǎng)絡越深精度迅速退化的問題,He等提出了深度殘差網(wǎng)絡(deep residual network resnet)[6],其模型結構如圖1所示,其中Conv與ReLU分別表示卷積算子與線性整流函數(shù)。假定xl與yl分別表示第l層的輸入與輸出;網(wǎng)絡恒等映射函數(shù)為H(xl);f(yl)為相應激活函數(shù),可以得到:
圖1 恒等映射
(1)
若模型為恒等映射,其f(yl)=yl,H(xl)=xl,代入式(1)可以看出:
xl+1=xl+F(xl,wl)
(2)
因此,遞歸推導可以得到第L層的輸出結果,如式(3)所示。
(3)
若l=0,則x0表示模型中第一層的輸入原始信號??梢钥闯觯贚層的輸出結果則是所有層的殘差之和,即多級聯(lián)網(wǎng)絡進行堆疊而成。當采用反向傳播優(yōu)化求解時,其代價函數(shù)可以表示為:
雖然深度殘差網(wǎng)絡可以利用恒等映射提升網(wǎng)絡的深度,提高深度特征的表征能力。但對于硬件余量有限的武器裝備,提升深度將增加網(wǎng)絡復雜度,很難通過簡單增加網(wǎng)絡深度的策略提高重建圖像質量。由于圖像的低層次局部特征具有豐富細節(jié)信息,深度特征具有較強的結構表征能力[7]。因此,文中提出了一種多層次特征耦合網(wǎng)絡,通過將低層次特征和高層次特征聚合連接形成新的特征,并采用雙參數(shù)損失函數(shù)來優(yōu)化訓練深度網(wǎng)絡,提高網(wǎng)絡模型的泛化能力。
特征耦合能增加模塊間的依賴性,降低模塊獨立性,提升目標的表征能力[8]。為了學習到圖像中更豐富的深層次特征,文中采用特征耦合將網(wǎng)絡的低分辨特征與深度特征進行融合,并采用一個跨連接操作將低層次特征與高層次特征以端到端用多層的方式級聯(lián)起來,然后輸入到上采樣模塊,其子網(wǎng)絡模塊如圖2所示,該模塊設計的耦合操作由兩個不同層次的特征獲取最優(yōu)特征表示,采用1×1卷積層實現(xiàn)不同層次特征交互和信息整合,并采用3×3卷積核對不同維度下的特征進行計算,增加網(wǎng)絡的深度,以提取更多的區(qū)域細節(jié)。
圖2 特征耦合
直接對原始低分辨圖像進行多層卷積,上采樣模塊實現(xiàn)了多層次卷積特征圖的融合,經(jīng)過多個卷積層后,得到r2個特征圖,其中r表示超分辨放大倍率。通過將各像素對應的r2通道的特征排列成r×r的子圖像,經(jīng)像素重整模塊得到大小為rH×rW的高分辨圖像。該策略不直接對多特征圖上采樣映射,而是通過逐層學習挖掘深度特征,具有很高的效率和表征能力。
為了增強模型對復雜背景下目標區(qū)域的表征能力,多層次耦合子模塊經(jīng)過次級聯(lián)構成了深度網(wǎng)絡的基本模型架構。然后針對稠密卷積神經(jīng)網(wǎng)絡結構的思想,采用1×1卷積層連接3×3卷積層結構,作為子塊的基準結構,并且每個卷積層都采用ReLU作為激活函數(shù);在基準結構的基礎上,增加一個3×3卷積層,作為子塊結構的改進結構;最后,將子塊結構的基準結構和改進結構在特征圖通道維度進行堆疊,作為子塊結構的融合結構。
低層次特征主要由局部特征組成,如邊緣、輪廓和角點等,在區(qū)域描述上良好的旋轉不變性和灰度不變性,以及較強的可解釋性,有利于電子變倍任務[9]。深度特征則強調了模型結構的深度,而且更突出特征學習的重要性。通過逐層特征變換,挖掘數(shù)據(jù)豐富的內(nèi)在信息。但深度增加會加大模型復雜度。因此提出的耦合策略,在不提升深度的情況下增強模型表征能力,其網(wǎng)絡結構如圖3所示。該網(wǎng)絡將圖2所示的子模塊進行堆疊,通過恒等映射連接,確保了低層次特征能用于超分辨重建,從而使得網(wǎng)絡完全融合了局部特征和全局特征。先使用一系列卷積模塊和像素重整模塊搭建深度殘差網(wǎng)絡,使用獨立的卷積層和數(shù)據(jù)疊加層得到圖像殘差信號,然后中間數(shù)據(jù)經(jīng)過像素重整模塊,里面的上采樣操作將輸入圖像的清晰度提高,該模型可以使不同尺寸圖像的超分辨率增強,提高紅外圖像的清晰度和分辨率。
圖3 深度網(wǎng)絡結構
由于1×1卷積層可以降低特征維數(shù),以更少的信息損失進行更快的計算。因此,網(wǎng)絡結構先利用1×1卷積層降維,然后在另一個1×1卷積層下做還原,既保持了精度又減少了計算量。將低分辨率圖像塊輸入一個 7×7的卷積層,并采用ReLU作為激活函數(shù)。7×7卷積層的輸出特征輸入多連接結構塊,其中每個多連接結構塊均包括一個子塊結構和一個恒等映射;通過堆疊多連接結構塊,然后將最后一個多連接結構塊的輸出特征圖輸入一個1×1卷積層,降低特征圖的維數(shù);采用一個跨連接層,將7×7卷積層輸出的特征圖和1×1卷積層降維后的特征圖堆疊起來,共同作為放大模塊的輸入;最后采用低分辨率特征圖按次序拼接成高分辨率特征圖的方法,將低分辨率特征圖放大到一定的倍數(shù)。
深度殘差網(wǎng)絡的損失函數(shù)可表示為:
(5)
式中:(xi,yi)代表低分辨圖像與高分辨圖像組成的訓練樣本;m表示訓練樣本的個數(shù);hθ(x) 代表邏輯回歸函數(shù)[16]。訓練過程即是使損失函數(shù)最小的參數(shù)求解過程。然而,該函數(shù)對極端情況下的樣本擬合能力較差。因此,采用了一種改進的雙參數(shù)損失函數(shù),該函數(shù)可以推廣到目前許多流行的魯棒損失函數(shù)。假定IHR和SHR之間的誤差可以表示為e=IHR-SHR,文中采用的損失函數(shù)可以表示為:
(6)
式中:ρ(α)=max(1, 2-α);α、β是具有連續(xù)值屬性的參數(shù),可以通過不同的參數(shù)設置,模擬出任意的損失函數(shù)。相比于傳統(tǒng)固定參數(shù)損失函數(shù),采用雙參數(shù)損失函數(shù)可以通過微調α和β獲得更優(yōu)的損失函數(shù),具有很大的靈活性,可以適應更復雜的場景。
為了驗證文中提出的多級深度網(wǎng)絡高清晰度電子變倍算法的有效性,將從靜態(tài)實驗室仿真與動態(tài)外場掛飛進行評價分析。
第一卷積層:卷積核大小為3×3,輸出特征圖個數(shù)為64,卷積步長為1;非線性激活函數(shù)采用ReLU激活函數(shù),其作用為引入非線性操作,將特征圖中小于零的值變成零,而大于零的值維持不變,即f(x)=max(0,x) 。第二卷積層:卷積核大小為3×3,輸出特征圖個數(shù)為64,卷積步長為1;文中采用的多層次耦合層,包括低層次局部特征與高層次深度特征兩路分支;在處理中間數(shù)據(jù)時,輸入到每一個卷積模塊時的數(shù)據(jù)流D1和該數(shù)據(jù)流經(jīng)過一般結構層處理后的數(shù)據(jù)流D2進行合并,并且作為該卷積模塊的輸出,繼續(xù)輸入到下一卷積模塊;深度支路最初的輸入圖像經(jīng)過卷積層后的數(shù)據(jù)流Dint與經(jīng)過全部卷積模塊和批歸一化處理后的數(shù)據(jù)流Dall進行疊加,輸入到像素重整模塊。像素重整模塊,包括一個卷積層和一個像素重整層,其中卷積核大小為3×3,輸出特征圖個數(shù)為256,卷積步長為1,像素重整層使用比例系數(shù)C=0.01,對輸入數(shù)據(jù)流進行上采樣操作。訓練時,批處理的大小設為64,動量參數(shù)設為0.9,權重衰減設為0.000 1;采用可變學習率的學習策略,初始學習率設為0.01,當誤差停滯時,學習率衰減為之前的10%。α和β分別設置為1.12和0.05。
實驗選擇Tensorflow深度學習框架進行模型訓練,其硬件平臺采用Core i5 7600處理器:主頻為3.94 GHz,內(nèi)存為32 G,GPU GTX1080。本算法掛飛硬件平臺采用RK3399開發(fā)板。
由于紅外圖像很少有不同分辨率的基準數(shù)據(jù)庫。為了便于定性定量的分析算法的有效性,采用武漢高德紅外生產(chǎn)的制冷型銻化銦紅外探測器ZCM01A,其分辨率為1 280×1 024,像元尺寸是12 μm;工作波段 3.7~4.8 μm,其對應的低分辨紅外圖像是由高斯模糊采樣獲取。由于實際的紅外圖像沒有對應的高分辨的圖像用做定量分析,只能從對比度、邊緣區(qū)域的銳度、同質區(qū)域的平滑性等方面主觀定性的對比分析。因此,采用低成本非制冷探測器采集的低分辨紅外圖像(320×240)進行超分辨重建,從對比度、邊緣銳度、紋理特性等角度定量分析重建性能。
將文中方法與基于參數(shù)化稀疏表示的圖像超分辨算法(PSC)[10],基于卷積神經(jīng)網(wǎng)絡的超分辨算法(SRCNN)[4],基于亞像素深度網(wǎng)絡超分辨重建(ESPCN)[8]、基于生成對抗網(wǎng)絡的超分辨重建(GANSR)[11]和基于遞歸殘差超分辨(VDSR)[12]進行對比。峰值信噪比(PSNR)[13]和結構相似度(SSIM)[14]被用來定量評價超分辨結果的性能。表1列出了各種超分辨方法獲得的PSNR值和SSIM值。
表1 不同算法的重建效果定量值
從表1的數(shù)據(jù)可以看出:基于深度學習重建性能明顯優(yōu)于基于參數(shù)化稀疏表示的圖像超分辨算法,其中SRCNN的平均PSNR比PSC高0.5 dB, SSIM值高0.1?;趨?shù)化稀疏表示的圖像超分辨算法是目前傳統(tǒng)機器學習中最優(yōu)算法,其重建結果與深度學習算法仍有一點的差距。文中提出的方法與GANSR性能相當,大部分結果與SRCNN相差0.3 dB左右,一些結果甚至超過0.5 dB。在圖像2上所有算法的重建結果都不理想,主要是由于圖像2中圖像存在大量的熱浪,沒有明顯的紋理結構,深度學習的效果比較虛化,但從指標上看,文中算法的PSNR比GANSR的PSNR高0.28 dB, SSIM指標也要高0.132,充分說明提出的多層次深度耦合網(wǎng)絡具有一定的優(yōu)勢,適合復雜紅外背景下弱小區(qū)域超分辨重建。
圖4是圖像3與圖像4不同算法的重建效果。從實驗結果可以看出:所有算法的重建質量相比直接插值有一定的提升,對于強邊緣區(qū)域可以得到清晰的紋理邊緣結構。圖4(a)是利用一種混合參數(shù)模式,不僅從訓練數(shù)據(jù)中學習出非參數(shù)圖像,還要估計出先驗參數(shù),該方法對邊緣區(qū)域效果較好,但勻質區(qū)域容易出現(xiàn)偽影;SRCNN、ESPCN、GANSR、VDSR是深度學習超分辨領域比較有代表性的方法,從實驗結果可以看出,此類方法的效果較好。圖4(c)中,ESPCN引入了亞像素卷積層,將插值函數(shù)隱含地包含卷積層,直接在低分辨率圖像上計算卷積得到高分辨率圖像,該方法對部分勻質區(qū)域過于平滑,而缺少一些細節(jié)上的真實感。圖4(d)中,GANSR是基于對抗網(wǎng)絡的重建模式,理論上重建的高分辨率圖像與真實圖像無論是低層次的像素值上,還是高層次的抽象特征上都應當接近。該方法對自然圖像的效果較好,但對于紅外圖像,由于大部分紅外圖像缺乏明顯細節(jié),對比度較低,代價函數(shù)容易過擬合,其結果容易重建出一些虛假的紋理。
文中提出的網(wǎng)絡模型是對深度殘差網(wǎng)絡的改進,通過引入具有明顯像素特性低層次特征與高層次深度特征耦合,使得模型并不需要太深的結構就能實現(xiàn)較好的效果。從圖4(f)的效果可以看出,該方法獲得的放大區(qū)域比較清晰,紋理結構明顯。操作手只需要將波門拉到攻擊區(qū)域附近,通過子圖就能清晰的看到目標細節(jié),方便鎖定最佳攻擊位置。
圖4 不同算法的放大結果分析
文中提出的算法已經(jīng)移植到基于ARM平臺的嵌入式系統(tǒng)[15]中,采用非制冷紅外熱像儀進行視頻采集。操作手利用文中算法獲取變倍后的高分辨圖像鎖定目標,能夠清晰的看見弱小區(qū)域的邊緣、紋理信息,增強了目標中心鎖定的精度。對掛飛圖像進行對比分析,其結果如圖5所示,所有圖像都是3倍放大后的結果。可以看出:文中提出的方法通過跳躍式連接耦合不同層次的特征,能夠同時表征各種復雜的重構場景,生成具有豐富細節(jié)而清晰的高分辨紅外圖像。
圖5 不同算法對掛飛視頻定量分析
為了提升紅外導引頭或光電跟蹤系統(tǒng)電子變倍獲取的放大圖像的質量,增強邊緣、紋理等細節(jié)信息,便于操作手鎖定最佳攻擊點,對深度殘差網(wǎng)絡進行有效改進,通過多層跨連接將低層次特征和高層次特征聚合形成新的特征,能夠表征各種復雜的重構場景,并采用雙參數(shù)損失函數(shù)來優(yōu)化深度網(wǎng)絡,提高模型的泛化能力。實驗仿真與外場掛飛結果表明所提出的電子變倍方法能夠生成具有豐富細節(jié)而清晰的高分辨紅外圖像,增強了目標鎖定的精度。