牟卿志, 周 荃, 宋西寧, 孫春萍
(濰坊職業(yè)學院機電工程學院, 山東 濰坊 262737)
紅外成像制導具有目標識別能力強,全天候打擊,識別精度高等特點,已成為現(xiàn)代精確制導武器的重要組成部分[1-2]。 在對地面紅外成像制導武器的研制中,需要提供大量不同條件下的大范圍地面場景紅外圖像作為輸入進行測試。 然而,由于試驗次數(shù)限制或非合作目標等原因,外場實測很難得到大范圍的地面紅外場景[2]。 目前常采用采集大量不同位置實測圖片手動拼接后,再進行人工修正方式,耗費大量時間與人力物力成本。 若需要獲得不同高度/氣候條件下的大范圍的地面紅外場景,則該過程更加冗長復雜。
紅外成像仿真技術(shù)可為解決這類問題提供一種極為有效/經(jīng)濟的途徑,對現(xiàn)代精確制導武器的開發(fā)和研制來說具有重要意義[3-5]。 傳統(tǒng)紅外建模仿真方式依據(jù)純理論計算,需要大量時間和精力去完成高精度的建模與計算。 當建模精度不足情況下,仿真結(jié)果往往與實測數(shù)據(jù)相差較大。 本文不同于傳統(tǒng)紅外建模仿真方式,在特征遷移工作的啟發(fā)下,搭建VGG19[6]與SANet[7]網(wǎng)絡(luò)框架,探索采用基于衛(wèi)星實拍的大范圍可見光圖片與小范圍紅外實測數(shù)據(jù)結(jié)合的方式,結(jié)合可見光圖片紋理內(nèi)容信息與實拍紅外數(shù)據(jù)高置信度特征樣式,生成具有與實拍數(shù)據(jù)相近特征樣式的大范圍場景紅外仿真。 實驗結(jié)果分析表明,該方法生成的大范圍紅外場景與實測數(shù)據(jù)具有較高的一致性,且圖像生成方便快捷,在各類仿真試驗中具有一定的實用價值。
特征遷移[8-9]是一種用于通過給定的特征圖像,均勻地在內(nèi)容圖像上合成全局和局部特征信息,同時保持其原有圖像內(nèi)容結(jié)構(gòu)來創(chuàng)建新圖像的技術(shù)。 特征遷移工作示意如圖1 所示。
圖1 特征遷移工作示意Fig. 1 Example of style transfer
在特征遷移網(wǎng)絡(luò)發(fā)展初期,其一般用于藝術(shù)及生活方面的應(yīng)用,如畫作風格遷移、筆觸模仿等[10-11]。 隨著模型研究、數(shù)據(jù)集組建及測試工作的深入,在合理調(diào)節(jié)參數(shù)及設(shè)置訓練數(shù)據(jù)集的情況下,特征遷移網(wǎng)絡(luò)在保持內(nèi)容結(jié)構(gòu)而不丟失特征樣式豐富性的需求方面依舊呈現(xiàn)出優(yōu)異的表現(xiàn),從而逐步開始應(yīng)用于樣本擴增、數(shù)據(jù)增強等高價值任務(wù)領(lǐng)域,為空間探測、高空紅外成像等稀少樣本目標場景的數(shù)據(jù)擴增提供了新穎有效的方法[12-13]。
近期,一種新的特征關(guān)注網(wǎng)絡(luò)(SANet)和損失函數(shù)被提出。 對于指定特征樣式遷移,由SANet 和解碼器組成前饋網(wǎng)絡(luò),學習內(nèi)容與特征信息的相關(guān)性。 SANet 使用可學習的相似性內(nèi)核,將內(nèi)容特征圖進行特定表示,并訓練模型以恢復相同的結(jié)果。推理過程中,將輸入圖像之一替換為樣式圖像,并根據(jù)特征樣式盡可能還原內(nèi)容圖像。 本文基于文獻[9]的思路,在大范圍地面場景紅外圖像快速生成方面也取得了較好結(jié)果。
整體網(wǎng)絡(luò)架構(gòu)由VGG19 網(wǎng)絡(luò)模塊與SANet 網(wǎng)絡(luò)組成。 VGG19 網(wǎng)絡(luò)用作編碼器與解碼器模塊,編碼器模塊與SANet 網(wǎng)絡(luò)結(jié)合構(gòu)成前饋網(wǎng)絡(luò),來對圖像間的相關(guān)性進行學習,解碼器模塊用于對推理后的圖像進行恢復與生成,最后通過調(diào)試定義的損失函數(shù),對生成圖像進行評價訓練。 整體網(wǎng)絡(luò)工作流程如圖2 所示。
圖2 VGG-SANet 網(wǎng)絡(luò)工作流程Fig. 2 VGG-SANet network workflow
VGG 系列網(wǎng)絡(luò)由牛津大學Visual Geometry Group 團隊研發(fā)搭建,主要貢獻是證明增加網(wǎng)絡(luò)深度可以提升網(wǎng)絡(luò)精度與訓練效果。 VGG 網(wǎng)絡(luò)結(jié)構(gòu)相對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的改進是采用連續(xù)的若干個3x3的卷積核代替較大卷積核(11×11,7×7,5×5)。 對于給定的感受野(與輸出有關(guān)的輸入圖片的局部大?。?,采用堆積的小卷積核,優(yōu)于采用大的卷積核。因為多層非線性層可以增加網(wǎng)絡(luò)深度來保證學習更復雜的模式,而且代價更小。 在VGG 中,使用了3個3×3 卷積核來代替7×7 卷積核、2 個3×3 卷積核來代替5×5 卷積核,其主要目的是在保證具有相同感知野的條件下,提升網(wǎng)絡(luò)的深度,在一定程度上提升神經(jīng)網(wǎng)絡(luò)的效果。
常用VGG 架構(gòu)有16 層(VGG16) 與19 層(VGG19)兩種。 在VGG16 架構(gòu)中,包含有16 個隱藏層(13 個卷積層和3 個全連接層),在VGG19 架構(gòu)中,包含有19 個隱藏層(16 個卷積層和3 個全連接層),在部分層間采用池化層進行連接。 VGG 架構(gòu)的具體實現(xiàn)如圖3 所示。
圖3 VGG 網(wǎng)絡(luò)架構(gòu)(包含SANet)Fig. 3 VGG network architecture (includingSANet)
通過VGG 網(wǎng)絡(luò)進行卷積與池化等操作,其實是對輸入圖像不斷進行信息化編碼的過程。 該過程將原始圖像像素映射到特征圖譜集合,被多種網(wǎng)絡(luò)架構(gòu)用于學習有效的表示。 通常認為,在更高卷積層數(shù)生成的特征圖譜,反應(yīng)的信息越高維,概括性的描述能力越強,反之則對細節(jié)的描述能力更強。 在編碼過程中,這一特性被用來選擇特征圖譜,并輸入到其他網(wǎng)絡(luò)架構(gòu)(如SANet)網(wǎng)絡(luò)中進行信息處理。 在解碼過程中,網(wǎng)絡(luò)架構(gòu)的輸出又通過VGG 網(wǎng)絡(luò)的逆過程進行還原,完成最終的編碼與解碼過程。
在前向推理過程中,輸入一幅圖像后,SANet 網(wǎng)絡(luò)選用VGG 編碼器中的ReLU4_1 與ReLU5_1 的特征圖譜作為輸入,記圖像Ic與Is得到的特征圖譜為、、,其作為兩組輸入分別輸入到兩個SANet 網(wǎng)絡(luò)中,計算生成輸出與。 該兩組信息再次結(jié)合與進行計算處理,得到最終的生成特征圖譜Fmcsc,并通過VGG 解碼器還原得到輸出的合成圖像Ics。
在反饋訓練過程中,輸出的合成圖像Ics通過VGG 編碼器再次進行編碼,與Is圖像及先前提取的及進行計算,得到損失函數(shù)用以指導網(wǎng)絡(luò)的訓練。 VGG-SANet 網(wǎng)絡(luò)架構(gòu)如圖4 所示。
圖4 VGG-SANet 網(wǎng)絡(luò)架構(gòu)Fig. 4 VGG-SANet Network Architecture
如圖5 所示,單個SANet 網(wǎng)絡(luò)的輸入為兩幅圖像在VGG 某一層的特征圖譜Fc與Fs,將處理后的及Fs分別進行運算后得到和。 則有WhFs,而Wf、Wg、Wh是可通過學習更新的權(quán)重矩陣。 最終得到:
圖5 SANet 網(wǎng)絡(luò)實現(xiàn)Fig. 5 SANet Network
其中,i為輸出位置的索引,j為所有可能輸出位置的枚舉索引。
在通過單個SANet 網(wǎng)絡(luò)得到輸出的Fcs后,與VGG 指定層特征圖譜Fc進行運算,得到與,再對進行上采樣并聯(lián)合卷積后,得到預期輸出的。
網(wǎng)絡(luò)構(gòu)建后,需要通過損失評價函數(shù),對每次網(wǎng)絡(luò)輸出的結(jié)果進行評價,并以此更新網(wǎng)絡(luò)中各矩陣的權(quán)值直到收斂,以實現(xiàn)網(wǎng)絡(luò)最佳性能。 反饋訓練網(wǎng)絡(luò)示意如圖6 所示。
圖6 反饋訓練網(wǎng)絡(luò)Fig. 6 Feedback training network
在反饋訓練網(wǎng)絡(luò)中,函數(shù)Ls通過輸入圖像Is與Ics進行VGG 編碼與特征圖譜計算實現(xiàn),函數(shù)Lc通過計算VGG 編碼得到的及推理網(wǎng)絡(luò)中的、來實現(xiàn)。 最后通過Ls與Lc,設(shè)定附加項Lid,共同得到總的損失評價函數(shù)L。 其計算公式為:
最后可得:
其中,Icc(或Iss)表示從兩個相同內(nèi)容(或樣式)圖像合成的輸出圖像,每個?i表示編碼器中的各層編碼函數(shù);λid1和λid2是損失評價函數(shù)Iid的調(diào)節(jié)權(quán)重;λc與λs為總損失評價函數(shù)L的調(diào)節(jié)權(quán)重。
在實際調(diào)整訓練參數(shù)的過程中,通過對數(shù)據(jù)集的測試發(fā)現(xiàn),保持Lc、Ls、Lid三者的數(shù)量級在同一水平,且令Lc、Ls起主導作用,訓練收斂精度較高,測試集會取得較好的結(jié)果表現(xiàn)。 在本文實驗中,權(quán)重參數(shù)設(shè)置為λc=1.5,λs=3,λid1=1,λid2=40。
通過式(5)~式(8)并引入數(shù)據(jù)集訓練,最終實現(xiàn)網(wǎng)絡(luò)的生成。
在本文實驗中,為保證可見光-紅外圖集的特征能夠準確對應(yīng),采用已有數(shù)據(jù)集OCTBVS[14]作為可見光-紅外配對圖集,提供訓練內(nèi)容。 在測試實驗中,選取實拍紅外圖像區(qū)域部分及可見光整體部分作為網(wǎng)絡(luò)輸入,從而生成特征遷移后大范圍紅外仿真圖像。 此外,還將大范圍可見光圖像進行灰度轉(zhuǎn)化調(diào)節(jié)作為對比組(此時手動調(diào)整至灰度與真實紅外圖像一致,對其他指標進行觀察),進而驗證方法的有效性。
實驗結(jié)果如圖7~圖10 所示:
圖7 實拍可見光圖像Fig. 7 Real visual image
由此可見,實拍可見光圖像與實拍紅外圖像(圖7、圖8)整體結(jié)構(gòu)雖大體一致,但在紋理、邊緣亮暗分布等細節(jié)方面明顯表達有不同特征;可見光轉(zhuǎn)灰度圖像(圖9)除灰度與實拍紅外圖像(圖8)人工調(diào)節(jié)一致外,其在結(jié)構(gòu)、亮暗邊緣等方面上依然存在較大差異;而特征遷移生成圖像(圖10)通過結(jié)合真實小范圍紅外圖像所提供的信息,在細節(jié)層面與實拍紅外圖像高度一致,在整體灰度層面也有較好的表現(xiàn)。
圖8 實拍紅外圖像Fig. 8 Real infrared image
圖9 可見光轉(zhuǎn)灰度模擬紅外圖像Fig. 9 Simulated image generated by visible light to gray scale
圖10 特征遷移生成模擬紅外圖像Fig. 10 Simulated image generated by style transfer
在圖像指標對比分析中,選取平均灰度、平均梯度、信息熵H(U)、梯度相似度GSIM 作為指標,用作圖像相似度的對比指標參考。 其中,、、H(U) 三者作為單幅圖像的通用數(shù)據(jù)指標,已有非常成熟的定義:
(1)平均灰度:
其中,圖像中單個像素點灰度記為f(i,j)。
(2)平均梯度:
其中,梯度采用Sobel 算子計算,記為G(i,j)。
(3)信息熵:
其中,信息熵記為H(U),n階灰度中各階取值的概率分別為p1,p2,…,pi,…,pn。
對于兩幅圖像對比用的梯度相似度GSIM指標,則定義采用像素4 鄰域絕對值之和,表征圖像梯度幅度值。 設(shè)原始圖像為x,像素坐標為(i,j),則在坐標(i,j) 上的梯度表達式記為Gx(i,j),則有:
式中:Gx(i,j)、Gy(i,j) 分別為圖像x和圖像y在(i,j) 處的梯度幅度值,梯度相似度的值越大,說明兩幅圖像的相似程度越高。
表1 為對紅外真值圖像(圖8)、可見光轉(zhuǎn)灰度圖像(圖9)、特征遷移生成圖像(圖10)按3.3 節(jié)所規(guī)定指標進行的量化分析。 通過對比,驗證本方法對于地面場景紅外圖像進行仿真生成的準確性與可行性。 分析表1 指標數(shù)據(jù)可知,除因?qū)Ρ刃枰M行人工調(diào)節(jié)灰度指標外,特征遷移生成圖像的各項圖像數(shù)據(jù)指標與實拍紅外圖像均有較高的一致性(差異<15%),證明存在小范圍真實紅外圖像前提下,本文方法可在大范圍可見光地面場景中,規(guī)律性的生成相關(guān)紋理、細節(jié),快速構(gòu)建與實際效果相近的大范圍紅外仿真地面場景,從而在相關(guān)仿真實驗尤其是半實物仿真實驗過程中,可有效提高效率、節(jié)約成本。
表1 指標分析結(jié)果(歸一化)Tab. 1 Index analysis results (By normalized)
快速準確的構(gòu)建生成大范圍地面場景的紅外圖像是目前紅外成像領(lǐng)域的研究熱點。 本文通過構(gòu)建基于VGG-SANet 的深度學習網(wǎng)絡(luò),在小范圍紅外實測圖像的特征信息與大范圍衛(wèi)星可見光圖像的內(nèi)容結(jié)構(gòu)間實現(xiàn)了遷移,從而實現(xiàn)了大范圍地面場景紅外圖像的快速生成。 實驗結(jié)果表明,所生成圖像評價指標方面接近于實測紅外圖像,具有較高的置信度,在現(xiàn)有的仿真實驗中具有一定實際意義。 但如何對輸入圖像進行更有效的預處理及對生成圖像進行更為準確的二次標校,仍需做為進一步研究的方向。