紀 沖,王 琛
(內蒙古農業(yè)大學計算機與信息工程學院,內蒙古 呼和浩特 010018)
圖像序列是指在不同時間、不同方位對目標依序連續(xù)獲取的系列圖像,是一種多模態(tài)圖像。一般情況下,在復雜的圖像序列背景中,弱小目標只會呈現(xiàn)出一個或幾個像素大小,并且容易受強波干擾,信噪比較低[1],因此有效且準確的對其進行識別逐漸發(fā)展成熱門研究內容,隨著人們對不同識別方法的深入探究,多模態(tài)深度學習以其在圖像分類和識別方面的優(yōu)異效果成為了被廣泛應用的技術手段。深度學習的理論概念起源于對神經網絡的研究,其學習結構分為多隱層和多層感知器兩部分,是機器學習中的一個新領域,其主要運行動機在于對人腦進行模擬并且對神經網絡進行分析學習,然后通過模擬人腦機制對數(shù)據解釋。
當前已有學者對圖像序列弱小目標識別做出了研究。文獻[2]提出基于小波分解的離焦模糊圖像序列微弱運動目標自動檢測方法,采用小波分解法分解圖像,計算小波系數(shù)局部方差,縮減小波系數(shù),濾除圖像噪聲,根據動態(tài)聚類完成目標檢測。該方法,檢測效率較好但對相似物體的檢測精度較低,文獻[3]提出基于時空非局部相似性的紅外圖像弱小目標檢測方法,根據紅外圖像序列及每幀局部背景圖像的相似特性,采用時空域圖像塊模型求解圖像目標,完成圖像序列弱小目標識別。該方法的檢測精度較好,但對相似物體的檢測精度較差。
針對上述方法存在的問題,提出基于多模態(tài)深度學習的弱小目標識別方法。利用弱小目標與背景灰度相關性之間的差對單幀圖像進行背景抑制,去除圖像冗雜信息,通過圖像目標分割處理濾除高頻噪聲。使用加入稀疏性約束的自編碼器不斷調節(jié)其自身參數(shù),壓縮輸入信息,并且提取出有用的輸入特征,訓練出最優(yōu)向量,最后使用優(yōu)化后的CNN深度學習模型完成弱小目標識別,在識別的過程中加入了連續(xù)幀和非連續(xù)幀的特征對識別進行了優(yōu)化。
圖像序列中,弱小目標為點狀,SNR較低,若直接識別較為困難,因此對弱小目標識別前需要對圖像進行背景抑制,分離弱小目標和高頻噪聲,構建高頻噪聲和弱小目標的概率密度函數(shù),獲取弱小目標,實現(xiàn)目標分割,據此實現(xiàn)圖像預處理。
通常情況下,圖像背景變化較為平緩,且背景像素之間的灰度是相互聯(lián)系的,而弱小目標和背景的相關性相對較差,與背景中的高頻分量相對應。若用弱小目標區(qū)域的像素點灰度值來預測弱小目標的灰度值,則預測結果會與該點實際的灰度值存在較大差異,由此即可實現(xiàn)目標像素點與背景像素點的抑制和區(qū)分。
背景抑制模型如下
m=0,1,…,M-1,n=0,1,…,N-1
(1)
式(1)中,f表示輸入圖像;y代表預測圖像;wj表示y的權重矩陣;sj表示背景像素點集合,背景像素點與權重矩陣的權值取決于圖像背景的復雜程度。在式(1)的基礎上可得預測和輸入圖像間的差圖像,可以表示為
e(m,n)=f(m,n)-y(m,n)
(2)
式(2)中,y(m,n)表示在(m,n)像素點上的背景灰度;e表示差圖像,當像素點(m,n)與sj的像素點處于同一背景時,e(m,n)≈0,則起到了背景抑制的效果。
原圖像經過背景抑制后,會得到弱小目標和高頻噪聲,弱小目標可近似看作為均勻分布,而圖像中的高頻噪聲一般可視為高斯分布,則高頻噪聲和弱小目標的概率密度函數(shù)[4]分別可表示為
(3)
式(3)中,z表示圖像序列上某一點的觀測值,m1、m2分別代表背景噪聲[5]和弱小目標,k代表z的分布范圍。當P(z|m1)和P(z|m2)分別小于λ時,該像素點表示弱小目標;當P(z|m1)和P(z|m2)分別大于λ時,則該像素點表示背景噪聲,其中λ表示決策權限。
當z2>-2σ2[In(2πσλ)-Ink]時,即可將該像素點判定為目標點并且加以標記,同時將其余像素點的灰質度置零。據此實現(xiàn)高頻噪聲和弱小目標分析,獲取弱小目標。
圖像序列是一種多模態(tài)數(shù)據[6],是指在不同的時間、方位對目標依序連續(xù)獲取的序列圖像。本文將稀疏自編碼和CNN深度學習模型相結合,通過時間相關性對似然函數(shù)完成弱小目標識別。
稀疏自編碼器[7]指的是在自編碼器的基礎上加入稀疏性約束,少量激活隱藏層的神經元,其結構圖如圖1所示。
圖1 稀疏自編碼器結構
若x∈Rd×1為無類別輸入向量,通過非線性激活函數(shù)映射后,獲得隱藏層y∈RN×1如下
y=fθ(Wx+b)
(4)
式(4)中,W表示權值矩陣,b表示偏置向量。fθ(x)=1/(1+e-x)代表Sigmoid函數(shù)。y由式(5)再次進行映射,構造出向量z∈Rd×1
(5)
當激活函數(shù)為線性函數(shù),且隱藏層神經元數(shù)量要少于輸入層時,則可以學到與主成分分析類似的低維表示結果。當隱藏層中包含較大數(shù)量的神經元[9]時,通過加入稀疏性約束規(guī)則,從而獲得輸入數(shù)據中所包含的隱藏信息和其詳細的內在結構。
(6)
(7)
由此實現(xiàn)了稀疏性限制[10],通過加入懲罰因子,總體代價函數(shù)也發(fā)生了改變,其具體表達式為
(8)
式(5)中,W代表權值矩陣,b代表偏置向量,β為一個常數(shù),J(W,b)表示代價函數(shù)。在神經網絡訓練的過程中,將權值矩陣和偏置向量進行調整,達到式(8)的極小值。
遞歸神經網絡是指數(shù)據在輸出到輸入的過程中,會產生反饋連接的一種神經網絡,能夠降低維度,同時也能夠對圖像抽象特征進行有效的學習,一般可以將其視為卷積與池化的結合。
本文采用樹形網絡結構合并每一層的向量塊。若遞歸神經網絡輸入矩陣x∈RK×r×r,則其目標是將X合并然后轉化成向量y∈RK,其過程如下:
圖2 遞歸神經網絡
一般情況下,如果合并塊的大小是K×b×b,那么每個合并塊中存在b2個向量,通過式(9)即可獲得向量為
p=f(W×[X1,…Xb2]T)
(9)
式(9)中,Xi表示向量塊,W∈RK×b2×K,f代表非線性函數(shù)。利用式(9)將相同權重向量塊進行合并,獲得向量矩陣。
CNN是一種多層感知機的變種模型[11],是現(xiàn)階段快速發(fā)展并被廣泛應用的一種性能較高的識別方法,從生物學理論逐漸演化而成的。
CNN中包含了特征提取層和映射層兩種內部結構。特征提取的主要目的是將神經元的輸入信息與前一層接收域之間建立連接,并且對該部分特征進行提取,當特征提取完成后,局部特征與其它特征的位置關系也會被確定;特征映射層主要目的是生成計算層,每個特征映射層均可視為平面,并且平面上的神經元權重相等。
特征映射是將sigmoid函數(shù)[12]作為激活函數(shù),使其具有位移不變性。利用卷積神經網絡中的各個卷積層和計算層之間的關系,計算出局部平均值,并且進行二次提取。該特征提取結構能夠有效降低特征的分辨率。
(10)
子抽樣層Sl在每個出入位面上使用Kl×Kl平滑濾波
(11)
CNN中每個卷積層在運算過程中均會使用到非線性函數(shù)tanh(·),并且會采用全連接層對標簽向量進行識別,本文引入“softmax”層對這些向量進行解釋,其計算公式如下
(12)
通過最小化似然函數(shù)L(θ)為目標對CNN網絡中的每個參數(shù)θ進行優(yōu)化,其數(shù)學表達式如下
(13)
進行優(yōu)化處理后,采用隨機梯度下降算法對參數(shù)θ進行訓練,計算出隨機樣本(x,y)的梯度?L(θ)/?θ后,接著對其進行更新,如下式
(14)
為了使θ能夠得到更好的訓練,以達到更準確的識別率,使用時間相關性對似然函數(shù)進一步進行優(yōu)化。
(15)
式(15)中,δ表示邊緣尺寸。
在弱小目標識別的過程中,本文方法利用了圖像連續(xù)幀、非連續(xù)幀的固定特征對識別方法進行了優(yōu)化,從而保證了識別結果的高準確率。
為驗證所提方法的有效性,設計仿真。采用MATLAB仿真軟件作為實驗測試平臺,以Imagenet 小尺寸圖像數(shù)據集(http:∥image-net.org/small/download.php)為實驗對象,從中選取1.0Gb大小的圖像作為樣本訓練圖像。
采用多模態(tài)深度學習識別算法及文獻[2]、文獻[3]算法對樣本圖像弱小目標識別,為確定隱藏層神經元個數(shù)K1和遞歸神經網格數(shù)目K2對識別結果的影響,對樣本圖像進行實驗測試來獲取二者的合理取值。首先選取圖像樣本通過稀疏自編碼器對輸入數(shù)據進行訓練,在訓練獲得數(shù)據的基礎上,對圖像序列進行卷積特征提取,最后以現(xiàn)有的結構和樣本圖像為基礎,確定K1、K2的取值。
將K1和K2從增量8變化至80,二者對不同特征圖像識別的準確率的影響分別如圖3所示:
圖3 遞歸神經網絡和隱藏神經元個數(shù)對準確率的影響
從圖3中可以看出,隨著K1、K2的增加,所提算法的圖像特征識別的準確率越來越高,當K1、K2的個數(shù)為64時,其識別準確率達到最優(yōu)。因此在采用所提方法進行圖像序列弱小目標識別時,設置K1、K2個為64,能夠得到最準確的目標識別率;而文獻對比方法的目標識別準確率始終低于所提算法,且圖像特征識別的準確率波動較大。
為進一步驗證本文方法的有效性,將其與文獻[2]方法、文獻[3]方法進行對比。將圖像樣本平均分為6組,并且分為訓練集和測試集,將訓練集和測試集分為以下3種情況:
1)1個訓練集和5個測試集。
2)2個訓練集和4個測試集。
3)5個訓練集和1個測試集。
采用不同識別算法分別對這三種情況進行識別,其識別率如表1所示。
表1 不同算法識別率比較
從表1可以看出,本文方法在只有1組訓練集時識別率為92.5%,當訓練集增加到5時,識別率達到最大,為99.21%,誤差僅為0.79%。各弱小目標識別方法的識別準確性隨著訓練集的規(guī)模增大而得到顯著的提高,但是與另外兩種識別方法相比,本文方法能夠不依賴大量對象進行識別訓練,始終保持較高的識別率。
針對現(xiàn)有弱小目標識別對相似物體識別精度較低等問題,提出基于多模態(tài)深度學習的圖像序列弱小目標識別。在圖像預處理及稀疏自編碼的基礎上,使用優(yōu)化后的CNN深度學習模型完成弱小目標識別。在實驗中,與傳統(tǒng)目標識別方法相比,本文方法能夠在不依賴大量識別訓練的前提下保持較高的弱小目標識別率,充分證明本文方法的有效性和準確性。