亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        注意力卷積長短時記憶網(wǎng)絡(luò)的弱小目標(biāo)軌跡檢測

        2020-12-23 09:12:24楊其利周炳紅李明濤
        光學(xué)精密工程 2020年11期
        關(guān)鍵詞:短時記憶紅外注意力

        楊其利,周炳紅,鄭 偉,李明濤

        (1.中國科學(xué)院 國家空間科學(xué)中心,北京 100190;2.中國科學(xué)院大學(xué) 工程科學(xué)學(xué)院,北京 100049)

        1 引 言

        紅外弱小目標(biāo)的軌跡檢測是紅外導(dǎo)引的一項關(guān)鍵技術(shù)?;诩t外序列圖像的弱小目標(biāo)運動軌跡提取技術(shù)是對成像傳感器采集的圖像序列進(jìn)行特征提取,并根據(jù)這些特征對圖像序列中的小目標(biāo)進(jìn)行關(guān)聯(lián)、匹配,得到運動目標(biāo)的運動軌跡。近地天體大多距離地球遙遠(yuǎn),尺寸小且亮度低,難以被有效探測到,其信息采集主要依靠望遠(yuǎn)鏡(可見光和紅外)和雷達(dá)等天文觀測設(shè)備,目前紅外探測技術(shù)已被引入到近地天體預(yù)警和監(jiān)測任務(wù)中。紅外場景的目標(biāo)檢測和提取可以全天時工作,在小天體探測、導(dǎo)彈制導(dǎo)及戰(zhàn)場偵察等航空航天領(lǐng)域具有重要的地位。

        傳統(tǒng)有效的方法是在多幀圖像序列中首先估計目標(biāo)的運動軌跡,沿軌跡進(jìn)行目標(biāo)能量積累,然后對積累后的圖像進(jìn)行檢測判決。由于目標(biāo)能量在連續(xù)幀圖像之間是相關(guān)的,而噪聲在連續(xù)幀之間是不相關(guān)的,因而沿目標(biāo)軌跡的能量積累將遠(yuǎn)遠(yuǎn)大于非目標(biāo)軌跡上的能量積累,在積累后的圖像上進(jìn)行判決將有較高的信噪比,得到較好的檢測性能。這種先估計軌跡后檢測目標(biāo)的方法亦被稱作檢測前跟蹤(Track Before Detect, TBD)[1]技術(shù)。

        Blostein等[2]的多階假設(shè)檢驗方法可以同時檢測多個線性運動目標(biāo),它將多個目標(biāo)的軌跡組織成一棵樹的形式,然后利用假設(shè)檢驗方法對樹的每一層進(jìn)行修剪,能夠有效地檢測單個目標(biāo)的軌跡。這種算法的效率和直接軌跡匹配的算法相比,有數(shù)量級的顯著提高,但是需要在目標(biāo)范圍內(nèi)將目標(biāo)限制為均勻的直線運動,因此該方法的應(yīng)用受到限制。Liou等[3]提出了一種高階相關(guān)方法,該方法可以在目標(biāo)數(shù)量、初始條件等未知的情況下,從有噪聲的三維圖像中檢測出直線或曲線軌跡,適用于不同雜波密度下的多目標(biāo)檢測,但是它將灰度圖像轉(zhuǎn)化為二值圖像,轉(zhuǎn)化時若閾值選擇得較高則漏檢率高,導(dǎo)致航跡檢測失敗;相反,運算量較大。Barniv等[4]提出的動態(tài)規(guī)劃方法,利用了分段優(yōu)化的思想,將目標(biāo)軌跡搜索問題分解為分級優(yōu)化的問題,這種方法不僅可以檢測勻速運動的目標(biāo),而且也可以用于檢測機(jī)動運動的目標(biāo)。然而,隨著目標(biāo)信噪比的降低,基于動態(tài)規(guī)劃方法的性能下降非常明顯,且該方法空間復(fù)雜度較高算法實時性較差。Reed等[5]提出了三維匹配濾波方法,將弱小目標(biāo)檢測問題轉(zhuǎn)化為三維空間上速度匹配的問題,并且通過理論推導(dǎo)獲得了頻域上最優(yōu)三維匹配濾波方程,但是三維匹配濾波器需要事先知道目標(biāo)的灰度分布函數(shù)以及目標(biāo)運動速度,在實際應(yīng)用中,這些參數(shù)很難事先得到。

        深度學(xué)習(xí)方法在視覺目標(biāo)跟蹤領(lǐng)域的巨大成功,為移植或搭建適用于紅外目標(biāo)跟蹤的深度學(xué)習(xí)模型提供了可能。對于時空序列問題,近年來火熱的基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的AlexNet[6],VGG[7],GoogleNet[8]等算法都無法解決。主要原因是以上3種算法代表的卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點是對結(jié)構(gòu)表征能力很強(qiáng),缺點是局限于靜態(tài)圖,無法建模動態(tài)圖的時空序列問題。遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[9]很重要的一個用途是處理和預(yù)測序列數(shù)據(jù),可能在紅外場景下有所作為。對于缺乏形狀和紋理特征的紅外目標(biāo),可以嘗試?yán)眉t外目標(biāo)時間維度上的信息。長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[10]是遞歸神經(jīng)網(wǎng)絡(luò)的一種變體,它解決了網(wǎng)絡(luò)訓(xùn)練過程中梯度爆炸和消失的問題。Shi等[11]在結(jié)合了LSTM的序列處理能力和CNN的空間特征表達(dá)能力后,提出了能夠解決時空序列預(yù)測問題的卷積LSTM模型(Convolutional Long Short-Term Memory, ConvLSTM),這種結(jié)構(gòu)被用于處理降水臨近預(yù)報的序列圖像,特別適合于時空數(shù)據(jù)。張等[12]提出將ConvLSTM與3D卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,用于手勢識別任務(wù),考慮到手勢主要包含手的局部信息和手臂的全局運動信息,他使用3D卷積神經(jīng)網(wǎng)絡(luò)用于學(xué)習(xí)局部的短期時空特征,使用ConvLSTM學(xué)習(xí)長期時空特征,這種短期和長期時空特征相結(jié)合的學(xué)習(xí)方法在任務(wù)中取得了最佳的精度。人類的視覺注意力機(jī)制能夠幫助人眼在復(fù)雜的環(huán)境中快速定位至最感興趣的目標(biāo)。謝等[13]提出一種基于注意力的網(wǎng)絡(luò)結(jié)構(gòu),用于檢測圖像的顯著區(qū)域,突出了圖像前景區(qū)域像素并抑制背景區(qū)域信息,實現(xiàn)了減少背景干擾的目的。

        序列圖像目標(biāo)軌跡提取,本質(zhì)上就是同時提取序列圖像中目標(biāo)的時間維運動信息和空間維特征信息的過程。因此,受上述研究者的啟發(fā),本文針對連續(xù)15幀紅外圖像序列,提出一種將ConvLSTM,3D卷積核以及注意力機(jī)制結(jié)合在一起的網(wǎng)絡(luò)架構(gòu),充分利用紅外序列的時間維信息和空間維信息,實現(xiàn)紅外圖像序列弱小目標(biāo)運動軌跡的檢測,其中3D卷積核用于提取短期時空信息,ConvLSTM用于提取序列的長期時空信息,注意力機(jī)制用于篩選與弱小目標(biāo)運動軌跡相關(guān)的關(guān)鍵信息,同時忽略絕大部分不重要的背景信息。

        2 注意力機(jī)制卷積長短時記憶網(wǎng)絡(luò)

        2.1 長短時記憶神經(jīng)網(wǎng)絡(luò)

        長短時記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)形式,解決了原始遞歸網(wǎng)絡(luò)對于長時期依賴問題,即通過之前提到但是時間上較為久遠(yuǎn)的內(nèi)容進(jìn)行后續(xù)的推理和判斷。LSTM的基本思路是引入門控單元,來處理記憶單元的記憶、遺忘、輸入、輸出程度的問題,如圖1(a)所示,其基本單元被稱為記憶塊,由1個中心節(jié)點和3個門控單元組成。中心節(jié)點通常被稱為記憶細(xì)胞,用以存儲當(dāng)前網(wǎng)絡(luò)狀態(tài),3個門控單元分別被稱為輸入門、輸出門和遺忘門,用以控制記憶塊內(nèi)信息流動。在前向傳播過程中,輸入門用以控制輸入到記憶細(xì)胞的信息流,輸出門用以控制記憶細(xì)胞到網(wǎng)絡(luò)其他結(jié)構(gòu)單元的信息流。在反向傳播過程中,輸入門用以控制迭代誤差流出記憶細(xì)胞,輸出門用以控制迭代誤差流入記憶細(xì)胞。而遺忘門則用以控制記憶細(xì)胞內(nèi)部的循環(huán)狀態(tài),決定信息的取舍或遺忘。通過這種門控機(jī)制,LSTM網(wǎng)絡(luò)得以控制單元內(nèi)信息流動,使其具備保存長時間信息的能力,即‘記憶’能力,在訓(xùn)練過程中能夠防止內(nèi)部梯度受外部干擾,避免了梯度彌散和梯度爆炸問題。設(shè)單個LSTM記憶塊的輸入向量為Xt,前向傳播公式可表述如下。

        圖1 (a)長短時記憶網(wǎng)絡(luò),(b)卷積長短時記憶網(wǎng)絡(luò)

        長期記憶單元Ct更新過程:

        it=σ(WxiXt+WhiHt-1+bi),

        (1)

        ft=σ(WxfXt+WhfHt-1+bf),

        (2)

        (3)

        (4)

        短期記憶單元Ht更新過程:

        ot=σ(WxoXt+WhoHt-1+bo),

        (5)

        Ht=ot°tanhCt,

        (6)

        其中ot表示輸出門,控制著短期記憶如何受長期記憶影響。

        單個LSTM記憶快的輸出Ct,Ht循環(huán)作為記憶快的輸入輸出,即第t-1時刻記憶快輸出Ct-1,Ht-1為t時刻LSTM記憶快的輸入值,此為層內(nèi)循環(huán)。層內(nèi)各時刻LSTM記憶快共用相同權(quán)重參數(shù)W~和偏置系數(shù)b~,因此,單層LSTM網(wǎng)絡(luò)可以看作單個LSTM記憶快輸入輸出值的循環(huán)計算。此外,短期記憶Ht還作為下一個LSTM記憶快的輸入?yún)⑴c到該層循環(huán)計算中,此為層間計算。

        2.2 卷積長短時記憶網(wǎng)絡(luò)

        Shi等[11]針對雷達(dá)回波序列圖像,提出了卷積長短時記憶網(wǎng)絡(luò)(Convolutional Long Short Term Memory Networks, ConvLSTM),解決了臨近降水預(yù)測問題。此后,ConvLSTM已被應(yīng)用于動作識別[14]、手勢識別[12]和其他領(lǐng)域[15],這些數(shù)據(jù)都有很強(qiáng)的時空相關(guān)特性。

        如圖1(b)所示,ConvLSTM單元與LSTM單元具有同樣的3個門控制單元和1個中心節(jié)點,分別是:輸入門、遺忘門、輸出門和記憶細(xì)胞。最大的不同是在當(dāng)前時刻的輸入與短期記憶結(jié)合后進(jìn)行了單層卷積計算,這個不同點是提取空間結(jié)構(gòu)信息的關(guān)鍵。ConvLSTM可以描述為:

        it=σ(Wxi*Xt+Whi*Ht-1+bi),

        (7)

        ft=σ(Wxf*Xt+Whf*Ht-1+bf),

        (8)

        ot=σ(Wxo*Xt+Who*Ht-1+bo),

        (9)

        (10)

        (11)

        Ht=ot°tanhCt,

        (12)

        ParamConvLSTM=K×K×(Cin+Cout)×Cout×4.

        (13)

        在繼承全連接LSTM算法強(qiáng)大的時間相關(guān)性處理能力的基礎(chǔ)上,通過增加一層卷積結(jié)構(gòu)解決了原算法的空間數(shù)據(jù)冗余的問題,實現(xiàn)了空間結(jié)構(gòu)的表征能力。

        2.3 3D卷積神經(jīng)網(wǎng)絡(luò)

        3D卷積神經(jīng)網(wǎng)絡(luò)在2D卷積神經(jīng)網(wǎng)絡(luò)[19]的基礎(chǔ)上改變而來,主要運用在視頻分類[16]、動作識別[17]、醫(yī)療診斷[18]等領(lǐng)域。3D卷積是通過堆疊多個連續(xù)幀組成一個立方體,然后在立方體中運用3D卷積核。通過這種結(jié)構(gòu),卷積層中的特征圖都會與上一層中的多個相鄰幀相連,從而捕獲運動信息。如圖2所示,一個特征圖某個位置的值是通過卷積上一層的連續(xù)三組特征圖的同一位置的局部感受野得到的。通過對連續(xù)的三組特征圖進(jìn)行卷積處理,得到一組3D的特征圖。

        圖2 相同的3D卷積核應(yīng)用于輸入視頻中的重疊立方體以提取運動特征[17]

        在構(gòu)造3D卷積層時,首先建立一組小的3D卷積特征提取器,掃描輸入來獲取更高層次的特征表示。使用不同的卷積核與輸入特征做卷積操作來生成新的特征體。3D卷積操作的函數(shù)表示為:

        (14)

        2.4 采用注意力機(jī)制的卷積長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)

        2.4.1 基于注意力機(jī)制的ConvLSTM

        為了研究不同的門控單元與注意力機(jī)制組合后的特性,本文使用了兩種卷積長短時記憶單元的變體,由于結(jié)構(gòu)中引入了注意力機(jī)制[20],考慮到結(jié)構(gòu)的計算量會有所增加,且并不是所有門控單元都需要卷積操作,因此,兩種變體的結(jié)構(gòu)中將部分門控單元改為全連接操作。

        第一種變體,如圖3(a)所示,在ConvLSTM的基礎(chǔ)上,將ConvLSTM的遺忘門、輸出門的卷積操作改為全連接操作,由于輸入Xt和上一時刻的短期記憶Ht-1為二維張量特征映射,需要通過全局最大池化的方式將其變?yōu)橐痪S向量,并且在輸入門it中增加了注意力機(jī)制。并將這種結(jié)構(gòu)稱為基于輸入門注意力機(jī)制的卷積長短時記憶單元(Convolutional Long Short Term Memory based on Attention Mechanism of Input Gate, AIConvLSTM)。Sigmoid激活函數(shù)使門值處在0~1范圍內(nèi)。輸入門和其他門控單元可以重新定義為:

        (15)

        (16)

        Zt=Wi*tanh(Wxi*Xt+Whi*Ht-1+bi),

        (17)

        (18)

        (19)

        (20)

        (21)

        (22)

        (23)

        Ht=ot°tanhCt,

        (24)

        圖3 (a)輸入門注意機(jī)制的卷積長短時記憶單元,(b)輸出門注意機(jī)制的卷積長短時記憶單元

        第二種變體,如圖3(b)所示,也是在ConvLSTM的基礎(chǔ)上,將輸入門、遺忘門的卷積操作改為全連接操作,但是注意力機(jī)制位于輸出門的位置。將這種結(jié)構(gòu)稱為基于輸出門注意力機(jī)制的卷積長短時記憶單元(Convolutional Long Short Term Memory based on Attention Mechanism of Output Gate, AOConvLSTM)。輸出門和其他門控單元可以重新定義為:

        (25)

        (26)

        (27)

        (28)

        Zt=Wo*tanh(Wxo*Xt+Who*Ht-1+bo),

        (29)

        (30)

        (31)

        (32)

        (33)

        Ht=ot°tanhCt,

        (34)

        2.4.2 模型設(shè)計

        本文的網(wǎng)絡(luò)結(jié)構(gòu)引入了3D卷積核和帶有注意力機(jī)制的卷積長短時記憶單元。3D卷積核用于提取輸入圖像序列的時間和空間特征,而帶有注意力機(jī)制的卷積長短時記憶單元用于進(jìn)一步學(xué)習(xí)時空特征的關(guān)聯(lián)信息,并且過濾掉與任務(wù)無關(guān)的信息。如圖4所示,模型包含10個可調(diào)參數(shù)層,輸入層接收連續(xù)15幀尺寸為48×48的圖像序列。為了研究不同變體的卷積長短時記憶單元的特性,本文將該模型作為主體架構(gòu)。

        第一階段,特征提取層,利用不同的3D卷積核對原始輸入的15幀連續(xù)圖像序列分別進(jìn)行卷積操作,初步提取多幀圖像關(guān)于弱小目標(biāo)運動軌跡的特征。3D卷積核的時間維為3,空間維為3×3,卷積核數(shù)為64,跨距和零填充都為1×1×1,后接ReLU激活函數(shù)和批標(biāo)準(zhǔn)化層。

        第二階段,雙支路3D卷積融合模塊,該模塊包含兩個3D卷積支路,共3個3D卷積層,每個卷積層后跟ReLU激活函數(shù)和批標(biāo)準(zhǔn)化層,兩個支路通過“串聯(lián)”操作進(jìn)行信息融合。其中一個支路包含一個3D卷積層和批標(biāo)準(zhǔn)化層,另一個支路包含兩個串聯(lián)的3D卷積層和批標(biāo)準(zhǔn)化層。這一階段的主要目的是通過兩個分支網(wǎng)絡(luò)對第一個3D卷積層得到的特征信息進(jìn)行提取和抽象,并通過“串聯(lián)”操作融合不同抽象程度的時空特征。該階段所有3D卷積核都采用時間維為3,空間維為3×3,卷積核數(shù)為64,跨距和零填充都為1×1×1的參數(shù)設(shè)置。

        圖4 基于注意力機(jī)制的卷積長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)

        第三階段,3D卷積層,這一層采用時間維為3,空間維為3×3,卷積核數(shù)為32,跨距和零填充都為1×1×1的3D卷積核,后接ReLU激活函數(shù)。該層通過減小卷積核數(shù)量,進(jìn)一步抽象圖像序列的信息,有效減少特征圖的數(shù)量,并為下一卷積長短時記憶模塊的輸入做準(zhǔn)備,降低計算時間。以上多層3D卷積層都學(xué)習(xí)到了局部的短期時空特征。

        第四階段,注意力卷積長短時記憶(Convolutional Long Short-term Memory with Attention Mechanism, AConvLSTM)模塊,該模塊由兩層改進(jìn)的卷積長短時記憶單元堆疊而成,用于學(xué)習(xí)圖像序列的長期時空特征圖,能夠很好地模擬特征信息的時空關(guān)系。卷積核大小設(shè)置為3×3,跨距和零填充都為1×1,核數(shù)為32。由于在卷積核中都使用了“零”填充,因此AConvLSTM在不同階段的時空特征都具有相同的空間大小,即AConvLSTM的輸出特征圖空間尺寸依然為48×48。

        第五階段,3D卷積模塊,該模塊由3個3D卷積層組成。所有3D卷積核的時間維設(shè)置為3,空間維為3×3,跨距和零填充都為1×1×1,前兩層卷積核數(shù)為16,后接ReLU激活函數(shù)。由于弱小目標(biāo)軌跡檢測任務(wù)是一個二分類問題,最后一層3D卷積層輸出網(wǎng)絡(luò)的預(yù)測,因此,卷積核數(shù)為1,后接Sigmoid激活函數(shù)。

        2.4.3 模型實現(xiàn)

        本實驗使用Google開源的Keras框架來實現(xiàn),使用的訓(xùn)練數(shù)據(jù)集為仿真的視頻數(shù)據(jù),包括3 000個數(shù)據(jù)維度為48×48×15的紅外圖像序列,測試樣本來自5個紅外圖像序列。實驗的硬件環(huán)境是:CPU為Intel(R) Xeon(R) Silver 4114 CPU @ 2.20 GHz,內(nèi)存為32 GB,系統(tǒng)類型為64位Windows10 操作系統(tǒng),網(wǎng)絡(luò)采用帶動量參數(shù)的隨機(jī)梯度下降法進(jìn)行訓(xùn)練:

        (35)

        其中:mom為動量參數(shù),Δwi是參數(shù)w第i輪的更新量,lri+1是當(dāng)前的學(xué)習(xí)率,L是損失函數(shù),wc是權(quán)重衰減系數(shù)。動量參數(shù)可以加快收斂速度,這里動量設(shè)置為0.9,權(quán)重衰減系數(shù)設(shè)置為0.000 5,總共迭代120代,初始學(xué)習(xí)率為0.001,每隔20代下降0.000 2,每一次學(xué)習(xí)的樣本數(shù)量(batch size)設(shè)置為2。使用的損失函數(shù)為交叉熵?fù)p失函數(shù),它是語義分割問題中常用的損失函數(shù),其數(shù)學(xué)表達(dá)式為:

        (36)

        3 實驗設(shè)置

        在本節(jié)中,本文提出的模型將在5個紅外圖像序列上進(jìn)行測試和評估。首先簡要描述模型訓(xùn)練用到的訓(xùn)練數(shù)據(jù)集以及5個紅外圖像序列測試集。然后介紹了用于衡量模型性能的評價指標(biāo)。

        3.1 數(shù)據(jù)集描述

        本文所使用的訓(xùn)練數(shù)據(jù)集是在一段不含目標(biāo)的紅外視頻中,人工加入高斯信號構(gòu)造的仿真數(shù)據(jù)集。首先對每幅圖像隨機(jī)生成坐標(biāo)點,提取48×48區(qū)域作為背景樣本。然后將二維高斯強(qiáng)度模型作為目標(biāo)樣本添加到背景樣本中。二維高斯模型如下:

        (37)

        其中:(x0,y0)是圖像目標(biāo)的中心,s(i,j)是目標(biāo)在圖像位置(i,j)的像素值。生成目標(biāo)的強(qiáng)度sE是介于0到1之間的隨機(jī)數(shù),σx和σy是高斯分布標(biāo)準(zhǔn)差。利用不同的參數(shù)可以產(chǎn)生不同信噪比的弱小目標(biāo),相鄰的兩幀圖像中的目標(biāo)中心間隔1個像元,每次生成連續(xù)的15幀圖像序列。本文生成的目標(biāo)信噪比介于1~5 dB,訓(xùn)練樣本如圖5所示。測試集是5個紅外圖像序列,用于驗證所提算法的有效性,前3個序列來自真實序列,后兩個序列為仿真序列,其詳細(xì)描述如表1所示。

        圖5 紅外圖像序列仿真數(shù)據(jù)集

        表1 五個真實圖像序列的細(xì)節(jié)描述

        3.2 度量指標(biāo)

        實驗使用了4種度量方法:均方根誤差,平均絕對誤差,峰值信噪比和結(jié)構(gòu)相似度。

        均方根誤差(Root Mean Square Error, RMSE)是預(yù)測值與真值偏差的評分和觀測次數(shù)比值的平方根,對一組測量中的特大或特小的誤差反映特別敏感。因此,均方根誤差能夠很好地反映出測量精密度。其數(shù)學(xué)表達(dá)式如下:

        (38)

        其中:Xij,Yij分別表示網(wǎng)絡(luò)輸出觀測圖像X和真值圖像Y中位于(i,j)位置像素的值,R,C分別表示圖像的高度和寬度。

        平均絕對誤差(Mean Absolute Error, MAE)是觀測值與真值絕對誤差的平均。平均絕對誤差由于離差被絕對值化,不會出現(xiàn)正負(fù)相抵消的情況。因而,平均絕對誤差能夠更好地反映預(yù)測值誤差的實際情況:

        (39)

        其中:變量Xij,Yij,R,C含義同RMSE一樣。RMSE相當(dāng)于L2范數(shù),MAE相當(dāng)于L1范數(shù)。次數(shù)越高,計算結(jié)果就越與較大的離差值有關(guān),而忽略較小的離差值。這就是RMSE針對預(yù)測值更加敏感的原因。

        峰值信噪比(Peak Signal to Noise Ratio, PSNR)是經(jīng)常用于圖像壓縮、超分辨率圖像重建等領(lǐng)域中信號重建質(zhì)量的評價方法,它通過均方根誤差進(jìn)行定義,單位為分貝(dB):

        (40)

        式中變量Xij,Yij,R,C含義同RMSE一樣。PSNR是最普遍和使用最為廣泛的一種圖像客觀評價指標(biāo),它是基于對應(yīng)圖像像素點的誤差,即基于誤差敏感的圖像質(zhì)量評價指標(biāo),數(shù)值越大表示失真越小。

        結(jié)構(gòu)相似度(Structural Similarity Index, SSIM)也是一種全參考的圖像質(zhì)量評價指標(biāo),它分別從亮度、對比度、結(jié)構(gòu)三方面度量圖像的相似性:

        (41)

        (42)

        (43)

        (44)

        (45)

        其中:μX,μY分別表示觀測圖像X和真值圖像Y像素的均值,R,C分別表示圖像的高度和寬度。σX,σY分別表示觀測圖像X和真值圖像Y的標(biāo)準(zhǔn)差,σXY表示圖像X和Y的協(xié)方差,為了避免分母為0,C1,C2通常設(shè)置為常數(shù),這里C1=(K1L)2,C2=(K2L)2,K1=0.01,K2=0.03,L=255。

        3.3 基準(zhǔn)模型

        為了分析注意力機(jī)制卷積長短時記憶單元的特性,本文構(gòu)造了兩種不同的注意力卷積長短時記憶網(wǎng)絡(luò)模型,第一個模型是將圖4架構(gòu)中的注意力卷積長短時記憶模塊中的兩層AConvLSTM都替換為AIConvLSTM,稱這個模型為3D-AIConvLSTM,第二個模型是將圖4架構(gòu)中的兩層AConvLSTM都替換為AOConvLSTM,稱這個模型為3D-AOConvLSTM。另外構(gòu)造了兩種基準(zhǔn)模型與它們進(jìn)行了對比試驗。第一個基準(zhǔn)模型是將圖4主體架構(gòu)中的兩層AConvLSTM替換為兩層時間維為3,空間維為3×3,核數(shù)為32,跨距和零填充都為1×1×1的3D卷積層,稱這個基準(zhǔn)模型為3DCNN。第二個基準(zhǔn)模型是將主體架構(gòu)中的兩層AConvLSTM都替換為ConvLSTM,稱這個模型為3D-ConvLSTM。

        圖6 四種模型在8個紅外短序列的弱小目標(biāo)軌跡提取結(jié)果

        4 實驗結(jié)果分析與模型對比

        圖6展示了不同軌跡檢測方法對8個連續(xù)15幀紅外圖像短序列的軌跡提取結(jié)果,其中,紅色矩形框標(biāo)注了紅外圖像真實目標(biāo)的位置,粉色矩形框標(biāo)注了不同方法對目標(biāo)運動軌跡提取的結(jié)果(彩圖見期刊電子版)。第1列展示了8個短序列的首幀圖像,其中圖6中1-A與1-B為來自序列1的紅外圖像,2-C與2-D為來自序列2的紅外圖像,3-E與3-F為來自序列3的紅外圖像,4-G與5-H分別來自序列4、序列5的紅外圖像。第2列展示了對應(yīng)紅外短序列小目標(biāo)的真實運動軌跡,第3列至第6列分別展示了3DCNN方法、3D-ConvLSTM方法、3D-AIConvLSTM方法和3D-AOConvLSTM方法對8個短序列的檢測結(jié)果。

        由圖6可知,3DCNN方法的軌跡提取長度要短于真實的運動軌跡,背景中殘留了大量的噪聲和雜波。3D-ConvLSTM方法提取的軌跡非常接近真實的目標(biāo)運動軌跡,但背景中殘留的噪聲和雜波要比3DCNN更多,特別是1-A,1-B,4-G,5-H的檢測結(jié)果,兩種方法都?xì)埩袅舜罅康碾s波和噪聲。3D-AIConvLSTM的結(jié)果顯示,其雜波殘留非常少,效果要優(yōu)于3DCNN和3D-ConvLSTM方法的結(jié)果,且提取的目標(biāo)運動軌跡也接近真實軌跡,但對于2-D和3-E的短序列處理結(jié)果,其軌跡出現(xiàn)了斷點,即目標(biāo)運動軌跡不連續(xù)。3D-AOConvLSTM方法的處理結(jié)果,展示了其提取的目標(biāo)軌跡不僅非常接近真實軌跡,其連續(xù)的運動軌跡,效果要優(yōu)于3D-AIConvLSTM方法,背景中的噪聲和雜波也殘留非常少,效果優(yōu)于3DCNN方法和3D-ConvLSTM方法。因此,基于輸出門注意力機(jī)制的卷積長短時記憶網(wǎng)絡(luò)模型(3D-AOConvLSTM)能夠很好地提取復(fù)雜背景下弱小目標(biāo)的運動軌跡。

        為了客觀地描述本方法的優(yōu)勢,本文還在5個紅外圖像序列,計算了均方根誤差(RMSE),平均絕對誤差(MAE),峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)等4個度量指標(biāo),用于衡量上述4種軌跡提取方法的性能,表2~表5展示了不同方法對于5個紅外圖像序列在4個度量指標(biāo)上的均值。

        表2 四種軌跡提取方法在不同序列上的均方根誤差

        表3 四種軌跡提取方法在不同序列上的平均絕對誤差

        表4 四種軌跡提取方法在不同序列上的峰值信噪比

        表5 四種軌跡提取方法在不同序列上的結(jié)構(gòu)相似度

        由表2~表5所示,基于輸出門注意力機(jī)制的卷積長短時記憶網(wǎng)絡(luò)(3D-AOConvLSTM)除了在序列1紅外圖像上的結(jié)構(gòu)相似度指標(biāo)上,與取得該指標(biāo)最優(yōu)值的3DAI-ConvLSTM方法僅相差0.000 2,在序列5紅外圖像上的均方根誤差和峰值信噪比取得次優(yōu)結(jié)果之外,在5個序列上的其他度量指標(biāo)均達(dá)到了最優(yōu)的結(jié)果。

        表6展示了4種軌跡方法的參數(shù)容量,2種基于注意力機(jī)制的卷積長短時記憶網(wǎng)絡(luò),即3D-AIConvLSTM和3D-AOConvLSTM的參數(shù)數(shù)量最少,均只有432 560個參數(shù),少于3DCNN和3D-ConvLSTM的參數(shù)量。

        為了展示整個序列的弱小目標(biāo)運動軌跡,本文通過在時間維上疊加同一序列所有軌跡提取結(jié)果,繪制了軌跡平面,并且把出現(xiàn)3次以上非0像素點的位置設(shè)置為0,其展示結(jié)果如圖7所示(彩圖見期刊電子版)。第1列展示了5個序列的真實運動軌跡,第2列至第4列分別表示3DCNN,3D-ConvLSTM,3D-AIConvLSTM以及3D-AOConvLSTM方法對5個序列提取的完整軌跡,黃色圓圈標(biāo)注了處理結(jié)果的雜波部分,藍(lán)色圓圈標(biāo)注了軌跡的間斷部分。由圖7可知,序列1只包含一個運動目標(biāo),且運動軌跡為一條直線,序列2包含4個目標(biāo),運動軌跡比較隨意,序列3包含大量的運動目標(biāo),且軌跡交織在一起,部分目標(biāo)的運動軌跡不連續(xù),呈虛線狀態(tài)。序列4和序列5均各包含一個目標(biāo),并保持直線運動。3DCNN方法提取的軌跡呈虛線狀,軌跡間隔過大,背景中殘留了較多雜波噪聲。3D-ConvLSTM方法提取的軌跡與真實的軌跡相似,但是序列2和3的結(jié)果中仍然出現(xiàn)了軌跡間斷的部分,背景中殘留的雜波比3DCNN方法還要嚴(yán)重,特別是在序列4和序列5中,3DCNN和3D-ConvLSTM方法殘留了大面積的雜波背景,這主要是由序列中的強(qiáng)雜波和背景快速運動造成的。3D-AIConvLSTM方法得到的結(jié)果顯示背景噪聲很少,但序列3中部分目標(biāo)的運動軌跡沒有檢測出來,造成了漏檢現(xiàn)象。3D-AOConvLSTM方法得到的軌跡與真實的軌跡最為相似,背景噪聲也很少,其軌跡檢測結(jié)果明顯優(yōu)于3DCNN,3D-ConvLSTM和3D-AIConvLSTM方法。

        本文通過控制變量的方式,在同一個主體架構(gòu)上,逐步替換網(wǎng)絡(luò)中的注意力卷積長短時記憶模塊,由以上對比方法的實驗結(jié)果可以看出,所有網(wǎng)絡(luò)層均為3D卷積核的3DCNN檢測到的軌跡表現(xiàn)為軌跡短、不連續(xù),未能檢測到目標(biāo)的全部軌跡信息,而在此基礎(chǔ)上替換了兩層3D卷積核的3D-ConvLSTM則檢測到真實軌跡的完整信息,表現(xiàn)為連續(xù)的完整軌跡,這就從實驗結(jié)果上體現(xiàn)出3D卷積核只能提取序列的短期時空信息,正好印證了3D卷積核的結(jié)構(gòu)特性,即只能卷積相鄰的幾組特征體,而3D-ConvLSTM由于使用了ConvLSTM單元,其結(jié)構(gòu)上的循環(huán)特性保證了序列不斷的信息抽取,其軌跡檢測結(jié)果的完整性和連續(xù)性也驗證了它的結(jié)構(gòu)特性。在3D-ConvLSTM的基礎(chǔ)上,本文又提出了3D-AIConvLSTM和3D-AOConvLSTM,它們在ConvLSTM單元中均使用了注意力機(jī)制,最大的不同就是在LSTM中添加的卷積操作位置不同,由3D-AIConvLSTM和3D-AOConvLSTM的對比實驗可以看出,不同的卷積位置取得的軌跡檢測結(jié)果大不相同,在輸入門中加入卷積操作和注意力機(jī)制,由于輸入門控制著新記憶信息寫入長期記憶的程度,輸入數(shù)據(jù)被丟棄之后會直接進(jìn)入長期記憶,并會進(jìn)一步與輸出門信息融合,形成短期記憶,使短期記憶保留的信息越來越少,在減少背景雜波的同時,也相應(yīng)的丟失了目標(biāo)信息,而在輸出門中加入卷積操作和注意力機(jī)制,長期記憶接收來自輸入門的信息,并融入了來自輸出門的信息,這也是3D-AOConvLSTM的軌跡要優(yōu)于3D-AIConvLSTM的原因。

        表6 四種軌跡提取方法的模型參數(shù)數(shù)量

        圖7 不同檢測方法在5個序列上的軌跡提取結(jié)果

        針對連續(xù)15幀的復(fù)雜紅外圖像序列,3D-AOConvLSTM方法利用3D卷積核提取短期的時空信息,利用AOConvLSTM單元提取時空信息的長期信息,利用注意力機(jī)制丟棄大量的冗余時空信息,實現(xiàn)了對弱小目標(biāo)運動軌跡的有效提取。基于輸出門注意力機(jī)制的卷積長短時記憶網(wǎng)絡(luò)表現(xiàn)效果最好的原因,在于它將注意力機(jī)制放置在輸出門的位置,輸出門控制著短期記憶如何受長期記憶影響,它能夠從長期記憶中提取與任務(wù)相關(guān)的重要信息,并舍棄冗余信息,而基于輸入門注意力機(jī)制的卷積長短時記憶網(wǎng)絡(luò)層將注意力機(jī)制放置在輸入門的位置,控制著新記憶信息寫入長期記憶的程度,若長期記憶中的重要信息被錯誤的丟棄,那么后續(xù)時刻與任務(wù)相關(guān)的信息將永久消失,這就是將注意力機(jī)制放置在輸出門的優(yōu)勢。

        5 結(jié) 論

        本文通過結(jié)合3D卷積核、長短時記憶單元以及注意力機(jī)制,設(shè)計了深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),建立了紅外圖像序列中多幀圖像與軌跡檢測之間的相關(guān)性,從大量時空信息中有選擇的篩選和任務(wù)相關(guān)的重要信息,同時忽略絕大部分冗余的信息,能夠應(yīng)用在近地小天體的探測和預(yù)警任務(wù)中。本文方法無需任何先驗知識,就能夠精確檢測到小運動目標(biāo)的運動軌跡,解決了基于TBD軌跡搜索算法存在的需要事先獲取目標(biāo)灰度分布函數(shù)或運動速度等先驗知識的問題。與3DCNN,3D-ConvLSTM,3D-AIConvLSTM方法對比,基于輸出門注意力機(jī)制的卷積長短時記憶網(wǎng)絡(luò)實現(xiàn)了對紅外序列圖像中低于6 pixel弱小目標(biāo)的運動軌跡有效檢測,檢測效果最好,背景噪聲殘留最少,在均方根誤差和平均絕對誤差上相對于3DCNN、3D-ConvLSTM和3D-AIConvLSTM方法平均降低了32.8%和46.3%,在峰值信噪比和結(jié)構(gòu)相似度上平均提高了18.3%和4.3%。

        猜你喜歡
        短時記憶紅外注意力
        基于長短時記憶神經(jīng)網(wǎng)絡(luò)的動力電池剩余容量預(yù)測方法
        網(wǎng)紅外賣
        讓注意力“飛”回來
        閃亮的中國紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
        電子制作(2019年7期)2019-04-25 13:17:14
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        短時記憶、長時記憶對英語聽力的影響
        基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
        A Beautiful Way Of Looking At Things
        短時記憶理論的影響
        无码啪啪熟妇人妻区| 激情综合欧美| 精品免费国产一区二区三区四区| 大肉大捧一进一出视频| 国产成年无码V片在线| 精品午夜一区二区三区| 中文字幕中乱码一区无线精品| 最新日本久久中文字幕| 性欧美丰满熟妇xxxx性久久久| 18分钟处破好疼哭视频在线观看| 亚洲熟女少妇一区二区| 亚洲无码观看a| 国产一区二区三区av观看| 成人国产精品三上悠亚久久| 蜜臀av无码人妻精品| 日日摸夜夜添夜夜添无码免费视频| 中文字幕人妻中文| 日本黄色特级一区二区三区| 亚洲国产精品日本无码网站| 日日猛噜噜狠狠扒开双腿小说| 久久国产乱子精品免费女| 久久91精品国产一区二区| 插上翅膀插上科学的翅膀飞| 香港日本三级亚洲三级| 国产日韩欧美911在线观看| 亚洲一区二区岛国高清| 日本视频一区二区三区一| 无码人妻一区二区三区在线| 18禁黄久久久aaa片| 2021年国产精品每日更新| 午夜av内射一区二区三区红桃视| 激情久久黄色免费网站| 精品亚洲成a人片在线观看| 国产精品无码片在线观看| 日本中文字幕av网址| 日本乱熟人妻中文字幕乱码69| 国产成人午夜无码电影在线观看| 国产女人成人精品视频| av资源在线播放网站| 好吊妞视频这里有精品| 亚洲中文字幕无码久久2020|