畢洪波, 朱徽徽, 楊麗娜, 張 叢, 吳然萬
(東北石油大學 電氣信息工程學院,黑龍江 大慶 163318)
視頻顯著性目標檢測(Video Saliency Object Detection,VSOD)可以提取視頻中最吸引注意力的對象。這項任務起始于對人類視覺系統(tǒng)(Human Vision System,HVS)的研究,并且體現(xiàn)了人類可以快速且不受干擾地將注意力轉移到復雜場景中信息最豐富的部分的能力。
在計算機視覺領域,VSOD受到了廣泛的關注,包括視頻壓縮[1]等。Song等[2]設計了一個并行網(wǎng)絡,其中一個網(wǎng)絡學習全局結構的特征;另一個網(wǎng)絡融合上下文信息并細化顯著性結果。Li等[3]構造了一個時間一致的特征,引入了長短期記憶(Long Short-Term Memory,LSTM)的流網(wǎng)絡和特征編碼器的聯(lián)合作用。然而,這些模型忽略了對于理解人類視覺注意力機制很重要的視頻幀的顯著變化。
深度學習領域中核心的技術之一便是注意力機制模型,廣泛應用于圖像處理、語音識別、自然語言處理等各個領域。注意力模型工作原理和人類視覺選擇性注意力機制相似,人類視覺系統(tǒng)具有特殊的大腦信號處理機制,該機制可對獲取到的圖像信號進行快速掃描,并準確地將模型關注的權重放在重要目標所在區(qū)域,將更多的注意力資源放在目標區(qū)域可以獲得顯著目標更多細節(jié)特征。與此同時,無用的信息在信息處理過程中被有效抑制。
另外,循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)擅長處理可變長度序列數(shù)據(jù),比如文字序列、時間序列等,待處理的數(shù)據(jù)具有共同的特點就是后面的信息和前面的信息有強烈的相關性。LSTM神經(jīng)網(wǎng)絡是RNN的變形結構,相較于傳統(tǒng)的RNN,LSTM可以記憶長期的信息間的聯(lián)系。LSTM網(wǎng)絡主要有三部分組成,即輸入門、輸出門和遺忘門。該網(wǎng)絡可以將過去信息與當前信息進行聯(lián)系,利用過去記憶的信息對未來信息進行預測。LSTM已廣泛應用于視頻處理等任務中。卷積LSTM(Convolutional LSTM, ConvLSTM)原理類似于LSTM,兩者最大的不同在于卷積LSTM模塊中的乘法運算轉換為卷積運算來代替,其可以被應用于VSOD任務中。
本文結合注意力機制和循環(huán)神經(jīng)網(wǎng)絡設計了視頻顯著目標檢測系統(tǒng),使用全局上下文對不同通道進行權值重標定,并且可以捕獲長時間依賴關系,充分利用全局上下文信息對視覺場景進行全局理解。另外,該系統(tǒng)以聯(lián)合和協(xié)作的方式集成了自上而下和自下而上的消息。因此,語義信息和空間細節(jié)被納入每個層次,以粗到細的方式完成顯著性估計推理,更好地定位突出區(qū)域。在標準數(shù)據(jù)集的仿真結果表明,與11種最先進的系統(tǒng)相比,該系統(tǒng)的性能均得到比較大的提升。
圖1展示了檢測系統(tǒng)的整體結構示意圖。該系統(tǒng)用ResNet-50作為主干網(wǎng)絡,主要分為兩大模塊:上下文語義聚合模塊(用于空間特征的提取)和雙層卷積LSTM模塊(用于連續(xù)幀間時間相關性的提取)。在ResNet-50的各個卷積模塊中增加了注意力模塊:壓縮激勵網(wǎng)絡(Squeeze-and-Excitation Networks,SE-Net),經(jīng)過通道注意力單元重新分配權重的顯著性特征,分別進行了自上而下和自下而上的特征聯(lián)合,最后將融合后的特征進行整合,輸入到雙層卷積LSTM模塊中提取時間相關性特征,從而完成整個系統(tǒng)的學習。
圖1 目標檢測系統(tǒng)整體結構示意圖
現(xiàn)有的部分視頻顯著性檢測系統(tǒng)并沒有充分考慮特征融合,因此顯著目標不能被完全檢測。本文利用注意力SE-Net使通道特征權重分配,利用自上而下和自下而上的結構將深層特征和淺層特征相融合,既能靈活調整不同層次特征的貢獻,同時可以有效地進行信息交換,避免過多的冗余信息。
如圖1所示,ResNet-50作為該系統(tǒng)的基礎網(wǎng)絡,并且將每個卷積模塊的特征進行輸出,輸出分別表示為C(1)~C(5)。由于深層網(wǎng)絡主要提取豐富的語義信息和紋理信息,為了重建通道特征并抑制無用信息,本文采用深特層征C(3)、C(4)、C(5)分別輸入SE-Net,然后將每個卷積模塊處理后的特征分別輸入到CA(Context Aggregation)模塊,SE-Net和CA模塊串聯(lián)的上下文語義聚合模塊圖如圖2所示。
圖2 上下文語義聚合模塊
首先通過自上而下的過程傳遞淺層特征細節(jié),ResNet-50的每層輸出經(jīng)過SE-Net權重重新規(guī)劃后,輸入到CA模塊與上一層特征進行連接,連接后的特征向下輸入以便和下層特征進行連接,從而使高層次的特征逐步完善。CA模塊中卷積層的參數(shù)為Kernel-size:3,Padding:1,Stride:1。然后通過自下而上的過程向頂層網(wǎng)絡傳輸更多的空間細節(jié),并且背景不存在噪聲。
自下而上的特征傳輸與自上而下傳輸相似,但傳輸方向相反,用自下而上的聯(lián)合過程細化上下文信息,提供更準確的高級顯著性估計。自上而下的特征傳遞可表示為
(1)
(2)
(3)
為了預測連續(xù)視頻幀中的動態(tài)顯著信息,本文運用雙層ConvLSTM來探索視頻幀之間注意力的動態(tài)轉換,并且聯(lián)合頭部視頻幀信息以增強連續(xù)視頻幀間運動信息的表達。雙層卷積LSTM模塊模型圖如圖3所示。
圖3 雙層卷積LSTM模塊
式中:σ代表Sigmoid激活函數(shù);*代表卷積操作;·代表元素級別的相乘;it、ot、ft分別代表輸入門,輸出門,遺忘門;gt表示輸入調制;mt表示細胞記憶;上標H為卷積LSTM的隱藏層;H和m1表示視頻序列第1幀的輸出和細胞狀態(tài),目的是添加頭部幀的輸出信息使長距離注意力轉移得到體現(xiàn)。本文采用雙層ConvLSTM傳輸模式來提高運動物體的感知能力,并通過監(jiān)督學習逐步更新狀態(tài)。
2.1.1 實驗設置
本文模型基于caffe框架中實現(xiàn),并使用DAVIS和DAVSOD作為訓練集。訓練階段超參數(shù)設置如下:batchsize(4),the moment(0.9),the weight decay(0.000 5),基礎學習率設置為1×e-8。
2.1.2 數(shù)據(jù)集
本文使用了3個常見的視頻顯著數(shù)據(jù)集:ViSal、FBMS數(shù)據(jù)集以及UVSD數(shù)據(jù)集。
2.1.3 評價準則
為了評估所提出網(wǎng)絡的性能,本文采用了3種流行的評估指標,包括平均絕對誤差MAE[4]、F-measure[5]和S-measure[6]。為了測量兩個圖像的區(qū)域符合的程度,通過評估精確度(Precision)和召回率(Recall)來估計 F-measure 分數(shù),其公式如下:
(9)
基于以往的工作經(jīng)驗,本文在評估實驗中將β2設置為0.3。另外,采用F-measure的最大值maxF作為一種評估指標。
使用結構相似度來評估顯著圖和真值圖之間的相似性。S-measure定義為
S=αSo+(1-α)Sr
(10)
式中:α∈[0,1];So表示目標級別的結構相似度;Sr表示位置級別的結構相似度。
MAE常用于測量顯著概率圖P與其對應的真值圖G之間的平均像素差,計算公式如下:
(11)
式中:H表示輸入幀的高;W表示輸入幀的寬。
使用經(jīng)典的交叉熵損失函數(shù)來完成整個網(wǎng)絡的學習過程其中網(wǎng)絡的總體損失,公式如下:
(12)
如表1所示,為了驗證本文系統(tǒng)的有效性,和11種常見的視頻顯著性目標檢測系統(tǒng)進行定量比較,這些方法分別為:PQFT[7]、SST[8]、TIMP[9]、RWRV[10]、MST[11]、SAGE[12]、GF[13]、SGSP[14]、SFLR[15]、FGRNE[16]和 DLVSD[17]。其中PQFT、SST、MST、TIMP、SAGE、GF、RWRV、SGSP和SFLR是基于傳統(tǒng)方法生成的顯著目標檢測系統(tǒng),在過去的研究中被廣泛比較。FGRNE和DLVSD是利用卷積神經(jīng)網(wǎng)絡方法提取特征的視頻顯著性檢測系統(tǒng)。
表1 常用數(shù)據(jù)集定量比較
表1的數(shù)據(jù)結果顯示,字體加粗數(shù)據(jù)是對比結果中最好的結果。本文設計的系統(tǒng)明顯優(yōu)于其他系統(tǒng),尤其在具有挑戰(zhàn)的UVSD數(shù)據(jù)集中,獲得了更好的性能。由于其他系統(tǒng)使用不同的數(shù)據(jù)增廣方式可能會導致測評結果出現(xiàn)偏差,但本文系統(tǒng)仍然具有顯著的優(yōu)越性,因此表明該系統(tǒng)的有效性。
圖4展現(xiàn)了3個數(shù)據(jù)集中6對視頻序列的視覺效果圖,第1行表示原圖像,第2行表示標準真值圖,第3行表示本文方法的檢測結果,其余各行表示其他算法的檢測結果。從圖4可以看出,這些圖像擁有復雜的背景和相機的快速運動,但本系統(tǒng)檢測了完整的顯著目標區(qū)域包括圖像中較小的顯著目標和圖像中多個顯著目標均可得到正確檢測。從視覺效果比較圖中可以看出,本系統(tǒng)在一些具有挑戰(zhàn)性的視頻中,如飛機和滑冰視頻段均可以生成良好的顯著區(qū)域和令人滿意的細節(jié)。
針對特征聚合過程中特征之間的差異沒有被充分考慮,導致顯著目標的空間細節(jié)不完善的問題,本系統(tǒng)提出了上下文語義聚合模塊。另外,該模塊可以解決特征聚合忽略多層次特征之間差異,無法充分利用適合于定位的空間細節(jié),導致預測結果表現(xiàn)不佳等問題。同時,靜態(tài)信息不能準確的表達運動物體的顯著性,而連續(xù)幀之間的運動信息又難于被捕捉,為了預測連續(xù)視頻幀中的動態(tài)顯著信息,本系統(tǒng)運用雙層ConvLSTM來探索視頻幀之間注意力的動態(tài)轉換,并且聯(lián)合頭部視頻幀信息以增強連續(xù)視頻幀間運動信息,使遠距離視頻幀中豐富的語義特征被挖掘。實驗結果表明,本系統(tǒng)的性能更加優(yōu)越。