宋 佳,陳程立詔
(青島大學(xué)計算機科學(xué)技術(shù)學(xué)院,山東青島 266071)
視頻顯著性物體檢測旨在提取人眼最感興趣的目標(biāo)區(qū)域,并在動態(tài)場景中將其與背景分離[1]。視頻顯著性物體檢測作為計算機視覺的預(yù)處理步驟,被廣泛應(yīng)用于視頻質(zhì)量評估[2]、目標(biāo)跟蹤[3]、視頻壓縮[4]等領(lǐng)域。
目前,圖像顯著性物體檢測研究比較深入,但視頻顯著性物體檢測依然面臨巨大挑戰(zhàn),其原因是視頻顯著性物體檢測不僅考慮視頻中單幀圖像的空間特征,還考慮受時域上運動特征的影響[6]。根據(jù)人體視覺系統(tǒng)特點,人眼對正在運動的物體更敏感,因此將己有的視頻單幀圖像顯著性檢測方法與視頻序列的運動信息相結(jié)合能夠有效提高顯著性檢測精確度。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,許多研究[7-8]已經(jīng)將卷積神經(jīng)網(wǎng)絡(luò)運用到視頻顯著性檢測領(lǐng)域中,而運動信息也作為一個重要因素被考慮在內(nèi)。研究表明,將運動信息嵌入網(wǎng)絡(luò)的優(yōu)勢,一方面減少問題域并屏蔽非顯著的背景區(qū)域,例如當(dāng)視頻場景中的背景復(fù)雜且多樣時,人們僅依靠顏色信息難以識別顯著性物體,但運動信息可以突出顯著性物體的位置信息,另一方面提供了空間連貫性的基本提示,即具有相同位移的圖像像素屬于同一區(qū)域的概率較高[7]。
對于運動信息的提取,通過設(shè)計有效的網(wǎng)絡(luò)結(jié)構(gòu)來實現(xiàn),如單流網(wǎng)絡(luò)和雙流網(wǎng)絡(luò)[6]。單流網(wǎng)絡(luò)中運動信息的提取依賴循環(huán)卷積[8],循環(huán)卷積一般以長短期記憶(convLSTM)[9]模型為代表,通過提取長期時序信息以實現(xiàn)具有強時空一致性的較優(yōu)檢測。然而,convLSTM 模型因過度依賴長期的時序一致性,當(dāng)連續(xù)多幀出現(xiàn)誤檢時,當(dāng)前幀的特征無法被相鄰幀修復(fù),導(dǎo)致其存在性能瓶頸。由于convLSTM 模型與單流網(wǎng)絡(luò)都忽略了光流圖[10]的空間信息,因此在單流網(wǎng)絡(luò)的基礎(chǔ)上增加運動分支的雙流網(wǎng)絡(luò)能夠有效提取光流的空間線索[11]。
雖然雙流網(wǎng)絡(luò)的檢測精度較高,但光流對光強度和局部變化敏感,當(dāng)顯著物體發(fā)生劇烈或慢速地移動時,導(dǎo)致運動估計準(zhǔn)確率低和檢測性能下降。針對以上問題,本文提出基于多流網(wǎng)絡(luò)一致性的視頻顯著性檢測算法(MSNC),在雙流網(wǎng)絡(luò)的基礎(chǔ)上增加先驗流,從而彌補光流信息的不足,同時通過多流一致性融合(MCP)模型優(yōu)化多流分支,采用循環(huán)訓(xùn)練策略均衡三重網(wǎng)絡(luò)的權(quán)重。
傳統(tǒng)視頻顯著性檢測算法是以低級線索為主導(dǎo),采用手工提取特征方式提取運動信息。文獻[13]提出一種兩級學(xué)習(xí)策略來提取長期時空線索。文獻[14]設(shè)計一種簡單的方法,即通過對框級物體進行排序和選擇來識別顯著物體。文獻[15]提取空間和時間邊緣信息,以增強顯著物體定位。傳統(tǒng)視頻顯著性檢測算法是最基礎(chǔ)的檢測算法,其操作簡便。由于運動場景的更新、目標(biāo)尺寸的變化以及拍攝視角的切換,使得該類算法的檢測準(zhǔn)確率難以達到理想的要求,有待進一步提高和完善。
為彌補傳統(tǒng)手工提取特征方式的不足,基于深度學(xué)習(xí)的視頻顯著性檢測算法通過數(shù)據(jù)驅(qū)動自動提取特征,從而實現(xiàn)較高的精確度和較優(yōu)的魯棒性。視頻顯著性檢測主流網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,按照網(wǎng)絡(luò)結(jié)構(gòu)不同,分為單流網(wǎng)絡(luò)、雙流網(wǎng)絡(luò)、3D 卷積網(wǎng)絡(luò)、三流網(wǎng)絡(luò)。
圖1 視頻顯著性檢測網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of video saliency detection network
單流網(wǎng)絡(luò)以長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)模型為代表,其結(jié)構(gòu)如圖1(a)所示。從圖1(a)可以看出,連續(xù)幀作為輸入,首先提取靜態(tài)特征,然后利用LSTM 融合幀間信息,并間接獲取時間序列線索。3D 卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖1(b)所示,其同時提取時空線索,避免出現(xiàn)時空信息分離的情況,減少了時間消耗。文獻[16]設(shè)計一個端到端的3D 框架以獲取時空特征,該框架在編碼器和解碼器后增加了細化組件,主要原理是提取更深層的語義信息來細化時空顯著圖。文獻[17]提出一種基于全卷積的網(wǎng)絡(luò),采用分階段的方式進行顯著性檢測。全卷積網(wǎng)絡(luò)首先預(yù)計算空間顯著圖,然后融合該空間顯著圖和連續(xù)幀以產(chǎn)生最終的時空顯著圖。為擴大感知范圍,文獻[18]采用基于光流的映射關(guān)系將長期時序信息添加到當(dāng)前視頻幀中。文獻[19]提出一種新的方案來感知多尺度時空信息,采用多孔空間金字塔池化[20](Atrous Spatial Pyramid Pooling,ASPP)提取多尺度空間顯著性特征,隨后將這些特征送入雙向convLSTM 網(wǎng)絡(luò)中,以獲取長期和多尺度信息。文獻[21]提出一個注意力轉(zhuǎn)移基線,同時開源了針對視頻顯著性檢測問題的大規(guī)模注意力轉(zhuǎn)移數(shù)據(jù)集。
雙流網(wǎng)絡(luò)結(jié)構(gòu)如圖1(c)所示,以MGA[7]為代表,光流和靜態(tài)圖分別作為兩個分支的輸入,之后單個分支對特征信息進行多向融合以得到最終檢測結(jié)果。其主要原理是利用運動信息定位顯著物體,同時提供顏色特征的通道權(quán)重。此方法的檢測性能雖優(yōu)于許多單流結(jié)構(gòu),但其顯著結(jié)果極易受光流質(zhì)量影響。若視頻中運動模式出現(xiàn)快速運動或靜止的情況,光流信息可能會無作用甚至產(chǎn)生負面作用。針對以上問題,本文提出多流網(wǎng)絡(luò)一致性檢測算法(MSNC),如圖1(d)所示,利用先驗分支彌補低質(zhì)量的光流分支,將融合后的分支作用于空間分支,以得到最終的顯著圖。
MSNC 算法使用三重網(wǎng)絡(luò)對提取的信息進行檢測,即在雙流的基礎(chǔ)上增加先驗流來彌補運動流的不足,同時實現(xiàn)多流的多向融合互補,采用循環(huán)訓(xùn)練策略避免網(wǎng)絡(luò)產(chǎn)生過擬合現(xiàn)象。MSNC 算法主要分為4 個步驟:1)利用空間子網(wǎng)提取顏色信息;2)利用運動子網(wǎng)提取時序信息;3)利用先驗子網(wǎng)提取先驗特征;4)利用多流一致性融合模型多流信息,并生成最終的顯著圖。
MSNC 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。該網(wǎng)絡(luò)由空間子網(wǎng)、運動子網(wǎng)、先驗子網(wǎng)以及MCP 模型組成。三重分支都采用卷積神經(jīng)網(wǎng)絡(luò)提取預(yù)選目標(biāo)區(qū)域特征,使用VGG16[22]前5 層卷積層作為編碼器,其中空間分支和運動分支采用相同的網(wǎng)絡(luò)結(jié)構(gòu),均由編碼器和級聯(lián)解碼器構(gòu)成,分別輸入靜態(tài)圖片和光流圖。相比三重分支和空間分支,先驗分支僅包含VGG16[22]基礎(chǔ)網(wǎng)絡(luò)的前5 層結(jié)構(gòu)。此外,經(jīng)MCP 模型融合后的特征輸入到級聯(lián)解碼器中,進而融合多級特征以生成最終的檢測圖。
圖2 MSNC 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of MSNC network
對于卷積神經(jīng)網(wǎng)絡(luò),淺層網(wǎng)絡(luò)提取邊緣和細節(jié)信息,其深層網(wǎng)絡(luò)提取語義和位置信息。本文使用級聯(lián)網(wǎng)絡(luò)融合多級特征,使得網(wǎng)絡(luò)更關(guān)注顯著物體,通過引入注意力機制來增大位置權(quán)重??臻g子網(wǎng)的結(jié)構(gòu)如圖3 所示。本文采用級聯(lián)方式融合多層信息,以降低前2 層卷積的利用率來加快運行速度,以VGG16 作為基礎(chǔ)網(wǎng)絡(luò)進行特征提取,該過程分別使用殘差空洞卷積池化金字塔(ResASPP)在Conv3、Conv4、Conv5 這3 個卷積層上提取多尺度特征。ResASPP 模型由ASPP[20]和一個殘差連 接[23]構(gòu) 成。ASPP 由4 個平行的分支組成,首先將特征通過1×1卷積降維到通道數(shù)C為32,對于每個分支都使用空洞卷積,膨脹率分別是1、3、5、7,然后分別用3×3 卷積統(tǒng)一到相同的通道數(shù)并進行疊加操作,最后通過殘差連接得到新的特征信息。
圖3 空間子網(wǎng)結(jié)構(gòu)Fig.3 Structure of spatial subnet
新生成的多尺度特征以UNet[24]的形式進行融合,融合方式如式(1)~式(3)所示:
其中:Fi表示第i層卷積特 征;Conv(·)為卷積操 作;Cat(·)為特征在 通道維度的疊 加;Up(·)為上采樣 操作;×為逐元素相乘。首先將第5 層卷積特征Conv5進行上采樣操作,然后與第4 層特征Conv4 相乘得到F1特征,F(xiàn)1繼續(xù)上采樣與第3 層卷積Conv3 相乘得到F2特征,最后將融合后的特征在通道維度上進行疊加,得到融合后特征F3,再經(jīng)過1×1 卷積降維,獲得最終的顯著圖。
目前,提取運動信息的通用技術(shù)主要以光流為代表,利用時域中像素的位移以及相鄰幀之間的相關(guān)性建立前一幀和當(dāng)前幀之間的關(guān)系。計算光流最先 進的方法包括SPyNet[25]、PWCNet[10],這些光流估計方法在檢測精度和速度方面都具有較優(yōu)的性能。
深度學(xué)習(xí)需要大量相關(guān)數(shù)據(jù)進行訓(xùn)練,但光流圖缺少相應(yīng)的像素級人工標(biāo)注,在訓(xùn)練數(shù)據(jù)較少的條件下難以得到高質(zhì)量的運動顯著圖[26]。為此,本文利用顏色真值圖作為訓(xùn)練標(biāo)簽對靜態(tài)圖像模型進行微調(diào),能夠有效解決在小樣本訓(xùn)練過程中的過擬合問題,首先,在光流網(wǎng)絡(luò)中輸入相鄰視頻幀,經(jīng)過光流網(wǎng)絡(luò)PWCNet[10]獲得稠密的光流圖;其次,對于每個光流數(shù)據(jù),使用文獻中的編碼方式將2 通道的光流數(shù)轉(zhuǎn)換為3 通道RGB 圖像,之后將生成的3 通道光流圖輸入到運動子網(wǎng)中,以產(chǎn)生最終的運動顯著圖。為提高網(wǎng)絡(luò)的泛化能力,本文在空間子網(wǎng)預(yù)訓(xùn)練模型的基礎(chǔ)上,利用Davis 數(shù)據(jù)集2 000 幀來微調(diào)該模型,且將學(xué)習(xí)率設(shè)置為10-5,并使用二值交叉熵損失指導(dǎo)訓(xùn)練。
先驗網(wǎng)絡(luò)由VGG16 前5 層網(wǎng)絡(luò)構(gòu)成,3 通道先驗疊加作為網(wǎng)絡(luò)輸入。先驗圖的構(gòu)成相對簡單,因此,使用較淺層的網(wǎng)絡(luò)就可以提取先驗特征。在訓(xùn)練過程中,為保持訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的一致性,輸入網(wǎng)絡(luò)的先驗圖不能直接用標(biāo)簽替代,而使用腐蝕后的標(biāo)簽。
為獲取三重網(wǎng)絡(luò)的最優(yōu)組合,本文提出MCP 模型,該模型通過融合三分支權(quán)重,使得三重網(wǎng)絡(luò)具有一致性,MGA[7]和MCP 結(jié)構(gòu)如圖4 所示。其中:Fa、Fm、Fp分別為空間、運動及先驗特征。
圖4 MGA 與MCP 模型結(jié)構(gòu)對比Fig.4 Structure comparison of MGA and MCP models
MGA 模型以空間特征Fa和運動特征Fm作為輸入,F(xiàn)m經(jīng)1×1 卷積和Sigmoid 激活得到空間權(quán)重圖,之后與Fa相乘得到Fa1。Fa1經(jīng)過GAP 操作將新的特征降維后使用1×1 卷積及Softmax 函數(shù)得到通道權(quán)重,此權(quán)重作用于Fa1得到融合后的特征。MCP 模型首先對運動特征Fm進行GAP 操作,將其展成一個一維特征,然后經(jīng)過2 層全連接操作更新通道權(quán)重,之后對更新過的權(quán)重進行Softmax 操作,使特征權(quán)重的值歸一化為0~1,生成新的特征向量并作為權(quán)重,將其與先驗特征相乘,從而保留運動特征與先驗特征的一致性,并與原先的先驗特征進行殘差連接,進而將Fpm作為新的注意力權(quán)重與空間特征相融合。該融合過程首先使用1×1 卷積大小將C×W×H的Fpm特征降維到W×H的權(quán)重圖,并增加Sigmoid 激活操作,并與空間特征Fa相乘產(chǎn)生新的特征Fa1,最終對Fa1進行GAP 操作降維成高維向量g1,經(jīng)過多層感知機(Multilayer Perceptron,MLP)操作得到更新后的向量g3,MLP 比MGA 中的卷積操作更復(fù)雜,使網(wǎng)絡(luò)更易保留有用信息。g3經(jīng)Softmax 操作后作為Fa1的通道注意力權(quán)重,該權(quán)重向量與之前的特征Fa1相乘再加上最初的特征Fa以得到最終的輸出特征。MLP操作過程如式(4)所示:
其中:g1為更新前高維向量;g3為更新后高維向量;為第i次全連接操作;σ為Relu 激活函數(shù)。
三重網(wǎng)絡(luò)中先驗分支的輸入作為三通道疊加的先驗圖,通過傳統(tǒng)方法和深度學(xué)習(xí)算法生成先驗圖,其中傳統(tǒng)方法[27-28]通過RGB 圖的顏色對比生成粗略的顯著圖,深度學(xué)習(xí)算法是采用當(dāng)前主流的深度學(xué)習(xí)檢測模型的預(yù)測顯著圖作為先驗圖。這兩種方法都屬于外部干預(yù),且得到的先驗圖受限于模型本身,很難找到先驗圖存在的共性,并對網(wǎng)絡(luò)的訓(xùn)練造成干擾。因此,本文使用網(wǎng)絡(luò)訓(xùn)練過程中生成的上一幀顯著圖作為當(dāng)前幀先驗圖的輸入,在訓(xùn)練過程中,將經(jīng)過腐蝕處理的真值標(biāo)簽作為網(wǎng)絡(luò)的輸入,降低先驗圖在網(wǎng)絡(luò)訓(xùn)練過程中的權(quán)重。網(wǎng)絡(luò)的輸入以每批大小為一個輪次,每次循環(huán)的第一幀使用腐蝕后的真值圖,之后每次輸入網(wǎng)絡(luò)的先驗圖為上一幀所產(chǎn)生的顯著圖。以上訓(xùn)練策略生成的先驗?zāi)J蕉鄻?,可以避免網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象。在測試過程中,先驗分支首次輸入高質(zhì)量關(guān)鍵幀先驗圖,本文使用顏色顯著圖和運動顯著圖的一致性度量來選取關(guān)鍵幀,其中一致性度量使用S-Measure[29]進行計算。通常S-Measure 值越大,說明顏色和運動顯著圖的一致性越高,其主要原因是低質(zhì)量運動顯著圖和顏色顯著圖完全一致的概率通常較低。因此,按上述方法確定關(guān)鍵幀所對應(yīng)的顏色顯著圖(先驗圖)的質(zhì)量通常較高。對于非關(guān)鍵幀,本文將上一幀或者下一幀的最終顯著圖作為當(dāng)前幀的先驗圖輸入,假設(shè)關(guān)鍵幀先驗圖是第i幀,那么第i幀先驗圖作為第i+1 幀的先驗輸入,得到第i+1 的最終顯著圖,第i+1 幀最終顯著圖又可以作為第i+2 幀的先驗輸入,后續(xù)依次傳遞。
為準(zhǔn)確地評估模型的精度及魯棒性,本文使用通用評價指標(biāo)對顯著圖進行定量評估,包括F值度量(maxF[30])、平均絕對誤差、結(jié)構(gòu)度量(SMeasure[29])。
3.1.1F值度量
maxF 是準(zhǔn)確率(P)和召回率(R)的綜合評估,如式(5)所示:
在顯著性工作[7]的基礎(chǔ)上增加準(zhǔn)確率的權(quán)重值,本文將β2設(shè)置為0.3,并且認為準(zhǔn)確率比召回率更重要。
本文在計算準(zhǔn)確率和召回率時,輸出的顯著圖首先需要進行二值化,二值化閾值為0~255,大于等于閾值的像素值設(shè)為1,小于閾值的像素值設(shè)為0。本文將生成的255 張二值顯著圖與真值圖進行比較,計算得到255 個準(zhǔn)確率和召回率。準(zhǔn)確率越高,說明有較多的顯著區(qū)域被正確檢測,并作為前景區(qū)域,召回率越高,說明顯著區(qū)域覆蓋真值圖的前景區(qū)域越完整。
3.1.2 平均絕對誤差
平均絕對誤差能夠直觀地計算預(yù)測值和真實值之間的誤差,如式(6)所示:
其中:W和H分別為圖像的寬度和高度;S(x,y)為顯著性預(yù)測圖在像素點處的預(yù)測值;G(x,y)為像素點的真實值。
3.1.3 結(jié)構(gòu)度量
結(jié)構(gòu)度量被定義為評估非二進制前景圖的結(jié)構(gòu)相似性,用于評估基于區(qū)域和基于對象的誤差,如式(7)所示:
其中:Sr為區(qū)域感知的結(jié)構(gòu)相似性,將顯著性圖分為許多塊,以評估物體部分的結(jié)構(gòu)相似性;So為對象級別的結(jié)構(gòu)相似性,用于評估考慮全局的相似性;×表示像素間的乘法操作;α通常設(shè)置為0.5。
在深度學(xué)習(xí)中,視頻顯著性檢測通常需要較多的數(shù)據(jù)集以驗證實驗的有效性,研究人員對數(shù)據(jù)集進行標(biāo)注,評估顯著性算法的性能。目前常用的數(shù)據(jù)集主要有以下5 類。
Davis 數(shù)據(jù)集[32]是視頻任務(wù)中通用的數(shù)據(jù)集,包含3 455 幀數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)集包含2 076 幀,測試數(shù)據(jù)集包含1 379 幀,每段視頻都能夠提供稠密的人工標(biāo)記的標(biāo)簽。
Segtrack-v2 數(shù)據(jù)集[33]包含豐富的運動模式,如快速運動、劇烈形變等,其中顯著物體偏小,當(dāng)背景發(fā)生輕微運動時,使得檢測變得更困難。
Visal 數(shù)據(jù)集[34]只 有17 段視頻(193 幀),每 隔5 幀給出像素級人工標(biāo)記,運動模式較單一,一般以慢速運動為主。
Davsod 數(shù)據(jù)集[21]不僅是最新提出的大型視頻顯著性物體檢測數(shù)據(jù)集,而且是第一個與人眼注意力相關(guān)的數(shù)據(jù)集。根據(jù)檢測難度不同,該數(shù)據(jù)集分為簡單、正常和困難3 個級別,共有2.4×104的數(shù)據(jù),同時提供相關(guān)的眼動注視點及實例級標(biāo)注。
Vos 數(shù)據(jù)集[35]共有7 464 幀視頻數(shù)據(jù),包含較多的室內(nèi)場景,且多數(shù)為靜止及相機晃動的情況。
本文所有訓(xùn)練過程的損失函數(shù)都使用二值交叉熵損失,其具體實現(xiàn)如式(8)所示:
其中:gi為真值圖第i個像素值;pi為預(yù)測圖第i個像素值;×為逐元素乘法;ln()為對數(shù)函數(shù)。
本文所有實驗使用Pytorch 深度學(xué)習(xí)框架,在RTX2080Ti 工作站上進行訓(xùn)練。此外,為減少時間消耗,網(wǎng)絡(luò)所有的輸入都下采樣到352×352,BatchSize 設(shè)置為5,參數(shù)學(xué)習(xí)率為10-5,使用Adam[36]優(yōu)化器,訓(xùn)練迭代次數(shù)設(shè)置為20。本文采用多階段訓(xùn)練策略對多流網(wǎng)絡(luò)中的空間和運動分支進行預(yù)先訓(xùn)練,進而再微調(diào)多流網(wǎng)絡(luò)。除使用Duts10000的圖片顯著性數(shù)據(jù)集以外,所有的分支和融合模型僅使用Davis 訓(xùn)練集中2×103張圖片來進行訓(xùn)練。
4.1.1 多流融合的有效性
為驗證本文算法的有效性,在不同數(shù)據(jù)集上不同融合分支的評價指標(biāo)進行對比,如表1 所示,加粗表示最優(yōu)數(shù)據(jù)。其中運動分支以光流圖作為輸入,使用Davis 2000 數(shù)據(jù)量在空間子網(wǎng)預(yù)訓(xùn)練模型上進行微調(diào),外觀分支表示外觀子網(wǎng)原始結(jié)果,雙流分支是按照MGA 的融合方式進行復(fù)現(xiàn),多流分支是本文方法(MSNC)。雙流分支的評價指標(biāo)均優(yōu)于運動分支,其原因是雙流分支中的光流圖缺少節(jié)信息以及存在運動靜止的情況。此外,在運動比較復(fù)雜的Davsod 和Segtrack-v2 數(shù)據(jù)集上,多流分支相較于雙流分支評價指標(biāo)較高。
表1 不同融合分支的評價指標(biāo)對比Table 1 Evaluation indexs comparison among different fusion branches
不同的消融分析結(jié)果如圖5 所示。當(dāng)視頻中運動顯著性處于靜止時(如第2 行和第3 行),光流圖未能表征運動線索,提供了錯誤的位置信息,從而影響雙流網(wǎng)絡(luò)的最終結(jié)果,如圖5(f)所示。本文算法通過兩流彌補光流的不足,能夠有效解決上述問題。
圖5 多流融合網(wǎng)絡(luò)消融結(jié)果Fig.5 Ablation results of muti-stream fusion network
4.1.2 多種融合方式對比
不同融合方式的評價指標(biāo)對比如表2 所示,加粗表示最優(yōu)數(shù)據(jù)。從表2 可以看出,在Davis、Segtrack-v2 和Davsod 數(shù)據(jù)集上多流融合方式的MMAE相較于乘法融合和加法融合較低。在Visal和VOS 數(shù)據(jù)集上,多流融合方式的評價指標(biāo)均較高,能夠充分驗證多流融合中MCP 融合的有效性。
表2 不同融合方式的評價指標(biāo)對比Table 2 Evaluation indexs comparison among different fusion methods
4.1.3 訓(xùn)練策略的指標(biāo)對比
本文以隨機訓(xùn)練和循環(huán)訓(xùn)練作為自變量進行實驗對比。不同訓(xùn)練策略的性能指標(biāo)對比如表3所示,加粗表示最優(yōu)數(shù)據(jù)。t=0 表示不使用循環(huán)訓(xùn)練策略,并且先驗圖全部使用經(jīng)腐蝕得到的真值標(biāo)簽。t=4 表示BatchSize=4,即4 張先驗圖為一個循環(huán),每個循環(huán)僅使用一個經(jīng)腐蝕處理過的手工標(biāo)注,之后依次向下傳遞。從表3 可以看出,當(dāng)BatchSize(t)=5 時,MSNC在不同數(shù) 據(jù)集上的性能指標(biāo)均較優(yōu)。
表3 不同訓(xùn)練策略的評價指標(biāo)對比Table 3 Evaluation indexs comparison among different training strategies
本文主要從指標(biāo)得分、視覺顯著圖和運行速度3 個方面對本文算法與其他算法進行了比較。
1)定量分析
為驗證本文算法的有效性,本文以maxF、S-meature和MMAE作為評價指標(biāo),與當(dāng)前主流算法進行比較,包括PCSA[37]、LSTI[38]、MGA、SSAV[21]、CPD[39]、PDBM[19]、MBNM[40]。在不同數(shù)據(jù)集上不同算法的性能指標(biāo)對比如表4所示,加粗表示最優(yōu)數(shù)據(jù),本文算法在Davis數(shù)據(jù)集上的性能指標(biāo)較優(yōu),對比MGA算法,MSNC在VOS數(shù)據(jù)集上maxF指標(biāo)上提升了1個百分點,與PCSA[37]相比,MSNC未使用Davis的訓(xùn)練集卻得到了較高的檢測精度。
表4 不同算法的評價指標(biāo)對比Table 4 Evaluation indexs comparison among different algorithms
2)結(jié)果可視化分析
在不同的視頻場景中,不同算法的顯著性檢測結(jié)果對比如圖6 所示。本文所提算法在不同運動模式下都能取得較好的檢測結(jié)果。當(dāng)物體運動緩慢時,如第3 段視頻,MSNC 算法能夠得到較完整的顯著圖,而其他算法在車身位置易發(fā)生空洞檢測,如第1、2 段視頻。與其他算法相比,本文算法提取的顯著性圖中背景區(qū)域包含的噪聲較少,顯著物體更凸顯,表明在背景復(fù)雜以及低對比度的場景中三重網(wǎng)絡(luò)定位更準(zhǔn)確。此外,針對遮擋問題(如第4 段視頻),MSNC 算法提取的顯著性圖與真值圖具有較高的一致性,并未存在假陽性的問題。
圖6 不同算法的顯著性檢測結(jié)果對比Fig.6 Saliency detection results comparison among different algorithms
3)效率對比
不同算法的運行速度對比如表5所示。相比當(dāng)前主流算法,本文算法更高效,其運行速度達到21.00 frame/s。其中,F(xiàn)PS表示模型運行速度,即每秒測試的幀數(shù)。MSNC算法運行速度為21.00 frame/s。Ours+表示本文的雙流網(wǎng)絡(luò),運行速度為24.00 frame/s,因此,先驗分支會增加網(wǎng)絡(luò)的耗時,但僅是每秒3幀的差距。即使先驗分支增加了耗時,其運行速度依然比當(dāng)前主流算法快。從表5可以看出,MSNC算法的運行速度是LSTI算法的30倍。由于LSTI算法使用超像素分割方法,因此增加了總體時間消耗。同時MSNC算法的運行速度也是MGA算法的1.5倍,因為本文的網(wǎng)絡(luò)結(jié)構(gòu)比MGA 更加簡單。
表5 不同算法的運行速度對比Table 5 Comparison of running speed of different algorithms
本文提出基于多流網(wǎng)絡(luò)一致性的檢測算法,設(shè)計并使用一種新的三重網(wǎng)絡(luò)結(jié)構(gòu)來提取預(yù)選目標(biāo)區(qū)域的顏色信息、時序信息和先驗特征。利用多流一致性融合模型對三流分支進行優(yōu)化,從而得到最優(yōu)的視頻顯著性檢測結(jié)果。同時使用循環(huán)訓(xùn)練策略防止網(wǎng)絡(luò)產(chǎn)生過擬合,增強網(wǎng)絡(luò)的泛化能力。實驗結(jié)果表明,相比PCSA、SSAV、MGA 等算法,MSNC 算法在Davis 數(shù)據(jù)集上的性能指標(biāo)較優(yōu),具有較高的視頻顯著性檢測精度。后續(xù)將對冗余的卷積層進行剪枝,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),在不降低精確度的前提下加快檢測速度。