摘 要:音視顯著性檢測方法采用的雙流網(wǎng)絡(luò)結(jié)構(gòu),在音視信號不一致時,雙流網(wǎng)絡(luò)的音頻信息對視頻信息產(chǎn)生負面影響,削弱物體的視覺特征;另外,傳統(tǒng)融合方式忽視了特征屬性的重要程度。針對雙流網(wǎng)絡(luò)的問題進行研究,提出了一種基于視覺信息補償?shù)亩嗔饕粢曪@著性算法(MSAVIC)。首先,在雙流網(wǎng)絡(luò)的基礎(chǔ)上增加單獨的視頻編碼分支,保留視頻信號中完整的物體外觀和運動信息。其次,利用特征融合策略將視頻編碼特征與音視頻顯著性特征相結(jié)合,增強視覺信息的表達,實現(xiàn)音視不一致情況下對視覺信息的補償。理論分析和實驗結(jié)果表明,MSAVIC在四個數(shù)據(jù)集上超過其他方法2%左右,在顯著性檢測方面具有較好的效果。
關(guān)鍵詞:音視顯著性檢測;多流網(wǎng)絡(luò);視頻分支;融合策略
中圖分類號:TP391.4 文獻標(biāo)志碼:A
文章編號:1001-3695(2022)07-050-2230-06
doi:10.19734/j.issn.1001-3695.2021.10.0600
基金項目:國家自然科學(xué)基金資助項目(61802215)
作者簡介:王蕓(1997-),女(通信作者),山東青島人,碩士,主要研究方向為音視顯著性檢測、多模態(tài)融合(2019020611@qdu.edu.cn);尹來國(1997-),男,山東濰坊人,碩士,主要研究方向為復(fù)雜網(wǎng)絡(luò)、深度學(xué)習(xí);宋夢柯(1997-),男,安徽亳州人,碩士研究生,主要研究方向為計算機視覺、顯著性檢測.
Multi-stream audio-visual saliency detection of visual information compensation
Wang Yun?,Yin Laiguo,Song Mengke
(College of Computer Science amp; Technology,Qingdao University,Qingdao Shandong 266071,China)
Abstract:Audio-visual saliency detection methods use dual-stream network structure,when audio-visual signals is inconsistent,its’ audio information has negative impact on video and weakens visual features of objects.In addition,the traditional fusion approaches ignore the importance of feature attributes.Study on dual-stream networks,this paper proposed a multi-stream audio-visual of visual information compensation(MSAVIC) saliency algorithm.Firstly,adding independent video encoding branch based on dual-stream held the appearance and motion information of the object in the audio-visual inconsistent case.Secondly,utilizing feature fusion strategy combined visual encoding feature and audio-visual saliency feature to enhance the expression of visual information and realize the compensation of visual information in the case of sound and visual inconsistency.Theoretical analysis and experimental results show that MSAVIC outperforms the others about 2% on four datasets and has a clear effect on saliency detection.
Key words:audio-video saliency detection;multi-stream network;video branch;fusion strategy
0 引言
顯著性檢測模型旨在預(yù)測人類在無任務(wù)場景時的注視情況,模擬最真實的人眼注意機制[1],顯著性檢測模型已被廣泛應(yīng)用于各個學(xué)科領(lǐng)域,包括認知視覺科學(xué)、計算機視覺[2]。
在計算機視覺中,起初卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)對視頻中物體的空間信息進行獲取。隨著視頻包含的運動信息在顯著性檢測中發(fā)揮至關(guān)重要的作用,單一的卷積神經(jīng)網(wǎng)絡(luò)不能識別物體的運動信息,針對物體時空特征的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)運而生。然而,現(xiàn)實中大多視頻是多模態(tài)的,即包括圖像和音頻的動態(tài)序列。為研究視頻中圖像和音頻對人類注意的影響,人們構(gòu)建多模態(tài)音視顯著性網(wǎng)絡(luò)[3]來處理視頻和音頻信息。音頻信號中含有豐富的語義信息,在音頻信號和視頻信號結(jié)合的過程中,其會學(xué)習(xí)相關(guān)性以及調(diào)整各自的語義特征。這種方式模擬人類自底向上的注意力,產(chǎn)生的效果會更接近真實人類的注意力機制。比起傳統(tǒng)的只使用視頻信號作為輸入源,這將大大提高模型的性能。雖然多模態(tài)音視網(wǎng)絡(luò)結(jié)構(gòu)考慮并處理了視頻中同時存在的音頻信號,但在音視特征融合時忽視了音視不一致的情況,比如視頻畫面是踢足球的場景,音頻內(nèi)容卻是觀眾的吶喊聲。此情況音頻信息會干擾原本視頻信息中運動物體的時空有效特征,從而導(dǎo)致預(yù)測效果下降。同時,傳統(tǒng)的融合方式忽視了特征屬性的重要程度,會削弱網(wǎng)絡(luò)的特征融合性能。為解決以上問題,本文提出一個多流音視頻顯著性檢測模型(MSAVIC),該模型增加單獨的視頻編碼網(wǎng)絡(luò)分支來彌補音視內(nèi)容不一致時無效音頻特征對視頻分支提取的運動物體時空特征產(chǎn)生的削弱,然后特征融合策略進一步增強雙流網(wǎng)絡(luò)中音視特征關(guān)于視頻編碼分支中視頻特征的屬性,實現(xiàn)對視頻信息的補償。該模型考慮音視信號存在的一致性問題,增加上述兩個模塊有效提升顯著性檢測的效果。
多流音視顯著性檢測模型(MSAVIC)在四個數(shù)據(jù)集上進行端到端訓(xùn)練,這四個數(shù)據(jù)集中包括在自由觀看視頻且基于視頻和音頻信息同時存在的情況下收集的用戶眼動數(shù)據(jù),將其作為真實顯著性圖。數(shù)據(jù)集由多種類型的視頻組成,包括好萊塢電影、紀(jì)錄片等。實驗結(jié)果表明,MSAVIC在多個指標(biāo)上超過當(dāng)前的主流方法,證實單獨的視頻編碼網(wǎng)絡(luò)以及特征屬性融合策略對音視頻顯著性檢測的有效性。
本文設(shè)計一個多流音視顯著性檢測網(wǎng)絡(luò),采用一種將單獨的視頻編碼分支和多模態(tài)音視頻網(wǎng)絡(luò)進行有效融合的方式,并在四個數(shù)據(jù)集上比較了所提方法和目前存在的顯著性檢測方法。
1 相關(guān)工作
1.1 視覺顯著性模型
視頻顯著性有了廣泛的發(fā)展,以預(yù)測人們在圖像[4]或視頻[5]中注視的位置。早期的視頻顯著性檢測通常采用原始CNN模型進行顯著性檢測[6]。隨后,人們對原始CNN模型加以改變并對網(wǎng)絡(luò)進行端到端訓(xùn)練來預(yù)測視頻顯著性[7]。文獻[4]提出一個雙流的CNN架構(gòu),將RGB幀和光流序列提供給這兩個流。最近,具有時間聚合作用的3D全卷積神經(jīng)網(wǎng)絡(luò)在視頻顯著性檢測領(lǐng)域被廣泛應(yīng)用,基于任何幀的預(yù)測都可以通過有限的過去幀來預(yù)測的假設(shè)。常見的視頻網(wǎng)絡(luò)結(jié)構(gòu)如圖1(a)所示,通過3D卷積提取視頻幀的時空信息,同步處理時間和空間特征。文獻[8]使用S3D作為編碼器來提取圖像的空間特征,同時聚合所有的時間序列,以生成一個高分辨率預(yù)測圖。這些方法并沒有考慮音頻信息對顯著性的影響,因此人們開始將音頻信息作為網(wǎng)絡(luò)輸入的一部分與視頻信號共同預(yù)測顯著性。
1.2 音頻視頻顯著性模型
文獻[9]通過聲音和視覺的自然同步將聲音看做是監(jiān)督信號,而SoundNet[10]將視覺圖像作為對聲音的監(jiān)督,它利用視覺和聲音之間的自然同步來學(xué)習(xí)聲音的表示。這些方法利用了兩種模態(tài)的相關(guān)性和共性,在使用一種模態(tài)的同時學(xué)習(xí)了另一種模態(tài)的表示。音視同步關(guān)系已被用于跨模態(tài)檢索[11]、圖像中的聲音定位[12]、場景分析[13]、聲音分類[14]、時間事件定位[15]等任務(wù)。文獻[16]研究了人類從日常聽到的聲音中關(guān)聯(lián)物體和事件。該研究闡明了人類如何從事件中找到與其相關(guān)的視覺和聲音域。相關(guān)方法分析了視覺信息和聲音定位之間的關(guān)系。
這些方法表明與聲音相關(guān)的視覺信息可以提高搜索效率[17]以及定位的準(zhǔn)確性[18]。文獻[19]擴展了人類對三維空間的視覺信息定位的認識。處理音頻和視頻信息的網(wǎng)絡(luò)結(jié)構(gòu)如圖1(b)所示,1D卷積處理的音頻信號與3D卷積處理的視頻信號融合,彌補了圖1(a)中僅處理視頻內(nèi)容的問題,使得可以處理大量有音頻信息的視頻數(shù)據(jù)集。DAVE[3]提出一個深度視聽顯著性模型,整合了視頻和音頻信息,使用雙流3D-CNN將視覺和音頻信息編碼為特征向量,然后將這兩個特征信息連接起來,對融合后的特征進行解碼得到最終的預(yù)測圖。在音視信息不一致的情況下,融合后的特征缺失了原本視頻分支編碼的部分特征向量,導(dǎo)致融合特征損失運動物體的原有運動和顏色特征,對預(yù)測結(jié)果產(chǎn)生負面影響。對于以上問題,本文提出多流音視顯著性檢測方法(MSAVIC),如圖1(c)所示,在音視不同步的情況下音頻信號會對視覺信息產(chǎn)生破壞,進而產(chǎn)生融合后的特征中包含的原有視頻信息缺失問題。增加視頻編碼網(wǎng)絡(luò)目的是處理此問題,通過視頻編碼網(wǎng)絡(luò)處理和保留視頻特征以保證完整性,以對融合后的特征進行視覺信息補償并增強顯著性檢測任務(wù)中起主導(dǎo)作用的視覺信息。最后,再將多流網(wǎng)絡(luò)的輸出特征通過特征屬性融合方式產(chǎn)生最終顯著圖。
1.3 多流融合模型
隨著技術(shù)的發(fā)展,許多視頻顯著性模型出現(xiàn),MGA[20]作為一種視頻雙流網(wǎng)絡(luò),利用外觀分支和光流分支分別提取特征,并采用一種新穎的融合方式實現(xiàn)特征間信息的有效融合,其通過特征間的交互可以學(xué)習(xí)不同特征之間的相關(guān)性,實現(xiàn)特征屬性權(quán)重的平衡,進而突出顯著性物體的位置特征。不過,該融合模型僅考慮視覺模態(tài),沒有考慮音頻的影響作用。
考慮到音頻信息對視覺模型的影響,人們嘗試構(gòu)建音視注意顯著性模型。在DAVE提出的雙流音視網(wǎng)絡(luò)中,網(wǎng)絡(luò)的兩個輸出特征被簡單地連接起來作為最終的融合策略,這將限制特征之間相關(guān)性的學(xué)習(xí)與融合。文獻[21]設(shè)計了一個視聽注意模型,在特征融合過程中,將特征映射到相同的空間結(jié)構(gòu)中,尋找特征投影間的最大相關(guān)性,并標(biāo)準(zhǔn)化相關(guān)性,但標(biāo)準(zhǔn)化的閾值存在一定的誤差。針對上述問題,本文采用一種獨特的三流網(wǎng)絡(luò)融合策略,保證在考慮音頻的情況下,特征間能實現(xiàn)良好的交互效果。
2 多流音視網(wǎng)絡(luò)結(jié)構(gòu)
本文基于視覺信息補償?shù)亩嗔饕粢曪@著性檢測網(wǎng)絡(luò)使用三流網(wǎng)絡(luò)結(jié)構(gòu)處理視頻段的音視信息,增加視頻編碼網(wǎng)絡(luò)單獨處理視頻信號,保證視頻特征的完整性,同時采用特征屬性融合方式(feature attribute fusion,F(xiàn)AF)進行特征融合以達到最優(yōu)顯著效果。
本文提出的多流網(wǎng)絡(luò)結(jié)構(gòu)包括視頻編碼網(wǎng)絡(luò)模塊用來編碼視頻中語義豐富的時空特征。由于音頻信息具有不穩(wěn)定性,在不同的視覺場景下,大多數(shù)音頻信號不與顯著物體有關(guān)聯(lián)甚至不與場景內(nèi)容相關(guān),此種情況下將音頻特征與視頻特征進行融合會導(dǎo)致無關(guān)的音頻特征對視頻特征產(chǎn)生不良影響,進而導(dǎo)致融合后的特征存在信息受損和缺失問題。而且,這種影響是使用擬合方法無法彌補的,如果增加單獨的視頻網(wǎng)絡(luò)來處理并提取完整的視頻語義信息可以很好地解決問題。為此需要一個視頻網(wǎng)絡(luò)對視頻信號進行處理和保存,并通過有效的融合機制將該特征用于補充音視融合后缺失的部分信息。其次,音頻特征提取模塊用來處理音頻語義信息,將音頻波形通過卷積層提取語義內(nèi)容。將基于ResNet50網(wǎng)絡(luò)結(jié)構(gòu)提取的視頻特征與音頻特征進行融合得到音視頻顯著特征。最后,特征屬性融合模塊(FAF)將音視頻顯著特征和單獨的視頻編碼網(wǎng)絡(luò)輸出特征進行融合,補充并增強音視顯著特征中關(guān)于視覺信息特征的屬性,使最終顯著性圖更接近真實人的眼動數(shù)據(jù)。
MSAVIC算法如圖2所示,該網(wǎng)絡(luò)由視頻編碼網(wǎng)絡(luò)、視頻分支、音頻分支以及特征屬性融合模塊(FAF)組成。其中,三重網(wǎng)絡(luò)分支都采用卷積神經(jīng)網(wǎng)絡(luò)提取區(qū)域特征和音頻語義。采用雙流視頻網(wǎng)絡(luò)可以增強彼此語義信息的補充,文獻[22]對兩種不同架構(gòu)的網(wǎng)絡(luò)進行分析處理,發(fā)現(xiàn)采用不同架構(gòu)的視頻處理網(wǎng)絡(luò)可以互補不同網(wǎng)絡(luò)提取的語義信息。編碼網(wǎng)絡(luò)采用S3D作為編碼器在時間維度進行編碼,輸入連續(xù)視頻幀信息。S3D網(wǎng)絡(luò)由于具有輕量級特性,并在大量數(shù)據(jù)集上進行過預(yù)訓(xùn)練,能夠快速有效地遷移學(xué)習(xí)。視頻分支采用ResNet50[23]網(wǎng)絡(luò)僅對幀信息進行編碼,音頻分支采用SoundNet網(wǎng)絡(luò)編碼音頻信號,輸入連續(xù)的音頻波段。視頻分支網(wǎng)絡(luò)在部分音視數(shù)據(jù)集上進行過預(yù)訓(xùn)練,因此具有較好的特征提取性能。特征屬性融合模塊(FAF)融合后的特征輸入到解碼器中,解碼器對多級融合特征解碼得到預(yù)測顯著圖。
2.1 音頻分支網(wǎng)絡(luò)
孤立的音頻分支無法對顯著性檢測帶來良好的效果,通常需要將音頻與視頻相結(jié)合,借助音頻的輔助作用,挖掘音頻與視頻之間的內(nèi)在關(guān)系。常見的處理音頻的網(wǎng)絡(luò)SoundNet通過視頻場景來學(xué)習(xí)音頻表示,在與視頻特征的交互中加強音頻網(wǎng)絡(luò)模型對場景信息的識別。本文音頻分支網(wǎng)絡(luò)采用的是在Kinetics數(shù)據(jù)集上經(jīng)過學(xué)習(xí)場景信息得到的預(yù)訓(xùn)練模型,該模型能更有效地識別場景中的聲音信號。送入SoundNet的輸入數(shù)據(jù)是經(jīng)過梅爾頻譜處理的音頻波形。音頻波形首先經(jīng)過海明窗口,其強調(diào)當(dāng)前音頻信號的波形位置,之后將該波形信息送入音頻信息編碼網(wǎng)絡(luò)的前七層輸出音頻特征。七層音頻卷積網(wǎng)絡(luò)處理過程如下:
M1=f′(f(A))(1)
M2=f′(f(M1))(2)
M3=f(M2)(3)
M4=f(M3)(4)
M5=f′(f(M4))(5)
M6=f(M5)(6)
M7=f′(f(M6))(7)
其中:A表示經(jīng)過梅爾頻譜處理的音頻波形;f(·)表示經(jīng)過一維卷積層、BN層、ReLU激活函數(shù);f′(·)表示最大池化層。
良好的音頻網(wǎng)絡(luò)能夠加強網(wǎng)絡(luò)對場景信息的識別,音頻與視頻處理的信號不同,但音頻特征能強化視頻網(wǎng)絡(luò)的處理結(jié)果,對結(jié)果的預(yù)測起到不可忽視的作用。
2.2 視頻編碼網(wǎng)絡(luò)
由于視頻分支的輸出特征直接與音頻分支的特征進行融合,在音視信號不一致的情況下,雙流網(wǎng)絡(luò)融合易導(dǎo)致視覺信息受損,視頻特征無法原樣保留原有視頻信號中視覺區(qū)域物體的運動特征和顏色特征。為保證預(yù)測的最終圖在音頻一致與否的情況下都不丟失視頻信號中原有的特征屬性,本文采用單獨的視頻編碼網(wǎng)絡(luò)處理并保存視覺區(qū)域的特征向量,強調(diào)單獨視頻信號對視頻顯著性的作用。其中,視頻編碼網(wǎng)絡(luò)中的輸入數(shù)據(jù)為x∈?3×T×H×W,T=16,H=128,W=128。視頻編碼網(wǎng)絡(luò)包括四個卷積塊block1、block2、block3、block4,每個卷積塊在編碼過程中,將連續(xù)的視頻幀依次經(jīng)過卷積塊網(wǎng)絡(luò)來提取不同尺度的時空視頻特征。隨后,該網(wǎng)絡(luò)聚合時間信息的過程中同時對編碼的時空特征進行空間解碼,該過程采用帶有輔助池化的轉(zhuǎn)置卷積實現(xiàn),最終得到多個視頻幀的特征。
block1卷積塊的操作過程如下:
X1=f2(x)(8)
X2=f1(X1)(9)
Z1=f2(X2)(10)
block2卷積塊操作過程如下:
X1=f1(Z1)(11)
X2=f2(f1(X1))(12)
X3=f2(f1(X2))(13)
X4=f1(X3)(14)
Z2=Cat(X1,X2,X3,X4)(15)
block3、block4卷積塊的操作分別重復(fù)block2的處理過程五次和兩次。其中,f(·)代表特征向量依次經(jīng)過3D卷積、批歸一化、ReLU激活函數(shù);f1(·)代表經(jīng)過一次f(·)操作;f2(·)代表經(jīng)過兩次f(·)操作;Cat(·) 表示特征在通道維度上的疊加;Xn(n=1,…,4)代表各網(wǎng)絡(luò)層的輸出特征;Zn(n=1,…,2)代表各卷積塊的最終輸出特征。
2.3 視頻分支網(wǎng)絡(luò)
視頻分支輸入數(shù)據(jù)大小為x∈?3×T×H×W,T=16,H=112,W=112,該網(wǎng)絡(luò)采用四層3DResNet卷積網(wǎng)絡(luò)對視頻幀信息編碼后進行特征提取,同時處理空間和時間維度得到時空特征。其中,四層卷積的輸出為Xm(m=1,…,4),代表不同尺度的時空特征。每一層的網(wǎng)絡(luò)結(jié)構(gòu)按照ResNet50[23]網(wǎng)絡(luò)進行處理,為了增強特征表示最顯著區(qū)域的能力,在每層輸出的特征圖Xm和注意圖Zm之間采用注意力機制。注意力機制處理過程為
Zm=σ(f(Xm))(16)
Xm=(1+Zm)⊙Xm(17)
其中:Xm代表第一層卷積或?qū)蛹壘矸e處理后的時空特征;f(·)表示卷積核為1的卷積層;σ表示softmax激活函數(shù),得到空間特征圖Zm。將空間特征圖Zm與原特征Xm相乘再相加,來增強特征的時空屬性。
由于空間信息的提取相較時間信息簡單,處理場景信息時需格外注意運動信息。視頻編碼網(wǎng)絡(luò)關(guān)注幀內(nèi)空間特征和幀間運動特征的同時更強調(diào)運動信息,確保運動特征的完整性。另外,視頻編碼網(wǎng)絡(luò)處理的視頻特征起到對音視頻融合特征中損失的視覺信息的補充和增強作用。
2.4 特征屬性融合模塊
傳統(tǒng)的融合方式包括逐元素加法、逐元素乘法、疊加操作等方法,但這幾種傳統(tǒng)的融合方法存在一些問題。它們并沒有考慮兩個特征在交互過程中的權(quán)重問題,簡單的相加、相乘、疊加方式忽略了特征屬性在融合過程中的比重情況和貢獻程度,其中疊加方式將兩個特征按照一個維度進行堆疊。為保證編碼網(wǎng)絡(luò)的輸出特征與音視顯著性特征的融合達到最優(yōu)效果,自適應(yīng)學(xué)習(xí)兩個特征的權(quán)重關(guān)系,本文采用特征屬性融合模塊(FAF)。該模塊與前述三種傳統(tǒng)方式的不同之處在于其在訓(xùn)練過程中會自適應(yīng)學(xué)習(xí)每個分支在網(wǎng)絡(luò)中的權(quán)重,充分利用分支間的交互信息,保證每個分支對整個網(wǎng)絡(luò)的貢獻程度達到最優(yōu)效果。
特征屬性融合模塊的內(nèi)在邏輯是,對視頻編碼分支的特征應(yīng)用空間注意力,也就是視頻編碼網(wǎng)絡(luò)的輸出特征在空間上對音頻顯著性特征進行增強。通過全局平均池化收集增強后特征的全局表示,進而得到一個通道級注意力權(quán)重,其強調(diào)與聽視覺信號密切相關(guān)的重要通道。該權(quán)重大小表明視頻特征屬性的重要程度。學(xué)習(xí)到權(quán)重值乘以增強后的特征表示,進一步增強聽視覺信息間的內(nèi)在聯(lián)系。最后,用融合了音視頻的特征對特征中顯著區(qū)域信息作為補充。
FAF將得到的音頻顯著性特征與視頻編碼網(wǎng)絡(luò)輸出的視頻特征自適應(yīng)交互融合得到最終的顯著性圖。參考MGA[20]融合方式,F(xiàn)AF的具體融合方式如圖3所示。其中:Zav、Zv1、Zv2、Za分別表示音視分支融合得到的音頻顯著性特征、視頻分支的輸出特征、視頻編碼網(wǎng)絡(luò)輸出的視頻特征以及音頻分支的音頻特征;表示逐元素相乘。首先,音視網(wǎng)絡(luò)的輸出特征Za、Zv經(jīng)過全連接層得到一維向量,并通過權(quán)重進行特征之間相關(guān)性的學(xué)習(xí),得到最終的融合特征Zav。另外,視頻編碼網(wǎng)絡(luò)輸出的視頻特征Zv2經(jīng)過3D卷積核為1×1的卷積和sigmoid激活函數(shù)后得到激活的時空特征權(quán)重圖,利用視頻特征增強音視融合特征的空間注意力。其次,音頻顯著性特征Zav與時空權(quán)重圖進行逐元素相乘得到Z′av,目的是利用含有豐富信息的視頻特征增強音視定位特征中損失的價值信息,Z′av經(jīng)過全局平均池化后的特征通過全連接層FC和softmax激活后得到相應(yīng)權(quán)重值,這些權(quán)重值與Zav進行融合得到最終的特征Z″av,最后經(jīng)過1×1卷積得到最終的顯著性圖結(jié)果。特征屬性融合模塊不僅保留了音視融合后的特征信息,而且利用視頻流對音視特征中的信息進行篩選和補充,解決了音頻與視頻存在不一致的問題,用視頻流補充音視融合特征缺失的視頻時空信息。
特征屬性融合模塊的應(yīng)用實現(xiàn)了特征間的有效交互,網(wǎng)絡(luò)在訓(xùn)練過程中自適應(yīng)學(xué)習(xí)特征間的屬性關(guān)系,使融合效果達到最優(yōu)。特征屬性融合方式可以對音視頻融合特征進行補充,在音視一致與否的情況下都能保證預(yù)測結(jié)果的準(zhǔn)確性,克服傳統(tǒng)融合方式的局限性。
網(wǎng)絡(luò)訓(xùn)練過程中使用的損失函數(shù)為交叉熵損失函數(shù),為學(xué)習(xí)網(wǎng)絡(luò)中的參數(shù)w,損失函數(shù)的公式為
LCE(W|P,Yden)=-∑x,yYden(x,y)⊙log(P(x,y;W))+
(1-Yden(x,y))⊙(1-log(P(x,y:W)))(18)
其中:x、y表示圖像的坐標(biāo)像素點位置;Nx×Ny代表圖片的大?。活A(yù)測的顯著性圖表示為P∈[0,1]Nx×Ny;真值顯著性圖表示為Yden∈[0,1]Nx×Ny;Yden(x,y)表示真值顯著性圖的一個像素點值;P(x,y)表示網(wǎng)絡(luò)的預(yù)測顯著性圖中的一個像素點值;log(·)表示對數(shù)函數(shù);⊙表示逐元素乘法;w表示訓(xùn)練網(wǎng)絡(luò)中的參數(shù)。
3 實驗細節(jié)
3.1 評估指標(biāo)
為客觀評估本文方法的有效性和真實性,本文采用最廣泛使用的顯著性評估指標(biāo)[24]對本文的實驗結(jié)果進行評估。其中包括NSS、CC、SIM和AUC-Judd。
1)標(biāo)準(zhǔn)化掃描路徑顯著性(NSS)
將預(yù)測顯著性圖中與真實顯著性圖中值為1的數(shù)值取平均值就是NSS,NSS值越大說明模型性能越好。計算公式為
NSS=1N∑Ni=1S^(i)×F(i)(19)
其中:i代表像素點;F表示真實顯著性圖;S^表示經(jīng)歸一化后的預(yù)測顯著性圖;S^=(S-μ)/σ,μ和σ是預(yù)測顯著性圖的平均值和標(biāo)準(zhǔn)差;N代表顯著性圖的樣本點數(shù)。
2)線性相關(guān)系數(shù)(CC)
CC用來評估預(yù)測的顯著性圖和真實顯著性圖之間的線性相關(guān)性,CC越大說明模型性能越好。計算公式為
CC=cov(S,G)σS×σG(20)
其中:S和G分別代表預(yù)測和真實顯著性圖;cov(S,G)代表兩者的方差;σS、σG代表兩者的標(biāo)準(zhǔn)差。
3)矩陣相似性評估(SIM)
SIM用來評估模型的預(yù)測顯著性圖和真實顯著性圖分布之間的相似性,SIM越大說明模型性能越好。計算公式為
SIM=∑imin(S(i),G(i))(21)
其中:S和G分別代表預(yù)測和真實顯著性圖的分布;∑iS(i)=1,∑iG(i)=1。
4)曲線下的面積(AUC)
AUC是在坐標(biāo)圖上對預(yù)測顯著圖分類描點,從而繪制成曲線圖。曲線下面積稱之為AUC,AUC越大說明算法檢測性能越好。
3.2 數(shù)據(jù)集
為了訓(xùn)練和評估提出的多流音視頻融合顯著性網(wǎng)絡(luò),本文選用AVAD、DIEM、Coutrot2和ETMD四個不同的數(shù)據(jù)集。上述數(shù)據(jù)集的視頻類型各不相同,目的是用不同類型的視頻來訓(xùn)練網(wǎng)絡(luò)獲得效果更好的顯著性模型,加強網(wǎng)絡(luò)的適用性。
AVAD[21]數(shù)據(jù)集由45個短視頻組成,每個視頻有5~10 s的音視場景,比如跳舞、彈吉他、鳥叫等。45個短視頻中有30個視頻用做訓(xùn)練集,15個視頻用做測試集。
Coutrot2[25]由15個視頻段組成,視頻場景是4個人在開會討論。這個數(shù)據(jù)集具有極強的音視同步性,人物的動作和聲音具有高度的一致性。15個短視頻中有10個用做訓(xùn)練集,5個用做測試集。
DIEM[26]由84個不同類型的電影片段組成,包括廣告、紀(jì)錄片、電影預(yù)告片等。因此,該數(shù)據(jù)集的大部分視頻在同一時間內(nèi)無法形成音頻內(nèi)容和視頻信息的同步。64個視頻用做訓(xùn)練集,20個視頻用做測試集。
ETMD[27]由12個視頻組成,它們來自6個不同的好萊塢電影。8個視頻用做訓(xùn)練集,4個視頻用做測試集。
3.3 實驗設(shè)置
本文實驗是基于PyTorch框架實現(xiàn)的,在RTX2080Ti機器上進行所有的訓(xùn)練和測試工作。為了降低實驗的運行時間和運行成本,訓(xùn)練過程中視頻分支網(wǎng)絡(luò)的視頻幀由大小為112×112隨機連續(xù)的16幀RGB圖片和相應(yīng)的音頻波形組成。訓(xùn)練過程中batchsize設(shè)置為10,采用多級學(xué)習(xí)率且利用學(xué)習(xí)率衰減策略使每個模塊的網(wǎng)絡(luò)學(xué)習(xí)達到最優(yōu),學(xué)習(xí)率在30個epoch之后每15個epoch降低10倍。視頻分支的初始學(xué)習(xí)率為1E-6,音頻分支初始學(xué)習(xí)率為1E-5,優(yōu)化器采用0.9動量的SGD讓梯度的擺動幅度變得更小。視頻編/解碼分支的訓(xùn)練模型是基于TASED-Net[8]的預(yù)訓(xùn)練模型在上述四個數(shù)據(jù)集上的微調(diào),音頻分支的訓(xùn)練模型以SoundNet的預(yù)訓(xùn)練模型在四個音視數(shù)據(jù)集上的微調(diào)。在訓(xùn)練過程中隨機生成訓(xùn)練樣本且進行隨機反轉(zhuǎn)和空間轉(zhuǎn)換進行數(shù)據(jù)增強。測試階段,為得到16幀圖片采用滑動窗口平移一幀獲得下一個16幀數(shù)據(jù),得到的連續(xù)視頻幀沒有采用增強操作。
4 實驗結(jié)果與分析
4.1 消融實驗
4.1.1 多流網(wǎng)絡(luò)融合的有效性
為驗證多流網(wǎng)絡(luò)融合方式的有效性,本文比較了多流音視融合方法(MSAVIC)和多模態(tài)音視頻網(wǎng)絡(luò)算法(DAVE)的性能。如表1前兩行數(shù)據(jù)所示,DAVE是音視雙流網(wǎng)絡(luò)在ETMD、Coutrot2、AVAD、DIEM數(shù)據(jù)集上的評估結(jié)果,MSAVIC代表本文提出的三流音視頻融合算法。在音視頻信號一致性不強的數(shù)據(jù)集ETMD、DIEM上,MSAVIC在四個指標(biāo)上均比DAVE的效果好,說明MSAVIC產(chǎn)生的假陽性問題少,原因在于MSAVIC中額外的視頻編碼網(wǎng)絡(luò)保留了完整的視頻信息,使得在音視信號不一致的場景下信息沖突導(dǎo)致音視融合特征出現(xiàn)的錯誤得到很好的抑制。因此,這也充分表明額外的視頻編碼網(wǎng)絡(luò)能較好地處理彌補音頻對視頻信號的抑制問題具有良好的特征增強優(yōu)勢。而且,在音視信號一致性強的數(shù)據(jù)集AVAD、Coutrot2上,MSAVIC在NSS、CC、AUC-J指標(biāo)上的性能超過多模態(tài)音視網(wǎng)絡(luò)DAVE。原因在于視頻編碼網(wǎng)絡(luò)產(chǎn)生的有效特征能進一步對音視融合特征進行增強,實現(xiàn)不同網(wǎng)絡(luò)結(jié)構(gòu)輸出特征的信息互補,使得視覺區(qū)域內(nèi)的顯著物體更加突出。這充分表明單獨的視頻編碼網(wǎng)絡(luò)對音視融合特征的補充作用,使得在音視同步與否的情況下,都能對時空信息特征進行補充和增強,突出顯著物體的區(qū)域。不過,在音視一致數(shù)據(jù)集AVAD、Coutrot2上的指標(biāo)不如非音視一致數(shù)據(jù)集ETMD、DIEM的指標(biāo)提升幅度大。這也說明了在音視信號不同步時,不準(zhǔn)確的音頻特征會限制視頻特征對顯著性結(jié)果的預(yù)測,如果使用完整的視頻信息進行特征彌補和增強,可以有效解決此問題。
4.1.2 特征屬性融合的有效性
為測試經(jīng)過編/解碼的視頻信號與音頻特征融合方式的有效性,本文比較了特征屬性融合方式和普通融合方式的性能。如表2所示,在兩個特征融合過程中,特征屬性融合方式在四個數(shù)據(jù)集上的性能相較普通融合方式都有不同程度的提升。在AVAD數(shù)據(jù)集上相比疊加操作,NNS指標(biāo)的性能從2.87提升到3.17,在NSS指標(biāo)提升30%。在ETMD數(shù)據(jù)集上,CC指標(biāo)從0.494到0.553,SIM和sAUC指標(biāo)略低于加法融合方式,但差距不超過0.6%。相較于傳統(tǒng)方式,特征屬性融合模塊帶來了較好的性能提升,原因在于傳統(tǒng)融合方式簡單地將特征連接起來,沒有考慮特征對顯著性區(qū)域的貢獻度,而MSAVIC通過不同特征間的交互,學(xué)習(xí)特征對預(yù)測顯著區(qū)域的重要性,進而增大相應(yīng)的融合權(quán)重。而且,本文的融合方式整合了三流網(wǎng)絡(luò)的輸出特征,使各特征之間進行意義交互,極大地發(fā)揮了不同特征對顯著性預(yù)測的作用。
4.2 性能分析
4.2.1 定量分析
為充分表明本文方法的有效性,本節(jié)采用CC、NSS、SIM、AUC-J作為評價指標(biāo)與當(dāng)前主流方法進行比較,主流算法包括ACLNet[28]、DeepVS[29]、TASED[8]、DAVE[3]。定量分析結(jié)果如表1所示,本文方法在音頻與視頻不一致的數(shù)據(jù)集(DIEM、ETMD)上有明顯的效果提升。在CC和SIM指標(biāo)上MSAVIC算法相較于DAVE在DIEM數(shù)據(jù)集上提升1%左右,在NSS指標(biāo)上提升3%。在ETMD數(shù)據(jù)集上MSAVIC算法在四個指標(biāo)均超過DAVE,CC指標(biāo)上提升將近2%,NSS指標(biāo)提升更高達到6%。本文的方法在DIEM數(shù)據(jù)集的AUC-J指標(biāo)上低于TASED方法,但是差距僅有0.4%。本文的方法在DIEM、ETMD數(shù)據(jù)集上取得較好的效果,原因是在這兩個數(shù)據(jù)集中,音頻與視頻之間的語義同步性略低,利用視頻編碼網(wǎng)絡(luò)可以有效解決音視信號不一致導(dǎo)致無關(guān)音頻對視頻信號的削弱問題,對無效音頻的抑制作用進行改善,進而提升顯著性檢測效果。另外,特征屬性融合方式突破傳統(tǒng)融合方式的低效性,通過特征的相互學(xué)習(xí)加強有用信息的權(quán)重值,進而強調(diào)顯著性物體所在區(qū)域的突出度。
4.2.2 可視化結(jié)果
在不同的場景下,圖4對比了MSAVIC算法與其他算法,結(jié)果顯示,在不同的音視環(huán)境下,MSAVIC算法都能取得良好的檢測結(jié)果。在音視頻信號不同步的場景圖第4行所示,MSAVIC算法的檢測效果更接近真實圖,而雙流音視頻網(wǎng)絡(luò)DAVE以及其他的單流視頻網(wǎng)絡(luò)對場景中顯著區(qū)域的人物定位出現(xiàn)偏差。在第二個場景中,DAVE算法沒有準(zhǔn)確定位到音頻信源,而是對人臉進行了定位,與多流音視頻融合網(wǎng)絡(luò)(MSAVIC)相比,MSAVIC不僅對人臉進行識別,而且對打擊樂的位置進行定位。由此可見,MSAVIC算法在任何場景下都能準(zhǔn)確定位到視覺場景中最顯著的區(qū)域,更接近人眼注意。
5 結(jié)束語
本文提出了一種全新的基于視覺信息補償?shù)亩嗔髂B(tài)時空顯著性檢測模型,有效地解決了含有音頻信息的視頻顯著性檢測問題。該網(wǎng)絡(luò)模型采用一個先進的視頻顯著性網(wǎng)絡(luò)和一個音頻特征網(wǎng)絡(luò),并且利用特征屬性融合模塊將具有音頻時序的特征與時空視頻特征融合。該模型的訓(xùn)練是端到端的,并且在不同的視頻場景中對模型進行評估。與最新的三個方法在四個數(shù)據(jù)集的四個指標(biāo)上對比表明,本文的模型對視頻顯著性檢測提升有較好的效果。未來,本文將進一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),使特征提取和融合算法更高效,并且進一步研究音頻與視頻之間的一致性問題,使音視同步問題得到完善。
參考文獻:
[1]王教金.基于深度學(xué)習(xí)的視頻顯著性檢測及其應(yīng)用[D].濟南:山東財經(jīng)大學(xué),2020.(Wang Jiaojin.Video saliency detection and application based on deep learning[D].Jinan:Shandong University of Finance and Economics,2020.)
[2]Itti L,Koch C.A saliency-based search mechanism for overt and covert shifts of visual attention[J].Vision Research,2000,40(10-12):1489-1506.
[3]Tavakoli H R,Borji A,Rahtu E,et al.DAVE:a deep audio-visual embedding for dynamic saliency prediction[EB/OL].(2019-05-25)[2021-12-22].https://arxiv.org/abs/1905.10693.
[4]Huang Xun,Shen Chengyao,Boix X,et al.Salicon:reducing the semantic gap in saliency prediction by adapting deep neural networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:262-270.
[5]Khatoonabadi S H,Vasconcelos N,Bajic I V,et al.How many bits does it take for a stimulus to be salient?[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:5501-5510.
[6]Kümmerer M,Theis L,Bethge M.Deep gaze I:boosting saliency prediction with feature maps trained on ImageNet[EB/OL].(2015-04-09).https://arxiv.org/abs/1411.1045.
[7]Pan Junting,Sayrol E,Giro-I-Nieto X,et al.Shallow and deep convolutional networks for saliency prediction[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:598-606.
[8]Min K,Corso J.TASED-Net:temporally-aggregating spatial encoder-decoder network for video saliency detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:2394-2403.
[9]Owens A,Wu Jiajun,Mcdermott J H,et al.Ambient sound provides supervision for visual learning[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:801-816.
[10]Aytar Y,Vondrick C,Torralba A.SoundNet:learning sound representations from unlabeled video[C]//Proc of the 30th International Conference on Neural Information Processing Systems.2016:892-900.
[11]Arandjelovic Relja,Zisserman A.Objects that sound[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:451-466.
[12]Senocak A,Oh T H,Kim J,et al.Learning to localize sound source in visual scenes[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4358-4366.
[13]Owens A,Efros A A.Audio-visual scene analysis with self-supervised multisensory features[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:639-658.
[14]Liu Yufan,Zhang Songyang,Xu Mai,et al.Predicting salient face in multiple-face videos[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3224-3232.
[15]Tian Yapeng,Shi Jing,Li Bochen,et al.Audio-visual event localization in unconstrained videos[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:252-268.
[16]Gaver W W.What in the world do we hear?An ecological approach to auditory event perception[J].Ecological Psychology,1993,5(1):1-29.
[17]Jones B,Kabanoff B.Eye movements in auditory space perception[J].Perception amp; Psychophysics,1975,17(3):241-245.
[18]Shelton B R,Searle C L.The influence of vision on the absolute identification of sound-source position[J].Perception amp; Psychophysics,1980,28(6):589-596.
[19]Majdak P,Goupell M J,Laback B.3-D localization of virtual sound sources:effects of visual environment,pointing method,and training[J].Attention,Perception,amp; Psychophysics,2010,72(2):454-469.
[20]Li Haofeng,Chen Guanqi,Li Guanbin,et al.Motion guided attention for video salient object detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:7273-7282.
[21]Min Xiongkuo,Zhai Guangtao,Gu Ke,et al.Fixation prediction through multimodal analysis[J].ACM Trans on Multimedia Computing,Communications,and Applications,2016,13(1):1-23.
[22]Wu Zhenyu,Li Shuai,Chen Chenglizhao,et al.Deeper look at image salient object detection:bi-stream network with a small training dataset[J].IEEE Trans on Multimedia,2022,24:73-86.
[23]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[24]Bylinskii Z,Judd T,Oliva A,et al.What do different evaluation me-trics tell us about saliency models?[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,41(3):740-757.
[25]Coutrot A,Guyader N.How saliency,faces,and sound influence gaze in dynamic social scenes[J].Journal of Vision,2014,14(8):5-5.
[26]Mital P K,Smith T J,Hill R L,et al.Clustering of gaze during dynamic scene viewing is predicted by motion[J].Cognitive Computation,2011,3(1):5-24.
[27]Tsiami A,Koutras P,Katsamanis A,et al.A behaviorally inspired fusion approach for computational audiovisual saliency modeling[J].Signal Processing:Image Communication,2019,76:186-200.
[28]Wang Wenguan,Shen Jianbing,Xie Jianwen,et al.Revisiting video saliency prediction in the deep learning era[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,43(1):220-237.
[29]Jiang Lai,Xu Mai,Liu Tie,et al.DeepVS:a deep learning based video saliency prediction approach[M]// Ferrari V,Hebert M,Sminchi-sescu C,et al.Computer Vision.Cham:Springer,2018:625-642.