張麗娟,崔天舒,井佩光,蘇育挺
(天津大學 電氣自動化與信息工程學院,天津300072)
伴隨著智能手機和移動互聯(lián)網(wǎng)的迅速普及,短視頻作為一種新型的用戶生成內(nèi)容,已經(jīng)廣泛出現(xiàn)在各個社交平臺上,如抖音、Instagrm 和Vine。據(jù)抖音官方數(shù)據(jù)顯示,截至2020年1月5日,其日活躍用戶數(shù)已經(jīng)突破4億。與傳統(tǒng)意義上的長視頻相比較,短視頻的時間長度通常被限制在2 min以內(nèi),這使得人們更容易獲取和分享這些視頻。除此之外,短視頻豐富的內(nèi)容和多樣的表現(xiàn)形式為受眾提供了更優(yōu)質(zhì)的用戶體驗,是短視頻受歡迎的另一個原因。
已有的短視頻內(nèi)容分析相關(guān)研究主要包括場景估計[1-3]、短視頻的流行度預(yù)測[4]及短視頻的推薦[5-6]等。例如,Zhang等[1]利用短視頻的文本、音頻和視覺模態(tài)特征解決多媒體場景分類的問題。Wei等[2]采用多模態(tài)特征融合的神經(jīng)網(wǎng)絡(luò)(Neural Multimodal Cooperative Learning,NMCL)解決短視頻場景分類的問題。Nie等[3]致力于分析聲音模態(tài)對于短視頻場景類別預(yù)測的影響。Jing等[4]通過提出一種新穎的低秩多視角學習框架解決短視頻的流行度預(yù)測問題。Liu等[5]基于多模態(tài)特征融合的角度提出用戶-視頻聯(lián)合注意力網(wǎng)絡(luò)(User-Video Co-attention Network,UVCA)解決短視頻的推薦任務(wù)。Shang等[6]提出了面向短視頻大數(shù)據(jù)的推薦系統(tǒng)實現(xiàn)短視頻的推薦。本文致力于解決短視頻標簽分類問題。
近年來,隨著計算機視覺領(lǐng)域理論的飛速發(fā)展和圖像相關(guān)任務(wù)的理論日益成熟,人們越來越多地去解決視頻相關(guān)的問題而不是圖像。從傳統(tǒng)的人工處理獲取視頻特征到現(xiàn)在依賴于神經(jīng)網(wǎng)絡(luò)提取視頻的特征,從原來小范圍的數(shù)據(jù)集到現(xiàn)在大范圍的數(shù)據(jù)集,視頻分類領(lǐng)域的研究已經(jīng)取得了巨大的進步?,F(xiàn)有多模態(tài)特征融合的視頻分類算法主要通過提取不同模態(tài)的特征并進行直接融合以解決分類問題,然而,該視頻分類算法普遍針對的是傳統(tǒng)長視頻,不能直接應(yīng)用于短視頻的分類,主要原因有:①與傳統(tǒng)意義上的長視頻相比,短視頻的時間長度通常只有1~2 min,所以需要在有限時間長度、有限內(nèi)容的視頻中提取出對分類重要的特征。②短視頻的來源廣泛,表現(xiàn)形式多樣,所以短視頻相比較長視頻,具有更高的信息復雜度和冗余度。③現(xiàn)有的特征融合方法多利用多模態(tài)特征之間的公共部分,而忽略了不同模態(tài)特征之間的私有部分。綜上所述,現(xiàn)在的視頻分類算法并不適合解決具有“時短”特性的短視頻分類任務(wù)。
針對上述問題,本文提出了一種端到端的基于深度多模態(tài)特征融合的短視頻分類算法,搭建基于音頻模態(tài)的私有域、視覺模態(tài)的私有域及音視覺模態(tài)的公有域組合而成的域分離網(wǎng)絡(luò),使用相似性損失函數(shù)探尋不同模態(tài)由公有域網(wǎng)絡(luò)提取到的特征相似性,使用差異性損失函數(shù)探尋同一模態(tài)私有域網(wǎng)絡(luò)和公有域網(wǎng)絡(luò)提取到的特征差異性,并使用分類損失指導視頻全局特征的分類。大量實驗結(jié)果表明,本文算法可以很好地解決短視頻的分類問題。
本文主要從以下2個角度進行闡述:①深度特征學習,主要介紹利用深度卷積網(wǎng)絡(luò)實現(xiàn)對短視頻模態(tài)特征提取的相關(guān)工作;②多模態(tài)特征融合,簡單介紹傳統(tǒng)特征融合方式和現(xiàn)在普遍的特征融合方式。
早期的視頻特征提取方法采用2D卷積網(wǎng)絡(luò)學習視頻的每一幀特征,該方法的靈感來源于圖像處理,然而其忽略了連續(xù)視頻幀之間的時間關(guān)聯(lián)性。為了保留時間相關(guān)性,現(xiàn)有很多方法通過聚合視頻的幀特征作為一個整體的視頻特征表示。Long等[7]提出注意力簇網(wǎng)絡(luò)(Attention Cluster Network,ACN),通過采用注意力單元將視頻的局部特征聚合成視頻的全局特征。Ma等[8]通過設(shè)置每一時刻的特征和前一個時刻特征按權(quán)重進行加權(quán)實現(xiàn)特征融合,從而實現(xiàn)視頻分類。近年來,為了充分利用視頻的時空特征,3D卷積網(wǎng)絡(luò)被提出用于學習視頻的連續(xù)幀特征而非單一的視頻幀特征,3D卷積網(wǎng)絡(luò)的輸入?yún)?shù)在保留了視頻批量大小、視頻通道、視頻幀寬度和視頻幀高度4個參數(shù)的基礎(chǔ)上,增添了視頻深度這一參數(shù),用于記錄每一個視頻幀序列內(nèi)的視頻幀數(shù)量。Tran等[9]提出C3D網(wǎng)絡(luò),利用3D卷積提取連續(xù)幀序列的時空域特征,并在視頻分類準確率上取得了巨大的突破。近年來,以3D卷積為基礎(chǔ)推出的一系列視頻特征提取方法被廣泛地應(yīng)用在視頻分類、跟蹤、分割等領(lǐng)域。例如,Carreira等[10]提出I3D網(wǎng)絡(luò),通過在3D卷積網(wǎng)絡(luò)基礎(chǔ)上增加網(wǎng)絡(luò)寬度的方式提高網(wǎng)絡(luò)分類性能。Hara等[11]則將原本應(yīng)用在2D卷積網(wǎng)絡(luò)的ResNet延伸擴展到3D卷積網(wǎng)絡(luò),通過提出ResNet3D以解決視頻分類的相關(guān)問題。Feichtenhofer等[12]提出了SlowFast Network,整個網(wǎng)絡(luò)通過構(gòu)建快慢2個3D卷積網(wǎng)絡(luò)去獲取視頻的全局特征。
然而,相比較傳統(tǒng)的2D卷積網(wǎng)絡(luò),3D卷積網(wǎng)絡(luò)需要更大的參數(shù)量及存儲空間。為了解決該問題,Qiu等[13]通過構(gòu)建P3D網(wǎng)絡(luò),將3D卷積核用空間域的2D卷積及時間域1D卷積進行聯(lián)合表示。Tran等[14]運用R2+1D網(wǎng)絡(luò)將3D卷積網(wǎng)絡(luò)分解為獨立的空間和時間模塊。Xie等[15]在S3D-G網(wǎng)絡(luò)中采用(2D+1D)的卷積核代替I3D中的卷積核。
為了提高短視頻分類的性能,本文采用3D卷積網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),同時還分別應(yīng)用到公有域網(wǎng)絡(luò)和私有域網(wǎng)絡(luò)中,實驗結(jié)果證明了該網(wǎng)絡(luò)架構(gòu)的普適性和有效性。
區(qū)別于傳統(tǒng)的圖像分類等任務(wù),視頻分類問題可利用的信息除了視覺信息外,還包括音頻信息、光流信息及軌跡信息等多種模態(tài)信息。
傳統(tǒng)的多模態(tài)特征融合策略大致分為前期融合和后期融合2種方式。前期融合通常將每個獨立的模態(tài)特征拼接成一個全局特征,并且將這個全局特征放入分類器中進行分類[16]。例如,D’Mello和Kory[16]通過直接拼接音頻模態(tài)特征和視覺模態(tài)特征獲得視頻的全局特征實現(xiàn)情感檢測。后期融合則采用一些特定的數(shù)學方法去融合來自不同模態(tài)特征的判斷得分,如平均、加權(quán)等操作。然而這些方法都忽視了不同模態(tài)特征在特征空間的關(guān)聯(lián)性,而且在融合方式上也缺乏更有效的指導。
為了克服傳統(tǒng)特征融合方法的缺陷,越來越多的人致力于尋找新的解決方案以提高分類的性能,代表性的方法包括聯(lián)合學習、子空間學習、深度多模態(tài)特征學習等。聯(lián)合學習是一種經(jīng)典的用于多模態(tài)特征融合的半監(jiān)督學習方法,該學習方法會對有標簽的樣本獨立地訓練每個模態(tài)的特征。針對于無標簽的數(shù)據(jù),整個學習過程會從每個獨立的模態(tài)網(wǎng)絡(luò)挑選標簽置信度最高的無標簽數(shù)據(jù)加入到訓練網(wǎng)絡(luò)。聯(lián)合學習的優(yōu)點在于:每次對于單一模態(tài)網(wǎng)絡(luò)中數(shù)據(jù)的更新會參考其他模態(tài)的置信度。然而這種方法的實現(xiàn)依賴于訓練集中每個短視頻不同的模態(tài)信息針對每一個類別的預(yù)測具有很高的置信度,這種要求對于短視頻是很難實現(xiàn)的。
子空間學習是另一類用于多模態(tài)特征融合的常見學習方法[17-19]。子空間學習的假設(shè)在于不同模態(tài)的特征會享有一個公共的子空間。例如,典型相關(guān)分析方法(Canonical Correlation Analysis,CCA)[17,19]通過最大化不同模態(tài)的特征向量在潛在子空間上的關(guān)聯(lián)性實現(xiàn)特征的融合及降維。Zhai等[17]在共享子空間中從多視角角度進行多視角度量學習。Franklin[19]將典型相關(guān)分析方法應(yīng)用在數(shù)據(jù)挖掘和預(yù)測等領(lǐng)域。除了典型相關(guān)分析方法,采用深度網(wǎng)絡(luò)進行特征提取和融合也成為了子空間學習常用的方法之一。Feichtenhofer等[18]借助雙流卷積網(wǎng)絡(luò)(Convolutional Two-Stream Network,CTSN)探尋不同模態(tài)信息在特征空間的向量表示并進行特征融合。Wang等[20]則在此基礎(chǔ)上使用時域分割網(wǎng)絡(luò)(Temporal Segment Network,TSN)提取不同視頻片段的特征,并根據(jù)不同片段在不同模態(tài)特征空間的分類得分,采用分段函數(shù)疊加分類得分且融合不同模態(tài)的分類得分,最終實現(xiàn)對視頻的分類。
受到子空間學習的啟發(fā),本文從特征表示空間的角度解決短視頻分類問題,重點在于將特征空間劃分為不同模態(tài)的私有域和所有模態(tài)的公有域,整個特征空間的數(shù)目取決于模態(tài)的數(shù)量。
本文算法框架如圖1所示。圖中:Hpa表示音頻模態(tài)的私有域特征,Hpv表示視覺模態(tài)的私有域特征,Hsa表示音頻模態(tài)的公有域特征,Hsv表示視覺模態(tài)的公有域特征。本節(jié)將對設(shè)計的短視頻分類算法進行詳細介紹,具體從特征提取網(wǎng)絡(luò)、相似性損失函數(shù)、差異性損失函數(shù)及分類損失函數(shù)4個方面進行描述。
為了挖掘短視頻視覺及音頻模態(tài)的時域信息,本文利用3D卷積網(wǎng)絡(luò)分別獲取視頻的視覺模態(tài)和音頻模態(tài)各自的私有域特征及視覺模態(tài)和音頻模態(tài)的公有域特征。針對視覺模態(tài),按照224×224的尺寸從短視頻中提取連續(xù)的32幀視頻幀序列;針對音頻模態(tài),先通過從整個短視頻中按照等間隔將短視頻分為32個視頻片段,再提取這32個視頻片段的音頻片段并將其轉(zhuǎn)換成為頻譜圖表示這段音頻的變化規(guī)律。需要注意的是,頻譜圖相比較視頻幀而言只具有單通道。通過對比不同3D卷積網(wǎng)絡(luò)的準確性和訓練的復雜度,決定采用I3D網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),在該網(wǎng)絡(luò)的基礎(chǔ)上微調(diào)了網(wǎng)絡(luò)的輸出通道,增加了平均池化層,刪除了最后用于分類的全連接層,最終輸出的特征向量維度為512維。
在網(wǎng)絡(luò)整體結(jié)構(gòu)設(shè)計上,本文將整個網(wǎng)絡(luò)按照特征提取的角度劃分為視覺模態(tài)信息的私有域網(wǎng)絡(luò)、音視覺模態(tài)信息的公有域網(wǎng)絡(luò)及音頻模態(tài)信息的私有域網(wǎng)絡(luò)3個模塊。通過降低整體損失函數(shù)的數(shù)值來優(yōu)化網(wǎng)絡(luò)模型的參數(shù),實現(xiàn)短視頻的特征提取和分類。整個損失函數(shù)的實現(xiàn)包含3部分:①相似性損失LS,用于探尋不同模態(tài)間(即視覺模態(tài)信息公有域特征和音頻模態(tài)信息公有域特征)的相似性;②差異性損失LD,用于衡量同一模態(tài)內(nèi)的差異性,即視覺模態(tài)信息的私有域特征和公有域特征之間及音頻模態(tài)信息的私有域特征和公有域特征之間;③分類損失LC,用于將最后獲得的融合后的全局特征進行分類。整個損失函數(shù)表示為
式中:α用于平衡相似性損失在整個損失中的權(quán)重;β用于平衡差異性損失在整個損失中的權(quán)重;γ用于平衡分類損失在整個損失中的權(quán)重。
通過構(gòu)建相似性損失,可以獲得視覺模態(tài)信息和音頻模態(tài)信息公有域特征。本文借鑒了被廣泛應(yīng)用在人臉識別的孿生相似性損失去探尋不同模態(tài)公有域特征之間的相似性。
孿生相似性損失由Chopra等[21]提出,主要應(yīng)用于人臉識別領(lǐng)域并取得了良好的效果,在此基礎(chǔ)上,越來越多的人致力于孿生網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化和使用,Zagoruyko和Komodakis[22]優(yōu)化了孿生網(wǎng)絡(luò)并且將其應(yīng)用在圖像修復中。Bertinetto[23]、Valmadre[24]等將其使用延展到了目標跟蹤,并且獲得了理想的效果。受到孿生網(wǎng)絡(luò)的啟發(fā),本文同樣提出了基于孿生相似性損失的相似性損失,通過降低相似性損失LS_Siamese的值,實現(xiàn)對模態(tài)公有域網(wǎng)絡(luò)的優(yōu)化,具體公式為
本文中,差異性損失被用于探尋單一模態(tài)下公有域特征和私有域特征的差異性關(guān)系,具體將探討視覺模態(tài)公有域特征和視覺模態(tài)私有域特征、音頻模態(tài)公有域特征和音頻模態(tài)私有域特征這兩部分差異性的關(guān)系。
本文認為同一模態(tài)內(nèi)私有域特征和公有域特征差異性主要集中在分布差異性和數(shù)值差異性兩方面,接下來將以音頻模態(tài)的私有域特征和音頻模態(tài)的公有域特征為例,從分布差異性和數(shù)值差異性2個角度說明整個差異性損失。
針對分布上的差異,由于 KL(Kullback-Leibler)散度被廣泛地應(yīng)用于評估模型輸出的預(yù)測值分布和真值分布之間的差異,因此,在實驗中將采用KL散度算法計算同一模態(tài)分布的差異性。在降低差異性損失LD_KL的過程中,從分布差異的角度實現(xiàn)對模態(tài)私有域網(wǎng)絡(luò)參數(shù)的優(yōu)化,具體公式為
針對在數(shù)值上的差異,采用孿生網(wǎng)絡(luò)差異性損失的方法去探尋差異性是一種可行的方式,在降低差異性損失LD_Siamese的過程中,從數(shù)值差異的角度實現(xiàn)對模態(tài)私有域網(wǎng)絡(luò)參數(shù)的優(yōu)化,具體公式為
式中:d為可調(diào)節(jié)的常數(shù),通過設(shè)置常數(shù)的數(shù)值,調(diào)整音頻模態(tài)私有域特征和音頻模態(tài)公有域特征在數(shù)值上的差異性。實驗結(jié)果表明,當d數(shù)值為3時,學習到的私有域特征更有利于提高短視頻分類的準確性。
整個差異性損失的公式為
通過設(shè)置分類損失指導整個模型實現(xiàn)分類,本文選擇交叉熵損失作為分類損失函數(shù),在降低分類損失LC的過程中,實現(xiàn)對模態(tài)私有域網(wǎng)絡(luò)參數(shù)的優(yōu)化,具體公式為
實驗數(shù)據(jù)集選擇AI-challenger-mlsv-2018數(shù)據(jù)集,整個數(shù)據(jù)集包含大約200 000個短視頻,涉及類別有63類。由于研究目標針對的是短視頻單標簽的分類,此次實驗對存在多標簽的短視頻數(shù)據(jù)約11 323個進行了排除工作,將處理后的短視頻數(shù)據(jù)按照10∶3的比例劃分為訓練集和測試集,每個短視頻的視頻長度不超過12 s。
本節(jié)將從實驗結(jié)果的角度對提出的網(wǎng)絡(luò)進行系統(tǒng)全面的分析,在整個實驗分析中包含以下4種指標:AR(Average Recall)、AP(Average Precision)、Micro-F1、Macro-F1。
3.2.1 網(wǎng)絡(luò)復雜度
整個網(wǎng)絡(luò)的實現(xiàn)由于采用的是3個結(jié)構(gòu)相同的3D卷積神經(jīng)網(wǎng)絡(luò)分別探尋音頻模態(tài)的私有域特征、視覺模態(tài)的私有域特征、音視覺模態(tài)的公有域特征3部分,而不是采用普遍的音頻模態(tài)特征提取網(wǎng)絡(luò)和視覺模態(tài)特征提取網(wǎng)絡(luò)2部分,網(wǎng)絡(luò)模型的參數(shù)量和輸出的特征總數(shù)要高于現(xiàn)在普遍使用的特征融合網(wǎng)絡(luò)。在時間復雜度上,因為同時要優(yōu)化3個網(wǎng)絡(luò)模型的參數(shù)及引入相似性損失、差異性損失計算損失,整個網(wǎng)絡(luò)模型的時間復雜度要高于現(xiàn)階段的視頻分類網(wǎng)絡(luò)。
對比表1中5種多模態(tài)特征融合分類算法(SlowFast Network[12]、C3D(multimodal)、I3D(multimodal)、TSN[20]、CTSN[18])與本文算法在達到網(wǎng)絡(luò)效果最好時所需要的迭代次數(shù),發(fā)現(xiàn)本文算法需要的迭代次數(shù)最少,為52次,較為明顯地減少了訓練次數(shù)的時間成本。分析整個優(yōu)化過程,由于多模態(tài)算法通過計算差異性損失和相似性損失,加速了對網(wǎng)絡(luò)私有域特征和公有域特征的分離,同時也加速了整個網(wǎng)絡(luò)的收斂和參數(shù)的優(yōu)化。
表1 不同網(wǎng)絡(luò)短視頻分類性能對比Table 1 Performance compar ison of micro-video classification in different networks
3.2.2 參數(shù)對比實驗
為了使整個網(wǎng)絡(luò)的實驗性能取得最好,探尋了相似性損失權(quán)重α、差異性損失權(quán)重β及分類損失權(quán)重γ對整個實驗的影響。為了簡化參數(shù)的學習過程,首先在固定分類損失權(quán)重γ的前提下,探尋相似性損失權(quán)重α和差異性損失權(quán)重β對整個實驗結(jié)果的影響。參數(shù)α、β和γ的不同取值對網(wǎng)絡(luò)性能的影響如圖2所示。表明,當固定γ的值時,在調(diào)節(jié)參數(shù)α和參數(shù)β的過程中發(fā)現(xiàn),當參數(shù)α的值為0.4,參數(shù)β的值為0.6時,效果最好。然后固定參數(shù)α和參數(shù)β的數(shù)值,在調(diào)節(jié)參數(shù)γ的數(shù)值過程中,發(fā)現(xiàn)當參數(shù)γ的值為1.2時,提出的網(wǎng)絡(luò)性能達到最好。
圖2 參數(shù)α、β、γ不同取值對短視頻分類任務(wù)的影響Fig.2 Influence of different values of parametersα,β,γon micro-video classification task
3.2.3 實驗性能對比
為了證明本文所提模型的有效性,先后對比本 文 模 型 與 C3D[9]、I3D[10]、R2+1D[14]、Res-Net3D[11]、GoogleNet[25]、S3D-G[15]、SlowFast Network[12]、C3D(multimodal)、I3D(multimodal)、TSN[20]、CTSN[18]共11種視頻分類算法在AR、AP、Micro-F1、Macro-F1這4項指標下的性能。其中,C3D[9]、R2+1D[14]、ResNet3D[11]、S3D-G[15]、GoogleNet[25]和I3D[10]是常用的單模態(tài)特征視頻分 類 網(wǎng) 絡(luò),SlowFast Network[12]、C3D(multimodal)、I3D(multimodal)、TSN[20]和CTSN[18]是常用的多模態(tài)特征視頻分類網(wǎng)絡(luò)。通過觀察表1的數(shù)據(jù)可以發(fā)現(xiàn),本文算法在AI-challenger-mlsv-2018數(shù)據(jù)集中AR、AP、Micro-F1、Macro-F1取值分別為0.782、0.795、0.813、0.789,這些數(shù)據(jù)反映了網(wǎng)絡(luò)在短視頻分類任務(wù)中的有效性。
3.2.4 消融對比實驗
為了驗證實驗的有效性,表2分別比較了視覺模態(tài)特征、音頻模態(tài)特征、前期融合特征、公有域特征、私有域特征及本文算法所提取的特征共6種特征。
表2中,視覺模態(tài)特征、音頻模態(tài)特征是單獨直接將對應(yīng)的視覺模態(tài)信息、音頻模態(tài)信息輸入到I3D網(wǎng)絡(luò)后得到的分類結(jié)果;前期融合是直接將得到的視覺模態(tài)特征和音頻模態(tài)特征融合后得到的全局特征;而公有域特征則是通過公有域網(wǎng)絡(luò),經(jīng)過相似性損失約束得到的視覺模態(tài)和音頻模態(tài)的公有域特征;私有域特征是將視覺模態(tài)信息和音頻模態(tài)信息分別通過各自私有域網(wǎng)絡(luò),經(jīng)過差異性損失約束得到的私有域特征。本文算法則是在得到的私有域特征和公有域特征上,對得到的私有域特征和公有域特征融合得到的全局特征,取得了更好的分類效果。
表2 不同網(wǎng)絡(luò)短視頻特征分類性能對比Table 2 Performance comparison of micro-video feature classification in different networks
1)針對目前短視頻分類任務(wù)中遇到的主要問題,本文提出了一種基于深度多模態(tài)特征融合的短視頻分類算法,通過建立相似性損失和差異性損失,探尋短視頻中不同模態(tài)之間的相似性和同一模態(tài)的差異性,將視頻的特征空間劃分為視覺模態(tài)和音頻模態(tài)的公有域,視覺模態(tài)的私有域和音頻模態(tài)的私有域,獲取到視頻的不同模態(tài)的私有域特征和公有域特征,將其融合作為短視頻的全局特征,用分類損失指導短視頻的分類。
2)在公開數(shù)據(jù)集上的大量實驗表明,本文提出的算法成功地獲取到了視頻的不同模態(tài)信息在特征空間內(nèi)的相似性表示和差異性表示,有效地降低了短視頻多模態(tài)特征融合時的冗余性,提高了短視頻分類的準確性,較好地解決了短視頻的分類問題。