王 婷, 劉光輝, 張鈺敏, 孟月波, 徐勝軍
(西安建筑科技大學(xué) 信息與控制工程學(xué)院, 西安 710055)
隨著信息時(shí)代的快速發(fā)展,網(wǎng)絡(luò)視頻數(shù)量日創(chuàng)新高,如果不對(duì)視頻內(nèi)容加以檢索,視頻可能會(huì)成為謠言的載體,對(duì)社會(huì)帶來不利影響。傳統(tǒng)的視頻檢索是依靠人進(jìn)行分析檢查,而行為識(shí)別技術(shù)可以代替人工檢索,在大量視頻數(shù)據(jù)庫中自動(dòng)檢索出指定的行為類別,為視頻篩選檢查提供技術(shù)支持。
針對(duì)視頻行為識(shí)別問題,研究人員先后提出了各種各樣的方法,目前,行為識(shí)別方法主要可以分為基于傳統(tǒng)機(jī)器學(xué)習(xí)[1-2]、基于深度學(xué)習(xí)[3]兩大類?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的視頻行為方法主要是通過類似背景減除法提取人員整體輪廓[4-5]或者諸如時(shí)空興趣點(diǎn)[6]、Harris角點(diǎn)[7]等局部特征,但此方法所提取的行為特征單一、特征提取過程復(fù)雜且工作量較大,對(duì)高遮擋、光照變化、背景等因素較為敏感。隨著社會(huì)的發(fā)展,諸多領(lǐng)域?qū)π袨樽R(shí)別任務(wù)提出了更高的要求,這些方法受其自身的局限性,已無法滿足行為識(shí)別任務(wù)的精度要求。
基于深度學(xué)習(xí)的方法因具備獲取輸入數(shù)據(jù)隱含的深層次特征的能力,在圖像分類、場(chǎng)景分割、文本識(shí)別等領(lǐng)域有著廣泛的應(yīng)用[8-10],同樣被研究人員用于行為識(shí)別任務(wù)中。Simonyan等人[11]首次提出雙流網(wǎng)絡(luò)模型,該模型包含兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)分支,通過從視頻圖像中獲取不同的輸入數(shù)據(jù)模態(tài)進(jìn)行特征提取,進(jìn)而提取視頻數(shù)據(jù)的空間信息和時(shí)間信息。但因其僅通過一幀來解決空間建模問題,對(duì)視頻的時(shí)域建模能力十分有限[12]。為了解決這一問題,文獻(xiàn)[13]提出一種時(shí)域分割網(wǎng)絡(luò)(TSN,temporal segment network),通過對(duì)視頻進(jìn)行時(shí)域分割和稀疏采樣,從輸入視頻的多個(gè)時(shí)域片段中隨機(jī)抽取一個(gè)片段,最后聚合不同片段的輸出信息得到視頻級(jí)識(shí)別結(jié)果,但該網(wǎng)絡(luò)在特征提取過程中忽略了視頻幀在時(shí)間維度上的動(dòng)態(tài)相關(guān)性,且網(wǎng)絡(luò)分支過多,不適用于長(zhǎng)視頻預(yù)測(cè)。
因長(zhǎng)視頻預(yù)測(cè)主要的解決思路是獲取視頻數(shù)據(jù)的時(shí)空信息,針對(duì)于此問題,文獻(xiàn)[14]使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM,long short term memory network)分別獲取視頻數(shù)據(jù)的全局信息和局部關(guān)鍵信息,其中第一個(gè)LSTM網(wǎng)絡(luò)對(duì)輸入圖像包含的完整骨架信息進(jìn)行編碼,獲取視頻的全局特征信息并從中選擇出包含較多信息的關(guān)鍵點(diǎn),第二個(gè)LSTM網(wǎng)絡(luò)對(duì)信息量大的關(guān)節(jié)進(jìn)行特征提取獲得局部關(guān)鍵信息。該方法能夠利用LSTM網(wǎng)絡(luò)對(duì)視頻幀序列進(jìn)行處理,進(jìn)而獲取長(zhǎng)視頻的時(shí)域信息,但輸入數(shù)據(jù)為骨架序列,限制了其在多類別行為識(shí)別任務(wù)中的應(yīng)用。
文獻(xiàn)[15]將卷積操作擴(kuò)展至?xí)r間維度,提出3D卷積結(jié)構(gòu),解決了視頻識(shí)別任務(wù)中時(shí)空特征提取的問題。文獻(xiàn)[16]提出一種基于3D卷積的特征提取網(wǎng)絡(luò)(C3D,convolutional 3 dimention),該網(wǎng)絡(luò)通過將3D卷積核設(shè)置為3×3×3,使其能夠提取有效且緊湊的時(shí)空特征,在許多視頻級(jí)任務(wù)中獲得了較好的結(jié)果。然而,在真實(shí)場(chǎng)景下,攝像機(jī)的高度和角度并不相同,導(dǎo)致拍攝的視頻圖像在視角上呈現(xiàn)較大差異,C3D網(wǎng)絡(luò)不適合用于處理尺度特征變化較大的視頻數(shù)據(jù)。為進(jìn)一步提升3D卷積網(wǎng)絡(luò)的識(shí)別性能,文獻(xiàn)[17]提出長(zhǎng)時(shí)序卷積結(jié)構(gòu)(LTC,long-term temporal convolutions),該方法通過改變網(wǎng)絡(luò)的輸入數(shù)據(jù)量,使其能夠在不同時(shí)長(zhǎng)的視頻數(shù)據(jù)中保持良好的行為識(shí)別性能,但網(wǎng)絡(luò)參數(shù)需隨視頻長(zhǎng)度動(dòng)態(tài)變化,使得該方法難以在實(shí)際任務(wù)中得到應(yīng)用。另外,由于3D卷積操作在進(jìn)行時(shí)空特征提取時(shí)面向的是視頻圖像幀,因而當(dāng)視頻圖像本身受光照變化、復(fù)雜背景等因素干擾較多時(shí),網(wǎng)絡(luò)所提取的時(shí)空特征難以對(duì)視頻中的行為進(jìn)行有效表征,可能會(huì)導(dǎo)致錯(cuò)誤的預(yù)測(cè)。
由上述可知,3D卷積在一定程度上解決了視頻級(jí)任務(wù)中時(shí)空特征提取的問題,但上述方法仍無法有效解決長(zhǎng)時(shí)域建模能力不足、視角變化導(dǎo)致的全局時(shí)空特征提取能力差、光照變化和復(fù)雜背景干擾等問題,基于此,本文提出一種多模態(tài)特征融合的長(zhǎng)視頻行為識(shí)別方法(long video action recognition method based on multimodal feature fusion)。首先,在數(shù)據(jù)采樣階段建立整個(gè)視頻段的時(shí)域建模;其次,通過不同大小的3D卷積核獲取多尺度時(shí)空特征,弱化視角變化對(duì)視頻圖像帶來的干擾;后引入光流數(shù)據(jù)信息,通過空間注意力機(jī)制引導(dǎo)的特征提取網(wǎng)絡(luò)獲取光流數(shù)據(jù)的深層次特征,通過不同數(shù)據(jù)模式之間的優(yōu)勢(shì)互補(bǔ),提高網(wǎng)絡(luò)在不同場(chǎng)景下的準(zhǔn)確性和魯棒性;最后,將獲取的多尺度時(shí)空特征和光流信息在網(wǎng)絡(luò)的全連接層進(jìn)行融合,實(shí)現(xiàn)端到端的長(zhǎng)視頻行為識(shí)別。
本文整體技術(shù)路線如圖1所示,首先,以長(zhǎng)視頻數(shù)據(jù)為處理對(duì)象,以全視頻時(shí)域建模為出發(fā)點(diǎn),基于多列卷積的特征提取網(wǎng)絡(luò)提取能夠適應(yīng)于視角變化的全局時(shí)空特征,基于注意力機(jī)制引導(dǎo)的特征提取網(wǎng)絡(luò)獲取光流數(shù)據(jù)的深層次特征;而后,在全連接層進(jìn)行特征融合并利用Softmax分類器完成最終行為識(shí)別。
圖1 長(zhǎng)視頻行為識(shí)別算法框架圖
本文提出的網(wǎng)絡(luò)主要為識(shí)別長(zhǎng)視頻,但考慮到長(zhǎng)時(shí)序行為幀間差距較小,隨機(jī)采樣容易引入大量冗余信息,并消除視頻圖像在時(shí)間維度上的相關(guān)性,因此在獲取全視頻段的長(zhǎng)時(shí)時(shí)域信息,建立視頻級(jí)特征提取網(wǎng)絡(luò)時(shí),本文引入均勻稀疏采樣策略完成全視頻段的時(shí)域建模,在降低視頻幀冗余度的前提下實(shí)現(xiàn)長(zhǎng)時(shí)序信息的充分保留。假設(shè)當(dāng)前視頻剪輯有N張?zhí)卣鲌D,則當(dāng)前采樣值S可以表示為:
S=[N/l]
(1)
式中,S代表當(dāng)前視頻的采樣值,N代表當(dāng)前視頻經(jīng)數(shù)據(jù)預(yù)處理后的圖像幀數(shù),l代表網(wǎng)絡(luò)輸入的數(shù)據(jù)量,根據(jù)得到的采樣值S對(duì)特征圖進(jìn)行位置索引,得到模型輸入L=[L0,LS,...L(l-1)S,LlS]。
本文提出的采樣方法類似于LTC,同樣需要計(jì)算每個(gè)視頻的時(shí)長(zhǎng),但與LTC不同的是,LTC是根據(jù)視頻的時(shí)長(zhǎng)改變網(wǎng)絡(luò)輸入的數(shù)據(jù)量和輸入圖像的分辨率,本文通過動(dòng)態(tài)采樣值保證了網(wǎng)絡(luò)輸入數(shù)據(jù)量的一致性,無需調(diào)整其余參數(shù),能夠適用于不同時(shí)長(zhǎng)的視頻數(shù)據(jù)。
由于卷積神經(jīng)網(wǎng)絡(luò)在逐層提取特征時(shí),輸入圖像會(huì)隨著池化操作逐層降低圖像分辨率。以往用于行為識(shí)別的3D卷積神經(jīng)網(wǎng)絡(luò)沒有考慮低層特征對(duì)于時(shí)空特征向量生成的影響,而行為識(shí)別任務(wù)不僅僅關(guān)注于運(yùn)動(dòng)主體本身的動(dòng)作,與場(chǎng)景的空間信息也存在密切關(guān)系,基于此,本文設(shè)計(jì)了一種多尺度時(shí)空特征提取網(wǎng)絡(luò),具體結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)主要包括3部分:多尺度卷積模塊、基礎(chǔ)骨架網(wǎng)絡(luò)(C3D)、多特征信息聚合。首先,通過多尺度卷積模塊獲取原始圖像的全局特征,而后利用基礎(chǔ)骨架網(wǎng)絡(luò)生成高低層時(shí)空特征,最終通過多特征聚合模塊的語義特征嵌入融合方式,將高層時(shí)空特征包含較多的語義信息引入低層時(shí)空特征,增強(qiáng)低層時(shí)空特征的語義表達(dá),使得上下文時(shí)空信息和尺度信息相互補(bǔ)充,提高網(wǎng)絡(luò)對(duì)時(shí)空特征的表征能力。
圖2 多尺度時(shí)空特征提取網(wǎng)絡(luò)
1.2.1 多尺度卷積
由于拍攝視頻時(shí)往往存在視角的動(dòng)態(tài)切換,導(dǎo)致視頻圖像存在較大的尺度變化,而單列卷積難以應(yīng)對(duì)視頻圖像中的尺度變化問題。因此,本文設(shè)計(jì)了一種用于時(shí)空特征提取的基于多列結(jié)構(gòu)的多尺度卷積模塊,具體結(jié)構(gòu)如圖3所示。在多尺度卷積模塊中,采用3個(gè)不同大小的3D卷積核從原始的輸入圖像塊中學(xué)習(xí)與尺度相關(guān)的特征,實(shí)現(xiàn)多尺度信息的有效獲取,本文采用的多尺度卷積塊結(jié)構(gòu)如圖4所示,經(jīng)實(shí)驗(yàn)驗(yàn)證,采用3×3×3、5×5×5、7×7×7的卷積核能夠有效聚合全局時(shí)空信息。
圖3 多尺度模塊卷積結(jié)構(gòu)
圖4 多尺度卷積塊結(jié)構(gòu)
1.2.2 基礎(chǔ)骨架網(wǎng)絡(luò)
本文采用基礎(chǔ)骨架網(wǎng)絡(luò)(C3D)進(jìn)行特征提取,該網(wǎng)絡(luò)以堆疊的視頻RGB幀作為輸入數(shù)據(jù),再利用3D卷積核進(jìn)行特征提取,卷積核大小決定了提取視頻特征的有效性,由于視頻圖像存在動(dòng)態(tài)遮擋、視角變化等問題,這就要求網(wǎng)絡(luò)所提取的特征必須是通用而有效的,同時(shí)在時(shí)間維度上,視頻特征之間的聯(lián)系要緊湊,基于此,C3D網(wǎng)絡(luò)包含的8個(gè)3D卷積層中所有的卷積核大小均被設(shè)置為3×3×3;池化層均采用最大池化操作,其中,pool1內(nèi)核為1×2×2,其余池化內(nèi)核均為2×2×2;網(wǎng)絡(luò)共有2個(gè)全連接層,主要用于對(duì)特征向量進(jìn)行降維。網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。為了應(yīng)對(duì)視頻圖像中的尺度變化問題,本文將該網(wǎng)絡(luò)的第一個(gè)卷積層替換為多尺度卷積模塊,通過多尺度卷積獲取原始圖像的全局特征。
圖5 C3D網(wǎng)絡(luò)結(jié)構(gòu)圖
1.2.3 多特征信息聚合
(2)
式中,m表示第i-1層中與當(dāng)前特征圖相連的特征圖;Li與Wi表示卷積核的長(zhǎng)度和寬度;Hi表示卷積核在時(shí)間維度上的尺寸;W代表與i-1層相連的第m個(gè)特征圖的連接權(quán)值;bi,j表示第i層第j個(gè)特征圖的偏置;f為ReLu激活函數(shù)。
隨著卷積層網(wǎng)絡(luò)的加深,卷積過程會(huì)丟失一部分特征信息,由于高層時(shí)空特征網(wǎng)絡(luò)的感受野比較大,所提取的高層時(shí)空特征中包含的語義信息較多,空間細(xì)節(jié)特征較少;低層時(shí)空特征網(wǎng)絡(luò)的感受野比較小,所提取的低層時(shí)空特征中包含的空間細(xì)節(jié)信息較多,高級(jí)語義信息較少,如果缺失高層語義信息或低層空間細(xì)節(jié)信息,均會(huì)影響最終的行為識(shí)別結(jié)果,導(dǎo)致精度降低。針對(duì)這一問題,本文構(gòu)建了一個(gè)多特征信息聚合模塊,用于聚合高低層時(shí)空特征。首先,利用4個(gè)并行的1×1×1卷積核將高低層時(shí)空特征的通道值均設(shè)置為512;然后,通過語義嵌入的方式,對(duì)高層特征重采樣與次高層特征進(jìn)行自頂向下融合,將高層語義信息用于改進(jìn)低層的細(xì)節(jié)信息,再對(duì)融合后的特征進(jìn)行重采樣與下一層特征進(jìn)行融合,增強(qiáng)低層時(shí)空特征的語義表達(dá)。本文采用的時(shí)空特征語義嵌入融合算法如下:
Hl=Upsample(Ml+1)+Ml
(3)
式中,Hl表示在L層語義嵌入后的時(shí)空特征;Ml+1、Ml分別為通道值為512的高低層時(shí)空特征。
之后,采用不同步長(zhǎng)的3×3×3卷積核將時(shí)空特征圖映射為具有相同維度的特征圖;最后,將嵌入語義信息后的高低層時(shí)空特征進(jìn)行融合,融合后的高低層時(shí)空特征Fhl計(jì)算公式如下所示:
(4)
式中,Fl表示在L層的時(shí)空特征;lmax、lmin分別為最高層及最低層特征索引位置。
真實(shí)場(chǎng)景下視頻圖像容易受視角和光照變化、復(fù)雜背景等因素干擾,因此僅將視頻幀作為網(wǎng)絡(luò)的輸入模態(tài)難以對(duì)視頻中的行為進(jìn)行有效表征,鑒于此,本文引入光流數(shù)據(jù)(Optial Flow)作為模型的又一輸入模態(tài),采用光流信息的原因主要在于:①光流是空間運(yùn)動(dòng)物體在觀測(cè)平面上像素運(yùn)動(dòng)的瞬時(shí)速度,能夠反映視頻圖像中運(yùn)動(dòng)主體的速度、方向等信息;②光流具有表觀不變性,表現(xiàn)在視頻中的復(fù)雜背景及運(yùn)動(dòng)主體本身差異性不會(huì)影響光流的表現(xiàn)形式[18]。
基于此,本文設(shè)計(jì)了光流特征提取網(wǎng)絡(luò),具體結(jié)構(gòu)如圖6所示。將光流圖作為網(wǎng)絡(luò)的又一輸入模態(tài),以減少光照變化、復(fù)雜背景等因素的干擾。以往用于提取光流特征的網(wǎng)絡(luò)結(jié)構(gòu)較淺,對(duì)光流信息的提取更關(guān)注于淺層細(xì)節(jié)信息,而忽略了光流中更深層次的高級(jí)語義信息,為充分挖掘光流數(shù)據(jù)的潛在特征,使用深度殘差網(wǎng)絡(luò)[19]ResNet101模型作為基礎(chǔ)結(jié)構(gòu),考慮到光流圖中的關(guān)鍵信息往往聚集在動(dòng)作發(fā)生的區(qū)域,本文在基礎(chǔ)網(wǎng)絡(luò)中添加了空間注意力機(jī)制,通過空間注意力選出關(guān)鍵信息,再送入殘差網(wǎng)絡(luò)進(jìn)行特征提取。
圖6 光流特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖
注意力機(jī)制的本質(zhì)就是定位到與當(dāng)前任務(wù)相關(guān)的區(qū)域[20],抑制無關(guān)信息。由于光流圖呈現(xiàn)的內(nèi)容是動(dòng)作發(fā)生顯著變化的區(qū)域,所以通過空間注意力機(jī)制能夠有效定位到圖像中的關(guān)鍵信息,有效提升網(wǎng)絡(luò)性能。
本文采用的空間注意力模型完整結(jié)構(gòu)如圖7所示,對(duì)于特征映射F,首先經(jīng)過一個(gè)最大池化層和一個(gè)平均池化層獲得兩個(gè)大小為1×H×W特征圖,再通過一個(gè)7×7大小的卷積層獲得點(diǎn)對(duì)點(diǎn)的空間信息,然后使用sigmoid函數(shù)對(duì)空間信息進(jìn)行激活,得到最終得到的空間注意力激活圖MS,具體如公式(5)所示。
圖7 空間注意力模塊
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))=
(5)
不同模態(tài)的特征向量可以通過簡(jiǎn)單的Add相加進(jìn)行融合,或是在網(wǎng)絡(luò)末端的決策層進(jìn)行簡(jiǎn)單的得分融合,但這些融合方法忽略了特征向量間可能存在的語義沖突關(guān)系,導(dǎo)致多模態(tài)特征融合過程中可能出現(xiàn)語義信息弱化現(xiàn)象,從而導(dǎo)致模型精度降低。基于此,本文通過構(gòu)建并訓(xùn)練基于全連接層的多模態(tài)特征融合網(wǎng)絡(luò)結(jié)構(gòu),將4096維度的多尺度時(shí)空特征和4096維度的光流數(shù)據(jù)特征映射到4096維的特征融合空間,這種特征融合方式的優(yōu)勢(shì)主要在于模型能夠在訓(xùn)練階段學(xué)習(xí)兩個(gè)并行網(wǎng)絡(luò)各自的特征參數(shù),并自主完成協(xié)調(diào)反饋,實(shí)現(xiàn)了模型的端到端訓(xùn)練。
人體行為的多樣性、復(fù)雜性要求在進(jìn)行任務(wù)分類時(shí)必須更多地保留特征的有用信息,因此,本文選擇Softmax函數(shù)將特征向量映射成概率序列,以保留更多特征的原始信息。Softmax計(jì)算輸出類別y(i)的過程如公式(6)所示。
(6)
式中,ηi為融合后的特征值;k為類別數(shù);P表示y(i)屬于類別k的概率值。
本文及對(duì)比算法均在Ubuntu16.04系統(tǒng)下進(jìn)行,GPU型號(hào)為RTX 2080Ti,實(shí)驗(yàn)環(huán)境配置為CUDA10.2+anaconda3+python3.7+ pytorch-1.12.0。模型訓(xùn)練過程采用小批量隨機(jī)梯度下降算法,網(wǎng)絡(luò)初始訓(xùn)練學(xué)習(xí)率為1e-3,迭代次數(shù)為500次。此外,為使模型充分訓(xùn)練,本文采用數(shù)據(jù)增強(qiáng)方法,對(duì)樣本圖像進(jìn)行隨機(jī)裁剪、旋轉(zhuǎn)、放縮等操作,增強(qiáng)網(wǎng)絡(luò)模型的魯棒性。
本文在UCF101[21]數(shù)據(jù)集及HMDB51[22]數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)與實(shí)驗(yàn)結(jié)果分析,其中UCF101數(shù)據(jù)集是從YouTube視頻網(wǎng)站收集的人類日?;顒?dòng)的視頻,共計(jì)13 320個(gè)視頻數(shù)據(jù),包括101個(gè)動(dòng)作類別;HMDB51數(shù)據(jù)集大部分?jǐn)?shù)據(jù)來源于互聯(lián)網(wǎng)和電影剪輯,視頻圖像受光照和視角變化、背景遮擋等因素影響較大,共計(jì)6 849個(gè)視頻數(shù)據(jù),包括51個(gè)動(dòng)作類別。實(shí)驗(yàn)按照UCF101和HMDB51數(shù)據(jù)集官方給出的3種原始劃分方案進(jìn)行訓(xùn)練和測(cè)試,并以3種劃分方案的平均準(zhǔn)確率作為最終識(shí)別結(jié)果。為了便于訓(xùn)練,對(duì)數(shù)據(jù)集進(jìn)行視頻幀截取和光流提取,其中,視頻幀通過ffmpeg截取,光流圖通過dense_flow工具提取,預(yù)處理后的數(shù)據(jù)如圖8所示,從左到右依次為RGB圖、X方向光流圖、Y方向光流圖。其中,RGB圖像素大小為128×171,光流圖像素大小為240×320。
圖8 RGB圖、x方向光流圖及y方向光流圖
為綜合評(píng)價(jià)模型的分類性能,采用準(zhǔn)確率(Accuary)作為衡量模型的評(píng)估指標(biāo),即:
(7)
式中,TP和TN表示被正確分類的樣本數(shù)據(jù);FP和FN表示被錯(cuò)誤分類的樣本數(shù)據(jù)。
分析表1可知:(1)在基于單模態(tài)輸入的視頻行為識(shí)別任務(wù)中,僅基于光流的行為識(shí)別方法的識(shí)別準(zhǔn)確度要高于僅基于視頻RGB幀的方法,在HMDB51數(shù)據(jù)集上,視頻圖像受光照變化、背景遮擋等因素影響較大,僅基于光流的行為識(shí)別方法的識(shí)別準(zhǔn)確度比僅基于視頻RGB幀的方法高出14.1%,說明相較于視頻圖像,光流具有更強(qiáng)的特征貢獻(xiàn)率;(2)多模態(tài)融合的行為識(shí)別方法的準(zhǔn)確度要高于單一模態(tài)輸入的行為識(shí)別方法,說明在行為識(shí)別任務(wù)中,多模態(tài)融合的方法能夠結(jié)合不同數(shù)據(jù)模式的優(yōu)勢(shì)互補(bǔ),有效提升行為識(shí)別精度。
表1 本文方法在不同輸入模態(tài)下的實(shí)驗(yàn)結(jié)果 (%)
表2顯示了本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)在UCF101、HMDB51數(shù)據(jù)集上使用不同采樣方式的實(shí)驗(yàn)結(jié)果,其中SI表示本文所提出的均勻稀疏采樣,RI表示隨機(jī)采樣,RSI表示消除時(shí)間相關(guān)性后的SI采樣數(shù)據(jù)。
表2 不同采樣方式在UCF101和HMDB51數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 %
實(shí)驗(yàn)結(jié)果表明,本文所用的均勻稀疏采樣策略比隨機(jī)采樣具有更高的識(shí)別準(zhǔn)確率,原因在于隨機(jī)采樣引入了大量的冗余信息;消除采樣數(shù)據(jù)的時(shí)間相關(guān)性后,時(shí)空特征網(wǎng)絡(luò)和光流信息網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率均有所下降,說明了時(shí)間維度信息在視頻行為識(shí)別中的重要性。
為綜合驗(yàn)證本文所提方法的有效性,本文將單輸入模態(tài)下的實(shí)驗(yàn)結(jié)果與當(dāng)前主流的行為識(shí)別方法進(jìn)行對(duì)比,具體如表3和表4所示。
表3 基于RGB單模態(tài)的行為識(shí)別方法在UCF101和HMDB51數(shù)據(jù)集結(jié)果比較(%)
表4 基于Optial Flow單模態(tài)的行為識(shí)別方法在UCF101和HMDB51數(shù)據(jù)集結(jié)果比較 (%)
分析表3可知:(1)較之對(duì)比算法LTC,本文設(shè)計(jì)的多尺度特征提取網(wǎng)絡(luò)在UCF101和HMDB51數(shù)據(jù)集上分別提高了6.7%和0.9%,驗(yàn)證了多尺度特征提取網(wǎng)絡(luò)的有效性;(2)HMDB51數(shù)據(jù)集上的識(shí)別準(zhǔn)確度均偏低,說明當(dāng)視頻圖像受光照變化和背景遮擋等因素影響較大時(shí),僅以視頻RGB幀作為網(wǎng)絡(luò)輸入數(shù)據(jù)模態(tài)的方法具有一定的局限性。
分析表4可知,本文設(shè)計(jì)的光流特征提取網(wǎng)絡(luò)能夠有效獲取光流數(shù)據(jù)的深層次特征,較之其它對(duì)比算法,對(duì)光流特征圖的特征分類性能有明顯提升。
為驗(yàn)證本文所提方法的有效性,將最終實(shí)驗(yàn)結(jié)果與當(dāng)前主流方法進(jìn)行了比較,具體如表5所示。
表5 UCF101和HMDB51數(shù)據(jù)集上本文方法與其他算法比較 (%)
分析表5可知,本文所提方法在UCF101和HMDB51數(shù)據(jù)集上有良好的表現(xiàn),較之對(duì)比算法,不僅能夠識(shí)別對(duì)長(zhǎng)視頻中的人體行為,且具有更高的識(shí)別準(zhǔn)確率。
本文提出一種多模態(tài)特征融合的長(zhǎng)視頻行為識(shí)別方法,網(wǎng)絡(luò)首先在數(shù)據(jù)采樣階段引入了均勻稀疏采樣策略,進(jìn)而完成全視頻段的時(shí)域建模,其次,通過多列卷積獲取多尺度時(shí)空特征,弱化視角變化對(duì)視頻圖像帶來的干擾,后引入光流數(shù)據(jù)信息,通過空間注意力機(jī)制引導(dǎo)的特征提取網(wǎng)絡(luò)獲取光流數(shù)據(jù)的深層次特征;最后,將獲取的多尺度時(shí)空特征和光流信息在網(wǎng)絡(luò)的全連接層進(jìn)行融合,實(shí)現(xiàn)了端到端的長(zhǎng)視頻行為識(shí)別,解決了基于卷積神經(jīng)網(wǎng)絡(luò)的視頻行為識(shí)別方法存在的長(zhǎng)時(shí)序行為識(shí)別能力不足、尺度特征提取困難、光照變化及復(fù)雜背景干擾等問題。在UCF101和HMDB51數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。