潘陳聽,譚曉陽
(1.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106; 2.模式分析與機(jī)器智能工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 211106; 3.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 南京 211106)
隨著近年來計(jì)算機(jī)存儲量的爆炸式增長以及網(wǎng)絡(luò)的快速發(fā)展,視頻逐漸成為人們?nèi)粘C鎸Φ囊活悢?shù)據(jù)。自2012年AlexNet提出以來,圖像識別取得了很大的進(jìn)展。深度學(xué)習(xí)在圖像識別問題上的優(yōu)異表現(xiàn)也帶動了視頻動作識別的快速發(fā)展。視頻動作識別作為機(jī)器視覺領(lǐng)域內(nèi)一個(gè)比較年輕也極具挑戰(zhàn)性的問題,需要應(yīng)用圖像處理與機(jī)器學(xué)習(xí)等方面的相關(guān)知識。視頻動作識別從長遠(yuǎn)來看有著極佳的商業(yè)價(jià)值,其在物聯(lián)網(wǎng)方面被用于智能監(jiān)控;在三維游戲方面被用于人機(jī)交互;在智能零售方面被用于顧客行為分析等。然而獲取的視頻數(shù)據(jù)通常不是理想條件下的數(shù)據(jù),其會受到陰影、人體晃動、背景移動等各種背景因素的干擾。因此研究在復(fù)雜背景下的人體動作識別也是一個(gè)非常重要的挑戰(zhàn)。
視頻動作識別,即視頻分類,與圖片識別的不同之處在多幀圖像所隱含的時(shí)域信息。為了利用時(shí)域信息,目前主要有雙流網(wǎng)絡(luò)、3D神經(jīng)網(wǎng)絡(luò)以及循環(huán)神經(jīng)網(wǎng)絡(luò)( Recurrent Neural Network,RNN)[1]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[2]相結(jié)合3類算法。本文以雙流網(wǎng)絡(luò)為基礎(chǔ),采用與機(jī)器翻譯領(lǐng)域的自注意力[3]機(jī)制類似的非局域方法[4-5],提出非局域時(shí)間段網(wǎng)絡(luò)以及改進(jìn)的混合型非局域時(shí)間段網(wǎng)絡(luò),用于視頻分類。該方法在雙流網(wǎng)絡(luò)的基礎(chǔ)上,通過增添非局域計(jì)算使網(wǎng)絡(luò)能關(guān)注到更大范圍的信息,而在非局域計(jì)算中融入光流信息則能使網(wǎng)絡(luò)更精確地將注意力放在動作區(qū)域,從而增強(qiáng)對視頻復(fù)雜靜態(tài)背景的魯棒性。此外,為了融合雙流分段網(wǎng)絡(luò)的多路判別結(jié)果,本文引入對各類動作敏感的加權(quán)組合方法,取代原有時(shí)間段網(wǎng)絡(luò)的簡單平均。實(shí)驗(yàn)顯示,本文的模型相對于現(xiàn)有方法有較為明顯的提升。
傳統(tǒng)方法將視頻動作識別顯式地分成特征提取、特征聚合、特征分類3個(gè)步驟。首先通過設(shè)計(jì)好的算法提取視頻的底層特征,然后將提取出的特征進(jìn)行編碼,最后在使用PCA[6]之后使用SVM[7]和AdaBoost[8]等分類器對編碼結(jié)果進(jìn)行分類。
常用的底層特征包括SIFT[9]、SIFT-3D[10]、HOG[11]、HOG3D[12]、HOF[13]、MBH[14]、DT[15]、iDT[16]等。SIFT(Scale Invariant Feature Transform)通過計(jì)算各種尺度空間上找到的特征點(diǎn)的方向大小等信息作為視頻描述。HOG(Histogram of Oriented Gradients)通過統(tǒng)計(jì)局部圖像的梯度方向直方圖作為視頻特征。SIFT-3D與HOG3D分別在SIFT和HOG的基礎(chǔ)上進(jìn)行了時(shí)間維度的擴(kuò)展。HOF(Histogram of Optical Flow)計(jì)算每幀圖像的光流域,通過統(tǒng)計(jì)光流矢量與x軸之間的夾角的光流信息直方圖來對視頻進(jìn)行描述。MBH(Motion Boundary Histogram)結(jié)合了HOG與HOF,對x軸與y軸的光流圖計(jì)算HOG特征,比起前面2種有著更好的魯棒性。DT(Dense Trajectory)在各尺度的單幀通過網(wǎng)格劃分對特征點(diǎn)進(jìn)行密集采樣,并通過一些方法去除低效特征點(diǎn),再對這些點(diǎn)提取上述特征。目前取得效果最好的手工特征是在DT基礎(chǔ)上進(jìn)行改進(jìn)得到的iDT(improved Dense Trajectory)。與DT相比,iDT法改進(jìn)了特征的正則化,優(yōu)化了光流圖,并在特征編碼方式上進(jìn)行了提升。
常用的對特征進(jìn)行聚合的方法有BoVW[17]、FV[18]、VLAD[19]等。BoVW(Bag-of-Visual Words)使用K-means對特征進(jìn)行聚類,并用距離最近的聚類中心取代特征點(diǎn),該方法信息損失較多。FV(Fisher Vector)使用GMM方法對特征點(diǎn)進(jìn)行建模,使用所有聚類中心的線性組合來作為該特征點(diǎn)的表示,準(zhǔn)確度較高,計(jì)算量大,在建模過程中也損失了部分信息。VLAD(Vector of Locally Aggregated Descriptor)計(jì)算特征點(diǎn)到聚類中心的殘差,并將落在相同聚類中心的殘差累加求和再進(jìn)行歸一化后得到一個(gè)VLAD向量。
深度學(xué)習(xí)在圖像相關(guān)任務(wù)上相比于傳統(tǒng)方法取得了重大突破。視頻作為圖像在時(shí)間域上的擴(kuò)展,近年來也大量使用深度學(xué)習(xí)的方法來進(jìn)行處理分析。視頻與圖像最大的不同之處在于其內(nèi)在包含了除長度、寬度以及通道外的第四維度——時(shí)間維度的信息,一個(gè)好的視頻動作識別方法必然能充分利用時(shí)間域的信息。
雙流神經(jīng)網(wǎng)絡(luò)(Two-Stream ConvNet)[20]在動作識別領(lǐng)域是一類很常用的方法,該方法簡單卻有相當(dāng)優(yōu)異的效果。雙流網(wǎng)絡(luò)顧名思義由時(shí)間流與空間流2路網(wǎng)絡(luò)組成,空間流網(wǎng)絡(luò)將視頻單幀或堆疊幀輸入卷積網(wǎng)絡(luò)學(xué)習(xí)空間域上的視頻信息,時(shí)間流網(wǎng)絡(luò)將光流圖以多通道的形式輸入卷積網(wǎng)絡(luò)學(xué)習(xí)時(shí)間域上的視頻信息。2路網(wǎng)絡(luò)各自對視頻輸出屬于各類的概率,最后平均2個(gè)概率向量得到最終的分類結(jié)果。改進(jìn)的雙流網(wǎng)絡(luò)[21]對空間流與時(shí)間流網(wǎng)絡(luò)如何融合以及何時(shí)融合進(jìn)行了探索。其認(rèn)為將特定區(qū)域的空間特征圖映射到時(shí)間特征圖的對應(yīng)區(qū)域?qū)τ谌诤闲Ч苡袔椭?,因此需要在網(wǎng)絡(luò)早期就進(jìn)行融合,而不能只是在最后才融合雙流信息,這樣會失去很多有用信息。除此之外也有方法將音頻信息也作為單獨(dú)的一路網(wǎng)絡(luò),但終究沒有成為主流。雙流卷積網(wǎng)絡(luò)以圖像識別的2D網(wǎng)絡(luò)作為基礎(chǔ)架構(gòu),因此其可以如圖像識別一樣在ImageNet上進(jìn)行預(yù)訓(xùn)練來提高訓(xùn)練效果,減少訓(xùn)練時(shí)間。Wang等人[22]結(jié)合了經(jīng)典iDT手工特征和雙流深度特征,提出了軌跡池化網(wǎng)絡(luò)(TDD)。TDD用雙流網(wǎng)絡(luò)來學(xué)習(xí)卷積特征,然后用軌跡池化的方法來融合這些卷積特征,最后用SVM分類。后續(xù)許多方法都通過結(jié)合iDT達(dá)到了最佳效果。
3D神經(jīng)網(wǎng)絡(luò)[23]是另一類很常用的方法。隨著近年來計(jì)算力的進(jìn)一步提升以及數(shù)據(jù)集規(guī)模的進(jìn)一步增加,3D神經(jīng)網(wǎng)絡(luò)發(fā)展迅速,從最開始的不如傳統(tǒng)方法到如今與雙流網(wǎng)絡(luò)并駕齊驅(qū)。3D網(wǎng)絡(luò)在設(shè)計(jì)之初就是一種端到端的網(wǎng)絡(luò)架構(gòu),它可以直接將視頻作為輸入,并輸出最終分類類別。由于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,3D網(wǎng)絡(luò)需要很大的數(shù)據(jù)集才能得到較好的結(jié)果,并且網(wǎng)絡(luò)層數(shù)不能過深。Sun等人[24]將“3D空間時(shí)間學(xué)習(xí)”分解為“2D空間學(xué)習(xí)”和“1D時(shí)間學(xué)習(xí)”,提出了空時(shí)分解卷積網(wǎng)絡(luò)。文獻(xiàn)[25-27]均在此基礎(chǔ)上進(jìn)行了改進(jìn)。I3D[28]將預(yù)訓(xùn)練的2D網(wǎng)絡(luò)的參數(shù)填充為3D并采取雙流結(jié)構(gòu),每一路都是3D網(wǎng)絡(luò),而不像傳統(tǒng)的雙流網(wǎng)絡(luò)是2D網(wǎng)絡(luò)。結(jié)合了雙流網(wǎng)絡(luò)和3D神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),I3D在主流的數(shù)據(jù)集上都獲得了當(dāng)前最優(yōu)異的成績。
RNN可以處理時(shí)域信息,因此將CNN與RNN相結(jié)合也可以學(xué)習(xí)視頻中時(shí)間維度的信息。LSTM(Long Short-Term Memory)[29]和GRU(Gated Recurrent Unit)[30]是RNN中2類常用的變種架構(gòu)。它的基本思想是用RNN對CNN最后一層在時(shí)間軸上進(jìn)行整合。這里,它沒有用CNN全連接層后的最后特征進(jìn)行融合,是因?yàn)槿B接層后的高層特征進(jìn)行池化已經(jīng)丟失了空間特征在時(shí)間軸上的信息。目前效果最好的此類方法為長時(shí)遞歸卷積神經(jīng)網(wǎng)絡(luò)(Long-term Recurrent Convolutional Network, LRCN)[31]。
本章將詳細(xì)介紹帶有注意力機(jī)制的時(shí)間段網(wǎng)絡(luò)的設(shè)計(jì)原理和實(shí)現(xiàn)細(xì)節(jié),具體地展示該網(wǎng)絡(luò)模型是怎樣對復(fù)雜背景下的人體動作進(jìn)行有效識別。
本文對“復(fù)雜背景”一詞的具體含義沒有作特別限定,僅用于泛指非實(shí)驗(yàn)室控制條件下輸入視頻可能出現(xiàn)的各種噪聲,可能包括人體晃動和背景變化等,這些因素可對傳統(tǒng)視頻分類算法造成巨大干擾。盡管可以通過對人體建?;?qū)μ囟▓鼍跋碌谋尘敖5姆绞絹斫鉀Q上述問題,但本文的目的在于盡量不假定其他先驗(yàn)知識和增加額外計(jì)算及建模代價(jià)的前提下,從深度網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的角度來尋求增強(qiáng)系統(tǒng)對上述一般性干擾的魯棒性。
圖1 本文方法能夠處理的視頻序列示例
基于視頻的動作識別任務(wù)為給定一個(gè)視頻X,目標(biāo)為學(xué)習(xí)一個(gè)分類器f,使得當(dāng)f以X為輸入時(shí),將其映射為其屬于每類動作的概率向量S∈Rm(m為動作類別數(shù)):
時(shí)間段網(wǎng)絡(luò)是雙流神經(jīng)網(wǎng)絡(luò)的改進(jìn)版本,其優(yōu)點(diǎn)是排除了連續(xù)幀帶來的大量冗余信息,節(jié)省了大量訓(xùn)練時(shí)間。然而由于切片幀的時(shí)間跨度太長,以及采樣自帶的隨機(jī)性,需要關(guān)注的圖像區(qū)域變化較大,使之無法真正聚焦于目標(biāo)動作發(fā)生的區(qū)域。為了使模型將識別重點(diǎn)放在目標(biāo)區(qū)域而忽略視頻中的復(fù)雜背景,本文引入了圖像處理中經(jīng)典的非局域均值法。該方法與近年來在機(jī)器翻譯領(lǐng)域提出的自注意力有著本質(zhì)上的聯(lián)系。
自注意力的想法來自于人類的注意力機(jī)制,即人類在觀察某個(gè)場景時(shí)一般不會對每個(gè)部分同等對待,而是根據(jù)興趣和先驗(yàn)知識重點(diǎn)觀察特定的部分。在計(jì)算機(jī)視覺中,自注意力機(jī)制往往是通過將同一圖像中的所有位置聯(lián)系起來進(jìn)行加權(quán)平均的方式實(shí)現(xiàn)。在本文中,使用非局域方法通過點(diǎn)相關(guān)矩陣F對特征矩陣G進(jìn)行加權(quán)平均,與自注意力模型類似,有效提高了模型對復(fù)雜背景的魯棒性。
容易想到,一幅圖片中各個(gè)像素點(diǎn)之間存在關(guān)聯(lián),單純的卷積操作一般是3×3,這樣的卷積能獲取的信息是很局部的,為了增加感受野,普遍采用的操作是疊加這樣的特征提取層逐漸地獲取全局特征,但是這樣的操作帶來的問題是網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化。而非局域方法可以在一定程度上解決這個(gè)問題。計(jì)算過程如下:
(1)
C(xi)=∑jexp (θ(xi)T·φ(xj))
(2)
zi=Wzyi+xi
(3)
這里i和j為圖像的位置索引,C為歸一化參數(shù),整個(gè)計(jì)算過程不改變其規(guī)格。值得指出的是,非局域機(jī)制式(1)可以寫為如下矩陣形式:
(4)
其中,C為規(guī)整化因子(見式(2)),F(xiàn)為點(diǎn)相關(guān)矩陣,G(x)為按位置排列的特征矩陣。這揭示出非局部網(wǎng)絡(luò)可視為一種逐點(diǎn)(point-wise)的圖卷積網(wǎng)絡(luò)[34],其核心在于設(shè)計(jì)卷積核F(本文稱非局部核矩陣)。在原始非局部網(wǎng)絡(luò)中,沒有考慮從視頻信息中衍生的多模態(tài)信息(如光流圖),為此本文提出一種新的非局部核矩陣構(gòu)造方法,以進(jìn)一步融合和豐富視頻外觀表示的動態(tài)性。本文將該模塊插入已有的時(shí)間段網(wǎng)絡(luò)形成了新的非局域時(shí)間段網(wǎng)絡(luò),如圖2所示。本文將在后面對該網(wǎng)絡(luò)進(jìn)行進(jìn)一步的描述。
圖2 非局域時(shí)間段網(wǎng)絡(luò)
在時(shí)間段網(wǎng)絡(luò)中,文獻(xiàn)[32]簡單地使用平均法對雙流網(wǎng)絡(luò)k個(gè)階段共2k個(gè)m×1概率向量進(jìn)行合成??梢园l(fā)現(xiàn),同一個(gè)動作的不同階段對該動作的判定的貢獻(xiàn)值是不同的,而同流(空間流或時(shí)間流)對不同動作判定的貢獻(xiàn)值也是不同的。簡單的平均法無法有效利用這些信息,本文中采用可學(xué)習(xí)的方式來進(jìn)一步融合各視頻段的分類結(jié)果。具體而言,每個(gè)分段的預(yù)測可表示為2個(gè)m×1概率向量(分別對應(yīng)外觀和光流信息),其中m為類別數(shù)。因此,對k個(gè)視頻段,共需融合2k個(gè)概率向量的分類結(jié)果。為此為每個(gè)類別分別學(xué)習(xí)一個(gè)大小2k×1的卷積核,用于表示每個(gè)概率向量對該類別判別的權(quán)重。本文采用交叉熵為損失函數(shù),并將其與網(wǎng)絡(luò)其余部分進(jìn)行端到端微調(diào)。
在上述非局域時(shí)間段網(wǎng)絡(luò)中,事實(shí)上考慮了本文關(guān)注的矩形區(qū)域中的所有點(diǎn)的相關(guān)性,而在實(shí)際中動作范圍往往只占該矩形區(qū)域的一部分。為了使本文的模型進(jìn)一步聚焦于真正有效的區(qū)域,考慮使用光流圖的點(diǎn)相關(guān)性矩陣HW×HW替換原始圖像的點(diǎn)相關(guān)性矩陣。光流圖可簡單地理解為前后2幀圖像的變化信息,變化越劇烈的區(qū)域取值越高,變化小的區(qū)域則取值趨向0。點(diǎn)相關(guān)矩陣更改為:
(5)
其中x′i為xi在光流圖中的對應(yīng)點(diǎn)的取值,其余操作不加變動,如圖3所示。
為了驗(yàn)證本文模型的性能,本文構(gòu)造了一個(gè)列車司機(jī)確認(rèn)呼喚標(biāo)準(zhǔn)手勢(TDAP)數(shù)據(jù)集。它包含6個(gè)手勢動作類別以及684個(gè)剪切好的視頻片段。本文使用隨機(jī)梯度下降(SGD)算法來更新網(wǎng)絡(luò)參數(shù),動量因子設(shè)置為0.9,批大小(batch size)設(shè)置為16。本文的網(wǎng)絡(luò)在ImageNet上進(jìn)行預(yù)訓(xùn)練。空間流網(wǎng)絡(luò)的學(xué)習(xí)率初始值為0.001,每迭代100次減小到原來的1/10,整個(gè)訓(xùn)練過程迭代250次。時(shí)間流網(wǎng)絡(luò)的學(xué)習(xí)率初始值為0.001,每迭代150次減小到原來的1/10,整個(gè)訓(xùn)練過程迭代350次??紤]到數(shù)據(jù)增廣,本文也使用了抖動、水平翻轉(zhuǎn)、角裁剪等技術(shù)。對于光流的抽取本文采用OpenCV的TVL1光流算法[35]。在預(yù)訓(xùn)練后,除了初次訓(xùn)練,本文將凍結(jié)所有批正則化(batch normalization)[36]層的均值方差參數(shù)。同時(shí),本文將在全局池化(pooling)層后增加一個(gè)舍棄(dropout)[37]層來減小過擬合??臻g流網(wǎng)絡(luò)的舍棄(dropout)率為0.8,時(shí)間流網(wǎng)絡(luò)的舍棄(dropout)率為0.7。實(shí)驗(yàn)設(shè)備為一塊TITAN X GPU,整個(gè)網(wǎng)絡(luò)的訓(xùn)練時(shí)間在分3段的情況下,空間流網(wǎng)絡(luò)需要2 h,時(shí)間流網(wǎng)絡(luò)需要12 h。
圖3 混合型非局域模塊
表1比較了將非局域模塊加入ResNet的不同階段的效果。非局域模塊被插入到某個(gè)階段的最后一個(gè)殘差塊之前。從表1可以看出,插入res2、res3以及res4的效果是相似的,而插入res5的效果偏低??赡艿慕忉屖莚es5的空間規(guī)模很小所以它提供的空間信息不充分。
表2比較了添加更多非局域模塊的結(jié)果。本文分別嘗試在ResNet-50網(wǎng)絡(luò)中添加1個(gè)模塊(res4)、2個(gè)模塊(res3和res4)、4個(gè)模塊(每層1個(gè))以及8個(gè)模塊(每層2個(gè))。在ResNet-101中本文也將其添加到相應(yīng)的殘差塊。從表2可以看出并不是添加越多的非局域模塊越好,可能的解釋是數(shù)據(jù)量太少以及網(wǎng)絡(luò)結(jié)構(gòu)過深導(dǎo)致其過擬合。
表3比較了不同的時(shí)間段數(shù)量對網(wǎng)絡(luò)性能的影響。本文在ResNet-50上添加4個(gè)模塊的基礎(chǔ)上分別使用3、5和7個(gè)時(shí)間切片。從表3可以看出,時(shí)間段分得更多可以導(dǎo)致更高的精度,在分成5個(gè)時(shí)間段的情況下,ResNet-50可以取得與分成3個(gè)時(shí)間段的ResNet-101一樣的性能,而分成7個(gè)時(shí)間段的話則可以取得更高的性能。然而在分成5個(gè)時(shí)間段時(shí),訓(xùn)練時(shí)間要增加2/3,在分成7個(gè)時(shí)間段的情況下訓(xùn)練時(shí)間更是要增加1倍。而本文添加的非局域模塊所導(dǎo)致的額外訓(xùn)練時(shí)間相當(dāng)之少(空間流網(wǎng)絡(luò)增加幾分鐘,時(shí)間流網(wǎng)絡(luò)增加近1 h)與增加時(shí)間段數(shù)量導(dǎo)致的負(fù)擔(dān)相比基本可以忽略不計(jì)。
從表1~表3可以發(fā)現(xiàn),使用加權(quán)平均可以比簡單平均得到更好的結(jié)果。而使用混合模型則能得到比簡單添加非局域模塊更好的性能,但在此基礎(chǔ)上再融合2路網(wǎng)絡(luò)效果則幾乎沒有提升,本文猜測原因是在替換點(diǎn)相關(guān)矩陣的時(shí)候空間流網(wǎng)絡(luò)已經(jīng)融合了時(shí)間流的信息,所以在最后的融合時(shí)相當(dāng)于沒有增加有用信息。
表1 不同階段添加非局域模塊的效果比較
表2 不同深度的非局域網(wǎng)絡(luò)效果比較
表3 時(shí)間段數(shù)不同的非局域網(wǎng)絡(luò)效果比較
在圖4中,將本文模型與近2年提出的其他模型(P3D[27]、I3D[28]、Non-local C3D[5]、R(2+1)D[25])進(jìn)行了對比。這些模型采用各自的方法對時(shí)空間信息進(jìn)行融合:P3D設(shè)計(jì)了3種模塊將3×3×3卷積分解為1×3×3卷積和3×1×1卷積,前者獲取時(shí)間信息,后者獲取空間信息;I3D將2路網(wǎng)絡(luò)都設(shè)置為C3D網(wǎng)絡(luò),各自同時(shí)獲取時(shí)空間信息,最后將2路網(wǎng)絡(luò)進(jìn)行融合;R(2+1)D與P3D相似,但在每一層中都使用相同的非bottleneck模塊;Non-local C3D將非局域模塊插入C3D網(wǎng)絡(luò),相當(dāng)于將自注意力機(jī)制引入3D卷積網(wǎng)絡(luò)。本文將github上以上模型的源代碼在本文的TDAP數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),從圖4可以看出本文模型比其他的模型效果更佳。3D卷積網(wǎng)絡(luò)的機(jī)制決定了其在中小規(guī)模數(shù)據(jù)集上的效果不會太好,而Non-local C3D正是由于加入了帶有注意力機(jī)制的非局域模塊使其優(yōu)于其他模型。本文模型在雙流網(wǎng)絡(luò)中插入改進(jìn)的非局域模塊,可以充分發(fā)揮雙流網(wǎng)絡(luò)在中小規(guī)模數(shù)據(jù)集的優(yōu)越性以及注意力機(jī)制對環(huán)境的魯棒性。
圖4 與先進(jìn)方法的對比
為驗(yàn)證模型的魯棒性和泛化性能,本文在UCF101數(shù)據(jù)集上增加了實(shí)驗(yàn)。UCF101是從YouTube視頻網(wǎng)站收集的包含13320段短視頻,分為101種動作的數(shù)據(jù)集。它主要包含人和物體交互、只有肢體動作、人與人交互、演奏音樂器材、各類運(yùn)動等5大類動作。本文直接在第4階段插入非局域模塊,實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果顯示本文的模型即使在大樣本數(shù)據(jù)集上依然有比較好的效果。
表4 在UCF101數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的效果
本文針對實(shí)際應(yīng)用中視頻動作識別的復(fù)雜背景,引入計(jì)算機(jī)視覺中經(jīng)典的非局域均值法,提出了非局域時(shí)間段網(wǎng)絡(luò)和混合型非局域時(shí)間段網(wǎng)絡(luò),旨在減弱背景對目標(biāo)動作識別的干擾,并分析了其與機(jī)器翻譯領(lǐng)域的自注意力方法的內(nèi)在聯(lián)系。為了驗(yàn)證模型的性能,本文構(gòu)造了TDAP數(shù)據(jù)集并在該數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文的模型擁有較好的性能并且產(chǎn)生極少的額外訓(xùn)練時(shí)間。本文提出的模型輸入為已剪切好的視頻片段,今后筆者將針對未剪切過的視頻進(jìn)行進(jìn)一步的研究。