亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視頻深度學(xué)習(xí)的時(shí)空雙流人物動(dòng)作識(shí)別模型

        2018-05-21 00:50:29楊天明岳文靜
        計(jì)算機(jī)應(yīng)用 2018年3期
        關(guān)鍵詞:雙流時(shí)空卷積

        楊天明,陳 志,岳文靜

        (1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023; 2.南京郵電大學(xué) 通信與信息工程學(xué)院,南京 210003)

        0 引言

        深度學(xué)習(xí)被運(yùn)用于圖片分類[1-3]、人物臉部識(shí)別[4]和人物位置預(yù)測(cè)[5]等識(shí)別領(lǐng)域。視頻人物動(dòng)作識(shí)別可看作隨時(shí)間變化圖片的分類問(wèn)題,所以圖片識(shí)別的深度學(xué)習(xí)方法也被大量使用在視頻人物動(dòng)作識(shí)別研究中[6-8]。與計(jì)算機(jī)視覺(jué)的其他領(lǐng)域相比,深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在動(dòng)作識(shí)別領(lǐng)域的表現(xiàn)并不突出,原因有以下兩點(diǎn):第一,現(xiàn)今視頻數(shù)據(jù)集較小并且噪聲信息較多。視頻中目標(biāo)的移動(dòng)以及視角的變化增加了動(dòng)作識(shí)別的難度,所以需要比圖片識(shí)別更多的訓(xùn)練樣本。圖片數(shù)據(jù)集ImageNet每一類具有1 000個(gè)例子,而視頻數(shù)據(jù)集比如佛羅里達(dá)大學(xué)YouTube行為數(shù)據(jù)集(University of Central Florida YouTube action dataset 101, UCF101)每一類僅僅有100個(gè)例子,比圖片數(shù)據(jù)集少很多。第二,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不能充分地提取時(shí)間特征。視頻是一種按時(shí)變化數(shù)據(jù),任意像素與其鄰域像素之間的相似性很大,具有很強(qiáng)的時(shí)間相關(guān)性與空間相關(guān)性,具有時(shí)空特征。然而卷積神經(jīng)網(wǎng)絡(luò)通常用于單一、靜止的圖片,不能有效地提取出連續(xù)幀之間的關(guān)聯(lián)特征。

        為了利用視頻的時(shí)間特征,文獻(xiàn)[9]提出了一種時(shí)空雙流結(jié)構(gòu),該結(jié)構(gòu)包含兩個(gè)并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別以等間隔抽樣視頻幀和視頻的一系列光流圖片作為輸入,提取視頻人物動(dòng)作的空間以及時(shí)間信息,最后將這兩方面信息融合用以辨別視頻人物動(dòng)作類別;同時(shí)該結(jié)構(gòu)也表明了僅僅通過(guò)光流信息也能夠辨別數(shù)據(jù)集UCF101中的大部分人物動(dòng)作。雖然該結(jié)構(gòu)在一定程度上利用了視頻的時(shí)間特征,但識(shí)別準(zhǔn)確度仍然不高。

        為了解決上述問(wèn)題,本文在時(shí)空雙流識(shí)別模型的基礎(chǔ)上,提出了一種3D卷積神經(jīng)網(wǎng)絡(luò)模型。該模型首先利用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別抽取視頻人物動(dòng)作片段的空間以及時(shí)間特征;接著融合這兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)提取的特征,并將融合后的特征輸入到3D卷積神經(jīng)網(wǎng)絡(luò)中完成視頻中人物動(dòng)作的識(shí)別。本文在數(shù)據(jù)集UCF101以及人物行為數(shù)據(jù)集(Human Motion DataBase, HMDB51)上進(jìn)行視頻人物動(dòng)作識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文提出的基于時(shí)空雙流的3D卷積神經(jīng)網(wǎng)絡(luò)模型能夠有效地識(shí)別視頻人物動(dòng)作。此網(wǎng)絡(luò)模型能夠同時(shí)學(xué)習(xí)靜態(tài)圖片內(nèi)容的信息以及視頻人物運(yùn)動(dòng)信息,并且能夠?qū)⑦@兩個(gè)特征進(jìn)行融合進(jìn)而提取時(shí)空相關(guān)性信息。

        1 相關(guān)工作

        利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取利用視頻的時(shí)間信息一直是視頻人物動(dòng)作識(shí)別的難點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)比較適用于提取單一靜態(tài)圖片的特征,對(duì)于視頻的時(shí)間信息不是特別的敏感。然而用于靜態(tài)圖片識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展在很大程度上促進(jìn)了視頻識(shí)別領(lǐng)域的發(fā)展,近些年來(lái)眾多CNN的調(diào)整方法被提出來(lái),使得CNN能夠在一定程度上利用視頻的時(shí)間信息。

        為了能夠讓CNN的第一層就能夠?qū)W習(xí)到視頻的時(shí)空特征,相關(guān)文獻(xiàn)提出了修改卷積神經(jīng)網(wǎng)絡(luò)輸入的方法。文獻(xiàn)[10]中提出了將一定數(shù)量連續(xù)的視頻幀作為CNN的輸入。與文獻(xiàn)[10]的視頻幀的簡(jiǎn)單疊加不同,文獻(xiàn)[11]更進(jìn)一步地提出了多種時(shí)間域上視頻幀采樣融合方法,其中:早期融合(early fusion)與文獻(xiàn)[10]中提出的方法相同,緩慢融合(slow fusion)是一種逐層次地增加神經(jīng)網(wǎng)絡(luò)輸入時(shí)間域長(zhǎng)的方法,晚期融合(late fusion)方法融合了時(shí)間域間隔一定長(zhǎng)度不同視頻幀對(duì)應(yīng)CNN的全連接層。與單一空間卷積神經(jīng)網(wǎng)絡(luò)相比,上述視頻識(shí)別方法在準(zhǔn)確率上只是略有提升,說(shuō)明上述研究方法沒(méi)有充分地利用視頻的時(shí)間信息。

        文獻(xiàn)[12]提出3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)是原先2D神經(jīng)網(wǎng)絡(luò)在時(shí)間維度上的一種擴(kuò)展,使得可以學(xué)習(xí)視頻片段時(shí)間上的特征。這種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用若干個(gè)連續(xù)的視頻幀作為輸入,使用大小為3×3×3卷積核學(xué)習(xí)視頻的時(shí)空特征。實(shí)驗(yàn)結(jié)果表明這種結(jié)構(gòu)的準(zhǔn)確率比文獻(xiàn)[10]提出的多種輸入視頻幀融合方法更高;但是這種結(jié)構(gòu)是一種更加深度的結(jié)構(gòu),實(shí)驗(yàn)訓(xùn)練與測(cè)試的過(guò)程中需要占用更多的資源。

        圖2 空間流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) Fig. 2 Framework of spatial convolutional neural network

        文獻(xiàn)[9]提出了時(shí)空雙流深度學(xué)習(xí)策略,用來(lái)分別提取視頻的空間信息與時(shí)間信息,最后將這兩個(gè)信息融合,其具體結(jié)構(gòu)如圖1所示。首先提取視頻的RGB幀和連續(xù)視頻光流幀,將視頻分解成空間與時(shí)間元素。然后將這兩個(gè)元素分別輸入到兩個(gè)獨(dú)立的深度卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中,來(lái)學(xué)習(xí)場(chǎng)景中運(yùn)動(dòng)目標(biāo)外形以及動(dòng)作的空間以及時(shí)間信息。用這兩個(gè)流分別進(jìn)行視頻行為動(dòng)作的識(shí)別,在最后將softmax層的分?jǐn)?shù)通過(guò)晚期融合(late fusion)的方式進(jìn)行合并[11]。文獻(xiàn)[9]比較了不同的連續(xù)光流幀融合方法,得出結(jié)論:連續(xù)的10幀的水平光流場(chǎng)與豎直的光流場(chǎng)表現(xiàn)最好。相比傳統(tǒng)的視頻人物動(dòng)作識(shí)別方法,該方法有效地融合了視頻的時(shí)間信息,但是仍然存在以下的問(wèn)題:

        問(wèn)題1 文獻(xiàn)[9]提出的深度學(xué)習(xí)結(jié)構(gòu)的輸入量太少,僅僅是單個(gè)光流幀以及若干個(gè)時(shí)間域上等間隔抽樣的光流。

        問(wèn)題2 文獻(xiàn)[9]提出的空間特征與時(shí)間特征的融合僅僅是在最后的softmax層進(jìn)行融合,沒(méi)有考慮到空間與時(shí)間特征之間的關(guān)聯(lián)性以及這些關(guān)聯(lián)如何隨著時(shí)間變化。

        問(wèn)題3 文獻(xiàn)[13]自編碼學(xué)習(xí)過(guò)程產(chǎn)生的參數(shù)數(shù)量太多,增加了深度學(xué)習(xí)的難度。

        基于上述方面的考慮,本文對(duì)于文獻(xiàn)[9]提出的時(shí)空雙流深度學(xué)習(xí)模型的改進(jìn)基礎(chǔ)上,引入了3D卷積神經(jīng)網(wǎng)絡(luò),提出一種基于視頻深度學(xué)習(xí)的時(shí)空雙流視頻人物動(dòng)作識(shí)別模型(Spatio-temporal Convolutional Neural Network based on 3D-gradients, Spatiotemporal-3DCNN)。

        圖1 時(shí)空雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) Fig. 1 Framework of spatio-temporal two-stream convolutional neural network

        2 時(shí)空雙流人物動(dòng)作識(shí)別模型設(shè)計(jì)

        2.1 相關(guān)工作

        2.1.1 空間流卷積神經(jīng)網(wǎng)絡(luò)

        空間流卷積神經(jīng)網(wǎng)絡(luò)的輸入是單個(gè)視頻幀,它是一種通過(guò)提取靜態(tài)圖片信息來(lái)完成視頻人物動(dòng)作識(shí)別的深度學(xué)習(xí)模型。靜態(tài)的外形特征是一個(gè)非常有用的信息,因?yàn)橐曨l人物的某些行為動(dòng)作與某些物體有著密切的關(guān)聯(lián)性。通過(guò)后面章節(jié)的實(shí)驗(yàn)也可得知,僅僅通過(guò)空間流卷積神經(jīng)網(wǎng)絡(luò)也能夠完成部分視頻人物動(dòng)作的識(shí)別??臻g流卷積神經(jīng)網(wǎng)絡(luò)在本質(zhì)上屬于一種圖片分類結(jié)構(gòu),本文所述的空間流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用的是文獻(xiàn)[14]中的圖片分類卷積神經(jīng)網(wǎng)絡(luò),其具體結(jié)構(gòu)采用的是牛津大學(xué)視覺(jué)幾何組(Visual Geometry Group,VGG)開(kāi)發(fā)的VGG-M-2048模型,如圖2所示,并且該結(jié)構(gòu)會(huì)在圖片數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。

        2.1.2 時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)

        時(shí)間流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,同樣也是采用的是VGG-M-2048模型。與空間流卷積神經(jīng)網(wǎng)絡(luò)不同,時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)輸入的是若干連續(xù)視頻幀之間的光流圖片。光流圖片可以理解為連續(xù)視頻幀之間的像素點(diǎn)位移場(chǎng),顯式地表述了視頻的運(yùn)動(dòng)信息,有效地提取了視頻的時(shí)間特征,提高了視頻人物動(dòng)作識(shí)別的準(zhǔn)確率。本文中把用于輸入的若干連續(xù)光流圖片稱為光流棧。光流棧的具體描述如下:

        a=[1;ω],b=[1;h],k=[1;L]

        (1)

        其中ω和h分別表示視頻的像素長(zhǎng)度與像素寬度。

        圖3 時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) Fig. 1 Framework of temporal convolutional neural network

        2.2 整體架構(gòu)設(shè)計(jì)

        本文提出的Spatiotemporal-3DCNN框架如圖4所示。該模型主要包括三個(gè)模塊:空間特征與時(shí)間特征的提取、空間特征與時(shí)間特征的融合、基于3D卷積神經(jīng)網(wǎng)絡(luò)的視頻人物動(dòng)作識(shí)別。首先,分別訓(xùn)練兩個(gè)2D卷積神經(jīng)網(wǎng)絡(luò)流,用來(lái)分別提取視頻的空間特征與時(shí)間特征;之后,將空間流與時(shí)間流網(wǎng)絡(luò)進(jìn)行再卷積進(jìn)行融合,并對(duì)參數(shù)進(jìn)行微調(diào),用于提取視頻時(shí)空中層特征;最后,通過(guò)3D卷積神經(jīng)網(wǎng)絡(luò)模型完成視頻人物動(dòng)作的識(shí)別。

        圖4 Spatiotemporal-3DCNN框架 Fig. 4 Framework of spatiotemporal-3DCNN

        Spatiotemporal-3DCNN包含T個(gè)時(shí)空流。空間流的輸入的是視頻幀,從視頻片段的時(shí)間t開(kāi)始以時(shí)間域距離d進(jìn)行等間隔取樣,將在時(shí)間t,t+d,…,t+Td的視頻幀作為輸入。時(shí)間流對(duì)應(yīng)的輸入是連續(xù)光流幀,在時(shí)間t時(shí)刻對(duì)應(yīng)的連續(xù)光流幀圖片在時(shí)間域上的位置是(t-L/2,t+L/2)。通過(guò)融合得到在時(shí)間域上連續(xù)的T個(gè)時(shí)空特征圖,并且光流域的長(zhǎng)度L和空間流視頻幀的取樣間隔d必定滿足關(guān)系L

        Spatiotemporal-3DCNN利用3D卷積神經(jīng)網(wǎng)絡(luò)對(duì)2D時(shí)空雙流卷積神經(jīng)網(wǎng)絡(luò)在時(shí)間軸上的進(jìn)一步擴(kuò)展,充分利用了視頻的時(shí)間信息。這里時(shí)空雙流卷積神經(jīng)沒(méi)有使用全連接層最后的特征融合,因?yàn)槿B接層輸出的是高層特征會(huì)丟失圖像特征在時(shí)間軸上的信息。將時(shí)空雙流在卷積層(Conv5)的時(shí)空特征進(jìn)行融合得到的特征圖作為3D卷積神經(jīng)網(wǎng)絡(luò)的輸入,提高了時(shí)空特征在像素點(diǎn)上的關(guān)聯(lián)性,因?yàn)樵谀P洼斎胫屑尤肓斯饬鲌D片,提高了處理靜態(tài)圖像視頻幀采樣的魯棒性,每一秒的采樣都會(huì)都是幀圖像的所隱含的運(yùn)動(dòng)信息,而光流特征可以作為補(bǔ)償。接著3D卷積神經(jīng)網(wǎng)絡(luò)對(duì)同一人物動(dòng)作視頻的不同時(shí)間片段的時(shí)空特征圖進(jìn)行3D卷積與池化進(jìn)一步提取了時(shí)間信息。

        2.3 時(shí)空融合策略

        時(shí)空網(wǎng)絡(luò)的融合在于使用視頻的空間特征與時(shí)間特征的關(guān)聯(lián)性判斷人物的行為動(dòng)作。比如對(duì)于梳頭與刷牙兩個(gè)行為動(dòng)作,空間流網(wǎng)絡(luò)識(shí)別出了靜態(tài)的物體頭發(fā)與牙齒,時(shí)間流網(wǎng)絡(luò)識(shí)別出了在一定的空間位置手部進(jìn)行周期性的運(yùn)動(dòng),結(jié)合這兩個(gè)網(wǎng)絡(luò)可以分辨梳頭和刷牙這兩個(gè)人物動(dòng)作。本節(jié)從時(shí)空雙流的融合位置角度闡述時(shí)空雙流卷積神經(jīng)網(wǎng)絡(luò)融合策略。

        時(shí)空融合位置如下。

        神經(jīng)網(wǎng)絡(luò)之間的融合不是簡(jiǎn)單地將一個(gè)神經(jīng)網(wǎng)絡(luò)疊加到另一個(gè)神經(jīng)網(wǎng)絡(luò):首先要考慮的是特征圖的大小是否一致,如果不一致需要對(duì)較小的特征圖進(jìn)行上采樣;接著還要考慮空間流卷積神經(jīng)網(wǎng)絡(luò)與時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)通道之間的對(duì)應(yīng)關(guān)系。本文所述的結(jié)構(gòu)使用的時(shí)空融合方法具體可用如下公式進(jìn)行描述:

        ysum=fsum(ma,mb)

        (2)

        (3)

        式(2)表示將兩個(gè)網(wǎng)絡(luò)的特征圖ma∈RH×W×D和mb∈RH′×W′×D′通過(guò)求和的方式將兩個(gè)網(wǎng)絡(luò)的特征融合成一個(gè)新的特征圖ysum∈RH″×W″×D″,其中:H表示特征圖的高度,W表示特征圖的寬度,D表示特征圖通道數(shù),并且滿足關(guān)系H=H′=H″,W=W′=W″,D=D′=D″。該公式能夠被應(yīng)用于卷積層、全連接層及池化層的融合。

        式(3)具體描述了如何使用求和的方法在第d通道特征圖的像素點(diǎn)(i,j)處進(jìn)行融合,其中1≤i≤H, 1≤j≤W,1≤d≤D,ma,mb,y∈RH×W×D。

        圖5 時(shí)空雙流融合網(wǎng)絡(luò)結(jié)構(gòu) Fig. 5 Framework of spatio-temporal fusion convolutional neural network

        圖6 時(shí)空特征提取模型結(jié)構(gòu) Fig. 6 Framework of spatio-temporal feature extraction model

        2.4 基于3D卷積神經(jīng)網(wǎng)絡(luò)的視頻人物動(dòng)作識(shí)別

        本節(jié)提出的3D卷積神經(jīng)網(wǎng)絡(luò)模型如圖7所示,這種網(wǎng)絡(luò)結(jié)構(gòu)包含5個(gè)卷積層、5個(gè)池化層、2個(gè)全連接層以及一個(gè)識(shí)別視頻行為動(dòng)作的softmax損失層。這5個(gè)卷積層所使用的卷積核的數(shù)量依次是64,128,256,256,256。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同的是,3D卷積神經(jīng)網(wǎng)絡(luò)不僅僅對(duì)空間的水平與豎直維度進(jìn)行卷積,同時(shí)將時(shí)間維度也考慮在內(nèi)進(jìn)行3D卷積,所有的3D卷積核的大小都是3×3×3,在空間與時(shí)間維度上的深度都是3,并且在時(shí)間與空間維度的跨度是1×1×1。池化層采用的池化方法是max pool,3D池化核的大小都是2×2×2,在空間與時(shí)間維度上的深度都是2,在時(shí)間與空間維度上的跨度是1×1×1。3D卷積神經(jīng)網(wǎng)絡(luò)的第一層輸入是由時(shí)空雙流結(jié)構(gòu)提取的T個(gè)中層時(shí)空特征圖M∈RH×W×D×T,其中H是時(shí)空特征圖的高度,W是時(shí)空特征圖的寬度,D是時(shí)空特征圖的通道數(shù)。最后的兩個(gè)全連接層都是2 048維的特征向量。

        圖7 3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) Fig. 7 Framework of convolutional neural network based on 3D-gradients

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        本節(jié)實(shí)驗(yàn)的數(shù)據(jù)集來(lái)源于兩個(gè)有名的視頻動(dòng)作識(shí)別數(shù)據(jù)集:UCF-101與HMDB51[15]。UCF-101是目前動(dòng)作類別數(shù)、樣本數(shù)最多的數(shù)據(jù)庫(kù)之一,一共包含13 320段視頻樣本101個(gè)視頻類別,其數(shù)據(jù)庫(kù)樣本來(lái)自從BBC/ESPN的廣播電視頻道收集的各類運(yùn)動(dòng)樣本,以及從互聯(lián)網(wǎng)尤其是視頻網(wǎng)站YouTube上下載而來(lái)的樣本。HMDB51數(shù)據(jù)集包含6 849段視頻樣本51個(gè)視頻類別,視頻多數(shù)來(lái)自于電影,小部分來(lái)自于公共數(shù)據(jù)庫(kù)以及YouTube等網(wǎng)絡(luò)視頻庫(kù)。本文將這兩個(gè)數(shù)據(jù)集都分成3份訓(xùn)練集與測(cè)試集進(jìn)行實(shí)驗(yàn),通過(guò)計(jì)算同一數(shù)據(jù)集3次實(shí)驗(yàn)的準(zhǔn)確率的平均值作為最終的實(shí)驗(yàn)結(jié)果。

        本文提出的Spatiotemporal-3DCNN模型的主要實(shí)驗(yàn)過(guò)程,主要分為三大步:

        1)預(yù)訓(xùn)練空間與時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)。

        使用兩個(gè)預(yù)先訓(xùn)練的圖片分類模型來(lái)單獨(dú)訓(xùn)練空間流卷積神經(jīng)神經(jīng)網(wǎng)絡(luò)和時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)。VGG-M-2048模型具有5個(gè)卷積層和3個(gè)全連接層,結(jié)構(gòu)更深層的牛津大學(xué)視覺(jué)幾何組(Visual Geometry Group,VGG)開(kāi)發(fā)的VGG-16模型具有13個(gè)卷積層和3個(gè)全連接層。在訓(xùn)練空間流卷積神經(jīng)網(wǎng)絡(luò)的過(guò)程中,使用單個(gè)視頻幀圖像對(duì)預(yù)先在圖片數(shù)據(jù)庫(kù)ImageNet上訓(xùn)練的模型進(jìn)行訓(xùn)練,輸入的是大小為224×224視頻幀隨機(jī)位置裁剪的子圖,并且對(duì)這個(gè)子圖進(jìn)行水平翻轉(zhuǎn)和RGB隨機(jī)顏色抖動(dòng)增加訓(xùn)練的數(shù)據(jù)。在時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,同樣也使用了圖像分類模型進(jìn)行訓(xùn)練,輸入立方體是大小為224×224×2L在原光流圖像上隨機(jī)位置裁剪的連續(xù)子視頻光流幀。根據(jù)文獻(xiàn)[9]中的結(jié)論,將光流在時(shí)間域上的長(zhǎng)度設(shè)置為L(zhǎng)=10表現(xiàn)效果最好。將丟失率設(shè)置為0.85,初始的學(xué)習(xí)率設(shè)置為10-2,在第30 000次迭代后每20 000次迭代將學(xué)習(xí)率縮小為原先的1/10,在迭代80 000次后停止訓(xùn)練。

        2)訓(xùn)練時(shí)空混合卷積神經(jīng)網(wǎng)絡(luò)。

        在上述空間流與時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行時(shí)空雙流融合網(wǎng)絡(luò)的訓(xùn)練。實(shí)驗(yàn)過(guò)程中將會(huì)嘗試在不同的卷積層進(jìn)行融合,并且通過(guò)上采樣的方法使兩個(gè)神經(jīng)網(wǎng)絡(luò)的特征圖分辨率大小一致。沒(méi)有在全連接層進(jìn)行融合是因?yàn)槿B接層在某些程度上已經(jīng)破壞了時(shí)間與空間特征,不能有效地提高識(shí)別準(zhǔn)確率。在訓(xùn)練的過(guò)程中,每一批的大小設(shè)置為96,通過(guò)反向傳播對(duì)融合后的結(jié)構(gòu)參數(shù)進(jìn)行微調(diào)。初始的學(xué)習(xí)率設(shè)置為10-3,在迭代14 000次后學(xué)習(xí)率降為10-4,在迭代30 000次后停止訓(xùn)練。訓(xùn)練完成后的時(shí)空融合結(jié)構(gòu)可被用于初步提取時(shí)空融合特征。

        3)基于3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人物動(dòng)作識(shí)別。

        將由時(shí)空混合卷積神經(jīng)網(wǎng)絡(luò)提取到的中層時(shí)空特征輸入到3D卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中進(jìn)行訓(xùn)練,這個(gè)過(guò)程中進(jìn)一步提取利用的時(shí)間特征并且完成人物動(dòng)作的識(shí)別。將連續(xù)等間隔時(shí)間段的時(shí)空特征圖作為3D卷積神經(jīng)網(wǎng)絡(luò)的輸入,抽樣的起始時(shí)間隨機(jī)選取,時(shí)間段個(gè)數(shù)取值為T=5,并且每個(gè)融合的時(shí)空特征圖共有1 024個(gè)特征通道。3D卷積核的大小為3×3×3并且在第一個(gè)卷積層共有64個(gè)卷積核。3D卷積神經(jīng)網(wǎng)絡(luò)比較容易過(guò)擬合,所以丟失設(shè)置較高為0.9。初始的學(xué)習(xí)率設(shè)置為0.003,每150 000次迭代會(huì)將學(xué)習(xí)率除以2,當(dāng)?shù)螖?shù)達(dá)到1 900 000時(shí)停止訓(xùn)練。

        3.2 結(jié)果分析

        實(shí)驗(yàn)過(guò)程中采用了兩個(gè)數(shù)據(jù)庫(kù)UCF-101和HMDB-51,并將它們分成3份,每份UCF-101數(shù)據(jù)集包含9 500個(gè)訓(xùn)練視頻,每份HMDB-51包含3 700個(gè)訓(xùn)練視頻。對(duì)數(shù)據(jù)集分成的3份內(nèi)容都進(jìn)行訓(xùn)練與測(cè)試,得到3個(gè)視頻人物動(dòng)作識(shí)別準(zhǔn)確率,將得到的3個(gè)識(shí)別準(zhǔn)確率的加權(quán)平均值作為視頻人物動(dòng)作識(shí)別模型的定量評(píng)估指標(biāo)。

        通過(guò)VGG-M-2048模型來(lái)分別提取RGB圖像特征與光流圖像特征,對(duì)于在不同位置融合時(shí)空雙流結(jié)構(gòu)的動(dòng)作識(shí)別準(zhǔn)確率如表1所示。由表1可知雙流在卷積層進(jìn)行融合時(shí),從Conv1層到Conv5層動(dòng)作識(shí)別的準(zhǔn)確率逐步提升,說(shuō)明在卷積層中更深層的融合能夠更加有效地利用時(shí)空信息。同時(shí)表1給出了文獻(xiàn)[9]提出的時(shí)空雙流卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率,該結(jié)構(gòu)在softmax層進(jìn)行融合,結(jié)果表明在卷積層(Conv5)融合的結(jié)構(gòu)略優(yōu)于在softmax層融合的結(jié)構(gòu)。本文提出的時(shí)空域3D卷積神經(jīng)網(wǎng)絡(luò)模型,都將在最深層次的卷積層進(jìn)行融合提取中層時(shí)空特征圖。本文最終的模型使用更深層的神經(jīng)網(wǎng)絡(luò)模型VGG-16模型來(lái)提取中層融合時(shí)空信息,之后將提取到的中層時(shí)空信息輸入到3D卷積神經(jīng)網(wǎng)絡(luò)中。將提出的時(shí)空域3D卷積神經(jīng)網(wǎng)絡(luò)模型與文獻(xiàn)[16]提出的長(zhǎng)周期循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Long-term Recurrent Convolutional Network, LRCN)模型、文獻(xiàn)[12]提出的3D卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network based on 3D-gradients, C3D)模型、文獻(xiàn)[9]提出的雙流卷積神經(jīng)網(wǎng)絡(luò)(Two-Stream Convolutional neural network, Two-Stream ConvNet)模型和在文獻(xiàn)[17]提出的因式分解卷積神經(jīng)網(wǎng)絡(luò)(Factorized Convolutional neural Network, Factorized ConvNet)模型進(jìn)行了對(duì)比。從表2可以看出單個(gè)的時(shí)間流與空間流卷積神經(jīng)網(wǎng)絡(luò)也能夠識(shí)別部分視頻人物動(dòng)作,并且可以看出本文提出的時(shí)空雙流3D卷積神經(jīng)網(wǎng)絡(luò)模型能夠更加精確地識(shí)別出視頻人物動(dòng)作。

        表1 雙流結(jié)構(gòu)在不同融合位置的比較(VGG-M-2048模型)Tab. 1 Comparison of two-stream convolutional neural network fused in different layers (VGG-M-2048 model)

        表2 本文人物動(dòng)作識(shí)別方法與其他方法的準(zhǔn)確率比較 %Tab. 2 Accuracy comparison of human action recognition method presented in this article with others %

        圖8為數(shù)據(jù)集部分視頻中人物動(dòng)作識(shí)別正確案例的展示。視頻(a)(b)(c)表示了刷牙、剃胡子與頭部按摩三種相似的人物動(dòng)作,視頻(d)(e)(f)表示了三種常見(jiàn)的體育運(yùn)動(dòng)。

        圖8 數(shù)據(jù)集部分視頻中人物動(dòng)作識(shí)別正確案例 Fig. 8 Some correct cases of human action recognition in dataset

        4 結(jié)語(yǔ)

        本文提出了一種基于視頻深度學(xué)習(xí)的時(shí)空雙流人物動(dòng)作識(shí)別模型,來(lái)完成視頻中的人物動(dòng)作識(shí)別任務(wù)。該模型先利用預(yù)先訓(xùn)練好的圖片分類模型訓(xùn)練空間流與時(shí)間流卷積神經(jīng)網(wǎng)絡(luò),并在最深層次的卷積層進(jìn)行時(shí)空雙流的融合,完成中層時(shí)空特征信息的提取;再將提取的中層時(shí)空特征信息輸入到3D卷積神經(jīng)網(wǎng)絡(luò)中,來(lái)完成識(shí)別視頻人物動(dòng)作識(shí)別任務(wù)。實(shí)驗(yàn)表明本文提出的動(dòng)作學(xué)習(xí)模型能夠比較有效地識(shí)別出部分視頻中人物簡(jiǎn)單的動(dòng)作。

        但是,本文模型仍存在很多不足之處需要改進(jìn)與提高,比如:視頻中的音頻、文本等固有信息沒(méi)有被充分地利用與考慮;以及當(dāng)視頻出現(xiàn)多人物并且存在互相遮擋,這些都是識(shí)別視頻中人物語(yǔ)義的重要線索[18-19],如果可以很好地利用與融合這些線索信息,對(duì)視頻中人物動(dòng)作的識(shí)別能力必定會(huì)得到很大的提升。后面本人將會(huì)繼續(xù)研究怎么利用與融合視頻中更多語(yǔ)義線索。

        參考文獻(xiàn)(References)

        [1] 唐宋, 陳利娟, 陳志賢, 等. 基于目標(biāo)域局部近鄰幾何信息的域自適應(yīng)圖像分類方法[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(4): 1164-1168.(TANG S, CHEN L J, CHEN Z X, et al. Domain adaptation image classification based on target local-neighbor geometrical information [J]. Journal of Computer Applications, 2017, 37(4): 1164-1168.)

        [2] XIONG H, YU W, YANG X, et al. Learning the conformal transformation kernel for image recognition [J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(1): 149-163.

        [3] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C] // Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9.

        [4] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 815-823.

        [5] TOMPSON J, GOROSHIN R, JAIN A, et al. Efficient object localization using convolutional networks [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 648-656.

        [6] ZHANG J, HAN Y, TANG J, et al. Semi-supervised image-to-video adaptation for video action recognition [J]. IEEE Transactions on Cybernetics, 2016, 47(4): 960-973.

        [7] LIU L, SHAO L, LI X, et al. Learning spatio-temporal representations for action recognition: a genetic programming approach [J]. IEEE Transactions on Cybernetics, 2016, 46(1): 158-170.

        [8] HUSAIN F, DELLEN B, TORRAS C. Action recognition based on efficient deep feature learning in the spatio-temporal domain [J]. IEEE Robotics and Automation Letters, 2016, 1(2): 984-991.

        [9] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos [EB/OL]. [2017- 05- 06]. http://www.datascienceassn.org/sites/default/files/Two-Stream%20Convolutional%20Networks%20for%20Action%20Recognition%20in%20Videos.pdf.

        [10] JI S, YANG M, YU K, et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

        [11] KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale video classification with convolutional neural networks [C]// CVPR ’14: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1725-1732.

        [12] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// ICCV ’15: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 4489-4497.

        [13] DONAHUE J, JIA Y, VINYALS O, et al. DeCAF: a deep convolutional activetion feature for generic visual recognition [EB/OL]. [2017- 05- 09]. https://people.eecs.berkeley.edu/~nzhang/papers/icml14_decaf.pdf.

        [14] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [EB/OL]. [2017- 05- 07]. http://xanadu.cs.sjsu.edu/~drtylin/classes/cs267_old/ImageNet%20DNN%20NIPS2012(2).pdf.

        [15] KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a large video database for human motion recognition [C]// ICCV ’11: Proceedings of the 2011 International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2011: 2556-2563.

        [16] DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2625-2634.

        [17] SUN L, JIA K, YEUNG D Y, et al. Human action recognition using factorized spatio-temporal convolutional networks [C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 4597-4605.

        [18] NAHA S, WANG Y. Beyond verbs: understanding actions in videos with text [C]// Proceedings of the 2016 23rd International Conference on Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1833-1838.

        [19] HU R, XU H, ROHRBACH M, et al. Natural language object retrieval [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 4555-4564.

        This work is partially supported by the National Natural Science Foundation of China (61501253), the Basic Research Program of Jiangsu Province (Natural Science Foundation) (BK20151506), the 11th Six Talent Peaks Program of Jiangsu Province (XXRJ-009), the Key Research and Development Program (Social Development) of Jiangsu Province (BE2016778), the Scientific Research Foundation of Nanjing University of Posts and Telecommunications (NY217054).

        YANGTianming, born in 1993, M. S. candidate. His research interests include machine learning, video data mining.

        CHENZhi, born in 1978, Ph. D., professor. His research interests include sensor network, cyber-physical system, machine learning, data mining, Agent and multi-Agent system.

        YUEWenjing, born in 1982, Ph. D., associate professor. Her research interests include cognitive radio network, data mining.

        猜你喜歡
        雙流時(shí)空卷積
        方一帆
        四川省成都市雙流區(qū)東升迎春小學(xué)
        跨越時(shí)空的相遇
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對(duì)策
        鏡中的時(shí)空穿梭
        四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        玩一次時(shí)空大“穿越”
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        一本加勒比hezyo无码视频| 亚洲人成色7777在线观看不卡 | 精品无码专区久久久水蜜桃| 欧美日韩中文亚洲另类春色| 女同欲望一区二区三区| 人人妻人人澡人人爽欧美一区| 日产无人区一线二线三线乱码蘑菇 | 色偷偷久久久精品亚洲| 精品国产一区二区三区免费 | 日本国产在线一区二区| 国产精品国产三级国产专区不| 亚洲精品久久久av无码专区| 99久热re在线精品99 6热视频| 国产小车还是日产的好| 中文字幕亚洲精品在线| 在线天堂www中文| 国产91精品成人不卡在线观看| 国产精品久久国产精品久久| 蜜桃视频在线免费观看| 国产成年无码v片在线| 国产无码十八禁| 亚洲女同一区二区三区| 人妻精品久久久久中文字幕69| 国产乱理伦片在线观看| 免费无码AⅤ片在线观看| 久久本道久久综合伊人| 97人妻精品一区二区三区 | 色五月丁香五月综合五月4438| 国产资源在线视频| 亚洲成人av一区二区| 国产电影一区二区三区| 999国产一区在线观看| 国内自拍偷拍一区二区| 国产精品亚洲专区无码不卡| 亚洲国产av导航第一福利网| 亚洲日本无码一区二区在线观看| 国产精品一区二区熟女不卡| 丰满人妻一区二区三区视频53| 麻豆AV免费网站| 久久开心婷婷综合中文| 无码人妻精品一区二区三|