亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向視頻中人體行為識(shí)別的復(fù)合型深度神經(jīng)網(wǎng)絡(luò)

        2022-07-12 06:46:48尚瑞欣錢惠敏
        模式識(shí)別與人工智能 2022年6期
        關(guān)鍵詞:雙流失活集上

        黃 敏 尚瑞欣 錢惠敏

        視頻人體行為識(shí)別研究旨在識(shí)別并描述視頻中人體的運(yùn)動(dòng)模式并進(jìn)一步分析行為暗含的情感和目的.此研究在視頻檢索、人機(jī)交互、醫(yī)療保健、智能安防等領(lǐng)域具有廣泛的應(yīng)用前景.隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺研究中的發(fā)展,基于深度學(xué)習(xí)的人體行為識(shí)別方法因其良好的泛化性能,逐漸替代基于手工設(shè)計(jì)特征的人體行為識(shí)別方法和基于淺層機(jī)器學(xué)習(xí)的人體行為識(shí)別方法[1-2].

        隨著視頻傳輸技術(shù)的發(fā)展和各類視頻軟件的出現(xiàn),用于人體行為識(shí)別的視頻數(shù)據(jù)也越來越多,小型、中型、大型和超大型數(shù)據(jù)集相繼出現(xiàn).例如,小型數(shù)據(jù)集HMDB51(Human Motion Database)[3]包含51類行為,視頻量不過萬條;中型數(shù)據(jù)集UCF101(Uni-versity of Central Florida)[4]包含101類行為,視頻量有1萬多條;大型數(shù)據(jù)集Kinetics-400[5]包含400類行為及30萬多條視頻;超大型數(shù)據(jù)集IG-65M[6]、Sports-1M[7]等包含高達(dá)百萬級(jí)的視頻量.而這些視頻數(shù)據(jù)中的人體行為的多樣性,如人體的自遮擋和被遮擋、動(dòng)態(tài)背景、視角和光照變化等,使視頻中的人體行為識(shí)別仍面臨諸多挑戰(zhàn).

        在基于深度學(xué)習(xí)的人體行為識(shí)別研究中,目前最常用的網(wǎng)絡(luò)架構(gòu)為三維卷積神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱3D網(wǎng)絡(luò))[8-12]和雙流卷積神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱雙流網(wǎng)絡(luò))[13-17].3D網(wǎng)絡(luò)旨在從三維視頻數(shù)據(jù)(含有多幀圖像的視頻段)中學(xué)習(xí)人體行為的特征表示,識(shí)別行為類型.但是,隨著視頻數(shù)據(jù)的增加,往往需要更深的3D網(wǎng)絡(luò)學(xué)習(xí)人體行為的特征表示,從而使網(wǎng)絡(luò)因參數(shù)量過大而難以訓(xùn)練.針對(duì)此問題,Carreira等[9]提出I3D(Two-Stream Inflated 3D ConvNet),將遷移學(xué)習(xí)引入模型的預(yù)訓(xùn)練中,在ImageNet數(shù)據(jù)集[18]上預(yù)訓(xùn)練的二維模型的權(quán)重膨脹填充到三維模型中相應(yīng)的權(quán)重位置,使三維卷積網(wǎng)絡(luò)無需從頭開始訓(xùn)練,降低網(wǎng)絡(luò)的訓(xùn)練難度.Qiu等[11]提出P3D(Pseudo-3D Residual Net)網(wǎng)絡(luò),將三維卷積核分解為1個(gè)1×3×3的空間卷積核和1個(gè)3×1×1的時(shí)間卷積核,減少網(wǎng)絡(luò)參數(shù)量,降低網(wǎng)絡(luò)的訓(xùn)練難度.Tran等[12]提出R(2+1)D(ResNets with (2+1)D Convolutions),將3D卷積核進(jìn)行時(shí)空分解,為了保證模型的表征能力,引入一個(gè)超參數(shù),使分解前后的網(wǎng)絡(luò)參數(shù)量不變,實(shí)驗(yàn)證實(shí)即使參數(shù)量相同,時(shí)空分解后的R(2+1)D比R3D(3D ResNets)[8]更容易訓(xùn)練.

        在早期人體行為視頻數(shù)據(jù)集不足時(shí),學(xué)者們已開始廣泛研究雙流網(wǎng)絡(luò).雙流網(wǎng)絡(luò)旨在從視頻數(shù)據(jù)的兩個(gè)部分(即空間流和時(shí)間流)中分別實(shí)現(xiàn)人體行為的表示學(xué)習(xí)和識(shí)別,并融合兩部分的結(jié)果,實(shí)現(xiàn)最終的人體行為識(shí)別.研究多關(guān)注于網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)輸入和融合方式的改進(jìn).I3D[9]采用淺層的CNN-M(Medium Convolutional Neural Network)架構(gòu)[18],將視頻分為時(shí)間流和空間流分別進(jìn)行訓(xùn)練,再將時(shí)間流和空間流在最后一層進(jìn)行均值融合,得到最終識(shí)別結(jié)果.Wang等[14]以更深層的VGG-16(Visual Geo-metry Group, VGG)[19]作為雙流網(wǎng)絡(luò)的主干網(wǎng)絡(luò).Feichtenhofer等[15]選擇ResNet[15]架構(gòu)作為主干網(wǎng)絡(luò).Wang等[16]提出以Inception[20]為主干網(wǎng)絡(luò)的TSN(Temporal Segment Networks),并證明更深的網(wǎng)絡(luò)通常可獲得更高的人體行為識(shí)別精度.Feichten-hofer等[17]全面研究雙流網(wǎng)絡(luò)的融合方式,發(fā)現(xiàn)在網(wǎng)絡(luò)的最后一個(gè)卷積層進(jìn)行特征融合的結(jié)果更優(yōu),并將其稱為早期融合.但是,雙流網(wǎng)絡(luò)中時(shí)間流數(shù)據(jù)(通常為光流圖像序列)的生成通常需要獨(dú)立于雙流網(wǎng)絡(luò)提前獲得,一方面使雙流網(wǎng)絡(luò)不能實(shí)現(xiàn)端到端的訓(xùn)練和預(yù)測(cè),另一方面,由于光流圖像序列的生成帶來巨大的計(jì)算開銷,影響雙流網(wǎng)絡(luò)的時(shí)效性.

        針對(duì)此問題,學(xué)者們相繼提出基于深度學(xué)習(xí)的光流提取網(wǎng)絡(luò).Dosovitskiy等[21]提出FlowNet(Lear-ning Optical Flow with Convolutional Network),由兩個(gè)結(jié)構(gòu)略有不同的子網(wǎng)絡(luò)FlowNetS (FlowNet Sim-ple)和FlowNetC(FlowNet Correlation)構(gòu)成.由于缺乏訓(xùn)練數(shù)據(jù),使用椅子的渲染模型對(duì)自然圖像進(jìn)行分層,生成FlyingChairs數(shù)據(jù)集.雖然訓(xùn)練數(shù)據(jù)缺乏導(dǎo)致FlowNet與傳統(tǒng)方法相比無明顯優(yōu)勢(shì),但被證實(shí)采用端到端回歸架構(gòu)實(shí)現(xiàn)光流估計(jì)的可能性.Ilg等[22]堆疊多個(gè)FlowNet子網(wǎng)絡(luò),提出FlowNet2.0,精度比FlowNet提高近50%.但是,F(xiàn)lowNet2.0的網(wǎng)絡(luò)結(jié)構(gòu)較深,參數(shù)量較大,預(yù)測(cè)耗時(shí)較長(zhǎng).針對(duì)這些問題,Sun等[23]引入金字塔結(jié)構(gòu),改進(jìn)FlowNet,提出PWC-Net(CNNs for Optical Flow Using Pyramid, Warping and Cost Volume),模型尺寸僅為FlowNet2.0的1/17,預(yù)測(cè)速度提高一倍,預(yù)測(cè)精度更高.但根據(jù)文獻(xiàn)[2],在基于雙流架構(gòu)的人體行為識(shí)別研究中,基于PWC-Net的研究并不多.

        因此,針對(duì)3D網(wǎng)絡(luò)和雙流網(wǎng)絡(luò)各自的優(yōu)缺點(diǎn),本文提出結(jié)合雙流網(wǎng)絡(luò)架構(gòu)和三維網(wǎng)絡(luò)架構(gòu)的復(fù)合型深度神經(jīng)網(wǎng)絡(luò)——雙流-I(2+1)D卷積神經(jīng)網(wǎng)絡(luò)(Two-Stream Network with Improved (2+1)D CNN, TN-I(2+1)D CNN).在雙流架構(gòu)的時(shí)間流子網(wǎng)絡(luò)和空間流子網(wǎng)絡(luò)部分均采用改進(jìn)的R(2+1)D卷積神經(jīng)網(wǎng)絡(luò)(Improve R(2+1)D CNN, I(2+1)D CNN),并基于時(shí)間流子網(wǎng)絡(luò)的PWC-Net實(shí)現(xiàn)端到端的人體行為識(shí)別.I(2+1)D CNN以34層殘差型結(jié)構(gòu)作為主干網(wǎng)絡(luò),在網(wǎng)絡(luò)的所有批規(guī)范化層(BatchNorm, BN)之后添加失活層,應(yīng)對(duì)方差漂移問題.同時(shí),采用Leaky ReLU激活函數(shù),避免神經(jīng)元權(quán)重不更新問題.在網(wǎng)絡(luò)訓(xùn)練過程中,提出基于梯度中心化算法(Gradient Centralization, GC)改進(jìn)的帶動(dòng)量的隨機(jī)梯度下降算法(Stochastic Gradient Descent with Mo-mentum, SGDM),簡(jiǎn)記為GC-SGDM.在不改變網(wǎng)絡(luò)結(jié)構(gòu)的情況下進(jìn)一步提高網(wǎng)絡(luò)的泛化性能.

        1 結(jié)合雙流網(wǎng)絡(luò)架構(gòu)和3D網(wǎng)絡(luò)架

        構(gòu)的復(fù)合型深度卷積神經(jīng)網(wǎng)絡(luò)

        針對(duì)現(xiàn)有3D網(wǎng)絡(luò)與雙流網(wǎng)絡(luò)的不足,本文提出結(jié)合雙流網(wǎng)絡(luò)架構(gòu)和3D網(wǎng)絡(luò)架構(gòu)的復(fù)合型深度卷積神經(jīng)網(wǎng)絡(luò)(TN-I(2+1)D CNN).網(wǎng)絡(luò)在時(shí)間流、空間流子網(wǎng)絡(luò)均采用I(2+1)D CNN分別學(xué)習(xí)人體行為的特征表示,并識(shí)別行為類型.最后,融合雙流(時(shí)間流、空間流)子網(wǎng)絡(luò)的結(jié)果,實(shí)現(xiàn)人體行為識(shí)別.

        TN-I(2+1)D CNN結(jié)構(gòu)如圖1所示.具體地,給定一個(gè)人體行為視頻并按幀提取視頻,生成RGB圖像序列.然后,RGB圖像序列分別輸入空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)進(jìn)行識(shí)別.最后,采用融合方法實(shí)現(xiàn)空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)分類結(jié)果的融合.在時(shí)間流子網(wǎng)絡(luò)部分,RGB圖像序列經(jīng)由PWC-Net[15],生成光流圖像序列,繼而輸入I(2+1)D CNN,并使用Softmax層預(yù)測(cè)人體行為的類型.在空間流子網(wǎng)絡(luò)部分, RGB圖像序列直接輸入I(2+1)D CNN,也使用Softmax層預(yù)測(cè)人體行為的類型.

        圖1 TN-I(2+1)D CNN結(jié)構(gòu)圖Fig.1 Structure of TN-I(2+1)D CNN

        1.1 PWC-Net

        PWC-Net[15]是FlowNet2.0[22]的改進(jìn),引入P(Pyramid)、W(Warping)、C(Cost Volume)技術(shù),解決光流提取計(jì)算量較大且耗時(shí)的問題.其中,P,W,C分別指基于特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)[24]的多尺度特征提取、扭曲[25]和代價(jià)容量計(jì)算[26].PWC-Net的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示(以4級(jí)特征金字塔為例).

        圖2 PWC-Net結(jié)構(gòu)圖Fig.2 Network structure of PWC-Net

        PWC-Net將相鄰或間隔N0幀的圖像幀(幀1,幀2)分別送入FPN,提取多尺度特征,獲得各個(gè)尺度下的特征圖,使各級(jí)代價(jià)容量層的輸入特征的維度均不大,故網(wǎng)絡(luò)可在逐級(jí)提高光流精度的同時(shí)保持計(jì)算量很小.除此之外,PWC-Net還通過扭曲操作實(shí)現(xiàn)對(duì)幀2的運(yùn)動(dòng)補(bǔ)償,減弱像素點(diǎn)在圖像幀間的形變與位移,克服大位移與運(yùn)動(dòng)遮擋對(duì)光流計(jì)算的影響,進(jìn)一步提高光流估計(jì)的精度.

        1.2 改進(jìn)的R(2+1)D卷積神經(jīng)網(wǎng)絡(luò)

        為了更好地學(xué)習(xí)行為在時(shí)間流和空間流上的演變,在R(2+1)D[7]基礎(chǔ)上,本文提出I(2+1)D CNN,并在雙流網(wǎng)絡(luò)的時(shí)間流子網(wǎng)絡(luò)和空間流子網(wǎng)絡(luò)均采用I(2+1)D CNN.具體改進(jìn)如下.

        1)針對(duì)較深網(wǎng)絡(luò)會(huì)在小規(guī)模數(shù)據(jù)集上產(chǎn)生過擬合的問題,本文采用失活層進(jìn)行抑制,并就其作用位置進(jìn)行理論實(shí)驗(yàn)分析,發(fā)現(xiàn)失活層在全連接層之后效果最優(yōu).

        2)鑒于R(2+1)D中的ReLU激活函數(shù)會(huì)引起神經(jīng)元死亡(梯度恒為0,神經(jīng)元不更新),本文采用Leaky ReLU避免此問題.

        在R(2+1)D基礎(chǔ)上添加失活層的34層I(2+1)D CNN的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示.

        表1 34層I(2+1)D CNN網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of 34-layer I(2+1)D CNN

        下面將進(jìn)一步對(duì)I(2+1)D CNN中失活層作用位置及Leaky ReLU激活函數(shù)的使用原因進(jìn)行理論說明.

        1)失活層與BN結(jié)合產(chǎn)生方差偏移現(xiàn)象,對(duì)失活層作用位置產(chǎn)生影響.I(2+1)D CNN在全連接層之后使用失活層技術(shù)抑制小數(shù)據(jù)集的過擬合問題,但是文獻(xiàn)[20]表明,失活技術(shù)與I(2+1)D CNN中使用的BN技術(shù)存在沖突,會(huì)產(chǎn)生方差偏移現(xiàn)象.具體地,假設(shè)網(wǎng)絡(luò)中某失活層的輸入為d維特征向量

        X=(x1,x2,…,xd),

        服從正態(tài)分布N~(0,1),輸出

        Y=(y1,y2,…,yd),

        輸出Y中的yk與輸入X的元素xk對(duì)應(yīng),k=1,2,…,d.在網(wǎng)絡(luò)訓(xùn)練時(shí),失活層的輸出為

        其中:p為神經(jīng)元的丟棄率;1/(1-p)為輸入的縮放尺度,使輸出Y在訓(xùn)練階段和測(cè)試階段的期望相同(均為0);ak為符合伯努利分布的隨機(jī)變量,滿足

        在網(wǎng)絡(luò)測(cè)試時(shí),失活層不丟棄神經(jīng)元,即p=0,因此輸出Y等于輸入X.經(jīng)失活層后,輸出數(shù)據(jù)在訓(xùn)練階段和測(cè)試階段的方差分別為1/(1-p)和1.與此同時(shí),若在失活層后繼續(xù)使用BN層, 則測(cè)試階段的BN層會(huì)沿用訓(xùn)練階段計(jì)算得到的方差對(duì)測(cè)試數(shù)據(jù)進(jìn)行歸一化操作.但失活層在訓(xùn)練階段和測(cè)試階段的輸出分布不同,這使得BN 層在訓(xùn)練時(shí)統(tǒng)計(jì)的方差和測(cè)試時(shí)需要的方差不一致,從而產(chǎn)生方差偏移,導(dǎo)致網(wǎng)絡(luò)性能的下降.為此,將失活層置于所有BN層之后可避免方差偏移現(xiàn)象.因此,本文在設(shè)計(jì)I(2+1)D CNN時(shí),將失活層放置在全連接層之后、Softmax層之前.

        2)Leaky ReLU激活函數(shù)避免神經(jīng)元死亡.I(2+1)D CNN在conv3_x層中殘差塊的結(jié)構(gòu)如圖3所示.由圖可知,I(2+1)D CNN的激活函數(shù)為L(zhǎng)eaky ReLU.原始R(2+1)D采用的激活函數(shù)是ReLU,表達(dá)式如下:

        圖3 I(2+1)D CNN的Conv3_x層中的殘差塊結(jié)構(gòu)Fig.3 Residual block structure in Conv3_x of I(2+1)D CNN

        當(dāng)x<0時(shí),ReLU(x)=0,其梯度也為0,這意味著該輸入對(duì)應(yīng)的神經(jīng)元將永不被更新(神經(jīng)元死亡),從而影響網(wǎng)絡(luò)性能.而本文采用的Leaky ReLU表達(dá)式如下:

        其中,γ為人工設(shè)置數(shù)值的超參數(shù),作用為保證Leaky ReLU的梯度不為0,即反向傳播時(shí)不會(huì)有神經(jīng)元死亡現(xiàn)象.

        除此之外Leaky ReLU的引入還保證網(wǎng)絡(luò)的復(fù)雜度,可有效提高網(wǎng)絡(luò)精度.

        1.3 融合方案

        時(shí)間流子網(wǎng)絡(luò)和空間流子網(wǎng)絡(luò)的識(shí)別結(jié)果的融合方式是提高雙流架構(gòu)深度神經(jīng)網(wǎng)絡(luò)識(shí)別性能的因素之一.本文選擇較常用的預(yù)測(cè)值融合方法,包括最大值法和加權(quán)融合法.這兩種方法的優(yōu)點(diǎn)是沒有需要訓(xùn)練的權(quán)重.最大值融合將同一輸入的空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)的預(yù)測(cè)分?jǐn)?shù)中的最高項(xiàng)對(duì)應(yīng)的類別作為最終識(shí)別結(jié)果,即

        ymax=max{xs,xt},

        其中,xs、xt分別表示空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)的Softmax層的輸出結(jié)果.加權(quán)融合是將空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)的預(yù)測(cè)分?jǐn)?shù)加權(quán)求和,然后將分?jǐn)?shù)最高的對(duì)應(yīng)項(xiàng)作為最終預(yù)測(cè)結(jié)果,即

        ywei=λxs+(1-λ)xt,

        其中,λ、1-λ分別為空間流和時(shí)間流的對(duì)應(yīng)權(quán)重.

        2 基于梯度中心化算法改進(jìn)的帶

        動(dòng)量的隨機(jī)梯度下降算法

        為了解決3D網(wǎng)絡(luò)因參數(shù)量較大而難以訓(xùn)練的問題,本文在模型訓(xùn)練過程中提出使用梯度中心化的GC-SGDM.梯度中心化算法(GC)[27]計(jì)算梯度向量的均值,對(duì)梯度向量進(jìn)行零均值化,約束網(wǎng)絡(luò)參數(shù)梯度下降的方向,使網(wǎng)絡(luò)訓(xùn)練更穩(wěn)定、更具泛化能力.

        GC對(duì)梯度向量進(jìn)行零均值化是指對(duì)每層反向傳播得到的梯度向量零均值化.如果是卷積層,使每個(gè)卷積核的梯度向量均值為0.下面以全連接層為例,說明GC的工作原理.

        設(shè)權(quán)重矩陣W∈RM×N,M、N分別對(duì)應(yīng)全連接層的輸入、輸出通道數(shù),wi∈RM為權(quán)重矩陣W的第i列,L為損失函數(shù).令?wiL為L(zhǎng)對(duì)wi的梯度向量,M維梯度向量?wiL的均值為

        其中?wi,jL為梯度向量?wiL的第j個(gè)元素.權(quán)重矩陣W的第i列梯度向量經(jīng)梯度中心化后,可表示為

        再將上式擴(kuò)展至所有列之后乘以eT,得

        eTΦGC(?WL)=eT(I-eeT)?WL=

        eTP?WL=0,

        (1)

        其中I∈RM×M為單位矩陣.通過上述公式推導(dǎo)發(fā)現(xiàn),GC可幾何解釋為把原先的梯度?WL投射到一個(gè)與eT垂直的超平面P上,P?WL是?WL在超平面P上的投影.假設(shè)P?WL為權(quán)重的更新量,而Wk為第k次梯度下降后的權(quán)重,則可在式(1)的基礎(chǔ)上進(jìn)一步推出:

        eTP?WL=eT(Wk+1-Wk)=0.

        由上式可發(fā)現(xiàn),GC能使每次更新后的權(quán)重都被限制在超平面P內(nèi),這也意味著GC能有效限制梯度下降,約束網(wǎng)絡(luò)的解空間,降低網(wǎng)絡(luò)訓(xùn)練的困難.

        3 實(shí)驗(yàn)及結(jié)果分析

        本文實(shí)驗(yàn)的硬件配置為:型號(hào)為RTX 2080Ti的GPU,型號(hào)為i7-7800X @3.50GHz×12的CPU.實(shí)驗(yàn)環(huán)境為:Ubuntu16.04,CUDA 8.0,CUDNN 7.4.所有實(shí)驗(yàn)均在PyTorch框架下完成,并使用tensor-boardX將訓(xùn)練可視化.

        3.1 實(shí)驗(yàn)環(huán)境

        本文研究在中、小型數(shù)據(jù)集上均能獲得良好泛化性能的端到端的深度神經(jīng)網(wǎng)絡(luò),因此,實(shí)驗(yàn)數(shù)據(jù)集選擇中型數(shù)據(jù)集UCF101[17]和小型數(shù)據(jù)集HMDB51[16].UCF101數(shù)據(jù)集上所有視頻均從YouTube收集,樣本量為13 320個(gè),類別數(shù)為101類.HMDB51數(shù)據(jù)集上視頻多數(shù)來源于電影,還有一部分來自公共數(shù)據(jù)庫及YouTube等網(wǎng)絡(luò)視頻庫.數(shù)據(jù)集包含6 849段視頻,分為51類,每類至少包含101段視頻.這兩類數(shù)據(jù)集在相機(jī)運(yùn)動(dòng)、物體外觀和姿勢(shì)、物體比例、視角、背景雜亂度、照明條件等方面均存在較大變化.

        在TN-I(2+1)D CNN中,時(shí)間流子網(wǎng)絡(luò)中的PWC-Net使用在FlyingThings3DHalfRes和Flying-Chairs混合數(shù)據(jù)集上訓(xùn)練的模型(https://github.com/philferriere/tfoptflow)[21],用于提取光流圖集.基于該光流圖集和輸入視頻對(duì)應(yīng)的RGB圖集,分別訓(xùn)練時(shí)間流和空間流I(2+1)D CNN.訓(xùn)練前按訓(xùn)練集數(shù)量和測(cè)試集數(shù)量為7∶3的比例劃分已有數(shù)據(jù)集.

        為了提高網(wǎng)絡(luò)性能,本文共使用2種預(yù)訓(xùn)練模型(https://github.com/open-mmlab/mmaction/blob/

        master/MODEL_ZOO.md),一種在Kinetics- 400上訓(xùn)練,另一種在IG65M上訓(xùn)練后又在Kinetics- 400上微調(diào).然后,設(shè)置Leaky ReLU激活函數(shù)中γ=0.02.在模型訓(xùn)練過程中,采用GC-SGDM作為優(yōu)化器,設(shè)置權(quán)重衰減為0.000 5,動(dòng)量為0.9,初始學(xué)習(xí)率為0.000 1,并以損失是否下降為指標(biāo)更新學(xué)習(xí)率,學(xué)習(xí)耐心設(shè)置為10.根據(jù)現(xiàn)有實(shí)驗(yàn)條件,所有實(shí)驗(yàn)網(wǎng)絡(luò)的輸入幀長(zhǎng)均為8,批尺寸均為10.

        3.2 主干網(wǎng)絡(luò)的選擇

        本文根據(jù)現(xiàn)有實(shí)驗(yàn)條件,分別采用18層殘差網(wǎng)絡(luò)ResNet-18和34層殘差網(wǎng)絡(luò)ResNet-34作為主干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)發(fā)現(xiàn),在UCF101數(shù)據(jù)集上,34層網(wǎng)絡(luò)的性能更優(yōu).但是在HMDB51數(shù)據(jù)集上,兩種深度的網(wǎng)絡(luò)均出現(xiàn)過擬合現(xiàn)象.綜合考慮,本文之后的實(shí)驗(yàn)均選擇ResNet-34作為I(2+1)D CNN的主干網(wǎng)絡(luò).

        在UCF101、HMDB51數(shù)據(jù)集上,采用ResNet-34,網(wǎng)絡(luò)的輸入幀長(zhǎng)為8 h的訓(xùn)練精度和測(cè)試精度曲線如圖4所示.由圖可知:對(duì)于中型數(shù)據(jù)集UCF101而言,網(wǎng)絡(luò)擬合效果良好,但對(duì)于小型數(shù)據(jù)集HMDB51而言,訓(xùn)練精度不斷上升,測(cè)試精度卻增長(zhǎng)緩慢,并且測(cè)試精度與訓(xùn)練精度曲線的差距較大,說明以ResNet-34為主干網(wǎng)絡(luò)的I(2+1)D CNN時(shí)間流子網(wǎng)絡(luò)出現(xiàn)過擬合.針對(duì)此問題,本文引入失活層抑制過擬合,并就失活層位置進(jìn)行實(shí)驗(yàn)探究.

        圖4 2個(gè)數(shù)據(jù)集上的訓(xùn)練精度和測(cè)試精度曲線Fig.4 Training and testing accuracy curves on 2 datasets

        3.3 失活層及丟棄率的選擇

        本文在1.2節(jié)中已論述:當(dāng)網(wǎng)絡(luò)中同時(shí)采用失活層和BN層時(shí),將失活層置于所有BN層之后可避免方差偏移現(xiàn)象,提高網(wǎng)絡(luò)性能.本節(jié)將通過實(shí)驗(yàn)驗(yàn)證該結(jié)論.此外,失活層的神經(jīng)元丟棄率會(huì)影響網(wǎng)絡(luò)性能,本節(jié)也將尋找最佳神經(jīng)元丟棄率.

        在HMDB51數(shù)據(jù)集上,分別將失活層置于BN層之后(即全連接層后)和BN層之前(以置于conv5_x前為例).根據(jù)經(jīng)驗(yàn),神經(jīng)元丟棄率分別設(shè)置為0.2,0.3,0.4.本文在空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)上分別進(jìn)行上述實(shí)驗(yàn),結(jié)果如表2所示.由表可知,將失活層置于BN層之后時(shí),空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)的精度均優(yōu)于失活層置于BN層之前時(shí).當(dāng)空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)的失活層丟失率分別取0.3和0.2時(shí),網(wǎng)絡(luò)的識(shí)別精度最高.

        表2 失活層的位置和丟失率對(duì)識(shí)別精度的影響Table 2 Effect of loss rates and locations of inactivation layer on recognition accuracy

        3.4 激活函數(shù)的改進(jìn)

        本文提出在I(2+1)D CNN的殘差塊中采用Leaky ReLU激活函數(shù),通用實(shí)驗(yàn)驗(yàn)證引入Leaky ReLU激活函數(shù)后網(wǎng)絡(luò)性能優(yōu)于采用ReLU激活函數(shù)時(shí)的網(wǎng)絡(luò).在HMDB51數(shù)據(jù)集上,采用Kinetics-400的預(yù)訓(xùn)練模型,失活層放置在全連接層后,空間流子網(wǎng)絡(luò)、時(shí)間流子網(wǎng)絡(luò)的神經(jīng)元丟失率分別為0.3和0.2,采用SGDM[27]優(yōu)化器訓(xùn)練網(wǎng)絡(luò).

        識(shí)別精度對(duì)比如表3所示.由表可知,基于Leaky ReLU激活函數(shù)改進(jìn)I(2+1)D CNN,空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)的識(shí)別精度均有所提高,空間流子網(wǎng)絡(luò)的識(shí)別精度提高約0.5%,時(shí)間流子網(wǎng)絡(luò)的識(shí)別精度提高約0.6%.

        表3 激活函數(shù)不同對(duì)識(shí)別精度的影響Table 3 Effect of different activation functions on recognition accuracy %

        3.5 優(yōu)化器的改進(jìn)

        在HMDB51數(shù)據(jù)集上,使用SGDM優(yōu)化器和GC-SGDM優(yōu)化器時(shí)的識(shí)別精度對(duì)比如表4所示.由表可知,采用GC-SGDM優(yōu)化器時(shí),空間流子網(wǎng)絡(luò)和時(shí)間流子網(wǎng)絡(luò)的識(shí)別精度均提高約1%,說明基于GC改進(jìn)SGDM優(yōu)化器,可提高網(wǎng)絡(luò)性能.

        表4 優(yōu)化器對(duì)識(shí)別精度的影響Table 4 Effect of optimizer on recognition accuracy %

        3.6 實(shí)驗(yàn)結(jié)果對(duì)比

        為了進(jìn)一步提高實(shí)驗(yàn)結(jié)果的參考性,針對(duì)訓(xùn)練集和測(cè)試集采用7∶3的劃分方式.最終的實(shí)驗(yàn)結(jié)果為網(wǎng)絡(luò)識(shí)別精度均值.此外,本文還使用一個(gè)更大的預(yù)訓(xùn)練數(shù)據(jù)集(IG65M+Kinetics-400)用于對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)選用對(duì)比網(wǎng)絡(luò)如下:P3D[11]、34層R(2+1)D(簡(jiǎn)記為R(2+1)D-34)[12]、Two-Stream ConvNets(Two-Stream Convolutional Networks)[13]、TSN[16]、文獻(xiàn)[17]網(wǎng)絡(luò)[17]、C3D(Convolutional 3D)[28]、34層R3D(簡(jiǎn)記為R3D-34)[28]、50層R(2+1)D(簡(jiǎn)記為R(2+1)D-50)[28]、STFT(Spatio-Temporal Short Term Fourier Transform)[29]、ActionCLIP(Action Re-cognition Using Contrastive Language-Image Pretrai-ning)[30].各網(wǎng)絡(luò)的識(shí)別精度對(duì)比如表5所示.需要說明的是,表中的算法均關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),除ActionCLIP采用Transformer結(jié)構(gòu)以外,輸入僅為RGB的行為識(shí)別算法均采用3D網(wǎng)絡(luò),輸入為RGB+光流的行為識(shí)別算法均采用雙流網(wǎng)絡(luò),預(yù)訓(xùn)練數(shù)據(jù)集中其他表示對(duì)應(yīng)網(wǎng)絡(luò)使用的預(yù)訓(xùn)練數(shù)據(jù)集無名稱.

        表5 各網(wǎng)絡(luò)在2個(gè)數(shù)據(jù)集上的識(shí)別精度對(duì)比Table 5 Accuracy comparison of different networks on 2 datasets %

        由表5可知,本文網(wǎng)絡(luò)識(shí)別性能更佳.R(2+1)D-34的性能優(yōu)于R(2+1)D-50,而采用雙流架構(gòu)的TN-I(2+1)D在2種融合方式下的性能又均優(yōu)于R(2+1)D-34,其中以采用加權(quán)融合的TN-I(2+1)D的性能最佳,在UCF101、HMDB51數(shù)據(jù)集上的精度分別比R(2+1)D-34提高0.6%和5.6%.此外,相比基于3D架構(gòu)的STFT和基于Transformer架構(gòu)的ActionCLIP,基于加權(quán)融合的TN-I(2+1)D CNN在兩個(gè)數(shù)據(jù)集上的識(shí)別精度也更高.綜上所述,本文網(wǎng)絡(luò)在中小型數(shù)據(jù)集上都具有良好的精度.

        4 結(jié) 束 語

        本文提出結(jié)合雙流網(wǎng)絡(luò)架構(gòu)和3D網(wǎng)絡(luò)架構(gòu)的復(fù)合型深度神經(jīng)網(wǎng)絡(luò)(TN-I(2+1)D CNN),對(duì)于時(shí)間流、空間流均使用基于34層殘差網(wǎng)絡(luò)的I(2+1)D CNN作為主干網(wǎng)絡(luò),提取視頻中人體行為的時(shí)空特征.在時(shí)間流子網(wǎng)絡(luò)部分,采用PWC-Net提取光流圖像序列,不僅提高光流提取速度,而且實(shí)現(xiàn)端到端的行為識(shí)別.本文通過主干網(wǎng)絡(luò)的深度、激活函數(shù)、失活層的設(shè)置及優(yōu)化器的改進(jìn),提高網(wǎng)絡(luò)性能.后續(xù)可通過其它技術(shù)改進(jìn)進(jìn)一步提升網(wǎng)絡(luò)性能.例如:1)在網(wǎng)絡(luò)輸入部分,可采用多種數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)大小數(shù)據(jù)集的規(guī)模,改善網(wǎng)絡(luò)輸入;2)可采用剪枝等網(wǎng)絡(luò)壓縮方法實(shí)現(xiàn)網(wǎng)絡(luò)的輕量化,便于實(shí)際應(yīng)用.

        猜你喜歡
        雙流失活集上
        方一帆
        四川省成都市雙流區(qū)東升迎春小學(xué)
        雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對(duì)策
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
        復(fù)扇形指標(biāo)集上的分布混沌
        草酸二甲酯加氫制乙二醇催化劑失活的研究
        河南科技(2015年2期)2015-02-27 14:20:35
        幾道導(dǎo)數(shù)題引發(fā)的解題思考
        冷凍脅迫下金黃色葡萄球菌的亞致死及失活規(guī)律
        国产乱子伦| 中文字幕日本韩国精品免费观看| 中文字幕亚洲乱码熟女1区2区 | 久久综合精品人妻一区二区三区| 国产69精品久久久久777| 亚洲欧洲日产国码高潮αv| 国产日韩欧美视频成人| 亚洲桃色蜜桃av影院| 亚洲av午夜精品无码专区| 亚洲熟少妇在线播放999| 99精品免费视频| 美女射精视频在线观看| 人妻熟妇乱又伦精品hd| 无码av免费一区二区三区试看| 亚洲欧美在线观看一区二区| 中文亚洲第一av一区二区| 成人免费自拍视频在线观看 | 三上悠亚免费一区二区在线| 美女扒开内裤露黑毛无遮挡| 国产一级一片内射视频播放| 国产熟妇按摩3p高潮大叫| 久久99国产伦精品免费 | 久久99精品久久久66| 我想看久久久一级黄片| 又湿又紧又大又爽a视频国产| 伴郎粗大的内捧猛烈进出视频观看| 国产盗摄XXXX视频XXXX| 亚洲国产综合精品中久| 国产精品亚洲综合色区| 久久久久久久久久久熟女AV| 国产大学生自拍三级视频 | 国产免费又爽又色又粗视频 | 亚洲一区二区三区香蕉| 久久青草免费视频| 美女把内衣内裤脱了给男人舔| 日韩大片高清播放器大全| 日本午夜免费福利视频| 亚洲嫩模一区二区三区视频| 亚洲国产国语在线对白观看| 精品国产人妻一区二区三区| AⅤ无码精品视频|