亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        MRTP:時(shí)間-動(dòng)作感知的多尺度時(shí)間序列實(shí)時(shí)行為識(shí)別方法

        2022-03-15 02:02:48張坤楊靜張棟陳躍海李杰杜少毅
        關(guān)鍵詞:動(dòng)作特征信息

        張坤,楊靜,,張棟,陳躍海,李杰,杜少毅

        (1.西安交通大學(xué)自動(dòng)化科學(xué)與工程學(xué)院,710049,西安;2.西安交通大學(xué)人工智能學(xué)院,710049,西安)

        temporal attention

        近年來(lái),行為識(shí)別在智能視頻監(jiān)控、輔助醫(yī)療監(jiān)護(hù)、智能人機(jī)交互、全息運(yùn)動(dòng)分析及虛擬現(xiàn)實(shí)等領(lǐng)域均具有廣泛的應(yīng)用需求[1]。從應(yīng)用場(chǎng)景看,行為識(shí)別可分為異常行為識(shí)別、單人行為識(shí)別、多人行為識(shí)別等[2]。行為定義模糊、類(lèi)內(nèi)和類(lèi)間差異較大、計(jì)算代價(jià)等問(wèn)題給視頻行為識(shí)別帶來(lái)了巨大的挑戰(zhàn)[3]。

        隨著深度學(xué)習(xí)的崛起,許多深度學(xué)習(xí)方法被用于行為識(shí)別。由于行為識(shí)別需要同時(shí)獲取空間和時(shí)間信息,所以兩個(gè)網(wǎng)絡(luò)并行的雙流結(jié)構(gòu)成為了目前視頻行為識(shí)別領(lǐng)域的主流架構(gòu)。雙流網(wǎng)絡(luò)大多使用光流作為時(shí)間流、RGB圖像作為空間流。由于光流本身只使用于短時(shí)間的動(dòng)作信息提取,所以此類(lèi)網(wǎng)絡(luò)無(wú)法解決長(zhǎng)跨度動(dòng)作的時(shí)間信息提取問(wèn)題[4]。

        循環(huán)神經(jīng)網(wǎng)絡(luò)在序列數(shù)據(jù)的處理上表現(xiàn)優(yōu)異,而視頻也是按照時(shí)序排列的序列數(shù)據(jù),所以諸如LSTM[5]等循環(huán)神經(jīng)網(wǎng)絡(luò)被用于視頻行為識(shí)別任務(wù)。然而,使用CNN-LSTM的方法在行為識(shí)別問(wèn)題上并不能取得令人滿意的效果。原因在于行為識(shí)別中作出主要貢獻(xiàn)的是幀圖像的空間信息[6],且相鄰的視頻幀能提供的時(shí)序信息十分有限。

        3D卷積相較于2D卷積多了一個(gè)維度,對(duì)應(yīng)視頻比圖像多了時(shí)間維度,因此3D卷積被引入用作行為識(shí)別的特征提取。隨著視頻領(lǐng)域大規(guī)模數(shù)據(jù)集的建立,3D卷積逐步超越了傳統(tǒng)2D卷積的表現(xiàn)[7]。然而,視頻信息在時(shí)空維度具有完全不同的分布方式和信息量,經(jīng)典的3D卷積方法在時(shí)空維度并沒(méi)有對(duì)此進(jìn)行區(qū)分[8],由此導(dǎo)致了3D卷積計(jì)算了過(guò)多的冗余信息。如何減少3D卷積的計(jì)算消耗從而建立一個(gè)輕量級(jí)的網(wǎng)絡(luò)是目前的研究熱點(diǎn)。

        長(zhǎng)跨度的時(shí)間建模是行為識(shí)別中的一大難點(diǎn)[9]。由于時(shí)間維度信息與空間信息不平衡,已有的行為識(shí)別方法受限于采樣密度較低和時(shí)間跨度限制,對(duì)于一些變化緩慢或者變化較小動(dòng)作,如傾聽(tīng)、注視、打電話等,難以提取出有效的動(dòng)作信息。對(duì)于部分需要依賴時(shí)間信息進(jìn)行區(qū)分的動(dòng)作,如講話和唱歌、躺下和睡覺(jué)等,已有方法的效果不夠理想。如何從冗余的視頻信息中找到出含有動(dòng)作信息的關(guān)鍵視頻幀,目前的行為識(shí)別方法還未給出一個(gè)完善的解決方案。

        本文針對(duì)RGB視頻的輕量行為識(shí)別,提出了一種時(shí)間-動(dòng)作感知的多尺度時(shí)間序列實(shí)時(shí)行為識(shí)別方法MRTP,旨在解決視頻中空間和時(shí)序信息不平衡以及長(zhǎng)時(shí)動(dòng)作的關(guān)鍵幀難以提取的問(wèn)題。本文提出的MRTP方法在行為識(shí)別的經(jīng)典數(shù)據(jù)集UCF-101和大規(guī)模數(shù)據(jù)集AVA2.2上進(jìn)行了訓(xùn)練和相關(guān)指標(biāo)測(cè)試。測(cè)試結(jié)果表明,相比于主流的行為識(shí)別方法,MRTP方法具有更高的準(zhǔn)確率和更小的計(jì)算成本,能夠在方法部署階段實(shí)現(xiàn)實(shí)時(shí)行為識(shí)別。

        1 相關(guān)工作

        行為識(shí)別傳統(tǒng)方法一般使用時(shí)空興趣點(diǎn)[10]、立體興趣點(diǎn)[11]、運(yùn)動(dòng)歷史圖像[12]、光流直方圖(HOF)[13]等局部描述符,通過(guò)視覺(jué)詞袋[14]、Fisher Vector[15]等特征融合方法,用KNN、SVM等傳統(tǒng)分類(lèi)器進(jìn)行分類(lèi)。在2015年以前,iDT[16]是行為識(shí)別領(lǐng)域精度最高的方法。該方法通過(guò)提升的密集軌跡方法對(duì)相機(jī)運(yùn)動(dòng)進(jìn)行估計(jì),使用行人檢測(cè)消除干擾信息,再基于光流直方圖和光流梯度直方圖等描述子進(jìn)行SVM分類(lèi)。iDT方法識(shí)別效果優(yōu)良、魯棒性好,但人工特征提取流程復(fù)雜且特征不夠全面。隨著深度神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,基于深度學(xué)習(xí)的方法在精度和計(jì)算成本上都超越了傳統(tǒng)方法。

        目前,基于深度學(xué)習(xí)的行為識(shí)別方法有雙流網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、3D卷積等。

        視頻理解除了空間信息之外還需要運(yùn)動(dòng)信息,雙流網(wǎng)絡(luò)使用兩個(gè)并行的卷積神經(jīng)網(wǎng)絡(luò),分別獨(dú)立進(jìn)行特征提取,主流的雙流方法有TSN[17]、Convolutional Two-Stream[18]、Flownet[19]等。在經(jīng)典的Two-steam[20]方法中,一個(gè)網(wǎng)絡(luò)處理單幀的圖像,提取環(huán)境、視頻中的物體等空間信息,另一個(gè)網(wǎng)絡(luò)使用光流圖做輸入,提取動(dòng)作的動(dòng)態(tài)特征。考慮到光流是一種手工設(shè)計(jì)的特征,雙流方法通常都無(wú)法實(shí)現(xiàn)端到端的學(xué)習(xí)。另外,隨著行為識(shí)別領(lǐng)域數(shù)據(jù)集規(guī)模的不斷擴(kuò)大,由光流圖計(jì)算帶來(lái)的巨大計(jì)算成本和存儲(chǔ)空間消耗等問(wèn)題使得基于光流的雙流卷積神經(jīng)網(wǎng)絡(luò)不再適用于大規(guī)模數(shù)據(jù)集的訓(xùn)練和實(shí)時(shí)部署。

        LSTM[21]是循環(huán)神經(jīng)網(wǎng)絡(luò)中一種,該網(wǎng)絡(luò)用于解決某些動(dòng)作的長(zhǎng)依賴問(wèn)題。文獻(xiàn)[22]研究了同時(shí)使用卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的CNN-LSTM網(wǎng)絡(luò)結(jié)構(gòu)在行為識(shí)別任務(wù)中的表現(xiàn),發(fā)現(xiàn)需要對(duì)視頻進(jìn)行預(yù)分段,LSTM才能提取到較為明確的時(shí)間信息。文獻(xiàn)[23]探索了多種LSTM網(wǎng)絡(luò)在行為識(shí)別任務(wù)中的應(yīng)用效果,發(fā)現(xiàn)相比于行為識(shí)別,LSTM更適合于動(dòng)作定位任務(wù)。在視頻行為識(shí)別中,很大一部分動(dòng)作只需要空間特征就能夠識(shí)別,但LSTM網(wǎng)絡(luò)只能對(duì)短時(shí)的時(shí)間信息進(jìn)行特征提取,無(wú)法很好地處理空間信息。因此,該類(lèi)方法已逐漸被3D卷積等主流方法取代。

        視頻行為識(shí)別中,主流的3D卷積方法有C3D[24]、I3D[25]、P3D[26]等。文獻(xiàn)[27]將經(jīng)典的殘差神經(jīng)網(wǎng)絡(luò)ResNet由2D拓展為3D,并在各種視頻數(shù)據(jù)集中探索了從較淺到深的3D ResNet體系結(jié)構(gòu),結(jié)果發(fā)現(xiàn)在大規(guī)模數(shù)據(jù)集上,較深的3D殘差神經(jīng)網(wǎng)絡(luò)能夠取得更好的效果。然而,視頻信息在時(shí)空維度具有完全不同的分布方式和信息量,經(jīng)典的3D卷積方法在時(shí)空維度并沒(méi)有對(duì)此進(jìn)行區(qū)分,計(jì)算了過(guò)多的冗余信息,由此帶來(lái)了過(guò)高的計(jì)算代價(jià)以及部署成本。

        文獻(xiàn)[8]提出了一種受生物機(jī)制啟發(fā)的行為識(shí)別模型,通過(guò)分解架構(gòu)分別處理空間信息和時(shí)間信息。在人類(lèi)視覺(jué)中,空間語(yǔ)義(顏色、紋理、光照等)信息變化較慢,可使用較低的幀率。相比之下,大部分動(dòng)作(拍手、揮手、搖晃、走路、跳躍等)比空間語(yǔ)義信息變化速度快得多,因此使用更高的幀率來(lái)進(jìn)行有效建模。但是,該方法只改變了兩個(gè)路徑輸入視頻幀的數(shù)量。對(duì)單個(gè)視頻幀沒(méi)有進(jìn)行更細(xì)致的處理,在空間流也未添加更多的動(dòng)作信息予以輔助。

        當(dāng)前,已經(jīng)存在很多基于3D卷積和雙路徑網(wǎng)絡(luò)架構(gòu)的行為識(shí)別方法,但效果均不理想,這主要是由于對(duì)于行為識(shí)別任務(wù),視頻中的信息較為冗余,對(duì)任務(wù)做出實(shí)際貢獻(xiàn)的視頻幀和含有動(dòng)作信息的特征通道在視頻中的分布十分稀疏。因此,如何找出含有關(guān)鍵信息的視頻幀和特征通道亟待解決。

        2 MRTP方法

        本文設(shè)計(jì)了一個(gè)時(shí)間與動(dòng)作感知的雙路徑行為識(shí)別方法MRTP,網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖1。模型使用雙路徑結(jié)構(gòu),以視頻包為輸入,在時(shí)間維度上以步長(zhǎng)1為滑動(dòng)窗口,可得到視頻中順序排列的連續(xù)n幀圖像。

        每個(gè)視頻以2 s長(zhǎng)度截取視頻包,對(duì)于視頻包中的64幀圖像再進(jìn)行采樣。T為每次采樣的視頻幀數(shù),在高幀率動(dòng)作路徑設(shè)置T=32,低幀率空間路徑設(shè)置T=4。低幀率空間路徑所取視頻幀的位置由高幀率動(dòng)作路徑的時(shí)間注意力模塊生成的α和β決定,α和β為時(shí)間注意力篩選出的權(quán)重最大兩幀圖像對(duì)應(yīng)的坐標(biāo)。

        高幀率動(dòng)作路徑采樣的圖像數(shù)量較多但通道數(shù)較少,低幀率空間路徑采樣的圖像數(shù)量較少但通道數(shù)較多。設(shè)高幀率動(dòng)作路徑輸入的圖像數(shù)為低幀率空間路徑的p倍,高幀率動(dòng)作路徑特征的通道數(shù)為低幀率空間路徑的q倍,在UCF-101數(shù)據(jù)集和AVA數(shù)據(jù)集上,p=8,q=1/16。

        Res1~Res4是ResNet3D的殘差結(jié)構(gòu)。使用Kinetics 400和Kinetics 600上預(yù)訓(xùn)練的ResNet3D 50和ResNet3D 101作為特征提取的骨干網(wǎng)絡(luò)。

        通道注意力模塊用于衡量動(dòng)作路徑各個(gè)特征通道的重要性并進(jìn)行加權(quán)。時(shí)間注意力模塊在通道注意力模塊篩選出的通道權(quán)重基礎(chǔ)上衡量各個(gè)視頻幀的重要性,將α和β輸入到低幀率空間路徑作為圖像提取的位置坐標(biāo)依據(jù)。動(dòng)作感知模塊基于相鄰兩幀的特征差分矩陣衡量前后兩個(gè)視頻幀的特征變化,并對(duì)通道賦予權(quán)重。

        在卷積網(wǎng)絡(luò)的Pool1、Res1、Res2、Res3之后建立側(cè)向連接,將動(dòng)作路徑的特征通過(guò)重構(gòu)之后傳遞到空間路徑。

        特征融合部分將高幀率動(dòng)作路徑和低幀率空間路徑的特征連接起來(lái)。

        Softmax函數(shù)將融合后的特征向量轉(zhuǎn)換為類(lèi)別概率向量,并選取其中的最大值所對(duì)應(yīng)的類(lèi)別作為輸出結(jié)果。

        2.1 高幀率動(dòng)作路徑特征提取

        2.1.1 長(zhǎng)時(shí)間跨度動(dòng)作特征 在由圖像序列組成的視頻數(shù)據(jù)中,動(dòng)態(tài)信息被定義為幀間圖像的像素運(yùn)動(dòng),即光流。然而,光流需要時(shí)間的變化不引起目標(biāo)位置的劇烈變化,因此光流矢量只能在幀間位移較小的前提下使用。在需要長(zhǎng)時(shí)間跨度動(dòng)作特征提取的情況下,光流作為動(dòng)態(tài)信息的一種表示,并不能提取出所需的動(dòng)作信息表征。因此,本文引入高幀率采樣的動(dòng)作路徑,該路徑輸入RGB視頻幀,在本文實(shí)驗(yàn)的兩個(gè)數(shù)據(jù)集上將幀率變?yōu)樵瓉?lái)的p倍。同時(shí),為了降低模型的計(jì)算量,使該路徑更加聚焦于動(dòng)態(tài)信息,本文將動(dòng)作路徑的通道數(shù)量變?yōu)樵瓉?lái)的q倍,在保證了模型輕量化的同時(shí)實(shí)現(xiàn)了動(dòng)態(tài)信息的提取。相比于基于光流的動(dòng)態(tài)信息,本文通過(guò)使用RGB視頻幀輸入實(shí)現(xiàn)了端到端的訓(xùn)練和部署,并且特征的提取不再受光流的場(chǎng)景固定和小范圍時(shí)間跨度的約束。

        2.1.2 通道注意力機(jī)制 由于輸入特征向量在通道維度有較大差異,有的通道對(duì)識(shí)別任務(wù)有較大貢獻(xiàn),但部分通道貢獻(xiàn)較小,所以在3D卷積中引入通道注意力機(jī)制。將提取特征向量作為輸入,通過(guò)計(jì)算通道權(quán)重對(duì)通道加權(quán)。

        設(shè)輸入特征向量的維度用數(shù)組X表示,X=[N,C,ωT,W,H],其中:N為輸入的視頻數(shù);C為通道數(shù)量;ω為整個(gè)視頻中所取的片段數(shù),即進(jìn)行3D卷積的次數(shù),若視頻長(zhǎng)度在2 s以內(nèi),則ω=1;W和H為特征的寬和高。首先,在時(shí)間維度對(duì)特征進(jìn)行融合

        (1)

        然后,在空間維度通過(guò)池化融合特征

        (2)

        式中zC為池化操作的結(jié)果。通過(guò)在特征的寬和高進(jìn)行池化,特征向量的維度變?yōu)閄=[N,C,1,1,1]。

        最后,計(jì)算出每個(gè)通道的權(quán)重向量

        a=Sigmoid(Y2ReLU(Y1zC))

        (3)

        式中:a為通道注意力計(jì)算出的權(quán)重向量;Y1和Y2為權(quán)重參數(shù),在訓(xùn)練中得到;Sigmoid為S型激活函數(shù);ReLU為線性激活函數(shù)。

        2.1.3 時(shí)間注意力機(jī)制 由于每幀圖像的重要性不同,所以對(duì)于通道加權(quán)后的特征向量,選取其中權(quán)值最大的通道特征作為時(shí)間注意力機(jī)制的輸入并計(jì)算權(quán)重,從而對(duì)視頻幀加權(quán)。

        首先,利用輸入的通道權(quán)重對(duì)通道數(shù)據(jù)進(jìn)行篩選

        uT=x[N,amax,ωT,W,H]

        (4)

        式中:x為輸入特征向量;amax為上一步通道注意力機(jī)制中提取出的權(quán)重最大值對(duì)應(yīng)的通道坐標(biāo);uT為通道注意力提取出的權(quán)重最大通道對(duì)應(yīng)的特征向量。通過(guò)第1步提取操作,特征向量維度變化為X=[N,1,ωT,W,H]。

        然后,在空間維度通過(guò)池化融合特征

        (5)

        式中zT為池化操作的輸出特征。通過(guò)在特征的寬和高進(jìn)行池化,特征向量的維度變化為X=[N,1,ωT,1,1]。

        最后,計(jì)算出每個(gè)視頻幀的權(quán)重向量

        s=Sigmoid(W2ReLU(W1zT))

        (6)

        式中:s為時(shí)間注意力計(jì)算出的權(quán)重向量;W1和W2為權(quán)重參數(shù),在訓(xùn)練中得到。

        2.2 低幀率空間路徑特征提取

        2.2.1 視頻幀按權(quán)重采樣 空間路徑采樣視頻幀的數(shù)量只有動(dòng)作路徑的1/p,在空間路徑使用均勻采樣會(huì)因?yàn)槲恢貌粶?zhǔn)確導(dǎo)致無(wú)法提取出足夠的信息。因此,MRTP方法采用動(dòng)作路徑生成的權(quán)重對(duì)空間路徑進(jìn)行非均勻采樣指導(dǎo),流程如圖2所示。動(dòng)作路徑中的通道注意力和時(shí)間注意力模塊生成了視頻幀權(quán)重。基于該權(quán)重,在空間路徑按權(quán)值從大到小,以2幀/s的處理速度在視頻對(duì)應(yīng)位置采樣圖像。假設(shè)時(shí)間注意力計(jì)算出的權(quán)重s中最大的兩個(gè)值為sα和sβ,則在視頻中按α和β所在位置抽取圖像。相比于現(xiàn)有模型均勻抽取的方法,這種采樣方法能夠提取到信息量更多、對(duì)識(shí)別貢獻(xiàn)更大的視頻幀。

        圖2 空間路徑視頻幀按動(dòng)作路徑時(shí)間注意力權(quán)重進(jìn)行非均勻采樣示意Fig.2 Non-uniform sampling in spatial path according to time attention weight in motion path

        圖3 動(dòng)作感知結(jié)構(gòu)Fig.3 Motion perception structure

        2.2.2 動(dòng)作空間特征提取 空間特征主要描述動(dòng)作中涉及到的物體外觀和場(chǎng)景配置。為了提取視頻幀中細(xì)節(jié)的空間信息,本文使用低幀率空間路徑,一次卷積中只使用4幀圖像。預(yù)處理隨機(jī)裁剪將圖像歸一化為224×224像素,在訓(xùn)練出的ResNet-3D網(wǎng)絡(luò)模型中,Res4的特征通道數(shù)達(dá)到了2 048。更多的特征通道能夠讓該路徑提取到顏色、紋理、背景等細(xì)節(jié)的空間信息。

        2.3 動(dòng)作感知

        為了替代以光流為基礎(chǔ)的像素級(jí)動(dòng)作表示方式,并將時(shí)空特征結(jié)合起來(lái),本文在低幀率空間路徑使用了動(dòng)作感知模塊,從特征通道來(lái)進(jìn)行動(dòng)作表征和激勵(lì)。該模塊通過(guò)衡量前后兩個(gè)視頻幀的特征變化,賦予視頻幀中動(dòng)作信息對(duì)應(yīng)的特征通道更大的激勵(lì)權(quán)重,以此來(lái)增強(qiáng)網(wǎng)絡(luò)對(duì)動(dòng)作的感知能力。動(dòng)作感知模塊的計(jì)算流程如圖3所示。

        設(shè)輸入特征為X,X的特征維度即為X=[N,C,ωT,W,H],此處X為一次卷積獲得的特征,即ω=1,可得X=[N,C,T,W,H]。首先,使用一個(gè)3D卷積層來(lái)降低通道數(shù)以提高計(jì)算效率

        Xk=conv3D(X)

        (7)

        式中:Xk表示通道減少后的特征,Xk特征維度為[N,C/k,T,W,H],k=16是減少的比率;conv3D表示使用尺寸為1×1×1的卷積核對(duì)通道維度進(jìn)行降維操作。

        對(duì)于運(yùn)動(dòng)特征向量,使用前后兩幀圖像對(duì)應(yīng)的特征Xk(t+1)和Xk(t)之間的差來(lái)表示運(yùn)動(dòng)信息

        P(t)=convshift(Xk(t+1))-Xk(t)

        (8)

        式中:P(t)是時(shí)間t時(shí)的動(dòng)作特征向量,特征維度為[N,C/k,1,W,H],1≤t≤T-1;convshift是一個(gè)3×32通道卷積層,對(duì)每個(gè)通道進(jìn)行轉(zhuǎn)換。

        假設(shè)T時(shí)刻動(dòng)作已經(jīng)結(jié)束,即T時(shí)刻已經(jīng)沒(méi)有動(dòng)作特征,令P(T)為0特征向量。在計(jì)算出每個(gè)時(shí)刻的P(t)之后,構(gòu)造出整個(gè)T幀序列的動(dòng)作矩陣P。通過(guò)全局平均池化層激發(fā)對(duì)動(dòng)作敏感的通道

        Pl=pool(P)

        (9)

        式中Pl特征維度為[N,C/k,T,W,H]。使用3D卷積層將動(dòng)作特征的通道維度C/k擴(kuò)展到原始通道維度C,再利用Sigmoid函數(shù)得到動(dòng)作感知權(quán)值

        E=2Sigmoid(conv3D(Pl))-1

        (10)

        至此,得到了特征向量中各通道的動(dòng)作相關(guān)性權(quán)重E。為了不影響原低幀率動(dòng)作路徑的空間特征信息,借鑒ResNet中殘差連接的方法,在增強(qiáng)動(dòng)作信息的同時(shí)保留原有的空間信息

        XR=X+X⊙E

        (11)

        式中:XR是該模塊的輸出;⊙表示按通道的乘法。

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)設(shè)置

        3.1.1 損失函數(shù) 在訓(xùn)練過(guò)程當(dāng)中,對(duì)于同一輸入有多個(gè)動(dòng)作共存的情況,Sigmoid函數(shù)計(jì)算公式為

        (12)

        由于經(jīng)過(guò)Sigmoid網(wǎng)絡(luò)層后的輸出為[0,1]內(nèi)的概率值,因此本文選擇二分類(lèi)交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,即對(duì)每一類(lèi)動(dòng)作都進(jìn)行二分類(lèi)判別。在判別時(shí)設(shè)定概率閾值為0.8,當(dāng)大于該閾值時(shí)認(rèn)為判別有效,即視頻中包含該類(lèi)動(dòng)作,從而避免多分類(lèi)的類(lèi)別互斥情況,損失函數(shù)計(jì)算公式為

        (13)

        3.1.2 訓(xùn)練參數(shù) 本文實(shí)驗(yàn)使用深度學(xué)習(xí)框架Pytorch實(shí)現(xiàn),訓(xùn)練使用SGD優(yōu)化器,學(xué)習(xí)率調(diào)整策略為StepLR,基于epoch訓(xùn)練次數(shù)進(jìn)行學(xué)習(xí)率調(diào)整,即每到給定的epoch數(shù)時(shí),學(xué)習(xí)率都改變?yōu)槌跏紝W(xué)習(xí)率的指定倍數(shù)。初始學(xué)習(xí)率設(shè)置為0.05,指定當(dāng)epoch數(shù)為10、15、20時(shí),學(xué)習(xí)率分別設(shè)置為初始學(xué)習(xí)率的0.1、0.01、0.001倍,權(quán)重衰減設(shè)置為1×10-7,Dropout rate設(shè)置為0.5。AVA數(shù)據(jù)集訓(xùn)練樣本龐大,剛開(kāi)始采用較大的學(xué)習(xí)率可能會(huì)帶來(lái)模型不穩(wěn)定。為了防止出現(xiàn)提前過(guò)擬合的現(xiàn)象和保持分布的平穩(wěn),本文在訓(xùn)練過(guò)程中還加入了學(xué)習(xí)率預(yù)熱策略,在epoch數(shù)小于5時(shí),使用0.000 125的學(xué)習(xí)率進(jìn)行訓(xùn)練,當(dāng)模型具備了一定的先驗(yàn)知識(shí),再使用預(yù)先設(shè)置的學(xué)習(xí)率,這樣可以避免初期訓(xùn)練時(shí)錯(cuò)過(guò)最優(yōu)點(diǎn)導(dǎo)致?lián)p失振蕩,從而加快模型的收斂速度。

        3.2 數(shù)據(jù)集

        本文使用兩個(gè)數(shù)據(jù)集評(píng)估MRTP的性能。其中,UCF101是行為識(shí)別領(lǐng)域的經(jīng)典數(shù)據(jù)集,AVA2.2是目前最具挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集。在UCF101和AVA2.2上,分別使用三折交叉驗(yàn)證準(zhǔn)確率和平均精度(mAP)作為評(píng)價(jià)指標(biāo),與經(jīng)典方法以及近期方法進(jìn)行了對(duì)比,并單獨(dú)驗(yàn)證了MRTP的有效性。

        3.2.1 UCF101 UCF101[28]是一個(gè)由佛羅里達(dá)大學(xué)創(chuàng)建的動(dòng)作識(shí)別數(shù)據(jù)集,收集自YouTube。UCF101擁有來(lái)自101個(gè)動(dòng)作類(lèi)別的13 320個(gè)視頻,在攝像機(jī)運(yùn)動(dòng)、外觀、姿態(tài)、比例、視角、背景、照明條件等方面存在很大的差異。101個(gè)動(dòng)作類(lèi)別中的視頻被分成25組,每組可以包含一個(gè)動(dòng)作的4~7個(gè)視頻。同一組視頻可能有一些共同特點(diǎn),比如相似的背景或類(lèi)別等。數(shù)據(jù)集包括人與物體交互、單純的肢體動(dòng)作、人與人交互、演奏樂(lè)器、體育運(yùn)動(dòng)共5大類(lèi)動(dòng)作。

        3.2.2 AVA AVA數(shù)據(jù)集[29]來(lái)自谷歌實(shí)驗(yàn)室,包含430個(gè)視頻,其中,235個(gè)用于訓(xùn)練,64個(gè)用于驗(yàn)證,131個(gè)用于測(cè)試。每個(gè)視頻有15 min的注釋時(shí)間,間隔為1 s。盡管很多數(shù)據(jù)集采用了圖像分類(lèi)的標(biāo)注機(jī)制,即數(shù)據(jù)的每一個(gè)視頻片段分配一個(gè)標(biāo)簽,但是仍然缺少包含不同動(dòng)作的多人復(fù)雜場(chǎng)景數(shù)據(jù)集。與其他動(dòng)作數(shù)據(jù)集相比,AVA具備每個(gè)動(dòng)作標(biāo)簽都與人更加相關(guān)的關(guān)鍵特征。在同一場(chǎng)景中執(zhí)行不同動(dòng)作的多人具有不同的標(biāo)簽。AVA的數(shù)據(jù)源來(lái)自不同類(lèi)型和國(guó)家的電影,覆蓋大多數(shù)的人類(lèi)行為并且十分貼近實(shí)際部署情況。相比于AVA2.1,AVA2.2數(shù)據(jù)源沒(méi)有變化,但在標(biāo)簽文件中添加了2.5%的缺失動(dòng)作標(biāo)簽。

        相比于傳統(tǒng)的UCF101和HMDB51等數(shù)據(jù)集,AVA數(shù)據(jù)集十分具有挑戰(zhàn)性,該數(shù)據(jù)集的數(shù)據(jù)量是傳統(tǒng)數(shù)據(jù)集的數(shù)10倍,場(chǎng)景切換十分頻繁,除了相機(jī)運(yùn)動(dòng)帶來(lái)的場(chǎng)景連續(xù)變化,還出現(xiàn)了電影鏡頭切換帶來(lái)的場(chǎng)景突變。相比于主流的Kinetics和Youtube-8M等數(shù)據(jù)集,AVA數(shù)據(jù)集使用了多人標(biāo)注,在更加貼近真實(shí)場(chǎng)景的同時(shí),增加了對(duì)人的檢測(cè)和跟蹤,人數(shù)增多和遮擋問(wèn)題也造成了包含單個(gè)動(dòng)作的源數(shù)據(jù)大幅減少。因此,該數(shù)據(jù)集識(shí)別難度遠(yuǎn)超現(xiàn)有的其他主流數(shù)據(jù)集。在此之前,文獻(xiàn)[8]訓(xùn)練的模型達(dá)到了27.1%的mAP精度(由文獻(xiàn)[30]進(jìn)行復(fù)現(xiàn)和評(píng)估),是該數(shù)據(jù)集上的最高精度。

        3.3 評(píng)價(jià)指標(biāo)

        3.3.1 準(zhǔn)確率 準(zhǔn)確率為分類(lèi)正確的樣本數(shù)占總樣本的比例,公式為

        (14)

        式中:A為準(zhǔn)確率;m為總樣本數(shù);f(xi)為第i個(gè)樣本xi的預(yù)測(cè)分類(lèi)結(jié)果;yi為xi的實(shí)際分類(lèi)結(jié)果;I為判別函數(shù),當(dāng)樣本xi的分類(lèi)結(jié)果與實(shí)際結(jié)果yi相同時(shí),I(f(xi)=yi)=1,否則I(f(xi)≠yi)=0。

        在UCF-101中使用三折交叉驗(yàn)證準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。將數(shù)據(jù)集平均分成3份,使用其中1份作為測(cè)試數(shù)據(jù),其余作為訓(xùn)練數(shù)據(jù)。在3份數(shù)據(jù)上重復(fù)進(jìn)行這個(gè)訓(xùn)練測(cè)試過(guò)程,取最后的測(cè)試準(zhǔn)確率平均值作為結(jié)果。

        3.3.2 mAP AP是某一類(lèi)P-R曲線下的面積,mAP則是所有類(lèi)別P-R曲線下面積的平均值。P-R曲線是以查全率為橫坐標(biāo)、查準(zhǔn)率為縱坐標(biāo)構(gòu)成的曲線。查全率公式為

        (15)

        式中:R為查全率;T′為真陽(yáng)性數(shù),表示交并比大于0.5的檢測(cè)框數(shù);N′為假陰性數(shù),表示交并比小于0.5的檢測(cè)框數(shù)。查準(zhǔn)率公式為

        (16)

        式中:P為查準(zhǔn)率;F為假陽(yáng)性數(shù),表示漏檢的真實(shí)檢測(cè)框的數(shù)量。

        AVA數(shù)據(jù)集中存在同一場(chǎng)景多人同時(shí)執(zhí)行動(dòng)作的情況,因此需要目標(biāo)檢測(cè)來(lái)區(qū)分每個(gè)人對(duì)應(yīng)的動(dòng)作,使用mAP來(lái)衡量實(shí)驗(yàn)結(jié)果。

        3.4 實(shí)驗(yàn)結(jié)果

        3.4.1 UCF101實(shí)驗(yàn)結(jié)果 使用Kinetics-400數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,在預(yù)訓(xùn)練模型的基礎(chǔ)上對(duì)UCF-101數(shù)據(jù)集的行為識(shí)別數(shù)據(jù)進(jìn)行訓(xùn)練建模,對(duì)UCF-101的3個(gè)split進(jìn)行測(cè)試,與同樣使用3D卷積的C3D[24]方法和同樣使用了雙路徑結(jié)構(gòu)的TSN[17]、Two-stream I3D[7]以及近期的I3D-LSTM[31]、TesNet[32]進(jìn)行了準(zhǔn)確率的對(duì)比,結(jié)果如表1所示??梢钥闯?相比于主流的行為識(shí)別方法,本文在同樣的數(shù)據(jù)集上取得了更高的測(cè)試精度。

        表1 UCF101數(shù)據(jù)集上不同方法的準(zhǔn)確率對(duì)比

        3.4.2 AVA2.2實(shí)驗(yàn)結(jié)果 同一視頻片段識(shí)別結(jié)果對(duì)比示例如圖4所示,該視頻片段真實(shí)的動(dòng)作標(biāo)簽為“站立(stand)”和“演奏樂(lè)器(play musical instrument)”?;A(chǔ)模型使用了2幀/s的固定幀率對(duì)視頻進(jìn)行采樣,未加入本文提出的MRTP方法,同樣使用ResNet3D作為骨干網(wǎng)絡(luò)。在使用基礎(chǔ)模型和本文提出的MRTP方法對(duì)相同輸入進(jìn)行識(shí)別時(shí),基礎(chǔ)模型無(wú)法正確地識(shí)別出動(dòng)作類(lèi)別,識(shí)別出的結(jié)果為“坐(sit)”,而本文提出的MRTP方法在同樣的輸入數(shù)據(jù)下相比基礎(chǔ)模型有更準(zhǔn)確的識(shí)別結(jié)果。

        在Kinetics-400和Kinetics-600上進(jìn)行預(yù)訓(xùn)練,得到含有低層基礎(chǔ)特征的預(yù)訓(xùn)練模型,基于預(yù)訓(xùn)練模型對(duì)AVA2.2的數(shù)據(jù)進(jìn)行訓(xùn)練建模。在測(cè)試集上計(jì)算交并比閾值為0.5時(shí)的mAP精度,ARCN[33]、I3D w/RPN[34]、I3D Tx HighRes方法在AVA2.1上進(jìn)行了測(cè)試,AVA數(shù)據(jù)集上的mAP精度結(jié)果如表2所示??梢钥闯?相比于ARCN[33]、I3D w/RPN[34]、I3D Tx HighRes[35]、D3D[36]和X3D[30]等行為識(shí)別方法,MRTP取得了更高的測(cè)試精度。在網(wǎng)絡(luò)深度相同的情況下,MRTP超過(guò)了之前效果最好的SlowFast方法,在加深骨干網(wǎng)絡(luò)到101層之后,MRTP達(dá)到了28.0%的mAP精度,刷新了目前AVA2.2數(shù)據(jù)集上最高的mAP精度。

        3.4.3 ResNet3D骨干網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果 為了證明本文MRTP方法的有效性,固定了骨干網(wǎng)絡(luò)和預(yù)訓(xùn)練模型,在兩個(gè)數(shù)據(jù)集上對(duì)比了添加MRTP方法前后的評(píng)價(jià)指標(biāo),結(jié)果如表3所示??梢钥闯?相比于基礎(chǔ)模型,添加了MRTP方法后在不同的數(shù)據(jù)集和網(wǎng)絡(luò)深度都能夠?qū)崿F(xiàn)精度的提升。

        (a)基礎(chǔ)模型識(shí)別結(jié)果

        (b)MRTP識(shí)別結(jié)果

        表2 AVA數(shù)據(jù)集上不同方法的mAP對(duì)比

        加入MRTP方法前后,部分類(lèi)別mAP精度對(duì)比見(jiàn)表4??梢钥闯?在基礎(chǔ)模型中加入本文提出的MRTP方法后,AVA數(shù)據(jù)集中大部分行為類(lèi)別的準(zhǔn)確率都有了一定程度的提升,特別是“演奏樂(lè)器(play musical instrument)”,“射擊(shoot)”以及“游泳(swim)”這3類(lèi)動(dòng)作,更是取得了10%以上的提升。原因在于本文使用的時(shí)間注意力和動(dòng)作感知方法都是聚焦于動(dòng)作的動(dòng)態(tài)信息。這3類(lèi)動(dòng)作都是在視頻畫(huà)面中動(dòng)作變化相對(duì)較小的。在所提取的特征中,這類(lèi)變化較小的動(dòng)作信息容易被場(chǎng)景、光線、角度變化所干擾,而MRTP在時(shí)間維度使用時(shí)間注意力聚焦于含有動(dòng)作變化的視頻幀,在通道維度使用特征差分的動(dòng)作感知聚焦于含有動(dòng)作信息的通道。這樣就使得模型所獲取的動(dòng)態(tài)信息大多來(lái)自于動(dòng)作本身,從而在這些動(dòng)態(tài)信息不明顯的動(dòng)作類(lèi)別上實(shí)現(xiàn)mAP精度的提升。

        表3 加入MRTP方法前后的對(duì)比結(jié)果

        表4 AVA數(shù)據(jù)集加入MRTP方法前后的部分類(lèi)別mAP精度對(duì)比

        3.4.4 復(fù)雜度分析 各方法訓(xùn)練出的模型復(fù)雜度對(duì)比見(jiàn)表5??梢钥闯?本文提出的MRTP方法在使用ResNet3D-50作為骨干網(wǎng)絡(luò)時(shí)的參數(shù)量小于同樣使用3D卷積網(wǎng)絡(luò)的I3D-NL方法[37]的,甚至小于使用2D卷積網(wǎng)絡(luò)的TSN方法的;同樣使用RTX 3090顯卡進(jìn)行模型測(cè)試,輸入同一個(gè)分辨率為640×480像素的測(cè)試視頻,MRTP達(dá)到了110.24幀/s的處理速度,在所有方法中是最優(yōu)的,雖然使用ResNet3D-101作為骨干網(wǎng)絡(luò)時(shí)模型參數(shù)量較大,但是處理速度依然遠(yuǎn)超使用了光流輸入的TSN方法[17]的,也高于使用偽3D卷積的R2+1D[38]方法的。本文方法使用RGB視頻作為輸入,極大地減少了由于計(jì)算光流圖帶來(lái)的時(shí)間和計(jì)算成本,并且通過(guò)在動(dòng)作路徑將特征通道數(shù)量減少,使得在動(dòng)作路徑增加的輸入視頻幀沒(méi)有帶來(lái)更大的計(jì)算消耗。

        表5 不同方法的模型復(fù)雜度對(duì)比

        4 結(jié) 論

        針對(duì)時(shí)空信息分布不均衡以及對(duì)長(zhǎng)時(shí)間跨度信息表征獲取難的問(wèn)題,本文提出了一種時(shí)間-動(dòng)作感知的多尺度時(shí)間序列實(shí)時(shí)行為識(shí)別方法MRTP。本文得出的主要結(jié)論如下。

        (1)提出的網(wǎng)絡(luò)使用雙路徑結(jié)構(gòu),在不同的時(shí)間分辨率上對(duì)視頻進(jìn)行特征提取,相比于只使用固定幀率的網(wǎng)絡(luò),對(duì)長(zhǎng)時(shí)動(dòng)作能夠更好地聚焦于時(shí)序信息。

        (2)在低幀率空間路徑中,使用基于特征差分的動(dòng)作感知尋找并加強(qiáng)通道動(dòng)作特征,將變化明顯的特征通道作為動(dòng)作的表征;在高幀率動(dòng)作路徑中加入通道注意力和時(shí)間注意力加強(qiáng)關(guān)鍵特征,細(xì)化了各個(gè)視頻幀的重要性度量。

        (3)低幀率空間路徑基于動(dòng)作路徑中的時(shí)間注意力生成的視頻幀權(quán)重對(duì)輸入視頻進(jìn)行采樣,相比于現(xiàn)有方法的均勻采樣,能夠提取到識(shí)別貢獻(xiàn)更大的視頻幀;在高幀率動(dòng)作路徑中,基于空間路徑動(dòng)作感知的權(quán)重進(jìn)行通道篩選,保留了動(dòng)作信息豐富的特征通道。

        (4)本文提出的MRTP方法僅使用RGB幀作為輸入,通過(guò)衡量幀權(quán)重,在時(shí)序維度上獲得了更好的依賴,通過(guò)動(dòng)作感知尋找并加強(qiáng)了通道維度動(dòng)作特征表征。兩個(gè)路徑的信息交互和指導(dǎo)使得整個(gè)網(wǎng)絡(luò)更加聚焦于動(dòng)作信息在時(shí)間和通道所處的位置。本文方法在公共數(shù)據(jù)集上表現(xiàn)出良好的識(shí)別性能,在AVA2.2數(shù)據(jù)集上達(dá)到了28%的mAP精度,刷新了AVA2.2數(shù)據(jù)集目前最高的mAP精度。不同環(huán)境的實(shí)驗(yàn)結(jié)果也表明了MRTP良好的魯棒性。

        (5)在未來(lái)的工作中,將從時(shí)序特征出發(fā),通過(guò)特征差分提取更為有效和顯式的時(shí)序信息表征,并繼續(xù)探索雙路徑網(wǎng)絡(luò)并行分支互相交互的可能性。

        猜你喜歡
        動(dòng)作特征信息
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        動(dòng)作描寫(xiě)要具體
        抓住特征巧觀察
        畫(huà)動(dòng)作
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        動(dòng)作描寫(xiě)不可少
        非同一般的吃飯動(dòng)作
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        人禽无码视频在线观看| 国产熟女露脸91麻豆| 欧美a级在线现免费观看| 日本免费一区二区三区| 国产精品久久久久久久久免费观看 | 日韩精品视频在线一二三| 大香蕉国产av一区二区三区| 日本少妇高潮喷水xxxxxxx| ā片在线观看| 无码人妻少妇久久中文字幕| 日韩精品久久久中文字幕人妻| 少妇内射视频播放舔大片| 久久亚洲黄色| 18禁国产美女白浆在线| 久久亚洲av熟女国产| 成年av动漫网站18禁| www国产无套内射com| 国产成人久久精品亚洲小说| 一区二区三区日本视频| 少妇人妻中文字幕hd| av人摸人人人澡人人超碰小说| 亚洲人成网站在线播放小说| 亚洲国产综合人成综合网站| 五月丁香综合激情六月久久| 婷婷成人亚洲| 日本久久一级二级三级| 欧美黑人巨大videos精品| 亚洲成av人片在线观看无码| 国产乱子伦视频一区二区三区| 日本乱熟人妻中文字幕乱码69| 国产精品天堂avav在线| 二区三区视频| 国内精品嫩模av私拍在线观看| 老熟妇乱子交视频一区| 久久久久久免费毛片精品| 国产精品久久无码免费看 | 亚洲av色在线播放一区| 欧美性xxxx极品高清| 国产色噜噜| 中文无字幕一本码专区| 国产美女精品视频线免费播放软件|