亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視頻時空特征的行為識別方法

        2023-02-24 05:01:34倪苒巖
        計算機應用 2023年2期
        關鍵詞:時空卷積建模

        倪苒巖,張 軼

        (四川大學 計算機學院,成都 610065)

        0 引言

        隨著科技不斷發(fā)展,視頻已經(jīng)成為互聯(lián)網(wǎng)信息傳播的主流手段。在這種情況下,準確有效地識別視頻中的人類行為尤為重要。人體行為識別是利用計算機視覺技術進行視頻內(nèi)容處理的一個重要研究方向,在安全性、人機交互和視頻檢索等方面具有重要的研究和應用價值[1]。與單個圖像相比,視頻中蘊含著更豐富的信息,包括不同視頻幀之間的時序相關性和相鄰幀之間的運動位移。因此,時間建模是高效視頻行為識別成功的關鍵。隨著深度學習的蓬勃發(fā)展,二維(Two-Dimensional,2D)卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)在圖像分類任務中取得了巨大成功[2],行為識別也從傳統(tǒng)的基于手工特征的方法轉變?yōu)榛谏疃葘W習的方法。隨著大規(guī)模數(shù)據(jù)集[3]和更強大的模型[4]的引入,基于深度網(wǎng)絡的方法已成為視頻行為識別任務的主流。然而,雖然傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡對于視頻幀中空間信息的提取非常有效,但忽略了時間信息的提取,不能直接應用于時間序列信號(例如視頻)的特征表示。為了彌補傳統(tǒng)的二維網(wǎng)絡無法提取視頻中的時間信息的不足,研究者們嘗試使用各種方法來表示時空特征,并取得了不錯的成果。這些主流的行為識別方法大致可分為采用雙流結構的二維卷積神經(jīng)網(wǎng)絡、三維卷積神經(jīng)網(wǎng)絡及其變體和嵌入時間建模模塊的二維網(wǎng)絡3 類。

        典型的雙流網(wǎng)絡結構結合了空間網(wǎng)絡和時間網(wǎng)絡。換句話說,它可以分為兩個流——以RGB(Red-Green-Blue)幀為輸入的空間流和以光流為輸入的時間流。兩個流都使用深度卷積神經(jīng)網(wǎng)絡實現(xiàn),前者處理RGB 幀,后者處理光流信號,最終將二者結果進行融合。因此,雙流網(wǎng)絡可以有效結合外觀和運動信息。Simonya 等[5]使用雙流體系結構來進行動作識別,實驗結果表明,該雙流結構能夠有效地集成視頻的外觀和時序信息。然而,稠密的光流是從視頻序列中的相鄰幀之間計算出來的,計算量十分繁重。隨著行為識別數(shù)據(jù)集越來越大,提取視頻數(shù)據(jù)的光流圖也愈發(fā)耗時。此外,雙流網(wǎng)絡需要分別訓練空間網(wǎng)絡和時間網(wǎng)絡,無法實現(xiàn)端到端的識別。

        相較于雙流網(wǎng)絡,三維卷積網(wǎng)絡無需進行光流計算,可以實現(xiàn)端到端的識別。Tran 等[6]提出了三維卷積(Convolution 3D,C3D)模型,該模型可以同時捕獲整個視頻的外觀和時間信息,避免了對光流的需求。不幸的是,三維卷積也有致命的缺陷。與使用二維卷積的模型相比,由于三維卷積的參數(shù)量呈指數(shù)增長,訓練十分困難。因此,三維卷積的方法對計算資源有著巨大的需求,并且在小型數(shù)據(jù)集上容易出現(xiàn)過擬合的問題。因此,三維網(wǎng)絡通常需要部署在較為先進的硬件平臺上。

        針對雙流模型需要分別訓練空間流和時間流網(wǎng)絡以及預先提取光流圖,而三維卷積網(wǎng)絡參數(shù)量巨大,對硬件平臺要求很高的問題,很多學者開始研究更高效的方法來實現(xiàn)對時空信息的建模,比如在原有二維卷積網(wǎng)絡的架構上添加其他功能模塊。Lin 等[7]沿時間維度移動部分通道,以促進相鄰幀之間的信息交換,而無需添加額外參數(shù)。雖然它的計算量得到了很好的控制,但在捕獲顯式運動信息方面仍然很弱。

        為了增強模型的時空特征學習能力,本文提出了一種深度架構來解決上述問題,該方法能同時高效提取短期和長期的時間特征。首先,本文設計了一種基于注意力機制的運動信息編碼器來在特征層級上提取短期的運動信息,這里提到的運動特征類似于光流信號。其次,提出了一個輕量級的時空建模模塊,用于代替三維卷積核對視頻的時空信息進行長期建模。本文將傳統(tǒng)的三維濾波器替換為通道方向的一維時間卷積和二維空間卷積來編碼全局時間線索。此外,本文方法還在時間維度上對特征進行移位操作來完成對相鄰幀信息的交換。本文將上述時空提取模塊和運動提取模塊進行結合并嵌入到殘差結構中,實現(xiàn)端到端的行為識別網(wǎng)絡模型的構建。通過對上述模塊的整合,本文方法可以實現(xiàn)對行為特征的提取和識別,并且無需預先提取光流圖和使用三維卷積。本文所提行為識別方法在識別精度、計算成本和網(wǎng)絡規(guī)模方面都有著充足的優(yōu)勢。

        1 相關工作

        基于視頻的人體行為識別的主要流程是先對視頻中蘊含的時空特征進行提取,然后將提取的特征輸入分類器中,完成對行為的分類。特征提取是其中最重要的步驟。使用深度學習的方法進行特征的提取是目前的主流方向。

        1.1 雙流卷積神經(jīng)網(wǎng)絡

        視頻中蘊含著豐富的時間和空間信息。時間信息代表視頻幀之間的位移和運動關系,空間信息包括視頻幀中的場景和外觀信息。2014 年,雙流架構第一次被提出,雙流法將單幀RGB 視頻幀和多張堆疊光流圖分別作為空間和時間網(wǎng)絡分支的輸入,最后將空間流分支網(wǎng)絡和時間流分支網(wǎng)絡輸出的分類結果融合,得到最終的分類結果。針對傳統(tǒng)的雙流網(wǎng)絡缺乏長時間的建模能力的問題,Wang 等[8]在2016 年提出了基于長時建模的時間分段網(wǎng)絡TSN(Temporal Segment Network)模型,該模型首次提出了稀疏采樣的方法,首先對視頻進行均勻分段得到若干視頻片段;然后在每一個視頻片段中隨機采樣單幀視頻幀輸入網(wǎng)絡,每一幀圖像的預測結果代表單個視頻片段的預測結果;最后對所有視頻片段的分類結果進行統(tǒng)計,將出現(xiàn)次數(shù)最多動作類別作為視頻的最終分類結果。Lan 等[9]認為時間分段網(wǎng)絡稀疏采樣后得到的不同的視頻剪輯的權重應該不同,因此對TSN 的段共識策略進行了改進,從而提出了深度局部視頻特征(Deep lOcal Video Feature,DOVF)網(wǎng)絡,給每個視頻片段分配不同的權重,提高了行為識別的準確率。Lin 等[10]認為不同類別的動作之間存在粒度差異,并基于雙流結構提出了一種由粗粒度到細粒度的方法,該方法使用更為精細的特征減少異步信息,從而進一步提高了行為識別的精度。除此之外,還有相當多的國內(nèi)外學者對雙流網(wǎng)絡進行研究,均獲得了不同程度的進展?;陔p流架構的視頻人體行為識別方法可以獲得較高的準確率,但這類方法需要預先提取視頻數(shù)據(jù)集的光流圖,且兩個分支網(wǎng)絡需要進行分別訓練,流程復雜且無法實現(xiàn)實時的端到端識別。

        1.2 三維卷積神經(jīng)網(wǎng)絡

        傳統(tǒng)的二維卷積網(wǎng)絡只能提取空間維度的特征,而忽略了視頻中時間特征的學習和提取,三維卷積網(wǎng)絡能夠同時提取視頻中的時間信息和空間信息。因此,另一種行為識別的主流方法就是三維卷積。2010 年,Ji 等[11]第一次將三維卷積應用到視頻人體行為識別領域,通過三維的濾波器直接對視頻幀序列進行卷積操作,可以同時獲取時間和空間維度上的行為特征。Tran 等[6]通過一系列的實驗探索,找到了最優(yōu)的三維卷積核大小,進而提出了C3D 模型。在C3D 的基礎上,Tran 等[12]提出了一種三維殘差網(wǎng)絡(Three-Dimensional Residual Network,Res3D)模型,Res3D 減少了C3D 模型的參數(shù)量,并提高了識別的準確率。Cai 等[13]在Res3D 模型的基礎上添加了注意力機制,使得網(wǎng)絡更注重顯著的行為特征。盡管三維卷積的方法取得了不錯的效果,但是,三維卷積神經(jīng)網(wǎng)絡由于它大量的參數(shù),容易產(chǎn)生過度擬合和緩慢收斂的問題而極難訓練,使得難于部署在普通的硬件平臺上,也限制了基于三維卷積網(wǎng)絡的方法的應用。

        1.3 配備時間建模模塊的二維網(wǎng)絡

        為了解決雙流網(wǎng)絡無法實現(xiàn)端到端的識別,并且光流的提取需要消耗大量的時間的問題,以及三維卷積網(wǎng)絡由于含大量的參數(shù),在小型數(shù)據(jù)集上容易產(chǎn)生過擬合的問題,大量的研究工作致力于探索高效的端到端的行為識別方法,即使用二維(2D)卷積網(wǎng)絡作為骨干網(wǎng)絡,并嵌入時間建模的模塊。文獻[14]引入了長期特征提取模塊用于快速的視頻處理,該方法的創(chuàng)新性在于實現(xiàn)了對長期時間信息的融合;Lee等[15]提出了一個時間信息提取模塊,能夠實現(xiàn)5 個固定方向的搜索操作以對時空信息進行編碼;Lin 等[7]設計了一個通用而高效的、沿著時間軸通道移位的模塊,提高了幀間信息交互的過程,主要優(yōu)點是既保持了跟二維網(wǎng)絡相當?shù)膹碗s度,又達到了三維網(wǎng)絡的效果。這類方法使用二維卷積網(wǎng)絡對人體動作進行端到端的識別,避免了雙流網(wǎng)絡繁重的光流運算,使用相較于三維網(wǎng)絡更少的參數(shù)量達到了較好的識別性能,在這些工作的啟發(fā)下,本文采用了二維卷積網(wǎng)絡作為主干網(wǎng)絡,并嵌入不同的時間建模模塊實現(xiàn)視頻中運動信息和時空信息的編碼。

        1.4 殘差網(wǎng)絡

        神經(jīng)網(wǎng)絡具有非常強的表達能力,經(jīng)過訓練的深度神經(jīng)網(wǎng)絡能夠將數(shù)據(jù)特征逐層抽象,最終提取出完成任務所需要的特征,然后使用一個簡單的分類器,就可以完成最終任務。從理論上來說,更深的神經(jīng)網(wǎng)絡在非線性激活函數(shù)的加持下,擁有更大的假設空間和更強的學習能力;但是在實際應用中,網(wǎng)絡層數(shù)越深,訓練便越發(fā)困難。殘差網(wǎng)絡(Residual Network,ResNet)很好地解決了這個問題,ResNet 由微軟研究院的He 等[16]提出,通過使用殘差連接成功訓練出了152層的神經(jīng)網(wǎng)絡,其主要思想是在網(wǎng)絡中增加了直連通道,在ImageNet[17]等圖像分類數(shù)據(jù)集上取得了非常好的結果,同等層數(shù)的前提下殘差網(wǎng)絡也收斂得更快。這使得神經(jīng)網(wǎng)絡可以采用更深的設計。

        本文設計使用了可以嵌入殘差網(wǎng)絡中的時間建模模塊,探索視頻中不同層次的時間信息,并將其加入殘差網(wǎng)絡中,實現(xiàn)端到端的行為識別。

        2 行為識別算法設計

        2.1 網(wǎng)絡整體框架

        本文構建的網(wǎng)絡是一個二維結構,無需任何三維卷積或光流計算,網(wǎng)絡整體架構如圖1 所示,在ResNet-50(ResNet with 50 Layers)的瓶頸層加入時間移位操作[7],并以加入移位模塊的ResNet-50 作為基礎網(wǎng)絡,通過引入時空信息提取模塊和基于注意力機制的運動信息提取模塊,更好地融合局部時空信息與全局時空信息,實現(xiàn)對視頻中人體的行為的識別。具體地說,運動信息提取模塊被嵌入每個瓶頸層(置于第一個1×1 卷積層之后),用于建模局部運動信息;時空信息提取模塊被放置在每個瓶頸層的3×3 卷積后,用于建模遠程時間信息。

        圖1 本文網(wǎng)絡整體架構Fig.1 Overall architecture of the proposed network

        模型以RGB 視頻幀作為輸入,由于在一段視頻中,連續(xù)幀之間的變化幅度很小,如果使用每幀圖像作為輸入會帶來很大的計算成本,因此,本文借鑒了TSN[8]的稀疏采樣方法,實現(xiàn)對長時間視頻的建模,充分利用整個視頻的時空信息。具體流程為:首先將視頻均分成k個子片段,每一個子片段具有等長度;然后在每個片段中隨機找出一幀圖像,從整個視頻中采樣k幀圖像,使得所采樣的視頻幀覆蓋整個視頻段;最后使用段共識函數(shù)結合多個視頻幀的類別得分,得到它們之間對于類別預測的共識。整個算法的流程如下。

        算法1 基于視頻時空特征的人體行為識別方法流程。

        輸入 待識別視頻樣本V,在訓練集上訓練完畢的模型權重文件;

        輸出 該視頻樣本屬于每一類的概率值P。

        1)對輸入視頻V進行稀疏采樣操作,得到視頻幀集合S∈{S1,S2,…,Sk},k代表采樣幀數(shù);

        2)加載模型的權重;

        3)將處理后的視頻幀集合S輸入到帶有運動提取模塊和時空提取模塊的骨干網(wǎng)絡中進行特征提??;

        4)將經(jīng)過骨干網(wǎng)絡后得到k個幀級特征,送入全連接層,得到k個屬于每個片段的分類概率;

        5)對k個分類結果進行平均操作,獲取視頻級分類概率P。

        本文方法采用帶有時間移位模塊[7]的ResNet-50 作為基礎網(wǎng)絡,具體表現(xiàn)為對ResNet-50 中的每個殘差塊加入時間移位操作[7],時間移位操作在卷積運算之前沿時間軸移動輸入特征通道的一部分。如圖2 所示,在不同時間點提取的特征由每行的不同顏色標識。沿時間軸,將特征通道的1/8 向前移動,將另1/8 部分向后移動,同時保持其余的3/4 不變。時間移位操作通過對過去幀、當前幀和未來幀的加權相加,可以促進相鄰幀之間的信息交換,并且移位操作不會給網(wǎng)絡模型增加額外的計算量,可以在零計算成本的基礎上有效提升網(wǎng)絡的性能。因此本文將帶有時間移位模塊的殘差網(wǎng)絡(ResNet-50)作為基礎網(wǎng)絡,但僅僅進行時間移位操作的網(wǎng)絡在顯式的時間建模方面還存在著不足,本文方法在基礎網(wǎng)絡中加入顯式的運動信息編碼模塊和時空信息提取模塊,可以進一步提升行為識別的準確率。

        圖2 對特征的時間移位操作Fig.2 Temporal shift operation on features

        接下來將著重介紹以下兩個部分:基于注意力機制的運動提取模塊和(2+1)維的時空信息提取模塊。上述兩個模塊可以插入到現(xiàn)有的二維卷積神經(jīng)網(wǎng)絡中,通過時空特征和運動特征建模提高模型的性能。

        2.2 基于注意力機制的運動信息提取模塊

        運動信息是指兩個連續(xù)幀的運動位移,反映動作的發(fā)生。通過引入運動信息可以提高行為識別的準確率。目前主流的方法以提取相鄰幀間的密集光流圖作為網(wǎng)絡的輸入的形式描述像素級的運動信息,雖然這些方法被證明是有效的,但從圖像序列中計算光流非常耗時,并且無法實現(xiàn)端到端的行為識別。為了解決這一問題,本文采用了一種運動注意力模型,從將運動建模從像素級擴展到廣泛的特征級別,并且將運動信息的編碼和時空信息的提取融合到一個統(tǒng)一的框架中,實現(xiàn)端到端的識別,使得網(wǎng)絡可以更加注意發(fā)生了運動位移的動作信息。基于注意力機制的運動編碼模塊的結構如圖3 所示。

        圖3 基于注意力機制的運動信息提取模塊結構Fig.3 Structure of motion extraction module based on attention mechanism

        本模塊受圖像分類領域的注意力模塊SENet(Squeezeand-Excitation Network)[18]的啟發(fā),SENet 以壓縮和解壓的方式利用了兩個全連接層,然后使用Sigmoid 激活函數(shù)激勵通道級別的特征,通過顯式地建模通道間相互依賴關系,增強了圖像識別任務通道特征的學習。然而,它獨立地處理每幀圖像,不考慮幀間的時間依賴關系。本文的運動注意力模塊能夠激勵相鄰幀間的運動特征,假設該模塊的輸入特征為X∈[N,T,C,H,W],N代表批尺寸大小,T代表特征的時間維度,C代表通道數(shù),H和W代表了空間維度上的長和寬。首先,采用1×1 的二維卷積將輸入特征的空間通道數(shù)壓縮至原來的1/16 以降低計算成本,得到特征X1∈R[N,T,C/16,H,W];然后,從每兩個連續(xù)的特征圖中生成特征級的運動信息。以生成時刻t的運動特征X(t)為例,首先對時刻t+1 的特征應用二維的通道級卷積,然后減去時刻t的特征,獲得近似的t時刻的運動特征表示,公式如下:

        其中:X(t) ∈RN×1×C/16×H×W代表在時刻t時的運動特征;C1表示3×3 的二維卷積層。本文對每兩個相鄰特征圖都執(zhí)行上述操作,得到t-1 個運動特征表示,并將運動特征連接起來,得到完整的運動特征表示。為了使得運動特征的時間維度大小與輸入特征相同,本文簡單地用0 來表示最后一個時間步長的運動信息,最終的運動特征F可以表示為:[X(0),X(1),…,X(t-1),0]。因為運動編碼模塊的目標是激勵運動敏感的通道,使網(wǎng)絡更加注意運動信息,而無需考慮詳細的空間布局。因此,可以通過空間平均池化處理運動特征,如下所示:

        其中F'∈RN×T×C/16×1×1,(i,j)代表特征圖空間上的每一個像素點。接著,使用1×1 的二維卷積將運動特征的通道數(shù)恢復到原來的大小。處理后的特征為F*∈RN×T×C×1×1。運動注意力權重M可以通過使用sigmoid 激活函數(shù)獲得:

        本模塊的目的是激發(fā)與運動信息相關的通道,因此,將輸入特征X與運動注意力權重M相乘即可得到運動敏感的特征,最后使用殘差殘差連接來保留原始背景信息,同時增強運動信息,公式如下:

        其中:X' 是輸入特征,X是此模塊的輸出,維度為[N,T,C,H,W],操作符⊙代表通道級相乘。

        2.3 時空信息提取模塊

        與三維卷積的效果相同,本文提出的時空模塊能夠同時獲取時間和空間維度的信息,但與三維卷積相比,本文設計的時空信息提取模塊大幅降低了模型的計算量。圖4 展示了該模塊的具體結構。

        圖4 時空信息提取模塊結構Fig.4 Structure of spatio-temporal information extraction module

        假設輸入特征Y的形狀為[N,T,C,H,W],其中N代表輸入特征Y的批尺寸,T代表時間維度,C代表通道數(shù),H和W代表了空間維度上的長和寬。首先,通過使用卷積核大小為1×1 的二維卷積對輸入特征的通道數(shù)進行壓縮,以降低后續(xù)運算計算量,本文將特征的通道數(shù)減少為1,得到特征Y1∈RN×T×1×H×W。

        接下來,Y1的形狀被重構成Y2∈RNHW×1×T,然后在時間維度T上應用一維的時間卷積來融合時間信息。時間卷積C2的卷積核大小為3,本文用它來描述通道級的時間信息:

        其中Y3∈RNHW×1×T。繼續(xù)將Y3的形狀重構為Y4∈RN×T×1×H×W,并通過卷積核大小為3×3 的二維卷積對局部空間信息進行建模,得到特征Y5:

        其中Y5∈RN×T×1×H×W。最后再次使用1×1 的二維卷積來完成對通道數(shù)的解壓,將特征的通道數(shù)恢復到原來的大小,得到特征Y6∈RN×T×C×H×W。本文方法將整個操作置入殘差結構中,最終輸出表示為:

        由式(7),本文使用殘差連接,既保留了原始輸入特征的表達,又實現(xiàn)了對時空信息的提取和增強。本文設計的時空模塊將大小為3×3×3 的三維卷積核解耦成大小為3×3 的二維卷積和大小為3 的一維卷積,并在進行時間和空間卷積運算前對特征通道數(shù)進行了壓縮,因此,相較于直接使用三維卷積的模型而言參數(shù)量更小,通過引入十分有限的額外計算成本提取了豐富的時空特征。本文將此模塊嵌入到ResNet-50 架構的每一個瓶頸層中,可以實現(xiàn)對長時時空特征的提取。

        3 實驗與結果分析

        3.1 數(shù)據(jù)集

        本文選擇在UCF101[19]、HMDB51[20]和Something-Something-V1[21]三個經(jīng)典的行為識別數(shù)據(jù)集上驗證所提算法的有效性。

        UCF101 數(shù)據(jù)集[19]發(fā)布于2012 年,是行為識別領域最經(jīng)典的數(shù)據(jù)集之一,包含13 320 個來源于YouTube 的視頻序列,總共擁有101 個行為類別。由于類別眾多、樣本多樣性較強、識別難度較高,UCF101 成為目前人體行為識別領域中眾多研究者們的常用數(shù)據(jù)集。

        HMDB51 數(shù)據(jù)集[20]發(fā)布于2011 年,包含6 766 段視頻樣本集,總共擁有51 個行為類別,由于該數(shù)據(jù)集規(guī)模較小、視頻大部分為在真實場景中拍攝得到,包括大量面部和肢體動作以及不同的交互行為,被很多研究者青睞。

        Something-Something-V1 數(shù)據(jù)集[21]是一個大規(guī)模的標記視頻數(shù)據(jù)集,記錄了人類在日常生活中的行為。它包括108 499 個視頻,有174 個動作類別,包括86 017 個訓練集樣本、11 522 個驗證集樣本和27 157 個測試集樣本。相較于前兩個數(shù)據(jù)集,Something-Something-V1 包含更多具有時序相關性的動作,如從左向右推動物品和從右向左推動物品等,這類時序性相關的數(shù)據(jù)集對網(wǎng)絡的時間建模能力要求較高,能很好地驗證本文所提出的時間建模方法的有效性,識別難度也較大,具有很大的挑戰(zhàn)性。圖5 給出了Something-Something-V1 數(shù)據(jù)集中的某個動作示例,這個動作的標簽為“關閉洗碗機”。但如果顛倒視頻幀的順序,這個動作就會變?yōu)椤按蜷_洗碗機”。因此,不能僅通過單個視頻幀判斷動作的類別,需要利用一定的時間信息,在此數(shù)據(jù)集上的結果可以很好地反映模型的時間建模能力。

        圖5 Something-Something-V1數(shù)據(jù)集上的動作示例Fig.5 Action example in Something-Something-V1 dataset

        3.2 實驗設置

        本文實驗在Ubuntu16.04 系統(tǒng)下進行,硬件平臺是NVIDIA RTX 3090,程序基于PyTorch 深度學習框架設計實現(xiàn),CUDA(Computer Unified Device Architecture)版本為10.1。使用mmaction 開源視頻動作分析庫對行為識別數(shù)據(jù)集進行提幀操作,然后對每個提取完圖像幀的視頻隨機采樣8 幀或16 幀作為網(wǎng)絡的輸入(對于UCF101 和HMDB51 數(shù)據(jù)集,由于數(shù)據(jù)集較小,采樣16 幀,對Something-Something-V1數(shù)據(jù)集采樣8 幀進行了實驗)。在訓練過程中,采用角點裁剪和尺度抖動兩種方法進行數(shù)據(jù)增強,以增加訓練樣本的多樣性,最后將每個裁剪區(qū)域的大小調(diào)整為224×224。對于UCF101 和HMDB51 數(shù)據(jù)集,由于數(shù)據(jù)集較小容易產(chǎn)生過擬合,本文首先將模型在Kinetics 數(shù)據(jù)集上進行預訓練,并使用預訓練的權重初始化網(wǎng)絡,采用隨機梯度下降法優(yōu)化整個網(wǎng)絡模型。對UCF101 和HMDB51 數(shù)據(jù)集的訓練參數(shù)設置為:30 個訓練周期,初始學習率為0.001(在第10 和第20 個周期學習率依次衰減為原來的1/10),批尺寸大小設置為10。對于Something-Something-V1 數(shù)據(jù)集,使用在ImageNet 數(shù)據(jù)集上預訓練的ResNet-50 模型進行初始化,批尺寸大小設置為22,初始學習率設為0.01(總共60 個epoch,在第20、40、50 個epoch 學習率依次衰減為原來的1/10)。

        3.3 實驗結果分析

        3.3.1 實驗結果對比及分析

        本節(jié)在UCF101、HMDB51 與Something-Something-V1 數(shù)據(jù)集上,將本文方法與當前行為識別領域主流[5-8]和近期的方法[22-34]進行比較,結果如表1 所示。實驗對比結果表明,在UCF101 數(shù)據(jù)集,本文方法結果最佳,準確率高達96.5%,分別高出經(jīng)典的雙流網(wǎng)絡[5]、C3D[6]網(wǎng)絡和使用雙流結構的時間分段網(wǎng)絡(TSN)7.7、14.2 和2.5 個百分點;且相較于雙流架構,無需預先提取光流圖,相較于三維架構,大幅減少了模型參數(shù)量。

        表1 不同方法在三個數(shù)據(jù)集上的比較Tab.1 Comparison of different methods on three datasets

        本文方法在HMDB51 數(shù)據(jù)集上同樣也優(yōu)于經(jīng)典的雙流網(wǎng)絡和三維網(wǎng)絡和最近的2D 網(wǎng)絡,達到73.1%的識別率。與前兩個數(shù)據(jù)集不同,Something-Something-V1 是一個時序性很強的數(shù)據(jù)集,包含大量帶有方向性的動作,一些對稱動作不能僅僅基于單幀來識別(例如,“從左向右推動某物”與“從右向左推動某物”等)。因此,Something-Something-V1 數(shù)據(jù)集對于模型的時空建模能力要求很高,本文方法在Something-Something-V1 上的準確率為46.6%,相較于沒有時間建模模塊的TSN[8],準確率提高了27.1 個百分點,證明了時間建模的重要性;相較于三維卷積網(wǎng)絡中熱門的I3D(Inflated Three-Dimensional)網(wǎng)絡方法[32],本文方法的準確率提高了5 個百分點;相較于配備了時間移位模塊的TSM(Temporal Shift Module)[7]與ECO(Efficient Convolutional Network)[14]、TRN(Temporal Relation Network)[33]和TANet(Temporal Adaptive Network)[34],準確率也分別提高了1、7、12.2 和0.1 個百分點,證明了本文方法的優(yōu)越性。

        為了從多個角度衡量本文方法,表2 列出了本文方法在Something-Something-V1 數(shù)據(jù)集上的采樣幀數(shù)、參數(shù)量、浮點運算量(GFLOPS(Giga Floating-point Operations Per Second))及準確率與其他方法的比較。

        表2 不同方法在Something-Something-V1數(shù)據(jù)集的采樣幀數(shù)、參數(shù)量、浮點運算量及準確率對比Tab.2 Comparison of sampling frames,parameters,F(xiàn)LOPs and accuracy among different methods on Something-Something-V1 dataset

        從表2 中可以看出,本文方法相較于不具備時間移位模塊的TSN 方法[8]來說,參數(shù)量和浮點運算量有所增加,但識別準確率也大幅度提高,識別精度是TSN 模型的2.4 倍;與I3D網(wǎng)絡[32]相比,本文方法所需采樣幀數(shù)更少,參數(shù)量和浮點運算量也更小,精度更高。與當前先進的二維模型TSM[7]和TANet[34]相比,參數(shù)量和浮點運算量大致相當,但本文方法的識別精度更優(yōu)。總的來說,本文方法在計算精度和計算量上達到了較好的平衡。

        3.3.2 消融實驗

        為了驗證所提方法每個模塊的有效性,本文在Something-Something-V1 數(shù)據(jù)集上進行了消融實驗,探索每個模塊對于行為識別準確率的影響。由于Something-Something-V1 數(shù)據(jù)集包含眾多具有方向性的動作,識別難度較大,對模型的時序建模能力要求很高,因此本文采用此數(shù)據(jù)集進行對比實驗,更能體現(xiàn)模塊的有效性。為了公平地進行比較,所有實驗均采樣8 幀作為網(wǎng)絡的輸入,采用帶有時間移位模塊的ResNet-50作為基礎網(wǎng)絡(Baseline)。如表3 所示,本文比較了每個單獨模塊和所有子模塊組合的性能,與基礎網(wǎng)絡相比,運動信息提取模塊和時空信息提取模塊使得準確率分別提高了0.4 和0.3 個百分點,當兩個模塊組合在一起,準確率得到進一步提高,比基礎網(wǎng)絡提高了1 個百分點,證明本文提出的時空信息提取模塊和運動信息提取模塊能相互補充,使網(wǎng)絡更注意視頻中的時序特征,在僅采樣8幀為輸入的情況下在Something-Something-V1數(shù)據(jù)集上獲得了46.6%的準確率。

        表3 不同模塊對網(wǎng)絡的影響Tab.3 Influence of different modules on network

        3.3.3 混淆矩陣

        混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,圖6 展示了本文方法在UCF101、HMDB51 和Something-Something-V1 數(shù)據(jù)集上評估后的混淆矩陣。由于上述3 個數(shù)據(jù)集動作類別數(shù)目較大,因此以數(shù)字代替類別標簽,如圖6(a)使用數(shù)字0~100 代表UCF101 的101 個視頻行為類別,圖6(b)使用數(shù)字0~50 代表HMDB51 的51 個行為類別,圖6(c)使用數(shù)字0~173 代表Something-Something-V1 的174 個行為類別。矩陣對角線上的值表示該類別視頻樣本被正確分類的比例,因此落在對角線上的預測類別越多,識別性能就越好。

        圖6 本文方法基于UCF101、HMDB51和Something-Something-V1的混淆矩陣Fig.6 Confusion matrices of the proposed method based on UCF101,HMDB51,and Something-Something-V1 dataset

        由圖6(a)可以看出本文方法在UCF101 數(shù)據(jù)集上,幾乎所有類別的視頻都能被正確預測。由于HMDB51數(shù)據(jù)集背景信息復雜,相似行為較多,而Something-Something-V1 數(shù)據(jù)集視頻數(shù)量十分龐大,且視頻中的動作時序性很強,這兩個數(shù)據(jù)集都具有很大的挑戰(zhàn)性,但總的來說本文方法在這兩個數(shù)據(jù)集上也取得了不錯的識別效果,從圖6(b)和圖6(c)可以看出大部分的預測結果都能正確落在混淆矩陣的對角線上。

        4 可視化效果

        圖7 為本文方法在UCF101 數(shù)據(jù)集上使用GradCAM 工具[35]生成的部分可視化結果。為簡單起見,本文采樣8 幀作為網(wǎng)絡的輸入,并在中間幀中生成激活映射。

        圖7 在UCF101數(shù)據(jù)集上的部分可視化結果Fig.7 Some visualization results on UCF101 dataset

        從圖7 可以看到,本文方法的網(wǎng)絡主要關注人的運動或者手部交互動作,如在畫眉這個動作中,網(wǎng)絡重點關注了眉毛與畫眉的手部。與TSN 模型相比,本文方法能夠更精確地關注動作中的與運動位移相關的區(qū)域,而TSN 缺乏對運動相關區(qū)域的精確關注,這依賴于本文方法的網(wǎng)絡模型強大的時間建模能力。

        5 結語

        為了同時提取視頻中的時空和運動信息,本文提出了一種基于視頻時空特征的行為識別方法。首先,在ResNet-50的殘差塊中加入時間移位操作,以促進相鄰幀間的信息交換。然后使用運動信息提取模塊捕獲局部運動特征,使用時空信息模塊提取全局時空特征,并將上述模塊集成到統(tǒng)一的框架中。本文在公開數(shù)據(jù)集上進行了實驗并與其他主流方法進行了比較,結果證明了本文提出的方法在保持低計算成本的同時達到了高精度的識別效果。

        同時本文方法也存在一些不足:本文所提出的創(chuàng)新模塊的泛化性能還有待進一步探索;視頻幀的采樣方案借鑒了TSN 的稀疏采樣策略,可以進行創(chuàng)新。在未來的工作中,將在更多的骨干網(wǎng)絡上進行實驗,驗證所提出的模塊的泛化能力;同時在視頻幀的采樣方面探索更好的方案,以追求更優(yōu)的精度及更少的耗時。

        猜你喜歡
        時空卷積建模
        跨越時空的相遇
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        聯(lián)想等效,拓展建模——以“帶電小球在等效場中做圓周運動”為例
        鏡中的時空穿梭
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        玩一次時空大“穿越”
        基于PSS/E的風電場建模與動態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        不對稱半橋變換器的建模與仿真
        基于傅里葉域卷積表示的目標跟蹤算法
        時空之門
        国产精品无码日韩欧| 日韩 亚洲 制服 欧美 综合| 天堂网www资源在线| 亚洲成a人v欧美综合天堂麻豆| 亚洲中文久久久久无码| 国产又湿又爽又猛的视频| 无码av天天av天天爽| 亚洲午夜无码毛片av久久| 日本免费大片一区二区三区| 亚洲av综合av一区| 中字幕人妻一区二区三区| 美女扒开大腿让男人桶 | 激情综合色五月丁香六月亚洲| 日韩一区二区超清视频| 国产精品午夜福利亚洲综合网 | 国产69精品久久久久久久| 五月天综合在线| 青青草伊人视频在线观看| 亚洲天堂精品成人影院| 精品欧洲av无码一区二区| 久久se精品一区精品二区国产| 精品色老头老太国产精品| 亚洲gay片在线gv网站| 337人体做爰大胆视频| 午夜a福利| 一区二区三区在线日本视频| 久久天天躁夜夜躁狠狠| 香蕉久久人人97超碰caoproen| 色哟哟av网站在线观看| 精品亚洲午夜久久久久| 国产精品丝袜美腿诱惑| 曰韩内射六十七十老熟女影视| 吃奶摸下的激烈视频| 自慰高潮网站在线观看| 亚洲精品在线视频一区二区| 日韩中文字幕免费视频| 精品国产高清一区二区广区| 女同在线视频一区二区| 朝鲜女人大白屁股ass孕交| 18禁免费无码无遮挡网站| 日产精品一区二区在线|