時空壓縮激勵殘差乘法網(wǎng)絡(luò)的視頻動作識別

2019-11-03 07:19:10羅會蘭童康

通信學(xué)報 2019年10期

羅會蘭，童康

（江西理工大學(xué)信息工程學(xué)院，江西贛州 341000）

1 引言

視頻作為信息的主要載體之一，已越來越多地被人們共享。如何理解和分析這些海量涌現(xiàn)的視頻數(shù)據(jù)至關(guān)重要。視頻中的人體動作識別[1-4]一直廣受研究者的青睞，在日常生活安全、視頻信息檢索、公共視頻監(jiān)控、人機(jī)交互等領(lǐng)域都有廣泛的應(yīng)用。當(dāng)前視頻中的人體動作識別研究方法大致可以分為2 類：傳統(tǒng)手動特征提取方法和基于深度學(xué)習(xí)的方法。

傳統(tǒng)手動特征提取方法是將特征的提取與后續(xù)動作識別的訓(xùn)練分成2 個獨立的過程，在獲得動作視頻的特征表示后輸入機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練，實現(xiàn)最終的分類與識別。比較有代表性的早期工作有Bobick 等[5-6]采用運動能量圖像和運動歷史圖像來解釋圖像序列中人的運動。Yilmaz 等[7]提出通過在時間軸上疊加目標(biāo)的輪廓來構(gòu)建時空卷，再根據(jù)時空卷的不同屬性來識別動作。該類方法需要將運動人體從背景中分割出來，所以在復(fù)雜動態(tài)背景情況下效果不好。Wang 等[8]提出了利用時空興趣點（STIP,space time interest point）來描述視頻，STIP特征是利用角點探測器獲得興趣點進(jìn)行跟蹤并提取描述符信息。Klaser 等[9]通過采樣和跟蹤多個尺度上每幀的稠密點來提取稠密軌跡（DT,dense trajectory），并用DT 表示視頻。DT 特征是對視頻進(jìn)行稠密采樣，捕捉運動軌跡，并沿著光流方向提取軌跡的方向梯度直方圖、光流直方圖和運動邊界直方圖這些描述符信息。Wang 等[10]提出了改進(jìn)的稠密軌跡（IDT,improving dense trajectory），對人物進(jìn)行了框定，消除了相機(jī)抖動及背景雜亂的影響。基于IDT特征的動作識別方法獲得的識別準(zhǔn)確率一度達(dá)到世界領(lǐng)先水平。

不同于傳統(tǒng)手動特征提取方法，基于深度學(xué)習(xí)的方法旨在自動從視頻中學(xué)習(xí)到有效特征用于動作識別。為了便于處理視頻，Ji 等[11]提出了三維卷積網(wǎng)絡(luò)，并將其用于識別視頻中的人類動作。在此基礎(chǔ)上，Du 等[12]提出了深度三維卷積神經(jīng)網(wǎng)絡(luò)，該方法直接利用深度三維卷積網(wǎng)絡(luò)中的三維卷積和三維池化對RGB 視頻進(jìn)行處理，并利用大規(guī)模有監(jiān)督視頻數(shù)據(jù)集進(jìn)行訓(xùn)練獲得 C3D（convolutional 3D）模型。后來，Tran 等[13]將三維卷積和殘差網(wǎng)絡(luò)相結(jié)合，并在數(shù)據(jù)集Sports-1M[14]上訓(xùn)練獲得Res3D（residual 3D）模型，它比C3D模型小一半且運行速度更快。為了更好地獲得時間信息和空間信息，Simonyan 等[15]提出了雙流卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行動作識別，分別使用RGB 視頻幀和光流圖片作為輸入進(jìn)行訓(xùn)練，以構(gòu)成空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)，并用這2 個網(wǎng)絡(luò)流的分類得分的平均值作為最終分類結(jié)果。在此基礎(chǔ)上，很多基于雙流卷積神經(jīng)網(wǎng)絡(luò)的方法，包括時間分割網(wǎng)絡(luò)[16]、時空殘差網(wǎng)絡(luò)[17]、動作變換[18]、時空金字塔網(wǎng)絡(luò)[19]等被提出，并且獲得了不錯的識別率。針對雙流卷積神經(jīng)網(wǎng)絡(luò)中時間流和空間流平均融合方法的不足，F(xiàn)eichtenhofer 等[20]提出了在卷積層之后進(jìn)行融合的新方法，實現(xiàn)了從分類器級融合到特征級融合的轉(zhuǎn)變。隨后，F(xiàn)eichtenhofer 等[21]探索了許多連接外觀流和運動流的方法，并提出了乘法交互的跨流殘差連接，這種新的時空乘法網(wǎng)絡(luò)結(jié)構(gòu)在視頻中的人體動作識別上獲得了良好的性能。

有些研究者試圖構(gòu)造更多流的網(wǎng)絡(luò)來盡可能多地獲取到視頻中的動作特征信息。Wang 等[22]提出了全局時空三流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，利用單幀圖像、10 幀光流堆疊以及運動堆疊的差分圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，訓(xùn)練獲得空間流、局部時間流和全局時間流特征。對這些學(xué)習(xí)到的特征先進(jìn)行PCA（principal component analysis）-Whitening 操作，然后進(jìn)行soft-VLAD（soft vector of locally aggregated descriptor）矢量編碼，最后使用支持向量機(jī)分類。Bilen 等[23]提出了四流網(wǎng)絡(luò)結(jié)構(gòu)，分別應(yīng)用排序池化和近似排序池化對RGB 圖像和光流進(jìn)行編碼得到動態(tài)圖像，并將其輸入卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到RGB 動態(tài)圖像流網(wǎng)絡(luò)和動態(tài)光流網(wǎng)絡(luò)，結(jié)合原始RGB 流網(wǎng)絡(luò)和光流網(wǎng)絡(luò)形成四流網(wǎng)絡(luò)結(jié)構(gòu)，最后用四流網(wǎng)絡(luò)輸出得分的均值來預(yù)測動作類，獲得了不錯的識別效果。

本文基于雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，提出了一種用于動作識別的時空壓縮激勵殘差乘法網(wǎng)絡(luò)。受殘差網(wǎng)絡(luò)模型[24]和壓縮激勵（SZ,squeeze and excitation）網(wǎng)絡(luò)模型[25]的啟發(fā)，本文將壓縮激勵塊和殘差網(wǎng)絡(luò)模型結(jié)合的壓縮激勵殘差網(wǎng)絡(luò)模型用于空間流和時間流。受文獻(xiàn)[21]中的時空乘法交互以及恒等映射濾波器的啟發(fā)，本文對空間壓縮激勵殘差網(wǎng)絡(luò)模型和時間壓縮激勵殘差網(wǎng)絡(luò)模型采用特征相乘融合，以更好地學(xué)習(xí)時空特征；同時，將恒等映射核作為時間濾波器注入網(wǎng)絡(luò)模型中，以此來學(xué)習(xí)長期時間依賴關(guān)系。鑒于單個模型獲得性能的局限性以及受集成學(xué)習(xí)思想的啟發(fā)，本文使用3 種不同的策略生成多個模型，并對它們進(jìn)行均值及加權(quán)平均集成方法來獲得最終的識別結(jié)果。

本文的貢獻(xiàn)介紹如下。1)將圖像識別領(lǐng)域的殘差網(wǎng)絡(luò)和壓縮激勵網(wǎng)絡(luò)結(jié)合的壓縮激勵殘差網(wǎng)絡(luò)遷移到視頻動作識別中；2)以RGB 和光流圖片為輸入，訓(xùn)練獲得雙流卷積神經(jīng)網(wǎng)絡(luò)，同時注入時間濾波器對空間流和時間流進(jìn)行特征級別的乘法融合；3)采用集成學(xué)習(xí)思想，將不同策略獲得的多個模型進(jìn)行直接平均和加權(quán)平均集成；4)進(jìn)行了一系列比較分析實驗，結(jié)果表明本文通過特征級別乘法融合以及多模型集成獲得了很好的識別效果。

2 技術(shù)方法

本文動作識別的整體框架結(jié)構(gòu)如圖1 所示。首先，將壓縮激勵塊和殘差網(wǎng)絡(luò)結(jié)合的壓縮激勵殘差網(wǎng)絡(luò)模型作為網(wǎng)絡(luò)的基礎(chǔ)模型，同時注入時間濾波。然后，用RGB 視頻幀和光流數(shù)據(jù)分別進(jìn)行訓(xùn)練，獲得空間流網(wǎng)絡(luò)模型和時間流網(wǎng)絡(luò)模型；在此基礎(chǔ)上，將空間流網(wǎng)絡(luò)訓(xùn)練獲得的空間壓縮激勵殘差網(wǎng)絡(luò)模型與時間流網(wǎng)絡(luò)訓(xùn)練獲得的時間壓縮激勵殘差網(wǎng)絡(luò)模型進(jìn)行乘法融合并再次訓(xùn)練。最后，利用不同策略訓(xùn)練獲得多個時空壓縮激勵殘差乘法網(wǎng)絡(luò)模型，通過直接平均和加權(quán)平均對這些模型進(jìn)行集成以獲得最終的識別結(jié)果。

2.1 壓縮激勵塊

壓縮激勵塊的原理如圖2 所示。任何一個卷積層的輸出都可以通過壓縮激勵塊實現(xiàn)跨通道全局信息依賴關(guān)系的學(xué)習(xí)，每個通道得到一個尺度系數(shù)。由圖2 可知，對于一個輸出維度為W×H×C的卷積層，首先通過全局平均池化獲得維度為1 × 1×C的輸出，得到每個特征通道的全局信息；然后通過2 個全連接層來學(xué)習(xí)不同特征通道間的依賴關(guān)系，2個全連接層后面分別采用了Re LU 和Sigmoid 激活函數(shù)對全連接層的輸出激活；最后將壓縮激勵塊得到的輸出1 × 1×C和最初卷積層的輸出W×H×C相乘，即每個特征通道乘以一個學(xué)習(xí)得到的尺度系數(shù)。一個輸出維度為W×H×C的卷積層通過壓縮激勵塊操作之后，特征維度沒有發(fā)生改變，但充分學(xué)習(xí)了C個通道間的全局依賴關(guān)系。

2.2 壓縮激勵殘差網(wǎng)絡(luò)

殘差網(wǎng)絡(luò)對學(xué)習(xí)深度表征十分有效，而壓縮激勵（SE,squeeze-and-excitation）塊具有學(xué)習(xí)跨通道全局依賴的能力，它可以嵌入任何的卷積層后，所以本文將壓縮激勵塊集成到殘差網(wǎng)絡(luò)中構(gòu)建壓縮激勵殘差網(wǎng)絡(luò)。圖3 為本文構(gòu)建的一個50 層的壓縮激勵殘差網(wǎng)絡(luò)結(jié)構(gòu)，圖中省略了跳躍連接。

2.3 恒等特征的時間濾波

一維卷積可以有效捕捉時間依賴性。為了提供更大間隔的時間支持，本文使用一維時間卷積，它結(jié)合了初始化為恒等映射的特征空間變換，可以將時間濾波加入殘差層中，從而產(chǎn)生局部影響，也可以加入跳躍連接層，產(chǎn)生全局影響。

第l層后的時間濾波操作如式(1)所示，跨越Cl個特征通道實現(xiàn)時間濾波。

圖1 動作識別整體框架結(jié)構(gòu)

圖2 壓縮激勵塊的原理

圖3 壓縮激勵殘差網(wǎng)絡(luò)結(jié)構(gòu)

其中，xl+1和xl分別表示第l+1層和第l層；*為卷積操作；偏置bl初始化為0；是跨越時間為t=1,…,T的時間濾波器權(quán)值，它由特征通道間堆疊的恒等映射來初始化。時間濾波器權(quán)值計算式如式(2)所示。

其中，?表示張量外積，f表示一個長度為T的一維時間濾波器。

在時間濾波的基礎(chǔ)上，同時引入全局時間池化，放置于最后一個卷積層，用于捕獲全局時間信息，在時間范圍1≤t≤T內(nèi)，給定x(i,j,t,c)，全局最大時間池化計算式如式(3)所示。

2.4 時間流和空間流的乘法融合

為了更好地學(xué)習(xí)時空流網(wǎng)絡(luò)特征，本文采用特征級別的融合方法，即對空間壓縮激勵殘差網(wǎng)絡(luò)和時間壓縮激勵殘差網(wǎng)絡(luò)進(jìn)行乘法交互。2 個壓縮激勵殘差塊雙向連接（時間流到空間流、空間流到時間流）乘法融合如圖4 所示。將時間流壓縮激勵殘差塊的輸出與空間流對應(yīng)的壓縮激勵殘差塊輸出進(jìn)行元素級別的乘法，這樣通過空間流殘差單元的信息就被時間信號所調(diào)整。類似地，將空間流壓縮激勵殘差塊的輸出與時間流的壓縮激勵殘差塊的輸出進(jìn)行乘法融合，時間流的信息被空間信號所調(diào)整。通過時間流與空間流的乘法融合，學(xué)習(xí)到特征級別的時空信息，有助于區(qū)分外觀上相似的動作。

本文提出的注入時間濾波器的壓縮激勵殘差乘法網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。其中，⊙表示乘法融合交互點，inject 表示注入時間濾波器。在圖5 所示的結(jié)構(gòu)中，空間流與時間流的乘法融合交互分別在conv2_x、conv3_x、conv4_x、conv5_x中的第一個壓縮激勵殘差塊后進(jìn)行，inject 除了在conv5_x的最后一個壓縮激勵殘差塊后進(jìn)行，還分別在conv2_x、conv3_x、conv4_x、conv5_x的第二個壓縮激勵殘差塊中的3 ×3 卷積后進(jìn)行。

圖4 乘法融合示意

2.5 多模型集成

由于空間流與時間流的乘法融合方式（空間流到時間流、時間流到空間流）、次數(shù)和位置可以變化，以及受集成學(xué)習(xí)思想的啟發(fā)，對本文所提的注入時間濾波器的壓縮激勵殘差乘法網(wǎng)絡(luò)架構(gòu)，采用不同的乘法融合策略，在不同的訓(xùn)練數(shù)據(jù)劃分子集上學(xué)習(xí)，從而可以獲得多個動作分類模型，并在測試階段對這些分類模型結(jié)果進(jìn)行集成以進(jìn)一步提升識別效果。

圖5 注入時間濾波器的壓縮激勵殘差乘法網(wǎng)絡(luò)結(jié)構(gòu)

針對不同策略生成的多個模型，本文采用直接平均法和加權(quán)平均法進(jìn)行集成。直接平均法就是對不同模型產(chǎn)生的類別置信度求均值得到最終的測試結(jié)果。而加權(quán)平均法則是在直接平均方法基礎(chǔ)上，通過加入權(quán)重來調(diào)節(jié)不同模型輸出間的重要程度。假設(shè)共有N個模型待集成，對測試樣本D，其測試結(jié)果為N個M維（M為數(shù)據(jù)的標(biāo)記空間大?。┫蛄縬1,q2,…,qN。直接平均法和加權(quán)平均法對應(yīng)的計算式分別如式(4)和式(5)所示。

其中，wi對應(yīng)第i個模型的權(quán)重，wi≥0且

3 實驗結(jié)果

本文實驗采用Matlab 2017a 的仿真軟件以及MatConvNet 的深度學(xué)習(xí)工具包。實驗環(huán)境配置如下：操作系統(tǒng)為64 位的Windows10，CPU 為Intel(R)Xeon(R)CPU E5-2690 v4 @ 2.60 GHz；內(nèi)存為512 GB，顯卡為16 GB 的NVIDIA Tesla P100-PCIE。

3.1 實驗數(shù)據(jù)集及實驗設(shè)置

UCF101[26]數(shù)據(jù)集是最流行的動作識別數(shù)據(jù)集之一，包含13 320 個來自101 個動作類別的視頻片斷。其中，每一個類別至少有100 個視頻片段，每一個片段持續(xù)3～10 s。該數(shù)據(jù)集的101 個類別可以分為五大類，包括體育運動、樂器演奏、人與人之間的交互、身體運動、人與對象的交互。由于該數(shù)據(jù)集來源于現(xiàn)實環(huán)境，包含雜亂背景、相機(jī)抖動、遮擋、不同光照條件等各種因素的影響，故該數(shù)據(jù)集具有一定的挑戰(zhàn)性。

HMDB51[27]數(shù)據(jù)集是一個大而真實的視頻集合，包含51 個動作類別，涵蓋了6 766 個視頻片斷。這些視頻片斷主要來源于電影，只有一小部分來自公共數(shù)據(jù)庫，并且每一個片斷都包含一個人類活動。該數(shù)據(jù)集的行為類別包括普通面部動作、操縱對象面部動作、一般身體運動、與對象交互運動、與人交互運動共5 種類型。HMDB51 數(shù)據(jù)集來源不同，并伴有遮擋、相機(jī)移動、復(fù)雜背景、光照條件變化等諸多因素的影響，相較于UCF101 數(shù)據(jù)集更具挑戰(zhàn)性。

本文采用交叉驗證方法進(jìn)行訓(xùn)練，UCF101數(shù)據(jù)集的訓(xùn)練集的3 種不同劃分分別為split1、split2和split3。每種數(shù)據(jù)劃分將全部訓(xùn)練視頻數(shù)據(jù)按7:3 的比例分為訓(xùn)練集和驗證集。具體步驟如下。每個動作類共有25 組訓(xùn)練視頻，其中split1將前面7 組視頻作為驗證集，剩下的18 組視頻作為訓(xùn)練集；split2將第8 組到第14 組視頻作為驗證集，其余的作為訓(xùn)練集；split3則將第15 組到第21 組視頻作為驗證集，剩下的視頻作為訓(xùn)練集。HMDB51 數(shù)據(jù)集的3 種不同劃分和UCF101數(shù)據(jù)集類似。除了從視頻中提取RGB 視頻幀外，還預(yù)先計算光流并以JPEG 形式存儲。本文采用文獻(xiàn)[21]中使用的UCF101、HMDB51 的視頻幀和光流數(shù)據(jù)。

本文使用50 層的壓縮激勵殘差網(wǎng)絡(luò)作為基礎(chǔ)模型，并將其分別用于空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)?？臻g流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)的訓(xùn)練是分開進(jìn)行的，并且都使用動量為0.9 的隨機(jī)梯度下降。時間流網(wǎng)絡(luò)使用10 幀堆疊的光流幀作為輸入，通過對光流的中間和邊緣的隨機(jī)裁剪，將圖片大小調(diào)整為224 像素×224 像素。時間流網(wǎng)絡(luò)訓(xùn)練的批量處理大小為128 張圖片，初始學(xué)習(xí)率為0.01，每次減小到原來的，直至減小到初始值的?？臻g流網(wǎng)絡(luò)以大小為224 像素×224 像素的RGB 圖片作為輸入，批量處理大小為256 張圖片，學(xué)習(xí)率分別為0.01、0.001、0.000 1。

3.2 實驗及分析

3.2.1單流網(wǎng)絡(luò)性能分析

本節(jié)評估訓(xùn)練獲得的空間壓縮激勵殘差網(wǎng)絡(luò)模型和時間壓縮激勵殘差網(wǎng)絡(luò)模型在UCF101 和HMDB51 數(shù)據(jù)集上的識別效果，以及它們在不同劃分下訓(xùn)練后獲得測試性能的差異。表1 給出了空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)在UCF101 和HMDB51 數(shù)據(jù)集上的識別準(zhǔn)確率。從表1 空間流和時間流網(wǎng)絡(luò)的對比可以看出，時間流網(wǎng)絡(luò)在HMDB51 和UCF101數(shù)據(jù)集上的識別準(zhǔn)確率都要高于空間流網(wǎng)絡(luò)。在UCF101 數(shù)據(jù)集上，時間流網(wǎng)絡(luò)識別準(zhǔn)確率比空間流網(wǎng)絡(luò)識別準(zhǔn)確率高2.8%；在HMDB51 數(shù)據(jù)集上，時間流網(wǎng)絡(luò)比空間流網(wǎng)絡(luò)高 10.9%。數(shù)據(jù)集HMDB51 受相機(jī)抖動、復(fù)雜背景等因素的影響要大于數(shù)據(jù)集UCF101，并且數(shù)據(jù)集HMDB51 上同一動作具有大的類內(nèi)散度以及不同動作具有小的類間散度的程度要大于數(shù)據(jù)集UCF101。時間流網(wǎng)絡(luò)能夠更好地對這兩者的影響進(jìn)行補(bǔ)償，這可能就是時間流網(wǎng)絡(luò)在HMDB51 數(shù)據(jù)集上較空間流網(wǎng)絡(luò)提升比在UCF101 數(shù)據(jù)集上高的原因。此外，HMDB51和UCF101 數(shù)據(jù)集在不同劃分下訓(xùn)練后獲得的測試識別準(zhǔn)確率也有差異，在HMDB51 數(shù)據(jù)集上，時間流網(wǎng)絡(luò)和空間流網(wǎng)絡(luò)均在split2劃分下訓(xùn)練后取得最高的測試識別準(zhǔn)確率；而在UCF101 數(shù)據(jù)集上，空間流網(wǎng)絡(luò)在split1劃分下訓(xùn)練后的測試識別準(zhǔn)確率較高，時間流網(wǎng)絡(luò)卻在split3劃分下訓(xùn)練后的測試識別準(zhǔn)確率最高。這也說明訓(xùn)練數(shù)據(jù)對識別性能有較大影響。

表1 HMDB51 和UCF101 數(shù)據(jù)集上識別準(zhǔn)確率

3.2.2空間流與時間流乘法融合方式、次數(shù)及位置對識別性能的影響分析

本節(jié)實驗分析了使用相同乘法融合方式情況下，即采用從時間流到空間流的乘法融合方式，融合次數(shù)和位置對識別性能的影響，實驗結(jié)果如表2所示，結(jié)果報告了在HMDB51 數(shù)據(jù)集split1劃分下訓(xùn)練后獲得的測試識別準(zhǔn)確率。其中“conv2_1_relu和conv2_1”表示從時間流的conv2_1 層連接到空間流的conv2_1_relu 層進(jìn)行乘法融合，其他依次類推。

從表 2 可以看出，對于單次融合來說，“conv5_1_relu 和conv5_1”融合獲得了67.1%的識別準(zhǔn)確率，它比“conv2_1_relu 和 conv2_1”“conv3_1_relu 和 conv3_1”“conv4_1_relu 和conv4_1”融合分別高了1.2%、1.0%和0.6%。由此可見，從時間流 conv5_1 層連接到空間流conv5_1_relu 層融合效果更好，這可能是由于更高的卷積層學(xué)到的特征更完整、更具有判別性。

表2 HMDB51 數(shù)據(jù)集上從時間流到空間流在不同次數(shù)和位置下融合的識別準(zhǔn)確率

從表2 還可以看出，在“單次融合、兩次融合、三次融合和四次融合”這些不同次數(shù)的融合中，“ conv4_1_relu 和 conv4_1&conv5_1_relu 和conv5_1 ”兩次融合和“ conv3_1_relu 和conv3_1&conv4_1_relu 和conv4_1&conv5_1_relu 和conv5_1”三次融合分別取得了最高識別準(zhǔn)確率和次高識別準(zhǔn)確率，識別率分別為69.7%和69.1%。而“conv2_1_relu 和 conv2_1&conv3_1_relu 和conv3_1&conv4_1_relu 和conv4_1&conv5_1_relu 和conv5_1”四次融合的識別準(zhǔn)確率比三次融合和兩次融合分別低了1.5%和2.1%。造成這個差異可能的一個原因是“conv2_1_relu 和conv2_1”底層卷積層融合學(xué)到的更多是顏色、邊緣等淺層特征，并沒有學(xué)到高層具有的判別性語義特征，將底層卷積層和其他相對高層的卷積層融合一定程度上降低了識別的準(zhǔn)確率。

同樣地，為了探究不同融合方式對識別性能的具體影響，進(jìn)一步實驗分析了在不同融合次數(shù)及位置情況下，將融合方式設(shè)置成從空間流到時間流的乘法融合，在HMDB51 訓(xùn)練集第一劃分下訓(xùn)練，在HMDB51 測試集上的識別準(zhǔn)確率，如表3 所示。從表3 的實驗結(jié)果可以看出，采用“時間流到空間流”比采用“空間流到時間流”融合的效果更優(yōu)。在單次融合中，“conv2_1_relu 和conv2_1”采用“時間流到空間流”融合識別準(zhǔn)確率比采用“空間流到時間流”高1.3%。而“conv5_1_relu 和conv5_1”采用“時間流到空間流”比采用“空間流到時間流”高2.1%。在兩次融合、三次融合和四次融合中，采用“時間流到空間流”融合的識別準(zhǔn)確率比采用“空間流到時間流”融合的識別準(zhǔn)確率分別高7.6%、12.0%和15.6%。

從表3 還可以看出，在采用“空間流到時間流”的融合方式時，“conv5_1_relu 和conv5_1”單次融合取得了最好的識別效果，識別準(zhǔn)確率達(dá)到65.0%。而隨著融合次數(shù)的增加，兩次融合、三次融合和四次融合在采用“空間流到時間流”融合時的識別準(zhǔn)確率卻呈逐漸下降趨勢，識別率分別為62.1%、57.1%和52.0%。造成識別率下降的原因可能是：相較于空間流網(wǎng)絡(luò)來說，時間流網(wǎng)絡(luò)學(xué)習(xí)能力更強(qiáng)，學(xué)到的特征更具判別性；而將學(xué)習(xí)特征能力相對不太強(qiáng)的空間流網(wǎng)絡(luò)特征注入時間流網(wǎng)絡(luò)融合，一定程度上會干擾原本時間流網(wǎng)絡(luò)對特征的學(xué)習(xí)，隨著融合次數(shù)的增多，將可能帶來負(fù)面影響，從而造成識別率逐漸降低。

比較表1 和表3 的結(jié)果也可以看出，采用時間流到空間流的融合方式，相較于單個空間流和時間流網(wǎng)絡(luò)，性能都有了較大的提升。

綜合以上對比分析，可以得到如下結(jié)論。

1)單次融合中，在更高層位置融合所獲得的識別效果更優(yōu)。

2)融合次數(shù)為“conv4_1_relu 和 conv4_1&conv5_1_relu 和conv5_1”的兩次融合所獲得的識別效果更優(yōu)。

表3 HMDB51 數(shù)據(jù)集上不同融合方式下的識別準(zhǔn)確率

3)采用時間流到空間流的乘法融合方式所獲得的識別效果更優(yōu)。

3.2.3不同策略下產(chǎn)生的多模型集成對識別性能的影響分析

為了分析生成多個模型的不同策略對集成性能的影響，本節(jié)實驗比較了3 種不同的策略。

策略1固定融合方式為“時間流到空間流”，分別使用如表2 所示的“三次融合”和“兩次融合”2 種融合模式，分別在數(shù)據(jù)集HMDB51 的3個劃分上訓(xùn)練獲得6 個模型進(jìn)行集成。

策略2固定使用如表2 所示的“兩次融合”，分別使用“時間流到空間流”和“空間流到時間流”2 種融合方式，在數(shù)據(jù)集HMDB51 的3 個劃分上訓(xùn)練獲得6 個模型進(jìn)行集成。

策略3受“輪數(shù)集成”[28]的啟發(fā)，固定融合方式為“時間流到空間流”以及使用“兩次融合”，在數(shù)據(jù)集HMDB51 的3 個劃分上訓(xùn)練，分別取每個劃分上訓(xùn)練得到的最后2 輪模型共獲得6 個模型進(jìn)行集成。

最后，分別對策略1、策略2 和策略3 生成的6 個模型結(jié)果進(jìn)行直接平均法和加權(quán)平均法集成以得到最終的識別結(jié)果。對于加權(quán)平均法中權(quán)值的設(shè)置，根據(jù)不同模型在驗證集上各自單獨的準(zhǔn)確率而定，高準(zhǔn)確率的模型權(quán)值較高，低準(zhǔn)確率模型的權(quán)值較小。對于策略1 訓(xùn)練獲得的6 個模型，先將其按驗證集上的準(zhǔn)確率進(jìn)行排序，然后將準(zhǔn)確率第一和第二的分為一組，準(zhǔn)確率第三和第四的分為一組，準(zhǔn)確率第五和第六的分為一組。這三組分別稱為高準(zhǔn)確率組、次高準(zhǔn)確率組和低準(zhǔn)確率組，權(quán)值分別為0.30、0.15 和0.05，策略2 和策略3 進(jìn)行相同操作。

表4 為不同策略下產(chǎn)生的多模型采用直接平均和加權(quán)平均集成后，在HMDB51 數(shù)據(jù)集上的識別準(zhǔn)確率。從表4 可以看出，采用加權(quán)平均法比采用直接平均法在策略1、策略2 和策略3 上分別高0.7%、2.0%和0.5%。由此可見，采用加權(quán)平均法比采用直接平均法更有利于識別準(zhǔn)確率的提升，特別地，策略3 生成的6 個模型進(jìn)行加權(quán)平均集成后在HMDB51 數(shù)據(jù)集上獲得了69.3%的識別準(zhǔn)確率。

表4 不同策略下產(chǎn)生的多模型集成在HMDB51 數(shù)據(jù)集上的識別準(zhǔn)確率

3.2.4和當(dāng)前其他動作識別算法的性能比較

表5 為本文方法與當(dāng)前其他動作識別算法在UCF101 和HMDB51 數(shù)據(jù)集上識別準(zhǔn)確率的對比。表5 中給出的本文方法的結(jié)果，是使用生成多個模型的策略3 以及加權(quán)平均的集成方法獲得的結(jié)果。本文方法在HMDB51 和UCF101 數(shù)據(jù)集上分別獲得了69.3%和92.4%的識別準(zhǔn)確率。從表5 可以看出，雖然在UCF101 數(shù)據(jù)集上本文方法較時空乘法網(wǎng)絡(luò)、時空金字塔網(wǎng)絡(luò)識別率要分別低1.8%和0.8%，但是相較于改進(jìn)稠密軌跡方法、三維殘差卷積網(wǎng)絡(luò)、雙流卷積神經(jīng)網(wǎng)絡(luò)及三流卷積神經(jīng)網(wǎng)絡(luò)，本文方法分別獲得了6.0%、6.6%、4.4%和0.3%的準(zhǔn)確率的提升。相較于UCF101 數(shù)據(jù)集，本文方法在HMDB51 數(shù)據(jù)集上獲得了更高程度的性能提升，特別地，相比較于識別率較低的三維殘差卷積網(wǎng)絡(luò)和雙流卷積神經(jīng)網(wǎng)絡(luò)，本文方法分別獲得了14.4%和9.9%的準(zhǔn)確率提升；相較于識別率較高的時空乘法網(wǎng)絡(luò)和三流卷積神經(jīng)網(wǎng)絡(luò)，本文方法也分別獲得了0.4%和2.1%的準(zhǔn)確率提升。時空乘法網(wǎng)絡(luò)中的外觀流（即空間流）和運動流（即時間流）分別使用50 層和152 層的殘差網(wǎng)絡(luò)，而本文方法中的空間流和時間流均使用50 層的壓縮激勵殘差網(wǎng)絡(luò)。對于單個空間流網(wǎng)絡(luò)來說，時空乘法網(wǎng)絡(luò)對于224 像素×224像素的輸入圖像單向傳播處理需要大約3.86 GFLO/s（GFLO/s 表示每秒10 億次浮點運算）。相較于時空乘法網(wǎng)絡(luò)，本文方法由于利用了壓縮激勵操作，故此需要大約3.87 GFLO/s，增加了大約0.26%。對于256 個圖像的訓(xùn)練批量，時空乘法網(wǎng)絡(luò)需要380 ms，本文方法需要大約418 ms。雖然本文方法中的空間流網(wǎng)絡(luò)總參數(shù)量較時空乘法網(wǎng)絡(luò)中的外觀流網(wǎng)絡(luò)需要的2.5 ×108的參數(shù)量增加了約10%，但是對于單個時間流網(wǎng)絡(luò)來說，時空乘法網(wǎng)絡(luò)運動流使用的152 層殘差網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是本文時間流網(wǎng)絡(luò)層數(shù)的3 倍，而且它的參數(shù)量也遠(yuǎn)多于本文時間流網(wǎng)絡(luò)的參數(shù)量。因此，綜合考慮空間流和時間流這兩方面，本文方法在總的參數(shù)量上少于時空乘法網(wǎng)絡(luò)，并且在HMDB51 數(shù)據(jù)庫上本文方法獲得了更好的識別效果，在UCF101 數(shù)據(jù)庫上也達(dá)到了和時空乘法網(wǎng)絡(luò)相媲美的效果。最近提出的語義圖像網(wǎng)絡(luò)方法[29]將扭曲光流和語義光流輸入狀態(tài)細(xì)化的長短時記憶網(wǎng)絡(luò)訓(xùn)練，通過對這2 種網(wǎng)絡(luò)的結(jié)果求均值得到最終預(yù)測結(jié)果。本文方法相較于語義圖像網(wǎng)絡(luò)方法在UCF101 和HMDB51 數(shù)據(jù)集上準(zhǔn)確率分別提升了0.3%和3.5%。綜合以上分析可知，本文方法在視頻動作識別上具有一定的先進(jìn)性和優(yōu)越性。

表5 HMDB51 和UCF101 數(shù)據(jù)集上平均識別準(zhǔn)確率

4 結(jié)束語

本文提出了一種時空壓縮激勵殘差乘法網(wǎng)絡(luò)的動作識別方法。將圖像領(lǐng)域的壓縮激勵網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)相結(jié)合得到的壓縮激勵殘差網(wǎng)絡(luò)，遷移到時空網(wǎng)絡(luò)的雙流動作識別中。將恒等映射核作為時間濾波器注入到網(wǎng)絡(luò)模型中，以學(xué)習(xí)長期時間依賴關(guān)系。并對空間壓縮激勵殘差網(wǎng)絡(luò)和時間壓縮激勵殘差網(wǎng)絡(luò)進(jìn)行特征相乘融合，以便更好地學(xué)習(xí)視頻時空特征。此外，通過3 種不同的策略生成多個模型，并在測試階段對這些模型結(jié)果進(jìn)行均值以及加權(quán)平均法集成以得到最終識別結(jié)果。在HMDB51 和UCF101 數(shù)據(jù)集上的識別準(zhǔn)確率實驗表明，本文方法對動作識別具有良好的性能。本文網(wǎng)絡(luò)結(jié)構(gòu)采用經(jīng)典的以RGB 圖像和光流為輸入的雙流網(wǎng)絡(luò)結(jié)構(gòu)，下一步的研究工作是探索新的輸入方式，以利用多流網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行動作識別。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放