王萍 龐文浩
摘 要:針對原始空時雙通道卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型對長時段復(fù)雜視頻中行為識別率低的問題,提出了一種基于視頻分段的空時雙通道卷積神經(jīng)網(wǎng)絡(luò)的行為識別方法。首先將視頻分成多個等長不重疊的分段,對每個分段隨機采樣得到代表視頻靜態(tài)特征的幀圖像和代表運動特征的堆疊光流圖像;然后將這兩種圖像分別輸入到空域和時域卷積神經(jīng)網(wǎng)絡(luò)進行特征提取,再在兩個通道分別融合各視頻分段特征得到空域和時域的類別預(yù)測特征;最后集成雙通道的預(yù)測特征得到視頻行為識別結(jié)果。通過實驗討論了多種數(shù)據(jù)增強方法和遷移學(xué)習(xí)方案以解決訓(xùn)練樣本不足導(dǎo)致的過擬合問題,分析了不同分段數(shù)、預(yù)訓(xùn)練網(wǎng)絡(luò)、分段特征融合方案和雙通道集成策略對行為識別性能的影響。實驗結(jié)果顯示所提模型在UCF101數(shù)據(jù)集上的行為識別準確率達到91.80%,比原始的雙通道模型提高了3.8個百分點;同時在HMDB51數(shù)據(jù)集上的行為識別準確率也比原模型提高,達到61.39%,這表明所提模型能夠更好地學(xué)習(xí)和表達長時段復(fù)雜視頻中人體行為特征。
關(guān)鍵詞:雙通道卷積神經(jīng)網(wǎng)絡(luò);行為識別;視頻分段;遷移學(xué)習(xí);特征融合
Abstract: Aiming at the issue that original spatial-temporal two-stream Convolutional Neural Network (CNN) model has low accuracy for action recognition in long and complex videos, a two-stream CNN for action recognition based on video segmentation was proposed. Firstly, a video was split into multiple non-overlapping segments with same length. For each segment, one frame image was sampled randomly to represent its static features and stacked optical flow images were calculated to represent its motion features. Secondly, these two patterns of images were input into the spatial CNN and temporal CNN for feature extraction, respectively. And the classification prediction features of spatial and temporal domains for action recognition were obtained by merging all segment features in two streams respectively. Finally, the two-steam predictive features were integrated to obtain the action recognition results for the video. In series of experiments, some data augmentation techniques and transfer learning methods were discussed to solve the problem of over-fitting caused by the lack of training samples. The effects of various factors including the number of segments, network architectures, feature fusion schemes based on segmentation and two-stream integration strategy on the performance of action recognition were analyzed. The experimental results show that the accuracy of action recognition of the proposed model on dataset UCF101 reaches 91.80%, which is 3.8% higher than that of original two-stream CNN model; and the accuracy of the proposed model on dataset HMDB51 is improved to 61.39%, which is higher than that of the original model. It shows that the proposed model can better learn and express the action features in long and complex videos.
Key words: two-stream Convolutional Neural Network (CNN); action recognition; video segmentation; transfer learning; feature fusion
0 引言
人類從外界獲取信息時,視覺信息占各種器官獲取信息總量的80%[1],這些信息對于了解事物本質(zhì)具有重要的意義。隨著移動互聯(lián)網(wǎng)和電子技術(shù)的飛速發(fā)展,手機等視頻采集設(shè)備大量普及,互聯(lián)網(wǎng)短視頻應(yīng)用也如雨后春筍般出現(xiàn),極大降低了視頻拍攝和分享的成本,這使得網(wǎng)絡(luò)視頻資源爆炸式增長。這些資源豐富了人們的生活,但由于其數(shù)量龐大、種類繁多、內(nèi)容龐雜,如何對這些視頻數(shù)據(jù)進行智能分析、理解、識別成為急需面對的挑戰(zhàn)。
人體行為識別是計算機視覺[2]領(lǐng)域一個重要的研究方向,其主要內(nèi)容是利用計算機模擬人腦分析和識別視頻中的人體行為,通常包括人的個體動作、人與人之間以及人與外界環(huán)境之間的交互行為??諘r雙通道神經(jīng)網(wǎng)絡(luò)可以從空域和時域兩個角度表征視頻的特征,相比其他神經(jīng)網(wǎng)絡(luò)模型在人體行為識別上更有優(yōu)勢。本文基于視頻分段利用空時雙通道神經(jīng)網(wǎng)絡(luò)提取空域的幀圖像特征和時域的運動特征,并將各分段的空域和時域的識別結(jié)果進行融合,最后得到整段視頻的行為識別分類。
1 相關(guān)工作
在傳統(tǒng)的基于人工設(shè)計特征的行為識別方法中,早期的基于人體幾何或者運動信息的特征僅適用于簡單場景下的人體簡單動作識別,而在背景相對復(fù)雜的情況下基于時空興趣點的方法效果較好。這些方法首先獲取視頻中的時空興趣點或稠密采樣點,并根據(jù)這些點周圍的時空塊計算局部特征,再利用經(jīng)典的特征袋(Bag of Features, BoF)、VLAD(Vector of Locally Aggregated Descriptors)或FV(Fisher Vector)等特征編碼方法最終形成描述視頻動作的特征向量。目前在基于局部特征的方法中,基于稠密軌跡(Dense Trajectory, DT)的行為識別方法在很多公開的真實場景行為數(shù)據(jù)庫中得到了較好的識別結(jié)果,它們通過跟蹤視頻每一幀內(nèi)的稠密采樣點獲取稠密軌跡,再計算軌跡特征描述視頻中行為。如:Cai等[3]用多視角超向量(Multi-View Super Vector, MVSV)作為全局描述符來編碼稠密軌跡特征;Wang等[4]使用FV編碼改進的稠密軌跡(improved Dense Trajectory, iDT)特征;Peng等[5]使用視覺詞袋模型(Bag of Visual Words, BoVW)編碼空時興趣點或改進的稠密軌跡特征;Wang等[6]基于稠密軌跡特征提出了一種視頻的多級表示模型MoFAP(Motion Features, Atoms, and Phrases),可以分級地表示視覺信息。稠密軌跡能夠以更廣的覆蓋面和更細的顆粒度提取行為特征,但通常存在大量軌跡冗余而限制了識別效果。
隨著深度學(xué)習(xí)尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在語音和圖像識別等領(lǐng)域的成功運用,近年來出現(xiàn)了多種基于深度學(xué)習(xí)框架的人體行為識別方法,當(dāng)訓(xùn)練樣本足夠多時可通過深度網(wǎng)絡(luò)學(xué)習(xí)到具有一定語義的特征,更適合于目標(biāo)和行為的識別。Karpathy等[7]訓(xùn)練深度網(wǎng)絡(luò)DeepNet,利用慢融合模型對視頻中不同圖像幀特征進行融合,然而該模型無法提取視頻的運動信息,因此效果并不理想。Tran等[8]為了利用視頻中的時域特性,將二維卷積推廣到三維卷積,使用3D-CNN(3-Dimensional Convolutional Neural Network)深度網(wǎng)絡(luò)學(xué)習(xí)空時特征,該網(wǎng)絡(luò)在避免處理光流的情況下獲得了視頻的運動特征,但時域信息提取能力有限,對長時段復(fù)雜的人體行為識別效果提升并不明顯。Varol等[9]在定長時間的視頻塊內(nèi)使用三維空時卷積特征,進一步提升了行為識別效果。
Simonyan等[10]首先提出了使用兩個數(shù)據(jù)流(Two-stream)的卷積神經(jīng)網(wǎng)絡(luò)進行視頻行為識別,空域網(wǎng)絡(luò)的輸入數(shù)據(jù)流是靜態(tài)幀圖像,時域網(wǎng)絡(luò)的輸入數(shù)據(jù)流是表征幀間運動的光流,每個數(shù)據(jù)流都使用深度卷積神經(jīng)網(wǎng)絡(luò)進行特征提取和動作預(yù)測,最后融合兩個數(shù)據(jù)流的結(jié)果進行最終動作的識別。該模型取得了與改進稠密軌跡法相似的識別性能。Ng等[11]將長短期記憶(Long-Short Term Memory, LSTM)網(wǎng)絡(luò)加入到原始雙通道模型中,用來加強時域信息的聯(lián)系。最初雙通道模型中使用的卷積網(wǎng)絡(luò)層數(shù)較淺,Wang等[12]提出采用在圖像分類任務(wù)中性能更好的預(yù)訓(xùn)練深度網(wǎng)絡(luò)模型如VGGNet、GoogLeNet,增強了對視頻運動特征的學(xué)習(xí)和建模能力。將手工特征和深度學(xué)習(xí)相結(jié)合也是一種研究趨勢,Wang等[13]利用雙通道神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)卷積特征圖,并利用軌跡約束獲得深度卷積特征描述子(Trajectory-pooled Deep-convolutional Descriptors, TDD),之后用FV編碼得到視頻級表示。
2 基于視頻分段的空時雙通道行為識別
2.1 整體框架
最初的雙通道方法從視頻中隨機采樣單幀進行行為識別,對于復(fù)雜行為或持續(xù)時間較長的視頻,視角變換和背景擾動會導(dǎo)致僅利用單幀圖像無法有效表達視頻的類別信息。為了對長時段復(fù)雜視頻建立有效的識別模型,本文基于視頻分段應(yīng)用空時雙通道神經(jīng)網(wǎng)絡(luò),整體框架如圖1所示。先將視頻分成多個等長不重疊的分段,對每個分段通過隨機采樣得到靜態(tài)幀圖像和包含運動信息的堆疊光流圖像,分別輸入到空域和時域CNN進行特征提取;然后在各自通道內(nèi)將各個分段的網(wǎng)絡(luò)輸出預(yù)測特征進行融合;最后集成融合兩個通道的預(yù)測特征得到最終的行為識別結(jié)果。
其中:Ti表示視頻第i個分段的隨機采樣,空域中是RGB幀圖像,時域中是堆疊光流圖像;F(Ti;W)表示參數(shù)為W的卷積神經(jīng)網(wǎng)絡(luò)對Ti的特征提取,其輸出為對應(yīng)類別數(shù)目維度的特征向量;分段融合函數(shù)g表示對K個分段特征以某種方法進行融合,得到空域或者時域的特征;輸出函數(shù)H表示對識別結(jié)果進行類別分類,一般采用Softmax函數(shù)得到每個行為類別的概率值。此外,每個視頻分段的空域網(wǎng)絡(luò)結(jié)構(gòu)完全相同,共享網(wǎng)絡(luò)權(quán)值;時域網(wǎng)絡(luò)結(jié)構(gòu)亦如此。
2.2 空域網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理
空域網(wǎng)絡(luò)是對視頻中采樣得到的靜態(tài)RGB幀圖像進行識別,為了測試不同采樣方式對行為識別性能的影響,使用UCF101數(shù)據(jù)集的Split1訓(xùn)練/測試分割方案,測試Top-1行為識別準確率(即網(wǎng)絡(luò)輸出中最大概率的類別是正確的識別結(jié)果)。表1列出了三種采樣策略的識別性能,在網(wǎng)絡(luò)訓(xùn)練過程中,采用了GoogLeNet卷積神經(jīng)網(wǎng)絡(luò)的改進版本InceptionV3模型[14]??梢钥吹剑蓸訋瑪?shù)增加并未提升識別性能,反而增加了數(shù)據(jù)冗余,增大了計算復(fù)雜度,因此,對視頻進行密集采樣并不可取,本文實驗中對于K個等長的視頻分段,每個分段隨機采樣1幀圖像。
為了防止學(xué)習(xí)建模中的過擬合問題[15],通常會采用數(shù)據(jù)增強技術(shù),這不僅能擴增輸入數(shù)據(jù)的規(guī)模、增加樣本的差異性,還能增強網(wǎng)絡(luò)模型的泛化能力。在空域網(wǎng)絡(luò)中,本文對視頻幀使用水平翻轉(zhuǎn)、角度旋轉(zhuǎn)、平移變換、錯切變換等數(shù)據(jù)增強方法,并在InceptionV3網(wǎng)絡(luò)模型上測試了這些方法對行為識別性能的影響。表2列出了5種情況下的Top-1和Top-5識別準確率??梢钥吹剑鄙偃我环N數(shù)據(jù)增強技術(shù),識別準確率均有下降,這說明了數(shù)據(jù)增強方法的有效性,因此本文實驗中采用全部4種數(shù)據(jù)增強技術(shù)。
2.3 時域網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理
視頻中的運動信息對于行為識別至關(guān)重要,光流是一種簡單實用的表達圖像序列運動信息的方式,被廣泛用于提取行為運動特征。Horn等[16]基于兩個基本假設(shè)推導(dǎo)了圖像序列光流的計算公式,本文使用該方法計算水平和垂直兩方向的光流。因光流數(shù)值接近0且有正有負,為了能夠作為時域網(wǎng)絡(luò)通道的輸入,需要對其進行線性變換,最終將兩個方向的光流保存為兩張灰度圖像,如圖2所示。為了有效提取視頻的運動信息,本文采用10個連續(xù)幀的水平和垂直光流堆疊形成20個密集光流圖像。
空域和時域中通常會采用預(yù)先在ImageNet上訓(xùn)練的CNN,這些網(wǎng)絡(luò)的輸入是RGB圖像,因此第一個卷積層的通道數(shù)為3,但時域網(wǎng)絡(luò)輸入20個光流圖像,與第一個卷積層的通道數(shù)不匹配,這里采用跨模態(tài)交叉預(yù)訓(xùn)練的方法,將第一個卷積層的3個通道的權(quán)值取平均,再將其復(fù)制20份作為時域網(wǎng)絡(luò)第一個卷積層20個通道的權(quán)值;而時域網(wǎng)絡(luò)其他層的權(quán)值與空域?qū)?yīng)層的權(quán)值參數(shù)相同。
2.4 遷移學(xué)習(xí)
機器學(xué)習(xí)方法需要有足夠的訓(xùn)練樣本才能學(xué)習(xí)到一個好的分類模型,但實際中針對目標(biāo)任務(wù)的現(xiàn)有樣本往往規(guī)模較小,而人為標(biāo)注大量樣本不僅費時費力,還會受標(biāo)注者主觀因素的影響。遷移學(xué)習(xí)方法能夠使用預(yù)訓(xùn)練模型解決目標(biāo)任務(wù)數(shù)據(jù)不足的問題,對于新目標(biāo)任務(wù),使用時需要將預(yù)訓(xùn)練網(wǎng)絡(luò)模型中最后一個用于分類的全連接層替換成新的針對目標(biāo)任務(wù)類別數(shù)目的全連接層。本文采用在ImageNet上預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)模型ResNet50/101對UCF101數(shù)據(jù)集進行行為識別,遷移學(xué)習(xí)時需要將最后一個全連接層設(shè)置為對應(yīng)的101類輸出。
實驗中對比了兩種遷移學(xué)習(xí)方案:一種是僅對卷積神經(jīng)網(wǎng)絡(luò)的最后一個分類層進行權(quán)值更新;另一種是微調(diào)整個網(wǎng)絡(luò)更新所有權(quán)值。兩種方案的識別準確率如表3所示。可以看到,采用微調(diào)整個網(wǎng)絡(luò)的方案可以獲得更好的識別性能,Top-1及Top-5準確率均高于僅微調(diào)最后一層的方案,因此本文實驗中采用微調(diào)整個網(wǎng)絡(luò)的遷移學(xué)習(xí)方案。
2.5 單通道分段特征融合
基于視頻分段的空時雙通道模型包含獨立的空域和時域卷積神經(jīng)網(wǎng)絡(luò),兩個網(wǎng)絡(luò)在結(jié)構(gòu)上除了第一層的輸入通道數(shù)不同,其他層參數(shù)完全相同。單通道分段融合是指在單個通道中將各個視頻分段的網(wǎng)絡(luò)輸出通過某種方式融合,得到該通道的行為識別結(jié)果。本文設(shè)計了基于最大值、均值和方差三種分段特征融合方案。
遷移學(xué)習(xí)后網(wǎng)絡(luò)最后一個全連接層輸出的特征向量其維度對應(yīng)于類別數(shù)目,越大特征值對應(yīng)的類別可能性越大。最大值分段特征融合指取所有分段對應(yīng)類別輸出特征值中的最大值作為該類別的特征輸出,這是一種對每個類別取最有可能模式的融合策略。均值分段特征融合指取所有分段對應(yīng)類別輸出特征值的平均值,這種策略平等看待每個分段中的行為信息?;诜讲畹姆侄翁卣魅诤喜呗允歉鶕?jù)分段輸出特征的方差對分段的重要性進行區(qū)分,方差較大,對應(yīng)輸出特征離散程度較大,說明有可顯著識別的行為類別,這樣的特征對視頻的行為識別貢獻度應(yīng)該高,因此給該分段賦予較大權(quán)重;反之,分段輸出特征的方差小,說明輸出特征離散程度小,其對行為識別辨識度低,重要性低,融合時權(quán)重也較小。
2.6 雙通道特征集成
雙通道模型中的空域和時域兩個CNN彼此獨立,在各自通道對分段特征融合后,還需融合空域和時域的識別結(jié)果。本文基于集成學(xué)習(xí)[17]的思想,討論試湊集成和方差集成兩種空時特征集成方案,以實現(xiàn)識別性能的進一步提升。
試湊集成的方法通過設(shè)置加權(quán)系數(shù)θspatial和θtemporal對分段融合后的空域和時域特征進行加權(quán)求和得到雙通道輸出特征,最終以最大特征值對應(yīng)類別為識別結(jié)果。一般來說,時域中的運動信息對行為識別更為重要,因此可設(shè)置較大權(quán)重。方差集成的方法以融合后的空域和時域特征向量的方差作為加權(quán)系數(shù),對兩個通道的重要性進行區(qū)分。
3 結(jié)果分析
3.1 基本參數(shù)設(shè)置
本文實驗在Linux系統(tǒng)下基于PyTorch0.3.0深度學(xué)習(xí)框架進行。雙通道網(wǎng)絡(luò)的基本參數(shù)設(shè)置如表4所示,包括初始學(xué)習(xí)速率、Batch-size大小以及動量。本文采用預(yù)訓(xùn)練的網(wǎng)絡(luò)模型對UCF101數(shù)據(jù)集進行行為識別,使用較小的學(xué)習(xí)速率將有利于網(wǎng)絡(luò)的訓(xùn)練??沼蚓W(wǎng)絡(luò)的初始學(xué)習(xí)速率設(shè)置為0.0005;時域網(wǎng)絡(luò)由于其輸入數(shù)據(jù)為光流圖像,與RGB圖像存在一定差異,設(shè)置相對較大的初始學(xué)習(xí)速率將有利于網(wǎng)絡(luò)的快速收斂,實驗中設(shè)置為0.01。優(yōu)化時學(xué)習(xí)速率采用自適應(yīng)方法,根據(jù)學(xué)習(xí)結(jié)果自動更新學(xué)習(xí)速率。從內(nèi)存容量、使用率以及收斂速度等方面考慮將Batch-size設(shè)置為32。為了有效加速網(wǎng)絡(luò)的收斂,動量的設(shè)置遵循傳統(tǒng)雙通道行為識別方法[10],設(shè)置為0.9??沼蚝蜁r域網(wǎng)絡(luò)訓(xùn)練時均采用交叉熵損失函數(shù)作為優(yōu)化目標(biāo)函數(shù),優(yōu)化方法為隨機梯度下降算法。
UCF101數(shù)據(jù)集中,訓(xùn)練集包含9537個視頻,測試集包含3783個視頻。每個輪回的訓(xùn)練共需要300次迭代,每次迭代時隨機選取32個視頻作為訓(xùn)練樣本,每個樣本采用前述數(shù)據(jù)增強方法后被裁剪為網(wǎng)絡(luò)輸入的尺寸224×224,并且進行歸一化操作。每個輪回的訓(xùn)練完成后對測試集進行測試,以檢驗學(xué)習(xí)模型的性能,測試時遵循THUMOS13挑戰(zhàn)機制[18]。
3.2 不同分段數(shù)目下行為識別性能分析
為了對長時段視頻進行有效建模,本文將視頻分成K個等長的分段:分段數(shù)目較少時,會導(dǎo)致行為信息提取不足、訓(xùn)練模型過于簡單;而分段數(shù)目較多又會導(dǎo)致數(shù)據(jù)冗余,增加計算量。表5給出了采用ResNet50/101網(wǎng)絡(luò)時在不同視頻分段數(shù)目下的空域通道行為識別性能。可以看到,當(dāng)視頻分成3個分段時,其行為識別性能較好,因此后續(xù)實驗中將視頻分段數(shù)目設(shè)置為3。
從表6~7中可以看到,相比其他網(wǎng)絡(luò)結(jié)構(gòu),ResNet101在空域通道和時域通道均取得了最高的行為識別準確率,Top-1準確率分別達到了82.24%和83.48%。此外也看到ResNet18/50/101等3種殘差網(wǎng)絡(luò)的識別性能隨著網(wǎng)絡(luò)深度的增加而提高,這說明了卷積神經(jīng)網(wǎng)絡(luò)的深度對行為識別的重要性。
3.4 不同分段融合方案下行為識別性能分析
實驗中將每個視頻分為3個等長的分段,空域通道輸出的101維特征向量代表輸入分段的空域行為識別結(jié)果,如前所述,對3個分段的101維特征融合后經(jīng)過Softmax函數(shù)后即可得到整個空域通道的行為識別結(jié)果。對時域通道亦如此。表8和表9給出了幾種網(wǎng)絡(luò)結(jié)構(gòu)在不同分段融合方案下的行為識別性能。實驗中先對ResNet18殘差網(wǎng)絡(luò)在空時雙通道中均采用了基于均值、最大值以及方差的分段融合方案??梢钥吹?,基于均值的方案都取得了較佳的識別性能,而基于最大值的方案總體性能較差,這可能是因為視頻分段內(nèi)容的差異會導(dǎo)致判別誤差較大,因此對ResNet50和ResNet101網(wǎng)絡(luò)結(jié)構(gòu)不再采用基于最大值的分段融合方案??梢钥吹剑S著網(wǎng)絡(luò)深度的增加,基于均值的融合方案識別性能仍是較好,而且考慮到均值融合方案的計算更簡單,因此基于各分段輸出特征的平均值更適合作為分段融合方案。
3.5 不同集成策略下行為識別性能分析
試湊集成策略通過設(shè)置加權(quán)系數(shù)θspatial和θtemporal對分段融合后的空域和時域特征進行加權(quán)求和,得到最終的雙通道輸出特征。本文在ResNet101網(wǎng)絡(luò)結(jié)構(gòu)上采用多種權(quán)重比例進行空時雙通道的集成,行為識別性能如表10所示??梢钥吹?,當(dāng)空域與時域的權(quán)重比例不斷減小時,識別準確率逐步上升,這說明了相對于空域通道提取的靜態(tài)特征,時域通道提取的運動特征對行為識別有著更重要的作用。當(dāng)權(quán)重比例為1∶3時,識別性能最好,此時單獨空域通道的Top-1準確率是82.24%,單獨時域通道的Top-1準確率是83.48%,而集成后Top-1準確率達到了91.72%,這說明了集成雙通道特征可以有效提升行為識別性能。
是使用分段融合后的空域和時域特征向量的方差作為兩通道的加權(quán)系數(shù),對空時兩個學(xué)習(xí)器進行集成。表11列出了在ResNet101網(wǎng)絡(luò)結(jié)構(gòu)上采用基于方差的集成方法的行為識別性能,其中Top-1準確率僅為79.81%,性能出現(xiàn)了下降,這說明采用所有101個類別輸出值的離散程度來對空域或時域進行重要性打分的評價標(biāo)準不合理,其結(jié)果會受到非預(yù)測類別輸出值的干擾。為了減少這種干擾,考慮到通常卷積神經(jīng)網(wǎng)絡(luò)輸出的較大特征值對分類更具意義,因此采用空時雙通道輸出的最大5個特征值的方差作為集成時的加權(quán)系數(shù),可以看到Top-1識別準確率達到86.93%,比采用101類方差集成的性能有所提升,但與前述基于試湊方式獲得的最好性能仍有差距。
3.6 與現(xiàn)有方法對比
表12列出了本文方法與一些基于傳統(tǒng)手工設(shè)計特征以及基于深度學(xué)習(xí)的方法在UCF101行為識別數(shù)據(jù)集上的性能對比。表中前4種基于稠密軌跡使用不同的特征編碼方法得到視頻級表示,可以看到基于手工特征的方法識別準確率最高達到88.3%。表中后7種方法為基于深度學(xué)習(xí)的方法,最早應(yīng)用深度學(xué)習(xí)的DeepNet網(wǎng)絡(luò)識別準確率僅有63.3%,三維卷積神經(jīng)網(wǎng)絡(luò)3D-CNN的準確率是85.2%,性能都低于最好的手工特征方法。原始雙通道模型的識別準確率是88%,加入LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)后準確率是88.6%,使用深層卷積神經(jīng)網(wǎng)絡(luò)的準確率達到90.9%。文獻[13]結(jié)合深度特征和軌跡特征,識別準確率是90.3%。本文在對長時段視頻運動信息建模時采用了基于視頻分段的空時雙通道模型,取得了91.8%的識別準確率,相比原始的雙通道方法,準確率提升了3.8個百分點。這說明基于深度學(xué)習(xí)的方法隨著多種網(wǎng)絡(luò)模型及學(xué)習(xí)策略的應(yīng)用,可以取得比傳統(tǒng)方法更好的識別性能。
3.7 HMDB51數(shù)據(jù)集行為識別性能分析
基于視頻分段的空時雙通道卷積神經(jīng)網(wǎng)絡(luò)的行為識別方法在公開數(shù)據(jù)集UCF101上取得了不錯的性能,為了進一步檢驗算法的性能,基于ResNet101網(wǎng)絡(luò)模型在HMDB51數(shù)據(jù)集上進行了實驗。該數(shù)據(jù)集包含51個行為類別共6766個視頻,每個類別至少包含101個視頻。HMDB51是目前數(shù)據(jù)集里最復(fù)雜的,識別率最低的。使用該數(shù)據(jù)集學(xué)習(xí)分類模型時同樣有3種訓(xùn)練/測試分割方案,訓(xùn)練集有3570個樣本,測試集有1530個樣本,實驗仍然在Split1訓(xùn)練/測試方案上進行。視頻分段采用基于均值的融合方式,空域和時域通道的Top-1行為識別準確率分別為49.41%和45.22%。當(dāng)雙通道采用試湊方式集成,空時權(quán)重比例系數(shù)為1∶2時,雙通道融合后Top-1準確率達到61.39%,比最初的空時雙通道網(wǎng)絡(luò)模型的行為識別準確率58%也有提高。HMDB51數(shù)據(jù)集上識別準確率較低主要是因為與UCF101數(shù)據(jù)集相比,HMDB51存在大量類間差別較小的行為,比如面部吃和喝的運動、說話和微笑等等,此外視頻的規(guī)模和質(zhì)量也對模型的學(xué)習(xí)及表達存在一定限制。
4 結(jié)語
本文實現(xiàn)了一種基于視頻分段的空時雙通道卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法,主要基于殘差網(wǎng)絡(luò)模型在UCF101數(shù)據(jù)集上進行了識別分類的訓(xùn)練和測試。為了解決因數(shù)據(jù)集樣本不足造成的過擬合問題,實驗討論分析了多種數(shù)據(jù)增強方法對空域網(wǎng)絡(luò)識別準確率的影響;同時因為在采用ImageNet上預(yù)訓(xùn)練網(wǎng)絡(luò)模型對目標(biāo)數(shù)據(jù)集分類識別時需要調(diào)整網(wǎng)絡(luò),從而討論分析了兩種遷移學(xué)習(xí)方案,實驗顯示全局微調(diào)網(wǎng)絡(luò)比僅微調(diào)最后一層可獲得較大性能的提升。對基于分段的空時雙通道模型,通過實驗討論分析了不同視頻分段數(shù)目、預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)、分段特征融合方法、空時特征集成策略等環(huán)節(jié)對識別性能的影響,證明了融合雙通道內(nèi)各個視頻分段的卷積神經(jīng)網(wǎng)絡(luò)輸出特征的方法能夠捕獲視頻中的行為運動特征,提高了行為識別準確率。
參考文獻 (References)
[1] 單言虎,張彰,黃凱奇.人的視覺行為識別研究回顧、現(xiàn)狀及展望[J].計算機研究與發(fā)展,2016,53(1):93-112.(SHAN Y H, ZHANG Z, HUANG K Q. Review, current situation and prospect of human visual behavior recognition [J]. Journal of Computer Research and Development, 2016, 53 (1): 93-112.)
[2] FORSYTH D A. Computer Vision: A Modern Approach[M]. 2nd ed. Englewood Cliffs, NJ: Prentice Hall, 2011: 1-2.
[3] CAI Z, WANG L, PENG X, et al. Multi-view super vector for action recognition[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 596-603.
[4] WANG H, SCHMID C. Action recognition with improved trajectories[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2014: 3551-3558.
[5] PENG X, WANG L, WANG X, et al. Bag of visual words and fusion methods for action recognition: comprehensive study and good practice [J]. Computer Vision and Image Understanding, 2016, 150: 109-125.
[6] WANG L, QIAO Y, TANG X. MoFAP: a multi-level representation for action recognition[J]. International Journal of Computer Vision, 2016, 119 (3): 254-271.
[7] KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale video classification with convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Rec-ognition. Washington, DC: IEEE Computer Society, 2014: 1725-1732.
[8] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// Proceedings of the 2014 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 4489-4497.
[9] VAROL G, LAPTEV I, SCHMID C. Long-term temporal convolutions for action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6): 1510-1517.
[10] SIMONYAN K, ZISSERMAN A. Two-stream convolutional net-works for action recognition in videos[C]// Proceedings of the 2014 Conference on Neural Information Processing Systems. New York: Curran Associates, 2014: 568-576.
[11] NG Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 4694-4702.
[12] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 22-36.
[13] WANG L, QIAO Y, TANG X. Action recognition with trajectory-pooled deep-convolutional descriptors[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 4305-4314.
[14] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 2818-2826.
[15] MURPHY K P. Machine Learning: A Probabilistic Perspective [M]. Cambridge: MIT Press, 2012: 22.
[16] HORN B K P, SCHUNCK B G. Determining optical flow [J]. Artificial Intelligence, 1981, 17 (1/2/3): 185-203.
[17] 周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:171-173.(ZHOU Z H. Machine Learning [M]. Beijing: Tsinghua University Press, 2016: 171-173.)
[18] JIANG Y G, LIU J, ZAMIR A, et.al. Competition track evaluation setup, the first international workshop on action recognition with a large number of classes [EB/OL]. [2018-05-20]. http://www.crcv.ucf.edu/ICCV13-Action-Workshop/index.files/Competition_Track_Evaluation.pdf.