亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習的人體行為識別研究①

2020-06-09 05:09:04趙新秋楊冬冬賀海龍段思雨

高技術(shù)通訊 2020年5期

趙新秋楊冬冬賀海龍段思雨

(燕山大學工業(yè)計算機控制工程河北省重點實驗室秦皇島 066004)

0 引言

近些年來，隨著軟硬件水平的不斷提升，計算機視覺相關(guān)技術(shù)得到了爆炸式的發(fā)展。計算機視覺[1]是研究如何像人類視覺系統(tǒng)一樣，從數(shù)字圖像或視頻中理解其高層內(nèi)涵的一門學科，簡而言之就是研究如何讓計算機看懂世界，它包括對數(shù)字圖像或視頻進行預處理、特征提取、特征分類、分析理解幾個過程，可以實現(xiàn)將現(xiàn)實世界中的高維數(shù)據(jù)向低維符號信息的映射，進而觸發(fā)自主決策。計算機視覺的應(yīng)用方向包括場景重建、視頻跟蹤、圖像恢復、目標物體識別等等。其中目標物體識別還能細分為物體識別、人臉識別、姿態(tài)識別、手勢識別、行為識別等。計算機視覺研究方面最近幾年有了很大的發(fā)展。文獻[2]提出了一種基于生成對抗網(wǎng)絡(luò)(generative aversarial nets,GANs)的主動半監(jiān)督學習算法。學習者以對抗或合作的方式相互協(xié)作，以獲得對整個數(shù)據(jù)分布的全面感知。采用交替更新的方式，對整個體系結(jié)構(gòu)進行端到端的訓練。實驗結(jié)果驗證了該算法相對于現(xiàn)有模型的優(yōu)越性。文獻[3]提出了一種新的雙向主動學習算法，該算法在雙向過程中同時研究無標記和有標記數(shù)據(jù)集。為了獲取新知識，正向?qū)W習從未標記的數(shù)據(jù)集中查詢信息量最大的實例。在雙向探索框架下，學習模型的泛化能力可以得到很大的提高。文獻[4]提出了一種新的弱監(jiān)督框架，該框架可以同時定位動作幀和識別未裁剪視頻中的動作。提出的框架由2個主要組件組成。首先，對于動作幀定位，提出利用自注意機制對每個幀進行加權(quán)，從而有效地消除背景幀的影響。其次，考慮到有公開可用的裁剪視頻，而且它們包含有用的信息，提出了一個額外的模塊來轉(zhuǎn)移裁剪視頻中的知識，以提高未修剪視頻的分類性能，實驗結(jié)果清楚地證實了該方法的有效性。

作為機器視覺領(lǐng)域的重點和難點，行為識別逐漸成為研究熱點。行為識別[5]技術(shù)在現(xiàn)實生活中有著廣泛的應(yīng)用，例如人機交互領(lǐng)域、視頻監(jiān)控領(lǐng)域、智能家居領(lǐng)域以及安全防護領(lǐng)域等。另外，行為識別技術(shù)在視頻檢索[6]及圖像壓縮等方面也有廣泛的應(yīng)用。人體行為識別研究在人工智能領(lǐng)域擁有廣闊的市場前景和應(yīng)用價值，也充滿了挑戰(zhàn)。因此，本文致力于基于深度學習的人體行為識別研究，旨在取代人工提取特征的方法，提高識別的準確率，同時促進人體行為識別方法在實際生活中的應(yīng)用價值。

1 運動目標檢測

1.1 背景差分法

背景差分法[7]是一種對靜止場景進行運動分割的通用方法，它將當前獲取的圖像幀與背景圖像做差分運算，得到目標運動區(qū)域的灰度圖，對灰度圖進行閾值提取運動區(qū)域，而且為避免環(huán)境光照變化的影響，背景圖像根據(jù)當前獲取圖像的幀進行更新。其算法簡單易實現(xiàn)，一定程度上克服了環(huán)境光線的影響；但對背景圖像的實時更新困難，不能用于運動背景復雜的場景。

1.2 幀間差分法

幀間差分法[8]是將視頻中相鄰2幀或相隔幾幀圖像的2幅圖像像素相減，并對相減后的圖像進行閾值化來提取圖像中的運動區(qū)域。若相減2幀圖像的幀數(shù)分別為第k幀和第(k+1)幀，其幀圖像分別為fk(x,y)和fk+1(x,y)，差分圖像二值化閾值為T，差分圖像用D(x,y)表示，則幀間差分法的公式如下:

(1)

幀間差分法不易受環(huán)境光線的影響，但其無法識別靜止或運動速度很慢的目標，當運動目標表面有大面積灰度值相似區(qū)域的情況下，再做差分時圖像會出現(xiàn)孔洞。

1.3 ViBe前景檢測法

與背景差分法、幀間差分法不同的是，前景檢測算法[9](foreground detection algorithm,ViBe)建立了一個樣本數(shù)據(jù)庫，里面包含圖像序列中的每一個像素點，通過比較當下視頻幀像素與樣本集中的像素值，來確定該點為前景點還是背景點。

背景模型的建立一般都是通過初始化完成，大多數(shù)的方法必須先學習一段視頻幀圖像，然后才能完成前景檢測，這在一定程度上無法達到實時性的要求。另外當視頻中背景環(huán)境不斷變化時，還需要重新進行學習，耗時較長。而ViBe前景檢測方法利用單幀圖像就能夠?qū)δＰ瓦M行初始化，具體操作是首先把單幀圖像當成背景圖像，然后收集背景像素點附近的像素來充當樣本集，最后不斷更新背景模型，以適應(yīng)環(huán)境光照的變化。

本文分別利用背景差分法、幀間差分法以及ViBe前景檢測方法對目標前景進行提取，如圖1所示。

圖1 效果對比圖

圖1(a)為原圖，圖1(b)、(c)、(d)分別為背景差分、幀間差分法以及ViBe前景檢測所得到的前景圖像。從圖中可以看出ViBe前景檢測方法能夠提取出更加清晰的目標運動特征。

1.4 Kinect骨架提取方法

傳統(tǒng)的運動前景檢測算法雖然做出了一些改進，但本質(zhì)上還是無法解決諸如有遮擋物、光照等一些環(huán)境因素的影響，所以本文提出了利用Kinect[10]對人體骨架信息進行采集，將生成一個具有20個節(jié)點的人體骨架系統(tǒng)。

首先，為了突出骨架數(shù)據(jù)的優(yōu)越性，本文測試了環(huán)境中有遮擋物時，不同方法采集的人體行為，如圖2所示為傳統(tǒng)ViBe檢測方法與骨架識別的效果對比。

圖2(a)顯示由于目標的右臂在前，明顯遮擋住了左臂的運動信息，導致最后只能顯示出目標右臂的運動特征，無法描繪左臂的運動信息，目標運動特征表達不完整；圖2(b)為Kinect相機采集到的骨架信息，同樣是右臂遮擋住了左臂的運動信息，Kinect準確地評估了被遮擋關(guān)節(jié)點的具體位置，顯示出了目標左臂關(guān)節(jié)點的運動位置，保留了目標完整的運動信息。

圖2 對比圖

所以當環(huán)境中有遮擋物時，傳統(tǒng)的前景檢測算法無法再完整地提取前景圖像，而用Kinect進行采集的時候，它會根據(jù)每一個像素點來評估人體關(guān)節(jié)點所處的具體位置，通過這種方式可以最大可能地保留人體關(guān)節(jié)點信息，基本可以忽略遮擋物的影響。

2 樣本數(shù)據(jù)庫

2.1 KTH數(shù)據(jù)庫

KTH數(shù)據(jù)庫包含6種類型的人類行為分別是Walking(步行)、Jogging(慢跑)、Running(跑步)、Boxing(拳擊)、Hand waving(揮手)和Hand clapping(拍手)，由25名實驗人員在4個不同的場景中進行了多次運動采集制成。目前數(shù)據(jù)庫中包含2 391個動作序列，所有的序列都是用25 fps幀速率的靜態(tài)相機拍攝的均勻背景，這些序列被下采樣到160×120像素的空間分辨率，平均長度為4 s。圖3是數(shù)據(jù)庫中6種行為在不同場景下的圖像幀示意圖。

圖3 KTH數(shù)據(jù)庫

目前，國內(nèi)外研究人員常用的人體行為識別數(shù)據(jù)庫主要有Weizmann、UCF101等。不過，由于Weizmann數(shù)據(jù)庫樣本數(shù)量較少，不適合作為卷積神經(jīng)網(wǎng)絡(luò)的樣本；而UCF101數(shù)據(jù)庫樣本數(shù)量又過大，對實驗硬件要求較高，也不適合作為本實驗樣本；KTH數(shù)據(jù)庫樣本充足，內(nèi)容涵蓋了基本的人體動作行為，因此采用KTH數(shù)據(jù)庫作為本文的一個實驗樣本庫。

2.2 骨架數(shù)據(jù)庫

為了能夠突出Kinect骨架數(shù)據(jù)在本文人體動作行為識別上的優(yōu)越性，分別采集了與KTH數(shù)據(jù)庫中相同的6種人體動作行為。本數(shù)據(jù)庫分別由3名實驗人員在3種不同的場景下采集而成。由于Kinect僅采集人體骨架信息，所以無論背景環(huán)境以及光照如何變化都不會對人體的骨架信息產(chǎn)生影響，采集視頻的攝像頭是靜止的，圖4所示是采集的人體骨架數(shù)據(jù)。

圖4 骨架數(shù)據(jù)庫

3 卷積神經(jīng)網(wǎng)絡(luò)

AlexNet[11]是2012年ImageNet競賽冠軍獲得者設(shè)計的，該模型層數(shù)一共8層，含5個卷積層、3個全連接層，如圖5所示為AlexNet網(wǎng)絡(luò)結(jié)構(gòu)模型。

相比于其他的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)，該卷積神經(jīng)網(wǎng)絡(luò)主要的創(chuàng)新工作在于應(yīng)用了如下技術(shù)。

(1) 用線性整流函數(shù)(rectified linear unit, ReLU)ReLu作為網(wǎng)絡(luò)的激活函數(shù)[12]，并驗證了在網(wǎng)絡(luò)結(jié)構(gòu)較深時效果比sigmoid要好。

(2) 增加Dropout層[13]，減少過擬合問題的發(fā)生概率。

(3) 在模型中使用重疊的最大池化。規(guī)定了移動步長的尺寸必須要比池化核的尺寸要小，這樣輸出結(jié)果相互之間可能存在重疊，有利于增加樣本的特征，提高模型的識別率。

(4) 增加了局部響應(yīng)歸一化(local response normalization，LRN)層[14]，能夠?qū)ι窠?jīng)元的反饋進行放大或者抑制，有利于提高模型的魯棒性。

(5) 使用cuda加速模型的訓練，利用GPU強大的并行計算能力，處理神經(jīng)網(wǎng)絡(luò)訓練時大量的矩陣運算。

(6) 增加了數(shù)據(jù)。隨機地從256×256的原始圖像中截取224×224大小的區(qū)域，相當于增加了2 048倍的數(shù)據(jù)量。

圖5 AlexNet網(wǎng)絡(luò)模型

4 實驗分析

本實驗中使用的處理器為Intel(R)Xeon(R)Gold 5118 CPU@2.30 GHz，操作系統(tǒng)Ubuntu 16.04 64位，基于Pytorch 0.4框架，GPU為NVIDIA Telsa P100 GPU @ cudnn7。實驗數(shù)據(jù)按照4:1的比例分為訓練集和測試集，每次迭代次數(shù)為5 000代，網(wǎng)絡(luò)模型為AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型。

4.1 連續(xù)幀組合實驗

考慮到卷積神經(jīng)網(wǎng)絡(luò)(CNN)識別的是單幀圖像，而人體動作行為可以看作是一個連續(xù)的圖像序列，并且單幀圖像不能真正代表一個具體動作行為，特別是當2個或幾個動作相近的時候，單幀圖像識別很容易造成混淆，對模型識別造成很大的干擾。如圖6所示，圖6(a)與(b)分別為鼓掌和揮手2種人體行為的連續(xù)9幀動作序列，從圖中可以明顯發(fā)現(xiàn)，2種行為的前4幀視頻序列即用方框標注的序列行為動作極其相似，如果是單幀圖像輸入模型訓練的話，很容易造成模型判斷不準確。

所以根據(jù)人體行為動作識別的時序性，本文提出了基于連續(xù)幀的組合實驗方法。連續(xù)幀組合實驗的公式如下：

(2)

其中，Bn表示某種行為的預測概率值，N表示的是輸入網(wǎng)絡(luò)結(jié)構(gòu)的幀數(shù)。fN表示每一幀預測的概率值。

圖6 不同行為中相似片段示意圖

首先，將模型按照原始的訓練方式完成訓練。在測試的時候，不僅僅輸入單幀圖像，而是將連續(xù)幾幀圖像同時測試，每幀圖像都會有一個測試結(jié)果，然后將這幾幀圖像的測試概率相加求平均取最大值，即某種行為的預測概率最大就代表輸入的圖像是某種行為。連續(xù)幀組合根據(jù)概率相加求平均最大值方法，可以有效避免單幀輸入圖像造成模型判斷不準確問題，使訓練結(jié)果更接近于真實行為。具體方式如圖7所示。

圖7 連續(xù)幀組合

為了驗證連續(xù)幀組合實驗的有效性，本文分別在單幀圖像與連續(xù)幀圖像識別上進行了實驗，結(jié)果如表1所示。

從實驗結(jié)果中可以發(fā)現(xiàn)，在一些特征較明顯的動作識別上，比如拳擊，組合幀識別效果與單幀識別效果幾乎沒有什么差別。但是在容易產(chǎn)生混淆的動作識別上，例如慢跑和跑步，揮手和拍手，利用組合幀實驗方法可以提高模型的準確率。相比之下，在全部測試集中組合幀實驗的識別準確率提高了4.11%，實驗結(jié)果證明了本文方法的優(yōu)越性。

表1 組合幀組合對比實驗

4.2 前景檢測提取實驗

考慮到前景特征提取效果的好壞可能會對網(wǎng)絡(luò)的識別產(chǎn)生影響，本文在連續(xù)幀組合方法的基礎(chǔ)上，分別運用傳統(tǒng)的基于ViBe前景檢測法與基于Kinect的骨架提取方法對人體運動前景進行提取，然后制作成數(shù)據(jù)集分別輸送到AlexNet網(wǎng)絡(luò)中進行訓練。

模型訓練曲線如圖8所示，在平均識別準確率方面，隨著迭代次數(shù)的增加，模型趨于收斂，相比于傳統(tǒng)的基于ViBe圖像二值化法得到的91.25%準確率，Kinect骨架提取方法得到了93.16%的準確率，提高了1.91%；而在損失函數(shù)方面，ViBe圖像二值化法得到的損失函數(shù)值為0.257，Kinect骨架損失函數(shù)值為0.22，下降了3%。

圖8 模型訓練曲線

在不同動作的識別方面，本文分別對6種不同的動作進行測試，實驗結(jié)果如表2所示。

表2 不同前景特征提取方法的比較

從實驗結(jié)果中可以發(fā)現(xiàn)，相比于傳統(tǒng)的目標前景提取算法，本文利用Kinect相機提取的人體行為骨架信息在步行、慢跑、跑步、揮手、拍手5種動作的識別率上均有不同的提高，在全部測試集上的平均識別率上優(yōu)于傳統(tǒng)的前景檢測算法。驗證了輸入圖像特征對模型識別率的影響，也說明了骨架信息能夠更加清晰地表達人體運動特征。

本文利用骨架識別算法與現(xiàn)今主流的行為識別算法進行了比較，如表3所示。從表3可以看出，本文所選擇的深度學習模型識別結(jié)果優(yōu)于其他算法。

表3 準確率對比

4.3 優(yōu)化算法對比實驗

優(yōu)化算法就是在網(wǎng)絡(luò)模型的訓練環(huán)節(jié)，通過調(diào)整網(wǎng)絡(luò)訓練方式，來不斷更新網(wǎng)絡(luò)的內(nèi)部參數(shù)比如權(quán)重系數(shù)、偏置等，使得網(wǎng)絡(luò)能夠達到最優(yōu)的收斂效果。網(wǎng)絡(luò)優(yōu)化算法的選擇對模型最終的識別效果起著至關(guān)重要的作用。如圖9所示為網(wǎng)絡(luò)權(quán)重w與梯度誤差E的關(guān)系，從圖中可以看出，當網(wǎng)絡(luò)的權(quán)重過大或者過小時，梯度誤差都非常大，此時需要重新對網(wǎng)絡(luò)進行訓練。而優(yōu)化算法的目的就是用最快的方法找到一個局部最優(yōu)點k，使得當權(quán)重取得一定值時，網(wǎng)絡(luò)的梯度誤差最小。

圖9 權(quán)重與梯度誤差的關(guān)系

本文對比了當下比較流行的5種優(yōu)化算法，隨機梯度下降法(stochastic gradient descent，SGD)、自適應(yīng)梯度算法(adaptive gradient algorithm，Adagrad)、自適應(yīng)的學習率方法(an adaptive learning rate method，AdaDelta)、自適應(yīng)矩估計(adaptive moment estimation, Adam)、梯度下降法(coreuclbelgium，Nesterov)，并在實驗平臺上分別進行了測試。

隨機梯度下降法[18]是在批量梯度下降法的基礎(chǔ)上發(fā)展起來的，批量梯度下降在每一次網(wǎng)絡(luò)迭代的時候需要使用所有樣本來進行梯度更新，雖然一定能夠得到全局最優(yōu)，但當樣本數(shù)量非常大的時候，訓練速度會變得很慢。

而隨機梯度下降法也叫最速下降法是指在網(wǎng)絡(luò)訓練時，每迭代一次會用一個樣本對模型的參數(shù)進行一次更新，訓練速度快，對于很大的數(shù)據(jù)集，也能夠以較快的速度收斂。但由于頻繁地對參數(shù)進行更新，誤差函數(shù)可能會按照不同的強度大幅波動。所以每一次迭代的梯度受抽樣的影響比較大，不能很好反映真實的梯度。如圖10所示，隨著迭代次數(shù)的增加損失函數(shù)的大幅度振蕩可能會導致最終的結(jié)果不是損失函數(shù)的最小值。

圖10 SGD損失函數(shù)曲線

后來針對隨機梯度下降算法存在的弊端，又提出了一種小批量梯度下降法(mini batch gradient descent，MBGD)[19]，是指每一次迭代的時候需要使用n個樣本即batch_size，來對梯度進行更新。這樣既可以提高運行速度，又能夠減少參數(shù)的波動更加接近真實的全局最優(yōu)值。后來將小批量梯度下降算法與隨機梯度下降算法統(tǒng)稱為隨機梯度下降算法。

與隨機梯度下降算法不同的是，在Adagrad[20]的更新規(guī)則中，對于學習率不在設(shè)置固定的值，每次迭代過程中，每個參數(shù)優(yōu)化時將會使用不同的學習率，學習率η會隨著每次迭代而根據(jù)歷史梯度的變化而變化，在處理稀疏數(shù)據(jù)時效果非常好。但是隨著學習率的不斷衰減，網(wǎng)絡(luò)的學習能力逐漸下降，耗時較長，很難達到最優(yōu)收斂效果。

相對于Adagrad算法來說，AdaDelta[21]是對學習率進行自適應(yīng)約束，不需要再設(shè)置一個默認的學習率，簡化了網(wǎng)絡(luò)的計算，能夠有效地解決Adagrad學習率衰減問題。把歷史梯度累計窗口限制到固定的尺寸w，而不是累加所有梯度的平方和。

Adam[22]是有動量項(Momentum)的一種均方根反向傳播算法，動量項可以強化相關(guān)方向的振蕩以及弱化無關(guān)方向的振蕩來加速網(wǎng)絡(luò)的訓練。它的學習率調(diào)整是根據(jù)梯度的一階、二階估計來完成的。相比于其他算法對于參數(shù)學習率的規(guī)定，Adam的優(yōu)勢體現(xiàn)在每個參數(shù)的學習率都有一個固定的范圍，這樣能夠防止參數(shù)震蕩現(xiàn)象的發(fā)生。

Nesterov[23]加速梯度法作為凸優(yōu)化中最理想的方法，其收斂速度非?？?。在動量項的基礎(chǔ)之上，Nesterov在梯度進行大的跳躍后，進行計算對當前梯度進行校正，避免前進太快以及出現(xiàn)大幅度振蕩現(xiàn)象錯過最小值，同時提高靈敏度。

本小節(jié)分別對5種優(yōu)化算法SGD、Adagrad、AdaDelta、Adam、Nesterov在骨架數(shù)據(jù)集上進行實驗，實驗結(jié)果如表4所示。

從表中能夠看出，Nesterov加速梯度法在本文的實驗?zāi)軌蛉〉?3.3%的準確率，明顯高于其他4種優(yōu)化算法。

表4 不同優(yōu)化算法的比較

4.4 Dropout網(wǎng)絡(luò)優(yōu)化

本文分別在KTH數(shù)據(jù)集和骨架識別數(shù)據(jù)集上針對dropout進行實驗，通過設(shè)定不同的dropout系數(shù)得到最終的準確率，如圖11(a)所示是標準的一個全連接的神經(jīng)網(wǎng)絡(luò)，圖11(b)是對標準的全連接神經(jīng)網(wǎng)絡(luò)應(yīng)用dropout后的結(jié)果。從圖中可以看出，當加入dropout系數(shù)后，神經(jīng)網(wǎng)絡(luò)會以一定的概率隨機丟棄掉一些神經(jīng)元。

圖11 神經(jīng)網(wǎng)絡(luò)

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓練經(jīng)驗一般會把dropout系數(shù)范圍設(shè)定為0.2～0.5，本文為了更有效地對比dropout的作用，將其系數(shù)設(shè)定為0～0.7。識別效果如圖12所示。

圖12 Dropout系數(shù)對結(jié)果的影響

從圖中能夠總結(jié)出在合理的參數(shù)選擇范圍內(nèi)，隨著dropout系數(shù)的增加，模型準確率不斷提高；但當dropout系數(shù)增加到一定數(shù)值后，模型的準確率開始下降。由此可以得出，適當?shù)膁ropout系數(shù)可以減少模型的過擬合問題，有利于提高模型的準確率。

5 結(jié) 論

本文提出了一種基于骨架識別的人體行為研究方法，將最近比較流行的骨架識別與深度學習相結(jié)合。該方法利用Kinect相機對人體的骨架信息進行采集，有效地忽略了光照和復雜背景的影響，采集的人體骨架信息能夠更好地表達人體的行為特征。然后介紹了AlexNet卷積神經(jīng)網(wǎng)絡(luò)，將采集的骨架信息制作成訓練集輸入到AlexNet神經(jīng)網(wǎng)絡(luò)中去訓練，并根據(jù)人體行為的時序性，提出了基于連續(xù)幀的組合方法，極大地提高了模型的準確率。最后，通過理論結(jié)合實際，本文分別在前景特征提取、網(wǎng)絡(luò)優(yōu)化算法和基于dropout網(wǎng)絡(luò)優(yōu)化方面進行了實驗。實驗結(jié)果表明，本文采用的網(wǎng)絡(luò)參數(shù)最終的識別準確率明顯高于同等環(huán)境下的其他參數(shù)模型。