亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LC3D的摔倒行為識別算法

        2023-10-09 01:46:46查凱文朱華生李舒寧
        計算機應(yīng)用與軟件 2023年9期
        關(guān)鍵詞:模型

        查凱文 朱華生 李 偉 李舒寧

        (南昌工程學院信息工程學院 江西 南昌 330099)

        0 引 言

        傳統(tǒng)的行為識別方法大多是基于特征提取進行[1],由Wang等[2]提出的iDT算法是行為識別領(lǐng)域中非常經(jīng)典的一種算法,也是在深度學習應(yīng)用于該領(lǐng)域前效果最好的算法之一,但由于該算法是基于光流進行運算,所以受光照等環(huán)境因素影響較大。隨著大數(shù)據(jù)時代的來臨與計算機的發(fā)展,深度學習的方法逐漸進入大眾的視野,由Simonyan等[3]提出的雙流CNN首次將卷積神經(jīng)網(wǎng)絡(luò)使用在行為識別當中。而在基于視頻分析[4-5]的問題上,二維卷積網(wǎng)絡(luò)不能很好地捕獲時序上的信息。因此,Ji等[6]提出了能夠提取三維圖像特征的三維卷積神經(jīng)網(wǎng)絡(luò)(C3D)。而傳統(tǒng)的C3D網(wǎng)絡(luò)框架在面對復(fù)雜環(huán)境時容易造成特征提取不明顯的問題,特別在小批量數(shù)據(jù)集中的識別率不高并且存在訓練時間過長會導(dǎo)致梯度消失的問題。上述方法僅使用視頻數(shù)據(jù)作為訓練集,但環(huán)境、光照等多方面因素會降低神經(jīng)網(wǎng)絡(luò)對于摔倒特征的提取準確度。而骨架數(shù)據(jù)能夠更好地反映人體行為的變化,避免過多的干擾因素。骨架數(shù)據(jù)在行為識別中的應(yīng)用最早可以追溯到1973年,Johansson[7]通過實驗發(fā)現(xiàn)人體的運動可以通過一些主要關(guān)節(jié)點的移動來描述。OpenPose[8]是一種基于深度學習的實時骨架檢測算法,但由于識別出的骨架數(shù)據(jù)為2D數(shù)據(jù),一旦關(guān)節(jié)點重合就會造成數(shù)據(jù)丟失的情況。Kinect攝像機能夠自動提取人體的骨架信息,從而達到骨架與視頻數(shù)據(jù)之間的同步。但基于Kinect的行為識別算法[9-11]沒有很好考慮到摔倒行為的時序性。由Hochreater[12]提出的LSTM網(wǎng)絡(luò),在處理時序方面的問題取得了很大的進步?;贚STM的行為識別算法[13-15]在時序建模方面取得了很好的成果,但仍然缺少空間特征。由Donahue等[16]提出的LRCN網(wǎng)絡(luò)同時兼顧了時間特征和空間特征,但由于視頻中的無關(guān)因素對時間序列上的影響力過大,所以取得效果仍然不如傳統(tǒng)C3D網(wǎng)絡(luò)。

        針對上述問題,本文提出一種新的基于時序三維卷積網(wǎng)絡(luò)(LC3D)的摔倒識別算法,即同步獲取視頻和骨架兩組數(shù)據(jù),將視頻數(shù)據(jù)輸入到改進后的C3D網(wǎng)絡(luò)進行訓練后提取摔倒行為的C3D模型;同時將骨架數(shù)據(jù)輸入至LSTM網(wǎng)絡(luò)進行訓練并提取摔倒行為的LSTM模型;最后通過Stacking算法將兩個模型進行融合得到LC3D模型。本文的主要貢獻有兩點:一是對C3D網(wǎng)絡(luò)進行了改進,降低了C3D網(wǎng)絡(luò)的時間和空間復(fù)雜度,解決了梯度消失的問題。二是將C3D模型和LSTM模型進行融合,得到的LC3D模型在摔倒行為識別時,具有更高的準確率。

        1 算法實現(xiàn)

        1.1 算法總體結(jié)構(gòu)

        基于LC3D的摔倒行為識別算法主要分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、LC3D模型訓練和基于LC3D網(wǎng)絡(luò)的摔倒識別四個部分。首先將采集到的視頻與骨架數(shù)據(jù)進行預(yù)處理,并同時在數(shù)據(jù)集上訓練出基于LC3D網(wǎng)絡(luò)的摔倒識別模型,最后將訓練好的模型與處理好的數(shù)據(jù)再次輸入至LC3D網(wǎng)絡(luò)進行識別。該算法整體流程如圖1所示。

        圖1 基于LC3D的摔倒行為識別算法流程

        1.2 數(shù)據(jù)預(yù)處理

        在數(shù)據(jù)采集方面本文使用Kinect感應(yīng)器進行采集,該設(shè)備能夠同步獲取視頻與骨架數(shù)據(jù)。同時,在訓練模型與進行摔倒識別之前,需要對視頻與骨架數(shù)據(jù)進行預(yù)處理,以達到更好的識別效果。

        1.2.1視頻數(shù)據(jù)預(yù)處理

        由于采用到的視頻數(shù)據(jù)可能存在分辨率、幀的長度等參數(shù)不一致的問題,而這些問題可能影響訓練時間、識別效率等,為此需要對視頻數(shù)據(jù)做預(yù)處理。預(yù)處理的主要工作是將視頻數(shù)據(jù)調(diào)整為統(tǒng)一大小的訓練樣本,如:將每一段視頻大小統(tǒng)一調(diào)整為h×w×f的樣本,其中:h和w分別表示圖像的高和寬,f表示視頻的幀數(shù)。另外,為了獲得更多的訓練樣本,本文將每個樣本做鏡面翻轉(zhuǎn),得到另一個樣本。

        1.2.2骨架數(shù)據(jù)預(yù)處理

        骨架數(shù)據(jù)與視頻數(shù)據(jù)由Kinect感應(yīng)器同步獲取,因此將骨架數(shù)據(jù)部分所使用的幀數(shù)范圍與視頻數(shù)據(jù)保持一致。同時為了縮短訓練時間,提高識別準確率,我們需要對骨架數(shù)據(jù)進行一定的篩選。對骨架數(shù)據(jù)的篩選主要包括對關(guān)節(jié)點部位、坐標值和分類行為的選擇三部分。

        1) 關(guān)節(jié)點的部位選擇。人體的骨架包括軀干、手臂、腿部三個部分,共有25個關(guān)節(jié)點構(gòu)成,如圖2所示。

        圖2 骨架數(shù)據(jù)示意圖

        當?shù)剐袨榘l(fā)生時,由于跌倒姿勢的不同,腰部以上的關(guān)節(jié)點變化差異較大,而腰部以下的關(guān)節(jié)點的變化大致相同,因此本文只提取腰部(包含髖部中心)以下共9個關(guān)節(jié)點作為訓練數(shù)據(jù)。

        2) 關(guān)節(jié)點的坐標值選擇。骨架數(shù)據(jù)均為三維數(shù)據(jù),即每個關(guān)節(jié)點都有x、y、z三個軸的坐標值。由于摔倒行為是一個序列動作,在摔倒途中z軸坐標值會發(fā)生很大幅度的下降變化,而其他軸的坐標值變化存在不確定性,因此只提取關(guān)節(jié)點的z軸坐標值作為訓練數(shù)據(jù)。

        3) 分類行為的選擇。摔倒行為的一個顯著特征是z軸坐標值的下降變化,而大部分動作的坐標值并沒有下降變化。本文將一些常見行為的關(guān)鍵幀的骨架關(guān)節(jié)點繪制成圖像,結(jié)果如圖3所示。

        圖3 關(guān)鍵幀骨架示意圖

        由圖3可以看出站立與跳起行為腰部以下的關(guān)節(jié)點的z軸坐標并沒有下降的趨勢,且部分關(guān)節(jié)點的坐標值明顯高于摔倒時的坐標值。而坐下和蹲下也具有z軸坐標值下降變化的特征。因此,本文選擇摔倒、坐下和蹲下這3種相近動作進行訓練。

        1.3 LC3D模型訓練

        LC3D模型訓練主要由訓練數(shù)據(jù)預(yù)處理、C3D模型訓練、LSTM模型訓練和模型融合共四個部分組成:

        1) 訓練數(shù)據(jù)預(yù)處理的主要任務(wù)是將數(shù)據(jù)集中的數(shù)據(jù)通過1.2節(jié)所描述的預(yù)處理方法進行處理。

        2) C3D模型訓練包括改進型C3D網(wǎng)絡(luò)和C3D模型兩部分。這部分的重點工作是對C3D網(wǎng)絡(luò)的改進。

        3) LSTM模型訓練包括LSTM網(wǎng)絡(luò)和LSTM模型兩部分。這部分的重點工作是使用LSTM網(wǎng)絡(luò)對骨架數(shù)據(jù)進行訓練得到LSTM模型。

        4) 模型融合的主要任務(wù)是選擇一個合適的融合算法,并利用該算法將兩個模型融合成一個模型。

        LC3D模型訓練模塊的主要結(jié)構(gòu)如圖4所示。

        圖4 LC3D模型訓練模塊結(jié)構(gòu)

        1.3.1C3D模型訓練

        C3D模型訓練首先對采集到的視頻數(shù)據(jù)進行預(yù)處理,然后將處理好的數(shù)據(jù)送到改進型C3D網(wǎng)絡(luò)進行訓練,最后得到C3D模型。

        針對傳統(tǒng)的C3D網(wǎng)絡(luò)時間和空間復(fù)雜度過大且容易造成梯度消失的問題,本文對傳統(tǒng)C3D網(wǎng)絡(luò)進行修改。改進后的網(wǎng)絡(luò)共有4個卷積層,4個池化層和兩個全連接層。其中4個卷積層的神經(jīng)元個數(shù)分別為64、128、256、256。較傳統(tǒng)C3D網(wǎng)絡(luò)結(jié)構(gòu)而言,將8層卷積精簡為4層,能夠有效防止梯度消失并降低時間復(fù)雜度與空間復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)的整體時間復(fù)雜度和空間復(fù)雜度可表示為:

        (1)

        (2)

        式中:輸出特征圖的體積為M2、卷積核體積為K2,l為神經(jīng)網(wǎng)絡(luò)的第l層,Cl-1為輸入通道數(shù),Cl為神經(jīng)網(wǎng)絡(luò)第l個卷積層的輸出通道數(shù)即該層的卷積層個數(shù),D為網(wǎng)絡(luò)的深度。通過式(1)-式(2)可算得傳統(tǒng)C3D網(wǎng)絡(luò)的時間復(fù)雜度為6.535 41×1 012,空間復(fù)雜度為3.256 24×107。而改進型C3D網(wǎng)絡(luò)的時間復(fù)雜度為1.563 45×1 012,空間復(fù)雜度為7.789 82×106。可見改進型C3D網(wǎng)絡(luò)在時間復(fù)雜度和空間復(fù)雜度上有明顯的降低。改進后的C3D網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

        圖5 改進型C3D網(wǎng)絡(luò)結(jié)構(gòu)

        1.3.2LSTM模型訓練

        LSTM模型訓練首先對采集到的骨架數(shù)據(jù)進行預(yù)處理,然后將處理好的數(shù)據(jù)送到LSTM網(wǎng)絡(luò)進行訓練,最后得到LSTM模型。

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在處理時序數(shù)據(jù)上具有優(yōu)勢,但普通RNN網(wǎng)絡(luò)存在網(wǎng)絡(luò)層數(shù)較深時感知力下降的問題。而LSTM網(wǎng)絡(luò)作為RNN網(wǎng)絡(luò)的改進,具有長時記憶功能,能夠很好地解決普通RNN網(wǎng)絡(luò)在訓練過程中感知力下降的問題。因此,本文使用LSTM網(wǎng)絡(luò)對骨架數(shù)據(jù)進行訓練。本文所使用的LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        圖6 LSTM網(wǎng)絡(luò)結(jié)構(gòu)

        LSTM網(wǎng)絡(luò)使用每一個視頻所對應(yīng)的骨架坐標值作為輸入,經(jīng)過3層數(shù)量均為32個神經(jīng)元的LSTM層,最后再使用Softmax進行分類,得到一個基于骨架數(shù)據(jù)的分類模型。

        1.3.3基于Stacking算法的模型融合

        對于神經(jīng)網(wǎng)絡(luò)訓練后的模型,單個模型往往存在過擬合、預(yù)測能力不夠等問題。而Stacking算法不僅可以提高模型的范化能力,還可以分別對過大或過小的數(shù)據(jù)集進行劃分和有放回的操作從而產(chǎn)生不同的數(shù)據(jù)子集,然后通過數(shù)據(jù)子集訓練不同的分類模型,最終將各個分類模型合并成一個大的分類器從而提高預(yù)測能力。

        Stacking融合算法原理[17]是將多個分類器的識別結(jié)果再進行訓練學習,以得到最終的識別結(jié)果。其算法原理如圖7所示。

        圖7 Stacinking算法原理示意圖

        Stacking算法框架包含兩層:基層(base-level)和元層(mate-level)?;鶎佑啥鄠€分類器組成,對原始給定數(shù)據(jù)進行初次分類。

        (3)

        (4)

        在獲得輸入向量xmeta后將其作為元分類器的輸入并繼續(xù)學習。元層只有一個分類器,我們使用Stacking作為元方法將基分類器的輸出作為元特征,并作為輸入訓練得到新的元分類器。經(jīng)過此分類器的學習訓練,得到融合后的分類結(jié)果。本文所使用的Stacking模型融合算法的偽代碼如算法1所示。

        算法1Stacking模型融合算法

        輸入:初始訓練集T=(x1,s1,x2,s2,…,xh,sh),基分類器C3D,LSTM,元分類器Stacking,交叉檢驗子集數(shù)目k。

        輸出:基分類器C3DModel,LSTMModel與元分類器StackingModel。

        Tl,T2…,ITk=CV(T,k)

        Y={}

        FOR EACH TJ in Tl,T2,…,Tk:

        C3DModelj=C3DT-Tj

        LSTMModelj=LSTMT-Tj

        FOR EACH xi in Tj:

        yil=C3DModelj.predict(xi)

        yi2=LSTMModelj.predict(xi)

        Y.append(yil,yi2,si)

        END FOR

        END FOR

        StackingModel=Stacking(Y)

        1.4 LC3D網(wǎng)絡(luò)結(jié)構(gòu)

        與LC3D模型訓練所使用的結(jié)構(gòu)相似,首先將視頻數(shù)據(jù)與C3D權(quán)重一組、骨架數(shù)據(jù)與LSTM權(quán)重為另一組分別通過改進型C3D網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò),然后使用concatenate層對各個網(wǎng)絡(luò)的識別結(jié)果進行合并,最后通過Softmax層對識別結(jié)果進行分類。LC3D網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。

        圖8 LC3D網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        2 實 驗

        2.1 實驗環(huán)境與數(shù)據(jù)集

        本文使用Python作為編程語言,并使用Keras對網(wǎng)絡(luò)框架進行搭建,所使用的環(huán)境如表1所示。

        表1 實驗運行環(huán)境

        模型訓練使用NTU-RGB+D[18-19]作為數(shù)據(jù)集,該數(shù)據(jù)集由新加坡南洋理工大學博云搜索實驗室建立。該數(shù)據(jù)集包含56 880個示例動作,包含120個動作類別。內(nèi)容有RGB視頻和3D骨骼數(shù)據(jù)。每段視頻大小為1 920×1 080,每秒30幀,骨架數(shù)據(jù)記錄了對應(yīng)視頻中人體25個關(guān)節(jié)點的坐標位置。圖9顯示了摔倒、坐下和蹲下三種行為圖在不同人物角度的視頻圖像。

        圖9 摔倒、坐下、蹲下視頻圖像

        2.2 實驗結(jié)果分析

        本文對摔倒、坐下和蹲下三種行為總共2 844個視頻及相應(yīng)的骨架數(shù)據(jù)進行訓練。其中骨架數(shù)據(jù)記錄了對應(yīng)視頻數(shù)據(jù)中所有關(guān)節(jié)點每一幀的坐標值。但由于原數(shù)據(jù)集每一段視頻的幀數(shù)不盡相同,因此為了訓練數(shù)據(jù)的統(tǒng)一,本文只針對每一段視頻的前50幀進行預(yù)處理。此外,視頻圖像的大小與神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置均與傳統(tǒng)C3D網(wǎng)絡(luò)[6]中的參數(shù)保持一致。

        對于視頻數(shù)據(jù),在訓練過程中先將每一個視頻段中的每一幀圖像的大小調(diào)整為112×112。為了加快訓練速度并使神經(jīng)網(wǎng)絡(luò)更注重于關(guān)鍵幀動作,因此在每個視頻數(shù)據(jù)的前50幀中僅提取16幀作為關(guān)鍵幀,即一個112×112×16大小的視頻段作為C3D模型訓練的輸入。C3D網(wǎng)絡(luò)中所有神經(jīng)元大小均為3×3×3;除第一個池化層大小為1×2×2以外,其他均為2×2×2。

        骨架數(shù)據(jù)的數(shù)據(jù)量較視頻數(shù)據(jù)更小,因此在LSTM網(wǎng)絡(luò)中使用每個視頻中前50幀所對應(yīng)的骨架數(shù)據(jù)作為輸入訓練。

        整體神經(jīng)網(wǎng)絡(luò)使用SGD作為優(yōu)化方法,學習率設(shè)為0.003,epoch設(shè)置為16,為了加快學習速度以及減小震蕩將動量參數(shù)momentum設(shè)置為0.9,為了防止過擬合將Dropout率設(shè)置為0.5。使用傳統(tǒng)C3D網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)和LC3D網(wǎng)絡(luò)所得到的訓練結(jié)果分別如圖10-圖12所示。

        圖10 傳統(tǒng)C3D網(wǎng)絡(luò)準確率變化圖

        圖12 LC3D網(wǎng)絡(luò)準確率變化圖

        可以看出,傳統(tǒng)C3D網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)的訓練集與驗證集準確率差距很大,說明使用單個網(wǎng)絡(luò)訓練出來的模型泛化能力較差且容易出現(xiàn)過擬合的情況。而LC3D網(wǎng)絡(luò)的訓練集與驗證集的準確率大致相同且網(wǎng)絡(luò)收斂速度更快,訓練出來的模型更加準確。不同算法準確率比較如表2所示。

        表2 不同算法準確率對比結(jié)果(%)

        由表2可知本文方法達到了82.8%的準確率,較傳統(tǒng)的C3D網(wǎng)絡(luò)提升了17%,較LSTM網(wǎng)絡(luò)提升了12.7%。

        3 結(jié) 語

        本文提出了基于LC3D的摔倒行為識別算法,該方法使用改進C3D網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)分別對視頻和骨架數(shù)據(jù)進行訓練,最后將訓練后的模型進行融合得到最終的摔倒識別模型。該模型在NTU-RGB+D數(shù)據(jù)集上進行驗證,相較傳統(tǒng)的C3D和LSTM網(wǎng)絡(luò)擁有更高的識別準確率。本算法適用于家庭、養(yǎng)老院和醫(yī)院等多種看護場景,能夠準確并及時地發(fā)現(xiàn)摔倒行為,且該算法能夠廣泛地應(yīng)用于監(jiān)控設(shè)備之中,對于目前日益增加的精準看護需求具有重大意義。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        国产精品午夜爆乳美女视频| 亚洲av综合色区久久精品| 蕾丝女同一区二区三区| 欧美日韩精品乱国产| 日躁夜躁狠狠躁2001| 亚洲色欲Aⅴ无码一区二区| 日本在线免费一区二区三区| 日本一区二区精品高清| 97精品国产97久久久久久免费| 亚洲肥老太bbw中国熟女| 亚洲日韩成人无码不卡网站| 国产中文色婷婷久久久精品| 亚洲av无码精品色午夜app| 扒开双腿疯狂进出爽爽爽视频| 亚洲AV无码精品色午夜超碰| 亚洲综合伊人久久综合| 亚洲综合欧美色五月俺也去| 无码国产精品一区二区高潮| 久久免费国产精品一区二区| 亚洲一区二区岛国高清| 亚洲av男人电影天堂热app| 欧美日韩视频无码一区二区三| 国产成人精品麻豆| 亚洲中文字幕乱码在线观看| 性做久久久久久免费观看| 亚洲精品无码mv在线观看| 免费无遮挡毛片中文字幕| 国产91精品一区二区麻豆亚洲| 日韩人妻无码一区二区三区久久| 成年男女免费视频网站| 国产综合一区二区三区av| 免费的小黄片在线观看视频| 亚洲av午夜福利精品一区二区| 欧美成人在线A免费观看| 日本一区二区三区在线观看视频| 久久婷婷国产综合精品| 欧美第一黄网免费网站| 日韩欧美亚洲国产一区二区三区| 亚洲免费一区二区三区四区| 亚洲国产精品无码专区影院| 国产爆乳无码一区二区在线|