曾明如,熊嘉豪,祝 琴,2+
(1.南昌大學(xué) 信息工程學(xué)院,江西 南昌 330036;2.南昌大學(xué) 公共政策與管理學(xué)院,江西 南昌 330036)
基于視頻的人體行為識(shí)別是通過(guò)人工智能算法實(shí)現(xiàn)對(duì)人體行為的預(yù)測(cè)和判斷,在很多領(lǐng)域得到了較為廣泛的應(yīng)用,如在智能樓宇中,公共區(qū)域的人體異常行為有效識(shí)別能保障小區(qū)業(yè)主的生命和財(cái)產(chǎn)安全[1];在制造業(yè)等工業(yè)領(lǐng)域,生產(chǎn)過(guò)程中員工人體行為高效識(shí)別可以避免因人為誤操作而造成的安全事故[2];在智能監(jiān)護(hù)中,老人和兒童的人體行為識(shí)別是弱勢(shì)群體智能監(jiān)護(hù)的技術(shù)保障。同時(shí),人體行為識(shí)別在機(jī)器人、娛樂(lè)、體育賽事等領(lǐng)域也有著廣泛的應(yīng)用[3]。很多現(xiàn)有研究方法忽略了視頻中場(chǎng)景與人體行為間的聯(lián)系,人體運(yùn)動(dòng)特征需要人工提取,無(wú)法滿足常見(jiàn)應(yīng)用場(chǎng)景對(duì)人體行為識(shí)別算法的準(zhǔn)確度要求。深度學(xué)習(xí)具有自動(dòng)提取特征且識(shí)別準(zhǔn)確率較高等優(yōu)點(diǎn),正在成為人體行為識(shí)別算法的主流方法[4-5]。
目前常用的基于深度學(xué)習(xí)的行為識(shí)別算法大都基于卷積神經(jīng)網(wǎng)絡(luò),常用的卷積神經(jīng)網(wǎng)絡(luò)模型主要是基于雙流卷積神經(jīng)網(wǎng)絡(luò)(two stream convolution neural network)和3D卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional neural Networks, 3D ConvNets)[6]。雙流卷積神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型,網(wǎng)絡(luò)包括時(shí)間流和空間流兩部分,時(shí)間流通過(guò)提取光流圖片的像素點(diǎn)位移場(chǎng)獲取圖片人物動(dòng)作的運(yùn)動(dòng)趨勢(shì),從而提取視頻幀的時(shí)間信息,空間流通過(guò)提取靜態(tài)圖片信息完成視頻人物動(dòng)作識(shí)別,從而提取視頻幀的空間信息,雙流卷積神經(jīng)網(wǎng)絡(luò)充分考慮了時(shí)間和空間因素,但將時(shí)間和空間特征完全分開(kāi),忽略了時(shí)間特征在空間上表征的時(shí)效性[7-8]。為此,NG等[9]提出了將雙流卷積神經(jīng)網(wǎng)絡(luò)與LSTM(long short-term memory)網(wǎng)絡(luò)結(jié)合,通過(guò)LSTM網(wǎng)絡(luò)來(lái)提升網(wǎng)絡(luò)對(duì)人體行為的特征提取,該網(wǎng)絡(luò)極大改善了網(wǎng)絡(luò)對(duì)人體行為長(zhǎng)短期特征的提取; LIN等[10]提出了可嵌入到2D卷積神經(jīng)網(wǎng)絡(luò)中的TSM模型(temporal shift module),該網(wǎng)絡(luò)使用殘差和時(shí)間位移的方法來(lái)提升時(shí)空特征傳遞效果,但時(shí)間位移會(huì)造成空間特征的損失。上述方法兼顧了人體行為的時(shí)間和空間特征,但是沒(méi)有很好地將兩者結(jié)合在一起。3D卷積神經(jīng)網(wǎng)絡(luò)則將視頻幀作為一個(gè)整體,同時(shí)提取時(shí)間和空間特征,相比于雙流卷積神經(jīng)網(wǎng)絡(luò),3D卷積神經(jīng)網(wǎng)絡(luò)在提取視頻時(shí)空特征上具有更強(qiáng)的表現(xiàn)力[11-12]。CARREIRA等[13]在3D卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了Two-Stream I3D(Two-stream inflated 3D ConvNets)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用融合3D卷積網(wǎng)絡(luò)的inceptionmodule作為網(wǎng)絡(luò)主體,提升網(wǎng)絡(luò)對(duì)人體行為時(shí)空特征的提取,但結(jié)構(gòu)較為復(fù)雜,增加了每層網(wǎng)絡(luò)的參數(shù)量,使算法的復(fù)雜度增加。此外,QIU等[14]提出了基于3D拆分融合和殘差網(wǎng)絡(luò)的P3D網(wǎng)絡(luò),該網(wǎng)絡(luò)使用3維卷積核拆分的方法降低了網(wǎng)絡(luò)的參數(shù),并使網(wǎng)絡(luò)可以具有更高的層數(shù),從而表征更多的特征,但時(shí)空特征在深層網(wǎng)絡(luò)中同樣容易丟失。
針對(duì)現(xiàn)有網(wǎng)絡(luò)未能有效結(jié)合時(shí)間和空間特征以及難以對(duì)時(shí)間特征進(jìn)行高效傳遞等問(wèn)題,綜合雙流卷積神經(jīng)網(wǎng)絡(luò)和3D卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),本文設(shè)計(jì)了強(qiáng)化偽3D卷積網(wǎng)絡(luò)時(shí)間特征的T-Fusion(temporal fusion)網(wǎng)絡(luò)模型,并基于T-Fusion網(wǎng)絡(luò)模型提出了兩種時(shí)空融合偽3D網(wǎng)絡(luò):TFP3D-A和TFP3D-B。這兩種網(wǎng)絡(luò)均具有偽3D卷積神經(jīng)網(wǎng)絡(luò)運(yùn)行快速的特點(diǎn),且通過(guò)使用融合時(shí)空特征的T-Fusion結(jié)構(gòu),提升了網(wǎng)絡(luò)對(duì)時(shí)空特征的提取,保留了時(shí)空特征在深層網(wǎng)絡(luò)中的完整性,提高了網(wǎng)絡(luò)的準(zhǔn)確度。
融合3D卷積拆分的思想,T-Fusion網(wǎng)絡(luò)模型將拆分網(wǎng)絡(luò)的時(shí)間卷積核作為新結(jié)構(gòu)的一部分,目的是保證網(wǎng)絡(luò)能夠有效地提取時(shí)間特征。
(1)3D卷積拆分
3D卷積神經(jīng)網(wǎng)絡(luò)雖然能提高人體行為識(shí)別的精度,但參數(shù)較多,為此將3D卷積神經(jīng)網(wǎng)絡(luò)中的3×3×3的卷積核拆分1×3×3和3×1×1的卷積核,結(jié)構(gòu)如圖1所示。其中1×3×3的卷積核用來(lái)提取訓(xùn)練樣本的空間特征,3×1×1的卷積核用于提取訓(xùn)練樣本的時(shí)間特征。拆分后的網(wǎng)絡(luò)既保留了3D卷積神經(jīng)網(wǎng)絡(luò)時(shí)間屬性連續(xù)的特點(diǎn),又減少了算法涉及的參數(shù)量,大幅度降低了算法的運(yùn)行時(shí)間[15]。
(2)T-Fusion結(jié)構(gòu)
在人體行為識(shí)別過(guò)程中,樣本是通過(guò)輸入定量等距視頻幀的方式傳輸?shù)教卣魈崛【W(wǎng)絡(luò)中的,由于不同視頻幀的空間特征具有較高的重復(fù)度,實(shí)驗(yàn)樣本的空間特征不易丟失,但實(shí)驗(yàn)樣本的時(shí)間特征主要表現(xiàn)為視頻中人體動(dòng)作的變化趨勢(shì),該特征是實(shí)驗(yàn)樣本的整體特征,在輸入實(shí)驗(yàn)樣本時(shí)不具備重復(fù)性,因此更容易被丟失[14]。為此,文中基于偽3D卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了帶有強(qiáng)化時(shí)間特征的T-Fusion網(wǎng)絡(luò)模型,如圖2所示,其中Main Conv是主網(wǎng)絡(luò)模塊,負(fù)責(zé)對(duì)輸入視頻進(jìn)行特征提取,該模塊可以使用多個(gè)不同網(wǎng)絡(luò)的組合,以結(jié)合不同網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),增加網(wǎng)絡(luò)的豐富度和泛化性,文中使用TFP3D-A和TFP3D-B單一網(wǎng)絡(luò)及其組合網(wǎng)絡(luò)的主干部分作為主網(wǎng)絡(luò);Temporal Conv是時(shí)間融合網(wǎng)絡(luò)模塊,采用3D卷積核拆分后的3×1×1時(shí)間卷積核,該模塊負(fù)責(zé)提取和傳遞輸入視頻時(shí)間特征。在每個(gè)主網(wǎng)絡(luò)模塊上都并聯(lián)一個(gè)時(shí)間融合網(wǎng)絡(luò)模塊可以保證各層網(wǎng)絡(luò)之間時(shí)間特征的有效傳遞,避免時(shí)間特征在提取過(guò)程中被丟失。
在T-Fusion網(wǎng)絡(luò)模型的基礎(chǔ)上,設(shè)計(jì)了兩種偽3D融合網(wǎng)絡(luò):TFP3D-A和TFP3D-B。TFP3D在使用T-Fusion結(jié)構(gòu)的同時(shí)還結(jié)合了殘差結(jié)構(gòu),在確保深度提取時(shí)間特征的同時(shí)還保留了樣本的整體特征。
(1)殘差結(jié)構(gòu)
理論上,隨著網(wǎng)絡(luò)深度的加深,網(wǎng)絡(luò)的參數(shù)將增加,網(wǎng)絡(luò)應(yīng)該能夠更加精確地提取樣本的特征,因此訓(xùn)練效果應(yīng)該越來(lái)越好。但實(shí)際上,當(dāng)網(wǎng)絡(luò)到達(dá)一定深度后,隨著網(wǎng)絡(luò)深度的進(jìn)一步增加,訓(xùn)練的錯(cuò)誤也會(huì)增加,這是由于樣本特征在訓(xùn)練過(guò)程中被丟失造成的,并且網(wǎng)絡(luò)越深樣本特征越容易丟失[16]。采用殘差結(jié)構(gòu)(ResNets)可以有效解決這一問(wèn)題,即使網(wǎng)絡(luò)不斷加深,神經(jīng)網(wǎng)絡(luò)訓(xùn)練的表現(xiàn)卻也依舊不錯(cuò),這是因?yàn)榧尤霘埐罹W(wǎng)絡(luò)之后可以使激活函數(shù)的效果持續(xù)到更深的網(wǎng)絡(luò)。這種方式有助于解決梯度消失和梯度爆炸問(wèn)題,使得在訓(xùn)練更深網(wǎng)絡(luò)的同時(shí),也能保證良好的性能[17-18]。
殘差網(wǎng)絡(luò)模型如圖3所示,在單層神經(jīng)網(wǎng)絡(luò)的前面引出一個(gè)信號(hào)接到該網(wǎng)絡(luò)的輸出端,該信號(hào)與神經(jīng)網(wǎng)絡(luò)并聯(lián)就形成了殘差網(wǎng)絡(luò)結(jié)構(gòu)。殘差結(jié)構(gòu)的數(shù)學(xué)表達(dá)式為:
xt+1=xt+F(xt)。
(1)
式中:xt和xt+1分別為殘差結(jié)構(gòu)的輸入和輸出,xt為殘差結(jié)構(gòu)的跳躍連接;F(xt)為輸入信號(hào)經(jīng)過(guò)3D卷積核后的輸出值。
(2)TFP3D結(jié)構(gòu)
TFP3D結(jié)構(gòu)在偽3D卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上加入了時(shí)間融合網(wǎng)絡(luò),目的是充分保留時(shí)間特征,強(qiáng)化神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)間特征的提取,從而提升神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率。
本文提出的新型卷積神經(jīng)網(wǎng)絡(luò)包含TFP3D-A和TFP3D-B兩種,其結(jié)構(gòu)如圖4所示。
在TFP3D-A中,當(dāng)時(shí)間特征和空間特征融合時(shí),時(shí)間信息將進(jìn)行多次融合,其輸入輸出關(guān)系可以表示為:
xt+1=I[S(xt)+T(xt)]+I[T(xt)]+xt。
(2)
式中:xt和xt+1分別表示輸入和輸出;S表示空間卷積核;T表示時(shí)間卷積核,I表示數(shù)據(jù)的池化操作。
在TFP3D-B中,將融合了時(shí)間和空間特征之后的信號(hào)再與單獨(dú)的時(shí)間特征進(jìn)行融合。兩種模型均采用了融合網(wǎng)絡(luò)的機(jī)制對(duì)時(shí)間特征進(jìn)行多次融合,其公式可以表示為:
xt+1=I[S(xt)×T(xt)+T(xt)]+xt。
(3)
式(3)中的符號(hào)含義與式(2)相同。
在設(shè)計(jì)了TFP3D特征提取網(wǎng)絡(luò)的基礎(chǔ)上,提出了如圖5所示的人體行為識(shí)別算法框架,該框架首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,然后將處理好的數(shù)據(jù)集輸入到TFP3D特征提取網(wǎng)絡(luò)中,提取出時(shí)間和空間特征后將兩種特征進(jìn)行融合,最后將融合后的特征通過(guò)交叉熵函數(shù)對(duì)其進(jìn)行分類。
(1)數(shù)據(jù)預(yù)處理
對(duì)于原數(shù)據(jù)集中的每個(gè)視頻樣本,采取等距提取的方式從中提取16幀圖片,得到如圖6所示的視頻幀序列,每幀圖片都裁剪成為160×160像素,并且包含RGB 3個(gè)通道。將裁剪好的圖片轉(zhuǎn)化為數(shù)組并進(jìn)行歸一化處理,然后隨機(jī)劃分到3個(gè)數(shù)據(jù)集:訓(xùn)練集、交叉驗(yàn)證集和測(cè)試集,3個(gè)數(shù)據(jù)集的占比為6∶2∶2。其中訓(xùn)練集用于訓(xùn)練神經(jīng)網(wǎng)絡(luò);交叉驗(yàn)證集用于訓(xùn)練和交叉驗(yàn)證,其驗(yàn)證結(jié)果作為實(shí)驗(yàn)參考;測(cè)試集用于最后的驗(yàn)證,其結(jié)果作為最終結(jié)果。
(2)特征提取
該模塊可以采用任意行為識(shí)別的特征提取網(wǎng)絡(luò),這里采用了文中設(shè)計(jì)的時(shí)空融合偽3D網(wǎng)絡(luò),即TFP3D網(wǎng)絡(luò)。此外,引入Adam優(yōu)化算法(Adam optimization algorithm)加速特征提取網(wǎng)絡(luò)的訓(xùn)練速度,Adam優(yōu)化算法占用內(nèi)存少、計(jì)算高效且易于實(shí)現(xiàn),不但適用于具有大規(guī)模數(shù)據(jù)和參數(shù)的優(yōu)化問(wèn)題,也可解決高噪聲和稀疏梯度的問(wèn)題,因此非常適合使用在神經(jīng)網(wǎng)絡(luò)的梯度下降過(guò)程中,對(duì)加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練具有顯著效果[19]。在Adam算法的實(shí)現(xiàn)過(guò)程中,使用動(dòng)量梯度下降法更新超參數(shù)β1,使用RMSprop算法更新超參數(shù)β2,然后用β1和β2更新權(quán)重ω和偏移b。
在特征提取網(wǎng)絡(luò)中,將其minibatch值設(shè)置為1 410,選用relu激活函數(shù),迭代次數(shù)epoch=100,將超參數(shù)β1初始化為0.9,超參數(shù)β2初始化為0.999。
(3)交叉熵函數(shù)
損失函數(shù)使用了交叉熵函數(shù),其公式為:
(4)
式中:p為樣本實(shí)際值;q為預(yù)測(cè)值。交叉熵函數(shù)合理地利用了訓(xùn)練過(guò)程中誤差和梯度的正相關(guān)關(guān)系,誤差越大,梯度就越大,參數(shù)調(diào)整就越快,有效地避免了二次代價(jià)函數(shù)存在的參數(shù)調(diào)整緩慢的問(wèn)題,達(dá)到了快速訓(xùn)練網(wǎng)絡(luò)的效果。
為檢驗(yàn)所設(shè)計(jì)的TFP3D神經(jīng)網(wǎng)絡(luò)及算法框架的有效性,實(shí)驗(yàn)將算法與其他一些主流算法進(jìn)行了對(duì)比,并對(duì)不同情況下的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了分析。實(shí)驗(yàn)使用Intel Core i5-10400 CPU,NVIDIA GeForce RTX 2080 11 G顯卡,使用Python語(yǔ)言,版本為Python3.8,使用PyTorch框架,版本為PyTorch1.8.1。
數(shù)據(jù)集選用UCF101,UCF101數(shù)據(jù)集包含了13 320個(gè)樣本,共分為101類,UCF101包含各類場(chǎng)景和動(dòng)作,且視頻清晰度不高,具有動(dòng)作種類齊全,識(shí)別難度適中的特點(diǎn),這些樣本均來(lái)自于YouTube[20],UCF101數(shù)據(jù)集常用于行為識(shí)別的研究,具有較為廣泛的代表性。
在訓(xùn)練過(guò)程中如果選擇呈衰減趨勢(shì)的學(xué)習(xí)率可以有效加快算法的速率,即在剛開(kāi)始訓(xùn)練時(shí)使用較大的學(xué)習(xí)速率以使輸出接近最優(yōu)解,隨著迭代次數(shù)的增多逐漸減小學(xué)習(xí)率以使代價(jià)函數(shù)趨于最小值[21]。本實(shí)驗(yàn)采用了指數(shù)衰減的方法更新學(xué)習(xí)率,將先設(shè)置初始學(xué)習(xí)率,然后每訓(xùn)練十次就將學(xué)習(xí)率縮小到原來(lái)的1/i,經(jīng)過(guò)多次實(shí)驗(yàn)將i設(shè)置為10。這樣既保證了網(wǎng)絡(luò)在前期訓(xùn)練時(shí)的訓(xùn)練速率,防止過(guò)擬合,又保證了后期訓(xùn)練時(shí)的訓(xùn)練精度,防止后期結(jié)果在最優(yōu)解兩端波動(dòng)。
初始學(xué)習(xí)率通過(guò)多次實(shí)驗(yàn)得出,先將初始學(xué)習(xí)率設(shè)置為0.000 05、0.000 5、0.005、0.05這4個(gè)不同數(shù)量級(jí)進(jìn)行實(shí)驗(yàn),得出當(dāng)初始學(xué)習(xí)率為0.005時(shí)訓(xùn)練效果最好,然后將初始學(xué)習(xí)率設(shè)置為相同數(shù)量級(jí)的0.001、0.003、0.005、0.007、0.009分別進(jìn)行實(shí)驗(yàn),得出本次實(shí)驗(yàn)初始學(xué)習(xí)率的最優(yōu)參數(shù)為0.003。上述參數(shù)i通過(guò)相同方法得出。
為了驗(yàn)證算法在實(shí)際生產(chǎn)環(huán)境中的效果,實(shí)驗(yàn)選擇辦公環(huán)境和車(chē)間環(huán)境進(jìn)行了驗(yàn)證。如圖7所示為數(shù)據(jù)集中包含的使用電腦鍵盤(pán)進(jìn)行打字、使用工具進(jìn)行敲打等典型動(dòng)作,此類動(dòng)作具有重復(fù)性高動(dòng)作簡(jiǎn)單等特點(diǎn),通常具有較為明顯的時(shí)間特征,文中所提網(wǎng)絡(luò)對(duì)此類動(dòng)作的識(shí)別具有較好的泛化效果。
在實(shí)驗(yàn)過(guò)程中,由于文中提出的Main Conv模塊具有較高的靈活性,可以將拆分后的3D卷積網(wǎng)絡(luò)組合在一起,因此除分別對(duì)P3D-A、P3D-B、P3D-C、TFP3D-A和TFP3D-B網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)外,還對(duì)TFP3D-A和TFP3D-B兩種網(wǎng)絡(luò)與P3D網(wǎng)絡(luò)交替組合的網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn)。由于在室內(nèi)辦公環(huán)境中,員工的工作環(huán)境通常較為簡(jiǎn)單易于識(shí)別,因此可以采用層數(shù)較少的網(wǎng)絡(luò)進(jìn)行行為識(shí)別;而具有較多器械的車(chē)間工作環(huán)境通常較為復(fù)雜,在此采用層數(shù)較多的網(wǎng)絡(luò)進(jìn)行行為識(shí)別。即基于不同工作場(chǎng)景需求,分別對(duì)層數(shù)較少且未進(jìn)行預(yù)訓(xùn)練的簡(jiǎn)單網(wǎng)絡(luò)和層數(shù)較多并進(jìn)行了預(yù)訓(xùn)練的復(fù)雜網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn)。
(1)T-Fusion淺層網(wǎng)絡(luò)消融實(shí)驗(yàn)
實(shí)驗(yàn)測(cè)試了在學(xué)習(xí)率、優(yōu)化算法等因素相同的情況下不同網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確率。首先測(cè)試了網(wǎng)絡(luò)層數(shù)較少時(shí)(24層)不同網(wǎng)絡(luò)的準(zhǔn)確率,結(jié)果如表1所示。由表1可知,后4組包含T-Fusion結(jié)構(gòu)的TFP3D網(wǎng)絡(luò)識(shí)別準(zhǔn)確率明顯高于前4組不包含T-Fusion結(jié)構(gòu)的P3D網(wǎng)絡(luò),說(shuō)明TFP3D網(wǎng)絡(luò)性能優(yōu)于P3D網(wǎng)絡(luò)。P3D是P3D-A、P3D-B和P3D-C串聯(lián)構(gòu)成的組合網(wǎng)絡(luò),TFP3D是TFP3D-A和TFP3D-B串聯(lián)構(gòu)成的組合網(wǎng)絡(luò),TFP3D+P3D是P3D和TFP3D串聯(lián)構(gòu)成的組合網(wǎng)絡(luò),可見(jiàn)在網(wǎng)絡(luò)層數(shù)相同的情況下,組合網(wǎng)絡(luò)的準(zhǔn)確率高于任意單一網(wǎng)絡(luò),而TFP3D+P3D和TFP3D網(wǎng)絡(luò)的準(zhǔn)確率高于其它網(wǎng)絡(luò)的結(jié)果,說(shuō)明T-Fusion結(jié)構(gòu)確實(shí)提高了網(wǎng)絡(luò)對(duì)視頻幀時(shí)空特征的提取。
表1 加入T-Fusion前后淺層網(wǎng)絡(luò)的結(jié)果
P3D網(wǎng)絡(luò)和TFP3D網(wǎng)絡(luò)的收斂曲線如圖8所示,當(dāng)epoch<30時(shí),TFP3D網(wǎng)絡(luò)比P3D網(wǎng)絡(luò)更快收斂;當(dāng)30≤epoch<50時(shí),兩種算法收斂速率相近;當(dāng)50≤epoch時(shí),P3D網(wǎng)絡(luò)收斂速率趨于0,而TFP3D網(wǎng)絡(luò)依舊在收斂并最終達(dá)到更高的識(shí)別率。由此可見(jiàn),相比于P3D網(wǎng)絡(luò),TFP3D網(wǎng)絡(luò)可以更加深入地挖掘數(shù)據(jù)集時(shí)空特征,以更快的速度收斂且最終能達(dá)到更好的效果。對(duì)于環(huán)境較為簡(jiǎn)單的辦公場(chǎng)景,該實(shí)驗(yàn)效果可以在確保識(shí)別準(zhǔn)確率的前提下提高識(shí)別效果的實(shí)時(shí)性,使用簡(jiǎn)單的網(wǎng)絡(luò)和較低的成本就能達(dá)到對(duì)員工工作行為進(jìn)行識(shí)別的目的。
(2)T-Fusion深層網(wǎng)絡(luò)實(shí)驗(yàn)及不同算法結(jié)果對(duì)比
選用TFP3D和TFP3D+P3D兩種網(wǎng)絡(luò)進(jìn)行深層網(wǎng)絡(luò)實(shí)驗(yàn)(199層),并且使用Kinetics數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練。將實(shí)驗(yàn)結(jié)果與常用的行為識(shí)別算法進(jìn)行比較,如表2所示,結(jié)果表明上述行為識(shí)別網(wǎng)絡(luò)TFP3D的準(zhǔn)確率為92.5%,TFP3D+P3D的準(zhǔn)確率為92.7%,顯著高于其他網(wǎng)絡(luò)。TFP3D網(wǎng)絡(luò)采用T-Fusion結(jié)構(gòu),在特征提取的過(guò)程中保證時(shí)間特征的有效傳遞,在時(shí)間特征的傳遞上比其他網(wǎng)絡(luò)更穩(wěn)定,使特征更不易于丟失,從而使準(zhǔn)確率得到提升。
表2 深層網(wǎng)絡(luò)輸入為視頻幀時(shí)的結(jié)果
同時(shí),將未使用預(yù)訓(xùn)練模型和使用預(yù)訓(xùn)練模型之后TFP3D網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,結(jié)果如圖9所示。在使用預(yù)訓(xùn)練模型進(jìn)行實(shí)驗(yàn)時(shí)網(wǎng)絡(luò)可以迅速收斂,在epoch=10時(shí),準(zhǔn)確率就接近了80%,可以極大地加快網(wǎng)絡(luò)的訓(xùn)練速度,且最終達(dá)到更高的準(zhǔn)確率。
當(dāng)輸入為視頻幀和光流圖,并將二者結(jié)果進(jìn)行加權(quán)平均后結(jié)果如表3所示。將視頻幀和光流圖同時(shí)作為網(wǎng)絡(luò)輸入時(shí),測(cè)試的準(zhǔn)確率相比輸入為視頻幀時(shí)有了極大地提升,原因在于視頻幀作為輸入時(shí)網(wǎng)絡(luò)可以從中提取數(shù)據(jù)集的整體特征,包括空間和時(shí)空特征,而光流圖作為輸入時(shí)網(wǎng)絡(luò)可以忽略無(wú)關(guān)特征并從數(shù)據(jù)集中提取出關(guān)鍵特征。將兩者結(jié)合同時(shí)作為輸入就兼顧了數(shù)據(jù)集的整體特征和主要特征,使最終的準(zhǔn)確率相比單一輸入得到較大的提升。對(duì)于環(huán)境復(fù)雜的車(chē)間場(chǎng)景,使用深層網(wǎng)絡(luò)可以從中提取出更為抽象的行為特征,提升網(wǎng)絡(luò)對(duì)復(fù)雜場(chǎng)景的泛化效果,從而達(dá)到識(shí)別復(fù)雜車(chē)間環(huán)境工人行為的目的。
表3 深層網(wǎng)絡(luò)輸入為視頻幀和光流圖時(shí)的結(jié)果
本文從有效提取樣本時(shí)間特征的角度出發(fā),提出了基于T-Fusion結(jié)構(gòu)的TFP3D網(wǎng)絡(luò),該網(wǎng)絡(luò)在保證行為識(shí)別速度的同時(shí)還可以更有效的提取樣本特征,提高了人體行為識(shí)別的準(zhǔn)確率,相比于其他網(wǎng)絡(luò),TFP3D網(wǎng)絡(luò)在對(duì)視頻特征的提取上具有較高的可靠性。此外,將視頻幀和光流圖同時(shí)作為輸入并最終對(duì)其進(jìn)行加權(quán)平均可以有效地提取視頻的整體特征和關(guān)鍵特征從而提升網(wǎng)絡(luò)的準(zhǔn)確率。同時(shí),該網(wǎng)絡(luò)的結(jié)構(gòu)具有較高的靈活性,其T-Fusion結(jié)構(gòu)中的Main Conv可以使用多個(gè)不同網(wǎng)絡(luò)的組合。從實(shí)驗(yàn)結(jié)果看,使用組合網(wǎng)絡(luò)可以提升網(wǎng)絡(luò)的豐富性,將不同網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)勢(shì)結(jié)合,提升網(wǎng)絡(luò)的泛化性,提高網(wǎng)絡(luò)的準(zhǔn)確率。后續(xù)研究將充分考慮前后網(wǎng)絡(luò)輸入輸出數(shù)據(jù)的尺度,探究其他近似結(jié)構(gòu)更優(yōu)的網(wǎng)絡(luò),降低算法的復(fù)雜度,提高算法識(shí)別的準(zhǔn)確率。