馬 莉,王 卓,代新冠,賈榮豪
(西安科技大學(xué) 通信與信息工程學(xué)院,陜西 西安 710600)
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,行為識(shí)別技術(shù)廣泛應(yīng)用于安全、交通及醫(yī)療等領(lǐng)域,利用行為識(shí)別技術(shù)對(duì)建筑工地施工人員行為進(jìn)行智能監(jiān)察成為廣泛研究的熱點(diǎn)。傳統(tǒng)的人員不安全行為識(shí)別主要采用前端視頻采集并結(jié)合云端檢測(cè)識(shí)別的模式,而邊緣計(jì)算具有實(shí)時(shí)處理的優(yōu)勢(shì),能減少網(wǎng)絡(luò)傳輸帶來(lái)的檢測(cè)時(shí)延,并降低因網(wǎng)絡(luò)傳輸帶來(lái)的隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)[1]。因此,設(shè)計(jì)并實(shí)現(xiàn)人員不安全行為的邊緣檢測(cè)模型具有重要的現(xiàn)實(shí)意義。
由于云端的行為識(shí)別模型主要基于GPU進(jìn)行推理,對(duì)處理器性能有較高要求,大量網(wǎng)絡(luò)參數(shù)也會(huì)占用較多存儲(chǔ)空間。識(shí)別模型受限于處理器性能與內(nèi)存空間無(wú)法直接在邊緣端設(shè)備上實(shí)時(shí)運(yùn)行,因此,需開(kāi)展模型輕量化設(shè)計(jì),在保證模型識(shí)別準(zhǔn)確率的前提下降低模型計(jì)算復(fù)雜度和模型大小,解決識(shí)別模型在邊緣設(shè)備上的部署問(wèn)題。
基于深度學(xué)習(xí)的人員行為識(shí)別方法由于具有高效和高識(shí)別率的特點(diǎn)而被廣泛使用。目前行為識(shí)別模型主要分為3類:雙流CNN,3D CNN和CNN-LSTM。SIMONYAN等提出雙流卷積神經(jīng)網(wǎng)絡(luò)[2](two stream convolutional neural network),通過(guò)將視頻流劃分為時(shí)間流和空間流,分別提取時(shí)間特征和空間特征,識(shí)別精度較傳統(tǒng)方法有了明顯提升,并且視頻處理速度更快。雙流CNN分別利用RGB圖像和堆疊光流圖像進(jìn)行分析處理[3],能夠有效地利用視頻中的時(shí)間信息,但是對(duì)于長(zhǎng)時(shí)動(dòng)態(tài)信息利用率不高[4]。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)網(wǎng)絡(luò)適合處理長(zhǎng)時(shí)序列,因此GAMMULLE等提出融合LSTM的雙流CNN網(wǎng)絡(luò)用于行為識(shí)別,利用雙流CNN提取單幀圖像的時(shí)空流特征,將得到的特征按時(shí)間順序輸入LSTM,最終得到視頻數(shù)據(jù)的行為特征,且取得了很好的效果[5]。JI等提出利用3D卷積核[6]提取視頻序列的時(shí)空間特征進(jìn)行行為識(shí)別,由于采用了端到端的方式,具有處理速度快,但存在模型參數(shù)量大,識(shí)別準(zhǔn)確率不高的問(wèn)題。DONAHUE等提出長(zhǎng)時(shí)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)[7],將LSTM與CNN相結(jié)合,利用CNN提取單幀圖像的卷積特征,將得到的特征按時(shí)間順序輸入LSTM,最終得到視頻數(shù)據(jù)的行為特征,該方法處理速度較快,但也存在準(zhǔn)確率不高的問(wèn)題。
模型輕量化設(shè)計(jì)其中一個(gè)重要的技術(shù)路線是設(shè)計(jì)高效的網(wǎng)絡(luò)結(jié)構(gòu),以犧牲部分準(zhǔn)確率為代價(jià),減少網(wǎng)絡(luò)參數(shù),以滿足實(shí)時(shí)性與低內(nèi)存的要求。近些年,輕量化的CNN模型相繼被提出,最具代表性的有SqueezeNet,MobileNet,ShuffleNet等。SqueezeNet[8]將單個(gè)卷積運(yùn)算進(jìn)行拆分,拆分為為1×1大小的卷積核以及由3×3和1×1大小卷積核2部分,其比例可通過(guò)參數(shù)調(diào)節(jié),能大幅降低模型參數(shù)。MobileNetV1[9]引入深度可分離卷積替換普通卷積降低模型計(jì)算復(fù)雜度和參數(shù)量,MobileNetV2[10]在此基礎(chǔ)上借鑒殘差網(wǎng)絡(luò)引入反向殘差和線性瓶頸,以提高模型的準(zhǔn)確率,MobileNetV3[11]通過(guò)引入通道注意力進(jìn)一步提高模型準(zhǔn)確率。ShuffleNetV1[12]引入分組卷積,大幅降低計(jì)算量。ShuffleNetV2[13]針對(duì)大量的1×1卷積和元素級(jí)加法引入通道分離,避免元素級(jí)加法,降低計(jì)算復(fù)雜度。
如圖1所示,文中提出的基于雙流CNN與Bi-LSTM的施工人員不安全行為輕量級(jí)識(shí)別模型,主要包含雙流特征提取模塊、特征融合模塊和行為分類模塊。模型在傳統(tǒng)雙流CNN的基礎(chǔ)上進(jìn)行改進(jìn),通過(guò)使用輕量化網(wǎng)絡(luò)ShuffleNetV2結(jié)構(gòu)代替?zhèn)鹘y(tǒng)CNN結(jié)構(gòu)達(dá)到降低模型計(jì)算復(fù)雜度和模型參數(shù)量的目的。與此同時(shí),為了保證模型識(shí)別準(zhǔn)確率,模型在雙流特征提取模塊中引入卷積注意力模塊提取時(shí)空雙流特征,以較小的計(jì)算復(fù)雜度提升為代價(jià)提高行為識(shí)別準(zhǔn)確率;在特征融合模塊中引入Bi-LSTM網(wǎng)絡(luò),獲取視頻前后的關(guān)聯(lián)信息,充分考慮特征之間的時(shí)序關(guān)系,更好的融合時(shí)空雙流特征,提高識(shí)別準(zhǔn)確率;在行為分類模塊中利用注意力機(jī)制實(shí)現(xiàn)自適應(yīng)分配權(quán)重,從而提升人員行為識(shí)別準(zhǔn)確率。
圖1 基于雙流CNN與Bi-LSTM的施工人員不安全行為輕量級(jí)識(shí)別模型Fig.1 Lightweight recognition model for unsafe behaviors of construction workers based on two-stream CNN and Bi-LSTM
雙流神經(jīng)網(wǎng)絡(luò)利用時(shí)間流和空間流分別提取視頻行為特征,空間流網(wǎng)絡(luò)將多個(gè)RGB圖像幀作為輸入,提取人員動(dòng)作的空間特征;時(shí)間流網(wǎng)絡(luò)將多個(gè)光流圖作為輸入,提取人員運(yùn)動(dòng)的時(shí)間特征。基于雙流網(wǎng)絡(luò)框架將特征提取網(wǎng)絡(luò)替換為引入了卷積注意力模塊的ShuffleNetV2網(wǎng)絡(luò),在保證準(zhǔn)確率的前提下大幅提升了行為識(shí)別速度。
1.1.1 ShuffleNetV2網(wǎng)絡(luò)
傳統(tǒng)雙流特征提取網(wǎng)絡(luò)基于CNN,存在特征提取耗時(shí)較長(zhǎng)、網(wǎng)絡(luò)參數(shù)量較大的問(wèn)題。因此采用輕量化結(jié)構(gòu)ShuffleNetV2替換原有的特征提取網(wǎng)絡(luò),利用有限的計(jì)算資源來(lái)實(shí)現(xiàn)較高的模型精度,實(shí)現(xiàn)在速度和準(zhǔn)確度之間的平衡,降低模型計(jì)算復(fù)雜度,提高識(shí)別效率。ShuffleNetV2網(wǎng)絡(luò)由ShuffleNet網(wǎng)絡(luò)升級(jí)而來(lái),ShuffleNet的核心是逐點(diǎn)組卷積和通道混洗,ShuffleNetV2在此基礎(chǔ)上又引入了通道分離操作。逐點(diǎn)組卷積即逐點(diǎn)卷積和分組卷積的結(jié)合。分組卷積是對(duì)輸入的特征圖進(jìn)行分組,然后對(duì)每組分別進(jìn)行卷積,能夠大幅降低卷積參數(shù)量。逐點(diǎn)卷積為使用卷積核大小為1×1的卷積操作,可以起到一個(gè)跨通道聚合的作用,所以進(jìn)一步可以起到降維(或者升維)的作用,達(dá)到減少參數(shù)的目的[14]。分組卷積可用于減少模型參數(shù)量,但是ShuffleNet中使用了過(guò)多的分組卷積導(dǎo)致內(nèi)存訪問(wèn)時(shí)間(memory access cost,MAC)增加,也導(dǎo)致通道間信息分離。為了實(shí)現(xiàn)特征圖之間的通道信息融合,如圖2所示,ShuffleNetV2在通道混洗操作上又引入了通道分離的操作。網(wǎng)絡(luò)通過(guò)將輸入特征劃分為2個(gè)分支,通道數(shù)分別為C-C1和C1。左邊分支保持不變,右邊分支經(jīng)過(guò)多次卷積,再將2個(gè)分支合并,經(jīng)過(guò)通道混洗操作將每一組的特征分散至不同的組后再進(jìn)行分組卷積,實(shí)現(xiàn)不同通道之間的信息交流。
圖2 ShuffleNetV2單元Fig.2 ShuffleNetV2 unit
1.1.2 卷積注意力模塊
利用輕量化結(jié)構(gòu)ShuffleNetV2提取雙流特征能有效降低網(wǎng)絡(luò)的計(jì)算量及其大小,但也導(dǎo)致行為識(shí)別準(zhǔn)確率下降。因此引入卷積注意力模塊(convolutional block attention module,CBAM)以較小的計(jì)算開(kāi)銷提升網(wǎng)絡(luò)性能。CBAM[15]是一個(gè)輕量級(jí)的通用模塊,可以集成到其他CNN框架中。CBAM結(jié)合了空間和通道注意力機(jī)制,既考慮不同道像素的重要性,又考慮了同一通道不同位置像素的重要性,是一種簡(jiǎn)單而有效的注意力模塊。CBAM的結(jié)構(gòu)如圖3所示,模塊的輸入為上一卷積層的輸出特征,通過(guò)一個(gè)通道注意力模塊,得到加權(quán)結(jié)果之后,會(huì)再經(jīng)過(guò)一個(gè)空間注意力模塊,最終進(jìn)行加權(quán)得到結(jié)果。
圖3 卷積注意力模塊結(jié)構(gòu)Fig.3 Structure of convolutional block attention module
通道注意力模塊結(jié)構(gòu)如圖4所示,其利用平均值池化和最大值池化將輸入特征在空間上進(jìn)行壓縮得到2個(gè)不同的空間信息描述符,再輸入到多層感知機(jī)中壓縮輸入特征圖的空間維度,逐元素求和合并得到通道注意力特征圖。
(4)協(xié)作程度(體現(xiàn)為設(shè)計(jì)方案的鏈長(zhǎng))與方案的平均質(zhì)量之間有正向關(guān)系,但高分方案的鏈長(zhǎng)與方案數(shù)量呈近似正態(tài)分布。
圖4 通道注意力模塊Fig.4 Channel attention module
空間注意力模塊結(jié)構(gòu)如圖5所示,其對(duì)通道注意力特征圖的通道進(jìn)行壓縮,在通道維度上分別進(jìn)行了平均值池化和最大值池化,再將所得到的特征圖合并得到空間注意力特征圖。
圖5 空間注意力模塊Fig.5 Spatial attention module
1.1.3 引入卷積注意力模塊的輕量雙流特征提取模塊的網(wǎng)絡(luò)結(jié)構(gòu)
雙流特征提取模塊的網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)表1。表中L為輸入數(shù)據(jù)通道數(shù),空間流中L=30,時(shí)間流中L=20;重復(fù)次數(shù)表示該模塊在網(wǎng)絡(luò)中堆疊個(gè)數(shù)。
由于傳統(tǒng)雙流結(jié)構(gòu)提取的時(shí)空特征僅在最后的Softmax層進(jìn)行融合,沒(méi)有充分考慮時(shí)空特征時(shí)序連續(xù)性[16]。因此,在特征融合模塊中引入Bi-LSTM強(qiáng)化時(shí)空特征關(guān)聯(lián)性與時(shí)序性。Bi-LSTM的核心在于引入了可控自循環(huán)[17],以產(chǎn)生讓梯度能夠得以長(zhǎng)時(shí)間可持續(xù)流動(dòng)的路徑,克服長(zhǎng)序列模型訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題[18]。由于運(yùn)動(dòng)特征是具有時(shí)序性的人員行為信息,而在Bi-LSTM中,當(dāng)前時(shí)刻的輸入同時(shí)依賴前后的視頻幀,充分考慮視頻幀的時(shí)序信息[19],因此考慮將雙流網(wǎng)絡(luò)提取的時(shí)空特征作為Bi-LSTM網(wǎng)絡(luò)的輸入特征。Bi-LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 Bi-LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Network structure of Bi-LSTM
ht=f(w1xt+w2ht-1+b1)
(1)
(2)
(3)
式中Ot為Bi-LSTM的輸出特征向量;b1,b2為前饋層和反饋層的網(wǎng)絡(luò)偏置,f()為tanh函數(shù),g()為Sigmoid函數(shù)。Bi-LSTM通過(guò)同時(shí)對(duì)前向和后向LSTM單元信息的更新,輸出不同時(shí)刻的時(shí)空融合特征向量,最后將該特征輸入到注意力機(jī)制模塊中。
注意力機(jī)制模仿人類視覺(jué)系統(tǒng)中大腦處理信號(hào)的機(jī)制,通常被運(yùn)用在圖像處理和自然語(yǔ)言處理領(lǐng)域。注意力機(jī)制通過(guò)網(wǎng)絡(luò)中不同時(shí)刻Bi-LSTM網(wǎng)絡(luò)輸出的特征向量動(dòng)態(tài)分配權(quán)重,對(duì)識(shí)別結(jié)果有利的幀賦予更高的權(quán)重,提高識(shí)別的準(zhǔn)確率[20]。利用Bi-LSTM網(wǎng)絡(luò)可以提取到視頻中的行為特征,但是當(dāng)視頻較長(zhǎng)時(shí),提取到的行為特征中會(huì)包含大量冗余信息,關(guān)鍵信息會(huì)被淹沒(méi),這會(huì)對(duì)后續(xù)的行為識(shí)別的準(zhǔn)確度產(chǎn)生影響。注意力機(jī)制結(jié)構(gòu)如圖7所示。
圖7 注意力機(jī)制結(jié)構(gòu)Fig.7 Attention mechanism structure
圖7中Ot為Bi-LSTM網(wǎng)絡(luò)輸出的第t個(gè)特征向量;St為第t個(gè)隱藏層的輸出Ot在所有視頻幀中所占的分值;αt為權(quán)重系數(shù),表示各個(gè)時(shí)刻的注意力概率分布值。計(jì)算公式如下
St=tanh(wtOt+bt)
(4)
(5)
(6)
式中wt和bt分別為權(quán)重和偏置;tanh()為非線性激活函數(shù)。γ為包含特征信息的特征向量,經(jīng)Softmax分類函數(shù)后可以得到行為識(shí)別結(jié)果。
實(shí)驗(yàn)數(shù)據(jù)使用UCF-101數(shù)據(jù)集和自建建筑工地施工人員數(shù)據(jù)集進(jìn)行不安全行為識(shí)別。UCF-101視頻數(shù)據(jù)集是在行為識(shí)別領(lǐng)域被廣泛使用的公開(kāi)數(shù)據(jù)集,主要來(lái)源于YouTube視頻平臺(tái),類別包括人與物的互動(dòng)、人與人的互動(dòng)、人員動(dòng)作、樂(lè)器運(yùn)動(dòng)和體育運(yùn)動(dòng),共計(jì)101種行為類別。UCF-101數(shù)據(jù)集不僅包含多種行為類別,還包含各種的復(fù)雜背景,存在光線不足和相機(jī)晃動(dòng)等問(wèn)題,對(duì)于模型的魯棒性有較高要求[21]。自建建筑施工人員數(shù)據(jù)集主要來(lái)源于在某建筑工地實(shí)拍的施工人員行為視頻,類別主要分為正常行為和危險(xiǎn)行為,正常行為包括正常行走、搬運(yùn)物品、使用推車、駕駛車輛、搭建腳手架、清理工地、施工作業(yè)7類行為,危險(xiǎn)行為包括攀爬高處、翻越圍欄、快速奔跑、拋擲物品、打鬧推搡、意外摔倒和使用手機(jī)7類行為,正常行為和危險(xiǎn)行為共計(jì)14種[22]。所提模型只考慮正常施工環(huán)境,對(duì)于人員密集場(chǎng)所不做考慮。如圖8所示,自建數(shù)據(jù)集在稀疏場(chǎng)景下進(jìn)行數(shù)據(jù)采集,采集時(shí)人員佩戴安全帽,身穿反光背心。
圖8 自建數(shù)據(jù)集示例Fig.8 Examples of self-built data set
實(shí)驗(yàn)所用數(shù)據(jù)集具體參數(shù)見(jiàn)表2。
表2 實(shí)驗(yàn)所用數(shù)據(jù)集參數(shù)
實(shí)驗(yàn)所需數(shù)據(jù)集需要進(jìn)行預(yù)處理,數(shù)據(jù)集劃分以及數(shù)據(jù)采樣后才可用于模型訓(xùn)練。實(shí)驗(yàn)首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,主要分為3步:①將每段視頻依據(jù)25 fps的幀率進(jìn)行采集,獲得多幀RGB圖像;②基于OpenCV視覺(jué)庫(kù)中的稠密光流幀提取方法,分別提取視頻中水平和垂直方向上的光流幀;③通過(guò)隨機(jī)采樣的方式對(duì)數(shù)據(jù)采樣[23],將視頻幀序列共分為十段,每段隨機(jī)取一幀RGB圖像幀與光流幀,10幀為一組,并將圖像幀的大小裁剪為244×244。因此,空間流數(shù)據(jù)的輸入大小為244×244×30,時(shí)間流數(shù)據(jù)的輸入大小為244×244×20。
實(shí)驗(yàn)基于PyTorch深度學(xué)習(xí)框架搭建模型,具體實(shí)驗(yàn)環(huán)境為:Intel i7-8700處理器、NVIDIA GTX 2080 Ti顯卡和16G運(yùn)行內(nèi)存。模型采用交叉熵函數(shù)作為損失函數(shù)進(jìn)行訓(xùn)練,用于衡量訓(xùn)練后樣本分類結(jié)果與訓(xùn)練樣本標(biāo)簽的相似度。模型訓(xùn)練采用自適應(yīng)矩估計(jì)(Adam)方法,實(shí)現(xiàn)損失函數(shù)收斂到最小值。Adam方法特點(diǎn)在于自適應(yīng)調(diào)整學(xué)習(xí)率,適合大規(guī)模數(shù)據(jù)及參數(shù)場(chǎng)景,實(shí)現(xiàn)簡(jiǎn)單,計(jì)算高效,對(duì)內(nèi)存需求少。實(shí)驗(yàn)采用遷移學(xué)習(xí)方法,首先基于UCF101數(shù)據(jù)集進(jìn)行模型訓(xùn)練,訓(xùn)練完成后固定部分模型參數(shù),利用自建建筑施工人員行為數(shù)據(jù)集進(jìn)行訓(xùn)練,獲得最終實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)的訓(xùn)練超參數(shù)設(shè)置見(jiàn)表3。
表3 模型超參數(shù)設(shè)置
初始學(xué)習(xí)率用于限制初始時(shí)梯度更新時(shí)的步長(zhǎng),通常設(shè)置為0.001;批量大小受GPU內(nèi)存限制,當(dāng)大小為8時(shí)能夠在內(nèi)存不溢出的情況下最大化提高模型訓(xùn)練效率;一階矩估計(jì)指數(shù)衰減率用于控制動(dòng)量與當(dāng)前梯度的權(quán)重分配,通常取接近于1的值,默認(rèn)為0.9。二階矩估計(jì)指數(shù)衰減率用于控制梯度平方的對(duì)動(dòng)量的影響,默認(rèn)為0.999。Epsilon參數(shù)是增加數(shù)值計(jì)算的穩(wěn)定性而加到分母里的常數(shù),避免除數(shù)為0,默認(rèn)為1.0×10-8。
圖9為所提模型在對(duì)UCF-101數(shù)據(jù)集訓(xùn)練過(guò)程中的損失函數(shù)曲線與測(cè)試集識(shí)別準(zhǔn)確率變化曲線。從圖中可以看出隨訓(xùn)練輪數(shù)增加,每輪的平均損失函數(shù)與平均準(zhǔn)確率趨于穩(wěn)定,最終損失值下降到0.1左右,測(cè)試集識(shí)別準(zhǔn)確率最高可達(dá)94.3%,由此可以分析出所提模型的訓(xùn)練結(jié)果比較理想,具有較高的識(shí)別準(zhǔn)確率。
圖9 模型訓(xùn)練中損失與準(zhǔn)確率變化Fig.9 Changes of loss and accuracy in model training
模型利用遷移學(xué)習(xí)方法在自建建筑工地?cái)?shù)據(jù)集上進(jìn)行二次訓(xùn)練,固定雙流特征提取網(wǎng)絡(luò)中Flatten層及之前的網(wǎng)絡(luò)參數(shù),并對(duì)其余網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,最終在測(cè)試集上得到最高識(shí)別準(zhǔn)確率為94.8%。模型通過(guò)在UCF-101數(shù)據(jù)集上的訓(xùn)練已經(jīng)具有較高的識(shí)別準(zhǔn)確率,并且由于自建數(shù)據(jù)集數(shù)據(jù)量較少,場(chǎng)景相對(duì)單一,行為類別相對(duì)較少,因此在自建數(shù)據(jù)集上具有更高的識(shí)別準(zhǔn)確率。
考慮到所設(shè)計(jì)的模型主要應(yīng)用于邊緣設(shè)備,因此,除了識(shí)別準(zhǔn)確率之外,模型的計(jì)算復(fù)雜度和模型參數(shù)量也成為評(píng)估模型的主要指標(biāo),需要對(duì)模型的計(jì)算量與大小進(jìn)行評(píng)估[24]。模型的計(jì)算復(fù)雜度使用累加乘積操作次數(shù)作為衡量標(biāo)準(zhǔn),利用模型所包含乘法操作與加法操作次數(shù)來(lái)表征。模型的大小通常利用模型的參數(shù)量來(lái)表示,直接決定模型文件的大小,也影響模型推斷時(shí)對(duì)內(nèi)存的占用量。模型準(zhǔn)確率通過(guò)統(tǒng)計(jì)正確識(shí)別行為類別樣本占總分類樣本的比例來(lái)表征。模型性能評(píng)價(jià)指標(biāo)見(jiàn)表4。
表4 模型性能評(píng)價(jià)指標(biāo)
其中,Ci,Co為輸入、輸出特征通道數(shù);Hk,Wk為卷積核大小;H,W為輸入特征圖的大??;TP為將正類預(yù)測(cè)為正類數(shù);TN為將負(fù)類預(yù)測(cè)為負(fù)類數(shù);FP將負(fù)類預(yù)測(cè)為正類數(shù);FN為將正類預(yù)測(cè)為負(fù)類數(shù)。
為了驗(yàn)證不同方法的性能指標(biāo),對(duì)多種方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)選取多種經(jīng)典雙流CNN結(jié)構(gòu)作為特征提取網(wǎng)絡(luò),分別計(jì)算其模型復(fù)雜度模型參數(shù)量和識(shí)別準(zhǔn)確率。由于UCF-101數(shù)據(jù)集樣本較多,同一行為涵蓋多種場(chǎng)景,對(duì)模型魯棒性要求較高,因此實(shí)驗(yàn)利用該數(shù)據(jù)集進(jìn)行不同算法的對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表5。
由表5可以看出,利用ResNet作為特征提取骨干網(wǎng)絡(luò)的雙流CNN網(wǎng)絡(luò)參數(shù)量較大,行為識(shí)別率也不高,性能表現(xiàn)不佳。利用VGG16提取雙流特征的方法可以較大的提升識(shí)別準(zhǔn)確率,但是模型參數(shù)量與計(jì)算量均較高。所提模型在UCF101上的識(shí)別準(zhǔn)確率較高,可達(dá)94.3%,計(jì)算復(fù)雜度為7.79 G,模型參數(shù)量為5.38 M,通過(guò)對(duì)比可以看出,該模型的計(jì)算復(fù)雜度和參數(shù)量均最小,相較于傳統(tǒng)雙流識(shí)別方法具有較大的優(yōu)勢(shì),綜合性能更好。
表5 CNN模型的雙流結(jié)構(gòu)模型性能對(duì)比
為了驗(yàn)證模型所引入輕量化結(jié)構(gòu)的對(duì)模型性能的影響,選取多種經(jīng)典的輕量級(jí)模型結(jié)構(gòu)引入雙流CNN網(wǎng)絡(luò)并在UCF101數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表6。
表6 輕量級(jí)CNN模型的雙流結(jié)構(gòu)模型性能對(duì)比
由表6可以看出,ShuffleNetV2雖然模型復(fù)雜度最高,但模型參數(shù)相對(duì)較少,而且具有最高的識(shí)別準(zhǔn)確率。因此,選取雙流CNN-ShuffleNetV2輕量化模型作為雙流CNN網(wǎng)絡(luò)的特征提取網(wǎng)絡(luò)。
3.3.1 卷積注意力模塊引入前后性能對(duì)比
為了驗(yàn)證卷積注意力模塊對(duì)模型性能的影響,使用雙流CNN-ShuffleNetV2模型作為參照模型在UCF101數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,對(duì)應(yīng)表7中基準(zhǔn)模型1,實(shí)驗(yàn)結(jié)果見(jiàn)表7。
表7 卷積注意力模塊引入前后模型性能對(duì)比
由表7可以看出,在引入CBAM后模型計(jì)算復(fù)雜度與模型參數(shù)量雖均有較小提高,但模型識(shí)別準(zhǔn)確率有較大提升。實(shí)驗(yàn)結(jié)果表明,CBAM的引入以模型參數(shù)量與計(jì)算復(fù)雜度較小幅度的增加換取了識(shí)別準(zhǔn)確率0.4%的提升,可滿足文中模型設(shè)計(jì)的需求,因此,文中將CBAM引入該模型以提高模型識(shí)別準(zhǔn)確率。
3.3.2 LSTM,Bi-LSTM引入前后性能對(duì)比
為了驗(yàn)證LSTM與Bi-LSTM引入后對(duì)網(wǎng)絡(luò)性能的影響,以表7中基準(zhǔn)模型1+CBAM作為實(shí)驗(yàn)對(duì)比的參照模型在UCF101數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,對(duì)應(yīng)表8中的基準(zhǔn)模型2,實(shí)驗(yàn)結(jié)果見(jiàn)表8。
由表8可以看出,將LSTM與Bi-LSTM引入模型后,模型的計(jì)算復(fù)雜度沒(méi)有變化,模型參數(shù)量變化較小,但模型的識(shí)別準(zhǔn)確率有較大的提升,說(shuō)明引入Bi-LSTM模型后的識(shí)別準(zhǔn)確率比引入LSTM的高0.3%,表明Bi-LSTM結(jié)構(gòu)對(duì)于長(zhǎng)時(shí)序列的雙流特征融合具有更好的表現(xiàn)。
3.3.3 注意力機(jī)制引入前后性能對(duì)比
為了驗(yàn)證注意力機(jī)制引入后對(duì)網(wǎng)絡(luò)性能的影響,文中使用以基準(zhǔn)模型2+Bi-LSTM作為實(shí)驗(yàn)對(duì)比的參照模型在UCF101數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,對(duì)應(yīng)表9中的基準(zhǔn)模型3,實(shí)驗(yàn)結(jié)果見(jiàn)表9。
實(shí)驗(yàn)結(jié)果表明,引入注意力機(jī)制后,模型計(jì)算復(fù)雜度與模型參數(shù)不變,而模型的識(shí)別準(zhǔn)確率提升0.2%。
1)采用高效輕量化網(wǎng)絡(luò)結(jié)構(gòu)ShuffleNetV2替代傳統(tǒng)CNN能夠大幅降低模型計(jì)算復(fù)雜度和模型參數(shù)量,且在UCF-101數(shù)據(jù)集上行為識(shí)別準(zhǔn)確率可達(dá)93.1%,相較傳統(tǒng)雙流CNN綜合性能更優(yōu),相比其他輕量級(jí)雙流CNN具有最高的識(shí)別準(zhǔn)確率,適合部署在邊緣設(shè)備上。
2)為提高識(shí)別準(zhǔn)確率,模型引入卷積注意力模塊,以較小的計(jì)算復(fù)雜度和模型參數(shù)量增加為代價(jià),使得識(shí)別準(zhǔn)確率提升0.4%。模型針對(duì)行為的長(zhǎng)時(shí)序性引入Bi-LSTM增強(qiáng)時(shí)空特征關(guān)聯(lián)性,使得識(shí)別準(zhǔn)確率提升0.6%。模型引入注意力機(jī)制自適應(yīng)分配行為權(quán)重,使得識(shí)別準(zhǔn)確率提升0.2%。
3)所提模型與傳統(tǒng)的雙流CNN網(wǎng)絡(luò)相比具有更低的計(jì)算復(fù)雜度和更小的模型參數(shù)量,累加乘積操作次數(shù)為7.73 G,參數(shù)量為5.38 M,且行為識(shí)別率較高,在UCF101數(shù)據(jù)集和自建數(shù)據(jù)集上可達(dá)94.3%,94.8%,適合在邊緣設(shè)備上部署和運(yùn)行。