亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的人體行為識別綜述

        2022-07-13 01:51:50鄧淼磊高振東
        計算機(jī)工程與應(yīng)用 2022年13期
        關(guān)鍵詞:特征提取卷積人體

        鄧淼磊,高振東,李 磊,陳 斯

        河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,鄭州 450001

        隨著計算機(jī)技術(shù)的快速發(fā)展,基于視頻智能分析的人體行為識別技術(shù)得到了廣泛的應(yīng)用。在公共安全領(lǐng)域[1],通過行為識別技術(shù)可以檢測打架斗毆、持刀搶劫等違反治安法的暴力行為,盡可能減少因此所造成的人員傷害和財產(chǎn)損失;在智慧交通領(lǐng)域[2-3],通過行為識別技術(shù)可以自動判別如行人/車輛闖紅燈、駕駛員不安全駕駛等交通違法行為,保障人們出行安全;在醫(yī)療監(jiān)護(hù)領(lǐng)域[4-5],通過該技術(shù)可實現(xiàn)對患者的實時監(jiān)控和意外跌倒檢測等,確?;颊吣軌虻玫郊皶r治療和幫助;在安全生產(chǎn)領(lǐng)域[6],可以實現(xiàn)對生產(chǎn)作業(yè)全過程的實時監(jiān)測,對作業(yè)生產(chǎn)過程中出現(xiàn)的可能導(dǎo)致安全隱患的行為及時報警,確保作業(yè)生產(chǎn)在安全可控范圍內(nèi)進(jìn)行,保障人員的人身安全和財產(chǎn)安全。由此可見,基于視頻分析的人體行為識別技術(shù)與人們的生產(chǎn)生活安全息息相關(guān),對其的研究具有深遠(yuǎn)的意義。

        基于視頻分析的行為識別任務(wù)需建立動作、姿態(tài)樣本庫,并對所設(shè)計模型進(jìn)行訓(xùn)練,以實現(xiàn)對視頻中行為的分類。根據(jù)特征提取方式的不同,行為識別可劃分為傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)方法依賴手工對特征提取,由于早期樣本庫數(shù)據(jù)量小,場景簡單,動作單一,傳統(tǒng)方法可以滿足一定的需求。但隨著視頻監(jiān)控技術(shù)的普及,應(yīng)用場景變得越來越復(fù)雜,使用傳統(tǒng)方式提取的視頻特征在識別準(zhǔn)確度上已無法滿足實際需求,視頻監(jiān)控的實際價值難以得到充分利用。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[7]的出現(xiàn)很好地解決了傳統(tǒng)方式的局限性,取得了較好的效果。本文通過對行為識別領(lǐng)域所使用技術(shù)如3D 卷積網(wǎng)絡(luò)、雙流卷積網(wǎng)絡(luò)、few-shot learning(FSL)等進(jìn)行分析和總結(jié),對其未來發(fā)展進(jìn)行展望,旨在為行為識別研究提供技術(shù)和理論支撐。

        1 特征提取方法

        特征提取是對待檢測對象進(jìn)行關(guān)鍵信息提取,用來特征表示的過程,特征提取結(jié)果的好壞直接影響算法識別率和檢測速度。特征提取方法可分為傳統(tǒng)方法和深度學(xué)習(xí),其過程對比如圖1所示。

        圖1 傳統(tǒng)和深度學(xué)習(xí)特征提取過程對比Fig.1 Comparison of traditional and deep learning feature extraction process

        1.1 傳統(tǒng)特征提取方式

        傳統(tǒng)手工特征提取方式可分為兩大類:

        (1)全局特征提取,即對待測對象進(jìn)行一次全局信息提取,因此該特征不包含任何的空間征,同時全局特征受噪聲區(qū)域、視角變化影響較大。其中輪廓剪影(human silhouette)[8-9]、人體關(guān)節(jié)點(human joint point)[10]最具代表性。

        (2)局部特征提取,即對待測對象進(jìn)行多次局部信息提取,最后將多個特征進(jìn)行融合。因此局部特征受視角變化、背景噪聲影響較小。其中最具代表性方法包括運動軌跡(trajectories)[11]、時空興趣點采樣(space-time interest points)[12]等。

        1.2 深度學(xué)習(xí)提取方式

        傳統(tǒng)特征提取方式是基于先驗?zāi)P?,并通過關(guān)鍵點提取,生成描述子特征數(shù)據(jù)。與之不同,基于深度學(xué)習(xí)的特征提取方式則是利用深度神經(jīng)網(wǎng)絡(luò)對待測對象進(jìn)行深度特征表示的過程,通過對網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,獲得網(wǎng)絡(luò)參數(shù),其具有對樣本庫數(shù)據(jù)量依賴小,同時受噪聲、角度變化影響小等優(yōu)勢,已成為行為識別領(lǐng)域特征提取的主流方式。雖然深度學(xué)習(xí)算法在特征提取方面表現(xiàn)優(yōu)異,但在對行為時空特征提取時也存在部分局限性,為此專家學(xué)者進(jìn)行了深入研究,對于不同問題,提出了針對性的改進(jìn)措施。針對動態(tài)時序特征提取難的問題,研究者們一般使用時間注意力機(jī)制使模型聚焦時序特征。例如,文獻(xiàn)[13]將預(yù)訓(xùn)練的VGG16 網(wǎng)絡(luò)轉(zhuǎn)換為全卷積網(wǎng)絡(luò),并用第三池化層提取靜態(tài)空間特征,同時引入時間注意力機(jī)制,學(xué)習(xí)歷史特征和當(dāng)前特征之間的關(guān)系。

        針對特征提取過程中受噪聲影響導(dǎo)致的特征提取難度大、時序特征信息利用率低的問題,文獻(xiàn)[14]提出的基于時間序列膨脹的TS-I3D(time sequential inflated 3 dimensions)模型,利用調(diào)頻連續(xù)波(frequency modulated continuous wave,F(xiàn)MCW)獲取視頻中每幀的行為信息,同時使用二維快速傅里葉變換計算每個行為的時間域和空間域特征值,然后基于運動參數(shù)和頻率之間關(guān)系得到多普勒圖,最后使用小波變換濾除噪聲信息,得到最終的特征信息。

        為了更好地識別視頻中的人體行為,國內(nèi)外研究學(xué)者一直致力于提取可以耦合人體行為的空間外觀信息和時間運動信息。研究發(fā)現(xiàn),將原始時空網(wǎng)絡(luò)拆分為空間卷積和時間卷積兩部分,可以更加有效提取行為特征。為解決視頻序列對齊問題,文獻(xiàn)[15]使用分解的時空卷積網(wǎng)絡(luò)(factorized spatio-temporal convolutional network,F(xiàn)STCN)來對異常行為特征進(jìn)行提取,將給定的視頻序列進(jìn)行多剪輯采樣,進(jìn)一步提高視頻監(jiān)控領(lǐng)域中人體行為識別算法的精確度。此外,文獻(xiàn)[16]基于時間域持續(xù)灰度值假設(shè)以及空間域梯度連續(xù)假設(shè),提出的雙通道卷積神經(jīng)網(wǎng)絡(luò)可以模擬人體大腦視覺神經(jīng)腹側(cè)和背側(cè)通道,分別提取人體靜態(tài)空間特征信息和動態(tài)運動特征信息。當(dāng)真賤每個像素均發(fā)生改變時,這種利用雙通道卷積神經(jīng)網(wǎng)絡(luò)提取人體行為特征信息的灰度值和空間梯度保持不變。在對人體行為識別時,考慮到空間連續(xù)性和人體行為運動狀態(tài)的約束,文獻(xiàn)[17]利用原始深度數(shù)據(jù)提取空間深度特征,同時使用幀分化來跟蹤人體動作,提取時間深度特征,并將兩部分進(jìn)行融合,以提高模型分類的性能。

        人體骨骼特征具有良好的時空性,有利于提高異常行為的判別速度,通過對人體骨骼特征提取,可以更好的獲取具有辨識性的時空聯(lián)合信息。文獻(xiàn)[18]通過標(biāo)注每個視頻幀中的骨骼關(guān)節(jié)點,并將其在量化后按照時間順序歸一化處理,提取出了具有辨識性的空間特征及時間特征信息。目前大部分基于骨骼關(guān)節(jié)點的特征提取方法,存在參數(shù)量大、計算復(fù)雜的問題,這促使科研人員深入研究輕量級卷積骨骼特征提取方法,以提高模型的時效性。文獻(xiàn)[19]集合多模態(tài)融合以及人體骨骼行為識別方法,通過多流信息融合,兼顧了模型識別準(zhǔn)確度和時效性。為了有效提取更具有鑒別能力的時空特征,通過結(jié)合圖卷積LSTM網(wǎng)絡(luò)和骨骼關(guān)節(jié)點特征提取方法,不僅能夠提取空間信息和時間信息,同時可以進(jìn)一步表征空間域和時間域的共性關(guān)系。文獻(xiàn)[20]將增強(qiáng)圖卷積LSTM網(wǎng)絡(luò)(AGC-LSTM)用于骨骼行為識別,提高了對于高層語義的表示能力,同時模型利用時間層次結(jié)構(gòu)增強(qiáng)頂層時間域特征。此外,將混合卷積網(wǎng)絡(luò)用于行為特征的提取同樣取得了一定的成果。例如,文獻(xiàn)[21]基于C3D 神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)提出了一種新穎的自適應(yīng)特征提取方法,有別于常規(guī)算法,該方法根據(jù)RGB直方圖檢測場景的變化來測量樣本中特征信息的冗余程度,同時基于光流分析提取視頻中的關(guān)鍵幀作為C3D網(wǎng)絡(luò)的輸入,進(jìn)而提取視頻中的特征信息。雖然光流特征是基于人體行為識別任務(wù)最有效的特征之一,但特征提取過程計算量大,難以在現(xiàn)實中應(yīng)用。為此,文獻(xiàn)[22]基于I3D-Shufflenet 的特征提取方法結(jié)合了I3D網(wǎng)絡(luò)和輕量級模型ShuffleNet 的低復(fù)雜度的優(yōu)點,該方法有效地促進(jìn)了特征的利用,降低了在特征提取過程中時間的消耗。

        2 深度學(xué)習(xí)算法在行為識別領(lǐng)域的應(yīng)用

        深度學(xué)習(xí)作為行為識別領(lǐng)域主流技術(shù),具有特征表示效果好、數(shù)據(jù)擬合能力強(qiáng)等的特點。常用的深度學(xué)習(xí)技術(shù)包括基于3D 卷積神經(jīng)網(wǎng)絡(luò)模型、基于雙流卷積神經(jīng)網(wǎng)絡(luò)模型以及混合網(wǎng)絡(luò)模型等。

        2.1 傳統(tǒng)CNN網(wǎng)絡(luò)

        近年來CNN網(wǎng)絡(luò)在圖像分類和目標(biāo)檢測中發(fā)展迅速,如表1對常用CNN架構(gòu)進(jìn)行了匯總[23-31]。

        表1 不同CNN架構(gòu)對比分析Table 1 Comparative analysis of different CNN architectures

        受CNN 在圖像領(lǐng)域取得諸多成果的啟發(fā),學(xué)者們開始將CNN 運用到人體行為識別領(lǐng)域。例如文獻(xiàn)[32]通過改進(jìn)軌跡計算的局部特征描述子捕獲運動信息,同時使用8 層卷積網(wǎng)絡(luò)中后3 層全連接層作為輸出,并對輸出向量取平均值后輸入SVM 中進(jìn)行分類。文獻(xiàn)[33]針對人體行為的運動特征和外觀特征,分別利用改進(jìn)稠密軌跡Fisher矢量表示和CNN激活。

        2.2 3D卷積神經(jīng)網(wǎng)絡(luò)

        諸多研究證明,卷積神經(jīng)網(wǎng)絡(luò)在從靜態(tài)圖像中提取空間信息具有較高的性能,然而人體行為識別是基于視頻的3D 時空信號,因此將CNN 擴(kuò)展并應(yīng)用到3D 視頻的核心是引入對時間信息的利用。3D卷積神經(jīng)網(wǎng)絡(luò)是2D卷積神經(jīng)網(wǎng)絡(luò)的延伸,文獻(xiàn)[34]首次在空間維度引入時間維度特征,以此獲得視頻中相鄰幀間的上下文關(guān)系,并將其命名為3D CNN。3D卷積網(wǎng)絡(luò)[35-40]在人工智能領(lǐng)域表現(xiàn)優(yōu)異,國內(nèi)外學(xué)者逐漸將其應(yīng)用于行為識別,并取得了較好的效果,起初人們并沒有考慮龐大的數(shù)據(jù)量對設(shè)備算力的依賴,產(chǎn)生了較大的計算成本;同時在實際應(yīng)用過程中,直接通過3D 卷積神經(jīng)網(wǎng)絡(luò)提取行為特征,也易引起梯度消失、梯度爆炸和過擬合問題。針對這些問題國內(nèi)外學(xué)者展開了深入的研究。

        梯度消失問題即在反向傳播過程中,梯度信息以指數(shù)形勢減少,最后趨近于0,進(jìn)而導(dǎo)致模型權(quán)重難以更新,使訓(xùn)練不能收斂到較好結(jié)果,模型喪失學(xué)習(xí)能力;相反,梯度爆炸問題是在反向傳播過程中,梯度信息呈現(xiàn)指數(shù)形勢增長趨勢,導(dǎo)致誤差梯度不斷累加,使得模型權(quán)重更新過量,造成模型無法有效學(xué)習(xí)。本質(zhì)上講,梯度消失和梯度爆炸都是由于網(wǎng)絡(luò)層數(shù)太深導(dǎo)致的反向傳播過程中梯度信息的連乘效應(yīng)。一般而言,適當(dāng)降低模型復(fù)雜度,更換RuLE、ELU 等激活函數(shù),引入殘差結(jié)構(gòu)等方法可以使網(wǎng)絡(luò)模型具有較好的收斂結(jié)果,達(dá)到提高模型泛化能力和識別效果的目的。如文獻(xiàn)[41]通過跳過連接層和設(shè)置學(xué)習(xí)率的方法,解決分離操作引起的梯度消失問題。該方法通過在不影響識別率的同時,降低了模型復(fù)雜度,更加有利于部署。但模型復(fù)雜度的降低不利于網(wǎng)絡(luò)有效提取特征信息,一定程度上導(dǎo)致了模型識別準(zhǔn)確率的降低。

        在3D 卷積神經(jīng)網(wǎng)絡(luò)中,較多使用偽-3D 殘差網(wǎng)絡(luò)(pseudo-3D residual network,P3D ResNet)來對網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。簡而言之,P3D ResNet 是將3×3×3 的3D卷積濾波器分離為1個1×3×3空間卷積濾波器和1個3×1×1 時間卷積濾波器。文獻(xiàn)[42]在3D 卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了P3D ResNet,該方法提高了3D 卷積神經(jīng)網(wǎng)絡(luò)在人體行為識別領(lǐng)域的泛化能力。相似地,文獻(xiàn)[43]用P3D殘差網(wǎng)絡(luò)替換3×3×3卷積運算,同時使用openpose 預(yù)處理工具提取樣本特征,進(jìn)一步提高P3D Resnet 的準(zhǔn)確性。實現(xiàn)了自助銀行場景下人體行為的有效識別,保證了人們的財產(chǎn)安全。雖然P3D殘差網(wǎng)絡(luò)可以使模型減少運算量,一定程度上解決了梯度消失和梯度爆炸問題,但在實際應(yīng)用過程中,由于其使用的1×1卷積濾波器會造成特征信息部分丟失,同時也無法對多尺度特征信息有效融合,進(jìn)而導(dǎo)致模型識別精度下降。例如文獻(xiàn)[43]中自助銀行場景下的行為識別模型在UCF101 數(shù)據(jù)集其識別精度小于90%,在實際應(yīng)用中更是不足70%。為此,文獻(xiàn)[44]在其基礎(chǔ)上,通過在殘差網(wǎng)絡(luò)中嵌套殘差網(wǎng)絡(luò)的方式,不僅解決了梯度消失問題,同時進(jìn)一步提高了殘差網(wǎng)絡(luò)的性能,該方法對于人員跌倒的識別率高達(dá)97.4%,但是其未考慮多尺度視頻特征對算法查準(zhǔn)率的影響。文獻(xiàn)[45]引入多尺度特征融合思想,通過組合特征映射來增強(qiáng)不同網(wǎng)絡(luò)層的特征提取能力,以此提高行為的查準(zhǔn)率。

        過擬合是由于模型擬合參數(shù)時,由于樣本數(shù)據(jù)的采樣誤差擬合進(jìn)模型參數(shù)中導(dǎo)致的。通常產(chǎn)生過擬合問題的原因包括,訓(xùn)練數(shù)據(jù)不足,數(shù)據(jù)有較多噪聲,模型過于復(fù)雜等。在實際應(yīng)用過程中表現(xiàn)為模型的泛化能力不足,在訓(xùn)練集上表現(xiàn)良好,但在測試集上表現(xiàn)較差。通??梢酝ㄟ^對數(shù)據(jù)集擴(kuò)容、隨機(jī)抑制池化單元等方法來解決。文獻(xiàn)[46]通過將Dropout引入到3D CNN網(wǎng)絡(luò)池化層中,隨機(jī)抑制池化單元,使池化層生成更多的子模型,同時引入雙概率加權(quán)思想,使被選中神經(jīng)元的激活值與其權(quán)重相結(jié)合,得到所有子模型的近似模型。雖然該方法解決了過擬合問題,增強(qiáng)了模型的泛化能力和識別精度,但隨機(jī)池化過程是不可控的,其在抑制無效特征信息的同時,也會造成部分有效特征信息失活。

        隨著國內(nèi)外學(xué)者對人體行為識別領(lǐng)域的深入研究,基于姿態(tài)信息和視頻幀信息的3D卷積方法在各公開數(shù)據(jù)集上實現(xiàn)了較高的識別精度,但人體行為識別不僅需要考慮行為的類別,還需全面考慮環(huán)境信息對模型的影響。文獻(xiàn)[47]提出基于P3D卷積網(wǎng)絡(luò)和LSTM的行為識別方法,在一定程度上提高了模型的魯棒性,經(jīng)驗證,其在識別準(zhǔn)確率和速率方面均優(yōu)于普通的3D 卷積網(wǎng)絡(luò)。P3D 卷積方法使用預(yù)訓(xùn)練的P3D 網(wǎng)絡(luò)以及LSTM 分別提取環(huán)境特征和行為特征,結(jié)合了兩部分特征信息完成對行為的分類,此外,通過添加回歸網(wǎng)絡(luò)提高算法的識別速率,但其過于追求對于空間信息的提取,犧牲了大量的時間信息。針對該問題,研究者提出了兩種解決方法,一種單純提高算法對時間信息的利用率,如文獻(xiàn)[48]中將提出的的輕量級C3D 網(wǎng)絡(luò)用于完成對雨天駕駛行為的預(yù)測。該方法使用五個3D 卷積核和兩個FC層中的最后一層FC 層來學(xué)習(xí)最終幀的特征信息,通過利用更多有效的時間信息,提高模型的識別精度。另一種通過結(jié)合時間域和空間域特征信息,進(jìn)而更好地研究人體行為的全局特征,如文獻(xiàn)[49]在時間域上,考慮行為本身的相關(guān)性,在空間域上,以運動映射序列作為時空卷積網(wǎng)絡(luò)的輸入。該方法從不同角度充分識別和利用行為時空特征,同時一定程度上解決了3D 卷積網(wǎng)絡(luò)中存在的時間失配和噪聲影響問題。

        3D卷積神經(jīng)網(wǎng)絡(luò)注重空間運動信息,計算速度快,在人體行為異常識別領(lǐng)域具有較為廣泛的應(yīng)用,但不能否認(rèn)的是,其具有的良好空間特征提取能力,是以犧牲時間特征為代價換來的,而且雖然計算速度和識別精度表現(xiàn)良好,但巨大的計算開銷,一直是難以解決的問題。

        2.3 混合深度學(xué)習(xí)網(wǎng)絡(luò)

        混合深度學(xué)習(xí)網(wǎng)絡(luò)可根據(jù)不同的應(yīng)用場景特點組合相應(yīng)的模型,由于其集成多種網(wǎng)絡(luò)模型的優(yōu)點,在眾多應(yīng)用場景中均具有強(qiáng)大的特征提取能力和良好的識別精度[50-52]。目前主流的混合深度學(xué)習(xí)網(wǎng)絡(luò)以3D 卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),融合其他深度學(xué)習(xí)方法,以提高模型的泛化能力和識別精度。例如,文獻(xiàn)[53]使用3DCNN模型和LSTM 算法分別對光流信息和輔助信息進(jìn)行特征提取并加以鞏固,最后采用支持向量機(jī)對行為進(jìn)行分類,實驗證明其在多個數(shù)據(jù)集上識別精度均在90%以上。又如,文獻(xiàn)[54]通過融合擠壓激勵網(wǎng)絡(luò)(squeeze-andexcitation network,SE Net)、I3D、GRU網(wǎng)絡(luò)的優(yōu)點提出了SE-I3D-GRU 模型,通過將三維SE Net 分別引入至I3D 和GRU 網(wǎng)絡(luò)中,得到SE-I3D 和SE-GRU 網(wǎng)絡(luò),最后將二者進(jìn)行合并,其在UCF101 數(shù)據(jù)集上獲得了93.2%的識別精度。此外,為充分挖掘CNN網(wǎng)絡(luò)的潛力,文獻(xiàn)[55]充分發(fā)掘LSTM網(wǎng)絡(luò)與CNN網(wǎng)絡(luò)的互補(bǔ)性,通過模型特征關(guān)系融合表示替代卷積融合策略,同時利用視頻語義背景提高模型的行為預(yù)測性能,其在UCF101數(shù)據(jù)集上測試精度高達(dá)93.1%,在CCV 數(shù)據(jù)集上其精度也達(dá)到了70%。同樣的,文獻(xiàn)[56]使用Shearlet 變換提取多尺度特征信息,并通過循環(huán)神經(jīng)網(wǎng)絡(luò)對特征信息進(jìn)行分類,實驗證明使用Shearlet 變換單獨對特征提取過程建模,提高了行為分類信息的質(zhì)量。RNN 在行為識別應(yīng)用中具有不同類型隱藏單元,為了降低RNN 和隱藏單元的參數(shù)量,同時提高模型的分辨率,文獻(xiàn)[57]結(jié)合高斯混合模型(GMM)和卡爾曼濾波(KF)提取人體行為特征信息,并使用門控循環(huán)網(wǎng)絡(luò)(GRNN)對行為特征進(jìn)行分類,該方法UCF101數(shù)據(jù)集上平均識別精度高達(dá)96.3%。

        眾多研究證明,混合算法在相應(yīng)數(shù)據(jù)集上識別效果優(yōu)異,但其組合困難,參數(shù)過多,資源消耗大,難以在現(xiàn)實中部署。因此,為了滿足實際應(yīng)用的需求,如何在不增加網(wǎng)絡(luò)復(fù)雜度的同時,更高效地結(jié)合不同種類網(wǎng)絡(luò)模型優(yōu)點,以減少模型在實際應(yīng)用中的資源消耗,仍需要進(jìn)一步深入研究。

        2.4 雙流卷積神經(jīng)網(wǎng)絡(luò)

        雙流卷積神經(jīng)網(wǎng)絡(luò)通過提取人體靜態(tài)表觀特征和動態(tài)運動特征,從空間和時間兩方面對特征進(jìn)行深度分析,在人體識別領(lǐng)域具有良好的識別效果[58]。其網(wǎng)絡(luò)架構(gòu)如圖2所示。

        圖2 雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Two-stream convolutional neural network frame

        雙流架構(gòu)[59-64]是目前人體行為識別領(lǐng)域基準(zhǔn)之一,國內(nèi)外學(xué)者在其基礎(chǔ)上對雙流架構(gòu)進(jìn)行了進(jìn)一步探索。最早的雙流卷積模型以VGG-16卷積網(wǎng)絡(luò)為基礎(chǔ),并在網(wǎng)絡(luò)中分別針對時間通道和空間通道增加殘差塊,用以增強(qiáng)網(wǎng)絡(luò)對于時間特征和空間特征的提取能力,最后將兩通道特征信息加以融合利用。例如,文獻(xiàn)[65]通過在VGG-16 卷積網(wǎng)絡(luò)中增加VMHI(VGG-16 and motion history image)和FRGB(faster R-CNN and RGB frames)兩個模塊組成的雙流卷積神經(jīng)網(wǎng)絡(luò),其中VMHI模塊提取時間運動信息并將其輸入至VGG-16 卷積網(wǎng)絡(luò)中,F(xiàn)RGB 模塊將RGB 圖像輸入至R-CNN 網(wǎng)絡(luò)中訓(xùn)練,然后將兩模塊的輸出進(jìn)行融合,實驗結(jié)果表明該方法不僅可以識別單人行為,亦可識別兩人交互行為。雖然基于雙流卷積神經(jīng)網(wǎng)絡(luò)對于人體行為時空特征提取效果較好,但仍存在對提取的時空特征難以有效利用的問題。針對該問題,國內(nèi)外研究學(xué)者們在基于雙流卷積網(wǎng)絡(luò)的基礎(chǔ)上提出了諸多的改進(jìn)策略。優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)是常見的改進(jìn)方式之一,一方面針對VGG16 網(wǎng)絡(luò)無法充分提取行為特征信息的問題,將VGG16 替換成更深層結(jié)構(gòu)的網(wǎng)絡(luò),使模型具有提取更高維特征信息的能力。例如文獻(xiàn)[66]驗證了用ResNet101 網(wǎng)絡(luò)替換VGG16 網(wǎng)絡(luò)的可行性,文獻(xiàn)[67]驗證了用ResNet50 替換VGG16 網(wǎng)絡(luò)的可行性。深層網(wǎng)絡(luò)結(jié)構(gòu)固然可以提取更高維的特征信息,但也易產(chǎn)生過擬合問題,使得模型的泛化能力下降。針對該問題,可以通過引入Dropout 方法抑制部分深度神經(jīng)網(wǎng)絡(luò)提取的特征參數(shù),以避免巨大參數(shù)量使模型過度擬合訓(xùn)練。文獻(xiàn)[68]在特征映射中引入Dropout方法以降低網(wǎng)絡(luò)中間層中相關(guān)的Rademacher 復(fù)雜度。雖然Dropout 方法可以有效減少模型參數(shù)量,解決過擬合訓(xùn)練問題,但是由于Dropout 方法對于特征信息的抑制是隨機(jī)的,其在抑制噪聲信息的同時,也會導(dǎo)致部分有效特征失活。為此,文獻(xiàn)[69]充分考慮每個神經(jīng)元中信息,針對性的增加Dropout 層。這樣不僅可以摒棄高粘度神經(jīng)元帶來的噪聲問題,保證損失最小化,還可以充分發(fā)揮Dropout 方法的作用,有效地解決訓(xùn)練過程中出現(xiàn)的過擬合問題。

        另一方面通過在殘差網(wǎng)絡(luò)中增加注意力模塊對深層網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,目前大多數(shù)注意力模型以Encoder-Decoder框架為基礎(chǔ)。Encoder-Decoder框架可以理解為將給定序列X首先通過編碼方式轉(zhuǎn)化為固定長度的向量,然后再將其解碼為目標(biāo)輸出序列Y的過程,Encoder-Decoder框架如圖3所示。

        圖3 Encoder-Decoder框架Fig.3 Encoder-Decoder frame

        Encoder-Decoder框架的提出,為構(gòu)建可選擇性提取特征信息的網(wǎng)絡(luò)模型奠定了基礎(chǔ)。文獻(xiàn)[70]利用視覺注意力機(jī)制,構(gòu)建了基于端到端的雙流注意力LSTM模型,該模型可以根據(jù)需求,選擇性提取光流圖像中的有效特征,并根據(jù)深度特征相關(guān)層信息調(diào)整網(wǎng)絡(luò)參數(shù),用以模型的優(yōu)化。為了更好地融合人體行為時間域特征信息和空間域特征信息,實現(xiàn)對視頻圖像中多通道的信息有效的利用,人們提出了可用于不同通道特征提取的注意力機(jī)制。例如,文獻(xiàn)[71]中提出的跨模態(tài)的注意力模塊(cross modality attention,CMA),通過有效融合視頻中多模態(tài)信息,提高模型性能。文獻(xiàn)[72]從空間注意力和時間注意力的互補(bǔ)性和共存關(guān)系入手,提出了雙流協(xié)作學(xué)習(xí)的時空注意力模型(TCLSTA),通過靜態(tài)空間特征和動態(tài)運動特征相互促進(jìn),增強(qiáng)模型特征學(xué)習(xí)能力。

        經(jīng)過眾多學(xué)者的努力,基于雙流卷積神經(jīng)網(wǎng)絡(luò)模型研究愈發(fā)成熟,在人體行為識別領(lǐng)域也取得了諸多成果。雖然雙流網(wǎng)絡(luò)能夠很好的結(jié)合人體行為靜態(tài)和動態(tài)特征信息,具有穩(wěn)定性強(qiáng)、識別精度高的特點,但不可否認(rèn)的是其具有的高性能是建立在大量數(shù)據(jù)樣本訓(xùn)練的基礎(chǔ)之上的,在實際應(yīng)用中,很多場景均由于無法采集到足夠的樣本信息進(jìn)行訓(xùn)練,這會使雙流卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中出現(xiàn)過擬合等的問題,這也導(dǎo)致了實際中其無法達(dá)到理論上的識別精度。

        2.5 Few-shot learning(FSL)

        基于深度學(xué)習(xí)的異常行為識別模型具有高性能、高精度的特點,但訓(xùn)練深度學(xué)習(xí)模型需要大量的樣本數(shù)據(jù)支撐,在許多實際場景中,收集大量樣本并進(jìn)行標(biāo)注是非常困難的,這就導(dǎo)致很難將深度血虛模型應(yīng)用于解決現(xiàn)實場景中的問題。如何使用少量樣本、甚至無標(biāo)簽樣本訓(xùn)練深度學(xué)習(xí)模型并使其達(dá)到具有大量標(biāo)簽樣本支撐的模型的識別精度,更好地適應(yīng)現(xiàn)實場景,不僅是人體行為識別領(lǐng)域的研究難題,更是整個深度學(xué)習(xí)應(yīng)用領(lǐng)域亟需解決的問題。少樣本學(xué)習(xí)方法(FSL)[73-76]旨在使用少量樣本訓(xùn)練,使模型在有限的樣本中快速適應(yīng)新的類別。通過集成類別分類器和二域判別器,利用有限的標(biāo)簽信息進(jìn)行模型訓(xùn)練,然后加以利用多任務(wù)生成對抗訓(xùn)練,可以實現(xiàn)網(wǎng)絡(luò)的優(yōu)化。文獻(xiàn)[77]通過少樣本對抗域適應(yīng)方法(few-shot adversarial domain adaptation,F(xiàn)S-ADA)識別人體行為,使得網(wǎng)絡(luò)可以在新場景下提取人體區(qū)域不變特征和類別判別特征。目前,大多數(shù)行為識別算法都遵循度量學(xué)習(xí)范式,即學(xué)習(xí)比較視頻間相似性,但不同視頻下相同行為在時間分布上存在類間差異,這會導(dǎo)致測試集和訓(xùn)練集在匹配時出現(xiàn)嚴(yán)重偏差。文獻(xiàn)[78]從行為持續(xù)時間錯位(action duration misalignment,ADM)與行為演化錯位(action evolution misalignment,AEM)兩個方面展開研究,首先通過時間轉(zhuǎn)換模塊(temporal transform module,TTM)學(xué)習(xí)時間仿射變換定位動作,忽略無關(guān)特征的同時,將每個視頻特征時間偏差進(jìn)行量化,其次將測試特征坐標(biāo)化,通過時間重排和空間偏移預(yù)測匹配支持的時空行為演化。雖然傳統(tǒng)FSL在許多場景中均具有良好的表現(xiàn),但將其用于人體互動行為場景的識別時,由于人體行為的多樣性和交互性,自適應(yīng)分類器難以捕獲表現(xiàn)模糊的特征信息,使得模型識別精度下降。針對該問題,可以通過重建視覺特征之間的關(guān)系來學(xué)習(xí)其類別間的潛在表示。文獻(xiàn)[79]構(gòu)建的動態(tài)圖形網(wǎng)絡(luò)(dynamic graph in graph network,Dgig-Net),將視覺子圖嵌入到面向多任務(wù)的跨模型圖中,提高了人體互動行為場景下的小樣本識別模型的精度。

        最近的研究表明,基于元學(xué)習(xí)和transformer 的方法,可以很好地實現(xiàn)FSL。如果把機(jī)器學(xué)習(xí)看作尋找(X,Y)之間映射關(guān)系f的過程(如圖4(a)所示),那么元學(xué)習(xí)可以理解為通過尋找(X,Y)的若干子集((X1,Y1),(X2,Y2),…,(Xn,Yn)) 的映射關(guān)系(f1,f2,…,fn) 擬合為F,并將其推廣至新的訓(xùn)練(X*,Y*)中,其過程可用圖4(b)表示。

        圖4(a) 機(jī)器學(xué)習(xí)過程Fig.4(a) Machine learning process

        圖4(b) 元學(xué)習(xí)過程Fig.4(b) Meta learning process

        基于元學(xué)習(xí)的少樣本識別一般通過multi-head知識蒸餾方式以“端到端”的方式使網(wǎng)絡(luò)具備自學(xué)習(xí)的能力。文獻(xiàn)[80]通過multi-head 知識方式,同時引入一般幾何變換集的平移同變性和平移不變性思想,分別執(zhí)行強(qiáng)制同變性和強(qiáng)制不變性操作,為了消除位置偏差,同時利用自監(jiān)督學(xué)習(xí)方式,將仿射變換空間進(jìn)行量化來優(yōu)化模型,提高行為識別的精度。文獻(xiàn)[81]通過自相關(guān)表示(self correlational representation,SCR)和交叉相關(guān)注意力(cross correlational attention,CCA)模塊尋找圖像類間和類內(nèi)的關(guān)系映射,通過在網(wǎng)絡(luò)中嵌入這兩個模塊,以端到端的方式使網(wǎng)絡(luò)具備“學(xué)會學(xué)習(xí)”的能力。目前大多數(shù)基于元學(xué)習(xí)的方法均是分別解析候選區(qū)域和新類之間的關(guān)系,而沒有考慮二者之間的多重關(guān)系。文獻(xiàn)[82]提出了基于異構(gòu)卷積網(wǎng)絡(luò)的FSL 模型,該模型通過在候選區(qū)域節(jié)點和類節(jié)點之間進(jìn)行高效消息傳遞,獲得每個行為類的上下文感知特征,進(jìn)而提高FSL模型的查準(zhǔn)率。此外,通過將深度引導(dǎo)的自適應(yīng)網(wǎng)絡(luò)以元學(xué)習(xí)的方式訓(xùn)練同樣可以達(dá)到少樣本學(xué)習(xí)的目的。例如文獻(xiàn)[83]將時間異步增強(qiáng)采樣后的自適應(yīng)元融合網(wǎng)絡(luò)以元學(xué)習(xí)的方式訓(xùn)練,不僅緩解了模型樣本數(shù)據(jù)短缺的問題,同時自適應(yīng)地將特征熔斷為兩種不同的流,以此增強(qiáng)網(wǎng)絡(luò)對特征信息的充分了利用。

        Transformer[84]在自然語言處理領(lǐng)域中占主導(dǎo)地位,其具有獨特的自注意力機(jī)制(self-attention)與位置編碼(position encoding)機(jī)制,同時,具有可并行計算、無長距離依賴、輸入?yún)?shù)共享等的特點。近幾年,將transformer 應(yīng)用到計算機(jī)視覺領(lǐng)域同樣取得了不俗的成功。文獻(xiàn)[85]利用transformer 架構(gòu)具有的編碼器-解碼器結(jié)構(gòu)優(yōu)化共性學(xué)習(xí)和行為時空定位,實現(xiàn)了無類標(biāo)簽、間隔邊界和框注釋下的高精度行為識別。文獻(xiàn)[86]利用迭代損失、自注意力機(jī)制以增強(qiáng)編碼器-解碼器結(jié)構(gòu)中低層參數(shù)的漸變更新。文獻(xiàn)[87]為降低模型計算量,在基于短時序的2D骨架模型中引入transformer,為模型的高準(zhǔn)確、低延遲提出了一種新異常行為的解決方案。transformer 的應(yīng)用極大限度地解決了由于樣本數(shù)據(jù)采集困難帶來的諸如過擬合、欠擬合模型收斂速度慢、泛化能力低的問題。

        2.6 其他算法

        除3D卷積神經(jīng)網(wǎng)絡(luò)、雙流卷積神經(jīng)網(wǎng)絡(luò)、少樣本學(xué)習(xí)外,基于區(qū)域感興趣點(regions of interest,ROI)的人體行為識別,通過降低數(shù)據(jù)規(guī)模,提高數(shù)據(jù)處理效率,文獻(xiàn)[88]從人臉的區(qū)域感興趣點提取Gabor 特征,驗證了基于區(qū)域感興趣點的人體行為識別算法的可行性。人體行為識別的準(zhǔn)確性與人體姿態(tài)具有較強(qiáng)的相關(guān)性,基于多流卷積神經(jīng)網(wǎng)絡(luò)可以通過融合人體姿態(tài)特征和其他特征,用以增強(qiáng)視頻圖像中人體行為的整體特征。融合姿態(tài)的多流卷積神經(jīng)網(wǎng)絡(luò)一般包括以下幾個步驟:首先通過預(yù)訓(xùn)練的2D CNN網(wǎng)絡(luò)將3D骨架序列轉(zhuǎn)換成姿態(tài)進(jìn)化圖像(pose evolution images,PEI),其次,利用3D CNN網(wǎng)絡(luò)從RGB視頻中提取時間特征信息以及空間特征信息,然后,從RGB視頻中提取人體ROI,最后將ROI 輸入至3D CNN 網(wǎng)絡(luò)中,并將四步的結(jié)果進(jìn)行融合,得到最終行為的分類結(jié)果。文獻(xiàn)[89]利用融合姿態(tài)的多流卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了高精度的人體日常行為識別。文獻(xiàn)[90]融合姿態(tài)數(shù)據(jù)和行為數(shù)據(jù),并通過消融實驗驗證該方法與單純的RGB 圖像、姿態(tài)數(shù)據(jù)相比更不易受外界環(huán)境干擾。在實際應(yīng)用中,人體行為識別算法建立樣本數(shù)據(jù)往往需要耗費極大的人力物力。基于圖像聚類的方法可以自動生成數(shù)據(jù)標(biāo)簽,解決現(xiàn)實中行為數(shù)據(jù)標(biāo)注難的問題。文獻(xiàn)[91]提出了一種基于堆疊卷積auto encoder(SCAE)的聚類方法,該方法使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM)構(gòu)建深層網(wǎng)絡(luò),以研究多維框架中的人體行為識別視頻的長期依賴性。除基于視覺的人體行為識別算法外,基于環(huán)境感知和可穿戴計算的人體行為識別方法也逐漸流行。例如,對于夜間人體行為的識別,由于受到光照條件的影響,往往使用紅外相機(jī)獲取人體行為信息。文獻(xiàn)[92]通過捕獲熱量圖像對夜晚行人不安全行為進(jìn)行識別,其在傳統(tǒng)CNN網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計出了輕量級的CNN網(wǎng)絡(luò),同時將CNN 網(wǎng)絡(luò)與增強(qiáng)的隨機(jī)森林分類器隨機(jī)連接,以此來提高模型的識別精度??纱┐饔嬎愕娜梭w行為識別方法通過可穿戴傳感器采集活動特征實現(xiàn)行為的識別,雖然相較于基于視覺的主流算法,不易受光線、遮擋等外界因素干擾,但由于缺乏相關(guān)技術(shù)規(guī)范,導(dǎo)致其推廣速度緩慢。文獻(xiàn)[93]基于CNN 網(wǎng)絡(luò)和滑動窗口構(gòu)建了人體活動識別網(wǎng)絡(luò),該網(wǎng)絡(luò)規(guī)范了應(yīng)用中傳感器的部署和數(shù)據(jù)的歸一化方法,為可穿戴計算的人體行為識別技術(shù)規(guī)范的建立提供了參考。在行為識別過程中,如何在冗長、雜亂的視頻中進(jìn)行行為時空定位始終是難以解決的問題,為此,有學(xué)者提出了基于時間相似矩陣(temporal similarity matrices,TSM)的網(wǎng)絡(luò),該網(wǎng)絡(luò)可在視頻對之間進(jìn)行微粒相似度建模,使它們之間生成時間類激活映射(temporal class activation maps,TCAM)。文獻(xiàn)[94]使用TCAM 作為時間注意力機(jī)制實現(xiàn)了在未修輯的視頻中對異常行為進(jìn)行定位。

        2.7 模型遷移方法

        雖然深度學(xué)習(xí)模型算法在行為識別領(lǐng)域取得了不小的成果,同時在現(xiàn)實中也得到了廣泛的應(yīng)用,但對于許多現(xiàn)實場景仍然存在一定的局限性,例如在許多現(xiàn)實場景中對于樣本數(shù)據(jù)的獲取成本高昂、耗費時間,甚至無法獲取。少樣本學(xué)習(xí)雖然一定程度上能減少模型對于樣本數(shù)據(jù)量的需求,但無法從根本上解決該問題。因此,在對許多模型進(jìn)行訓(xùn)練時,由于無法對樣本數(shù)據(jù)很好的聚類,導(dǎo)致模型難以得到較好訓(xùn)練的現(xiàn)象普遍存在。然而,遷移學(xué)習(xí)將目光聚焦于知識轉(zhuǎn)移,很好地解決了上述問題。遷移學(xué)習(xí)是通過將一個或多個源任務(wù)中的知識用于目標(biāo)任務(wù)改進(jìn)的一種學(xué)習(xí)方法。通常我們可以把遷移學(xué)習(xí)看作深度學(xué)習(xí)算法的擴(kuò)展,它解決了深度學(xué)習(xí)模型算法由于訓(xùn)練數(shù)據(jù)不足導(dǎo)致模型泛化能力不足、識別率低的問題。本質(zhì)上講,根據(jù)遷移方法的不同,可將遷移學(xué)習(xí)方法分為樣本遷移、特征遷移、模型遷移(也叫作參數(shù)遷移)、關(guān)系遷移4種,其中模型遷移是當(dāng)下最常用同時也是最有效的的遷移學(xué)習(xí)方法之一。

        在人體行為識別領(lǐng)域,傳統(tǒng)算法和深度學(xué)習(xí)算法難以解決在新的樣本數(shù)據(jù)和測試數(shù)據(jù)具有不同特征分布條件下,模型泛化能力低的問題。模型遷移通過考慮源任務(wù)和目標(biāo)任務(wù)之間的互通相關(guān)性和互聯(lián)差異,增強(qiáng)目標(biāo)任務(wù)的泛化能力。文獻(xiàn)[95]將模型遷移思想用于自然視頻圖像預(yù)訓(xùn)練的CNN 模型中,進(jìn)行人體頭部運動趨勢識別,將其檢測率提高到了98%以上。文獻(xiàn)[96]證明了廣泛的遷移信息和少量個人信息相結(jié)合,足以減少模型對于主觀數(shù)據(jù)的依賴,提高模型的泛化能力。

        模型遷移一般在預(yù)訓(xùn)練和微調(diào)模型模式下進(jìn)行,在模型沒有足夠樣本數(shù)據(jù)時,通過預(yù)訓(xùn)練和微調(diào)模型可以使模型在遷移時快速適應(yīng)新的數(shù)據(jù)集,加快其收斂速度,同時有效解決由于數(shù)據(jù)樣本缺失導(dǎo)致模型過擬合的問題。例如,文獻(xiàn)[97]將模型遷移和集合學(xué)習(xí)分類器用于卷積神經(jīng)網(wǎng)絡(luò)模型,增強(qiáng)了模型提取抽象特征的能力并加速了模型收斂速度。又如,文獻(xiàn)[98]通過深度模型遷移方法識別CNN 模型和微調(diào)CNN 模型以提取的高級特征的行為,通過在12個數(shù)據(jù)集上對二者進(jìn)行測試,證明了微調(diào)CNN模型對于模型遷移的有效性。

        雖然模型遷移極大地解決了深度學(xué)習(xí)算法對于樣本數(shù)據(jù)不足導(dǎo)致的模型泛化能力低、收斂速度慢、識別精度不足等問題,但模型遷移也具有一定的局限性,其具有不錯識別精度建立在源任務(wù)和目標(biāo)任務(wù)共享一些超參數(shù)的先驗分布的假設(shè)之下,當(dāng)目標(biāo)任務(wù)與源任務(wù)之間不存在相關(guān)性,或者相關(guān)性較少時,對于模型的遷移很大概率不會成功。另外,在模型遷移過程中也可能出現(xiàn)兩者之間關(guān)系呈負(fù)相關(guān)的情況,那么就會導(dǎo)致目標(biāo)任務(wù)受源任務(wù)誤導(dǎo),出現(xiàn)負(fù)面影響,這種現(xiàn)象也被稱為負(fù)轉(zhuǎn)移。

        2.8 算法性能對比

        人體異常行為識別領(lǐng)域常用數(shù)據(jù)集包括UCF101[99]和HMDB-51[100]。UCF101 是一個源自YouTube 并被廣泛使用的基礎(chǔ)測試集,它包括101 個動作類,約13 320個視頻,每個類至少包含100 個視頻片段,視頻片段的分辨率為320×240,幀率為25 frame/s,其中約9 500個訓(xùn)練樣本和3 700個測試樣本。HMDB51數(shù)據(jù)集源自網(wǎng)絡(luò)真實視頻或電影,共有51個類別,約6 766個視頻片段,其中約3 570個訓(xùn)練樣本和1 530個測試樣本。如表2為各算法在UCF101和HMDB51數(shù)據(jù)集上的表現(xiàn)及特點。

        由表2 可以看到在UCF101 和HMDB51 數(shù)據(jù)集上,混合網(wǎng)絡(luò)的平均識別精度較好,根本原因在于混合網(wǎng)絡(luò)集合了多種網(wǎng)絡(luò)的優(yōu)勢,同時也與大量的樣本數(shù)據(jù)有關(guān),這導(dǎo)致其整體結(jié)構(gòu)龐大、參數(shù)過多,因此在實際應(yīng)用中資源消耗嚴(yán)重、對硬件設(shè)施要求極高,難以在現(xiàn)實中部署。少樣本學(xué)習(xí)集成類別類器和二域判別器,利用有限的標(biāo)簽信息進(jìn)行模型訓(xùn)練,大大減少了模型對于樣本數(shù)據(jù)量的需求,但由于人體行為的多樣性,模型中分類器難以捕獲表現(xiàn)模糊的特征信息,這是少樣本學(xué)習(xí)平均識別精度低的根本原因之一。3D卷積神經(jīng)網(wǎng)絡(luò)注重運動信息,具有良好的空間特征提取能力,運算速度快,然而三維卷積會產(chǎn)生大量的模型參數(shù),導(dǎo)致較高的運算成本和資源消耗。此外,使用3D 卷積網(wǎng)絡(luò)提取特征信息時容易造成梯度消失、梯度爆炸、收斂效果差等問題,雖然通過降低模型復(fù)雜度以及引入殘差塊的方法可以有效提高模型效果,但是模型復(fù)雜度的降低,也會一定程度上導(dǎo)致模型識別率的下降,同時殘差塊中使用的卷積濾波器會造成部分特征信息的丟失,也無法對多尺度特征信息達(dá)到很好的融合效果?;陔p流架構(gòu)算法注重時空信息、準(zhǔn)確率較高,例如TSN的稀疏采樣方法可以覆蓋整個視頻的各個時間段,使網(wǎng)絡(luò)更好地利用時間通道特征,但其采樣過程是隨機(jī)的,不能保證采樣結(jié)果均為有效的特征信息。總而言之,3D-CNN、混合網(wǎng)絡(luò)、雙流卷積網(wǎng)要想實現(xiàn)較高識別精度,需要對樣本中每個類進(jìn)行大量標(biāo)記,而FSL只需要對少量樣本進(jìn)行標(biāo)記就可以實現(xiàn)較高的識別精度,這也是FSL具有較高研究價值的意義所在。

        表2 各算法性能對比Table 2 Performance comparison of each algorithm

        3 總結(jié)與展望

        3.1 總結(jié)

        人體行為識別技術(shù)多被應(yīng)用于智慧醫(yī)療、智慧城市、人機(jī)交互、安全生產(chǎn)等領(lǐng)域,很好地保障了人們的生產(chǎn)和生活安全,另外,其相關(guān)技術(shù)對入侵檢測、視頻語義檢索等方面研究也具有極高的參考價值。雖然目前深度學(xué)習(xí)算法使得行為識別技術(shù)穩(wěn)固發(fā)展,但不能否認(rèn)的是大部分算法仍存在空間特征表示與時間特征表示難、計算復(fù)雜度高等問題,同時目前的算法只針對特定場景,不具有一定的泛化能力,需要大量的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,其較高的計算復(fù)雜度對硬件算力要求高,難以應(yīng)用于現(xiàn)實問題。隨著人工智能技術(shù)的發(fā)展以及人們生產(chǎn)生活迫切需求,未來的算法逐漸偏向于泛化能力強(qiáng)、計算復(fù)雜度低、少樣本甚至無樣本數(shù)據(jù)訓(xùn)練?;谠獙W(xué)習(xí)與transformer 的FSL 模型構(gòu)建是未來的研究熱點之一。

        3.2 展望

        綜合基于深度學(xué)習(xí)的人體行為識別研究和應(yīng)用現(xiàn)狀及存在問題,提出如下幾點展望。

        (1)跨場景行為識別模型?,F(xiàn)有的模型通常是在特定場景下進(jìn)行訓(xùn)練,僅能適應(yīng)特定場景,無法做到跨場景識別。在實際應(yīng)用中,模型遷移至其他場景時,需要對模型重新訓(xùn)練,這無疑增加了巨大的工作量。因此,如何在模型訓(xùn)練過程中融入環(huán)境信息,使模型具備跨場景識別的能力是未來的研究方向之一。

        (2)現(xiàn)實中部署難。目前大多數(shù)高識別精度模型往往具有較高的復(fù)雜度,這導(dǎo)致模型在實際應(yīng)用過程中需要部署在高算力的硬件設(shè)備之上,同時高復(fù)雜度也會使模型難以進(jìn)行實時檢測,為模型在現(xiàn)實中部署帶來難題。如何在保證模型識別精度的同時降低其復(fù)雜度,具有較高的研究價值。

        (3)行為預(yù)測。旨在從實時視頻流中準(zhǔn)確判別存在安全隱患的行為,遏制存在安全隱患的行為。這不僅對模型的識別速度、識別精度有一定的要求,同時要求模型對于行為的判斷要有一定的前瞻性,目前大多數(shù)算法只做到了事后識別,而未做到事前預(yù)防,因此對于該領(lǐng)域的研究還需要更為深入。

        (4)少樣本學(xué)習(xí)模型?,F(xiàn)實中許多場景對于樣本數(shù)據(jù)的采集始終是難以解決的問題,由于數(shù)據(jù)樣本的缺少,無法進(jìn)行有效的訓(xùn)練。目前以元學(xué)習(xí)與transformer為主的FSL 模型雖然極大地減少了模型對于數(shù)據(jù)樣本的依賴,但相較于其他模型其識別精度也有所下降。因此,如何在減少樣本數(shù)據(jù)的同時,提高模型的性能,保證其具有較高的識別精度,仍需要進(jìn)一步探索。

        4 結(jié)束語

        概述了現(xiàn)有人體行為識別領(lǐng)域常用特征提取方法,以及3D卷積神經(jīng)網(wǎng)絡(luò)、雙流卷積神經(jīng)網(wǎng)絡(luò)、FSL等算法在行為識別領(lǐng)域的發(fā)展與應(yīng)用,對比了各類算法在UCF101和HMDB51數(shù)據(jù)集上的性能表現(xiàn),對各類算法優(yōu)缺點進(jìn)行了總結(jié),同時對基于深度學(xué)習(xí)的人體行為識別模型發(fā)展提出了幾點展望,以期在理論和實踐上對人體行為識別模型的發(fā)展提供參考。

        猜你喜歡
        特征提取卷積人體
        人體“修補(bǔ)匠”
        人體冷知識(一)
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        排便順暢,人體無毒一身輕
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        奇妙的人體止咳點
        特別健康(2018年3期)2018-07-04 00:40:10
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        国产av熟女一区二区三区| 女同恋性吃奶舌吻完整版| 中文字幕日本av网站| 最新国产成人综合在线观看| 无码人妻丰满熟妇区免费| 亚洲影院在线观看av| 久久精品国产亚洲av豆腐| 最新中文字幕日韩精品| 日日碰狠狠添天天爽超碰97久久| 乱码丰满人妻一二三区| 四虎影视永久地址www成人| 激情偷乱人伦小说视频在线| 人妻熟妇乱系列| 成人国产精品高清在线观看| av天堂手机一区在线| 国产内射一级一片高清内射视频 | 亚洲精品99久久久久久| 久久网站在线免费观看| 放荡成熟人妻中文字幕| 国产性自爱拍偷在在线播放| 国产强被迫伦姧在线观看无码| 国产成人午夜无码电影在线观看| 在线永久看片免费的视频| 国产精品久久久久尤物| 91在线无码精品秘 入口九色十| 91麻豆精品久久久影院| 富婆猛男一区二区三区| 国产一精品一av一免费爽爽| 国产精品51麻豆cm传媒| 欧洲熟妇乱xxxxx大屁股7| 91精品国产91| 成人偷拍自拍在线视频| 国产自拍视频免费在线| 日本特黄特色特爽大片| 品色永久免费| 国产精品自在线免费| 91极品尤物国产在线播放| 香港三级日本三韩级人妇久久| 亚洲婷婷五月综合狠狠爱| 男女18禁啪啪无遮挡| 久久中国国产Av秘 入口|