亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于時移和片組注意力融合的雙流行為識別網(wǎng)絡(luò)①

2022-02-15 06:40:40肖子凡劉逸群李楚溪王守巖

計算機(jī)系統(tǒng)應(yīng)用 2022年1期

關(guān)鍵詞：基組分組注意力

肖子凡,劉逸群,李楚溪,張力,王守巖,肖曉

1(復(fù)旦大學(xué) 工程與應(yīng)用技術(shù)研究院上海智能機(jī)器人工程技術(shù)研究中心,上海 200433)

2(計算神經(jīng)科學(xué)與類腦智能教育部重點(diǎn)實(shí)驗(yàn)室(復(fù)旦大學(xué)),上海 200433)

3(復(fù)旦大學(xué) 類腦智能科學(xué)與技術(shù)研究院,上海 200433)

4(復(fù)旦大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室,上海 200433)

5(復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院微納中心,上海 200433)

6(復(fù)旦大學(xué) 大數(shù)據(jù)學(xué)院,上海 200433)

計算機(jī)視覺是使用計算機(jī)及相關(guān)設(shè)備對生物視覺機(jī)制的一種模擬技術(shù).在圖影資料劇烈增長的信息化時代,如何智能感知和解讀圖影,成為了計算機(jī)視覺領(lǐng)域重要的研究方向.其中,行為識別作為計算機(jī)視覺領(lǐng)域的一個重要應(yīng)用分支,已在智能監(jiān)控[1]、異常行為檢測[2]、人機(jī)交互[3]、視頻預(yù)測[4]、醫(yī)療健康[5]等眾多領(lǐng)域扮演著越來越重要的角色,具有十分廣闊的應(yīng)用前景.

行為識別的實(shí)現(xiàn)方法可分為傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法.傳統(tǒng)的機(jī)器學(xué)習(xí)方法的優(yōu)勢在于模型簡單、分類速度快,代表性的方法有iDT (improved dense trajectories)[6]算法,其使用改進(jìn)的特征編碼方式來表征人體運(yùn)動,但基于密集的流場運(yùn)算會產(chǎn)生高維數(shù)據(jù)特征,這將大大增加存儲開銷.而近10年,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法憑借模擬人類神經(jīng)元的傳遞原理、復(fù)雜網(wǎng)絡(luò)的設(shè)計、參數(shù)的反向傳播機(jī)制以及端到端的架構(gòu)使其成為直接輸出結(jié)果的任意復(fù)雜函數(shù)逼近器,逐漸成為了視覺任務(wù)的主流方法,并且被證實(shí)比傳統(tǒng)機(jī)器學(xué)習(xí)方法更加強(qiáng)大和魯棒[7],深度學(xué)習(xí)算法從而也被廣泛運(yùn)用到行為識別任務(wù)中.而基于神經(jīng)網(wǎng)絡(luò)的行為識別主要分為兩個過程:特征表示與動作的感知及理解.

針對視頻行為識別任務(wù),目前的深度學(xué)習(xí)方法可分為基于3D 卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)[8,9]、長短記憶單元(LSTM)[10–12]及雙流神經(jīng)網(wǎng)絡(luò)(Two-Stream CNN)[13–16]的行為識別模型.其中3D CNN 可以捕獲時空特征,這意味著它可直接對視頻進(jìn)行特征提取,因此具有較好的識別性能,但其需要訓(xùn)練大量數(shù)據(jù)的同時也會產(chǎn)生較高的計算開銷.而LSTM 雖然具有處理時序數(shù)據(jù)的先天優(yōu)勢,但其容易引起梯度消失且不能很好地學(xué)習(xí)時序之外的橫向信息,比如運(yùn)動特征.Two-Stream CNN 最早由Karpathy 等人[14]提出,它通過擴(kuò)展CNN 局部時空信息以達(dá)到時空域上的連通性,并通過分析額外的運(yùn)動信息對CNN 預(yù)測性能的影響,從而選擇兩個輸入流進(jìn)行不同分辨率特征的學(xué)習(xí),通過融合多尺度時空信息從而提高了網(wǎng)絡(luò)的識別精度.與此同時,在基于視頻的輸入策略上,以往的密集采樣往往帶來較高的計算量且未能對長時程行為進(jìn)行有效建模,而固定間距采樣的堆幀并不能保證特征信息的有效利用,從而不能有效提高網(wǎng)絡(luò)的泛化能力.

針對以上問題,本文首先在整體輸入上采取時間稀疏分組隨機(jī)采樣策略[17],從而保證有效信息的長時程覆蓋.同時創(chuàng)新性地提出基于時移(temporal shift,TS)[18]和片組注意力(split attention,SA)[19]模塊融合的輕量型時空雙流網(wǎng)絡(luò)模型(TS-SA Net).其中時移模塊可以讓模型在二維卷積的基礎(chǔ)上學(xué)習(xí)到時序特征,片組注意力機(jī)制則用于幫助網(wǎng)絡(luò)“聚焦”有效區(qū)域,從而產(chǎn)生更具分辨性的特征,提高網(wǎng)絡(luò)的行為識別能力.目前我們在UCF101、HMDB51 上分別取得了95.00%和72.55%的識別精度.

1 基于時移和片組注意力融合的時間分組雙流網(wǎng)絡(luò)(TS-SA Net)

1.1 TS-SA Net 整體架構(gòu)

行為識別任務(wù)的本質(zhì)是分類(classification)問題,即給定一個待識別的樣本xq和包含Dg{xig∈Dg|i=1,2,3,···,Dg}個樣本的數(shù)據(jù)集,算法需要依據(jù)數(shù)據(jù)集學(xué)習(xí)不同行為類別的標(biāo)識特征,從而將待識別樣本與映射空間做高維距離計算,并將其歸納入與之特征差異最小的類族中.

在本文提出的雙流TS-SA網(wǎng)絡(luò)中,針對待處理視頻集VData={V1,V2,···,VM}中,我們將每一視頻V(采樣后)逐幀輸入TS-SA 網(wǎng)絡(luò),假設(shè)幀輸入為Iqp∈VData,q∈{1,2,···,M},p∈{1,2,···,N},其中N為單個視頻所含中圖片序列數(shù)目.如圖1所示,基于TS-SA 網(wǎng)絡(luò)的行為識別過程可形式化為:F(Iqp,W)W

其中,是參數(shù)為的卷積函數(shù),為每一輸入幀I產(chǎn)生片段級類別得分.G為片段聚合函數(shù),用于整合各片段的判決分?jǐn)?shù)并得到視頻唯一的類別得分.當(dāng)RGB網(wǎng)絡(luò)與光流(Flow)網(wǎng)絡(luò)各自產(chǎn)生視頻級的預(yù)測結(jié)果后,設(shè)計預(yù)測函數(shù)H來對整個視頻進(jìn)行動作類別的概率預(yù)測,本文使用Softmax 函數(shù).

1.2 時間稀疏分組隨機(jī)采樣策略

對于深度神經(jīng)網(wǎng)絡(luò)來說,數(shù)據(jù)集及數(shù)據(jù)的采樣對結(jié)果十分重要,其往往決定了網(wǎng)絡(luò)的學(xué)習(xí)質(zhì)量與效率.在采樣策略上,雖然減少圖像序列的輸入能夠直接降低計算量,但這同時造成了行為內(nèi)容本身的缺失,尤其無法對長時程行為進(jìn)行完整建模.而密集的圖像序列輸入雖然能保證行為特征的完全捕獲,但大量的數(shù)據(jù)帶來了高額計算,使網(wǎng)絡(luò)緩慢笨重.而固定間隔的圖像采樣方法同樣存在有效信息遺失的問題.

我們意識到,對于包含特定行為的視頻來說,相鄰幀所包含的信息是高度重疊的,這為網(wǎng)絡(luò)非密集輸入條件下保持性能的穩(wěn)定提供了事實(shí)基礎(chǔ).基于此,本文在輸入策略上采用了稀疏分組隨機(jī)采樣方法.

如圖1所示,本文所提出的TS-SA Net 使用時間稀疏分組隨機(jī)采樣的視頻幀作為輸入.具體地,我們將視頻進(jìn)行等間距地稀疏分離為N個片段,即Vi={S1,S2,···,SN},i∈{1,2,···,M}.對視頻片段SN進(jìn)行隨機(jī)抽樣得到TN,則視頻Vi的輸入形式為{T1,T2,···,TN}.TS-SA 網(wǎng)絡(luò)的識別函數(shù)如式(2):

圖1 基于時移和片組注意力的雙流網(wǎng)絡(luò)(TS-SA Net)的結(jié)構(gòu)

具體地,N個視頻片段間參數(shù)共享,使用標(biāo)準(zhǔn)分類交叉熵作為損失函數(shù),如式(3):

其中,C為動作類別數(shù),yi為屬于第i類的真實(shí)標(biāo)簽,Gi為第i類的預(yù)測結(jié)果,由聚合函數(shù)g得出:

實(shí)驗(yàn)中,我們試驗(yàn)了多種不同的聚合函數(shù)g,發(fā)現(xiàn)平均融合的效果最優(yōu),具體可見第2.3 節(jié).在使用多個片段共同優(yōu)化網(wǎng)絡(luò)的過程中,利用反向傳播算法調(diào)整模型參數(shù),如式(5):

具體實(shí)踐中使用隨機(jī)梯度下降(SGD)優(yōu)化模型,設(shè)置稀疏分組數(shù)的超參N為8,保證了參數(shù)的優(yōu)化是依據(jù)結(jié)合了所有采樣幀(視頻片段)的預(yù)測結(jié)果,利用非密集的數(shù)據(jù)輸入,從視頻層構(gòu)建行為識別模型.

1.3 片組注意力模塊

以SK-Net[20]為代表的多路徑(multi-path)注意力啟發(fā)自人腦皮質(zhì)神經(jīng)元根據(jù)不同的刺激可動態(tài)調(diào)節(jié)自身的感受野,是一種通過非線性地融合來不同分支下的核尺寸對應(yīng)的特征來捕獲不同比例的目標(biāo)對象的動態(tài)選擇注意機(jī)制.SE-Net[21]則通過重新定義通道間特征圖譜的關(guān)系來實(shí)現(xiàn)“特征重標(biāo)定”,即對于不同通道的特征來說,加強(qiáng)有效信息的權(quán)重并壓縮無用信息的參與,它屬于一種通道層級的注意力機(jī)制——自適應(yīng)地調(diào)整通道特征響應(yīng).前者在ResNeXt[22]的基礎(chǔ)上用不同分支對應(yīng)的不同尺寸的卷積核減少計算量而維持性能不變,后者建立了通道層級的注意機(jī)制,可自適應(yīng)地學(xué)習(xí)不同通道間的特征關(guān)系.在面對深度學(xué)習(xí)中大量的矢量計算時,基于多路徑和通道的注意機(jī)制都只在通道維度對權(quán)值進(jìn)行了重分配,而未考慮特征圖譜內(nèi)的關(guān)系響應(yīng),所以兩者的提升效果有限.

本文采用基于殘差塊(residual block)[23]的多路徑與特征注意結(jié)合的注意力映射方法,使得注意力得以跨特征圖譜運(yùn)作,圖2展示的是一個片組注意力模塊.

圖2 片組注意力模塊

在RGB和光流分支網(wǎng)絡(luò)中,特征首先被分為幾個基組(cardinal),每一基組再劃分為若干片組(split)(詳細(xì)結(jié)構(gòu)于圖2、圖3),K和R分別是基組數(shù)和片組數(shù)的超參,因此特征組的總數(shù)為G=KR,實(shí)驗(yàn)中分別設(shè)置為K=2,R=4.我們對不同特征圖組采用不同的學(xué)習(xí)函數(shù) {F1,F2,···,FG},則每一組的學(xué)習(xí)特征可表示為Ui=Fi(X),i∈{1,2,···,G},其中Fi為1×1 卷積和3×3 卷積的組合,如圖2所示.

具體地,每個基組的映射算法設(shè)計為多個片組的元素(element-wise)加和結(jié)果,因此第k個基組的表達(dá)如式(6):

在每個基組中,首先通過跨越空間維度的全局平均池化可以收集全局上下文信息,如圖3.設(shè)sk∈RC/K表示第k個基組的全局平均池化結(jié)果,skc為基組中第c(c=C/K) 個分量,skc的計算公式如式(7):

圖3 基組內(nèi)的片組注意力模塊

設(shè)Vk∈RH×W×C/K為第k個基于通道的軟注意力來聚合的基組特征表示,其中每個分量由片組特征加權(quán)組合得到,如式(8)所示,Vck為第k個基組的第c個通道分量的表達(dá):

其中,αki(c) 表示經(jīng)過Softmax 后所得權(quán)重,算法如式(9):

其中,權(quán)重映射函數(shù) G為兩個全連接層及一個ReLU 激活函數(shù)(結(jié)構(gòu)見圖3),Gci則通過全局平均池化結(jié)果sk,為基組內(nèi)每個片組生成映射權(quán)重,從而生成第c個通道分量的表達(dá).

最后,我們使用整合函數(shù)得到分塊中加入了片組注意力映射的整體特征表達(dá):

借鑒ResNet的恒等映射機(jī)制,最終分塊輸出為Y:

其中,T 用于統(tǒng)一殘差模塊的輸出形式,降低計算成本的同時能增強(qiáng)注意力映射的表達(dá).在行為識別中,有效的特征學(xué)習(xí)是獲得高準(zhǔn)確率的前提.通過多路徑和恒等映射模塊,片組注意力機(jī)制能有效學(xué)習(xí)特征圖層級的注意表達(dá).實(shí)驗(yàn)表明,片組注意力機(jī)制可大幅度提高網(wǎng)絡(luò)的學(xué)習(xí)能力,從而顯著地提升了行為識別的準(zhǔn)確率.

1.4 時移模塊

對于視頻分類任務(wù),傳統(tǒng)的2D CNNs 由于被設(shè)計適應(yīng)基于二維圖形的抽象學(xué)習(xí),因此無法做到對視頻(行為)進(jìn)行時空建模.3D CNNs 雖然可以直接對視頻進(jìn)行時空建模,但其對硬件的計算能力要求較高,效率較低.

為了能在不增加計算量的前提下提高網(wǎng)絡(luò)對時空信息的建模能力,我們在基于時間稀疏分組隨機(jī)采樣策略的雙流網(wǎng)絡(luò)中加入時移模塊(temporal shift module).以基于瓶頸結(jié)構(gòu)的ResNet為例,我們在每個殘差塊中插入時移模塊,如圖4所示.

在基于圖像特征的抽取與傳遞過程中,網(wǎng)絡(luò)中的特征圖譜通?？梢员磉_(dá)為A∈RN×C×T×H×W,其中N為批處理大小,C為通道數(shù),T代表時間維度,H和W則表征空間分辨率.假設(shè)批處理大小為1,在時間維度上,代表不同時刻的向量用不同的顏色表示,如圖4所示.我們在通道維度上對特征進(jìn)行反向移動,這同時也表現(xiàn)為在時間維度上進(jìn)行錯位,這使得相鄰幀的信息與當(dāng)前幀混合在了一起.

在特征抽取過程中,時移相當(dāng)于將卷積分為數(shù)據(jù)移動和計算兩步.如在1D 卷積過程中,設(shè)X為一維向量,W=(w1,w2,w3)為卷積參數(shù),則卷積過程可表示為:

時移操作相當(dāng)于把式(12)分解為兩步:

1)平移置換:

2)乘積累加運(yùn)算:

由于行為分析涉及視頻幀(二維圖像),我們把時移模塊應(yīng)用到了2D 卷積中,可以看出時移模塊相較原始模型不會額外增加計算開銷.在平移置換的具體實(shí)踐中,我們將前 1/16 通道下的特征上移一個步長(+1),隨后的1/16 通道則進(jìn)行下移(-1),剩余通道不移動(0),移空的位置用0 填充.平移置換相當(dāng)于在當(dāng)前幀的特征圖譜中用前后幀的信息進(jìn)行小范圍替換,即每一幀均融合了其前一幀和后一幀的部分特征(邊界除外).

實(shí)驗(yàn)表明,大幅增加平移時的通道比例以增加當(dāng)前幀中混合的前后幀的特征信息不會提高網(wǎng)絡(luò)的時序建模能力,相反會損害網(wǎng)絡(luò)性能.這是由于過多的置換會損害當(dāng)前幀的正常信息表達(dá),過度的信息交叉對網(wǎng)絡(luò)學(xué)習(xí)造成了負(fù)面干擾.同時我們也擴(kuò)展研究了時移模塊的一些變體,實(shí)踐發(fā)現(xiàn),過大的平移幅度如上下移動兩個步長(+2、-2)難以幫助網(wǎng)絡(luò)優(yōu)化,將特征圖譜以相同比例在所有時刻上進(jìn)行置換也無益于性能提升.基于本文實(shí)驗(yàn),上下平移 1/16的通道來進(jìn)行時序特征的引入,能在不增加計算量的前提下提高網(wǎng)絡(luò)的時空建模能力.詳細(xì)實(shí)驗(yàn)數(shù)據(jù)可見第2 節(jié).

2 實(shí)驗(yàn)

2.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)環(huán)境為PyTorch 1.4.0,顯卡設(shè)備為Tesla V100-SXM2 (顯存為32 GB),處理器設(shè)備為英特爾至強(qiáng)4110 (2.1 GHz,8 核),操作系統(tǒng)為CentOS 7.5.1804.

為了說明算法的有效性和魯棒性,實(shí)驗(yàn)數(shù)據(jù)集包括UCF101 數(shù)據(jù)集[16]和HMDB51 數(shù)據(jù)集[24].其中UCF101 共包含101 類的13 320 個主要內(nèi)容為人類體育運(yùn)動的短視頻;HMDB51 則主要來源于網(wǎng)站視頻或電影,共有51 類人體行為的6 849 個視頻.對于這兩個公共數(shù)據(jù)集,本文均使用其官方提供的劃分方式 (Split 1)作為訓(xùn)練計劃,訓(xùn)練集和驗(yàn)證集的比例分別為2.5:1(9537:3783)和2.3:1 (3570:1530).

在數(shù)據(jù)預(yù)處理階段,抽取RGB 圖像和光流圖像作為空域和時域特征輸入,同時將數(shù)據(jù)以多位點(diǎn)隨機(jī)剪裁的方式(并調(diào)整至 2 24×224),結(jié)合隨機(jī)水平翻轉(zhuǎn)(概率為0.5)進(jìn)行數(shù)據(jù)增強(qiáng).

在訓(xùn)練過程中,采用標(biāo)準(zhǔn)交叉熵?fù)p失的學(xué)習(xí)策略,在總數(shù)為50 次的迭代中設(shè)置前20 輪的學(xué)習(xí)率為0.001,在第20和40 輪分別降為原來的0.1 倍,批處理大小為90,動量為0.9,分組采樣數(shù)為8,權(quán)重衰減為5e-4,Dropout 參數(shù)為0.8,使用隨機(jī)梯度下降(SGD)對模型參數(shù)進(jìn)行更新.

在測試階段,統(tǒng)一在全像素圖像上進(jìn)行左中右方式剪裁以增強(qiáng)測試數(shù)據(jù).并以1:1.5的比例擬合RGB網(wǎng)絡(luò)和光流網(wǎng)絡(luò)的判別分?jǐn)?shù)作為雙流TS-SA 網(wǎng)絡(luò)的最終結(jié)果.

2.2 對比實(shí)驗(yàn)

各經(jīng)典算法準(zhǔn)確率對比如表1所示,表1中UCF101與HMDB51 數(shù)據(jù)集下的除本文方法外的數(shù)據(jù)(準(zhǔn)確率)均來自于Wang 等人[17]的實(shí)驗(yàn).從表1中可以看出,iDT[6]結(jié)合Fisher Vector 作為最好的傳統(tǒng)特征抽取方法之一效果明顯,但在UCF101和HMDB51 上的識別精度可看出其與深度學(xué)習(xí)方法尚有差距.Two-Stream[15]作為經(jīng)典的原始雙流網(wǎng)絡(luò),在兩個數(shù)據(jù)集上的識別效果提升明顯.C3D[9]作為更適合學(xué)習(xí)時空特征的代表網(wǎng)絡(luò)并沒有在精度上超過Two-Stream,推測是由于單一地使用RGB 圖像還不能夠很好地對外觀和運(yùn)動特征進(jìn)行統(tǒng)一建模.

表1 各算法性能對比

在視頻級計算量(FLOPs)上,均以批處理大小為1,視頻幀數(shù)為50,分組采樣數(shù)為8為前提進(jìn)行RGB 網(wǎng)絡(luò)計算量統(tǒng)計.本文算法在視頻級計算量上由于時間稀疏分組隨機(jī)采樣策略優(yōu)勢明顯.因時移模塊與分組注意力模塊的加入,模型在參數(shù)量上對比原始的網(wǎng)絡(luò)有小幅增加,但考慮到模型性能的提升與整體計算量的下降,本文算法依舊具有較強(qiáng)優(yōu)勢.

2.3 消融實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文提出的策略的優(yōu)勢及有效性,本文針對算法策略、片段聚合方式以及主干網(wǎng)絡(luò)的差異進(jìn)行了消融實(shí)驗(yàn).

為了驗(yàn)證與分析第1 章中算法策略的有效性及相對重要性,實(shí)驗(yàn)采用ResNet-50為主干網(wǎng)絡(luò),在兩個數(shù)據(jù)集上對比了時間稀疏分組隨機(jī)采樣策略(表2中簡寫為STGRS)、片組注意力模塊(表2中簡寫為SA)、時移模塊(表2中簡寫為TS)及其組合的準(zhǔn)確率,具體見表2.

由表2可知,對比密集采樣策略,時間稀疏分組隨機(jī)采樣策略的優(yōu)勢明顯,在不增加計算量的同時成功對行為進(jìn)行了長時程建模,在UCF101、HMDB51 數(shù)據(jù)集上分別提升了5.89%和3.33%的識別精度.

在分組策略的基礎(chǔ)上,分別只添加時移模塊和注意力模塊,由表2可見兩種策略在3 個數(shù)據(jù)集上均能展現(xiàn)出對網(wǎng)絡(luò)學(xué)習(xí)性能的優(yōu)化.其中片組注意力模塊加入的結(jié)果令人矚目,在UCF101、HMDB51 數(shù)據(jù)集上的識別精度分別提升了6.40%、1.93%,這說明多路徑和特征圖譜注意結(jié)合的片組注意力機(jī)制能在網(wǎng)絡(luò)中強(qiáng)化學(xué)習(xí)時的重要特征.

表2 算法策略識別精度對比 (%)

單獨(dú)添加時移模塊較單獨(dú)增加片組注意力模塊的提升較低,但時移模塊與片組注意力模塊的組合在3 個數(shù)據(jù)集上分別提升了6.86%和2.19%,說明兩種策略的組合能最優(yōu)化雙流網(wǎng)絡(luò)的識別性能.

接著,文章試驗(yàn)了片段間不同融合方式對結(jié)果的影響.如表3所示,實(shí)驗(yàn)依次比較了最大值融合、平均融合及加權(quán)平均融合對精度的影響.由于平均融合綜合考慮了不同時序處的信息,效果最佳.

表3 不同融合方式對識別精度的影響 (%)

最后,由于不同的網(wǎng)絡(luò)有著不同的學(xué)習(xí)能力,一般情況下,網(wǎng)絡(luò)越深或越復(fù)雜,意味著其載體容量越大,所以學(xué)習(xí)能力越強(qiáng).本文對比了不同主干網(wǎng)絡(luò)下基于兩個數(shù)據(jù)集的識別性能,結(jié)果如表4所示.

表4 不同融合方式對識別精度的影響 (%)

由表4可知,在保證片段采樣數(shù)、批處理大小等可控超參數(shù)一致的條件下,本文提出的基于ResNet-50的TA-SA 網(wǎng)絡(luò)以更輕量的網(wǎng)絡(luò)結(jié)構(gòu)超過了使用分組卷積改進(jìn)了的ResNeXt-101[22]網(wǎng)絡(luò)和融合了壓縮與激勵(squeeze and excitation,SE)模塊[21]的SE-ResNet-101 網(wǎng)絡(luò),充分說明本文算法可以在行為識別任務(wù)中實(shí)現(xiàn)高效、快速、高準(zhǔn)確率的識別效果.

3 結(jié)論與展望

本文提出了基于時移和片組注意力融合的時間分組雙流深度網(wǎng)絡(luò)并全面評估了各個模塊及其組合的性能.實(shí)驗(yàn)結(jié)果表明,對視頻數(shù)據(jù)進(jìn)行時間稀疏分組隨機(jī)采樣策略能對行為內(nèi)容進(jìn)行長時程高效建模,且時移模塊和片組注意力機(jī)制的組合能有效捕獲時空特征,提升網(wǎng)絡(luò)泛化性能.相較目前多數(shù)行為識別算法,本文算法在公共數(shù)據(jù)集中被證明更具有普適性和魯棒性.為了進(jìn)一步提高算法的識別性能,今后還可從更高效的主干網(wǎng)絡(luò)優(yōu)化及多模態(tài)特征融合的方向進(jìn)行深入研究.