亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙重注意力和3DResNet-BiLSTM行為識(shí)別方法

        2023-03-15 09:55:28閆雨寒劉忠育劉曉文
        關(guān)鍵詞:池化殘差注意力

        閆雨寒 陳 天 劉忠育 劉曉文

        (中國(guó)礦業(yè)大學(xué)物聯(lián)網(wǎng)(感知礦山)研究中心 江蘇 徐州 221008) (中國(guó)礦業(yè)大學(xué)信息與控制工程學(xué)院 江蘇 徐州 221008)

        0 引 言

        行為識(shí)別在人機(jī)交互、目標(biāo)檢測(cè)、視頻描述等多個(gè)領(lǐng)域具有巨大的應(yīng)用潛力和價(jià)值,然而由于視頻數(shù)據(jù)中存在運(yùn)動(dòng)風(fēng)格復(fù)雜、背景雜亂、光照環(huán)境復(fù)雜等問題[1-2],如何準(zhǔn)確提取人員行為的時(shí)空特征并識(shí)別是目前極具挑戰(zhàn)性的任務(wù)。

        基于視頻數(shù)據(jù)的行為識(shí)別需要考慮單幀圖像的靜態(tài)特征以及連續(xù)多幀圖像之間的動(dòng)態(tài)特征,在深度學(xué)習(xí)方法取得突破性進(jìn)展之前,手動(dòng)提取特征獲取人員行為的時(shí)空特征是行為識(shí)別的通常做法。受益于深度學(xué)習(xí)方法在特征提取方面的獨(dú)特優(yōu)勢(shì),目前利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻數(shù)據(jù)中的深度特征并實(shí)現(xiàn)行為識(shí)別的方法主要包括雙流CNN、C3D、CNN-LSTM等。Han等[3]在ImageNet上對(duì)深度殘差網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練的基礎(chǔ)上提出了一種深層雙流卷積模型用于學(xué)習(xí)動(dòng)作的復(fù)雜信息,在UCF101和KTH數(shù)據(jù)集上取得了良好效果。Yang等[4]利用3D卷積能夠有效從視頻數(shù)據(jù)中提取時(shí)空特征的優(yōu)勢(shì),提出一種用于行為識(shí)別的非對(duì)稱3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并在預(yù)處理階段融合了RGB圖像和光流圖像的有效信息。Ullah等[5]將具有人類顯著活動(dòng)特征的視頻鏡頭用于FlowNet2-CNN網(wǎng)絡(luò)來提取時(shí)間特征,最后通過多層LSTM學(xué)習(xí)時(shí)間光流特征實(shí)現(xiàn)行為識(shí)別。

        CNN作為特征提取的有效深度模型,通常被應(yīng)用于二維圖像,然而2DCNN沒有考慮多個(gè)連續(xù)幀之間的時(shí)間動(dòng)態(tài)信息。3DCNN通過在輸入的同一位置進(jìn)行三維卷積,能夠有效捕獲空間和時(shí)序特征,同時(shí)具有時(shí)間注意力模塊的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)能夠充分獲取上下文信息。在此基礎(chǔ)上,本文提出一種基于雙重注意力和3DResNet-BiLSTM的混合模型用于行為識(shí)別。首先將原始視頻的連續(xù)幀作為3DResNet的輸入,并利用卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)聚焦空間和通道特征,抑制無關(guān)信息,為了更好地保留特征提取時(shí)的背景信息,提出一種加權(quán)池化融合系數(shù)對(duì)CBAM進(jìn)行改進(jìn)。隨后利用嵌入時(shí)間注意力的BiLSTM進(jìn)一步捕獲時(shí)序特征實(shí)現(xiàn)行為識(shí)別。與基線模型相比,所提模型在UCF101和HMDB51數(shù)據(jù)集上的識(shí)別效果均具有較為明顯的提升。

        1 三維殘差網(wǎng)絡(luò)

        2DCNN通常在卷積層上進(jìn)行二維卷積操作,從上一層的特征圖中提取局部感受野中的特征,在應(yīng)用加性偏置后通過非線性激活函數(shù)得到當(dāng)前卷積層的輸出特征圖。在池化層中,通過下采樣減少特征尺寸,增強(qiáng)不變性。CNN模型通常以交替疊加多個(gè)卷積層和池化層的方式構(gòu)建,利用反向傳播算法實(shí)現(xiàn)權(quán)重參數(shù)更新。

        由于2DCNN僅從空間維度計(jì)算特征,當(dāng)對(duì)視頻數(shù)據(jù)進(jìn)行分析時(shí),需要捕獲多個(gè)連續(xù)視頻幀中的動(dòng)態(tài)時(shí)序信息,因此需要在卷積層進(jìn)行3D卷積來計(jì)算空間和時(shí)間維度特征。3D卷積通過一個(gè)三維卷積核對(duì)多個(gè)連續(xù)幀疊加構(gòu)成的立方體進(jìn)行卷積,將卷積層中的特征圖連接到前一層中的多個(gè)相鄰幀來獲取時(shí)序信息[6]。通常第i層網(wǎng)絡(luò)中第j個(gè)特征圖在(x,y,z)位置進(jìn)行3D卷積的值可表示為:

        (1)

        圖1 殘差學(xué)習(xí)結(jié)構(gòu)示意圖

        2 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)

        遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)通過將輸入序列映射到隱藏層,再將隱藏層狀態(tài)映射到輸出,其計(jì)算過程可表示為:

        ht=σ(Wxhxt+Whhht-1+bh)

        (2)

        zt=σ(Whzht+bz)

        (3)

        式中:σ(·)表示激活函數(shù);xt表示輸入序列;ht∈RN表示具有N個(gè)隱藏單元的隱藏層狀態(tài);zt表示t時(shí)刻的輸出;W和b分別表示權(quán)重矩陣和加性偏置。

        RNN能夠?qū)⑸舷挛男畔⑷谌氲綇妮斎氲捷敵龅挠成渲?,但是在學(xué)習(xí)長(zhǎng)期序列信息的過程中存在梯度消失或梯度爆炸的問題,導(dǎo)致其難以實(shí)現(xiàn)學(xué)習(xí)長(zhǎng)期依賴。長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是RNN的改進(jìn)算法,通過輸入門、遺忘門、輸出門三個(gè)門控單元對(duì)信息流進(jìn)行控制,有效克服了RNN存在的問題[7-8]。BiLSTM分別由前向LSTM和后向LSTM構(gòu)成,能夠有效獲取上下文信息。LSTM的單元結(jié)構(gòu)如圖2所示。

        圖2 LSTM 單元結(jié)構(gòu)

        LSTM單元狀態(tài)更新過程如下。

        it=σ(Wxixt+Whiht-1+bi)

        (4)

        ft=σ(Wxfxt+Whfht-1+bf)

        (5)

        ot=σ(Wxoxt+Whoht-1+bo)

        (6)

        gt=tanh(Wxcxt+Whcht-1+bc)

        (7)

        ct=ct-1·ft+gt·it

        (8)

        ht=ot·tanh(ct)

        (9)

        式中:it、ft、ot、gt、ct、ht∈RN分別表示輸入門、遺忘門、輸出門、輸入調(diào)制門、記憶存儲(chǔ)單元和隱藏單元。由于it、ft、ot均為S形的,取值范圍均在[0,1]之間,因此it和ot用于控制狀態(tài)信息的輸入和輸出,ft決定了上一單元中哪些狀態(tài)信息會(huì)被遺忘。

        3 注意力機(jī)制

        3.1 卷積注意力模塊

        對(duì)于給定的輸入三維特征圖F∈RT×H×W×C,H和W分別表示特征圖的長(zhǎng)和寬,C表示通道數(shù)量,T表示時(shí)間尺度。依次沿通道和空間分別生成注意力特征權(quán)重Mc和Ms,然后對(duì)t時(shí)刻特征圖Ft進(jìn)行重標(biāo)定[9],其過程可表示為:

        (10)

        (11)

        圖3 卷積塊注意力模塊示意圖

        Mc(Ft)=σ(MLP(Avg(Ft)))=

        (12)

        圖4 通道注意力模塊算法流程示意圖

        由于3D卷積需要同時(shí)考慮連續(xù)幀之間的時(shí)空信息,提取特征時(shí)的背景信息變得更為重要,因此在擠壓操作中通常利用平均池化保留細(xì)節(jié)信息。而最大池化能夠保留紋理信息,為了同時(shí)獲得平均池化和最大池化的優(yōu)勢(shì),提出利用融合系數(shù)對(duì)擠壓操作中的平均池化和最大池化進(jìn)行加權(quán)融合。設(shè)最大池化融合系數(shù)為λ,則對(duì)通道注意力的最大池化操作應(yīng)用融合系數(shù)得到:

        Mc(Ft)=σ(MLP(Avg(Ft))+λ·MLP(Max(Ft)))=

        (13)

        空間注意力利用特征之間的空間關(guān)系生成空間注意力特征圖,用于聚焦特征圖中的重要信息。首先沿通道維度應(yīng)用平均池化進(jìn)行擠壓操作生成空間描述符,通過卷積層后構(gòu)建出空間注意力特征權(quán)重Ms,最后將特征圖Ft與空間特征權(quán)重Ms逐元素相乘得到空間注意力特征圖。其計(jì)算過程可表示為:

        Ms(Ft)=σ(f7×7(AvgPool(Ft)))=

        (14)

        式中:σ(·)表示S型函數(shù);f7×7(·)表示卷積核大小為7×7的卷積運(yùn)算。

        空間注意力模塊算法流程如圖5所示。

        圖5 空間注意力模塊算法流程示意圖

        3.2 時(shí)間注意力模型

        軟注意力機(jī)制通過模擬視覺注意力的分配過程,最大化相關(guān)上下文編碼信息,減少無關(guān)信息的影響。對(duì)輸入特征向量集合X中的任一向量xi,時(shí)間注意力權(quán)重的計(jì)算過程如下:

        (15)

        式中:f(x)=WTX為評(píng)價(jià)函數(shù),用于反映特征的時(shí)序重要性,W為模型參數(shù)。注意力模塊的輸出為輸入序列的加權(quán)和,利用注意力權(quán)重融合特征向量得到具有時(shí)間關(guān)注度的輸出特征Xa。

        (16)

        4 行為識(shí)別模型構(gòu)建

        本文提出一種基于卷積和時(shí)間雙重注意力的3DRAN-BiLSTM-Attention模型。其中,三維殘差注意力網(wǎng)絡(luò)(3D Residual Attention Network,3DRAN)通過在ResNet網(wǎng)絡(luò)中的第一個(gè)卷積層和最后一個(gè)卷積層后嵌入CBAM構(gòu)建得到,殘差注意力單元結(jié)構(gòu)如圖6所示。3DRAN中卷積層卷積核大小均為3×3×3,同時(shí)利用具有通道加權(quán)融合的CBAM聚焦空間和通道特征,提高網(wǎng)絡(luò)的學(xué)習(xí)能力。將16個(gè)連續(xù)幀作為3DRAN的輸入提取視頻的時(shí)空特征,作為BiLSTM模型輸入。

        圖6 殘差注意力模塊結(jié)構(gòu)

        在解碼部分,BiLSTM分別利用前向和后向隱藏層節(jié)點(diǎn)獲取全局上下文信息,得到輸入特征序列H={h1,h2,…,hn-1,hn}。利用軟注意力模塊獲取特征序列的權(quán)重分布,使關(guān)鍵特征信息具有更高的注意力權(quán)重,能夠更好地聚焦重要時(shí)序特征,從而得到注意力加權(quán)特征序列A={a1,a2,…,an-1,an}。具體結(jié)構(gòu)如圖7所示。

        圖7 具有時(shí)間注意力的BiLSTM模型結(jié)構(gòu)

        最后,結(jié)合3DRAN和具有時(shí)間注意力的BiLSTM構(gòu)建用于行為識(shí)別的混合模型,其整體結(jié)構(gòu)如圖8所示。

        圖8 雙重注意力和3DResNet-BiLSTM模型結(jié)構(gòu)

        5 實(shí) 驗(yàn)

        5.1 實(shí)驗(yàn)數(shù)據(jù)集

        分別利用UCF101和HMDB51公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。UCF101從YouTube上收集得到的真實(shí)動(dòng)作數(shù)據(jù)集,共包含101個(gè)類別的13 320個(gè)短視頻。HMDB51中的視頻來自電影片段和一些在線視頻網(wǎng)站,共包含55個(gè)類別6 849個(gè)短視頻。兩個(gè)數(shù)據(jù)集的70%用于訓(xùn)練,30%用于測(cè)試。

        5.2 模型訓(xùn)練

        本文實(shí)驗(yàn)運(yùn)行環(huán)境為Intel Core i7-8700K,主頻為3.70 GHz的6核心12線程CPU,16 GB內(nèi)存,GPU為GTX1080Ti。首先對(duì)訓(xùn)練數(shù)據(jù)集利用水平翻轉(zhuǎn)、隨機(jī)剪裁、亮度調(diào)整等方式進(jìn)行擴(kuò)充,并從視頻中隨機(jī)選取16個(gè)連續(xù)幀,如果視頻長(zhǎng)度不夠則進(jìn)行循環(huán)播放和選取,最后將所有視頻幀的大小調(diào)整為112×112,因此模型的輸入尺寸為16×3×112×112,batch-size大小為256。為了減少模型過擬合,使用動(dòng)量為0.9的隨機(jī)梯度下降算法在Kinetics數(shù)據(jù)集上對(duì)3DRAN進(jìn)行預(yù)訓(xùn)練,初始學(xué)習(xí)率設(shè)為0.01,當(dāng)驗(yàn)證損失達(dá)到飽和后將學(xué)習(xí)率除以10。最后將預(yù)訓(xùn)練的3DRAN與具有時(shí)間注意力的BiLSTM結(jié)合構(gòu)建得到本文的實(shí)驗(yàn)?zāi)P汀?/p>

        5.3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文模型的有效性,分別設(shè)計(jì)了三組實(shí)驗(yàn)。首先第一組實(shí)驗(yàn)利用不同深度的嵌入卷積注意力的殘差網(wǎng)絡(luò)結(jié)構(gòu)用于3D特征提取,對(duì)比不同深度模型的識(shí)別效果。由表1結(jié)果可以看出,隨著殘差注意力網(wǎng)絡(luò)的加深,識(shí)別準(zhǔn)確率呈上升趨勢(shì),表明深度網(wǎng)絡(luò)能夠提取到更多有效特征。

        表1 具有不同深度殘差結(jié)構(gòu)的模型識(shí)別準(zhǔn)確率(%)

        卷積和時(shí)間注意力模塊都是靈活的通用模塊,其中卷積注意力模塊能夠利用通道和空間注意力模塊的多種不同的組合順序?qū)崿F(xiàn)。第二個(gè)實(shí)驗(yàn)中對(duì)不同組合方式實(shí)現(xiàn)的注意力模型進(jìn)行實(shí)驗(yàn),并與無卷積和時(shí)間注意力的基礎(chǔ)模型進(jìn)行對(duì)比。為了節(jié)約計(jì)算資源和時(shí)間,均以3DResNet18為基礎(chǔ)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。結(jié)果表明,單通道注意力的效果要優(yōu)于單個(gè)空間注意力模塊,均好于基礎(chǔ)模型。當(dāng)同時(shí)使用通道和空間注意力時(shí),通道注意力在前的順序結(jié)構(gòu)具有最好的識(shí)別效果。并且具有卷積注意力的模型在兩個(gè)數(shù)據(jù)集上的識(shí)別效果與基礎(chǔ)模型相比分別提升了1.7百分點(diǎn)和2.2百分點(diǎn),說明卷積注意力模塊能夠有效抑制背景運(yùn)動(dòng)。此外,僅使用時(shí)間注意力的模型的識(shí)別效果要略低于僅使用卷積注意力的模型,這是因?yàn)锳tt-BiLSTM要依賴于3DResNet18提取的特征。

        表2 不同注意力結(jié)構(gòu)的模型識(shí)別準(zhǔn)確率(%)

        最后與其他流行的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對(duì)比,由于模型訓(xùn)練和評(píng)估耗時(shí)較長(zhǎng),我們直接引用其他論文的實(shí)驗(yàn)結(jié)果。為了保證公平性,所有實(shí)驗(yàn)均采用RGB幀作為輸入,結(jié)果如表3所示。可以看出,本文模型在UCF101和HMDB51數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別達(dá)到92.7%和64.8%,要明顯優(yōu)于標(biāo)準(zhǔn)C3D、P3D、3DResNet101等模型。并且具有加權(quán)融合的通道注意力模型較上述模型的識(shí)別準(zhǔn)確率分別提升了0.4百分點(diǎn)和1.1百分點(diǎn),表明通過最大池化捕獲特征紋理信息能夠在一定程度上提升3DResNet的時(shí)空特征提取能力。此外,I3D的性能較好于本文模型,因?yàn)镮3D采用的224×224大小的視頻幀作為輸入,包含了更多的特征信息,同時(shí)也使得I3D參數(shù)量較大,計(jì)算復(fù)雜度較高。

        表3 不同模型的識(shí)別準(zhǔn)確率對(duì)比(%)

        6 結(jié) 語

        本文提出一種基于雙重注意力和3DResNet-BiLSTM的行為識(shí)別算法。3DResNet借助殘差結(jié)構(gòu)不會(huì)顯著增加計(jì)算成本,將卷積注意力模塊嵌入3DResNet模型中,聚焦重要特征信息而抑制無關(guān)信息。并且采用兩種池化加權(quán)融合方式計(jì)算通道注意力能夠在保留背景細(xì)節(jié)信息的同時(shí)獲得紋理信息,有效提高了網(wǎng)絡(luò)的時(shí)空特征學(xué)習(xí)能力。最后利用具有時(shí)間注意力的BiLSTM模型能夠進(jìn)一步學(xué)習(xí)時(shí)序信息從而實(shí)現(xiàn)行為識(shí)別。在UCF101和HMDB51數(shù)據(jù)集上進(jìn)行的多組實(shí)驗(yàn)表明,在僅使用RGB幀作為輸入的情況下,本文模型能夠分別達(dá)到93.1%和65.9%的識(shí)別準(zhǔn)確率。

        猜你喜歡
        池化殘差注意力
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計(jì)
        基于雙向GRU與殘差擬合的車輛跟馳建模
        讓注意力“飛”回來
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        免费人成在线观看网站| 亚洲av熟女天堂系列| 亚洲精品一区二区三区麻豆| 国产一区二区av免费在线观看| 99在线精品视频在线观看| 中国丰满熟妇xxxx| 国产成人无码A区在线观| 在线免费观看亚洲天堂av| 国产情侣亚洲自拍第一页| 国产欧美亚洲精品第一页| 在线永久免费观看黄网站| 自拍亚洲一区欧美另类| 国内偷拍视频一区二区| 丁香婷婷在线成人播放视频| 国产欧美日韩精品专区| 亚洲免费观看在线视频| yy111111少妇影院| 视频一区视频二区自拍偷拍 | 久久精品国产成人午夜福利| 40岁大乳的熟妇在线观看| 免费的毛片视频| 久久高潮少妇视频免费| 亚洲国产综合人成综合网站| 国产精品欧美久久久久久日本一道| 国产99久久亚洲综合精品| 午夜免费福利一区二区无码AV| 91中文在线九色视频| 人妻少妇看a偷人无码| 亚洲色欲综合一区二区三区| 欧洲亚洲第一区久久久| 亚洲av毛片一区二区久久| 国产精品一区二区三区卡 | 少妇又骚又多水的视频| 无码人妻一区二区三区免费视频| 国产精品永久免费视频| 日本一区免费喷水| 二区三区日本高清视频| 中文字幕日韩精品一区二区三区| 丰满少妇被猛烈进入无码| 最新国产精品精品视频| 日本高清一区二区三区在线观看|