亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力的雙流CNN的行為識(shí)別

        2020-11-02 11:52:38馬翠紅毛志強(qiáng)
        關(guān)鍵詞:光流雙流注意力

        馬翠紅,王 毅,毛志強(qiáng)

        (華北理工大學(xué) 電氣工程學(xué)院,河北 唐山 063210)

        0 引 言

        近年來,研究人員將深度學(xué)習(xí)應(yīng)用于視頻監(jiān)控的目標(biāo)檢測(cè)、行為識(shí)別等領(lǐng)域[1]。Simonyan等[2]利用包含空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)雙流卷積網(wǎng)絡(luò)分別提取堆疊光流圖和RGB視頻中的長(zhǎng)時(shí)運(yùn)動(dòng)和表觀特征,該模型僅考慮了視頻中的短期動(dòng)態(tài)特征,視頻中的長(zhǎng)期特征沒有得到充分利用。

        Woo等[3]提出基于RNN可以實(shí)現(xiàn)對(duì)視頻中多對(duì)象行為進(jìn)行識(shí)別。Hochreiter等[4]提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),用LSTM替代傳統(tǒng)的RNN,解決了RNN梯度消失的問題。Gammulle等[5]設(shè)計(jì)雙流融合LSTM網(wǎng)絡(luò)用于行為識(shí)別,且其應(yīng)用在模式識(shí)別等任務(wù)中也取得了很好的效果。

        針對(duì)上述存在的問題并總結(jié)各種網(wǎng)絡(luò)優(yōu)勢(shì)的基礎(chǔ)上,提出基于注意力的雙流CNN與DU-DLSTM的識(shí)別模型來解決復(fù)雜場(chǎng)景下監(jiān)控視頻的行為識(shí)別問題。

        1 整體模型

        本文提出的模型采用時(shí)空雙流網(wǎng)絡(luò)和視覺注意力提取特征向量,輸入DU-DLSTM模塊深度解析后經(jīng)Softmax函數(shù)完成識(shí)別任務(wù),模型如圖1所示。

        圖1 系統(tǒng)總體框架

        2 基于注意力的雙流CNN

        2.1 LSTM

        LSTM是時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的另一種形式,LSTM的優(yōu)點(diǎn)是解決長(zhǎng)序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡(jiǎn)單來說,與普通的RNN相比,LSTM能夠在較長(zhǎng)的序列中發(fā)揮更好的作用。

        LSTM的整體功能實(shí)現(xiàn)的結(jié)構(gòu)如圖2所示,其中LSTM的最重要的部位就是她的記憶單元ct,它實(shí)現(xiàn)的功能是對(duì)信息進(jìn)行篩選,留下最佳信息,如式(5)所示,LSTM的最大的特點(diǎn)就是通過它自身特殊的門[6]結(jié)構(gòu)對(duì)行為信息與記憶單元之間交互的能力進(jìn)行操控。LSTM的主要的門結(jié)構(gòu)是通過一個(gè)Sigmoid函數(shù)具體體現(xiàn)的,其中σ(x)=(1+e-x)-1表示它的Sigmoid函數(shù),Sigmoid函數(shù)優(yōu)點(diǎn)在于其最終輸出值都分布在[0,1]之間,代表最終信息的保留程度。具體如式(1)~式(6)所示

        圖2 LSTM內(nèi)部結(jié)構(gòu)

        it=σ(Wxixt+Whiht-1+bi)

        (1)

        ft=σ(Wxfxt+Whfht-1+bf)

        (2)

        ot=σ(Wxoxt+Whoht-1+bo)

        (3)

        gt=tanh(Wxcxt+Whcht-1+bc)

        (4)

        ct=ft?ct-1+it?gt

        (5)

        ht=ot?tanh(ct)

        (6)

        式中:xt代表當(dāng)前記憶單元的輸入,ht-1表示上一時(shí)刻細(xì)胞的輸出。it,ft,ot,分別為輸入門、遺忘門、輸出門,gt是由雙曲正切函數(shù)創(chuàng)建的一個(gè)新的候選值向量。具體如式(6)所示,其中LSTM的輸出ht是由ot來具體控制是否需要激活其中的記憶單元ct。本文采用的多層LSTM網(wǎng)絡(luò)建模隱狀態(tài),其中每一LSTM層的全部輸出內(nèi)容成為下一層的全部輸入內(nèi)容,一層層疊加使其形成多層LSTM。

        2.2 軟注意力機(jī)制的空間模型

        本文主要提出的空間注意力模型,該模型可以主動(dòng)學(xué)習(xí)視頻內(nèi)空間上的重要的特征的概率分布。采用這里提出的注意力機(jī)制充分提取視頻和其具體的光流序列的整體特征[7]。其中假設(shè)xt作為具體的空間網(wǎng)絡(luò)特征輸出,也為時(shí)間網(wǎng)絡(luò)的輸入,xt是采樣部分的切片。本文選擇確定性軟注意力機(jī)制[8]

        (7)

        其中,xt表示視頻特征立方體,Xt,i為Xt在t時(shí)刻的第i個(gè)切片,K2表示切片大小,lt,i表示光流特征提取的空間softmax參數(shù)[8]

        (8)

        (9)

        其中,c0為初始狀態(tài),h0為隱含狀態(tài),finit ,c和finit,h分別為多層感知器,視頻段的幀數(shù)。

        2.3 軟注意力機(jī)制的時(shí)間模型

        本文提出時(shí)間注意模型,解析所有視頻幀與識(shí)別動(dòng)作的相關(guān)性,解析光流序列得到隱狀態(tài)參數(shù)ht,時(shí)間注意模型解析視頻幀得到隱狀態(tài)參數(shù)bt,時(shí)間維注意力權(quán)重值為

        (10)

        其中,t表示時(shí)間幀,n表示視頻長(zhǎng)度;h表示隱狀態(tài)層參數(shù),q為其最大值;bt,k和ht,k分別表示視頻幀和光流幀的隱狀態(tài)參數(shù)向量。本文采用sigmoid函數(shù)將時(shí)間維注意權(quán)重系數(shù)限制在[0, 1]區(qū)間

        (11)

        時(shí)間流網(wǎng)絡(luò)提取特征的概率分布P(yt=c),利用softmax分類器獲得對(duì)應(yīng)類別概率分布

        (12)

        其中,t代表時(shí)間幀,c表示動(dòng)作類別,P(y′=c)為相關(guān)性最大的動(dòng)作特征。

        3 雙單向結(jié)構(gòu)DU-DLSTM設(shè)計(jì)

        在行為識(shí)別領(lǐng)域LSTM由于可以更好提取長(zhǎng)時(shí)運(yùn)動(dòng)信息備受歡迎,但由于其過多的依賴于所有輸入信息,識(shí)別精度受到限制。Chevalier等[9]提出的雙向LSTM使得準(zhǔn)確度有了升高。如圖3所示。

        圖3 雙向結(jié)構(gòu)Bi-LSTM

        雙向LSTM網(wǎng)絡(luò)經(jīng)常遇到各種優(yōu)化瓶頸,導(dǎo)致識(shí)別精度很難進(jìn)一步提高。通過總結(jié)遇到的問題,我們提出 DU-DLSTM模塊,如圖4所示,兩個(gè)單向傳遞的DLSTM組合后形成DU-DLSTM單元。當(dāng)前各種拓展的LSTM網(wǎng)絡(luò)結(jié)構(gòu)越來越深,時(shí)序信息通過深層次的網(wǎng)絡(luò)傳輸后,仍能進(jìn)行更好地融合,深層雙單向LSTM更好地獲取動(dòng)作的全局信息,完成識(shí)別任務(wù)。

        圖4 雙單向結(jié)構(gòu)DU-DLSTM

        DU-DLSTM單元表示為

        hDU=c(d(W1hDL1+b1),d(W2hDL2+b2))

        (13)

        其中,hDL1和hDL2代表相同傳輸方向的兩個(gè)DLSTM單元的輸入,W和b為權(quán)重和偏置項(xiàng),hDU為輸出。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 數(shù)據(jù)集

        本文使用的視頻數(shù)據(jù)集是KTH,選擇了一些動(dòng)作,如圖5所示。該數(shù)據(jù)集包含固定視角攝像機(jī)拍攝的600個(gè)動(dòng)態(tài)視頻。視頻的幀率為25 frame/s,視頻每幀圖片的分辨率都為160像素×120像素。有25位不同的實(shí)驗(yàn)對(duì)象,4種不同的實(shí)驗(yàn)場(chǎng)景:戶外、室內(nèi)、戶外(場(chǎng)景變化)、戶外(服飾裝扮變化),6種不同的人體行為:散步(Walking)、慢跑(Jogging)、奔跑(Running)、拳擊(Boxing)、揮手(Hand waving)、拍手(Hand clapping)。

        圖5 KTH樣本數(shù)據(jù)集

        首先對(duì)數(shù)據(jù)集進(jìn)行劃分,隨機(jī)取80%作為訓(xùn)練集,剩下20%為測(cè)試集。提取視頻的RGB幀和光流幀后進(jìn)行預(yù)處理,然后將視頻隨機(jī)剪輯為25 frames的短視頻后訓(xùn)練,來增強(qiáng)數(shù)據(jù)。

        4.2 實(shí)驗(yàn)環(huán)境搭建

        本實(shí)驗(yàn)主要選擇的是Python語(yǔ)言,將其搭建在深度學(xué)習(xí)框架Tensorflow下實(shí)現(xiàn)具體的實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境:Ubuntu16.04 64位;NVIDIA GeForce GTX 1080Ti(11 G)顯卡;32 G內(nèi)存。

        在訓(xùn)練過程中,為加強(qiáng)魯棒性,首先在imagenet數(shù)據(jù)集下進(jìn)行了10萬(wàn)次訓(xùn)練,得到預(yù)訓(xùn)練模型,對(duì)參數(shù)進(jìn)行優(yōu)化。圖6為具體訓(xùn)練過程中,光流圖和視頻幀數(shù)據(jù)隨著訓(xùn)練次數(shù)的增加,識(shí)別準(zhǔn)確率的具體變化。

        圖6 KTH數(shù)據(jù)集訓(xùn)練準(zhǔn)確率

        4.3 實(shí)驗(yàn)結(jié)果分析

        本文將模型對(duì)KTH測(cè)試集中6種不同的行為識(shí)別結(jié)果做了可視化處理,用來觀測(cè)模型的效果,對(duì)角線元素代表識(shí)別的準(zhǔn)確率。

        通過表1可以看出,分析KTH數(shù)據(jù)集,慢跑和奔跑行為是最容易混淆的,而拍手、揮手、拳擊、散步的識(shí)別率準(zhǔn)確率極高。通過人眼觀察原始的視頻也可以看出,慢跑和奔跑的區(qū)分度很小,數(shù)據(jù)本身的相似性極高。

        表1 各種行為的混淆矩陣

        在先前的實(shí)驗(yàn)中, 已經(jīng)得到空間注意網(wǎng)絡(luò)與時(shí)間注意網(wǎng)絡(luò)的最佳效果, 受到之前學(xué)的結(jié)果分布學(xué)習(xí)相關(guān)內(nèi)容的啟發(fā), 本文對(duì)具體提出的空間注意網(wǎng)絡(luò)與提出的時(shí)間注意網(wǎng)絡(luò)得到的實(shí)驗(yàn)結(jié)果加以不同的分布比來加權(quán), 進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表2,分布比=空間層∶時(shí)間層。

        表2 雙流網(wǎng)絡(luò)模型在不同權(quán)重比下的準(zhǔn)確率/%

        從表2可以看出,這里提出的空間注意網(wǎng)絡(luò)與提出的時(shí)間注意網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果具體的分布比為4∶6時(shí),本文的模型的識(shí)別精度相比最高, 在數(shù)據(jù)集中取得98.9%識(shí)別準(zhǔn)確率。

        最后,將本文的網(wǎng)絡(luò)模型與目前識(shí)別精度較高算法[8,10,11]測(cè)試然后對(duì)比,其最終的實(shí)驗(yàn)結(jié)果見表3。

        表3 不同算法在KTH上的比較結(jié)果/%

        從表3中可以看出,本文提出的注意力的雙流CNN與DU-DLSTM模型使行為識(shí)別的準(zhǔn)確率有很大的提高。

        5 結(jié)束語(yǔ)

        為充分融合視頻的時(shí)間和空間信息,更加充分利用視頻的長(zhǎng)時(shí)運(yùn)動(dòng)信息,本文提出的基于注意力的雙流CNN與DU-DLSTM的行為識(shí)別模型,通過與光流特征結(jié)合捕獲場(chǎng)景運(yùn)動(dòng)信息,構(gòu)建基于注意力的空間和時(shí)間網(wǎng)絡(luò),利用注意力機(jī)制學(xué)習(xí)相關(guān)性較大的特征對(duì)象,構(gòu)建DU-DLSTM模塊拓寬網(wǎng)絡(luò)深度,有利于學(xué)習(xí)表征能力更強(qiáng)的特征,最后采用Softmax最大似然函數(shù)對(duì)視頻進(jìn)行分類,提高了魯棒性。在KTH數(shù)據(jù)集上對(duì)模型進(jìn)行了測(cè)試,并與其它算法進(jìn)行比較,表明本文的模型有效提高了識(shí)別精度,本文提供一個(gè)很好的方案。

        猜你喜歡
        光流雙流注意力
        方一帆
        利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
        四川省成都市雙流區(qū)東升迎春小學(xué)
        讓注意力“飛”回來
        雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對(duì)策
        四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
        基于物理學(xué)的改善粒子圖像測(cè)速穩(wěn)健光流方法研究
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        融合光流速度場(chǎng)與背景差分的自適應(yīng)背景更新方法
        国产又大大紧一区二区三区| 亚洲AV永久无码制服河南实里| 99精品免费视频| 在线视频播放观看免费| 亚洲av日韩av卡二| 日日碰狠狠添天天爽| 自拍欧美日韩| 手机在线免费看av网站| 国产成人一区二区三区乱| 国产午夜福利不卡在线观看| 最新国产日韩AV线| 精品日本韩国一区二区三区| 亚洲av乱码二区三区涩涩屋 | 国产一区二区波多野结衣 | 国产精品视频一区二区三区,| 精品极品视频在线观看| 中文字幕亚洲精品无码| 国产精品免费久久久久影院| 国产伦码精品一区二区| 亚洲自拍偷拍一区二区三区| 成人精品视频一区二区| 国产精品久久久久国产精品| 国产精品一区二区久久精品| 国产精品国产午夜免费看福利| 粉嫩人妻91精品视色在线看| 欧美黑寡妇特a级做爰| 黑人巨大videos极度另类| 亚洲av高清资源在线观看三区| 亚洲免费国产中文字幕久久久| 国产激情久久久久影院老熟女免费 | 国产成人www免费人成看片| 日韩中文字幕无码av| 国产三级不卡一区不卡二区在线| 国产欧美日韩一区二区加勒比| 欧美午夜精品一区二区三区电影| 狠狠丁香激情久久综合| 精品国产中文久久久免费| 乱色精品无码一区二区国产盗| 亚洲自拍另类制服在线| 精品人妻夜夜爽一区二区| 久久成人成狠狠爱综合网|