亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于光流和深度運(yùn)動(dòng)圖的行為識(shí)別算法

        2020-07-21 10:56:02季雄武張永輝
        關(guān)鍵詞:光流深度動(dòng)作

        季雄武,張永輝,張 健

        (海南大學(xué) 信息與通信工程學(xué)院,海南 海口 570228)

        近年來(lái),國(guó)內(nèi)外對(duì)視頻類(lèi)的行為識(shí)別算法研究如火如荼.雖然,目前對(duì)靜止圖像識(shí)別的研究取得了很大的成功,但是對(duì)視頻類(lèi)的行為識(shí)別仍然是一個(gè)具有挑戰(zhàn)性的課題.

        在行為識(shí)別領(lǐng)域,同計(jì)算機(jī)視覺(jué)在各領(lǐng)域的發(fā)展一樣,集中將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于行為識(shí)別中.早期的研究人員主要嘗試融合光流與RGB視頻幀,來(lái)提高行為識(shí)別準(zhǔn)確率.雖然RGB視頻具有豐富的細(xì)節(jié)信息,但缺乏深度信息,對(duì)沿著視線方向的動(dòng)作缺乏識(shí)別能力,并且外部的光照和遮擋等因素對(duì)其識(shí)別能力干擾很大.如文獻(xiàn)[1]在2014年首次提出了創(chuàng)造性的雙流網(wǎng)絡(luò),通過(guò)從RGB視頻序列提取時(shí)空信息進(jìn)行識(shí)別;文獻(xiàn)[2]將長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)加入到原始雙通道模型中,用來(lái)加強(qiáng)時(shí)域信息的聯(lián)系;文獻(xiàn)[3]使用在ImageNet上進(jìn)行預(yù)訓(xùn)練的ResNet101來(lái)搭建雙流卷積神經(jīng)網(wǎng)絡(luò),從中提取空間和時(shí)間特征,然后微調(diào)來(lái)進(jìn)行單幀活動(dòng)預(yù)測(cè).

        隨著深度相機(jī)出現(xiàn),如Kinect設(shè)備,不僅能夠提供RGB視頻序列,還可以提供深度視頻序列.由于深度信息更容易獲取,文獻(xiàn)[4]從深度圖中采樣點(diǎn)獲得一帶3D點(diǎn)以編碼空間信息,并采用可擴(kuò)展的圖形模型來(lái)編碼時(shí)間信息;文獻(xiàn)[5]將連續(xù)深度圖的差異堆疊為深度運(yùn)動(dòng)圖(DMM),然后使用HOG從DMM中提取相關(guān)特征,但對(duì)沿著視線方向動(dòng)作的區(qū)分度依然較差.文獻(xiàn)[6]提出了基于CNN和LSTM的模型LRCN,該模型通過(guò)CNN提取空間信息,再通過(guò)一個(gè)LSTM網(wǎng)絡(luò)提取時(shí)間信息,最后通過(guò)Softmax輸出結(jié)果,但LRCN模型收斂慢,訓(xùn)練難度大.文獻(xiàn)[7]提出了一種新的特征描述符,稱(chēng)為深度修改方向梯度直方圖(D-mHOG),用于提取深度動(dòng)作序列的局部形狀和時(shí)間信息,該算法有效地提高了對(duì)沿著視線方向動(dòng)作的識(shí)別能力.文獻(xiàn)[8]是基于RGB-D的動(dòng)作識(shí)別算法,將深度圖序列表示為三對(duì)結(jié)構(gòu)化動(dòng)態(tài)圖像(DIs),是一種簡(jiǎn)單有效的視頻表示算法.這些文獻(xiàn)都采用了深度視頻序列包含的深度信息,雖然深度信息,對(duì)光照不敏感,但是單一的深度信息缺少細(xì)節(jié)的描述.基于上述研究背景,筆者采用當(dāng)前主流的卷積神經(jīng)網(wǎng)絡(luò),融合RGB視頻序列獲取的彩色信息(RGB視頻幀)和光流信息,并且從同步的深度視頻序列獲取深度信息,提供深度特征,以增強(qiáng)特征互補(bǔ)性.因此,提出一種基于光流和深度運(yùn)動(dòng)圖的人體行為識(shí)別算法,并結(jié)合現(xiàn)有方法的優(yōu)勢(shì)和不足進(jìn)行了優(yōu)化和擴(kuò)展.

        本文算法基于ResNet101的3個(gè)彼此獨(dú)立的識(shí)別流(空間流、時(shí)間流和深度流)網(wǎng)絡(luò),并將3個(gè)識(shí)別流網(wǎng)絡(luò)輸出的空間特征、時(shí)間特征和深度特征構(gòu)造成特征矩陣,通過(guò)LSTMs進(jìn)行特征融合,最后將特征送入具有全連接的Softmax層中進(jìn)行分類(lèi),如圖1所示.

        圖1 本文算法流程圖

        1 數(shù)據(jù)處理

        1.1 空間流網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理大量文獻(xiàn)表明使用RGB圖像作為空間流輸入,可以獲得相當(dāng)好的性能.本文算法識(shí)別模型是在公開(kāi)的數(shù)據(jù)集UTD-MHAD[9]上進(jìn),其空間流網(wǎng)絡(luò)對(duì)視頻中采樣得到的靜態(tài)RGB幀圖像進(jìn)特征提取.由于UTD-MHAD數(shù)據(jù)集里的RGB視頻時(shí)長(zhǎng)都不超過(guò)4 s,每個(gè)視頻幀不超過(guò)70幀.在沒(méi)有指定情況下,使用全采樣方式對(duì)該數(shù)據(jù)集的RGB視頻進(jìn)行采樣,并對(duì)每個(gè)RGB視頻序列的前3幀和后3幀進(jìn)行刪除.在視頻開(kāi)始和結(jié)束時(shí),受試者大多處于靜止?fàn)顟B(tài),只有很小的肢體運(yùn)動(dòng),這對(duì)其運(yùn)動(dòng)特性沒(méi)有影響[10].因此,為了去除無(wú)運(yùn)動(dòng)條件,對(duì)初始和結(jié)束幀進(jìn)行了去除.

        1.2 時(shí)間流網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理運(yùn)動(dòng)中光流信息對(duì)于行為識(shí)別至關(guān)重要,光流是一種簡(jiǎn)單實(shí)用的表達(dá)圖像序列運(yùn)動(dòng)信息的方式,被廣泛用于提取行為運(yùn)動(dòng)特征.為了給網(wǎng)絡(luò)框架提供光流信息,對(duì)光流算法有不同的選擇.雖然大部分的工作都使用了Brox[11]或TV-L1[12]2種光流算法,但是每種不同的光流算法仍然存在一些差異.文獻(xiàn)[3]對(duì)這2種光流算法性能進(jìn)行了實(shí)驗(yàn)比較,實(shí)驗(yàn)結(jié)果表明其TV-L1的性能更勝一籌.因此,在沒(méi)有指定的情況下,使用TV-L1光流算法從RGB視頻序列中提取光流信息.TV-L1光流算法的具體目標(biāo)函數(shù)如式(1)所示

        (1)

        如圖2所示,使用該算法計(jì)算水平和垂直2個(gè)方向的光流,并將TV-L1光流的水平和垂直分量進(jìn)行了調(diào)整,其光流數(shù)值小于0值的都設(shè)置為0,大于255的值都設(shè)置為255.為了能夠作為時(shí)域網(wǎng)絡(luò)通道的輸入,需要對(duì)其進(jìn)行線性變換,最終將2個(gè)方向的光流保存為2張灰度圖像.為了有效提取視頻的運(yùn)動(dòng)信息,采用10個(gè)連續(xù)幀的水平和垂直光流堆疊形成20個(gè)密集光流圖像,并將其作為時(shí)間流網(wǎng)絡(luò)的輸入.

        a 連續(xù)兩幀RGB圖像b 水平與垂直方向的光流圖像圖2 連續(xù)兩幀的RGB圖像及其對(duì)應(yīng)的光流圖像

        圖3 前視圖f、側(cè)視圖s和頂視圖t的提取框架

        該3個(gè)投影圖中的像素值分別用x,y,z表示,其中z表示深度坐標(biāo)系中的深度值,則(x,y,z)表示深度坐標(biāo)系中的一個(gè)點(diǎn).與文獻(xiàn)[5]不同的是,在處理每幀投影映射,其計(jì)算的運(yùn)動(dòng)能量沒(méi)有設(shè)置閾值,只是計(jì)算2幀相鄰映射之間的絕對(duì)差值.對(duì)于N幀深度視頻序列,利用式(2)疊加其整個(gè)序列的運(yùn)動(dòng)能量得到深度運(yùn)動(dòng)圖DMMv,

        (2)

        1.4 LSTMs特征融合LSTMs網(wǎng)絡(luò)結(jié)構(gòu)是通過(guò)多個(gè)LSTM記憶單元構(gòu)成的.LSTM是長(zhǎng)短期記憶網(wǎng)絡(luò),也屬于時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)預(yù)測(cè)和處理時(shí)間序列中相對(duì)較長(zhǎng)延遲和間隔的重要事件具有明顯優(yōu)勢(shì)[14].LSTM單元具有3個(gè)輸入,分別為當(dāng)前時(shí)刻的輸入值xi,上一時(shí)刻LSTM單元的單元狀態(tài)ct-1和上一時(shí)刻LSTM單元的輸出值ht-1.LSTM單元的輸出有2個(gè),分別為當(dāng)前時(shí)刻輸出ht和當(dāng)前時(shí)刻狀態(tài)ct.LSTM單元含有3個(gè)控件門(mén),遺忘門(mén)ft確定哪些特征信息從ct-1中遺棄;輸入門(mén)it確定當(dāng)前時(shí)刻狀態(tài)ct中將輸入哪些新的特征信息;輸出門(mén)ot確定保留ct-1的哪些特征信息到ht中.具體運(yùn)算如式(3)~(7)所示

        ft=σf(Wf·[xt,ht-1,ct-1]+bf),

        (3)

        it=σi(Wi·[xt,ht-1,ct-1+bi]),

        (4)

        ot=σo(Wo·[xt,ht-1,ct-1+bo]),

        (5)

        ct=σc(Wc·[xt,ht-1]+bi)+ftct-1,

        (6)

        ht=otσhct.

        (7)

        圖4 特征矩陣被分為多個(gè)時(shí)間片段作為L(zhǎng)STMs網(wǎng)絡(luò)的輸入

        由于對(duì)長(zhǎng)序列歷史信息進(jìn)行控制和記憶是LSTMs網(wǎng)絡(luò)的特大優(yōu)勢(shì).如圖4所示,將特征矩陣按時(shí)間維度分為多個(gè)時(shí)間片段,再將其按順序輸入LSTMs網(wǎng)絡(luò)層,并根據(jù)其時(shí)間軸上的關(guān)聯(lián)特性將特征矩陣實(shí)現(xiàn)融合.特征矩陣是由3個(gè)識(shí)別流網(wǎng)絡(luò)輸出的空間特征、時(shí)間特征和深度特征構(gòu)造成的,并以X表示該特征矩陣,如式(8)

        (8)

        其中,xt表示為從一個(gè)視頻的第t幀中提取的3種特征信息組合的特征向量,與自然圖像不同的是,每個(gè)xt中的元素之間幾乎沒(méi)有空間依賴(lài)關(guān)系,但在不同的xt之間具有時(shí)間相關(guān)性,N為一個(gè)視頻中采樣幀數(shù).

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)參數(shù)設(shè)置本文網(wǎng)絡(luò)模型是在PyTorch1.1學(xué)習(xí)框架環(huán)境下實(shí)現(xiàn).由于考慮網(wǎng)絡(luò)收斂效果,采用交叉熵?fù)p失函數(shù)作為3個(gè)網(wǎng)絡(luò)通道訓(xùn)練時(shí)的優(yōu)化目標(biāo)函數(shù),其優(yōu)化算法選用隨機(jī)梯度下降法,并且動(dòng)量值設(shè)定0.9.使用預(yù)訓(xùn)練的ResNet101網(wǎng)絡(luò)模型,其空間流網(wǎng)絡(luò)模型的訓(xùn)練無(wú)需重新學(xué)習(xí),只需要對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)模型參數(shù)進(jìn)行微調(diào).因此使用較小的初始學(xué)習(xí)率,其學(xué)習(xí)率設(shè)定0.000 5,更有利于網(wǎng)絡(luò)訓(xùn)練.深度流網(wǎng)絡(luò)和時(shí)間網(wǎng)絡(luò)的輸入不是RGB圖像,與預(yù)訓(xùn)練網(wǎng)絡(luò)模型的輸入存在一定差異,為了加快網(wǎng)絡(luò)速收斂,其深度流網(wǎng)絡(luò)與時(shí)間流網(wǎng)絡(luò)初始學(xué)習(xí)速率一樣設(shè)置為0.01.3個(gè)網(wǎng)絡(luò)通道采用了自動(dòng)調(diào)整學(xué)習(xí)速率方法,隨著網(wǎng)絡(luò)迭代次數(shù)增加,其學(xué)習(xí)率隨之減小.另外,在基于UTD-MHAD數(shù)據(jù)集上,空間、時(shí)間和深度網(wǎng)絡(luò)的Batch-size分別設(shè)置為25、32和32.實(shí)驗(yàn)中將3個(gè)識(shí)別流構(gòu)造的特征矩陣,按時(shí)間維度劃分為32個(gè)時(shí)間片段,并且使用的LSTM單元數(shù)為32個(gè),其時(shí)間片段上的特征值分別輸入到對(duì)應(yīng)的LSTM單元中進(jìn)行迭代更新32次.防止LSTMs網(wǎng)絡(luò)產(chǎn)生過(guò)擬合的現(xiàn)象,其dropout設(shè)置為0.5,再將LSTMs的輸出特征送入具有全連接的Softmax層進(jìn)行分類(lèi).遵循THUMOS13機(jī)制[15]對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,整個(gè)網(wǎng)絡(luò)進(jìn)行500次迭代,為了有效地檢驗(yàn)學(xué)習(xí)模型的性能,在每迭代一次的同時(shí)對(duì)測(cè)試集進(jìn)行驗(yàn)證.

        2.2 UTD-MHAD數(shù)據(jù)集的結(jié)果分析使用UTD-MHAD數(shù)據(jù)集[9],該數(shù)據(jù)集包含深度信息、骨架、RGB視頻序列和慣性數(shù)據(jù),含有27種不同動(dòng)作,每個(gè)動(dòng)作分別由8個(gè)人執(zhí)行4次,其中3個(gè)已損壞的序列被移除后,總共有861個(gè)行為序列.對(duì)沿著視線方向的動(dòng)作識(shí)別采用了基于ResNet101的三通道網(wǎng)絡(luò)模型,融合了RGB,光流和深度運(yùn)動(dòng)圖3種特征信息,在挑戰(zhàn)性較強(qiáng)的數(shù)據(jù)集UTD-MHAD上取得94.86%的準(zhǔn)確率,如表1所示.

        表1 在UTD-MHAD數(shù)據(jù)集上本文算法與現(xiàn)有算法對(duì)比結(jié)果

        從表1中可以看出,本文算法與同樣基于UTD-MHAD數(shù)據(jù)集的識(shí)別方法進(jìn)行比較,比文獻(xiàn)[8]中識(shí)別方法準(zhǔn)確率提升了3.7個(gè)百分點(diǎn),相比于其他文獻(xiàn)的6種算法法提高了5.82%~ 20.91%,說(shuō)明融合時(shí)空深三通道的特征信息能夠獲得較好的識(shí)別效果.

        圖5 UTD-MHAD數(shù)據(jù)集上的混淆矩陣

        從圖5可以看出,本文算法在許多動(dòng)作下獲得更高的識(shí)別精度,但對(duì)于“右手繪制x”,“右手繪制圓圈(順時(shí)針)”和“右手繪制圓圈(逆時(shí)針)”等動(dòng)作識(shí)別準(zhǔn)確率相對(duì)偏低,由于這類(lèi)動(dòng)作的較高相似度造成近0.2的誤識(shí)別率.

        2.3 MSRDailyActivity3D數(shù)據(jù)集的結(jié)果分析為了進(jìn)一步檢驗(yàn)算法的性能,筆者也在MSR Daily Activity 3D數(shù)據(jù)集[19]上進(jìn)行了實(shí)驗(yàn).MSR Daily Activity 3D數(shù)據(jù)集包含RGB視頻、深度信息和骨骼關(guān)節(jié)位置數(shù)據(jù),共含有16類(lèi)動(dòng)作,每類(lèi)行為分別由10個(gè)人執(zhí)行,每位執(zhí)行者進(jìn)行2次活動(dòng),一次是站立方式,一次是坐姿方式,總共960個(gè)文件.該數(shù)據(jù)集中的絕大多數(shù)動(dòng)作都涉及人與物的互動(dòng),并且在行為識(shí)別區(qū)分度上主要突出其捕獲形狀和動(dòng)作順序的重要性,如“坐起來(lái)”和“坐下來(lái)”.在MSR Daily Activity 3D數(shù)據(jù)集上測(cè)試時(shí),只需要基于MSR Daily Activity 3D數(shù)據(jù)集對(duì)本文網(wǎng)絡(luò)模型參數(shù)進(jìn)行微調(diào),因此使用較小的初始學(xué)習(xí)率,其3個(gè)網(wǎng)絡(luò)通道的學(xué)習(xí)率都設(shè)定為0.000 5,并采用了自動(dòng)調(diào)整學(xué)習(xí)速率方法,隨著網(wǎng)絡(luò)迭代次數(shù)增加,其學(xué)習(xí)率隨之減小.

        表2 在MSR Daily Action 3D數(shù)據(jù)集上本文算法與現(xiàn)有算法對(duì)比結(jié)果

        圖6 MSR Daily Activity 3D數(shù)據(jù)集上的混淆矩陣

        如表2所示,本文算法在該數(shù)據(jù)集上準(zhǔn)確率為97.69%,與同樣基于MSR Daily Activity 3D數(shù)據(jù)集的現(xiàn)有的識(shí)別方法進(jìn)行比較,相比于文獻(xiàn)[7]的方法提高了4.56%,相比于其他文獻(xiàn)的6種算法提高了6.39%~14.39%.

        從圖6可以看出,本文算法對(duì)該數(shù)據(jù)集上絕大多數(shù)非常相似的動(dòng)作具有較好的區(qū)分度.

        3 結(jié)束語(yǔ)

        實(shí)現(xiàn)了一種基于光流和深度運(yùn)動(dòng)圖的人體行為識(shí)別算法,用于沿著視線方向動(dòng)作和三維動(dòng)作的識(shí)別.該算法不僅保留了時(shí)空信息,還增加了深度信息,利用DMM計(jì)算獲取深度動(dòng)作序列的深度運(yùn)動(dòng)圖,并利用LSTMs網(wǎng)絡(luò)的長(zhǎng)期記憶的特點(diǎn)對(duì)空間特征、時(shí)間特征和深度特征構(gòu)造成特征矩陣進(jìn)行融合,以進(jìn)行最終行為識(shí)別.此外,本文算法已經(jīng)在UTD-MHAD數(shù)據(jù)集和MSR Daily Activity 3D數(shù)據(jù)集上進(jìn)行了評(píng)估,獲得較高的識(shí)別精度,并對(duì)相似動(dòng)作也具有一定的分辨能力.下一步工作重心是將相關(guān)的光流算法集成到本文算法的網(wǎng)絡(luò)框架上,并探討高效計(jì)算時(shí)間和高識(shí)別精度相結(jié)合的實(shí)時(shí)測(cè)量方法,用于實(shí)時(shí)人體動(dòng)作識(shí)別系統(tǒng).

        猜你喜歡
        光流深度動(dòng)作
        利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
        深度理解一元一次方程
        深度觀察
        深度觀察
        基于物理學(xué)的改善粒子圖像測(cè)速穩(wěn)健光流方法研究
        深度觀察
        動(dòng)作描寫(xiě)要具體
        畫(huà)動(dòng)作
        動(dòng)作描寫(xiě)不可少
        非同一般的吃飯動(dòng)作
        777国产偷窥盗摄精品品在线| 亚洲av中文字字幕乱码软件 | 91中文字幕精品一区二区| 9久久婷婷国产综合精品性色| 在线天堂www中文| 伊人色综合视频一区二区三区| 超级少妇一区二区三区 | 国产麻豆剧传媒精品国产av| 国产91在线免费| 国产一区二区免费在线观看视频| 成人偷拍自拍视频在线观看 | 内射人妻视频国内| 综合久久给合久久狠狠狠97色| 中文字幕有码在线视频| 久久精品国产9久久综合| 国产96在线 | 免费| 中文字幕成人精品久久不卡| 成人自拍一二在线观看| 无码喷潮a片无码高潮| 老师翘臀高潮流白浆| 日韩a毛片免费观看| 日本一道dvd在线中文字幕 | 亚洲av无码无限在线观看| 亚洲国产人在线播放首页 | 肉体裸交丰满丰满少妇在线观看| 日本岛国大片不卡人妻| 久久av不卡人妻出轨一区二区| 亚欧免费无码aⅴ在线观看| 国内精品一区视频在线播放| 一区二区视频网站在线观看 | 97久久久一区二区少妇| 日韩人妻中文无码一区二区| 国产午夜精品久久久久免费视| 国产一区二区三区免费在线视频| 日本精品一级二区三级| 精品国内在视频线2019| 一区一级三级在线观看| 日本高清一区二区三区不卡| 欧洲美女熟乱av| 中文字幕亚洲无线码| 亚洲区精品久久一区二区三区女同|