亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙流卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法①

        2019-08-16 09:11:16王傳旭
        計算機系統(tǒng)應(yīng)用 2019年7期
        關(guān)鍵詞:雙流時序邊界

        劉 云,張 堃,王傳旭

        (青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,青島 266000)

        1 引言

        隨著各種攝像監(jiān)控設(shè)備的快速發(fā)展,視頻和圖像的數(shù)據(jù)量在不斷增加.如何分析視頻圖像中的信息也成為一個熱門的研究內(nèi)容,視頻分析中的一個重要分支就是行為識別.人體行為識別的目標(biāo)是從一個未知的視頻或者是圖像序列中自動分析其中正在進(jìn)行的行為,目前對于行為識別的研究熱點主要是對短視頻中單個行為的識別,而在實際生活及應(yīng)用中,更多的視頻數(shù)據(jù)是包含多個不同行為的復(fù)雜長視頻.這就需要使用另一種識別算法:時序行為檢測(temporal action localization).這種算法任務(wù)要求檢測出長視頻中每個行為的類別,同時要標(biāo)注出每個行為的開始時間和結(jié)束時間.這種算法可以應(yīng)用到許多方面,比如自動檢索和智能監(jiān)控等.

        時序行為檢測通常可以分為兩個階段,提議生成階段和分類識別階段.提議生成階段的主要目標(biāo)是生成可能含有行為動作的視頻片段,視頻片段稱為行為提議,而分類識別階段的任務(wù)則是對提議生成階段產(chǎn)生的行為提議進(jìn)行識別分類,并且進(jìn)一步確定行為類別和起止時間.盡管目前傳統(tǒng)的行為識別已經(jīng)達(dá)到較高的準(zhǔn)確度,但是在確定行為起止時間上仍然不盡如人意[1,2].因此,如何產(chǎn)生高質(zhì)量的行為提議,成為該內(nèi)容的一個重點研究方向[3-6].為了獲得高質(zhì)量的提議,提議生成階段產(chǎn)生的提議在持續(xù)時間上需要靈活可變,用于應(yīng)對視頻片段持續(xù)時間長短不一并且差距較大的問題,同時產(chǎn)生的提議應(yīng)具有精確的時間邊界.最近的一些提議生成方法[3-5,7]利用不同長度的滑動窗口來生成提議,然后使用訓(xùn)練好的模型來評估提議的置信度,但是,這種預(yù)先定義持續(xù)時間和間隔時間來產(chǎn)生提議的方法有一些明顯的缺點:(1) 起止時間的精確度不足;(2) 固定的行為片段長度無法處理不同持續(xù)時間的行為動作,而在不同行為動作持續(xù)時間差距較大時,更會出現(xiàn)無法滿足不同持續(xù)時間的要求,而增多滑動窗口的數(shù)量又會帶來大量冗余的計算.

        最近的研究[7-9]將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到檢測框架中并且獲得了較好的性能表現(xiàn).S-CNN[7]提出了一個多階段的卷積神經(jīng)網(wǎng)絡(luò),該算法通過使用定位網(wǎng)絡(luò)提高了識別精度.然而,S-CNN 使用滑動窗口產(chǎn)生行為提議,C3D[10]作為特征提取器最初用于單元分類器,只能容納16 幀作為輸入,在應(yīng)對時序行為檢測任務(wù)時,需要消耗大量的時間進(jìn)行計算.另一項研究[8]使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來學(xué)習(xí)預(yù)測動作的起點和終點的一種策略.這種順序預(yù)測對于處理長視頻通常非常耗時,并且它不支持用于特征提取的逐幀CNN 的聯(lián)合訓(xùn)練.

        本文在上述背景下,為了克服滑動窗口的缺點,生成高質(zhì)量的行為提議,本文提出了基于雙流卷積神經(jīng)網(wǎng)絡(luò)[11]的時序行為檢測模型.該模型基于雙流卷積神經(jīng)網(wǎng)絡(luò)提取的特征,產(chǎn)生覆蓋時間靈活可變的行為提議,之后送入多層感知機中進(jìn)行邊界迭代回歸,然后將行為提議擴展為三段式的特征序列設(shè)計,最后輸入分類器中進(jìn)行動作分類.

        2 識別模型

        本文提出一種基于雙流卷積神經(jīng)網(wǎng)絡(luò)的模型,如圖1所示.首先使用雙流卷積神經(jīng)網(wǎng)絡(luò)提取長視頻的特征序列,然后將該特征序列作為模型的輸入,使用Temporal Actionness Grouping (TAG)[12]方法在特征序列上靈活地生成行為提議.利用多層感知機對每一個行為提議的起止邊界進(jìn)行迭代操作,這一過程可以更為精細(xì)地處理行為提議的邊界,使之更加貼近真實的邊界信息.每一個行為提議都會使用三段式特征描述重新設(shè)計,三段式設(shè)計將行為提議劃分為開始區(qū)間、進(jìn)行區(qū)間和結(jié)束區(qū)間,按照前后順序?qū)?yīng)拼接相應(yīng)的特征序列.最后對包含目標(biāo)動作的行為提議進(jìn)行行為識別,獲得分類結(jié)果.

        圖1 基于雙流卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別模型

        2.1 問題描述

        一個未分割的長視頻可以表示為X=其中xn表示視頻X中的第n幀.視頻X的動作標(biāo)注由一組動作實例組成,An是視頻X中真實動作實例的數(shù)量,ts,n,te,n分 別是動作實例 φn的開始時間和結(jié)束時間.本文算法的任務(wù)就是自動定位每段行為的起止位置并識別它們的行為屬性.

        2.2 特征序列提取

        為了提取雙流卷積神經(jīng)網(wǎng)絡(luò)特征,將視頻劃分為T個連續(xù)等長且無重疊的單元,則視頻可以表示為T表示視頻中單元的數(shù)量,一個單元st=xtn,otn表示兩部分的內(nèi)容,xtn是視頻X中的第tn個RGB 幀,otn是 以xtn幀為中心,附近的堆疊光流場.為了減少計算損耗,使用規(guī)律的幀間隔提取單元.本任務(wù)所用數(shù)據(jù)集中的視頻數(shù)據(jù)量大,相鄰的幀信息冗余度較高,密集采樣耗時且不必要,因此使用規(guī)律的幀間隔提取單元,在每個單元上獲取特征,可以在保證信息完整度的前提下降低計算損耗.

        給定一個單元st,在空間和時間網(wǎng)絡(luò)的頂層連接輸出分?jǐn)?shù)以形成編碼特征向量ftn=(fS,tn,fT,tn) ,其中fS,tn,fT,tn分別表示空間網(wǎng)絡(luò)和時間網(wǎng)絡(luò)的輸出向量.因此給定一個長度為ls的單元序列S,可以提取出特征序列雙流卷積特征序列將被送入TAG 網(wǎng)絡(luò)中生成行為提議.

        2.3 行為提議

        相比較于滑動窗口而言,TAG 方法能靈活的生成不同長度的動作提議,同時并不需要大量的計算.TAG 方法使用了一個行為分類器來評估每個單元中發(fā)生動作的概率,這個行為分類器是一個二元分類器.該方法的基本思想是找到高動作概率的連續(xù)區(qū)域,為了實現(xiàn)這個目的,該方法重新設(shè)計了一個經(jīng)典的分水嶺算法,并把它應(yīng)用到了一維的動作概率值上.該方法通過設(shè)置不同的“水位”可以得到一系列的“盆地”,每一個盆地對應(yīng)了時域范圍內(nèi)一段高動作概率區(qū)域.

        給定一系列的盆地G,選用了一種類似于文獻(xiàn)[13]的聚類方法,這種方法試著連接小盆地變成行為提議區(qū)域.該方案的工作流程如下:先從一個種子盆地開始,并且連續(xù)吸收隨后的盆地,直到盆地部分在整個持續(xù)時間內(nèi)(即從第一個盆地開始到最后一個盆地結(jié)束)的部分下降到某個閾值Y以下.通過這種方法,可以從不同的種子盆地開始產(chǎn)生一組區(qū)域,用G′(τ,γ)來表示.注意 τ 和 γ并不是選擇好的特定組合,而是均勻地從(0,1)之間采樣,步長為0.05.這兩個閾值的組合將會產(chǎn)生多組區(qū)域.然后,將他們結(jié)合起來,并使用非極大值抑制的方法過濾重疊度高的區(qū)域,設(shè)置IoU 閾值為0.95.生成的行為提議將被送入多層感知機中邊界回歸.

        2.4 邊界回歸

        時域上進(jìn)行邊界回歸的基本思路是利用神經(jīng)網(wǎng)絡(luò)推斷行為提議的邊界.本文使用多層感知機作為回歸網(wǎng)絡(luò),將行為提議作為輸入,輸出坐標(biāo)回歸偏移量,具體計算如式(1).

        其中,sclip,eclip分別是輸入的行為提議的開始和結(jié)束坐標(biāo),sgt,egt分別是與之對應(yīng)的真實數(shù)據(jù)的開始和結(jié)束坐標(biāo).本文使用的坐標(biāo)回歸模型有兩個優(yōu)點:第一,使用單元級坐標(biāo)回歸,這與雙流卷積神經(jīng)網(wǎng)絡(luò)基于單元提取特征的方式相匹配,計算消耗也比較??;第二,不使用坐標(biāo)參數(shù)化,直接使用起始坐標(biāo)的偏移量作為回歸結(jié)果.這是因為行為提議的坐標(biāo)回歸在時域進(jìn)行,而空間坐標(biāo)回歸在空間域進(jìn)行,由于相機投影,目標(biāo)可以在圖像中重新縮放,因此需要先將邊框坐標(biāo)標(biāo)準(zhǔn)化為某個標(biāo)準(zhǔn)尺度.而時域坐標(biāo)可以依靠時域本身作為標(biāo)準(zhǔn)尺度,不需要進(jìn)行參數(shù)化.

        在訓(xùn)練邊界回歸網(wǎng)絡(luò)時,需要給行為提議分配標(biāo)簽用以判斷該行為提議中是否包含行為.對于一個行為提議,計算它和所有標(biāo)定好的真實數(shù)據(jù)的tIoU(temporal Intersection over Union)重疊值,如果其中的最大值超過了0.5,則將最大值對應(yīng)的真實數(shù)據(jù)的邊界和類別信息賦予該行為提議.并將該行為提議視為正樣本,即含有行為,否則視為負(fù)樣本.

        如圖2所示,本文的邊界回歸任務(wù)由多層感知機使用迭代的方式完成,邊界回歸的輸出結(jié)果作為輸入再次送入多層感知機中進(jìn)行計算,重復(fù)多次以獲得更為精確的結(jié)果.該回歸模型將行為提議作為輸入,輸出時域上的坐標(biāo)回歸偏移量,計算之后得到回歸后的邊界坐標(biāo)值.對于該層網(wǎng)絡(luò),給定一個候選提議的邊界數(shù)據(jù)輸入值pc=[ts,te],輸出數(shù)據(jù)p1c=[t1s,t1e]會作為輸入進(jìn)行第二輪的邊界回歸計算,第二輪的輸出為p2c=[t2s,te2].迭代過程總共進(jìn)行K次,最后的邊界結(jié)果為:

        2.5 提議特征

        為了建立如圖3所示的提議特征 φ,對于一個行為提議,將提議本身的范圍定義為進(jìn)行區(qū)間pc=[ts,te],提議 φ的持續(xù)時間為d=te-ts.與它相關(guān)的開始區(qū)間和結(jié)束區(qū)間分別為ps=[ts-d/4,ts+d/4]和pe=[te-d/4,te+d/4].對應(yīng)選擇開始、結(jié)束和進(jìn)行區(qū)間三部分對應(yīng)的特征序列,將這些向量前后拼接,即可獲得候選提議 φ的提議特征fφ=(fps,fpc,fpe).該提議特征具有很好的魯棒性,在引入開始區(qū)間和結(jié)束區(qū)間后,使得行為提議特征 具備了上下文信息.

        圖2 邊界回歸網(wǎng)絡(luò)處理行為提議邊界

        圖3 行為提議特征構(gòu)建

        2.6 行為分類

        深度學(xué)習(xí)網(wǎng)絡(luò)常用的分類器,本文選擇使用多層感知機網(wǎng)絡(luò)作為特征構(gòu)建后的多分類器.對于時序行為檢測任務(wù),多層感知機網(wǎng)絡(luò)輸出n+1 個概率值,其中n表示數(shù)據(jù)集中行為的數(shù)量,1 表示背景類.在ActivityNet v1.3 中,n=200,在THUMOS 2014 中,n=20.每個概率值表示屬于某一類行為的概率,將最大概率值對應(yīng)的行為作為行為分類的結(jié)果.

        為了獲取較好的實驗結(jié)果,本文使用一個多任務(wù)損失函數(shù)來聯(lián)合訓(xùn)練邊界回歸和行為分類網(wǎng)絡(luò).損失函數(shù)如式(3)所示.時序行為檢測任務(wù)需要對行為定位和識別,這兩個任務(wù)息息相關(guān),如果單獨訓(xùn)練網(wǎng)絡(luò)會降低識別的泛化能力,可能會出現(xiàn)對某一任務(wù)的過擬合現(xiàn)象.而聯(lián)合訓(xùn)練可以較好的解決這個問題,聯(lián)合訓(xùn)練可以在有限的數(shù)據(jù)集內(nèi)完成訓(xùn)練,由于引入了額外的相關(guān)訓(xùn)練數(shù)據(jù),有助于網(wǎng)絡(luò)學(xué)習(xí)到更適合任務(wù)需求的參數(shù),可以提高模型的泛化能力.行為的類別和發(fā)生時間是個體屬性的不同方面,具有較強的相關(guān)性,使用聯(lián)合訓(xùn)練可以使得定位與識別任務(wù)真正地結(jié)合起來,學(xué)習(xí)到的內(nèi)容彼此受益,提高時序行為檢測的準(zhǔn)確率.

        其中,Lcls是分類損失函數(shù),對于本文中多分類任務(wù)而言,使用多分類交叉熵函數(shù)作為損失函數(shù).Lreg是邊界回歸損失函數(shù),λ是超參數(shù).回歸損失函數(shù)為:

        其中,R是曼哈頓距離,N是batch size,n是行為類別的總數(shù)量,是標(biāo)簽,當(dāng)?shù)趇個樣本屬于z類時,=1,否則,lzi=0.o′是回歸偏移量,o是真實數(shù)據(jù).學(xué)習(xí)率設(shè)置為0.005,batch size 設(shè)置為128.

        3 實驗

        為了驗證本文算法的有效性,本文在ActivityNet v1.3[1]和THUMOS 2014[2]數(shù)據(jù)集上進(jìn)行實驗.ActivityNet v1.3 數(shù)據(jù)集是常用的時序行為檢測數(shù)據(jù)集,包括200 類不同的動作,同時提供了邊界和種類信息標(biāo)注.THUMOS 2014 中沒有訓(xùn)練集,有20 類行為帶有標(biāo)注.本文分別在兩個數(shù)據(jù)集上進(jìn)行實驗,在各自提供的數(shù)據(jù)子集上訓(xùn)練網(wǎng)絡(luò),并使用預(yù)訓(xùn)練的網(wǎng)絡(luò)進(jìn)行測試,將實驗結(jié)果與現(xiàn)有方法進(jìn)行對比分析.

        3.1 數(shù)據(jù)集

        ActivityNet v1.3[1]是一個用于時序行為檢測的大型數(shù)據(jù)集,其中包含19994 個帶有200 類動作標(biāo)注的長視頻,在2017年和2018年的ActivityNet 挑戰(zhàn)中使用了該數(shù)據(jù)集.ActivityNet 按照2:1:1 的比例分為訓(xùn)練集、驗證集和測試集.

        THUMOS 2014[2]有1010 個視頻用于驗證,1574個視頻用于測試.這些視頻中包含20 類帶有行為標(biāo)注的目標(biāo)動作.該數(shù)據(jù)集沒有訓(xùn)練集,使用UCF101數(shù)據(jù)集作為訓(xùn)練集.由于訓(xùn)練集沒有提供時間注釋,本文在驗證集上訓(xùn)練模型并在測試集上進(jìn)行實驗測試.因此將帶有20 類行為標(biāo)注的220 個視頻用于訓(xùn)練.在本文的實驗中,將本文提出的方法與THUMOS 2014和ActivityNet v1.3 上的現(xiàn)有技術(shù)進(jìn)行比較,并進(jìn)行結(jié)果分析.

        3.2 實驗網(wǎng)絡(luò)參數(shù)設(shè)置

        本文實驗環(huán)境選擇深度學(xué)習(xí)框架Caffe 平臺實現(xiàn).使用SGD 方法學(xué)習(xí)模型中的參數(shù),batch size 為128,momentum 為0.9.雙流卷積神經(jīng)網(wǎng)絡(luò)采用ResNet 網(wǎng)絡(luò)用作空間網(wǎng)絡(luò),BN-Inception 網(wǎng)絡(luò)用作時間網(wǎng)絡(luò).空間網(wǎng)絡(luò)和時間網(wǎng)絡(luò)的初始學(xué)習(xí)率分別設(shè)置為0.001 和0.005.在ActivityNet v1.3 中,空間網(wǎng)絡(luò)和時間網(wǎng)絡(luò)迭代訓(xùn)練次數(shù)分別為9500 次和20 000 次,學(xué)習(xí)率分別在迭代每4000 次和1000 次后縮小0.1.在THUMOS 2014 中,空間網(wǎng)絡(luò)和時間網(wǎng)絡(luò)分別進(jìn)行1000 次和6000 次的迭代訓(xùn)練,學(xué)習(xí)率在每400 和2500 次時縮小0.1.在特征提取過程中,單元間隔均被設(shè)置為16.在TAG 方法中使用的二元行為分類器使用每個數(shù)據(jù)集的訓(xùn)練集進(jìn)行訓(xùn)練.在邊界回歸過程中,K=3.

        3.3 實驗結(jié)果分析

        評價標(biāo)準(zhǔn):AvtivityNet v1.3[1]和THUMOS 2014[2]都有統(tǒng)一的評價標(biāo)準(zhǔn),因此按照它們的評價標(biāo)準(zhǔn)測試不同IoU 閾值的平均預(yù)測精度mAP.在ActivityNet v1.3 數(shù)據(jù)集中,所需測試的IoU 閾值為{0.5,0.75,0.95},IoU 閾值范圍[0.5:0.05:0.95]的mAP 的平均值用于比較不同方法之間的性能.在THUMOS 2014 數(shù)據(jù)集中,所需測試的IoU 閾值為{0.1,0.2,0.3,0.4,0.5}.閾值為0.5 時得出的平均預(yù)測精度用于比較不同方法的實驗結(jié)果.

        將本文算法與其它時序行為檢測方法在THUMOS 2014 數(shù)據(jù)集和ActivityNet v1.3 數(shù)據(jù)集上進(jìn)行比較,如表1、表2所示.從表1、表2中可以發(fā)現(xiàn),在這兩個數(shù)據(jù)集上,本文提出的算法識別準(zhǔn)確率優(yōu)于其它算法,識別效果較好.本文使用雙流卷積神經(jīng)網(wǎng)絡(luò)所獲取的特征結(jié)合了運動表層特征和時序信息兩部分,更好的發(fā)掘了視頻所包含的信息.行為提議在經(jīng)過多層感知機迭代處理后邊界信息更為準(zhǔn)確,之后的三段式特征設(shè)計融合了上下文信息,一方面建立了較為全面的行為描述,另一方面提高了行為識別準(zhǔn)確率.

        4 結(jié)論與展望

        為了充分獲取視頻中的時空信息,使用雙流卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建特征描述符,之后通過TAG 方法產(chǎn)生候選行為提議,經(jīng)過多次迭代處理后獲取更為準(zhǔn)確的邊界信息,將行為提議擴展為三段式特征設(shè)計,并對目標(biāo)行為進(jìn)行識別.該方法在結(jié)合時序信息的基礎(chǔ)上,生成了質(zhì)量較高的動作提名,時序邊界更為準(zhǔn)確,識別率也有所提升.實驗結(jié)果表明該方法能在THUMOS 2014 數(shù)據(jù)集合ActivityNet v1.3 數(shù)據(jù)集上得到較好的效果.但是行為提議生成和回歸的方法著眼于局部信息,缺少與行為提議全局特征的結(jié)合分析,時序定位的準(zhǔn)確度仍有不足.下一步的研究將會引入行為提議的特征共同分析定位準(zhǔn)確度,獲得更為準(zhǔn)確的時序邊界.

        表1 不同時序行為檢測算法在THUMOS 2014 數(shù)據(jù)集上 的準(zhǔn)確率(%)

        表2 不同時序行為檢測算法在ActivityNet v1.3 數(shù)據(jù)集上的準(zhǔn)確率(%)

        猜你喜歡
        雙流時序邊界
        方一帆
        時序坐標(biāo)
        四川省成都市雙流區(qū)東升迎春小學(xué)
        拓展閱讀的邊界
        基于Sentinel-2時序NDVI的麥冬識別研究
        雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對策
        四川省成都雙流中學(xué)實驗學(xué)校
        論中立的幫助行為之可罰邊界
        一種毫米波放大器時序直流電源的設(shè)計
        電子制作(2016年15期)2017-01-15 13:39:08
        “偽翻譯”:“翻譯”之邊界行走者
        高清不卡一区二区三区| 岛国av无码免费无禁网站| 久久婷婷五月国产色综合| 国产成人精品999在线观看| 国产jizzjizz视频免费看| 天美传媒一区二区| 人妻aⅴ无码一区二区三区| 国产精品久久久久尤物| 精品人妻一区二区三区蜜桃| 国产av午夜精品一区二区入口 | 中文字幕天堂在线| 亚洲高清精品50路| 亚洲综合偷拍一区二区| 国产实拍日韩精品av在线| 亚洲色图片区| 久久国产精品-国产精品| 两个黑人大战嫩白金发美女| 无码av一区在线观看| 日本高清在线一区二区| 国产精品精品国产色婷婷| 亚洲va韩国va欧美va| 免费国产黄网站在线观看| 99热在线精品播放| 日韩av中文字幕一卡二卡 | 亚洲精品国产精品乱码在线观看 | 亚洲精品AⅤ无码精品丝袜无码 | 男男啪啪激烈高潮无遮挡网站网址| 欧美性生交大片免费看app麻豆 | 国产成人免费一区二区三区| 亚洲无码一二专区| 亚洲熟妇夜夜一区二区三区| 国产一区资源在线播放| 熟女体下毛荫荫黑森林| 无码a∨高潮抽搐流白浆| 产国语一级特黄aa大片| 自拍偷拍一区二区三区四区| 国内自拍情侣露脸高清在线| 日韩人妻无码精品久久| 亚洲中文字幕久久精品蜜桃| 日韩在线精品视频免费| 欧美午夜理伦三级在线观看|