亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自注意力的多模態(tài)LSTM的動作預(yù)測

        2022-04-21 07:24:10晨,邵
        計算機工程與設(shè)計 2022年4期
        關(guān)鍵詞:模態(tài)動作特征

        莫 晨,邵 潔

        (上海電力大學(xué) 電子與信息工程學(xué)院,上海 200090)

        0 引 言

        基于視覺的動作識別一直是計算機視覺領(lǐng)域研究的難點與熱點之一。在實際應(yīng)用中,人們希望監(jiān)控系統(tǒng)在風(fēng)險行為發(fā)生之前就能發(fā)出預(yù)警信號,而非對于已經(jīng)完成的動作進行識別,這就要求系統(tǒng)具備動作預(yù)測的能力。動作預(yù)測是指對輸入視頻流的特征進行分析和處理,旨在盡可能早地識別視頻中包含的動作。動作預(yù)測與傳統(tǒng)動作識別的主要區(qū)別就是識別目標的完整性。后者的識別對象是剪切好的視頻中一段完整動作,動作結(jié)構(gòu)完整。而前者是在僅觀測到輸入視頻的一部分,就要及時地預(yù)測出視頻中動作的類別,無法獲取動作完整的時序結(jié)構(gòu)。

        Gao等[1]提出一個編碼器-解碼器的框架,該框架借助LSTM單元可以很好處理歷史信息,并且回歸未來幀的特征,利用特征完成分類。Antonino Furnari等[2]提出了rol-ling-unrolling LSTM模型用于運動序列的分析。然而,當(dāng)觀察時間縮短時,上述算法在性能不夠穩(wěn)定、不同預(yù)測時間的結(jié)果相差很大。

        動作預(yù)測的效果極大程度上依賴特征對于非完整的動作片段的描述能力。特征越強,算法的效果就越好。然而目前大多數(shù)的工作[1,2]直接提取卷積層之后的特征用于后續(xù)的處理,而非考慮進一步地編碼所得到的視頻特征。所以本算法應(yīng)用自注意力機制以及位置編碼來進一步挖掘動作特征序列的語義。本文提出一個基于自注意力機制的多模態(tài)LSTM模型用于解決預(yù)測視頻中人的動作問題。

        1 模型框架

        整體模型包含了3個分支網(wǎng)絡(luò),3個子網(wǎng)絡(luò)分別用于處理3種不同的視頻特征:RGB視頻圖像、光流、基于目標的標注信息(如圖1所示)。每個子網(wǎng)絡(luò)包括了3個組成部分,分別是,特征提取部分(RGB和Flow分支的特征提取網(wǎng)絡(luò)為bn-inception,而Obj分支的特征提取網(wǎng)絡(luò)為Faster R-CNN),包含自注意力機制模塊和位置編碼模塊的編碼器,以及LSTM結(jié)構(gòu)。在提取好特征后,特征序列會輸入到編碼器進一步編碼。編碼器的輸出序列即為LSTM結(jié)構(gòu)的輸入。LSTM結(jié)構(gòu)會根據(jù)不同預(yù)測的時間,加載特征序列的歷史信息產(chǎn)生動作類別預(yù)測的分布。最后,本算法采取了多模型融合策略(modality attention network[2]),綜合考慮3個子網(wǎng)絡(luò)的輸出,分配相應(yīng)的權(quán)重,權(quán)重與對應(yīng)模態(tài)的動作種類分布張量對應(yīng)相乘得到整個模型最后輸出。

        圖1 總體架構(gòu)設(shè)計

        1.1 多特征提取網(wǎng)絡(luò)

        構(gòu)建一個動作預(yù)測算法,首先就應(yīng)該考慮什么樣的特征適合于建模動作。本算法考慮了3種具有豐富語義的高層特征。其中,RGB視頻圖片用于建??臻g信息,光流圖片用于建模時序信息,與目標相關(guān)的特征(Obj特征)用于檢測視頻中的人與何物互動,即查清視頻中目標的類別。

        RGB圖片和光流圖片輸入到bn-inception網(wǎng)絡(luò)里分別提取RGB特征和光流特征。去除bn-inception原網(wǎng)絡(luò)結(jié)構(gòu)最后的分類層,并且從中間層Global pooling layer的輸出提取為相應(yīng)的RGB特征和光流特征。特征向量的維數(shù)為1024維,這樣的特征向量與機器翻譯任務(wù)中采用詞嵌入算法得到的詞向量很相似。視頻里不同幀取出來的圖片特征相當(dāng)于文本里的詞,且都是時序信息,這為在計算機視覺領(lǐng)域應(yīng)用基于自注意力機制的Transformer[3]提供了基礎(chǔ)。

        Faster R-CNN[4,5]用于與目標相關(guān)的特征的提取。提取該特征,目的是弄清楚視頻中目標的種類,而非目標的位置。所以,該特征向量略去了目標邊界框的坐標信息。特征向量是一個H維的向量,向量中的每一個元素是視頻里的每幀中包含的目標類別的置信度分數(shù)的累加,其中H表示數(shù)據(jù)集里目標的類別總數(shù)。

        1.2 位置編碼模塊

        機器無法從打亂順序的視頻中判斷出動作的類別,所以片段中動作的先后順序?qū)τ趧幼黝A(yù)測十分重要。這也就要求,對于提取好的特征序列,必須要加入表明它們在原視頻先后位置的記號。本模型添加了一個獨立的基于三角函數(shù)位置編碼模塊,目的是使自注意力模塊能夠充分地學(xué)習(xí)到序列的位置信息。

        (1)

        (2)

        其中,在位置編碼向量的偶數(shù)元素位置,使用正弦函數(shù)編碼,而在奇數(shù)元素位置,則使用余弦函數(shù)進行編碼。2i和2i+1分別代表了位置編碼向量里元素的位置索引。

        1.3 自注意力機制模塊

        如圖2所示,每個模態(tài)的特征都會經(jīng)過位置編碼模塊和自注意力機制模塊的處理,位置編碼模塊和自注意力機制模塊嵌入到3種模態(tài)特征的分支網(wǎng)絡(luò)中。特征序列X(RGB)、X(Flow)、X(Obj)分別與相應(yīng)的位置編碼矩陣Pe相加后,輸入到自注意力機制模塊進一步處理,輸出得到具有豐富語義的高維特征Y(RGB)、Y(Flow)、Y(Obj)。

        圖2 位置編碼模塊和自注意力機制模塊

        (3)

        Y=FeedForward(LayerNorm(Om))+Om

        (4)

        (5)

        Multi-head(Q,K,V)=Concat(head1,…,headh)Wo

        (6)

        FeedForward(x)=max(0,xWs+b1)Wt+b2

        (7)

        1.4 LSTM

        在完成特征序列的編碼后,由單個LSTM層具體實施動作預(yù)測,加載過去觀察到的視頻幀的特征序列Y,并且產(chǎn)生不同的預(yù)測時間的動作種類分布Oa,t。LSTM的輸入輸出關(guān)系如圖3所示(虛線框內(nèi)的模型省略位置編碼模塊以及自注意力機制模塊),對于一個視頻片段,在動作開始前,往前取樣14幀圖片,時間間隔為0.25 s。這14幀圖片構(gòu)成一個基本的訓(xùn)練樣本,其中Ft代表了樣本中的第t幀。訓(xùn)練樣本構(gòu)成了視頻的觀察片段,觀察片段包含兩個時間,一個是觀察時間,一個是預(yù)測時間。如圖3所示,觀察時間為[F1,F7]之間的時間間隔,即LSTM層的輸入序列為[F1,F7]的特征序列Yt,那么預(yù)測時間即為從F7到動作開始時刻的時間間隔。

        圖3 采樣策略及LSTM輸入輸出關(guān)系

        LSTM有兩個中間狀態(tài)hidden stateht和cell statect,且這兩個中間狀態(tài)的初始化值設(shè)定為0,即圖3的最左側(cè)的虛線箭頭輸入置為0。而ht和ct(t≥1)的值均是由LSTM的上一個時間步的輸入(即代表視頻幀的特征向量),和上一個時間步的ht-1和ct-1所計算出來,并繼續(xù)往后傳遞,具體如式(8)所示

        (Oa,t,ht,ct)=LSTM(Yt,ht-1,ct-1),t∈[1,N]

        (8)

        這兩個中間狀態(tài)即為模型加載過去觀察的歷史信息來預(yù)測未來動作,并以LSTM的輸入序列的最后一幀特征向量Yt的輸出Oa,t作為該次預(yù)測時間下的預(yù)測輸出。以圖3為例,此時LSTM的輸入序列為[F1,F7],模型在總結(jié)F1到F6的信息后,輸入F7到對將要發(fā)生的動作的預(yù)測(本次時間步LSTM層的輸出),此時預(yù)測時間為2 s。因此,當(dāng)t越小時,LSTM網(wǎng)絡(luò)觀測到幀數(shù)也越少,相應(yīng)的預(yù)測時間也越長。在實驗中,為了便于與其它的算法比較,α=0.25 s,t=14 s。本文所提出的算法一共可以產(chǎn)生8個預(yù)測時間的結(jié)果,Ta∈{0.25 s,0.5 s,0.75 s,1.0 s,1.25 s,1.5 s,1.75 s,2.0 s}。

        1.5 多模型融合網(wǎng)絡(luò)

        得到3種模態(tài)的特征的動作預(yù)測結(jié)果Oa后,需要采取多模型融合策略得到最終的預(yù)測輸出。受文獻[7,8]工作的啟發(fā),本文算法選擇Modality attention network。該融合網(wǎng)絡(luò)比經(jīng)典的融合方法(如late fusion)效果要好。late fusion原理可見式(9),即找到一組合適的參數(shù)Ki,與對應(yīng)模態(tài)的預(yù)測結(jié)果Oa,i線性組合后得到最終的輸出。late fusion往往采取交叉驗證的方法確立適合的參數(shù)Ki。交叉驗證在數(shù)據(jù)集規(guī)模較大時,會因為訓(xùn)練時間很長而變得繁瑣。不同模態(tài)的特征對動作預(yù)測結(jié)果的影響力是不同的,Modality attention network針對每種模態(tài)特征找到合適的融合權(quán)重,能有效避免late fusion由于交叉驗證帶來的缺點,且對最終的融合效果也能更好地改善

        (9)

        Modality attention network的主要原理就是為不同模態(tài)的特征計算出一組注意力分數(shù)σ,注意力分數(shù)σ表明了每種模態(tài)特征對最終預(yù)測結(jié)果的重要程度。Modality attention network(NMATT)由3個可以學(xué)習(xí)參數(shù)的線性層和ReLu激活函數(shù)組成。該模態(tài)特征的注意力分數(shù)σm由該模態(tài)子網(wǎng)絡(luò)的LSTM結(jié)構(gòu)的兩個中間狀態(tài)ht和ct合并(concatenation)張量輸入到NMATT里計算得到。具體如式(10)所示,其中m代表相應(yīng)模態(tài),即RGB特征、Flow特征和Obj特征。⊕是張量間的concatenation運算。注意力分數(shù)σ的個數(shù)與模型所考慮的特征總數(shù)L保持一致

        σm=NMATT(ht,m⊕ct,m)

        (10)

        融合權(quán)重θm由注意力分數(shù)σm經(jīng)Softmax函數(shù)歸一化后得到,具體如式(11)所示

        (11)

        整體模型最終的預(yù)測結(jié)果由相應(yīng)模態(tài)的融合權(quán)重θi與該模態(tài)分支網(wǎng)絡(luò)的預(yù)測輸出乘積的線性組合。具體如式(12)所示

        (12)

        2 實 驗

        2.1 實驗細節(jié)

        在EPIC-Kitchens[8]和EGTEA Gaze+[9]兩個數(shù)據(jù)集評估本算法。為了便于與其它算法對比性能,按照文獻[2]的設(shè)定分割EPIC-Kitchens數(shù)據(jù)集。EPIC-Kitchens的訓(xùn)練集包含了23 493個樣本,測試集包含了4979個樣本。EGTEA Gaze+的官方訓(xùn)練集包含了8299個樣本,測試集包含了2022個樣本。算法的表現(xiàn)由Top-5準確率指標衡量。

        兩個數(shù)據(jù)集的視頻是由可穿戴攝像機所拍攝的,視頻的幀率有所不同。把原始視頻的幀率統(tǒng)一轉(zhuǎn)換到30 fps,并且保持原始視頻的時間長度不變。提取EGTEA Gaze+視頻的光流圖片使用了TVL1算法。在EPIC-Kitchens數(shù)據(jù)集中,作者已經(jīng)提供了提取好的每幀的光流數(shù)據(jù)。為了避免過擬合,特征提取與預(yù)測網(wǎng)絡(luò)的訓(xùn)練將分別進行。對于RGB特征和光流特征,使用bn-inception網(wǎng)絡(luò)進行提取。具體地,先在兩個數(shù)據(jù)集上的行為識別任務(wù)上訓(xùn)練TSN[10]網(wǎng)絡(luò),TSN網(wǎng)絡(luò)的主要結(jié)構(gòu)是bn-inception,一共有兩支,分為空間流和時間流。訓(xùn)練完畢后,會得到空間分支和時間分支的模型權(quán)重,即預(yù)訓(xùn)練模型。把預(yù)訓(xùn)練好的模型分別導(dǎo)入到bn-inception網(wǎng)絡(luò)里,從Global pooling layer的輸出提取對應(yīng)的RGB特征和光流特征。這兩個特征向量的維度都是1024維。Obj特征的向量維度為352維,因為EPIC-Kitchens數(shù)據(jù)集里目標的類別數(shù)是352。由于EGTEA Gaze+數(shù)據(jù)集缺少與目標檢測相關(guān)的標注信息,所以在該數(shù)據(jù)集的實驗中未加入Obj特征訓(xùn)練。在Multi-head attention模塊,head的數(shù)量設(shè)定為8,RGB分支網(wǎng)絡(luò)的維度設(shè)定為1024,Obj分支網(wǎng)絡(luò)的維度設(shè)為352,模型的維度需要和其特征向量的維度保持一致。

        2.2 實驗結(jié)果及其分析

        表1和表2列舉了State-of-the-art的動作預(yù)測算法在兩個數(shù)據(jù)集上不同預(yù)測時間取得的Top-5準確率結(jié)果。如表1所示,在EPIC-Kitchens數(shù)據(jù)集上,當(dāng)預(yù)測時間Ta為0.25 s時本算法表現(xiàn)略低于RU[2],其余預(yù)測時間均取得最佳效果。如表2所示,在EGTEA Gaze+數(shù)據(jù)集上,本算法在所有的預(yù)測時間上都超過了其它算法。RU[2]算法是對比算法中取得了次優(yōu)效果的方法,在表1和表2的最后一欄列舉了本算法實驗結(jié)果對于取得次優(yōu)結(jié)果的RU算法的改善情況。由實驗結(jié)果可知,對比算法在預(yù)測時間Ta變短時,模型效果都會越好。這表明這些算法在較長的預(yù)測時間的預(yù)測上的表現(xiàn)不如較短的預(yù)測時間。本算法隨著預(yù)測時間Ta的改變,在EPIC-Kitchens數(shù)據(jù)集的最終結(jié)果平均穩(wěn)定在38%附近,在EGTEA Gaze+數(shù)據(jù)集的最終結(jié)果平均穩(wěn)定在77%附近。這主要是由于自注意力機制地有效應(yīng)用,模型能夠更好地學(xué)習(xí)到所提取的視頻特征的全局信息,并且使得模型在所有的預(yù)測時間上取得的結(jié)果保持穩(wěn)定,沒有較大的波動。

        表1 EPIC-Kitchens數(shù)據(jù)集的動作預(yù)測結(jié)果

        表2 EGTEA Gaze+數(shù)據(jù)集的動作預(yù)測結(jié)果

        在EPIC-Kitchens數(shù)據(jù)集上的預(yù)測精度結(jié)果不足40%。通常來說,動作復(fù)雜度越高,相似動作之間就越容易混淆,所取得分類精度就越低[15]。動作復(fù)雜度是指相同動詞與不同的名詞之間組合的數(shù)量。兩個數(shù)據(jù)集的動作標注的標簽由動詞加名詞的組合構(gòu)成。EPIC-Kitchens數(shù)據(jù)集包含了125個動詞,352個名詞,有2513個獨特的動作類別。然而EGTEA Gaze+數(shù)據(jù)集僅有19個動詞,51個名詞,106個獨特的動作。EPIC-Kitchens的動作片段的標注約為EGTEA Gaze+數(shù)據(jù)集的3倍。所以,EPIC-Kitchens數(shù)據(jù)集的規(guī)模比EGTEA Gaze+數(shù)據(jù)集要大,它的動作復(fù)雜度也要更加復(fù)雜。這意味著EPIC-Kitchens有更多相似的動作且更容易混淆。動作中包含的樣本越多,動作種類的姿態(tài)多樣性就越豐富,可能會使得模型更難學(xué)習(xí)。

        為了探究模型中LSTM結(jié)構(gòu)的選擇,本文算法設(shè)立了一個雙層結(jié)構(gòu)的LSTM,3個模態(tài)特征(RGB, Flow, Obj),并采用Modality attention network融合的基線算法作為對照,模型記為Ours(two)。RU算法的雙LSTM結(jié)構(gòu)是基于編碼器-解碼器結(jié)構(gòu),編碼器與解碼器都由LSTM實現(xiàn)。主要原理是解碼器使用編碼器內(nèi)部特征進行初始化,并在訓(xùn)練樣本最后一幀特征上迭代來預(yù)測將來的動作。由表1的結(jié)果對比可知,本算法的單LSTM結(jié)構(gòu)比起這種雙層LSTM結(jié)構(gòu),更適合于預(yù)測任務(wù)。表1還給出了late fusion和Modality attention network多模型融合網(wǎng)絡(luò)的對比結(jié)果,其中RU(late)為采用late fusion的RU算法,而RU算法則使用Modality attention network。由結(jié)果可知,在動作預(yù)測任務(wù)上,該融合網(wǎng)絡(luò)要比傳統(tǒng)的late fusion方法效果更好。

        為了驗證編碼器模塊的有效性,在模型中去除編碼器(模型A)以及保留編碼器(模型B),驗證模型A和模型B在EPIC-Kitchens數(shù)據(jù)集上的表現(xiàn)。如表3所示,表3的前3行是去除了編碼器后在3個模態(tài)特征的分支網(wǎng)絡(luò)的Top-5準確率,而后3行是保留編碼器的原模型在3個模態(tài)特征的分支網(wǎng)絡(luò)的Top-5準確率。顯然編碼器顯著地改善了模型的預(yù)測表現(xiàn),特別是對于長預(yù)測時間下的預(yù)測(比如Ta=2.0s,Ta=1.75s)。較長時間的預(yù)測與較短時間的預(yù)測之間的區(qū)別在于輸入到模型的視頻序列的時間長度,當(dāng)輸入到模型的幀數(shù)越少時,預(yù)測時間就越長。所以基于自注意力機制的編碼器有效地編碼序列上下文的信息,重建高層特征序列來提高預(yù)測動作的能力。

        表4比較了不同特征組合的融合結(jié)果,目的是探究3種模態(tài)的特征的相關(guān)性。結(jié)合表3的B模型在RGB, Flow, Obj這3個單特征上的表現(xiàn)可知,所提出的算法兩兩特征融合均能改善單個分支特征上的表現(xiàn),這表明該算法能有效利用3種從視頻提取出來的特征。如表4所示,3種模態(tài)的特征里,RGB特征比起光流特征以及Obj特征在動作預(yù)測任務(wù)中更加有用,而Obj特征取得了次優(yōu)的結(jié)果。RGB特征和光流特征在疊加Obj特征后均可帶來明顯提升,這表明Obj特征對于視頻動作推理的重要性,設(shè)計該類算法需要加以考慮視頻中目標的影響。RGB,F(xiàn)low,Obj特征三者融合可以帶來最佳的結(jié)果。

        表3 缺少編碼器的模型(A)與完整模型(B)結(jié)果對比

        表4 不同特征組合的融合結(jié)果

        3 結(jié)束語

        本文為改進現(xiàn)有的動作預(yù)測算法中在不同預(yù)測時間上不穩(wěn)定的問題,提出了基于自注意機制的多模態(tài)LSTM網(wǎng)絡(luò)。受到機器翻譯任務(wù)的Transformer模型的啟發(fā),借鑒詞向量的表示方法來表示視頻圖片的特征,在計算機視覺領(lǐng)域應(yīng)用了自注意力機制編碼視頻特征序列,并且驗證了自注意力機制可有效幫助模型學(xué)習(xí)視頻動作的特征。使用位置編碼技術(shù)可以充分利用序列的位置信息,使預(yù)測具有可靠性。RGB特征比起光流特征以及Obj特征在動作預(yù)測任務(wù)中更加有用,而Obj特征取得了次優(yōu)的結(jié)果。在兩個基準數(shù)據(jù)集上的實驗結(jié)果表明,本文所提出的模型是魯棒的,并且取得了最好的結(jié)果。

        猜你喜歡
        模態(tài)動作特征
        如何表達“特征”
        不忠誠的四個特征
        動作描寫要具體
        抓住特征巧觀察
        畫動作
        動作描寫不可少
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        非同一般的吃飯動作
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        日本丰满熟妇videossexhd| 国产精品人人爱一区二区白浆| 女同另类一区二区三区| 白白在线视频免费观看嘛| 免费无遮挡禁18污污网站| 欧美性猛交xxxx乱大交蜜桃| 美女裸体无遮挡黄污网站| 亚洲av调教捆绑一区二区三区| 国产老熟妇精品观看| 久久久久久久久久久国产| 久久青草国产精品一区| 国产青春草在线观看视频| 水野优香中文字幕av网站| 久久久久国产一区二区| 日本中文字幕不卡在线一区二区| 亚洲天堂一区二区精品| 亚洲精品中文字幕免费专区| 亚洲色婷婷一区二区三区| 国产精品无码Av在线播放小说| 蜜桃视频网站在线免费观看| 国产亚洲精品综合一区| 国产特级毛片aaaaaa高清| 久久国产成人免费网站| 青青草视频在线播放观看| 亚洲av乱码一区二区三区林ゆな| 少妇人妻偷人精品视蜜桃| 日本一本草久国产欧美日韩| 日本午夜剧场日本东京热| 亚洲欧美乱综合图片区小说区| 欧美激情αv一区二区三区| 蜜桃在线观看免费高清| 精品亚洲一区二区三区四区五区 | 国产av剧情刺激对白| 亚洲人成人网站在线观看| 欧美大片va欧美在线播放| 国产伦精品一区二区三区| 人妻少妇无码中文幕久久| 国产在线观看女主播户外| 国产精品国三级国产av| 色婷婷六月天| 日本一本二本三本道久久久|