亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合輕量Openpose和注意力引導(dǎo)圖卷積的動(dòng)作識(shí)別

        2022-09-21 05:38:00張富凱賀天成
        關(guān)鍵詞:關(guān)鍵點(diǎn)特征提取動(dòng)作

        張富凱,賀天成

        河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作454000

        動(dòng)作識(shí)別領(lǐng)域常用的數(shù)據(jù)模態(tài)主要分為原始RGB視頻和人體姿態(tài)[1-2]。原始RGB視頻中不僅包含人體的動(dòng)作運(yùn)動(dòng)信息,而且也擁有造成額外計(jì)算成本的背景信息,例如光照、雜亂的場(chǎng)景[3]。目前一階段2D 姿態(tài)估計(jì)Openpose算法[4]可準(zhǔn)確提取視頻中每個(gè)人的姿態(tài)信息,然而由于Openpose算法自身的兼容性差,計(jì)算開銷大,姿態(tài)估計(jì)效率低等問題,很難與下游任務(wù)(動(dòng)作特征提?。┤诤?,所以本文在此基礎(chǔ)上將骨干替換為shuffleNet輕量級(jí)網(wǎng)絡(luò)[5],重新梳理部分計(jì)算層的必要性。

        本文所設(shè)計(jì)的動(dòng)作識(shí)別模型中需要把人體姿態(tài)的三維信息預(yù)處理為時(shí)空聯(lián)合圖卷積特征提取算法的時(shí)空?qǐng)D數(shù)據(jù),之后再學(xué)習(xí)其高級(jí)語義。早期Yan 等人[6]提出基于骨架圖的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)ST-GCN(spatial temporal graph convolutional networks)用于特征提取,在一幀圖像上(空間維度)對(duì)人體關(guān)鍵點(diǎn)自然連接圖做圖卷積,在時(shí)間維度上做時(shí)間卷積[7]或用LSTM(long shortterm memory)網(wǎng)絡(luò)進(jìn)行時(shí)空特征融合,很好地利用了人體結(jié)構(gòu)的自然連接和動(dòng)作事件本身各相關(guān)關(guān)節(jié)的聯(lián)動(dòng)關(guān)系,考慮了空間和時(shí)間上的相鄰關(guān)節(jié),但丟失了時(shí)序上下文中一些跨時(shí)空的相關(guān)關(guān)節(jié)點(diǎn)的同等影響力,與此同時(shí)在時(shí)間和空間維度交錯(cuò)進(jìn)行特征提取的方式對(duì)于捕獲復(fù)雜的時(shí)空聯(lián)合關(guān)系魯棒性不夠,忽略了時(shí)空內(nèi)部的緊湊關(guān)聯(lián)。2020 年,Liu 等人[8]提出一種G3D 時(shí)空?qǐng)D卷積算子,聯(lián)合時(shí)空信息進(jìn)行圖卷積,構(gòu)建了多尺度的鄰接矩陣,能穩(wěn)定準(zhǔn)確提取到動(dòng)作本身在立體空間的高級(jí)語義特性,對(duì)動(dòng)作分類精度有很大提升,該方法擴(kuò)大鄰接矩陣以捕獲跨時(shí)空相關(guān)關(guān)鍵點(diǎn)的特征表示,但忽略了跨時(shí)空關(guān)鍵點(diǎn)的重要性區(qū)分,在聚合時(shí)沒有考慮不同的權(quán)重關(guān)系。

        借鑒以上經(jīng)驗(yàn),本文提出一種結(jié)合輕量級(jí)Openpose和注意力引導(dǎo)圖卷積網(wǎng)絡(luò)的動(dòng)作識(shí)別方法。動(dòng)作識(shí)別的數(shù)據(jù)處理流程如圖1所示,整體布局按業(yè)務(wù)類型可分為數(shù)據(jù)、特征提取及動(dòng)作識(shí)別三個(gè)層面。數(shù)據(jù)層面負(fù)責(zé)將原始視頻流中的行人運(yùn)動(dòng)信息輸出為特征提取層面所需要的骨架圖數(shù)據(jù)形式;特征提取層面負(fù)責(zé)使用多個(gè)時(shí)空合并圖卷積模塊堆疊的時(shí)空聯(lián)合圖卷積網(wǎng)絡(luò)對(duì)圖數(shù)據(jù)提取時(shí)空特征,最終經(jīng)softmax區(qū)分特征表示,輸出類別。

        圖1 動(dòng)作識(shí)別總體流程Fig.1 Overall process of action recognition

        本文的主要貢獻(xiàn)如下:

        (1)均衡融合輕量級(jí)姿態(tài)估計(jì)Openpose 算法和時(shí)空聯(lián)合圖卷積動(dòng)作特征提取網(wǎng)絡(luò),在圖卷積模型上下時(shí)空聯(lián)合模塊間引入殘差連接,分別提取姿態(tài)在雙流(關(guān)鍵點(diǎn)流、骨骼邊流)上的時(shí)空聯(lián)合特征,最終合并雙流結(jié)果做出動(dòng)作判斷。

        (2)提出在不同尺度鄰接矩陣合并前加入自注意力機(jī)制計(jì)算不同尺度內(nèi)鄰居節(jié)點(diǎn)特征對(duì)中心節(jié)點(diǎn)的貢獻(xiàn)程度,進(jìn)一步加強(qiáng)不同尺度鄰接矩陣的特征表示。

        (3)分別在Le2i Fall Detection 數(shù)據(jù)集和自定義的UR-KTH 數(shù)據(jù)集上驗(yàn)證了基于輕量Openpose 和注意力引導(dǎo)圖卷積的動(dòng)作識(shí)別方法的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,所提模型在規(guī)定的動(dòng)作類別中可以獲得一定的準(zhǔn)確度提升。

        1 人體姿態(tài)估計(jì)

        1.1 姿態(tài)估計(jì)

        基于shuffleNet 的輕量級(jí)Openpose 作為一階段的姿態(tài)估計(jì)算法,其任務(wù)是預(yù)先檢測(cè)出幀中所有可能的關(guān)鍵點(diǎn),再將它們與人物個(gè)體聯(lián)系起來,實(shí)現(xiàn)多人實(shí)時(shí)關(guān)鍵點(diǎn)估計(jì)[9]。輕量級(jí)Openpose的主要組成部分如表1所示,網(wǎng)絡(luò)單元是指姿態(tài)估計(jì)模型中的組件;參數(shù)主要指各部分的主要數(shù)據(jù)樣式和卷積方式;備注欄介紹部分組件的任務(wù)。

        表1 輕量級(jí)Openpose主要組成部分Table 1 Main components of lightweight Openpose

        輸入原始幀,經(jīng)輕量級(jí)shuffleNet 網(wǎng)絡(luò)后得到特征映射,在初始器(主干卷積層、卷積層1,2)中通過卷積層1,2兩個(gè)并行分支分別得到熱圖(姿態(tài)關(guān)鍵點(diǎn)置信圖)、關(guān)鍵點(diǎn)之間親和場(chǎng)(關(guān)鍵點(diǎn)之間關(guān)聯(lián)程度),優(yōu)化器(卷積塊×4、卷積層3,4)作用是提取初始器輸出的高級(jí)表征,提高關(guān)鍵點(diǎn)位置預(yù)測(cè)的準(zhǔn)確性[10],它由多個(gè)優(yōu)化卷積模塊串行組成。

        1.2 骨架圖序列構(gòu)建

        輕量級(jí)Openpose 的輸出包含幀索引、關(guān)鍵點(diǎn)二維坐標(biāo)(x,y)、關(guān)鍵點(diǎn)置信度c??鐣r(shí)空聚合相關(guān)關(guān)鍵點(diǎn)的特征對(duì)全局特征提取具有重要意義,例如動(dòng)作中的摔倒類別,摔倒之前的動(dòng)作(站立或行走)和未來動(dòng)作(躺下)之間存在跨時(shí)空相關(guān)關(guān)鍵點(diǎn)的信息交流,如圖2 所示。為了均等獲取跨時(shí)空關(guān)鍵點(diǎn)的聯(lián)系,在單空間維度構(gòu)建一個(gè)多尺度的鄰接矩陣A,用以描述圖中各節(jié)點(diǎn)之間的關(guān)系,如圖3 所示,箭頭所指節(jié)點(diǎn)為聚合的中心節(jié)點(diǎn)(1幀編號(hào)12,節(jié)點(diǎn)編號(hào)在圖2中給出),中心節(jié)點(diǎn)當(dāng)前幀內(nèi)的一階關(guān)聯(lián)節(jié)點(diǎn)(1幀箭頭所連圓圈)和其他幀中指向中心節(jié)點(diǎn)的相關(guān)節(jié)點(diǎn)(2,3 幀中和1 幀一階節(jié)點(diǎn)同編號(hào)的節(jié)點(diǎn))構(gòu)成了跨時(shí)空一階關(guān)聯(lián)節(jié)點(diǎn),二階(正方形)和三階(三角形)的跨時(shí)空關(guān)聯(lián)節(jié)點(diǎn)構(gòu)造和一階同樣,不同階數(shù)代表不同尺度。A的數(shù)學(xué)表達(dá)式如式(1)所示,k代表階數(shù)(或尺度),d(vi,vj)是節(jié)點(diǎn)i和j之間的距離,(i=j)表示自連接。

        圖2 人體摔倒過程中關(guān)鍵點(diǎn)位置變化Fig.2 Changes in position of key points during fall

        圖3 視頻中關(guān)鍵點(diǎn)空間信息Fig.3 Spatial information of key points in video

        為了能同時(shí)對(duì)時(shí)間和空間維度進(jìn)行聯(lián)合特征提取,設(shè)定一個(gè)大小為t幀的時(shí)間窗口,在窗口內(nèi)構(gòu)成一個(gè)時(shí)空?qǐng)DG(t)=(V(t),E(t)),其中V(t)表示窗口內(nèi)所有關(guān)鍵點(diǎn)的集合,E(t)則表示窗口內(nèi)組合的鄰接矩陣。組合后的大鄰接矩陣A(t)是由窗口內(nèi)每一幀的A平鋪得到,如式(2)所示,V指單幀中人體姿態(tài)關(guān)鍵點(diǎn)的個(gè)數(shù)。

        2 基于注意力引導(dǎo)圖卷積的行人動(dòng)作識(shí)別

        2.1 使用自注意力機(jī)制加強(qiáng)不同尺度鄰接矩陣表示

        該模塊任務(wù)是計(jì)算不同尺度鄰接矩陣在特征提取時(shí)的貢獻(xiàn)程度[11],假定尺度k∈[1,2,3,4],實(shí)現(xiàn)步驟如圖4所示。

        圖4 不同尺度鄰接矩陣注意力過程Fig.4 Attention process of adjacency matrix of different scales

        (1)根據(jù)式(1)獲得不同尺度k對(duì)應(yīng)的鄰接矩陣A(k),其中A(1)代表圖結(jié)構(gòu)的直接表示并已初始化。其他尺度,k=[2,3,4],是基于式(1)和A(1)通過矩陣運(yùn)算求出,所有A(k)∈RV×V,V代表一幀中人體姿態(tài)關(guān)鍵點(diǎn)數(shù)。

        (2)節(jié)點(diǎn)特征X∈RV×3,3代表關(guān)鍵點(diǎn)的三維特征信息,將其分別與A(k)相乘得到不同尺度特征表示A(kk),按照A(kk)的第一個(gè)維度計(jì)算均值,得到4 組向量A(kkk)后組成列表B。嵌入層將B中的元素映射到d_model(8)個(gè)維度,嵌入的大小為k的最大值。

        (3)三個(gè)并行的全連接層W_Q、W_K、W_V,輸入維度均為d_model,輸出維度均為64×2(2 表示2 個(gè)注意頭),三個(gè)全連接層的輸出分別為4維數(shù)組Q、K、V,通過自注意力公式softmax((Q?KT)/8)?V得到不同尺度中節(jié)點(diǎn)的重要特征,全連接層W將通過自注意力計(jì)算得到的節(jié)點(diǎn)特征維度還原至嵌入的維度d_model。

        (4)兩個(gè)并行的全連接層W_Q1、W_K1,輸入維度均為d_model,輸出維度為64(單頭)。以k=1 為基準(zhǔn)得到W_Q1的輸出為Q1,W_K1的輸出為K1,R(k)表示一階鄰居與其他k階(包含一階自身)的相關(guān)度,R(k)=softmax((Q1 ?K1T)/8),更新原始鄰接矩陣R(k)?A(k)。

        2.2 基于時(shí)空聯(lián)合圖卷積的特征提取

        使用時(shí)空聯(lián)合圖卷積的方法提取圖數(shù)據(jù)的時(shí)空聯(lián)合特征,包含多個(gè)時(shí)空合并圖卷積模塊,同時(shí)對(duì)滑動(dòng)窗口內(nèi)的時(shí)間和空間維度進(jìn)行特征提取。特征提取器的計(jì)算流程如圖5所示,輸入一個(gè)5維數(shù)組(N,C,T,V,M),其中N代表一個(gè)前向batch中視頻的數(shù)量;C代表節(jié)點(diǎn)的特征信息通道數(shù),即(x,y,c) ;T代表視頻關(guān)鍵幀的數(shù)量;V代表關(guān)節(jié)的數(shù)量;M代表一幀中置信度最高的人數(shù)。經(jīng)過批歸一化層數(shù)組形狀被調(diào)整為3 維(N,C×V×M,T)[12],最終輸入圖卷積模型的形狀為(N×M,C,T,V)。

        時(shí)空聯(lián)合圖卷積網(wǎng)絡(luò)主要由3 個(gè)時(shí)空合并圖卷積模塊組成(圖5 中的虛線框)。Li等人[13]和Wu 等人[14]使用圖鄰接矩陣的高階多項(xiàng)式去聚合遠(yuǎn)距離鄰居節(jié)點(diǎn)(即多尺度)的特征,其實(shí)驗(yàn)結(jié)果表明多尺度圖卷積網(wǎng)絡(luò)可以很好地捕獲遠(yuǎn)距離鄰居節(jié)點(diǎn)的特征,借鑒經(jīng)驗(yàn),在經(jīng)過鄰接矩陣自注意力機(jī)制后用多尺度圖卷積提取空間特征。每個(gè)模塊內(nèi)包含多窗口多尺度的圖卷積層和由多尺度圖卷積和時(shí)間卷積組合的序列化組件層,其中多窗口多尺度的圖卷積層是在不同窗口大小下做時(shí)間和空間維度聯(lián)合的卷積,目的在于將動(dòng)作在兩個(gè)維度下的內(nèi)在關(guān)系進(jìn)行表達(dá)。組件中依次是多尺度圖卷積,能夠利用關(guān)節(jié)點(diǎn)間的最大距離對(duì)骨架進(jìn)行建模;連續(xù)2個(gè)多尺度時(shí)間卷積,用來捕捉長期的或擴(kuò)展的時(shí)間幀上下文信息。為防止層數(shù)增加造成特征損失,將時(shí)空合并圖卷積模塊1 的輸出經(jīng)卷積轉(zhuǎn)換后殘差連接到模塊2 輸出,其中每個(gè)子塊括號(hào)內(nèi)數(shù)字分別是計(jì)算前后的輸入和輸出通道數(shù)。

        圖5 時(shí)空聯(lián)合圖卷積網(wǎng)絡(luò)特征提取的數(shù)據(jù)計(jì)算過程Fig.5 Data calculation process of spatio-temporal joint graph convolutional network feature extraction

        經(jīng)過多窗口多尺度的圖卷積層和序列化組件層后,將輸出特征相加,送入relu()激活函數(shù),再進(jìn)行一次多尺度時(shí)間卷積特征提取,結(jié)果被輸入到具有同樣邏輯處理結(jié)構(gòu)的下一個(gè)時(shí)空合并圖卷積模塊,最終是將特征進(jìn)行分類和輸出。

        多窗口多尺度的圖卷積層:首先在時(shí)間維度上通過滑動(dòng)時(shí)間窗機(jī)制(滑動(dòng)步長為2)獲得WIN個(gè)大小為t幀時(shí)間窗,每一幀的姿態(tài)圖特征X∈RV×C,因此滑動(dòng)時(shí)間窗的輸出數(shù)據(jù)形狀為(N,C,WIN,tV);在式(2)中構(gòu)建了構(gòu)建了包含時(shí)間維度和空間維度特征的大鄰接矩陣A(t),在A(t)的基礎(chǔ)上利用numpy計(jì)算不同尺度的鄰接矩陣,之后運(yùn)用自注意力機(jī)制計(jì)算影響力,最終將不同尺度的鄰接矩陣進(jìn)行合并,最終A(t)形狀為tkV×tV;滑動(dòng)時(shí)間窗的輸出數(shù)據(jù)包含多窗口信息,最終的A(t)包含多尺度信息,利用普通圖卷積方法將兩者相乘得到的數(shù)據(jù)形狀為(N,C,WIN,ktV),之后經(jīng)過一個(gè)多層感知器,它由一個(gè)輸入通道為C、輸出通道C1 自定、卷積核大小為1 的二維卷積層,二維批歸一化層和激活函數(shù)組成,完整多窗口多尺度的圖卷積層的輸出為(N,C1,WIN,tV)。

        多尺度時(shí)間卷積:包含5 個(gè)并行分支,如圖6 所示。前3個(gè)分支結(jié)構(gòu)基本一致,均有卷積核大小為1×1的二維卷積和卷積核大小為3×1的二維空洞卷積組成,但是空洞卷積的空洞大小依次是1、2、3,是為了獲得更大的時(shí)間感受野。第4 個(gè)分支只有1×1 的二維卷積,第5 個(gè)分支經(jīng)過1×1的二維卷積后需要進(jìn)行核大小為3×1的最大池化。輸入經(jīng)過1×1卷積調(diào)節(jié)通道數(shù)量,與5個(gè)分支合并后的結(jié)果進(jìn)行殘差連接。

        圖6 多尺度時(shí)間卷積Fig.6 Multi-scale time convolution

        2.3 動(dòng)作類別輸出

        時(shí)空?qǐng)D卷積網(wǎng)絡(luò)輸出特征通道為384,之后依次在時(shí)空維度、行人個(gè)體上對(duì)輸出特征做全局平均池化,目的是把不同大小的特征圖映射為相同大小,池化結(jié)果輸入全連接線性層(輸入通道384,輸出通道為類別數(shù)),最后通過softmax分類器輸出得分最高的類別。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集及預(yù)處理

        在Le2i Fall Detection(LFD)[15]和自定的UR-KTH數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。LFD包括191個(gè)人類活動(dòng)視頻,分為4 個(gè)場(chǎng)景:辦公室、家庭、咖啡室和演講室。UR-KTH數(shù)據(jù)集是由URFD[16]和KTH[17]數(shù)據(jù)集組成:URFD 包含70個(gè)(30個(gè)跌倒+40個(gè)日常生活活動(dòng))序列,KTH包含6個(gè)動(dòng)作類別,每個(gè)類別有100個(gè)動(dòng)作序列。

        在訓(xùn)練時(shí)利用opencv 和視頻編輯工具預(yù)處理原始視頻,分辨率為640×480,幀率為30 FPS,視頻樣本時(shí)長在3~9 s,LFD 中包含的動(dòng)作有摔倒、行走、站立、坐下、站起來共5種,共計(jì)有26 100幀被選擇。URFD中40個(gè)日?;顒?dòng)視頻彼此間差別較大,需要把它們重新標(biāo)注為行走、坐下、彎腰,其他四種動(dòng)作,最終UR-KTH 數(shù)據(jù)集上共計(jì)有10 種動(dòng)作(拳打、拍手、揮手、慢跑、奔跑、行走、彎腰、坐下、其他、摔倒)。實(shí)驗(yàn)中,通過視頻翻轉(zhuǎn)對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充。

        3.2 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)在ubuntu20.04 系統(tǒng)、Nvidia1080Ti 顯卡上進(jìn)行?;趕huffleNet 的輕量級(jí)Openpose 姿態(tài)估計(jì)算法中適配有3 個(gè)shuffleNet 單元,每個(gè)單元的深度分離卷積步長為2,分組卷積組數(shù)為3,輸出通道為240,輸出估計(jì)結(jié)果保存在json文件中。

        時(shí)空聯(lián)合圖卷積特征提取模型在訓(xùn)練時(shí)權(quán)重衰減值為0.000 5,模型學(xué)習(xí)使用隨機(jī)梯度下降(SGD)優(yōu)化器,初始學(xué)習(xí)率為0.05,訓(xùn)練80 個(gè)epoch,batchsize 為8,LFD 數(shù)據(jù)集在第20 和40 個(gè)epoch 做0.1 倍學(xué)習(xí)率衰減,UR-KTH 數(shù)據(jù)集在第30 和40 個(gè)epoch 做相同的學(xué)習(xí)率衰減,鄰接矩陣的尺度值k為4。

        圖卷積動(dòng)作識(shí)別模型采用準(zhǔn)確率(acc)為主要評(píng)價(jià)指標(biāo),平均損失(mean_loss)為輔助指標(biāo)。acc的計(jì)算公式為acc=right/all,其中right表示正確被預(yù)測(cè)為所屬類別,all表示所有參與測(cè)試的動(dòng)作視頻樣本數(shù);mean_loss代表一個(gè)epoch 中真實(shí)值和預(yù)測(cè)值之間的誤差的平均數(shù),此值越小越好,其計(jì)算方法為mean_loss=代表驗(yàn)證集中batch的數(shù)量。

        3.3 輕量級(jí)姿態(tài)估計(jì)Openpose效果可視化

        在LFD 和UR-KTH 數(shù)據(jù)集上運(yùn)行輕量級(jí)Openpose姿態(tài)估計(jì)算法得到的效果如圖7(a)所示,圖7(b)表示原始Openpose 的效果,兩者的輸入都是同一幀。由圖可看出,兩者的效果在大部分情況下保持一致,在有物體或身體自身部位遮擋的情況下,都會(huì)造成人體部分關(guān)鍵點(diǎn)信息的缺失,所以在模型數(shù)據(jù)加載步驟要對(duì)缺失的信息進(jìn)行變換填充,以最大限度減少對(duì)動(dòng)作識(shí)別準(zhǔn)確度產(chǎn)生的影響。

        圖7 LFD和UR-KTH數(shù)據(jù)集上姿態(tài)估計(jì)情況Fig.7 Posture estimation on LFD and UR-KTH datasets

        3.4 消融實(shí)驗(yàn)

        為了驗(yàn)證對(duì)不同尺度鄰接矩陣進(jìn)行自注意力機(jī)制計(jì)算是有效的,在LFD 數(shù)據(jù)集上與多尺度G3D 算法進(jìn)行比較(FLOPs 代表模型的計(jì)算量,F(xiàn)LOPs 和參數(shù)量數(shù)值均保留小數(shù)點(diǎn)后兩位),在比較之前需要對(duì)原始多尺度G3D算法進(jìn)行微調(diào)構(gòu)成baseline模型,最終對(duì)比結(jié)果如表2所示。多尺度(k=3 或4)的baseline最優(yōu)準(zhǔn)確率acc值分別為90.48%、95.2%,將不同尺度鄰接矩陣通過自注意力機(jī)制合并后,準(zhǔn)確率acc分別上升了約3和0.3個(gè)百分點(diǎn),但是在k=3 時(shí)的平均損失mean_loss相比多尺度G3D上升了約3個(gè)百分點(diǎn),說明在采用自注意力機(jī)制計(jì)算每個(gè)尺度的影響力并不是對(duì)任意尺度都適應(yīng),如果要兼顧損失和準(zhǔn)確率,就需要找到一個(gè)合適的尺度k值。

        表2 LFD數(shù)據(jù)集上不同尺度自注意力對(duì)比結(jié)果Table 2 Comparison results of self-attention at different scales on LFD dataset

        由表2后兩列的數(shù)據(jù)可知,對(duì)不同尺度鄰接矩陣使用自注意力機(jī)制所帶來的模型參數(shù)量與baseline相比增加了0.01(106,k=4 或3);所帶來的計(jì)算量與baseline相比增加了0.01(109,k=4),k=3 時(shí)可以忽略不計(jì)。之所以參數(shù)量和計(jì)算量有少量提升,是因?yàn)楸疚膬H使用兩層自注意力機(jī)制,其中第一層中只用兩個(gè)注意力頭,這樣即能達(dá)到很好的識(shí)別精度。然而如今計(jì)算硬件浮點(diǎn)運(yùn)算能力不斷提高,為了追求更高的準(zhǔn)確度和更低的損失值,本文算法帶來的計(jì)算量增加也是滿足需求的。

        為了驗(yàn)證不同網(wǎng)絡(luò)層模塊對(duì)動(dòng)作識(shí)別模型的影響,分別去除多窗口多尺度的圖卷積模塊、序列化組件模塊,之后與本文所提模型進(jìn)行對(duì)比,結(jié)果如表3 所示。評(píng)估指標(biāo)為acc(準(zhǔn)確度)、mean_loss(平均損失)、參數(shù)量,設(shè)定鄰接矩陣的尺度數(shù)k為4(即自注意力k=4),“-”代表移除相應(yīng)模塊。由表3數(shù)據(jù)可以看出,多窗口多尺度的圖卷積模塊去除后,識(shí)別準(zhǔn)確度下降了約6個(gè)百分點(diǎn),損失上升約6 個(gè)百分點(diǎn),它對(duì)整體動(dòng)作識(shí)別特征抽取部分的影響程度大于序列化組件塊,但是多窗口多尺度的圖卷積模塊參數(shù)量高于序列化組件塊。綜上,多窗口多尺度的圖卷積模塊對(duì)應(yīng)的跨時(shí)空的聯(lián)合特征抽取對(duì)動(dòng)作識(shí)別精度有關(guān)鍵影響。

        表3 LFD數(shù)據(jù)集上不同網(wǎng)絡(luò)層模塊效果對(duì)比Table 3 Comparison of effects of different network layer modules on LFD dataset

        3.5 實(shí)驗(yàn)效果與分析

        3.5.1 數(shù)據(jù)集訓(xùn)練驗(yàn)證

        為了驗(yàn)證整體圖卷積模型的有效性,分別在關(guān)鍵點(diǎn)流和骨骼邊流上對(duì)LFD 和UR-KTH 數(shù)據(jù)集做訓(xùn)練和驗(yàn)證,最后合并雙流結(jié)果。在LFD驗(yàn)證集上acc和mean_loss隨訓(xùn)練迭代次數(shù)epoch變化情況如圖8(a)所示,縱軸是百分比值,隨著迭代次數(shù)的增多,準(zhǔn)確率acc不斷上升,平均損失逐漸下降,在第68個(gè)epoch時(shí)得到最高準(zhǔn)確率acc為95.52%,對(duì)應(yīng)的mean_loss為16.55%,模型在第55 個(gè)epoch 時(shí)開始趨于收斂,在第40 個(gè)epoch 前變化幅度較大,是因?yàn)閿?shù)據(jù)集中樣本的拍攝角度差異,不同視角的人體姿態(tài)結(jié)果會(huì)有一定的差異,會(huì)對(duì)模型訓(xùn)練造成必要的挑戰(zhàn)。在UR-KTH 驗(yàn)證集上變化情況如圖8(b)所示,趨于平穩(wěn)時(shí)的最優(yōu)準(zhǔn)確率acc為95.07%,對(duì)應(yīng)的平均損失值為16.29%,由于UR-KTH 是自定的混合數(shù)據(jù)集,在前45 個(gè)epoch 需要提取動(dòng)作的共有特征,所以訓(xùn)練時(shí)有比較大的波動(dòng)。

        圖8 兩個(gè)數(shù)據(jù)集上指標(biāo)變化情況統(tǒng)計(jì)圖Fig.8 Statistical graphs of indicator changes on two datasets

        3.5.2 與其他算法對(duì)比

        本文所提算法與其他算法在UR-KTH 數(shù)據(jù)集上進(jìn)行準(zhǔn)確率和平均損失值對(duì)比,對(duì)比結(jié)果如表4所示。2s-AGCN[18](two-stream adaptive graph convolutional networks)方法是對(duì)早期ST-GCN方法的擴(kuò)展,引入了自適應(yīng)二維圖卷積方法,重點(diǎn)考慮多尺度節(jié)點(diǎn)對(duì)動(dòng)作識(shí)別準(zhǔn)確率的影響,但是在計(jì)算高階鄰接矩陣時(shí)忽略了遠(yuǎn)方節(jié)點(diǎn)的影響力,本文算法在逐層信息聚合中先均衡化不同階鄰居節(jié)點(diǎn)的權(quán)重,之后通過自注意力機(jī)制加權(quán)不同的尺度組,由表4數(shù)據(jù)可知本文算法準(zhǔn)確率比2s-AGCN方法高2.11 個(gè)百分點(diǎn),損失值也下降了3 個(gè)百分點(diǎn)。MSG3D[8]是本文采用的基準(zhǔn)算法,由表4數(shù)據(jù)可知,加入鄰接矩陣自注意力后可加強(qiáng)不同尺度的特征表示,使模型識(shí)別準(zhǔn)確率得到提升。pose-C3D[19]的輸入是人體關(guān)鍵點(diǎn)的熱圖體,采用三維卷積提取時(shí)空特征,與之相比,本文所提算法更具有優(yōu)勢(shì),準(zhǔn)確率提高了2.46 個(gè)百分點(diǎn),因?yàn)槿梭w姿態(tài)作為一個(gè)自然拓?fù)鋱D,用圖卷積算法更能挖掘深層的時(shí)空信息。

        表4 各模型在UR-KTH上準(zhǔn)確率比較Table 4 Comparison of accuracy of each model on UR-KTH %

        圖9 表示所提模型在UR-KTH 測(cè)試集上的混淆矩陣,標(biāo)簽0~9 依次表示拳打、拍手、揮手、慢跑、奔跑、行走、彎腰、坐下、其他、摔倒;橫軸表示預(yù)測(cè)值,縱軸表示真實(shí)值。由圖9 數(shù)據(jù)可看出,識(shí)別錯(cuò)誤主要集中在慢跑、奔跑,行走動(dòng)作之間,有6個(gè)慢跑樣本被錯(cuò)誤辨別為奔跑或行走,有2 個(gè)彎腰樣本被錯(cuò)誤辨別為坐下,因此需要加強(qiáng)對(duì)類似動(dòng)作的鑒別特征抽取。

        圖9 UR-KTH數(shù)據(jù)集上的混淆矩陣Fig.9 Confusion matrix on UR-KTH dataset

        3.5.3 總體動(dòng)作識(shí)別模型效果可視化

        圖10展示了本文模型在所用數(shù)據(jù)集和網(wǎng)絡(luò)搜集視頻中的表現(xiàn),總共分為A、B、C、D 四組。A 組展示所用數(shù)據(jù)集上的常規(guī)效果,左邊3個(gè)是在UR-KTH數(shù)據(jù)集上的效果,前幾幀初始為其他(other),之后間隔采樣得到動(dòng)作類別行走(walking),摔倒(fall),右邊3個(gè)表示LFD數(shù)據(jù)集上某一樣本,依次檢測(cè)到行走、坐下(sit down)、站起來(stand up);B 組展示所用數(shù)據(jù)集LFD 中某一視頻動(dòng)作樣本在物體遮擋情況下的識(shí)別效果,因受物體遮擋,部分人體姿態(tài)關(guān)鍵點(diǎn)無法精確識(shí)別,但是可以對(duì)關(guān)鍵點(diǎn)進(jìn)行缺失填充或得到所執(zhí)行動(dòng)作中部分鑒別關(guān)鍵點(diǎn)的特征,這樣也可成功辨別動(dòng)作,因此在特征提取時(shí)需要關(guān)注不同尺度鄰接矩陣所對(duì)應(yīng)的部分重要鑒別特征;C 組展示一段網(wǎng)絡(luò)搜集的體育運(yùn)動(dòng)視頻,在多目標(biāo)場(chǎng)景下也可以準(zhǔn)確識(shí)別出三個(gè)人正在慢跑(jogging);D組展示網(wǎng)絡(luò)搜集視頻,第一幅圖像存在模糊,嚴(yán)重遮擋,僅識(shí)別到奔跑和行走,第二幅圖像存在視野模糊,較少關(guān)鍵點(diǎn)信息,一人動(dòng)作(奔跑,running)錯(cuò)誤識(shí)別為行走(walking),第三幅正確識(shí)別(2個(gè)running,1個(gè)walking)。

        圖10 動(dòng)作識(shí)別效果展示Fig.10 Demonstration of action recognition effects

        在嚴(yán)重遮擋和密集目標(biāo)群體中,所提模型的實(shí)時(shí)性和準(zhǔn)確率需要加強(qiáng)。

        4 結(jié)束語

        本文利用人體的姿態(tài)信息構(gòu)造圖數(shù)據(jù)來進(jìn)行動(dòng)作識(shí)別,不僅大大減少了背景對(duì)識(shí)別效果的影響,而且也減少了計(jì)算量。較早使用圖卷積模型(ST-GCN)獲取骨架動(dòng)作特征未能將時(shí)空表征聯(lián)合考慮,對(duì)于對(duì)時(shí)空結(jié)合信息依賴大的動(dòng)作并不能做到很好的識(shí)別。本文在G3D卷積算子的基礎(chǔ)上提取姿態(tài)時(shí)空聯(lián)合特征,并融合了不同尺度鄰接矩陣自注意力機(jī)制加強(qiáng)相關(guān)關(guān)鍵點(diǎn)的依賴性,通過融合多種模型算法來解決現(xiàn)實(shí)生活中的動(dòng)作識(shí)別問題。該識(shí)別系統(tǒng)序列化組織姿態(tài)估計(jì)、特征提取和分類模塊,規(guī)范數(shù)據(jù)流邏輯處理,在未來的研究中,將更專注于動(dòng)作的發(fā)生時(shí)間段獲取和識(shí)別實(shí)時(shí)性、準(zhǔn)確性,這樣可以提高識(shí)別系統(tǒng)的泛化能力,更好的投入應(yīng)用。

        猜你喜歡
        關(guān)鍵點(diǎn)特征提取動(dòng)作
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        非同一般的吃飯動(dòng)作
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
        国产精品一区二区黄色片| 精品少妇ay一区二区三区| 成人区视频| 日韩av在线不卡观看| 青青草成人免费在线视频| 日日躁欧美老妇| 级毛片无码av| 国内自拍偷拍亚洲天堂| 国产一区二区美女主播| 精品高朝久久久久9999| 成人免费看www网址入口| 日韩AV有码无码一区二区三区| 高清亚洲精品一区二区三区| 人妻少妇精品视频专区vr| 巨茎中出肉欲人妻在线视频| 91视频88av| 亚洲av免费高清不卡| 久久精品国产亚洲av网| 国产精品久久久久久久久岛| 国内精品人妻无码久久久影院94 | 日本一区二区高清在线观看| 好大好爽我要高潮在线观看| 欧美饥渴熟妇高潮喷水水| 亚洲一区二区欧美色妞影院| 亚洲综合一区二区三区久久| 日本一卡二卡3卡四卡免费观影2022 | av网站在线观看大全| a级毛片免费完整视频| 2021国产最新在线视频一区| 国产性感主播一区二区| 免费观看a级毛片| 狼色精品人妻在线视频| 亚洲成AV人在线观看网址| 丝袜美腿国产一区二区| 蜜臀色欲av在线播放国产日韩| 亚洲国产一区在线二区三区| 久久精品国语对白黄色| 色天使久久综合网天天| 玩两个丰满老熟女| 中文熟女av一区二区| 国产在线一区二区三精品乱码|