亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合層級注意力機制的二維骨架動作識別方法

        2022-05-11 01:30:16李萱峰
        西安工程大學學報 2022年2期
        關鍵詞:動作特征模型

        盧 健,趙 博,張 奇,李萱峰

        (西安工程大學 電子信息學院,陜西 西安 710048)

        0 引 言

        人體動作識別作為計算機視覺領域的研究熱點之一,是智能監(jiān)控、智慧醫(yī)療、人機交互等行業(yè)的基礎性手段,具有很高的研究價值[1-2]。目前,隨著監(jiān)控設備的普及,RGB數(shù)據(jù)的獲取得到了有效的保障?;赗GB數(shù)據(jù)的動作識別方法常采用時空興趣點[3]、運動軌跡[4]、雙流法[5]、光流法[6]等作為特征分析進行識別。但上述方法在特征設計的過程中,容易受到光照、遮擋、服飾等背景因素的影響,識別準確率較低,難以滿足實際要求。為了減少背景環(huán)境和周圍噪聲的干擾,更清晰簡潔地描述出人體的動作變化,基于骨架數(shù)據(jù)的人體動作識別方法引起了廣泛關注[7-9]。早期的動作識別方法提取特征的方式是手工設計的:文獻[10]利用關節(jié)之間的相對位置表征空間信息,傅里葉時間金字塔表示時間動態(tài)信息,實現(xiàn)了對動作的準確識別;王婧等采用了將人體關節(jié)點的旋轉(zhuǎn)量和人體姿態(tài)矩陣相融合的方法進行動作預測,此方法有效地避免了動作類之間相似度干擾,提高了準確度[11]。雖然上述方法擁有較高的時間效率,但是特征提取過程復雜,在復雜多變的環(huán)境下,模型的魯棒性較弱,適用范圍受到很大限制。隨著卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)[12]在圖像分類領域的成功應用,研究者開始考慮把CNN用于視頻分類:文獻[13]通過雙流卷積網(wǎng)絡提取不同的特征,然后將2個分支的分數(shù)進行融合;LI等則將每一個關節(jié)點都當作一個通道,使用CNN自動從骨架序列中學習分層的共觀特征[14]。然而,CNN通常只能提取短期視頻序列的時空信息,無法學習長期視頻序列信息。鑒于長短期記憶(long short term memory, LSTM)[15]網(wǎng)絡在處理長時間序列問題上的良好表現(xiàn),眾多學者將CNN和LSTM網(wǎng)絡進行融合學習:DONAHUE等根據(jù)CNN和LSTM具有互補性原則,提出CNN與LSTM并行網(wǎng)絡模型,利用時空信息進行特征融合和檢測[16];LI等先用CNN提取空間信息,再用LSTM提取時間信息,最后通過softmax層輸出結果,取得了不錯的結果[17]。雖然LSTM網(wǎng)絡對長序列數(shù)據(jù)有較強的處理能力,但是人體的運動對不同骨架關鍵點的表征能力不同:對跳繩而言,起主要作用的關鍵點是腳的上下運動和手臂的旋轉(zhuǎn)運動;對坐下這個動作而言,起主要作用的關鍵點是臀部的上下運動。對此,楊世強等構建了由靜態(tài)特征和動態(tài)特征組成的融合特征表征人體動作,引入了關鍵幀提取模型以減少計算量,建立了以LSTM神經(jīng)網(wǎng)絡為基礎的神經(jīng)網(wǎng)絡的分類器,并引入注意力機制以及Dropout,進一步提高對于人體動作特征的識別性能[18]。

        針對不同的運動對人體骨骼關鍵點的依賴程度,本文提出了一種融合層級注意力機制的二維骨架動作識別方法,利用層級注意力網(wǎng)絡(hierarchical attention network, HAN)[19]分配不同關節(jié)點或不同幀在特征向量中的權重,以此提高動作分類的準確性。研究過程如下:1)利用人體姿態(tài)估計模型OpenPose[20],從RGB視頻數(shù)據(jù)中提取骨架關節(jié)點數(shù)據(jù),并對姿態(tài)數(shù)據(jù)預處理;2)在LSTM模型中引入層級注意機制,通過計算關節(jié)點之間的關聯(lián)性分配不同關節(jié)點或不同幀在模型中的權重;3)提出了CNN-HALSTM網(wǎng)絡框架,利用CNN提取局部特征,再利用HALSTM提取上下文相關特征進行學習。該框架集成了基于CNN的功能和基于HALSTM的功能,在空間和長時間建模上保持更好的效果。

        1 基于OpenPose的人體姿態(tài)估計

        采用姿態(tài)估計方法OpenPose從視頻中提取人體的18個骨架關節(jié)點,通過編碼人體關節(jié)點位置和肢體連接方向的關系實時檢測出圖像中人的2D姿勢。

        OpenPose網(wǎng)絡采用的是多階段級聯(lián)雙分支結構,其網(wǎng)絡框架如圖1所示。該框架利用VGG-19網(wǎng)絡提取,得到特征圖F。在第一階段,把特征圖F分別輸入到雙分支網(wǎng)絡中提取關節(jié)點部位(part confidence maps,PAM)和親和度矢量場(part affinity fields,PAF),然后把預測到的2個信息和原始特征圖F相融合并輸入到下一個階段。通過多次迭代得到符合要求的PAM和PAF,最后采用匈牙利算法來獲取所有部位肢體權重最大化的關節(jié)點連線,得到屬于同一個人體的姿態(tài)信息。

        圖 1 OpenPose網(wǎng)絡框架Fig.1 OpenPose network structure

        2 數(shù)據(jù)預處理

        由于視頻在拍攝過程中會出現(xiàn)光照及遮擋、鏡頭分辨率變化等因素的影響,導致OpenPose在提取骨架關節(jié)點時會出現(xiàn)遺漏、檢測不到等問題。主要表現(xiàn)為缺失點與異常點。

        2.1 缺失點

        關節(jié)點缺失主要表現(xiàn)在2個方面:1)相鄰幀之間關節(jié)點缺失;2)連續(xù)多幀之間關節(jié)點缺失。為了降低關節(jié)點缺失對識別精度的影響,假設短時間內(nèi)關節(jié)點的移動是勻速的,通過結合相鄰圖像幀內(nèi)的關節(jié)點坐標均值填補缺失的關節(jié)點坐標。

        (1)

        (2)

        2.2 異常點

        針對數(shù)據(jù)集中存在異常點、毛刺等情況,利用指數(shù)平滑法對其進行數(shù)據(jù)平滑處理,計算方法如下:

        St=ayt+(1-a)St-1

        (3)

        式中:St為坐標數(shù)據(jù)t的平滑值;yt為坐標數(shù)據(jù)t的真實值;St-1為坐標數(shù)據(jù)t-1的平滑值;a為平滑常數(shù),設為0.6。圖2為前80幀中右手在拳擊中關節(jié)點的補全、平滑過程。由于視頻數(shù)據(jù)的固有特性,未經(jīng)處理的原始坐標數(shù)據(jù)在一段時間內(nèi)存在坐標缺失和劇烈抖動問題,在進行特征提取和序列建模時導致特征缺失,影響識別效果。經(jīng)過均值填充后的坐標雖一定程度上彌補了信息缺失問題,但仍受到視頻劇烈抖動的影響,所以需要引入坐標平滑策略,在保證信息完整的同時降低這種影響,使得提取到的特征更具有魯棒性。

        (a) 右手x坐標

        (b) 右手y坐標圖 2 右手關節(jié)在拳擊過程中關節(jié)點補全、 平滑的過程Fig.2 The completion and smoothing process of the right hand joint in boxing activities

        3 網(wǎng)絡框架

        3.1 CNN模型

        CNN在處理關節(jié)點信息時具有局部平移不變性,可以捕獲關節(jié)點之間的局部特征,獲取局部相關性。假設每個關節(jié)點坐標對應詞向量為xi,則關節(jié)點總數(shù)N∈N+的骨架序列向量表示為x1,N,然后將詞向量通過CNN進行特征映射。假設卷積核運算時,核內(nèi)的關節(jié)點個數(shù)為n,則卷積核在骨架坐標序列的第i個坐標上的輸出Ci為

        Ci=f(W·xi,i+n-1+b)

        (4)

        式中:W卷積核的權值矩陣;b為偏置項;f為激活函數(shù)。

        3.2 LSTM模型

        傳統(tǒng)的RNN網(wǎng)絡由于存在梯度消失和梯度爆炸問題,對長時間序列行為無法做到準確識別。LSTM在RNN中引入了門控單元,包括輸入門、輸出門、遺忘門等,通過門的開關控制序列信息的傳輸,實現(xiàn)了較大范圍的上下文信息的保存與傳輸。計算公式為

        ft=σ(Wf·[ht-1,xt]+bf)

        (5)

        it=σ(Wi·[ht-1,xt]+bi)

        (7)

        (8)

        (9)

        ot=σ(Wo·[ht-1,xt]+bo)

        (10)

        ht=ot⊙tanhCt

        (11)

        式中:σ(·)和tanh(·)均為激活函數(shù),其中向量tanh(x)=(tanhx1,tanhx2,…,tanhXT);W為權重參數(shù);bf、bi、bc、bo為偏置向量;⊙表示按元素相乘;it為輸入門;ft為遺忘門;ot為輸出門;ht為當前時刻輸出;ht-1為前一刻的輸出;Ct為當前時刻記憶單元狀態(tài);Ct-1為上一時刻記憶單元狀態(tài)。

        3.3 多層注意力模型HALSTM

        本文模型中有2層LSTM,每層都引入了層級注意力機制,分別為單詞級別(word-level)的注意力以及文檔級別(doc-level)的注意力,如圖3所示。

        圖 3 HALSTM基本結構Fig.3 HALSTM basic structure

        (12)

        μiN=tanh(Wwhit+bw)

        (13)

        式中:μw表示隨機初始化參數(shù);Ww,bw為隱藏層權重和偏置。對每一關節(jié)點特征編碼向量和對應權重系數(shù)進行加權求和,得到第i個關節(jié)坐標序列向量S,并作為關節(jié)坐標序列編碼器的輸入。

        (14)

        μi=tanh(Wshi+bs)

        (15)

        通過加權求和得到每一動作類別的特征向量v,即帶權重的骨架關節(jié)坐標序列的高層特征,然后直接采用Softmax分類器進行動作分類,得到動作標簽P。通過設計的關節(jié)坐標層級“注意力”模型,考慮了每一關節(jié)點坐標和每一坐標序列的重要性,使得模型更加有效地挖掘了有助于動作分類的特征,更好地學習了共觀性特征。

        3.4 CNN-HALSTM模型

        將提取好的骨架關節(jié)點數(shù)據(jù)保存為CSV文件。CSV數(shù)據(jù)集中的每一行數(shù)據(jù)由人體18個骨骼關節(jié)點坐標組成,每一行關節(jié)點坐標序列代表一個動作,將行為識別問題轉(zhuǎn)化為基于動作標簽的關節(jié)坐標分類問題。借鑒文本分類的思想,通過CNN提取相鄰n個關節(jié)坐標間的局部高層特征和關節(jié)點坐標間的局部相關性。HALSTM用于挖掘關節(jié)坐標間的上下文聯(lián)系,提取骨架序列的時間序列特征。為此,結合CNN和HALSTM自身網(wǎng)絡結構特性,以先卷積后循環(huán)遞歸的方式設計了CNN-HALSTM網(wǎng)絡架構,使得模型不僅可以捕獲每一關節(jié)點坐標周圍高層特征,還能獲取關節(jié)點坐標間長序依賴關系,如圖4所示。

        圖 4 CNN-HALSTMN網(wǎng)絡框架Fig.4 CNN-HALSTMN network structure

        4 實 驗

        4.1 動作數(shù)據(jù)集

        所使用的數(shù)據(jù)集分別為交互運動數(shù)據(jù)集和KTH數(shù)據(jù)集[21]。交互運動數(shù)據(jù)集由15種動作組成,包含Basketball、Bowling、Tennis、Clean and Jerk、Table Tennis、Discus Throw、Hammer Throw、Shot Put、Soccer Juggling、Wall Push-ups、Boxing, Biking、Floor Push-ups、Archery和Snatch。該數(shù)據(jù)集由9名運動員共同完成,共計29 550張圖片。交互運動數(shù)據(jù)集部分動作圖片如圖5所示。

        圖 5 交互運動數(shù)據(jù)集部分動作Fig.5 Sample actions in interaction actions data sets

        KTH數(shù)據(jù)集由6種動作組成,包含Walking、Jogging、Running、Boxing、Hand Waving和Hand Clapping。該數(shù)據(jù)集由25名受試者在4種不同的場景下完成的,共計170 367張圖片,分辨率為160×120。KTH數(shù)據(jù)集部分動作圖片如圖6所示。

        圖 6 KTH數(shù)據(jù)集動作Fig.6 Sample actions in KTH data sets

        4.2 實驗方案

        將CNN層作為初始層,骨骼序列輸入CNN層提取局部特征,然后將CNN層的輸出結果輸入到HALSTM層中提取序列特征,按照訓練集和測試集7∶3的比例訓練。訓練時使用Adam優(yōu)化器,初始學習率設為0.001,batch-size設置為128,總共訓練200個Epoch。實驗條件包括操作系統(tǒng)為Ubuntu 18.04,運行內(nèi)存為32 GiB,深度學習框架為Keras。

        4.3 實驗結果與分析

        為了驗證該模型的可行性,進行了4種對比實驗。第1次測試探究CNN與LSTM在哪種層次的組合下模型更具優(yōu)勢,結果如表1所示。

        表 1 CNN與LSTM在不同層次組合下的識別精度Tab.1 Recognition accuracy between CNN and LSTMat different levels of combinations

        由表1可知,CNN方法的準確率遠遠超過LSTM方法。其原因在于LSTM對相鄰關節(jié)點之間的局部信息不能很好的建模,容易導致有利于動作識別的關鍵信息丟失;而CNN提取的關節(jié)坐標高層特征與卷積核內(nèi)學習的局部co-occurrence特征更有利于識別人體行為。體現(xiàn)出本方法所提取的骨架數(shù)據(jù)集在空間局部區(qū)域有著更強的表現(xiàn)性。

        從表1還可以看出,在CNN與LSTM的不同層次組合中,CNN-LSTM方法的準確率遠超其他層次組合的模型。說明先提取局部特征再進行序列建模的CNN-LSTM網(wǎng)絡在學習骨架關節(jié)點坐標局部關鍵信息和關節(jié)點間的依賴關系時,具有較強的網(wǎng)絡學習能力。從2個數(shù)據(jù)集對比來看,KTH數(shù)據(jù)集上測試準確率達到97.23%,交互數(shù)據(jù)集上的準確率仍能達到94.56%。原因在于交互數(shù)據(jù)集包含更多的對象和動作類別且數(shù)據(jù)量更小,相同動作差異性和不同動作相似性,往往會影響模型的網(wǎng)絡學習能力和模型泛化能力,導致訓練準確率和測試準確率相對較低。

        第2次測試探討層級注意力機制對模型精度的影響,結果見表2。

        表 2 層級注意力模型下識別精度對比Tab.2 Comparison of recognition accuracy underhierarchical attention model

        由于CNN-LSTM網(wǎng)絡在對骨架關節(jié)點坐標序列直接建模時,沒有體現(xiàn)每一關節(jié)點坐標或坐標序列在識別某一動作時的重要性,即可解釋性弱。在利用LSTM挖掘關節(jié)點坐標間的上下文信息時引入層級注意力機制,獲取每一時刻輸出的關節(jié)點坐標上下文信息的重要程度。從表2可以看出:引入注意力機制的LSTM網(wǎng)絡顯著提高了識別效果,而多層疊加的LSTM網(wǎng)絡識別率效果也優(yōu)于單層,其在交互數(shù)據(jù)集和KTH數(shù)據(jù)集上識別率分別提高了2.2%、1.1%。

        第3次測試探討了數(shù)據(jù)預處理前后,所提出方法對模型精度的影響。本文對所提取的關節(jié)點數(shù)據(jù)進行了缺失點填充、異常點平滑操作。相比于原始關節(jié)點數(shù)據(jù),預處理后的數(shù)據(jù)進一步提高了模型的魯棒性和識別準確率,見表3。

        表 3 數(shù)據(jù)預處理對識別精度影響Tab.3 Effect of data preprocessing on recognitionaccuracy

        第4次測試是為了更好驗證本文所提算法的有效性。將本文所提的算法在公共數(shù)據(jù)集KTH上與主流網(wǎng)絡進行了對比,結果如表4所示。

        表 4 不同算法下識別精度對比Tab.4 Comparison of recognition accuracy withdifferent algorithms

        從表4可以看出本文所提算法的有效性。文獻[22]由多層3維卷積構成,通過提取時空和光流特征光對動作進行分類;文獻[23]在結合光流特征和運動差異特征后使用支持向量機進行動作分類;文獻[24]采用MoSIFT算法計算有大量運動的興趣點,結合光流特征對動作進行識別;文獻[25]采用混合SVM與KNN分類器對CNN提取的特征進行分類;文獻[26]構建了2個分校堆疊LSTM-RNNs并且利用輕量級特性導出了二維骨架關節(jié),用并行框架處理人體的上下兩部分。上述方法雖然在動作識別領域取得了矚目的成就,但是計算耗時量大,模型存在參數(shù)過大的問題,不能用于實時動作識別中。本文的方法是將二維骨架數(shù)據(jù)轉(zhuǎn)換為二維關節(jié)坐標數(shù)據(jù),以確定的坐標表示關節(jié)位置,避免了關節(jié)遮擋、重疊等因素對二維骨架特征表征動作信息的影響。以關節(jié)坐標序列為表征動作信息的文本序列,提取其多層次的特征并進行多樣性組合,利用文本分類的方法識別出動作類別。利用多層級注意力機制有效地挖掘了有助于動作分類的特征,更好地學習了共觀性特征。從降低無關因素影響和更好地利用共觀性特征層面,本文的方法可以帶來更好的效果,大幅度減少了訓練所需的參數(shù)量,并且具備良好的實時性。

        5 結 語

        本文提出了一種融合了層級注意力機制的二維骨架動作識別方法。首先,利用OpenPose提取RGB視頻中的二維骨架關節(jié)點,關節(jié)數(shù)據(jù)包含時空維度的骨架信息,刻畫了每一骨架關節(jié)點位置信息和骨架運動信息,降低了圖像模態(tài)下骨架關節(jié)點遮擋對行為識別準確率的影響;其次,對所提取的骨架數(shù)據(jù)中缺失點和異常點進行數(shù)據(jù)預處理;最后,融合多層次注意力機制構建了基于CNN-HALSTM的網(wǎng)絡模型,實現(xiàn)動作分類。實驗結果表明,本文所提出的方法具有一定的可行性和較好的魯棒性,為動作識別領域的研究提供了新的思路。

        猜你喜歡
        動作特征模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        動作描寫要具體
        抓住特征巧觀察
        畫動作
        動作描寫不可少
        3D打印中的模型分割與打包
        99久久免费看少妇高潮a片特黄| 色婷婷精久久品蜜臀av蜜桃| 丝袜av乱码字幕三级人妻| 脱了老师内裤猛烈进入| 国产熟妇高潮呻吟喷水| 亚洲av无码成人精品区天堂 | 99久久超碰中文字幕伊人| 亚洲av蜜桃永久无码精品| 亚洲久热无码av中文字幕| 99久久综合九九亚洲| 亚洲精品色播一区二区| 一区二区三区四区在线观看日本| 免费成人电影在线观看 | 国产午夜av秒播在线观看| 玩中年熟妇让你爽视频| 日日av拍夜夜添久久免费| 天天综合久久| 亚洲综合网一区二区三区| 国产一区二区精品人妖系列在线 | 国产女主播福利一区二区| 熟女一区二区中文字幕| 久久婷婷人人澡人人喊人人爽| 在线免费日韩| 日韩中文字幕无码av| 青青草视频视频在线观看| 国产精品会所一区二区三区| 久久综合九色综合欧美狠狠| 无码的精品免费不卡在线| 黑人一区二区三区高清视频| 久久99热国产精品综合| 国产99久久精品一区二区| 在线亚洲AV成人无码一区小说| 日本激情一区二区三区| 中字乱码视频| 天码人妻一区二区三区| 国产美女69视频免费观看| 亚洲中文字幕诱惑第一页| av在线免费观看蜜桃| 无码吃奶揉捏奶头高潮视频 | 国产欧美日韩不卡一区二区三区| 中文字幕中乱码一区无线精品 |