亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向人機交互的通道注意力位移圖神經(jīng)網(wǎng)絡

        2022-03-03 13:46:28易思恒陳永輝王賦攀
        小型微型計算機系統(tǒng) 2022年3期
        關鍵詞:關節(jié)點骨骼注意力

        易思恒,陳永輝,王賦攀,蔡 婷

        (西南科技大學 計算機科學與技術學院,四川 綿陽 621000)

        1 引 言

        動作交互是自然人機交互的方式之一,在體感游戲,機器人控制等應用領域有著重要的研究意義[1,2].在自然人機交互中,動作交互大多需要借助深度傳感器設備,采集人體的骨骼關節(jié)數(shù)據(jù)流,生成人體動作特征.早期的動作行為識別方法,常?;陔[馬爾可夫模型(HMM)、動態(tài)時間規(guī)整(DTW)等分類器,對動作進行分類,這類基于數(shù)據(jù)手工計算特征的方式也被稱為手工特征提取方法[3].此類方法在實時的人機交互過程中,使用預置的動作模板庫對實時采集的動作進行識別,動作模板庫的質(zhì)量直接影響著識別的結果.

        近年來,由于深度學習算法能夠利用神經(jīng)網(wǎng)絡模型自動從動作數(shù)據(jù)集中提取特征,以此完成動作的分類識別,基于深度學習的人體動作識別研究越來越多.從數(shù)據(jù)來源區(qū)別,基于深度學習的動作識別算法可分為基于視頻的動作識別方法[4-7]和基于骨骼關節(jié)點的動作識別方法[8,9].基于視頻的動作識別方法將視頻流以圖片幀的形式傳入神經(jīng)網(wǎng)絡進行訓練,視頻序列包含豐富的時間信息,神經(jīng)網(wǎng)絡能夠很好的從時間流和空間流分別提取特征,利用特征融合獲得更好的分類結果,但此類方法容易受到背景、光照等影響.基于骨骼關節(jié)點的動作識別方法,輸入數(shù)據(jù)為關節(jié)點的三維坐標數(shù)據(jù),不易受光照、背景的影響,魯棒性較高.無論是卷積神經(jīng)網(wǎng)絡(CNN),長短時記憶網(wǎng)絡(LSTM)還是圖卷積神經(jīng)網(wǎng)絡(GCN),都能在大型的骨骼關節(jié)數(shù)據(jù)集,如NTU RGB-D[10]、Kinetics[11]上有很好的表現(xiàn).

        深度學習算法使用動作數(shù)據(jù)集進行訓練,并利用訓練好的模型進行預測的方式,很好地解決了傳統(tǒng)交互動作識別中預置動作模板庫影響識別率的問題.為了保障人機交互的實時性,深度學習方法必須能夠準確識別實時采集的動作數(shù)據(jù).現(xiàn)有的研究中,用于交互動作識別的數(shù)據(jù)集大多為自建,或者選擇公開數(shù)據(jù)集中的部分動作數(shù)據(jù)來實現(xiàn)人機交互.目前廣泛使用的NTU RGB-D數(shù)據(jù)集由深度傳感器采集,但是作者未公布具體的采集方式.

        本文針對上述問題,創(chuàng)建了交互動作數(shù)據(jù)集Interactive Action RGB-D(IARGB-D),該數(shù)據(jù)集由一臺靜態(tài)Kinect采集正面數(shù)據(jù),由20個人員對10個代表性人機交互動作重復執(zhí)行3次獲取,根據(jù)高度與距離的關系,設定6個符合人機交互場景的配置,一共含有3600組數(shù)據(jù),數(shù)據(jù)格式與NTU RGB-D數(shù)據(jù)集一致.NTU RGB-D數(shù)據(jù)集主要包含大量日常生活動作,而IA RGB-D針對人機交互的實際需求,歸納和采集了常見的人機交互動作,能更好地用于體感交互應用或者機器人控制應用.

        Cheng[12]等人提出的位移圖神經(jīng)網(wǎng)絡(Shift-GCN)與大多數(shù)圖卷積神經(jīng)網(wǎng)絡不同,它使用位移圖運算,在保障準確率的同時獲得了較高的運算效率.Shift-GCN所有的位移操作,都是在特征通道上完成的,但是卻未對特征通道進行處理或者優(yōu)化.針對這個問題,本文提出了一種ASGCN網(wǎng)絡,引入通道注意力機制對Shift-GCN進行了優(yōu)化,在IARGB-D數(shù)據(jù)集上進行實驗,識別準確率有所提高的同時,并未明顯增加計算復雜度.

        本文的主要貢獻有以下3個方面:1)建立了關于人機交互的交互動作數(shù)據(jù)集,使用多種神經(jīng)網(wǎng)絡對其進行測試,驗證了其正確性和有效性,能夠有效的幫助深度學習方法在人機交互領域的研究;2)提出了基于注意力的位移圖神經(jīng)網(wǎng)絡,通過將高效通道注意力模塊與Shift-GCN結合,增強其提取通道特征的能力,在交互動作數(shù)據(jù)集上的識別準確率高于多數(shù)神經(jīng)網(wǎng)絡;3)將傳感器實時采集的數(shù)據(jù)輸入訓練好的ASGCN網(wǎng)絡中,與傳統(tǒng)的交互動作算法對比,基于深度學習的方法擁有比傳統(tǒng)機器學習方法更高的準確率,并且時間效率控制在可接受范圍內(nèi).

        2 相關工作

        2.1 基于圖卷積神經(jīng)網(wǎng)絡的動作識別

        由于人體的骨骼和關節(jié)點與圖的邊和節(jié)點高度相似,圖卷積神經(jīng)網(wǎng)絡(GCN)在基于骨骼的動作識別研究中表現(xiàn)優(yōu)異.Yan[13]等人首次將圖卷積神經(jīng)網(wǎng)絡運用到骨骼動作識別之中,提出了時空圖卷積神經(jīng)網(wǎng)絡(ST-GCN),在空間上對人體骨骼和關節(jié)點進行圖卷積,得到由根節(jié)點、向心節(jié)點、離心節(jié)點構成的領接矩陣,在時間上將連續(xù)幀的相同節(jié)點連接構成圖,從空域和時域中分別提取特征信息,利用融合特征進行動作分類;華鋼等人在ST-GCN骨骼模型的基礎上,通過優(yōu)化骨架行為建模方式,增加空間差分信息和時間差分信息,提出了一種基于多流CNN骨架識別的模型;Plizzari C[14]等人利用transformer自關注算子來建模骨骼關節(jié)點之間的依賴關系,空間域上關注身體不同部位的幀內(nèi)關系,時間域上關注不同幀之間的相關性;Shi[15]等人在ST-GCN的基礎上,引入骨骼長度和方向等骨骼數(shù)據(jù)的二階信息,將骨骼數(shù)據(jù)的圖形結構參數(shù)化,并可以隨著網(wǎng)絡的訓練不斷優(yōu)化,增加了圖卷積的靈活性;Cheng[12]等人將Shift-CNN中的位移操作融入圖卷積之中,跟ST-GCN的固定圖結構不同,Shift-GCN由簡單的位移圖運算和輕量級點卷積構成,在保證高準確率的同時極大降低了計算復雜性;Peng[16]等人借助神經(jīng)網(wǎng)絡架構搜索(NAS),將關節(jié)點之間的信息提取之后,使用多個動態(tài)圖模塊來擴充搜索空間,并且引入多跳模塊和記憶進化策略來自動搜尋網(wǎng)絡的最佳架構;Liu[17]等人通過消除較近和較遠距離的關節(jié)領域的冗余依賴關系,來解決圖的鄰接矩陣的有偏加權問題,并利用統(tǒng)一時空圖卷積模塊G3D直接對跨時空的關節(jié)的關系進行建模;Chen[18]等人更加關注人體骨架的拓撲結構,通過細化具有特定通道關聯(lián)的共享拓撲,得到人體的通道級拓撲結構,并且引入了很少的額外參數(shù),降低了通道拓撲建模的難度.

        2.2 基于人機交互的動作識別

        基于人機交互的動作識別不僅要求識別算法有較高的準確率,還對算法的實時性有著較高的要求,輸入網(wǎng)絡的數(shù)據(jù)能夠由姿勢估計算法或者深度傳感器實時采集得到.大多數(shù)基于神經(jīng)網(wǎng)絡的方法為了提高準確率,網(wǎng)絡結構設計較復雜[13-15],時效性較差.張繼凱[19]等利用VGG和兩分支的卷積神經(jīng)網(wǎng)絡檢測人體關節(jié)點,進行姿勢估計并建立二維動作數(shù)據(jù)集,然后利用堆疊模型識別動作,從而實現(xiàn)實時的動作追蹤和手勢交互;羅適[20]等用Openpose[21]實時獲取人體關節(jié)數(shù)據(jù),然后將動作特征分為短期、中期和長期,送入TS-LSTM網(wǎng)絡,設計了基于Web 3D的人機交互動作識別系統(tǒng);桑海峰[22]等基于傳統(tǒng)的手工特征提取方法,提出了快速動態(tài)時間彎曲距離算法(F-DTW),利用Kinect獲取人體關節(jié)點并建立特征向量,輔以下界函數(shù)和提前終止技術,解決了動作隨意性對識別帶來的影響,較傳統(tǒng)的手工特征提取算法,提高了識別速度,減少了人機交互的時延;Zhong[23]等人通過對高分辨率信息進行時空融合和自適應特征提取來增強區(qū)分相似動作的能力,在機器人交互應用上優(yōu)于大多數(shù)算法,并且在響應時間上與語音交互相差無幾;Akkaladevi S C[24]等人提出了一種面向工業(yè)應用的人機交互動作識別方法,使用隨機森林算法和關鍵描述符結合,具有低延遲,靈活度高和可重新分配的優(yōu)點;Cai[25]等人通過馬爾科夫隨機場將人體骨骼的每一個肢體編碼成一種方法,使用多通道多實例方法進行識別,大幅降低了動作識別的響應延遲.

        以上基于人機交互的動作識別算法均從自建數(shù)據(jù)集或者公開數(shù)據(jù)集中選取特定動作構建人機交互系統(tǒng),但是多數(shù)自建數(shù)據(jù)集并未公開使用,并且公開數(shù)據(jù)集大多未公開具體的采集過程,所以建立一個標準的人機交互動作數(shù)據(jù)集是十分必要的.

        3 基于通道注意力的位移圖神經(jīng)網(wǎng)絡

        3.1 位移圖神經(jīng)網(wǎng)絡

        ST-GCN首先將圖卷積神經(jīng)網(wǎng)絡運用到基于骨骼關節(jié)點的動作識別,由于骨骼和關節(jié)點與圖的結構十分契合,實驗結果遠超CNN,LSTM等傳統(tǒng)的深度學習方法,后續(xù)的大量研究工作以ST-GCN為基礎展開.但ST-GCN存在兩方面的缺點[12]:1)計算量大,針對一個樣本數(shù)據(jù)而言,ST-GCN包括4.0GFLOPs的空間域圖卷積操作和12.2GFLOPs的時間一維卷積操作.2)ST-GCN的空間和時間感受野都是固定的,需要人為預先定義,雖然使用自適應的圖結構能夠?qū)D卷積神經(jīng)網(wǎng)絡起著一定的優(yōu)化作用,但是網(wǎng)絡的表達能力仍然會受到圖結構的限制.

        Shift-GCN針對以上問題,提出了用Shift卷積代替圖卷積,無需預先定義的圖結構,用簡單的位移操作和逐點卷積取代復雜的圖卷積操作,大大減少了計算復雜度.在空間結構的圖卷積上,Shift-GCN包括局部Shift圖卷積和全局Shift圖卷積.由于局部Shift圖卷積只考慮了人體的固定物理結構,難以挖掘不相鄰的身體結構如兩手之間的潛在聯(lián)系,并且不同關節(jié)的臨近節(jié)點數(shù)量不同,在位移操作過程中可能會導致某些節(jié)點特征信息的丟失.全局Shift圖卷積在局部圖卷積的基礎上,去除了人體結構物理連接的限制,從而將單幀的骨骼關節(jié)圖變成了完全圖,每一個關節(jié)點都能與其他所有節(jié)點相連接,得到的特征圖如圖1所示.

        圖1(a)展示了人體骨骼的關節(jié)點圖,圖1(b)選取了其中7個代表性人體關節(jié)點,在空間域上的Shift操作過程,其中骨骼關節(jié)完全圖只展示了1號關節(jié)點的連接方式,其余關節(jié)的與之類似.利用全局空間Shift操作,可以獲得空間域上的骨骼關節(jié)特征圖.一個完整的骨骼序列由T幀構成,需要在時間域上對特征圖進行堆疊,如圖1(c)所示,將通道平均劃分為2h+1份,每份的時間位移距離為-h,-h+1,…,0,…,h-1,h,通過時間位移,每幀均能夠從相鄰幀獲取特征信息,卷積過程采用傳統(tǒng)的Shift卷積[26].

        圖1 全局Shift位移操作后的特征圖Fig.1 Characteristic diagram after non-local shift operation

        3.2 高效通道注意力模塊(ECA_module)

        注意力機制(attention)能夠讓神經(jīng)網(wǎng)絡更加關注重要的區(qū)域,從而提升網(wǎng)絡的性能.SE-Net[27]首次提出一種有效的通道注意力機制,依據(jù)各個特征通道的重要程度,然后針對不同的任務增強或者抑制不同的通道,讓神經(jīng)網(wǎng)絡更加高效地提取通道特征.Wang[28]等人針對SE-Net中通道降維和跨通道交互對通道注意力的影響,提出了更加有效的高效通道注意力(ECA)模塊,ECA實現(xiàn)了大小為k的快速1D卷積,其中k表示有多少個相鄰通道參與該通道的注意力預測,如圖2所示,ECA能夠在避免維度特征縮減的同時,增加不同通道間的信息交互.

        圖2 高效通道注意力(ECA)模塊Fig.2 Efficient channel attention(ECA)module

        3.3 基于高效通道注意力的位移圖神經(jīng)網(wǎng)絡

        神經(jīng)網(wǎng)絡中的卷積操作本質(zhì)上是將空間與通道信息融合的過程,不同的特征通道可能包含有不同重要性的信息,Shift-GCN在空間結構上通過特征通道的位移形成新的特征圖,但是未關注通道信息本身.針對這個問題,本論文提出了一種基于高效通道注意力的位移圖神經(jīng)網(wǎng)絡.區(qū)別于大部分基于通道注意力的網(wǎng)絡,本方法在特征數(shù)據(jù)輸入階段引入通道注意力模塊,為每個骨骼關節(jié)點的通道數(shù)據(jù)賦予不同的權值,再輸入位移神經(jīng)網(wǎng)絡.

        (1)

        在全局Shift卷積操作中,第i個通道的位移距離為imodN.

        在ECA模塊中,針對通道特征f,計算其相鄰的k個通道的快速一維卷積計算權重,如公式(2)所示:

        ω=σ(C1Dk(f))

        (2)

        由于整個計算模塊只涉及k個參數(shù),計算量大幅降低,而且更注重局部通道直接的信息交互.

        本文將ECA模塊融入Shift-GCN網(wǎng)絡中,提出了基于注意力的Shift神經(jīng)網(wǎng)絡(ASGCN).

        引入ECA模塊之后,ASGCN的圖卷積公式(3)為:

        (3)

        圖3 基于ECA的Shift操作Fig.3 Shift operation based on ECA

        ASGCN由1個BN層,10個ASGCN網(wǎng)絡層(A1-A10),1個全局平局池化層和一個Softmax分類層構成,如圖4所示.其中A1-A10為相同的結構,包含一個通道注意力模塊,一個空間Shift模塊,一個時間Shift模塊和一個殘差連接.在網(wǎng)絡的輸入端,用一個BN層處理輸入的骨骼關節(jié)數(shù)據(jù),加速網(wǎng)絡的收斂速度.然后將特征矩陣送入10個ASGCN網(wǎng)絡層,原始輸入數(shù)據(jù)的通道數(shù)為3,前4個ASGCN網(wǎng)絡層的輸出通道為64,步長為1;中間3個網(wǎng)絡層輸出通道都為128;最后3個網(wǎng)絡層的輸出通道為256.其中在A5和A8層,步長設置為2.之后將輸出的特征矩陣送入全局平局池化層(GAP)來得到一個固定大小的特征向量.最后由一個Softmax分類器進行動作的分類和預測.

        圖4 ASGCN結構Fig.4 Structure of ASGCN

        4 實驗結果與分析

        4.1 數(shù)據(jù)集介紹

        4.1.1 數(shù)據(jù)集背景介紹

        人機交互中的動作識別主要應用在體感游戲、虛擬現(xiàn)實和機器人控制等方面,此類動作大多是特定的動作,如在機器人控制中舉起左手控制機器人向左轉(zhuǎn)彎、體感游戲中設定的舞蹈動作等.使用傳統(tǒng)的手工特征提取方法,通常需要自建動作模板庫,每類動作只有少數(shù)幾個樣本,算法的識別精度很大程度上取決于模板庫的優(yōu)劣,而增加模板庫的樣本,則會大大增加識別時間.基于深度學習的動作識別方法能夠使用神經(jīng)網(wǎng)絡從大量樣本中學習,利用訓練好的模型,對輸入的數(shù)據(jù)進行預測,具有較高的動作識別準確率.現(xiàn)有常用于深度學習的數(shù)據(jù)集,如NTU RGB-D[10]、NTU RGB-D 120[29],Kinetics[11]等,雖然包含大量的日常生活動作,但能夠用于人機交互的動作較少;另外如G3D[30],MSR Action3D[31]等數(shù)據(jù)集,主要為人機交互動作,但采集這些數(shù)據(jù)集的設備大多已未再使用,現(xiàn)在大多數(shù)的人機交互實驗都使用深度傳感器設備或者姿勢估計算法采集人體骨骼數(shù)據(jù).

        4.1.2 Interactive action(IA RGB-D)數(shù)據(jù)集

        為了更好的研究動作識別在人機交互中的應用,創(chuàng)建了Interactive action(IA RGB-D)數(shù)據(jù)集,并且在公開網(wǎng)站上發(fā)布[注]https://github.com/MosasaurYi/IA-RGB-D.該數(shù)據(jù)集按照NTU RGB-D數(shù)據(jù)集的標準建立,使用KinectV2采集骨骼關節(jié)點數(shù)據(jù),主要包含了人體25個關節(jié)點的三維坐標.

        IA RGB-D數(shù)據(jù)集包括以下內(nèi)容:

        受試者:有20名受試者參與本次數(shù)據(jù)集的采集,他們年齡在18-30歲之間,擁有不同的身高、體型和性別,在數(shù)據(jù)集中以P001-P020進行編號.針對每一個受試者,在開闊的場地中,使用一臺KinectV2采集數(shù)據(jù),這一點與NTU RGB-D中使用3臺設備進行采集不同,在數(shù)據(jù)集中以C001進行編號.每個受試者會對每一個動作執(zhí)行三遍,在數(shù)據(jù)集中以R001-R003編號.

        交互動作:選取了10個常用的人機交互動作進行錄制,這些動作具有較強的分辨度,能夠很好的使用到人機交互的應用中,這些動作包括有:平舉雙手、抬起左手、抬起右手、雙手畫叉、抬起左腳、抬起右腳、蹲下、揮拳、雙手合十、揮手,在數(shù)據(jù)集中以A001-A010編號.

        傳感器設置:從NTU RGB-D中Kinect設備高度和距離的組合中選取了6組能夠很好用于人機交互場景的設置編號,具體的配置如表1所示.在數(shù)據(jù)集中以S001-S006來編號.

        表1 Kinect傳感器高度與距離配置表Table 1 Height and distance configuration of Kinect sensor

        數(shù)據(jù)文件:針對每一組數(shù)據(jù),即由一個受試者在某一傳感器配置下完成一次一個動作所產(chǎn)生的所有數(shù)據(jù),以詳細的編號格式作為文件名,如S001C001P001R001A001.文件以TXT文本文件形式存儲,第1行存儲該動作所有幀的個數(shù),之后按照幀的順序,以第1行為當前幀數(shù),后面25行按照關節(jié)點順序排列,以此循環(huán)存儲所有幀的信息.采用了KinectV2標準的人體骨骼關節(jié)點編號順序,如圖1(a)所示,每一行存儲關節(jié)點的三維坐標.所采集的數(shù)據(jù)直接由Kinect SDK獲取,沒有做任何的修改,所有的操作包括數(shù)據(jù)歸一化等等均在實驗階段完成.使用Unity3D搭建采集軟件,使用了Kinectv2.9.unitypackage插件,在開闊無遮擋的環(huán)境中采集所有數(shù)據(jù).

        4.2 消融實驗

        本文使用近幾年公開的基于骨骼關節(jié)點的神經(jīng)網(wǎng)絡來對IA RGB-D數(shù)據(jù)集進行訓練與測試,其中在數(shù)據(jù)處理階段,采用NTU RGB-D相同的歸一化處理方法,即將相機坐標系轉(zhuǎn)換為人體關節(jié)坐標系,人體關節(jié)圖如圖1(a),首先定義1號關節(jié)點為坐標原點,然后將4號關節(jié)點與8號關節(jié)點相連作為X軸,1號關節(jié)點與0號關節(jié)點相連作為Y軸,以X×Y軸為基礎建立Z軸,最后,以1號關節(jié)點與0號關節(jié)點的距離為基礎,來擴展其他所有的關節(jié)點.

        4.2.1 IA RGB-D數(shù)據(jù)集實驗結果

        使用了7種神經(jīng)網(wǎng)絡來對IA RGB-D進行訓練與測試,未改動源代碼,只在數(shù)據(jù)處理階段適配了IA RGB-D的數(shù)據(jù)格式.使用15個受試者的數(shù)據(jù)即P001-P015作為訓練集,剩下的作為測試集,記錄了準確率最高epoch,用它的參數(shù)數(shù)據(jù)加載模型來進行預測,并記錄了單個動作預測所需的平均時間.除此之外,還在NTU RGB-D的CS數(shù)據(jù)集上對本算法和其余7種神經(jīng)網(wǎng)絡算法的準確率和單個動作運行時間進行了測試,實驗結果如表2所示.

        表2 多種神經(jīng)網(wǎng)絡在IARGB-D數(shù)據(jù)集上的準確率與預測單個動作的平均時間Table 2 Accuracy and prediction time of single action of various neural networks on IA RGB-D

        從實驗中可以看出,由于數(shù)據(jù)集的數(shù)據(jù)量降低,各個網(wǎng)絡在IA RGB-D的準確率都在95%以上,其中ASCGN的準確率最高,MS-G3D和GCN-NAS也擁有較高的準確率.NTU RGB-D數(shù)據(jù)集包含了大量日常生活動作,只有少量可用于人機交互的動作,因此側重于交互動作識別的ASGCN網(wǎng)絡,在NTURGB-D數(shù)據(jù)集準確率有降下降,在該數(shù)據(jù)集上MS-G3D準確率最高.在時間效率方面,網(wǎng)絡復雜度較高的ST-TR在兩個數(shù)據(jù)集上預測單個動作時間最長,而Shift-GCN和ASGCN網(wǎng)絡復雜度低,預測單個動作時間明顯少于其他算法.

        通過上述實驗,綜合驗證了IA RGB-D數(shù)據(jù)集的正確性和有效性,并且其他用戶可以根據(jù)自身的需求,增加該數(shù)據(jù)集的動作種類或采集單個動作數(shù)據(jù)用于預測,具有一定的普適性,在實時人機交互應用中有積極的研究意義.

        4.2.2 Attention Shift Graph Convolution Network實驗結果與分析

        從表2中可知由于Shift-GCN的網(wǎng)絡復雜度較小,所以預測單個數(shù)據(jù)的時間也較少,而在注重實時交互的人機動作交互中,時間效率也是尤為重要的指標之一.綜合準確率和時間效率,本文選擇Shift-GCN作對比實驗.

        實驗環(huán)境采用NVIDIA TITAN RTX作為GPU和cuda9.2加速神經(jīng)網(wǎng)絡的訓練,操作系統(tǒng)為Windows10,使用Pytorch深度學習框架和VSCode軟件進行開發(fā),實驗中所有訓練的Batchsize為32,采用動量為0.9的隨機梯度下降算法進行優(yōu)化,權重衰減為0.0001,網(wǎng)絡初始學習率設為0.1,epoch為60,學習率分別在20,40次訓練時下降10%.ASGCN和Shift-GCN在IA RGB-D數(shù)據(jù)集上的詳細準確率對比如圖5所示.

        圖5 準確率對比Fig.5 Accuracy comparison

        由實驗結果可以看出,融入通道注意力的ASGCN在數(shù)據(jù)集上的準確率上升了1%左右,并且在大部分的訓練過程中準確率都較Shift-GCN有所提升.

        除此之外,用兩者準確率最高的參數(shù)值加載模型,然后用模型對測試集進行測試,畫出了兩者的混淆矩陣,能夠更直觀地展示ASGCN對Shift-GCN的改進,如圖6所示.

        圖6 混淆矩陣Fig.6 Confusion matrix

        可以看出,ASGCN和Shift-GCN對IA RGB-D數(shù)據(jù)集中相似性較高的動作,如揮手和抬手,會產(chǎn)生識別錯誤.Shift-GCN對揮拳和雙手畫叉這類動作識別正確率較低,而ASGCN對這類動作的準確率有了很大的提升.由這些對比中可以很好的驗證在IA數(shù)據(jù)集上,ASGCN擁有比Shift-GCN更好的性能.

        4.3 交互動作識別對比

        在實際人機交互的應用中,動作交互大多還是采用的傳統(tǒng)的手工特征提取算法.本節(jié)將ASGCN與手工特征算法DTW在實時的人機交互應用上面進行了對比分析,實驗采用由Unity3D和Kinect for Unity插件搭建人機交互應用,由深度傳感器統(tǒng)一采集數(shù)據(jù),對比識別準確率和識別效率.

        本次實驗中,針對IA數(shù)據(jù)集中的10個動作進行實驗,由20個受試者對每個動作進行3次測試,每個動作共60次測試,記錄下了每個動作在兩種算法上的準確率和平均識別時間,如表3所示.

        表3 DTW與ASGCN的準確率與識別時間對比表Table 3 Comparison of accuracy and recognition time of DTW and ASGCN

        從表中可以看出,使用神經(jīng)網(wǎng)絡的方法在準確率上比傳統(tǒng)的手工特征提取方法準確率高很多,其中手工特征提取方法對蹲下,揮手,雙手畫叉,雙手合十等動作的識別率較差,主要是因為這類動作比較相似,在DTW算法的動作數(shù)據(jù)庫中每種動作只有3組標準動作來進行對比,一些細微的動作差距,導致了在相似動作之間,識別準確率并不高.還有如蹲下動作,由于動作幅度較大,數(shù)據(jù)采集過程中關節(jié)點的坐標波動也更大,也導致了識別準確率較為低下.而基于深度學習的方法,由于模型對大量的數(shù)據(jù)進行了訓練,能夠自動從采集的數(shù)據(jù)中收集特征,整體的準確率較高,但是對一些過于相似動作如揮手和抬手,還是存在一些錯誤.總體而言,使用深度學習的方法運用在人機動作交互的應用上面,識別效果比傳統(tǒng)的手工特征提取方法更加優(yōu)秀.

        5 結 語

        本文針對現(xiàn)有動作數(shù)據(jù)集中,對人機交互動作關注度較少等問題,創(chuàng)建了一種全新的交互動作數(shù)據(jù)集——IA RGB-D,該數(shù)據(jù)集由簡單的交互動作組成,對于人機交互應用如體感游戲,機器人控制等做出了一定的貢獻.用近幾年的優(yōu)秀的圖卷積神經(jīng)網(wǎng)絡對該數(shù)據(jù)集進行訓練與測試,驗證了其有效性,并針對其中準確率與識別效率較高的位移圖卷積神經(jīng)網(wǎng)絡進行了改進,將高效通道注意力模塊融入其中,提出了一種基于注意力模型的位移神經(jīng)網(wǎng)絡(ASGCN).實驗證明,在IA RGB-D數(shù)據(jù)集上,所提出的ASGCN比原來的Shift-GCN有更高的準確率,同時識別效率也是多種神經(jīng)網(wǎng)絡中較為優(yōu)秀的.同時將該模型與傳統(tǒng)手工特征提取方法在人機交互應用上對比,本文的方法在準確率上遠遠高于傳統(tǒng)的方法,但是由于神經(jīng)網(wǎng)絡的復雜,時間效率并未有太多的提升.在未來的工作中,會嘗試對基于深度學習方法的人機交互應用的時間效率進行優(yōu)化,并且對IA RGB-D數(shù)據(jù)集進一步的擴展,加入更多的交互動作.

        猜你喜歡
        關節(jié)點骨骼注意力
        讓注意力“飛”回來
        做家務的女性骨骼更強壯
        中老年保健(2021年5期)2021-12-02 15:48:21
        三減三健全民行動——健康骨骼
        中老年保健(2021年5期)2021-08-24 07:06:28
        基于深度學習和視覺檢測的地鐵違規(guī)行為預警系統(tǒng)研究與應用
        關節(jié)點連接歷史圖與卷積神經(jīng)網(wǎng)絡結合的雙人交互動作識別
        骨骼和肌肉
        小布老虎(2017年1期)2017-07-18 10:57:27
        搞好新形勢下軍營美術活動需把握的關節(jié)點
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        骨骼是如何生長的
        少年科學(2009年12期)2009-07-07 07:05:10
        无套内射在线无码播放| 亚洲国产字幕| 国产偷拍自拍在线观看| 久久国产精品亚洲婷婷片| 免费观看的a级毛片的网站| 欧美乱妇日本无乱码特黄大片| 国产高潮精品一区二区三区av| 嫩呦国产一区二区三区av | 久久夜色撩人精品国产小说| 蜜桃av夺取一区二区三区| 亚洲av毛片在线网站| 丰满岳乱妇一区二区三区| 少妇高潮喷水正在播放| 偷拍自拍一区二区三区| 国产激情自拍在线视频| 国产精品亚洲综合色区| 四虎影永久在线观看精品| 新久久久高清黄色国产| 久久狼精品一区二区三区| 亚洲午夜福利在线视频| 色综合久久无码中文字幕app| av手机天堂在线观看| 人人妻人人澡人人爽人人精品浪潮| 海角国精产品一区一区三区糖心| 亚洲色偷拍一区二区三区 | 99青青草视频在线观看| 激情综合色五月丁香六月欧美| 蜜桃精品免费久久久久影院| 日本激情视频一区在线观看| 人妻少妇久久中中文字幕| 欧美精品v国产精品v日韩精品| 精品视频在线观看免费无码| 免费av在线 国产精品| 亚洲av综合一区二区在线观看| 国产山东熟女48嗷嗷叫| 亚洲精品白浆高清久久| 中文字幕本久久精品一区| 国产无遮挡无码视频免费软件| 久热爱精品视频在线观看久爱| 日韩av水蜜桃一区二区三区| 久久久久久久97|