亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GCN的局部增強(qiáng)人體骨骼行為識(shí)別算法

        2022-06-23 11:12:08謝伙生羅洪文
        關(guān)鍵詞:骨骼全局準(zhǔn)確率

        謝伙生,羅洪文

        (福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350591)

        0 引 言

        通常,人體行為可以使用人體骨骼的運(yùn)動(dòng)軌跡來(lái)刻畫(huà),骨骼數(shù)據(jù)可以很好地描述人體運(yùn)動(dòng)的動(dòng)態(tài)特征。同時(shí),骨骼數(shù)據(jù)大幅度降低了視頻幀包含的數(shù)據(jù)量,例如,在使用Kinect體感攝像機(jī)采集的NTU-RGB+D[1,2]數(shù)據(jù)集中,每一幀骨骼數(shù)據(jù)只包含了人體的25個(gè)關(guān)節(jié)點(diǎn),每個(gè)關(guān)節(jié)點(diǎn)僅僅包含一個(gè)三維空間坐標(biāo)點(diǎn)。目前,有許多方法通過(guò)將骨骼序列數(shù)據(jù)重構(gòu)為二維網(wǎng)格結(jié)構(gòu),構(gòu)造成“偽圖片”的格式,進(jìn)而使用CNN、LSTM、GRU等網(wǎng)絡(luò)模型提取特征[3-6]。人體骨骼的自然連接是一種非歐幾里得結(jié)構(gòu),如果直接將其網(wǎng)格化會(huì)損失其中蘊(yùn)含的重要的空間信息。為了解決這個(gè)問(wèn)題,圖卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用于基于骨骼數(shù)據(jù)的行為識(shí)別任務(wù)中,并且在多個(gè)大規(guī)模骨骼數(shù)據(jù)集上顯著地提升了識(shí)別準(zhǔn)確率[7-12]。

        本文探討了關(guān)節(jié)的全局信息與局部信息的信息共現(xiàn)性,提出將身體按部位進(jìn)行分塊,在每一個(gè)分塊內(nèi)部聚合關(guān)節(jié)的局部信息,并且利用自適應(yīng)圖卷積神經(jīng)網(wǎng)絡(luò)[10,13-15]提取每個(gè)關(guān)節(jié)的全局信息,關(guān)聯(lián)全局信息與局部信息以此構(gòu)建為一個(gè)完整的信息推理模型,達(dá)到局部信息增強(qiáng)全局信息的目的,使得整體模型的信息交流更加充分。此外,本文認(rèn)為在時(shí)間維度上使用單一的卷積操作是不夠充分的,因此本文提出通過(guò)使用多層膨脹時(shí)間卷積網(wǎng)絡(luò)來(lái)提取骨骼數(shù)據(jù)在時(shí)間維度中的上下文依賴(lài)關(guān)系。通過(guò)堆疊多個(gè)時(shí)間卷積層,并且逐步擴(kuò)大每一層的感受野,使得模型可以捕獲短期和長(zhǎng)期時(shí)序上下文依賴(lài)關(guān)系。通過(guò)這種方式本文的模型能夠更加充分地提取骨骼序列的上下文依賴(lài)關(guān)系,進(jìn)一步提升模型的推理能力。

        1 相關(guān)工作

        圖神經(jīng)網(wǎng)絡(luò)可以大致分為兩種方式:①譜域,利用圖拉普拉斯矩陣的特征值和特征向量,這些方法利用圖的傅里葉變換在頻域進(jìn)行圖的卷積;②空間域,直接迭代地聚合每個(gè)節(jié)點(diǎn)的鄰域信息以此更新每個(gè)節(jié)點(diǎn)的狀態(tài)。Kipf等[16]首先提出使用切比雪夫核的一階近似作為GCN的卷積核,并且在半監(jiān)督分類(lèi)任務(wù)中表現(xiàn)出優(yōu)越的性能。Yan等[17]將GCN應(yīng)用于基于骨骼的行為識(shí)別任務(wù)中,他們利用GCN提取關(guān)節(jié)的空間信息,TCN提取關(guān)節(jié)的時(shí)間上下文依賴(lài)關(guān)系,提出ST-GCN。Thakkar等[18]將人體分成數(shù)個(gè)獨(dú)立的分塊分別提取信息,最后匯總每個(gè)塊的信息,但是,他們忽略了關(guān)節(jié)的全局信息的重要性。Li等[13]將人體骨骼連接分為動(dòng)作連接和結(jié)構(gòu)連接,分別聚合信息,有效地提升了識(shí)別精度。Si等[19]提出一種網(wǎng)絡(luò)模型使用GCN提取空間信息,使用LSTM提取時(shí)間信息。Gao等[20]提出使用圖回歸構(gòu)建時(shí)空維度中的人體骨骼拓?fù)浣Y(jié)構(gòu),并使用高階切比雪夫核近似替代一階的切比雪夫核。Shi等[15]提出了一種自適應(yīng)圖卷積神經(jīng)網(wǎng)絡(luò),它可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式自適應(yīng)地學(xué)習(xí)人體骨骼的拓?fù)浣Y(jié)構(gòu),他們從全局的角度考慮每個(gè)關(guān)節(jié)的全局相關(guān)性,忽略了關(guān)節(jié)的局部相關(guān)性也是一個(gè)重要而不可忽視的關(guān)鍵因素。Zhang等[14]提出了一種輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu),顯式地將關(guān)節(jié)類(lèi)型和幀索引作為語(yǔ)義信息嵌入網(wǎng)絡(luò)中,論證了語(yǔ)義信息能夠很好地幫助模型理解行為動(dòng)作。

        2 圖卷積神經(jīng)網(wǎng)絡(luò)

        通常,一個(gè)骨骼序列由T幀組成,每一幀中包含N個(gè)關(guān)節(jié),每個(gè)關(guān)節(jié)通常是一個(gè)三維空間坐標(biāo)或者二維平面坐標(biāo)。因此,可以將自然連接的骨骼序列構(gòu)建為無(wú)向圖G=(V,E), 其中頂點(diǎn)集V={vti|i=1,…,N,t=1,…,T}, 邊集E由Es和Ef兩個(gè)子集組成,Es代表每一幀中關(guān)節(jié)之間的自然連接關(guān)系,Es={vtivtj|(i,j)∈H}, 其中H代表自然連接的骨骼邊集合。Ef代表相同的關(guān)節(jié)在連續(xù)的幀之間的連接關(guān)系,Ef={vtiv(t+1)i}。 令A(yù)表示人體骨骼自然連接的鄰接矩陣,A={0,1}N×N, 如果vivj∈Es, 則Aij=1, 否則Aij=0。 關(guān)節(jié)vi和其鄰域中其它關(guān)節(jié)的信息聚合方法可以定義為

        (1)

        圖卷積神經(jīng)網(wǎng)絡(luò)的詳細(xì)實(shí)現(xiàn)過(guò)程稍顯復(fù)雜,通過(guò)使用切比雪夫核的一階近似作為GCN的卷積核,可以將式(1)變換為式(2)

        (2)

        3 本文提出的方法

        ST-GCN中的圖拓?fù)浣Y(jié)構(gòu)是人體關(guān)節(jié)的自然連接,它形式固定缺乏靈活性,在一些動(dòng)作中非自然連接的關(guān)節(jié)之間相關(guān)性更強(qiáng),固定形式的關(guān)節(jié)連接方式會(huì)導(dǎo)致模型推理能力不佳。文獻(xiàn)[10,13~15]采用數(shù)據(jù)驅(qū)動(dòng)的方法自適應(yīng)學(xué)習(xí)人體骨骼的圖拓?fù)浣Y(jié)構(gòu),計(jì)算每個(gè)關(guān)節(jié)點(diǎn)與其它關(guān)節(jié)點(diǎn)之間的連通性以及連接強(qiáng)度,結(jié)果表明采用自適應(yīng)圖卷積網(wǎng)絡(luò)的方式大幅度地提升了網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率。本文提出了一種分層次的時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)模型,從時(shí)間和空間兩個(gè)維度分別提取骨骼數(shù)據(jù)的信息。如圖1所示,在空間維度上,本文探討了關(guān)節(jié)全局相關(guān)性與局部相關(guān)性的信息共現(xiàn)關(guān)系,以數(shù)據(jù)驅(qū)動(dòng)的方式自適應(yīng)地學(xué)習(xí)關(guān)節(jié)的全局相關(guān)性,通過(guò)對(duì)身體部位分塊,構(gòu)建每個(gè)分塊內(nèi)部關(guān)節(jié)的局部相關(guān)性,關(guān)聯(lián)關(guān)節(jié)的全局信息與局部信息,達(dá)到局部信息增強(qiáng)全局信息的目的。此外,在每個(gè)GCN模塊后加入了SENet[21]注意力網(wǎng)絡(luò)模塊,使得活躍度高的關(guān)節(jié)受到更多的關(guān)注度;在時(shí)間維度上,本文通過(guò)堆疊多層的時(shí)間膨脹卷積網(wǎng)絡(luò)層,并且逐步擴(kuò)大每一層的感受野,使得網(wǎng)絡(luò)模型可以兼具捕獲短期和長(zhǎng)期時(shí)序上下文依賴(lài)關(guān)系。

        圖1 網(wǎng)絡(luò)模型整體流程

        3.1 多模態(tài)特征融合模塊

        對(duì)于原始的輸入數(shù)據(jù)fin∈R3×N×T, 通過(guò)在時(shí)間維度上執(zhí)行一階差分,獲得可以表征關(guān)節(jié)的運(yùn)動(dòng)方向和距離的運(yùn)動(dòng)矢量,其作為一種二階信息可以從關(guān)節(jié)的運(yùn)動(dòng)軌跡分析行為過(guò)程,具有很強(qiáng)的魯棒性。通過(guò)計(jì)算各個(gè)關(guān)節(jié)與人體骨骼的中心關(guān)節(jié)的相對(duì)位置,可以減少人體尺度不一致帶來(lái)的影響,相對(duì)于關(guān)節(jié)的三維空間坐標(biāo)來(lái)說(shuō),相對(duì)位置具有更強(qiáng)的魯棒性。文獻(xiàn)[14]論證了顯式地將關(guān)節(jié)類(lèi)型與骨骼幀索引輸入模型中,對(duì)于行為識(shí)別任務(wù)能夠起到語(yǔ)義增強(qiáng)的作用。不同模態(tài)的特征進(jìn)行粗糙融合會(huì)造成特征尺度差異過(guò)大的問(wèn)題,不利于模型推理,因此本文利用多層感知機(jī)(multilayer perceptron,MLP)先將不同模態(tài)的數(shù)據(jù)(三維空間坐標(biāo)、運(yùn)動(dòng)矢量、相對(duì)位置、關(guān)節(jié)類(lèi)型和幀索引,其中關(guān)節(jié)類(lèi)型與幀索引編碼為one-hot向量)嵌入高維空中,以此平滑不同模態(tài)特征的差異性,并且融合多種特征作為網(wǎng)絡(luò)的輸入。特征融合的過(guò)程使用兩層MLP,由1×1卷積實(shí)現(xiàn),可以用數(shù)學(xué)模型描述如下

        fout=σ(w2σ(w1fin+b1)+b2)

        (3)

        式中:w1和w2是參數(shù)矩陣,b1和b2是偏置向量,σ是ReLU激活函數(shù)。

        3.2 空間圖卷積網(wǎng)絡(luò)模塊

        3.2.1 構(gòu)建全局自適應(yīng)鄰接矩陣

        在構(gòu)建基于骨骼數(shù)據(jù)的圖卷積神經(jīng)網(wǎng)絡(luò)模型時(shí),如何構(gòu)建各個(gè)關(guān)節(jié)之間相關(guān)性是一個(gè)至關(guān)重要的工作。在ST-GCN中使用人體骨骼的自然連接構(gòu)建骨骼拓?fù)鋱D,這方式最大的缺陷是缺乏靈活性,分析所有的行為都使用固定的關(guān)節(jié)鄰接關(guān)系,這種方式的效果并不理想。在文獻(xiàn)[10,13~15]的工作中,根據(jù)不同的輸入數(shù)據(jù)自適應(yīng)地學(xué)習(xí)關(guān)節(jié)的鄰接關(guān)系,這種數(shù)據(jù)驅(qū)動(dòng)的方式可以根據(jù)不同行為的特點(diǎn),為關(guān)節(jié)之間的連通關(guān)系賦予不同的關(guān)注度,使得網(wǎng)絡(luò)模型在提取特征時(shí)可以重點(diǎn)關(guān)注于相關(guān)性高的關(guān)節(jié),具有良好的靈活性。

        本文采用Ag=(PA+C) 的形式構(gòu)建關(guān)節(jié)與關(guān)節(jié)之間的全局相關(guān)性,其中Ag表示全局鄰接矩陣,PA的大小與人體骨骼的自然連接所構(gòu)造的鄰接矩陣A一致,并且是一個(gè)可訓(xùn)練的矩陣,它利用A進(jìn)行參數(shù)初始化,在訓(xùn)練過(guò)程中PA可以自主學(xué)習(xí)調(diào)整參數(shù),進(jìn)一步增加了關(guān)節(jié)連通的靈活性。C是一個(gè)自適應(yīng)鄰接矩陣,它根據(jù)不同的輸入數(shù)據(jù),自適應(yīng)地計(jì)算出不同關(guān)節(jié)之間的鄰接關(guān)系。與文獻(xiàn)[10,13~15]的工作相似,本文通過(guò)計(jì)算輸入數(shù)據(jù)中每個(gè)關(guān)節(jié)與其它關(guān)節(jié)之間的相關(guān)性來(lái)獲得自適應(yīng)鄰接矩陣C∈RN×N。 對(duì)于輸入數(shù)據(jù)fin∈R3×N×T, 本文使用兩個(gè)嵌入函數(shù)將其嵌入到高維空間中以獲得C′×N×T的張量,并將它重塑為N×C′T矩陣和C′T×N矩陣,再通過(guò)矩陣乘法便可以得到N×N的張量,使用Softmax便可以得到關(guān)節(jié)的全局相關(guān)性自適應(yīng)鄰接矩陣C。計(jì)算方法可以定義為

        C=Softmax(θ(fin)Tφ(fin))

        (4)

        式中:θ=w1x+b1和φ=w2x+b2表示兩個(gè)嵌入函數(shù),兩者均由1×1卷積實(shí)現(xiàn)。

        3.2.2 人體局部劃分策略

        文獻(xiàn)[18]論證了通過(guò)將身體按部位劃分為不同的部分,并在各個(gè)部分內(nèi)部分別聚合信息,可以有效地提高人體行為識(shí)別任務(wù)的識(shí)別準(zhǔn)確率。在這一節(jié)中,本文根據(jù)人體骨骼的圖拓?fù)浣Y(jié)構(gòu),提出了一種劃分策略,如圖2所示,將身體部位分為6塊,分別是:左臂、右臂、上主干、下主干、左腿、右腿,這種策略中存在著一些關(guān)節(jié)同時(shí)屬于不同的分塊,這意味著在使用圖卷積神經(jīng)網(wǎng)絡(luò)聚合信息時(shí),這些分塊可以進(jìn)行信息交流。將每個(gè)分塊單獨(dú)構(gòu)造為一個(gè)圖,這樣一個(gè)骨骼圖就可以根據(jù)分塊劃分為多個(gè)子圖,因此可以為每個(gè)子圖構(gòu)造對(duì)應(yīng)的局部分塊鄰接矩陣Ai∈Asubset,Asubset={A1,A2,…,An}。 對(duì)于每個(gè)子圖內(nèi)部的連通關(guān)系,本文將每個(gè)分塊內(nèi)部的關(guān)節(jié)構(gòu)造為彼此連通的關(guān)系,這就意味著每個(gè)分塊內(nèi)部都是一個(gè)全連通圖,這種方式對(duì)于局部特征提取更為有效。

        圖2 身體部位分塊策略

        3.2.3 全局與局部的信息共現(xiàn)性

        本文認(rèn)為全局信息與局部信息是一種互補(bǔ)的關(guān)系,全局信息放眼于整體,從全局的角度關(guān)注信息的整體變化,提取到的是一種全局性的信息變化,然而也存在對(duì)局部信息的敏感度不足的問(wèn)題。局部信息關(guān)注的則是信息的局部變化,對(duì)于細(xì)節(jié)信息更為敏感,然而也缺乏了對(duì)于信息的全局變化的感知能力。因此,僅僅關(guān)注于全局信息或是局部信息都是不夠充分的,只有將全局信息與局部信息相結(jié)合,使得彼此相互補(bǔ)充才能有效地提升網(wǎng)絡(luò)模型的信息提取能力。

        根據(jù)3.2.1節(jié)可以得到全局自適應(yīng)鄰接矩陣,通過(guò)式(5)可以實(shí)現(xiàn)聚合每個(gè)關(guān)節(jié)的全局信息,本文將其定義為G-GCN模塊(全局圖卷積神經(jīng)網(wǎng)絡(luò)模塊)。根據(jù)3.2.2節(jié)可以得到局部分塊的鄰接矩陣,通過(guò)式(6)可以在每個(gè)分塊內(nèi)部聚合每個(gè)關(guān)節(jié)的局部信息,本文將其定義為L(zhǎng)-GCN模塊(局部圖卷積神經(jīng)網(wǎng)絡(luò)模塊)。通過(guò)式(7)實(shí)現(xiàn)了加權(quán)融合關(guān)節(jié)的局部信息與全局信息,利用關(guān)節(jié)的局部信息增強(qiáng)全局信息,以此提高模型對(duì)整體信息的提取能力

        fG - G CN=MAgfinwg

        (5)

        (6)

        fo ut=fG - G CN+λfL- G CN

        (7)

        其中,Ag是全局鄰接矩陣,M是N×N的注意力矩陣。wg和wi是參數(shù)矩陣,λ是超參數(shù)。

        3.3 時(shí)間膨脹卷積網(wǎng)絡(luò)模塊

        對(duì)于在時(shí)間維度上的信息提取,現(xiàn)有的基于ST-GCN的方法使用單一的時(shí)間卷積網(wǎng)絡(luò)模塊提取骨骼數(shù)據(jù)的時(shí)序上下文依賴(lài)關(guān)系,這種單一的卷積層受限于卷積核的大小,無(wú)法提取到更加高水平的特征,因此無(wú)法充分地提取時(shí)序上下文依賴(lài)關(guān)系。TCN[22]在時(shí)間維度上通過(guò)使用膨脹卷積使單個(gè)卷積核在尺寸不變的前提下,增大卷積核的采樣間隔,使得卷積核擁有更大的感受野,能夠很好地提取更長(zhǎng)時(shí)間的上下文依賴(lài)關(guān)系。

        受到TCN的啟發(fā),本文采用多層膨脹時(shí)間卷積網(wǎng)絡(luò)在時(shí)間維度上進(jìn)行信息提取,以此取代原先ST-GCNs中單一的時(shí)間卷積網(wǎng)絡(luò)層。如圖3所示,M-TCN模塊每一層從左至右依次為T(mén)CN、BN、ReLU和Dropout,通過(guò)堆疊多層TCN模塊并為每個(gè)模塊設(shè)置依次增大的膨脹因子d,使得網(wǎng)絡(luò)模型對(duì)于時(shí)序的上下文依賴(lài)關(guān)系的提取能力逐漸增強(qiáng)。此外,通過(guò)引入膨脹因子d可以使同等大小的卷積核擁有更大的感受野,并沒(méi)有增加額外的參數(shù)量。與單一的時(shí)間卷積網(wǎng)絡(luò)模塊相比,本文的M-TCN(多層時(shí)間膨脹卷積網(wǎng)絡(luò)模塊)可以兼具提取骨骼數(shù)據(jù)時(shí)序上的短期和長(zhǎng)期上下文依賴(lài)關(guān)系,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)模型對(duì)整體信息的提取能力。形式上,多層時(shí)間膨脹卷積網(wǎng)絡(luò)模塊可以定義為

        (8)

        圖3 M-TCN

        4 實(shí)驗(yàn)結(jié)果和分析

        4.1 數(shù)據(jù)集

        NTU-RGB+D-60[1]是一個(gè)由Kinect體感攝像機(jī)采集的大規(guī)模且極具挑戰(zhàn)性的人體行為數(shù)據(jù)集,該數(shù)據(jù)集包含了多種數(shù)據(jù)流,如RGB圖像、RGB+D圖像以及骨骼數(shù)據(jù),其中骨骼數(shù)據(jù)被廣泛地應(yīng)用于基于骨骼數(shù)據(jù)的人體行為識(shí)別任務(wù)中。在這個(gè)數(shù)據(jù)集中,一共包括56 880個(gè)視頻片段,每一幀都包含25個(gè)關(guān)節(jié),通過(guò)3臺(tái)不同設(shè)置的深度攝像機(jī)采集由40個(gè)志愿者分別執(zhí)行的60種行為動(dòng)作視頻片段。文獻(xiàn)[1]中提供了兩種評(píng)估基準(zhǔn):Cross-Subject(CS)和Cross-View(CV)。此外,在兩個(gè)基準(zhǔn)中均使用Top-1的識(shí)別準(zhǔn)確率。

        NTU-RGB+D-120[2]是ROSE lab最新發(fā)布的一個(gè)大規(guī)模人體行為數(shù)據(jù)集,它是NTU-RGB+D-60的擴(kuò)展版本,包含了114 480個(gè)由106個(gè)志愿者執(zhí)行的120種不同的行為的視頻片段。文獻(xiàn)[2]提供了兩種評(píng)估基準(zhǔn):Cross-Subject(C-Subject)和Cross-Setup(C-Setup)。同樣地,在兩個(gè)基準(zhǔn)中均使用Top-1的識(shí)別準(zhǔn)確率。

        4.2 訓(xùn)練細(xì)節(jié)

        (1)模型設(shè)置

        在多模態(tài)特征融合模塊中,MLP層使用1×1卷積代替全連接層,特征的輸出通道分別為32和64,經(jīng)過(guò)5種模態(tài)的特征拼接后得到融合特征通道數(shù)為320,再使用兩個(gè)1×1卷積將特征維度分別降為128和64。在空間圖卷積網(wǎng)絡(luò)模塊中,本文的最終的模型使用五層GCN模塊來(lái)聚合關(guān)節(jié)的空間信息,每個(gè)GCN模塊由G-GCN模塊和L-GCN模塊組成,G-GCN模塊的輸出特征通道分別為128、128、256、256、256。輸出特征的通道數(shù)方面L-GCN模塊與G-GCN模塊保持一致,并且設(shè)置超參數(shù)λ為0.5。此外,GCN模塊中的所有的卷積操作都是通過(guò)1×1卷積操作實(shí)現(xiàn)的。在時(shí)間膨脹卷積網(wǎng)絡(luò)模塊中,本文最終的模型堆疊了三層時(shí)間膨脹卷積網(wǎng)絡(luò),卷積核設(shè)置為1×3,膨脹因子d分別設(shè)置為1、2、4,輸出通道分別為256、256、512。此外,每一個(gè)GCN模塊和TCN模塊都使用了ReLU激活函數(shù)和批量正則化。

        (2)訓(xùn)練設(shè)置

        本文的所有實(shí)驗(yàn)均在兩塊Tesla P100 GPU、Pytorch深度學(xué)習(xí)框架、Python3.7的環(huán)境下完成的。本文使用Adam作為模型的優(yōu)化器,設(shè)置初始學(xué)習(xí)率為1×10-3,權(quán)重衰減因子為1×10-4。訓(xùn)練過(guò)程的迭代次數(shù)設(shè)置為120次,使用MultiStepLR學(xué)習(xí)率調(diào)整策略,分別在第60、90、110個(gè)epoch衰減學(xué)習(xí)率為原來(lái)的十分之一,使用多分類(lèi)交叉熵?fù)p失函數(shù)訓(xùn)練本文的模型。此外,本文將NTU-RGB+D-60數(shù)據(jù)集和NTU-RGB+D-120數(shù)據(jù)集的批訓(xùn)練大小均設(shè)置為64。

        4.3 消融實(shí)驗(yàn)

        為了驗(yàn)證本文所提出的方法的有效性,本文在NTU-RGB+D-60數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),并且構(gòu)建了消融實(shí)驗(yàn)的基準(zhǔn)線(xiàn):移除了GCN模塊的L-GCN模塊,保留G-GCN部分,設(shè)置TCN模塊為一層的時(shí)間卷積網(wǎng)絡(luò),膨脹因子d取值為1,其它部分與主體網(wǎng)絡(luò)保持一致。

        為了驗(yàn)證M-TCN模塊的有效性,本文采用多層堆疊TCN的方式進(jìn)行對(duì)比實(shí)驗(yàn),單層TCN模塊與基準(zhǔn)線(xiàn)實(shí)驗(yàn)設(shè)置一致;兩層堆疊TCN模塊,分別取膨脹因子d=1,2; 三層堆疊TCN模塊,分別取膨脹因子為d=1,2,4; 四層堆疊TCN模塊,分別設(shè)置膨脹因子為d=1,2,4,8。 實(shí)驗(yàn)結(jié)果見(jiàn)表1,在NTU-RGB+D-60數(shù)據(jù)集的CV評(píng)估基準(zhǔn)中,多層堆疊的TCN模塊相較于基準(zhǔn)線(xiàn)的識(shí)別準(zhǔn)確率均有了明顯的提升。其中,二層和四層堆疊TCN模塊相較于基準(zhǔn)線(xiàn)分別提升了0.8%和1.2%,三層堆疊TCN模塊相較于基準(zhǔn)線(xiàn)的識(shí)別準(zhǔn)確率提升了1.4%。結(jié)果表明僅僅使用單一的TCN模塊提取骨骼序列的時(shí)序上下文依賴(lài)關(guān)系是不夠充分的,通過(guò)使用多層時(shí)間膨脹卷積網(wǎng)絡(luò)模塊,并且逐步擴(kuò)大每一層的感受野,使得模型可以兼具提取骨骼數(shù)據(jù)在時(shí)序上的短期與長(zhǎng)期上下文依賴(lài)關(guān)系。

        表1 對(duì)比多層次TCN的識(shí)別準(zhǔn)確率/%

        對(duì)于超參數(shù)λ的取值,本文通過(guò)實(shí)驗(yàn)對(duì)比λ在不同取值的情況下的識(shí)別準(zhǔn)確率來(lái)確定最終的取值。在CV評(píng)估基準(zhǔn)下,選取λ的值分別為0、0.25、0.5、0.75、1,執(zhí)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖4所示,在CV評(píng)估基準(zhǔn)下,網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率隨λ的不同取值變化而變化,當(dāng)λ=0.5時(shí)達(dá)到最佳的識(shí)別準(zhǔn)確率95.8%。根據(jù)λ的取值變化,在CV評(píng)估基準(zhǔn)中模型的識(shí)別準(zhǔn)確率的變化趨勢(shì)符合凸組合理論,因此本文最終選擇0.5作為超參數(shù)λ的取值。

        圖4 λ取值不同時(shí)的實(shí)驗(yàn)結(jié)果對(duì)比

        如表2所示,在NTU-RGB+D-60數(shù)據(jù)集的CS評(píng)估基準(zhǔn)中,在基準(zhǔn)線(xiàn)的基礎(chǔ)上,通過(guò)增加L-GCN模塊,模型的識(shí)別準(zhǔn)確率提升了0.8%;通過(guò)增加M-TCN模塊,模型的識(shí)別準(zhǔn)確率提升了1.5%;通過(guò)增加L-GCN、M-TCN模塊使得本文的模型識(shí)別準(zhǔn)確率提升了1.8%。在CV評(píng)估基準(zhǔn)中,在基準(zhǔn)線(xiàn)的基礎(chǔ)上,通過(guò)增加L-GCN模塊,模型的識(shí)別準(zhǔn)確率提升了0.9%;通過(guò)增加M-TCN模塊,模型的識(shí)別準(zhǔn)確率提升了1.4%;通過(guò)增加L-GCN、M-TCN模塊使得模型的識(shí)別準(zhǔn)確率提升了1.9%。實(shí)驗(yàn)結(jié)果表明,L-GCN模塊提取的局部信息增強(qiáng)了整體模型對(duì)于局部信息變化的感知能力,有效地提升了模型的識(shí)別準(zhǔn)確率。M-TCN模塊通過(guò)多層膨脹卷積,使得網(wǎng)絡(luò)模型在時(shí)序上擁有逐步增大的感受野,因此網(wǎng)絡(luò)模型能兼具提取骨骼數(shù)據(jù)在時(shí)序上的短期和長(zhǎng)期上下文依賴(lài)關(guān)系,使得模型在時(shí)間維度上的信息提取更為充分,進(jìn)一步提升了模型的識(shí)別準(zhǔn)確率。

        表2 消融L-GCN及M-TCN組件的識(shí)別準(zhǔn)確率/%

        在NTU-RGB+D-60數(shù)據(jù)集的CV評(píng)估基準(zhǔn)下,驗(yàn)證集的混淆矩陣如圖5所示。其中,包含47種行為的識(shí)別準(zhǔn)確率高于95%的水平,9種行為的識(shí)別準(zhǔn)確率處于90%~95%的水平,4種行為的識(shí)別準(zhǔn)確率低于90%的水平。標(biāo)簽10對(duì)應(yīng)的行為是“reading”,識(shí)別準(zhǔn)確率為79%,模型錯(cuò)誤地將12%的測(cè)試樣本預(yù)測(cè)為了“writing”。標(biāo)簽11對(duì)應(yīng)的行為是“writing”,識(shí)別準(zhǔn)確率為78%,模型錯(cuò)誤地將8%的測(cè)試樣本預(yù)測(cè)為了“reading”,將9%的測(cè)試樣本預(yù)測(cè)為了“typing on a keyboard”。標(biāo)簽28對(duì)應(yīng)的行為是“make a phone call/answer phone”,識(shí)別準(zhǔn)確率為89%,模型錯(cuò)誤地將3%的測(cè)試樣本預(yù)測(cè)為了“writing”,將3%的測(cè)試樣本預(yù)測(cè)為了“typing on a keyboard”。標(biāo)簽29對(duì)應(yīng)的行為是“typing on a keyboard”,識(shí)別準(zhǔn)確率為81%,模型錯(cuò)誤地將11%的測(cè)試樣本預(yù)測(cè)為了“writing”。由此可見(jiàn),“reading”與“writing”在動(dòng)作上相似度較高,模型對(duì)于這兩種行為的辨識(shí)能力存在一定的誤差。“writing”與“ty-ping on a keyboard”在動(dòng)作上具有較強(qiáng)的相似度,模型對(duì)這兩種行為的區(qū)分能力存在不足之處。整體而言,網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率保持在較高的水平,對(duì)于區(qū)分度較大的行為,如“wear jacket”、“walking towards each other”,能夠達(dá)到100%的識(shí)別準(zhǔn)確率。

        圖5 混淆矩陣

        4.4 與其它方法進(jìn)行比較

        在NTU-RGB+D-60數(shù)據(jù)集上,如表3所示,本文的方法在CS以及CV評(píng)估基準(zhǔn)中分別取得89.3%與95.8%的識(shí)別準(zhǔn)確率。與文獻(xiàn) [3,23~26] 方法相比,本文的方法在兩種評(píng)估基準(zhǔn)中準(zhǔn)確率都有明顯的提升。相較于其它基于CNNs或是RNNs的方法,本文方法的識(shí)別準(zhǔn)確率均有較大的提升。本文方法在與其它基于圖神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行比較時(shí),識(shí)別準(zhǔn)確率也在不同程度上有了提升,與具有代表性的ST-GCN[17]和2s-AGCN[15]相比,本文的方法在CS評(píng)估基準(zhǔn)中識(shí)別準(zhǔn)確率分別提高了7.8%和0.8%,在CV評(píng)估基準(zhǔn)中準(zhǔn)確率分別提高了7.5%和0.7%。與SGN[14]相比,本文的方法在CS和CV評(píng)估基準(zhǔn)中的準(zhǔn)確率分別提升了0.3%和1.3%。

        表3 對(duì)比各方法在NTU-RGB+D-60中的識(shí)別準(zhǔn)確率/%

        在NTU-RGB+D-120數(shù)據(jù)集上,如表4所示,本文的方法在C-Subject與C-Setup兩種評(píng)估基準(zhǔn)中分別取得了79.6%和80.7%的識(shí)別準(zhǔn)確率。與文獻(xiàn)[1,3,24]方法相比,本文的方法的識(shí)別準(zhǔn)確率有了較大的提升。相較于Part-Aware LSTM[1],本文方法的識(shí)別準(zhǔn)確率在兩種評(píng)估基準(zhǔn)中分別提升了54.1%和54.4%。相較于ST-GCN[17],本文的方法在C-Subject評(píng)估基準(zhǔn)和C-Setup評(píng)估基準(zhǔn)中的識(shí)別準(zhǔn)確率分別提高了7.4%和9.2%。與SGN[14]相比,本文的方法在C-Subject評(píng)估基準(zhǔn)中也提升了0.4%的識(shí)別準(zhǔn)確率。

        表4 對(duì)比各方法在NTU-RGB+D-120中的 識(shí)別準(zhǔn)確率/%

        5 結(jié)束語(yǔ)

        本文提出的分層次時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)模型,探討了關(guān)節(jié)的全局與局部信息的共現(xiàn)性,實(shí)現(xiàn)了局部信息增強(qiáng)全局信息的目的,并構(gòu)建了一個(gè)完整的空間信息推理模型。此外,本文通過(guò)使用多層時(shí)間膨脹卷積網(wǎng)絡(luò)提取骨骼數(shù)據(jù)在時(shí)間維度中的上下文依賴(lài)關(guān)系,使得模型可以兼具捕獲短期和長(zhǎng)期的時(shí)序上下文依賴(lài)關(guān)系,加強(qiáng)了模型對(duì)時(shí)間信息的提取能力。本文的模型在NTU-RGB+D-60和NTU-RGB+D-120數(shù)據(jù)集上均取得了較好的識(shí)別準(zhǔn)確率。由于骨骼數(shù)據(jù)對(duì)外觀特征不敏感,導(dǎo)致本文模型識(shí)別諸如“reading”、“writing”等行為易混淆,今后的研究工作可以考慮結(jié)合彩色圖像的外觀特征,提升模型對(duì)外觀敏感動(dòng)作的識(shí)別準(zhǔn)確率。

        猜你喜歡
        骨骼全局準(zhǔn)確率
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        做家務(wù)的女性骨骼更強(qiáng)壯
        中老年保健(2021年5期)2021-12-02 15:48:21
        三減三健全民行動(dòng)——健康骨骼
        中老年保健(2021年5期)2021-08-24 07:06:28
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        骨骼和肌肉
        小布老虎(2017年1期)2017-07-18 10:57:27
        亚洲熟女少妇一区二区三区青久久| 亚洲国产成人va在线观看天堂| 欧美丰满大爆乳波霸奶水多| 国产精品自线在线播放| 久久精品成人一区二区三区蜜臀| 丝袜美腿国产一区二区| 精品国产天堂综合一区在线| 中文无码日韩欧| 九九热在线视频观看这里只有精品| 国产桃色精品网站| 97久久综合精品国产丝袜长腿| 99久久婷婷国产亚洲终合精品| 最新日本一道免费一区二区| 日韩好片一区二区在线看| 91在线区啪国自产网页| 在线观看日本一区二区三区| 日本二一三区免费在线| 六月丁香综合在线视频| 藏春阁福利视频| 国产不卡视频一区二区在线观看| 亚洲女同精品一区二区久久| 国产自拍av在线观看视频| 成人午夜福利视频镇东影视| 98在线视频噜噜噜国产| 亚洲妇女av一区二区| 蜜桃视频在线免费视频| 国产后入清纯学生妹| 国产在线精品一区二区| 国产一线视频在线观看高清| 亚洲一区二区三区18| 日韩女同视频在线网站| 欧洲熟妇色xxxx欧美老妇多毛| 91久久久久无码精品露脸| 有码中文字幕一区二区| 亚洲美女毛多水多免费视频| 免费视频成人片在线观看| 男人和女人高潮免费网站| 国产一区二区三区亚洲天堂| 国产成人一区二区三区影院| 国产av夜夜欢一区二区三区| 欧美国产日本高清不卡|