亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)關(guān)節(jié)點(diǎn)聯(lián)系的ST-GCN行為識別辦法

        2021-05-25 08:07:14李圣京李樹斌
        通信電源技術(shù) 2021年24期
        關(guān)鍵詞:特征結(jié)構(gòu)

        李圣京,李樹斌

        (廣州海格通信集團(tuán)股份有限公司 無人系統(tǒng)技術(shù)創(chuàng)新中心,廣東 廣州 510700)

        0 引 言

        隨著深度學(xué)習(xí)技術(shù)的發(fā)展以及硬件設(shè)備性能的提升,針對視頻識別的研究越受重視[1]。與目標(biāo)檢測等任務(wù)不同,視頻識別任務(wù)不僅需要處理每一幀的特征信息,還需要處理時(shí)序上的特征信息,計(jì)算量也會更大。

        人體行為識別是視頻識別的一個(gè)重要任務(wù),主要是從視頻或圖像序列中分析出人體正在進(jìn)行或即將進(jìn)行的行為動作,在監(jiān)控安防、人機(jī)交互、體育運(yùn)動等領(lǐng)域有重要的實(shí)用性。利用人體行為識別技術(shù)對目標(biāo)自動識別,對監(jiān)控區(qū)域進(jìn)行全區(qū)域、全天時(shí)的實(shí)時(shí)感知,及時(shí)預(yù)警,可極大地降低安防成本,減少人工監(jiān)控可能出現(xiàn)的疲勞、誤報(bào)、漏報(bào)等問題。

        1 現(xiàn)狀分析

        基于人體骨骼關(guān)節(jié)點(diǎn)的行為識別對光照和場景有很好的魯棒性,并且在計(jì)算量和存儲空間上都有很大的優(yōu)勢。人體姿態(tài)信息可以通過姿態(tài)估計(jì)算法或穿戴傳感設(shè)備例如Kinect獲取。時(shí)空卷積神經(jīng)網(wǎng)絡(luò)(Spatial-Temporal Graph Convolution Networks,STGCN)開創(chuàng)了使用圖卷積神經(jīng)網(wǎng)絡(luò)處理姿態(tài)估計(jì)信息并其識別的精度超過了之前的大多數(shù)算法[2]。STGCN通過圖卷積對同一幀的關(guān)節(jié)點(diǎn)位置信息特征提取,通過時(shí)空卷積對同一關(guān)節(jié)連續(xù)幀提取關(guān)節(jié)的運(yùn)動信息。相比于傳統(tǒng)的骨架建模,ST-GCN具有更好的擬合能力和泛化能力。圖1所示為在姿態(tài)估計(jì)關(guān)節(jié)點(diǎn)的基礎(chǔ)上建立的單人的ST-GCN連接示意圖。

        圖1 ST-GCN的連接示意圖

        但是,ST-GCN網(wǎng)絡(luò)只關(guān)注物理連接近的關(guān)鍵點(diǎn),也未考慮物理連接遠(yuǎn)的關(guān)節(jié)點(diǎn)的影響。針對上述的問題,本文借鑒了ST-GCN的思想,創(chuàng)新性提出以下3種辦法,進(jìn)一步提升了人體行為識別任務(wù)的準(zhǔn)確率:(1)通過對特征圖轉(zhuǎn)置,關(guān)節(jié)點(diǎn)放置到通道的維度,利用3層卷積聚集關(guān)節(jié)點(diǎn)的全局信息,提升行為識別的準(zhǔn)確率;(2)提出新的注意力結(jié)構(gòu),通過學(xué)習(xí)的方式獲取兩個(gè)節(jié)點(diǎn)聯(lián)系的強(qiáng)弱;(3)提出使用不平衡多網(wǎng)絡(luò)集成學(xué)習(xí)分支在線監(jiān)督蒸餾行為識別算法,提高模型的精度。

        2 算法設(shè)計(jì)

        2.1 時(shí)空圖卷積模型

        ST-GCN是基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)同時(shí)增加對時(shí)間維度信息的擬合。圖卷積提取關(guān)節(jié)點(diǎn)之間的相對位置信息,時(shí)空卷積對相同關(guān)節(jié)點(diǎn)不同時(shí)間進(jìn)行連接和信息融合,保證關(guān)節(jié)點(diǎn)在時(shí)序過程中動作的連續(xù)性。

        以常見的圖像二維卷積為例,輸出特征圖上任意位置x可以表示為:

        式中,fm大小為h*w*c的特征圖;K為卷積核的大小;采樣函數(shù)p是指以像素x為中心,區(qū)域大小與卷積核大小相同的矩陣特征;w為二維卷積核的權(quán)重值。

        在同一幀姿態(tài)估計(jì)結(jié)果數(shù)據(jù)中,以關(guān)節(jié)點(diǎn)vti為中心點(diǎn),其他關(guān)節(jié)點(diǎn)vtj到vti的最短距離表示為d(vtj,vti)。其中,相鄰的關(guān)節(jié)點(diǎn)間的距離為1。距離越遠(yuǎn)代表兩點(diǎn)之間的物理緊密程度越小。

        設(shè)定距離閾值D,到根節(jié)點(diǎn)vti的最短距離小于的集合為:

        假定采樣函數(shù)p使用D=2的相鄰區(qū)域B(vti),則采樣函數(shù)p(vti,vtj)為:

        2.2 注意力機(jī)制的共現(xiàn)特征學(xué)習(xí)時(shí)空圖卷積模型

        針對ST-GCN缺少遠(yuǎn)距離關(guān)節(jié)點(diǎn)關(guān)聯(lián)的不足,本文在ST-GCN的基礎(chǔ)上,提出了一個(gè)如圖2所示以圖卷積網(wǎng)絡(luò)為基礎(chǔ)、引入新的注意力機(jī)制和共現(xiàn)特征學(xué)習(xí)、在線蒸餾結(jié)構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu)[3]。

        如圖2主干網(wǎng)絡(luò)所示,本網(wǎng)絡(luò)結(jié)構(gòu)包含10個(gè)圖3所示的ATG結(jié)構(gòu),ATG結(jié)構(gòu)類似于ST-GCN中的時(shí)空卷積單元結(jié)構(gòu),該結(jié)構(gòu)先通過注意力掩碼與圖卷積的鄰接矩陣相加,使用一個(gè)卷積核大小與為5×9圖卷積提取相同一幀的關(guān)節(jié)點(diǎn)特征,再通過時(shí)空卷積對于不同時(shí)序同一關(guān)節(jié)點(diǎn)進(jìn)行卷積,最后通過殘差的方式與輸入的特征進(jìn)行融合,實(shí)現(xiàn)特征的跨區(qū)域提??;注意力機(jī)制的改變具體可查看2.2.2節(jié);COF結(jié)構(gòu)即為共現(xiàn)特征單元結(jié)構(gòu),具體可查看2.2.1節(jié);在第五個(gè)ATG結(jié)構(gòu)和第八個(gè)AGT結(jié)構(gòu)后使用步長為2的卷積對特征下采樣。本文所述模型的前4個(gè)ATG結(jié)構(gòu)的輸出通道均為64,第五個(gè)到第七個(gè)ATG結(jié)構(gòu)的輸出通道均為128,后面3個(gè)ATG結(jié)構(gòu)的輸出通道數(shù)均為256;對最后一個(gè)ATG的輸出特征圖,通過平均池化操作和全連接層計(jì)算,對全連接層輸出的特征圖通過Softmax分類器完成對動作的分類。

        圖2 多任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        圖3 AGT結(jié)構(gòu)示意圖

        2.2.1 共現(xiàn)特征學(xué)習(xí)結(jié)構(gòu)

        一個(gè)行為動作不僅僅與物理相鄰的關(guān)節(jié)點(diǎn)相關(guān),也有可能與其他相鄰很遠(yuǎn)的關(guān)節(jié)點(diǎn)有關(guān)系。直覺上,“行走”這個(gè)動作,手與腳的聯(lián)系比較大;“舉著”這個(gè)動作,左手與右手的動作聯(lián)系較大。在ST-GCN中,手與腳的距離或者左右手腕的距離較遠(yuǎn),聯(lián)系很小,不能學(xué)習(xí)到很好的協(xié)調(diào)動作?;诖?,本文提出一種如圖4所示共現(xiàn)特征學(xué)習(xí)(COF)模塊,通過將所有關(guān)鍵點(diǎn)信息轉(zhuǎn)置到同一維度,經(jīng)過3層2d卷積與Relu激活后,再轉(zhuǎn)置回原有的輸入形狀,與輸入的特征圖在對應(yīng)的元素相加作為輸出。

        圖4 共現(xiàn)特征學(xué)習(xí)結(jié)構(gòu)

        具體而言,對于同一個(gè)人,一個(gè)T幀時(shí)序范圍,N個(gè)骨骼關(guān)節(jié)點(diǎn),每個(gè)關(guān)節(jié)點(diǎn)有C種特征的骨骼序列可表示為一個(gè)尺寸是C×T×N×1的張量Fin。首先將張量轉(zhuǎn)置為T×(C×N),通過3層大小均為1*1,步長為1,通道數(shù)分別為64、128、(C×N)的卷積核計(jì)算,對卷積結(jié)果轉(zhuǎn)置到后與Fin。相同形狀得到F1,通過對應(yīng)元素相加的方式得到輸出Fout:

        2.2.2 注意力模塊

        由公式(9)可以看出,在ST-GCN網(wǎng)絡(luò)中,時(shí)空卷積單元結(jié)構(gòu)首先由一個(gè)可學(xué)習(xí)的注意力掩碼Mk是與鄰接矩陣Ak直接元素相乘,這就意味著,對于某些需要兩個(gè)物理連接很遠(yuǎn)的關(guān)節(jié)協(xié)調(diào)的動作,雖然兩個(gè)關(guān)節(jié)的聯(lián)系很大,但是圖上沒有直接相連,鄰接矩陣對應(yīng)的參數(shù)為0。此時(shí)注意力掩碼Mk并不能學(xué)習(xí)到兩者之間的聯(lián)系。

        針對ST-GCN的注意力機(jī)制靈活性不夠的缺點(diǎn),本文在T-GCN的基礎(chǔ)上,提出另外一種注意力機(jī)制方式。

        具體而言,與ST-GCN的注意力機(jī)制類似,本文構(gòu)建一個(gè)訓(xùn)練的權(quán)重Mk,權(quán)重形狀與鄰接矩陣Ak一致。與ST-GCN不同,注意力掩碼Mk并不是直接與鄰接矩陣Ak對應(yīng)元素點(diǎn)乘,而是對應(yīng)元素相加。Mk中的參數(shù)并不會進(jìn)行歸一化等任何約束條件,完全是從數(shù)據(jù)學(xué)習(xí)過來的參數(shù),因此不僅能學(xué)習(xí)兩個(gè)節(jié)點(diǎn)是否存在聯(lián)系,還能表示聯(lián)系的強(qiáng)弱。

        新的圖卷積的表達(dá)由公式(9)演變?yōu)椋?/p>

        2.2.3 多網(wǎng)絡(luò)分支集成在線蒸餾學(xué)習(xí)

        常見的蒸餾學(xué)習(xí)需要先訓(xùn)練大網(wǎng)絡(luò),訓(xùn)練完畢的大型網(wǎng)絡(luò)作為教師網(wǎng)絡(luò),讓小網(wǎng)絡(luò)學(xué)習(xí)逼近教師網(wǎng)絡(luò)的輸出分布。集成學(xué)習(xí)是通過訓(xùn)練若干個(gè)基學(xué)習(xí)器(base learner),通過一定的結(jié)合策略,最終形成一個(gè)強(qiáng)學(xué)習(xí)器,達(dá)到博采眾長的目的。集成學(xué)習(xí)的效果往往比基學(xué)習(xí)器效果好。

        本文創(chuàng)新性地提出多網(wǎng)絡(luò)分支集成學(xué)習(xí)進(jìn)行蒸餾學(xué)習(xí)。通過在網(wǎng)絡(luò)的不同位置增加兩個(gè)結(jié)構(gòu)不一致的額外輸出分支,對不同分支的輸出結(jié)果集成,達(dá)到蒸餾學(xué)習(xí)中教師網(wǎng)絡(luò)輸出的結(jié)果。在訓(xùn)練過程中,分支的集成結(jié)果可以作為教師網(wǎng)絡(luò)的輸出結(jié)果,對3個(gè)分支學(xué)生分支輸出的結(jié)果分別蒸餾。在推理過程中,通過去掉其余兩個(gè)分支,只保留主干結(jié)構(gòu),減少運(yùn)算量,加快推理速度。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        具體而言,本文在第四個(gè)、七個(gè)AGT模塊之后各增加一個(gè)與主干網(wǎng)絡(luò)結(jié)構(gòu)不一的分支結(jié)構(gòu),每個(gè)分支單獨(dú)計(jì)算損失,教師網(wǎng)絡(luò)的輸出結(jié)果通過3個(gè)分支輸出的結(jié)果平均加權(quán)集成,如表達(dá)式(12)。

        直接使用Fteacher的輸出結(jié)果進(jìn)行Softmax對于正確的答案會有一個(gè)很高的置信度,不利于學(xué)習(xí)到集成結(jié)果的相似信息。本文使用Softmax-T激活函數(shù),通過控制T的大小從而控制網(wǎng)絡(luò)的學(xué)習(xí)能力,公式如(13)所示:

        式中,qi是每個(gè)分支網(wǎng)絡(luò)學(xué)習(xí)的對象;zi是前的輸出象;T是溫度參數(shù),通過控制T的大小決定蒸餾學(xué)習(xí)的平滑程度。如果將T取值1,則該公式退化為Softmax函數(shù);T越大,輸出結(jié)果的分布越平滑,保留相似信息越多。本文中取值為2。

        本模型的損失函數(shù)計(jì)算公式為:

        式中,CE是交叉熵(Cross Entropy)函數(shù);y是真實(shí)標(biāo)簽的one-hot編碼;q是集成教師網(wǎng)絡(luò)的輸出結(jié)果;p是每個(gè)學(xué)生分支的輸出結(jié)果。

        通過本文所提供的辦法無需訓(xùn)練額外的教師網(wǎng)絡(luò)也可以達(dá)到蒸餾學(xué)習(xí)的效果,有效提升行為識別模型的準(zhǔn)確性。

        3 實(shí)驗(yàn)與分析

        3.1 公開數(shù)據(jù)集介紹

        Kinetics-skeleton 數(shù)據(jù)集[4]與 NTU-RGB+D 數(shù)據(jù)集[5]是基于姿態(tài)估計(jì)進(jìn)行行為識別的兩個(gè)重要數(shù)據(jù)集。

        Kinetics數(shù)據(jù)集包含網(wǎng)上收集的約30萬個(gè)視頻片段,涵蓋多達(dá)700個(gè)人類動作,是目前數(shù)量最大的無約束動作識別數(shù)據(jù)集。Yan[6]等使用OpenPose姿態(tài)估計(jì)算法在該數(shù)據(jù)集上視頻中獲得每一幀圖像中每個(gè)人的關(guān)節(jié)點(diǎn)坐標(biāo)與置信度,記錄為(x,y,c),每一幀保留置信度最高2個(gè)人的數(shù)據(jù)。該數(shù)據(jù)集包含了24萬個(gè)訓(xùn)練集數(shù)據(jù)與2萬驗(yàn)證集數(shù)據(jù)。

        NTU-RGB+D數(shù)據(jù)集是南洋理工大學(xué)通過3個(gè)Microsoft Kinect v2傳感器的骨骼跟蹤技術(shù)與3個(gè)不同角度的攝像機(jī)采集得到,涵蓋60個(gè)種類的動作,包括40類日常行為動作,9類健康相關(guān)的行為動作,11類多人行為動作。共計(jì)56 880個(gè)樣本。NTURGB+D數(shù)據(jù)集分為X-Sub子數(shù)據(jù)集與X-View 子數(shù)據(jù)集。X-Sub子數(shù)據(jù)集包括40 320個(gè)訓(xùn)練數(shù)據(jù)和16 560個(gè)測試數(shù)據(jù),其中訓(xùn)練集來自同一個(gè)演員子集,測試數(shù)據(jù)來自其余的演員。X-View子數(shù)據(jù)集包含37 920個(gè)訓(xùn)練數(shù)據(jù)和18 960個(gè)測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)是按照攝影機(jī)的ID劃分。

        3.2 模型訓(xùn)練和測試結(jié)果

        本文在Kinetics-skeleton數(shù)據(jù)集和數(shù)據(jù)集上進(jìn)行模型訓(xùn)練和測試,本文使用1塊1080ti 的顯卡,顯存大小為11 GB,CPU 為Intel Xeon(R) silver 4210 CPU@2.2GHZ*40,訓(xùn)練系統(tǒng)環(huán)境為ubuntu16.08,CUDA環(huán)境為10.2,CUDNN環(huán)境為7.6.5,深度學(xué)習(xí)框架為pytorch1.6,優(yōu)化器為SGD ,動量設(shè)置為0.9,權(quán)重衰減為10-5。初始學(xué)習(xí)率為10-2,使用余弦退火的學(xué)習(xí)率變化策略。訓(xùn)練的批次大小為64,一共迭代200 000次。在Kinetics-skeleton 數(shù)據(jù)集的表現(xiàn)與其他算法對比如表1[5,7]:

        表1 本文算法與其他算法在Kinetics-skeleton 數(shù)據(jù)集準(zhǔn)確率對比

        使用相同配置訓(xùn)練NTU-RGB+D數(shù)據(jù)集,在NTU-RGB+D數(shù)據(jù)集表現(xiàn)與其他算法對比如表2[8]。

        表2 本文算法與其他算法在NTU-RGB+D 數(shù)據(jù)集準(zhǔn)確率對比

        4 結(jié) 論

        本文提供了一種以時(shí)空圖卷積網(wǎng)絡(luò)為基礎(chǔ)、引入了注意力機(jī)制和共現(xiàn)特征學(xué)習(xí)結(jié)構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu),通過增強(qiáng)不同關(guān)節(jié)之間的聯(lián)系,提升行為識別模型的精度。同時(shí)提供一種在線蒸餾學(xué)習(xí)的方式增強(qiáng)模型的泛化能力。本文提供的模型在Kinetics-skeleton數(shù)據(jù)集上取得31.25%的Top-1 精度與53.45%的Top-5性能精度,相比于原版的ST-GCN算法,Top-1和Top-5分別提升了0.44%和0.65%。本文提供的模型在NTU-RGB+D的子數(shù)據(jù)集X-Sub取得86.7%的Top-1精度,在NTU-RGB+D的子數(shù)據(jù)集X-View取得94.6%的Top-1精度,對比于原版的ST-GCN算法,提升了5.2%和 6.3%。證明了引入注意力機(jī)制和共現(xiàn)特征學(xué)習(xí)機(jī)制增強(qiáng)模型的感受野,以及使用蒸餾學(xué)習(xí)能增強(qiáng)ST-GCN算法的性能。

        猜你喜歡
        特征結(jié)構(gòu)
        抓住特征巧觀察
        《形而上學(xué)》△卷的結(jié)構(gòu)和位置
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        如何表達(dá)“特征”
        論結(jié)構(gòu)
        中華詩詞(2019年7期)2019-11-25 01:43:04
        新型平衡塊結(jié)構(gòu)的應(yīng)用
        模具制造(2019年3期)2019-06-06 02:10:54
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        論《日出》的結(jié)構(gòu)
        創(chuàng)新治理結(jié)構(gòu)促進(jìn)中小企業(yè)持續(xù)成長
        蜜桃视频在线免费观看一区二区| 俺去俺来也在线www色官网| 女人色毛片女人色毛片18| 欧美日韩精品一区二区三区高清视频| 91在线观看国产自拍| 我要看免费久久99片黄色| 日韩人妻一区二区三区蜜桃视频| 久久久久久久99精品国产片| 爆乳午夜福利视频精品| 久久精品亚洲精品国产区| 无码人妻h动漫中文字幕| 亚洲欧美日韩一区二区三区在线 | 女人张开腿让男桶喷水高潮| 日韩一级特黄毛片在线看| 黑人巨大亚洲一区二区久| 夜夜高潮夜夜爽免费观看| 免费观看羞羞视频网站| 久久精品国产亚洲av成人| 人妻中文字幕一区二区二区| 午夜男女靠比视频免费| 一本色道久久88亚洲精品综合| 亚洲不卡中文字幕无码| 国产亚洲精品日韩香蕉网 | 又硬又粗进去好爽免费| 久久久精品456亚洲影院| 国产精品久久久久孕妇| 91国内偷拍精品对白| 欧美黑人又大又粗xxxxx| 无码久久精品国产亚洲av影片| 99福利影院| 亚洲一区二区三区激情在线观看| 国产精品99精品无码视亚| 伊人网视频在线观看| 亚洲人妻有码中文字幕| 91精品亚洲成人一区二区三区| 欧美性猛交xxxx乱大交3| 中字无码av电影在线观看网站| 国产麻豆精品久久一二三| 日本视频在线播放一区二区| 永久黄网站色视频免费看| 亚洲欧美日韩精品高清|