亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ARGP-Pose:基于關(guān)鍵點(diǎn)間關(guān)系分析與分組預(yù)測(cè)的3D人體姿態(tài)估計(jì)

        2022-12-31 00:00:00黃程遠(yuǎn)宋曉寧馮振華

        摘 要:盡管3D人體姿態(tài)估計(jì)已經(jīng)相對(duì)成功,但現(xiàn)存方法在復(fù)雜場(chǎng)景下的性能依然差強(qiáng)人意。為了提高在無(wú)約束場(chǎng)景下3D人體姿態(tài)估計(jì)的準(zhǔn)確性以及魯棒性,提出了ARGP-Pose,一種基于探索關(guān)鍵點(diǎn)間關(guān)系的單目視頻3D人體姿態(tài)估計(jì)框架。該框架包含一種關(guān)鍵點(diǎn)信息預(yù)處理方式以及3D姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。關(guān)鍵點(diǎn)預(yù)處理能夠強(qiáng)化結(jié)構(gòu)特征,抽取出關(guān)鍵點(diǎn)之間聯(lián)系信息,并作為網(wǎng)絡(luò)輸入。3D姿態(tài)估計(jì)網(wǎng)絡(luò)能夠融合各個(gè)關(guān)鍵點(diǎn)的局部信息以及整體姿態(tài)的全局信息。此外,利用自注意力模塊來(lái)提取有效時(shí)序信息,以進(jìn)一步提高預(yù)測(cè)準(zhǔn)確度。而對(duì)于復(fù)雜姿態(tài),采用了分組預(yù)測(cè)的方式將復(fù)雜動(dòng)作的預(yù)測(cè)分解為各個(gè)點(diǎn)的預(yù)測(cè),從而使網(wǎng)絡(luò)對(duì)復(fù)雜姿態(tài)的估計(jì)能力有了明顯的提高。在Human3.6M和HumanEva-I這兩個(gè)著名數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了所提出的方法的優(yōu)越性。

        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);分組卷積;三維人體姿態(tài)估計(jì);關(guān)鍵點(diǎn)間關(guān)系;自注意力

        中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1001-3695(2022)07-042-2178-05

        doi:10.19734/j.issn.1001-3695.2021.11.0618

        基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61876072);江蘇省“六大人才高峰項(xiàng)目”(XYDXX-012);江蘇省研究生科研與實(shí)踐創(chuàng)新計(jì)劃項(xiàng)目(SJCX20_0776)

        作者簡(jiǎn)介:黃程遠(yuǎn)(1997-),男,江蘇南通人,碩士,主要研究方向?yàn)?D人體姿態(tài)估計(jì);宋曉寧(1975-),男(通信作者),江蘇南京人,教授,博導(dǎo),博士,主要研究方向?yàn)槿斯ぶ悄芘c模式識(shí)別(x.song@jiangnan.edu.cn);馮振華(1984-),男,助理教授,博士,主要研究方向?yàn)槟J阶R(shí)別、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí).

        ARGP-Pose:3D human pose estimate based on analysis of relationship between

        joint points and group prediction

        Huang Chengyuan1,Song Xiaoning1?,F(xiàn)eng Zhenhua2

        (1.School of Artificial Intelligence amp; Computer Science,Jiangnan University,Wuxi Jiangsu 214122,China;2.Dept.of Computer Science,University of Surrey,Guildford GU2 7XH,UK)

        Abstract:The research in 3D human pose estimation from 2D images has achieved great success in recent years.However,the performance of existing 3D human pose estimation methods may degrade significantly in complicated scenarios.To improve the accuracy and robustness of 3D human pose estimation in unconstrained scenarios,this paper proposed ARGP-Pose,a monocular 3D pose estimation framework by exploring the relationship between the joint points of a 3D human pose.To be more specific,the proposed method included a new joint point preprocessing method and a 3D pose estimation network.The preprocessing method enhanced structural features and extracted the relationship among joint points,which were used as input of the following pose estimation network.Also,the proposed network fused local information of each joint point and the global information of the overall pose for rich feature extraction.Additionally,the proposed method extracted the temporal information by using a self-attention module,which achieved further performance boost.Last,for a complex human pose,this method decomposed the prediction of the whole pose into the prediction of each point,which again improved the estimation accuracy for human bodies with complex pose variations.The experimental results obtained on several well-known benchmarking datasets,such as Human3.6M and HumanEva-I,demonstrate the merits and superiority of the proposed method.

        Key words:convolutional neural network; group convolution; 3D human pose estimation; relationship between joint points; self-attention

        0 引言

        人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要分支,隨著技術(shù)的發(fā)展,被廣泛應(yīng)用于各個(gè)領(lǐng)域,如人機(jī)交互、增強(qiáng)現(xiàn)實(shí)、影視動(dòng)畫等。該領(lǐng)域有著很大的發(fā)展前景,從最早的2D姿態(tài)估計(jì)到近年來(lái)的3D姿態(tài)估計(jì),領(lǐng)域內(nèi)大量的研究者已經(jīng)在這方面進(jìn)行了大量的工作。盡管如此,基于單目攝像頭的3D人體姿態(tài)估計(jì)依然難點(diǎn)重重,極具挑戰(zhàn)性。從幾何角度來(lái)說(shuō),一種2D姿態(tài)對(duì)應(yīng)著多種3D姿態(tài);從圖像角度來(lái)說(shuō),光照不均、姿態(tài)遮擋、視角反常等因素也為預(yù)測(cè)增加了難度。除此以外,數(shù)據(jù)集稀缺也是本領(lǐng)域發(fā)展的一大難點(diǎn),現(xiàn)有數(shù)據(jù)集大部分在實(shí)驗(yàn)室環(huán)境下制作,不僅缺少?gòu)?fù)雜動(dòng)作,而且背景環(huán)境單一。使用這樣的數(shù)據(jù)集訓(xùn)練得到的模型往往泛化性較差,難以應(yīng)用于實(shí)際的場(chǎng)景。

        隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展[1,2,Li等人[3在2014年首次將神經(jīng)網(wǎng)絡(luò)應(yīng)用到3D姿態(tài)估計(jì)中。而后Chen等人[4提出將3D姿態(tài)估計(jì)拆分為2D姿態(tài)估計(jì)以及2D關(guān)鍵點(diǎn)與3D關(guān)鍵點(diǎn)間的匹配兩個(gè)任務(wù),該方法只能將圖片與數(shù)據(jù)庫(kù)中的某個(gè)姿態(tài)相匹配,因此在應(yīng)用上有著較大的限制。

        隨著2D姿態(tài)估計(jì)[5~7的不斷發(fā)展與突破,Martinez等人[8提出了直接從2D關(guān)鍵點(diǎn)生成3D姿態(tài)的方法,以此將圖像噪聲、光照、遮擋等影響濾除,只考慮2D關(guān)鍵點(diǎn)與3D關(guān)鍵點(diǎn)之間的映射。相比于用圖片直接預(yù)測(cè)3D姿態(tài),該方法使用2D關(guān)鍵點(diǎn)作為中間監(jiān)督,往往能得到更準(zhǔn)確的結(jié)果。

        盡管3D姿態(tài)估計(jì)的方法[9~14層出不窮,但是此類方法大多專注于單張圖片的預(yù)測(cè),當(dāng)應(yīng)用于視頻數(shù)據(jù)時(shí),抖動(dòng)、不連貫等問(wèn)題相繼產(chǎn)生。為此,研究者們引入了時(shí)序信息15~17,以提高視頻流中各個(gè)動(dòng)作的連貫性,但這并不能有效提高模型對(duì)復(fù)雜動(dòng)作的預(yù)測(cè)能力。由于人體動(dòng)作豐富多變,并且數(shù)據(jù)集內(nèi)姿態(tài)多樣性不足,所以對(duì)于復(fù)雜動(dòng)作的預(yù)測(cè),除時(shí)序信息外,姿態(tài)的結(jié)構(gòu)信息也尤為重要。SRNet[18根據(jù)身體的不同部位來(lái)分割關(guān)鍵點(diǎn)序列,從而更好地提取關(guān)鍵點(diǎn)的結(jié)構(gòu)信息,以此優(yōu)化模型對(duì)復(fù)雜動(dòng)作的預(yù)測(cè)效果。

        對(duì)于結(jié)構(gòu)信息,本文提出了一種新的想法。每一種姿態(tài)的關(guān)鍵點(diǎn)之間都有密切的聯(lián)系,例如走路、吃飯等姿態(tài)就需要四肢協(xié)同進(jìn)行運(yùn)動(dòng),各個(gè)關(guān)鍵點(diǎn)的運(yùn)動(dòng)狀態(tài)、位置信息之間都有著密切的聯(lián)系。如圖1所示,每一根虛線都代表著一種隱性關(guān)系。然而現(xiàn)有的方法往往忽略了這些信息,直接將2D關(guān)鍵點(diǎn)輸入到網(wǎng)絡(luò)中,使網(wǎng)絡(luò)在預(yù)測(cè)過(guò)程中無(wú)法很好地關(guān)注結(jié)構(gòu)信息。本文提出一種關(guān)鍵點(diǎn)重組的預(yù)處理方式,旨在強(qiáng)化張量對(duì)結(jié)構(gòu)信息的表示,增強(qiáng)網(wǎng)絡(luò)對(duì)結(jié)構(gòu)信息的注意力,通過(guò)這種方法提高姿態(tài)估計(jì)的準(zhǔn)確性。

        此外,直接使用全連接網(wǎng)絡(luò)回歸預(yù)測(cè)3D姿態(tài)的方式不利于提高網(wǎng)絡(luò)的泛化能力,使得網(wǎng)絡(luò)過(guò)分依賴于數(shù)據(jù)集中的現(xiàn)有姿態(tài),因而難以處理復(fù)雜動(dòng)作。本文方法拆分了所有關(guān)鍵點(diǎn),分組預(yù)測(cè)每個(gè)關(guān)鍵點(diǎn)的位置,將復(fù)雜姿態(tài)的預(yù)測(cè)任務(wù)拆分成多個(gè)單關(guān)鍵點(diǎn)預(yù)測(cè)的簡(jiǎn)單子任務(wù)。最后,本文將子任務(wù)得到的單個(gè)關(guān)鍵點(diǎn)組合得到完整的3D姿態(tài),打破網(wǎng)絡(luò)在整體預(yù)測(cè)過(guò)程中姿態(tài)對(duì)關(guān)鍵點(diǎn)位置的限制,從而提高預(yù)測(cè)復(fù)雜動(dòng)作的準(zhǔn)確率。此外,為增強(qiáng)時(shí)序信息的提取,本文在VideoPose[19的基礎(chǔ)上在時(shí)序卷積神經(jīng)網(wǎng)絡(luò)中加入了在自然語(yǔ)言處理領(lǐng)域20,21中獲得巨大成功的自注意力機(jī)制22。

        為了驗(yàn)證本網(wǎng)絡(luò)框架的有效性,本文在數(shù)據(jù)集Human-3.6M[23和HumanEva-I[24上分別進(jìn)行了實(shí)驗(yàn)。在Human3.6M中,結(jié)果相比于VideoPose有了約5%的提升;在HumanEva-I中的預(yù)測(cè)效果也有明顯改善。實(shí)驗(yàn)結(jié)果充分表明,本文方法在3D姿態(tài)估計(jì)任務(wù)中有較高的準(zhǔn)確率和魯棒性。

        1 方法介紹

        本文提出的ARGP-Pose 3D人體姿態(tài)估計(jì)框架主要包括兩部分,關(guān)鍵點(diǎn)重組配對(duì)以及時(shí)序卷積神經(jīng)網(wǎng)絡(luò),如圖2所示。對(duì)于給定的2D關(guān)鍵點(diǎn)序列,每個(gè)姿態(tài)都包含N個(gè)關(guān)鍵點(diǎn),這些點(diǎn)在第一部分先進(jìn)行兩兩合并重組,得到N組數(shù)據(jù),每一組數(shù)據(jù)都包含一個(gè)關(guān)鍵點(diǎn)與其他關(guān)鍵點(diǎn)之間的空間關(guān)系,然后再分組抽取特征。經(jīng)過(guò)重組以后,輸入到時(shí)序神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)相比于原始數(shù)據(jù)更強(qiáng)調(diào)了關(guān)鍵點(diǎn)間的關(guān)系。在得到N組關(guān)系特征以后,將其輸入到第二部分時(shí)序神經(jīng)網(wǎng)絡(luò)模型中,然后分別預(yù)測(cè)N個(gè)關(guān)鍵點(diǎn)的3D坐標(biāo)。在預(yù)測(cè)過(guò)程中,各組將自己的局部信息與其他組的全局信息相融合,充分挖掘各個(gè)關(guān)鍵點(diǎn)中可能存在的空間關(guān)系。同時(shí)本文加入自注意力模塊來(lái)強(qiáng)化網(wǎng)絡(luò)對(duì)時(shí)間信息的提取,以此增強(qiáng)網(wǎng)絡(luò)對(duì)3D人體姿態(tài)的預(yù)測(cè)能力。

        1.1 關(guān)鍵點(diǎn)重組

        輸入到網(wǎng)絡(luò)中的2D關(guān)鍵點(diǎn)的張量大小是(T,N,2)。其中T是2D關(guān)鍵點(diǎn)序列的序列長(zhǎng)度,N是序列中每一幀的關(guān)鍵點(diǎn)個(gè)數(shù),2代表橫縱兩個(gè)坐標(biāo)值。這里用單幀數(shù)據(jù)來(lái)介紹關(guān)鍵點(diǎn)重組方式。關(guān)鍵點(diǎn)重組方式為兩兩配對(duì),其中每個(gè)關(guān)鍵點(diǎn)分別與其他N-1個(gè)關(guān)鍵點(diǎn)兩兩組合。圖3展示了第n個(gè)關(guān)鍵點(diǎn)的重組方式。輸入數(shù)據(jù)的維度是(N,2),中心關(guān)鍵點(diǎn)n分別與其他關(guān)鍵點(diǎn)兩兩拼接,得到N-1個(gè)組合,每個(gè)組合有兩個(gè)(x,y)坐標(biāo)數(shù)據(jù)。將其展開以后得到N-1組長(zhǎng)度為4的一維數(shù)據(jù),再利用全連接層對(duì)每組數(shù)據(jù)分別進(jìn)行信息抽取,得到了N- 1個(gè)關(guān)系信息,每個(gè)長(zhǎng)度為4。

        這些信息就是第n個(gè)關(guān)鍵點(diǎn)與其他關(guān)鍵點(diǎn)間關(guān)系特征。然而對(duì)于該點(diǎn)來(lái)說(shuō),并非所有關(guān)系都重要,假設(shè)第n個(gè)點(diǎn)是右手,那么相比于右腳或左腳等其他點(diǎn),可能右手手肘與它的關(guān)系更強(qiáng)。為了找到每個(gè)關(guān)系的強(qiáng)弱性,在輸入到時(shí)序卷積神經(jīng)網(wǎng)絡(luò)之前,每個(gè)關(guān)鍵點(diǎn)間關(guān)系都會(huì)進(jìn)行一次加權(quán)操作以強(qiáng)調(diào)關(guān)系的強(qiáng)弱程度。

        每個(gè)關(guān)鍵點(diǎn)經(jīng)過(guò)重組以后的維度是(1,1×(N-1) ×4),前一個(gè)1表示一幀,后一個(gè)1表示1組結(jié)構(gòu)特征,每組有N -1個(gè)關(guān)系,每個(gè)關(guān)系的維度是4。為了給每一個(gè)關(guān)系的值進(jìn)行加權(quán),結(jié)構(gòu)特征需要得到一個(gè)與其大小相等的權(quán)重矩陣W。其計(jì)算方法如式(1)所示,其中X是一組結(jié)構(gòu)特征,f是一個(gè)全連接線性變換。

        W=1ef(X)-1(1)

        在得到權(quán)重矩陣以后,將其與X元素相乘,最終得到關(guān)鍵點(diǎn)重組模塊的輸出。在每一幀數(shù)據(jù)都進(jìn)行重組以后,得到一個(gè)大小為(T,N×(N-1)×4)的張量,數(shù)據(jù)一共有T幀,每一幀有N組結(jié)構(gòu)特征,對(duì)應(yīng)N個(gè)關(guān)節(jié)點(diǎn)。每一組結(jié)構(gòu)特征由N-1個(gè)關(guān)系特征組成,每一個(gè)關(guān)系特征長(zhǎng)度為4。

        1.2 局部與全局的融合

        在以往的研究中,對(duì)于一個(gè)2D姿態(tài),研究者們往往利用全連接來(lái)進(jìn)行姿態(tài)預(yù)測(cè)。數(shù)據(jù)經(jīng)過(guò)幾個(gè)全連接卷積層后得到3D輸出。在利用2D姿態(tài)序列的時(shí)序卷積神經(jīng)網(wǎng)絡(luò)中,本文稱這種全連接的方式為全局卷積。

        數(shù)據(jù)經(jīng)過(guò)重組后,每一幀有N組結(jié)構(gòu)特征,每組特征都包含預(yù)測(cè)對(duì)應(yīng)關(guān)鍵點(diǎn)所需的大部分信息。因此本文采用一種分組全連接的方式,每組只預(yù)測(cè)一個(gè)關(guān)鍵點(diǎn),以降低整體姿態(tài)對(duì)單個(gè)關(guān)鍵點(diǎn)的約束,如圖4(a)所示。圖中每一個(gè)粗線方格代表一組數(shù)據(jù),一共有三個(gè)組。每組數(shù)據(jù)只與本組數(shù)據(jù)進(jìn)行全連接。每一個(gè)全連接操作都針對(duì)本組的局部信息,將這種分組全連接的方式應(yīng)用到時(shí)序卷積中后,本文稱這種卷積方式為局部卷積。

        盡管分組全連接輸出的每組數(shù)據(jù)都包含了預(yù)測(cè)一個(gè)關(guān)鍵點(diǎn)所需的大部分信息,但這些信息只強(qiáng)調(diào)了本組所對(duì)應(yīng)的關(guān)鍵點(diǎn),大部分其他關(guān)鍵點(diǎn)重要的信息往往被忽略掉了。而如圖4(b)所示,全連接中每組輸出都由所有組計(jì)算得來(lái),因此,這些數(shù)據(jù)包含著全局信息。為了能更好地表示姿態(tài)特征,本文采用局部與全局融合的方式來(lái)增強(qiáng)信息表示能力。

        如圖4(c)所示,本文采用拼接的方式進(jìn)行信息融合,分別將局部信息和全局信息兩兩拼接組合成新的組,每個(gè)組的通道數(shù)在融合以后變成之前的兩倍。這些新組成的小組包含了局部信息與全局信息。

        1.3 自注意力提取時(shí)序信息

        本文利用2D關(guān)節(jié)點(diǎn)序列來(lái)預(yù)測(cè)3D姿態(tài),其中一個(gè)3D姿態(tài)往往由數(shù)個(gè)2D姿態(tài)預(yù)測(cè)得到。盡管時(shí)序卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠較好地提取時(shí)序信息,并且相比于LSTM,不會(huì)產(chǎn)生梯度消失或梯度爆炸等問(wèn)題,但是,它只能籠統(tǒng)地提取每一幀信息,而不能作出一些篩選。有些動(dòng)作和目標(biāo)動(dòng)作更接近,對(duì)于預(yù)測(cè)正確姿態(tài)的貢獻(xiàn)可能更大,所以應(yīng)該給予其更高的權(quán)重。在這里本文使用自注意力模塊來(lái)進(jìn)行時(shí)序信息的強(qiáng)化。自注意力模塊輸入為X,計(jì)算方式如下:

        a)通過(guò)三個(gè)全連接層對(duì)每一幀數(shù)據(jù)計(jì)算得到Q、K以及V。

        Q=f1(X),K=f2(X),V=f3(X)(2)

        b)將Q和每個(gè)K進(jìn)行相似度計(jì)算得到初始權(quán)重W1,其中dk表示每幀數(shù)據(jù)的長(zhǎng)度。所計(jì)算出的權(quán)重矩陣大小為(T,T),其中T是時(shí)序序列長(zhǎng)度。在利用自注意力進(jìn)行時(shí)序信息融合時(shí),W中每個(gè)元素Wij代表生成第i幀特征時(shí)第j幀特征所占的權(quán)重。

        c)對(duì)權(quán)重矩陣進(jìn)行遮蓋,對(duì)每一幀特征只保留其本身以及中心幀的權(quán)重。再使用一個(gè)softmax函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化得到最終權(quán)重。

        W2=softmax(mask(W1))(4)

        d)將權(quán)重W2和相應(yīng)的鍵值V進(jìn)行加權(quán)求和得到新的V;最后通過(guò)一個(gè)全連接層得到一個(gè)張量,與輸入元素相加后得到新的Xout作為輸出

        Xout=f(W2×V)+X(5)

        在計(jì)算Q、K、V時(shí),為了精煉特征信息,同時(shí)為了降低參數(shù)量與顯存占用量,在經(jīng)過(guò)全連接層時(shí)進(jìn)行降維,張量的尺寸從(T,T×(N-1)×4)變成(T,T×(N-1) ×2),對(duì)應(yīng)的在最后一個(gè)全連接層進(jìn)行升維。

        在預(yù)測(cè)姿態(tài)時(shí),目的是預(yù)測(cè)序列中心的3D姿態(tài),因此對(duì)每一幀數(shù)據(jù)來(lái)說(shuō),其本身特征以及中心幀特征才是最重要的,只需將這兩者融合,本文利用掩模將其他信息濾除。對(duì)權(quán)重矩陣進(jìn)行遮蓋時(shí),如圖5所示,每個(gè)權(quán)重矩陣只保留掩模中值為1的元素,然后再對(duì)其計(jì)算softmax,從而使得輸出X中每一幀數(shù)據(jù)只由其本身和中心數(shù)據(jù)得來(lái)。這樣做可以強(qiáng)調(diào)中心幀數(shù)據(jù),并且濾除不必要的冗余信息,從而得到更準(zhǔn)確的時(shí)序特征。

        1.4 時(shí)序卷積神經(jīng)網(wǎng)絡(luò)

        時(shí)序神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)如圖6所示。一個(gè)時(shí)序網(wǎng)絡(luò)由多個(gè)時(shí)序卷積塊組成,卷積塊的個(gè)數(shù)與網(wǎng)絡(luò)的感受野成正相關(guān)。時(shí)序卷積塊分為兩類,一類包含自注意力模塊,稱為A;另一類不包含自注意力模塊,稱為B。隨著網(wǎng)絡(luò)層數(shù)的加深,數(shù)據(jù)的時(shí)序序列會(huì)越來(lái)越短,信息已經(jīng)高度精煉,注意力在深層網(wǎng)絡(luò)中顯得沒有那么重要。因此,本文一般將卷積塊B放在整個(gè)網(wǎng)絡(luò)的后半部分。

        本節(jié)利用兩個(gè)時(shí)序卷積塊進(jìn)行網(wǎng)絡(luò)框架的介紹。如圖6所示,數(shù)據(jù)經(jīng)過(guò)重組以后首先輸入到局部卷積層中來(lái)抽取局部信息;隨后,數(shù)據(jù)通過(guò)卷積塊A和B;最后通過(guò)一個(gè)局部卷積得到最終的3D姿態(tài)。

        在卷積塊A中,數(shù)據(jù)先通過(guò)一個(gè)自注意力層得到融合的時(shí)序信息,然后分成兩個(gè)分支,分別進(jìn)入局部卷積層以及全局卷積層來(lái)抽取局部和全局信息,隨后進(jìn)行融合。最后經(jīng)過(guò)一個(gè)局部卷積得到卷積塊A的輸出結(jié)果。

        其中局部卷積中C1,3d3,C1表示每個(gè)組的輸入通道數(shù)是C1,卷積核寬度是3,空洞尺度是3,輸出通道數(shù)是C1。全局卷積中,C2表示卷積層的通道數(shù),當(dāng)關(guān)鍵點(diǎn)個(gè)數(shù)為17時(shí),C2=17×C1。

        2 實(shí)驗(yàn)與分析

        2.1 數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)

        本文將所提方法在兩個(gè)運(yùn)動(dòng)捕捉數(shù)據(jù)集上進(jìn)行了評(píng)估,Human3.6M以及HumanEva-I。

        Human3.6M是目前公認(rèn)最大的3D人體姿態(tài)數(shù)據(jù)集,該數(shù)據(jù)集包含了11個(gè)不同的演員,一共360萬(wàn)張視頻圖片,其中7位演員的數(shù)據(jù)包含了3D標(biāo)注。每位演員都表演了15個(gè)動(dòng)作,并使用4個(gè)同步相機(jī)以50 Hz的頻率錄制。為了與前人的工作[13,19相同步,本文使用5個(gè)演員的表演作為訓(xùn)練集(S1,S5,S6,S7,S8),2個(gè)作為測(cè)試集(S9,S11)。

        HumanEva-I是一個(gè)相對(duì)較小的數(shù)據(jù)集,其利用3臺(tái)攝像機(jī),分別記錄了3個(gè)演員的不同動(dòng)作。與VideoPose相同,本文只在“行走”“慢跑”與“拳擊”這三個(gè)動(dòng)作上進(jìn)行了評(píng)估。在評(píng)估時(shí)只預(yù)測(cè)15個(gè)骨骼點(diǎn),并且利用數(shù)據(jù)集中預(yù)分割好的訓(xùn)練集與測(cè)試集進(jìn)行訓(xùn)練和測(cè)試。

        本文在實(shí)驗(yàn)中采用了兩個(gè)評(píng)估指標(biāo):指標(biāo)1(MPJPE)計(jì)算關(guān)節(jié)點(diǎn)的預(yù)測(cè)值與標(biāo)注值之間的平均歐氏距離,單位是mm;指標(biāo)2(P-MPJPE)計(jì)算了兩個(gè)姿態(tài)對(duì)齊后的平均誤差,該指標(biāo)將預(yù)測(cè)值與標(biāo)注進(jìn)行平移、縮放和旋轉(zhuǎn)對(duì)齊以后再進(jìn)行計(jì)算兩者平均誤差。相比于指標(biāo)1、指標(biāo)2經(jīng)過(guò)了剛性變換,與標(biāo)注相對(duì)齊,不考慮整體位置、大小等因素,因此其結(jié)果更能反映姿態(tài)上的誤差。而指標(biāo)1則是相對(duì)全面的評(píng)估方法,綜合考慮了整體人物的旋轉(zhuǎn)與尺度偏差,更能反映一個(gè)網(wǎng)絡(luò)的對(duì)于3D姿態(tài)估計(jì)這個(gè)任務(wù)的整體能力。

        2.2 實(shí)驗(yàn)參數(shù)

        對(duì)于Human3.6M,網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如下:輸入關(guān)節(jié)點(diǎn)個(gè)數(shù)N為17,2D關(guān)節(jié)點(diǎn)序列長(zhǎng)度T為243。主網(wǎng)絡(luò)包含四個(gè)卷積塊,其中前兩個(gè)為卷積塊A,后兩個(gè)為卷積塊B,其卷積核大小以及空洞卷積尺度與圖6示例相同。在局部卷積中,每組卷積的輸出通道數(shù)C1為(17-1)×4,即64。在全局卷積中,卷積的輸出通道數(shù)C2為17×(17-1)×4,即1 088。

        訓(xùn)練參數(shù)如下:批次大小為256。采用ranger作為優(yōu)化器,初始學(xué)習(xí)率為0.001,每個(gè)迭代學(xué)習(xí)率衰減95%。一共訓(xùn)練80個(gè)迭代。

        對(duì)于HumanEva-I,網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如下:輸入關(guān)鍵點(diǎn)個(gè)數(shù)N為15,2D關(guān)鍵點(diǎn)序列長(zhǎng)度T為27,模型其他參數(shù)與前者相同。

        訓(xùn)練參數(shù):批次大小為128。同樣采用ranger作為優(yōu)化器,初始學(xué)習(xí)率為0.001,每個(gè)迭代學(xué)習(xí)率衰減99.6%。一共訓(xùn)練1 000個(gè)迭代。

        硬件參數(shù):整個(gè)網(wǎng)絡(luò)的訓(xùn)練過(guò)程在單張RTX 2080 Ti實(shí)現(xiàn)。

        2.3 對(duì)比實(shí)驗(yàn)

        在對(duì)比實(shí)驗(yàn)中,本文利用Human3.6M數(shù)據(jù)集中標(biāo)注好的2D關(guān)鍵點(diǎn)和級(jí)聯(lián)金字塔網(wǎng)絡(luò)(CPN)[5預(yù)測(cè)出的2D關(guān)鍵點(diǎn)作為網(wǎng)絡(luò)輸入。前者可以評(píng)估在數(shù)據(jù)比較純凈的情況下,網(wǎng)絡(luò)框架對(duì)3D姿態(tài)的預(yù)測(cè)能力;后者可以評(píng)估在輸入有噪聲,數(shù)據(jù)不可靠時(shí),網(wǎng)絡(luò)的泛化能力以及整體的預(yù)測(cè)能力。除了比較整個(gè)測(cè)試集的平均關(guān)節(jié)點(diǎn)誤差以外,本文還對(duì)各個(gè)動(dòng)作的回歸能力進(jìn)行了比較,驗(yàn)證本文模型對(duì)復(fù)雜動(dòng)作的預(yù)測(cè)能力。在HumanEva-I中,只采用了CPN輸出作為輸入。

        2.3.1 Human3.6M實(shí)驗(yàn)結(jié)果與分析

        1)2D關(guān)鍵點(diǎn)作為輸入

        在利用2D標(biāo)注作為網(wǎng)絡(luò)輸入的情況下,本文與以往的論文在指標(biāo)1上進(jìn)行比較,如表1~3所示,粗體表示最優(yōu)的結(jié)果,下畫線表示第二的結(jié)果。其中本文在所有動(dòng)作上的預(yù)測(cè)效果均優(yōu)于以往算法,特別相比于本框架的基線方法(baseline method),Pavllo等人的方法,結(jié)果有著明顯的提升,平均誤差降低了4.8 mm。實(shí)驗(yàn)結(jié)果表明,本文方法有著比較明顯的優(yōu)越性。這種方法對(duì)于提高3D姿態(tài)估計(jì)的準(zhǔn)確度有著顯著的幫助。

        2)CPN預(yù)測(cè)關(guān)鍵點(diǎn)作為輸入

        為了驗(yàn)證本文框架的魯棒性,本文利用CPN從Human3.6M原始圖片中預(yù)測(cè)出的2D關(guān)節(jié)點(diǎn)坐標(biāo)作為本文網(wǎng)絡(luò)的輸入。相比于純凈的2D標(biāo)注,CPN預(yù)測(cè)出的結(jié)果并不準(zhǔn)確,包含一定的噪聲,對(duì)于后續(xù)的3D姿態(tài)估計(jì)有著一定的影響。即使這樣,在橫向?qū)Ρ认?,本文方法依然比以往的方法有著明顯的優(yōu)勢(shì),在指標(biāo)1下,平均誤差降低到了44.8,在指標(biāo)2下,降到了35.1。相比于基線方法(baseline method),分別降低了2.0 mm(4.4%)與2.7 mm(7.1%)。其中,指標(biāo)2相比于指標(biāo)1下降的幅度更大,接近兩倍,這說(shuō)明在不考慮縮放和旋轉(zhuǎn)的情況下,單從動(dòng)作準(zhǔn)確度的角度來(lái)說(shuō),本文框架有著更強(qiáng)的回歸能力。圖7分別可視化了本文方法與VideoPose的預(yù)測(cè)結(jié)果,中間列為本文方法,右邊列為VideoPose,圖中實(shí)線骨骼為兩種方法預(yù)測(cè)結(jié)果,虛線骨骼為真實(shí)標(biāo)注。可視化結(jié)果表明本文方法對(duì)3D姿態(tài)有著更精準(zhǔn)的預(yù)測(cè)能力。

        3) 各個(gè)動(dòng)作回歸能力分析

        為了更直觀地體現(xiàn)本框架對(duì)于復(fù)雜動(dòng)作的預(yù)測(cè)能力,本文利用折線圖將表1的結(jié)果進(jìn)行可視化,圖8清晰地展現(xiàn)出兩種方法在各個(gè)動(dòng)作上的優(yōu)劣程度。同時(shí)利用柱狀圖展現(xiàn)出方法間各個(gè)動(dòng)作預(yù)測(cè)誤差的差值。對(duì)于任意動(dòng)作,本文方法都優(yōu)于VideoPose。并且在VideoPose預(yù)測(cè)誤差最大的“坐”“坐下”以及“拍照”這三個(gè)動(dòng)作上,對(duì)誤差的降低程度最大。這不僅表明了本框架的優(yōu)越性,還驗(yàn)證了其對(duì)復(fù)雜動(dòng)作的估計(jì)能力。

        2.3.2 HumanEva-I實(shí)驗(yàn)結(jié)果與分析

        在HumanEva-I數(shù)據(jù)集上,本文采用CPN輸出作為輸入進(jìn)行評(píng)估,評(píng)估指標(biāo)采用P-MPJPE。

        實(shí)驗(yàn)結(jié)果與以往的多種方法進(jìn)行了對(duì)比,其結(jié)果展示在表4中。對(duì)比表明,本框架在大部分動(dòng)作上均明顯優(yōu)于以往的方法,特別是對(duì)于最難預(yù)測(cè)的拳擊動(dòng)作,效果提升最為明顯,誤差平均降低了9%左右。

        2.4 消融實(shí)驗(yàn)

        表5展示了本網(wǎng)絡(luò)框架中各個(gè)模塊消融實(shí)驗(yàn)的結(jié)果。通過(guò)逐個(gè)添加“分組預(yù)測(cè)”“全局局部融合”以及“自注意力”的方式對(duì)各個(gè)模塊的有效性進(jìn)行評(píng)定。本節(jié)實(shí)驗(yàn)均利用CPN預(yù)測(cè)的關(guān)鍵點(diǎn)作為輸入,同時(shí)利用指標(biāo)1(MPJPE)進(jìn)行重構(gòu)誤差的計(jì)算。表中第一行的結(jié)果是VideoPose。

        第二行中,實(shí)驗(yàn)添加了分組預(yù)測(cè)模塊,在該模塊中,首先進(jìn)行關(guān)鍵點(diǎn)重組,然后通過(guò)分組卷積的方式預(yù)測(cè)最終的結(jié)果。由于采用分組卷積的方式,可訓(xùn)練參數(shù)大量減少,雖然誤差只降低了0.3 mm,但仍然優(yōu)于VideoPose。

        第三行,實(shí)驗(yàn)繼續(xù)添加了全局與局部信息融合模塊,效果提高顯著,誤差再次降低了0.9 mm。實(shí)驗(yàn)結(jié)果表明了全局信息與局部信息融合的方式的確能夠讓網(wǎng)絡(luò)對(duì)結(jié)構(gòu)信息的挖掘更充分,從而提高預(yù)測(cè)的準(zhǔn)確度。

        第四行,自注意力模塊被添加到網(wǎng)絡(luò)中,平均誤差再次下降0.6 mm。驗(yàn)證了該模塊對(duì)時(shí)序信息抽取的能力,能有效利用2D關(guān)鍵點(diǎn)序列中的時(shí)序信息來(lái)提升3D姿態(tài)估計(jì)的準(zhǔn)確性。

        3 結(jié)束語(yǔ)

        本文提出了一種探索關(guān)鍵點(diǎn)間關(guān)系的網(wǎng)絡(luò)框架。該框架利用各個(gè)關(guān)鍵點(diǎn)兩兩之間的關(guān)系來(lái)加強(qiáng)對(duì)2D姿態(tài)的特征抽取能力,并且采用局部關(guān)鍵點(diǎn)特征與全局特征融合的方式來(lái)進(jìn)一步挖掘關(guān)鍵點(diǎn)間存在的隱性聯(lián)系。為了解決困難動(dòng)作預(yù)測(cè)精度差的問(wèn)題,本文又引入了分組預(yù)測(cè)各個(gè)關(guān)鍵點(diǎn)的方式。除此之外,本網(wǎng)絡(luò)框架中加入了自注意力模塊來(lái)提取視頻中時(shí)序信息,以輔助目標(biāo)姿態(tài)的預(yù)測(cè)。實(shí)驗(yàn)表明,相比于普通的時(shí)序卷積神經(jīng)網(wǎng)絡(luò),本文提出的網(wǎng)絡(luò)框架提高了3D人體姿態(tài)的準(zhǔn)確度,并能有效解決復(fù)雜動(dòng)作低準(zhǔn)確度問(wèn)題。在未來(lái)的工作中,將繼續(xù)深入研究新的姿態(tài)估計(jì)方法,學(xué)習(xí)視覺領(lǐng)域最前沿的技術(shù),從多人多視角切入,進(jìn)一步提高其預(yù)測(cè)準(zhǔn)確度,強(qiáng)化3D姿態(tài)估計(jì)算法在實(shí)際場(chǎng)景中的應(yīng)用能力。

        參考文獻(xiàn):

        [1]李翠錦,瞿中.基于卷積神經(jīng)網(wǎng)絡(luò)的跨層融合邊緣檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用研究,2021,38(7):2183-2187.(Li Cuijin,Qu Zhong.Cross fusion edge detection algorithm based on convolutional neural network[J].Application Research of Computers,2021,38(7):2183-2187.)

        [2]邢新穎,冀俊忠,姚垚.基于自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的腦網(wǎng)絡(luò)分類方法[J].計(jì)算機(jī)研究與發(fā)展,2020,57(7):1449-1459.(Xing Xinying,Ji Junzhong,Yao Yao.Brain networks classification based on an adaptive multi-task convolutional neural networks[J].Journal of Computer Research and Development,2020,57(7):1449-1459.)

        [3]Li Sijin,Chan A B.3D human pose estimation from monocular images with deep convolutional neural network[C]//Proc of Asian Confe-rence on Computer Vision.2014.

        [4]Chen C,Ramanan D.3D human pose estimation=2D pose estimation+matching[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017.

        [5]Chen Yilun,Wang Zhicheng,Peng Yuxiang,et al.Cascaded pyramid network for multi-person pose estimation[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018.

        [6]Newell A,Yang Kaiyu,Deng Jia.Stacked hourglass networks for human pose estimation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016.

        [7]Sun Ke,Xiao Bin,Liu Dong,et al.Deep high-resolution representation learning for human pose estimation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019.

        [8]Martinez J,Hossain R,Romero J,et al.A simple yet effective baseline for 3D human pose estimation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017.

        [9]Pavlakos G,Zhou Xiaowei,Derpanis K G,et al.Coarse-to-fine volumetric prediction for single-image 3D human pose[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017.

        [10]Fang Haoshu,Xu Yuanlu,Wang Wenguan,et al.Learning pose grammar to encode human body configuration for 3D pose estimation[C]//Proc of AAAI Conference on Artificial Intelligence.Piscataway,NJ:IEEE Press,2018.

        [11]Tekin B,Márquez-Neila P,Salzmann M,et al.Learning to fuse 2D and 3D image cues for monocular body pose estimation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017.

        [12]Sun Xiao,Shang Jiaxiang,Liang Shuang,et al.Compositional human pose regression[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017.

        [13]Yang Wei,Ouyang Wanli,Wang Xiaolong,et al.3D human pose estimation in the wild by adversarial learning[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018.

        [14]Luvizon D C,Picard D,Tabia H.2D/3D pose estimation and action recognition using multitask deep learning[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018.

        [15]Hossain M R I,Little J J.Exploiting temporal information for 3D human pose estimation[C]//Proc of European Conference on Computer Vision .Piscataway,NJ:IEEE Press,2018.

        [16]Lee K,Lee I,Lee S.Propagating LSTM:3D pose estimation based on joint interdependency[C]//Proc of European Conference on Compu-ter Vision.2018.

        [17]Kocabas M,Athanasiou N,Black M J.Vibe:video inference for human body pose and shape estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020.

        [18]Zeng Ailing,Sun Xiao,Huang Fuyang,et al.SRNet:improving generalization in 3D human pose estimation with a split-and-recombine approach[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020.

        [19]Pavllo D,F(xiàn)eichtenhofer C,Grangier D,et al.3D human pose estimation in video with temporal convolutions and semi-supervised training[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020.

        [20]胡德敏,王榮榮.融合語(yǔ)言特征的抽象式中文摘要模型[J].計(jì)算機(jī)應(yīng)用研究,2020,37(2):351-354,369.(Hu Demin,Wang Rongrong.Abstractive Chinese summarization model with linguistic features[J].Application Research of Computers,2020,37(2):351-354,369.)

        [21]Chen Qian,Zhu Xiaodan,Ling Zhenhua,et al.Enhanced LSTM for natural language inference[EB/OL].(2017-04-26).http://doi.org/10.18653/v1/p17-1152.

        [22]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[EB/OL].(2017-12-06).https://arxiv.org/abs/1706.03762.

        [23]Ionescu C,Papava D,Olaru V,et al.Human3.6M:large scale datasets and predictive methods for 3D human sensing in natural environments[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,36(7):1325-39.

        [24]Sigal L,Balan A O,Black M J.HumanEva:synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion[J].International Journal of Computer Vision,2010,87(1-2):article No.4.

        99久久精品国产成人综合| 国产精品自在拍在线播放| 日韩好片一区二区在线看| 车上震动a级作爱视频| 国产欧美日韩不卡一区二区三区| 加勒比在线一区二区三区| 国产99久久久国产精品免费 | 亚洲av熟妇高潮30p| 99热这里只有精品69| 永久免费在线观看蜜桃视频| 日本加勒比一区二区在线观看| 国产人妻熟女呻吟在线观看| 国产成人精品a视频| 国模冰莲极品自慰人体| 男人的天堂无码动漫av| 欧美精品免费观看二区| 亚洲综合国产成人丁香五月小说| 蜜桃av中文字幕在线观看| 国产精品无码av无码| 成人免费毛片内射美女-百度| 在线观看视频一区| 伊人久久婷婷综合五月97色| 久久综合五月天啪网亚洲精品| 久久99精品久久久久婷婷| 三年片免费观看大全国语| 亚洲综合日韩中文字幕| 久久久精品国产av麻豆樱花| 国产va免费精品观看精品| 爽爽午夜影视窝窝看片| 无码天堂亚洲国产av麻豆| 国内国外日产一区二区| 视频一区视频二区制服丝袜| 18禁美女裸身无遮挡免费网站| 久久久www成人免费无遮挡大片| 久久精品av一区二区免费| 日本一区二区三区视频免费观看| av无码小缝喷白浆在线观看| 人妻久久久一区二区三区| a国产一区二区免费入口| 日本老年人精品久久中文字幕| 久久伊人亚洲精品视频|