摘 要:由于面臨著固有的深度模糊和潛在的遮擋,單目三維人體姿態(tài)估計(jì)仍充滿著挑戰(zhàn)。為了緩解不確定性,提出了一個(gè)輕量高效的三維人體姿態(tài)估計(jì)模型,充分利用人體關(guān)節(jié)的結(jié)構(gòu)依賴關(guān)系,通過(guò)兩個(gè)局部約束增強(qiáng)策略對(duì)高自由度關(guān)節(jié)施加額外約束;設(shè)計(jì)了一個(gè)基于擴(kuò)散模型的后處理框架,通過(guò)對(duì)多假設(shè)結(jié)果逐步去噪并加以骨長(zhǎng)約束,優(yōu)化帶噪聲的三維姿態(tài)。該方法在Human3.6M數(shù)據(jù)集上相比同類方法,在兩個(gè)常用指標(biāo)上分別提升了3%和4.5%,驗(yàn)證了其優(yōu)越性。
關(guān)鍵詞:擴(kuò)散模型;三維人體姿態(tài)估計(jì);圖卷積神經(jīng)網(wǎng)絡(luò);Transformer
中圖分類號(hào):TP391.41"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)04-041-1268-06
doi: 10.19734/j.issn.1001-3695.2024.06.0253
3D human pose estimation and refinement based on joint structural dependencies
Wang Binzi1, Ning Xin1, Shu Yang1, Ding Youdong1, 2
(1. Shanghai Film Academy, Shanghai University, Shanghai 200072, China; 2. Shanghai Engineering Research Center of Motion Picture Special Effects, Shanghai 200072, China)
Abstract:Facing inherent depth ambiguity and potential occlusions, monocular 3D human pose estimation remains challen-ging. To mitigate uncertainty, this paper proposed a lightweight and efficient 3D human pose estimation model that leveraged the structural dependencies of body joints and applied additional constraints to high-degree-of-freedom joints through two local constraint enhancement strategies. The method used a diffusion model-based post-processing framework to progressively denoise multiple hypothesis results and apply bone length constraints, optimizing noisy 3D poses. On the Human3.6M dataset, the proposed method outperforms similar approaches by 3% and 4.5% on two common metrics, demonstrating its superiority.
Key words:diffusion model; 3D human pose estimation(3D HPE); graph convolutional network; Transformer
0 引言
三維人體姿態(tài)估計(jì)(3D HPE)旨在從圖像或視頻等輸入數(shù)據(jù)中定位人體關(guān)鍵點(diǎn)在三維空間中的位置,并構(gòu)建人體表征(骨架或網(wǎng)格)[1]。作為諸多高層語(yǔ)義任務(wù)及下游應(yīng)用的基石,3D HPE被廣泛應(yīng)用于動(dòng)作識(shí)別[2]、動(dòng)畫(huà)制作[3]、運(yùn)動(dòng)預(yù)測(cè)[4]等領(lǐng)域,被認(rèn)為是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心任務(wù)之一。
在深度學(xué)習(xí)中,基于生成骨架的3D HPE任務(wù)有端到端直接估計(jì)法[5,6]和2D-3D提升法[7,8]兩種主要管線。得益于近年來(lái)2D姿態(tài)檢測(cè)器[9]的卓越表現(xiàn),2D-3D提升法已成為3D HPE領(lǐng)域的主流方法。它由兩階段組成,在第一階段使用現(xiàn)成的2D姿態(tài)檢測(cè)器從圖像中獲得人體關(guān)鍵點(diǎn)的二維坐標(biāo),在第二階段通過(guò)2D-3D姿態(tài)提升獲得關(guān)鍵點(diǎn)在三維空間中的坐標(biāo)。本文關(guān)注的是第二階段。與一般的基于圖像的任務(wù)不同,2D-3D提升法第二階段的輸入是稀疏且結(jié)構(gòu)化的二維關(guān)節(jié)坐標(biāo)。同時(shí)由于面臨著固有的深度模糊問(wèn)題和潛在的遮擋問(wèn)題,僅憑單一的二維信息確定唯一的三維姿態(tài)仍充滿著挑戰(zhàn)。
多數(shù)現(xiàn)有研究集中于使用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network, GCN)建模人體關(guān)節(jié)之間的相關(guān)性。例如,Zhao等人[10]提出語(yǔ)義圖卷積SemGCN來(lái)學(xué)習(xí)人體關(guān)節(jié)之間的語(yǔ)義信息。Zou等人[11]在SemGCN的基礎(chǔ)上引入權(quán)調(diào)制和親和調(diào)制,探索了超出定義的人體骨架范圍的額外關(guān)節(jié)相關(guān)性。然而單層圖卷積的感受野是有限的,模型很難通過(guò)淺層網(wǎng)絡(luò)捕捉到全局信息。近來(lái),Transformer在其他視覺(jué)領(lǐng)域展示出強(qiáng)大的捕捉長(zhǎng)距離關(guān)系的能力,也被引入了3D HPE領(lǐng)域[12,13]。然而Transformer關(guān)注的是所有關(guān)節(jié)的相似性,容易忽略人體關(guān)節(jié)之間的結(jié)構(gòu)信息。考慮到兩類模型的特性,一些工作開(kāi)始探索將兩者結(jié)合以獲得更好的性能,如Zhao等人[14]通過(guò)堆疊GraAttention和ChebGConv塊,初步探索了結(jié)合圖卷積的Transformer架構(gòu)。Cai等人[15]提出從joint、part、body三個(gè)語(yǔ)義層面依次學(xué)習(xí)人體拓?fù)浣Y(jié)構(gòu)先驗(yàn)。但在他們的架構(gòu)中,信息的傳輸是單向的,沒(méi)有考慮局部信息和全局信息的融合溝通,這可能會(huì)導(dǎo)致信息的丟失。而一些工作[16,17]考慮到了局部全局的溝通,但是他們并未充分利用人體關(guān)節(jié)的結(jié)構(gòu)依賴,無(wú)法應(yīng)對(duì)自遮擋或復(fù)雜場(chǎng)景。
本文遵循之前的工作,把人體骨骼結(jié)構(gòu)表示為圖。但與上述方法不同的是,本文在此基礎(chǔ)上,綜合利用圖卷積和Transformer的優(yōu)勢(shì)來(lái)捕獲人體骨骼的局部和全局信息,并將信息在空間中融合溝通。同時(shí),由于關(guān)節(jié)位置不是分散在整個(gè)三維空間,而是沿著某種低維結(jié)構(gòu)分布,所以充分利用人體結(jié)構(gòu)先驗(yàn)信息有助于解決由于投影模糊而導(dǎo)致的深度模糊問(wèn)題。具體地,本文添加了兩個(gè)額外的約束條件,旨在充分利用人體自然存在的正向動(dòng)力學(xué)、關(guān)節(jié)對(duì)稱性以及運(yùn)動(dòng)協(xié)調(diào)性等特性,使得對(duì)于關(guān)節(jié)的約束不再僅停留于淺層,而能夠捕捉到更深層次的特征。
近來(lái),擴(kuò)散模型[18]在眾多由高斯噪聲生成高保真樣本的任務(wù)中表現(xiàn)出顯著優(yōu)勢(shì),吸引了研究者的關(guān)注。具體地,它由不確定的噪聲逐步去噪,生成與指定數(shù)據(jù)分布相匹配的樣本。這種漸進(jìn)去噪的范式有助于將高度不確定與確定之間的鴻溝分解為較小的中間步驟,從而幫助模型向平滑生成目標(biāo)數(shù)據(jù)分布的樣本收斂[19]。該特性與3D HPE任務(wù)非常契合,因?yàn)橛?D提升到3D后得到的3D姿態(tài)天然就是不確定的,可以被看做有噪聲的數(shù)據(jù)。
但與一般的視覺(jué)任務(wù)不同,姿態(tài)估計(jì)任務(wù)期望生成更接近地面真實(shí)值的結(jié)果,然而基于擴(kuò)散的方法在推理時(shí)通常從隨機(jī)噪聲開(kāi)始,降低了模型的準(zhǔn)確性。為了獲得更加準(zhǔn)確的三維姿態(tài),部分工作調(diào)整了去噪器的輸入,如一些工作[20,21]將現(xiàn)有三維人體姿態(tài)估計(jì)模型的輸出作為去噪過(guò)程的中間狀態(tài),并以此作為起點(diǎn)開(kāi)始推理。還有部分工作[22~24]將擴(kuò)散模型與多假設(shè)方法結(jié)合,從噪聲中抽取多個(gè)樣本,每個(gè)樣本對(duì)應(yīng)一個(gè)假設(shè),文獻(xiàn)[22,23]最后通過(guò)關(guān)節(jié)級(jí)別的聚合從多個(gè)假設(shè)中得到最終結(jié)果,取得了較好的效果。然而關(guān)節(jié)級(jí)別的聚合是根據(jù)關(guān)節(jié)的二維投影誤差來(lái)判定最佳關(guān)節(jié)坐標(biāo)的,該方式僅將姿態(tài)估計(jì)任務(wù)當(dāng)作簡(jiǎn)單的坐標(biāo)回歸問(wèn)題,未充分考慮人體的運(yùn)動(dòng)學(xué)結(jié)構(gòu),對(duì)于骨長(zhǎng)的約束不足。
受上述工作的啟發(fā),本文設(shè)計(jì)了一個(gè)基于擴(kuò)散模型的后處理方法,在基準(zhǔn)模型得到的初始3D姿態(tài)中添加噪聲,并在對(duì)應(yīng)2D信息的指導(dǎo)下通過(guò)多步去噪得到精細(xì)化的3D姿態(tài)估計(jì)結(jié)果。值得注意的是,考慮到人的骨長(zhǎng)是恒定的,本文引入了骨骼長(zhǎng)度損失函數(shù),用于評(píng)估骨長(zhǎng)的合理性,以增強(qiáng)基于擴(kuò)散模型的去噪器在應(yīng)對(duì)坐標(biāo)型問(wèn)題上的魯棒性和準(zhǔn)確性。同時(shí),本文提出的后處理算法可與多數(shù)現(xiàn)有的基準(zhǔn)模型兼容,具有較強(qiáng)的泛用性。大量實(shí)驗(yàn)證明,本文提出的三維人體姿態(tài)估計(jì)模型以及后處理算法均取得了較好的效果。
2.2 網(wǎng)絡(luò)架構(gòu)
本文提出的去噪器D由三個(gè)帶殘差連接的圖卷積-自注意塊堆疊而成,每個(gè)塊包含兩個(gè)圖卷積層和一個(gè)自注意層,是對(duì)文獻(xiàn)[14]模塊的重構(gòu)。塊前后添加了圖卷積層用來(lái)控制輸入輸出的大小。通過(guò)圖卷積和自注意力的交錯(cuò)連接,有助于擴(kuò)散模型學(xué)習(xí)到相鄰關(guān)節(jié)和遠(yuǎn)距離關(guān)節(jié)的依賴關(guān)系,更好地理解整體結(jié)構(gòu)的分布。此外,在三個(gè)堆疊的塊后,還設(shè)計(jì)了一個(gè)簡(jiǎn)單的兩層全連接網(wǎng)絡(luò)用于平衡中間結(jié)果和初始3D姿態(tài)。具體地,yik經(jīng)過(guò)輸入圖卷積層、三個(gè)堆疊塊和輸出圖卷積層后得到了一個(gè)中間結(jié)果,該結(jié)果將與初始3D姿態(tài)y一同送入線性層,得到兩組結(jié)果的置信度值,由兩組結(jié)果的置信度加權(quán)和得到最終姿態(tài)的關(guān)節(jié)位置。同時(shí),考慮到僅使用帶噪聲的數(shù)據(jù)作為輸入,擴(kuò)散模型很難學(xué)習(xí)到關(guān)節(jié)結(jié)構(gòu)信息,于是本文在訓(xùn)練時(shí)引入2D信息x和時(shí)間步長(zhǎng)信息t作為指導(dǎo),為模型提供額外的約束條件,有助于減少不確定性,生成更為準(zhǔn)確的預(yù)測(cè)。指導(dǎo)信息在yik經(jīng)過(guò)輸入圖卷積層后引入。
如此,給定輸入yt和初始3D姿態(tài)y,在2D信息x和時(shí)間步長(zhǎng)信息的指導(dǎo)t下,得到的單假設(shè)預(yù)測(cè)可定義為
在訓(xùn)練后處理優(yōu)化模型時(shí),同為生成多假設(shè)預(yù)測(cè)的工作[22,23],它們得到最終預(yù)測(cè)的方式是關(guān)節(jié)聚合,即以關(guān)節(jié)為單位,選取同位置中二維投影與輸入的二維姿態(tài)對(duì)應(yīng)關(guān)節(jié)誤差最小的為最佳關(guān)節(jié),這些被選擇的關(guān)節(jié)將被組裝成一個(gè)獨(dú)立的姿態(tài),作為最終預(yù)測(cè)結(jié)果。相較姿態(tài)層面的聚合,以關(guān)節(jié)為單位確實(shí)提升了預(yù)測(cè)的上限,因?yàn)橐粋€(gè)預(yù)測(cè)結(jié)果在不同關(guān)節(jié)的表現(xiàn)可能不同,但關(guān)鍵點(diǎn)在三維空間中的位置位于從相機(jī)光學(xué)中心到二維關(guān)鍵點(diǎn)的射線上,僅憑二維信息確定的關(guān)節(jié)坐標(biāo)在重組后得到的姿態(tài)不一定符合自然人體結(jié)構(gòu),同時(shí)在面對(duì)實(shí)際場(chǎng)景時(shí),由不穩(wěn)定的二維姿態(tài)檢測(cè)器帶來(lái)的錯(cuò)誤信息可能會(huì)顯著影響模型的準(zhǔn)確性。
為保證預(yù)測(cè)的姿態(tài)遵循真實(shí)的人體生理結(jié)構(gòu),同時(shí)也為了模型在預(yù)測(cè)時(shí)不過(guò)分依賴二維信息,更好地適應(yīng)復(fù)雜多變的實(shí)際應(yīng)用場(chǎng)景,本文添加了額外的骨長(zhǎng)約束損失,最小化最終預(yù)測(cè)姿態(tài)的骨骼長(zhǎng)度與地面真實(shí)值之間的誤差,以此來(lái)訓(xùn)練模型學(xué)習(xí)到正常人類的骨骼長(zhǎng)度知識(shí)。骨長(zhǎng)約束損失表示為
3 實(shí)驗(yàn)分析
3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
本文將提出的模型在大型公共三維人體姿態(tài)估計(jì)數(shù)據(jù)集Human 3.6M[26]上進(jìn)行了全面的實(shí)驗(yàn)。Human 3.6M是最大的3D HPE基準(zhǔn)數(shù)據(jù)集,被廣泛應(yīng)用在該領(lǐng)域中,它包含由11位演員在動(dòng)作捕捉系統(tǒng)下表演的15項(xiàng)活動(dòng),包括問(wèn)候、坐下等動(dòng)作,共包含360萬(wàn)視頻幀和注釋。遵循之前的工作,本文選用S1、S5、S6、S7、S8作為訓(xùn)練集,選用S9、S11作為測(cè)試集進(jìn)行評(píng)估。
本文采用兩個(gè)評(píng)價(jià)指標(biāo)來(lái)展示模型的性能,分別是平均關(guān)節(jié)位置誤差MPJPE(mean per joint position error,即指標(biāo)1)和剛體變換對(duì)齊后的平均關(guān)節(jié)位置誤差PA-MPJPE(procrustes aligned MPJPE,即指標(biāo)2),指標(biāo)值越低越好。
3.2 實(shí)驗(yàn)環(huán)境及設(shè)置
遵循之前的工作,本文使用PyTorch[27]實(shí)現(xiàn),初始學(xué)習(xí)率為0.000 5,每一輪后應(yīng)用衰減因子大小為0.95,每5個(gè)輪次的衰減率為0.5。基準(zhǔn)模型在單個(gè)NVIDIA RTX 3090上以批大小為512訓(xùn)練30個(gè)輪次,由3個(gè)堆疊的交錯(cuò)并行結(jié)構(gòu)組成,輸入維度為160,全局、局部輸入分割比C1∶C2=4∶1;基于擴(kuò)散的后處理框架在單個(gè)NVIDIA RTX 3090上以批大小為512訓(xùn)練15個(gè)輪次,最大擴(kuò)散時(shí)間步長(zhǎng)設(shè)為1 000,采樣時(shí)間步長(zhǎng)設(shè)為100,余弦噪聲調(diào)度器的偏移量設(shè)為0.008。
3.3 實(shí)驗(yàn)結(jié)果與分析
3.3.1 對(duì)比實(shí)驗(yàn)
表1展示了本文提出的基準(zhǔn)模型以及加后處理優(yōu)化的模型在以CPN估計(jì)結(jié)果作為輸入時(shí),在Human3.6M數(shù)據(jù)集上與以往單幀方法的定量對(duì)比?!?”表示多假設(shè)方法,假設(shè)數(shù)為10。最優(yōu)結(jié)果標(biāo)粗體,次優(yōu)結(jié)果標(biāo)下畫(huà)線。
在后處理假設(shè)數(shù)量為1時(shí),本文方法與同假設(shè)數(shù)的概率性方法相比,在指標(biāo)1和2上分別提升了4.5%和5.9%;與確定性方法相比,在指標(biāo)1和2上分別提升1%和1.2%;與自身基準(zhǔn)模型比,在指標(biāo)1和2上均提升了1%。這表明本文提出的后處理優(yōu)化算法不依賴假設(shè)數(shù)量,突破了在擴(kuò)散模型中因噪聲帶來(lái)的高不確定而導(dǎo)致的單假設(shè)性能弱的問(wèn)題。在后處理的假設(shè)數(shù)量為10時(shí),本文方法與同假設(shè)數(shù)的概率性方法相比,在指標(biāo)1和2上分別提升了3%和4.5%;與自身基準(zhǔn)模型比,在指標(biāo)1上提升了1.8%,在指標(biāo)2上提升了1.5%。這表明本文提出的多假設(shè)框架能夠維持每個(gè)假設(shè)的準(zhǔn)確性,也體現(xiàn)出本文構(gòu)建的去噪器能夠?qū)W習(xí)到關(guān)節(jié)結(jié)構(gòu)的深層特征。
表2展示了在不同基準(zhǔn)模型上應(yīng)用不同后處理優(yōu)化的定量比較,驗(yàn)證了本文后處理優(yōu)化算法對(duì)其他基準(zhǔn)模型的兼容,同時(shí),基準(zhǔn)模型的精度越高,優(yōu)化得到的效果越好。在與當(dāng)前最優(yōu)基于擴(kuò)散模型的優(yōu)化算法對(duì)比時(shí),本文方法也取得了相當(dāng)?shù)慕Y(jié)果。各指標(biāo)的提升表明,本文提出的后處理方法對(duì)于確定性三維人體姿態(tài)估計(jì)模型得到的3D姿態(tài)有較好的優(yōu)化效果,且優(yōu)于多數(shù)現(xiàn)有的基于擴(kuò)散模型的概率性三維人體姿態(tài)估計(jì)方法以及大多數(shù)確定性方法。
3.3.2 消融實(shí)驗(yàn)
1)基準(zhǔn)模型 表3展示了本文提出的基準(zhǔn)模型各模塊及網(wǎng)絡(luò)架構(gòu)在Human3.6M上的消融結(jié)果,采用CPN估計(jì)結(jié)果作為輸入,MPJPE作為評(píng)價(jià)指標(biāo)?!?”代表采用四肢約束增強(qiáng)策略。
在討論模塊對(duì)于性能的影響時(shí),本文從僅包含全局約束的模型出發(fā)(表示為“/”),在添加本文提出的局部約束模塊后,觀察到性能提升,表明學(xué)習(xí)關(guān)節(jié)結(jié)構(gòu)信息有助于提高估計(jì)精度。此外,為探討局部約束增強(qiáng)策略對(duì)四肢關(guān)節(jié)預(yù)測(cè)誤差的影響,本文將四肢關(guān)節(jié)按自由度劃分為三組,并計(jì)算每一類關(guān)節(jié)的平均MPJPE。如圖7所示,局部約束增強(qiáng)的應(yīng)用使自由度為2、3的關(guān)節(jié)組平均誤差降低了8.3%和12.4%,其中,無(wú)局部約束增強(qiáng)的方法使用未經(jīng)修改的圖卷積。由整體誤差分布可以看出,自由度越高的關(guān)節(jié)誤差越高,本文通過(guò)設(shè)計(jì)額外的約束條件,有效降低了末端關(guān)節(jié)的估計(jì)誤差,提升了模型的估計(jì)精度。為了進(jìn)一步研究四肢約束增強(qiáng)模塊的有效性以及確定其在模型中的最優(yōu)位置,本文做了額外的針對(duì)性實(shí)驗(yàn)。結(jié)果表明,僅在空間融合前應(yīng)用約束增強(qiáng),模型的表現(xiàn)達(dá)到最優(yōu)。其他方式性能較差是由于過(guò)量卷積以及MLP操作會(huì)使關(guān)節(jié)信息模糊,導(dǎo)致信息丟失。
在討論網(wǎng)絡(luò)架構(gòu)對(duì)于性能的影響時(shí),本文評(píng)估了串行、并行和交叉并行這幾種方式。結(jié)果表明,交叉并行展現(xiàn)出最佳結(jié)果,而全局、局部的串行連接表現(xiàn)最差。這表明交叉并行的網(wǎng)絡(luò)架構(gòu)有助于模型從局部和全局信息的空間融合中學(xué)習(xí)到更深層次的特征,證明了網(wǎng)絡(luò)架構(gòu)的有效性。
2)后處理優(yōu)化算法 表4展示了本文提出的后處理優(yōu)化算法各模塊在Human3.6M上的消融結(jié)果,采用本文提出的基準(zhǔn)模型估計(jì)結(jié)果作為輸入,假設(shè)數(shù)量設(shè)定為1?!?”代表去噪器采用文獻(xiàn)[14]提出的圖卷積-注意力模塊。實(shí)驗(yàn)表明,本文對(duì)于原模塊的重構(gòu),以及平衡中間結(jié)果與初始3D姿態(tài)的策略均有性能提升效果。同時(shí),針對(duì)骨長(zhǎng)作額外約束也使模型充分學(xué)習(xí)到人體的運(yùn)動(dòng)學(xué)結(jié)構(gòu)。
圖8探討了假設(shè)數(shù)量與估計(jì)精度、推理速度的關(guān)系。結(jié)果證明,在相同時(shí)間步長(zhǎng)與迭代次數(shù)下,假設(shè)數(shù)越多,估計(jì)精度越高,但同時(shí)會(huì)帶來(lái)計(jì)算量的大幅提升。在應(yīng)用時(shí),可以根據(jù)實(shí)際情況選用適合的假設(shè)數(shù)以及時(shí)間步長(zhǎng)。
3.3.3 定性分析
圖9展示了本文提出的基準(zhǔn)模型及其經(jīng)后處理優(yōu)化后的版本,在Human3.6M數(shù)據(jù)集上所取得的定性結(jié)果。突出顯示的部分表明,在易產(chǎn)生估計(jì)誤差的末端關(guān)節(jié)處,本文提出的后處理算法做到了進(jìn)一步的優(yōu)化。此外,圖10給出了經(jīng)優(yōu)化的模型在處理更具復(fù)雜性和多樣性的野外圖像時(shí)的表現(xiàn)。值得注意的是,這些來(lái)自野外圖像的動(dòng)作在Human3.6M的訓(xùn)練集中很少或不存在。可以看到,即使是面對(duì)圖10第三行所示的特殊動(dòng)作時(shí),由于本文方法深入挖掘并充分運(yùn)用了人體關(guān)節(jié)的結(jié)構(gòu)特性,仍能產(chǎn)出令人滿意的預(yù)測(cè)效果,表明了本文方法的有效性和泛化能力。
4 結(jié)束語(yǔ)
為了能從單一二維信息更好地估計(jì)三維姿態(tài),本文提出了一個(gè)充分利用人體關(guān)節(jié)結(jié)構(gòu)依賴的三維人體姿態(tài)估計(jì)模型和一個(gè)基于擴(kuò)散模型的后處理優(yōu)化算法。通過(guò)將圖卷積與Transformer交錯(cuò)并行連接,使局部全局信息在空間能夠融合溝通,此外還針對(duì)四肢關(guān)節(jié)施加額外約束策略,提高了模型對(duì)于深層關(guān)節(jié)特征的學(xué)習(xí)能力。為了進(jìn)一步優(yōu)化確定性模型得到的結(jié)果,本文將初始姿態(tài)與噪聲結(jié)合,送入由二維信息、時(shí)間步長(zhǎng)和骨長(zhǎng)作為約束的去噪器,經(jīng)過(guò)多步去噪得到更為準(zhǔn)確的關(guān)節(jié)坐標(biāo)位置。實(shí)驗(yàn)表明,本文方法優(yōu)于大多數(shù)現(xiàn)有方法,充分利用了人體結(jié)構(gòu)依賴關(guān)系有助于提升模型性能。未來(lái),將進(jìn)一步探索時(shí)間信息對(duì)于擴(kuò)散模型的作用,并將提出的細(xì)化方法推廣到更多的初始預(yù)測(cè)模型中。
參考文獻(xiàn):
[1]Zheng Ce, Wu Wenhan, Chen Chen, et al. Deep learning-based human pose estimation: a survey [J]. ACM Computing Surveys, 2023, 56(1): 11.
[2]Chen Yuxin, Zhang Ziqi, Yuan Chunfeng, et al. Channel-wise topo-logy refinement graph convolution for skeleton-based action recognition [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 13339-13348.
[3]Kumarapu L, Mukherjee P. AnimePose: multi-person 3D pose estimation and animation [J]. Pattern Recognition Letters, 2021, 147: 16-24.
[4]劉一松, 高含露, 蔡凱祥. 融合時(shí)空?qǐng)D卷積網(wǎng)絡(luò)與非自回歸模型的三維人體運(yùn)動(dòng)預(yù)測(cè) [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(3): 956-960. (Liu Yisong, Gao Hanlu, Cai Kaixiang. Three-dimensional human motion prediction combining spatiotemporal graph convolutional networks and non-autoregressive models [J]. Application Research of Computers, 2024, 41(3): 956-960.)
[5]Pavlakos G, Zhou Xiaowei, Derpanis K G, et al. Coarse-to-fine volumetric prediction for single-image 3D human pose [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1263-1272.
[6]Zhou Xingyi, Huang Qixing, Sun Xiao, et al. Towards 3D human pose estimation in the wild: a weakly-supervised approach [C]// Proc of IEEE International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2017: 398-407.
[7]黃程遠(yuǎn), 宋曉寧, 馮振華. ARGP-Pose: 基于關(guān)鍵點(diǎn)間關(guān)系分析與分組預(yù)測(cè)的3D人體姿態(tài)估計(jì) [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(7): 2178-2182, 2202. (Huang Chengyuan, Song Xiaoning, Feng Zhenhua. ARGP-Pose: 3D human pose estimate based on analysis of relationship between joint points and group prediction [J]. Application Research of Computers, 2022, 39(7): 2178-2182, 2202.)
[8]陳榮桂, 賈振堂. 改進(jìn)的三維人體姿態(tài)估計(jì)算法 [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2024, 33(4): 187-193. (Chen Ronggui, Jia Zhentang. Improved algorithm for 3D human pose estimation [J]. Computer Systems and Applications, 2024, 33(4): 187-193.)
[9]Chen Yilun, Wang Zhicheng, Peng Yuxiang, et al. Cascaded pyramid network for multi-person pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2018: 7103-7112.
[10]Zhao Long, Peng Xi, Tian Yu, et al. Semantic graph convolutional networks for 3D human pose regression [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 3420-3430.
[11]Zou Zhiming, Tang Wei. Modulated graph convolutional network for 3D human pose estimation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 11457-11467.
[12]Zheng Ce, Zhu Sijie, Mendieta M, et al. 3D human pose estimation with spatial and temporal transformers [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 11636-11645.
[13]Li Wenhao, Liu Hong, Ding Runwei, et al. Exploiting temporal contexts with strided transformer for 3D human pose estimation [J]. IEEE Trans on Multimedia, 2022, 25: 1282-1293.
[14]Zhao Weixi, Wang Weiqiang, Tian Yunjie. GraFormer: graphoriented Transformer for 3D pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 20406-20415.
[15]Cai Jialun, Liu Hong, Ding Runwei, et al. HTNet: human topology aware network for 3D Human pose estimation [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2023: 1-5.
[16]Kang Hongbo, Wang Yong, Liu Mengyuan, et al. Double-chain constraints for 3D human pose estimation in images and videos [EB/OL]. (2023-08-10). https://arxiv.org/abs/2308.05298.
[17]Wang Ti, Liu Hong, Ding Runwei, et al. Interweaved graph and attention network for 3D human pose estimation [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2023: 1-5.
[18]Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models [J]. Advances in Neural Information Processing Systems, 2020, 33: 6840-6851.
[19]Song Yang, Ermon S. Generative modeling by estimating gradients of the data distribution "[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019:11918-11930.
[20]Gong Jia, Foo L G, Fan Zhipeng, et al. DiffPose: toward more reliable 3D pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 13041-13051.
[21]Yan Danqi, Gao Qing, Qian Yuepeng, et al. D3PRefiner: a diffusion-based denoise method for 3D human pose refinement [EB/OL]. (2024-01-08). https://arxiv.org/abs/2401.03914.
[22]Shan Wenkang, Liu Zhenhua, Zhang Xinfeng, et al. Diffusion-based 3D human pose estimation with multi-hypothesis aggregation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 14715-14725.
[23]Kang Hongbo, Wang Yong, Liu Mengyuan, et al. Diffusion-based pose refinement and multi-hypothesis generation for 3D human pose estimation [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2024: 5130-5134.
[24]Choi J, Shim D, Kim H J. DiffuPose: monocular 3D human pose estimation via denoising diffusion probabilistic model [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2023: 3773-3780.
[25]Wu Lele, Yu Zhenbo, Liu Yijiang, et al. Limb pose aware networks for monocular 3D pose estimation [J]. IEEE Trans on Image Processing, 2021, 31: 906-917.
[26]Ionescu C, Papava D, Olaru V, et al. Human3.6M: large scale datasets and predictive methods for 3D human sensing in natural environments [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1325-1339.
[27]Paszke A, Gross S, Massa F, et al. PyTorch: an imperative style, high-performance deep learning library [EB/OL]. (2019-12-03). https://arxiv.org/abs/1912.01703.