亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于密集深度插值的3D人體姿態(tài)估計方法

        2021-07-09 08:00:56陳夢婷王興剛劉文予
        關(guān)鍵詞:關(guān)鍵點(diǎn)深度模型

        陳夢婷, 王興剛, 劉文予

        (華中科技大學(xué) 電子信息與通信學(xué)院,湖北 武漢 430074)

        0 引言

        人體姿態(tài)估計一直是計算機(jī)視覺領(lǐng)域[1]中一個非?;A(chǔ)卻又非常具有挑戰(zhàn)性的任務(wù)。在給定圖像或視頻的情況下,預(yù)測人體關(guān)鍵點(diǎn)的2D或3D位置信息,這對于虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、自動駕駛等需要空間推理的應(yīng)用場景而言是至關(guān)重要的。得益于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的快速發(fā)展以及大規(guī)模手動注釋的數(shù)據(jù)集的獲取,目前在2D人體姿態(tài)估計方面已經(jīng)取得了重大進(jìn)展。

        反觀3D人體姿態(tài)估計的進(jìn)展仍然有限,主要是由于在不受限制的環(huán)境中難以獲得人體關(guān)節(jié)3D位置的真實(shí)標(biāo)簽?,F(xiàn)有的數(shù)據(jù)集(例如Human3.6M[2])是使用Mocap系統(tǒng)在受限的室內(nèi)實(shí)驗(yàn)室環(huán)境中收集的,這樣采集得到的數(shù)據(jù)集無論是在視角還是在光照和場景的變化上都比較單一。雖然深度卷積神經(jīng)網(wǎng)絡(luò)能夠很好地擬合這類數(shù)據(jù)集,但將這樣訓(xùn)練得到的模型運(yùn)用到僅有2D標(biāo)注的不受限的場景圖片上時(例如MPII[3]、MPI-INF-3DHP[4]),模型的表現(xiàn)往往不盡如人意。

        研究發(fā)現(xiàn),雖然人體是一個可以活動的結(jié)構(gòu),但是單個軀干(比如上臂、大腿等)可以近似看作是剛體結(jié)構(gòu)。雖然數(shù)據(jù)集僅僅標(biāo)注了關(guān)鍵點(diǎn)的3D信息,本文可以利用軀干兩端的深度,通過密集插值估算出整個軀干的深度信息,從而構(gòu)成密集深度插值特征圖。本文將這個深度特征圖作為模型訓(xùn)練的中間監(jiān)督,這樣可以為模型提供一個更加結(jié)構(gòu)化的學(xué)習(xí)目標(biāo),而不僅僅是學(xué)習(xí)離散關(guān)鍵點(diǎn)的信息,從而有效提高模型的泛化能力,避免過擬合。而且在3個維度的學(xué)習(xí)過程中,深度學(xué)習(xí)往往是最具有難度的,通過密集深度特征圖,可以讓模型學(xué)習(xí)到結(jié)構(gòu)化的深度信息,從而緩解因?yàn)檎趽?、視覺變形帶來的誤差。

        1 相關(guān)工作

        1.1 2D人體姿態(tài)估計

        樹形結(jié)構(gòu)模型最早被用來解決2D人體姿態(tài)估計問題,比如pictoral structures[5]和mixtures of body parts[6],其主要思路是設(shè)計一個用于檢測人體關(guān)節(jié)的一元項,加上用于模擬人體2個關(guān)節(jié)之間的成對關(guān)系的成對項。還有傳統(tǒng)方法中建立四肢之間外觀的對稱性模型或是設(shè)計兩臂之間的排斥邊緣,以解決重復(fù)計數(shù)問題[7]。最近,DCNN取得了令人矚目的進(jìn)展[8]。相較于直接回歸關(guān)鍵點(diǎn)的坐標(biāo)[8],目前更常見的做法是使用熱力圖,即以人體關(guān)節(jié)位置為中心的二維高斯生成的特征圖作為模型回歸的目標(biāo)。常見的主干網(wǎng)絡(luò)有ResNet[9]、hourglass[10]和multi-stage網(wǎng)絡(luò)[11]。本文使用最新的HRNet[12]作為網(wǎng)絡(luò)的主干架構(gòu)。

        1.2 3D人體姿態(tài)估計

        3D人體姿態(tài)估計與2D人體姿態(tài)估計一直有很多相關(guān)之處。Lee等[13]首先研究了從相應(yīng)的2D投影中來推斷3D關(guān)鍵點(diǎn)的方法。后來的方法有的是利用最近臨近算法來完善姿態(tài)推斷[14],有的是提取手工特征來完成回歸[15]。

        后來越來越多的研究致力于利用深度神經(jīng)網(wǎng)絡(luò)來完成這一任務(wù)。可以大致分為單階段方法和兩階段方法。單階段的方法希望可以直接由輸入圖像得到3D人體姿態(tài)的估計結(jié)果。Pavlakos等[16]提出了3D關(guān)節(jié)的體積表示,并使用了從粗粒度到精粒度的策略來迭代地精修預(yù)測結(jié)果。此類方法都需要具有相應(yīng)3D標(biāo)注的圖像。由于缺乏帶有3D標(biāo)注的室外場景圖像,這些方法往往會在跨域數(shù)據(jù)集上效果較差。Yang等[17]將3D姿態(tài)估計器看作是生成器,并使用對抗學(xué)習(xí)的方法生成令判別器無法區(qū)分的3D姿態(tài),以保證預(yù)測結(jié)果結(jié)構(gòu)上的真實(shí)性。而兩階段方法主要是先學(xué)習(xí)一個2D人體姿態(tài)估計的模型,再學(xué)習(xí)從2D到3D的映射模型。比如在2D人體姿態(tài)估計模型的后面加一個優(yōu)化模型[18]或者是回歸模型[19-20]來完成對3D姿態(tài)的估計。比如Martinez等[20]引入了一種簡單而有效的方法,可以僅通過對關(guān)鍵點(diǎn)的2D預(yù)測得到3D關(guān)鍵點(diǎn)的預(yù)測結(jié)果。Fang等[21]通過姿勢語法網(wǎng)絡(luò)進(jìn)一步擴(kuò)展了這種方法。這類方法往往能更好地泛化到其他室外場景數(shù)據(jù)集上。

        2 密集插值姿態(tài)估計網(wǎng)絡(luò)

        2.1 密集深度插值

        作為3D關(guān)鍵點(diǎn)任務(wù)檢測,數(shù)據(jù)集只有離散的關(guān)鍵點(diǎn)的3D標(biāo)注信息,所以很多方法僅僅通過2D的熱力圖作為中間特征,來幫助最后的3D回歸。本文發(fā)現(xiàn),雖然人體是非常靈活的結(jié)構(gòu),但是單獨(dú)去看人體的某個軀干(比如左小臂、右大腿),可以近似地把它們看作一個剛體。因此,當(dāng)僅僅只知道軀干兩端點(diǎn)的深度信息時,可以近似估計出整個軀干的深度。

        如圖1所示,此處以一個小臂為例。Pw和Pe代表關(guān)鍵點(diǎn)手腕w(wrist)和手肘e(elbow)的2D位置,它們構(gòu)成第m個軀干。這兩點(diǎn)的深度真實(shí)值分別為Dm(Pw)和Dm(Pe)。那么Pw和Pe連線上的任意點(diǎn)P′的深度Dm(P′)都可以通過線性插值進(jìn)行估算:

        圖1 密集深度插值示意圖Figure 1 Diagram of dense depth interpretation map

        (1)

        不僅僅是兩點(diǎn)連線上的點(diǎn),本文對于位于軀干上的點(diǎn)P1都可以給出估計深度,只要P1滿足:

        (2)

        除了上述矩形空間,本文對關(guān)鍵點(diǎn)附近的區(qū)域點(diǎn)P2也進(jìn)行了深度估計:

        (3)

        (4)

        所有滿足式(3)范圍內(nèi)的點(diǎn)的深度等于Dm(Pe);所有滿足式(4)范圍內(nèi)的點(diǎn)的深度等于Dm(Pw)。最后得到的范圍區(qū)域以及對應(yīng)的預(yù)估深度圖如圖1所示。

        每個軀干由一個單獨(dú)的特征通道表示,本文采用一共有16個關(guān)鍵點(diǎn)組成的15個軀干,因此密集深度插值構(gòu)成的目標(biāo)特征共有15個通道,如圖2所示。每個通道僅有部分屬于軀干的點(diǎn)才有深度回歸的目標(biāo),其他點(diǎn)因?yàn)闆]有目標(biāo)值,所以在計算損失函數(shù)時不考慮。最后構(gòu)造得到的目標(biāo)特征圖用D表示,它的第m個通道為Dm,代表第m個軀干的連續(xù)深度分布。

        圖2 人體軀干示意圖Figure 2 Diagram of human body

        2.2 輔助2D熱力圖

        上述密集深度插值特征既包含了軀干在2D平面的位置信息,還包括了軀干的連續(xù)深度值。但是相對而言學(xué)習(xí)起來比較困難。為了能夠更好地學(xué)習(xí)擬合該特征圖,本文用另外兩個2D熱力圖作為輔助分支,如圖3所示。

        圖3 輔助2D熱力圖示意圖Figure 3 Diagram of auxiliary 2D heat map

        在關(guān)鍵點(diǎn)熱力圖中,每個關(guān)鍵點(diǎn)單獨(dú)占一個通道。假設(shè)Pk是第k個點(diǎn)在圖像中的真實(shí)位置,且Pk∈R2。那么第k個關(guān)鍵點(diǎn)在位置P的置信度為

        (5)

        其中,σ控制山峰的陡峭程度。由此構(gòu)造得到的輔助2D熱力圖如圖3 (b)所示。

        上述輔助2D熱力圖僅僅表征了關(guān)鍵點(diǎn)的2D位置,為了能更好地輔助軀干的深度圖,本文構(gòu)造了另一個代表軀干位置置信度的熱力圖。同樣,本文以Pw和Pe代表關(guān)鍵點(diǎn)手腕w(wrist)和手肘e(elbow)的2D位置為例,它們構(gòu)成第m個軀干。對于所有滿足式(2)的點(diǎn)P1屬于第m個軀干的置信度為

        (6)

        對于所有滿足式(3)或式(4)的點(diǎn)P2,它們的置信度分別為

        (7)

        由此構(gòu)造得到的輔助熱力圖如圖3(c)所示。

        2.3 整體網(wǎng)絡(luò)結(jié)構(gòu)

        當(dāng)獲取了上述3個目標(biāo)特征圖后,網(wǎng)絡(luò)的整體框架如圖4所示。整個訓(xùn)練過程分為2個階段。第一個階段是輸入圖像到中間特征的訓(xùn)練。這里的Backbone使用的是HRNet[12]結(jié)構(gòu),本文的最后一個模塊分成3個不同的分支,來分別預(yù)測3個特征圖,之前的所有網(wǎng)絡(luò)都是共享參數(shù)。對于關(guān)鍵點(diǎn)和軀干的熱力圖,本文使用的是均方誤差(MSE)損失函數(shù)。輔助關(guān)鍵點(diǎn)熱力圖的損失函數(shù)為

        圖4 模型整體框架圖Figure 4 Diagram of model structure

        (8)

        因?yàn)閷τ谲|干而言,不同的軀干的長度差異較大,為了避免因非0值的數(shù)量造成的差異,本文設(shè)置權(quán)重因子來平衡這種差異:

        (9)

        (10)

        對于密集深度插值特征圖,因?yàn)橹豢紤]軀干位置的深度,其他位置不參與損失函數(shù)的計算,所以通過軀干的輔助熱力圖對不考慮的點(diǎn)的損失函數(shù)設(shè)置為0,并且也通過權(quán)重因子來平衡不同軀干的權(quán)重:

        (11)

        L1=LD+w2D(LS+LQ)。

        (12)

        式中:w2D是輔助2D任務(wù)所占的權(quán)重。

        第一階段訓(xùn)練完成之后,用將第一階段模型預(yù)測得到的3個輸出作為輸入,通過網(wǎng)絡(luò)直接回歸最后的3D姿態(tài)。使用的網(wǎng)絡(luò)是由卷積層、最大池化層、ReLU層以及全連接層組合得到。最后得到關(guān)鍵點(diǎn)的3D位置預(yù)測,采用兩階段的訓(xùn)練方式,主要是為了防止回歸網(wǎng)絡(luò)過擬合,中間監(jiān)督失去作用,從而使網(wǎng)絡(luò)的泛化性能變差。

        3 實(shí)驗(yàn)結(jié)果

        3.1 數(shù)據(jù)集

        在3個最常見的人體姿態(tài)估計數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Human3.6M[1]數(shù)據(jù)集是最大的3D人體姿態(tài)估計數(shù)據(jù)集,它包含了3.6×106張圖片,來自11個人。每人會表演15個日常動作,比如:吃、坐下、行走和拍照等。數(shù)據(jù)集的3D姿態(tài)真實(shí)標(biāo)簽由Mocap系統(tǒng)獲取,2D姿態(tài)真實(shí)標(biāo)簽可以通過已知的攝像機(jī)內(nèi)外部參數(shù)投影得到。參照Human3.6M上的標(biāo)準(zhǔn)協(xié)議,評估指標(biāo)為在對齊根關(guān)節(jié)深度后,所有關(guān)節(jié)的真實(shí)值與預(yù)測值的平均位置誤差(MPJPE),單位為mm。

        MPI-INF-3DHP[4]數(shù)據(jù)集是最近提出的由Mocap系統(tǒng)構(gòu)建的3D人體姿態(tài)數(shù)據(jù)集。本文僅使用該數(shù)據(jù)集的測試集,其中包含來自6個人的7個動作,共2 929張樣本。本文用3DPCK(閾值150 mm)和AUC兩個指標(biāo)來定量評估模型的泛化能力。

        MPII[3]數(shù)據(jù)集是2D人體姿態(tài)估計任務(wù)中使用最廣泛的數(shù)據(jù)集之一。它包含從YouTube視頻中收集的2.5萬張圖像。數(shù)據(jù)集提供了2D標(biāo)注,但沒有3D的標(biāo)注。因此,直接使用此數(shù)據(jù)集進(jìn)行3D姿態(tài)估計訓(xùn)練是不可行的,故本文將此數(shù)據(jù)集用于多任務(wù)網(wǎng)絡(luò)的訓(xùn)練。

        3.2 實(shí)驗(yàn)結(jié)果

        在目前最常用的3D人體姿態(tài)估計數(shù)據(jù)集Human3.6M上進(jìn)行了評估。和之前的許多方法一樣,在第一階段的訓(xùn)練過程中,聯(lián)合MPII數(shù)據(jù)一起訓(xùn)練。因?yàn)镸PII只有2D標(biāo)注, 所以只參與輔助2D分支的訓(xùn)練。詳細(xì)的結(jié)果和對比如表1所示??梢钥闯?,本文方法和之前的方法相比,結(jié)構(gòu)更加清晰簡單,而且具有更好的性能。

        表1 在Human3.6M上的MPJPE比較結(jié)果Table 1 Results of MPJPE on Human3.6M mm

        3.3 跨域泛化結(jié)果

        本文使用數(shù)據(jù)集MPI-INF-3DHP來驗(yàn)證模型到另一個全新的3D人體姿態(tài)估計數(shù)據(jù)集上的跨域遷移能力,該數(shù)據(jù)集的所有數(shù)據(jù)都不會參與訓(xùn)練過程,比較結(jié)果如表2所示??梢钥闯?,通過密集插值特征圖訓(xùn)練得到的模型具有更強(qiáng)的泛化遷移能力。

        表2 在MPI-INF-3DHP上的跨域驗(yàn)證實(shí)驗(yàn)結(jié)果Table 2 Results of domain transfer on MPI-INF-3DHP mm

        模型在數(shù)據(jù)集MPI-INF-3DHP[4]上的可視化結(jié)果如圖5所示??梢钥闯?,即使在出現(xiàn)物體遮擋或者姿態(tài)比較獨(dú)特的時候,本文的模型也可以給出精確的結(jié)果。

        圖5 在數(shù)據(jù)集MPI-INF-3DHP上的可視化結(jié)果Figure 5 Visualization on MPI-INF-3DHP

        3.4 消融實(shí)驗(yàn)

        首先比較了分兩個階段訓(xùn)練與單階段聯(lián)合訓(xùn)練的區(qū)別,實(shí)驗(yàn)結(jié)果如表3所示??梢钥闯?,如果采用單一階段的訓(xùn)練方式,在Human3.6M上的MPJPE結(jié)果會有細(xì)微提升,但是如用訓(xùn)練好的模型直接在數(shù)據(jù)集MPI-INF-3DHP做跨域驗(yàn)證時,3DPCK和AUC都有大幅度下降,說明只有分兩階段訓(xùn)練,才能強(qiáng)制模型去學(xué)習(xí)有用的結(jié)構(gòu)化信息,而不是直接去擬合離散關(guān)鍵點(diǎn)。這也進(jìn)一步證明了本文所提出的密集深度插值特征圖可以為模型帶來更強(qiáng)的泛化能力。

        表3 不同訓(xùn)練方式在Human3.6M和 MPI-INF-3DHP上的結(jié)果Table 3 Results of different training strategy on Human3.6M and MPI-INF-3DHP mm

        4 結(jié)論

        提出了一種基于線性插值的密集深度插值特征圖作為3D人體姿態(tài)估計任務(wù)的中間監(jiān)督,并通過兩個輔助2D熱力圖來降低學(xué)習(xí)難度。通過在公認(rèn)基準(zhǔn)Human3.6M上的實(shí)驗(yàn)證明了該特征圖的有效性和簡潔性。并通過在MPI-INF-DHP上的跨域驗(yàn)證實(shí)驗(yàn)展示了模型強(qiáng)大的泛化遷移能力。由此可以看出,用結(jié)構(gòu)化的深度信息作為學(xué)習(xí)目標(biāo)可以有效地提高模型的性能。這種結(jié)構(gòu)化也可以直接拓展到整個3D空間,將這種插值結(jié)構(gòu)信息的作用發(fā)揮到最大,這也是本文未來的研究目標(biāo)之一。

        猜你喜歡
        關(guān)鍵點(diǎn)深度模型
        一半模型
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個關(guān)鍵點(diǎn)
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        深度觀察
        深度觀察
        深度觀察
        3D打印中的模型分割與打包
        亚洲а∨精品天堂在线| 久久精品人妻中文av| 最新日本人妻中文字幕| 国产精品亚洲lv粉色| 欧美俄罗斯乱妇| 无码中文字幕av免费放| av毛片亚洲高清一区二区 | 亚洲国产精品无码久久久| av片在线观看免费| 妺妺窝人体色www聚色窝| 91久久大香伊蕉在人线国产| 亚洲成熟女人毛毛耸耸多 | 亚洲成aⅴ人在线观看| 亚洲亚洲亚洲亚洲亚洲天堂| 一本色道久久亚洲av红楼| 久久狠狠爱亚洲综合影院| 无码人妻品一区二区三区精99| 天天中文字幕av天天爽| 亚洲国产国语对白在线观看| 欧美精品videosse精子| 小12萝8禁在线喷水观看| 无码一区二区三区久久精品| 玖玖资源站亚洲最大的网站| 玩弄丰满奶水的女邻居| 中文字幕欧美一区| 少妇一区二区三区乱码| 免费的日本一区二区三区视频 | 日韩人妻无码中文字幕一区| 国产精品女同一区二区软件| 国产激情综合在线观看| 亚洲国产成人久久综合一区77 | 色婷婷久久99综合精品jk白丝 | 中文字幕色婷婷在线视频| 免费av一区二区三区| 97久久天天综合色天天综合色hd| 日韩av中出在线免费播放网站| 精品高清一区二区三区人妖| 国产精品毛片一区二区三区| 亚州综合激情另类久久久| 91久久精品一区二区喷水喷白浆| 综合图区亚洲另类偷窥|