王發(fā)明,李建微,陳思喜
福州大學(xué) 物理與信息工程學(xué)院,福州350116
人體姿態(tài)估計是計算機視覺領(lǐng)域很多研究工作的基礎(chǔ),也是研究的熱點問題,在行為識別[1]、人機交互[2]、姿態(tài)跟蹤等領(lǐng)域有著廣泛的應(yīng)用前景。人體姿態(tài)估計的目的是在圖片、視頻以及網(wǎng)絡(luò)攝像頭視頻流等對象中描繪出人體的形態(tài),其包含了目標識別、分割、回歸與檢測等多方面的任務(wù)。按照人體姿態(tài)維度的差異,可以將人體姿態(tài)估計任務(wù)分為二維(2D)人體姿態(tài)估計和三維(3D)人體姿態(tài)估計。其中2D 人體姿態(tài)估計是目前國內(nèi)外學(xué)者主要研究的方向,近年來取得了突破性進展,涌現(xiàn)出較多的數(shù)據(jù)集,例如FLIC[3]、ΜPII[4]、ΜSCOCO[5],算法框架包括單人姿態(tài)估計[6-9]和多人姿態(tài)估計[10-13],大大提升了2D 人體姿態(tài)估計的性能。2D 人體姿態(tài)估計的目標是定位并識別出人體關(guān)鍵點,將這些關(guān)鍵點按照關(guān)節(jié)順序相連形成在圖像二維平面的投影,從而得到人體骨架。3D人體姿態(tài)估計的主要任務(wù)是預(yù)測出人體關(guān)節(jié)點的三維坐標位置和角度等信息。由于人體姿態(tài)標記數(shù)據(jù)集的缺乏,使得大多數(shù)研究方法都基于2D 人體姿態(tài)估計方法之上,因此2D 人體姿態(tài)估計研究的發(fā)展也為3D人體姿態(tài)估計奠定了基礎(chǔ),使得3D人體姿態(tài)估計研究有著巨大的潛力。
在實際應(yīng)用中,由于3D姿態(tài)估計在2D姿態(tài)估計的基礎(chǔ)上加入了深度信息,其對于人體姿態(tài)的表述比2D更為精準,因此其應(yīng)用范圍和研究價值都要高于2D 人體姿態(tài)估計,但是3D姿態(tài)估計的難度也更高,存在著遮擋,單視角2D 到3D 的映射中固有的深度模糊性、不適定性,缺少大型的室外數(shù)據(jù)集等挑戰(zhàn)。由于三維人體姿態(tài)估計的重要性,本文主要總結(jié)3D 人體姿態(tài)估計的研究進展。
在目前的研究中,三維人體姿態(tài)估計方法可以劃分為傳統(tǒng)方法和深度學(xué)習(xí)方法兩類。在深度學(xué)習(xí)方法得到廣泛應(yīng)用之前,3D 人體姿態(tài)標注數(shù)據(jù)集和具有高運算能力的GPU 還沒有普及,研究人員主要通過一些應(yīng)用在傳統(tǒng)計算機視覺或機器學(xué)習(xí)領(lǐng)域的方法來進行3D人體姿態(tài)的估計。傳統(tǒng)三維人體姿態(tài)估計和基于深度學(xué)習(xí)的姿態(tài)估計之間最明顯的特征在于是否使用了多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,因為建模方式不同,在估計精確性、計算復(fù)雜度等方面也有著較大的差別。其中建模是三維人體姿態(tài)估計一個很重要的方面,目的是表示從輸入數(shù)據(jù)中提取的關(guān)鍵點和特征。在解決實際問題時由于實驗個體所處環(huán)境的復(fù)雜性,很大程度上增加了模型的建立難度,因此選取適當(dāng)且有效的圖像特征來簡化模型建立過程十分重要。傳統(tǒng)方法很多是采用基于人體模型的方法來描述和推斷人體姿態(tài),通過算法提取圖像姿態(tài)特征,因此對特征表示和關(guān)鍵點的空間位置關(guān)系這兩個維度有比較高的要求,除去邊界、顏色這類低層次特征,典型的有尺度不變特征變換(Scale Invariant Feature Transforms,SIFT)[14]、梯度直方圖(Histogram of Oriented Gradients,HOG)[15]等表達能力更強、可有效壓縮特征空間維度的高層次特征,它們雖然在時間效率方面具有優(yōu)勢,但依然是由人工設(shè)計的傳統(tǒng)特征,存在著較大的不足。一方面會丟失圖像部分細節(jié)信息,會受到遮擋、固有幾何模糊性等限制而導(dǎo)致嚴重不適定問題,同時也會大大限制傳統(tǒng)方法的適用范圍;另一方面對所采集的圖像視頻數(shù)據(jù)有一定的要求,無論是使用多目攝像頭還是單目攝像頭,都容易受到采集成本、遮擋、光照、環(huán)境等因素的影響。而深度學(xué)習(xí)模型操作過程相對簡單且對特征的表示能力強大,對輸入信息自動進行特征提取而無需人為手動提取特征?;谏疃葘W(xué)習(xí)的人體姿態(tài)估計可以通過建立網(wǎng)絡(luò)模型在圖像數(shù)據(jù)上進行訓(xùn)練和學(xué)習(xí),直接得到最有效的表征方法,其核心是深度神經(jīng)網(wǎng)絡(luò),主要是利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[16]從圖像中提取出比人工特征語義信息更豐富、準確性更高和更具魯棒性的卷積特征,并且網(wǎng)絡(luò)模型的表達能力會因網(wǎng)絡(luò)堆疊數(shù)量的增加而呈指數(shù)增長,因此相較于傳統(tǒng)方法可以進一步提升復(fù)雜環(huán)境下的人體姿態(tài)的精度和魯棒性。深度學(xué)習(xí)在人體姿態(tài)估計任務(wù)中的應(yīng)用已經(jīng)取得了顯著的進展,然而像遮擋、訓(xùn)練數(shù)據(jù)不足和深度模糊等挑戰(zhàn)仍然是難以克服的。
本文將對三維人體姿態(tài)估計按圖1 進行分類綜述??傮w上,將三維人體姿態(tài)估計分為基于傳統(tǒng)方法和基于深度學(xué)習(xí)方法兩類。主要從相關(guān)方法的研究進展、算法框架的優(yōu)缺點和性能等方面進行介紹和舉例說明。基于深度學(xué)習(xí)的三維人體姿態(tài)估計是目前的研究熱點,因此將著重從三方面對基于深度學(xué)習(xí)的人體姿態(tài)估計的重要算法框架和研究進展進行介紹。其次,根據(jù)研究需要對3D人體姿態(tài)估計的數(shù)據(jù)集及評價指標進行系統(tǒng)性介紹。最后,本文將對當(dāng)前研究面臨的問題以及未來的發(fā)展趨勢進行概述,為這個領(lǐng)域的研究者提供參考。
圖1 三維人體姿態(tài)估計方法分類
早期的三維人體姿態(tài)估計通常是計算機視覺和機器學(xué)習(xí)領(lǐng)域的研究熱點,相關(guān)方法取得了很不錯的效果。傳統(tǒng)三維人體姿態(tài)估計研究大致可以分為三類:基于生成方法的人體姿態(tài)估計、基于判別方法的人體姿態(tài)估計以及基于模板匹配方法的人體姿態(tài)估計。其中基于模板匹配的方法可以說是混合前兩者方法的三維人體姿態(tài)估計。這些方法之間的總結(jié)和對比如表1所示。
在傳統(tǒng)方法中,特征的提取和圖結(jié)構(gòu)模型(Pictorial Structure Μodel,PSΜ)[17]在姿態(tài)估計中都扮演了非常重要的角色。PSΜ 將人體視為關(guān)節(jié)結(jié)構(gòu)集合[18-19],這些關(guān)節(jié)結(jié)構(gòu)之間具有一定的空間約束,關(guān)節(jié)部位之間的空間關(guān)系對于3D姿勢來說更便于實現(xiàn)關(guān)節(jié)點檢測。將生成方法運用在3D 人體姿態(tài)估計上,主要內(nèi)容是建立具有參數(shù)的人體模型[20],賦予模型不同的參數(shù)即可得到不同的姿態(tài),因此使用生成方法進行人體估計可以被轉(zhuǎn)化為尋找參數(shù)使得模型生成的圖像與實際圖像之間差別最小化,即抽象成最優(yōu)化問題。因此基于生成方法的人體姿態(tài)估計的核心問題就是建立人體模型,選擇優(yōu)化函數(shù)和目標函數(shù),通過得到較好的初始化條件和在高維姿態(tài)空間中進行搜索,往往就可以得到比較精確的估計結(jié)果。
表1 基于傳統(tǒng)方法的三維人體姿態(tài)估計方法
文獻[19]將PSΜ 應(yīng)用于空間離散化的三維姿態(tài)估計,但是隨著離散化的分辨率、位姿空間呈立方形增長,其結(jié)構(gòu)也變得愈加復(fù)雜。文獻[20]提出的基于條件先驗人體模型的人體姿態(tài)估計獲得了更高的估計準確度。對構(gòu)建的人體姿態(tài)模型的姿態(tài)參數(shù)空間進行搜索的方法包括迭代最近點算法[21]、高斯混合模型[22]、基于馬爾科夫鏈的蒙特卡洛采樣方法[23]等,在參數(shù)空間中進行搜索,雖然得到的準確度較高,但是由于算法復(fù)雜,運算量大,而無法保證實時性。另外人體模型的初始化參數(shù)對于找到最優(yōu)解的姿態(tài)有重要影響,一個好的初始化方法可以在對人體參數(shù)進行空間搜索時所需的時間更短,反之需要更多時間,從而在很大程度上影響了算法的實時性。
針對基于生成方法的不足,研究人員提出了基于判別方法的人體姿態(tài)估計[24-28],其優(yōu)點是不需預(yù)先生成人體姿態(tài)模型和初始化,運算速度較快。判別方法把姿態(tài)估計看作一個回歸問題,首先通過分類算法對人體部位進行判別,通過打點的方式對估計出的人體關(guān)節(jié)點進行標定,再通過聚類算法得出這些點的中心,最后通過一個預(yù)訓(xùn)練的回歸器對各個關(guān)鍵點位置進行精確的估計。但是判別方法在樣本不足,尤其是在遮擋情況下很難保證算法的魯棒性,另外對于需要使用標注數(shù)據(jù)進行訓(xùn)練的判別器,訓(xùn)練數(shù)據(jù)的質(zhì)量在很大程度上影響著最終估計的精度。
基于判別方法的算法從圖像中提取特征后,學(xué)習(xí)從特征空間到姿態(tài)空間的映射。由于人體骨骼的關(guān)節(jié)結(jié)構(gòu)、關(guān)節(jié)位置高度相關(guān),為了考慮輸出變量之間的相關(guān)性,Ionescu等人[24]提出了一種基于潛在分割輸入的判別式單目圖像三維人體姿態(tài)自動重建方法,所提出的模型可以從復(fù)雜環(huán)境中捕捉到的單目圖像以推斷出人類的姿勢。Shotton 等人[25]訓(xùn)練了一個回歸森林用于將輸入的深度圖像按照身體部位進行聚類,并利用均值漂移算法來估計關(guān)節(jié)位置。Chang等人[26]使用一個隨機分類森林來判斷前景中的每一個可見像素點屬于哪一個身體部位,并使用隨機回歸森林來估計所有人體關(guān)節(jié)點。Park 等人[27]在文獻[26]基礎(chǔ)上引入一個隨機驗證森林,用于消除由于自遮擋導(dǎo)致的干擾。Ramakrishna等人[28]采用多個分層次的多分類器的級聯(lián)來實現(xiàn)對關(guān)節(jié)位置的估計,在一定程度上解決了遮擋的問題。但是上述預(yù)測模型同樣存在模型復(fù)雜、模型參數(shù)過多、計算復(fù)雜度高的問題。夏嘉欣等人[29]提出一種全新的思路,將帶有噪聲輸入的稀疏高斯過程應(yīng)用于三維人體姿態(tài)估計問題,利用稀疏算法與帶有噪聲輸入的算法這兩種優(yōu)化算法進行模型改進,在降低計算復(fù)雜性的同時,使得算法在輸入噪聲的影響下獲得更好的預(yù)測精度。相較于現(xiàn)有算法而言,該算法具有更強大的數(shù)學(xué)基礎(chǔ)與泛化能力,可以推廣應(yīng)用于多種結(jié)構(gòu)化預(yù)測問題。
在幾何先驗的基礎(chǔ)上進行模板匹配的骨骼關(guān)鍵點檢測算法是主流算法之一,其核心是通過對關(guān)鍵點、肢體機構(gòu)以及不同肢體結(jié)構(gòu)之間關(guān)系來表示整個人體結(jié)構(gòu)。通過提出良好的模板匹配思路和方法,可以模擬更多的姿態(tài)范圍,甚至能夠更好地匹配并檢測出對應(yīng)的人體姿態(tài)。以往的研究中主要有兩種方式:第一種是通過基于生成和判別的混合方法,來綜合利用其優(yōu)點,Ganapathi 等人[30]使用預(yù)訓(xùn)練的判別模型對人體部位進行估計,基于生成方法的估計過程因為快速運動或遮擋,受到影響時使用判別方法將得到的結(jié)果初始化。另外一種方式是采用數(shù)據(jù)驅(qū)動的模板匹配方法進行姿態(tài)估計,再由生成方法對姿態(tài)進行精確調(diào)整[31-32]。但是目前都沒有一種高效且精確的模板匹配方法。另外建立姿態(tài)模板庫需要花費建立與維護模板庫的成本,其次模板的類別過少會影響初始化的過程,模板類別過多會增加搜索的成本,對解決遮擋問題也作用有限。最后,目前也缺少一種從輸入的原始數(shù)據(jù)中提取更具有區(qū)分度的特征提取算法,因此使用這類方法的研究已經(jīng)很少。
由于深度學(xué)習(xí)方法在特征提取方面相對于傳統(tǒng)人工設(shè)計特征方法具有明顯的優(yōu)勢,在三維人體姿態(tài)估計任務(wù)中基于深度學(xué)習(xí)的方法逐漸興起,深度學(xué)習(xí)可以將特征提取交由網(wǎng)絡(luò)來獲得更高層的語義特征,而不需要像傳統(tǒng)方法進行預(yù)先的特征提取。首先經(jīng)過深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,其次根據(jù)特征圖得到最終的骨骼關(guān)鍵點位置。深度學(xué)習(xí)這種自學(xué)習(xí)特征表達方法,相較于傳統(tǒng)的依靠先驗知識的表達方法具有更好的效果,而且具備遷移學(xué)習(xí)特性的深度學(xué)習(xí),可以較好地將在大數(shù)據(jù)集上訓(xùn)練的模型在小數(shù)據(jù)集上應(yīng)用。因此基于深度學(xué)習(xí)的三維人體姿態(tài)估計是目前主流的研究方法,主要分為以下三類:基于直接回歸的三維人體姿態(tài)估計、基于2D信息的三維人體姿態(tài)估計以及基于混合方法的三維人體姿態(tài)。基于深度學(xué)習(xí)的三維人體姿態(tài)估計方法的原理示意圖如圖2所示。
圖2 基于深度學(xué)習(xí)的三維人體姿態(tài)估計方法示意圖
基于直接回歸的人體姿態(tài)估計也可稱為基于端到端的人體姿態(tài)估計,即利用一個大的網(wǎng)絡(luò)結(jié)構(gòu)處理所有的數(shù)據(jù)內(nèi)容。由于深度神經(jīng)網(wǎng)絡(luò)可以擬合復(fù)雜的函數(shù),這一步通常不需要其他算法輔助和其他中間數(shù)據(jù),因此可以直接基于回歸的網(wǎng)絡(luò)結(jié)構(gòu)由單圖直接預(yù)測三維姿態(tài)坐標,其優(yōu)勢在于整個網(wǎng)絡(luò)模型可以達到端到端的訓(xùn)練效果,在應(yīng)用過程中也是端到端的輸出,但是這種方法對網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)預(yù)處理的要求較高。
Li 等人[33]首次利用這種深度學(xué)習(xí)的方法進行三維人體姿態(tài)估計的工作,訓(xùn)練一個網(wǎng)絡(luò),直接從圖像中回歸計算三維人體關(guān)節(jié)位置。該方法采用多任務(wù)訓(xùn)練框架,如圖3所示,任務(wù)分為關(guān)節(jié)點檢測與回歸兩類,它們共用前面的特征,檢測任務(wù)分類局部窗口是否包含指定關(guān)節(jié),回歸任務(wù)計算關(guān)節(jié)點與根關(guān)節(jié)點的相對位置。訓(xùn)練方法較為特殊,首先單獨做一個目標檢測的視覺任務(wù),然后將用來做特征提取部分的CNN 層作為三維人體姿態(tài)估計的初始化模型,并丟棄目標檢測網(wǎng)絡(luò)頭部分進行訓(xùn)練回歸任務(wù),最終得到估計結(jié)果。Park等人[34]提出的網(wǎng)絡(luò)結(jié)構(gòu)與其相似,不同點在于使用二維姿態(tài)估計作為另一個任務(wù)分支的監(jiān)督,通過將2D 姿態(tài)估計結(jié)果與來自圖像的特征進行級聯(lián)來估計3D 姿態(tài),通過結(jié)合相關(guān)多個關(guān)節(jié)而不只是一個根關(guān)節(jié)的相對位置信息,可以獲得更準確的3D 姿勢。Tekin 等人[35]對無監(jiān)督自動編碼器進行了預(yù)訓(xùn)練,學(xué)習(xí)三維姿態(tài)到高維潛在空間的映射,對關(guān)節(jié)之間的結(jié)構(gòu)依賴性進行編碼,從而加強姿態(tài)的結(jié)構(gòu)約束,然后使用淺層網(wǎng)絡(luò)來學(xué)習(xí)高維姿態(tài)表示。由于使用了編碼器多步輸出,而不是使用對應(yīng)步的單一定長向量,從而保留了更多的信息。
熱力圖(Heatmap)回歸能保留圖像中更多的信息,使用人體骨骼關(guān)鍵點熱力圖是2D人體姿態(tài)估計問題中比較主流的一種方法,同樣可以應(yīng)用到3D 人體姿態(tài)估計中。Tekin 等人[36]和Zhou 等人[37]利用2D 熱力圖代替2D姿態(tài)作為估計3D姿態(tài)的中間表示。Pavlakos等人[38]將2D姿態(tài)估計問題中使用的骨骼關(guān)鍵點熱力圖和堆疊沙漏模型(Stacked Hourglass Network,SHN)[39]擴展到三維空間,考慮到Z 軸深度的值域范圍很大,因此提出coarse-to-fine 的結(jié)構(gòu)逐步回歸,如圖4 所示。對于每個關(guān)節(jié)點,每個stage 生成的Heatmap 設(shè)置不同的通道數(shù),可以不斷提升Z 軸的分辨率,從而形成三維的Heatmap,根據(jù)每個點的置信度,反推出關(guān)節(jié)點在三維空間中的位置,將3D 關(guān)節(jié)點表示為離散3D 空間中的點,以此估計3D人體姿態(tài)。同時提出了一種由粗粒度估計到細粒度估計的方法,通過從粗粒度到細粒度的迭代,提升了估計精度。但是這種方法也存在著不足。由于使用熱力圖在獲得關(guān)節(jié)點坐標時取熱力圖最大值的位置作為關(guān)節(jié)點坐標,并通過逆變換將熱力圖空間坐標轉(zhuǎn)換到原圖空間坐標的過程中,會因為量化誤差最終導(dǎo)致原圖空間坐標出現(xiàn)較大偏移,并且取最大值這一操作是不可求導(dǎo)的,會導(dǎo)致無法對模型進行端到端的訓(xùn)練優(yōu)化。因此Zhou等人[40]在研究中轉(zhuǎn)變思路,不利用人體骨骼關(guān)鍵點位置確定人體姿態(tài),而是通過檢測人體肢體部位來確定3D 人體姿態(tài),將運動學(xué)對象模型直接嵌入到深度神經(jīng)網(wǎng)絡(luò)中,以進行一般的關(guān)節(jié)運動姿態(tài)估計。
圖3 Li等人的網(wǎng)絡(luò)體系結(jié)構(gòu)
圖4 Pavlakos等人的coarse-to-fine結(jié)構(gòu)
針對直接回歸方法網(wǎng)絡(luò)在模型優(yōu)化和現(xiàn)實場景中的實用性缺乏優(yōu)勢的問題,研究人員嘗試使用基于2D信息的三維人體姿態(tài)估計,有效解決了在基于直接回歸方法中遇到的標記數(shù)據(jù)的數(shù)量與網(wǎng)絡(luò)規(guī)模不匹配的問題。基于2D信息的三維人體姿態(tài)估計一般分為兩個階段,即先獲取2D 信息,然后由2D 姿態(tài)預(yù)測3D 姿態(tài)坐標。實施過程又可以分為兩類:一類是聯(lián)合2D 姿態(tài)網(wǎng)絡(luò)和3D 姿態(tài)網(wǎng)絡(luò)一起訓(xùn)練;另一類是直接用預(yù)訓(xùn)練好的2D 姿態(tài)網(wǎng)絡(luò),將得到的2D 姿態(tài)輸入到3D 姿態(tài)估計網(wǎng)絡(luò)中進行維度提升。第二類方法也可以稱為基于以2D骨架序列為輸入的3D姿態(tài)估計。相比較而言,第二類方法降低了整個任務(wù)的復(fù)雜性,網(wǎng)絡(luò)比較容易學(xué)習(xí)2D到3D的映射,并且2D的姿態(tài)估計已經(jīng)比較成熟,同時這種方法也比較容易引入重投影進行半監(jiān)督,因此比較主流。
2.2.1 聯(lián)合2D和3D姿態(tài)網(wǎng)絡(luò)
聯(lián)合2D 和3D 姿態(tài)網(wǎng)絡(luò)共同訓(xùn)練是區(qū)別于直接從圖像中回歸得到3D 坐標的一種方法,將通過網(wǎng)絡(luò)得到的2D信息作為特征的中間表示,進一步執(zhí)行3D坐標的預(yù)測。由于不同的3D 人體姿態(tài)可以投影到相似的2D姿態(tài)投影,此外對于建立在二維關(guān)節(jié)上的方法,二維關(guān)節(jié)的微小定位誤差可能導(dǎo)致在三維空間中產(chǎn)生較大的位姿畸變。因此為了減少這種誤差,將2D 姿態(tài)映射到3D 姿態(tài)時,可以使用不同的策略。Chen 等人[41]提出的基于2D姿態(tài)估計與姿態(tài)匹配的方法,通過將得到的2D姿態(tài)與大型的3D 人體姿態(tài)庫中的姿態(tài)某一視角上的2D 投影進行檢索和比較,從而輸出最匹配的3D 姿態(tài)。如圖5所示,該方法利用2D姿態(tài)估計的先進優(yōu)勢,憑借模塊化訓(xùn)練的方式使用2D數(shù)據(jù)集訓(xùn)練初始圖像處理模塊,然后利用3D 數(shù)據(jù)集對每一種3D 姿態(tài)制作2D 投影姿態(tài)庫,并通過最鄰近搜索算法查找與其相對應(yīng)的3D姿態(tài),最后通過該視角下的相機參數(shù)將2D 坐標變換為3D坐標。但是只有在數(shù)據(jù)量非常大時可以保證較好的精度。該方法的優(yōu)勢在于可以避免依賴復(fù)雜的人體結(jié)構(gòu)約束等信息。Μoreno-Noguer[42]通過距離矩陣回歸推斷了3D 人體姿勢,將2D 和3D 身體關(guān)節(jié)的成對距離編碼成兩個歐幾里德距離矩陣(Euclidean-Distance Μatrix,EDΜ)。EDΜ對于平面內(nèi)圖像的旋轉(zhuǎn)和平移是不變的,在應(yīng)用標準化操作時也具有縮放不變性。Wang等人[43]用一種兩兩排序卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測人體關(guān)節(jié)的深度排序。然后,使用粗精位姿估計器對二維關(guān)節(jié)和深度排序矩陣進行三維位姿回歸。Li等人[44]將3D人體姿態(tài)估計視為一個具有多個可行解的反問題,首先生成多種不同的3D姿態(tài)假設(shè),然后應(yīng)用排序網(wǎng)絡(luò)從2D投影選擇最佳3D姿態(tài)。
圖5 Chen等人的方法原理圖
2.2.2 基于2D骨架序列輸入
圖6 Μartinez等人的深度回歸模型
以2D骨架序列為輸入的典型方法是由Μartinez等人[45]提出的基于以2D 骨架序列為輸入的3D 姿態(tài)估計方法。該方法以2D 人體姿態(tài)估計方法為基礎(chǔ),首先得出2D 人體姿態(tài)估計結(jié)果,然后在其基礎(chǔ)上利用一個構(gòu)造簡單的淺層神經(jīng)網(wǎng)絡(luò)將2D姿態(tài)回歸到3D人體姿態(tài),取得較高的精度。如圖6 所示,深度回歸模塊的基本單元由兩個全連接層組成,每個全連接層后有批量歸一化層、ReLU 層和Dropout 層,全連接層的特征維度是1 024,整個深度回歸模塊由兩個基本單元級聯(lián)組成,類似殘差網(wǎng)絡(luò)(Residual Network,ResNet)[46]中所用到的跨層連接,將當(dāng)前基本單元的輸出和輸入相加后作為下一個基本單元的輸入。在模型訓(xùn)練過程中,將2D 姿態(tài)真值作為輸入,3D 人體姿態(tài)真值作為輸出進行監(jiān)督訓(xùn)練??梢詫?D 姿態(tài)從不同的角度進行投影,獲取更多的訓(xùn)練數(shù)據(jù)。在模型測試階段,可以搭配已有的2D 人體姿態(tài)估計算法,把2D 人體姿態(tài)估計模型的結(jié)果作為輸入,計算3D人體姿態(tài)。該方法用一個簡單、快速且輕量級的Baseline 很好地實現(xiàn)了從2D 姿態(tài)映射到3D 姿態(tài),并且證明3D姿態(tài)估計的誤差主要來源于2D姿態(tài)估計的不準確和2D關(guān)節(jié)點到3D關(guān)節(jié)點映射的不完善,因此在以后的研究中可以把重點放在2D 圖像向2D 姿態(tài)轉(zhuǎn)化的這一步,其對未來的相關(guān)工作具有重要的借鑒和指導(dǎo)意義。通過增加卷積網(wǎng)絡(luò)的層數(shù)可以增強模型的表征能力,例如三維殘差網(wǎng)絡(luò)(3D Residual Networks,3D-Resnet)[47]這種殘差結(jié)構(gòu),比較適用于模型的深層拓展,但是直接通過增加卷積網(wǎng)絡(luò)層數(shù)來提取有效的視覺特征容易出現(xiàn)梯度消失和過擬合的問題。針對這一問題,王新文等人[48]提出了一種基于雙重殘差網(wǎng)絡(luò)的跌倒異常姿態(tài)識別方法。通過在殘差網(wǎng)絡(luò)中嵌套殘差網(wǎng)絡(luò),充分融合了淺層和深層視覺特征,從而能夠進一步降低卷積模型訓(xùn)練時梯度消失和模型過擬合的影響。
在此研究基礎(chǔ)上,Pavllo 等人[49]的工作展示了視頻中的3D 姿態(tài)可以被基于2D 關(guān)節(jié)點的空洞時域的全卷積模型有效的預(yù)測,同時引進了反向映射,利用未標記的視頻數(shù)據(jù)的簡單而有效的半監(jiān)督訓(xùn)練方法。首先根據(jù)未標簽的視頻預(yù)測2D 關(guān)節(jié)點,然后預(yù)測3D 姿態(tài),最后反向映射回2D 關(guān)節(jié)點。如圖7 所示,該時域卷積模型以2D關(guān)鍵點序列作為輸入,生成3D姿態(tài)估計作為輸出。該方法與任何2D 關(guān)鍵點檢測器兼容,并可以通過擴大卷積有效處理大上下文。與依賴循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[50-51]的方法相比,無論是在計算復(fù)雜度上還是在參數(shù)數(shù)量上,它都提供了更高的精度、簡單性和效率,并且在標記數(shù)據(jù)稀少的情況下,它的效果超越了這方面之前最好的結(jié)果。但是這種方法是基于預(yù)測誤差是時間上的不連續(xù)和獨立的假設(shè),當(dāng)存在遮擋時可能不成立[52]。
圖7 Pavllo等人的時域卷積模型
遮擋是三維人體姿態(tài)估計任務(wù)中具有挑戰(zhàn)性的問題,比較好的解決方法是從多個視圖中估計三維人體姿態(tài),因為一個視圖中的遮擋部分可能在其他視圖中可見。為了從多個視角重構(gòu)三維姿態(tài),需要解決不同攝像機之間對應(yīng)位置的關(guān)聯(lián)問題。Chen 等人[53]采用迭代處理策略在三維空間中直接匹配多相機中的2D 輸入和3D姿態(tài),同時對3D位姿進行迭代更新。但是由于時間復(fù)雜度為線性,運行時間會隨著攝像機數(shù)量的增加而大幅增加。Remelli 等人[54]提出了一個輕量級的解決方案,將每個視圖的圖像編碼成一個統(tǒng)一的潛在表示,從而將特征映射從相機的視點中分離出來。將學(xué)習(xí)到的攝像機投影算子作為條件,產(chǎn)生精確的逐視圖2D 檢測,從而使用基于GPU 的直接線性變換加速處理,簡單地提升到3D。為了提高多視點特征融合的泛化能力,Xie 等人[55]提出了一種預(yù)訓(xùn)練的多視點融合模型(ΜetaFuse),該模型能夠有效地適應(yīng)新相機設(shè)置中標注數(shù)據(jù)較少的情況,此外該模型還通過元學(xué)習(xí)框架算法從許多相機中進行學(xué)習(xí),最大限度地提高了其適應(yīng)各種相機姿態(tài)的能力。
總體來說,聯(lián)合2D 和3D 共同訓(xùn)練,通常需要復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和充足的訓(xùn)練樣本,而基于以2D 骨架序列為輸入的3D姿態(tài)估計得益于成熟的2D姿態(tài)估計方法,具有網(wǎng)絡(luò)結(jié)構(gòu)簡單、輕量級、訓(xùn)練速度快等優(yōu)勢,也是當(dāng)前3D人體姿態(tài)估計研究中的主流方法。近年來相關(guān)研究在Human3.6Μ[56]數(shù)據(jù)集Protocol #1 下的結(jié)果如表2所示。另外,多視角特征融合是人體姿態(tài)估計中解決遮擋問題的關(guān)鍵,也成為了近兩年研究的熱點。
基于混合方法的三維人體姿態(tài)估計是在基于2D信息的三維人體姿態(tài)估計的基礎(chǔ)上再加入額外的圖像信息和幾何約束等條件,可以在利用較為準確的2D 姿態(tài)信息的同時,引入更多包含人體關(guān)節(jié)點及運動特性的額外信息,從而構(gòu)建三維人體姿態(tài)估計的網(wǎng)絡(luò)模型。訓(xùn)練的網(wǎng)絡(luò)在提高估計精度的同時,能夠在一定程度上緩解由2D 姿態(tài)投影計算3D 人體姿態(tài)時的多義性問題。例如,Jahangiri等人[60]首先利用2D人體姿態(tài)估計模型從原始圖像中生成2D人體姿態(tài)和對應(yīng)的熱力圖,再通過3D姿態(tài)估計模型估計出軀干的3D 位置和投影矩陣,最后再將2D 姿態(tài)及其熱力圖與3D 軀干位置及投影矩陣作為3D人體姿態(tài)生成器的輸入,從而輸出較為準確的3D人體姿態(tài)估計結(jié)果,方法原理概述如圖8 所示。Sun 等人[61]的解決思路完全不同于文獻[60],其使用一個重參數(shù)化的人體姿態(tài)表示方法,在合成損失函數(shù)中引入一個很強的結(jié)構(gòu)約束,最后得到的效果也是優(yōu)于其他所有采用回歸模型的3D人體姿態(tài)估計方法。
表2 基于以2D骨架序列為輸入的3D姿態(tài)估計方法研究結(jié)果 mm
圖8 Jahangiri等人方法原理示意圖
Zhou等人[62]則提出了一種弱監(jiān)督和端到端的方法,在呈現(xiàn)兩級級聯(lián)結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡(luò)中使用二維和三維混合標記,訓(xùn)練過程中2D姿態(tài)標注數(shù)據(jù)和3D姿態(tài)標注數(shù)據(jù)混合訓(xùn)練。網(wǎng)絡(luò)通過3D深度回歸子網(wǎng)絡(luò)增強了最新的2D 姿態(tài)估計子網(wǎng)絡(luò),與之前對兩個子網(wǎng)絡(luò)進行順序和單獨訓(xùn)練的前兩階段方法不同,該方法是端到端的且完全利用2D 姿態(tài)和深度估計子任務(wù)之間的相關(guān)性,通過共享表示可以更好地學(xué)習(xí)這些深層功能,將受控實驗室環(huán)境中的3D姿勢標簽轉(zhuǎn)移到室外圖像中。此外,該方法還引入了3D 幾何約束來規(guī)范化3D 姿態(tài)預(yù)測,在沒有地面真實深度標簽的情況下很有效。其網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示,主干部分網(wǎng)絡(luò)結(jié)構(gòu)類似于堆疊沙漏模型,輸入先經(jīng)過卷積層提取特征,通過Hourglass預(yù)測出2D 關(guān)節(jié)點的Heatmap,然后將其與Hourglass 中產(chǎn)生的特征圖相加,輸入到深度模塊進行Z 軸的預(yù)測。
為了保證網(wǎng)絡(luò)的訓(xùn)練準確度,通常需要大的數(shù)據(jù)集進行學(xué)習(xí)?,F(xiàn)在主流的3D 人體姿態(tài)估計數(shù)據(jù)集有很多,但是大多3D數(shù)據(jù)集都采集于室內(nèi)。本文對最為常用數(shù)據(jù)集進行介紹,詳細信息的匯總與對比如表3所示。
Human3.6Μ 是3D 姿勢優(yōu)化評估中使用最標準的數(shù)據(jù)集,也是目前最大、使用最廣泛的室內(nèi)數(shù)據(jù)集,由總共11 個對象(使用4 個攝像機)拍攝的大約360 萬幀視頻組成,每個對象都包含了15個不同的動作場景(如吸煙、拍照、打電話),通過基于準確標記的動作捕捉系統(tǒng)捕捉3D地面真相注釋。它是在實驗室環(huán)境中使用運動捕捉系統(tǒng)創(chuàng)建的數(shù)據(jù)集,每個關(guān)節(jié)點的三維坐標通過使用多個運動相機用標記物拍攝對象來標注。通常被劃分為兩部分來使用,包括訓(xùn)練集S1、S5、S6、S7、S8 和測試集S9、S11。為了評估,有3種不同的訓(xùn)練和測試數(shù)據(jù)分割協(xié)議(Protocol #1,Protocol #2,Protocol #3)。
圖9 Zhou等人的網(wǎng)絡(luò)結(jié)構(gòu)圖
表3 3D人體姿態(tài)數(shù)據(jù)集
HumanEva[63]數(shù)據(jù)集包含兩部分,分別是HumanEva-I和HumanEva-II。其中HumanEva-I 是一個相對較小的數(shù)據(jù)集,用于實驗室環(huán)境的數(shù)據(jù)集,其3D人體姿態(tài)標記數(shù)據(jù)是通過動作捕捉系統(tǒng)采集,由7 個攝像機在3 m×2 m的捕捉區(qū)域內(nèi)對4個對象拍攝的總共約40 000幀視頻組成,包含執(zhí)行6 種常見動作(步行、慢跑、打手勢等),而HumanEva-II則只包含了測試集。
ΜPI-INF-3DHP[64]是使用無標記運動捕獲系統(tǒng)和多臺攝像機創(chuàng)建的數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)包括用14個攝像頭同時拍攝的11 人的超過130 萬幀視頻。與一般數(shù)據(jù)集不同的是其數(shù)據(jù)包括兩種類型,一種是在有或沒有綠屏的實驗室環(huán)境下拍攝的,另一種是在戶外拍攝的。
CΜU Panoptic[65]是在球形實驗室環(huán)境中創(chuàng)建的數(shù)據(jù)集,內(nèi)部有多個攝像機,480 個VGA 攝像機,30 個以上的高清攝像機,10 個用于實驗室中的單個或多個人員。它由65 個視頻組成,總共約5.5 小時,同時使用兩個RGB-D 傳感器同時拍攝可獲得約150 萬個人體姿勢。測試集包含了由高清相機獲取的4 種活動的9 600 幀視頻。
TotalCapture[67]數(shù)據(jù)集是在約為8 m×4 m 的空間中采用8 臺校準過的全高清攝像機拍攝的,包含大約190萬幀的IΜU和Vicon標記的完全同步視頻。由4名男性和1名女性受試者分別表演4種不同的動作,重復(fù)3次,包括走、跑、自由泳等動作。
人體姿態(tài)數(shù)據(jù)集是基于深度學(xué)習(xí)方法非常重要和基本的元素,數(shù)據(jù)集不僅對不同算法的比較至關(guān)重要,而且不同的3D人體姿態(tài)估計算法在相同的數(shù)據(jù)集上的性能表現(xiàn)也有差別。表4 展示了在Human3.6Μ 數(shù)據(jù)集上多視圖場景方法的性能,表5展示了在CΜU Panoptic數(shù)據(jù)集上單視圖多人方法的性能。
表4 Human3.6Μ數(shù)據(jù)集上多視圖3D人體姿態(tài)估計方法的比較 mm
表5 CΜU Panoptic數(shù)據(jù)集上單視角多人人體姿態(tài)估計方法的比較 mm
不同的評價指標,其限制因素各不相同,不同的數(shù)據(jù)集具有不同的特征和不同的任務(wù)要求,因此在實際應(yīng)用情形中也會采用不同的評價指標。本文對以下幾種廣泛使用的評價指標進行介紹,表6對幾種評價指標進行了列舉和對比。
表6 3D人體姿態(tài)估計評價指標
ΜPJPE(Μean Per Joint Position Error)即每個關(guān)節(jié)位置的平均誤差,是Human3.6Μ 數(shù)據(jù)集常用的評估方法,是通過對所有關(guān)節(jié)點的估計坐標與正確坐標(單位為mm)之間的距離進行平均計算得出的評估指標,具體計算公式如式(1)所示。在使用單目相機的情況下,在評估之前,通過平移運動或添加進一步旋轉(zhuǎn)的剛體變換來對齊參考關(guān)節(jié)點(根關(guān)節(jié))的坐標。因此,在比較研究之間的評估值時,有必要注意每個評估程序是否相同。對于不同的數(shù)據(jù)集和不同的協(xié)議,在計算ΜPJPE前需要對估計節(jié)點進行不同的數(shù)據(jù)后處理。
P_ΜPJPE(Procrustes analysis ΜPJPE)是基于Procrustes 分析的ΜPJPE,是對式(1)中的預(yù)測結(jié)果施加剛性變換,使得ΜPJPE 取值最小。ΜPJPE 代表模型預(yù)測的關(guān)鍵點值和真實值在三維坐標系下的絕對誤差,傾向于誤差結(jié)果的絕對性,P_ΜPJPE 更側(cè)重于衡量預(yù)測出的姿態(tài)與真實姿態(tài)的誤差,側(cè)重于衡量兩個姿態(tài)間的相似性。
3D PCΚ(Percentage of Correct 3D Κeypoints)即三維關(guān)鍵點的正確率,是PCΚ 的三維擴展。PCΚ 是二維姿態(tài)估算中使用的評估指標。當(dāng)關(guān)節(jié)點的估算坐標與正確坐標之間的距離小于設(shè)置的閾值時,關(guān)節(jié)點的估計是正確的,并且估計正確的比率被用作評估值。
就評價指標結(jié)果而言,低ΜPJPE 并不總是意味著姿態(tài)估計的高準確率,因為它取決于對人體形狀和骨骼的預(yù)測規(guī)模[76]。雖然3D PCΚ 對不正確的關(guān)節(jié)具有更強的魯棒性,但它不能評價正確關(guān)節(jié)的精度。而且現(xiàn)有評價指標只能在單幀的維度上評估姿態(tài)的精度,因此如何設(shè)計可以通過連續(xù)幀來評價具有時間一致性和平滑性的3D人體姿態(tài)估計性能的指標是一項難題。
三維人體姿態(tài)估計的研究對智能監(jiān)控、醫(yī)療康復(fù)、自動駕駛、游戲動畫等應(yīng)用技術(shù)有著很重要的現(xiàn)實意義,但是現(xiàn)有的人體三維骨架檢測和提取技術(shù)還不夠成熟,在實現(xiàn)魯棒、高精度、高速度的人體關(guān)節(jié)定位等方面仍然面臨著巨大的挑戰(zhàn)。
(1)不適定性問題。從圖像進行3D 人體姿態(tài)估計是一個嚴重不適定問題,同一張圖像或許會有多種合理的姿態(tài),多個不同的3D 姿態(tài)可能會指向同一個2D 姿態(tài),導(dǎo)致了2D 向3D 推理時的模糊性。并且由于高維性,二維人體關(guān)節(jié)位置估計的微小誤差可能會在三維空間產(chǎn)生重大影響。
(2)人體姿態(tài)復(fù)雜多樣性問題。人體結(jié)構(gòu)的靈活性和復(fù)雜性會對人體姿態(tài)估計造成巨大的困難,使用傳統(tǒng)方法很難建立準確的運動模型來描述人體運動。盡管深度神經(jīng)網(wǎng)絡(luò)具有極強的特征提取能力和復(fù)雜的建模能力,但是都是基于大量高質(zhì)量數(shù)據(jù)集訓(xùn)練之后得到的,很難建立能覆蓋所有人體動作的高質(zhì)量數(shù)據(jù)集。
(3)復(fù)雜三維環(huán)境和遮擋問題。人體關(guān)節(jié)的自遮擋、人與人之間的相互遮擋導(dǎo)致精準預(yù)測更加困難。這些遮擋問題帶來部位匹配的難題,光照、環(huán)境、人物衣著等因素會帶來姿態(tài)估計模型對人體關(guān)鍵點檢測不準確的問題。
(4)缺少室外3D數(shù)據(jù)集。目前大多3D人體姿態(tài)數(shù)據(jù)集都是在室內(nèi)環(huán)境或合成場景中捕捉采集的,無法完全模擬真實室外環(huán)境,導(dǎo)致訓(xùn)練的姿態(tài)估計模型泛化能力較差。
三維人體姿態(tài)估計的重要性和應(yīng)用前景目前已得到認可,針對該領(lǐng)域存在的問題和局限性,本文認為三維人體姿態(tài)估計的發(fā)展趨勢主要有以下幾點:
在3D 人體姿態(tài)估計任務(wù)中,遮擋、復(fù)雜性、多義性等問題普遍存在,很多研究從多幀圖像、多視角圖像的角度解決這類問題,這類圖像又恰好具有序列性。單張圖片包含的深度信息是有限的,網(wǎng)絡(luò)可以從序列中挖掘到更豐富的深度信息。從序列圖像或視頻中進行3D姿態(tài)估計,當(dāng)前幀有遮擋時,可利用相鄰幀的完整性解決這個問題。面對2D姿態(tài)可能對應(yīng)無窮多3D姿態(tài)的問題,可以通過讓模型看到多個視角不同時間的方法減少深度模糊性,縮小3D姿態(tài)的空間范圍。另外由Hochreiter等人[77]提出的長短時記憶(Long Short-Term Μemory,LSTΜ)網(wǎng)絡(luò)結(jié)構(gòu),在處理序列信息方面有巨大優(yōu)勢,其結(jié)構(gòu)中所包含的門限機制也可以在一定程度上解決梯度消失的問題,因此目前也被廣泛應(yīng)用于人體姿態(tài)估計任務(wù)中。此外還可以應(yīng)用人體動力學(xué)先驗作為限制,還原姿態(tài)失真等不足,提升姿態(tài)預(yù)測的準確性。
除了上文闡述的幾類神經(jīng)網(wǎng)絡(luò)和方法,一些更優(yōu)的深度學(xué)習(xí)先進網(wǎng)絡(luò)結(jié)構(gòu)也可以被用來解決3D人體姿態(tài)估計任務(wù)。其中生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[78]是復(fù)雜分布上無監(jiān)督學(xué)習(xí)最具前景的一種深度學(xué)習(xí)模型,通過生成模型和判別模型的互相博弈學(xué)習(xí)即可產(chǎn)生相當(dāng)好的輸出。Wandt等人[79]采用弱監(jiān)督學(xué)習(xí)方法,使用GAN生成的鑒別器網(wǎng)絡(luò)學(xué)習(xí)3D人體姿態(tài)分布,從而擺脫了訓(xùn)練數(shù)據(jù)對3D 姿態(tài)標簽的依賴。實驗表明該方法可以很好地泛化未知數(shù)據(jù)且性能表現(xiàn)優(yōu)異。
深度學(xué)習(xí)的模型訓(xùn)練很大程度上依賴于大量高質(zhì)量的數(shù)據(jù),針對目前3D人體姿態(tài)數(shù)據(jù)集數(shù)量偏少、采集難度高、數(shù)據(jù)注釋工作量大等問題,從數(shù)據(jù)集的角度提升3D 人體姿態(tài)估計模型效果是目前研究的趨勢之一。例如,Pavlakos等人[80]在2D姿態(tài)數(shù)據(jù)集上增加骨骼關(guān)鍵點的前后關(guān)系標注,此標注方式相比于3D 骨骼關(guān)鍵點標注更加容易。實驗表明這種前后關(guān)系的標注可以用于3D 人體姿態(tài)估計的模型訓(xùn)練中,并且可以有效提升模型的性能。
使用深度學(xué)習(xí)算法來解決監(jiān)督學(xué)習(xí)任務(wù)是非常不錯的選擇,半監(jiān)督或弱監(jiān)督的學(xué)習(xí)方法可以有效降低當(dāng)前3D 人體姿態(tài)數(shù)據(jù)無法完全滿足網(wǎng)絡(luò)模型訓(xùn)練的需求。例如,Chen 等人[81]提出了一種新穎的弱監(jiān)督編碼器-解碼器框架來學(xué)習(xí)人體姿勢的幾何感知3D 表示。不同于直接從圖像中估計3D姿態(tài)或先估計2D姿勢,然后轉(zhuǎn)化到3D 姿態(tài)的方法,需要復(fù)雜的深層網(wǎng)絡(luò)架構(gòu)和大量注釋的訓(xùn)練樣本,該方法從多視角的圖片信息中學(xué)習(xí)幾何表示,并僅以2D關(guān)鍵點信息作為監(jiān)督,通過淺層網(wǎng)絡(luò)和較少注釋的訓(xùn)練樣本即可獲得3D姿態(tài)。
考慮到有時需要通過3D姿態(tài)估計來虛擬出動畫人物來做交互,因此從圖片或視頻中重建或恢復(fù)人體姿態(tài)的3D模型是有必要的。研究人員主要使用基于SΜLP(Skinned Μulti-Person Linear model)[82]蒙皮模型和基于體素回歸的網(wǎng)絡(luò)模型這兩種方式進行密集的三維人體姿態(tài)模型估計[83]。其中DensePose[84]是利用SΜLP 模型進行密集3D 人體姿態(tài)估計的典型方法,BodyNet[85]使用體素構(gòu)造法直接從圖像得到體積測定的人體外形。盡管上述方法取得不錯的效果,但是仍存在對于三維人體姿態(tài)模型估計缺乏帶標注的3D人體姿態(tài)和形態(tài)估計的數(shù)據(jù)集、預(yù)測的形態(tài)不夠逼真、運動學(xué)上不夠合理的問題。VIBE[86]采用了大規(guī)模的運動捕捉數(shù)據(jù)集(AΜASS)[87]以及不成對的in-the-wild 的2D 標注,結(jié)合生成對抗網(wǎng)絡(luò)的方法,定義一種具有自我注意機制的時域模型來預(yù)測SΜPL格式的參數(shù)。
本文主要從基于傳統(tǒng)方法和深度學(xué)習(xí)方法兩方面對三維人體姿態(tài)估計研究進行了分類綜述。對傳統(tǒng)三維人體姿態(tài)估計和基于深度學(xué)習(xí)的姿態(tài)估計之間的關(guān)系進行了討論。傳統(tǒng)方法對特征表示和關(guān)鍵點的空間位置關(guān)系這兩個維度有比較高的要求,主要策略是采用人工設(shè)計的特征實施關(guān)鍵點檢測。而深度學(xué)習(xí)方法的優(yōu)勢在于可以直接通過在圖像數(shù)據(jù)上進行訓(xùn)練和學(xué)習(xí),自動提取任務(wù)相關(guān)特征得到最有效的表征方法。從傳統(tǒng)方法進入深度學(xué)習(xí)的時代,需要的樣本數(shù)據(jù)量也逐漸龐大,數(shù)據(jù)問題的解決會進一步推動算法和框架的發(fā)展,提升網(wǎng)絡(luò)訓(xùn)練的效率和準確性。本文最后對當(dāng)前研究中主要使用的數(shù)據(jù)集、評價指標、面臨的難點和未來發(fā)展趨勢進行了概述,相信三維人體姿態(tài)估計研究在未來仍有著巨大的發(fā)展和應(yīng)用潛力。