林浩翔 李萬益 鄔依林 黃用有 林慕飛
摘要:人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱門研究方向。人體姿態(tài)估計(jì)的技術(shù)發(fā)展已有一段時(shí)間,相關(guān)的方法已經(jīng)提出比較多,這些方法基本都局限于單人的三維姿態(tài)處理。在大多場景下,三維運(yùn)動(dòng)形態(tài)呈現(xiàn)多人交互的情況,所以多人姿態(tài)估計(jì)的問題需要處理。隨著深度學(xué)習(xí)的理論發(fā)展,該文提出基于距離感知自上而下深度學(xué)習(xí),處理多人三維姿態(tài)估計(jì)的問題。
關(guān)鍵詞:計(jì)算機(jī)視覺;多人三維姿態(tài)估計(jì);深度學(xué)習(xí)
中圖分類號(hào):TP391.41? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)11-0077-02
1 引言
基于深度學(xué)習(xí)的三維單人姿態(tài)估計(jì)研究已經(jīng)取得了一定的成果[1-5]。單人姿態(tài)估計(jì)方法適用的模型也比較多,其估計(jì)效果已經(jīng)比較理想。單人估計(jì)的模型可以將角色模型融合到真實(shí)世界的視頻和場景[6],可實(shí)現(xiàn)和場景的人物交互。但是在大多場景中,多人姿態(tài)交互的情況出現(xiàn)也有很多,比如集體舞蹈教學(xué)、多人體育競技展示、多人動(dòng)作交互三維重構(gòu)等[7-9],多人三維姿態(tài)估計(jì)是常見并且需要處理的問題。該問題能否有效解決關(guān)系到三維姿態(tài)估計(jì)的核心技術(shù)能否有所突破。
在多人三維姿態(tài)估計(jì)中,人體肢體的相互遮擋、三維與二維圖像的映射歧義以及模型建立與訓(xùn)練的問題比之前單人三維姿態(tài)估計(jì)要嚴(yán)重很多[10]。因此,為了較好實(shí)現(xiàn)多人三維運(yùn)動(dòng)形態(tài)估計(jì),本文提出基于距離感知自上而下深度學(xué)習(xí)處理。該方法結(jié)合圖像深度值計(jì)算,關(guān)鍵點(diǎn)檢測(cè)進(jìn)行估計(jì),提出的方法不僅繼承了傳統(tǒng)單人三維姿態(tài)估計(jì)方法的優(yōu)點(diǎn),還具有多人檢測(cè)并實(shí)時(shí)估計(jì)的特點(diǎn),具有良好的穩(wěn)定性。所提方法估計(jì)出的三維模型為常用的骨架模型[11],該模型可以轉(zhuǎn)換成更高級(jí)的體型模型[12],對(duì)該高級(jí)模型的身高、體重、皮膚、肢體粗細(xì)等細(xì)節(jié)計(jì)算具有良好的促進(jìn)作用。
本文提出的方法,首先檢測(cè)二維圖像的中心根節(jié)點(diǎn),然后自上而下尋找其他肢體的節(jié)點(diǎn),如腕部、腳踝位置的節(jié)點(diǎn)等,將這些關(guān)節(jié)點(diǎn)進(jìn)行連接,組成一個(gè)人體二維骨架模型,接著計(jì)算中心根節(jié)點(diǎn)的深度值,確定相應(yīng)三維模型的空間位置,最后通過神經(jīng)網(wǎng)絡(luò)估計(jì)出三維姿態(tài)。多人估計(jì)的實(shí)現(xiàn)依靠對(duì)二維圖像人體個(gè)數(shù)的檢測(cè),還有對(duì)單幅圖像多人肢體中心根節(jié)點(diǎn)和其他肢體關(guān)鍵點(diǎn)進(jìn)行檢測(cè),以及神經(jīng)網(wǎng)絡(luò)在三維空間中估計(jì)的相應(yīng)位置。本文進(jìn)一步討論所提方法并進(jìn)行實(shí)驗(yàn)測(cè)試,測(cè)試分為單人三維姿態(tài)測(cè)試,體型模型轉(zhuǎn)換測(cè)試以及多人三維姿態(tài)估計(jì)測(cè)試,測(cè)試結(jié)果顯示所提算法具有較強(qiáng)的有效性、穩(wěn)定性和準(zhǔn)確性。
2 基于距離感知自上而下深度學(xué)習(xí)
深度學(xué)習(xí)是最近幾年提出的熱點(diǎn)理論,其可以處理語音、圖像,以及語言數(shù)據(jù)等,對(duì)大量的數(shù)據(jù)可以成功地構(gòu)建復(fù)雜的映射關(guān)系,并且能成功地進(jìn)行訓(xùn)練和預(yù)測(cè)。本文提出的方法以深度學(xué)習(xí)理論為基礎(chǔ),可以處理大量的人體姿態(tài)數(shù)據(jù)樣本。由于多人動(dòng)作交互的圖像需要標(biāo)注人體的肢體關(guān)鍵點(diǎn),對(duì)關(guān)鍵點(diǎn)的三維空間位置進(jìn)行預(yù)測(cè),所以本文所提方法要計(jì)算圖像的相關(guān)信息深度值,以此確定其關(guān)鍵點(diǎn)具體的三維空間位置。本文提出的方法基于文獻(xiàn)[8],其方法框架如圖1所示。
所提出方法是通過計(jì)算各個(gè)單人三維骨架模型的主要根節(jié)點(diǎn)位置以及其他關(guān)鍵節(jié)點(diǎn)(無空間位置信息) 的關(guān)鍵點(diǎn)整合到一個(gè)空間來實(shí)現(xiàn)。檢測(cè)網(wǎng)絡(luò)用于檢測(cè)二維圖像中的人體姿態(tài)在圖像中的位置,以便能進(jìn)行圖片切割,得到相應(yīng)的人體姿態(tài)二維圖像,縮小二維圖像的處理范圍,如圖2所示。得到人體姿態(tài)二維圖像后,通過根節(jié)點(diǎn)網(wǎng)絡(luò)預(yù)測(cè)二維圖像中人體的根節(jié)點(diǎn)的位置,并對(duì)其深度值進(jìn)行計(jì)算,如圖3所示。然后通過二維圖像的根節(jié)點(diǎn)計(jì)算其深度值,確定其在三維空間的位置,其具體方法如圖4所示。用姿態(tài)預(yù)測(cè)網(wǎng)絡(luò)預(yù)測(cè)非根節(jié)點(diǎn)的其他關(guān)鍵點(diǎn)(肢體關(guān)鍵點(diǎn)) ,得出絕對(duì)三維姿態(tài)和根節(jié)點(diǎn)的三維空間信息進(jìn)行結(jié)合,輸出三維空間中的單個(gè)三維姿態(tài)骨架模型。
3 實(shí)驗(yàn)與評(píng)價(jià)
本文提出的基于距離感知自上而下深度學(xué)習(xí)方法,不僅可以處理單人三維姿態(tài)估計(jì),還可以處理多人三維姿態(tài)估計(jì)。下面對(duì)所提出方法進(jìn)行實(shí)驗(yàn)測(cè)試。首先,進(jìn)行單人的三維姿態(tài)估計(jì)進(jìn)行測(cè)試,測(cè)試數(shù)據(jù)選用Human3.6M數(shù)據(jù)[6]進(jìn)行測(cè)試,動(dòng)作姿態(tài)選“吃東西”姿態(tài)片段,選取任意一幀進(jìn)行展示,如圖5所示。從圖5中,發(fā)現(xiàn)所提方法估計(jì)的三維姿態(tài)與真實(shí)值很接近,該現(xiàn)象表明所提的方法估計(jì)單人三維姿態(tài)的準(zhǔn)確度比較理想,不會(huì)出現(xiàn)左右相反的情況。
接下來,用所提出的方法對(duì)所估計(jì)的三維動(dòng)作姿態(tài)進(jìn)行體型模型轉(zhuǎn)換測(cè)試,測(cè)試結(jié)果如圖6所示。首先用所提方法進(jìn)行二維動(dòng)作姿態(tài)估計(jì),得到二維圖像的動(dòng)作姿態(tài),然后通過根節(jié)點(diǎn)預(yù)測(cè)網(wǎng)絡(luò)、姿態(tài)預(yù)測(cè)網(wǎng)絡(luò)以及深度值計(jì)算,得到骨架模型的根節(jié)點(diǎn)和其他肢體關(guān)鍵點(diǎn)組成相應(yīng)的骨架三維模型,再通過體型計(jì)算得到相應(yīng)的體型模型。從圖6中發(fā)現(xiàn),所得到的體型模型和相應(yīng)的圖像很匹配,說明所提出的方法估計(jì)的骨架模型對(duì)體型模型的計(jì)算有良好的輔助作用。
最后,在Human3.6M數(shù)據(jù)庫[6]及其他數(shù)據(jù)庫中選用不同的視頻片段進(jìn)行單人和多人的三維姿態(tài)估計(jì)測(cè)試,如圖7所示。從實(shí)驗(yàn)測(cè)試可知,所提方法的性能較穩(wěn)定,估計(jì)出的三維人體骨架模型投影到原圖像后,與二維圖像的人體肢體很匹配,并且估計(jì)的視覺效果比較理想,動(dòng)作姿態(tài)展示準(zhǔn)確。在多人姿態(tài)相互遮擋的情況下,所提的方法也能克服,得到比較理想的結(jié)果。圖7的結(jié)果再次證明所提算法的有效性、穩(wěn)定性和準(zhǔn)確性。
4 結(jié)束語
基于距離感知自上而下深度學(xué)習(xí)的訓(xùn)練需要通過大量數(shù)據(jù)樣本的收集來實(shí)現(xiàn),這樣才能構(gòu)成較完美的根節(jié)點(diǎn)預(yù)測(cè)網(wǎng)絡(luò)和姿態(tài)預(yù)測(cè)網(wǎng)絡(luò),最終實(shí)現(xiàn)較理想的實(shí)驗(yàn)效果。再者,經(jīng)過實(shí)驗(yàn)測(cè)試,所提方法估計(jì)的骨架模型對(duì)體型模型的轉(zhuǎn)換也起著較好的基礎(chǔ)作用。隨著社會(huì)的現(xiàn)代化發(fā)展,人體三維姿態(tài)估計(jì)作為計(jì)算機(jī)視覺領(lǐng)域的研究分支,其技術(shù)日益顯得重要。該技術(shù)對(duì)集體舞蹈教學(xué)、多人體育競技三維展示、多人動(dòng)作交互三維重構(gòu)等有良好的促進(jìn)作用。
參考文獻(xiàn):
[1] Zhou XW,ZhuML,PavlakosG,etal.MonoCap:monocularhuman motion capture using a CNN coupled with a geometric prior[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(4):901-914.
[2] Hassanpour M,MalekH.Learning document image features with SqueezeNet convolutional neural network[J].International Journal of Engineering,2020,33(7):1201-1207.
[3] HosnyKM,KassemMA,F(xiàn)ouad M M.Classification of skin lesions into seven classes using transfer learning with AlexNet[J].Journal of Digital Imaging,2020,33(5):1325-1334.
[4] McNeely-WhiteD,Beveridge J R,DraperBA.Inception and ResNet features are (almost) equivalent[J].Cognitive Systems Research,2020,59:312-318.
[5] Wang JB,TanSJ,ZhenXT,etal.Deep 3D human pose estimation:a review[J].Computer Vision and Image Understanding,2021,210:103225.
[6] IonescuC,PapavaD,OlaruV,etal.Human3.6M:large scale datasets and predictive methods for 3D human sensing in natural environments[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(7):1325-1339.
[7] KamelA,LiuBW,LiP,etal.Aninvestigation of 3D human pose estimation for learning Tai chi:ahumanfactor perspective[J].International Journal of Human-Computer Interaction,2019,35(4/5):427-439.
[8] Moon G,ChangJY,LeeKM.Camera distance-aware top-down approach for 3D multi-person pose estimation from a single RGB image[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27 - November 2,2019,Seoul,Korea (South).IEEE,2019:10132-10141.
[9] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, HujunBao, Xiaowei Zhou. SMAP: Single-Shot Multi-person Absolute 3D Pose Estimation[C]//Proceedings of the ECCV 2020, Glasgow, United kingdom, Springer Science and Business Media Deutschland GmbH,2020:550-566.
[10] BenzineA,LuvisonB,PhamQC,etal.Single-shot 3D multi-person pose estimation in complex images[J].Pattern Recognition,2021,112:107534.
[11] Li WY,ZengYQ,ZhangQ,etal.Humanmotion capture based on incremental dimension reduction and projection position optimization[J].Wireless Communications and Mobile Computing,2021,2021:5589100.
[12] BogoF,KanazawaA,LassnerC,etal.Keep it SMPL:automatic estimation of 3D human pose and shape from a single image[C]//Proceedings of the 21st ACM Conference on Computer and Communications Security, CCS 2014, Scottsdale, AZ, United states, Springer Verlag:2016: 561-578.
收稿日期:2021-12-20
基金項(xiàng)目:本課題由國家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(No. 202114278009X),廣州市基礎(chǔ)與應(yīng)用基礎(chǔ)研究項(xiàng)目(No. 202002030232),廣東省普通高校青年創(chuàng)新人才項(xiàng)目(No. 2019KQNCX095),廣東省高等學(xué)校教學(xué)質(zhì)量與教學(xué)改革工程項(xiàng)目(廣東第二師范學(xué)院計(jì)算機(jī)實(shí)驗(yàn)教學(xué)示范中心, 2019年, No. 18),廣東第二師范學(xué)院網(wǎng)絡(luò)工程重點(diǎn)學(xué)科(No. ZD2017004) 資助
作者簡介:林浩翔,男,本科生,研究方向?yàn)閳D像處理,深度學(xué)習(xí);通信作者:李萬益,男,博士,講師,研究方向?yàn)閳D像理解、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)。