亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN的三維人體姿態(tài)估計(jì)方法

        2019-05-23 02:55:30肖澳文張?zhí)K沛孫思琪
        關(guān)鍵詞:方法模型

        肖澳文 ,劉 軍*,張?zhí)K沛 ,杜 壯 ,孫思琪

        1.智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室(武漢工程大學(xué)),湖北 武漢 430205;

        2.武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205

        三維人體姿態(tài)估計(jì)是非常難的一個(gè)研究課題,通常如果不借助一些穿戴設(shè)備無(wú)法直接獲取三維的人體姿態(tài)[1],而三維人體姿態(tài)的估計(jì)在人體行為的理解方面有著不可估量的研究?jī)r(jià)值[2]。人體姿態(tài)估計(jì)的研究從二維到三維的轉(zhuǎn)換過(guò)程,可以看作是一個(gè)三維重建的過(guò)程,目前已有的三維重建方法[3-5]在這一過(guò)程中可以得到好的應(yīng)用。由于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的優(yōu)秀學(xué)習(xí)能力[6-9],通過(guò)該網(wǎng)絡(luò)訓(xùn)練模型是最好的選擇之一。隨著計(jì)算機(jī)動(dòng)畫(huà)和計(jì)算機(jī)視覺(jué)等多媒體技術(shù)的快速發(fā)展,對(duì)人體姿態(tài)進(jìn)行準(zhǔn)確的三維預(yù)測(cè)估計(jì),在智能監(jiān)控、體育訓(xùn)練、醫(yī)療看護(hù)以及影視制作等領(lǐng)域具有較大的應(yīng)用價(jià)值[10]。

        Bogo等[11]在2016年的ECCV會(huì)議上首次提出一種三維人體姿態(tài)估計(jì)方法,該方法首先預(yù)測(cè)二維人體關(guān)節(jié)位置,然后使用SMPL模型來(lái)創(chuàng)建三維人體形狀網(wǎng)格,該網(wǎng)格能同時(shí)捕捉人體姿態(tài)和形狀。Zhou等[12]在2016年的CVPR會(huì)議上提出一種全序列的期望-最大化算法,先訓(xùn)練一個(gè)深度完全卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)二維人體關(guān)節(jié)位置的不確定性映射,然后通過(guò)該算法實(shí)現(xiàn)三維人體姿態(tài)估計(jì)。2017年的CVPR會(huì)議上,Pavlakos等[13]提出一種端對(duì)端訓(xùn)練的方法,先輸入一張彩色圖像,輸出人體三維姿態(tài)信息,然后采用CNN進(jìn)行端對(duì)端訓(xùn)練,將人體姿態(tài)看作N個(gè)關(guān)節(jié)點(diǎn),每個(gè)關(guān)節(jié)點(diǎn)有一個(gè)三維坐標(biāo)(x,y,z),根據(jù)關(guān)節(jié)點(diǎn)坐標(biāo)估計(jì)整體的三維姿態(tài)。2016年CVPR會(huì)議上,卡內(nèi)基梅隆大學(xué)Shih-En Wei團(tuán)隊(duì)[14]提出了卷積姿態(tài)機(jī)(Convolutional Pose Machines,CPM)方法,該方法先計(jì)算每一尺度下的部件置信度,然后累加所有尺度的置信度,最后取每個(gè)部件圖中置信度最大的點(diǎn)做為部件位置。

        本文提出一種面向視頻的三維人體姿態(tài)估計(jì)方法,首先調(diào)用攝像頭拍攝人體視頻做為CNN輸入,對(duì)視頻中的人體進(jìn)行檢測(cè)定位。然后對(duì)檢測(cè)到的人體單獨(dú)進(jìn)行二維姿態(tài)估計(jì),獲取人體二維關(guān)節(jié)點(diǎn)位置,將二維人體姿態(tài)估計(jì)結(jié)果與三維人體姿態(tài)重建相結(jié)合,用網(wǎng)格劃分三維空間。通過(guò)將二維位置坐標(biāo)提升為三維,投射到有效的三維姿勢(shì)空間,估計(jì)出每個(gè)人的三維姿態(tài),各自建立對(duì)應(yīng)的三維人體姿態(tài)模型。相比傳統(tǒng)人體姿態(tài)估計(jì),本文研究結(jié)果更加立體,視覺(jué)效果明顯增強(qiáng)。相比傳統(tǒng)的三維人體姿態(tài)估計(jì)方法,本文方法比Ionescu等[15]和Zhou等[12]在人體行為上的測(cè)試平均誤差分別提高了31.8%和5.7%,對(duì)于視頻中的人體檢測(cè),二維姿態(tài)識(shí)別,三維姿態(tài)重建均有良好的效果。

        1 三維人體姿態(tài)估計(jì)

        1.1 姿態(tài)估計(jì)方法

        CNN是一種含有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)模型,包含輸入層、隱含層和輸出層,其核心隱含層的基本結(jié)構(gòu)包括卷積層、池化層和全連接層,卷積層利用卷積核提取輸入數(shù)據(jù)的抽象特征,通過(guò)局部連接和權(quán)值共享來(lái)減少參數(shù)數(shù)量,輸出特征圖至池化層。池化層進(jìn)行特征選擇和信息過(guò)濾,通過(guò)下采樣來(lái)進(jìn)一步減小神經(jīng)元個(gè)數(shù),簡(jiǎn)化網(wǎng)絡(luò)計(jì)算復(fù)雜度。全連接層負(fù)責(zé)連接所有的特征。卷積核的工作原理為:

        其中,(i ,j) ∈{0 ,1,…Ll+1} ,b是偏差量,Zl和Zl+1表示第l+1層的卷積輸入和輸出特征圖,Ll+1為Zl+1的特征圖尺寸。Z(i,j)對(duì)應(yīng)特征圖的像素,K為特征圖的通道數(shù),卷積層參數(shù)中,f是卷積核大小、s0是卷積步長(zhǎng),p是填充層數(shù)。

        采用一種新的多階段卷積神經(jīng)網(wǎng)絡(luò),通過(guò)端到端的訓(xùn)練,估計(jì)二維和三維人體關(guān)節(jié)點(diǎn)的位置。在 Shih-En Wei團(tuán)隊(duì)[14]的 CPM 卷積神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上引入了二維融合層和三維人體姿態(tài)概率預(yù)測(cè)模型,將二維人體姿態(tài)提升為三維,并將骨骼結(jié)構(gòu)的三維信息傳播到二維卷積層,根據(jù)已編碼的三維信息庫(kù)完成三維人體姿態(tài)的預(yù)測(cè)估計(jì)。

        三維人體姿態(tài)估計(jì)模型由特征提取、二維姿態(tài)預(yù)測(cè)、二維融合層、最終轉(zhuǎn)換等4個(gè)不同的模塊組成,如圖1所示。

        圖1 三維人體姿態(tài)估計(jì)模型結(jié)構(gòu)圖Fig.1 Structure diagram of three-dimensional human pose estimation model

        1)特征提?。簩?duì)單幀視頻的三原色(red-green blue,RGB)圖像進(jìn)行關(guān)節(jié)點(diǎn)估計(jì)獲得人體的骨骼特征,將基于CNN的置信圖的輸出作為一個(gè)新層的輸入,該層使用預(yù)訓(xùn)練的三維人體姿態(tài)概率預(yù)測(cè)模型將投影的二維姿態(tài)轉(zhuǎn)換為三維。

        2)二維姿態(tài)預(yù)測(cè):將前一層估計(jì)的三維姿態(tài)投影回圖像平面,生成一組新的投影姿態(tài)置信圖,上述映射封裝了人體姿態(tài)間的三維依賴關(guān)系。其中,基于CNN的預(yù)測(cè)置信圖沿用CPM方法提出的計(jì)算思想,使用一組卷積層和池化層,將從圖像學(xué)習(xí)中提取的特征與前一階段獲得的置信圖相結(jié)合,預(yù)測(cè)更新后的二維人體關(guān)節(jié)點(diǎn)的置信圖。

        3)二維融合層:在每個(gè)階段的最后一層學(xué)習(xí)權(quán)重,將通過(guò)CNN預(yù)測(cè)的二維姿態(tài)置信圖和投影后的三維姿態(tài)置信圖映射融合成一個(gè)置信圖傳遞到下一階段的單一評(píng)估。

        4)最終轉(zhuǎn)換:將最終階段輸出產(chǎn)生的置信圖投影至三維空間,并使用三維人體姿態(tài)概率預(yù)測(cè)模型將二維姿態(tài)轉(zhuǎn)換為三維,從而給出最終的三維姿態(tài)估計(jì)圖像。

        整個(gè)人體三維姿態(tài)估計(jì)的過(guò)程包含有6個(gè)上述的結(jié)構(gòu),代表訓(xùn)練的不同階段,每個(gè)階段都會(huì)輸出一組置信圖來(lái)映射二維關(guān)節(jié)點(diǎn)的位置坐標(biāo)。每一階段的輸出置信圖映射及圖像都做為下一階段的輸入。在三維人體姿態(tài)概率預(yù)測(cè)模型中,三維姿態(tài)層負(fù)責(zé)將二維關(guān)節(jié)點(diǎn)的位置坐標(biāo)提升為三維,并將它們投射到有效的三維姿勢(shì)空間中。然后,將通過(guò)CNN預(yù)測(cè)的二維姿態(tài)置信圖和投影后的三維姿態(tài)置信圖合并輸出一組針對(duì)每階段的二維關(guān)節(jié)點(diǎn)坐標(biāo)位置。二維和三維坐標(biāo)位置的準(zhǔn)確性在各階段都會(huì)逐步提高。每個(gè)階段的損失只需要用二維位姿的注釋來(lái)表示,而不需要三維。整個(gè)網(wǎng)絡(luò)架構(gòu)完全可逆,并可以通過(guò)反向傳播實(shí)現(xiàn)端到端的訓(xùn)練。

        1.2 Human3.6M數(shù)據(jù)集

        Human3.6M數(shù)據(jù)集[11]的數(shù)據(jù)采集包括4個(gè)校準(zhǔn)攝像機(jī)的高分辨率50 Hz視頻,其通過(guò)高速運(yùn)動(dòng)捕捉系統(tǒng)精確的三維人體關(guān)節(jié)位置和關(guān)節(jié)角度,包含24個(gè)像素級(jí)身體部位標(biāo)簽,保證了準(zhǔn)確的捕獲和同步圖像數(shù)據(jù)。數(shù)據(jù)集使用Human Solutions的3傳感器3D掃描儀掃描所有演員,稱為Vitus Smart LC3。此數(shù)據(jù)集還包含TOF數(shù)據(jù)、演員的3D激光掃描圖像、準(zhǔn)確的背景減法和人物邊界框等等。應(yīng)用領(lǐng)域?yàn)轭A(yù)先計(jì)算的圖像描述,可視化和判別性人體姿勢(shì)預(yù)測(cè)的軟件,以及測(cè)試集的性能評(píng)估。數(shù)據(jù)集根據(jù)骨架給出姿勢(shì)數(shù)據(jù),使用相機(jī)參數(shù)投影三維人體關(guān)節(jié)位置并獲得非常準(zhǔn)確的二維人體姿態(tài)信息。為保證數(shù)據(jù)的一致性和使用方便性,使用相同的32個(gè)人體關(guān)節(jié)骨架。在測(cè)試集中,為減少相關(guān)的關(guān)節(jié)數(shù)量,每只手和腳只保留一個(gè)關(guān)節(jié)。獲得的網(wǎng)格由Human Solution ScanWorks軟件預(yù)處理。

        模型在Human3.6M數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,該數(shù)據(jù)集由360萬(wàn)個(gè)精確的三維人體姿態(tài)組成。這是一個(gè)由5名女性和6名男性受試者組成的視頻和mocap數(shù)據(jù)集,從4個(gè)不同的角度拍攝,顯示他們進(jìn)行的典型活動(dòng)(坐、走路、打招呼、吃東西等)。動(dòng)作示范如圖2所示。

        圖2 Human3.6M數(shù)據(jù)集動(dòng)作示范:(a)打招呼,(b)吃東西,(c)坐,(d)走路Fig.2 Demonstration of Human 3.6 M dataset:(a)greeting,(b)eating,(c)sitting,(d)walking

        模型利用Human3.6M數(shù)據(jù)集進(jìn)行訓(xùn)練,其中包含視頻圖像的訓(xùn)練,該估計(jì)模型訓(xùn)練完成后,測(cè)試也通過(guò)視頻圖像進(jìn)行。本文獲取視頻圖像的方法是直接調(diào)用攝像頭,利用攝像頭拍攝下的包含人體的視頻圖像,測(cè)試模型的三維人體姿態(tài)估計(jì)效果,其中包括單人和多人的視頻場(chǎng)景。

        2 結(jié)果與討論

        實(shí)驗(yàn)運(yùn)行環(huán)境:服務(wù)器配置為:CPU[Interl(R)Core(TM)i7-8700 CPU@3.20 GHz],顯卡(NVIDA GeForce GTX 1080Ti),系統(tǒng):64位 Ubuntu 16.04 LTS,內(nèi)存:16 GB,磁盤(pán):(3 TB),固態(tài)硬盤(pán)(256 GB)。

        實(shí)驗(yàn)平臺(tái)為:Tensorflow 1.4.0,OpenCV 3.0,Python 3.5。

        實(shí)驗(yàn)數(shù)據(jù)集:Human3.6M數(shù)據(jù)集。

        實(shí)驗(yàn)采用攝像頭拍攝獲得視頻作為輸入,并獲得二維關(guān)節(jié)點(diǎn)和三維姿態(tài)估計(jì)結(jié)果,實(shí)驗(yàn)結(jié)果如圖3所示。由圖3(a)和圖3(b)可以看出本文結(jié)果在復(fù)雜場(chǎng)景下首先能準(zhǔn)確識(shí)別出目標(biāo)人體,并獲得人體二維姿態(tài)的關(guān)鍵關(guān)節(jié)點(diǎn)及骨骼線條,不同的部位用不同顏色的線條表示,展示出了頭部和四肢的關(guān)節(jié)點(diǎn)位置。

        三維人體姿態(tài)估計(jì)結(jié)果如圖3(c)和圖3(d)所示,結(jié)果能準(zhǔn)確反映人體三維關(guān)節(jié)姿態(tài)及三維網(wǎng)格空間中人體各部位所在位置的三維空間坐標(biāo),三維人體估計(jì)模型一共有16個(gè)關(guān)鍵關(guān)節(jié)點(diǎn),均在圖3(c)和 3(d)中標(biāo)出,不同部位用不同顏色的線條表示,方便區(qū)分。

        圖3 視頻的三維人體姿態(tài)估計(jì):(a)輸入視頻,(b)關(guān)節(jié)點(diǎn)演示圖,(c)左邊人體三維估計(jì),(d)右邊人體三維估計(jì)Fig.3 Three-dimensional human pose estimation of videos:(a)input videos,(b)demonstration of joint points,(c)three-dimensional pose estimation of left person,(d)three-dimensional pose estimation of right person

        基于概率主成分分析(probabilistic principal component analysis,PPCA)方法[16],對(duì)該三維人體姿態(tài)估計(jì)模型做出了在Human3.6M數(shù)據(jù)集上部分人體動(dòng)作行為的姿態(tài)估計(jì)測(cè)試,跟傳統(tǒng)的方法估計(jì)的誤差對(duì)比結(jié)果如表1所示。Ionescu等[15]提出Human3.6數(shù)據(jù)集,并對(duì)該數(shù)據(jù)集進(jìn)行了傅里葉核近似測(cè)試。Zhou等[12]用二維姿勢(shì)標(biāo)注來(lái)訓(xùn)練CNN聯(lián)合回歸量和單獨(dú)的3D mocap數(shù)據(jù)集,從而學(xué)習(xí)三維稀疏基礎(chǔ)來(lái)建立三維估計(jì)模型。本文模型的姿態(tài)估計(jì)測(cè)試在各個(gè)人體動(dòng)作行為上的誤差均為最低值,在吃東西行為上誤差為79.12 mm,在坐行為上誤差為118.96 mm,在走路行為上誤差為78.28 mm,在打招呼行為上為95.17 mm,性能相比前兩種方法均有不同程度的提升,平均誤差達(dá)到92.88 mm,相比Ionescu等[15]的傅里葉核近似法提高了31.8%,相比Zhou等[12]的三維稀疏回歸法提高了5.7%,估計(jì)效果明顯更加優(yōu)越。3種方法平均誤差對(duì)比如表1所示。

        表1 不同行為下姿態(tài)估計(jì)測(cè)試誤差對(duì)比Tab.1 Comparison of test errors of human pose estimation in different behavior videos mm

        3 結(jié) 語(yǔ)

        本文提出了一種基于CNN的人體姿態(tài)識(shí)別方法,從視頻中估計(jì)三維的人體姿勢(shì),在估計(jì)誤差上優(yōu)于傳統(tǒng)的解決方案。該方法能有效地將視頻圖像中的人體姿態(tài)從二維升級(jí)到三維空間,可以在單人和多人場(chǎng)景下識(shí)別出每一個(gè)人的三維人體姿態(tài),輸出三維人體模型圖。后續(xù)在三維人體姿態(tài)估計(jì)領(lǐng)域的研究中,會(huì)重點(diǎn)關(guān)注對(duì)輸入圖像的預(yù)處理,減弱圖像陰影對(duì)圖像識(shí)別的影響,使得識(shí)別效果更加準(zhǔn)確。同時(shí),做到實(shí)時(shí)的視頻人體姿態(tài)識(shí)別也將是今后研究的方向之一。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        国产无遮挡又黄又爽又色| 婷婷丁香开心五月综合| aaa日本高清在线播放免费观看| 忘忧草社区www日本高清| 暖暖免费 高清 日本社区在线观看| 欧美日韩国产乱了伦| 午夜桃色视频在线观看| 欧洲美熟女乱又伦av影片 | 国产精自产拍久久久久久蜜| 日韩欧美在线观看成人| 白色白色视频在线观看| аⅴ天堂中文在线网| 国外亚洲成av人片在线观看| 亚洲av高清在线观看三区| 亚洲桃色蜜桃av影院| 亚洲av无码精品色午夜app| 国产精品天天在线午夜更新| 一区二区在线亚洲av蜜桃| 亚洲97成人精品久久久| 亚洲av无码码潮喷在线观看| 在线播放亚洲第一字幕| 国产成人丝袜在线无码| 一本色道久久88加勒比| 亚洲精品久久久www小说| 国产3p视频| 国产一区不卡视频在线| 国产精品女直播一区二区| 性欧美牲交xxxxx视频欧美| 色爱无码A V 综合区| 久久久噜噜噜久久熟女| 亚洲精品国产成人片| 亚洲的天堂av无码| 不打码在线观看一区二区三区视频 | 国产精品无码无片在线观看3d | 国产视频不卡在线| 日本一区二区三级在线| 国产男女免费完整视频| 无码国产精品一区二区免费97| 美腿丝袜一区在线观看| 妺妺窝人体色www婷婷| 国产精品视频一区二区三区四|