汪洋繼鴻,楊大偉,毛 琳
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116605)
姿態(tài)估計(jì)準(zhǔn)確度與特征提取能力密切相關(guān),但人體部件遮擋、肢體欠匹配會帶來估計(jì)誤差,降低這些誤差仍是當(dāng)前實(shí)現(xiàn)精準(zhǔn)姿態(tài)估計(jì)的主要困難。目前基于深度學(xué)習(xí)的主流算法分為基于3D信息的直接回歸[1]、基于2D信息生成和混合方法三類,其中混合方法因其訓(xùn)練負(fù)荷較低且可避免姿態(tài)多義性而被廣泛使用。
在混合方法中,Jahangiri等[2]首次將2D與3D特征信息混合訓(xùn)練,生成較為準(zhǔn)確三維姿態(tài),但3D人體生成器網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,提取特征信息能力有限。同年Zhou等[3]提出一種戶外弱監(jiān)督[4]3D人體姿態(tài)估計(jì)網(wǎng)絡(luò),加入深度回歸模塊提取深度特征,同時利用2D特征對3D姿態(tài)加以約束,既提高估計(jì)精度又有效預(yù)防過擬合,但骨架信息過于單薄,不能充分表達(dá)人體姿態(tài),姿態(tài)估計(jì)需要一種新的呈現(xiàn)方式。SMPL[5]通過改變形狀與姿態(tài)等參數(shù)構(gòu)建一個完整的網(wǎng)格化“人體”,可以精確表達(dá)不同性別、體型等人體姿態(tài)。Choi與Moon等以SMPL為基礎(chǔ)提出Pose2Mesh[6],通過增加更深層網(wǎng)絡(luò)復(fù)雜特征表達(dá)能力,使估計(jì)結(jié)果更接近真實(shí)值。HRNet[7]從加寬網(wǎng)絡(luò)的角度將姿態(tài)估計(jì)的精度進(jìn)一步提高,與加深網(wǎng)絡(luò)層數(shù)不同,網(wǎng)絡(luò)拓寬使得整個過程保持高分辨率表征,避免從低分辨率表征中恢復(fù)高分辨率表征過程丟失特征細(xì)節(jié),預(yù)測關(guān)鍵點(diǎn)熱圖和空間點(diǎn)更精確。Sun等[8]以混合方法構(gòu)建一套將HRNet作為網(wǎng)絡(luò)主干的姿態(tài)估計(jì)算法,利用生成人體中心熱圖約束三維人體模型,既對特征進(jìn)行良好提取,又保證所估計(jì)模型的準(zhǔn)確性。針對以上方法進(jìn)行大量研究,混合方法可以簡化為主干提取特征,三條支路對主干所提供豐富特征信息進(jìn)一步提取,最后分別生成熱力、2D和3D圖像并融合。現(xiàn)有研究對混合信息種類與融合方式等進(jìn)行改進(jìn),但尚未關(guān)注各支路特征提取性能對遮擋和肢體欠匹配問題的影響。
針對遮擋和肢體欠匹配問題,本文提出一種多通道多尺度的均一化金字塔[9]特征捕捉網(wǎng)絡(luò)(Unified Pyramid Features Capture Net,UC-Net),將特征捕捉模塊應(yīng)用于該網(wǎng)絡(luò)的三條支路,利用不同大小卷積核感受野不同的特性對特征進(jìn)行多尺度捕捉,為分類器提供更準(zhǔn)確的特征信息,明顯改善姿態(tài)估計(jì)過程中由遮擋、誤識別等造成的誤差較大問題,在VR、AR和動作捕捉[10]等場景估計(jì)結(jié)果更精準(zhǔn)。在3DPW[11]數(shù)據(jù)集上測試結(jié)果MPJPE[12]與PA-MPJPE比ROMP分別降低1.9%和3.1%。
三維人體姿態(tài)估計(jì)常用混合方法,將混合特征融合獲取人體姿態(tài),其結(jié)構(gòu)如圖1?;旌戏椒▽⑾嗤卣鞣譃槿龡l支路同時處理,三條支路分別生成熱力、2D和3D三種圖像,通過fM將三種圖像融合,最后輸出三維人體姿態(tài)圖像M0,其中熱力圖像為語義信息,2D圖像為紋理信息,3D圖像為姿態(tài)信息。
圖1 混合方法簡化結(jié)構(gòu)圖
為能夠充分提取圖像中語義、紋理和姿態(tài)的細(xì)節(jié)特征,本文將卷積、歸一化和激活函數(shù)的特定組合設(shè)定為特征捕捉模塊,將上述特征提取過程稱為特征捕捉。主干網(wǎng)絡(luò)提取特征x傳遞至混合支路,經(jīng)特征捕捉模塊G進(jìn)一步提取特征,使用圖像生成器fh、f2D和f3D分別生成熱力、2D與3D圖像,對這些圖像進(jìn)行融合輸出三維姿態(tài)圖像。
混合方法從多個維度解決姿態(tài)估計(jì)問題,利用熱力、2D與3D三種信息,極大程度地降低從2D圖像生成三維姿態(tài)造成的姿態(tài)多義性誤差,其過程可以表示為
(1)
式中:G為特征捕捉模塊函數(shù);C、B和R分別為卷積、歸一化和激活運(yùn)算;fh、f2D和f3D分別為熱力、2D和3D圖像三條支路中,生成對應(yīng)圖像特征運(yùn)算;Mh、M2D和M3D分別代表熱力、2D和3D圖像;fM為特征融合過程;M0為輸出三維人體姿態(tài)圖像。
由于對語義、紋理特征提取不足,當(dāng)圖中人物出現(xiàn)遮擋情況造成人體不完整時,會出現(xiàn)人體部件遮擋、肢體欠匹配等誤差。姿態(tài)估計(jì)失敗示意圖如圖2。
混合方法中,因行為場景前背景復(fù)雜程度高,各種干擾因素眾多,單一尺度很難觀察清楚全部細(xì)節(jié)信息。特征捕捉模塊不能對主干網(wǎng)絡(luò)提取的豐富特征進(jìn)行充分利用,導(dǎo)致特征表達(dá)能力不足,難以對圖像姿態(tài)細(xì)節(jié)充分表征。因此,通過多尺度方式提高特征的利用率,進(jìn)一步提高分類精度。
圖2 姿態(tài)估計(jì)失敗示意圖
1.2.1 金字塔特征捕捉模塊
為解決上述人體部件遮擋、肢體欠匹配等問題,本文專注于提高特征捕捉模塊性能,提出金字塔特征捕捉模塊,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3。
圖3 金字塔特征捕捉模塊結(jié)構(gòu)圖
金字塔特征捕捉模塊為一個η層金字塔結(jié)構(gòu),每層結(jié)構(gòu)都由卷積串聯(lián)歸一化構(gòu)成,輸入為特征x,將所有批量歸一化模塊輸出相加,最后經(jīng)過激活函數(shù)ReLU輸出。金字塔特征捕捉模塊計(jì)算公式:
(2)
式中:i為金字塔層數(shù);Ci為金字塔第i層卷積計(jì)算;Bi為第i層批量歸一化計(jì)算;F1為金字塔結(jié)構(gòu)輸出函數(shù);F2為輸入F1并經(jīng)過R激活的輸出函數(shù)。
金字塔特征捕捉模塊以特征x為輸入,經(jīng)過并聯(lián)多尺度卷積Ci對其進(jìn)行特征提取,利用Bi線性化處理,最后將結(jié)果相加并激活。對于特征捕捉模塊,單一尺度卷積感受野有限,難以提取多尺度特征信息,造成細(xì)節(jié)特征提取不充分,須加強(qiáng)對特征提取的能力,使特征信息多樣化,因此加入多尺度卷積改變感受野面積,強(qiáng)化對不同特征提取能力。同時因?yàn)樵W(wǎng)絡(luò)特征捕捉模塊為單通道,對特征捕捉能力有限,于是將多尺度卷積并聯(lián)排列,進(jìn)一步強(qiáng)化特征提取能力。
為了下文更方便地表達(dá)該模塊,公式(2)可整體表示為式(3),其中F為特征捕捉模塊輸出函數(shù)。
(3)
1.2.2 均一化處理
特征捕捉模塊結(jié)構(gòu)單一是熱力、2D和3D圖像三條支路共同的問題,因此本文采取均一化處理方式,即將金字塔特征捕捉模塊同時應(yīng)用于三條支路,構(gòu)成“相同組成結(jié)構(gòu)、不同處理維度”的均一化金字塔特征捕捉網(wǎng)絡(luò),其結(jié)構(gòu)如圖4。
圖4 均一化金字塔特征捕捉網(wǎng)絡(luò)結(jié)構(gòu)圖
均一化金字塔特征捕捉網(wǎng)絡(luò)計(jì)算公式可以表示為
(4)
式(4)與式(1)相比,均一化金字塔特征捕捉網(wǎng)絡(luò)可以對不同尺度特征進(jìn)行更充分提取,豐富特征使熱力、2D和3D圖像對細(xì)節(jié)特征更敏感,熱力、2D和3D特征圖像M′h、M′2D和M′3D包含更多細(xì)節(jié)特征,進(jìn)而融合后輸出姿態(tài)圖像M更加精準(zhǔn)。
在特征捕捉模塊部分,本文提出了金字塔特征捕捉模塊以獲取更豐富的細(xì)節(jié)特征,進(jìn)而增強(qiáng)姿態(tài)估計(jì)模型性能。整體姿態(tài)估計(jì)模型如圖5。
圖5 整體網(wǎng)絡(luò)結(jié)構(gòu)圖
網(wǎng)絡(luò)流程如下:
步驟1:主干提取與坐標(biāo)融合。在初步特征提取階段,采用HRNet32作為提取主干,并將提取到的特征與坐標(biāo)圖像進(jìn)行融合。該過程為主干H32對輸入RGB圖像Iinput進(jìn)行特征提取,并將輸出結(jié)果與坐標(biāo)圖像Coordmaps融合,輸出特征圖像FBC。
步驟2:特征捕捉。主干HRNet32提取基礎(chǔ)特征與坐標(biāo)圖像融合后傳送至三條支路,均一化金字塔特征捕捉網(wǎng)絡(luò)對特征進(jìn)一步提取,將特征FBC帶入式(3),經(jīng)過多尺度卷積和歸一化運(yùn)算后使用ReLU函數(shù)激活,將輸入通道數(shù)為34維的特征圖像擴(kuò)充為64維,得到特征F′BC。
步驟3:精細(xì)化處理。首先對兩個連續(xù)基礎(chǔ)ResNet模塊RN對F′BC進(jìn)一步精細(xì)化處理,其次通過1×1卷積C1×1對三條支路輸出圖像特征進(jìn)行維度處理,使熱力、2D和3D三條支路輸出特征圖像FC維度從64分別升降至1、3和142。
步驟4:支路圖像生成與融合。將三條支路中維度變換后的特征圖像FC分別輸入至熱力、2D和3D圖像,生成器fh、f2D和f3D中生成熱力、2D和3D圖像Mh、M2D和M3D。將2D與3D圖像相加得到三維人體網(wǎng)格圖像Mm,與熱力圖Mh進(jìn)行參數(shù)采樣輸出三維人體姿態(tài)圖像M。
使用1張NVIADIA GeForce 1080Ti顯卡,在Ubuntu16.04環(huán)境基礎(chǔ)上,應(yīng)用PyTorch1.7.0深度學(xué)習(xí)框架進(jìn)行訓(xùn)練和測試。使用主干網(wǎng)絡(luò)HRNet32,輸入圖像尺寸為512×512,訓(xùn)練階段與測試階段批尺寸皆為16,學(xué)習(xí)率為0.000 05,同時訓(xùn)練人數(shù)最大值為128。
采用4個2D數(shù)據(jù)集和3個3D數(shù)據(jù)集進(jìn)行訓(xùn)練:2D數(shù)據(jù)集為COCO[13]、CrowdPose[14]、LSP[15]和MPII[16];3D數(shù)據(jù)集為Human3.6M[12]、MPI-INF-3DHP[17]和MuCo[17];測試集為3DPW。具體數(shù)據(jù)見表1。
表1 數(shù)據(jù)集信息
為確保生成估計(jì)結(jié)果準(zhǔn)確性,測試模型與真值平均每關(guān)節(jié)位置誤差的歐氏距離(Mean Per Joint Position Error,MPJPE),MPJPE最早由Catalin Ionescu在Human3.6M中提出,對于幀f和骨架S,計(jì)算公式:
(5)
另一個指標(biāo)PA-MPJPE是MPJPE的改進(jìn)型,對估計(jì)模型參照真值進(jìn)行平移、旋轉(zhuǎn)和縮放,即進(jìn)行普羅克魯斯對齊后計(jì)算誤差(Procrustes-Aligned Mean Per Joint Position Error,PA-MPJPE)。PA-MPJPE可以消除平移、旋轉(zhuǎn)和尺度的影響,更專注于評估重建3D估計(jì)骨架的準(zhǔn)確性。
對比實(shí)驗(yàn)數(shù)據(jù)采用3DPW數(shù)據(jù)集,結(jié)果見表2。
表2 三維人體姿態(tài)估計(jì)算法對比
實(shí)驗(yàn)結(jié)果表明,所提出網(wǎng)絡(luò)UC-Net中MPJPE與PA-MPJPE評分分別為87.2和53.6,相較于改進(jìn)前原始算法ROMP的MPJPE與PA-MPJPE評分88.9和55.3分別降低1.9%和3.1%。
將ROMP與本文針對輸出姿態(tài)圖像進(jìn)行可視化結(jié)果對比如圖6。
圖6 姿態(tài)圖像可視化結(jié)果對比
本文使用三組圖像對比改進(jìn)前后網(wǎng)絡(luò)輸出姿態(tài)差別。圖6第(1)行可以明顯看出,面對普通遮擋情況時,ROMP與UC-Net都能夠進(jìn)行準(zhǔn)確估計(jì),但面對嚴(yán)重遮擋與模糊時,ROMP無法識別人體,UC-Net則可以對人體進(jìn)行估計(jì);圖6第(2)行中,UC-Net相較于ROMP對紋理細(xì)節(jié)特征更敏感,可以對圖中微小目標(biāo)進(jìn)行估計(jì),而ROMP會出現(xiàn)遺漏情況;圖6第(3)行同時面對肢體遮擋與運(yùn)動模糊困難,ROMP所估計(jì)姿態(tài)肢體匹配不準(zhǔn)確,但UC-Net輸出姿態(tài)則與真實(shí)姿態(tài)十分接近,能夠克服遮擋等造成肢體匹配不準(zhǔn)確的誤差。
為驗(yàn)證所提出網(wǎng)絡(luò)的有效性,對網(wǎng)絡(luò)模型進(jìn)行消融實(shí)驗(yàn),采用3DPW數(shù)據(jù)集和MPJPE、PA-MPJPE評價指標(biāo)。為探究不同卷積核大小及特征捕捉模塊層數(shù)對結(jié)果準(zhǔn)確率的影響,設(shè)計(jì)實(shí)驗(yàn)見表3。
表3 不同卷積核大小及特征捕捉模塊層數(shù)性能對比
表3中,不同組別特征捕捉模塊結(jié)構(gòu):
k∈[0,2]。
(6)
本文針對三維人體姿態(tài)估計(jì)混合方法進(jìn)行改進(jìn),提出均一化金字塔特征捕捉網(wǎng)絡(luò)。通過金字塔特征捕捉模塊,加強(qiáng)了對圖像中語義、紋理和姿態(tài)細(xì)節(jié)特征的提取能力,生成熱力、2D和3D圖像準(zhǔn)確度提高,增強(qiáng)了融合后生成姿態(tài)圖像表征能力,改善了由人體部件遺漏和肢體欠匹配造成估計(jì)誤差較大的問題。為VR、AR和動作捕捉等領(lǐng)域精準(zhǔn)姿態(tài)估計(jì)提供有效解決策略。后續(xù)工作將進(jìn)一步提高對不同體型人體姿態(tài)估計(jì)能力,擴(kuò)大適用人群范圍。