秦曉飛,郭海洋,陳浩勝,李 夏,何致遠(yuǎn)
(1.上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093;2.上海理工大學(xué) 機(jī)械工程學(xué)院,上海 200093)
人體姿態(tài)估計(jì)就是在給定的一幅圖像或一段視頻中去進(jìn)行人體關(guān)鍵點(diǎn)位置定位的過(guò)程,基于給定RGB圖像的關(guān)鍵點(diǎn)定位在多個(gè)領(lǐng)域都有著很好的應(yīng)用前景,具有很高的研究?jī)r(jià)值。但由于存在光照變化、運(yùn)動(dòng)模糊、自身遮擋和視角不同等問(wèn)題,所以現(xiàn)實(shí)生活中,多人姿態(tài)估計(jì)非常具有挑戰(zhàn)性。早期的人體姿態(tài)估計(jì)經(jīng)典著作將人類關(guān)鍵點(diǎn)估計(jì)問(wèn)題表述為樹形結(jié)構(gòu)或圖形模型問(wèn)題,并基于手工制作的特征來(lái)預(yù)測(cè)關(guān)鍵點(diǎn)位置。隨著深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展,其在人體姿態(tài)估計(jì)領(lǐng)域的應(yīng)用極大地提高了關(guān)鍵點(diǎn)預(yù)測(cè)的性能。
基于卷積神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計(jì)經(jīng)歷了坐標(biāo)回歸到預(yù)測(cè)熱力圖的發(fā)展趨勢(shì)。Toshev等[1]提出的DeepPose首次使用CNN強(qiáng)大的擬合能力去強(qiáng)制性地回歸人體骨骼關(guān)鍵點(diǎn)的坐標(biāo),并用級(jí)聯(lián)的形式不斷地調(diào)整結(jié)果。然而使用坐標(biāo)回歸的方法非常容易造成過(guò)擬合問(wèn)題,隨后出現(xiàn)的預(yù)測(cè)熱力圖的方法優(yōu)勢(shì)明顯。2016年,單人姿態(tài)估計(jì)領(lǐng)域以Hourglass[2]和卷積姿態(tài)機(jī)(CPM)[3]為代表的模型均使用了這一方法。前者重復(fù)使用降采樣和上采樣的沙漏狀網(wǎng)絡(luò)來(lái)推斷人體的關(guān)鍵點(diǎn)位置,后者使用排列有序的網(wǎng)絡(luò)架構(gòu)來(lái)實(shí)現(xiàn)空間信息和紋理信息的建模。這兩個(gè)網(wǎng)絡(luò)中的每一個(gè)階段都會(huì)單獨(dú)地去監(jiān)督某一部分的學(xué)習(xí),同時(shí)使用級(jí)聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu)將空間信息和紋理信息有效融合在一起。2017年,卡內(nèi)基梅隆大學(xué)提出的OpenPose[4]使用部分親和場(chǎng)來(lái)表示人的肢體,并采用樹結(jié)構(gòu)結(jié)合匈牙利算法求解線性整數(shù),在多人姿態(tài)估計(jì)自底而上流派中具有里程碑意義。2018年提出的MultiPoseNet[5]使用ResNet作為主干網(wǎng)絡(luò),再加兩個(gè)特征金字塔網(wǎng)絡(luò)頭分別輸出人體檢測(cè)框和人體關(guān)鍵點(diǎn),最后使用姿態(tài)殘差網(wǎng)絡(luò)將檢測(cè)到的所有關(guān)鍵點(diǎn)依據(jù)人體檢測(cè)結(jié)果進(jìn)行聚類,得到每個(gè)人的人體關(guān)鍵點(diǎn)集合。2019年提出的HR-Net[6]模型極力追求檢測(cè)精度而忽視了模型參數(shù)量,與此同時(shí)也涌現(xiàn)出LPN[7]、FPD[8]等一批以簡(jiǎn)單、快速和較高精度為特點(diǎn)的小模型。
本文提出了一種基于深度殘差網(wǎng)絡(luò)(ResNet)的多人姿態(tài)估計(jì)算法,該算法采用現(xiàn)有的人體檢測(cè)器,以Simple Baseline[9]為單人姿態(tài)估計(jì)網(wǎng)絡(luò)的主干網(wǎng)絡(luò),通過(guò)改進(jìn)殘差塊,引入多尺度監(jiān)督模塊和多尺度回歸模塊,結(jié)合豐富的多尺度特征,通過(guò)對(duì)各尺度特征的匹配,提高了關(guān)鍵點(diǎn)定位的魯棒性。另外,新穎的坐標(biāo)提取方法也有效提升了模型的性能。該算法參數(shù)量少,檢測(cè)速度快,檢測(cè)精度也極具競(jìng)爭(zhēng)力。
本文提出的算法屬于自頂而下方案,即先將圖片輸入到人體檢測(cè)網(wǎng)絡(luò)中,檢測(cè)圖片中的所有人體,給每個(gè)人體實(shí)例一個(gè)邊界框,隨后將邊界框裁減調(diào)整為適當(dāng)尺寸輸入到單人姿態(tài)估計(jì)網(wǎng)絡(luò)(SPPE)內(nèi)作關(guān)鍵點(diǎn)檢測(cè)。由于YOLOv3[10]很好地權(quán)衡了人體檢測(cè)速度和精度,是當(dāng)下最先進(jìn)的目標(biāo)檢測(cè)算法之一,因此本文算法直接取其作為人體檢測(cè)器。整體算法網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
單人關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)往往會(huì)采用一個(gè)編解碼架構(gòu),通過(guò)特征提取網(wǎng)絡(luò)反復(fù)提取原始圖片的信息,隨著網(wǎng)絡(luò)的加深提取到的信息越來(lái)越抽象,特征圖的空間尺寸也會(huì)越來(lái)越小,這對(duì)關(guān)鍵點(diǎn)的最終預(yù)測(cè)有負(fù)面影響。本文受Simple Baseline[9]啟發(fā),采用ResNet50作為特征提取的主干網(wǎng)絡(luò),在C5層后面接3個(gè)反卷積模塊,每個(gè)模塊為:反卷積層+BN+ReLU+ 1 ×1 卷積,每個(gè)反卷積層輸出的特征圖均為128個(gè)通道,經(jīng)過(guò) 1 ×1 卷積后生成的熱力圖的大小依次為 1 6×12 ,32×24, 6 4×48 。在每個(gè)模塊上增加一個(gè)損失項(xiàng),以允許對(duì)每一層輸出的特定尺度的熱力圖進(jìn)行明確的監(jiān)督。多尺度監(jiān)督能夠有效地學(xué)習(xí)多尺度特征,從而更好地捕捉到身體關(guān)鍵點(diǎn)的局部上下文特征。將D1,D2,D3輸出的熱力圖分別上采樣至同一尺度后堆疊起來(lái),再經(jīng)過(guò)一個(gè) 1 ×1 的卷積輸出最終預(yù)測(cè)的熱力圖,對(duì)各尺度熱力圖的整合充分利用了全局上下文信息,提高了關(guān)鍵點(diǎn)定位的魯棒性。圖2詳細(xì)展示了單人姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。
圖1 整體算法網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Overall algorithm network structure diagram
圖2 單人姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of single person pose estimation
1.2.1 殘差塊的改進(jìn)
深度殘差網(wǎng)絡(luò)(ResNet)的基礎(chǔ)構(gòu)造塊是殘差塊,分別由 1 ×1 , 3 ×3 , 1 ×1 的卷積以及1×1的旁路跳級(jí)連接組成。這一結(jié)構(gòu)對(duì)特征圖的輸出通道數(shù)能進(jìn)行非常靈活的設(shè)置,不過(guò)本文對(duì)這一基礎(chǔ)模塊進(jìn)行了更為細(xì)致的改進(jìn),將普通卷積改成了深度可分離卷積,降低了參數(shù)量。將經(jīng)過(guò)1×1卷積輸出的特征圖平均分成s個(gè)特征圖子集,然后分別再經(jīng)過(guò) 3 ×3 的深度可分離卷積,各特征圖子集間加入跳級(jí)連接,這樣殘差塊的特征提取能力將大幅度提升。本文還對(duì)ResNet-50的C2~C5各層輸入輸出的通道數(shù)都進(jìn)行了減半處理,降低了計(jì)算量。原始?xì)埐顗K的參數(shù)量為 N um1 ,引入深度可分離卷積并降低通道數(shù)后的參數(shù)量為 N um2 ,N、M分別是輸入和輸出通道數(shù),且滿足M=2N,N≥32 ,N為 32 的整數(shù)倍:
故 N um2/Num1 ≤ 0.222 , 即 改 造 后 的 殘 差塊參數(shù)量降低到原來(lái)的 1 /4 以下。改進(jìn)過(guò)程見圖3。
1.2.2 多尺度監(jiān)督
Simple Baseline模型僅僅對(duì)最終的熱力圖進(jìn)行監(jiān)督,忽視了對(duì)解碼階段各尺度信息的融合,對(duì)全局信息利用不夠全面。多尺度監(jiān)督模塊(MSSModel)就是要彌補(bǔ)這一不足,該模塊主要是對(duì)反卷積層進(jìn)行監(jiān)督。反卷積層的每一層都有不同尺度,各個(gè)尺度的預(yù)測(cè)熱力圖都有其對(duì)應(yīng)的真實(shí)熱力圖,多尺度監(jiān)督模塊就是通過(guò)計(jì)算真實(shí)熱力圖與這些預(yù)測(cè)熱力圖之間的殘差來(lái)實(shí)現(xiàn)監(jiān)督目的。為了使預(yù)測(cè)熱力圖的通道數(shù)相等以便計(jì)算對(duì)應(yīng)的殘差,使用 1 ×1 的卷積進(jìn)行降維,將高維特征映射轉(zhuǎn)化為所需數(shù)量的特征,其中,降維之后得到的熱力圖數(shù)量(即通道數(shù))與身體關(guān)鍵點(diǎn)的數(shù)量相同。另一方面,對(duì)真實(shí)關(guān)鍵點(diǎn)熱力圖進(jìn)行下采樣,以匹配每個(gè)尺度下的關(guān)鍵點(diǎn)的預(yù)測(cè)熱力圖,方便計(jì)算殘差。具體結(jié)構(gòu)見圖2。
圖3 殘差塊的改進(jìn)過(guò)程Fig.3 Improvement process of residual block
為了訓(xùn)練多尺度監(jiān)督網(wǎng)絡(luò),本文定義了損失函數(shù)LMSE 。LMSE 定義為所有尺度上關(guān)鍵點(diǎn)的預(yù)測(cè)熱力圖與真實(shí)熱力圖的均方誤差( M SE )的均值。首先,
式中: (x,y) 表示熱力圖上任意像素點(diǎn)坐標(biāo);(xn,yn)是第k個(gè)關(guān)鍵點(diǎn)的真實(shí)坐標(biāo); σ 是高斯峰的標(biāo)準(zhǔn)差;(x,y) 是第d(d=1,2,3) 個(gè)尺度下的真實(shí)熱力圖,它是以每個(gè)關(guān)鍵點(diǎn)真實(shí)坐標(biāo)為中心生成的二維高斯分布。損失函數(shù)LMSE定義為
式中:K表示人體關(guān)鍵點(diǎn)總數(shù);表示第d個(gè)尺度下第k個(gè)關(guān)鍵點(diǎn)的預(yù)測(cè)熱力圖,(x,y) 尺度與(x,y) 、(x,y) 一致。需要注意反卷積層預(yù)測(cè)的熱力圖與最終預(yù)測(cè)熱力圖的損失權(quán)重是不一樣的。
1.2.3 多尺度回歸
使用一個(gè)多尺度回歸模塊(MSR-Model)對(duì)多尺度關(guān)鍵點(diǎn)熱力圖進(jìn)行全局優(yōu)化,以提高估計(jì)姿態(tài)的結(jié)構(gòu)一致性。通過(guò)考慮所有尺度上的熱力圖進(jìn)行姿勢(shì)優(yōu)化,可以從回歸網(wǎng)絡(luò)中學(xué)習(xí)這些先驗(yàn)知識(shí)。該模塊以多尺度熱力圖作為輸入,通過(guò) 1 ×1 卷積后可以有效地將所有尺度上的熱力圖進(jìn)行融合,以細(xì)化估計(jì)的姿態(tài)。多尺度回歸模塊根據(jù)多尺度特征確定人體關(guān)鍵點(diǎn)之間的連通性,共同優(yōu)化整體結(jié)構(gòu)形態(tài)。具體結(jié)構(gòu)見圖2。
推理時(shí),大多數(shù)現(xiàn)有方法使用函數(shù)argmax來(lái)獲取熱力圖中的關(guān)鍵點(diǎn)位置并轉(zhuǎn)換為全分辨率,argmax的結(jié)果是離散的,只能是整數(shù),這限制了最終預(yù)測(cè)坐標(biāo)的精度。Luvizon等[11]嘗試使用soft-argmax技術(shù)來(lái)回歸最終坐標(biāo),使整個(gè)過(guò)程可微。
將真實(shí)熱力圖歸一化到 [0,1]區(qū)間內(nèi),這意味著會(huì)有大量接近零的值,可能會(huì)影響soft-argmax的精度。
由于 e0=1 , e1=e ,熱力圖中大量的零會(huì)降低產(chǎn)生最大值的概率,進(jìn)而影響結(jié)果的準(zhǔn)確性。本文在Gk(x,y) 之前引入系數(shù) β 來(lái)抑制接近于零的值的影響。可以用下式來(lái)表示:
經(jīng)過(guò)大量實(shí)驗(yàn),最終將 β 值設(shè)定為160,此時(shí)性能是最優(yōu)異的。將改良過(guò)的soft-argmax用于從單人姿態(tài)估計(jì)網(wǎng)絡(luò)輸出的熱力圖中提取關(guān)鍵點(diǎn)坐標(biāo),進(jìn)一步提高了最終預(yù)測(cè)的準(zhǔn)確性。
MPII數(shù)據(jù)集由大約25 000幅多人圖片組成,提供大約40 000個(gè)帶注釋的人體樣本,其中約25 000用于訓(xùn)練,約3 000作為驗(yàn)證集進(jìn)行評(píng)估,約11 000用于測(cè)試,每個(gè)人體樣本由16個(gè)關(guān)鍵點(diǎn)表示。COCO 2017訓(xùn)練集有57 000幅圖像包含150 000個(gè)人體實(shí)例,COCO 2017驗(yàn)證集包含5 000幅圖像,test-dev集包含20 000張圖像,關(guān)鍵點(diǎn)個(gè)數(shù)為17。
主要評(píng)價(jià)指標(biāo)有mAP和PCKh。mAP(平均精度均值)是基于對(duì)象關(guān)鍵點(diǎn)相似度(OKS)的評(píng)價(jià)指標(biāo),例如AP50代表目標(biāo)關(guān)鍵點(diǎn)相似度(OKS)為0.50,mAP表示OKS分別為0.50,0.55,...,0.95時(shí)對(duì)應(yīng)的AP的平均值。PCKh是另一種評(píng)價(jià)指標(biāo),代表以真實(shí)頭部邊界框?qū)蔷€長(zhǎng)度為歸一化參考的關(guān)鍵點(diǎn)正確估計(jì)的比例,如PCKh@0.5表示預(yù)測(cè)關(guān)鍵點(diǎn)與對(duì)應(yīng)的真實(shí)關(guān)鍵點(diǎn)位置距離小于真實(shí)頭部邊界框?qū)蔷€長(zhǎng)度的50%則被認(rèn)為是正確預(yù)測(cè)的。OKS的具體定義為
式中:p為真實(shí)的人的ID;i表示關(guān)鍵點(diǎn)的ID;dpi表示預(yù)測(cè)關(guān)鍵點(diǎn)與真實(shí)關(guān)鍵點(diǎn)的歐氏距離;Sp表示當(dāng)前人的尺度因子,即人在真實(shí)情況中所占面積的平方根; σi代表第i個(gè)關(guān)鍵點(diǎn)的歸一化因子;vpi代表第p個(gè)人的第i個(gè)關(guān)鍵點(diǎn)是否可見; δ 是用于將可見點(diǎn)選出來(lái)進(jìn)行計(jì)算的函數(shù)。
首先在MPII數(shù)據(jù)集上對(duì)單人姿態(tài)估計(jì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。MPII多人圖片中每個(gè)人體實(shí)例都有一個(gè)中心點(diǎn)標(biāo)簽和一個(gè)尺度因子,根據(jù)這兩個(gè)數(shù)據(jù)將人體附近的區(qū)域進(jìn)行裁剪并將其大小調(diào)整為256×192像素,在此基礎(chǔ)上,本文使用了-30°~30°的隨機(jī)旋轉(zhuǎn),0.7~1.30的隨機(jī)尺度水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)擴(kuò)增,將擴(kuò)增后的圖片塊送入SPPE訓(xùn)練。本文程序使用PyTorch框架來(lái)實(shí)現(xiàn),隨機(jī)初始化模型參數(shù),使用Adam算法,初始學(xué)習(xí)率設(shè)為10-4。對(duì)MPII訓(xùn)練集子集的25 000個(gè)人體實(shí)例進(jìn)行100個(gè)epoch的訓(xùn)練,即在訓(xùn)練batch設(shè)為30的情況下訓(xùn)練60個(gè)epoch,沒有給學(xué)習(xí)率設(shè)置權(quán)重衰減,之后手動(dòng)加載訓(xùn)練好的模型,更改學(xué)習(xí)率為10-5,又訓(xùn)練40個(gè)epoch。在2塊NVIDIA GTX1080Ti顯卡上共訓(xùn)練了4天。在包含3 000個(gè)人體實(shí)例的驗(yàn)證集上進(jìn)行評(píng)估,確保單人姿態(tài)估計(jì)網(wǎng)絡(luò)性能有提升后再進(jìn)行下一步訓(xùn)練。
將預(yù)訓(xùn)練好的單人姿態(tài)估計(jì)網(wǎng)絡(luò)用COCO數(shù)據(jù)集繼續(xù)進(jìn)行多人姿態(tài)估計(jì)訓(xùn)練。由于COCO 2017訓(xùn)練集的圖片自帶人體邊界框的標(biāo)簽數(shù)據(jù),因此可直接按人體邊界框進(jìn)行裁剪,后續(xù)操作和在MPII上訓(xùn)練時(shí)一致。不過(guò)本文是將訓(xùn)練集和驗(yàn)證集放在一起進(jìn)行訓(xùn)練的。最后將YOLOv3與SPPE相結(jié)合,在COCO 2017 test-dev集和MPII測(cè)試集分別進(jìn)行測(cè)試。
2.4.1 改進(jìn)措施的有效性分析
在MPII驗(yàn)證集上對(duì)改進(jìn)的模塊進(jìn)行消融實(shí)驗(yàn),直接使用Simple Baseline基準(zhǔn)模型進(jìn)行測(cè)試時(shí),模型參數(shù)量約為3.4×107,對(duì)檢測(cè)速度影響很大,而且平均PCKh@0.5只有87.8%。本文先對(duì)殘差塊進(jìn)行改進(jìn),縮減殘差塊的輸入輸出通道數(shù)、引入深度可分離卷積并將特征圖分組處理后,參數(shù)量大幅度下降,約為8.4×106,而同時(shí)PCKh@0.5得分卻有0.8%的提升,說(shuō)明改進(jìn)后的殘差塊特征提取能力確實(shí)得到提升。隨著多尺度監(jiān)督模塊和多尺度回歸模塊以及β-Soft-Argmax的引進(jìn)與改良,總體參數(shù)量?jī)H有約2×105的微小提升,卻分別帶來(lái)0.6%、0.3%和0.2%的性能提升,最終平均PCKh@0.5達(dá)到了89.7%,性價(jià)比很高。具體實(shí)驗(yàn)過(guò)程見表1,√代表使用或者引進(jìn)某模塊,×代表未使用??梢郧逦乜闯龈鞲倪M(jìn)措施帶來(lái)的變化,在參數(shù)量大幅降低的同時(shí),也意味著檢測(cè)速度的提升,與此同時(shí)模型檢測(cè)精度也不斷提升,充分證明了本文算法的有效性。
表1 MPII驗(yàn)證集上 PCKh@0.5 性能對(duì)比Tab.1 Performance comparison of PCKh@0.5 on the MPII validation dataset
2.4.2 MPII數(shù)據(jù)集結(jié)果
表2是本文提出的算法與一些流行算法在MPII測(cè)試集上的性能對(duì)比??梢郧宄乜吹?,本文提出的算法是非常高效的,PCKh@0.5得分達(dá)到了92.1%,雖然和最先進(jìn)的算法相比較還有一定差距,但在個(gè)別關(guān)鍵點(diǎn)例如腕關(guān)節(jié)和踝關(guān)節(jié)處,本文提出的算法識(shí)別精度超過(guò)了現(xiàn)有最優(yōu)秀的算法,具體比較見圖4。圖5是本文算法在MPII數(shù)據(jù)集上對(duì)單人進(jìn)行姿態(tài)估計(jì)的推理結(jié)果,可見檢測(cè)的精度相當(dāng)高。圖6是本文算法在MPII數(shù)據(jù)集上對(duì)多人進(jìn)行姿態(tài)估計(jì)的推理結(jié)果,由于采用YOLOv3作為人體檢測(cè)器,因此對(duì)于較小的人體實(shí)例也有很好的檢測(cè)效果。
表2 MPII測(cè)試集上 PCKh@0.5 性能對(duì)比Tab.2 Performance comparison of PCKh@0.5 on the MPII testing dataset
2.4.3 COCO數(shù)據(jù)集結(jié)果
圖7所示為本文算法在COCO數(shù)據(jù)集上的一些單人推理結(jié)果。對(duì)于常見的身體姿態(tài),檢測(cè)結(jié)果優(yōu)異。表3是本文提出的方法與一些流行方法在COCO數(shù)據(jù)集上的性能對(duì)比。需要注意的是,在以ResNet為主干網(wǎng)絡(luò)的各類算法中,本文算法采用較小的輸入就能獲得相當(dāng)高的mAP得分,mAP達(dá)到了72.4。盡管本文算法檢測(cè)精度性能不是最先進(jìn)的,但模型的參數(shù)量較小,因此推理速度優(yōu)勢(shì)明顯。圖8所示為本文算法在COCO數(shù)據(jù)集上的一些多人骨架推理結(jié)果,可以看出在人群密集情況下,對(duì)于部分遮擋的人體,本文算法依舊可以較準(zhǔn)確地預(yù)測(cè)出人體關(guān)鍵點(diǎn),但若人體肢體出現(xiàn)嚴(yán)重的缺失或者是遮擋時(shí)依舊會(huì)出現(xiàn)混亂的預(yù)測(cè)。這是由于經(jīng)YOLOv3檢測(cè)并裁剪的人體邊界框內(nèi)存在部分不可見的人體肢體,因此SPPE檢測(cè)關(guān)鍵點(diǎn)失敗,這是可以理解的。
圖4 MPII測(cè)試集上腕關(guān)節(jié)、踝關(guān)節(jié)處 PCKh 比較Fig.4 Comparison of PCKh at wrist and ankle on the MPII testing dataset
圖5 MPII數(shù)據(jù)集上單人推理結(jié)果Fig.5 Inference results of a single person on the MPII dataset
圖6 MPII數(shù)據(jù)集上多人推理結(jié)果Fig.6 Multi-person pose inference results on the MPII dataset
圖7 COCO 數(shù)據(jù)集上單人推理結(jié)果Fig.7 Inference results of a single person on the COCO dataset
表3 COCO 2017 test-dev 集上 AP 性能對(duì)比Tab.3 Comparison of AP performance on COCO 2017 test-dev dataset
圖8 COCO 數(shù)據(jù)集上多人推理結(jié)果Fig.8 Multi-person pose inference results on the COCO dataset
本文遵循自頂而下的方案,提出了一種用于圖片輸入的多人姿態(tài)估計(jì)算法,采用YOLOv3作為人體檢測(cè)器;基于深度殘差網(wǎng)絡(luò)(ResNet),通過(guò)改進(jìn)基礎(chǔ)殘差塊大幅度降低了參數(shù)量并提高了特征提取能力,另外通過(guò)多尺度監(jiān)督模塊和多尺度回歸模塊進(jìn)一步融合了不同尺度熱力圖之間的信息,有效加強(qiáng)了中間過(guò)程的監(jiān)督;改良過(guò)的坐標(biāo)提取方式使得模型的梯度流可以從坐標(biāo)點(diǎn)流動(dòng)到高斯熱力圖上,使得模型端到端可訓(xùn)練,縮短了模型推理時(shí)間,同時(shí)提升了人體關(guān)鍵點(diǎn)預(yù)測(cè)的精度。