(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)
目前,多人姿態(tài)估計已成為人體姿態(tài)估計研究的熱點問題。現(xiàn)有的多人姿態(tài)估計方法分為兩類:自頂向下的方法和自底向上的方法。自頂向下的方法首先從圖像中定位人體位置,然后對每個人體目標使用單人姿態(tài)估計獲得最終姿態(tài)估計結(jié)果;自底向上的方法則首先直接檢測圖像中所有人體關(guān)鍵點,并根據(jù)圖像中的其它關(guān)聯(lián)信息將屬于同一人體目標的關(guān)鍵點組合成一個完整的人體姿態(tài)。
為了提高關(guān)鍵點檢測精度,本文提出級聯(lián)特征網(wǎng)絡(luò)(Cascaded High-resolution Representation Network,CHRN),該網(wǎng)絡(luò)以HRNet[1]網(wǎng)絡(luò)為基礎(chǔ),通過構(gòu)建主體網(wǎng)絡(luò)與微調(diào)網(wǎng)絡(luò)的結(jié)構(gòu)定位人體關(guān)鍵點。主體網(wǎng)絡(luò)利用多通道、多階段模式提取深度特征,并以多尺度融合方式將多階段深度特征進行融合,獲得圖像中更加全面且綜合的信息;微調(diào)網(wǎng)絡(luò)級聯(lián)整合主體網(wǎng)絡(luò)提取的多階段深度特征,對主體網(wǎng)絡(luò)中識別率較低的人體關(guān)鍵點進行在線挖掘[2]。
本文主要貢獻為:①提出級聯(lián)特征網(wǎng)絡(luò)的高效網(wǎng)絡(luò)模型,通過級聯(lián)深度特征并結(jié)合在線關(guān)鍵點挖掘提高不易識別關(guān)鍵點的識別率,進而提升關(guān)鍵點整體識別率;②將本文方法與其它經(jīng)典算法進行系統(tǒng)比較,在MPII[3]數(shù)據(jù)集上對人體姿態(tài)估計的直觀效果和識別精度進行評估。實驗結(jié)果證明,本文方法具有一定有效性和先進性。
隨著深度學(xué)習(xí)方法在計算機視覺領(lǐng)域的廣泛應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)(CNN Convolutional Neural Network)[4-5]在人體姿態(tài)估計方面得到了良好發(fā)展。最近研究[6-13]主要依賴于卷積神經(jīng)網(wǎng)絡(luò),韓金貴等[4]對此作了比較全面的研究綜述,本文主要關(guān)注基于卷積神經(jīng)網(wǎng)絡(luò)的多人姿態(tài)估計方法。多人姿態(tài)估計方法可分為兩類:自頂向下的方法和自底向上的方法。
自頂向下的方法[2,14,16]通過將單人姿態(tài)估計與目標檢測相結(jié)合,以解決多人人體姿態(tài)估計問題。Fang 等[14]使用空間轉(zhuǎn)換網(wǎng)絡(luò)(Spatial Transformer Networks,STN)[15]處理不準確的邊界框,然后使用堆疊沙漏網(wǎng)絡(luò)完成關(guān)鍵點檢測;He 等[16]在Mask-RCNN 模型中結(jié)合實例分割和關(guān)鍵點檢測,將關(guān)鍵點附加在RoI 對齊的特征映射上,通過堆疊沙漏網(wǎng)絡(luò)獲得每個關(guān)鍵點的位置;Chen 等[2]在特征金字塔網(wǎng)絡(luò)[17]上開發(fā)GlobalNet 用于多尺度推理,并通過在線關(guān)鍵點挖掘重新預(yù)測。自頂向下的方法將關(guān)鍵點檢測模型的注意力集中到圖像中各人體目標上,這樣減少了圖像中其它冗余信息干擾,獲得了良好表現(xiàn)。
自底向上的方法首先直接預(yù)測所有關(guān)鍵點,并將它們組合成所有人的完整姿勢。在Ladicky 等[18]提出使用基于HOG[19]的特征和概率方法聯(lián)合預(yù)測人體部分分割和部分位置;Pishchulin 等[20]提出DeepCut 方法,該方法將圖像中的多人人體姿態(tài)估計問題轉(zhuǎn)換為整數(shù)線性編程(Integer Linear Program,ILP)問題;Insafutdinov 等[21]使用更深層次的ResNet[22]改進DeepCut 提出DeeperCut,并采用圖像條件成對匹配獲得更好性能;Cao 等[23]使用CPM(Convolu?tional Pose Machines)將關(guān)鍵點之間的關(guān)系映射到部分親和域(Part Affinity Fields,PAF),并將關(guān)鍵點組合成不同的人體姿態(tài);Kocabas 等[24]提出MultiposeNet 在檢測人體關(guān)鍵點的同時,利用另一個分支檢測人體目標位置,為關(guān)鍵點聚類提供依據(jù)。由于目標不明確,關(guān)鍵點定位空間過大,目前自底向上的方法在精度上仍然低于自頂向下的方法。
為提高關(guān)鍵點檢測精度,本文提出級聯(lián)特征網(wǎng)絡(luò)(CHRN),將主體網(wǎng)絡(luò)與微調(diào)網(wǎng)絡(luò)相結(jié)合,增加對不易識別關(guān)鍵點的關(guān)注度,從而提高關(guān)鍵點檢測整體精度。
CHRN 使用HRNet 提取圖像特征,并借鑒CPN 模型思想,包含主體和微調(diào)兩個分支子網(wǎng)絡(luò)。
在CHRN 中,主體網(wǎng)絡(luò)負責(zé)提取圖像特征并檢測容易檢測到的關(guān)鍵點,微調(diào)網(wǎng)絡(luò)使用瓶頸模塊和級聯(lián)整合主體網(wǎng)絡(luò)各階段特征,并通過關(guān)鍵點在線挖掘檢測不易識別的關(guān)鍵點。
主體網(wǎng)絡(luò)部分以HRNet 網(wǎng)絡(luò)模型為基礎(chǔ),通過該模型結(jié)構(gòu)中不同分辨率的深度特征輸出層構(gòu)建而得。該網(wǎng)絡(luò)共有4 個并行的深度特征提取子網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如式(1)所示。
式(1)中,Nij為HRNet 網(wǎng)絡(luò)的基本處理單元,其中橫向為分支,包括4 個分支,分支數(shù)j=1,2,3,4,縱向為階段,包括4 個階段,階段數(shù)為i=1,2,3,4。
將4 個并行的深度特征提取子網(wǎng)中第i個階段的輸入記 為C={C1,C2,…,Ci},第i階段的輸出記為,輸出的分辨率和寬度與輸入的分辨率和寬度相同,在同一個階段的不同分支中,交換單元多尺度融合方式如式(2)所示。
式(2)中,函數(shù)a(Cr,m)表示將Cr從分辨率r上采樣或下采樣到分辨率m,Cm’為C’包含的元素,上采樣使用最鄰近采樣,然后使用1×1 的卷積進行通道對齊,下采樣使用3×3 的卷積,當r=m,如式(3)所示。
本文在基于主體網(wǎng)絡(luò)生成的高分辨率特征圖上附加使用OHKM 的微調(diào)網(wǎng)絡(luò)分支,對主體網(wǎng)絡(luò)預(yù)測的關(guān)鍵點進行修正。微調(diào)網(wǎng)絡(luò)將上述構(gòu)建的主體網(wǎng)絡(luò)各階段提取的深度特征:C111、C212、C313、C414以及人體關(guān)鍵點置信度熱圖H作進一步特征提取,具體結(jié)構(gòu)如式(4)所示。
式(4)中,C111、C212、C313、C414、H經(jīng)過進一步特征提取后分別生成F1、F2、F3、F4、F5,其中F1、F2、F3、F4、F5的寬度和分辨率都相同,C為F1、F2、F3、F4、F5的特征級聯(lián),H*為經(jīng)過人體關(guān)鍵點在線挖掘的人體關(guān)鍵點置信度熱圖。
為驗證本文方法的有效性,在公開的MPII 數(shù)據(jù)集上對本文方法進行評估,并與一些優(yōu)秀方法進行對比。
MPII 數(shù)據(jù)集包含約25 000 張圖像,其中有5 000 張圖像用于測試,其余圖像用于訓(xùn)練。評價指標為:頭部標準化概率(Percentage of Correct Keypoints According to Head Size,PCKh)。
為驗證級聯(lián)特征網(wǎng)絡(luò)關(guān)鍵點定位有效性,將該網(wǎng)絡(luò)應(yīng)用于單人姿態(tài)估計,表1 展示了本文方法在MPII 測試集上進行單人姿態(tài)估計PCKh@0.5 獲得的定量性能。實驗表明,HRNet+RefineNet 模型結(jié)構(gòu)加入微調(diào)網(wǎng)絡(luò)后,對于肩部、髖關(guān)節(jié)、膝關(guān)節(jié)和踝關(guān)節(jié)的平均精度比HRNet 均有所提升。加入OHKM 后的結(jié)果表明,本文提出的CHRN 人體姿態(tài)估計使HRNet 的平均精度由92.3% 提高至92.7%。
為了證明級度特征網(wǎng)絡(luò)對多人姿態(tài)估計的有效性,在MPII 數(shù)據(jù)集中進行多人姿態(tài)估計對比實驗驗證。其中,對比方法相關(guān)數(shù)據(jù)來源于MPII 數(shù)據(jù)庫排行榜。實驗結(jié)果如表2 所示。
Table 1 Performance comparison of MPII test sets(PCKh@0.5)(single-person pose estimation)表1 MPII 測試集性能比較(PCKh@0.5)(單人姿態(tài)估計)
Table 2 Performance comparison of MPII test sets(PCKh@0.5)(multi-person pose estimation)表2 MPII 測試集性能比較(PCKh@0.5)(多人姿態(tài)估計)
表2 展示了本文方法在MPII 測試集上進行多人姿態(tài)估計的定量性能。表2 中的對比算法為MPII 數(shù)據(jù)集排行榜前3 名的識別精度。其中,“CHRN”表明,級聯(lián)深度特征網(wǎng)絡(luò)模型使用自頂向下方法得到平均精度為80.4%,高于其它算法。同時,CHRN 模型對于踝關(guān)節(jié)、膝關(guān)節(jié)和髖關(guān)節(jié)等較難識別關(guān)鍵點的識別精度有所提升,證明CHRN 對于較難識別的關(guān)鍵點有更強的定位能力。
本文提出的級聯(lián)特征網(wǎng)絡(luò)通過提升不易識別關(guān)鍵點的識別精度以提高人體姿態(tài)估計準確率。研究表明,在人體姿態(tài)估計中由于關(guān)鍵點本身特性不同,關(guān)鍵點在模型訓(xùn)練過程中應(yīng)區(qū)別對待,即為不易識別的關(guān)鍵點分配更多計算資源。下一步工作主要是對關(guān)鍵點進行分類細化,具體到各類關(guān)鍵點應(yīng)分配多少計算資源可達到最優(yōu)結(jié)果。