摘要:隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計和追蹤的準(zhǔn)確率得到大幅提高。但在面對遮擋問題時,還存在人體關(guān)鍵點檢測困難、姿態(tài)追蹤精度偏低和速度較慢等問題。本文針對這些問題,構(gòu)建了一個ybasTrack 多人姿態(tài)估計和追蹤模型;提出采用一種改進(jìn)的YOLOv5s 網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測;采用BCNet 分割網(wǎng)絡(luò)區(qū)分遮擋與被遮擋人體,限定人體關(guān)鍵點定位區(qū)域;基于Alphapose 的SPPE(Single-Person Pose Estimator)進(jìn)行改進(jìn),優(yōu)化人體關(guān)鍵點檢測結(jié)果;采用改進(jìn)的Y-SeqNet 網(wǎng)絡(luò)進(jìn)行行人重識別,采用MSIM(Multi-Phase IdentityMatching)身份特征匹配算法對人體框、人體姿態(tài)和人體身份信息進(jìn)行匹配,實現(xiàn)人體姿態(tài)追蹤。實驗表明,所提算法對遮擋場景下的人體姿態(tài)估計和姿態(tài)追蹤具有較好的效果,模型運(yùn)行具有較快速度。
關(guān)鍵詞:人體姿態(tài)估計;AlphaPose;YOLOv5s;BCNet;SeqNet
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
基于機(jī)器視覺的人體姿態(tài)估計指的是從輸入的圖像或視頻中定位出人體關(guān)鍵部位,如眼、肩、肘和膝等,并通過關(guān)鍵點之間的連接構(gòu)建人體骨架,從而形成對人體姿態(tài)的表達(dá)?;跈C(jī)器視覺的人體姿態(tài)估計和跟蹤能夠使計算機(jī)更好地理解人類行為,進(jìn)而為許多應(yīng)用場景提供支持,比如人機(jī)交互、運(yùn)動捕捉和行為檢測等。傳統(tǒng)人體姿態(tài)估計和跟蹤的方法使用人工設(shè)計的圖像特征檢測人體關(guān)鍵點,受限于提取特征的完備性和準(zhǔn)確性,精度往往不高。近年來,隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,基于深度學(xué)習(xí)的人體姿態(tài)估計和跟蹤算法成為研究熱點。相較于傳統(tǒng)方法,基于深度學(xué)習(xí)的人體姿態(tài)估計和跟蹤方法具有較好的魯棒性和更高的準(zhǔn)確率。
在多人姿態(tài)估計方面, Papandreou 等[1] 提出了G-RMI 模型, 該方法使用Fater RCNN 進(jìn)行人體檢測,采用ResNet 對每個人體預(yù)測密集熱圖和偏移,通過融合兩者的結(jié)果得到人體關(guān)鍵點的定位。Chen等[2] 基于GlobalNet 和RefineNet 提出了級聯(lián)金字塔網(wǎng)絡(luò)(Fcascaded Pyramid Networks,CPN),利用GlobalNet進(jìn)行基本的人體關(guān)鍵點檢測,利用RefineNet,通過卷積和下采樣融合多分辨率的特征圖,使得姿態(tài)估計模型對于復(fù)雜背景或遮擋關(guān)鍵點的估計準(zhǔn)確率得到提高。Zhang 等[3] 提出了一種名為DARKPose 的方法,該方法采用分布感知解碼技術(shù),通過改進(jìn)標(biāo)準(zhǔn)坐標(biāo)編碼過程,降低了編解碼過程中關(guān)鍵點坐標(biāo)變換產(chǎn)生的誤差。Fang 等[4] 提出一種名為AlphaPose 的多人姿態(tài)估計模型,使用YOLOv3 作為人體檢測器,并在單人姿態(tài)估計SPPE(Single-Person Pose Estimator)部分提出一種對稱變換空間網(wǎng)絡(luò)(Symmetric SpatialTransformer Network,SSTN),可以從不準(zhǔn)確的邊界框中提取高質(zhì)量的單人區(qū)域。
在多人姿態(tài)跟蹤方面,Zhang 等[5] 提出了一種實時目標(biāo)跟蹤網(wǎng)絡(luò)Ocean,使用無錨點目標(biāo)網(wǎng)絡(luò)與特征對齊模塊相結(jié)合,直接預(yù)測人體的位置和比例,該方法可以糾正不精確的邊界盒預(yù)測,學(xué)習(xí)對象感知特征以提高匹配精度。Yan 等[6] 提出了一種多人姿態(tài)估計和跟蹤框架LightTrack,使用YOLOv3 作為目標(biāo)檢測器, 基于結(jié)構(gòu)化圖卷積網(wǎng)絡(luò)( Structured GraphConvolutional Networks, SGCN)進(jìn)行人體姿態(tài)匹配,相比于其孿生網(wǎng)絡(luò)跟蹤算法Ocean,LightTrack 的結(jié)果在達(dá)到了與之相似精度的同時,計算量和參數(shù)量分別下降了97.4% 和92.3%。Fang 等[7] 在AlphaPose的基礎(chǔ)上附加一個行人重識別分支,使得該網(wǎng)絡(luò)可以同時估計人體姿態(tài)和重識別特征,設(shè)計了一種姿勢引導(dǎo)注意機(jī)制( Pose-Guided Attention Mechanism,PGA)來增強(qiáng)人體的身份特征,并使用多階段身份匹配算法(Multi-Phase Identity Matching,MSIM)集成人體的檢測框、人體的姿態(tài)以及身份信息,實現(xiàn)了多人姿態(tài)估計和跟蹤。Wang 等[8] 提出了一種基于Transform 的姿態(tài)引導(dǎo)特征分離方法( Pose-guidedFeature Disentangling,PFD),利用姿態(tài)信息對人體關(guān)節(jié)部分進(jìn)行拆分,選擇性地匹配非遮擋部分,強(qiáng)調(diào)可見身體部位的特征。Bazarevsky 等[9] 提出BlazePose姿態(tài)追蹤框架,由于人臉相對于全身而言不容易被遮擋,而且在神經(jīng)網(wǎng)絡(luò)中該部分的響應(yīng)值通常是較高的,因此使用面部檢測器代替人體檢測器解決密集人群中遮擋嚴(yán)重的問題。Chen 等[10] 提出了遮擋感知掩模網(wǎng)絡(luò)(Occlusion-Aware Mask Network,OAMN),可以使模型有效關(guān)注人體區(qū)域而非背景區(qū)域,讓現(xiàn)有的注意力機(jī)制能夠不受遮擋物體的影響,從而精確地捕捉身體部位。
以上方法證明了深度學(xué)習(xí)方法在人體姿態(tài)估計和跟蹤中的有效性,但是,在實際應(yīng)用中,對復(fù)雜場景中的多目標(biāo)、小目標(biāo)和遮擋問題,姿態(tài)估計和跟蹤的準(zhǔn)確率和速度仍有待提高。針對上述問題,本文提出了一個基于人體姿態(tài)估計框架AlphaPose、YOLOv5s 目標(biāo)檢測網(wǎng)絡(luò)、YoloBCNet 分割網(wǎng)絡(luò)與SeqNet 行人重識別網(wǎng)絡(luò)的人體姿態(tài)估計和追蹤框架ybasTrack。針對多人姿態(tài)估計,在人體檢測中,在YOLOv5s 的Neck 部分添加小目標(biāo)檢測模塊,改進(jìn)模型因下采樣倍數(shù)較大、丟失小目標(biāo)特征信息的缺點;在關(guān)鍵點檢測中,使用三重注意力(TAM)改進(jìn)關(guān)鍵點空間信息丟失問題,采用AdaPool 池化改進(jìn)模型參數(shù)量較大問題以及下采樣造成的特征信息丟失問題。針對多人姿態(tài)追蹤,在行人重識別模塊,提出基于改進(jìn)的SeqNet 網(wǎng)絡(luò)構(gòu)建行人重識別分支,采用弱監(jiān)督預(yù)訓(xùn)練框架(PNL) 預(yù)訓(xùn)練SeqNet 網(wǎng)絡(luò),得到更準(zhǔn)確的re-ID 特征表達(dá)。
1 多人姿態(tài)估計與追蹤框架
針對遮擋場景下的人體姿態(tài)估計和姿態(tài)追蹤任務(wù),本文構(gòu)建了一個基于目標(biāo)檢測、關(guān)鍵點檢測、圖像分割和行人重識別的多人姿態(tài)估計與追蹤框架ybasTrack,如圖1 所示。
本文所提出的多人姿態(tài)估計與追蹤框架ybasTrack的基本原理如下: ( 1)人體檢測( Human detection)。使用改進(jìn)的YOLOv5s 網(wǎng)絡(luò)檢測畫面中所有的人體區(qū)域位置,得到的人體區(qū)域框作為后續(xù)人體分割網(wǎng)絡(luò)與行人重識別網(wǎng)絡(luò)的輸入。(2)人體分割(Humansegmentation)。根據(jù)人體檢測階段得到的人體區(qū)域,使用BCNet 分割網(wǎng)絡(luò)對多人體實例進(jìn)行像素級分割,分別得到遮擋人體的分割區(qū)域和被遮擋人體的分割區(qū)域。(3)姿態(tài)估計(Pose estimation)。使用改進(jìn)的Alphapose 姿態(tài)估計模型,對于人體分割階段得到的遮擋人體進(jìn)行關(guān)鍵點檢測;對于被遮擋人體,利用人體分割階段得到的分割區(qū)域約束檢測到的候選關(guān)鍵點的位置。(4)行人重識別(Pedestrain recognition)。提出基于改進(jìn)的SeqNet 網(wǎng)絡(luò)構(gòu)建行人重識別分支,采用弱監(jiān)督預(yù)訓(xùn)練框架( Pre-training frameworkutilizing Noisy Labels,PNL) 預(yù)訓(xùn)練SeqNet 網(wǎng)絡(luò),得到更準(zhǔn)確的re-ID 特征表達(dá)。(5)身份特征匹配(Identityfeature matching)。對于人體檢測階段得到的人體區(qū)域框、姿態(tài)估計階段得到的人體姿態(tài)和行人重識別分支得到的行人重識別特征,使用身份特征匹配算法MSIM 進(jìn)行匹配,最終輸出姿態(tài)追蹤結(jié)果。
1.1 多人姿態(tài)估計
本文提出的多人姿態(tài)估計方法(命名為ybaPose),包括人體檢測、人體分割和姿態(tài)估計3 個模塊。
1.1.1 基于改進(jìn)的YOLov5s的人體檢測算法 YOLOv5s是YOLOv5 系列中復(fù)雜度最小、速度最快的模型,本文提出采用YOLOv5s 作為多人姿態(tài)估計模型中的人體檢測器,使模型在維持較低復(fù)雜度的同時還能保持較高的檢測精度??紤]到實際多人姿態(tài)估計中許多目標(biāo)人體尺寸很小,而YOLOv5s 的下采樣倍數(shù)比較大,較深的特征圖難以有效學(xué)習(xí)到小目標(biāo)的特征信息, 因此本文提出在YOLOv5s 的Neck部分添加小目標(biāo)檢測模塊,使較淺層特征圖與深層特征圖融合后再進(jìn)行檢測。改進(jìn)后的YOLOv5s 命名為S-YOLOv5s,結(jié)構(gòu)如圖2 所示,其中CBL 模塊由卷積層、批歸一化層和激活函數(shù)LeakyReLu 組成,CSP1_X 模塊由卷積層和X 個殘差單元組成,CSP2_X 模塊由CBL 模塊、殘差單元以及卷積層組成,SPP 模塊采用1×1、5×5、9×9 和13×13 的最大池化方式,進(jìn)行多尺度特征融合。
圖2 中紅色虛線框內(nèi)為新增加的小目標(biāo)檢測模塊,該模塊在YOLOv5s 中的Neck 部分的最后一次上采樣后,繼續(xù)對特征圖進(jìn)行CSP2_1、CBL 和上采樣操作,然后將上采樣后的特征圖與Backbone 中第2 層特征圖進(jìn)行融合,以此來獲得更大的特征圖。改進(jìn)后的YOLOv5s 最終輸出的特征圖大小有152×152、76×76、38×38 和19×19 這4 種尺寸,分別對應(yīng)檢測4×4以上、8×8 以上、16×16 以上和32×32 以上尺寸的目標(biāo)。
1.1.2 基于BCNet的人體分割 BCNet 是Ke 等[11] 提出的一種應(yīng)用于遮擋場景下的輕量級雙圖層實例分割網(wǎng)絡(luò),具有較好的分割精度,本文采用BCNet 進(jìn)行遮擋目標(biāo)人體分割。BCNet 將圖像中感興趣區(qū)域建模為上、下兩個重疊的圖層,其中上方圖層檢測遮擋目標(biāo),下方圖層檢測被遮擋的對象。這種顯式建模方式可以將遮擋與被遮擋目標(biāo)的邊界進(jìn)行解耦,并在掩膜和邊界預(yù)測的同時考慮遮擋與被遮擋關(guān)系之間的干擾,使得現(xiàn)有圖像實例分割模型在復(fù)雜遮擋場景中的處理效果得到了顯著提升。