畢雪超
摘要:為了提升機(jī)器視覺(jué)中特定舞蹈動(dòng)作識(shí)別的性能,設(shè)計(jì)了基于全局上下文的特定舞蹈動(dòng)作識(shí)別方法。該方法基于Hourglass結(jié)構(gòu),通過(guò)連接高低分辨率的特征圖,將具備全局信息的深層特征圖上采樣與淺層特征融合,使得每一個(gè)階段的高分辨率特征圖均具有低分辨率的特征圖表示,從而得到信息更豐富的高分辨率特征圖表示,最終回歸人體姿態(tài)熱力圖。在Balletto舞蹈視頻數(shù)據(jù)庫(kù)中的測(cè)試結(jié)果表明,相比基于CPN和基于Hourglass的算法,所提算法的AP值提高2.4%,AR提升了1.6%。
關(guān)鍵詞:Hourglass;殘差模塊;向上連接;全局上下文信息;多尺度特征融合
中圖分類(lèi)號(hào):TP391.9
文獻(xiàn)標(biāo)志碼:A
ASpecificDanceActionRecognitionMethodBasedonGlobalContext
BIXuechao
(YouthLeagueCommittee,XianVocationalandTechnicalCollegeof
AeronauticsandAstronautics,Xian710089,China)
Abstract:Toimprovetheperformanceofspecificdanceactionrecognitioninmachinevision,aspecificdanceactionrecognitionmethodbasedonglobalcontextisdesigned.ThismethodisbasedonHourglassstructure.Byconnectingthehighresolutionandlowresolutionfeaturemaps,thedeepfeaturemapwithglobalinformationissampledandfusedwiththeshallowfeaturemap,sothatthehighresolutionfeaturemapofeachstagehasthelowresolutionfeaturemaprepresentation,soastoobtainthehighresolutionfeaturemaprepresentationwithmoreinformation,andfinallyreturntothehumanposturethermalmap.ThetestresultsinBallettodatasetshowthatcomparedwiththealgorithmsbasedonCPNorHourglass,theAPscoreandARscoreoftheproposedalgorithmareincreasedby2.4%and1.6%,respectively.
Keywords:Hourglass;residualmodule;upwardconnection;globalcontextinformation;multiscalefeaturefusion
0引言
特定舞蹈動(dòng)作識(shí)別是人體姿態(tài)估計(jì)技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域[13],通過(guò)舞蹈動(dòng)作識(shí)別技術(shù)可以幫助舞蹈演員糾正錯(cuò)誤姿勢(shì),有助于智能化舞蹈輔助訓(xùn)練[4]。PfisterT等人[5]將人體姿態(tài)估計(jì)視為檢測(cè)問(wèn)題,通過(guò)回歸人體姿態(tài)關(guān)鍵點(diǎn)的熱力圖來(lái)進(jìn)行人體姿態(tài)估計(jì)。之后,采用人體各部件響應(yīng)圖來(lái)表達(dá)各部件之間空間約束的人體姿態(tài)估計(jì)方法被提出[6]。NewellA等人[7]提出了基于Hourglass的人體姿態(tài)估計(jì)算法,該算法可以獲取多尺度特征同時(shí)具有更加簡(jiǎn)潔的結(jié)構(gòu)。Openpose[8]實(shí)時(shí)檢測(cè)多人2D姿態(tài)方法的主要原理是通過(guò)部分親和域去學(xué)習(xí)將身體部位和對(duì)應(yīng)個(gè)體關(guān)聯(lián)。為了提升算法對(duì)于復(fù)雜關(guān)鍵點(diǎn)的檢測(cè)性能,文獻(xiàn)[9]采用一個(gè)全局網(wǎng)絡(luò)檢測(cè)簡(jiǎn)單關(guān)鍵點(diǎn),然后通過(guò)RefineNet檢測(cè)復(fù)雜關(guān)鍵點(diǎn)進(jìn)行姿態(tài)估計(jì),這種網(wǎng)絡(luò)結(jié)構(gòu)被稱(chēng)為CPN。本文基于Hourglass結(jié)構(gòu)[10],設(shè)計(jì)了基于全局上下文信息的舞蹈動(dòng)作識(shí)別算法,用于學(xué)習(xí)特定的復(fù)雜舞蹈動(dòng)作識(shí)別。
1基于全局上下文的舞蹈動(dòng)作識(shí)別
本文提出了一種結(jié)合全局上下文信息的架構(gòu),能夠在整個(gè)過(guò)程中結(jié)合全局上下文信息并維護(hù)高分辨率的表示,結(jié)構(gòu)如圖1所示。
算法采用256×256的圖片輸入,首先進(jìn)行下采樣和三個(gè)殘差模塊;然后,經(jīng)過(guò)若干個(gè)結(jié)合全局上下文信息的Hourglass結(jié)構(gòu);最后,通過(guò)兩個(gè)連續(xù)的1×1卷積得到舞者的骨架關(guān)鍵點(diǎn)圖。
1.1基于Hourglass的網(wǎng)絡(luò)結(jié)構(gòu)
基于Hourglass的模型通過(guò)串聯(lián)高低分辨率的特征圖,具有更優(yōu)的對(duì)稱(chēng)性,可以融合多尺度特征[1112]。因此,本文采用基于Hourglass的模型作為基本網(wǎng)絡(luò)來(lái)進(jìn)行姿態(tài)估計(jì)。該模型通過(guò)將高分辨率到低分辨率的子網(wǎng)絡(luò)串聯(lián)起來(lái),每個(gè)子網(wǎng)絡(luò)形成一個(gè)階段,由一系列卷積組成。相鄰子網(wǎng)絡(luò)之間存在一個(gè)下采樣層,將分辨率減半,如式(1)。
f11→f22→…→fs-1,r-1→fs,r(1)
Hourglass主要由殘差模塊構(gòu)成,如圖2所示[13]。
殘差模塊一般由兩條分支組成:第一分支主要為了增加深度與提取特征,通過(guò)兩個(gè)1×1的卷積層和一個(gè)3×3的卷積層組成;第二分支核與常規(guī)殘差模塊不同,為了控制輸入通道數(shù)和輸出通道數(shù)。本文的殘差模塊通過(guò)輸入通道數(shù)和輸出通道數(shù)進(jìn)行控制,可以對(duì)任意尺度圖像進(jìn)行操作。
與其他人體姿態(tài)估計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似,Hourglass同樣是從高分辨率特征圖下采樣至低分辨率,然后再上采樣回到原來(lái)的分辨率,但Hourglass具有更加對(duì)稱(chēng)的容量分布,一階結(jié)構(gòu)如圖3所示。
其包含兩條支路、一條原分辨率特征圖支路和一條降采樣后的低分辨率特征圖支路。原分辨率支路包含3個(gè)殘差模塊,用于高分辨率特征提取。該支路只改變特征圖深度,不改變特征圖尺度。第二條支路則先通過(guò)一個(gè)Maxpooling進(jìn)行下采樣,然后經(jīng)歷5個(gè)殘差塊,再上采樣回前一個(gè)尺度并與第一支路的特征圖進(jìn)行融合。
1.2結(jié)合全局上下文的網(wǎng)絡(luò)結(jié)構(gòu)
舞蹈動(dòng)作通常具有復(fù)雜且大幅度的變化,識(shí)別舞蹈動(dòng)作姿態(tài)需要深度學(xué)習(xí)模型在提取特征時(shí),抓住每個(gè)尺度信息的需求[14]。人的朝向、四肢的排列、相鄰關(guān)節(jié)的關(guān)系均是需要從全局上下文信息進(jìn)行推理識(shí)別,并對(duì)局部信息進(jìn)行準(zhǔn)確定位。為了使網(wǎng)絡(luò)具備更優(yōu)的全局上下文信息,本文對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),設(shè)計(jì)了結(jié)合全局上下文的Hourglass,結(jié)構(gòu)如圖4所示。
基于Hourglass的網(wǎng)絡(luò)是有序地從高分辨率到低分辨率連接各子網(wǎng)絡(luò)進(jìn)行構(gòu)建。其中,每個(gè)Stage的每個(gè)子網(wǎng)絡(luò)均包含多個(gè)卷積序列,且在鄰近的子網(wǎng)絡(luò)間會(huì)有下采樣層,從而將特征分辨率減半。
本文將一個(gè)高分辨率的子網(wǎng)絡(luò)作為第一個(gè)Stage。每次下采樣后均將特征圖從高分辨率到低分辨率逐一添加到子網(wǎng)絡(luò)中,連接各個(gè)多分辨率特征,如式(2)。
f1,1←f1,1
fs,r+1←fs,r+fs+1,r+1,s≤r
fs,r+1←fs-1,r,s=r+1
r=1,2,3,4(2)
結(jié)合全局上下文的Hourglass通過(guò)圖5給出的連接模塊將低分辨率特征圖融合到高分辨率特征圖中,使得每一個(gè)尺度的特征圖均包含其前層特征及額外的低分辨率特征。如圖5所示。
其中,這些低分辨率特征圖具有更加寬闊的感受野,包含全局上下文信息。
1.3模型訓(xùn)練
本文方法的輸出僅采用模型輸出的高分辨率特征表示來(lái)回歸Heatmaps。Loss函數(shù)采用均方差誤差,并對(duì)預(yù)測(cè)的Heatmaps和GroundTruthHeatmaps進(jìn)行計(jì)算[15],而后者是通過(guò)以關(guān)鍵點(diǎn)GroundTruth坐標(biāo)(x,y)為中心,采用1像素標(biāo)準(zhǔn)差的2DGaussian生成。
2試驗(yàn)和分析
算法在Balletto舞蹈視頻數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試,選取7000張作為訓(xùn)練集,其余圖片作為測(cè)試集。
2.1評(píng)價(jià)指標(biāo)
本文采用基于ObjectKeypointSimilarity(OKS)的評(píng)價(jià)指標(biāo)對(duì)各關(guān)鍵點(diǎn)進(jìn)行評(píng)估[16]。OKS的計(jì)算,如式(3)。
OKS=∑iexp-d2p22S2pσ2iδ
(vi>0)∑iδ(vi>0)(3)
本文對(duì)于模型準(zhǔn)確度采用了AP、AP50、AP75、APM、APL、AR等幾個(gè)指標(biāo),其中AP取值為OKS從0.50~0.95等10個(gè)位置的平均AP,AP50表示OKS為0.50時(shí)的AP;AP75表示OKS為0.75時(shí)的AP;APM表示中尺度目標(biāo)的AP;APL表示大尺度目標(biāo)的AP;AR表示平均召回率。此外,本文還對(duì)模型大小進(jìn)行了分析,主要采用參數(shù)大小和浮點(diǎn)型運(yùn)算量(FLOPs)進(jìn)行分析。
2.2數(shù)據(jù)庫(kù)評(píng)估
算法準(zhǔn)確度分析結(jié)果,如表1所示。
本文方法從零開(kāi)始訓(xùn)練,輸入圖像尺度為256×256,獲得了70.3分。相比基于CPN的算法提高了2.5%,比基于Hourglass的算法提高了2.4%。這表明本文通過(guò)全局上下文信息及特定舞蹈動(dòng)作提升識(shí)別準(zhǔn)確度的方法有效。全局上下文信息有助于模型學(xué)習(xí)識(shí)別舞者各關(guān)鍵點(diǎn)的特征,從AP50和AP75也可以看出,本文方法相比其他兩種算法提高了1%~2%。但對(duì)于不同尺度的舞者,該方法并未獲取更優(yōu)的準(zhǔn)確度。在對(duì)于大尺度的舞者姿態(tài)識(shí)別時(shí),本文方法的準(zhǔn)確度略低于基于CPN的算法。但在中尺度的舞者圖像中,該算法仍獲得了1%的提高。大尺度的目標(biāo)包含更豐富的信息,對(duì)于舞者動(dòng)作識(shí)別更加簡(jiǎn)單,這使得3種方法的準(zhǔn)確度差別較小。此外,本文方法的AR值比其他算法提高1.3%。
對(duì)物質(zhì)姿態(tài)估計(jì)的PCK指標(biāo)評(píng)估結(jié)果,如表2所示。
從表2中可知,本文方法的PCK分?jǐn)?shù)達(dá)到了86.1%,優(yōu)于其他算法,對(duì)于難度較大的一些關(guān)鍵點(diǎn),本算法也獲得了有效提升。
與其他算法的模型大小分析,如表3所示。
文中方法的FLOPs為6.25GB,略高于其他算法,而且參數(shù)量也略大于其他算法,說(shuō)明該方法在提升準(zhǔn)確度的同時(shí)也增加了運(yùn)算代價(jià)。
本文算法對(duì)特定舞蹈動(dòng)作識(shí)別的部分效果圖進(jìn)行展示,如圖6所示。
該算法成功將大部分舞蹈動(dòng)作的關(guān)鍵點(diǎn)進(jìn)行識(shí)別。對(duì)于第一列第一幅圖、第三列第二幅圖中遮擋隱藏的關(guān)鍵點(diǎn),本文算法可以成功檢測(cè)。在第一列第二幅圖、第三列第二幅圖中舞者兩腿出現(xiàn)交叉,但本算法能夠準(zhǔn)確檢測(cè)出左右腿的關(guān)鍵點(diǎn)。另外,對(duì)于第二列第二幅圖、第二列第三幅圖和第四列第三幅圖中舞者的一些大幅度動(dòng)作,算法也可以成功檢測(cè)出人體關(guān)鍵點(diǎn)。但對(duì)于第一列第三幅圖,算法并未成功檢測(cè)出左腳踝關(guān)節(jié)。經(jīng)分析認(rèn)為,該圖中舞者動(dòng)作尺度變化復(fù)雜,左腿幾乎與左手重疊,這給人體關(guān)鍵點(diǎn)識(shí)別帶來(lái)了困難。
3總結(jié)
為了獲得更豐富的全局上下文信息,提升模型對(duì)舞者處于遮擋、交叉和大幅度動(dòng)作的關(guān)鍵點(diǎn)檢測(cè)性能,本文通過(guò)將低分辨率特征圖上采樣與高分辨率特征圖結(jié)合的方式設(shè)計(jì)了一種特定舞蹈動(dòng)作識(shí)別算法。測(cè)試結(jié)果表明,該算法具有比基于CPN和Hourglass的算法更好的檢測(cè)精度。但該算法在對(duì)于一些劇烈的動(dòng)作識(shí)別中仍存有不足,在后續(xù)的研究中將針對(duì)劇烈尺度變化的舞蹈動(dòng)作識(shí)別算法進(jìn)行改進(jìn)。
參考文獻(xiàn)
[1]鄧益儂,羅健欣,金鳳林.基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(19):2242.
[2]DangQ,YinJ,WangB,etal.Deeplearningbased2Dhumanposeestimation:Asurvey[J].TsinghuaScience&Technology,2019,24(6):663676.
[3]邢占偉.基于多特征融合的舞蹈動(dòng)作識(shí)別方法研究[D].沈陽(yáng):遼寧大學(xué),2017.
[4]任文.基于姿態(tài)估計(jì)的運(yùn)動(dòng)輔助訓(xùn)練系統(tǒng)研究[J].電子設(shè)計(jì)工程,2019,27(18):149152.
[5]PfisterT,CharlesJ,ZissermanA,etal.FlowingConvNetsforhumanposeestimationinvideos[C].InternationalConferenceonComputerVision,Boston,2015:19131921.
[6]WeiS,RamakrishnaV,KanadeT,etal.Convolutionalposemachines[C].ComputerVisionandPatternRecognition,Chicago,2016June2730:47244732.
[7]NewellA,YangK,DengJ,etal.StackedHourglassnetworksforhumanposeestimation[C].Amsterdam:EuropeanConferenceonComputerVision,Paris,2016October1114:483499.
[8]CaoZ,SimonT,WeiS,etal.RealtimeMultiPerson2Dposeestimationusingpartaffinityfields[C].ComputerVisionandPatternRecognition,Beijing,2016June2730:32103222.
[9]ChenY,WangZ,PengY,etal.CascadedpyramidnetworkforMultiPersonposeestimation[C].ComputerVisionandPatternRecognition,Shanghai,2017July2126:356363.
[10]YangW,LiS,OuyangW,etal.Learningfeaturepyramidsforhumanposeestimation[C].InternationalConferenceonComputerVision,Guangzhou,2017October2229:12901299.
[11]許政.基于深度學(xué)習(xí)的人體骨架點(diǎn)檢測(cè)[D].濟(jì)南:濟(jì)南大學(xué),2019.
[12]于景華,王慶,陳洪.基于動(dòng)作評(píng)價(jià)算法的體感舞蹈交互系統(tǒng)[J].計(jì)算機(jī)與現(xiàn)代化,2018(6):6471.
[13]于華,智敏.基于卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(4):11611166.
[14]桑海峰,田秋洋.面向人機(jī)交互的快速人體動(dòng)作識(shí)別系統(tǒng)[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(6):101107.
[15]馬悅,張玉梅.一種基于模糊綜合評(píng)價(jià)的人體動(dòng)作識(shí)別方法[J].信息技術(shù),2018(3):2733.
[16]陳甜甜,姚璜,魏艷濤,等.基于融合特征的人體動(dòng)作識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(5):13941400.
(收稿日期:2020.03.11)