亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于全局上下文的特定舞蹈動(dòng)作識(shí)別方法研究

2020-11-13 03:38:57畢雪超

微型電腦應(yīng)用 2020年10期

畢雪超

摘要：為了提升機(jī)器視覺(jué)中特定舞蹈動(dòng)作識(shí)別的性能，設(shè)計(jì)了基于全局上下文的特定舞蹈動(dòng)作識(shí)別方法。該方法基于Hourglass結(jié)構(gòu)，通過(guò)連接高低分辨率的特征圖，將具備全局信息的深層特征圖上采樣與淺層特征融合，使得每一個(gè)階段的高分辨率特征圖均具有低分辨率的特征圖表示，從而得到信息更豐富的高分辨率特征圖表示，最終回歸人體姿態(tài)熱力圖。在Balletto舞蹈視頻數(shù)據(jù)庫(kù)中的測(cè)試結(jié)果表明，相比基于CPN和基于Hourglass的算法，所提算法的AP值提高2.4%，AR提升了1.6%。

關(guān)鍵詞：Hourglass;殘差模塊;向上連接;全局上下文信息;多尺度特征融合

中圖分類(lèi)號(hào)：TP391.9

文獻(xiàn)標(biāo)志碼：A

ASpecificDanceActionRecognitionMethodBasedonGlobalContext

BIXuechao

（YouthLeagueCommittee，XianVocationalandTechnicalCollegeof

AeronauticsandAstronautics，Xian710089，China）

Abstract：Toimprovetheperformanceofspecificdanceactionrecognitioninmachinevision，aspecificdanceactionrecognitionmethodbasedonglobalcontextisdesigned.ThismethodisbasedonHourglassstructure.Byconnectingthehighresolutionandlowresolutionfeaturemaps，thedeepfeaturemapwithglobalinformationissampledandfusedwiththeshallowfeaturemap，sothatthehighresolutionfeaturemapofeachstagehasthelowresolutionfeaturemaprepresentation，soastoobtainthehighresolutionfeaturemaprepresentationwithmoreinformation，andfinallyreturntothehumanposturethermalmap.ThetestresultsinBallettodatasetshowthatcomparedwiththealgorithmsbasedonCPNorHourglass，theAPscoreandARscoreoftheproposedalgorithmareincreasedby2.4%and1.6%，respectively.

Keywords：Hourglass;residualmodule;upwardconnection;globalcontextinformation;multiscalefeaturefusion

0引言

特定舞蹈動(dòng)作識(shí)別是人體姿態(tài)估計(jì)技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域[13]，通過(guò)舞蹈動(dòng)作識(shí)別技術(shù)可以幫助舞蹈演員糾正錯(cuò)誤姿勢(shì)，有助于智能化舞蹈輔助訓(xùn)練[4]。PfisterT等人[5]將人體姿態(tài)估計(jì)視為檢測(cè)問(wèn)題，通過(guò)回歸人體姿態(tài)關(guān)鍵點(diǎn)的熱力圖來(lái)進(jìn)行人體姿態(tài)估計(jì)。之后，采用人體各部件響應(yīng)圖來(lái)表達(dá)各部件之間空間約束的人體姿態(tài)估計(jì)方法被提出[6]。NewellA等人[7]提出了基于Hourglass的人體姿態(tài)估計(jì)算法，該算法可以獲取多尺度特征同時(shí)具有更加簡(jiǎn)潔的結(jié)構(gòu)。Openpose[8]實(shí)時(shí)檢測(cè)多人2D姿態(tài)方法的主要原理是通過(guò)部分親和域去學(xué)習(xí)將身體部位和對(duì)應(yīng)個(gè)體關(guān)聯(lián)。為了提升算法對(duì)于復(fù)雜關(guān)鍵點(diǎn)的檢測(cè)性能，文獻(xiàn)[9]采用一個(gè)全局網(wǎng)絡(luò)檢測(cè)簡(jiǎn)單關(guān)鍵點(diǎn)，然后通過(guò)RefineNet檢測(cè)復(fù)雜關(guān)鍵點(diǎn)進(jìn)行姿態(tài)估計(jì)，這種網(wǎng)絡(luò)結(jié)構(gòu)被稱(chēng)為CPN。本文基于Hourglass結(jié)構(gòu)[10]，設(shè)計(jì)了基于全局上下文信息的舞蹈動(dòng)作識(shí)別算法，用于學(xué)習(xí)特定的復(fù)雜舞蹈動(dòng)作識(shí)別。

1基于全局上下文的舞蹈動(dòng)作識(shí)別

本文提出了一種結(jié)合全局上下文信息的架構(gòu)，能夠在整個(gè)過(guò)程中結(jié)合全局上下文信息并維護(hù)高分辨率的表示，結(jié)構(gòu)如圖1所示。

算法采用256×256的圖片輸入，首先進(jìn)行下采樣和三個(gè)殘差模塊;然后，經(jīng)過(guò)若干個(gè)結(jié)合全局上下文信息的Hourglass結(jié)構(gòu);最后，通過(guò)兩個(gè)連續(xù)的1×1卷積得到舞者的骨架關(guān)鍵點(diǎn)圖。

1.1基于Hourglass的網(wǎng)絡(luò)結(jié)構(gòu)

基于Hourglass的模型通過(guò)串聯(lián)高低分辨率的特征圖，具有更優(yōu)的對(duì)稱(chēng)性，可以融合多尺度特征[1112]。因此，本文采用基于Hourglass的模型作為基本網(wǎng)絡(luò)來(lái)進(jìn)行姿態(tài)估計(jì)。該模型通過(guò)將高分辨率到低分辨率的子網(wǎng)絡(luò)串聯(lián)起來(lái)，每個(gè)子網(wǎng)絡(luò)形成一個(gè)階段，由一系列卷積組成。相鄰子網(wǎng)絡(luò)之間存在一個(gè)下采樣層，將分辨率減半，如式（1）。

f11→f22→…→fs-1，r-1→fs，r（1）

Hourglass主要由殘差模塊構(gòu)成，如圖2所示[13]。

殘差模塊一般由兩條分支組成：第一分支主要為了增加深度與提取特征，通過(guò)兩個(gè)1×1的卷積層和一個(gè)3×3的卷積層組成;第二分支核與常規(guī)殘差模塊不同，為了控制輸入通道數(shù)和輸出通道數(shù)。本文的殘差模塊通過(guò)輸入通道數(shù)和輸出通道數(shù)進(jìn)行控制，可以對(duì)任意尺度圖像進(jìn)行操作。

與其他人體姿態(tài)估計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似，Hourglass同樣是從高分辨率特征圖下采樣至低分辨率，然后再上采樣回到原來(lái)的分辨率，但Hourglass具有更加對(duì)稱(chēng)的容量分布，一階結(jié)構(gòu)如圖3所示。

其包含兩條支路、一條原分辨率特征圖支路和一條降采樣后的低分辨率特征圖支路。原分辨率支路包含3個(gè)殘差模塊，用于高分辨率特征提取。該支路只改變特征圖深度，不改變特征圖尺度。第二條支路則先通過(guò)一個(gè)Maxpooling進(jìn)行下采樣，然后經(jīng)歷5個(gè)殘差塊，再上采樣回前一個(gè)尺度并與第一支路的特征圖進(jìn)行融合。

1.2結(jié)合全局上下文的網(wǎng)絡(luò)結(jié)構(gòu)

舞蹈動(dòng)作通常具有復(fù)雜且大幅度的變化，識(shí)別舞蹈動(dòng)作姿態(tài)需要深度學(xué)習(xí)模型在提取特征時(shí)，抓住每個(gè)尺度信息的需求[14]。人的朝向、四肢的排列、相鄰關(guān)節(jié)的關(guān)系均是需要從全局上下文信息進(jìn)行推理識(shí)別，并對(duì)局部信息進(jìn)行準(zhǔn)確定位。為了使網(wǎng)絡(luò)具備更優(yōu)的全局上下文信息，本文對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)，設(shè)計(jì)了結(jié)合全局上下文的Hourglass，結(jié)構(gòu)如圖4所示。

基于Hourglass的網(wǎng)絡(luò)是有序地從高分辨率到低分辨率連接各子網(wǎng)絡(luò)進(jìn)行構(gòu)建。其中，每個(gè)Stage的每個(gè)子網(wǎng)絡(luò)均包含多個(gè)卷積序列，且在鄰近的子網(wǎng)絡(luò)間會(huì)有下采樣層，從而將特征分辨率減半。

本文將一個(gè)高分辨率的子網(wǎng)絡(luò)作為第一個(gè)Stage。每次下采樣后均將特征圖從高分辨率到低分辨率逐一添加到子網(wǎng)絡(luò)中，連接各個(gè)多分辨率特征，如式（2）。

f1，1←f1，1

fs，r+1←fs，r+fs+1，r+1，s≤r

fs，r+1←fs-1，r，s=r+1

r=1，2，3，4（2）

結(jié)合全局上下文的Hourglass通過(guò)圖5給出的連接模塊將低分辨率特征圖融合到高分辨率特征圖中，使得每一個(gè)尺度的特征圖均包含其前層特征及額外的低分辨率特征。如圖5所示。

其中，這些低分辨率特征圖具有更加寬闊的感受野，包含全局上下文信息。

1.3模型訓(xùn)練

本文方法的輸出僅采用模型輸出的高分辨率特征表示來(lái)回歸Heatmaps。Loss函數(shù)采用均方差誤差，并對(duì)預(yù)測(cè)的Heatmaps和GroundTruthHeatmaps進(jìn)行計(jì)算[15]，而后者是通過(guò)以關(guān)鍵點(diǎn)GroundTruth坐標(biāo)（x，y）為中心，采用1像素標(biāo)準(zhǔn)差的2DGaussian生成。

2試驗(yàn)和分析

算法在Balletto舞蹈視頻數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試，選取7000張作為訓(xùn)練集，其余圖片作為測(cè)試集。

2.1評(píng)價(jià)指標(biāo)

本文采用基于ObjectKeypointSimilarity（OKS）的評(píng)價(jià)指標(biāo)對(duì)各關(guān)鍵點(diǎn)進(jìn)行評(píng)估[16]。OKS的計(jì)算，如式（3）。

OKS=∑iexp-d2p22S2pσ2iδ

（vi>0）∑iδ（vi>0）（3）

本文對(duì)于模型準(zhǔn)確度采用了AP、AP50、AP75、APM、APL、AR等幾個(gè)指標(biāo)，其中AP取值為OKS從0.50～0.95等10個(gè)位置的平均AP，AP50表示OKS為0.50時(shí)的AP;AP75表示OKS為0.75時(shí)的AP;APM表示中尺度目標(biāo)的AP;APL表示大尺度目標(biāo)的AP;AR表示平均召回率。此外，本文還對(duì)模型大小進(jìn)行了分析，主要采用參數(shù)大小和浮點(diǎn)型運(yùn)算量（FLOPs）進(jìn)行分析。

2.2數(shù)據(jù)庫(kù)評(píng)估

算法準(zhǔn)確度分析結(jié)果，如表1所示。

本文方法從零開(kāi)始訓(xùn)練，輸入圖像尺度為256×256，獲得了70.3分。相比基于CPN的算法提高了2.5%，比基于Hourglass的算法提高了2.4%。這表明本文通過(guò)全局上下文信息及特定舞蹈動(dòng)作提升識(shí)別準(zhǔn)確度的方法有效。全局上下文信息有助于模型學(xué)習(xí)識(shí)別舞者各關(guān)鍵點(diǎn)的特征，從AP50和AP75也可以看出，本文方法相比其他兩種算法提高了1%～2%。但對(duì)于不同尺度的舞者，該方法并未獲取更優(yōu)的準(zhǔn)確度。在對(duì)于大尺度的舞者姿態(tài)識(shí)別時(shí)，本文方法的準(zhǔn)確度略低于基于CPN的算法。但在中尺度的舞者圖像中，該算法仍獲得了1%的提高。大尺度的目標(biāo)包含更豐富的信息，對(duì)于舞者動(dòng)作識(shí)別更加簡(jiǎn)單，這使得3種方法的準(zhǔn)確度差別較小。此外，本文方法的AR值比其他算法提高1.3%。

對(duì)物質(zhì)姿態(tài)估計(jì)的PCK指標(biāo)評(píng)估結(jié)果，如表2所示。

從表2中可知，本文方法的PCK分?jǐn)?shù)達(dá)到了86.1%，優(yōu)于其他算法，對(duì)于難度較大的一些關(guān)鍵點(diǎn)，本算法也獲得了有效提升。

與其他算法的模型大小分析，如表3所示。

文中方法的FLOPs為6.25GB，略高于其他算法，而且參數(shù)量也略大于其他算法，說(shuō)明該方法在提升準(zhǔn)確度的同時(shí)也增加了運(yùn)算代價(jià)。

本文算法對(duì)特定舞蹈動(dòng)作識(shí)別的部分效果圖進(jìn)行展示，如圖6所示。

該算法成功將大部分舞蹈動(dòng)作的關(guān)鍵點(diǎn)進(jìn)行識(shí)別。對(duì)于第一列第一幅圖、第三列第二幅圖中遮擋隱藏的關(guān)鍵點(diǎn)，本文算法可以成功檢測(cè)。在第一列第二幅圖、第三列第二幅圖中舞者兩腿出現(xiàn)交叉，但本算法能夠準(zhǔn)確檢測(cè)出左右腿的關(guān)鍵點(diǎn)。另外，對(duì)于第二列第二幅圖、第二列第三幅圖和第四列第三幅圖中舞者的一些大幅度動(dòng)作，算法也可以成功檢測(cè)出人體關(guān)鍵點(diǎn)。但對(duì)于第一列第三幅圖，算法并未成功檢測(cè)出左腳踝關(guān)節(jié)。經(jīng)分析認(rèn)為，該圖中舞者動(dòng)作尺度變化復(fù)雜，左腿幾乎與左手重疊，這給人體關(guān)鍵點(diǎn)識(shí)別帶來(lái)了困難。

3總結(jié)

為了獲得更豐富的全局上下文信息，提升模型對(duì)舞者處于遮擋、交叉和大幅度動(dòng)作的關(guān)鍵點(diǎn)檢測(cè)性能，本文通過(guò)將低分辨率特征圖上采樣與高分辨率特征圖結(jié)合的方式設(shè)計(jì)了一種特定舞蹈動(dòng)作識(shí)別算法。測(cè)試結(jié)果表明，該算法具有比基于CPN和Hourglass的算法更好的檢測(cè)精度。但該算法在對(duì)于一些劇烈的動(dòng)作識(shí)別中仍存有不足，在后續(xù)的研究中將針對(duì)劇烈尺度變化的舞蹈動(dòng)作識(shí)別算法進(jìn)行改進(jìn)。

參考文獻(xiàn)

[1]鄧益儂，羅健欣，金鳳林.基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法綜述[J].計(jì)算機(jī)工程與應(yīng)用，2019，55（19）：2242.

[2]DangQ，YinJ，WangB，etal.Deeplearningbased2Dhumanposeestimation：Asurvey[J].TsinghuaScience&Technology，2019，24（6）：663676.

[3]邢占偉.基于多特征融合的舞蹈動(dòng)作識(shí)別方法研究[D].沈陽(yáng)：遼寧大學(xué)，2017.

[4]任文.基于姿態(tài)估計(jì)的運(yùn)動(dòng)輔助訓(xùn)練系統(tǒng)研究[J].電子設(shè)計(jì)工程，2019，27（18）：149152.

[5]PfisterT，CharlesJ，ZissermanA，etal.FlowingConvNetsforhumanposeestimationinvideos[C].InternationalConferenceonComputerVision，Boston，2015：19131921.

[6]WeiS，RamakrishnaV，KanadeT，etal.Convolutionalposemachines[C].ComputerVisionandPatternRecognition，Chicago，2016June2730：47244732.

[7]NewellA，YangK，DengJ，etal.StackedHourglassnetworksforhumanposeestimation[C].Amsterdam：EuropeanConferenceonComputerVision，Paris，2016October1114：483499.

[8]CaoZ，SimonT，WeiS，etal.RealtimeMultiPerson2Dposeestimationusingpartaffinityfields[C].ComputerVisionandPatternRecognition，Beijing，2016June2730：32103222.

[9]ChenY，WangZ，PengY，etal.CascadedpyramidnetworkforMultiPersonposeestimation[C].ComputerVisionandPatternRecognition，Shanghai，2017July2126：356363.

[10]YangW，LiS，OuyangW，etal.Learningfeaturepyramidsforhumanposeestimation[C].InternationalConferenceonComputerVision，Guangzhou，2017October2229：12901299.

[11]許政.基于深度學(xué)習(xí)的人體骨架點(diǎn)檢測(cè)[D].濟(jì)南：濟(jì)南大學(xué)，2019.

[12]于景華，王慶，陳洪.基于動(dòng)作評(píng)價(jià)算法的體感舞蹈交互系統(tǒng)[J].計(jì)算機(jī)與現(xiàn)代化，2018（6）：6471.

[13]于華，智敏.基于卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì)，2019，40（4）：11611166.

[14]桑海峰，田秋洋.面向人機(jī)交互的快速人體動(dòng)作識(shí)別系統(tǒng)[J].計(jì)算機(jī)工程與應(yīng)用，2019，55（6）：101107.

[15]馬悅，張玉梅.一種基于模糊綜合評(píng)價(jià)的人體動(dòng)作識(shí)別方法[J].信息技術(shù)，2018（3）：2733.

[16]陳甜甜，姚璜，魏艷濤，等.基于融合特征的人體動(dòng)作識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì)，2019，40（5）：13941400.

（收稿日期：2020.03.11）

微型電腦應(yīng)用2020年10期

微型電腦應(yīng)用的其它文章: 基于超球面支持向量機(jī)的傳感器網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)分析; 諧振接地系統(tǒng)對(duì)弧光接地過(guò)電壓的抑制建模及仿真分析; 構(gòu)建電網(wǎng)調(diào)度控制系統(tǒng)架構(gòu)的關(guān)鍵技術(shù)研究分析; 離散數(shù)據(jù)的歸一化處理在計(jì)稅核價(jià)系統(tǒng)中應(yīng)用研究; 智能電網(wǎng)的信息化系統(tǒng)管理實(shí)現(xiàn); 汽車(chē)電氣智能控制系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)