亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于全局上下文的特定舞蹈動(dòng)作識(shí)別方法研究

        2020-11-13 03:38:57畢雪超
        微型電腦應(yīng)用 2020年10期

        畢雪超

        摘要:為了提升機(jī)器視覺(jué)中特定舞蹈動(dòng)作識(shí)別的性能,設(shè)計(jì)了基于全局上下文的特定舞蹈動(dòng)作識(shí)別方法。該方法基于Hourglass結(jié)構(gòu),通過(guò)連接高低分辨率的特征圖,將具備全局信息的深層特征圖上采樣與淺層特征融合,使得每一個(gè)階段的高分辨率特征圖均具有低分辨率的特征圖表示,從而得到信息更豐富的高分辨率特征圖表示,最終回歸人體姿態(tài)熱力圖。在Balletto舞蹈視頻數(shù)據(jù)庫(kù)中的測(cè)試結(jié)果表明,相比基于CPN和基于Hourglass的算法,所提算法的AP值提高2.4%,AR提升了1.6%。

        關(guān)鍵詞:Hourglass;殘差模塊;向上連接;全局上下文信息;多尺度特征融合

        中圖分類(lèi)號(hào):TP391.9

        文獻(xiàn)標(biāo)志碼:A

        ASpecificDanceActionRecognitionMethodBasedonGlobalContext

        BIXuechao

        (YouthLeagueCommittee,XianVocationalandTechnicalCollegeof

        AeronauticsandAstronautics,Xian710089,China)

        Abstract:Toimprovetheperformanceofspecificdanceactionrecognitioninmachinevision,aspecificdanceactionrecognitionmethodbasedonglobalcontextisdesigned.ThismethodisbasedonHourglassstructure.Byconnectingthehighresolutionandlowresolutionfeaturemaps,thedeepfeaturemapwithglobalinformationissampledandfusedwiththeshallowfeaturemap,sothatthehighresolutionfeaturemapofeachstagehasthelowresolutionfeaturemaprepresentation,soastoobtainthehighresolutionfeaturemaprepresentationwithmoreinformation,andfinallyreturntothehumanposturethermalmap.ThetestresultsinBallettodatasetshowthatcomparedwiththealgorithmsbasedonCPNorHourglass,theAPscoreandARscoreoftheproposedalgorithmareincreasedby2.4%and1.6%,respectively.

        Keywords:Hourglass;residualmodule;upwardconnection;globalcontextinformation;multiscalefeaturefusion

        0引言

        特定舞蹈動(dòng)作識(shí)別是人體姿態(tài)估計(jì)技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域[13],通過(guò)舞蹈動(dòng)作識(shí)別技術(shù)可以幫助舞蹈演員糾正錯(cuò)誤姿勢(shì),有助于智能化舞蹈輔助訓(xùn)練[4]。PfisterT等人[5]將人體姿態(tài)估計(jì)視為檢測(cè)問(wèn)題,通過(guò)回歸人體姿態(tài)關(guān)鍵點(diǎn)的熱力圖來(lái)進(jìn)行人體姿態(tài)估計(jì)。之后,采用人體各部件響應(yīng)圖來(lái)表達(dá)各部件之間空間約束的人體姿態(tài)估計(jì)方法被提出[6]。NewellA等人[7]提出了基于Hourglass的人體姿態(tài)估計(jì)算法,該算法可以獲取多尺度特征同時(shí)具有更加簡(jiǎn)潔的結(jié)構(gòu)。Openpose[8]實(shí)時(shí)檢測(cè)多人2D姿態(tài)方法的主要原理是通過(guò)部分親和域去學(xué)習(xí)將身體部位和對(duì)應(yīng)個(gè)體關(guān)聯(lián)。為了提升算法對(duì)于復(fù)雜關(guān)鍵點(diǎn)的檢測(cè)性能,文獻(xiàn)[9]采用一個(gè)全局網(wǎng)絡(luò)檢測(cè)簡(jiǎn)單關(guān)鍵點(diǎn),然后通過(guò)RefineNet檢測(cè)復(fù)雜關(guān)鍵點(diǎn)進(jìn)行姿態(tài)估計(jì),這種網(wǎng)絡(luò)結(jié)構(gòu)被稱(chēng)為CPN。本文基于Hourglass結(jié)構(gòu)[10],設(shè)計(jì)了基于全局上下文信息的舞蹈動(dòng)作識(shí)別算法,用于學(xué)習(xí)特定的復(fù)雜舞蹈動(dòng)作識(shí)別。

        1基于全局上下文的舞蹈動(dòng)作識(shí)別

        本文提出了一種結(jié)合全局上下文信息的架構(gòu),能夠在整個(gè)過(guò)程中結(jié)合全局上下文信息并維護(hù)高分辨率的表示,結(jié)構(gòu)如圖1所示。

        算法采用256×256的圖片輸入,首先進(jìn)行下采樣和三個(gè)殘差模塊;然后,經(jīng)過(guò)若干個(gè)結(jié)合全局上下文信息的Hourglass結(jié)構(gòu);最后,通過(guò)兩個(gè)連續(xù)的1×1卷積得到舞者的骨架關(guān)鍵點(diǎn)圖。

        1.1基于Hourglass的網(wǎng)絡(luò)結(jié)構(gòu)

        基于Hourglass的模型通過(guò)串聯(lián)高低分辨率的特征圖,具有更優(yōu)的對(duì)稱(chēng)性,可以融合多尺度特征[1112]。因此,本文采用基于Hourglass的模型作為基本網(wǎng)絡(luò)來(lái)進(jìn)行姿態(tài)估計(jì)。該模型通過(guò)將高分辨率到低分辨率的子網(wǎng)絡(luò)串聯(lián)起來(lái),每個(gè)子網(wǎng)絡(luò)形成一個(gè)階段,由一系列卷積組成。相鄰子網(wǎng)絡(luò)之間存在一個(gè)下采樣層,將分辨率減半,如式(1)。

        f11→f22→…→fs-1,r-1→fs,r(1)

        Hourglass主要由殘差模塊構(gòu)成,如圖2所示[13]。

        殘差模塊一般由兩條分支組成:第一分支主要為了增加深度與提取特征,通過(guò)兩個(gè)1×1的卷積層和一個(gè)3×3的卷積層組成;第二分支核與常規(guī)殘差模塊不同,為了控制輸入通道數(shù)和輸出通道數(shù)。本文的殘差模塊通過(guò)輸入通道數(shù)和輸出通道數(shù)進(jìn)行控制,可以對(duì)任意尺度圖像進(jìn)行操作。

        與其他人體姿態(tài)估計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似,Hourglass同樣是從高分辨率特征圖下采樣至低分辨率,然后再上采樣回到原來(lái)的分辨率,但Hourglass具有更加對(duì)稱(chēng)的容量分布,一階結(jié)構(gòu)如圖3所示。

        其包含兩條支路、一條原分辨率特征圖支路和一條降采樣后的低分辨率特征圖支路。原分辨率支路包含3個(gè)殘差模塊,用于高分辨率特征提取。該支路只改變特征圖深度,不改變特征圖尺度。第二條支路則先通過(guò)一個(gè)Maxpooling進(jìn)行下采樣,然后經(jīng)歷5個(gè)殘差塊,再上采樣回前一個(gè)尺度并與第一支路的特征圖進(jìn)行融合。

        1.2結(jié)合全局上下文的網(wǎng)絡(luò)結(jié)構(gòu)

        舞蹈動(dòng)作通常具有復(fù)雜且大幅度的變化,識(shí)別舞蹈動(dòng)作姿態(tài)需要深度學(xué)習(xí)模型在提取特征時(shí),抓住每個(gè)尺度信息的需求[14]。人的朝向、四肢的排列、相鄰關(guān)節(jié)的關(guān)系均是需要從全局上下文信息進(jìn)行推理識(shí)別,并對(duì)局部信息進(jìn)行準(zhǔn)確定位。為了使網(wǎng)絡(luò)具備更優(yōu)的全局上下文信息,本文對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),設(shè)計(jì)了結(jié)合全局上下文的Hourglass,結(jié)構(gòu)如圖4所示。

        基于Hourglass的網(wǎng)絡(luò)是有序地從高分辨率到低分辨率連接各子網(wǎng)絡(luò)進(jìn)行構(gòu)建。其中,每個(gè)Stage的每個(gè)子網(wǎng)絡(luò)均包含多個(gè)卷積序列,且在鄰近的子網(wǎng)絡(luò)間會(huì)有下采樣層,從而將特征分辨率減半。

        本文將一個(gè)高分辨率的子網(wǎng)絡(luò)作為第一個(gè)Stage。每次下采樣后均將特征圖從高分辨率到低分辨率逐一添加到子網(wǎng)絡(luò)中,連接各個(gè)多分辨率特征,如式(2)。

        f1,1←f1,1

        fs,r+1←fs,r+fs+1,r+1,s≤r

        fs,r+1←fs-1,r,s=r+1

        r=1,2,3,4(2)

        結(jié)合全局上下文的Hourglass通過(guò)圖5給出的連接模塊將低分辨率特征圖融合到高分辨率特征圖中,使得每一個(gè)尺度的特征圖均包含其前層特征及額外的低分辨率特征。如圖5所示。

        其中,這些低分辨率特征圖具有更加寬闊的感受野,包含全局上下文信息。

        1.3模型訓(xùn)練

        本文方法的輸出僅采用模型輸出的高分辨率特征表示來(lái)回歸Heatmaps。Loss函數(shù)采用均方差誤差,并對(duì)預(yù)測(cè)的Heatmaps和GroundTruthHeatmaps進(jìn)行計(jì)算[15],而后者是通過(guò)以關(guān)鍵點(diǎn)GroundTruth坐標(biāo)(x,y)為中心,采用1像素標(biāo)準(zhǔn)差的2DGaussian生成。

        2試驗(yàn)和分析

        算法在Balletto舞蹈視頻數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試,選取7000張作為訓(xùn)練集,其余圖片作為測(cè)試集。

        2.1評(píng)價(jià)指標(biāo)

        本文采用基于ObjectKeypointSimilarity(OKS)的評(píng)價(jià)指標(biāo)對(duì)各關(guān)鍵點(diǎn)進(jìn)行評(píng)估[16]。OKS的計(jì)算,如式(3)。

        OKS=∑iexp-d2p22S2pσ2iδ

        (vi>0)∑iδ(vi>0)(3)

        本文對(duì)于模型準(zhǔn)確度采用了AP、AP50、AP75、APM、APL、AR等幾個(gè)指標(biāo),其中AP取值為OKS從0.50~0.95等10個(gè)位置的平均AP,AP50表示OKS為0.50時(shí)的AP;AP75表示OKS為0.75時(shí)的AP;APM表示中尺度目標(biāo)的AP;APL表示大尺度目標(biāo)的AP;AR表示平均召回率。此外,本文還對(duì)模型大小進(jìn)行了分析,主要采用參數(shù)大小和浮點(diǎn)型運(yùn)算量(FLOPs)進(jìn)行分析。

        2.2數(shù)據(jù)庫(kù)評(píng)估

        算法準(zhǔn)確度分析結(jié)果,如表1所示。

        本文方法從零開(kāi)始訓(xùn)練,輸入圖像尺度為256×256,獲得了70.3分。相比基于CPN的算法提高了2.5%,比基于Hourglass的算法提高了2.4%。這表明本文通過(guò)全局上下文信息及特定舞蹈動(dòng)作提升識(shí)別準(zhǔn)確度的方法有效。全局上下文信息有助于模型學(xué)習(xí)識(shí)別舞者各關(guān)鍵點(diǎn)的特征,從AP50和AP75也可以看出,本文方法相比其他兩種算法提高了1%~2%。但對(duì)于不同尺度的舞者,該方法并未獲取更優(yōu)的準(zhǔn)確度。在對(duì)于大尺度的舞者姿態(tài)識(shí)別時(shí),本文方法的準(zhǔn)確度略低于基于CPN的算法。但在中尺度的舞者圖像中,該算法仍獲得了1%的提高。大尺度的目標(biāo)包含更豐富的信息,對(duì)于舞者動(dòng)作識(shí)別更加簡(jiǎn)單,這使得3種方法的準(zhǔn)確度差別較小。此外,本文方法的AR值比其他算法提高1.3%。

        對(duì)物質(zhì)姿態(tài)估計(jì)的PCK指標(biāo)評(píng)估結(jié)果,如表2所示。

        從表2中可知,本文方法的PCK分?jǐn)?shù)達(dá)到了86.1%,優(yōu)于其他算法,對(duì)于難度較大的一些關(guān)鍵點(diǎn),本算法也獲得了有效提升。

        與其他算法的模型大小分析,如表3所示。

        文中方法的FLOPs為6.25GB,略高于其他算法,而且參數(shù)量也略大于其他算法,說(shuō)明該方法在提升準(zhǔn)確度的同時(shí)也增加了運(yùn)算代價(jià)。

        本文算法對(duì)特定舞蹈動(dòng)作識(shí)別的部分效果圖進(jìn)行展示,如圖6所示。

        該算法成功將大部分舞蹈動(dòng)作的關(guān)鍵點(diǎn)進(jìn)行識(shí)別。對(duì)于第一列第一幅圖、第三列第二幅圖中遮擋隱藏的關(guān)鍵點(diǎn),本文算法可以成功檢測(cè)。在第一列第二幅圖、第三列第二幅圖中舞者兩腿出現(xiàn)交叉,但本算法能夠準(zhǔn)確檢測(cè)出左右腿的關(guān)鍵點(diǎn)。另外,對(duì)于第二列第二幅圖、第二列第三幅圖和第四列第三幅圖中舞者的一些大幅度動(dòng)作,算法也可以成功檢測(cè)出人體關(guān)鍵點(diǎn)。但對(duì)于第一列第三幅圖,算法并未成功檢測(cè)出左腳踝關(guān)節(jié)。經(jīng)分析認(rèn)為,該圖中舞者動(dòng)作尺度變化復(fù)雜,左腿幾乎與左手重疊,這給人體關(guān)鍵點(diǎn)識(shí)別帶來(lái)了困難。

        3總結(jié)

        為了獲得更豐富的全局上下文信息,提升模型對(duì)舞者處于遮擋、交叉和大幅度動(dòng)作的關(guān)鍵點(diǎn)檢測(cè)性能,本文通過(guò)將低分辨率特征圖上采樣與高分辨率特征圖結(jié)合的方式設(shè)計(jì)了一種特定舞蹈動(dòng)作識(shí)別算法。測(cè)試結(jié)果表明,該算法具有比基于CPN和Hourglass的算法更好的檢測(cè)精度。但該算法在對(duì)于一些劇烈的動(dòng)作識(shí)別中仍存有不足,在后續(xù)的研究中將針對(duì)劇烈尺度變化的舞蹈動(dòng)作識(shí)別算法進(jìn)行改進(jìn)。

        參考文獻(xiàn)

        [1]鄧益儂,羅健欣,金鳳林.基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(19):2242.

        [2]DangQ,YinJ,WangB,etal.Deeplearningbased2Dhumanposeestimation:Asurvey[J].TsinghuaScience&Technology,2019,24(6):663676.

        [3]邢占偉.基于多特征融合的舞蹈動(dòng)作識(shí)別方法研究[D].沈陽(yáng):遼寧大學(xué),2017.

        [4]任文.基于姿態(tài)估計(jì)的運(yùn)動(dòng)輔助訓(xùn)練系統(tǒng)研究[J].電子設(shè)計(jì)工程,2019,27(18):149152.

        [5]PfisterT,CharlesJ,ZissermanA,etal.FlowingConvNetsforhumanposeestimationinvideos[C].InternationalConferenceonComputerVision,Boston,2015:19131921.

        [6]WeiS,RamakrishnaV,KanadeT,etal.Convolutionalposemachines[C].ComputerVisionandPatternRecognition,Chicago,2016June2730:47244732.

        [7]NewellA,YangK,DengJ,etal.StackedHourglassnetworksforhumanposeestimation[C].Amsterdam:EuropeanConferenceonComputerVision,Paris,2016October1114:483499.

        [8]CaoZ,SimonT,WeiS,etal.RealtimeMultiPerson2Dposeestimationusingpartaffinityfields[C].ComputerVisionandPatternRecognition,Beijing,2016June2730:32103222.

        [9]ChenY,WangZ,PengY,etal.CascadedpyramidnetworkforMultiPersonposeestimation[C].ComputerVisionandPatternRecognition,Shanghai,2017July2126:356363.

        [10]YangW,LiS,OuyangW,etal.Learningfeaturepyramidsforhumanposeestimation[C].InternationalConferenceonComputerVision,Guangzhou,2017October2229:12901299.

        [11]許政.基于深度學(xué)習(xí)的人體骨架點(diǎn)檢測(cè)[D].濟(jì)南:濟(jì)南大學(xué),2019.

        [12]于景華,王慶,陳洪.基于動(dòng)作評(píng)價(jià)算法的體感舞蹈交互系統(tǒng)[J].計(jì)算機(jī)與現(xiàn)代化,2018(6):6471.

        [13]于華,智敏.基于卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(4):11611166.

        [14]桑海峰,田秋洋.面向人機(jī)交互的快速人體動(dòng)作識(shí)別系統(tǒng)[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(6):101107.

        [15]馬悅,張玉梅.一種基于模糊綜合評(píng)價(jià)的人體動(dòng)作識(shí)別方法[J].信息技術(shù),2018(3):2733.

        [16]陳甜甜,姚璜,魏艷濤,等.基于融合特征的人體動(dòng)作識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(5):13941400.

        (收稿日期:2020.03.11)

        亚洲精品一品区二品区三区| 久久香蕉国产线熟妇人妻| 日韩精品内射视频免费观看| 国产精品乱码在线观看| 人妻少妇人人丰满视频网站| 亚洲一区二区三区四区精品| 麻豆最新国产av原创| 男人添女人囗交做爰视频| 好屌草这里只有精品 | 精品久久综合亚洲伊人| 久久精品国产av大片| 伊人影院成人在线观看| 丝袜人妻一区二区三区| 在线观看精品视频网站| 一本一道波多野结衣一区| 欧美黑人性色黄在线视频| 久久久精品中文无码字幕| 在线亚洲精品免费视频| 嫩呦国产一区二区三区av| 国产freesexvideos中国麻豆| 中文字幕人妻av一区二区| 免费国产h视频在线观看86| 国产精品髙潮呻吟久久av| 91久久精品色伊人6882| 少妇饥渴偷公乱a级无码| 国产美女网站视频| 国产日韩三级| 99久久久人妻熟妇精品一区二区| 无码aⅴ精品一区二区三区| 日韩人妻无码精品-专区| 日韩AV有码无码一区二区三区| 蜜桃一区二区免费视频观看| 人妻中文字幕日韩av| 无码国产伦一区二区三区视频| 国产短视频精品区第一页| 国产又大大紧一区二区三区| 国产成人无码精品久久久露脸 | 久久亚洲黄色| 国产av熟女一区二区三区老牛| 国产剧情av麻豆香蕉精品| 欧美寡妇xxxx黑人猛交|