亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向太極拳學(xué)習(xí)的人體姿態(tài)估計(jì)及相似度計(jì)算

        2022-08-16 09:46:40蔡興泉霍宇晴李發(fā)建孫海燕
        圖學(xué)學(xué)報(bào) 2022年4期
        關(guān)鍵詞:太極拳動(dòng)作

        蔡興泉,霍宇晴,李發(fā)建,孫海燕

        面向太極拳學(xué)習(xí)的人體姿態(tài)估計(jì)及相似度計(jì)算

        蔡興泉,霍宇晴,李發(fā)建,孫海燕

        (北方工業(yè)大學(xué)信息學(xué)院,北京 100144)

        針對(duì)當(dāng)前線上太極拳學(xué)習(xí)自然交互性差、缺乏學(xué)習(xí)反饋等問(wèn)題,提出一種面向太極拳學(xué)習(xí)的人體姿態(tài)估計(jì)及相似度計(jì)算方法。首先,輸入太極拳視頻,利用幀間差分法提取關(guān)鍵幀圖像;然后,利用堆疊沙漏網(wǎng)絡(luò)模型對(duì)關(guān)鍵幀圖像進(jìn)行二維關(guān)節(jié)點(diǎn)檢測(cè);接著,使用長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)結(jié)合Sequence-to-Sequence網(wǎng)絡(luò)模型對(duì)檢測(cè)到的二維關(guān)節(jié)點(diǎn)序列進(jìn)行二維到三維的映射,預(yù)測(cè)三維關(guān)節(jié)點(diǎn)的位置坐標(biāo);最后對(duì)估計(jì)的人體姿態(tài)進(jìn)行二維和三維余弦相似度計(jì)算。利用該方法設(shè)計(jì)并開(kāi)發(fā)了一款相關(guān)設(shè)備簡(jiǎn)便、用戶體驗(yàn)感強(qiáng)的太極拳學(xué)習(xí)與反饋應(yīng)用系統(tǒng),并在實(shí)際中應(yīng)用。該系統(tǒng)可以檢測(cè)太極拳學(xué)員的整體動(dòng)作及各肢體段動(dòng)作是否標(biāo)準(zhǔn),并給出反饋,學(xué)員可以根據(jù)反饋結(jié)果練習(xí)和改善不標(biāo)準(zhǔn)動(dòng)作,達(dá)到提升學(xué)習(xí)效果的目的。

        太極拳學(xué)習(xí);人體姿態(tài)估計(jì);幀間差分;堆疊沙漏網(wǎng)絡(luò);余弦相似度

        隨著人們生活水平的不斷提高,人們?cè)絹?lái)越重視體育健身。太極拳作為我國(guó)的民間傳統(tǒng)體育運(yùn)動(dòng)項(xiàng)目,有著博大精深的文化內(nèi)涵和獨(dú)特的健身、養(yǎng)生價(jià)值,受到越來(lái)越多人的推崇。線下學(xué)習(xí)太極拳需要消耗大量的時(shí)間與精力,而線上的太極拳視頻不利于用戶簡(jiǎn)單明了地觀察每個(gè)動(dòng)作的步驟。尤其是線上視頻均是二維,忽略了深度信息,身體不同部位也均會(huì)有視覺(jué)上縮短的效果,與線下學(xué)習(xí)效果存在明顯差異。此外,學(xué)員通過(guò)線上學(xué)習(xí)太極拳無(wú)法了解自己的動(dòng)作是否標(biāo)準(zhǔn),不能對(duì)自己的學(xué)習(xí)效果進(jìn)行客觀評(píng)價(jià),不利于自身學(xué)習(xí)水平的提高。因此,有必要研究并開(kāi)發(fā)一款相關(guān)設(shè)備簡(jiǎn)便、用戶體驗(yàn)感強(qiáng)的太極拳學(xué)習(xí)與反饋應(yīng)用系統(tǒng),助力于推廣中華太極拳和傳播中國(guó)傳統(tǒng)武術(shù)文化。

        隨著抖音、快手、B站等短視頻軟件的興起,越來(lái)越多的人利用短視頻來(lái)學(xué)習(xí)和模仿動(dòng)作。為了提升太極拳個(gè)性化動(dòng)作學(xué)習(xí)的專業(yè)性,讓學(xué)員及時(shí)矯正動(dòng)作,需要通過(guò)處理太極拳學(xué)員的學(xué)習(xí)視頻給出反饋。在進(jìn)行視頻處理時(shí),經(jīng)常需要進(jìn)行關(guān)鍵幀處理。

        關(guān)鍵幀提取是將視頻中的主要內(nèi)容用少數(shù)的幀圖像進(jìn)行表征[1]。提取方法主要有鏡頭邊界法、運(yùn)動(dòng)分析法、視覺(jué)信息差分法和聚類法4種。視覺(jué)信息差分法常用的是幀間差分法,分別衡量相鄰各幀之間的運(yùn)動(dòng)差異,差異大于閾值的幀選為關(guān)鍵幀,該方法計(jì)算簡(jiǎn)單、冗余度低、效率高。

        傳統(tǒng)的姿態(tài)估計(jì)算法依賴于物體的外觀特征,如紋理、邊緣、顏色、前景輪廓等,有一定的局限性[2-8]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,極大地促進(jìn)了從單目圖像中進(jìn)行人體姿態(tài)估計(jì)的研究。TOSHEV和SZEGEDY[9]第一個(gè)將深度學(xué)習(xí)方法應(yīng)用于人體姿態(tài)估計(jì)的主要模型DeepPose,利用級(jí)聯(lián)的回歸網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)人體姿態(tài)估計(jì),簡(jiǎn)潔強(qiáng)大,但檢測(cè)精度不高,直接回歸2D坐標(biāo)困難。WEI等[10]利用卷積姿態(tài)估計(jì)(convolutional pose machine,CPM)方法,通過(guò)熱力圖代表人體骨骼關(guān)節(jié)點(diǎn)的位置信息,穩(wěn)定性、魯棒性較好,但包含的語(yǔ)義信息較少,容易產(chǎn)生欠分割現(xiàn)象。CAO等[11]使用自底向上的思路,創(chuàng)新地提出了OpenPose方法,通過(guò)對(duì)關(guān)鍵點(diǎn)進(jìn)行聚類分析,得到每個(gè)人的骨骼關(guān)鍵點(diǎn)信息,參數(shù)格式多樣,魯棒性好,但運(yùn)行計(jì)算量非常大,幀率較低。NEWEL等[12]提出了基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的堆疊沙漏結(jié)構(gòu)模型,通過(guò)將每個(gè)模塊中的特征圖經(jīng)過(guò)卷積層和下采樣層,獲取不同尺度的特征圖,與之后在多次上采樣中得到的不同尺度特征圖進(jìn)行合并,最終得到一個(gè)包含多尺度信息的特征圖,堆疊沙漏網(wǎng)絡(luò)模型方法精度和速度相對(duì)較好,并較好地解決了被遮擋關(guān)鍵點(diǎn)難以預(yù)測(cè)的問(wèn)題。FANG等[13]利用邊界框檢測(cè)人,沙漏網(wǎng)絡(luò)估計(jì)人體姿態(tài),通過(guò)兩者結(jié)合,創(chuàng)新地提出了AlphaPose方法(即RMPE:regional multi-person pose estimation方法),在多人姿態(tài)估計(jì)領(lǐng)域取得了較好的效果。SUN等[14]提出了始終輸出高分辨率的HRNet方法,但其對(duì)內(nèi)存等硬件設(shè)備要求較高,不利于普遍使用。

        在二維姿態(tài)估計(jì)的基礎(chǔ)上,許多研究者開(kāi)始嘗試?yán)萌S標(biāo)注數(shù)據(jù)集[15-18],實(shí)現(xiàn)人體在三維空間內(nèi)的姿態(tài)估計(jì)?,F(xiàn)有的人類三維姿態(tài)估計(jì)方法根據(jù)其訓(xùn)練技術(shù)分為2類:①訓(xùn)練端到端的深度卷積神經(jīng)網(wǎng)絡(luò),直接從輸入的圖像估計(jì)三維人體姿態(tài)。KANAZAWA等[19]利用End-to-End的方法,直接從圖像特征獲取3D網(wǎng)格參數(shù),避免圖像中信息丟失,但直接回歸內(nèi)參困難、數(shù)據(jù)量小、效果不佳。MEHTA等[20]采用遷移學(xué)習(xí)將所學(xué)的二維姿態(tài)估計(jì)知識(shí)轉(zhuǎn)移到三維姿態(tài)估計(jì)任務(wù)中,不限制輸入圖像的大小,但準(zhǔn)確度低,無(wú)法處理復(fù)雜場(chǎng)景。直接方法受益于圖像中包含的豐富信息,例如四肢的前后方向,然而,易受如背景、照明、服裝等因素的影響,且在一個(gè)數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)不能很好地推廣到其他不同環(huán)境的數(shù)據(jù)集;②將三維姿態(tài)估計(jì)解耦為已相對(duì)成熟的二維關(guān)節(jié)點(diǎn)檢測(cè)和用檢測(cè)到的二維關(guān)節(jié)點(diǎn)進(jìn)行三維姿態(tài)估計(jì)2個(gè)步驟。MARTINEZ等[21]設(shè)計(jì)了一個(gè)簡(jiǎn)單的全連接殘差網(wǎng)絡(luò),運(yùn)行速度快,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,但過(guò)于依賴2D關(guān)節(jié)點(diǎn)的精度。基于單幀圖像的人體三維姿態(tài)估計(jì)模型在應(yīng)用時(shí),忽略了時(shí)間、空間等信息,當(dāng)多幀之間的預(yù)測(cè)結(jié)果差距較大時(shí)容易導(dǎo)致人物的突然跳動(dòng)。LUO等[22]使用長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)來(lái)學(xué)習(xí)圖像序列中人體姿態(tài)的時(shí)序信息,取得了較好的效果。HOSSAIN和LITTLE[23]將自然語(yǔ)言處理領(lǐng)域常用的Sequence-to-Sequence(Seq2Seq)框架應(yīng)用于人體姿態(tài)估計(jì)問(wèn)題,通過(guò)編碼器-解碼器結(jié)構(gòu)對(duì)人體動(dòng)作序列建模,精度較高、魯棒性較好。

        評(píng)估運(yùn)動(dòng)序列相似性對(duì)于運(yùn)動(dòng)的姿態(tài)分析有著很重要的意義[24-26]。特征距離計(jì)算運(yùn)動(dòng)相似度比較典型的計(jì)算方法有:歐幾里得距離、曼哈頓距離、明可夫斯基距離、Jaccard系數(shù)、余弦相似度等。與計(jì)算各種距離的方法相比,余弦相似度不只簡(jiǎn)單地反應(yīng)動(dòng)作姿態(tài)的相似度,更能體現(xiàn)2個(gè)動(dòng)作姿態(tài)的骨骼向量在方向上的差異,從而得到更為準(zhǔn)確、有效地動(dòng)作姿態(tài)相似度反饋結(jié)果。

        因此,基于以上分析,本文首先采用幀間差分法提取視頻關(guān)鍵幀,然后采用堆疊沙漏網(wǎng)絡(luò)模型進(jìn)行二維關(guān)節(jié)點(diǎn),之后采用由LSTM單元組成的Seq2Seq網(wǎng)絡(luò)估計(jì)三維人體姿態(tài),最后對(duì)二維和三維姿態(tài)進(jìn)行余弦相似度計(jì)算。

        1 本文方法

        為了方便太極拳學(xué)員更加直觀地了解太極拳動(dòng)作細(xì)節(jié),本文主要研究面向太極拳學(xué)習(xí)的人體姿態(tài)估計(jì)及相似度計(jì)算方法。首先輸入太極拳視頻,利用幀間差分法提取關(guān)鍵幀圖像;然后利用堆疊沙漏網(wǎng)絡(luò)模型對(duì)關(guān)鍵幀圖像進(jìn)行二維關(guān)節(jié)點(diǎn)檢測(cè);之后使用LSTM網(wǎng)絡(luò)結(jié)合Seq2Seq網(wǎng)絡(luò)模型對(duì)檢測(cè)到的二維關(guān)節(jié)點(diǎn)序列進(jìn)行二維到三維的映射,預(yù)測(cè)三維關(guān)節(jié)位置坐標(biāo);最后對(duì)估計(jì)的人體姿態(tài)進(jìn)行二維和三維余弦相似度計(jì)算,評(píng)估太極拳學(xué)員學(xué)習(xí)效果。

        1.1 提取關(guān)鍵幀

        幀間差分法具有運(yùn)行速度快、動(dòng)態(tài)環(huán)境自適應(yīng)性強(qiáng)、對(duì)場(chǎng)景光線變化不敏感等優(yōu)點(diǎn)。本文利用幀間差分法提取關(guān)鍵幀來(lái)拆分太極拳動(dòng)作。該方法首先進(jìn)行2幀間的差分運(yùn)算,然后利用尋找局部最大值法提取關(guān)鍵幀。實(shí)現(xiàn)過(guò)程為,首先調(diào)用OpenCV庫(kù)函數(shù)讀取視頻,并將讀取到的視頻幀圖像由BGR格式轉(zhuǎn)換為L(zhǎng)UV格式;然后依次計(jì)算當(dāng)前幀圖像與前一幀圖像中每個(gè)像素的差值,并將差值相加,得到2幀圖像的差分強(qiáng)度,依據(jù)像素總數(shù)得到平均幀間差分強(qiáng)度;之后,對(duì)其序列進(jìn)行卷積平滑運(yùn)算,平滑之后的極值點(diǎn)所對(duì)應(yīng)的幀即為視頻關(guān)鍵幀。

        1.2 檢測(cè)二維關(guān)節(jié)點(diǎn)

        堆疊沙漏網(wǎng)絡(luò)模型的精度和速度較好,尤其是可以較好地解決被遮擋關(guān)鍵點(diǎn)難以預(yù)測(cè)的問(wèn)題。本文采用堆疊沙漏網(wǎng)絡(luò)對(duì)太極拳動(dòng)作的關(guān)鍵幀進(jìn)行二維關(guān)節(jié)點(diǎn)檢測(cè),方便用戶觀察太極拳動(dòng)作中的重要關(guān)節(jié)點(diǎn)的位置。堆疊沙漏網(wǎng)絡(luò)是通過(guò)級(jí)聯(lián)2個(gè)沙漏網(wǎng)絡(luò)模塊得到的。關(guān)節(jié)點(diǎn)檢測(cè)需要對(duì)人體方位、四肢動(dòng)作以及相鄰關(guān)節(jié)點(diǎn)的關(guān)系進(jìn)行連貫地理解,沙漏網(wǎng)絡(luò)可以獲取多個(gè)人體骨骼關(guān)節(jié)點(diǎn)間的相互關(guān)系,在理解人體各關(guān)節(jié)點(diǎn)一致性方面表現(xiàn)出良好的效果。

        沙漏網(wǎng)絡(luò)模型可以看作是由4個(gè)沙漏子網(wǎng)絡(luò)通過(guò)跳躍連接而得到,如圖1所示。沙漏子網(wǎng)絡(luò)結(jié)構(gòu)分為2個(gè)支路,如圖2所示。在支路一中,對(duì)輸入圖像在原分辨率下進(jìn)行特征提取,較好地保留圖像中各關(guān)節(jié)點(diǎn)的空間信息。在支路二中,對(duì)輸入圖像采用最大池化法進(jìn)行下采樣,使分辨率減半;接著利用殘差網(wǎng)絡(luò)對(duì)分辨率減半的圖像進(jìn)行深層次特征提?。蛔詈笸ㄟ^(guò)最近鄰接插值法對(duì)圖像進(jìn)行上采樣,將圖像分辨率恢復(fù)到原始輸入大小,并將其與支路一得到的特征集按元素位置相加,獲得關(guān)鍵特征的深層信息。因此,由4個(gè)子沙漏網(wǎng)絡(luò)構(gòu)成的沙漏網(wǎng)絡(luò)可以提取到4個(gè)不同分辨率的特征信息,并融合不同層次的特征信息,以獲得人體各個(gè)關(guān)節(jié)點(diǎn)的二維空間位置信息。

        圖1 沙漏網(wǎng)絡(luò)結(jié)構(gòu)圖

        圖2 沙漏子網(wǎng)絡(luò)結(jié)構(gòu)圖

        通過(guò)級(jí)聯(lián)2個(gè)沙漏網(wǎng)絡(luò)方式,構(gòu)建堆疊沙漏網(wǎng)絡(luò)模型。利用其模型自下而上(從高分辨率到低分辨率)和自上而下(從低分辨率到高分辨率)的處理方法提取太極拳動(dòng)作的關(guān)鍵幀圖像在不同尺度上的特征,并將最終得到的分辨率特征圖輸入到卷積層,預(yù)測(cè)骨骼關(guān)節(jié)點(diǎn)在每個(gè)像素上存在的概率,輸出關(guān)節(jié)點(diǎn)熱力圖。

        1.3 估計(jì)三維人體姿態(tài)

        Seq2Seq網(wǎng)絡(luò)模型可以根據(jù)歷史輸入信息和當(dāng)前時(shí)刻的輸入信息,映射當(dāng)前時(shí)刻的輸出信息,因此本文選取Seq2Seq網(wǎng)絡(luò)模型預(yù)測(cè)太極拳動(dòng)作的三維關(guān)節(jié)點(diǎn)位置坐標(biāo)。Seq2Seq網(wǎng)絡(luò)由一個(gè)解碼器和一個(gè)編碼器組成,如圖3所示。Seq2Seq網(wǎng)絡(luò)模型預(yù)測(cè)三維關(guān)節(jié)點(diǎn)坐標(biāo)分為3步。首先將幀二維關(guān)節(jié)點(diǎn)序列反向輸入到Seq2Seq網(wǎng)絡(luò)的編碼器中,并將二維關(guān)節(jié)點(diǎn)序列編碼為一個(gè)固定大小的向量;然后,從每個(gè)解碼器單元的前一幀中估計(jì)當(dāng)前幀的三維關(guān)節(jié)點(diǎn)序列;最后,對(duì)估計(jì)的三維關(guān)節(jié)點(diǎn)序列施加時(shí)間平滑約束,以確保估計(jì)的當(dāng)前幀中每個(gè)三維關(guān)節(jié)點(diǎn)與前一幀沒(méi)有太大差異。

        圖3 Seq2Seq網(wǎng)絡(luò)結(jié)構(gòu)

        1.3.1 構(gòu)建編碼器

        由于LSTM網(wǎng)絡(luò)在記憶過(guò)去的事件和信息領(lǐng)域表現(xiàn)十分優(yōu)秀,因此,本文選用LSTM網(wǎng)絡(luò)構(gòu)建編碼器單元。LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),通過(guò)添加遺忘門(mén)、輸入門(mén)和輸出門(mén)3個(gè)門(mén)結(jié)構(gòu)對(duì)需要記憶的信息進(jìn)行選擇。相比普通的RNN,LSTM解決了普通RNN在訓(xùn)練長(zhǎng)序列過(guò)程中出現(xiàn)的梯度消失和梯度爆炸現(xiàn)象,在長(zhǎng)序列訓(xùn)練中有更好的表現(xiàn),LSTM網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示。

        圖4 LSTM網(wǎng)絡(luò)結(jié)構(gòu)

        圖4中,分別為遺忘門(mén)、輸入門(mén)和輸出門(mén)的門(mén)控狀態(tài),首先拼接向量乘以權(quán)重矩陣,然后通過(guò)一個(gè)sigmoid激活函數(shù)將其轉(zhuǎn)換成0到1之間的數(shù)值,計(jì)算方法為

        其中,為權(quán)重矩陣,由Xavier初始化方法初始化;x-2為輸入的當(dāng)前幀即第-2幀的二維關(guān)節(jié)點(diǎn)序列;h-1為第-1幀的隱藏狀態(tài);為sigmoid激活函數(shù),計(jì)算方法為

        編碼器單元按幀讀取輸入序列,將輸入的第幀二維關(guān)節(jié)點(diǎn)序列編碼為一個(gè)固定大小的向量,該向量存儲(chǔ)了該幀輸入序列中所有二維關(guān)節(jié)點(diǎn)的信息。若將幀二維關(guān)節(jié)點(diǎn)序列順序輸入到編碼器中,即按第0,1,···,幀輸入,則每幀二維關(guān)節(jié)點(diǎn)序列從被編碼器編碼為向量到被解碼器解碼,均經(jīng)歷了相同的且較長(zhǎng)的時(shí)間,導(dǎo)致最小滯后時(shí)間較大,信息在長(zhǎng)時(shí)間傳播過(guò)程中容易丟失。因此本文中采用倒序輸入的方式,即按,-1,···,0幀輸入,雖然原輸入幀的二維關(guān)節(jié)點(diǎn)序列和其對(duì)應(yīng)輸出的三維關(guān)節(jié)點(diǎn)序列之間的平均距離不變,但是,原輸入幀序列的前幾幀距離其對(duì)應(yīng)輸出序列的距離很近,最小滯后時(shí)間大大減小,因此,反向輸入能夠建立起更多的短期依賴,可以更輕松地建立輸入視頻幀的二維關(guān)節(jié)點(diǎn)序列和輸出三維關(guān)節(jié)點(diǎn)序列之間的聯(lián)系,加快學(xué)習(xí)效率,提升網(wǎng)絡(luò)模型的效果。

        1.3.2 構(gòu)建解碼器

        由于LSTM網(wǎng)絡(luò)的良好效果,本文亦選用LSTM網(wǎng)絡(luò)構(gòu)建解碼器單元??蓪⒔獯a階段視為編碼的逆過(guò)程。向量“START”是開(kāi)始解碼的標(biāo)志,當(dāng)接收到“STRAT”向量后,以編碼器最后一個(gè)LSTM單元的隱藏層狀態(tài)作為其初始輸入來(lái)計(jì)算輸出。在本網(wǎng)絡(luò)中,選取腰椎關(guān)節(jié)作為根節(jié)點(diǎn),預(yù)測(cè)輸入的二維關(guān)節(jié)點(diǎn)序列中每個(gè)關(guān)節(jié)點(diǎn)相對(duì)于根節(jié)點(diǎn)的三維關(guān)節(jié)點(diǎn)坐標(biāo)。由圖3可知,編碼器最后一個(gè)LSTM單元的隱藏層狀態(tài)只作為解碼器的初始輸入?yún)⑴c運(yùn)算,后續(xù)幀的輸入為通過(guò)殘差網(wǎng)絡(luò)連接的上一時(shí)刻解碼單元的輸出,殘差網(wǎng)絡(luò)由于快捷連接的加入,使得輸入可以通過(guò)多個(gè)路徑流入網(wǎng)絡(luò)最頂層,大幅度降低了深層模型的訓(xùn)練難度,很好地解決了網(wǎng)絡(luò)退化現(xiàn)象,使網(wǎng)絡(luò)變得更容易被優(yōu)化。

        1.3.3 計(jì)算損失函數(shù)

        為了確保一幀中每個(gè)關(guān)節(jié)點(diǎn)的預(yù)測(cè)與前一幀沒(méi)有太大的差異,將三維關(guān)節(jié)點(diǎn)位置序列相對(duì)于時(shí)間的一階導(dǎo)數(shù)添加到L2損失函數(shù)中,對(duì)預(yù)測(cè)的三維關(guān)節(jié)位置施加時(shí)間平滑性約束。本文的損失函數(shù)由2個(gè)獨(dú)立的項(xiàng)組成,即三維關(guān)節(jié)點(diǎn)位置序列的均方誤差和位置序列相對(duì)于時(shí)間的一階導(dǎo)數(shù)的平均值。

        三維關(guān)節(jié)點(diǎn)位置序列的均方誤差為

        三維關(guān)節(jié)點(diǎn)位置序列相對(duì)于時(shí)間的一階導(dǎo)數(shù)的平均值為

        因此,網(wǎng)絡(luò)的整體損失函數(shù)為

        其中,為用于調(diào)節(jié)損失函數(shù)中2個(gè)項(xiàng)中每一項(xiàng)重要性的標(biāo)量超參數(shù)。

        1.4 相似度計(jì)算

        為更好地反饋太極拳學(xué)員的學(xué)習(xí)情況,本文首先計(jì)算太極拳視頻序列運(yùn)動(dòng)相似度,并對(duì)學(xué)習(xí)情況進(jìn)行整體評(píng)估,然后計(jì)算太極拳動(dòng)作關(guān)鍵幀圖像運(yùn)動(dòng)相似度,對(duì)動(dòng)作標(biāo)準(zhǔn)程度進(jìn)行反饋。

        在評(píng)估太極拳學(xué)員的整體學(xué)習(xí)情況時(shí),考慮到每位用戶的樂(lè)感與節(jié)奏感不盡相同,用戶學(xué)習(xí)時(shí)運(yùn)動(dòng)速度與加速度也存在一定差別,即相同的動(dòng)作在用戶學(xué)習(xí)視頻和模板視頻所對(duì)應(yīng)幀的位置不同。因此,本文采用動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)方法計(jì)算太極拳視頻序列相似度。首先,采取DTW進(jìn)行動(dòng)作對(duì)齊處理,對(duì)用戶學(xué)習(xí)視頻序列和模板視頻序列這2個(gè)時(shí)間序列各幀之間的距離進(jìn)行計(jì)算,求出匹配距離矩陣;然后,約束局部路徑,在幀匹配距離矩陣中尋找最佳路徑,計(jì)算該最優(yōu)路徑的累積距離,得到太極拳視頻序列的相似度。

        在對(duì)太極拳學(xué)員動(dòng)作給出反饋時(shí),既需要給出動(dòng)作姿態(tài)的相似度,又要給出動(dòng)作姿態(tài)骨骼向量在方向方面的差異。因此,本文利用計(jì)算余弦相似度的方法對(duì)用戶視頻關(guān)鍵幀圖像和其幀匹配距離矩陣中對(duì)應(yīng)的模板動(dòng)作幀圖像進(jìn)行相似度計(jì)算。定義肢體段向量和計(jì)算向量夾角余弦值分2步完成。

        步驟1. 定義肢體段向量。首先以軀干為中心,定義四肢的延伸方向?yàn)槿梭w骨骼向量方向,然后根據(jù)骨骼向量方向定義肢體段向量。肢體段向量與骨骼向量對(duì)應(yīng)關(guān)系如圖5所示。

        圖5 肢體段向量與骨骼向量具體對(duì)應(yīng)關(guān)系示意圖

        步驟2. 計(jì)算向量夾角余弦值。利用骨骼關(guān)節(jié)點(diǎn)坐標(biāo)對(duì)模板姿態(tài)與待檢測(cè)姿態(tài)相同肢體段向量的夾角進(jìn)行余弦值計(jì)算,通過(guò)夾角的余弦值間接判斷2個(gè)對(duì)比姿態(tài)相同肢體間的夾角大小,從而得到模板姿態(tài)與待檢測(cè)姿態(tài)的相似度,即

        計(jì)算得到的余弦值越小,模板姿態(tài)與待檢測(cè)姿態(tài)同一肢體的向量夾角越大,表示二者差距越大,對(duì)應(yīng)的姿態(tài)相似度也越低;反之,余弦值越大,向量夾角越小,向量方向越趨于一致,模板姿態(tài)與待檢測(cè)姿態(tài)的相似度也越高,學(xué)習(xí)效果越好;余弦值取1時(shí),兩向量平行,待檢測(cè)姿態(tài)該肢體的方向與模板視頻的方向一致。

        由于人體骨架的各骨節(jié)長(zhǎng)度不同,在計(jì)算相似度時(shí),較長(zhǎng)的骨節(jié)對(duì)人體姿態(tài)相似度的計(jì)算有著更為重要的影響,較短的骨節(jié)對(duì)人體姿態(tài)相似度計(jì)算的影響更小。因此每個(gè)關(guān)節(jié)點(diǎn)的權(quán)重取值不同。其中左髖和右髖對(duì)應(yīng)的權(quán)重設(shè)為0。因此,在確定每個(gè)關(guān)節(jié)點(diǎn)的權(quán)重后,加權(quán)計(jì)算所提取人體骨骼14個(gè)骨節(jié)夾角余弦相似度的平均值,即

        其中,的值為14;的取值范圍為[1,14]。計(jì)算肢體段向量夾角的余弦值并得到關(guān)鍵幀圖像人體姿態(tài)的余弦相似度,將余弦相似度換算為百分制表示并輸出。

        2 實(shí)驗(yàn)驗(yàn)證與分析

        為了驗(yàn)證本文方法的可行性和有效性,設(shè)計(jì)并實(shí)現(xiàn)了該方法,同時(shí)設(shè)計(jì)并開(kāi)發(fā)了太極拳學(xué)習(xí)與反饋應(yīng)用系統(tǒng)。

        實(shí)驗(yàn)采用的計(jì)算機(jī)硬件環(huán)境為Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30 GHz,64 GB內(nèi)存,NVIDIA GeForce RTX 2080 Ti顯卡,LogitechHD Pro Webcam C920攝像頭;軟件環(huán)境為Windows10操作系統(tǒng);運(yùn)行環(huán)境為Python3.5,TensorFlow-GPU2.1和Anaconda3。

        2.1 構(gòu)建數(shù)據(jù)集

        太極拳作為一種運(yùn)動(dòng)健身方式有其不同于一般日常動(dòng)作的特殊之處,因此,首先使用Human3.6M對(duì)構(gòu)建的網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,再用太極拳動(dòng)作數(shù)據(jù)集對(duì)訓(xùn)練過(guò)的網(wǎng)絡(luò)進(jìn)行再訓(xùn)練和微調(diào)。由于沒(méi)有開(kāi)源的太極拳數(shù)據(jù)集,本文自建了一個(gè)小型的太極拳動(dòng)作數(shù)據(jù)集。該數(shù)據(jù)集包括10個(gè)對(duì)象(5男,5女),每個(gè)對(duì)象100個(gè)視頻序列,包含5個(gè)不同的拍攝場(chǎng)景。首先,將拍攝的視頻序列按幀輸出視頻幀圖像,并對(duì)其進(jìn)行篩選。其次,對(duì)視頻幀圖像進(jìn)行預(yù)處理,為了盡可能地減小拍攝光線等對(duì)姿態(tài)估計(jì)產(chǎn)生的影響,使網(wǎng)絡(luò)能夠在不同光照條件估計(jì)到較為準(zhǔn)備的人體姿態(tài),提高模型泛化能力,對(duì)視頻幀圖像的曝光度、飽和度和色調(diào)進(jìn)行隨機(jī)變化形成不同光照及顏色下的視頻幀圖像,擴(kuò)充數(shù)據(jù)集。最后,將所有視頻幀圖像設(shè)置成400×400像素,256×256尺寸大小,并對(duì)太極拳動(dòng)作數(shù)據(jù)集上的關(guān)節(jié)點(diǎn)坐標(biāo)進(jìn)行0和1標(biāo)注(將關(guān)節(jié)點(diǎn)位置標(biāo)注為1,非關(guān)節(jié)點(diǎn)位置標(biāo)注為0)。構(gòu)建好數(shù)據(jù)集后,按照7∶3的比例劃分訓(xùn)練集和測(cè)試集。

        2.2 提取關(guān)鍵幀實(shí)驗(yàn)

        為了使用戶更方便地了解太極拳動(dòng)作的步驟,本文利用幀間差分法對(duì)輸入的太極拳動(dòng)作視頻進(jìn)行關(guān)鍵幀提取。卷積平滑窗口大小設(shè)置為25,如果平滑窗口過(guò)大,容易造成局部運(yùn)動(dòng)感知不明顯,實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)平滑窗口設(shè)置成25時(shí)效果較好,平滑之后的極值點(diǎn)所對(duì)應(yīng)的幀即為關(guān)鍵幀。得到關(guān)鍵幀后,計(jì)算關(guān)鍵幀圖像的人物中心,并以其為中間區(qū)域進(jìn)行裁剪和縮放,最終輸出像素大小為400×400,尺寸為256×256的太極拳關(guān)鍵幀序列,部分關(guān)鍵幀序列如圖6所示。實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)可以較好地拆分太極拳動(dòng)作視頻,可使用戶更方便地了解太極拳動(dòng)作的步驟。

        2.3 人體姿態(tài)估計(jì)實(shí)驗(yàn)

        為了使用戶清楚地觀察太極拳動(dòng)作中的骨骼關(guān)節(jié)位置、方向、角度等信息,對(duì)太極拳動(dòng)作視頻的關(guān)鍵幀序列進(jìn)行人體姿態(tài)估計(jì)。首先,從太極拳關(guān)鍵幀序列圖像中選擇連續(xù)的5幀(關(guān)鍵幀序列長(zhǎng)度為5時(shí)的實(shí)驗(yàn)結(jié)果較好)圖像,并將其輸入到堆疊沙漏網(wǎng)絡(luò)模型中估計(jì)二維關(guān)節(jié)點(diǎn)序列,然后得到的二維關(guān)節(jié)點(diǎn)序列輸入到Seq2Seq網(wǎng)絡(luò)模型中估計(jì)三維關(guān)節(jié)點(diǎn)序列,最后,對(duì)得到的二維和三維關(guān)節(jié)點(diǎn)序列進(jìn)行可視化。

        2.3.1 二維人體姿態(tài)估計(jì)實(shí)驗(yàn)

        為了突出太極拳動(dòng)作中重點(diǎn)關(guān)節(jié)的位置,本文利用堆疊沙漏網(wǎng)絡(luò)模型對(duì)得到太極拳關(guān)鍵幀圖像進(jìn)行二維關(guān)節(jié)點(diǎn)檢測(cè)。堆疊沙漏網(wǎng)絡(luò)輸出人體骨骼關(guān)節(jié)點(diǎn)熱力圖,熱力圖反映了輸入圖像中的像素點(diǎn)是骨骼關(guān)鍵點(diǎn)的可能性,即置信度。當(dāng)像素點(diǎn)為骨骼關(guān)節(jié)點(diǎn)時(shí),置信度為1.0,在熱力圖中,計(jì)算局部置信度最大值點(diǎn),輸出該點(diǎn)的位置,即為預(yù)測(cè)的人體骨骼關(guān)節(jié)點(diǎn)位置。通過(guò)對(duì)二維人體骨骼關(guān)節(jié)點(diǎn)進(jìn)行可視化得到二維人體姿態(tài),如圖7所示。

        2.3.2 三維人體姿態(tài)估計(jì)實(shí)驗(yàn)

        為了突出太極拳動(dòng)作中重點(diǎn)關(guān)節(jié)在空間中的位置和角度,本文利用Seq2Seq網(wǎng)絡(luò)模型對(duì)得到二維關(guān)節(jié)點(diǎn)序列進(jìn)行三維人體姿態(tài)估計(jì)。本文中對(duì)網(wǎng)絡(luò)進(jìn)行了100次迭代訓(xùn)練,并使用Adam優(yōu)化器以1-5的學(xué)習(xí)率訓(xùn)練網(wǎng)絡(luò),每次迭代以指數(shù)方式衰減。LSTM單元的權(quán)重由Xavier初始化器初始化。通過(guò)對(duì)訓(xùn)練集進(jìn)行交叉驗(yàn)證,將損失函數(shù)中2個(gè)超參數(shù)的值分別設(shè)置為1和5,時(shí)間平滑約束函數(shù)中,3個(gè)超參數(shù)的值分別設(shè)置為1,2.5和4。本文采用三維人體姿態(tài)估計(jì)常用的MPJPE (mean per joint postion error)作為評(píng)價(jià)指標(biāo),太極拳動(dòng)作數(shù)據(jù)集對(duì)訓(xùn)練過(guò)的網(wǎng)絡(luò)進(jìn)行再訓(xùn)練和微調(diào)前、后的結(jié)果見(jiàn)表1。

        圖6 關(guān)鍵幀序列

        Fig. 6 Key-frame sequence

        圖7 二維關(guān)節(jié)點(diǎn)序列可視化圖

        Fig. 7 2D joint point sequence visualization diagram

        表1 太極拳動(dòng)作數(shù)據(jù)集上的MPJE(mm)

        為使學(xué)員能夠清楚地觀察太極拳動(dòng)作,對(duì)網(wǎng)絡(luò)輸出的各個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)進(jìn)行可視化,可視化結(jié)果如圖8~10所示,圖中的第1行均為拆分太極拳動(dòng)作的關(guān)鍵幀圖像;第2行均為太極拳動(dòng)作幀圖像的二維人體骨骼關(guān)節(jié)點(diǎn)序列可視化圖;第3行均為太極拳動(dòng)作幀圖像在三維空間的人體骨骼關(guān)節(jié)點(diǎn)序列可視化圖。

        2.4 相似度計(jì)算實(shí)驗(yàn)

        為了使太極拳學(xué)員更好地了解自己的學(xué)習(xí)情況,改進(jìn)動(dòng)作,本文設(shè)計(jì)了太極拳動(dòng)作視頻相似度實(shí)驗(yàn)和關(guān)鍵幀圖像運(yùn)動(dòng)相似度計(jì)算實(shí)驗(yàn)。首先對(duì)輸入的學(xué)員動(dòng)作幀序列和對(duì)應(yīng)模板動(dòng)作幀序列進(jìn)行二維和三維關(guān)節(jié)點(diǎn)坐標(biāo)估計(jì),然后根據(jù)二維和三維關(guān)節(jié)點(diǎn)坐標(biāo)定義肢體段向量,對(duì)肢體段向量進(jìn)行二維和三維的相似度計(jì)算。不僅可以通過(guò)計(jì)算太極拳視頻相似度評(píng)估學(xué)員整體的學(xué)習(xí)效果,還可以通過(guò)太極拳動(dòng)作關(guān)鍵幀相似度了解具體動(dòng)作的標(biāo)準(zhǔn)程度,實(shí)驗(yàn)結(jié)果分別如圖11和圖12所示。由圖11可知,學(xué)員的整體學(xué)習(xí)情況欠佳,可通過(guò)關(guān)鍵幀相似度查看自己的不標(biāo)準(zhǔn)動(dòng)作并加以練習(xí),提升學(xué)習(xí)效果。由圖12(a)和(b)對(duì)比可以看出學(xué)員“腰椎-左髖”肢體段,即肢體段12前傾,“右髖-右膝”肢體段,即肢體段10彎曲度不夠,對(duì)應(yīng)圖12(c)和(d)中肢體段12和10的得分較低,說(shuō)明本文二維相似度計(jì)算方法的有效性。且由圖12(d)可知,學(xué)員“左髖-左膝”肢體段,即肢體段14在二維空間中的方向與模板相近,得分較高,但三維空間中與模板方向有一定差別,得分較低,說(shuō)明本文三維相似度計(jì)算方法的有效性。

        圖8 學(xué)員A三維關(guān)節(jié)點(diǎn)序列可視化圖

        圖9 學(xué)員B三維關(guān)節(jié)點(diǎn)序列可視化圖

        圖10 學(xué)員C三維關(guān)節(jié)點(diǎn)序列可視化圖

        圖11 視頻相似度實(shí)驗(yàn)((a)模板視頻;(b)學(xué)習(xí)視頻;(c)二維視頻相似度;(d)三維視頻相似度)

        圖12 關(guān)鍵幀相似度實(shí)驗(yàn)((a)模板動(dòng)作;(b)學(xué)員動(dòng)作;(c)二維相似度;(d)三維相似度)

        此外,本文還分別設(shè)計(jì)了對(duì)于同一動(dòng)作同一學(xué)員不同練習(xí)階段視頻的相似度對(duì)比實(shí)驗(yàn)以及同一太極拳動(dòng)作不同學(xué)員練習(xí)視頻的相似度對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖13和圖14所示。由圖13(b)可知在練習(xí)階段一學(xué)員“右肩-右肘”肢體段,即肢體段4高度較低,經(jīng)過(guò)練習(xí)后動(dòng)作標(biāo)準(zhǔn)度明顯提升,如圖13(e)所示。由圖14(b)知學(xué)員A“右肩-右肘”肢體段,即肢體段4下垂,得分較低,由圖14(e)可知學(xué)員B“右髖-右膝”肢體段,即肢體段10彎曲方向錯(cuò)誤,得分較低。

        圖13 同一學(xué)員不同練習(xí)階段相似度對(duì)比實(shí)驗(yàn)((a)模板動(dòng)作;(b)練習(xí)階段一;(c)階段一,二維相似度;(d)階段一,三維相似度;(e)練習(xí)階段二;(f)階段二,二維相似度;(g)階段二,三維相似度)

        圖14 不同學(xué)員同一動(dòng)作相似度對(duì)比實(shí)驗(yàn)((a)模板動(dòng)作;(b)學(xué)員A動(dòng)作;(c)學(xué)員A,二維相似度;(d)學(xué)員A,三維相似度;(e)學(xué)員B動(dòng)作;(f)學(xué)員B,二維相似度;(g)學(xué)員B,三維相似度)

        2.5 太極拳學(xué)習(xí)系統(tǒng)軟件

        為更好地滿足太極拳學(xué)員們學(xué)習(xí)的便捷性和體驗(yàn)感,本文設(shè)計(jì)并實(shí)現(xiàn)了太極拳學(xué)習(xí)系統(tǒng)軟件。在使用太極拳學(xué)習(xí)系統(tǒng)軟件時(shí),首先簡(jiǎn)單配置系統(tǒng)環(huán)境并初始化,連接單目攝像頭。用戶開(kāi)啟太極拳學(xué)習(xí)系統(tǒng)軟件后進(jìn)入系統(tǒng)首頁(yè),如圖15(a)所示,選擇查看操作說(shuō)明或開(kāi)始。點(diǎn)擊“操作說(shuō)明”按鈕查看該系統(tǒng)各種功能使用方法介紹,點(diǎn)擊“開(kāi)始”按鈕進(jìn)入系統(tǒng)的功能主界面。

        圖15 太極拳學(xué)習(xí)與反饋應(yīng)用系統(tǒng)截圖((a)系統(tǒng)首頁(yè)圖;(b)二維姿態(tài)估計(jì)圖;(c)三維姿態(tài)估計(jì)圖;(d)二維相似度得分圖;(e)三維相似度得分圖)

        功能主界面包括5個(gè)模塊,即視頻加載模塊、動(dòng)作學(xué)習(xí)模塊、姿態(tài)估計(jì)模塊、相似度計(jì)算模塊和人機(jī)交互模塊。視頻加載模塊分為2大部分,分別為模板視頻加載和用戶視頻加載,供用戶進(jìn)行有針對(duì)性、選擇性地學(xué)習(xí)。動(dòng)作學(xué)習(xí)模塊載入用戶感興趣的模板視頻,并將用戶跟練的動(dòng)作視頻保存。姿態(tài)估計(jì)模塊對(duì)用戶上傳的太極拳動(dòng)作學(xué)習(xí)視頻及對(duì)應(yīng)模板視頻進(jìn)行人體姿態(tài)估計(jì),并在用戶界面中展示,如圖15(b)和(c)所示。相似度計(jì)算模塊采用余弦相似度計(jì)算方法對(duì)用戶視頻的動(dòng)作關(guān)鍵幀進(jìn)行相似度計(jì)算,并將相似度在用戶界面中反饋給用戶,如圖15(d)和(e)所示。用戶可選擇瀏覽自己每個(gè)部位的相似度計(jì)算結(jié)果,以更好地改進(jìn)身體各部位的動(dòng)作。人機(jī)交互模塊通過(guò)增加操作音效、信息提示等提升用戶的體驗(yàn)感受。

        征集了300余名志愿者參與了該系統(tǒng)的應(yīng)用與測(cè)試。經(jīng)過(guò)統(tǒng)計(jì)分析,超過(guò)98%的志愿者認(rèn)為本文設(shè)計(jì)的軟件系統(tǒng)具有很好地交互性,可以有效地提升太極拳學(xué)習(xí)效果。同時(shí)還可以提供評(píng)分和反饋,更容易激發(fā)學(xué)員學(xué)習(xí)興趣。尤其是對(duì)太極拳動(dòng)作視頻的關(guān)鍵幀序列進(jìn)行人體姿態(tài)估計(jì),可以讓學(xué)員清楚地觀察太極拳動(dòng)作中的骨骼關(guān)節(jié)位置、方向、角度等信息,方便用戶提升學(xué)習(xí)效果。

        3 結(jié)束語(yǔ)

        針對(duì)當(dāng)前線上太極拳學(xué)習(xí)缺乏自然交互性和學(xué)習(xí)反饋的問(wèn)題,本文提出了面向太極拳學(xué)習(xí)的人體姿態(tài)估計(jì)及相似度計(jì)算方法。首先逐幀讀取輸入的太極拳動(dòng)作視頻,對(duì)相鄰2幀圖像進(jìn)行差分運(yùn)算,通過(guò)尋找局部最大值的方法提取視頻關(guān)鍵幀。然后利用堆疊沙漏網(wǎng)絡(luò)模型對(duì)關(guān)鍵幀圖像在不同尺度上的特征進(jìn)行提取,并將其輸入到卷積層,預(yù)測(cè)骨骼關(guān)節(jié)點(diǎn)在每個(gè)像素上存在的概率,輸出關(guān)節(jié)點(diǎn)熱力圖,得到二維關(guān)節(jié)點(diǎn)坐標(biāo)。接著使用LSTM網(wǎng)絡(luò)構(gòu)建Seq2Seq網(wǎng)絡(luò)模型的解碼器和編碼器單元,對(duì)反向輸入的幀二維關(guān)節(jié)點(diǎn)序列進(jìn)行二維到三維的映射,預(yù)測(cè)三維關(guān)節(jié)位置坐標(biāo),并對(duì)估計(jì)的三維關(guān)節(jié)點(diǎn)序列施加時(shí)間平滑約束。最后,定義肢體段向量,利用得到的二維和三維關(guān)節(jié)點(diǎn)坐標(biāo),對(duì)模板姿態(tài)與學(xué)員姿態(tài)的相同肢體段向量進(jìn)行二維和三維余弦相似度計(jì)算,通過(guò)夾角余弦值間接判斷2個(gè)對(duì)比姿態(tài)相同肢體間的夾角大小,從而得到模板姿態(tài)與學(xué)員姿態(tài)的相似度,獲取各肢體段的學(xué)習(xí)分?jǐn)?shù),使學(xué)員發(fā)現(xiàn)自身動(dòng)作的不足之處,并通過(guò)練習(xí)提升學(xué)習(xí)效果。本文最終設(shè)計(jì)實(shí)現(xiàn)了該人體姿態(tài)估計(jì)及相似度計(jì)算方法,并基于該方法,開(kāi)發(fā)了一款相關(guān)設(shè)備簡(jiǎn)便、用戶體驗(yàn)感強(qiáng)的太極拳學(xué)習(xí)與反饋應(yīng)用系統(tǒng),并在實(shí)際中應(yīng)用。

        后續(xù)研究?jī)?nèi)容包括實(shí)現(xiàn)移動(dòng)端的太極拳學(xué)習(xí)與反饋應(yīng)用系統(tǒng),并進(jìn)行推廣應(yīng)用。

        [1] 劉嘉宇, 陳平. 基于關(guān)鍵幀定位和時(shí)空?qǐng)D卷積的異常行為識(shí)別[J]. 機(jī)械與電子, 2022, 40(1): 48-53, 58.

        LIU J Y, CHEN P. Abnormal behavior recognition based on key frame location and spatial-temporal graph convolution[J]. Machinery & Electronics, 2022, 40(1): 48-53, 58 (in Chinese).

        [2] HE J, ZHANG C, HE X L, et al. Visual Recognition of traffic police gestures with convolutional pose machine and handcrafted features[J]. Neurocomputing, 2020, 390: 248-259.

        [3] 張顯坤, 張榮芬, 劉宇紅. 基于二次生成對(duì)抗的人體姿態(tài)估計(jì)[J]. 激光與光電子學(xué)進(jìn)展, 2020, 57(20): 201509.

        ZHANG X K, ZHANG R F, LIU Y H. Human pose estimation based on secondary generation adversary[J]. Laser & Optoelectronics Progress, 2020, 57(20): 201509 (in Chinese).

        [4] GLAS S, KIESEL R, KOLKMANN S, et al. Intraday renewable electricity trading: advanced modeling and optimal control[M]//Progress in Industrial Mathematics at ECMI 2018. Heidelberg: Springer, 2019: 469-475.

        [5] 馮高敏, 劉雨佳. 基于視覺(jué)的對(duì)人員在崗行為分析的算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2021, 42(6): 1668-1676.

        FENG G M, LIU Y J. Vision-based algorithm for analyzing behaviors of personnel on duty[J]. Computer Engineering and Design, 2021, 42(6): 1668-1676 (in Chinese).

        [6] 連仁明, 劉穎, 于萍, 等. 基于視頻的人體姿態(tài)檢測(cè)方法及其應(yīng)用綜述[J]. 電腦編程技巧與維護(hù), 2019(9): 127-129.

        LIAN R M, LIU Y, YU P, et al. Overview of video-based human posture detection methods and their applications[J]. Computer Programming Skills & Maintenance, 2019(9): 127-129 (in Chinese).

        [7] 周凱燁. 基于深度學(xué)習(xí)的健身動(dòng)作識(shí)別系統(tǒng)[J]. 工業(yè)控制計(jì)算機(jī), 2021, 34(6): 37-39.

        ZHOU K Y. Fitness motion recognition system based on deep learning[J]. Industrial Control Computer, 2021, 34(6): 37-39 (in Chinese).

        [8] TINA, SHARMA A K, TOMAR S, et al. Various approaches of human activity recognition: a review[C]//2021 5th International Conference on Computing Methodologies and Communication. New York: IEEE Press, 2021: 1668-1676.

        [9] TOSHEV A, SZEGEDY C. DeepPose: human pose estimation via deep neural networks[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 1653-1660.

        [10] WEI S H, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 4724-4732.

        [11] CAO Z, SIMON T, WEI S H, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1302-1310.

        [12] NEWELL A, YANG K Y, DENG J. Stacked hourglass networks for human pose estimation[C]//2016 European Conference on Computer Vision. Heidelberg: Springer, 2016, 483-499.

        [13] FANG H S, XIE S Q, TAI Y W, et al. RMPE: regional multi-person pose estimation[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2353-2362.

        [14] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5686-5696.

        [15] 沈櫟, 陳瑩. 帶特征監(jiān)控的高維信息編解碼端到端無(wú)標(biāo)記人體姿態(tài)估計(jì)網(wǎng)絡(luò)[J]. 電子學(xué)報(bào), 2020, 48(8): 1528-1537.

        SHEN L, CHEN Y. Feature monitored high-dimension endecoder net for end to end markless human pose estimation[J]. Acta Electronica Sinica, 2020, 48(8): 1528-1537 (in Chinese).

        [16] XU J, WAN H, CHEN Z Y. Sharp skirt bandpass filter-integrated single-pole double-throw switch with absorptive OFF-state[J]. IEEE Transactions on Microwave Theory and Techniques, 2019, 67(2): 704-711.

        [17] 馮韜. 基于單目視覺(jué)的人體三維姿態(tài)估計(jì)[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2019.

        FENG T. 3D human pose estimation based on monocular view[D]. Harbin: Harbin Institute of Technology, 2019 (in Chinese).

        [18] 范書(shū)瑞, 賈雅亭, 劉晶花. 基于三軸加速度傳感器人體姿態(tài)識(shí)別的特征選擇[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2019, 37(3): 427-436.

        FAN S R, JIA Y T, LIU J H. Feature selection of human activity recognition based on tri-axial accelerometer[J]. Journal of Applied Sciences, 2019, 37(3): 427-436 (in Chinese).

        [19] KANAZAWA A, BLACK M J, JACOBS D W, et al. End-to-end recovery of human shape and pose[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7122-7131.

        [20] MEHTA D, SRIDHAR S, SOTNYCHENKO O, et al. VNect[J]. ACM Transactions on Graphics, 2017, 36(4): 1-14.

        [21] MARTINEZ J, HOSSAIN R, ROMERO J, et al. A simple yet effective baseline for 3D human pose estimation[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2659-2668.

        [22] LUO Y, REN J, WANG Z X, et al. LSTM pose machines[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 5207-5215.

        [23] HOSSAIN M R I, LITTLE J J. Exploiting temporal information for 3D human pose estimation[C]//2018 European Conference on Computer Vision. Heidelberg: Springer, 2018, 69-86.

        [24] 解輝. 基于視覺(jué)的人體動(dòng)作矯正系統(tǒng)[D]. 濟(jì)南: 山東師范大學(xué), 2020.

        XIE H. Vision-based human motion correction system[D]. Jinan: Shandong Normal University, 2020 (in Chinese).

        [25] 楊潤(rùn)宇. 基于深度學(xué)習(xí)的視頻動(dòng)作相似度模型的研究與實(shí)現(xiàn)[D]. 北京: 北京郵電大學(xué), 2020.

        YANG R Y. Research and implementation of video action similarity model based on deep learning[D]. Beijing: Beijing University of Posts and Telecommunications, 2020 (in Chinese).

        [26] 楊睿. 基于姿態(tài)識(shí)別的禮儀動(dòng)作相似度評(píng)估[D]. 上海: 東華大學(xué), 2021.

        YANG R. Etiquette action similarity evaluation based on posture recognition[D]. Shanghai: Donghua University, 2021 (in Chinese).

        Human pose estimation and similarity calculation for Tai Chi learning

        CAI Xing-quan, HUO Yu-qing, LI Fa-jian, SUN Hai-yan

        (School of Information Science and Technology, North China University of Technology, Beijing 100144, China)

        To address the current problems of poor natural interactivity and lack of learning feedback in the case of online Tai Chi learning, this paper proposed a method of human pose estimation and similarity calculation for Tai Chi learning. First, the proposed method extracted the key-frame images from the Tai Chi video using an inter-frame difference method. Second, our method employed the stacked hourglass network model to perform two-dimensional joint-point detection on the key-frame images. Third, a long short-term memory (LSTM) network combined with the Sequence-to-Sequence network model was used to map the detected two-dimensional joint-point sequence from two-dimensional to three-dimensional, thus predicting the position coordinates of the three-dimensional joint-points. Finally, the two-dimensional and three-dimensional cosine similarities of the estimated human posture were calculated. Using this method, this paper designed and developed a Tai Chi learning and feedback application system with simple equipment and strong user experience, which was applied to real scenarios. This system could detect whether the overall movements of Tai Chi students and the movements of each body segment were standard, with feedback provided. Students could practice and improve non-standard movements based on the feedback, so as to achieve the purpose of improving the learning effect.

        Tai Chi learning; human pose estimation; inter-frame difference; stacked hourglass networks; cosine similarity

        26 November,2021;

        National Natural Science Foundation of China (61503005); Social Science Foundation of Beijing (19YTC043, 20YTB011)

        CAI Xing-quan (1980-), professor, Ph.D. His main research interests cover virtual reality, human-computer interaction, deep learning, etc. E-mail:xingquancai@126.com

        TP 391

        10.11996/JG.j.2095-302X.2022040695

        A

        2095-302X(2022)04-0695-12

        2021-11-26;

        2022-01-28

        28 January,2022

        國(guó)家自然科學(xué)基金項(xiàng)目(61503005);北京市社會(huì)科學(xué)基金項(xiàng)目(19YTC043,20YTB011)

        蔡興泉(1980-),男,教授,博士。主要研究方向?yàn)樘摂M現(xiàn)實(shí)、人機(jī)互動(dòng)、深度學(xué)習(xí)等。E-mail:xingquancai@126.com

        孫海燕(1980-),女,講師,博士。主要研究方向?yàn)樘摂M現(xiàn)實(shí)、深度學(xué)習(xí)等。E-mail:sunhaiyan80@hotmail.com

        SUN Hai-yan (1980-), lecturer, Ph.D. Her main research interests cover virtual reality, deep learning, etc. E-mail:sunhaiyan80@hotmail.com

        猜你喜歡
        太極拳動(dòng)作
        太極拳練習(xí)如何注意呼吸養(yǎng)生
        少林與太極(2023年5期)2023-07-14 03:01:50
        練習(xí)太極拳的感悟
        少林與太極(2023年5期)2023-07-14 03:01:48
        練太極拳為什么要一門(mén)深入
        少林與太極(2023年3期)2023-07-14 02:49:56
        太極拳:入靜和放松的養(yǎng)生效果
        下一個(gè)動(dòng)作
        太極拳的“教”與“學(xué)”應(yīng)“以點(diǎn)帶面”
        動(dòng)作描寫(xiě)要具體
        畫(huà)動(dòng)作
        讓動(dòng)作“活”起來(lái)
        動(dòng)作描寫(xiě)不可少
        妺妺窝人体色www在线直播| 久久综合亚洲色一区二区三区| 手机看片福利一区二区三区| 亚洲区小说区图片区| 玩弄放荡人妻一区二区三区| 白白色发布在线播放国产| 亚洲精品在线观看自拍| 日韩熟女系列中文字幕 | 米奇777四色精品人人爽| 国产精品无码无片在线观看| 日韩av在线不卡观看| 国产一品二品精品在线| 亚洲精品无码国产| 好爽受不了了要高潮了av| 久久婷婷色香五月综合激激情| 亚洲中文字幕人妻久久| 色偷偷av男人的天堂| 无码AV高潮喷水无码专区线| 亚洲精品在线观看自拍| 伊人久久大香线蕉午夜av | 亚洲性码不卡视频在线| 亚洲精品一品区二品区三区| 欧美一区二区三区久久综| 91免费在线| 中文字幕人妻乱码在线| 成熟了的熟妇毛茸茸| 天天综合亚洲色在线精品| 国产成人一区二区三区高清| 96中文字幕一区二区| 亚洲综合网站久久久| 亚洲精品国产av天美传媒| 国产成人av综合亚洲色欲| 国产激情在线观看视频网址| 国产精品无码一区二区三级| 亚洲乱码国产一区三区| 亚洲图片第二页| 国产一区二区三区不卡在线观看 | 乱子伦av无码中文字幕| 亚洲av高清一区三区三区| 免费又黄又爽又色的视频| 欧美精品偷自拍另类在线观看|