王 帥,姚翠莉,楊雨龍,劉 昊,魏 維
(1. 大連理工大學(xué)電子信息與電氣工程學(xué)部,大連 116024;2. 大連理工大學(xué)創(chuàng)新創(chuàng)業(yè)學(xué)院,大連 116024;3.大連理工大學(xué)體育與健康學(xué)院,大連 116024)
運動是居民日常生活中鍛煉身體的主要方式,同時國家體育總局下發(fā)《關(guān)于大力推廣居家科學(xué)健身方法的通知》[1]以及冰雪運動的推廣等號召,均體現(xiàn)出運動是當(dāng)今時代的主題之一。近十年隨著國家對于傳統(tǒng)武術(shù)的大力推廣,武術(shù)愛好者數(shù)量不斷激增,同時近年來受疫情影響,人們對于居家健身的需求不斷增加,運動空間需求較小的武術(shù)運動成為人們的理想選擇之一。
傳統(tǒng)武術(shù)指導(dǎo)需要專業(yè)教練,這種人工手段已經(jīng)無法滿足多數(shù)人對于運動的學(xué)習(xí)需求。利用神經(jīng)網(wǎng)絡(luò)、計算機視覺相關(guān)技術(shù)可以在體育領(lǐng)域中對人體運動姿態(tài)進行深入剖析,因此無論是為運動員動作識別與矯正提示提供科學(xué)參考,還是對于個人居家武術(shù)健身的科學(xué)性,使用人工智能技術(shù)實現(xiàn)此類功能已成為大勢所趨。
目前相關(guān)研究中姿態(tài)識別任務(wù)的應(yīng)用化還處于初級階段,基本只停留在識別骨骼圖本身,以姿態(tài)識別進行動作分類為主[2-8],例如使用姿態(tài)估計來預(yù)測目標(biāo)是否進行特定動作,評價方式較為單一,缺少有效的動作評分方式[9],缺少對武術(shù)及其他體育項目的專業(yè)適應(yīng)性,該類動作評價任務(wù)仍存在較大的研究空間。
本文使用AlphaPose 模型[10]提取骨骼點,然后對動作相關(guān)骨胳點進行時間和空間序列匹配度計算,針對測試者動作進行骨胳向量繪制,并依據(jù)學(xué)習(xí)得到的評分擬合算法,給出每一時刻的動作分數(shù)。
本實驗設(shè)計中主要工作有:設(shè)計有效的動作評價方式;將遷移向量與被測試目標(biāo)身體骨骼比例相匹配;設(shè)計了多體任務(wù)中的同幀動作向量計算模型;對于具有預(yù)存儲模型的單體評價與矯正提示任務(wù),解決了標(biāo)準(zhǔn)動作向量與被測試目標(biāo)動作向量之間的時間序列和空間序列匹配問題。
AlphaPose 模型使用區(qū)域多人姿態(tài)估計框架,該框架主要由三部分組成:對稱空間變換網(wǎng)絡(luò)、參數(shù)化姿勢非極大值抑制和姿勢引導(dǎo)區(qū)域發(fā)生器。該框架改善了基于單人姿態(tài)估計的人體姿態(tài)估計算法的性能。
該框架設(shè)計了一個新的對稱空間變換網(wǎng)絡(luò),與單人姿態(tài)估計網(wǎng)絡(luò)相連,從一個不準(zhǔn)確的目標(biāo)框中提取高質(zhì)量的目標(biāo)區(qū)域;針對冗余檢測問題,引入了參數(shù)化姿態(tài)非極大值抑制方法,通過使用新的姿態(tài)距離計算方法來比較姿態(tài)的相似性進而消除冗余姿態(tài);提出了一種新型的姿態(tài)引導(dǎo)數(shù)據(jù)生成器,通過學(xué)習(xí)不同姿勢下人體檢測器的輸出分布,模擬人體目標(biāo)框的生成,從而產(chǎn)生大量訓(xùn)練樣本。
該框架的流程為:
(1)使用人體目標(biāo)檢測器獲得人體目標(biāo)框。
(2)將人體目標(biāo)框送入“對稱空間變換網(wǎng)絡(luò)+單人姿態(tài)估計”模塊,自動生成姿態(tài)估計。
(3)生成的姿態(tài)估計由參數(shù)化姿態(tài)非極大值抑制進行優(yōu)化,消除冗余的姿態(tài)估計結(jié)果。
該框架在多人姿態(tài)估計任務(wù)中的定位、識別方面誤差較小,雖然使用兩階段姿態(tài)估計方式會對檢測速度造成一定影響,但相較于單階段模型,該模型可以做到相對兼顧識別的準(zhǔn)確率和實時性,更適合作為武術(shù)動作的姿態(tài)估計模型。
武術(shù)評價任務(wù)的整體流程如圖1 所示,包括骨骼向量提取與表示、任務(wù)分類和分數(shù)函數(shù)擬合。
圖1 武術(shù)評價任務(wù)整體流程
使用AlphaPose 模型提取武術(shù)練習(xí)者的骨骼向量。該信息被分為兩級儲存,第一級為骨骼點對,其中第一點為起始點,第二點為終止點。第二級信息由字典格式儲存骨骼點對應(yīng)的實際像素點位置,以便在后續(xù)的匹配任務(wù)和分數(shù)計算中進行計算。
武術(shù)評價要求能夠直觀表示和輔助矯正被測試目標(biāo)的武術(shù)動作,因此需要將標(biāo)準(zhǔn)動作向量遷移至被測試目標(biāo)對應(yīng)動作位置進行繪制,該過程需要選擇一個關(guān)節(jié)點作為骨骼向量遷移的對齊匹配中心點。本文實驗了兩種方式,第一種是以頭部作為中心,整體進行遷移。第二種是通過對所有關(guān)鍵骨骼點進行加和求平均值來計算匹配中心點。在實際使用中,由于二維圖像中骨骼向量比例的變化和三維世界不同,缺少了深度信息,在具有肢體前后重疊的動作中計算位置與實際位置偏差較為嚴重,很難如理想狀態(tài)下將匹配中心點定位在被測試目標(biāo)的正中心處,因此最終選擇以頭部點位為起始點。在得到起始點位后,由該點位進行延伸,按照骨骼點對中儲存的順序,依次在目標(biāo)人物對應(yīng)位置繪制標(biāo)準(zhǔn)動作骨骼向量。
針對骨骼向量的長度表示,本文設(shè)計了兩種方式。第一種是直接遷移,即不改變基準(zhǔn)目標(biāo)的骨骼向量長度信息,直接遷移至被測試目標(biāo)。由于被測試目標(biāo)和基準(zhǔn)目標(biāo)骨骼向量的長度存在差異,會對最終的分數(shù)計算造成影響,因此第二種方式是對骨骼向量長度進行比例自適應(yīng)調(diào)整,即將標(biāo)準(zhǔn)骨骼向量乘上一個比例系數(shù),以此來消除標(biāo)準(zhǔn)骨骼向量長度與被測試目標(biāo)骨骼向量長度不匹配的問題。
式中:leni為被測試目標(biāo)人物i的肢體長度;lenj為基準(zhǔn)動作者j 的肢體長度;εx,i和εy,i分別表示被測試目標(biāo)肢體起始骨骼點和終止骨骼點沿著x和y方向變化的像素值;εx,j和εy,j分別表示基準(zhǔn)目標(biāo)肢體起始骨骼點和終止骨骼點沿著x和y方向變化的像素值。
在動作匹配計算模型中,如果被測試目標(biāo)動作錯誤較為嚴重,和標(biāo)準(zhǔn)動作的計算過程產(chǎn)生較大誤差(例如標(biāo)準(zhǔn)動作是向下微伸,而被測試目標(biāo)為向下伸張),此時由于深度信息未被計算在內(nèi),標(biāo)準(zhǔn)動作向量長度與被測試目標(biāo)動作向量長度之比所得系數(shù)將受到較為嚴重的影響。
針對這一問題,本文采用了一個權(quán)衡的解決方案。在大多數(shù)武術(shù)動作或運動中,第一幀中標(biāo)準(zhǔn)動作與被測試目標(biāo)動作一般來說是差距最小的狀態(tài),記錄此時的比例值來作為整體比例系數(shù),能夠在一定程度上緩解這個問題。
多體評價任務(wù),是在圖像中存在可以代表標(biāo)準(zhǔn)武術(shù)動作的目標(biāo)人物的任務(wù),即其中一個人物作為教練員(基準(zhǔn)目標(biāo)),其他人物作為學(xué)員(被測試目標(biāo)),在兩類目標(biāo)之間進行骨骼向量遷移和分數(shù)評價。
本文實驗將最右側(cè)目標(biāo)作為基準(zhǔn)目標(biāo),其他目標(biāo)與其進行動作匹配計算,在實際使用中,也可以將該選擇設(shè)計為超參,來使其他位置的目標(biāo)作為基準(zhǔn)。也可以選取一定的約束,例如以總?cè)藬?shù)除二取整選取基準(zhǔn)目標(biāo),使標(biāo)準(zhǔn)動作人物定位在中心。
在該類任務(wù)中,本文采取同幀計算,即在視頻相同的一幀內(nèi)進行被測試目標(biāo)與標(biāo)準(zhǔn)動作目標(biāo)的相關(guān)計算。這種同幀計算任務(wù)可以滿足某些特殊的需求,例如某些難以找到標(biāo)準(zhǔn)動作視頻的武術(shù)或運動項目,同時對于某些團體項目,該方案可以便捷地計算武術(shù)團隊的整體協(xié)調(diào)度。
單體評價任務(wù),指的是圖像中沒有基準(zhǔn)目標(biāo)而只有被測試目標(biāo)的評價任務(wù)。此時需要在標(biāo)準(zhǔn)動作目標(biāo)人物的武術(shù)動作視頻中提取所需的骨骼向量數(shù)據(jù)文件,并與被測試目標(biāo)即輸入視頻中的目標(biāo)人物進行相關(guān)計算。
對于此類任務(wù),由于輸入視頻與提取出的標(biāo)準(zhǔn)動作向量數(shù)據(jù)所對應(yīng)的原視頻并未經(jīng)過對齊,二者在時間上沒有必然聯(lián)系,本任務(wù)需要避免細微的時間差異導(dǎo)致動作匹配過程發(fā)生嚴重的錯位,從而導(dǎo)致分數(shù)評價出現(xiàn)較大偏差。針對這一問題,本文對時間序列進行修改,計算輸入視頻在當(dāng)前時刻的各肢體動作向量,與一定時間范圍內(nèi)每一時刻的標(biāo)準(zhǔn)動作向量的誤差關(guān)系,選擇誤差總量最小的時刻作為對齊時刻,以此進行相關(guān)計算,詳細流程見算法1。
其中:T表示輸入視頻當(dāng)前時刻,x表示時序匹配的前后時間范圍,Ls表示歐氏距離和,Ls_m表示歐氏距離最小誤差之和,t表示當(dāng)前標(biāo)準(zhǔn)視頻對應(yīng)的時刻。
得分函數(shù)需要一個參數(shù)d作為擬合函數(shù)的自變量,本文使用歐氏距離和向量方向兩種方式進行試驗。
計算被測目標(biāo)動作向量與標(biāo)準(zhǔn)動作向量之間誤差值的歐氏距離,如公式(3)所示。在評價計算過程中,若未采用身體骨骼向量長度進行等比例自適應(yīng)調(diào)整,則會產(chǎn)生由于肢體長度不同而導(dǎo)致的誤差。因此使用相同的技巧,即取第一幀圖像,也就是雙方動作差距較小的狀態(tài),為本次評價中的人物骨骼向量長度提供一個校準(zhǔn)值。
式中:l_pair的下標(biāo)i代表第i個骨骼點對,也就是第i個肢體動作,0、1分別代表被測試目標(biāo)和基準(zhǔn)目標(biāo),pixel函數(shù)表示取對應(yīng)肢體動作的像素變化值。
計算雙方動作向量間角度的差值,在一定程度上緩解了使用歐氏距離時遇到的長度比例問題,但角度計算由于缺失了深度信息,對于處于同一角度的動作,事實上可以對應(yīng)很多不同的深度情況,這些情況難以區(qū)分,如果想要估算深度,則需要由骨骼向量長度進行反推。
式中:ɑ和b分別表示基準(zhǔn)目標(biāo)和被測試目標(biāo)。
在實際應(yīng)用中,前置肢體(例如大臂)發(fā)生錯誤而后置肢體(例如小臂)動作準(zhǔn)確無誤的情況,相較于后置肢體發(fā)生錯誤而前置肢體動作準(zhǔn)確無誤的情況,會對被測試目標(biāo)的評價造成更大的消極影響,因此需要為每個部位提供不同的權(quán)重系數(shù)。
針對運動中每個動作都有微小差距和某部分肢體動作出現(xiàn)嚴重偏差這兩種情況相比,其差值總和可能相同,但前者對于評價者的感官影響和評價均優(yōu)于后者,這意味著動作誤差在數(shù)值上的變化與評價人觀感與評價上的變化并非線性匹配,因此誤差值變化與分數(shù)變化是一個非線性的關(guān)系,也就是一個梯度單調(diào)遞增的擬合函數(shù)。
針對本文武術(shù)項目,對訓(xùn)練集中的任務(wù)抽取足量的時間點,由大連理工大學(xué)武術(shù)社團的同學(xué)和老師對其進行人工標(biāo)注,得到感官評價分數(shù),同時計算這些時刻的誤差值,即可得到動作誤差值與其對應(yīng)的分數(shù),以此擬合得分函數(shù)。根據(jù)得到的擬合曲線進行適當(dāng)?shù)娜斯ふ{(diào)整,得到對應(yīng)各肢體動作的最終擬合函數(shù)。為防止抽取點數(shù)不足而導(dǎo)致擬合關(guān)系變?yōu)榫€性,在實驗中使用e作為底來進行指數(shù)函數(shù)擬合,最終得到的得分函數(shù)形如式(6)所示:
其中:μi為擬合的比例系數(shù),ki為各部位權(quán)重系數(shù),εi為每一項的線性補償。
多體任務(wù)和單體任務(wù)的測試結(jié)果如圖2、圖3 所示。其中圖2 展示的多體評價任務(wù)使用了等比例自適應(yīng)調(diào)整方法。圖3 處展示的單體評價任務(wù),沒有使用等比例自適應(yīng)調(diào)整方法,對比多體任務(wù),此時繪制的標(biāo)準(zhǔn)骨骼向量與被測試目標(biāo)的骨骼向量長度并不完全匹配。根據(jù)圖3所示圖片可以看出,即使輸入視頻與預(yù)存視頻并未直接進行對齊,經(jīng)過時序匹配算法后,被測試目標(biāo)處繪制的標(biāo)準(zhǔn)動作向量仍可以比較接近此刻被測試目標(biāo)的動作,說明使用時序匹配算法能夠緩解動作難以對齊這一問題。在下面的消融實驗中,本文將定量比較這兩種算法的效果。
圖2 多體評價任務(wù)測試效果(使用骨骼向量長度等比例自適應(yīng))
圖3 單體評價任務(wù)測試效果(使用時序匹配算法)
多體任務(wù)、單體任務(wù)的驗證分別使用如圖2、圖3 中截圖所示的完整視頻(分數(shù)擬合的訓(xùn)練過程使用同類武術(shù)動作的其他自制視頻),在得到完整的評分視頻后進行抽樣并對抽樣點進行人為打分標(biāo)注。對于多體任務(wù)進行等比例自適應(yīng)方法的效果驗證,對于單體任務(wù)進行時序匹配算法的效果驗證。分數(shù)擬合消融實驗結(jié)果見表1。
表1 分數(shù)擬合消融實驗結(jié)果
本文成功將動作評價任務(wù)的研究工作由分類任務(wù)轉(zhuǎn)化為更精確的回歸任務(wù),使用自制的訓(xùn)練集(用于擬合曲線)和測試集(用于驗證算法有效性)獲得相應(yīng)武術(shù)動作的分數(shù)擬合函數(shù),設(shè)計并驗證了骨骼向量長度等比例自適應(yīng)和時間序列匹配算法的有效性,為以武術(shù)動作評價為例的各類運動提供便捷有效的智能動作評價和輔助矯正功能。