常 麗 萍
(1.溫州大學(xué),浙江 溫州 325035;2.阜陽幼兒師范高等??茖W(xué)校,安徽 阜陽 236015)
人體動作姿態(tài)估計(jì)技術(shù)[1]分為體育動作識別與生活動作識別兩方面,其中體育動作包括射箭、足球、游泳等人體動作的估計(jì),也包括一些生活動作如洗菜、切菜等人體動作的估計(jì)。然而對舞蹈動作姿態(tài)估計(jì)的研究卻較少,這主要是由于舞蹈的表現(xiàn)形式十分復(fù)雜,有著多樣化的肢體動作,不同舞蹈種類中動作差異又很大,同時舞蹈中的動作幅度也較大,很多動作都需要迅速完成,因此舞蹈動作姿態(tài)估計(jì)的難度很大。近年來,舞蹈成為一種十分熱門的藝術(shù),受到年輕人的喜愛,同時人體動作姿態(tài)估計(jì)的相關(guān)研究也在進(jìn)行場景與復(fù)雜度方面的拓展[2],使舞蹈動作姿態(tài)估計(jì)問題受到多方關(guān)注。
舞蹈姿態(tài)估計(jì)方向的研究屬于專業(yè)動作的研究,其研究能夠?qū)崿F(xiàn)人體動作姿態(tài)估計(jì)領(lǐng)域研究成果的補(bǔ)充,在該研究中,不同學(xué)者的研究方向有很大差異,包括幀序列分割、動作識別等。其中楊紅紅等[3]學(xué)者以關(guān)節(jié)點(diǎn)幾何關(guān)系為依據(jù)提出一種層級姿態(tài)估計(jì)模型,經(jīng)測試該模型的動作姿態(tài)估計(jì)效果較好。L.Truppa等[4]提出一種新的基于慣性測量單元的傳感器融合算法,該算法包含一個自適應(yīng)在線偏差捕獲模塊,在10名瑜伽專家練習(xí)者執(zhí)行敬禮序列的過程中,對所提出傳感器的運(yùn)動捕捉準(zhǔn)確性進(jìn)行了測試。H.Ahn等[5]學(xué)者提出了能夠?yàn)榻o定音樂生成一系列三維人體舞蹈姿勢的框架,該框架由3部分組成:音樂特征編碼器、姿勢生成器和音樂流派分類器,實(shí)驗(yàn)結(jié)果表明,該方法可以根據(jù)給定的音樂生成舞蹈動作??紤]到舞蹈表現(xiàn)形式復(fù)雜,肢體動作較多,為優(yōu)化舞蹈規(guī)范動作姿態(tài)估計(jì)效果,現(xiàn)綜合以上研究成果,提出基于多尺度特征融合技術(shù)的舞蹈規(guī)范動作姿態(tài)估計(jì)方法。多尺度特征融合技術(shù)可以融合多方面的舞蹈規(guī)范動作特征,提高姿態(tài)估計(jì)效果。在研究過程中,在多尺度特征融合表示舞蹈規(guī)范動作的基礎(chǔ)上,分割動作序列,分割視頻前景后實(shí)現(xiàn)動作姿態(tài)估計(jì),最后通過實(shí)驗(yàn)驗(yàn)證了此次研究具有較好的姿態(tài)估計(jì)效果。
在舞蹈動作過程中,人體的骨骼與關(guān)節(jié)尺度會出現(xiàn)大幅度變化,這就需要利用像素(pixel-wise)級關(guān)節(jié)點(diǎn)估計(jì)來完成舞蹈動作的姿態(tài)估計(jì)任務(wù)。在此過程中分別需要利用像素空間中的高層與低層特征,實(shí)現(xiàn)舞蹈動作中關(guān)節(jié)點(diǎn)定位,從而完成整個舞蹈動作的姿態(tài)估計(jì)過程。本文提出基于多尺度特征融合的舞蹈規(guī)范動作姿態(tài)估計(jì)方法,在姿態(tài)估計(jì)過程中有效適應(yīng)關(guān)節(jié)大幅度變化,能夠進(jìn)一步提高舞蹈動作中姿態(tài)估計(jì)的準(zhǔn)確率。
1.1.1 HRNet網(wǎng)絡(luò)
利用HRNet骨干網(wǎng)絡(luò)為主要網(wǎng)絡(luò),如圖1所示,該網(wǎng)絡(luò)主要由4個子網(wǎng)構(gòu)成,4個子網(wǎng)均為并行的多分辨率,利用4個殘差單元以及ResNet模塊設(shè)計(jì)原則來完成子網(wǎng)絡(luò)的組成。
圖1 HRNet骨干網(wǎng)絡(luò)
HRNet網(wǎng)絡(luò)具有圖像特征識別能力,能有效對圖像的多分辨率特征進(jìn)行提取,表達(dá)圖像特征的能力出眾,具有解決目標(biāo)識別與檢測、人體關(guān)鍵點(diǎn)估計(jì)以及圖像分割等問題的能力。但HRNet網(wǎng)絡(luò)存在僅利用高分辨率特征進(jìn)行姿態(tài)估計(jì)的現(xiàn)象,導(dǎo)致中分辨率與低分辨率特征被遺棄,上述現(xiàn)象會在特征表示中丟失部分信息,在關(guān)節(jié)估計(jì)的精度方面受到一定影響。因此利用多尺度特征進(jìn)行融合能夠進(jìn)一步提高姿態(tài)估計(jì)的特征表示能力。
1.1.2 序列多尺度特征融合
高分辨率的低層特征能夠有效在圖像特征表示過程中能夠獲取準(zhǔn)確的信息位置,但存在語義信息較弱的現(xiàn)象,低分辨率的高層特征彌補(bǔ)了這一缺陷,雖然信息位置相對較為粗糙,但具有較為豐富的語義信息?;诖?,通過對多分辨率特征進(jìn)行有序融合來進(jìn)一步提高網(wǎng)絡(luò)特征表示能力。
如圖2所示,在HRNet網(wǎng)絡(luò)中提取其最后一個聚合單元進(jìn)行,并利用序列多尺度特征融合方法完成整個輸出過程,首先,獲取4個具有不同分辨率的特征圖;其次,利用卷積(convolution)、插值(interpolation)和反卷積(deconvolution)方法來處理上述特征圖;最后,實(shí)現(xiàn)序列多特征從高分辨率到低分辨率的有效融合。
圖2 序列多尺度特征融合模塊(SMF)
(1)
其中,conv表示卷積操作,Int和Dec分別表示插值和反卷積操作。
(2)
設(shè)計(jì)一種主成分分析技術(shù)(principal components analysis,PCA)分割模型,通過PCA方法實(shí)現(xiàn)舞蹈規(guī)范動作的序列分割[6]。通過兩種不同的人體動作類型有著不同的主元成分這一原理實(shí)現(xiàn)人體動作的區(qū)分。
在序列分割中,首先對某區(qū)間段中的舞蹈動作數(shù)據(jù)實(shí)施PCA處理,具體步驟如下:
1)用N表示舞蹈規(guī)范動作視頻幀序列,用N1,…Ns表示最后的動作序列分割結(jié)果,利用S對舞蹈規(guī)范動作行為的邊界和數(shù)量進(jìn)行確定[7]。
2)通過指定時間中的關(guān)節(jié)旋轉(zhuǎn)數(shù)據(jù)對各幀舞蹈動作視頻進(jìn)行表示。
3)對于各幀Xi(i=1,2,…,n),通過J代表其身體層次的實(shí)際關(guān)節(jié)數(shù)。對于各關(guān)節(jié),直接為其指定一個四元數(shù),即可將幀視為4*J維空間內(nèi)的點(diǎn),通過R4*J來表示[8]。
4)對于舞蹈運(yùn)動序列與R4*J相對應(yīng)的軌跡運(yùn)動中心,將其定義為下式:
(3)
5)幀處于包含各幀的對應(yīng)二維超平面上,因此認(rèn)為4*J維數(shù)據(jù)始終處于高度相關(guān)狀態(tài),即能夠提取所有關(guān)節(jié)點(diǎn)的關(guān)鍵數(shù)據(jù)。
通過r對維數(shù)進(jìn)行表示,直接將幀近似為
(4)
式中,vr表示第r個線性子空間內(nèi)形成的對應(yīng)單位正交向量;αir代表第r個對特征幀進(jìn)行確定的系數(shù)[9]。
(5)
8)對E最小的r維超平面進(jìn)行求取。
9)提取最小的r維超平面后,將其組織為n×56大小的矩陣,用D來表示,其中n≥56。
矩陣D的表達(dá)式具體如下:
(6)
式(6)中,U、V、Y指的是奇異分解矩陣。其中Y是一個對角矩陣,其大小為(4*J)×(4*J),對角線為非負(fù)奇異值σj的對應(yīng)遞減線[10]。
此時最優(yōu)投影超平面上的幀為丟棄最大r后的全部奇異值,此時幀的投影誤差可以用下式來表示:
(7)
計(jì)算此時最優(yōu)r維超平面內(nèi)投影幀所保存的信息比率,具體如下式所示:
(8)
通過信息比率Er獲取該區(qū)間段動作的主元成分。
接著對該區(qū)間的窗口長度進(jìn)行增加,當(dāng)增加至某數(shù)據(jù)幀時,提取出的主元成分跟前一個區(qū)間段中的成分存在很大差異,可以確定此時動作已經(jīng)發(fā)生改變,實(shí)現(xiàn)動作序列分割[11]。
對于各種動作的序列分割結(jié)果,基于HSV空間設(shè)計(jì)一種視頻前景分割算法,分割其視頻前景。設(shè)計(jì)的視頻前景分割算法的具體運(yùn)行步驟如下:
1)通過統(tǒng)計(jì)模型對背景中各像素p=(x,y)的顏色(h,s,v)實(shí)施時間軸變化建模。假設(shè)顏色中各分量均為獨(dú)立分量,利用顏色的各個分量k∈(h,s,v)實(shí)施模型構(gòu)建。也就是通過k∈(h,s,v)對顏色的標(biāo)準(zhǔn)差與均值進(jìn)行計(jì)算,從而獲取背景圖像[12]。
其中顏色標(biāo)準(zhǔn)差的計(jì)算公式具體如下:
(9)
式(9)中,K指的是顏色中的分量個數(shù);ki(x,y)指的是第i個分量;B(x,y)指的是像素點(diǎn)p=(x,y)全部樣本值的均值[13]。
顏色均值的計(jì)算公式具體如下:
(10)
構(gòu)建的背景圖像模型可以通過下式來計(jì)算:
Bk(x,y)=ki(x,y)-K(σk(x,y),μk2(x,y))
(11)
2)通過構(gòu)建模型實(shí)施統(tǒng)計(jì)推斷,即通過背景圖像模型對某幀像素點(diǎn)是否屬于前景對象進(jìn)行判斷。
3)完成全部像素點(diǎn)的判斷后,構(gòu)建前景圖像的屏蔽[14]。
4)以前景圖像的屏蔽為依據(jù),對背景圖像模型進(jìn)行更新,具體如下式所示:
(12)
式(12)中,t指的是前景圖像的屏蔽;α指的是更新速率;RN指的是非陰影背景像素變化數(shù)量;Re指的是光線變化程度的衡量閾值[15]。
5)通過更新的背景圖像模型對下一幀實(shí)施統(tǒng)計(jì)推斷。
基于多尺度特征融合設(shè)計(jì)一種圖像描述生成模型,生成舞蹈規(guī)范動作的圖像描述,結(jié)合深度可分離卷積網(wǎng)絡(luò)與級聯(lián)金字塔網(wǎng)絡(luò)構(gòu)建一種舞蹈規(guī)范動作姿態(tài)估計(jì)模型,在其中輸入描述圖像特征文本,即可實(shí)現(xiàn)舞蹈規(guī)范動作姿態(tài)估計(jì)[16]。
設(shè)計(jì)的圖像描述生成模型的運(yùn)行步驟如下:
1)輸入分割的視頻前景圖像數(shù)據(jù)集;
2)對各張圖像第三層的尺度特征V3進(jìn)行提取;
3)對各張圖像第四層的尺度特征V4進(jìn)行提??;
4)對各張圖像第五層的尺度特征V5進(jìn)行提??;
5)在生成注意力圖模型中輸入提取的V3、V4、V5,獲取AT3、AT4、AT5這3個注意力圖;
6)對注意力特征進(jìn)行計(jì)算,具體公式如下:
(13)
式(13)中,C1、C2、C3指的是獲得的注意力特征;
7)對注意力特征進(jìn)行融合處理,獲取注意力多尺度特征;
8)在語言模型解碼器中輸入第六層的對應(yīng)全局特征與注意力多尺度特征;
9)利用交叉熵對損失進(jìn)行計(jì)算;
10)對調(diào)整參數(shù)進(jìn)行反饋;
11)輸出描述圖像特征文本。
構(gòu)建的舞蹈規(guī)范動作姿態(tài)估計(jì)模型主要是將級聯(lián)金字塔網(wǎng)絡(luò)作為基礎(chǔ),通過深度可分離卷積網(wǎng)絡(luò)對模型網(wǎng)絡(luò)層級進(jìn)行構(gòu)造,以減少權(quán)值參數(shù)個數(shù),實(shí)現(xiàn)模型估計(jì)效率的提升[17]。
該模型的結(jié)構(gòu)設(shè)計(jì)如圖3所示。
圖3 舞蹈規(guī)范動作姿態(tài)估計(jì)模型設(shè)計(jì)
在該模型中,conv2到conv5層共同構(gòu)成級聯(lián)金字塔網(wǎng)絡(luò);Conv dw 3×3×1層到Conv1×1xm,p層共同構(gòu)成深度可分離卷積網(wǎng)絡(luò)[18]。A1、A2、A3、A4是級聯(lián)金字塔網(wǎng)絡(luò)輸出的特征;F1、F2、F3、F4是深度可分離卷積網(wǎng)絡(luò)輸出的舞蹈規(guī)范動作姿態(tài)估計(jì)結(jié)果,需要對其實(shí)施L2損失的計(jì)算,以實(shí)現(xiàn)姿態(tài)估計(jì)偏差的糾正。
利用設(shè)計(jì)的基于多尺度特征融合的舞蹈規(guī)范動作姿態(tài)估計(jì)方法實(shí)施實(shí)驗(yàn)舞蹈規(guī)范動作的姿態(tài)估計(jì),測試該方法的姿態(tài)估計(jì)性能。
在測試中從3個舞蹈數(shù)據(jù)庫中抽取舞蹈規(guī)范動作數(shù)據(jù),分別為拉丁舞數(shù)據(jù)庫、爵士舞數(shù)據(jù)庫、民族舞數(shù)據(jù)庫。
拉丁舞數(shù)據(jù)庫中既包括紐約3步跳法的拉丁舞舞蹈視頻,也包括古巴跳法的拉丁舞舞蹈視頻。在拉丁舞數(shù)據(jù)庫中,抽取斗牛、桑巴、牛仔、恰恰以及倫巴的舞蹈規(guī)范動作視頻數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集一。爵士舞數(shù)據(jù)庫中含有FUNKY JAZZ、STREET JAZZ、RAGGAE等各種類型的爵士舞舞蹈視頻,分別對各種舞蹈類別中的舞蹈規(guī)范動作視頻數(shù)據(jù)進(jìn)行抽取,將其作為實(shí)驗(yàn)數(shù)據(jù)集二。民族舞數(shù)據(jù)庫中含有秧歌舞、孔雀舞等,在其中抽取10種民族的舞蹈視頻,分別對各種民族舞蹈類別中的舞蹈規(guī)范動作視頻數(shù)據(jù)進(jìn)行抽取,將其作為實(shí)驗(yàn)數(shù)據(jù)集三。
在測試中對姿態(tài)估計(jì)準(zhǔn)確率進(jìn)行測試,計(jì)算公式具體如下:
(14)
式(14)中,er指的是實(shí)驗(yàn)數(shù)據(jù)集中準(zhǔn)確識別的舞蹈規(guī)范動作姿態(tài)數(shù);et指的是實(shí)驗(yàn)數(shù)據(jù)集中總舞蹈規(guī)范動作姿態(tài)數(shù)。
為驗(yàn)證本文所提方法姿態(tài)估計(jì)的準(zhǔn)確性,選擇三個數(shù)據(jù)集中某動作的舞蹈規(guī)范動作姿態(tài),分別在3個數(shù)據(jù)集量為5 GB、10 GB、15 GB和20 GB時,對比獨(dú)舞、群舞、明亮光線下以及陰暗光線下4種環(huán)境中舞蹈規(guī)范動作姿態(tài)估計(jì)準(zhǔn)確率。其中,明亮光線和陰暗光線照度分別為25000LUX和3000LUX,標(biāo)準(zhǔn)的舞蹈規(guī)范動作姿態(tài)如圖4所示。
(a)數(shù)據(jù)集一中某動作的姿態(tài) (b)數(shù)據(jù)集二中某動作的姿態(tài) (c)數(shù)據(jù)集三中某動作的姿態(tài)圖4 某動作的舞蹈規(guī)范動作姿態(tài)
2.3.1 獨(dú)舞與群舞下的測試結(jié)果分析
首先對不同數(shù)據(jù)集獨(dú)舞與群舞的姿態(tài)估計(jì)準(zhǔn)確率進(jìn)行測試,其中獨(dú)舞的測試結(jié)果如圖5所示。群舞的姿態(tài)估計(jì)準(zhǔn)確率測試結(jié)果如圖6所示。
圖5 獨(dú)舞的姿態(tài)估計(jì)準(zhǔn)確率 圖6 群舞的姿態(tài)估計(jì)準(zhǔn)確率
根據(jù)圖5的姿態(tài)估計(jì)準(zhǔn)確率測試數(shù)據(jù),在獨(dú)舞時,設(shè)計(jì)方法的姿態(tài)估計(jì)準(zhǔn)確率較高。盡管隨著數(shù)據(jù)量的增大,姿態(tài)估計(jì)準(zhǔn)確率有一定下降,但降幅較小,整體來看姿態(tài)估計(jì)準(zhǔn)確率高于95%。根據(jù)圖6的姿態(tài)估計(jì)準(zhǔn)確率測試數(shù)據(jù),在群舞時,設(shè)計(jì)方法的姿態(tài)估計(jì)準(zhǔn)確率仍較高,整體高于92%,但略低于獨(dú)舞時的測試數(shù)據(jù)。其主要原因是本文設(shè)計(jì)了PCA分割模型,隨著數(shù)據(jù)量增大,提取出的主元成分與前一個區(qū)間段中的成分存在較大差異,從而實(shí)現(xiàn)了獨(dú)舞當(dāng)前動作序列的分割,提高了姿態(tài)估計(jì)準(zhǔn)確率。而由于群舞中的識別要素多于獨(dú)舞,因此其準(zhǔn)確率由95%降至92%。
2.3.2 明亮光線與陰暗光線下的測試結(jié)果分析
分別在兩種光線下測試設(shè)計(jì)方法的姿態(tài)估計(jì)準(zhǔn)確率,一種是明亮光線,一種是陰暗光線。其中明亮光線下的測試結(jié)果如圖7所示。在陰暗光線條件下,設(shè)計(jì)方法的姿態(tài)估計(jì)準(zhǔn)確率測試結(jié)果如圖8所示。
圖7 明亮光線下的姿態(tài)估計(jì)準(zhǔn)確率 圖8 陰暗光線下的姿態(tài)估計(jì)準(zhǔn)確率
圖7明亮光線下的姿態(tài)估計(jì)準(zhǔn)確率測試數(shù)據(jù)表明,在明亮光線條件下,設(shè)計(jì)方法的姿態(tài)估計(jì)準(zhǔn)確率整體高于93%。圖8比較陰暗的光線條件下,可以看出設(shè)計(jì)方法的姿態(tài)估計(jì)準(zhǔn)確率低于明亮光線下的姿態(tài)估計(jì)準(zhǔn)確率測試數(shù)據(jù),但整體高于86%,說明設(shè)計(jì)方法的姿態(tài)估計(jì)準(zhǔn)確率會受到光線的影響。同時,數(shù)據(jù)集一和數(shù)據(jù)集二的姿態(tài)估計(jì)準(zhǔn)確率明顯低于數(shù)據(jù)集三的姿態(tài)估計(jì)準(zhǔn)確率測試數(shù)據(jù)。這是由于數(shù)據(jù)集一和數(shù)據(jù)集二的節(jié)奏更快,而數(shù)據(jù)集三的節(jié)奏偏慢,在光線比較陰暗的情況下,舞蹈種類會對設(shè)計(jì)方法的姿態(tài)估計(jì)準(zhǔn)確率造成一定影響。整體而言,無論是明亮光線還是陰暗光線,不同舞蹈種類的姿態(tài)估計(jì)準(zhǔn)確率較高,其主要原因是本文方法在動作序列分割的基礎(chǔ)上,分割了視頻前景。依據(jù)構(gòu)建的舞蹈規(guī)范動作姿態(tài)估計(jì)模型,實(shí)現(xiàn)舞蹈規(guī)范動作姿態(tài)估計(jì),降低了光線對姿態(tài)估計(jì)的影響,提高了姿態(tài)估計(jì)效果。
在專業(yè)動作姿態(tài)估計(jì)的研究中,設(shè)計(jì)了一種應(yīng)用多尺度特征融合技術(shù)的舞蹈規(guī)范動作姿態(tài)估計(jì)方法,實(shí)現(xiàn)了比較準(zhǔn)確的舞蹈規(guī)范動作姿態(tài)估計(jì)。盡管該方法會在一定程度上受到環(huán)境因素的影響,但整體動作姿態(tài)估計(jì)結(jié)果還是比較準(zhǔn)確的。在日后的研究中,將對其環(huán)境影響因素進(jìn)行深入研究,爭取盡量克服環(huán)境影響因素對動作姿態(tài)估計(jì)準(zhǔn)確率的影響。
河北北方學(xué)院學(xué)報(自然科學(xué)版)2022年11期