萬(wàn) 益
公元前3000年,由梵語(yǔ)學(xué)者和印度醫(yī)師帕坦伽利撰寫(xiě)的《瑜伽經(jīng)》中發(fā)現(xiàn)了對(duì)瑜伽體式動(dòng)作的描述[3]。這種源自于印度古國(guó)的運(yùn)動(dòng),因其動(dòng)作緩慢、優(yōu)雅、講究身心的平衡,近10幾年已成為全世界最流行的健康風(fēng)潮[7]。許多練習(xí)過(guò)瑜伽的人都能不同程度地體會(huì)到,通過(guò)瑜伽呼吸法、體位法、冥想和松弛功的練習(xí),可達(dá)到舒展筋骨、輕松身心、健美形體、通暢經(jīng)絡(luò)的獨(dú)特效果[8]。研究顯示:瑜伽可以減輕焦慮和抑郁,可以改善包括心理和疼痛綜合征、肌肉骨骼和神經(jīng)系統(tǒng)疾病、自身免疫和免疫綜合征等多種癥狀。[4]隨之,這項(xiàng)時(shí)尚健身運(yùn)動(dòng)也開(kāi)始在各大高校體育選修課中廣泛開(kāi)展,深受學(xué)生的喜歡。近幾年的教育現(xiàn)代化的變革,開(kāi)啟了中國(guó)大規(guī)模的在線(xiàn)課程平臺(tái)—MOOC,即在“互聯(lián)網(wǎng)+”時(shí)代,基于移動(dòng)通信設(shè)備、網(wǎng)絡(luò)學(xué)習(xí)環(huán)境將視頻教學(xué)資源和學(xué)習(xí)活動(dòng)序列相結(jié)合,將教學(xué)資源面向社會(huì),面向大眾。國(guó)內(nèi)在線(xiàn)課程平臺(tái)的迅速發(fā)展,將許多高質(zhì)量課程紛紛推上了學(xué)習(xí)平臺(tái)[10]。據(jù)中國(guó)大學(xué)MOOC平臺(tái)的開(kāi)課統(tǒng)計(jì),關(guān)于瑜伽的課程共有10門(mén)次,單期選課人次達(dá)17萬(wàn)人次。如此龐大的受眾量伴隨不斷激增的需求,也出現(xiàn)了一些弊端,對(duì)瑜伽的教學(xué)提出了新的挑戰(zhàn)。一是傳統(tǒng)的授課模式中,老師能直觀(guān)地評(píng)判學(xué)生的動(dòng)作,并且實(shí)時(shí)做出糾正,而線(xiàn)上課程學(xué)生只能通過(guò)圖片上傳、視頻上傳等方式等待老師的點(diǎn)評(píng)和指導(dǎo),無(wú)法實(shí)現(xiàn)即刻的交流和溝通,往往會(huì)造成錯(cuò)誤動(dòng)作的形成;二是傳統(tǒng)授課模式中,師生比通常為(1∶30),而在線(xiàn)課程由于受眾廣泛性及較高的師生比(1∶10 000),在動(dòng)作的糾正、指導(dǎo)與動(dòng)作的評(píng)價(jià)方面增加了授課教師極大的工作量和難度。
隨著人工智能技術(shù)的快速發(fā)展,許多新興前沿技術(shù)在日常生活中大量普及與應(yīng)用,人體姿態(tài)識(shí)別、人體動(dòng)作識(shí)別、人體動(dòng)作檢測(cè)等技術(shù)在人體運(yùn)動(dòng)行為分析、醫(yī)療康復(fù)訓(xùn)練、體育教學(xué)等方面都有廣闊的應(yīng)用前景[9]。在當(dāng)前大學(xué)體育MOOC線(xiàn)上教學(xué)廣泛發(fā)展的情況下,為了科學(xué)評(píng)價(jià)在線(xiàn)瑜伽教學(xué)中學(xué)生的動(dòng)作姿態(tài),筆者提出基于多模態(tài)的瑜伽動(dòng)作姿態(tài)檢測(cè)算法設(shè)計(jì),旨在為體育教學(xué)領(lǐng)域師生提供更為生動(dòng)的交互方式。
人體姿態(tài)估計(jì)(Human Pose Estimation)是計(jì)算機(jī)視覺(jué)中的一個(gè)重要任務(wù),也是計(jì)算機(jī)理解人類(lèi)動(dòng)作、行為必不可少的步驟。近年來(lái),使用深度學(xué)習(xí)進(jìn)行人體姿態(tài)估計(jì)的方法陸續(xù)被提出,且達(dá)到了遠(yuǎn)超傳統(tǒng)方法的表現(xiàn)[11]。
瑜伽體式動(dòng)作相對(duì)靜止,且動(dòng)作對(duì)人體骨骼的正位有一定要求,因此在計(jì)算機(jī)視覺(jué)中,通過(guò)對(duì)人體骨骼點(diǎn)的檢測(cè)能夠?qū)?dòng)作的正確性進(jìn)行初步判斷。關(guān)于人體骨骼點(diǎn)檢測(cè),Toshev等人提出了Deep Pose作為早期的人體骨骼關(guān)節(jié)點(diǎn)檢測(cè)的算法。他將人體骨骼關(guān)節(jié)點(diǎn)估計(jì)問(wèn)題由原本的圖像處理和模板匹配問(wèn)題轉(zhuǎn)化為CNN圖像特征提取和關(guān)鍵點(diǎn)坐標(biāo)回歸,并使用了一些回歸準(zhǔn)則來(lái)估計(jì)被遮擋或者未出現(xiàn)的人體關(guān)節(jié)節(jié)點(diǎn)。但是該方法的魯棒性較差,而且人體的動(dòng)作復(fù)雜多變,因此該方法應(yīng)用性不強(qiáng)[12]。GRMI是Google提出的多人體態(tài)估計(jì)方法。他們首先使用FAST-RCNN做人物檢測(cè),然后將檢測(cè)到的人物分割出來(lái),再利用殘差網(wǎng)絡(luò)做高斯HeatMap和坐標(biāo)偏置,最后通過(guò)融合高斯HeatMap和坐標(biāo)偏置預(yù)測(cè)出關(guān)節(jié)點(diǎn)的精確位置。對(duì)于拍攝的瑜伽動(dòng)作姿態(tài)的彩色圖像雖然信息非常豐富,但是冗余信息也很多,在不同地點(diǎn)、不同光亮強(qiáng)度以及穿不同瑜伽服下拍攝的瑜伽動(dòng)作對(duì)識(shí)別模型都有一定的影響。Li等人[1]綜合利用了Kinect提供的深度數(shù)據(jù)、骨架數(shù)據(jù),通過(guò)人體測(cè)量學(xué)知識(shí)和反向傳播神經(jīng)網(wǎng)絡(luò),有效提高了姿態(tài)識(shí)別的實(shí)時(shí)性和魯棒性。視覺(jué)傳感器采集的視頻、圖像,還可以通過(guò)深度學(xué)習(xí)等人工智能的方法對(duì)人體肢體、關(guān)節(jié)進(jìn)行識(shí)別提取[2]。人體骨骼圖像,可以避免光照變化的影響,也可以免去外部場(chǎng)景、背景環(huán)境等因素的干擾,因此利用骨骼圖像和RGB圖像結(jié)合識(shí)別瑜伽動(dòng)作以及標(biāo)準(zhǔn)從而提高模型的魯棒性。
目前,隨著計(jì)算機(jī)視覺(jué)技術(shù)的不斷發(fā)展,多模態(tài)識(shí)別技術(shù)己經(jīng)成為人體姿態(tài)檢測(cè)中最常用的方法。筆者基于多模態(tài)思想設(shè)計(jì)了瑜伽姿態(tài)動(dòng)作評(píng)分模型。首先利用RGB攝像頭采集瑜伽的姿態(tài)動(dòng)作圖,即普通的RGB彩色圖像,接著利用骨骼提取模型將RGB圖像轉(zhuǎn)換成骨骼圖像,然后將RGB圖像和骨骼圖像輸入聯(lián)合模型中。聯(lián)合模型將輸出瑜伽動(dòng)作的類(lèi)別以及這種動(dòng)作的評(píng)分。具體流程如圖1所示。由于最后要得到瑜伽的動(dòng)作類(lèi)別和評(píng)分,這屬于多任務(wù)的評(píng)分問(wèn)題,因此筆者設(shè)計(jì)聯(lián)合模型,不增加模型的數(shù)量直接得出瑜伽動(dòng)作的最終類(lèi)別和得分。
圖1 基于多模態(tài)的瑜伽姿態(tài)動(dòng)作分類(lèi)評(píng)分流程圖
骨骼提取模型是將普通的RGB人物圖像轉(zhuǎn)換成骨骼姿態(tài)圖像。深度學(xué)習(xí)中的一些方法可以在普通二維攝像頭采集的人物圖像上直接獲取骨骼關(guān)節(jié)點(diǎn)圖像,因此我們可以在不增加任何設(shè)備的條件下,提取到人體的骨骼圖像。骨骼提取模型是基于OpenPose模型設(shè)計(jì)得到的。Openpose模型是由美國(guó)卡耐基梅隆大學(xué)的研究人員提出的。該模型先將圖片中人物的關(guān)節(jié)點(diǎn)檢測(cè)出來(lái),然后將檢測(cè)出來(lái)的關(guān)節(jié)點(diǎn)進(jìn)行聚類(lèi)處理,最后將人體的關(guān)節(jié)點(diǎn)連接在一起。利用OpenPose模型提取瑜伽動(dòng)作的骨骼數(shù)據(jù)流程如圖2所示。首先將輸入圖片經(jīng)過(guò)VGG19的前十層卷積操作,生成相應(yīng)的卷積特征圖(F),然后根據(jù)生成的卷積特征圖送入多階網(wǎng)絡(luò)中用來(lái)預(yù)測(cè)關(guān)鍵點(diǎn)的熱圖(Heatmap)和描述關(guān)節(jié)點(diǎn)的連接的方向,最后使用二分圖最大權(quán)匹配算法來(lái)對(duì)關(guān)鍵點(diǎn)進(jìn)行組裝,從而得到人體骨架。
圖2 OpenPose模型的結(jié)構(gòu)流程圖
如圖2所示,Openpose模型中多階網(wǎng)絡(luò)在生成人體的關(guān)節(jié)點(diǎn)熱圖后輸出得到St=(S1,S2,…,SJ);在描述關(guān)節(jié)點(diǎn)的連接方向后得到Lt=(L1,L2,…,LC)。其中J是人體關(guān)節(jié)點(diǎn)的數(shù)量;C是關(guān)聯(lián)區(qū)域的數(shù)量。關(guān)聯(lián)區(qū)域是指手臂,腿部等。Sj∈Rw×h,即第j個(gè)關(guān)節(jié)點(diǎn)對(duì)應(yīng)的熱圖,可以認(rèn)為是概率值;Lc∈Ew×h×2,即第 c個(gè)關(guān)聯(lián)區(qū)域?qū)?yīng)的方向。
在預(yù)測(cè)關(guān)節(jié)點(diǎn)熱圖時(shí),對(duì)于每個(gè)人的第j個(gè)關(guān)節(jié)點(diǎn),令其位置為xj∈R2,則真實(shí)位置是以xj為中心的二維高斯分布,用表示。第j個(gè)關(guān)節(jié)點(diǎn)對(duì)應(yīng)的真實(shí)位置為,p表示單個(gè)位置,即對(duì)一個(gè)人關(guān)節(jié)點(diǎn)的真實(shí)位置按像素點(diǎn)取最大值。在預(yù)測(cè)關(guān)節(jié)點(diǎn)的連接的方向時(shí)(如圖3所示),對(duì)于第c個(gè)關(guān)聯(lián)區(qū)域,也可以理解成連接關(guān)節(jié)點(diǎn)j1和j2的區(qū)域,真實(shí)方向用表示。如果位置p在這個(gè)關(guān)聯(lián)區(qū)域上,否則為零向量。計(jì)算公式如式(1)所示:
圖3 手臂方向預(yù)測(cè)圖
這里v實(shí)際上是j1指向j2的單位向量。只要p滿(mǎn)足在線(xiàn)段j1j2上或者距離線(xiàn)段j1j2在一個(gè)閾值范圍內(nèi),就認(rèn)為p在該關(guān)聯(lián)區(qū)域上。最后對(duì)于某個(gè)關(guān)聯(lián)區(qū)域的所有位置,將每個(gè)像素點(diǎn)采用平均處理的方式,即。這里nc(p)為p位置處非零向量的個(gè)數(shù),也就是只有非零向量才參與均值計(jì)算。
當(dāng)模型得到關(guān)節(jié)點(diǎn)熱圖后,采用非極大值抑制的方式為每個(gè)關(guān)節(jié)點(diǎn)部分找出一系列候選點(diǎn)。這些候選點(diǎn)之間互相組合能夠產(chǎn)生大量可能的關(guān)聯(lián)區(qū)域,因此需要定義兩個(gè)關(guān)鍵點(diǎn)j1和j2之間組合的權(quán)值。如式(2)所示:
其中,p(u)=(1 - u)dj1+udj2,dj1,dj2分別表示 j1,j2的坐標(biāo)。實(shí)際上就是對(duì)j1和j2間各點(diǎn)在j1j2上投影的積分。直觀(guān)上說(shuō),如果線(xiàn)段上各點(diǎn)的方向與線(xiàn)段的方向越一致,E就越大,那么這兩個(gè)關(guān)節(jié)點(diǎn)組成一個(gè)關(guān)聯(lián)區(qū)域的可能性就越大。因此通過(guò)這種方式可以除去沒(méi)有的關(guān)聯(lián)區(qū)域。
目前,通過(guò)將多個(gè)模態(tài)的識(shí)別結(jié)果進(jìn)行融合來(lái)提高識(shí)別率己經(jīng)成為人體姿態(tài)動(dòng)作檢測(cè)中最常用的方法。一般的多模態(tài)融合方法是先分別單獨(dú)訓(xùn)練每個(gè)模態(tài)的數(shù)據(jù)獲得識(shí)別向量,然后將每個(gè)模態(tài)的識(shí)別向量通過(guò)相乘的方式進(jìn)行融合。這種方式準(zhǔn)確率的提升有限,而且耗費(fèi)大量的時(shí)間和資源。在本文中提出一種多模態(tài)聯(lián)合模型,可以同時(shí)使用多模態(tài)數(shù)據(jù),并且模型還可以輸出多種結(jié)果。模型的結(jié)構(gòu)如圖4所示,其中,fc1和fc2表示全連接。
圖4 多模態(tài)聯(lián)合模型結(jié)構(gòu)圖
3.2.1 主干網(wǎng)絡(luò)設(shè)計(jì)
瑜伽動(dòng)作的姿態(tài)多種多樣,不同人做每種動(dòng)作時(shí)標(biāo)準(zhǔn)不一,尤其在網(wǎng)絡(luò)授課提交的作業(yè)中,對(duì)教師評(píng)分帶來(lái)了極大的困難。筆者基于細(xì)粒度瑜伽動(dòng)作的類(lèi)別和評(píng)分進(jìn)行分類(lèi),并利用Xception模型來(lái)提取多模態(tài)數(shù)據(jù)的細(xì)粒度特征,并基于Xception網(wǎng)絡(luò)設(shè)計(jì)聯(lián)合識(shí)別模型,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的輸入以及類(lèi)別和評(píng)分的聯(lián)合輸出。
Xception模型是由谷歌研究院在Inception模型的基礎(chǔ)上改進(jìn)得到的。使用深度可分離卷積增加網(wǎng)絡(luò)寬度,不僅提升了分類(lèi)的正確率,也增強(qiáng)了網(wǎng)絡(luò)對(duì)細(xì)微特征的學(xué)習(xí)能力,提供了Xception模型用在弱監(jiān)督的細(xì)粒度圖像分類(lèi)的可行性。Xception和Inception的基本思想一樣,都是將一個(gè)卷積核分解成一系列相互獨(dú)立的操作,即模塊首先通過(guò)跨通道相關(guān)性處理,然后通過(guò)一組1×1卷積,最后將輸入通道映射到多個(gè)小于原始輸入的不同空間。但是Xception模型中通道相關(guān)性和空間相關(guān)性是完全可分的。先進(jìn)行1×1的通道相關(guān)性卷積,后續(xù)接的3×3卷積的個(gè)數(shù)與1×1卷積的輸出通道數(shù)相同,如圖5所示。
圖5 Xception的模塊結(jié)構(gòu)
Xception中的深度可分離卷積將傳統(tǒng)的卷積分解為一個(gè)深度卷積和一個(gè)1×1的卷積。首先對(duì)輸入的每個(gè)通道分別進(jìn)行深度卷積操作,并將結(jié)果進(jìn)行拼接,然后對(duì)拼接后的結(jié)果進(jìn)行1×1卷積操作。在Xception中加入的類(lèi)似ResNet的殘差連接機(jī)制也顯著加快了Xception的收斂過(guò)程并獲得了顯著更高的準(zhǔn)確率。
3.2.2 聯(lián)合模型網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)在檢測(cè)瑜伽動(dòng)作時(shí),筆者使用了RGB數(shù)據(jù)和骨骼數(shù)據(jù)兩種模態(tài)的數(shù)據(jù)。骨骼數(shù)據(jù)是將各個(gè)骨骼關(guān)節(jié)點(diǎn)的歐式距離組成矩陣,如式(3)所示。
其中,Jn代表第n個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo);‖JnJ1‖代表第n個(gè)關(guān)節(jié)點(diǎn)到第一個(gè)關(guān)節(jié)點(diǎn)的歐式距離。由于分類(lèi)時(shí)要識(shí)別出瑜伽的種類(lèi)以及瑜伽動(dòng)作的評(píng)分,因此在設(shè)計(jì)聯(lián)合模型的數(shù)據(jù)輸入時(shí),需要設(shè)計(jì)成多階模式。數(shù)據(jù)輸入的格式如式(4)和式(5)所示:
其中,yn代表瑜伽動(dòng)作的種類(lèi);S1,S2,S3分別代表優(yōu)、良、中。數(shù)據(jù)D有兩個(gè)標(biāo)簽,分別是類(lèi)別標(biāo)簽和評(píng)分標(biāo)簽。如圖4所示,最后主干網(wǎng)絡(luò)連接兩個(gè)全連接層,分別對(duì)應(yīng)類(lèi)別和評(píng)分,這樣就可以利用一個(gè)網(wǎng)絡(luò)訓(xùn)練解決兩個(gè)分類(lèi)問(wèn)題。與其對(duì)應(yīng)的模型有兩個(gè)損失函數(shù)。由于瑜伽動(dòng)作的分類(lèi)和評(píng)分都是分類(lèi)問(wèn)題,因此都采用交叉熵?fù)p失函數(shù)。由于瑜伽動(dòng)作的類(lèi)別間的特征遠(yuǎn)遠(yuǎn)高于類(lèi)內(nèi)評(píng)分之間的特征,因此在制作數(shù)據(jù)集時(shí)最好將每個(gè)類(lèi)別內(nèi)中三個(gè)評(píng)分S1、S2和S3數(shù)量大致保持一致,同時(shí)多模態(tài)數(shù)據(jù)中的RGB數(shù)據(jù)和骨骼數(shù)據(jù)是一一對(duì)應(yīng)的,因此在S1、S2和S3中的骨骼數(shù)據(jù)和RGB數(shù)據(jù)是相同的。在模型訓(xùn)練時(shí),我們采取了一系列數(shù)據(jù)增強(qiáng)操作,包括:
(1)旋轉(zhuǎn)操作:由于拍攝角度不同,人物圖像可能會(huì)發(fā)生不同角度的旋轉(zhuǎn),因此在網(wǎng)絡(luò)訓(xùn)練中對(duì)數(shù)據(jù)隨機(jī)旋轉(zhuǎn)操作。
(2)降噪操作:考慮到大多數(shù)手機(jī)攝像頭都自帶人物美顏功能,因此采集的人物RGB數(shù)據(jù)噪聲較小。對(duì)訓(xùn)練數(shù)據(jù)隨機(jī)加入各種降噪處理有利于提高模型的魯棒性。
(3)亮度操作:不同人在拍攝照片時(shí),所在的環(huán)境背景不同,拍攝的照片背景亮度存在很大差異。圖片的亮度同樣也會(huì)影響網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確率,因此在網(wǎng)絡(luò)訓(xùn)練中對(duì)數(shù)據(jù)隨機(jī)加入增加或者降低亮度操作。
(4)模糊操作:由于手機(jī)拍照曝光影響以及抖動(dòng)的影響,高斯模糊和運(yùn)動(dòng)模糊會(huì)發(fā)生在使用環(huán)境中,因此對(duì)訓(xùn)練數(shù)據(jù)隨機(jī)加入運(yùn)動(dòng)模糊和高斯模糊處理。
在模型使用時(shí),輸入拍攝的RGB數(shù)據(jù)。首先骨骼提取模型會(huì)將RGB數(shù)據(jù)轉(zhuǎn)換成骨骼數(shù)據(jù),然后將兩張圖片輸入到多模態(tài)聯(lián)合模型中。輸出的四個(gè)識(shí)別結(jié)果,分別是 Ar、As、Sr和 Ss,分別代表RGB數(shù)據(jù)的分類(lèi)結(jié)果、骨骼數(shù)據(jù)的分類(lèi)結(jié)果、RGB數(shù)據(jù)的得分結(jié)果和骨骼數(shù)據(jù)的得分結(jié)果。最終的分類(lèi)結(jié)果和得分結(jié)果計(jì)算公式如下:
其中,α代表RGB數(shù)據(jù)權(quán)重系數(shù);β代表骨骼數(shù)據(jù)權(quán)重系數(shù)。根據(jù)不同實(shí)驗(yàn)環(huán)境,可將α和β設(shè)置成不同的數(shù)值。多模態(tài)瑜伽動(dòng)作分類(lèi)評(píng)分模型只需輸入一些普通的RGB數(shù)據(jù),直接就能輸出瑜伽動(dòng)作的類(lèi)別和評(píng)分。
在多模態(tài)算法以及瑜伽動(dòng)作類(lèi)別和評(píng)分判定方法的基礎(chǔ)上,對(duì)提出方法的有效性進(jìn)行了對(duì)比實(shí)驗(yàn)分析和驗(yàn)證。實(shí)驗(yàn)中,根據(jù)MOOC的課程安排,采集了400個(gè)志愿者的瑜伽動(dòng)作圖片。目前使用了其中四組動(dòng)作,每張圖片都帶有動(dòng)作類(lèi)別和得分等級(jí)標(biāo)簽。需要說(shuō)明的是,為了消除個(gè)體差異,訓(xùn)練集和測(cè)試集中的被試者不同。為了方便瑜伽動(dòng)作評(píng)判,并驗(yàn)證單模型和聯(lián)合模型對(duì)瑜伽動(dòng)作識(shí)別和評(píng)分的準(zhǔn)確性,特制作了瑜伽動(dòng)作數(shù)據(jù)集。實(shí)驗(yàn)所用臺(tái)式電腦的 CPU型號(hào)為 Intel Core i5-4460m,主頻為 3.2GHz,GPU 型號(hào)為 GXT 1060,內(nèi)存為16GB,操作系統(tǒng)為Windows 10,Python版本號(hào)為3.6,使用 Pytorch框架。
為了驗(yàn)證基于多模態(tài)瑜伽姿態(tài)檢測(cè)算法的有效性,筆者驗(yàn)證4種瑜伽姿態(tài),分別為山式、手杖式、幻椅式和仰臥上升腿式,并對(duì)每種動(dòng)作的評(píng)價(jià)指標(biāo)進(jìn)行說(shuō)明。為了使瑜伽姿態(tài)數(shù)據(jù)庫(kù)更具有可靠性,本文的數(shù)據(jù)全部來(lái)自MOOC和網(wǎng)上教學(xué)的志愿者圖片。選取符合要求的圖片按照不同分類(lèi)存放在數(shù)據(jù)庫(kù)中。評(píng)價(jià)標(biāo)準(zhǔn)是根據(jù)三位老師評(píng)分的均分。采集的數(shù)據(jù)集如表1所示,其中評(píng)分是指瑜伽動(dòng)作的評(píng)分等級(jí),分為優(yōu)、良、中三個(gè)級(jí)別;數(shù)量是指存在數(shù)據(jù)集中圖片的數(shù)目。最后瑜伽姿態(tài)數(shù)據(jù)集中收集到4 800張有效圖片,各個(gè)評(píng)分下的瑜伽姿態(tài)動(dòng)作各400張圖片。最后使用這些圖片作為基于多模態(tài)瑜伽姿態(tài)檢測(cè)算法的數(shù)據(jù)集。
表1 瑜伽姿態(tài)的數(shù)據(jù)集
對(duì)于各組瑜伽動(dòng)作,按照以下要求分為優(yōu)、良、中三個(gè)級(jí)別。
(1)山式:動(dòng)作的優(yōu)秀指標(biāo):雙腳腳掌相靠,垂直向前,膝蓋收緊上提,腹部收緊,尾骨下卷,雙肩向外打開(kāi),雙眼平視前方,頭在雙肩的正前方;動(dòng)作的良好指標(biāo):雙腳腳掌相靠(略微散開(kāi)),垂直向前,膝蓋收緊上提,腹部收緊,尾骨下卷,雙肩向外打開(kāi),雙眼平視前方,頭在雙肩的正前方;動(dòng)作的中等指標(biāo):雙腳腳掌相靠(略微散開(kāi)),腳掌外八或者內(nèi)八,膝蓋松散無(wú)上提,腹部無(wú)收緊,尾骨無(wú)下卷,雙肩內(nèi)扣,雙眼平視前方,頭沒(méi)有在雙肩的正前方。
(2)手杖式:動(dòng)作的優(yōu)秀指標(biāo):將身體坐在墊子上,讓重心落在坐骨,雙腿向前伸直,雙腳腳尖回勾,腳后跟蹬向遠(yuǎn)方。雙手放臀部?jī)蓚?cè)的地面,掌心朝下,十指分開(kāi),指尖朝向正前方。收緊股四頭肌并向腹股溝提拉,大腿壓向地面,胸腔向上提,脊柱保持穩(wěn)定,頭、頸、臀保持在一條直線(xiàn)。雙肩放松向下沉,保持均勻的呼吸。動(dòng)作的良好指標(biāo):是指某些動(dòng)作不符,例如膝蓋微微彎曲,頭、頸、臀大致保持在一條直線(xiàn)。動(dòng)作的中等指標(biāo):主要是一些動(dòng)作不符合規(guī)定,例如膝蓋微微彎曲,脊柱保持不夠穩(wěn)定,頭、頸、臀不能保持在一條直線(xiàn)上。
(3)幻椅式:動(dòng)作的優(yōu)秀指標(biāo):雙腳腳掌并攏垂直向前,膝蓋在不超過(guò)腳尖,臀部后坐,大腿和地面趨于平行。尾骨下卷,后背和頭往天花板方向伸展,背部延伸,雙手手臂上抬伸直,保持和背部相同方向。動(dòng)作的良好指標(biāo):主要包括大腿和地面沒(méi)有平行。尾骨下卷,后背和頭往天花板方向伸展,背部延伸,雙手手臂上抬伸直,保持和背部大致相同方向。動(dòng)作的中等指標(biāo):雙腳腳掌沒(méi)有并攏,膝蓋超過(guò)腳尖,臀部向后,大腿和地面沒(méi)有平行,尾骨沒(méi)有下卷,背部延伸不夠。
(4)仰臥上升腿式:動(dòng)作的優(yōu)秀標(biāo)準(zhǔn):仰臥姿態(tài),后背完全貼向地面,雙腿上抬離開(kāi)地面呈90度,膝蓋伸直,腳掌回勾。動(dòng)作的良好指標(biāo):仰臥姿態(tài),后背完全貼向地面,雙腿上抬離開(kāi)地面呈90度,膝蓋伸直,腳掌沒(méi)有回勾。動(dòng)作的中等指標(biāo):仰臥姿態(tài),后背不完全貼向地面,雙腿上抬離開(kāi)地面呈沒(méi)有90度,膝蓋沒(méi)有伸直,腳掌沒(méi)有回勾。
在數(shù)據(jù)集整理完成后,按照dataij={Actioni(Scorej)}標(biāo)準(zhǔn)進(jìn)行分類(lèi),其中,Actioni指瑜伽動(dòng)作i,Scorej指瑜伽動(dòng)作Actioni得分 j。同時(shí)將這批數(shù)據(jù)按照4∶1分為訓(xùn)練集和測(cè)試集送入網(wǎng)絡(luò)模型中去訓(xùn)練測(cè)試。
為了驗(yàn)證多模態(tài)模型的效果,將訓(xùn)練的數(shù)據(jù)集送入骨骼提取模型中,提取出相應(yīng)的骨骼姿態(tài)。此時(shí)訓(xùn)練數(shù)據(jù)分為RGB數(shù)據(jù)和骨骼數(shù)據(jù)。將RGB數(shù)據(jù)和骨骼數(shù)據(jù)按照相同比例進(jìn)行數(shù)據(jù)處理,生成多模態(tài)數(shù)據(jù)。與RGB數(shù)據(jù)和骨骼數(shù)據(jù)的數(shù)據(jù)量相同。將這三類(lèi)數(shù)據(jù)按照相同的方式送入聯(lián)合模型中訓(xùn)練,訓(xùn)練過(guò)程中使用相同的數(shù)據(jù)增強(qiáng)方法,相同的學(xué)習(xí)率,相同的訓(xùn)練方式。最后利用訓(xùn)練好的模型分別用測(cè)試數(shù)據(jù)驗(yàn)證。測(cè)試的結(jié)果如表2所示。
表2 模型結(jié)果對(duì)比
根據(jù)表2數(shù)據(jù)可以觀(guān)察到,利用多模態(tài)數(shù)據(jù)和RGB數(shù)據(jù)訓(xùn)練的模型能夠100%的識(shí)別瑜伽類(lèi)別,單獨(dú)使用骨骼數(shù)據(jù)在識(shí)別瑜伽類(lèi)別時(shí)平均準(zhǔn)確率只有91%。主要是因?yàn)橛行╄べ?dòng)作需要觀(guān)察側(cè)面,身體有遮擋部分,關(guān)節(jié)點(diǎn)檢測(cè)算法不能有效地提取全部關(guān)節(jié)點(diǎn)。對(duì)于瑜伽姿態(tài)評(píng)分,聯(lián)合模型識(shí)別的準(zhǔn)確率達(dá)到90.15%,RGB數(shù)據(jù)識(shí)別的準(zhǔn)確率只有75.3%,骨骼數(shù)據(jù)識(shí)別的準(zhǔn)確率是81.6%。為了更好地對(duì)比模型的效果,筆者設(shè)計(jì)了瑜伽姿態(tài)檢測(cè)的綜合評(píng)價(jià)指標(biāo)W。W是根據(jù)瑜伽姿態(tài)類(lèi)別的判定和評(píng)分的判定求得。每個(gè)模型W的計(jì)算公式如下:
其中,n代表瑜伽類(lèi)別;Ai代表第i類(lèi)瑜伽姿態(tài)的類(lèi)別的準(zhǔn)確率;Si代表第i類(lèi)瑜伽姿態(tài)的得分的準(zhǔn)確率。根據(jù)式(8)和表2求得各個(gè)模型的W,如圖6所示。
圖6 綜合指標(biāo)對(duì)比
根據(jù)實(shí)驗(yàn)結(jié)果可以看出,如何準(zhǔn)確地判斷出瑜伽動(dòng)作的評(píng)分是我們的主要工作。雖然骨骼數(shù)據(jù)在判斷動(dòng)作類(lèi)別時(shí)具有較大的優(yōu)勢(shì),但是提取骨骼時(shí),有些關(guān)節(jié)點(diǎn)可能采集不到,因此單獨(dú)使用骨骼數(shù)據(jù)最終的識(shí)別效果并不能達(dá)到最優(yōu);RGB圖像在區(qū)分動(dòng)作類(lèi)別時(shí),具有較大的優(yōu)勢(shì),但是在評(píng)價(jià)動(dòng)作得分時(shí),由于受到衣服環(huán)境的干擾,導(dǎo)致不能有效地評(píng)價(jià)出動(dòng)作得分;而多模態(tài)數(shù)據(jù)在多模態(tài)聯(lián)合模型中表現(xiàn)出較大的優(yōu)勢(shì),集合了RGB數(shù)據(jù)和骨骼數(shù)據(jù)的優(yōu)勢(shì),同時(shí)又利用一個(gè)模型完成識(shí)別任務(wù),可以快速準(zhǔn)確地完成瑜伽動(dòng)作的分類(lèi)和判分。
人體姿態(tài)識(shí)別技術(shù)如果要在瑜伽線(xiàn)上教學(xué)發(fā)揮作用必須保證其準(zhǔn)確性、魯棒性和實(shí)時(shí)性都達(dá)到較高的水平。筆者在人體姿態(tài)檢測(cè)研究的基礎(chǔ)上,根據(jù)不同算法的優(yōu)缺點(diǎn)將算法進(jìn)行融合,使得融合結(jié)果在姿態(tài)識(shí)別數(shù)據(jù)集中的表現(xiàn)均優(yōu)于單個(gè)算法,并設(shè)計(jì)研發(fā)了基于多模態(tài)的瑜伽動(dòng)作姿態(tài)檢測(cè)模型。因此,將該設(shè)計(jì)研究運(yùn)用于今后體育線(xiàn)上教學(xué)中具有較大的優(yōu)勢(shì)。