吳 曉 軍
(安徽文達信息工程學院,安徽 合肥 231201)
網(wǎng)球運動員在國際賽場上為我國取得了很多榮譽,運動員取得榮譽不僅與運動員的運動天賦有關,還與教練團隊的付出相關,即訓練相關。在運動員訓練過程中,教練團隊分析運動員的動作,根據(jù)分析結(jié)果,制定針對性的訓練,但是在以往的訓練中,通常采用人工標記的方法標記動作,這種方法耗時耗力,并且標記準確度低,為教練提供參考價值有限。在上述背景下,相關學者研究了擊球動作識別方法,其中,吳佳等研究了基于特征動作序列的動態(tài)手勢識別方法[1],該方法預先變換原始數(shù)據(jù),將變化后數(shù)據(jù)作為特征識別依據(jù),采用模糊聚類算法對特征動作提取,在此基礎上對特征動作編碼,編碼后保存到支持庫中,采用改進編輯距離方法對動作序列相似度計算,實現(xiàn)相關動作的識別;劉芳等研究了基于雙流多關系(graph convolutional networks,GCNs)的骨架動作識別方法[2],通過對節(jié)點間的相互聯(lián)系進行預處理,對特征傳遞和融合,給出基于全局鄰接關系的自適應算法,計算各節(jié)點的相互作用強度,以最大的特征點為輸出點,從而識別運動。上述提出的識別方法雖然能夠?qū)崿F(xiàn)動作識別,但是會受到其他因素影響,導致識別結(jié)果較差。
針對上述存在的問題,結(jié)合時空圖卷積神經(jīng)網(wǎng)絡,設計了一個基于時空圖卷積神經(jīng)網(wǎng)絡的網(wǎng)球底線正手擊球動作識別方法,期望提高動作識別效果,助力網(wǎng)球運動員的訓練,促進體育事業(yè)的發(fā)展。時空圖卷積神經(jīng)網(wǎng)絡包含從網(wǎng)格到圖數(shù)據(jù)的卷積操作,其能夠匯總節(jié)點,依據(jù)匯總的節(jié)點和鄰居特征生成節(jié)點表示形式,實現(xiàn)目標的輸出。該網(wǎng)絡局部特征和全局特征能力好,已經(jīng)被廣泛應用到各個領域中。
在識別網(wǎng)球底線正手擊球動作前,需要提取運動區(qū)域。因此,建立運動的圖像獲取模型,然后將運動影像的特征提取與模板匹配相結(jié)合,在模型匹配后實現(xiàn)信息采集,過程如圖1所示:
圖1 圖像采集過程
在網(wǎng)球底線正手擊球動作提取中[3],需要從圖像中抽取相應的形狀[4]。為方便后續(xù)處理,采用膨脹操作擴充物體邊界點,公式如下
u=z/(w)b+v
(1)
式(1)中,v代表膨脹操作參數(shù),b代表結(jié)構(gòu)元素,w代表物體的邊界點,z代表腐蝕參數(shù)。
通過上述處理能夠去除不同大小區(qū)域。由于視頻序列中動作運動幅度不同[5],導致目標提取困難,同時,實際的場景中,運動背景復雜,也會干擾目標提取。為此采用幀間差分法進一步處理[6],公式如下
(2)
式(2)中,xk為采集的視頻圖像中的第k幀圖像,xk+d代表第k+d幀圖像,T代表處理過程中的閾值。
在計算中,如果得到的結(jié)果小于T,則認為像素值是靜止的。
采集視頻運動在時間上具有特征,因此,可以從一組連續(xù)的差分圖像中選取一組運動變化的形式來描述運動的變化[7]。將動作視頻數(shù)據(jù)集表示如下:
(3)
式(3)中,Si表示訓練集合的隨機差分抽樣值,yi表示所獲取的樣品的視頻行為標記參數(shù),N代表訓練的樣本數(shù)。
但由于樣本之間具有關聯(lián)性,并且每個樣本中的信息會隨著時序變化發(fā)生改變,而最后一個樣本中的數(shù)據(jù)會包含更多的信息,因此,在這個過程中,需要考慮每個樣本片段所包含的信息量,將權重重新分配給每個樣本片段,公式如下
(4)
基于上述過程提取出運動區(qū)域,并處理運動區(qū)域背景,為后續(xù)擊球動作識別提供幫助。
原始數(shù)據(jù)是一系列幀,每一幀都包含人體關節(jié)的坐標,依據(jù)關節(jié)坐標提取骨骼信息[8]。然后將每幀中的人體關節(jié)和骨骼表現(xiàn)為有限無環(huán)圖,在構(gòu)建中,采用有向時空圖神經(jīng)網(wǎng)絡識別動作。為提高人體骨骼與骨架節(jié)點判別的自適應性,需要利用間差異有向時空圖來表示圖數(shù)據(jù)時空差異信息,將骨骼動態(tài)的級聯(lián)融合表示在兩流框架中,通過點云動態(tài)圖卷積(dilate gated convolutional neural network,DGCNN)判別來完成判別動作性能的提升。
將骨骼關節(jié)分為不同部分,包含2個手臂、2條腿以及1個軀干,表達運動員擊球動作中骨骼的信息結(jié)構(gòu),表示為
(5)
式(5)中,ncj代表根節(jié)點j到中心的距離,nci代表節(jié)點到中心的距離。
在計算中,以3D骨架數(shù)據(jù)為例,將關節(jié)坐標表示為(x,y,z),對于一個骨骼,可以用以下方式來表示源接頭vs=(xs,ys,zs),將網(wǎng)球運動員的目標關節(jié)記作vs′=(xs′,ys′,zs′),將運動員骨骼參數(shù)表示如下:
Evs,vs′=(xs-xs′,ys-ys′,zs-zs′)
(6)
依據(jù)上述過程將骨架結(jié)構(gòu)表示為有向圖,在此基礎上,按照關節(jié)和骨骼的關系分類動作[9]。構(gòu)建的有向圖神經(jīng)網(wǎng)絡包含多個圖層,每個圖層中包含相應的頂點和邊屬性的圖形,為此可以在相鄰關節(jié)和骨骼中提取每個關節(jié)和骨骼的信息,通過分析其依存關系,實現(xiàn)動作的識別。在人體骨架有向圖中共包含2個更新函數(shù),通過更新函數(shù)實時更新連接邊和頂點的屬性[10],將公式表示為
(7)
上述過程對人體骨架空間建模,以了解到每個部分的重要性。
在利用有向圖來表示骨架結(jié)構(gòu)的基礎上,需要將動作信息數(shù)據(jù)進行分類,在分類的過程中需要采用圖神經(jīng)網(wǎng)絡來完成模型構(gòu)建。該網(wǎng)絡中任意圖層的圖形均具有邊屬性與定點,能夠保證圖形輸出的即時性,這是由于其關聯(lián)信息能夠在骨骼之間相互傳播,以此完成信息的即時更新。在骨骼信息的提取過程中能夠得到關節(jié)與骨骼的屬性特征與依存關系,從而大幅度提高動作識別模型構(gòu)建的完整性。通過對每層圖數(shù)據(jù)的屬性特征來更新相鄰圖數(shù)據(jù)的信息,從而進一步實現(xiàn)局部信息的實時更新以及提取,僅通過單個關節(jié)與相鄰骨骼信息便能獲取到關節(jié)的角度信息。在識別過程中的信息需要具有一定語義性與全局性,以此更好地將骨骼與關節(jié)遠距離聚攏至模型頂層。
在人體骨架有向圖的函數(shù)表示中,聚合函數(shù)用gin與gout來表示,主要用于將有相連頂點的傳入、傳出邊信息屬性的聚集,更新函數(shù)用hv與he來表示,該函數(shù)能夠根據(jù)已知條件對目標連接邊與定點屬性進行更新。確定目標節(jié)點的輸出邊與輸入邊,并檢查所有邊的目標關節(jié)點與元關節(jié)點,進一步完成神經(jīng)網(wǎng)絡的輸入邊與輸出邊的信息傳播。
在構(gòu)建的人體有向時空骨架基礎上,建立時空卷積神經(jīng)網(wǎng)絡,對骨架拓撲結(jié)構(gòu)進行參數(shù)化處理,將其嵌入時空卷積神經(jīng)網(wǎng)絡,便于模型的學習與更新[11]。
識別流程如圖2所示:
圖2 識別流程
步驟如下所示:
Step1:將定義好的圖記作G,在空間維度上,將圖卷積運算做如下定義
(8)
式(8)中,v代表時空圖上的頂點,fin代表目標的特征映射參數(shù),vrj代表節(jié)點j的鄰居節(jié)點集合,w代表權重函數(shù)。
Step2:空間維度轉(zhuǎn)換,公式如下
(9)
式(9)中,k代表卷積核大小,A代表臨接矩陣的歸一化參數(shù),M代表權重矩陣,e代表點積。
基于上述過程,在時間維度上轉(zhuǎn)換輸出的特征圖維度,提取時間特征,實現(xiàn)時間圖卷積運算[12]。
Step3:引入多注意力機制,優(yōu)化連通圖,得到更適合描述的圖結(jié)構(gòu),以更好的完成網(wǎng)球底線正手擊球動作識別,將加入圖注意力模塊后的卷積公式表示為
(10)
式(10)中,Bk代表注意力矩陣。
Step4:在上述注意力模塊設定后,得到初步提取的空間特征[14],為了更好地表現(xiàn)出網(wǎng)球底線正手擊球動作,引入注意力機制[15]。由于每一個信道的關鍵信息都是不一樣的,為此需要設定不同權重,每個權重主要代表某個通道參數(shù)對關鍵特征的貢獻程度[16-17],如果權重大則代表相似性高,需要注意該通道信號,如果通道相關度低,則可以減少這個通道的關注[18]。將全局信息嵌入的信息公式表示為
(11)
式(11)中,H、W分別代表2個權重矩陣,mc代表擠壓操作參數(shù),ie代表第e個通道的權重計算參數(shù),f代表激活函數(shù)。
通過上述過程不斷更新參數(shù),幫助卷積層更好地提取出動作特征,進一步完成網(wǎng)球底線正手擊球動作識別[19-20]。
為驗證提出的基于時空圖卷積神經(jīng)網(wǎng)絡的網(wǎng)球底線正手擊球動作識別方法的有效性,進行對比實驗,將基于特征動作序列的特征識別方法、基于雙流多關系GCNs的識別方法與本文提出的識別方法對比,對比3個方法的識別效果。
在實驗中,通過攝像機采集動作視頻,并將攝像機的參數(shù)調(diào)整幀率為60 fps、分辨率720像素,以保證采集的圖片不出現(xiàn)模糊情況。實驗共分為兩個部分,第一個部分以某網(wǎng)球運動人員為例,分別采用3種方法捕捉擊球動作,分析動作捕捉的準確性。
第一部分實驗采集的原始圖像如圖3所示。
(a)原始圖像1 (b)原始圖像2
第二部分實驗中,以某數(shù)據(jù)集為例,其中包含正手擊球動作、正手拉球動作以及反手擊球動作等,基本情況見表1。
表1 實驗動作
共采集1 200條網(wǎng)球運動數(shù)據(jù),數(shù)據(jù)類型分別為正手擊球、正手拉球、反手擊球、反手拉球以及其他動作,通過多種類型數(shù)據(jù)對所提方法進行分析,以保證實驗的準確性,其中80%的數(shù)據(jù)作為訓練集,其余的20%作為實驗集。
第一部分實驗分別采用3種方法識別所有動作,識別對象為攝像機采集的樣本,對比3種方法識別該樣本在正手擊球上的識別準確性(圖4~5)。
圖4 正手擊球動作捕捉效果1
圖5 正手擊球動作捕捉效果2
分析上圖能發(fā)現(xiàn),在正手擊球動作捕捉上,所提出的識別方法能夠較為準確地捕捉到擊球動作,而另外2個動作識別方法在動作捕捉上存在一定程度的偏差,無法準確識別出擊球動作,從而會影響到擊球動作的識別效果,說明本文方法在識別的準確度方面略優(yōu)于傳統(tǒng)動作識別方法。
第二部分的實驗結(jié)果如圖6~7所示。
圖6 正手擊球動作識別準確度對比 圖7 動作識別時間對比
基于圖6能夠發(fā)現(xiàn),在正手擊球動作識別上,所提出的識別方法識別準確性都較高,其識別的數(shù)量基本達到了200個,該值與表1中正手擊球動作樣本數(shù)量一致,該數(shù)值未超過正手擊球動作樣本數(shù)量,準確識別出正手擊球動作并且相對穩(wěn)定,未出現(xiàn)較大的波動,但是對比方法的識別數(shù)量均超過了200個,識別方法將其他動作識別為正手擊球動作,其中基于特征動作序列的動態(tài)手勢識別方法在實驗次數(shù)為5次時,最高識別數(shù)量達到了600個,該數(shù)值遠遠超過了實驗中提供的正手擊球動作樣本數(shù)量,并且識別數(shù)量隨著實驗次數(shù)增加而增加,上升幅度也最大,表明該方法識別準確性低?;陔p流多關系GCNs的骨架動作識別方法在實驗次數(shù)為5次時,識別數(shù)達到了405個,該數(shù)值遠遠超過正手擊球動作的樣本數(shù)量200個,呈現(xiàn)明顯的上升趨勢,但是低于基于特征動作序列的動態(tài)手勢識別方法。相對于以上2個方法,本文提出的方法識別準確度較高,識別數(shù)量分別低于對比方法400個和205個,因此,本文方法應用效果最好,另外兩個方法出現(xiàn)多識別的情況。
為了進一步分析設計方法的識別性能,以識別時間為實驗指標,可以有效反映識別方法的耗時性能,該指標值越低,表明識別方法的性能越好,實驗對象為1 200個動作,統(tǒng)計識別正手擊球動作運行的時間,實驗具體結(jié)果結(jié)果如圖7所示。
通過圖7能夠看出,在幾次實驗中,所提出的正手擊球動作識別時間均少于另外兩種方法,最多識別時間僅為1.3 min,平均識別時間不超過1 min,且識別速度比較平均,說明該方法具有較好的穩(wěn)定性?;谔卣鲃幼餍蛄械膭討B(tài)手勢識別方法的識別時間最高達到了6.8 min,平均識別時間為4.2 min,且通過觀察圖像曲線可以發(fā)現(xiàn)該方法識別時間波動較大,在實際應用中穩(wěn)定性價差。基于雙流多關系GCNs骨架動作識別方法雖然識別時間較為穩(wěn)定,但耗時遠遠高于本文方法。因此,3種方法相比可知,本文方法的優(yōu)越性較強,并且具有一定的穩(wěn)定性。
基于上述分析,完成擊球動作識別方法的設計。此次研究的創(chuàng)新之處和主要結(jié)論:①預處理數(shù)據(jù),并建立運動員骨骼數(shù)據(jù)集,同時實時調(diào)整骨骼的關鍵點;②聚合周圍節(jié)點,豐富骨骼序列空間特征,通過時空圖卷積神經(jīng)網(wǎng)絡實現(xiàn)了擊球動作識別;③所提出的擊球動作識別有效提高了動作識別效果,并且在多種類型的動作中,可以有效識別出正手擊球動作,識別數(shù)量達到了200個,同時識別時間僅為1.3 min,降低了5.5 min。因此,該方法有效提高了識別準確度,降低了識別時間,提高了識別效率。
由于網(wǎng)球運動較為復雜,當前圖卷積網(wǎng)絡還有部分缺陷需要完善,在后續(xù)研究中可以建立更加豐富的網(wǎng)球動作數(shù)據(jù)集,為動作識別提供參考。