摘 要:為了實(shí)現(xiàn)體育訓(xùn)練關(guān)鍵動(dòng)作的精準(zhǔn)定位,提出基于弱監(jiān)督信息的體育訓(xùn)練關(guān)鍵動(dòng)作定位方法。本文基于分析幀間差分法采集能夠組成連續(xù)靜態(tài)幀的視覺(jué)圖像,并通過(guò)多幀圖像的像素差異來(lái)檢測(cè)運(yùn)動(dòng)目標(biāo),實(shí)現(xiàn)視頻幀圖像中的體育訓(xùn)練動(dòng)作檢測(cè);對(duì)視頻幀二值圖像進(jìn)行形態(tài)學(xué)處理,提取體育訓(xùn)練關(guān)鍵運(yùn)動(dòng)特征;利用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建分類(lèi)器,提取包含關(guān)鍵動(dòng)作的弱監(jiān)督信息;創(chuàng)新性地基于弱監(jiān)督學(xué)習(xí)思路,設(shè)計(jì)包含視頻特征提取模塊、視頻幀級(jí)動(dòng)作分類(lèi)模塊、上下文注意力模塊的弱監(jiān)督學(xué)習(xí)框架,進(jìn)行體育訓(xùn)練關(guān)鍵動(dòng)作定位。實(shí)驗(yàn)結(jié)果表明:利用本文的設(shè)計(jì)方法可以產(chǎn)生較準(zhǔn)確的訓(xùn)練關(guān)鍵動(dòng)作時(shí)序定位效果,所獲取的mAP值最高值為49.52、最低值為25.63。在應(yīng)用過(guò)程中所產(chǎn)生的實(shí)際內(nèi)存占用量為2 145MB、參數(shù)量為15.3M、整體定位消耗時(shí)間為8.36ms,算法整體復(fù)雜度較低,具有較好的實(shí)際應(yīng)用效果。
關(guān)鍵詞:弱監(jiān)督信息;體育訓(xùn)練;動(dòng)作定位;圖像處理
中圖分類(lèi)號(hào):TP391.6文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1673-260X(2024)11-0017-05
體育訓(xùn)練視頻中通常承載著大量的運(yùn)動(dòng)員動(dòng)作信息以及運(yùn)動(dòng)訓(xùn)練環(huán)境背景信息,如運(yùn)動(dòng)姿勢(shì)、速度呈現(xiàn)、運(yùn)動(dòng)方向以及訓(xùn)練環(huán)境上下文信息等,包含了體育訓(xùn)練過(guò)程與運(yùn)動(dòng)動(dòng)作的視覺(jué)記錄,是呈現(xiàn)運(yùn)動(dòng)員體育訓(xùn)練實(shí)時(shí)動(dòng)作的重要載體[1,2]。而體育訓(xùn)練關(guān)鍵動(dòng)作定位的目的是需要在訓(xùn)練視頻中標(biāo)記出具有時(shí)序關(guān)系的關(guān)鍵訓(xùn)練動(dòng)作,以此對(duì)應(yīng)地提升體育訓(xùn)練動(dòng)作準(zhǔn)確性,優(yōu)化體育訓(xùn)練效果。郭文斌等人提出一種考慮多時(shí)間尺度一致性的體育訓(xùn)練動(dòng)作定位方法,基于訓(xùn)練視頻的時(shí)序關(guān)系,對(duì)應(yīng)構(gòu)建包含多時(shí)間尺度信息的特征激活圖,有效獲取了動(dòng)作預(yù)測(cè)標(biāo)簽,實(shí)現(xiàn)訓(xùn)練動(dòng)作的有效定位[3]。王靜等人提出一種基于特征挖掘技術(shù)的動(dòng)作定位方法,通過(guò)計(jì)算訓(xùn)練視頻片段的相似分?jǐn)?shù),聚合包含上下文的視頻信息,有效實(shí)現(xiàn)訓(xùn)練動(dòng)作的完整定位[4]。侯永宏等人提出一種多分注意力單元的動(dòng)作定位系統(tǒng)架構(gòu),通過(guò)應(yīng)用多分注意力機(jī)制,對(duì)視頻中的多片段分別進(jìn)行建模,有效細(xì)化提取視頻動(dòng)作特征,實(shí)現(xiàn)動(dòng)作時(shí)間的精準(zhǔn)感知[5]?;诖?,提出基于弱監(jiān)督信息的體育訓(xùn)練關(guān)鍵動(dòng)作定位方法。
1 體育訓(xùn)練關(guān)鍵動(dòng)作定位方法設(shè)計(jì)
1.1 體育訓(xùn)練動(dòng)作檢測(cè)
在體育訓(xùn)練的實(shí)踐中,考慮到體育訓(xùn)練中關(guān)鍵動(dòng)作的連續(xù)性與動(dòng)態(tài)性,在體育訓(xùn)練關(guān)鍵動(dòng)作定位前,需要采用高分辨率的幀掃描技術(shù),對(duì)訓(xùn)練視頻進(jìn)行連續(xù)幀數(shù)分割,獲取多個(gè)視頻塊。再基于每個(gè)視頻塊,通過(guò)幀間差分法采集能夠組成連續(xù)靜態(tài)幀的機(jī)器視覺(jué)圖像[6,7],捕捉訓(xùn)練動(dòng)作在某一時(shí)刻的具體狀態(tài),實(shí)現(xiàn)體育訓(xùn)練動(dòng)作檢測(cè),為弱監(jiān)督學(xué)習(xí)提供數(shù)據(jù)基礎(chǔ)。高分辨率幀掃描技術(shù)在體育訓(xùn)練中的應(yīng)用,主要依賴(lài)于其能夠提供精細(xì)的圖像細(xì)節(jié)和連續(xù)的動(dòng)態(tài)捕捉能力。該技術(shù)通過(guò)高速攝像設(shè)備捕捉訓(xùn)練過(guò)程中的每一幀畫(huà)面,確保每一動(dòng)作的細(xì)微變化都能被精確記錄。在實(shí)際操作中,訓(xùn)練視頻首先被輸入高分辨率幀掃描系統(tǒng)中,系統(tǒng)會(huì)根據(jù)預(yù)設(shè)的參數(shù)自動(dòng)進(jìn)行幀數(shù)分割,將整個(gè)訓(xùn)練過(guò)程分解為一系列連續(xù)的視頻塊。這些視頻塊不僅包含了動(dòng)作的完整信息,還保留了動(dòng)作間的動(dòng)態(tài)聯(lián)系,為后續(xù)的動(dòng)作分析和檢測(cè)提供了堅(jiān)實(shí)的基礎(chǔ)。通過(guò)這種方式,高分辨率幀掃描技術(shù)不僅提高了訓(xùn)練視頻的分析效率,還極大提升了動(dòng)作捕捉的準(zhǔn)確性和連續(xù)性。
在獲取視頻塊的過(guò)程中,首先需要對(duì)經(jīng)過(guò)高分辨率幀掃描技術(shù)分割后的視頻進(jìn)行細(xì)致的分析。這一步驟至關(guān)重要,因?yàn)樗苯佑绊懙胶罄m(xù)處理的質(zhì)量和效率。通過(guò)對(duì)視頻的每一幀進(jìn)行精確的定位和切割,可以確保每個(gè)視頻塊都包含關(guān)鍵動(dòng)作的完整信息。這些視頻塊不僅保留了動(dòng)作的連續(xù)性,還捕捉到了動(dòng)作的動(dòng)態(tài)變化,為后續(xù)的幀間差分法提供了豐富的數(shù)據(jù)源。在處理每個(gè)視頻塊時(shí),需要特別注意保持幀與幀之間的連貫性,確保從每個(gè)視頻塊中提取的靜態(tài)幀能夠準(zhǔn)確反映動(dòng)作在某一時(shí)刻的具體狀態(tài)。這一過(guò)程不僅需要技術(shù)上的精確操作,還需要對(duì)體育訓(xùn)練動(dòng)作有深入的理解和分析,以確保最終的圖像數(shù)據(jù)能夠?yàn)轶w育訓(xùn)練動(dòng)作檢測(cè)提供堅(jiān)實(shí)的基礎(chǔ)。
定義采集到的體育訓(xùn)練動(dòng)作視頻塊為Q,體育訓(xùn)練視頻幀圖像為q。為了便于進(jìn)行體育訓(xùn)練動(dòng)作檢測(cè),對(duì)視頻幀圖像進(jìn)行灰度處理,通過(guò)灰度色彩空間轉(zhuǎn)化,將色彩信息轉(zhuǎn)化為單一亮度值,以簡(jiǎn)化視頻幀圖像,具體過(guò)程為:
=0.299R1(m1′,m2′)+0.587R2(m1′,m2′)
+0.114R3(m1′,m2′)(1)
式中:表示經(jīng)過(guò)灰度色彩空間轉(zhuǎn)化后的單色圖像;m1′、m2′表示q中的像素值;R1(m1′,m2′)、R2(m1′,m2′)、R3(m1′,m2′)表示原始彩色圖像中像素m1′、m2′的顏色通道值;0.299、0.587、0.114分別對(duì)應(yīng)各顏色通道亮度值的加權(quán)平均結(jié)果。
基于,定義前一幀圖像為-1,后一幀圖像為+1,通過(guò)差分運(yùn)算生成差分圖像為:
′(m1′,m2′)=|[+1(m1′,m2′)]-[-1(m1′,m2′)]| (2)
式中:′(m1′,m2′)表示差分運(yùn)算后的差分圖像。
在獲取′(m1′,m2′)的基礎(chǔ)上,將′(m1′,m2′)作為固定差分值。定義一個(gè)閾值?啄,用于判斷差分圖像中的像素是否代表動(dòng)作,如果′(m1′,m2′)中某個(gè)像素的值超過(guò)了?啄,則判定該像素點(diǎn)位置是體育訓(xùn)練動(dòng)作產(chǎn)生的位置。則視頻幀二值圖像計(jì)算過(guò)程為:
\"(m1′,m2′)=1,|′(m1′,m2′)|gt;?啄0,|′(m1′,m2′)|≤?啄(3)
式中:\"(m1′,m2′)表示二值圖像。
若差分值大于?啄,則\"(m1′,m2′)設(shè)為1,表示該像素點(diǎn)位置有動(dòng)作發(fā)生;如果差分值小于或等于?啄,則\"(m1′,m2′)設(shè)為0,表示該像素點(diǎn)位置沒(méi)有動(dòng)作發(fā)生。以此通過(guò)多幀圖像的像素差異來(lái)檢測(cè)運(yùn)動(dòng)目標(biāo),實(shí)現(xiàn)視頻幀圖像中體育訓(xùn)練動(dòng)作檢測(cè)。
1.2 體育訓(xùn)練關(guān)鍵運(yùn)動(dòng)特征提取
考慮到二值圖像存在噪聲干擾情況,容易影響訓(xùn)練動(dòng)作發(fā)生位置判別的準(zhǔn)確性,導(dǎo)致視頻運(yùn)動(dòng)特征提取結(jié)果出現(xiàn)冗余與特征點(diǎn)丟失情況,因此對(duì)\"(m1′,m2′)進(jìn)行形態(tài)學(xué)處理,去除噪聲點(diǎn)和不重要的孤立像素[8],連接相鄰的動(dòng)作區(qū)域,實(shí)現(xiàn)二值圖像中像素位置的更新,以確定動(dòng)作發(fā)生的最終位置,具體過(guò)程為:
\"(m1\",m2\")={1|c1,c2∈S(m1′,m2′),\"(c1,c2)}(4)
(m1?蓯,m2?蓯)={1|c1,c2∈(m1′,m2′),\"(c1,c2))}(5)
\"(m1\",m2\")=[(\"(c1,c2))](6)
式中:(m1\",m2\")表示腐蝕后的圖像在(m1\",m2\")處的值;c1,c2表示原始二值圖像位置;S表示膨脹處理過(guò)程中引入的3×3的結(jié)構(gòu)元素(二值矩陣); (m1?蓯,m2?蓯)表示膨脹后的圖像在(m1?蓯,m2?蓯)處的值;\"(m1′,m2′)表示融合腐蝕-膨脹操作的運(yùn)算結(jié)果;表示腐蝕處理過(guò)程中引入的3×3的結(jié)構(gòu)元素。
基于式(4)—式(6)的形態(tài)學(xué)處理過(guò)程,進(jìn)行二值圖像中像素位置更新。將結(jié)構(gòu)元素在(m1?蓯,m2?蓯)上滑動(dòng),使得其的中心與c1,c2對(duì)齊。如果覆蓋的所有像素位置在\"(m1′,m2′)中的對(duì)應(yīng)值全部為1,則(m1?蓯,m2?蓯)=1,表示該像素點(diǎn)位置有動(dòng)作發(fā)生;對(duì)于腐蝕后的圖像(m1\",m2\")中的每個(gè)像素位置c1,c2,將結(jié)構(gòu)元素S在圖像(m1\",m2\")上滑動(dòng),使得S(m1′,m2′)的中心與c1,c2對(duì)齊。如果S覆蓋的任何像素位置在(m1\",m2\")中對(duì)應(yīng)的值是1,則(m1\",m2\")=1。
通過(guò)分析形態(tài)處理過(guò)程中二值圖像中的像素點(diǎn)位置,定義動(dòng)作區(qū)域?yàn)椋╩1?蓯m1\",m2?蓯m2\")。對(duì)Q進(jìn)行裁剪,獲取包含動(dòng)作的視頻幀圖像片段Qm?蓯,m\",其中m?蓯、m\"均表示片段中連續(xù)靜態(tài)圖像的像素位置。
設(shè)定a為Qm?蓯,m\"中具有穩(wěn)定結(jié)構(gòu)特性的輪廓起點(diǎn)(本文選為人體頭部頂點(diǎn)),為上半身輪廓終點(diǎn),即運(yùn)動(dòng)員手部移動(dòng)邊緣點(diǎn),為下半身身體輪廓終點(diǎn),即運(yùn)動(dòng)員腳底邊緣點(diǎn)。提取Qm?蓯,m\"中的體育訓(xùn)練運(yùn)動(dòng)輪廓為A且A=[a1(1+1),a2(2+2),…,an(n+n),其中n表示視頻輪廓點(diǎn)采集總量[9]。為了分析運(yùn)動(dòng)輪廓呈現(xiàn)的關(guān)鍵動(dòng)作特征,將A視為一個(gè)時(shí)間序列信號(hào),其中每個(gè)輪廓點(diǎn)對(duì)應(yīng)時(shí)間序列中的一個(gè)樣本。再通過(guò)傅里葉變換提取輪廓的低頻和高頻成分,得到輪廓序列的頻域表示X(k),k=0,1,2,…,n-1,對(duì)應(yīng)輪廓的總體形狀變化和局部細(xì)節(jié)變化[10]。從X(k)中提取前個(gè)傅里葉系數(shù)作為體育訓(xùn)練運(yùn)動(dòng)特征描述子X(jué)(0),X(1),…,X(-1),提取的描述子即為保留了輪廓主要形狀信息的關(guān)鍵動(dòng)作特征分量[11]。再對(duì)提取的傅里葉系數(shù)進(jìn)行歸一化處理提取關(guān)鍵動(dòng)作特征向量為:
(k)=,k=1,2,…,-1(7)
式中:(k)表示歸一化后的體育訓(xùn)練關(guān)鍵動(dòng)作特征向量。
1.3 基于弱監(jiān)督信息的體育訓(xùn)練關(guān)鍵動(dòng)作定位
1.3.1 包含關(guān)鍵動(dòng)作的弱監(jiān)督信息提取識(shí)別
考慮到(k)中包括了從Qm?蓯,m\"中提取出的較為全面的關(guān)鍵動(dòng)作特征(即可以通過(guò)(k)描述Qm?蓯,m\"),因此,將(k)作為輸入,利用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建分類(lèi)器,輸出體育訓(xùn)練關(guān)鍵動(dòng)作分類(lèi)結(jié)果,再根據(jù)輸出結(jié)果選取Qm?蓯,m\"中被分類(lèi)為包含關(guān)鍵動(dòng)作的幀,這些幀將構(gòu)成視頻段中的關(guān)鍵動(dòng)作片段[12]。用于構(gòu)建分類(lèi)器的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
由圖1可知,BP神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元接收來(lái)自前一層神經(jīng)元的輸入,并將所有輸入值與其對(duì)應(yīng)的權(quán)重相乘,對(duì)乘積結(jié)果進(jìn)行求和,獲取所有輸入通過(guò)各自權(quán)重加權(quán)后的綜合影響[13]。然后應(yīng)用softmax函數(shù)來(lái)決定是否以及如何將信號(hào)傳遞到下一層。當(dāng)隱含層的輸出進(jìn)一步傳遞到輸出層后,應(yīng)用交叉熵?fù)p失函數(shù)衡量網(wǎng)絡(luò)輸出與真實(shí)標(biāo)簽之間的差異[14],幫助網(wǎng)絡(luò)優(yōu)化權(quán)重,使得網(wǎng)絡(luò)能夠更準(zhǔn)確地識(shí)別出視頻中的關(guān)鍵動(dòng)作,輸出最終體育訓(xùn)練關(guān)鍵動(dòng)作分類(lèi)結(jié)果Y(1)、Y(2)、Y(3),獲取包含關(guān)鍵動(dòng)作的視頻幀圖像片段,其中y′、y\"表示被分類(lèi)為包含關(guān)鍵動(dòng)作的幀。
此時(shí),由于輸出的僅包含關(guān)鍵動(dòng)作的視頻幀,整體片段未經(jīng)過(guò)詳細(xì)的動(dòng)作邊界標(biāo)注(僅簡(jiǎn)單地標(biāo)記了包含關(guān)鍵動(dòng)作的幀),因此將作為包含關(guān)鍵動(dòng)作的弱監(jiān)督信息提取結(jié)果。
1.3.2 基于弱監(jiān)督學(xué)習(xí)的體育訓(xùn)練關(guān)鍵動(dòng)作定位
為了實(shí)現(xiàn)體育訓(xùn)練關(guān)鍵動(dòng)作的精準(zhǔn)定位,設(shè)計(jì)包含視頻特征提取模塊、視頻幀級(jí)動(dòng)作分類(lèi)模塊、上下文注意力模塊的弱監(jiān)督學(xué)習(xí)框架[15],進(jìn)行體育訓(xùn)練關(guān)鍵動(dòng)作定位?;谌醣O(jiān)督學(xué)習(xí)的動(dòng)作定位方法框架如圖2所示。
基于圖2方法框架,在特征提取模塊,為了有效處理數(shù)據(jù),本文應(yīng)用I3D深度學(xué)習(xí)模型,提取的空間流與時(shí)間流特征,即處理視頻的靜態(tài)幀與時(shí)間動(dòng)態(tài)。在視頻幀級(jí)動(dòng)作分類(lèi)模塊,本文基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建分類(lèi)模型,首先從的每一幀中提取雙流特征,再將特征傳輸至后續(xù)層進(jìn)行幀級(jí)處理,識(shí)別視頻幀中的潛在動(dòng)作。對(duì)于每一幀,CNN模型會(huì)輸出一個(gè)激活向量,這個(gè)向量代表了模型對(duì)每一幀屬于不同類(lèi)別的可能性估計(jì),即該模型最終對(duì)視頻中每一幀生成一個(gè)分類(lèi)激活值的序列。在上下文注意力模塊中,主要涉及了包含上下文以及視頻幀級(jí)圖像動(dòng)作背景分布結(jié)構(gòu),用于提取動(dòng)作幀與上下文幀特征,并生成包含時(shí)序信息的背景類(lèi)別標(biāo)簽。在獲取類(lèi)別標(biāo)簽的基礎(chǔ)上,基本上實(shí)現(xiàn)了弱監(jiān)督學(xué)習(xí)模型的訓(xùn)練,此時(shí)需要對(duì)分類(lèi)激活序列進(jìn)行置信度閾值調(diào)整、分類(lèi)輸出聚類(lèi)以及弱監(jiān)督信息的標(biāo)注修正,以此完成體育訓(xùn)練關(guān)鍵動(dòng)作定位。
2 實(shí)驗(yàn)分析
2.1 實(shí)驗(yàn)環(huán)境搭建
為了驗(yàn)證設(shè)計(jì)方法的實(shí)際應(yīng)用效果,采集選擇24個(gè)運(yùn)動(dòng)員進(jìn)行日常體育訓(xùn)練,在訓(xùn)練過(guò)程中記錄運(yùn)動(dòng)員演示的各種體育動(dòng)作,共獲得210條體育訓(xùn)練視頻,構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集。數(shù)據(jù)集中包含16類(lèi)體育訓(xùn)練動(dòng)作,關(guān)鍵動(dòng)作為5類(lèi),分別為上肢伸肌屈伸動(dòng)作、雙腳前后跳動(dòng)作、站立提膝動(dòng)作、碎步跑動(dòng)作、開(kāi)合波比跳動(dòng)作。視頻長(zhǎng)度在40s~110s不等,每條視頻約平均包含8.5個(gè)動(dòng)作片段。采用數(shù)據(jù)集中100條具有時(shí)序信息的視頻作為訓(xùn)練集,另110條視頻作為測(cè)試集,進(jìn)行實(shí)驗(yàn)測(cè)試。數(shù)據(jù)集中閾值IoU范圍為0.3~0.7,平均間隔為0.1。數(shù)據(jù)集中部分視頻片段如圖3所示。
基于采集的視頻數(shù)據(jù),進(jìn)行體育訓(xùn)練關(guān)鍵動(dòng)作定位方法性能測(cè)試,測(cè)試環(huán)境為:Intel Core i7-10700K中央處理器,8核心16線(xiàn)程、基礎(chǔ)頻率3.8GHz、最大睿頻5.1GHz;NVIDIA GeForce RTX 3080圖形處理器,10GB GDDR6X顯存、8704 CUDA核心、基礎(chǔ)頻率1.44GHz;Samsung 970 EVO Plus 1TB存儲(chǔ)設(shè)備;Magewell USB Capture HDMI Gen 2視頻采集卡、Ubuntu 20.04 LTS操作系統(tǒng)、OpenCV 4.5.1視頻處理庫(kù)。
2.2 體育訓(xùn)練關(guān)鍵動(dòng)作識(shí)別效果分析
為了驗(yàn)證設(shè)計(jì)方法的關(guān)鍵動(dòng)作識(shí)別效果,采用訓(xùn)練集構(gòu)建關(guān)鍵動(dòng)作識(shí)別模型(基于BP神經(jīng)網(wǎng)絡(luò)的分類(lèi)器模型),利用設(shè)計(jì)方法、文獻(xiàn)[3]方法、文獻(xiàn)[4]方法對(duì)測(cè)試集進(jìn)行關(guān)鍵動(dòng)作識(shí)別效果驗(yàn)證。在測(cè)試過(guò)程中,將上肢伸肌屈伸動(dòng)作、雙腳前后跳動(dòng)作、站立提膝動(dòng)作、碎步跑動(dòng)作、開(kāi)合波比跳動(dòng)作等5類(lèi)關(guān)鍵動(dòng)作作為識(shí)別目標(biāo),通過(guò)分析設(shè)計(jì)方法對(duì)目標(biāo)的誤識(shí)率,判斷關(guān)鍵動(dòng)作識(shí)別有效性,體育訓(xùn)練關(guān)鍵動(dòng)作識(shí)別有效性結(jié)果如圖4所示。
由圖4可知,在體育訓(xùn)練關(guān)鍵動(dòng)作識(shí)別過(guò)程中,利用文獻(xiàn)[3]方法獲取的關(guān)鍵動(dòng)作誤識(shí)率最高值為62.5%,利用文獻(xiàn)[4]方法的誤識(shí)率最高為68%,方法整體動(dòng)作目標(biāo)誤識(shí)率均較高。而利用設(shè)計(jì)方法對(duì)5種關(guān)鍵動(dòng)作的誤識(shí)率均未超過(guò)10%,對(duì)于雙腳前后跳動(dòng)作的誤識(shí)率最高為9.8%,誤識(shí)率結(jié)果整體低于其他兩種算法。由此可知,利用本文的設(shè)計(jì)方法可以有效識(shí)別體育訓(xùn)練視頻中包含關(guān)鍵動(dòng)作的視頻幀,使體育動(dòng)作識(shí)別整體結(jié)果的有效性較強(qiáng),識(shí)別效果較好。
2.3 體育訓(xùn)練關(guān)鍵動(dòng)作定位效果分析
為了驗(yàn)證本文設(shè)計(jì)方法的體育訓(xùn)練關(guān)鍵動(dòng)作定位效果,引入文獻(xiàn)[3]方法、文獻(xiàn)[4]方法作為對(duì)比方法將每一視頻幀的標(biāo)記定位任務(wù)作為一個(gè)動(dòng)作檢索問(wèn)題進(jìn)行處理。將110條測(cè)試數(shù)據(jù)集中所有幀進(jìn)行動(dòng)作分類(lèi)排序,再對(duì)所有類(lèi)進(jìn)行平均計(jì)算,得到定位精度均值(mAP)?;谏鲜鲞^(guò)程,本文將實(shí)驗(yàn)數(shù)據(jù)集的重疊閾值IoU范圍定位在0.3~0.7中,對(duì)比分析不同方法在閾值范圍所產(chǎn)生的mAP值,不同方法體育訓(xùn)練關(guān)鍵動(dòng)作定位mAP值如表1所示。
由表1可知,在IoU閾值范圍內(nèi),利用本文設(shè)計(jì)方法所獲取的mAP值最高值為49.52,最低值為25.63,整體定位精度均高于其他方法。由此可知,利用本文設(shè)計(jì)方法可以產(chǎn)生較準(zhǔn)確的訓(xùn)練關(guān)鍵動(dòng)作時(shí)序定位效果,能夠在整體定位過(guò)程中得到更加精確的關(guān)鍵動(dòng)作區(qū)域,定位結(jié)果精度較高。
2.4 定位方法復(fù)雜度分析
為了分析關(guān)鍵動(dòng)作定位方法在實(shí)際應(yīng)用過(guò)程中的綜合性能表現(xiàn),將定位方法在實(shí)際應(yīng)用中所需的運(yùn)行時(shí)間、參數(shù)量、內(nèi)存占用量作為評(píng)價(jià)指標(biāo),分析設(shè)計(jì)方法、文獻(xiàn)[3]方法、文獻(xiàn)[4]方法的復(fù)雜度,評(píng)價(jià)方法的實(shí)用性與應(yīng)用效率。定位方法復(fù)雜度分析結(jié)果如表2所示。
由表2可知,在體育訓(xùn)練關(guān)鍵動(dòng)作識(shí)別過(guò)程中,利用設(shè)計(jì)方法所產(chǎn)生的實(shí)際內(nèi)存占用量為2 145MB、參數(shù)量為15.3M、整體定位消耗時(shí)間(包括具有時(shí)序信息的動(dòng)作定位結(jié)果輸出過(guò)程)為8.36ms,算法整體復(fù)雜度較低,表示模型結(jié)構(gòu)更精簡(jiǎn),運(yùn)行成本較低,能夠提供快速的實(shí)時(shí)反饋,同時(shí)減少了對(duì)高性能硬件的依賴(lài)。
3 結(jié)論
綜上所述,本文設(shè)計(jì)的動(dòng)作定位方法能夠在不需要大量精確標(biāo)注的情況下,有效實(shí)現(xiàn)體育訓(xùn)練關(guān)鍵動(dòng)作的識(shí)別與定位,有效提升了體育訓(xùn)練關(guān)鍵動(dòng)作分析的準(zhǔn)確性。本文通過(guò)檢測(cè)體育訓(xùn)練動(dòng)作,提取體育訓(xùn)練關(guān)鍵運(yùn)動(dòng)特征,獲取包含體育訓(xùn)練關(guān)鍵動(dòng)作的弱監(jiān)督信息?;诖?,將弱監(jiān)督信息作為弱監(jiān)督學(xué)習(xí)的輸入,設(shè)計(jì)視頻特征提取模塊、視頻幀級(jí)動(dòng)作分類(lèi)模塊、上下文注意力模塊進(jìn)行關(guān)鍵動(dòng)作定位。實(shí)驗(yàn)結(jié)果表明:利用設(shè)計(jì)方法可以有效識(shí)別體育訓(xùn)練視頻中包含關(guān)鍵動(dòng)作的視頻幀,使體育動(dòng)作識(shí)別整體結(jié)果的有效性較強(qiáng),識(shí)別效果較好。同時(shí),利用設(shè)計(jì)方法還能夠在整體定位過(guò)程中得到更加精確的關(guān)鍵動(dòng)作區(qū)域,定位結(jié)果精度較高。
參考文獻(xiàn):
〔1〕劉和軍.基于深度學(xué)習(xí)的體操錯(cuò)誤訓(xùn)練動(dòng)作識(shí)別方法[J].信息技術(shù),2023,47(02):46-51.
〔2〕徐林森,張恒瑋,陳根,等.采用深度學(xué)習(xí)和表面肌電信號(hào)的上肢動(dòng)作識(shí)別[J].哈爾濱理工大學(xué)學(xué)報(bào),2023,28(06):24-32.
〔3〕郭文斌,楊興明,蔣哲遠(yuǎn),等.多時(shí)間尺度一致性的弱監(jiān)督時(shí)序動(dòng)作定位[J].計(jì)算機(jī)工程與應(yīng)用,2023, 59(10):151-161.
〔4〕王靜,王傳旭.特征挖掘與區(qū)域增強(qiáng)的弱監(jiān)督時(shí)序動(dòng)作定位[J].計(jì)算機(jī)應(yīng)用研究,2023,40(08):2555-2560.
〔5〕侯永宏,李岳陽(yáng),郭子慧.基于對(duì)比學(xué)習(xí)的弱監(jiān)督時(shí)序動(dòng)作定位[J].天津大學(xué)學(xué)報(bào),2023,56(01):73-80.
〔6〕董春麗,胡賢芬.融合幀內(nèi)與幀間技術(shù)的數(shù)字視頻篡改檢測(cè)方法[J].計(jì)算機(jī)仿真,2023,40(06):182-186.
〔7〕劉思楊,程方.一種融合背景差分和幀間差分的運(yùn)動(dòng)目標(biāo)檢測(cè)方法[J].艦船電子工程,2024,44(02):45-48.
〔8〕寧明峰.一種信號(hào)檢測(cè)預(yù)處理的改進(jìn)多尺度形態(tài)學(xué)濾波方法[J].電訊技術(shù),2023,63(04):499-504.
〔9〕李豪,袁廣林,秦曉燕,等.基于空間加權(quán)對(duì)數(shù)似然比相關(guān)濾波與Deep Snake的目標(biāo)輪廓跟蹤[J].電子學(xué)報(bào),2023,51(01):105-116.
〔10〕張印輝,海維琪,何自芬,等.尺度自適應(yīng)生成調(diào)控的弱監(jiān)督視頻實(shí)例分割[J].光學(xué)精密工程,2023, 31(18):2736-2751.
〔11〕游前,翁慧,趙江,等.基于改進(jìn)Goldstein枝切法的傅里葉變換輪廓術(shù)[J].光學(xué)學(xué)報(bào),2023,43(05):70-79.
〔12〕黃富幸,韓文花.基于Voting機(jī)制的IMA-BP不平衡數(shù)據(jù)分類(lèi)算法[J].科學(xué)技術(shù)與工程,2023,23(27):11698-11705.
〔13〕趙楊鑫,曹旭,余志強(qiáng),等.基于殘差BP神經(jīng)網(wǎng)絡(luò)的Baxter機(jī)器人逆運(yùn)動(dòng)學(xué)分析方法[J].安徽工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,41(02):165-172.
〔14〕李偉,黃鶴鳴.基于雙交叉熵的自適應(yīng)殘差卷積圖像分類(lèi)算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2023,44(12):3670-3676.
〔15〕侯永宏,李岳陽(yáng),郭子慧.基于對(duì)比學(xué)習(xí)的弱監(jiān)督時(shí)序動(dòng)作定位[J].天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2023,56(01):73-80.
收稿日期:2024-07-17
基金項(xiàng)目:安徽省質(zhì)量工程重點(diǎn)教學(xué)研究項(xiàng)目(2023jyxm0783)
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2024年11期