亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        RFC-Net:基于殘差結(jié)構(gòu)的動(dòng)作質(zhì)量評估網(wǎng)絡(luò)

        2022-11-25 02:56:10周嫻瑋陳瑋濤李振豐余松森
        關(guān)鍵詞:特征提取卷積分?jǐn)?shù)

        周嫻瑋,賴 堅(jiān),陳瑋濤,阮 樂,李振豐,余松森

        (華南師范大學(xué) 軟件學(xué)院,廣東 佛山 528010)

        0 引 言

        人類運(yùn)動(dòng)動(dòng)作質(zhì)量評估(Action Quality Assessment,AQA)指的是評估一個(gè)特定動(dòng)作的執(zhí)行情況,為該動(dòng)作進(jìn)行打分。動(dòng)作質(zhì)量評估在現(xiàn)實(shí)中具有巨大的應(yīng)用價(jià)值,如運(yùn)用在體育視頻分析[1-6]、外科醫(yī)生手術(shù)訓(xùn)練[7-8],以及其他的一些技能評估中[9-10]。

        動(dòng)作質(zhì)量評估相較于人類動(dòng)作識別(Human Action Recognition,HAR)更具有挑戰(zhàn)性,因?yàn)镠AR是識別不同類別的動(dòng)作,其動(dòng)作之間差別較大,然而在AQA領(lǐng)域中,處理對象基本上都是同一類別下的動(dòng)作,其動(dòng)作間的差別較為細(xì)微,難以區(qū)別。目前絕大部分的運(yùn)動(dòng),其中運(yùn)動(dòng)員比賽的評分(如跳水[11]、滑冰[12]等),都是由相關(guān)領(lǐng)域的專家評委根據(jù)運(yùn)動(dòng)員的表現(xiàn)給出相應(yīng)的分?jǐn)?shù)。在現(xiàn)實(shí)生活中,一名合格的專家評委是非常稀少的,因?yàn)樗麄儽仨毥?jīng)過長期的訓(xùn)練才能熟悉所有特定的動(dòng)作,因此用自動(dòng)評分系統(tǒng)取代教練評分是未來的一種趨勢,另一方面,自動(dòng)評分系統(tǒng)某種程度來說比較公平公正能夠避免評分丑聞。

        近幾年里在AQA領(lǐng)域提出了許多方法[13-15]試圖解決分?jǐn)?shù)預(yù)測問題,文獻(xiàn)[16]通過對視頻中的運(yùn)動(dòng)員進(jìn)行追蹤,只提取視頻中運(yùn)動(dòng)員有關(guān)的特征。這種方法雖然一定程度上降低了背景因素的干擾,但是對于跳水運(yùn)動(dòng)而言,水花濺起的大小和高度,也是決定最后分?jǐn)?shù)的關(guān)鍵因素,因此不根據(jù)運(yùn)動(dòng)特性而去除背景因素是不太合理的。文獻(xiàn)[17]通過對比學(xué)習(xí)進(jìn)行分?jǐn)?shù)預(yù)測,在數(shù)據(jù)集中挑選部分視頻作為范例視頻,然后通過學(xué)習(xí)范例視頻與輸入視頻之間的相似性來預(yù)測輸入視頻最終的評分。這類方法學(xué)習(xí)的相似度,通常會存在較大的誤差,并且需要人工選擇范例視頻,這在某種程度上增加了預(yù)測的復(fù)雜度。文獻(xiàn)[11,18-20]中的方法都是通過端到端之間的模型進(jìn)行分?jǐn)?shù)預(yù)測。在此類方法中,文獻(xiàn)[11]通過增加卷積層的數(shù)量加強(qiáng)特征提取的效果,但是卷積層數(shù)的增加,會導(dǎo)致網(wǎng)絡(luò)出現(xiàn)了退化,有效特征丟失。文獻(xiàn)[21]使用LSTM作為特征聚合器,LSTM在卷積的頂層只能獲取高層次的動(dòng)作而不能獲取關(guān)鍵的低層次動(dòng)作,作為特征聚合器不能起到一個(gè)很好的效果。

        現(xiàn)有的方法不能有效地執(zhí)行特征聚合,在AQA任務(wù)中需要一種簡單、有效的特征聚合機(jī)制。為解決上述問題,該文提出了一種端到端的RFC-Net(Residual Full Connection Network)模型用于預(yù)測視頻的分?jǐn)?shù)。AQA模型由特征提取器和特征聚合器兩個(gè)部分組成,特征提取器是用于視頻特征提取的網(wǎng)絡(luò),特征聚合器是用于特征聚合以進(jìn)行分?jǐn)?shù)回歸的網(wǎng)絡(luò)。3D Convolutional Networks (C3D)[22]因?yàn)槟芴崛〕鲆曨l中物體信息、場景信息和動(dòng)作信息的特征,不需要根據(jù)特定任務(wù)進(jìn)行微調(diào)都可以取得不錯(cuò)的效果,被廣泛用于動(dòng)作質(zhì)量評估領(lǐng)域。C3D看似更適合做視頻處理,但存在維度問題,經(jīng)過8層卷積層到最后全連接層有4 096個(gè)輸出單元,這樣就會更難訓(xùn)練,并且不能有效地將2D網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重遷移到3D網(wǎng)絡(luò)。所以該文的特征提取器采用Two-Stream Inflated 3D ConvNets (I3D)[23],I3D主要依據(jù)最優(yōu)的圖像網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn),對它們的卷積和池化核從2D擴(kuò)展到3D,并選擇使用它們的參數(shù),最終得到了非常深的時(shí)空分類網(wǎng)絡(luò),并且分別采用了不同幀組成的Clip。該文的特征聚合器由平均池化層和RFC Block組成,其中RFC Block參照殘差網(wǎng)絡(luò)(Residual Networks)的設(shè)計(jì),卷積操作的接受域范圍有限,導(dǎo)致了長期依賴關(guān)系的損失,所以使用全連接層作為權(quán)重層,每層的全連接層之間加入激活函數(shù),最后再恒等映射(identity mapping)聚合所有特征進(jìn)行輸出。

        為進(jìn)一步驗(yàn)證模型在不同背景下、動(dòng)作差異較大時(shí)的泛化能力,該文制作了一類羽毛球運(yùn)動(dòng)的數(shù)據(jù)集簡稱(BS dataset),其中大部分是從視頻媒體共享平臺收集而來的羽毛球運(yùn)動(dòng)的訓(xùn)練視頻。把所收集到的視頻交由專業(yè)的羽毛球教練根據(jù)不同難度的動(dòng)作標(biāo)準(zhǔn)進(jìn)行評分,最后參照MTL-AQA數(shù)據(jù)集的格式對其進(jìn)行標(biāo)簽化操作。與現(xiàn)有的數(shù)據(jù)集相比,該數(shù)據(jù)集有著其他的一些特性。首先視頻是教學(xué)的視頻而不是比賽的視頻,在教學(xué)中動(dòng)作會較為緩慢,能更清楚識別出動(dòng)作;其次羽毛球運(yùn)動(dòng)是人使用長柄網(wǎng)狀球拍擊打羽毛球的體育項(xiàng)目,不僅僅是要考慮人的動(dòng)作是否標(biāo)準(zhǔn),球拍的位置和握拍的方式也會影響動(dòng)作的分?jǐn)?shù);最后該數(shù)據(jù)集包括了不同背景下(不僅僅有羽毛球球場背景,還有居家背景)的教練或?qū)W員打羽毛球的視頻,增加了背景因素的影響,加大了預(yù)測分?jǐn)?shù)的難度。

        RFC-Net方法在MTL-AQA數(shù)據(jù)集以及BS-AQA數(shù)據(jù)集上進(jìn)行了測試。實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型能夠提高視頻中的動(dòng)作分?jǐn)?shù)預(yù)測效果。該文的主要貢獻(xiàn)可以總結(jié)如下:

        (1)針對動(dòng)作質(zhì)量評估中預(yù)測的分?jǐn)?shù)誤差較大問題進(jìn)行改進(jìn)。

        (2)提出了RFC Block用于視頻的特征聚合,消融實(shí)驗(yàn)表明該模塊能夠提高特征聚合的效果。

        (3)提出了一種基于殘差結(jié)構(gòu)的RFC-Net模型,該模型由特征提取器和特征聚合器組成,模型在MTL-AQA數(shù)據(jù)集以及BS-AQA數(shù)據(jù)集中取得了較好的結(jié)果。

        1 相關(guān)工作

        動(dòng)作質(zhì)量評估領(lǐng)域與動(dòng)作識別領(lǐng)域方法相類似,這個(gè)領(lǐng)域幾乎所有的工作都將視頻中人類動(dòng)作表現(xiàn)分?jǐn)?shù)的問題作為一個(gè)回歸問題。文獻(xiàn)[24-25]對方法做了一個(gè)概括,該文按照不同的視頻處理對該領(lǐng)域的方法進(jìn)行劃分,分為基于視頻的方法以及基于人體骨架的方法。

        1.1 基于人體骨架的動(dòng)作質(zhì)量評估

        基于人體骨架的方法表現(xiàn)為,使用姿態(tài)估計(jì)算法對視頻中的人體骨架進(jìn)行識別,通過對姿態(tài)的識別得到人體骨骼各個(gè)關(guān)鍵點(diǎn)的信息。因?yàn)槭菑囊曨l中識別而來的數(shù)據(jù),所以這些關(guān)鍵點(diǎn)的信息是一個(gè)個(gè)二維坐標(biāo),所得到的2D人體骨架信息大多數(shù)使用圖卷積神經(jīng)網(wǎng)絡(luò)提取特征來訓(xùn)練回歸器。

        文獻(xiàn)[26]提出了一種新的時(shí)空金字塔圖卷積網(wǎng)絡(luò)(ST-PGN),用于人體動(dòng)作質(zhì)量評估和姿態(tài)估計(jì),此方法能夠使用來自骨架特征層次的所有特征。作者的另外一篇文獻(xiàn)在此基礎(chǔ)上又提出了一種新的多任務(wù)框架,該框架利用圖卷積網(wǎng)絡(luò)主干把人類骨架關(guān)節(jié)之間的互聯(lián)特性嵌入到所提取的特征中,然后根據(jù)不同的任務(wù)需要進(jìn)行不同的處理[27]。文獻(xiàn)[28]建立了可訓(xùn)練的骨架關(guān)節(jié)關(guān)系圖,并分析了其中的關(guān)節(jié)運(yùn)動(dòng),提出了兩個(gè)新的模塊,聯(lián)合共性模塊和聯(lián)合差異模塊,用于關(guān)節(jié)運(yùn)動(dòng)學(xué)習(xí),此外還有文獻(xiàn)[29-31]也屬于這類方法。

        雖然骨骼數(shù)據(jù)相比視頻數(shù)據(jù),可以去除視頻中背景因素的影響,專注于人體的動(dòng)作姿態(tài),能夠針對于不同環(huán)境下的動(dòng)作進(jìn)行質(zhì)量評估。但是一個(gè)動(dòng)作往往和物品或環(huán)境有著交互的關(guān)系,對只關(guān)注于動(dòng)作本身的骨架信息而言難以分辨出這其中的聯(lián)系。

        1.2 基于視頻的動(dòng)作質(zhì)量評估

        基于視頻的方法表現(xiàn)為,直接把RGB視頻流作為輸入,使用特征提取網(wǎng)絡(luò)來提取視頻中的特征,這種特征包含人體的動(dòng)作信息以及視頻中的環(huán)境信息。這也可以概括為使用模型來學(xué)習(xí)視頻和動(dòng)作分?jǐn)?shù)之間的直接映射,然后采用這種映射關(guān)系用于預(yù)測新的視頻中的動(dòng)作分?jǐn)?shù)。這些工作大多數(shù)使用三維卷積神經(jīng)網(wǎng)絡(luò)來提取視頻特征,然后使用回歸方法來獲得預(yù)測分?jǐn)?shù),不同的論文在分?jǐn)?shù)回歸階段的處理方法也不盡相同。

        隨著視頻分析領(lǐng)域的進(jìn)展,動(dòng)作質(zhì)量評估領(lǐng)域采取更深層次的特征提取網(wǎng)絡(luò)對視頻中的特征進(jìn)行提取,同時(shí)還用不同的方法進(jìn)行分?jǐn)?shù)的回歸。文獻(xiàn)[18]中把動(dòng)作識別中的框架引入到動(dòng)作質(zhì)量評估中,使用C3D以及C3D-LSTM的方法對特征進(jìn)行提取,最后使用SVM回歸預(yù)測分?jǐn)?shù),效果相較于之前論文中的單獨(dú)C3D卷積有了一定的提高。此外,在文獻(xiàn)[13]中還發(fā)布了一個(gè)全新的多任務(wù)動(dòng)作質(zhì)量評估(MTL-AQA)數(shù)據(jù)集,使用了兩種不同的模型C3D-AVG,MSCADC驗(yàn)證多任務(wù)對動(dòng)作質(zhì)量評估的影響。文獻(xiàn)[21]使用C3D提取特征序列,然后用多尺度卷積跳躍LSTM(M-LSTM)和自注意LSTM(S-LSTM)這兩個(gè)獨(dú)立模塊進(jìn)行處理,對特征進(jìn)行聚合,用于預(yù)測分?jǐn)?shù)。文獻(xiàn)[32]引入了LDL(標(biāo)簽分布學(xué)習(xí))方法。在分?jǐn)?shù)回歸階段設(shè)計(jì)了一種不確定性感知分?jǐn)?shù)分布學(xué)習(xí)(USDL)方法來探索一個(gè)分?jǐn)?shù)的組成,通過將給定的單個(gè)分?jǐn)?shù)標(biāo)簽轉(zhuǎn)移到高斯分布分?jǐn)?shù)中進(jìn)行學(xué)習(xí),從而直接估計(jì)動(dòng)作視頻的得分分布。文獻(xiàn)[33]中對其進(jìn)行改進(jìn),解決了USDL不適用于具有連續(xù)標(biāo)簽的數(shù)據(jù)集以及在訓(xùn)練中需要固定的方差的問題,進(jìn)一步開發(fā)了分布式自動(dòng)編碼器(DAE),DAE同時(shí)具有回歸算法和標(biāo)簽分布學(xué)習(xí)(LDL)的優(yōu)點(diǎn)。

        除了直接進(jìn)行分?jǐn)?shù)回歸外,一些學(xué)者也把目光轉(zhuǎn)向了另一種解決方案:文獻(xiàn)[16]使用孿生網(wǎng)絡(luò)在給定的動(dòng)作視頻與參考視頻之間進(jìn)行比較,計(jì)算視頻之間的相似度,從而根據(jù)參考視頻的分?jǐn)?shù)評估出給定視頻的分?jǐn)?shù)。盡管對比回歸框架可以預(yù)測相對分?jǐn)?shù),但是相對分?jǐn)?shù)通常取值范圍很廣,因此文獻(xiàn)[34]提出一個(gè)群意識(group-aware)回歸樹將對比學(xué)習(xí)得到的相對分?jǐn)?shù)做了更為細(xì)致的回歸,該方法是目前AQA領(lǐng)域的SOTA。

        2 基于殘差結(jié)構(gòu)的動(dòng)作質(zhì)量評估方法

        該文使用特征提取器進(jìn)行視頻的特征提取,一個(gè)完整的視頻幀數(shù)量太多,不能夠一次輸入到特征提取器中,首先對視頻進(jìn)行分割處理,然后把分割完的視頻片段分別輸入特征提取器,特征提取器提取的特征向量作為特征聚合器的輸入。為了使預(yù)測的結(jié)果更加接近真實(shí)評分,該文提出了一種由RFC Block和平均池化層構(gòu)成的特征聚合器,聚合的結(jié)果將作為預(yù)測的分?jǐn)?shù)結(jié)果。

        在本章節(jié)將會對RCF-Net模型進(jìn)行詳細(xì)的描述,其中內(nèi)容包括RFC-Net網(wǎng)絡(luò)結(jié)構(gòu),如何對視頻特征進(jìn)行提取以及RFC結(jié)構(gòu)如何聚合視頻特征。

        2.1 特征提取器

        在進(jìn)行特征聚合之前必須得對視頻的特征進(jìn)行提取,對于特征提取網(wǎng)絡(luò)的選擇,之前大部分論文都是采取C3D作為特征提取器,但是一般3D網(wǎng)絡(luò)的深度較淺和參數(shù)過多,這樣影響了模型的表達(dá)能力和加大了訓(xùn)練的難度。而I3D作為較為優(yōu)秀的一種特征提取架構(gòu)被廣泛用于動(dòng)作識別以及動(dòng)作質(zhì)量評估中。它以最新的圖片分類模型為基礎(chǔ)結(jié)構(gòu),將kernels膨脹(inflate)結(jié)合到3D Conv??梢詮囊曨l中學(xué)習(xí)到時(shí)空特征,同時(shí)成功把ImageNet中的預(yù)訓(xùn)練權(quán)重?cái)U(kuò)展到視頻行為識別中,因此RCF-Net模型選取I3D網(wǎng)絡(luò)作為視頻的特征提取網(wǎng)絡(luò)。

        該文所采用的I3D架構(gòu)(見圖2)采用了4個(gè)卷積層、5個(gè)池化層以及Inception 模塊,除最后一個(gè)卷積層之外,在每一個(gè)卷積后面都加入了Batch Normalization層和激活層(ReLU)。

        (1)

        F(x)為視頻通過I3D網(wǎng)絡(luò)所提取的特征,輸出是一個(gè)1 024維的特征向量,隨后把F(x)作為特征聚合器的輸入。

        2.2 特征聚合器

        在動(dòng)作質(zhì)量評估中,一個(gè)視頻中包含的動(dòng)作的視頻幀數(shù)較少,一些模型試圖使用擴(kuò)展更多的卷積進(jìn)行更深層次特征提取。在一定程度上,網(wǎng)絡(luò)越深越大表達(dá)能力就越強(qiáng),提取的不同層次的信息便越多。但是隨著特征提取網(wǎng)絡(luò)層數(shù)的增加,會帶來許多問題,網(wǎng)絡(luò)出現(xiàn)了退化,有效特征丟失,這便導(dǎo)致網(wǎng)絡(luò)的效果逐漸降低。在經(jīng)過前面若干次卷積、激勵(lì)、池化后,模型會得到一個(gè)高質(zhì)量的全連接層,因此該文不再增加卷積用于特征的提取,而是把提取到的特征進(jìn)行有效的聚合以提高分?jǐn)?shù)的預(yù)測效果。RFC Block網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        在接受特征提取器輸入的特征F(x)后,F(xiàn)(x)分別輸入到平均池化層以及RFC Block中。該文所提出的RFC Block,參照殘差網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)而成,由于卷積操作的接受域范圍有限,導(dǎo)致了長期依賴關(guān)系的損失,因此隱藏層由四層的全連接層組成,每層全連接層的特征值個(gè)數(shù)分別為{512,256,256,512},并且在每層之間加入激活函數(shù)GELU。由于隱藏層全部使用全連接層,會導(dǎo)致特征值數(shù)目過大,因此需要隨機(jī)刪除全連接中的部分特征值以減少參數(shù)量。Dropout通過將一些激活數(shù)乘于0來規(guī)范化模型,ReLu作為激活函數(shù)引入非線性,強(qiáng)化網(wǎng)絡(luò)的學(xué)習(xí)能力,而GELU可以看作Dropout和ReLu的結(jié)合,在后續(xù)的實(shí)驗(yàn)部分RFC Block分別使用了這兩類激活函數(shù),驗(yàn)證這兩類激活函數(shù)在本模型中的效果。GELU激活函數(shù)公式如下:

        GELU(x)=xP(X≤x)=xφ(x),x~N(0,1)

        (2)

        其中,x是輸入值,X是具有零均值和單位方差的高斯隨機(jī)變量。P(X≤x)是X小于或等于給定值x的概率,φ(x)是指高斯正態(tài)分布的累積分布。全連接層是一維列向量,經(jīng)過了隱藏層和激活后得到的特征可以與一開始輸入的特征進(jìn)行聚合,RCF Block可以表示為:

        FRFC(x)=F(x)⊙F(xl|wl)

        (3)

        其中,F(xiàn)(xl|wl)表示殘差塊中隱藏層中的輸出特征,xl為輸入隱藏層之前的特征,wl為隱藏層學(xué)習(xí)到的權(quán)重,其中l(wèi)為隱藏層的層數(shù)l?[1,4],RFC Block的輸出FRFC(x)為兩個(gè)通道數(shù)的合并,使得描述圖像的特征維度增加,而每一維度特征下的信息量不變,F(xiàn)(x)經(jīng)過平均池化層得到的Favg特征值數(shù)為512。故整個(gè)特征聚合模塊的輸出為:

        FV=FRFC⊕Favg

        (4)

        FV為RFC Block與平均池化層聚合的特征,采取對應(yīng)元素位置相加的聚合方式,在維度不變的情況下使描述圖像的特征每一維下的信息量增多,顯然對最終的圖像的分類是有益的。最后FV進(jìn)行回歸得到該視頻動(dòng)作的預(yù)測分?jǐn)?shù)。

        2.3 損失函數(shù)

        損失函數(shù)用來評價(jià)模型的預(yù)測值和真實(shí)值不一樣的程度,不同的模型用的損失函數(shù)一般也不一樣。該文需要預(yù)測視頻中的動(dòng)作質(zhì)量分?jǐn)?shù),這可以看作一個(gè)分?jǐn)?shù)回歸的任務(wù),給定帶有動(dòng)作質(zhì)量標(biāo)簽的輸入視頻,基于輸入視頻預(yù)測動(dòng)作質(zhì)量:

        (5)

        (6)

        該文采用MSE作為損失函數(shù),用于評估模型的效果,訓(xùn)練過程中均方誤差越小則預(yù)測分?jǐn)?shù)越接近真實(shí)得分。

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)集

        3.1.1 MTL-AQA dataset

        這是一個(gè)于2018年發(fā)布的AQA領(lǐng)域數(shù)據(jù)集。它包含了1 412個(gè)視頻樣本,是迄今為止該領(lǐng)域最大的AQA數(shù)據(jù)集。這個(gè)數(shù)據(jù)集關(guān)注跳水運(yùn)動(dòng),所有的樣本都是來自于不同國際比賽中的跳水運(yùn)動(dòng)。這些視頻包含了103幀。它們有不同的視角和相機(jī)角度。該數(shù)據(jù)集包含男女運(yùn)動(dòng)員的樣本,個(gè)人和同步跳水、3米跳臺和10米跳臺跳水、奧運(yùn)裁判的最終動(dòng)作質(zhì)量成績、任務(wù)難度水平、賽事的評論,以及細(xì)粒度的動(dòng)作標(biāo)簽。

        3.1.2 BS-AQA dataset

        為進(jìn)一步驗(yàn)證模型在不同背景下、動(dòng)作差異較大時(shí)的泛化能力,該文制作了羽毛球視頻數(shù)據(jù)集,目前已經(jīng)提出了一些AQA數(shù)據(jù)集,如AQA-7[35]、MTL-AQA[11]以及FD-10[12]數(shù)據(jù)集主要包含體操、跳水、滑冰的動(dòng)作。由于球類運(yùn)動(dòng)的特殊性,與體操、跳水、滑冰等運(yùn)動(dòng)不一樣。在羽毛球等球類競技比賽中,對動(dòng)作是否標(biāo)準(zhǔn)并無要求,只要擊敗對手即可,因此該文采用羽毛球運(yùn)動(dòng)訓(xùn)練階段的視頻來進(jìn)行動(dòng)作質(zhì)量評估。

        視頻主要來源于各個(gè)視頻網(wǎng)站中的羽毛球訓(xùn)練視頻,為每個(gè)視頻進(jìn)行編號,并請羽毛球教練為每個(gè)視頻進(jìn)行評分。BS-AQA數(shù)據(jù)集分?jǐn)?shù)分布如圖4所示。

        關(guān)于羽毛球運(yùn)動(dòng)數(shù)據(jù)集評分:

        在羽毛球教練的建議下,把羽毛球運(yùn)動(dòng)分為四個(gè)階段,不同的階段在整個(gè)運(yùn)動(dòng)中所占的權(quán)重不一致。不同階段動(dòng)作的評分進(jìn)行加權(quán)求和從而得到總體的評分,這無疑比直接通過整個(gè)視頻的直接評分更加合理。并且為了降低教練評分的主觀性,邀請多位教練分階段對視頻進(jìn)行評分,最后所得的分?jǐn)?shù)為多位教練的評分取均值。用Stagei,i∈[1,4]表示教練對i階段的評分,各個(gè)階段的評分系數(shù)由教練根據(jù)經(jīng)驗(yàn)得出。

        Scoreoverall=Stage1*0.4+Stage2*0.2+

        Stage3*0.3+Stage4*0.1

        (7)

        3.2 評價(jià)指標(biāo)

        (8)

        3.3 實(shí)驗(yàn)細(xì)節(jié)

        在整個(gè)實(shí)驗(yàn)中該文使用的是Pytorch框架,并采用在Kinetics Dataset上進(jìn)行預(yù)訓(xùn)練的I3D模型作為特征提取器,I3D中采用ReLU作為激活函數(shù),使用MSE損失函數(shù)以及Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為1e-4。把每個(gè)視頻提取包含完整動(dòng)作的96幀用作訓(xùn)練模型,96幀被分為6個(gè)Clip 16個(gè)幀剪輯或3個(gè)Clip 32個(gè)幀剪輯。視頻幀較大直接輸入網(wǎng)絡(luò)會導(dǎo)致訓(xùn)練速度過慢等問題,原始的視頻幀的大小被調(diào)整到171×128,隨后裁剪后的視頻幀大小為112*112。并且通過隨機(jī)水平翻轉(zhuǎn)來進(jìn)行數(shù)據(jù)增強(qiáng),最后將RGB圖像三通道的數(shù)值進(jìn)行均值化、歸一化處理,3個(gè)通道中的數(shù)據(jù)整理理到[-1,1]區(qū)間,得到frames*112*112*3的輸入。通過上述步驟的處理,進(jìn)一步降低了網(wǎng)絡(luò)訓(xùn)練難度。

        在RFC-Net中,該文設(shè)置了消融實(shí)驗(yàn)用于驗(yàn)證RFC Block的有效性,并且比較了不同的幀數(shù)的Clip對輸出結(jié)果的影響。

        3.4 實(shí)驗(yàn)結(jié)果

        3.4.1 MTL-AQA實(shí)驗(yàn)結(jié)果

        (1)與其他公開模型的結(jié)果對比。

        由于MTL-AQA數(shù)據(jù)集包含動(dòng)作的難度,裁判將它們的分?jǐn)?shù)與難度相乘得到最終分?jǐn)?shù),該文選擇將最后輸出的分?jǐn)?shù)與動(dòng)作難度相乘。在MTL-AQA數(shù)據(jù)集中,把近兩年(2020-2021)文獻(xiàn)[19]、文獻(xiàn)[32]和文獻(xiàn)[34]所提出的四種模型(ResNet34_(2+1),MUSDL,USDL,CoRe)與該文提出的模型進(jìn)行對比,結(jié)果如圖5所示。

        (2)與SOTA(CoRe+GART模型)對比。

        從表1中結(jié)果可知,除了文獻(xiàn)[34]中模型外,文中模型優(yōu)于之前的所有模型,在文獻(xiàn)[34]中把對比學(xué)習(xí)用于動(dòng)作質(zhì)量評估,通過比較兩個(gè)不同分?jǐn)?shù)的視頻,學(xué)習(xí)視頻之間的差異,最后使用群感知回歸樹來回歸預(yù)測最終得分。該模型至今為止是MTL-AQA數(shù)據(jù)集中的SOTA。文中模型對比于SOTA模型,Spearman's rank correlation比文獻(xiàn)[34]較低,但是文獻(xiàn)[34]采用的是對比學(xué)習(xí)方法,預(yù)測視頻所需要對比的范例視頻需要手動(dòng)進(jìn)行選擇,這使得模型變得更加復(fù)雜并且降低了模型預(yù)測的效率。在結(jié)果相差不是很大的情況下,相比于對文獻(xiàn)[34]的方法,通過改進(jìn)特征提取或特征聚合的方法進(jìn)行端到端的學(xué)習(xí)更加簡便以及更加貼合應(yīng)用場景。

        在RFC-Net中,設(shè)置了消融實(shí)驗(yàn)用于驗(yàn)證RFC Block的有效性,并且比較了不同幀數(shù)的Clip 對輸出結(jié)果的影響。

        (3)消融實(shí)驗(yàn)結(jié)果對比。

        為了進(jìn)一步探究RFC模塊是否能提升特征的聚合結(jié)果,設(shè)置了消融實(shí)驗(yàn),即不加入RFC Block聚合特征而是直接對特征提取器提取的特征進(jìn)行分?jǐn)?shù)回歸。此外參照文獻(xiàn)[19]中的方法,在MTL-AQA數(shù)據(jù)集上測試了不同幀數(shù)的Clip對結(jié)果的影響,把Clip中的幀數(shù)分別設(shè)置為16與32,對比了Clip中不同幀數(shù)對實(shí)驗(yàn)結(jié)果的影響。Spearman's rank correlation對比如圖6所示,可以看到在參數(shù)不變的情況下32幀比16幀的Clip效果相對較好一些。

        RFC-Net消融實(shí)驗(yàn)結(jié)果如表2所示。當(dāng)Clip為16幀的時(shí)候,加入RFC Block的結(jié)果優(yōu)于沒有RFC Block的結(jié)果,這驗(yàn)證了RFC Block能夠提升特征聚合的結(jié)果。文中模型在Clip為32幀的時(shí)候得到最優(yōu)的結(jié)果。

        表2 RFC-Net消融實(shí)驗(yàn)

        3.4.2 BS-AQA數(shù)據(jù)集結(jié)果

        為驗(yàn)證模型在不同背景下、動(dòng)作差異較大時(shí)模型的泛化能力,制作了羽毛球視頻數(shù)據(jù)集,挑選了文獻(xiàn)[11]和文獻(xiàn)[19]中的三種采用端到端的分?jǐn)?shù)回歸方法模型(MSCADC,C3D-AVG,RestNet-34(2+1))與該文提出的RFC-Net方法進(jìn)行對比。因?yàn)镃oRe+GART模型需要人工挑選范例視頻,而范例視頻的挑選對實(shí)驗(yàn)結(jié)果影響較大,故在BS-AQA數(shù)據(jù)集中沒有選擇當(dāng)前的SOTA模型進(jìn)行對比。

        四種模型在測試集上的結(jié)果如圖7所示。散點(diǎn)為當(dāng)前Epoch下的Spearman's rank correlation,數(shù)據(jù)集中的視頻背景復(fù)雜,動(dòng)作差異較大,因此點(diǎn)的分布較為分散,為了找到一條線段來盡可能貼近地描述這些散點(diǎn)。該文使用非線性Gaussian函數(shù)對散點(diǎn)進(jìn)行擬合,其中Gaussian函數(shù)有8種類型,選取其中基礎(chǔ)類型,其函數(shù)表達(dá)式為:

        a*exp(c-((x-b)/c)2)

        (9)

        最后得到一條擬合線用于表示Spearman's rank correlation的回歸結(jié)果??梢钥吹皆贐S-AQA數(shù)據(jù)集中RFC-Net的Spearman's rank correlation普遍高于其他三種模型。

        表3 BS-AQA數(shù)據(jù)集性能比較

        表3給出了四種模型在BS-AQA數(shù)據(jù)集上的具體性能比較,比較結(jié)果顯示在主要的評價(jià)指標(biāo)Spearman's rank correlation中。RFC-Net在四類模型中效果最優(yōu),而MSE略低于RestNet_34(2+1),這表明RFC-Net模型在不同的動(dòng)作類別中仍然具備較好的結(jié)果,模型的泛化能力較強(qiáng)。

        4 結(jié)束語

        為了提高動(dòng)作質(zhì)量評分的準(zhǔn)確性,提出了一種基于殘差結(jié)構(gòu)的動(dòng)作質(zhì)量評估網(wǎng)絡(luò)模型。RFC-Net由特征提取器和特征聚合器組成,在特征聚合器中采用了RFC Block和平均池化層進(jìn)行特征聚合,通過消融實(shí)驗(yàn)表明,RFC Block能夠?qū)μ崛〉囊曨l特征進(jìn)行有效的特征聚合,更加準(zhǔn)確地預(yù)測動(dòng)作的得分,RFC-Net模型在MTL-AQA數(shù)據(jù)集上取得了僅次于SOTA的結(jié)果。此外為了探究該模型的泛化能力而制作了BS-AQA數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明在羽毛球運(yùn)動(dòng)動(dòng)作質(zhì)量評估中,與其他端到端的模型相比,該模型仍然表現(xiàn)出了具備競爭力的結(jié)果。

        該方法仍具備改進(jìn)的空間,未來將在以下兩個(gè)方向進(jìn)行研究:

        (1)在特征提取器中進(jìn)行改進(jìn),特征提取是提取視頻中所有的特征,但是和動(dòng)作質(zhì)量評估相關(guān)的特征在整個(gè)視頻特征中占據(jù)較小的部分,如何精確提取運(yùn)動(dòng)員的運(yùn)動(dòng)特征是未來的一個(gè)研究方向;

        (2)如何在減少參數(shù)量的情況下提升其聚合效果也是未來的一個(gè)研究方向。

        猜你喜歡
        特征提取卷積分?jǐn)?shù)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        分?jǐn)?shù)的由來
        無限循環(huán)小數(shù)化為分?jǐn)?shù)的反思
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        可怕的分?jǐn)?shù)
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        算分?jǐn)?shù)
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        亚洲中久无码永久在线观看同| 国产精品日韩av一区二区三区| 99久久无码一区人妻| 日本视频在线观看二区| 国产乱子轮xxx农村| 婷婷成人基地| 免费无遮挡毛片中文字幕| 国产视频一区二区三区久久亚洲| 日韩av无码中文字幕| 风间由美性色一区二区三区| 麻豆AⅤ精品无码一区二区| 亚洲天堂av在线一区| 国产乱子伦精品无码专区| 老色鬼永久精品网站| 精品国偷自产在线不卡短视频| 少妇高潮紧爽免费观看| 免费av在线 国产精品| 最近免费中文字幕中文高清6| 国产裸拍裸体视频在线观看| 亚洲AV无码精品色欲av| 国产一区二区三区特区| 综合偷自拍亚洲乱中文字幕| 亚洲av综合色区无码一二三区 | 亚洲日韩精品欧美一区二区三区不卡| 国产在线精彩自拍视频| 国产av在线观看久久| 成人区人妻精品一熟女 | 男女羞羞的视频免费网站| 久久久精品国产性黑人| 色一情一乱一乱一区99av| 国产亚洲欧美精品一区| 91久久大香伊蕉在人线国产| 又大又粗欧美黑人aaaaa片 | 亚洲 欧美 激情 小说 另类| 亚洲啊啊啊一区二区三区| 精品人妻av一区二区三区麻豆| 又大又粗又爽18禁免费看 | 内射人妻少妇无码一本一道| 欧美一片二片午夜福利在线快 | 成年在线观看免费视频| 日本精品国产1区2区3区|