亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        標(biāo)記分布與時(shí)空注意力感知的視頻動(dòng)作質(zhì)量評(píng)估

        2023-12-23 10:14:10張宇徐天宇米思婭
        關(guān)鍵詞:動(dòng)作特征質(zhì)量

        張宇,徐天宇,米思婭

        1.東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 211189;2.東南大學(xué)軟件學(xué)院,南京 211189;3.東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,南京 211189;4.紫金山實(shí)驗(yàn)室,南京 211111

        0 引言

        視頻動(dòng)作質(zhì)量評(píng)估旨在評(píng)估視頻中特定動(dòng)作的完成質(zhì)量,可以有效減少人為評(píng)判錯(cuò)誤。該技術(shù)在技能教學(xué)(Doughty 等,2019)、體育競(jìng)技(Parmar 和Tran Morris,2017)以及醫(yī)療手術(shù)(Funke 等,2019)等領(lǐng)域有著潛在價(jià)值與廣泛的應(yīng)用,已成為計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)新興且具有吸引力的研究課題。2020年?yáng)|京奧運(yùn)會(huì)使用了能夠?qū)\(yùn)動(dòng)員進(jìn)行評(píng)分的人工智能(artificial intelligence,AI)系統(tǒng),以對(duì)運(yùn)動(dòng)員的運(yùn)動(dòng)情況進(jìn)行反饋,減少因得分引起的爭(zhēng)論。由于計(jì)算機(jī)視覺(jué)技術(shù)的成熟,研究對(duì)象也逐漸從視頻行為識(shí)別到視頻行為質(zhì)量評(píng)估。傳統(tǒng)的行為識(shí)別問(wèn)題(Feichtenhofer 等,2019;Yang 等,2020;楊清山和穆太江,2022;臧影 等,2022)可以將整個(gè)視頻序列分為某一類別,而動(dòng)作質(zhì)量評(píng)估(action quality assessment,AQA)任務(wù)需要考慮類內(nèi)之間的差異,綜合考慮整個(gè)視頻的各個(gè)片段及其對(duì)動(dòng)作得分的貢獻(xiàn)度,以獲得總體評(píng)估得分。因此,AQA 任務(wù)對(duì)同一類別視頻的識(shí)別更具有挑戰(zhàn)性。

        在過(guò)去的幾年中,有大量的AQA 方法相繼提出。大部分是將動(dòng)作質(zhì)量評(píng)估簡(jiǎn)單地視為一個(gè)回歸問(wèn)題(Pirsiavash 等,2014;Tang 等,2020;Wang 等,2021),對(duì)所獲特征進(jìn)行回歸,直接得到動(dòng)作的預(yù)測(cè)分?jǐn)?shù),或是一個(gè)成對(duì)比較問(wèn)題(Doughty 等,2019;Yu等,2021;Xu 等,2022),通過(guò)兩兩比較學(xué)習(xí)到質(zhì)量特征。但是目前的方法效果有限,可以總結(jié)為以下問(wèn)題:

        1)目前大多數(shù)方法存在多尺度時(shí)空特征的問(wèn)題。視頻中動(dòng)作的空間和時(shí)間位置對(duì)于動(dòng)作質(zhì)量評(píng)估而言十分關(guān)鍵,樣本視頻具有許多與動(dòng)作無(wú)關(guān)的信息,因此目前的視頻動(dòng)作質(zhì)量評(píng)估方法存在多尺度空間特征問(wèn)題,即不同的視頻在空間維度上可能存在主體尺度大小不同,導(dǎo)致動(dòng)作信息難以捕獲,如圖1 所示,動(dòng)作執(zhí)行目標(biāo)大小和位置在不斷變化。此外,動(dòng)作質(zhì)量評(píng)估還存在多尺度時(shí)間特征問(wèn)題,即在時(shí)間維度上可能存在的不同持續(xù)時(shí)間和執(zhí)行速率,不同時(shí)間片段與標(biāo)記的相關(guān)性也不同,例如圖1(c)中,運(yùn)動(dòng)員摔倒片段與其相鄰片段之間具有極高的正相關(guān)性,而與圖1(a)之間的相關(guān)性很低,因?yàn)樾蛄惺撞科瓮遣幌嚓P(guān)的背景內(nèi)容,甚至呈負(fù)相關(guān)。

        圖1 動(dòng)作質(zhì)量評(píng)估時(shí)空多尺度問(wèn)題示意圖Fig.1 Schematic diagram of the spatio-temporal multi-scale problem of action quality assessment((a)soar;(b)landing;(c)failure)

        2)現(xiàn)有方法忽略了標(biāo)記的內(nèi)在模糊性問(wèn)題。以往的動(dòng)作質(zhì)量評(píng)估方法(Parmar 和Tran Morris,2017)往往關(guān)注于單個(gè)得分標(biāo)記,忽略了分?jǐn)?shù)標(biāo)記內(nèi)在的模糊性問(wèn)題,不同裁判可能給出不同得分以及給出得分的主觀性。例如跳水運(yùn)動(dòng)的得分由7 位裁判給出,并不是由一個(gè)標(biāo)記確定。

        3)目前提出的注意力機(jī)制的注意力頭普遍存在冗余的問(wèn)題。過(guò)去的工作中,自注意力機(jī)制頭的數(shù)目往往比較大,Michel 等人(2019)在測(cè)試時(shí)發(fā)現(xiàn)部分注意力頭是冗余的,即使是移除大多數(shù)注意力頭之后,模型性能也沒(méi)有很大的影響,在本文的實(shí)驗(yàn)中,當(dāng)注意力頭數(shù)目增多時(shí),動(dòng)作質(zhì)量評(píng)估效果反而變差。

        為解決上述問(wèn)題,本文提出一種基于時(shí)空自注意力及標(biāo)記分布學(xué)習(xí)(label distribution learning,LDL)的視頻動(dòng)作質(zhì)量評(píng)估模型SALDL(selfattention and label distribution learning)。該模型將動(dòng)作質(zhì)量評(píng)估得分預(yù)測(cè)問(wèn)題轉(zhuǎn)化為一個(gè)預(yù)測(cè)不同得分估計(jì)的概率問(wèn)題。本文假設(shè)樣本標(biāo)記服從某一概率分布,進(jìn)而利用KL 散度(Kullback-Leibler divergence)損失函數(shù)學(xué)習(xí)樣本的標(biāo)記分布,從而解決上述的標(biāo)記內(nèi)在模糊性問(wèn)題。本文使用I3D(inflated 3D ConvNet)模型進(jìn)行特征提取,利用多種感受野大小的卷積核對(duì)各段視頻序列進(jìn)行特征提取,解決多尺度空間特征問(wèn)題。同時(shí),本文提出一種新的正負(fù)時(shí)間注意力模塊(pos-neg temporal attention,PNTA)。PNTA 通過(guò)最大化各個(gè)片段之間的正相關(guān)自注意力特征與負(fù)相關(guān)自注意力特征之間的距離,保持正相關(guān)注意力頭和負(fù)相關(guān)注意力頭之間所學(xué)到的特征盡量不同。PNTA 模塊可以在減少注意力頭造成冗余問(wèn)題的同時(shí),獲取樣本各個(gè)時(shí)間片段之間的上下文依賴關(guān)系,解決了多尺度時(shí)間特征問(wèn)題,從而更好地對(duì)特定動(dòng)作進(jìn)行評(píng)估。

        本文的主要貢獻(xiàn)包括:1)設(shè)計(jì)一種新的視頻動(dòng)作質(zhì)量評(píng)估模型SALDL,該模型能關(guān)注視頻序列中不同時(shí)空位置的動(dòng)作信息,并通過(guò)標(biāo)記分布學(xué)習(xí)方法生成細(xì)粒度標(biāo)簽來(lái)處理標(biāo)記模糊性問(wèn)題;2)提出一種正負(fù)時(shí)間注意力模塊PNTA,通過(guò)該模塊使不同注意力頭之間學(xué)習(xí)的內(nèi)容盡可能不同,在增強(qiáng)視頻片段的上下文信息的同時(shí)解決了注意力頭冗余及收斂困難的問(wèn)題;3)提出一種注意力感知結(jié)構(gòu)(Attention-Inc)將自注意力機(jī)制漸進(jìn)式地融入Inception 模塊,獲得不同尺度卷積特征之間的上下文信息,從而關(guān)注更有利于動(dòng)作質(zhì)量評(píng)估任務(wù)的特征;4)本文所提出的SALDL 方法在多個(gè)行為視頻數(shù)據(jù)集上取得了優(yōu)異的效果,均取得了以往最佳結(jié)果,并通過(guò)大量的消融實(shí)驗(yàn)證明了各模塊的有效性。

        1 相關(guān)工作

        1.1 動(dòng)作質(zhì)量評(píng)估

        目前絕大多數(shù)動(dòng)作質(zhì)量評(píng)估工作使用基于深度學(xué)習(xí)的方法(Pan等,2019;Xu等,2022),該方法提取出視頻數(shù)據(jù)中的局部或全局特征,然后利用全連接層或其他特征融合方式匯集特征,最后使用回歸、成對(duì)排序或標(biāo)記分布學(xué)習(xí)等方法生成對(duì)視頻質(zhì)量的評(píng)估。Zeng 等人(2020)訓(xùn)練兩個(gè)圖卷積網(wǎng)絡(luò)單元和一個(gè)注意力單元,前者用來(lái)表示動(dòng)態(tài)信息和姿態(tài)相關(guān)性,后者賦予每個(gè)姿態(tài)相應(yīng)的權(quán)重。Yu 等人(2021)通過(guò)I3D 網(wǎng)絡(luò)分段提取視頻特征,然后利用對(duì)比回歸的方法,先學(xué)習(xí)輸入視頻相對(duì)于樣例視頻的差異,然后將差異的得分加上樣例視頻得分得到動(dòng)作質(zhì)量評(píng)估結(jié)果。Wang 等人(2021)同樣用I3D網(wǎng)絡(luò)作為視頻表示框架,提出一種時(shí)空管道方法來(lái)獲得復(fù)雜多變的動(dòng)作位置特征,最后采用回歸的方式預(yù)測(cè)動(dòng)作得分。Xu 等人(2022)將樣例視頻和查詢視頻分段之后,將對(duì)應(yīng)片段的視頻塊輸入至同一個(gè)Transformer 解碼器中,最后相加得到動(dòng)作質(zhì)量評(píng)估結(jié)果。

        1.2 自注意力機(jī)制

        自注意力機(jī)制最早用于學(xué)習(xí)文本表示,通過(guò)自注意力機(jī)制的QKV(query,key,value)三元組來(lái)提取上下文特征。因?yàn)槠溆行?,自注意力機(jī)制廣泛應(yīng)用于視頻序列建模,例如Wei 等人(2022)將視頻序列切分為時(shí)空立方塊,然后利用Transformer 中的多頭自注意力模塊對(duì)時(shí)空立方塊進(jìn)行建模。Fan 等人(2019)提出的MviT(multiscale vision Transformer)系列模型同樣將視頻序列切分為時(shí)空立方塊,提出池化自注意力機(jī)制,將池化操作和自注意力機(jī)制結(jié)合,以達(dá)到構(gòu)建多尺度ViT(vision Transformer)并進(jìn)行多尺度視頻序列建模的目的。ViViT(video vision Transformer)(Arnab 等,2021)提出多種類型的時(shí)空注意力建模方式。該方法采用自注意力機(jī)制對(duì)時(shí)空進(jìn)行建模,圖像向量(token)數(shù)量與注意力機(jī)制計(jì)算量成平方關(guān)系,因此效率較低。上述方法均使用自注意力機(jī)制同時(shí)對(duì)視頻的時(shí)空特征進(jìn)行建模。而本文提出的SALDL 模型首先通過(guò)Attention-Inc 結(jié)構(gòu)進(jìn)行多尺度的空間特征建模,然后使用正負(fù)時(shí)間注意力模塊(PNTA)對(duì)視頻時(shí)間序列進(jìn)行建模。

        此外,Michel 等人(2019)證明傳統(tǒng)的自注意力機(jī)制的頭數(shù)存在冗余的現(xiàn)象,自注意力機(jī)制需要捕捉全局的上下文特征,導(dǎo)致其計(jì)算量比較大且難以收斂。為解決該問(wèn)題,Lin等人(2022)利用光流網(wǎng)絡(luò)計(jì)算并估計(jì)相鄰幀索引的key 值,這是從減少自注意力機(jī)制參考的key 值數(shù)量的角度出發(fā)。而本文為解決這個(gè)問(wèn)題,從減少冗余的自注意力頭的角度出發(fā),提出PNTA 模塊。PNTA 通過(guò)最大化各個(gè)片段之間的正相關(guān)自注意力特征與負(fù)相關(guān)自注意力特征之間的距離,保持正相關(guān)注意力頭和負(fù)相關(guān)注意力頭之間所學(xué)到的特征盡量不同,從而達(dá)到降低計(jì)算量的同時(shí)提高動(dòng)作質(zhì)量評(píng)估效果。

        1.3 標(biāo)記分布學(xué)習(xí)

        標(biāo)記分布學(xué)習(xí)是一種新型的機(jī)器學(xué)習(xí)范式,模型對(duì)所有標(biāo)記的描述程度構(gòu)成類似概率分布的結(jié)構(gòu),用于學(xué)習(xí)樣本分布而不是單個(gè)標(biāo)記的方法,最早由Geng 等人(2013)提出利用LDL 來(lái)實(shí)現(xiàn)面部年齡估計(jì),其提出IIS-LLD 和條件概率神經(jīng)網(wǎng)絡(luò)(conditional probability neural network,CPNN)算法提取面部特征。而后來(lái)隨著深度學(xué)習(xí)的發(fā)展,越來(lái)越多依靠深度學(xué)習(xí)和標(biāo)記分布森林方法進(jìn)行標(biāo)記分布學(xué)習(xí),在人臉關(guān)鍵點(diǎn)檢測(cè)(Su 和Geng,2019)、人流檢測(cè)(Ling 和Geng,2019)等任務(wù)中廣泛使用。在動(dòng)作質(zhì)量評(píng)估任務(wù)中,Tang 等人(2020)提出利用LDL 方法預(yù)測(cè)輸入動(dòng)作視頻的分?jǐn)?shù)分布,而不是單一的分?jǐn)?shù)數(shù)字,以便能夠很好地處理嚴(yán)重的分?jǐn)?shù)不確定性,這很大程度上限制了AQA(action quality assessment)任務(wù)的性能。在視頻分布方面,Geng 和Xia(2014)提出一種軟語(yǔ)法解析方法用于視頻解析,該方法通過(guò)不同子動(dòng)作來(lái)描述視頻段。Ling 和Geng(2019)利用混合高斯分布來(lái)模擬不同視頻幀中人群數(shù)量的變化,用于室內(nèi)人群計(jì)數(shù)。而本文采用的LDL 算法利用高斯分布函數(shù)將得分標(biāo)記轉(zhuǎn)換為分布標(biāo)記,并行訓(xùn)練多個(gè)多層感知機(jī)生成直接生成分布標(biāo)記,提供更加精準(zhǔn)的動(dòng)作質(zhì)量評(píng)估結(jié)果。

        2 SALDL模型

        下面對(duì)SALDL 算法流程進(jìn)行描述,首先對(duì)視頻進(jìn)行預(yù)處理,將原視頻抽幀得到總長(zhǎng)度為L(zhǎng)的輸入視頻F={F1,F(xiàn)2,…,F(xiàn)L},F(xiàn)L表示第L幀,然后將其分段為n個(gè)相互重疊的片段C={C1,C2,…,Cn},Cn表示第n個(gè)片段,每個(gè)片段包含m幀,對(duì)每個(gè)片段中的每一幀進(jìn)行下采樣和隨機(jī)數(shù)據(jù)增強(qiáng),實(shí)施細(xì)節(jié)見(jiàn)3.2 小節(jié)。然后將各個(gè)視頻片段輸入視頻表示模塊,提取每個(gè)片段時(shí)空特征α={α1,α2,…,αn},將各視頻片段的時(shí)空特征α作為序列輸入PNTA模塊,得到序列之間包含上下文信息的注意力特征β={β1,β2,…,βn}。接下來(lái)將所有正負(fù)時(shí)間注意力特征β拼接并輸入給LDL 模塊,得到預(yù)測(cè)標(biāo)記分布和真實(shí)標(biāo)記分布,最后以兩者之間的KL 散度作為損失函數(shù),對(duì)模型進(jìn)行訓(xùn)練。本文提出的SALDL 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,主要由視頻表示模塊、正負(fù)時(shí)間注意力模塊(PNTA)以及標(biāo)記分布學(xué)習(xí)模塊(LDL)構(gòu)成。

        圖2 SALDL網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 The structure of the SALDL model

        2.1 視頻表示模塊

        由于I3D 網(wǎng)絡(luò)具有多種感受野大小的卷積核,能夠?qū)斎胩卣鞣謩e執(zhí)行不同尺度的卷積及池化操作以獲得多尺度空間特征。故本算法使用具有Inception 模塊的I3D 網(wǎng)絡(luò)結(jié)構(gòu)。下面對(duì)其進(jìn)行詳細(xì)介紹。I3D 具有三維卷積層、最大池化層、平均池化層以及Inception 結(jié)構(gòu)。由于ReLU(rectified linear unit)激活函數(shù)具有單側(cè)抑制的作用,又具有稀疏激活性的特點(diǎn),可以減少一部分參數(shù)量,達(dá)到防止過(guò)擬合的目的,具有相對(duì)較寬的興奮邊界,能夠?qū)θ我廨斎胩卣鬟M(jìn)行激活;梯度恒為常數(shù),不會(huì)產(chǎn)生梯度消失或梯度爆炸的現(xiàn)象,故均使用ReLU 作為激活函數(shù)。本算法的I3D 模型預(yù)訓(xùn)練于Kinetics 數(shù)據(jù)集。具體來(lái)說(shuō),視頻表示模塊以n個(gè)視頻片段作為I3D網(wǎng)絡(luò)的輸入,通道數(shù)、幀數(shù)、寬高分別為3、16、224。在通過(guò)各層之后,在時(shí)間上進(jìn)行卷積,并進(jìn)行平均池化操作對(duì)各個(gè)特征進(jìn)行聚集,得到大小為[1,1 024]的特征an。

        此外,由于傳統(tǒng)的Inception 模塊沒(méi)有考慮不同感受野卷積特征之間的上下文關(guān)系,本文進(jìn)一步提出漸進(jìn)式的注意力感知結(jié)構(gòu)(Attention-Inc),Attention-Inc 將不同感受野大小的卷積特征編碼至同一維度,通過(guò)多頭自注意力機(jī)制(multi-head selfattention,MHSA)獲得不同卷積特征的上下信息,利用1 × 1 卷積還原卷積特征大小,最后與原特征拼接。結(jié)構(gòu)如圖3 所示,φ和θ分別表示Inception 和Attention-Inc特征。在Inception結(jié)構(gòu)中通過(guò)3 × 3 × 3以及1 × 1 × 1 不同感受野大小的卷積核進(jìn)行卷積之后,將所有尺度特征進(jìn)行拼接,形成一個(gè)能夠代表更多信息、更有深度的特征,以此解決時(shí)空多尺度問(wèn)題。在Attention-Inc 結(jié)構(gòu)中利用1 × 1 × 1 大小的卷積層和平均池化層將第i個(gè)卷積特征φi表征為一組尺寸相等的向量,然后通過(guò)多頭自注意力機(jī)制使不同尺寸卷積特征之間獲得上下文關(guān)系,最后將經(jīng)過(guò)1 × 1 × 1 大小的卷積和擴(kuò)展操作的注意力特征θi與φi進(jìn)行拼接,輸入給下一個(gè)模塊,獲得不同尺度卷積特征之間的上下文信息,從而關(guān)注更有利于動(dòng)作質(zhì)量評(píng)估任務(wù)的特征。

        圖3 注意力感知結(jié)構(gòu)(Attention-Inc)示意圖Fig.3 The structure diagram of Attention-Inc

        2.2 正負(fù)時(shí)間注意力模塊

        傳統(tǒng)的視頻動(dòng)作質(zhì)量評(píng)估方法中卷積核大小固定,無(wú)法獲得視頻不同時(shí)空片段的上下文交互信息。與此同時(shí),傳統(tǒng)自注意力機(jī)制又存在自注意力頭冗余及難以收斂的問(wèn)題,具體細(xì)節(jié)見(jiàn)1.2 小節(jié)。針對(duì)上述問(wèn)題,本文提出正負(fù)時(shí)間注意力模塊(PNTA),當(dāng)前注意力頭稱為正相關(guān)頭(positive head,PH),其他注意力頭稱為負(fù)相關(guān)頭(negative head,NH)。正相關(guān)頭用于表征與動(dòng)作質(zhì)量評(píng)估相關(guān)片段的特征,負(fù)相關(guān)頭用于表征與動(dòng)作質(zhì)量評(píng)估非相關(guān)片段的特征。PNTA 通過(guò)最大化各個(gè)片段之間的正相關(guān)自注意力特征與負(fù)相關(guān)自注意力特征之間的距離,保持正相關(guān)頭和負(fù)相關(guān)頭之間所學(xué)到的特征盡可能不同。在減少過(guò)多注意力頭造成的冗余問(wèn)題的同時(shí),解決了多尺度時(shí)間特征問(wèn)題,加快SALDL 模型的收斂,達(dá)到提高模型效果、減少注意力頭冗余的目的。PNTA 模塊可以隨意嵌入所有的多頭子注意力機(jī)制中。

        將PNTA 模塊擴(kuò)展至h維,可以提出PNTA 損失函數(shù)L1,具體為

        式中,γ表示PNTA 損失的比例系數(shù),n和h分別表示片段數(shù)目和注意力頭數(shù)目表示第i個(gè)視頻片 段的第j個(gè)正相關(guān)注意力特征表示第i個(gè)視頻片段的第f個(gè)負(fù)相關(guān)注意力特征。

        PNTA 模塊計(jì)算方式如圖4 所示,將第i個(gè)片段的I3D 特征αi輸入至正相關(guān)和負(fù)相關(guān)。相當(dāng)于增加了一個(gè)維度,該維度包含序列中多個(gè)片段之間的正相關(guān)特征以及負(fù)相關(guān)特征。在第j個(gè)自注意力頭中通過(guò)3 個(gè)線性層分別輸出維度為dk的query、key,用qi,j和ki,j表示,以及維度為dv的value,用vi,j表示。其中query 用來(lái)匹配key,value 表示從輸入特征ai中所提取的信息。接著,計(jì)算qi,j和序列中其他片段kay值的點(diǎn)積,為防止數(shù)據(jù)過(guò)大,導(dǎo)致后面使用激活函數(shù)計(jì)算之后的結(jié)果恒取0 或1,將點(diǎn)積結(jié)果除以之后使用softmax 函數(shù)對(duì)結(jié)果進(jìn)行計(jì)算,以獲得該序列片段value 值的權(quán)重,最后,與當(dāng)前片段的value 值vi,j做點(diǎn)積運(yùn)算,具體為

        圖4 正負(fù)時(shí)間注意力模塊結(jié)構(gòu)示意圖Fig.4 The structure diagram of pos-neg temporal attention module

        式中,v表示屬于1到n的其他片段序號(hào),將兩者拼接在一起得到第i個(gè)片段的第j個(gè)正負(fù)時(shí)間注意力特征表示softmax激活函數(shù)。

        在實(shí)際計(jì)算過(guò)程中,二維的視頻片段序列組合在一起形成矩陣,SALDL 算法將所有片段結(jié)果并行運(yùn)算,具體為

        式中,Q、K、V分別表示將各片段特征向量通過(guò)線性層映射得到的query、key、value 堆疊而成的矩陣,dk表示K的維度,τ表示拼接。最后得到參考了所有視頻片段的具有上下文信息的特征Fβ={β1,β2,…,βn}。

        2.3 標(biāo)記分布學(xué)習(xí)模塊

        動(dòng)作質(zhì)量評(píng)估任務(wù)的標(biāo)簽由多位裁判主觀打分構(gòu)成,標(biāo)簽分布在一定的范圍內(nèi)。因此本文通過(guò)標(biāo)記分布學(xué)習(xí)的方法利用該分布提高動(dòng)作質(zhì)量評(píng)估效果。此外,相比于單標(biāo)記學(xué)習(xí)和多標(biāo)記學(xué)習(xí),標(biāo)記分布學(xué)習(xí)在動(dòng)作質(zhì)量評(píng)估任務(wù)中更加靈活通用。標(biāo)記分布學(xué)習(xí)可以表示為以下形式:xi表示第i個(gè)示例,第j個(gè)標(biāo)記用表示對(duì)于xi的描述度用表示,xi的標(biāo)記分布用向量表示,因此gi∈[0,1]m,且,其中m表示可能標(biāo)記數(shù)目,由數(shù)據(jù)集的取值范圍確定。對(duì)于單標(biāo)記而言,其只有一個(gè)標(biāo)記,因此單標(biāo)記學(xué)習(xí)及多標(biāo)記學(xué)習(xí)可以視為標(biāo)記分布學(xué)習(xí)的特例,標(biāo)記分布學(xué)習(xí)是更加靈活通用的方法。具體來(lái)說(shuō),SALDL 模型使用全連接層預(yù)測(cè)不同標(biāo)記的描述度gi獲得預(yù)測(cè)標(biāo)記分布。然后利用標(biāo)記增強(qiáng)(label enhancement)的方法將原始標(biāo)記轉(zhuǎn)化為標(biāo)記分布。SALDL 引入真實(shí)標(biāo)記服從某種分布的先驗(yàn)知識(shí),這里假設(shè)服從高斯分布,標(biāo)記增強(qiáng)過(guò)程中分布函數(shù)的選取細(xì)節(jié)可見(jiàn)4.7 小節(jié)。通過(guò)原始標(biāo)簽可以生成均值為μi、標(biāo)準(zhǔn)差為σ的高斯方程,具體為

        式中,σ既是標(biāo)準(zhǔn)差也是一個(gè)超參數(shù),評(píng)估一個(gè)動(dòng)作質(zhì)量的好壞的不確定性。

        式中,k表示實(shí)例數(shù),下標(biāo)gt 和pre 分別表示真實(shí)值和預(yù)測(cè)值,以下省略符號(hào)i。

        在MTL-AQA 和JIGSAWS 數(shù)據(jù)集中,總標(biāo)記由多個(gè)子標(biāo)記之和組成,定義子標(biāo)記的真實(shí)標(biāo)記分布為子標(biāo)記的預(yù)測(cè)標(biāo)記分布 為其中,k表示子標(biāo)記數(shù)目。標(biāo)記分布學(xué)習(xí)模塊由多個(gè)多層感知機(jī)網(wǎng)絡(luò)構(gòu)成,多層感知機(jī)學(xué)習(xí)各個(gè)子標(biāo)記分布。將正負(fù)時(shí)間注意力特征βn作為輸入,網(wǎng)絡(luò)使用線性層進(jìn)行維度變換,使用ReLU 激活函數(shù)添加非線性因素。接著使用softmax 函數(shù)激活。輸出維度轉(zhuǎn)換為m的預(yù)測(cè)標(biāo)記分布,感知機(jī)結(jié)構(gòu)如表1 所示,其中n表示視頻片段數(shù)量。

        表1 輸出預(yù)測(cè)分布的多層感知機(jī)網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Multi-layer perceptron network structure for output prediction distribution

        由于標(biāo)記分布可視為一種概率分布,而KL散度是一種用于衡量?jī)蓚€(gè)概率分布之間差異的非對(duì)稱性度量,因此在訓(xùn)練階段,使用KL 散度作為標(biāo)記分布學(xué)習(xí)的損失函數(shù)計(jì)算sgt,k和spre,k之間的損失,利用梯度下降法最小化KL損失函數(shù)對(duì)其進(jìn)行優(yōu)化,使得兩個(gè)概率分布之間的差異最小,即預(yù)測(cè)分布和真實(shí)分布越相似越好。因此模型損失函數(shù)由兩部分組成,分別為預(yù)測(cè)分布與真實(shí)分布之間的KL損失L2,以及正負(fù)時(shí)間注意力損失L1。具體為

        式中,L表示對(duì)于每一個(gè)訓(xùn)練樣本的總體損失,γ1和γ2分別表示PNTA 損失和KL 損失的比例系數(shù),spre,k表示樣本中的第k個(gè)預(yù)測(cè)分布,sgt,k表示樣本中的第k個(gè)真實(shí)分布表示第k個(gè)預(yù)測(cè)分布中第i個(gè)標(biāo)記的描述度表示第k個(gè)真實(shí)分布中第i個(gè)標(biāo)記的描述度,使用Adam 優(yōu)化器對(duì)上述損失函數(shù)進(jìn)行優(yōu)化。

        在推理階段,從每一個(gè)預(yù)測(cè)的子標(biāo)記分布spre,k中選擇概率最大的一個(gè)作為第k個(gè)子標(biāo)記的預(yù)測(cè)得分,獲得k個(gè)子得分,然后子標(biāo)簽得分中最大的兩項(xiàng)以及最小的兩項(xiàng),最終得分為剩余子得分之和。推理過(guò)程如圖5 所示。其中,Ji表示第i個(gè)子標(biāo)簽得分,藍(lán)色曲線表示利用標(biāo)記分布學(xué)習(xí)獲得的標(biāo)記分布,紅色曲線表示真實(shí)標(biāo)記分布,取概率最大的點(diǎn)作為預(yù)測(cè)的子標(biāo)簽得分,然后去除兩項(xiàng)最高分以及兩項(xiàng)最低分之后求和并乘以難度系數(shù)作為最終得分。

        圖5 標(biāo)記分布學(xué)習(xí)模塊推理過(guò)程示意圖Fig.5 The inference diagram of label distribution learning module

        在MTL-AQA數(shù)據(jù)集中,需要將最終得分乘以難度系數(shù),而JIGSAWS 不存在難度系數(shù)參數(shù)。得到最終的預(yù)測(cè)得分s,具體為

        式中,DD表示該樣本的難度系數(shù),k∈U表示在剔除兩項(xiàng)最大值和兩項(xiàng)最小值之后的所有得分。

        3 實(shí)驗(yàn)實(shí)施

        3.1 數(shù)據(jù)集

        目前視頻動(dòng)作質(zhì)量評(píng)估主要使用以下3 個(gè)數(shù)據(jù)集,本文使用四折交叉驗(yàn)證劃分訓(xùn)練集以及測(cè)試集。

        1)AQA-7。由Parmar(2019b)提出,包含7 個(gè)動(dòng)作類別(跳水、跳馬、雙板滑雪、單板滑雪、雙人2 m跳水、雙人10 m 跳水、蹦床),共1 189 個(gè)樣本。標(biāo)注信息有動(dòng)作類別、采樣序號(hào)、得分。相比于AQA 增加了一個(gè)蹦床的類別。

        2)MTL-AQA。由Parmar(2019a)提出的多標(biāo)記跳水運(yùn)動(dòng)數(shù)據(jù)集,標(biāo)記內(nèi)容由3 個(gè)部分組成,動(dòng)作類別、動(dòng)作質(zhì)量分?jǐn)?shù)、動(dòng)作描述。得分部分包含多個(gè)裁判給出的分?jǐn)?shù)以及動(dòng)作難度系。

        3)JIGSAWS。由Gao 等人(2014)提出的醫(yī)療手術(shù)數(shù)據(jù)集,具有3 個(gè)動(dòng)作類別:打結(jié)、穿針和縫合,但樣本數(shù)量較少;標(biāo)記數(shù)據(jù)種類包含開(kāi)始幀、結(jié)束幀、類別id、得分。

        上述3 個(gè)數(shù)據(jù)集的樣本數(shù)量、類別數(shù)量以及標(biāo)記數(shù)量如表2所示。

        表2 數(shù)據(jù)集基本信息Table 2 Basic information about the datasets

        3.2 實(shí)施細(xì)節(jié)

        本文在Intel(R)Xeon(R)Platinum 8260C CPU主機(jī)訓(xùn)練模型,使用兩塊NVIDIA GeForce RTX 3090(M)顯卡,顯卡內(nèi)存為24 GB,可使用內(nèi)核數(shù)為12,內(nèi)存大小為86 GB,每秒浮點(diǎn)運(yùn)算次數(shù)為17.37 TFLOS。模型訓(xùn)練學(xué)習(xí)率設(shè)為10-4,權(quán)重衰減設(shè)置為10-5,正負(fù)時(shí)間注意力損失的比例系數(shù)為10-4。I3D模型預(yù)訓(xùn)練于Kinetics數(shù)據(jù)集,梯度下降時(shí)優(yōu)化器選用Adam 優(yōu)化器,其每一次迭代學(xué)習(xí)率都有確定的范圍,參數(shù)比較平穩(wěn),對(duì)于不同的任務(wù)而言,具有自適應(yīng)的學(xué)習(xí)率。

        SALDL 模型預(yù)處理階段與對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)的數(shù)據(jù)增強(qiáng),包括對(duì)樣本進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn),隨機(jī)對(duì)樣本進(jìn)行最近鄰插值、二次插值、三次插值以及Lanczos插值方法等。在數(shù)據(jù)量不變的情況下,增加樣本的數(shù)量和多樣性,有效地防止了因?yàn)閿?shù)據(jù)單一而產(chǎn)生的過(guò)擬合。接下來(lái)對(duì)數(shù)據(jù)集及標(biāo)記進(jìn)行歸一化處理。旨在將非整數(shù)型標(biāo)注轉(zhuǎn)化為整數(shù)型標(biāo)注,以便對(duì)標(biāo)記分布生成模塊的輸出維度進(jìn)行定義。樣本視頻被逐幀提取和分段之后進(jìn)行Z-score 標(biāo)準(zhǔn)化。傳統(tǒng)動(dòng)作質(zhì)量評(píng)估方法直接進(jìn)行分段,每一段的首尾幀互不重疊,因此缺少上下文之間的聯(lián)系,而本文采用每一段之間部分重疊的方式進(jìn)行段的劃分。具體分段方法見(jiàn)4.6小節(jié)。

        3.3 評(píng)估方法

        斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman rank correlation coefficient,Sp.Corr)可以衡量?jī)蓚€(gè)序列之間的相似程度,也可認(rèn)為斯皮爾曼等級(jí)相關(guān)系數(shù)為經(jīng)過(guò)排行得到的兩個(gè)隨機(jī)變量的皮爾遜相關(guān)系數(shù)。因此,本文使用斯皮爾曼相關(guān)系數(shù)來(lái)衡量本文模型所預(yù)測(cè)的標(biāo)記和真實(shí)標(biāo)記之間的相關(guān)性,利用該單調(diào)方程來(lái)評(píng)價(jià)兩個(gè)統(tǒng)計(jì)變量之間的相關(guān)性,以檢驗(yàn)?zāi)P托Ч?。斯皮爾曼相關(guān)性定義為

        式中,p表示按照預(yù)測(cè)結(jié)果對(duì)序列進(jìn)行排序生成序列,q表示按照真實(shí)得分進(jìn)行排序的序列,ρ表示斯皮爾曼等級(jí)相關(guān)系數(shù),即評(píng)估結(jié)果。其取值范圍為-1~1,ρ值越大說(shuō)明相關(guān)性越高,模型效果越好。

        4 實(shí)驗(yàn)結(jié)果

        4.1 基準(zhǔn)方法對(duì)比

        將本文SALDL 模型與其他動(dòng)作質(zhì)量評(píng)估模型在MTL-AQA 數(shù)據(jù)集進(jìn)行對(duì)比,如表3 所示。結(jié)果表明SALDL 模型的動(dòng)作質(zhì)量評(píng)估能力要優(yōu)于以往最佳方法,在其他實(shí)驗(yàn)條件相似的情況下取得了最佳結(jié)果,其斯皮爾曼等級(jí)相關(guān)系數(shù)為0.941 6。充分證明了該方法在動(dòng)作質(zhì)量評(píng)估任務(wù)中的有效性。此外,SALDL 模型和C3D-AVG-STL、C3D-AVG-MTL 等方法相比,雖然FLOPS 更高,但是其參數(shù)量只有后者的1/5;SALDL 模型與MUSDL 相比,兩者具有幾乎相似的參數(shù)量和FLOPS,但是本文模型的Sp.Corr取得了更好的結(jié)果。

        表3 SALDL模型在MTL-AQA數(shù)據(jù)集與基準(zhǔn)方法對(duì)比Table 3 SALDL model on MTL-AQA dataset compared with benchmark methods

        將SALDL 模型與其他基準(zhǔn)方法在JIGSAWS 數(shù)據(jù)集中的打結(jié)(knot_tying)、穿針(needle_passing)和縫合(suturing)3個(gè)任務(wù)中進(jìn)行測(cè)試。JIGSAWS數(shù)據(jù)集的視頻幀數(shù)隨樣本視頻長(zhǎng)度動(dòng)態(tài)變化,因此本文隨機(jī)采樣出160 幀作為模型的輸入,然后與MTLAQA 數(shù)據(jù)集相同,將視頻分為10 段,每段16 幀,實(shí)驗(yàn)結(jié)果如表4 所示,將實(shí)驗(yàn)結(jié)果與基準(zhǔn)方法結(jié)構(gòu)對(duì)比們可以發(fā)現(xiàn),本文提出的SALDL 模型在打結(jié)(0.836 4)和穿針(0.866 0)任務(wù)中的表現(xiàn)優(yōu)于其他所有基準(zhǔn)方法,且在3 個(gè)任務(wù)中的平均斯皮爾曼等級(jí)系數(shù)為0.818 3,達(dá)到了最優(yōu)結(jié)果。

        表4 SALDL模型在JIGSAWS數(shù)據(jù)集與基準(zhǔn)方法對(duì)比Table 4 SALDL model on JIGSAWS dataset compared with benchmark methods

        4.2 標(biāo)記分布學(xué)習(xí)對(duì)動(dòng)作質(zhì)量評(píng)估的影響

        為研究LDL 模塊對(duì)動(dòng)作質(zhì)量評(píng)估的影響,利用散點(diǎn)圖將基于標(biāo)記分布學(xué)習(xí)的方法與基于回歸的方法進(jìn)行對(duì)比,圖6(a)表示的是使用回歸方法的結(jié)果,其將SALDL 模型全連接層的輸出維度改為1,并剔除softmax 函數(shù),直接輸出預(yù)測(cè)得分。圖6(b)表示的是使用標(biāo)記分布學(xué)習(xí)方法的結(jié)果。藍(lán)色標(biāo)點(diǎn)為網(wǎng)絡(luò)的預(yù)測(cè),y軸表示預(yù)測(cè)得分,x軸表示真實(shí)得分,真實(shí)樣本用虛線表示。散點(diǎn)分布越集中,表示預(yù)測(cè)結(jié)果越接近真實(shí)樣本,模型準(zhǔn)確的更高。對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行定性分析,可以發(fā)現(xiàn)基于回歸的SALDL 模型在高分段部分明顯偏離真實(shí)得分,整體得分偏低,而基于標(biāo)記分布學(xué)習(xí)的動(dòng)作質(zhì)量評(píng)估方法更加接近真實(shí)樣本數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明,引入標(biāo)記分布學(xué)習(xí)顯著提升了模型在高分段的表現(xiàn),整體準(zhǔn)確率有所提升,充分證明了標(biāo)記分布學(xué)習(xí)的泛化性及有效性。

        圖6 基于回歸的方法與基于標(biāo)記分布學(xué)習(xí)方法的評(píng)估結(jié)果Fig.6 Regression-based versus label distribution learning-based methods to evaluate results((a)regression;(b)label distribution learning)

        4.3 研究注意力結(jié)構(gòu)對(duì)動(dòng)作質(zhì)量評(píng)估的影響

        PNTA 模塊是SALDL 模型中的重要組成部分,為探索注意力模塊及其結(jié)構(gòu)在SALDL 模型中對(duì)視頻質(zhì)量評(píng)估結(jié)果的影響,本小節(jié)對(duì)不同結(jié)構(gòu)的SALDL 模型進(jìn)行訓(xùn)練,包括不包含注意力模塊(No_Attention),單注意力頭(Single_Head),正負(fù)注意力頭(Pos&Neg_Head)以及多注意力頭(Multi_head),得到在打結(jié)、穿針、縫合和跳水動(dòng)作質(zhì)量評(píng)估任務(wù)中各模型的Sp.Corr如圖7所示。

        圖7 不同類型自注意力對(duì)動(dòng)作質(zhì)量評(píng)估的影響Fig.7 The effect of different types of self-attention on the action quality assessment((a)Sp.Corr plot;(b)Sp.Corr histogram)

        不使用自注意力機(jī)制時(shí)模型在所有動(dòng)作類型中的評(píng)估效果最差,其平均斯皮爾曼等級(jí)相關(guān)系數(shù)為0.759 1,而添加自注意力模塊之后,動(dòng)作質(zhì)量評(píng)估的性能有明顯提升,相較于不使用自注意力機(jī)制的模型,單注意力機(jī)制和多注意力機(jī)制分別提升了7.78%和7.95%,而使用了PNTA 模塊以后的SALDL 模型,其在所有動(dòng)作類型中的平均斯皮爾曼等級(jí)相關(guān)系數(shù)達(dá)0.842 8,提升了11.01%。其次,單個(gè)注意力頭的評(píng)估結(jié)果最差,擁有正負(fù)注意力頭的模型效果最好,其相比于單自注意力頭,平均斯皮爾曼等級(jí)相關(guān)系數(shù)增加了3.2%,相較于多注意力機(jī)制增加了2.8%,說(shuō)明自注意力頭的個(gè)數(shù)與動(dòng)作質(zhì)量評(píng)估性能成非線性相關(guān)。注意力頭過(guò)少可能使得上下文信息不夠完整;注意力頭過(guò)多可能增加大量參數(shù),導(dǎo)致過(guò)擬合,且增加了計(jì)算復(fù)雜度。而正負(fù)注意力頭能夠較完整地提取視頻段序列之間上下文信息,同時(shí)防止過(guò)擬合并降低計(jì)算復(fù)雜度。

        4.4 優(yōu)化器的消融實(shí)驗(yàn)

        梯度下降是目前神經(jīng)網(wǎng)絡(luò)中使用最為廣泛的優(yōu)化方法之一,合理的選擇優(yōu)化器,在深度學(xué)習(xí)的理論以及工程任務(wù)中都是非常核心的問(wèn)題。為研究?jī)?yōu)化器在梯度下降過(guò)程中對(duì)SALDL 收斂速度的影響,對(duì)使用不同優(yōu)化器的SALDL 模型在JIGSAWS 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖8所示,Adam 在第10個(gè)epoch 時(shí)達(dá)到了最高值,大于所有其他優(yōu)化器;SGD(stochastic gradient descent)優(yōu)化器的學(xué)習(xí)速率較慢且出現(xiàn)波動(dòng),而RMSprop 的效果與Adam 類似,但是相關(guān)系數(shù)沒(méi)有Adam高。Adagrad優(yōu)化器雖然有錯(cuò)誤梯度方向上的阻力,但是優(yōu)化速度和相關(guān)系數(shù)都比較低。基于實(shí)驗(yàn)結(jié)果本文選用Adam 作為梯度下降的優(yōu)化器,一方面Adam 優(yōu)化器的收斂速度最快,且其在梯度下降過(guò)程中使SALDL模型能找到最優(yōu)解。

        圖8 不同類型優(yōu)化器對(duì)動(dòng)作質(zhì)量評(píng)估的影響Fig.8 The effect of different types of optimize on the action quality assessment

        4.5 SALDL各模塊的消融實(shí)驗(yàn)

        針對(duì)SALDL 模型的PNTA、LDL 以及Attention-Inc 結(jié)構(gòu)進(jìn)行消融實(shí)驗(yàn),表5 中SALDL-Regression 表示基于回歸的SALDL 模型,其Sp.Corr 為0.932 0。SALDL-w/o PNTA 表示沒(méi)有使用PNTA 模塊的SALDL 模 型,其Sp.Corr 為0.938 4。SALDL-w/o Attention-Ins 表示沒(méi)有使用Attention-Inc 結(jié)構(gòu)的SALDL 模型,其Sp.Corr 為0.939 9。消融實(shí)驗(yàn)結(jié)果表明,即使是單獨(dú)去除了各個(gè)模塊之后的SALDL 模型,也能夠達(dá)到與以往方法相媲美的動(dòng)作質(zhì)量評(píng)估結(jié)果。但是與完整的SALDL 模型相比,分別去除各個(gè)模塊之后的Sp.Corr均有一定程度的下降,充分說(shuō)明了各個(gè)模塊的有效性及重要性,下降程度由高到低排序?yàn)長(zhǎng)DL 模塊、PNTA 模塊以及Attention-Inc結(jié)構(gòu)。

        4.6 分段策略對(duì)動(dòng)作質(zhì)量評(píng)估的影響

        為研究視頻段序列長(zhǎng)度以及視頻段長(zhǎng)度的選取對(duì)模型的影響。本文將各分段策略的SALDL 算法在MTL-AQA 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取前20 個(gè)epoch 中最優(yōu)結(jié)果,實(shí)驗(yàn)使用7-clip 表示,以[0,16,32,48,64,80,96]為幀首。將其分成7段,每段包含16幀。Pan 等人(2019)指出,對(duì)于大多數(shù)任務(wù),段內(nèi)幀的數(shù)量為10 時(shí)最合適。在此基礎(chǔ)上,進(jìn)一步研究了兩種方案。第1 種方案以[0,10,20,30,40,50,60,70,80,87]作為這10 段(記為10-clip-s1)的起始幀索引。將步幅設(shè)為10,由于視頻的長(zhǎng)度是103幀,而每段包含16 幀,故將最后一個(gè)開(kāi)始索引設(shè)置為87。第2 種方案采用[0,9,19,29,38,48,58,67,77,87]作為這10 段(記為10-clip-s2)的起始幀索引,使用I3D 模型作為特征提取網(wǎng)絡(luò)。它以16 幀作為輸入。結(jié)果如表6 所示,將視頻分為10 段,且每段為16 幀的效果最好,其斯皮爾曼等級(jí)相關(guān)系數(shù)為0.941 6。而分成7 段,每段包含16 幀的效果最差,其斯皮爾曼等級(jí)相關(guān)系數(shù)不到0.925 4。說(shuō)明并不是將視頻段分得越大效果越好,分成10段每段16幀,且與段具有6 幀重合能夠捕捉到更多視頻中的時(shí)序特征,同時(shí)避免了段與段之間動(dòng)作特征的割裂。

        表6 不同的分段策略對(duì)動(dòng)作質(zhì)量評(píng)估的影響Table 6 Effect of different segmentation strategies on the action quality assessment

        4.7 分布函數(shù)對(duì)動(dòng)作質(zhì)量評(píng)估的影響

        LDL 模塊將得分標(biāo)記轉(zhuǎn)換為得分分布,并對(duì)所有的分布截?cái)嚯x散化,重新標(biāo)準(zhǔn)化以符合分?jǐn)?shù)范圍。然而不同的分布所適用的場(chǎng)景不同,例如t分布適用于小樣本且方差未知,而高斯分布適用于均值方差較穩(wěn)定的情況。為探究分布函數(shù)的選取對(duì)于實(shí)驗(yàn)結(jié)果的影響,本文對(duì)各種分布函數(shù)進(jìn)行了實(shí)驗(yàn),如表7所示,實(shí)驗(yàn)選取χ2分布、t分布以及SALDL 模型所使用的高斯分布3 種分布在JIGSAWS 和MTL-AQA 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),χ2分布的自由度(df)取2,t分布的自由度取10,均值(s)取標(biāo)準(zhǔn)化之后的分?jǐn)?shù),高斯分布遵循2.3小節(jié)實(shí)現(xiàn)。

        表7 不同分布函數(shù)對(duì)動(dòng)作質(zhì)量評(píng)估的影響Table 7 Effect of different distribution functions on action quality assessment

        實(shí)驗(yàn)結(jié)果表明,使用高斯分布模型在所有任務(wù)中的平均斯皮爾曼等級(jí)相關(guān)系數(shù)最高,達(dá)到0.849 2,而χ2分布的效果最差。然而,沒(méi)有一個(gè)分布可以在所有的動(dòng)作類型中均表現(xiàn)得最好,例如χ2分布在縫合任務(wù)和打結(jié)任務(wù)中具有最好的準(zhǔn)確率,其原因可能是JIGSAWS 數(shù)據(jù)集樣本數(shù)目較少,而高斯分布模型在穿針和跳水質(zhì)量評(píng)估任務(wù)中的評(píng)估結(jié)果明顯更好。

        對(duì)MTL-AQA 和JIGSAWS 數(shù)據(jù)集進(jìn)行實(shí)例分析,研究不同分布函數(shù)選取對(duì)于動(dòng)作質(zhì)量評(píng)估的影響,并可視化標(biāo)記分布學(xué)習(xí)結(jié)果,如圖9 所示。利用不同分布函數(shù)對(duì)各個(gè)數(shù)據(jù)集實(shí)例進(jìn)行的標(biāo)記分布學(xué)習(xí)。圖中分別標(biāo)注了實(shí)例類型及其編號(hào),紫色直線表示樣本標(biāo)記,紅色線條表示高斯分布、藍(lán)色線條表示t分布、綠色線條表示χ2分布。實(shí)驗(yàn)結(jié)果表明,SALDL 模型在各個(gè)實(shí)例中能夠?qū)W習(xí)標(biāo)記在不同得分下的概率分布,使得學(xué)習(xí)過(guò)程更加透明,減少了標(biāo)記的模糊性問(wèn)題,充分驗(yàn)證了該模型的有效性。

        圖9 不同標(biāo)記分布函數(shù)的動(dòng)作質(zhì)量評(píng)估結(jié)果可視化Fig.9 Visualization of action quality assessment results with different label distribution

        5 結(jié)論

        本文研究的視頻動(dòng)作質(zhì)量評(píng)估能夠自動(dòng)化地對(duì)特定動(dòng)作的完成情況和執(zhí)行質(zhì)量進(jìn)行評(píng)估,減少人力資源的消耗以及誤判的現(xiàn)象,具有很強(qiáng)的擴(kuò)展性和實(shí)用性。視頻動(dòng)作質(zhì)量評(píng)估任務(wù)主要的難點(diǎn)在于特點(diǎn)動(dòng)作的時(shí)空位置難以判斷及認(rèn)知差異導(dǎo)致的標(biāo)記的內(nèi)在模糊性。本文研究如何高效地利用自注意力機(jī)制挖掘不同尺度時(shí)空特征的上下文關(guān)系,研究如何通過(guò)標(biāo)記增強(qiáng)及標(biāo)記分布學(xué)習(xí)解決標(biāo)記的內(nèi)在模糊性。提出一種新的視頻動(dòng)作質(zhì)量評(píng)估方法SALDL,為解決目前動(dòng)作質(zhì)量評(píng)估任務(wù)普遍存在的動(dòng)作在視頻內(nèi)多尺度空間特征問(wèn)題,通過(guò)Attention-Inc 結(jié)構(gòu)使得模型能夠獲得不同尺度卷積特征之間的上下文信息;為解決標(biāo)記的內(nèi)在模糊性問(wèn)題,使用標(biāo)記學(xué)習(xí)方法獲得細(xì)粒度標(biāo)簽;為了解決多頭自注意力機(jī)制中注意力頭的冗余及內(nèi)在多尺度時(shí)間特征問(wèn)題,通過(guò)PNAT 模塊使不同注意力頭之間學(xué)習(xí)的內(nèi)容盡可能不同。本文進(jìn)行了大量對(duì)比和消融實(shí)驗(yàn),證明了SALDL 模型各個(gè)模塊的有效性。實(shí)驗(yàn)結(jié)果表明,SALDL 模型在MTL-AQA、JIGSAWS 等數(shù)據(jù)集中均取得了當(dāng)前最優(yōu)的結(jié)果。

        本文提出的模型引入了動(dòng)作質(zhì)量標(biāo)記天然服從某種分布的先驗(yàn)知識(shí),雖然能夠有效解決標(biāo)記的內(nèi)在模糊性問(wèn)題,但是分布函數(shù)的選取仍然需要人為干預(yù)。進(jìn)一步的工作可以考慮研究如何動(dòng)態(tài)確定選取分布函數(shù)、對(duì)不同分布函數(shù)進(jìn)行融合等方法實(shí)現(xiàn)自適應(yīng)的標(biāo)記增強(qiáng)。

        猜你喜歡
        動(dòng)作特征質(zhì)量
        “質(zhì)量”知識(shí)鞏固
        質(zhì)量守恒定律考什么
        如何表達(dá)“特征”
        做夢(mèng)導(dǎo)致睡眠質(zhì)量差嗎
        不忠誠(chéng)的四個(gè)特征
        動(dòng)作描寫要具體
        抓住特征巧觀察
        畫(huà)動(dòng)作
        動(dòng)作描寫不可少
        質(zhì)量投訴超六成
        汽車觀察(2016年3期)2016-02-28 13:16:26
        亚洲第一无码精品久久| 人妻少妇久久久久久97人妻| 中文乱码字慕人妻熟女人妻| 欧韩视频一区二区无码| 精品黄色av一区二区三区| 你懂的视频在线看播放| 色综合久久无码五十路人妻| 狠狠色综合网站久久久久久久 | 日本女优久久精品久久| 狠狠躁18三区二区一区| 中国猛少妇色xxxxx| 国产思思久99久精品| 九一精品少妇一区二区三区| а√天堂8资源中文在线| 色悠久久久久综合欧美99| 欧美日本视频一区| 亚洲女同系列在线观看| 少妇性俱乐部纵欲狂欢电影| 国产亚洲婷婷香蕉久久精品| 成人av天堂一区二区| 自由成熟女性性毛茸茸应用特色 | 18禁黄久久久aaa片| 精品人妻中文av一区二区三区| 亚洲精品一区二区三区日韩| 白嫩丰满少妇av一区二区| 野花社区视频www官网| 国产精品黑色丝袜在线播放 | 久久精品国产亚洲av麻豆瑜伽| 欧美a级情欲片在线观看免费| 日韩欧美国产丝袜视频| 国产精品久久三级精品| 十八禁无遮挡99精品国产| 国产精品久久婷婷六月丁香| 99在线无码精品秘 人口| 国产不卡在线观看视频| 忘忧草社区www日本高清| 在线视频 亚洲精品| 中文字幕视频一区二区| 中文字幕日韩人妻在线视频| 最新亚洲人成无码网站| 日韩精品人妻少妇一区二区|