亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的弱監(jiān)督動(dòng)作定位方法

        2022-04-12 09:25:14華鋼
        計(jì)算機(jī)應(yīng)用 2022年3期
        關(guān)鍵詞:區(qū)分注意力標(biāo)簽

        胡 聰,華鋼

        (中國(guó)礦業(yè)大學(xué)信息與控制工程學(xué)院,江蘇徐州 221116)

        0 引言

        在當(dāng)今的信息化時(shí)代,隨著大數(shù)據(jù)的發(fā)展和科技的進(jìn)步,視頻數(shù)據(jù)量呈現(xiàn)井噴式增長(zhǎng),傳統(tǒng)的人工動(dòng)作定位已經(jīng)很難滿足信息化時(shí)代中對(duì)視頻分析和處理的需求,因此,近年來,深度學(xué)習(xí)模式下的視頻動(dòng)作定位逐漸成為許多學(xué)者著重研究的方向[1-3]。動(dòng)作定位的實(shí)質(zhì)是獲取視頻中可能存在的動(dòng)作的開始和結(jié)束的時(shí)間,并對(duì)獲取的動(dòng)作片段進(jìn)行分類。動(dòng)作定位技術(shù)的應(yīng)用可以使人們有效地對(duì)若干視頻片段進(jìn)行查找。

        深度學(xué)習(xí)模式下的視頻動(dòng)作定位方法主要分為強(qiáng)監(jiān)督動(dòng)作定位方法[4-6]和弱監(jiān)督動(dòng)作定位方法[7-9]。強(qiáng)監(jiān)督動(dòng)作定位方法需要采用幀級(jí)標(biāo)簽(即預(yù)先準(zhǔn)備好的視頻每一幀的類別標(biāo)簽)進(jìn)行動(dòng)作定位,在訓(xùn)練過程中,利用幀級(jí)標(biāo)簽?zāi)軌驅(qū)崿F(xiàn)幀對(duì)幀的校準(zhǔn),從而得到較為精準(zhǔn)的候選動(dòng)作片段,定位準(zhǔn)確性較高;然而,對(duì)于大規(guī)模、長(zhǎng)時(shí)間的視頻,很難高效、準(zhǔn)確地對(duì)視頻每一幀預(yù)標(biāo)注標(biāo)簽,且獲取大規(guī)模的幀級(jí)標(biāo)簽需要花費(fèi)大量的人力和時(shí)間,因此,針對(duì)大規(guī)模、長(zhǎng)時(shí)間的視頻進(jìn)行動(dòng)作定位,只能采用基于視頻級(jí)標(biāo)簽(即視頻片段的類別標(biāo)簽)的弱監(jiān)督動(dòng)作定位方法。弱監(jiān)督動(dòng)作定位方法雖然不依賴幀級(jí)標(biāo)簽,但是無法實(shí)現(xiàn)幀對(duì)幀的校準(zhǔn),定位準(zhǔn)確性相對(duì)較低,因此,為了提升弱監(jiān)督動(dòng)作定位的準(zhǔn)確性,本文提出了一種基于注意力機(jī)制的弱監(jiān)督動(dòng)作定位方法。

        注意力機(jī)制是一種通過模仿人腦,關(guān)注任務(wù)中的關(guān)鍵信息,從而實(shí)現(xiàn)對(duì)信息的合理分配和利用,以提高工作效率的方法。近年來,基于注意力機(jī)制的方法被廣泛應(yīng)用于動(dòng)作定位的研究[10-12]中?;谧⒁饬C(jī)制的弱監(jiān)督動(dòng)作定位方法主要分為兩種:第一種是從上到下的方法,首先訓(xùn)練一個(gè)視頻分類器,將原始視頻數(shù)據(jù)送入視頻分類器,得到視頻的時(shí)序動(dòng)作分類分布圖,即TCAM(Temporal Class Action Map)[13];然后利用每個(gè)片段的TCAM 獲取動(dòng)作提議片段,進(jìn)而進(jìn)行動(dòng)作定位[13-14]。第二種方法是從下到上的方法,先利用原始視頻數(shù)據(jù)生成幀級(jí)注意力值;然后訓(xùn)練和優(yōu)化幀級(jí)注意力值。對(duì)于某個(gè)動(dòng)作類別,幀級(jí)注意力值較高的幀被認(rèn)為是動(dòng)作幀,否則是背景幀。根據(jù)幀級(jí)注意力值得到動(dòng)作提議片段,以對(duì)視頻進(jìn)行動(dòng)作定位[15-17]。

        盡管弱監(jiān)督動(dòng)作定位方法能夠擺脫對(duì)幀級(jí)標(biāo)簽的依賴,其也存在以下的兩個(gè)問題:其一,由于缺少幀級(jí)標(biāo)簽,若只根據(jù)注意力值進(jìn)行動(dòng)作定位,沒有考慮到相鄰幀之間可能存在相關(guān)性,可能導(dǎo)致出現(xiàn)信息丟失的問題。例如,對(duì)于動(dòng)作“跳”,包含準(zhǔn)備、跳、落地、恢復(fù)四個(gè)過程,其中準(zhǔn)備和恢復(fù)過程在動(dòng)作定位時(shí)對(duì)于跳的注意力值可能偏低,從而在定位時(shí)可能過濾到這兩個(gè)部分,導(dǎo)致在弱監(jiān)督動(dòng)作定位過程中常會(huì)出現(xiàn)動(dòng)作漏檢的問題。其二,由于缺少幀級(jí)標(biāo)簽,弱監(jiān)督動(dòng)作定位常會(huì)出現(xiàn)動(dòng)作和背景混淆的問題,將背景誤識(shí)別為動(dòng)作,進(jìn)而影響動(dòng)作定位的精確性。

        針對(duì)上述問題,本文對(duì)基于注意力機(jī)制的弱監(jiān)督動(dòng)作定位方法進(jìn)行了研究。為了減少動(dòng)作定位時(shí)可能出現(xiàn)的遺漏,本文采用條件變分自編碼器(Conditional Variational AutoEncoder,CVAE)[18]注意力值生成模型,并在此基礎(chǔ)上加入了動(dòng)作前后幀信息。參考語義理解領(lǐng)域中的Transformer模型[19-20],將前后幀的特征及當(dāng)前幀的特征進(jìn)行位置編碼后,進(jìn)而得到加入動(dòng)作前后幀信息的視頻特征;然后將視頻特征送入CVAE 生成模型中的編解碼器,得到加入前后幀信息的幀級(jí)注意力值。同時(shí),為了使得注意力值對(duì)于動(dòng)作的類別有出色的區(qū)分能力,本文提出基于區(qū)分函數(shù)的注意力值優(yōu)化模型,結(jié)合TCAM[21-22],構(gòu)建區(qū)分函數(shù),以優(yōu)化注意力值的分布,提升注意力值的分類能力。最后,經(jīng)過訓(xùn)練和優(yōu)化后,得到每一幀的幀級(jí)注意力值,作為視頻的偽幀級(jí)標(biāo)簽,并基于幀級(jí)注意力值構(gòu)建動(dòng)作定位模型,以得到動(dòng)作的時(shí)序位置。本文在THUMOS14 和ActivityNet1.2 數(shù)據(jù)集上取得了較好的成果。

        由于視頻數(shù)據(jù)量巨大,為了減少計(jì)算量,本文采用預(yù)訓(xùn)練好的特征提取網(wǎng)絡(luò)對(duì)THUMOS14 和ActivityNet1.2 數(shù)據(jù)集進(jìn)行視頻特征提取。近年來,基于深度學(xué)習(xí)的視頻特征提取研究取得了較大的進(jìn)步,如雙流模型[23]、TSN(Temporal Segment Network)模 型[24]、C3D(Convolutional 3D)模 型[25]、P3D(Pseudo 3D)模型[26]和I3D(Inflated 3D)模型[27]等。本文選用在Kineitics 數(shù)據(jù)集上預(yù)訓(xùn)練好的I3D 模型進(jìn)行特征提取,以得到THUMOS14 和ActivityNet1.2 數(shù)據(jù)集的視頻特征。

        近年來,許多學(xué)者對(duì)弱監(jiān)督動(dòng)作定位模型進(jìn)行了研究。W-TALC(Weakly-supervised Temporal Activity Localization and Classification framework)模型[28]和3C-Net 模型[29]是目前比較成熟的從上到下的模型;STPN(Sparse Temporal Pooling Network)模型[30]采用從下到上的方法,并在此基礎(chǔ)上加入一個(gè)規(guī)范項(xiàng)以加強(qiáng)動(dòng)作的稀疏性;AutoLoc 模型[31]采用OIC(Outer-Inner-Contrastive)損失函數(shù)使得不同動(dòng)作之間有更強(qiáng)的區(qū)分度。為了驗(yàn)證本文提出的弱監(jiān)督動(dòng)作定位方法的動(dòng)作定位效果,本文在實(shí)驗(yàn)中對(duì)比了本文模型和AutoLoc 模型、W-TALC 模型、3C-Net 模型等弱監(jiān)督動(dòng)作定位模型的平均檢測(cè)精度均值。

        此外,本文在注意力值生成過程中采用的生成模型近年來也有了長(zhǎng)足的發(fā)展。目前常用的生成模型包括生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[32]、變分自編碼器(Variational Auto-Encoder,VAE)[33]、CVAE 等。GAN 生成模型主要包括生成器和區(qū)分器兩部分,通過不斷減少區(qū)分器和生成器的輸出獲取準(zhǔn)確的數(shù)據(jù)分布;VAE 生成模型通過輸入數(shù)據(jù)構(gòu)建一個(gè)虛擬分布空間,再通過在虛擬分布空間采樣獲取生成的數(shù)據(jù),VAE 生成模型中的虛擬分布空間均符合高斯分布,以便于采樣;CVAE 生成模型是VAE 生成模型的一種擴(kuò)展,相對(duì)于VAE 生成模型,CVAE 生成模型對(duì)于數(shù)據(jù)有更好的控制能力。由于弱監(jiān)督動(dòng)作定位中的視頻數(shù)據(jù)集缺少幀級(jí)標(biāo)簽,為了生成能夠預(yù)測(cè)視頻特征類別的幀級(jí)注意力值,以作為視頻的偽幀級(jí)標(biāo)簽,本文采用基于動(dòng)作前后幀信息的CVAE 生成模型,生成符合高斯分布的幀級(jí)注意力值,以進(jìn)行動(dòng)作定位。

        1 動(dòng)作定位模型

        本文首先采用I3D 模型[27]獲取視頻的RGB 和光流特征,用于訓(xùn)練和測(cè)試,其中T是每個(gè)視頻的幀數(shù),xt∈Rd是每一幀的特征向量,d是特征的維數(shù)。視頻級(jí)標(biāo)簽被標(biāo)記為y∈{0,1,…,C},其中C表示動(dòng)作類別數(shù),0 表示背景。在得到視頻特征后,本文采用從下向上的方法進(jìn)行弱監(jiān)督動(dòng)作定位,包括基于動(dòng)作前后幀信息的CVAE 注意力值生成模型、基于區(qū)分函數(shù)的注意力值優(yōu)化模型和基于注意力值的動(dòng)作定位模型三個(gè)部分。

        為了得到每一幀的注意力值分布(即偽幀級(jí)標(biāo)簽)λ,本文構(gòu)建CVAE 注意力值生成模型,并將視頻特征送入CVAE生成模型中,以得到視頻特征的注意力值分布,其中λt是對(duì)應(yīng)于每一幀的視頻特征xt的注意力值分布向量,取值范圍為[0,1]。為了提升幀級(jí)注意力值對(duì)于動(dòng)作分類的準(zhǔn)確性,注意力值分布應(yīng)滿足式(1):

        其中p(λ|X,y)是在給定輸入視頻特征X和每個(gè)視頻標(biāo)簽y的情況下,得到對(duì)應(yīng)于標(biāo)簽y的注意力值的分布。由于缺少幀級(jí)標(biāo)簽,很難獲取準(zhǔn)確的p(λ|X,y),因此采用貝葉斯式得到logp(λ|X,y)的近似值,如式(2)所示:

        其中l(wèi)ogp(λ)-logp(X,y) 是常數(shù)。因此式(1)可以簡(jiǎn)化為式(3):

        式(3)中第1 項(xiàng)的目的是使視頻的特征被注意力值精準(zhǔn)地預(yù)測(cè)和表示,即注意力值能夠區(qū)分視頻特征;第2 項(xiàng)的目的是使注意力值對(duì)于動(dòng)作有出色的分類能力。為了使式(3)中第1 項(xiàng)達(dá)到最大值,本文構(gòu)建CVAE 注意力值生成模型,利用注意力值重構(gòu)視頻特征,從而生成能夠最佳預(yù)測(cè)和區(qū)分視頻特征的注意力值;為了使第2 項(xiàng)達(dá)到最大值,本文采用注意力值優(yōu)化模型,通過構(gòu)造區(qū)分函數(shù),對(duì)注意力值的分類能力進(jìn)行提升和優(yōu)化。

        1.1 基于動(dòng)作前后幀信息的CVAE注意力值生成模型

        1.1.1 CVAE注意力值生成模型

        CVAE 注意力值生成模型是一種用于生成幀級(jí)注意力值的模型,主要包含編碼器和解碼器兩部分,均由兩個(gè)全連接 層(Fully Connected layers,F(xiàn)C)和兩個(gè)ReLU(Rectified Linear Unit)激活層構(gòu)成,其中:第1 個(gè)全連接層的目的是使輸入數(shù)據(jù)映射到虛擬分布空間上,第2 個(gè)全連接層用于生成注意力值的分布。

        CVAE 注意力值生成模型首先采用編碼器,將輸入的視頻特征映射到一個(gè)虛擬分布空間(虛擬分布空間符合高斯分布以便于采樣);再采用解碼器從虛擬分布空間進(jìn)行限定條件的采樣,得到具備一定約束條件的重構(gòu)的視頻特征。本文將CVAE 生成模型生成的幀級(jí)注意力值作為視頻的偽幀級(jí)標(biāo)簽,用于后續(xù)的動(dòng)作定位。下面對(duì)CVAE 注意力值生成模型的具體實(shí)現(xiàn)方法進(jìn)行論述。

        其中:φ為解碼器中的參數(shù),zt為解碼器對(duì)注意力值進(jìn)行采樣得到的潛在變量,即,其分布符合高斯分布。為了生成重構(gòu)特征,構(gòu)造初始注意力值,將其和視頻特征xt送入解碼器中進(jìn)行采樣,得到潛在變量zt,再采用注意力值λt和潛在變量zt送入解碼器中采樣,得到重構(gòu)特征。

        同時(shí),為了訓(xùn)練CVAE 生成模型的參數(shù),本文采用輸入的視頻特征xt和注意力值λt構(gòu)造另一個(gè)潛在變量ht~q?(ht|xt,λt),以及符合高斯 分布的虛擬分布空間q?(ht|xt,λt)=Ν(ht|μ?,σ?2),其中?為編碼器中的參數(shù)。為了提升CVAE 生成模型的生成效果,構(gòu)造損失函數(shù)LCVAE,在訓(xùn)練中通過減小損失函數(shù)LCVAE提升CVAE 生成模型的生成能力。損失函數(shù)LCVAE如式(5)所示:

        其中:LKL用于計(jì)算散度的損失量,Lre用于計(jì)算CVAE 生成的重構(gòu)視頻特征和輸入視頻特征之間的損失量。β為調(diào)節(jié)參數(shù),KL 為編碼器得到的虛擬分布空間q?(ht|xt,λt)和解碼器得到的虛擬分布空間pφ(zt|λt)之間的散度,目的是使得兩者得到的潛在變量盡可能接近,從而使得CVAE 中的編碼器和解碼器匹配。式(5)中的KL 的計(jì)算方法如式(6)所示:

        通過訓(xùn)練和優(yōu)化LCVAE,使q?(ht|xt,λt)和pφ(zt|λt)盡可能接近,并使注意力值生成的重構(gòu)視頻特征和原輸入視頻特征xt接近,從而得到能夠表示視頻特征的幀級(jí)注意力值。因此,CVAE 生成模型的生成方式如圖1 所示。

        圖1 CVAE生成方式Fig.1 CVAE generation mode

        1.1.2 基于動(dòng)作前后幀信息的位置編碼層

        本文在CVAE 生成模型的編碼器和解碼器的基礎(chǔ)上加入一個(gè)基于動(dòng)作前后幀信息的位置編碼層,以增強(qiáng)動(dòng)作幀的前后關(guān)聯(lián)性。令輸入的第t-1 幀的視頻特征xt-1為K,輸入的第t幀的視頻特征xt為Q,輸入的第t+1 幀的視頻特征xt+1為V,經(jīng)過位置編碼層處理后的視頻特征如式(7)所示:

        其中α為調(diào)節(jié)參數(shù)。通過位置編碼層,以加強(qiáng)動(dòng)作前后幀的關(guān)聯(lián)性,減小動(dòng)作漏檢率。

        1.2 基于區(qū)分函數(shù)的注意力值優(yōu)化模型

        為了最大化式(3)中的第二項(xiàng),本文構(gòu)造基于區(qū)分函數(shù)的注意力值優(yōu)化模型,通過構(gòu)建區(qū)分函數(shù),優(yōu)化動(dòng)作的分類結(jié)果,以訓(xùn)練和優(yōu)化注意力值,使注意力值能夠精準(zhǔn)地分類動(dòng)作的類別,同時(shí)將與動(dòng)作無關(guān)的背景幀剝離開來。注意力值優(yōu)化模型的目標(biāo)如式(8)所示:

        其中xfg是對(duì)應(yīng)于任一種動(dòng)作類別的動(dòng)作前景特征,xbg是對(duì)應(yīng)于任一種動(dòng)作類別的背景特征。兩者的計(jì)算方法分別如式(9)和式(10)所示:

        為了使得注意力值能夠最佳擬合動(dòng)作的實(shí)際類別,在區(qū)分函數(shù)中,首先構(gòu)造一個(gè)損失函數(shù)LE。通過訓(xùn)練,降低損失函數(shù)LE的值,以優(yōu)化注意力值。損失函數(shù)LE如式(11)所示:

        其中pθ包含一個(gè)全連接層和一個(gè)Softmax 分類器。式(11)中的第一項(xiàng)用于提升注意力值對(duì)于視頻標(biāo)簽y分類動(dòng)作的準(zhǔn)確性,第二項(xiàng)用于提升注意力值區(qū)分背景的能力,第三項(xiàng)用于減小注意力值被分類為其他動(dòng)作的概率。對(duì)于任一種動(dòng)作類別c∈C,全連接層的參數(shù)為wc∈Rd。

        此外,為了能夠進(jìn)一步優(yōu)化注意力值的分布,本文在區(qū)分函數(shù)中增加TCAM 項(xiàng),以進(jìn)一步提升注意力值的分類能力。TCAM 由一個(gè)全連接層和一個(gè)高斯濾波器組成。對(duì)于一個(gè)給定的視頻標(biāo)簽y,TCAM 可以由式(12)計(jì)算得出:

        其中:wc表示動(dòng)作屬于c類別時(shí)的全連接層的參數(shù),wy表示動(dòng)作屬于標(biāo)簽y的類別時(shí)全連接層的參數(shù),w0表示動(dòng)作屬于背景時(shí)全連接層的參數(shù)分別是前景和背景的TCAM 分布。G(σs)是一個(gè)標(biāo)準(zhǔn)高斯濾波器,σs表示高斯濾波器的標(biāo)準(zhǔn)差,*表示卷積操作。采用前景和背景的TCAM分布,可以構(gòu)造TCAM 對(duì)注意力值優(yōu)化的損失函數(shù)LTCAM,如式(13)所示:

        通過最小化損失函數(shù)LTCAM,優(yōu)化全連接層的參數(shù),以提升注意力值對(duì)于前景和背景的區(qū)分能力。

        由上所述,區(qū)分函數(shù)包含損失函數(shù)LE和TCAM 損失函數(shù)LTCAM兩部分,區(qū)分函數(shù)如式(14)所示:

        其中γ1和γ2為調(diào)節(jié)參數(shù)。注意力值優(yōu)化模型的目標(biāo)相當(dāng)于最小化區(qū)分函數(shù)LAttention。

        1.3 注意力值生成及優(yōu)化流程

        注意力值生成及優(yōu)化流程主要分為兩個(gè)步驟循環(huán)進(jìn)行:1)固定注意力值優(yōu)化模型,訓(xùn)練并更新CVAE 注意力值生成模型中的損失函數(shù)LCVAE;2)固定CVAE 注意力值生成模型。訓(xùn)練并更新注意力值優(yōu)化模型中的區(qū)分函數(shù)LAttention,將訓(xùn)練好的注意力值分布送回CVAE 生成模型,用以訓(xùn)練CVAE 生成模型。

        注意力值生成及優(yōu)化模型的流程如圖2 所示。

        圖2 注意力值生成及優(yōu)化流程Fig.2 Flowchart of attention value generation and optimization

        1.4 基于注意力值的動(dòng)作定位模型

        獲取了幀級(jí)注意力值后,本文構(gòu)建基于注意力值的動(dòng)作定位模型。對(duì)于某一動(dòng)作分類,在[ts,te]時(shí)間內(nèi)若這一動(dòng)作的注意力值連續(xù)高于閾值IoU(Intersection over Union)時(shí),認(rèn)定是可能的動(dòng)作片段,該片段的平均注意力值即為該片段的動(dòng)作分類分s(ts,te,c),其中c表示動(dòng)作的類別。參考文獻(xiàn)[34],將s(ts,te,c)優(yōu)化為s*(ts,te,c),其計(jì)算方法如式(15)所示:

        其中η是調(diào)節(jié)參數(shù),參考文獻(xiàn)[34],將其設(shè)置為0.1。

        1.5 本文模型整體流程

        在本文提出的基于動(dòng)作前后幀信息和區(qū)分函數(shù)的動(dòng)作定位模型中,首先采用預(yù)訓(xùn)練好的I3D 模型分別獲取視頻的RGB 和光流的特征;然后,構(gòu)建注意力值生成和優(yōu)化模型,利用視頻特征得到RGB 和光流注意力值,將兩種注意力值合并后,即得到視頻的幀級(jí)注意力值分布;最后,基于不同的閾值IoU(THUMOS14 數(shù)據(jù)集中IoU 取值0.10~0.90,間隔0.10;ActivityNet1.2 數(shù)據(jù)集中IoU 取值0.50~0.95,間隔0.05),利用注意力值完成動(dòng)作定位。本文模型的流程如圖3 所示。

        圖3 本文模型的流程Fig.3 Flowchart of proposed model

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)

        為了評(píng)估模型的效果,本文在兩個(gè)公共視頻數(shù)據(jù)集THUMOS14 和ActivityNet1.2 上進(jìn)行了實(shí)驗(yàn)。兩個(gè)數(shù)據(jù)集的視頻都是未修剪的。在測(cè)試集中不存在幀級(jí)標(biāo)簽,只存在視頻級(jí)標(biāo)簽。

        THUMOS14 數(shù)據(jù)集在其訓(xùn)練集、驗(yàn)證集和測(cè)試集中共有101 個(gè)動(dòng)作類的視頻級(jí)標(biāo)簽,在20 個(gè)類的測(cè)試集中具有視頻級(jí)標(biāo)簽(不包含幀級(jí)標(biāo)簽)。本文采用由200 個(gè)未修剪視頻組成的驗(yàn)證集進(jìn)行訓(xùn)練,包含212 個(gè)視頻的測(cè)試集進(jìn)行性能測(cè)試。

        ActivityNet1.2 數(shù)據(jù)集是近年來推出的用于動(dòng)作識(shí)別和定位的基準(zhǔn)數(shù)據(jù)集,包含大量天然視頻,涉及語義分類下的各種人類活動(dòng)。本文采用包含100 個(gè)動(dòng)作類別的4 819 個(gè)驗(yàn)證集視頻進(jìn)行訓(xùn)練,采用2 383 個(gè)測(cè)試集視頻進(jìn)行測(cè)試。

        THUMOS14 和ActivityNet1.2 數(shù)據(jù)集中的視頻從幾秒到26 min 長(zhǎng)短不一,且一個(gè)視頻中可能存在多個(gè)動(dòng)作(平均每個(gè)視頻包含15.5 個(gè)動(dòng)作),相對(duì)于其他數(shù)據(jù)集,對(duì)于模型的分類能力和魯棒性有更高的要求。

        本文采用在不同IoU 閾值下的平均檢測(cè)精度均值(mean Average Precision,mAP)進(jìn)行動(dòng)作定位的準(zhǔn)確性評(píng)估。IoU的定義如式(16)所示:

        IoU=Predict∩Ground Truth(16)

        其中:Predict表示檢測(cè)到的候選動(dòng)作片段,Ground Truth表示訓(xùn)練集中給定的真實(shí)的動(dòng)作片段。

        在對(duì)動(dòng)作定位的預(yù)測(cè)結(jié)果進(jìn)行評(píng)判時(shí),一個(gè)準(zhǔn)確的動(dòng)作定位的預(yù)測(cè)結(jié)果應(yīng)當(dāng)滿足以下兩條準(zhǔn)則:1)預(yù)測(cè)的動(dòng)作片段中動(dòng)作類別與真實(shí)發(fā)生的動(dòng)作類別較為一致;2)預(yù)測(cè)的動(dòng)作與真實(shí)動(dòng)作的IoU 較大。

        為了計(jì)算動(dòng)作定位的準(zhǔn)確率,設(shè)定一個(gè)IoU 的閾值。當(dāng)預(yù)測(cè)動(dòng)作片段與真實(shí)動(dòng)作片段之間的IoU 大于等于該閾值時(shí),計(jì)算預(yù)測(cè)動(dòng)作片段的平均檢測(cè)精度mAP,以評(píng)估模型的效果。mAP 的計(jì)算方式如式(17)所示:

        其中:C表示總動(dòng)作類別數(shù),c表示動(dòng)作類別,AP(Average Prevision)表示對(duì)于c種動(dòng)作類別的檢測(cè)精度。AP 的計(jì)算方法如式(18)所示:

        其中:P表示查準(zhǔn)率,R表示召回率,二者分別代表預(yù)測(cè)結(jié)果中正例被預(yù)測(cè)正確的比例和真實(shí)正例被預(yù)測(cè)正確的比例。查準(zhǔn)率和召回率的計(jì)算方式如式(19)、(20)所示:

        其中:TP(True Positive)表示被正確預(yù)測(cè)的幀數(shù),F(xiàn)P(False Positive)表示背景幀被預(yù)測(cè)為動(dòng)作幀的幀數(shù),F(xiàn)N(False Negative)表示動(dòng)作幀被預(yù)測(cè)為背景幀的幀數(shù)。

        通過計(jì)算每個(gè)動(dòng)作類別的檢測(cè)精度AP,并對(duì)每個(gè)動(dòng)作類別的檢測(cè)精度AP 求均值,即可得到平均檢測(cè)精度mAP。選定不同的IoU 閾值,計(jì)算在該閾值下的平均檢測(cè)精度,可表示為mAP@IoU=a,a表示IoU 的取值。

        在本文采用的THUMOS14 數(shù)據(jù)集和ActivityNet1.2 數(shù)據(jù)集中,采用固定IoU閾值進(jìn)行模型的檢測(cè)效果比對(duì)。在THUMOS14 數(shù)據(jù)集中采用的閾值IoU范圍為0.1~0.9,間隔0.1;在ActivityNet1.2 數(shù)據(jù)集中采用的閾值IoU范圍為0.50~0.95,間隔0.05。由于THUMOS14 數(shù)據(jù)集視頻數(shù)量較少,因此在THUMOS14 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果每5 次采一次平均值。

        2.2 實(shí)驗(yàn)預(yù)處理方法

        本文首先采用在Kinetics 數(shù)據(jù)集上預(yù)訓(xùn)練好的I3D 模型對(duì)輸入的THUMOS14 和ActivityNet1.2 數(shù)據(jù)集的視頻進(jìn)行特征提取,對(duì)視頻進(jìn)行幀切割后,獲取到每一幀的RGB 數(shù)據(jù);其次采用TV-L1(Total Variation regularization and the robust L1 norm)算法[35],利用RGB 的數(shù)據(jù)得到光流數(shù)據(jù);接著將兩種數(shù)據(jù)分別劃分成若干片段,每個(gè)片段16 幀,并將它們送入I3D 模型獲取兩種1 024 維的特征數(shù)據(jù),得到兩種特征數(shù)據(jù)后,分別將特征數(shù)據(jù)送入本文的模型中得到注意力值分布,對(duì)注意力值的訓(xùn)練和優(yōu)化完成后,參考文獻(xiàn)[36],采用非最大抑制法對(duì)兩種數(shù)據(jù)得到的注意力值分布進(jìn)行融合。出于運(yùn)算量的考慮,對(duì)于THUMOS14 數(shù)據(jù)集,每個(gè)視頻的最大幀數(shù)T設(shè)置為400。如果視頻幀數(shù)大于400,則只取前400 幀。對(duì)于ActivityNet1.2 數(shù)據(jù)集,每個(gè)視頻的最大幀數(shù)T設(shè)置為200。整個(gè)實(shí)驗(yàn)在Pytorch 框架下進(jìn)行,實(shí)驗(yàn)設(shè)備為Nvidia m40 GPU,學(xué)習(xí)率為10-3。

        2.3 CVAE生成模型中的參數(shù)調(diào)節(jié)

        為了評(píng)估CVAE 生成模型中各部分的作用,固定其他參數(shù),在THUMOS14 數(shù)據(jù)集中對(duì)實(shí)驗(yàn)中的各個(gè)可調(diào)參數(shù)進(jìn)行控制變量實(shí)驗(yàn)(ActivityNet1.2 數(shù)據(jù)集計(jì)算量過大不利于多組對(duì)照實(shí)驗(yàn))。

        如式(5)所示,CVAE 注意力值生成模型的損失函數(shù)LCVAE包含LKL和Lre兩部分,為了評(píng)估兩個(gè)損失函數(shù)在CVAE生成模型中的作用,采用不同的β進(jìn)行對(duì)比實(shí)驗(yàn)。此外,針對(duì)式(7)中的α調(diào)節(jié)參數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)。CVAE 生成模型中構(gòu)造的虛擬分布空間的大小同樣影響實(shí)驗(yàn)結(jié)果,因此,針對(duì)不同的虛擬分布空間大小,進(jìn)行對(duì)比實(shí)驗(yàn)。在THUMOS14 數(shù)據(jù)集上采用不同的β、α和虛擬分布空間大小得到的基于IoU=0.5 的mAP值對(duì)比如表1 所示。

        根據(jù)表1 所示,β設(shè)置為0.2 時(shí),mAP 最佳,這是因?yàn)橄噍^于重構(gòu)視頻特征和輸入視頻特征之間的偏差,虛擬分布空間之間的KL 散度值相對(duì)較大。因此,在進(jìn)行損失函數(shù)LCVAE計(jì)算時(shí),為了防止KL 散度過大導(dǎo)致訓(xùn)練過程中出現(xiàn)過擬合的問題,需要對(duì)其進(jìn)行一定程度上的縮減。

        根據(jù)表1 所示,α設(shè)置為7 時(shí),mAP值最高。這是因?yàn)樵诩尤雱?dòng)作前后幀信息對(duì)視頻特征進(jìn)行位置編碼時(shí):若動(dòng)作前后幀信息在注意力值生成過程中占比過大,會(huì)影響動(dòng)作定位的準(zhǔn)確性;若動(dòng)作前后幀信息在注意力值生成過程中占比過小,則加入動(dòng)作前后幀信息的注意力值生成模型對(duì)動(dòng)作定位的平均檢測(cè)精度均值提升有限。因此α設(shè)置為7 時(shí)能夠得到最佳的檢測(cè)效果。

        根據(jù)表1 所示,虛擬分布空間大小為128×128 時(shí)效果最佳。這是由于雖然較大的虛擬分布空間可以使得采樣更充分,但是存在降低采樣準(zhǔn)確性的可能性;較小的虛擬分布空間雖然可以提升采樣準(zhǔn)確性,但是同樣存在采樣樣本不充分的可能性。因此采用適中的虛擬分布空間大小時(shí)能得到最佳的檢測(cè)效果。

        表1 在THUMOS14數(shù)據(jù)集上采用不同的β、α和虛擬分布空間大小得到的基于IoU=0.5的mAP值對(duì)比Tab.1 Comparison of mAP values based on IoU=0.5 using differentβ,α and latent space size on THUMOS14 dataset

        2.4 注意力值優(yōu)化模型中的參數(shù)調(diào)節(jié)

        為了評(píng)估注意力值優(yōu)化模型中區(qū)分函數(shù)中各部分的作用,固定其他參數(shù),在THUMOS14 數(shù)據(jù)集上對(duì)實(shí)驗(yàn)中的各個(gè)可調(diào)參數(shù)進(jìn)行控制變量實(shí)驗(yàn)。如式(14)所示,注意力值優(yōu)化模型中的區(qū)分函數(shù)中包含LE、LTCAM兩部分,為了調(diào)整LE、LTCAM在區(qū)分函數(shù)中的占比,以最優(yōu)化區(qū)分函數(shù)的作用,對(duì)式(14)中的γ1和γ2進(jìn)行控制變量實(shí)驗(yàn)。對(duì)照實(shí)驗(yàn)結(jié)果如表2 所示,γ1設(shè)置為0.3,RGB 和光流數(shù)據(jù)的γ2值分別設(shè)置為0.5和0.3 時(shí),能夠得到最佳的mAP值。

        表2 在THUMOS14數(shù)據(jù)集上采用不同的γ1和γ2得到的基于IoU=0.5的mAP值對(duì)比Tab.2 Comparison of mAP values based on IoU=0.5 using differentγ1 andγ2 on THUMOS14 dataset

        2.5 基于動(dòng)作前后幀信息的CVAE生成模型效果評(píng)估

        為了證明本文在CVAE 生成模型中加入動(dòng)作前后幀信息對(duì)于減少動(dòng)作漏檢的提升作用,設(shè)置對(duì)照實(shí)驗(yàn),其中一組在CVAE 注意力值生成模型中加入動(dòng)作前后幀信息,另一組不加入動(dòng)作前后幀信息。視頻中動(dòng)作幀被注意力值λ檢測(cè)為背景(即未被檢測(cè)出的動(dòng)作幀)的個(gè)數(shù)為FN,全部動(dòng)作幀個(gè)數(shù)為TP+FN,漏檢率即為。采用THUMOS14 數(shù)據(jù)集,在IoU=0.5 時(shí),漏檢率實(shí)驗(yàn)結(jié)果如表3 所示,相較于未加入動(dòng)作前后幀信息的模型,采用加入動(dòng)作前后幀信息的CVAE 注意力值生成模型后,漏檢率減小了11.7%。

        表3 在THUMOS14數(shù)據(jù)集上加入動(dòng)作前后幀信息對(duì)mAP值的提升效果Tab.3 Improvement of mAP value of adding pre-and post-information of action frame on THUMOS14 dataset

        2.6 區(qū)分函數(shù)作用評(píng)估

        在評(píng)估了CVAE 注意力值生成模型中加入動(dòng)作前后幀信息的效果后,進(jìn)一步比較在本文模型中區(qū)分函數(shù)的作用。為了對(duì)比,同樣設(shè)置對(duì)照實(shí)驗(yàn),其中一組在模型中采用區(qū)分函數(shù),另一組不采用區(qū)分函數(shù)。采用THUMOS14 數(shù)據(jù)集,在IoU=0.5 時(shí),平均檢測(cè)精度均值mAP 的對(duì)比如表4 所示。

        表4 在THUMOS14數(shù)據(jù)集上區(qū)分函數(shù)對(duì)mAP值的提升效果Tab.4 Improvement of mAP of distinguishing function on THUMOS14 dataset

        實(shí)驗(yàn)結(jié)果表明,區(qū)分函數(shù)明顯提高了mAP,這體現(xiàn)了基于區(qū)分函數(shù)的注意力值優(yōu)化模型的有效性和可靠性,適用于提升弱監(jiān)督動(dòng)作定位的準(zhǔn)確性。

        2.7 與其他動(dòng)作定位模型的效果對(duì)比

        在印證了本文提出的加入動(dòng)作前后幀信息和區(qū)分函數(shù)對(duì)模型效果有提升后,進(jìn)一步比較本文模型和其他動(dòng)作定位模型的mAP。表5 展示了在THUMOS14 數(shù)據(jù)集上,采用本文模型和AutoLoc 模型[31]、STPN 模型[30]、W-TALC 模型[28]等弱監(jiān)督動(dòng)作定位模型,在不同的閾值IoU 的情況下得到的mAP值的對(duì)比,其中UNT 表示UntrimmedNet 特征提取網(wǎng)絡(luò)。時(shí),本文模型表現(xiàn)出色,在THUMOS14 數(shù)據(jù)集上比其他弱監(jiān)督動(dòng)作定位模型的mAP值提升10.7% 以上,在ActivityNet1.2 數(shù)據(jù)集上比其他動(dòng)作定位模型的mAP值提升8.8%以上。體現(xiàn)出了本文模型在提升動(dòng)作定位準(zhǔn)確性和減少動(dòng)作漏檢率方面的優(yōu)勢(shì),證明了本文模型對(duì)于動(dòng)作定位效果的顯著提升。

        表5 THUMOS14數(shù)據(jù)集不同模型基于不同IoU的mAP值對(duì)比 單位:%Tab.5 Comparison of mAP values of different models based on different IoU on THUMOS14 dataset unit:%

        表6 展示了在ActivityNet1.2 數(shù)據(jù)集上,采用本文模型和AutoLoc 模型[31]、TSM(Temporal Structure Mining)[37]、BaS-Net(Background Suppression Network)[38]等弱監(jiān)督動(dòng)作定位模型,在不同閾值IoU 的情況下得到的mAP值對(duì)比。本文對(duì)比的模型采用的視頻數(shù)據(jù)均為未修剪的視頻片段。

        表6 ActivityNet1.2數(shù)據(jù)集不同模型基于不同IoU的mAP值對(duì)比 單位:%Tab.6 Comparison of mAP values of different models based on different IoU on ActivityNet1.2 dataset unit:%

        從實(shí)驗(yàn)結(jié)果可以看出,本文的弱監(jiān)督動(dòng)作定位模型和其他弱監(jiān)督動(dòng)作定位模型相比,總體表現(xiàn)較好。在IoU=0.5

        3 結(jié)語

        本文對(duì)基于注意力機(jī)制的弱監(jiān)督動(dòng)作定位方法進(jìn)行了研究,提出一種基于動(dòng)作前后幀信息和區(qū)分函數(shù)的動(dòng)作定位模型。對(duì)于沒有幀級(jí)標(biāo)簽的數(shù)據(jù)集,本文通過CVAE 注意力值生成模型獲取幀級(jí)注意力值,將其作為偽幀級(jí)標(biāo)簽,并在CVAE 注意力值生成模型中加入動(dòng)作前后幀信息,以減小動(dòng)作漏檢的概率;此外,本文構(gòu)建基于區(qū)分函數(shù)的注意力值優(yōu)化模型,在訓(xùn)練中對(duì)注意力值進(jìn)行優(yōu)化,以提升注意力值對(duì)動(dòng)作的分類效果,從而提升動(dòng)作定位的精確度。本文在公共數(shù)據(jù)集THUMOS14 和ActivityNet1.2 上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了本文模型能夠有效地減小動(dòng)作漏檢的概率;與其他弱監(jiān)督動(dòng)作定位模型相比,本文模型對(duì)動(dòng)作定位的準(zhǔn)確性有明顯提升。

        猜你喜歡
        區(qū)分注意力標(biāo)簽
        區(qū)分“旁”“榜”“傍”
        你能區(qū)分平衡力與相互作用力嗎
        讓注意力“飛”回來
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        教你區(qū)分功和功率
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        標(biāo)簽化傷害了誰
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        日韩乱码人妻无码中文字幕久久| 一区二区亚洲 av免费| 一区二区三区黄色一级片| 日本区一区二区三视频| 亚洲一区二区三区香蕉| 国产亚洲婷婷香蕉久久精品| 亚洲综合久久1区2区3区| 蓝蓝的天空,白白的云| 丰满熟妇人妻av无码区| 中文字幕一区二区人妻| 思思99热| 午夜视频手机在线免费观看| 久久亚洲av无码精品色午夜| 又粗又硬又黄又爽的免费视频 | 99久久久69精品一区二区三区| 中文字幕无码中文字幕有码| 国产欧美一区二区精品仙草咪| 欧美色图50p| 日本免费播放一区二区| 真实国产乱子伦精品视频| 少妇厨房愉情理伦片免费| 亚洲国产成人无码电影| 国产三级不卡视频在线观看| 欧美牲交videossexeso欧美| 亚洲av国产av综合av| 日本高清一区二区三区视频| 97中文字幕精品一区二区三区| 国产xxxxx在线观看| 亚洲七七久久综合桃花| 邻居少妇张开腿让我爽视频| 少妇性l交大片7724com| 国产高潮国产高潮久久久| 久久99精品久久久久久国产人妖| 精品国产一区二区三区香| 色偷偷av一区二区三区| 欧美日韩成人在线| 亚洲日本一区二区在线观看 | 人妻体内射精一区二区三四| 在线观看91精品国产免费免费| 在线观看人成网站深夜免费| 极品少妇xxxx精品少妇偷拍|