亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多粒度視頻信息和注意力機(jī)制的視頻場(chǎng)景識(shí)別①

2020-05-22 04:48:02袁韶祖王雷全吳春雷

計(jì)算機(jī)系統(tǒng)應(yīng)用 2020年5期

袁韶祖,王雷全,吳春雷

(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)

1 引言

近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,大量針對(duì)物體、人臉、動(dòng)作等維度的識(shí)別技術(shù)涌現(xiàn)出來.而隨著監(jiān)控技術(shù)和短視頻APP 的廣泛應(yīng)用,視頻場(chǎng)景識(shí)別已成為一項(xiàng)極具科研價(jià)值和應(yīng)用價(jià)值的技術(shù).它的具體任務(wù)是給定一個(gè)特定的視頻進(jìn)行鏡頭分割,通過提取關(guān)鍵幀,輸出場(chǎng)景的類別.目前主流的算法是使用視頻級(jí)別的特征直接進(jìn)行場(chǎng)景分類.然而這種方法只考慮到了視頻級(jí)的全局特征,卻忽略了富含更多信息的局部特征以及其中存在的關(guān)聯(lián).針對(duì)以上問題,本文提出了一種新的模型,該模型利用視頻級(jí)別的全局信息和物體級(jí)別的局部信息,提供更加豐富的推斷信息.同時(shí),本文采用了注意力機(jī)制來篩選對(duì)于視頻場(chǎng)景識(shí)別重要程度高的特征,這一過程既增強(qiáng)了全局信息和局部信息的關(guān)聯(lián),同時(shí)也實(shí)現(xiàn)了對(duì)于特征的降維,有效地加速了模型的收斂.與官方開源的模型相比,本文提出的模型在準(zhǔn)確率上取得了非常大的提升,這進(jìn)一步說明了該模型的有效性.

本文中,創(chuàng)新點(diǎn)可以總結(jié)歸納為如下3 點(diǎn):

1)本文在視頻場(chǎng)景分類中構(gòu)造了全局和局部的多粒度的特征.

2)本文提出全新的注意力機(jī)制的場(chǎng)景分類模型,該模型可以很好的通過注意力機(jī)制將兩種粒度的特征融合,并對(duì)結(jié)果進(jìn)行降維.

3)新模型準(zhǔn)確率比官方發(fā)布的基于CNN 網(wǎng)絡(luò)的模型提高了12.42%,這進(jìn)一步證明我們的模型的有效性和優(yōu)越性.

2 相關(guān)工作

2.1 視頻級(jí)特征和物體級(jí)特征

特征在計(jì)算機(jī)視覺領(lǐng)域中扮演著重要的角色,選擇合適的特征可以極大的提升模型的性能.早期視頻特征主要使用VGG 特征,該模型由Simonyan K 等提出,也大量應(yīng)用在圖像識(shí)別領(lǐng)域.后來何凱明通過殘差的思想實(shí)現(xiàn)了101 層的CNN 模型,得到了擬合更強(qiáng)的網(wǎng)絡(luò)[1].Resnet 作為特征提取網(wǎng)絡(luò)被廣泛應(yīng)用于視頻識(shí)別和圖像描述等領(lǐng)域[2].Jiang YG 等使用resnet 作為視頻級(jí)特征實(shí)現(xiàn)了視頻場(chǎng)景分類的基礎(chǔ)模型[3].使用Resnet 提取的視頻級(jí)特征也被稱作RGB 特征.然而視頻幀之間是存在時(shí)空關(guān)系的,采用RGB 特征無(wú)法表征出這種時(shí)序關(guān)系[4].為了解決這一問題,Tran D 等提出了空間卷積(C3D)的網(wǎng)絡(luò)來獲取時(shí)空的信息[5].Sun DQ 等提出利用幀之間的差異性計(jì)算時(shí)空信息的“光流法”[6].這兩種跨時(shí)空特征被廣泛的應(yīng)用于視頻是被,動(dòng)作識(shí)別等領(lǐng)域[7].以上特征都可以被視作視頻級(jí)別的特征,未從更細(xì)的粒度考慮視頻內(nèi)部的語(yǔ)義特征聯(lián)系.Ren SQ 等認(rèn)為,細(xì)粒度的特征有利于增強(qiáng)模型對(duì)于視覺信息的理解,為了得到這種信息,他們?cè)谳^大的視覺檢測(cè)數(shù)據(jù)集上訓(xùn)了Faster-RCNN[8]用于識(shí)別目標(biāo)圖像中的物體,同時(shí)提出檢測(cè)模型標(biāo)識(shí)每個(gè)物體的中間特征,并將所有特征級(jí)聯(lián)起來作為圖像的總體特征[9].該模型首次提出后被應(yīng)用于圖像描述和圖像問答領(lǐng)域,并取得了不錯(cuò)的成績(jī).我們認(rèn)為,該特征同樣可以應(yīng)用于視頻理解領(lǐng)域.

2.2 注意力機(jī)制

注意力機(jī)制在深度學(xué)習(xí)領(lǐng)域有著極為重要和深遠(yuǎn)的影響,被廣泛應(yīng)用各個(gè)領(lǐng)域中.在機(jī)器翻譯領(lǐng)域,早期的Encode-Decoder 模型不能很好的解碼源語(yǔ)言中的重點(diǎn)信息,為了解決這一問題,Bahdanau 等將注意力機(jī)制最早應(yīng)用于機(jī)器翻譯的解碼階段[10].受到這種思維的啟發(fā),Xu K 等意識(shí)到圖像領(lǐng)域也存在需要重點(diǎn)關(guān)注的區(qū)域,于是他們將注意力機(jī)制引入到圖像描述中來,并創(chuàng)造性的提出了兩種注意力機(jī)制:軟注意力和基于強(qiáng)化學(xué)習(xí)的硬注意力[11].在這之后注意力機(jī)制在各個(gè)領(lǐng)域大放異彩,陸續(xù)出現(xiàn)了很多新式的注意力機(jī)制.在圖像描述領(lǐng)域,Lu JS 等提出了when to look 注意力,去決定在圖像描述過程中應(yīng)該注意圖像還是注意文本[12].在圖像問答中,Lu JS 等提出公用注意力機(jī)制,從理論層面將注意力矩陣逆置之后用于兩種模態(tài)[13],Kim JH 提出雙線性注意力[14],相當(dāng)于給注意力矩陣降維,但是最終的結(jié)果不變,兩種注意力都可以降低運(yùn)算復(fù)雜度,有利于采用更深的注意力網(wǎng)絡(luò),從而提升效果.在對(duì)抗生成領(lǐng)域,Kim J 將注意力機(jī)制引入到了生成對(duì)抗網(wǎng)絡(luò),通過網(wǎng)絡(luò)自適用的決定應(yīng)該更注重哪一區(qū)域的生成,用來生成更高質(zhì)量的圖[15].即便是在最新谷歌提出的Transfromer 和Bert 中,也采用了自注意力機(jī)制,用來解決自然語(yǔ)言中超遠(yuǎn)距離詞的依賴問題,該模型在自然語(yǔ)言界引起了極大轟動(dòng)[16].由于注意力機(jī)制在人工智能領(lǐng)域的出色表現(xiàn),因此在實(shí)驗(yàn)中也會(huì)用注意力機(jī)制來提升本文所提出模型的能力.

3 視頻場(chǎng)景識(shí)別方法模塊介紹

3.1 基于Resnet 和Faster-RCNN 的多粒度特征構(gòu)造

Resnet 是深度卷積神經(jīng)網(wǎng)絡(luò)的一種,它在原有的較淺層次的卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加了“殘差”機(jī)制,因此再反向傳播的過程中可以保證導(dǎo)數(shù)不為0,從而避免了深層網(wǎng)絡(luò)出現(xiàn)梯度彌散的現(xiàn)象,有效的增加了卷積的擬合性.Resnet 的殘差過程可由式(1)表示:

其中,x是輸入的特征圖,F代表卷積,W是用來調(diào)整x的channel 維度的,y是當(dāng)前殘差的輸出.

由于Resnet 的輸出可以作為對(duì)圖片信息的一個(gè)較強(qiáng)的表征,本文采用這種特征作為視頻場(chǎng)景的一個(gè)全局表示,即粗粒度特征.

Faster-RCNN 是一種比較新且準(zhǔn)確率較高的檢測(cè)模型,其原理和SPPnet[6]和Fast-RCNN[17]這些模型有很大差別,這些模型雖然減少了檢測(cè)網(wǎng)絡(luò)運(yùn)行的時(shí)間,但是計(jì)算區(qū)域建議依然耗時(shí)依然比較大.Faster-RCNN采用了區(qū)域建議網(wǎng)絡(luò)(region proposal network)用來提取檢測(cè)物體的區(qū)域,它和整個(gè)檢測(cè)網(wǎng)絡(luò)共享全圖的卷積特征,極大的降低區(qū)域建議網(wǎng)絡(luò)所花時(shí)間,從而提升了檢測(cè)的效率和質(zhì)量.

在本文中,Faster-RCNN 作為檢測(cè)器標(biāo)識(shí)出視頻圖片中的物體信息,每一個(gè)物體區(qū)域分別作為改物體的特征表示,這種檢測(cè)得到的特征作為細(xì)粒度的特征表示.

3.2 多粒度特征的注意力融合模型

圖1是本文所提出的場(chǎng)景識(shí)別模型,這里所采用的的注意力機(jī)制是一種典型的注意力架構(gòu)[10],并在此基礎(chǔ)上設(shè)計(jì)了多粒度特征的注意力融合模型.在3.1 中檢測(cè)模型Faster-RCNN 提取提取到的檢測(cè)特征S是一個(gè)n×D維的向量,即對(duì)應(yīng)于n個(gè)不同物體的子區(qū)域,每個(gè)區(qū)域都是一個(gè)D維的向量,可由如下字母表示:

其中,RD表示屬于D維度,Si表示第i個(gè)物體的圖像區(qū)域.對(duì)于每個(gè)物體的特征表示,式(3)中本文借鑒注意力分配函數(shù) ?[18]根據(jù)細(xì)粒度檢測(cè)特征Si和全局特征Ii生成一個(gè)權(quán)重分布αi:

這里的分配函數(shù)是一種映射關(guān)系,它將兩種粒度的視覺信息通過單層神經(jīng)元映射到同一個(gè)維度空間,再相加得到權(quán)重,這個(gè)權(quán)重分布就包含了兩種粒度特征的融合信息.同時(shí),該權(quán)重分布和Si的維度是一致的,通過后續(xù)的加權(quán)操作,既實(shí)現(xiàn)了對(duì)于多個(gè)物體特征的降維,又得到兩種信息融合的一個(gè)強(qiáng)表征信息.

在(4)式中,Softmax 函數(shù)對(duì)權(quán)重分布αi作歸一化處理得到注意力權(quán)重ai,這時(shí)ai介于0 到1 之間:

其中,ai表示視覺注意力模型中第i個(gè)物體的圖像對(duì)應(yīng)區(qū)域的權(quán)重.

最后,將注意力權(quán)重和相對(duì)應(yīng)的視頻圖像區(qū)域加權(quán)求和,得到該視頻場(chǎng)景的最終表示att,如式(5)表示:

式中,Si為視頻圖像的區(qū)域,αi為式(4)中attention學(xué)習(xí)得到的權(quán)重,這個(gè)權(quán)重是神經(jīng)網(wǎng)絡(luò)根據(jù)當(dāng)前輸入視覺信息自動(dòng)生成的.

圖1 我們的模型架構(gòu)

3.3 新模型整體架構(gòu)

在視頻場(chǎng)景識(shí)別中,首先將給定的視頻切割成一個(gè)視頻幀序列Ti(i=1,2,···,m),模型要對(duì)這m個(gè)特定視頻幀進(jìn)行場(chǎng)景分類的pi(i=1,2,···,m).接下來兩種特征的提取:我們使用深度卷積神經(jīng)網(wǎng)絡(luò)Resnet 提取視頻幀全局的視覺特征Ii(i=1,2,···,m),這同時(shí)也是即將進(jìn)行場(chǎng)景分類的幀的粗粒度的表示,該表示是一個(gè)D(2048)維的向量;同樣的,通過預(yù)訓(xùn)練的Faster-RCNN 提取視頻場(chǎng)景中的物體區(qū)域,也就是檢測(cè)特征,該特征是物體級(jí)別的細(xì)粒度信息,可以表示為S={S1,S2,···,SN},其中n代表檢測(cè)模型提取的物體區(qū)域個(gè)數(shù),實(shí)踐中n被設(shè)置為36.這個(gè)過程可用下面兩個(gè)公式表示:

為了示意方便,這里f代表深度卷積網(wǎng)絡(luò)Resnet,g代表檢測(cè)網(wǎng)絡(luò)Faster-RCNN.

得到多粒度的視覺特征后,新模型使用全局特征作為注意力機(jī)制的鍵值,通過注意力單元的計(jì)算得到n個(gè)注意力權(quán)重α.這里的權(quán)重α是由注意力模型根據(jù)不同物體重要程度學(xué)習(xí)得到的:物體重要程度越大,其權(quán)重值約接近于1;如果物體對(duì)于場(chǎng)景推斷越不重要要甚至起到干擾作用,其權(quán)重越接近于0.最后通過物體特征和注意力機(jī)制生成的權(quán)重加權(quán)計(jì)算得到融合多粒度信息表示的視覺特征att,這同時(shí)也實(shí)現(xiàn)了對(duì)于細(xì)粒度特征的降維,即從n×D維降維成D,所以att是一個(gè)D維的向量.這部分流程圖如圖1所示,可以由式(8)、式(9)概括:

最終,融合多粒度信息表示的視覺特征被輸入到一個(gè)分類器中.該分類器由一個(gè)兩層的神經(jīng)網(wǎng)絡(luò),和一個(gè)激活函數(shù)構(gòu)成,它的作用是將D維表示向量映射為d,d代表了場(chǎng)景分類的總數(shù),選取其中值對(duì)應(yīng)的最大的索引,該索引所對(duì)應(yīng)的場(chǎng)景表示就是最后輸出的場(chǎng)景分類的結(jié)果.分類器部分可以用式(6),式(7)表示:

式中,W1,W2代表兩層神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)權(quán)重,logit是未經(jīng)過激活函數(shù)的值,p為最終的分類概率,概率最大的索引所對(duì)應(yīng)的場(chǎng)景即為神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果.

3.4 總結(jié)

和已有的方法[3]相比,本文摒除了只采用單維度的CNN 特征或者將幾種CNN 特征簡(jiǎn)單連接的方法.本模型通過已有的深度卷積和檢測(cè)的方法構(gòu)建了兩種不同粒度的特征.特別的,本文采用注意架構(gòu)將兩種粒度的信息巧妙融合在了一起,既實(shí)現(xiàn)了對(duì)信息的降維,同時(shí)增強(qiáng)了全局信息和局部信息的關(guān)聯(lián).

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集和評(píng)估方法

本文采用了在ChinaMM 大會(huì)上極鏈科技與復(fù)旦大學(xué)聯(lián)合推出全新視頻數(shù)據(jù)集VideoNet.該數(shù)據(jù)集具備規(guī)模大、維度多、標(biāo)注細(xì)三大特點(diǎn).VideoNet 包含近9 萬(wàn)段視頻,總時(shí)長(zhǎng)達(dá)4000 余小時(shí).VideoNet 數(shù)據(jù)集對(duì)視頻進(jìn)行了事件分類標(biāo)注,并針對(duì)每個(gè)鏡頭的關(guān)鍵幀進(jìn)行了場(chǎng)景和物體兩個(gè)維度的共同標(biāo)注.考慮到算力等因素,該實(shí)驗(yàn)從中抽取了100 000 個(gè)視頻樣本的鏡頭分割和關(guān)鍵幀結(jié)果,推斷每個(gè)鏡頭的關(guān)鍵幀對(duì)應(yīng)的場(chǎng)景類別.為了保證模型的訓(xùn)練和測(cè)試效果,本實(shí)驗(yàn)按照6:2:2 的比例切隨機(jī)分?jǐn)?shù)據(jù)集,即使用60 000 數(shù)據(jù)訓(xùn)練,20 000 用于驗(yàn)證,20 000 用于測(cè)試.

4.2 評(píng)估方法

模型的目標(biāo)是對(duì)給定的測(cè)試視頻樣本和鏡頭關(guān)鍵幀結(jié)果,推斷每個(gè)鏡頭的關(guān)鍵幀對(duì)應(yīng)的場(chǎng)景類別.因此可以通過以下公式判讀模型是否分類正確:

其中,G為關(guān)鍵幀場(chǎng)景類別的ground-truth,pi為場(chǎng)景預(yù)測(cè)輸出.如果該關(guān)鍵幀未出現(xiàn)訓(xùn)練集中任何一類場(chǎng)景,則Gi=–1.因此,準(zhǔn)確率公式可以定義為:

訓(xùn)練過程中該模型使用了交叉熵[19]作為損失,因此也可以通過交叉熵?fù)p失的變化判斷模型的優(yōu)化程度和模型訓(xùn)練是否收斂.損失函數(shù)可用公式表示為:

4.3 實(shí)驗(yàn)分析

本文采用了準(zhǔn)確率和log 損失來評(píng)測(cè)模型的質(zhì)量和訓(xùn)練情況.在圖2中,我們繪制了測(cè)試損失和迭代次數(shù)的相關(guān)折線圖,不難看出本文提出的方法可以快速的收斂,loss 值在訓(xùn)練的過程中穩(wěn)定的下降,最終迭代次數(shù)為20 時(shí)得到最好的效果.結(jié)合圖3的準(zhǔn)確率曲線,通過觀察可以看出隨著訓(xùn)練損失的下降,模型的測(cè)試準(zhǔn)確率也在不斷提升,最高可以達(dá)到67.71%.由于模型訓(xùn)練了25 個(gè)迭代,通過圖3表所示,在超過20 個(gè)迭代次數(shù)的時(shí)候,模型的測(cè)試準(zhǔn)確率會(huì)有小幅度的下降,說明模型出現(xiàn)了過擬合現(xiàn)象.在表1中,我們列舉了模型迭代次數(shù)19 到迭代次數(shù)25 之間的準(zhǔn)確率,通過對(duì)比發(fā)現(xiàn),迭代次數(shù)為23 的時(shí)候模型得到最好的效果,準(zhǔn)確率為67.71%.

圖2 交叉熵?fù)p失變化

通過表1,可以看出,本文提出的模型準(zhǔn)確率大幅度優(yōu)于VideoNet 官方開源的Baseline 模型.與我們提出模型訓(xùn)練取得的最好的效果相比,新模型準(zhǔn)確率比官方baseline 提升了12.42%.這些數(shù)據(jù)證明:本文提出的模型可以在較少的訓(xùn)練迭代次數(shù)下收斂.基于多粒度視覺特征和注意力機(jī)制的模型有效的提升了視頻場(chǎng)景識(shí)別的質(zhì)量.相比于傳統(tǒng)的使用C3D 特征等方法,多粒度視覺信息可以大幅度提升識(shí)別的準(zhǔn)確率,因?yàn)椴煌６鹊男畔⒉坏a(bǔ)充了更加豐富的識(shí)別信息,同時(shí)還使用注意力機(jī)制將不同粒度的信息聯(lián)系在一起,更加充分的利用了信息.

圖3 準(zhǔn)確率損失變化

表1 模型的準(zhǔn)確率對(duì)比(%)

5 結(jié)論與展望

本文提出了使用多粒度視頻特征信息基于注意力架構(gòu)的視頻場(chǎng)景檢測(cè)模型,并在VideoNet 數(shù)據(jù)集上取得優(yōu)異的成績(jī).該算法的亮點(diǎn)在于使用全局性的信息引導(dǎo)下,通過注意力機(jī)制自適應(yīng)的對(duì)場(chǎng)景中重要的局部信息加權(quán),從而達(dá)到更加精準(zhǔn)的識(shí)別效果.和官方開源的模型基線相比,本文考慮了全局特征和局部特征,很好的利用了多個(gè)粒度視頻信息.并且在模型中采用了注意力模型,既完成了對(duì)特征的降維,又能很好的將多個(gè)粒度的信息聯(lián)系起來.在未來的工作中,我們將進(jìn)一步探索多維度的視頻信息和不同注意力機(jī)構(gòu)對(duì)于場(chǎng)景識(shí)別的影響.