亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進NeXtVLAD的視頻分類

2021-03-23 09:13:58陳意，黃山

計算機工程與設計 2021年3期

陳意，黃山

(四川大學電氣工程學院，四川成都 610065)

0 引言

視頻分類不同于靜態(tài)圖像的分類，視頻會隨著時間的變化引起行為動作變化、場景變化和光線變化。目前基于深度學習的視頻分類的代表性方法大致分為4種：基于雙流的卷積神經網絡模型[1-3]、三維卷積神經網絡模型[4,5]、二維卷積與三維卷積結合的神經網絡模型[6,7]和基于局部特征融合的神經網絡模型[8-10]。文獻[1]基于雙流的思想提出TSN(temporal segment networks)模型，對視頻稀疏采樣的RGB圖像和光流圖像分別提取空間域和時間域的特征。為了對視頻的時序信息建模，文獻[5]提出P3D(pseudo-3D)模型。P3D利用三維卷積來實現(xiàn)對視頻時間序列的建模，但是三維卷積需要消耗大量的顯存和計算量。文獻[6]將二維卷積和三維卷積相結合提出高效的ECO(efficient convolutional network for online video understan-ding)模型，即保證了模型的精度又降低了計算成本。以上方法都致力于時間序列的建模，文獻[11]將傳統(tǒng)的局部聚合描述子向量(vector of locally aggregated descriptors，VLAD)結構嵌入到卷積神經網絡中得到可訓練的特征融合模型NetVLAD(CNN architecture for weakly supervised place recognition)，NetVLAD模型將視頻的采樣幀進行特征融合從而實現(xiàn)視頻分類。NetVLAD編碼后得到的特征維度太高導致網絡參數(shù)量太大，于是文獻[10]利用ResNext[12]的思想結合NetVLAD模型提出了參數(shù)量更少的NeXtVLAD模型。相比于前3種方法，基于特征融合的神經網絡模型更加適合于時長較長的視頻數(shù)據。本文主要針對時間長度不定的幾分鐘到幾十分鐘的視頻進行分類研究，對NeXtVLAD算法進行改進，設計出一個精度更高的視頻分類網絡。

1 NeXtVLAD算法

NeXtVLAD算法是由NetVLAD算法改進而來，NetVLAD算法利用局部聚合子向量將視頻幀的深度特征進行特征融合后得到視頻級特征，然后利用視頻級特征進行分類輸出。NeXtVLAD針對NetVLAD編碼后特征維度太高導致分類輸出層參數(shù)量龐大的缺點，將輸入數(shù)據x進行升維后再進行分組，最終減少編碼后的維度從而大大減少參數(shù)量。

1.1 局部聚合子向量

局部聚合描述子向量最初用于圖像檢索領域，通過統(tǒng)計特征描述子與聚類中心的累計殘差，將若干局部特征壓縮為一個特定大小的全局特征。在視頻分類任務中，可以將視頻的一個采樣幀所提取的深度特征看作一個局部特征，那么利用局部聚合描述子向量即可獲得視頻的全局特征。假設每個視頻隨機采樣N幀作為視頻表達，利用特征提取模塊提取每一幀圖像的深度特征得到F維度的局部特征，那么傳統(tǒng)局部聚合描述子向量做法是將N*F的局部特征進行K-Means聚類得到K個聚類中心，記為Ck，則全局特征V如式(1)所示

(1)

式中：k∈{1,…K}，j∈{1,…F}，xi代表第i個局部特征，Ck為第k個聚類中心，αk(xi) 為一個符號函數(shù)，當且僅當αk(xi) 屬于聚類中心Ck時，等于1，否則為0?？梢娛?1)累加了每個聚類中心的特征的殘差，得到一個K*F維度的全局特征。

1.2 NeXtVLAD算法

顯然式(1)中αk(xi) 不可微從而不能進行反向傳播訓練且最終全局特征維度過大會導致參數(shù)量大，NeXtVLAD將αk(xi) 函數(shù)可微化且將特征分為G組從而減少參數(shù)量，于是將全局特征表達為式(2)

(2)

(3)

(4)

NeXtVLAD算法簡要流程如圖1所示。輸入x的維度為Nsample*F，代表Nsample張采樣幀的F維特征向量，經過NeXtVLAD特征融合后得到的全局特征向量維度為2F*K/G。

圖1 NeXtVLAD流程

2 算法的改進

2.1 整體網絡設計

本文基于NeXtVLAD算法進行改進提出GNeXtVLAD算法，實現(xiàn)對局部特征進行特征融合，設計出一個端到端訓練視頻分類網絡如圖2所示。本文模型主要由3個模塊組成：特征提取模塊、特征融合模塊和分類輸出模塊。

圖2 網絡整體設計

特征提取模塊使用經典的圖像分類模型ResNet-50[13]，該算法通過學習殘差，解決了傳統(tǒng)卷積神經網絡或全連接層在進行信息傳遞時存在的信息丟失問題，使得模型能更好學習圖像的深度特征。本文為提取視頻采樣幀的深度特征，使用了ImageNet數(shù)據集在ResNet-50模型上進行預訓練，預訓練后去掉ResNet-50最后的全連接層使得特征提取模型輸出為一個2048維度的深度特征，若視頻采樣幀數(shù)為Nsample，則特征提取模塊輸出為Nsample×2048維度的局部特征向量。

特征融合模塊首先使用一個全連接層對特征進行降維，本文降維后維度為1024，然后使用對NeXtVLAD進行改進的GNeXtVLAD算法對Nsample×1024維的深度特征進行特征融合，從而得到視頻級的深度特征。

分類輸出模塊將特征融合模塊的視頻級特征輸出作為輸入，通過對視頻級特征的學習得到最終的分類輸出。分類輸出模塊由兩個全連接層和一個注意力機制模塊組成，其中的注意力機制模塊由兩個全連接層和一個Sigmoid函數(shù)組成。

模型在訓練過程中對特征提取模塊的參數(shù)進行凍結，從而減少大量參數(shù)的反向傳播，使得網絡訓練占用顯存小、計算量小，從而保證在有限的資源條件下能訓練大量視頻采樣幀。

2.2 視頻采樣策略

當處理未經裁剪的小視頻數(shù)據時，這些視頻鏡頭多變且場景信息復雜，對視頻稀疏采樣固定幀來描述視頻信息效率不高，對時長較短的視頻采樣大量幀效率低下且影響性能，對時長較長的視頻采樣少量幀則會使得采樣幀過少造成對視頻信息的描述不足。本文提出多尺度的采樣策略，假設視頻總幀數(shù)為Ntotal，設置最小采樣數(shù)和最大采樣數(shù)分別記作Nmin，Nmax。則采樣幀數(shù)如式(5)所示

(5)

式中：λ1、λ2分別為最小幀數(shù)和最大幀數(shù)閾值。式(5)確定了對每個視頻的采樣幀數(shù)，在采樣過程中，本文首先將所有視頻幀等分為Nsample段，然后在每一段中隨機采樣一幀，從而對視頻隨機采樣Nsample幀。

2.3 GNeXtVLAD

NeXtVLAD算法雖然對NetVLAD算法進行改進后參數(shù)量減少且精度有一定提升，但NeXtVLAD對所有的聚類中心一視同仁，不能很好地避免采樣幀中無關特征的干擾。對于長視頻的分類，采樣幀中會存在一些與分類標簽無關的特征，而NeXtVLAD算法依然會將每一個特征聚類到一個聚類中心。

文獻[14]在人臉識別領域提出GhostVLAD算法，該算法在NetVLAD的基礎上加入ghost聚類中心來降低低質量人臉圖像的權重，同時提高高質量人臉圖像的聚合權重。GNeXtVLAD在NeXtVLAD的K個聚類中心上增加了H個ghost聚類中心，那么網絡的聚類中心數(shù)為K+H，但是此時的H個ghost聚類中心是假設存在但實際并不使用的聚類中心點，在計算輸入的局部特征與聚類中心殘差時只取K個聚類中心，即忽略ghost聚類中心的計算，主要目的就是讓低質量的無關的局部特征歸類到這個類中心點上。經過端到端的訓練，GNeXtVLAD特征聚合模塊可把一些無關特征聚類到ghost聚類中心，從而使得網絡更加關注于與任務相關的局部特征。

GNeXtVLAD的計算公式如式(6)所示

(6)

(7)

在式(6)的基礎上并結合神經網絡的特點，設計出GNeXtVLAD特征聚合模塊結構如圖3所示。首先對比圖1的NeXtVLAD結構可得，GNeXtVLAD在計算VLAD時多加入了H個聚類中心，然而在向后進行計算時又將這H個聚類中心去掉從而去除不重要的采樣圖片幀。

圖3 GNeXtVLAD結構

3 實驗與分析

為驗證本文改進算法在視頻分類任務上的有效性，本研究使用VideoNet-100數(shù)據集作為實驗數(shù)據集，在搭載NVIDIA 2080Ti顯卡的64位Ubuntu 16.04系統(tǒng)上搭建pytorch環(huán)境進行實驗，通過一系列對比實驗驗證了本文改進算法在特定數(shù)據集上的有效性。

3.1 實驗數(shù)據集

為驗證本文算法對長視頻的分類效果，實驗采用VideoNet數(shù)據集[15]的前100個分類進行研究，簡稱數(shù)據集為VideoNet-100。VideoNet-100有3DPainting、3DPrinter、ACappella、accordionPerformance、acrobatics等100個類別。數(shù)據集中視頻是未經裁剪的視頻，其中每段視頻時長不定，時長分布在幾秒鐘與幾十分鐘之間，大多數(shù)視頻時長為幾分鐘。

VideoNet-100數(shù)據集中視頻鏡頭數(shù)不固定，部分視頻為單鏡頭拍攝，部分視頻由多個鏡頭剪輯而成，圖4為數(shù)據集中acrobatics類別的部分視頻幀展示，可見隨機采樣幀中前后兩幀場景可能完全發(fā)生變化，可能人物發(fā)生變化，也可能采樣的某一幀的內容與主題無關。本文使用VideoNet原始切分的訓練集和驗證集，其中訓練集視頻個數(shù)17 798、驗證集視頻個數(shù)4580，訓練集用于模型訓練，驗證集用于測試模型性能。

圖4 VideoNet-100數(shù)據集中acrobatics類的部分視頻幀展示

3.2 實驗與分析

由于VideoNet-100數(shù)據集視頻時長差異大，實驗采用多尺度的采樣策略與固定采樣幀兩種方法對視頻幀采樣，實驗中設置多組不同的λ1、λ2、Nmin、Nmax參數(shù)和固定采樣幀數(shù)進行對比實驗以說明多尺度采樣策略的有效性。由于網絡輸入的大小需要固定，其中采樣幀數(shù)不足Nmax的用零進行填充。采樣幀輸入大小固定在224×224，每一采樣幀經過特征提取模塊即可得到一個2048維度的特征向量。在特征向量送入GNeXtVLAD進行特征融合之前先加入一個全連接層和Relu激活函數(shù)對特征向量進行降維，降維后的特征向量維度設置為1024。實驗中GNeXtVLAD網絡設置多組K聚類中心數(shù)、ghost聚類中心數(shù)進行對比實驗，其中分組數(shù)G分別設置為8和16。實驗采用Adam優(yōu)化算法，初始學習率設置為0.001，每5個epoch將學習率降為原來的0.1倍，總共訓練16個epoch。

表1對比了采用多尺度采樣策略和不采用多尺度采樣策略對視頻分類準確率的影響。其中模型使用NeXtVLAD，設置默認參數(shù)G=8，K=128。由表1數(shù)據可得，當設置最小采樣幀數(shù)Nmin=32，最大采樣幀數(shù)Nmax=128時正確率達到最高的0.908。當采用固定采樣幀數(shù)時，最終測試正確率隨著采幀數(shù)的增加而增加。通過對比固定采樣幀數(shù)為128的識別正確率與采用多尺度采樣且最大采樣幀數(shù)為128的識別準確率可得：采用多尺度的采樣策略能在減少采樣幀數(shù)的情況下獲得更高的正確率。

為驗證視頻長短對正確率的影響，本文按照視頻時長對測試集分別切分短視頻和長視頻各500個，其中的500個短視頻的時長不超過1 min，500個長視頻時長均超過5 min，在不同采樣策略上對比長視頻和短視頻的正確率，對比結果見表2。根據表2可以看出，當固定采樣幀數(shù)較小時會影響時長較長的視頻分類正確率，當固定采樣幀數(shù)較大時對短視頻分類正確率有一定的影響，而采用多尺度的采樣策略效果最佳。

表1 不同采樣策略識別正確率

表2 不同采樣策略對長視頻和短視頻精度影響

表3對比了多個不同的ghost聚類中心數(shù)值對GNeXtVLAD算法的影響，實驗使用本文提出的多尺度采樣策略對視頻采樣，設置默認參數(shù)λ1、λ2、Nmin、Nmax、K、G分別為750、7500、32、128、128、8。當ghost聚類中心數(shù)為0時，此時的特征聚合模塊即為NeXtVLAD。由表3可以看出，加入ghost聚類中心的GNeXtVLAD相對于NeXtVLAD有著明顯的提升。

表3 不同ghost聚類中心的分類準確率

VideoNet-100數(shù)據集不同于UCF101和HMDB51等行為動作識別數(shù)據集，VideoNet時長遠高于此類數(shù)據集。由于UCF101等行為識別數(shù)據集中視頻鏡頭單一、時長較短，在一些經典的基于深度學習的行為識別算法中，一般對視頻稀疏采樣8幀或16幀即可達到不錯的精度。對于VideoNet-100數(shù)據集中時長較長的視頻來說，隨機抽取8幀或者16幀可能對視頻信息表達不完整，導致精度下降。本文對文獻[1]提出的TSN模型進行復現(xiàn)，僅使用RGB圖像在VideoNet-100數(shù)據集上進行實驗對比。由于TSN模型對GPU顯存的要求遠高于GNeXtVLAD模型，故實驗在TSN模型中對視頻采樣8幀和16幀，其余參數(shù)使用該文獻的默認參數(shù)。表4為稀疏采樣8幀和采樣16幀的TSN模型和本文提出的網絡在VideoNet-100上的實驗結果。由表4可以看出，在稀疏采樣8幀和16幀的情況下本文算法與TSN模型在VideoNet-100數(shù)據集上準確率相當，但是與表3中實驗結果相比準確率較低，可見對于VideoNet-100數(shù)據集而言采樣幀數(shù)會直接影響最終準確率。

表4 TSN模型與本文模型對比

表5對比了不同采樣策略的GNeXtVLAD模型在訓練時的占用顯存大小以及TSN模型訓練的占用顯存大小。由于TSN模型在訓練時需要對所有網絡參數(shù)進行反向傳播，故在batch_size大小為4，采樣幀數(shù)為8時占用顯存10 G。由表5可得，在占用顯存相當?shù)那闆r下，GNeXtVLAD模型相對于TSN在訓練時單批次能處理更多的采樣幀，當GNeXtVLAD模型采用多尺度采樣策略并設置λ1=32、λ2=128時能在相同batch_size下減少一定的顯存占用。GNeXtVLAD模型由于特征提取網絡只需要前向傳播而不需要計算梯度，在訓練時大大減少GPU計算量和顯存。

表5 TSN模型與本文模型訓練占用顯存大小對比

4 結束語

本文主要針對不同于行為動作識別數(shù)據集的VideoNet-100數(shù)據集進行研究，對NeXtVLAD算法進行改進并提出一個多尺度的采樣策略，設計出一個端到端訓練的視頻分類模型。VideoNet-100數(shù)據集中視頻時長較長，需要采樣大量幀才能更好表達視頻信息，而當前主流的基于深度學習的視頻分類模型在采樣幀數(shù)過大時需要龐大的計算資源才能進行訓練。本文模型在訓練時不需要對特征提取網絡進行訓練從而節(jié)約大量計算資源，解決了在計算資源有限的情況下采樣幀數(shù)與計算資源之間的矛盾。本文在VideoNet-100數(shù)據集上進行對比實驗，驗證了本文所設計模型的有效性，在VideoNet-100數(shù)據集上達到了92.5%的準確率。本文方法在VideoNet-100數(shù)據集上采樣幀最多達到了128幀，從而導致在訓練和推理階段需要花費大量時間在視頻預處理上，下一步的研究工作就是探索新的特征融合網絡，在少量采樣幀的情況下得到良好的視頻級特征進行分類輸出，提高長視頻分類準確率。