陳榮源,姚劍敏,2,嚴群,2*,林志賢
基于深度神經(jīng)網(wǎng)絡的視頻播放速度識別
陳榮源1,姚劍敏1,2,嚴群1,2*,林志賢1
(1.福州大學 物理與信息工程學院,福州 350108; 2.晉江市博感電子科技有限公司,福建 晉江 362201)( ? 通信作者電子郵箱qunfyan@gmail.com)
針對目前的視頻播放速度識別算法大多存在的提取精度差、模型參數(shù)量巨大的問題,提出了一種雙支輕量化視頻播放速度識別網(wǎng)絡。首先,該網(wǎng)絡是基于SlowFast雙支網(wǎng)絡架構組建的一個三維(3D)卷積網(wǎng)絡;其次,為了彌補S3D-G網(wǎng)絡在視頻播放速度識別任務中存在的參數(shù)量大、浮點運算數(shù)多的缺陷,進行了輕量化的網(wǎng)絡結構調整;最后,在網(wǎng)絡結構中引入了高效通道注意力(ECA)模塊,以通過通道注意力模塊生成重點關注的內容對應的通道范圍,這有助于提高視頻特征提取的準確性。在Kinetics-400數(shù)據(jù)集上將所提網(wǎng)絡與S3D-G、SlowFast網(wǎng)絡進行對比實驗。實驗結果表明,所提網(wǎng)絡在精確度差不多的情況下,模型大小和模型參數(shù)均比SlowFast減少了大約96%,浮點運算數(shù)減少到5.36 GFLOPs,顯著提高了運行速度。
深度神經(jīng)網(wǎng)絡;視頻播放速度識別;雙支網(wǎng)絡;通道注意力;輕量化模型
隨著多媒體信息技術的發(fā)展,視頻作為能夠記錄、保存空間和時間上的各種視覺信息的一種媒介,已成為信息處理領域的一種重要媒體形式。尤其是近些年來,短視頻平臺的熱度迅速爆發(fā),越來越多的人們依賴手機等設備來拍攝視頻,以此記錄日常生活,這種方式已然悄悄成為人們日常生活中不可或缺的一部分,所以圍繞短視頻的多種視頻語義理解需求也在急劇增加,而視頻特征提取是各種視頻語義理解任務的基礎和前提。
當前語義理解主要包括視頻分類、視頻播放速度識別、動作識別、時序動作定位等多種任務。視頻播放速度識別任務作為一種新興的研究方向,主要目的是希望自動預測視頻的播放速度,推理視頻中物體運動或者移動速度的快慢(其中也包括鏡頭的位移和轉換),最終用于視頻的自適應加速,減少傳統(tǒng)方法加速視頻造成的視頻抖動以及消除一些不自然的動作。
近年來,由于深度學習的快速發(fā)展,對視頻特征的提取,主要是通過三維(Three Dimensional, 3D)卷積神經(jīng)網(wǎng)絡[1],同時提取待處理視頻的時間維度和空間維度的特征,得到所需要的視頻特征。然而,這些方法存在泛化能力差、監(jiān)督訓練工作量大且困難、模型參數(shù)量大、模型精度差等問題。
如何有效地解決這些問題,確保高精度高效率的同時,保證模型參數(shù)的輕量化是非常具有挑戰(zhàn)性的。本文提出了一種基于深度神經(jīng)網(wǎng)絡的視頻特征提取模型,該模型針對視頻速度識別任務,對網(wǎng)絡參數(shù)進行調整實現(xiàn)網(wǎng)絡的輕量化。在網(wǎng)絡架構方面,底層采用3D ResNet[2]作為骨架,而在頂部則通過一個快-慢雙通道結構對時序和空間的語義信息進行進一步提取,并生成旁支結構進行融合;另外,為了模型能夠更好地對視頻中重點關注的內容對應的通道進行特征提取,采用通道注意力模型,加入到每個殘差層之中,提高網(wǎng)絡的視頻特征提取的準確性。模型在Kinetics-400數(shù)據(jù)集[3]上取得了高效率、高精度的結果。
視頻特征提取與視頻語義理解和視頻識別網(wǎng)絡的研究有關,本章回顧了一種新穎的視頻語義理解方法和視頻識別網(wǎng)絡的相關研究。
在現(xiàn)實生活中,人們很容易就能夠分辨出一個視頻是在以普通速度播放還是快進或慢放,因為人類具有一些先驗知識,能夠幫助判定物體所固有的運動速率。因此,有研究者提出,是否能夠訓練一個模型,通過訓練的模型來判斷視頻中物體是以正常速度移動還是被加速了。在視頻速度識別任務的相關技術中,早期的一些研究試圖檢測體育運動視頻中回放的速度[4-7],主要對視頻特定域的視頻特征進行分析,并且使用監(jiān)督的方法進行訓練。這些工作的結果泛化性差,而且模型的監(jiān)督訓練對數(shù)據(jù)集有很高的要求。
2020年,Benaim等[8]提出的SpeedNet為視頻速度理解任務提供了一種全新的思路。SpeedNet論文中提出,希望能夠尋找一種以語義方式,而非人工表示來學習并理解“速度”,這種方式不需要依賴人工對視頻加速,或人為地對視頻進行處理和標記。如圖1的SpeedNet基本結構所示,所采用的3D卷積基礎網(wǎng)絡S3D-G(Separable 3D convolutions network with Gating mechanism)[9]本質上還是一個視頻內容識別的網(wǎng)絡,S3D-G的結構是將3D卷積核變?yōu)?D+1D的形式,2D卷積核負責圖像語義上的理解,1D卷積核負責的則是時間上的理解,2D卷積是學習不到時序信息的。從論文中S3D-G網(wǎng)絡的表現(xiàn)可知,在低層級的卷積中,底層的卷積核對于時序的內容并不敏感,但是頂層的卷積核的分布則出現(xiàn)了很大的變化,其卷積核捕獲了時間信息。這是由于時序信息關心的是這一時刻相對于其他時刻位置和空間信息的不同。很顯然,在SpeedNet網(wǎng)絡中,需要通過衡量運動的速度以及運動的幅度來完成模型對速度的描述并完成視頻加速與未加速的判別,因此,時間語義的識別顯得更加重要。
圖1 SpeedNet基本結構
在基于深度學習的視頻識別方法中,雙流(Two-stream)網(wǎng)絡是其中最具有代表性的一種模型框架。雙流網(wǎng)絡的概念最早由Simonyan等[10]提出,其架構由空間流與時序流組成,使用兩個獨立的卷積神經(jīng)網(wǎng)絡對空間的圖像幀和時序的圖像幀所提取的光流圖像特征進行獨立訓練。具體來說,空間流采用的是視頻中的彩色圖像幀用來表征運動的主體以及背景的空間信息或者說是表觀信息;而時序流采用的方法則是基于相鄰圖像幀的,通過提取相鄰圖像幀的光流圖像來表示運動的主體的時序信息或者說是運動信息。在訓練這樣的網(wǎng)絡時,空間流網(wǎng)絡和時序流網(wǎng)絡也是進行獨立訓練,并且在測試的時候才將最終的結果通過取平均或是另外再訓練一個支持向量機的方法進行融合。這種方法被許多得出競爭性結果的研究所采用[11-13]。但是雙流方法在時間效率上存在著一定的缺陷,提取光流的效率太低。后來的研究者對雙流方法進行了不同程度的改進,比如在雙流卷積網(wǎng)絡的基礎上利用殘差網(wǎng)絡對雙流網(wǎng)絡進行初始化[14],或者是先利用小型網(wǎng)絡提取視頻深度特征,然后再送入雙流網(wǎng)絡[15]。雖然大大提高了效率,但一些研究者認為采用光流的方法表示運動的時序信息并不是最直觀的方式,而且這些網(wǎng)絡訓練方法繁瑣,這對于高效輕量化的研究并不適用。
2019年,F(xiàn)eichtenhofer等[16]提出的SlowFast網(wǎng)絡在視頻識別任務中取得了突破,其靈感來源于生物學中關于視網(wǎng)膜神經(jīng)細胞的研究。如圖2所示其架構,雖然都是采用兩條通道,但與雙流網(wǎng)絡架構不同的地方在于,SlowFast網(wǎng)絡實際上是一個對同一個視頻采用兩種不同幀率進行處理的單流架構的網(wǎng)絡。
圖2 SlowFast網(wǎng)絡基本結構
相較于傳統(tǒng)的3D卷積計算空間和時間上的語義,SlowFast網(wǎng)絡盡管也是用3D ResNet完成時間和空間語義上的提取,但是SlowFast網(wǎng)絡通過慢通道進行空間語義上的特征提取,這是由于視頻中的目標完成一個動作的時候,往往執(zhí)行動作的主體不會改變,例如揮手、鼓掌、跑步、跳躍等。而快通道則進行時間語義上的特征提取,是由于執(zhí)行的動作可以比其主體的識別變化速度快得多,這時候通過快速刷新幀來有效建??赡芸焖僮兓倪\動行為。SlowFast網(wǎng)絡相較于別的視頻識別網(wǎng)絡可以根據(jù)需求進行網(wǎng)絡結構的調整,而且在視頻內容識別的準確率上也是實現(xiàn)最領先效果(State Of The Art, SOTA)的方案。
為了實現(xiàn)模型的輕量化,本文通過以下幾個方式進行網(wǎng)絡的輕量化搭建。第一,針對視頻速度識別的網(wǎng)絡使用SlowFast網(wǎng)絡架構進行視頻特征的提取,針對不同的任務對模型進行優(yōu)化,比使用一個大模型更具有效率。而且在一些簡單的任務中,像SlowFast這樣具有龐大參數(shù)的模型反而會拖累性能和精度,由于在視頻速度識別任務中,重點關注的是視頻中視覺對象移動或運動的快慢,而對于視頻中的背景并不關注,因此本文通過調整特征提取網(wǎng)絡的通道數(shù)實現(xiàn)模型的輕量化設計。第二,采用一種輕量級的通道注意力塊,作為提取重點關注的內容的模塊。該模塊增加的模型復雜度很小,既能實現(xiàn)即插即用,又能提高模型精確性,使模型獲得良好的性能增益。
本章詳細闡述了用于視頻播放速度識別的視頻特征提取的方法。首先介紹了用于視頻播放速度識別任務的視頻特征提取架構;接著,描述模型采用的通道注意力塊的核心算法與內部結構圖;最后,講解模型的訓練框架流程和所采用的一種用于視頻播放速度識別的自監(jiān)督訓練方法,該方法能降低模型對數(shù)據(jù)中人工線索的依賴性,增加模型泛化能力,且無需對數(shù)據(jù)進行人工標注。
在深度神經(jīng)網(wǎng)絡的研究中,殘差網(wǎng)絡(Residual Network, ResNet)[2]的結構被證明是一種建立深層網(wǎng)絡對數(shù)據(jù)特征進行提取的有效模型。圖3顯示了視頻特征提取網(wǎng)絡框架。
圖3 視頻播放速度識別網(wǎng)絡模型框架
基于理論與實踐結果,選擇ResNet-50作為網(wǎng)絡主干,使用3D卷積對待處理視頻的時間維度和空間維度的特征進行同時提取,得到所需要的視頻特征。
網(wǎng)絡模型由快、慢兩個分支模型組成,先將輸入的待處理視頻張量通過3D卷積采用不同的步長對輸入張量的時間維度進行一次全采樣和一次降采樣,得到兩個不同幀數(shù)的視頻片段,然后將兩個視頻片段輸入殘差模塊。與SpeedNet先將視頻進行切片處理得到兩個采樣片段分別輸入的方法相比,利用3D卷積進行采樣的方法只需要關注一個輸入,減少了代碼和計算開銷。進行降采樣的操作相當于將時間距離較遠的幀圖像信息聚攏在一起,使得神經(jīng)網(wǎng)絡能夠學習時間距離較遠的幀圖像信息之間的關系,提取不同的時間語義。不同的采樣率也使得兩個分支能夠建立不同時間距離的幀圖像信息之間的關系,因而能夠提取到不同的時間域特征,獲取視頻片段不同的時間語義信息,從而提高視頻特征提取的精確度,也能夠解決因模型感受野有限造成的特征提取精確度較低的問題。在實驗中,降采樣的步長為2。通過快通道分支,對視頻片段采用步長為1的3D卷積進行時域全采樣,然后對快通道視頻片段進行時間域和空間域上的視頻特征提取,得到快通道視頻特征并輸出;通過慢通道分支,對視頻片段采用步長為2的3D卷積進行時域降采樣,然后對慢通道視頻片段進行視頻特征提取得到慢通道視頻特征,最后將慢通道視頻特征和快通道視頻特征進行特征融合后輸出。通過兩個不同的分支計算不同時序方向步長,構造了兩個不同幀率的視頻片段,分別送入網(wǎng)絡的不同分支進行預測,并對結果進行融合,不同的分支會有不同時序方向的感受野,以此提取出視頻的特征。
表1視頻播放速度識別網(wǎng)絡實例參數(shù)
Tab.1 Instance parameters of video playback speed recognition network
表1中卷積核的維度以{×2,}的形式來表示,其中代表時間維度大小,代表空間維度大小,代表通道的大小,步長則以{時間步長,空間步長2}的形式來表示。由于本文的任務對背景信息不需要過多關注,因此將Slow分支的通道權重降低到一個合理的數(shù)值。模型參數(shù)量的大小與每一層級的卷積核的維度的大小有關,本文的網(wǎng)絡在慢通道分支上每一層級卷積核的通道數(shù)都是SlowFast通道數(shù)的1/8,因此理論上來說可以有效降低模型最終參數(shù)量的大小,得到比SlowFast和SpeedNet中使用的S3D-G網(wǎng)絡更為輕量的模型。
根據(jù)最終實現(xiàn)任務的需要,在視頻特征提取的基礎上可以進一步設置池化層(Pooling Layer)、全連接層(Full Connection Layer)、隨機丟棄層(Dropout Layer)和輸出層等。通過對池化層、全連接層、隨機丟棄層和輸出層進行不同的設計以實現(xiàn)視頻動作識別、視頻速度識別等任務。在本文模型中采用的是用于視頻播放速度識別任務的設計,根據(jù)需要,在特征提取后加入了平均池化層(Average Pooling)對視頻特征圖的寬、高和幀序列均壓縮至通道維度,形成一維的特征向量序列,隨機丟棄層能夠有效防止過擬合,全連接層對特征向量序列進行處理,輸出特征的置信度,再通過輸出層Softmax函數(shù)輸出對應的分類結果。
注意力機制最早在自然語言處理中的自動翻譯研究[17]任務中被提出,目前已成為神經(jīng)網(wǎng)絡研究領域的一個重要概念。研究證明了注意力機制在改善深度神經(jīng)網(wǎng)絡的性能方面能夠有很大貢獻,其核心在于通過對每個通道的依賴性進行建模提高深度神經(jīng)網(wǎng)絡的表達能力,通過學習全局信息,網(wǎng)絡可以有選擇性地增強包含有用信息的特征并抑制無用信息的特征[18],具有很大的潛力。當前注意力模塊可以分成空間注意力[19]和通道注意力[20]??臻g注意力的本質就是識別目標并進行一些轉換或者獲得相應的權重,這使模型可以專注于特征圖上更顯著的位置;通道注意力則將資源分配給每個卷積通道,并為每個特征間的重要性建模,可以在鍵入不同任務時進行特征分配,整體實現(xiàn)簡單但卻有效。在現(xiàn)有的通道注意力方法中,最具有典型性的研究成果是壓縮-激勵網(wǎng)絡(Squeeze-and-Excitation Network, SENet)[21],SENet模塊可以動態(tài)、自適應地重新分配和協(xié)調通道維度的原始特征,該方法首次關注了通道級別的模型依存關系,每個特征通道的權重是通過訓練一個全連接的網(wǎng)絡來學習的,并且這些權重用于顯式地對特征通道之間的相關性進行建模。隨后的研究通過建立更復雜的通道依賴性或結合更多的空間關注來改進SENet,但是這難免增加了網(wǎng)絡整體計算量和模型的復雜度。SENet采取的降維操作對通道注意預測來說是低效的,針對該問題,Wang等[22]提出了一種高效的通道關注網(wǎng)絡(Efficient Channel Attention Network, ECA-Net),該網(wǎng)絡模塊采用局部跨通道的互動策略,且能保證不降低維度。這可以在保持網(wǎng)絡性能的同時大大降低模型的復雜性,且能夠實現(xiàn)即插即用,極大減少了參數(shù)的計算量并且?guī)缀醪粨p失精度,在目前的深度學習研究中應用很廣[23-24]。
2.2.1高效通道關注算法
本節(jié)將以數(shù)學的方法闡述高效通道關注模塊是如何在保持通道注意力計算精度的前提下減少參數(shù)量的計算從而完成模型復雜度的降低這一目標的。
2.2.2高效通道注意力塊
在視頻特征提取模型中,每個殘差層還進一步包括了高效通道注意力機制模塊,使模型在產(chǎn)生輸出的時候還產(chǎn)生一個“注意力范圍”。“注意力范圍”用來表征接下來的輸出中,對于輸入序列應該重點關注的區(qū)域,模型將根據(jù)該關注區(qū)域產(chǎn)生下一個輸出。圖4展示了高效通道注意力塊的結構。高效通道注意力模塊首先通過平均池化層將輸入的第一中間特征圖進行壓縮,得到特征序列,ECA-Net論文中處理的只是單張圖像數(shù)據(jù),與ECA-Net不同的是,本文將高效通道注意力模塊的應用擴展到了更高維的視頻數(shù)據(jù)處理上,視頻數(shù)據(jù)的第一中間特征圖包括批量大?。ǎ?、通道數(shù)()、幀序列()、圖像寬度()、圖像高度()5個維度。特征序列包括批量大?。ǎ⑼ǖ罃?shù)()、幀序列()3個維度。之后通過通道卷積層進行一維卷積,實現(xiàn)對通道的線性權重分配,再通過激活函數(shù)將權重范圍規(guī)范在(-1,1),形成注意力與該注意力模型的輸入相乘,得到的輸出即為通道注意力值。通道注意力值使得下一層殘差層主要對重點關注對應的通道進行特征提取,弱化或去除背景信息,從而提升視頻特征提取的準確性。
圖4 高效通道注意力模塊
自監(jiān)督學習[25]一直是一個看似簡單但是實際需要人們對于視頻語義理解有著非常深刻認知的一項任務,其本質在于研究如何通過數(shù)據(jù)內部的秩序,或是相關的先驗知識來構造標簽并提供模型的優(yōu)化方向。目前在自然語言處理以及圖像領域,自監(jiān)督學習都取得了顯著的結果,基于一些大的自監(jiān)督學習預訓練模型,例如BERT(Bidirectional Encoder Representation from Transformers)、GPT-3(Generative Pre-Training-3)[26-27]等自然語言處理模型以及像IPT(Image Processing Transformer)[28]等基于圖像任務的預訓練模型都為一些細分類任務的性能帶來了巨大的提升,因此視頻語義理解的自監(jiān)督學習是一個新的挖掘方向,并且視頻任務需要用到自然語言處理以及圖像領域的相關先驗知識,其重要性不言而喻。在視頻自監(jiān)督學習的領域中,有許多出色的方法,例如將視頻幀的順序打亂之后生成對比的負樣本[29];或者是在不同的視頻中尋找最鄰近的幀,以此進行時間循環(huán)一致性學習(Temporal Cycle-Consistency Learning, TCCL)的自監(jiān)督方法[30],通過在不同的視頻中尋找相同表達的點來構建不同視頻中動作一致的片段。自監(jiān)督訓練能夠很大程度上降低人工標注成本,提高訓練任務效率,在表示學習方面,自我監(jiān)督學習具有取代完全監(jiān)督學習的巨大潛力。從人類學習的本質來看,大型注釋數(shù)據(jù)集可能不是必需的,人類可以自發(fā)地從未標記的數(shù)據(jù)集中學習。因此自監(jiān)督學習在大型數(shù)據(jù)集下更能凸顯出其節(jié)省人力資源的優(yōu)勢和必要性,是當前熱門的研究方向。
本文采用了一種自監(jiān)督的方法對視頻速度識別任務網(wǎng)絡模型進行訓練,無需提供任何的人工視頻標簽。訓練框架流程如圖5所示。具體來說,訓練集和測試集包含了每一個視頻片段的兩個版本:加速版本和常速版本。加速版本是在原視頻片段基礎上使用降采樣得到的。同時,為了避免模型采用人工提示,在訓練中采取了對數(shù)據(jù)集進行強化的一些方法。
圖5 網(wǎng)絡訓練流程
2.3.1數(shù)據(jù)空間增強
在訓練過程中,在將視頻片段輸入到網(wǎng)絡之前,采取了隨機調整輸入視頻片段的大小的方法,使其空間維數(shù)在64~192像素,并進行隨機裁剪,然后重新將視頻幀的大小調整到168像素,最后進行通道歸一化后輸入網(wǎng)絡。在重新調整大小過程中發(fā)生的模糊有助于減輕由每個幀的MPEG或JPEG壓縮引起的潛在像素強度抖動,隨機裁剪有助于減少神經(jīng)網(wǎng)絡對于其他特征的學習,減小背景(或噪聲)因子的權重,且使模型面對缺失值時不敏感。在通過基本網(wǎng)絡傳遞輸入后,在生成的時空特征中的區(qū)域上執(zhí)行空間全局最大池化。由于輸入的大小是可變的,因此這些區(qū)域對應于原始大小的輸入中的不同大小的區(qū)域。這迫使網(wǎng)絡不再僅僅依賴于尺寸相關的因素進行判斷。
2.3.2數(shù)據(jù)時間增強
為了引入時域上的可變性,對于正常速度,將不對視頻進行任何操作,對于加速版本,將進行2~4倍的采樣。
2.3.3數(shù)據(jù)標簽標注
對于網(wǎng)絡,僅有兩個計算結果,分別為加速和未加速。使用置信度替代標簽是一種更好的選擇。例如視頻的置信度為[1,0],第一個位置的置信度為1,視頻為非加速視頻。這樣就讓一個視頻帶有兩個類別的置信度,并對這兩個類別分別進行交叉熵的計算,使得神經(jīng)網(wǎng)絡在反向傳播的時候能夠計算出兩個分類的誤差,有助于更加準確地更新之后的權重。
在本章中,首先介紹訓練所使用的數(shù)據(jù)集,然后對訓練評估指標和實驗裝置進行講解,最后進行實驗結果分析和網(wǎng)絡性能的評估。
目前關于人類動作或日?;顒拥臄?shù)據(jù)集有很多,由于本文的視頻特征提取網(wǎng)絡用于視頻速度識別,所采用的方法是自監(jiān)督的,這種自監(jiān)督方法在SpeedNet論文中已被驗證在面對不同的數(shù)據(jù)集具有很強的泛化能力,因此對于數(shù)據(jù)集,本文僅要求一個涵蓋人類日常行為范圍足夠廣的數(shù)據(jù)集,因此在實驗中本文使用Kinetics-400數(shù)據(jù)集[3]進行訓練。Kinetics-400數(shù)據(jù)集致力于人類的動作,總共包含了400個人類動作大類,包括繪畫、飲酒、大笑、騎自行車、拉小提琴、灌籃等日常人類動作,圖6展示了數(shù)據(jù)集中一些動作類的樣本片段。視頻總數(shù)大約為30萬個,每個視頻時長為10 s,幀率為25 FPS。在該數(shù)據(jù)集上進行訓練和測試有利于評估本文模型的泛化能力。數(shù)據(jù)的增強和標注將采用前文提到的方法進行處理。
圖6 Kinetics-400數(shù)據(jù)集示例
本設計通過對比模型輸出和視頻標簽,對視頻速度的檢測可以分為4組:加速視頻片段被正確檢出、常速視頻片段被正確檢出、加速視頻片段未被正確檢出、常速視頻片段未被正確檢出,分別記為(True Positive)、(True Negative)、(False Negative)、(False Positive)。
為了評價模型檢測能力,主要通過四個評價指標作為性能評估標準:Loss、正常速度視頻識別準確率、加速視頻識別準確率、所有視頻識別準確率。Loss表示模型推理置信度與真實置信度之間的交叉熵,采用二分類交叉熵計算,計算公式如式(6)所示:
正常速度視頻識別準確率(_)表示計算被分類為未加速視頻的準確率,定義如式(7)所示:
加速視頻識別準確率(_)表示計算被分類為加速視頻的準確率,定義如式(8)所示:
所有視頻識別準確率()表示能夠被正確分類的視頻的準確率,定義如式(9)所示:
對于本文的模型,理論上說,如果訓練涉及的內容以及范圍越多,場景越豐富,其模型泛化能力越強。Kinetics-400完整的數(shù)據(jù)集過于龐大,相較于大規(guī)模訓練,本文在開始階段僅針對某一個或某幾個類別的視頻進行模型的訓練。比起訓練全部的數(shù)據(jù),在單個類別上訓練并對該類別的視頻進行測試也具有指導意義。這個方法能直觀地看到小樣本訓練集訓練的效果。
本文對模型進行了對比測試。首先僅選用Kinetics-400中的200個跳遠視頻進行訓練,48個視頻進行驗證,由于數(shù)據(jù)量較少且都集中在跳遠視頻上,因此產(chǎn)生了過擬合現(xiàn)象,對于驗證集來說,其總體準確率僅有50%,這是由于訓練集數(shù)量太少而導致的,訓練出來的模型泛化能力較弱。其次選用了Kineticis-400中的6類體育運動數(shù)據(jù)進行訓練,訓練集4 412個視頻,驗證集347個視頻。該模型驗證集準確率達到了71%,無論對跳遠視頻還是其他視頻,其識別效果都比較好。對比實驗的結果可知,對于本文的模型,如果訓練涉及的內容以及范圍越多越廣,場景越豐富,其模型泛化能力越強;對于同一動作或場景來說,更多的數(shù)據(jù)無法明顯提升其性能。因此訓練一個多動作、多場景的模型對于本文方法來說要更加有利。所以,從實用性和資源有限的角度出發(fā),最終選取了Kinetics-400數(shù)據(jù)集中120 000個視頻給模型做訓練,驗證則選取1 200個視頻。接著,為了驗證本文提出的帶有注意力模塊的視頻特征提取網(wǎng)絡的有效性,進行了兩組實驗。第一組為不加入注意力模塊的視頻特征提取網(wǎng)絡,第二組為加入注意力模塊的視頻特征提取網(wǎng)絡,兩組實驗的迭代次數(shù)和所有視頻識別準確率如圖7所示。
圖7 兩組訓練準確率對比
每10輪記錄一次模型訓練精度,總共進行100輪迭代。兩組實驗數(shù)據(jù)在第90輪訓練時已經(jīng)趨于穩(wěn)定,本文對比了兩組實驗的第100輪訓練精度,網(wǎng)絡在加入了高效注意力模塊后,模型識別準確率提升了約0.81個百分點。同時,通過生成類激活圖(Class Activation Map, CAM)可以直觀地觀察到模型對視頻的關注度的具體可視化,類激活熱力圖表示圖像的每個位置對該類別的重要程度。熱力圖用冷暖色調來反映關注程度,越偏暖色則表明該處的權重越大,模型對該處關注度越高。
如圖8所示,本文選取了視頻中運動主體做出動作幅度較大、速度較快的幀進行對比,圖8(a)為模型在不加入高效注意力模塊時的CAM圖,可以觀察到模型關注的地方較為分散,而且不夠集中在運動主體上;而在圖8(b)中,模型在加入了高效通道注意力模塊后,對視頻片段中存在動作幅度較大、快速運動的主體的幀的關注度得到加強,對運動人物的關注權重變得更高,弱化了背景信息和存在較慢動作或靜止動作幀的關注度,降低了邊緣或背景信息的影響。
圖8 兩組的類激活圖對比
其次,本文選擇了SlowFast網(wǎng)絡和SpeedNet論文中采用的S3D-G網(wǎng)絡進行了參數(shù)對比,實驗結果如表2所示。由實驗結果可知,本文模型在使用具有較大數(shù)量的數(shù)據(jù)集進行訓練后,在準確率與識別率上都有著很優(yōu)異的表現(xiàn),在訓練集上的準確率約為91%,測試集的準確率在75%左右,與S3D-G保持幾乎相同的水平,同時,本文的網(wǎng)絡在視頻速度識別任務上的準確率優(yōu)于SlowFast網(wǎng)絡,但是模型的各項參數(shù)都得到了明顯的降低。本文通過設計,有效減少了視頻特征提取模型的參數(shù)量,將模型的參數(shù)量降低到了1.33 M,浮點運算數(shù)降低到了5.36 G,模型大小只有5.47 MB,實現(xiàn)了模型的輕量化和高效化,從而減少了推理時間和運算量,提高了運行速度。
表2不同模型的性能比較
Tab.2 Performance comparison of different models
本文詳細介紹了一種輕量級視頻特征提取網(wǎng)絡模型,專門為視頻速度識別任務進行參數(shù)調優(yōu)設計。本實驗在原有的雙支網(wǎng)絡中減少子模型的通道數(shù),能夠幫助各子模型重點提取視頻中視覺對象的相關特征。另外在模型中加入通道注意力模塊,也有助于減少模型計算參數(shù)量,提高模型穩(wěn)定性。實驗結果說明了針對不同的任務,對模型進行優(yōu)化,比使用一個大模型要更具有效率,輕量化的模型降低了對硬件資源的要求,證明了該方法的可行性。
在本方法的基礎上,可以繼續(xù)從以下兩方面繼續(xù)開展優(yōu)化工作:第一,對于數(shù)據(jù)集來說,覆蓋的場景和類別越多,模型就越能適應日常生活中可能會處理的不同場景,因此,數(shù)據(jù)集的擴增是一個優(yōu)化的方向。第二,對于視頻特征提取網(wǎng)絡的結構,可以不局限于兩個分支。理論上來說,繼續(xù)增加不同采樣倍數(shù)的分支可以進一步增大模型的感受野,獲取更長距離幀的視頻信息,以此提高模型特征提取的精確度。
[1] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 4489-4497.
[2] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[3] KAY W, CARREIRA J, SIMONYAN K, et al. The Kinetics human action video dataset[EB/OL]. (2017-05-19) [2021-05-18].https://arxiv.org/pdf/1705.06950.pdf.
[4] WANG L, LIU X, LIN S, et al. Generic slow-motion replay detection in sports video[C]// Proceedings of the 2004 International Conference on Image Processing. Piscataway: IEEE, 2004: 1585-1588.
[5] CHEN C M, CHEN L H. A novel method for slow motion replay detection in broadcast basketball video[J]. Multimedia Tools and Applications, 2015, 74(21): 9573-9593.
[6] JAVED A, BAJWA K B, MALIK H, et al. An efficient framework for automatic highlights generation from sports videos[J]. IEEE Signal Processing Letters, 2016, 23(7): 954-958.
[7] KIANI V, POURREZA H R. An effective slow-motion detection approach for compressed soccer videos[J]. International Scholarly Research Notices, 2012, 2012: No.959508.
[8] BENAIM S, EPHRAT A, LANG O, et al. SpeedNet: learning the speediness in videos[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 9919-9928.
[9] XIE S N, SUN C, HUANG J, et al. Rethinking spatiotemporal feature learning: speed-accuracy trade-offs in video classification[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11219. Cham: Springer, 2018: 318-335.
[10] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 568-576.
[11] FEICHTENHOFER C, PINZ F, WILDES R P. Spatiotemporal residual networks for video action recognition[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 3476-3484.
[12] FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1933-1941.
[13] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9912. Cham: Springer, 2016: 20-36.
[14] 石仕偉. 基于深度學習的視頻行為識別研究[D]. 杭州:浙江大學, 2018: 21-67.(SHI S W. Research on deep learning-based video action recognition[D]. Hangzhou: Zhejiang University, 2018: 21-67.)
[15] 張聰聰,何寧. 基于關鍵幀的雙流卷積網(wǎng)絡的人體動作識別方法[J]. 南京信息工程大學學報(自然科學版), 2019, 11(6):716-721.(ZHANG C C, HE N. Human motion recognition based on key frame two-stream convolutional network[J]. Journal of Nanjing University of Information Science and Technology (Natural Science Edition), 2019, 11(6):716-721.)
[16] FEICHTENHOFER C, FAN H Q, MALIK J, et al. SlowFast networks for video recognition[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 6201-6210.
[17] GALASSI A, LIPPI M, TORRONI P. Attention in natural language processing[J]. IEEE Transactions on Neural Networks and Learning System, 2021, 32(10): 4291-4308.
[18] LI H F, QIU K J, CHEN L, et al. SCAttNet: semantic segmentation network with spatial and channel attention mechanism for high-resolution remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(5): 905-909.
[19] LIU Z, MOCK J, HUANG Y, et al. Predicting auditory spatial attention from EEG using single- and multi-task convolutional neural networks[C]// Proceedings of the 2019 IEEE International Conference on Systems, Man and Cybernetics. Piscataway: IEEE, 2019: 1298-1303.
[20] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[21] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.
[22] WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 11531-11539.
[23] 韓興,張紅英,張媛媛. 基于高效通道注意力網(wǎng)絡的人臉表情識別[J]. 傳感器與微系統(tǒng), 2021, 40(1):118-121.(HAN X, ZHANG H Y, ZHANG Y Y. Facial expression recognition based on high efficient channel attention network[J]. Transducer and Microsystem Technologies, 2021, 40(1):118-121.)
[24] 屈震,李堃婷,馮志璽. 基于有效通道注意力的遙感圖像場景分類[J]. 計算機應用,2022,42(5):1431-1439.(QU Z, LI K T, FENG Z X. Remote sensing image scene classification based on effective channel attention[J]. Journal of Computer Applications, 2022,42(5):1431-1439.)
[25] JING L L, TIAN Y L. Self-supervised visual feature learning with deep neural networks: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(11): 4037-4058.
[26] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, (Volume 1: Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2015: 4171-4186.
[27] BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[C/OL]// Proceedings of the 34th Conference on Neural Information Processing Systems. [2021-05-18].https://papers.nips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.
[28] CHEN H T, WANG Y H, GUO T Y, et al. Pre-trained image processing transformer[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 12294-12305.
[29] MISRA I, ZITNICK C L, HEBERT M. Shuffle and learn: unsupervised learning using temporal order verification[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 527-544.
[30] DWIBEDI D, AYTAR Y, TOMPSON J, et al. Temporal cycle-consistency learning[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 1801-1810.
CHEN Rongyuan, born in 1994, M. S. candidate. His research interests include deep learning, video semantic understanding.
YAO Jianmin, born in 1978, Ph. D., associate research fellow. His research interests include artificial intelligence, image processing, information display.
YAN Qun, born in 1965, Ph. D., professor. His research interests include micro-LED, artificial intelligence, information display.
LIN Zhixian, born in 1975, Ph. D., professor. His research interests include information display, flat panel display drive system, image processing.
Video playback speed recognition based on deep neural network
CHEN Rongyuan1, YAO Jianmin1,2, YAN Qun1,2*, LIN Zhixian1
(1,,350108,;2,362201,)
Most of the current video playback speed recognition algorithms have poor extraction accuracy and many model parameters. Aiming at these problems, a dual-branch lightweight video playback speed recognition network was proposed. First, this network was a Three Dimensional (3D) convolutional network constructed on the basis of the SlowFast dual-branch network architecture. Secondly, in order to deal with the large number of parameters and many floating-point operations of S3D-G (Separable 3D convolutions network with Gating mechanism) network in video playback speed recognition tasks, a lightweight network structure adjustment was carried out. Finally, the Efficient Channel Attention (ECA) module was introduced in the network structure to generate the channel range corresponding to the focused content through the channel attention module, which helped to improve the accuracy of video feature extraction. In experiments, the proposed network was compared with S3D-G, SlowFast networks on the Kinetics-400 dataset. Experimental results show that with similar accuracy, the proposed network reduces both model size and model parameters by about 96% compared to SlowFast network, and the number of floating-point operations of the network is reduced to 5.36 GFLOPs, which means the running speed is increased significantly.
deep neural network; video playback speed recognition; dual-branch network; channel attention; lightweight model
This work is partially supported by National Key Research and Development Program of China (2016YFB0401503), Science and Technology Major Program of Guangdong Province (2016B090906001), Science and Technology Major Program of Fujian Province (2014HZ0003-1), Open Fund of Guangdong Provincial Key Laboratory of Optical Information Materials and Technology (2017B030301007).
TP389.1
A
1001-9081(2022)07-2043-09
10.11772/j.issn.1001-9081.2021050799
2021?05?17;
2021?10?14;
2021?10?18。
國家重點研發(fā)計劃項目(2016YFB0401503);廣東省科技重大專項(2016B090906001);福建省科技重大專項(2014HZ0003?1);廣東省光信息材料與技術重點實驗室開放基金資助項目(2017B030301007)。
陳榮源(1994—),男,福建三明人,碩士研究生,主要研究方向:深度學習、視頻語義理解; 姚劍敏(1978—),男,福建莆田人,副研究員,博士,主要研究方向:人工智能、圖像處理、信息顯示; 嚴群(1965—),男,美籍,教授,博士,主要研究方向:Micro?LED、人工智能、信息顯示; 林志賢(1975—),男,福建泉州人,教授,博士,主要研究方向:信息顯示、平板顯示驅動系統(tǒng)、圖像處理。