陳亭秀,尹建芹
(北京郵電大學(xué)人工智能學(xué)院,北京 100876)
動作識別的目的是從視頻中識別出該視頻包含的動作,即視頻多分類任務(wù),具有多處應(yīng)用場景。例如,隨著互聯(lián)網(wǎng)交互平臺迅速發(fā)展,用戶每天上傳和瀏覽的視頻數(shù)量激增,識別出這些視頻中的動作類別,不但方便用戶搜索,且利于平臺為用戶推薦感興趣的視頻。此外,智能監(jiān)控也是該任務(wù)的重要應(yīng)用場景:監(jiān)控系統(tǒng)在識別出包含異常動作類別視頻(如偷盜、搶劫、火災(zāi)等)時可以發(fā)出警報幫助警衛(wèi)人員及時處理突發(fā)狀況[1]。
目前的動作識別領(lǐng)域內(nèi)多為視頻動作識別相關(guān)研究,即針對視覺模態(tài)的動作識別。除了RGB(Red-Green-Blue)圖像中的空間視覺信息外,視頻還具有豐富的時序特征。現(xiàn)有的動作識別方法通常只針對視覺模態(tài),對視覺模態(tài)時空特征進行建模從而識別動作,例如手工特征、iDT 密集軌跡[2]等傳統(tǒng)方法,到2D 卷積[3]、3D 卷積[4]、2D 時空雙流網(wǎng)絡(luò)[5]、2D 運動建模網(wǎng)絡(luò)[6]及上述網(wǎng)絡(luò)變體的深度學(xué)習(xí)方法。
然而,從仿生學(xué)角度來看,人在接收和處理大部分外界信息時,往往會調(diào)動視覺和聽覺兩種感官,并將收集到的視聽信息交給人腦解析和存儲。與視頻中的圖片序列相比,音頻信號不存在遮擋、光照變化等問題,能更直接地表達時間上聲音特征的變化,往往攜帶有利于動作分類的動態(tài)信息,從而夠彌補視頻動作識別時序建模不足,一定程度上克服單一視覺模態(tài)動作識別方法的局限性。
因此,模仿人類調(diào)動視聽感官,近期的一些工作聚焦于視聽聯(lián)合學(xué)習(xí)的動作識別,利用視聽兩種模態(tài)信息判斷動作類別。將音頻中的聲信號通過短時傅里葉變換(Short-Time Fourier Transform,STFT)(原理如圖1 所示)轉(zhuǎn)化為聲譜圖與視頻中的幀序列時序?qū)R并融合,并利用視聽模態(tài)融合信息識別動作。這些算法大多關(guān)注視聽融合方式,忽略了視聽特征應(yīng)與其執(zhí)行分類的可靠性相關(guān)。
圖1 STFT原理Fig.1 Principle of STFT
無論是視頻還是音頻,各個時間段信息表達動作類別的強度是不同的。人類日常動作的發(fā)生大多是瞬時的,因此與動作相關(guān)的時間段內(nèi)的視聽信息攜帶與類別高度相關(guān)的關(guān)鍵信息,而與動作無關(guān)的時段攜帶的大多是冗余和干擾信息。動作正在發(fā)生的時段所包含的幀能最大限度地表達動作發(fā)生的場景、與動作相關(guān)的人和物等主要視覺信息,而動作不發(fā)生的冗余幀視覺信息大概率與關(guān)鍵幀有部分重復(fù)或與動作類別無關(guān),會給動作識別的效率和效果帶來干擾;對于一段視頻相對應(yīng)的音頻,只有動作發(fā)生時段內(nèi)聲信號STFT 后的聲譜圖,即聽覺模態(tài)關(guān)鍵“幀”能強烈表達動作類別,其余時段大多反映干擾動作識別的背景信息(如微風(fēng)、街道嘈雜聲等)。
因此,如何利用好視聽模態(tài)的關(guān)鍵幀攜帶的顯著信息,減少視聽模態(tài)冗余幀對動作識別的干擾,是視聽聯(lián)合學(xué)習(xí)動作識別任務(wù)待解決的重要問題之一。本文中的視覺幀為視頻段首幀圖像(相較于圖像STFT 后的能量譜,RGB 圖像的空間結(jié)構(gòu)信息包含更豐富動作信息,更能表達動作類別,因此視覺幀采用原始RGB 圖像,沒有經(jīng)過STFT 處理),聽覺幀為視頻段內(nèi)音頻STFT 后的聲譜圖。本文提出了基于關(guān)鍵幀篩選的視聽聯(lián)合動作識別方法,通過增加網(wǎng)絡(luò)對視聽兩種模態(tài)關(guān)鍵幀信息的關(guān)注度同時減小對冗余幀信息的關(guān)注度,使網(wǎng)絡(luò)對關(guān)鍵信息具有敏感性同時對背景噪聲具有魯棒性。本文的主要貢獻為:
1)基于IMGAUD-SKIMMING(IA-S)[6]網(wǎng)絡(luò)提出關(guān)鍵幀篩選網(wǎng)絡(luò)KFIA-S(KEY FRAME IMGAUD-SKIMMIN),建模每個時刻的權(quán)重,篩選關(guān)鍵幀,利用關(guān)鍵幀信息選取用于視頻分類的音像對,更有效地利用益于動作識別的關(guān)鍵信息。
2)KFIA-S 網(wǎng)絡(luò)在總時長超過700 h、總類別數(shù)200的大型視頻動作識別數(shù)據(jù)集ActivityNet[7]達 到SOTA(State-Of-The-Art)精度。
針對視頻幀序列的動作識別方法研究已取得一定成果。與靜態(tài)圖像相比,視頻含有豐富的時序信息,如何有效地建模視頻的時空特征是基于視頻的動作識別的核心問題。Wang 等[8]提出的DT(Dense Trajectories)及iDT(improved Dense Trajectories)方法[2]通過追蹤采樣點運動軌跡區(qū)分不同類別動作,將光流圖像和視頻幀作為二維卷積神經(jīng)網(wǎng)絡(luò)(2D Convolutional Neural Network,2DCNN)的輸入,分別建模時間、空間特征,提高了動作識別精度。Tran 等[4]提出C3D(Converse 3D),用3D 卷積和3D Pooling 直接處理視頻幀序列,與雙流網(wǎng)絡(luò)相比提升了計算效率;Wang 等[3]提出的TSN(Temporal Segment Network)稀疏采樣長視頻以建模長時信息,彌補了雙流網(wǎng)絡(luò)嘗試建模不足的短處;隨著深度學(xué)習(xí)方法的發(fā)展,Simonyan 等[5]提出雙流網(wǎng)絡(luò);Lin 等[9]提出的TSM(Temporal Shift Module)網(wǎng)絡(luò)通過移動相鄰幀之間的部分通道信息使相鄰幀之間信息交換,在減少計算量的同時提升時空建模能力;Feichtenhofer 等[10]提出的SlowFast 網(wǎng)絡(luò)針對動作變化快慢不同,采用Slow 和Fast 網(wǎng)絡(luò)分別建??臻g語義變化和時序信息。近期一些工作探索2D 卷積捕獲兩幀之間動態(tài)信息方法代替密集光流的冗余計算,致力于微小精度損耗下識別效率的提升。Kwon 等[11]提出的MS(Motion Squeeze)模塊建模相鄰幀像素點運動軌跡獲取動態(tài)信息;Li 等[12]提出的TEA(Temporal Excitation and Aggregation)中的ME(Motion Excitation)模塊計算兩幀之差建模動態(tài)信息,該類算法已有十年左右發(fā)展史,針對單一視覺模態(tài)幀序列的動作識別算法精度提升愈加困難。
然而,除視覺信息外,動態(tài)信息豐富的聽覺信息也很重要。本文致力于探索視聽聯(lián)合的動作識別方法,通過充分利用視覺和聽覺兩種模態(tài)的信息來提高動作識別的準(zhǔn)確性。
近年來,已有一些工作聚焦于計算機視覺與聲音的聯(lián)合學(xué)習(xí)。Zhao 等[13]提出的像素塊與不同樂器聲音相聯(lián)系,從樂器重奏視頻中得到某一樂器獨奏視頻;Zhao 等[14]提出的視聽聯(lián)合注意力情感識別網(wǎng)絡(luò)通過聽覺時序Attention 和視覺時空Attention 學(xué)習(xí)高層語義特征,用于情感識別,提升了識別精度,該工作證明了建模重要時刻視聽信息的必要性;Tian 等[15]提出了視聽特征融合時序事件檢測網(wǎng)絡(luò),采用聽覺引導(dǎo)的視覺Attention 模塊提升事件檢測準(zhǔn)確性。本文致力于探索視聽聯(lián)合學(xué)習(xí)的動作識別算法,在對視覺信息的時空建模基礎(chǔ)上,添加動態(tài)信息更豐富的音頻信息,彌補視覺信息時序建模的不足。
相較于上述視聽聯(lián)合任務(wù),視聽聯(lián)合動作識別任務(wù)的工作仍有很大的探索空間。Nagrani 等[16]通過跨模態(tài)監(jiān)督信息提取構(gòu)建動作識別的分類器,對大規(guī)模的視頻數(shù)據(jù)進行弱監(jiān)督標(biāo)注,使用此標(biāo)注數(shù)據(jù)訓(xùn)練的模型在動作識別問題中取得了superior 的精度。Gao 等[6]在解決視頻信息冗余問題上,提出了音像對概念,音為視頻段段聲信號STFT 后的聲譜圖,像為視頻段首幀圖像。一段視頻的首幀圖像表示絕大部分視覺信息,音頻表示動態(tài)信息,再篩選特征更豐富的音像對用于動作分類,在識別精度和速度上均有提升;然而,該方法在篩選音像對時采用了全局時間特征,對所有時刻信息一視同仁,未考慮關(guān)鍵幀對音像對篩選起到的積極作用及冗余幀對音像對篩選起到的干擾作用。在此工作基礎(chǔ)上,本文提出一種關(guān)鍵幀篩選方法,區(qū)分時間維度上的關(guān)鍵信息和冗余信息,區(qū)別建模利弊信息,從而選取更利于視頻分類的音像對和視聽模態(tài)時間注意力權(quán)重,提升識別準(zhǔn)確性。
本文致力于探索篩選長視頻關(guān)鍵視聽幀的方法,選擇更顯著表達動作類別的視聽信息。
KFIA-S 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,其中虛線框內(nèi)為關(guān)鍵幀篩選模塊,其余部分與IA-S[6]網(wǎng)絡(luò)相同。首先將長視頻剪切為一些定長視頻片段,視頻片段內(nèi),a為音頻的聲譜圖特征,v為首幀圖像特征。視聽兩路特征分別經(jīng)過關(guān)鍵幀篩選模塊(圖3 虛線內(nèi)),得到時間注意力加權(quán)的視聽特征vn′和an′。對于視覺模態(tài),關(guān)鍵幀篩選模塊重點關(guān)注包含動作背景、與動作相關(guān)的人和物等顯著表達動作類別的視頻幀,而抑制不包含或只包含一部分表達動作類別信息視覺特征的視頻幀,從而強調(diào)關(guān)鍵時間信息,減小冗余時間信息干擾;對于聽覺模態(tài),關(guān)鍵幀篩選模塊賦予動態(tài)信息豐富的聲譜圖特征高權(quán)重,賦予其他時間片段聲譜圖特征低權(quán)重,從而篩選出強烈表達動作類別的聽覺信息。
圖3 KFIA-S網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of KFIA-S network
經(jīng)過關(guān)鍵幀篩選模塊得到時間注意力加權(quán)的視聽特征后,同IA-S[6]網(wǎng)絡(luò),通過LSTM(Long Short-Term Memory)[17]隱藏層信息對時間進一步Attention,同時對視聽模態(tài)信息加權(quán)融合,篩選用于視頻分類的音像對。視聽特征經(jīng)視聽特征融合層γ(?)得到視聽融合特征,經(jīng)過LSTM 網(wǎng)絡(luò)得到隱藏層hn(n?[1,N],N為LSTM 模塊總數(shù)),通過二分類全連接層得到視聽模態(tài)權(quán)重sa和sv(sa+sv=1)和與音像對篩選相關(guān)的qa和qv。利用qa、qv和sa、sv,以及a和v分別通過Keya(·)和Keyv(·)得到的ka和kv,對音像對進行時序篩選,得到最終用于視頻動作識別的特征an和vn。音像對加權(quán)計算公式如下:
視聽特征時間加權(quán)計算公式如下:
再通過視聽模態(tài)權(quán)重sa和sv得到模態(tài)加權(quán)的視聽特征:
第n個LSTM 模塊的輸入為hn-1、an、vn,共經(jīng)過N個LSTM 模塊后的特征aN和vN進入融合層γ(?)融合視聽特征后,經(jīng)過softmax 層得到最終分類結(jié)果。
本節(jié)闡述本文提出的三種不同程度時間注意力的關(guān)鍵幀篩選模塊(如圖4 所示),其中“FC(Full Connection)+ReLU(Rectified Linear Unit)”即圖3 上方框內(nèi)網(wǎng)絡(luò)。
圖4 三種不同程度時間注意力的關(guān)鍵幀篩選模塊Fig.4 Three keyframe screening modules with different degrees of temporal attention
1)關(guān)鍵幀篩選層。
視聽特征提取網(wǎng)絡(luò)分別提取聽覺聲譜圖特征a和視覺首幀圖像特征v后,視聽特征分別經(jīng)過全連接層FC1和FC2,使視覺或聽覺模態(tài)每個時刻t的D維特征向量得到一個數(shù)值,作為該幀的時間Attention 權(quán)重ma和mv,表示該幀特征的關(guān)鍵程度。計算公式如下所示,其中wv,wa∈R1×D。
對于視覺模態(tài),關(guān)鍵幀信息包含動作發(fā)生時涉及的所有有關(guān)人和物的視覺信息,是視頻識別需要的視覺特征信息,全連接層經(jīng)過訓(xùn)練后賦予特征信息豐富的關(guān)鍵幀高權(quán)重,使得網(wǎng)絡(luò)更關(guān)注顯著視覺特征;對于聽覺模態(tài),由于視頻中的動作多發(fā)生在人類日常生活,大多為瞬時動作,只有動作發(fā)生的關(guān)鍵幾幀包含與動作高度相關(guān)的聲音(如球類運動球撞擊的聲音,喝啤酒時酒杯碰撞的聲音等),其余幀的聲音多為背景信息(如微風(fēng)、街道嘈雜聲、背景音樂等)。全連接層經(jīng)過訓(xùn)練后賦予動態(tài)信息豐富的關(guān)鍵幀(視頻小段的音頻特征經(jīng)過STFT 后的聲譜圖被視作聽覺模態(tài)“幀”)高權(quán)重,使得網(wǎng)絡(luò)更關(guān)注動態(tài)信息豐富的聽覺特征。
2)冗余幀抑制層。
在經(jīng)過關(guān)鍵幀篩選后,關(guān)鍵幀權(quán)重經(jīng)過ReLU 層得到ma′和mv′,得到抑制冗余幀特征后的時序Attention 權(quán)重。
ReLU 層可以使冗余幀權(quán)重清零,使冗余幀信息不干擾網(wǎng)絡(luò)對視頻動作進行識別,從而使網(wǎng)絡(luò)更偏向于利用更強烈表達動作類別的關(guān)鍵幀信息進行動作識別。少量的視覺背景信息對于動作識別有一定的幫助,如“健身”多發(fā)生于“健身房”,但視頻中的片段只有關(guān)鍵的一段或幾段與動作高度相關(guān),所包含的視覺背景信息足夠用于識別任務(wù),其余片段的視覺信息多為冗余信息,如“沖浪”動作,只有少部分海浪來襲時動作發(fā)生的視覺信息是關(guān)鍵的顯著視覺信息,一些在陸地上的攜帶沖浪板行走片段,雖然也包含“沖浪板”的視覺信息,但和動作發(fā)生時的“沖浪板”視覺信息重復(fù),且還有一些“陸地”信息的干擾,使網(wǎng)絡(luò)偏向于將視頻識別為“走路”。至于聽覺模態(tài),只有動作發(fā)生時間的聲音高度反映動作類別,其余多為背景嘈雜音,是干擾識別動作的信息。
3)時間注意力最大化。
本文后續(xù)實驗嘗試了將時序Attention 程度調(diào)整到最大,用Maxpool 層代替網(wǎng)絡(luò)中的全連接層和ReLU 層(如圖4 所示)。Maxpool 層只保留信息最豐富時刻的信息,完全抑制背景信息和冗余信息,最大化對關(guān)鍵幀的注意力,識別效果達到最佳,實驗結(jié)果在本文3.3 節(jié)中詳細討論。3 個模塊均通過點乘將時間注意力權(quán)重賦予視聽特征(圖4 中圓圈),把關(guān)鍵幀的高權(quán)重和冗余幀的低權(quán)重賦給整個視頻,區(qū)分關(guān)鍵幀和冗余幀信息,更有效地利用關(guān)鍵信息并抑制干擾分類的冗余背景信息。如圖5 所示,權(quán)重和原特征點乘,強調(diào)關(guān)鍵時段信息,抑制冗余時段信息。
圖5 時間注意力權(quán)重的作用Fig.5 Role of time attention weight
Loss 函數(shù)為分類任務(wù)常用的Cross Entropy loss,計算公式如下:
訓(xùn)練為提供長視頻標(biāo)簽的監(jiān)督學(xué)習(xí),其中y為類別標(biāo)簽,為網(wǎng)絡(luò)預(yù)測類別。測試階段即為視頻動作識別過程,不提供視頻標(biāo)簽,給出未裁剪的視頻,經(jīng)過訓(xùn)練好的視頻動作識別網(wǎng)絡(luò)得到視頻類別。
本章首先介紹了ActivityNet 數(shù)據(jù)集和實驗設(shè)置細節(jié),然后在ActivityNet 數(shù)據(jù)集上對不同程度時序Attention 實驗作了分析,最后和其他視聽聯(lián)合學(xué)習(xí)動作識別算法作了對比。
ActivityNet[7]是一個大規(guī)模視頻動作識別數(shù)據(jù)集,視頻源自于互聯(lián)網(wǎng)視頻門戶Youtube,該數(shù)據(jù)集中的視頻多為用戶上傳到互聯(lián)網(wǎng)社交平臺的人類日常活動。目前ActivityNet數(shù)據(jù)集的版本為1.3,包括20 000 個Youtube 視頻(訓(xùn)練集包含約10 000 個視頻,驗證集和測試集各包含約5 000 個視頻),共計約700 h 的視頻,平均每個視頻上有1.5 個動作案例,涵蓋了共200 個動作類別。與其他視頻動作識別數(shù)據(jù)集相比,ActivityNet 具有視頻數(shù)量多、動作類別全面的特點,本文選用該數(shù)據(jù)集驗證算法有效性。
本文實驗基于Pytorch 深度學(xué)習(xí)框架。本文的動作識別針對整個長視頻,將長視頻無重疊剪切為一些定長片段,并將KFIA-S 網(wǎng)絡(luò)對這些視頻片段的動作識別結(jié)果取均值,作為整個長視頻的類別。首先,將長視頻V∈RL×W×H剪切為定長16幀的片段V1∈RT×16×W×H,每個片段取首幀V′∈RT×W×H,音頻片段A∈RT×16經(jīng)過STFT得到聲譜圖A′∈RT×w×h,L為長視頻總時長,T為剪切片段總數(shù),l=L/16,幀數(shù)不足補全零幀。V′t和A′t(t∈[1,T])指代表單個剪切片段的音像對(如圖1),即長度為l的視頻剪段內(nèi)的首幀圖像和音頻STFT(原理如圖2)后的聲譜圖。視聽特征提取網(wǎng)絡(luò)以及視聽融合層由IMGAUD2VID[6]網(wǎng)絡(luò)預(yù)訓(xùn)練得到。利用視聽特征提取網(wǎng)絡(luò)分別提取視聽特征a∈RT×D和v∈RT×D。視頻剪端長度l=16,長視頻長度L不固定,每個長視頻裁剪出的剪段個數(shù)T由L決定,不足16 幀時補0。本文中對音像對的特征提取延續(xù)了文獻[6]中teacher-student 訓(xùn)練策略,分別得到用于提取視頻剪段中首幀圖像特征的Image-Net、用于提取視頻剪段中音頻聲譜圖特征的Audio-Net 以及視聽特征融合層γ(·)。Image-Net 和Audio-Net 均采用ResNet-18,視聽融合層γ(·)為兩層全連接層。用訓(xùn)練好的網(wǎng)絡(luò)提取的分別提取視聽特征,維度D=512,batch_size=256。LSTM 模塊隱藏層維度為1 024,LSTM 層數(shù)N=10。
圖2 音像對概念Fig.2 Concept of audio-visual pair
本節(jié)對2.2 節(jié)中提出的關(guān)鍵幀篩選網(wǎng)絡(luò)在動作識別任務(wù)中起到的作用進行了實驗驗證。
表1 列舉了本文方法和其他方法的結(jié)果對比。單一LSTM 層網(wǎng)絡(luò)的識別精度表現(xiàn)較差,因為隨著時間增加,LSTM 會遺忘一些過去的信息,對當(dāng)前時刻信息的關(guān)注大于對過去時刻信息的關(guān)注,一定程度丟失動作發(fā)生時的重要信息;SCSampler(Sampling Salient Clips)[18]和IA-S[6]建模時序信息篩選重要音像對特征用于分類,然而這兩種方法在建模每個音像對權(quán)重時所用特征沒有經(jīng)過關(guān)鍵幀篩選;本文方法延續(xù)了IA-S 網(wǎng)絡(luò)的音像對篩選機制,并添加時序Attention 機制對獲得LSTM 隱藏層的視聽特征,通過線性層獲取每個時刻的權(quán)重,憑借時間權(quán)重對視聽信息進行關(guān)鍵幀篩選,并添加ReLU 層對冗余幀信息抑制,得到包含更顯著動作類別信息的LSTM 隱藏層,從而得到更合理的視聽模態(tài)權(quán)重和音像對權(quán)重,提升網(wǎng)絡(luò)動作識別能力。
表1 幾種方法在ActivityNet數(shù)據(jù)集的準(zhǔn)確率對比 單位:%Tab.1 Accuracy comparison of several methods on ActivityNet unit:%
表2 中列舉了添加不同關(guān)鍵幀篩選模塊對網(wǎng)絡(luò)識別能力的影響,實驗結(jié)果表明,在采用Maxpool 時,最大程度關(guān)注關(guān)鍵幀信息,對冗余幀抑制,識別效果達到最佳。在IA-S 基礎(chǔ)上添加全連接層得到各視頻段視聽特征的權(quán)重,篩選關(guān)鍵幀信息,使網(wǎng)絡(luò)的動作識別能力有一定提升;添加用于抑制冗余幀權(quán)重的ReLU 層,減少了冗余幀信息對動作識別的干擾,提升了識別精度。最后本文嘗試將對關(guān)鍵幀的時間注意力放到最大,完全抑制冗余幀信息。實驗結(jié)果表明Maxpool層使識別精度有更大的提升,進一步說明了在視頻動作識別任務(wù)中,關(guān)鍵幀攜帶的顯著動作類別信息在區(qū)分動作類別時起到的重要作用。
表2 不同程度時間注意力模塊的準(zhǔn)確率對比 單位:%Tab.2 Accuracy comparison of different degrees of temporal attention modules unit:%
本文致力于探索視聽聯(lián)合學(xué)習(xí)的動作識別方法,提出關(guān)鍵幀篩選模塊,使動作識別網(wǎng)絡(luò)重點關(guān)注關(guān)鍵視聽幀信息,抑制冗余視聽幀信息,得到更顯著的動作信息,學(xué)習(xí)到表征能力更強的特征,并用于篩選更適用于分類的音像對,從實驗結(jié)果來看,采用Maxpool 最大限度提升對關(guān)鍵幀信息注意力程度的識別效果較好,達到了SOTA(State-Of-The-Art)動作識別精度,證明了本文方法的有效性。