孔 言,梁 鴻,張 千
(中國石油大學(華東)計算機與通信工程學院,青島 266580)
人類行為識別作為計算機視覺中的一個基本問題,現(xiàn)在已經(jīng)引起了業(yè)內(nèi)的廣泛關注.視頻中的行為識別是高級別的視頻理解任務中的一個關鍵問題,雖然深度卷積神經(jīng)網(wǎng)絡(CNNs)憑借其強大的性能已經(jīng)在圖像識別任務中取得了巨大的成功[1-4],但是在行為識別任務中還沒有取得類似于圖像識別那樣的進展.在某種程度上,視頻中的行為識別與靜態(tài)圖像中的對象識別有著相似的問題,這兩項任務都必須處理顯著的類內(nèi)變化、背景雜亂和遮擋[5].但是,兩者之間存在的明顯差異是視頻比圖像多了一項額外的(也是重要的)時間線索,它可以幫助獲得運動信息,憑借著運動信息可以可靠的識別多種行為[6].最近用于動作識別的視頻表示主要基于兩種不同的CNN 架構:(1)3D時空卷積[7,8];(2)雙流架構[6].雖然二者都在行為識別中取得了很好的表現(xiàn),但是雙流結構憑借其容易利用新的超深體系結構和靜態(tài)圖像分類的預訓練模型[9],性能通常優(yōu)于3D時空卷積.
然而,行為識別中面臨的主要挑戰(zhàn)仍然是缺乏視頻表示方式.對于人類而言,可以很容易的將目光聚焦于視頻里圖像的突出區(qū)域,關注所感興趣的部分.但是,現(xiàn)有的行為識別方法是對視頻切分的每個短片段,平均地匯集該片段所有的局部特征形成全局特征,針對每個片段的全局特征進行行為類別分類.采用平均匯聚的方式并不是一個適當?shù)姆绞剑瑢τ诙唐沃械拿繋瑘D像而言,能夠提供有益的特征的并不是其中的每一個像素或每一塊區(qū)域,對于某些區(qū)域應該重點關注(例如,人類運動,人機交互),另外的一些區(qū)域(例如,背景,遮擋)應當有意識的忽略.
受到上述啟發(fā),借助于注意力機制來突出顯示視頻中的顯著區(qū)域.為此,本文提出了一種基于視覺注意力的深度卷積神經(jīng)網(wǎng)絡,它將注意力機制融入到雙流卷積神經(jīng)網(wǎng)絡中.注意力機制的特性使得我們可以在沒有監(jiān)督的情況下對每幀圖像進行動作的區(qū)域定位,對每個區(qū)域空間賦予權重,然后根據(jù)加權求和將局部空間特征聚合起來.這種不平凡的聯(lián)合方式簡單而有效,可以容易地解決視頻表示不突出的問題.為了驗證這一說法,在油田現(xiàn)場行為數(shù)據(jù)集上進行了一系列的基于視頻的行為識別實驗,所展現(xiàn)出來的結果表明,基于視覺注意力深度卷積網(wǎng)絡模型是行之有效的.
本文的其余內(nèi)容如下:第2 節(jié)討論了相關的工作,第3 節(jié)描述了視覺注意力深度卷積網(wǎng)絡,第4 節(jié)給出了實驗的細節(jié),第5 節(jié)總結了本文的工作.
行為識別作為視覺應用中的一項熱門話題,它的研究進展很大程度上是由于在圖像識別方法的進步所推動的.行為識別的目的是識別每個視頻中的單個或多個動作,通常被描述為一個簡單的分類問題.在CNNs 還未取得如此巨大成功之前,Laptev I 等人提出利用時空特征將空間金字塔推廣到時空域的方法,檢測稀疏時空感興趣點并使用局部時空特征來進行描述(包括HOG 和HOF),將其編碼入特征包(BoF)并結合SVM 進行動作分類[10].隨后的工作中,Wang H 等人拓展了四種特征描述符(H O G 3 D、H O G/H O F、Cuboids、ESURF)進行局部時空特征的描述[11],實驗表明局部特征的密集采樣的方式比稀疏興趣點檢測表現(xiàn)出更優(yōu)秀的性能.隨后,Wang H 等人又提出了一種密集軌跡算法進行行為識別,通過從圖像中采樣密集點并根據(jù)密集光流場的位移信息進行跟蹤,這樣密集的軌跡可以覆蓋視頻中的運動信息[12].基于改進的稠密軌跡算法[13]通過消除背景軌跡和扭曲光流獲得了更加突出的表現(xiàn).
隨著深度學習的興起,具有強大性能的卷積神經(jīng)網(wǎng)絡已經(jīng)在行為識別領域進行了廣泛應用.Karpathy A 等人在Sports-1M 數(shù)據(jù)集上使用深層卷積神經(jīng)網(wǎng)絡進行訓練,并對大規(guī)模行為分類進行了實證評估[14].Simonyan K 和Zisserman A 提出了雙流架構,輸入一段視頻分別獲得視頻圖像信息和密集光流信息,為兩個流各自訓練一個CNNs 進行動作類別判斷,最后對兩分支動作分類得分進行融合[6].Feichtenhofer C 等人在雙流架構的基礎上改進了融合的方式,他們將原本在Softmax 層的融合提前到卷積層,在最后一個卷積層對空間網(wǎng)和時態(tài)網(wǎng)(spatial and temporal)進行融合進一步提高了性能[15].Ng 等人同樣是對雙流架構的融合方式上進行了研究,他們利用LSTM 對于時序信息具有強大的記憶功能這一特性,將時態(tài)網(wǎng)進行了改進[16].Wang LM 等人針對視頻的特性,提出了一種基于長范圍時間結構建模的網(wǎng)絡,結合了稀疏時間采樣策略和視頻級別監(jiān)督方式對整個視頻段進行學習時的有效和高效[17].Tran D 等人提出的3D 卷積神經(jīng)網(wǎng)絡(C3D)是并列于雙流架構的另一種處理視頻級別的動作分類的主流方法,由于2D 卷積不能很好的捕獲視頻中的時序信息,因此提出的3D 卷積將原來的卷積層和池化層擴展為3D 卷積和3D 池化.通過3D 卷積可以直接處理視頻[7].Carreira J 等人提出了一種新的結合3D 卷積和雙流網(wǎng)絡的模型,稱之為I3D,該模型可以從視頻中學習無縫空間-時態(tài)特征提取器.而且I3D模型是一種通用的視頻表示的學習方法[18].
人類的視覺注意一直以來都是計算機視覺界所關注的問題.Hou XD 等人基于連續(xù)的特征抽樣提出了一種注意力模型,對于顯著性特征使用能量概念進行解釋.另外,該模型可實現(xiàn)在靜態(tài)場景和動態(tài)場景之間注意力的選擇性[19].Mathe S 等人針對視頻中的動作識別進行了一系列的研究實驗,主要是人類視覺注意力和計算機視覺中的關聯(lián)關系[20].與上述工作相比,本文提出的基于視覺注意力的深度卷積網(wǎng)絡將人類的注意力機制融入到現(xiàn)存的深層CNNs中,通過對模型結構輕量級的修改,使得處理后的視頻表示特征具有了局部顯著性.
在本節(jié)中,將介紹視覺注意力深度卷積網(wǎng)絡,即AttConv-net.最近的從視頻中的行為識別的一種標準做法是使用多種信息流(RGB 和光流)的融合,這樣的方式可以獲得顯著的性能[6,15,21].在此之前,先介紹網(wǎng)絡的基礎架構——時態(tài)段網(wǎng)絡[17].最后,對注意力機制進行了描述.
在時態(tài)段網(wǎng)絡(Temporal Segment Networks,TSN)提出之前的雙流卷積網(wǎng)絡無法對遠距離時間結構的視頻數(shù)據(jù)進行建模,只能處理空間網(wǎng)絡中的單個幀或是時態(tài)網(wǎng)絡單個棧,不能有效地獲取時序中上下內(nèi)容的聯(lián)系.時態(tài)段網(wǎng)絡通過一種稀疏采樣的方式,從整個視頻中獲取一系列短片段,這樣可以整合整個視頻的視覺信息進行視頻級別的分類.每個片段都將給出其本身對于行為類別的初步預測,從這些片段的“共識”來得到視頻級別的預測結果[17].
具體來說,給定一段視頻V,將其按相等間隔分為K段{S1,S2,···,Sk}.然后,時態(tài)段網(wǎng)絡按照如下方式對一系列短片段進行建模:
其中,(T1,T2,···,Tk)表示片段序列,每個片段Tk從它對應的段Sk中隨機采樣得到,F(xiàn)(Tk;W)函數(shù)代表采用W作為參數(shù)的卷積網(wǎng)絡作用于短片段Tk,G()代表段共識函數(shù),結合多個短片段的類別得分輸出以獲得它們之間關于類別判斷的共識,函數(shù)H()會根據(jù)這個共識預測整段視頻屬于每個行為類別的概率.另外,關于共識的損失函數(shù)G的形式為:
其中,C是行為類別的數(shù)量,yi是關于i類的真實標簽.
AttConv-net 分別對雙流中的空間網(wǎng)和時態(tài)網(wǎng)所提取的特征分配較大的權重,使其容易地定位到感興趣地區(qū)域,從而可以更準確進行分類.該結構如圖1所示,采用雙流模型基礎架構,分為空間流網(wǎng)絡和時態(tài)流網(wǎng)絡.本文的AttConv-net 是在TSN的基礎上進行了修改,將注意力模型分別連接到空間網(wǎng)和時態(tài)網(wǎng)的最后一個卷積層所提取出的特征上,之后將分配了權重的特征送入全連接層以及Softmax 進行雙流網(wǎng)絡各自的類別概率的預測,并且在評判最終視頻所屬類別之前會將空間流和時態(tài)流的網(wǎng)絡結果進行合并.給定一個完整視頻V,將其處理成一系列的片段Si(i=1,2,···k),k是一整個視頻均等分的數(shù)量,每個片段包含一幀RGB 圖和兩幀光流圖.卷積神經(jīng)網(wǎng)絡CNNs 分別提取RGB 圖的全局視覺特征FRGB=(F1,F2,F3,···,FL)和光流圖的全局視覺特征FOF=(F1,F2,F3, ···,FL),L表示每張圖像劃分為了L塊區(qū)域,每個區(qū)域都是一個m維的向量.融入注意力機制處理后得到特征FattRGB和FattOF,之后便會得到每個片段Si的雙流網(wǎng)絡中的所屬類別得分CS i和CTi,經(jīng)過共識函數(shù)G()后將雙流結果送入Softmax 函數(shù)算概率,進而得到一個完整視頻的分類結果W.其中的工作流程可以概括為下列共識:
式(3)和式(4)分別是用注意力模型對特征FRGB和FOF進行區(qū)域空間權重分配所得到的注意力特征FattRGB和FattOF,式(5)和式(6)分別是用共識函數(shù)分別對空間流和時態(tài)流中所有片段的屬于同一類別的得分做個求和均值得到gS和gT,式(7)是融合雙流網(wǎng)絡的得分所獲得的整個視頻的分類結果W.
圖1 AttConv-net模型結構圖
AttConv-net中的注意力模型將從最后一個卷積層輸出的特征向量附加一個介于0 和1 之間的權重,以此聚焦于圖像中的顯著區(qū)域,該模型結構如圖2所示,將視頻片段輸入到網(wǎng)絡中,空間流和時態(tài)流分別進行各自的卷積,圖中的虛框部分表示空間流和時態(tài)流進行相同的Attention處理,輸出的分數(shù)是兩流網(wǎng)絡的單獨得分.卷積神經(jīng)網(wǎng)絡提取的空間流特征和時態(tài)流特征都是一個L×m維的向量,即圖像有L個區(qū)域,每個區(qū)域用m維的特征向量表示:
其中,Rm表示m維的特征表示,F(xiàn)i表示第i個圖像區(qū)域,F(xiàn)t表示以時刻t為中心所代表的視頻段的特征表示.對于每個圖像區(qū)域,注意力函數(shù)Oatt根據(jù)特征向量和t生成對應視頻采樣片段的注意力權重:
歸一化處理:
經(jīng)過注意力模型處理后的特征FattRGB/OF:
AttConv-net 之后將FattRGB/OF送入全連接層.融入注意力機制的網(wǎng)絡仍然是可以通過標準的反向傳播來優(yōu)化學習.
圖2 AttConv-net網(wǎng)絡結構圖
在本節(jié)中,首先介紹了自建的油田視頻數(shù)據(jù)集,接下來評估AttConv-net 在自建數(shù)據(jù)集以及HMDB51 上的性能,在此之外本文還對行為識別任務中所取得良好表現(xiàn)的時態(tài)段網(wǎng)絡進行有效性實驗,即AttConvnet 改進前的基礎網(wǎng)絡TSN.最后,實驗結果展現(xiàn)出與一些方法進行了比較,并且可視化了注意力聚焦圖.
油田人員行為數(shù)據(jù)集(Oilfield-7)包括7個動作類別:Pump Clean,Rig Walk,Room Operate,Site Walk,Room Stand,Tank Construction,Tank Walk.Oilfield-7 數(shù)據(jù)集包含剪輯好的視頻200個,每個視頻平均300 幀.我們按照數(shù)據(jù)集的標準評估準則[22],將數(shù)據(jù)劃分為三種不同的訓練和測試數(shù)據(jù),分類表現(xiàn)是按照三種劃分數(shù)據(jù)多產(chǎn)生的平均識別精度.另外,數(shù)據(jù)集在進行剪輯時,確保一個視頻中只出現(xiàn)一種行為,對于出現(xiàn)多種行為的視頻中予以舍棄.
時態(tài)段網(wǎng)絡[17]是最近用于從視頻中進行行為識別的表現(xiàn)最為突出的一個雙流模型,它在兩個大型的行為數(shù)據(jù)集HMDB51[23]和UCF101[24]上分別獲得69.4%和93.5%的準確率.在本文實驗中,選用時態(tài)段網(wǎng)絡在Oilfield-7 數(shù)據(jù)集上進行訓練去提取視頻段的特征.對于空間網(wǎng)和時態(tài)網(wǎng),選用的深層卷積網(wǎng)絡結構是BN-Inception[25],這與時態(tài)段網(wǎng)絡中的設置一致[17].由于用于行為是別的數(shù)據(jù)集數(shù)量較少的原因,存在著過擬合的風險,為此進行了數(shù)據(jù)增強.調(diào)整輸入的R B G 圖和光流圖為256×340,并且從{256,224,192,168}集合中進行寬度和高度的隨機選擇裁剪,之后統(tǒng)一調(diào)整為224×224作為網(wǎng)絡的輸入.其中的光流圖是采用TV-L1 光流算法得到[26].根據(jù)先前的工作[6,21],測試時從每個視頻中選擇25 幀RGB 圖或光流棧,對于每個幀/棧,通過裁剪四個角和一個中心的方式進行數(shù)據(jù)增強.本文的網(wǎng)絡參數(shù)的學習使用小批量隨機梯度下降算法進行,用于特征提取的深層卷積神經(jīng)網(wǎng)絡是在ImageNet[27]上事先預訓練的.網(wǎng)絡訓練過程中的學習率為10-3,輟學率為0.8,在視頻類別最終得分進入融合時,空間流的權重設置為1,時態(tài)流的權重設置為0.5.
實驗中通過與AttConv-net的兩種變體來進行比較,一個是基線深層卷積神經(jīng)網(wǎng)絡BN-Inception,不包含注意力機制和TSN 結構;另一個是不包含注意力機制的TSN_BN-Inception.如表1所示,本文方法表現(xiàn)出了較好的優(yōu)越性.引入注意力去處理遠距離時間結構的視頻時,對于片段圖像的局部區(qū)域可以獲得更高的關注度,因此視頻片段的特征表示更能反映出視頻的所屬類別.
表1 在Oilfield-7 數(shù)據(jù)集(Split1)上三種模型性能比較
針對3 種劃分數(shù)據(jù)分別進行實驗,每一部分所展示出的是融合了兩流的準確率.之后,最終的比較結果是將3個部分取得平均準確率,所展示的結果見表2.AttConv-net 與另外兩個變體方法比較,表現(xiàn)出了最優(yōu)的性能.與BN-Inception 相比,平均準確率提高了2.3%,與BN-Inception_TSN 相比,提高了1.4%.
表2 在Oilfield-7 數(shù)據(jù)集上三種模型性能比較
進一步的為了驗證本文方法的優(yōu)越性,用數(shù)據(jù)集HMDB51[23]來測試其性能.HMDB51 數(shù)據(jù)集共有6849個視頻段包含51 類人體行為類別,每個類別含有101個視頻段且都經(jīng)過人為標注.同樣的也是切分為3 種不同的訓練和測試數(shù)據(jù),分類表現(xiàn)是按照3 種劃分數(shù)據(jù)多產(chǎn)生的平均識別精度.此次實驗中所設置的相關參數(shù)和前文實驗細節(jié)中的一樣,所展示結果見表3.AttConv-net 與另外兩個變體方法比較,表現(xiàn)出了最優(yōu)的性能.與BN-Inception 相比,平均準確率提高了1.3%,與BN-Inception_TSN 相比,提高了0.4%.
表3 在HMDB5 數(shù)據(jù)集(Split1)上三種模型性能比較
在Oilfield-7 數(shù)據(jù)集中,使用3個模型進行了測試并使用mAP 評價指標,結果如表4所示.AttConvnet 與另外兩種相比,在mAP中取得了最好的表現(xiàn).但是,在“Room Operate”和“Tank Construction”行為類別中,BN-Inception_TSN 展現(xiàn)出的結果優(yōu)于AttConv-net,因為這兩個類別中的人類行為表現(xiàn)的不為明顯,注意力更多地聚集在了背景當中,而丟失了對動作的關注,所帶來的負面效果使得準確率降低.為了更好地理解網(wǎng)絡在學習過程中對圖像局部區(qū)域的顯著性,本文可視化了部分注意力圖,如圖3所示.圖中第1 列代表的是從視頻中提取的原始圖像,第2 列是經(jīng)過注意力關注后所得到最精準的效果,第3 列代表了注意力關注時的最寬泛的效果.例如,對于Tank Walk(第4 行),可以關注并將焦點縮小到場地中行走的人,但是對于Pump Clean(第2 行),由于數(shù)據(jù)集數(shù)量的問題,進而產(chǎn)生的過擬合的結果,從而導致圖像無法精準聚焦而產(chǎn)生偏離.
本文提出了基于視覺注意力的深度卷積的人體行為識別方法,稱之為AttConv-net.該方法利用注意力機制在圖像中對于全局信息有了顯著性理解,聚焦于局部區(qū)域獲取信息,更加準確而高效的實現(xiàn)視頻分類.在自建的Oilfield-7 數(shù)據(jù)集上進行的實驗表明,AttConvnet 相較于基礎深層卷積網(wǎng)絡BN-inception 和時態(tài)段網(wǎng)絡TSN 獲得了更高的行為識別精度,證明了注意力的有效性.為了進一步證實本文方法性能的優(yōu)勢,使用數(shù)據(jù)集HMDB51 來驗證,AttConv-net 也取得了較好的性能.但是其中存在些許不足,在時態(tài)流的網(wǎng)絡訓練過程中該方法所得到的精度不高,這由于Oilfield-7 數(shù)據(jù)集中的人類的動作幅度小,提取的光流圖中的信息丟失了大部分運動信息,從而造成了較低的識別精度.AttConv-net中兩流卷積網(wǎng)絡在進行特征融合時是采用共識函數(shù)去完成的,視頻中的些許片段存在噪聲標簽,從而影響視頻分類.接下來的工作將探索一種片段特征聚合的方式來替代共識方式,進一步的研究其對行為識別任務的影響.
表4 在Oilfield-7 數(shù)據(jù)集上3 種模型的AP 評價指標比較(第1 行代表7 種類別)
圖3 Oilfield-7 數(shù)據(jù)集部分行為注意力變化的可視化圖像