亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機制的群組行為識別方法

        2019-06-15 02:13:26王傳旭龔玉婷
        數據采集與處理 2019年3期
        關鍵詞:單人群組特征向量

        王傳旭 龔玉婷

        (青島科技大學信息科學技術學院,青島,266100)

        引 言

        人體行為識別發(fā)展至今已經成為當今計算機視覺領域研究的一個熱點,在智能監(jiān)控、虛擬現實和視頻檢索等方面有著廣泛的應用前景和巨大的經濟價值。簡單的行為識別即單人動作的分類[1],對于給定的一段視頻,只需將其中的每個人的動作準確地分類到已知的動作類別中,然而這種局限于單人活動的行為識別不足以滿足真實的社會需要。較復雜的人體行為識別是給定的視頻中不止包含一個動作分類,而是具有多個目標(人)多個動作類別,多個目標可能在同時做相同的動作,或者多個目標正在共同完成同一個復雜行為,將這些由多人完成的相同動作或者共同完成的行為稱為“群組行為”[2]。

        群組行為識別近年來吸引了許多研究者的目光。傳統的經典方法有方向梯度直方圖(Histogram of oriented gradient,HOG)結合使用支持向量機(Support vector machine,SVM)(HOG+SVM)、尺度不變特征轉換(Scale invariant feature tvansform,SIFT)結合詞袋模型(Bog of words,BOW)(SIFT+BOW)等方法進行行為識別。Lan等[3]和Ramanathan等[4]分別在全監(jiān)督和弱監(jiān)督的框架下,探討社會角色的概念,以及單人在群組背景下的預測行為,建立了結構化模型來表示單人在空間以及時間區(qū)域的信息,屬于淺層學習,對特征的刻畫能力有限。并且這些模型都是基于手工制作特征的概率或者判別模型來識別群組行為,有很大的局限性,需要人力持續(xù)調整模型參數,不斷迭代才能達到比較好的效果,開發(fā)周期長。針對以上問題,本文模型則使用深度學習網絡來提取圖像特征,使用時空特征更具代表性,模型更具泛化性,并且在使用深度學習網絡的同類方法[5-7]中性能表現更佳。

        Chio和Savarese[8]同時跟蹤多個人,并在一個聯合框架中識別出單人行為、交互行為和群組行為。在文獻[9]中,使用隨機森林結構從輸入視頻中提取時空區(qū)域的特征,之后用于三維馬爾科夫隨機場,以定位場景中的群組行為。然而,上述方法他們并沒有考慮群組行為中關鍵人物對群組行為識別的重要性。確定參與活動的關鍵人物、排除其他不相關人物是極其重要的,同時也是區(qū)分單人視頻和多人視頻中行為識別的關鍵之處。在視覺認知文獻[10]中已經指出,人類不會把注意力集中在視覺范圍內的整個場景上,相反,他們依次關注場景的不同部分以提取相關重要信息。而大多數傳統的群組行為識別算法不采用注意力機制,對圖像或者視頻的重要部分無法給予關注。隨著近年來深度神經網絡的興起,基于注意力的模型已經被證明在幾個具有挑戰(zhàn)性的任務上取得了良好的結果,包括圖像識別、字幕生成[11]以及機器翻譯[12]等。因此,本文提出一種基于注意力機制的群組行為識別模型,動態(tài)地對卷積特征進行池化,使用“循環(huán)注意力”在活動的不同階段辨認出關鍵人物,為場景中的人物分配不同的注意力權重,最終識別其中的單人行為和群組行為類別。實驗結果表明,此模型會更傾向于識別視頻幀中的重要元素,為使用注意力機制進行群組行為識別提供了更令人信服的結果。

        1 基于注意力機制的群組行為識別模型

        1.1 模型結構

        本文提出基于注意力機制的神經網絡處理模型,如圖1所示,其中軟注意力機制即圖1(a)所示,卷積神經網絡(Convolution neural network,CNN)將視頻幀作為輸入并得到一個特征立方體,用符號表示為Ft。然后根據特征立方體Ft與lt計算得到ft。其中l(wèi)t是圖1(b)循環(huán)模型中對特征立方體進行計算的輸出層函數(Location softmax)的輸出。圖1(b)中,在每個時間步t,循環(huán)網絡將圖1(a)中生成的ft作為輸入,之后通過3層長短期記憶網絡(Long short-term memory,LSTM)來預測群組行為類別標簽yt和下一個Location probabilitylt+1(即t+1時刻Location softmax在特征區(qū)域的得分)。LSTM網絡的具體細節(jié)會在1.3節(jié)進一步介紹。

        1.2 特征提取

        使用在ImageNet數據集上訓練的CNN,將視頻幀作為輸入,得到大小為K×N×D的特征立方體,用符號表示為Ft,因此在每一時間步t,可以提取K個N×D的特征向量(K代表圖像中的人數,N×D是每個人的特征維度),將這些特征向量稱為特征立方體的特征片,即有Ft=[Ft,1,Ft,2,…,Ft,i,…,Ft,k]。

        圖1 基于注意力機制的模型結構圖Fig.1 Model structure based on attention mechanism

        其中,Ft,i表示第t幀第i個人的特征向量片。每個特征片映射到輸入圖像中,即每個人的圖像區(qū)域(Location/patch),模型選擇將注意力集中在這K個區(qū)域上。如圖1(a)所示,該圖像經過CNN之后,會得到4個人的特征片組成的特征立方體,最終群組行為類別的判斷模型則會選擇將注意力集中在這4個人所在區(qū)域上。

        1.3 LSTM和特征提取

        本文中使用的LSTM網絡[13]的原理為

        式中:it是輸入門,ft是遺忘門,ot是輸出門,gt的計算如式(1)所示,ct是細胞單元,ht是隱藏狀態(tài),xt表示LSTM網絡中每個時間步的輸入。M:Ra→Rb是一個由可訓練參數組成的仿射變換,其中a=d+D,b=4d,d代表it,ft,ot,gt,ct和ht的維度。

        針對圖1(b)Recurrent model,其注意力機制的作用過程描述如下:

        首先,經過特征提取得到的K個N×D的特征向量,每個特征向量映射到輸入幀中,即K個Location/patch,之后將特征向量送入Location softmax為K個Location打分。Location softmax的定義為

        式中:Wi是映射到Location softmax的第i個人的權重,Lt是取值范圍為(1,…,K)的隨機變量,這里的lt,i可以看做是模型認為第i個人的相應映射區(qū)域(Location/patch)對輸入幀的重要程度(Attention probability),即Location得分的高低代表著Attention對該位置人物關注的強弱;ht-1為上一刻的隱含狀態(tài)。

        其次,學習到權重之后,對不同的Location進行計算打分(Score),本文的操作是對特征和Score求期望,即Soft attention mechanism[14]通過對不同區(qū)域的特征向量進行求期望來計算下一時間步的輸入期望值,即有

        式中:Ft是特征立方體,Ft,i是第t幀圖像特征立方體中的第i個人的特征向量;lt,i即式(4)中的Location得分(得分的高低代表著Attention對該位置人物關注的強弱);ft則由每一個Location,共有K個,對應位置的特征向量Ft,i和Location scorelt,i相乘然后求和得到。例如圖1(a)中,視頻幀的群組行為標簽為“Talking”,4個人的特征向量Ft分別與其對應的Location得分lt相乘求和得到ft,其中紅綠藍黃4種顏色的長方體分別對應幀中的4個人的Location得分,長方體體積大小表示得分的高低,可以看出圖中黃色對應的人物并沒有參與到“Talking”中,所以最終模型對其的打分最低,Attention對該位置人物關注的最弱,反映到圖中即黃色長方體體積最小。

        然后,將期望ft作為輸入送入3層的LSTM,如圖1(b),之后經過tanh激活函數附加隱含層的輸出,作為最終的群組行為標簽yt(即在Label類別上的Softmax得分);同時將不經過tanh激活函數的輸出,作為下一時刻的lt+1(即下一時刻在k個Location上的Softmax得分),之后lt+1與[Ft+1]相乘作為下一時刻LSTM的輸入ft+1,如此循環(huán)傳遞,形成Recurrent model使用注意力機制選擇群組行為中重要人物的過程。

        本文中第1個時刻的Cell stateC0和Hidden stateH0使用以下的初始化策略[15],以加速收斂,有

        式中:finit,c和finit,h是2個多層感知器,T是模型中的時間步數。這些值用于計算初始輸入f1的第1個Location softmaxl1。在實驗中,使用多層的LSTM,如圖1(b)所示。

        1.4 訓 練

        本文模型中,卷積神經網絡的主要作用是學習圖像中每個人物的特征表示。注意力機制模塊利用LSTM的屬性,并將其作為注意力機制的基礎單位進行注意力的選擇,使模型分配不同的注意力權重給圖像中不同的人物區(qū)域。因此,注意力模塊的權重、整個網絡的輸入數據以及網絡的中間輸出數據相互作用構成整個模型。訓練模型時,需要聯合訓練卷積神經網絡以及注意力機制模塊,從而獲得最高的識別精確度。

        本文使用交叉熵損失以及雙重隨機懲罰[11]對模型進行訓練,有

        式中:yt,i代表真實的標簽;代表模型預測的群組行為類的概率;T是時間步總數;C是輸出類數;λ是注意力懲罰系數;γ是權重衰減系數;θ代表所有的模型參數。第1項是帶有時間維的交叉熵損失函數。第2項是注意力正則化項,著重于Location softmax中的Score的注意力懲罰,對Location softmax施加一個額外的約束,,即在總時間步T內,圖像中所有Location的Score之和為1,也就是Attention對圖片中所有人物區(qū)域的關注權重概率之和為1,使得模型在某時間點查看幀中每個人的區(qū)域,鼓勵模型同等重視圖像中的每個人;對于第2項的系數λ,實驗抽取了不同取值的λ,分析其對最終識別率的影響,結果表明Attention更能關注圖像中的關鍵人物區(qū)域。第3項是模型參數的正則項,防止整個模型過擬合。

        2 實驗結果與分析

        為了驗證本文算法的識別精度,選用CAD和CAE作為測試數據集進行實驗。首先,簡單介紹這兩個群組行為數據集;然后闡述訓練過程中參數的設置以及分析;最后將本文算法以及其他方法的實驗結果進行比較和數據分析。

        2.1 數據集

        實驗中使用的第一個數據集是群體活動數據集(Collective activity dataset,CAD),該數據集是使用低分辨率的手持攝像機獲取的44個視頻片段,此數據集有5種行為標簽:Crossing,Queuing,Walking,Talking和Waiting;8種姿勢標簽(本文中并未用到);以及5種群組行為標簽即每幀活動中k個人共同完成的場景標簽:Crossing,Queuing,Walking,Talking和Waiting。每個人都有1個行為標簽,每幀圖像都有1個群組行為標簽(場景標簽)。

        實驗中使用的另一個數據集是群體活動擴展數據集(Collective activity extended dataset,CAE),該數據集共有6個行為標簽,分別是Crossing,Queuing,Dancing,Talking,Waiting和Jogging,以及6種群組行為標簽,即每幀活動中k個人共同完成的場景標簽:Crossing,Queuing,Dancing,Talking,Waiting和Jogging,同樣每個人都有1個行為標簽,每幀圖像都有一個場景標簽。

        本文使用數據集中的所有視頻幀,隨機抽取其中的60%用于訓練,20%用于驗證,20%用于測試。將視頻幀輸入到ImageNet數據集上訓練的VGG-16中,并對其進行了微調,每張圖像得到的k×1×3 000輸出,被用作模型的輸入。

        2.2 參數設置與分析

        實驗中,使用交叉驗證訓練模型以及其他超參數。對于所有數據集,分別試驗了LSTM層數為1,2,3,4,5層時的模型,3層LSTM時識別效果最佳,隨著LSTM層數遞增沒有觀察到模型性能的顯著改進。其中LSTM網絡隱藏層的維度設置為512。對于注意力懲罰系數,用0,1,10進行了實驗;模型的權重衰減系數設置為10-5,并且在所有非循環(huán)連接中使用0.5的Droupout[15],使用Adam優(yōu)化算法[16]進行15個Epoch訓練。

        為了分析注意力懲罰系數λ(式(7))對最終識別率的影響,抽取實驗中λ取值為0,1,10時對比比較明顯的結果列入表1中。λ=0時,模型傾向于減少過多的注意力,將注意力集中于對識別結果有重要影響的區(qū)域;λ=1時會鼓勵模型進一步探索更多的不同的注意位置;在λ=10時,類似于平均池化的情況,將注意力放在了整個圖像場景,而不是把注意力有選擇地放在圖像的關鍵區(qū)域。

        表1 不同模型結構在數據集上的平均識別準確率比較Tab.1 Comparison of average recognition accuracy of different model structures on datasets %

        同時,表1的結果表明,本文提出的注意力模型比使用平均和最大池化結構的LSTM表現更好。究其原因,平均池化是對所有的特征信息做了一個均衡的處理,更多的是對背景信息的保留;最大池化是取特征信息的最大值,保留更多的是紋理信息;而本文用到的注意力機制則綜合考慮了圖像的所有特征信息,從中選擇出對當前群組行為識別任務更重要的人物行為特征信息,并將注意力權重更多的分配給關鍵人物區(qū)域,最終提高了識別結果的平均準確率,表1的實驗結果也驗證了這一點。

        2.3 模型評估

        2.3.1 本文模型與其他方法在CAD上的結果比較

        表2給出了人體行為識別經典模型HOG+SVM,Bag of words以及近幾年的群組行為識別方法與本文模型在群體活動數據集CAD上的實驗結果,CAD數據集包括Walking,Crossing,Waiting,Queuing和Talking五類群組行為,根據文獻[17],Walking和Crossing的定義不明確,因為這兩類行為唯一的區(qū)別是人與街道之間的關系,且兩類行為更像是一個人的行為而不是群組行為。因此,本文將數據集中Walking和Crossing合并為Moving進行訓練學習以及最終的測試。表2中包括4類群組行為的平均識別率(Mean per class accuracy,MPCA)以及每個行為的識別率。

        表2 本文模型與其他方法在CAD數據集上的識別準確率對比Tab.2 Comparison of recongnition accuray of our method and other method %

        本文以及文獻[5-7]都是使用深度學習網絡對群組行為進行識別的方法,從表2中可以明顯看出,此類方法表現優(yōu)異,比HOG+SVM和Bag of words兩種經典行為識別模型的平均識別率高了20%左右,究其原因,是這兩種傳統模型的較多特征是在背景區(qū)域提取得到,背景信息干擾較大。本文模型對于群組特征比較明顯的Talking,Queuing行為類表現出了優(yōu)異的識別性能,與文獻[18]的對比則更加明顯,文獻[18]在群組特征較強的Talking,Queuing行為類的識別率明顯低于Moving,Waiting兩類群組特征較弱的行為,原因是該方法使用手工設計的特征,對人類行為的刻畫能力有限,模型缺乏泛化性,當數據來源發(fā)生變化時,需要重新設計特征描述符,自適應效果差,不利于群組行為特征的識別。本文模型在同樣使用深度學習網絡的同類方法[5-7]中性能表現最佳,平均識別率最高,達到了89.42%,并且對Talking類達到了完全正確的識別水平。同時,使用3層LSTM的循環(huán)注意力機制關注活動中的關鍵人物,合理分配了注意力權重,特征數據處理的速度以及識別效果明顯要高于使用最大池化結構的其他方法,文獻[6]中僅單人行為特征向量維數是本文模型的1.5倍,文獻[19]使用AC描述符(Action context descriptor)構建圖形化模型的群組行為識別方法,在模型推理階段花費的周期約是本文的3倍,文獻[7]則是將深度光流、場景和個人行為等多種特征信息進行融合,模型復雜且參數量大,對于排球比賽等運動競技類的行為識別可能更有優(yōu)勢。

        2.3.2 本文模型與其他方法在CAE上的結果比較

        表3 本文模型與其他方法在CAE數據集上的平均識別準確率對比Tab.3 Performance comparison of our method and other method %

        表3是在CAE數據集上本文模型與其他方法得到的單人行為(Person)和群組行為(Group)平均識別準確率的列表,根據文獻[17]去除了數據集中群組特征弱的Crossing類別進行實驗,避免了誤判的情況。本文模型分別在單人行為及群組行為識別上較Bag of words,文獻[20-21]方法識別準確率優(yōu)勢明顯,而且與使用相同卷積神經網絡的VGG16[20]相比,使用了軟注意力循環(huán)結構的本文模型在單人行為和群組行為的識別上效果顯著,分別達到了86.48%和91.23%的準確率。表中所有方法都是在單人行為識別的基礎上對群組行為進行識別,Bag of words,文獻[20-21]這3種方法的群組行為識別率皆低于單人行為識別的準確率,而本文模型情況則相反,群組行為的識別率較單人行為明顯提高了,證明了本文模型優(yōu)異的群組行為識別性能。實驗效果如圖2所示。

        圖2 本文模型識別效果圖Fig.2 Examples of recognition with the proposed model

        本文提出的方法使用神經網絡從人的身上提取外觀特征,利用軟注意力機制對場景中所有人的行為信息進行池化操作,并重點關注群組行為中的關鍵人物,合理分配注意力權重以對群組行為做出識別。相對表中的其他方法,本文模型沒有繁瑣的預處理操作和復雜的建模過程,綜合考慮到了活動場景中的所有人,比表中直接排除背景人物的Bag of words模型更具理論說服力,同時識別效果優(yōu)于使用了長期時間遞歸卷積網絡LRCN的方法[21],證明了本文加入注意力機制之后的群組行為識別模型的有效性。

        3 結束語

        本文建立了循環(huán)的基于注意力機制的群組行為識別模型,重點關注活動中的關鍵人物,描述了如何動態(tài)地對卷積特征進行池化;實驗表明使用本文模型進行群組行為識別的效果要優(yōu)于使用最大池化和平均池化的其他模型;并且進一步證明此模型會更傾向于識別視頻幀中的重要元素。實驗還表明,本文模型比不使用任何注意機制的網絡結構表現更好。未來計劃探索混合軟硬注意力的方法以降低模型的計算成本,從而擴展到更大的數據集,如排球數據集,其中注意力機制也可以選擇集中在較早的卷積層上從而關注視頻幀中的較低層特征。

        猜你喜歡
        單人群組特征向量
        二年制職教本科線性代數課程的幾何化教學設計——以特征值和特征向量為例
        克羅內克積的特征向量
        與外隔絕
        睿士(2020年6期)2020-08-18 09:37:28
        關系圖特征在敏感群組挖掘中的應用研究
        電子測試(2018年14期)2018-09-26 06:04:10
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
        中華建設(2017年1期)2017-06-07 02:56:14
        第三十八周:每個人的艙位都是單人艙
        媽媽寶寶(2017年3期)2017-02-21 01:22:26
        郭川:單人不間斷帆船環(huán)球航行第一人
        華人時刊(2016年1期)2016-04-05 05:56:14
        基于統計模型的空間群組目標空間位置計算研究
        群組聊天業(yè)務在IMS客戶端的設計與實現
        国产一区二区三区乱码| 精品一区二区三区老熟女少妇| 亚洲精品第四页中文字幕 | 一本丁香综合久久久久不卡网站| 国产精品无码a∨精品影院| 无码国产精品一区二区免费网曝| 中文字幕中文字幕人妻黑丝| 丝袜美腿国产一区精品| 中文字幕在线精品视频入口一区| 日韩亚洲欧美中文高清在线| 国产精品女同一区二区久| 二区免费在线视频观看| 久久精品国产亚洲av高清热| 国产鲁鲁视频在线播放| 综合激情中文字幕一区二区| 日韩女优精品一区二区三区 | 一区二区三区人妻少妇| 国产绳艺sm调教室论坛| 天天躁日日躁狠狠躁一区| 国产精品亚洲av一区二区三区| 色欲一区二区三区精品a片| 少妇高潮尖叫黑人激情在线| 成人午夜无人区一区二区| 男女啪啪动态视频在线观看| 精品国产福利一区二区三区| 丝袜av乱码字幕三级人妻| 久久久中日ab精品综合| 九九热在线视频观看这里只有精品| 亚洲人妻无缓冲av不卡| 黄色大片国产精品久久| 国产成人精品免费视频大全软件| 亚洲国产精品久久人人爱| 91国际视频| 伊人狼人影院在线视频| 日韩一区二区三区精品视频| 成年女人色毛片| 国产91在线免费| 清纯唯美亚洲经典中文字幕| 在线播放真实国产乱子伦| 另类内射国产在线| 欧美日韩中文字幕日韩欧美|