亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        時空圖卷積網(wǎng)絡(luò)在人體異常行為識別中的應(yīng)用

        2022-06-23 06:24:40張蔚瀾
        關(guān)鍵詞:關(guān)節(jié)點(diǎn)注意力卷積

        張蔚瀾,齊 華,李 勝

        1.西安工業(yè)大學(xué) 電子信息工程學(xué)院,西安 710021

        2.南昌工程學(xué)院 信息工程學(xué)院,南昌 330200

        監(jiān)控?cái)z像頭在公共安防中發(fā)揮著巨大的作用。目前在許多公共場所的安防監(jiān)控系統(tǒng)中,大多僅由一位或少數(shù)幾位監(jiān)控人員依靠“多畫面分割器”來發(fā)現(xiàn)可疑目標(biāo)。這種方式會給監(jiān)控人員帶來一定的視覺疲勞,導(dǎo)致監(jiān)控效率低下,很大程度上失去了實(shí)時監(jiān)控的意義。因此,通過對監(jiān)控視頻進(jìn)行算法分析,輔助監(jiān)控人員的安防工作,為保證社會公共安全提供強(qiáng)力而有效的手段。目前,深度學(xué)習(xí)使用特征學(xué)習(xí)和分層特征提取的高效算法自動提取來代替人工獲得特征,以其強(qiáng)大的學(xué)習(xí)能力、高適應(yīng)性、可移植性等優(yōu)點(diǎn)成為研究的熱門[1]。

        近年來,行為識別是視頻理解任務(wù)中一個重要的研究方向。行人的動作可以通過多種信息識別出來,如人體骨架[2]、時空信息[3-4]、光流信息[5-6]以及時間特征[7]等。文獻(xiàn)[8]將視頻分為描述靜態(tài)信息的空間部分和描述運(yùn)動信息的時間部分,分別訓(xùn)練模型再進(jìn)行融合,獲得較好的性能,但該方法不適用于長時間跨度結(jié)構(gòu)的建模,且視頻中提取光流需要大量的計(jì)算,很難達(dá)到實(shí)時性的要求。文獻(xiàn)[9]和[10]采用三維卷積核提取動作的時空特征從而獲取視頻流的運(yùn)動信息,該模型在機(jī)場監(jiān)控視頻下對人體行為識別,取得了較好的性能,但是由于三維卷積網(wǎng)絡(luò)計(jì)算量大,影響算法效率。

        人體骨架在行為識別任務(wù)中往往能傳達(dá)更多的信息,現(xiàn)有使用循環(huán)神經(jīng)網(wǎng)絡(luò)[11-12]、時域卷積神經(jīng)網(wǎng)絡(luò)[13-14]等多種方法來提取骨架信息并對行為進(jìn)行識別。文獻(xiàn)[15]提出一種三維圖卷積方法,引入具有三維采樣空間的圖卷積核,從時間與空間兩個維度同時實(shí)現(xiàn)行為空間與時間信息的采集,同時設(shè)計(jì)了注意力增強(qiáng)結(jié)構(gòu)來增強(qiáng)對于特定關(guān)節(jié)的關(guān)注,提升網(wǎng)絡(luò)的識別能力;Yan等[16]提出一種在時間和空間分別卷積的動作識別網(wǎng)絡(luò),每個卷積層用一個圖卷積算子描述空間特征,一個卷積算子描述時間特征,在NTU-RGB+D[17]和Kinetics數(shù)據(jù)集[18]上的識別精度達(dá)到較高水平,但該網(wǎng)絡(luò)聚合節(jié)點(diǎn)特征僅用邊上權(quán)值替代聚合操作中的權(quán)重,這種方式使網(wǎng)絡(luò)對部分行為的識別能力有限。基于目前的研究現(xiàn)狀,本文提出了一種基于時空圖卷積網(wǎng)絡(luò)的行為識別方法,通過姿態(tài)估計(jì)算法來提取骨骼關(guān)節(jié)點(diǎn),并與融合了圖注意力機(jī)制的行為識別算法相結(jié)合,進(jìn)行人體姿態(tài)行為分析,從而有效提高了行為識別準(zhǔn)確率。

        1 系統(tǒng)框架

        1.1 系統(tǒng)介紹

        基于時空圖卷積網(wǎng)絡(luò)的人體異常行為識別系統(tǒng)的實(shí)現(xiàn)框架如圖1所示,主要包括人體行為獲取模塊、骨骼關(guān)節(jié)點(diǎn)檢測模塊和行為識別模塊這3個部分。該系統(tǒng)首先通過OpenPose算法對人體骨骼點(diǎn)進(jìn)行檢測,然后利用關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行骨架拓?fù)鋱D結(jié)構(gòu)搭建,最后與改進(jìn)的時空圖卷積行為識別算法相結(jié)合以實(shí)現(xiàn)人體異常行為識別。

        1.2 系統(tǒng)流程

        基于時空圖卷積網(wǎng)絡(luò)的人體異常行為識別系統(tǒng)處理流程如圖2所示,其主要處理步驟如下。

        圖2 人體異常行為識別系統(tǒng)處理流程圖Fig.2 Processing flow of human abnormal behavior recognition system

        2 系統(tǒng)模型

        2.1 骨骼關(guān)節(jié)點(diǎn)的檢測

        骨骼關(guān)節(jié)點(diǎn)檢測模塊主要檢測人體骨骼關(guān)節(jié)點(diǎn),本文使用OpenPose[19]人體姿態(tài)估計(jì)算法完成該模塊的檢測,使用COCO數(shù)據(jù)集中人體關(guān)節(jié)點(diǎn)標(biāo)注模型得到18個骨骼關(guān)節(jié)點(diǎn),最終拼接成人體姿態(tài)特征生成樹,身體關(guān)節(jié)點(diǎn)與序號映射關(guān)系如圖3所示,18個身體關(guān)節(jié)點(diǎn)序號將作為后續(xù)行為識別模塊拓?fù)鋱D結(jié)構(gòu)構(gòu)建的依據(jù)。

        圖3 人體姿態(tài)特征生成樹、人體關(guān)節(jié)點(diǎn)映射關(guān)系圖Fig.3 Spanning tree of human posture features and mapping relation diagram of human joints

        2.1.1 基于OpenPose的人體關(guān)節(jié)點(diǎn)檢測原理

        (1)關(guān)節(jié)點(diǎn)的檢測

        OpenPose首先通過關(guān)節(jié)點(diǎn)置信圖(confidence maps)來檢測骨骼點(diǎn)的位置。每個關(guān)節(jié)點(diǎn)置信圖表示不同關(guān)節(jié)在每個像素位置的可能性。

        首先為幀圖像中行人k生成單人置信圖,如式(1)所示,xj,k∈?2是行人k的身體關(guān)節(jié)點(diǎn)j的標(biāo)注點(diǎn)位置,δ控制峰值的擴(kuò)散。當(dāng)像素點(diǎn)p靠近標(biāo)注點(diǎn)xj,k時為置信圖的峰值,如果圖片中只有一個人,則每個關(guān)節(jié)點(diǎn)置信圖中只有一個峰值。

        當(dāng)圖像中存在多人時,取多個關(guān)節(jié)點(diǎn)置信圖中的最大值作為關(guān)節(jié)點(diǎn)的峰值,則每一個人k的每個可見關(guān)節(jié)點(diǎn)j都有一個峰值,如公式(2)所示,置信圖的峰值點(diǎn)即為檢測的關(guān)節(jié)點(diǎn)。

        (2)關(guān)節(jié)點(diǎn)的關(guān)聯(lián)

        接下來利用候選關(guān)節(jié)對之間的部分親和域(part affinity fields,PAFs)來建立骨骼區(qū)域模型,2D向量來綜合像素點(diǎn)的位置和方向兩種信息,如圖4所示,以人體小臂檢測為例,已知肘部關(guān)節(jié)點(diǎn)xj1,k和手部關(guān)節(jié)點(diǎn)xj2,k的位置,當(dāng)像素點(diǎn)p在小臂c上時,則L*c,k()p的值是一個從xj1,k指向xj2,k的單位向量υ;對于其他點(diǎn),值為0:

        圖4 小臂處關(guān)節(jié)點(diǎn)連接示意圖Fig.4 Schematic diagram of joint connection at forearm

        幀圖像所有人的PAFs求平均得到標(biāo)注的人體親和字段,如式(4)所示。其中nc(p)是所有人體部分親和字段在像素點(diǎn)p是非零向量的個數(shù)。

        對于任意兩個關(guān)節(jié)點(diǎn)位置xj1和xj2,計(jì)算PAFs的線性積分來表征關(guān)節(jié)點(diǎn)對的關(guān)聯(lián)置信度E,如式(5)所示,p(u)為xj1和xj2連線上的像素點(diǎn)。

        (3)多人關(guān)節(jié)點(diǎn)匹配

        當(dāng)監(jiān)測畫面中存在多人,對置信度圖執(zhí)行非極大值抑制,獲得離散的關(guān)節(jié)點(diǎn)位置候選集,同時對存在的若干個節(jié)點(diǎn)匹配候選。根據(jù)關(guān)節(jié)點(diǎn)的關(guān)聯(lián)性PAFs,將關(guān)節(jié)點(diǎn)作為圖的頂點(diǎn),關(guān)聯(lián)置信度E為圖的邊權(quán),多人關(guān)節(jié)點(diǎn)連接問題就轉(zhuǎn)化為二分圖匹配問題的集合,用匈牙利算法找出肢體c連接集合Zc邊權(quán)和最大的組合,其數(shù)學(xué)表達(dá)如式(6)。每兩個節(jié)點(diǎn)之間同步匹配,得到最佳的時間復(fù)雜度。m、n分別為關(guān)節(jié)點(diǎn)類型為j1、j2的集合Dj1、Dj2中的點(diǎn),Zmn j1j2的值為0或1來表示第n個j1關(guān)節(jié)和第m個j2關(guān)節(jié)是否相連。

        區(qū)別于“Up-Bottom”的姿態(tài)估計(jì)算法依賴人體檢測框的結(jié)果,Openpose采用“Bottom-Top”的檢測思想,避免了檢測框漏檢而檢測失敗的問題,檢測過程快速高效;創(chuàng)新地使用了PAFs,即使圖像中人數(shù)較多,但結(jié)合肢體向量與位置信息進(jìn)行關(guān)節(jié)點(diǎn)快速匹配,使檢測更具有魯棒性,完成了多人實(shí)時的關(guān)節(jié)點(diǎn)檢測。

        2.1.2 骨骼數(shù)據(jù)的優(yōu)化

        OpenPose算法完成了從圖像格式(.jpg)到骨骼數(shù)據(jù)格式(.txt)轉(zhuǎn)換,將獲取到的多幀骨架圖數(shù)據(jù)保存為形式。x,y表示該關(guān)節(jié)點(diǎn)在當(dāng)前幀畫面中的橫、縱坐標(biāo),s表示該關(guān)節(jié)點(diǎn)的置信度,m表示幀畫面中第m個人員實(shí)例。由于同一個動作的不同幀之間可能會出現(xiàn)漏檢的情況,需要對骨骼關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行處理,過程如下:

        (1)確定主關(guān)節(jié)點(diǎn)。由圖3可知,有且僅有脖子關(guān)節(jié)點(diǎn)(No.1 neck)連接所有關(guān)節(jié),所以將脖子關(guān)節(jié)點(diǎn)定為主關(guān)節(jié)點(diǎn)。若一套動作的圖像中,某個人所有的幀都未檢測到主關(guān)節(jié)點(diǎn)則剔除該套動作,并在剔除后根據(jù)檢測到的主關(guān)節(jié)點(diǎn)數(shù)重新確認(rèn)圖像中的人數(shù)。

        (2)部分關(guān)節(jié)點(diǎn)缺失的處理。檢測時當(dāng)人體某一部位被遮擋或側(cè)身于攝像頭,部分幀會丟失部分關(guān)節(jié)點(diǎn),但行為識別的網(wǎng)絡(luò)要求輸入的關(guān)節(jié)點(diǎn)數(shù)量是一定的,因此需要對缺失的關(guān)節(jié)點(diǎn)進(jìn)行處理。由于關(guān)節(jié)點(diǎn)數(shù)據(jù)以每一幀的順序進(jìn)行排列保存,這里采用K最近距離鄰法(K-means clustering)的思想,選擇鄰居K的值為2,以幀距離為度量,根據(jù)最近鄰幀特征加權(quán)[20]預(yù)測:若第t幀的第i個關(guān)節(jié)點(diǎn)數(shù)據(jù)pi()t缺失,則利用與該幀最鄰近的、第i個關(guān)節(jié)點(diǎn)數(shù)據(jù)未缺失的前后兩幀t1、t2,將不同距離的鄰幀對缺失幀產(chǎn)生的影響給予不同的權(quán)值,補(bǔ)充后的關(guān)節(jié)點(diǎn)數(shù)據(jù)為:

        該缺失值補(bǔ)充方法得到的值較為科學(xué)準(zhǔn)確,由于僅利用前后兩幀的數(shù)據(jù)進(jìn)行估計(jì),計(jì)算量小,幾乎對檢測過程沒有影響,并且缺失值的補(bǔ)充使后續(xù)行為拓?fù)鋱D結(jié)構(gòu)的構(gòu)建更加完整,提高了網(wǎng)絡(luò)識別的準(zhǔn)確性。

        (3)關(guān)節(jié)點(diǎn)數(shù)據(jù)歸一化處理。Openpose算法提取的關(guān)節(jié)點(diǎn)坐標(biāo)不僅與行為動作有關(guān),還與人體在畫面中的位置,距離攝像頭的遠(yuǎn)近都有關(guān)系,用來識別的關(guān)節(jié)點(diǎn)特征應(yīng)只與當(dāng)前的行為動作有關(guān),應(yīng)對其進(jìn)行歸一化的處理[21]。歸一化處理如式(8)所示:

        其中,(x,y)表示關(guān)節(jié)點(diǎn)坐標(biāo),(xc,yc)表示主關(guān)節(jié)點(diǎn)的坐標(biāo),w、h表示圖像的尺寸,(xn,yn)為歸一化后的關(guān)節(jié)點(diǎn)坐標(biāo)。

        2.2 融合圖注意力機(jī)制的時空圖卷積行為識別

        本文主要針對百貨商場這類室內(nèi)公共場所,通過對行人的關(guān)節(jié)點(diǎn)坐標(biāo)及置信度進(jìn)行時空圖卷積建模來實(shí)現(xiàn)行人的行為識別。模型從空間上的圖卷積來提取空間信息,前后相鄰幀的常規(guī)卷積來提取時間信息,二者的串聯(lián)疊加逐步將每個節(jié)點(diǎn)的感受野擴(kuò)大到時空范圍。

        2.2.1 空間圖卷積網(wǎng)絡(luò)

        骨架數(shù)據(jù)是由OpenPose算法得到一系列幀關(guān)節(jié)坐標(biāo),已知人體關(guān)節(jié)點(diǎn)與序號的映射關(guān)系,以關(guān)節(jié)點(diǎn)為圖節(jié)點(diǎn)V,以時間和關(guān)節(jié)點(diǎn)的自然連接為邊E,構(gòu)造時空圖G。

        圖卷積網(wǎng)絡(luò)能夠?qū)⒕矸e神經(jīng)網(wǎng)絡(luò)的特性運(yùn)用到圖結(jié)構(gòu)數(shù)據(jù)中去,核心思想是將邊的信息發(fā)揮到節(jié)點(diǎn)信息中,利用聚合操作來表示新的節(jié)點(diǎn)特征。圖卷積層節(jié)點(diǎn)聚合如公式(9)所示:

        在考慮聚合節(jié)點(diǎn)i的度D?ii同時,還應(yīng)考慮被聚合的領(lǐng)節(jié)點(diǎn)j的度D?jj,因此使用幾何平均數(shù)來對度節(jié)點(diǎn)的特征值進(jìn)行歸一化從而降低不同度數(shù)量上特征值之間的差距。歸一化處理后圖卷積網(wǎng)絡(luò)定義如公式(11)所示,W為圖卷積層的權(quán)值矩陣。

        在骨架圖上卷積時,每一個節(jié)點(diǎn)的鄰節(jié)點(diǎn)數(shù)是不固定的,無法進(jìn)行卷積操作,因此定義空間配置劃分將鄰域分為3個子集,如圖5所示。其中重心是骨骼節(jié)點(diǎn)坐標(biāo)的幾何中心。

        圖5 圖卷積領(lǐng)域劃分規(guī)則圖Fig.5 Graph convolution domain division rule graph

        2.2.2 時間卷積網(wǎng)絡(luò)

        時間卷積中節(jié)點(diǎn)形狀固定,使用傳統(tǒng)的卷積層進(jìn)行時間特征提?。喊磿r序排列得到骨架空間-時序信息表達(dá)矩陣,如公式(12)所示。矩陣的維度為C×T,T為幀數(shù),C為關(guān)節(jié)點(diǎn)信息,這里用姿態(tài)估計(jì)算法得到的關(guān)節(jié)點(diǎn)信息(x,y,s)可以類比于RGB圖的R、G、B三個通道,該矩陣中的每個元素代表了一類特征通道在某一幀中的人體的關(guān)節(jié)點(diǎn)特征信息,V為18個關(guān)節(jié)點(diǎn),M代表圖像中人數(shù)。

        2.2.3 融合圖注意力的人體關(guān)節(jié)點(diǎn)動作識別

        由公式(11)可知,原始圖卷積在聚合鄰節(jié)點(diǎn)特征時僅利用鄰接矩陣A這一基于圖結(jié)構(gòu)的標(biāo)準(zhǔn)化常數(shù)來表示節(jié)點(diǎn)聚合的權(quán)值,這一點(diǎn)限制了模型對于空間信息相關(guān)性的捕捉能力,因此本文借鑒圖注意力網(wǎng)絡(luò)[22]的思想對關(guān)鍵節(jié)點(diǎn)進(jìn)行自適應(yīng)聚焦,通過計(jì)算中心節(jié)點(diǎn)與鄰節(jié)點(diǎn)之間的注意力系數(shù),捕捉骨骼節(jié)點(diǎn)之間的動態(tài)關(guān)聯(lián),突出具有行為判別性關(guān)節(jié)點(diǎn),從而提升模型識別能力。

        圖注意力機(jī)制利用隱藏的自注意(self-attention)層,為圖中的每個節(jié)點(diǎn)依據(jù)鄰節(jié)點(diǎn)的特征分配不同的權(quán)值,并通過模糊注意力(masked-attention)將注意力機(jī)制引入到骨骼圖結(jié)構(gòu)中。關(guān)節(jié)點(diǎn)特征聚合與圖注意力機(jī)制融合過程如下:

        (1)關(guān)節(jié)點(diǎn)特征自注意力處理,來表示節(jié)點(diǎn)j對節(jié)點(diǎn)i的相關(guān)性,公式為:

        其中,Xi、Xj分別為中心點(diǎn)i與其鄰節(jié)點(diǎn)j的特征向量;W∈RCin×Cout是可學(xué)習(xí)權(quán)重矩陣,得到相應(yīng)的輸入與輸出節(jié)點(diǎn)特征的轉(zhuǎn)換。a()?表示對節(jié)點(diǎn)實(shí)行自注意力機(jī)制,利用拼接好節(jié)點(diǎn)特征及可學(xué)習(xí)的權(quán)重向量進(jìn)行點(diǎn)積運(yùn)算,學(xué)習(xí)節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的相對重要性,a:RCout×RCout→R。這種方式可以忽略圖結(jié)構(gòu)性的信息,允許所有節(jié)點(diǎn)之間計(jì)算相互影響。

        (2)時空圖卷積層間數(shù)據(jù)變換。為增強(qiáng)層間特征聚合變換的非線性表達(dá)能力,引入LeakyReLU函數(shù)對層間的數(shù)據(jù)進(jìn)行變換。經(jīng)過激活函數(shù)處理后的注意力系數(shù)如式(14)所示:

        (3)模糊注意力處理及歸一化。在構(gòu)建好的鄰接矩陣A基礎(chǔ)上,利用模糊注意力,將注意力分配到節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)集B( )vti來聚合一階鄰節(jié)點(diǎn)的信息,并對所有i的鄰節(jié)點(diǎn)j進(jìn)行正則化,αij∈R3×V×V,因此注意力系數(shù)為:

        (4)節(jié)點(diǎn)間特征加權(quán)求和。節(jié)點(diǎn)i經(jīng)過融合圖注意力機(jī)制的圖卷積層加權(quán)求和后的特征為:

        Aatt是經(jīng)過注意力系數(shù)加權(quán)后的鄰接矩陣。

        在原有特征更新的基礎(chǔ)上,圖注意力網(wǎng)絡(luò)更巧妙地利用了骨骼節(jié)點(diǎn)之間的特征相互聯(lián)系,多節(jié)點(diǎn)計(jì)算并行,為每個節(jié)點(diǎn)區(qū)分出了不同的重要度,增強(qiáng)了行為識別任務(wù)中需要的有效信息,對干擾節(jié)點(diǎn)信息更加魯棒;且中心節(jié)點(diǎn)特征的注意力權(quán)重以鄰節(jié)點(diǎn)特征為依據(jù),獨(dú)立于圖結(jié)構(gòu),使得該模型可以處理不同的鄰節(jié)點(diǎn)數(shù)目的骨骼關(guān)節(jié)點(diǎn)。

        2.2.4 時空圖卷積網(wǎng)絡(luò)模型搭建

        基于上述圖卷積操作,構(gòu)建用于人體異常行為識別的時空圖卷積網(wǎng)絡(luò)模型。模型建立過程如下:

        (1)為了加快模型收斂,首先設(shè)置歸一化層(batchnorm layer)對batch方向數(shù)據(jù)進(jìn)行歸一化。

        (2)為提取更大范圍的動態(tài)時空相關(guān)性,時空圖卷積網(wǎng)絡(luò)模型由9個時空圖卷積層疊加,每層交替地使用融合了圖注意力機(jī)制的圖卷積A-GCN和時域卷積TCN,并在第4層和第7層時間卷積后設(shè)置步長為2。

        (3)對上一層輸出的數(shù)據(jù)使用全局池化層(global pooling layer)匯總節(jié)點(diǎn)特征來表示整個圖的特征。

        (4)最后一層為全連接層(fully connected layer),輸出結(jié)果為模型識別行為的類別。網(wǎng)絡(luò)模型結(jié)構(gòu)如圖6所示。

        圖6 基于時空圖卷積網(wǎng)絡(luò)的行為識別模型宏結(jié)構(gòu)Fig.6 Macro structure of behavior recognition model based on spatial temporal graph convolutional networks

        本文用[B,C,T,V,M]的張量來表示一個人體骨骼行為識別初始輸入數(shù)據(jù),其中B為訓(xùn)練批次;T代表行為關(guān)鍵幀的數(shù)量;M表示關(guān)鍵幀中的人數(shù);V表示關(guān)節(jié)點(diǎn)數(shù)量;C代表關(guān)節(jié)的特征數(shù)。表1展示了模型每層參數(shù)配置。

        表1 時空圖卷積網(wǎng)絡(luò)參數(shù)配置Table 1 Spatial temporal graph convolution network layer parameter configuration

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 骨骼關(guān)節(jié)點(diǎn)檢測結(jié)果與分析

        為驗(yàn)證OpenPose對實(shí)際環(huán)境的適用性,該部分實(shí)驗(yàn)將光線環(huán)境、待檢測人數(shù)以及目標(biāo)大小作為變量,來驗(yàn)證不同條件下的檢測效果,檢測結(jié)果如圖7、圖8所示。

        圖7顯示了在光照充足環(huán)境下OpenPose對行人的關(guān)節(jié)點(diǎn)檢測效果:幀圖像中行人四肢拍攝完全時,檢測效果良好,關(guān)節(jié)點(diǎn)基本匹配正確,即使圖7(b)畫面右側(cè)行人四肢拍攝不完全,但檢測算法對被遮擋部分的關(guān)節(jié)點(diǎn)不會任意獲取,只對看得到的部分進(jìn)行檢測,不會造成后續(xù)行為的誤判;圖8以傍晚的拍攝條件來模擬光線較暗的情況,可以看出,即使光照較暗時也能夠?qū)π腥诉M(jìn)行匹配,證明OpenPose對光線條件不充足的環(huán)境有很好的適應(yīng)性。

        圖7 光照充足環(huán)境下的OpenPose檢測圖Fig.7 OpenPose detection diagram in well-light environment

        圖8 光線較暗環(huán)境下的OpenPose檢測圖Fig.8 OpenPose detection diagram in low light environment

        根據(jù)檢測結(jié)果可知,在光照環(huán)境、人數(shù)以及目標(biāo)大小三種變量變化的情況下,基于OpenPose的骨骼關(guān)節(jié)點(diǎn)檢測方法可以有效提取人體的骨骼關(guān)節(jié)點(diǎn),后續(xù)結(jié)合骨骼關(guān)節(jié)點(diǎn)的優(yōu)化方法,使得到的骨骼節(jié)點(diǎn)數(shù)據(jù)信息更加完整,有利于行為識別任務(wù)的推進(jìn)。

        3.2 人體異常行為識別結(jié)果與分析

        本文使用的數(shù)據(jù)來源主要為新加坡南洋理工大學(xué)制作的NTU-RGB+D人體行為數(shù)據(jù)集。為增加模型識別的對比性,識別的行為分為正、異常兩大類,包括站立(stand up)、坐下(sit down)、行走(walking)、摔倒(falling down)、腳踢破壞(kicking something)、腳踢(kicking)、推搡(pushing)、出拳(punch)、指點(diǎn)(point finger)。

        3.2.1 模型評價指標(biāo)

        數(shù)據(jù)集包括4 314個骨架訓(xùn)練數(shù)據(jù),1 074個骨架測試數(shù)據(jù)。訓(xùn)練過程進(jìn)行576 000次迭代,優(yōu)化器為Adam,權(quán)重衰減系數(shù)為10-4,學(xué)習(xí)率為10-3,測試集上評價指標(biāo)使用交叉熵?fù)p失函數(shù)以及準(zhǔn)確率,定義如式(17)、(18)所示:

        yi是全連接層的第i個輸出,表示第i類動作的概率值;m是批量大??;N是動作的類別數(shù);TP(True Positives)為正確識別行為的樣本數(shù);FN(False Negatives)為錯誤識別為其他類的樣本數(shù)。

        3.2.2 模型性能實(shí)驗(yàn)

        首先驗(yàn)證模型使用不同激活函數(shù)對網(wǎng)絡(luò)性能的影響,在融合圖注意力的模型上進(jìn)行實(shí)驗(yàn),測試集上結(jié)果如表2所示,LeakyReLU函數(shù)明顯提高了模型的識別準(zhǔn)確率。這是由于訓(xùn)練中,LeakyReLU函數(shù)在輸入為負(fù)數(shù)區(qū)域內(nèi)給予非常小的線性分量來調(diào)整負(fù)值的零梯度,本文搭建網(wǎng)絡(luò)層較深,使用Leakyrelu函數(shù)有助于確保梯度能夠貫穿整個模型架構(gòu),同時加快網(wǎng)絡(luò)收斂速度,提升網(wǎng)絡(luò)性能。而ReLU函數(shù)在輸入為負(fù)時轉(zhuǎn)換為0,激活層可能對一些特征屏蔽,造成網(wǎng)絡(luò)中存在部分“壞死”,有效特征的學(xué)習(xí)能力相較于LeakyReLU函數(shù)弱。

        表2 不同激活函數(shù)對網(wǎng)絡(luò)性能的影響Table 2 Impact of different activation functions onnetwork performance

        對模型在本文建立異常行為數(shù)據(jù)集上進(jìn)行驗(yàn)證。使用融合注意力機(jī)制識別模型與未融合的模型在數(shù)據(jù)集上得到的損失變化對比如圖9所示,兩種模型整體均趨于收斂狀態(tài),但融合前的模型總體收斂趨勢相比于融合后模型收斂趨勢慢,融合后的模型在迭代25 000次左右時呈現(xiàn)出逐漸收斂的狀態(tài),對比融合前收斂速度要快。

        圖9 模型損失值變化對比圖Fig.9 Comparison diagram of model loss value change

        圖10為測試集平均準(zhǔn)確率變化情況,融合前模型在測試集上的平均準(zhǔn)確率在訓(xùn)練120輪次之后最高僅維持在80%左右;融合后的平均準(zhǔn)確率在訓(xùn)練60輪次之后穩(wěn)定在80%~90%,最高時為87.96%,相比融合前高。

        圖10 模型準(zhǔn)確率變化對比圖Fig.10 Comparison diagram of model accuracy change

        然后調(diào)用torchstat對模型相關(guān)參數(shù)進(jìn)行分析,如表3所示。該表是輸入尺寸為(16,3,150,18,2)的Tensor后的結(jié)果,為了表簡潔直觀,9個時空圖卷積層中各卷積層的參數(shù)已做合并處理。

        表3 人體異常行為識別網(wǎng)絡(luò)模型參數(shù)Table 3 Human abnormal behavior recognitionmodel parameters

        從模型的空間與時間復(fù)雜度兩個方向分析:空間復(fù)雜度與模型的參數(shù)量(params)有關(guān),由于空間復(fù)雜度只與卷積核大小、通道數(shù)以及網(wǎng)絡(luò)深度相關(guān),本文對模型融合注意力的操作并未改變這三種變量,因此融合后參數(shù)數(shù)量與融合前變換不大,空間復(fù)雜度低,約為2.89 MB(對結(jié)果進(jìn)行單位轉(zhuǎn)換);模型計(jì)算量影響時間復(fù)雜度,本文使用模型的運(yùn)算次數(shù)(multiply accumulate operation,Macc)來衡量,融合后每一層空間圖卷積增加了關(guān)節(jié)點(diǎn)間特征變換的拼接,但自注意力的拼接操作是在所有邊上并行,且圖卷積輸出特征的計(jì)算在所有節(jié)點(diǎn)上并行,不需要特征分解或復(fù)雜的矩陣運(yùn)算,未給融合前的模型增加大量的計(jì)算復(fù)雜度。但模型運(yùn)算量約為5.23 GB,預(yù)測速度、實(shí)時性在算力較低的計(jì)算平臺上可能會受到一定影響。

        經(jīng)分析,模型在本實(shí)驗(yàn)使用計(jì)算平臺上雖然會略微犧牲檢測時間,但關(guān)節(jié)點(diǎn)特征融合注意力的方式,使節(jié)點(diǎn)特征隨著行為自適應(yīng)聚焦,從而區(qū)分行為識別中的關(guān)鍵節(jié)點(diǎn),提高了識別準(zhǔn)確性。

        3.2.3 圖注意力機(jī)制對行為識別影響的驗(yàn)證實(shí)驗(yàn)

        為驗(yàn)證融合圖注意力機(jī)制是否能提升模型對行為的識別能力,本文分別對圖注意力機(jī)制的節(jié)點(diǎn)特征自適應(yīng)聚焦和行為識別的準(zhǔn)確性進(jìn)行實(shí)驗(yàn)。首先對打架、摔倒以及破壞公物(腳踢)三種異常行為的視頻截取關(guān)鍵幀,將骨骼結(jié)構(gòu)的18個關(guān)節(jié)點(diǎn)注意力權(quán)重進(jìn)行可視化,如圖11所示,該熱力圖顯示了模型對不同關(guān)節(jié)點(diǎn)的關(guān)注程度。

        圖中行為執(zhí)行時關(guān)節(jié)點(diǎn)位置的圓點(diǎn)大小代表不同節(jié)點(diǎn)特征的重要程度,而熱力圖色調(diào)越暖代表該關(guān)節(jié)所占權(quán)重越高。圖11(a)的行人在有腳踢和推搡行為的打架過程中,模型將節(jié)點(diǎn)注意力關(guān)注在頭部(鼻子)、胯部、膝蓋、肩部、手肘和腳這些關(guān)節(jié)點(diǎn)上;圖11(b)的摔倒行為有身體側(cè)倒向地面和側(cè)躺于地面,摔倒過程中胯部、膝蓋、手腕和手肘關(guān)節(jié)點(diǎn)對摔倒行為識別的貢獻(xiàn)程度較大,因此模型更關(guān)注這些關(guān)節(jié)點(diǎn)的信息;圖11(c)的破壞行為執(zhí)行人側(cè)向站立于攝像頭,腳踢行為更集中于執(zhí)行動作的腿部多個關(guān)節(jié)點(diǎn),且胳膊擺動的動作,因此模型更關(guān)心胯部、膝蓋、腳部和手肘的動作變化。以上實(shí)驗(yàn)表明,在注意力機(jī)制的作用下,模型能夠基于時空信息對鄰節(jié)點(diǎn)間信息進(jìn)行聚焦,強(qiáng)調(diào)提供關(guān)鍵信息的身體關(guān)節(jié),并對其進(jìn)行更多的關(guān)注,驗(yàn)證了圖注意力機(jī)制在自適應(yīng)聚焦行為特征上的有效性。

        圖11 注意力熱力圖Fig.11 Attention heat map

        接下來在包含九種行為的測試集上驗(yàn)證圖注意力機(jī)制對識別準(zhǔn)確性的影響,這里利用混淆矩陣來表示。融合圖注意力機(jī)制前后模型的識別結(jié)果如表4和表5所示,表中數(shù)字代表模型識別的統(tǒng)計(jì)結(jié)果。

        表4 未融合注意力機(jī)制的行為識別混淆矩陣Table 4 Behavior recognition confusion matrix for unfused attention mechanism

        表5 融合注意力機(jī)制后的行為識別混淆矩陣Table 5 Behavior recognition confusion matrix after integrating attention mechanism

        通過對比,九種行為的識別準(zhǔn)確數(shù)量(矩陣主對角線方向)在融合后均有不同程度的增加,以出拳為例,準(zhǔn)確識別數(shù)相比融合前增加了12個(約10.1%),同時對推搡行為的錯誤識別減少了10個(約8.4%),結(jié)合之前關(guān)節(jié)點(diǎn)特征聚焦的效果來分析:圖注意力機(jī)制能夠自動衡量出不同節(jié)點(diǎn)的重要性,指導(dǎo)模型根據(jù)動作尋找關(guān)鍵的骨骼節(jié)點(diǎn),使其在識別過程中突出了具有判別性的關(guān)節(jié)點(diǎn),弱化不同動作中對識別影響很小的節(jié)點(diǎn)信息,證明了利用注意力機(jī)制區(qū)分節(jié)點(diǎn)重要性對提高模型識別的準(zhǔn)確性具有明顯作用,同時對表現(xiàn)相似的行為,模型也能根據(jù)有效的時空節(jié)點(diǎn)特征學(xué)習(xí)節(jié)點(diǎn)之間的動態(tài)關(guān)聯(lián),對部分不易區(qū)分行為的識別準(zhǔn)確性也有所提升,進(jìn)而證明了融合圖注意力機(jī)制的時空圖卷積網(wǎng)絡(luò)對識別異常行為的優(yōu)越性。

        3.2.4 模型有效性驗(yàn)證實(shí)驗(yàn)

        在540個短視頻驗(yàn)證集上驗(yàn)證本文的異常行為識別模型,視頻來源于真實(shí)監(jiān)控、志愿者模擬以及本文定義的相關(guān)行為視頻,所有視頻拍攝角度均符合真實(shí)監(jiān)控?cái)z像角度。圖12為本文所提模型對定義的行為進(jìn)行識別的部分結(jié)果,其中對于雙人打架的行為,由于在日常中打架行為過程復(fù)雜,通常由多個行為組成,因此將打架行為分解為本文定義中的腳踢、推搡、出拳、指點(diǎn)這些行為,在識別時,檢測到這四類行為中的兩類則認(rèn)為成功識別出打架行為。

        圖12 行人行為識別部分結(jié)果Fig.12 Partial results of pedestrian behavior recognition

        表6為行為識別模型在540個短視頻驗(yàn)證集上的分類結(jié)果??梢钥闯?,模型對這9類行為的識別準(zhǔn)確率絕大部分達(dá)到80%以上,但對于出拳行為識別結(jié)果較差,這是因?yàn)槌鋈瓊?cè)重于人體雙臂部分的動作,相較于指點(diǎn)這種同樣側(cè)重手部行為的動作來說,行為特征相似,不易區(qū)分,并且識別同樣也受行為執(zhí)行者拍攝角度的影響,動作的關(guān)節(jié)信息可能提取無效,模型無法學(xué)習(xí)到行人手肘部位間的行為特征,使得識別的準(zhǔn)確率存在一定的偏差。但本文所使用的實(shí)驗(yàn)平臺上,基于時空圖卷積網(wǎng)絡(luò)的人體異常行為識別方法在驗(yàn)證集中的準(zhǔn)確率高達(dá)85.48%,其中對異常行為識別的準(zhǔn)確率達(dá)到81.63%,這說明該模型對公共場景中的異常行為有良好的識別效果,在實(shí)際監(jiān)控視頻中具有一定的檢測有效性。

        表6 融合注意力機(jī)制的模型識別結(jié)果Table 6 Model recognition results integrating attention mechanism

        4 結(jié)束語

        為了解決室內(nèi)公共場合下監(jiān)控資源短缺,行人異常行為容易發(fā)生漏檢的問題,本文結(jié)合姿態(tài)估計(jì)算法,通過OpenPose檢測到人體骨骼關(guān)節(jié)點(diǎn)特征信息來構(gòu)建骨骼關(guān)節(jié)點(diǎn)圖拓?fù)浣Y(jié)構(gòu),利用融合了圖注意力機(jī)制的時空圖卷積網(wǎng)絡(luò)對行人的異常行為進(jìn)行識別,在數(shù)據(jù)集上9類行為的平均識別準(zhǔn)確率達(dá)到87.96%,在驗(yàn)證集上的平均識別準(zhǔn)確率達(dá)到85.48%。實(shí)驗(yàn)結(jié)果表明,所提融合圖注意力機(jī)制的時空圖卷積行為識別模型可以有效聚合節(jié)點(diǎn)特征,為每個關(guān)節(jié)點(diǎn)區(qū)分不同的重要程度,最終提高了異常行為識別的準(zhǔn)確率。

        需要指出的是,本文在對行人的破壞公物行為進(jìn)行識別時,雖然利用所提的行為識別模型得到了較為準(zhǔn)確的識別結(jié)果,但這僅說明模型能夠較好地提取出能區(qū)分這些動作之間的特征,并未考慮動作與已知公共設(shè)施的相對位置。針對在實(shí)際的行為識別中,如何結(jié)合異常行為與公共設(shè)施的交互進(jìn)行判斷,擬在后續(xù)研究中進(jìn)一步展開。

        猜你喜歡
        關(guān)節(jié)點(diǎn)注意力卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
        關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        搞好新形勢下軍營美術(shù)活動需把握的關(guān)節(jié)點(diǎn)
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        成人精品免费av不卡在线观看| 国产一区二区免费在线视频| 高潮内射主播自拍一区| 狠狠色狠狠色综合网| 国产成人精品一区二区三区视频| 色偷偷av男人的天堂| 天天躁日日躁狠狠躁av中文| 99亚洲乱人伦精品| 91人妻人人做人人爽九色| 久久99天堂av亚洲av| 亚洲成av人在线播放无码| 国产免费无码一区二区三区 | 76少妇精品导航| 伊人狠狠色j香婷婷综合| 亚洲国产av精品一区二| 亚洲美女毛多水多免费视频| 国产精品久久久久高潮| 理论片午午伦夜理片影院| 精精国产xxxx视频在线播放器| 熟女人妻中文字幕一区| 亚洲一区二区三区在线视频| 日本一卡二卡3卡四卡免费观影2022| 东北少妇不带套对白| 狼色精品人妻在线视频| 亚洲AV秘 无码一区二区三区| 亚洲精品视频免费在线| 中文字字幕在线中文乱码解| 又紧又大又爽精品一区二区| 人妻系列无码专区久久五月天 | 美女高潮流白浆视频在线观看| 熟妇与小伙子露脸对白| 亚洲av调教捆绑一区二区三区| 青青草在线免费播放视频| 比较有韵味的熟妇无码| 国产无遮挡a片又黄又爽| 亚洲AV无码成人精品区H| 青青草免费在线视频久草| 无套内内射视频网站| 狠狠色综合网站久久久久久久| 久久久久久一级毛片免费无遮挡| 国产一区二区三区亚洲精品|