盧 穎,呂希凡,郭良杰,仇 樂(lè),路越茗
(1.武漢科技大學(xué) 資源與環(huán)境學(xué)院,湖北 武漢 430081;2.中國(guó)地質(zhì)大學(xué)(武漢) 工程學(xué)院,湖北 武漢 430074)
當(dāng)前地鐵視頻監(jiān)控系統(tǒng)多為“只記錄不判斷”模式,需要工作人員輪流值守監(jiān)督站內(nèi)乘客活動(dòng),發(fā)生事故后通過(guò)回看視頻進(jìn)行取證,無(wú)法實(shí)時(shí)判斷[1]。為加強(qiáng)地鐵乘客行為管理,可在地鐵口、閘機(jī)、扶梯等人員密集部位加設(shè)視頻監(jiān)控裝置,但傳統(tǒng)檢測(cè)識(shí)別主要依靠單目視覺(jué)[2],存在識(shí)別精度低、穩(wěn)定性差等問(wèn)題。因此,基于新一代深度傳感器開(kāi)展地鐵乘客不安全行為的智能識(shí)別研究具有重要理論意義和實(shí)際應(yīng)用價(jià)值。
深度傳感器解決了傳統(tǒng)監(jiān)控設(shè)備存在的問(wèn)題,以紅外結(jié)構(gòu)光檢測(cè)為核心,可實(shí)時(shí)捕捉人體動(dòng)作骨骼信息[3]。基于實(shí)時(shí)骨骼信息,結(jié)合機(jī)器學(xué)習(xí)[4]或深度學(xué)習(xí)[5]算法實(shí)現(xiàn)行為的智能識(shí)別。當(dāng)前行為識(shí)別算法主要分為2類,一類是以隱馬爾科夫模型[6]、貝葉斯網(wǎng)絡(luò)[7]以及BP神經(jīng)網(wǎng)絡(luò)[8]等為代表的狀態(tài)空間法。該類方法數(shù)據(jù)獲取簡(jiǎn)單,只需獲得傳統(tǒng)的視頻信息、圖片信息等即可進(jìn)行后續(xù)行為識(shí)別。但這類方法往往需要大量訓(xùn)練數(shù)據(jù),對(duì)于小型數(shù)據(jù)集處理效果差,且尋找模型最優(yōu)參數(shù)過(guò)程復(fù)雜,難度較大,復(fù)現(xiàn)率較低。另一類是運(yùn)用幀與幀匹配[9]、幀融合匹配[10]和關(guān)鍵幀匹配[11]的模板匹配法,其中以動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)算法最為典型。該方法通過(guò)提取樣本中行為特征序列與對(duì)應(yīng)標(biāo)準(zhǔn)行為進(jìn)行匹配,再判斷序列間的距離大小從而得到動(dòng)作相似度,其優(yōu)勢(shì)在于無(wú)需大量樣本作為識(shí)別基礎(chǔ),且算法過(guò)程簡(jiǎn)單、易操作實(shí)現(xiàn)。但提取動(dòng)作特征方式的合理性對(duì)最終識(shí)別結(jié)果影響很大。目前,骨骼信息的動(dòng)作特征大多以相鄰關(guān)節(jié)點(diǎn)之間形成的向量作為提取的動(dòng)作特征向量,如Yu等[9]、于瑞云等[12]、陸中秋等[13]等選取全身主要部位的關(guān)節(jié)坐標(biāo),再計(jì)算相鄰骨骼關(guān)節(jié)點(diǎn)向量從而得到識(shí)別標(biāo)準(zhǔn)動(dòng)作與測(cè)試動(dòng)作的相似度。然而這種關(guān)節(jié)選取方法存在冗余關(guān)節(jié)的影響,同時(shí)也受識(shí)別對(duì)象的身高、身材以及識(shí)別過(guò)程中的身體偏移等因素干擾,進(jìn)而導(dǎo)致識(shí)別結(jié)果的魯棒性較低。
綜上,本文擬基于Kinect獲得骨骼信息,提出1種以 Pelvis為矢量起點(diǎn)、行為活動(dòng)高頻關(guān)節(jié)點(diǎn)為矢量終點(diǎn)的動(dòng)作特征向量選取方法,利用余弦定理獲得動(dòng)作之間的關(guān)節(jié)角度差,以最大角度差為動(dòng)作特征量建立相似度計(jì)算模型,運(yùn)用DTW算法得到動(dòng)作之間的最優(yōu)路徑并轉(zhuǎn)化為動(dòng)作相似度。通過(guò)地鐵乘客不安全行為識(shí)別的對(duì)比實(shí)驗(yàn),驗(yàn)證方法的可行性和準(zhǔn)確性,為地鐵乘客不安全行為管控提供1種新型技術(shù)手段。
目前不安全行為識(shí)別技術(shù)是一個(gè)包含了計(jì)算機(jī)視覺(jué)、圖像處理以及機(jī)器學(xué)習(xí)等相關(guān)技術(shù)的有機(jī)整體。從識(shí)別的數(shù)據(jù)類型看,可分為:基于視頻信息、圖像信息以及骨骼信息的識(shí)別系統(tǒng)。不同的識(shí)別系統(tǒng)常用的特征參數(shù)有:大小、顏色、骨骼等靜態(tài)特征參數(shù);光流、速度、軌跡等動(dòng)態(tài)特征參數(shù);場(chǎng)景、屬性等描述性特征參數(shù)。對(duì)比分析典型不安全行為識(shí)別系統(tǒng)及其特征參數(shù),如表1所示。
表1 不安全行為識(shí)別技術(shù)對(duì)比Table 1 Comparison on recognition technologies of unsafe behavior
基于視頻信息和圖像信息的行為識(shí)別技術(shù)易受光線、物體遮擋等外界環(huán)境因素干擾,需對(duì)原始數(shù)據(jù)預(yù)處理,增加了整體識(shí)別難度,實(shí)現(xiàn)過(guò)程復(fù)雜,復(fù)現(xiàn)率低。而基于紅外結(jié)構(gòu)光檢測(cè)的Kinect骨骼信息識(shí)別,可有效避免環(huán)境因素干擾。鑒于研究背景為地鐵復(fù)雜環(huán)境,存在大量人員相互遮擋現(xiàn)象以及地鐵噪聲干擾等因素,因此采用Kinect提取地鐵乘客不安全行為骨骼信息進(jìn)行后續(xù)行為識(shí)別。
在導(dǎo)致地鐵運(yùn)行事故的原因中,乘客行為最為復(fù)雜多變[18],但對(duì)其慣常狀態(tài)不安全行為研究相對(duì)較少,因此本文根據(jù)現(xiàn)有文獻(xiàn)、地鐵事故案例以及相關(guān)行為監(jiān)控系統(tǒng)選取識(shí)別對(duì)象。劉艷等[19]將乘客不安全行為分為3類:站內(nèi)抽煙、侵入限界以及攜帶違禁物品。通過(guò)對(duì)91例地鐵乘客行為引發(fā)的事故案例分析,其中打架斗毆行為占23.7%。 此外,在《人工智能在公安視頻大數(shù)據(jù)分析領(lǐng)域的前沿應(yīng)用》專題報(bào)告[20]中指出,呼救行為是公安視頻監(jiān)控行為之一。雖然呼救不屬于不安全行為,但其預(yù)示可能有不安全行為或突發(fā)事件發(fā)生,因此,將其作為表征可能發(fā)生不安全行為的異常行為,納入智能識(shí)別的范疇,使地鐵監(jiān)控對(duì)象多元化、規(guī)范化。為便于表述,本文仍以不安全行為作為識(shí)別對(duì)象的總稱,其特指地鐵乘客不安全行為或異常行為。
結(jié)合Kinect設(shè)備特點(diǎn),根據(jù)上述調(diào)查結(jié)果,選取抽煙、打架斗毆、單/雙臂揮手呼救作為動(dòng)作識(shí)別對(duì)象。
本文使用2019年發(fā)布的最新一代Azure Kinect,通過(guò)Kinect Body tracking SDK (software development kit)開(kāi)發(fā)包提供的應(yīng)用程序編程接口以及Kinect SDK以30 f/s的頻率采集32個(gè)關(guān)節(jié)點(diǎn),提供每個(gè)關(guān)節(jié)的三維坐標(biāo)、方位角、置信水平等信息,利用骨骼追蹤技術(shù)可分別得到標(biāo)準(zhǔn)動(dòng)作與測(cè)試動(dòng)作的關(guān)節(jié)點(diǎn)位置。該設(shè)備相比Kinect V2,可多檢測(cè)鼻子、左眼、右眼、左耳、右耳、左鎖骨和右鎖骨7個(gè)關(guān)節(jié)點(diǎn),Azure Kinect捕獲的32個(gè)關(guān)節(jié)見(jiàn)圖1。
圖1 Azure Kinect獲得的關(guān)節(jié)信息Fig.1 Joint information obtained by Azure Kinect
Kinect傳感器捕獲的基礎(chǔ)運(yùn)動(dòng)數(shù)據(jù)是一系列以幀為單位的人體骨骼關(guān)節(jié)位置3D坐標(biāo)。為將3D坐標(biāo)數(shù)據(jù)轉(zhuǎn)化為骨骼向量,學(xué)者們[9-11]多采用“相連關(guān)節(jié)法”以2個(gè)相連關(guān)節(jié)作為在空間中的1個(gè)三維向量進(jìn)行轉(zhuǎn)化,選取方式見(jiàn)圖2。該方法存在冗余關(guān)節(jié)影響,受識(shí)別對(duì)象身材以及識(shí)別過(guò)程中的身體偏移等因素干擾而導(dǎo)致識(shí)別結(jié)果的魯棒性較低。為解決此問(wèn)題,提出1種“Pelvis發(fā)散法”,所選向量皆以Pelvis為起點(diǎn)、動(dòng)作活動(dòng)高頻關(guān)節(jié)為終點(diǎn),以此構(gòu)成動(dòng)作特征向量,選取方式見(jiàn)圖2。
圖2 特征向量選取方式Fig.2 Selection method of characteristic vector
在不影響動(dòng)作特征完整性表達(dá)的基礎(chǔ)上,舍去一些動(dòng)作姿勢(shì)表達(dá)中作用不明顯的骨骼關(guān)節(jié)點(diǎn),即冗余關(guān)節(jié),有利于后期數(shù)據(jù)的結(jié)果處理[21]。據(jù)此,分別分析抽煙、揮拳、單/雙臂揮手呼救4種動(dòng)作行為特征,選擇不同行為所對(duì)應(yīng)的活動(dòng)頻率較高關(guān)節(jié)點(diǎn)并將其編碼如圖2,選取的特征關(guān)節(jié)向量見(jiàn)表2。
表2 地鐵乘客4種行為對(duì)應(yīng)的關(guān)節(jié)向量選取Table 2 Joint vector selection corresponding to four kinds of behavior of subway passengers
(1)
圖3 標(biāo)準(zhǔn)動(dòng)作與測(cè)試動(dòng)作角度差提取Fig.3 Extraction of angle difference between standard motion and test motion
通過(guò)得到的標(biāo)準(zhǔn)數(shù)據(jù)S與測(cè)試數(shù)據(jù)T這2個(gè)動(dòng)作序列,應(yīng)用DTW算法尋找標(biāo)準(zhǔn)動(dòng)作與測(cè)試動(dòng)作的最佳匹配路徑,同時(shí)最大程度減少時(shí)間上的偏移和變形影響[23]。根據(jù)表2選取的動(dòng)作關(guān)節(jié)向量,每個(gè)動(dòng)作關(guān)節(jié)向量的運(yùn)動(dòng)都構(gòu)成1維時(shí)間序列數(shù)據(jù)。以抽煙動(dòng)作為例,標(biāo)準(zhǔn)動(dòng)作和測(cè)試動(dòng)作的數(shù)據(jù)具有3個(gè)維度,每個(gè)數(shù)據(jù)集的矩陣的維數(shù)為n×3,其中n是運(yùn)動(dòng)數(shù)據(jù)的總幀數(shù)。
(2)
式中:i為元素橫坐標(biāo),1
由式(2)可得到1條具有最小累積距離動(dòng)態(tài)規(guī)整路徑P,據(jù)此獲得關(guān)節(jié)向量的角度差之和cp(S,T),如式(3)所示:
(3)
式中:cp(S,T)是代價(jià)矩陣中最優(yōu)動(dòng)態(tài)規(guī)整路徑的元素之和;S為標(biāo)準(zhǔn)動(dòng)作序列;T為測(cè)試動(dòng)作序列;l為路徑P的步長(zhǎng)。
對(duì)于多維情況,si與tj不是單個(gè)骨骼矢量,而是代表整個(gè)身體運(yùn)動(dòng)的多個(gè)關(guān)節(jié)矢量。多維DTW(S,T)的計(jì)算方式與一維情況類似[25],不同之處在于需要重新定義C(si,tj)。本文將C(si,tj)定義為:所選定動(dòng)作多維關(guān)節(jié)向量中的最大角度差。DTW的輸出DTW(S,T)則為最短動(dòng)態(tài)規(guī)整路徑的最大角度差累積之和。因此,累計(jì)之和越小,2個(gè)運(yùn)動(dòng)序列的相似度越高。為了量化標(biāo)準(zhǔn)動(dòng)作與測(cè)試動(dòng)作的相似度,提出以最大角度差為特征量的相似度公式,以百分比結(jié)果進(jìn)行表征,如式(4)所示:
(4)
式中:l為最優(yōu)動(dòng)態(tài)規(guī)整路徑長(zhǎng)度;V為選擇用于運(yùn)動(dòng)評(píng)估的關(guān)節(jié)矢量個(gè)數(shù)。
最大角度差的取值范圍為0~180°,在該范圍內(nèi)余弦函數(shù)單調(diào)遞減,每個(gè)角度值唯一對(duì)應(yīng)1個(gè)余弦值[12]。因此該最優(yōu)路徑的最大DTW(S,T)為180×V×l。
為檢驗(yàn)“Pelvis發(fā)散法”的實(shí)際識(shí)別效果,通過(guò)對(duì)地鐵乘客不安全行為的識(shí)別開(kāi)展對(duì)比實(shí)驗(yàn)。以“相連關(guān)節(jié)法”為對(duì)照組A組,“Pelvis發(fā)散法”為實(shí)驗(yàn)組B組。
實(shí)驗(yàn)硬件系統(tǒng)如下:Azure Kinect傳感器1臺(tái);主機(jī)電腦:Intel(R)Core(TM) i5-8300H,2.30GHz,8 GB 內(nèi)存,顯卡為NVIDIA GeForce GTX 1050 Ti。系統(tǒng)開(kāi)發(fā)環(huán)境為:Windows 10操作系統(tǒng),Visual Studio 2019及Matlab R2018a。應(yīng)用WPF(Windows Presentation Foundation)平臺(tái)搭建實(shí)驗(yàn)數(shù)據(jù)采集界面,界面包含視頻圖像顯示區(qū)、實(shí)驗(yàn)人員信息記錄區(qū)以及控制設(shè)備區(qū)等模塊,詳見(jiàn)圖4。
圖4 實(shí)驗(yàn)數(shù)據(jù)采集界面Fig.4 Interface of experimental data collection
此次實(shí)驗(yàn)共有6名實(shí)驗(yàn)參與者,將其中1名參與者的全部動(dòng)作數(shù)據(jù)作為標(biāo)準(zhǔn)數(shù)據(jù),其余5人的動(dòng)作數(shù)據(jù)作為測(cè)試數(shù)據(jù)。將上述的抽煙、揮拳、單/雙臂揮手呼救進(jìn)行具體定義,抽煙、揮拳及單臂呼救動(dòng)作以右臂為例,揮手呼救以雙臂揮手呼救為例,具體動(dòng)作見(jiàn)圖5。
圖5 4種地鐵乘客不安全動(dòng)作示例Fig.5 Examples of four unsafe motions of subway passengers
每位測(cè)試者正面站立距Kinect 2.5 m處,當(dāng)實(shí)驗(yàn)界面顯示設(shè)備連接成功時(shí),點(diǎn)擊“數(shù)據(jù)采集”,開(kāi)始采集測(cè)試者動(dòng)作數(shù)據(jù),采集時(shí)間為10 s,共采集到300幀數(shù)據(jù),采集完成后點(diǎn)擊“保存數(shù)據(jù)”,即可自動(dòng)命名并保存至相應(yīng)的.xls文件。5名測(cè)試者分別做每種動(dòng)作10次,即每種動(dòng)作共有50組測(cè)試數(shù)據(jù)。
將采集的數(shù)據(jù)分別采用“相連關(guān)節(jié)法”和“Pelvis發(fā)散法”進(jìn)行動(dòng)作特征向量選取,相對(duì)應(yīng)地將選取結(jié)果定義為A、B 2組。
通過(guò)Matlab對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理運(yùn)算,以B組抽煙動(dòng)作為例,具體算法描述如下:
2)步驟2:根據(jù)式(1)得到3組關(guān)節(jié)角度差值序列。
3)步驟3:選取序列中3組關(guān)節(jié)角度差的最大值作為代價(jià)矩陣的元素。
4)步驟4:通過(guò)步驟3得到300×300代價(jià)矩陣,從(1,1)出發(fā),根據(jù)式(2)的限制條件,得到最優(yōu)動(dòng)態(tài)規(guī)整路徑P。
5)步驟5:輸出得到DTW(S,T)與步長(zhǎng)l。
6)步驟6:將步驟5得到的結(jié)果帶入式(4),最大關(guān)節(jié)角度差值由符合條件的1組對(duì)應(yīng)關(guān)節(jié)得到,即關(guān)節(jié)矢量個(gè)數(shù)V=1,因此:
以上步驟應(yīng)用Matlab語(yǔ)言編程實(shí)現(xiàn),將全部測(cè)試動(dòng)作分別與對(duì)應(yīng)標(biāo)準(zhǔn)動(dòng)作比較,得到每個(gè)測(cè)試動(dòng)作的相似度。
A、B組抽煙、揮拳、單/雙臂揮手呼救4種地鐵乘客不安全行為各50組數(shù)據(jù)的實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 2組動(dòng)作相似度結(jié)果分布對(duì)比Fig.6 Comparison on distribution of motion similarity results of two groups
由圖6可知,B組相似度整體高于A組,尤其在揮拳、單臂呼救、雙臂呼救3種動(dòng)作上的差異更顯著;A組在抽煙、揮拳、單臂呼救、雙臂呼救4種動(dòng)作相似度上的分散程度高于B組,說(shuō)明采用B組“Pelvis發(fā)散法”獲得的動(dòng)作相似度結(jié)果比A組“相連關(guān)節(jié)法”集中程度更高,穩(wěn)定性更強(qiáng)。
對(duì)A、B組4種地鐵乘客不安全行為的各50組數(shù)據(jù)分別取平均值,獲得最終相似度如表3所示。
表3 不安全行為相似度結(jié)果Table 3 Similarity results of unsafe behavior
由表3可知,B組的最終動(dòng)作相似度均高于A組,說(shuō)明采用“Pelvis發(fā)散法”選取動(dòng)作特征向量進(jìn)行動(dòng)作識(shí)別優(yōu)于“相連關(guān)節(jié)法”。其中抽煙的動(dòng)作相似度整體最高,A組達(dá)88.6%,B組達(dá)91.7%;雙臂揮手呼救的動(dòng)作相似度整體最低,A組為67.9%,B組為85.5%。分析認(rèn)為,數(shù)據(jù)的傳輸及錄入本身存在一定的誤差延遲,屬于系統(tǒng)誤差,因此,相似度超過(guò)80%[3]即可認(rèn)為達(dá)到識(shí)別目的,可見(jiàn),B組對(duì)4種動(dòng)作的識(shí)別均達(dá)到良好效果。
同時(shí),雙臂揮手呼救動(dòng)作的相似度整體偏低的原因主要有:運(yùn)動(dòng)速度加快,如雙臂揮動(dòng)速度過(guò)快會(huì)導(dǎo)致系統(tǒng)誤差進(jìn)一步增大;由于該動(dòng)作存在雙臂交叉情況,導(dǎo)致選取的關(guān)節(jié)點(diǎn)在某一時(shí)間點(diǎn)重合,影響動(dòng)作信息捕獲的穩(wěn)定性,產(chǎn)生關(guān)節(jié)位置信息偏差,即關(guān)節(jié)點(diǎn)重合也是導(dǎo)致該動(dòng)作相似度較低的原因之一。后續(xù)可進(jìn)一步開(kāi)發(fā)Kinect動(dòng)作捕捉算法,提高關(guān)節(jié)點(diǎn)重合類動(dòng)作的相似度。
1)基于Kinect獲取的骨骼信息,提出1種地鐵乘客不安全行為識(shí)別方法,方法以Pelvis為起點(diǎn)和動(dòng)作活動(dòng)高頻關(guān)節(jié)為終點(diǎn)構(gòu)建識(shí)別特征向量,基于動(dòng)態(tài)時(shí)間規(guī)整算法(DTW)以最大角度差為動(dòng)作特征量建立相似度計(jì)算模型,可解決冗余關(guān)節(jié)導(dǎo)致的動(dòng)作識(shí)別魯棒性較低、DTW結(jié)果量化與實(shí)際應(yīng)用問(wèn)題。
2)完成“相連關(guān)節(jié)法”(A組)和“Pelvis發(fā)散法”(B組)在抽煙、揮拳、單/雙臂揮手呼救4種地鐵乘客不安全行為識(shí)別的對(duì)比實(shí)驗(yàn)。結(jié)果表明:B組識(shí)別4種不安全行為的準(zhǔn)確度分別為91.7%、86.9%、89.2%、85.5%,平均比A組高4%以上,且識(shí)別結(jié)果集中程度更高、穩(wěn)定性更強(qiáng),顯著提高了地鐵乘客不安全行為的識(shí)別率。
3)研究重點(diǎn)在于,以小樣本數(shù)據(jù)量為基礎(chǔ),避免復(fù)雜訓(xùn)練算法,對(duì)動(dòng)作進(jìn)行有效識(shí)別。但實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)雙臂揮手呼救動(dòng)作的識(shí)別準(zhǔn)確度整體偏低(A組為67.9%,B組為85.5%),除系統(tǒng)誤差外,運(yùn)動(dòng)速度加快、關(guān)節(jié)點(diǎn)重合是導(dǎo)致該問(wèn)題的原因,在后續(xù)研究中可進(jìn)一步深入探討。