孫寶聰
(大連國際機場基建工程部,大連 116003)
安防是“平安機場”建設中的重要問題,尤其是極端人員管控,是安防工作的重點和難點。通過人防、技防相結合,將5G通信、邊緣計算、人工智能等前沿技術應用于機場安防場景,實現(xiàn)極端人員異常行為實施布控、及時發(fā)現(xiàn)、智能識別,是建設“智慧機場”的重要組成部分。隨著深度學習及計算機視覺的發(fā)展,行為識別已經(jīng)取得了重大的進展,并廣泛應用于公共安全領域[1]。目前人體行為識別領域大多從原始視頻幀中直接提取相關特征,并利用深度學習網(wǎng)絡模型進行識別。基于人體關鍵點的行為分析在安防監(jiān)控、人體追蹤、行為檢測、步態(tài)識別等領域起著重要作用[2],該技術可廣泛應用于機場、高鐵站等大型公共場所,實現(xiàn)可疑目標異常行為的自動識別。
人體關鍵點識別首先通過YOLO v3進行人員目標識別,以獲取適當?shù)母惺芤埃涌礻P鍵點識別的速度,其次利用卷積姿態(tài)機對圖片人員目標區(qū)域進行關鍵點預測。在目標識別的過程中采用Multitracker方法進行目標跟蹤,以獲取各人體目標的時序關鍵點信息。
YOLO v3的網(wǎng)絡結構分為骨干網(wǎng)絡(Darknet-53)和檢測網(wǎng)絡,如圖1所示。骨干網(wǎng)絡由52個卷積層組成,并輸出13×13、26×26及52×52三種尺度的特征,送入檢測網(wǎng)絡。檢測網(wǎng)絡對三種尺度的特征回歸,預測出多個預測礦,并使用非極大抑制(Non-Maximum Suppression,NMS)算法去除交并比(Intersection over Union,IOU)較大與置信度較低的預測框,保留置信度較高的預測框為目標檢測框[3]。
圖1 Yolo V3網(wǎng)絡結構
YOLO v3模型在416×416分辨率下,對人體目標的識別精度和識別速度都遠超其他網(wǎng)絡模型,具備較高的準確率和良好的實時性。圖2為YOLO v3模型在視頻幀中的人體識別結果。
光流是由對象或相機的移動引起的兩個連續(xù)的幀之間圖像對象的明顯運動的模式,是2D矢量場,每個矢量是位移矢量,表示第一幀到第二幀點的運動[4]。
圖2 YOLO v3目標識別
假設第一幀的像素I(x,y,t)在時間dt之后的下一幀中移動距離(dx,dy),由于是相同像素且亮度不變,因此:
其泰勒近似為:
其中:
式(2)為光流方程,fx和fy為圖像梯度,ft為時間梯度,但由于有兩個未知量(u,v),導致方程不可求解。Horn-Schunck[5]求解方程的方法是假定一個速度(u,v)的平滑約束,其原理是對光流變化劇烈的局部區(qū)域增加一個懲罰系數(shù),約束方程如下所示:
其中α是預先設置的常量。較大的α值可以獲得國家滿足局部一致條件的運動流向量。Horn-Schunck方法求解的是全局的光流值,其效果如圖3所示,其中左圖為視頻原圖,右圖為Horn-Schunck光流圖。
圖3 Horn-Schunck光流跟蹤
卷積姿態(tài)機(Convolutional Pose Machines,CPM),是目前最先進的2D人體姿態(tài)估計算法。CPM是一種FCN全卷積網(wǎng)絡結合VGGNet的神經(jīng)網(wǎng)絡,CPM通過熱力圖識別人體關鍵點,并實現(xiàn)人體關鍵點的跟蹤[6]。其網(wǎng)絡結構如圖4所示。
該算法將深度學習應用于人體姿態(tài)分析,通過多層卷積神經(jīng)網(wǎng)絡來識別人體18個關鍵點[7]。識別的關鍵點序列如表1所示,圖5為關鍵點識別效果圖。
圖4 CPM模型網(wǎng)絡結構
表1 人體關鍵點編號
圖5 關鍵點識別效果圖
行為識別模型采用SK-CNN模型,包含兩部分:一是對樣本視頻進行時序關鍵點提取,并將時序信息轉換成空間信息;二是設計采用SK-CNN模型對樣本進行訓練并保存模型。
樣本標注流程如下:
(1)對單目標視頻每一幀,采用Yolo v3進行目標識別,并保存目標框圖片范圍。
(2)對保存的圖片,進行動作提取,若連續(xù)N(N取18)幀包含某類動作,則提取連續(xù)N張圖片信息,并標注相應的動作類別。其中動作類別包含:0-快速接近,1-持械攻擊,2-投擲,3-攀爬,4-持槍瞄準。
(3)對提取的動作樣本每一張圖片進行關鍵點識別,提取18個關鍵點的像素坐標,并轉化為歸一化坐標其中T代表幀數(shù),N代表關鍵點序列,width 和height 為圖片的寬度和高度。
(4)將骨骼關鍵點的時序信息轉換成2通道的空間信息。
設計如圖7所示結構的SK-CNN卷積神經(jīng)網(wǎng)絡模型,該模型包括如下幾層:
(1)輸入層:參數(shù)為18×18×2,其中18表示圖片大小,2表示圖片通道。
(2)卷積層:參數(shù)為3×3,卷積核深度為6,不使用全0填充,卷積步長為1,輸出矩陣大小為16×16×6。
(3)池化層:池化層卷積核大小為2×2,不使用全0填充,卷積步長為2,輸出矩陣大小為8×8×6。
(4)卷積層:卷積核大小為2×2,卷積核深度為16,不使用全0填充,卷積步長為1,輸出矩陣大小為4×4×16。
(5)全連接層:全連接神經(jīng)元數(shù)量為120。
(6)全連接層:全連接神經(jīng)元數(shù)量為64。
(7)輸出層:輸出節(jié)點為5,代表5個異常行為類別。輸出層采用softmax激活函數(shù)。
為驗證本論文所研究技術在真實場景下的性能,通過Nvidia DGX深度學習服務器,對深度學習模型進行了訓練。該服務器搭載Intel至強E5-2600 v4處理器以及4塊Nvidia Tesla V100顯卡,單塊顯卡顯存為16G。同時,將已訓練模型加載至Nvidia Jetson Xavier邊緣計算硬件平臺,該平臺CPU硬件配置為8核ARM64,GPU配置為512CUDA核心。本文分別在室內(nèi)、室外復雜環(huán)境2種應用場景進行測試,每人每組動作做20次,并統(tǒng)計模型對每個動作的識別率,統(tǒng)計結果如表2所示。
表2 異常行為識別測試結果
本文研究了一種基于圖像檢測的機場人員異常行為分析技術,可以廣泛應用于機場、高鐵站等公共場所,實現(xiàn)對可疑目標危險行為的自動識別和報警。在野外復雜環(huán)境和室內(nèi)場景對本文算法識別精度進行了測試,結果表明,該模型的行為識別精度可達89%。
通過理論分析和實驗驗證表明,本文算法實現(xiàn)了公共場所可疑目標危險行為實時、準確檢測,通過本文算法的應用,可以極大地降低治安人員工作壓力,提高安全指數(shù),同時,本文所提算法不僅可以運行在服務器,同時也可以搭載于通用的邊緣計算平臺,便于工程化和產(chǎn)品化。