李聰林,王琪冰,陸佳煒,趙國(guó)軍,胡 豪,肖 剛
1.中國(guó)計(jì)量大學(xué) 機(jī)電工程學(xué)院,杭州 310018
2.浙江工業(yè)大學(xué) 機(jī)械工程學(xué)院,杭州 310014
電梯是與公眾日常生活密切相關(guān)的公共基礎(chǔ)設(shè)施。根據(jù)國(guó)家市場(chǎng)監(jiān)管總局關(guān)于全國(guó)特種設(shè)備的公開數(shù)據(jù)顯示,截至2021 年年底,中國(guó)電梯的保有量已達(dá)879.98萬(wàn)臺(tái)。隨著電梯數(shù)量的增加,電梯安全與公眾安全逐漸受到社會(huì)各方面的關(guān)注。
近年來(lái),研究者已經(jīng)針對(duì)電梯轎廂內(nèi)的跌倒、跳躍、打斗以及扒門等多種乘客異常行為展開了大量研究[1-6]。Liu 等人[1]提出了基于機(jī)器視覺和多特征融合的電梯乘客跌倒檢測(cè)方法;Sun 和Zhu 等人[2-3]針對(duì)電梯轎廂內(nèi)的打斗行為,分別提出了基于角點(diǎn)動(dòng)能和光流法的異常行為檢測(cè)模型;Lan 等人[4]通過(guò)建立基于雙流卷積神經(jīng)網(wǎng)絡(luò)的乘客異常行為檢測(cè)模型,實(shí)現(xiàn)了對(duì)扒門、打斗以及跌倒等異常行為的精準(zhǔn)識(shí)別;李佳和陳龍[5-6]分別使用AlphaPose 和OpenPose 算法作為人體骨骼信息提取的基本網(wǎng)絡(luò),并選取SVM和神經(jīng)網(wǎng)絡(luò)作為分類模型,實(shí)現(xiàn)了對(duì)電梯內(nèi)乘客扒門、摔倒、跳躍以及打斗等異常行為的實(shí)時(shí)監(jiān)測(cè)與報(bào)警。
然而上述方法在模型訓(xùn)練與驗(yàn)證過(guò)程中都存在異常行為樣本數(shù)據(jù)缺乏的問(wèn)題。目前的異常行為數(shù)據(jù)增強(qiáng)主要有兩種解決方法:(1)通過(guò)志愿者模擬異常行為動(dòng)作[1-6],但該方法存在安全風(fēng)險(xiǎn),而且執(zhí)行過(guò)程中需要考慮時(shí)間及設(shè)備成本;(2)使用人體物理模型模擬異常行為[7-9],但人體物理模型的動(dòng)作姿態(tài)固定,無(wú)法還原真實(shí)人體的運(yùn)動(dòng)特征。數(shù)字孿生理念[10]的出現(xiàn)為上述問(wèn)題提供了解決思路。通過(guò)構(gòu)建物理設(shè)備[11-13]與真實(shí)人體的數(shù)字孿生模型,并結(jié)合數(shù)據(jù)交互技術(shù),一方面可以實(shí)現(xiàn)真實(shí)“人-機(jī)”交互過(guò)程的安全監(jiān)管[14-16];另一方面,利用孿生場(chǎng)景提供的高保真虛擬設(shè)備與人體模型來(lái)模擬高危、低頻的異常行為,不僅可以節(jié)約設(shè)備成本、保障人員生命財(cái)產(chǎn)安全,還可以為機(jī)器學(xué)習(xí)領(lǐng)域中的異常行為識(shí)別提供源源不斷的仿真數(shù)據(jù)。
綜上所述,本文將數(shù)字孿生應(yīng)用于垂直電梯乘客行為監(jiān)測(cè)中,提出了一種基于數(shù)字孿生的電梯乘客異常行為建模與識(shí)別方法。通過(guò)構(gòu)建電梯乘客行為監(jiān)測(cè)數(shù)字孿生體與人體行為孿生模型,實(shí)現(xiàn)了電梯乘客異常行為的數(shù)據(jù)增強(qiáng),為異常行為識(shí)別研究提供了大量孿生數(shù)據(jù)源。在此基礎(chǔ)上,利用改進(jìn)的乘客異常行為識(shí)別算法,對(duì)孿生數(shù)據(jù)進(jìn)行特征提取與迭代學(xué)習(xí),并將訓(xùn)練好的模型應(yīng)用于真實(shí)場(chǎng)景中,實(shí)現(xiàn)了乘客異常行為的實(shí)時(shí)檢測(cè)與可視化預(yù)警。
參考陶飛等[12]提出的數(shù)字孿生五維模型架構(gòu),本文的垂直電梯乘客行為監(jiān)測(cè)數(shù)字孿生框架可分為如圖1所示的四層結(jié)構(gòu),分別為物理層、交互層、虛擬層以及應(yīng)用層。
圖1 電梯乘客行為監(jiān)測(cè)數(shù)字孿生框架Fig.1 Digital twin framework for elevator passenger behavior monitoring
(1)物理層
物理層包括了參與電梯運(yùn)載任務(wù)的各類物理實(shí)體,如電梯系統(tǒng)、乘客以及傳感器等。其中,電梯系統(tǒng)是完成運(yùn)載任務(wù)的主體;乘客是運(yùn)載任務(wù)的主要服務(wù)對(duì)象;傳感器采集的速度、振動(dòng)加速度、開關(guān)門狀態(tài)、視頻等動(dòng)態(tài)數(shù)據(jù)和設(shè)備的幾何尺寸、材質(zhì)信息等靜態(tài)數(shù)據(jù),是建立并驅(qū)動(dòng)虛擬層模型的數(shù)據(jù)基礎(chǔ)。
(2)交互層
交互層在結(jié)構(gòu)上主要由電梯控制柜、視頻解析服務(wù)器以及邊緣控制器組成。通過(guò)定義傳輸網(wǎng)絡(luò)、數(shù)據(jù)接口以及實(shí)施邊緣控制,可以實(shí)現(xiàn)物理層與虛擬層之間數(shù)據(jù)的雙向傳遞。一方面,交互層將采集到的視頻數(shù)據(jù)、乘客姿態(tài)數(shù)據(jù)、電梯靜態(tài)與動(dòng)態(tài)數(shù)據(jù)等傳送至虛擬層,供虛擬層的模型驅(qū)動(dòng)調(diào)用;另一方面,虛擬層不僅可以將控制指令發(fā)送給邊緣控制器,實(shí)現(xiàn)對(duì)電梯系統(tǒng)的控制,還可以將仿真數(shù)據(jù)發(fā)送至視頻解析服務(wù)器進(jìn)行模型訓(xùn)練。
(3)虛擬層
虛擬層是以實(shí)體數(shù)字建模、物聯(lián)網(wǎng)、人工智能等新一代信息技術(shù)為手段,將物理層的所有空間、屬性和管理數(shù)據(jù)進(jìn)行存儲(chǔ)、傳輸、表達(dá)和深加工的數(shù)字空間,在結(jié)構(gòu)上包括了孿生數(shù)據(jù)以及孿生模型。孿生模型主要由設(shè)備狀態(tài)模型與人體行為模型組成。設(shè)備狀態(tài)模型借助虛實(shí)交互技術(shù),在幾何模型的基礎(chǔ)上融合設(shè)備實(shí)時(shí)狀態(tài)信息,實(shí)現(xiàn)對(duì)設(shè)備運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)測(cè);人體行為模型是乘客行為監(jiān)測(cè)數(shù)字孿生的核心,既可以利用視頻數(shù)據(jù)實(shí)現(xiàn)真實(shí)乘客動(dòng)作的虛實(shí)映射,又可以借助數(shù)字孿生環(huán)境創(chuàng)建大量異常危險(xiǎn)行為數(shù)據(jù)。孿生數(shù)據(jù)來(lái)自于物理層和虛擬層,物理層的數(shù)據(jù)用于驅(qū)動(dòng)孿生模型,虛擬層的數(shù)據(jù)供應(yīng)用層與交互層進(jìn)行調(diào)用。
(4)應(yīng)用層
為了實(shí)現(xiàn)對(duì)乘客搭乘電梯行為的實(shí)時(shí)監(jiān)測(cè),應(yīng)用層主要包括了電梯運(yùn)行三維可視化和乘客異常行為預(yù)警功能。相較于傳統(tǒng)的平面展示,本文結(jié)合UⅠ設(shè)計(jì)與三維可視化技術(shù),將電梯運(yùn)行過(guò)程中的高度、速度以及乘客姿態(tài)等信息融入相應(yīng)的孿生模型中,實(shí)現(xiàn)了電梯設(shè)備與乘客行為的三維動(dòng)態(tài)監(jiān)管。同時(shí),當(dāng)系統(tǒng)檢測(cè)出乘客異常行為時(shí),應(yīng)用層可以將告警信息、電梯狀態(tài)以及監(jiān)控視頻等進(jìn)行直觀展示,管理人員則可以根據(jù)以上內(nèi)容在第一時(shí)間采取相應(yīng)救助措施。
垂直電梯乘客行為監(jiān)測(cè)數(shù)字孿生平臺(tái)在Unreal Engine4(UE4)中進(jìn)行搭建,如圖2所示該過(guò)程可分為幾何模型繪制、孿生場(chǎng)景搭建以及虛實(shí)數(shù)據(jù)映射三個(gè)步驟:
圖2 電梯乘客行為監(jiān)測(cè)數(shù)字孿生場(chǎng)景構(gòu)建Fig.2 Construction of digital twin scene for elevator passenger behavior monitoring
(1)幾何模型繪制
電梯模型按其功能可分為曳引系統(tǒng)、轎廂、重量平衡系統(tǒng)、導(dǎo)向系統(tǒng)、電氣控制系統(tǒng)、電力拖動(dòng)系統(tǒng)、門系統(tǒng)以及安全保護(hù)系統(tǒng)八大部分,使用SolidWorks對(duì)其各系統(tǒng)進(jìn)行繪制;人物模型通過(guò)Maya繪制,但為了在孿生場(chǎng)景中具備反映真實(shí)人體行為特征的能力,必須在繪制人物模型時(shí)加入骨架網(wǎng)格體。
(2)孿生場(chǎng)景搭建
依據(jù)物理世界中的包含關(guān)系,將上述幾何模型導(dǎo)入到UE4 中進(jìn)行總體裝配。為了建立與物理層特征對(duì)應(yīng)的孿生場(chǎng)景,需要在搭建場(chǎng)景時(shí)重新定義材質(zhì)屬性、層級(jí)關(guān)系及運(yùn)動(dòng)約束條件等。以電梯模型為例,按其父、子系統(tǒng)間的包含關(guān)系定義層級(jí),并通過(guò)設(shè)置曳引機(jī)和鋼絲繩、轎廂和對(duì)重等相關(guān)組件之間的運(yùn)動(dòng)約束條件,可以使其在孿生場(chǎng)景中的運(yùn)動(dòng)與物理世界保持一致。
(3)虛實(shí)數(shù)據(jù)映射
孿生數(shù)據(jù)是實(shí)現(xiàn)物理實(shí)體與虛擬模型之間實(shí)時(shí)映射的關(guān)鍵,本文需要傳輸?shù)膶\生數(shù)據(jù)包含了電梯運(yùn)行數(shù)據(jù)以及乘客行為數(shù)據(jù)。電梯運(yùn)行速度、高度、開關(guān)門狀態(tài)等數(shù)據(jù)通過(guò)外置接口板與電梯控制柜之間的RS485通信總線獲取,并存入相應(yīng)MySQL 數(shù)據(jù)庫(kù)中用于驅(qū)動(dòng)虛擬電梯模型。乘客行為數(shù)據(jù)包括視頻數(shù)據(jù)和乘客姿態(tài)信息,其中,乘客姿態(tài)信息通過(guò)在視頻解析服務(wù)器上利用本文提出的SSAM-OpenPose 算法與PCA-DNN 分類器獲取,并通過(guò)TCP網(wǎng)絡(luò)協(xié)議與Socket通信發(fā)送至客戶端,用于驅(qū)動(dòng)虛擬人物模型以及實(shí)現(xiàn)可視化預(yù)警。客戶端為數(shù)字孿生平臺(tái),通過(guò)使用C++與BluePrint對(duì)輸入數(shù)據(jù)進(jìn)行解析與分配接口,即可實(shí)現(xiàn)可視化服務(wù)平臺(tái)的搭建。
通過(guò)搭建垂直電梯乘客行為監(jiān)測(cè)數(shù)字孿生平臺(tái),實(shí)現(xiàn)了對(duì)實(shí)際工況的高保真映射。但乘客異常行為識(shí)別是實(shí)現(xiàn)電梯乘客行為監(jiān)測(cè)的重要組成部分,由于異常行為發(fā)生幾率小、異常行為數(shù)據(jù)稀缺,導(dǎo)致基于機(jī)器學(xué)習(xí)的異常行為識(shí)別方法缺少大量的訓(xùn)練和測(cè)試樣本。傳統(tǒng)的異常行為數(shù)據(jù)增強(qiáng)方法不僅需要考慮時(shí)間與設(shè)備成本,還需要考慮試驗(yàn)人員的生命安全。本文利用數(shù)字孿生提供的高保真虛擬環(huán)境,通過(guò)虛擬人物行為建模實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界中乘客異常行為的模擬,生成大量異常行為數(shù)據(jù),解決了現(xiàn)實(shí)中電梯乘客異常行為數(shù)據(jù)稀缺的問(wèn)題。
在虛擬人物行為建模過(guò)程中,如果基于真實(shí)人體結(jié)構(gòu)對(duì)行為動(dòng)作進(jìn)行數(shù)字化表達(dá),需要考慮人的骨骼、肌肉和皮膚等基礎(chǔ)實(shí)體,該方式不僅包含了大量的生理信息,不方便存儲(chǔ)與處理,而且不同人物之間的生理信息不存在關(guān)聯(lián)性,大幅增加了行為建模的難度。因此,將人體抽象為如圖3(a)所示的若干骨骼與關(guān)節(jié)的集合,不僅可以降低構(gòu)建完整人體行為模型的復(fù)雜度,而且人的骨骼結(jié)構(gòu)具有相似性,人體行為動(dòng)作也可以使用這些關(guān)節(jié)的位置信息進(jìn)行描述。
圖3 人體骨骼模型與關(guān)節(jié)樹Fig.3 Human skeleton model and joint tree
但傳統(tǒng)的三維坐標(biāo)描述方法使運(yùn)動(dòng)過(guò)程中各個(gè)關(guān)節(jié)點(diǎn)的位置參數(shù)相互獨(dú)立,違背了人體模型骨架長(zhǎng)度不變的約束。為了克服這個(gè)缺陷,通常使用層次化的方法將人體模型等效為圖3(b)所示的關(guān)節(jié)樹。樹的根節(jié)點(diǎn)是人體骨骼模型的幾何中心,它可以控制模型的整體位移和方向,剩下的子節(jié)點(diǎn)則通過(guò)間接或直接連接到根節(jié)點(diǎn)上,共同輔助完成人體模型姿態(tài)的確定和運(yùn)動(dòng)過(guò)程的呈現(xiàn)[17]。
將人體骨骼等效為關(guān)節(jié)樹后,整個(gè)人體的運(yùn)動(dòng)就可以通過(guò)正運(yùn)動(dòng)學(xué)和逆運(yùn)動(dòng)學(xué)的方法來(lái)進(jìn)行細(xì)化描述[18]。其中,當(dāng)已知每個(gè)關(guān)節(jié)相對(duì)于其父關(guān)節(jié)的位移和旋轉(zhuǎn)后,通過(guò)正運(yùn)動(dòng)學(xué)可求解運(yùn)動(dòng)后的整個(gè)人體姿態(tài);當(dāng)已知初始和結(jié)束時(shí)的人體姿態(tài),需要獲取運(yùn)動(dòng)過(guò)程期間每個(gè)關(guān)節(jié)的具體變化時(shí),可以通過(guò)逆運(yùn)動(dòng)學(xué)進(jìn)行求解。
電梯乘客異常行為是指乘客在電梯內(nèi)做出的威脅設(shè)備正常運(yùn)行以及乘客生命安全的一系列危險(xiǎn)動(dòng)作。由于此類異常案例較少,真人動(dòng)作模擬存在安全風(fēng)險(xiǎn)?;诖?,本文利用搭建的電梯數(shù)字孿生場(chǎng)景,給出了如圖4所示的乘客異常行為建模流程。
圖4 基于數(shù)字孿生的乘客異常行為建模流程Fig.4 Modeling process of passenger abnormal behavior based on digital twin
首先需要將導(dǎo)入孿生場(chǎng)景的人物模型進(jìn)行骨骼重定向,使具有不同骨骼結(jié)構(gòu)的虛擬人物能夠在同一場(chǎng)景中實(shí)現(xiàn)動(dòng)作復(fù)用;其次,移動(dòng)人物模型骨骼系統(tǒng)中的骨骼節(jié)點(diǎn),制作關(guān)鍵幀時(shí)刻的運(yùn)動(dòng)姿態(tài),并以逆運(yùn)動(dòng)學(xué)求解細(xì)化關(guān)節(jié)點(diǎn)數(shù)據(jù)、正運(yùn)動(dòng)學(xué)生成相應(yīng)動(dòng)作序列;然后,為人物模型賦予不同狀態(tài),并且為各個(gè)狀態(tài)附加對(duì)應(yīng)的行為動(dòng)作和觸發(fā)條件;最后,在孿生場(chǎng)景中執(zhí)行觸發(fā)條件即可實(shí)現(xiàn)異常行為復(fù)現(xiàn)。
通過(guò)異常行為建??梢詣?chuàng)建各種類型的危險(xiǎn)動(dòng)作,但基于機(jī)器學(xué)習(xí)的異常行為識(shí)別研究需要大量的視頻圖像數(shù)據(jù)。因此,本文在虛擬轎廂上共放置了4個(gè)Camera-Actor對(duì)虛擬人物的行為動(dòng)作進(jìn)行全方位采集,如圖5所示,獲取了不同視角的乘客異常行為動(dòng)作。
圖5 孿生場(chǎng)景乘客異常行為采集Fig.5 Passenger abnormal behavior collection in twin scenarios
在采集過(guò)程中,本文將CameraActor 的幀率設(shè)置為30 frame/s,分辨率設(shè)置為1 920×1 080,圖像輸出格式設(shè)置為video sequence(avi),角度統(tǒng)一設(shè)置為平行轎頂水平面向下45°,并通過(guò)使用C++指令控制4 臺(tái)虛擬相機(jī)同時(shí)進(jìn)行錄制。該過(guò)程不僅節(jié)約了實(shí)驗(yàn)過(guò)程中的時(shí)間與設(shè)備成本,又避免了真人進(jìn)行危險(xiǎn)動(dòng)作模擬的安全風(fēng)險(xiǎn),充分體現(xiàn)了利用數(shù)字孿生環(huán)境生成大量異常數(shù)據(jù)的便捷性、高效性與安全性。針對(duì)電梯內(nèi)的跳躍、扒門、踢門以及跌倒等異常行為動(dòng)作,其數(shù)據(jù)增強(qiáng)結(jié)果如圖6所示。
圖6 乘客異常行為數(shù)據(jù)增強(qiáng)Fig.6 Passenger abnormal behavior data enhancement
基于數(shù)字孿生的乘客異常行為建模,為乘客異常行為識(shí)別研究提供了大量的訓(xùn)練與測(cè)試樣本,解決了現(xiàn)實(shí)生活中異常案例缺乏、異常數(shù)據(jù)稀缺的問(wèn)題。為進(jìn)一步完善電梯乘客行為監(jiān)測(cè)數(shù)字孿生平臺(tái)應(yīng)用開發(fā),本文提出了融合孿生數(shù)據(jù)的乘客異常行為識(shí)別模型。該模型的整體框架如圖7所示,主要分為以下兩步:(1)將實(shí)際中采集的乘客異常行為視頻數(shù)據(jù)與2.2 節(jié)中構(gòu)建的乘客異常行為孿生數(shù)據(jù)處理為圖像序列,并使用SSAM-OpenPose 算法從中提取人體的骨骼姿態(tài);(2)基于PCA-DNN 網(wǎng)絡(luò)實(shí)現(xiàn)電梯乘客異常行為的實(shí)時(shí)檢測(cè)與快速預(yù)警。
圖7 融合孿生數(shù)據(jù)的乘客異常行為識(shí)別模型Fig.7 Passenger abnormal behavior recognition model fused with twin data
OpenPose 是由卡耐基梅隆大學(xué)提出的一種多階段、有監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)[19],目前被廣泛應(yīng)用于人體行為識(shí)別方面,其整體結(jié)構(gòu)如圖7 的?所示。首先通過(guò)backbone 提取出特征圖F,然后將其輸入到第一階段Stage_1 的Branch1 和Branch2,進(jìn)而分別得到關(guān)節(jié)點(diǎn)的2D置信圖S1和部分親和域L1,最后將F、St-1和Lt-1作為下一階段Stage_t(t≥2)的輸入,并進(jìn)行多次迭代。其中Branch1和Branch2兩個(gè)分支在不同階段的輸入與輸出如式(1)所示:
式中,ρt、φt分別表示t階段的2D置信圖、部分親和域與t-1 階段的特征圖、2D置信圖、部分親和域之間的網(wǎng)絡(luò)關(guān)系。
通過(guò)以上多階段卷積神經(jīng)網(wǎng)絡(luò)的不斷迭代,獲取了人體的各個(gè)關(guān)節(jié)點(diǎn)。而對(duì)于任意兩個(gè)關(guān)節(jié)點(diǎn)的位置dj1和dj2,需要通過(guò)式(2)計(jì)算部分親和域的線性積分來(lái)表征關(guān)節(jié)點(diǎn)對(duì)的置信度E。最后,選取置信度最高的關(guān)節(jié)完成拼接,即可得到整個(gè)人體的骨骼姿態(tài):
式中,Lc表示關(guān)節(jié)點(diǎn)對(duì)的部分親和域。
雖然傳統(tǒng)的OpenPose 算法在大場(chǎng)景下具有識(shí)別速度快、準(zhǔn)確率高的優(yōu)勢(shì)。但電梯視頻監(jiān)控的范圍較小,容易造成乘客與轎廂背景混淆而降低特征提取的準(zhǔn)確率,所以需要更多地考慮深層與淺層網(wǎng)絡(luò)之間的依賴關(guān)系,以捕獲更多的細(xì)節(jié)和紋理。VGG-19[20]作為OpenPose 算法的特征提取網(wǎng)絡(luò),其卷積網(wǎng)絡(luò)的不斷迭代使得特征圖的顯著性不斷降低。因此,為了更好地提取轎廂環(huán)境中的乘客骨骼特征,本文對(duì)傳統(tǒng)VGG-19進(jìn)行了相應(yīng)改進(jìn),提出了一種基于骨骼點(diǎn)空間注意力機(jī)制(skeletal spatial attention module,SSAM)的電梯乘客骨骼點(diǎn)檢測(cè)算法SSAM-OpenPose。該算法的backbone(VGG19+SSAM)網(wǎng)絡(luò)結(jié)構(gòu),如圖8所示。
圖8 SSAM-OpenPose算法的backbone結(jié)構(gòu)圖Fig.8 Backbone structure diagram of SSAM-OpenPose
該結(jié)構(gòu)首先對(duì)VGG-19網(wǎng)絡(luò)中第三個(gè)Maxpool層的輸出張量同時(shí)執(zhí)行最大池化和平均池化操作;其次,將這兩個(gè)輸出張量(經(jīng)過(guò)最大池化的2D 張量和經(jīng)過(guò)平均池化的2D張量)進(jìn)行拼接并串聯(lián)到一個(gè)使用Sigmoid函數(shù)的大小為7×7 的卷積核上;最后,將整個(gè)注意力機(jī)制的輸出張量與原Maxpool層的輸出張量進(jìn)行拼接,作為下一層的輸入張量并繼續(xù)進(jìn)行特征提取。整個(gè)骨骼點(diǎn)空間注意力機(jī)制的輸出張量被稱為MS( )G,其表達(dá)式如下所示:
式中,GaSvg、GmSax分別表示對(duì)輸入張量G進(jìn)行平均池化和最大池化操作得到的二維張量,σ為Sigmoid 函數(shù),[GaSvg;GmSax]表示張量拼接,f7×7表示高寬為7×7 的卷積核。
基于SSAM-OpenPose的人體骨骼檢測(cè)不僅是獲取現(xiàn)實(shí)環(huán)境中乘客姿態(tài)信息的關(guān)鍵環(huán)節(jié),同樣也是獲取乘客異常行為分類訓(xùn)練數(shù)據(jù)集的核心內(nèi)容。因此,在訓(xùn)練分類器之前,需要將采集的真實(shí)圖像序列與孿生圖像序列共同輸入到SSAM-OpenPose 中,得到相應(yīng)異常行為的骨骼特征。針對(duì)孿生場(chǎng)景中構(gòu)建的各類乘客異常行為,其骨骼特征如圖9所示。
圖9 基于孿生數(shù)據(jù)的乘客異常行為骨骼特征Fig.9 Skeletal features of passenger abnormal behavior based on twin data
目前人體行為分類主要有兩種方法:(1)根據(jù)骨骼結(jié)構(gòu)與肢體的傾角關(guān)系判斷人體行為,但該方法會(huì)因?yàn)檎趽鯁?wèn)題而導(dǎo)致分類的準(zhǔn)確率降低;(2)通過(guò)機(jī)器學(xué)習(xí)的方法輸入多個(gè)骨骼特征訓(xùn)練分類模型,該方法在遮擋環(huán)境或存在視野盲區(qū)時(shí),依舊具有良好的分類效果。因此,本文將SSAM-OpenPose 獲取的骨骼特征進(jìn)行預(yù)處理,并在此基礎(chǔ)上采用基于PCA-DNN的機(jī)器學(xué)習(xí)方法對(duì)乘客異常行為進(jìn)行分類。
3.2.1 特征預(yù)處理
在SSAM-OpenPose中,人體骨骼可視為由圖10(a)所示的18個(gè)關(guān)節(jié)點(diǎn)組成,并且每個(gè)關(guān)節(jié)在圖像中都用x和y的坐標(biāo)值表示。但關(guān)節(jié)點(diǎn)的二維坐標(biāo)變化并不適用于表征某些具有運(yùn)動(dòng)特性的動(dòng)作。因此,為了更準(zhǔn)確地區(qū)分電梯內(nèi)的乘客動(dòng)作類型,本文對(duì)骨骼特征做了如下預(yù)處理操作:
圖10 特征預(yù)處理Fig.10 Feature preprocessing
(1)頭部關(guān)節(jié)、無(wú)效幀過(guò)濾
研究表明,頭部關(guān)節(jié)對(duì)于行為分類的幫助并不大,重要的是身體與四肢的結(jié)構(gòu)[21]。因此,本文在采集姿態(tài)信息時(shí),過(guò)濾了頭部的5 個(gè)關(guān)節(jié)點(diǎn),使得特征提取的速度得以提升。同時(shí),未檢測(cè)出關(guān)節(jié)點(diǎn)的圖片也會(huì)被視為無(wú)效幀并被丟棄。
(2)軀干缺失關(guān)節(jié)補(bǔ)全
由于轎廂環(huán)境的特殊性,攝像機(jī)的拍攝視角并非平行于乘客。因此,SSAM-OpenPose 在某些情況下可能無(wú)法從圖像中檢測(cè)到完整的人體骨骼,導(dǎo)致某些關(guān)節(jié)位置出現(xiàn)空白。這些關(guān)節(jié)必須填充一些值,以便為特征分類過(guò)程保持一個(gè)固定大小的特征向量。針對(duì)關(guān)節(jié)缺少問(wèn)題,本文給出了如下解決思路:
式中,(xi_curr,yi_curr)和(xNeck_curr,yNeck_curr)分別為當(dāng)前幀中的某個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)和頸部關(guān)節(jié)點(diǎn)坐標(biāo),(xi_prev,yi_prev)和(xNeck_prev,yNeck_prev)分別為前一幀中的某個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)和頸部關(guān)節(jié)點(diǎn)坐標(biāo)。如果當(dāng)前幀中某個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)丟失,則根據(jù)該關(guān)節(jié)點(diǎn)前一幀相對(duì)于頸部的相對(duì)位置來(lái)填充當(dāng)前的關(guān)節(jié)點(diǎn)坐標(biāo)。
(3)骨骼特征選取
通過(guò)以上步驟后,獲取的人體軀干骨骼信息是完整的。為了提高分類模型的準(zhǔn)確率,本文以圖10(b)所示的滑動(dòng)窗口對(duì)整個(gè)圖像序列的軀干骨骼信息進(jìn)行處理,并設(shè)計(jì)了表1 所示的5 種骨骼特征,用于分類模型的輸入。
表1 特征描述Table 1 Characteristic description
3.2.2 乘客行為分類
深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)是目前許多人工智能應(yīng)用的基礎(chǔ)[22]。由于DNN能夠使用統(tǒng)計(jì)學(xué)習(xí)方法從原始感官數(shù)據(jù)中提取高層特征,并且可以在大量的數(shù)據(jù)中獲得輸入空間的有效表征。因此,本文將DNN模型作為電梯乘客異常行為的分類器。DNN模型通常由輸入層、隱藏層和輸出層3 部分組成,而每一部分又包含了若干個(gè)圖11所示的神經(jīng)元模型。
圖11 M-P神經(jīng)元模型Fig.11 M-P neuron model
在圖11 中,每個(gè)神經(jīng)元都需要接收來(lái)自上一層n個(gè)神經(jīng)元傳遞的信號(hào),這些輸入信號(hào)通過(guò)帶權(quán)重的連接進(jìn)行傳遞、求和并與閾值θ進(jìn)行比較,最終通過(guò)激活函數(shù)f(x)處理即可得到該神經(jīng)元的輸出結(jié)果y,整個(gè)過(guò)程如下式:
式中,w為權(quán)重系數(shù)。
如果將表1的特征全部作為分類模型的輸入數(shù)據(jù),DNN每次處理的數(shù)據(jù)量將高達(dá)數(shù)百維。這不僅會(huì)產(chǎn)生過(guò)多冗余輸入影響網(wǎng)絡(luò)運(yùn)行速度,并且可能會(huì)因?yàn)樘荻认Щ蛱荻缺ǘ苯佑绊懛诸愋Ч?。針?duì)此問(wèn)題,本文提出了基于主成分分析(principal component analysis,PCA)與DNN 融合的乘客行為分類方法,其結(jié)構(gòu)如圖7的?所示。PCA是一種基于矩陣線性變換的降維算法,可以將高緯度的數(shù)據(jù)降到低緯度,并保留原始數(shù)據(jù)中一些最重要的特征,同時(shí)去除噪聲和部分關(guān)聯(lián)特征[23-24]。對(duì)輸入特征X={x1,x2,…,xn}進(jìn)行PCA 降維的基本步驟如下所示。
(1)去除平均值:
(2)計(jì)算協(xié)方差矩陣:
(3)求Cov的特征值和對(duì)應(yīng)的特征向量。
(4)確定目標(biāo)維數(shù)k,并按特征值由大到小順序?qū)?duì)應(yīng)的特征向量按行排列成矩陣P。一般地,目標(biāo)維數(shù)可依據(jù)累計(jì)貢獻(xiàn)率原則進(jìn)行自動(dòng)選取:
式中,λ為特征值,ε為主成分比重閾值。
(5)Y=PX則為PCA降維后得到的特征。
4.1.1 實(shí)驗(yàn)環(huán)境
本文中所涉及的實(shí)驗(yàn)環(huán)境主要包括以下兩種:(1)電梯數(shù)字孿生平臺(tái),其搭建環(huán)境為Windows10 操作系統(tǒng)下的Unreal Engine 4.27,處理器為Ⅰntel Core i7-8700 CPU@3.20 GHz,GPU 為NVⅠDⅠA GTX1050Ti,運(yùn)行內(nèi)存為28 GB。(2)視頻分析服務(wù)器,其搭建環(huán)境為Ubuntu16.4 操作系統(tǒng),框架采用TensorFlow,GPU 為NVⅠDⅠA RTX3080,運(yùn)行內(nèi)存為32 GB。
4.1.2 數(shù)據(jù)集
實(shí)驗(yàn)在COCO2017 數(shù)據(jù)集[25]和自定義的電梯乘客異常行為數(shù)據(jù)集上進(jìn)行。其中,COCO2017數(shù)據(jù)集用于檢驗(yàn)本文的SSAM-OpenPose骨骼點(diǎn)檢測(cè)算法。該數(shù)據(jù)集包含訓(xùn)練、驗(yàn)證和測(cè)試集共163 957張圖片,而且每張圖片都附有人體的18個(gè)骨骼關(guān)節(jié)點(diǎn)標(biāo)注。
通過(guò)對(duì)真實(shí)場(chǎng)景和孿生場(chǎng)景中的視頻以每秒30幀的速度進(jìn)行截取與合并,共同組成了表2所示的自定義乘客異常行為數(shù)據(jù)集。
4.2.1 性能對(duì)比分析
為驗(yàn)證SSAM-OpenPose骨骼點(diǎn)檢測(cè)算法的準(zhǔn)確性與實(shí)時(shí)性,本文在COCO測(cè)試集(40 670張圖片)上與其他檢測(cè)方法進(jìn)行了性能對(duì)比。實(shí)驗(yàn)結(jié)果如表3所示,其中AP 為平均精度均值指標(biāo);AP50和AP75分別表示閾值為0.50 和0.75 的關(guān)節(jié)點(diǎn)預(yù)測(cè)指標(biāo);APM和APL分別表示人體尺寸較小和人體尺寸較大情況下的預(yù)測(cè)指標(biāo);Time-consumed為算法在本文實(shí)驗(yàn)平臺(tái)上所消耗的測(cè)試時(shí)間,用于表征算法的時(shí)間復(fù)雜度。
表3 不同網(wǎng)絡(luò)在COCO測(cè)試集上的性能對(duì)比Table 3 Performance comparison of different networks on COCO test sets
對(duì)比表3中各模型的精度與時(shí)間復(fù)雜度指標(biāo)可知:(1)SSAM-OpenPose的AP50與APM預(yù)測(cè)指標(biāo)在以上算法中表現(xiàn)最佳。此外,相較于原OpenPose 模型,SSAMOpenPose 的各項(xiàng)精度指標(biāo)均有提升且幅度約為3%。(2)注意力機(jī)制的引入并未對(duì)SSAM-OpenPose 的算法復(fù)雜度造成過(guò)大影響,該算法處理圖片的平均時(shí)間仍與原OpenPose 接近,可滿足實(shí)時(shí)性需求。圖12為SSAMOpenPose在COCO2017數(shù)據(jù)集中的人體骨骼點(diǎn)檢測(cè)效果。
圖12 SSAM-OpenPose在COCO數(shù)據(jù)集的骨骼點(diǎn)檢測(cè)Fig.12 SSAM-OpenPose human skeleton point detection in COCO dataset
4.2.2 場(chǎng)景驗(yàn)證分析
乘客與轎廂背景混淆是導(dǎo)致人體骨骼點(diǎn)識(shí)別準(zhǔn)確率下降的主要因素,圖13 所示為SSAM-OpenPose 在真實(shí)電梯轎廂環(huán)境中的乘客骨骼點(diǎn)檢測(cè)結(jié)果,即使是顏色通道較少的灰度圖像,該網(wǎng)絡(luò)依舊具有較好的識(shí)別效果,而無(wú)法準(zhǔn)確識(shí)別乘客骨骼的情況主要由攝像機(jī)拍攝角度造成。
圖13 SSAM-OpenPose在真實(shí)電梯中的乘客骨骼點(diǎn)檢測(cè)Fig.13 SSAM-OpenPose passenger skeleton point detection in real elevators
4.3.1 特征維度選取
在訓(xùn)練乘客行為分類網(wǎng)絡(luò)之前,需要對(duì)自定義數(shù)據(jù)集進(jìn)行骨骼點(diǎn)標(biāo)注,用于乘客行為模型的訓(xùn)練與測(cè)試分析。因此,本節(jié)采用3.2 節(jié)所述的方式對(duì)獲取的原始骨骼信息進(jìn)行特征預(yù)處理。由于無(wú)效幀的剔除,最終參與實(shí)際訓(xùn)練的圖片總數(shù)為4 869 張,其中真實(shí)圖片為216張,孿生圖片為4 653 張。同時(shí),歸一化的關(guān)節(jié)位置(X)、身體的移動(dòng)速度(Vb)和關(guān)節(jié)速度(Vj)被選取為乘客行為分類的顯著特征。綜合數(shù)據(jù)維度與計(jì)算開銷的影響,本文選取大小為5的滑動(dòng)窗口將這些特征串聯(lián)成了一個(gè)238維的特征向量。
將以上特征向量通過(guò)PCA算法求解主成分的累計(jì)貢獻(xiàn)率,并基于文獻(xiàn)[27]確定式(8)中的主成分比重閾值為0.95。最終,前50個(gè)主成分對(duì)應(yīng)的特征向量被選取為訓(xùn)練乘客行為分類模型的輸入特征。如圖14為主成分的累計(jì)貢獻(xiàn)率分布圖。
圖14 主成分累計(jì)貢獻(xiàn)率分布Fig.14 Distribution of cumulative contribution rate of principal components
4.3.2 分類模型性能對(duì)比
分類模型使用Python-sklearn 庫(kù)中提供的KNN(Knearest neighbor)、SVM(support vector machine)以及DNN 網(wǎng)絡(luò)。若不使用PCA 降維,各分類模型的輸入為238 維特征向量;反之,輸入則為上述50 個(gè)主成分的特征向量。將自定義數(shù)據(jù)集中的4類乘客行為圖像按7∶3劃分為訓(xùn)練集和測(cè)試集,用于訓(xùn)練和測(cè)試分類模型的姿態(tài)識(shí)別準(zhǔn)確率。此外,模型訓(xùn)練時(shí)間[24]被用來(lái)驗(yàn)證本文改進(jìn)算法的時(shí)間復(fù)雜度。表4 為各分類模型在本文實(shí)驗(yàn)平臺(tái)下的最優(yōu)參數(shù)設(shè)置和性能對(duì)比。其中,KNN 中鄰域取5,SVM 的核函數(shù)設(shè)置為linear,懲罰系數(shù)C取10,DNN 采用3 層隱含層結(jié)構(gòu),各層神經(jīng)元的數(shù)量都為100,并使用ReLU激活函數(shù)。
表4 分類模型性能對(duì)比Table 4 Performance comparison of classification models
由表4 可知:(1)當(dāng)使用KNN、SVM 等網(wǎng)絡(luò)對(duì)原始輸入數(shù)據(jù)進(jìn)行分類模型訓(xùn)練時(shí),雖然各分類器的準(zhǔn)確率較好,但由于輸入數(shù)據(jù)的維度過(guò)高,導(dǎo)致分類模型計(jì)算開銷過(guò)大,訓(xùn)練時(shí)間也無(wú)法滿足實(shí)時(shí)性需求。(2)當(dāng)融合PCA進(jìn)行模型優(yōu)化時(shí),雖然本文只使用了原始輸入數(shù)據(jù)95%的特征向量進(jìn)行分類訓(xùn)練,但優(yōu)化后各模型不僅保持了與原模型相近的準(zhǔn)確率,還極大地縮短了模型的訓(xùn)練時(shí)間,提升了算法的可實(shí)用性。綜合模型準(zhǔn)確率與算法復(fù)雜度考慮,本文最終選取了PCA-DNN網(wǎng)絡(luò)作為電梯乘客異常行為識(shí)別的分類模型。
4.3.3 孿生數(shù)據(jù)驗(yàn)證分析
為進(jìn)一步驗(yàn)證將乘客行為孿生數(shù)據(jù)應(yīng)用于真實(shí)場(chǎng)景中的可行性與準(zhǔn)確性,本文首先將經(jīng)過(guò)4.3.1 小節(jié)預(yù)處理后的圖片分為表5所示的6種數(shù)據(jù)集,其中Camera-Actor×n表示使用n臺(tái)虛擬相機(jī)同時(shí)進(jìn)行動(dòng)作捕獲。其次,基于PCA-DNN網(wǎng)絡(luò)分別訓(xùn)練各數(shù)據(jù)集對(duì)應(yīng)的分類器。最后,使用實(shí)際中的同類姿態(tài)數(shù)據(jù)作為驗(yàn)證集進(jìn)行了對(duì)比實(shí)驗(yàn)。各分類器對(duì)應(yīng)的驗(yàn)證集準(zhǔn)確率如表5所示。
表5 不同分類器在驗(yàn)證集中的結(jié)果對(duì)比Table 5 Results comparison of different classifiers in validation sets
由表5可知:(1)僅使用真實(shí)數(shù)據(jù)訓(xùn)練的分類器,在驗(yàn)證集中的準(zhǔn)確率僅有48.6%,其原因在于分類器只能對(duì)經(jīng)過(guò)訓(xùn)練的相似行為進(jìn)行識(shí)別,但受到實(shí)際參與訓(xùn)練的真實(shí)數(shù)據(jù)總量以及同類姿態(tài)數(shù)量的限制,導(dǎo)致驗(yàn)證環(huán)節(jié)出現(xiàn)大量的誤識(shí)別現(xiàn)象。(2)通過(guò)融合孿生數(shù)據(jù)與真實(shí)數(shù)據(jù)訓(xùn)練分類器,隨著孿生數(shù)據(jù)數(shù)量與種類的增加,驗(yàn)證集的分類準(zhǔn)確率也得到顯著提升,最終的準(zhǔn)確率可以達(dá)到92.8%。(3)當(dāng)僅使用孿生數(shù)據(jù)訓(xùn)練分類器時(shí),其驗(yàn)證集準(zhǔn)確率依舊可以達(dá)到92.5%,可滿足實(shí)際工程應(yīng)用的需求。通過(guò)上述實(shí)驗(yàn),本文充分驗(yàn)證了孿生數(shù)據(jù)可等效于真實(shí)數(shù)據(jù)進(jìn)行模型訓(xùn)練的可行性、可靠性與準(zhǔn)確性。如圖15 為使用數(shù)據(jù)集E訓(xùn)練的分類模型在驗(yàn)證集中的實(shí)驗(yàn)結(jié)果。
圖15 分類模型在驗(yàn)證集中的實(shí)驗(yàn)結(jié)果Fig.15 Experimental results of classification model on validation sets
4.3.4 異常行為可視化預(yù)警
本文將電梯乘客行為定義為無(wú)危險(xiǎn)、輕度危險(xiǎn)、中度危險(xiǎn)以及嚴(yán)重危險(xiǎn)4種等級(jí)。其中,跳躍、扒門、踢門以及跌倒被統(tǒng)一歸為嚴(yán)重危險(xiǎn)行為。當(dāng)系統(tǒng)識(shí)別出此類異常行為后,視頻解析服務(wù)器會(huì)發(fā)送視頻數(shù)據(jù)以及乘客姿態(tài)信息到數(shù)字孿生平臺(tái),進(jìn)行可視化預(yù)警與乘客動(dòng)作的虛實(shí)映射,如圖16所示。
圖16 異常行為可視化預(yù)警Fig.16 Visual early warning of abnormal behavior
針對(duì)現(xiàn)實(shí)生活中的電梯乘客異常行為案例缺乏、異常行為數(shù)據(jù)稀缺,導(dǎo)致基于機(jī)器學(xué)習(xí)的異常行為識(shí)別研究缺少大量訓(xùn)練與驗(yàn)證樣本的問(wèn)題。本文提出了一種基于數(shù)字孿生技術(shù)的乘客異常行為建模與識(shí)別方法。通過(guò)搭建垂直電梯乘客行為監(jiān)測(cè)數(shù)字孿生場(chǎng)景,為乘客異常行為建模提供虛擬仿真環(huán)境;基于人體骨骼模型與運(yùn)動(dòng)學(xué)原理構(gòu)建乘客異常行為,擴(kuò)充了電梯乘客跳躍、扒門、踢門以及跌倒等異常行為數(shù)據(jù),為異常行為識(shí)別研究提供了孿生數(shù)據(jù)源。最后,利用改進(jìn)的SSAMOpenPose 人體骨骼檢測(cè)算法,解決了乘客與轎廂背景混淆導(dǎo)致特征提取準(zhǔn)確率低的問(wèn)題,獲取了乘客異常行為的骨骼特征,并基于PCA-DNN 網(wǎng)絡(luò),實(shí)現(xiàn)了乘客異常行為的實(shí)時(shí)檢測(cè)。實(shí)驗(yàn)結(jié)果表明,本文提出的異常行為建模與識(shí)別方法,具有準(zhǔn)確率高、實(shí)時(shí)性強(qiáng)、交互性好等特點(diǎn)。
研究結(jié)果為今后關(guān)于異常行為研究中缺乏異常案例、缺少異常數(shù)據(jù)等問(wèn)題提供了新的思路以及實(shí)驗(yàn)基礎(chǔ),對(duì)保障人民群眾生命財(cái)產(chǎn)安全以及提升設(shè)備安全監(jiān)管效率等具有重要意義。后續(xù),將對(duì)多人復(fù)雜場(chǎng)景中的電梯乘客異常行為建模與識(shí)別方法展開研究,并結(jié)合其他優(yōu)秀算法進(jìn)一步提升監(jiān)管系統(tǒng)的性能。