王生云,趙吉龍,虎曉敏,馬少軍,拓媛媛,胡 軍,包 超
(1.寧夏農(nóng)墾建設(shè)有限公司,銀川 750000; 2.寧夏建設(shè)投資集團(tuán)有限公司,銀川 750000;3.寧夏大學(xué) 土木與水利工程學(xué)院,銀川 750000)
在建筑行業(yè),工人的行為是造成工作場(chǎng)所事故和傷害的主要原因之一。大約80%~90%的事故與工人的不安全動(dòng)作和行為密切相關(guān)[1-3]。先前的研究也表明,基于行為的技術(shù)(例如,反饋、目標(biāo)設(shè)定和工人參與)可以顯著提高安全性能[4-7]。為此,一種基于行為的方法已成為安全研究的趨勢(shì),旨在觀察、分析和改變工人的行為。具體來說,該方法包括制定與安全相關(guān)的關(guān)鍵行為清單,觀察工人并統(tǒng)計(jì)所定義行為的頻率,通過反饋改善他們的行為,并通過觀察到的數(shù)據(jù)不斷提高安全性[8-9]。在過程中,觀察員了解導(dǎo)致事故的不安全行為和姿勢(shì),觀察自己和同事的行為,并提供對(duì)觀察結(jié)果的反饋。工人的行為可以通過聽取對(duì)自己的反饋得到顯著改善,觀察者也傾向于在觀察和討論同事的過程中改善自己的行為[10]。在這方面,觀察是作為行為修改和管理改進(jìn)的初步數(shù)據(jù)的最重要的單元[11-12]。傳統(tǒng)的行為測(cè)量方法雖然很重要,但在應(yīng)用于建筑項(xiàng)目時(shí)存在以下局限性:1)測(cè)量過程中所涉及的任務(wù)費(fèi)時(shí)費(fèi)力[13];2)需要大量的樣本以避免偏差[14-15];3)觀察和報(bào)告需要工人的積極參與[16-17]。
基于計(jì)算機(jī)視覺的行為監(jiān)控系統(tǒng),可以自動(dòng)捕捉工人的動(dòng)作并識(shí)別工人的不安全行為?,F(xiàn)有的動(dòng)作捕捉解決方案主要分為機(jī)械、磁性、光學(xué)和基于視覺的系統(tǒng)。前三種可能比基于視覺的系統(tǒng)提供更準(zhǔn)確的結(jié)果,但需要在人體上安裝傳感器或標(biāo)記來進(jìn)行運(yùn)動(dòng)跟蹤。在施工中,這種要求造成了一個(gè)嚴(yán)重的障礙,因?yàn)楦郊拥脑O(shè)備會(huì)干擾工人的行動(dòng)。因此,可以認(rèn)為基于視覺的方法最適合施工應(yīng)用。由于其在實(shí)用、經(jīng)濟(jì)、可視化和快速數(shù)據(jù)收集方面的潛力,基于視覺的方法已被用于施工,像生產(chǎn)力管理、進(jìn)度監(jiān)控 、質(zhì)量管理、資源跟蹤和安全性。特別是,文獻(xiàn)[18]以及文獻(xiàn)[19]分別提出對(duì)工人進(jìn)行姿勢(shì)分析和運(yùn)動(dòng)分類,以分析施工作業(yè)的生產(chǎn)率。在安全管理方面,本文探討了一種微觀層面的運(yùn)動(dòng)跟蹤與識(shí)別方法來識(shí)別工人的不安全行為。該系統(tǒng)從現(xiàn)場(chǎng)視頻中提取三維人體骨骼運(yùn)動(dòng)模型,并利用運(yùn)動(dòng)數(shù)據(jù)識(shí)別工人的不安全動(dòng)作。通過這種方式,三維骨骼模型還可能通過跟蹤人體關(guān)節(jié)和人體部位軌跡之間的角度來實(shí)現(xiàn)工人姿勢(shì)的人機(jī)工程學(xué)分析(例如,背部角度),這是人機(jī)工程學(xué)分析的主要輸入。
本文探討了基于行為安全管理中的觀察過程及其挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出通過深度學(xué)習(xí)的方式對(duì)建筑施工現(xiàn)場(chǎng)工人的不安全行為進(jìn)行診斷控制,引入了一個(gè)基于視覺的監(jiān)控框架,并通過實(shí)驗(yàn)研究調(diào)查其實(shí)用性。在此基礎(chǔ)上,討論了基于視覺的監(jiān)測(cè)方法的貢獻(xiàn)和局限性,以驗(yàn)證其在建筑工人行為測(cè)量中的適用性。
本部分的主要內(nèi)容是針對(duì)通過人體骨架圖來提供表征視頻內(nèi)人體姿態(tài)以及運(yùn)動(dòng)變化對(duì)應(yīng)的模態(tài)信息進(jìn)行介紹,且針對(duì)骨架圖的提取途徑進(jìn)行全面介紹,進(jìn)一步提出使用數(shù)據(jù)擬合能力以及模型泛化能力更強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)來代替現(xiàn)階段使用的網(wǎng)絡(luò),對(duì)CNN-LSTM模型具有的時(shí)序建模能力進(jìn)行優(yōu)化。
單幀輸入圖僅能夠?qū)θ梭w行為對(duì)應(yīng)的空間特征進(jìn)行表征,另外還需要針對(duì)多幀輸入圖時(shí)序完成建模的過程,從而全面地將行為失控信息進(jìn)行反映。所以此次研究決定使用擇CNN-LSTM模型來實(shí)現(xiàn)骨架圖序列的失控信息建模,同時(shí)利用選擇更佳的CNN對(duì)辨別性更為理想的空間特征進(jìn)行提取,由此全面優(yōu)化CNN-LSTM行為識(shí)別模型所具有的識(shí)別性能,通過圖1對(duì)基本框架進(jìn)行描述。
圖1 基于骨架圖的CNN-LSTM模型
第一步BN-Inception訓(xùn)練提取視頻中所有幀內(nèi)包含的空間結(jié)構(gòu)信息,對(duì)現(xiàn)階段使用的CNN-LSTM模型具有的空間特征提取能力進(jìn)行加強(qiáng),進(jìn)一步全面優(yōu)化CNN-LSTM行為識(shí)別模型的性能。隨后通過借助長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)針對(duì)所有視頻中的全部幀時(shí)序信息完成建模過程,且模型的最終輸出結(jié)果為L(zhǎng)STM在最后時(shí)刻的預(yù)測(cè)輸出Yt。
對(duì)事故統(tǒng)計(jì)進(jìn)行分類能夠得到兩種傷害類別:1)來自身體外部的物理沖擊所導(dǎo)致的傷害;2)因?yàn)樯眢w本身存在不良姿態(tài)以及動(dòng)作,在長(zhǎng)時(shí)間的反復(fù)累積之下所導(dǎo)致的人體工學(xué)傷害。對(duì)這兩類傷害繼續(xù)分類,還能夠分為若干類子傷害,并且致死率以及非致死率能夠?qū)Ω鱾€(gè)類型的子傷害以及疾病頻率、輕重緩急進(jìn)行反映[20-21]?;趯?duì)頻率以及嚴(yán)重程度的綜合考慮,以子類別為依據(jù)對(duì)施工過程中的主要姿勢(shì)以及運(yùn)動(dòng)進(jìn)行識(shí)別,且通過本文所提及的以視覺為基礎(chǔ)的監(jiān)測(cè)系統(tǒng)完成跟蹤以及檢測(cè)。這里需要強(qiáng)調(diào)的是,能夠針對(duì)清單作出修改,對(duì)特定的工作地點(diǎn)進(jìn)行反映,比如利用特定的勞動(dòng)力以及工作場(chǎng)所的具體特點(diǎn)來描述[22]。
從本階段出發(fā),能夠?qū)と水a(chǎn)生不安全行動(dòng)可能性較大的范圍以及有關(guān)活動(dòng)進(jìn)行識(shí)別。針對(duì)事故作出的統(tǒng)計(jì)數(shù)據(jù)以及記錄能夠?yàn)槲kU(xiǎn)工作場(chǎng)所以及有待重點(diǎn)監(jiān)測(cè)的活動(dòng)提供有力的制成。所以,此步驟可以為攝像頭的安置、對(duì)行為進(jìn)行監(jiān)測(cè)與分析提供科學(xué)的指導(dǎo)。比如,跌落于腳手架以及梯子上的情況在總體中的占比分別等于18%、16%;所以,此類設(shè)備附近的位置就是最需要安裝攝像頭的區(qū)域,以避免事故的發(fā)生率升高。同時(shí),根據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù)可知,磚石工人的背部受傷率始終居高不下,跟其他各種類型的建筑工人相比都能夠超過16倍。由此可見監(jiān)測(cè)的重點(diǎn)是哪些區(qū)域,由此避免部分明確、高發(fā)傷害的類型出現(xiàn)。
從運(yùn)動(dòng)捕捉領(lǐng)域來說,通常是通過單目攝像機(jī)以及多目攝像機(jī)這兩種攝像機(jī)針對(duì)人體關(guān)節(jié)對(duì)應(yīng)的三維位置進(jìn)行估計(jì)。此次研究以三維攝像機(jī)為核心,此類攝像機(jī)能夠?qū)θS骨骼進(jìn)行提取以及簡(jiǎn)化處理,將其轉(zhuǎn)化為二維姿態(tài)來完成估計(jì)。三維攝像機(jī)的結(jié)構(gòu)為一個(gè)攝像機(jī)中存在的兩個(gè)鏡頭,能夠基于不同的角度在同一時(shí)間內(nèi)完成兩個(gè)視頻的制作流程。利用三維攝像機(jī)或聯(lián)合使用兩個(gè)攝像機(jī)進(jìn)行拍攝得到的兩個(gè)視頻,一個(gè)的基本用途是對(duì)人體關(guān)節(jié)于二維圖像列上的位置進(jìn)行估算,另一個(gè)的基本用途是搜集三維重建的參考數(shù)據(jù)。由此利用計(jì)算過程求出深度信息,對(duì)估計(jì)的二維身體關(guān)節(jié)進(jìn)行轉(zhuǎn)換,使其轉(zhuǎn)化為三維坐標(biāo),由此獲取三維骨骼模型。
針對(duì)視頻來說,基于二維圖像對(duì)身體關(guān)節(jié)的具體位置進(jìn)行估計(jì),從而獲取二維骨骼模型。針對(duì)人體關(guān)節(jié)展開估計(jì)通常能夠使用兩種方法,即自上而下或者自下而上,前者主要是在觀察得到的圖像上映射身體模型,從而實(shí)現(xiàn)對(duì)關(guān)節(jié)位置的估計(jì),后者是基于圖像對(duì)身體部位進(jìn)行檢測(cè),隨后再適當(dāng)調(diào)整期位置,提升對(duì)人體的適應(yīng)度。然而自上而下的方法不適用于存在遮擋的情況下,一般要在第一幀進(jìn)行手動(dòng)初始化,所以此次研究選擇使用自下向上的方式。
通過利用梯度方向直方圖(HOG, histogram of oriented gradients)描述符基于二維圖像中對(duì)身體部位進(jìn)行檢測(cè),同時(shí)應(yīng)用部位混合模型對(duì)身體部位間存在的關(guān)系進(jìn)行推斷;此類方法能夠提供較為迅速且準(zhǔn)確的結(jié)果,并且能夠?yàn)槟繕?biāo)人群的不同外觀以及遮擋等多種問題提供解決方案。以檢測(cè)身體部位為目的,確定一組訓(xùn)練圖像以后,通過圖2給出的身體骨骼模型完成手動(dòng)注釋的過程。以骨骼模型為基礎(chǔ),對(duì)訓(xùn)練圖像內(nèi)包含的身體關(guān)節(jié)進(jìn)行標(biāo)記,得出的數(shù)據(jù)集可以對(duì)身體部位于測(cè)試數(shù)據(jù)集內(nèi)的具體位置進(jìn)行估計(jì)。從此過程來看,多個(gè)旋轉(zhuǎn)以及縮短的訓(xùn)練數(shù)據(jù)集能夠?qū)ψ藙?shì)估計(jì)中存在的問題進(jìn)行解決,比如自由度過高、因?yàn)樯眢w尺寸以及形狀存在差異進(jìn)而造成四肢外觀、服裝以及視角產(chǎn)生變化。不包括位置信息在內(nèi),二維圖像中的固定身體部位所屬類型也能夠被識(shí)別并進(jìn)行儲(chǔ)存,用于三維骨架模型的構(gòu)建。所以,集群代表特定身體部位形成的集合,同時(shí)以集群為基礎(chǔ)對(duì)身體部位的分類進(jìn)行標(biāo)記。再通過派生類型標(biāo)簽進(jìn)一步構(gòu)建得到一個(gè)完整的監(jiān)督數(shù)據(jù)集,同時(shí)對(duì)靈活的不見混模型進(jìn)行學(xué)習(xí),給身體關(guān)節(jié)分配正確的ID。最終輸出的結(jié)果為三維骨架模型,并對(duì)和身體關(guān)節(jié)進(jìn)行關(guān)聯(lián)的ID分配。
圖2 用于身體關(guān)節(jié)估計(jì)的身體骨骼模型(注:數(shù)字代表身體部位的數(shù)字 ID)
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)具有極高的復(fù)雜性,原因是訓(xùn)練中的各層輸入分布都會(huì)隨著上一層參數(shù)的變化產(chǎn)生共同變化。由此便要求學(xué)習(xí)速率降低且對(duì)參數(shù)進(jìn)行更加細(xì)致的初始化處理,必須減小網(wǎng)絡(luò)的訓(xùn)練速度,同時(shí)會(huì)造成訓(xùn)練飽和非線性模型的難度提升。以攻克這一困難,相關(guān)研究人員Sergey Ioffe提出了Batch Normalization(BN),也就是批量標(biāo)準(zhǔn)化的方法,該方法的中心思想為降低內(nèi)部相關(guān)變量,對(duì)深度網(wǎng)格的訓(xùn)練提供加速動(dòng)力,由此能夠解決許多不科學(xué)的初始化問題。將標(biāo)準(zhǔn)化納入模型結(jié)構(gòu),同時(shí)針對(duì)所有訓(xùn)練對(duì)應(yīng)的mini-batch展開標(biāo)準(zhǔn)化流程。BN能夠提供更為理想的學(xué)習(xí)速率以及更為簡(jiǎn)便的初始化參數(shù)。
BN-Inception結(jié)構(gòu)具有的特點(diǎn)為所有卷積層后都有添加的BN層以及ReLU層。BN層的功能是Batch Normalization,ReLU的功能是用于實(shí)現(xiàn)歸一化。通過圖3針對(duì)BN-Inception的整體結(jié)構(gòu)進(jìn)行描述。BN-Inception實(shí)質(zhì)上是基于Inception的優(yōu)化,一方面添加BN層,降低內(nèi)部相關(guān)變量的轉(zhuǎn)移,從而使得網(wǎng)絡(luò)的各層輸入都能夠歸一化至隨機(jī)正態(tài)分布,另一方面通過對(duì)VGG網(wǎng)絡(luò)進(jìn)行借鑒使用2個(gè)3*3的卷積核將Inception模塊內(nèi)存在的5*5卷積核進(jìn)行替換,不僅能夠降低參數(shù)數(shù)量,還能夠提升網(wǎng)絡(luò)的計(jì)算效率。
圖3 BN-Inception結(jié)構(gòu)
此次研究通過CNN對(duì)所有幀骨架圖含有的空間信息進(jìn)行提取以及存儲(chǔ)。視頻中的行為信息涵蓋了幀內(nèi)視覺空間以及幀間時(shí)序信息,僅對(duì)CNN加以利用來處理骨架圖不能針對(duì)視頻內(nèi)所有幀間信息的變化完成時(shí)序的建模過程,特別是對(duì)于時(shí)間跨度相對(duì)更大的視頻,必須借助于空間關(guān)系基于時(shí)間序列中的變化對(duì)各類行為進(jìn)行鑒別,所以基于對(duì)骨架空間信息進(jìn)行提取,還要進(jìn)一步對(duì)視頻幀序列間存在的時(shí)序關(guān)系進(jìn)行訓(xùn)練以及學(xué)習(xí)。
在視頻幀骨架圖序列中按照等間隔的方式累計(jì)抽取16幀,作為全視頻的代表。通過利用經(jīng)過訓(xùn)練的BN-Inception網(wǎng)絡(luò)對(duì)視頻幀骨架圖具有的空間特征進(jìn)行提取,以時(shí)間順序?yàn)橐罁?jù)輸入LSTM,再利用數(shù)據(jù)集原本具有的幀級(jí)標(biāo)簽對(duì)LSTM的網(wǎng)絡(luò)誤差以及更新網(wǎng)絡(luò)參數(shù)進(jìn)行計(jì)算,CNN-LSTM最終得出的結(jié)果就是LSTM最終輸出的行為類別預(yù)測(cè)值,進(jìn)而用其對(duì)分類性能進(jìn)行評(píng)價(jià)。
傳統(tǒng)使用的循環(huán)神經(jīng)網(wǎng)絡(luò)在進(jìn)行反向傳播的過程中,傳遞一層就必須將梯度與上一次的權(quán)值矩陣W進(jìn)行相乘,即傳遞n層,繼續(xù)向下傳遞的梯度必須與W的n次方相乘,若W>1、W<1時(shí),梯度完成了n層傳遞后可能無限趨近于0,也可能無限趨近于無窮,也就是說梯度不存在或者爆炸了,這種情況下網(wǎng)絡(luò)無法沿著向下的方向持續(xù)對(duì)權(quán)重進(jìn)行更新,所以循環(huán)神經(jīng)網(wǎng)絡(luò)無法對(duì)時(shí)間跨度過長(zhǎng)的時(shí)序信息進(jìn)行解決,也就是“長(zhǎng)時(shí)依賴”問題。通過式(1)對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)神經(jīng)單元輸入輸出計(jì)算進(jìn)行表示。
(1)
這里,ht所指代的是當(dāng)前時(shí)刻,也可以指代當(dāng)前序列t所對(duì)應(yīng)的神經(jīng)元輸出結(jié)果,W所指代的是神經(jīng)元權(quán)值矩陣,ht-1所指代的是前一時(shí)刻,也可以指代前一序列t-1對(duì)應(yīng)的神經(jīng)輸出結(jié)果,xt所指代的是t時(shí)刻網(wǎng)絡(luò)數(shù)據(jù)輸入,tanh所指代的是激活函數(shù)。
LSTM所使用的為隱藏單元的單層神經(jīng)元結(jié)構(gòu),累計(jì)數(shù)目為512個(gè),輸入為利用BN-Inception提取得到1 024維空間特征向量。初始學(xué)習(xí)率設(shè)置為0.001,再以訓(xùn)練情況為依據(jù)展開衰減的過程。將訓(xùn)練周期設(shè)置為10個(gè)epoch。在實(shí)驗(yàn)進(jìn)行時(shí),對(duì)采集得到的數(shù)據(jù)集進(jìn)行分組,分為各不相同的多個(gè)訓(xùn)練以及測(cè)試視頻,網(wǎng)絡(luò)訓(xùn)練需要100個(gè)視頻,性能測(cè)試需要150個(gè)視頻。
在實(shí)驗(yàn)室環(huán)境中,分別使用商用動(dòng)作捕捉系統(tǒng)(VICON)和3D攝像機(jī)(JVC 3D Everio Camcorder)來收集爬梯運(yùn)動(dòng)模板并做視頻記錄;在VICON的情況下,圍繞表演者的8個(gè)攝像頭跟蹤連接到身體關(guān)節(jié)的反射標(biāo)記,因此表演者或梯子的遮擋可以最小化。 另一方面,視頻樣本是用距離表演者約5米的三維攝像機(jī)記錄的。
基于相似性度量進(jìn)行運(yùn)動(dòng)檢測(cè),計(jì)算視頻中不安全動(dòng)作如表1所示。其中,真陽性(TP)除以真陰性(TP)與假陰性(FN)之和的召回率為88%;TP除以TP與假陽性(FP)之和的精密度為88%;例如,TP表示檢測(cè)到不安全動(dòng)作正在進(jìn)行,F(xiàn)N表示沒有檢測(cè)到不安全動(dòng)作正在進(jìn)行,F(xiàn)P表示沒有檢測(cè)到不安全動(dòng)作,實(shí)際上不安全動(dòng)作已經(jīng)開始發(fā)生。其中,Recall表示運(yùn)動(dòng)識(shí)別算法檢測(cè)到視頻中88%的不安全動(dòng)作,Precision表示在檢測(cè)到的動(dòng)作中,88%的動(dòng)作被算法正確檢測(cè)到。實(shí)驗(yàn)結(jié)果表明,本文提出的運(yùn)動(dòng)識(shí)別方法在使用預(yù)定義模板檢測(cè)和計(jì)算不安全動(dòng)作時(shí),能夠很好地處理現(xiàn)場(chǎng)數(shù)據(jù)。此外,誤差可能主要來自對(duì)身體關(guān)節(jié)位置的不準(zhǔn)確估計(jì),特別是手臂和手,這在姿勢(shì)估計(jì)結(jié)果的分析中得到了證實(shí)。
表1 一個(gè)檢測(cè)的結(jié)果
此次研究提出視頻幀輸入所需要的空間提取器選擇為BN-Inception,且和文獻(xiàn)[23]中所應(yīng)用的Alex Net以及主流的VGG16[24]進(jìn)行對(duì)比。文獻(xiàn)[25]選定的輸入視頻幀的空間特征提取器為Alex Net,此次研究選定的輸入視頻幀的空間特征提取器為BN-Inception,模型整體具備更為理想的空間提取能力。在確定使用BN-Inception前,本文將Alex Net、BN-Inception以及VGG16進(jìn)行了性能方面的對(duì)比。所有CNN對(duì)應(yīng)的網(wǎng)絡(luò)模型參數(shù)皆為通過Image Net大型圖片分類數(shù)據(jù)集的訓(xùn)練而得到的,所有網(wǎng)格訓(xùn)練都具備一個(gè)epoch。
通過圖4對(duì)三類不同的CNN模型訓(xùn)練一個(gè)epoch對(duì)應(yīng)的訓(xùn)練誤差值(train loss)變化進(jìn)行描述,trainloss值越低,說明模型輸入預(yù)測(cè)值、訓(xùn)練集標(biāo)簽對(duì)應(yīng)的真實(shí)值越趨于相等?;谟邢薜牡螖?shù),BN-InceptionAlex Net與VGG16相比具有更高的收斂速度以及更強(qiáng)的穩(wěn)定性。
圖4 三種CNN模型訓(xùn)練loss值變化
通過圖5對(duì)三類CNN模型的測(cè)試過程對(duì)應(yīng)的準(zhǔn)確率進(jìn)行描述。由圖可知,3個(gè)網(wǎng)絡(luò)都能夠在經(jīng)過1 000次上下的迭代后達(dá)到較為理想的準(zhǔn)確率,其中BN-Inception完成1 200此迭代后準(zhǔn)確率基本能夠維持不變,約為88%,比其他兩類模型高;VGG16經(jīng)過1 000次迭代后,準(zhǔn)確率呈現(xiàn)出降低的趨勢(shì),基本保持在82%上下,存在小幅度波動(dòng);Alex Net經(jīng)過1 000此迭代后,也開始出現(xiàn)輕微波動(dòng)。
圖5 三種CNN模型測(cè)試準(zhǔn)確率變化
現(xiàn)階段已有的針對(duì)骨架圖行為識(shí)別開展的研究大多數(shù)通過LSTM來完成骨架序列時(shí)序關(guān)系的建模過程,文獻(xiàn)[26]便提出了一種較為經(jīng)典的以LSTM為基礎(chǔ)的骨架行為識(shí)別模型,能夠利用正則化對(duì)共現(xiàn)關(guān)節(jié)點(diǎn)集合進(jìn)行定義為表征行為對(duì)應(yīng)的特征,此次研究針對(duì)文獻(xiàn)[26]中提出的LSTM方法和此次選定的CNN-LSTM模型展開了細(xì)致的對(duì)比。因?yàn)榇舜窝芯繎?yīng)用的UCF101本身尚未完成骨架圖的信息標(biāo)注,僅利用定向梯度直方圖(HOG)對(duì)人體骨架對(duì)應(yīng)的位置以及姿態(tài)進(jìn)行估計(jì),文獻(xiàn)[26]所應(yīng)用的CMU數(shù)據(jù)集包括了對(duì)3D人體關(guān)節(jié)點(diǎn)以及骨架移動(dòng)的標(biāo)注,所以確定選擇采集到的數(shù)據(jù)集中存在的骨架信息進(jìn)一步提取準(zhǔn)確度較高的15類行為視頻展開對(duì)比實(shí)驗(yàn)。
所有視頻采用的幀數(shù)均為16幀,在CNN-LSTM模型中輸入包含骨架信息的視頻,在文獻(xiàn)[26]所使用的識(shí)別系統(tǒng)中輸入含有骨架信息的矩陣,并展開分別的訓(xùn)練以及測(cè)試過程,通過表2對(duì)兩者的測(cè)試準(zhǔn)確率進(jìn)行總結(jié)。通過結(jié)果能夠得出,CNN-LSTM模型的準(zhǔn)確率能夠拿到88.67%,與文獻(xiàn)[26]中所提及的LSTM模型相比具有顯著的優(yōu)勢(shì)。
表2 不同骨架模型性能對(duì)比
實(shí)驗(yàn)結(jié)果表明,該框架能夠很好地從視頻中提取三維骨架,并能夠利用運(yùn)動(dòng)模板檢測(cè)不安全動(dòng)作??紤]到人類觀察者在監(jiān)視工人行為上所花費(fèi)的時(shí)間和精力,所提出的框架可能有助于持續(xù)和自動(dòng)地監(jiān)視工人,提供反饋,并管理他們的行為,以安全的方式執(zhí)行工作。
在這項(xiàng)研究中,提出了一種利用深度學(xué)習(xí)的建筑施工現(xiàn)場(chǎng)工人不安全行為診斷控制方法。從現(xiàn)場(chǎng)視頻重建包含運(yùn)動(dòng)信息的三維人體骨架模型,并用于檢測(cè)數(shù)據(jù)中預(yù)定義的不安全行為。對(duì)于工人行為的觀察,基于視覺的監(jiān)測(cè)不需要大量額外的時(shí)間或成本,因此提供了一種收集行為數(shù)據(jù)的方法,用于實(shí)踐中的安全管理??紤]到人類觀察者必須花費(fèi)在工人行為監(jiān)控上的時(shí)間和精力,提出的框架可能有助于持續(xù)自動(dòng)監(jiān)測(cè)工人,提供反饋,并管理他們的行為,以安全的方式執(zhí)行工作。
在未來的研究中將需要進(jìn)行實(shí)地研究,以評(píng)估框架對(duì)實(shí)際施工環(huán)境的適用性,包括各種活動(dòng)、運(yùn)動(dòng)和遮擋,為歸檔數(shù)據(jù)收集提供詳細(xì)的指南。然而,運(yùn)動(dòng)識(shí)別的性能依賴于從視頻中提取的三維骨骼的準(zhǔn)確性。在這方面,二維姿態(tài)估計(jì)和三維骨骼重建的性能需要深入驗(yàn)證。例如,骨骼模型中存儲(chǔ)的旋轉(zhuǎn)角度可以與商業(yè)動(dòng)作捕捉系統(tǒng)(如Kinect)進(jìn)行比較,Kinect的性能也需要提前驗(yàn)證才能作為地面真實(shí)。在這種情況下,由于特殊的防護(hù)服和標(biāo)記的要求,VICON可能不適合進(jìn)行角度驗(yàn)證,這可能會(huì)影響基于視覺的運(yùn)動(dòng)捕捉的準(zhǔn)確性。
通過驗(yàn)證,我們可以研究遮擋對(duì)三維姿態(tài)估計(jì)的影響程度,找到提高其精度的研究方向。深入的驗(yàn)證將有助于確認(rèn)所提出的框架可以應(yīng)用于其他類型的不安全行為。因此,我們未來的工作將包括三維骨骼模型的深入驗(yàn)證,并將測(cè)試各種類型的動(dòng)作,姿態(tài)估計(jì)誤差會(huì)顯著降低動(dòng)作檢測(cè)的準(zhǔn)確性。