田 楓,孫曉悅,劉 芳,盧 俊
(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
現(xiàn)階段,人體行為識(shí)別可以分為兩種主流方法:基于圖像的和基于人體骨骼關(guān)鍵點(diǎn)的。基于骨架序列的人體行為識(shí)別存在一定的優(yōu)勢(shì):人體骨架的關(guān)節(jié)數(shù)量有限,所耗費(fèi)的計(jì)算資源較低,且對(duì)動(dòng)態(tài)環(huán)境和復(fù)雜背景的適應(yīng)能力較強(qiáng),除此之外,骨架存在較強(qiáng)的語(yǔ)義信息,可以更好代表人體動(dòng)作。因此,使用骨架數(shù)據(jù)來(lái)做行為識(shí)別成為熱門(mén)研究方向?,F(xiàn)常用的主流框架主要分為3類(lèi):RNN、CNN、GCN等。文獻(xiàn)[1,2]將處理時(shí)間依賴(lài)關(guān)系的LSTM對(duì)分組的人體骨骼關(guān)鍵點(diǎn)進(jìn)行分類(lèi)識(shí)別。文獻(xiàn)[3,4]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)處理骨骼數(shù)據(jù),提出了骨架變換模塊自動(dòng)對(duì)重要骨骼關(guān)鍵點(diǎn)分配較大權(quán)重,并使用窗口提議網(wǎng)絡(luò)檢測(cè)動(dòng)作起始時(shí)間進(jìn)行行為識(shí)別。文獻(xiàn)[5,6]提出骨骼序列空時(shí)圖的概念,并提出了空時(shí)圖卷積網(wǎng)絡(luò)提取高級(jí)特征,并采用基于距離的采樣函數(shù)構(gòu)造圖卷積層,提高識(shí)別精度。
現(xiàn)有的關(guān)于行為識(shí)別方法雖然多種多樣,但面對(duì)實(shí)時(shí)監(jiān)控下的復(fù)雜場(chǎng)景識(shí)別能力較差,且計(jì)算量過(guò)大不能滿(mǎn)足實(shí)時(shí)監(jiān)控的要求,僅處于實(shí)驗(yàn)室研究階段。因此本文提出了一種基于圖卷積的作業(yè)行為實(shí)時(shí)檢測(cè)方法:首先對(duì)視頻監(jiān)控的作業(yè)人員以YOLOv5作為基礎(chǔ)模型進(jìn)行人員定位,然后對(duì)其骨架進(jìn)行提取,并利用DeepSort[7]對(duì)骨架進(jìn)行跟蹤,最后使用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行行為分類(lèi)和識(shí)別。
動(dòng)作實(shí)施者是人,而作業(yè)現(xiàn)場(chǎng)環(huán)境復(fù)雜,非人體部分會(huì)存在影響識(shí)別精度,且提取特征過(guò)多使得模型計(jì)算量過(guò)大,檢測(cè)速度變慢的問(wèn)題?;诖?,文中算法由4部分組成,包括作業(yè)人員定位、人體骨架提取、人員跟蹤、行為分類(lèi),算法流程如圖1所示。首先,對(duì)視頻中正在作業(yè)的工人進(jìn)行定位,從而過(guò)濾無(wú)關(guān)人員減少計(jì)算量;接著,對(duì)定位出來(lái)的操作人員進(jìn)行人體骨架提取,同時(shí)使用跟蹤算法結(jié)合骨骼信息完成相鄰幀間的目標(biāo)匹配,能夠滿(mǎn)足檢測(cè)時(shí)背景以及光照帶來(lái)較小影響;最后,通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)相鄰幀的骨骼關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行不規(guī)范行為識(shí)別,可以更好描述人體骨骼關(guān)鍵點(diǎn)之間空間和時(shí)序拓?fù)浣Y(jié)構(gòu),最終實(shí)現(xiàn)作業(yè)行為實(shí)時(shí)檢測(cè)。
由于作業(yè)現(xiàn)場(chǎng)環(huán)境復(fù)雜,所以為了減少不必要的檢測(cè),需要對(duì)正在作業(yè)的工人進(jìn)行定位,從而減少后續(xù)骨骼提取和行為識(shí)別帶來(lái)的計(jì)算量。本文經(jīng)過(guò)在速度和精度方面的衡量,選用YOLOv5作為作業(yè)人員定位的基礎(chǔ)模型。在輸入端,YOLOv5采用3種數(shù)據(jù)增強(qiáng)方法:縮放、色彩空間調(diào)整和馬賽克增強(qiáng),其中馬賽克數(shù)據(jù)增強(qiáng)方法能夠有效提高對(duì)小對(duì)象的檢測(cè)。在整個(gè)模型實(shí)現(xiàn)過(guò)程中,采用了CSPNet和Focus結(jié)構(gòu)。其中CSPNet[8]可以有效地解決梯度信息重復(fù)問(wèn)題,重復(fù)利用特征,減少網(wǎng)絡(luò)參數(shù)數(shù)量。同時(shí)使用FPN+PAN來(lái)增強(qiáng)網(wǎng)絡(luò)特征融合能力。在輸出端YOLOv5采用了GIoU_Loss來(lái)作為損失函數(shù),并采用加權(quán)NMS來(lái)解決遮擋嚴(yán)重導(dǎo)致檢測(cè)不準(zhǔn)確的問(wèn)題。
Alphapose[9]采用自上而下的姿態(tài)估計(jì)算法,其中的對(duì)稱(chēng)空間變換網(wǎng)絡(luò)能夠使得該模型在復(fù)雜場(chǎng)景下具有較高的檢測(cè)精度。同時(shí)其提出了參數(shù)化姿態(tài)非極大值抑制,定義了姿態(tài)距離,消去冗余的姿態(tài)估計(jì)結(jié)果,提高了人體骨骼提取準(zhǔn)確率。
Alphapose可輸出14個(gè)關(guān)節(jié)點(diǎn)的骨架圖,圖中每個(gè)關(guān)節(jié)點(diǎn)上的特征向量包含坐標(biāo)和估計(jì)置信度。經(jīng)過(guò)人體定位后,Alphapose使用單人姿態(tài)估計(jì)(single person pose estimation,SPPE)算法進(jìn)行人體骨架提取。由于目前骨架提取存在定位錯(cuò)誤和產(chǎn)生冗余檢測(cè)結(jié)果的問(wèn)題,Alphapose采用對(duì)稱(chēng)變換網(wǎng)絡(luò)(SSTN)對(duì)人體檢測(cè)框進(jìn)行感興趣區(qū)域提取,自動(dòng)調(diào)整檢測(cè)框,使得定位更加準(zhǔn)確;添加了姿態(tài)引導(dǎo)的樣本生成器(PGPG)對(duì)已有的數(shù)據(jù)進(jìn)行數(shù)據(jù)擴(kuò)充,進(jìn)行數(shù)據(jù)增強(qiáng);使用姿態(tài)非極大值抑制(PPNMS)計(jì)算姿態(tài)相似度去除冗余檢測(cè)框。通過(guò)上述3種方法,Alphapose能夠更加精確地提取人體骨架。
本文結(jié)合二維骨骼數(shù)據(jù)進(jìn)行DeepSort跟蹤。整體流程如圖2所示,其處理過(guò)程如下:
(1)作業(yè)人員定位:將訓(xùn)練好的基于YOLOv5的工作人員動(dòng)作定位模型用來(lái)獲取DeepSort算法的檢測(cè)目標(biāo)的檢測(cè)框;
(2)跟蹤狀態(tài)預(yù)測(cè):首先定義檢測(cè)集合Detection用于存儲(chǔ)當(dāng)前幀檢測(cè)到的目標(biāo)的檢測(cè)框坐標(biāo)數(shù)據(jù)。跟蹤集合Track用于存儲(chǔ)歷史坐標(biāo)數(shù)據(jù),以及丟失幀計(jì)數(shù)n。當(dāng)Detection集合為空集時(shí),則n+1,當(dāng)n大于閾值時(shí),則認(rèn)為該目標(biāo)消失,然后在Track中刪除該目標(biāo)的歷史數(shù)據(jù)。當(dāng)Detection不為空時(shí),則n=0。利用目標(biāo)所在位置、運(yùn)動(dòng)速度、寬高比、加速度等信息使用卡爾曼濾波器預(yù)測(cè)下一時(shí)刻目標(biāo)狀態(tài)。通過(guò)計(jì)算當(dāng)前時(shí)刻目標(biāo)狀態(tài)與下一時(shí)刻目標(biāo)狀態(tài)的協(xié)方差矩陣,計(jì)算卡爾曼增益,不斷更新當(dāng)前時(shí)刻目標(biāo)狀態(tài),使真實(shí)值與預(yù)測(cè)值之間的誤差越來(lái)越小,從而完成移動(dòng)目標(biāo)的軌跡預(yù)測(cè)的過(guò)程;
(3)利用骨骼信息進(jìn)行獲取ID:計(jì)算物體檢測(cè)框di和物體跟蹤框yj之間的距離d,馬氏距離計(jì)算如式(1)所示
(1)
上述公式中,dj表示第j個(gè)檢測(cè)框的位置;yi表示第i個(gè)追蹤器對(duì)目標(biāo)的預(yù)測(cè)位置;Si表示檢測(cè)框和跟蹤框之間的協(xié)方差矩陣。通過(guò)計(jì)算當(dāng)前幀目標(biāo)的二維姿態(tài)特征和檢測(cè)目標(biāo)姿態(tài)特征之間的余弦距離來(lái)預(yù)測(cè)ID,余弦距離計(jì)算公式如式(2)所示
(2)
最后使用兩種距離的線性加權(quán)方式作為最終度量,得到代價(jià)矩陣。其計(jì)算如式(3)所示
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)
(3)
(4)級(jí)聯(lián)匹配:當(dāng)人物經(jīng)長(zhǎng)時(shí)間遮擋后,預(yù)測(cè)的不確定性會(huì)提高,此時(shí)采用級(jí)聯(lián)匹配方法,對(duì)更加頻繁出現(xiàn)的目標(biāo)賦予優(yōu)先權(quán);
(5)跟蹤優(yōu)化:由于檢測(cè)目標(biāo)匹配了錯(cuò)誤的軌跡,相似目標(biāo)跟蹤過(guò)程經(jīng)常出現(xiàn)身份轉(zhuǎn)換問(wèn)題。因此需要在級(jí)聯(lián)匹配后計(jì)算檢測(cè)目標(biāo)上一幀和當(dāng)前目標(biāo)檢測(cè)框的歐式距離,當(dāng)距離大于檢測(cè)框?qū)挾鹊?/4時(shí),則重新匹配ID。
本文行為識(shí)別算法模型選用場(chǎng)景為作業(yè)現(xiàn)場(chǎng),通過(guò)對(duì)工作人員的人體關(guān)鍵點(diǎn)以及置信度進(jìn)行圖卷積建模來(lái)實(shí)現(xiàn)作業(yè)人員操作是否規(guī)范的識(shí)別。
1.4.1 時(shí)空?qǐng)D
由于圖卷積神經(jīng)網(wǎng)絡(luò)需要通過(guò)數(shù)據(jù)間的依賴(lài)關(guān)系構(gòu)建相應(yīng)的圖模型,所以本文利用Alphapose獲取已定位出來(lái)的員工骨骼關(guān)鍵點(diǎn)坐標(biāo)作為輸入,同時(shí)為了描述人體骨骼點(diǎn)之間的依賴(lài)關(guān)系,本文將根據(jù)人體骨骼的拓?fù)浣Y(jié)構(gòu)構(gòu)建圖模型。首先,在單幀上介紹圖卷積網(wǎng)絡(luò),單幀骨架在時(shí)間τ上會(huì)有N個(gè)聯(lián)合節(jié)點(diǎn)記為Vt以及相應(yīng)骨架邊記為Es(τ)={vtivtj|t=τ, (i,j)∈H}。 不同于圖像,人體骨架節(jié)點(diǎn)的鄰域的節(jié)點(diǎn)數(shù)不固定,定義第τ幀上的節(jié)點(diǎn)vti的鄰域?yàn)锽(vti)={vtj|d(vti,vtj)≤D,t=τ}, 其中,從vti到vtj的所有路徑中的最小長(zhǎng)度用d(vti,vtj)表示,取D=1,代表取節(jié)點(diǎn)的1鄰域。其采樣函數(shù)如式(4)所示
p(vti,vtj)=vtj,vtj∈B(vti)
(4)
由于不同人體骨骼關(guān)鍵點(diǎn)的鄰域節(jié)點(diǎn)數(shù)量和順序均不固定,于是將鄰域B(vti) 中的節(jié)點(diǎn)劃分為K個(gè)固定的子集,每個(gè)子集可以寫(xiě)成一個(gè)映射tiB(vti)→{0,…,K-1}, 并對(duì)每一個(gè)子集分配權(quán)重參數(shù)。權(quán)重函數(shù)如式(5)所示
W(vti,vtj)=W′(ti(vtj))
(5)
關(guān)鍵點(diǎn)劃分是遵循ST-GCN中的劃分策略將鄰域劃分為3個(gè)子集。具體來(lái)說(shuō),該策略根據(jù)經(jīng)驗(yàn)將內(nèi)核大小設(shè)置為3,并自然地將采樣區(qū)域分為3個(gè)子集:包括根節(jié)點(diǎn)本身;向心子集,其中包含靠近重心的相鄰頂點(diǎn);離心子集,包含離重心較遠(yuǎn)的相鄰頂點(diǎn)。如圖3所示。
空間劃分策略的映射如式(6)所示
(6)
式中:r是骨架重心到節(jié)點(diǎn)i的平均距離。
由于動(dòng)作在時(shí)序上的連續(xù)性,則需要分析骨骼序列隨時(shí)間的變化。將相鄰幀之間的同一關(guān)節(jié)用邊連接,表示為EF={vtiv(t+1)i|t≤T-1}, 因此對(duì)某一關(guān)節(jié)點(diǎn)i,EF代表其隨時(shí)間的軌跡。
由于每個(gè)節(jié)點(diǎn)在時(shí)間上的連接形狀是固定的,輸出的特征圖的最后3個(gè)維度的形狀是 (C,T,V), 關(guān)節(jié)特征C, 關(guān)鍵幀數(shù)T, 關(guān)節(jié)數(shù)V。
1.4.2 添加注意力模塊的圖卷積模型
行為識(shí)別模型的主干網(wǎng)絡(luò)如圖4所示,由9個(gè)時(shí)空模塊(ST-GCN)堆疊而成,對(duì)于其中每一個(gè)時(shí)空模塊均進(jìn)行空間圖卷積和時(shí)間卷積。并將第4模塊和第7模塊的時(shí)間卷積步長(zhǎng)設(shè)為2,每個(gè)模塊的輸出通道分別為64,64,64,128,128,128,256,256,256,網(wǎng)絡(luò)開(kāi)始階段采用一個(gè)BN層將輸入骨架數(shù)據(jù)進(jìn)行歸一化處理,在最后添加平均池化層(global average pooling,GAP),將不同骨架數(shù)據(jù)池化到相同尺寸大小。最終采用使用SoftMax分類(lèi)器進(jìn)行分類(lèi),SoftMax定義請(qǐng)見(jiàn)文獻(xiàn)[6]。其卷積輸出函數(shù)如式(7)所示
(7)
其中, 1/Zti(vtj) 為規(guī)范化項(xiàng),Zti(vtj)=|{vtk|ti(vtk)=ti(vtj)}| 對(duì)應(yīng)子集中的節(jié)點(diǎn)個(gè)數(shù),其目的是平衡不同子集對(duì)輸出的貢獻(xiàn)。
由于注意力能夠?qū)Ω信袆e力的骨骼特征分配更高的關(guān)注度,因此分別在第4層、第6層、第8層后添加SELayer[10]作為注意力分支,學(xué)習(xí)各骨骼關(guān)鍵點(diǎn)之間的關(guān)聯(lián)信息,突出該信息在不同層次的網(wǎng)絡(luò)結(jié)構(gòu)中和不同樣本上的獨(dú)特性。同時(shí),使用注意力機(jī)制能夠使網(wǎng)絡(luò)在訓(xùn)練時(shí)主動(dòng)關(guān)注不同關(guān)鍵點(diǎn)在不同行為類(lèi)別起到的重要作用,提高模型適應(yīng)能力。該注意力模塊產(chǎn)生每個(gè)通道調(diào)制權(quán)重的集合,其輸出如式(8)所示
(8)
其中,X∈RC′×T′×V′為輸入特征圖,vc∈V為卷積核,mc∈MSE為輸出特征圖。模型識(shí)別整體流程如圖5所示。
1.4.3 邊重要性加權(quán)
人們運(yùn)動(dòng)時(shí)骨骼關(guān)鍵點(diǎn)是相互協(xié)作完成的,同一骨骼關(guān)鍵點(diǎn)在做不同動(dòng)作時(shí)起到的重要程度有所不同。例如,在做握手動(dòng)作時(shí),手部的信息比腿部信息更為重要,然而走路時(shí),腿部信息要比手部動(dòng)作更為重要。因此對(duì)不同部位進(jìn)行建模時(shí),不同的邊應(yīng)具有不同的重要性,在每一個(gè)圖卷積模塊的每一層都添加了可學(xué)習(xí)的掩碼M,該掩碼將根據(jù)ES在空間圖上每個(gè)邊所學(xué)到的重要性權(quán)重來(lái)縮放節(jié)點(diǎn)特征對(duì)其相鄰節(jié)點(diǎn)的貢獻(xiàn)。
以連續(xù)多幀的人體骨架序列特征(二維坐標(biāo)以及置信度)作為輸入,經(jīng)行為識(shí)別網(wǎng)絡(luò)后,輸出檢測(cè)概率最大的類(lèi)別。設(shè)當(dāng)前時(shí)刻t,則某個(gè)工作人員k的骨架在經(jīng)過(guò)行為識(shí)別后識(shí)別出來(lái)的行為為B(tk)。 在實(shí)際作業(yè)現(xiàn)場(chǎng)監(jiān)控場(chǎng)景下,存在設(shè)備或人員遮擋、光照強(qiáng)弱不定等因素的影響,某些幀提取的人體骨架存在誤差,從而導(dǎo)致行為識(shí)別錯(cuò)誤,因此直接將B(tk)作為最終識(shí)別結(jié)果很容易導(dǎo)致錯(cuò)檢情況的發(fā)生。由于行為的發(fā)生通常是在一段時(shí)間內(nèi)完成的,其持續(xù)時(shí)間不定。在行為發(fā)生的這段時(shí)間里,盡管存在錯(cuò)檢情況,但是該操作人員絕大部分幀的動(dòng)作會(huì)被識(shí)別為B(tk)。 因此本文將采用統(tǒng)計(jì)方法,對(duì)出現(xiàn)的行為進(jìn)行統(tǒng)計(jì),連續(xù)5次出現(xiàn)同種動(dòng)作將確定該動(dòng)作為最終行為類(lèi)別,中間出現(xiàn)不同動(dòng)作標(biāo)簽,將重新進(jìn)行統(tǒng)計(jì)。
本次實(shí)驗(yàn)是以油田作業(yè)現(xiàn)場(chǎng)為研究背景,進(jìn)行相關(guān)實(shí)驗(yàn)。由于開(kāi)關(guān)閥門(mén)是油田井場(chǎng)生產(chǎn)中經(jīng)常進(jìn)行的最基本的操作內(nèi)容。開(kāi)關(guān)閥門(mén)時(shí)人要站在側(cè)面,防止閥門(mén)或絲杠飛出傷人,所以閥門(mén)操作是否規(guī)范是確保人身安全的保障措施。因此,通過(guò)對(duì)油田井場(chǎng)作業(yè)區(qū)域的監(jiān)控視頻進(jìn)行分析,利用計(jì)算機(jī)視覺(jué)相關(guān)知識(shí),自動(dòng)檢測(cè)出員工的不規(guī)范行為,加強(qiáng)井場(chǎng)操作規(guī)范,保障企業(yè)財(cái)產(chǎn)和人員安全有重要意義。
實(shí)驗(yàn)硬件環(huán)境:硬件平臺(tái)為聯(lián)想工作站,i7-6700 3.4 GHz CPU、NVIDIA CTX 3080Ti GPU,操作系統(tǒng)為Ubuntu 18.04。
軟件環(huán)境:程序編寫(xiě)語(yǔ)言為Python3.7。
由于現(xiàn)階段研究缺乏閥門(mén)操作數(shù)據(jù)集,因此本文將以油田井場(chǎng)工人真實(shí)操作視頻和志愿者模擬操作視頻制作數(shù)據(jù)集。其中真實(shí)油田井場(chǎng)視頻數(shù)據(jù)包括操作人員正常操作閥門(mén)和錯(cuò)誤操作閥門(mén)兩種動(dòng)作,截取部分視頻幀用于操作人員動(dòng)作定位模型的訓(xùn)練。由于真實(shí)場(chǎng)景下的視頻數(shù)量較少,所以志愿者對(duì)不同場(chǎng)景的閥門(mén)進(jìn)行模擬,包括正確操作、錯(cuò)誤操作、不操作等3種動(dòng)作類(lèi)別,部分?jǐn)?shù)據(jù)集采樣如圖6所示。
工作人員定位階段選用YOLOv5框架,使用自制數(shù)據(jù)集,其中操作人員數(shù)據(jù)集包括6300幅訓(xùn)練圖片、1575幅驗(yàn)證圖片,將圖像歸一化到640×640,使用Adam優(yōu)化器,置信度閾值為0.7,非極大值抑制閾值為0.4,學(xué)習(xí)率為10-4。將訓(xùn)練樣本隨機(jī)抽取進(jìn)行200次迭代,每次迭代樣本數(shù)為8。實(shí)驗(yàn)參數(shù)見(jiàn)表1。
本文實(shí)驗(yàn)將在精確度(P)、交并比(IoU)和平均精度(mAP)來(lái)衡量模型,計(jì)算式(9),式(10)如下
(9)
(10)
表1 實(shí)驗(yàn)參數(shù)
其中:TP(true positive)表示被正確分類(lèi)的正例;FP(false positive)表示本來(lái)是負(fù)例,被錯(cuò)分為正例[11];area(C)檢測(cè)后框出的工作人員區(qū)域;area(G)是標(biāo)記的工作人員區(qū)域。
本文與常見(jiàn)的目標(biāo)檢測(cè)模型Faster RCNN[12],YOLOv3[13]進(jìn)行對(duì)比。對(duì)比結(jié)果見(jiàn)表2。
表2 不同算法對(duì)比
由表2知,YOLOv5在本文數(shù)據(jù)集中精確度,檢測(cè)速度方面均為最優(yōu),無(wú)論是在AP還是mAP上,作為一階段目標(biāo)檢測(cè)網(wǎng)絡(luò)的代表YOLOv5均比兩階段目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster RCNN表現(xiàn)能力更好。3種網(wǎng)絡(luò)在測(cè)試集上的測(cè)試效果如圖7所示。
由圖7可知,在測(cè)試集上YOLOv5檢測(cè)精度為98.9%,單幀處理速度0.18 s,各項(xiàng)指標(biāo)均比另外兩種網(wǎng)絡(luò)要好。
經(jīng)過(guò)作業(yè)人員定位后裁剪出來(lái)的操作人員人體可能不夠完整,同時(shí)由于攝像頭分辨率以及放置距離的不同會(huì)導(dǎo)致裁剪出來(lái)的人體大小不同,因此在人體骨骼關(guān)鍵點(diǎn)提取之前需要對(duì)裁剪出來(lái)的圖片進(jìn)行預(yù)處理和歸一化。為解決裁剪出來(lái)的人體不全問(wèn)題,將檢測(cè)框向外擴(kuò)大1.2倍,然后將裁剪出來(lái)的圖片縮放至固定大小224×160。本文分別采用Openpose[14]和Alphapose進(jìn)行人體骨架提取,實(shí)驗(yàn)結(jié)果見(jiàn)表3,可視化結(jié)果如圖8所示。
表3 單人關(guān)鍵點(diǎn)提取結(jié)果
分析實(shí)驗(yàn)結(jié)果,針對(duì)同一場(chǎng)景中的作業(yè)人員,由于工作場(chǎng)景中存在欄桿、樹(shù)木的遮擋,使用自下而上的Openpose提取的骨骼關(guān)鍵點(diǎn)雖然提取速度較快但是有關(guān)鍵點(diǎn)缺失情況的發(fā)生,會(huì)大大影響后續(xù)行為識(shí)別部分。Alphapose提取速度較慢,但是仍能滿(mǎn)足實(shí)時(shí)檢測(cè)需求,且識(shí)別精度較高,骨骼提取相對(duì)完整。
當(dāng)作業(yè)人員進(jìn)入作業(yè)區(qū)域時(shí)開(kāi)始進(jìn)行跟蹤,當(dāng)目標(biāo)離開(kāi)作業(yè)區(qū)域時(shí)停止跟蹤。本實(shí)驗(yàn)采用以下方法來(lái)計(jì)算跟蹤精度,定義如下:在連續(xù)T幀中,若目標(biāo)保持同一ID的幀數(shù)超過(guò)95%,定義:Ntr為跟蹤成功的員工數(shù),Ntf為跟蹤失敗員工數(shù),At=Ntr/(Ntr+Ntf)[15]為跟蹤準(zhǔn)確度。表4為人員跟蹤結(jié)果。
分析表4實(shí)驗(yàn)結(jié)果,在有遮擋情況的場(chǎng)景中跟蹤準(zhǔn)確度有所下降,分析其原因,檢測(cè)目標(biāo)部分遮擋導(dǎo)致骨架提取不完整,從而導(dǎo)致跟蹤準(zhǔn)確度下降。對(duì)于較遠(yuǎn)距離的實(shí)驗(yàn)場(chǎng)景中,由于檢測(cè)目標(biāo)較小,骨架提取精度有所下降,導(dǎo)致跟蹤精度降低。但在多種實(shí)驗(yàn)場(chǎng)景下,人員跟蹤準(zhǔn)確度均在95%以上,能夠?yàn)楹罄m(xù)的行為識(shí)別提供保障。實(shí)際場(chǎng)景下的跟蹤效果如圖9所示,其中圖9(a)為近距離的跟蹤效果圖,圖9(b)為較遠(yuǎn)距離的跟蹤效果圖。
表4 人員跟蹤結(jié)果
本次訓(xùn)練所使用的數(shù)據(jù)集中,訓(xùn)練集有5231個(gè)骨架,驗(yàn)證集有2011個(gè)骨架。本次訓(xùn)練每次隨機(jī)采樣2000,迭代200次,學(xué)習(xí)率為10-3,使用Adam優(yōu)化器和交叉熵?fù)p失函數(shù)。最終的圖卷積模型在訓(xùn)練集上的分類(lèi)準(zhǔn)確率為98.3%,在驗(yàn)證集上的分類(lèi)準(zhǔn)確率為96.7%。在第t幀,作業(yè)人員進(jìn)行閥門(mén)操作,若在(t,t+N)幀內(nèi)閥門(mén)操作行為能夠被正確識(shí)別,則識(shí)別任務(wù)完成,否則識(shí)別失敗。由于閥門(mén)操作動(dòng)作具有連貫性,選取合理的時(shí)間步長(zhǎng)對(duì)于識(shí)別精度是至關(guān)重要的,過(guò)短的時(shí)間步不能夠充分表達(dá)一個(gè)動(dòng)作,而過(guò)長(zhǎng)的時(shí)間步則導(dǎo)致運(yùn)算速度慢,冗余的信息也會(huì)干擾識(shí)別過(guò)程。所以需要選取合適的N。以由4名實(shí)驗(yàn)人員,分別在不同角度(左后方、右后方、正后方),不同距離(較近、中距離、較遠(yuǎn)距離)的300段視頻作為驗(yàn)證集,3種操作類(lèi)別的視頻各100個(gè)。定義識(shí)別正確的視頻片段數(shù)量記為Nr,識(shí)別錯(cuò)誤的視頻片段數(shù)量記為Nf,則識(shí)別正確率Ar=Nr/(Nr+Nf)。 本文采用N=(1,5,10,15,20,30) 作為輸入進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果見(jiàn)表5。
如表5所示,當(dāng)N=1時(shí),100段正確操作的視頻僅有54段被正確識(shí)別,錯(cuò)誤操作視頻有53段被正確識(shí)別,無(wú)操作視頻全部識(shí)別成功,整體識(shí)別準(zhǔn)確率最低,在N=10時(shí),盡管無(wú)操作視頻的識(shí)別率有所下降,但是整體識(shí)別準(zhǔn)確率最高。并隨著N的不斷增大,無(wú)操作視頻被正確識(shí)別的數(shù)量逐漸減少,正確操作的識(shí)別率不斷增加。當(dāng)N大于10時(shí),錯(cuò)誤操作的視頻均能夠被大部分識(shí)別。
對(duì)其中效果最好的N=10訓(xùn)練的模型采用300段視頻的測(cè)試后的混淆矩陣進(jìn)行可視化,如圖10所示。
表5 不同時(shí)間步長(zhǎng)檢測(cè)精度對(duì)比
從混淆矩陣可以發(fā)現(xiàn),對(duì)于實(shí)驗(yàn)的3個(gè)行為類(lèi)別,無(wú)操作的行為識(shí)別率最低,與錯(cuò)誤操作混淆概率較大。100段正確操作視頻和100段錯(cuò)誤操作視頻均被正確識(shí)別,然而100段無(wú)操作視頻中,90段視頻被正確分類(lèi),兩段視頻被錯(cuò)誤識(shí)別為“operation”,8段視頻被錯(cuò)誤識(shí)別為“error operation”。分析實(shí)驗(yàn)結(jié)果產(chǎn)生的原因,主要是測(cè)試數(shù)據(jù)中被錯(cuò)誤識(shí)別的視頻,如圖11(a)所示,截取的視頻為工人靠近閥門(mén),但未進(jìn)行旋轉(zhuǎn)操作的狀態(tài),可視化骨骼數(shù)據(jù),如圖11(b)所示,前4幀為工人靠近閥門(mén)階段,后6幀為身體彎曲,手接近閥門(mén),但未進(jìn)行旋轉(zhuǎn)操作階段。部分核心關(guān)節(jié)點(diǎn)組成的集合與“正確操作”的動(dòng)作序列如圖11(c)所示存在部分重合,容易導(dǎo)致分類(lèi)錯(cuò)誤。
由于存在上述誤檢情況,對(duì)可視化左肩關(guān)鍵點(diǎn)y坐標(biāo)隨時(shí)間變化曲線(圖12)進(jìn)行分析。前292幀為“正確操作”行為,292-475幀為“無(wú)操作”行為,475-682幀為“錯(cuò)誤操作”行為。由圖可知,每種動(dòng)作的坐標(biāo)變化較為規(guī)律,且在兩種動(dòng)作切換時(shí)達(dá)到穩(wěn)定狀態(tài)所用時(shí)間大概為10幀左右。因此,采用連續(xù)10幀為輸入,同時(shí)采用滑窗方法對(duì)連續(xù)5次的檢測(cè)結(jié)果進(jìn)行統(tǒng)計(jì),只有連續(xù)5次均為“錯(cuò)誤操作”,則進(jìn)行報(bào)警,能夠達(dá)到降低誤報(bào)率的效果。最終實(shí)驗(yàn)結(jié)果如圖13所示。
在相同數(shù)據(jù)集上,使用不同方法與本文最終方法進(jìn)行作業(yè)人員行為識(shí)別對(duì)比分析,結(jié)果見(jiàn)表6,從表中可知,方法1與方法2表明,使用YOLOv5進(jìn)行人員定位能夠大幅度提高整體的識(shí)別速度;方法2與方法3對(duì)比表明,使用Alphapose進(jìn)行姿態(tài)估計(jì)雖然耗費(fèi)時(shí)間較多,但檢測(cè)精度有所提升,進(jìn)而表明姿態(tài)估計(jì)的準(zhǔn)確度能在很大程度上影響識(shí)別結(jié)果,因此在滿(mǎn)足實(shí)時(shí)性的要求下,選取較高精度的姿態(tài)估計(jì)模型。方法3與方法4對(duì)比表明,添加通道注意力,能夠有效提高識(shí)別精度。因此本文采用方法4,識(shí)別精度較高,且能夠滿(mǎn)足實(shí)時(shí)檢測(cè),漏警率較低。
本文針對(duì)現(xiàn)有方法在真實(shí)作業(yè)場(chǎng)景下不能實(shí)時(shí)準(zhǔn)確的識(shí)別工作人員操作是否規(guī)范的問(wèn)題,提出了基于圖卷積的作業(yè)行為實(shí)時(shí)檢測(cè)方法。首先,采用YOLOv5定位監(jiān)控視頻中的作業(yè)人員,并使用Alphapose提取人體骨架;然后使用DeepSort對(duì)待識(shí)別目標(biāo)進(jìn)行跟蹤;最后,使用圖卷積的方法對(duì)作業(yè)人員的操作不規(guī)范行為進(jìn)行識(shí)別,并采用統(tǒng)計(jì)方法降低誤檢率。實(shí)驗(yàn)結(jié)果表明,該方法在真實(shí)監(jiān)控場(chǎng)景下檢測(cè)速度可達(dá)25 fps,閥門(mén)操作行為識(shí)別準(zhǔn)確率可達(dá)96.7%,能夠?qū)﹀e(cuò)誤操作行為進(jìn)行及時(shí)報(bào)警。但是,該算法針對(duì)復(fù)雜場(chǎng)景中人員密集,骨骼提取速度變慢,并且工作場(chǎng)景中存在大量設(shè)備,會(huì)產(chǎn)生人體遮擋導(dǎo)致提取的骨架存在部分缺失,使得最終行為識(shí)別結(jié)果錯(cuò)誤。所以,在今后將針對(duì)多人場(chǎng)景下的行為識(shí)別存在的遮擋、實(shí)時(shí)性問(wèn)題進(jìn)行研究。