王蓯蓉,吳靜靜
(1.江南大學(xué) 機(jī)械工程學(xué)院,江蘇 無(wú)錫 214122;2.江蘇省食品先進(jìn)制造裝備技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無(wú)錫 214122)
近年來(lái),隨著電商時(shí)代的到來(lái),快遞行業(yè)也隨之蓬勃發(fā)展,我國(guó)快遞點(diǎn)數(shù)量劇增,快遞攬收和運(yùn)輸過(guò)程中的安全問(wèn)題受到日益關(guān)注??爝f行業(yè)要求快遞攬件時(shí)工作人員必須在快遞箱封閉前進(jìn)行一次開(kāi)箱查驗(yàn),以確保貨物能夠安全送達(dá)目的地。與傳統(tǒng)人工視頻監(jiān)控相比,智能視頻監(jiān)控技術(shù)可以高效識(shí)別異?;蛘呶kU(xiǎn)行為[1-2],對(duì)快遞工作人員的行為進(jìn)行識(shí)別和預(yù)警,極大提高了監(jiān)控效率和監(jiān)督的有效性[3]。因此,快遞場(chǎng)景下異常行為識(shí)別方法的研究對(duì)于實(shí)現(xiàn)智能安全快遞的目標(biāo)具有重要意義。
近年來(lái),人體行為識(shí)別被廣泛應(yīng)用于智能視頻監(jiān)控等日常生活場(chǎng)景中,目前國(guó)內(nèi)外現(xiàn)有的行為識(shí)別研究更多聚焦于單人和多人行為[4-7]。在危險(xiǎn)行為識(shí)別方面,Guan[8]利用3D-CNN結(jié)合LTSM進(jìn)行異常行為識(shí)別;Xu[9]等人通過(guò)提取視頻的底層特征,實(shí)現(xiàn)了對(duì)視頻中暴力行為的檢測(cè);吳蓬勃[10]等人基于TensorFlow深度學(xué)習(xí)框架,使用PoseNet模型采集數(shù)據(jù),通過(guò)LSTM實(shí)現(xiàn)了快遞暴力分揀行為的識(shí)別。在動(dòng)物行為識(shí)別方面,Wang[11]等人采用YOLOv3模型,基于深度圖像分析技術(shù)研究了一種針對(duì)蛋雞行為的自動(dòng)識(shí)別方法;Yang[12]等人利用深度學(xué)習(xí)實(shí)現(xiàn)了豬行為的識(shí)別。以上方法在行為識(shí)別應(yīng)用中效果較好,然而對(duì)于快遞場(chǎng)景下開(kāi)箱驗(yàn)視異常行為分析問(wèn)題,僅使用人體運(yùn)動(dòng)信息描述行為往往會(huì)引起較大的識(shí)別錯(cuò)誤率[13],易受到復(fù)雜背景、光照變化以及寄件人行為等干擾。在快遞場(chǎng)景中,開(kāi)箱驗(yàn)視屬于人-物交互行為,僅僅依靠人手部的骨骼和關(guān)節(jié)信息難以區(qū)分相似動(dòng)作,如寄件人人手干擾、其他快遞員取物品等,丟失了必要的物體和語(yǔ)義信息。
針對(duì)以上問(wèn)題,本文分析快遞場(chǎng)景特點(diǎn)和異常行為特征,提出了一種基于關(guān)鍵姿態(tài)的人-物交互行為識(shí)別方法。針對(duì)場(chǎng)景內(nèi)的背景干擾和信息冗余,提出一種基于GMM的關(guān)鍵幀提取算法;針對(duì)基于OpenPose骨骼點(diǎn)的人體行為識(shí)別方法丟失上下文場(chǎng)景和語(yǔ)義信息的問(wèn)題,引入目標(biāo)檢測(cè)方法確定感興趣的目標(biāo)物,獲得目標(biāo)位置和類(lèi)別;針對(duì)多目標(biāo)行為識(shí)別問(wèn)題,提出基于Auction的人-物最優(yōu)分配方法,確定人-物關(guān)系描述子和關(guān)鍵姿態(tài)向量;最后,將行為識(shí)別和人-物關(guān)系進(jìn)行融合決策得到最終識(shí)別結(jié)果。
本文提出的基于關(guān)鍵姿態(tài)的快遞場(chǎng)景異常行為識(shí)別方法流程如圖1和圖2所示。對(duì)于網(wǎng)絡(luò)攝像頭采集并傳回的視頻流,首先用改進(jìn)的高斯混合背景建模方法建立監(jiān)控場(chǎng)景背景模型,檢測(cè)運(yùn)動(dòng)目標(biāo),根據(jù)運(yùn)動(dòng)目標(biāo)的面積閾值判斷是否是關(guān)鍵幀;對(duì)關(guān)鍵幀使用OpenPose計(jì)算獲得骨骼點(diǎn)和肢體特征向量,輸入深度學(xué)習(xí)行為分類(lèi)網(wǎng)絡(luò)得到人體最初行為模式和位置;使用目標(biāo)檢測(cè)算法對(duì)關(guān)鍵幀中的物體進(jìn)行檢測(cè)和分類(lèi),獲得物體類(lèi)別和位置,然后提出最優(yōu)分配算法獲得人-物關(guān)系特征描述子和關(guān)鍵姿態(tài);最后將人-物交互關(guān)鍵姿態(tài)特征和最初的特征識(shí)別進(jìn)行融合決策得到最終行為識(shí)別結(jié)果。
圖1 基于關(guān)鍵姿態(tài)的快遞場(chǎng)景人-物交互行為識(shí)別方法
圖2 基于關(guān)鍵姿態(tài)的人-物交互行為識(shí)別流程
在視頻序列中由關(guān)鍵姿態(tài)描述的行為狀態(tài)對(duì)于分析識(shí)別人的行為更有意義[14],同時(shí)為了減少數(shù)據(jù)冗余和計(jì)算負(fù)載,本文提出基于改進(jìn)高斯混合模型的關(guān)鍵幀提取方法。在傳統(tǒng)高斯混合模型中,在學(xué)習(xí)的過(guò)程中學(xué)習(xí)率是固定不變的,因此在一定時(shí)間后運(yùn)動(dòng)目標(biāo)對(duì)應(yīng)的高斯分布權(quán)值會(huì)上升,逐漸更新為背景分布,這樣會(huì)導(dǎo)致運(yùn)動(dòng)目標(biāo)出現(xiàn)孔洞然后消失,尤其是運(yùn)動(dòng)速度較慢的目標(biāo)。因此本文將運(yùn)動(dòng)目標(biāo)的速度v與像素點(diǎn)的學(xué)習(xí)率αx,y,t相關(guān)聯(lián),作為動(dòng)態(tài)變量對(duì)其進(jìn)行動(dòng)態(tài)調(diào)整。本文定義的運(yùn)動(dòng)速度υx,y,t的數(shù)學(xué)表達(dá)式如式(1)所示。使用該方法進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),有效地提高了運(yùn)行速度,加強(qiáng)了動(dòng)態(tài)環(huán)境地自適應(yīng)性。
(1)
(2)
式中,Δt代表時(shí)間間隔,為固定值。xt和yt指代的是t幀圖像中運(yùn)動(dòng)目標(biāo)點(diǎn)集的最小外接矩形的中心像素點(diǎn)的行列序號(hào)。對(duì)于組成運(yùn)動(dòng)目標(biāo)的前景像素點(diǎn)集合來(lái)說(shuō),其中每一個(gè)點(diǎn)的速度υx,y,t均由相同的速度值來(lái)表示。
為了防止固定的更新速率將低速目標(biāo)識(shí)別為背景,學(xué)習(xí)率αx,y,t需要隨著速度υx,y,t的變化動(dòng)態(tài)調(diào)整[15]。對(duì)于高速目標(biāo)來(lái)說(shuō),它不會(huì)停留在固定區(qū)域,也就不存在前景分布逐步轉(zhuǎn)換為背景分布的情況,所以像素點(diǎn)需要保持穩(wěn)定、較高的學(xué)習(xí)率;而低速目標(biāo)則完全相反。定義學(xué)習(xí)率αx,y,t的計(jì)算公式如式(3):
(3)
式中,υ0表示速度臨界閾值,用于區(qū)分高速與低速的運(yùn)動(dòng)目標(biāo)。當(dāng)一個(gè)像素點(diǎn)滿(mǎn)足以下條件時(shí),它的學(xué)習(xí)率會(huì)初始化為初值αx,y,0:1)t-1和t時(shí)刻所匹配的分布模型發(fā)生了變化;2)連續(xù)5~10幀速度均為0。
如圖3所示,圖(b)為經(jīng)過(guò)改進(jìn)高斯混合模型之后獲得的前景二值圖,該模型相較于經(jīng)典GMM提取的前景圖對(duì)于消除孔洞等干擾問(wèn)題有明顯的優(yōu)勢(shì)。當(dāng)相機(jī)視野范圍內(nèi)無(wú)運(yùn)動(dòng)目標(biāo)進(jìn)入時(shí),檢測(cè)系統(tǒng)處于待機(jī)模式,僅進(jìn)行視頻流與圖像幀的獲取。m(k)(x,y)表示經(jīng)過(guò)改進(jìn)的高斯混合模型之后得出的運(yùn)動(dòng)目標(biāo)前景二值圖。當(dāng)檢測(cè)區(qū)域內(nèi)出現(xiàn)運(yùn)動(dòng)目標(biāo)時(shí),m(k)(x,y)中出現(xiàn)大量白色像素點(diǎn),通過(guò)計(jì)算白色像素點(diǎn)個(gè)數(shù)與圖片總像素的比例s,設(shè)定特定閾值V,篩選出大于閾值的幀組成關(guān)鍵幀,然后再進(jìn)行后續(xù)的行為識(shí)別。
圖3 改進(jìn)GMM效果對(duì)比圖
在完成關(guān)鍵幀的檢測(cè)后,需要提取關(guān)鍵幀內(nèi)的人體狀態(tài)向量與物體狀態(tài)向量,以便后續(xù)進(jìn)一步對(duì)人-物狀態(tài)向量進(jìn)行匹配融合,進(jìn)而實(shí)現(xiàn)人-物交互行為語(yǔ)義的描述。其中,人體狀態(tài)向量可以由人體關(guān)鍵點(diǎn)的位置信息、肢體角度和行為標(biāo)簽來(lái)表達(dá),物體狀態(tài)向量可以由物體的類(lèi)別標(biāo)簽、位置和尺寸來(lái)表達(dá)。
2.2.1 基于骨架建模的人體狀態(tài)向量提取
OpenPose模型[16]是由美國(guó)卡耐基大學(xué)(CMU)以Caffe深度學(xué)習(xí)框架開(kāi)發(fā)的人體姿態(tài)估計(jì)項(xiàng)目,可以實(shí)現(xiàn)人體關(guān)節(jié)點(diǎn)的提取與骨架結(jié)構(gòu)的聚合,從而描述人體姿態(tài)特征。作為一種自下而上的關(guān)節(jié)點(diǎn)檢測(cè)算法,在具有較高檢測(cè)精度的同時(shí),檢測(cè)速度具有優(yōu)越性。如圖4所示,該模型可以輸出18個(gè)人體關(guān)節(jié)點(diǎn)信息,包括關(guān)節(jié)的坐標(biāo)向量以及置信度信息。
圖4 基于OpenPose的骨架建模的模型圖和結(jié)果圖
OpenPose模型以RGB圖像數(shù)據(jù)作為模型輸入,以VGG19模型[17]的前10層做基礎(chǔ)特征提取,對(duì)于提取得到的特征圖F,通過(guò)關(guān)節(jié)位置回歸支路(PCM)回歸人體關(guān)節(jié)的位置向量集合S=(S1,S2,…,Sj,…,Sn),Sj表示第j個(gè)關(guān)節(jié)位置的坐標(biāo)向量,通過(guò)關(guān)節(jié)親和力大小預(yù)測(cè)支路(PAF)預(yù)測(cè)關(guān)節(jié)之間的親和力場(chǎng)集合L=(L1,L2,…,Lc,…,Ln),Lc表示第c組關(guān)節(jié)對(duì)之間的親和力大小分布。兩條支路的輸出可以表達(dá)為:
(4)
式中,F(xiàn)是基于圖像數(shù)據(jù)提取的特征圖,ρt和φt分別表示在階段t的PCM支路輸出和PAF支路輸出。對(duì)于本文來(lái)說(shuō),只需要利用OpenPose模型PCM支路輸出的關(guān)節(jié)坐標(biāo)向量集合X=(X1,X2,…,X18),其中包含了代表人手的關(guān)節(jié)點(diǎn)的位置向量Xk(xt,yt)。
在完成人體關(guān)節(jié)坐標(biāo)向量的提取后,需要進(jìn)一步實(shí)現(xiàn)人體狀態(tài)向量的描述,即人員行為狀態(tài)的預(yù)測(cè)。本文采用神經(jīng)網(wǎng)絡(luò)模型處理關(guān)節(jié)向量信息,進(jìn)而實(shí)現(xiàn)行為類(lèi)別的預(yù)測(cè),網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。首先將輸入的18個(gè)關(guān)節(jié)坐標(biāo)向量扁平化處理成一維向量,網(wǎng)絡(luò)整體由4個(gè)結(jié)構(gòu)相似的全連接層Block組成,對(duì)于每一個(gè)Block輸出都進(jìn)行層標(biāo)準(zhǔn)化處理約束模型的參數(shù)分布,避免模型誤差反向傳播時(shí)出現(xiàn)梯度爆炸的問(wèn)題。
圖5 基于骨骼點(diǎn)的人體行為識(shí)別網(wǎng)絡(luò)
針對(duì)行走、開(kāi)箱、使用手機(jī)、包裝快遞、寫(xiě)快遞單等5種人體狀態(tài)描述,對(duì)應(yīng)標(biāo)簽值為:“0-Walking”“1-OpenBox”“2-UsingPhone”“3-Packing”“4-Writing”。據(jù)此為神經(jīng)網(wǎng)絡(luò)模型定義5個(gè)輸出向量,并通過(guò)Softmax函數(shù)完成對(duì)5種狀態(tài)預(yù)測(cè)的置信度信息做歸一化處理,取最大置信度對(duì)應(yīng)的行為類(lèi)別為當(dāng)前人體狀態(tài)向量描述。
2.2.2 基于YOLO的物體狀態(tài)向量提取
上一節(jié)內(nèi)容中對(duì)快遞工作人員進(jìn)行了骨架建模和行為識(shí)別,但由于快遞員在快遞開(kāi)箱驗(yàn)視的過(guò)程中容易產(chǎn)生很多相似的干擾行為,如包裝快遞、使用手機(jī)、寫(xiě)快遞單以及使用工具等等,這些行為存在一定的相似性,單單憑借人體行為無(wú)法有效區(qū)分識(shí)別。因此需要對(duì)場(chǎng)景中的目標(biāo)物進(jìn)行分類(lèi)與定位,確定物體的狀態(tài)向量,以便于對(duì)后續(xù)關(guān)鍵姿態(tài)估計(jì)以及決策融合提供物品信息。
YOLO作為一種經(jīng)典的目標(biāo)檢測(cè)算法[18],將基于圖像的目標(biāo)對(duì)象檢測(cè)問(wèn)題定義為了一個(gè)回歸問(wèn)題,即利用整張圖作為網(wǎng)絡(luò)的輸入,直接在輸出層回歸待檢測(cè)物體所在區(qū)域Bounding Box的位置信息以及所屬類(lèi)別信息。作為端到端的模型結(jié)構(gòu),YOLO在檢測(cè)速度上具有顯著優(yōu)勢(shì)。利用該模型實(shí)現(xiàn)目標(biāo)檢測(cè)的流程如圖6所示。
圖6 YOLO模型目標(biāo)檢測(cè)流程示意圖
YOLO模型同樣以RGB數(shù)據(jù)作為模型輸入,首先將圖像劃分為7×7的網(wǎng)絡(luò)區(qū)域,然后執(zhí)行兩個(gè)Branch分支。第一個(gè)分支進(jìn)行目標(biāo)位置框區(qū)域估計(jì),即基于每個(gè)網(wǎng)格Cell給出兩個(gè)指定寬高比的預(yù)測(cè)框,輸出Bounding Box的4個(gè)頂點(diǎn)坐標(biāo)與置信度信息,后續(xù)基于置信度非極大抑制以及框選位置尺寸矯正實(shí)現(xiàn)候選框篩選與位置優(yōu)化。第二個(gè)分支負(fù)責(zé)預(yù)測(cè)每個(gè)網(wǎng)格Cell的所屬目標(biāo)類(lèi)別,結(jié)合第一個(gè)分支Bounding Box位置的估計(jì)結(jié)果,實(shí)現(xiàn)對(duì)待檢測(cè)目標(biāo)所在區(qū)域的ROI位置以及類(lèi)別預(yù)測(cè)。
綜合考慮各種因素,針對(duì)箱子、手機(jī)、膠帶、快遞單和小刀6種物體狀態(tài)向量描述,對(duì)應(yīng)標(biāo)簽值為:“1-Box”“2-Phone”“3-Tape”“4-Express List”“5-Knife”(初始化類(lèi)別標(biāo)簽為“0-Nothing”),目標(biāo)檢測(cè)的實(shí)驗(yàn)結(jié)果如圖7所示。從圖中可以看出,該網(wǎng)絡(luò)可以準(zhǔn)確地檢測(cè)出快遞站場(chǎng)景中的目標(biāo)物品,同時(shí)返回被測(cè)物品的位置和尺寸。最終得到物品的位置和類(lèi)別狀態(tài)向量集Yk(Lt,xt,yt,wt,ht),其中,Lt表示物品標(biāo)簽,xt和yt代表Bounding Box的中心點(diǎn)坐標(biāo),wt和ht分別表示Bounding Box的寬和高。
圖7 目標(biāo)檢測(cè)識(shí)別結(jié)果圖
與單人動(dòng)作相比,多人-多物交互行為在快遞場(chǎng)景中更為常見(jiàn)。如圖8(a)所示,一個(gè)常見(jiàn)的快遞場(chǎng)景中往往有多個(gè)工作人員(攬件員),在工作人員周?chē)€存在多個(gè)寄件人,桌面上除了包括多個(gè)包裝紙箱,還有手機(jī)、快遞單收納籃、計(jì)算器、膠帶卷等,多人和各種類(lèi)型的桌面物品極大地影響了開(kāi)箱驗(yàn)視行為識(shí)別的準(zhǔn)確率。為了提高多人-多物復(fù)雜環(huán)境下的開(kāi)箱驗(yàn)視行為識(shí)別性能,本文提出一種基于Auction的關(guān)鍵姿態(tài)估計(jì)方法,根據(jù)多人和多物的位置和類(lèi)別狀態(tài)向量,設(shè)計(jì)全局最優(yōu)分配代價(jià)函數(shù),推斷出開(kāi)箱驗(yàn)視人-物交互關(guān)系候選對(duì)集合[19]。
圖8 基于Auction的關(guān)鍵姿態(tài)估計(jì)算法
在快遞場(chǎng)景中,假設(shè)YOLO算法檢測(cè)到物品位置和類(lèi)別狀態(tài)向量集為Xk;OpenPose輸出的人手位置狀態(tài)向量集Yk。在本文提出的人物交互行為識(shí)別算法中,把關(guān)鍵姿態(tài)估計(jì)問(wèn)題轉(zhuǎn)化為分配問(wèn)題,即將當(dāng)前k時(shí)刻的物品狀態(tài)估計(jì)Yk分配給人手狀態(tài)Xk。而分配問(wèn)題的關(guān)鍵在于設(shè)計(jì)一個(gè)代價(jià)函數(shù)來(lái)衡量物品狀態(tài)和人手狀態(tài)的相關(guān)性,兩個(gè)狀態(tài)估計(jì)的相關(guān)性越大則人-物的匹配可能性越高。由于目標(biāo)狀態(tài)指示的是一個(gè)包含位置、標(biāo)簽、附屬關(guān)系等的向量,要確立兩個(gè)狀態(tài)向量間的匹配程度或相似性,需要借助向量特征來(lái)進(jìn)行相似度的度量。本節(jié)設(shè)計(jì)的代價(jià)函數(shù)的原理為采用人手狀態(tài)和物品狀態(tài)的巴氏距離[20]來(lái)衡量二者的相似性,相似越大則兩個(gè)目標(biāo)狀態(tài)的距離越小,進(jìn)而匹配的代價(jià)越小。基于Auction的關(guān)鍵姿態(tài)估計(jì)原理如圖9所示,具體算法可總結(jié)如下:
圖9 關(guān)鍵姿態(tài)估計(jì)原理示意圖
(5)
Step2:初始化Xk中所有未分配成功的狀態(tài)估計(jì)并將關(guān)聯(lián)代價(jià)(Price)設(shè)定為0;
(6)
Pn=Pn+dn+ε
(7)
Step6:返回至Step3;
Step7:輸出帶有標(biāo)簽的多人-多物配對(duì)集Pk={p1,p2,p3,…,pk},其中,Pk為包含第k個(gè)人手狀態(tài)與所有物品狀態(tài)價(jià)格的向量。
在得到帶標(biāo)簽的多人-多物配對(duì)集Pk={p1,p2,p3,…,pk}之后,選擇與人手狀態(tài)關(guān)聯(lián)價(jià)格最高的物品狀態(tài)進(jìn)行直接配對(duì),得到配對(duì)完成后的潛力人-物對(duì),直接與初始行為進(jìn)行融合決策。融合決策是根據(jù)一定的準(zhǔn)則,將經(jīng)過(guò)人體行為識(shí)別網(wǎng)絡(luò)輸出的行為類(lèi)別結(jié)果、經(jīng)過(guò)YOLO檢測(cè)的物品信息以及通過(guò)Auction關(guān)鍵姿態(tài)估計(jì)得到的人物相關(guān)性配對(duì)集進(jìn)行融合判斷,最終獲得人體行為的識(shí)別結(jié)果,初始行為類(lèi)別和物體類(lèi)別的數(shù)字標(biāo)簽對(duì)應(yīng)表如表1所示。根據(jù)初始行為類(lèi)別和物體類(lèi)別以及對(duì)于幾種行為的綜合判斷,具體的融合決策策略如下:
表1 初始行為類(lèi)別和物體類(lèi)別的數(shù)字標(biāo)簽對(duì)應(yīng)表
Case1:當(dāng)初始行為或者相匹配的物體類(lèi)別的編號(hào)為0時(shí),行為類(lèi)別即為“Irrelevant Behavior”;
Case2:當(dāng)初始行為與相匹配的物體類(lèi)別的編號(hào)相同時(shí),表示行為類(lèi)別無(wú)需修正;
Case3:當(dāng)初始行為為1,若相匹配的物體類(lèi)別為2,則將初始行為修正為“Using Phone”;若相匹配的物體類(lèi)別為3,則將初始行為修正為“Packing”;若相匹配的物體類(lèi)別為4,則將初始行為修正為“Writing”;若相匹配的物體類(lèi)別為5,表示行為類(lèi)別無(wú)需修正;
Case4:當(dāng)初始行為為2,若相匹配的物體類(lèi)別為1,表示行為類(lèi)別無(wú)需修正;若相匹配的物體類(lèi)別為3,則將初始行為修正為“Packing”;若相匹配的物體類(lèi)別為4,則將初始行為修正為“Writing”;若相匹配的物體類(lèi)別為5,則將初始行為修正為“OpenBox”;
Case5:當(dāng)初始行為為3,若相匹配的物體類(lèi)別為1,表示行為類(lèi)別無(wú)需修正;若相匹配的物體類(lèi)別為2,則將初始行為修正為“UsingPhone”。若相匹配的物體類(lèi)別為4,則將初始行為修正為“Writing”;若相匹配的物體類(lèi)別為5,則將初始行為修正為“OpenBox”;
Case6:當(dāng)初始行為為4,若相匹配的物體類(lèi)別為1,表示行為類(lèi)別無(wú)需修正;若相匹配的物體類(lèi)別為2,則將初始行為修正為“Using Phone”;若相匹配的物體類(lèi)別為3,則將初始行為修正為“Packing”;若相匹配的物體類(lèi)別為5,則將初始行為修正為“OpenBox”。
在實(shí)際場(chǎng)景下,對(duì)于快遞場(chǎng)景人物交互行為識(shí)別的應(yīng)用意義就是判斷工作人員是否進(jìn)行了開(kāi)箱驗(yàn)視。因此行為類(lèi)別為“Open Box”是本文需要重點(diǎn)關(guān)注的行為類(lèi)別,而“Packing”“Using Phone”“Writing”以及“Irrelevant Behavior”這4種行為屬于快遞站常見(jiàn)的其它行為,通過(guò)對(duì)這幾種行為進(jìn)行識(shí)別可以更好地對(duì)工作人員的行為進(jìn)行規(guī)范,設(shè)計(jì)更合理的工作流程,提高快遞開(kāi)箱驗(yàn)視工作效率。
本文研究的快遞站場(chǎng)景人物交互行為識(shí)別屬于具體場(chǎng)景應(yīng)用,通用行為識(shí)別數(shù)據(jù)集不適合用來(lái)驗(yàn)證本文所提方法。因此,本文在真實(shí)快遞站環(huán)境下采集了工作人員和顧客行為的視頻片段,包含了以下4種行為類(lèi)別,共200組視頻,截取圖像共10 000幀,其中行為“Opened Box”有2 353幀,行為“Packing”有3 382幀,行為“Using Phone”有2 645幀,行為“Writing”有1 079幀,行為“Irrelevant Behavior”有541幀,本文數(shù)據(jù)集示例如圖10所示。
圖10 數(shù)據(jù)集圖像示例
根據(jù)第二章所闡述的行為識(shí)別和目標(biāo)檢測(cè)的方法,本文設(shè)計(jì)的實(shí)驗(yàn)步驟如下:
Step1:數(shù)據(jù)集劃分。將200組郵局實(shí)驗(yàn)樣本按照4:1的比例劃分為訓(xùn)練集和測(cè)試集;
Step2:將訓(xùn)練集輸入至OpenPose進(jìn)行骨架建模,得到人體上半身的骨骼點(diǎn)數(shù)據(jù);
Step3:將骨骼點(diǎn)數(shù)據(jù)作為輸入,制作行為識(shí)別的數(shù)據(jù)集,對(duì)如圖5所示的人體行為識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,學(xué)習(xí)率設(shè)置為0.0001,Epoch設(shè)置為100,BatchSize設(shè)置為32。
Step4:制作目標(biāo)檢測(cè)的數(shù)據(jù)集,訓(xùn)練YOLOv5網(wǎng)絡(luò),得到網(wǎng)絡(luò)的訓(xùn)練模型并測(cè)試結(jié)果;
Step5:得到兩種網(wǎng)絡(luò)模型的測(cè)試結(jié)果后,根據(jù)基于Auction的關(guān)鍵姿態(tài)估計(jì)方法得到人-物配對(duì)集;
Step6:通過(guò)融合決策得出實(shí)驗(yàn)結(jié)果。
本文采用精確率(Precision)和召回率(Recall)作為評(píng)價(jià)指標(biāo)[21],用于評(píng)價(jià)該識(shí)別方法的優(yōu)劣,具體計(jì)算方法如公式(8)和(9)所示:
(8)
(9)
其中:TP(ci)表示屬于ci類(lèi)且被正確分為ci類(lèi)的樣本數(shù);FP(ci)表示不屬于ci類(lèi)但被分為ci類(lèi)的樣本數(shù);FN(ci)表示屬于ci類(lèi)但沒(méi)有被正確分為ci類(lèi)的樣本數(shù)[22-23]。
如上一小節(jié)所述,按照4:1的比例進(jìn)行訓(xùn)練集和數(shù)據(jù)集的劃分,因此測(cè)試集一共2 000幀,行為“Opened Box”有470幀,行為“Packing”有680幀,行為“Using Phone”有530幀,行為“Writing”有210幀,行為“Irrelevant Behavior”有110幀。將加入目標(biāo)檢測(cè)模塊和融合決策之后的識(shí)別算法與加入前的識(shí)別算法進(jìn)行對(duì)比實(shí)驗(yàn),圖11中的(a)和(b)分別為加入模塊前和加入模塊后識(shí)別結(jié)果的混淆矩陣,用測(cè)試集分別測(cè)試得出的準(zhǔn)確率和召回率如表2和表3所示。
圖11 混淆矩陣
表2 識(shí)別結(jié)果(加入模塊前) %
表3 識(shí)別結(jié)果(加入模塊后) %
實(shí)驗(yàn)結(jié)果表明,在加入目標(biāo)檢測(cè)模塊和融合決策模塊之后,該系統(tǒng)的精確率和召回率有了顯著的提高,為了更直觀(guān)地表明本文方法的有效性,將實(shí)驗(yàn)結(jié)果進(jìn)行可視化??爝f站實(shí)際場(chǎng)景的實(shí)驗(yàn)結(jié)果如圖12所示,分別展示了3種不同時(shí)間段的圖像幀序列,如圖所示,(1,2,3,4)-b的右側(cè)人員的真實(shí)行為類(lèi)別為“Packing”,但是在未加入目標(biāo)檢測(cè)模塊之前被誤識(shí)別為“OpenBox”,加入目標(biāo)檢測(cè)模塊并經(jīng)過(guò)決策融合之后,識(shí)別結(jié)果得以修正;(1,2,3,4)-c右側(cè)人員的真實(shí)行為類(lèi)別為“OpenBox”,初始誤識(shí)別為“Packing”,最終識(shí)別結(jié)果被修正準(zhǔn)確。(1,2,3,4)-a由于該行為初始類(lèi)別準(zhǔn)確,因此最終識(shí)別結(jié)果并未發(fā)生改變。除此之外,圖中僅顯示了與人員行為相關(guān)的物品信息,這是通過(guò)關(guān)鍵姿態(tài)估計(jì)進(jìn)行了人-物最優(yōu)分配,去除了與人員行為無(wú)關(guān)的物品干擾。綜上所述,本文算法具有良好的準(zhǔn)確率和召回率。
圖12 實(shí)際快遞場(chǎng)景實(shí)驗(yàn)結(jié)果
本文綜合分析快遞場(chǎng)景的特點(diǎn)和異常行為特征,將基于骨架建模的人體行為識(shí)別與目標(biāo)檢測(cè)相結(jié)合,提出了一種基于關(guān)鍵姿態(tài)的快遞場(chǎng)景人物交互行為識(shí)別方法。首先用改進(jìn)的高斯混合模型進(jìn)行關(guān)鍵幀的提取,然后用OpenPose進(jìn)行骨架建模,繼而利用基于骨骼點(diǎn)的人體行為識(shí)別方法獲取人體的初始行為類(lèi)別;使用YOLOv5算法獲得場(chǎng)景內(nèi)常見(jiàn)物品的類(lèi)別和位置信息,解決了傳統(tǒng)行為識(shí)別方法丟失上下文場(chǎng)景和語(yǔ)義信息的問(wèn)題;通過(guò)提出基于Auction的多人-多物最優(yōu)分配方法來(lái)進(jìn)行關(guān)鍵姿態(tài)估計(jì),最后將行為識(shí)別和人物關(guān)系進(jìn)行融合決策,提高了人-物交互行為的識(shí)別精度。實(shí)驗(yàn)證明,本文方法的識(shí)別精度優(yōu)于傳統(tǒng)行為識(shí)別方法,解決了開(kāi)箱驗(yàn)視過(guò)程中復(fù)雜環(huán)境干擾和相似行為難以區(qū)分這兩個(gè)問(wèn)題,實(shí)現(xiàn)了對(duì)快遞場(chǎng)景人員開(kāi)箱驗(yàn)視、使用手機(jī)、包裝快遞等行為的精確識(shí)別。但是,若目標(biāo)檢測(cè)算法未能檢測(cè)出手機(jī)、膠帶以及工具刀等小物體時(shí),識(shí)別結(jié)果會(huì)受到影響。因此如何提高目標(biāo)檢測(cè)算法對(duì)于小目標(biāo)的檢測(cè)能力,如何將其與行為識(shí)別方法進(jìn)行深度融合,將作為下一步的研究方向。