袁賽美,黃怡蒙,馮李航,朱文俊,易 陽(yáng)
南京工業(yè)大學(xué) 電氣工程與控制科學(xué)學(xué)院,南京 211816
隨著智能化監(jiān)控設(shè)備的普及,以及各種新媒體、短視頻的發(fā)展,互聯(lián)網(wǎng)平臺(tái)每天都會(huì)產(chǎn)生大量的圖片以及視頻數(shù)據(jù),如何快速對(duì)人及其行為做出準(zhǔn)確的定位是當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)[1-3]。YOWO(you only watch once)是一個(gè)用于視頻流中實(shí)時(shí)時(shí)空動(dòng)作定位的統(tǒng)一CNN架構(gòu)。YOWO架構(gòu)在16幀輸入片段上提供了34 frame/s的速度,在8幀輸入片段上提供了62 frame/s的速度,這是目前在時(shí)空動(dòng)作定位任務(wù)上最快的最先進(jìn),具有最優(yōu)定位效果的快速實(shí)時(shí)視頻定位方法,由于整個(gè)架構(gòu)是統(tǒng)一的,所以可實(shí)現(xiàn)端對(duì)端優(yōu)化[4]。YOWO架構(gòu)如圖1所示,它可以分為四個(gè)主要部分:3D-CNN分支、2D-CNN分支、通道融合與注意機(jī)制和邊界框回歸部分。2D-CNN提取關(guān)鍵幀(即當(dāng)前幀)的空間特征,3D-CNN由先前幀組成的輸入剪輯提取時(shí)空特征[5-6]。輸入剪輯和相應(yīng)的關(guān)鍵幀被輸送到3D-CNN和2DCNN以產(chǎn)生分別為的輸出特征體積。這些輸出量通過(guò)一種通道融合和注意力機(jī)制模塊,利用通道中相互依賴特性突出特征特點(diǎn),從而使來(lái)自不同分支的特征能夠合理地聚合,利用融合后的特征進(jìn)行幀級(jí)檢測(cè),并給出一種生成動(dòng)作管(action tubes)的連接算法。最后,一個(gè)卷積層用于調(diào)整最終邊界框預(yù)測(cè)的通道數(shù)量實(shí)現(xiàn)邊界框的回歸與分類。由于YOWO是最新最先進(jìn)的實(shí)時(shí)目標(biāo)檢測(cè)架構(gòu),因此對(duì)于YOWO架構(gòu)的深入研究并不是很多,目前有研究提出了YOWOv2,通過(guò)修改其架構(gòu),添加了2D-CNN和3DCNN之間的鏈接,提高動(dòng)作的檢測(cè)精度和計(jì)算速度[7]。除此之外,有學(xué)者提出使用卷積LSTM進(jìn)行周期性修復(fù)并使用專門(mén)的訓(xùn)練程序來(lái)提取行動(dòng)檢測(cè)的空間特征,在YOWO上使用取得很好的效果,并提出在YOWO上可嘗試改變錨盒先驗(yàn)策略,使用可學(xué)習(xí)的閾值提高性能[8]。
圖1 YOWO架構(gòu)圖Fig.1 YOWO architecture diagram
YOWO算法雖然使得模型的運(yùn)行速度大大提高,滿足在線實(shí)時(shí)檢測(cè)的速度要求,然而檢測(cè)精度與速度往往很難平衡,特別是在自制的行為數(shù)據(jù)集上,由于樣本特征有限,使得模型學(xué)習(xí)到的特征也有限,從而導(dǎo)致模型的檢測(cè)精度不高,在進(jìn)行回歸任務(wù)時(shí),定位精度低于80%[9]。針對(duì)上述問(wèn)題,本文提出了一類新的人體行為定位的深度學(xué)習(xí)框架X_YOWO,實(shí)現(xiàn)在原始的單階段人體行為定位框架YOWO上的創(chuàng)新,YOWO可以實(shí)現(xiàn)端對(duì)端的聯(lián)合訓(xùn)練,滿足實(shí)時(shí)性的要求。而本文設(shè)計(jì)的X_YOWO是旨在不影響運(yùn)行速度的前提下,提高模型的定位及檢測(cè)精度,并在公開(kāi)數(shù)據(jù)集UCF101-24、JHMBD-21和自制的數(shù)據(jù)集上實(shí)驗(yàn)驗(yàn)證,實(shí)現(xiàn)人體行為的正確識(shí)別定位。
本文設(shè)計(jì)的人體行為定位的深度學(xué)習(xí)框架X_YOWO,如圖2所示,此框架繼承了原始YOWO的3D-CNN和2D-CNN兩個(gè)分支,重新設(shè)計(jì)了通道融合與邊界回歸策略:首先,通過(guò)基于相關(guān)系數(shù)矩陣的通道注意機(jī)制和相關(guān)性損失函數(shù),使得模型在樣本較少的情況下獲得更多的有效特征,提高模型對(duì)特征的學(xué)習(xí)能力;其次,采用一種基于距離概率大小來(lái)進(jìn)行錨點(diǎn)聚類選擇的方法,避免了原始聚類中心穩(wěn)定性差的問(wèn)題,并且在進(jìn)行距離計(jì)算時(shí)對(duì)真實(shí)框的寬高進(jìn)行了標(biāo)準(zhǔn)化,使得改進(jìn)后的錨點(diǎn)框大小更加適應(yīng)數(shù)據(jù)集中目標(biāo)大小的變化;最后采用CIoU回歸損失函數(shù)作為目標(biāo)函數(shù),改善在訓(xùn)練過(guò)程中出現(xiàn)發(fā)散無(wú)法收斂的問(wèn)題,提高邊界框回歸的穩(wěn)定性。
圖2 X_YOWO架構(gòu)圖Fig.2 X_YOWO architecture diagram
在YOWO網(wǎng)絡(luò)的通道融合與注意機(jī)制模塊中,使用基于Gram矩陣的通道注意機(jī)制來(lái)表示不同通道之間特征的相關(guān)性,但Gram矩陣保留了比較原始的特征沒(méi)有減去均值和使用標(biāo)準(zhǔn)化,未解決特征參差不齊從而導(dǎo)致模型的訓(xùn)練效果不佳的問(wèn)題[10-11]。在最初的研究中,Gram矩陣在理論上被證明等同于最小化特定的最大平均差異。研究表明經(jīng)過(guò)對(duì)不同算法的比較發(fā)現(xiàn)一些算法考慮了從CNN獲得的一層不同特征映射之間的關(guān)系,稱為類間關(guān)系,而一些算法不考慮,稱為類內(nèi)關(guān)系。實(shí)驗(yàn)證明類內(nèi)關(guān)系能夠顯示圖像更多的細(xì)節(jié)。針對(duì)類間和類內(nèi)的定義,了解到Gram矩陣包含兩個(gè)操作,該方法對(duì)于特征圖的統(tǒng)計(jì)分布既屬于類內(nèi)關(guān)系,也屬于類間關(guān)系[12]。
X_YOWO網(wǎng)絡(luò)中提出特征矩陣,采用相關(guān)系數(shù)矩陣來(lái)表示不同通道特征之間的相關(guān)性,并且對(duì)不同的特征進(jìn)行去均值和標(biāo)準(zhǔn)化減少特征的波動(dòng)性,由于原始特征比較粗糙,相關(guān)系數(shù)矩陣可以將特征進(jìn)行去均值和歸一化處理。經(jīng)研究發(fā)現(xiàn),相關(guān)系數(shù)經(jīng)常使用的有三種,pearson相關(guān)系數(shù)、spearman相關(guān)系數(shù)和kendall相關(guān)系數(shù),對(duì)于連續(xù)數(shù)據(jù),正態(tài)分布、線性關(guān)系的數(shù)據(jù)采用pearson相關(guān)系數(shù)是最恰當(dāng)?shù)?,雖然用spearman相關(guān)系數(shù)也可以,但是效率沒(méi)有pearson相關(guān)系數(shù)高[13]。因此,X_YOWO中引用pearson相關(guān)系數(shù)概念進(jìn)行改進(jìn),提高模型對(duì)特征的學(xué)習(xí)能力,使得模型在樣本較少的情況下獲得更多的有效特征。
具體地,通道融合與注意機(jī)制模塊中,如圖3所示,將連接的特征映射A輸入到兩個(gè)卷積層中,輸出得到新的特征圖B,分別對(duì)B進(jìn)行重新整形和轉(zhuǎn)置操作,然后在得到的兩個(gè)特征向量上計(jì)算通道與通道之間的協(xié)方差和相關(guān)系數(shù),最終得到一個(gè)相關(guān)系數(shù)矩陣K,如公式(1)和公式(2)所示:
圖3 X_YOWO的通道融合與注意機(jī)制模塊圖Fig.3 X_YOWO feature fusion module diagram
其中,Cov(Xp,Xq)表示的是第p和第q個(gè)通道特征之間的協(xié)方差,Var[Xp]表示第p個(gè)通道特征的方差。Kpq表示第p和第q個(gè)通道特征之間的相關(guān)系數(shù),相關(guān)系數(shù)的絕對(duì)值越大,意味著兩個(gè)通道特征的線性相關(guān)性越大;相關(guān)系數(shù)的絕對(duì)值越小,意味著兩個(gè)通道特征的線性相關(guān)性越小。相關(guān)系數(shù)在進(jìn)行不同通道特征相關(guān)性計(jì)算時(shí),對(duì)特征進(jìn)行了去均值和標(biāo)準(zhǔn)化處理,能夠提高模型對(duì)特征的學(xué)習(xí)能力。其相關(guān)系數(shù)矩陣表達(dá),如公式(3)所示:
其中,相關(guān)系數(shù)矩陣中的元素xij,i,j=1,2,…,n,為n維通道特征中,通道i與通道j之間的相關(guān)系數(shù);特別地,xii=1,i=1,2,…,n,即每個(gè)變量xi與本身的相關(guān)程度最大;xij=xji,即第i個(gè)通道特征xi和第j個(gè)通道特征xj的相關(guān)程度等同于第j個(gè)通道特征xj和第i個(gè)通道特征xi的相關(guān)程度。顯然相關(guān)系數(shù)矩陣是一個(gè)對(duì)稱矩陣。
將輸出的相關(guān)系數(shù)矩陣通過(guò)softmax(激活函數(shù))生成通道注意圖M∈RC×C,如公式(4)所示:
其中,Mij是評(píng)估第j個(gè)通道對(duì)第i個(gè)通道影響的分?jǐn)?shù)。因此,M在給定特征圖的情況下表達(dá)了特征通道間的依賴性。為了體現(xiàn)注意力映射對(duì)原始特征的影響,進(jìn)一步進(jìn)行M與F的矩陣乘法,將結(jié)果重新整合為與輸入張量形狀相同的三維空間RC×H×W,如公式(5)、(6)所示:
通道注意力模塊C∈RC×H×W是將重新整合后的結(jié)果F″,與原始輸入特征圖B結(jié)合,并使用可訓(xùn)練標(biāo)量參數(shù)α進(jìn)行元素和運(yùn)算,α從初始值0逐漸學(xué)習(xí)權(quán)重,如公式(7)所示:
每個(gè)通道的最終特征是所有通道特征與原始特征的加權(quán)和,對(duì)特征映射之間的依賴關(guān)系進(jìn)行建模。最后,特征圖C∈RC×H′×W′被送入兩個(gè)卷積層去生成通道融合與注意機(jī)制模塊的輸出特征圖D∈RC*×H′×W′。通道融合與注意機(jī)制模塊的開(kāi)始和結(jié)束處的兩個(gè)卷積層具有最大的重要性,因?yàn)樗鼈冇兄诨旌蟻?lái)自不同主干和可能具有不同分布的特征。
邊界回歸模塊中,YOWO邊界框回歸方法中的錨點(diǎn)框聚類采用的是標(biāo)準(zhǔn)K-Means聚類算法[14],該聚類算法對(duì)初始化中心是隨機(jī)選擇的,但是聚類的結(jié)果對(duì)初始聚類中心的依賴性較強(qiáng),如果隨機(jī)選擇到聚類中心差異性較小,則聚類得到的錨點(diǎn)不具有代表性,導(dǎo)致二維部分的模型在訓(xùn)練階段收斂困難,影響最終的檢測(cè)性能[15-17]。因此,X_YOWO提出一種基于距離概率大小來(lái)進(jìn)行聚類選擇的方法,根據(jù)數(shù)據(jù)集中真實(shí)框之間的距離遠(yuǎn)近來(lái)確定被選為聚類中心的概率,避免了人為選擇聚類中心的不穩(wěn)定性,并且在進(jìn)行距離計(jì)算時(shí)對(duì)真實(shí)框的寬高進(jìn)行了標(biāo)準(zhǔn)化,使得改進(jìn)后的錨點(diǎn)框大小更加適應(yīng)數(shù)據(jù)集中目標(biāo)大小的變化。
具體地,對(duì)初始化聚類中心進(jìn)行優(yōu)化,選取一組差異性比較大的初始化聚類中心。生成K個(gè)初始聚類中心,隨機(jī)地選取1個(gè)樣本作為第1個(gè)聚類中心,計(jì)算當(dāng)前的聚類中心與所有樣本之間的距離d,距離公式如公式(8)所示,采用標(biāo)注框的寬、高以及長(zhǎng)寬比的平方根,并進(jìn)行標(biāo)準(zhǔn)化,以適應(yīng)不同圖片的大小變化。
其中,Sk為分量的標(biāo)準(zhǔn)差,d為每個(gè)標(biāo)注框到已有的聚類中心的直線距離,確定第i個(gè)樣本被選中初始化聚類中心的概率為,按照每個(gè)樣本被選中的概率隨機(jī)選擇出下一個(gè)聚類中心,重復(fù)選擇直到選滿K個(gè)初始聚類中心。以距離公式(9):
執(zhí)行標(biāo)準(zhǔn)的K-均值聚類算法,改進(jìn)后的K-Means聚類算法在確定初始聚類中心時(shí),根據(jù)自定義的標(biāo)準(zhǔn)化距離公式計(jì)算所有樣本點(diǎn)與已確定的初始聚類中心的距離大小,當(dāng)距離較大時(shí),則該樣本點(diǎn)被選為新的聚類中心的概率較大,反之,則越小,從而大概率地降低選出的K個(gè)初始聚類中心之間的相似性,使聚類結(jié)果更加具有代表性和穩(wěn)定性。
其中,IoU是用于評(píng)估兩個(gè)任意形狀相似度的最常用指標(biāo)。對(duì)于如圖4中的兩個(gè)邊界框A(綠框)和B(藍(lán)框),計(jì)算出兩者的交集I(橙色斜線部分),然后計(jì)算并集U,那么IoU就是兩者的比值[18],如公式(10)所示:
圖4 IoU示意圖Fig.4 Diagram of IoU
為驗(yàn)證改進(jìn)后錨點(diǎn)聚類算法生成的錨點(diǎn)穩(wěn)定性,分別對(duì)改進(jìn)前后的錨點(diǎn)聚類算法進(jìn)行了十次實(shí)驗(yàn),對(duì)比的實(shí)驗(yàn)結(jié)果如表1、圖5所示。
表1 改進(jìn)前后錨點(diǎn)聚類算法的平均IoU值Table 1 Average IoU of improved anchor point clustering algorithm before and after improvement
表1是十次對(duì)比實(shí)驗(yàn)的得到的平均IoU、均值和方差,圖5是改進(jìn)前后平均IoU值的變化情況,x軸代表實(shí)驗(yàn)的次數(shù),y軸代表平均IoU值,橘色的折線代表改進(jìn)后的IoU變化曲線,藍(lán)色的折線代表改進(jìn)前IoU的變化曲線。從表1和圖5可以看出改進(jìn)后的聚類算法得到的IoU值普遍比改進(jìn)前高,且波動(dòng)幅度較小,穩(wěn)定性提高了2.4個(gè)百分點(diǎn),因此可以說(shuō)明改進(jìn)后的聚類算法更加穩(wěn)定且提高了聚類的質(zhì)量。
圖5 改進(jìn)前后聚類算法平均IoU對(duì)比Fig.5 Comparison of average IoU of clustering algorithm before and after improvement
X_YOWO的損失函數(shù)包含兩部分,一部分是模型的檢測(cè)損失,另一部分是由通道注意機(jī)制產(chǎn)生的相關(guān)性損失。
(1)模型檢測(cè)損失主要分為三部分,即回歸損失,分類損失以及置信度損失。
對(duì)于回歸損失,采用CIoU回歸損失函數(shù)來(lái)衡量模型輸出與真實(shí)標(biāo)注框之間的差異來(lái)幫助模型進(jìn)行收斂,此回歸函數(shù)考慮了預(yù)測(cè)框和目標(biāo)框的長(zhǎng)度比[19-20],計(jì)算公式如公式(11)所示:
其中,v是衡量長(zhǎng)寬比一致性的參數(shù),也可以定義為公式(12)所示:
式中,wp和hp分別為預(yù)測(cè)框的寬和高,wgt和hgt分別為真實(shí)框的寬和高,預(yù)測(cè)框的寬高比越接近真實(shí)框,寬高比損失項(xiàng)越接近于0。
對(duì)于分類損失,采用交叉熵?fù)p失函數(shù)[21]。在標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)的基礎(chǔ)上進(jìn)行修改,增加了類別權(quán)重α和樣本難度權(quán)重調(diào)因子,可以有效解決樣本類別不平衡以及樣本分類難度不平衡等問(wèn)題,其計(jì)算公式為:
其中,γ>0可以減少易分類樣本的損失,使得模型更加關(guān)注困難、錯(cuò)分的樣本[22]。α用來(lái)處理類別不均衡的問(wèn)題,當(dāng)訓(xùn)練樣本中某個(gè)類別占比較高時(shí),設(shè)置一個(gè)較小的α值,反之,則設(shè)置一個(gè)較高的α值,降低占比高的loss,提高占比低的loss。pt為模型的預(yù)測(cè)值,pt值接近1時(shí),說(shuō)明該樣本容易訓(xùn)練,pt值接近0時(shí),說(shuō)明模型預(yù)測(cè)得很差,樣本較難訓(xùn)練。因此提高難以訓(xùn)練樣本的loss,降低好訓(xùn)練樣本的loss。在實(shí)驗(yàn)中,α=0.25,γ=2時(shí)訓(xùn)練效果最好。
對(duì)于置信度損失,即計(jì)算各個(gè)預(yù)測(cè)框與真實(shí)框之前的IoU值,其計(jì)算公式如公式(14)所示:
其中,預(yù)測(cè)框中有物體時(shí),λnoobj=0,反之λnoobj=1。
模型訓(xùn)練時(shí),總的損失函數(shù)是三種損失函數(shù)之和,如公式(15)所示:
(2)相關(guān)性損失。
相關(guān)性損失是針對(duì)基于相關(guān)系數(shù)矩陣的通道注意機(jī)制模塊設(shè)計(jì)的[23-24]。本文期望的是特征圖之間保持較小的相關(guān)性,因此,在模型訓(xùn)練時(shí),相關(guān)性損失函數(shù)的設(shè)計(jì)使得模型輸出在具有較大相關(guān)性時(shí)才會(huì)產(chǎn)生對(duì)應(yīng)的損失。X_YOWO的損失函數(shù)設(shè)計(jì)如公式(16)所示:
其中,N表示特征的通道數(shù),表示N維相關(guān)系數(shù)矩陣在(i,j)處的值,即第j個(gè)通道對(duì)第i個(gè)通道的相關(guān)性值表示單位矩陣在(i,j)處的值,β用來(lái)平衡檢測(cè)損失和相關(guān)性損失之間的誤差,實(shí)驗(yàn)中β取0.3,Tb是一個(gè)以b為系數(shù)的分段函數(shù),如公式(17)所示:
在相關(guān)系數(shù)矩陣中,Tb可以抑制小于閾值b,或者減弱大于閾值b所帶來(lái)的損失。當(dāng)輸出的通道特征圖之間的相關(guān)性較低時(shí),b值可以避免模型訓(xùn)練好的參數(shù)被破壞。在本文實(shí)驗(yàn)中,b取0.15,即不考慮相關(guān)系數(shù)小于0.15時(shí)產(chǎn)生的損失。最終的損失函數(shù)如公式(18)所示:
在mydata數(shù)據(jù)集上將X_YOWO中的邊界框回歸損失函數(shù)與YOWO中使用SmoothL1作為回歸損失函數(shù)進(jìn)行實(shí)驗(yàn)效果對(duì)比,訓(xùn)練過(guò)程中損失曲線如圖6所示,改進(jìn)前后定位精度對(duì)比如表2所示。
表2 不同的回歸損失函數(shù)的模型精度對(duì)比Table 2 Comparison of model accuracy of different regression loss functions
圖6 X_YOWO與YOWO模型損失值變化曲線圖Fig.6 X_YOWO and YOWO model loss value change curve
其中x軸表示迭代的次數(shù),y軸表示loss值,橙色的曲線表示YOWO的loss變化曲線,藍(lán)色的曲線表示X_YOWO的loss變化曲線。從圖中可以看出模型在第0~20次遍歷訓(xùn)練集時(shí),損失值下降得非常快,在第60次迭代以后,損失值趨近于平穩(wěn),說(shuō)明在使用CIoU回歸損失函數(shù)時(shí),真實(shí)框與預(yù)測(cè)框之間的差距越來(lái)越小,通過(guò)對(duì)比改進(jìn)前后的模型loss曲線下降的變化,可以看出X_YOWO的損失曲線下降得更快并且更加平穩(wěn),也進(jìn)一步說(shuō)明了X_YOWO的網(wǎng)絡(luò)收斂速度更快也更加平穩(wěn)。
從表2中可以看出,跟不同的回歸損失函數(shù)進(jìn)行對(duì)比,使用CIoU損失函數(shù),準(zhǔn)確率達(dá)到了82.13%,相比較原始的模型,準(zhǔn)確率提高了3.41個(gè)百分點(diǎn)。
實(shí)驗(yàn)的硬件環(huán)境為Intel?CoreTMi7-9700F CPU@3.00 GHz 8 GB RAM、NVIDIA GeForce RTX 2070s。實(shí)驗(yàn)的軟件平臺(tái)是基于Ubuntu和Python語(yǔ)言來(lái)編程實(shí)現(xiàn)的。網(wǎng)絡(luò)模型通過(guò)Pytorch1.5.1深度學(xué)習(xí)框架來(lái)進(jìn)行搭建。X_YOWO在公開(kāi)數(shù)據(jù)集UCF101-24和J-HMBD-21上進(jìn)行實(shí)驗(yàn)驗(yàn)證,選取十個(gè)類別的人體行為動(dòng)作,分別是跳、打電話、玩樂(lè)器、閱讀、騎自行車、跑步、拍照、用電腦、走路、打高爾夫,一共標(biāo)記了6 226張圖片,每個(gè)類別大概六百?gòu)?,其中?shù)據(jù)集的80%分為了訓(xùn)練集,20%分為了驗(yàn)證集。除此以外,在自制的mydata數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),mydata數(shù)據(jù)集的采集以室內(nèi)室外為背景,使用智能手機(jī)進(jìn)行拍攝,并且對(duì)數(shù)據(jù)集中人體的行為給出對(duì)應(yīng)的時(shí)空標(biāo)記,分別是走、站立、坐下、摔倒四個(gè)動(dòng)作。在文件夾Action下存放的是人的動(dòng)作,Main文件夾下存放的是人體動(dòng)作驗(yàn)證集訓(xùn)練集的數(shù)據(jù)。
將自制的數(shù)據(jù)集mydata送入X_YOWO網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并加載預(yù)訓(xùn)練權(quán)重。在模型訓(xùn)練階段首先采用圖像翻轉(zhuǎn)、增加噪聲、平移等手段來(lái)進(jìn)行數(shù)據(jù)集的擴(kuò)充,在訓(xùn)練時(shí)采用了Adam優(yōu)化算法來(lái)加快模型的收斂速度,它主要是在訓(xùn)練階段引入了兩個(gè)超參數(shù),分別是動(dòng)量和適應(yīng)性學(xué)習(xí)率,在初始階段設(shè)置動(dòng)量為0.9,學(xué)習(xí)率為0.000 1,經(jīng)過(guò)30 000、40 000、50 000和60 000次的迭代后,學(xué)習(xí)率衰減0.5。
本文采用mAP(mean average precision)和AP(average precision)以及速度指標(biāo)FPS對(duì)X_YOWO進(jìn)行檢測(cè)性能分析。
mAP是模型檢測(cè)能力的綜合評(píng)價(jià)指標(biāo),為每一個(gè)類別AP的平均值,在目標(biāo)檢測(cè)任務(wù)中通常使用該指標(biāo)進(jìn)行性能比較。其中Precison的計(jì)算公式(19)如下:
式中,TP為模型中被檢測(cè)為正的樣本數(shù)量;FP為模型中被檢測(cè)為正的負(fù)樣本數(shù)量。
在數(shù)據(jù)集mydata上,X_YOWO與YOWO的損失函數(shù)對(duì)比圖如圖7、8所示。
圖7 X_YOWO與YOWO的損失函數(shù)對(duì)比圖Fig.7 Comparison of loss X_YOWO and YOWO
從圖7中可以看出,在迭代70個(gè)epoch以后模型基本趨于穩(wěn)定,X_YOWO的損失曲線比YOWO在模型訓(xùn)練過(guò)程中收斂得更快也更加平穩(wěn)。通過(guò)對(duì)比改進(jìn)前后模型部分類別精度,如圖8所示,面對(duì)YOWO的各個(gè)類別精度都低于80%的情況,即模型不能進(jìn)行正確的識(shí)別,在經(jīng)過(guò)對(duì)特征融合CFAM模塊以及邊界框回歸方法的改進(jìn),使得模型改進(jìn)后檢測(cè)精度均比改進(jìn)前有所提升,其中部分行為類別坐、站立以及走精度明顯超過(guò)了80%,可以實(shí)現(xiàn)正確的識(shí)別,面對(duì)摔跤這一類別檢測(cè)精度較低,可能是樣本數(shù)據(jù)較少造成,在今后的研究中可以增加該類別的樣本數(shù)據(jù)來(lái)提高模型的精度。
圖8 X_YOWO與YOWO行為類別AP值對(duì)比Fig.8 Comparison of AP of behavior categories X_YOWO and YOWO
2.4.1 X_YOWO與YOWO平均精度對(duì)比
在自制數(shù)據(jù)集mydata上本文對(duì)X_YOWO和YOWO性能進(jìn)行了對(duì)比,評(píng)價(jià)指標(biāo)為frame-mAP和不同閾值下的video-mAP。
從表3中可以看出,改進(jìn)了邊界框回歸方法以及通道融合與注意機(jī)制模塊中的通道注意機(jī)制的X_YOWO模型,對(duì)YOWO的frame-mAP提高了3.6個(gè)百分點(diǎn),而在不同閾值下的video-mAP也均有所提升,說(shuō)明X_YOWO對(duì)模型整體性能有較好的提升作用,能夠使得模型在數(shù)據(jù)特征有限的情況下學(xué)習(xí)到更多的有效特征。
表3 在mydata數(shù)據(jù)集上X_YOWO與YOWO性能對(duì)比Table 3 Comparison of model performance X_YOWO and YOWO on mydata
2.4.2 X_YOWO與YOWO定位分類以及速度性能對(duì)比
本文對(duì)X_YOWO和YOWO的定位、分類以及速度性能進(jìn)行了對(duì)比,對(duì)比的速度是根據(jù)單個(gè)NVIDIA GeForce RTX 2070s GPU上,在輸入剪輯長(zhǎng)度為16幀時(shí)進(jìn)行計(jì)算的,得到X_YOWO參數(shù)模型大小為859.1 MB。對(duì)比結(jié)果見(jiàn)表4。
表4 X_YOWO和YOWO定位、分類以及速度性能對(duì)比Table 4 Comparison of positioning,classification and speed performance before and after improvement
通過(guò)改進(jìn)了邊界框回歸方法得到了一組穩(wěn)定且質(zhì)量更好的瞄點(diǎn)框,并且設(shè)計(jì)了更加合適的回歸損失函數(shù)來(lái)幫助模型收斂從而獲得更好的定位精度。并且改進(jìn)后的CFAM模塊能夠?qū)W習(xí)到更多有用的特征,使得在后續(xù)的邊界框回歸任務(wù)中也進(jìn)一步提高了模型的定位性能和分類性能。在自制的mydata數(shù)據(jù)集上,采用X_YOWO在定位和分類性能上均提高了3個(gè)百分點(diǎn)左右,但是速度也沒(méi)有明顯的下降,依然可以達(dá)到實(shí)時(shí)的要求。部分檢測(cè)定位效果圖如圖9所示。
圖9 部分檢測(cè)定位效果對(duì)比圖Fig.9 Comparison of partial detection and positioning effects
右側(cè)為X_YOWO的檢測(cè)結(jié)果,左側(cè)為YOWO的檢測(cè)結(jié)果,綠框?yàn)闃?biāo)注框,藍(lán)框和紫框?yàn)槟P皖A(yù)測(cè)定位框。對(duì)比可以看出,YOWO由于部分目標(biāo)的檢測(cè)精度過(guò)低而出現(xiàn)誤檢,并且預(yù)測(cè)的邊界框較為粗糙。而X_YOWO不僅較好地提高了檢測(cè)的檢測(cè)精度,預(yù)測(cè)得到的邊界框與實(shí)際的標(biāo)注框更加貼近,位置誤差更小。
2.4.3 模型泛化能力能分析
為了進(jìn)一步說(shuō)明本文改進(jìn)的人體行為定位模型不僅在自制的數(shù)據(jù)集上有較好的性能提升,也在其他數(shù)據(jù)集和模型架構(gòu)上進(jìn)行對(duì)比,公平起見(jiàn),本文選用相同的數(shù)據(jù)集分別是UCF101-24和J-HMBD-21。在評(píng)價(jià)指標(biāo)frame-mAP和不同閾值下的video-mAP下,性能對(duì)比如表5和表6所示。
表6 在J-HMBD-21數(shù)據(jù)集上不同方法的性能對(duì)比Table 6 Performance comparison of different methods on J-HMBD-21
表5展示了X_YOWO與UCF101-24上的最新方法的比較。YOWO的frame-mAP指標(biāo)就比第二名的結(jié)果要高12個(gè)百分點(diǎn),明顯優(yōu)于其他指標(biāo),這說(shuō)明了本文選擇YOWO架構(gòu)進(jìn)行改進(jìn)的合理性,并且在使用X_YOWO檢測(cè)框架后比YOWO提高了3個(gè)百分點(diǎn),而且在videomAP指標(biāo)上,使用X_YOWO特征融合的CFAM模塊在不同閾值下也有較好的表現(xiàn)。
表5 在UCF101-24數(shù)據(jù)集上不同方法的性能對(duì)比Table 5 Performance comparison of different methods on UCF101-24
X_YOWO與表6中J-HMDB-21上的最新方法進(jìn)行了比較。使用了與UCF101-24數(shù)據(jù)集上一樣的度量標(biāo)準(zhǔn),比較frame-mAP和不同IoU閾值處的video-mAP。在IoU閾值分別為0.2、0.5和0.75的情況下,X_YOWO框架始終優(yōu)于數(shù)據(jù)集J-HMDB-21上的最新結(jié)果。
通過(guò)在相同的數(shù)據(jù)集下,對(duì)比其他先進(jìn)的人體行為定位架構(gòu),本文提出的X_YOWO模型性能更優(yōu),進(jìn)一步說(shuō)明了本文所提改進(jìn)方法的有效性。
本文針對(duì)當(dāng)前最先進(jìn)的單階段人體行為定位的深度學(xué)習(xí)框架YOWO進(jìn)行通道注意機(jī)制以及邊界框回歸方法的改進(jìn),提出了一類新的人體行為定位的深度學(xué)習(xí)框架X_YOWO。該框架使用相關(guān)系數(shù)矩陣的通道注意機(jī)制,基于距離概率大小進(jìn)行選擇的聚類方法,采用相關(guān)性損失函數(shù),在自制的數(shù)據(jù)集上,對(duì)比YOWO架構(gòu),驗(yàn)證了X_YOWO的有效性。X_YOWO框架不僅定位精度上得到了提升,也滿足了實(shí)時(shí)性的要求,對(duì)未來(lái)視頻監(jiān)控領(lǐng)域有較大的應(yīng)用價(jià)值。