楊洪智,丁學(xué)明,姬建林
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
2D 人體姿態(tài)檢測(cè)是繼深度學(xué)習(xí)快速發(fā)展背景下一個(gè)新興的領(lǐng)域,當(dāng)前處于計(jì)算機(jī)視覺(jué)領(lǐng)域研究的重點(diǎn),可以應(yīng)用在動(dòng)作識(shí)別、異常行為檢測(cè)、體育健身指導(dǎo)、步態(tài)分析等多個(gè)領(lǐng)域。相比于傳統(tǒng)的基于語(yǔ)義分割的人像分割技術(shù),人體姿態(tài)檢測(cè)能更好的反映人體的關(guān)節(jié)部分在空間上的位置關(guān)系。
與傳統(tǒng)的圖像分類(lèi),目標(biāo)檢測(cè)任務(wù)不同,2D 人體姿態(tài)檢測(cè)和語(yǔ)義分割都屬于像素級(jí)感知的預(yù)測(cè)任務(wù),而前兩種任務(wù)為特征級(jí)感知任務(wù)。像素級(jí)感知預(yù)測(cè)任務(wù)的最大特點(diǎn)是網(wǎng)絡(luò)對(duì)圖像的空間感知力要強(qiáng),才能準(zhǔn)確的賦予像素點(diǎn)的任務(wù)屬性,進(jìn)而進(jìn)行像素分割,或者熱圖回歸。此類(lèi)任務(wù)在研究的初期是利用圖像分類(lèi)的骨干網(wǎng)絡(luò)作為特征提取模塊,如ResNet、VGG 等主流主干網(wǎng)絡(luò),依次降低空間分辨率,并提高通道分辨率進(jìn)行特征編碼。為滿(mǎn)足像素級(jí)感知任務(wù)的特征輸出,通常需要設(shè)計(jì)相應(yīng)的解碼器,包括上采樣和反卷積等方式,以恢復(fù)空間分辨率[1]。根據(jù)這種設(shè)計(jì)方法,研究人員設(shè)計(jì)了Simple Baseline 網(wǎng)絡(luò)以解決2D 人體姿態(tài)檢測(cè)任務(wù)[2]。而文獻(xiàn)[3]認(rèn)為在卷積過(guò)程中保持高分辨率特征將更精細(xì)的描繪被檢測(cè)物體的細(xì)節(jié),其實(shí)驗(yàn)結(jié)果證明這種高分辨率輸入輸出網(wǎng)絡(luò)對(duì)像素級(jí)預(yù)測(cè)任務(wù)準(zhǔn)確度具有較高的精度提升。與傳統(tǒng)編解碼網(wǎng)絡(luò)不同,高分辨率網(wǎng)絡(luò)是通過(guò)人工設(shè)計(jì)的多尺度特征融合模塊來(lái)完成不同感受野之間信息交互,其網(wǎng)絡(luò)特點(diǎn)是高精度定位和豐富的語(yǔ)義表達(dá)能力[4]。
高分辨率網(wǎng)絡(luò)多尺度表征融合的方式是經(jīng)過(guò)一系列恢復(fù)或降低分辨率后將兩個(gè)不同尺度的特征圖進(jìn)行特征相加融合,這種融合方式并未充分利用多尺度特征的優(yōu)勢(shì)。2019 年Li 等人設(shè)計(jì)了一個(gè)選擇性核單元(Selective Kernel Networks,SKNet)的構(gòu)造塊,允許每個(gè)神經(jīng)元基于多尺度的輸入信息自適應(yīng)地調(diào)整其關(guān)注通道,是一種動(dòng)態(tài)選擇機(jī)制[5]。該模塊將分支中的信息引導(dǎo)的softmax 注意力來(lái)融合具有不同核大小的多個(gè)分支。這種特征通道選擇的思想可以追溯到2017 年,Hu 等人提出的通道注意力機(jī)制SE模塊[6]。在此基礎(chǔ)上2018 年S 等人提出了結(jié)合通道和空間特征選擇的注意力CBAM(Convolutional Block Attention Module)模塊,使得視覺(jué)檢測(cè)類(lèi)任務(wù)預(yù)測(cè)結(jié)果得到較好的精度提升[7]。
針對(duì)高分辨率網(wǎng)絡(luò)多尺度表征融合模塊的不足和選擇性核單元的優(yōu)勢(shì),本文將其相互結(jié)合,設(shè)計(jì)改進(jìn)后的高分辨率人體姿態(tài)檢測(cè)網(wǎng)絡(luò),不僅能夠在特征融合過(guò)程中增強(qiáng)特征通道表達(dá),還引入空間注意力的思想,增強(qiáng)特征選擇在像素級(jí)別的表達(dá),從而提升人體姿態(tài)檢測(cè)性能,優(yōu)化復(fù)雜場(chǎng)景下姿態(tài)檢測(cè)力度不足的問(wèn)題,并將通道和特征選擇兩種方式進(jìn)行串行和并行融合,挑選出適合本任務(wù)的結(jié)合方式。在實(shí)驗(yàn)中發(fā)現(xiàn),模塊經(jīng)過(guò)Softmax模塊后會(huì)導(dǎo)致網(wǎng)絡(luò)特征表達(dá)能力弱化。為了補(bǔ)償被弱化的信息,本文在高分辨網(wǎng)絡(luò)中加入了一種簡(jiǎn)單的補(bǔ)償機(jī)制,很好的解決了此問(wèn)題。
本文將卷積特征選擇模塊引入高分辨網(wǎng)絡(luò)特征融合部分,進(jìn)行多尺度特征選擇融合;改進(jìn)原卷積通道特征選擇模塊,融合通道與空間卷積特征選擇模塊(Dual Selective Kernel,DSK),并進(jìn)行兩種融合方式的對(duì)比實(shí)驗(yàn);針對(duì)特征選擇后的特征弱化問(wèn)題,提出了一種補(bǔ)償機(jī)制,證明了其有效性;特征圖可視化分析,更清晰的展現(xiàn)在卷積過(guò)程中每層特征圖對(duì)最終的網(wǎng)絡(luò)預(yù)測(cè)做出的貢獻(xiàn)。實(shí)驗(yàn)結(jié)果顯示,引入改進(jìn)的模塊后,其網(wǎng)絡(luò)預(yù)測(cè)精度有一定的提升,且僅僅增加了很小部分的參數(shù)量和計(jì)算量。
深度高分辨網(wǎng)絡(luò)(Deep High Resolution Net,HRNet)是Sun 等人于2019 年提出的強(qiáng)Baseline 網(wǎng)絡(luò),在端到端預(yù)測(cè)的網(wǎng)絡(luò)結(jié)構(gòu)中保持了高分辨率特征表示[8]。網(wǎng)絡(luò)預(yù)測(cè)從一個(gè)高分辨率子網(wǎng)作為第一級(jí)開(kāi)始,逐漸增加高到低分辨率的子網(wǎng),子網(wǎng)特征圖將表示更高維的信息,從而形成更多的級(jí),多個(gè)不同分辨率子網(wǎng)并行連接,并在網(wǎng)絡(luò)卷積到一定深度后進(jìn)行重復(fù)的多尺度融合,使得不同分辨率表征之間相互促進(jìn),有效融合了由于感受野不同帶來(lái)的全局和局部信息[4],網(wǎng)絡(luò)形狀類(lèi)似于直角三角形網(wǎng)絡(luò),如圖1 所示。
圖1 HRNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 HRNet network structure
本文在此網(wǎng)絡(luò)框架的基礎(chǔ)上,改進(jìn)了融合機(jī)制,在特征融合過(guò)程中加入特征選擇模塊,將不同語(yǔ)義信息的特征圖加權(quán)融合,強(qiáng)化對(duì)預(yù)測(cè)結(jié)果貢獻(xiàn)較大部分元素所表達(dá)的信息,從而更好的提升訓(xùn)練效率和預(yù)測(cè)精度。
卷積是深度學(xué)習(xí)領(lǐng)域中重要的模塊。卷積操作可以提高空間維度的感受野,提取圖像多尺度空間信息,多尺度特征融合則是將不同大小卷積核卷積出來(lái)的圖像信息進(jìn)行特征融合。SKNet 是一種改善卷積神經(jīng)網(wǎng)絡(luò)不同感受野通道特征信息融合的自適應(yīng)模塊,其重點(diǎn)是關(guān)注兩個(gè)不同尺度特征圖中通道維度特征,并建立選擇性的融合關(guān)系。這種模塊通過(guò)重新激活分配來(lái)進(jìn)行不同尺度特征的選擇,因此可應(yīng)用在各類(lèi)多尺度特征融合模塊中。
2018 年S 等人提出的CBAM 注意力模塊,將特征激活從通道選擇機(jī)制擴(kuò)展到空間選擇機(jī)制,進(jìn)一步提升網(wǎng)絡(luò)預(yù)測(cè)精度。針對(duì)人體姿態(tài)檢測(cè)任務(wù),本文將SKNet模塊的通道特征選擇擴(kuò)展到空間特征選擇,同時(shí)設(shè)計(jì)兩種不同的結(jié)合方式,并在消融對(duì)比實(shí)驗(yàn)中選擇對(duì)結(jié)果預(yù)測(cè)較好的結(jié)合方式。
本文將改進(jìn)后的通道與特征選擇融合模塊應(yīng)用在深度高分辨率網(wǎng)絡(luò)各個(gè)階段特征融合階段,以提升網(wǎng)絡(luò)整體預(yù)測(cè)性能。圖2 結(jié)構(gòu)展現(xiàn)了高分辨率網(wǎng)絡(luò)Stage 2 階段加入空間和通道特征選擇模塊融合過(guò)程。
圖2 高分辨率網(wǎng)絡(luò)Stage 2 階段加入空間和通道特征選擇模塊融合過(guò)程Fig.2 Adding fusion process of spatial and channel feature selection module to stage 2 of Deep-High Resolution network
SKNet 網(wǎng)絡(luò)分為特征壓縮層和特征激勵(lì)層。壓縮層是將卷積特征圖信息進(jìn)行降維,研究指出深度神經(jīng)網(wǎng)絡(luò)更偏好低維信息,且通過(guò)在ImageNet 上不同頻率的特征提取實(shí)驗(yàn)中證明了這一點(diǎn),因此最簡(jiǎn)單的全局平均池化(global average pooling,GAP)是最好的特征降維方式[9]。針對(duì)空間和通道的兩種取平均方式如式(1)和式(2)所示:
降維操作將通道和空間維度上的像素級(jí)數(shù)據(jù)壓縮為一個(gè)實(shí)數(shù),表示了特征圖的低頻信息,基于這個(gè)低頻的低維信息可以進(jìn)一步進(jìn)行特征激勵(lì)操作。
“什么問(wèn)題?對(duì)不起,我已經(jīng)忘了?!痹胬溲源鸬?,轉(zhuǎn)身要走,張仲平急忙攔?。骸皠e啊,你可千萬(wàn)不能把你的問(wèn)題忘了,你一定得想起來(lái),不然我會(huì)內(nèi)疚的,我會(huì)遺憾終身的?!?/p>
在激勵(lì)操作之前添加一個(gè)中間特征,以便更精確的特征自適應(yīng)選擇。對(duì)于通道特征采用全連接層降維來(lái)提升效率,并采用Relu函數(shù)激活,對(duì)于空間特征用一個(gè)1×1 卷積來(lái)提升效率,并加入批歸一化層(batch normalizing,BN),可加快網(wǎng)絡(luò)訓(xùn)練收斂、控制梯度爆炸,并防止梯度消失及過(guò)擬合[10],公式(3)和公式(4)如下:
經(jīng)過(guò)中間層后便是激勵(lì)層,會(huì)生成兩個(gè)不同的激勵(lì)層去激活對(duì)應(yīng)卷積分支的特征圖,這里的空間和通道特征激活函數(shù)均采用原SKNet 的Softmax激活函數(shù)。這種操作存在一個(gè)問(wèn)題,即特征選擇參數(shù)與原特征對(duì)應(yīng)相乘后達(dá)到了重分配的效果,但是同樣會(huì)弱化網(wǎng)絡(luò)表達(dá),導(dǎo)致訓(xùn)練緩慢。因此,在Softmax激活層后,添加一個(gè)設(shè)計(jì)的補(bǔ)償系數(shù),其大小為當(dāng)前融合特征分支個(gè)數(shù),激活后的輸出用式(5)和式(6)表示:
式中,Och及Osq表示特征選擇模塊的最終輸出;Bra為HRNet網(wǎng)絡(luò)不同階段融合的特征圖分支條數(shù);σ為Softmax函數(shù);β為補(bǔ)償系數(shù),其數(shù)值為當(dāng)前融合特征分支個(gè)數(shù)。
將兩種特征選擇模塊采用兩種不同方式進(jìn)行連接。采用并行連接的方式輸出為式(7):
采用串行連接的方式輸出為式(8):
本實(shí)驗(yàn)基于pytorch 深度學(xué)習(xí)框架進(jìn)行網(wǎng)絡(luò)搭建,使用的計(jì)算機(jī)CPU 為兩顆Xeon E5 2678v3,內(nèi)存為128G,顯卡為NVIDIA GeForce RTX3090,操作系統(tǒng)環(huán)境為64 位Ubuntu 18.04,訓(xùn)練及測(cè)試數(shù)據(jù)集采用coco2017 數(shù)據(jù)集。
4.1.1 數(shù)據(jù)集簡(jiǎn)介
COCO 數(shù)據(jù)集由微軟提出,包含超過(guò)20 萬(wàn)張圖像和25 萬(wàn)個(gè)人的實(shí)例,這些實(shí)例標(biāo)記了17 個(gè)關(guān)鍵點(diǎn)[11]。劃分為訓(xùn)練集及測(cè)試集,訓(xùn)練集coco2017train 包括118 287 張訓(xùn)練圖像,測(cè)試集coco2017val,包含了5 000 張標(biāo)注圖像。
4.1.2 評(píng)價(jià)指標(biāo)
COCO2017 數(shù)據(jù)集的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)為目標(biāo)關(guān)鍵點(diǎn)相似度(object keypoint similarity,OKS),公式(9)可通過(guò)下式表示:
其中,di為目標(biāo)關(guān)鍵點(diǎn)與預(yù)測(cè)關(guān)鍵點(diǎn)之間的歐式距離;vi為關(guān)鍵點(diǎn)坐標(biāo);s表示目標(biāo)尺度;ki為控制衰減的系數(shù)。
本文將采用平均精度和召回分?jǐn)?shù)作為評(píng)判標(biāo)準(zhǔn)。計(jì)算OKS在0.5 的IOU 準(zhǔn)確度AP50、OKS在0.75 的IOU 準(zhǔn)確度AP75、檢測(cè)大尺寸圖像實(shí)例的IOU 準(zhǔn)確度APL以及檢測(cè)中等尺寸圖像實(shí)例的IOU準(zhǔn)確度APM,并計(jì)算所有指標(biāo)的平均準(zhǔn)確度mAP的平均,最后計(jì)算OKS在0.5~0.95 的平均召回率AR。
對(duì)于人體關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)固定輸入圖像長(zhǎng)寬比為4:3,本文采用尺寸為256×192 以及384×288 的圖像作為輸入,數(shù)據(jù)增強(qiáng)包括隨機(jī)旋轉(zhuǎn)([-45,45])隨機(jī)尺寸([0.65,1.35]),圖像的翻轉(zhuǎn),以及半身數(shù)據(jù)增強(qiáng)。
本文使用adam 優(yōu)化器。Batchsize 設(shè)置為64,設(shè)置基本學(xué)習(xí)速率為1×e-3,迭代次數(shù)為200 輪,并在第170 和190 輪時(shí)學(xué)習(xí)率分別降為1×e-4和1×e-5。
4.4.1 消融實(shí)驗(yàn)
實(shí)驗(yàn)首先對(duì)比了通道和空間特征選擇實(shí)驗(yàn)對(duì)結(jié)果的影響,在此基礎(chǔ)上添加了串行和并行兩種組合方式對(duì)結(jié)果的影響。消融實(shí)驗(yàn)結(jié)果見(jiàn)表1。
表1 消融實(shí)驗(yàn)Tab.1 Ablation Experiment
從實(shí)驗(yàn)結(jié)果可以看到,通道與空間特征選擇融合模塊相較于原網(wǎng)絡(luò)精度均具有一定的提升。單獨(dú)的通道選擇網(wǎng)絡(luò)提升了0.2 個(gè)百分點(diǎn),而加入空間選擇后提升了0.3 個(gè)百分點(diǎn),將兩種網(wǎng)絡(luò)互相結(jié)合后,進(jìn)一步提高準(zhǔn)確度,其中串行方式提高了0.4 個(gè)百分點(diǎn),并行方式連接網(wǎng)絡(luò)精度提升了0.6 個(gè)百分點(diǎn),證明了加入模塊的有效性。
4.4.2 與基準(zhǔn)網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)
coco2017val 測(cè)試集上與基準(zhǔn)網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表2,本實(shí)驗(yàn)主要與原HRNet 網(wǎng)絡(luò)進(jìn)行對(duì)比,同時(shí)還對(duì)比了前人設(shè)計(jì)的基礎(chǔ)網(wǎng)絡(luò)Hourglass[12],CPN[13]以及Simple Baesline(SBL)網(wǎng)絡(luò),本文訓(xùn)練了2 個(gè)不同層數(shù)的網(wǎng)絡(luò)模型,其骨干網(wǎng)絡(luò)分別為HRnet-W32、HRnet-W38,兩種網(wǎng)絡(luò)在結(jié)構(gòu)上近似,但各自網(wǎng)絡(luò)在卷積層數(shù)上有所區(qū)別。引入空間與通道特征選擇模塊后,本文的方法相較于原HRNet 網(wǎng)絡(luò)分別有0.6%和0.7%的精度提升,且增加的參數(shù)量非常少。在多層網(wǎng)絡(luò)HRNet-W48 中,網(wǎng)絡(luò)分別有0.3%和0.4%的精度提升。
4.4.3 其他實(shí)驗(yàn)
為了展現(xiàn)引入補(bǔ)償機(jī)制后網(wǎng)絡(luò)訓(xùn)練過(guò)程的精度變化,通過(guò)實(shí)驗(yàn)得到了引入補(bǔ)償機(jī)制后網(wǎng)絡(luò)的訓(xùn)練精度變化圖,如圖3 所示。從圖中變化可以看出引入補(bǔ)償機(jī)制后網(wǎng)絡(luò)開(kāi)始訓(xùn)練時(shí)的精度要比未加入補(bǔ)償系數(shù)后的精度較高,隨著訓(xùn)練輪數(shù)的增加兩者差距逐漸減小,在經(jīng)過(guò)學(xué)習(xí)率衰減后,兩種網(wǎng)絡(luò)精度都具有小部分跳動(dòng),并逐漸趨于平穩(wěn)。最終加入補(bǔ)償系數(shù)后的網(wǎng)絡(luò)精度整體要高于未加入補(bǔ)償后的精度。
圖3 引入補(bǔ)償機(jī)制后網(wǎng)絡(luò)的訓(xùn)練精度變化圖Fig.3 The change of training accuracy after introducing the compensation mechanism
4.4.4 可視化分析
為了更好的展現(xiàn)添加通道與空間特征選擇模塊對(duì)輸出特征的影響。本文通過(guò)實(shí)驗(yàn)展示了改進(jìn)后的HRNet 的stage3 部分網(wǎng)絡(luò)分出3 個(gè)并行分支過(guò)程的末尾處低維高分辨率特征圖的特征可視化熱圖,如圖4 所示。圖4 中深藍(lán)色部分表示網(wǎng)絡(luò)輸出特征中數(shù)值較小的區(qū)域,即網(wǎng)絡(luò)不關(guān)心區(qū)域,而顏色為黃色甚至紅色區(qū)域表示網(wǎng)絡(luò)輸出特征中數(shù)值較大的區(qū)域,即網(wǎng)絡(luò)較為關(guān)注區(qū)域。從特征熱力圖中可以看到,加入融合特征選擇模塊后對(duì)人體輪廓集中部分信號(hào)加強(qiáng),并抑制其他不相關(guān)部分,使得學(xué)習(xí)更專(zhuān)注,從而在后續(xù)模塊中提供更有用的信息。
圖4 stage3 階段特征可視化熱圖Fig.4 Feature visualization with heatmap in stage3
針對(duì)人體姿態(tài)高分辨率檢測(cè)網(wǎng)絡(luò)特征融合過(guò)程中不同尺度特征關(guān)注不足的問(wèn)題。本文借鑒SKNet的思想,提出了一種結(jié)合通道與空間特征選擇的高分辨率網(wǎng)絡(luò)融合模塊,并利用兩種不同的結(jié)合方式,增強(qiáng)了不同尺度特征融合的高效性,并在coco2017 數(shù)據(jù)集上驗(yàn)證了改進(jìn)后的有效性,且額外增加的計(jì)算量很小。針對(duì)特征選擇經(jīng)過(guò)softmax 輸出后特征的表征被削弱,導(dǎo)致訓(xùn)練較慢的現(xiàn)象,提出了一種非常簡(jiǎn)單有效的參數(shù)補(bǔ)償方法,很好的解決了這個(gè)問(wèn)題。