融入密集連接的多尺度輕量級(jí)人體姿態(tài)估計(jì)

2022-12-22 11:47:00李汪根王志格葛英奎

計(jì)算機(jī)工程與應(yīng)用 2022年24期

高坤，李汪根，束陽，王志格，葛英奎

安徽師范大學(xué) 計(jì)算機(jī)與信息學(xué)院，安徽蕪湖 241002

人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺中一個(gè)極為重要的任務(wù)，它已經(jīng)廣泛應(yīng)用于很多領(lǐng)域[1]，諸如骨骼動(dòng)作識(shí)別[2-3]、人機(jī)交互[4-5]都需要姿態(tài)估計(jì)的參與，2D人體姿態(tài)估計(jì)的目標(biāo)是在場景中檢測出人體的關(guān)節(jié)點(diǎn)位置坐標(biāo)[6]。

當(dāng)下2D人體姿態(tài)估計(jì)主要有兩大類方法[1]，一類是自頂向下（top down）的方法，這類方法的檢測方式是先從場景中檢測人體并框選，再在所框選區(qū)域內(nèi)檢測關(guān)節(jié)點(diǎn)。另一類方法是自底向上（bottom up）的方法，這類方法的檢測方式是直接從場景中檢測出所有關(guān)節(jié)點(diǎn)，再將所檢測到的關(guān)節(jié)點(diǎn)拼裝出人體結(jié)構(gòu)。

隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展，在人體姿態(tài)估計(jì)領(lǐng)域也陸續(xù)出現(xiàn)了很多優(yōu)秀的研究成果，Newell等提出的堆疊沙漏網(wǎng)絡(luò)（stacked hourglass networks，SHN）[7]，網(wǎng)絡(luò)由數(shù)個(gè)對(duì)稱的沙漏結(jié)構(gòu)網(wǎng)絡(luò)單元堆疊而成，前一個(gè)單元的輸出作為后一個(gè)的輸入，經(jīng)過對(duì)特征的反復(fù)提取，最終輸出熱圖用于預(yù)測關(guān)節(jié)點(diǎn)的位置；Chen等提出的級(jí)聯(lián)金字塔網(wǎng)絡(luò)（cascaded pyramid network，CPN）[8]，使用了特征金字塔結(jié)構(gòu)用于提取特征，能夠更全面地提取多個(gè)尺度上的特征信息；Xiao等提出的簡單基線（simple base‐line，SBL）[9]，僅使用簡單的下采樣提取特征再利用轉(zhuǎn)置卷積還原特征圖尺寸，同樣有著優(yōu)秀的表現(xiàn)；Sun等提出了高分辨率網(wǎng)絡(luò)（high resolution network，HRNet）[10]，通過構(gòu)建多個(gè)分支進(jìn)行多尺度特征融合并始終保留高分辨率分支，從而充分利用了特征信息，網(wǎng)絡(luò)的性能表現(xiàn)突出。

但是隨著新的網(wǎng)絡(luò)不斷提出，網(wǎng)絡(luò)的規(guī)模也日漸增大，帶來網(wǎng)絡(luò)參數(shù)量和計(jì)算量的大幅增加，無論對(duì)于訓(xùn)練還是部署，這都需要很高的成本[11]，所以一些研究將重心轉(zhuǎn)向了輕量化，Zhang等基于SBL網(wǎng)絡(luò)改進(jìn)提出輕量級(jí)姿態(tài)估計(jì)網(wǎng)絡(luò)（lightweight pose network，LPN）[12]，在網(wǎng)絡(luò)的推理速度方面展現(xiàn)出較大優(yōu)勢；Yu等基于HRNet提出了Lite-HRNet[13]，雖然網(wǎng)絡(luò)性能略有折損，但是卻使得網(wǎng)絡(luò)在輕量化方面有著較大優(yōu)勢。

本文基于以上研究，采用與SBL和LPN相同的簡單結(jié)構(gòu)框架，提出了一個(gè)融入密集連接的多尺度輕量級(jí)人體姿態(tài)估計(jì)網(wǎng)絡(luò)。首先基于VoVNet[14]的密集連接思想，重新設(shè)計(jì)了下采樣特征提取瓶頸模塊LGCblock代替原本的瓶頸模塊，特征圖的密集連接能夠?qū)崿F(xiàn)對(duì)特征信息的充分利用，同時(shí)為了更好地提取特征，在LGCblock內(nèi)結(jié)合深度可分離卷積的思想設(shè)計(jì)了GWConv模塊，實(shí)現(xiàn)多尺度提取特征信息，同時(shí)又保證了參數(shù)量和計(jì)算量不會(huì)大幅增加，使用三組GWConv模塊的輸出相連接并將最終特征圖進(jìn)行通道維度的變換構(gòu)成了LGCblock結(jié)構(gòu)。本文還結(jié)合分組卷積的思想構(gòu)建了分組空洞空間卷積池化金字塔（SG-ASPP），用于彌補(bǔ)特征提取過程中可能遺漏的特征信息，最終使得網(wǎng)絡(luò)在輕量化的同時(shí)取得優(yōu)秀的精度表現(xiàn)。

基于以上描述，本文提出的網(wǎng)絡(luò)主要有如下優(yōu)勢：

（1）基于VoVNet的思想設(shè)計(jì)了LGCblock結(jié)構(gòu)，密集連接的結(jié)構(gòu)實(shí)現(xiàn)了有效的特征復(fù)用，對(duì)于輕量級(jí)網(wǎng)絡(luò)而言極大提升了網(wǎng)絡(luò)的性能。

（2）GWConv將深度可分離卷積同多尺度特征提取相結(jié)合，在有效控制參數(shù)量和計(jì)算量的前提下大幅提升特征提取能力。

（3）使用分組空洞空間卷積池化金字塔來進(jìn)一步對(duì)特征進(jìn)行提取，在僅增加少量參數(shù)量的情況下進(jìn)一步提升網(wǎng)絡(luò)的特征提取能力。

1 相關(guān)工作

1.1 密集連接網(wǎng)絡(luò)

密集連接網(wǎng)絡(luò)指通過前向傳播的方式將每層都與其他層相連接，每層的輸入特征圖都會(huì)包含其前置所有層的特征圖，這樣能夠使特征得到重用，極大提高特征的利用效率，從而提高網(wǎng)絡(luò)的性能。DenseNet[15]提出為所有層都添加密集連接，但是這樣會(huì)導(dǎo)致網(wǎng)絡(luò)的復(fù)雜度急劇增大，在DenseNet的基礎(chǔ)上，VoVNet提出僅保留輸入到最后一層的密集連接，在繼承密集連接網(wǎng)絡(luò)的優(yōu)勢的同時(shí)使得網(wǎng)絡(luò)的復(fù)雜度大大降低。

1.2 通道洗牌

在卷積操作中，分組卷積就是對(duì)輸入的特征圖在通道維度上進(jìn)行分組再對(duì)每組進(jìn)行卷積操作這樣能夠大幅降低參數(shù)量和計(jì)算量[16]，通常在逐通道卷積（depth‐wise convolution）中會(huì)使用，這種卷積方式會(huì)導(dǎo)致通道方向的特征交互不足，組與組之間無法進(jìn)行特征交互，最終會(huì)使網(wǎng)絡(luò)的特征提取能力下降，這時(shí)采用通道洗牌（channel shuffle）方法，可以一定程度上彌補(bǔ)特征交互不足的問題，通道洗牌方法就是對(duì)分組卷積后的特征圖在通道方向進(jìn)行打亂重組，使每次對(duì)特征圖進(jìn)行分組卷積時(shí)每個(gè)組的輸入來自之前的組，這樣特征信息就可以在組與組之間相互流通。

2 本文方法

2.1 LDMNet網(wǎng)絡(luò)

本文提出的LDMNet以LPN網(wǎng)絡(luò)作為框架改進(jìn)而來，整體結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)為類似沙漏結(jié)構(gòu)，主要由下采樣特征提取部分和上采樣還原特征圖尺寸兩部分組成，如圖1所示為LDMNet的網(wǎng)絡(luò)結(jié)構(gòu)。

圖1 LDMNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of LDMNet network

當(dāng)圖片輸入網(wǎng)絡(luò)時(shí)首先會(huì)對(duì)圖片進(jìn)行如圖2所示Stem模塊的簡單處理，參考文獻(xiàn)[17]，本文將Stem層設(shè)計(jì)為雙分支結(jié)構(gòu)，相比于僅使用3×3的卷積在幾乎不增加參數(shù)量和計(jì)算量的情況下，能更好地保留原始特征信息，如圖2所示為Stem模塊的結(jié)構(gòu)。

圖2 Stem模塊Fig.2 Stem module

通過將卷積與池化兩個(gè)分支的特征圖相融合，原理上與密集連接網(wǎng)絡(luò)相似，通過對(duì)特征圖的復(fù)用來保留更多原始特征信息，并且在參數(shù)量和計(jì)算量上與基線LPN預(yù)處理模塊幾乎無差別，經(jīng)過實(shí)驗(yàn)分析，Stem模塊相比基線LPN預(yù)處理模塊對(duì)模型性能有較大提升作用。

緊接著是LDMNet的下采樣特征提取部分，本文將這一部分劃分為五個(gè)階段，前四個(gè)階段由LGCblock結(jié)構(gòu)組成，最后一個(gè)階段為分組空洞空間卷積池化金字塔模塊（SG-ASPP），本文改進(jìn)的密集連接的LGCblock瓶頸結(jié)構(gòu)用來代替LPN網(wǎng)絡(luò)中原本的瓶頸結(jié)構(gòu)，不僅有效降低了參數(shù)量和計(jì)算量，網(wǎng)絡(luò)的性能表現(xiàn)也有所提升，圖中標(biāo)注了每個(gè)階段所包含的LGCblock結(jié)構(gòu)數(shù)目，前四個(gè)階段中，都會(huì)對(duì)特征圖進(jìn)行維度變換，輸出的通道數(shù)依次為112、256、384、512，僅第二、三階段會(huì)對(duì)特征圖進(jìn)行下采樣，前四個(gè)階段輸出的特征圖尺寸依次為64×64、32×32、16×16、16×16，第五個(gè)階段SG-ASPP不改變特征圖的尺寸及通道數(shù)，目的是盡可能地再提取特征。

最后通過兩組轉(zhuǎn)置卷積將下采樣特征提取部分輸出地特征圖進(jìn)行上采樣，還原高分辨率特征圖，同時(shí)將Stem層的輸出與上采樣輸出地特征圖進(jìn)行相加融合，輸出的高分辨率特征圖用于預(yù)測人體關(guān)節(jié)點(diǎn)，實(shí)現(xiàn)對(duì)人體的姿態(tài)估計(jì)。

2.2 LGCblock結(jié)構(gòu)

本文基于密集連接網(wǎng)絡(luò)的思想設(shè)計(jì)了如圖3所示的LGCblock瓶頸結(jié)構(gòu)，主要由三個(gè)GWConv模塊和一個(gè)逐點(diǎn)卷積模塊組成，串聯(lián)三個(gè)GWConv模塊用來提取空間維度的特征，并將它們的輸出拼接，使用逐點(diǎn)卷積進(jìn)行通道方向的特征交互和維度變換。

圖3 LGCblock結(jié)構(gòu)Fig.3 LGCblock structure

對(duì)于瓶頸結(jié)構(gòu)內(nèi)的第一層GWConv模塊可以用公式表示為：

第一層GWConv會(huì)將對(duì)特征圖降維，使通道數(shù)減少為一個(gè)較小的中間通道數(shù)，能夠在不損失特征提取能力的同時(shí)降低網(wǎng)絡(luò)參數(shù)量和計(jì)算量，后續(xù)的GWConv模塊可以用公式表示為：

θi+1代表第i+1層的輸出，θi代表第i層的輸入，F(xiàn)代表GWConv模塊，對(duì)于最后一層可以用公式表示為：

θend代表輸出，H代表逐點(diǎn)卷積，將前置層的輸出特征圖通過前向傳播的方式與LGCblock的輸入相拼接，再對(duì)特征圖進(jìn)行維度變換，將其轉(zhuǎn)化為輸出通道數(shù)。

通過以上的密集連接結(jié)構(gòu)，LGCblock中的最后一層特征圖會(huì)包含其所有前置層特征圖的信息，使得所有中間層特征圖的信息都能夠得到充分的再次利用，在訓(xùn)練過程中可以加速梯度的反向傳播實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)效率的提升，同時(shí)LGCblock僅有所有前置層與最后一層之間的密集連接，并且得益于特征圖能夠充分再次利用，所以在中間層可以對(duì)特征圖進(jìn)行通道維度的壓縮并且不會(huì)損失特征信息，能夠有效降低模型的參數(shù)量和計(jì)算量，網(wǎng)絡(luò)的整體性能也有明顯提升。

在過往的研究中可以得知，注意力機(jī)制對(duì)于提升網(wǎng)絡(luò)的性能有著重要的作用[18]，尤其對(duì)于輕量級(jí)的網(wǎng)絡(luò)，可以在盡可能小的成本下實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)性能的大幅度提升，所以本文對(duì)每一層LGCblock結(jié)構(gòu)的輸出位置都使用了坐標(biāo)注意力機(jī)制（coordinate attention，CA）[19]，其結(jié)構(gòu)與其他通道注意力諸如壓縮激活（squeeze-and-excitation，SE）注意力機(jī)制[20]，高效通道注意力（efficient channel attention，ECA）[21]等相似，不同的是坐標(biāo)注意力機(jī)制將空間位置信息有效地融入進(jìn)了通道中，如圖4所示為坐標(biāo)注意力機(jī)制的結(jié)構(gòu)，并且不再需要龐大的參數(shù)量就可以實(shí)現(xiàn)，這對(duì)于提升輕量級(jí)人體姿態(tài)估計(jì)網(wǎng)絡(luò)的性能是至關(guān)重要的，通過后續(xù)的實(shí)驗(yàn)也證明了坐標(biāo)注意力機(jī)制在提升網(wǎng)絡(luò)性能方面的重要性。

圖4 坐標(biāo)注意力機(jī)制Fig.4 Coordinate attention

對(duì)一個(gè)特征圖尺寸為(w,h)的特征圖第c通道而言，首先使用均值池化將水平和豎直方向的空間特征信息嵌入到通道方向，計(jì)算過程如公式（4）所示，隨后進(jìn)行特征變換生成注意力權(quán)重，轉(zhuǎn)換過程如公式（5）所示。

其中，g=δ(G([ηh,ηw]))，δ和σ為對(duì)應(yīng)的采樣系數(shù)，G為特征變換操作，最終得到坐標(biāo)注意力：

本文還通過實(shí)驗(yàn)對(duì)比了使用了密集連接的LGC‐block的LDMNet相比使用僅對(duì)GWConv模塊進(jìn)行串聯(lián)的結(jié)構(gòu)的LDMNet，實(shí)驗(yàn)的結(jié)果表明使用LGCblock的情況具有更低的參數(shù)量和計(jì)算量以及更高的性能。

2.3 GWConv模塊

人體姿態(tài)估計(jì)是一個(gè)對(duì)位置信息極為敏感的任務(wù)，在卷積神經(jīng)網(wǎng)絡(luò)中，感受野關(guān)系到提取的特征所覆蓋的特征圖范圍，感受野是由卷積核大小所決定的，當(dāng)下最常使用的卷積核大小為3×3，對(duì)于輕量級(jí)網(wǎng)絡(luò)使用3×3大小的卷積效果相對(duì)有限，與使用更大卷積核相比有明顯的效果差距[22]，但是如果僅使用更大卷積核進(jìn)行特征提取則會(huì)無法兼顧特征圖中多尺度的信息，可能會(huì)忽略一些細(xì)節(jié)信息，同時(shí)伴隨著大卷積核的引入，網(wǎng)絡(luò)的參數(shù)量核計(jì)算量都會(huì)隨之大幅增加。

基于以上問題，本文設(shè)計(jì)了GWConv模塊，將深度可分離卷積[23]與多尺度卷積相結(jié)合，在輕量化的條件下[24]實(shí)現(xiàn)更高效的特征提取，如圖5所示為GWConv結(jié)構(gòu)。

圖5 GWConv模塊Fig.5 GWConv module

由于深度可分離卷積將卷積拆分為逐通道與逐點(diǎn)兩個(gè)部分，會(huì)導(dǎo)致在卷積過程中的特征交互不足，為了解決這個(gè)問題，GWConv首先對(duì)輸入的特征圖進(jìn)行通道方向的特征變換，公式表示為：

若輸入特征圖X的通道數(shù)為α，經(jīng)過維度變換fin的輸出特征圖Xδ通道數(shù)為α/2，通過對(duì)特征圖進(jìn)行降維的方式實(shí)現(xiàn)通道方向的特征交互彌補(bǔ)了深度可分離卷積的不足，并且通道數(shù)減少為原來的一半會(huì)降低后續(xù)操作的參數(shù)量和計(jì)算量，隨后對(duì)特征圖進(jìn)行四個(gè)尺度的逐通道卷積，對(duì)應(yīng)的卷積核尺寸分別為3、5、7、9，再將多尺度卷積的輸出相融合，用公式表示為：

其中，tn代表堆疊n層卷積核尺寸為3的逐通道卷積等價(jià)代替更大卷積核的逐通道卷積，本文方法的n設(shè)置為4，等效進(jìn)行了四個(gè)尺度的逐通道卷積，fmid表示對(duì)拼接后特征圖進(jìn)行的維度變換，最后將輸出特征圖與輸入特征圖進(jìn)行拼接并進(jìn)行維度變換得到輸出，公式表示為：

fout將拼接后的特征圖進(jìn)行維度變換，將通道數(shù)轉(zhuǎn)化為輸出通道數(shù)。

2.4 分組空洞空間卷積池化金字塔

空洞卷積（atrous convolution）是在普通卷積的基礎(chǔ)上加入了膨脹率，在使用相同卷積核尺寸條件下擴(kuò)大了感受野，通過調(diào)整膨脹率的大小，可以將感受野擴(kuò)展為所需要的大小。

空洞空間卷積池化金字塔（ASPP）模塊[25]使用了空洞卷積和池化來盡可能提取特征圖中的更多信息，通過使用不同膨脹率的空洞卷積來實(shí)現(xiàn)多個(gè)尺度的特征提取，同時(shí)保證特征圖的分辨率不發(fā)生改變。按照輕量化的思路，本文對(duì)ASPP模塊進(jìn)行了改進(jìn)，融合了分組卷積的思想，設(shè)計(jì)了分組空洞空間卷積池化金字塔（SG-ASPP）模塊，在幾乎不損失性能的前提下將ASPP的參數(shù)量降低75%，如圖6所示為SG-ASPP的結(jié)構(gòu)。

圖6 SG-ASPP模塊Fig.6 SG-ASPP module

首先將輸入的特征圖沿通道方向切分為四組，其中三組進(jìn)行膨脹率分別為4、8、12的空洞卷積提取特征信息，另外一組進(jìn)行自適應(yīng)均值池化，隨后將四組的輸出相拼接并進(jìn)行通道洗牌。本文將SG-ASPP放置在四個(gè)LGCblock結(jié)構(gòu)之后，用于在下采樣后再盡可能提取一些可能被忽略的特征信息，實(shí)驗(yàn)結(jié)果也表明SG-ASPP模塊在提升網(wǎng)絡(luò)性能方面發(fā)揮了重要作用。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集介紹

本文提出的網(wǎng)絡(luò)使用了兩個(gè)數(shù)據(jù)集，MPII數(shù)據(jù)集和COCO數(shù)據(jù)集。

MPII數(shù)據(jù)集包含大約25 000張圖片，有約40 000個(gè)人體目標(biāo)且均被標(biāo)注了16個(gè)關(guān)節(jié)點(diǎn)的信息，一般會(huì)把其中28 000張圖片作為訓(xùn)練集，剩余12 000張圖片作為測試集。MPII數(shù)據(jù)集的評(píng)價(jià)指標(biāo)為PCKh[26]（percent‐age of correct keypoints），以人體頭部作為歸一化指標(biāo)計(jì)算預(yù)測正確的關(guān)鍵點(diǎn)比例，即預(yù)測關(guān)鍵點(diǎn)距離標(biāo)注關(guān)鍵點(diǎn)之間的歸一化距離小于設(shè)定閾值的比例，本文選用閾值為0.5的PCKh@0.5作為評(píng)估標(biāo)準(zhǔn)，評(píng)估的關(guān)鍵點(diǎn)分別為頭部（head）、肩膀（shoulder）、手肘（elbow）、腕部（wrist）、髖部（hip）、膝蓋（knee）以及腳踝（ankle）。

COCO數(shù)據(jù)集包含330 000張圖片，其中有超過200 000張被標(biāo)記圖片，擁有標(biāo)注信息的人體目標(biāo)約250 000個(gè)，每個(gè)人體目標(biāo)被標(biāo)注了17個(gè)關(guān)節(jié)點(diǎn)的信息，一般使用訓(xùn)練集中的57 000張圖片進(jìn)行訓(xùn)練，在5 000張圖片的驗(yàn)證集上驗(yàn)證最后使用測試集的20 000張圖片進(jìn)行測試。COCO數(shù)據(jù)集的評(píng)價(jià)標(biāo)準(zhǔn)是關(guān)鍵點(diǎn)相似性[27]（object keypoint similarity，OKS），本文采用AP（OKS=0.50，0.55，…，0.95時(shí)10個(gè)預(yù)測關(guān)鍵點(diǎn)準(zhǔn)確率的均值）作為主要評(píng)價(jià)指標(biāo)、AP50（OKS=0.5時(shí)的準(zhǔn)確率）、AP75（OKS=0.75時(shí)的準(zhǔn)確率）、APM（中型物體檢測準(zhǔn)確率）、APL（大型物體檢測準(zhǔn)確率）以及AR（OKS=0.50，0.55，…，0.95時(shí)10個(gè)預(yù)測關(guān)鍵點(diǎn)召回率的均值），作為輔助評(píng)價(jià)指標(biāo)。

3.2 實(shí)驗(yàn)環(huán)境及設(shè)置

本文的實(shí)驗(yàn)環(huán)境為Ubuntu 20.04，GPU為NVIDIA RTX 3060，顯存為12 GB，使用的Pytorch版本為1.10.1，Python版本為3.9，網(wǎng)絡(luò)使用的優(yōu)化器為Adam，設(shè)置的訓(xùn)練周期為150輪，批量大小為32，初始學(xué)習(xí)率設(shè)置為0.001，在訓(xùn)練第120輪時(shí)縮減10倍。

本文采用和LPN網(wǎng)絡(luò)相同的數(shù)據(jù)預(yù)處理，對(duì)于MPII數(shù)據(jù)集處理為256×256大小，對(duì)于COCO數(shù)據(jù)集處理為256×192大小，便于與其他方法進(jìn)行對(duì)比。

3.3 實(shí)驗(yàn)驗(yàn)證

本文方法在COCO數(shù)據(jù)集以及MPII數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證，與基線LPN和其他具有代表性的先進(jìn)方法進(jìn)行準(zhǔn)確度、參數(shù)量和計(jì)算量上的比較。

首先，本文方法在MPII數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，包括MPII數(shù)據(jù)集中人體7個(gè)部位關(guān)節(jié)點(diǎn)以及平均預(yù)測準(zhǔn)確度的結(jié)果如表1所示，與Hourglass、SimpleBaseline、HRNet相比，本文方法的參數(shù)量和計(jì)算量最低并且平均預(yù)測準(zhǔn)確度達(dá)到了相近水準(zhǔn)，與基線LPN相比，本文增加了少量的參數(shù)量和計(jì)算量，在平均精度方面提升了1.9個(gè)百分點(diǎn)，在輕量化網(wǎng)絡(luò)極其有限的資源以及沙漏結(jié)構(gòu)下采樣帶來的特征信息損失限制下，相比最新的輕量級(jí)高分辨率網(wǎng)絡(luò)LiteHRNet相比平均精度提高了1.5個(gè)百分點(diǎn)。

表1 MPII驗(yàn)證集實(shí)驗(yàn)結(jié)果對(duì)比（PCKh@0.5）Table 1 Comparison of experimental results of MPII validation set（PCKh@0.5）

表2是本文方法在COCO驗(yàn)證集上與其他方法的實(shí)驗(yàn)對(duì)比結(jié)果，LDMNet在不使用預(yù)訓(xùn)練模型以及基線LPN中的Iterative Training Strategy學(xué)習(xí)率迭代策略的情況下，平均精度相較使用了學(xué)習(xí)率迭代訓(xùn)練策略的基線LPN提升了1.0個(gè)百分點(diǎn)，與沒有使用學(xué)習(xí)率迭代策略的基線LPN相比則提升了3.2個(gè)百分點(diǎn)，在與最新的輕量級(jí)方法LiteHRNet比較中，本文方法的平均精度提升了2.9個(gè)百分點(diǎn)。另外與一些大型網(wǎng)絡(luò)作比較，LDMNet在輕量化方面具有極大優(yōu)勢，平均預(yù)測準(zhǔn)確度與相同網(wǎng)絡(luò)結(jié)構(gòu)的SBL-50相近，達(dá)到了與大型網(wǎng)絡(luò)相近的主流性能水準(zhǔn)。

表2 COCO驗(yàn)證集實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results of COCO validation set

本文還在COCOtest-dev測試數(shù)據(jù)集上將LDMNet與其他方法做了對(duì)比如表3所示，為了方便比較，網(wǎng)絡(luò)輸入的圖片尺寸選擇為384×288，實(shí)驗(yàn)結(jié)果表明，LDMNet與一些采用預(yù)訓(xùn)練模型的大型網(wǎng)絡(luò)諸如CPN、HRNet相比，平均預(yù)測精度雖稍顯遜色，但是在輕量化方面的表現(xiàn)則非常優(yōu)異并且不再依賴預(yù)訓(xùn)練模型，使得網(wǎng)絡(luò)的訓(xùn)練部署更加輕便，更符合輕量化的設(shè)計(jì)思路，與使用ResNet-152作為瓶頸結(jié)構(gòu)并且使用ResNet-152預(yù)訓(xùn)練模型的SBL-152相比，LDMNet在網(wǎng)絡(luò)結(jié)構(gòu)相同的情況下僅用不足1/10的參數(shù)量最終取得了相對(duì)不錯(cuò)的成績，與最新的輕量級(jí)網(wǎng)絡(luò)LiteHRNet相比，LDMNet在少量增加參數(shù)量的條件下，平均預(yù)測準(zhǔn)確度提升了0.4個(gè)百分點(diǎn)。

表3 COCO test-dev測試集實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experimental results of COCO test-dev set

綜合以上實(shí)驗(yàn)結(jié)果，本文提出的LDMNet在輕量級(jí)模型中表現(xiàn)出優(yōu)異的性能表現(xiàn)，與最新的輕量級(jí)姿態(tài)估計(jì)方法相比有較大優(yōu)勢，其中值得注意的是，在與基線LPN的對(duì)比中雖然參數(shù)量和計(jì)算量有所提升，但是不再需要采用在LPN中呈現(xiàn)為對(duì)模型進(jìn)行多次訓(xùn)練的Iterative Training Strategy學(xué)習(xí)率迭代策略以及任何類似預(yù)訓(xùn)練手段，僅通過單次訓(xùn)練即得到最終結(jié)果，實(shí)際上大大降低了模型的訓(xùn)練時(shí)間成本，與此同時(shí)在模型性能上超越了基線LPN；與大型網(wǎng)絡(luò)相對(duì)比在模型規(guī)模上有極大優(yōu)勢，且性能表現(xiàn)表現(xiàn)穩(wěn)定，達(dá)到了對(duì)輕量級(jí)人體姿態(tài)估計(jì)的設(shè)計(jì)目標(biāo)。

3.4 消融實(shí)驗(yàn)

本文選擇使用MPII數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn)，首先分別單獨(dú)將坐標(biāo)注意力機(jī)制（CA）、分組空洞空間卷積池化金字塔（SG-ASPP）單獨(dú)用在本文方法，用來驗(yàn)證各模塊對(duì)LDMNet的影響，實(shí)驗(yàn)結(jié)果如表4。

表4 模塊消融實(shí)驗(yàn)Table 4 Ablation experiment

結(jié)果表明，SG-ASPP模塊與CA對(duì)于LDMNet而言都有著重要的作用，對(duì)提升模型性能發(fā)揮著重要的作用，其中CA對(duì)本文模型性能的提升占主導(dǎo)地位。隨后為了深入研究模型中的模塊對(duì)性能的影響，本文對(duì)圖1中的Stem模塊進(jìn)行消融實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表5。

表5 Stem消融實(shí)驗(yàn)Table 5 Stem ablation experiment

其中LDMNet1代表未使用Stem模塊的情況，使用Stem模塊在幾乎不增加參數(shù)量和計(jì)算量的條件下大幅度提升了模型性能。隨后本文對(duì)LGCblock使用的密集連接進(jìn)行了實(shí)驗(yàn)分析，結(jié)果如表6所示。

表6 LGCblock消融實(shí)驗(yàn)Table 6 LGCblock ablation experiment

LDMNet2代表僅將GWConv模塊進(jìn)行串聯(lián)而不使用密集連接結(jié)構(gòu)組成LGCblock的情況，與不使用密集連接的LGCblock結(jié)構(gòu)相比，使用密集連接的LGCblock在參數(shù)量降低了接近50個(gè)百分點(diǎn)，計(jì)算量也降低了近30個(gè)百分點(diǎn)，并且平均預(yù)測準(zhǔn)確度提高了0.6個(gè)百分點(diǎn)，對(duì)中間層特征圖進(jìn)行復(fù)用在提升模型預(yù)測準(zhǔn)確度的同時(shí)還能大幅降低模型復(fù)雜度。為了更細(xì)分地對(duì)本文提出模塊效果進(jìn)行分析，本文還使用GWConv模塊與普通深度可分離卷積模塊分別構(gòu)建LGCblock結(jié)構(gòu)，實(shí)驗(yàn)結(jié)果如表7所示。

表7 GWConv消融實(shí)驗(yàn)Table 7 GWConv ablation experiment

LDMNet3代表使用卷積核尺寸為3的單尺度深度可分離卷積，相比使用普通深度可分離卷積，雖然使用GWConv參數(shù)量和計(jì)算量都有所增加，但是平均預(yù)測準(zhǔn)確度提升了2個(gè)百分點(diǎn)，實(shí)驗(yàn)結(jié)果表明GWConv模塊的多尺度特征提取對(duì)于提升網(wǎng)絡(luò)性能發(fā)揮著極為重要的作用。另外本文還對(duì)圖1中的短路連接進(jìn)行了實(shí)驗(yàn)分析，訓(xùn)練過程中的模型收斂曲線如圖7所示。

圖7 模型訓(xùn)練收斂曲線Fig.7 Model training convergence curve

可以看出，相比于不使用短路連接的情況，短路連接能夠使模型的訓(xùn)練更快收斂，并且平均準(zhǔn)確度也有所提升，在MPII驗(yàn)證集上的實(shí)驗(yàn)對(duì)比如表8所示。

表8 短路連接消融實(shí)驗(yàn)Table 8 Residual ablation experiment

LDMNet4代表不使用短路連接，平均準(zhǔn)確度相較使用短路連接的情況降低0.5個(gè)百分點(diǎn)，以上實(shí)驗(yàn)結(jié)果可以推斷出，由于多次進(jìn)行下采樣縮小特征圖尺寸，會(huì)使得特征圖中的信息存在損失，而通過將高分辨率特征圖直接由短路連接的方式與輸出特征圖相融合可以極大緩解這個(gè)問題，從而提高模型性能。

3.5 模型推理速度

對(duì)于輕量級(jí)姿態(tài)估計(jì)，模型的推理速度是一個(gè)至關(guān)重要的參數(shù)，本文對(duì)LDMNet做了推理速度的測試，測試平臺(tái)為I5-10400F，對(duì)256×192大小的輸入，與其他經(jīng)典方法在推理速度上的對(duì)比如圖8所示，LDMNet的推理速度可以達(dá)到平均19 FPS，圖中圖案的大小表示模型的規(guī)模，與SBL以及當(dāng)下主流的HRNet在相同的環(huán)境下對(duì)比，有著更快的推理速度和更輕量級(jí)的模型規(guī)模，具有更強(qiáng)的實(shí)時(shí)性。

圖8 模型推理速度對(duì)比Fig.8 Comparison of model inference speed

3.6 人體姿態(tài)估計(jì)結(jié)果可視化

本文隨機(jī)選取COCO數(shù)據(jù)集中部分人體樣本做了姿態(tài)估計(jì)可視化如圖9所示，可視化結(jié)果顯示本文方法在各種環(huán)境下都能夠順利檢測出人體關(guān)節(jié)點(diǎn)的位置，包括障礙物遮擋、陰影環(huán)境下以及模糊畫面都能準(zhǔn)確地檢測出人體關(guān)節(jié)點(diǎn)，得益于密集連接網(wǎng)絡(luò)的特性以及多尺度特征提取，LDMNet能夠?qū)W習(xí)到畫面中兼顧全局與局部的特征信息，在面對(duì)復(fù)雜場景時(shí)同樣會(huì)有優(yōu)異的性能表現(xiàn)，展現(xiàn)了本文方法的可靠性以及面對(duì)復(fù)雜環(huán)境的魯棒性。

圖9 COCO數(shù)據(jù)集可視化Fig.9 COCO dataset visualization

4 結(jié)束語

本著在盡可能低的網(wǎng)絡(luò)參數(shù)量以及計(jì)算量的條件下提升網(wǎng)絡(luò)性能的目標(biāo)，本文結(jié)合密集連接網(wǎng)絡(luò)和多尺度特征提取兩種方法提出了輕量級(jí)的人體姿態(tài)估計(jì)網(wǎng)絡(luò)LDMNet，網(wǎng)絡(luò)以輕量級(jí)簡單人體姿態(tài)估計(jì)網(wǎng)絡(luò)LPN為基礎(chǔ)框架，將原本的下采樣瓶頸結(jié)構(gòu)替換為LGCblock，并用GWConv作為其基本模塊，使得網(wǎng)絡(luò)能夠在輕量化方面表現(xiàn)優(yōu)異并且具有高效的特征提取能力，使得網(wǎng)絡(luò)的整體性能獲得較大提升，同時(shí)提出了SG-ASPP模塊，使得整個(gè)特征提取模塊的性能進(jìn)一步得到提升，最終的實(shí)驗(yàn)結(jié)果達(dá)到了與現(xiàn)有優(yōu)秀模型相同的水準(zhǔn)，在COCO數(shù)據(jù)集以及MPII數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果還表明，本文提出的方法有效地平衡了網(wǎng)絡(luò)的復(fù)雜度與預(yù)測準(zhǔn)確率之間的關(guān)系。在后續(xù)的工作中，如何在進(jìn)一步縮減網(wǎng)絡(luò)參數(shù)量以及計(jì)算量的前提下，對(duì)現(xiàn)有網(wǎng)絡(luò)的性能進(jìn)行提升，能夠在真實(shí)場景中得到應(yīng)用是需要著重思考的內(nèi)容。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放