魏玉福,陳麗萍
(包頭醫(yī)學(xué)院衛(wèi)生健康學(xué)院,內(nèi)蒙古包頭 014030)
二維人體姿態(tài)估計(jì)(2D human pose estimation)[1-2]是計(jì)算機(jī)視覺研究領(lǐng)域的重要方向之一。人體2D姿態(tài)估計(jì)主要通過檢測(cè)人體的各個(gè)部位,勾勒出人體姿態(tài)的抽象輪廓,在實(shí)際中可應(yīng)用于體育運(yùn)動(dòng)肢體識(shí)別[3-4]、智能檢測(cè)[5]等。
人體姿態(tài)估計(jì)問題的研究近年來也引起了眾多科研人員的關(guān)注?;趫D結(jié)構(gòu)(Pictorial Structures)模型[6-7]是傳統(tǒng)的姿態(tài)估計(jì)算法中主要應(yīng)用到的模型結(jié)構(gòu)之一,但傳統(tǒng)姿態(tài)估計(jì)方法具備單一性,對(duì)于復(fù)雜多變的人體姿態(tài)而言檢測(cè)效果并不好。結(jié)合深度學(xué)習(xí)的人體姿態(tài)估計(jì)技術(shù)近年來取得了顯著進(jìn)展。如Toshev 等人通過對(duì)人體姿態(tài)進(jìn)行了上下文全局估計(jì),提出了完全DeepPose[8-9]姿態(tài)估計(jì)神經(jīng)網(wǎng)絡(luò)模型,該模型推進(jìn)了姿態(tài)估計(jì)研究領(lǐng)域的發(fā)展。
針對(duì)人體姿態(tài)估計(jì)問題,該文結(jié)合HRNet(High Resolution Networks)[10-11]姿態(tài)估計(jì)神經(jīng)網(wǎng)絡(luò)模型,提出了一種結(jié)合注意力機(jī)制實(shí)現(xiàn)的運(yùn)動(dòng)人體姿態(tài)估計(jì)方法,該方法將空間注意力機(jī)制提取的豐富特征信息融入到HRNet 網(wǎng)絡(luò)當(dāng)中,構(gòu)建了更加準(zhǔn)確的人體姿態(tài)估計(jì)模型,并在實(shí)驗(yàn)中表現(xiàn)出了較好的效果。
基于注意力機(jī)制[12-13]的深度學(xué)習(xí)姿態(tài)估計(jì)技術(shù)的整體流程主要是基于HRNet 姿態(tài)估計(jì)神經(jīng)網(wǎng)絡(luò)模型,在高分辨率與低分辨率連接的并行網(wǎng)絡(luò)中間添加了空間注意力模塊,以提取各層次間的注意力特征圖,并融合到后面的高分辨率網(wǎng)絡(luò)層次當(dāng)中,豐富了特征層次,以達(dá)到更好的姿態(tài)估計(jì)效果,基于空間注意力機(jī)制的深度學(xué)習(xí)體育運(yùn)動(dòng)姿態(tài)估計(jì)模型整體如圖1 所示。
圖1 基于注意力機(jī)制的深度學(xué)習(xí)姿態(tài)估計(jì)網(wǎng)絡(luò)
注意力機(jī)制是將計(jì)算機(jī)聚焦于局部顯著信息的機(jī)制,隨著執(zhí)行任務(wù)的變化,注意力區(qū)域一般會(huì)發(fā)生一定的變化,其本質(zhì)是消除無用信息的影響,快速標(biāo)記相應(yīng)任務(wù)的感興趣區(qū)域,通常以概率圖或者概率特征向量的方式實(shí)現(xiàn)。常用的注意力機(jī)制包含通道注意力[14]與空間注意力機(jī)制[15-16]。
1)通道注意力機(jī)制
通道注意力機(jī)制主要是以通道全局特征為基準(zhǔn)獲取特征圖通道間的權(quán)重值[17],以自適應(yīng)調(diào)整各個(gè)通道特征響應(yīng)值,實(shí)現(xiàn)了在多通道進(jìn)行特征注意力結(jié)合,通道注意力機(jī)制的一般網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 通道注意力模塊圖示
通道注意力首先對(duì)長寬以及通道數(shù)為H1×W1×C1的輸入X進(jìn)行特征提取,來獲取U,再使用全局平均池化方式生成1×1×C大小的通道信息統(tǒng)計(jì)映射描述符,如式(1)所示:
式中,H與W分別為輸入特征圖的長寬,U(i,j)為特征圖每一點(diǎn)的像素,獲取的通道信息統(tǒng)計(jì)映射描述符,再進(jìn)行Sigmoid 門限機(jī)制進(jìn)行權(quán)重映射,使其權(quán)重映射在區(qū)間(0,1)中,如式(2)所示:
F(out)為映射后的通道權(quán)重值,最后將權(quán)重F(out)與輸入特征圖在對(duì)應(yīng)的每個(gè)通道上進(jìn)行乘積,獲取通道注意力特征視圖,如式(3)所示:
式中,Xm為獲取的最終通道注意力特征圖,F(xiàn)scle為對(duì)權(quán)重與特征圖通道的乘積操作。
2)空間注意力機(jī)制
空間注意力機(jī)制是給每個(gè)像素計(jì)算注意力采納數(shù),以實(shí)現(xiàn)全圖范圍的特征提取,從而有效地彌補(bǔ)了卷積操作因感受野有限導(dǎo)致的全局特征提取能力不足問題,其一般流程如圖3 所示。
圖3 空間注意力模塊圖示
首先,對(duì)圖像生成P1,如式(4)所示:
式中,F(xiàn)avg與Fmax分別對(duì)應(yīng)平均池化與最大池化操作,將Favg與Fmax進(jìn)行連接生成P1,并通過7×7 的卷積層進(jìn)行卷積操作,生成特征圖Conv1,最后通過Sig(sigmoid)函數(shù)生成空間注意力圖,具體的計(jì)算公式如式(5)所示:
式中,F(xiàn)out為空間注意力圖,f7×7為7×7 的卷積操作,以擴(kuò)大感受野。該文將空間注意力機(jī)制與HRNet 網(wǎng)絡(luò)進(jìn)行融合,以提取多維度的圖像特征,實(shí)現(xiàn)高精度的姿態(tài)估計(jì)方法。
實(shí)驗(yàn)選擇了HRNet、DeepPose 作為對(duì)比實(shí)驗(yàn)方法,開展實(shí)驗(yàn)驗(yàn)證,并且對(duì)該文提出的基于注意力機(jī)制的深度學(xué)習(xí)姿態(tài)估計(jì)方法從姿態(tài)估計(jì)精度AP(Average Precision)以及姿態(tài)估計(jì)速度(張/s)方面進(jìn)行對(duì)比評(píng)價(jià),其中AP 即為檢測(cè)效果與真實(shí)姿態(tài)輪廓的比值。
實(shí)驗(yàn)過程選擇了統(tǒng)一的實(shí)驗(yàn)環(huán)境,其軟硬件實(shí)驗(yàn)配置如表1 所示。
表1 實(shí)驗(yàn)環(huán)境配置表
實(shí)驗(yàn)選擇了1 200 張不同的體育運(yùn)動(dòng)人體姿態(tài)圖作為數(shù)據(jù)集,其中1 100 張作為訓(xùn)練集,其余200張姿態(tài)圖像作為測(cè)試集,其中部分體育運(yùn)動(dòng)人體姿態(tài)圖如圖4 所示。
圖4 實(shí)驗(yàn)數(shù)據(jù)圖像
分別基于HRNet、DeepPose 以及該文提出的結(jié)合空間注意力機(jī)制的深度學(xué)習(xí)姿態(tài)估計(jì)方法對(duì)部分樣例進(jìn)行姿態(tài)估計(jì)測(cè)試,可得到如圖5 所示的結(jié)果圖像。
圖5 基于不同方法獲取的實(shí)驗(yàn)結(jié)果圖像
對(duì)實(shí)驗(yàn)結(jié)果數(shù)據(jù)基于姿態(tài)檢測(cè)精度以及姿態(tài)估計(jì)速度進(jìn)行統(tǒng)計(jì),如表2 所示。
表2 姿態(tài)估計(jì)結(jié)果數(shù)據(jù)對(duì)比
基于圖5 中實(shí)驗(yàn)數(shù)據(jù)進(jìn)行主觀對(duì)比分析,可以看出,該文提出的基于注意力機(jī)制的深度學(xué)習(xí)姿態(tài)估計(jì)方法對(duì)于運(yùn)動(dòng)人體的姿態(tài)輪廓估計(jì)更加連續(xù),也比較細(xì)致;也充分驗(yàn)證了該文提出的基于注意力機(jī)制的深度學(xué)習(xí)姿態(tài)估計(jì)方法的可行性。
結(jié)合表2 中的姿態(tài)估計(jì)結(jié)果數(shù)據(jù)對(duì)比數(shù)據(jù)進(jìn)行客觀分析可知,該文提出的基于注意力機(jī)制的深度學(xué)習(xí)姿態(tài)估計(jì)方法與經(jīng)典的HRNet 與DeepPose 方法相比較,姿態(tài)估計(jì)精度最高,雖然該方法增加了注意力機(jī)制模塊而提升了參數(shù)量,造成了姿態(tài)估計(jì)速度低于HRNet 方法,但仍然具備較高的姿態(tài)估計(jì)效率。
綜上所述,該文提出的基于注意力機(jī)制的深度學(xué)習(xí)姿態(tài)估計(jì)方法充分結(jié)合注意力機(jī)制提取的有效姿態(tài)特征,實(shí)現(xiàn)了較高的姿態(tài)估計(jì)精度,與其他兩種方法相比較,具備較好的姿態(tài)估計(jì)效果。
該文針對(duì)現(xiàn)有的基于深度學(xué)習(xí)的姿態(tài)估計(jì)問題,提出了一種基于注意力機(jī)制的深度學(xué)習(xí)姿態(tài)估計(jì)方法,該技術(shù)充分結(jié)合注意力機(jī)制的優(yōu)勢(shì),嵌入至HRNet 網(wǎng)絡(luò)內(nèi)部,在多分辨率特征傳輸過程中進(jìn)行了交叉空間注意力特征提取,結(jié)合網(wǎng)絡(luò)上下層信息,實(shí)現(xiàn)了高精度的姿態(tài)估計(jì)方法,并通過一系列對(duì)比體育運(yùn)動(dòng)姿態(tài)提取實(shí)驗(yàn)驗(yàn)證,充分驗(yàn)證了該文提出的基于注意力機(jī)制的深度學(xué)習(xí)姿態(tài)估計(jì)方法的有效性。
接下來的研究工作將著重于對(duì)姿態(tài)估計(jì)特征的深層次提取,結(jié)合Transform 模型結(jié)構(gòu),實(shí)現(xiàn)基于注意力機(jī)制的深層次姿態(tài)估計(jì)策略。