亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合權(quán)重自適應(yīng)損失和注意力的人體姿態(tài)估計(jì)

        2023-09-25 08:57:00江春靈姚壯澤
        關(guān)鍵詞:力圖關(guān)鍵點(diǎn)姿態(tài)

        江春靈,曾 碧,姚壯澤,鄧 斌

        廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006

        人體姿態(tài)估計(jì)一直是計(jì)算機(jī)視覺(jué)中一個(gè)基本但具有挑戰(zhàn)性的問(wèn)題,其目標(biāo)是定位圖像中所有人的關(guān)鍵點(diǎn)(例如,肘部、手腕、膝蓋等)。人體姿態(tài)估計(jì)廣泛應(yīng)用于動(dòng)作識(shí)別[1-4]、人機(jī)交互以及動(dòng)畫(huà)制作等領(lǐng)域。

        在深度學(xué)習(xí)迅速發(fā)展的情況下,基于深度卷積神經(jīng)網(wǎng)絡(luò)[5]的人體姿態(tài)估計(jì)方法已經(jīng)取代傳統(tǒng)的圖結(jié)構(gòu)模型算法成為主流的人體姿態(tài)估計(jì)方法。2016年Newell等[6]使用堆疊沙漏網(wǎng)絡(luò)進(jìn)行熱力圖預(yù)測(cè)和分組,但堆疊的沙漏網(wǎng)絡(luò)會(huì)導(dǎo)致大量的有效信息在不斷地上下采樣過(guò)程中丟失。SimpleBaseline[7]使用反卷積操作代替上采樣,在一定程度上緩解了這一點(diǎn),提升了人體姿態(tài)估計(jì)的精度,但沒(méi)有本質(zhì)上解決這個(gè)問(wèn)題。2017年OpenPose[8]提出一個(gè)雙分支、多階段的網(wǎng)絡(luò)結(jié)構(gòu),其中一個(gè)分支用于熱力圖預(yù)測(cè),一個(gè)分支用于分組。同時(shí)OpenPose 提出一種部件親和向量場(chǎng)(part affinity fields,PAFs)的分組方法,該方法學(xué)習(xí)連接兩個(gè)關(guān)鍵點(diǎn)之間的二維向量場(chǎng),通過(guò)計(jì)算兩個(gè)關(guān)鍵點(diǎn)之間的線積分,并對(duì)具有最大積分的一對(duì)關(guān)鍵點(diǎn)進(jìn)行分組,但分組效率有所降低。2018年P(guān)ersonLab[9]使用深度殘差網(wǎng)絡(luò)[10]并通過(guò)直接學(xué)習(xí)每對(duì)關(guān)鍵點(diǎn)的二維偏移場(chǎng)來(lái)對(duì)關(guān)鍵點(diǎn)進(jìn)行分組。2019 年Sun 等[11]提出高分辨率網(wǎng)絡(luò)HRNet,在始終保留高分辨率分支的同時(shí)采用并聯(lián)的方式將不同分辨率子網(wǎng)并行連接進(jìn)行多尺度特征融合,充分利用不同尺度下的特征信息。2020 年Cheng 等[12]在HRNet 的基礎(chǔ)上提出HigherHRNet,通過(guò)在HRNet 的末端加入反卷積模塊,進(jìn)一步提高特征圖的分辨率,同時(shí)聚合不同尺度下的熱力圖進(jìn)行推理,進(jìn)一步提高了預(yù)測(cè)的準(zhǔn)確性,但并未解決前后背景不平衡的問(wèn)題。2021 年Luo 等[13]在HigherHRNet的基礎(chǔ)上增加一個(gè)尺度感知分支,通過(guò)自適應(yīng)調(diào)節(jié)每個(gè)關(guān)鍵點(diǎn)的標(biāo)準(zhǔn)差,增加模型在人體尺度差異和標(biāo)注歧義問(wèn)題上的魯棒性。同年Geng等[14]提出解構(gòu)式人體關(guān)鍵點(diǎn)回歸(disentangled keypoint regression,DEKR),使用自適應(yīng)卷積和多分支結(jié)構(gòu),使模型專(zhuān)注于關(guān)鍵點(diǎn)區(qū)域的表示,直接回歸關(guān)鍵點(diǎn)的位置,但未充分利用高分辨率網(wǎng)絡(luò)豐富的通道及空間信息。

        由于在自底向上的人體姿態(tài)估計(jì)方法中存在前景和背景樣本之間不平衡的問(wèn)題,同時(shí)人體姿態(tài)估計(jì)方法主要采取的高分辨率網(wǎng)絡(luò)在特征提取和特征融合時(shí)不能有效獲得通道信息和空間位置信息。本文以HigherHRNet為基礎(chǔ),提出了一個(gè)融合權(quán)重自適應(yīng)和注意力的自底向上人體姿態(tài)估計(jì)網(wǎng)絡(luò)。主要貢獻(xiàn)如下:(1)提出一種權(quán)重自適應(yīng)損失函數(shù),解決前景和背景樣本之間不平衡的問(wèn)題。(2)設(shè)計(jì)高效全局自注意力模塊,充分利用高分辨率網(wǎng)絡(luò)的通道和空間信息。(3)引入熱力圖分布調(diào)制模塊,解決熱力圖在最大激活值附近出現(xiàn)多個(gè)峰值的問(wèn)題,提高熱力圖解碼出關(guān)鍵點(diǎn)位置的準(zhǔn)確性。(4)算法在公開(kāi)數(shù)據(jù)集COCO[15]數(shù)據(jù)集上進(jìn)行驗(yàn)證,平均準(zhǔn)確率為72.3%,優(yōu)于其他自底向上人體姿態(tài)估計(jì)主流算法。

        1 相關(guān)工作

        1.1 多人人體姿態(tài)估計(jì)

        目前主流的多人人體姿態(tài)估計(jì)方法可以分為兩類(lèi):自頂向下(Top-down)人體姿態(tài)估計(jì)和自底向上(Bottom-up)人體姿態(tài)估計(jì)。

        自頂向下的人體姿態(tài)估計(jì)算法主要包含兩個(gè)部分,人體檢測(cè)和單人人體關(guān)鍵點(diǎn)檢測(cè):首先通過(guò)目標(biāo)檢測(cè)算法將每一個(gè)人檢測(cè)出來(lái),然后在人體提議框的基礎(chǔ)上做單人人體關(guān)鍵點(diǎn)檢測(cè)。谷歌提出的G_RMI[16]采用fasterrcnn[17]作為人體檢測(cè)器,通過(guò)ResNet[18]預(yù)測(cè)每個(gè)關(guān)鍵點(diǎn)的熱力圖以及偏移量,將熱力圖以及偏移量進(jìn)行融合來(lái)獲得關(guān)鍵點(diǎn)的定位。Huang等[19]則是提出一種無(wú)偏估計(jì)的方法,將熱力圖的最大值對(duì)應(yīng)的坐標(biāo)加上偏移量得到關(guān)鍵點(diǎn)的坐標(biāo)。Alphapose[20]從人體檢測(cè)器的人體提議框的優(yōu)化角度出發(fā),添加一個(gè)對(duì)稱(chēng)空間轉(zhuǎn)換網(wǎng)絡(luò)分支,在不精準(zhǔn)的區(qū)域框中提取到高質(zhì)量的人體區(qū)域。同時(shí)采用參數(shù)化姿態(tài)非極大值抑制,消除冗余的姿態(tài)。由于自頂向下的方法可以通過(guò)裁剪和調(diào)整被檢測(cè)到的人體邊界框,將所有人標(biāo)準(zhǔn)化為近似相同的尺度,它們通常對(duì)人體的尺度不敏感。因此,在各種多人人體姿態(tài)估計(jì)基準(zhǔn)上的最佳成績(jī)大多是通過(guò)自頂向下的方法來(lái)實(shí)現(xiàn)的。

        相比之下,自底向上人體姿態(tài)估計(jì)通過(guò)預(yù)測(cè)不同人體關(guān)鍵點(diǎn)的熱力圖,定位圖像中所有人的無(wú)身份關(guān)鍵點(diǎn),然后將它們分組到不同的人體實(shí)例中。早期的自底向上人體姿態(tài)估計(jì)方法DeepCut[21]先檢測(cè)出圖像中所有的關(guān)鍵點(diǎn),將每個(gè)關(guān)鍵點(diǎn)作為一個(gè)圖節(jié)點(diǎn),關(guān)鍵點(diǎn)之間的關(guān)聯(lián)性作為節(jié)點(diǎn)之間的權(quán)重,形成密集連接圖。最后根據(jù)整體線性規(guī)劃,將屬于同一個(gè)人的關(guān)鍵點(diǎn)關(guān)聯(lián)起來(lái)。Openpose[8]則是提出部件親和向量場(chǎng),利用關(guān)鍵點(diǎn)之間的向量點(diǎn)乘的值關(guān)聯(lián)兩個(gè)關(guān)鍵點(diǎn),根據(jù)匈牙利算法進(jìn)行匹配。Newell[6]提出關(guān)聯(lián)嵌入[22](associate embedding)的方法來(lái)進(jìn)行關(guān)鍵點(diǎn)分組,該方法為每個(gè)關(guān)鍵點(diǎn)分配一個(gè)標(biāo)簽(一個(gè)向量表示),并根據(jù)標(biāo)簽向量之間的L2 距離對(duì)關(guān)鍵點(diǎn)進(jìn)行分組。自底向上的方法一次性檢測(cè)圖像中所有的人體關(guān)鍵點(diǎn),只需對(duì)整體圖像特征提取一次,即使人體數(shù)目增加也不會(huì)導(dǎo)致重復(fù)的卷積操作,因此這類(lèi)方法往往效率更高。

        1.2 高分辨率網(wǎng)絡(luò)

        計(jì)算機(jī)視覺(jué)領(lǐng)域有很多任務(wù)是位置敏感的,比如目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割等。為了這些任務(wù)位置信息更加精準(zhǔn),很容易想到的做法就是維持高分辨率的特征圖,HRNet[11]之前幾乎所有的網(wǎng)絡(luò)都是這么做的,通過(guò)下采樣得到強(qiáng)語(yǔ)義信息,然后再上采樣恢復(fù)高分辨率以恢復(fù)位置信息,然而這種做法,會(huì)導(dǎo)致大量的有效信息在不斷地上下采樣過(guò)程中丟失。而HRNet 通過(guò)并行多個(gè)分辨率的分支,加上不斷進(jìn)行不同分支之間的信息交互,同時(shí)達(dá)到獲取強(qiáng)語(yǔ)義信息和精準(zhǔn)位置信息的目的。HigherHRNet[12]在HRNet 的末端加入反卷積模塊,得到1/2初始大小的特征圖,同時(shí)在推理過(guò)程中聚合1/2和1/4特征分支的熱力圖,解決自下而上的多人姿態(tài)估計(jì)中的尺度變化挑戰(zhàn),并更精確地定位關(guān)鍵點(diǎn)。因此本文采用HigherHRNet作為基礎(chǔ)框架。

        HRNet網(wǎng)絡(luò)結(jié)構(gòu)總體分為4個(gè)階段,第一階段由一個(gè)高分辨率子網(wǎng)構(gòu)成,第二階段至第四階段分別在前一個(gè)階段的基礎(chǔ)上增加一個(gè)子網(wǎng),新增的子網(wǎng)分辨率為上一階段最低分辨率的一半,通道數(shù)為原來(lái)的兩倍。將每一階段的多分辨率子網(wǎng)以并行的方式進(jìn)行連接,各階段之間通過(guò)多尺度特征融合來(lái)交換信息。根據(jù)基礎(chǔ)通道數(shù)的不同,HRNet分為HRNet-w32和HRNet-w48。

        1.3 注意力機(jī)制

        注意力機(jī)制的本質(zhì)是通過(guò)學(xué)習(xí)卷積特征得到一組權(quán)重系數(shù),通過(guò)給重要信息分配高權(quán)重使網(wǎng)絡(luò)更加關(guān)注重要的信息,從而提高網(wǎng)絡(luò)的性能。

        2015 年Jaderberg 等[23]提出STN(spatial transformer networks)空間注意力模塊,在特征圖層面上實(shí)現(xiàn)全局的縮放、旋轉(zhuǎn)等變換,從而使網(wǎng)絡(luò)具有縮放、旋轉(zhuǎn)等空間變換不變性。2018 年Hu 等[24]提出SE(squeeze-andexcitation)通道注意力模塊,通過(guò)壓縮和激勵(lì)構(gòu)建通道間的關(guān)系。同年Woo等[25]提出CBAM(convolutional block attention module)模塊,同時(shí)融合空間注意力和通道注意力,特征圖將得到通道和空間維度上的注意力權(quán)重,自適應(yīng)細(xì)化特征。2020年Wang等[26]提出ECA(efficient channel attention)模塊,提出了一種不降維的局部跨通道交互策略,有效避免了降維對(duì)于通道注意力學(xué)習(xí)效果的影響,在保持性能的同時(shí)顯著降低模型的復(fù)雜性。

        2 本文算法

        本文提出的WA-HRNet網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖1所示。首先將圖像輸入特征提取網(wǎng)絡(luò),分別得到關(guān)鍵點(diǎn)熱力圖和標(biāo)簽值熱力圖。在訓(xùn)練階段,根據(jù)預(yù)測(cè)的關(guān)鍵點(diǎn)熱力圖與真值熱力圖計(jì)算權(quán)重自適應(yīng)損失,根據(jù)預(yù)測(cè)的標(biāo)簽值熱力圖計(jì)算分組損失。在測(cè)試階段,將預(yù)測(cè)的關(guān)鍵點(diǎn)熱力圖輸入熱力圖分布調(diào)制模塊,將調(diào)制后的熱力圖進(jìn)行解碼得到所有關(guān)鍵點(diǎn)的位置信息。然后根據(jù)關(guān)鍵點(diǎn)的位置信息在預(yù)測(cè)的標(biāo)簽值熱力圖中找到關(guān)鍵點(diǎn)對(duì)應(yīng)的標(biāo)簽值。最后根據(jù)標(biāo)簽值將關(guān)鍵點(diǎn)進(jìn)行聚類(lèi),將它們分組到不同的人體實(shí)例中。

        圖1 整體框架Fig.1 Overall framework

        特征提取網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖2所示,在HRNet的末端加入注意力模塊,同時(shí)在訓(xùn)練階段引入多分辨率監(jiān)督,生成具有不同分辨率的真值熱力圖以便計(jì)算不同分辨率下預(yù)測(cè)熱力圖的損失。在推理階段,使用熱力圖聚合推理,對(duì)所有尺度的預(yù)測(cè)熱力圖進(jìn)行平均處理以得到最后的預(yù)測(cè)。

        圖2 特征提取網(wǎng)絡(luò)Fig.2 Feature extraction network

        2.1 權(quán)重自適應(yīng)損失函數(shù)

        在自底向上的人體姿態(tài)估計(jì)方法中,存在前景和背景樣本不平衡的問(wèn)題,可能會(huì)使得模型更傾向于過(guò)擬合背景樣本。Lin等[27]提出Focal Loss用于緩解分類(lèi)任務(wù)中正負(fù)樣本嚴(yán)重不平衡的問(wèn)題。受此啟發(fā),本文提出針對(duì)熱力圖的權(quán)重自適應(yīng)損失函數(shù)。

        在基于熱力圖的人體姿態(tài)估計(jì)方法中,熱力圖的損失函數(shù)如公式(1)所示:

        式中,P為預(yù)測(cè)熱力圖,H為真值熱力圖,為了解決樣本間不平衡的問(wèn)題,給原始的L2 損失直接添加一個(gè)權(quán)重W,如公式(2)所示:

        其中,W可以定義為公式(3)所示:

        式中,{k,i,j}代表熱力圖P中的像素位置。然而在熱力圖中,像素的值是連續(xù)的而非離散的0或1,因此很難區(qū)分正負(fù)樣本。為此提出權(quán)重自適應(yīng)損失函數(shù),損失函數(shù)的權(quán)重W定義如公式(4)所示:

        其中,τ是控制軟邊界的超參數(shù),‖ ‖? 為絕對(duì)值函數(shù)。區(qū)分正負(fù)樣本的軟邊界表示為真值熱力圖的閾值h,定義為1-hτ=hτ。基于熱力圖的人體姿態(tài)估計(jì)方法通過(guò)以人體關(guān)鍵點(diǎn)作為中心位置,利用高斯函數(shù)生成真值熱力圖,越接近人體關(guān)鍵點(diǎn)的位置,真值熱力圖的值越接近1。在本文的權(quán)重自適應(yīng)損失函數(shù)中,對(duì)于真值熱力圖值越大于閾值h的樣本,Hτ的值越接近1,則樣本權(quán)重更接近正樣本(1-P),使得模型更加關(guān)注人體關(guān)鍵點(diǎn)的中心區(qū)域。反之對(duì)于真值熱力圖值越小于h的樣本,Hτ的值越接近0,則樣本權(quán)重更接近負(fù)樣本P,模型對(duì)其關(guān)注度更低。模型通過(guò)自適應(yīng)調(diào)節(jié)樣本的權(quán)重,使得模型更關(guān)注關(guān)鍵點(diǎn)周?chē)鷧^(qū)域,也就是前景區(qū)域,從而緩解前景和背景樣本不平衡的問(wèn)題。在實(shí)驗(yàn)中,使用τ=0.01。

        2.2 高效全局注意力模塊

        為了充分利用高分辨率網(wǎng)絡(luò)的通道和空間信息,受CCNet[28]和Coord attention[29]的啟發(fā),本文提出一種高效的全局注意力模塊,如圖3所示。既能獲取通道之間的依賴(lài)也能很好地建模位置信息和遠(yuǎn)距離依賴(lài),獲取豐富的上下文信息。

        圖3 注意力模塊Fig.3 Attention module

        對(duì)于輸入的特征圖F∈?C×W×H,首先利用兩個(gè)具有1×1 濾波器的卷積層生成兩個(gè)特征圖Q、K。其中{Q,K}∈?C′×W×H,為了對(duì)通道進(jìn)行降維,減少計(jì)算量,使得C′小于C。得到特征圖Q和K后,通過(guò)Affinity操作進(jìn)一步生成特征圖A∈?(H+W-1)×W×H。在特征圖Q的空間維度上的每個(gè)位置u,可以獲得一個(gè)向量Qu∈?C′。同時(shí),也可以通過(guò)從K中提取與u位置相同的行或列的特征向量來(lái)獲得集合Ωu∈?(H+W-1)×C′。Ωi,u∈?C′表示Ωu中的第i個(gè)元素。Affinity 操作如公式(5)所示:

        其中,di,u∈D代表特征Qu和Ωi,u之間的關(guān)聯(lián)程度,然后對(duì)D在通道維度上進(jìn)行softmax操作計(jì)算出特征圖A。

        同時(shí)對(duì)特征圖F利用另一個(gè)具有1×1 濾波器的卷積層生成特征圖V∈?C×W×H用于特征適應(yīng)。在特征圖V的空間維度上的每個(gè)位置u,可以獲得一個(gè)向量Vu∈?C和集合Φu∈?(H+W-1)×C。集合Φu是特征圖V中與u位置相同的行或列的特征向量的集合。然后通過(guò)Aggregation 操作來(lái)獲取上下文信息,如公式(6)所示:

        然后對(duì)特征圖F′,分別使用尺寸為(H,1)和(1,W)的池化核沿著水平坐標(biāo)方向和垂直坐標(biāo)方向?qū)γ總€(gè)通道進(jìn)行編碼。因此,第c個(gè)通道在高度為h處的表示如公式(7)所示:

        上述兩種轉(zhuǎn)換分別沿兩個(gè)空間方向聚集特征,產(chǎn)生一對(duì)方向感知的特征圖。這兩種轉(zhuǎn)換也使注意力塊能夠沿一個(gè)空間方向捕捉長(zhǎng)距離的依賴(lài)性,并沿另一個(gè)空間方向保留精確的位置信息。這有助于網(wǎng)絡(luò)更準(zhǔn)確地定位物體感興趣的對(duì)象。

        然后連接公式(7)和公式(8)中生成的兩個(gè)特征圖,再使用共享的1×1卷積變換函數(shù)F1生成f,如公式(9)所示:

        其中,[?,?]代表沿著空間維度的連接操作,δ為非線性激活函數(shù),f∈?C/r×(H+W)是在水平方向和垂直方向上編碼空間信息的中間特征圖,r表示下采樣的比例。

        然后將f沿著空間維度切分為兩個(gè)單獨(dú)的張量f h∈?C/r×H和f w∈?C/r×W,利用兩個(gè)1×1卷積變換函數(shù)Fh和Fw分別將f h和f w變換到和F′一樣通道數(shù)的張量,如下式所示:

        將輸出的gh和gw分別拓展作為注意力權(quán)重,最后輸出的特征圖F′如公式(12)所示:

        綜上本文所設(shè)計(jì)的注意力模塊可以獲取豐富的上下文信息,獲得空間方向的遠(yuǎn)距離依賴(lài),同時(shí)可更準(zhǔn)確地定位感興趣對(duì)象的確切位置。

        2.3 熱力圖分布調(diào)制

        在訓(xùn)練過(guò)程中,通過(guò)關(guān)鍵點(diǎn)坐標(biāo)生成對(duì)應(yīng)的真值熱力圖用來(lái)監(jiān)督模型預(yù)測(cè)的熱力圖。假設(shè)代表第p個(gè)人第k個(gè)關(guān)鍵點(diǎn)的坐標(biāo),hp代表與其相關(guān)的真值熱力圖,如公式(13)所示:

        “除了劃定常年禁漁區(qū)外,從今年開(kāi)始,我們還將全縣84條河流列入季節(jié)性禁漁區(qū),千島湖全域均實(shí)現(xiàn)了禁漁?!贝景部h漁政局局長(zhǎng)吳福建說(shuō)。

        其中,{k,i,j}代表hp中的像素位置,σ為高斯函數(shù)的標(biāo)準(zhǔn)差。

        然而與真值熱力圖數(shù)據(jù)相比,人體姿態(tài)估計(jì)模型預(yù)測(cè)的熱力圖并沒(méi)有表現(xiàn)出良好的高斯結(jié)構(gòu),預(yù)測(cè)的熱力圖存在多個(gè)峰值的情況,可能會(huì)影響熱力圖解碼的性能。為了解決這個(gè)問(wèn)題,根據(jù)DARK[30](distribution-aware coordinate representation of keypoint),本文引入熱力圖分布調(diào)制來(lái)改善預(yù)測(cè)熱力圖。

        利用與訓(xùn)練數(shù)據(jù)相同的高斯核G來(lái)平滑熱力圖中多個(gè)峰值的影響,如公式(14)所示:

        其中,?表示卷積操作,p表示初始預(yù)測(cè)熱力圖。

        為了保持原始熱力圖的大小,對(duì)p′進(jìn)行縮放,使其最大激活值與p相等,轉(zhuǎn)換如公式(15)所示:

        在消融實(shí)驗(yàn)中驗(yàn)證了熱力圖分布調(diào)制進(jìn)一步提高了熱力圖解碼的性能。

        2.4 人體關(guān)鍵點(diǎn)分組

        在本文中采用關(guān)聯(lián)嵌入[22]的方法將圖像中所有人的無(wú)身份關(guān)鍵點(diǎn)分組到不同的人體實(shí)例中。其采用類(lèi)內(nèi)最小,類(lèi)間最大的思想,即同一個(gè)人的所有關(guān)鍵點(diǎn)的標(biāo)簽值的間距越小越好,而不同人的關(guān)鍵點(diǎn)之間的標(biāo)簽值差距越大越好。

        具體來(lái)說(shuō),設(shè)tk=?W×H代表預(yù)測(cè)的第k個(gè)關(guān)鍵點(diǎn)的標(biāo)簽值熱力圖,t(x)是像素x處的標(biāo)簽值。對(duì)于給定的N個(gè)人,其真實(shí)關(guān)鍵點(diǎn)坐標(biāo)為S={(xnk)},n=1,2,…,N,k=1,2,…,K,其中xnk代表第n個(gè)人的第k個(gè)關(guān)鍵點(diǎn)的真實(shí)像素位置。假設(shè)所有的K個(gè)關(guān)鍵點(diǎn)都被標(biāo)注了,第n個(gè)人的參考標(biāo)簽值如公式(16)所示:

        則分組損失定義如公式(17)所示:

        其中,第一項(xiàng)表示第n個(gè)人的所有關(guān)鍵點(diǎn)標(biāo)簽值與其參考標(biāo)簽值之間的損失,第二項(xiàng)表示第n個(gè)人的參考標(biāo)簽值與其他人參考標(biāo)簽值之間的損失。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)環(huán)境及設(shè)置

        本文實(shí)驗(yàn)使用Python 語(yǔ)言,基于Pytorch 框架實(shí)現(xiàn)。CPU為i9-9900x,顯卡為NVIDIA GTX 2080ti。

        本文算法使用在ImageNet[31]上預(yù)訓(xùn)練的HigherHRNet網(wǎng)絡(luò)作為backbone,使用Adam[32]優(yōu)化器對(duì)模型進(jìn)行優(yōu)化,初始學(xué)習(xí)率為0.001 2,動(dòng)量為0.9,模型訓(xùn)練360 個(gè)epoch。

        本文通過(guò)隨機(jī)翻轉(zhuǎn)([-30°,30°]),隨機(jī)縮放([0.75,1.25]),隨機(jī)平移([-40,40])和隨機(jī)水平翻轉(zhuǎn)來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)。

        3.2 數(shù)據(jù)集介紹

        本文模型分別在COCO數(shù)據(jù)集和Crowdpose[33]數(shù)據(jù)集上進(jìn)行驗(yàn)證。COCO 數(shù)據(jù)集包含超過(guò)20萬(wàn)張圖片和25 萬(wàn)個(gè)人體實(shí)例,每個(gè)人體實(shí)例標(biāo)注17 個(gè)關(guān)鍵點(diǎn)。將COCO數(shù)據(jù)集中5.7萬(wàn)張圖片用于訓(xùn)練,0.5萬(wàn)張圖片用于驗(yàn)證,2萬(wàn)張圖片用于測(cè)試。

        CrowdPose 數(shù)據(jù)集由2 萬(wàn)張照片組成,包含8 萬(wàn)個(gè)人體實(shí)例,每個(gè)人體實(shí)例標(biāo)注14 個(gè)關(guān)鍵點(diǎn),根據(jù)5∶1∶4的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。相比于COCO數(shù)據(jù)集,CrowdPose 數(shù)據(jù)集有更多的擁擠場(chǎng)景,對(duì)多人人體姿態(tài)估計(jì)模型更具有挑戰(zhàn)性。

        3.3 評(píng)價(jià)指標(biāo)

        COCO數(shù)據(jù)集采用官方的目標(biāo)關(guān)鍵點(diǎn)相似性(object keypoint similarity,OKS)作為評(píng)價(jià)標(biāo)準(zhǔn)。其中包括AP(在OKS=0.50,0.55,…,0.90,0.95 時(shí)關(guān)鍵點(diǎn)預(yù)測(cè)的平均準(zhǔn)確率)、AP50(OKS=0.5 時(shí)的準(zhǔn)確率)、AP75(OKS=0.75時(shí)的準(zhǔn)確率)、APM(中型目標(biāo)的檢測(cè)準(zhǔn)確率)、APL(大型目標(biāo)的檢測(cè)準(zhǔn)確率)。OKS的定義如公式(18)所示:

        其中,di檢測(cè)到的關(guān)鍵點(diǎn)與其對(duì)應(yīng)的真值之間的歐氏距離,vi是真值的可見(jiàn)性標(biāo)志位,s表示目標(biāo)的尺度因子,ki是控制衰減的常量。

        CrowdPose數(shù)據(jù)集也是采用OKS作為評(píng)價(jià)標(biāo)準(zhǔn),相比于COCO數(shù)據(jù)集增加了APE(簡(jiǎn)單樣本的檢測(cè)準(zhǔn)確率)、APM(中等難度樣本的檢測(cè)準(zhǔn)確率)和APH(困難樣本的檢測(cè)準(zhǔn)確率)作為評(píng)價(jià)指標(biāo)。

        3.4 實(shí)驗(yàn)驗(yàn)證與分析

        本文方法與一些先進(jìn)的人體姿態(tài)估計(jì)方法分別在COCO數(shù)據(jù)集和CrowdPose數(shù)據(jù)集上進(jìn)行了比較。

        首先與一些先進(jìn)的自底向上人體姿態(tài)估計(jì)方法在COCO測(cè)試集上進(jìn)行比較,結(jié)果如表1所示。通過(guò)結(jié)果可以看到,不管是在單尺度測(cè)試還是多尺度測(cè)試上,WA-HRNet 都取得了最好的結(jié)果。在使用HRNet-W48作為backbone,多尺度測(cè)試的情況下可以在COCO 測(cè)試集上AP 值達(dá)到72.3%。與基線HigherHRNet 相比,WA-HRNet只增加了少量計(jì)算成本,且在不同backbone和輸入尺寸的情況下都能取得穩(wěn)定的提升。

        表1 COCO測(cè)試集實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Experimental result comparison on COCO test-dev set

        同時(shí)與一些先進(jìn)的自頂向下人體姿態(tài)估計(jì)方法進(jìn)行了比較,結(jié)果如表2 所示。WA-HRNet 已經(jīng)超過(guò)了很多自頂向下方法,進(jìn)一步減小了自底向上和自頂向下人體姿態(tài)估計(jì)方法之間的差距。

        表2 COCO測(cè)試集結(jié)果Table 2 Result on COCO test-dev set

        表3為WA-HRNet 與其他先進(jìn)的人體姿態(tài)估計(jì)方法在CrowdPose 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比。在密集場(chǎng)景下,自頂向下人體姿態(tài)估計(jì)方法[20,34]失去了優(yōu)勢(shì)。這是因?yàn)樽皂斚蛳碌姆椒俣ㄋ械娜硕寄鼙蝗梭w檢測(cè)器完全捕獲,并且每個(gè)檢測(cè)框只包含一個(gè)人。然而,這一假設(shè)在密集場(chǎng)景中并不成立,在密集人群中,人通常是嚴(yán)重重疊的。相比之下,自底向上人體姿態(tài)估計(jì)方法不依賴(lài)于人體檢測(cè)器,在處理密集場(chǎng)景時(shí)可能會(huì)更好。在使用HRNet-W48 作為backbone,多尺度測(cè)試的情況下在CrowdPose 測(cè)試集上的AP 值達(dá)到73.4%。與基線HigherHRNet 相比,WA-HRNet 的AP 值提升了5.8 個(gè)百分點(diǎn)。

        表3 CrowdPose測(cè)試集結(jié)果Table 3 Result on CrowdPose test set

        3.5 消融實(shí)驗(yàn)

        為了驗(yàn)證本文算法各個(gè)模塊的有效性,對(duì)本文模塊進(jìn)行消融實(shí)驗(yàn)。圖4 展示了引入權(quán)重自適應(yīng)損失函數(shù)以及高效全局注意力模塊后熱力圖的可視化結(jié)果對(duì)比,結(jié)果表明引入權(quán)重自適應(yīng)損失函數(shù)和高效全局注意力模塊后,模型生成的熱力圖更加關(guān)注于關(guān)鍵點(diǎn)的中心區(qū)域。表4顯示了各個(gè)模塊在COCO驗(yàn)證集上的結(jié)果,消融實(shí)驗(yàn)均采用HRNet-W32 作為backbone。實(shí)驗(yàn)表明,WA-HRNet 的各個(gè)模塊都能有效提升人體姿態(tài)估計(jì)的準(zhǔn)確率。使用權(quán)重自適應(yīng)損失函數(shù)比基線AP值提升了1.6個(gè)百分點(diǎn),融合權(quán)重自適應(yīng)和注意力比基線AP值提升了2.1 個(gè)百分點(diǎn),加上熱力圖分布調(diào)制后的最終效果比基線AP值提升了2.3個(gè)百分點(diǎn)。

        表4 消融實(shí)驗(yàn)Table 4 Ablation experiment

        3.6 注意力模塊對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證本文注意力模塊的高效性,表5顯示了引入本文注意力模塊和主流的SE、ECA 注意力機(jī)制前后運(yùn)算量和參數(shù)量的變化,以及在COCO數(shù)據(jù)集上的準(zhǔn)確率。與基線相比,本文提出的注意力模塊在基本不增加參數(shù)量和計(jì)算量的情況下AP 值得到了0.5 個(gè)百分點(diǎn)的提升。與主流的SE、ECA模塊相比,本文提出的注意力模塊在參數(shù)量及計(jì)算量方面相差不大,但準(zhǔn)確率顯著提升。SE 注意力提升較小的原因是SE 對(duì)特征圖通道進(jìn)行了壓縮,會(huì)對(duì)通道注意力的預(yù)測(cè)產(chǎn)生負(fù)面影響,同時(shí)獲取所有通道的依賴(lài)關(guān)系是低效的。ECA 雖然避免了SE 的降維,但其需要人為設(shè)置相鄰?fù)ǖ佬畔⒌慕涣鞣秶?,這個(gè)重要的人為參數(shù)使得其泛化性不佳。

        表5 注意力模塊對(duì)比實(shí)驗(yàn)Table 5 Comparative experiment of attention module

        3.7 可視化結(jié)果

        本文對(duì)WA-HRNet 在COCO 數(shù)據(jù)集上的測(cè)試結(jié)果進(jìn)行了可視化操作,隨機(jī)選取遮擋、單人、多人的圖片,結(jié)果如圖5 所示??梢钥吹剑徽撌窃趩稳?、多人還是遮擋的場(chǎng)景下,WA-HRNet都能獲得較好的結(jié)果。這表明本文提出的方法具有一定的魯棒性,可以在大部分情況下保持良好的人體姿態(tài)估計(jì)性能。

        圖5 可視化結(jié)果Fig.5 Visual display of result

        4 結(jié)論

        本文提出了一個(gè)融合權(quán)重自適應(yīng)和注意力的自底向上人體姿態(tài)估計(jì)方法。通過(guò)權(quán)重自適應(yīng)損失函數(shù),解決前景和背景樣本之間不平衡的問(wèn)題。并設(shè)計(jì)一種高效全局自注意力,充分利用高分辨率網(wǎng)絡(luò)的通道和空間信息,獲取豐富的上下文信息,獲得空間方向的遠(yuǎn)距離依賴(lài),更準(zhǔn)確地定位人體關(guān)鍵點(diǎn)的準(zhǔn)確位置。引入熱力圖分布調(diào)制模塊,解決熱力圖在最大激活值附近出現(xiàn)多個(gè)峰值的問(wèn)題,提高熱力圖解碼出關(guān)鍵點(diǎn)位置的準(zhǔn)確性。本文算法在只增加少量計(jì)算成本的情況下,有效提升了自底向上人體姿態(tài)估計(jì)方法的性能,同時(shí)在COCO數(shù)據(jù)集和CrowdPose 數(shù)據(jù)集上取得的成績(jī)優(yōu)于其他自底向上人體姿態(tài)估計(jì)主流算法。

        猜你喜歡
        力圖關(guān)鍵點(diǎn)姿態(tài)
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
        喬·拜登力圖在外交政策講話中向世界表明美國(guó)回來(lái)了
        攀爬的姿態(tài)
        血栓彈力圖在惡性腫瘤相關(guān)靜脈血栓栓塞癥中的應(yīng)用進(jìn)展
        全新一代宋的新姿態(tài)
        跑與走的姿態(tài)
        時(shí)空觀指導(dǎo)下的模塊整合教學(xué)——以《20世紀(jì)四五十年代力圖稱(chēng)霸的美國(guó)》為例
        大面積燒傷患者血栓彈力圖檢測(cè)的臨床意義
        醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
        久久精品国产精品亚洲毛片 | 中文字日产幕码三区国产| 亚洲精品少妇30p| 人人玩人人添人人澡| 全部免费国产潢色一级| 一区二区三区av资源网| 久久国产精品一区二区三区| 午夜无码伦费影视在线观看| 久久99欧美| 91亚洲国产成人久久精品网站| 一区二区视频在线观看地址| 亚洲欧美精品suv| 水蜜桃久久| 久久国产精品国产精品久久| 亚洲中文字幕在线一区| 国产精品乱码一区二区三区| 国产羞羞视频在线观看| 国内精品人人妻少妇视频| 国产精品国产三级国产av18| 中文字幕人妻无码一夲道| 成人久久免费视频| 中文字幕你懂的一区二区| 草草影院ccyy国产日本欧美| 一本加勒比hezyo无码人妻| 久久99精品中文字幕在| 蜜桃网站入口可看18禁| 无码人妻aⅴ一区二区三区| 国产精品亚洲一区二区无码 | 在线视频自拍视频激情| 中文字幕人妻伦伦| 国产乱沈阳女人高潮乱叫老| 加勒比东京热综合久久| 亚洲色图在线免费观看视频 | 久久精品国产精品亚洲毛片| 男子把美女裙子脱了摸她内裤| 91伦理片视频国产精品久久久| 午夜精品久久久久久| 丁香六月久久| 亚洲精品岛国av一区二区| 国产好大好硬好爽免费不卡| 精品囯产成人国产在线观看|