亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于上下文注意力機(jī)制的人體姿態(tài)估計(jì)網(wǎng)絡(luò)

        2022-02-04 13:47:36梁橋康張柯毅
        無人系統(tǒng)技術(shù) 2022年6期
        關(guān)鍵詞:語義特征方法

        吳 樾,梁橋康,孫 煒,3,張柯毅

        (1. 湖南大學(xué)電氣與信息工程學(xué)院,長沙 410082;2. 電子制造業(yè)智能機(jī)器人技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,長沙 410082;3. 湖南大學(xué)深圳研究院,深圳 518055;4. 四川大學(xué)匹茲堡學(xué)院,成都 610207)

        1 引 言

        人體姿態(tài)估計(jì)是視覺感知中最基本和最具有挑戰(zhàn)性的任務(wù)之一。近年來,隨著自動(dòng)駕駛[1]、行人檢測[2]、目標(biāo)跟蹤[3]和缺陷檢測[4]等計(jì)算機(jī)視覺技術(shù)的發(fā)展,人體姿態(tài)估計(jì)算法受到了越來越多研究者的關(guān)注,因此,取得了顯著的進(jìn)展。

        目前,基于卷積神經(jīng)網(wǎng)絡(luò)的二維多人姿態(tài)估計(jì)主要有兩種主流策略,即自上而下和自下而上兩種方法。自上而下的方法需要先檢測出人體邊界框,然后對(duì)識(shí)別到的人體進(jìn)行單人姿態(tài)估計(jì)。自下而上的方法不進(jìn)行人體框的檢測,而是直接定位出所有的關(guān)節(jié)點(diǎn),然后將它們進(jìn)行分組。自上而下的方法精度更高,但是會(huì)犧牲速度,而且會(huì)受人體邊界框檢測精度的影響。自下而上的方法速度更快,但是精度相對(duì)不高,本文的方法遵循自上而下的思路。

        現(xiàn)有的自下而向上方法主要集中于如何將檢測到的屬于同一個(gè)人的關(guān)節(jié)點(diǎn)關(guān)聯(lián)在一起。Cao等[5]提出部分親和力場的概念,部分親和力場存儲(chǔ)了肢體的位置和方向信息,結(jié)合預(yù)測的熱力圖快速地將各關(guān)節(jié)點(diǎn)分組到每個(gè)人。Kreiss 等[6]提出部分強(qiáng)度場表示關(guān)節(jié)點(diǎn)的位置,部分關(guān)聯(lián)場表示關(guān)節(jié)點(diǎn)之間的關(guān)聯(lián)。

        自上而下的方法一般可以概括為兩個(gè)主要步驟:利用人體邊界框檢測網(wǎng)絡(luò)從輸入圖片或者視頻序列中檢測人體邊界框;從識(shí)別到的人體邊界框中定位并分類所有關(guān)節(jié)點(diǎn)。高分辨率特征蘊(yùn)含詳細(xì)的空間信息,有利于定位任務(wù),如定位關(guān)節(jié)點(diǎn)的位置。低分辨率的特征圖具有豐富的語義信息,有利于分類任務(wù),如關(guān)節(jié)點(diǎn)的分組。因此,有效地融合不同分辨率的特性是提高人體姿態(tài)估計(jì)精度的關(guān)鍵。高像素網(wǎng)絡(luò)(High Resolution Net,HRNet)[7]通過并行高分辨率和低分辨率子網(wǎng)絡(luò),逐步添加低分辨率特征的方式保持高分辨率特征表示。通過重復(fù)執(zhí)行多尺度特征融合,不同分辨率子網(wǎng)絡(luò)的信息被反復(fù)融合,特征表征能力得到增強(qiáng),這種保持高、低分辨率特征的策略能夠顯著地提高人體姿態(tài)估計(jì)的精度。Wei 等[8]通過序列化的多階段網(wǎng)絡(luò)逐步細(xì)化關(guān)節(jié)點(diǎn)預(yù)測,利用中間監(jiān)督信息有效地解決了梯度消失的問題。模擬人類認(rèn)知的過程,即先注意能夠直接看到的關(guān)節(jié)點(diǎn),然后利用已知的關(guān)節(jié)點(diǎn)信息推測出看不見的部分。Chen 等[9]提出了一個(gè)兩階段的級(jí)聯(lián)金字塔網(wǎng)絡(luò),前一階段用于預(yù)測一個(gè)粗略的姿態(tài),后一階段在前一階段的基礎(chǔ)上改進(jìn)預(yù)測結(jié)果。殘差階梯網(wǎng)絡(luò)(Residual Steps Network, RSN)[10]設(shè)計(jì)了一種密集的網(wǎng)絡(luò)結(jié)構(gòu)來融合層內(nèi)特征,可以學(xué)習(xí)到細(xì)膩的局部信息,保存準(zhǔn)確的空間信息,結(jié)合姿態(tài)調(diào)整機(jī)進(jìn)一步細(xì)化初始姿態(tài),提高姿態(tài)估計(jì)的精度。Qiu 等[11]模擬了人類的認(rèn)知過程,提出了一種估計(jì)被遮擋關(guān)節(jié)的推理方法。該方法首先估計(jì)初始姿態(tài),然后利用對(duì)圖像上下文的理解和對(duì)人體姿態(tài)結(jié)構(gòu)的理解來調(diào)整初始姿態(tài)。Chou等[12]使用兩個(gè)沙漏網(wǎng)絡(luò)分別作為生成器和鑒別器,生成器預(yù)測每個(gè)關(guān)節(jié)點(diǎn)熱力圖,鑒別器用于區(qū)分真值和預(yù)測的熱力圖。

        2 本文算法

        對(duì)人體結(jié)構(gòu)的建模是提高人體姿態(tài)估計(jì)精度的重要研究方向之一。當(dāng)關(guān)節(jié)點(diǎn)存在遮擋和相似時(shí),由于缺乏必要的視覺信息,當(dāng)前的人體姿態(tài)估計(jì)算法很容易產(chǎn)生誤檢和漏檢。人體是一個(gè)具有對(duì)稱結(jié)構(gòu)的整體,對(duì)人體結(jié)構(gòu)建??梢詾閱蝹€(gè)關(guān)節(jié)點(diǎn)提供對(duì)應(yīng)的肢體信息甚至是全身姿態(tài)的全局信息,增強(qiáng)特征的表征能力,進(jìn)一步細(xì)化關(guān)節(jié)點(diǎn)的位置。

        針對(duì)HRNet 缺乏對(duì)人體結(jié)構(gòu)信息建模的問題,本文利用關(guān)節(jié)點(diǎn)上下文注意力機(jī)制(The Keypoint Context Attention Mechanism, KCAM)對(duì)關(guān)節(jié)點(diǎn)的相對(duì)位置關(guān)系進(jìn)行建模,提出了基于上下文注意力機(jī)制的關(guān)節(jié)點(diǎn)提取網(wǎng)絡(luò)(Context Attentionbased Keypoint Extraction Network, CAHRNet)。為了增強(qiáng)訓(xùn)練數(shù)據(jù)集的大小和質(zhì)量,提出了基于語義分割和隨機(jī)信息刪除的數(shù)據(jù)增強(qiáng)方法。

        2.1 基于上下文注意力機(jī)制的關(guān)節(jié)點(diǎn)提取網(wǎng)絡(luò)

        CAKENet 的框架結(jié)構(gòu)如圖1 所示,CAKENet的結(jié)構(gòu)與HRNet 相似,網(wǎng)絡(luò)由4 個(gè)階段組成,每個(gè)階段包含不同的分支數(shù),每個(gè)階段會(huì)重復(fù)n次,利用特征融合模塊融合不同分辨率的特征,豐富特征的表示。CAKENet 每個(gè)階段內(nèi)增加KCAM模塊建模關(guān)節(jié)點(diǎn)之間的依賴關(guān)系。

        圖1 CAKENet 的框架結(jié)構(gòu)Fig. 1 Architecture of CAKENet

        網(wǎng)絡(luò)的特征提取過程如下。

        (1)第1 階段:分辨率為4H4×W的輸入圖像首先經(jīng)過兩個(gè)步長為2 的3 × 3 卷積將分辨率降低為H×W,為了不損失信息,通道數(shù)從3 增加為64,然后使用4 個(gè)串聯(lián)的Bottleneck 模塊進(jìn)行特征提取,輸出特征通道數(shù)為64。

        (2)第2 階段:高分辨率分支的分辨率為H×W,通道數(shù)為R。同時(shí)增加一個(gè)低分辨率分支,分辨率降低為(H/2)×(W/2),通道數(shù)增加為2R。從階段2 開始,每個(gè)分支由4 個(gè)串聯(lián)的Basic 模塊組成,為了對(duì)人體結(jié)構(gòu)進(jìn)行建模,將KCAM 模塊添加到每個(gè)分支的末尾。然后利用特征融合模塊融合不同分支的特征,進(jìn)一步強(qiáng)化不同分支之間的信息交換。

        HRNet 和CAKENet 的結(jié)構(gòu)對(duì)比如表1 所示,其中,(3 × 3,s= 2)表示步長為2 的3 × 3 卷積塊,Bottleneck 模塊由兩個(gè)1 × 1 卷積,一個(gè)3 × 3卷積組成。Basic 模塊由兩個(gè)3 × 3 卷積組成。Bottleneck 模塊和Basic 模塊分別重復(fù)4 次,KCAM 模塊添加到每個(gè)特征融合模塊之前。

        表1 CAKENet 和HRNet 網(wǎng)絡(luò)結(jié)構(gòu)Table 1 architecture of CAKENet and HRNet

        3 種典型的多尺度特征融合方法如圖2 所示。

        圖2 多尺度特征融合示意圖Fig. 2 Multiscale feature fusion

        式中,T表示相應(yīng)的上采樣、下采樣或普通卷積。上采樣過程先使用1 × 1 卷積改變通道數(shù),然后利用最鄰近上采樣擴(kuò)大分辨率。下采樣過程使用步長為2 的3 × 3 卷積。普通卷積使用1 × 1 卷積,且不會(huì)改變特征的通道數(shù)。

        特征融合是增強(qiáng)特征表征能力的重要方式之一,高分辨率特征包含更多的位置、細(xì)節(jié)信息,其語義性更低,噪聲更多。低分辨率特征具有更強(qiáng)的語義信息,但是對(duì)位置、細(xì)節(jié)的感知能力較差。通過特征融合可以實(shí)現(xiàn)多分辨率特征的優(yōu)勢(shì)互補(bǔ),從融合的多個(gè)原始特征中獲得最具差異性的信息,消除不同特征之間的冗余信息。從而有效地增強(qiáng)網(wǎng)絡(luò)的位置不變性和位置敏感性,提高網(wǎng)絡(luò)對(duì)非線性的建模能力,提高網(wǎng)絡(luò)的魯棒性。

        2.2 上下文注意力機(jī)制

        全局上下文信息在人體姿態(tài)估計(jì)領(lǐng)域中起著至關(guān)重要的作用。在卷積神經(jīng)網(wǎng)絡(luò)中,可以使用具有較大感受野的卷積層建模全局上下文信息。感受野是指神經(jīng)網(wǎng)絡(luò)的卷積層輸出特征上的像素點(diǎn)在輸入圖像上的感受范圍大小。對(duì)于k層卷積,其輸出特征的感受野計(jì)算方法見式(2),輸出特征大小計(jì)算方式為式(3)。

        式中,Rk-1表示第k-1 層的感受野大小,F(xiàn)k表示第k層卷積核的大小,Si表示第i層卷積的步長。

        式中,Nk1-是輸入特征的大小,PkD是填充像素?cái)?shù)。

        由式(2)可知,堆疊大量的卷積塊是增大感受野的一種方法。但是,增加卷積層會(huì)使網(wǎng)絡(luò)的參數(shù)量和計(jì)算量指數(shù)級(jí)上升,同時(shí)也會(huì)導(dǎo)致梯度爆炸、巨大的內(nèi)存消耗等問題。另一種方法則是增加卷積核的步長,雖然這樣可以增大卷積核的感受野,但是,由式(3)可知,當(dāng)步長Si大于1 時(shí),卷積操作會(huì)使特征圖的大小降低約Si倍,這會(huì)損失大量的空間信息,降低網(wǎng)絡(luò)的位置敏感性,同樣不利于關(guān)節(jié)點(diǎn)的定位。

        卷積操作流程與感受野變化如圖3 所示。經(jīng)過一層卷積操作之后,綠色特征相對(duì)于藍(lán)色輸入感受野為3 × 3(圖3(a))。經(jīng)過第二層卷積操作之后,橙色特征相對(duì)綠色特征感受野為3 × 3(圖3(b))。經(jīng)過連續(xù)兩層卷積之后,橙色特征相對(duì)藍(lán)色輸入特征感受野為5 × 5(圖3(c))。

        圖3 卷積操作與感受野示意圖Fig. 3 Convolution and receptive field

        注意力機(jī)制模仿了人類感知周圍環(huán)境的方式,幫助神經(jīng)網(wǎng)絡(luò)從大量的不相關(guān)的信息中篩選出有價(jià)值的目標(biāo)區(qū)域。注意力機(jī)制一般可分為通道注意力和空間注意力。

        (1)通道注意力是指對(duì)通道之間的相關(guān)性進(jìn)行建模,然后根據(jù)不同通道的重要性重新校準(zhǔn)通道。 擠壓激發(fā)網(wǎng)絡(luò)( Squeeze-and-Excitation Networks, SENet)[13]提出了一種“擠壓-激發(fā)”塊,通過全局平均池化獲得通道描述符,用于加強(qiáng)有用的通道和弱化不重要的通道。

        (2)空間注意力學(xué)習(xí)每個(gè)空間位置的重要性,可以增強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)區(qū)域的“注意力”,削弱無關(guān)區(qū)域。卷積注意力模塊[14]是一個(gè)由空間注意力和通道注意力組成的注意力模塊。在壓縮空間維數(shù)時(shí),同時(shí)使用平均池化和最大池化,與只關(guān)注通道注意力的SENet 相比,可以獲得更好的性能。Wang 等[15]通過聚合來自其他位置的信息增強(qiáng)查詢位置的特性。全局上下文網(wǎng)絡(luò)(Global Context Networks, GCNet)[16]提出全局上下文塊,該網(wǎng)絡(luò)可以有效地建模全局上下文信息,增強(qiáng)網(wǎng)絡(luò)的全局理解。

        以SENet 為例,大多數(shù)注意機(jī)制可以表示為

        式中,Z表示原始特征,表示重新校準(zhǔn)后的特征,F(xiàn)se(·) 表示相應(yīng)的注意力映射,?表示元素乘法。

        為了獲得人體結(jié)構(gòu)的全局上下文依賴關(guān)系,本文提出使用關(guān)節(jié)點(diǎn)上下文注意力機(jī)制(KCAM)建模人體結(jié)構(gòu)信息。如圖4 所示,KCAM 由3 個(gè)分支組成:殘差連結(jié)分支、通道注意力分支和空間注意力分支??臻g注意力分支由9 × 9 深度可分離卷積(Depthwise Separable Convolution, DSC)和1 × 1 卷積組成。深度可分離卷積減少了計(jì)算消耗,并分離了不同的通道,從而可以學(xué)習(xí)到每個(gè)空間位置的空間注意力。空間注意力分支可以表述為

        圖4 KCAM 模塊Fig. 4 KCAM Module

        式中,Conv9×9,DSC表示9 × 9 深度可分離卷積,Conv表示1 × 1 普通卷積,β為空間注意力特征。

        受GCnet[16]的啟發(fā),通道注意力分支可以表述為

        式中,n等于H×W,H,W分別為輸入特征圖的高度和寬度,Zj表示特征圖上的第j個(gè)像素點(diǎn),α為通道注意力特征。

        通道注意力分支和空間注意力分支通過元素相加得到融合的注意力特征圖。大量研究表明,殘差結(jié)構(gòu)[17]更有利于梯度傳遞和網(wǎng)絡(luò)優(yōu)化,通過增加殘差連接分支可以達(dá)到特征復(fù)用的目的。

        因此,KCAM 模塊可以表示為

        2.3 數(shù)據(jù)增強(qiáng)

        更大的數(shù)據(jù)集能促使神經(jīng)網(wǎng)絡(luò)取得更好的性能,但是,數(shù)據(jù)集的采集、標(biāo)注是一項(xiàng)非常艱巨的任務(wù),因此,如何利用有限的數(shù)據(jù)產(chǎn)生更多的訓(xùn)練樣本成了一個(gè)熱門的研究領(lǐng)域。數(shù)據(jù)增強(qiáng)可以增加數(shù)據(jù)集的規(guī)模,能夠有效地提高深度學(xué)習(xí)模型的泛化能力,在人體姿態(tài)估計(jì)領(lǐng)域起著至關(guān)重要的作用。目前,常用的數(shù)據(jù)增強(qiáng)方法為旋轉(zhuǎn)、尺度縮放、翻轉(zhuǎn)和顏色增強(qiáng)等。

        Gong 等[18]使用顯著圖保留圖片中包含關(guān)鍵信息的區(qū)域,從而提高數(shù)據(jù)的保真率,緩解了在數(shù)據(jù)增強(qiáng)過程中改變數(shù)據(jù)分布的問題。基于混合的數(shù)據(jù)增強(qiáng)方法不會(huì)區(qū)分圖像的內(nèi)容和風(fēng)格特征,Hong 等[19]提出分別對(duì)圖像的內(nèi)容和風(fēng)格特征進(jìn)行變化。Gong 等[20]使用隨機(jī)噪聲等方式生成一系列增強(qiáng)的數(shù)據(jù)樣本,然后從中挑選損失誤差最大的用于網(wǎng)絡(luò)訓(xùn)練。

        基于信息刪除[21-22]的方法因其高效性而得到廣泛的應(yīng)用,在圖像分類、目標(biāo)檢測和行人重識(shí)別等視覺任務(wù)領(lǐng)域?qū)崿F(xiàn)了對(duì)基線網(wǎng)絡(luò)的改進(jìn)。其關(guān)鍵思想是將訓(xùn)練圖片分為多個(gè)區(qū)域,隨機(jī)刪除其中部分區(qū)域,以生成具有不同遮擋程度的訓(xùn)練圖像。刪除最具鑒別性的信息,可以迫使網(wǎng)絡(luò)尋找其他相關(guān)內(nèi)容,使模型對(duì)遮擋具有魯棒性,從而降低過擬合的風(fēng)險(xiǎn)。

        Ke 等[23]提出使用關(guān)節(jié)點(diǎn)屏蔽的方法模擬難訓(xùn)練樣本。該方法通過復(fù)制粘貼關(guān)節(jié)點(diǎn)或背景補(bǔ)丁產(chǎn)生易混淆的訓(xùn)練樣本,從而有效提高網(wǎng)絡(luò)在極端情況下的學(xué)習(xí)能力。Bin 等[24]提出了一種對(duì)抗性語義數(shù)據(jù)增強(qiáng)策略,構(gòu)建了一個(gè)包含不同身體部位的語義部位池,并在訓(xùn)練過程中使用對(duì)抗生成神經(jīng)網(wǎng)絡(luò)從語義部位池中隨機(jī)選擇一個(gè)身體部位粘貼到輸入圖像中,產(chǎn)生難以識(shí)別的姿態(tài)。該方法有效地提高了網(wǎng)絡(luò)在外觀相似、嚴(yán)重遮擋和擁擠人群等情形下的識(shí)別精度。數(shù)據(jù)增強(qiáng)有效地拓展了人體姿態(tài)估計(jì)的邊界。

        在背景清晰、沒有明顯遮擋的情況下,當(dāng)前大多數(shù)的神經(jīng)網(wǎng)絡(luò)都可以準(zhǔn)確預(yù)測關(guān)節(jié)點(diǎn)的位置。然而,在識(shí)別一些被嚴(yán)重遮擋的人體姿態(tài)時(shí)仍然容易誤識(shí)別。

        為了生成更多的難樣本,本文提出了一種基于語義分割的數(shù)據(jù)增強(qiáng)方法。該方法和基于信息刪除的數(shù)據(jù)增強(qiáng)方法分別為了模擬圖5 所示的兩種常見挑戰(zhàn)。由于不使用外部數(shù)據(jù),將兩種數(shù)據(jù)增強(qiáng)方法合稱為自數(shù)據(jù)增強(qiáng)(Self Data Augmentation, SDA)。

        圖5 常見的具有挑戰(zhàn)性的場景Fig. 5 Common challenging scenarios

        2.3.1 基于語義分割的數(shù)據(jù)增強(qiáng)方法

        針對(duì)多個(gè)人相互遮擋、擁擠的情形,本文設(shè)計(jì)了一種基于語義分割的數(shù)據(jù)增強(qiáng)方法,如圖6所示。為了方便描述,將訓(xùn)練圖像定義為前景和背景兩個(gè)部分,前景即為圖片中包含目標(biāo)人體語義分割的區(qū)域,背景為除了前景以外的其他區(qū)域。具體做法如下。

        圖6 基于語義分割的數(shù)據(jù)增強(qiáng)策略Fig. 6 Data augmentation strategy based on semantic segmentation

        首先,從原始圖像中隨機(jī)截取的一部分作為生成圖像的背景,然后,利用線性插值方法將其縮放到與原始圖像一樣的大小。最后,將人體語義分割區(qū)域粘貼到縮放后的圖像中,變換前后人體語義分割區(qū)域的絕對(duì)坐標(biāo)位置不變。

        基于語義分割的數(shù)據(jù)增強(qiáng)可以描述為

        式中,H為人體語義分割區(qū)域,F(xiàn)為從原始圖像中隨機(jī)截取的部分,φ()· 表示線性插值,⊕表示以H中的元素替換φ(F)中的元素,Y為生成的圖像。

        使用背景替換來擴(kuò)展數(shù)據(jù)集是一種常見的做法。然而,傳統(tǒng)方法產(chǎn)生的圖像有明顯的人工偽造痕跡。本文所提的方法沒有從其他圖像中獲取背景,而是將原始圖像的一部分作為新圖像的背景。其優(yōu)點(diǎn)是不會(huì)改變圖像像素值的分布,前景可以很好地在背景中混合,而且不會(huì)產(chǎn)生明顯的人工痕跡,如圖7 所示為基于語義分割的數(shù)據(jù)增強(qiáng)策略生成的一些訓(xùn)練樣本,其中,(a)~(e)為原始圖像,(f)~(j)為生成的圖像。此外,由于背景的選擇是隨機(jī)的,背景中還會(huì)有前景人物的部分區(qū)域,可以產(chǎn)生相似人群(如圖7(h)、(j)所示)的訓(xùn)練樣本,從而提高神經(jīng)網(wǎng)絡(luò)的辨別能力。

        圖7 基于語義分割的數(shù)據(jù)增強(qiáng)策略生成的訓(xùn)練圖像Fig. 7 Training images generated by the data augmentation strategy based on semantic segmentation

        2.3.2 基于信息刪除的數(shù)據(jù)增強(qiáng)方法

        使用基于信息刪除的數(shù)據(jù)增強(qiáng)方法模擬部分關(guān)節(jié)點(diǎn)被其他物體遮擋的情形。具體做法如圖8所示。

        圖8 基于隨機(jī)信息刪除的數(shù)據(jù)增強(qiáng)策略Fig. 8 Data augmentation strategy based on random information removal

        首先,隨機(jī)選擇部分關(guān)節(jié)點(diǎn)并隨機(jī)刪除其周圍區(qū)域的信息,然后從圖像中隨機(jī)選擇一個(gè)區(qū)域填充至該區(qū)域。為了避免神經(jīng)網(wǎng)絡(luò)對(duì)填充形狀過擬合,隨機(jī)刪除區(qū)域的形狀從圓形、矩形或扇形中隨機(jī)選擇。隨機(jī)刪除區(qū)域的尺寸Rr計(jì)算方式為

        式中,e是取值范圍為[0,1]的隨機(jī)數(shù),L是該關(guān)節(jié)點(diǎn)所在肢體的長度。

        隨機(jī)刪除區(qū)域的中心隨機(jī)偏離關(guān)節(jié)點(diǎn)中心一段距離d。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)細(xì)節(jié)

        實(shí)驗(yàn)使用Pytorch 作為深度學(xué)習(xí)框架,顯卡為英偉達(dá)RTX2080Ti GPU,最小批次為12。使用了水平翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、隨機(jī)縮放、顏色增強(qiáng)、隨機(jī)半身截取和本文提出的自數(shù)據(jù)增強(qiáng)等數(shù)據(jù)增強(qiáng)方法。在網(wǎng)絡(luò)模型訓(xùn)練過程中,輸入圖像的大小被固定為384 × 288 和256 × 192。使用Adam優(yōu)化器對(duì)各種訓(xùn)練參數(shù)進(jìn)行更新,初始學(xué)習(xí)速率為1e-3??傆?xùn)練輪數(shù)為210 輪。數(shù)據(jù)集為COCO數(shù)據(jù)集[25]。

        結(jié)合分類和回歸的表示法將關(guān)節(jié)點(diǎn)編碼成一個(gè)分類熱力圖和兩個(gè)分別沿x軸和y軸方向的偏移向量。假設(shè)有K個(gè)關(guān)節(jié)點(diǎn)P={p1,p2,… ,p k|pi=(ai,bi)},其中,分類熱力圖可以表示為

        式中,ai、bi分別為關(guān)節(jié)點(diǎn)pi的橫坐標(biāo)和縱坐標(biāo),r為感興趣區(qū)域(Region of interest,ROI)的半徑。如果一個(gè)像素點(diǎn)在ROI 內(nèi),意味著這個(gè)像素點(diǎn)在關(guān)節(jié)點(diǎn)的周圍。

        對(duì)應(yīng)的坐標(biāo)偏移向量為

        式中,χ和γ分別表示x軸和y軸方向上的坐標(biāo)偏移向量,乘積項(xiàng)η表示網(wǎng)絡(luò)只需要學(xué)習(xí)ROI 中的偏移量,?表示元素對(duì)應(yīng)相乘。

        在模型訓(xùn)練時(shí),損失函數(shù)被定義為

        在網(wǎng)絡(luò)預(yù)測階段,利用式(15)可以得到對(duì)應(yīng)關(guān)節(jié)點(diǎn)的坐標(biāo)。

        3.2 人體姿態(tài)估計(jì)實(shí)驗(yàn)結(jié)果分析

        表2 是CAKENet 與其他方法在COCO 驗(yàn)證集上的人體姿態(tài)估計(jì)結(jié)果比較。

        表2 CAKENet 與其他方法在COCO 驗(yàn)證集上的對(duì)比Table 2 Comparison between CAKENet and other methods on COCO verification set

        當(dāng)輸入圖片大小固定為 384 × 288 時(shí),CAKENet 的精度為79.5%。與HRNet-W48 相比精度增加了3.2%,參數(shù)量僅增加7.6 M,計(jì)算量增加0.9 GFLOPs。與UDP-HRNet-W48 相比精度增加了1.7%。實(shí)驗(yàn)結(jié)果表明,CAKENet 在相近的參數(shù)量和計(jì)算量的網(wǎng)絡(luò)中表現(xiàn)出了最好的關(guān)節(jié)點(diǎn)定位精度。

        與其他大模型相比,比多階段姿態(tài)網(wǎng)絡(luò)(Multi-Stage Pose Network, MSPN)的精度高2.6%。與最有效的模型4 × RSN-50 相比,CAKENet的精度增加了0.3%,參數(shù)量下降40.6 M,計(jì)算量下降28.1 GFLOPs。

        當(dāng)輸入大小固定為 256 × 192 像素時(shí),CAKENet 的精度為78.0%。相比UDP-HRNet-W48精度提高了0.8%,計(jì)算量僅增加0.3 GFLOPs。與2 × RSN-50 相比,精度提高了0.8%,計(jì)算量增加了1.1 GFLOPs。在相近參數(shù)量和計(jì)算量的模型對(duì)比中,CAKENet 取得了最好的關(guān)節(jié)點(diǎn)定位精度。

        與其他較大的模型相比,比MSPN 的精度高2.1%,參數(shù)量下降48.8 M。雖然精度比4 × RSN-50低0.6%,但是參數(shù)量下降了40.6 M。與更大的模型相比,CAKENet 能夠取得接近的結(jié)果。

        CAKENet 在COCO 數(shù)據(jù)集上人體關(guān)節(jié)點(diǎn)的識(shí)別結(jié)果如圖9 所示。

        圖9 在COCO 數(shù)據(jù)集上的部分結(jié)果展示Fig. 9 Rresults on the COCO dataset

        表3 展示了CAKENet 與其他先進(jìn)的方法在COCO test-dev 上的人體姿態(tài)估計(jì)精度比較。

        表3 與其他方法在COCO test-dev 上的對(duì)比Table 3 Comparison with other methods on COCO test-dev

        與近似參數(shù)量和計(jì)算量的模型的比較,CAKENet 相比HRNet-W48 精度提高了1.2%,比UDP-HRNet-W48 的精度高0.2%,相比Simple Baseline 精度增加了3%,相比初步和精細(xì)網(wǎng)絡(luò)(Coarse Fine Network, CFN)精度增加了4.1%。以上結(jié)果證明了CAKENet 的有效性。

        此外,與較大的模型相比,CAKENet 比MSPN 的精度高0.6%,參數(shù)量下降了48.8 M。精度比4 × RSN-50 低1.9%,參數(shù)量下降40.6 M,計(jì)算量下降32.1GFLOPs。

        3.3 消融實(shí)驗(yàn)

        3.3.1 KCAM 和SDA 的有效性

        為了評(píng)估本文所提出的關(guān)節(jié)點(diǎn)上下文注意力機(jī)制KCAM 和自數(shù)據(jù)增強(qiáng)SDA 的在人體姿態(tài)估計(jì)中的有效性,本節(jié)進(jìn)行了一系列的消融實(shí)驗(yàn)。

        輸入圖像固定為256 × 192 像素。沒有使用預(yù)訓(xùn)練模型,初始學(xué)習(xí)速率為1e-3,使用Adam優(yōu)化器更新網(wǎng)絡(luò)參數(shù),所有的模型都以相同的配置從頭開始訓(xùn)練,總共訓(xùn)練160 輪,最后在COCO驗(yàn)證集上進(jìn)行評(píng)估。相應(yīng)的實(shí)驗(yàn)配置和結(jié)果如表4 所示。

        表4 消融實(shí)驗(yàn)的配置及結(jié)果Table 4 Configuration and results of ablation experiments

        方法(a)為對(duì)照組,使用的網(wǎng)絡(luò)為原始HRNet-w32;方法(b)在數(shù)據(jù)處理階段使用了自數(shù)據(jù)增強(qiáng)策略;方法(c)在原始HRNet-w32 的基礎(chǔ)上添加了關(guān)節(jié)點(diǎn)上下文注意力機(jī)制。

        使用了自數(shù)據(jù)增強(qiáng)的網(wǎng)絡(luò)比原始網(wǎng)絡(luò)獲得1.0%的精度增長,這與增加數(shù)據(jù)集數(shù)量可以提高網(wǎng)絡(luò)性能的常識(shí)相一致。結(jié)果表明,數(shù)據(jù)增強(qiáng)在人體姿態(tài)估計(jì)領(lǐng)域具有很大的應(yīng)用前景。

        上下文注意力機(jī)制促使網(wǎng)絡(luò)實(shí)現(xiàn)了2.0%的精度增加,實(shí)驗(yàn)表明KCAM 可以顯著地提高網(wǎng)絡(luò)的精度和收斂速度,驗(yàn)證了上下文注意力機(jī)制的有效性。

        消融實(shí)驗(yàn)1 的結(jié)果表明,上下文注意力機(jī)制和自數(shù)據(jù)增強(qiáng)不僅可以提高人體姿態(tài)估計(jì)的精度,還可以提高網(wǎng)絡(luò)的收斂速度。

        3.3.2 不同像素特征的貢獻(xiàn)

        在神經(jīng)網(wǎng)絡(luò)中,不同像素大小的特征分別蘊(yùn)含著不同的信息。一般來說,高像素的特征蘊(yùn)含著豐富的空間信息,有利于定位任務(wù)。低像素的特征具有高層次的語義信息,有助于分類任務(wù)。在人體姿態(tài)估計(jì)任務(wù)中,不同分辨率的特征分別貢獻(xiàn)不同的作用。為了定量地說明每個(gè)分支特征的貢獻(xiàn),本文設(shè)計(jì)了一種加權(quán)特征融合方法,如圖10 所示。

        圖10 加權(quán)特征融合Fig. 10 Weighted feature fusion

        加權(quán)融合過程可以描述為

        式中,wij表示融合權(quán)重,ci和分別表示分辨率為的輸入特征和輸出特征。

        利用加權(quán)特征融合取代原來的特征融合方法,所有權(quán)重是一個(gè)初始值為1 的可訓(xùn)練的參數(shù)。圖10a~c 所示的融合過程分別可以表述為

        用矩陣乘法可以表示為

        式中,W為特征融合模塊的權(quán)重,TC表示矩陣轉(zhuǎn)置。

        第2 階段只有一個(gè)融合模塊,其可視化結(jié)果如圖 11(a)所示,其中,w0,0= 2.2,w0,1= 0.22,w1,0= 1.8,w1,1= 1.1。第3 階段的前兩個(gè)融合權(quán)重如圖11(b-c)所示,融合不同分支的特征時(shí),更高分辨率分支所占的權(quán)重更大。說明在網(wǎng)絡(luò)的淺層,神經(jīng)網(wǎng)絡(luò)傾向于融合更多高分辨率的特征,有利于關(guān)節(jié)點(diǎn)的定位,網(wǎng)絡(luò)具有更強(qiáng)的位置敏感性。

        隨著網(wǎng)絡(luò)層數(shù)的增加,高像素特征所占的比例變小,而低像素特征的比例增大,如圖11(d)~(h)所示。說明在網(wǎng)絡(luò)的深層,需要聚合更多的語義信息對(duì)關(guān)節(jié)點(diǎn)進(jìn)行分類,網(wǎng)絡(luò)具有更強(qiáng)的位置不變性。

        圖11 融合權(quán)重WFig. 11 Fusion weights W

        消融實(shí)驗(yàn)2 的結(jié)果表明,在人體姿態(tài)估計(jì)任務(wù)中,網(wǎng)絡(luò)的不同階段分別處理不同的任務(wù),網(wǎng)絡(luò)的淺層主要解決關(guān)節(jié)點(diǎn)的定位問題,網(wǎng)絡(luò)的深層主要解決已定位關(guān)節(jié)點(diǎn)的分類問題。

        4 結(jié) 論

        本文針對(duì)HRNet對(duì)人體結(jié)構(gòu)信息建模不足的問題,提出了基于上下文注意力機(jī)制的關(guān)節(jié)點(diǎn)提取網(wǎng)絡(luò),通過引入上下文注意力機(jī)制發(fā)掘潛在的全局上下文信息。同時(shí)提出了一種基于語義分割的數(shù)據(jù)增強(qiáng)策略,使用該策略能夠生成大量難樣本,增強(qiáng)了網(wǎng)絡(luò)的泛化能力。所提出的基于上下文注意力機(jī)制的關(guān)節(jié)點(diǎn)提取網(wǎng)絡(luò)在COCO數(shù)據(jù)集上的姿態(tài)估計(jì)精度高達(dá)79.5%。本文的實(shí)驗(yàn)證明了所提出的CAKENet 網(wǎng)絡(luò)是有效的,有望開拓人體姿態(tài)估計(jì)方法研究的新思路。

        猜你喜歡
        語義特征方法
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認(rèn)知范疇模糊與語義模糊
        国产精品女同一区二区| 日本熟女中文字幕在线| 久久婷婷五月综合色欧美| 欧美人与动牲交a欧美精品| 亚洲自拍愉拍| 国产精品成人黄色大片| 自拍偷拍 视频一区二区| 精品国产拍国产天天人| 俺也去色官网| 人妻在线中文字幕视频| 男女18视频免费网站| 国产精品无码久久久久成人影院| 四虎影视亚洲精品| 国产精品丝袜一区二区三区在线| 国产91人妻一区二区三区| 人妻久久久一区二区三区| 国产女人18一级毛片视频| 中文字幕丰满人妻有码专区| 国产一级内射视频在线观看| 精品av天堂毛片久久久| 久久久综合九色合综国产| 日韩三级一区二区三区四区| 99riav国产精品视频| 亚洲av中文无码字幕色三| 国产精品毛片99久久久久| 亚洲中文字幕精品视频| 国产精品人妻一码二码| 手机看片福利日韩| 亚洲精品一区二区三区日韩| 色偷偷色噜噜狠狠网站30根| 蜜臀久久99精品久久久久久小说| 国产日韩久久久久69影院| 国产成人av三级在线观看韩国 | 国产免费艾彩sm调教视频| 日韩毛片在线| 亚洲一区二区三区美女av| 成年丰满熟妇午夜免费视频 | 一二区成人影院电影网| 亚洲AV无码一区二区三区人| 国产精品99久久精品女同| 久久久久99精品成人片欧美|