亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融入注意力和密集連接的輕量型人體姿態(tài)估計(jì)

        2022-08-19 08:31:18輝,徐楊,2
        關(guān)鍵詞:關(guān)鍵點(diǎn)復(fù)雜度分辨率

        鄧 輝,徐 楊,2

        1.貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽 550025

        2.貴陽鋁鎂設(shè)計(jì)研究院有限公司,貴陽 550009

        人體姿態(tài)估計(jì)作為計(jì)算機(jī)視覺的重要任務(wù)之一,其目標(biāo)是對人體關(guān)鍵點(diǎn)進(jìn)行定位,如肘部、手腕及膝蓋等。近年來,與人體姿態(tài)估計(jì)相關(guān)的多方面研究得到廣泛的應(yīng)用,如動(dòng)作識(shí)別[1]、人機(jī)交互[2]、姿態(tài)跟蹤等[3]。深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在該課題上取得了顯著的成效,但一些新方法往往使用更深層次的網(wǎng)絡(luò)來提升檢測性能,并伴隨大量的神經(jīng)網(wǎng)絡(luò)參數(shù)和浮點(diǎn)運(yùn)算次數(shù)(FLOPs)。盡管這些方法性能優(yōu)異,但大量參數(shù)使模型對內(nèi)存的要求變高,很難將性能優(yōu)異的模型直接部署在資源受限的設(shè)備上,如智能手機(jī)和機(jī)器人等。因此如何在保持模型精度的情況下降低網(wǎng)絡(luò)參數(shù)和運(yùn)算復(fù)雜度是目前人體姿態(tài)估計(jì)研究亟待解決的問題之一。

        目前主要使用深度學(xué)習(xí)的方法進(jìn)行人體姿態(tài)估計(jì)[4],使用深度卷積神經(jīng)網(wǎng)絡(luò)來檢測人體關(guān)鍵點(diǎn)[5]。Newell等[6]提出了堆疊沙漏網(wǎng)絡(luò)(stacked hourglass network,SHN),其采用分辨率由高到低和由低到高的對稱結(jié)構(gòu),通過檢測熱圖來獲取人體各關(guān)節(jié)點(diǎn)信息,但分辨率變化會(huì)導(dǎo)致丟失部分特征信息。Chen等[7]提出的級(jí)聯(lián)金字塔網(wǎng)絡(luò)(cascaded pyramid network,CPN)則彌補(bǔ)了這一缺點(diǎn),通過一個(gè)并行的由低分辨率到高分辨率的網(wǎng)絡(luò)來恢復(fù)高分辨率表示,從而進(jìn)一步提高預(yù)測準(zhǔn)確率。Xiao等[8]提出的Simple Baseline 模型為設(shè)計(jì)簡單輕量的姿態(tài)估計(jì)網(wǎng)絡(luò)提供了先驗(yàn)知識(shí),它僅構(gòu)造了一個(gè)基本的順序卷積網(wǎng)絡(luò),其后是一些反卷積層,以此來實(shí)現(xiàn)更高分辨率的輸出。受Simple Baseline 設(shè)計(jì)的啟發(fā),Zhang 等[9]提出了一種輕量級(jí)的姿態(tài)估計(jì)網(wǎng)絡(luò)(lightweight pose network,LPN),在模型大小、運(yùn)算復(fù)雜度和預(yù)測速度方面更具優(yōu)勢。

        Sun等[10]提出的高分辨率網(wǎng)絡(luò)(high-resolution network,HRNet)使用并聯(lián)的方式將不同分辨率子網(wǎng)由高到低進(jìn)行并行連接,并在各分辨率之間反復(fù)執(zhí)行多尺度融合,整個(gè)過程始終保持高分辨率表示,從而有效利用特征信息對人體關(guān)鍵點(diǎn)進(jìn)行預(yù)測,它在準(zhǔn)確性上表現(xiàn)突出,但在模型輕量層面表現(xiàn)欠佳。Cheng等[11]在HRNet的基礎(chǔ)上提出HigherHRNet,其進(jìn)一步提升了HRNet網(wǎng)絡(luò)末端的特征圖分辨率,從而獲得更好的預(yù)測效果,但同時(shí)增加了網(wǎng)絡(luò)復(fù)雜度,導(dǎo)致運(yùn)算量上升和推理速度下降。2021 年Yu 等[12]提出了Lite-HRNet,設(shè)計(jì)了新的輕量級(jí)單元來代替pointwise(1×1)卷積,在人體姿態(tài)估計(jì)任務(wù)上實(shí)現(xiàn)了非常好的輕量化效果,但模型預(yù)測精度下降幅度較大。

        基于上述研究與問題,本文以高分辨率網(wǎng)絡(luò)為基礎(chǔ)框架,提出一種融入密集連接和注意力的輕量型人體姿態(tài)估計(jì)網(wǎng)絡(luò)(lightweight densely connected attention network,LDANet)。首先,采用與GhostNet[13]相似的結(jié)構(gòu),設(shè)計(jì)了輕量全局上下文瓶頸模塊(ghost global context bottlneck,GGCneck),將其替換高分辨率網(wǎng)絡(luò)中的瓶頸塊,能有效降低部分網(wǎng)絡(luò)復(fù)雜度并提升一定預(yù)測精度。然后,將空間注意力和通道注意力采用串聯(lián)方式進(jìn)行融合,并保持空間和通道維度的高分辨率,同時(shí)再結(jié)合稠密網(wǎng)絡(luò)[14]的結(jié)構(gòu),設(shè)計(jì)密集單元和密集連接方式,構(gòu)建輕量密集注意力模塊(ghost dense attention block,GDAblock),使用GDAblock替換原網(wǎng)絡(luò)中的基礎(chǔ)模塊,從而保證一定模型精度并大幅降低網(wǎng)絡(luò)參數(shù)量和運(yùn)算量。最后,為彌補(bǔ)網(wǎng)絡(luò)輕量化帶來的精度損失,重新設(shè)計(jì)了網(wǎng)絡(luò)輸出的特征融合方式,考慮了多個(gè)分辨率所包含的信息,使得網(wǎng)絡(luò)模型在輕量化與預(yù)測精度之間取得較好平衡。

        上述LDANet 在實(shí)現(xiàn)人體姿態(tài)估計(jì)時(shí)的優(yōu)勢主要體現(xiàn)為三點(diǎn):

        (1)GGCneck模塊采用Ghost卷積代替普通卷積,從而保證有效提取特征和減少網(wǎng)絡(luò)復(fù)雜度,同時(shí)添加注意力和深度卷積并構(gòu)建殘差快捷連接,提升了模型性能。

        (2)GDAblock 模塊使用的密集連接方式使得輸入通道被壓縮后仍保證了網(wǎng)絡(luò)深度與特征提取能力,且能使網(wǎng)絡(luò)復(fù)雜度有效下降,在通道壓縮過程采用Ghost 卷積提取特征,使網(wǎng)絡(luò)參數(shù)量與運(yùn)算量大幅下降,同時(shí)所用注意力模塊較常規(guī)注意力能減少特征降維帶來的信息損失,保證了模型的預(yù)測準(zhǔn)確率。

        (3)網(wǎng)絡(luò)輸出時(shí),充分利用低分辨率特征攜帶的信息,同時(shí)結(jié)合不同階段的高分辨率特征,將二者融合后再通過反卷積模塊進(jìn)一步提高分辨率,從而能獲取更精細(xì)的特征,提高模型預(yù)測準(zhǔn)確率。

        1 相關(guān)工作

        1.1 高分辨率網(wǎng)絡(luò)

        高分辨率網(wǎng)絡(luò)(HRNet)作為一類用于處理計(jì)算機(jī)視覺任務(wù)的網(wǎng)絡(luò),打破了傳統(tǒng)的串行連接方式,而使用多分辨率并行連接的結(jié)構(gòu),這樣可以一直保持網(wǎng)絡(luò)的高分辨率表示,同時(shí)通過反復(fù)跨并行卷積執(zhí)行多尺度融合,進(jìn)一步增強(qiáng)高分辨率的特征信息。其被大量研究者用作基礎(chǔ)網(wǎng)絡(luò),在語義分割、目標(biāo)檢測和人體姿態(tài)估計(jì)等領(lǐng)域均取得不錯(cuò)的成績,因此本文采用HRNet作為基礎(chǔ)框架。

        HRNet共四個(gè)階段:第一階段由一個(gè)高分辨率子網(wǎng)組成,從第二階段開始,每個(gè)階段增加一個(gè)分辨率分支子網(wǎng),且新增的子網(wǎng)分辨率為上一階段最低分辨率的一半,通道數(shù)為原來的二倍,各階段之間通過多尺度特征融合來交換信息。對于不同分辨率的特征圖,可以關(guān)注到圖像中不同尺度的特征,通過融合這些存在互補(bǔ)的特征,能獲得更好的人體特征表示。

        1.2 稠密卷積網(wǎng)絡(luò)

        稠密卷積網(wǎng)絡(luò)提出了以前饋的方式將每個(gè)層與其他層進(jìn)行簡單連接的方式來提取特征,與傳統(tǒng)的卷積網(wǎng)絡(luò)不同,它的某一層與之后的所有層之間都有一個(gè)直接連接,并且前面所有層的特征圖都將作為該層的輸入。對于傳遞到某一層的特征,通過維度的拼接來組合特征,這樣的密集連接模式不僅不會(huì)使得網(wǎng)絡(luò)變得繁重復(fù)雜,反而相較于傳統(tǒng)的卷積網(wǎng)絡(luò)所需的參數(shù)更少,因?yàn)樗恍枰匦聦W(xué)習(xí)冗余的特征圖,同時(shí)還能緩解梯度消失,加強(qiáng)特征傳播,使得特征得以重用[14]。

        1.3 注意力機(jī)制

        注意力機(jī)制通過學(xué)習(xí)卷積特征來實(shí)現(xiàn)對特征通道重新分配權(quán)重,主要包括擠壓(squeeze)和激勵(lì)(excitation)兩個(gè)操作。一些研究表明在稍微增加計(jì)算成本的情況下,融入注意力機(jī)制可以顯著改善輕量型網(wǎng)絡(luò)模型的性能[15]。其中,SE(squeeze-and-excitation)模塊[15]主要通過全局池化來建模特征通道之間的關(guān)系,但沒有考慮空間信息的重要性。卷積注意力模塊(convolutional block attention module,CBAM)[16]在此基礎(chǔ)上同時(shí)利用了空間和通道關(guān)系,并單獨(dú)生成注意力圖,最終與輸入特征圖相乘得到帶有注意力權(quán)重的特征圖。ECA(efficient channel attention)模塊[17]是一種捕捉局部跨通道信息交互的方法,它在不降低通道維數(shù)的情況下來進(jìn)行跨通道信息交互,只增加少量的參數(shù)卻能獲得明顯的性能增益。極化自注意力(polarized self-attention,PSA)模塊[18]作為一種更加精細(xì)的雙重注意力機(jī)制,能在通道和空間維度保持較高水平,這能進(jìn)一步減少降低維度所造成的信息損失。

        2 本文模型

        2.1 LDANet模型

        本文提出的LDANet網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖1所示。模型主體架構(gòu)與HRNet 相似,網(wǎng)絡(luò)分為四個(gè)階段:第一階段只包含一個(gè)最高分辨率分支網(wǎng)絡(luò),從第二階段開始,每個(gè)階段依次增加一個(gè)平行分支子網(wǎng)絡(luò),每個(gè)階段新增的子網(wǎng)絡(luò)分辨率為前一階段最低分辨率分支的一半,通道數(shù)提升為二倍。網(wǎng)絡(luò)整體為并行連接方式,采用四個(gè)階段使特征圖的分辨率漸進(jìn)式下降,避免大幅降低分辨率導(dǎo)致人體姿態(tài)的細(xì)節(jié)信息迅速丟失。第一階段包含四塊GGCneck,用于提取特征圖的特征。第二、三、四階段均由GDAblock 所構(gòu)成,且每階段使用的GDAblock 模塊數(shù)分別為1、3、2 塊,這使得網(wǎng)絡(luò)能保持一定深度,充分提取有用的特征信息。每個(gè)階段后采用多尺度融合進(jìn)行信息交流,使每個(gè)分支子網(wǎng)反復(fù)接收其他并行分支子網(wǎng)的信息。在輸入通過第一階段前先采用兩個(gè)3×3卷積進(jìn)行預(yù)處理,將圖像分辨率降為原來的1/4,通道數(shù)由3通道變?yōu)?4通道,經(jīng)過GGCneck模塊后使用卷積將最高分辨率分支通道數(shù)轉(zhuǎn)換為32,使得四個(gè)分支的通道數(shù)分別為32、64、128 和256,圖像分辨率分別為原圖的1/4、1/8、1/16和1/32。

        圖1 LDANet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 LDANet network structure

        在第四階段,將來自該階段的后三個(gè)分支子網(wǎng)絡(luò)的特征圖依次使用雙線性上采樣再相加,同時(shí)結(jié)合前三個(gè)階段的最高分辨率特征圖,一起融合至第一分支子網(wǎng)絡(luò)的特征圖中,再將融合后的特征圖輸入反卷積模塊,以預(yù)測人體關(guān)鍵點(diǎn),進(jìn)而實(shí)現(xiàn)人體姿態(tài)估計(jì)。

        2.2 GGCneck模塊

        本文設(shè)計(jì)了如圖2所示的GGCneck模塊,用于替換HRNet網(wǎng)絡(luò)模型中的瓶頸模塊,其主要由兩個(gè)1×1Ghost卷積、一個(gè)3×3 深度卷積和GCBlock(global context block)[19]構(gòu)成。GGCneck 模塊可以有效降低運(yùn)算復(fù)雜度和部分網(wǎng)絡(luò)參數(shù)量,同時(shí)帶來一定的性能提升。

        圖2 GGCneck模塊結(jié)構(gòu)Fig.2 GGCneck module structure

        未使用普通的卷積而采用Ghost卷積是因?yàn)橥ǔR粋€(gè)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)包含很多冗余特征圖,而Ghost卷積可以有效地解決這個(gè)問題[13]。其主要思想是將原始卷積層拆分為兩部分:首先使用一個(gè)主卷積用較少的通道生成初始特征圖,然后通過已經(jīng)生成的通道特征圖進(jìn)行簡單的線性變換,生成更多的通道特征圖。假定為生成n個(gè)特征圖,有m個(gè)初始特征圖Y∈Rm×h×w由主卷積生成,如式(1)所示:

        其中,m≤n,X∈Rc×h×w為輸入數(shù)據(jù),*代表卷積操作,f∈Rc×k×k×m表示卷積濾波器,k×k為卷積濾波器的卷積核大小。為了得到n個(gè)特征圖,利用一些簡單的線性操作在初始特征圖Y上生成s個(gè)Ghost特征[13],如式(2)所示。

        其中,yi表示特征圖Y中由主卷積生成的第i個(gè)特征圖;Φi,j表示利用第j個(gè)線性操作將yi生成第j個(gè)Ghost 特征圖yij,也就是說yi可以有1 個(gè)或多個(gè)Ghost特征圖,而最后一個(gè)線性操作Φi,s是保持原有特征的恒等映射。根據(jù)式(2)可以得到n=m×s個(gè)特征圖Y′=[y11,y12,…,yms]作為Ghost 卷積的輸出,Ghost 卷積的結(jié)構(gòu)如圖3所示。

        圖3 Ghost卷積Fig.3 Ghost convolution

        相較于普通卷積,使用線性操作能使計(jì)算成本大大降低。Ghost 卷積包括一個(gè)恒等映射和m×(s-1) 個(gè)線性運(yùn)算,理論上使用普通卷積與Ghost 卷積的運(yùn)算復(fù)雜度之比和參數(shù)量之比為:

        其中,d為線性操作的內(nèi)核大小,與k量級(jí)相同,且s?c,模塊中s為2。

        GGCneck模塊中第一個(gè)Ghost 卷積作為擴(kuò)展層,相對于輸入增加了通道數(shù),之后是批歸一化(BN)和線性整流函數(shù)(ReLU),第二個(gè)Ghost卷積用于將通道數(shù)對齊到模塊的輸出通道,兩個(gè)Ghost 卷積中間使用一個(gè)步幅為2的3×3深度卷積組成瓶頸結(jié)構(gòu),深度卷積可以使用較少的參數(shù)生成特征。在第二個(gè)Ghost卷積的BN之后還連接了一個(gè)GCBlock模塊,它可以在計(jì)算成本增加很少的情況下捕獲長期依賴[19],提升網(wǎng)絡(luò)的性能。模塊最后還結(jié)合了ResNet[20]的原理,使用殘差連接將輸入與卷積操作后的輸出結(jié)果進(jìn)行求和后再輸出,從而獲得更優(yōu)的特征提取效果。

        2.3 GDAblock模塊

        文中提出的GDAblock模塊由4層密集單元構(gòu)成,每個(gè)密集單元融入了2個(gè)Ghost卷積和1個(gè)PSA模塊,同時(shí)使用3×3深度卷積為密集單元構(gòu)建了殘差快捷連接,其結(jié)構(gòu)如圖4所示。受稠密卷積網(wǎng)絡(luò)[14]的啟發(fā),GDAblock使用密集連接在每個(gè)密集單元之間進(jìn)行通道維度上的拼接,使每一層都可以接受來自前面所有層的特征信息,這使得特征得以重用并保證梯度的快速傳遞,同時(shí)參數(shù)量和運(yùn)算量也得到降低。第l層的輸入可表示為式(5):

        圖4 GDAblock模塊結(jié)構(gòu)Fig.4 GDAblock module structure

        其中x1,…,xl-1代表前l(fā)-1 層的輸出特征圖,x0為原始輸入,[]表示拼接,Hl( )表示將第l層的輸入拼接為一張量。第l層的輸入通道數(shù)可由式(6)計(jì)算:

        其中,k0為最初輸入特征圖的通道數(shù);k為網(wǎng)絡(luò)的增長率,即每個(gè)密集單元的輸出通道數(shù),文中k=12,每一層密集單元都通過對輸入降維得到該通道數(shù),以預(yù)防大量的特征拼接導(dǎo)致計(jì)算量快速上升。本文還在每個(gè)分辨率子網(wǎng)的GDAblock 模塊后添加一個(gè)通道轉(zhuǎn)換層,確保每個(gè)分支子網(wǎng)的輸出通道數(shù)正確。

        每個(gè)密集單元首先使用一個(gè)3×3Ghost卷積對特征進(jìn)行提取,同時(shí)對輸入進(jìn)行通道壓縮,壓縮通道數(shù)固定為αk,α表示壓縮系數(shù),模塊中α取4,這能使模塊產(chǎn)生的參數(shù)量和運(yùn)算量更少;然后將數(shù)據(jù)經(jīng)批歸一化(BN)和線性整流函數(shù)(ReLU)后輸入PSA 模塊,再經(jīng)第二個(gè)Ghost 卷積轉(zhuǎn)換通道數(shù)為k;最后結(jié)合3×3 深度卷積構(gòu)成的殘差快捷連接得到密集單元的輸出。使用深度卷積構(gòu)建殘差連接能加速模型的收斂且不會(huì)帶來過多的參數(shù)量和運(yùn)算量。

        由式(4)知Ghost 卷積在通道數(shù)相同時(shí)參數(shù)量僅為普通卷積的1/2,由于使用密集連接,使得密集單元在對輸入通道壓縮后依然保證了網(wǎng)絡(luò)的深度與特征提取能力,但通道壓縮后可使參數(shù)量大幅降低。以網(wǎng)絡(luò)的第二分辨率分支為例,可計(jì)算通道數(shù)為64的普通3×3卷積的參數(shù)量,其大約是該分支GDAblock 的第一層密集單元中兩個(gè)Ghost卷積的2.6倍和13倍。網(wǎng)絡(luò)中使用大量的GDAblock模塊用于提取特征,且輸入通道數(shù)越大,較常規(guī)卷積相比,參數(shù)量降低越明顯,因此GDAblock能大大降低模型的參數(shù)量。

        相較于常規(guī)注意力模塊,PSA模塊能在空間和通道維度保持內(nèi)部高分辨率,從而減少特征降維帶來的信息損失[18],同時(shí)在維度被壓縮的分支采用Softmax 函數(shù)增強(qiáng)注意力的范圍,最后使用Sigmoid 函數(shù)進(jìn)行動(dòng)態(tài)映射。結(jié)合PSA模塊[18]的原理,將空間自注意力和通道自注意力分支采用串聯(lián)的融合方式得到圖5 所示的PSA模塊。

        圖5 PSA模塊Fig.5 PSA module

        空間自注意力分支的權(quán)重計(jì)算公式如式(7)所示:

        式中,Wq和Wv分別表示標(biāo)準(zhǔn)的1×1 卷積,σ1、σ2、σ3代表張量重塑運(yùn)算,F(xiàn)GP表示全局平均池化操作,F(xiàn)SM為Softmax 函數(shù),×為矩陣點(diǎn)積運(yùn)算,F(xiàn)SG為Sigmoid 函數(shù)。首先通過1×1卷積將輸入特征分別轉(zhuǎn)換為q和v,對于特征q,先使用全局平均池化對空間維度進(jìn)行壓縮,轉(zhuǎn)換為1×1 大小,而特征v的空間維度則保持在較高水平(h×w),由于特征q的空間維度被壓縮,采用Softmax 函數(shù)對q的特征信息進(jìn)行增強(qiáng),然后將q和v進(jìn)行矩陣點(diǎn)乘運(yùn)算,再將維度轉(zhuǎn)換為1×h×w,最后使用Sigmoid 函數(shù)使得輸出保持在0~1 之間,得到的空間分支輸出為Zsp=Asp(X)⊙spX,其中⊙sp表示空間分支的乘法運(yùn)算符。

        通道自注意力分支的權(quán)重計(jì)算公式為式(8):

        其中,Wz|θ1表示先對特征Unsqueeze 再進(jìn)行1×1 卷積,其余同上。得到空間分支的輸出后,將其送入通道分支,同樣先通過卷積將特征轉(zhuǎn)換為q和v,其中特征q的通道維度被完全壓縮,而特征v的通道維度仍然使其維持在較高水平( )c/4 。因q的通道被壓縮,所以采用Softmax 函數(shù)對q的特征信息進(jìn)行增強(qiáng),然后將q與v進(jìn)行矩陣點(diǎn)乘,同時(shí)對其進(jìn)行Unsqueeze,使得特征維度變?yōu)閏/4×1×1,最后再使用1×1 卷積將通道維度上調(diào)為c,同時(shí)使用Sigmoid函數(shù)使輸出保持在0~1 之間,通道分支的輸出表示為Zch=Ach(X)⊙chX,其中⊙ch表示通道分支的乘法運(yùn)算符。

        最終PSA模塊的輸出可以表示為:

        使用GDAblock 替換HRNet 中的基礎(chǔ)模塊,實(shí)驗(yàn)結(jié)果表明模型的參數(shù)量和運(yùn)算量都得到大幅降低,同時(shí)保證了一定的檢測精度。

        2.4 特征融合方式

        本文方法在每個(gè)階段均采用反復(fù)多尺度融合,使每個(gè)子網(wǎng)絡(luò)重復(fù)接收來自其他并行子網(wǎng)的信息。即融合時(shí)相同分辨率的特征不做處理,由高分辨率到低分辨率的特征圖采用步幅為2的3×3卷積層進(jìn)行下采樣,而從低分辨率到高分辨率的特征圖則采用最鄰近上采樣方法,若分辨率分支跨度超過2則進(jìn)行多次上采樣或下采樣。

        HRNet 使用的是第四階段的最高分辨率輸出來回歸熱圖,這沒有充分利用其他三個(gè)低分辨率子網(wǎng)的信息,因此本文改進(jìn)最后的特征融合方法。受HigherHRNet[11]的啟發(fā),進(jìn)一步提高特征圖的分辨率有助于提取到更精細(xì)的特征。從圖1的最后特征融合部分可看到,從最低分辨率特征圖開始,通過雙線性上采樣得到高一級(jí)分辨率的特征圖,將其與該級(jí)分辨率特征圖相加后繼續(xù)上采樣,直到最高分辨率為止,同時(shí)取前三階段的最高分辨率特征圖加入融合,這樣可以得到不同階段和層次的信息。最后,將融合輸出通過一反卷積模塊,其結(jié)構(gòu)如圖6所示。

        圖6 反卷積模塊結(jié)構(gòu)Fig.6 Deconvolution module structure

        輸入特征圖先經(jīng)過卷積進(jìn)行通道轉(zhuǎn)換,結(jié)果再與輸入特征進(jìn)行維度上的拼接,然后將結(jié)果通過一個(gè)卷積核大小為4×4的反卷積,使得特征圖的分辨率提升為原來的2 倍,再將其通過4 層融入PSA 的基本模塊進(jìn)一步提取特征,最后使用卷積轉(zhuǎn)換通道數(shù),并使網(wǎng)絡(luò)輸入與輸出的圖像分辨率保持一致,得到最終輸出,從而預(yù)測熱圖。這使得預(yù)測的人體關(guān)鍵點(diǎn)更為準(zhǔn)確,但缺點(diǎn)是造成了模型參數(shù)和計(jì)算量的小幅上升?;灸K如圖7所示。

        圖7 基本模塊Fig.7 Basic module

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 數(shù)據(jù)集介紹

        本文模型在兩個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,分別是MPII[21]數(shù)據(jù)集和COCO 數(shù)據(jù)集。MPII 包括24 984 張圖片,其中有4萬個(gè)不同的人體實(shí)例,每個(gè)實(shí)例都有16個(gè)標(biāo)注的人體關(guān)鍵點(diǎn),用大約1.2萬個(gè)人體實(shí)例作為測試,其余用作訓(xùn)練。

        COCO數(shù)據(jù)集中包含了20萬張以上的圖片,其中擁有標(biāo)注的人體實(shí)例大約25 萬個(gè),每個(gè)人體實(shí)例標(biāo)注了17個(gè)人體關(guān)鍵點(diǎn)。使用包含5.7萬張圖片的訓(xùn)練集進(jìn)行模型訓(xùn)練,在0.5萬張圖片的驗(yàn)證集進(jìn)行驗(yàn)證,在2萬張圖片的測試集上進(jìn)行測試。

        3.2 評價(jià)指標(biāo)

        文中MPII數(shù)據(jù)集采用PCKh(head-normalized probability of correct keypoint)[21]指標(biāo)評測。若預(yù)測的關(guān)鍵點(diǎn)坐標(biāo)與真實(shí)關(guān)鍵點(diǎn)坐標(biāo)小于al個(gè)像素,則預(yù)測正確,其中a為一閾值,l為頭部尺寸對應(yīng)于真實(shí)頭部邊界框?qū)蔷€長度的60%。文中采用a=0.5(PCKh@0.5)時(shí)的各關(guān)節(jié)點(diǎn)準(zhǔn)確度作為評估標(biāo)準(zhǔn),評估關(guān)鍵點(diǎn)分別為頭部(head)、肩部(shoulder)、肘部(elbow)、腕部(wrist)、髖部(hip)、膝部(knee)和踝部(ankle)。

        COCO 數(shù)據(jù)集采用MS COCO 官方給定的目標(biāo)關(guān)鍵點(diǎn)相似性(object keypoint similarity,OKS)[22]作為評估標(biāo)準(zhǔn),其中包括AP(在OKS=0.50,0.55,…,0.90,0.95時(shí)10個(gè)位置預(yù)測關(guān)鍵點(diǎn)準(zhǔn)確率的平均值)、AP50(OKS=0.5 時(shí)的準(zhǔn)確率)、AP75(OKS=0.75 時(shí)的準(zhǔn)確率)、APM(中型物體檢測準(zhǔn)確率)、APL(大型物體檢測準(zhǔn)確率)、AR(在OKS=0.50,0.55,…,0.90,0.95時(shí)10個(gè)位置的平均召回率)。OKS定義式如下:

        其中,di表示每個(gè)真實(shí)關(guān)鍵點(diǎn)與預(yù)測關(guān)鍵點(diǎn)之間的歐氏距離,vi是真實(shí)關(guān)鍵點(diǎn)的可見標(biāo)志位,s是目標(biāo)尺度,ki為歸一化因子,δ(vi >0) 表示關(guān)鍵點(diǎn)可見性大于0。OKS在0~1 之間取值,值越接近1表明預(yù)測效果越好。

        3.3 實(shí)驗(yàn)環(huán)境及設(shè)置

        本實(shí)驗(yàn)使用的服務(wù)器系統(tǒng)為Ubuntu20.04LTS,CPU為i7-11700K,顯卡為GeForce RTX 3080Ti,顯存大小為12 GB,深度學(xué)習(xí)框架為PyTorch1.9.1,軟件平臺(tái)為Python3.7。訓(xùn)練選用Adam優(yōu)化器對模型進(jìn)行優(yōu)化,訓(xùn)練周期設(shè)置為230,批量大小為20,初始學(xué)習(xí)率為0.001,訓(xùn)練周期到190時(shí)學(xué)習(xí)率調(diào)整為0.000 1。

        由于數(shù)據(jù)集中的圖片大小不一,需要對數(shù)據(jù)預(yù)處理后再進(jìn)行訓(xùn)練。將圖像以人體髖部為中心進(jìn)行裁剪,COCO 數(shù)據(jù)集圖像尺寸大小裁剪為256×192 與384×288,MPII數(shù)據(jù)集則裁剪為256×256,便于與其他方法對比,裁剪后固定其比例為4∶3。最后采取與HRNet同樣的數(shù)據(jù)擴(kuò)充策略,即使用隨機(jī)旋轉(zhuǎn)(-45°,45°) 和隨機(jī)縮放(-0.65,1.35) 對數(shù)據(jù)進(jìn)行處理。

        3.4 實(shí)驗(yàn)驗(yàn)證與分析

        本文方法分別在COCO數(shù)據(jù)集和MPII數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,與其他一些具有代表性的方法在準(zhǔn)確性、參數(shù)量以及運(yùn)算復(fù)雜度等方面比較,在COCO 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果如表1 所示。結(jié)果表明本文方法相較于一些先進(jìn)的人體姿態(tài)估計(jì)網(wǎng)絡(luò),如Hourglass[6]、CPN[7]、CPN+OHKM[7]、SimpleBaseline[8]和HigherHRNet[11]等,LDANet的參數(shù)量和運(yùn)算復(fù)雜度最少且達(dá)到較高的性能。

        表1 COCO驗(yàn)證集實(shí)驗(yàn)結(jié)果對比Table 1 Experimental results comparison on COCO validation set

        相比較于HRNet,本文模型在COCO數(shù)據(jù)集下檢測的平均準(zhǔn)確率AP提高了0.6個(gè)百分點(diǎn),在AP50處的準(zhǔn)確率提高了3.0個(gè)百分點(diǎn);但在模型參數(shù)量上,本文方法比HRNet 降低了71.5%;在運(yùn)算復(fù)雜度上,本文模型的GFLOPs 比HRNet 縮小了35.2%;在模型大小上,比HRNet減少了69.6%,而其他一些性能指標(biāo)與HRNet保持了基本相同的分布。與輕量化模型LPN相比,盡管本文模型參數(shù)量增加了7.0×105,GFLOPs上升了2.8,但所有的性能指標(biāo)均優(yōu)于LPN,平均精度還提升了3.0 個(gè)百分點(diǎn)。與最新的輕量型網(wǎng)絡(luò)模型Lite-HRNet 相比,LDANet 雖然提升了模型參數(shù)量和運(yùn)算復(fù)雜度,但模型性能方面領(lǐng)先較多,在平均精度AP 上提升了6.8 個(gè)百分點(diǎn)。

        表2是本文方法在COCO 測試集上與其他方法的對比實(shí)驗(yàn)結(jié)果,且LDANet 沒有加載預(yù)訓(xùn)練模型,而其他方法均加載了預(yù)訓(xùn)練模型,從而導(dǎo)致檢測精度低于驗(yàn)證集上的效果,但模型的參數(shù)量和運(yùn)算復(fù)雜度依舊降低了71.5%和35.2%。COCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法不僅能保持較好的預(yù)測精度,同時(shí)可以有效減少模型參數(shù)量和計(jì)算量,在模型精度和大小之間取得較好平衡。

        表2 COCO測試集實(shí)驗(yàn)結(jié)果對比Table 2 Experimental results comparison on COCO test set

        本文模型在MPII 數(shù)據(jù)集上測試了7 個(gè)部位的準(zhǔn)確率,為便于與其他方法對比,輸入圖片尺寸為256×256,這使得模型運(yùn)算復(fù)雜度與之前存在差異,測試結(jié)果如表3所示。結(jié)果表明,相較于HRNet,本文模型在腕部、膝部和踝部的檢測效果略差,導(dǎo)致了總的檢測精度略低于HRNet,但在保證足夠的檢測精度條件下依然有效降低了參數(shù)和計(jì)算量,且GFLOPs 減少了35.8%。從表中還能看到,本文方法總體與其他方法在檢測精度上差別不大,但在某些部位有明顯提升,根據(jù)文獻(xiàn)[23],造成這種性能差異不大的情況是因?yàn)镸PII數(shù)據(jù)集的準(zhǔn)確率趨于飽和,但模型參數(shù)與計(jì)算量下降基本超過50%以上。與輕量型網(wǎng)絡(luò)Lite-HRNet相比,本文模型總體性能提升了2.9%,且該網(wǎng)絡(luò)性能在對比模型中表現(xiàn)最差。通過上述實(shí)驗(yàn)結(jié)果可知,本文方法在降低模型參數(shù)量和運(yùn)算復(fù)雜度方面具有不錯(cuò)的效果,并未因?yàn)槟P洼p量化后造成性能的明顯下降,在模型性能和輕量化效果之間取得較好平衡。

        表3 MPII驗(yàn)證集實(shí)驗(yàn)結(jié)果對比Table 3 Experimental results comparison on MPII validation set

        3.5 消融實(shí)驗(yàn)分析

        本文在COCO驗(yàn)證集上進(jìn)行消融實(shí)驗(yàn),分別單獨(dú)將GGCneck、GDAblock、GGCneck+GDAblock和改進(jìn)的網(wǎng)絡(luò)輸出特征融合部分用于優(yōu)化HRNet,從而驗(yàn)證LDANet中各模塊以及特征融合方式對人體關(guān)鍵點(diǎn)預(yù)測準(zhǔn)確率和模型復(fù)雜度的影響程度。實(shí)驗(yàn)結(jié)果如表4所示。

        表4 消融實(shí)驗(yàn)Table 4 Ablation experiment

        當(dāng)使用GGCneck模塊替換HRNet中的瓶頸塊使網(wǎng)絡(luò)的平均準(zhǔn)確率提升0.8 個(gè)百分點(diǎn),同時(shí)運(yùn)算量降低13.6%,參數(shù)量也略微減少。將HRNet 中的基本模塊全部替換為GDAblock后,模型參數(shù)量減少73.5%,同時(shí)運(yùn)算量降低41.8%,但檢測的平均準(zhǔn)確率也下降了3.1 個(gè)百分點(diǎn),將兩個(gè)模塊都融入HRNet后參數(shù)量和運(yùn)算量再次減少,AP 較原網(wǎng)絡(luò)下降2.2 個(gè)百分點(diǎn),這表明在一定程度上網(wǎng)絡(luò)輕量化的同時(shí)不可避免會(huì)帶來精度損失。當(dāng)對原網(wǎng)絡(luò)單獨(dú)改進(jìn)特征融合部分后,AP提升2.4個(gè)百分點(diǎn),但缺點(diǎn)是帶來了計(jì)算量和參數(shù)量的上升。綜上實(shí)驗(yàn)結(jié)果,本文方法在模型精度和輕量化之間能取得較好平衡。

        為進(jìn)一步驗(yàn)證注意力對模型的影響,分別構(gòu)建了采用PSA 模塊、CBAM 模塊和不添加注意力模塊的GDAblock,將其分別加入HRNet對網(wǎng)絡(luò)進(jìn)行改進(jìn),其實(shí)驗(yàn)結(jié)果如表5所示。添加CBAM后的GDAblock較不添加注意力,模型精度提升了0.8個(gè)百分點(diǎn),而模型參數(shù)和運(yùn)算量僅略微增加,表明添加注意力在不影響模型復(fù)雜度的同時(shí)能有效提升模型精度。而采用PSA模塊時(shí),雖然較使用CBAM 模塊模型參數(shù)增加1.5×105,運(yùn)算復(fù)雜度上升0.14 GFLOPs,但對模型整體復(fù)雜度的影響可忽略不計(jì),同時(shí)模型預(yù)測精度提升了1.1 個(gè)百分點(diǎn)。結(jié)果表明,添加PSA模塊僅增加很少的網(wǎng)絡(luò)復(fù)雜度便能有效提升模型預(yù)測精度。

        表5 不同注意力對比Table 5 Comparison of different attentions

        3.6 可視化結(jié)果

        本文對LDANet 網(wǎng)絡(luò)在COCO 數(shù)據(jù)集上的測試結(jié)果進(jìn)行了可視化操作,隨機(jī)選取帶有模糊、遮擋、大目標(biāo)、小目標(biāo)的單人和多人圖片,如圖8所示??梢钥吹?,不論是單人還是多人的圖片,本文方法都能較為準(zhǔn)確地檢測到人體關(guān)鍵點(diǎn),當(dāng)圖中人物存在模糊或遮擋時(shí),也能獲得較好的預(yù)測效果。這表明本文提出的方法具有一定的魯棒性,可以保證大部分情況下較為準(zhǔn)確地檢測到人體關(guān)鍵點(diǎn),從而進(jìn)行人體姿態(tài)估計(jì)。

        圖8 COCO數(shù)據(jù)集測試結(jié)果可視化展示Fig.8 Visual display of test results on COCO data set

        4 結(jié)束語

        本文從減少網(wǎng)絡(luò)參數(shù)與運(yùn)算復(fù)雜度的目標(biāo)出發(fā),結(jié)合注意力與密集連接的方法提出了一種輕量型人體姿態(tài)估計(jì)網(wǎng)絡(luò)LDANet。網(wǎng)絡(luò)以HRNet 為基礎(chǔ)架構(gòu),采用GGCneck 模塊和GDAblock 模塊作為瓶頸模塊和基礎(chǔ)模塊,使網(wǎng)絡(luò)輕量的同時(shí)保證對特征的提取能力,并優(yōu)化網(wǎng)絡(luò)的特征融合方式,使得最終預(yù)測精度能與現(xiàn)有的優(yōu)秀模型相媲美。在公開數(shù)據(jù)集MPII和COCO上的實(shí)驗(yàn)結(jié)果表明,本文方法可以有效改善網(wǎng)絡(luò)的運(yùn)算復(fù)雜度和參數(shù)量與模型預(yù)測準(zhǔn)確性之間的矛盾。就網(wǎng)絡(luò)模型而言,如何在保持高估計(jì)精度的前提下,進(jìn)一步降低模型參數(shù)量和運(yùn)算復(fù)雜度,并將其應(yīng)用于實(shí)際生活中是接下來需要致力研究的內(nèi)容。

        猜你喜歡
        關(guān)鍵點(diǎn)復(fù)雜度分辨率
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
        EM算法的參數(shù)分辨率
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        原生VS最大那些混淆視聽的“分辨率”概念
        求圖上廣探樹的時(shí)間復(fù)雜度
        基于深度特征學(xué)習(xí)的圖像超分辨率重建
        一種改進(jìn)的基于邊緣加強(qiáng)超分辨率算法
        某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
        出口技術(shù)復(fù)雜度研究回顧與評述
        亚洲五月七月丁香缴情| 亚洲精品无码永久中文字幕| 韩国三级在线观看久| 日产无人区一线二线三线乱码蘑菇| 男女肉粗暴进来120秒动态图| 日本少妇被爽到高潮的免费| 成av人片一区二区三区久久| 人妻经典中文字幕av| 日韩精品 在线 国产 丝袜| 中文字幕无码毛片免费看| 又硬又粗又大一区二区三区视频| 国产精品一区2区三区| 国产精品成人久久一区二区| 国产免费网站在线观看不卡| 激情亚洲一区国产精品久久| 好男人社区影院www| 成年午夜无码av片在线观看| 精品亚洲少妇一区二区三区 | 天码人妻一区二区三区| 亚洲永久精品ww47永久入口| 日韩有码中文字幕第一页| 亚洲不卡免费观看av一区二区| 18国产精品白浆在线观看免费| 精品人妻va出轨中文字幕| 国产精品久久中文字幕第一页 | 国产精品成人观看视频| 国产精品无码久久久久免费AV| 亚洲午夜精品国产一区二区三区| 女人被躁到高潮嗷嗷叫免| 色欲aⅴ亚洲情无码av| 永久免费无码av在线网站| 久九九久视频精品网站| 91l视频免费在线观看| 欧美熟妇另类久久久久久不卡 | 黑人巨大av在线播放无码| 亚洲欧美日韩国产精品一区| 久久亚洲精品中文字幕蜜潮 | 成人试看120秒体验区| 亚洲精品成人网站在线观看| 91色婷婷成人精品亚洲| 放荡成熟人妻中文字幕|