亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        強(qiáng)化先驗(yàn)骨架結(jié)構(gòu)的輕量型高效人體姿態(tài)估計(jì)

        2024-02-12 07:43:04孫雪菲張瑞峰關(guān)欣李鏘
        關(guān)鍵詞:關(guān)鍵點(diǎn)全局卷積

        孫雪菲,張瑞峰,關(guān)欣,李鏘

        (天津大學(xué) 微電子學(xué)院,天津 300072)

        在計(jì)算機(jī)視覺(jué)領(lǐng)域,二維人體姿態(tài)估計(jì)一直是重要且極具挑戰(zhàn)性的問(wèn)題,具有廣泛的應(yīng)用場(chǎng)景,例如人體動(dòng)作識(shí)別、人機(jī)交互、虛擬現(xiàn)實(shí)、視頻監(jiān)控、人體軌跡跟蹤等[1].由于人體關(guān)節(jié)的復(fù)雜性、高度靈活性和不同質(zhì)量圖像、視頻中人體部分的完整性、差異性等因素,在基于視覺(jué)的運(yùn)動(dòng)姿勢(shì)、樂(lè)器演奏姿勢(shì)捕捉矯正、虛擬人動(dòng)作生成、外骨骼機(jī)器人中人體運(yùn)動(dòng)數(shù)據(jù)獲取等應(yīng)用場(chǎng)景中,人體關(guān)鍵點(diǎn)檢測(cè)仍然難以滿(mǎn)足高精度的需求.

        隨著卷積神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,人體姿態(tài)估計(jì)取得了巨大進(jìn)展.研究人員提出了許多經(jīng)典模型,旨在解決如何從圖像中提取不同階段的多尺度特征以及如何高效地融合語(yǔ)義、通道、空間信息等問(wèn)題.Newell 等[2]利用多個(gè)基礎(chǔ)沙漏模型提取多尺度特征,以關(guān)注人體圖像的空間信息,但受網(wǎng)絡(luò)深度的制約,模型精度有待提升.Chen 等[3]基于特征金字塔結(jié)構(gòu),提出兩階段網(wǎng)絡(luò),融合了多尺度特征信息,可以分別檢測(cè)容易與困難2 種關(guān)鍵點(diǎn).Xiao 等[4]首次提出單階段姿態(tài)估計(jì)網(wǎng)絡(luò),采用編解碼的方式,簡(jiǎn)單、有效地識(shí)別關(guān)鍵點(diǎn),但是網(wǎng)絡(luò)參數(shù)量較大,計(jì)算效率不高.Sun 等[5]提出高分辨率網(wǎng)絡(luò)(high-resolution network,HRNet),能夠保持原始圖像的空間位置信息,通過(guò)多尺寸特征融合增強(qiáng)對(duì)關(guān)鍵點(diǎn)的識(shí)別能力.

        雖然現(xiàn)有網(wǎng)絡(luò)可以很好地完成人體關(guān)鍵點(diǎn)估計(jì)任務(wù),但仍存在以下問(wèn)題.

        (1)網(wǎng)絡(luò)無(wú)法實(shí)現(xiàn)精度與效率的平衡.使用輕量級(jí)模塊降低模型參數(shù)量,往往會(huì)降低識(shí)別精度.如何在保持網(wǎng)絡(luò)結(jié)構(gòu)輕量化的同時(shí)提升模型的識(shí)別精度,有待進(jìn)一步的研究.

        (2)人體骨架結(jié)構(gòu)的特有屬性未被充分利用.軀干特定布局的先驗(yàn)知識(shí)可以幫助精準(zhǔn)定位人體所在的位置以及關(guān)鍵點(diǎn)之間的拓?fù)浣Y(jié)構(gòu),強(qiáng)化全局空間位置信息并且結(jié)合上下文信息,由此可以獲得更好的估計(jì)效果.

        (3)未結(jié)合人體關(guān)鍵點(diǎn)分布的方向特性,例如水平方向的肩部關(guān)鍵點(diǎn)和垂直方向的腿部關(guān)鍵點(diǎn).當(dāng)融合不同分辨率的特征圖像時(shí),減少空間特征信息的流失,可以有效地提升模型性能.

        針對(duì)以上問(wèn)題,本文提出強(qiáng)化先驗(yàn)骨架結(jié)構(gòu)的輕量型高效人體姿態(tài)估計(jì)網(wǎng)絡(luò).為了較好地保留空間信息并融合不同尺度的特征,選取HRNet 作為基礎(chǔ)網(wǎng)絡(luò).引入輕量倒殘差模塊(lightweight inverse residual module,LIRM),能夠減少網(wǎng)絡(luò)參數(shù)量,保持較高的估計(jì)精度.為了強(qiáng)化圖像中關(guān)鍵點(diǎn)的空間特征和上下文信息,設(shè)計(jì)體位強(qiáng)化模塊(postural enhancement module,PEM).提出方向強(qiáng)化卷積模塊(direction-enhanced convolution module,DCM),改善多尺度特征融合中關(guān)鍵信息容易流失的情況.綜上所述,利用該網(wǎng)絡(luò),能夠輕量、高效地實(shí)現(xiàn)對(duì)人體關(guān)鍵點(diǎn)的估計(jì),實(shí)現(xiàn)了精度與效率的平衡.

        1 相關(guān)工作

        在計(jì)算機(jī)視覺(jué)領(lǐng)域中,不同的特征提取方式可以實(shí)現(xiàn)不同的效果.MobileNet[6]使用中間大、兩頭小的逆瓶頸層架構(gòu),可以有效地避免特征信息流失,提取更多的特征信息.ShuffleNet[7]提取圖像語(yǔ)義特征,采用多種輕量級(jí)卷積,大幅度減少模型參數(shù)量,便于在移動(dòng)設(shè)備上使用.Transformer 利用自注意力機(jī)制,有效地獲取全局信息,使得模型表達(dá)能力增強(qiáng),結(jié)構(gòu)上在編解碼中融合逆瓶頸層,減少歸一化和激活函數(shù),減少訓(xùn)練壓力.遞歸金字塔[8]和特征金字塔[9]模塊的提出,能夠充分利用局部和全局信息,整合多尺度特征圖像內(nèi)所包含的不同信息,增強(qiáng)模型特征的表達(dá)能力.自適應(yīng)卷積[10]和動(dòng)態(tài)卷積[11]可以根據(jù)輸入自適應(yīng)調(diào)整每個(gè)卷積核的權(quán)重.這種動(dòng)態(tài)調(diào)整參數(shù)的方式以小幅度增加計(jì)算量為代價(jià),換取了模型表達(dá)能力的顯著提升.對(duì)于人體姿態(tài)估計(jì)任務(wù),可以根據(jù)不同目的,針對(duì)性地采用合適的特征提取方式,有利于提升關(guān)鍵點(diǎn)的識(shí)別精度.除此之外,注意力機(jī)制可以根據(jù)網(wǎng)絡(luò)中每層不同的特征信息的重要程度調(diào)整相應(yīng)的權(quán)重系數(shù),更加突出重要的關(guān)鍵信息.通道注意力[12]可以自適應(yīng)地校準(zhǔn)每個(gè)通道的權(quán)重,使得網(wǎng)絡(luò)加強(qiáng)對(duì)關(guān)鍵通道特征的利用.空間注意力[13]可以視為空間區(qū)域選擇機(jī)制,有助于更好地劃分關(guān)鍵點(diǎn)所在的區(qū)域,有效提升了關(guān)鍵點(diǎn)定位精度.混合注意力[14]結(jié)合通道注意力和空間注意力,共同提升人體關(guān)鍵點(diǎn)的估計(jì)效果.

        2 研究方法

        假設(shè)包含人體的圖像I有K個(gè)待檢測(cè)的骨骼關(guān)鍵點(diǎn).將人體姿態(tài)估計(jì)任務(wù)分為以下2 個(gè)階段處理.1)估計(jì)K張尺寸為H′×W′的熱圖Hk,以表示每個(gè)骨骼關(guān)鍵點(diǎn)的位置置信度.2)利用argmax函數(shù)求出預(yù)測(cè)熱圖最大值點(diǎn)的坐標(biāo),按比例將坐標(biāo)復(fù)原到原始圖片尺寸,得到最終的輸出結(jié)果.

        2.1 整體網(wǎng)絡(luò)框架

        本文提出的網(wǎng)絡(luò)采用強(qiáng)化先驗(yàn)骨架結(jié)構(gòu)的方法,具有輕量、高效的特點(diǎn),完整的網(wǎng)絡(luò)框架如圖1所示.通過(guò)步長(zhǎng)為2 的3×3 卷積,將預(yù)處理后圖像的分辨率降至目標(biāo)熱圖的分辨率.網(wǎng)絡(luò)共有4 個(gè)階段,每個(gè)階段逐步增加一個(gè)低分辨率特征圖像的分支,各分支的分辨率從目標(biāo)熱圖的分辨率開(kāi)始依次減半,通道數(shù)依次加倍.將多分辨率的子網(wǎng)絡(luò)并行連接,利用多尺度特征信息對(duì)人體姿態(tài)關(guān)鍵點(diǎn)進(jìn)行估計(jì).

        圖1 強(qiáng)化先驗(yàn)骨架結(jié)構(gòu)的人體姿態(tài)估計(jì)網(wǎng)絡(luò)整體架構(gòu)Fig.1 General architecture of human pose estimation network with enhanced priori skeleton structure

        第1 個(gè)階段用Bottleneck 提取人體姿態(tài)相關(guān)的語(yǔ)義信息和關(guān)鍵點(diǎn)的空間位置信息,結(jié)構(gòu)如圖2(a)所示.第2 和第3 階段用Basicblock 作為特征提取模塊,主要關(guān)注低分辨率特征圖中所包含的人體姿態(tài)語(yǔ)義信息,結(jié)構(gòu)如圖2(b)所示.第4 階段設(shè)計(jì)LIRM 作為特征提取模塊,降低了網(wǎng)絡(luò)參數(shù)量.在第4 階段后,為了強(qiáng)化人體結(jié)構(gòu)信息和關(guān)鍵點(diǎn)之間的聯(lián)系,提升網(wǎng)絡(luò)效果,采用PEM 捕捉全局空間位置信息和上下文信息.通過(guò)1×1 卷積生成高斯熱圖,經(jīng)過(guò)后處理恢復(fù)原始圖像.本文提出DCM,可以在各個(gè)階段多分辨率特征融合過(guò)程中利用關(guān)鍵點(diǎn)分布的方向性,提取到更豐富的關(guān)鍵點(diǎn)特征信息,便于特征在網(wǎng)絡(luò)中的傳播與融合.

        圖2 瓶頸層和基礎(chǔ)模塊的結(jié)構(gòu)Fig.2 Structure of bottleneck and basicblock module

        2.2 輕量倒殘差模塊

        HRNet 可以緩解特征提取過(guò)程中尺度變換導(dǎo)致空間特征信息丟失的問(wèn)題,在特征提取和融合時(shí)一直保持高分辨率,保障對(duì)輸入圖像的特征提取能力,因此產(chǎn)生了運(yùn)算復(fù)雜度高、參數(shù)量大的問(wèn)題.HRNet 的后3 個(gè)階段均使用Basicblock 作為基礎(chǔ)特征提取模塊,由于第4 階段有4 條不同分辨率的支路,導(dǎo)致第4 階段所產(chǎn)生的參數(shù)量最多,但實(shí)際上對(duì)關(guān)鍵點(diǎn)的估計(jì)效果沒(méi)有明顯的提升[15].受到ConvNet[16]的啟發(fā),提出LIRM 替換網(wǎng)絡(luò)中第4 階段的基本模塊,以實(shí)現(xiàn)模型精度與效率之間的平衡.

        LIRM 結(jié)構(gòu)如圖3 所示.采用大尺度7×7 卷積核的逐通道卷積進(jìn)行特征提取,大尺度卷積核可以獲得大目標(biāo)的特征及包含人體結(jié)構(gòu)信息的上下文信息,提升估計(jì)精度.逐通道卷積運(yùn)算對(duì)輸入特征圖像的每個(gè)通道獨(dú)立進(jìn)行卷積運(yùn)算,無(wú)法有針對(duì)性地利用不同通道在相同空間位置上的特征信息.使用小尺度1×1 卷積核的逐點(diǎn)卷積,將上一步特征圖像在深度方向進(jìn)行加權(quán)組合,生成新的特征圖像,小尺度卷積核有利于提取小目標(biāo)的特征和人體關(guān)鍵點(diǎn)的局部細(xì)節(jié)信息.逐通道卷積和逐點(diǎn)卷積與常規(guī)的卷積操作相比,參數(shù)量和運(yùn)算成本較低.LIRM 公式表示如下:

        圖3 輕量倒殘差模塊的結(jié)構(gòu)Fig.3 Structure of lightweight inverse residual module

        式中:Iin∈Rc×h×w為輸入特征圖像,Iout∈Rc×h×w為輸出特征圖像,D7×7為7×7 逐通道卷積,θ 為層歸一化,P1×1為1×1 逐點(diǎn)卷積,γ 為GELU 激活函數(shù).

        本模塊采用先升維后降維的倒殘差設(shè)計(jì)思想.第1 個(gè)1×1 逐點(diǎn)卷積輸出的通道數(shù)是輸入通道數(shù)的4 倍,將輸入特征圖以高維特征表示,可以實(shí)現(xiàn)特征信息的擴(kuò)展.經(jīng)過(guò)學(xué)習(xí)和提取高維特征之后,第2 個(gè)1×1 逐點(diǎn)卷積將倒殘差模塊的輸出通道恢復(fù)到模塊的輸入通道數(shù).采用逆瓶頸層的結(jié)構(gòu),在不影響網(wǎng)絡(luò)性能的情況下降低了運(yùn)算量,對(duì)本文模型進(jìn)行有效的輕量化處理.受到Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的影響,該模塊使用更少的歸一化層和激活函數(shù).僅在第1 個(gè)1×1 卷積前添加層歸一化,在2 個(gè)1×1 卷積之間添加GELU 激活函數(shù),以降低網(wǎng)絡(luò)訓(xùn)練壓力.層歸一化在每個(gè)樣本的不同通道上計(jì)算均值和方差,與逐通道卷積一致,能夠提取特征圖像不同通道間的差異化信息.GELU 是新穎且有效的激活函數(shù),能夠有效地避免梯度消失的問(wèn)題,在眾多領(lǐng)域中表現(xiàn)極佳.

        2.3 體位強(qiáng)化模塊

        人體姿態(tài)估計(jì)是對(duì)圖像中的人體關(guān)節(jié)點(diǎn)進(jìn)行識(shí)別和定位,關(guān)節(jié)點(diǎn)構(gòu)成的骨架模型是鏈?zhǔn)浇Y(jié)構(gòu),相鄰近的關(guān)節(jié)點(diǎn)之間具有更強(qiáng)的相關(guān)性,表現(xiàn)在通道和空間信息的差異,相關(guān)性更強(qiáng)的關(guān)鍵點(diǎn)應(yīng)被賦予更多的關(guān)注.提出的PEM 可以利用人體先驗(yàn)骨架結(jié)構(gòu)及多個(gè)關(guān)鍵點(diǎn)之間的聯(lián)系,捕捉到豐富的全局空間位置信息和上下文信息,增強(qiáng)模型的表達(dá)能力.

        PEM 可以提升網(wǎng)絡(luò)對(duì)人體結(jié)構(gòu)信息的感知能力,將該模塊放在網(wǎng)絡(luò)第4 階段輸出特征后,可以在最終輸出特征圖前進(jìn)一步強(qiáng)化全局關(guān)鍵點(diǎn)的上下文聯(lián)系.除此之外,網(wǎng)絡(luò)第1 條分支的圖像分辨率始終保持目標(biāo)特征圖尺寸不變,能夠很好地保留空間位置信息.PEM 在通道和空間2 個(gè)方向均有效增強(qiáng)關(guān)鍵點(diǎn)特征表達(dá)能力,結(jié)構(gòu)如圖4 所示,主要包括2 個(gè)部分:轉(zhuǎn)換變體卷積[17]與全局上下文注意模塊[18].

        圖4 體位強(qiáng)化模塊的結(jié)構(gòu)Fig.4 Structure of postural enhancement module

        轉(zhuǎn)換變體卷積是全局卷積,可以對(duì)整張?zhí)卣鲌D進(jìn)行特征提取,較好地保留了全局空間位置信息,適合特定結(jié)構(gòu)(如人體結(jié)構(gòu)、手部結(jié)構(gòu)、面部五官結(jié)構(gòu)等)的視覺(jué)任務(wù)處理.常規(guī)的全局卷積由于權(quán)重張量較大,容易造成參數(shù)量巨大和過(guò)擬合的問(wèn)題,而轉(zhuǎn)換變體卷積將其分解,利用親和圖降低模型的參數(shù)量和復(fù)雜度.對(duì)于不同的輸入圖像,親和圖中的關(guān)聯(lián)映射是共享的,所以訓(xùn)練后得到固定不變的親和圖,可以應(yīng)用相同的權(quán)重實(shí)現(xiàn)快速推理.轉(zhuǎn)換變體卷積將親和圖輸入到權(quán)重生成模塊,以此來(lái)生成全局權(quán)重.親和圖能夠?qū)φ麖垐D像進(jìn)行關(guān)注,描繪像素配對(duì)關(guān)系,包含了人體姿態(tài)的一些共性信息,如頭部在上肩膀在下、膝蓋在上腳踝在下,可以區(qū)分多種不同的局部特征,幫助網(wǎng)絡(luò)捕捉到不同空間區(qū)域的語(yǔ)義特征,高效提取不同的空間位置信息.權(quán)重生成模塊通過(guò)多次執(zhí)行標(biāo)準(zhǔn)卷積、層歸一化和激活層來(lái)提取信息.親和圖對(duì)不同的輸入進(jìn)行權(quán)重共享,可以通過(guò)標(biāo)準(zhǔn)反向傳播對(duì)該權(quán)重進(jìn)行端到端訓(xùn)練,以獲取最優(yōu)值.親和圖映射是固定的,權(quán)重生成模塊可以根據(jù)需求增減計(jì)算開(kāi)銷(xiāo),二者融合避免了過(guò)度參數(shù)化,降低了模塊的復(fù)雜度.轉(zhuǎn)換變體卷積適用于跨圖像屬性共享領(lǐng)域的問(wèn)題,僅增加較少的參數(shù)量,可以在人體姿態(tài)估計(jì)問(wèn)題中發(fā)揮重要的作用.轉(zhuǎn)換變體卷積的公式表述如下:

        式中:W為通道級(jí)卷積,為親和圖,F(xiàn)3×3為3×3 卷積,φ為層歸一化和ReLU 激活函數(shù).

        全局上下文注意模塊可以充分提取圖像的全局信息,捕獲整張圖像中人體關(guān)鍵點(diǎn)的長(zhǎng)距離依賴(lài)關(guān)系.此外,該模塊是輕量級(jí)的,減少了不必要的計(jì)算量,可以有效地建模長(zhǎng)期依賴(lài)關(guān)系.全局上下文注意模塊利用1×1 卷積和softmax 函數(shù)計(jì)算權(quán)重,通過(guò)全局注意力池化進(jìn)行上下文建模,利用瓶頸轉(zhuǎn)換來(lái)捕捉通道間的依賴(lài)關(guān)系,通過(guò)擴(kuò)展元素相加的方式將全局上下文特征融合到整個(gè)圖像.采用全局上下文注意模塊,優(yōu)化了全局上下文建模能力,加強(qiáng)了圖像全局信息與局部信息的聯(lián)系,對(duì)人體姿態(tài)估計(jì)的視覺(jué)任務(wù)都具有高效性.全局上下文注意模塊的公式表述如下:

        式中:β 為權(quán)重生成,F(xiàn)1×1為1×1 卷積.

        2.4 方向強(qiáng)化卷積模塊

        該網(wǎng)絡(luò)中各個(gè)階段間的融合層用于多分辨率分支間的信息交互.傳統(tǒng)的方法是用步幅為2 的標(biāo)準(zhǔn)3×3 卷積來(lái)降低分辨率,用最近鄰上采樣的方法來(lái)提高分辨率.為了緩解不同分辨率特征圖像融合時(shí)造成的信息遺失問(wèn)題,提出DCM.在卷積核上充分利用了軀干上關(guān)鍵點(diǎn)分布的水平和垂直方向特性,結(jié)構(gòu)如圖5 所示.

        圖5 方向強(qiáng)化卷積模塊的結(jié)構(gòu)Fig.5 Structure of direction-enhanced convolution module

        研究表明,卷積核上參數(shù)的重要程度不同,處在中央交叉位置即卷積核骨架上的參數(shù)更加重要,更需要被網(wǎng)絡(luò)重視,處于邊角的參數(shù)影響較小[19].當(dāng)降低圖像分辨率時(shí),普通的3×3 卷積對(duì)卷積核參數(shù)不進(jìn)行區(qū)分處理.在初始化時(shí)參數(shù)是隨機(jī)的,因此隨著后續(xù)訓(xùn)練過(guò)程的進(jìn)行,可能導(dǎo)致網(wǎng)絡(luò)向著非強(qiáng)化骨架參數(shù)的方向優(yōu)化,最終削弱了中央交叉位置上參數(shù)對(duì)于網(wǎng)絡(luò)的作用,導(dǎo)致特征提取能力降低.人體關(guān)鍵點(diǎn)分布有水平和垂直的方向特性,當(dāng)關(guān)鍵點(diǎn)位于卷積核骨架位置時(shí),需要被重點(diǎn)強(qiáng)化,增強(qiáng)卷積核的方向性可以在下采樣過(guò)程中不遺失關(guān)鍵信息.采用非對(duì)稱(chēng)卷積模塊降低分辨率,將額外的水平卷積和垂直卷積疊加到普通方形卷積核骨架上,起到強(qiáng)化骨架上參數(shù)的作用.非對(duì)稱(chēng)卷積的操作原理如圖6 所示.訓(xùn)練時(shí)對(duì)輸入特征圖像并行開(kāi)展3×3、1×3 和3×1 卷積操作,將3 組輸出特征圖像疊加作為整體輸出.在推理時(shí),相當(dāng)于將上述3 個(gè)卷積核疊加起來(lái)轉(zhuǎn)換為1 個(gè)新的卷積核即非對(duì)稱(chēng)卷積進(jìn)行卷積操作,得到輸出特征圖.采用2 種卷積操作方式得到的輸出特征圖是等價(jià)的.非對(duì)稱(chēng)卷積會(huì)在下采樣過(guò)程中強(qiáng)化位于卷積核骨架位置的關(guān)鍵點(diǎn),避免關(guān)鍵點(diǎn)特征信息的遺失.

        非對(duì)稱(chēng)卷積可以表示為

        式中:F1×3為1×3 卷積,F(xiàn)3×1為3×1 卷積,為整體卷積操作,為推理時(shí)的輸出特征圖像.

        最近鄰上采樣僅使用距離待測(cè)采樣點(diǎn)最近的像素的灰度作為該采樣點(diǎn)的灰度,而沒(méi)有考慮其他相鄰像素點(diǎn)的影響.在人體姿態(tài)估計(jì)中,這種上采樣方式會(huì)導(dǎo)致關(guān)鍵點(diǎn)所在的像素位置模糊,不利于關(guān)鍵點(diǎn)的精確定位.為了解決該問(wèn)題,提出采用轉(zhuǎn)置卷積[20]來(lái)提高圖像分辨率的方法.使用1×1 卷積來(lái)轉(zhuǎn)換通道數(shù)量,采用多個(gè)轉(zhuǎn)置卷積將輸入特征圖恢復(fù)至目標(biāo)尺寸.如圖7 所示,轉(zhuǎn)置卷積在卷積前增加了參數(shù)轉(zhuǎn)置的過(guò)程,能夠在上采樣過(guò)程中持續(xù)提取特征信息.轉(zhuǎn)置卷積中的權(quán)重是可以被學(xué)習(xí)的,通過(guò)學(xué)習(xí)獲取最適合當(dāng)前數(shù)據(jù)集的上采樣方式.具體來(lái)說(shuō),轉(zhuǎn)置卷積需要對(duì)輸入進(jìn)行填充,在輸入特征圖元素間填充s-1 行(其中s為轉(zhuǎn)置卷積的步距),在輸入特征圖四周填充k-p-1 行(其中k為轉(zhuǎn)置卷積的卷積核大小,p為轉(zhuǎn)置卷積的填充數(shù)量).將卷積核參數(shù)上下、左右翻轉(zhuǎn),最后進(jìn)行標(biāo)準(zhǔn)卷積運(yùn)算.利用該方式不會(huì)模糊關(guān)鍵點(diǎn)所在的像素位置,能夠在上采樣過(guò)程中進(jìn)一步提取圖像特征,有利于不同分辨率特征圖像的融合.

        圖7 轉(zhuǎn)置卷積結(jié)構(gòu)Fig.7 Transposed convolution structure

        轉(zhuǎn)置卷積操作后特征圖的大小可以通過(guò)下式計(jì)算:

        式中:Zin為輸入特征圖的行數(shù)(或列數(shù)),Zout為輸出特征圖的行數(shù)(或列數(shù)),s為步長(zhǎng),p為填充數(shù),k為卷積核尺寸.

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集與評(píng)估標(biāo)準(zhǔn)

        在MPII 人體姿勢(shì)數(shù)據(jù)集[21]和COCO2017 數(shù)據(jù)集[22]上進(jìn)行驗(yàn)證測(cè)試.

        糖尿病是由于胰島素相對(duì)或絕對(duì)缺乏及不同程度的胰島素抵抗,引起碳水化合物、脂肪及蛋白質(zhì)代謝紊亂的綜合征,表現(xiàn)為以血糖增高和(或)糖尿?yàn)樘卣鞯穆匀硇约膊 L悄虿』颊咦≡褐委熁蚴中g(shù)時(shí),并發(fā)癥發(fā)生率和死亡率明顯增高[1]。麻醉、手術(shù)的創(chuàng)傷刺激可引起糖尿病患者血糖應(yīng)激性升高[2]。另外,術(shù)前禁食、口服降糖藥停藥過(guò)晚、術(shù)前胰島素劑量的不適當(dāng)調(diào)整等因素均可導(dǎo)致糖尿病患者圍手術(shù)期低血糖發(fā)生率的增加。全麻鎮(zhèn)靜患者低血糖癥狀被掩蓋,風(fēng)險(xiǎn)尤其高[3]。因此,圍手術(shù)期在控制糖尿病患者高血糖的同時(shí)必須提高警惕,積極防治低血糖,避免患者發(fā)生致命危險(xiǎn)。

        MPII 數(shù)據(jù)集具有真實(shí)性和背景豐富的特點(diǎn),有利于模擬真實(shí)情況.它包含約25 000 張圖像和40 000 多個(gè)注釋信息,其中包括16 個(gè)人體目標(biāo)關(guān)鍵點(diǎn)的二維位置、完整的三維軀干和頭部方向、關(guān)鍵點(diǎn)的遮擋標(biāo)簽和活動(dòng)標(biāo)簽.數(shù)據(jù)集中約28 000 個(gè)樣本用于訓(xùn)練,11 000 個(gè)用于測(cè)試.

        正確關(guān)鍵點(diǎn)百分比(percentage of correct keypoints,PCK)是MPII 用來(lái)評(píng)估2D 人體關(guān)鍵點(diǎn)估計(jì)的標(biāo)準(zhǔn).它定義為被準(zhǔn)確檢測(cè)到的關(guān)鍵點(diǎn)所占的比例.計(jì)算方法是將檢測(cè)到的關(guān)鍵點(diǎn)與對(duì)應(yīng)的真實(shí)標(biāo)注值之間的歸一化距離與設(shè)定閾值進(jìn)行比較.目前,普遍采用PCKh@0.5 作為指標(biāo),當(dāng)預(yù)測(cè)值與真實(shí)標(biāo)注值之間的歸一化歐氏距離小于頭部尺寸因子的50%時(shí),則認(rèn)為預(yù)測(cè)正確.PCK 為通過(guò)該方法正確預(yù)測(cè)的關(guān)鍵點(diǎn)數(shù)量占總數(shù)的比例.

        PCK 計(jì)算公式如下:

        式中:i表示ID 為i的關(guān)鍵點(diǎn),p為第p個(gè)行人,dpi為第p個(gè)人中ID 為i的關(guān)鍵點(diǎn)預(yù)測(cè)值與標(biāo)注真值的歐氏距離,為第p個(gè)人的尺度因子,Tk為人工設(shè)定的閾值,k為第k個(gè)閾值,Tk∈[0:0.01:0.5],為T(mén)k閾值下PCK 的平均值,δ 函數(shù)為計(jì)算符合標(biāo)準(zhǔn)的關(guān)鍵點(diǎn)數(shù)量.

        COCO2017 數(shù)據(jù)集包含80 個(gè)目標(biāo)類(lèi)別,大約有220 000 張標(biāo)注圖像和5 種類(lèi)型的注釋信息.圖片中標(biāo)注了約250 000 個(gè)人體信息,每個(gè)人體都有17 個(gè)關(guān)鍵點(diǎn)標(biāo)記.COCO Train2017 包含57 000 張圖像和150 000 個(gè)注釋信息,Val2017 包含5 000 張圖像,Test-Dev2017 包含20 000 張圖像.使用Train2017 進(jìn)行訓(xùn)練,采用Val2017 驗(yàn)證和評(píng)估模型,給出Test-Dev2017 的測(cè)試結(jié)果.

        對(duì)象關(guān)鍵點(diǎn)相似性(object keypoint similarity,OKS)用來(lái)衡量預(yù)測(cè)關(guān)鍵點(diǎn)與標(biāo)注真值之間的相似性,計(jì)算公式如下:

        式中:i為關(guān)鍵點(diǎn)的個(gè)數(shù);di為關(guān)鍵點(diǎn)i的預(yù)測(cè)值與標(biāo)注真值之間的歐氏距離;s為尺度因子,其值為人體檢測(cè)框面積的平方根;ki為第i個(gè)關(guān)鍵點(diǎn)的歸一化因子;vi∈(0,1,2) 為第i個(gè)關(guān)鍵點(diǎn)的可見(jiàn)性,0 表示關(guān)鍵點(diǎn)未標(biāo)記,1 表示無(wú)遮擋并且已經(jīng)標(biāo)記,2 表示有遮擋但是已經(jīng)標(biāo)記;δ 函數(shù)判斷條件是否成立,此處指僅判斷已標(biāo)注的關(guān)鍵點(diǎn).

        本實(shí)驗(yàn)主要對(duì)比的評(píng)價(jià)指標(biāo)為平均準(zhǔn)確度(average precision,AP),是在多個(gè)交并比(intersection over union,IoU)[0.50:0.05:0.95]間取平均值(IoU 定義為探測(cè)器預(yù)測(cè)邊界框交集面積與并集面積的比值),AP0.5和AP0.75是單個(gè)IoU 閾值的指標(biāo),APM、APL是根據(jù)數(shù)據(jù)集中目標(biāo)物體面積設(shè)定的指標(biāo),APM指0.322<面積<0.962,APL指面積大于0.962.平均召回率(average recall,AR)為輔助指標(biāo),在所有IoU 和全部類(lèi)別上求平均值.

        3.2 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)環(huán)境如下:CPU Intel ? Core i9-9900X 3.5 GHz,GPU Nvidia RTX2080Ti (11 GB)×4,Ubuntu 16.04 操作系統(tǒng),Pytorch 深度學(xué)習(xí)框架.

        將人體檢測(cè)框的高度和寬度比例設(shè)置為4∶3,從圖像中剪裁該框,將其大小調(diào)整為固定尺寸.MPII數(shù)據(jù)集的裁剪尺寸為256×256,COCO 數(shù)據(jù)集的裁剪尺寸為256×192 和384×288.數(shù)據(jù)增強(qiáng)時(shí),MPII數(shù)據(jù)集包括隨機(jī)旋轉(zhuǎn)±30°和±0.25 的隨機(jī)比例,COCO 數(shù)據(jù)集包括隨機(jī)旋轉(zhuǎn)±45°和±0.3 的隨機(jī)比例,翻轉(zhuǎn)測(cè)試均被使用,對(duì)半身數(shù)據(jù)進(jìn)行了增強(qiáng).使用Adam 優(yōu)化器,初始學(xué)習(xí)率為0.001,一共訓(xùn)練210 輪,分別在170 和200 輪時(shí)降低學(xué)習(xí)率,比例為0.1.均方誤差用作預(yù)測(cè)熱圖和目標(biāo)熱圖之間的損失,每個(gè)關(guān)節(jié)點(diǎn)的目標(biāo)熱圖是通過(guò)應(yīng)用以該關(guān)節(jié)點(diǎn)的標(biāo)注真值位置為中心的二維高斯來(lái)生成.

        3.3 結(jié)果分析

        為了驗(yàn)證所提網(wǎng)絡(luò)中各個(gè)模塊的必要性和有效性,以HRNet 為基礎(chǔ)網(wǎng)絡(luò)Baseline,開(kāi)展消融實(shí)驗(yàn),分析各個(gè)模塊的性能.將本文網(wǎng)絡(luò)與人體姿態(tài)估計(jì)的經(jīng)典網(wǎng)絡(luò)和最新主流網(wǎng)絡(luò)進(jìn)行對(duì)比,對(duì)估計(jì)結(jié)果進(jìn)行可視化.

        3.3.1 主干網(wǎng)絡(luò)分析 對(duì)基礎(chǔ)網(wǎng)絡(luò)各階段的模塊選擇進(jìn)行實(shí)驗(yàn)分析,選取更優(yōu)的主干網(wǎng)絡(luò),實(shí)現(xiàn)模型精度與效率的平衡.將LIRM 放置于基礎(chǔ)網(wǎng)絡(luò)中的不同位置,測(cè)試該模塊所在位置對(duì)模型產(chǎn)生的影響,結(jié)果如表1 所示.表中,Np為參數(shù)量,F(xiàn)LOPs 為每秒浮點(diǎn)運(yùn)算次數(shù),PCKhmean為以頭部長(zhǎng)度作為歸一化基值的PCK 平均值.

        表1 在MPII 數(shù)據(jù)集上閾值為0.5 時(shí)不同主干網(wǎng)絡(luò)的PCKh 平均值Tab.1 Mean values of PCKh for different backbone networks at threshold of 0.5 on MPII dataset

        由表1 可見(jiàn),當(dāng)LIRM 僅替換網(wǎng)絡(luò)第4 階段的基本模塊時(shí),即模型1,參數(shù)量降低了10.2×106,而主要評(píng)價(jià)指標(biāo)的平均值未降低.與基礎(chǔ)網(wǎng)絡(luò)相比,模型2 的參數(shù)量減少了13.4×106,PCKhmean降低了1.0%;模型3 的參數(shù)量減少了13.6×106,PCKhmean降低了1.3%.

        實(shí)驗(yàn)結(jié)果證明,LIRM 可以在網(wǎng)絡(luò)第4 階段以更少的參數(shù)量,實(shí)現(xiàn)與基本模塊相同的效果;在第2、3 階段時(shí),雖然進(jìn)一步降低了參數(shù)量,但是對(duì)模型效果的影響較大.為了兼顧模型的精度與效率,僅在網(wǎng)絡(luò)第4 階段使用LIRM.

        3.3.2 消融實(shí)驗(yàn) 通過(guò)一系列消融實(shí)驗(yàn),驗(yàn)證所提網(wǎng)絡(luò)的有效性.將提出的LIRM、PEM 和DCM 依次運(yùn)用在基礎(chǔ)框架上,對(duì)比不同網(wǎng)絡(luò)結(jié)構(gòu)下的評(píng)價(jià)指標(biāo),消融結(jié)果如表2、3 所示.

        表2 在MPII 數(shù)據(jù)集上閾值為0.5 時(shí)不同主干網(wǎng)絡(luò)的PCKh 值Tab.2 PCKh values for different backbone networks at threshold of 0.5 on MPII dataset

        在MPII 數(shù)據(jù)集中,主要使用PCK 的平均值作為標(biāo)準(zhǔn)進(jìn)行判斷.由表2 可見(jiàn),使用LIRM 可以減少10.2×106的參數(shù)量,在肩膀和臀部關(guān)節(jié)點(diǎn)的指標(biāo)有所提升,肘部識(shí)別精度持平,在其他關(guān)節(jié)點(diǎn)處略有降低,總體上與原網(wǎng)絡(luò)的估計(jì)效果相似.在增加PEM 后,僅增加了7×105的參數(shù)量,在各個(gè)關(guān)節(jié)點(diǎn)上的指標(biāo)及平均值指標(biāo)均有所提升,表明該模塊有效地增強(qiáng)了人體軀干的空間特征和關(guān)鍵點(diǎn)的上下文聯(lián)系,能夠更好地識(shí)別人體姿態(tài).DCM 的運(yùn)用使平均值增加了0.1%,在頭部關(guān)鍵點(diǎn)提升最大,精度提升了0.5%,表明在多分辨率特征圖相互融合時(shí),利用該模塊可以有效地減少關(guān)鍵特征的遺失,實(shí)現(xiàn)關(guān)鍵點(diǎn)空間位置的高精度表達(dá).

        在COCO 數(shù)據(jù)集中,主要以AP 值作為標(biāo)準(zhǔn)進(jìn)行判斷.從表3 可見(jiàn),LIRM 在COCO 數(shù)據(jù)集中的表現(xiàn)效果更佳,在減少了約36%參數(shù)量的同時(shí),將AP 值提升了0.5%,實(shí)現(xiàn)了網(wǎng)絡(luò)精度與效率的平衡.結(jié)合PEM 后的模型,AP 值增加了0.7%,使得網(wǎng)絡(luò)聚焦全局空間信息和上下文聯(lián)系,強(qiáng)化了人體全部關(guān)鍵點(diǎn)的空間位置及其之間的連接關(guān)系.DCM 進(jìn)一步提升估計(jì)效果,用原始網(wǎng)絡(luò)約74%的參數(shù)量將AP 值提升至76.7%,緩解了多分辨率特征融合時(shí)關(guān)鍵信息流失的問(wèn)題,實(shí)現(xiàn)了高效的人體姿態(tài)估計(jì).

        表3 在COCO 驗(yàn)證集上不同網(wǎng)絡(luò)的平均精度和平均召回率消融結(jié)果Tab.3 Average precision and average recall ablation results of different networks on COCO validation set

        綜合而言,經(jīng)過(guò)在不同數(shù)據(jù)集上的實(shí)驗(yàn)測(cè)試,提出的LIRM、PEM 和DCM 均被驗(yàn)證了其有效性和泛化性,在主要的評(píng)價(jià)指標(biāo)上都有所提高.本文模型可以在提高性能指標(biāo)的同時(shí)降低部分參數(shù)量和運(yùn)算量,達(dá)到輕量、高效地估計(jì)人體關(guān)鍵點(diǎn)的目的.

        3.3.3 與其他模型的對(duì)比情況 在COCO 數(shù)據(jù)集上,將提出的網(wǎng)絡(luò)與最新的主流模型進(jìn)行比較,對(duì)比結(jié)果如表4、5 所示.

        表4 在COCO 驗(yàn)證集上不同網(wǎng)絡(luò)的平均精度和平均召回率對(duì)比結(jié)果Tab.4 Comparison results of average precision and average recall for different networks on COCO validation set

        表5 在COCO 測(cè)試集上不同網(wǎng)絡(luò)的平均精度和平均召回率對(duì)比結(jié)果Tab.5 Comparison results of average precision and average recall for different networks on COCO test set

        在COCO 驗(yàn)證集上進(jìn)行對(duì)比,當(dāng)輸入圖像大小為256×192 時(shí),提出的網(wǎng)絡(luò)(W32)AP 值達(dá)到76.7%,優(yōu)于其他具有相同輸入的方法.與HRNet[5]相比,AP 值大幅度提高且運(yùn)算量降低;與RAMGPRNet[23]相比,AP 值提高了0.7% 和0.9%;與HRFormer-B[24]相比,實(shí)現(xiàn)了0.9%的AP 增益;與HRGCNet[25]相比,雖然AP 值相近,但參數(shù)量和運(yùn)算量更低;與AMHRNet[26]相比,AP 值有0.6%和1.0%的提升,且參數(shù)量約為其58%和65%.當(dāng)輸入圖像大小為384×288 時(shí),提出的網(wǎng)絡(luò)獲得了78.2%和78.5%的AP 值.與CPN[3]、SimpleBaseline[4]、HRNet[5]、RAM-GPRNet[23]、HRFormer-B[24]、HRGCNet[25]相比,本網(wǎng)絡(luò)在主要的性能指標(biāo)上均得到了有效的提升,實(shí)現(xiàn)了初步輕量化,減少了參數(shù)量和運(yùn)算量.綜合而言,本文模型在估計(jì)精度上優(yōu)于多數(shù)網(wǎng)絡(luò),關(guān)鍵點(diǎn)的識(shí)別效果較好,且在參數(shù)量和運(yùn)算量方面有所降低.

        當(dāng)COCO 測(cè)試集進(jìn)行對(duì)比時(shí),本文模型實(shí)現(xiàn)了78.4%的AP 精度,在參數(shù)量和運(yùn)算量方面表現(xiàn)較好.與COCO 驗(yàn)證集上的結(jié)果呈現(xiàn)一致性,實(shí)驗(yàn)證明了基于全局信息增強(qiáng)的人體姿態(tài)估計(jì)方法具有輕量高效的特點(diǎn).

        3.3.4 實(shí)驗(yàn)結(jié)果可視化 為了直觀地顯示模型的估計(jì)效果,對(duì)部分估計(jì)結(jié)果進(jìn)行可視化,如圖8 所示.可以看出,與HRNet 相比,該模型對(duì)關(guān)節(jié)點(diǎn)估計(jì)的位置與標(biāo)注真值的結(jié)果更接近.在環(huán)境背景復(fù)雜(1)、圖像中人體不完整(2)、關(guān)節(jié)點(diǎn)位置集中(3)、圖像極度模糊(4)、遮擋(5)等情況下對(duì)關(guān)鍵點(diǎn)位置的估計(jì)更準(zhǔn)確,局部放大對(duì)比圖如圖9 所示,證明該模型在各種情況下均有著出色的表現(xiàn).

        圖8 可視化結(jié)果的對(duì)比圖Fig.8 Comparison of visualization results

        圖9 可視化實(shí)驗(yàn)結(jié)果局部放大對(duì)比圖Fig.9 Visualization of experimental results with partial zoom comparison

        4 結(jié)語(yǔ)

        本文針對(duì)二維人體姿態(tài)估計(jì)任務(wù)中存在的問(wèn)題,提出強(qiáng)化先驗(yàn)骨架結(jié)構(gòu)的人體姿態(tài)估計(jì)方法.利用該方法,輕量且高效地實(shí)現(xiàn)了人體關(guān)鍵點(diǎn)位置的估計(jì).實(shí)驗(yàn)結(jié)果表明,該模型在COCO 驗(yàn)證集和測(cè)試集上的AP 值分別達(dá)到78.5%和78.4%.與基準(zhǔn)網(wǎng)絡(luò)相比,該模型減少了約1/3 的參數(shù)量,更適用于常規(guī)姿態(tài),但對(duì)于特殊瑜伽動(dòng)作(如朝天蹬)的估計(jì)效果存在不足,后續(xù)將在增強(qiáng)模型的泛化能力方面展開(kāi)進(jìn)一步的研究.另外,未來(lái)可在保持現(xiàn)有優(yōu)勢(shì)的基礎(chǔ)上結(jié)合Transformer 自注意機(jī)制,實(shí)現(xiàn)更高精度的人體姿態(tài)估計(jì).

        猜你喜歡
        關(guān)鍵點(diǎn)全局卷積
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
        新思路:牽一發(fā)動(dòng)全局
        黄色视频在线免费观看| 国产精品白浆一区二区免费看| 内射中出日韩无国产剧情 | 四虎精品免费永久在线| 中文字幕色视频在线播放| 精彩视频在线观看一区二区三区| 无码熟妇人妻av影音先锋| 人妻aⅴ无码一区二区三区| 亚洲AV永久无码精品表情包| 日韩av在线亚洲女同| 人妻在卧室被老板疯狂进入| 欧美疯狂性xxxxxbbbbb| 亚洲第一区无码专区| 韩国三级黄色一区二区| 人妻 偷拍 无码 中文字幕 | 真实国产精品vr专区| 乱码午夜-极国产极内射| 亚洲日韩成人无码不卡网站| 激情五月天色婷婷久久| 国产成人无码精品久久久露脸| 亚洲乱妇老熟女爽到高潮的片| 精品国产日韩无 影视| 亚洲一区二区三区2021| 亚洲欧美日韩国产精品一区二区| 久久88综合| 日本精品啪啪一区二区| 久久精品99国产精品日本| 国产精品va在线观看无码| 欧洲亚洲色一区二区色99| 中文字幕一区二区三区乱码人妻 | 国产免费网站在线观看不卡| 丝袜美腿一区二区三区| 五十路熟妇亲子交尾| 久久精品国产亚洲av热九| 日韩女优精品一区二区三区| 人妻丰满熟妇av无码片| 人妻少妇一区二区三区| 亚州av高清不卡一区二区| 日本护士xxxx视频| 在线高清精品第一区二区三区| 国产精品女人一区二区三区|