亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機制的輕量型人體姿態(tài)估計

        2022-08-24 06:30:02李坤侯慶
        計算機應(yīng)用 2022年8期
        關(guān)鍵詞:關(guān)鍵點復(fù)雜度姿態(tài)

        李坤,侯慶,2*

        (1.貴州大學計算機科學與技術(shù)學院,貴陽 550025;2.貴州省通信產(chǎn)業(yè)服務(wù)有限公司,貴陽 550005)

        0 引言

        人體姿態(tài)估計是對目標中人體關(guān)鍵點進行預(yù)測與定位,作為計算機視覺的一個重要研究課題,在行人檢測、人機交互和行人重識別等方向有著廣泛的應(yīng)用。

        在人體姿態(tài)估計研究發(fā)展中,圖結(jié)構(gòu)模型算法[1-2]一直是傳統(tǒng)人體姿態(tài)估計算法的主流方式。圖結(jié)構(gòu)模型算法主要由3 部分組成,分別是人體的部件檢測模型、人體的圖模型結(jié)構(gòu)和相應(yīng)的姿態(tài)推理算法。圖結(jié)構(gòu)模型算法首先將人體結(jié)構(gòu)分解成不同的部件,然后利用圖結(jié)構(gòu)模型對部件之間的關(guān)系進行建模,最后將各個部件進行連接,從而構(gòu)成完整的人體姿態(tài);但在背景復(fù)雜、人體姿態(tài)高度靈活的情況下,圖結(jié)構(gòu)模型的預(yù)測精度和效率會急劇下降,難以達到實際應(yīng)用的水平。

        隨著深度神經(jīng)網(wǎng)絡(luò)的興起與發(fā)展,2014 年Toshev 等[3]首次將深度神經(jīng)網(wǎng)絡(luò)引入人體姿態(tài)估計算法,將人體姿態(tài)估計看作是一個人體關(guān)鍵點的回歸問題,通過深度神經(jīng)網(wǎng)絡(luò)對輸入的圖像進行特征提取,并利用卷積核對關(guān)鍵點之間的關(guān)系進行建模,因為不同的卷積核所學習的參數(shù)不同,所以有效地提高了人體關(guān)鍵點的預(yù)測性能。但隨著對人體姿態(tài)估計模型性能要求的不斷提高,模型參數(shù)量在不斷加大,運算復(fù)雜度也隨之快速增加,因此在保持模型對人體關(guān)鍵點預(yù)測精度的前提下,如何降低模型運行時的參數(shù)量和運算復(fù)雜度,是當前人體姿態(tài)估計模型改進和優(yōu)化所面臨的重要問題。

        2019 年提出的高分辨率網(wǎng)絡(luò)(High-Resolution Network,HRNet)[4]重新考慮了分辨率對人體姿態(tài)估計模型的影響,與堆疊沙漏網(wǎng)絡(luò)(Stacked Hourglass Network,Hourglass)[5]采用高分辨率下采樣到低分辨率、再從低分辨率上采樣到高分辨率的對稱結(jié)構(gòu)不同,HRNet 模型在Hourglass 基礎(chǔ)上改進并提出了基于高分辨率的人體姿態(tài)估計模型,在整個模型中一直保持高分辨率特征圖,一定程度上彌補了Hourglass 中上采樣過程導致的空間分辨率損失的缺陷,進一步驗證了高分辨率特征圖在人體姿態(tài)估計模型中對人體關(guān)鍵點預(yù)測的重要性。整個HRNet 模型采用并行子網(wǎng)方式,實現(xiàn)了多個分辨率特征圖的充分融合,增強了特征圖的特征信息;但是由于模型始終保持高分辨率特征圖,在提高預(yù)測人體關(guān)鍵點精度的同時,也增加了模型的參數(shù)量和運算復(fù)雜度。2020 年,Zhou 等[6]提出了沙漏(Sandglass)模塊,通過在高維線性表示之間建立跳躍連接和使用縮放系數(shù),在保證模型性能的同時降低了模型的參數(shù)量和運算復(fù)雜度。Hou 等[7]提出了坐標注意力(Coordinate Attention,CoordAttention)模塊,在保證獲取特征圖通道之間關(guān)系的前提下,還能在特征圖一個空間方向?qū)Ω信d趣的特征區(qū)域進行精確定位,在另一個空間方向捕獲長程依賴。

        針對高分辨率模型具有參數(shù)量大、運算復(fù)雜度高(本文以浮點運算量的大小作為衡量標準)的問題,本文引入Sandglass 模塊和CoordAttention 模塊,對HRNet 模型基礎(chǔ)模塊進行改進,提出了結(jié)合沙漏坐標注意力瓶頸(Sandglass Coordinate Attention bottleneck,SCAneck)模塊和沙漏坐標注意力基礎(chǔ)(Sandglass Coordinate Attention basicblock,SCAblock)模塊的輕量型沙漏坐標注意力網(wǎng)絡(luò)(Sandglass Coordinate Attention Network,SCANet),在保持人體關(guān)鍵點預(yù)測準確率的前提下,有效地降低了模型的參數(shù)量和運算復(fù)雜度。

        本文的主要工作如下:

        1)針對HRNet 模型保持高分辨率特征表示,造成參數(shù)量大、運算復(fù)雜度高的問題,使用輕量型Sandglass 模塊代替標準的3×3 卷積,在保證模型性能的同時,達到輕量型模型的目的。

        2)提出了一種融合注意力機制的殘差模塊,通過引入CoordAttention 模塊,在保證獲取特征圖通道特征信息的同時,加強模型在空間方向?qū)μ卣餍畔⒌木_定位,減少關(guān)鍵點定位帶來的損失,達到與HRNet 模型性能相當甚至更優(yōu)的目的。

        1 相關(guān)工作

        1.1 人體姿態(tài)估計模型

        人體姿態(tài)估計模型分為自底向上(Bottom-Up)和自頂向下(Top-Down)兩種框架,其中Top-Down 算法是目前人體姿態(tài)估計中準確率最高的網(wǎng)絡(luò)框架。Top-Down 算法首先通過人體檢測器[8-9]檢測出圖片中每個人體的邊界框,然后將邊界框從輸入圖像中裁剪出來,再進行單人的人體姿態(tài)估計,因此預(yù)測關(guān)鍵點的準確率會受到人體檢測器性能的影響。Mask R-CNN(Mask Region-based Convolutional Neural Network)[10]在 Faster R-CNN(Faster Region-based Convolutional Neural Network)[11]的基礎(chǔ)上進行改進,提出了人體姿態(tài)估計分支,與人體檢測分支共享骨干網(wǎng)絡(luò)提取的特征,由于兩個分支共享骨干網(wǎng)絡(luò),所以在一定程度上降低了模型的參數(shù)量。

        相較于Top-Down 的人體姿態(tài)估計框架,Bottom-Up 的人體姿態(tài)估計框架中沒有使用人體檢測器,而是首先預(yù)測出輸入圖像中所有人體的關(guān)鍵點,然后通過拼接得到人體姿態(tài)。該算法的優(yōu)勢在于運行速度快、實時性高,但是當相同類型的關(guān)鍵點距離較近時,容易出現(xiàn)分組錯誤,因此設(shè)計不同的分組信息是Bottom-Up 算法的關(guān)鍵。OpenPose 模型[12]是對序列卷積姿態(tài)機(Convolutional Pose Machines,CPM)[13]的改進,將模型分為兩部分:一部分通過卷積神經(jīng)網(wǎng)絡(luò)提取特征信息;另一部分通過模型預(yù)測得到部分親和力場(Part Affinity Field,PAF),通過PAF 將關(guān)鍵點分組問題轉(zhuǎn)化為二分圖最大權(quán)匹配問題,并用匈牙利算法求得關(guān)鍵點是否相連以及相應(yīng)的方向信息,實現(xiàn)對關(guān)鍵點的分組,以生成最終的人體姿態(tài)。

        1.2 倒置殘差模塊

        倒置殘差模塊(Inverted Residual Module,IRM)的概念第一次在MobileNet V2[14]中提出,主要為了輕量型模型設(shè)計。為了降低模塊的參數(shù)量,首先以一個低維特征張量作為輸入,通過1×1 卷積進行通道擴展生成一個高維特征張量;然后利用深度卷積對其進行空間上下文編碼;最后再通過1×1卷積將高維特征張量映射成低維特征張量。ShuffleNet V2[15]證明輸入和輸出通道相同時,可以降低內(nèi)存訪問量,因此在倒置殘差模塊前后添加了通道混洗操作,以對特征圖的通道數(shù)進行控制。

        1.3 注意力機制

        注意力機制通過卷積特征的學習實現(xiàn)特征通道權(quán)重的重新分配,包括壓縮(Squeeze)和激勵(Excitation)兩個操作。相關(guān)研究表明在增加少量運算復(fù)雜度的情況下,添加注意力機制能夠提高輕量型模型的性能。其中,SE(Squeeze-and-Excitation)模塊[16]主要通過全局池化建模特征通道之間關(guān)系,沒有考慮空間方向信息的重要性。卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[17]在此基礎(chǔ)上考慮了通道關(guān)系和空間關(guān)系,并單獨生成注意力圖,最后與輸入特征圖相乘得到帶有注意力權(quán)重的特征圖。CoordAttention 模塊在保證捕捉特征圖通道之間關(guān)系的前提下,有效地將空間方向的信息保存在注意力圖中,更好地補充了空間方向的特征信息。

        1.4 輕量型模型

        輕量型模型[18]主要對深度神經(jīng)網(wǎng)絡(luò)的深度、寬度進行改進,以減少模型的參數(shù)量和計算量,達到輕量型模型的目標。其中,空間可分離卷積(Spatially Separable Convolution)將卷積核在空間方向拆分成兩個較小的卷積核,再依次進行卷積運算。而深度可分離卷積(Depthwise Separable Convolution)將卷積核拆分成深度卷積(Depthwise Convolution,Dwise)和逐點卷積(Pointwise Convolution,Pwise),這種方法大幅降低了模型的參數(shù)量,但是對特征圖提取特征相對較少,可能導致模型對特征的泛化能力不足。分組卷積(Grouped Convolution)最早是在2012 年提出的AlexNet[19]中出現(xiàn),使用多個GPU 并行處理特征圖,然后將得到的結(jié)果進行融合。

        2 SCANet模型的結(jié)構(gòu)

        本文以HRNet 模型為基礎(chǔ)架構(gòu)進行改進,提出了SCANet 模型,其結(jié)構(gòu)如圖1 所示。

        圖1 SCANet模型的結(jié)構(gòu)Fig.1 Structure of SCANet model

        SCANet 模型繼承了HRNet 模型原有的架構(gòu),包含Stage1、Stage2、Stage3 和Stage4 共4 個階段。這是為了讓特征圖的分辨率采取循序漸進的下降方式。如果大幅度采取下采樣操作,會導致特征圖中人體姿態(tài)的細節(jié)迅速丟失,即使從模糊圖像中學習到特征信息,再與上層高分辨率特征圖提取的特征信息進行特征融合,也難以提高預(yù)測關(guān)鍵點的準確率。在每個階段中分別使用1、2、3 和4 個不同分辨率和通道數(shù)的平行分支,也避免了下采樣過程中特征圖空間信息丟失。

        SCANet 模型具體處理過程如下:

        1)在預(yù)處理階段經(jīng)過兩個標準的3×3 卷積核使輸入圖像分辨率變?yōu)樵瓉淼?/4,通道數(shù)也由原來的3 通道變成64通道;

        2)將預(yù)處理后的特征圖作為Stage1 的輸入,經(jīng)過4 個SCAneck 模塊對特征圖進行特征提?。?/p>

        3)在隨后的3 個階段中分別使用具有不同分辨率(1/4、1/8、1/16、1/32)和通道數(shù)(C、2C、3C、4C)的SCAblock 模塊對特征圖進行特征提取。

        本文采用C=32 的模型架構(gòu),在每個Stage 之間都對特征圖的分辨率和通道數(shù)進行調(diào)整,本文參考文獻[4]的思想,分辨率每減少一半,特征圖通道數(shù)就增加一倍,以彌補分辨率下降帶來的空間定位損失。具體實現(xiàn)的Sandglass 模塊、CoordAttention模塊、SCAneck 模塊和SCAblock 模塊結(jié)構(gòu)如下。

        2.1 Sandglass模塊

        Sandglass 模塊結(jié)構(gòu)如圖2 所示,通過對倒置殘差模塊翻轉(zhuǎn)和在深度卷積之間添加兩個1×1 卷積,實現(xiàn)縮減層和擴展層位置的調(diào)整,克服了在高維特征向低維特征映射時,壓縮通道不能保留全部有用特征信息的缺陷。同時為了保留更多的特征通道和空間上下文信息,在高維特征之間建立跳躍連接。依據(jù)文獻[6]的思想,當輸入和輸出的通道數(shù)不相同時,不加入跳躍連接。

        圖2 Sandglass模塊Fig.2 Sandglass module

        Sandglass 模塊的參數(shù)量與運算復(fù)雜度計算公式如下所示:

        其中:Cin和Cout分別表示模塊的輸入通道和輸出通道;T為縮放系數(shù);H和W分別代表特征圖的高和寬。

        本文分別對不同的縮放系數(shù)T在MPII(Max Planck Institute for Informatics)數(shù)據(jù)集[20]上進行了實驗比較,發(fā)現(xiàn)縮放系數(shù)T=1 比T=2 對預(yù)測人體關(guān)鍵點的平均準確率多出了1.9 個百分點,同時縮放系數(shù)T與模型的參數(shù)量和運算復(fù)雜度成反比,因此在本文實驗中的縮放系數(shù)T=1。

        2.2 CoordAttention模塊

        CoordAttention 模塊在獲取通道間特征信息的同時,在空間方向?qū)崿F(xiàn)對精確位置信息和感興趣領(lǐng)域的捕獲。該模塊依次實現(xiàn)坐標信息嵌入模塊(Coordinate Information Embedding Module)和坐標注意力生成模塊(Coordinate Attention Generation Module)兩個功能。CoordAttention 模塊的具體結(jié)構(gòu)如圖3 所示。

        圖3 CoordAttention模塊Fig.3 CoordAttention module

        CoordAttention 模塊的步驟如下:

        1)首先對于輸入的特征圖,分別使用豎直和水平方向的自適應(yīng)平均池化層對每個特征通道進行特征提?。?/p>

        2)將生成的特征圖進行拼接,然后利用1×1 卷積,同時生成具有豎直和水平方向空間信息的中間特征圖;

        3)沿空間方向?qū)⒅虚g特征圖分為兩個特征圖,并分別利用1×1 卷積來對通道數(shù)轉(zhuǎn)換;

        4)得到豎直和水平空間方向的注意力權(quán)重,與輸入特征圖相乘,得到帶有注意力權(quán)重的特征圖。

        CoordAttention 模塊中一共采用了3 個1×1卷積,其中Cmid為壓縮后的特征通道。其參數(shù)量與運算復(fù)雜度計算公式分別如式(3)~(4)所示:

        2.3 SCAneck模塊與SCAblock模塊

        本文提出了兩種構(gòu)建模型的基本模塊,分別是SCAneck模塊和SCAblock 模塊,模塊的結(jié)構(gòu)如圖4 所示。

        圖4 SCAneck模塊和SCAblock模塊Fig.4 SCAneck module and SCAblock module

        因為HRNet 模型主要由Bottleneck 模塊和Basicblock 模塊組成,因此本文對HRNet 模型中的Bottleneck 模塊和Basicblock 模塊進行重新設(shè)計。首先采用Sandglass 模塊替換標準的3×3 卷積,并重新考慮了縮減層和擴展層的縮放系數(shù),保證對特征圖的特征提取能力;其次在每個模塊中都添加了CoordAttention 模塊獲取跨通道特征信息和精確的空間位置信息。通過引入Sandglass 模塊和CoordAttention 模塊,在保證模型性能的前提下大幅降低模型的參數(shù)量和運算復(fù)雜度。當卷積層的輸入通道和輸出通道數(shù)相同時[15],系統(tǒng)訪問消耗最小、模型速度最快,因此在設(shè)計SCANet 模型基礎(chǔ)模塊時,保留了HRNet 模型中基礎(chǔ)模塊原有的殘差架構(gòu),并使基礎(chǔ)模塊內(nèi)部的Sandglass 模塊和CoordAttention 模塊中通道數(shù)Cin=Cout。下面分別給出HRNet 基礎(chǔ)模塊和SCANet 基礎(chǔ)模塊的參數(shù)量計算公式:

        相較于HRNet 模型的基礎(chǔ)模塊,本文提出的SCAneck 模塊和SCAblock 模塊在模型訓練時降低參數(shù)量的比率為:

        式(5)~(6)表示HRNet 基礎(chǔ)模塊的參數(shù)量計算公式;式(7)~(8)表示改進后SCANet 基礎(chǔ)模塊的參數(shù)量計算公式。首先將式(1)、(3)代入式(7)~(8)中,得到SCAneck 模塊和SCAblock 模塊的參數(shù)量;然后將式(5)~(8)代入式(9)~(11)中進行近似計算,得到SCANet 模型中的基礎(chǔ)模塊與HRNet模型中的基礎(chǔ)模塊所降低參數(shù)量的比率。在Stage1 中應(yīng)用了4 個SCAneck 模塊,其中:式(9)表示第1 個SCAneck 模塊與Bottleneck 模塊相比所降低參數(shù)量的比率;式(10)表示后3個SCAneck 模塊與Bottleneck 模塊相比所降低參數(shù)量的比率。第1 個SCAneck 模塊的輸入通道Cin=64,輸出通道Cout=256,所以在進行跳躍連接時,添加了1×1 卷積進行通道數(shù)轉(zhuǎn)換,使得通道數(shù)由64 變成256;其余3 個模塊的輸入通道和輸出通道都是256,所以在進行跳躍連接時,只進行特征圖相加,而不進行通道數(shù)轉(zhuǎn)換,因此rneck1與rneck2結(jié)果不同。式(11)表示SCAblock 模塊與Basicblock 模塊相比所降低參數(shù)量的比率。在整個模型中SCAblock 模塊被應(yīng)用于Stage2、Stage3、Stage4,共有32 個32 通道、32 個64 通道、28 個128 通道和12 個256 通道的SCAblock 模塊,并且在SCAblock 模塊中輸入通道等于輸出通道。由于在Sandglass 內(nèi)部的縮放系數(shù)T=1,所以在SCAblock 模塊內(nèi)部不進行通道數(shù)的轉(zhuǎn)換,因此在整個模型中,不同平行分支的SCAblock 模塊降低的參數(shù)量比率都可以用rblock表達。

        3 實驗與結(jié)果分析

        3.1 COCO數(shù)據(jù)集的實驗情況

        3.1.1 數(shù)據(jù)集描述

        COCO(Common Objects in COntext)數(shù)據(jù)集[21]主要用于計算機視覺中,其中COCO 訓練集中包含了118 287 張圖片,校驗集中包含了5 000 張圖片,測試集中包含33 619 張圖片。在COCO 數(shù)據(jù)集標注中包含全身17 個關(guān)鍵點,分別是:0 表示鼻子,1 表示左眼,2 表示右眼,3 表示左耳,4 表示右耳,5表示左肩,6 表示右肩,7 表示左肘,8 表示右肘,9 表示左手腕,10 表示右手腕,11 表示左臀,12 表示右臀,13 表示左膝,14 表示右膝,15 表示左腳踝,16 表示右腳踝。

        3.1.2 評估標準

        本節(jié)實驗在COCO 訓練集上訓練,在COCO 校驗集上進行驗證,并在COCO 測試集上進行測試。驗證標準采用OKS(Object Keypoint Similarity),包括:AP50為OKS=0.5 時預(yù)測關(guān)鍵點的準確率,AP75為OKS=0.75 時預(yù)測關(guān)鍵點的準確率,平均精確率均值(mean Average Precision,mAP)為OKS=0.50,0.55,???,0.90,0.95 時10 個閾值之間所有預(yù)測關(guān)鍵點準確率的平均值,APM是中尺寸物體預(yù)測關(guān)鍵點的準確率,APL是大尺寸物體預(yù)測關(guān)鍵點的準確率,AR 為OKS=0.50,0.55,…,0.90,0.95 時10 個閾值點的平均值。具體實現(xiàn)方法如式(12)所示:

        其中:di表示預(yù)測的關(guān)鍵點與數(shù)據(jù)集中標注的關(guān)鍵點之間的歐氏距離;vi為真實關(guān)鍵點的標志位,vi∈{0,1,2}表示預(yù)測關(guān)鍵點的可見性;s是目標尺度;ki是每種關(guān)鍵點的相關(guān)控制衰減常數(shù);ski表示每個關(guān)鍵點的標準差。每個預(yù)測的關(guān)鍵點相似度都在[0,1]的范圍內(nèi),當OKS=1 時,表示完美的預(yù)測關(guān)鍵點;當OKS=0 時,表示預(yù)測值與真實值差距太大。

        3.1.3 訓練細節(jié)

        本節(jié)的實驗環(huán)境配置如下:Ubuntu 18.04 LST 64 位系統(tǒng),2 塊GeForce RTX 3090 顯卡,采用PyTorch 1.8.1 深度學習框架。

        在COCO 訓練集上進行訓練時,將COCO 訓練集中的圖像裁剪后縮放到固定的256×192。采用Adam 作為網(wǎng)絡(luò)訓練時的優(yōu)化器,初始學習率是1E-3。在第170 輪時學習率衰減到1E-4,在第210 輪時,學習率衰減到1E-5,網(wǎng)絡(luò)總共訓練230 輪。每個GPU 的最小批量大小為32。在訓練過程中同時使用隨機的圖像旋轉(zhuǎn)和水平翻轉(zhuǎn)進行數(shù)據(jù)增強。

        3.1.4 實驗驗證分析

        本節(jié)在COCO 校驗集上的實驗結(jié)果如表1 所示。結(jié)果表明SCANet 模型與其他先進的人體姿態(tài)估計模型相比,在更少的參數(shù)量和更低的運算復(fù)雜度的基礎(chǔ)上仍然取得了較好的性能。SCANet 模型的每個階段中同一個平行分支都保持相同的分辨率,并通過使用SCAneck 模塊和SCAblock 模塊對HRNet 基礎(chǔ)模塊進行改進。與HRNet 模型相比,根據(jù)式(9)~(11)計算出SCANet 模型降低的參數(shù)量約為57%,并在此基礎(chǔ)上根據(jù)式(2)、(4)計算出模型降低的運行復(fù)雜度約為70%,而實際上SCANet 模型相較于HRNet 模型降低的參數(shù)量與運算復(fù)雜度分別為52.6%和60.6%,這是由于模型中還存在著預(yù)處理階段和信息交互模塊等。

        表1 COCO校驗集上的性能比較Tab.1 Performance comparison on COCO validation set

        與HRNet 模型相比,本文提出的SCANet 模型在mAP 上僅降低了1.1 個百分點,但在AP50上優(yōu)于HRNet 模型,提高了0.5 個百分點,而其他的驗證標準OKS與HRNet 模型相比均保持了相當?shù)乃?。與最新的輕量型模型Lite-HRNet-18和Lite-HRNet-30 相比,本文提出的SCANet 模型雖然提升了模型的參數(shù)量和運算復(fù)雜度,但是在mAP 上分別提升了7.5和5.1 個百分點,同時所有的驗證標準OKS均優(yōu)于Lite-HRNet-18 模型和Lite-HRNet-30 模型。相較于Hourglass、級聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network,CPN)、CPN+OHKM(Online Hard Keypoints Mining)和SimpleBaseline,本文提出的SCANet 模型在預(yù)測關(guān)鍵點的mAP 上分別提升了5.4、3.7、2.9 和1.9 個百分點。

        在COCO 測試集上的實驗結(jié)果如表2 所示,與COCO 校驗集實驗不同的是,輸入尺寸變成了384×288。并且HRNet模型是加載預(yù)訓練模型,SCANet 模型是不加載預(yù)訓練模型,因此SCANet 模型與HRNet 模型相比,模型的mAP 下降了2.1 個百分點,但是模型的參數(shù)量和運算復(fù)雜度分別降低了52.6%和61.2%。

        表2 COCO測試集上的性能比較Tab.2 Performance comparison on COCO test set

        3.2 MPII數(shù)據(jù)集的實驗情況

        3.2.1 數(shù)據(jù)集描述

        MPII 是用于人體姿態(tài)估計的數(shù)據(jù)集,包含24 984 個圖像,其中包含40 000 個不同的人體實例,有28 000 左右的人體實例被作為訓練樣本,2 900 左右的人體實例被作為校驗樣本,11 000 左右的人體實例被作為測試樣本,標注中包含全身的16 個關(guān)鍵點。

        3.2.2 評估標準

        本節(jié)中MPII 數(shù)據(jù)集采用正確估計關(guān)鍵點的比例(Percentage of Correct Keypoints,PCK)評測指標。其中預(yù)測的關(guān)鍵點坐標與真實關(guān)鍵點坐標要小于αlr,α是一個閾值,lr是參考距離,MPII 數(shù)據(jù)集采用α=0.5(PCKh@0.5),參考距離是頭部框?qū)蔷€的長度。

        3.2.3 訓練細節(jié)

        在MPII 數(shù)據(jù)集進行訓練時,統(tǒng)一將裁剪后的圖像縮放到固定的256×256,其他訓練細節(jié)與COCO 數(shù)據(jù)集相同,采用了相同的參數(shù)配置和實驗環(huán)境。

        3.2.4 實驗驗證分析

        SCANet 模型和其他人體姿態(tài)估計模型在MPII 校驗集上的性能比較如表3 所示。在MPII 數(shù)據(jù)集上計算模型的參數(shù)量與COCO 數(shù)據(jù)集方法相同,但是在MPII 數(shù)據(jù)集上進行訓練時需要將圖像裁剪成256×256,與COCO 數(shù)據(jù)集中圖像為256×192 不同,因此在模型運算復(fù)雜度上存在差異。計算得到SCANet 模型在MPII 數(shù)據(jù)集訓練時,相較于HRNet 模型降低的參數(shù)量和運算復(fù)雜度分別約為57%和71%,但實際模型降低的參數(shù)量和運算復(fù)雜度分別為52.6%和61.1%。由于SCANet 模型沒有在ImageNet 數(shù)據(jù)集上進行預(yù)訓練,因此表3中的模型都在不加載預(yù)訓練模型的前提下進行性能比較。

        在人體姿態(tài)估計模型中,對人體不同關(guān)鍵點的預(yù)測難易程度不一樣,因此不同部位的預(yù)測效果存在差異,對于腰部和腿部這類關(guān)鍵點的預(yù)測要明顯難于頭部附近的關(guān)鍵點預(yù)測。從表3 中可以看出SCANet 模型對于頭部、臀部關(guān)鍵點預(yù)測的準確率上均高于HRNet 模型,并且在肩部、肘部、膝蓋等關(guān)鍵點的準確率保持了相當?shù)乃剑皇窃谑滞蠛湍_踝等這些不容易預(yù)測關(guān)鍵點的準確率上有差異。SCANet 模型相較于HRNet 模型在平均準確率方面僅降低了0.6 個百分點,而相較于輕量型模型Lite-HRNet-18 和Lite-HRNet-30 在平均準確率上分別提升了2.6 和1.7 個百分點。相較于其他算法如:Hourglass 和SimpleBaseline,在相同條件下,本文提出的SCANet 模型在預(yù)測關(guān)鍵點的平均準確率上分別提升了1.2和0.8 個百分點,并且對人體不同關(guān)鍵點的預(yù)測均優(yōu)于這兩種算法。實驗結(jié)果表明,本文提出的SCANet 模型在具有更小的參數(shù)量與計算量的前提下,通過引入Sandglass 模塊和CoordAttention 模塊能加強特征圖通道和空間信息的特征提取,對人體關(guān)鍵點的預(yù)測仍然具有良好的性能。

        表3 MPII校驗集上的性能比較(PCKh@0.5)Tab.3 Performance comparison on MPII validation set(PCKh@0.5)

        在MPII 測試集上的驗證結(jié)果如表4 所示,結(jié)果表明SCANet 模型與HRNet 模型相比,模型降低的參數(shù)量與運算復(fù)雜度與MPII 校驗集相同,分別下降了52.6%和61.1%。并且SCANet 模型在測試集上預(yù)測人體關(guān)鍵點的準確率與校驗集保持了相當?shù)乃剑谄骄鶞蚀_率上下降了0.7 個百分點,原因可能是此數(shù)據(jù)集性能趨于飽和,因此在測試集和校驗集上,SCANet 模型和HRNet 模型性能差距不大。

        表4 MPII測試集上的性能比較(PCKh@0.5)Tab.4 Performance comparison on MPII test set(PCKh@0.5)

        3.2.5 消融分析

        為了驗證添加的Sandglass 模塊和CoordAttention 模塊分別對SCANet 模型的特征提取能力和對人體關(guān)鍵點預(yù)測準確率的影響程度,分別構(gòu)建了有注意力機制和無注意力機制的SCANet 模型,其中無注意力機制的SCANet 模型使用Sandglass 模塊替代標準的3×3 卷積。實驗在MPII 數(shù)據(jù)集上進行訓練,在MPII 校驗集上進行驗證,并且都不加載預(yù)訓練模型。

        實驗結(jié)果如表5 所示,采用控制變量的方法,無注意力機制的SCANet 模型,只使用Sandglass 模塊對HRNet 模型中的基礎(chǔ)模塊進行改進,相較于HRNet 模型在參數(shù)量和運算復(fù)雜度上分別降低了68.1%和62.1%。而無注意力機制的SCANet 模型與有注意力機制的SCANet 模型相比,兩種模型都使用了Sandglass 模塊。無注意力機制的SCANet 模型刪除了CoordAttention 模塊,模型的參數(shù)量和運算復(fù)雜度分別下降了32.6%和2.7%,這是由于深度神經(jīng)網(wǎng)絡(luò)在計算運算復(fù)雜度時涉及圖像的大小,而CoordAttention 模塊在捕獲通道間信息的基礎(chǔ)上還需要分別對水平和豎直兩個空間方向的特征進行卷積計算。

        表5 消融實驗Tab.5 Ablation experiment

        實驗結(jié)果表明無注意力機制的SCANet 模型在只使用Sandglass 模塊對HRNet 模型中的基礎(chǔ)模塊進行改進時,模型的平均準確率相比HRNet 模型僅下降了1.3 個百分點,不僅大幅度降低了模型的參數(shù)量與運算復(fù)雜度,而且還能夠保證模型的性能,達到輕量型模型的目的。并且有注意力機制的SCANet 模型在加入注意力機制后并不會對模型的運算復(fù)雜度造成很大的影響,而且SCANet 模型在刪除CoordAttention模塊后,模型的平均準確率降低了0.7 個百分點。因此添加注意力機制能夠提高SCANet 模型在預(yù)測關(guān)鍵點時的準確率。

        4 可視化研究及分析

        本文在COCO 校驗集上進行可視化研究,隨機選取了一張同時存在人體折疊遮擋和物體遮擋的多人圖片。如圖5所示,圖中點表示人體的關(guān)鍵點位置,連線表示對關(guān)鍵點關(guān)系的建模。

        圖5 有遮擋的關(guān)鍵點預(yù)測Fig.5 Key point prediction with occlusions

        從圖5(b)和圖5(c)中對比得出,對于無遮擋的人體關(guān)鍵點,SCANet 模型和HRNet 模型都能準確地預(yù)測出人體關(guān)鍵點,僅在預(yù)測關(guān)鍵點位置上略有差異。當存在遮擋關(guān)鍵點和人體尺度較小的情況下,SCANet 模型相較于HRNet 模型能夠更好預(yù)測人體的關(guān)鍵點。

        實驗結(jié)果表明,SCANet 模型采用SCAneck 模塊和SCAblock 模塊這兩種基礎(chǔ)模塊,對HRNet 模型中的基礎(chǔ)模塊進行改進,雖然降低了模型的參數(shù)量和運算復(fù)雜度,但是兩種模塊本質(zhì)上使用了深度可分離卷積,對特征圖提取的特征少,會導致模型對特征的泛化能力不足。但是添加的Sandglass 模塊在高維特征之間傳遞更多的特征信息,CoordAttention 模塊加強了對特征圖通道和空間方向信息的特征提取,在一定程度上彌補了特征提取不足的缺陷,能夠很好地預(yù)測出尺度較小和遮擋的人體關(guān)鍵點,具有較好的魯棒性。

        圖6 是對人體的背影進行關(guān)鍵點預(yù)測。從圖6 可以看出,當人體所處環(huán)境光線較暗,并且同時存在關(guān)鍵點重疊遮擋的情況下,SCANet 模型和HRNet 模型都能較好地從人體的背影預(yù)測出人體的關(guān)鍵點;但是SCANet 模型能夠預(yù)測出HRNet 模型沒有預(yù)測出來的關(guān)鍵點,并對建模錯誤的人體姿態(tài)進行修正。

        圖6 背影關(guān)鍵點預(yù)測Fig.6 Back key point prediction

        實驗結(jié)果表明,SCANet 模型相較于HRNet 模型,即使在光線較暗、遮擋等條件下,也能預(yù)測出關(guān)鍵點,并對關(guān)鍵點關(guān)系進行正確的建模,有較好的泛化能力和抗干擾能力。

        5 結(jié)語

        本文通過引入Sandglass 模塊和CoordAttention 模塊對HRNet 模型中的基礎(chǔ)模塊進行改進,通過構(gòu)建SCAneck 模塊和SCAblock 模塊這兩種輕量型的模塊,提出了一種輕量型人體姿態(tài)估計網(wǎng)絡(luò)SCANet。在降低模型參數(shù)量和運算復(fù)雜度的同時,有效地保證了特征圖的特征信息提取,更好地保留了關(guān)鍵點的空間位置信息。本文提出的SCANet 模型不僅能夠預(yù)測尺度較小和遮擋的人體關(guān)鍵點,還能對建模錯誤的人體姿態(tài)進行修正,但是在模型的參數(shù)量和運算復(fù)雜度方面仍然需要改進。

        本文使用COCO 數(shù)據(jù)集和MPII 數(shù)據(jù)集進行實驗驗證,在硬件設(shè)施允許的情況下,可以使用更大的ImageNet 數(shù)據(jù)集進行人體的關(guān)鍵點預(yù)測。在保證模型對人體關(guān)鍵點預(yù)測準確率的前提下,如何設(shè)計在實際場景中應(yīng)用的輕量型人體姿態(tài)估計模型,是今后研究的主要方向。

        猜你喜歡
        關(guān)鍵點復(fù)雜度姿態(tài)
        聚焦金屬關(guān)鍵點
        肉兔育肥抓好七個關(guān)鍵點
        攀爬的姿態(tài)
        學生天地(2020年3期)2020-08-25 09:04:16
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        全新一代宋的新姿態(tài)
        汽車觀察(2018年9期)2018-10-23 05:46:40
        跑與走的姿態(tài)
        中國自行車(2018年8期)2018-09-26 06:53:44
        求圖上廣探樹的時間復(fù)雜度
        某雷達導51 頭中心控制軟件圈復(fù)雜度分析與改進
        出口技術(shù)復(fù)雜度研究回顧與評述
        醫(yī)聯(lián)體要把握三個關(guān)鍵點
        成人av资源在线播放| 97视频在线播放| а的天堂网最新版在线| 日韩激情视频一区在线观看| 亚洲狠狠婷婷综合久久久久 | 少妇高潮惨叫正在播放对白| 九九精品无码专区免费| 男女男生精精品视频网站| 丝袜美腿在线观看一区| 国产成人涩涩涩视频在线观看| h在线国产| 激情乱码一区二区三区| 精品日韩一级免费视频| 欧美极品jizzhd欧美| 在线播放国产女同闺蜜| 人妻精品久久久一区二区| 久久综合九色欧美综合狠狠| 国产精品18久久久久久麻辣| 国产综合久久久久影院| 日韩人妻美乳中文字幕在线| 国产a∨天天免费观看美女| 欧洲熟妇色xxxx欧美老妇多毛网站| 国产成人福利在线视频不卡| 干出白浆视频在线观看| 尤物在线精品视频| 国产一级特黄无码免费视频| 99久久免费精品色老| 国产网站一区二区三区| 午夜成人无码福利免费视频| 亚洲一区二区三区久久蜜桃| 亚洲一区二区三区熟妇| 女人色熟女乱| 国产精品11p| 蜜桃视频网站在线免费观看| 亚洲youwu永久无码精品| 久久精品一区二区三区av| 色偷偷女人的天堂亚洲网| 青青草小视频在线观看| 西西大胆午夜人体视频| 国产AV国片精品有毛| 中文字幕人妻被公喝醉在线|