亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)R-FCN與語義分割相結(jié)合的人體姿態(tài)估計(jì)

        2021-01-26 11:34:30馬鴻玥樸燕魯明陽
        關(guān)鍵詞:關(guān)鍵點(diǎn)姿態(tài)尺度

        馬鴻玥,樸燕,魯明陽

        (長春理工大學(xué) 電子信息工程學(xué)院,長春 130022)

        人體姿態(tài)估計(jì)作為計(jì)算機(jī)視覺領(lǐng)域中的一個重要研究方向,被廣泛應(yīng)用于許多方面。例如,利用人體姿態(tài)可以進(jìn)行摔倒檢測或用于增強(qiáng)安保和監(jiān)控[1];用于健身、體育和舞蹈等教學(xué);訓(xùn)練機(jī)器人,讓機(jī)器人“學(xué)會”移動自己的關(guān)節(jié);電影特效制作或交互游戲中追蹤人體的運(yùn)動;通過追蹤人體姿態(tài)的變化,實(shí)現(xiàn)虛擬人物與現(xiàn)實(shí)人物動作的融合與同步等。近年來,深度卷積神經(jīng)網(wǎng)絡(luò)不斷應(yīng)用于人體姿態(tài)估計(jì)中,使檢測人體骨骼關(guān)鍵點(diǎn)變得不繁瑣,并且精確度也得到了很大的提升。但在復(fù)雜的環(huán)境下,多人會出現(xiàn)遮擋、重疊的現(xiàn)象,使人體姿態(tài)估計(jì)面臨著挑戰(zhàn)。

        基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法,主要有兩種思路:

        (1)Bottom-up方法

        第一步對整個圖片進(jìn)行每個人體關(guān)鍵點(diǎn)的檢測,第二步根據(jù)檢測到的關(guān)鍵點(diǎn)拼接成人形。近幾年,此思路流行的方法有很多,例如Open?Pose[2],主要對編碼人體四肢的位置和方向的關(guān)鍵點(diǎn)進(jìn)行連接,并且學(xué)習(xí)身體部位的位置和聯(lián)系的架構(gòu),并且用高效率、高質(zhì)量的方法產(chǎn)生人體姿態(tài)檢測的結(jié)果,該模型在標(biāo)準(zhǔn)測試集MPII中可以達(dá)到平均79.7 mAP。隨著圖像中人數(shù)的增加依然能保持準(zhǔn)確率和實(shí)時性。但是,在OpenPose模型訓(xùn)練時存在著標(biāo)簽問題:由于采用CPM(Critical Path Method)[3]與 PAF(Part Affinity Field)[4]結(jié)合的方法,在訓(xùn)練時,一個 PAF 連接就是對已知的兩個關(guān)鍵點(diǎn)進(jìn)行連接,如果兩個關(guān)鍵點(diǎn)中有一個不存在,則不生成PAF標(biāo)簽,即使模型預(yù)測出正確的PAF,訓(xùn)練時也會被懲罰,容易對模型的訓(xùn)練造成影響。

        (2)Top-down方法

        第一步利用目標(biāo)檢測算法檢測出單個人,第二步對檢測出的個人進(jìn)行人體關(guān)鍵點(diǎn)檢測。Top-down方法的性能通常依賴于人體檢測器的精度,因?yàn)槿梭w姿態(tài)估計(jì)是根據(jù)檢測器得出的邊界框中進(jìn)行的。因此,錯誤的定位和重復(fù)的候選框會使姿態(tài)估計(jì)算法的性能降低。目前,代表性的方法是RMPE[5]:基于兩步法框架的區(qū)域的多姿態(tài)估計(jì)算法,首先對目標(biāo)進(jìn)行檢測,形成候選區(qū)域,然后根據(jù)候選區(qū)域進(jìn)行姿態(tài)估計(jì)。針對候選區(qū)定位不準(zhǔn)確的情況下也能正確的檢測人體姿態(tài)。該算法在MPII數(shù)據(jù)集下可以達(dá)到平均76.7 mAP。但是,RMPE易受到檢測框的影響,造成漏檢和誤檢,從而影響檢測結(jié)果。此外,Mask R-CNN[6]也可以應(yīng)用到人體姿態(tài)估計(jì)中,該網(wǎng)絡(luò)中的語義分割mask分支可以擴(kuò)展到人體關(guān)鍵點(diǎn)檢測。本文采用Top-down的方法,借鑒了Mask R-CNN中的語義分割mask網(wǎng)絡(luò)分支,提出了一種基于改進(jìn)R-FCN[7]和語義分割相結(jié)合的人體姿態(tài)估計(jì)模型。

        目標(biāo)檢測作為姿態(tài)識別的一個子任務(wù),本文將用于目標(biāo)檢測的R-FCN為基本框架,在此基礎(chǔ)上加以改進(jìn),改進(jìn)后的R-FCN框架具有人體姿態(tài)估計(jì)的能力,同時,保障運(yùn)行速度的前提下提升檢測精度。本文創(chuàng)新點(diǎn)如下:

        (1)將R-FCN中原有的ResNet-101深度網(wǎng)絡(luò)替換為ResNeXt-101[8]深度網(wǎng)絡(luò)。其中R-esNeXt-101主要是結(jié)合了VGG堆疊和Incept-ion的分裂-轉(zhuǎn)換-聚合原理,在相同參數(shù)情況下,解決了ResNet-101在訓(xùn)練時錯誤率較高的問題。通過使用相比ResNet-101更少的網(wǎng)絡(luò)層數(shù),從而提升準(zhǔn)確率和運(yùn)行速度。

        (2)結(jié)合文獻(xiàn)[9]中的方法,引用多尺度RPN,通過修改候選區(qū)域的比例和尺寸,從而提高對人體定位的準(zhǔn)確性,解決多尺度下的人體姿態(tài)問題。

        (3)在目標(biāo)檢測R-FCN框架上結(jié)合了Mask R-CNN中并行的語義分割mask網(wǎng)絡(luò)分支,它與原始的分類與回歸分支進(jìn)行并聯(lián),使R-FCN具有語義分割的功能,從而實(shí)現(xiàn)人體姿態(tài)估計(jì)。

        1 基礎(chǔ)網(wǎng)絡(luò)介紹

        1.1 R-FCN網(wǎng)絡(luò)介紹

        R-FCN是用于目標(biāo)檢測的全卷積網(wǎng)絡(luò)。與Fast/Faster R-CNN相比,在R-FCN的結(jié)構(gòu)中,使用所有卷積層來構(gòu)建共享卷積子網(wǎng)絡(luò),殘差網(wǎng)絡(luò)(ResNets)[10]作為基礎(chǔ)網(wǎng)絡(luò)。此外,針對圖像分類中的平移不變性與目標(biāo)檢測中的平移方差之間的矛盾,R-FCN采用位置敏感的分?jǐn)?shù)映射來解決。ResNets101作為R-FCN的骨干網(wǎng)絡(luò),在PASCAL VOC 2007數(shù)據(jù)集和PASCAL VOC 2012數(shù)據(jù)集上分別實(shí)現(xiàn)83.6% mAP和82.0% mAP,同時測試時間可以實(shí)現(xiàn)每圖像運(yùn)行170 ms的速度。

        R-FCN是基于區(qū)域的二階段框架,包括:(1)區(qū)域建議;(2)區(qū)域分類。其網(wǎng)絡(luò)由共享的全卷積架構(gòu)組成,使用ResNet-101為主體網(wǎng)絡(luò),采用區(qū)域建議網(wǎng)絡(luò)(RPN)來提取候選區(qū)域(RoI),將RoI分為9個區(qū)域,分別代表人體的9個部位,構(gòu)建一組位置敏感得分圖,映射原圖像的位置響應(yīng)值,再經(jīng)過RoI-Pooling層的平均池化操作,最后根據(jù)投票機(jī)制判斷其類別或者背景。

        將位置信息精確地映射到每個RoI中,劃分每個RoI為k×k個bin的矩形網(wǎng)格,每個RoI網(wǎng)格的尺寸大小為w×h,每個bin的尺寸約為,在(i,j)位置的bin(0 ≤i,j≤k-1)中,定義一個位置敏感的RoI平均池化操作,該操作僅在(i,j)分值圖上進(jìn)行池化:

        其中,rc(i,j)是在(i,j)區(qū)域基于C類別的池化響應(yīng);zi,j,c是K×K×(C+1)維的敏感得分圖,C+1表示C類加上一個背景圖;(x0,y0)代表9個區(qū)域的其中一個區(qū)域;n是在bin里的像素點(diǎn)個數(shù);Θ表示網(wǎng)絡(luò)的所有可學(xué)習(xí)的參數(shù)。(i,j)的范圍為,并且

        通過平均得分進(jìn)行vote,為每個RoI生成一個(C+1)維向量:

        然后計(jì)算不同類別的softmax響應(yīng):

        用于評估訓(xùn)練過程中的交叉熵?fù)p失。同時,使用類似的方法處理邊界盒回歸。

        1.2 Mask R-CNN網(wǎng)絡(luò)介紹

        在實(shí)例分割領(lǐng)域,Mask R-CNN是一個概念簡單、靈活、通用的框架。不僅可以有效地檢測圖像中的對象,而且針對每個實(shí)例都可以生成一個高質(zhì)量的分割掩碼。Mask R-CNN通過添加一個語義分割mask網(wǎng)絡(luò)分支來擴(kuò)展Faster RCNN[11],該分支與現(xiàn)有的用于邊界框識別的分支并行地預(yù)測一個對象掩碼。運(yùn)行速度可以達(dá)到每秒5幀。此外,Mask R-CNN還可以用來檢測人體關(guān)鍵點(diǎn)。在COCO 2016挑戰(zhàn)賽中,實(shí)例分割、目標(biāo)檢測、人體關(guān)鍵點(diǎn)檢測都達(dá)到了最好的結(jié)果。Mask RCNN的整體架構(gòu)由Faster R-CNN、ROIAlign 和 FCN(Feature Pyramid Networks)[12]三個模塊組成。其中,F(xiàn)aster R-CNN作為目標(biāo)檢測模塊,F(xiàn)CN作為語義分割模塊,ROIAlign策略解決了像素偏差問題,三個模塊的結(jié)合使Mask RCNN達(dá)到了高速、高準(zhǔn)確率的效果。

        Mask R-CNN作為Faster R-CNN的擴(kuò)展,主要表現(xiàn)在:

        (1)在Faster R-CNN算法的基礎(chǔ)上,增添了FCN網(wǎng)絡(luò)以產(chǎn)生對應(yīng)的語義分割mask網(wǎng)絡(luò)分支,從而實(shí)現(xiàn)分割任務(wù),并且分割任務(wù)與定位、分類任務(wù)是同時進(jìn)行的。

        (2)引入了RoIAlign,代替Faster R-CNN中的RoIPooling。因?yàn)樵赗oIPooling中會對像素值進(jìn)行兩次量化操作,進(jìn)而會引入量化誤差,造成像素偏差,對分割任務(wù)有很大的影響。而RoIAlign則是采用“雙線性插值”算法來估計(jì)像素值[13],使原圖中的像素和feature map中的像素完全對齊,這樣不僅會提高檢測的精度,同時也會有利于實(shí)例分割。

        Mask R-CNN屬于二階段框架,第一階段作用于RPN網(wǎng)絡(luò)生產(chǎn)RoIs,第二階段對RPN找到的每個RoI進(jìn)行分類、定位和生成mask掩碼。如圖1所示,以FPN網(wǎng)絡(luò)為骨干網(wǎng)絡(luò),整個架構(gòu)分為上下兩個分支,上分支經(jīng)過7×7×256的卷積層以及兩次1×1 024的全連接層分別實(shí)現(xiàn)分類和回歸,mask語義分割網(wǎng)絡(luò)作為下分支進(jìn)行了4次14×14×256的卷積操作和一次 28×28×256的反卷積操作,最后輸出為28×28×80的mask。

        2 基于改進(jìn)R-FCN與語義分割相結(jié)合的人體姿態(tài)估計(jì)方案

        如圖2所示,整體網(wǎng)絡(luò)框架采用以區(qū)域?yàn)榛A(chǔ)的、全卷積網(wǎng)絡(luò)的兩階段框架。模型使用ResNeXt-101進(jìn)行特征提取,生成特征圖,將最后一層特征圖經(jīng)過多尺度RPN網(wǎng)絡(luò),輸出為目標(biāo)候選區(qū)域矩形框的集合。模型存在上下并行的兩個分支,上分支利用mask網(wǎng)絡(luò)實(shí)現(xiàn)語義分割,并且采用one-hot編碼提取人體關(guān)鍵點(diǎn)。下分支利用特征圖獲得位置敏感得分圖,同時在特征圖上獲得位置敏感得分映射,再經(jīng)過池化和投票操作,最后采用softmax函數(shù)實(shí)現(xiàn)分類和回歸。

        圖2 人體姿態(tài)識別框架

        分類和回歸分別執(zhí)行位置敏感的RoI平均池化操作。每個RoI上定義的損失函數(shù)視為分類損失、回歸損失及語義分割損失之和:

        其中,c*表示RoI的ground-truth標(biāo)簽(c*=0表示為背景);t表示ground-truth框。[c*>0]是一個指示符,如果參數(shù)為真,則該指示符等于1,否則等于0。并且設(shè)置平衡量λ=1。

        公式(5)為分類的交叉熵?fù)p失,Lreg(t,t*)為邊界框回歸損失。mask分支的平均二值交叉熵?fù)p失如下:

        其中,1k表示當(dāng)?shù)趉個通道對應(yīng)目標(biāo)的真實(shí)類別時為1,否則為0;y表示當(dāng)前位置的mask的label值,為0或1;x表示當(dāng)前位置的輸出值,sigmoid(x)表示輸出x經(jīng)過sigmoid函數(shù)變換后的結(jié)果。Mask R-CNN中最后輸出的mask的尺寸為m×m×K(28×28×80)。計(jì)算Lmask時,僅使用RoI的真實(shí)類別的通道損失。

        2.1 以ResNeXt-101為基礎(chǔ)網(wǎng)絡(luò)的人體姿態(tài)估計(jì)模型

        ResNeXt網(wǎng)絡(luò)作為ResNet網(wǎng)絡(luò)的一個擴(kuò)展網(wǎng)絡(luò)。主要思想是VGG堆疊網(wǎng)絡(luò)與分裂-轉(zhuǎn)換-聚合原理的結(jié)合。其中采用深度、寬度和基數(shù)作為衡量指標(biāo)。如圖3所示,圖3(a)為ResNet網(wǎng)絡(luò)模塊,輸入通道為 256,依次進(jìn)行 1×1、3×3、1×1的卷積。輸出通道為256。圖3(b)為ResNeXt網(wǎng)絡(luò)模塊,與ResNet網(wǎng)絡(luò)模塊相比,ResNeXt網(wǎng)絡(luò)模塊共分為32個卷積路徑,輸出與ResNet網(wǎng)絡(luò)模塊的輸出相同,且兩個網(wǎng)絡(luò)模塊的復(fù)雜度相近。

        圖3 模塊示意圖

        ResNeXt網(wǎng)絡(luò)的一個殘差模塊被視為分裂-轉(zhuǎn)換-聚合的過程,如圖4所示。ResNeXt網(wǎng)絡(luò)相當(dāng)于在卷積層增加了“新”維度,由此一個模塊的總維度數(shù)被稱為基數(shù),分裂-轉(zhuǎn)換-聚合如下:

        其中,Ti(x)可以是任意函數(shù);D是要聚合的基數(shù)大小。根據(jù)式(7)可以得出殘差方程:

        其中,y是輸出。

        圖4 分裂-轉(zhuǎn)換-聚合原理

        所有的Ti都具有相同的拓?fù)浣Y(jié)構(gòu),如圖5所示,每個Ti中的第一個1×1層產(chǎn)生低維嵌入,本文在ResNeXt-101網(wǎng)絡(luò)的基礎(chǔ)上將原始的基數(shù)32改為64。采用的結(jié)構(gòu)如表1所示,使用ResNeXt網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),可以減少超參數(shù)的數(shù)量,同時提高模型的準(zhǔn)確率。

        圖5 本文采用ResNeXt-101網(wǎng)絡(luò)模塊

        表1 ResNeXt101網(wǎng)絡(luò)結(jié)構(gòu)

        2.2 多尺度RPN結(jié)構(gòu)

        在多目標(biāo)檢測中會出現(xiàn)多尺度的目標(biāo)檢測問題??紤]到目標(biāo)尺寸之間相差較大,僅用單一的尺寸會影響網(wǎng)絡(luò)對多尺度目標(biāo)的檢測能力[14]。如圖6所示,圖像中目標(biāo)的尺寸存在差別。例如每張圖像中人所占的比例不同。從圖6(a)、圖 6(b)、圖 6(c)可以看出目標(biāo)所占的區(qū)域依次減小。所以,由于信息位置的差異,實(shí)現(xiàn)恰當(dāng)?shù)木矸e就比較困難。信息分布更全局性的圖像傾向較大的卷積核,信息分布比較局部的信息傾向較小的卷積核。

        圖6 實(shí)例圖片

        由此,本文結(jié)合文獻(xiàn)[9],借鑒了多尺度RPN結(jié)構(gòu)。通過在同一層上并聯(lián)不同尺寸的濾波器解決多尺度問題。如圖7所示,在最后一層特征圖上使用3種不同大小的濾波器來生成候選區(qū)域,分別通過 1×1、3×3、5×5卷積實(shí)現(xiàn)。經(jīng)過卷積之后每一個像素點(diǎn)映射原始圖片對應(yīng)的坐標(biāo)點(diǎn),此坐標(biāo)點(diǎn)作為中心生成3種比例1:1/1:1.5/1:2、3種尺度64/256/512、共9種不同大小的粗粒度的候選區(qū)域,如圖8所示。

        圖7 多尺度RPN結(jié)構(gòu)

        圖8 三種比例、三種尺寸的候選區(qū)域框

        對多尺度RPN進(jìn)行RoI-pooling操作,利用反向傳播對網(wǎng)絡(luò)進(jìn)行優(yōu)化,RoI-pooling的反向傳播公式如下:

        其中,xi代表池化前特征圖上的像素點(diǎn);yr,j代表池化后的第r個候選區(qū)域的第j個點(diǎn);i*(r,j)代表點(diǎn)yr,j像素值的來源(平均池化時選出的平均像素值所在點(diǎn)的坐標(biāo))。由上式可以看出,只有當(dāng)池化后某一個點(diǎn)的像素值在池化過程中采用了當(dāng)前點(diǎn)xi的像素值(即滿足i=i*(r,j),才在xi處回傳梯度。

        2.3 語義分割mask分支

        本文在R-FCN網(wǎng)絡(luò)上添加一個語義分割mask網(wǎng)絡(luò)分支,與分類分支和回歸分支并行,添加的mask網(wǎng)絡(luò)分支使用全卷積網(wǎng)絡(luò)以像素點(diǎn)對應(yīng)像素點(diǎn)的方式預(yù)測分割mask,以RoI分類器選擇的人體區(qū)域作為輸入,將人體區(qū)域標(biāo)定15個關(guān)鍵點(diǎn)類型,如圖9所示,將人體15個關(guān)鍵點(diǎn)一一對應(yīng)一個mask,并將關(guān)鍵點(diǎn)的位置建模為一個one-hot mask。關(guān)鍵點(diǎn)坐標(biāo)的表示方式為:在圖片中關(guān)鍵點(diǎn)的絕對坐標(biāo)值為i∈(i,…,k),其中表示第i個關(guān)鍵點(diǎn)的坐標(biāo)值(xi,yi),然后對其進(jìn)行歸一化處理。設(shè)人體的邊緣框坐標(biāo)表示為b=(bc,bw,bh),其中bc=(cx,cy)表示邊緣框的中心點(diǎn),邊緣框坐標(biāo)可以通過關(guān)鍵點(diǎn)的絕對坐標(biāo)值計(jì)算出來。則歸一化的關(guān)鍵點(diǎn)坐標(biāo)(相對坐標(biāo))表示為:

        其中采用關(guān)鍵點(diǎn)坐標(biāo)歸一化處理的目的是:解決人體相對于圖片的尺寸過大而造成關(guān)鍵點(diǎn)坐標(biāo)值的差距過大的問題,對尺寸的變化具有更好的魯棒性,同時降低回歸的值的范圍及網(wǎng)絡(luò)的訓(xùn)練的難度。由公式(11)可以得出網(wǎng)絡(luò)預(yù)測的人體區(qū)域骨骼關(guān)鍵點(diǎn)坐標(biāo)相對于圖片的絕對位置表示為:

        圖9 15個關(guān)鍵點(diǎn)標(biāo)注

        如圖10為mask網(wǎng)絡(luò)結(jié)構(gòu),通過多尺度RPN網(wǎng)絡(luò),RoI分類器選擇的正區(qū)域分辨率為14×14×256,經(jīng)過 3×3卷積、2×2卷積、1×1卷積操作,輸出為 28×28×80的 mask,經(jīng)過 one-hot編碼,最終得到的是每個關(guān)鍵點(diǎn)輸出的二值掩碼,其中被標(biāo)記的關(guān)鍵點(diǎn)像素為前景,其余像素均為背景。

        3 實(shí)驗(yàn)結(jié)果與分析

        本文在兩個標(biāo)準(zhǔn)數(shù)據(jù)集上對多人姿態(tài)進(jìn)行評估:(1)MPII數(shù)據(jù)集[15]和(2)MS COCO 數(shù)據(jù)集[16],這兩個數(shù)據(jù)集在不同的場景中收集圖像,其中的場景包含生活中的許多現(xiàn)象,如擁擠、尺度變化、遮擋和接觸現(xiàn)象等。

        圖10 mask網(wǎng)絡(luò)結(jié)構(gòu)

        3.1 評估數(shù)據(jù)集

        (1)MPII數(shù)據(jù)集

        MPII數(shù)據(jù)集由3 844個訓(xùn)練組和1 756個測試組組成,此外,還包含了28 000多個用于單人姿態(tài)估計(jì)的訓(xùn)練樣本。本文使用單人數(shù)據(jù)集中的所有訓(xùn)練樣本和80%的多人訓(xùn)練樣本進(jìn)行訓(xùn)練,20%用于驗(yàn)證。

        (2)MS COCO數(shù)據(jù)集

        MS COCO數(shù)據(jù)集包括105 698項(xiàng)訓(xùn)練樣本和大約80 000項(xiàng)人類實(shí)例測試。訓(xùn)練集包含超過100萬個標(biāo)記的關(guān)鍵點(diǎn)。

        3.2 模型訓(xùn)練

        本文使用的編程語言是python3.7,采用caffe深度學(xué)習(xí)框架,程序運(yùn)行平臺為Anaco-nda3(64bits),操作系統(tǒng)為Windows10(bits),運(yùn)行環(huán)境為GPU顯卡型號為NVIDIA-GTX1080ti-12G。首先對ResNeXt-101網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后用預(yù)訓(xùn)練網(wǎng)絡(luò)來初始化特征提取網(wǎng)絡(luò)卷積層的權(quán)重。設(shè)置學(xué)習(xí)率為0.005,mome-ntum為0.9,weight_decay為0.000 5。網(wǎng)絡(luò)經(jīng)過的迭代共8萬次。

        3.3 在MPII數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析

        本文在MPII測試集上進(jìn)行了評估。在MPII測試集中,完整的測試數(shù)據(jù)集包括人體的頭部、肩部、肘部、腕關(guān)節(jié)、臀部、膝蓋、腳踝部分。如表2所示,通過與DeeperCut、OpenPose以及文獻(xiàn)[18]進(jìn)行對比,本文模型可以達(dá)到的平均精確度是最高的。在估計(jì)腕關(guān)節(jié)、肘部、腳踝和膝蓋等困難關(guān)節(jié)方面的平均準(zhǔn)確率達(dá)到了81%,比之前的最新結(jié)果高出0.9%。本文最終得到了手腕的精度為77.6%,膝蓋的精度為80.3%。實(shí)驗(yàn)結(jié)果表明,基于改進(jìn)R-FCN與語義分割相結(jié)合的人體姿態(tài)估計(jì)模型可以提高精確度。在圖11中展示了一些實(shí)驗(yàn)結(jié)果圖。實(shí)驗(yàn)證明,本文模型能夠準(zhǔn)確地對多人姿態(tài)、單人姿態(tài)、目標(biāo)接觸以及目標(biāo)遮擋姿態(tài)進(jìn)行估計(jì)。

        圖11 姿態(tài)估計(jì)效果圖

        3.4 在MS COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析

        為了進(jìn)一步驗(yàn)證本文方法的有效性,在MS COCO數(shù)據(jù)集上進(jìn)行了多組對比實(shí)驗(yàn),分別對OpenPose、RMPE、Mask-RCNN、以 ResNet101和RPN為基礎(chǔ)R-FCN與mask結(jié)合、以及Our模型進(jìn)行實(shí)驗(yàn)。

        MS COCO評估指標(biāo)中,對象關(guān)鍵點(diǎn)相似性(Object Keypoint Similarity,OKS)定義如下:

        其中,p為地面實(shí)況中人的id;i表示關(guān)鍵點(diǎn)的id;dpi表示地面實(shí)況中每個人關(guān)鍵點(diǎn)與預(yù)測關(guān)鍵點(diǎn)的歐氏距離;Sp表示當(dāng)前人的尺度因子即此人在地面實(shí)況中所占面積的平方根;σi表示第i個關(guān)鍵點(diǎn)的歸一化因子;vpi代表第P個人的第i個關(guān)鍵點(diǎn)是否可見;δ用于將可見點(diǎn)選出來進(jìn)行計(jì)算的函數(shù)。AP即所有10個OKS閾值的平均精確率,AP50即IoU閾值等于0.5時的平均精確度,AP75即IoU閾值等于0.75時的平均精確度,APM即測量面積在322和962之間的平均精確度,APL即測量面積大于962平均精確度。

        由表3可知,本文模型精度優(yōu)于前三組實(shí)驗(yàn),OpenPose中存在標(biāo)簽問題,很容易對模型的訓(xùn)練造成影響。在目標(biāo)有缺陷的情況下,Mask-RCNN無法精確的判斷是否為缺陷。由于RMPE容易受到檢測框的影響,造成漏檢和誤檢,從而影響檢測結(jié)果。實(shí)驗(yàn)表明,以ResNeXt101和多尺度RPN組合為基礎(chǔ)的R-FCN與mask結(jié)合實(shí)現(xiàn)的效果最好,精度率達(dá)到74.3%。以ResNeXt101為基礎(chǔ)框架的R-FCN能夠更好的對目標(biāo)進(jìn)行檢測,結(jié)合多尺度RPN結(jié)構(gòu)可以有效的解決目標(biāo)的不同尺度問題。

        表2 各姿態(tài)估計(jì)模型在MPII數(shù)據(jù)集上的精確度對比

        表3 各姿態(tài)估計(jì)模型在MS COCO數(shù)據(jù)集上的性能對比

        圖12 不同模型結(jié)果對比圖

        在圖 12中,圖 12(a)為 Mask R-CNN 模型姿態(tài)估計(jì)結(jié)果,圖12(b)為OpenPose模型姿態(tài)估計(jì)結(jié)果,圖12(c)為本文提出的模型姿態(tài)估計(jì)結(jié)果。在肢體遮擋和人體復(fù)雜姿態(tài)場景下,圖12(a)只檢測到兩個目標(biāo)姿態(tài),圖12(b)中遺漏了第三個目標(biāo)的腿部關(guān)鍵點(diǎn),由于中間目標(biāo)遮擋了右邊目標(biāo),導(dǎo)致無法對腿部遮擋的部分進(jìn)行估計(jì)。實(shí)驗(yàn)表明,當(dāng)前流行的兩種姿態(tài)估計(jì)模型處理效果有待提高。本文提出的模型可以成功實(shí)現(xiàn)姿態(tài)估計(jì),各個關(guān)鍵點(diǎn)檢測效果明顯優(yōu)于另外兩種模型。

        4 結(jié)論

        本文以深度學(xué)習(xí)為基礎(chǔ),進(jìn)行了人體姿態(tài)估計(jì)算法的研究,并提出了一種基于改進(jìn)R-FCN與語義分割相結(jié)合的人體姿態(tài)估計(jì)模型。該模型以目標(biāo)檢測R-FCN框架加以改進(jìn),并添加了Mask R-CNN中mask語義分割網(wǎng)絡(luò),從而提高人體姿態(tài)估計(jì)算法的性能。同時,為了減少參數(shù)復(fù)雜度以提高準(zhǔn)確率,本文采用ResNeXt-101作為基礎(chǔ)網(wǎng)絡(luò)應(yīng)用于R-FCN網(wǎng)絡(luò)結(jié)構(gòu);并且引用多尺度RPN結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的RPN結(jié)構(gòu),處理候選區(qū)域中出現(xiàn)的多尺度問題。通過實(shí)驗(yàn)證明,本文提出的模型可以快速準(zhǔn)確的對人體姿態(tài)進(jìn)行估計(jì),并且與其他模型相比,有較高的準(zhǔn)確率。

        猜你喜歡
        關(guān)鍵點(diǎn)姿態(tài)尺度
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個關(guān)鍵點(diǎn)
        財產(chǎn)的五大尺度和五重應(yīng)對
        攀爬的姿態(tài)
        全新一代宋的新姿態(tài)
        汽車觀察(2018年9期)2018-10-23 05:46:40
        跑與走的姿態(tài)
        中國自行車(2018年8期)2018-09-26 06:53:44
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        醫(yī)聯(lián)體要把握三個關(guān)鍵點(diǎn)
        9
        鎖定兩個關(guān)鍵點(diǎn)——我這樣教《送考》
        語文知識(2014年7期)2014-02-28 22:00:26
        成人白浆超碰人人人人| 精品三级国产一区二区三| 无码a级毛片免费视频内谢5j| 国语精品一区二区三区| 国产欧美日韩午夜在线观看| 日韩在线中文字幕一区二区三区 | 日本女优中文字幕在线播放| 国产免费无遮挡吸奶头视频| 日本亚洲国产一区二区三区| 亚洲AV无码一区二区三区少妇av| 韩国三级黄色一区二区| 97人人模人人爽人人喊网| 人妻少妇av无码一区二区 | 亚洲国产线茬精品成av| 色哟哟亚洲色精一区二区| 国产成人精品电影在线观看| 国产哟交泬泬视频在线播放| 中文字幕人妻在线少妇完整版| 国产18禁黄网站免费观看| 亚洲av综合日韩| 国内精品国产三级国产av另类| 开心五月激情五月天天五月五月天 | 人妻尤物娇呻雪白丰挺| 日本一区二区三级在线观看| 国产97在线 | 亚洲| 91视频爱爱| 色男色女午夜福利影院| 医院人妻闷声隔着帘子被中出| 伊伊人成亚洲综合人网7777| 国产亚洲av手机在线观看| 变态另类手机版av天堂看网| 亚洲国产日韩欧美一区二区三区 | 亚洲电影一区二区三区| 亚洲精品久久麻豆蜜桃| 天天躁日日躁aaaaxxxx| a在线观看免费网站大全| 麻豆成年视频在线观看| 男女交射视频免费观看网站| 精品国产乱码久久久久久1区2区| 欧美激情中文字幕在线一区二区| 久久一区二区av毛片国产|