亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積與Transformer的人體姿態(tài)估計(jì)方法對(duì)比研究

        2023-03-09 07:05:12鄭建立
        軟件工程 2023年3期
        關(guān)鍵詞:熱圖關(guān)節(jié)點(diǎn)姿態(tài)

        馮 杰,鄭建立

        (上海理工大學(xué)健康科學(xué)與工程學(xué)院,上海 200093)

        fjie666@outlook.com;zhengjianli163@163.com

        1 引言(Introduction)

        人體姿態(tài)估計(jì)(Human Pose Estimation,HPE)是計(jì)算機(jī)視覺(jué)中的一個(gè)重要任務(wù),也是計(jì)算機(jī)理解人類動(dòng)作和行為必不可少的一步。近年來(lái),人體姿態(tài)估計(jì)正越來(lái)越多地應(yīng)用于人們的日常生活,如在人機(jī)交互[1]和VR游戲領(lǐng)域?qū)θ梭w動(dòng)作的捕捉[2],在安防領(lǐng)域?qū)θ梭w行為的分析[3](如智能監(jiān)控、肢體對(duì)抗等),在運(yùn)動(dòng)和康復(fù)領(lǐng)域用于指導(dǎo)人的訓(xùn)練[4]。由于人體在執(zhí)行部分動(dòng)作時(shí)軀體姿態(tài)變化較大,以及動(dòng)作背景環(huán)境復(fù)雜、觀察角度的不確定,使人體姿態(tài)估計(jì)面臨很多挑戰(zhàn),該領(lǐng)域正受到眾多學(xué)者的密切關(guān)注。

        自2012 年AlexNet[5]網(wǎng)絡(luò)提出以來(lái),深度學(xué)習(xí)得到蓬勃發(fā)展,給人體姿態(tài)估計(jì)領(lǐng)域帶來(lái)了新的發(fā)展驅(qū)動(dòng)力。2014 年,計(jì)算機(jī)視覺(jué)領(lǐng)域首次成功引入卷積神經(jīng)網(wǎng)絡(luò)解決單人姿態(tài)估計(jì)問(wèn)題,在此后的很長(zhǎng)一段時(shí)間內(nèi),基于卷積神經(jīng)網(wǎng)絡(luò)的骨干結(jié)構(gòu)一直是該領(lǐng)域內(nèi)的主流方法。隨后,Transformer結(jié)構(gòu)[6]在時(shí)序領(lǐng)域取得巨大成功,開(kāi)始有研究者將其引入計(jì)算機(jī)視覺(jué)領(lǐng)域,基于Transformer結(jié)構(gòu)的人體姿態(tài)估計(jì)算法成為新的研究熱點(diǎn)。本文從卷積神經(jīng)網(wǎng)絡(luò)和基于Transformer結(jié)構(gòu)的網(wǎng)絡(luò)兩個(gè)方面,對(duì)人體姿態(tài)估計(jì)算法做綜合性論述,并總結(jié)分析了兩種研究思路的優(yōu)點(diǎn)和缺點(diǎn)。

        2 人體姿態(tài)估計(jì)概述(Overview of human pose estimation)

        人體姿態(tài)估計(jì)是指在視頻或者圖像中,對(duì)人體的關(guān)鍵點(diǎn)如肘部、手腕、膝蓋等進(jìn)行定位,并且能夠計(jì)算得到各個(gè)關(guān)節(jié)點(diǎn)之間的最優(yōu)連接關(guān)系。單人姿態(tài)估計(jì)是指給定預(yù)測(cè)圖像中只有單個(gè)人體或者固定數(shù)量的關(guān)節(jié)點(diǎn)。在深度學(xué)習(xí)被引入之前,傳統(tǒng)處理姿態(tài)估計(jì)的方法常常是基于圖結(jié)構(gòu)模型[7]。圖結(jié)構(gòu)模型存在人工設(shè)計(jì)特征困難、魯棒性低的問(wèn)題,學(xué)者們發(fā)現(xiàn)基于深度學(xué)習(xí)不需要設(shè)計(jì)圖模型的拓?fù)浣Y(jié)構(gòu)和關(guān)節(jié)點(diǎn)之間的交互,具有更大的優(yōu)勢(shì)。單人姿態(tài)估計(jì)可分為基于坐標(biāo)回歸的方法、基于熱圖檢測(cè)的方法及混合模型方法?;谧鴺?biāo)回歸和基于熱圖檢測(cè)方法各有優(yōu)劣,但由于基于坐標(biāo)回歸方法在精度上具有較大的局限性,因此目前主流方法仍然是基于熱圖檢測(cè)。基于混合模型的方法,則是在一個(gè)算法中同時(shí)使用了前兩者監(jiān)督模型學(xué)習(xí)。表1中列出以上三種方法的優(yōu)點(diǎn)和缺點(diǎn)對(duì)比。

        表1 單人姿態(tài)估計(jì)算法的對(duì)比Tab.1 Comparison of single-person estimation algorithms

        多人姿態(tài)估計(jì)任務(wù)比單人姿態(tài)估計(jì)復(fù)雜,在圖像中含有數(shù)量不等的多個(gè)人體。算法不僅需要給出所有關(guān)節(jié)點(diǎn),還需要預(yù)測(cè)不同關(guān)節(jié)點(diǎn)分屬的不同人體,即關(guān)節(jié)點(diǎn)分組的過(guò)程。目前,多人姿態(tài)估計(jì)主流方法為二步法,即必須經(jīng)過(guò)兩個(gè)階段才能得到最終結(jié)果,二步法又分為自頂向下(Top-Down)和自底向上(Bottom-Up)兩種方法。自頂向下的方法需要先在圖像中檢測(cè)人體,再在單個(gè)人體局部區(qū)域內(nèi)做單人的姿態(tài)估計(jì)。自底向上的方法和自頂向下的方法相反,其過(guò)程是先將圖像中所有關(guān)節(jié)點(diǎn)檢測(cè)出來(lái),然后使用分組算法將同一個(gè)人體的關(guān)節(jié)點(diǎn)連接起來(lái)。除二步法外,還有較為新穎的單步法。

        自頂向下和自底向上方法各有優(yōu)劣,自頂向下比較直觀,但由于網(wǎng)絡(luò)中還包含目標(biāo)檢測(cè)部分,因此運(yùn)算效率不高。通常,需要高精度的場(chǎng)景,采用自頂向下的方法;對(duì)實(shí)時(shí)性要求比較高的場(chǎng)景,采用自底向上的方法。表2對(duì)兩種方法的優(yōu)劣進(jìn)行對(duì)比。

        表2 自頂向下和自底向上方法的優(yōu)劣對(duì)比Tab.2 Comparison of advantages and disadvantages of top-down and bottom-up methods

        3 基于卷積的算法(Algorithm based on convolution)

        3.1 單人姿態(tài)估計(jì)

        在單人姿態(tài)估計(jì)任務(wù)中,TOSHEV等[8]于2014 年首次將深度學(xué)習(xí)應(yīng)用于人體姿態(tài)估計(jì),并將其網(wǎng)絡(luò)結(jié)構(gòu)命名為DeepPose;其研究基于坐標(biāo)回歸的預(yù)測(cè)方法,從特征圖中直接預(yù)測(cè)關(guān)鍵點(diǎn)的坐標(biāo),使用平方差損失函數(shù)進(jìn)行回歸計(jì)算損失值。DeepPose使用了一個(gè)級(jí)聯(lián)回歸預(yù)測(cè),將訓(xùn)練分為多個(gè)階段,以提高坐標(biāo)回歸的準(zhǔn)確度。初始階段得到粗略的坐標(biāo)后,坐標(biāo)點(diǎn)周?chē)木植繄D像被裁剪并送到下一個(gè)階段的訓(xùn)練,學(xué)習(xí)更精細(xì)尺度的特征。這與目前流行的一些多尺度特征網(wǎng)絡(luò)的思想有共通之處。

        即使DeepPose已經(jīng)使用級(jí)聯(lián)回歸進(jìn)行預(yù)測(cè),但讓算法直接預(yù)測(cè)最終坐標(biāo)值的做法對(duì)于模型來(lái)說(shuō)仍然過(guò)于困難。這不僅是由于場(chǎng)景和人體動(dòng)作的復(fù)雜多變,更是由于圖像特征和關(guān)節(jié)坐標(biāo)值之間是高度的非線性關(guān)系,是一個(gè)復(fù)雜的學(xué)習(xí)任務(wù)。之后,SZEGEDY等[9]在GoogleNet的基礎(chǔ)上提出了誤差迭代修正(Iterative Error Feedback,IEF)[10]方式改進(jìn)此問(wèn)題。誤差迭代修正提出了通用型的修正回歸誤差方法,但是如何提高輸出坐標(biāo)的準(zhǔn)確度,仍然沒(méi)有行之有效的方法。TOMPSON等[11]較早地使用熱圖檢測(cè)的方法進(jìn)行姿態(tài)預(yù)測(cè)。研究者發(fā)現(xiàn),相比較于坐標(biāo)回歸,基于熱圖檢測(cè)的方法能夠大幅度地提高算法對(duì)關(guān)節(jié)點(diǎn)的預(yù)測(cè)準(zhǔn)確度。熱圖是由概率值代表的一副圖像,圖中像素點(diǎn)代表其為關(guān)節(jié)點(diǎn)的概率。此外,TOMPSON的研究貢獻(xiàn)在于討論了常規(guī)卷積神經(jīng)網(wǎng)絡(luò)中使用的池化層和Dropout會(huì)造成空間關(guān)聯(lián)信息丟失,帶來(lái)位置精度損失的問(wèn)題,尤其是在姿態(tài)估計(jì)這種精細(xì)化任務(wù)中,特別需要這種特征信息。近年來(lái),有越來(lái)越多的研究者關(guān)注和論證池化層會(huì)帶來(lái)的信息丟失問(wèn)題,不利于需要精確位置信息的任務(wù)。

        之后,很多研究者大都從網(wǎng)絡(luò)模型結(jié)構(gòu)上進(jìn)行精巧設(shè)計(jì),如卷積姿態(tài)機(jī)[12]使用多個(gè)全卷積結(jié)構(gòu)[13]網(wǎng)絡(luò)預(yù)測(cè)關(guān)節(jié)的熱圖。NEWELL等[14]在2016 年提出Hourglass網(wǎng)絡(luò),其中的沙漏堆疊結(jié)構(gòu)表現(xiàn)優(yōu)秀,擊敗了以往所有的模型,成為一個(gè)經(jīng)典的結(jié)構(gòu)。Hourglass使用池化層和上采樣構(gòu)造沙漏形模塊,使用殘差結(jié)構(gòu)將不同尺度特征進(jìn)行融合,結(jié)合中間監(jiān)督優(yōu)化模型訓(xùn)練(圖1)。

        圖1 中間監(jiān)督Fig.1 Intermediate supervision

        基于Hourglass網(wǎng)絡(luò),其他研究者還提出了許多變種網(wǎng)絡(luò)[15-16],ZHANG等[17]對(duì)沙漏接口進(jìn)行精簡(jiǎn),提出輕量級(jí)沙漏網(wǎng)絡(luò),配合知識(shí)蒸餾降低模型復(fù)雜度,將知識(shí)從大型教師網(wǎng)絡(luò)遷移到輕量級(jí)網(wǎng)絡(luò)中。以上研究都基于一個(gè)思路,即設(shè)計(jì)復(fù)雜或者精巧的結(jié)構(gòu),期望用復(fù)雜結(jié)構(gòu)進(jìn)行姿態(tài)估計(jì)問(wèn)題中的高度非線性擬合。XIAO等[18]提出簡(jiǎn)單基線網(wǎng)絡(luò),認(rèn)為提高算法效果不一定要依賴復(fù)雜結(jié)構(gòu),XIAO的研究旨在提出一種簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)降低算法復(fù)雜度。簡(jiǎn)單基線網(wǎng)絡(luò)如圖2所示,算法通過(guò)常規(guī)順序堆疊卷積層進(jìn)行特征提取,使用反卷積進(jìn)行分辨率的復(fù)原。

        圖2 簡(jiǎn)單基線網(wǎng)絡(luò)Fig.2 Simple baselines network

        簡(jiǎn)單基線網(wǎng)絡(luò)雖然網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,但是非常有效,能提示研究人員的網(wǎng)絡(luò)學(xué)習(xí)能力已經(jīng)飽和,另有影響算法表現(xiàn)的因素存在。2019 年,微軟團(tuán)隊(duì)提出高分辨率網(wǎng)絡(luò)(High-Resolution Network,HRNet)[19],研究認(rèn)為不管使用池化層還是其他形式的圖像下采樣,降低分辨率的同時(shí)都會(huì)丟失特征,而高分辨率網(wǎng)絡(luò)在基線上不需要降低分辨率,而是通過(guò)并行的子網(wǎng)分支下采樣,通過(guò)不同尺度的感受野得到圖像特征后,上采樣疊加回基線分支進(jìn)行交叉融合信息;其模型結(jié)構(gòu)如圖3所示,該結(jié)構(gòu)目前仍然有優(yōu)異的表現(xiàn)。

        圖3 高分辨率網(wǎng)絡(luò)Fig.3 High-resolution network

        3.2 自頂向下方法

        在多人姿態(tài)估計(jì)任務(wù)中,自頂向下方法對(duì)人體檢測(cè)器依賴較大,需要準(zhǔn)確得到單個(gè)人體局部圖像。目前,大量的研究都集中在人體檢測(cè)器上,針對(duì)多人姿態(tài)領(lǐng)域進(jìn)行優(yōu)化,希望得到高質(zhì)量的檢測(cè)框,其中對(duì)非極大值抑制的策略改進(jìn)是眾多論文的研究方向。FANG等[20]提出區(qū)域多人姿態(tài)估計(jì)框架(Regional Multi-person Pose Estimation,RMPE),使用Faster R-CNN作為人體檢測(cè)器,設(shè)計(jì)對(duì)稱式變壓器網(wǎng)絡(luò)獲取高精度的人體檢測(cè)框,同時(shí)提出參數(shù)姿態(tài)非極大值抑制(P-Pose NMS)策略對(duì)冗余的檢測(cè)框進(jìn)行過(guò)濾,在檢測(cè)框中配合沙漏堆疊網(wǎng)絡(luò)進(jìn)行單人姿態(tài)估計(jì)。谷歌團(tuán)隊(duì)將非極大值抑制與人體關(guān)節(jié)點(diǎn)評(píng)價(jià)指標(biāo)關(guān)鍵點(diǎn)相似度(Object Keypoint Similarity,OKS)相結(jié)合,提出G-RMI[21]網(wǎng)絡(luò)。不同于參數(shù)姿態(tài)非極大值抑制直接使用歐式距離進(jìn)行過(guò)濾,OKP算法使用人體的尺度信息對(duì)臨近的關(guān)節(jié)點(diǎn)間進(jìn)行歐氏距離的修正,計(jì)算其檢測(cè)框的相似度。同時(shí),級(jí)聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network,CPN)[22]算法也驗(yàn)證了不同非極大值抑制策略對(duì)于人體檢測(cè)質(zhì)量的影響。

        3.3 自底向上方法

        采用自底向上方法時(shí),如何將所有關(guān)節(jié)點(diǎn)進(jìn)行分組并聯(lián)接得到人體拓?fù)浣Y(jié)構(gòu)是關(guān)鍵。CAO等[23]提出OpenPose網(wǎng)絡(luò)是一種典型的自底向上的方法,OpenPose采用經(jīng)典VGG-19作為主干網(wǎng)絡(luò)提取特征,將特征輸入到一個(gè)雙分支網(wǎng)絡(luò),其中一個(gè)分支獲取所有關(guān)節(jié)點(diǎn)熱圖,另一個(gè)分支獲取部件親和場(chǎng)(Part Affinity Fields,PAFs),部件親和場(chǎng)能將關(guān)節(jié)點(diǎn)進(jìn)行分組和連接。PAPANDREOU等[24]提出多任務(wù)網(wǎng)絡(luò)PersonLab,采用殘差網(wǎng)絡(luò)預(yù)測(cè)關(guān)節(jié)點(diǎn)熱圖,關(guān)節(jié)點(diǎn)偏移量及人體實(shí)例分割的掩模,利用基于樹(shù)形運(yùn)動(dòng)學(xué)圖的貪婪解碼算法將關(guān)鍵點(diǎn)分組到人體檢測(cè)實(shí)例中。

        NEWELL等[25]提出關(guān)聯(lián)嵌入標(biāo)簽算法,能夠以端到端的方式對(duì)關(guān)節(jié)點(diǎn)進(jìn)行檢測(cè)和分組;其基本思想是為每次檢測(cè)引入一個(gè)實(shí)數(shù),用作識(shí)別對(duì)象所屬組的“標(biāo)簽”,標(biāo)簽將每個(gè)檢測(cè)與同一組中的其他檢測(cè)相關(guān)聯(lián)。NEWELL使用損失函數(shù)促使相同組的標(biāo)簽具有相似的值。

        C H E N G 等[26]在高分辨率網(wǎng)絡(luò)的基礎(chǔ)之上,提出HigherHRNet,結(jié)合關(guān)聯(lián)嵌入標(biāo)簽算法對(duì)關(guān)節(jié)點(diǎn)進(jìn)行分組。NIE等[27]于2019 年提出單階段人體姿態(tài)器,它是一種新穎的單步法的多人姿態(tài)估計(jì)器,簡(jiǎn)化了人體估計(jì)的流程。本文提出了一種新的結(jié)構(gòu)化關(guān)節(jié)的坐標(biāo)表示方法,它首先使用根節(jié)點(diǎn)將人體進(jìn)行基礎(chǔ)的檢測(cè)和定位,然后將關(guān)節(jié)點(diǎn)表示距離人體根節(jié)點(diǎn)的偏移。

        以上經(jīng)典的算法都基于卷積結(jié)構(gòu),同時(shí)有研究對(duì)熱圖損失進(jìn)行分析。一般熱圖大小為原圖的多倍下采樣,從熱圖中取第一極大值并映射回原圖坐標(biāo)時(shí),存在數(shù)學(xué)期望上的偏差。分布坐標(biāo)感知(Distribution-Aware coordinate Representation of Keypoint,DarkPose)[28]和無(wú)偏數(shù)據(jù)處理(Unbiased Data Processing,UDP)[29]等算法對(duì)數(shù)據(jù)進(jìn)行無(wú)偏處理,得到更精確的預(yù)測(cè)坐標(biāo),可無(wú)縫嵌入各種姿態(tài)估計(jì)模型中使用。

        4 基于Transformer的算法(Algorithm based on Transformer)

        Transformer是目前的熱點(diǎn)研究方向。2020 年,視覺(jué)自注意力模型(Vision Transformer,ViT)首次將Transformer結(jié)構(gòu)引入計(jì)算機(jī)視覺(jué)領(lǐng)域。ViT將圖像切分為N×N大小的局部圖像塊作為序列,經(jīng)過(guò)維度轉(zhuǎn)換后傳入Transformer模塊,得到最終的輸出特征。這種簡(jiǎn)單的切分圖像作為序列輸入的方式在小數(shù)據(jù)集上與同等規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)相比并未取得最優(yōu)秀的表現(xiàn),但是在大數(shù)據(jù)集上的訓(xùn)練能得到出色的結(jié)果。這種結(jié)果是可預(yù)期的,Transformer缺乏卷積結(jié)構(gòu)固有的平移不變性和局部特征性,因此當(dāng)數(shù)據(jù)量不足時(shí)不能很好地?cái)M合。針對(duì)這種原始Transformer參數(shù)量大和效果不佳的問(wèn)題,有許多研究做出了改進(jìn)。其中,移動(dòng)窗口自注意力模型(Shift Windows Transformer,Swin-Transformer)[30]通過(guò)劃分小窗口進(jìn)行局部自注意力減少參數(shù)量,通過(guò)窗口滑動(dòng)進(jìn)行信息交換的方式,在各大任務(wù)中均超越卷積神經(jīng)網(wǎng)絡(luò)取得了頂尖的成績(jī)。

        使用Transformer進(jìn)行人體姿態(tài)估計(jì)的研究目前不多,其中姿態(tài)估計(jì)自注意力(Pose Estimation Transformer,PEFormer)與ViT結(jié)構(gòu)相似,將圖像切片后送入Transformer,但這種簡(jiǎn)單的設(shè)計(jì)使其效果并未達(dá)到領(lǐng)先水平。還有的研究將卷積結(jié)構(gòu)與Transformer混合使用,例如直接自注意力估計(jì)算法(Transformer Pose,TFPose)[31]使用卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)提取圖像特征后,將特征添加位置嵌入輸入Transformer模塊,經(jīng)過(guò)“編碼—解碼”結(jié)構(gòu)的設(shè)計(jì),得到最終的關(guān)節(jié)點(diǎn)輸出。值得一提的是,TFPose并未使用常用的熱圖輸出,而是直接對(duì)關(guān)節(jié)點(diǎn)坐標(biāo)進(jìn)行回歸預(yù)測(cè),其結(jié)構(gòu)如圖4所示。與TFPose相同,TransPose也是卷積與Transformer結(jié)合的網(wǎng)絡(luò)設(shè)計(jì),但是使用熱圖進(jìn)行監(jiān)督學(xué)習(xí),使其效果優(yōu)于TFPose。而高分辨率自注意力模型(High-Resolution Transformer,HRFormer)則基于高分辨率網(wǎng)絡(luò)(High-Resololution Network,HRNet)骨干網(wǎng)絡(luò),將主體的卷積替換為T(mén)ransformer結(jié)構(gòu),為了減少參數(shù)量,與Swin-Transformer類似,將特征圖劃分窗口進(jìn)行自注意力學(xué)習(xí),取得了不錯(cuò)的效果。

        圖4 TFPose網(wǎng)絡(luò)Fig.4 TFPose network

        LI等[32]提出的基于級(jí)聯(lián)Transformer的姿態(tài)識(shí)別(Pose Recognition with TRansformer,PRTR)研究構(gòu)建了一個(gè)端到端可訓(xùn)練的自頂向下的多人姿態(tài)估計(jì)算法。該研究在網(wǎng)絡(luò)內(nèi)構(gòu)建了人體檢測(cè)器,并基于此人體檢測(cè)器得到的檢測(cè)框進(jìn)行后續(xù)的關(guān)鍵點(diǎn)預(yù)測(cè),算法中的人體檢測(cè)器和關(guān)鍵點(diǎn)預(yù)測(cè)網(wǎng)絡(luò)都是由Transformer構(gòu)成的;而基于Transformer的自底向上的類型算法目前仍較少。

        5 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)(Datasets and evaluation indicators)

        目前,人體姿態(tài)估計(jì)領(lǐng)域內(nèi)有許多公開(kāi)的數(shù)據(jù)集,涵蓋了單人的估計(jì)任務(wù)和多人的估計(jì)任務(wù)。其中,MPII數(shù)據(jù)集中既含有單人樣本也包括多人樣本;而像微軟COCO競(jìng)賽數(shù)據(jù)集的樣本數(shù)已經(jīng)超過(guò)了30萬(wàn)張,是多人估計(jì)領(lǐng)域的一個(gè)重要數(shù)據(jù)集。表3和表4給出了常見(jiàn)的公開(kāi)數(shù)據(jù)集。

        表3 單人姿態(tài)估計(jì)數(shù)據(jù)集Tab.3 Single-person pose estimation dataset

        表4 多人姿態(tài)估計(jì)數(shù)據(jù)集Tab.4 Multi-person pose estimation dataset

        對(duì)于如何評(píng)估算法的表現(xiàn),常用的有4 個(gè)評(píng)估指標(biāo)。①PCK:正確關(guān)鍵點(diǎn)的百分比。給定某一閾值,預(yù)測(cè)關(guān)節(jié)點(diǎn)與真實(shí)關(guān)節(jié)點(diǎn)的距離在閾值內(nèi)的,視為正確。②PCP:正確部位百分比。兩個(gè)預(yù)測(cè)關(guān)節(jié)點(diǎn)構(gòu)成的肢體部位,與真實(shí)肢體關(guān)節(jié)距離在特定的閾值內(nèi)的,視為正確。③PDJ:檢測(cè)到的關(guān)節(jié)百分比。預(yù)測(cè)關(guān)節(jié)和真實(shí)關(guān)節(jié)之間的距離,在軀干直徑某一百分比范圍內(nèi)。④OKS:對(duì)象關(guān)節(jié)點(diǎn)相似度。COCO關(guān)鍵點(diǎn)挑戰(zhàn)競(jìng)賽采用這一評(píng)估指標(biāo)。其中,OKS的計(jì)算公式見(jiàn)公式(1):

        6 實(shí)驗(yàn)結(jié)果對(duì)比(Comparison of experimental results)

        表5給出一些單人姿態(tài)估計(jì)算法在MPII數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比,以0.5閾值的PCK為評(píng)估指標(biāo),計(jì)算所有類型關(guān)節(jié)點(diǎn)的平均精度。表6給出一些多人姿態(tài)估計(jì)算法在COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比,以O(shè)KS為評(píng)價(jià)指標(biāo),計(jì)算所有類型關(guān)節(jié)點(diǎn)的平均精度。

        表5 單人姿態(tài)估計(jì)算法在MPII數(shù)據(jù)集上的表現(xiàn)Tab.5 Results of single-person pose estimation algorithm on dataset MPII

        表6 多人姿態(tài)估計(jì)算法在COCO數(shù)據(jù)集上的表現(xiàn)Tab.6 Results of multi-person pose estimation algorithm on dataset COCO

        從表5中可以看出,沙漏(Hourglass)網(wǎng)絡(luò)憑借其獨(dú)特的結(jié)構(gòu)在算法表現(xiàn)上取得了較大的突破,MPII數(shù)據(jù)集中的平均精確度突破90%。之后其他研究中的網(wǎng)絡(luò)結(jié)構(gòu)大體上保留“下采樣—上采樣”的沙漏形的設(shè)計(jì)痕跡,如簡(jiǎn)單基線網(wǎng)絡(luò)整體上可視為一個(gè)沙漏形。這種兩頭大中間小的模型設(shè)計(jì),在卷積神經(jīng)網(wǎng)絡(luò)的維度設(shè)計(jì)中也運(yùn)用廣泛,稱之為瓶頸(Bottleneck)結(jié)構(gòu),其特點(diǎn)是首先通過(guò)卷積降低維度,然后進(jìn)行常規(guī)的卷積,再使用卷積將維度升高還原。近年來(lái),出現(xiàn)了逆瓶頸層的設(shè)計(jì),通過(guò)先升高維度提取更多特征后再降低維度。逆瓶頸層的結(jié)構(gòu)在姿態(tài)估計(jì)中是否能起到效果,是一個(gè)值得探討的問(wèn)題。HRNet相比其他算法,表現(xiàn)更優(yōu)異,這在很大程度歸因于其網(wǎng)絡(luò)全程保持與熱圖一致的高分辨率,也證明了特征圖的分辨率對(duì)預(yù)測(cè)結(jié)果具有較大影響。

        人體姿態(tài)估計(jì)自頂向下的方法優(yōu)于自底向上方法在前文已做介紹,從表6中可以看出自底向上方法指標(biāo)與自頂向下方法的指標(biāo)相比仍有較大差距,其主要原因是自頂向下的方法經(jīng)過(guò)檢測(cè)器后得到單個(gè)人體圖像,可以視為帶有先驗(yàn)知識(shí),即局部圖像中的人體關(guān)節(jié)具有某種拓?fù)溥B接規(guī)律,如頭部之下為肩頸等。這種全體樣本都具備的特征規(guī)律能夠很好地指導(dǎo)算法學(xué)習(xí),得到準(zhǔn)確的關(guān)節(jié)點(diǎn)。自底向上方法由于需要先檢測(cè)圖像中所有關(guān)節(jié)點(diǎn),在圖像人體數(shù)量眾多的情況下喪失了這種先驗(yàn)知識(shí),加之關(guān)節(jié)點(diǎn)分布凌亂,導(dǎo)致誤檢率、漏檢率較高。如何將人體拓?fù)浣Y(jié)構(gòu)這種先驗(yàn)知識(shí)帶入自底向上的方法,也是一個(gè)值得研究的方向。

        Transformer在姿態(tài)估計(jì)中的應(yīng)用仍然是一個(gè)新的研究方向,從表6中可以看出,基于Transformer方法的指標(biāo)表現(xiàn)與基于卷積方法的指示表現(xiàn)大致持平。HRFormer在HRNet的基礎(chǔ)上,將卷積替換成Transformer結(jié)構(gòu)后,僅帶來(lái)準(zhǔn)確率的微小提升。Transformer本身是在時(shí)序領(lǐng)域提出的,雖然目前在圖像分類領(lǐng)域成為最先進(jìn)的結(jié)構(gòu),但是在特定視覺(jué)任務(wù)姿態(tài)估計(jì)中,語(yǔ)義分割等未取得突破性的提升。視覺(jué)任務(wù)的特征本身在空間域的相關(guān)性較高,簡(jiǎn)單地將其空間展開(kāi)后模擬成時(shí)間域并不能很好地捕捉其特征關(guān)系,梳理與處理這兩者間的轉(zhuǎn)化,或許能成為T(mén)ransformer提升姿態(tài)估計(jì)表現(xiàn)的關(guān)鍵。近期,有研究開(kāi)始回歸卷積神經(jīng)網(wǎng)絡(luò)本身,F(xiàn)acebook的存粹卷積模型(ConvNeXt)僅憑借卷積結(jié)構(gòu)和其他算法的設(shè)計(jì)細(xì)節(jié)結(jié)合,便在大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(Large Scale Visual Recognition Challenge,ILSVRC)圖像分類數(shù)據(jù)集上達(dá)到了目前最好的Top-1的準(zhǔn)確率?;诖耍矸e與Transformer,誰(shuí)更有潛力,開(kāi)始成為研究者討論的熱點(diǎn)。

        7 結(jié)論(Conclusion)

        綜上所述,人體姿態(tài)估計(jì)領(lǐng)域依托于深度學(xué)習(xí)的發(fā)展,展現(xiàn)出了巨大的潛力和優(yōu)異的表現(xiàn)。目前,基于卷積結(jié)構(gòu)的算法具有簡(jiǎn)單、高效的優(yōu)點(diǎn),仍是該領(lǐng)域最具競(jìng)爭(zhēng)力的算法,基于Transformer結(jié)構(gòu)的新穎算法有著巨大的發(fā)展?jié)摿?。算法精度與執(zhí)行速度兼顧的平衡將會(huì)是該領(lǐng)域的研究重點(diǎn),未來(lái)隨著深度學(xué)習(xí)基礎(chǔ)性理論的發(fā)展,將會(huì)誕生更高效的模型和研究成果。

        猜你喜歡
        熱圖關(guān)節(jié)點(diǎn)姿態(tài)
        基于深度學(xué)習(xí)和視覺(jué)檢測(cè)的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
        關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
        攀爬的姿態(tài)
        全新一代宋的新姿態(tài)
        跑與走的姿態(tài)
        搞好新形勢(shì)下軍營(yíng)美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
        熱圖
        攝影之友(2016年12期)2017-02-27 14:13:20
        熱圖
        每月熱圖
        攝影之友(2016年8期)2016-05-14 11:30:04
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        亚洲一区中文字幕在线电影网 | 亚洲国产成人精品久久成人| 日韩人妻系列在线观看| 在线看片免费人成视频电影 | 国产亚洲蜜芽精品久久| 东风日产系列全部车型| 亚洲av高清一区二区三区| 四川丰满妇女毛片四川话| 国产精品一区二区久久精品| 亚洲中文字幕有码av| 加勒比东京热一区二区| 麻豆tv入口在线看| 亚洲依依成人综合在线网址| 亚洲愉拍自拍视频一区| 日本不卡的一区二区三区中文字幕| 窝窝午夜看片| 福利一区二区三区视频午夜观看| 青青草视全福视频在线| 包皮上有一点一点白色的| 日韩人妻无码一区二区三区| 久久久一本精品99久久| 国产亚洲精品一品二品| 一二区成人影院电影网| 国内少妇自拍区免费视频| 亚洲一区二区三区在线| 强d乱码中文字幕熟女免费| 国产福利一区二区三区在线观看| 亚洲国产一区二区三区在线视频 | 久久精品国产亚洲av天| 50岁熟妇的呻吟声对白| 久久精品国产72国产精福利| 日韩中文字幕久久久老色批| 野外亲子乱子伦视频丶| 午夜短视频日韩免费| 亚洲伊人av综合福利| 精品偷自拍另类在线观看| 婷婷成人基地| 亚洲精品高清av在线播放| 玖玖色玖玖草玖玖爱在线精品视频| 欧美交换配乱吟粗大25p| 亚洲无AV码一区二区三区|