亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于輕量級(jí)網(wǎng)絡(luò)的實(shí)時(shí)人體關(guān)鍵點(diǎn)檢測(cè)算法

        2021-04-29 03:21:28胡江顥王紅雨喬文超馬靖煊
        計(jì)算機(jī)工程 2021年4期
        關(guān)鍵詞:關(guān)鍵點(diǎn)尺度卷積

        胡江顥,王紅雨,喬文超,馬靖煊

        (上海交通大學(xué)儀器科學(xué)與工程系,上海 200240)

        0 概述

        人體關(guān)鍵點(diǎn)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向,通過(guò)檢測(cè)人體頭頂、四肢關(guān)節(jié)和頸部等關(guān)節(jié)部位得到關(guān)節(jié)點(diǎn)信息,并將其應(yīng)用于人體行為識(shí)別[1-2]、人機(jī)交互[3]和步態(tài)識(shí)別[4]等任務(wù)中,主要包括單人關(guān)鍵點(diǎn)檢測(cè)、多人關(guān)鍵點(diǎn)檢測(cè)[5-7]、視頻關(guān)鍵點(diǎn)檢測(cè)[8]和關(guān)鍵點(diǎn)跟蹤[9]等相關(guān)技術(shù)。近幾年,移動(dòng)終端設(shè)備快速普及,但目前較先進(jìn)的關(guān)鍵點(diǎn)檢測(cè)算法仍需較大的GPU 算力,并不能很好地滿足手機(jī)、平板、航拍無(wú)人機(jī)等日常聯(lián)網(wǎng)設(shè)備的實(shí)時(shí)檢測(cè)需求,這使得其難以在日常生活中得到廣泛應(yīng)用。

        近年來(lái),研究人員將深度學(xué)習(xí)與人體關(guān)鍵點(diǎn)檢測(cè)技術(shù)相結(jié)合并取得了一定的進(jìn)展?,F(xiàn)有的關(guān)鍵點(diǎn)檢測(cè)算法多數(shù)是使用反卷積將具有高分辨率的高層特征與具有強(qiáng)語(yǔ)義信息的低層特征進(jìn)行融合,提高預(yù)測(cè)特征圖的分辨率后進(jìn)行關(guān)鍵點(diǎn)檢測(cè)。2016 年,NEWELL 等人提出Hourglass 算法[10],該算法使用沙漏模型融合高低層特征,采用中間監(jiān)督技術(shù)進(jìn)行關(guān)鍵點(diǎn)預(yù)測(cè),并在MPII多人數(shù)據(jù)集上取得重大突破。同年,WEI等人提出CPM算法[11],該算法使用多個(gè)階段的網(wǎng)絡(luò)對(duì)人體關(guān)鍵點(diǎn)進(jìn)行檢測(cè),并將前一個(gè)階段的預(yù)測(cè)輸出加入下一階段的輸入中,隨著階段數(shù)目的增加,檢測(cè)結(jié)果不斷得到精煉。2017 年,曠世科技的CHEN 等人提出CPN 算法[12],該算法為COCO 人體關(guān)鍵點(diǎn)檢測(cè)冠軍算法,分為全局網(wǎng)絡(luò)和精煉網(wǎng)絡(luò)兩部分,創(chuàng)新性地提出先對(duì)容易關(guān)鍵點(diǎn)進(jìn)行檢測(cè),再在精煉網(wǎng)絡(luò)中使用在線難例挖掘?qū)W習(xí)難檢測(cè)的關(guān)鍵點(diǎn)。2019 年,SUN 等人提出一個(gè)始終保持高分辨率的網(wǎng)絡(luò)[13],該網(wǎng)絡(luò)可以多次重復(fù)融合高低層特征圖,進(jìn)一步提升關(guān)鍵點(diǎn)檢測(cè)性能。

        為在算力有限的移動(dòng)平臺(tái)上實(shí)現(xiàn)實(shí)時(shí)檢測(cè)任務(wù),首要的是解決移動(dòng)終端的算力瓶頸問(wèn)題,因此眾多研究人員致力于輕量級(jí)[14-16]主干網(wǎng)絡(luò)的研究,這些輕量級(jí)主干網(wǎng)絡(luò)在減少計(jì)算量的同時(shí)仍具有較優(yōu)的特征提取性能,并且便于實(shí)時(shí)檢測(cè)、產(chǎn)品安裝以及后續(xù)版本升級(jí)等環(huán)節(jié)的實(shí)現(xiàn)。對(duì)于Hourglass 等多階段預(yù)測(cè)算法,雖然在對(duì)人體關(guān)鍵點(diǎn)的不斷優(yōu)化過(guò)程中可有效提高檢測(cè)精度,但是重復(fù)的編碼與解碼過(guò)程導(dǎo)致了巨大的計(jì)算量和參數(shù)量。此外,目前多階段檢測(cè)算法通常將最后階段的預(yù)測(cè)結(jié)果作為最終預(yù)測(cè)輸出,但是將性能指標(biāo)具體量化到每一個(gè)關(guān)節(jié)點(diǎn)上時(shí),最后階段的預(yù)測(cè)結(jié)果并非在每個(gè)關(guān)鍵點(diǎn)上都具有最優(yōu)性能,因此僅將最后階段預(yù)測(cè)結(jié)果作為網(wǎng)絡(luò)最終預(yù)測(cè)輸出的檢測(cè)算法并未有效利用多階段的預(yù)測(cè)結(jié)果。本文提出基于輕量級(jí)網(wǎng)絡(luò)的實(shí)時(shí)人體關(guān)鍵點(diǎn)檢測(cè)算法LWPE,使用MobileNetV2[17]作為主干網(wǎng)絡(luò),利用編解碼過(guò)程控制網(wǎng)絡(luò)模型規(guī)模,提升LWPE 算法運(yùn)行速度,在精煉網(wǎng)絡(luò)中使用特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[18]實(shí)現(xiàn)特征融合,提高LWPE 算法關(guān)鍵點(diǎn)檢測(cè)精度。

        1 LWPE 主干網(wǎng)絡(luò)和卷積模塊選取

        當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)趨勢(shì)是通過(guò)增加網(wǎng)絡(luò)深度和寬度并加大網(wǎng)絡(luò)計(jì)算量來(lái)提升網(wǎng)絡(luò)性能,但由此產(chǎn)生的龐大計(jì)算量遠(yuǎn)超移動(dòng)設(shè)備和嵌入式設(shè)備的承載能力,使得此類(lèi)網(wǎng)絡(luò)模型難以應(yīng)用于日常生活中。MobileNetV2 使用深度可分離卷積模塊大幅減少了網(wǎng)絡(luò)模型規(guī)模,提高了運(yùn)行速度,具有良好的網(wǎng)絡(luò)性能。表1 為MobileNetV2、ShuffleNet(1.5)[19]和MobileNetV1[20]在ImageNet 上的性能對(duì)比結(jié)果??梢钥闯?,MobileNetV2 在Top-1 準(zhǔn)確率和模型規(guī)模上都具有顯著優(yōu)勢(shì),因此LWPE 網(wǎng)絡(luò)模型采用MobileNetV2 作為主干網(wǎng)絡(luò)并對(duì)其通道數(shù)進(jìn)行調(diào)整,使用MobileNetV2_S 表示調(diào)整后的網(wǎng)絡(luò)。

        表1 3 種網(wǎng)絡(luò)在ImageNet 上的性能對(duì)比Table 1 Performance comparison of three networks on ImageNet

        深度可分離卷積是MobileNetV2 的核心。如圖1所示,將傳統(tǒng)卷積操作分為深度可分離卷積操作和逐點(diǎn)卷積操作兩層因式運(yùn)算。深度可分離卷積大幅減少了參數(shù)量和運(yùn)算量。假設(shè)輸入的特征圖大小為D×D×M,卷積核大小為K×K×M×N,卷積步長(zhǎng)為1 并將特征圖擴(kuò)充為1,傳統(tǒng)卷積操作的運(yùn)算量Otc和參數(shù)量Ptc為:

        深度可分離卷積操作的運(yùn)算量Odc和參數(shù)量Pdc為:

        兩者運(yùn)算量CO和參數(shù)量CP的比值為:

        圖1 傳統(tǒng)卷積、深度可分離卷積和逐點(diǎn)卷積示意圖Fig.1 Schematic diagram of traditional convolution,depthwise separable convolution and point-wise convolution

        由于卷積核大小一般為3 或者5,隨著網(wǎng)絡(luò)加深,特征圖的通道數(shù)不斷增加甚至可達(dá)到幾百,因此傳統(tǒng)卷積核的運(yùn)算量和參數(shù)量約為深度可分離卷積的9倍或者25倍。

        MobileNetV2 使用具有線性瓶頸的反向殘差模塊,其分為卷積步長(zhǎng)為1 和2 兩種模式,如圖2 所示,其中,Conv 1×1 表示卷積核大小為1×1 的卷積操作,Dwise 3×3 表示卷積核大小為3×3 的深度可分離卷積操作,Linear 表示該卷積層之后不加非線性激活函數(shù),stride=2 表示卷積步長(zhǎng)為2。當(dāng)卷積步長(zhǎng)為2時(shí)進(jìn)行降采樣,模塊輸入不經(jīng)過(guò)跳連加入模塊輸出中。當(dāng)卷積步長(zhǎng)為1 時(shí),模塊輸入加入模塊輸出中。卷積步長(zhǎng)為2 時(shí)的具有線性瓶頸的反向殘差模塊結(jié)構(gòu)與殘差模塊結(jié)構(gòu)相似,與殘差模塊不同的是:該模塊首先通過(guò)1×1 的卷積核對(duì)輸入特征進(jìn)行卷積操作,使其通道數(shù)上升;然后通過(guò)激活函數(shù)Relu6 增加模型非線性;最后使用1×1 的卷積結(jié)合線性激活函數(shù)將特征通道數(shù)降低為輸入通道數(shù)。在精煉網(wǎng)絡(luò)中,LWPE 使用一系列具有線性瓶頸的反向殘差模塊對(duì)點(diǎn)加操作后的特征圖進(jìn)行特征提取。

        圖2 反向殘差模塊Fig.2 Reverse residual module

        2 LWPE 算法

        人體關(guān)鍵點(diǎn)檢測(cè)即通過(guò)檢測(cè)人體頭頂、四肢關(guān)節(jié)和頸部等主要關(guān)節(jié)部位得到關(guān)節(jié)點(diǎn)信息。對(duì)于一個(gè)具有k個(gè)關(guān)節(jié)點(diǎn)的檢測(cè)任務(wù),假設(shè)Pk∈M,其中,Pk代表第k個(gè)關(guān)節(jié)點(diǎn)的位置,M表示分辨率為ω×h的圖片位置。LWPE 是一種適用于移動(dòng)終端的實(shí)時(shí)人體姿態(tài)檢測(cè)算法,采用輕量級(jí)主干網(wǎng)絡(luò)提取圖片特征,并在后續(xù)網(wǎng)絡(luò)中使用深度可分離卷積進(jìn)一步減少網(wǎng)絡(luò)權(quán)重并實(shí)現(xiàn)網(wǎng)絡(luò)加速。LWPE 的主要任務(wù)是從圖片中找出所有關(guān)節(jié)點(diǎn){P1,P2,…,Pk}的位置。如圖3所示,LWPE由三部分組成:1)用于提取特征的輕量級(jí)主干網(wǎng)絡(luò)MobileNetV2_S;2)對(duì)預(yù)測(cè)結(jié)果不斷優(yōu)化迭代的精煉網(wǎng)絡(luò);3)將預(yù)測(cè)結(jié)果進(jìn)行融合的融合網(wǎng)絡(luò)。在精煉網(wǎng)絡(luò)中,首先使用FPN將多尺度的特征進(jìn)行融合,高倍降采樣的特征圖通過(guò)上采樣疊加到相鄰的低倍降采樣特征圖上,如32 倍降采樣特征圖通過(guò)上采樣與16 倍降采樣的特征圖進(jìn)行融合,并在每個(gè)特征圖上對(duì)關(guān)鍵點(diǎn)進(jìn)行預(yù)測(cè),所得的預(yù)測(cè)結(jié)果加入相鄰的更高分辨率的特征圖上,如在16 倍降采樣上的預(yù)測(cè)結(jié)果加入8 倍降采樣的特征圖上,從而不斷優(yōu)化預(yù)測(cè)結(jié)果。在融合網(wǎng)絡(luò)中,將精煉網(wǎng)絡(luò)中不同尺度下的預(yù)測(cè)結(jié)果f1、f2、f3進(jìn)行融合,得到最終的網(wǎng)絡(luò)輸出f。

        圖3 LWPE 算法結(jié)構(gòu)Fig.3 Structure of LWPE algorithm

        2.1 LWPE 網(wǎng)絡(luò)結(jié)構(gòu)

        LWPE 網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示,其中Bi/j表示網(wǎng)絡(luò)的第i個(gè)block,該block 內(nèi)的特征圖大小為原圖的j倍降采樣。該網(wǎng)絡(luò)由提取特征的主干網(wǎng)絡(luò)、對(duì)預(yù)測(cè)結(jié)果不斷優(yōu)化的精煉網(wǎng)絡(luò)和融合多尺度預(yù)測(cè)結(jié)果的融合網(wǎng)絡(luò)組成。特征網(wǎng)絡(luò)提取特征后,LWPE 在多尺度上對(duì)人體關(guān)鍵點(diǎn)部位進(jìn)行檢測(cè),在16 倍降采樣的特征圖上對(duì)身體關(guān)鍵點(diǎn)的位置進(jìn)行粗略預(yù)測(cè),得到一個(gè)粗略的人體關(guān)鍵點(diǎn)熱力圖。在得到第1 個(gè)熱力圖后不斷優(yōu)化關(guān)鍵點(diǎn)位置預(yù)測(cè)。為進(jìn)一步提升關(guān)鍵點(diǎn)預(yù)測(cè)精度,LWPE 通過(guò)融合網(wǎng)絡(luò)將最后多個(gè)尺度的預(yù)測(cè)結(jié)果進(jìn)行整合,得到最終的預(yù)測(cè)輸出。LWPE 網(wǎng)絡(luò)參數(shù)設(shè)置如圖5 所示,其中,IR blocks 表示具有線性瓶頸的反向殘差模塊,t表示通道膨脹因子,c表示輸出通道數(shù),n表示重復(fù)模塊數(shù),s表示步長(zhǎng),K表示卷積核大??;IR blocks_f 表示1 個(gè)卷積核大小為3×3、膨脹因子為3、步長(zhǎng)為1 且輸出通道數(shù)與輸入通道數(shù)相同的具有線性瓶頸的反向殘差模塊;Dwise_set 表示3 個(gè)7×7 的深度卷積;Deconv,×S表示S倍的反卷積操作;Conv2di×i,j表示使用大小為i×i的卷積核對(duì)特征圖進(jìn)行卷積,輸出的特征圖的通道數(shù)為j;Add 表示對(duì)特征圖進(jìn)行點(diǎn)加操作。

        圖4 LWPE 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of LWPE

        圖5 LWPE 網(wǎng)絡(luò)參數(shù)設(shè)置Fig.5 Network parameters setting of LWPE

        2.1.1 精煉網(wǎng)絡(luò)

        主流關(guān)鍵點(diǎn)檢測(cè)算法一般采用多個(gè)級(jí)聯(lián)的編解碼流程,如文獻(xiàn)[21]提出的CFA 算法由多個(gè)連續(xù)的級(jí)聯(lián)沙漏模型組成。CFA 算法在MPII 數(shù)據(jù)集的多級(jí)精煉階段的性能指標(biāo)中,單個(gè)階段的沙漏模型僅比4 個(gè)階段的沙漏模型的檢測(cè)精度低0.69,但卻增加了巨大的計(jì)算量,對(duì)于移動(dòng)終端的關(guān)鍵點(diǎn)檢測(cè)算法而言,為在多階段預(yù)測(cè)的同時(shí)提升實(shí)時(shí)性,需要進(jìn)一步縮小提取特征的主干網(wǎng)絡(luò),但是這樣可能會(huì)降低特征提取性能及算法精度,因此LWPE 在一個(gè)編解碼流程中完成所有精煉過(guò)程。

        隨著卷積神經(jīng)網(wǎng)絡(luò)的不斷加深,多數(shù)學(xué)者采用不斷減少特征圖及增加通道數(shù)的設(shè)計(jì)模式。在該模式中,網(wǎng)絡(luò)所提取特征的語(yǔ)義信息不斷增加,與此同時(shí)紋理信息卻不斷丟失。LWPE 使用FPN 將高層信息與底層信息相融合,從而獲取不同尺度的特征信息并提高特征表達(dá)能力。對(duì)于主干網(wǎng)絡(luò)為MobileNetV2_S 的LWPE,需要通過(guò)訓(xùn)練學(xué)習(xí)實(shí)現(xiàn)關(guān)鍵點(diǎn)的精準(zhǔn)預(yù)測(cè)。將輸入圖片用x表示,其中x∈?3,代表圖片的所有像素信息。對(duì)于檢測(cè)n個(gè)關(guān)鍵點(diǎn)的任務(wù),使用高斯核將圖片中的n個(gè)關(guān)鍵點(diǎn)表示為n個(gè)二維熱力圖,所有關(guān)鍵點(diǎn)信息用y表示,其中y∈?3,y的每個(gè)通道代表一個(gè)關(guān)鍵點(diǎn)的熱力圖,因此人體關(guān)鍵點(diǎn)估計(jì)即尋找映射函數(shù)f:y=f()。圖6為精煉網(wǎng)絡(luò)結(jié)構(gòu),其中:IR blocks 表示具有線性瓶頸的反向殘差模塊;Dconv 表示反卷積操作;Convi×i表示大小為i×i的卷積核;Heat Map 表示網(wǎng)絡(luò)預(yù)測(cè)的人體關(guān)鍵點(diǎn)熱力圖。

        圖6 精煉網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Structure of refining network

        假設(shè)fi,i∈{4,8,16}表示每個(gè)預(yù)測(cè)尺度上的映射函數(shù),gi,i∈{4,8,16}表示每個(gè)尺度上特征融合的映射函數(shù),各尺度上的映射關(guān)系如式(7)所示:

        其中:ai,i∈{4,8,16,32}表示主干網(wǎng)絡(luò)在i倍降采樣上的特征圖;pi,i∈{4,8,16}表示網(wǎng)絡(luò)上采樣過(guò)程中在i倍降采樣上的特征圖。

        在整個(gè)精煉網(wǎng)絡(luò)檢測(cè)流程中,首先使用低分辨率特征圖檢測(cè)容易的關(guān)鍵點(diǎn),然后將得到的關(guān)鍵點(diǎn)信息通過(guò)熱力圖的形式輸入到下一個(gè)尺度的關(guān)鍵點(diǎn)檢測(cè)中,對(duì)檢測(cè)出的容易關(guān)鍵點(diǎn)進(jìn)行優(yōu)化并繼續(xù)找出未檢測(cè)出的困難關(guān)鍵點(diǎn),這樣不斷迭代優(yōu)化檢測(cè)結(jié)果,最后從最高分辨率的特征圖上可得到最優(yōu)的關(guān)鍵點(diǎn)信息。

        2.1.2 融合網(wǎng)絡(luò)

        目前,多階段關(guān)鍵點(diǎn)檢測(cè)算法多數(shù)是直接將最后一階段的預(yù)測(cè)結(jié)果作為最終的預(yù)測(cè)輸出,本文借鑒CFA 算法思想,為結(jié)合不同階段的結(jié)果進(jìn)一步提高關(guān)鍵點(diǎn)的預(yù)測(cè)精度,將多階段檢測(cè)的關(guān)鍵點(diǎn)熱力圖進(jìn)行融合,計(jì)算公式為:

        其中,σN-n,σN-n-1,???,σN表示最后多個(gè)階段預(yù)測(cè)的關(guān)鍵點(diǎn)熱力圖,在CFA 算法的檢測(cè)結(jié)果中,不同階段預(yù)測(cè)總體結(jié)果間的差距較小,在某些具體部位的預(yù)測(cè)中,低階段的預(yù)測(cè)結(jié)果甚至優(yōu)于高階段的預(yù)測(cè)結(jié)果,如第二階段的肘部、肩部和膝蓋均是所有階段中最優(yōu)的結(jié)果,而對(duì)于其他部位,不同階段間的結(jié)果差異較小,但融合后可有效提高預(yù)測(cè)精度。因此,本文在LPEW 中設(shè)計(jì)針對(duì)多尺度關(guān)鍵點(diǎn)預(yù)測(cè)結(jié)果的融合網(wǎng)絡(luò)。

        融合網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示。對(duì)于3 個(gè)尺度上的預(yù)測(cè)輸出yi通過(guò)3 個(gè)7×7 的深度卷積操作,深度可分離卷積可單獨(dú)在熱力圖的每個(gè)通道上單獨(dú)操作,點(diǎn)加操作可保證不同部位關(guān)節(jié)點(diǎn)預(yù)測(cè)結(jié)果的融合。對(duì)于每個(gè)深度可分離卷積操作的輸出使用非線性激活函數(shù)sigmoid 增加融合函數(shù)的復(fù)雜度,得到最終的預(yù)測(cè)輸出Y,如式(9)、式(10)所示:

        其中:N表示關(guān)鍵點(diǎn)預(yù)測(cè)的尺度總數(shù),(N?n)~N表示關(guān)鍵點(diǎn)預(yù)測(cè)的最后n層;表示第i個(gè)預(yù)測(cè)尺度對(duì)第k個(gè)關(guān)鍵點(diǎn)的預(yù)測(cè)結(jié)果;zk表示在3 個(gè)預(yù)測(cè)尺度上第k個(gè)關(guān)鍵點(diǎn)的擬合函數(shù);Yk表示融合網(wǎng)絡(luò)對(duì)第k個(gè)關(guān)鍵點(diǎn)的預(yù)測(cè)結(jié)果。

        圖7 融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Structure of fusion network

        2.2 LWPE 損失函數(shù)

        在訓(xùn)練階段,網(wǎng)絡(luò)通過(guò)損失函數(shù)進(jìn)行反向傳播,學(xué)習(xí)映射關(guān)系獲得關(guān)鍵點(diǎn)預(yù)測(cè)輸出的最優(yōu)解,在多個(gè)尺度上LWPE 重復(fù)生成關(guān)鍵點(diǎn)熱力圖yi。融合網(wǎng)絡(luò)將得到的多尺度預(yù)測(cè)的熱力圖進(jìn)行融合得到輸出Y。在每個(gè)輸出處定義一個(gè)損失函數(shù),該函數(shù)最小化該處輸出與真實(shí)關(guān)鍵點(diǎn)熱力圖之間的L2 距離。Gk∈M表示k個(gè)關(guān)鍵點(diǎn)的真實(shí)位置,M表示輸入分辨率為w×h的圖片所有位置,以每個(gè)關(guān)鍵點(diǎn)位置為中心使用高斯函數(shù)生成一個(gè)該關(guān)鍵點(diǎn)的熱力圖bk∈?2。因此,結(jié)合精煉網(wǎng)絡(luò)的損失函數(shù)Lms與融合網(wǎng)絡(luò)的損失函數(shù)Lfuse得到LWPE 的損失函數(shù)L,如式(11)~式(13)所示:

        其中,(m)表示在第i個(gè)預(yù)測(cè)尺度上預(yù)測(cè)的第k個(gè)通道的熱力圖m位置上的預(yù)測(cè)值,Yk(m)表示融合階段預(yù)測(cè)的第k個(gè)通道的熱力圖m位置上的預(yù)測(cè)值,bk(m)為第k個(gè)關(guān)鍵點(diǎn)熱力圖m位置上的真實(shí)值。

        3 實(shí)驗(yàn)與結(jié)果分析

        實(shí)驗(yàn)采用Tensorflow 深度學(xué)習(xí)開(kāi)發(fā)平臺(tái)、i7-5930K CPU、RTX2080 GPU、8 GB 顯存和Ubuntu16.04 操作系統(tǒng)。實(shí)驗(yàn)輸入圖片分辨率為192 像素×192 像素,隨機(jī)使用旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、裁剪、亮度調(diào)整、對(duì)比度調(diào)整和飽和度調(diào)整等圖片處理策略對(duì)輸入的訓(xùn)練圖片進(jìn)行數(shù)據(jù)增強(qiáng)。在此基礎(chǔ)上,使用Adam 對(duì)網(wǎng)絡(luò)模型迭代220 000 次,批次大小為32,初始學(xué)習(xí)率為0.001,每萬(wàn)個(gè)迭代輪次的學(xué)習(xí)率衰減為之前的95%。

        3.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        本文算法面向手機(jī)終端實(shí)現(xiàn)實(shí)時(shí)人體關(guān)鍵點(diǎn)檢測(cè),與自然場(chǎng)景拍攝下密集且小的目標(biāo)特點(diǎn)不同,手機(jī)自拍視頻具有一定的目的性與針對(duì)性。實(shí)驗(yàn)數(shù)據(jù)集由來(lái)自AI Challenger 數(shù)據(jù)集的23 946 張單人圖片組成,其中隨機(jī)選取22 446 張圖片作為訓(xùn)練樣本,剩下1 500 張作為測(cè)試樣本。標(biāo)簽使用Json 格式存儲(chǔ),標(biāo)簽存儲(chǔ)目標(biāo)人體的14 個(gè)關(guān)節(jié)點(diǎn)信息,其中?1 表示圖片中不存在該關(guān)節(jié)點(diǎn)。實(shí)驗(yàn)使用關(guān)鍵點(diǎn)正確估計(jì)的比例(Percentage of Correct Keypoints,PCK)中以頭部長(zhǎng)度(head length)作為歸一化參考的PCKh 評(píng)價(jià)關(guān)鍵點(diǎn)預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果均為PCKh@0.5 結(jié)果,即使用頭部長(zhǎng)度的50%作為匹配閾值。每個(gè)關(guān)鍵點(diǎn)的預(yù)測(cè)位置為預(yù)測(cè)的熱力圖上相應(yīng)通道最大響應(yīng)點(diǎn)的位置。

        3.2 多尺度預(yù)測(cè)及其結(jié)果融合實(shí)驗(yàn)

        3.2.1 多尺度預(yù)測(cè)實(shí)驗(yàn)

        LWPE 算法采用輕量級(jí)的主干網(wǎng)絡(luò)進(jìn)行特征提取,在不同分辨率的特征圖上將多尺度預(yù)測(cè)結(jié)果進(jìn)行不斷精煉最終輸出預(yù)測(cè)結(jié)果。本文通過(guò)實(shí)驗(yàn)研究網(wǎng)絡(luò)模型的預(yù)測(cè)尺度對(duì)關(guān)鍵點(diǎn)預(yù)測(cè)精度的影響,如表2 所示,可以看出三尺度網(wǎng)絡(luò)模型的關(guān)鍵點(diǎn)預(yù)測(cè)精度整體最優(yōu),四尺度網(wǎng)絡(luò)模型的關(guān)鍵點(diǎn)預(yù)測(cè)精度整體最差。由于LWPE 算法特征提取能力不強(qiáng),四尺度網(wǎng)絡(luò)模型使用32 倍降采樣進(jìn)行關(guān)鍵點(diǎn)檢測(cè)并將預(yù)測(cè)結(jié)果加入后續(xù)預(yù)測(cè)網(wǎng)絡(luò)中,預(yù)測(cè)結(jié)果的特征圖不僅分辨率極低且特征表現(xiàn)能力不夠,導(dǎo)致預(yù)測(cè)結(jié)果的誤差極大,其全身PCKh@0.5 僅為53.5%。主要原因?yàn)樵?2 倍降采樣上的損失函數(shù)在數(shù)值較大時(shí)就已達(dá)到飽和狀態(tài),使后續(xù)尺度上的訓(xùn)練難度增大,并且由于32 倍降采樣所得的結(jié)果誤差較大,因此會(huì)影響后續(xù)網(wǎng)絡(luò)的預(yù)測(cè)性能。三尺度網(wǎng)絡(luò)模型的全身PCKh@0.5 從16 倍降采樣上85.9%的預(yù)測(cè)精度逐漸提升到4 倍降采樣上的89.3%,可見(jiàn)使用三尺度網(wǎng)絡(luò)模型在不斷對(duì)預(yù)測(cè)結(jié)果進(jìn)行精煉的同時(shí)可有效提升網(wǎng)絡(luò)的檢測(cè)性能。

        表2 多尺度網(wǎng)絡(luò)模型的PCKh@0.5 對(duì)比Table 2 Comparison of PCKh@0.5 of multi-scale network models %

        3.2.2 多尺度預(yù)測(cè)結(jié)果融合實(shí)驗(yàn)

        對(duì)于三尺度預(yù)測(cè)的LWPE 算法,其不同尺度的檢測(cè)性能相差較小,在某些部位的關(guān)鍵點(diǎn)預(yù)測(cè)中,低尺度的預(yù)測(cè)結(jié)果甚至優(yōu)于高尺度的檢測(cè)結(jié)構(gòu),如在8 倍降采樣上的肩部、胯部和膝蓋都是所有尺度中最優(yōu)的結(jié)果。將不同尺度上的預(yù)測(cè)結(jié)果進(jìn)行融合可有效提高預(yù)測(cè)精度。如表3 所示,多尺度預(yù)測(cè)融合后的全身PCKh@0.5 較4 倍降采樣上提高了0.4 個(gè)百分點(diǎn),與表2 中不加融合網(wǎng)絡(luò)的三尺度模型在4 倍降采樣上的預(yù)測(cè)結(jié)果相比全身PCKh@0.5 提高了0.5 個(gè)百分點(diǎn)。融合網(wǎng)絡(luò)對(duì)不同尺度之間的預(yù)測(cè)結(jié)果通過(guò)函數(shù)擬合,在不同尺度上找出各部位上的最優(yōu)關(guān)鍵點(diǎn)預(yù)測(cè)結(jié)果,然后融合得出綜合性能最佳的預(yù)測(cè)輸出,有效地提升了網(wǎng)絡(luò)檢測(cè)性能。圖8 為L(zhǎng)WPE 算法在測(cè)試集圖片上的檢測(cè)結(jié)果,可見(jiàn)當(dāng)人體關(guān)鍵點(diǎn)遮擋較少時(shí),可以精準(zhǔn)地檢測(cè)出所有關(guān)鍵點(diǎn),但當(dāng)人體姿態(tài)變形或遮擋嚴(yán)重時(shí),部分關(guān)鍵點(diǎn)檢測(cè)效果不佳。

        表3 多尺度預(yù)測(cè)結(jié)果融合的PCKh@0.5 對(duì)比Table 3 Comparison of PCKh@0.5 of the fusion of multi-scale prediction results %

        圖8 LWPE 算法檢測(cè)結(jié)果Fig.8 Detection results of LWPE algorithm

        3.3 不同算法性能對(duì)比

        為驗(yàn)證LWPE 算法的可行性,將其與CPM 和CPN算法進(jìn)行比較。CPM 和CPN 算法網(wǎng)絡(luò)模型較大,無(wú)法部署在移動(dòng)終端,而LWPE 算法基于輕量級(jí)關(guān)鍵點(diǎn)提取網(wǎng)絡(luò),因此將CPM 和CPN 算法的主干網(wǎng)絡(luò)換成與LWPE 相同的MobileNetV2_S,并將深度可分離卷積替換標(biāo)準(zhǔn)卷積后進(jìn)行對(duì)比實(shí)驗(yàn)。在數(shù)據(jù)集上3 種算法的PCKh@0.5 對(duì)比結(jié)果如表4 所示。在使用相同主干網(wǎng)絡(luò)的條件下,LWPE 算法的參數(shù)量和浮點(diǎn)運(yùn)算量分別為CPN 算法的64.3%和37.5%,PCKh@0.5 提升了1.5個(gè)百分點(diǎn),單幀運(yùn)行時(shí)間減少了22 ms,LWPE 算法參數(shù)量和浮點(diǎn)運(yùn)算量分別為CPM 算法的37.1%和15%,但在單幀運(yùn)行時(shí)間是其3.4 倍的情況下PCKh@0.5 僅下降了0.1 個(gè)百分點(diǎn),其中單幀運(yùn)行時(shí)間是網(wǎng)絡(luò)模型在華為榮耀20pro 手機(jī)上所測(cè)得數(shù)據(jù)。

        表4 3 種算法的PCKh@0.5 對(duì)比Table 4 PCKh@0.5 comparison of three algorithms

        4 結(jié)束語(yǔ)

        本文提出一種基于輕量級(jí)網(wǎng)絡(luò)的實(shí)時(shí)關(guān)鍵點(diǎn)檢測(cè)算法,使用深度可分離卷積減少模型參數(shù)量并提升模型運(yùn)行速度,并通過(guò)精煉網(wǎng)絡(luò)和融合網(wǎng)絡(luò)不斷優(yōu)化算法檢測(cè)性能。實(shí)驗(yàn)結(jié)果表明,在同時(shí)使用MobileNetV2_S作為主干網(wǎng)絡(luò)的情況下,LWPE 算法相比傳統(tǒng)CPM 和CPN 算法參數(shù)量和浮點(diǎn)運(yùn)算量均明顯減少,并具有較高的檢測(cè)精度和較好的實(shí)時(shí)性能。后續(xù)將對(duì)該輕量級(jí)網(wǎng)絡(luò)模型做進(jìn)一步優(yōu)化,解決人體姿態(tài)遮擋或變形時(shí)的關(guān)鍵點(diǎn)檢測(cè)問(wèn)題,并將其應(yīng)用于移動(dòng)終端的多人關(guān)鍵點(diǎn)檢測(cè)中,提升其適用性與實(shí)用性。

        猜你喜歡
        關(guān)鍵點(diǎn)尺度卷積
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
        9
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        99视频一区二区日本| 人人妻人人澡人人爽欧美一区| 亚洲爆乳精品无码一区二区三区| 国产婷婷色一区二区三区在线| 人妻久久久一区二区三区| 国产性生交xxxxx免费| 成全视频高清免费| 国产激情视频在线| 丰满人妻被猛烈进入中文字幕护士| 91人妻一区二区三区蜜臀| 麻豆最新国产av原创| 国产精品久久久久久久久久红粉| 国产二级一片内射视频播放| 最新高清无码专区| 秋霞午夜无码鲁丝片午夜精品 | 伊人久久大香线蕉av色婷婷色| 成人午夜视频精品一区| 狠狠色噜噜狠狠狠狠色综合久 | 女优av性天堂网男人天堂| 在线播放亚洲丝袜美腿| 四虎国产成人永久精品免费| 精品无码国产自产野外拍在线| 91精品国产91久久久无码色戒| 国产精品99久久精品女同| 日韩精品免费在线视频一区| 99噜噜噜在线播放| 人妻少妇乱子伦精品| 欧美午夜a级精美理论片| 小13箩利洗澡无码免费视频| 中文文精品字幕一区二区| 国产精品高清网站| 亚洲国产精品va在线看黑人| 亚洲天堂免费视频| 亚洲av偷拍一区二区三区| 精品少妇一区二区三区入口| 亚洲精品在线国产精品| 黑人大荫道bbwbbb高潮潮喷| 国产夫妻av| 国产一区二区精品av| 色婷婷色丁香久久婷婷| 亚洲av无码专区电影在线观看 |