亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)級聯(lián)金字塔網(wǎng)絡(luò)的人體骨架提取算法

2021-12-07 03:38:10黃友張娜包曉安

智能計(jì)算機(jī)與應(yīng)用 2021年7期

黃友　張娜　包曉安

摘要：由于背景復(fù)雜和人體容易被遮擋等情況的發(fā)生，導(dǎo)致人體骨架關(guān)鍵點(diǎn)的定位精度不高。針對這一問題，本文提出一種基于改進(jìn)級聯(lián)金字塔網(wǎng)絡(luò)的人體骨架提取算法。該算法將注意力模塊加入到級聯(lián)金字塔特征提取網(wǎng)絡(luò)的每一個(gè)殘差塊之后，根據(jù)特征圖的不同部分和不同特征圖的重要性程度分配不同的權(quán)重。同時(shí)將原來級聯(lián)金字塔網(wǎng)絡(luò)的2次上采樣操作改為一次，以減少上采樣過程中產(chǎn)生的冗余背景特征。實(shí)驗(yàn)結(jié)果表明：該算法可以較好地改善原CPN網(wǎng)絡(luò)在遮擋、背景復(fù)雜等情況下定位不精準(zhǔn)的問題。

關(guān)鍵詞：級聯(lián)金字塔網(wǎng)絡(luò); 注意力機(jī)制; 多層次特征提取; 特征融合; 困難關(guān)鍵點(diǎn)挖掘; 目標(biāo)關(guān)鍵點(diǎn)相似度

文章編號(hào)： 2095-2163（2021）07-0054-06中圖分類號(hào)：TP391.41文獻(xiàn)標(biāo)志碼： A

Human skeleton extraction algorithm based on improved cascaded pyramid network

HUANG You， ZHANG Na， BAO Xiao'an

（School of Informatics Science and Technology，? Zhejiang Sci-Tech University， Hangzhou 310018， China ）

【Abstract】Due to the complex background and the easy occlusion of the human body， the positioning accuracy of the key points of the human skeleton is not high. Aiming at this problem， this paper proposes a human skeleton extraction algorithm based on an improved cascaded pyramid network. The algorithm adds the attention module to each residual block of the cascaded pyramid feature extraction network， and assigns different weights according to different parts of the feature map and the importance of different feature maps. At the same time， the two upsampling operations of the original cascaded pyramid network are changed to one to reduce the redundant background features generated in the upsampling process. Experimental results show that the algorithm can better improve the problem of inaccurate positioning in the original CPN network under occlusion and complex background conditions.

【Key words】cascaded pyramid network; attention mechanism; multi-level feature extraction; feature fusion; hard keypoints mining; object keypoint similarity

0 引言

人體骨架提?。ㄒ脖环Q為人體骨架關(guān)鍵點(diǎn)檢測）算法主要是檢測人體的鼻子、左右眼、左右耳、左右肩、左右手肘、左右手腕、左右臀、左右膝、左右腿等關(guān)鍵點(diǎn)，使用這些關(guān)鍵點(diǎn)描述人體的骨架信息[1]。人體骨架關(guān)鍵點(diǎn)檢測算法被廣泛應(yīng)用在人機(jī)交互、智能視頻監(jiān)控、智能安防、行為識(shí)別、任務(wù)跟蹤和步態(tài)識(shí)別等領(lǐng)域[2]。

早期的基于人體骨架的行為識(shí)別方法主要是通過手工設(shè)計(jì)特征的方式來對行為進(jìn)行表征[3]。然而，這些手工特征只在一些特定的數(shù)據(jù)集上表現(xiàn)良好，可能無法遷移到其它數(shù)據(jù)集上，不具有普適性[4]。隨著深度學(xué)習(xí)的出現(xiàn)，一些使用基于深度神經(jīng)網(wǎng)絡(luò)對人體骨架進(jìn)行行為識(shí)別的方法越來越受到人們的歡迎[5]。

基于深度學(xué)習(xí)的人體骨架關(guān)鍵點(diǎn)檢測算法主要有2個(gè)方向。一種是自上而下，一種是自下而上。自上而下的人體骨架關(guān)鍵點(diǎn)檢測算法主要包含2個(gè)部分：人體目標(biāo)檢測和單人人體骨架關(guān)鍵點(diǎn)檢測[6]。首先通過目標(biāo)檢測算法將人體目標(biāo)檢測出來，然后在此基礎(chǔ)上對單個(gè)人做人體骨架關(guān)鍵點(diǎn)檢測，其中代表性算法有G-RMI[7]、CFN[8]、RMPE[9]、Mask R-CNN[10]和 CPN[11]。目前，自上而下的人體骨架關(guān)鍵點(diǎn)檢測算法在MSCOCO數(shù)據(jù)集上最好的檢測精度是72.6%。自下而上的人體骨架關(guān)鍵點(diǎn)檢測算法也包含2個(gè)部分：關(guān)鍵點(diǎn)檢測和關(guān)鍵點(diǎn)聚類[12]。首先需要將圖片中所有的關(guān)鍵點(diǎn)都檢測出來，然后根據(jù)關(guān)鍵點(diǎn)之間的關(guān)系對所有的關(guān)鍵點(diǎn)進(jìn)行聚類得到不同的個(gè)體，其中對關(guān)鍵點(diǎn)之間關(guān)系進(jìn)行建模的代表性算法有PAF[13]、Associative Embedding[14]、Part Segmentation[15]和Mid-Range offsets[16]。自下而上的人體骨架關(guān)鍵點(diǎn)檢測算法目前在MSCOCO數(shù)據(jù)集上最好的檢測精度是68.7%。

自上而下的人體骨架提取方法定位精度比自下而上的方法高，但是該方法比較依賴檢測到的人體目標(biāo)框。由于圖片中人體容易被遮擋和干擾[17]，導(dǎo)致對人體關(guān)鍵點(diǎn)的定位精度不高。針對這一問題，本文提出一種基于改進(jìn)級聯(lián)金字塔網(wǎng)絡(luò)的人體骨架提取算法。該算法將注意力模塊加入到級聯(lián)金字塔的特征提取網(wǎng)絡(luò)中，通過模型學(xué)習(xí)對不同的特征信息分配權(quán)重系數(shù)。以增強(qiáng)網(wǎng)絡(luò)對重要特征信息的關(guān)注同時(shí)減弱無用的復(fù)雜背景特征信息，進(jìn)而提高對遮擋的人體關(guān)鍵點(diǎn)的定位精度。同時(shí)將原級聯(lián)金字塔網(wǎng)絡(luò)的2次上采樣過程改為一次，以減少在上采樣過程中產(chǎn)生的背景特征。

1 相關(guān)研究

1.1 級聯(lián)金字塔網(wǎng)絡(luò)

級聯(lián)金字塔網(wǎng)絡(luò)（Cascaded Pyramid Network， CPN）網(wǎng)絡(luò)包括2個(gè)部分：粗略檢測關(guān)鍵點(diǎn)的GlobalNet網(wǎng)絡(luò)和微調(diào)RefineNet網(wǎng)絡(luò)，其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。GlobalNet網(wǎng)絡(luò)使用殘差網(wǎng)絡(luò)提取多尺度特征圖，通過特征金字塔網(wǎng)絡(luò)融合多尺度特征圖，實(shí)現(xiàn)對人體關(guān)鍵點(diǎn)的初步定位。RefineNet網(wǎng)絡(luò)以沙漏網(wǎng)絡(luò)為基礎(chǔ)，對由GlobalNet網(wǎng)絡(luò)檢測的關(guān)鍵點(diǎn)中損失較大的關(guān)鍵點(diǎn)進(jìn)行修正，進(jìn)而實(shí)現(xiàn)對人體關(guān)鍵點(diǎn)的精確定位。

GlobalNet網(wǎng)絡(luò)采用ResNet50殘差網(wǎng)絡(luò)提取多層次的特征，再使用FPN對這些多尺度特征進(jìn)行融合，利用L2損失函數(shù)計(jì)算關(guān)鍵點(diǎn)定位損失。采用Resnet50的第3、7、13和16個(gè)Bottleneck塊的輸出作為多尺度特征圖，分別記為C_2， C_3， C_4和C_5。對每一層特征圖，利用一個(gè)3×3的卷積濾波層去生成一組熱力圖，每張熱力圖對應(yīng)一個(gè)關(guān)鍵點(diǎn)，分別記為H_2，H_3，H_4和H_5。

這些特征圖中，淺層特征圖具有較高的空間分辨率，但是其中包含的語義信息較少，而深層特征圖具有較多的語義信息，但是空間分辨率較低。單一層的特征圖無法兼顧空間分辨率和較多的語義信息，故采用FPN網(wǎng)絡(luò)來對這些特征圖進(jìn)行融合，使得融合后的特征圖中既包含豐富的語義信息，同時(shí)也包含由于不斷降采樣而丟失的底層細(xì)節(jié)信息。FPN通過對底層特征進(jìn)行上采樣，再與上層特征進(jìn)行融合，實(shí)現(xiàn)淺層特征與深層特征之間的融合，實(shí)際上是淺層特征生成的熱力圖與深層特征生成的熱力圖之間的融合。利用L2損失函數(shù)計(jì)算這些生成的熱力圖與真實(shí)關(guān)鍵點(diǎn)坐標(biāo)生成的熱力圖之間的誤差，根據(jù)誤差對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

GlobalNet網(wǎng)絡(luò)對于一些簡單的、可見的、容易檢測的關(guān)鍵點(diǎn)（比如眼睛）的定位精度較高，可是對于一些隱藏的關(guān)鍵點(diǎn)（比如臀部）的定位精度較低。對于這些難以檢測的關(guān)鍵點(diǎn)的定位通常需要利用更多的語義信息，單獨(dú)使用GlobalNet網(wǎng)絡(luò)無法直接識(shí)別這些“困難”關(guān)鍵點(diǎn)。

RefineNet網(wǎng)絡(luò)就是為了處理這些“困難”關(guān)鍵點(diǎn)，RefineNet接收來自GlobalNet網(wǎng)絡(luò)提取的多層次特征，對于不同層的特征圖后加入不同數(shù)量的Bottleneck殘差模塊進(jìn)一步提取更深層的特征，再對這些特征圖進(jìn)行上采樣并通過concat層把這些信息拼接起來。這樣就綜合利用了FPN所有層的特征，可以獲取到更多的語義信息。

而隨著網(wǎng)絡(luò)訓(xùn)練的進(jìn)行，網(wǎng)絡(luò)會(huì)更傾向于關(guān)注可見的“簡單”關(guān)鍵點(diǎn)，但是其重要性不及“困難”關(guān)鍵點(diǎn)。因此，網(wǎng)絡(luò)需要在兩者的關(guān)注之間取得一個(gè)平衡。為此，RefineNet采用帶有在線困難關(guān)鍵點(diǎn)挖掘（Online Hard Keypoints Mining， OHKM）的L2函數(shù)作為計(jì)算關(guān)鍵點(diǎn)預(yù)測損失函數(shù)，根據(jù)訓(xùn)練損失顯式地選擇“困難”關(guān)鍵點(diǎn)，并且只對這些“困難”關(guān)鍵點(diǎn)反向傳播梯度進(jìn)行訓(xùn)練。

1.2 注意力機(jī)制

注意力機(jī)制（Convolutional Block Attention Module， CBAM）[18]是通過學(xué)習(xí)對圖像不同特征信息和不同特征層分配權(quán)重系數(shù)，以便能夠強(qiáng)調(diào)對學(xué)習(xí)目標(biāo)有用的信息抑制無用的信息。注意力模塊一般可分為通道注意力模塊和空間注意力模塊兩部分，兩者的側(cè)重點(diǎn)不同。

通道注意力模塊是通過池化操作學(xué)習(xí)每個(gè)通道的重要性程度，將輸入特征圖分別經(jīng)過最大池化和平均池化，之后用多層感知機(jī)（Multilayer Perceptron， MLP）進(jìn)行學(xué)習(xí)，將學(xué)習(xí)的結(jié)果疊加之后經(jīng)過sigmoid函數(shù)激活得到通道注意力（如圖2左半部分所示）?？臻g注意力模塊是學(xué)習(xí)特征圖中不同位置對于學(xué)習(xí)目標(biāo)的重要性程度，將輸入特征圖經(jīng)過最大池化和平均池化后，將二者的輸出按照第一維度進(jìn)行拼接，再經(jīng)過一個(gè)3×3的卷積層，之后經(jīng)過sigmoid函數(shù)激活得到空間注意力（如圖2右半部分所示）。

2 本文設(shè)計(jì)

CPN網(wǎng)絡(luò)是一種自上而下的關(guān)鍵點(diǎn)定位算法，需要先檢測到人體目標(biāo)框再對人體目標(biāo)做單人骨架關(guān)鍵點(diǎn)定位。由于圖像背景復(fù)雜，會(huì)導(dǎo)致檢測到的[CM（22]人體存在遮擋和干擾等情況，進(jìn)而影響到被遮擋的

關(guān)鍵點(diǎn)的定位準(zhǔn)確度。同時(shí)在原CPN網(wǎng)絡(luò)中，采取了2次上采樣操作，而上采樣操作會(huì)帶來更多的背景特征。

針對檢測到的人體被遮擋問題，本文提出了一種基于改進(jìn)CPN的人體骨架提取算法。該算法是將CBAM加入到CPN網(wǎng)絡(luò)中，其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。采用在ResNet50網(wǎng)絡(luò)的第3、7、13和16個(gè)Bottleneck塊的輸出之后分別加入CBAM模塊，CBAM可以在不改變網(wǎng)絡(luò)的整體架構(gòu)的基礎(chǔ)上作用于深淺不同的多層次特征圖上。通過不同的權(quán)重分配使網(wǎng)絡(luò)能夠著重學(xué)習(xí)有用的特征而抑制無用的特征，也即是加強(qiáng)對關(guān)鍵點(diǎn)的特征圖的關(guān)注而減少對復(fù)雜背景的關(guān)注。這樣可以較好地提高復(fù)雜背景下人體關(guān)鍵點(diǎn)的定位精度。

針對上采樣過程中產(chǎn)生的冗余背景特征問題，本文采用將2次上采樣修改為一次。具體實(shí)現(xiàn)過程為對經(jīng)過CBAM處理之后的多層次特征圖進(jìn)行上采樣，其中特征圖由淺到深分別上采樣的倍數(shù)為1、2、4和8。

再對經(jīng)過上采樣之后的特征圖進(jìn)行融合，使得融合之后的特征圖中既包含豐富的語義信息，同時(shí)也包含由于不斷降采樣而丟失的底層細(xì)節(jié)信息。

3 實(shí)驗(yàn)結(jié)果及分析

本文實(shí)驗(yàn)所用的計(jì)算機(jī)配置如下：CPU為Intel（R） Xeon（R） Silver 4110 CPU @ 2.10 GHz;GPU為15 G NVIDIA Corporation TU104GL [Tesla T4]顯卡;主頻為4.00 GHz;系統(tǒng)為CentOS 7.7。采用Python3.6作為編程語言，深度學(xué)習(xí)框架選取Pytorch1.4.0。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

為評估本節(jié)所設(shè)計(jì)算法的性能，采用COCO數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。COCO數(shù)據(jù)集對人體的17個(gè)骨架關(guān)鍵點(diǎn)進(jìn)行標(biāo)注，共計(jì)有58 945張圖片，有15 K個(gè)標(biāo)記的人物，有171 K個(gè)標(biāo)記的關(guān)鍵點(diǎn)。由于數(shù)據(jù)集中一部分圖像的質(zhì)量不高，采用圖像標(biāo)準(zhǔn)化、隨機(jī)調(diào)整亮度和對比度等操作對圖像進(jìn)行處理，改善圖像的視覺效果，使得圖像能夠更適合分析和處理的需求。

采用其中44 208張包含人體骨架關(guān)鍵點(diǎn)標(biāo)注信息的圖片作為實(shí)驗(yàn)訓(xùn)練集，其余的14 737張圖片作為實(shí)驗(yàn)測試集。同時(shí)選用在實(shí)際場景下采集的幾張圖片驗(yàn)證本文改進(jìn)算法的性能。

3.2 性能評價(jià)指標(biāo)

人體骨架關(guān)鍵點(diǎn)檢測算法的預(yù)測值無法與真實(shí)值一一對應(yīng)，不能像分類問題那樣采用一些常用指標(biāo)（如：精度、召回率等）進(jìn)行性能評價(jià)。因此，需要構(gòu)建一個(gè)合適的人體骨架關(guān)鍵點(diǎn)相似度的度量指標(biāo)，以此來判斷某個(gè)關(guān)鍵點(diǎn)的預(yù)測是否正確，從而評價(jià)算法的優(yōu)劣。目前，最常用的就是OKS（Object Keypoint Similarity）指標(biāo)，這個(gè)指標(biāo)啟發(fā)于目標(biāo)檢測中的IoU指標(biāo)。其計(jì)算公式如下：

其中，OKSp表示圖像中第p個(gè)人的相似度指標(biāo);p為人工標(biāo)注的真實(shí)人體的編號(hào);i為人體骨架關(guān)鍵點(diǎn)的編號(hào);dpi為第p個(gè)人的第i個(gè)關(guān)鍵點(diǎn)的預(yù)測位置與真實(shí)位置之間的歐氏距離;Sp為第p個(gè)人的尺度因子，定義為此人在人工標(biāo)注框中所占面積的平方根;σi是第i個(gè)骨架關(guān)鍵點(diǎn)的歸一化因子，是通過對已有的數(shù)據(jù)集中這個(gè)關(guān)鍵點(diǎn)的計(jì)算標(biāo)準(zhǔn)差得到的。該值越大，表示這個(gè)關(guān)鍵點(diǎn)越難標(biāo)注;值越小，表示這個(gè)關(guān)鍵點(diǎn)越容易標(biāo)注;vpi為第p個(gè)人的第i個(gè)關(guān)鍵點(diǎn)的狀態(tài); δ（vpi=1）為克羅內(nèi)克函數(shù)，即只有被標(biāo)注為可見的人體骨架關(guān)鍵點(diǎn)（vpi=1）才計(jì)入評價(jià)指標(biāo)，其計(jì)算公式如下：

由公式（2）可知，2個(gè)關(guān)鍵點(diǎn)之間的相似度取值在[0， 1]之間。選定一個(gè)閾值t后，通過將圖中第p個(gè)人的相似度值（即OKSp）與t作比較。如果當(dāng)前的OKSp大于t，那就說明當(dāng)前這個(gè)人的骨架關(guān)鍵點(diǎn)成功檢測出來了，并且檢測對了。如果小于t，則說明檢測失敗或者誤檢漏檢。再統(tǒng)計(jì)圖中所有人的OKS，計(jì)算其中大于t的比值。該比值是閾值為t時(shí)的人體骨架關(guān)鍵點(diǎn)檢測算法的平均精度（Average Precesion， AP），其計(jì)算公式如下：

最后再根據(jù)不同的閾值t，計(jì)算平均值，即為mAP（mean Average Precesion）。一般情況下閾值是在[0.5， 0.95]的范圍內(nèi)以0.05為步長遞增選取，mAP計(jì)算公式為：

3.3 模型參數(shù)設(shè)置

本節(jié)設(shè)計(jì)算法設(shè)置網(wǎng)絡(luò)輸入圖像大小為256×192（寬×高），利用公開數(shù)據(jù)集ImageNet的預(yù)訓(xùn)練參數(shù)進(jìn)行模型初始化，利用Adam優(yōu)化器優(yōu)化學(xué)習(xí)率，進(jìn)而調(diào)整網(wǎng)絡(luò)的參數(shù)。訓(xùn)練的批次大小為16，max_epoch為12。這里采用預(yù)熱（warm up）學(xué)習(xí)率策略，學(xué)習(xí)率在前500次迭代中線性增加至初始學(xué)習(xí)率0.001，之后在epoch7和epoch10的時(shí)候衰減為之前的1/3。

3.4 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證本文提出的改進(jìn)CPN網(wǎng)絡(luò)對人體骨架關(guān)鍵點(diǎn)的檢測精度優(yōu)于原CPN網(wǎng)絡(luò)，使用COCO數(shù)據(jù)集進(jìn)行訓(xùn)練并做對比試驗(yàn)。采用平均準(zhǔn)確率mAP、閾值為0.5，0.75的平均準(zhǔn)確率AP@0.5和AP@0.75、中等尺度目標(biāo)的平均準(zhǔn)確率APM和大尺度目標(biāo)的平均準(zhǔn)確率APL作為對比指標(biāo)，試驗(yàn)結(jié)果如圖4所示。從圖4中可以看出，本節(jié)提出的改進(jìn)的CPN網(wǎng)絡(luò)的mAP為73.2，相較于原CPN網(wǎng)絡(luò)提高了1.8。而且在其他閾值及不同尺度目標(biāo)情況下的AP也都有一定的提升。

為了進(jìn)一步分析在網(wǎng)絡(luò)的不同位置添加CBAM模塊對人體關(guān)鍵點(diǎn)檢測精度的影響，分別采用在ResNet50網(wǎng)絡(luò)的第3、7、13和16個(gè)Bottleneck塊的輸出之后加入CBAM模塊以及只在ResNet50網(wǎng)絡(luò)的16個(gè)Bottleneck塊的輸出之后加入CBAM模塊進(jìn)行對比試驗(yàn)。同樣地，采用平均準(zhǔn)確率mAP、閾值為0.5，0.75的平均準(zhǔn)確率AP@0.5和AP@0.75、中等尺度目標(biāo)的平均準(zhǔn)確率APM和大尺度目標(biāo)的平均準(zhǔn)確率APL作為對比指標(biāo)，試驗(yàn)結(jié)果如圖5所示。從圖5中可以看出，采用在ResNet50網(wǎng)絡(luò)的第3、7、13和16個(gè)Bottleneck塊的輸出之后加入CBAM模塊的mAP為73.2，相較于只在ResNet50網(wǎng)絡(luò)的16個(gè)Bottleneck塊的輸出之后加入CBAM模塊提高了0.9，而且在其他閾值及不同尺度目標(biāo)情況下的AP也都有一定的提升。

同時(shí)為了驗(yàn)證本節(jié)提出的改進(jìn)CPN網(wǎng)絡(luò)對人體骨架關(guān)鍵點(diǎn)的檢測精度優(yōu)于當(dāng)前主要的關(guān)鍵點(diǎn)檢測方法，選取當(dāng)前主流的關(guān)鍵點(diǎn)檢測方法做對比試驗(yàn)。主要有CMU-Pose、Mask R-CNN、G-RMI和PersonLab，其中CMU-Pose和PersonLab是自底向上的方法，Mask R-CNN和G-RMI是自頂向下的方法。實(shí)驗(yàn)結(jié)果如圖6所示。從圖6中可以看出，本文提出的改進(jìn)CPN網(wǎng)絡(luò)對關(guān)鍵點(diǎn)的定位精度明顯優(yōu)于CMU-Pose和PersonLab，較同類方法Mask R-CNN和G-RMI也有一定的提高。

為了驗(yàn)證本文設(shè)計(jì)的算法在不同背景情況下的檢測效果，選取在影院復(fù)雜背景情況中的一張單人圖片和一張多人圖片分別在有無遮擋情況下做實(shí)驗(yàn)進(jìn)行檢測。對人體的17個(gè)不同的關(guān)鍵點(diǎn)用不同的顏色進(jìn)行標(biāo)記，并將有聯(lián)系的關(guān)鍵點(diǎn)用直線連接起來。檢測結(jié)果如圖7所示。從圖7中可以看出，不管是單人圖片、還是多人圖片的關(guān)鍵點(diǎn)檢測精度都很高。在遮擋情況下，也能很好地定位人體的關(guān)鍵點(diǎn)。

4 結(jié)束語

本文提出了一種基于改進(jìn)CPN的人體骨架關(guān)鍵點(diǎn)檢測算法，采用在ResNet50網(wǎng)絡(luò)的第3、7、13和16個(gè)Bottleneck塊的輸出之后加入CBAM模塊，以提高在遮擋和復(fù)雜背景情況下人體關(guān)鍵點(diǎn)的定位精度。研究中，為了減少在上采樣過程中產(chǎn)生的冗余背景特征，將原CPN的2次上采樣過程改為一次。通過實(shí)驗(yàn)可知，本文設(shè)計(jì)的算法的人體關(guān)鍵點(diǎn)定位精度比原CPN高，同時(shí)在遮擋情況下，也能對人體關(guān)鍵點(diǎn)進(jìn)行精確定位。由于在原CPN模型中加入了CBAM，會(huì)增加模型的參數(shù)量和計(jì)算量。后期的研究方向是在不影響模型定位精度的基礎(chǔ)上，減少模型的參數(shù)量，提高網(wǎng)絡(luò)的運(yùn)行速度。

參考文獻(xiàn)

[1]郭天曉，胡慶銳，李建偉，等. 基于人體骨架特征編碼的健身動(dòng)作識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用，2021，41（5）：1458-1464.

[2]田志強(qiáng)，鄧春華，張俊雯. 基于骨骼時(shí)序散度特征的人體行為識(shí)別算法[J]. 計(jì)算機(jī)應(yīng)用，2021，41（5）：1450-1457.

[3]蔡強(qiáng)，鄧毅彪，李海生，等. 基于深度學(xué)習(xí)的人體行為識(shí)別方法綜述[J]. 計(jì)算機(jī)科學(xué)， 2020， 47（4）： 85-93.

[4] 邊緣，孔小瑩，張莉，等. 基于卷積神經(jīng)網(wǎng)絡(luò)的植物葉片樹種識(shí)別研究與實(shí)現(xiàn)[J]. 智能計(jì)算機(jī)與應(yīng)用， 2020， 10（10）： 23-26.

[5]李揚(yáng)志，袁家政，劉宏哲. 基于時(shí)空注意力圖卷積網(wǎng)絡(luò)模型的人體骨架動(dòng)作識(shí)別算法[J]. 計(jì)算機(jī)應(yīng)用，2021，41（7）：1915-1921.

[6]CAO Z， SIMON T， WEI S E， et al. Realtime multi-person 2d pose estimation using part affinity fields[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA：IEEE，2017： 7291-7299.

[7]CHEN L C， HERMANS A， PAPANDREOU G， et al. Masklab： Instance segmentation by refining object detection with semantic and direction features[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City， UT， USA：IEEE， 2018： 4013-4022.

[8]LI Jiahao， LI Bin， XU Jizheng， et al. Fully connected network-based intra prediction for image coding[J]. IEEE Transactions on Image Processing， 2018， 27（7）： 3236-3247.

[9]FANG Haoshu， XIE Shuqin， TAI Y W， et al. Rmpe： Regional multi-person pose estimation[C]//Proceedings of the IEEE International Conference on Computer Vision.Venice：IEEE， 2017： 2353-2362.

[10]HE K， GKIOXARI G， DOLLR P， et al. Mask r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice：IEEE，2017： 2961-2969.

[11]CHEN Yilun， WANG Zhicheng， PENG Yuxiang， et al. Cascaded pyramid network for multi-person pose estimation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City，UT：IEEE， 2018： 7103-7112.

[12]SUN Ke， XIAO Bin， LIU Dong， et al. Deep high-resolution representation learning for human pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach， CA， USA：IEEE， 2019： 5693-5703.

[13]CAO Z， HIDALGO G， SIMON T， et al. OpenPose： realtime multi-person 2D pose estimation using Part Affinity Fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2019， 43（1）： 172-186.

[14]YU Zehao， ZHENG Jia， LIAN Dongze， et al. Single-image piece-wise planar 3d reconstruction via associative embedding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach， CA， USA：IEEE， 2019： 1029-1037.

[15]XIA Fangting， WANG Peng， CHEN Xianjie， et al. Joint multi-person pose estimation and semantic part segmentation[C]// Proceedings of the IEEE conference on computer vision and pattern recognition.? Honolulu， HI， USA：IEEE，2017： 6769-6778.

[16]PAPANDREOU G， ZHU T， CHEN L C， et al. Personlab： Person pose estimation and instance segmentation with a bottom-up， part-based， geometric embedding model[M]//FERRARI V， HEBERT M， SMINCHISESCU C， et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham：Springer，2018，11218：282-299.

[17]葉飛，劉子龍. 基于改進(jìn)YOLOv3算法的行人檢測研究[J]. 電子科技， 2021， 34（1）： 5-9，30.

[18]WOO S， PARK J， LEE J Y， et al. Cbam： Convolutional block attention module[M]//FERRARI V， HEBERT M， SMINCHISESCU C， ET AL. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham：Springer， 2018， 11211： 3-19.

基金項(xiàng)目：國家自然科學(xué)基金（620705014;1）; 浙江省自然科學(xué)基金青年基金（LQ20F050010）; 浙江省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目（2020C03094）。

作者簡介：黃? 友（1995-），男，碩士研究生，主要研究方向：圖像處理、深度學(xué)習(xí); 張娜（1977-），女，副教授，主要研究方向：智能信息處理;包曉安（1973-），男，教授，主要研究方向：軟件測試、智能信息處理。

通訊作者：包曉安Email： baoxiaoan@zstu.edu.cn

收稿日期： 2021-03-24