亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識(shí)別*

        2022-08-19 01:02:04房志遠(yuǎn)石守東鄭佳罄胡加鈿
        傳感技術(shù)學(xué)報(bào) 2022年5期
        關(guān)鍵詞:關(guān)節(jié)點(diǎn)剪枝坐姿

        房志遠(yuǎn),石守東,鄭佳罄,胡加鈿

        (寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波315211)

        現(xiàn)代化辦公主導(dǎo)模式使坐姿作業(yè)變得普及,許多人面臨著與這種久坐的生活方式直接相關(guān)的各種疾病,如辦公室工作人員不適當(dāng)?shù)淖藙菔桥c工作有關(guān)的肌肉骨骼疾病的最重要的危險(xiǎn)因素之一,直接后果可能是背痛,間接后果則與頸椎病、近視、心血管疾病和過早死亡有關(guān)[1]。 因此,坐姿的研究在人機(jī)交互、醫(yī)療健康、交通安全等領(lǐng)域具有較高的應(yīng)用價(jià)值。

        人體坐姿識(shí)別作為人體姿態(tài)識(shí)別的一個(gè)重要分支,目前主要研究方法包括基于接觸式傳感器和基于計(jì)算機(jī)視覺兩方面。 其中,基于接觸式傳感器方法[2-9]識(shí)別實(shí)時(shí)性較好,但成本較高且需要與人體相接觸,一定程度上限制了工作活動(dòng)中的行動(dòng)自由。相反,基于計(jì)算機(jī)視覺的識(shí)別方法成本相對(duì)較低、易推廣。 同時(shí),深度學(xué)習(xí)姿態(tài)估計(jì)算法近些年取得了較好的成果,越來越受人關(guān)注。

        目前基于計(jì)算機(jī)視覺的姿態(tài)識(shí)別方法主要是通過骨骼信息建立人體姿態(tài)特征,并利用分類器實(shí)現(xiàn)姿態(tài)識(shí)別。 其中一方面是利用具有骨骼關(guān)節(jié)信息檢測功能的深度攝像機(jī)獲取深度圖像和骨骼信息(如微軟Kinect 和英特爾Realsense),結(jié)合兩者信息建立三維人體姿態(tài)。 文獻(xiàn)[10]利用Kinect 攝像機(jī)獲得的深度圖像和人體輪廓圖,提取前景進(jìn)行三視圖映射,并利用三視圖數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練和推理過程都涉及到圖片預(yù)處理并計(jì)算三視圖,因此計(jì)算量較大,但利用了雙輸出分別預(yù)測左右和前后姿態(tài),提高了坐姿分類精度。 文獻(xiàn)[11]使用Kinect采集骨骼信息并分別訓(xùn)練支持向量機(jī)(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)實(shí)現(xiàn)姿態(tài)分類。 文獻(xiàn)[12]提出一種基于RIPPER 規(guī)則學(xué)習(xí)算法,利用bagging 算法和隨機(jī)子空間方法創(chuàng)建規(guī)則集成,允許訓(xùn)練100 個(gè)規(guī)則集組成一個(gè)規(guī)則集成,并通過多數(shù)投票進(jìn)行最終分類。 文獻(xiàn)[13]提出一種基于三維卷積神經(jīng)網(wǎng)絡(luò)的姿態(tài)識(shí)別方法,利用深度攝像機(jī)獲得三維關(guān)節(jié)位置,并用高斯函數(shù)生成三維高斯體素特征,隨后將其輸入到三維姿態(tài)網(wǎng)絡(luò)進(jìn)行姿態(tài)分類。 文獻(xiàn)[14]利用深度圖像獲得3D 骨骼模型,然后計(jì)算3D 關(guān)節(jié)距離特征和幾何角度特征作為輸入,送入SVM 分類器進(jìn)行分類。 文獻(xiàn)[15]提出一種基于MobileNetV2的深度循環(huán)層次網(wǎng)絡(luò)(DRHN)模型,該模型通過接受RGB-D 幀序列并產(chǎn)生語義相關(guān)的姿態(tài)狀態(tài)表示,減少了軀干遮擋情況下的姿態(tài)檢測失敗。 以上方法都獲得了較好的精度和實(shí)時(shí)性,但由于算法僅面向PC 端,且依賴于具有骨骼關(guān)節(jié)檢測功能的深度攝像頭,價(jià)格高昂,在生產(chǎn)生活中無法大規(guī)模普及。

        另一方面則是利用深度學(xué)習(xí)方法實(shí)現(xiàn)人體骨骼關(guān)節(jié)點(diǎn)檢測(又稱姿態(tài)估計(jì)),并利用骨骼關(guān)節(jié)點(diǎn)信息計(jì)算人體姿態(tài)特征。 文獻(xiàn)[16]提出使用姿態(tài)估計(jì)OpenPose 模型構(gòu)造表征人體姿態(tài)的骨骼特征數(shù)據(jù)集,并用此來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),對(duì)不良坐姿進(jìn)行分類。 文獻(xiàn)[17]通過使用OpenPose 模型獲取人體骨骼關(guān)節(jié)坐標(biāo),并將其分別送入人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和決策樹,并對(duì)分類的準(zhǔn)確率進(jìn)行比較,預(yù)測結(jié)果送入樹莓派用來控制家用電器。 文獻(xiàn)[18]提出一種基于OpenPose 模型的中國古典舞基本手位識(shí)別方法,并將其部署到人工智能開發(fā)板中。 文獻(xiàn)[19]通過OpenPose 模型提取骨架信息,并利用18 個(gè)關(guān)節(jié)點(diǎn)計(jì)算肢體間的角度和距離特征,最后采用基于規(guī)則的決策方法對(duì)坐姿和站立姿勢進(jìn)行分類。 文獻(xiàn)[20]提出了一種基于OpenPose 模型的跌倒檢測模型,在骨骼關(guān)節(jié)點(diǎn)的基礎(chǔ)上,結(jié)合SSD-MobileNet 對(duì)象檢測框架消除非人類區(qū)域所識(shí)別到的關(guān)節(jié)點(diǎn),減少算法的誤檢率,從目標(biāo)中提取關(guān)節(jié)信息送入SVM 分類器進(jìn)行分類。 此類方法隨著深度學(xué)習(xí)算法檢測性能的不斷提升,同時(shí)因?yàn)槔脭z像頭采集二維圖像的方法成本低,其應(yīng)用范圍越來廣泛,但缺點(diǎn)是網(wǎng)絡(luò)模型的參數(shù)量和計(jì)算復(fù)雜度也隨之增大,使其很難在資源有限的嵌入式設(shè)備上獲得較快的推理速度。

        為了解決在有限資源上實(shí)現(xiàn)坐姿快速高精度識(shí)別的問題,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識(shí)別方法,針對(duì)關(guān)節(jié)點(diǎn)檢測模型OpenPose[21]參數(shù)量和計(jì)算復(fù)雜度較大、推理速度較慢的問題,提出對(duì)骨干網(wǎng)絡(luò)進(jìn)行優(yōu)化,并利用基于自適應(yīng)批量歸一化(BN)層的候選評(píng)估模塊對(duì)預(yù)訓(xùn)練好的模型進(jìn)行剪枝,從而減少模型所需要的設(shè)備資源,同時(shí)改進(jìn)坐姿識(shí)別算法,在原始骨骼關(guān)節(jié)特征基礎(chǔ)上融合骨骼圖像,提升識(shí)別精度。

        1 坐姿識(shí)別方法設(shè)計(jì)

        1.1 算法總體結(jié)構(gòu)

        傳統(tǒng)基于深度學(xué)習(xí)的坐姿識(shí)別方法總體結(jié)構(gòu)如圖1 所示, 主要由三部分組成: OpenPose 姿態(tài)估計(jì)(關(guān)節(jié)點(diǎn)檢測)部分、特征提取部分和坐姿識(shí)別部分。 具體來說,算法首先利用OpenPose 姿態(tài)估計(jì)模型實(shí)現(xiàn)人體骨骼關(guān)節(jié)點(diǎn)檢測,特征提取部分利用關(guān)節(jié)點(diǎn)信息計(jì)算人體坐姿特征,最后將特征輸入神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)坐姿分類。 坐姿分類網(wǎng)絡(luò)由一個(gè)輸入層、2個(gè)隱含層以及1 個(gè)輸出層組成,每個(gè)隱含層包括300 個(gè)神經(jīng)元。

        圖1 基于深度學(xué)習(xí)的坐姿識(shí)別方法總體結(jié)構(gòu)

        根據(jù)算法總體結(jié)構(gòu)可知,影響最終坐姿識(shí)別精度的主要有兩個(gè)方面:姿態(tài)估計(jì)算法檢測關(guān)節(jié)點(diǎn)的可靠性以及提取特征的表征能力。 為了提高坐姿識(shí)別的精度,對(duì)特征提取部分進(jìn)行改進(jìn),在骨骼關(guān)節(jié)特征向量基礎(chǔ)上融合骨骼圖片特征向量,特征提取示意圖如圖2 所示,一方面利用12 個(gè)骨骼關(guān)節(jié)點(diǎn)來計(jì)算表征人體坐姿的特征向量,分別包括:10 個(gè)角度特征、12 個(gè)骨骼關(guān)節(jié)點(diǎn)歸一化坐標(biāo)、66 個(gè)歸一化距離特征、22 個(gè)向量特征。 另一方面通過訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型提取骨骼圖像特征,將網(wǎng)絡(luò)的輸出與骨骼關(guān)節(jié)特征向量融合,形成新的坐姿特征向量,融合后的特征向量較大程度上表征了人體坐姿特征,利用其對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練可以提高分類精度。

        圖2 特征提取示意圖

        1.2 骨骼關(guān)節(jié)特征提取

        基于骨骼信息建立人體姿態(tài)特征是姿態(tài)識(shí)別的主要方法。 近些年,受益于深度學(xué)習(xí)姿態(tài)估計(jì)算法的高精度和泛化能力,可用其代替深度相機(jī)提取關(guān)節(jié)信息。

        目前深度學(xué)習(xí)姿態(tài)估計(jì)算法可分為兩類,一是自下而上的姿態(tài)估計(jì)方法,算法首先檢測出圖片中的所有關(guān)節(jié)點(diǎn)坐標(biāo),然后將這些關(guān)節(jié)點(diǎn)組合成每一個(gè)個(gè)體。 相反,自上而下的姿態(tài)估計(jì)方法先檢測每一個(gè)個(gè)體再估計(jì)關(guān)節(jié)點(diǎn)。 在檢測速度方面自下而上的方法更有優(yōu)勢。 其中,OpenPose 是目前使用較為廣泛[16-20,22]的自下而上的姿態(tài)估計(jì)方法,可對(duì)坐姿圖片進(jìn)行骨骼關(guān)節(jié)點(diǎn)檢測。 考慮到實(shí)際辦公場景下攝像頭一般位于人的正前方,原始算法可以檢測到18 個(gè)人體關(guān)節(jié)點(diǎn),這里只取用了上半身12 個(gè)骨骼關(guān)節(jié)點(diǎn)信息,包括左右眼、左右耳、鼻子、嘴巴、脖子、左右肩、左右手肘和左右手腕。

        在實(shí)際攝像頭采集的過程中,因攝像頭擺放位置或坐姿偏移造成的坐標(biāo)差異,會(huì)導(dǎo)致其骨骼關(guān)節(jié)點(diǎn)的絕對(duì)空間位置存在較大差異。 對(duì)于一個(gè)給予的特定姿態(tài),它應(yīng)該獨(dú)立于關(guān)節(jié)的絕對(duì)空間位置,而依賴所有關(guān)節(jié)間的相對(duì)位置。 因此,在這種情況下需要將關(guān)節(jié)的坐標(biāo)歸一化到[0,1]范圍內(nèi)。 為了解決這一問題,本文采用基于邊界框的歸一化方法[13],其方法的主要思想是利用訓(xùn)練集中骨架的最大邊界框邊長對(duì)骨架進(jìn)行歸一化。 具體來說,對(duì)于訓(xùn)練集中給定的第i 個(gè)骨架(包含12 個(gè)骨骼關(guān)節(jié)點(diǎn)的2D 坐標(biāo)信息),骨架兩個(gè)維度的最大和最小坐標(biāo)值分別定義為。 這個(gè)骨架的最大邊界框邊長為li=。 因此,擁有N個(gè)骨架信息的訓(xùn)練數(shù)據(jù)集,最大邊界框邊長L=max(li),i∈N,最后,每一個(gè)骨骼關(guān)節(jié)的坐標(biāo)可用式(1)計(jì)算。

        式中:xmax,xmin為當(dāng)前骨架的最大和最小X軸坐標(biāo),x為原始X軸坐標(biāo),xnorm為歸一化后的X軸坐標(biāo)。 縱坐標(biāo)的處理方法和橫坐標(biāo)相同。 通過這種方式,每個(gè)骨架被常數(shù)L歸一化,并且骨架的中心對(duì)齊到[0.5,0.5],由于L是不變的,骨架的結(jié)構(gòu)特征也保持了一致性。 第二種特征為關(guān)節(jié)間的角度特征,對(duì)于一個(gè)給定的姿態(tài),關(guān)節(jié)間的角度特征不會(huì)受用戶的高度影響,另一方面關(guān)節(jié)角度縮放和旋轉(zhuǎn)不會(huì)發(fā)生改變,因此它們不依賴于主體的高度或用戶相對(duì)于相機(jī)的距離和方向,這里提取了11 對(duì)身體的10 個(gè)角度,其中11 對(duì)身體由手腕與肘、肘與肩、肩與脖子、脖子與鼻子、鼻子與眼睛以及眼睛與耳朵節(jié)點(diǎn)形成,角度特征則由各相鄰肢體的夾角組成。 第三種特征為歸一化身體距離信息。 最后還包括11 對(duì)身體的22 個(gè)向量特征,其中向量特征由X軸和Y軸方向組成。

        1.3 骨骼圖像特征提取

        獲取更多有價(jià)值的姿態(tài)特征是提高姿態(tài)分類精度的關(guān)鍵。 這里首先使用Openpose 姿態(tài)估計(jì)模型對(duì)原始數(shù)據(jù)集進(jìn)行關(guān)節(jié)點(diǎn)檢測,根據(jù)關(guān)節(jié)信息制作骨骼圖像數(shù)據(jù)集,并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。 訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)被用于提取骨骼圖像特征,最后一層全連接輸出被融合用作訓(xùn)練坐姿識(shí)別網(wǎng)絡(luò)。 提出的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別框架如圖3 所示,其中,輸入骨骼圖像為224×224 RGB 圖像,卷積操作為3×3,池化操作為2×2。

        圖3 提出的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別框架

        2 模型分析和優(yōu)化

        OpenPose 姿態(tài)估計(jì)模型雖有較好的檢測性能。但是由于模型本身參數(shù)量和計(jì)算復(fù)雜度較大,導(dǎo)致程序運(yùn)行過程中模型推理占具了極大部分的計(jì)算資源,在資源有限的嵌入式設(shè)備上應(yīng)用困難。

        由圖1 上部分原始OpenPose 網(wǎng)絡(luò)結(jié)構(gòu)可知,其網(wǎng)絡(luò)結(jié)構(gòu)主要由三個(gè)部分組成:VGG 骨干網(wǎng)絡(luò)、一個(gè)初始化階段和多個(gè)細(xì)化階段。 其中表1 為模型各階段計(jì)算量和精度對(duì)比[23],AP 為平均精度,GFLOPs 為每秒浮點(diǎn)運(yùn)算次數(shù),圖像輸入大小368×368。 通過分析對(duì)比可知模型的主要計(jì)算復(fù)雜度集中在骨干網(wǎng)絡(luò)和細(xì)化階段上,計(jì)算復(fù)雜度分別占了28.14%和68.33%。

        表1 OpenPose 模型各階段計(jì)算量和精度對(duì)比

        為了提高檢測速度,對(duì)原始OpenPose 網(wǎng)絡(luò)模型進(jìn)行了結(jié)構(gòu)替換和剪枝的優(yōu)化工作,以減少模型參數(shù)量和計(jì)算復(fù)雜度,達(dá)到提高推理速度的目的。 最后優(yōu)化后的模型需使用COCO 骨骼關(guān)節(jié)點(diǎn)數(shù)據(jù)集進(jìn)行再訓(xùn)練,以恢復(fù)兩個(gè)階段優(yōu)化后的精度損失。 詳細(xì)優(yōu)化過程如下兩部分。

        2.1 骨干網(wǎng)絡(luò)替換

        OpenPose 網(wǎng)絡(luò)訓(xùn)練過程包括兩部分,第一部分是骨干網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集上進(jìn)行訓(xùn)練,第二部分是使用MS COCO 骨骼關(guān)節(jié)點(diǎn)數(shù)據(jù)集對(duì)整個(gè)模型進(jìn)行訓(xùn)練。 針對(duì)原始模型骨干網(wǎng)絡(luò)VGG 參數(shù)量和計(jì)算復(fù)雜度較大的問題,第一部分的骨干網(wǎng)絡(luò)可由其他性能較好且參數(shù)量和計(jì)算復(fù)雜度相對(duì)較低的模型替代。這里比較了三種網(wǎng)絡(luò)模型,如表2 所示。

        表2 網(wǎng)絡(luò)性能比較

        對(duì)比發(fā)現(xiàn)輕量化網(wǎng)絡(luò)Mobilenet 可以獲得和原始網(wǎng)絡(luò)相當(dāng)?shù)木?,同時(shí)模型計(jì)算復(fù)雜度和參數(shù)量大幅度減少。 因此,這里使用Mobilenet 網(wǎng)絡(luò)對(duì)原始VGG進(jìn)行替換,同時(shí)刪除了Conv4_3,Conv4_4,以及修改Block_12_add 層的輸出特征圖尺寸,最后將其與Block_5_add 層的輸出特征圖進(jìn)行連接作為初始化階段的輸入特征圖。 替換后的網(wǎng)絡(luò)組成如圖4 所示。

        圖4 替換后的網(wǎng)絡(luò)

        2.2 細(xì)化階段網(wǎng)絡(luò)剪枝

        多個(gè)細(xì)化階段(Refinement stage)網(wǎng)絡(luò)提升了模型對(duì)關(guān)節(jié)點(diǎn)置信圖和親和度向量的預(yù)測能力,同時(shí)不可避免地增加了計(jì)算開銷。 為了盡可能減少模型所需計(jì)算資源,利用基于自適應(yīng)批量歸一化(BN)的候選評(píng)估模塊[27]對(duì)細(xì)化階段進(jìn)行剪枝操作,通過設(shè)置合適的全局剪枝率獲得基于平臺(tái)的最佳精度和模型大小間的平衡。

        2.2.1 自適應(yīng)批量歸一化(BN)

        BN 層具有加速網(wǎng)絡(luò)收斂并提升準(zhǔn)確率的作用,現(xiàn)已廣泛應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)中。 在實(shí)際網(wǎng)絡(luò)模型中,BN 一般置于卷積層和線性層之后,對(duì)上層操作得到的特征圖進(jìn)行歸一化,從而產(chǎn)生更加穩(wěn)定的分布。 原始BN 操作如式(2)所示。

        式中:γ和β是可訓(xùn)練的,分別代表BN 的特征縮放系數(shù)和偏移系數(shù)。ε為一個(gè)非常小的值,為了避免分母為零。μ和σ2為向量,分別用來記錄每一個(gè)通道特征圖的均值和方差,其元素值會(huì)在前向傳播中得到更新。 對(duì)于一個(gè)尺寸為N的批量(batch)樣本,μ和σ2統(tǒng)計(jì)值的計(jì)算如式(3)。

        當(dāng)進(jìn)行訓(xùn)練時(shí),μ和σ2通過移動(dòng)均值和方差計(jì)算得到,如式(4):

        式中:m為動(dòng)量系數(shù)、下標(biāo)t為訓(xùn)練迭代次數(shù)。 在一個(gè)訓(xùn)練過程中,如果需要總的訓(xùn)練次數(shù)為T,μT和σ2T則就是最終測試階段的μ和σ2。

        以上所述的兩項(xiàng)BN 統(tǒng)計(jì)值是基于完整網(wǎng)絡(luò)得到的,而對(duì)于一個(gè)剪枝后的子網(wǎng)絡(luò),其統(tǒng)計(jì)值均值μ和方差σ2已經(jīng)過時(shí),因此需要利用部分?jǐn)?shù)據(jù)集進(jìn)行幾次推理,重新計(jì)算自適應(yīng)值μ和σ2,其目的是為了BN 統(tǒng)計(jì)值適應(yīng)于剪枝后的網(wǎng)絡(luò)。 具體來說,在訓(xùn)練之前凍結(jié)所有反向傳播可更新的網(wǎng)絡(luò)參數(shù)W。 最后通過幾次前向傳播,使用式(4)對(duì)移動(dòng)均值和方差進(jìn)行更新,更新后的均值和方差定義為^μ和^σ2。

        2.2.2 剪枝過程

        由表1 模型各階段計(jì)算量可知,通過增加細(xì)化網(wǎng)絡(luò)3、4 和5 所帶來的精度提升較小,但其復(fù)雜度卻大幅增加,這里首先將其三階段全部移除,其次通過基于自適應(yīng)BN 的剪枝模塊對(duì)其余階段進(jìn)行核剪枝,剪枝工作流程如圖5 所示。

        圖5 基于自適應(yīng)批量歸一化評(píng)估模塊的剪枝工作流程

        剪枝過程主要由6 部分組分。 具體來說,首先對(duì)第一部分優(yōu)化后的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后提取模型中細(xì)化階段參與剪枝的卷積層索引,通過隨機(jī)生成多個(gè)剪枝策略,每一個(gè)策略為各索引層的剪枝率。第四部分使用L1 范數(shù)準(zhǔn)則,根據(jù)剪枝策略進(jìn)行剪枝,得到候選網(wǎng)絡(luò)。

        第五部分通過基于自適應(yīng)BN 的候選評(píng)估模塊對(duì)所有候選模型的BN 統(tǒng)計(jì)值μ和σ2進(jìn)行更新,并利用小部分訓(xùn)練集評(píng)估每一個(gè)候選網(wǎng)絡(luò)。 最后,挑選獲得最優(yōu)精度的候選模型作為最終剪枝模型并進(jìn)行微調(diào)恢復(fù)精度。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)所用的訓(xùn)練平臺(tái)使用深度學(xué)習(xí)框架pytorch1.6,以及雙Nvidia RTX30708G GPU 顯卡。測試平臺(tái)為Nvidia Jetson-nano 嵌入式開發(fā)板,搭載128 核Nvidia Maxwell 圖形處理器。

        3.2 數(shù)據(jù)集

        OpenPose 骨骼關(guān)節(jié)點(diǎn)檢測模型采用MS COCO人體骨骼數(shù)據(jù)集進(jìn)行訓(xùn)練。 但對(duì)于坐姿模型的訓(xùn)練,現(xiàn)有坐姿識(shí)別工作對(duì)于坐姿分類未有可實(shí)驗(yàn)的公共數(shù)據(jù)集。 很多現(xiàn)有工作是根據(jù)各文章算法進(jìn)行數(shù)據(jù)集制作,不同文獻(xiàn)對(duì)于坐姿圖像拍攝角度和攝像頭擺放位置存在巨大差異。 對(duì)于本文方法,其主要研究坐姿檢測方法在嵌入式平臺(tái)實(shí)現(xiàn)快速應(yīng)用,因此僅對(duì)日常辦公學(xué)習(xí)中攝像頭擺放在身體正前方場景下常見的幾種坐姿進(jìn)行圖像采集。 采集坐姿圖像數(shù)據(jù)集共包括8 種坐姿,包括趴著、頭部左傾、頭部右傾、正常、肩膀左低、肩膀右低、左撐頭、右撐頭,采集對(duì)象分別為10 個(gè)男性和10 個(gè)女性志愿者,總共包括圖2500 張RGB 圖像。 8 種坐姿以及利用OpenPose 檢測到的對(duì)應(yīng)骨骼如圖6 所示。 本文在數(shù)據(jù)清洗上,包括對(duì)因Openpose 算法檢測關(guān)節(jié)點(diǎn)失敗的數(shù)據(jù)進(jìn)行剔除,對(duì)類間重復(fù)信息進(jìn)行剔除。

        圖6 各類坐姿以及檢測到的人體骨骼

        3.3 特征融合性能結(jié)果和分析

        為了提高算法坐姿識(shí)別網(wǎng)絡(luò)的精度,本文利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)骨骼圖像進(jìn)行特征提取,并與骨骼向量特征進(jìn)行融合。 特征融合前后的網(wǎng)絡(luò)訓(xùn)練在測試集上損失變化曲線如圖7 所示,融合前僅通過關(guān)節(jié)點(diǎn)信息計(jì)算得到的骨骼特征對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,當(dāng)訓(xùn)練迭代次數(shù)達(dá)到600 個(gè)epoch 時(shí),損失逐漸收斂。 而融合骨骼圖像特征后對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,經(jīng)過300 次迭代網(wǎng)絡(luò)就已經(jīng)收斂平穩(wěn),最終損失在0.31 左右。 可以得出,從骨骼圖像中提取到的特征提高了網(wǎng)絡(luò)的收斂速度。 另外,特征融合前后的坐姿分類精度如圖8 所示,由結(jié)果可得出,特征融合前的網(wǎng)絡(luò)僅獲得了85%的驗(yàn)證精度,其特征融合后的網(wǎng)絡(luò)獲得了92%的驗(yàn)證精度,精度提升了7%,進(jìn)一步說明了特征融合的有效性。

        圖8 特征融合前后坐姿分類精度

        此外,為了進(jìn)一步分析模型對(duì)于各類坐姿的分類性能,提供了所提出模型在訓(xùn)練集上的混淆矩陣,以及對(duì)模型在各類坐姿上的性能指標(biāo)進(jìn)行統(tǒng)計(jì)。 其中,特征融合前后訓(xùn)練集的混淆矩陣結(jié)果如圖9 所示,對(duì)于融合前,模型對(duì)于坐姿趴著、正常和右撐頭有較好的識(shí)別精度。 一部分原因是這幾類坐姿之間具有較高的區(qū)分性,另一部分原因是現(xiàn)有坐姿數(shù)據(jù)集中各類坐姿數(shù)量不平衡,致使數(shù)據(jù)量較多的類擁有較高的分類精度。 除此之外,由于數(shù)據(jù)清洗不干凈導(dǎo)致存在部分類中數(shù)據(jù)與其他類數(shù)據(jù)較為相似的情況,導(dǎo)致分類困難。 比如,對(duì)于左肩低類有28%被模型認(rèn)為正常類。 然而,特征融合后,一定程度上提升了左肩低類與正常類之間的可區(qū)分性,原本左肩低類被誤判為正常類的比例已經(jīng)從28%降低到0.03%。 通過表3 特征融合前后模型在8 類坐姿上的性能指標(biāo)對(duì)比同樣可以得出,特征融合后相對(duì)于融合前精度分別提升了4%、17%、15%、14%、14%、12%、15%和15%,召回率分別提升3%、13%、18%、9%、33%、12%、22%和10%。

        圖9 特征融合前后模型在訓(xùn)練集的混淆矩陣

        表3 特征融合前后模型在各類坐姿上的性能指標(biāo)對(duì)比

        3.4 姿態(tài)估計(jì)模型優(yōu)化結(jié)果和分析

        OpenPose 姿態(tài)估計(jì)模型是本文實(shí)現(xiàn)坐姿識(shí)別的關(guān)鍵,其準(zhǔn)確率在一定程度上影響了最終坐姿分類的精度。 因此,為了在保證檢測精度的前提下,提高檢測速度,本文對(duì)網(wǎng)絡(luò)模型進(jìn)行了優(yōu)化,并部署到嵌入式開發(fā)板Jetson Nano 進(jìn)行測試。 其中,模型優(yōu)化前后的性能比較如表4 所示,其中方案1 由MobileNetV2 骨干網(wǎng)絡(luò)、1 個(gè)初始化階段和2 個(gè)細(xì)化階段組成,方案2 在方案1 的基礎(chǔ)上對(duì)3 個(gè)stage 設(shè)置0.4 的剪枝率。

        表4 模型優(yōu)化前后性能比較

        從結(jié)果來看,原始關(guān)節(jié)點(diǎn)檢測模型具備較高平均精度(AP)和坐姿識(shí)別精度,其中模型大小為68M,檢測效果如圖6,在嵌入式設(shè)備NANO 上的實(shí)際運(yùn)行速度只有1.4 幀左右,無法滿足隨后的快速坐姿檢測任務(wù)。 進(jìn)一步地,方案1 對(duì)骨干網(wǎng)絡(luò)進(jìn)行替代,以及對(duì)最后3 個(gè)細(xì)化階段進(jìn)行移除,其模型平均精度和識(shí)別精度雖分別有7%和2%左右的降低,但其模型大小得到大幅度減少,實(shí)際檢測速度提升3 倍左右。 而方案2 在此基礎(chǔ)上對(duì)復(fù)雜的細(xì)化階段網(wǎng)絡(luò)進(jìn)行剪枝操作,在精度下降2%的情況下,識(shí)別精度依然可以達(dá)到89%,模型大小只有15M,實(shí)際檢測速度可達(dá)到5.5 幀,比原始模型速度提升4 倍左右。 方案2 模型的各類坐姿檢測效果如圖10 所示。 可以發(fā)現(xiàn),對(duì)于正常類、右手撐頭類坐姿,模型可以準(zhǔn)確地獲取到關(guān)節(jié)點(diǎn)位置,對(duì)于其他類坐姿,模型有檢測到的個(gè)別關(guān)節(jié)點(diǎn)發(fā)生偏移或未檢測到的情況,但依然保持了較好的檢測效果。 實(shí)際應(yīng)用中方案2 滿足正常需求。

        圖10 方案2 模型的各類坐姿檢測效果

        3.5 嵌入端模型推理

        對(duì)于模型推理,本文使用英偉達(dá)Jetson Nano 開發(fā)板進(jìn)行實(shí)驗(yàn),板內(nèi)搭載一個(gè)擁有128 核的GPU,可實(shí)現(xiàn)加速模型推理。 最終的實(shí)際測試性能如圖11所示。 算法推理一幀的總體時(shí)間消耗在286 ms,幀率可達(dá)到3.5,其中占比最多的是利用OpenPose 模型檢測關(guān)節(jié)點(diǎn),時(shí)間消耗182 ms,占比63%。 其次為坐姿特征的提取及特征融合,該階段包括了骨骼關(guān)節(jié)特征向量計(jì)算和骨骼圖像特征提取,時(shí)間消耗69 ms,占比24%。 坐姿分類模型只消耗了16ms,占比5%,對(duì)最終的檢測速度影響較小。

        圖11 實(shí)際測試性能

        3.6 相關(guān)方法對(duì)比分析

        為了驗(yàn)證提出方法的可信性,這里比較了其他工作的結(jié)果,結(jié)果如表5 所示,其中RGB-D 為深度相機(jī)。

        表5 相關(guān)方法對(duì)比

        本文的方法允許在嵌入式設(shè)備Jetson nano 上實(shí)現(xiàn)快速推理,具有較好的識(shí)別精度和分類數(shù)。 例如,文獻(xiàn)[13]獲得了較高的識(shí)別精度和分類數(shù),但是該工作是面向PC 端,且需要Kinect 深度相機(jī)采集圖像。 文獻(xiàn)[15]利用深度相機(jī)和高性能Nvidia 1070 GPU 實(shí)現(xiàn)了實(shí)時(shí)識(shí)別坐姿,但只有3 種坐姿保持了較好的識(shí)別精度。 文獻(xiàn)[18]利用單目相機(jī)獲得較高的識(shí)別精度,但模型只能對(duì)3 類坐姿進(jìn)行分類。相比深度相機(jī)獲取骨骼三維信息的方法,若坐姿分類不涉及前傾后仰等相對(duì)于相機(jī)做前后運(yùn)動(dòng)的坐姿(文獻(xiàn)[13]和[18]),本文方法同樣可以獲得較好的識(shí)別精度,并且利用計(jì)算能力較小的Nvidia Maxwell 圖形處理器,在8 類坐姿總識(shí)別精度為89%的情況下,獲得了4 幀左右的識(shí)別速度。

        4 結(jié)束語

        本文提出基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識(shí)別方法。 解決了深度學(xué)習(xí)人體坐姿識(shí)別任務(wù)因模型參數(shù)多、計(jì)算量大、復(fù)雜程度高,難以在資源有限的嵌入式設(shè)備上實(shí)現(xiàn)高精度和快速性的問題。本文方法利用了輕量化網(wǎng)絡(luò)結(jié)構(gòu)和模型剪枝技術(shù)對(duì)模型進(jìn)行優(yōu)化,并提出利用特征融合提升識(shí)別精度,在保證識(shí)別精度的同時(shí)獲得了更快的檢測速度。 在Jetson Nano 上的實(shí)際幀率可達(dá)4 幀,達(dá)到了快速識(shí)別坐姿的目的,滿足生產(chǎn)生活的需要,具有較好的應(yīng)用價(jià)值。 同時(shí)本文算法也存在不足之處,如缺少空間信息對(duì)姿態(tài)進(jìn)行建模,對(duì)辦公場景下前傾后仰等坐姿識(shí)別精度不佳,且由于設(shè)備顯存不足等原因,導(dǎo)致特征提取部分沒有得到加速,后續(xù)工作將考慮利用量化技術(shù)進(jìn)一步加速推理速度。

        猜你喜歡
        關(guān)節(jié)點(diǎn)剪枝坐姿
        人到晚年宜“剪枝”
        基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
        基于YOLOv4-Tiny模型剪枝算法
        關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
        坐姿好習(xí)慣
        學(xué)生作業(yè)坐姿及臺(tái)燈控制器
        電子制作(2019年10期)2019-06-17 11:44:54
        基于坐姿感應(yīng)的智能視力保護(hù)臺(tái)燈設(shè)計(jì)
        電子制作(2018年19期)2018-11-14 02:36:50
        搞好新形勢下軍營美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        “長跪”與謝罪無關(guān)
        黨的生活(2015年4期)2015-04-18 23:58:39
        国产精品自产拍在线观看免费 | wwww亚洲熟妇久久久久| 天堂一区人妻无码| av天堂精品久久久久| 亚洲视频一区二区三区免费| 日本一区二区免费高清| 欧洲熟妇色| 亚洲av日韩av永久无码色欲| 91精品国产91久久久无码色戒 | 亚洲性69影视| 国产精品久久av高潮呻吟| 深夜放纵内射少妇| 人妻少妇精品视频一区二区三区| 国产艳妇av在线出轨| 亚洲小少妇一区二区三区| 国产18禁黄网站免费观看| 女邻居的大乳中文字幕| 亚洲成人777| 热门精品一区二区三区| 不卡的高清av一区二区三区| 天天燥日日燥| 无码av免费永久免费永久专区| 激情视频在线播放一区二区三区| 久久久精品人妻一区二区三区四区| 50岁熟妇大白屁股真爽| 精品国产91天堂嫩模在线观看| 蜜桃av福利精品小视频| 天堂网站一区二区三区| 啪啪无码人妻丰满熟妇| 久久国产精品免费一区二区| 色婷婷在线一区二区三区| 真实国产乱子伦精品视频| 曰本女人与公拘交酡免费视频| 国产美女精品AⅤ在线老女人| 黑人玩弄极品人妻系列视频| 久久精品亚洲一区二区三区浴池| 中文字幕喷水一区二区| 久久久国产视频久久久| 韩国av一区二区三区不卡| 乱人伦中文无码视频| 久久99精品波多结衣一区|