亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別骨架特征研究

2020-11-20 00:29:36仇思宇仇德成趙國營

河西學(xué)院學(xué)報(bào) 2020年5期

仇思宇仇德成趙國營

（1.武漢數(shù)字工程研究所，湖北武漢 430200；2.河西學(xué)院信息技術(shù)與傳媒學(xué)院，甘肅張掖 734000；3.中國人民解放軍32738部隊(duì)信息服務(wù)室，河南鄭州 450053）

1 緒論

動(dòng)作識(shí)別在計(jì)算機(jī)視覺中有重要的作用，并具有廣泛的應(yīng)用，例如人機(jī)交互，視頻監(jiān)視，機(jī)器人技術(shù)，游戲控制等［1，2］.通常，人體可以看作是具有剛性骨骼和鉸接關(guān)節(jié)的關(guān)節(jié)系統(tǒng)，而人體的動(dòng)作可以表示為骨骼的運(yùn)動(dòng)［3］.目前，基于低成本的深度傳感器與實(shí)時(shí)骨架估計(jì)算法［4，5］，可以提供相對可靠的關(guān)節(jié)坐標(biāo)，基于這些坐標(biāo)，已經(jīng)開發(fā)出有效的動(dòng)作識(shí)別方法［3，6，7］.

2 研究背景

姿勢隨時(shí)間的動(dòng)態(tài)變化可以建模為時(shí)間序列問題，這對于連續(xù)的動(dòng)作識(shí)別至關(guān)重要［8-10］.骨骼關(guān)節(jié)坐標(biāo)可用于表示人類的姿勢及其關(guān)于時(shí)間的演變.基于手工提取骨架特征［3，11，12］的方法具有依賴算法設(shè)計(jì)者對骨架和人體骨骼構(gòu)造的先驗(yàn)知識(shí)的缺點(diǎn)，且在不同數(shù)據(jù)集中可能會(huì)使模型表現(xiàn)出不同的泛化性能，而基于深度學(xué)習(xí)技術(shù)的方法則可以彌補(bǔ)上述缺點(diǎn).當(dāng)前，主要有兩種使用深度學(xué)習(xí)技術(shù)來捕獲骨架序列中的時(shí)空信息的方法：循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）.

2.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)直接從骨架序列編碼的紋理圖像中提取信息. Wang P 等的文章中使用關(guān)節(jié)軌跡圖（JTM）將每個(gè)時(shí)間實(shí)例的身體聯(lián)合軌跡（位置、運(yùn)動(dòng)方向和運(yùn)動(dòng)幅度）編碼為HSV圖像［13］.Hou Y等的文章提出在圖像中空間信息由位置表示、動(dòng)態(tài)信息由顏色表示［14］.Li C等的文章采用骨架光學(xué)光譜（SOS）來編碼動(dòng)態(tài)時(shí)空信息［15］，采用關(guān)節(jié)距離作為空間特征，并使用顏色條進(jìn)行顏色編碼.在圖像中，每一行紋理捕獲空間信息，而每一列紋理捕獲時(shí)間信息.當(dāng)前，用于編碼的空間特征相對簡單.

2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)又稱遞歸神經(jīng)網(wǎng)絡(luò)，采用循環(huán)神經(jīng)網(wǎng)絡(luò)來從提取的空間骨架特征中捕獲時(shí)間信息.由于信息的順序流動(dòng)，性能很大程度上取決于提取的空間骨架特征的有效性.而且，時(shí)間信息很容易過分強(qiáng)調(diào)，尤其是在訓(xùn)練數(shù)據(jù)不足時(shí)，容易導(dǎo)致過擬合［13］.

3 特征選擇

本文使用的方法如圖1所示，包括五個(gè)主要組成部分，即從輸入骨架序列中提取空間特征，關(guān)鍵特征選擇，從關(guān)鍵特征中進(jìn)行紋理彩色圖像編碼，卷積神經(jīng)網(wǎng)絡(luò)模塊預(yù)訓(xùn)練以及分?jǐn)?shù)融合的神經(jīng)網(wǎng)絡(luò)訓(xùn)練.

從關(guān)節(jié)時(shí)空位置提取出來的特征有多種，通過選擇特定的關(guān)節(jié)組合提取特征并進(jìn)行顏色編碼，可以產(chǎn)生多種紋理圖像.卷積神經(jīng)網(wǎng)絡(luò)會(huì)分別在每種圖像上進(jìn)行訓(xùn)練，訓(xùn)練后的卷積網(wǎng)絡(luò)作為特征提取模塊放置在網(wǎng)絡(luò)的前端.由兩層全連接層組成的分?jǐn)?shù)融合模塊作為網(wǎng)絡(luò)的后端，以完成最終的動(dòng)作識(shí)別.

圖1 多特征動(dòng)作識(shí)別模型整體結(jié)構(gòu)

3.1 特征提取

本節(jié)研究的空間特征包括在Yang X和Tian YL的文章中介紹的絕對關(guān)節(jié)位置J 和相對關(guān)節(jié)位置Jr，以及在Zhang S等人的文章中介紹的關(guān)節(jié)-關(guān)節(jié)距離JJd 、關(guān)節(jié)-關(guān)節(jié)向量JJv 、關(guān)節(jié)-關(guān)節(jié)方向JJo 、關(guān)節(jié)-線距離JLd 和線-線角LLa［16-18］，實(shí)驗(yàn)中使用J 、Jr、JJo、JLd 和LLa 作為姿態(tài)序列每一幀的特征.

通過選擇關(guān)鍵關(guān)節(jié)和關(guān)鍵線的方式可以減少組合數(shù)量來進(jìn)行特征選擇.關(guān)鍵關(guān)節(jié)和關(guān)鍵線的選擇遵循以下原則：所選特征應(yīng)包含盡可能多的信息，并且對于視點(diǎn)和動(dòng)作是不變的.基于運(yùn)動(dòng)主要位于骨架末端且通常是局部特征才具有識(shí)別力的觀點(diǎn)［17］，我們采用Zhang S等人的方法從主要?jiǎng)幼鲌?zhí)行者中選擇39條線，得到612維JLd 特征和741維LLa 特征.

Li C等作者的文章中，彩色紋理圖像被用來編碼空間特征以捕獲動(dòng)作的時(shí)間信息［15］.具體而言，圖像中的每一列代表一幀中的空間特征，而每一行代表特定特征的序列.給定具有T 幀的骨架序列，為每幀提取S 維特征，形成的S×T 的特征矩陣編碼為H×W 大小的彩色紋理圖像以作為網(wǎng)絡(luò)的輸入.

3.2 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)定

卷積模塊由多個(gè)卷積層和池化層順序組合而成.為防止過擬合，正則化和dropout等方法被應(yīng)用在神經(jīng)網(wǎng)絡(luò)中.

3.3 多特征模塊的分?jǐn)?shù)融合

本文采用如圖2所示的網(wǎng)絡(luò)結(jié)構(gòu)作為卷積模塊.給定一個(gè)測試骨架序列，將生成M 種類型的紋理圖像，并使用訓(xùn)練后的模型識(shí)別每種類型的紋理圖像.然后，通過乘法將卷積模塊的輸出（分?jǐn)?shù)）融合為最終分?jǐn)?shù)，這已得到了驗(yàn)證［19，20］.融合過程如下：

其中s 是卷積模塊輸出的分?jǐn)?shù)向量，k 則代表動(dòng)作標(biāo)簽的序號(hào)，而arg max（·）是用于找到最大元素的對應(yīng)序號(hào)的函數(shù).

圖2 預(yù)處理模塊網(wǎng)絡(luò)結(jié)構(gòu)

4 實(shí)驗(yàn)與評估

該模型在MSR Action3D 數(shù)據(jù)集上進(jìn)行了評估.該數(shù)據(jù)集包含用于動(dòng)作識(shí)別的深度點(diǎn)云和關(guān)節(jié)位置信息.它具有20 個(gè)不同動(dòng)作類別的560 個(gè)有效樣本，這些樣本是由20 位動(dòng)作執(zhí)行者執(zhí)行（每組執(zhí)行3次）.此數(shù)據(jù)集具有挑戰(zhàn)性，且數(shù)據(jù)量較小，因此不額外劃分驗(yàn)證集，直接采用測試集作為驗(yàn)證集.實(shí)驗(yàn)采用跨目標(biāo)的方法評估模型的準(zhǔn)確性：即將50%的動(dòng)作執(zhí)行者的樣本劃分為測試集，剩余50%的動(dòng)作執(zhí)行者的樣本劃分為測試集.

表1 模型訓(xùn)練參數(shù)

4.1 數(shù)據(jù)集與測試方法

實(shí)驗(yàn)環(huán)境是Google公司為深度學(xué)習(xí)研究者免費(fèi)提供的Colaboratory服務(wù)器.該服務(wù)器配備了Tesla T4 GPU，16GB顯存，16GB的內(nèi)存.實(shí)驗(yàn)?zāi)Ｐ驮诖谁h(huán)境下平均每批數(shù)據(jù)僅需計(jì)算353毫秒.訓(xùn)練中使用的模型訓(xùn)練參數(shù)見表1.

圖3 同一樣本不同特征的圖像編碼結(jié)果

表2 特征提取方法的精確度

表3 不同模型精確度對比

4.2 模型測試結(jié)果

由圖3所展示的不同動(dòng)作的樣本生成的紋理圖像中可以得出，實(shí)驗(yàn)所選特征是具有辨別力的.

表2列出了各個(gè)特征提取方法進(jìn)行試驗(yàn)后的結(jié)果，以及分?jǐn)?shù)融合的結(jié)果.評估的五個(gè)特征，對每個(gè)特征都使用不同的關(guān)節(jié)、線的選擇方法進(jìn)行了評估.從表2中可以看出，基于單個(gè)結(jié)果和融合結(jié)果的比較，JJv 特征是最好的關(guān)節(jié)-關(guān)節(jié)特征.而JLd 是五種特征中最好的特征，這與Zhang S等人的結(jié)果相吻合.實(shí)驗(yàn)結(jié)果表明，對于此任務(wù)，某些關(guān)節(jié)存在噪音.其他不同模型精確度對比結(jié)果在表3中，與基于手工特征的方法和基于深度學(xué)習(xí)的某些方法相比，本文所提出的方法精確度為81.31%，獲得了較好的結(jié)果.