亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于三級(jí)神經(jīng)網(wǎng)絡(luò)的魯棒3D手姿估計(jì)

        2022-01-01 00:00:00鄒序焱何漢武吳悅明

        摘 要:人類在認(rèn)識(shí)事物時(shí)往往是從粗到細(xì)再到精,受認(rèn)識(shí)過程的啟發(fā),根據(jù)手的拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)了一種新的手勢估計(jì)網(wǎng)絡(luò)。該方法首先從手的角度提取全局特征,然后從手指角度提取局部特征,最后從關(guān)節(jié)點(diǎn)的角度提取點(diǎn)的細(xì)化特征,并融合三個(gè)不同階段特征回歸出每一關(guān)節(jié)點(diǎn)的3D空間坐標(biāo)值,從而改善了回歸精度。由于深度圖只保存了目標(biāo)點(diǎn)到相機(jī)的深度信息,以深度圖作為神經(jīng)網(wǎng)絡(luò)的輸入不利于卷積核獲取其他兩個(gè)方向的坐標(biāo)信息;為了能在2D卷積核中直接利用空間坐標(biāo)的全部信息,利用相機(jī)成像原理對(duì)深度圖進(jìn)行轉(zhuǎn)換,將深度圖轉(zhuǎn)換為3通道的圖像,這樣提高了神經(jīng)網(wǎng)絡(luò)的回歸精度。最后在公開數(shù)據(jù)集NYU和MSARA上進(jìn)行訓(xùn)練和測試,測試結(jié)果表明,提出的網(wǎng)絡(luò)結(jié)構(gòu)及輸入數(shù)據(jù)的轉(zhuǎn)變都取得了良好的效果。

        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);手勢估計(jì);RGBD相機(jī);深度圖;手的拓?fù)浣Y(jié)構(gòu)

        中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1001-3695(2022)03-049-0925-06

        doi:10.19734/j.issn.1001-3695.2021.06.0289

        基金項(xiàng)目:國家重點(diǎn)研發(fā)專項(xiàng)資助項(xiàng)目(2018YFB1004902);廣東省重點(diǎn)研發(fā)資助項(xiàng)目(2017B010110008)

        作者簡介:鄒序焱(1983-),男(通信作者),湖南婁底人,講師,博士研究生,主要研究方向?yàn)樵鰪?qiáng)現(xiàn)實(shí)和人工智能(zxy03102@163.com);何漢武(1966-),男,湖北荊州人,教授,博導(dǎo),博士,主要研究方向?yàn)橹圃熳詣?dòng)化系統(tǒng)、VR/AR技術(shù)及應(yīng)用;吳悅明(1979-),男,廣東廣州人,高級(jí)實(shí)驗(yàn)師,博士,主要研究方向?yàn)樘摂M現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)在工業(yè)中的可視化應(yīng)用.

        Robust 3D hand pose estimation based on three-level cascade neural network

        Zou Xuyan1,2?,He Hanwu1,3,Wu Yueming1

        (1.School of Electromechanical Engineering,Guangdong University of Technology,Guangzhou 510006,China;2.Dept.of Artificial Intelligence amp; Big Data,Yibin University,Yibin Sichuan 644000,China;3.Guangdong Polytechnic of Industry amp; Commerce,Guangzhou 510510,China)

        Abstract:Human understanding of things is often from coarse to fine and then to refined.Inspired by the cognitive process,this paper proposed a new gesture estimation network structure based on hand topology.Firstly,this model extracted the global feature from the angle of the whole hand,then extracted the local feature from the angle of the finger,finally extracted the refined feature from the angle of the joint point,and regressed the 3D spatial coordinate information of each joint point by fusing the different features of the three stages.Since the depth map only saved the depth information from the target point to the camera,taking the depth map as the input of the neural network,the convolution kernel couldn’t directly obtain the coordinate information in the other two directions.In order to obtain the coordinate information of the other two directions,it converted the depth map into a 3-channel image using the camera imaging principle,which improved the regression accuracy of the neural network.This paper trained and tested the model on the NYU and MSARA datasets.The test results show that the proposed network structure and the transformation of the input data have achieved good results.

        Key words:neural network;hand pose estimation;RGBD camera;depth image;hand topology

        0 引言

        隨著深度學(xué)習(xí)的發(fā)展,人機(jī)交互的應(yīng)用也越來越廣泛[1,2]。手勢交互因?yàn)槠浣换シ绞阶匀?、方便、靈活等特點(diǎn)在虛擬現(xiàn)實(shí)[3]、增強(qiáng)現(xiàn)實(shí)[4]、智能控制及機(jī)器人交互等方面應(yīng)用廣泛。Wang等人[3]構(gòu)建出一個(gè)實(shí)時(shí)手勢交互的虛擬現(xiàn)實(shí)系統(tǒng),利用手勢交互對(duì)虛擬物體進(jìn)行移動(dòng)、縮放、選擇等操作;Karambakhsh等人[4]構(gòu)建出一個(gè)手勢交互的增強(qiáng)現(xiàn)實(shí)系統(tǒng),主要利用神經(jīng)網(wǎng)絡(luò)對(duì)手勢進(jìn)行識(shí)別,從而達(dá)到人與計(jì)算機(jī)交互的目的。手勢交互技術(shù)的發(fā)展得益于計(jì)算機(jī)硬件、深度相機(jī)及神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展,近年來取得了顯著成就,然而由于手的自由度高、手指間相互遮擋、環(huán)境、光照等因素,手勢估計(jì)仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。

        隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在手勢估計(jì)中取得了巨大的成功。卷積神經(jīng)網(wǎng)絡(luò)根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的不同,大致可以分為兩種:

        a)將手部所有關(guān)節(jié)點(diǎn)當(dāng)成一個(gè)整體而構(gòu)建出神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[5,6],如Che 等人[6]提出了一種層次式的手勢估計(jì)網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)主要分成兩部分,第一部分用于粗略估計(jì)手的中心點(diǎn),再以中心點(diǎn)為基礎(chǔ)對(duì)手部分進(jìn)行處理,然后構(gòu)建出第二部分網(wǎng)絡(luò)結(jié)構(gòu),用于回歸出手的3D空間坐標(biāo)。該回歸網(wǎng)絡(luò)將所有節(jié)點(diǎn)作為一個(gè)整體進(jìn)行回歸,首先估計(jì)手的中心點(diǎn),然后以中心為基礎(chǔ)對(duì)手部節(jié)點(diǎn)進(jìn)行估計(jì)。

        b)根據(jù)手形拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)的分支式網(wǎng)絡(luò)模型。Du等人[7]根據(jù)手的結(jié)構(gòu)將手勢估計(jì)任務(wù)分為手掌姿勢估計(jì)和手指姿勢估計(jì)子任務(wù),并采用了十字交叉網(wǎng)絡(luò)對(duì)這兩部分進(jìn)行特征提取,兩個(gè)分支可以彼此共享信息,從而提高了3D位姿的回歸精度;Sinha等人[8]將整個(gè)手部的節(jié)點(diǎn)按著大拇指、食指、中指、無名指和小指劃分為五部分并分別提取特征,根據(jù)手部的連接關(guān)系構(gòu)建約束矩陣,從而回歸出手的3D位姿,在一定程度上提高了位姿的精度,然而它不是從端到端的神經(jīng)網(wǎng)絡(luò);Chen等人[9]根據(jù)手形拓?fù)浣Y(jié)構(gòu)對(duì)特征進(jìn)行分區(qū),在不同區(qū)域上提取特征圖,該方法解決了平等對(duì)待特征區(qū)域的問題,它根據(jù)手關(guān)節(jié)的拓?fù)鋪砑商卣鲌D,然后將所有特征進(jìn)行連接,最后利用全連接層進(jìn)行3D位姿回歸;Guo等人[10]提出了一種樹形結(jié)構(gòu)的區(qū)域集成網(wǎng)絡(luò)(REN),將卷積輸出劃分為多個(gè)區(qū)域,并在每個(gè)區(qū)域上集成來自多個(gè)回歸器的結(jié)果;Zhou等人[11]提出了具有三個(gè)分支的網(wǎng)絡(luò)結(jié)構(gòu),稱為分支集成網(wǎng)絡(luò)(HBE),在此體系結(jié)構(gòu)中三個(gè)分支代表手的三個(gè)部分,分別是拇指、食指和其他手指。綜上可知,利用手形拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)出的多分支網(wǎng)絡(luò)結(jié)構(gòu)在一定程度上提高了3D位姿的回歸精度。

        1 卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入

        在深度學(xué)習(xí)中,從數(shù)據(jù)的輸入形式上看,手勢估計(jì)可分為三類:

        a)以RGB圖像作為數(shù)據(jù)輸入[12,13],由于RGB圖像是一種二維數(shù)據(jù)格式,只有顏色和紋理等信息,缺少空間信息,增加了回歸的難度。Zimmermann 等人[12]利用RGB圖像訓(xùn)練神經(jīng)網(wǎng)絡(luò),最后回歸出手部節(jié)點(diǎn)的3D空間坐標(biāo)。

        b)以深度圖作為數(shù)據(jù)輸入[7,14~17],它是一種2.5D數(shù)據(jù)格式,利用傳感器從一個(gè)視角上獲取手部深度信息,但是缺少多個(gè)視角的深度信息,其好處是不受光照的影響且包含了深度信息,因此大大改善了以RGB圖像作為輸入的手勢估計(jì)結(jié)果。Oberweger等人[14]構(gòu)建出一個(gè)以深度圖作為數(shù)據(jù)輸入的反饋神經(jīng)網(wǎng)絡(luò),利用反饋的數(shù)據(jù)修正網(wǎng)絡(luò)對(duì)3D位姿的預(yù)測,但從目前的文獻(xiàn)結(jié)果對(duì)比來看,其結(jié)果并不優(yōu)越;Oberweger等人[15]利用深度圖構(gòu)建出幾種網(wǎng)絡(luò)結(jié)構(gòu)并對(duì)各種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了評(píng)價(jià);Choi等人[17]在深度圖的基礎(chǔ)上利用熱擴(kuò)散原理描述了表面幾何特性,從而提高了3D位姿的回歸精度;Kazakos等人[18]構(gòu)建了一個(gè)融合RGB圖像數(shù)據(jù)和深度圖像數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),分別對(duì)RGB數(shù)據(jù)和深度圖像數(shù)據(jù)使用九個(gè)卷積層和三個(gè)池化層進(jìn)行特征提取,然后融合兩個(gè)方面的特征,最后利用全連接層回歸出手的三維姿態(tài),但是融合兩種類型數(shù)據(jù)并沒有顯著提高手勢估計(jì)精度。

        c)以點(diǎn)云數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入[5,19~21]。點(diǎn)云數(shù)據(jù)是由手部空間坐標(biāo)點(diǎn)構(gòu)成的,點(diǎn)云數(shù)據(jù)中點(diǎn)與點(diǎn)之間的關(guān)系是無序的、雜亂無章的,所以在神經(jīng)網(wǎng)絡(luò)中,首先需要將點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為體素結(jié)構(gòu),然后利用3D卷積核提取特征,從而回歸出關(guān)節(jié)點(diǎn)的3D空間位置[5]。如Chang 等人[19]采用點(diǎn)云作為輸入數(shù)據(jù),建立一個(gè)體素到體素的預(yù)測網(wǎng)絡(luò)結(jié)構(gòu),雖然改善了結(jié)果,但同時(shí)也增加了計(jì)算量。以RGB圖像或深度圖作為數(shù)據(jù)輸入,神經(jīng)網(wǎng)絡(luò)模型主要采用2D卷積核對(duì)特征進(jìn)行提取。以點(diǎn)云數(shù)據(jù)輸入則主要采用3D卷積核,因此在速度上,以點(diǎn)云數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)輸入是最慢的,但是能夠更好地利用空間坐標(biāo)信息,從而改善了3D位姿精度。

        本文主要選取第二類數(shù)據(jù),但對(duì)第二類數(shù)據(jù)格式進(jìn)行了轉(zhuǎn)換。首先利用相機(jī)成像原理將深度圖轉(zhuǎn)換為空間坐標(biāo),然后按深度圖中行和列的順序存儲(chǔ)為3通道的圖像。第一個(gè)通道上存儲(chǔ)點(diǎn)的x坐標(biāo)信息,第二個(gè)通道存儲(chǔ)y坐標(biāo)信息,第三個(gè)通道存儲(chǔ)z坐標(biāo)信息。對(duì)轉(zhuǎn)換以后的數(shù)據(jù)利用2D卷積核進(jìn)行圖像特征提取,不僅可以直接獲取z坐標(biāo)信息,也可以直接獲取其他兩個(gè)方向上的信息,并沒有顯著增加算法的時(shí)間復(fù)雜度。通過數(shù)字實(shí)驗(yàn)結(jié)果表明,這種轉(zhuǎn)換是有效果的。

        設(shè)包含手的深度圖為D,它只有一個(gè)通道的信息,表示為

        其中:(u,v)代表深度圖的像素坐標(biāo),d(u,v)代表該像素坐標(biāo)(u,v)對(duì)應(yīng)的深度值,M和N代表圖像的行數(shù)和列數(shù)。傳統(tǒng)的手勢估計(jì)是從一個(gè)深度圖中估計(jì)出關(guān)節(jié)點(diǎn)的3D空間坐標(biāo)Φ={φi},其中φi=(xi,yi,zi)為第i個(gè)手部節(jié)點(diǎn)的空間坐標(biāo),i=1,2,…,J,J為節(jié)點(diǎn)的個(gè)數(shù)。因此手勢估計(jì)的數(shù)學(xué)模型可以表示為

        其中:F(·)代表各種卷積神經(jīng)網(wǎng)絡(luò)。深度圖D可以通過式(3)將深度信息(u,v,d)轉(zhuǎn)換為空間立體坐標(biāo)(x,y,z)。

        其中:fx和fy為相機(jī)在x軸及y軸上的焦距,(u0,v0)為深度圖的中心坐標(biāo)。

        在以深度圖作為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)時(shí),神經(jīng)網(wǎng)絡(luò)主要獲取深度圖中深度的信息。為了能直接獲取深度圖中點(diǎn)的x坐標(biāo)及y坐標(biāo),對(duì)深度圖中的每一點(diǎn)利用式(3)將深度圖轉(zhuǎn)換為空間坐標(biāo),然后按照深度圖行和列的順序存儲(chǔ)為3通道的圖像。深度圖D由1通道的圖像轉(zhuǎn)變?yōu)?通道的圖像,即

        從而式(2)轉(zhuǎn)換為

        從式(2)可以看出,其定義域?yàn)樯疃戎担涤驗(yàn)槭植抗?jié)點(diǎn)的空間坐標(biāo)信息;從式(5)可以看出,其定義域和值域都是空間坐標(biāo),這樣有利于神經(jīng)網(wǎng)絡(luò)的回歸。

        為了減小環(huán)境對(duì)神經(jīng)網(wǎng)絡(luò)造成的影響,本文采用了與文獻(xiàn)[15,16]相同的數(shù)據(jù)處理方式。根據(jù)深度值檢測手的位置,計(jì)算出手的中心點(diǎn),然后以手的中心建立裁剪立方體,以立方體的邊界對(duì)圖像I進(jìn)行裁剪,然后按照深度值z值規(guī)范到[-1,1],且在x和y通道上也作相同的處理,最后按照比例縮放至96×96的大小。在實(shí)際應(yīng)用中,由于手的各種操作和變換,本文采用了與文獻(xiàn)[16]相同的方法對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)處理。主要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)的比例、旋轉(zhuǎn)和平移變換,增加了訓(xùn)練樣本,改善了回歸的精度。

        2 本文方法

        2.1 手的拓?fù)浣Y(jié)構(gòu)

        手是由手腕、手掌和手指構(gòu)成[22],主要包括27根骨頭。腕骨有8根短骨,手掌由5根長骨構(gòu)成,手指由大拇指、食指、中指、無名指和小指構(gòu)成。大拇指由近節(jié)指骨和遠(yuǎn)節(jié)指骨構(gòu)成,其他手指都包含近節(jié)指骨、中間指骨和遠(yuǎn)節(jié)指骨三部分。手是一種高度復(fù)雜且非常優(yōu)雅的生物機(jī)械設(shè)備,能夠進(jìn)行粗糙和精細(xì)的運(yùn)動(dòng)。手是由骨骼形成的剛體系統(tǒng),每一節(jié)點(diǎn)的自由度并不相同,如圖1所示。食指、中指、無名指和小指具有相同的關(guān)節(jié)結(jié)構(gòu),主要包括一個(gè)連接手指底部和掌的鞍關(guān)節(jié)和兩個(gè)鉸鏈關(guān)節(jié);拇指只包含一個(gè)鞍關(guān)節(jié)和一個(gè)鉸鏈關(guān)節(jié),鉸關(guān)節(jié)只能屈伸,因此它只有一個(gè)自由度;鞍關(guān)節(jié)能夠屈伸或者左右擺動(dòng),因此它具有兩個(gè)自由度。將手部手掌和手腕看做一個(gè)整體,它具有六個(gè)自由度。

        2.2 網(wǎng)絡(luò)結(jié)構(gòu)

        從圖1可知,手具有高度的靈活性,手掌在整個(gè)手的運(yùn)動(dòng)過程中起到關(guān)鍵作用,每一根手指依附于手掌存在。在同一根手指上的兩個(gè)關(guān)節(jié)點(diǎn)之間具有很強(qiáng)的關(guān)聯(lián)性,但每一個(gè)節(jié)點(diǎn)也具有其獨(dú)特的特征。手的這種特點(diǎn)稱為手形拓?fù)浣Y(jié)構(gòu),利用手形拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)多分支的網(wǎng)絡(luò)結(jié)構(gòu),在一定程度上改善了3D位姿的回歸精度。人們在認(rèn)識(shí)復(fù)雜事物時(shí)往往是從全局角度上進(jìn)行整體認(rèn)識(shí),然后從局部角度上對(duì)細(xì)節(jié)進(jìn)行區(qū)分。依據(jù)這個(gè)原理,本文設(shè)計(jì)了一個(gè)三級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),首先從整體上獲取手的特征,然后從每一根手指的角度獲取局部特征,最后從節(jié)點(diǎn)角度獲取細(xì)化特征。它遵循從全局到局部再到點(diǎn)的認(rèn)識(shí)規(guī)律,其主體結(jié)構(gòu)如圖2所示。其中,T代表大拇指,I為食指,M為中指,R為無名指,P為小指。

        在三級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,主要分三個(gè)階段來提取特征,分別是全局特征提取模塊、局部特征提取模塊和節(jié)點(diǎn)回歸模塊。全局特征提取模塊用于提取手部的全局特征;局部特征提取模塊是根據(jù)手的拓?fù)浣Y(jié)構(gòu)提取不同手指特征;節(jié)點(diǎn)回歸模塊是針對(duì)每一關(guān)節(jié)點(diǎn)提取細(xì)化特征,用于回歸計(jì)算每一個(gè)關(guān)節(jié)點(diǎn)的空間位置。在全局特征提取模塊中輸入96×96大小的3通道圖像,輸出為12×12大小的特征圖,且這個(gè)特征圖作為局部特征提取模塊的輸入;局部特征提取模塊的輸出依然為12×12的特征圖,該特征圖作為節(jié)點(diǎn)回歸模塊的輸入數(shù)據(jù)。文獻(xiàn)[7]研究表明,用點(diǎn)的熱圖監(jiān)督特征的提取是一種有效的辦法。根據(jù)不同的網(wǎng)絡(luò)模塊,本文采用不同大小的熱圖來監(jiān)督特征的提取。

        2.2.1 全局特征提取模塊

        編碼解碼網(wǎng)絡(luò)結(jié)構(gòu)在圖像分割任務(wù)中取得了巨大的成功[24],本文采用了編碼解碼網(wǎng)絡(luò)結(jié)構(gòu)作為全局特征模塊的主體結(jié)構(gòu)。結(jié)合殘差網(wǎng)絡(luò),在編碼解碼的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上加入了 ResNet-50[23]結(jié)構(gòu)。除此之外,本文對(duì)每一殘差模塊的特征進(jìn)行像素級(jí)的加法,極大地豐富了全局特征。

        熱圖是一種監(jiān)督特征提取的有效方法。熱圖由手部節(jié)點(diǎn)的像素坐標(biāo)生成,假設(shè)第i個(gè)節(jié)點(diǎn)在深度圖中的像素坐標(biāo)為(ui,vi),則第i個(gè)節(jié)點(diǎn)的熱圖計(jì)算如下:

        其中:λ0為常數(shù),代表在多大范圍內(nèi)生成熱圖;σ為標(biāo)準(zhǔn)差,在本文中σ設(shè)置為1,每一個(gè)節(jié)點(diǎn)生成的熱圖大小都是24×24。在全局特征提取模塊中,λ0取值為7,7代表以節(jié)點(diǎn)為中心的7×7矩形范圍內(nèi)的值為非零,而其余值為零,其效果如圖3所示。

        2.2.2 局部特征提取模塊

        從手的結(jié)構(gòu)可以看出,關(guān)節(jié)點(diǎn)之間的聯(lián)系是不一樣的,如大拇指上的關(guān)節(jié)點(diǎn)與小指上的關(guān)節(jié)點(diǎn)之間的聯(lián)系相對(duì)較弱,而在同一根手指上關(guān)節(jié)點(diǎn)之間的關(guān)聯(lián)程度比較高。根據(jù)這個(gè)特點(diǎn),本文設(shè)計(jì)了五個(gè)分支的模塊結(jié)構(gòu),每一分支結(jié)構(gòu)如圖4所示。在每一分支結(jié)構(gòu)中采用了文獻(xiàn)[23]的“瓶頸結(jié)構(gòu)”。受到文獻(xiàn)[15,23]的啟發(fā),殘差網(wǎng)絡(luò)和多尺度不同的特征都會(huì)不同程度地提高3D位姿的回歸精確度,因此本文設(shè)計(jì)一個(gè)特殊結(jié)構(gòu)用于提取不同尺寸的特征,即圖4中的多尺度特征結(jié)構(gòu),該結(jié)構(gòu)分為三個(gè)分支:第一分支是利用上采樣對(duì)圖像進(jìn)行放大,然后利用卷積層提取特征,最后利用池化層保持原有特征的尺寸,這個(gè)分支有利于提取更小范圍內(nèi)的特征;第二個(gè)分支與殘差網(wǎng)絡(luò)的想法一致,在這個(gè)分支上不做任何處理,直接利用原有特征,這個(gè)分支的目的是為了保持原有特征;第三個(gè)分支與第一個(gè)分支剛好相反,先采用池化層,然后進(jìn)行卷積層,最后利用上采樣保持原有尺寸的大小,這個(gè)分支主要用于提取更大范圍內(nèi)的特征。最后再將這三個(gè)分支進(jìn)行像素級(jí)的加法操作,以達(dá)到提取不同尺度特征的目的。

        在局部特征提取模塊中,全局特征提取模塊中的輸出特征圖12×12作為該模塊的輸入,并輸出大小為12×12的特征圖。 利用式(6)生成的熱圖監(jiān)督特征的提取,為了更好地監(jiān)督局部特征的提取,該階段熱圖中λ0取值為5。

        2.2.3 節(jié)點(diǎn)回歸模塊

        每一個(gè)節(jié)點(diǎn)有其獨(dú)自的特點(diǎn),在手勢交互中起著不同的作用,對(duì)每一個(gè)節(jié)點(diǎn)構(gòu)建一個(gè)模塊,提取每一個(gè)節(jié)點(diǎn)各自不同的特征。在這一部分網(wǎng)絡(luò)中本文采用了“瓶頸結(jié)構(gòu)”和圖4中的多尺度特征結(jié)構(gòu),然后利用一個(gè)全連接層對(duì)每一節(jié)點(diǎn)的3D位姿進(jìn)行回歸,其結(jié)構(gòu)如圖5所示。

        節(jié)點(diǎn)回歸模塊中,以局部特征提取模塊中的輸出特征圖12×12為輸入數(shù)據(jù),并輸出節(jié)點(diǎn)的3D空間坐標(biāo)。為了更好地提取手指部分的特征,同樣利用式(6)生成的熱圖,但其中λ0設(shè)置為3,是為了更好地關(guān)注局部的特征。為了防止過擬合的現(xiàn)象,在全連接中采用了隨機(jī)剔除算法,其剔除率為0.6。

        2.2.4 損失函數(shù)

        在全局特征提取模塊中,采用熱圖監(jiān)督網(wǎng)絡(luò)提取全局特征。針對(duì)熱圖的損失函數(shù)為

        其中:Lweight為訓(xùn)練參數(shù)的正則化值,α、β及λ為損失函數(shù)權(quán)重值,α和β用于平衡兩種類型的損失函數(shù)值,λ為正則化參數(shù)。

        3 實(shí)驗(yàn)及分析

        3.1 網(wǎng)絡(luò)訓(xùn)練的參數(shù)設(shè)置

        本文利用Adam優(yōu)化算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練。在訓(xùn)練開始時(shí),所有權(quán)重參數(shù)利用零均值的正態(tài)分布進(jìn)行初始化。訓(xùn)練采用初始學(xué)習(xí)率為0.001,隨著訓(xùn)練的進(jìn)行,學(xué)習(xí)率進(jìn)行衰減,其衰減率為0.96。每一次迭代計(jì)算20張圖,在每一個(gè)數(shù)據(jù)集上都訓(xùn)練了110遍。為了防止過擬合,在全連接層中設(shè)置0.6的隨機(jī)剔除率。在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,由于式(7)~(9)代表的是預(yù)測熱圖與實(shí)際熱圖之間的差距,熱圖大小是24×24,每一點(diǎn)的取值為[0,1],且式(7)~(9)都存在J對(duì)預(yù)測熱圖和實(shí)際熱圖,所以總共包含J×24×24對(duì)像素級(jí)的誤差。然而根據(jù)熱圖生成的原理,在實(shí)際熱圖和預(yù)測熱圖中有很多像素值為0,因此在考慮損失函數(shù)權(quán)重值時(shí),每一對(duì)熱圖約以6×6對(duì)非零像素值進(jìn)行考慮。式(10)代表手部關(guān)鍵點(diǎn)的3D坐標(biāo)預(yù)測值與實(shí)際值之間的差距,只包含了J對(duì)預(yù)測值與實(shí)際值之間的差距。綜合所述,損失函數(shù)中的參數(shù)α和β分別設(shè)置為0.03和1,而λ設(shè)置為0.000 01。

        本文的數(shù)值實(shí)驗(yàn)是在TensorFlow平臺(tái)下進(jìn)行的訓(xùn)練和測試,計(jì)算機(jī)顯卡的型號(hào)為GTX 1650。在數(shù)據(jù)集MSRA和NYU上的訓(xùn)練時(shí)間大約花費(fèi)了60 h;在測試階段,模型在單個(gè)GPU上運(yùn)行約為66.9 fps。

        3.2 數(shù)據(jù)集

        本文選擇在兩個(gè)公開的數(shù)據(jù)集NYU和MSRA上進(jìn)行訓(xùn)練、測試和評(píng)價(jià)。

        a)NYU數(shù)據(jù)集[25]是由深度攝像頭從三個(gè)不同的視角收集得到的。它分為訓(xùn)練集和測試集,訓(xùn)練集只拍攝了一個(gè)人,而測試集則來自兩個(gè)人。在整個(gè)數(shù)據(jù)集中標(biāo)注了36個(gè)手部的關(guān)節(jié)點(diǎn)。在大多數(shù)研究中,主要利用了14個(gè)關(guān)節(jié)點(diǎn),本文實(shí)驗(yàn)中也選擇了14個(gè)關(guān)節(jié)點(diǎn)進(jìn)行訓(xùn)練和測試,這樣有利于實(shí)驗(yàn)對(duì)比。

        b)MSRA數(shù)據(jù)集[26]是由深度相機(jī)SR300拍攝得到的,一共有76 500張圖片,并對(duì)手部21個(gè)關(guān)節(jié)點(diǎn)進(jìn)行了標(biāo)注。整個(gè)數(shù)據(jù)集分為9個(gè)目錄,每一個(gè)目錄下17種不同的手勢。在訓(xùn)練的過程中,將第一個(gè)目錄(即P0)作為測試集合,其他目錄(P1~P8)作為訓(xùn)練集。

        3.3 評(píng)價(jià)標(biāo)準(zhǔn)

        本文采用兩個(gè)標(biāo)準(zhǔn)去評(píng)價(jià)手勢3D位置的精確度,第一個(gè)是平均誤差,即手部節(jié)點(diǎn)的預(yù)測值與精確值之間誤差的平均值,即

        3.4 深度圖轉(zhuǎn)變的對(duì)比實(shí)驗(yàn)

        為了評(píng)價(jià)數(shù)據(jù)轉(zhuǎn)變后的效果,本文分別利用了深度圖和轉(zhuǎn)變后的圖像作為輸入數(shù)據(jù)在兩個(gè)數(shù)據(jù)集上分別進(jìn)行訓(xùn)練,并在測試集上進(jìn)行驗(yàn)證,其平均誤差如表1所示。

        從表1可以看出,利用轉(zhuǎn)變后的圖像作為輸入數(shù)據(jù),在一定程度上改善了預(yù)測精度,在NYU數(shù)據(jù)集上由10.88 mm下降到10.53 mm,而在MSRA數(shù)據(jù)集上由8.66 mm下降到了8.03 mm,但在運(yùn)行時(shí)間上沒有顯著的變化。在每一節(jié)點(diǎn)上的平均誤差如圖6(MSRA數(shù)據(jù)集)和7所示(NYU數(shù)據(jù)集)。

        3.5 與當(dāng)前方法進(jìn)行對(duì)比

        為了驗(yàn)證本文方法的有效性,本文將其與目前幾個(gè)較先進(jìn)的方法在兩個(gè)公開的數(shù)據(jù)集上進(jìn)行比較,主要包括以深度圖作為輸入的模型CrossInfoNet[7]、Pose-REN[9]、Ren-9x6x6[10]、Feedback[14]、DeepPrior++[16]、DenseReg[27]、DeepModel[28]、Lie-X[29];另一部分是以點(diǎn)云數(shù)據(jù)作為輸入的模型V2V-PoseNet[19]、HandPointNet[20]、3DCNN[30]、SHPR-Net[31]、Point-to-Point[32]、JGR-P2O[33]、pseudo-3D[34]。這些算法所預(yù)測的結(jié)果和標(biāo)簽值來源于在線資源[35],提供了MSRA數(shù)據(jù)集上所有目錄(P0~P8)的預(yù)測值和NYU數(shù)據(jù)集上測試集合的預(yù)測值,其對(duì)比結(jié)果如表2所示。

        從表2可以看出,本文方法在MSRA數(shù)據(jù)集上表現(xiàn)最優(yōu),但是在NYU數(shù)據(jù)集上的表現(xiàn)不是很好。主要原因在于MSRA數(shù)據(jù)集上的深度圖已經(jīng)剔除了背景的深度值,而NYU數(shù)據(jù)集包含了背景的深度值,影響了回歸的精度。為了能夠進(jìn)一步提高網(wǎng)絡(luò)的預(yù)測精度,可以先對(duì)深度圖像進(jìn)行手勢分割,然后再利用本文方法進(jìn)行手勢估計(jì)。其最終在兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)上的表現(xiàn)如圖8和9所示。

        本文方法及部分方法在兩個(gè)數(shù)據(jù)集上的預(yù)測效果如圖10所示,其中紅色的線代表真實(shí)值,藍(lán)色線代表預(yù)測值(參見電子版)。

        4 實(shí)際場景中的應(yīng)用

        為了驗(yàn)證手勢估計(jì)的實(shí)時(shí)性和有效性,本文利用RGBD深度相機(jī)構(gòu)建出虛擬實(shí)驗(yàn)平臺(tái)[36]。虛擬實(shí)驗(yàn)是學(xué)生通過操作實(shí)驗(yàn)資源而推進(jìn)實(shí)驗(yàn)的,從而產(chǎn)生實(shí)驗(yàn)現(xiàn)象。在虛擬實(shí)驗(yàn)中主要通過手勢識(shí)別技術(shù)操作虛擬實(shí)驗(yàn)器材、虛擬實(shí)驗(yàn)藥品等虛擬物體。為了能夠?qū)崿F(xiàn)像現(xiàn)實(shí)世界一樣的實(shí)驗(yàn)操作,手勢交互需要解決兩個(gè)方面的問題:a)手指在空間中的坐標(biāo)信息,用于判別手是否與虛擬實(shí)驗(yàn)器材發(fā)生碰撞以及碰撞的位置信息等,即手勢估計(jì),本文前面所提出的方法就是解決手勢估計(jì)的方法;b)實(shí)驗(yàn)操作時(shí)的語義信息,即對(duì)虛擬器材進(jìn)行何種操作,如移動(dòng)、拿、放等操作。本文簡化了虛擬實(shí)驗(yàn)的操作,主要考慮了對(duì)物體的抓、放、移動(dòng)。為了理解手勢語義信息,本文采用大拇指末端節(jié)點(diǎn)和食指末端節(jié)點(diǎn)之間的距離來判別手勢語義信息。假設(shè)食指末端節(jié)點(diǎn)的空間坐標(biāo)為p1=(x1,y2,z3),大拇指末端節(jié)點(diǎn)的空間坐標(biāo)為p2=(x2,y2,z2),則手勢的語義定義為

        其中:G=1代表抓物體;0代表釋放物體;d(p1,p2)代表p1與p2的歐幾里德距離;d0是一個(gè)閾值,衡量食指末端節(jié)點(diǎn)與大拇指末端節(jié)點(diǎn)的接近度,當(dāng)食指末端節(jié)點(diǎn)與大拇指末端節(jié)點(diǎn)的距離小于閾值d0時(shí)代表抓住虛擬物體,大于閾值d0時(shí)代表釋放虛擬物體,本文中d0取值為3 cm。本文在中學(xué)化學(xué)鋁熱反應(yīng)的虛擬實(shí)驗(yàn)下進(jìn)行驗(yàn)證,該虛擬實(shí)驗(yàn)利用前文提出的手勢估計(jì)方法對(duì)手部節(jié)點(diǎn)進(jìn)行估計(jì),從而判別出手是否與虛擬物體發(fā)生碰撞,然后利用式(14)識(shí)別手勢的語義信息,最終達(dá)到人機(jī)交互的目的。圖11中分別顯示操作虛擬物體的情形。

        5 結(jié)束語

        隨著人工智能的發(fā)展,手勢交互受到越來越廣泛的關(guān)注,然而在手勢交互中估計(jì)手部關(guān)節(jié)點(diǎn)仍然是一個(gè)挑戰(zhàn)的問題。在本文中,根據(jù)手的拓?fù)浣Y(jié)構(gòu)建立一個(gè)三級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其主要包含三部分:a)全局特征提取模塊,主要用于提取手部的全局特征;b)局部特征提取模塊,用于提取不同手指的特征;c)點(diǎn)的特征提取模塊,用于提取每一關(guān)節(jié)點(diǎn)獨(dú)有的特征。通過從粗到細(xì)的結(jié)構(gòu)提取不同程度的特征,從而提高神經(jīng)網(wǎng)絡(luò)的精度。另外,2D卷積核直接利用的是深度圖的深度信息,不能直接利用x軸和y軸方向的信息。為了彌補(bǔ)這一缺陷,本文利用相機(jī)成像原理將深度圖轉(zhuǎn)換為3通道的圖像,其中既包含了深度信息,也包含了x軸和y軸方向的信息,這樣能夠直接利用2D卷積核計(jì)算x軸和y軸方向的信息。雖然增加了數(shù)據(jù)的輸入,但是其計(jì)算復(fù)雜度并沒有成倍地增加。數(shù)值實(shí)驗(yàn)表明,這種轉(zhuǎn)變是有效的,能夠有效地提高網(wǎng)絡(luò)回歸的精度。

        參考文獻(xiàn):

        [1]Supancic J S,Rogez G,Yang Yi,et al.Depth-based hand pose estimation:methods,data,and challenges[J].International Journal of Computer Vision,2018,126(4):1180-1198.

        [2]Ahmad A,Migniot C,Dipanda A.Hand pose estimation and tracking in real and virtual interaction:a review[J].Image and Vision Computing,2019,89(9):35-49.

        [3]Wang K R,Xiao Bingjia,Xia J Y,et al.A real-time vision-based hand gesture interaction system for virtual EAST[J].Fusion Engineering and Design,2016,112(11):829-834.

        [4]Karambakhsh A,Kamel A,Sheng Bin,et al.Deep gesture interaction for augmented anatomy learning[J].International Journal of Information Management,2019,45(4):328-336.

        [5]Deng Xiaoming,Yang Shuo,Zhang Yinda,et al.Hand3D:hand pose estimation using 3D neural network[EB/OL].(2017-04-07).https://arxiv.org/pdf/1704.02224.pdf.

        [6]Che Yunlong,Song Yuxiang,Qi Yue.A novel framework of hand loca-lization and hand pose estimation[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2019:2222-2226.

        [7]Du Kuo,Lin Xiangbo,Sun Yi,et al.CrossInfoNet:multi-task information sharing based hand pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9896-9905.

        [8]Sinha A,Choi C,Ramani K.DeepHand:robust hand pose estimation by completing a matrix imputed with deep features[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:4150-4158.

        [9]Chen Xinghao,Wang Guijin,Guo Hengkai,et al.Pose guided structured region ensemble network for cascaded hand pose estimation[J].Neurocomputing,2020,395(6):138-149.

        [10]Guo Hengkai,Wang Guijin,Chen Xinghao,et al.Region ensemble network:improving convolutional network for hand pose estimation[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2017:4512-4516.

        [11]Zhou Yidan,Lu Jian,Du Kuo,et al.HBE:hand branch ensemble network for real-time 3D hand pose estimation[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:521-536.

        [12]Zimmermann C,Brox T.Learning to estimate 3D hand pose from single RGB images[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:4913-4921.

        [13]Ge Liuhao,Ren Zhou,Li Yuncheng,et al.3D hand shape and pose estimation from a single RGB image[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:10825-10834.

        [14]Oberweger M,Wohlhart P,Lepetit V.Training a feedback loop for hand pose estimation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:3316-3324.

        [15]Oberweger M,Wohlhart P,Lepetit V.Hands deep in deep learning for hand pose estimation[C]//Proc of the 20th Computer Vision Winter Workshop.2015:21-30.

        [16]Oberweger M,Lepetit V.DeepPrior++:improving fast and accurate 3D hand pose estimation[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:585-594.

        [17]Choi C,Kim S,Ramani K.Learning hand articulations by hallucinating heat distribution[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3104-3113.

        [18]Kazakos E,Nikou C,Kakadiaris I A.On the fusion of RGB and depth information for hand pose estimation[C]//Proc of the 25th IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2018:868-872.

        [19]Chang J Y,Moon G,Lee K M.V2V-PoseNet:voxel-to-voxel prediction network for accurate 3D hand and human pose estimation from a single depth map[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5079-5088.

        [20]Ge Liuhao,Cai Yujun,Weng Junwu, et al.HandPointNet:3D hand pose estimation using point sets[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8417-8426.

        [21]Malik J,Abdelaziz I,Elhayek A, et al.HandVoxNet:deep voxel-based network for 3D hand shape and pose estimation from a single depth map[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:7113-7122.

        [22]Ahmad A,Migniot C,Dipanda A.Hand pose estimation and tracking in real and virtual interaction:a review[J].Image and Vision Computing,2019,89(9):35-49.

        [23]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.

        [24]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.

        [25]Tompson J,Stein M,LeCun Y,et al.Real-time continuous pose reco-very of human hands using convolutional networks[J].ACM Trans on Graphics,2014,33(5):article No.169.

        [26]Sun Xiao,Wei Yichen,Liang Shuang,et al.Cascaded hand pose regression[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:824-832.

        [27]Wan Chengde,Probst T,Van Gool L,et al.Dense 3D regression for hand pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5147-5156.

        [28]Zhou Xingyi,Wan Qingfu,Zhang Wei,et al.Model-based deep hand pose estimation[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto,PA:AAAI Press,2016:2421-2427.

        [29]Xu Chi,Govindarajan L N,Zhang Yu,et al.Lie-X:depth image based articulated object pose estimation,tracking,and action recognition on lie groups[J].International Journal of Computer Vision,2017,123(7):454-478.

        [30]Ge Liuhao,Liang Hui,Yuan Junsong,et al.3D convolutional neural networks for efficient and robust hand pose estimation from single depth images[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2017:5679-5688.

        [31]Chen Xinghao,Wang Guijin,Zhang Cairong,et al.SHPR-Net:deep semantic hand pose regression from point clouds[J].IEEE Access,2018,6:43425-43439.

        [32]Ge Liuhao,Ren Zhou,Yuan Junsong.Point-to-point regression PointNet for 3D hand pose estimation[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:489-505.

        [33]Fang Linpu,Liu Xingyan,Liu Li,et al.JGR-P2O:joint graph reasoning based pixel-to-offset prediction network for 3D hand pose estimation from a single depth image[C]//Proc of the 16th European Conference on Computer Vision.Cham:Springer,2020:120-137.

        [34]張宏源,袁家政,劉宏哲,等.基于偽三維卷積神經(jīng)網(wǎng)絡(luò)的手勢姿態(tài)估計(jì)[J].計(jì)算機(jī)應(yīng)用研究,2020,37(4):1230-1233,1243.(Zhang Hongyuan,Yuan Jiazheng,Liu Hongzhe,et al.Hand pose estimation using pseudo-3D convolutional neural network[J].Application Research of Computers,2020,37(4):1230-1233,1243.)

        [35]https://github.com/xinghaochen/awesome-hand-pose-estimation/tree/master/evaluation[DB/OL].

        [36]鄒序焱,何漢武,吳悅明,等.基于手勢交互的虛實(shí)融合實(shí)驗(yàn)仿真技術(shù)[J].系統(tǒng)仿真學(xué)報(bào),2021,33(10):2488-2498.(Zou Xuyan,He Hanwu,Wu Yueming,et al.Virtual and real fusion experiment simulation technology based on hand gesture interaction[J].Journal of System Simulation,2021,33(10):2488-2498.)

        成人欧美在线视频| 日本美女性亚洲精品黄色| 色综久久综合桃花网国产精品| 综合久久加勒比天然素人| 日本精品视频二区三区| 丰满女人猛烈进入视频免费网站| 亚洲国产精品久久电影欧美| 亚洲日韩一区二区一无码| 国产麻豆精品一区| 97人妻熟女成人免费视频| 国产一级特黄无码免费视频| 久久国产av在线观看| av中文字幕一区人妻| 青青草视频在线观看色| 久久影院午夜理论片无码| 东北寡妇特级毛片免费| 亚洲欧美日韩在线观看一区二区三区 | 少妇连续高潮爽到抽搐| 国产私人尤物无码不卡| 影视先锋av资源噜噜| 1000部拍拍拍18勿入免费视频下载 | 天天爽夜夜爽夜夜爽精品视频| 青春草在线视频免费观看| 久久99久久99精品免观看| 99久久久国产精品免费蜜臀| 色www亚洲| 亚洲精品2区在线观看| 精品视频一区二区三区日本| 国精品午夜福利视频不卡| 国产毛片视频网站| 狠狠躁夜夜躁人人爽天天不卡| 一本久久伊人热热精品中文| 最新中文字幕人妻少妇| 无码国产精品久久一区免费| 初尝黑人嗷嗷叫中文字幕| 日本精品免费一区二区三区| 亚洲乱码中文字幕综合69堂| 亚洲成人av大片在线观看| 久久精品99国产精品日本| 亚洲国产天堂一区二区三区| 8888四色奇米在线观看|