亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        手勢識別技術(shù)研究

        2024-11-25 00:00:00張會影圣文順周子倡袁海榮
        物聯(lián)網(wǎng)技術(shù) 2024年11期
        關(guān)鍵詞:模態(tài)深度模型

        摘 要:手勢識別是目前計算機科學(xué)領(lǐng)域的熱門研究課題之一。3D手勢識別是利用相機、傳感器和算法分析等技術(shù),對三維空間內(nèi)的動態(tài)或靜態(tài)手勢進行姿態(tài)分析,從而實現(xiàn)對手勢行為的理解和識別。與2D手勢識別相比,3D手勢識別能夠更準(zhǔn)確地捕捉和分析手部動作的位置、方向等信息,在各種應(yīng)用領(lǐng)域?qū)崿F(xiàn)更自然、直觀的人機交互。文中介紹了3D手勢識別的研究意義、應(yīng)用領(lǐng)域、國內(nèi)外研究現(xiàn)狀、識別方法及未來發(fā)展方向,以期為手勢識別研究的初學(xué)者提供參考。

        關(guān)鍵詞:深度學(xué)習(xí);手勢識別;3D深度圖片;剛性骨架模型;柔性骨架模型;多模態(tài)和多視角

        中圖分類號:TP391.41 文獻標(biāo)識碼:A 文章編號:2095-1302(2024)11-00-03

        0 引 言

        3D手勢識別是識別手在三維空間中的姿態(tài)的過程,其主要通過測量并描述手部各關(guān)節(jié)在三維空間中的位置來實

        現(xiàn)[1-2]。3D手勢識別的提出源于人們對人機交互方式自然、直觀的追求。傳統(tǒng)的人機交互方式,如鍵盤、觸摸屏等,雖然已經(jīng)發(fā)展得非常成熟,但仍然存在一些局限,如需要物理接觸、操作不夠直觀等。為了克服這些限制,研究人員開始探索使用手勢來進行人機交互。最早的手勢識別系統(tǒng)可以追溯到20世紀(jì)80年代,當(dāng)時主要使用2D攝像頭和計算機視覺算法來捕捉和識別手勢。然而,這種方法僅能對手勢的平面運動進行識別,無法獲取手勢的深度信息。隨著深度相機(如Microsoft Kinect)的問世,3D手勢識別得以實現(xiàn)。目前,3D手勢識別的研究在國內(nèi)外尚處于起步階段,但已吸引了很多國內(nèi)外著名學(xué)者和技術(shù)公司的關(guān)注,如微軟公司正在研究基于3D手勢的跟蹤系統(tǒng)等。

        1 3D手勢識別的應(yīng)用

        3D手勢識別在以下幾個領(lǐng)域得到了廣泛的應(yīng)用[3-4]:

        (1)電子消費領(lǐng)域。對電子產(chǎn)品如手機、平板電腦的非接觸操作。

        (2)軍事領(lǐng)域。遠程對機器人、無人飛機發(fā)出手部控制指令。

        (3)輔助控制領(lǐng)域。自動駕駛中通過手勢對汽車進行控制或自動識別特殊手勢,例如識別警察做出的停車手勢。

        (4)輔助醫(yī)療領(lǐng)域。遠程手術(shù)中通過手勢識別進行精細(xì)操作,將聾啞人手語自動識別轉(zhuǎn)化成對應(yīng)的文本或語音信號。

        準(zhǔn)確估計手的姿勢對于許多應(yīng)用至關(guān)重要。隨著技術(shù)的不斷進步和創(chuàng)新,將會有更多的領(lǐng)域和場景與3D手勢識別相結(jié)合,為用戶帶來更便捷、智能和沉浸式體驗。但人手時常做出精細(xì)微小的動作,且手具有更高的自由度,因此很難準(zhǔn)確識別手的姿勢。

        2 國內(nèi)外研究現(xiàn)狀和方法

        目前,手勢識別在國內(nèi)外尚處于研究起步階段。大多數(shù)工作是基于3D深度圖片(Depth Image)來進行手勢識別。不同于傳統(tǒng)2D圖像(彩色圖像或灰度圖像),深度圖片中每個點的數(shù)值代表現(xiàn)實3D空間中的對應(yīng)點到攝像頭的距離。通過評估深度圖像中每個點的空間位置關(guān)系才能準(zhǔn)確確定手部各關(guān)節(jié)的位置。傳統(tǒng)的2D圖像中廣泛應(yīng)用的特征并不適合用到3D圖像中。為了解決深度圖像中手勢識別的問題,文獻[5]通過比較局部不同位置的深度值大小來描述3D物體的變化,這種局部特征簡單且有效,在3D手勢識別中取得了初步成功。

        一些研究中考慮采用結(jié)構(gòu)化的方法來描述各關(guān)節(jié)的空間位置關(guān)系進而識別手勢。結(jié)構(gòu)化的方法是將手部各關(guān)節(jié)表示成一個樹狀結(jié)構(gòu),如手腕的關(guān)節(jié)是根節(jié)點,從根節(jié)點出發(fā)延伸出不同的樹枝來代表不同的手指關(guān)節(jié)。文獻[6]提出了一種采用級聯(lián)方式的手勢回歸方法,其先用回歸方法估計手掌中心的關(guān)節(jié)坐標(biāo),然后基于此依次估計每個手指的關(guān)節(jié)坐標(biāo)。文獻[7]提出了一種層級式的手勢識別方法,將所有關(guān)節(jié)視作一個運動鏈,在運動鏈中每個關(guān)節(jié)的位置都取決于前一個關(guān)節(jié)。沿著運動鏈逐個估計每個關(guān)節(jié)的位置,進而得到最終的手勢。層級式方法在考慮到手部結(jié)構(gòu)的同時,往往按一定空間順序(沿著運動鏈)估計每個關(guān)節(jié)的位置,而不是將所有關(guān)節(jié)作為一個有機整體考慮。

        文獻[8-9]提出了基于模型的手勢識別方法。基于模型的方法不直接預(yù)測關(guān)節(jié)的3D坐標(biāo),而是通過描述關(guān)節(jié)之間的空間約束關(guān)系來預(yù)測坐標(biāo)位置。在這種約束關(guān)系中考慮到了某些關(guān)節(jié)是分布在同根手指上的,而不同手指的關(guān)節(jié)是沒有空間聯(lián)系的。通過顯式地描述關(guān)節(jié)之間的關(guān)系,基于模型的方法進一步提高了手勢的預(yù)測精度。文獻[8]利用剛性骨架模型來約束關(guān)節(jié)之間的關(guān)系,并用隨機森林算法來預(yù)測骨架模型參數(shù),進而計算關(guān)節(jié)的3D坐標(biāo)。剛性骨架模型中,不同手指的關(guān)節(jié)被認(rèn)為是分布在多條不同的運動鏈上,每個關(guān)節(jié)的坐標(biāo)取決于同一個運動鏈上所有關(guān)節(jié)的之前位置,通過約束關(guān)節(jié)之間的相對活動范圍(角度)來縮小3D坐標(biāo)的搜索范圍。剛性骨架模型的骨架結(jié)構(gòu)是一定的,不同手勢只能通過關(guān)節(jié)的旋轉(zhuǎn)來產(chǎn)生,關(guān)節(jié)的3D位置是通過精確預(yù)測骨骼的相對方向來獲得的。而這種方法只能對同一個人的手勢進行準(zhǔn)確的姿勢估計,對于不同的手需要通過一些專門的處理,如尺度變換,才能得到比較好的結(jié)果。雖然剛性骨架模型需要的參數(shù)比較少(只考慮關(guān)節(jié)方向而不用考慮手掌手指的大?。?,但是對其的運用缺少靈活性。

        為了解決剛性骨架模型的3D手勢識別方法中存在的問題,文獻[10]提出基于柔性骨架模型的手勢識別方法,在柔性骨架模型中每個手指(腕部)上的關(guān)節(jié)構(gòu)成一個運動鏈。在每個運動鏈上用傳輸矩陣來表示相鄰關(guān)節(jié)之間的關(guān)系,如圖1所示,其中圓點代表需要估計的關(guān)節(jié)。

        白色關(guān)節(jié)代表根節(jié)點,所有關(guān)節(jié)組成樹狀結(jié)構(gòu)。每個手指(腕部)上的關(guān)節(jié)構(gòu)成一個運動鏈,采用傳輸矩陣表示相鄰關(guān)節(jié)之間的關(guān)系,表達式為:

        (1)

        式中:x, y∈R3×1為相鄰2個關(guān)節(jié)的3D坐標(biāo);C∈R4×4為傳輸矩陣,用來描述2個關(guān)節(jié)之間的任意方向及距離的變化。運動鏈上的任意一個關(guān)節(jié)坐標(biāo)均可以根據(jù)之前的傳輸矩陣從根節(jié)點計算得到。為了靈活地表示任意手勢變化,在柔性骨架模型中,傳輸矩陣中所有的系數(shù)是可變的。

        隨著深度學(xué)習(xí)在3D圖像識別中的成功應(yīng)用,研究者嘗試應(yīng)用深度學(xué)習(xí)算法來提取3D手勢圖像特征[11-13]。在基于深度學(xué)習(xí)的方法中,將整張3D深度圖像用作卷積神經(jīng)網(wǎng)絡(luò)(CNN)的輸入,通過監(jiān)督學(xué)習(xí),CNN可以自動學(xué)習(xí)到適合手勢圖像的有效特征。與傳統(tǒng)定義的局部特征相比,運用深度學(xué)習(xí)的方法識別度更高。同時,深度學(xué)習(xí)還提供了便捷的端對端(end-to-end)解決方案[13]。

        目前,在深度學(xué)習(xí)模型中融合2D/3D多模態(tài)和多視角圖像數(shù)據(jù)的手勢識別方法在3D手勢識別領(lǐng)域引起重視。一方面,在3D手勢圖像數(shù)據(jù)采集的過程中,2D圖像往往會隨之產(chǎn)生。另外,目前大多數(shù)圖像采集設(shè)備還是2D的,專業(yè)的3D圖像采集設(shè)備由于價格昂貴還未普及。盡管2D圖像本身并不能有效估計手勢,但作為3D圖像數(shù)據(jù)的補充,起到了很大的作用。另一方面,現(xiàn)有的手勢識別往往采用一個視角的圖像數(shù)據(jù)而忽視了不同視角圖像的作用。利用同一個手勢的多視角圖像相互補充,更利于改善圖像識別效果。文獻[14]針對2D和3D不同模態(tài)不同視角的手勢圖像,通過CNN訓(xùn)練得到了一個有效的特征,并將特征進行最終融合得到3D手勢的全局特征。采用深度學(xué)習(xí)框架,將多模態(tài)多視角圖像數(shù)據(jù)融合是當(dāng)前3D手勢識別中的主流方法。

        2D/3D多模態(tài)和多視角圖像手勢識別方案如圖2所示。其中,輸入是同一個手勢的2種不同模態(tài)(2D/3D)、多個不同視角的圖像,輸出為所有關(guān)節(jié)的3D坐標(biāo),即3D手勢。在輸入端,每個通道的圖像作為一個深度學(xué)習(xí)模型的輸入。深度學(xué)習(xí)模型可以是深度卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)等。CNN是目前應(yīng)用最廣泛也是最直接的方法;LSTM適合用來處理序列信號,這與關(guān)節(jié)之間存在的空間序列性相吻合。深度學(xué)習(xí)模型的輸出將被進一步融合來預(yù)測骨架模型的參數(shù)。多視角學(xué)習(xí)模塊輸出代表當(dāng)前模態(tài)的特征,表達式為:

        output=g(f1(I1)+f2(I2)+ ... +fN(IN))" " " " " " " " " " "(2)

        式中:f代表不同的深度學(xué)習(xí)模型;I代表不同視角的輸入圖像;g代表多視角學(xué)習(xí)模塊的函數(shù),一般為非線性函數(shù)。f和g從訓(xùn)練集學(xué)習(xí)得到。2個模態(tài)的多視角學(xué)習(xí)模塊分別輸出output2D和output3D。多模態(tài)融合模塊采用類似的方法對2個不同模態(tài)的特征進行融合,表達式為:

        skeleton=h1[h2(output2D)+h3(output3D)]" " " " " " " " (3)

        式中:h1、h2、h3為非線性函數(shù),從訓(xùn)練集學(xué)習(xí)得到。多模態(tài)融合模塊的輸出skeleton為骨架模型的參數(shù)。由于輸入中包含多張3D圖像,算法可以從圖像中學(xué)習(xí)得到完整的3D手勢信息。

        3 3D手勢識別發(fā)展方向

        3D手勢識別技術(shù)在未來將持續(xù)發(fā)展,并在各個領(lǐng)域展現(xiàn)出廣闊的應(yīng)用前景。列出3D手勢識別技術(shù)的未來發(fā)展方向如下:

        (1)精確性提升。當(dāng)前的3D手勢識別技術(shù)仍存在一定的識別精度低的問題。未來通過深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等不斷提升算法的準(zhǔn)確性,將實現(xiàn)更精確的手勢識別。

        (2)多模態(tài)感知。將3D手勢識別與其他傳感器技術(shù)結(jié)合,如眼動追蹤、聲音識別、面部表情分析等,可以實現(xiàn)更全面的多模態(tài)感知,提供更豐富的交互方式和更好的用戶體驗。

        (3)實時性和低延遲。對于虛擬現(xiàn)實游戲和醫(yī)療手術(shù)模擬等手勢識別場景,未來的發(fā)展方向?qū)⒕劢褂趦?yōu)化算法和硬件設(shè)備,以實現(xiàn)更快的響應(yīng)速度和更低的延遲。

        (4)手勢識別與機器學(xué)習(xí)相結(jié)合。通過機器學(xué)習(xí)算法,不僅可以實現(xiàn)更準(zhǔn)確的手勢識別,還可以根據(jù)用戶的個性化需求和習(xí)慣優(yōu)化交互方式,實現(xiàn)更智能化的交互體驗。

        (5)更多的應(yīng)用領(lǐng)域。3D手勢識別已經(jīng)在虛擬現(xiàn)實、增強現(xiàn)實等領(lǐng)域得到應(yīng)用。未來還將在智能家居、智能交通、醫(yī)療輔助、教育等領(lǐng)域發(fā)揮更大的作用。

        總之,3D手勢識別技術(shù)在未來有著廣闊的發(fā)展前景。隨著算法、硬件設(shè)備和技術(shù)的不斷發(fā)展和改進,期待更精確、實時和智能的3D手勢識別系統(tǒng)的出現(xiàn),并且為各個領(lǐng)域帶來更多創(chuàng)新和便利。

        4 結(jié) 語

        總的來講,手勢識別在人機交互領(lǐng)域有著廣泛的應(yīng)用前景。3D手勢識別方法中需要解決的主要問題為如何有效地描述關(guān)節(jié)之間的結(jié)構(gòu)信息。已有的結(jié)構(gòu)化手勢識別方法往往基于一些假設(shè),如手指的長度一定或是手指只能在一定范圍內(nèi)活動,從而限制了手勢識別的應(yīng)用范圍。另外,大多數(shù)方法只考慮單張3D圖像的手勢識別問題,而沒有有效利用廣泛存在的2D圖像及多視角圖像數(shù)據(jù)。針對這些問題,已有研究提出了柔性骨架模型來靈活地描述任意大小、不同方向的手勢變化,并采用深度學(xué)習(xí)算法來學(xué)習(xí)骨架模型參數(shù)。同時,考慮從不同模態(tài)不同視角的圖像中提取更豐富的信息來輔助手勢識別。

        參考文獻

        [1]徐飛,鄒壽春.基于計算機視覺技術(shù)和支持向量機的手勢識別算法研究[J].佳木斯大學(xué)學(xué)報(自然科學(xué)版),2023,41(1):29-33.

        [2]趙明宇,苗玉彬.基于RGB-D視頻序列的動態(tài)手勢識別[J].機械設(shè)計與研究,2023,39(4):27-31.

        [3]趙雅琴,宋雨晴,吳晗,等.基于DenseNet和卷積注意力模塊的高精度手勢識別[J].電子與信息學(xué)報,2024,46(3):967-976.

        [4]袁文濤,衛(wèi)文韜,高德民.融合注意力機制的多視圖卷積手勢識別研究[J].計算機工程,2004,50(3):208-215.

        [5] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classi?cation with deep convolutional neural networks [C]// Proceedings of Advances in Neural Information Processing Systems.[S.l.]: [s.n.], 2012: 1097-1105.

        [6] SUN X, WEI Y, LIANG S, et al. Cascaded hand pose regression [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015: 824-832.

        [7] TANG D, TAYLOR J, KOHLI P, et al. Opening the black box:" Hierarchical sampling optimization for estimating human hand pose [C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015: 3325-3333.

        [8] XU C, GOVINDARAJAN L N, ZHANG Y, et al. Lie-X: Depth image based articulated object pose estimation, tracking, and action recognition on Lie groups [J]. International journal of computer vision, 2016, 123(3), 1-25.

        [9] ZHOU X, WAN Q, ZHANG W, et al. Model based deep hand pose estimation [J]. International joint conference on artificial intelligence, 2016: 9511016.

        [10] GE L, LIANG H, YUAN J, et al. Thalmann, robust 3D hand pose estimation in single depth images: from single-view CNN to multi-view CNNs [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA:IEEE, 2016:3593-3601.

        [11]劉杰,王月,田明.多尺度時空特征融合的動態(tài)手勢識別網(wǎng)絡(luò)[J].電子與信息學(xué)報,2023,45(7):2614-2622.

        [12]毛力,張藝楠,孫俊.融合注意力與時域多尺度卷積的手勢識別算法[J].計算機應(yīng)用研究,2022,39(7):2196-2202.

        [13]顧明,李軼群,張二超,等.可分離長短期注意力網(wǎng)絡(luò)的手勢識別方法[J].計算機應(yīng)用,2022,42(z1):59-63.

        [14] ZHANG Y, MI S, WU J X, et al. Simultaneous 3D hand detection and pose estimation using single depth images [J]. Pattern recognition letters, 2020, 140: 43-48.

        作者簡介:張會影(1981—),女,副教授,主要研究方向為計算機視覺、圖像處理和深度學(xué)習(xí)。

        圣文順(1979—),男,副教授,主要研究方向為計算機視覺、圖像處理和人工智能。

        收稿日期:2023-11-21 修回日期:2023-12-19

        基金項目:2023年度江蘇高校哲學(xué)社會科學(xué)研究項目(2023SJYB 0687);南京工業(yè)大學(xué)浦江學(xué)院2022教改重中之重項目(2022JG001Z);南京工業(yè)大學(xué)浦江學(xué)院自然科學(xué)重點培育項目(njpj2022-1-06);南京工業(yè)大學(xué)浦江學(xué)院2020重點精品課程《數(shù)據(jù)庫原理與應(yīng)用》項目研究成果之一;江蘇省高校自然科學(xué)研究項目(19KJD520005);江蘇省高校“青藍工程”項目(蘇教師函[2021]11號)

        猜你喜歡
        模態(tài)深度模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        深度觀察
        深度觀察
        深度觀察
        3D打印中的模型分割與打包
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        抽插丰满内射高潮视频| 日本国产在线一区二区| 求网址日韩精品在线你懂的| 免费人成视频网站在在线| 国产无吗一区二区三区在线欢| 国产suv精品一区二区69| 亚洲无线码1区| 蜜桃在线高清视频免费观看网址| 日本久久精品视频免费| 亚洲综合av永久无码精品一区二区 | 亚洲av少妇高潮喷水在线| 麻豆av一区二区三区| 一个人看的www免费视频中文| 国产成人丝袜在线无码| 精品国产一区二区三区香| 中文字幕日韩三级片| 大学生被内谢粉嫩无套| 3亚洲日韩在线精品区| 美腿丝袜日韩在线观看| 国产免费爽爽视频在线观看| 五十路熟女一区二区三区| 69搡老女人老妇女老熟妇| 男女做羞羞事的视频网站| 久久亚洲av无码西西人体| 麻豆国产高清精品国在线| 久久夜色精品国产九色| 国产情侣自拍一区视频| 污污内射在线观看一区二区少妇 | 日韩精品永久免费播放平台| 国产一区二区三区探花| 无码一区二区三区| 色欲av亚洲一区无码少妇| 爆乳无码AV国内| 亚洲一区二区刺激的视频| 狠狠躁日日躁夜夜躁2022麻豆| 中国熟妇人妻xxxxx| 波多野结衣一区二区三区视频| 中文字幕在线亚洲精品一区| 午夜精品久久久久久久99热| 国产高潮刺激叫喊视频| 99热这里只有精品国产66|