亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)的視覺(jué)手部姿態(tài)追蹤系統(tǒng)*

        2021-01-18 03:56:12陳永樂(lè)陳偉全嚴(yán)繼超李武初
        機(jī)電工程技術(shù) 2020年12期
        關(guān)鍵詞:三維空間三維重建關(guān)鍵點(diǎn)

        肖 金,翟 倩,陳永樂(lè),張 彬,陳偉全,嚴(yán)繼超,李武初

        (廣東工業(yè)大學(xué)華立學(xué)院,廣州 511325)

        0 引言

        手部交互是目前計(jì)算機(jī)圖像處理中的重要研究?jī)?nèi)容。手語(yǔ)識(shí)別,社交互動(dòng),虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中,手是人機(jī)交互的主要輸入設(shè)備[1-2]。目前的二維手部關(guān)鍵點(diǎn)識(shí)別及手部姿態(tài)追蹤相關(guān)研究已日趨成熟。如過(guò)去通過(guò)傳統(tǒng)圖像算法,如膚色分割,掌心分割等來(lái)實(shí)現(xiàn)手部區(qū)域的分割,但這種處理方法的依賴靜態(tài)的圖像處理,對(duì)圖像的彩色空間(RGB,HSI)等要求甚高。其次是依賴特征點(diǎn)提出,通過(guò)提出手部相關(guān)特征進(jìn)行識(shí)別,一旦手部特征缺失,識(shí)別準(zhǔn)確度就大幅下降[3]。并且這類傳統(tǒng)的手勢(shì)識(shí)別算法對(duì)雙手遮擋交互、障礙物遮擋、夜間、強(qiáng)光照等環(huán)境下的識(shí)別問(wèn)題難以解決。隨著人工智能的發(fā)展,越來(lái)越多的手勢(shì)識(shí)別算法引入了深度神經(jīng)網(wǎng)絡(luò),通過(guò)各種環(huán)境下采集的數(shù)據(jù)集進(jìn)行訓(xùn)練,大幅度提高了在遮擋,日夜光線等苛刻環(huán)境下的識(shí)別準(zhǔn)確度,由此二維的手部追蹤算法日趨完善[4-5]。但是二維的手部追蹤僅有兩個(gè)維度的信息,交互僅停留在平面階段,從而無(wú)法實(shí)現(xiàn)在空間中對(duì)手部的位置進(jìn)行定位,而許多手部的交互動(dòng)作是縱深的,如手語(yǔ)交流中的許多動(dòng)作,影音娛樂(lè)中的動(dòng)作捕捉,虛擬現(xiàn)實(shí)中的交互等,二維手部追蹤中缺失的第三維度信息就難以解決這些問(wèn)題。而且通過(guò)二維的圖像去預(yù)測(cè)三維的手部姿態(tài)非常困難,因?yàn)槭植康哪w色相似,從三維空間中辨認(rèn)手部關(guān)鍵點(diǎn)非常困難,其次手部動(dòng)作中非常容易產(chǎn)生遮擋問(wèn)題[6-8]。許多非視覺(jué)的研究中研究采用慣性傳感器解決遮擋問(wèn)題,但在普通RGB相機(jī)中就非常困難[9]。

        由于實(shí)現(xiàn)具備空間定位及SLAM 信息的三維手部模型重建需要三維度數(shù)據(jù),而普通的RGB 相機(jī)僅能獲取二維數(shù)據(jù)。本文對(duì)普通RGB相機(jī)如何實(shí)現(xiàn)二維升三維的重建及對(duì)某一特征的識(shí)別與追蹤進(jìn)行研究,從而實(shí)現(xiàn)了三維視覺(jué)手部追蹤。

        1 神經(jīng)網(wǎng)絡(luò)模塊設(shè)計(jì)

        1.1 總網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

        圖1 神經(jīng)網(wǎng)絡(luò)架構(gòu)圖

        如圖1所示,整個(gè)神經(jīng)網(wǎng)絡(luò)由3個(gè)網(wǎng)絡(luò)塊構(gòu)建成,輸入的圖像在手部位置分割網(wǎng)絡(luò)中定位手部在整個(gè)圖像中的位置,然后將輸出圖像經(jīng)過(guò)裁剪和尺寸變換并將手部位置放大輸入到下層的二維手部關(guān)鍵點(diǎn)識(shí)別網(wǎng)絡(luò)中。放大后的手部圖輸入到二維手部關(guān)鍵點(diǎn)識(shí)別網(wǎng)絡(luò)中,經(jīng)過(guò)計(jì)算輸出圖像中的手部21 個(gè)骨骼關(guān)鍵點(diǎn)的位置,在手勢(shì)識(shí)別的相關(guān)研究中,得出通過(guò)手部21 個(gè)關(guān)鍵點(diǎn)即可確定手部的位置。第3 層的二維轉(zhuǎn)三維網(wǎng)絡(luò)是整個(gè)神經(jīng)網(wǎng)絡(luò)的核心,它需要兩個(gè)輸入:第一個(gè)輸入是原圖像通過(guò)雙目立體匹配算法計(jì)算后轉(zhuǎn)換的深度圖,圖像中包含深度數(shù)據(jù),可以通過(guò)矩陣變換轉(zhuǎn)換成距離信息;第二個(gè)輸入是二維手部關(guān)鍵點(diǎn)識(shí)別的結(jié)果。通過(guò)兩個(gè)輸入,將手部關(guān)鍵點(diǎn)結(jié)果賦值在深度圖上,輸出21個(gè)關(guān)鍵點(diǎn)的深度信息,然后在網(wǎng)絡(luò)中進(jìn)行匹配運(yùn)算,預(yù)測(cè)在三維空間中最有可能的關(guān)鍵點(diǎn)坐標(biāo)位置(xi,yi,zi),然后將這些坐標(biāo)位置通過(guò)矩陣變換進(jìn)行三維重建,得到三維空間中的手部位置。

        1.2 手部位置分割網(wǎng)絡(luò)

        手部位置分割網(wǎng)絡(luò)是圖像分割網(wǎng)絡(luò),原理主要是通過(guò)一些手部姿態(tài)數(shù)據(jù)訓(xùn)練集進(jìn)行訓(xùn)練,這些被當(dāng)成是圖像位置切割的樣本,在圖像輸入的時(shí)候,檢測(cè)輸入圖像中手部位置并將其分割出來(lái)。

        該網(wǎng)絡(luò)中的輸入主要是經(jīng)普通圖像輸入后矩陣變換處理后的張量,數(shù)據(jù)類型為tf.float32,及訓(xùn)練中用于判斷真假的樣本權(quán)重train。網(wǎng)絡(luò)的輸出為輸入圖像中分割出來(lái)手部位置的得分圖,輸出得分最高的手部位置float32 張量,并且將其分割出來(lái)生成新圖像輸入到下層網(wǎng)絡(luò)中。

        1.3 二維手部關(guān)鍵點(diǎn)識(shí)別網(wǎng)絡(luò)

        二維手部關(guān)鍵點(diǎn)識(shí)別網(wǎng)絡(luò)是圖像識(shí)別網(wǎng)絡(luò),原理主要是通過(guò)一些標(biāo)注好的帶關(guān)鍵點(diǎn)的二維手部姿態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練,讓網(wǎng)絡(luò)不僅可以識(shí)別手部圖像的關(guān)鍵點(diǎn),還可以從某個(gè)關(guān)鍵點(diǎn)的位置在推理出其他關(guān)鍵點(diǎn)的的位置可能性信息。從上層分割出來(lái)的手部位置圖輸入后,通過(guò)訓(xùn)練中用于判斷真假的樣本權(quán)重train 進(jìn)行檢測(cè),并且輸出二維手部關(guān)鍵點(diǎn)的得分圖,輸出每個(gè)得分最高,即置信度最高的關(guān)鍵點(diǎn)到下層網(wǎng)絡(luò)中。需要注意的是,這里輸出的得分圖為[B,256,256,21],包含手部骨骼21個(gè)關(guān)鍵點(diǎn)的得分。

        1.4 二維升三維重建網(wǎng)絡(luò)

        二維升三維網(wǎng)絡(luò)是這個(gè)神經(jīng)網(wǎng)絡(luò)的核心。在得到手部21個(gè)關(guān)鍵點(diǎn)的位置及深度數(shù)據(jù)后,首先是根據(jù)這些數(shù)據(jù)判斷該手型是左手還是右手,通過(guò)訓(xùn)練中用于判斷真假的的樣本權(quán)重train 進(jìn)行檢測(cè),估計(jì)最有可能的空間手部三維姿態(tài),并且輸出標(biāo)準(zhǔn)化的三維坐標(biāo)點(diǎn),格式為[21,3],意為輸出21個(gè)關(guān)鍵點(diǎn)的三維坐標(biāo)。

        2 系統(tǒng)硬件模塊設(shè)計(jì)

        如圖2 所示,硬件模塊由成像模塊,主板模塊及AI 芯片模塊組成。攝像頭模塊通過(guò)單目/雙目/TOF攝像頭采集圖像/視頻并且輸入到主板處理。算法模塊進(jìn)行算法運(yùn)算,該過(guò)程由AI 芯片模塊對(duì)其進(jìn)行加速,首先將原始圖像的手部位置分割出來(lái),輸入的圖像在手部位置分割網(wǎng)絡(luò)中定位手部在整個(gè)圖像中的位置,然后將輸出圖像經(jīng)過(guò)裁剪和尺寸變換并將手部位置放大輸入到下層的二維手部關(guān)鍵點(diǎn)識(shí)別網(wǎng)絡(luò)中,經(jīng)過(guò)計(jì)算輸出圖像中的手部21個(gè)骨骼關(guān)鍵點(diǎn)的位置,這與人體生理及運(yùn)動(dòng)學(xué)有關(guān),在手勢(shì)識(shí)別的相關(guān)研究中,得出通過(guò)手部21個(gè)關(guān)鍵點(diǎn)即可確定手部的位置。

        第3 層的二維轉(zhuǎn)三維網(wǎng)絡(luò)是整個(gè)神經(jīng)網(wǎng)絡(luò)的核心,它需要兩個(gè)輸入:第一個(gè)輸入是原圖像通過(guò)雙目立體匹配算法計(jì)算后轉(zhuǎn)換的深度圖,圖像中包含深度數(shù)據(jù),可以通過(guò)矩陣變換轉(zhuǎn)換成距離信息;第二個(gè)輸入是二維手部關(guān)鍵點(diǎn)識(shí)別的結(jié)果。通過(guò)兩個(gè)輸入,將手部關(guān)鍵點(diǎn)結(jié)果賦值在深度圖上,輸出21個(gè)關(guān)鍵點(diǎn)的深度信息,然后在網(wǎng)絡(luò)中進(jìn)行匹配運(yùn)算,預(yù)測(cè)在三維空間中最有可能的關(guān)鍵點(diǎn)坐標(biāo)位置(xi,yi,zi),然后將這些坐標(biāo)位置通過(guò)矩陣變換進(jìn)行三維重建,得到三維空間中的手部位置。

        圖2 硬件模塊設(shè)計(jì)

        3 實(shí)驗(yàn)數(shù)據(jù)

        3.1 測(cè)試集范例

        在公開(kāi)數(shù)據(jù)集上實(shí)驗(yàn)之前,這里先抽選了來(lái)自不同程度,不同環(huán)境下的一些圖片,這些圖片部分來(lái)源于純手部圖像,來(lái)自網(wǎng)絡(luò)的人像寫真,一些隨機(jī)搜索的包含手的圖像。從“相機(jī)角度”、“光源強(qiáng)度”、“膚色”、“復(fù)雜環(huán)境”、“手部遮擋”來(lái)測(cè)試該神經(jīng)網(wǎng)絡(luò)在應(yīng)對(duì)各種苛刻環(huán)境下的泛化性,為了排除可能會(huì)出現(xiàn)的偶然性和相似性,每組有3張程度因素從小到大的圖像集,一共7 組數(shù)據(jù),包含21 張測(cè)試圖。測(cè)試集的圖像數(shù)據(jù)如圖3所示。

        圖3 測(cè)試集范例

        3.2 范例實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證實(shí)驗(yàn)結(jié)果,同時(shí)也為了方便觀察每一層神經(jīng)網(wǎng)絡(luò)輸出圖像是否滿足需求和及時(shí)觀察到可能出現(xiàn)的識(shí)別錯(cuò)誤,這里將每層神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果都作為實(shí)驗(yàn)結(jié)果。測(cè)試集上的原圖經(jīng)過(guò)該三維手部追蹤神經(jīng)網(wǎng)絡(luò)中,首先經(jīng)過(guò)第一層“手部位置分割網(wǎng)絡(luò)”將手部位置從整張圖片中分割出來(lái),輸出到第二層“二維關(guān)鍵點(diǎn)識(shí)別網(wǎng)絡(luò)”中,通過(guò)分割出來(lái)的手部圖像,識(shí)別二維中的21個(gè)手部骨骼關(guān)鍵點(diǎn),并且為了方便可視化效果,通過(guò)人體關(guān)節(jié)點(diǎn)間的生理學(xué)連接,進(jìn)行matplotlib 畫圖連線,渲染出來(lái)。此時(shí)可看到二維圖像的識(shí)別效果。輸出的二維關(guān)鍵點(diǎn)結(jié)果及雙目立體匹配得到的該位置的深度信息將會(huì)輸出到第三層“二維轉(zhuǎn)三維”網(wǎng)絡(luò)中,通過(guò)該層網(wǎng)絡(luò)預(yù)測(cè)缺失的第三維度信息,最終經(jīng)過(guò)手掌根部root點(diǎn)確定,標(biāo)準(zhǔn)化坐標(biāo)處理等過(guò)程輸出在三維空間中的21個(gè)手部關(guān)鍵點(diǎn)三維坐標(biāo),通過(guò)matplotlib中的3D畫圖庫(kù),在三維空間中進(jìn)行生成。圖4所示為測(cè)試集的輸出效果圖。

        圖4 范例實(shí)驗(yàn)結(jié)果

        可以看到,在大部分約束條件下,該網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率都比較可觀,除了一些手部信息缺失過(guò)多的圖像發(fā)生了關(guān)鍵點(diǎn)丟失,錯(cuò)亂等情況;同時(shí)也有部分圖像關(guān)鍵點(diǎn)位置不明確,稍微扭曲。因?yàn)檫@些測(cè)試集來(lái)源都大相徑庭,圖像的尺寸差異巨大,輸入到神經(jīng)網(wǎng)絡(luò)中的圖像最終會(huì)被縮放,裁剪成同一尺寸,這些圖像因?yàn)槟承┏叽绫壤年P(guān)系,經(jīng)過(guò)縮放后比例失調(diào),例如手掌變寬,手指壓長(zhǎng)等扭曲現(xiàn)象,因此關(guān)鍵點(diǎn)發(fā)生了位置不明確的問(wèn)題。

        但在實(shí)時(shí)攝像頭測(cè)試中,因?yàn)閿z像頭輸入尺寸是每幀固定的,因此實(shí)時(shí)效果良好,整體實(shí)驗(yàn)效果可以基本滿足手部追蹤的效果,同時(shí),及時(shí)在某幀中發(fā)現(xiàn)識(shí)別錯(cuò)誤,關(guān)鍵點(diǎn)連線錯(cuò)亂等情況,在第三層中也會(huì)在預(yù)測(cè)過(guò)程中根據(jù)來(lái)自真實(shí)的三維數(shù)據(jù)進(jìn)行修正,簡(jiǎn)單來(lái)說(shuō),就是盡管手部識(shí)別效果異常“扭曲”、“不似人形”也會(huì)因?yàn)榈谌龑拥挠?xùn)練數(shù)據(jù)是來(lái)自真實(shí)的“手”,因此會(huì)強(qiáng)行將異常的數(shù)據(jù)轉(zhuǎn)換為正常數(shù)據(jù),不會(huì)出現(xiàn)在三維重建中手部形象“畸形”的情況出現(xiàn)。

        3.3 效率分析

        由收集的測(cè)試數(shù)據(jù)集范例和公開(kāi)測(cè)試集的實(shí)驗(yàn)結(jié)果來(lái)看,可以看到,該網(wǎng)絡(luò)在應(yīng)對(duì)各種復(fù)雜條件下的泛化能力比較高,即使實(shí)驗(yàn)場(chǎng)景包含可能的各種條件約束,成功實(shí)現(xiàn)手部位置分割的成功率達(dá)到了78%,同時(shí)二維關(guān)鍵點(diǎn)識(shí)別達(dá)到60%,這相對(duì)第一層中必然是更低的,因?yàn)槭紫染W(wǎng)絡(luò)需要分割出手部的位置圖像,才能進(jìn)一步對(duì)其進(jìn)行關(guān)鍵點(diǎn)識(shí)別,雖然60%并不是十分優(yōu)秀的結(jié)果,但足以證明該網(wǎng)絡(luò)在應(yīng)對(duì)復(fù)雜環(huán)境下的能力,它包含的是圖像背景復(fù)雜,存在多個(gè)檢測(cè)角色,光源復(fù)雜,圖像存在關(guān)鍵位置遮擋等約束條件。而在三維重建中成功率達(dá)到了72%,即使在某幀中發(fā)現(xiàn)關(guān)鍵點(diǎn)識(shí)別錯(cuò)誤、連線錯(cuò)亂等情況,在第三層也會(huì)根據(jù)來(lái)自真實(shí)的已訓(xùn)練三維數(shù)據(jù)進(jìn)行修正。

        進(jìn)一步分析觀察,簡(jiǎn)單背景(男性)的數(shù)據(jù)集中三層網(wǎng)絡(luò)的準(zhǔn)確率達(dá)到了90%、80%、86.7%,說(shuō)明該網(wǎng)絡(luò)的訓(xùn)練結(jié)果良好,應(yīng)對(duì)實(shí)驗(yàn)室簡(jiǎn)單背景環(huán)境的識(shí)別性能相對(duì)較高;而簡(jiǎn)單背景(女性)中三層網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率達(dá)到了90%、80%、90%,這樣的對(duì)比結(jié)果也說(shuō)明了,該網(wǎng)絡(luò)應(yīng)對(duì)異性的能力是相似的,同時(shí)這兩組數(shù)據(jù)的相似性,也排除了簡(jiǎn)單背景(男性)中的實(shí)驗(yàn)結(jié)果的偶然性。因?yàn)檫@兩組數(shù)據(jù)的背景不一樣,足以驗(yàn)證該網(wǎng)絡(luò)在簡(jiǎn)單背景下的識(shí)別能力。

        4 結(jié)束語(yǔ)

        本文提出了一種從普通RGB圖像中預(yù)測(cè)三維空間手部姿態(tài)并實(shí)現(xiàn)實(shí)時(shí)手部追蹤的神經(jīng)網(wǎng)絡(luò)。這個(gè)神經(jīng)網(wǎng)絡(luò)分為三層,首先通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行手部位置的識(shí)別與分割,第二層網(wǎng)絡(luò)結(jié)構(gòu)基于上一層輸入的二維手部分割裁剪后的手型圖,這層的處理主要是實(shí)現(xiàn)識(shí)別二維圖像中的21個(gè)手部骨骼關(guān)鍵點(diǎn)。第三層網(wǎng)絡(luò)首先通過(guò)一個(gè)隱式的合成三維手部模型數(shù)據(jù)和三維手部數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練后的網(wǎng)絡(luò)模型就可以實(shí)現(xiàn)從二維的手部關(guān)鍵點(diǎn)中與前置訓(xùn)練的三維手部數(shù)據(jù)集進(jìn)行匹配,估計(jì)缺失的第三維度信息,這樣就可以獲得手部骨骼關(guān)鍵點(diǎn)的三維數(shù)據(jù),進(jìn)而可以通過(guò)OpenGL 或者M(jìn)atplotlib等進(jìn)行實(shí)時(shí)三維重建,將二維的手部追蹤進(jìn)行升維。簡(jiǎn)而言之,整個(gè)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)分為三層,最終的目的是從普通的RGB相機(jī)中實(shí)現(xiàn)三維的手部姿態(tài)估計(jì)。

        猜你喜歡
        三維空間三維重建關(guān)鍵點(diǎn)
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
        基于Mimics的CT三維重建應(yīng)用分析
        軟件(2020年3期)2020-04-20 00:56:34
        三維空間的二維圖形
        基于關(guān)系圖的無(wú)人機(jī)影像三維重建
        三維重建結(jié)合3D打印技術(shù)在腔鏡甲狀腺手術(shù)中的臨床應(yīng)用
        白紙的三維空間
        多排螺旋CT三維重建在頜面部美容中的應(yīng)用
        三維空間中次線性Schr(o)dinger-Kirchhoff型方程的無(wú)窮多個(gè)負(fù)能量解
        醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
        999久久久免费精品国产牛牛 | 熟妇五十路六十路息与子| 国产av专区一区二区三区| 亚洲中文字幕一区高清在线| 国产亚洲成性色av人片在线观| 中文字幕人妻无码一夲道| 久久99精品久久久久久久清纯| 美女被射视频在线观看91| 香蕉亚洲欧洲在线一区| 一片内射视频在线观看| 青青草成人免费在线观看视频| 亚洲欧美牲交| 中文字幕影片免费在线观看| 无码中文字幕久久久久久| 国产av熟女一区二区三区密桃| 欧美亚洲日本国产综合在线美利坚| 日本在线观看| 白白青青视频在线免费观看| 日本一级二级三级不卡| 一本久道综合在线无码人妻| 亚洲伊人久久大香线蕉综合图片| 亚洲乱码中文字幕综合69堂| 手机免费在线观看av网址| 久久久久亚洲av无码专区喷水| 国产免费午夜a无码v视频| 无码啪啪熟妇人妻区| 手机在线观看av资源| 成人aaa片一区国产精品| 一本大道香蕉视频在线观看| 国产精品亚洲一区二区三区妖精| 国产自拍高清在线观看| 真人无码作爱免费视频禁hnn| 国产精品无需播放器| 少妇特殊按摩高潮不断| 日本不卡在线视频二区三区| 欧美极品少妇无套实战| 国产一级三级三级在线视| 国产伦理一区二区久久精品| 中文字幕日韩三级片| 国产精品一区二区久久精品| 免费 无码 国产精品|