亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RGB-D圖像弱監(jiān)督學習的3D人體姿態(tài)估計*

        2022-01-21 00:32:02申瓊鑫
        傳感器與微系統(tǒng) 2022年1期
        關鍵詞:模型

        申瓊鑫, 楊 濤, 徐 勝

        (福州大學 物理與信息工程學院,福建 福州 350116)

        0 引 言

        人體姿態(tài)估計是對圖像或視頻數(shù)據(jù)中的人的關節(jié)點位置進行檢測并還原的過程。根據(jù)估計結果的數(shù)據(jù)維度的不同分為2D人體姿態(tài)估計和3D人體姿態(tài)估計。目前,2D人體姿態(tài)估計技術獲得了較大進展[1]。Toshev A等人[2]首次提出了人體關鍵點解決方案,使用級聯(lián)形式的卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)完成更準確的姿態(tài)估計。現(xiàn)在大多數(shù)的3D人體姿態(tài)估計都是在2D姿態(tài)估計的基礎上完成的。Wang K等人[3]提出長短期記憶( long short-term memory,LSTM)網(wǎng)絡架構,利用自頂向下的反饋機制,從而達到優(yōu)化關節(jié)點的目的。Bogo F等人[4]提出自監(jiān)督校正機制,其本質(zhì)是利用了同一個姿態(tài)的二維特征和三維特征的一致性。上述研究從不同的方向上去優(yōu)化關節(jié)點的位置,在效果上都取得了不同程度的提升,但基本上采用的的都是強監(jiān)督學習模型,其需要大量的帶標簽的數(shù)據(jù)。

        本文提出一種基于RGB-D圖像的弱監(jiān)督學習模型實現(xiàn)3D人體姿態(tài)估計的方法。采用一種端到端的弱監(jiān)督模型,解決數(shù)據(jù)標簽不足的問題,并在弱監(jiān)督模型中對生成的2D熱圖進行積分回歸,克服基于熱圖估計的方法中所存在的缺陷,同時改善3D回歸網(wǎng)絡模塊,以實現(xiàn)減少網(wǎng)絡運算量,降低訓練時間的目的。

        1 3D人體姿態(tài)估計的實現(xiàn)原理與方法

        本文所使用的網(wǎng)絡整體實現(xiàn)具體框架如圖1所示。1)將深度圖像或者彩色圖像作為網(wǎng)絡輸入;2)圖像數(shù)據(jù)通過2D姿態(tài)估計模塊生成熱圖,即H2d;3)將熱圖進行積分回歸,生成對應的關節(jié)坐標J2d;4)將關節(jié)點坐標作為3D回歸模塊的輸入,回歸出3D關節(jié)坐標H3d,最終實現(xiàn)3D人體姿態(tài)估計。

        圖1 3D人體姿態(tài)估計弱監(jiān)督網(wǎng)絡模型

        2D姿態(tài)估計網(wǎng)絡模塊采用了沙漏結構作為該部分的主體網(wǎng)絡[5],通過重復自下而上,自上而下推理的機制,重新評估整個圖像的初始估計和特征。整個沙漏結構不改變特征的尺度,只改變特征的深度,并且采用中繼監(jiān)督訓練方式,因此,在堆疊網(wǎng)絡結構時不會出現(xiàn)梯度爆炸的問題。并在網(wǎng)絡中加入積分回歸操作[6],基于熱圖回歸的方式雖然表示方便且容易組合其它深層特征圖,但其存在著固有的缺陷,考慮到直接監(jiān)督坐標的效果不如監(jiān)督熱圖,需要將兩者結合起來。因此,可以通過將熱圖轉(zhuǎn)換成關節(jié)點坐標,從而避免這些缺點。使用積分回歸的優(yōu)點在于積分函數(shù)是可微的,允許端到端訓練并且輸出是連續(xù)的。對于3D回歸模塊所采用的結構如圖2所示,其包含線性(linear)層、批歸一化(batch normalization,BN)、ReLU(rectified linear units)層、Dropout層,稱之為Block[7]。用于得到最后的3D關節(jié)點坐標??梢钥吹竭@部分網(wǎng)絡使用線性層進行運算,因此,能夠大幅減少網(wǎng)絡運算復雜度,節(jié)約運算成本,并且對于網(wǎng)絡超參數(shù)的訓練也比較容易。根據(jù)實際情況可以選擇級聯(lián)多個Block作為回歸模塊。

        圖2 3D回歸模塊單元示意

        2 功能模塊設計

        2.1 概 述

        本文目標是對于給定的彩色圖或者深度圖能夠估計出其對應的3D人體姿勢J3d。本文提出的網(wǎng)絡框架包括2D姿態(tài)估計網(wǎng)絡和深度回歸模塊。

        2.2 2D姿態(tài)估計模塊

        本文采用沙漏結構作為2D姿態(tài)估計模塊,用于預測人體各個關鍵點的位置??紤]到運算的規(guī)模和速度,選擇使用2個沙漏結構構成輕量級的2D估計模塊。該網(wǎng)絡輸出的是一組包含J(J=16)個關節(jié)點的低分辨率熱圖。2D模塊的輸入是經(jīng)過預處理后的數(shù)據(jù),圖像分辨率為256×256,熱圖輸出的分辨率為64×64。訓練2D模塊所使用的損失函數(shù)為

        (1)

        2.3 姿勢積分回歸

        針對2D姿態(tài)檢測模塊輸出的熱圖進行關節(jié)坐標轉(zhuǎn)換,對于提升估計網(wǎng)絡模型的性能是很有必要的,因為熱圖進行轉(zhuǎn)換成關節(jié)坐標之后,后續(xù)網(wǎng)絡不會再要求熱圖保持更高的分辨率,因此能夠大幅減少后續(xù)網(wǎng)絡的運算復雜度。對2D熱圖進行積分,關節(jié)被估計為熱圖中所有位置的積分,并根據(jù)概率加權求和做歸一化。由于積分是沒有參數(shù)的,因此在計算和存儲方面帶來的開銷很小。轉(zhuǎn)換公式分別為

        (2)

        (3)

        式中Jk為轉(zhuǎn)換后的關節(jié)點,Hk為熱圖,k為正則化的熱圖,Ω為Hk的域。

        2.4 三維回歸模塊

        回歸模塊的主要任務獲取各個關節(jié)的深度信息。此模塊鑲嵌在2D姿態(tài)估計的后面,因此在進行端到端的訓練時,會充分利用權重共享功能。并且可以通過實驗確定構成3D回歸網(wǎng)絡所需要的Block數(shù)目。3D回歸網(wǎng)絡訓練的Loss函數(shù)為

        (4)

        式中xi為通過2D檢測器或照相機標定的二維關節(jié)坐標,yi為預測的各關節(jié)的三維坐標,N為關節(jié)點數(shù)目。

        3 實驗與結果分析

        3.1 實驗數(shù)據(jù)集

        本文的實驗數(shù)據(jù)集包括RGB數(shù)據(jù)集MPII[8]、Human 3.6M[9]和深度數(shù)據(jù)集ITOP[10]、K2HGD[11]。使用MPII中的2萬張圖像進行訓練;使用Human 3.6M中的5萬張圖像進行訓練,1 000張作為測試;ITOP包含3D關節(jié)標簽的深度圖,但其數(shù)據(jù)量不充足且不準確,因此將其糾錯后作為測試樣本;使用K2HGD中的1萬張圖作為訓練樣本。由于深度圖和彩色圖包含的信息不一樣,不能直接進行混合訓練,因此將彩色圖數(shù)據(jù)進行灰度處理,從而減少數(shù)據(jù)信息不同造成的干擾。

        3.2 實驗細節(jié)和評價標準

        本文使用Human 3.6M和ITOP數(shù)據(jù)作為測試樣本,并將本文的方法與文獻[7]進行對比實驗,比較其精度、參數(shù)量、訓練時間三個指標。本實驗基于Torch平臺,訓練采用的學習率為0.001,batch-size的尺寸為16,分兩個階段進行訓練,第一階段僅使用2D標簽數(shù)據(jù)訓練2D網(wǎng)絡,第二階段使用3D標簽數(shù)據(jù)集訓練整個網(wǎng)絡。實驗使用NVIDIA GTX1060顯卡,64位Ubuntu系統(tǒng),Intel i5—7600CPU。使用平均精度(mean average precision,mAP)作為評價標準,通過計算網(wǎng)絡預測得到的關節(jié)點坐標與真實標簽的人體關節(jié)點坐標之間歐氏距離,當距離小于設定的閾值即認為估計正確。

        3.3 實驗結果與分析

        為了更加科學地選擇3D回歸模塊所用的堆疊模塊Block的數(shù)目,對Block數(shù)目不同的模型分別在彩色圖像Human 3.6M和深度圖像ITOP上進行實驗測試,并與文獻[12]所提出的方法進行對比試驗,分別將Human 3.6M和ITOP數(shù)據(jù)上的測試結果進行可視化如圖3所示。

        圖3 3D姿態(tài)估計可視化結果

        表1給出了ITOP數(shù)據(jù)集上各關節(jié)的預測精度。在表2中給出其對應的準確率、訓練時間、參數(shù)數(shù)量三個指標。

        表1 模型在閾值為10 mm時的各關節(jié)精度 %

        表2 模型性能比較

        根據(jù)表2的結果可以看出,使用4個Block堆疊模塊,其精確度確實增加了,但是其訓練時間和參數(shù)量也增多了,考慮到網(wǎng)絡的輕量性,選擇2個Block堆疊模塊的模型作為3D回歸模塊。實驗結果表明:加入積分回歸的思想,是有助于減少整個網(wǎng)絡模型的參數(shù)量和訓練時間的,相比于文獻[12],本文方法參數(shù)量減少了20.9 %,訓練時間減少了37.9 %,并且該模型同時適用于彩色圖像和深度圖像。但本文所提供的方法在精度上略有降低了,相比于文獻[7],在深度圖數(shù)據(jù)集上降低了約1.5 %,在彩色圖上降低了1.14 %,其中的原因可能在于兩個方面:1)網(wǎng)絡模型訓練規(guī)模太小,從而導致精度的下降;2)彩色圖數(shù)據(jù)集的數(shù)量遠大于深度圖數(shù)據(jù)集,因而在深度圖上損失了更多的精度。

        4 結 論

        本文提出了一種基于RGB-D數(shù)據(jù)的一種弱監(jiān)督學習網(wǎng)絡模型實現(xiàn)3D人體姿態(tài)估計的方法。方法的核心思想首先在于將基于熱圖回歸的方式轉(zhuǎn)換為基于關節(jié)點的回歸;其次是將彩色數(shù)據(jù)與深度數(shù)據(jù)進行關聯(lián),使得該網(wǎng)絡可以同時適用于彩色圖和深度圖。方法主要在降低訓練時間和參數(shù)量兩個方面做出了努力,并取得了一定的進步,但也損失了一部分估計精度。因此,后續(xù)還需要在輕量級網(wǎng)絡的基礎上往提高精度方面繼續(xù)展開研究。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        国产av夜夜欢一区二区三区| av有码在线一区二区 | 97色偷偷色噜噜狠狠爱网站97| 国产在线拍91揄自揄视精品91| 亚洲高清有码在线观看| 青青草视频在线免费视频 | 亚洲色成人网站www永久| 国产偷国产偷亚洲清高| 久久精品综合国产二区| av天堂在线免费播放| 久久精品一区午夜视频| 国产成人无码一区二区在线播放| 亚洲国产午夜精品乱码| 日韩av一区二区三区在线观看 | 无码人妻丰满熟妇区免费| 性色av一区二区三区| 麻豆AⅤ精品无码一区二区| 久久久噜噜噜噜久久熟女m| 亚洲第一狼人天堂网亚洲av| 人妻少妇被猛烈进入中文字幕| 亚洲网站免费看| 男女深夜视频网站入口| 色综合久久久久综合99| 粗大的内捧猛烈进出在线视频| 一区二区精品| 日本午夜伦理享色视频| 久久久久九九精品影院| 久久久久亚洲av无码a片软件| 国产成人精品视频网站| 国产精品亚洲av高清二区| 国产精品∧v在线观看| 久久狠狠第一麻豆婷婷天天| 亚洲精品美女久久久久99| 久久久亚洲免费视频网| 国产99久久久国产精品免费看| 国产精品视频久久久久| 亚洲小少妇一区二区三区| 亚洲av乱码一区二区三区林ゆな| 无码中文字幕人妻在线一区二区三区| 久久精品视频按摩| 国产天堂av在线一二三四|