亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于半監(jiān)督學(xué)習(xí)的三維人體姿態(tài)估計

        2021-05-24 09:55:32史健李毅
        電腦知識與技術(shù) 2021年12期
        關(guān)鍵詞:深度學(xué)習(xí)

        史健 李毅

        摘要:通過單目RGB攝像頭自動估計人體三維姿態(tài)是一個重要的、具有挑戰(zhàn)性且仍未被解決問題,主流算法大多基于監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)方法,但是這種方法的效果受訓(xùn)練數(shù)據(jù)質(zhì)量的影響很大,而標(biāo)定好的三維人體姿態(tài)數(shù)據(jù)集相對稀缺,阻礙了這一問題的進一步的研究。在現(xiàn)有標(biāo)記數(shù)據(jù)有限的情況下,利用人體姿態(tài)信息在二維空間和三維空間上存在的內(nèi)在關(guān)系,提出了一種基于自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)相結(jié)合的半監(jiān)督學(xué)習(xí)訓(xùn)練方式的三維人體姿態(tài)估計方法,并在Human3.6M數(shù)據(jù)集上用占數(shù)據(jù)總量不到40%的帶標(biāo)記數(shù)據(jù)的半監(jiān)督訓(xùn)練模型,達到了接近90%的監(jiān)督訓(xùn)練模型的測試效果,為數(shù)據(jù)缺乏問題提供解決思路。

        關(guān)鍵詞:深度學(xué)習(xí);半監(jiān)督學(xué)習(xí);人體姿態(tài)估計;自監(jiān)督學(xué)習(xí);空洞卷積

        中圖分類號:TP311? ? 文獻標(biāo)識碼:A

        文章編號:1009-3044(2021)12-0016-02

        1引言

        人體姿態(tài)估計的任務(wù)是估計圖像或者視頻中人體各個關(guān)鍵骨骼點的空間位置,基于單目RGB攝像頭進行人體姿態(tài)估計有著廣泛地應(yīng)用前景,例如動畫制作、虛擬現(xiàn)實、增強現(xiàn)實、行為識別、人機互動、安防監(jiān)控等,同時作為一個仍未被完全解決的學(xué)術(shù)問題,人體姿態(tài)估計也有著很高的研究價值。在過去的30年中,在圖像序列和視頻序列中自動估計人體姿態(tài)信息始終是計算機視覺領(lǐng)域的熱門研究方向。

        2 三維人體關(guān)鍵點估計的研究現(xiàn)狀

        在深度學(xué)習(xí)取得重大突破之前,大部分三維人體姿態(tài)估計算法都是基于特征工程設(shè)計或者根據(jù)人體骨骼和關(guān)節(jié)活動性建模,但由于需要大量手工標(biāo)注特征,同時泛化性較差,只能在部分場合得到一些應(yīng)用;而深度學(xué)習(xí)的出現(xiàn)為三維人體姿態(tài)估計提供了一種端到端、無須手工標(biāo)注特征的優(yōu)秀解決方案。

        但受制于三維人體骨骼點信息采集復(fù)雜,設(shè)備昂貴,同時現(xiàn)有數(shù)據(jù)集都是在室內(nèi)專業(yè)條件下采集,對于室外場景處理效果不佳,為了解決這些問題,許多基于自監(jiān)督、半監(jiān)督和弱監(jiān)督的深度學(xué)習(xí)方法逐漸出現(xiàn),并取得了接近監(jiān)督學(xué)習(xí)的效果。

        2.1深度學(xué)習(xí)算法

        二維人體姿態(tài)估計已經(jīng)取得了非常多的優(yōu)秀成果,例如CPN、OpenPos等,許多三維人體姿態(tài)估計的工作都是基于這些效果很好的二維檢測器,或直接回歸骨骼點的深度信息,或在將二維坐標(biāo)根據(jù)一定的映射關(guān)系直接提升到三維坐標(biāo)。

        2.2半監(jiān)督學(xué)習(xí)

        半監(jiān)督學(xué)習(xí)主要在未標(biāo)記的數(shù)據(jù)中挖掘數(shù)據(jù)本身的特征,這種方法已經(jīng)在許多領(lǐng)域有了行之有效的實踐結(jié)果。一些工作將從二維姿態(tài)中學(xué)習(xí)到的特征按照一定關(guān)系轉(zhuǎn)換成三維姿態(tài)特征,例如使用多視角相機采集數(shù)據(jù),學(xué)習(xí)三維姿態(tài)的特征表達,從而生成三維姿態(tài)信息,但是這種方法最大的問題是模型的泛化性比較一般,對于訓(xùn)練數(shù)據(jù)中的環(huán)境參數(shù)較為敏感,而且多角度數(shù)據(jù)訓(xùn)練較為復(fù)雜,不能應(yīng)用到無監(jiān)督環(huán)境。另一些工作利用對抗生成網(wǎng)絡(luò)可以區(qū)分真實數(shù)據(jù)和虛假數(shù)據(jù)的特性,將未標(biāo)記的二維和三維數(shù)據(jù)一起送入對抗生成網(wǎng)絡(luò),將三維姿態(tài)映射成為二維姿態(tài)后與送入的二維姿態(tài)數(shù)據(jù)進行比對,學(xué)習(xí)三維姿態(tài)的生成表達式,而這種問題同樣存在一定的局限性,模型只能學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中所包含到的姿態(tài)信息的特征表達,而對于未訓(xùn)練到的情況表現(xiàn)并不理想。

        2.3本文工作

        本文工作為了能更加有效地在時序維度進行卷積提取幀間信息,對于人體各關(guān)鍵點的預(yù)測直接以坐標(biāo)形式進行回歸;并用全卷積網(wǎng)絡(luò)代替循環(huán)神經(jīng)網(wǎng)絡(luò),即并行利用了時序序列信息,也通過舍棄部分池化層在卷積過程中保留了更多的圖像信息,同時還沒有降低網(wǎng)絡(luò)的感受野,放棄使用大量環(huán)境參數(shù)加上相機參數(shù)的模式,僅僅使用相機參數(shù)對二維進行提升,減少了計算的復(fù)雜度。

        3 基于半監(jiān)督學(xué)習(xí)的三維人體姿態(tài)估計

        3.1網(wǎng)絡(luò)結(jié)構(gòu)

        本文網(wǎng)絡(luò)結(jié)構(gòu)如圖1,首先采用魯棒性較好的Mask-RCNN網(wǎng)絡(luò)作為二維檢測器,選取人體17個骨骼點作為表示人體姿態(tài)的表示向量,直接回歸二維姿態(tài)各骨骼點的坐標(biāo),隨后選取當(dāng)前幀和當(dāng)前幀前后相隔兩幀的數(shù)據(jù)作為輸入送入下一級的時序模型。

        本文采用空洞全卷積網(wǎng)絡(luò)代替以往用來進行時序卷積的循環(huán)神經(jīng)網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以并行地對姿態(tài)序列進行卷積,更加快速和有效地提取幀間關(guān)聯(lián)信息,時序模型結(jié)構(gòu)如圖2,主要由四個相同的帶殘差結(jié)構(gòu)的模塊級聯(lián)而成,輸入為二維檢測器輸出的17個二維骨骼點坐標(biāo),經(jīng)過時域模塊卷積后將結(jié)果送入全連接層,根據(jù)相機參數(shù)將二維骨骼點提升至三維坐標(biāo),得到最終的17個三維骨骼點坐標(biāo)信息。

        3.2半監(jiān)督學(xué)習(xí)

        半監(jiān)督學(xué)習(xí)應(yīng)用在訓(xùn)練過程中,主要由兩部分,一部分是傳統(tǒng)的監(jiān)督學(xué)習(xí),將標(biāo)記好的數(shù)據(jù)送入網(wǎng)絡(luò),先通過二維檢測器得到各骨骼點的坐標(biāo),同時記錄下每個骨骼點的距離,也就是相應(yīng)的骨骼長度;之后將二維骨骼點數(shù)據(jù)送入后續(xù)時序卷積模塊預(yù)測各個骨骼點的三維坐標(biāo),與標(biāo)記數(shù)據(jù)進行對比,計算損失函數(shù),形式為交叉熵,隨后通過反向傳播算法更新網(wǎng)絡(luò)權(quán)重,重復(fù)這一過程一定次數(shù)后,網(wǎng)絡(luò)可以近似學(xué)習(xí)到數(shù)據(jù)的分布規(guī)律,使得預(yù)測結(jié)果更加準(zhǔn)確。在每一個批次訓(xùn)練完成之后,對各個骨骼長度取平均值并記錄,保存等待自監(jiān)督學(xué)習(xí)時使用。

        訓(xùn)練過程中的另一部分就是利用大量無標(biāo)簽數(shù)據(jù)的自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)過程成中,網(wǎng)絡(luò)讀入無標(biāo)記的數(shù)據(jù),預(yù)測得到二維和三維關(guān)鍵點信息,將三維坐標(biāo)結(jié)合監(jiān)督學(xué)習(xí)中獲得的骨骼長度,將骨骼長度作將三維坐標(biāo)重新映射回二維坐標(biāo)的軟限制,使得重新映射成二維的人體姿態(tài)中的各個骨骼長度與原圖像中更為接近,保證重映射過程的準(zhǔn)確性。最后將兩種二維坐標(biāo)的差距作為損失函數(shù),形式同樣為交叉熵,并根據(jù)損失函數(shù)更新網(wǎng)絡(luò)參數(shù)。實際訓(xùn)練中,監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)根據(jù)標(biāo)記數(shù)據(jù)在所有訓(xùn)練數(shù)據(jù)中的比例交替進行,監(jiān)督訓(xùn)練先行進行。

        4 實驗

        4.1 Human3.6M數(shù)據(jù)集

        Human3.6M[3]數(shù)據(jù)集是由專業(yè)團隊利用專門的動捕設(shè)備在室內(nèi)采集制作的大型三維人體姿態(tài)數(shù)據(jù)集,一共包括11個對象的360萬幀圖像,并對其中7個對象的三維姿態(tài)進行了標(biāo)注,每個對象都用4部同步相機記錄了15種不同的動作。本文工作選取子集S1和S5作為監(jiān)督訓(xùn)練的數(shù)據(jù)集,分別以這兩個數(shù)據(jù)子集10%、30%、50%、70%和90%數(shù)據(jù)容量,與作為自監(jiān)督訓(xùn)練的無標(biāo)記數(shù)據(jù)的子集S6、S7和S8進行了五次200批次的半監(jiān)督訓(xùn)練,每次訓(xùn)練都以0.001作為初始學(xué)習(xí)率,每個批次的學(xué)習(xí)率衰減系數(shù)為0.95,五次訓(xùn)練標(biāo)記數(shù)據(jù)占總訓(xùn)練數(shù)據(jù)的比重分別為6.6%、17.4%、26.0%、33.0%和38.8%。訓(xùn)練結(jié)束后在子集S9和S11上測試模型效果,實驗結(jié)果如表1所示。

        4.2 評價標(biāo)準(zhǔn)

        實驗以毫米級的平均關(guān)鍵點位置誤差(MPJPE)作為評價指標(biāo),該指標(biāo)為每個預(yù)測的關(guān)鍵點位置與真值的關(guān)鍵點位置的歐氏距離的平均值的總和,實現(xiàn)方式與主流工作保持一致。

        4.3實驗結(jié)果

        從整體上來看,隨著標(biāo)記數(shù)據(jù)的不斷增加,半監(jiān)督學(xué)習(xí)的預(yù)測效果與監(jiān)督學(xué)習(xí)的預(yù)測效果明顯縮小,但測試效果的提升也在逐漸變?nèi)酰瑥谋碇锌梢园l(fā)現(xiàn)70%組合90%組提升差距已經(jīng)明顯變小,在部分動作中的效果甚至降低了;同時從表中可以發(fā)現(xiàn)是用少量的已標(biāo)記數(shù)據(jù)進行半監(jiān)督訓(xùn)練就可以獲得非常接近監(jiān)督訓(xùn)練的性能,甚至在個別動作的測試中半監(jiān)督學(xué)習(xí)的效果甚至優(yōu)于監(jiān)督學(xué)習(xí),說明使用大量的標(biāo)記數(shù)據(jù)雖然能有效提升性能,但是有可能帶來模型在部分情況下產(chǎn)生過擬合,這一問題可能會在模型實際應(yīng)用中到來不少的麻煩,而基于半監(jiān)督學(xué)習(xí)的訓(xùn)練方法在一定程度上減少了來自冗余數(shù)據(jù)的影響。

        5 結(jié)語

        本文的實驗結(jié)果說明了即便缺少充分的三維標(biāo)記數(shù)據(jù),大量的無標(biāo)記數(shù)據(jù)本身存在巨大的價值,通過合適的方法對無標(biāo)記數(shù)據(jù)進行挖掘,建立巧妙的半監(jiān)督學(xué)習(xí)模式來利用無標(biāo)記數(shù)據(jù),即便數(shù)據(jù)不充足也可以取得很好的訓(xùn)練效果。隨著深度學(xué)習(xí)領(lǐng)域的不斷細(xì)分,算法落地場景越來越具體,數(shù)據(jù)問題帶來的阻礙越來越大,利用少量數(shù)據(jù)進行半監(jiān)督學(xué)習(xí)是最好的解決方案之一。

        參考文獻:

        [1] Cao Z,Simon T,Wei S H,et al.Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1302-1310.

        [2] Rhodin H, Salzmann M, Fua P. Unsupervised geometry-aware representation for 3D human pose estimation[M]//Computer Vision – ECCV 2018.Cham:Springer International Publishing,2018:765-782.

        [3] Tung H Y F,Harley A W, Seto W,et al. Adversarial inverse graphics networks:learning 2D-to-3D lifting and image-to-image translation from unpaired supervision[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:4364-4372.

        [4] 鄧益儂,羅健欣,金鳳林.基于深度學(xué)習(xí)的人體姿態(tài)估計方法綜述[J].計算機工程與應(yīng)用,2019,55(19):22-42.

        [5] 王偉楠,張榮,郭立君.結(jié)合稀疏表示和深度學(xué)習(xí)的視頻中3D人體姿態(tài)估計[J].中國圖象圖形學(xué)報,2020,25(3):456-467.

        【通聯(lián)編輯:聞翔軍】

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學(xué)習(xí)的三級階梯
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        利用網(wǎng)絡(luò)技術(shù)促進學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        亚洲av永久无码一区二区三区| 中文字幕免费在线观看动作大片| 亚洲区一区二区中文字幕| 亚洲最大天堂无码精品区| 97精品久久久久中文字幕| 精品国产精品三级在线专区| 日本午夜一区二区视频| 成年女人A级毛片免| 国产呦系列呦交| 欧美丰满熟妇xxxx性ppx人交| 亚洲一区二区三区ay| 婷婷激情六月| 国产亚洲视频在线播放| 亚洲日本国产一区二区三区| AV无码一区二区三区国产| 性一交一乱一透一a级| 日本强伦姧人妻一区二区| 性色av一区二区三区密臀av| 偷拍网日本一区二区三区| 呻吟国产av久久一区二区| 97人人超碰国产精品最新| 国模gogo无码人体啪啪| 日本女优中文字幕在线播放 | 久久综合狠狠色综合伊人| 中文字幕亚洲无线码在线一区| 国产内射一级一片高清内射视频 | 日本一区二区在线资源| 国产一区二区三区在线观看精品| 亚洲av成人无码网站…| 性生交片免费无码看人| 一二三四区中文字幕在线| av成人综合在线资源站| 久久久国产精品粉嫩av| 精品亚洲国产探花在线播放| 国产成人精品一区二区三区免费| 成人免费a级毛片| 精品国产免费一区二区三区香蕉| 亚洲最新无码中文字幕久久| 自拍偷自拍亚洲精品第按摩| 日本一区二区视频高清| 人妖一区二区三区视频|