亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度圖像預(yù)旋轉(zhuǎn)的手勢(shì)估計(jì)改進(jìn)方法

        2020-08-04 11:30:32徐正則張文俊

        徐正則 張文俊

        摘要: 基于深度圖像的手勢(shì)估計(jì)比人體姿勢(shì)估計(jì)更加困難, 部分原因在于算法不能很好地識(shí)別同一個(gè)手勢(shì)經(jīng)旋轉(zhuǎn)后的不同外觀樣式. 提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN) 推測(cè)預(yù)旋轉(zhuǎn)角度的手勢(shì)姿態(tài)估計(jì)改進(jìn)方法: 先利用自動(dòng)算法標(biāo)注的最佳旋轉(zhuǎn)角度來(lái)訓(xùn)練CNN; 在手勢(shì)識(shí)別之前,用訓(xùn)練好的CNN 模型回歸計(jì)算出應(yīng)預(yù)旋轉(zhuǎn)的角度, 然后再對(duì)手部深度圖像進(jìn)行旋轉(zhuǎn); 最后采用隨機(jī)決策森林(Random Decision Forest, RDF) 方法對(duì)手部像素進(jìn)行分類, 聚類產(chǎn)生出手部關(guān)節(jié)位置. 實(shí)驗(yàn)證明該方法可以減少預(yù)測(cè)的手部關(guān)節(jié)位置與準(zhǔn)確位置之間的誤差, 手勢(shì)姿態(tài)估計(jì)的正確率平均上升了約4.69%.

        關(guān)鍵詞: 手勢(shì)估計(jì); 圖像旋轉(zhuǎn); 深度圖像

        中圖分類號(hào): TP391 文獻(xiàn)標(biāo)志碼: A DOI: 10.3969/j.issn.1000-5641.201921004

        0 引言

        隨著科技的進(jìn)步和人類文明程度的提高, 新形式的數(shù)字媒體交互設(shè)備不斷出現(xiàn). 便攜式且可穿戴的虛擬現(xiàn)實(shí)(Virtual Reality, VR) 和增強(qiáng)現(xiàn)實(shí)(Augmented Reality, AR) 設(shè)備要求對(duì)傳統(tǒng)的交互手段進(jìn)行變革, 因此手部姿態(tài)估計(jì)[1] 和手勢(shì)識(shí)別技術(shù)[2-3] 的研究與應(yīng)用激發(fā)了廣大研究人員的興趣. 研究人員開(kāi)發(fā)了基于光學(xué)的手勢(shì)識(shí)別技術(shù)[4], 但是應(yīng)用環(huán)境、光線、膚色、背景復(fù)雜度和手勢(shì)運(yùn)動(dòng)快慢的變化對(duì)識(shí)別結(jié)果的影響非常大, 甚至?xí)?duì)手勢(shì)區(qū)域與背景的分離造成巨大干擾.

        為了在很大程度上克服以上缺陷, 基于深度圖像(Depth Image) 的識(shí)別技術(shù)應(yīng)運(yùn)而生, 并逐漸成為目前主流的手勢(shì)姿態(tài)估計(jì)方法[5-8]. 捕捉深度圖像的設(shè)備稱為深度相機(jī), 或稱為RGB-D 攝像機(jī), 深度相機(jī)在消費(fèi)類產(chǎn)品上的應(yīng)用越來(lái)越廣泛.

        事實(shí)上, 通過(guò)深度相機(jī)建立一套高效、穩(wěn)定、實(shí)用的手勢(shì)識(shí)別和控制系統(tǒng)仍然是一項(xiàng)非常艱難的工作, 其中手勢(shì)估計(jì)算法的旋轉(zhuǎn)不變性是難點(diǎn)之一. 手勢(shì)估計(jì)比人體姿勢(shì)估計(jì)更加困難, 部分原因在于手勢(shì)的變化更加豐富多樣, 特別是人體姿勢(shì)基本是頭在上腳在下, 而同一個(gè)手勢(shì)經(jīng)旋轉(zhuǎn)后會(huì)呈現(xiàn)出不同的外觀樣式, 這會(huì)大大增加估計(jì)時(shí)出現(xiàn)的各種可能性[9]. 一個(gè)優(yōu)秀的手勢(shì)識(shí)別算法應(yīng)具有旋轉(zhuǎn)不變性, 即同一種手勢(shì)無(wú)論怎么旋轉(zhuǎn)都可以被準(zhǔn)確地識(shí)別出來(lái).

        已有的文獻(xiàn)很多通過(guò)選取具備旋轉(zhuǎn)不變性的特征來(lái)解決這個(gè)問(wèn)題, 比如用隱馬爾科夫模型(Hidden Markov Models, HMM) 選擇 特征來(lái)識(shí)別姿勢(shì)[10];文獻(xiàn)[11] 中提出的采用自適應(yīng)局部二值模式(Adapted Local Binary Patterns, ALBP) 的方法來(lái)提取深度圖像的目標(biāo)特征, 并且在手部跟蹤的實(shí)驗(yàn)中對(duì)于旋轉(zhuǎn)和深度距離值都具備不變特性;主流的基于隨機(jī)決策森林(RDF) 或者卷積神經(jīng)網(wǎng)絡(luò)(CNN) 的手勢(shì)識(shí)別算法無(wú)須手動(dòng)選取特征, 但是卻無(wú)法自動(dòng)提取手勢(shì)圖像中旋轉(zhuǎn)不變的特征.為了讓模型隱含地學(xué)習(xí)不同角度對(duì)手勢(shì)識(shí)別影響的先驗(yàn)知識(shí), 一些文獻(xiàn)[2,8,12] 通過(guò)數(shù)據(jù)擴(kuò)增(DataAugmentation) 把各種手勢(shì)在不同角度的深度圖像都作為數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練, 但也因此帶來(lái)兩方面的問(wèn)題: ①即使大量的訓(xùn)練數(shù)據(jù)也不能保證覆蓋各種可能做出的手勢(shì); ②需要更加復(fù)雜和龐大的網(wǎng)絡(luò),學(xué)習(xí)時(shí)間也會(huì)變得不可接受[13], 另外也容易產(chǎn)生欠擬合或者過(guò)度擬合的現(xiàn)象. 雖然池化層可以在局部區(qū)域?qū)ξ⑿〉淖儞Q產(chǎn)生不變性[14], 但是總體上來(lái)說(shuō)RDF 和CNN 提取旋轉(zhuǎn)不變的特征能力是比較弱的[15-16], 它們普遍在識(shí)別準(zhǔn)確度最佳的情況下, 需要讓手勢(shì)固定在某一方向上, 稱為“標(biāo)準(zhǔn)手勢(shì)”(Canonical Pose)[9]. 在文獻(xiàn)[9] 中首先使用霍夫森林(Hough Forest) 來(lái)預(yù)測(cè)手部所在位置和手部的旋轉(zhuǎn)角度q, 然后在計(jì)算簡(jiǎn)單的深度差分特征時(shí)加入q 的影響; 但是在訓(xùn)練霍夫森林參數(shù)時(shí)要把當(dāng)前手勢(shì)旋轉(zhuǎn)到準(zhǔn)確的(Ground Truth) 角度值, 也是所謂的“標(biāo)準(zhǔn)手勢(shì)”. 一些簡(jiǎn)單的手勢(shì)也可以勉強(qiáng)人為地定義為“標(biāo)準(zhǔn)手勢(shì)”, 然而手勢(shì)千變?nèi)f化, 何為“標(biāo)準(zhǔn)手勢(shì)”需要主觀判斷, 因此這樣標(biāo)注的數(shù)據(jù)缺少統(tǒng)一標(biāo)準(zhǔn), 差異性比較大, 不利于訓(xùn)練過(guò)程中學(xué)習(xí)到共性的知識(shí), 并且目前大部分的手勢(shì)訓(xùn)練數(shù)據(jù)集沒(méi)有標(biāo)注這樣的角度值, 手工再去標(biāo)注費(fèi)時(shí)費(fèi)力.

        目前, 大量的文獻(xiàn)[17-22] 把手勢(shì)估計(jì)和識(shí)別分解成3 個(gè)階段的算法: (預(yù)處理階段) 檢測(cè)和手部分割、手勢(shì)姿態(tài)估計(jì)、(后處理階段) 驗(yàn)證和精細(xì)調(diào)整. 為了克服旋轉(zhuǎn)對(duì)識(shí)別精度帶來(lái)的影響, 近期很多研究工作者試圖在CNN 上引入旋轉(zhuǎn)不變性: 文獻(xiàn)[16] 首先使用數(shù)據(jù)擴(kuò)增技術(shù)對(duì)圖像進(jìn)行旋轉(zhuǎn)來(lái)創(chuàng)建訓(xùn)練數(shù)據(jù), 然后在AlexNet 的CNN 架構(gòu)上的倒數(shù)第二層加入旋轉(zhuǎn)不變層(Rotation-Invariant Layer),并且使用加入了正則約束項(xiàng)的新目標(biāo)函數(shù)使訓(xùn)練樣本在旋轉(zhuǎn)前和旋轉(zhuǎn)后都能共享相似的特征; 文獻(xiàn)[23]使用一種Winner-Take-All (WTA) 的特征抽取技術(shù), 并與費(fèi)希爾判別準(zhǔn)則一起來(lái)獲取手掌的興趣區(qū)域(Region of Interest, ROI), 當(dāng)旋轉(zhuǎn)超過(guò)360°時(shí)還可以大幅提高識(shí)別手掌的準(zhǔn)確度. Cheng 等在CNN 特征上加入旋轉(zhuǎn)不變正則項(xiàng)和費(fèi)希爾判別正則項(xiàng), 嵌入CNN 模型中的全連接層(Fully ConnectedLayer)[24], 提高了CNN 處理圖像中旋轉(zhuǎn)目標(biāo)的檢測(cè)能力.

        本文提出的改進(jìn)方法出發(fā)點(diǎn)為, 目前RDF 和CNN 算法提取旋轉(zhuǎn)不變的特征能力是比較弱的, 需要通過(guò)數(shù)據(jù)擴(kuò)增(Data Augmentation) 人為地對(duì)樣本做旋轉(zhuǎn)、縮放等操作, 才能讓CNN 自己去學(xué)習(xí)旋轉(zhuǎn)不變性; 同時(shí)由于手部姿勢(shì)可以旋轉(zhuǎn)成不同角度的外觀樣式來(lái)呈現(xiàn), 采用顯性的方式預(yù)先旋轉(zhuǎn)手部圖像到某種最佳的角度就是一種更加有效的方法, 可以提高后續(xù)像素分類和姿態(tài)估計(jì)的準(zhǔn)確性.

        [ 6 ]YUAN S X, YE Q, STENGER B, et al. BigHand2.2M benchmark: Hand pose dataset and state of the art analysis [C]// 2017 IEEEConference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 2605-2613. DOI: 10.1109/CVPR.2017.279.

        [ 7 ]SHOTTON J, GIRSHICK R, FITZGIBBON A, et al. Efficient human pose estimation from single depth images [J]. IEEETransactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2821-2840. DOI: 10.1109/TPAMI.2012.241.

        [ 8 ]QIAN C, SUN X, WEI Y C, et al. Realtime and robust hand tracking from depth [C]// 2014 IEEE Conference on Computer Visionand Pattern Recognition (CVPR). IEEE, 2014: 1106-1113. DOI: 10.1109/CVPR.2014.145.

        [ 9 ]XU C, CHENG L. Efficient hand pose estimation from a single depth image [C]// 2013 IEEE International Conference on ComputerVision. IEEE, 2013: 3456-3462. DOI: 10.1109/ICCV.2013.429.

        [10]CAMPBELL L W, BECKER D A, AZARBAYEJANI A, et al. Invariant features for 3-D gesture recognition [C]// Proceedings of theSecond International Conference on Automatic Face and Gesture Recognition. IEEE, 1996: 157-162. DOI: 10.1109/AFGR.1996.557258.

        [11]JOONGROCK K, SUNJIN Y, DONGCHUL K, et al L. An adaptive local binary pattern for 3D hand tracking [J]. PatternRecognition, 2017, 61: 139-152. DOI: 10.1016/j.patcog.2016.07.039.

        [12]KESKIN C, KIRA? F, KARA Y E, et al. Real time hand pose estimation using depth sensors [C]// 2011 IEEE InternationalConference on Computer Vision Workshops (ICCV Workshops). IEEE, 2011: 1228?1234. DOI: 10.1109/ICCVW.2011.6130391.

        [13]LAPTEV D, SAVINOV N, BUHMANN J M, et al. TI-POOLING: Transformation-invariant pooling for feature learning inconvolutional neural networks [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016: 289-297. DOI: 10.1109/CVPR.2016.38.

        [14]BOUREAU Y L, PONCE J, LECUN Y. A theoretical analysis of feature pooling in visual recognition [C]// Proceedings of the 27thInternational Conference on Machine Learning (ICML-10). 2010: 111–118.

        [15]LEPETIT V, LAGGER P, FUA P. Randomized trees for real-time keypoint recognition [C]// 2005 IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005: 775–781. DOI: 10.1109/CVPR.2005.288.

        [16]CHENG G, ZHOU P C, HAN J W. Learning rotation-invariant convolutional neural networks for object detection in VHR opticalremote sensing images [J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(12): 7405-7415. DOI: 10.1109/TGRS.2016.2601622.

        国产精品永久免费| 99久久99久久精品免观看| 精品欧洲AV无码一区二区免费| 国产强伦姧在线观看| 亚洲一区有码在线观看| 在线观看亚洲视频一区二区| 蜜乳一区二区三区亚洲国产| 人妻精品在线手机观看| 国语对白做受xxxxx在| 理论片87福利理论电影| 伊人网综合| 中文字幕日韩精品美一区二区三区| 狼人av在线免费观看| 少妇激情高潮视频网站| 亚洲中文字幕在线综合| 18禁裸男晨勃露j毛网站| 熟女性饥渴一区二区三区| 中文字幕亚洲欧美日韩2019| 亚洲国产成人精品91久久久| 午夜少妇高潮免费视频| 亚洲熟少妇一区二区三区| 中国免费看的片| 四虎影视永久地址www成人| 免费看一级a女人自慰免费| 国产精品一区成人亚洲| 久久精见国产亚洲av高清热 | 熟女人妻在线中文字幕| 国产欧美一区二区精品久久久| 日本japanese丰满多毛| 樱花AV在线无码| 日本高清长片一区二区| 日韩精品视频免费网站| 色狠狠色噜噜av天堂一区| 欧洲-级毛片内射| 久久亚洲国产成人精品v| 亚洲黄色官网在线观看| 亚洲国产丝袜久久久精品一区二区 | 国产精品麻豆A啊在线观看| 一区二区亚洲熟女偷拍| 婷婷久久国产综合精品| 国产一极内射視颍一|