馬乾力 魏偉航 趙錦成
摘 ?要: 手勢識別是當(dāng)前計算機(jī)視覺的一個重要研究課題,由于手勢旋轉(zhuǎn),角度等因素的影響,視頻手勢識別仍是一項具有挑戰(zhàn)性的任務(wù)。該文提出了一種基于三維密集卷積神經(jīng)網(wǎng)絡(luò)和門限循環(huán)單元的雙通道手勢識別算法,通過三維密集卷積神經(jīng)網(wǎng)絡(luò)獲取手勢的空間信息,使用門限循環(huán)單元學(xué)習(xí)視頻中手勢的時序信息,最后融合RGB圖像和深度圖像的深度學(xué)習(xí)模型特征以此對手勢進(jìn)行識別。在ISOGD數(shù)據(jù)集上的實驗表明,該手勢識別算法能夠有效提高了視頻手勢識別的準(zhǔn)確率。
關(guān)鍵詞: 手勢識別;三維密集卷積神經(jīng)網(wǎng)絡(luò);門限循環(huán)單元
中圖分類號: TP183;TP391.4 ? 文獻(xiàn)標(biāo)識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.06.024
本文著錄格式:馬乾力,魏偉航,趙錦成,等. 三維循環(huán)密集卷積神經(jīng)網(wǎng)絡(luò)在視頻手勢識別的應(yīng)用[J]. 軟件,2019,40(6):109112
【Abstract】: Recent vedio gesture recognition is an important research topic in computer vision,which is an still a challenging task due to the influence of gesture rotation, angle and other factors. In this paper, a two-channel gesture recognition algorithm based on 3-D dense convolution neural network and threshold cycle module is proposed. We acquire the spatial information of gesture by 3-D dense convolution neural network,get the temporal information of gesture in video by gated recurrent unit, and the deep learning model features of RGB image and depth image are fused to recognize gesture.The experiments on ISOGD datasets show that this gesture recognition algorithm can effectively improve the accuracy of video gesture recognition.
【Key words】: Gesture recognition; 3-D dense convolution neural network; Gated recurrent unit
0 ?引言
手勢作為人類的一種常用身體語言,在日常生活中具有非常重要的作用,在現(xiàn)實中也有很多應(yīng)用場景,如人機(jī)交互、手語識別和虛擬現(xiàn)實等。傳統(tǒng)的手勢識別方案主要通過穿戴設(shè)備采集使用者的手勢信息,由計算機(jī)分析這些手勢信息作出手勢判別。這一類方案識別準(zhǔn)確度高,算法復(fù)雜度低,但使用時需要輔助設(shè)備,用戶體驗差以至于難以推廣。隨著計算機(jī)視覺和深度學(xué)習(xí)的發(fā)展,基于圖像與視頻的手勢識別成為了目前手勢識別研究領(lǐng)域的重點研究方向。
基于視覺的手勢識別通過提取圖像或者視頻中的特征由分類器給出對應(yīng)的手勢標(biāo)簽。最早的基于視覺的手勢識別方法主要分三個階段:手勢形態(tài)分割、手勢特征提取和分類。其中手勢形態(tài)分割主要通過膚色特征進(jìn)行手勢分割[1],手勢特征提取階段使用SIFT特征、HOG特征或者各類統(tǒng)計量特征,分類階段常采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如隱馬爾可夫模型、支持向量機(jī)、有限狀態(tài)機(jī)和神經(jīng)網(wǎng)絡(luò)等。在2016年大型手勢識別挑戰(zhàn)中,基于神經(jīng)網(wǎng)絡(luò)的方法[2,3]在手勢檢測方面有了顯著提升,所以當(dāng)前比較流行的手勢識別方法大多采用深度學(xué)習(xí)算法。馬等人[4]結(jié)合了二維密集卷積網(wǎng)絡(luò)與空間轉(zhuǎn)換網(wǎng)絡(luò),空間轉(zhuǎn)換網(wǎng)絡(luò)能夠動態(tài)地對輸入圖像進(jìn)行空間變換和對齊。不同于一般的圖像分類任務(wù),手勢通常是一個連續(xù)性的動作,從一幅靜態(tài)圖像很難識別完整的手勢。因此,具有時間序列的手勢視頻具有更強(qiáng)的魯棒性,同時學(xué)習(xí)時序信息為手勢識別提供更多的有效特征。Zhu等人[5,6]使用三維卷積神經(jīng)網(wǎng)絡(luò)對視頻進(jìn)行檢測,這種策略使得網(wǎng)絡(luò)能夠從視頻中識別出人類的手勢。
本文提出了一種基于三維密集卷積神經(jīng)網(wǎng)絡(luò)[7,8]和門限循環(huán)單元[9]的雙通道手勢識別算法,如圖1所示,32幀RGB和深度視頻輸入經(jīng)過不同的預(yù)處理后,三維密集CNN用于從輸入視頻中提取短期空間特征,門限循環(huán)單元進(jìn)一步學(xué)習(xí)手勢的長期時序特征,最后將基于RGB和深度視頻的網(wǎng)絡(luò)輸出進(jìn)行特征融合,通過全連接層得到最終預(yù)測結(jié)果。實驗結(jié)果表明,該算法在視頻手勢識別上取得了很好的效果。
1 ?三維循環(huán)殘差卷積神經(jīng)網(wǎng)絡(luò)
1.1 ?預(yù)處理
深度網(wǎng)絡(luò)模型能通過大量的訓(xùn)練數(shù)據(jù)優(yōu)化出一個強(qiáng)分類器,但訓(xùn)練數(shù)據(jù)的噪聲、對比度小或圖像背景暗會降低模型的準(zhǔn)確性和魯棒性。在手勢識別任務(wù)中,也經(jīng)常對待測圖像使用一些圖像預(yù)處理方法。由圖1可知,本文對RGB和深度圖像采用了不同的預(yù)處理方法。
對RGB圖像進(jìn)行檢測時,相同的手勢在不同的光照條件下會發(fā)生很大的變化,在可見度不高的情況下甚至?xí)挂恍┦謩轃o法識別,由此對RGB視頻采用了同態(tài)濾波進(jìn)行圖像增強(qiáng),同態(tài)濾波能夠在不損失圖象細(xì)節(jié)的前提下消除不均勻光照的影響。而深度數(shù)據(jù)是通過發(fā)射和接收紅外線得到,圖像表現(xiàn)接近于灰度圖像,圖像中的像素值代表了紅外傳感器與被測物體的實際距離。由于紅外傳感器會受光源或熱源等外部環(huán)境所影響,圖像中會產(chǎn)生噪聲和空洞,且邊緣深度值不穩(wěn)定。因此本文中對輸入的深度視頻采用中值濾波進(jìn)行預(yù)處理,中值濾波能夠有效抑制圖像中的椒鹽噪聲,減小甚至去除一些圖像空洞,并對圖像邊緣部分有一定的增強(qiáng)作用。