陳忠輝 王等準 萬廣 方洪波 黃以衛(wèi) 謝本亮
摘 要: 在手勢識別的過程中,手勢的多樣性和復雜性會對識別的可靠性和準確性帶來較大影響?;谝曈X的手勢識別通常采取單一特征用于手勢分類,但是單一特征無法較好地描述整個圖像。因此本文提出多種特征融合的方法,分別提取改進后的梯度方向直方圖(HOG)特征和MB-LBP特征,并進行特征融合,結合支持向量機(SVM)分類器完成手勢圖像的識別。實驗結果表明,提取的融合特征包含手勢圖像的局部區(qū)域梯度信息和圖像的紋理信息,可以更加全面地描述圖像的手勢特征。相較于單一特征識別方法而言,基于特征融合的方法有著更高的識別率。
關鍵詞: 手勢識別; MB-LBP; 改進HOG特征
文章編號: 2095-2163(2021)07-0212-05中圖分類號:TP391.4文獻標志碼: A
Gesture recognition based on feature fusion
CHEN Zhonghui1, WANG Dengzhun1, WAN Guang1, FANG Hongbo1, HUANG Yiwei2, XIE Benliang1
(1 College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China;
2 West China? Modernization Research Center, Guizhou University of Finance and Economics, Guiyang 550025, China)
【Abstract】In the process of gesture recognition, the diversity and complexity of gestures will have a greater impact on the reliability and accuracy of recognition. Vision-based gesture recognition usually adopts a single feature for gesture classification, but a single feature cannot describe the entire image well. Therefore, this paper proposes a variety of feature fusion methods, respectively extracting the improved histogram of gradient (HOG) features and MB-LBP features, and performing feature fusion, combined with SVM classifier to complete the recognition of gesture images. Experimental results show that the extracted fusion features include the local area gradient information of the gesture image and the texture information of the image, which can describe the gesture features of the image more comprehensively. Compared with the single feature recognition method, the method based on feature fusion has a higher recognition rate.
【Key words】gesture recognition; MB-LBP; improved HOG features
0 引 言
手勢是一種十分重要的溝通交流方式,若能對手勢進行成功識別就必將為人類與機器、設備和計算機的交互開創(chuàng)出嶄新局面。隨著計算機技術、尤其是增強現(xiàn)實[1],輔助駕駛[2]等技術的飛速發(fā)展,通過手勢識別進行人機交互[3]的需求越來越廣泛。手勢識別已然成為當前的熱點研究方向之一,因此手勢識別技術的研究具有十分重要的現(xiàn)實意義。
研究可知,基于視覺的手勢識別包括著3個基本步驟:手勢分割[4]、手勢特征提取[4]、手勢識別[5]。其中,特征提取對手勢識別的準確率有著至關重要的作用。當前,常見的手勢特征通常包括了形狀特征和紋理特征。具體來說,形狀特征主要有:梯度直方圖[6](HOG)和Haar-like[7]特征;紋理特征有局部二值圖[8](LBP)和Gabor[9]特征。這些特征均已被應用于基于視覺的手勢識別中。
翁漢良等人[10]將指尖個數(shù)和方向作為手勢特征,結合輪廓長度和面積等幾何特征完成手勢識別。楊學文等人[11]根據(jù)手勢主方向建立二維手勢直角坐標系勢特征,利用空間手勢坐標點分布特征方法對手勢進行初步識別,再利用類-Hausdorff距離模板[12]匹配的思想識別最終的手勢。肖宇[13]采用方向梯度直方圖(HOG)來獲得手勢特征,然后使用隨機森林作為分類器實現(xiàn)對手勢的識別。盧夢圓等人[14]分別提取手勢圖像的梯度方向直方圖(HOG)和局部二值模式(LBP)兩種特征,并進行特征融合,結合支持向量機算法完成手勢識別。趙倩楠等人[15]采用串行融合方法將手勢指尖特征和手部HOG特征相結合,并采用支持向量機(SVM)[16]作為分類器,獲得了較高的識別準確率。
由于單一特征描述手勢圖像信息存在局限性,本文提出一種基于特征融合的手勢識別方法。對預處理后的手勢圖像分別提取改進后的梯度方向直方圖(HOG)特征和MB-LBP[17]特征并進行特征融合,基于SVM分類器完成手勢圖像的識別。實驗結果表明,相較于單一特征識別,本文算法對手勢圖像有著更高的識別準確率。
1 特征融合的手勢識別
1.1 算法流程
基于特征融合的手勢識別步驟可表述為:對采集的手勢圖像進行預處理操作,歸一化尺寸并去除背景區(qū)域?qū)Ψ诸惤Y果的影響;分別提取手勢圖像的改進后的HOG特征和MB-LBP特征并進行特征融合;結合支持向量機(SVM)分類器進行分類和識別。算法流程如圖1所示。
1.2 圖像預處理
圖像預處理是圖像識別中的重要過程。經(jīng)過預處理后的圖像質(zhì)量會得到很大提高,從而得到更好的分類效果。本文對手勢圖像預處理過程如圖2所示。
步驟1 為提高圖像特征提取、訓練和預測速度,將圖像尺寸設置為128像素×128像素,并將圖像由彩色RGB格式轉(zhuǎn)換為HSV格式圖像,部分手勢的RGB圖像如圖2(a)所示。
步驟2 為去除背景區(qū)域?qū)κ謩輬D像識別的影響,利用HSV顏色直方圖(見圖2(b))將手勢區(qū)域與背景區(qū)域進行分割,分割閾值為:
若手勢圖像某點像素的像素值處于閾值之內(nèi),則將其像素值設為0,否則將其設為255。由此可以獲取背景區(qū)域已去除的二進制圖像。將二值圖像用作掩模,并對灰度圖像進行形態(tài)“與”運算,得到去除背景區(qū)域的手勢圖像如圖2(c)所示。經(jīng)過圖像預處理后,手勢圖像去除了背景區(qū)域,同時保留了手勢的外觀和形狀等信息,避免識別結果受手勢變形的影響。
1.3 改進梯度特征提取
HOG是一種描述圖像本身梯度方向的特征,其主要思想是通過計算圖像局部區(qū)域的梯度直方圖來表示圖像局部的紋理信息和形狀大小。當圖像是用頻域表示時,低頻區(qū)域表示圖像的能量,中頻區(qū)域表示圖像的紋理細節(jié),高頻區(qū)域表示圖像的邊緣和噪聲。傳統(tǒng)HOG特征提取算法使用Sobel算子提取圖像水平和垂直方向梯度信息。Sobel算子使用整數(shù)階微分可以完成圖像高頻邊緣區(qū)域檢測,但同時也會造成中頻區(qū)域信息模糊化,增加圖像噪聲強度。相較于傳統(tǒng)整數(shù)階微分的邊緣檢測算子,分數(shù)階微分[18]的邊緣檢測算子檢測圖像高頻邊緣區(qū)域同時可保留圖像中頻信號,達到增強圖像紋理信息的目的,使提取的特征信息更加豐富。
由傳統(tǒng)整數(shù)階微分運算法則,推導出一元函數(shù)分數(shù)階微分差分表達式為:
其中,a∈(0,1)表示微分步長;? t為分數(shù)階微分上限;Γ(n)為Gamma函數(shù)。
由于圖像是二維空間,所以一元函數(shù)分數(shù)階微分差分表達式推廣到二維空間,得到二維分數(shù)階微分在水平和垂直方向上差分表達式分別為:
根據(jù)式(2)、式(3),可以在x,y方向上構造的分數(shù)階微分算子分別為:[[SX(]a2-a[]2[SX)],-a,1], 「[SX(]a2-a[]2[SX)],-a,1T。其中,a∈(0,1)表示微分變量,a<0時表示積分,a>0時表示微分,a=0時既不是積分、也不是微分。改進的HOG特征值的提取方法主要是把分數(shù)階微分應用到邊緣檢測算子中,通過梯度優(yōu)化算子獲取更多特征信息。改進后的HOG特征提取包括以下步驟:
(1)采用分數(shù)階微分算子提取圖像在水平方向和垂直方向上的梯度。
(2)將梯度方向等間隔量化到k個區(qū)間,并將圖像均勻劃分為m×m個元胞。統(tǒng)計每個元胞內(nèi)k個方向的投影,生成梯度方向直方圖。本文設置k=9,像素的梯度方向為0°,20°,特征向量為9維。
(3)把相鄰2×2元胞單元組合成一個區(qū)域塊(block),區(qū)域塊內(nèi)歸一化梯度直方圖。
(4)串聯(lián)區(qū)域塊內(nèi)(block)獲取的梯度直方圖特征,得到改進后的HOG特征向量。
1.4 MB-LBP特征提取
LBP特征是一種用來描述圖像局部紋理特征的算子,傳統(tǒng)LBP算子采取的是將中心點像素與領域采樣的像素值進行比較,這是將單個像素與單個像素之間做出比較,因此LBP對噪聲較為敏感。且當拍攝時不夠明亮、亮度不夠均勻,圖像傳感器長期工作,溫度過高等因素都會導致圖像富含噪聲,此時LBP特征存在明顯不足。為提高特征描述子的抗噪能力,采用對噪聲不敏感的MB-LBP提取手勢圖像的紋理特征。
傳統(tǒng)LBP和MB-LBP的特征提取原理如圖3所示。圖3(a)為傳統(tǒng)LBP特征提取編碼圖,圖3(b)為MB-LBP特征提取編碼圖。MB-LBP特征提取尺寸為3×3個塊(block),每個塊中含有3×3個像素,每塊取對應3×3區(qū)域塊內(nèi)像素平均值。假設MB-LBP特征提取的第一個區(qū)域塊正好對應LBP特征提取的3×3區(qū)域塊。由圖3可以看出,當LBP特征提取的區(qū)域塊內(nèi)某些像素點受噪聲影響像素值發(fā)生改變時,LBP特征提取編碼發(fā)生改變,但MB-LBP特征提取編碼沒有受到噪聲影響。且當MB-LBP的區(qū)域塊取值為1×1時,MB-LBP相當于傳統(tǒng)非統(tǒng)一模式的LBP。因此MB-LBP不僅關注單個像素點,而且關注塊與塊之間的像素。
將預處理后的手勢圖像進行MB-LBP特征提取,將獲得的MB-LBP特征圖分為互不重疊的L×L個區(qū)域塊(block),計算每個區(qū)域塊(block)的直方圖并串聯(lián)成一個直方圖特征。該直方圖特征向量即為手勢圖像的紋理特征向量。
將預處理后的手勢圖像進行基于分數(shù)階微分的HOG特征和MB-LBP紋理特征提取,采用簡單的串聯(lián)連接對2種特征進行融合,將獲得的2種特征聯(lián)合作為手勢圖像融合特征。
1.5 分類器建立
支持向量機(SVM)是一種基于結構風險最小化原則的分類方法,在解決小樣本、非線性的數(shù)據(jù)及高維數(shù)據(jù)方面有著顯著優(yōu)勢。因此,研究中采用支持向量機算法(SVM)作為本文分類算法。選取穩(wěn)定性和準確性均較好的Liner核函數(shù)作為SVM核函數(shù)。采用網(wǎng)格搜索法對模型參數(shù)進行尋優(yōu),確定SVM的懲罰因子C=1。
2 實驗結果與分析
2.1 實驗環(huán)境
實驗計算機配置信息是Intel core CPU i5-7500處理器,8 GB 內(nèi)存,NIVDIA GTX1060顯卡,操作系統(tǒng)為Win7。為了減少實驗誤差,本文對比的算法識別率為10次實驗下的平均識別率avr,具體為:
其中,Pi代表第i次實驗正確預測樣本數(shù),S為預測樣本總數(shù)。
采用百度AI Studio手勢數(shù)據(jù)集進行訓練與測試,該數(shù)據(jù)集中手勢分為10類、共計2 602張手勢圖像,對應數(shù)字0~9,部分手勢圖像如圖4所示。采用分層采樣方法,并按7∶3比例劃分訓練集和測試集。
2.2 實驗參數(shù)
2.2.1 微分變量大小選擇
微分變量的大小選擇對改進后的HOG特征提取和手勢圖像識別準確率有著較大影響。不同微分變量下識別率如圖5所示。圖5中,識別率均為不同塊尺寸和分塊方式下最優(yōu)識別率。從圖5可以看出,當微分大小為0.5時可以取得較好的實驗結果。
2.2.2 塊的尺寸選擇和分塊方式
MB-LBP塊的尺寸選擇和MB-LBP特征圖分塊方式對手勢圖像的紋理特征有較大影響。MB-LBP塊的尺寸和分塊方式與識別率關系的仿真結果如圖6所示。由圖6可以看出當MB-LBP特征圖分塊數(shù)目確定時,不同尺寸塊的MB-LBP下的識別率不同。根據(jù)圖6可得,本文MB-LBP塊的尺寸設置為2×2,分塊數(shù)目設置為4×4。
2.3 識別結果與分析
為驗證本文算法對手勢圖像的識別性能,將本文算法與單一特征的HOG特征匹配算法、LBP特征匹配算法的分類準確率進行比較,不同算法的識別結果如圖7所示。10種手勢平均識別準確率見表1。
由表1分析可知,使用單一特征的HOG特征匹配算法和LBP特征匹配算法的識別準確率分別為86.59%和82.88%相對較低,且HOG特征匹配算法識別率高于LBP特征匹配算法識別率。相較于使用單一特征的HOG特征匹配和LBP特征匹配算法,本文算法在識別準確率上分別提高5.66%和9.37%,達到92.25%,滿足工業(yè)應用對手勢圖像識別率的要求。
3 結束語
針對單一特征描述手勢圖像存在局限性問題,提出一種基于特征融合的手勢識別方法。先后提取手勢圖像改進的分數(shù)階微分的HOG特征和MB-LBP紋理特征,將2種特征融合后結合SVM分類器進行分類識別。實驗結果表明本文算法可以對手勢圖像實現(xiàn)精確識別,識別準確率達到92.25%,優(yōu)于其他特征識別方法。但是由于手勢的多樣性,在未來的工作中將會對遮擋引起的不可識別的手勢做進一步研究,增強手勢識別的多樣性。
參考文獻
[1]袁慶曙,王若楠,潘志庚,等. 空間增強現(xiàn)實中的人機交互技術綜述[J]. 計算機輔助設計與圖形學學報,2021,33(3):321-332.
[2]周天彤,徐飛林,張旖帆,等. 基于unity和kinect的交警手勢識別仿真系統(tǒng)的設計和實現(xiàn)[J]. 計算機測量與控制,2016,24(5):156-159.
[3]SRIDEVI K, SUNDARAMBAL M, DHARAN K M, et al. Hand gesture recognition system using radial basis function Neural Networks[J]. Journal of Innovation in Electronics and Communication Engineering, 2017, 7(2):38-41.
[4]李逸琳,陶靜,霍藝文,等. 手勢特征提取與圖像分割的優(yōu)化研究[J]. 計算機應用與軟件,2020,37(2):161-165,206.
[5]程冉,史健芳. 基于卷積神經(jīng)網(wǎng)絡的手勢識別算法研究[J]. 電子設計工程,2021,29(2):179-184.
[6]LI Yalan,LU Ruhua,HUANG Rui,et al. Research on face recognition algorithm based on HOG feature[J]. Journal of Physics: Conference Series,2021,1757(1):012076.
[7]JUNAIDY D,WULANDARI M, TANUDJAJA H. Real time face detection using haar-like feature method and local binary pattern method[J]. IOP Conference Series: Materials Science and Engineering,2019,508(1):012099.
[8]EMADI M, EMADI M. Human face detection in color images using fusion of Ada Boost and LBP feature[J]. Majlesi Journal of Telecommunication Devices,2020,9(1).
[9]STERGIOPOULOU E, SGOUROPOULOS K, NIKOLAOU N, et al. Real time hand detection in a complex background[J]. Engineering Applications of Artificial Intelligence,2014,35:54-70.
[10]翁漢良,戰(zhàn)蔭偉. 基于視覺的多特征手勢識別[J]. 計算機工程與科學,2012,34(2):123-127.
[11]楊學文,馮志全,黃忠柱,等. 結合手勢主方向和類-Hausdorff距離的手勢識別[J]. 計算機輔助設計與圖形學學報,2016,28(1):75-81.
[12]秦育羅,郭冰,孫小榮. 改進Hausdorff距離及其在多尺度道路網(wǎng)匹配中的應用[J]. 測繪科學技術學報,2020,37(3):313-318.
[13]肖宇. 基于序列圖像的手勢檢測與識別算法研究[D]. 成都:電子科技大學,2014.
[14]盧夢圓,官巍,馬力. 基于多特征融合的手勢識別研究[J]. 計算機與數(shù)字工程,2020,48(9):2157-2161.
[15]趙倩楠,胡延平. 一種基于特征融合的手勢識別方法[J]. 物聯(lián)網(wǎng)技術,2020,10(9):33-36.
[16]ANDREW A M. An Introduction to Support Vector Machines and other kernel-based learning methods[J]. Robotica,2000,18(6):687-689.
[17]劉斌,米強,徐巖. LBP和MB-LBP加權融合的人臉識別[J]. 計算機工程與設計,2018,39(2):551-556.
[18]黃果,許黎,蒲亦非. 分數(shù)階微積分在圖像處理中的研究綜述[J]. 計算機應用研究,2012,29(2):414-420,426.
基金項目: 國家自然科學基金(61562009);貴州大學人才引進項目(2015-29);半導體功率器件教育部工程研究中心開放基金項目(ERCMEKFJJ2019-(06); 貴州財經(jīng)大學人才引進項目(校聘發(fā)[2020]4號)。
作者簡介: 陳忠輝(1995-),男,碩士研究生,主要研究方向:圖像處理、目標檢測; 謝本亮(1978-),男,博士,副教授,主要研究方向:圖像處理、計算機視覺、目標檢測。
收稿日期: 2021-04-06